CN104584124B - 编码装置、解码装置、编码方法、以及解码方法 - Google Patents

编码装置、解码装置、编码方法、以及解码方法 Download PDF

Info

Publication number
CN104584124B
CN104584124B CN201380043203.2A CN201380043203A CN104584124B CN 104584124 B CN104584124 B CN 104584124B CN 201380043203 A CN201380043203 A CN 201380043203A CN 104584124 B CN104584124 B CN 104584124B
Authority
CN
China
Prior art keywords
signal
frequency band
tone
parameter
low
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380043203.2A
Other languages
English (en)
Other versions
CN104584124A (zh
Inventor
石川智
石川智一
张国成
刘宗宪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of CN104584124A publication Critical patent/CN104584124A/zh
Application granted granted Critical
Publication of CN104584124B publication Critical patent/CN104584124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Abstract

带宽扩展参数生成装置(306)具有:抽出部(303),抽出表示输入声音信号的高频带部分的高频带信号;以及计算部(304),计算表示高频带信号中的音调成分的能量的大小的音调参数、和表示高频带信号中的除了音调成分之外的成分即基底成分的能量的大小的基底参数。

Description

编码装置、解码装置、编码方法、以及解码方法
技术领域
本发明涉及声音信号的编码装置及解码装置等,尤其涉及声音信号的编码及解码中的带宽扩展(bandwidth extension)技术。
背景技术
一般来说,在声音信号(语音信号及音频信号)的编码中,使用核心编码工具(corecoding tool)和参量编码工具(parametric coding tool)这两种工具。
作为参量编码工具之一的带宽扩展工具(BWE工具),在MPEG USAC(非专利文献2)等技术中,已知有上复制(copy-up)方法和谐波(harmonic)方法。
现有技术文献
非专利文献
非专利文献1:Carot,Alexander,et al“Networked Music Performance:Stateof the Art”,AES 30th International Conference,2007 March 15-17
非专利文献2:Neuendorf,et al,“MPEG Unified Speech and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of all ContentTypes”,AES 132nd Convention,2012 April 26-29.
非专利文献3:Sinha,et al,“A Novel Integrated Audio Bandwidth ExtensionToolkit(ABET)”,AES 120th Convention,2006,May 20-23.
非专利文献4:Shuixian Chen,et al,“Estimating Spatial Cues for AudioCoding in MDCT Domain”,IEEE International Conference on Multimedia and Expo,2009,June 28-July 3
非专利文献5:Daudet,Sandler,“MDCT Analysis of Sinusoids:Exact Resultsand Applications to Coding Artifacts Reduction”,IEEE Transactions on Speechand Audio Processing,Vol.12,No.3,May 2004.
发明内容
发明要解决的课题
上复制方法是复制低频部分的频谱而生成高频部分的频谱的简单方法。在上复制方法中,存在无法正确保持两个频谱间的谐波关系的课题。即,音质是课题。
另一方面,谐波方法是通过将低频部分的频谱谐波地拉伸(stretch),并且切割出来,生成高频部分的频谱的方法。在谐波方法中,由于处理复杂,因此其课题在于延迟时间长这一点和需要大容量存储器这一点上。
于是,本发明提供使用了新的带宽扩展方法的带宽扩展参数生成装置等。
用于解决课题的手段
本发明的一个方式的带宽扩展参数生成装置具有:提取部,提取表示输入声音信号的高频带部分的高频带信号;以及计算部,计算音调参数和基底参数,所述音调参数表示所述高频带信号中的音调成分的能量的大小,所述基底参数表示所述高频带信号中的除了所述音调成分之外的成分即基底成分的能量的大小。
另外,这些概括性的或者具体的方式也可以以系统、方法、集成电路、计算机程序或者计算机可读的CD-ROM等记录介质来实现,还可以以系统、方法、集成电路、计算机程序及记录介质的任意组合来实现。
发明效果
根据本发明的带宽扩展参数生成装置等,能够抑制延迟时间及使用存储器,并且使高音质的带宽扩展成为可能。
附图说明
图1是用于说明上复制方法(图1的(a))和谐波方法(图1的(b))的示意图。
图2是表示USAC的解码器中的两个BWE模式的框图。
图3是表示实施方式1的编码装置的功能结构的框图。
图4是实施方式1的编码装置的动作的流程图。
图5是表示时间间隙(time slot)与参数间隙(parameter slot)的关系、以及子带与参数频带的关系的图。
图6是表示实施方式2的解码装置的功能结构的框图。
图7是实施方式2的解码装置的动作的流程图。
图8是表示实施方式3的编码装置的功能结构的框图。
图9是实施方式3的编码装置的动作的流程图。
图10是表示调帧器的成帧动作及窗处理动作的图。
图11是表示MDCT区域、MDST区域、以及复数区域的各个区域中的纯粹的音调的能量的图。
图12是表示实施方式4的解码装置的功能结构的框图。
图13是实施方式4的解码装置的动作的流程图。
具体实施方式
(作为本申请的基础的见解)
在声音信号(语音信号及音频信号)的编码中,一般使用参量编码工具和核心编码工具这至少两种工具。首先,对参量编码工具进行说明。
参量编码工具进行以维持输入声音信号(以下,有时记载为输入信号、原信号或编码对象的信号)的感知性特征来进行重构为目的的编码。通过该编码,输入信号的感知性特征通过以低比特率编码得到的少数参数来表示。
将由参量编码工具编码后的信号进行解码而得到的信号、即重构信号,虽然能够在感知性上维持输入信号的品质,但重构信号的波形与输入信号的波形并不类似。作为参量编码工具,例举如带宽扩展工具和多声道扩展工具。
带宽扩展工具通过利用信号的高频部分与低频部分的谐波关系,将信号的高频部分参量化地进行编码。作为通过带宽扩展工具的编码而生成的参数(带宽扩展参数)的例子,例如子带能量和音调噪声比(tone-to-noise ratio)。
带宽扩展参数在频谱地扩展后的高频部分的信号的振幅的形成中使用。通过在解码器中修补或者拉伸而将低频部分扩展,由此形成高频部分的信号。另外,在解码器中,适当校正基底噪声及音质等。虽然作为结果而得到的输出信号的波形与输入信号的波形不类似,但输出信号在感知性方面与输入信号相似。
HE-AAC就是包含这样的带宽扩展工具及频谱频带复制(SBR)的编解码器。在SBR中,在使用正交镜像滤波器组(QMF)而生成的时间频率混合区域中进行参数计算。ITU-TG.718也是具有带宽扩展工具的编解码器,但在ITU-T G.718中,参数计算是在改进离散余弦变换(MDCT,Modified Discrete Cosine Transform)区域中进行的。
多声道扩展工具将多声道信号下混合(down mix)到编码用的声道子集。结果是,各个声道间的关系被参量化地编码。作为通过多声道扩展工具的编码而生成的参数的例子,例如声道间电平差、声道间时间差、以及声道间相关。在解码器中,通过将解码完成的下混合声道和人工生成的“非相关”信号混合,来合成各个声道。混合的权重(weights)基于上述参数计算出。MPEG环绕(MPS)是多声道扩展工具的应用例。
接着,对核心编码工具进行说明。核心编码工具与参量编码工具相对照地,进行以维持输入信号的波形特征来进行重构为目的的编码。核心编码工具通常适用于人类的耳朵反应最敏感的频谱的低频部分。核心编码工具大致分为音频编解码器和语音编解码器这两种。
音频编解码器适用于对包含被局部化的频谱成分的稳定信号(例如,音调信号或高次谐波信号)进行编码。在音频编解码器中,编码主要是在频率区域进行的。
音频编解码器的编码使用时间/频率变换及MDCT将信号变换到频率(频谱)区域。在MDCT时,部分重合的帧被实施窗处理。
帧的部分重合是为了在解码器中实施相邻的帧间的平滑化机理而设置的。在窗处理中具有两个目的,即,为了平滑化而生成高分解频谱、以及使帧的边界模糊。
为了补充由帧的部分重叠而生成的并不重要的采样效果,在MDCT时,将时域样本变换为更少数的编码用的频谱系数。通过该变换生成混叠成分,混叠成分通过在解码器中重合而被抵消。
在音频编解码器中,优点在于能够容易适用音响心理学的模型。具体来说,在音频编解码器中,能够对掩蔽声音(掩蔽者)分配更多的比特,对被掩蔽的声音(被掩蔽者)分配更少的比特。被掩蔽者是被其他声音掩蔽,人类的耳朵感知不到的声音。
这样,通过适用音响心理学的模型,在音频编解码器中,能够大幅提高编码效率和音质。MPEG高级音频编码(AAC)是纯粹的音频编解码器的适用例。
语音编解码器因为是基于利用了声道的基音(pitch)特性的模型的编解码器,所以适用于人类的语音(语音信号)的编码。
在语音编解码器的编码中,为了取得语音信号的频谱包络线而使用线性预测(LP)滤波器,语音信号被编码为LP滤波器系数。接着,通过LP滤波器,语音信号被逆滤波(频谱性地分离),频谱性地生成扁平的(flat)激励信号。生成的激励信号通常在以“码字”表示激励信号的矢量量化(VQ)计划中被离散地编码。
在语音编解码器中,在线性预测之外,还能够为了取得长时间的语音而组合采用长期预测(LTP)。并且,在语音编解码器中,在线性预测之前对语音信号适用白化滤波器,由此能够顾及到音响心理学的方面。
在语音编解码器中,通过激励信号的离散性编码,能够以低比特率获得良好的音质。但是,在语音编解码器中,由于不能取得音乐那样的内容的复数频谱,所以不适用于这样的内容的编码。ITU-T的自适应多速率宽频带(AMR-WB)是纯粹的语音编解码器的适用例。
作为第三个编解码器,周知有被称为变换编码激励(TCX)的编解码器。TCX是将LP编码和变换编码组合的编解码器。
在TCX中,首先,由从信号的线性预测滤波器导出的感知滤波器感知地对信号进行加权。接着,加权后的信号变换到频域(频谱系数),利用VQ计划将频谱系数编码。
TCX在ITU-T的自适应多速率宽频带+(AMR-WB+)编解码器中能够见到。另外,由AMR-WB+利用的频率变换是离散傅里叶变换(DFT)。
近年来,伴随着高精细化(HD)技术的发展,通信装置不仅用于通信用途,还用于多媒体和娱乐等多种目的。并且,与此相应地,对能够应对语音及音频双方的综合编解码器的需要也提高。
例如,在MPEG中,综合语音音响编码(USAC)被标准化(非专利文献2)。USAC是能够组合上述所有的工具(AAC、LP、TCX、SBR、以及MPS)中的最合适的工具的、低比特率的编解码器。并且,USAC能够以宽范围的比特率应对语音及音频的编码。
USAC的编码器使MPS工具动作并将立体声信号下混合到单声道信号。并且,USAC的编码器使SBR工具动作并将全频带的单声道信号压缩到窄频带的单声道信号。而且,USAC的编码器为了对窄频带的单声道信号进行编码,使用信号选择器对输入信号的特征进行分析,决定应该使哪个核心编解码器(AAC、LP、TCX)动作。
这里,最近随着社交网络文化的兴起,参加利用电视会议或音响影像进行双向娱乐等社会活动、并精通网络的人们开始增加。作为预计今后会普及的活动之一,例如有将位于不同场所的用户经由因特网而集结,进行或演奏乐器或合唱或无伴奏唱歌的网络上的音乐演奏。
在假设了这种网络上的音乐演奏等的情况下,为了防止人类耳朵感知的“音乐偏差”,必须使由信号处理及网络引起的延迟合计不超过30毫秒(参照非专利文献2)。
例如,在由回声去除及基于网络的延迟而产生了20毫秒的延迟的情况下,在编码及解码中所允许的延迟为大约10毫秒。因此,希望在编码及解码中使用的BWE工具也是低延迟的。
在USAC中,作为BWE工具,已知有上复制方法和谐波方法。这两个方法的不同点在于高频频谱从低频频谱导出的方法不同。另外,谐波方法是在USAC中新提示的方法,以较强的谐波结构改善信号的编码。
图1是用于说明上复制方法和谐波方法的示意图。如图1的(a)所示,在上复制方法中,低频部分的频谱直接被复制为高频部分的频谱。上复制方法的动作复杂度非常低,但上复制方法的动作不能正确地保持两个频谱间的谐波关系。
另一方面,如图1的(b)所示,在谐波方法中,将低频部分的频谱谐波地拉伸并切出,由此生成高频部分的频谱。该动作原理与相位声码器的动作原理相似,包含多个时间性拉伸及再采样的子程序。因此,谐波方法的动作复杂度变高。
在USAC中,这两个方法作为两个BWE模式存在。以下,对USAC的解码器的基本结构进行说明。图2是表示USAC的解码器中的两个BWE模式的框图。
首先,对从核心解码器获得的窄频带信号进行QMF分析200,生成32频带的子带信号。理论上,对于32频带的子带信号,在高频(HF)调整206前根据BWE模式标志,进行复制模式207或者谐波模式208的处理即可。
但是,为了维持滤波动作的帧间的连续性(即,为了连续维持滤波器存储器缓存),必须使双方的模式始终动作。由此,需要大容量的存储器(ROM及RAM)。
并且,在谐波模式208中,除了需要复杂度高且大容量的存储器,为了将32频带的子带信号变换为64频带的子带信号,还需要临界采样202。
具体来说,进行将32频带的子带信号变换到时域的QMF合成203,接着,通过对QMF合成203后的时域的信号进行QMF分析204来生成64频带的子带信号。生成的64频带的子带信号被时间性拉伸及再采样205,生成高频部分。
在谐波模式208中,这样通过临界采样202中的QMF滤波器组处理,在解码处理进一步生成延迟。
另一方面,在复制模式207中进行上复制201的情况下,针对音调成分在广范围内扩展的(音调性弱的)信号,与谐波方法获得同样的效果。这是因为,这种情况下人类的耳朵不能区别高频部分的音调成分。
但是,如上所述,在复制模式207中,不能保持低频部分的频谱和复制得到的高频部分的频谱之间的谐和关系。因此,在适用于较强的谐波结构的(音调性强的)信号的情况下,上复制201不能顺利进行。另外,在音调性强的信号中,音调成分中通常是高能量的音调成分及其高次谐波为支配性的。
于是,发明人基于这些见解,为了解决上复制方法及谐波方法中的复杂度、延迟、以及存储器等的问题,发明了新的带宽扩展技术。
具体来说,本发明的一个方式的带宽扩展参数生成装置具有:抽出部,抽出表示输入声音信号的高频带部分的高频带信号;以及计算部,计算音调参数和基底参数,所述音调参数表示所述高频带信号中的音调成分的能量的大小,所述基底参数表示所述高频带信号中的除了所述音调成分之外的成分即基底成分的能量的大小。
本发明的一个方式的编码装置具有:上述带宽扩展参数生成装置;编码部,将表示除了所述高频带部分之外的所述输入声音信号的信号编码为核心参数;以及比特流多路复用器,生成并输出包含所述音调参数、所述基底参数和所述核心参数的比特流。
并且,也可以还具有:滤波器部,生成除了所述高频带部分之外的所述输入声音信号即窄频带信号;以及正交镜像滤波器QMF分析部,将所述输入声音信号变换为子带信号,所述编码部将所述窄频带信号编码为所述核心参数,所述抽出部将所述子带信号的高频带部分即HF子带信号作为所述高频带信号抽出。
并且,也可以还具有:改进离散余弦变换MDCT(Modified Discrete CosineTransform)部,生成将所述输入声音信号进行MDCT处理后得到的MDCT信号;以及改进离散正弦变换MDST部,生成将所述输入声音信号进行MDST处理后得到的MDST信号,所述编码部将除去与所述输入声音信号的所述高频带部分对应的部分之后的所述MDCT信号编码为核心参数,所述抽出部从所述MDCT信号及所述MDST信号生成复数信号,将生成的所述复数信号的高频带部分作为所述高频带信号抽出。
本发明的一个方式的解码装置,对比特流进行解码,在所述比特流中,包含核心参数、音调参数和基底参数,所述核心参数是已编码的输入声音信号的低频带部分,所述音调参数表示高频带信号之中的音调成分的能量的大小,所述基底参数表示所述高频带信号中的除了所述音调成分之外的成分即基底成分的能量的大小,其中,所述高频带信号表示所述输入声音信号的高频带部分,所述解码装置具有:解码部,通过解码所述核心参数而生成解码完成窄频带信号;分割部,生成低频带音调信号和低频带基底信号,所述低频带音调信号是表示所述解码完成窄频带信号的音调成分的信号,所述低频带基底信号是表示所述解码完成窄频带信号的基底成分的信号;音调扩展部,使用所述低频带音调信号生成与所述高频带信号的音调成分对应的信号即高频带音调信号;基底扩展部,使用所述低频带基底信号生成与所述高频带信号的基底成分对应的信号即高频带基底信号;音调调整部,生成使用所述音调参数将所述高频带音调信号调整后得到的调整完成音调信号;基底调整部,生成使用所述基底参数将所述高频带基底信号调整后得到的调整完成基底信号;以及加法部,生成将从所述核心参数获得的信号、所述调整完成音调信号和所述调整完成基底信号相加后得到的带宽扩展信号。
并且,所述音调扩展部也可以将表示所述低频带音调信号中包含的音调成分的高次谐波成分的信号作为所述高频带音调信号而生成。
并且,也可以还具有:QMF分析部,将所述解码完成窄频带信号变换为子带信号,所述分割部通过分割所述子带信号,生成所述低频带音调信号和所述低频带基底信号,所述加法部生成将从所述核心参数得到的信号即所述子带信号、所述调整完成音调信号和所述调整完成基底信号相加后得到的所述带宽扩展信号。
并且,所述音调扩展部也可以通过从所述低频带音调信号中的子带之中选择音调成分的能量(1)比相邻的子带的音调成分的能量的规定倍大、且(2)比该子带的基底成分的能量的规定倍大的子带,并向所选择出的子带的整数倍的子带复制该选择出的子带的所述低频带音调信号,由此生成所述高频带音调信号。
并且,也可以还具有比特流多路分离器,从所述比特流生成所述音调参数、所述基底参数和所述核心参数;以及QMF合成部,将所述带宽扩展信号变换到时域。
并且,所述解码部也可以(1)解码所述核心参数并生成MDCT信号,(2)生成将所述MDCT信号变换到MDST区域后得到的MDST信号,(3)将从生成的所述MDCT信号及所述MDST信号得到的复数信号作为所述解码完成窄频带信号而生成,所述加法部生成将从所述核心参数获得的信号即所述MDCT信号、所述调整完成音调信号和所述调整完成基底信号相加后得到的所述带宽扩展信号。
并且,所述音调扩展部也可以从所述低频带音调信号中的频率窗口之中选择音调成分的能量比相邻的频率窗口的音调成分的能量的规定倍大的频率窗口,并向所选择出的频率窗口的整数倍的频率窗口复制该选择出的频率窗口的所述低频带音调信号,由此生成所述高频带音调信号。
并且,也可以还具有比特流多路分离器,从所述比特流生成所述音调参数、所述基底参数和所述核心参数;以及逆改进离散余弦变换IMDCT(Inverse Modified DiscreteCosine Transform)部。
另外,这些概括性的或者具体的方式也可以通过系统、方法、集成电路、计算机程序或者计算机可读的CD-ROM等记录介质来实现,也可以利用系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。
以下,参照附图对实施方式进行具体说明。
另外,以下说明的实施方式都是表示概括性或具体的示例。在以下的实施方式中示出的数值、形状、材料、结构要素、结构要素的配置位置及连接方式、步骤、步骤的顺序等是一个例子,不用于限定本发明的主旨。并且,以下的实施方式中的结构要素之中,将未记载在表示最上位概念的独立技术方案中的结构要素,作为任意的结构要素进行说明。
(实施方式1)
在实施方式1中,对使用了本发明的带宽扩展技术的编码装置进行说明图。图3是表示实施方式1的编码装置的功能结构的框图。图4是实施方式1的编码装置的动作的流程图。
如图3所示,实施方式1的编码装置100a具有:滤波器部300、编码部301、QMF分析部302、抽出部303、计算部304、和比特流多路复用器305。
另外,也将抽出部303和计算部304记载为带宽扩展参数生成装置306。即,带宽扩展参数生成装置306具有抽出部303、计算部304。
滤波器部300(低通滤波器)从输入信号x(n)生成除了输入信号x(n)的高频带部分(高频部分)之外的窄频带信号xNB(n)(S101)。这里,n是样本指标。窄频带信号xNB(n)换言之是输入信号x(n)的低频带部分(低频部分),由编码部301进行编码。另一方面,输入信号x(n)的高频带部分由计算部304进行编码。
编码部301将窄频带信号xNB(n)(表示除去高频带部分之外的输入信号x(n)的信号)编码为核心参数(S102)。AAC、LP、以及TCX等现有技术的核心编码器都是在编码部301中使用的。例如,在编码部301与语音及音频混合编码对应的情况下,在编码部301中,使用上述的核心编码器中的两个以上的编码器。
编码部301也可以还具有编解码器切换处理器,在从一个核心编码器向另一个核心编码器的切换中,生成用于顺畅地进行无人为因素的帧移行的追加参数。
QMF分析部302(QMF分析滤波器组)将输入信号x(n)变换为2M频带表示的子带信号X(ts,sb)(S103)。
抽出部303抽出表示输入信号x(n)的高频带部分的高频带信号。具体来说,将作为子带信号X(ts,sb)的高频带部分的XHF(ts,sb)作为高频带信号来抽出(S104)。高频带信号XHF(ts,sb)的开始频率与构成滤波器部300的低通滤波器带宽一致。以后,将该开始频率(规定的频率)记载为交差频率fxover。另外,在USAC中,M=32。
计算部304使用高频带信号XHF(ts,sb)来计算音调参数和基底参数(S105)。音调参数是表示高频带信号XHF(ts,sb)中的音调成分的能量的大小的参数。基底参数是表示高频带信号XHF(ts,sb)中的除了音调成分之外的成分即基底成分的能量的大小的参数。
所谓音调成分,意味声音信号中的频率轴上的峰值成分,相当于由音源的稳定的、且周期性的振动引起的成分。换言之,音调成分是声音信号中偏置于特定的频率的成分,是主要表示发出编码对象的声音的音源所固有的性质的成分。“音调性强(高)”基本意味着音调成分的能量较大。
另一方面,所谓基底成分,相当于声音信号之中、由摩擦和紊流等虽然是稳定的但是由非周期的现象所引起的所谓稳定噪声成分、由冲击或音源状态的急激变化等非稳定的现象所引起的所谓过度噪声成分。换言之,基底成分是声音信号中的与频率无关地存在的成分。
后面对计算部304的音调参数及基底参数的计算方法的详情进行说明。
比特流多路复用器305将音调参数、基底参数、以及核心参数组合,生成包含这些参数的比特流,并输出给解码装置(S106)。
接下来,对计算部304的带宽扩展参数(音调参数及基底参数)的计算方法的详情进行说明。
高频带信号XHF(ts,sb)被区分到由规定的参数间隙(ps)和参数频带(pb)确定的参数单元(ps,pb)。计算部304按照每个参数单元(ps,pb)计算出一个音调参数和一个基底参数并量化。
图5是表示时间间隙与参数间隙的关系、以及子带与参数频带的关系的图。用于规定参数频带及参数间隙的边界和分辨率等的关系的信息也可以是预先确定的,这样的信息也可以被动态地计算出并形成比特流的一部分。
在实施方式1中,音调参数是音调成分的能量(以下,也记载为音调能量),基底参数是基底成分的能量(以下,也记载为基底能量)。另外,音调参数只要是表示音调成分的能量的大小的参数,则任意的参数都可以。基底参数只要是表示基底成分的能量的大小的参数,则任意的参数都可以。
计算部304使用线性预测方法,如下述那样计算(推测)音调参数及基底参数。
1.计算部304如下述那样按照每个子带sb计算协方差矩阵要素。换言之,对各QMF系数计算相关系数。
【式1】
2.计算部304如下述那样计算线性预测系数。
【式2】
【式3】
3.计算部304如下述那样计算参数单元的音调能量的合计值。
【式4】
4.计算部304如下述那样计算参数单元的基底能量的合计值。
【式5】
以上计算出的音调参数及基底参数在量化后,作为比特流发送到解码装置。
另外,计算音调能量和基底能量的方法不限定于上述方法。音调能量和基底能量以包含现有技术的哪种方法计算都可以。
并且,音调参数及基底参数以哪种方法量化(编码)均可,例如非线性量化及差分编码等。这种情况下,能够适用包含现有技术的各种量化技术(编码技术)。
并且,编码装置100a执行的带宽扩展方法也可以作为多模式编码方法的一部分来实现,该多模式编码方法能够选择性地执行包含其他的具有结构性互换性的带宽扩展方法(例如,上复制方法等)的多个带宽扩展方法。在这种编码方法中,BWE标志按照每个参数单元表示优选的带宽扩展方法,并生成为比特流的一部。
如以上说明的那样,实施方式1的编码装置100a推测输入信号的高频带部分的音调能量及基底能量,并生成(编码)表示这些能量的大小的带宽扩展参数。通过使用带宽扩展参数,解码装置能够生成与输入信号相同的能量、音调基底比、以及谐和结构的带宽扩展信号。
(实施方式2)
在实施方式2中,对与编码装置100a对应的解码装置进行说明。图6是表示实施方式2的解码装置的功能结构的框图。图7是实施方式2的解码装置的动作的流程图。
如图6所示,解码装置200a具有:比特流多路分离器500、解码部501、QMF分析部502、分割部503、音调扩展部504、基底扩展部505、音调调整部506、基底调整部507、加法部508和QMF合成部509。
比特流多路分离器500通过将比特流解包,生成(抽出)音调参数、基底参数、以及核心参数(S201)。
解码部501将核心参数解码,生成解码完成的窄频带信号x(n)(S202)。AAC、LP、以及TCX等现有技术的核心解码器都在解码部501中使用。例如,在解码部501与语音及音频混合编码对应的情况下,在解码部501中使用上述核心解码器中的两个以上的解码器。
解码部501还可以具有编解码器切换处理器(handler),该编解码器切换处理器用于在从一个核心编码器向另一个核心编码器的切换中顺畅地进行无人为因素的帧移行。并且,在解码部501中,也可以使用窗处理、重复部分的追加、混叠去除等编解码器切换技术。
QMF分析部502将解码完成的窄频带信号x(n)变换为M频带表示的子带信号X(ts,sb)。子带信号X(ts,sb)的带宽的上限是fxover。另外,子带信号X(ts,sb)是从核心参数得到的信号。
分割部503生成表示解码完成的窄频带信号x(n)的音调成分的信号即低频带音调信号、和表示解码完成的窄频带信号x(n)的基底成分的信号即低频带基底信号。具体来说,分割部503将子带信号X(ts,sb)分割为低频带音调信号XT(ts,sb)及低频带基底信号XF(ts,sb)。在实施方式2中,通过线性预测及逆滤波以如下方式进行分割。
1.分割部503对子带信号X(ts,sb)适用实施方式1说明的式(1)~(5),计算线性预测系数α0(ps,sb)及α1(ps,sb)、音调能量ET(ps,sb)、以及基底能量EF(ps,sb)。
2.分割部503对子带信号X(ts,sb)进行逆滤波,如以下所述导出低频带音调信号XT(ts,sb)及低频带基底信号XF(ts,sb)。
【式6】
XF(ts,sb)=
X(ts,sb)+a0(ps,sb)·X(ts-1,sb)+a1(ps,sb)·X(ts-2,sb)··(6)
【式7】
XT(ts,sb)=X(ts,sb)-XF(ts,sb)··(7)
3.分割部503基于音调能量(低频带音调信号XT(ts,sb)的能量),评价子带sb的音调性是否高(强)。在该评价中,能够将阈值作为评价基准。例如,子带sb的音调能量在满足以下的式(8)、(9)、及(10)的情况下,该子带sb的音调性被评价为高。
具体来说,子带sb的音调能量在比相邻子带的音调能量的C1(C1>0)倍还高的情况下,并且,比该子带sb的基底能量的C2(C2>0)倍还高的情况下,该子带sb的音调性被评价为高。另外,作为变形例,分割部503为了不使高次谐波的分布过于密集,也可以仅将比规定的频率高的频带的子带用于谐波扩展。
【式8】
ET(ps,sb)>c1·ET(ps,sb-1)··(8)
【式9】
ET(ps,sb)>c1·ET(ps,sb+1)··(9)
【式10】
ET(ps,sb)>c2·EF(ps,sb)··(10)
4.从满足上述基准的所有子带sb中,将彼此不是谐波关系的子带sb(即,相互是最重要的子带sb)按照音调能量升高的顺序选择NT个(例如,3个)。以下,将选择的子带sb记载为音调子集sbT
另外,将子带信号X(ts,sb)分割为低频带音调信号(音调成分)和低频带基底信号(基底成分)的方法、以及选择音调能量高的子带sb的方法不限定于上述那样的方法,使用哪种方法都可以。
并且,上述子带的评价及选择也可以由音调扩展部504进行。即,音调扩展部504也可以从低频带音调信号中的子带sb之中,选择音调子集sbT。如上所述,音调子集sbT是音调成分的能量比相邻的子带的音调成分的能量的规定倍大、且比该子带的基底成分的能量的规定倍大的子带。
基底扩展部505使用低频带基底信号XF(ts,sb)生成与高频带信号XHF(ts,sb)(=输入信号的高频带部分)的基底成分对应的信号即高频带基底信号(S205)。具体来说,基底扩展部505生成将低频带基底信号XF(ts,sb)向高频部分修补而得到的高频带基底信号(修补完成基底信号)X’F(ts,sb)。
在实施方式2中,为了生成高频带基底信号X’F(ts,sb)成,使用在HE-AAC中利用的上复制方法。在将函数map()设为将map(sb)的子带复制到高频区域的子带sb的修补函数的情况下,修补动作如以下式子所示。
【式11】
X′F(ts,sb)=XF(ts,map(sb)),for sb>fxover··(11)
音调扩展部504使用低频带音调信号XT(ts,sb)生成与高频带信号XHF(ts,sb)(=输入信号的高频带部分)的音调成分对应的信号即高频带音调信号(扩展完成音调信号)(S206)。具体来说,音调扩展部504生成将低频带音调信号XT(ts,sb)向高频区域谐波地(=维持基本波与高次谐波之间的关系性地)扩展而得到的高频带音调信号X’T(ts,sb)。
在实施方式2中,音调扩展部504使用以下的谐波扩展方法。
1.音调扩展部504根据整数谐波比(例如,2,3,4),将位于音调子集sbT的音调性高的音调成分复制(copy)到高频区域。以下的模拟代码表示复制动作。另外,在以下的式中,可以设定最大谐波比(例如,4)。
【式12】
不同,不进行QMF滤波器组处理(QMF合成203及QMF分析204)、以及时间的拉伸及再采样205。因此,这里的谐波扩展方法相比于图2的谐波方法是低延迟的。
2.针对音调能量低(不具有音调性高的音调成分)的子带sb,适用与基底扩展部505使用的函数相同的map(sb)函数的上复制方法。
这时,位于音调子集sbT的音调成分已经通过上述谐波扩展方法复制到了高频区域,因此不必通过上复制方法再次进行修补。
【式13】
高频带音调信号X’T(ts,sb)及高频带基底信号X’F(ts,sb)被预测为是比M频带大而小于2M频带。
如以上所述,音调扩展部504将表示低频带音调信号中包含的音调成分的高次谐波成分的信号生成为高频带音调信号。
音调调整部506使用音调参数生成将高频带音调信号X’T(ts,sb)调整后得到的调整完成音调信号X”T(ts,sb)(S207)。在实施方式2中,音调参数是按照每个参数单元(ps,pb)确定的音调能量ET(ps,pb),高频带音调信号X’T(ts,sb)如以下所述进行调整。
【式14】
换言之,音调调整部506生成将能量调整为音调参数所表示的音调能量后的高频带音调信号X’T(ts,sb)即调整完成音调信号X”T(ts,sb)。
在子带信号X(ts,sb)自身的音调性低的情况下,高频带音调信号X’T(ts,sb)有时在参数频带pb内不具有音调成分。这种情况下,在音调调整部506的调整动作之前,也可以向参数频带pb的中心注入人工的高次谐波。下面举出示例。
【式15】
基底调整部507生成使用基底参数调整了高频带基底信号X’F(ts,sb)而得到的调整完成基底信号X”F(ts,sb)(S208)。在实施方式2中,基底参数是按照每个参数单元(ps,pb)确定的基底能量EF(ps,pb),高频带基底信号X’F(ts,sb)如下进行调整。
【式16】
换言之,基底调整部507生成将能量调整为基底参数所表示的基底能量后的高频带基底信号X’F(ts,sb)即调整完成基底信号X”F(ts,sb)。
另外,参数间隙与参数频带间的边界可以预先设定,也可以使用比特流中包含的信息动态地生成。
加法部508生成将子带信号X(ts,sb)、调整完成音调信号X”T(ts,sb)、以及调整完成基底信号X”F(ts,sb)相加后得到的带宽扩展信号X”(ts,sb)(S209)。
【式17】
X"(ts,sb)=X(ts,sb)+X"T(ts,sb)+X"F(ts,sb)··(17)
QMF合成部509(QMF合成滤波器组)将带宽扩展信号X”(ts,sb)变换(逆变换)为时域的信号x”(n)(S210)。
另外,针对音调能量(音调参数)及基底能量(基底参数),也可以在使用前进行共用的前处理。例如,时间间隙方向及子带方向中的任一方向,或者,在双方向上,也可以通过低通滤波器,将音调能量及基底能量插补及(或)平滑化。
并且,逆滤波的程度也可以通过对线性预测系数乘以一定的“线性调制函数”来调整。
并且,解码装置200a执行的带宽扩展方法也可以作为能够选择性地执行包含其他带宽扩展方法(例如,上复制方法等)的多个带宽扩展方法的多模式解码方法的一部分来实现。在这样的解码方法中,BWE标志表示按照每个参数单元优选的带宽扩展方法,并且是从比特流中抽出的。
如以上说明的,实施方式2的解码装置200a将音调性强的音调成分扩展到谐波,与单纯复制的基底成分合成,由此能够确保输入信号(原信号)的谐波的音质。
并且,解码装置200a执行的带宽扩展方法中,现有技术的谐波方法中使用的临界采样、时间的拉伸及再采样(下采样)不是必须的。因此,根据解码装置200a执行的带宽扩展方法,能够减轻复杂、延迟、以及与存储器相关的条件。
(实施方式3)
本发明的带宽扩展技术也能够适用于进行MDCT处理的编码装置。在实施方式3中,对这样的编码装置进行说明。图8是表示实施方式3的编码装置的功能结构的框图。图9是实施方式3的编码装置的动作的流程图。
如图8所示,实施方式3的编码装置100b具有调帧器(framer)600、MDCT部601、编码部602、MDST部603、抽出部604、计算部605、以及比特流多路复用器606。
另外,将抽出部604和计算部605也记载为带宽扩展参数生成装置607。即,带宽扩展参数生成装置607具有抽出部604和计算部605。
作为MDCT处理及MDST处理的前处理,调帧器600将输入信号分割为帧(成帧),并按照每规定数量的帧进行窗处理(S301)。图10是表示调帧器600的成帧及窗处理的图。
如图10的(a)所示,在调帧器600的窗处理中,对输入信号x(n)的每两个连续的帧700适用窗函数701。适用了窗函数的帧700之后在编码装置100b侧被进行MDCT处理702,如图10的(b)所示,在解码装置侧进行了IMDCT处理703后,实施窗处理704。
在窗处理中具有两个目的,即,提供用于编码的更好的频率分辨率、以及在解码装置中结合逆变换后的帧时防止成帧人为因素的平滑化机理。调帧器600将前处理(成帧及窗处理)后的输入信号x(n)作为窗处理完成信号x’(n)输出。
MDCT部601生成将前处理后的输入信号进行MDCT处理后得到的MDCT信号XC(k)(S302)。具体来说,MDCT部601将窗处理完成信号x’(n)变换到MDCT区域,生成MDCT信号XC(k)。另外,k是频率窗口(frequency bin)指标(以下,也简单记载为频率窗口)。
编码部602将输入信号x(n)的除了与高频带部分对应的部分之后得到的MDCT信号XC(k)(表示除去了高频带部分后的输入信号x(n)的信号)编码为核心参数(S303)。即,编码部602将比fxover靠下的频带的MDCT信号XC(k)编码为核心参数。AAC等中使用的现有技术的MDCT编码方法在编码部602中使用。
MDST部603生成将前处理后的输入信号进行MDST处理而得到的MDST信号XS(k)(S304)。具体来说,MDST部603将窗处理完成信号x’(n)变换到MDST区域,生成MDST信号XS(k)。
抽出部604从MDCT信号XC(k)及MDST信号XS(k)生成复数信号X(k),将生成的复数信号的高频部分(高频带部分)作为高频带信号X(k)(k>fxover)抽出(S305)。并且,抽出部604抽出MDCT信号XC(k)及MDST信号XS(k)的高频部分,通过将这些部分合在一起而生成复数信号。
【式18】
X(k)=XC(k)+j·XS(k),for k>fxover··(18)
抽出部604由于不能从MDCT信号或MDST信号自身正确取得音调能量,所以计算复数信号。对此,利用图11进行说明。图11是表示5kHz的纯粹的音调成分的音调能量的图,图11的(a)表示MDCT能量,图11的(b)表示MDST能量,图11的(c)表示复数能量。
在图11的例子中,帧尺寸是1024样本,采样频率是48kHz。根据图11的(a)及图11的(b)可知,几个帧中的音调能量比其他几个帧中的音调能量实质变小。因此,在仅将多个频谱中的一个用于抽出音调成分的情况下,可能会漏掉音调性高的音调成分。
另一方面,如图11的(c)所示,在复数信号中,在所有的帧中同样的音调成分的音调能量(复数能量)是一定的。
计算部605使用高频带信号X(k)(k>fxover)来计算音调参数及基底参数(S306)。音调参数是表示高频带信号X(k)(k>fxover)中的音调成分的能量的大小的参数。基底参数是表示高频带信号X(k)(k>fxover)中的除了音调成分之外的成分即基底成分的能量的大小的参数。
后面对计算部605的音调参数及基底参数的计算方法进行详细说明。
比特流多路复用器606将音调参数、基底参数、以及核心参数组合,生成包含这些参数的比特流,并输出给解码装置(S307)。
接着,对计算部605的带宽扩展参数(音调参数及基底参数)的计算方法进行详细说明。
高频带信号X(k)(k>fxover)被区分到规定的参数频带pb。此时的区分与在实施方式1中使用图5进行说明的区分类似,不同点是在MDCT区域中,不存在时间间隙次元(timeslot dimension)。计算部605按照每个参数频带pb,计算一个音调参数和一个基底参数并量化。
在实施方式3中,音调参数是音调能量,基底参数是基底能量。计算部605如下所述计算(推测)音调参数及基底参数。
1.计算部605如下所述计算各频率窗口指标k的能量。
【式19】
E(k)=|X(k)|2,for k>fxover··(19)
2.计算部605查找满足以下式子的频率窗口指标k(kT)。
【式20】
kT={k:(E(k)>c1·E(k-1))∧(E(k)>c1·E(k+1))}··(20)
3.计算部605如下所述计算各频率窗口指标k的音调能量ET(k)及基底能量EF(k)。
【式21】
【式22】
4.计算部605如下所述计算参数频带pb的音调能量的合计值。
【式23】
5.计算部605如下所述计算参数频带pb的基底能量的合计值。
【式24】
如下所述计算出的音调参数及基底参数在量化后,作为比特流发送给解码装置。
另外,在MDCT区域中识别音调成分的上述方法只不过是例示,并不限定于这样的方法。现有技术中,存在比在MDCT区域中识别音调成分更高级的技术。
例如,为了提高可靠度,也可以将在当前帧中识别的音调成分与在过去帧中得到的音调成分进行比较。这种情况下,仅将在当前及过去这双方的帧的同一频率窗口指标中出现的音调成分看做是“确定的”音调成分。
并且,例如,在频率窗口k中的音调成分的判定基准中,不仅仅是相邻的频率窗口指标k-1及k+1,也可以包含频率窗口指标k-2及k+2等。
如以上所述,根据实施方式3的编码装置100b,在MDCT区域中也能够生成(编码)表示音调能量及基底能量的大小的带宽扩展参数。通过使用带宽扩展参数,解码装置能够生成与输入信号同样的能量、音调基底比、以及谐和结构的带宽扩展信号。
(实施方式4)
在实施方式4中,对与编码装置100b对应的解码装置进行说明。图12是表示实施方式4的解码装置的功能结构的框图。图13是实施方式4的解码装置的动作的流程图。
如图12所示,解码装置200b具有比特流多路分离器900、解码部911(核心解码部901及复数信号生成部902)、分割部903、音调扩展部904、基底扩展部905、音调调整部906、基底调整部907、加法部908、IMDCT部909、和调帧器910。
比特流多路分离器900通过将比特流解包,生成(抽出)音调参数、基底参数、以及核心参数(S401)。
解码部911解码核心参数,生成解码完成窄频带信号X(k)(S402)。
具体来说,首先,核心解码部901解码核心参数并生成MDCT信号XC(k)。即,MDCT信号是从核心参数获得的信号。在核心解码部901中使用在AAC等中利用的现有技术的MDCT解码方法。
而且,复数信号生成部902将MDCT信号XC(k)变换到MDST区域并生成MDST信号XS(k)。作为将MDCT信号XC(k)变换到MDST区域并生成MDST信号XS(k)的方法,能够适用现有技术的MDCT·MDST变换方法(例如,非专利文献4)。
而且,复数信号生成部902如下所述使用MDCT信号XC(k)、MDST信号XS(k)生成复数信号。
【式25】
X(k)=XC(k)+j·XS(k)··(25)
另外,复数信号X(k)是带宽的上限为fxover的解码完成窄频带信号。
分割部903生成作为表示解码完成窄频带信号X(k)的音调成分的信号即低频带音调信号、和作为表示解码完成窄频带信号X(k)的基底成分的信号即低频带基底信号(S403)。具体来说,分割部503将解码后的窄频带信号X(k)分割为低频带音调信号XT(k)及低频带基底信号XF(k)。在实施方式4中,该分割如下所述进行。
1.分割部903使用实施方式3中说明的式(19)~(22),按照每个频率窗口指标k计算音调成分kT、全体能量E(k)、音调能量ET(k)、以及基底能量EF(k)。
2.分割部903如下所述导出低频带音调信号XT(k)及低频带基底信号XF(k)。换言之,分割部903通过根据能量大小来分割解码完成窄频带信号X(k),由此生成低频带音调信号XT(k)及低频带基底信号XF(k)。
【式26】
【式27】
3.分割部903从频率窗口指标kT中,按照音调能量变高的顺序选择NT个音调子集kT2。另外,作为变形例,分割部903也可以为了不使高次谐波的分布过于密集,而仅将比规定的频率高的频率窗口指标用于谐波扩展。
并且,上述音调子集的选择也可以由音调扩展部904进行。即,音调扩展部904从低频带音调信号中的频率窗口k之中,选择音调成分的能量比相邻的频率窗口的音调成分的能量的规定倍大的频率窗口k(kT,kT2)。
基底扩展部905使用低频带基底信号XF(k)生成与高频带信号(=输入信号的高频带部分)的基底成分对应的信号即高频带基底信号(S404)。基底扩展部905生成将低频带基底信号XF(k)向高频部分修补而得到的高频带基底信号(修补完成基底信号)X’F(k)。具体来说,例如,能够适用在HE-AAC中使用的上复制技术等。
在设函数map()为将map(k)的频率窗口指标复制到高频区域的频率窗口指标k的修补函数的情况下,修补动作如下式所示。
【式28】
X′F(k)=XF(ts,map(k)),for k>fxover··(28)
音调扩展部904使用低频带音调信号XT(k)生成高频带信号(=输入信号的高频带部分)的与音调成分对应的信号即高频带音调信号(扩展完成音调信号)(S405)。具体来说,音调扩展部904生成将低频带音调信号XT(k)向高频区域谐波地扩展而得到的高频带音调信号X’T(k)。
在实施方式4中,音调扩展部904使用以下的谐波扩展方法。另外,在以下的说明中,虽然对频率窗口指标kT适用了谐波扩展方法,但也可以对音调子集kT2适用谐波扩展方法。
1.音调扩展部904根据整数谐波比(例如,2,3,4),将位于音调子集kT的音调性高的音调成分复制(copy)到高频区域。即,音调扩展部904通过对选择的频率窗口(音调子集kT)的整数倍的频率窗口复制该选择出的频率窗口的低频带音调信号,由此生成高频带音调信号。以下的模拟代码表示复制动作。另外,在以下的式子中,复制动作以最大谐波比ratiomax(例如,4)为限度。
【式29】
2.在不具有音调成分的频率窗口指标中,适用与基底扩展部905使用的函数相同的map(k)函数的上复制方法。
这时,音调子集kT的音调成分由于已经通过上述的谐波扩展方法复制到了高频区域,所以不需要通过上复制方法再次修补。
【式30】
如上所述,音调扩展部904将低频带音调信号中包含的表示音调成分的高次谐波成分的信号作为高频带音调信号而生成。
音调调整部906生成使用音调参数将高频带音调信号X’T(k)调整后得到的调整完成音调信号X”T(k)(S406)。在实施方式4中,音调参数是按照每个参数频带pb确定的音调能量ET(pb),高频带音调信号X’T(k)如下所述进行调整。
【式31】
换言之,音调调整部906生成将能量调整为音调参数所表示的音调能量后的高频带音调信号X’T(k)即调整完成音调信号X”T(k)。
在解码完成窄频带信号X(k)自身的音调性低的情况下,高频带音调信号X’T(k)有时在参数频带pb内不具有音调成分。这种情况下,在音调调整部906的调整动作之前,能够将人工的高次谐波成分注入参数频带的中心。下面进行例示。
在Daudet等人的文献(非专利文献5)中,记载了纯粹的正弦波音调的MDCT频谱是位移完成sinc()函数与位移完成余弦调制(modulation)之积。基于这样的分析,为了向频率窗口指标k的中心注入正弦波音调,必须将以下这样的信号注入频率窗口指标的区间[k-2,k+2]。这里,fr是帧指标。
【式32】
另外,为了减轻复杂度,也可以省略向k-2及k+2的注入。由此,虽然音质会稍微降低,但k-2及k+2由于是低振幅,所以对音质的影响是有限定的。
基底调整部907生成使用基底参数将高频带基底信号X’F(k)调整后得到的调整完成基底信号X”F(k)(S407)。在实施方式4中,基底参数是按照每个参数频带pb确定的基底能量EF(k),高频带基底信号X’F(k)如下所述进行调整。
【式33】
换言之,基底调整部907生成将能量调整为基底参数所表示的基底能量后得到的高频带基底信号X’F(k)即调整完成基底信号X”F(k)。
加法部908生成将MDCT信号XC(k)、调整完成音调信号X”T(k)的实数部分、以及调整完成基底信号X”F(k)的实数部分相加得到的带宽扩展信号X”(k)(S408)。
【式34】
X″(k)=XC(k)+Re{X"T(k)+X"F(k)}··(34)
IMDCT部909将带宽扩展信号X”(k)变换(逆变换)为时域的信号x”(n)(S409)。
调帧器910对时域的信号x”(n)进行窗处理、和重叠部分的追加处理,生成解码信号x”’(n)(S410)。在实施方式3中说明的图10的(b)是表示调帧器910的动作的图。
如以上所述,实施方式4的解码装置200b通过将音调性强的音调成分谐波地扩展,并与单纯复制的基底成分合成,由此能够保持输入信号(原信号)的谐波性音质。
并且,解码装置200b执行的带宽扩展方法中,在现有技术的谐波方法中使用的临界采样、时间的拉伸及再采样(下采样)不是必须的。因此,根据解码装置200b执行的带宽扩展方法,能够减轻复杂度、延迟、以及与存储器有关的要件。
(其他实施方式)
本发明也可以实现为带宽扩展参数生成装置。
在上述实施方式中说明的各流程图的步骤的顺序是一个例子,也可以在能够执行的范围内进行变更。并且,也可以对能够并行处理的步骤进行并行处理。
并且,在上述各实施方式中,各结构要素也可以由专用的硬件构成,或通过在执行与各结构要素匹配的软件程序来实现。各结构要素通过CPU或处理器等程序执行部读出并执行记录在硬盘或半导体存储器等存储介质中的软件程序而实现。
(总结)
上述实施方式的带宽扩展参数生成装置及编码装置推测输入信号的高频带部分的音调能量及基底能量,生成表示这些能量的大小的带宽扩展参数。
上述实施方式的解码装置从解码得到的窄频带信号选择并抽出音调性高的音调成分,使用抽出的音调成分谐波地扩展到高频区域。而且,解码装置将剩余的基底成分,即,从解码后的窄频带信号减去抽出的音调成分后所得到的成分,通过上复制方法,复制为高频区域。
而且,使用编码装置生成的带宽扩展参数调整所抽出的音调成分和复制的基底成分,以使所抽出的音调成分与复制的基底成分成为与输入信号相同的音调能量及音调基底比。
上述实施方式的带宽扩展方法由于基本上是基于复杂度低的上复制方法的单纯的扩展,所以现有技术的谐波方法所需的临界采样、时间的拉伸、及再采样都不是必须的。因此,大幅改善复杂度、延迟、以及存储器。
以上,基于实施方式对一个或多个方式的带宽扩展参数生成装置、编码装置及解码装置进行了说明,本发明不限定于这些实施方式。只要不脱离本发明的主旨,将本领域技术人员能够想到的各种变形适用于本实施方式而得到的方式,或者将不同实施方式的结构要素进行组合所构建的方式,也可以包含在上述一个或多个方式的范围内。
另外,在附图及详细说明中记载的结构要素之中,不仅包含为解决课题所必须的结构要素,为了例示出上述技术,还可能包含了不是为解决课题所必须的结构要素。因此,不应该因这些非必须的结构要素记载在附图或详细说明中,就直接将这些非必须的结构要素认定为是必须的。
工业实用性
本发明能够适用于与声音信号的编码及解码相关的应用中。本发明例如能够适用于盒式书、广播系统、便携媒体设备、(包含便携电话或平板)移动通信终端、电视会议设备、以及网络上的音乐演奏应用。
符号说明
100a,100b 编码装置
200,204 QMF分析
200a,200b 解码装置
201 上复制
202 临界采样
203 QMF合成
205 时间的拉伸及再采样
206 HF调整
207 上复制模式
208 谐波模式
300 滤波器部
301,602 编码部
302,502 QMF分析部
303,604 抽出部
304,605 计算部
305,606 比特流多路复用器
306,607 带宽扩展参数生成装置
500,900 比特流多路分离器
501,911 解码部
503,903 分割部
504,904 音调扩展部
505,905 基底扩展部
506,906 音调调整部
507,907 基底调整部
508,908 加法部
509 QMF合成部
600,910 调帧器
601 MDCT部
603 MDST部
700 帧
701 窗函数
702 MDCT处理
703 IMDCT处理
704 窗处理
901 核心解码部
902 复数信号生成部
909 IMDCT部

Claims (11)

1.一种编码装置,具有处理器,所述处理器
从输入声音信号抽出表示所述输入声音信号的高频带部分的高频带信号;
计算音调参数和基底参数,所述音调参数表示所述高频带信号中的音调成分的能量的大小,所述基底参数表示所述高频带信号中的除了所述音调成分之外的成分即基底成分的能量的大小;
将表示除了所述高频带部分之外的所述输入声音信号的信号编码为核心参数;
生成并输出包含所述音调参数、所述基底参数和所述核心参数的比特流,
所述处理器还
生成将所述输入声音信号进行改进离散余弦变换MDCT处理后得到的MDCT信号;
生成将所述输入声音信号进行改进离散正弦变换MDST处理后得到的MDST信号;
从所述MDCT信号及所述MDST信号生成复数信号,将生成的所述复数信号的高频带部分作为所述高频带信号抽出;
将除去与所述输入声音信号的所述高频带部分对应的部分之后的所述MDCT信号编码为核心参数。
2.如权利要求1所述的编码装置,所述处理器还
生成除了所述高频带部分之外的所述输入声音信号即窄频带信号;
将所述输入声音信号变换为子带信号;
将所述子带信号的高频带部分即HF子带信号作为所述高频带信号抽出;
将所述窄频带信号编码为所述核心参数。
3.一种解码装置,对比特流进行解码,
在所述比特流中,包含核心参数、音调参数和基底参数,所述核心参数是已编码的输入声音信号的低频带部分,所述音调参数表示高频带信号之中的音调成分的能量的大小,所述基底参数表示所述高频带信号中的除了所述音调成分之外的成分即基底成分的能量的大小,其中,所述高频带信号表示所述输入声音信号的高频带部分,
所述解码装置具有处理器,所述处理器
通过解码所述核心参数而生成解码完成窄频带信号;
生成低频带音调信号和低频带基底信号,所述低频带音调信号是表示所述解码完成窄频带信号的音调成分的信号,所述低频带基底信号是表示所述解码完成窄频带信号的基底成分的信号;
使用所述低频带音调信号生成与所述高频带信号的音调成分对应的信号即高频带音调信号;
使用所述低频带基底信号生成与所述高频带信号的基底成分对应的信号即高频带基底信号;
生成使用所述音调参数将所述高频带音调信号调整后得到的调整完成音调信号;
生成使用所述基底参数将所述高频带基底信号调整后得到的调整完成基底信号;
生成将从所述核心参数获得的信号、所述调整完成音调信号和所述调整完成基底信号相加后得到的带宽扩展信号,
所述处理器还
解码所述核心参数并生成MDCT信号;
生成将所述MDCT信号变换到MDST区域后得到的MDST信号;
将从生成的所述MDCT信号及所述MDST信号得到的复数信号作为所述解码完成窄频带信号而生成;
生成将从所述核心参数获得的信号即所述MDCT信号、所述调整完成音调信号和所述调整完成基底信号相加后得到的所述带宽扩展信号。
4.如权利要求3所述的解码装置,
所述处理器将表示所述低频带音调信号中包含的音调成分的高次谐波成分的信号作为所述高频带音调信号而生成。
5.如权利要求3所述的解码装置,所述处理器还
将所述解码完成窄频带信号变换为子带信号;
通过分割所述子带信号,生成所述低频带音调信号和所述低频带基底信号;
生成将从所述核心参数得到的信号即所述子带信号、所述调整完成音调信号和所述调整完成基底信号相加后得到的所述带宽扩展信号。
6.如权利要求5所述的解码装置,
所述处理器通过从所述低频带音调信号中的子带之中选择音调成分的能量(1)比相邻的子带的音调成分的能量的规定倍大、且(2)比该子带的基底成分的能量的规定倍大的子带,并向所选择出的子带的整数倍的子带复制该选择出的子带的所述低频带音调信号,由此生成所述高频带音调信号。
7.如权利要求5或6所述的解码装置,所述处理器还
从所述比特流生成所述音调参数、所述基底参数和所述核心参数;
将所述带宽扩展信号变换到时域。
8.如权利要求3所述的解码装置,
所述处理器从所述低频带音调信号中的频率窗口之中选择音调成分的能量比相邻的频率窗口的音调成分的能量的规定倍大的频率窗口,并向所选择出的频率窗口的整数倍的频率窗口复制该选择出的频率窗口的所述低频带音调信号,由此生成所述高频带音调信号。
9.如权利要求3或8所述的解码装置,所述处理器还
从所述比特流生成所述音调参数、所述基底参数和所述核心参数;
将所述带宽扩展信号变换到时域。
10.一种编码方法,具有:
抽出步骤,抽出表示输入声音信号的高频带部分的高频带信号;
计算步骤,计算音调参数和基底参数,所述音调参数表示所述高频带信号中的音调成分的能量的大小,所述基底参数表示所述高频带信号中的除了所述音调成分之外的成分即基底成分的能量的大小;
编码步骤,将表示除了所述高频带部分之外的所述输入声音信号的信号编码为核心参数;
输出步骤,生成并输出包含所述音调参数、所述基底参数和所述核心参数的比特流,
所述编码方法还具有:
生成将所述输入声音信号进行改进离散余弦变换MDCT处理后得到的MDCT信号的步骤;
生成将所述输入声音信号进行改进离散正弦变换MDST处理后得到的MDST信号的步骤;
从所述MDCT信号及所述MDST信号生成复数信号,将生成的所述复数信号的高频带部分作为所述高频带信号抽出的步骤;
将除去与所述输入声音信号的所述高频带部分对应的部分之后的所述MDCT信号编码为核心参数的步骤。
11.一种解码方法,对比特流进行解码,
在所述比特流中,包含核心参数、音调参数和基底参数,所述核心参数是已编码的输入声音信号的低频带部分,所述音调参数表示高频带信号之中的音调成分的能量的大小,所述基底参数表示所述高频带信号中的除了所述音调成分之外的成分即基底成分的能量的大小,其中,所述高频带信号表示所述输入声音信号的高频带部分,
所述解码方法具有:
解码步骤,通过解码所述核心参数而生成解码完成窄频带信号;
分割步骤,生成低频带音调信号和低频带基底信号,所述低频带音调信号是表示所述解码完成窄频带信号的音调成分的信号,所述低频带基底信号是表示所述解码完成窄频带信号的基底成分的信号;
音调扩展步骤,使用所述低频带音调信号生成与所述高频带信号的音调成分对应的信号即高频带音调信号;
基底扩展步骤,使用所述低频带基底信号生成与所述高频带信号的基底成分对应的信号即高频带基底信号;
音调调整步骤,生成使用所述音调参数将所述高频带音调信号调整后得到的调整完成音调信号;
基底调整步骤,生成使用所述基底参数将所述高频带基底信号调整后得到的调整完成基底信号;以及
加法步骤,生成将从所述核心参数获得的信号、所述调整完成音调信号和所述调整完成基底信号相加后得到的带宽扩展信号,
所述解码方法还具有:
解码所述核心参数并生成MDCT信号的步骤;
生成将所述MDCT信号变换到MDST区域后得到的MDST信号的步骤;
将从生成的所述MDCT信号及所述MDST信号得到的复数信号作为所述解码完成窄频带信号而生成的步骤;
生成将从所述核心参数获得的信号即所述MDCT信号、所述调整完成音调信号和所述调整完成基底信号相加后得到的所述带宽扩展信号的步骤。
CN201380043203.2A 2013-01-22 2013-12-18 编码装置、解码装置、编码方法、以及解码方法 Active CN104584124B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013009652 2013-01-22
JP2013-009652 2013-01-22
PCT/JP2013/007448 WO2014115225A1 (ja) 2013-01-22 2013-12-18 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法

Publications (2)

Publication Number Publication Date
CN104584124A CN104584124A (zh) 2015-04-29
CN104584124B true CN104584124B (zh) 2019-04-16

Family

ID=51227042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380043203.2A Active CN104584124B (zh) 2013-01-22 2013-12-18 编码装置、解码装置、编码方法、以及解码方法

Country Status (5)

Country Link
US (1) US9424847B2 (zh)
EP (1) EP2950308B1 (zh)
JP (1) JP6262668B2 (zh)
CN (1) CN104584124B (zh)
WO (1) WO2014115225A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX358362B (es) * 2013-06-21 2018-08-15 Fraunhofer Ges Forschung Decodificador de audio que tiene un modulo de extension de ancho de banda con un modulo de ajuste de energia.
EP2963645A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Calculator and method for determining phase correction data for an audio signal
TWI693595B (zh) * 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
TW202242853A (zh) 2015-03-13 2022-11-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
CN105261373B (zh) * 2015-09-16 2019-01-08 深圳广晟信源技术有限公司 用于带宽扩展编码的自适应栅格构造方法和装置
EP3182411A1 (en) 2015-12-14 2017-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an encoded audio signal
JP6769299B2 (ja) * 2016-12-27 2020-10-14 富士通株式会社 オーディオ符号化装置およびオーディオ符号化方法
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
US10896684B2 (en) * 2017-07-28 2021-01-19 Fujitsu Limited Audio encoding apparatus and audio encoding method
JP6962386B2 (ja) 2018-01-17 2021-11-05 日本電信電話株式会社 復号装置、符号化装置、これらの方法及びプログラム
US10978083B1 (en) 2019-11-13 2021-04-13 Shure Acquisition Holdings, Inc. Time domain spectral bandwidth replication
CN113192523A (zh) * 2020-01-13 2021-07-30 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113192517A (zh) * 2020-01-13 2021-07-30 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113593586A (zh) * 2020-04-15 2021-11-02 华为技术有限公司 音频信号编码方法、解码方法、编码设备以及解码设备
CN113539281A (zh) * 2020-04-21 2021-10-22 华为技术有限公司 音频信号编码方法和装置
CN113808597A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN113808596A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN113963703A (zh) * 2020-07-03 2022-01-21 华为技术有限公司 一种音频编码的方法和编解码设备
CN113948094A (zh) * 2020-07-16 2022-01-18 华为技术有限公司 音频编解码方法和相关装置及计算机可读存储介质
WO2023147650A1 (en) * 2022-02-03 2023-08-10 Voiceage Corporation Time-domain superwideband bandwidth expansion for cross-talk scenarios

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6879954B2 (en) * 2002-04-22 2005-04-12 Matsushita Electric Industrial Co., Ltd. Pattern matching for large vocabulary speech recognition systems
EP1677289A3 (en) * 2004-12-31 2008-12-03 Samsung Electronics Co., Ltd. High-band speech coding apparatus and high-band speech decoding apparatus in a wide-band speech coding/decoding system and high-band speech coding and decoding methods performed by the apparatuses
CN101681623A (zh) * 2007-04-30 2010-03-24 三星电子株式会社 对高频带编码和解码的方法和设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1132399A (ja) * 1997-05-13 1999-02-02 Sony Corp 符号化方法及び装置、並びに記録媒体
US6356211B1 (en) 1997-05-13 2002-03-12 Sony Corporation Encoding method and apparatus and recording medium
AU2002352182A1 (en) * 2001-11-29 2003-06-10 Coding Technologies Ab Methods for improving high frequency reconstruction
JP3861770B2 (ja) * 2002-08-21 2006-12-20 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
KR20070001115A (ko) * 2004-01-28 2007-01-03 코닌클리케 필립스 일렉트로닉스 엔.브이. 복소수 값 데이터를 이용하는 오디오 신호 디코딩
WO2005104094A1 (ja) * 2004-04-23 2005-11-03 Matsushita Electric Industrial Co., Ltd. 符号化装置
BRPI0606387B1 (pt) * 2005-01-11 2019-11-26 Koninl Philips Electronics Nv Decodificador, dispositivo de reprodução de áudio, codificador, dispositivo de gravação, método para gerar um sinal de áudio multicanal, meio de armazenamento, método paracodificar um sinal de áudio multicanal, receptor, transmissor, sistema de transmissão, método de receber um sinal de áudio multicanal, e método de transmitir um sinal deáudio multicanal
US7953605B2 (en) * 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
JP4736812B2 (ja) * 2006-01-13 2011-07-27 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
JP4918841B2 (ja) * 2006-10-23 2012-04-18 富士通株式会社 符号化システム
US9177569B2 (en) * 2007-10-30 2015-11-03 Samsung Electronics Co., Ltd. Apparatus, medium and method to encode and decode high frequency signal
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
JP5203077B2 (ja) * 2008-07-14 2013-06-05 株式会社エヌ・ティ・ティ・ドコモ 音声符号化装置及び方法、音声復号化装置及び方法、並びに、音声帯域拡張装置及び方法
EP4231291B1 (en) * 2008-12-15 2023-11-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio bandwidth extension decoder, corresponding method and computer program
WO2011062536A1 (en) * 2009-11-19 2011-05-26 Telefonaktiebolaget Lm Ericsson (Publ) Improved excitation signal bandwidth extension
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
EP3288033B1 (en) * 2012-02-23 2019-04-10 Dolby International AB Methods and systems for efficient recovery of high frequency audio content

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6879954B2 (en) * 2002-04-22 2005-04-12 Matsushita Electric Industrial Co., Ltd. Pattern matching for large vocabulary speech recognition systems
EP1677289A3 (en) * 2004-12-31 2008-12-03 Samsung Electronics Co., Ltd. High-band speech coding apparatus and high-band speech decoding apparatus in a wide-band speech coding/decoding system and high-band speech coding and decoding methods performed by the apparatuses
CN101681623A (zh) * 2007-04-30 2010-03-24 三星电子株式会社 对高频带编码和解码的方法和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Enhanced accuracy of the tonality measure and control parameter extraction modules in MPEG-4 HE-ACC;Sang-Uk Ryu etc;《Audio Engineering Society》;20051010;第1-7页
Estimating spatial cues for audio coding in MDCT domain;Shuixian Chen etc;《2009 IEEE International Conference on Multimedia and Expo》;20090703;第53-56页

Also Published As

Publication number Publication date
US9424847B2 (en) 2016-08-23
EP2950308A4 (en) 2016-02-24
JP6262668B2 (ja) 2018-01-17
CN104584124A (zh) 2015-04-29
EP2950308B1 (en) 2020-02-19
WO2014115225A1 (ja) 2014-07-31
JPWO2014115225A1 (ja) 2017-01-19
US20150162010A1 (en) 2015-06-11
EP2950308A1 (en) 2015-12-02

Similar Documents

Publication Publication Date Title
CN104584124B (zh) 编码装置、解码装置、编码方法、以及解码方法
US10249313B2 (en) Adaptive bandwidth extension and apparatus for the same
CN105453176B (zh) 智能间隙填充框架内使用双声道处理的音频编码器、音频解码器及相关方法
RU2667382C2 (ru) Улучшение классификации между кодированием во временной области и кодированием в частотной области
RU2515704C2 (ru) Аудиокодер и аудиодекодер для кодирования и декодирования отсчетов аудиосигнала
JP5551692B2 (ja) 音声符号器、音声復号器、音声符号化方法、音声復号化方法およびコンピュータプログラム
US9697840B2 (en) Enhanced chroma extraction from an audio codec
US9489962B2 (en) Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method
CN105706166B (zh) 对比特流进行解码的音频解码器设备和方法
CN102124517A (zh) 具有共用预处理的低比特率音频编码/解码方案
JP2018036668A (ja) スペクトルパターンを利用することによってシヌソイドおよびスイープを効率的に合成するための装置および方法
CA2704812A1 (en) An encoder for encoding an audio signal
Żernicki et al. Enhanced coding of high-frequency tonal components in MPEG-D USAC through joint application of ESBR and sinusoidal modeling
KR20100114450A (ko) 가변 비트율을 갖는 잔차 신호 부호화를 이용한 고품질 다객체 오디오 부호화 및 복호화 장치
US20100280830A1 (en) Decoder
WO2011114192A1 (en) Method and apparatus for audio coding
Lin et al. Audio Bandwidth Extension Using Audio Super-Resolution
Quackenbush MPEG Audio Compression Future
Jiang et al. Pitch prediction in frequency domain for ITU-T G. 719 audio codec
BRPI0906247B1 (pt) Equipamento e método para converter um sinal de áudio em uma representação parametrizada, equipamento e método para modificar uma representação parametrizada, equipamento e método para sintetizar uma representação parametrizada de um sinal de áudio

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant