CN1677490A

CN1677490A - 一种增强音频编解码装置及方法

Info

Publication number: CN1677490A
Application number: CNA2004100461536A
Authority: CN
Inventors: 潘兴德; 安德斯·叶瑞特; 朱晓明; 麦可·舒克; 任为民; 王磊; 豪格·何瑞施; 邓昊; 佛里德理克·海恩
Original assignee: BEIJING FUGUO DIGITAL TECHN Co Ltd; Coding Technology Ltd; GONGYU DIGITAL TECHNOLOGY Co Ltd BEIJNG
Current assignee: BEIJING FUGUO DIGITAL TECHN Co Ltd; Coding Technology Ltd; GONGYU DIGITAL TECHNOLOGY Co Ltd BEIJNG
Priority date: 2004-04-01
Filing date: 2004-06-02
Publication date: 2005-10-05

Abstract

本发明公开了一种增强音频编码装置，包括心理声学分析模块、时频映射模块、量化和熵编码模块、比特流复用模块和多分辨率分析模块；心理声学分析模块计算音频信号的掩蔽阈值和信掩比，输出到所述量化和熵编码模块；时频映射模块将输入的时域音频信号转变成频域系数；多分辨率分析模块根据信号类型进行多分辨率分析，量化和熵编码模块在信掩比的控制下对频域系数进行量化和熵编码，比特流复用模块形成音频编码码流。本发明适用于多种采样率、声道配置的音频信号的高保真压缩编码，可以支持采样率为8kHz到192kHz之间的音频信号；可支持所有可能的声道配置；并且支持范围很宽的目标码率的音频编/解码。

Description

一种增强音频编解码装置及方法

技术领域

本发明涉及音频编解码技术领域，具体地说，涉及一种基于感知模型的增强音频编解码装置及方法。

背景技术

为得到高保真的数字音频信号，需对数字音频信号进行音频编码或音频压缩以便于存储和传输。对音频信号进行编码的目的是用尽可能少的比特数实现音频信号的透明表示，例如原始输入的音频信号与经编码后输出的音频信号之间几乎没有差别。

在二十世纪八十年代初，CD的出现体现了用数字表示音频信号的诸多优点，例如高保真度、大动态范围和强鲁棒性。然而，这些优点都是以很高的数据速率为代价的。例如CD质量的立体声信号的数字化所要求的采样率为44.1kHz，且每个采样值需用15比特进行均匀量化，这样，没有经过压缩的数据速率就达到了1.41Mb/s，如此高的数据速率给数据的传输和存储带来极大的不便，特别是在多媒体应用和无线传输应用的场合下，更是受到带宽和成本的限制。为了保持高质量的音频信号，因此要求新的网络和无线多媒体数字音频系统必须降低数据的速率，且同时不损害音频的质量。针对上述问题，目前已提出了多种既能得到很高压缩比又能产生高保真的音频信号的音频压缩技术，典型的有国际标准化组织ISO/IEC的MPEG-1/-2/-4技术、杜比公司的AC-2/AC-3技术、索尼公司的ATRAC/MiniDisc/SDDS技术以及朗讯科技的PAC/EPAC/MPAC技术等。下面选择MPEG-2 AAC技术、杜比公司的AC-3技术进行具体的说明。

MPEG-1技术和MPEG-2 BC技术是主要用于单声道及立体声音频信号的高音质编码技术，随着对在较低码率下达到较高编码质量的多声道音频编码的需求的日益增长，由于MPEG-2 BC编码技术强调与MPEG-1技术的后向兼容性，因此无法以低于540kbps的码率实现五声道的高音质编码。针对这一不足，提出了MPEG-2 AAC技术，该技术可采用320kbps的速率对五声道信号实现较高质量的编码。

图1给出了MPEG-2 AAC编码器的方框图，该编码器包括增益控制器101、滤波器组102、时域噪声整形模块103、强度/耦合模块104、心理声学模型、二阶后向自适应预测器105、和差立体声模块106、比特分配和量化编码模块107以及比特流复用模块108，其中比特分配和量化编码模块107进一步包括压缩比/失真处理控制器、尺度因子模块、非均匀量化器和熵编码模块。

滤波器组102采用改进的离散余弦变换(MDCT)，其分辨率是信号自适应的，即对于稳态信号采用2048点MDCT变换，而对于瞬态信号则采用256点MDCT变换；这样，对于48kHz采样的信号，其最大频率分辨率为23Hz，最大时间分辨率为2.6ms。同时在滤波器组102中可以使用正弦窗和Kaiser-Bessel窗，当输入信号的谐波间隔小于140Hz时使用正弦窗，当输入信号中很强的成分间隔大于220Hz时使用Kaiser-Bessel窗。

音频信号经过增益控制器101后进入滤波器组102，根据不同的信号进行滤波，然后通过时域噪声整形模块103对滤波器组102输出的频谱系数进行处理，时域噪声整形技术是在频域上对频谱系数进行线性预测分析，然后依据上述分析控制量化噪声在时域上的形状，以此达到控制预回声的目的。

强度/耦合模块104是用于对信号强度的立体声编码，由于对于高频段(大于2kHz)的信号，听觉的方向感与有关信号强度的变化(信号包络)有关，而与信号的波形无关，即恒包络信号对听觉方向感无影响，因此可利用这一特点以及多声道间的相关信息，将若干声道合成一个共同声道进行编码，这就形成了强度/耦合技术。

二阶后向自适应预测器105用于消除稳态信号的冗余，提高编码效率。和差立体声(M/S)模块106是针对声道对进行操作，声道对是指诸如双声道信号或多声道信号中的左右声道或左右环绕声道的两个声道。M/S模块106利用声道对中两个声道之间的相关性以达到减少码率和提高编码效率的效果。比特分配和量化编码模块107是通过一个嵌套循环过程实现的，其中非均匀量化器是进行有损编码，而熵编码模块是进行无损编码，这样可以去除冗余和减少相关。嵌套循环包括内层循环和外层循环，其中内层循环调整非均匀量化器的步长直到所提供的比特用完，外层循环则利用量化噪声与掩蔽阈值的比来估计信号的编码质量。最后经过编码的信号通过比特流复用模块108形成编码的音频流输出。

在采样率可伸缩的情况下，输入信号同时进行四频段多相位滤波器组(PQF)中产生四个等带宽的频带，每个频带利用MDCT产生256个频谱系数，总共有1024个。在每个频带内都使用增益控制器101。而在解码器中可以忽略高频的PQF频带得到低采样率信号。

图2给出了对应的MPEG-2 AAC解码器的方框示意图。该解码器包括比特流解复用模块201、无损解码模块202、逆量化器203、尺度因子模块204、和差立体声(M/S)模块205、预测模块206、强度/耦合模块207、时域噪声整形模块208、滤波器组209和增益控制模块210。编码的音频流经过比特流解复用模块201进行解复用，得到相应的数据流和控制流。上述信号通过无损解码模块202的解码后，得到尺度因子的整数表示和信号谱的量化值。逆量化器203是一组通过压扩函数实现的非均匀量化器组，用于将整数量化值转换为重建谱。由于编码器中的尺度因子模块是将当前尺度因子与前一尺度因子进行差分，然后将差分值采用Huffman编码，因此解码器中的尺度因子模块204进行Huffman解码可得到相应的差分值，再恢复出真实的尺度因子。M/S模块205在边信息的控制下将和差声道转换成左右声道。由于在编码器中采用二阶后向自适应预测器105消除稳态信号的冗余并提高编码效率，因此在解码器中通过预测模块206进行预测解码。强度/耦合模块207在边信息的控制下进行强度/耦合解码，然后输出到时域噪声整形模块208中进行时域噪声整形解码，最后通过滤波器组209进行综合滤波，滤波器组209采用逆向改进离散余弦变换(IMDCT)技术。

对于采样频率可伸缩的情况，可通过增益控制模块210忽略高频的PQF频带，以得到低采样率信号。

MPEG-2 AAC编解码技术适用于中高码率的音频信号，但对低码率或甚低码率的音频信号的编码质量较差；同时该编解码技术涉及的编解码模块较多，实现的复杂度较高，不利于实时实现。

图3给出了采用杜比AC-3技术的编码器的结构示意图，包括暂态信号检测模块301、改进的离散余弦变换滤波器MDCT 302、频谱包络/指数编码模块303、尾数编码模块304、前向-后向自适应感知模型305、参数比特分配模块306和比特流复用模块307。

音频信号通过暂态信号检测模块301判别是稳态信号还是瞬态信号，同时通过信号自适应MDCT滤波器组302将时域数据映射到频域数据，其中512点的长窗应用于稳态信号，一对短窗应用于瞬态信号。

频谱包络/指数编码模块303根据码率和频率分辨率的要求采用三种模式对信号的指数部分进行编码，分别是D15、D25和D45编码模式。AC-3技术在频率上对频谱包络采取差分编码，因为最多需要±2增量，每个增量代表6dB的电平变化，对于第一个直流项采用绝对值编码，其余指数就采用差分编码。在D15频谱包络指数编码中，每个指数大约需要2.33比特，3个差分组在一个7比特的字长中编码，D15编码模式通过牺牲时间分辨率而提供精细的频率分辨率。由于只是对相对平稳的信号才需要精细的频率分辨率，而这样的信号在许多块上的频谱保持相对恒定，因此，对于稳态信号，D15偶尔被传送，通常是每6个声音块(一个数据帧)的频谱包络被传送一次。当信号频谱不稳定时，需要常更新频谱估计值。估计值采用较小的频率分辨率编码，通常使用D25和D45编码模式。D25编码模式提供了合适的频率分辨率和时间分辨率，每隔一个频率系数就进行差分编码，这样每个指数大约需要1.15比特。当频谱在2至3个块上都是稳定的，然后突然变化时，可以采用D25编码模式。D45编码模式是每隔三个频率系数进行差分编码，这样每个指数大约需要0.58比特。D45编码模式提供了很高的时间分辨率和较低的频率分辨率，所以一般应用在对瞬态信号的编码中。

前向-后向自适应感知模型305用于估计每帧信号的掩蔽阈值。其中前向自适应部分仅应用在编码器端，在码率的限制下，通过迭代循环估计一组最佳的感知模型参数，然后这些参数被传递到后向自适应部分以估计出每帧的掩蔽阈值。后向自适应部分同时应用在编码器端和解码器端。

参数比特分配模块306根据掩蔽准则分析音频信号的频谱包络，以确定给每个尾数分配的比特数。该模块306利用一个比特池对所有声道进行全局比特分配。在尾数编码模块304中进行编码时，从比特池中循环取出比特分配给所有的声道，根据可以获得的比特数来调整尾数的量化。为达到压缩编码的目的，AC-3编码器还采用高频耦合的技术，将被耦合信号的高频部分按照人耳临界带宽划分成18个子频段，然后选择某些声道从某个子带开始进行耦合。最后通过比特流复用模块307形成AC-3音频流输出。

图4给出了采用杜比AC-3解码的流程示意图。首先输入经过AC-3编码器编码的比特流，对比特流进行数据帧同步和误码检测，如果检测到一个数据误码，则进行误码掩盖或弱音处理。然后对比特流进行解包，获得主信息和边信息，再进行指数解码。在进行指数解码时，需要有两个边信息：一是打包的指数数目；一个是所采用的指数策略，如D15、D25或D45模式。已经解码的指数和比特分配边信息再进行比特分配，指出每个打包的尾数所用的比特数，得到一组比特分配指针，每个比特分配指针对应一个编码的尾数。比特分配指针指出用于尾数的量化器以及在码流中每个尾数占用的比特数。对单个编码的尾数值进行解量化，将其转变成一个解量化的值，占用零比特的尾数被恢复成零，或者在抖动标志的控制下用一个随机抖动值代替。然后进行解耦合的操作，解耦合是从公共耦合声道和耦合因子中恢复出被耦合声道的高频部分，包括指数和尾数。如果在编码端采用2/0模式编码时，会对某子带采用矩阵处理，那么在解码端需通过矩阵恢复将该子带的和差声道值转换成左右声道值。在码流中包含有每个音频块的动态范围控制值，将该值进行动态范围压缩，以改变系数的幅度，包括指数和尾数。将频域系数进行逆变换，转变成时域样本，然后对时域样本进行加窗处理，相邻的块进行重叠相加，重构出PCM音频信号。当解码输出的声道数小于编码比特流中的声道数时，还需要对音频信号进行下混处理，最后输出PCM流。

杜比AC-3编码技术主要针对高比特率多声道环绕声的信号，但是当5.1声道的编码比特率低于384kbps时，其编码效果较差；而且对于单声道和双声道立体声的编码效率也较低。

综上，现有的编解码技术无法全面解决从甚低码率、低码率到高码率音频信号以及单声道、双声道信号的编解码质量，实现较为复杂。

发明内容

本发明所要解决的技术问题在于提供一种增强音频编解码的装置及方法，以解决现有技术对于较低码率音频信号的编码效率低、质量差的问题。

本发明的增强音频编码装置，包括心理声学分析模块、时频映射模块、量化和熵编码模块、比特流复用模块和多分辨率分析模块；其中所述心理声学分析模块，用于对输入的音频信号进行分析，计算输入音频信号的掩蔽阈值和信掩比，输出到所述量化和熵编码模块；所述时频映射模块，用于将输入的时域音频信号转变成频域系数，并输出到多分辨率分析模块；所述多分辨率分析模块，根据所述心理声学分析模块输出的信号类型分析结果，用于对快变类型信号的频域系数进行多分辨率分析，并输出到量化和熵编码模块；所述量化和熵编码模块，在所述心理声学分析模块输出的信掩比的控制下，用于对频域系数进行量化和熵编码，并输出到所述比特流复用模块；所述比特流复用模块用于将接收到的数据进行复用，形成音频编码码流。

本发明的增强音频解码装置，包括：比特流解复用模块、熵解码模块、逆量化器组、频率-时间映射模块和多分辨率综合模块；所述比特流解复用模块用于对压缩音频数据流进行解复用，并向所述熵解码模块和多分辨率综合模块输出相应的数据信号和控制信号；所述熵解码模块用于对上述信号进行解码处理，恢复谱的量化值，输出到所述逆量化器组；所述逆量化器组用于重建逆量化谱，并输出到所述到多分辨率综合模块；所述多分辨率综合模块用于对逆量化谱进行多分辨率综合，并输出到所述频率-时间映射模块；所述频率-时间映射模块用于对谱系数进行频率-时间映射，输出时域音频信号。

本发明适用于多种采样率、声道配置的音频信号的高保真压缩编码，可以支持采样率为8kHz到192kHz之间的音频信号；可支持所有可能的声道配置；并且支持范围很宽的目标码率的音频编/解码。

附图说明

图1是MPEG-2 AAC编码器的方框图；

图2是MPEG-2 AAC解码器的方框图；

图3是采用杜比AC-3技术的编码器的结构示意图；

图4是采用杜比AC-3技术的解码流程示意图；

图5是本发明编码装置的结构示意图；

图6是采用Harr小波基小波变换的滤波结构示意图；

图7是采用Harr小波基小波变换得到的时频划分示意图；

图8是本发明解码装置的结构示意图；

图9是本发明编码装置的实施例一的结构示意图；

图10是本发明解码装置的实施例一的结构示意图；

图11是本发明编码装置的实施例二的结构示意图；

图12是本发明解码装置的实施例二的结构示意图；

图13是本发明编码装置的实施例三的结构示意图；

图14是本发明解码装置的实施例三的结构示意图。

具体实施方式

图1至图4是现有技术的几种编码器的结构示意图，已在背景技术中进行了介绍，此处不再赘述。

需要说明的是：为方便、清楚地说明本发明，下述编解码装置的具体实施例是采用对应的方式说明的，但并不限定编码装置与解码装置必须是一一对应的。

如图5所示，本发明提供的音频编码装置包括心理声学分析模块50、时频映射模块51、多分辨率分析模块52、量化和熵编码模块53以及比特流复用模块54；其中所述心理声学分析模块50用于计算输入音频信号的掩蔽阈值和信掩比，分析信号类型，输出到所述量化和熵编码模块53；所述时频映射模块51用于将输入的时域音频信号转变成频域系数，并输出到多分辨率分析模块52；所述多分辨率分析模块52根据所述心理声学分析模块50输出的信号类型分析结果，对快变类型信号的频域系数进行多分辨率分析，并输出到量化和熵编码模块53；所述量化和熵编码模块53，在所述心理声学分析模块50输出的信掩比的控制下，对频域系数进行量化和熵编码，并输出到所述比特流复用模块54；所述比特流复用模块54用于将接收到的数据进行复用，形成音频编码码流。

数字音频信号分别输入心理声学分析模块50和时频映射模块51，一方面在心理声学分析模块50中计算该帧音频信号的掩蔽阈值和信掩比，并分析信号类型，然后将信掩比作为控制信号传送给量化和熵编码模块53；另一方面时域的音频信号通过时频映射模块51转变成频域系数；上述频域系数在多分辨率分析模块52中，对快变信号进行多分辨率分析，提高快变信号的时间分辨率，并将结果输出到量化和熵编码模块53中；在心理声学分析模块50输出的信掩比的控制下，在量化和熵编码模块53中进行量化和熵编码。经过编码后的数据和控制信号在比特流复用模块54进行复用，形成增强音频编码的码流。

下面对上述音频编码装置的各个组成模块进行具体详细地说明。

心理声学分析模块50主要用于计算输入音频信号的掩蔽阈值、信掩比和感知熵，并分析信号类型。根据心理声学分析模块50计算出的感知熵可动态地分析当前信号帧进行透明编码所需的比特数，从而调整帧间的比特分配。心理声学分析模块50输出各个子带的信掩比到量化和熵编码模块53，对其进行控制。

时频映射模块51用于实现音频信号从时域信号到频域系数的变换，由滤波器组构成，具体可以是离散傅立叶变换(DFT)滤波器组、离散余弦变换(DCT)滤波器组、修正离散余弦变换(MDCT)滤波器组、余弦调制滤波器组、小波变换滤波器组等。通过时频映射得到的频域系数被输出到量化和熵编码模块53中，进行量化和编码处理。

对于快变类型信号，为有效克服编码过程中产生的预回声现象，提高编码质量，本发明编码装置通过多分辨率分析模块52来提高编码快变信号的时间分辨率。时频映射模块51输出的频域系数输入到多分辨率分析模块52中，如果是快变类型信号，则进行频域小波变换或频域修正离散余弦变换(MDCT)，获得对频域系数/残差序列系数的多分辨率表示，输出到量化和熵编码模块53中。如果是缓变类型信号，则对频域系数不进行处理，直接输出到量化和熵编码模块53。

多分辨率分析模块52包括频域系数变换模块和重组模块，其中频域系数变换模块用于将频域系数变换为时频平面系数；重组模块用于将时频平面系数按照一定的规则进行重组。频域系数变换模块可采用频域小波变换滤波器组、频域MDCT变换滤波器组等。

量化和熵编码模块53进一步包括了非线性量化器组和编码器，其中量化器可以是标量量化器或矢量量化器。矢量量化器进一步分为无记忆矢量量化器和有记忆矢量量化器两大类。对于无记忆矢量量化器，每个输入矢量是独立进行量化的，与以前的各矢量无关；有记忆矢量量化器是在量化一个矢量时考虑以前的矢量，即利用了矢量之间的相关性。主要的无记忆矢量量化器包括全搜索矢量量化器、树搜索矢量量化器、多级矢量量化器、增益/波形矢量量化器和分离均值矢量量化器；主要的有记忆矢量量化器包括预测矢量量化器和有限状态矢量量化器。

如果采用标量量化器，则非线性量化器组进一步包括M个子带量化器。在每个子带量化器中主要利用尺度因子进行量化，具体是：对M个尺度因子带中所有的频域系数进行非线性压扩，再利用尺度因子对该子带的频域系数进行量化，得到整数表示的量化谱输出到编码器，将每帧信号中的第一个尺度因子作为公共尺度因子输出到比特流复用模块54，其它尺度因子与其前一个尺度因子进行差分处理后输出到编码器。

上述步骤中的尺度因子是不断变化的值，按照比特分配策略来调整。本发明提供了一种全局感知失真最小的比特分配策略，具体如下：

首先，初始化每个子带量化器，调整尺度因子，使各尺度因子带内的谱系数的量化值均为零。此时每个子带的量化噪声等于每个子带的能量值，每个子带的噪声掩蔽比NMR等于它的信掩比SMR，量化所消耗的比特数为0，剩余比特数B₁等于目标比特数B。

其次，查找噪声掩蔽比NMR最大的子带，若最大噪声掩蔽比NMR小于等于1，则尺度因子不变，输出分配结果，比特分配过程结束；否则，将对应的子带量化器的尺度因子减小一个单位，然后计算该子带所需增加的比特数ΔB_i(Q_i)。若该子带的剩余比特数B_l≥ΔB_i(Q_i)，则确认此次尺度因子的修改，并将剩余比特数B_l减去ΔB_i(Q_i)，重新计算该子带的噪声掩蔽比NMR，然后继续查找噪声掩蔽比NMR最大的子带，重复执行后续步骤。如果该子带的剩余比特数B_l＜ΔB_i(Q_i)，则取消此次修改，保留上一次的尺度因子以及剩余比特数，最后输出分配结果，比特分配过程结束。

如果采用矢量量化器，则频域系数组成多个M维矢量输入到非线性量化器组中，对于每个M维矢量都根据平整因子进行谱平整，即缩小谱的动态范围，然后由矢量量化器根据主观感知距离测度准则在码书中找到与待量化矢量距离最小的码字，将对应的码字索引传递给编码器。平整因子是根据矢量量化的比特分配策略调整的，而矢量量化的比特分配则根据不同子带间感知重要度来控制。

在经过上述量化处理后，利用熵编码技术进一步去除量化后的系数以及边信息的统计冗余。熵编码是一种信源编码技术，其基本思想是：对出现概率较大的符号给予较短长度的码字，而对出现概率小的符号给予较长的码字，这样平均码字的长度最短。根据Shannon的无噪声编码定理，如果传输的N个源消息的符号是独立的，那么使用适当的变长度编码，码字的平均长度n将满足

[\frac{H (x)}{\log_{2} (D)}] \leq \overset{&OverBar;}{n} < [\frac{H (x)}{\log_{2} (D)} + \frac{1}{N}],

其中H(x)表示信源的熵，x表示符号变量。由于熵H(x)是平均码字长度的最短极限，上述公式表明此时码字的平均长度很接近于它的下限熵H(x)，因此这种变长度编码技术又成为“熵编码”。熵编码主要有Huffman编码、算术编码或游程编码等方法，本发明中的熵编码均可采用上述编码方法的任一种。

经过标量量化器量化后输出的量化谱和差分处理后的尺度因子在编码器中进行熵编码，得到码书序号、尺度因子编码值和无损编码量化谱，再对码书序号进行熵编码，得到码书序号编码值，然后将尺度因子编码值、码书序号编码值和无损编码量化谱输出到比特流复用模块54中。

经过矢量量化器量化后得到的码字索引在编码器中进行一维或多维熵编码，得到码字索引的编码值，然后将码字索引的编码值输出到比特流复用模块54中。

基于上述编码器的编码方法，具体包括：对输入音频信号进行时频映射，获得音频信号的频域系数；同时，计算输入音频信号的信掩比；如果是快变类型信号，则对频域系数进行多分辨率分析；如果不是快变类型信号，则进行下一步编码；对频域系数进行量化和熵编码；再将编码后的音频信号进行复用，得到压缩音频码流。

下面对上述步骤的具体实现，做进一步的详细说明。

对时域音频信号进行时频变换的方法有很多，如离散傅立叶变换(DFT)、离散余弦变换(DCT)、修正离散余弦变换(MDCT)、余弦调制滤波器组、小波变换等。下面以修正离散余弦变换MDCT和余弦调制滤波为例说明时频映射的过程。

对于采用修正离散余弦变换MDCT进行时频变换的情况，首先选取前一帧M个样本和当前帧M个样本的时域信号，再对这两帧共2M个样本的时域信号进行加窗操作，然后对经过加窗后的信号进行MDCT变换，从而获得M个频域系数。

MDCT分析滤波器的脉冲响应为：

h_{k} (n) = w (n) \sqrt{\frac{2}{M}} \cos [\frac{(2 n + M + 1) (2 k + 1) π}{4 M}],

则MDCT变换为：

X (k) = Σ_{n = 0}^{2 M - 1} x (n) h_{k} (n) - - - 0 \leq k \leq M - 1,

其中：w(n)为窗函数；x(n)为MDCT变换的输入时域信号；X(k)为MDCT变换的输出频域信号。

为满足信号完全重构的条件，MDCT变换的窗函数w(n)必须满足以下两个条件：

w(2M-1-n)＝w(n)且w²(n)+w²(n+M)＝1。

在实际中，可选用Sine窗作为窗函数。当然，也可以通过使用双正交变换，用特定的分析滤波器和合成滤波器修改上述对窗函数的限制。

对于采用余弦调制滤波进行时频变换的情况，则首先选取前一帧M个样本和当前帧M个样本的时域信号，再对这两帧共2M个样本的时域信号进行加窗操作，然后对经过加窗后的信号进行余弦调制变换，从而获得M个频域系数。

传统的余弦调制滤波技术的冲击响应为

h_{k} (n) = 2 p_{a} (n) \cos (\frac{π}{M} (k + 0.5) (n - \frac{D}{2}) + θ_{k}),

n＝0，1，...，N_h-1

f_{k} (n) = 2 p_{s} (n) \cos (\frac{π}{M} (k + 0.5) (n - \frac{D}{2}) - θ_{k}),

n＝0，1，...，N_f-1

其中0≤k＜M-1，0 ≤n＜2KM-1，K为大于零的整数，

θ_{k} = {(- 1)}^{k} \frac{π}{4} .

假设M子带余弦调制滤波器组的分析窗(分析原型滤波器)p_a(n)的冲击响应长度为N_a，综合窗(综合原型滤波器)p_s(n)的冲击响应长度为N_s。当分析窗和综合窗相等时，即p_a(n)＝p_s(n)，且N_a＝N_s，由上面两式所表示的余弦调制滤波器组为正交滤波器组，此时矩阵H和F([H]_n，k＝h_k(n)，[F]_n，k＝f_k(n))为正交变换矩阵。为获得线性相位滤波器组，进一步规定对称窗满足p_a(2KM-1-n)＝p_a(n)。为保证正交和双正交系统的完全重构性，窗函数还需满足一定的条件，详见文献“Multirate Systems and Filter Banks”，P.P.Vaidynathan，Prentice Hall，Englewood Cliffs，NJ，1993。

计算输入音频信号的掩蔽阈值和信掩比包括以下步骤：

第一步、将信号进行时域到频域的映射。可采用快速傅立叶变换和汉宁窗(hanningwindow)技术将时域数据转换成频域系数X[k]，X[k]用幅度r[k]和相位φ[k]表示为X[k]＝r[k]e^jφ[k]，那么每个子带的能量e[b]是该子带内所有谱线能量的和，即

e [b] = Σ_{k = k_{l}}^{k = k_{h}} r^{2} [k],

其中k_l和k_h分别表示子带b的上下边界。

第二步、确定信号中的音调和非音调成分。信号的音调性是通过对每个谱线进行帧间预测来估计的，每个谱线的预测值和真实值的欧氏距离被映射为不可预测测度，高预测性的谱成分被认为是音调性很强的，而低预测性的谱成分被认为是类噪声的。

预测值的幅度r_pred和相位φ_pred可用以下公式来表示：

r_pred[k]＝r_t-1[k]+(r_t-1[k]-r_t-2[k])

φ_pred[k]＝φ_t-1[k]+(φ_t-1[k]-φ_t-2[k])’

其中，t表示当前帧的系数；t-1表示前一帧的系数；t-2表示前两帧的系数。

那么，不可预测测度c[k]的计算公式为：

c [k] = \frac{dist (X [k], X_{pred} [k])}{r [k] + | r_{pred} [k] |}

其中，欧氏距离dist(X[k]，X_pred[k])采用下式计算：

dist(X[k]，X_pred[k])＝|X[k]-X_pred[k]|

＝((r[k]cos(φ[k])-r_pred[k]cos(φ_pred[k]))²+(r[k]sin(φ[k])-r_pred[k]sin(φ_pred[k]))²)^。

因此，每个子带的不可预测度c[b]是该子带内所有谱线的能量对其不可预测度的加权和，即

c [b] = Σ_{k = k_{l}}^{k = k_{h}} c [k] r^{2} [k] .

子带能量e[b]和不可预测度c[b]分别与扩展函数进行卷积运算，得到子带能量扩展e_s[b]和子带不可预测度扩展c_s[b]，掩模i对子带b的扩展函数表示为s[i，b]。为了消除扩展函数对能量变换的影响，需要对子带不可预测度扩展c_s[b]做归一化处理，其归一化的结果用

表示为

{\tilde{c}}_{s} [b] = \frac{c_{s} [b]}{e_{s} [b]} .

同样，为消除扩展函数对子带能量的影响，定义归一化能量扩展

为

{\tilde{e}}_{s} [b] = \frac{e_{s} [b]}{n [b]},

其中归一化因子n[b]为：

n [b] = Σ_{i = 1}^{b \max} s [i, b],

b_max为该帧信号所分的子带数。

根据归一化不可预测度扩展

可计算子带的音调性t[b]：

t [b] = - 0.299 - 0.43 \log_{e} ({\tilde{c}}_{s} [b]),

且0≤t[b]≤1。当t[b]＝1时，表示该子带信号为纯音调；当t[b]＝0时，表示该子带信号为白噪声。

第三步、计算每个子带所需的信噪比(Signal-to-Noise Ratio，简称SNR)。将所有子带的噪声掩蔽音调(Noise-Masking-Tone，简称NMT)的值设为5dB，音调掩蔽噪声(Tone-Masking-Noise，简称TMN)的值设为18dB，若要使噪声不被感知，则每个子带所需的信噪比SNR[b]是SNR[b]＝18t[b]+6(1-t[b])。

第四步、计算每个子带的掩蔽阈值以及信号的感知熵，并进行信号类型分析。根据前述步骤得到的每个子带的归一化信号能量和所需的信噪比SNR，计算每个子带的噪声能量阈值n[b]为

n [b] = {\tilde{e}}_{s} [b] 10^{- SNR [b] / 10} .

为了避免预回声的影响，将当前帧的噪声能量阈值n[b]与前一帧的噪声能量阈值n_prev[b]进行比较，得到信号的掩蔽阈值为n[b]＝min(n[b]，2n_prev[b])，这样可以确保掩蔽阈值不会因为在分析窗的近末端有高能量的冲击产生而出现偏差。

进一步地，考虑静止掩蔽阈值qsthr[b]的影响，选择最终的信号的掩蔽阈值为静止掩蔽阈值与上述计算的掩蔽阈值两者中的数值大者，即n[b]＝max(n[b]，qsthr[b])。然后采用如下公式计算感知熵，即

pe = - Σ_{b = 0}^{b \max} (cbwidt h_{b} \times \log_{10} (n [b] / (e [b] + 1))),

其中cbwidth_b表示各子带所包含的谱线个数。

判断某一帧信号的感知熵是否超过指定的门限PE_SWITCH，如果超过，则该帧信号为快变类型，否则为缓变类型。

第五步：计算每个子带信号的信掩比(Signal-to-Mask Ratio，简称SMR)。每个子带的信掩比SMR[b]为

SMR [b] = 10 \log_{10} (\frac{e [b]}{n [b]}) .

在获得了子带信号的信掩比后，根据信掩比对频域系数进行量化和熵编码。

多分辨率分析模块52对输入的频域数据进行时-频域的重新组织，以频率精度的降低为代价提高频域数据的时间分辨率，从而自动适应快变类型信号的时频特性，达到抑制预回声的效果，从而无需随时调整时频映射模块51中滤波器组的形式。

多分辨率分析包括频域系数变换和重组两个步骤，其中通过频域系数变换将频域系数变换为时频平面系数；通过重组将时频平面系数按照一定的规则进行分组。

下面以频域小波变换和频域MDCT变换为例，说明多分辨率分析的过程。

1)频域小波变换

假设时序序列x(i)，i＝0，1，...，2M-1，经过时频映射后得到的频域系数为X(k)，k＝0、1、...、M-1。频域小波或小波包变换的小波基可以是固定的，也可以是自适应的。

下面以最简单的Harr小波基小波变换为例，说明对频域系数进行多分辨率分析的过程。

Harr小波基的尺度系数为

小波系数为图6示出了采用Harr小波基进行小波变换的滤波结构示意图，其中H₀表示低通滤波(滤波系数为 )，H₁表示高通滤波(滤波系数为

)，“↓2”表示2倍的下采样操作。对于频域系数的中低频部分X₁(k)，k＝0，...，k₁不进行小波变换，对频域系数的高频部分进行Harr小波变换，得到不同的时间-频率区间的系数X₂(k)、X₃(k)、X₄(k)、X₅(k)、X₆(k)和X₇(k)，对应的时间-频率平面划分如图7所示。选择不同的小波基，可选用不同的小波变换结构进行处理，得到其他类似的时间-频率平面划分。因此可以根据需要，任意调整信号分析时的时频平面划分，满足不同的时间和频率分辨率的分析要求。

上述时频平面系数在重组模块中按照一定的规则进行重组，例如：可先将时频平面系数在频率方向组织，每个频带中的系数在时间方向组织，然后将组织好的系数按照子窗、尺度因子带的顺序排列。

2)频域MDCT变换

设输入频域MDCT变换滤波器组的频域数据为X(k)，k＝0，1，...，N-1，依次对这N点频域数据进行M(M＜N)点的MDCT变换，使得时频域数据的频率精度有所下降，而时间精度则相应地提高了。在不同的频域范围内使用不同长度的频域MDCT变换，可以获得不同的时-频平面划分即不同的时、频精度。重组模块对频域MDCT变换滤波器组输出的时-频域数据进行重组，一种重组方法是先将时频平面系数在频率方向组织，同时每个频带中的系数在时间方向组织，然后将组织好的系数按照子窗、尺度因子带的顺序排列。

量化和熵编码进一步包括了非线性量化和熵编码两个步骤，其中量化可以是标量量化或矢量量化。

标量量化包括以下步骤：对所有尺度因子带中的频域系数进行非线性压缩；再利用每个子带的尺度因子对该子带的频域系数进行量化，得到整数表示的量化谱；选择每帧信号中的第一个尺度因子作为公共尺度因子；其它尺度因子与其前一个尺度因子进行差分处理。

矢量量化包括以下步骤：将频域系数构成多个多维矢量信号；对于每个M维矢量都根据平整因子进行谱平整；根据主观感知距离测度准则在码书中查找与待量化矢量距离最小的码字，获得其码字索引。

熵编码步骤包括：对量化谱和差分处理后的尺度因子进行熵编码，得到码书序号、尺度因子编码值和无损编码量化谱；对码书序号进行熵编码，得到码书序号编码值。

或者是：对码字索引进行一维或多维熵编码，得到码字索引的编码值。

上述的熵编码方法可以采用现有的Huffman编码、算术编码或游程编码等方法中的任一种。

经过量化和熵编码处理后，得到编码后的音频码流，将该码流与公共尺度因子、频带扩展控制信号一起进行复用，得到压缩音频码流。

图8是本发明音频解码装置的结构示意图。音频解码装置包括比特流解复用模块60、熵解码模块61、逆量化器组62、多分辨率综合模块63和频率-时间映射模块64。压缩音频码流经过比特流解复用模块60的解复用后，得到相应的数据信号和控制信号，输出到熵解码模块61和多分辨率综合模块63；数据信号和控制信号在熵解码模块61中进行解码处理，恢复出谱的量化值。上述量化值在逆量化器组62中重建，得到逆量化后的谱，逆量化谱输出到多分辨率综合模块63中，经过多分辨率综合后输出到频率-时间映射模块64中，再经过频率-时间映射得到时域的音频信号。

比特流解复用模块60对压缩音频码流进行分解，得到相应的数据信号和控制信号，为其他模块提供相应的解码信息。压缩音频数据流经过解复用后，输出到熵解码模块61的信号包括公共尺度因子、尺度因子编码值、码书序号编码值和无损编码量化谱，或者是码字索引的编码值；输出信号类型信息到多分辨率综合模块63。

在编码装置中，如果量化和熵编码模块53中采用标量量化器，则在解码装置中，熵解码模块61收到的是比特流解复用模块60输出的公共尺度因子、尺度因子编码值、码书序号编码值和无损编码量化谱，然后对其进行码书序号解码、谱系数解码和尺度因子解码，重建出量化谱，并向逆量化器组62输出尺度因子的整数表示和谱的量化值。熵解码模块61采用的解码方法与编码装置中熵编码的编码方法相对应，如Huffman解码、算术解码或游程解码等。

逆量化器组62接收到谱的量化值和尺度因子的整数表示后，将谱的量化值逆量化为无缩放的重建谱(逆量化谱)，并向多分辨率综合模块63输出逆量化谱。逆量化器组62可以是均匀量化器组，也可以是通过压扩函数实现的非均匀量化器组。在编码装置中，量化器组采用的是标量量化器，则在解码装置中逆量化器组62也采用标量逆量化器。在标量逆量化器中，首先对谱的量化值进行非线性扩张，然后利用每个尺度因子得到对应尺度因子带中所有的谱系数(逆量化谱)。

如果量化和熵编码模块53中采用矢量量化器，则在解码装置中，熵解码模块61收到比特流解复用模块60输出的码字索引的编码值，将码字索引的编码值采用与编码时的熵编码方法对应的熵解码方法进行解码，得到对应的码字索引。

码字索引输出到逆量化器组62中，通过查询码书，得到量化值(逆量化谱)，输出到多分辨率综合模块63。逆量化器组62采用逆矢量量化器。逆量化谱经过多分辨率综合后，通过频率-时间映射模块64的映射处理，得到时域音频信号。频率-时间映射模块64可以是逆离散余弦变换(IDCT)滤波器组、逆离散傅立叶变换(IDFT)滤波器组、逆修正离散余弦变换(IMDCT)滤波器组、逆小波变换滤波器组以及余弦调制滤波器组等。

基于上述解码器的解码方法包括：对压缩音频码流进行解复用，得到数据信息和控制信息；对上述信息进行熵解码，得到谱的量化值；对谱的量化值进行逆量化处理，得到逆量化谱；将逆量化谱进行多分辨率综合后，再进行频率-时间映射，得到时域音频信号。

如果解复用后的信息中包括码书序号编码值、公共尺度因子、尺度因子编码值和无损编码量化谱，则表明在编码装置中谱系数是采用标量量化技术进行量化，则熵解码的步骤包括：对码书序号编码值进行解码，获得所有尺度因子带的码书序号；根据码书序号对应的码书，解码所有尺度因子带的量化系数；解码所有尺度因子带的尺度因子，重建量化谱。上述过程所采用的熵解码方法对应编码方法中的熵编码方法，如游程解码方法、Huffman解码方法、算术解码方法等。

下面以采用游程解码方法解码码书序号、采用Huffman解码方法解码量化系数和采用Huffman解码方法解码尺度因子为例，说明熵解码的过程。

首先通过游程解码方法获得所有尺度因子带的码书序号，解码后的码书序号为某一区间的整数，如假设该区间为[0，11]，那么只有位于该有效范围内的，即0至11之间的码书序号才与对应的谱系数Huffman码书相对应。对于全零子带，可选择某一码书序号对应，典型的可选0序号。

当解码得到各尺度因子带的码书号后，使用与该码书号对应的谱系数Huffman码书，对所有尺度因子带的量化系数进行解码。如果一个尺度因子带的码书号在有效范围内，本实施例如在1至11之间，那么该码书号对应一个谱系数码书，则使用该码书从量化谱中解码得到尺度因子带的量化系数的码字索引，然后从码字索引中解包得到量化系数。如果尺度因子带的码书号不在1至11之间，那么该码书号不对应任何谱系数码书，该尺度因子带的量化系数也就不用解码，直接将该子带的量化系数全部置为零。

尺度因子用于在逆量化谱系数基础上重构谱值，如果尺度因子带的码书号处于有效范围内，则每一个码书号都对应一个尺度因子。在对上述尺度因子进行解码时，首先读取第一个尺度因子所占用的码流，然后对其它尺度因子进行Huffman解码，依次得到各尺度因子与前一尺度因子之间的差值，将该差值与前一尺度因子值相加，得到各尺度因子。如果当前子带的量化系数全部为零，那么该子带的尺度因子不需要解码。

经过上述熵解码过程后，得到谱的量化值和尺度因子的整数表示，然后对谱的量化值进行逆量化处理，获得逆量化谱。逆量化处理包括：对谱的量化值进行非线性扩张；根据每个尺度因子得到对应尺度因子带中的所有谱系数(逆量化谱)。

如果解复用后的信息中包括码字索引的编码值，则表明编码装置中采用矢量量化技术对谱系数进行量化，则熵解码的步骤包括：采用与编码装置中熵编码方法对应的熵解码方法对码字索引的编码值进行解码，得到码字索引。然后对码字索引进行逆量化处理，获得逆量化谱。

对于逆量化谱，如果是快变类型信号，则对频域系数进行多分辨率分析，然后对频域系数的多分辨率表示进行量化和熵编码；如果不是快变类型信号，则直接将频域系数进行量化和熵编码。

多分辨率综合可采用频域小波变换法或频域MDCT变换法。频域小波综合法包括：先将上述时频平面系数按照一定的规则重组；再对频域系数进行小波变换，得到时频平面系数。而MDCT变换法则包括：先将上述时频平面系数按照一定的规则重组，再对频域系数进行n次MDCT变换，得到时频平面系数。重组的方法可以包括：先将时频平面系数在频率方向组织，每个频带中的系数在时间方向组织，然后将组织好的系数按照子窗、尺度因子带的顺序排列。

对频域系数进行频率-时间映射处理的方法与编码方法中的时-频映射处理方法相对应，可以采用逆离散余弦变换(IDCT)、逆离散傅立叶变换(IDFT)、逆修正离散余弦变换(IMDCT)、逆小波变换等方法完成。

下面以逆修正离散余弦变换IMDCT为例说明频率-时间映射过程。频率-时间映射过程包括三个步骤：IMDCT变换、时域加窗处理和时域叠加运算。

首先对预测前的谱或逆量化谱进行IMDCT变换，得到变换后的时域信号x_i，n。IMDCT变换的表达式为：

x_{i, n} = \frac{2}{N} Σ_{k = 0}^{\frac{N}{2} - 1} spec [i] [k] \cos (\frac{2 π}{N} (n + n_{0}) (k + \frac{1}{2})),

其中，n表示样本序号，且0≤n＜N，N表示时域样本数，取值为2048，n₀＝(N/2+1)/2；i表示帧序号；k表示谱序号。

其次，对IMDCT变换获得的时域信号在时域进行加窗处理。为满足完全重构条件，窗函数w(n)必须满足以下两个条件：w(2M-1-n)＝w(n)且w²(n)+w²(n+M)＝1。

典型的窗函数有Sine窗、Kaiser-Bessel窗等。本发明采用一种固定的窗函数，其窗函数为：w(N+k)＝cos(pi/2*((k+0.5)/N-0.94*sin(2*pi/N*(k+0.5))/(2*pi)))，其中k＝0...N-1；w(k)表示窗函数的第k个系数，有w(k)＝w(2*N-1-k)；N表示编码帧的样本数，取值为N＝1024。另外可以利用双正交变换，采用特定的分析滤波器和合成滤波器修改上述对窗函数的限制。

最后，对上述加窗时域信号进行叠加处理，得到时域音频信号。具体是：将加窗操作后获得的信号的前N/2个样本和前一帧信号的后N/2个样本重叠相加，获得N/2个输出的时域音频样本，即timeSam_i，n＝preSami，n+preSam_i-1，n+N/2，其中i表示帧序号，n表示样本序号，有

0 \leq n \leq \frac{N}{2},

且N的取值为2048。

在获得时域音频信号后，根据频带扩展控制信息和时域音频信号，重构音频信号的高频部分，得到宽频带音频信号。

图9是本发明编码装置的第一个实施例的示意图。该实施例在图5的基础上，增加了频域线性预测及矢量量化模块55，所述频域线性预测及矢量量化模块55位于多分辨率分析模块52的输出与量化和熵编码模块53的输入之间，输出残差序列到量化和熵编码模块53，同时将量化得到的码字索引作为边信息输出到比特流复用模块54。

多分辨率分析模块52输出的频域系数传送至频域线性预测及矢量量化模块55中，如果频域系数的增益阈值满足给定的条件，则对频域系数进行线性预测滤波，获得的预测系数转换成线谱对频率系数LSF(Line Spectrum Frequency)，再采用最佳的失真度量准则搜索计算出各级码本的码字索引，并将码字索引作为边信息传送到比特流复用模块54，而经过预测分析得到的残差序列则输出到量化和熵编码模块53。

频域线性预测及矢量量化模块55由线性预测分析器、线性预测滤波器、转换器和矢量量化器构成。频域系数输入到线性预测分析器中进行预测分析，得到预测增益和预测系数，对满足一定条件的频域系数，输出到线性预测滤波器中进行滤波，得到残差序列；残差序列直接输出到量化和熵编码模块53中，而预测系数通过转换器转换成线谱对频率系数LSF，再进入矢量量化器中进行多级矢量量化，量化后的信号被传送到比特流复用模块54中。

对音频信号进行频域线性预测处理能够有效地抑制预回声并获得较大的编码增益。假设实信号x(t)，其平方Hilbert包络e(t)表示为：e(t)＝F^-1{∫C(ξ)·C^*(ξ-f)dξ}，其中C(f)为对应于信号x(t)正频率成分的单边谱，即信号的Hilbert包络是与该信号谱的自相关函数有关的。而信号的功率谱密度函数与其时域波形的自相关函数的关系为：PSD(f)＝F{∫x(τ)·x^*(τ-t)dτ}，因此信号在时域的平方Hilbert包络与信号在频域的功率谱密度函数是互为对偶关系的。由上可知，每个一定频率范围内的部分带通信号，如果它的Hilbert包络保持恒定，那么相邻谱值的自相关也将保持恒定，这就意味着谱系数序列相对于频率而言是稳态序列，从而可以用预测编码技术来对谱值进行处理，用公用的一组预测系数来有效地表示该信号。

基于图9所示编码装置的编码方法与基于图5所示编码装置的编码方法基本相同，区别在于增加了下述步骤：对频域系数进行标准的线性预测分析，得到预测增益和预测系数；判断预测增益是否超过设定的阈值，如果超过，则根据预测系数对频域系数进行频域线性预测误差滤波，得到残差序列；将预测系数转化成线谱对频率系数，并对线谱对频率系数进行多级矢量量化处理，得到边信息；对残差序列进行量化和熵编码；如果预测增益未超过设定的阈值，则对频域系数进行量化和熵编码。

当获得了频域系数后，首先对频域系数进行标准的线性预测分析，包括计算自相关矩阵、递推执行Levinson-Durbin算法获得预测增益和预测系数。然后判断计算的预测增益是否超过预先设定的阈值，如果超过，则根据预测系数对频域系数进行线性预测误差滤波；否则对频域系数不作处理，执行下一步骤，对频域系数进行量化和熵编码。

线性预测可分为前向预测和后向预测两种，前向预测是指利用某一时刻之前的值预测当前值，而后向预测是指利用某一时刻之后的值预测当前值。下面以前向预测为例说明线性预测误差滤波，线性预测误差滤波器的传递函数为

A (z) = 1 - Σ_{i = 1}^{p} a_{i} z^{- i},

其中a_i表示预测系数，p为预测阶数。经过时间-频率变换后的频域系数X(k)经过滤波后，得到预测误差E(k)，也称残差序列，两者之间满足关系

E (k) = X (k) \cdot A (z) = X (k) - Σ_{i = 1}^{p} a_{i} X (k - i) .

这样，经过线性预测误差滤波，时间-频率变换输出的频域系数X(k)就可以用残差序列E(k)和一组预测系数a_i表示。然后将这组预测系数a_i转换成线谱频率系数(LSF)，并对其进行多级矢量量化，矢量量化选择最佳的失真度量准则(如最近邻准则)，搜索计算出各级码本的码字索引，以此可确定预测系数对应的码字，将码字索引作为边信息输出。同时，对残差序列E(k)进行量化和熵编码。由线性预测分析编码原理可知，谱系数的残差序列的动态范围小于原始谱系数的动态范围，因此在量化时可以分配较少的比特数，或者对于相同比特数的条件，可以获得改进的编码增益。

图10是解码装置的实施例一的示意图，该解码装置在图8所示解码装置的基础上，增加了逆频域线性预测及矢量量化模块65，位于逆量化器组62的输出与多分辨综合模块63的输入之间，并且比特流解复用模块60向其输出逆频域线性预测矢量量化控制信息，用于对逆量化谱(残差谱)进行逆量化处理和逆线性预测滤波，得到预测前的谱，并输出到多分辨率综合模块63中。

在编码器中，采用频域线性预测矢量量化技术来抑制预回声，并获得较大的编码增益。因此在解码器中，逆量化谱和比特流解复用模块60输出的逆频域线性预测矢量量化控制信息输入到逆频域线性预测及矢量量化模块65中恢复出线性预测前的谱。

逆频域线性预测及矢量量化模块65包括逆矢量量化器、逆转换器和逆线性预测滤波器，其中逆矢量量化器用于对码字索引进行逆量化得到线谱对频率系数LSF；逆转换器则用于将线谱对频率系数LSF逆转换为预测系数；逆线性预测滤波器用于根据预测系数对逆量化谱进行逆滤波，得到预测前的谱，并输出到多分辨率综合模块63。

基于图10所示解码装置的解码方法与基于图8所示解码装置的解码方法基本相同，区别在于增加了下述步骤：在得到逆量化谱后，判断控制信息中是否包含逆量化谱需要经过逆频域线性预测矢量量化的信息，如果含有，则进行逆矢量量化处理，得到预测系数，并根据预测系数对逆量化谱进行线性预测合成，得到预测前的谱；将预测前的谱进行多分辨率综合。

在获得逆量化谱后，根据控制信息判断该帧信号是否经过频域线性预测矢量量化，如果是，则从控制信息中获取预测系数矢量量化后的码字索引；再根据码字索引得到量化的线谱对频率系数LSF，并以此计算出预测系数；然后将逆量化谱进行线性预测合成处理，得到预测前的谱。

线性预测误差滤波处理所采用的传递函数A(z)为：

A (z) = 1 - Σ_{i = 1}^{p} a_{i} z^{- i},

其中：a_i是预测系数；p为预测阶数。因此残差序列E(k)与预测前的谱X(k)满足：

X (k) = E (k) \cdot \frac{1}{A (z)} = E (k) + Σ_{i = 1}^{p} a_{i} X (k - i) .

这样，残差序列E(k)和计算出的预测系数a_i经过频域线性预测合成，就可得到预测前的谱X(k)，将预测前的谱X(k)进行频率-时间映射处理。

如果控制信息表明该信号帧没有经过频域线性预测矢量量化，则不进行逆频域线性预测矢量量化处理，将逆量化谱直接进行频率-时间映射处理。

图11给出了本发明编码装置的第二个实施例的结构示意图。该实施例在图5的基础上增加了和差立体声(M/S)编码模块56，该模块位于多分辨率分析模块52的输出与量化和熵编码模块53的输入之间，心理声学分析模块50向其输出信号类型分析结果。对于多声道信号，心理声学分析模块50除了计算音频信号单声道的掩蔽阈值，还要计算和差声道的掩蔽阈值，输出到量化和熵编码模块53。和差立体声编码模块56还可以位于量化和熵编码模块53中的量化器组与编码器之间。

和差立体声编码模块56是利用声道对中两个声道之间的相关性，将左右声道的频域系数/残差序列等效为和差声道的频域系数/残差序列，以此达到减少码率和提高编码效率的效果，因此只适用于信号类型一致的多声道信号。如果是单声道信号或者信号类型不一致的多声道信号，则不进行和差立体声编码处理。

基于图11所示编码装置的编码方法与基于图5所示编码装置的编码方法基本相同，区别在于增加了下述步骤：在对频域系数进行量化和熵编码处理之前，判断音频信号是否为多声道信号，如果是多声道信号，则判断左、右声道信号的信号类型是否一致，则判断两声道对应的尺度因子带之间是否满足和差立体声编码条件，如果满足，则对其进行和差立体声编码，得到和差声道的频域系数；如果不满足，则不进行和差立体声编码；如果是单声道信号或信号类型不一致的多声道信号，则对频域系数不进行处理。

和差立体声编码除了可以应用在量化处理之前，还可以应用在量化之后、熵编码之前，即：在对频域系数量化后，判断音频信号是否为多声道信号，如果是多声道信号，则判断左、右声道信号的信号类型是否一致，如果信号类型一致，则判断两声道对应的尺度因子带之间是否满足和差立体声编码条件，如果满足，则对其进行和差立体声编码；如果不满足，则不进行和差立体声编码处理；如果是单声道信号或信号类型不一致的多声道信号，则对频域系数不进行和差立体声编码处理。

判断尺度因子带是否可进行和差立体声编码的方法很多，本发明采用的判断方法是：通过K-L变换。具体判断过程如下：

假如左声道尺度因子带的谱系数为1(k)，右声道相对应的尺度因子带的谱系数为r(k)，其相关矩阵C为

C = (\begin{matrix} C_{ll} & C_{lr} \\ C_{lr} & C_{rr} \end{matrix}),

其中，

C_{ll} = \frac{1}{N} Σ_{k = 0}^{N - 1} l (k}^{*} l (k));

C_{lr} = \frac{1}{N} Σ_{k = 0}^{N - 1} l (k}^{*} r (k));

C_{rr} = \frac{1}{N} Σ_{k = 0}^{N - 1} r (k}^{*} r (k));

N是尺度因子带的谱线数目。

对相关矩阵C进行K-L变换，得到

{RCR}^{T} = Λ = (\begin{matrix} λ_{ii} & 0 \\ 0 & λ_{ee} \end{matrix}),

其中，

R = (\begin{matrix} \cos a & - \sin a \\ \sin a & \cos a \end{matrix})

a &Element; [- \frac{π}{2}, \frac{π}{2}] .

旋转角度a满足

\tan (2 a) = \frac{2 C_{lr}}{C_{ll} - C_{rr}},

当

a = &PlusMinus; π / 4

时，就是和差立体声编码模式。因此当旋转角度a的绝对值偏离π/4较小时，比如3π/16＜|a|＜5π/16，对应的尺度因子带可以进行和差立体声编码。

如果和差立体声编码应用在量化处理之前，则将左右声道在尺度因子带的频域系数通过线性变换用和差声道的频域系数代替：

[\begin{matrix} M \\ S \end{matrix}] = \frac{1}{2} [\begin{matrix} 1 & 1 \\ 1 & - 1 \end{matrix}] [\begin{matrix} L \\ R \end{matrix}],

其中，M表示和声道频域系数；S表示差声道频域系数；L表示左声道频域系数；R表示为右声道频域系数。

如果和差立体声编码应用在量化之后，则左右声道在尺度因子带的量化后的频域系数通过线性变换用和差声道的频域系数代替：

[\begin{matrix} \hat{M} \\ \hat{S} \end{matrix}] = [\begin{matrix} 1 & 0 \\ 1 & - 1 \end{matrix}] [\begin{matrix} \hat{L} \\ \hat{R} \end{matrix}],

其中：

表示量化后的和声道频域系数；

表示量化后的差声道频域系数；

表示量化后的左声道频域系数；

表示量化后的右声道频域系数。

将和差立体声编码放在量化处理之后，不仅可以有效的去除左右声道的相关，而且由于在量化后进行，因此可以达到无损编码。

图12是解码装置实施例二的示意图。该解码装置在图8所示的解码装置的基础上，增加了和差立体声解码模块66，位于逆量化器组62的输出与多分辨率综合模块63的输入之间，接收比特流解复用模块60输出的信号类型分析结果与和差立体声控制信号，用于根据上述控制信息将和差声道的逆量化谱转换成左右声道的逆量化谱。

在和差立体声控制信号中，有一个标志位用于表明当前声道对是否需要和差立体声解码，若需要，则在每个尺度因子带上也有一个标志位表明对应尺度因子带是否需要和差立体声解码，和差立体声解码模块66根据尺度因子带的标志位，确定是否需要对某些尺度因子带中的逆量化谱/谱的量化值进行和差立体声解码。如果在编码装置中进行了和差立体声编码，则在解码装置中必须对逆量化谱进行和差立体声解码。

和差立体声解码模块66还可以位于熵解码模块61的输出与逆量化器组62的输入之间，接收比特流解复用模块60输出的和差立体声控制信号和信号类型分析结果。

基于图12所示解码装置的解码方法基本与基于图8所示解码装置的解码方法相同，区别在于增加了下述步骤：在得到逆量化谱后，如果信号类型分析结果表明信号类型一致，则根据和差立体声控制信号判断是否需要对逆量化谱进行和差立体声解码；如果需要，则根据每个尺度因子带上的标志位表明该尺度因子带是否需要和差立体声解码，如果需要，则将该尺度因子带中的和差声道的逆量化谱转换成左右声道的逆量化谱，再进行后续处理；如果信号类型不一致或者不需要进行和差立体声解码，则对逆量化谱不进行处理，直接进行后续处理。

和差立体声解码还可以在熵解码处理之后、逆量化处理之前进行，即：当得到谱的量化值后，如果信号类型分析结果表明信号类型一致，则根据和差立体声控制信号判断是否需要对谱的量化值进行和差立体声解码；如果需要，则根据每个尺度因子带上的标志位表明该尺度因子带是否需要和差立体声解码，如果需要，则将该尺度因子带中的和差声道的谱的量化值转换成左右声道的谱的量化值，再进行后续处理；如果信号类型不一致或者不需要进行和差立体声解码，则对谱的量化值不进行处理，直接进行后续处理。

如果和差立体声解码在熵解码之后、逆量化之前，则左右声道在尺度因子带的频域系数采用下列运算通过和差声道的频域系数得到：

[\begin{matrix} \hat{l} \\ \hat{r} \end{matrix}] = [\begin{matrix} 1 & 0 \\ 1 & - 1 \end{matrix}] [\begin{matrix} \hat{m} \\ \hat{s} \end{matrix}],

其中：

表示量化后的和声道频域系数；表示量化后的差声道频域系数；表示量化后的左声道频域系数；表示量化后的右声道频域系数。

如果和差立体声解码在逆量化之后，则左右声道在子带的逆量化后的频域系数根据下面的矩阵运算通过和差声道的频域系数得到：

[\begin{matrix} l \\ r \end{matrix}] = [\begin{matrix} 1 & 1 \\ 1 & - 1 \end{matrix}] [\begin{matrix} m \\ s \end{matrix}],

其中：m表示和声道频域系数；s表示差声道频域系数；l表示左声道频域系数；r表示右声道频域系数。

图13是本发明编码装置的实施例三的结构示意图，它是在图9所示编码装置的基础上，增加了和差立体声编码模块56，位于频域线性预测及矢量量化模块55的输出与量化和熵解码模块53的输入之间，也可以位于量化和熵解码模块53中的量化器组与编码器之间。在本实施例中，和差立体声编码模块56的功能和工作原理与图11中的相同，故此不再赘述。

基于图13所示编码装置的编码方法与基于图9所示编码装置的编码方法基本相同，区别在于：在对残差序列/频域系数进行量化和熵编码处理之前，判断音频信号是否为多声道信号，如果是多声道信号，则判断左、右声道信号的信号类型是否一致，如果信号类型一致，则判断两声道对应的尺度因子带之间是否满足和差立体声编码条件，如果满足，则对其进行和差立体声编码，得到和差声道的频域系数；如果不满足，则不进行和差立体声编码；如果是单声道信号或信号类型不一致的多声道信号，则对残差序列/频域系数不进行处理。

图14是解码装置实施例三的示意图。该解码装置在图10所示的解码装置的基础上，增加了和差立体声解码模块66，位于逆量化器组62的输出与逆频域线性预测及矢量量化模块65的输入之间或者位于熵解码模块61的输出与逆量化器组62的输入之间。

基于图14所示解码装置的解码方法基本与基于图10所示解码装置的解码方法相同，区别在于增加了下述步骤：在得到逆量化谱后，如果信号类型分析结果表明信号类型一致，则根据和差立体声控制信号判断是否需要对逆量化谱进行和差立体声解码；如果需要，则根据每个尺度因子带上的标志位表明该尺度因子带是否需要和差立体声解码，如果需要，则将该尺度因子带中的和差声道的逆量化谱转换成左右声道的逆量化谱，再进行后续处理；如果信号类型不一致或者不需要进行和差立体声解码，则对逆量化谱不进行处理，直接进行后续处理。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1、一种增强音频编码装置，包括心理声学分析模块、时频映射模块、量化和熵编码模块以及比特流复用模块，其特征在于，还包括多分辨率分析模块；其中所述心理声学分析模块，用于计算输入音频信号的掩蔽阈值和信掩比，分析信号的类型，输出到所述量化和熵编码模块；

所述时频映射模块，用于将输入的时域音频信号转变成频域系数，并输出到多分辨率分析模块；

所述多分辨率分析模块，根据所述心理声学分析模块输出的信号类型分析结果，用于对快变类型信号的频域系数进行多分辨率分析，并输出到量化和熵编码模块；

所述量化和熵编码模块，在所述心理声学分析模块输出的信掩比的控制下，用于对频域系数进行量化和熵编码，并输出到所述比特流复用模块；

所述比特流复用模块用于将接收到的数据进行复用，形成音频编码码流。

2、根据权利要求1所述的增强音频编码装置，其特征在于，所述多分辨率分析模块包括频域系数变换模块和重组模块，其中所述频域系数变换模块是频域小波变换滤波器组或频域MDCT变换滤波器组，用于将频域系数变换为时频平面系数；所述重组模块用于将时频平面系数按照一定的规则进行重组。

3、根据权利要求1或2所述的增强音频编码装置，其特征在于，还包括频域线性预测及矢量量化模块，位于所述多分辨率分析模块的输出与所述量化和熵编码模块的输入之间；所述频域线性预测及矢量量化模块具体由线性预测分析器、线性预测滤波器、转换器和矢量量化器构成；

所述线性预测分析器，用于对频域系数进行预测分析，得到预测增益和预测系数，并将满足一定条件的频域系数输出到所述线性预测滤波器；对于不满足条件的频域系数直接输出到所述量化和熵编码模块；

所述线性预测滤波器，用于对频域系数进行线性预测误差滤波，得到频域系数的残差序列，并将残差序列输出到所述量化和熵编码模块，将预测系数输出到转换器；

所述转换器，用于将预测系数转换成线谱对频率系数；

所述矢量量化器，用于对线谱对频率系数进行多级矢量量化，量化后的信号被传送到所述比特流复用模块。

4、根据权利要求1-3任一所述的增强音频编码装置，其特征在于，还包括和差立体声编码模块，位于所述量化和熵解码模块的输入之前或者位于所述量化和熵编码模块中的量化器组与编码器之间，接收所述心理声学分析模块输出的信号类型分析结果，用于将左右声道的频域系数转换为和差声道的频域系数。

5、一种增强音频编码方法，其特征在于，包括以下步骤：

步骤一、对输入音频信号进行时频映射，获得音频信号的频域系数；同时，计算输入音频信号的信掩比；

步骤二、如果是快变类型信号，则对频域系数进行多分辨率分析；如果不是快变类型信号，则进行下一步编码；

步骤三、对频域系数进行量化和熵编码；

步骤四、将编码后的音频信号进行复用，得到压缩音频码流。

6、根据权利要求5所述增强音频编码方法，其特征在于，所述步骤三中量化是标量量化，具体包括：对所有尺度因子带中的频域系数进行非线性压扩；再利用每个子带的尺度因子对该子带的频域系数进行量化，得到整数表示的量化谱；选择每帧信号中的第一个尺度因子作为公共尺度因子；其它尺度因子与其前一个尺度因子进行差分处理；

所述熵编码包括：对量化谱和差分处理后的尺度因子进行熵编码，得到码书序号、尺度因子编码值和无损编码量化谱；对码书序号进行熵编码，得到码书序号编码值。

7、根据权利要求5所述增强音频编码方法，其特征在于，所述步骤二多分辨率分析包括：对频域系数进行数次MDCT变换，得到时频平面系数；将上述时频平面系数按照一定的规则重组；所述重组方法包括：先将时频平面系数在频率方向组织，每个频带中的系数在时间方向组织，然后将组织好的系数按照子窗、尺度因子带的顺序排列。

8、根据权利要求5-7任一所述增强音频编码方法，其特征在于，在所述步骤二与步骤三之间，还包括：对频域系数进行标准的线性预测分析，得到预测增益和预测系数；判断预测增益是否超过设定的阈值，如果超过，则根据预测系数对频域系数进行频域线性预测误差滤波，得到残差序列；将预测系数转换成线谱对频率系数，并对线谱对频率系数进行多级矢量量化处理，得到边信息；对残差序列进行量化和熵编码；如果预测增益未超过设定的阈值，则对频域系数进行量化和熵编码。

9、根据权利要求5-8任一所述增强音频编码方法，其特征在于，所述步骤三进一步包括：对频域系数进行量化；判断音频信号是否为多声道信号，如果是多声道信号，则判断左、右声道信号的信号类型是否一致，如果信号类型一致，则判断两声道对应的尺度因子带之间是否满足和差立体声编码条件，如果满足，则对该尺度因子带中的谱系数进行和差立体声编码，得到和差声道的频域系数；如果不满足，则该尺度因子带中的谱系数不进行和差立体声编码；如果是单声道信号或信号类型不一致的多声道信号，则对频域系数不进行处理；对频域系数进行熵编码；其中

所述判断尺度因子带是否满足编码条件的方法是：K-L变换，具体是：计算左右声道尺度因子带的谱系数的相关矩阵；对相关矩阵进行K-L变换；如果旋转角度α的绝对值偏离π/4较小时，如3π/16＜|α|＜5π/16，则对应的尺度因子带可以进行和差立体声编码；所述和差立体声编码为：

[\begin{matrix} \hat{M} \\ \hat{S} \end{matrix}] = [\begin{matrix} 1 & 0 \\ 1 & - 1 \end{matrix}] [\begin{matrix} \hat{L} \\ \hat{R} \end{matrix}],

其中：表示量化后的和声道频域系数；表示量化后的差声道频域系数；表示量化后的左声道频域系数；

表示量化后的右声道频域系数。

10、一种增强音频解码装置，包括：比特流解复用模块、熵解码模块、逆量化器组、频率-时间映射模块，其特征在于，还包括多分辨率综合模块；

所述比特流解复用模块用于对压缩音频数据流进行解复用，并向所述熵解码模块和多分辨率综合模块输出相应的数据信号和控制信号；

所述熵解码模块用于对上述信号进行解码处理，恢复谱的量化值，输出到所述逆量化器组；

所述逆量化器组用于重建逆量化谱，并输出到所述到多分辨率综合模块；

所述多分辨率综合模块用于对逆量化谱进行多分辨率综合，并输出到所述频率-时间映射模块；

所述频率-时间映射模块用于对谱系数进行频率-时间映射，输出时域音频信号。

11、根据权利要求10所述的增强音频解码装置，其特征在于，所述多分辨率综合模块包括：系数重组模块和系数变换模块；所述系数变换模块是频域逆小波变换滤波器组或频域短逆修正离散余弦变换滤波器组。

12、根据权利要求10所述的增强音频解码装置，其特征在于，还包括逆频域线性预测及矢量量化模块，位于所述逆量化器组的输出与所述多分辨率综合模块的输入之间；所述逆频域线性预测及矢量量化模块具体包括逆矢量量化器、逆转换器和逆线性预测滤波器；所述逆矢量量化器用于对码字索引进行逆量化，得到线谱对频率系数；所述逆转换器则用于将线谱对频率系数逆转换为预测系数；所述逆线性预测滤波器用于根据预测系数将逆量化谱进行逆滤波，得到预测前的谱。

13、根据权利要求10-12任一所述的增强音频解码装置，其特征在于，还包括和差立体声解码模块，位于所述逆量化器组的输出之后或者位于所述熵解码模块的输出与所述逆量化器组的输入之间，接收所述比特流解复用模块输出的和差立体声控制信号，用于根据和差立体声控制信息将和差声道的逆量化谱/谱的量化值转换成左右声道的逆量化谱/谱的量化值。

14、一种增强音频解码方法，其特征在于，包括以下步骤：

步骤一、对压缩音频数据流进行解复用，得到数据信息和控制信息；

步骤二、对上述信息进行熵解码，得到谱的量化值；

步骤三、对谱的量化值进行逆量化处理，得到逆量化谱；

步骤四、对逆量化谱进行多分辨率综合；

步骤五、进行频率-时间映射，得到时域音频信号。

15、根据权利要求14所述的增强音频解码方法，其特征在于，所述步骤五进一步包括：进行逆修正离散余弦变换，得到变换后的时域信号；对变换后的时域信号在时域进行加窗处理；对上述加窗时域信号进行叠加处理，得到时域音频信号；其中所述加窗处理中的窗函数为：

w(N+k)＝cos(pi/2*((k+0.5)/N-0.94*sin(2*pi/N*(k+0.5))/(2*pi)))，其中k＝0...N-1；w(k)表示窗函数的第k个系数，有w(k)＝w(2*N-1-k)；N表示编码帧的样本数。

16、根据权利要求14所述的增强音频解码方法，其特征在于，所述步骤四多分辨率综合步骤具体是：对逆量化谱系数按照子窗、尺度因子带的顺序排列，再按照频序进行重组，然后对重组的系数进行多个逆修正离散余弦变换，得到多分辨率分析前的逆量化谱。

17、根据权利要求14所述的增强音频解码方法，其特征在于，所述步骤三的逆矢量量化处理步骤进一步包括：从控制信息中获得预测系数矢量量化后的码字索引；再根据码字索引得到线谱对频率系数的量化值，并由此计算出预测系数。

18、根据权利要求14-17任一所述的增强音频解码方法，其特征在于，在所述步骤三与步骤四之间，还包括：判断控制信息中是否包含有逆量化谱需要经过逆频域线性预测矢量量化的信息，如果含有，则进行逆矢量量化处理，得到预测系数，并对逆量化谱进行线性预测合成，得到预测前的谱。

19、根据权利要求14-18任一所述的增强音频解码方法，其特征在于，在所述步骤二与步骤三之间，还包括：如果信号类型分析结果表明信号类型一致，则根据和差立体声控制信号判断是否需要对逆量化谱进行和差立体声解码；如果需要，则根据每个尺度因子带上的标志位表明该尺度因子带是否需要和差立体声解码，如果需要，则将该尺度因子带中的和差声道的逆量化谱转换成左右声道的逆量化谱，转至步骤三；如果信号类型不一致或者不需要进行和差立体声解码，则对逆量化谱不进行处理，转至步骤三；其中所述和差立体声解码是：

[\begin{matrix} \hat{l} \\ \hat{r} \end{matrix}] = [\begin{matrix} 1 & 0 \\ 1 & - 1 \end{matrix}] [\begin{matrix} \hat{m} \\ \hat{s} \end{matrix}],

其中：

表示逆量化后的和声道频域系数；

表示逆量化后的差声道频域系数；表示逆量化后的左声道频域系数；表示逆量化后的右声道频域系数。