CN104616657A

CN104616657A - 高级音频编码系统

Info

Publication number: CN104616657A
Application number: CN201510016797.9A
Authority: CN
Inventors: 孙莹; 何云龙; 杜美霞
Original assignee: No32 Research Institute Of China Electronics Technology Group Corp
Current assignee: No32 Research Institute Of China Electronics Technology Group Corp
Priority date: 2015-01-13
Filing date: 2015-01-13
Publication date: 2015-05-13

Abstract

本发明提供了一种高级音频编码系统，由心理声学模型模块、滤波器组、联合立体声编码模块、量化编码模块组成，心理声学模型模块、滤波器组、联合立体声编码模块、量化编码模块依次连接。本发明减少迭代次数，提高有效性，加快收敛速度。

Description

高级音频编码系统

技术领域

本发明涉及一种编码系统，具体地，涉及一种高级音频编码系统。

背景技术

AAC(Advanced Audio Coding)的中文称为“高级音频编码”，是目前最先进的感知音频编码技术。它出现于1997年，由Fraunhofer IIS、AT&T、杜比实验室、Sony等公司共同开发而生，它是基于MPEG-2编码技术，目的是取代MP3格式。2000年，MPEG-4标准出现后，AAC重新集成了其特性，加入了SBR技术和PS技术，形成了目前的MPEG-4 AAC。MPEG-4 AAC具有信号压缩比高、量化编解码过程模块化、重建音质完美的特点。MPEG-4 AAC作为一种目前最先进感知编码技术标准，广泛应用于各个领域，具有很大的市场价值。但是，AAC标准算法无法满足当今感知音频编码技术的实时性要求，是其算法复杂度很高，需要消耗大量运算时间和系统资源，存在编码延时导致的。因此，为了实现高实时性能、低复杂度的音频编码，那么对AAC标准的相关算法和编码结构进行优化设计是十分必要的。同时，AAC音频感知编码具有共同的核心灵魂，即量化编解码、心理声学模型及滤波器组(又称频域变换)三大关键技术，量化编解码模块占了主要部分。

量化编码模块在实现高压缩比中起着主要作用。目前的技术环境中，AAC标准大多采用的是双循环迭代量化算法，但是在具体实现过程中普遍存在收敛速度慢，迭代次数多，运算量大等缺点，无法满足实时编码的需要。目前AAC标准算法提供的量化过程是通过采用双循环迭代结构来实现的:内迭代循环调整全局缩放因子，使之达到规定比特编码要求；外迭代循环调整子带缩放因子，计算子带量化噪声。当子带量化噪声超过掩蔽阈值时，增加子带的缩放因子将其量化噪声在掩蔽阈值之下，从这种实现方式可以看出双循环迭代结构存在以下三个主要缺点：迭代次数多，运算量大，收敛速度慢。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种高级音频编码系统，其减少迭代次数，提高有效性，加快收敛速度。

根据本发明的一个方面，提供一种高级音频编码系统，其特征在于，由心理声学模型模块、滤波器组、联合立体声编码模块、量化编码模块组成，心理声学模型模块、滤波器组、联合立体声编码模块、量化编码模块依次连接。

优选地，所述心理声学模型模块主要是利用心理声学原理对信号频谱进行分析计算出信掩比、掩蔽阈值供其它模块使用。

优选地，所述滤波器组主要是使用改进的离散余弦变换，把时间域上的输入音频数据变换成频域信号。

优选地，所述联合立体声编码模块是针对多声道开发的一种复杂的空间编码技术，去掉空间的冗余信息。

优选地，所述量化编码模块主要包括量化和编码两个部分，是AAC音频编码系统非常重要的功能模块。

优选地，所述量化编码模块包括：

比特计算单元，用于计算可分配的比特数；

SDI初始化单元，采用SDI算法对量化因子进行初始化，SDI算法主要是通过构建信号的初始值与信号某些特性关系的数学模型来实现量化因子的初始化；

感知熵预检测单元，用于提高码表查询、比特数耗费计算、编码的效率，是在进行码表查询、比特数耗费计算、编码之前所进行的预处理工作；

编码单元，通过码表查询，并采用哈夫曼编码的方法进行编码，同时计算出实际的比特耗费，判断实际比特耗费是否小于可分配的比特数，否则调整最小量化阶的单步步长，重新进行哈夫曼编码，直到满足能使实际比特耗费小于可分配的比特数。

与现有技术相比，本发明具有如下的有益效果：本发明能够较好的提高量化模块初始化过程的有效性，减少步长调整次数。引入感知嫡预检测在一定程度上减少不必要的运算开销。本发明省略了原双循环结构中的噪声控制循环部分，因此，不需要再进行复杂的反量化处理从而大大增加了AAC编码的实时性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明高级音频编码系统结构框图。

图2为本发明中量化编码模块的结构框图。

图3为本发明高级音频编码系统的量化编码模块的工作流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

如图1所示，本发明高级音频编码系统主要由心理声学模型模块201、滤波器组202、联合立体声编码模块203、量化编码模块204组成，心理声学模型模块201、滤波器组202、联合立体声编码模块203、量化编码模块204依次连接。

心理声学模型模块201主要是利用心理声学原理对信号频谱进行分析计算出信掩比、掩蔽阈值等一系列心理声学参数供其它模块使用，是编码器的核心模块。心理声学模型应用到的主要心理声学原理有：临界子带频率分析、绝对掩蔽阈值、频域掩蔽、时域掩蔽和感知熵等。心理声学模型模块把整个信号频带按人耳的听觉感知特性划分成临界频带，然后计算出各临界子带的信掩比、掩蔽阈值等心理声学参数，信掩比用于对每个比例因子带进行比特分配，掩蔽阈值用于对量化噪声进行控制。

滤波器组202主要是使用改进的离散余弦变换(MDCT)，把时间域上的输入音频数据变换成频域信号。

联合立体声编码模块203是针对多声道开发的一种复杂的空间编码技术，其目的是为了去掉空间的冗余信息。

量化编码模块204主要包括量化和编码两个部分，是AAC音频编码系统非常重要的功能模块。量化处理的根本目的就是为了在允许的比特范围内尽可能的压缩数据并保证量化误差的能量低于掩蔽阈值。量化模块的目标是将频谱数据量化，使量化噪声满足心理声学模型的要求。量化模块首先对得到的音频信号频谱划分量化比例因子带，然后针对每个比例因子带根据计算得到的掩蔽阈值进行非均匀量化。在具体的量化过程中不断地对全局量化因子和各比例因子带的局部量化因子进行调整以实现在给定的编码比特率下尽可能的将量化噪声控制在掩蔽阈值之下；最后对量化后的信号和比例因子再进行哈夫曼编码，实现高压缩比和高音质的音频编码。

下面对所述系统的工作过程及其工作原理进行详细的描述：

心理声学模型模块201根据心理声学模型计算输入音频信号容许的失真，把整个信号频带按人耳的听觉特性划分出临界频带，然后计算出各临界子带的信掩比，并计算出各临界子带的最小掩蔽阈值。信掩比用于比特分配；绝对掩蔽阈值用于控制量化噪声。滤波器组202结合由心理声学模型计算出来的感知熵，将输入的音频采样数据通过使用改进的离散余弦变换MDCT实现音频从时域到频域的转换。将时域的信号状态转化为频域的信号数据。接着，联合立体声编码模块203通过采用强度立体声和M/S立体声编码方式来实现立体声编码同时去除信号数据的冗余信息。然后，在量化编码模块204中按心理声学模块输出的掩蔽阈值把比特数分配给输入频谱，通过一种将SDI算法和感知熵预检测结合起来的单循环量化结构使量化所产生的量化噪声低于掩蔽域值，降低比特率，并使码率满足设定的要求，实现输入信号的压缩。最后使用哈弗曼编码打包码流得到需要的AAC数据；

本发明主要从算法和结构两个方面对量化编码模块204进行改进，提出一种将SDI算法和感知熵预检测结合起来的单循环量化结构，使高级音频编码系统的量化编码模块中量化过程的更简单、更实用，从而提高了系统的实时性。

参照图2，示出了本发明高级音频编码系统的量化编码模块的结构框图，量化编码模块包括：

比特计算单元301，用于计算可分配的比特数；

SDI初始化单元302，采用SDI算法对量化因子进行初始化，SDI算法主要是通过构建信号的初始值与信号某些特性关系的数学模型来实现量化因子的初始化，如下式(1)：

q_{init} = \frac{2}{3} (\log_{2} \frac{9}{4} SMR - \frac{3}{4} \log_{2} N + \frac{3}{4} \log_{2} Σ_{i = 1}^{n} X_{i}^{2}) \cdot \cdot \cdot (1)

式(1)中q_init表示的是量化因子初始值，SMR表示的是信号掩蔽比，N为比例因子带的谱线数目，χ_i为频谱值；

感知熵预检测单元303，用于提高码表查询、比特数耗费计算、编码的效率，是在进行码表查询、比特数耗费计算、编码之前所进行的预处理工作。采用的是感知熵预检测方法。这里的感知熵是用一种感知墒修正方法来进行计算的；这个修正方法的公式如下式(2)：

PE = B W_{j} \log_{2} 2 (\frac{1}{B W_{j} \times q} \sqrt{B W_{j} Σ_{i = w_start}^{w_end} \frac{A_{i}}{q_{j}} + 1}) \cdot \cdot \cdot (2)

式(2)中，q_j为量化因子，ΒW_j是第j个缩放因子带的带宽，A_i的平方和为子带能量。通过利用计算得到的感知熵对编码比特数进行预检测，从而避免很多不必要的运算开销。

编码单元304，通过码表查询，并采用哈夫曼编码的方法进行编码，同时计算出实际的比特耗费，判断实际比特耗费是否小于可分配的比特数，否则调整最小量化阶的单步步长，重新进行哈夫曼编码，直到满足能使实际比特耗费小于可分配的比特数。

下面对这种基于SDI算法和感知熵预检测的单循环量化结构的具体工作过程及工作原理进行详细的描述：

比特数计算单元301根据之前模块处理产生的心理声学参数及频谱数据结合心理声学模型计算出可分配的比特数；SDI初始化单元302采用SDI算法对量化因子进行自适应的初始化；同时，放大可分配的比特数，并保存原来的可分配的比特数；感知熵预检测单元303采用一种感知熵修正计算方法计算出感知熵，同时，对比特数耗费进行预检测，如果预检测的结果大于可分配比特数则选择当前最小的量化阶进行单步长调整然后重新计算感知熵，直到预检测结果小于可分配比特数。最后编码单元304进行精确的码表查询，哈夫曼编码等各项更加精细的操作，同时计算出实际的比特耗费；如果实际比特耗费大于可分配的比特数则进行步长调整，直到得到编码后的码流使实际比特耗费小于可分配的比特数。

如图3所示，虽然感知熵的计算和判断构成了一个新的循环结构，但是与传统的双迭代量化循环结构相比，从整体的编码流程来看此量化结构实际上还是一个单循环的算法结构。此量化结构能够较好的提高量化模块初始化过程的有效性，减少步长调整次数。不需要再进行复杂的反量化处理，大大增加了AAC编码的实时性。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种高级音频编码系统，其特征在于，由心理声学模型模块、滤波器组、联合立体声编码模块、量化编码模块组成，心理声学模型模块、滤波器组、联合立体声编码模块、量化编码模块依次连接。

2.根据权利要求1所述的高级音频编码系统，其特征在于，所述心理声学模型模块主要是利用心理声学原理对信号频谱进行分析计算出信掩比、掩蔽阈值供其它模块使用。

3.根据权利要求1所述的高级音频编码系统，其特征在于，所述滤波器组主要是使用改进的离散余弦变换，把时间域上的输入音频数据变换成频域信号。

4.根据权利要求1所述的高级音频编码系统，其特征在于，所述联合立体声编码模块是针对多声道开发的一种复杂的空间编码技术，去掉空间的冗余信息。

5.根据权利要求1所述的高级音频编码系统，其特征在于，所述量化编码模块主要包括量化和编码两个部分，是AAC音频编码系统非常重要的功能模块。

6.根据权利要求1所述的高级音频编码系统，其特征在于，所述量化编码模块包括：

比特计算单元，用于计算可分配的比特数；