CN101221766B

CN101221766B - 音频编码器切换的方法

Info

Publication number: CN101221766B
Application number: CN2008100566409A
Authority: CN
Inventors: 窦维蓓; 张斌; 张树华; 夏田; 侯欢; 贾晓军
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2008-01-23
Filing date: 2008-01-23
Publication date: 2011-01-05
Anticipated expiration: 2028-01-23
Also published as: CN101221766A

Abstract

本发明公开了一种音频编码器切换的方法，属于多媒体信号处理和信源编码领域。所述方法包括：选取多个音频序列作为训练数据；根据预设的规则和所述训练数据对分类器进行训练，所述规则为采用主观音质评价方法对所述多个音频序列进行测试后得到的规则；当有音频信号输入时，所述分类器根据训练的结果对所述音频信号进行分类，并将其切换到相应的音频编码器中进行编码。本发明利用主观音质测试结果训练分类器，使分类器能够逼近主观听觉选择合适的编码器进行切换，既克服了AMR-WB+闭环切换方法计算量很大的缺点，而且与AMR-WB+开环切换方法相比，极大地提高了切换的准确率，使编码的质量得到了保证。

Description

音频编码器切换的方法

技术领域

本发明涉及多媒体信号处理和信源编码领域，特别涉及一种音频编码器切换的方法。

背景技术

随着多媒体通信应用的不断扩展，人们对于多媒体数据传输质量的要求也逐渐提高。音频和视频数据构成了多媒体数据的两大重要组成部分。从音频传输的角度讲，人们从早先只希望在电话中传送语音，逐渐过渡到现在希望能在手机上传输高质量的宽带音频，其中包括大量的音乐。所需音频数据的传输量的大量增加与通信带宽的限制成为了新的矛盾。由于还要分配给视频数据大量的传输带宽，因此需要用更少的数据量传输带宽更大的音频信号。一些新的音频信号压缩算法，如ACELP(Algebraic Codebook Excitation Linear Prediction，代数码本激励线性预测)和EAAC+(Enhanced Advanced Audio Coding Plus，改进的高级音频编码)等诸多低码率宽带音频编码器应运而生，并取得了很好的压缩效果。

但是，这些编码器对所有音频信号采用类似的信号处理方式，不能对所有音频信号都达到最佳的编码性能。例如，ACELP利用人发声模型对信号建模，这种处理方式比较适合于语音，对大部分音乐信号会产生较大的编码失真。再如，EAAC+是从传统高保真通用音频编码器演变过来的低比特率通用音频编码器，采用变换编码，其编码方式更适合于音乐信号，对一些语音信号的编码效果不如ACELP。从这个比较中可以看出，如果能够取长补短，将几种音频编码器的优势结合起来，有可能达到更好的音频编码效果。

2005年，3GPP(3rd Generation Partnership Project，第三代移动通信合作组织)提出的AMR-WB+(Adaptive Multi-Rate-Wide Band+，自适应多速率超宽带音频编码器)标准是一个利用上述原理构建的用于移动通信领域的低比特率音频编码器。该编码器内部有两个核心编码器，即基于码本激励的ACELP和基于时频变换的TCX(Transform Coded Excitation，变换编码激励)。编码器中还有一个编码器切换单元，以一定的标准，实时选择其中一个核心编码器处于活动状态。如此切换的结果使得AMR-WB+对于语音和音乐信号都达到了较好的编码效果。其中，AMR-WB+编码器切换单元有两种切换方法：闭环方法和开环方法。

AMR-WB+闭环切换方法是一种高复杂度方法，对各种可能的ACELP/TCX组合进行尝试编码，并将各种组合编码结果与原声进行比较，计算平均分段信噪比(average segmental SNR)。最终，编码器以平均分段信噪比为准则选取核心编码器。这种编码器切换虽然对于AMR-WB+是最优切换，但计算量很大，在移动通信领域应用受到限制。

AMR-WB+开环切换方法是一种低复杂度方法，采用决策树，对各种音频特征设定门限，通过对输入音频信号提取特征并进行分析，判断用何种核心编码器更好来实现信号的分类，从而进行编码器的切换。其中使用了大量信号处理分析的手段，其参数的设定依据先验知识。它更像是一个与核心编码器无关的语音/音乐分类器，即不管采用何种核心编码器的组合，都采用同样的方法控制在语音编码器和通用音频编码器之间切换。这种方法的计算量比闭环方法低得多，比较适合移动通信的应用，但是由于其切换不够准确，最终编码的质量没有采用闭环方法的好，对于特定的核心编码器的组合很难做到最优。

发明内容

为了提高编码器切换时的准确性和编码质量，并降低计算量，本发明提供了一种音频编码器切换的方法。所述技术方案如下：

一种音频编码器切换的方法，所述方法包括：

选取多个音频序列作为训练数据；

根据预设的规则和所述训练数据对分类器进行训练，所述规则为用混合编码器对选取的每个音频序列进行编码，并采用主观音质测试的方式，对混合编码器中的每个编码器编码后的音频序列经解码后与原声进行比较打分，确定选择编码器的规则；

当有音频信号输入时，所述分类器根据训练的结果对所述音频信号进行分类，并将其切换到相应的音频编码器中进行编码。

所述根据预设的规则和所述训练数据对分类器进行训练，具体包括：

从所述训练数据中提取短时音频特征；

根据所述短时音频特征提取长时音频特征；

根据预设的规则对分类器进行训练，从所述长时音频特征中选取指定个数的长时音频特征，且选出的长时音频特征比未选出的长时音频特征的分类精度高。

从所述训练数据中提取短时音频特征，具体包括：

对所述训练数据中的每个音频序列，提取13维MFCC音频特征、12维LPCC音频特征和MPEG-7中的10维音频特征。

所述根据所述短时音频特征提取长时音频特征，具体包括：

对每个短时音频特征，提取以下19种长时音频特征：均值、标准差、最小值、最大值、动态范围、差分特征的均值、差分特征的标准差、高比率、低比率、0Hz调制能量、2Hz调制能量、4Hz调制能量、6Hz调制能量、8Hz调制能量、10Hz调制能量、20Hz调制能量、30Hz调制能量、40Hz调制能量和50Hz调制能量。

所述选取的指定个数的长时音频特征具体包括：

MFCC的均值、最小值、差分均值、0Hz调制能量、第4个分量2Hz调制能量、20Hz调制能量和第13个分量2Hz调制能量；LPCC的低比率、动态范围；以及MPEG-7中音频特征的动态范围。

所述根据所述短时音频特征提取长时音频特征，具体为：

每500毫秒从所述短时音频特征中提取一次长时音频特征。

所述多个音频序列包括音乐序列和语音序列中的至少一种。

本发明利用主观音质测试结果训练分类器，使分类器能够逼近主观听觉选择合适的编码器进行切换，既充分反映了主观听觉感受，又降低了设计成本，克服了现有的AMR-WB+闭环切换方法计算量大的缺点，而且与现有的AMR-WB+开环切换方法相比，极大地提高了切换的准确率，使编码的质量得到了保证。另外，本发明以最高2次/秒的速率对编码器进行切换，即500毫秒进行一次切换，与人耳主观感觉非常接近。

附图说明

图1是本发明实施例提供的音频编码器切换的方法流程图；

图2是本发明实施例提供的前向特征选择法的示意图；

图3是本发明实施例提供的音频编码器切换的示意图；

图4是本发明实施例提供的混合编码器与AMR-WB+(闭环模式)、AMR-WB+(开环模式)三种编码器切换编码比较示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例中的混合音频编码器包括但不限于EAAC+编码器和ACELP编码器的组合等等。对于其他编码器的组合，本发明实施例中的技术方案仍然适用。

参见图1，本发明实施例提供了一种音频编码器切换的方法，具体包括：

步骤101：从高质量的音效数据库中选取多个典型音频序列。

在本实施例中选取97个典型音乐序列，其内容涉及自然界、人类生活、机械、交通、合成声、音乐、乐器等各种声音。为了便于音质测试和比较，本实施例选取的音频序列长度大部分在2～5秒之间，并统一降采样至16kHz，下混至单声道。

步骤102：用混合编码器对选取的每个音频序列进行编码，并采用主观音质测试的方式，对混合编码器中的每个编码器编码后的音频序列经解码后与原声进行比较打分，确定选择编码器的规则。

混合编码器有多种，在本实施例中采用目前公认性能最好的两种编码器，低比特率语音编码器ACELP和音乐编码器EAAC+，组成混合编码器，在16kbps单声道的码率下对于每一段音频序列进行编码。进行主观音质测试的听音者可以有多个，在本实施例中共有12名听音者参加了音质测试。其中，主观音质测试采用的打分标准可以参见表1。

表1

测试过程中用户的评价	记录的分数
		EAAC+比ACELP好	2
EAAC+比ACELP略好	1
		EAAC+与ACELP差不多	0
ACELP比EAAC+略好	-1
		ACELP比EAAC+好	-2

对于每个音频序列，对12名听音者的打分计算出平均值，则97个音频序列共可以得到97个平均分。对97个平均分进行统计，得出以下结论：76％的音频序列平均分大于零(EAAC+更好)，2％的序列平均分等于零(两者相当)，约22％的序列平均分小于零(ACELP更好)。

根据主观音质测试的评分结果，确定选择编码器的规则如下：平均分大于零的音频序列用EAAC+编码，平均分小于零的音频序列用ACELP编码，平均分等于零的音频序列舍弃不用。

步骤103：从上述选取的多个音频序列中提取短时音频特征和长时音频特征。

在本实施例中每10毫秒提取一次短时音频特征，每500毫秒提取一次长时音频特征。其中，短时音频特征包括以下三种：MFCC(Mel Frequency Cepstral Coefficient，梅尔频率倒谱系数)音频特征、LPCC(Linear Prediction Cepstral Coefficient，线性预测倒谱系数)音频特征和MPEG-7(Moving Picture Experts Group，运动图像专家组织)中的音频特征。长时音频特征是对500毫秒内上述短时音频特征的各分量(每个分量都有50个采样)进行各种统计后得出的，包括但不限于以下19种：均值、标准差、最小值、最大值、动态范围、差分特征的均值、差分特征的标准差、高比率、低比率、0Hz调制能量、2Hz调制能量、4Hz调制能量、6Hz调制能量、8Hz调制能量、10Hz调制能量、20Hz调制能量、30Hz调制能量、40Hz调制能量和50Hz调制能量。

对于13维MFCC音频特征、12维LPCC音频特征和MPEG-7中的10维音频特征，这三种短时音频特征中的每个短时音频特征，都能够计算出19种长时音频特征，因此总计候选长时音频特征的候选分量为19*(13+12+10)＝665个。

步骤104：将上述选取的多个音频序列作为分类器的训练数据，对分类器进行训练，根据主观音质测试得到的编码器选择规则，确定分类器的分类精度，从上述提取的长时音频特征中选取有效的长时音频特征，作为分类器选择编码器的依据。

进一步地，本实施例除选取97个音乐序列外，还可以选取多个语音序列作为分类器的训练数据。例如，选取29个语音序列，包括对讲机语音片断、室内环境语音片断、汉语朗读片断、英语朗读片断和法语朗读片断等等；每个语音序列长度在5秒左右，16kHz采样，单声道。这些语音序列默认优先由ACELP编码。相应地，从选取的多个语音序列中提取短时音频特征和长时音频特征，对分类器进行训练。

本发明实施例可以选用的分类器有多种，如表2所示，可以选用其中的任一种，在本实施例中以选用子空间分类器为例进行说明。

表2

分类器简称	分类器描述
		klldc	对协方差矩阵进行KL变换的线性分类器
pcldc	对输入数据进行主分量分析的线性分类器
		loglc	罗吉斯(logistic)线性分类器

fisherc	最小二乘线性分类器
		nmc	最小均值分类器
nmsc	缩放的最小均值分类器
		polyc	多项式特征分类器
subsc	子空间分类器
		ldc	基于正态分布的线性分类器
qdc	基于正态分布的二次分类器
		udc	基于正态分布的独立特征分类器
naivebc	简单贝叶斯分类器

具体地，本实施例可以利用前向特征选择法(Forward Feature Selection)，在上述提取的19个长时音频特征中选出10个有效的音频特征，参见图2，具体如下：

1、初始化特征集F、G，其中F＝φ(空集)，G＝{665个音频特征候选分量}，

2、初始化分类器的分类精度p＝0；

3、依次从G中选取一个特征f，构造临时特征集H＝F∪f；

4、用H训练分类器，得到训练集上的分类精度p’；

5、如果p’＞p，则存储f，p＝p’；

6、重复步骤3～5，直至G中的所有音频特征都已被尝试；

7、F＝F∪f，G＝G\f(G中去除元素f后获得的集合)；

8、重复步骤2～7，当F中特征数量超过10时，停止选择，输出F作为最终选定的音频特征集合。

上述训练过程的步骤1中的G是针对一个音频序列而言的，本实施例对97个音乐序列和29个语音序列中的每一个序列都执行上述8个步骤，来对分类器进行训练。其中，步骤4中的分类精度由主观音质测试得到的编码器选择规则来决定，即当分类器的分类结果符合主观音质测试得到的编码器选择规则时，分类精度较高，当分类器的分类结果不符合主观音质测试得到的编码器选择规则时，分类精度较低。

其中，有效的音频特征是指分类精度高的音频特征，通过选取分类精度高的音频特征，可以过滤掉分类精度低的音频特征，如可能对分类造成影响的音频特征等。分类器用得到的有效音频特征来选择合适的编码器进行编码。

步骤105：当有音频信号输入时，分类器根据上述有效音频特征对该音频信号进行分类，并将其切换到相应的音频编码器中进行编码，然后结束。

例如，参见图3，混合编码器由EAAC+和ACELP组成，分类器根据主观音质测试选出10个音频特征，当有音频信号输入时，分类器对其进行分类，并将分类的结果输出给无缝切换单元，无缝切换切换到相应的编码器，如将西班牙语音信号切换到ACELP编码器进行编码，或将小号独奏信号切换到EAAC+编码器进行编码等，编码器编码后输出给码流形成单元，然后输出；另外，码流形成单元将分类器输出的分类结果作为边信息打包至码流中，以方便解码端根据该边信息调用相应的解码器进行解码。

在本发明实施例中以最高2次/秒的速率对编码器进行切换，即500毫秒进行一次切换。由于实际信号中出现音频信号快速剧烈变化的情况非常少，该速率完全可以满足实际信号的需要。而且以较高频率进行编码器切换需要依赖于短时音频特征，以较低频率进行编码器切换则可以主要依赖于长时音频特征，短时音频特征对于编码器切换所要区分信号的区分精度没有长时音频特征高，因此与现有技术中AMR-WB+的开环切换方法相比，本发明实施例避免了频繁切换的机制，且依据长时音频特征进行切换，从而提高了编码器的切换精度，并保证了切换边缘的平滑。

本发明实施例利用主观音质测试训练分类器，使分类器能够逼近主观听觉选择合适的编码器进行切换，既充分反映了主观听觉感受，又降低了设计成本，克服了现有的AMR-WB+闭环切换方法计算量大的缺点，而且与现有的AMR-WB+开环切换方法相比，极大地提高了切换的准确率，使编码的质量得到了保证。另外，本发明实施例以最高2次/秒的速率对编码器进行切换，即500毫秒进行一次切换，与人耳主观感觉非常接近。

下面以一个具体的应用实例来说明本发明实施例的效果。采用子空间分类器对混合编码器进行切换，混合编码器由ACELP和EAAC+两个编码器组成，子空间分类器经过训练后选出的长时音频特征有10个，如表3所示。

表3

其中，C4 2Hz调制能量为MFCC的第4个分量的2Hz调制能量，C13 2Hz调制能量为MFCC的第13个分量的2Hz调制能量。

选出MPEG 12个标准测试序列用来测试上述混合编码器的效果，测试训练如表4所示。

表4

用混合编码器对表4中的测试序列以16 kbps码率进行编码，并让测试者比较测试序列的原声、混合编码器编码再解码后得到的序列、AMR-WB+(闭环切换)、AMR-WB+(开环切换)以及原声经3.5kHz低通滤波处理得到的声音(锚序列)，采用ITU.R BS-1534标准进行比较，即中等质量音频编码的主观评测方法。测试者打分的标准如表5所示。

表5

分数范围	主观感受	具体含义
			80～100	Excellent	无法感觉与原声的差别
60～80	Good	可以感觉到差别，但不感觉厌烦
			40～60	Fair	略微感到厌烦
20～40	Poor	厌烦
			0～20	Bad	非常厌烦

测试后的结果如表6所示，其中，混合编码器的打分为75.23，介于AMR-WB+(闭环切换)和AMR-WB+(开环切换)之间。对于所有测试序列，混合编码器与AMR-WB+(闭环模式)、AMR-WB+(开环模式)三种编码器平均得分的比较如图4所示。测试结果表明，子空间分类器获得了较好的主观听觉效果。

表6

编码器(处理方法)	平均得分
		原声	97.54
AMR-WB+(闭环切换)	77.96
		混合编码器	75.23
AMR-WB+(开环切换)	72.77
		3.5kHz低通滤波(锚序列)	63.75

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音频编码器切换的方法，其特征在于，所述方法包括：

选取多个音频序列作为训练数据；

2.根据权利要求1所述的音频编码器切换的方法，其特征在于，所述根据预设的规则和所述训练数据对分类器进行训练，具体包括：

从所述训练数据中提取短时音频特征；

根据所述短时音频特征提取长时音频特征；

3.根据权利要求2所述的音频编码器切换的方法，其特征在于，从所述训练数据中提取短时音频特征，具体包括：

4.根据权利要求2所述的音频编码器切换的方法，其特征在于，所述根据所述短时音频特征提取长时音频特征，具体包括：

5.根据权利要求4所述的音频编码器切换的方法，其特征在于，所述选取的指定个数的长时音频特征具体包括：

6.根据权利要求2所述的音频编码器切换的方法，其特征在于，所述根据所述短时音频特征提取长时音频特征，具体为：

每500毫秒从所述短时音频特征中提取一次长时音频特征。

7.根据权利要求1至6中任一权利要求所述的音频编码器切换的方法，其特征在于，所述多个音频序列包括音乐序列和语音序列中的至少一种。