CN102610234A

CN102610234A - 信号复杂度和编码速率选择的映射实现方法

Info

Publication number: CN102610234A
Application number: CN2012101006792A
Authority: CN
Inventors: 严勤; 周云春
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2012-04-09
Filing date: 2012-04-09
Publication date: 2012-07-25
Anticipated expiration: 2032-04-09
Also published as: CN102610234B

Abstract

本发明公开一种信号复杂度和编码速率选择的映射实现方法，包含如下五个过程：特征提取：提取音频输入信号的特征参数集，基于该特征参数集为输入音频信号导出特征矢量；MOS值提取：建立编码质量的MOS值数据库；聚类：对特征矢量样本进行聚类处理，得到特征聚类码本；对应：建立聚类处理得到的类别与编码速率的对应关系，得到信号复杂度与编码速率的映射关系码本；测试：测试码本是否有效。通过对本发明的正确使用，一方面可以进一步用于音乐的分类研究，另一方面对音乐复杂度的分级，在保证编码质量的前提下，用不同的速率对不同复杂度的音乐进行编码，使得音质与文件体积之间达到平衡，实现指导编码速率的自动选择，提高编码传输效率。

Description

信号复杂度和编码速率选择的映射实现方法

技术领域

本发明属于声信号分析处理技术领域，具体涉及到按音乐信号的信号复杂度对音乐信号进行分级，为编码速率选择提供依据，提高编码传输效率。

背景技术

随着通信技术的发展，数字化通信越来越受到人们的重视，现代通信的一个重要标志就是通信的数字化。数字信号最突出的优点是受信道噪声干扰小，易于再生与存储，易于误码保护和加密以及易于多路复用、分组和组合。但音频信号若是经过A/D转换后直接编码，将产生大量的数据，这不利于传输或存储，因此为了提高效率，必须对音频信号进行压缩处理；而原始的音频信号在时间和空间上存在着大量的冗余度可供压缩，并且可以在解码环节加以恢复。音频编码属于信源编码，由于音频信号的最终使用者是用户，所以只要音频信号解码后在人耳可接受的或是不能察觉的范围内，就允许对数字音频信号进行压缩以换取较高的编码速率。

现代卫星通信、数字移动通信和个人通信网的迅猛发展，日益增加的客户需求量与现有通信信道容量之间的矛盾日益突出。如何提高信道的传输效率、有效地利用现有带宽是目前亟待解决的问题之一。对于音乐信号来说，如何在现有的信道资源条件下，选择适当的编码速率而又不影响信号质量，提高传输效率，即利用信源信号的特征来指导编码速率的选择并提高传输效率是近几年比较需要的。但此类研究还刚起步，成果并不多。本发明研究的正是基于音频本身性质来选择编码速率的模型机制，提出按音乐信号的信号复杂度对音乐信号进行分类，区别于传统音乐信号分类，能为编码速率选择提供依据，提高编码传输效率。

在学术上，基于信号复杂度的分类和传统意义上的音乐类型分类（music genre classification）[1]和音乐情绪分类（music mode/emotion classification）是有本质区别的。后者是从音乐信号的内容（例如：主题，韵律，旋律，类别，乐器，情绪等）出发，多用于数字音乐库的整理和检索；而前者是从应用和声音信号传输速率和质量出发。初步实验表明，传统音乐信号分类对音乐信号的复杂度有一定的指导作用，但不意味着同一类的音乐信号在同样传输速率下所达到的传输质量是一致的，并不是所有的复杂有用声音信号都需要同样高的码率来传输。

参考文献：

[1] George Tzanetakis, Perry Cook, “Musical Genre Classification of Audio Signals” IEEE Transactions On Speech And Audio Processing, VOL. 10, NO. 5, July 2002.

[2] Steve Young, Dan Kershaw, Julian Odell, Dave Ollason, Valtcho Valtchev, Phil Woodland,“The HTK Book ” .

[3] Olivier Lartillot，Petri Toiviainen，Tuomas Eerola.”MIRtoolbox”.

[4] Qin Yan,Saeed Vasegi.”Modelling and Synthesis of Formants of British,American and Australian Accents.”Proc.IEEE Conference on Acoustics Speech and Signal Processing(ICASSP),2003.pp.712-755.

[5] Qin Yan,Saeed Vaseghi,Dimitrios Rentzos,Ching-Hsiang Ho.”Analysis by Synthesis of Acoustic Correlates of British,Australian and American Accents.Proc(ICASSP).pp.621-624(2004).

[6] 韩纪庆，冯涛，郑贵滨，马翼平.“音频信息处理技术”.北京：清华大学出版社.2007.

发明内容

本发明研究的是复杂有用声音信号复杂度和编码速率之间的映射关系。目的是提出一组能表征音乐信号复杂度的特征参数集，并以此为分类依据，为传输速率选择提供依据。

本发明的信号复杂度和编码速率选择的映射实现方法包含如下五个过程：

A．特征提取：提取音频输入信号的特征参数集，基于该特征参数集为输入音频信号导出特征矢量；

B． MOS值提取：建立编码质量的MOS值数据库；

C．聚类：对A步骤得到的特征矢量样本进行聚类处理，得到特征聚类码本；

D．对应：建立C步骤得到的类别与编码速率的对应关系，得到信号复杂度与编码速率的映射关系码本；

E．测试：测试D步骤得到的码本是否有效。

通过对本发明信号复杂度和编码速率选择的映射实现方法的正确使用，一方面可以进一步用于音乐的分类研究，另一方面对音乐复杂度的分级，在保证编码质量的前提下，用不同的速率对不同复杂度的音乐进行编码，使得音质与文件体积之间达到平衡，实现指导编码速率的自动选择，提高编码传输效率。

附图说明

图1是特征提取流程图。

图2是MOS值提取过程中用到的ITU-R标准BS.1387定义的PEAQ算法示意图。

图3是对应过程流程图。

图4是信号复杂度与编码速率选择的映射实现方法流程图。

图5是短时特征的第一类各个MOS值区间的样本数占总样本数统计结果图。

图6是长时特征的第一类各个MOS值区间的样本数占总样本数统计结果图。

具体实施方式

下面结合附图和具体实施例对本发明方法作进一步详细说明。

信号复杂度与编码速率选择的映射实现方法包含如下步骤：

A、特征提取：提取音频输入信号的特征参数集，基于该特征参数集为输入音频信号导出

特征矢量。特征提取过程（如图1所示）包含以下步骤：

A1. 在提取特征之前，首先将音频信号转换成数字形式，即将wav形式的音频文件通过一定的采样率对其进行采样，得到一系列离散的采样点。

A2. 将数字形式的音频信号分帧，即通过计算一定时间内包含多少个采样点来划分帧。根据对语音信号的研究，音频信号特性是随时间而变化的，所以是一个非稳态过程。但从另一方面来看的话，虽然音频信号具有时变特性，但在一个短时间范围内其特性基本保持不变即相对稳定，因而可以将其看作是一个准稳态过程。因此本发明中分帧的时间随特征的特性而定，总体上有长时特征和短时特征之分。长时特征的帧长一般以秒为数量级，而短时特征的帧长一般以毫秒为数量级；

A3. 从数字形式的音频信号样本帧中计算要提取的特征；

A4. 把该特征参数集转换成该帧的特征矢量输出。

B、MOS值提取：建立编码质量的MOS值数据库。MOS值提取过程包含的步骤如下：

B1. 为了使音频文件能够被AMR-WB+（Extended Adaptive Multi-Rate audio codec Wideband 宽带自适应多速率音频扩展压缩编码）编码器识别，需要转换音频格式，包括音频的位速、采样大小、采样频率和音频格式等。

B2. 将每段音乐切割成若干片段片段。在matlab环境下，使用帝国理工大学电子工程系Mike Brooks主持编写Matlab的音频工具箱voicebox。Vociebox中的readwav函数可以读取步骤B1得到的特定格式的音频。

B3. 将B2步骤得到的音频片段，用encoder编码器和decoder解码器对每个片段分别编解码，再用改进的PEAQ算法器衡量得到该片段的编码质量MOS值。

B4. 用encoder编码器编码时，AMR-WB+编码速率的范围为5.2-36kbit/s，用不同的速率都重复B3步骤，最后得到不同速率下所得的编码质量MOS值。

C、聚类：对A步骤得到的特征矢量样本进行聚类处理，得到特征聚类码本；聚类过程包

含以下步骤：

C1. 将步骤A得到的特征矢量集转换成htk格式。

C2. 利用HTK工具包[2]中的Hquant训练工具对C1得到的数据进行聚类，得到聚类码本。

D、对应：建立C步骤得到的类别与编码速率的对应关系，得到信号复杂度与编码速率的

映射关系码本。对应过程包含以下步骤：

D1. 根据C过程得到的特征聚类码本，判定音频信号每帧所在的类别，并记录每帧在各个预定编码速率下的MOS值。

D2. 统计每个类别的每个编码速率下各个MOS值区间内的样本数占总样本数的比例。

D3. 根据D2得到的比例数据，得到映射关系码本，里面记录的是每个类别要达到特定编码质量MOS值需要的编码速率。

E、测试：测试D步骤得到的码本是否有效。测试过程包含以下步骤：

E1. 用不同于步骤A中的音频信号进行步骤A，B，得到音频信号的特征矢量和实际编码速率下的MOS值。

E2. 根据特征聚类码本，判定每帧音频信号所在的类别，然后根据映射关系码本，用该类别下达到目标MOS值所需的预定编码速率对其编解码，得到预定编码速率下的编码质量MOS值。

E3. 对比实际编码速率下的MOS值和预定编码速率下的MOS值，测试出映射关系码本的效果。

音乐特征提取是一个计算一系列能表示一段音乐特征数值的过程。要建立基于音乐信号复杂度的编码速率选择模型的话，音乐特征的设计是整个过程中最大的挑战。本发明参考MIRtoolbox工具包[3]中的特征，并根据其特性分为长时特征和短时特征。

短时特征包含以下9个：

1）root-mean-square energy(均方根能量)：

，其中

是每帧的采样点数，

是每帧信号第

个点的值。

2）flux：这个参数由相邻帧间幅频差值总和求得，表征了相邻帧间频域的波动情况。由于音乐具有良好的谐波特性，频域波动较慢

其中

为第

帧的flux值，

第

帧第

个点的值，

是第

-1帧第

点的值，N是每帧采样点数。

3）zerocross 过零率

信号每秒穿过x轴的次数。

4）rolloff 滚降性

评估子带能量达到总能量的某指定百分比处的频点。固定某个百分比percentage，找到一个频率，高于这个频率的能量与总能量的比为percentage。百分比默认的是0.85。

5）mfcc 梅尔倒谱系数

Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。Mel倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。

6）roughness

包含有音乐的音色与节奏的信息，通过计算频谱的峰值，并对在可能的谱峰对之间的所有的不和谐音取平均。

7）regularity

谱峰变化。描述的是连续谱峰的变化程度。

，其中

是信号第

个点的值，

是信号第

+1个点的值。

8）pitch 基音周期

人在发浊音时，气流通过声门使声带产生张驰振荡式振动，产生一股准周期脉冲气流，这一气流激励声道就产生浊音，又称有声语音，它携带着语音中的大部分能量。这种声带振动的频率称为基频，相应的周期就称为基音周期（Pitch）。

9）inharmonicity

Inharmonicity是弦乐器会出现的一种现象，因为弦的僵硬和弦终端的非刚性。音乐上的inharmonicity是指泛音频率远离整体倍频的程度。

长时特征包含以下8个：

1）chromagram

描述12个同性质的音高类间的功率谱能量的分布。12维的chroma向量表示某个八度上第p(p=1,2,…,12)音高类。

2）tempo

估算音乐的节奏，通过onset检测曲线检测出周期性

3）pulseclarity

估算旋律清晰度，揭示了节拍的强度

4）keystrength

计算key的强度，每个可能的key的概率，通过chromagram得到的结果的互相关得到

5）mode

估计音乐主要的调式，返回的是major和minor的值，如果数大于0，且越大于0，就预测是major越多，反之数越小于0，minor越多。

6）keysom

结果显示在一张伪色彩图中，色彩对应于皮尔森相关系数值

7）tonalcentroid

tonalcentroid是在chromagram的基础上加入了和弦结构信息（五度循环圈）得到的六维信息

8）hcdf-- harmonic change detection function

计算的是tonalcentroid的flux

综上，描述短时特征的特征向量由以下特征组成：root-mean-square energy，flux,zerocross，rolloff,前12维mfcc，roughness，regularity，pitch和inharmonicity，最终组成一个20维的短时特征向量。描述长时特征的向量由以下特征组成：12维的chromagram，tempo，pulseclarity，24维的keystrength,mode，23维的keysom，6维的tonalcentroid，hcdf，最终组成一个70维的长时特征向量。

对于编码质量的度量，它是用来评价编码算法的性能的一个重要手段，可分为主观度量和客观度量。常用的主观度量有二元判决、主观SNR、等偏爱度曲钱、多维计分（MDS）和平均判分（MOS），其中最常用的是MOS。

MOS（Mean Opinion Score）测量法是ITU-TP.800标准定义的主观测量法。但由于其操作复杂，在实际的判定中不易实现，所以本发明选择一个能代替MOS判定的客观判定标准的PEAQ算法，其流程如图2所示。该算法得到的指数与主观MOS值的相关性能够达到90%以上，通常能被作为主观MOS值的替代在实际中使用。

为此，音频信号经过AMR-WB+标准的编码和解码（encoder编码，decoder解码）后，用改进的WB-PEAQ（该算法的核心仍是PEAQ）算法器衡量得到该片段的编码质量MOS值数据库。

数据准备完毕之后，进行聚类。为了让数据能被htk工具识别，将短时特征和长时特征的数据分别转换成htk格式。然后利用HTK工具包中的训练工具HQuant对其进行聚类，聚八类，得到聚类码本。其中HTK（Hidden Markov Models Toolkit）工具包是由剑桥大学工程系开发的用来建立和处理HMM模型的C语言函数库，主要用于语音识别领域，也用于语音合成、字符识别和DNA排序等领域。该工具包提供了一系列分析语音、训练、测试HMM并进行识别结果分析的复杂函数。Hquant就是其中的一个训练工具。

对应过程中目的是要得到映射关系码本，即特定的编码质量MOS值对应预定编码速率。最重要的步骤是将提取特征矢量的片段与提取MOS值的片段在时间上建立对应关系，具体操作是在提取MOS值的时间片段内，相关帧对应的MOS值重复使用。然后统计每个类别的每个编码速率下各个MOS值区间内的样本数占总样本数的比例，为映射关系码本的制定提供数据支持。

测试过程的重点在于要用不同的音频信号，提取特征矢量和MOS值，并根据之前形成的映射关系码本，然后对比用预定编码速率对其编解码得到的实际MOS值与目标MOS值，若高于一定比例的样本的实际MOS值高于或接近于目标MOS值，则说明映射关系码本有效，该信号复杂度与编码速率选择的映射实现方法也是有效的。

下面以一具体实施例进行详细说明。

实验中，训练集我们选取了来自日本RWCP于2001年10月发行的RWC研究用音乐数据库（RWC Music Genre Database）中的部分音乐。另外选择音乐数据库中不在训练集的部分音乐作为测试对象，对短时特征和长时特征分别进行测试。具体过程如图4所示：

01. 对训练集下的所有音乐信号进行特征提取。每首音乐用一个excel文档保存该首音乐每一帧的特征矢量。长时特征采用的是帧长5s，帧移1s；短时特征采用的帧长23ms，帧移5ms。长时特征输出的是70维的特征矢量，短时特征输出的是20维的特征矢量。这个步骤是在matlab环境下进行的。

02. 对训练集下的所有音乐信号进行MOS值提取。为了使音乐文件能被AMR-WB+编码器识别，首先将音乐文件转换成单声道wav格式的音频。每段音乐的位速是256kbps，采样大小是16位，采样频率为16kHz，音频格式为PCM。然后将音乐文件按6s的长度为一片断来读取音频，因为音乐文件已经转换成数字形式，所以实验选取96000个采样点作为截取一帧的数量标准，这样便近似可以表示6s的长度，并且舍弃每段音频尾部不足6s的那一段。由于音乐的开头和结尾通常与主体部分有所区别，因此舍弃结尾不足6s的部分不会影响实验的效果。最后用不同的速率，从8kbps开始，每4kbps为一个单位增加编码速率，一直到32kbps的编码速率，得到同一段音频7个不同速率下的PEAQ衡量所得的编码质量MOS值，并把每个音乐文件得到的MOS值存入txt文档中。这个步骤也是在matlab环境下进行的。

03. 将01步骤得到的excel文档里音乐的特征矢量转换成htk格式，然后用Hquant指令对其聚类，聚八个类，得到每个类的聚类中心，即聚类码本。该步骤是在dos环境下进行的。

04. 判定每段音乐信号所在的类别，记录每帧音乐对应的不同编码速率下的MOS值。因为MOS值的音乐片段长度是6s的，但特征矢量的是5s或23ms的，这时需要用公式计算出多少个帧的长度是6s，然后这些帧的对应的MOS值都是同一个。然后再统计每个类别的每个编码速率下各个MOS值区间内的样本数占总样本数的比例。然后根据这些比例数据，分析总结得到映射关系码本，记录每个类别要达到特定编码质量MOS值需要的编码速率。

短时特征和长时特征的第一类各个MOS值区间的样本数占总样本数统计结果分别如图5、图6所示。

长时特征和短时特征的第一类映射关系码本分别如下表：

短时特征第一类映射关系码本

类别	目标MOS值	预定编码速率（kbps）
			1	2.5	8
1	2.75	16
			1	3.0	24
1	3.25	32
			1	3.5	32

长时特征第一类映射关系码本

类别	目标MOS值	预定编码速率（kbps）
			1	2.5	12
1	2.75	16
			1	3.0	20
1	3.25	28
			1	3.5	28

05. 如图3所示，用测试集的音乐重复01，02步骤，然后判定测试集每帧音乐对应的类别，对照04步骤得到的映射关系码本，用预定编码速率对其编码，比较得到的实际MOS值与目标MOS值，测试结果如下表。

短时特征第一类测试结果

长时特征第一类结测试果

表中good的情况代表了实际编码中，若用了预测编码速率来编码但是质量比所要达到的目标更好（实际mos值高于目标mos值）；equal的情况表示的是用预测编码速率来编码得到的质量和目标相近（实际mos值差不多等于目标mos值），即可以认为理论编码速率与实际等同；bad则指用预测编码速率来编码但是没有达到期望的目标（实际mos值低于目标mos值）。实际中只有bad类的被认为结果不好，equal和good类的都是满足实际要求，判定的最终模型效果时可以归为一类。

以上可以看出，不同的音乐，要达到一定的mos值需要用的编码速率有差别。不管是长时特征还是短时特征都能在一定程度下指导编码速率的选择。通过一定数量的实验，长时特征在目标MOS值一致的情况下，所需要的编码速率总体上低于短时特征在同等MOS值下需要的编码速率，因此可以认为这组长时特征更能表征信号的复杂度，并在一定程度上指导编码速率的选择。

Claims

1.一种信号复杂度和编码速率选择的映射实现方法，其特征在于包含如下五个过程：

B． MOS值提取：建立编码质量的MOS值数据库；

E．测试：测试D步骤得到的码本是否有效。

2.如权利要求1所述的信号复杂度和编码速率选择的映射实现方法，其特征在于特征提取过程包含以下步骤：

A1. 在提取特征之前，首先将音频信号转换成数字形式，即将wav形式的音频文件通过一定的采样率对其进行采样，得到一系列离散的采样点；

A2. 将数字形式的音频信号分帧，即通过计算一定时间内包含多少个采样点来划分帧，分

帧的时间随特征的特性而定，长时特征的帧长以秒为数量级，而短时特征的帧长以毫秒为数量级；

A3. 从数字形式的音频信号样本帧中计算要提取的特征；

A4. 把该特征参数集转换成该帧的特征矢量输出。

3.如权利要求1所述的信号复杂度和编码速率选择的映射实现方法，其特征在于MOS值提取过程包含的步骤如下：

B1. 转换音频格式，包括音频的位速、采样大小、采样频率和音频格式，以使音频文件能够被AMR-WB+编码器识别；

B2. 读取步骤B1得到的特定格式的音频，将每段音乐切割成若干片段；

B3. 将B2步骤得到的音频片段，用encoder编码器和decoder解码器对每个片段分别编解码，再用改进的PEAQ算法器衡量得到每个片段的编码质量MOS值；

4.如权利要求1所述的信号复杂度和编码速率选择的映射实现方法，其特征在于聚类过程包含以下步骤：

C1. 将步骤A得到的特征矢量集转换成htk格式；

C2. 利用HTK工具包中的Hquant训练工具对C1得到的数据进行聚类，得到特征聚类码本。

5.如权利要求1所述的信号复杂度和编码速率选择的映射实现方法，其特征在于对应过程包含以下步骤：

D1. 根据C过程得到的特征聚类码本，判定音频信号每帧所在的类别，并记录每帧在各个预定编码速率下的MOS值；

D2. 统计每个类别的每个编码速率下各个MOS值区间内的样本数占总样本数的比例；

6.如权利要求1所述的信号复杂度和编码速率选择的映射实现方法，其特征在于测试过程包含以下步骤：

E1. 用不同于步骤A中的音频信号进行步骤A，B，得到音频信号的特征矢量和实际编码速率下的MOS值；

E2. 根据特征聚类码本，判定每帧音频信号所在的类别，然后根据映射关系码本，用该类别下达到目标MOS值所需的预定编码速率对其编解码，得到预定编码速率下的编码质量MOS值；