CN105761728A

CN105761728A - 中国典型听觉文化符号特征选择方法

Info

Publication number: CN105761728A
Application number: CN201510859814.5A
Authority: CN
Inventors: 吴梅梅; 刘静; 张宜春; 陈彦杰
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2016-07-13

Abstract

中国典型听觉文化符号特征选择方法，它涉及特征选择方法。它解决了听觉符号资源的收集、检索、欣赏、参考和利用的问题。本发明的方法：采用音乐描述；数据预处理；特征提取；特征选择四个步骤来实现的。本发明在研究中国典型听觉文化符号特征选择方法，将听觉符号数字化，建立听觉符号资源数据库，以实现对听觉符号资源的收集、检索、欣赏、参考和利用等，这项工作对于宣传和保护中国典型听觉符号具有重要的历史意义和现实意义，在中国整体传统音乐数字化的发展进程中起着重要的推动作用的优点。

Description

中国典型听觉文化符号特征选择方法

技术领域

本发明涉及特征选择方法，具体涉及一种中国典型听觉文化符号特征选择方法。

背景技术

音乐在人们的生活中可谓无处不在，从古到今，音乐穿插在人类社会的整个发展历程中，记载了无数个生活中美好的瞬间，给人们以心灵上的震撼和感动。听觉符号，是经过时间洗涤之后沉淀下来的精华，是一个民族或国家独特音乐文化的抽象体现，是文化内涵的重要载体和形式。

英国对于音乐资源数字化的研究始于牛津大学1998年建立的，名为“中世纪音乐数字图像档案馆”的数字化研究课题，研究者利用牛津图书馆资源和现代科学技术，收集了欧洲13-16世纪的音乐手稿，并对其进行数字化处理，建成了一个庞大的网上数据库。另外值得一提的是，2010年，民族音乐学也作为音乐数字化计划的一部分，课题名称是“音乐、数字化与调解：跨学科研究”，由乔治娜·波恩教授和几位博士生组成研究团队的五年计划。主要考察古巴、阿根廷、加拿大等六个国家的音乐，探索实证研究、社会学研究和媒体理论相结合的研究方法，主要考察数字化和数字媒体时代的音乐变迁。日本传统音乐数字化技术也处于世界领先水平，日本政府一直都很重视文化遗产的数字化建设，在政府的促进下，开发了一系列数字化建设的项目，如：“次世代数字典藏系统研究与发展专案”项目等。

但我国得天独厚的听觉符号并未得到合理整合、开发、宣传，产生与之相适应的经济和社会效益。并且，随着全球化发展趋势的不断推进、强势文化的入侵、国际标准化的推广、城市化进程的加速、旅游业的蓬勃发展等，都在有意无意间威胁着中国典型听觉符号的长久留存以及多样性、丰富性。因此，借助现代数字音频处理技术宣传和保护听觉符号的工作亟需提上日程。我国的传统音乐资源数字化开展的较晚，到现在还没有一套完整的，专门针对传统音乐资源的数据库出现，中国传统音乐的表达缺乏统一标准，致使很多传统音乐不能够被正确、完备、生动地表现出来。这也使得我国传统音乐资源不能得到更好的保护与宣传。

发明内容

本发明解决了对听觉符号资源的收集、检索、欣赏、参考和利用的问题，提供了一种中国典型听觉文化符号特征选择方法，具体技术方案如下：

本发明的中国典型听觉文化符号特征选择方法，该方法的步骤如下：

步骤一、音乐描述；

本步骤总结了能表示中国典型听觉文化符号的主要声学特征量，结合Mirtoolbox软件包中声学特征量与音乐要素的对应关系，选择了13个能充分表征音乐的力度、节奏、音色、音高和音调五大要素的声学特征量。这些声学特征量物理意义明显，并有着很好的代表性；

步骤二、数据预处理；

数据预处理包括预加重和分帧加窗，预加重的目的是将音乐信号频谱中的高频部分调高，使得信号在低频到高频的整个频带中频谱变得平坦，时期信噪比基本一致，便于后续处理不会造成音频信号的丢失；分帧加窗由于音乐信号具有短时平稳特性，在每一帧中可将其看做稳态信号，所以可以以帧为单位进行处理；

步骤三、特征提取；

步骤一中提到的声学特征及其统计值，经过步骤二的数据预处理后，就可以采用信号学的相关知识对其进行提取；

步骤四、特征选择；

提出了一种新的特征选择算法，将过滤式的特征选择算法中的ReliefF与封装式特征选择算法SFS相结合，既可以克服ReliefF与分类器无关可能最终造成分类准确的下降，又可以降低SFS算法的计算的复杂度。

本发明在研究中国典型听觉文化符号特征选择方法，将听觉符号数字化，建立听觉符号资源数据库，以实现对听觉符号资源的收集、检索、欣赏、参考和利用等，这项工作对于宣传和保护中国典型听觉符号具有重要的历史意义和现实意义，在中国整体传统音乐数字化的发展进程中起着重要的推动作用的优点。

附图说明

图1是onset随时间变化曲线图，图2是给定基础频率f₀的频谱无谐性评估函数，图3是梅尔频率与线性频率的关系图，图4是MFCC的计算步骤，图5是ReliefF-SFS算法流程图。

具体实施方式

具体实施方式一：本实施方式的中国典型听觉文化符号特征选择方法是这样实现的：

步骤一、音乐描述；

本步骤总结了能表示中国典型听觉文化符号的主要声学特征量，结合Mirtoolbox软件包中声学特征量与音乐要素的对应关系，选择了13个能充分表征音乐的力度、节奏、音色、音高和音调五大要素的声学特征量，这些声学特征量物理意义明显，并有着很好的代表性。如表1所示；

步骤二、数据预处理；

预加重：预加重的目的是将音乐信号频谱中的高频部分调高，使得信号在低频到高频的整个频带中频谱变得平坦，时期信噪比基本一致，便于后续处理不会造成音频信号的丢失；预加重的滤波器如式所示1，其中a为常数，一般取值为0.9375，

H(z)＝1-az^-1(1)

分帧加窗：由于音乐信号具有短时平稳特性，在每一帧中可将其看做稳态信号，所以可以以帧为单位进行处理，实验中选取的语音帧长多为20～30ms，同时，为了使一帧与另一帧之间的参数能较平稳地过渡，在相邻两帧之间互相有部分重叠，帧叠一般为帧长的一半，约10～15ms；

分帧信号在帧的边缘容易出现信号不连续的状况，为了解决这一问题，可以对其加上一个有限长度的窗口，用移动的窗口实现分帧，加窗主要的目的就是减少频域中的泄露；加窗时窗函数的选择会在很大程度上影响短时分析特征参数的特性，窗口的选择会对音乐信号分析产生不同影响，因此研究中应该根据实际情况选择合适的窗函数，表2列举了几种较常用的窗函数及其各自的适用范围；

比较可知，因汉明窗具有较为平滑的低通特性，可以在较高程度上反应短时音乐信号的频率特性，所以在音乐信号处理中较为常用，在本文的音频特征提取算法中，也采用汉明窗对语音加窗，以减小吉布斯效应的影响。我们将每一个音框乘上汉明窗，以增加音框左端和右端的连续性，如式2所示

步骤三、特征提取；

1、短时能量(Shorttimeenergy)：一帧信号的短时能量用公式3表示：

2、低能量帧比率(Lowenergy)：能量曲线可以用来评估能量的时间分布，为了观察信号是否保持不变或者是否有某些帧更具对比性，一种方法是计算低能量帧比率来评估持续性如式4，其中，avSTE是1秒窗长内的平均短时能量，STE(n)是第n帧的短时能量；

3、短时能量均方值(RootMeanSquare)：这是一个比较简单的特征，用户度量音频信号的人的感官特征上所说的响度；

其中N为第i帧中采样点的个数，为某个采样点在频域上的幅值；

4、事件密度(Eventdensity)：事件密度，换言之，每秒音符起始点的数量。常用小波变换的方法进行音符起始点检测，Mirtoolbox中先用mironset函数检测音符起始点，然后使用mireventdensity函数统计事件密度；

5、速度(tempo)：从初始检测曲线来检测周期试验，以此评估节拍速度。mirtempo(...，‘Autocor’)使用mirautocor(defaultchoice)计算一个初始检测曲线的自相关函数。Mirautocor可由式6计算；

6、短时过零率(Zerocross)：短时过零率表示一帧音频内音频信号波形通过横轴(零电平)的次数。公式表示如下：

式中，sgn[]是符号函数，即：

7、频谱衰减点(SpeetralRolloffpoint)：频谱衰减点主要用户度量谱形状。它能指出大部分谱能量都集中的位置。我们可以用频谱衰减点度量谱形状的对称性，好的对称性状将产生比较高的值，计算公式：

其中X_(i)为第i帧的FFT幅值，m为采样点的个数，c表示有多少能量集中的某个频率下；

8、频谱质心(SpectralCentroid)：频谱能量分布的平均点，反映了音频信号在频谱能量分布上的特性，计算公式如下：

9、平坦度(Flatness)：平坦度表明采样数据的分布是光滑或尖锐，通过计算采样点的集合平均值和算数平均值得比率而求得；

10、基音频率和平均音高与音高偏差(Pitch)

基音频率：采用自相关函数的基因检测方法，提取基频曲线，得到一组离散的序列记作c(n)，n＝1，2，...，N，它是由每一帧中最显著的音高所构成；在基音频率的基础上计算音乐片段的平均音高以及音高偏差；

平均音高：

音高偏差：

11、不谐和泛音(Inharmonicity)

mirinharmonicity(x)计算无谐性，也就是说，分音的数量不是基频的倍数，值介于0到1之间。我们使用一个简单的函数评估每个已给定基础频率f₀的频谱的无谐性,如图2，这个简单模型假设只有一个基础频率；

12、调式(Mode)

调式评估，使用mirkeystrength计算最优大调(最高音强)和最优小调(最低音强)之间的调强差异。mirkeystrength计算调强度，也就是说，通过由mirchromagram返回的色谱图的互相关性，包裹和归一化(使用‘Normal’)，关联每个候选调与表示所有可能的候选音调(Krumhansl，1990；Gomez，2006)类似的配置文件的概率；

13、梅尔倒谱系数(MFCC)：是在梅尔标度的频率域提取出来的倒谱参数，描述了人耳频率的非线性特性，它与频率的关系可用式14近似表示；图3则显示了Mel频率与线性频率的关系；

Mel(f)＝2595*lg(1+f/700)(14)

计算MFCC主要分为5个阶段，具体流程如图4所示；

(1)预处理：包括预加重、分帧和加窗函数；

(2)快速傅里叶变换：将信号从时域变换到频域，便于观察信号在各频率分量上的能量分布特点；

X(i，k)＝FFT[x_i(m)](15)

(3)计算谱线能量：对每一帧FFT后的数据计算谱线的能量

E(i，k)＝[X(i，k)]²(16)

(4)计算通过MEL滤波器的能量：将能量谱通过一组三角带通梅尔频率滤波器，并计算在该MEL滤波器中的能量。在频域中相当于把每帧的能量谱E(i，k)与MEL滤波器的频域响应H_m(k)相乘并相加

(5)计算DCT倒谱：把MEL滤波器的能量取对数后计算DCT

14、MFCC差分

上面介绍的MFCC特征是按帧提取然后取统计值，只能反映音乐在短时间内的静态特征。如果相获取音乐的动态特征，则可以由静态特征的差分来描述，即差分特征表示某一帧的特征其相邻帧特征的关系。动态特征与静态特征相辅相承，可以在很大程度上提高特征的区分能力。MFCC差分特征计算公式如式19所示；

步骤四、特征选择；

特征选择的一般过程可定义为：已知一特征集，从中选择一个子集使评价标准最优，以上定义的数学表述如下：对于给定的学习算法L和数据集S，S来自例子空间D，D中包含了样本的n个特征X₁，X₂，...，X_n，以及其对应的类别标记Y，则最优特征子集定义为是使得某个评价准则J＝J(L，S)达到最优的特征子集；

特征选择方法根据评价函数的不同主要分为两大类：过滤法(filter)和封装法(wrapper)。Relief系列算法(包括Relief和ReliefF)是研究者们公认的，特征选择效果较好的过滤式特征选择算法。但Relief算法的一个重要不足是容易将一些本身权值较低，但与其他特征组合在一起会有较好分类效果的特征去掉。封装方法将归纳学习的统计精度的评价嵌套在特征选择的每一次循环迭代过程中，因此运算量大，时间效率低；

步骤四发明了一种新的特征选择算法，将过滤式的特征选择算法中的ReliefF与封装式特征选择算法SFS相结合，既可以克服ReliefF与分类器无关可能最终造成分类准确的下降，又可以降低SFS算法的计算复杂度。

该算法先使用ReliefF算法计算出各特征的权重，再按照权重从高到低的顺序试探着将特征加入到最优特征子集ofs中，测试加入该特征后对分类结果的影响，如果分类正确率提高，则将该特征加入最优特征子集，如果降低则不加入，算法流程图如图5所示；

算法基本步骤：

(1)、计算所有特征的ReliefF权值；

(2)、置最优特征子集ofs为空；

(3)、将未处理过的最高权值的特征加入ofs；

(4)、使用ofs中的特征进行训练和测试，求得准确率；

(5)、如准确率低于或等于现有准确率，将特征从ofs去除；

(6)、如准确率高于现有准确率，将tag中特征标记为选取；

(7)、将特征标记为已处理；

(8)、如未处理完所有特征，转3。

算法代码如算法1所示。

表1能表示中国典型听觉文化符号的主要声学特征量

表2几种常见窗函数及其使用范围

Claims

1.中国典型听觉文化符号特征选择方法，其特征在于：该方法的步骤如下：

步骤一、音乐描述；

本步骤总结了能表示中国典型听觉文化符号的主要声学特征量，结合Mirtoolbox中声学特征量与音乐要素的对应关系，选择了13个能充分表征音乐的力度、节奏、音色、音高和音调五大要素的声学特征量，这些声学特征量物理意义明显，并有着很好的代表性；

步骤二、数据预处理；

步骤三、特征提取；

将步骤一中提到的声学特征及其统计值，经过步骤二的数据预处理后，就可以采用信号学的相关知识对其进行提取；

步骤四、特征选择；

提出了一种新的特征选择算法，将过滤式的特征选择算法中的ReliefF与封装式特征选择算法SFS相结合，既可以克服ReliefF与分类器无关可能最终造成分类准确的下降，又可以降低SFS算法的计算复杂度。

2.根据权利要求1所述的中国典型听觉文化符号特征选择方法，其特征在于：步骤二中预加重：预加重的目的是将音乐信号频谱中的高频部分调高，使得信号在低频到高频的整个频带中频谱变得平坦，时期信噪比基本一致，便于后续处理不会造成音频信号的丢失；预加重的滤波器如式所示1，其中a为常数，一般取值为0.9375，

H(z)＝1-az^-1(1)

分帧加窗：由于音乐信号具有短时平稳特性，在每一帧中可将其看做稳态信号，所以能以帧为单位进行处理，实验中选取的语音帧长多为20～30ms，同时，为了使一帧与另一帧之间的参数能较平稳地过渡，在相邻两帧之间互相有部分重叠，帧叠一般为帧长的一半，约10～15ms；

比较可知，因汉明窗具有较为平滑的低通特性，可以在较高程度上反应短时音乐信号的频率特性，所以在音乐信号处理中较为常用，在本文的音频特征提取算法中，也采用汉明窗对语音加窗，以减小吉布斯效应的影响，我们将每一个音框乘上汉明窗，以增加音框左端和右端的连续性，如式2所示

3.根据权利要求1所述的中国典型听觉文化符号特征选择方法，其特征在于：步骤三中、步骤一中提到的声学特征及其统计值，经过步骤二的数据预处理后，就可以采用信号学的相关知识对其进行提取；

(1)、短时能量：一帧信号的短时能量用公式3表示：

(2)、低能量帧比率：能量曲线可以用来评估能量的时间分布，为了观察信号是否保持不变或者是否有某些帧更具对比性，一种方法是计算低能量帧比率来评估持续性如式4，其中，avSTE是1秒窗长内的平均短时能量，STE(n)是第n帧的短时能量；

(3)、短时能量均方值：这是一个比较简单的特征，

用户度量音频信号的人的感官特征上所说的响度；

(4)、事件密度：事件密度，换言之，每秒音符起始点的数量，常用小波变换的方法进行音符起始点检测，Mirtoolbox中先用mironset函数检测音符起始点，然后使用mireventdensity函数统计事件密度；

(5)、速度(tempo)：从初始检测曲线来检测周期试验，以此评估节拍速度，mirtempo使用mirautocor计算一个初始检测曲线的自相关函数，Mirautocor可由式6计算；

(6)、短时过零率：短时过零率表示一帧音频内音频信号波形

通过横轴(零电平)的次数。公式表示如下：

式中，sgn[]是符号函数，即：

(7)、频谱衰减点：频谱衰减点主要用户度量谱形状，它能指出大部分谱能量都集中的位置，我们可以用频谱衰减点度量谱形状的对称性，好的对称性状将产生比较高的值，计算公式：

(8)、频谱质心：频谱能量分布的平均点，反映了音频信号在频谱能量分布上的特性，计算公式如下：

(9)、平坦度：平坦度表明采样数据的分布是光滑或尖锐，通过计算采样点的集合平均值和算数平均值得比率而求得；

(10)、基音频率和平均音高与音高偏差(Pitch)

平均音高：

音高偏差：

(11)、不谐和泛音

mirinharmonicity(x)计算无谐性，也就是说，分音的数量不是基频的倍数，值介于0到1之间，我们使用一个简单的函数评估每个已给定基础频率f₀的频谱的无谐性，这个简单模型假设只有一个基础频率；

(12)、调式

调式评估，使用mirkeystrength计算最优大调和最优小调之间的调强差异，mirkeystrength计算调强度，也就是说，通过由mirchromagram返回的色谱图的互相关性，包裹和归一化，关联每个候选调与表示所有可能的候选音调类似的配置文件的概率；

(13)、梅尔倒谱系数：是在梅尔标度的频率域提取出来的倒谱参数，描述了人耳频率的非线性特性，它与频率的关系可用式14近似表示；图4则显示了Mel频率与线性频率的关系；

Mel(f)＝2595*1g(1+f/700)(14)

计算MFCC主要分为5个阶段；

1)、预处理：包括预加重、分帧和加窗函数；

2)、快速傅里叶变换：将信号从时域变换到频域，便于观察信号在各频率分量上的能量分布特点；

X(i，k)＝FFT[x_i(m)](15)

3)、计算谱线能量：对每一帧FFT后的数据计算谱线的能量

E(i，k)＝[X(i，k)]²(16)

4)、计算通过MEL滤波器的能量：将能量谱通过一组三角带通梅尔频率滤波器，并计算在该MEL滤波器中的能量，在频域中相当于把每帧的能量谱E(i，k)与MEL滤波器的频域响应H_m(k)相乘并相加

5)、计算DCT倒谱：把MEL滤波器的能量取对数后计算DCT

(14)、MFCC差分

上面介绍的MFCC特征是按帧提取然后取统计值，只能反映音乐在短时间内的静态特征，如果相获取音乐的动态特征，则可以由静态特征的差分来描述，即差分特征表示某一帧的特征其相邻帧特征的关系，动态特征与静态特征相辅相承，可以在很大程度上提高特征的区分能力，MFCC差分特征计算公式如式19所示；

。

4.根据权利要求1所述的中国典型听觉文化符号特征选择方法，其特征在于：步骤四中特征选择的一般过程可定义为：已知一特征集，从中选择一个子集使评价标准最优，以上定义的数学表述如下：对于给定的学习算法L和数据集S，S来自例子空间D，D中包含了样本的n个特征X₁，X₂，...，X_n，以及其对应的类别标记Y，则最优特征子集定义为是使得某个评价准则J＝J(L，S)达到最优的特征子集；步骤四发明了一种新的特征选择算法，将过滤式的特征选择算法中的ReliefF与封装式特征选择算法SFS相结合，既可以克服ReliefF与分类器无关可能最终造成分类准确的下降，又可以降低SFS算法的计算复杂度；该算法先使用ReliefF算法计算出各特征的权重，再按照权重从高到低的顺序试探着将特征加入到最优特征子集ofs中，测试加入该特征后对分类结果的影响，如果分类正确率提高，则将该特征加入最优特征子集，如果降低则不加入；

算法基本步骤：

(1)、所有特征的ReliefF权值；

(2)、置最优特征子集ofs为空；

(3)、将未处理过的最高权值的特征加入ofs；

(4)、使用ofs中的特征进行训练和测试，求得准确率；

(5)、如准确率低于或等于现有准确率，将特征从ofs去除；

(6)、如准确率高于现有准确率，将tag中特征标记为选取；

(7)、将特征标记为已处理；

(8)、如未处理完所有特征，转3。