CN105761728A - 中国典型听觉文化符号特征选择方法 - Google Patents
中国典型听觉文化符号特征选择方法 Download PDFInfo
- Publication number
- CN105761728A CN105761728A CN201510859814.5A CN201510859814A CN105761728A CN 105761728 A CN105761728 A CN 105761728A CN 201510859814 A CN201510859814 A CN 201510859814A CN 105761728 A CN105761728 A CN 105761728A
- Authority
- CN
- China
- Prior art keywords
- feature
- frame
- frequency
- signal
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title abstract 4
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000000694 effects Effects 0.000 claims abstract description 7
- 238000011160 research Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000001228 spectrum Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 17
- 230000003595 spectral effect Effects 0.000 claims description 14
- 238000013459 approach Methods 0.000 claims description 12
- 238000009432 framing Methods 0.000 claims description 12
- 230000005236 sound signal Effects 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000003068 static effect Effects 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000005311 autocorrelation function Methods 0.000 claims description 4
- 230000003542 behavioural effect Effects 0.000 claims description 4
- 230000007423 decrease Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 230000033764 rhythmic process Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 230000000052 comparative effect Effects 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims description 2
- 238000009472 formulation Methods 0.000 claims description 2
- 230000008570 general process Effects 0.000 claims description 2
- 230000033001 locomotion Effects 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 230000000737 periodic effect Effects 0.000 claims description 2
- 230000002688 persistence Effects 0.000 claims description 2
- 108090000623 proteins and genes Proteins 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 239000013589 supplement Substances 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000011161 development Methods 0.000 abstract description 5
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000013551 empirical research Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
中国典型听觉文化符号特征选择方法,它涉及特征选择方法。它解决了听觉符号资源的收集、检索、欣赏、参考和利用的问题。本发明的方法:采用音乐描述;数据预处理;特征提取;特征选择四个步骤来实现的。本发明在研究中国典型听觉文化符号特征选择方法,将听觉符号数字化,建立听觉符号资源数据库,以实现对听觉符号资源的收集、检索、欣赏、参考和利用等,这项工作对于宣传和保护中国典型听觉符号具有重要的历史意义和现实意义,在中国整体传统音乐数字化的发展进程中起着重要的推动作用的优点。
Description
技术领域
本发明涉及特征选择方法,具体涉及一种中国典型听觉文化符号特征选择方法。
背景技术
音乐在人们的生活中可谓无处不在,从古到今,音乐穿插在人类社会的整个发展历程中,记载了无数个生活中美好的瞬间,给人们以心灵上的震撼和感动。听觉符号,是经过时间洗涤之后沉淀下来的精华,是一个民族或国家独特音乐文化的抽象体现,是文化内涵的重要载体和形式。
英国对于音乐资源数字化的研究始于牛津大学1998年建立的,名为“中世纪音乐数字图像档案馆”的数字化研究课题,研究者利用牛津图书馆资源和现代科学技术,收集了欧洲13-16世纪的音乐手稿,并对其进行数字化处理,建成了一个庞大的网上数据库。另外值得一提的是,2010年,民族音乐学也作为音乐数字化计划的一部分,课题名称是“音乐、数字化与调解:跨学科研究”,由乔治娜·波恩教授和几位博士生组成研究团队的五年计划。主要考察古巴、阿根廷、加拿大等六个国家的音乐,探索实证研究、社会学研究和媒体理论相结合的研究方法,主要考察数字化和数字媒体时代的音乐变迁。日本传统音乐数字化技术也处于世界领先水平,日本政府一直都很重视文化遗产的数字化建设,在政府的促进下,开发了一系列数字化建设的项目,如:“次世代数字典藏系统研究与发展专案”项目等。
但我国得天独厚的听觉符号并未得到合理整合、开发、宣传,产生与之相适应的经济和社会效益。并且,随着全球化发展趋势的不断推进、强势文化的入侵、国际标准化的推广、城市化进程的加速、旅游业的蓬勃发展等,都在有意无意间威胁着中国典型听觉符号的长久留存以及多样性、丰富性。因此,借助现代数字音频处理技术宣传和保护听觉符号的工作亟需提上日程。我国的传统音乐资源数字化开展的较晚,到现在还没有一套完整的,专门针对传统音乐资源的数据库出现,中国传统音乐的表达缺乏统一标准,致使很多传统音乐不能够被正确、完备、生动地表现出来。这也使得我国传统音乐资源不能得到更好的保护与宣传。
发明内容
本发明解决了对听觉符号资源的收集、检索、欣赏、参考和利用的问题,提供了一种中国典型听觉文化符号特征选择方法,具体技术方案如下:
本发明的中国典型听觉文化符号特征选择方法,该方法的步骤如下:
步骤一、音乐描述;
本步骤总结了能表示中国典型听觉文化符号的主要声学特征量,结合Mirtoolbox软件包中声学特征量与音乐要素的对应关系,选择了13个能充分表征音乐的力度、节奏、音色、音高和音调五大要素的声学特征量。这些声学特征量物理意义明显,并有着很好的代表性;
步骤二、数据预处理;
数据预处理包括预加重和分帧加窗,预加重的目的是将音乐信号频谱中的高频部分调高,使得信号在低频到高频的整个频带中频谱变得平坦,时期信噪比基本一致,便于后续处理不会造成音频信号的丢失;分帧加窗由于音乐信号具有短时平稳特性,在每一帧中可将其看做稳态信号,所以可以以帧为单位进行处理;
步骤三、特征提取;
步骤一中提到的声学特征及其统计值,经过步骤二的数据预处理后,就可以采用信号学的相关知识对其进行提取;
步骤四、特征选择;
提出了一种新的特征选择算法,将过滤式的特征选择算法中的ReliefF与封装式特征选择算法SFS相结合,既可以克服ReliefF与分类器无关可能最终造成分类准确的下降,又可以降低SFS算法的计算的复杂度。
本发明在研究中国典型听觉文化符号特征选择方法,将听觉符号数字化,建立听觉符号资源数据库,以实现对听觉符号资源的收集、检索、欣赏、参考和利用等,这项工作对于宣传和保护中国典型听觉符号具有重要的历史意义和现实意义,在中国整体传统音乐数字化的发展进程中起着重要的推动作用的优点。
附图说明
图1是onset随时间变化曲线图,图2是给定基础频率f0的频谱无谐性评估函数,图3是梅尔频率与线性频率的关系图,图4是MFCC的计算步骤,图5是ReliefF-SFS算法流程图。
具体实施方式
具体实施方式一:本实施方式的中国典型听觉文化符号特征选择方法是这样实现的:
步骤一、音乐描述;
本步骤总结了能表示中国典型听觉文化符号的主要声学特征量,结合Mirtoolbox软件包中声学特征量与音乐要素的对应关系,选择了13个能充分表征音乐的力度、节奏、音色、音高和音调五大要素的声学特征量,这些声学特征量物理意义明显,并有着很好的代表性。如表1所示;
步骤二、数据预处理;
预加重:预加重的目的是将音乐信号频谱中的高频部分调高,使得信号在低频到高频的整个频带中频谱变得平坦,时期信噪比基本一致,便于后续处理不会造成音频信号的丢失;预加重的滤波器如式所示1,其中a为常数,一般取值为0.9375,
H(z)=1-az-1(1)
分帧加窗:由于音乐信号具有短时平稳特性,在每一帧中可将其看做稳态信号,所以可以以帧为单位进行处理,实验中选取的语音帧长多为20~30ms,同时,为了使一帧与另一帧之间的参数能较平稳地过渡,在相邻两帧之间互相有部分重叠,帧叠一般为帧长的一半,约10~15ms;
分帧信号在帧的边缘容易出现信号不连续的状况,为了解决这一问题,可以对其加上一个有限长度的窗口,用移动的窗口实现分帧,加窗主要的目的就是减少频域中的泄露;加窗时窗函数的选择会在很大程度上影响短时分析特征参数的特性,窗口的选择会对音乐信号分析产生不同影响,因此研究中应该根据实际情况选择合适的窗函数,表2列举了几种较常用的窗函数及其各自的适用范围;
比较可知,因汉明窗具有较为平滑的低通特性,可以在较高程度上反应短时音乐信号的频率特性,所以在音乐信号处理中较为常用,在本文的音频特征提取算法中,也采用汉明窗对语音加窗,以减小吉布斯效应的影响。我们将每一个音框乘上汉明窗,以增加音框左端和右端的连续性,如式2所示
步骤三、特征提取;
步骤一中提到的声学特征及其统计值,经过步骤二的数据预处理后,就可以采用信号学的相关知识对其进行提取;
1、短时能量(Shorttimeenergy):一帧信号的短时能量用公式3表示:
2、低能量帧比率(Lowenergy):能量曲线可以用来评估能量的时间分布,为了观察信号是否保持不变或者是否有某些帧更具对比性,一种方法是计算低能量帧比率来评估持续性如式4,其中,avSTE是1秒窗长内的平均短时能量,STE(n)是第n帧的短时能量;
3、短时能量均方值(RootMeanSquare):这是一个比较简单的特征,用户度量音频信号的人的感官特征上所说的响度;
其中N为第i帧中采样点的个数,为某个采样点在频域上的幅值;
4、事件密度(Eventdensity):事件密度,换言之,每秒音符起始点的数量。常用小波变换的方法进行音符起始点检测,Mirtoolbox中先用mironset函数检测音符起始点,然后使用mireventdensity函数统计事件密度;
5、速度(tempo):从初始检测曲线来检测周期试验,以此评估节拍速度。mirtempo(...,‘Autocor’)使用mirautocor(defaultchoice)计算一个初始检测曲线的自相关函数。Mirautocor可由式6计算;
6、短时过零率(Zerocross):短时过零率表示一帧音频内音频信号波形通过横轴(零电平)的次数。公式表示如下:
式中,sgn[]是符号函数,即:
7、频谱衰减点(SpeetralRolloffpoint):频谱衰减点主要用户度量谱形状。它能指出大部分谱能量都集中的位置。我们可以用频谱衰减点度量谱形状的对称性,好的对称性状将产生比较高的值,计算公式:
其中X(i)为第i帧的FFT幅值,m为采样点的个数,c表示有多少能量集中的某个频率下;
8、频谱质心(SpectralCentroid):频谱能量分布的平均点,反映了音频信号在频谱能量分布上的特性,计算公式如下:
9、平坦度(Flatness):平坦度表明采样数据的分布是光滑或尖锐,通过计算采样点的集合平均值和算数平均值得比率而求得;
10、基音频率和平均音高与音高偏差(Pitch)
基音频率:采用自相关函数的基因检测方法,提取基频曲线,得到一组离散的序列记作c(n),n=1,2,...,N,它是由每一帧中最显著的音高所构成;在基音频率的基础上计算音乐片段的平均音高以及音高偏差;
平均音高:
音高偏差:
11、不谐和泛音(Inharmonicity)
mirinharmonicity(x)计算无谐性,也就是说,分音的数量不是基频的倍数,值介于0到1之间。我们使用一个简单的函数评估每个已给定基础频率f0的频谱的无谐性,如图2,这个简单模型假设只有一个基础频率;
12、调式(Mode)
调式评估,使用mirkeystrength计算最优大调(最高音强)和最优小调(最低音强)之间的调强差异。mirkeystrength计算调强度,也就是说,通过由mirchromagram返回的色谱图的互相关性,包裹和归一化(使用‘Normal’),关联每个候选调与表示所有可能的候选音调(Krumhansl,1990;Gomez,2006)类似的配置文件的概率;
13、梅尔倒谱系数(MFCC):是在梅尔标度的频率域提取出来的倒谱参数,描述了人耳频率的非线性特性,它与频率的关系可用式14近似表示;图3则显示了Mel频率与线性频率的关系;
Mel(f)=2595*lg(1+f/700)(14)
计算MFCC主要分为5个阶段,具体流程如图4所示;
(1)预处理:包括预加重、分帧和加窗函数;
(2)快速傅里叶变换:将信号从时域变换到频域,便于观察信号在各频率分量上的能量分布特点;
X(i,k)=FFT[xi(m)](15)
(3)计算谱线能量:对每一帧FFT后的数据计算谱线的能量
E(i,k)=[X(i,k)]2(16)
(4)计算通过MEL滤波器的能量:将能量谱通过一组三角带通梅尔频率滤波器,并计算在该MEL滤波器中的能量。在频域中相当于把每帧的能量谱E(i,k)与MEL滤波器的频域响应Hm(k)相乘并相加
(5)计算DCT倒谱:把MEL滤波器的能量取对数后计算DCT
14、MFCC差分
上面介绍的MFCC特征是按帧提取然后取统计值,只能反映音乐在短时间内的静态特征。如果相获取音乐的动态特征,则可以由静态特征的差分来描述,即差分特征表示某一帧的特征其相邻帧特征的关系。动态特征与静态特征相辅相承,可以在很大程度上提高特征的区分能力。MFCC差分特征计算公式如式19所示;
步骤四、特征选择;
特征选择的一般过程可定义为:已知一特征集,从中选择一个子集使评价标准最优,以上定义的数学表述如下:对于给定的学习算法L和数据集S,S来自例子空间D,D中包含了样本的n个特征X1,X2,...,Xn,以及其对应的类别标记Y,则最优特征子集定义为是使得某个评价准则J=J(L,S)达到最优的特征子集;
特征选择方法根据评价函数的不同主要分为两大类:过滤法(filter)和封装法(wrapper)。Relief系列算法(包括Relief和ReliefF)是研究者们公认的,特征选择效果较好的过滤式特征选择算法。但Relief算法的一个重要不足是容易将一些本身权值较低,但与其他特征组合在一起会有较好分类效果的特征去掉。封装方法将归纳学习的统计精度的评价嵌套在特征选择的每一次循环迭代过程中,因此运算量大,时间效率低;
步骤四发明了一种新的特征选择算法,将过滤式的特征选择算法中的ReliefF与封装式特征选择算法SFS相结合,既可以克服ReliefF与分类器无关可能最终造成分类准确的下降,又可以降低SFS算法的计算复杂度。
该算法先使用ReliefF算法计算出各特征的权重,再按照权重从高到低的顺序试探着将特征加入到最优特征子集ofs中,测试加入该特征后对分类结果的影响,如果分类正确率提高,则将该特征加入最优特征子集,如果降低则不加入,算法流程图如图5所示;
算法基本步骤:
(1)、计算所有特征的ReliefF权值;
(2)、置最优特征子集ofs为空;
(3)、将未处理过的最高权值的特征加入ofs;
(4)、使用ofs中的特征进行训练和测试,求得准确率;
(5)、如准确率低于或等于现有准确率,将特征从ofs去除;
(6)、如准确率高于现有准确率,将tag中特征标记为选取;
(7)、将特征标记为已处理;
(8)、如未处理完所有特征,转3。
算法代码如算法1所示。
表1能表示中国典型听觉文化符号的主要声学特征量
表2几种常见窗函数及其使用范围
Claims (4)
1.中国典型听觉文化符号特征选择方法,其特征在于:该方法的步骤如下:
步骤一、音乐描述;
本步骤总结了能表示中国典型听觉文化符号的主要声学特征量,结合Mirtoolbox中声学特征量与音乐要素的对应关系,选择了13个能充分表征音乐的力度、节奏、音色、音高和音调五大要素的声学特征量,这些声学特征量物理意义明显,并有着很好的代表性;
步骤二、数据预处理;
数据预处理包括预加重和分帧加窗,预加重的目的是将音乐信号频谱中的高频部分调高,使得信号在低频到高频的整个频带中频谱变得平坦,时期信噪比基本一致,便于后续处理不会造成音频信号的丢失;分帧加窗由于音乐信号具有短时平稳特性,在每一帧中可将其看做稳态信号,所以可以以帧为单位进行处理;
步骤三、特征提取;
将步骤一中提到的声学特征及其统计值,经过步骤二的数据预处理后,就可以采用信号学的相关知识对其进行提取;
步骤四、特征选择;
提出了一种新的特征选择算法,将过滤式的特征选择算法中的ReliefF与封装式特征选择算法SFS相结合,既可以克服ReliefF与分类器无关可能最终造成分类准确的下降,又可以降低SFS算法的计算复杂度。
2.根据权利要求1所述的中国典型听觉文化符号特征选择方法,其特征在于:步骤二中预加重:预加重的目的是将音乐信号频谱中的高频部分调高,使得信号在低频到高频的整个频带中频谱变得平坦,时期信噪比基本一致,便于后续处理不会造成音频信号的丢失;预加重的滤波器如式所示1,其中a为常数,一般取值为0.9375,
H(z)=1-az-1(1)
分帧加窗:由于音乐信号具有短时平稳特性,在每一帧中可将其看做稳态信号,所以能以帧为单位进行处理,实验中选取的语音帧长多为20~30ms,同时,为了使一帧与另一帧之间的参数能较平稳地过渡,在相邻两帧之间互相有部分重叠,帧叠一般为帧长的一半,约10~15ms;
分帧信号在帧的边缘容易出现信号不连续的状况,为了解决这一问题,可以对其加上一个有限长度的窗口,用移动的窗口实现分帧,加窗主要的目的就是减少频域中的泄露;加窗时窗函数的选择会在很大程度上影响短时分析特征参数的特性,窗口的选择会对音乐信号分析产生不同影响,因此研究中应该根据实际情况选择合适的窗函数,表2列举了几种较常用的窗函数及其各自的适用范围;
比较可知,因汉明窗具有较为平滑的低通特性,可以在较高程度上反应短时音乐信号的频率特性,所以在音乐信号处理中较为常用,在本文的音频特征提取算法中,也采用汉明窗对语音加窗,以减小吉布斯效应的影响,我们将每一个音框乘上汉明窗,以增加音框左端和右端的连续性,如式2所示
3.根据权利要求1所述的中国典型听觉文化符号特征选择方法,其特征在于:步骤三中、步骤一中提到的声学特征及其统计值,经过步骤二的数据预处理后,就可以采用信号学的相关知识对其进行提取;
(1)、短时能量:一帧信号的短时能量用公式3表示:
(2)、低能量帧比率:能量曲线可以用来评估能量的时间分布,为了观察信号是否保持不变或者是否有某些帧更具对比性,一种方法是计算低能量帧比率来评估持续性如式4,其中,avSTE是1秒窗长内的平均短时能量,STE(n)是第n帧的短时能量;
(3)、短时能量均方值:这是一个比较简单的特征,
用户度量音频信号的人的感官特征上所说的响度;
其中N为第i帧中采样点的个数,为某个采样点在频域上的幅值;
(4)、事件密度:事件密度,换言之,每秒音符起始点的数量,常用小波变换的方法进行音符起始点检测,Mirtoolbox中先用mironset函数检测音符起始点,然后使用mireventdensity函数统计事件密度;
(5)、速度(tempo):从初始检测曲线来检测周期试验,以此评估节拍速度,mirtempo使用mirautocor计算一个初始检测曲线的自相关函数,Mirautocor可由式6计算;
(6)、短时过零率:短时过零率表示一帧音频内音频信号波形
通过横轴(零电平)的次数。公式表示如下:
式中,sgn[]是符号函数,即:
(7)、频谱衰减点:频谱衰减点主要用户度量谱形状,它能指出大部分谱能量都集中的位置,我们可以用频谱衰减点度量谱形状的对称性,好的对称性状将产生比较高的值,计算公式:
其中X(i)为第i帧的FFT幅值,m为采样点的个数,c表示有多少能量集中的某个频率下;
(8)、频谱质心:频谱能量分布的平均点,反映了音频信号在频谱能量分布上的特性,计算公式如下:
(9)、平坦度:平坦度表明采样数据的分布是光滑或尖锐,通过计算采样点的集合平均值和算数平均值得比率而求得;
(10)、基音频率和平均音高与音高偏差(Pitch)
基音频率:采用自相关函数的基因检测方法,提取基频曲线,得到一组离散的序列记作c(n),n=1,2,...,N,它是由每一帧中最显著的音高所构成;在基音频率的基础上计算音乐片段的平均音高以及音高偏差;
平均音高:
音高偏差:
(11)、不谐和泛音
mirinharmonicity(x)计算无谐性,也就是说,分音的数量不是基频的倍数,值介于0到1之间,我们使用一个简单的函数评估每个已给定基础频率f0的频谱的无谐性,这个简单模型假设只有一个基础频率;
(12)、调式
调式评估,使用mirkeystrength计算最优大调和最优小调之间的调强差异,mirkeystrength计算调强度,也就是说,通过由mirchromagram返回的色谱图的互相关性,包裹和归一化,关联每个候选调与表示所有可能的候选音调类似的配置文件的概率;
(13)、梅尔倒谱系数:是在梅尔标度的频率域提取出来的倒谱参数,描述了人耳频率的非线性特性,它与频率的关系可用式14近似表示;图4则显示了Mel频率与线性频率的关系;
Mel(f)=2595*1g(1+f/700)(14)
计算MFCC主要分为5个阶段;
1)、预处理:包括预加重、分帧和加窗函数;
2)、快速傅里叶变换:将信号从时域变换到频域,便于观察信号在各频率分量上的能量分布特点;
X(i,k)=FFT[xi(m)](15)
3)、计算谱线能量:对每一帧FFT后的数据计算谱线的能量
E(i,k)=[X(i,k)]2(16)
4)、计算通过MEL滤波器的能量:将能量谱通过一组三角带通梅尔频率滤波器,并计算在该MEL滤波器中的能量,在频域中相当于把每帧的能量谱E(i,k)与MEL滤波器的频域响应Hm(k)相乘并相加
5)、计算DCT倒谱:把MEL滤波器的能量取对数后计算DCT
(14)、MFCC差分
上面介绍的MFCC特征是按帧提取然后取统计值,只能反映音乐在短时间内的静态特征,如果相获取音乐的动态特征,则可以由静态特征的差分来描述,即差分特征表示某一帧的特征其相邻帧特征的关系,动态特征与静态特征相辅相承,可以在很大程度上提高特征的区分能力,MFCC差分特征计算公式如式19所示;
。
4.根据权利要求1所述的中国典型听觉文化符号特征选择方法,其特征在于:步骤四中特征选择的一般过程可定义为:已知一特征集,从中选择一个子集使评价标准最优,以上定义的数学表述如下:对于给定的学习算法L和数据集S,S来自例子空间D,D中包含了样本的n个特征X1,X2,...,Xn,以及其对应的类别标记Y,则最优特征子集定义为是使得某个评价准则J=J(L,S)达到最优的特征子集;步骤四发明了一种新的特征选择算法,将过滤式的特征选择算法中的ReliefF与封装式特征选择算法SFS相结合,既可以克服ReliefF与分类器无关可能最终造成分类准确的下降,又可以降低SFS算法的计算复杂度;该算法先使用ReliefF算法计算出各特征的权重,再按照权重从高到低的顺序试探着将特征加入到最优特征子集ofs中,测试加入该特征后对分类结果的影响,如果分类正确率提高,则将该特征加入最优特征子集,如果降低则不加入;
算法基本步骤:
(1)、所有特征的ReliefF权值;
(2)、置最优特征子集ofs为空;
(3)、将未处理过的最高权值的特征加入ofs;
(4)、使用ofs中的特征进行训练和测试,求得准确率;
(5)、如准确率低于或等于现有准确率,将特征从ofs去除;
(6)、如准确率高于现有准确率,将tag中特征标记为选取;
(7)、将特征标记为已处理;
(8)、如未处理完所有特征,转3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510859814.5A CN105761728A (zh) | 2015-12-02 | 2015-12-02 | 中国典型听觉文化符号特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510859814.5A CN105761728A (zh) | 2015-12-02 | 2015-12-02 | 中国典型听觉文化符号特征选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105761728A true CN105761728A (zh) | 2016-07-13 |
Family
ID=56341779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510859814.5A Pending CN105761728A (zh) | 2015-12-02 | 2015-12-02 | 中国典型听觉文化符号特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105761728A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407960A (zh) * | 2016-11-09 | 2017-02-15 | 浙江师范大学 | 基于多特征音乐体载的分类方法及系统 |
CN107945816A (zh) * | 2016-10-13 | 2018-04-20 | 汤姆逊许可公司 | 用于音频帧处理的设备和方法 |
CN108877146A (zh) * | 2018-09-03 | 2018-11-23 | 深圳市尼欧科技有限公司 | 一种基于智能语音识别的乘驾安全自动报警装置及其方法 |
CN111398837A (zh) * | 2020-04-01 | 2020-07-10 | 重庆大学 | 一种基于数据驱动的车用电池健康状态估计方法 |
CN111444137A (zh) * | 2020-03-26 | 2020-07-24 | 湖南搜云网络科技股份有限公司 | 一种基于特征码的多媒体文件身份识别方法 |
CN112259124A (zh) * | 2020-10-21 | 2021-01-22 | 交互未来(北京)科技有限公司 | 基于音频频域特征的对话过程捂嘴手势识别方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102842310A (zh) * | 2012-08-10 | 2012-12-26 | 上海协言科学技术服务有限公司 | 中国民族民间音乐音频修复的音频特征提取及使用的方法 |
-
2015
- 2015-12-02 CN CN201510859814.5A patent/CN105761728A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102842310A (zh) * | 2012-08-10 | 2012-12-26 | 上海协言科学技术服务有限公司 | 中国民族民间音乐音频修复的音频特征提取及使用的方法 |
Non-Patent Citations (1)
Title |
---|
孙科: "中国民族音乐特征提取与分类技术的研究", 《中国优秀硕士学位论文全文数据库 哲学与人文科学辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107945816A (zh) * | 2016-10-13 | 2018-04-20 | 汤姆逊许可公司 | 用于音频帧处理的设备和方法 |
CN106407960A (zh) * | 2016-11-09 | 2017-02-15 | 浙江师范大学 | 基于多特征音乐体载的分类方法及系统 |
CN108877146A (zh) * | 2018-09-03 | 2018-11-23 | 深圳市尼欧科技有限公司 | 一种基于智能语音识别的乘驾安全自动报警装置及其方法 |
CN111444137A (zh) * | 2020-03-26 | 2020-07-24 | 湖南搜云网络科技股份有限公司 | 一种基于特征码的多媒体文件身份识别方法 |
CN111398837A (zh) * | 2020-04-01 | 2020-07-10 | 重庆大学 | 一种基于数据驱动的车用电池健康状态估计方法 |
CN112259124A (zh) * | 2020-10-21 | 2021-01-22 | 交互未来(北京)科技有限公司 | 基于音频频域特征的对话过程捂嘴手势识别方法 |
CN112259124B (zh) * | 2020-10-21 | 2021-06-15 | 交互未来(北京)科技有限公司 | 基于音频频域特征的对话过程捂嘴手势识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105761728A (zh) | 中国典型听觉文化符号特征选择方法 | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
Lostanlen et al. | Deep convolutional networks on the pitch spiral for musical instrument recognition | |
Su | Vocal melody extraction using patch-based CNN | |
CN103177722B (zh) | 一种基于音色相似度的歌曲检索方法 | |
CN103310789B (zh) | 一种基于改进的并行模型组合的声音事件识别方法 | |
Koduri et al. | Rāga recognition based on pitch distribution methods | |
CN110265040A (zh) | 声纹模型的训练方法、装置、存储介质及电子设备 | |
KR20060110988A (ko) | 베이즈법을 적용한 악기신호의 인식 및 장르분류 방법 | |
US8718803B2 (en) | Method for calculating measures of similarity between time signals | |
CN106024010A (zh) | 一种基于共振峰曲线的语音信号动态特征提取方法 | |
Foucard et al. | Multi-scale temporal fusion by boosting for music classification. | |
Sarkar et al. | Raga identification from Hindustani classical music signal using compositional properties | |
KR100766170B1 (ko) | 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법 | |
Pikrakis et al. | Unsupervised singing voice detection using dictionary learning | |
Wang et al. | Revealing the processing history of pitch-shifted voice using CNNs | |
CN110379438A (zh) | 一种语音信号基频检测与提取方法及系统 | |
CN114550675A (zh) | 一种基于CNN--Bi-LSTM网络的钢琴转录方法 | |
CN112259063B (zh) | 一种基于音符瞬态字典和稳态字典的多音高估计方法 | |
Sridhar et al. | Music information retrieval of carnatic songs based on carnatic music singer identification | |
Nurdiyah et al. | Gamelan orchestra transcription using neural network | |
Dharini et al. | CD-HMM Modeling for raga identification | |
CN113742515A (zh) | 一种音频分类方法及系统及设备及存储介质 | |
JP3913626B2 (ja) | 言語モデル生成方法、その装置及びそのプログラム | |
CN104575518B (zh) | 韵律事件检测方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160713 |