CN109036382B - 一种基于kl散度的音频特征提取方法 - Google Patents

一种基于kl散度的音频特征提取方法 Download PDF

Info

Publication number
CN109036382B
CN109036382B CN201810930863.7A CN201810930863A CN109036382B CN 109036382 B CN109036382 B CN 109036382B CN 201810930863 A CN201810930863 A CN 201810930863A CN 109036382 B CN109036382 B CN 109036382B
Authority
CN
China
Prior art keywords
divergence
spectrum
power spectrum
frequency
normalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810930863.7A
Other languages
English (en)
Other versions
CN109036382A (zh
Inventor
杨玉红
张会玉
冯佳倩
胡瑞敏
艾浩军
涂卫平
王晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201810930863.7A priority Critical patent/CN109036382B/zh
Publication of CN109036382A publication Critical patent/CN109036382A/zh
Application granted granted Critical
Publication of CN109036382B publication Critical patent/CN109036382B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于KL散度的音频特征提取方法,包括:按类读取训练集中的音频文件,然后转化成对应的功率谱,计算得到训练集中不同声学场景的类间KL散度矩阵,划分KL滤波器的频率群,设计出KL滤波器;将训练集的功率谱通过KL滤波器,提取出基于类间KL散度的频谱特征;将KL频谱特征取对数并归一化后输入到卷积神经网络进行训练得到声学模型;读取测试集的音频文件,然后转化成对应的功率谱,通过KL滤波器提取出测试集对应的KL频谱特征;将测试集的KL频谱特征输入训练好的声学模型进行测试和评估,得到最终的声场景分类模型准确率。本发明应用到其他声场景分类事件中,可得到比传统的基于人耳的Mel特征提取方法更好的性能。

Description

一种基于KL散度的音频特征提取方法
技术领域
本发明属于声学技术领域,涉及一种音频特征提取方法,尤其涉及一种基于KL散度的声学场景分类的音频特征提取方法。
背景技术
随着互联网和各种移动终端的快速发展,人们日常可以接触到的视频、音频信息呈爆发性增长。声音承载有关于我们日常环境和物理事件的大量信息。近年来,如何高效利用这些数量大且信息量丰富的音频数据,给我们生活提供更加便利的服务成为迫切需要。声场景分类(Acoustic Scene Classification,ASC)的目标就是通过分析语音片段,判别出该语音所发生的场景,例如沙滩,公园,咖啡馆等。ASC是计算机听觉场景分析(Computational Auditory Scene Analysis,CASA)领域的一种特定任务,它的目标是让计算机像人耳一样能够识别音频发生环境,进而达到感知和理解周边环境的目的。ASC的实现主要依靠信号处理技术和机器学习方法达到自动识别音频场景的目的。
正是由于ASC可以感知和理解周边环境,因此目前已将它应用到移动终端和可穿戴设备上给人们提供个性化的定制服务。例如将ASC运用到机械轮椅上,轮椅会根据感知到所处环境在室内还是室外,自动切换两种服务模式;将ASC运用到智能手机设备上,手机会根据感知到使用者所处的环境,将一些设置进行转换,提供更好的用户体验;此外,还将ASC运用到军事刑侦等方面。ASC性能最后的好坏很大程度由训练模型所用数据集的规模以及提取到的特征所决定。
ASC应用前景广泛,2013年起,为了评测现有的环境声音检测方法,电子和电气工程师学会音频和声学信号处理协会(Institute of Electrical and ElectronicsEngineers Audio and Acoustic Signal Process,IEEE AASP)开始举办声学场景和事件的检测与分类挑战赛(Detection and Classification of Acoustic Scenes andEvents,DCASE)。其中的任务一就是ASC。DCASE比赛已经分别于2013年、2016年和2017年举办。在DCASE 2017的声学场景分类比赛的评测结果显示,前五名均采用了CNN模型。基于卷积神经网络(Convolutional Neural Network,CNN)的深度学习方法已经取代传统的基于概率的学习模型成为主流方法。
在ASC任务中,一般的方法是信号处理将音频文件转换成特征,然后进行模式匹配。目前在语音处理方面最为广泛使用的特征是基于梅尔滤波器下采样得到的梅尔谱图(Mel Frequency Spectrogram,MFS)。但梅尔标度是基于人耳的感知特性设计,这种主观测度与声场景模式匹配特性是否契合也是值得研究的问题。
传统的非深度学习的方法提取各种时域和频域特征,提升声场景分类的性能。如2002年,Peltonen等人提取过零率、帧短时平均能量等时域特征,子带能量比、谱中心、相邻帧谱变化测度和梅尔频率倒谱系数(Mel-frequency cepstral coefficient,MFCC)等频域特征,用高斯混合模型(Gaussian Mixture Model,GMM)和K近邻(k-nearest neighbor,KNN)分类器融合进行声场景识别。
目前主流的基于CNN模型的深度学习方法,使用的特征包括基于梅尔测度的特征谱,常数Q变换(constant-Q-transform,CQT)谱图,或者直接用语谱图(Spectrogram)。梅尔测度特征谱包括对数梅尔能量谱(log-mel energies)和梅尔谱MFS,其中对数梅尔能量谱是梅尔谱幅度的平方取对数。在DCASE 2017前5名参赛者中,除了第3名外,均采用了梅尔测度的特征。梅尔测度是基于人耳的感知特性的谱降维方法,通过主观实验确定谱分辨率的大小。人耳低频敏感,谱分辨率高;高频感知相对粗糙,谱分辨率渐次降低。DCASE 2017第3名的参赛者Zheng Weiping等人实现了基于原始语谱图和CQT谱两种输入的CNN分类算法,CQT也是一种谱降维方法,谱分辨率由低频到高频渐次降低。与基于人耳感知特性的梅尔测度不同,CQT在谱降维时,设定频率和谱分辨率的比例为常数。CQT谱声场景分类的性能比原始语谱图低5%,可能因为CQT谱主要针对音乐信号的谐波特性而设计,而大多数声场景信号的谐波特性并不明显,CQT谱可以作为声场景分类算法的补充特征。DCASE2017第1名的参赛者Seongkyu Mun等人实现了基于对数梅尔能量谱和原始语谱图两种输入的CNN分类算法,虽然降维后的梅尔能量谱的谱分辨率降低了6倍,但二者的分类准确率相当。在数据扩充后,对数梅尔能量谱的识别率甚至比原始语谱图高0.5%。由此可见,梅尔测度特征能够比较有效的对原始谱降维。
梅尔测度谱在CNN模型的声场景分类算法中得到普遍应用,但梅尔测度谱是基于人耳感知特性,通过主观实验确定谱分辨率。这种基于感知谱降维提取的特征,很可能并非机器识别声场景分类的关键特征,或者说这种感知谱降维并非为声场景分类量身定制。Lulu等人在DCASE 2017的比赛中提交了基于对数梅尔能量谱和基于声场景类间频域标准差的谱图像特征(Across Scenes Frequency Standard Deviation based SpectrogramImage Feature,ASFSTD-SIF)两种输入的CNN分类算法。ASFSTD-SIF是基于声场景类间标准差的谱降维方法,实际上是基于训练集的统计特性设计的谱降维方法,ASGFSD-SIF在评测集上的识别率比对数梅尔能量谱的方法高3.7%。这种为声场景分类设计的统计特征给本发明开拓了新思路,本发明希望寻找能够更好区分类间差异性的度量方法。
上述ASFSTD的谱降维方法是根据频点数值的类间标准差确定其类间区分的重要性,但标准差对应的是数据集的离散程度,作为类间区分测度存在不足。Solomon Kullback和Richard Leibler在信息论和动力系统里面引入相对熵,即Kullback-Leibler散度(简称KL散度,KL divergence),KL散度是两个概率分布P和Q的一个非对称的度量,是量化两种概率分布差异性的方式。因此本发明拟引入KL散度,度量类间差异性,提出基于类间KL散度的谱降维方法,对声场景语谱图进行降维,提取基于KL散度的特征谱,以期更好的区分类间差异性,提升声场景分类的性能。
发明内容
本发明针对数据集的特点,充分挖掘实验数据集中的不同类别数据之间的差异性信息,提出了基于KL散度的音频特征提取方法,使得提取的KL散度统计特征比传统的Mel谱特征更加适用于场景分类问题。
本发明所采用的技术方案是:一种基于KL散度的音频特征提取方法,其特征在于,包括以下步骤:
步骤1:读取训练集中原始的音频文件,得到计算机能够处理的时域音频信号数据;
步骤2:将步骤1得到的时域音频信号数据进行预处理;
步骤3:对预处理后的时域音频信号转变为频域信号;
步骤4:计算频域信号的功率谱;
步骤5:将功率谱取对数,并将对数功率谱进行归一化处理,以此得到归一化对数功率谱;
步骤6:利用步骤5得到的归一化对数功率谱设计KL滤波器;
步骤7:将步骤4得到的功率谱通过KL滤波器,得到KL谱特征;
步骤8:对步骤7中求出来的KL谱特征取对数并归一化,得到归一化对数KL谱特征;
步骤9:将步骤8中得到的归一化对数KL谱特征作为网络模型的输入,训练网络模型,验证评估结果;
步骤10:对测试集也进行步骤1~4的操作,然后将步骤4得到的功率谱通过步骤6设计出来的KL滤波器,提取到测试集对应的KL谱特征;
步骤11:将提取的测试集的KL谱特征归一化之后,输入到步骤9训练好的网络模型进行评估,得到在该数据集下的ASC分类结果。
本发明方法充分挖掘了数据集中不同声学场景分布之间差异性信息,提取出基于KL散度的音频特征,相比传统的基于人耳的Mel特征能更有效地表征音频信号,更适用于音频场景分类问题。
附图说明
图1是本发明实施例的音频信号预处理模块框图;
图2是本发明实施例的基于KL散度滤波器组的总体设计框图;
图3是本发明实施例的场景S1的频点矩阵Ai的计算过程示意图;
图4是本发明实施例的基于类间KL散度的频谱特征的提取过程框图;
图5是本发明实施例的CNN网络结构和参数配置示意图;
图6是本发明实施例的训练和验证网络模型使用的四则交叉验证示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明提供的方法能够用计算机软件技术实现流程,实施例以数据集DCASE2017为例对本发明的流程进行一个具体的阐述。在DCASE2017的训练集中,一共有15类声学场景,每一类场景有312段音频文件,每一段音频文件持续时间为10秒,采样率为44.1kHz。
本发明提供的一种基于KL散度的音频特征提取方法,具体实施步骤如下:
步骤1:按场景类别读取训练集中的音频文件,将音频文件转换成计算机能够处理的时域数据x(n);
步骤2:对读取的时域音频信号进行预处理。
针对步骤2,本实施例可以采用以下步骤实现:
步骤2A.1:预加重;预加重处理即将时域音频信号通过一个高通滤波器:
H(z)=1-μz-1,本发明取μ=0.95;
其中,μ是常数,表示预加重因子,通常取0.95或0.98。
步骤2A.2:分帧;利用语音信号的短时不变性,将一段10s的语音信号分成一帧一帧的数据进行处理。本发明取帧长为40ms,帧叠为20ms。
步骤2A.3:加窗,即对每一帧语音乘以汉明窗或海宁窗;对分帧后的信号进行加窗处理,以保证分帧后信号的连续性。本发明的窗函数选用海明窗,海明窗公式如下:
Figure BDA0001766579720000051
其中,n表示离散信号中的抽样点,N表示快速傅里叶变换的点数,本发明设置N=2048。
针对步骤2,本实施例也可以采用以下步骤实现:
步骤2B.1:将时域音频信号进行分帧处理得到xi(m),其中下标i表示分帧后的第i帧;
步骤2B.2:将分帧后的信号进行加窗处理,即对每一帧语音乘以汉明窗或海宁窗。
步骤3:对预处理后的时域音频信号转变为频域信号;
本实施例可以通过快速傅里叶变换(DFT)、常数Q变换(CQT)或离散余弦变换(DCT)将时域音频信号转换为频域信号。
其中,对预处理后的信号进行快速傅里叶变换,变换公式如下:
Figure BDA0001766579720000052
步骤4:计算频域信号的功率谱;
本实施例计算经过DFT后的频域信号取模、平方,得到对应的功率谱|X(k)|2
经过步骤1~4的处理后,每一类音频文件转化成对应的功率谱。功率谱大小为1025行*501列的矩阵。行数表示时频变换的点数,列数表示分帧后的总帧数。因此每一类场景对应312个大小为1025×501的功率谱矩阵;参见图1。
步骤5:将功率谱取对数,并将对数功率谱进行归一化处理,以此得到归一化对数功率谱;
本实施例对数功率谱进行归一化处理,采用的是z-score标准化,使功率谱中的数据服从均值为0,标准差为1的正态分布。
对数功率谱进行归一化处理,还可以采用的是min-max标准化、z-score标准化、log函数转换或atan函数转换。
步骤6:利用步骤5得到的归一化对数功率谱设计KL滤波器;其中KL滤波器组的总体设计概括图参见图2。
其具体实现包含以下子步骤:
步骤6.1:计算频点矩阵;
以场景S1为例,说明频点矩阵的计算过程,参见图3。
将每个归一化对数功率谱矩阵的相同行ri k拼接到一起得到
Figure BDA0001766579720000063
Figure BDA0001766579720000061
Figure BDA0001766579720000064
是一个大小为501*312的一维数组;ri k是一个大小为1*501的一维数组;ri k表示第k个归一化对数功率谱矩阵的第i行,本发明将ri k称之为“能量向量”;因此
Figure BDA0001766579720000065
表示场景S1的312段音频文件在第i个频点的“能量向量”的集合;
将在同一频点处的“能量向量”的集合拼接到一起得到频点矩阵Ai,如下式所示:(在本实施例中,N=15,L=1025)
Figure BDA0001766579720000062
步骤6.2:在频点矩阵的基础上计算类间KL矩阵;
对于离散的概率分布P和Q,KL散度定义为:
Figure BDA0001766579720000071
对于形如DKL(P||Q)的KL散度而言,其中P为真实分布,Q为近似分布,DKL(P||Q)的取值越大,说明真实分布P与近似分布Q差异性越大;反之,DKL(P||Q)的取值越小,说明真实分布P与近似分布Q差异性越小。
这是描述两个概率分布P和Q差异的一种非对称方法,即:DKL(P||Q)≠DKL(Q||P)。在实际应用中定义两个概率分布P和Q的KL散度J(P,Q)为:
Figure BDA0001766579720000076
对Ai矩阵的每一行进行概率分布统计,得到每一个频点处某一类场景与其他类场景的数值概率分布情况,具体公式如下式:(在本案例中,N=15,L=1025)
Figure BDA0001766579720000072
...
Figure BDA0001766579720000073
...
Figure BDA0001766579720000074
其中
Figure BDA0001766579720000077
表示第n类场景的归一化对数功率谱在频点i处的概率分布;
Figure BDA0001766579720000078
表示其他N-1类场景的归一化对数功率谱在频点i处的概率分布;
接着利用矩阵
Figure BDA0001766579720000075
和上述KL散度公式,计算得到在频点i处,某一类场景n和其他类场景
Figure BDA0001766579720000079
的散度di,n,从而得到N类场景在L个频点下对应的KL散度矩阵,如下式:
Figure BDA0001766579720000081
其中i=0,1,...,L-1;n=1,2,...,N。
到此为止,N类音频场景在L个频点处的类间KL散度计算完成;
步骤6.3:在类间KL矩阵的基础上划分KL滤波器组的频率群;
对于每个音频场景而言,类间KL矩阵JL×N中的散度值表示该类与其他类的差异信息。因此N个类,在单个频点中存在N个差异信息。本发明取N个KL散度值的平均值以获得每个频点的平均差异性度量:
Figure BDA0001766579720000082
为了得到M个有交叠的KL散度滤波器组,滤波器带宽间隔为[f(m-1),f(m+1)](m=1,…,M),f(m)为滤波器的中心频率,M表示KL滤波器中三角滤波器个数。
f(m)的计算公式如下:
Figure BDA0001766579720000083
将上述方法确定的区间[f(m-1),f(m)]的端点作为划分频段的端点值,从而得到基于KL散度划分的频率群:
kl_scale=[f(0),f(1),...,f(m),...,f(M+1)],m=0…M+1;
其中f(0)=0,f(M+1)=L-1;
步骤6.4:按照Mel刻度滤波器组Hm(k)创建KL散度滤波器组,如下式:
Figure BDA0001766579720000091
其中,1≤m≤M,M为滤波器的个数;每个滤波器具有三角形滤波特性,其中心频率为f(m);0≤k≤L-1,L表示时频变换的点数;其中
Figure BDA0001766579720000092
N表示快速傅里叶变换的点数,例如对于N=2048点的快速傅里叶变换,其时频变换的点数为1025。
步骤7:将步骤4得到的功率谱通过KL滤波器,得到KL谱特征。
步骤8:对步骤7中求出来的KL谱特征取对数并归一化,得到归一化对数KL谱特征,参见图4;
步骤9:将步骤8中得到的归一化对数KL谱特征作为网络模型的输入,训练网络模型,验证评估结果;
本实施例的网络模型采用的是卷积神经网络(CNN),模型评估方法采用的是四则交叉验证。
网络模型还可以采用卷积神经网络CNN、多层感知机MLP、循环神经网络RNN、LSTM、残差网络ResNet、支持向量机SVM中一种或者多种组合模型。
本实施例中,将步骤8中得到的归一化对数KL谱特征作为卷积神经网络(CNN)的输入,训练CNN模型,四则交叉验证的评估结果。CNN模型及参数配置参见图5;四则交叉验证原理参见图6;
步骤10:对DCASE2017的测试集也进行步骤1~4的操作,然后将步骤4得到的功率谱通过步骤6设计出来的KL滤波器,提取到测试集对应的KL谱特征
步骤11:将提取的测试集的KL谱特征归一化之后,输入到步骤9训练好的CNN模型进行评估,得到在该实施例数据集下的ASC分类结果。
以上步骤1-11是在DCASE2017数据上实施的具体步骤,类似的可以在其他ASC数据集上进行相关实验。
本发明利用数据集中不同类别之间的差异性信息,通过在3个音频数据集上进行评估实验,分别提取了本发明提出的基于KL散度的频谱特征和传统的基于人耳的Mel谱特征,并比较两者在相应的四则交叉验证的准确率和测试集的准确率,其中,3个数据集的场景类别如表1所示;对应的实验结果如表2所示:
表1 3个数据集的场景类别说明
Figure BDA0001766579720000101
表2 KL谱特征和Mel谱特征的四则交叉验证结果和评测结果
Figure BDA0001766579720000102
从表中可以看出,3个不同的数据集,使用KL特征的四则交叉验证的平均准确率和测试准确率都比使用MFS特征的准确率高;其中,在DCASE2017数据集中,使用KL特征的测试准确率比MFS特征的测试准确率提高了2.2%;在DCASE2016中提高3.1%;在LITIS Rouen中提高1.7%;不同的数据集提高的程度不一样,这与数据集中数据本身的分布也有关。由实验结果可以证明,基于类间KL散度的特征提取方法确实能够利用数据集中数据之间的差异性,使用该方法提取出来的音频特征能够在特征提取这一模块提升ASC的分类性能。
可以证明,在相同网络模型的条件下,使用KL特征能够进一步提高ASC的分类准确率。
本发明主要基于卷积神经网络,考虑数据集中不同类别数据的差异性,提出的一种基于KL散度的音频特征提取方法。本发明充分挖掘了数据间的差异信息,并与传统的Mel谱特征进行对比实验。实验结果证明,通过本发明提出的音频特征提取算法能够更适用于音频场景分类问题,获得更高的准确率。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (8)

1.一种基于KL散度的音频特征提取方法,其特征在于,包括以下步骤:
步骤1:读取训练集中原始的音频文件,得到计算机能够处理的时域音频信号数据;
步骤2:将步骤1得到的时域音频信号数据进行预处理;
步骤3:对预处理后的时域音频信号转变为频域信号;
步骤4:计算频域信号的功率谱;
步骤5:将功率谱取对数,并将对数功率谱进行归一化处理,以此得到归一化对数功率谱;
步骤6:利用步骤5得到的归一化对数功率谱设计KL滤波器;
步骤6的具体实现包括以下子步骤:
步骤6.1:经过步骤1~5,每一类音频文件转换成相对应的归一化对数功率谱;由归一化对数功率谱计算得到每一类场景相对应的场景矩阵;
步骤6.2:在场景矩阵的基础上计算类间KL矩阵;
定义两个概率分布P和Q的KL散度J(P,Q)为:
Figure FDA0002449329670000011
其中,对于离散的概率分布P和Q,DKL(P||Q)定义为:
Figure FDA0002449329670000012
对于形如DKL(P||Q)的KL散度而言,其中P为真实分布,Q为近似分布,DKL(P||Q)的取值越大,说明真实分布P与近似分布Q差异性越大;反之,DKL(P||Q)的取值越小,说明真实分布P与近似分布Q差异性越小;
对场景矩阵Ai的每一行进行概率分布统计,得到每一个频点处某一类场景与其他类场景的数值概率分布情况,具体公式如下式:
Figure FDA0002449329670000021
...
Figure FDA0002449329670000022
...
Figure FDA0002449329670000023
其中
Figure FDA0002449329670000024
表示第n类场景的归一化对数功率谱在频点i处的概率分布;
Figure FDA0002449329670000025
表示其他N-1类场景的归一化对数功率谱在频点i处的概率分布;
接着利用矩阵
Figure FDA0002449329670000026
和上述KL散度公式,计算得到在频点i处,某一类场景n和其他类场景
Figure FDA0002449329670000029
的散度di,n,从而得到N类场景在L个频点下对应的KL散度矩阵,如下式:
Figure FDA0002449329670000027
其中i=0,1,...,L-1;n=1,2,...,N;
到此为止,N类音频场景在L个频点处的类间KL散度计算完成;
步骤6.3:在类间KL矩阵的基础上划分KL滤波器组的频率群;
步骤6.4:按照Mel刻度滤波器组的公式创建KL散度滤波器组;其中Mel滤波器中每个带通滤波器的传递函数Hm(k)为:
Figure FDA0002449329670000028
其中,1≤m≤M,M为滤波器的个数;每个滤波器具有三角形滤波特性,其中心频率为f(m);0≤k≤L-1,L表示时频变换的点数;其中
Figure FDA0002449329670000031
N表示快速傅里叶变换的点数;
步骤7:将步骤4得到的功率谱通过KL滤波器,得到KL谱特征;
步骤8:对步骤7中求出来的KL谱特征取对数并归一化,得到归一化对数KL谱特征;
步骤9:将步骤8中得到的归一化对数KL谱特征作为网络模型的输入,训练网络模型,验证评估结果;
步骤10:对测试集也进行步骤1~4的操作,然后将步骤4得到的功率谱通过步骤6设计出来的KL滤波器,提取到测试集对应的KL谱特征;
步骤11:将提取的测试集的KL谱特征归一化之后,输入到步骤9训练好的网络模型进行评估,得到在该数据集下的ASC分类结果。
2.根据权利要求1所述的基于KL散度的音频特征提取方法,其特征在于,步骤2的具体实现包括以下子步骤:
步骤2A.1:将时域音频信号数据x(n)通过一个高通滤波器H(z)=1-μz-1进行预加重处理;其中,μ是常数,表示预加重因子;
步骤2A.2:将预加重后的信号进行分帧处理得到xi(m),其中下标i表示分帧后的第i帧;
步骤2A.3:将分帧后的信号进行加窗处理。
3.根据权利要求1所述的基于KL散度的音频特征提取方法,其特征在于,步骤2的具体实现包括以下子步骤:
步骤2B.1:将时域音频信号进行分帧处理得到xi(m),其中下标i表示分帧后的第i帧;
步骤2B.2:将分帧后的信号进行加窗处理,即对每一帧语音乘以汉明窗或海宁窗。
4.根据权利要求1所述的基于KL散度的音频特征提取方法,其特征在于:步骤3中,通过快速傅里叶变换DFT、常数Q变换CQT或离散余弦变换DCT将时域音频信号转换为频域信号。
5.根据权利要求1所述的基于KL散度的音频特征提取方法,其特征在于:步骤4中,计算经过时频变换后的频域信号取模、平方,得到对应的功率谱。
6.根据权利要求1所述的基于KL散度的音频特征提取方法,其特征在于:步骤5中,对数功率谱进行归一化处理,采用的是min-max标准化、z-score标准化、log函数转换或atan函数转换。
7.根据权利要求1所述的基于KL散度的音频特征提取方法,其特征在于:步骤9中,所述网络模型采用的是卷积神经网络CNN、多层感知机MLP、循环神经网络RNN、LSTM、残差网络ResNet、支持向量机SVM中一种或者多种组合模型。
8.根据权利要求1-7任意一项所述的基于KL散度的音频特征提取方法,其特征在于:步骤9中,使用交叉验证的评估方法。
CN201810930863.7A 2018-08-15 2018-08-15 一种基于kl散度的音频特征提取方法 Active CN109036382B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810930863.7A CN109036382B (zh) 2018-08-15 2018-08-15 一种基于kl散度的音频特征提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810930863.7A CN109036382B (zh) 2018-08-15 2018-08-15 一种基于kl散度的音频特征提取方法

Publications (2)

Publication Number Publication Date
CN109036382A CN109036382A (zh) 2018-12-18
CN109036382B true CN109036382B (zh) 2020-06-09

Family

ID=64631430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810930863.7A Active CN109036382B (zh) 2018-08-15 2018-08-15 一种基于kl散度的音频特征提取方法

Country Status (1)

Country Link
CN (1) CN109036382B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903749B (zh) * 2019-02-26 2021-04-02 天津大学 基于关键点编码和卷积神经网络进行鲁棒的声音识别方法
CN109767785A (zh) * 2019-03-06 2019-05-17 河北工业大学 基于卷积神经网络的环境噪声识别分类方法
CN110570853A (zh) * 2019-08-12 2019-12-13 阿里巴巴集团控股有限公司 基于语音数据的意图识别方法和装置
CN110598762A (zh) * 2019-08-26 2019-12-20 Oppo广东移动通信有限公司 基于音频的出行方式检测方法、装置以及移动终端
CN110853457B (zh) * 2019-10-31 2021-09-21 中科南京人工智能创新研究院 可互动的音乐教学指导方法
CN112951253A (zh) * 2019-11-24 2021-06-11 华南理工大学 一种基于Cycle-GAN的音频风格转换方法及系统
CN111179691A (zh) * 2019-12-31 2020-05-19 苏州缪斯谈谈科技有限公司 一种音符时长显示方法、装置、电子设备及存储介质
CN111477250B (zh) * 2020-04-07 2023-11-28 北京达佳互联信息技术有限公司 音频场景识别方法、音频场景识别模型的训练方法和装置
CN111789577B (zh) * 2020-07-15 2023-09-19 天津大学 基于cqt和stft深度语谱特征鼾声分类方法及系统
CN112362967A (zh) * 2020-10-25 2021-02-12 广东石油化工学院 一种利用kl散度的功率信号滤波方法和系统
CN113077434B (zh) * 2021-03-30 2023-01-24 零氪智慧医疗科技(天津)有限公司 基于多模态信息的肺癌识别方法、装置及存储介质
CN113889077A (zh) * 2021-09-22 2022-01-04 武汉普惠海洋光电技术有限公司 声音识别方法、装置、电子设备及存储介质
CN114598565A (zh) * 2022-05-10 2022-06-07 深圳市发掘科技有限公司 一种厨电设备远程控制系统、方法及计算机设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5006929B2 (ja) * 2006-07-03 2012-08-22 インテル・コーポレーション 高速音声検索の方法および装置
CN103165127B (zh) * 2011-12-15 2015-07-22 佳能株式会社 声音分段设备和方法以及声音检测系统
KR101394253B1 (ko) * 2012-05-16 2014-05-13 광주과학기술원 음성 인식 오류 보정 장치
CN107393554B (zh) * 2017-06-20 2020-07-10 武汉大学 一种声场景分类中融合类间标准差的特征提取方法
CN108182949A (zh) * 2017-12-11 2018-06-19 华南理工大学 一种基于深度变换特征的高速公路异常音频事件分类方法
CN108305616B (zh) * 2018-01-16 2021-03-16 国家计算机网络与信息安全管理中心 一种基于长短时特征提取的音频场景识别方法及装置

Also Published As

Publication number Publication date
CN109036382A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109036382B (zh) 一种基于kl散度的音频特征提取方法
CN110400579B (zh) 基于方向自注意力机制和双向长短时网络的语音情感识别
Agrawal et al. Novel TEO-based Gammatone features for environmental sound classification
Dhanalakshmi et al. Classification of audio signals using AANN and GMM
CN107393554B (zh) 一种声场景分类中融合类间标准差的特征提取方法
Tiwari MFCC and its applications in speaker recognition
Harb et al. Gender identification using a general audio classifier
CN110033756B (zh) 语种识别方法、装置、电子设备及存储介质
Mesgarani et al. Speech discrimination based on multiscale spectro-temporal modulations
CN110120230B (zh) 一种声学事件检测方法及装置
Rammo et al. Detecting the speaker language using CNN deep learning algorithm
Murugappan et al. DWT and MFCC based human emotional speech classification using LDA
Hsu et al. Local wavelet acoustic pattern: A novel time–frequency descriptor for birdsong recognition
Li et al. A comparative study on physical and perceptual features for deepfake audio detection
Dhanalakshmi et al. Pattern classification models for classifying and indexing audio signals
Rudresh et al. Performance analysis of speech digit recognition using cepstrum and vector quantization
Wu et al. Improving Deep CNN Architectures with Variable-Length Training Samples for Text-Independent Speaker Verification.
Zhang et al. Depthwise separable convolutions for short utterance speaker identification
Zhang et al. Fault diagnosis method based on MFCC fusion and SVM
Khanna et al. Application of vector quantization in emotion recognition from human speech
CN112992155B (zh) 一种基于残差神经网络的远场语音说话人识别方法及装置
CN111785262B (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
Hanifa et al. Comparative Analysis on Different Cepstral Features for Speaker Identification Recognition
Huang et al. Audio-replay Attacks Spoofing Detection for Automatic Speaker Verification System
Xu et al. Voiceprint recognition of Parkinson patients based on deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant