CN102799899B - 基于svm和gmm的特定音频事件分层泛化识别方法 - Google Patents

基于svm和gmm的特定音频事件分层泛化识别方法 Download PDF

Info

Publication number
CN102799899B
CN102799899B CN201210226349.8A CN201210226349A CN102799899B CN 102799899 B CN102799899 B CN 102799899B CN 201210226349 A CN201210226349 A CN 201210226349A CN 102799899 B CN102799899 B CN 102799899B
Authority
CN
China
Prior art keywords
audio
gmm
audio event
event
svm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210226349.8A
Other languages
English (en)
Other versions
CN102799899A (zh
Inventor
罗森林
王坤
潘丽敏
谢尔曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201210226349.8A priority Critical patent/CN102799899B/zh
Publication of CN102799899A publication Critical patent/CN102799899A/zh
Application granted granted Critical
Publication of CN102799899B publication Critical patent/CN102799899B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种融合支持向量机(SVM)和高斯混合模型(GMM)的特定音频事件分层泛化识别方法,属于计算机与音频事件识别技术领域。本方法首先获得训练样本的音频特征向量文件,然后分别使用GMM方法和SVM方法对大量种类繁多的训练样本的音频特征向量文件进行模型训练,得到具有泛化能力的GMM模型和SVM分类器,完成离线训练。最后使用GMM模型和SVM分类器对待识别音频特征向量文件进行分层识别,经由一定的结果融合判决策略,得到每一个音频片段的类别标签属性。本方法解决了现有特定音频事件识别中对连续音频流识别效率低、持续时间特别短的音频事件漏检概率高等问题,可应用于特定音频检索和基于内容的网络音频监管。

Description

基于SVM和GMM的特定音频事件分层泛化识别方法
技术领域
本发明涉及一种融合支持向量机(SVM)和高斯混合模型(GMM)的特定音频事件分层泛化识别方法,属于计算机与音频事件识别技术领域。
背景技术
特定音频事件是用户指定的具有某种特定语义或内容的一个音频片段。
随着计算机和网络技术迅速发展,音视频文件以及流媒体数据量迅速膨胀,从海量音频信息中迅速准确地发现或识别出所需要的特定音频事件变得越来越重要。由于交通监控、敏感区域安全监测等应用的迫切需求,特定音频事件识别技术近年来得到了广泛的研究。
特定音频事件识别技术就是基于音频数据的内容,将音频流中的特定音频事件识别出来,在音频信息处理研究领域中,特定音频事件识别也被称为音频事件检测(Audio Event Detection)、音频事件识别(Audio EventRecognition)、音频分类(Audio Classification)等。特定音频事件通常包括多种子类音频事件(例如枪声包括机关枪声、手枪声、步枪声等),且子类之间具有较大的差异。泛化识别就是在加强大类之间区分度的同时降低子类差异敏感度,提取子类的共性特征达到泛化的目标,使用尽可能少的子类模板去适应尽可能大的类内差异。
基于内容的音频分析研究可以划分为4个层次:数据层、特征层、类别层、语义层。特定音频事件识别又被称为音频事件识别、音频分类等,属于上述4层划分的类别层。在研究工作中,人们也在特征层对特征提取、特征筛选与组合、特征向量生成等技术开展研究。
近年来,特定音频事件识别的相关研究主要集中在音频特征提取和分类器设计两个方面。音频特征提取技术是音频类型识别的基础,它从音频波形中提取出特征向量用于后一阶段的识别(或分类);分类器设计的目标是为特定音频事件识别寻找或设计分类算法,提高识别准确率、减少识别耗时,并研究算法参数对识别性能的影响。
1.在特征提取方面:
在音频特征提取方面,早期的音频特征包括:短时能量、静音率、过零率、和谐度、基频、频谱、谱中心、子带能量;后来又引入了线性预测系数、Mel倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)等多种感知及倒谱域特征;近年来,一些新的音频特征和特征筛选算法也陆续被提出。
(1)简单音频特征:由于特定音频事件识别技术发源于信号处理、语音识别等相关理论,因此诸如短时能量、过零率、子带能量等简单特征,被广泛应用于特定语音识别研究。
(2)倒谱及感知特征:在语音处理领域中,LPC、LPCC、LFCC、MFCC等特征得到了越来越多的应用,研究者将这些特征引入特定类型音频事件识别领域,取得了较好的识别效果。
(3)统计特征及新的底层特征:在特定音频事件识别领域中,研究者对上述两大类底层特征进行统计;或使用音频压缩域特征,使音频特征向量更具代表性,例如MPEG7特征、频谱直方图等。同时,新的底层特征也不断被提出。
此外,更早的一些研究还包括直方图、梯度直方图、基于分段仿射变换的表情特征点运动特征等。对于维度较大的特征类型,还常常涉及到降维处理,常见的特征降维处理方法有:聚类线性鉴别分析方法、主成分分析法等。
总之,在底层音频特征的提取研究上,经历了“能量、过零率等简单特征——LPC、LPCC、MFCC等频域及倒谱特征——MPEG7、频谱直方图等底层特征及其统计、描述”的发展过程。对于某大类的特定音频事件,其中的子类一般具有较大的差异性(例如枪声包括机关枪声、手枪声、连续枪声等子类,各子类样本间有着较大的差异),如何有针对性地选择特征,采用更好的特征向量构造方法,使其具有较强的大类之间区分度和较小的子类差异敏感度,是特定音频事件识别研究下一步需要解决的问题。
2.在音频分类器设计方面:
在分类器设计研究方面,目前的研究主要包括:支持向量机(SupportVector Machine,SVM)、基于高斯混合模型(Gaussian Mixture Model,GMM)等。
其中,基于支持向量机的分类器:SVM是建立在统计学习理论的VC维理论和结构风险最小化原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力。SVM算法在训练时,需要对核函数参数不断进行调整以进行优化,因此训练过程往往比较复杂,这是该算法使用中的重要不足;另外,SVM算法是一种两分类算法,对于多种类别的识别,需要对算法做进一步的改进。该方法是目前特定音频事件识别领域的研究热点。
基于高斯混合模型的分类器:GMM是一种经典的说话人识别算法,在特定音频事件识别领域也取得了较好的识别效果。
随着机器学习和模式识别研究的不断深入,相关理论和技术逐渐被引入特定音频事件识别领域,在基于分类算法的研究中,SVM、GMM等技术已经成功地应用,但对于特定音频事件识别这一应用场景,现有的特征提取方法存在特征代表性有限、精度及提取速度不够高等不足;同时,现有的音频分类方法也在存在识别精度不理想、复杂度过高、可识别的音频类别数量受限、识别速度低等局限,并且国内外研究大都以音频样例片段作为识别对象,采用MFCC和能量等基本音频特征和GMM、SVM等分类算法,针对特定音频事件片段识别,取得了一定的识别效果,而以连续音频流为识别对象进行识别时,其识别性能明显低于对单纯音频片段的识别性能。如何提高分类算法的识别性能、如何在音频流中更加精准地标记出特定类型音频事件的起止点,都是实用中需要解决的问题。
发明内容
本发明的目的是为解决连续音频事件流中音频事件识别准确率低、持续时间短的音频事件片段漏检率高、音频事件识别速度较慢的问题,提出一种融合SVM和GMM的特定音频事件分层泛化识别方法,通过使用MFCC等音频特征组合,并融合SVM分类器和GMM模型实现特定音频事件分层泛化高精度、快速识别。
本发明的技术方案是通过如下步骤实现的:
步骤1,获得训练样本的音频特征向量文件。所述训练样本根据音频事件种类的不同,分别标记为不同的类别标签。每类训练样本为多个相同类型音频事件原始信号的集合,并且不同训练样本之间没有交叠或者重合。具体方法为:
步骤1.1,对输入的每一个训练样本分别作预处理。首先对训练样本中的每个原始音频信号作预加重处理,减少尖锐噪音影响,提升高频信号,然后针对音频数据添加窗函数形成音频帧,设置一定的帧移,完成音频分段,最后去除静音帧。
预处理减少了音频信号的干扰与音频处理的运算量,利于提取有效音频文件,提高系统的运算性能与识别效率。
步骤1.2,提取预处理后的训练样本的多种音频特征,对多种音频特征形成的各种特征组合进行筛选,获得最有效的表征音频特征属性的参数,形成训练样本的音频特征向量文件。
所述的多种音频特征包括:MFCC及其差分、短时能量、短时过零率和基音频率。
步骤2,分别使用GMM方法和SVM方法对步骤1得到的音频特征向量文件进行训练。通过对大量种类繁多的训练样本的音频特征向量文件进行模型训练,最终得到具有泛化能力的GMM模型和SVM分类器,用于区分音频事件流中的特定音频事件。完成离线训练。
本发明方法中采用“一对余”的分类识别策略,即针对一类音频事件建立一组GMM模型和SVM分类器,将该类型作为正类别,其余类型作为负类别,并行采用多组GMM模型和SVM分类器可实现多类型音频事件识别。
针对某一类型音频事件,建立GMM模型和SVM分类器的具体方法为:
步骤2.1,对步骤1得到的所有训练样本的音频特征向量文件,使用最大似然估计通过最大期望算法(Expectation-Maximization algorithm,EM算法)计算,得到该类型音频事件的高斯混合模型(GMM)。
高斯混合模型λ由各混合分量的均值矢量、协方差矩阵以及混合权重来描述。
λ={ωk,μk,Σk}(k=1,2,……,K)
其概率密度函数表示为:
P ( x ) = Σ k = 1 K p ( k ) p ( x | k )
= Σ k = 1 K ω k N ( x | μ k , Σ k )
式中,K是高斯混合模型中高斯分布的数量;x是d维数据矢量;ωk是第k个高斯分布的混合权重(即先验概率);并且满足N(x|μkk)是均值矢量为μk,协方差矩阵为Σk的高斯密度函数。为完成高斯混合模型的建模,需要确定ωk、μk、Σk三个参数,使得最大,其中N代表N个训练样本。
本发明的高斯混合模型建模过程转化为求最大似然函数:
Σ i = 1 N log { Σ k = 1 K ω k N ( x | μ k , Σ k ) }
首先根据所有训练样本的音频特征向量文件,使用K均值聚类的方法得到ωk、μk、Σk的初始值,最后由EM算法通过迭代为正负类别音频事件分别确定一组ωk、μk、Σk。优化调整GMM模型中ωk、μk、Σk,使得最大似然函数的值满足音频识别要求的阈值,得到一组ωk、μk、Σk,完成GMM建模过程。
步骤2.2,对步骤1得到训练样本的音频特征向量文件,使用二次型寻优方法,将在低维向量空间中线性不可分的训练样本映射到高维的特征空间,在高维空间中使用径向基核函数实现原低维向量空间中的非线性判决函数,最终得到SVM分类器为:
f ( x ) = Σ i = 1 n y i α i K ( x * x i ) + b *
其中,n是特征向量的维数,αi=(α1,α2,......,αn)是拉格朗日乘子,b*是最优超平面的偏移量,yi是类别标签值。K(x*xi)是对应的内积核函数,在训练样本为线性可分情况下,K(x*xi)取x*xi
步骤3,利用步骤2离线训练得到的GMM模型和SVM分类器,对待测音频事件流进行在线识别与融合判决,输出最终的识别结果。
步骤3.1,首先对待识别音频事件流文件进行预处理,完成待识别音频事件流文件的分帧与分段,接着进行音频特征提取;待识别音频事件流提取的音频特征参数类别与步骤1.2中训练样本的音频特征参数类别相同,最后形成待识别音频事件流的音频特征向量文件;所述音频特征向量文件包含多个音频特征片段。
步骤3.2,使用步骤2离线训练得到的GMM模型和SVM分类器对步骤3.1得到的音频特征向量文件进行分层识别,经由一定的结果融合判决策略,得到每一个音频片段的类别标签属性。其具体识别过程为:
步骤3.2.1,对于待识别的音频片段的特征向量序列O={O1,O2,......,OT},该音频片段为第l个音频事件的后验概率为:
p ( λ l | o ) = p ( o | λ l ) p ( λ l ) p ( o )
= p ( o | λ l ) p ( λ l ) Σ l = 1 N p ( o | λ l ) p ( λ l )
其中:p(λl)为第l个音频事件的先验概率;p(o)为所有音频事件条件下特征矢量集o的概率;p(o|λl)为第l个音频事件产生的特征矢量集o的条件概率。对于正类别音频事件,类别标签l=1;对于负类别音频事件,l=2。
识别结果由最大后验概率给出,即
n * = arg max l = 1,2 p ( λ l | o )
式中,n*表示识别判决结果。由于每个音频事件的先验概率相等,此外,p(o)也相等。则识别结果等式可化为:
n * = arg max l = 1,2 p ( o | λ l )
这样,最大后验概率准则就转化为对数似然函数:
L(o|λl)=log p(o|λl)l=1,2
GMM模型识别的任务就是由如下判决公式计算:
n * = arg max l = 1,2 Σ k = 1 K log p ( o k | λ l )
其中:p(okl)为第l个音频事件产生的特征矢量集ok的条件概率。
系统按照以上步骤3.2.1的过程对每一段的特征向量得到的对数累加,使得最大的类别标签就是最后识别结果,最后输出GMM模型识别的类别标签属性结果;
步骤3.2.2,将步骤3.1得到的待识别音频事件流的音频特征文件输入到步骤2.2训练获得的SVM分类器中进行识别,对每一段的特征向量计算步骤2.2中的f(x),根据f(x)的正负符号判决特征向量的类别属性,正数对应正类型,0和负数对应负类型;最后输出SVM分类器的识别的类别标签属性结果;
步骤3.2.3,结合步骤3.2.1和步骤3.2.2得到的正负类别标签属性结果,进行融合判决,融合判决策略为:当GMM模型和SVM分类器识别的类别标签属性结果一致,则以此类别标签作为识别结果输出;当GMM模型和SVM分类器识别的类别标签属性结果不一致,则输出负类别。
步骤3.3,在步骤3.2.3得到的融合后的识别结果的基础上,对音频事件类别结果序列进行平滑,去除识别结果序列当中的毛刺判决,得到最终识别结果并输出。
有益效果
本发明方法通过融合GMM和SVM,以达到较高的准确率和召回率,并且解决了现有特定音频事件识别中对连续音频流识别效率低、持续时间特别短的音频事件漏检概率高等问题。
与基于MFCC特征的机器学习方法以及传统的典型相关分析法、基于模板匹配和相似性度量的方法相比,本发明综合GMM的较好的概率统计分布描述能力和SVM的较好推广泛化能力,用于识别连续音频事件流中用户所需要的具有某种特定语义或内容的音频(如枪声,汽车声等等),达到优势互补,弥补单个分类器对音频事件识别准确率较低的缺陷,最终实现对音频事件流中特定音频事件的分层泛化的高准确率、快速识别。
特定音频事件的分层泛化识别方法可针对音频内容中的不安全因素进行识别和过滤,并可以直接应用于特定音频检索和基于内容的网络音频监管。
附图说明
图1为本发明基于GMM和SVM的特定音频事件分层识别方法原理图;
图2为具体实施方式中音频帧和音频片段的关系图;
图3为具体实施方式中结果融合决策树;
图4为具体实施方式中检出准则示意图;
图5为具体实施方式中SVM参数选取实验结果;
图6为具体实施方式中实验结果分析对比。
具体实施方式
为了更好的说明本发明的目的、技术方案和优点,下面结合附图和实施例对本发明方法做进一步详细说明。
本发明是一种基于模型的特定音频事件检测方法,该方法首先对每个原始音频信号进行预处理,提取音频特征参数MFCC,通过将训练音频特征文件分别输入到GMM和SVM中进行训练,生成GMM模型和SVM分类器,最终实现一个融合GMM和SVM的特定音频事件分层识别方法,该方法能够快速准确地识别出音频事件流中特定音频事件,并输出音频事件发生的开始和结束时间。本发明中提出的融合GMM和SVM的特定音频事件分层识别方法原理如图1所示。
本发明的技术方案是通过如下步骤实现的:
步骤1,获得训练样本的音频特征向量文件。所述训练样本根据音频事件种类的不同,分别标记为不同的类别标签。每类的训练样本为多个相同类型音频事件的原始信号的集合,并且不同样本之间没有交叠或者重合。步骤1具体包含的操作内容如下:
步骤1.1,输入训练样本,对训练样本进行预处理。首先对训练样本中每个原始音频信号作预加重处理,减少尖锐噪音影响,提升高频信号,然后针对音频数据添加窗函数形成音频帧,按照设定的短时间时长(10ms-50ms)进行音频分帧处理,其中的每个短时间音频片段成为一帧,完成音频操作后,最后去除静音帧,将原始音频信号划分为一个音频数据帧序列。
由于音频帧时间较短,所提取的音频特征包含的信息相对有限,因此使用音频片段作为训练与识别的基本基元。每一个音频片段包含D帧特征向量,下一片段在上一片段的基础上推移P帧,称为段移,即相邻片段间有(D-P)帧的重叠。具体表示方法如图2所示。
本实施例试验使用窗长为20ms,窗移为10ms的汉明窗,将每50ms定义为一个音频帧,帧移为10ms,使用10帧作为段移,因此在后续操作中,分别对每一个音频文件使用帧长为50ms,帧移为10ms,段移为10帧,完成音频分帧与分段,计算其音频特征参数;
步骤1.2,提取步骤1.1预处理后的训练样本的多种音频特征,对多种音频特征形成的各种组合进行筛选,获得最有效的表征音频特征属性的参数,形成训练样本的音频特征向量文件。
本实施例提取MFCC及其差分、短时能量、短时过零率和基音频率,其中MFCC及其差分主要是提取12维MFCC、12维MFCC一阶差分、12维MFCC二阶差分,简单表示为MFCC,形成以下特征组合:MFCC、短时能量、短时过零率、基音频率、MFCC+短时能量、MFCC+短时过零率、MFCC+基音频率、短时能量+短时过零率、短时能量+基音频率、短时过零率+基音频率、MFCC+短时能量+短时过零率、MFCC+短时过零率+基音频率、短时能量+短时过零率+基音频率、MFCC+短时能量+短时过零率+基音频率等14种组合,经过特征筛选,最终选取MFCC作为本实施例的特征参数。
步骤2,分别使用GMM方法和SVM方法对步骤1得到的音频特征文件进行训练。通过对大量种类繁多的训练样本的音频特征文件进行模型训练,最终得到具有泛化能力的GMM模型和SVM分类器,用于区分音频事件流中的特定音频事件。完成离线训练。具体方法为:
步骤2.1,对步骤1得到的训练样本的音频特征文件,使用最大似然估计通过最大期望算法(Expectation-Maximization algorithm,EM算法)计算,得到n种不同的音频事件相对应的高斯混合模型。一般地,一个高斯混合模型λ由各混合分量的均值矢量、协方差矩阵以及混合权重来描述。
λ={ωk,μkk}(k=1,2,……,K)
其概率密度函数表示为:
P ( x ) = Σ k = 1 K p ( k ) p ( x | k )
= Σ k = 1 K ω k N ( x | μ k , Σ k )
式中,K是高斯混合模型中高斯分布的数量;x是d维数据矢量;ωk是第k个高斯分布的混合权重(即先验概率);并且满足N(x|μk,Σk)是均值矢量为μk,协方差矩阵为Σk的高斯密度函数。在高斯混合模型中,只需要确定ωk、μk、Σk这三个参数,就可以完成高斯混合模型的建模过程。通过找到这样一组参数,使得由这组参数所确定的概率分布生成这些给定的数据点(就是建立高斯混合模型的训练数据)的概率最大,而这个概率实际上就等于这里N代表N个数据点。
本发明的高斯混合模型建模过程转化为求最大似然函数:
Σ i = 1 N log { Σ k = 1 K ω k N ( x | μ k , Σ k ) }
首先根据所有训练样本的音频特征向量文件,使用K均值聚类的方法得到ωk、μk、Σk的初始值,最后由EM算法通过迭代为正负类别音频事件分别确定一组ωk、μk、Σk。优化调整GMM模型中ωk、μk、Σk,使得最大似然函数的值满足音频识别要求的阈值,得到一组ωk、μk、Σk,完成GMM建模过程。具体实施过程分为初始值确定、估计步骤和最大化步骤。
步骤2.1.1,完成使用EM算法估计GMM参数的初始值确定。运用K均值聚类的方法对步骤1.2得到的训练样本的音频特征向量文件进行聚类,聚类得到的各类的均值作为高斯混合模型中均值初始值,聚类得到的各类的协方差矩阵作为高斯混合模型中协方差矩阵初始值。本实施例中高斯混合模型中的先验概率取1/K。
步骤2.1.2,完成使用EM算法估计GMM参数的估计步骤。
令θkkkk),GMM共有K个单高斯模型。本实施例试验通过样本集估计GMM所有参数:Θ{θ12,.......,θK}T。令ωk的后验概率为βk
β ik = E ( ω k | x i ; Θ ) = ω k N k ( x i ; Θ ) Σ i = 1 K ω i N i ( x i ; Θ )
其中:1≤i≤N,1≤k≤K。
步骤2.1.3,完成使用EM算法估计GMM参数的最大化步骤。
分别按下式更新权值、均值和协方差矩阵:
ω k , = Σ i = 1 N β ik N
步骤2.1.4,不断地迭代步骤2.1.2和步骤2.1.3步骤,直到满足收敛条件:
|l(X|Θ)-l(X|Θ)‘|<ε
其中: l ( X | &Theta; ) = log &Pi; i = 1 N &Sigma; k = 1 K &omega; k N k ( x , &mu; k , &Sigma; k ) = &Sigma; i = 1 N log &Sigma; k = 1 K &omega; k N k ( x , &mu; k , &Sigma; k )
ε是设定的误差限。本发明的实施例试验中取ε=10-5
l ( X | &Theta; ) , = &Sigma; i = 1 N log &Sigma; k = 1 K &omega; k , N k ( x , &mu; k , , &Sigma; k , )
使用EM算法通过迭代为n类样本分别确定一组GMM参数,每类样本分别对应一个高斯混合模型。
步骤2.2,对步骤1得到的训练样本的音频特征文件,使用二次型寻优方法,使用非线性映射把输入数据即训练样本的音频特征文件,从原始的低维空间映射到高维空间,并计算特征向量和支持向量的内积。在高维空间中使用径向基核函数(RBF)实现原空间中的非线性判决函数,最终得到SVM分类器。
具体实施过程分为训练数据准备、选取核函数和其它最佳参数、训练过程。
步骤2.2.1,使用步骤1.2得到的训练样本的音频特征向量文件,按照SVM分类器所要求的数据格式进行数据格式转换,并将转换后的数据进行缩放。SVM分类器要求的数据格式如下:
<label><index1><value1><index2><value2>……
其中:
<label>是训练数据集的目标值,是标识某个类别的整数。在本发明中的实施例试验中,将第l类样本数据的<label>设为l,其中l为正整数。
<index>是以1开始的整数,可以是不连续的;<value>为实数,也就是提取的音频特征向量值。在本实施例试验中,<value>的值是完成分段后的段音频特征向量。完成数据格式转换后,接着针对<value>中的数据进行数据缩放操作,缩放操作的目的有以下方面:
一是避免一些特征值范围过大而另一些特征值范围过小;二是避免在训练时为了计算核函数而计算内积的时候引起数值计算的困难。因此,通常将<value>缩放到[-1,1]或者是[0,1]之间。本实施例试验中,将段音频特征向量的值缩放在[0,1]之间。
步骤2.2.2,选取核函数和其它最佳参数。SVM分类器通过非线性变换将输入空间变换到高维空间,在这个高维空间中求取最优线性分类面,完成训练。这种非线性变换是通过定义适当的内积核函数来实现的。常见的主要的内积核函数主要有3类,分别是:
多项式核函数:K(x,y)=(x*y+1)d其中:d为多项式的幂指数;
径向基核函数 ( RBF ) : K ( x , y ) = exp ( - | | x - y | | 2 2 &sigma; 2 )
Sigmoid核函数:K(x,y)=tanh(k(x*y)-μ)
上述3种内积核函数中的y代表训练数据的类别标签,也就是训练数据中的<label>值。
本发明实施例试验中采用径向基(RBF)核函数作为核函数来实现非线性变换,主要原因是因为RBF核函数具有良好的性态,在实际问题中表现出了良好的性能。因为采用RBF核函数的SVM分类器性能只与c和g有关,采用交叉验证选择最佳参数c与g。本发明的实施例试验通过使用网格遍历算法进行最佳参数选择,最终得到c=2048,g=8。
步骤2.2.3,在步骤2.2.2的基础上,进行SVM分类器的训练,得到区分不同类别的SVM分类器文件。具体来说,SVM的目标是就是要根据结构风险最小化原理,构造一个目标函数将不同类别模式尽可能地区分开来,通常使用两分类来讨论,对于多分类问题,一般采用训练多个一对余分类器解决。针对两分类问题,分为两类情况来讨论:(1)线性可分;(2)线性不可分。
线性可分情况下:
在线性可分的情况下,就会存在一个超平面使得训练样本完全分开,该超平面可描述为:
ω·x+b=0
其中:“·”是点积,ω是n维向量,b为偏移量。
最优超平面是使得每一类数据与超平面距离最近的向量与超平面之间的距离最大的这样的平面。最优超平面可以通过解下面的二次优化问题来获得:
min &Phi; ( &omega; ) = 1 2 | | &omega; | | 2
满足约束条件:
yi(ω·xi+b)≥1
i=1,2,3.......n
在特征数目特别大的情况,可以将此二次规划问题转化为其对偶问题:
max W ( &alpha; ) = &Sigma; i = 1 n &alpha; i - 1 2 &Sigma; i , j = 1 n &alpha; i &alpha; j y i y j ( x i x j )
w * = &Sigma; i = 1 n &alpha; i y i x i
b*=yi-w*xi
满足约束条件:
&Sigma; i = 1 n &alpha; i y i = 0 , &alpha; i > 0 , i = 1,2 . . . . . . . n
这里:α=(α1,α2,.......αn)是Larange乘子,w*是最优超平面的法向量,b*是最优超平面的偏移量。在这类优化问题的求解与分析中,KKT条件将起到很重要的作用,其解必须满足:
αi{yi(ω·x+b)-1}=0,i=1,2,.......n
那些αi=0的样本对分类没有任何作用,只有那些αi>0的样本才对分类起作用,这些样本称为支持向量,故最终的分类函数为:
f ( x ) = &Sigma; i = 1 n y i &alpha; i ( x * x i ) + b *
根据f(x)的符号来确定x的类别。
线性不可分的情况:
对于线性不可分的情况,可以把样本x映射到一个高维特征空间H,并在此空间中运用原空间的函数来实现内积运算,这样将非线性问题转换成另一空间的线性问题来获得一个样本的归属。根据泛函的有关理论,只要一种核函数满足Mercer条件,它就对应某一空间中的内积,因此只要在最优分类面上采用适当的内积函数就可以实现这种线性不可分的分类问题。此时的目标函数为:
max W ( &alpha; ) = &Sigma; i = 1 n &alpha; i - 1 2 &Sigma; i , j = 1 n &alpha; i &alpha; j y i y j K ( x i * x j )
其相应的分类函数为:
f ( x ) = &Sigma; i = 1 n y i &alpha; i K ( x * x i ) + b *
本发明的实施例将步骤2.2.1中的转换后的训练样本的音频特征向量文件,设置c和g为步骤2.2.2的遍历的最优参数值,进行SVM分类器训练,得到SVM分类器文件。模型文件中包含训练所采用的SVM类型,本实施例试验采用的SVM类型是为C-SVC;训练采用的核函数类型,本实施例采用的是RBF核;操作参数设置中的g值;分类时的类别数,本实施例是两分类问题;总共的支持向量个数;决策函数f(x)中的常数项b;类别标签和各类别标签对应的支持向量个数、支持向量。
步骤3,利用步骤2离线训练得到的GMM模型和SVM分类器,对待测音频事件流进行在线识别,并经由一定的结果融合判决策略,输出最终的识别结果。
步骤3.1,首先对待识别音频事件流文件进行预处理,完成待识别音频事件流文件的分帧与分段,接着进行音频特征提取,待识别音频事件流提取的音频特征参数类别与步骤1.2中训练样本的音频特征参数类别相同,最后形成待识别音频事件流的音频特征向量文件。
本发明的实施例提取的待识别音频事件流文件的特征参数是12维MFCC、12维MFCC一阶差分、12维MFCC二阶差分。
步骤3.2,使用步骤2离线训练得到的GMM模型和SVM分类器对步骤3.1得到的音频特征文件进行分层识别,经由一定的结果融合判决策略,得到每一个音频片段的类别标签属性。其具体识别过程为:
步骤3.2.1,将步骤3.1得到的待识别音频事件流的音频特征文件输入到步骤2.1训练获得的GMM模型中进行识别,本实施例中GMM模型的高斯分布数目参数K=32,假设待识别的音频片段的特征向量序列是O={O1,O2,......,OT},则该音频片段为第l个音频事件的后验概率为:
p ( &lambda; l | o ) = p ( o | &lambda; l ) p ( &lambda; l ) p ( o ) = p ( o | &lambda; l ) p ( &lambda; l ) &Sigma; l = 1 N p ( o | &lambda; l ) p ( &lambda; l )
其中:p(λl)为第l个音频事件的先验概率;p(o)为所有音频事件条件下特征矢量集o的概率;p(o|λl)为第l个音频事件产生的特征矢量集o的条件概率。对于正类别音频事件,类别标签l=1;对于负类别音频事件,l=2。
识别结果由最大后验概率给出,即
n * = arg max l = 1,2 p ( &lambda; l | o )
式中,n*表示识别判决结果。由于每个音频事件的先验概率相等,此外,p(o)也相等。则识别结果等式可化为:
n * = arg max l = 1,2 p ( o | &lambda; l )
这样,最大后验概率准则就转化为对数似然函数:
L(o|λl)=log p(o|λl)l=1,2
GMM模型识别的任务就是由如下判决公式计算:
n * = arg max l = 1,2 &Sigma; k = 1 K log p ( o k | &lambda; l )
其中:p(okl)为第l个音频事件产生的特征矢量集Ok的条件概率。系统按照以上过程对每一段的特征向量得到的对数累加,使得最高的类别标签就是最后识别结果,最后输出GMM模型识别的类别标签属性结果;
步骤3.2.2,在步骤3.1得到的待识别音频事件流的音频特征文件输入到步骤2.2训练获得的SVM分类器中进行识别,本实施例中采用径向基核函数(RBF),RBF通过把样本空间非线性地映射到一个高维特征空间,从而能更好地处理类别和类属性之间存在的非线性联系。系统的识别就是对每一段的特征向量计算步骤2.2.3中的f(x),根据f(x)的值判决特征向量的类别属性,正数对应正类型,0和负数对应负类型;最后输出SVM分类器的识别的类别标签属性结果;
步骤3.2.3,结合步骤3.2.1得到的GMM模型的识别结果和步骤3.2.2得到的SVM分类器的类别标签属性结果,进行结果融合判决,本发明中采用的融合准则为:只要是GMM分类识别为非枪声时,最终结果为非枪声,当GMM分类识别为枪声,但SVM分类识别为非枪声时,结果为非枪声,只有当GMM分类识别和SVM分类识别同时为枪声时,最终结果为枪声。假设GMM分类判决为非枪声时,输出为0,GMM分类判决为枪声时,输出为1;SVM分类判决为非枪声时,输出为0,SVM分类判决为枪声时,输出为1,根据融合准则,可以得到融合GMM和SVM的输出结果如图3所示。最终完成识别结果融合判决,并输出融合后的识别结果。此算法通过融合GMM和SVM,以求达到较高的准确率和召回率,并且可以解决现有特定音频事件识别中对连续音频流识别效率低、持续时间特别短的音频事件漏检概率高等问题。
步骤3.3,在步骤3.2.3得到的融合后的识别结果的基础上,对音频事件类别结果序列进行平滑,去除识别结果序列当中的毛刺判决,得到最终识别结果并输出。
本发明使用的惯性平滑处理规则如下:如果连续片段(1~4个)之间的类型一致,并且与其前与其后的类型都不一致,那么就使这些片段类型和它前边片段的类型一致。具体规则包括:XYX→XXX,XXY→XXX,XYYX→XXXX,XXYYXX→XXXXXX等等,其中X代表一种识别结果,本系统中是枪声事件;Y代表另一种识别结果,如其他类型的音频片段。
为验证本发明方法的切实可行,分别以BFS实验室枪声音频事件实验库中的枪声作为输入,设计并部署3项试验:(1)选择GMM和SVM中的参数试验;(2)融合GMM和SVM的混合方法与单独使用GMM方法或者SVM方法的对比试验;(3)融合GMM和SVM的混合方法对比分析试验,最后分析了本发明方法的复杂度。
试验采用融合SVM和GMM的混合分类器,使用泛化的枪声模板对音频事件流中不同子类别的枪声进行识别。识别过程中利用子类的共性特征降低模板对子类差异的敏感度达到泛化识别的目标,最后对识别结果进行平滑处理。
下面将对上述3个试验逐一进行说明,所有试验均在同一台计算机上完成,具体配置为:Intel双核CPU(主频1.8G),2G内存,Windows XP SP3操作系统。
试验数据资源:本发明将枪声音频片段作为特定音频事件。因此,枪声为正训练样本,非枪声为负训练样本。正训练样本包括游戏枪声和电影枪声,游戏枪声是从各种射击游戏里获取的,样本总时长约30min。电影枪声则是人工从含有枪声的电视剧或电影中录制得到的,样本总时长约30min。无论是游戏枪声还是电影枪声都包含了各种不同类型的枪声,包括手枪、步枪、机关枪等发出的枪声。负训练样本包含各种乐器的声音、动物的叫声、各种语言的人声,风格迥异的音乐等等,尽可能多的包含除枪声外的各种声音,样本总时长约60min。测试数据为50段音频事件流,总时长约1h。其中包含136个枪声片段,枪声片段的总时长约20min。所有音频文件均转化为单声道、采样速率8kHz、解析度16位的PCM格式文件。
评价方法:本发明采用两种方法来评价系统,一种是基于片段的评价参数,反应系统识别的准确程度。另一种是基于时长的评价参数,反应系统识别的精确程度。
检出准则:本方法的识别对象是音频流,音频流经过识别后被切分为若干音频片段,每个音频片段在内容类别上具有一致性。若识别出的特定音频片段与真实的特定音频片段在时序上有重叠,则认为该特定音频片段被正确识别;若没有重叠,则一定存在误检或漏检的现象。检出准则如图4所示。
评价方法I:基于片段的准确率Pfrag和召回率Rfrag
设M=系统正确检出的枪声片段数,N=系统检出的枪声片段总数,Z=真实枪声片段总数。则有:
Pfrag=M/N
Rfrag=M/Z
F frag = 2 &CenterDot; P frag &CenterDot; R frag P frag + R frag
评价方法Ⅱ:基于时长的准确率Pt和召回率Rt
设R=系统正确检出的枪声的总时长,S=系统检出的枪声总时长,T=真实枪声的总时长。
Pt=R/S
Rt=R/T
F t = 2 &CenterDot; P t &CenterDot; R t P t + R t
1.GMM方法、SVM方法参数选择试验
本组试验主要是选取GMM中高斯分布数目参数K值和SVM中参数c和g的。实验通过设置不同的K值,使用GMM对枪声事件进行训练和识别,K值分别取8、12、16、32和64,表1列出了不同K值下的系统识别性能。
表1确定高斯数目M试验结果
从上表可以看出,当K值取8、12、16、32时,系统的准确率逐渐提升,但是当K=64时,系统的识别准确率基本不变,但是由于模型复杂,导致计算量大幅增加,训练时间增长。造成识别准确率不变的主要原因是当K=64时,GMM模型比较复杂,需要大量的数据进行模型训练,而本发明的训练样本量相对较少,所建立的模型不够精确,最终使得识别性能基本没有提高。综合考虑实验所用的训练样本量和训练时间,本发明采用K=32作为融合算法中GMM模型的高斯混合模型数目值。
选取SVM方法作为特定音频事件识别模型,主要是因为本发明所使用的枪声训练数据量有限,而SVM正是满足适用于有限的小样本分类问题的特点,且可以得到较高的识别率。
在SVM中,常用的核函数有多项式核函数、径向基核函数(RBF)、Sigmoid核函数,除此之外,在特殊的场合还可以构造特殊的核函数。相对于其它几种核函数,RBF具有一定的优势:与线性多项式核相比,RBF通过把样本空间非线性地映射到一个高维特征空间,从而能更好地处理类别和类属性之间存在的非线性联系;在一定条件下,线性核是RBF核的特例;而Sigmoid核在参数选定后与RBF也是相通的。因此,本实施例试验采用RBF作为核函数。
基于RBF的SVM函数得到的分类器的性能只与c及g有关。实验中利用网格遍历方法获得最优参数c和g。观察实验结果图5(图中横坐标是log2(c),纵坐标是log2(g))发现,当c=8192,g=8时,准确率最高,但是训练时间过长,导致系统时间效率低,因此本实施例选取c=2048,g=8。
2.融合方法与单独使用GMM、SVM对比实验
本组试验主要验证融合GMM和SVM混合方法与单独使用GMM、SVM方法相比,可以解决单个分类器在枪声识别中准确率低的问题,混合方法具有高的准确率。实验结果如表2所示。
表2融合GMM和SVM混合方法与GMM方法、SVM方法的识别结果
假设GMM分类器正确检测的枪声个数为ag,SVM分类器正确检测的枪声个数为as;GMM检测的枪声总个数为bg,SVM检测的枪声总个数为bs;真实的枪声总个数为q。则融合GMM和SVM的混合分类器正确检测的枪声个数是ags=ag∩as,检测的枪声总个数为bgs=bg∩bs,根据平滑处理规则对识别结果处理后,有
p g = a g b g ; p s = a s b s ; p gs = a gs b gs
由于bgs《min(bg,bs),ags《min(ag,as),所以pgs>ps>pg。试验结果和理论同时证明了融合方法对特定音频事件具有高准确率的识别效果,并且该融合方法解决了持续时间短的音频事件识别正确率低的问题。
g3.方法对比试验
通过试验,比较融合GMM和SVM的混合方法与AdaBoost方法的识别性能。实验采用MFCC作为音频特征参数,AdaBoost方法使用文献中给出的最优迭代次数860。融合GMM和SVM的混合方法中GMM的高斯混合模型数目为K=32,SVM分类器中使用的核函数为RBF函数,选取局部最优参数c=2048,g=8,试验还记录了算法的开始和结束时间。试验比较结果如表3所示。试验比较结果的柱状图如图6所示。
表3不同方法对比试验结果
目前国外与特定音频流泛化识别方法在输入输出以及性能评价方面相似的研究通过提取枪声音频特征,并使用SVM方法进行训练和识别,其PRp(TP/P)为67%,PRn为(TN/N)81%。
从图6可以看出,使用融合GMM和SVM的混合分类器进行枪声识别与文献使用的AdaBoost相比,在同样使用MFCC作为特征参数的情况下,召回率基本保持不变,准确率相比分别提高了7.58%和9.70%,F值也有一定的提高。这说明融合GMM和SVM的音频事件分层识别系统可以提高时间较短的音频事件的检出率,弥补AdaBoost分类器对时长较短的音频事件准确率较低的缺陷,同时降低系统的虚检率和漏检率,提升特定音频事件识别系统的识别性能。
g4.方法复杂度分析
特定音频事件识别在特征向量生成阶段,通过使用段特征向量代替帧特征来训练生成识别模板,降低了系统的处理数据量和运算量,提高系统的处理速度;文中共有10种枪声类别,传统的识别方法需要对应于10类枪声生成10个识别模板,需要大量的训练时间和识别时间,系统效率低下。本发明中的融合方法不同于传统的识别方法,只需要生成2个具有泛化能力的识别模板,大大缩减了系统的训练时间与识别时间,明显提高了系统的效率,便于实际应用;并且由于GMM方法复杂度(对于一个包含d个混合分量的k个混合高斯模型,其维度为m维,那么算法复杂度就是O(mdk)和SVM方法复杂度(一般在和o(dL 2)之间,其中Nsv是支持向量的个数,L是训练集样本的个数,d是每个样本的维数(原始的维数,没有经过向高维空间映射之前的维数))较低,识别精度高,因此可以明显提高系统识别效率。
试验过程中记录的训练时间和识别时间如表4所示。
表4不同方法的运行时间
试验结果表明,融合GMM和SVM混合方法训练时间与AdaBoost(AdaBoost方法在弱分类器的选择过程中,其中的贪心算法的算法复杂度为O(k2))相比,基本上保持不变,但是识别时间提高了47.356%。总的来说,融合SVM和GMM的方法复杂度低,可以提高系统的识别速度。理论和实验同时表明,本文所提算法针对特定音频事件识别具有较好的实际使用价值。
根据试验对比结果可以看出,本发明方法完成了发明目标,具有高精度的特定音频事件快速识别效果。

Claims (3)

1.基于SVM和GMM的特定音频事件分层泛化识别方法,其特征在于:包括如下步骤:
步骤1,获得训练样本的音频特征向量文件;所述训练样本根据音频事件种类的不同,分别标记为不同的类别标签;每类训练样本为多个相同类型音频事件原始信号的集合,并且不同训练样本之间没有交叠或者重合;
步骤2,分别使用GMM方法和SVM方法对步骤1得到的多种训练样本的音频特征向量文件进行训练,得到具有泛化能力的GMM模型和SVM分类器,完成离线训练;
针对某一类型音频事件,建立GMM模型和SVM分类器的具体方法为:
步骤2.1,对步骤1得到的所有训练样本的音频特征向量文件,使用最大似然估计通过最大期望算法,得到该类型音频事件的高斯混合模型,并将其转化为求最大似然函数:
&Sigma; i = 1 N log { &Sigma; k = 1 K &omega;k N ( x | &mu; k , &Sigma; k ) }
式中,N代表N个训练样本,K是高斯混合模型中高斯分布的数量;x是d维数据矢量;ωk是第k个高斯分布的先验概率,且满足N(x|μkk)是均值矢量为μk、协方差矩阵为Σk的高斯密度函数;
根据所有训练样本的音频特征向量文件,使用K均值聚类的方法得到ωk、μk、Σk的初始值,最后由最大期望算法通过迭代为正负类别音频事件分别确定一组ωk、μk、Σk;优化调整GMM模型中ωk、μk、Σk,使得最大似然函数的值满足音频识别要求的阈值,得到一组ωk、μk、Σk,完成GMM建模过程;
步骤2.2,对步骤1得到训练样本的音频特征向量文件,使用二次型寻优方法,将在低维向量空间中线性不可分的训练样本映射到高维的特征空间,在高维空间中使用径向基核函数实现原低维向量空间中的非线性判决函数,最终得到SVM分类器为:
f ( x ) = &Sigma; i = 1 n y i &alpha; i K ( x * x i ) + b *
其中,n是特征向量的维数,αi=(α1,α2,......,αn)是拉格朗日乘子,b*是最优超平面的偏移量,yi是类别标签值;K(x*xi)是对应的内积核函数,在训练样本为线性可分情况下,K(x*xi)取x*xi
步骤3,利用步骤2离线训练得到的GMM模型和SVM分类器,对待测音频事件流进行在线识别与融合判决,输出最终的识别结果;
步骤3.1,首先对待识别音频事件流文件进行预处理,完成待识别音频事件流文件的分帧与分段,接着进行音频特征提取;待识别音频事件流提取的音频特征参数类别与离线训练过程中训练样本的音频特征参数类别相同,最后形成待识别音频事件流的包含多个音频特征片段的音频特征向量文件;
步骤3.2,使用步骤2离线训练得到的GMM模型和SVM分类器对步骤3.1得到的音频特征向量文件进行分层识别,经由一定的结果融合判决策略,得到每一个音频片段的类别标签属性;其具体识别过程为:
步骤3.2.1,对于待识别的音频片段的特征向量序列O={o1,o2,......,oT},该音频片段为第l个音频事件的后验概率为:
p ( &lambda; l | o ) = p ( o | &lambda; l ) p ( &lambda; l ) p ( o ) = p ( o | &lambda; l ) p ( &lambda; l ) &Sigma; l = 1 N p ( o | &lambda; l ) p ( &lambda; l )
其中:p(λl)为第l个音频事件的先验概率;p(o)为所有音频事件条件下特征矢量集o的概率;p(o|λl)为第l个音频事件产生的特征矢量集o的条件概率;对于正类别音频事件,类别标签l=1;对于负类别音频事件,l=2;
识别结果由最大后验概率给出,即
n * = arg max l = 1,2 p ( &lambda; l | o )
式中,n*表示识别判决结果;由于每个音频事件的先验概率相等,此外,p(o)也相等;则识别结果等式可化为:
n * = arg max l = 1,2 p ( o | &lambda; l )
这样,最大后验概率准则就转化为对数似然函数:
L(o|λl)=logp(o|λl)    l=1,2
GMM模型识别的任务就是由如下判决公式计算:
n * = arg max l = 1,2 &Sigma; k = 1 K lgop ( O k | &lambda; l )
其中:p(Okl)为第l个音频事件产生的特征矢量集ok的条件概率;系统按照以上步骤3.2.1的过程对每一段的特征向量得到的对数累加,使得最大的类别标签就是最后识别结果,最后输出GMM模型识别的类别标签属性结果;
步骤3.2.2,将步骤3.1得到的待识别音频事件流的音频特征文件输入到步骤2.2训练获得的SVM分类器中进行识别,对每一段的特征向量,根据f(x)的正负符号判决特征向量的类别属性,正数对应正类型,0和负数对应负类型;最后输出SVM分类器的识别的类别标签属性结果;
步骤3.2.3,结合步骤3.2.1和步骤3.2.2得到的正负类别标签属性结果,进行融合判决,融合判决策略为:当GMM模型和SVM分类器识别的类别标签属性结果一致,则以此类别标签作为识别结果输出;当GMM模型和SVM分类器识别的类别标签属性结果不一致,则输出负类别;
步骤3.3,在步骤3.2.3得到的融合后的识别结果的基础上,对音频事件类别结果序列进行平滑,去除识别结果序列当中的毛刺判决,得到最终识别结果并输出。
2.根据权利要求1所述的基于SVM和GMM的特定音频事件分层泛化识别方法,其特征在于:训练样本的音频特征向量文件的获取方法具体为:
步骤1.1,对输入的每一个训练样本分别作预处理:首先对训练样本中的每个原始音频信号作预加重处理,减少尖锐噪音影响,提升高频信号,然后针对音频数据添加窗函数形成音频帧,设置一定的帧移,完成音频分段,最后去除静音帧;
步骤1.2,提取预处理后的训练样本的多种音频特征,对多种音频特征形成的各种特征组合进行筛选,获得最有效的表征音频特征属性的参数,形成训练样本的音频特征向量文件;
所述的多种音频特征包括:MFCC及其差分、短时能量、短时过零率和基音频率。
3.根据权利要求1所述的基于SVM和GMM的特定音频事件分层泛化识别方法,其特征在于:采用“一对余”的分类识别策略,针对一类音频事件建立一组GMM模型和SVM分类器,将该类型作为正类别,其余类型作为负类别;并行采用多组GMM模型和SVM分类器能实现多类型音频事件识别。
CN201210226349.8A 2012-06-29 2012-06-29 基于svm和gmm的特定音频事件分层泛化识别方法 Expired - Fee Related CN102799899B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210226349.8A CN102799899B (zh) 2012-06-29 2012-06-29 基于svm和gmm的特定音频事件分层泛化识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210226349.8A CN102799899B (zh) 2012-06-29 2012-06-29 基于svm和gmm的特定音频事件分层泛化识别方法

Publications (2)

Publication Number Publication Date
CN102799899A CN102799899A (zh) 2012-11-28
CN102799899B true CN102799899B (zh) 2014-12-10

Family

ID=47198998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210226349.8A Expired - Fee Related CN102799899B (zh) 2012-06-29 2012-06-29 基于svm和gmm的特定音频事件分层泛化识别方法

Country Status (1)

Country Link
CN (1) CN102799899B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831443A (zh) * 2018-06-25 2018-11-16 华中师范大学 一种基于堆叠自编码网络的移动录音设备源识别方法

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103971702A (zh) * 2013-08-01 2014-08-06 哈尔滨理工大学 声音监控方法、装置及系统
CN104269169B (zh) * 2014-09-09 2017-04-12 山东师范大学 一种混叠音频事件分类方法
CN104409073A (zh) * 2014-11-04 2015-03-11 贵阳供电局 一种变电设备声音与语音的识别方法
CN106156784B (zh) * 2015-03-30 2019-10-29 联想(北京)有限公司 一种特征识别方法及电子设备
CN105160598B (zh) * 2015-08-28 2021-01-15 国网智能电网研究院 一种基于改进em算法的电网业务分类方法
CN105632485B (zh) * 2015-12-28 2019-05-31 浙江大学 一种基于语种识别系统的语言距离关系的获取方法
CN105810212B (zh) * 2016-03-07 2019-04-23 合肥工业大学 一种复杂噪声环境下的列车鸣笛识别方法
CN107170466B (zh) * 2017-04-14 2020-12-29 中国科学院计算技术研究所 基于音频的拖地声检测方法
CN107170443A (zh) * 2017-05-12 2017-09-15 北京理工大学 一种模型训练层AdaBoost算法的参数优化方法
CN107452401A (zh) * 2017-05-27 2017-12-08 北京字节跳动网络技术有限公司 一种广告语音识别方法及装置
CN107301858B (zh) * 2017-05-31 2020-09-22 华南理工大学 基于音频特征空间分层描述的音频分类方法
CN107174209B (zh) * 2017-06-02 2020-06-30 南京理工大学 基于非线性动力学的睡眠阶段分期方法
WO2019057288A1 (en) 2017-09-21 2019-03-28 Huawei Technologies Co., Ltd. SYSTEM AND METHOD FOR PROCESSING FLOW
CN107885883A (zh) * 2017-12-01 2018-04-06 北京国信宏数科技有限公司 一种基于社会媒体的宏观经济领域情感分析方法及系统
CN109995566B (zh) * 2017-12-31 2022-05-10 中国移动通信集团辽宁有限公司 网络故障定位方法、装置、设备及介质
CN108305616B (zh) * 2018-01-16 2021-03-16 国家计算机网络与信息安全管理中心 一种基于长短时特征提取的音频场景识别方法及装置
CN108461091A (zh) * 2018-03-14 2018-08-28 南京邮电大学 面向家居环境的智能哭声检测方法
CN109189976B (zh) * 2018-09-20 2022-04-08 腾讯音乐娱乐科技(深圳)有限公司 搜索音频数据的方法和装置
CN109472302A (zh) * 2018-10-29 2019-03-15 中国石油大学(华东) 一种基于AdaBoost的支持向量机集成学习方法
CN109448005B (zh) * 2018-10-31 2019-12-27 数坤(北京)网络科技有限公司 一种用于冠状动脉的网络模型分割方法及设备
CN111259189B (zh) * 2018-11-30 2023-04-18 马上消费金融股份有限公司 一种音乐分类方法及装置
CN109660533B (zh) * 2018-12-14 2022-12-20 中国平安人寿保险股份有限公司 实时识别异常流量的方法、装置、计算机设备和存储介质
CN110120230B (zh) * 2019-01-08 2021-06-01 国家计算机网络与信息安全管理中心 一种声学事件检测方法及装置
CN109949824B (zh) * 2019-01-24 2021-08-03 江南大学 基于N-DenseNet和高维mfcc特征的城市声音事件分类方法
CN111524536B (zh) * 2019-02-01 2023-09-08 富士通株式会社 信号处理方法和信息处理设备
CN110111266B (zh) * 2019-04-08 2021-07-13 西安交通大学 一种基于深度学习去噪的近似信息传递算法改进方法
CN109948739A (zh) * 2019-04-22 2019-06-28 桂林电子科技大学 基于支持向量机的环境声音事件采集与传输系统
CN111488400B (zh) * 2019-04-28 2021-03-30 北京京东尚科信息技术有限公司 数据分类方法、装置和计算机可读存储介质
CN110120218B (zh) * 2019-04-29 2021-06-22 东北大学 基于gmm-hmm的高速公路大型车辆识别方法
CN110223715B (zh) * 2019-05-07 2021-05-25 华南理工大学 一种基于声音事件检测的独居老人家中活动估计方法
CN110132598B (zh) * 2019-05-13 2020-10-09 中国矿业大学 旋转设备滚动轴承故障噪声诊断算法
CN110390952B (zh) * 2019-06-21 2021-10-22 江南大学 基于双特征2-DenseNet并联的城市声音事件分类方法
CN110390946A (zh) * 2019-07-26 2019-10-29 龙马智芯(珠海横琴)科技有限公司 一种语音信号处理方法、装置、电子设备和存储介质
CN110517667A (zh) * 2019-09-03 2019-11-29 龙马智芯(珠海横琴)科技有限公司 一种语音处理方法、装置、电子设备和存储介质
CN110827800A (zh) * 2019-11-21 2020-02-21 北京智乐瑟维科技有限公司 基于语音的性别识别方法及其装置、存储介质和设备
CN111083284B (zh) * 2019-12-09 2021-06-11 Oppo广东移动通信有限公司 车辆到站提示方法、装置、电子设备以及计算机可读存储介质
TWI740339B (zh) * 2019-12-31 2021-09-21 宏碁股份有限公司 自動調整特定聲源的方法及應用其之電子裝置
CN113270109B (zh) * 2020-02-14 2023-05-26 宏碁股份有限公司 自动调整特定声源的方法及应用其的电子装置
CN111968673A (zh) * 2020-07-29 2020-11-20 厦门快商通科技股份有限公司 一种音频事件检测方法及系统
CN112669885B (zh) * 2020-12-31 2023-04-28 咪咕文化科技有限公司 一种音频剪辑方法、电子设备及存储介质
CN113192322B (zh) * 2021-03-19 2022-11-25 东北大学 一种基于云边协同的高速公路交通流量计数方法
CN113761269B (zh) * 2021-05-21 2023-10-10 腾讯科技(深圳)有限公司 音频识别方法、装置和计算机可读存储介质
CN114626412B (zh) * 2022-02-28 2024-04-02 长沙融创智胜电子科技有限公司 用于无人值守传感器系统的多类别目标识别方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1787075A (zh) * 2005-12-13 2006-06-14 浙江大学 基于内嵌gmm核的支持向量机模型的说话人识别方法
CN101226743A (zh) * 2007-12-05 2008-07-23 浙江大学 基于中性和情感声纹模型转换的说话人识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101136199B (zh) * 2006-08-30 2011-09-07 纽昂斯通讯公司 语音数据处理方法和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1787075A (zh) * 2005-12-13 2006-06-14 浙江大学 基于内嵌gmm核的支持向量机模型的说话人识别方法
CN101226743A (zh) * 2007-12-05 2008-07-23 浙江大学 基于中性和情感声纹模型转换的说话人识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
基于SVM-GMM的开集说话人识别方法;陈黎等;《计算机工程》;20110731;第37卷(第14期);第172-174页 *
崔宣等.基于SVM-GMM混合模型的说话人辨认研究.《西华大学学报(自然科学版)》.2010,第29卷(第1期),第58-61页,第88页. *
特定类型音频流泛化识别方法;罗森林等;《北京理工大学学报》;20111031;第31卷(第10期);第1231-1235页 *
罗森林等.特定类型音频流泛化识别方法.《北京理工大学学报》.2011,第31卷(第10期),第1231-1235页. *
陈黎等.基于SVM-GMM的开集说话人识别方法.《计算机工程》.2011,第37卷(第14期),第172-174页. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108831443A (zh) * 2018-06-25 2018-11-16 华中师范大学 一种基于堆叠自编码网络的移动录音设备源识别方法
CN108831443B (zh) * 2018-06-25 2020-07-21 华中师范大学 一种基于堆叠自编码网络的移动录音设备源识别方法

Also Published As

Publication number Publication date
CN102799899A (zh) 2012-11-28

Similar Documents

Publication Publication Date Title
CN102799899B (zh) 基于svm和gmm的特定音频事件分层泛化识别方法
Chen et al. 3-D convolutional recurrent neural networks with attention model for speech emotion recognition
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
CN107393554A (zh) 一种声场景分类中融合类间标准差的特征提取方法
CN101562012B (zh) 语音分级测定方法及系统
Jothimani et al. MFF-SAug: Multi feature fusion with spectrogram augmentation of speech emotion recognition using convolution neural network
Apsingekar et al. Speaker model clustering for efficient speaker identification in large population applications
CN108831506B (zh) 基于gmm-bic的数字音频篡改点检测方法及系统
CN104240720A (zh) 一种基于多重分形和信息融合的语音情感识别方法
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN108520752A (zh) 一种声纹识别方法和装置
CN112417132B (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN111597328A (zh) 一种新事件主题提取方法
CN110992959A (zh) 一种语音识别方法及系统
Monteiro et al. On the performance of time-pooling strategies for end-to-end spoken language identification
CN112509601A (zh) 一种音符起始点检测方法及系统
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
Saputri et al. Identifying Indonesian local languages on spontaneous speech data
Pramod Reddy Recognition of human emotion with spectral features using multi layer-perceptron
Fathan et al. An Ensemble Approach for the Diagnosis of COVID-19 from Speech and Cough Sounds
Miao et al. Variance normalised features for language and dialect discrimination
Zi et al. BSML: Bidirectional Sampling Aggregation-based Metric Learning for Low-resource Uyghur Few-shot Speaker Verification
CN112634947B (zh) 一种动物声音情感特征集合排序识别方法及系统
Luo Waveform Feature Extraction of Intelligent Singing Skills under the Background of Internet of Things
Gao et al. Acoustic Word Embedding Model with Transformer Encoder and Multivariate Joint Loss

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141210

Termination date: 20150629

EXPY Termination of patent right or utility model