CN102799899B

CN102799899B - 基于svm和gmm的特定音频事件分层泛化识别方法

Info

Publication number: CN102799899B
Application number: CN201210226349.8A
Authority: CN
Inventors: 罗森林; 王坤; 潘丽敏; 谢尔曼
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2012-06-29
Filing date: 2012-06-29
Publication date: 2014-12-10
Anticipated expiration: 2032-06-29
Also published as: CN102799899A

Abstract

本发明涉及一种融合支持向量机(SVM)和高斯混合模型(GMM)的特定音频事件分层泛化识别方法，属于计算机与音频事件识别技术领域。本方法首先获得训练样本的音频特征向量文件，然后分别使用GMM方法和SVM方法对大量种类繁多的训练样本的音频特征向量文件进行模型训练，得到具有泛化能力的GMM模型和SVM分类器，完成离线训练。最后使用GMM模型和SVM分类器对待识别音频特征向量文件进行分层识别，经由一定的结果融合判决策略，得到每一个音频片段的类别标签属性。本方法解决了现有特定音频事件识别中对连续音频流识别效率低、持续时间特别短的音频事件漏检概率高等问题，可应用于特定音频检索和基于内容的网络音频监管。

Description

基于SVM和GMM的特定音频事件分层泛化识别方法

技术领域

本发明涉及一种融合支持向量机(SVM)和高斯混合模型(GMM)的特定音频事件分层泛化识别方法，属于计算机与音频事件识别技术领域。

背景技术

特定音频事件是用户指定的具有某种特定语义或内容的一个音频片段。

随着计算机和网络技术迅速发展，音视频文件以及流媒体数据量迅速膨胀，从海量音频信息中迅速准确地发现或识别出所需要的特定音频事件变得越来越重要。由于交通监控、敏感区域安全监测等应用的迫切需求，特定音频事件识别技术近年来得到了广泛的研究。

特定音频事件识别技术就是基于音频数据的内容，将音频流中的特定音频事件识别出来，在音频信息处理研究领域中，特定音频事件识别也被称为音频事件检测(Audio Event Detection)、音频事件识别(Audio EventRecognition)、音频分类(Audio Classification)等。特定音频事件通常包括多种子类音频事件(例如枪声包括机关枪声、手枪声、步枪声等)，且子类之间具有较大的差异。泛化识别就是在加强大类之间区分度的同时降低子类差异敏感度，提取子类的共性特征达到泛化的目标，使用尽可能少的子类模板去适应尽可能大的类内差异。

基于内容的音频分析研究可以划分为4个层次：数据层、特征层、类别层、语义层。特定音频事件识别又被称为音频事件识别、音频分类等，属于上述4层划分的类别层。在研究工作中，人们也在特征层对特征提取、特征筛选与组合、特征向量生成等技术开展研究。

近年来，特定音频事件识别的相关研究主要集中在音频特征提取和分类器设计两个方面。音频特征提取技术是音频类型识别的基础，它从音频波形中提取出特征向量用于后一阶段的识别(或分类)；分类器设计的目标是为特定音频事件识别寻找或设计分类算法，提高识别准确率、减少识别耗时，并研究算法参数对识别性能的影响。

1.在特征提取方面：

在音频特征提取方面，早期的音频特征包括：短时能量、静音率、过零率、和谐度、基频、频谱、谱中心、子带能量；后来又引入了线性预测系数、Mel倒谱系数(Mel-Frequency Cepstral Coefficient，MFCC)等多种感知及倒谱域特征；近年来，一些新的音频特征和特征筛选算法也陆续被提出。

(1)简单音频特征：由于特定音频事件识别技术发源于信号处理、语音识别等相关理论，因此诸如短时能量、过零率、子带能量等简单特征，被广泛应用于特定语音识别研究。

(2)倒谱及感知特征：在语音处理领域中，LPC、LPCC、LFCC、MFCC等特征得到了越来越多的应用，研究者将这些特征引入特定类型音频事件识别领域，取得了较好的识别效果。

(3)统计特征及新的底层特征：在特定音频事件识别领域中，研究者对上述两大类底层特征进行统计；或使用音频压缩域特征，使音频特征向量更具代表性，例如MPEG7特征、频谱直方图等。同时，新的底层特征也不断被提出。

此外，更早的一些研究还包括直方图、梯度直方图、基于分段仿射变换的表情特征点运动特征等。对于维度较大的特征类型，还常常涉及到降维处理，常见的特征降维处理方法有：聚类线性鉴别分析方法、主成分分析法等。

总之，在底层音频特征的提取研究上，经历了“能量、过零率等简单特征——LPC、LPCC、MFCC等频域及倒谱特征——MPEG7、频谱直方图等底层特征及其统计、描述”的发展过程。对于某大类的特定音频事件，其中的子类一般具有较大的差异性(例如枪声包括机关枪声、手枪声、连续枪声等子类，各子类样本间有着较大的差异)，如何有针对性地选择特征，采用更好的特征向量构造方法，使其具有较强的大类之间区分度和较小的子类差异敏感度，是特定音频事件识别研究下一步需要解决的问题。

2.在音频分类器设计方面：

在分类器设计研究方面，目前的研究主要包括：支持向量机(SupportVector Machine，SVM)、基于高斯混合模型(Gaussian Mixture Model，GMM)等。

其中，基于支持向量机的分类器：SVM是建立在统计学习理论的VC维理论和结构风险最小化原理基础上的，根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷，以期获得最好的推广能力。SVM算法在训练时，需要对核函数参数不断进行调整以进行优化，因此训练过程往往比较复杂，这是该算法使用中的重要不足；另外，SVM算法是一种两分类算法，对于多种类别的识别，需要对算法做进一步的改进。该方法是目前特定音频事件识别领域的研究热点。

基于高斯混合模型的分类器：GMM是一种经典的说话人识别算法，在特定音频事件识别领域也取得了较好的识别效果。

随着机器学习和模式识别研究的不断深入，相关理论和技术逐渐被引入特定音频事件识别领域，在基于分类算法的研究中，SVM、GMM等技术已经成功地应用，但对于特定音频事件识别这一应用场景，现有的特征提取方法存在特征代表性有限、精度及提取速度不够高等不足；同时，现有的音频分类方法也在存在识别精度不理想、复杂度过高、可识别的音频类别数量受限、识别速度低等局限，并且国内外研究大都以音频样例片段作为识别对象，采用MFCC和能量等基本音频特征和GMM、SVM等分类算法，针对特定音频事件片段识别，取得了一定的识别效果，而以连续音频流为识别对象进行识别时，其识别性能明显低于对单纯音频片段的识别性能。如何提高分类算法的识别性能、如何在音频流中更加精准地标记出特定类型音频事件的起止点，都是实用中需要解决的问题。

发明内容

本发明的目的是为解决连续音频事件流中音频事件识别准确率低、持续时间短的音频事件片段漏检率高、音频事件识别速度较慢的问题，提出一种融合SVM和GMM的特定音频事件分层泛化识别方法，通过使用MFCC等音频特征组合，并融合SVM分类器和GMM模型实现特定音频事件分层泛化高精度、快速识别。

本发明的技术方案是通过如下步骤实现的：

步骤1，获得训练样本的音频特征向量文件。所述训练样本根据音频事件种类的不同，分别标记为不同的类别标签。每类训练样本为多个相同类型音频事件原始信号的集合，并且不同训练样本之间没有交叠或者重合。具体方法为：

步骤1.1，对输入的每一个训练样本分别作预处理。首先对训练样本中的每个原始音频信号作预加重处理，减少尖锐噪音影响，提升高频信号，然后针对音频数据添加窗函数形成音频帧，设置一定的帧移，完成音频分段，最后去除静音帧。

预处理减少了音频信号的干扰与音频处理的运算量，利于提取有效音频文件，提高系统的运算性能与识别效率。

步骤1.2，提取预处理后的训练样本的多种音频特征，对多种音频特征形成的各种特征组合进行筛选，获得最有效的表征音频特征属性的参数，形成训练样本的音频特征向量文件。

所述的多种音频特征包括：MFCC及其差分、短时能量、短时过零率和基音频率。

步骤2，分别使用GMM方法和SVM方法对步骤1得到的音频特征向量文件进行训练。通过对大量种类繁多的训练样本的音频特征向量文件进行模型训练，最终得到具有泛化能力的GMM模型和SVM分类器，用于区分音频事件流中的特定音频事件。完成离线训练。

本发明方法中采用“一对余”的分类识别策略，即针对一类音频事件建立一组GMM模型和SVM分类器，将该类型作为正类别，其余类型作为负类别，并行采用多组GMM模型和SVM分类器可实现多类型音频事件识别。

针对某一类型音频事件，建立GMM模型和SVM分类器的具体方法为：

步骤2.1，对步骤1得到的所有训练样本的音频特征向量文件，使用最大似然估计通过最大期望算法(Expectation-Maximization algorithm，EM算法)计算，得到该类型音频事件的高斯混合模型(GMM)。

高斯混合模型λ由各混合分量的均值矢量、协方差矩阵以及混合权重来描述。

λ＝{ω_k，μ_k，Σ_k}(k＝1，2，……，K)

其概率密度函数表示为：

P (x) = Σ_{k = 1}^{K} p (k) p (x | k)

= Σ_{k = 1}^{K} ω_{k} N (x | μ_{k}, Σ_{k})

式中，K是高斯混合模型中高斯分布的数量；x是d维数据矢量；ω_k是第k个高斯分布的混合权重(即先验概率)；并且满足N(x|μ_k,Σ_k)是均值矢量为μ_k，协方差矩阵为Σ_k的高斯密度函数。为完成高斯混合模型的建模，需要确定ω_k、μ_k、Σ_k三个参数，使得最大，其中N代表N个训练样本。

本发明的高斯混合模型建模过程转化为求最大似然函数：

Σ_{i = 1}^{N} \log {Σ_{k = 1}^{K} ω_{k} N (x | μ_{k}, Σ_{k})}

首先根据所有训练样本的音频特征向量文件，使用K均值聚类的方法得到ω_k、μ_k、Σ_k的初始值，最后由EM算法通过迭代为正负类别音频事件分别确定一组ω_k、μ_k、Σ_k。优化调整GMM模型中ω_k、μ_k、Σ_k，使得最大似然函数的值满足音频识别要求的阈值，得到一组ω_k、μ_k、Σ_k，完成GMM建模过程。

步骤2.2，对步骤1得到训练样本的音频特征向量文件，使用二次型寻优方法，将在低维向量空间中线性不可分的训练样本映射到高维的特征空间，在高维空间中使用径向基核函数实现原低维向量空间中的非线性判决函数，最终得到SVM分类器为：

f (x) = Σ_{i = 1}^{n} y_{i} α_{i} K (x * x_{i}) + b^{*}

其中，n是特征向量的维数，α_i=(α₁，α₂，......，α_n)是拉格朗日乘子，b^*是最优超平面的偏移量，y_i是类别标签值。K(x*x_i)是对应的内积核函数，在训练样本为线性可分情况下，K(x*x_i)取x*x_i。

步骤3，利用步骤2离线训练得到的GMM模型和SVM分类器，对待测音频事件流进行在线识别与融合判决，输出最终的识别结果。

步骤3.1，首先对待识别音频事件流文件进行预处理，完成待识别音频事件流文件的分帧与分段，接着进行音频特征提取；待识别音频事件流提取的音频特征参数类别与步骤1.2中训练样本的音频特征参数类别相同，最后形成待识别音频事件流的音频特征向量文件；所述音频特征向量文件包含多个音频特征片段。

步骤3.2，使用步骤2离线训练得到的GMM模型和SVM分类器对步骤3.1得到的音频特征向量文件进行分层识别，经由一定的结果融合判决策略，得到每一个音频片段的类别标签属性。其具体识别过程为：

步骤3.2.1，对于待识别的音频片段的特征向量序列O＝{O₁，O₂，......，O_T}，该音频片段为第l个音频事件的后验概率为：

p (λ_{l} | o) = \frac{p (o | λ_{l}) p (λ_{l})}{p (o)}

= \frac{p (o | λ_{l}) p (λ_{l})}{Σ_{l = 1}^{N} p (o | λ_{l}) p (λ_{l})}

其中：p(λ_l)为第l个音频事件的先验概率；p(o)为所有音频事件条件下特征矢量集o的概率；p(o|λ_l)为第l个音频事件产生的特征矢量集o的条件概率。对于正类别音频事件，类别标签l＝1；对于负类别音频事件，l＝2。

识别结果由最大后验概率给出，即

n^{*} = \arg \max_{l = 1,2} p (λ_{l} | o)

式中，n^*表示识别判决结果。由于每个音频事件的先验概率相等，此外，p(o)也相等。则识别结果等式可化为：

n^{*} = \arg \max_{l = 1,2} p (o | λ_{l})

这样，最大后验概率准则就转化为对数似然函数：

L(o|λ_l)=log p(o|λ_l)l＝1，2

GMM模型识别的任务就是由如下判决公式计算：

n^{*} = \arg \max_{l = 1,2} Σ_{k = 1}^{K} \log p (o_{k} | λ_{l})

其中：p(o_k|λ_l)为第l个音频事件产生的特征矢量集o_k的条件概率。

系统按照以上步骤3.2.1的过程对每一段的特征向量得到的对数累加，使得最大的类别标签就是最后识别结果，最后输出GMM模型识别的类别标签属性结果；

步骤3.2.2，将步骤3.1得到的待识别音频事件流的音频特征文件输入到步骤2.2训练获得的SVM分类器中进行识别，对每一段的特征向量计算步骤2.2中的f(x)，根据f(x)的正负符号判决特征向量的类别属性，正数对应正类型，0和负数对应负类型；最后输出SVM分类器的识别的类别标签属性结果；

步骤3.2.3，结合步骤3.2.1和步骤3.2.2得到的正负类别标签属性结果，进行融合判决，融合判决策略为：当GMM模型和SVM分类器识别的类别标签属性结果一致，则以此类别标签作为识别结果输出；当GMM模型和SVM分类器识别的类别标签属性结果不一致，则输出负类别。

步骤3.3，在步骤3.2.3得到的融合后的识别结果的基础上，对音频事件类别结果序列进行平滑，去除识别结果序列当中的毛刺判决，得到最终识别结果并输出。

有益效果

本发明方法通过融合GMM和SVM，以达到较高的准确率和召回率，并且解决了现有特定音频事件识别中对连续音频流识别效率低、持续时间特别短的音频事件漏检概率高等问题。

与基于MFCC特征的机器学习方法以及传统的典型相关分析法、基于模板匹配和相似性度量的方法相比，本发明综合GMM的较好的概率统计分布描述能力和SVM的较好推广泛化能力，用于识别连续音频事件流中用户所需要的具有某种特定语义或内容的音频(如枪声，汽车声等等)，达到优势互补，弥补单个分类器对音频事件识别准确率较低的缺陷，最终实现对音频事件流中特定音频事件的分层泛化的高准确率、快速识别。

特定音频事件的分层泛化识别方法可针对音频内容中的不安全因素进行识别和过滤，并可以直接应用于特定音频检索和基于内容的网络音频监管。

附图说明

图1为本发明基于GMM和SVM的特定音频事件分层识别方法原理图；

图2为具体实施方式中音频帧和音频片段的关系图；

图3为具体实施方式中结果融合决策树；

图4为具体实施方式中检出准则示意图；

图5为具体实施方式中SVM参数选取实验结果；

图6为具体实施方式中实验结果分析对比。

具体实施方式

为了更好的说明本发明的目的、技术方案和优点，下面结合附图和实施例对本发明方法做进一步详细说明。

本发明是一种基于模型的特定音频事件检测方法，该方法首先对每个原始音频信号进行预处理，提取音频特征参数MFCC，通过将训练音频特征文件分别输入到GMM和SVM中进行训练，生成GMM模型和SVM分类器，最终实现一个融合GMM和SVM的特定音频事件分层识别方法，该方法能够快速准确地识别出音频事件流中特定音频事件，并输出音频事件发生的开始和结束时间。本发明中提出的融合GMM和SVM的特定音频事件分层识别方法原理如图1所示。

本发明的技术方案是通过如下步骤实现的：

步骤1，获得训练样本的音频特征向量文件。所述训练样本根据音频事件种类的不同，分别标记为不同的类别标签。每类的训练样本为多个相同类型音频事件的原始信号的集合，并且不同样本之间没有交叠或者重合。步骤1具体包含的操作内容如下：

步骤1.1，输入训练样本，对训练样本进行预处理。首先对训练样本中每个原始音频信号作预加重处理，减少尖锐噪音影响，提升高频信号，然后针对音频数据添加窗函数形成音频帧，按照设定的短时间时长(10ms-50ms)进行音频分帧处理，其中的每个短时间音频片段成为一帧，完成音频操作后，最后去除静音帧，将原始音频信号划分为一个音频数据帧序列。

由于音频帧时间较短，所提取的音频特征包含的信息相对有限，因此使用音频片段作为训练与识别的基本基元。每一个音频片段包含D帧特征向量，下一片段在上一片段的基础上推移P帧，称为段移，即相邻片段间有(D-P)帧的重叠。具体表示方法如图2所示。

本实施例试验使用窗长为20ms，窗移为10ms的汉明窗，将每50ms定义为一个音频帧，帧移为10ms，使用10帧作为段移，因此在后续操作中，分别对每一个音频文件使用帧长为50ms，帧移为10ms，段移为10帧，完成音频分帧与分段，计算其音频特征参数；

步骤1.2，提取步骤1.1预处理后的训练样本的多种音频特征，对多种音频特征形成的各种组合进行筛选，获得最有效的表征音频特征属性的参数，形成训练样本的音频特征向量文件。

本实施例提取MFCC及其差分、短时能量、短时过零率和基音频率，其中MFCC及其差分主要是提取12维MFCC、12维MFCC一阶差分、12维MFCC二阶差分，简单表示为MFCC，形成以下特征组合：MFCC、短时能量、短时过零率、基音频率、MFCC+短时能量、MFCC+短时过零率、MFCC+基音频率、短时能量+短时过零率、短时能量+基音频率、短时过零率+基音频率、MFCC+短时能量+短时过零率、MFCC+短时过零率+基音频率、短时能量+短时过零率+基音频率、MFCC+短时能量+短时过零率+基音频率等14种组合，经过特征筛选，最终选取MFCC作为本实施例的特征参数。

步骤2，分别使用GMM方法和SVM方法对步骤1得到的音频特征文件进行训练。通过对大量种类繁多的训练样本的音频特征文件进行模型训练，最终得到具有泛化能力的GMM模型和SVM分类器，用于区分音频事件流中的特定音频事件。完成离线训练。具体方法为：

步骤2.1，对步骤1得到的训练样本的音频特征文件，使用最大似然估计通过最大期望算法(Expectation-Maximization algorithm，EM算法)计算，得到n种不同的音频事件相对应的高斯混合模型。一般地，一个高斯混合模型λ由各混合分量的均值矢量、协方差矩阵以及混合权重来描述。

λ＝{ω_k，μ_k,Σ_k}(k＝1，2，……，K)

其概率密度函数表示为：

P (x) = Σ_{k = 1}^{K} p (k) p (x | k)

= Σ_{k = 1}^{K} ω_{k} N (x | μ_{k}, Σ_{k})

式中，K是高斯混合模型中高斯分布的数量；x是d维数据矢量；ω_k是第k个高斯分布的混合权重(即先验概率)；并且满足N(x|μ_k，Σ_k)是均值矢量为μ_k，协方差矩阵为Σ_k的高斯密度函数。在高斯混合模型中，只需要确定ω_k、μ_k、Σ_k这三个参数，就可以完成高斯混合模型的建模过程。通过找到这样一组参数，使得由这组参数所确定的概率分布生成这些给定的数据点(就是建立高斯混合模型的训练数据)的概率最大，而这个概率实际上就等于这里N代表N个数据点。

本发明的高斯混合模型建模过程转化为求最大似然函数：

Σ_{i = 1}^{N} \log {Σ_{k = 1}^{K} ω_{k} N (x | μ_{k}, Σ_{k})}

首先根据所有训练样本的音频特征向量文件，使用K均值聚类的方法得到ω_k、μ_k、Σ_k的初始值，最后由EM算法通过迭代为正负类别音频事件分别确定一组ω_k、μ_k、Σ_k。优化调整GMM模型中ω_k、μ_k、Σ_k，使得最大似然函数的值满足音频识别要求的阈值，得到一组ω_k、μ_k、Σ_k，完成GMM建模过程。具体实施过程分为初始值确定、估计步骤和最大化步骤。

步骤2.1.1，完成使用EM算法估计GMM参数的初始值确定。运用K均值聚类的方法对步骤1.2得到的训练样本的音频特征向量文件进行聚类，聚类得到的各类的均值作为高斯混合模型中均值初始值，聚类得到的各类的协方差矩阵作为高斯混合模型中协方差矩阵初始值。本实施例中高斯混合模型中的先验概率取1/K。

步骤2.1.2，完成使用EM算法估计GMM参数的估计步骤。

令θ_k(ω_k,μ_k,Σ_k)，GMM共有K个单高斯模型。本实施例试验通过样本集估计GMM所有参数：Θ{θ₁,θ₂,.......，θ_K}^T。令ω_k的后验概率为β_k。

β_{ik} = E (ω_{k} | x_{i}; Θ) = \frac{ω_{k} N_{k} (x_{i}; Θ)}{Σ_{i = 1}^{K} ω_{i} N_{i} (x_{i}; Θ)}

其中：1≤i≤N，1≤k≤K。

步骤2.1.3，完成使用EM算法估计GMM参数的最大化步骤。

分别按下式更新权值、均值和协方差矩阵：

ω_{k}^{,} = \frac{Σ_{i = 1}^{N} β_{ik}}{N}

步骤2.1.4，不断地迭代步骤2.1.2和步骤2.1.3步骤，直到满足收敛条件：

|l(X|Θ)-l(X|Θ)‘|<ε

其中：

l (X | Θ) = \log Π_{i = 1}^{N} Σ_{k = 1}^{K} ω_{k} N_{k} (x, μ_{k}, Σ_{k}) = Σ_{i = 1}^{N} \log Σ_{k = 1}^{K} ω_{k} N_{k} (x, μ_{k}, Σ_{k})

ε是设定的误差限。本发明的实施例试验中取ε＝10^-5

l {(X | Θ)}^{,} = Σ_{i = 1}^{N} \log Σ_{k = 1}^{K} {ω_{k}}^{,} N_{k} (x, {μ_{k}}^{,}, {Σ_{k}}^{,})

使用EM算法通过迭代为n类样本分别确定一组GMM参数，每类样本分别对应一个高斯混合模型。

步骤2.2，对步骤1得到的训练样本的音频特征文件，使用二次型寻优方法，使用非线性映射把输入数据即训练样本的音频特征文件，从原始的低维空间映射到高维空间，并计算特征向量和支持向量的内积。在高维空间中使用径向基核函数(RBF)实现原空间中的非线性判决函数，最终得到SVM分类器。

具体实施过程分为训练数据准备、选取核函数和其它最佳参数、训练过程。

步骤2.2.1，使用步骤1.2得到的训练样本的音频特征向量文件，按照SVM分类器所要求的数据格式进行数据格式转换，并将转换后的数据进行缩放。SVM分类器要求的数据格式如下：

<label><index1><value1><index2><value2>……

其中：

<label>是训练数据集的目标值，是标识某个类别的整数。在本发明中的实施例试验中，将第l类样本数据的<label>设为l，其中l为正整数。

<index>是以1开始的整数，可以是不连续的；<value>为实数，也就是提取的音频特征向量值。在本实施例试验中，<value>的值是完成分段后的段音频特征向量。完成数据格式转换后，接着针对<value>中的数据进行数据缩放操作，缩放操作的目的有以下方面：

一是避免一些特征值范围过大而另一些特征值范围过小；二是避免在训练时为了计算核函数而计算内积的时候引起数值计算的困难。因此，通常将<value>缩放到[-1，1]或者是[0，1]之间。本实施例试验中，将段音频特征向量的值缩放在[0，1]之间。

步骤2.2.2，选取核函数和其它最佳参数。SVM分类器通过非线性变换将输入空间变换到高维空间，在这个高维空间中求取最优线性分类面，完成训练。这种非线性变换是通过定义适当的内积核函数来实现的。常见的主要的内积核函数主要有3类，分别是：

多项式核函数：K(x，y)＝(x*y＋1)^d其中：d为多项式的幂指数；

径向基核函数

(RBF) : K (x, y) = \exp (- \frac{{| | x - y | |}^{2}}{{2 σ}^{2}})

Sigmoid核函数：K(x，y)＝tanh(k(x*y)-μ)

上述3种内积核函数中的y代表训练数据的类别标签，也就是训练数据中的<label>值。

本发明实施例试验中采用径向基(RBF)核函数作为核函数来实现非线性变换，主要原因是因为RBF核函数具有良好的性态，在实际问题中表现出了良好的性能。因为采用RBF核函数的SVM分类器性能只与c和g有关，采用交叉验证选择最佳参数c与g。本发明的实施例试验通过使用网格遍历算法进行最佳参数选择，最终得到c＝2048,g＝8。

步骤2.2.3，在步骤2.2.2的基础上，进行SVM分类器的训练，得到区分不同类别的SVM分类器文件。具体来说，SVM的目标是就是要根据结构风险最小化原理，构造一个目标函数将不同类别模式尽可能地区分开来，通常使用两分类来讨论，对于多分类问题，一般采用训练多个一对余分类器解决。针对两分类问题，分为两类情况来讨论：(1)线性可分；(2)线性不可分。

线性可分情况下：

在线性可分的情况下，就会存在一个超平面使得训练样本完全分开，该超平面可描述为：

ω·x+b＝0

其中：“·”是点积，ω是n维向量，b为偏移量。

最优超平面是使得每一类数据与超平面距离最近的向量与超平面之间的距离最大的这样的平面。最优超平面可以通过解下面的二次优化问题来获得：

\min Φ (ω) = \frac{1}{2} {| | ω | |}^{2}

满足约束条件：

y_i(ω·x_i+b)≥1

i＝1，2，3.......n

在特征数目特别大的情况，可以将此二次规划问题转化为其对偶问题：

\max W (α) = Σ_{i = 1}^{n} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} (x_{i} x_{j})

w * = Σ_{i = 1}^{n} α_{i} y_{i} x_{i}

b*＝y_i-w*x_i

满足约束条件：

Σ_{i = 1}^{n} α_{i} y_{i} = 0, α_{i} > 0, i = 1,2 . . . . . . . n

这里：α=(α₁，α₂,.......α_n)是Larange乘子，w^*是最优超平面的法向量，b^*是最优超平面的偏移量。在这类优化问题的求解与分析中，KKT条件将起到很重要的作用，其解必须满足：

α_i{y_i(ω·x+b)-1}＝0,i＝1,2，.......n

那些α_i=0的样本对分类没有任何作用，只有那些α_i>0的样本才对分类起作用，这些样本称为支持向量，故最终的分类函数为：

f (x) = Σ_{i = 1}^{n} y_{i} α_{i} (x * x_{i}) + b^{*}

根据f(x)的符号来确定x的类别。

线性不可分的情况：

对于线性不可分的情况，可以把样本x映射到一个高维特征空间H，并在此空间中运用原空间的函数来实现内积运算，这样将非线性问题转换成另一空间的线性问题来获得一个样本的归属。根据泛函的有关理论，只要一种核函数满足Mercer条件，它就对应某一空间中的内积，因此只要在最优分类面上采用适当的内积函数就可以实现这种线性不可分的分类问题。此时的目标函数为：

\max W (α) = Σ_{i = 1}^{n} α_{i} - \frac{1}{2} Σ_{i, j = 1}^{n} α_{i} α_{j} y_{i} y_{j} K (x_{i} * x_{j})

其相应的分类函数为：

f (x) = Σ_{i = 1}^{n} y_{i} α_{i} K (x * x_{i}) + b^{*}

本发明的实施例将步骤2.2.1中的转换后的训练样本的音频特征向量文件，设置c和g为步骤2.2.2的遍历的最优参数值，进行SVM分类器训练，得到SVM分类器文件。模型文件中包含训练所采用的SVM类型，本实施例试验采用的SVM类型是为C-SVC；训练采用的核函数类型，本实施例采用的是RBF核；操作参数设置中的g值；分类时的类别数，本实施例是两分类问题；总共的支持向量个数；决策函数f(x)中的常数项b；类别标签和各类别标签对应的支持向量个数、支持向量。

步骤3，利用步骤2离线训练得到的GMM模型和SVM分类器，对待测音频事件流进行在线识别，并经由一定的结果融合判决策略，输出最终的识别结果。

步骤3.1，首先对待识别音频事件流文件进行预处理，完成待识别音频事件流文件的分帧与分段，接着进行音频特征提取，待识别音频事件流提取的音频特征参数类别与步骤1.2中训练样本的音频特征参数类别相同，最后形成待识别音频事件流的音频特征向量文件。

本发明的实施例提取的待识别音频事件流文件的特征参数是12维MFCC、12维MFCC一阶差分、12维MFCC二阶差分。

步骤3.2，使用步骤2离线训练得到的GMM模型和SVM分类器对步骤3.1得到的音频特征文件进行分层识别，经由一定的结果融合判决策略，得到每一个音频片段的类别标签属性。其具体识别过程为：

步骤3.2.1，将步骤3.1得到的待识别音频事件流的音频特征文件输入到步骤2.1训练获得的GMM模型中进行识别，本实施例中GMM模型的高斯分布数目参数K=32，假设待识别的音频片段的特征向量序列是O＝{O₁，O₂，......，O_T}，则该音频片段为第l个音频事件的后验概率为：

p (λ_{l} | o) = \frac{p (o | λ_{l}) p (λ_{l})}{p (o)} = \frac{p (o | λ_{l}) p (λ_{l})}{Σ_{l = 1}^{N} p (o | λ_{l}) p (λ_{l})}

识别结果由最大后验概率给出，即

n^{*} = \arg \max_{l = 1,2} p (λ_{l} | o)

n^{*} = \arg \max_{l = 1,2} p (o | λ_{l})

这样，最大后验概率准则就转化为对数似然函数：

L(o|λ_l)=log p(o|λ_l)l=1，2

GMM模型识别的任务就是由如下判决公式计算：

n^{*} = \arg \max_{l = 1,2} Σ_{k = 1}^{K} \log p (o_{k} | λ_{l})

其中：p(o_k|λ_l)为第l个音频事件产生的特征矢量集O_k的条件概率。系统按照以上过程对每一段的特征向量得到的对数累加，使得最高的类别标签就是最后识别结果，最后输出GMM模型识别的类别标签属性结果；

步骤3.2.2，在步骤3.1得到的待识别音频事件流的音频特征文件输入到步骤2.2训练获得的SVM分类器中进行识别，本实施例中采用径向基核函数(RBF)，RBF通过把样本空间非线性地映射到一个高维特征空间，从而能更好地处理类别和类属性之间存在的非线性联系。系统的识别就是对每一段的特征向量计算步骤2.2.3中的f(x)，根据f(x)的值判决特征向量的类别属性，正数对应正类型，0和负数对应负类型；最后输出SVM分类器的识别的类别标签属性结果；

步骤3.2.3，结合步骤3.2.1得到的GMM模型的识别结果和步骤3.2.2得到的SVM分类器的类别标签属性结果，进行结果融合判决，本发明中采用的融合准则为：只要是GMM分类识别为非枪声时，最终结果为非枪声，当GMM分类识别为枪声，但SVM分类识别为非枪声时，结果为非枪声，只有当GMM分类识别和SVM分类识别同时为枪声时，最终结果为枪声。假设GMM分类判决为非枪声时，输出为0，GMM分类判决为枪声时，输出为1；SVM分类判决为非枪声时，输出为0，SVM分类判决为枪声时，输出为1，根据融合准则，可以得到融合GMM和SVM的输出结果如图3所示。最终完成识别结果融合判决，并输出融合后的识别结果。此算法通过融合GMM和SVM，以求达到较高的准确率和召回率，并且可以解决现有特定音频事件识别中对连续音频流识别效率低、持续时间特别短的音频事件漏检概率高等问题。

本发明使用的惯性平滑处理规则如下：如果连续片段(1～4个)之间的类型一致，并且与其前与其后的类型都不一致，那么就使这些片段类型和它前边片段的类型一致。具体规则包括：XYX→XXX，XXY→XXX，XYYX→XXXX，XXYYXX→XXXXXX等等，其中X代表一种识别结果，本系统中是枪声事件；Y代表另一种识别结果，如其他类型的音频片段。

为验证本发明方法的切实可行，分别以BFS实验室枪声音频事件实验库中的枪声作为输入，设计并部署3项试验：(1)选择GMM和SVM中的参数试验；(2)融合GMM和SVM的混合方法与单独使用GMM方法或者SVM方法的对比试验；(3)融合GMM和SVM的混合方法对比分析试验，最后分析了本发明方法的复杂度。

试验采用融合SVM和GMM的混合分类器，使用泛化的枪声模板对音频事件流中不同子类别的枪声进行识别。识别过程中利用子类的共性特征降低模板对子类差异的敏感度达到泛化识别的目标，最后对识别结果进行平滑处理。

下面将对上述3个试验逐一进行说明，所有试验均在同一台计算机上完成，具体配置为：Intel双核CPU(主频1.8G)，2G内存，Windows XP SP3操作系统。

试验数据资源：本发明将枪声音频片段作为特定音频事件。因此，枪声为正训练样本，非枪声为负训练样本。正训练样本包括游戏枪声和电影枪声，游戏枪声是从各种射击游戏里获取的，样本总时长约30min。电影枪声则是人工从含有枪声的电视剧或电影中录制得到的，样本总时长约30min。无论是游戏枪声还是电影枪声都包含了各种不同类型的枪声，包括手枪、步枪、机关枪等发出的枪声。负训练样本包含各种乐器的声音、动物的叫声、各种语言的人声，风格迥异的音乐等等，尽可能多的包含除枪声外的各种声音，样本总时长约60min。测试数据为50段音频事件流，总时长约1h。其中包含136个枪声片段，枪声片段的总时长约20min。所有音频文件均转化为单声道、采样速率8kHz、解析度16位的PCM格式文件。

评价方法：本发明采用两种方法来评价系统，一种是基于片段的评价参数，反应系统识别的准确程度。另一种是基于时长的评价参数，反应系统识别的精确程度。

检出准则：本方法的识别对象是音频流，音频流经过识别后被切分为若干音频片段，每个音频片段在内容类别上具有一致性。若识别出的特定音频片段与真实的特定音频片段在时序上有重叠，则认为该特定音频片段被正确识别；若没有重叠，则一定存在误检或漏检的现象。检出准则如图4所示。

评价方法I：基于片段的准确率P_frag和召回率R_frag

设M=系统正确检出的枪声片段数，N=系统检出的枪声片段总数，Z=真实枪声片段总数。则有：

P_frag＝M/N

R_frag＝M/Z

F_{frag} = \frac{2 \cdot P_{frag} \cdot R_{frag}}{P_{frag} + R_{frag}}

评价方法Ⅱ：基于时长的准确率P_t和召回率R_t

设R=系统正确检出的枪声的总时长，S=系统检出的枪声总时长，T=真实枪声的总时长。

P_t＝R/S

R_t＝R/T

F_{t} = \frac{2 \cdot P_{t} \cdot R_{t}}{P_{t} + R_{t}}

1.GMM方法、SVM方法参数选择试验

本组试验主要是选取GMM中高斯分布数目参数K值和SVM中参数c和g的。实验通过设置不同的K值，使用GMM对枪声事件进行训练和识别，K值分别取8、12、16、32和64，表1列出了不同K值下的系统识别性能。

表1确定高斯数目M试验结果

从上表可以看出，当K值取8、12、16、32时，系统的准确率逐渐提升，但是当K＝64时，系统的识别准确率基本不变，但是由于模型复杂，导致计算量大幅增加，训练时间增长。造成识别准确率不变的主要原因是当K＝64时，GMM模型比较复杂，需要大量的数据进行模型训练，而本发明的训练样本量相对较少，所建立的模型不够精确，最终使得识别性能基本没有提高。综合考虑实验所用的训练样本量和训练时间，本发明采用K＝32作为融合算法中GMM模型的高斯混合模型数目值。

选取SVM方法作为特定音频事件识别模型，主要是因为本发明所使用的枪声训练数据量有限，而SVM正是满足适用于有限的小样本分类问题的特点，且可以得到较高的识别率。

在SVM中，常用的核函数有多项式核函数、径向基核函数(RBF)、Sigmoid核函数，除此之外，在特殊的场合还可以构造特殊的核函数。相对于其它几种核函数，RBF具有一定的优势：与线性多项式核相比，RBF通过把样本空间非线性地映射到一个高维特征空间，从而能更好地处理类别和类属性之间存在的非线性联系；在一定条件下，线性核是RBF核的特例；而Sigmoid核在参数选定后与RBF也是相通的。因此，本实施例试验采用RBF作为核函数。

基于RBF的SVM函数得到的分类器的性能只与c及g有关。实验中利用网格遍历方法获得最优参数c和g。观察实验结果图5(图中横坐标是log₂(c)，纵坐标是log₂(g))发现，当c＝8192,g＝8时，准确率最高，但是训练时间过长，导致系统时间效率低，因此本实施例选取c＝2048,g＝8。

2.融合方法与单独使用GMM、SVM对比实验

本组试验主要验证融合GMM和SVM混合方法与单独使用GMM、SVM方法相比，可以解决单个分类器在枪声识别中准确率低的问题，混合方法具有高的准确率。实验结果如表2所示。

表2融合GMM和SVM混合方法与GMM方法、SVM方法的识别结果

假设GMM分类器正确检测的枪声个数为a_g，SVM分类器正确检测的枪声个数为a_s；GMM检测的枪声总个数为b_g，SVM检测的枪声总个数为b_s；真实的枪声总个数为q。则融合GMM和SVM的混合分类器正确检测的枪声个数是a_gs=a_g∩a_s，检测的枪声总个数为b_gs=b_g∩b_s，根据平滑处理规则对识别结果处理后，有

p_{g} = \frac{a_{g}}{b_{g}};

p_{s} = \frac{a_{s}}{b_{s}};

p_{gs} = \frac{a_{gs}}{b_{gs}}

由于b_gs《min(b_g,b_s)，a_gs《min(a_g,a_s)，所以p_gs>p_s>p_g。试验结果和理论同时证明了融合方法对特定音频事件具有高准确率的识别效果，并且该融合方法解决了持续时间短的音频事件识别正确率低的问题。

g3.方法对比试验

通过试验，比较融合GMM和SVM的混合方法与AdaBoost方法的识别性能。实验采用MFCC作为音频特征参数，AdaBoost方法使用文献中给出的最优迭代次数860。融合GMM和SVM的混合方法中GMM的高斯混合模型数目为K＝32，SVM分类器中使用的核函数为RBF函数，选取局部最优参数c＝2048,g＝8，试验还记录了算法的开始和结束时间。试验比较结果如表3所示。试验比较结果的柱状图如图6所示。

表3不同方法对比试验结果

目前国外与特定音频流泛化识别方法在输入输出以及性能评价方面相似的研究通过提取枪声音频特征，并使用SVM方法进行训练和识别，其PRp(TP/P)为67％，PRn为(TN/N)81％。

从图6可以看出，使用融合GMM和SVM的混合分类器进行枪声识别与文献使用的AdaBoost相比，在同样使用MFCC作为特征参数的情况下，召回率基本保持不变，准确率相比分别提高了7.58％和9.70％，F值也有一定的提高。这说明融合GMM和SVM的音频事件分层识别系统可以提高时间较短的音频事件的检出率，弥补AdaBoost分类器对时长较短的音频事件准确率较低的缺陷，同时降低系统的虚检率和漏检率，提升特定音频事件识别系统的识别性能。

g4.方法复杂度分析

特定音频事件识别在特征向量生成阶段，通过使用段特征向量代替帧特征来训练生成识别模板，降低了系统的处理数据量和运算量，提高系统的处理速度；文中共有10种枪声类别，传统的识别方法需要对应于10类枪声生成10个识别模板，需要大量的训练时间和识别时间，系统效率低下。本发明中的融合方法不同于传统的识别方法，只需要生成2个具有泛化能力的识别模板，大大缩减了系统的训练时间与识别时间，明显提高了系统的效率，便于实际应用；并且由于GMM方法复杂度(对于一个包含d个混合分量的k个混合高斯模型，其维度为m维，那么算法复杂度就是O(mdk)和SVM方法复杂度(一般在和o(d_L ²)之间，其中N_sv是支持向量的个数，L是训练集样本的个数，d是每个样本的维数(原始的维数，没有经过向高维空间映射之前的维数))较低，识别精度高，因此可以明显提高系统识别效率。

试验过程中记录的训练时间和识别时间如表4所示。

表4不同方法的运行时间

试验结果表明，融合GMM和SVM混合方法训练时间与AdaBoost(AdaBoost方法在弱分类器的选择过程中，其中的贪心算法的算法复杂度为O(k2))相比，基本上保持不变，但是识别时间提高了47.356％。总的来说，融合SVM和GMM的方法复杂度低，可以提高系统的识别速度。理论和实验同时表明，本文所提算法针对特定音频事件识别具有较好的实际使用价值。

根据试验对比结果可以看出，本发明方法完成了发明目标，具有高精度的特定音频事件快速识别效果。

Claims

1.基于SVM和GMM的特定音频事件分层泛化识别方法，其特征在于：包括如下步骤：

步骤1，获得训练样本的音频特征向量文件；所述训练样本根据音频事件种类的不同，分别标记为不同的类别标签；每类训练样本为多个相同类型音频事件原始信号的集合，并且不同训练样本之间没有交叠或者重合；

步骤2，分别使用GMM方法和SVM方法对步骤1得到的多种训练样本的音频特征向量文件进行训练，得到具有泛化能力的GMM模型和SVM分类器，完成离线训练；

步骤2.1，对步骤1得到的所有训练样本的音频特征向量文件，使用最大似然估计通过最大期望算法，得到该类型音频事件的高斯混合模型，并将其转化为求最大似然函数：

Σ_{i = 1}^{N} \log {Σ_{k = 1}^{K} {ωk}^{N} (x | μ_{k}, Σ_{k})}

式中，N代表N个训练样本，K是高斯混合模型中高斯分布的数量；x是d维数据矢量；ωk是第k个高斯分布的先验概率，且满足N(x|μ_k,Σ_k)是均值矢量为μ_k、协方差矩阵为Σ_k的高斯密度函数；

根据所有训练样本的音频特征向量文件，使用K均值聚类的方法得到ωk、μ_k、Σ_k的初始值，最后由最大期望算法通过迭代为正负类别音频事件分别确定一组ωk、μ_k、Σ_k；优化调整GMM模型中ωk、μ_k、Σ_k，使得最大似然函数的值满足音频识别要求的阈值，得到一组ωk、μ_k、Σ_k，完成GMM建模过程；

f (x) = Σ_{i = 1}^{n} y_{i} α_{i} K (x^{*} x_{i}) + b^{*}

其中，n是特征向量的维数，α_i＝(α1,α2,......,αn)是拉格朗日乘子，b^*是最优超平面的偏移量，y_i是类别标签值；K(x^*x_i)是对应的内积核函数，在训练样本为线性可分情况下，K(x^*x_i)取x^*x_i；

步骤3，利用步骤2离线训练得到的GMM模型和SVM分类器，对待测音频事件流进行在线识别与融合判决，输出最终的识别结果；

步骤3.1，首先对待识别音频事件流文件进行预处理，完成待识别音频事件流文件的分帧与分段，接着进行音频特征提取；待识别音频事件流提取的音频特征参数类别与离线训练过程中训练样本的音频特征参数类别相同，最后形成待识别音频事件流的包含多个音频特征片段的音频特征向量文件；

步骤3.2，使用步骤2离线训练得到的GMM模型和SVM分类器对步骤3.1得到的音频特征向量文件进行分层识别，经由一定的结果融合判决策略，得到每一个音频片段的类别标签属性；其具体识别过程为：

步骤3.2.1，对于待识别的音频片段的特征向量序列O＝{o₁,o₂,......,o_T}，该音频片段为第l个音频事件的后验概率为：

\begin{matrix} p (λ_{l} | o) = \frac{p (o | λ_{l}) p (λ_{l})}{p (o)} \\ = \frac{p (o | λ_{l}) p (λ_{l})}{Σ_{l = 1}^{N} p (o | λ_{l}) p (λ_{l})} \end{matrix}

其中：p(λ_l)为第l个音频事件的先验概率；p(o)为所有音频事件条件下特征矢量集o的概率；p(o|λ_l)为第l个音频事件产生的特征矢量集o的条件概率；对于正类别音频事件，类别标签l＝1；对于负类别音频事件，l＝2；

识别结果由最大后验概率给出，即

n^{*} = \arg \max_{l = 1,2} p (λ_{l} | o)

式中，n^*表示识别判决结果；由于每个音频事件的先验概率相等，此外，p(o)也相等；则识别结果等式可化为：

n^{*} = \arg \max_{l = 1,2} p (o | λ_{l})

这样，最大后验概率准则就转化为对数似然函数：

L(o|λ_l)＝logp(o|λ_l) l＝1,2

GMM模型识别的任务就是由如下判决公式计算：

n^{*} = \arg \max_{l = 1,2} Σ_{k = 1}^{K} lgop (O_{k} | λ_{l})

其中：p(O_k|λ_l)为第l个音频事件产生的特征矢量集o_k的条件概率；系统按照以上步骤3.2.1的过程对每一段的特征向量得到的对数累加，使得最大的类别标签就是最后识别结果，最后输出GMM模型识别的类别标签属性结果；

步骤3.2.2，将步骤3.1得到的待识别音频事件流的音频特征文件输入到步骤2.2训练获得的SVM分类器中进行识别，对每一段的特征向量，根据f(x)的正负符号判决特征向量的类别属性，正数对应正类型，0和负数对应负类型；最后输出SVM分类器的识别的类别标签属性结果；

步骤3.2.3，结合步骤3.2.1和步骤3.2.2得到的正负类别标签属性结果，进行融合判决，融合判决策略为：当GMM模型和SVM分类器识别的类别标签属性结果一致，则以此类别标签作为识别结果输出；当GMM模型和SVM分类器识别的类别标签属性结果不一致，则输出负类别；

2.根据权利要求1所述的基于SVM和GMM的特定音频事件分层泛化识别方法，其特征在于：训练样本的音频特征向量文件的获取方法具体为：

步骤1.1，对输入的每一个训练样本分别作预处理：首先对训练样本中的每个原始音频信号作预加重处理，减少尖锐噪音影响，提升高频信号，然后针对音频数据添加窗函数形成音频帧，设置一定的帧移，完成音频分段，最后去除静音帧；

步骤1.2，提取预处理后的训练样本的多种音频特征，对多种音频特征形成的各种特征组合进行筛选，获得最有效的表征音频特征属性的参数，形成训练样本的音频特征向量文件；

3.根据权利要求1所述的基于SVM和GMM的特定音频事件分层泛化识别方法，其特征在于：采用“一对余”的分类识别策略，针对一类音频事件建立一组GMM模型和SVM分类器，将该类型作为正类别，其余类型作为负类别；并行采用多组GMM模型和SVM分类器能实现多类型音频事件识别。