CN110120230A

CN110120230A - 一种声学事件检测方法及装置

Info

Publication number: CN110120230A
Application number: CN201910015466.1A
Authority: CN
Inventors: 袁庆升; 包秀国; 时磊; 邹学强; 张翠; 胡燕琳; 韩纪庆; 汪瑞
Original assignee: Harbin Institute of Technology; National Computer Network and Information Security Management Center
Current assignee: Harbin Institute of Technology; National Computer Network and Information Security Management Center
Priority date: 2019-01-08
Filing date: 2019-01-08
Publication date: 2019-08-13
Anticipated expiration: 2039-01-08
Also published as: CN110120230B

Abstract

本发明提供一种声学事件检测方法及装置，用以解决相关技术中声学事件检测精度较低的问题。该方法包括：提取待检测的音频的目标特征，得到第一特征数据；将所述第一特征数据分别输入第一GMM模型以及第二GMM模型，得到第一似然概率以及第二似然概率，所述第一GMM模型基于声学事件的音频的特征数据进行训练得到，所述第二GMM模型基于非声学事件的音频的特征数据进行训练得到；根据所述第一似然概率以及所述第二似然概率依次确定所述待检测的音频中各单位音频的类型，所述类型包括声学事件以及非声学事件；将确定出的相邻的类型为声学事件的单位音频合并；当合并后的音频持续的时长超过阈值时，确定发生声学事件。本发明有效提高了声学事件检测的精度。

Description

一种声学事件检测方法及装置

技术领域

本发明涉及事件检测技术领域，尤其涉及一种声学事件检测方法及装置。

背景技术

声学事件检测主要涉及监控环境下对一些非常规事件的检测，这些声学事件的检测可以辅助监控人员针对不同事件及时采取应对措施，将损害降低至最小。监控设备的普及造成数据量的激增，这使得基于视频画面进行事件检测的方式变得迟钝而缓慢。而声音对一些枪声之类的带有明显“暴恐”意味的声学事件具有很强的表现力，而且音频数据处理的快速性也使得基于音频的声学事件检测方式成为监控环境下声学事件检测的有力措施。但噪音对于声学事件检测系统具有较大影响，噪音不仅会掩蔽目标事件音还会造成目标事件音的畸变，给检测带来较大困难。对于公共场所来说，噪音来源于实际生活中的各种非目标事件音，虽然一些相关技术中通过在目标事件中加入高斯白噪声来模拟噪声的影响，但这并不能刻画多变复杂的现实噪音，导致基于声音检测声学事件的精度较低。

发明内容

本发明的主要目的在于提供一种声学事件检测方法及装置，以解决相关技术中声学事件检测精度较低的问题。

根据本发明的一个方面，提供了一种声学事件检测方法，包括：提取待检测的音频的目标特征，得到第一特征数据；将所述第一特征数据分别输入第一高斯混合GMM模型以及第二GMM模型，得到第一似然概率以及第二似然概率，所述第一GMM模型基于声学事件的音频的特征数据进行训练得到，所述第二GMM模型基于非声学事件的音频的特征数据进行训练得到；根据所述第一似然概率以及所述第二似然概率依次确定所述待检测的音频中各单位音频的类型，所述类型包括声学事件以及非声学事件；将确定出的相邻的类型为声学事件的单位音频合并；当合并后的音频持续的时长超过阈值时，确定发生声学事件。

可选地，所述方法还包括：在预设特征空间下，分别提取第一训练集中各音频以及第二训练集中各音频的目标特征，得到第二特征数据以及第三特征数据，所述第一训练集中的音频为声学事件对应的音频，所述第二训练集中的音频为背景音对应的音频；分别根据所述第二特征数据以及所述第三特征数据训练GMM模型；基于最小描述长度MDL准则确定高斯分量数，基于所述高斯分量数根据训练出的GMM模型确定出所述第一GMM模型以及所述第二GMM 模型。

可选地，所述目标特征包括以下至少一种：过零率、短时能量、频谱形状描述子、子带能量分布描述子、梅尔频谱倒谱系数以及对数梅尔频率滤波器系数。

可选地，所述方法还包括：提取第一训练集中音频的特征，得到声学事件的特征集合，所述第一训练集中的音频为声学事件的音频；采用基于局部学习的特征选择算法对所述声学事件特征集合中的特征进行加权，得到加权后的特征空间；基于最大间隔理论学习所述声学事件特征集合中各特征对应的权值，所述权值的用于表示所述声学事件特征集合中各特征在区分声学事件以及背景音的重要程度；根据所述权值，得到多个特征子集，各所述特征子集中包括所述声学事件集合中的部分元素；检测各所述特征子集对声学事件的识别性能指标；根据各所述特征子集的维度以及各所述特征子集对声学事件的识别性能指标确定出各所述特征子集中的目标特征子集，将所述目标特征子集作为用于训练所述第一GMM模型的第一训练集，将所述目标特征子集中的特征作为所述目标特征。

可选地，所述方法还包括：在将所述目标特征分别输入所述第一GMM高斯混合模型以及所述第二GMM模型之前，利用预先进行基于混合局部字典的训练得到的声学事件字典和/或背景音字典对所述待检测的音频的声音频谱进行增强。

根据本发明的一个方面，提供了一种声学事件检测装置，包括：第一提取模块，用于提取待检测的音频的目标特征，得到第一特征数据；输入模块，用于将所述第一特征数据分别输入第一GMM高斯混合模型以及第二GMM模型，得到第一似然概率以及第二似然概率，所述第一GMM模型基于声学事件的音频的特征数据进行训练得到，所述第二GMM模型基于非声学事件的音频的特征数据进行训练得到；第一确定模块，用于根据所述第一似然概率以及所述第二似然概率依次确定所述待检测的音频中各单位音频的类型，所述类型包括声学事件以及非声学事件；合并模块，用于将确定出的相邻的类型为声学事件的单位音频合并；第二确定模块，用于当合并后的音频持续的时长超过阈值时，确定发生声学事件。

可选地，所述装置还包括：第二提取模块，用于在预设特征空间下，分别提取第一训练集中各音频以及第二训练集中各音频的目标特征，得到第二特征数据以及第三特征数据，所述第一训练集中的音频为声学事件对应的音频，所述第二训练集中的音频为背景音对应的音频；训练模块，用于分别根据所述第二特征数据以及所述第三特征数据训练GMM模型；选择模块，用于基于最小描述长度MDL准则确定高斯分量数，基于所述高斯分量数根据训练出的GMM 模型确定出所述第一GMM模型以及所述第二GMM模型。

可选地，所述目标特征至少包括以下一种：过零率、短时能量、频谱形状描述子、子带能量分布描述子、梅尔频谱倒谱系数以及对数梅尔频率滤波器系数。

可选地，所述装置还包括：第三提取模块，用于提取第一训练集中音频的特征，得到声学事件的特征集合，所述第一训练集中的音频为声学事件的音频；加权模块，用于采用基于局部学习的特征选择算法对所述声学事件特征集合中的特征进行加权，得到加权后的特征空间；学习模块，用于基于最大间隔理论学习所述声学事件特征集合中各特征对应的权值，所述权值的用于表示所述声学事件特征集合中各特征在区分声学事件以及背景音的重要程度；获得模块，用于根据所述权值，得到多个特征子集，各所述特征子集中包括所述声学事件集合中的部分元素；检测模块，用于检测各所述特征子集对声学事件的识别性能指标；第三确定模块，用于根据各所述特征子集的维度以及各所述特征子集对声学事件的识别性能指标确定出各所述特征子集中的目标特征子集，将所述目标特征子集作为用于训练所述第一GMM模型的第一训练集，将所述目标特征子集中的特征作为所述目标特征。

可选地，所述装置还包括：增强模块，用于在将所述目标特征分别输入所述第一GMM高斯混合模型以及所述第二GMM模型之前，利用预先进行基于混合局部字典的训练得到的声学事件字典和/或背景音字典对所述待检测的音频的声音频谱进行增强。

本发明实施例的声学事件检测方法，通过预先训练得到的声学事件的GMM 模型以及背景音的GMM模型可对未知类型的音频进行分类，能够有效的区别未知音频中的声学事件以及背景音，提高了声学事件检测的精度。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据一示例性实施例示出的一种声学事件检测方法的流程图；

图2是根据一示例性实施例示出的一种声学事件检测方法的流程图；

图3是基于MDL的模型评价准则确定最佳模型分量数的示意图；

图4是根据一示例性实施例示出的一种声学事件检测方法的流程图；

图5是根据一示例性实施例示出的基于局部学习的特征选择过程的示意图；

图6是根据一示例性实施例示出的最大化间隔理论及公式示意图；

图7是根据一示例性实施例示出的基于非负矩阵分解的声学事件降噪过程的示意图；

图8是根据一示例性实施例示出的一种声学事件检测装置的框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是根据一示例性实施例示出的一种声学事件检测方法的流程图，如图1 所示，该方法包括如下步骤：

步骤101：提取待检测的音频的目标特征，得到第一特征数据；

在提取音频的目标特征之前，可对音频数据进行分帧和/或加窗处理，通过分析声学事件(该声学事件例如可以是异常事件)的特征，以帧为单位，可提取声学事件在时域、频域和感知域上的特征，该特征例如可包括过零率、短时能量、频谱形状描述子、子带能量分布描述子、反映人耳听觉的梅尔频率倒谱系数以及对数梅尔频率滤波器组系数中的一种或多种。为了刻画特征的动态性，可分别取这些特征的一阶与二阶差分。

步骤102：将所述第一特征数据分别输入第一GMM高斯混合模型以及第二 GMM模型，得到第一似然概率以及第二似然概率，所述第一GMM模型基于声学事件的音频的特征数据进行训练得到，所述第二GMM模型基于非声学事件的音频的特征数据进行训练得到；

其中，第一GMM模型以及第二GMM模型可基于训练集中的数据预先训练完成，其中，第一GMM模型可利用训练集中的声学事件的音频的特征进行训练，第二GMM模型可利用训练集中的背景音的音频的特征进行训练。

步骤103：根据所述第一似然概率以及所述第二似然概率依次确定所述待检测的音频中各单位音频的类型，所述类型包括声学事件以及非声学事件；

在步骤103中，第一似然概率表示音频的类型为声学事件的概率，第二似然概率表示音频的类型为背景音的概率，当第一似然概率大于第二似然概率时，确定音频的类型为声学事件，反之，确定音频的类型为背景音。其中，单位音频例如以帧为单位的音频。

步骤104：将确定出的相邻的类型为声学事件的单位音频合并；

例如，在确定出相邻的多帧音频的类型为声学事件时，可将该多帧音频合并，得到一段音频。

步骤105：当合并后的音频持续的时长超过阈值时，确定发生声学事件。

以下结合附图2对上述声学事件检测方法进行进一步说明，在图2所示的方法中，声学事件以枪声为例，对枪声类或背景音类训练数据进行分帧、加窗、提取特征并归一化处理之后，基于处理后的数据训练得到枪声类和/或背景音类 GMM分类模型(也称分类器)。基于该分类模型对实时音频流进行声学事件检的流程可包括：在分别训练出声学事件和背景音的GMM模型之后，对于未知类型的音频(包括声学事件的音频以及背景音的音频)，即测试音频流进行分帧 (如图2所示，可分为FRAME(帧)1至FRAMEN)、加窗以及提取出相应特征并进行归一化后，分别输入到声学事件和背景音的GMM模型中，分别得到其在声学事件GMM模型以及背景音GMM模型下的似然概率，通过比较概率值的高低判断当前帧的标签(即当前帧的类型)，在得到连续几帧的标签后，可采用中值滤波对它们进行平滑，并可将相邻的声学事件帧(帧对应的标签为声学事件时，称该帧为声学事件帧)拼接为声学事件段，如果声学事件段的时长超过阈值，则可认为出现了声学事件。

本发明实施例的声学事件检测方法，通过预先训练得到的声学事件的GMM 模型以及背景音的GMM模型可对未知类型的音频进行分类，能够有效的区别未知音频中的声学事件以及背景音，提高了声学事件检测的精度

在一种可实现方式中，在声学事件检测方法中还可包括建立上述第一GMM 模型以及第二GMM模型的步骤，基于此，该方法还可包括：在预设特征空间下，分别提取第一训练集中各音频以及第二训练集中各音频的目标特征，得到第二特征数据以及第三特征数据，所述第一训练集中的音频为声学事件对应的音频，所述第二训练集中的音频为背景音对应的音频；分别根据所述第二特征数据以及所述第三特征数据训练GMM模型；基于最小描述长度MDL准则确定高斯分量数，基于所述高斯分量数根据训练出的GMM模型确定出所述第一 GMM模型以及所述第二GMM模型。在预设特征空间下，提取声学事件和背景音的特征，在此之前，可先对音频文件进行分帧和/或加窗处理，得到每帧音频数据，然后对每帧音频数据提取相应的特征并进行归一化；在提取音频数据的特征后，可分别对声学事件和背景音训练各自的GMM模型，传统的GMM模型训练过程需要事先确定分量数，但对于声学事件和背景音，并不确定最佳分量数，可使用一种基于MMDL的模型评价准则来自动确定最佳模型分量数，图 3是基于MMDL的模型评价准则确定最佳模型分量数的示意图，如图3所示，基于MMDL的模型评价准则确定最佳模型分量数据的过程可包括：输入最小分量数据K_min和最大分量数据K_max，将当前分量数K设置为K_max，用EM (Expectation Maximization Algorithm，最大期望算法)训练分量数为K下的 GMM模型，并记录当前模型下的MMDL，合并当前GMM模型中最相似的两个分量，将合并后的模型参数作为下一次的初始参数，将当前分量数K设置为 K-1，在K＜K_min时输出具有最小MMDL的模型。

其中，计算MMDL评价值的公式为：

其中，表示C个高斯分量的权值和参数；表示该GMM模型的误差，N表示样本数，M(1)为一常数。根据上述流程以及相应MMDL的计算公式，可选择出数量最少且效果最优的GMM模型作为当前声学事件的最优判别模型。在本实施例中，将基于最小描述长度的GMM模型训练用于声学事件检测系统，使得模型减小且效果最优。

在一种可实现方式中，所述目标特征可包括以下至少一种：过零率、短时能量、频谱形状描述子、子带能量分布描述子、梅尔频谱倒谱系数以及对数梅尔频率滤波器系数。

在一种可实现方式中，所述声学事件检测方法还可包括：提取第一训练集中音频的特征，得到声学事件的特征集合，所述第一训练集中的音频为声学事件的音频；采用基于局部学习的特征选择算法对所述声学事件特征集合中的特征进行加权，得到加权后的特征空间；基于最大间隔理论学习所述声学事件特征集合中各特征对应的权值，所述权值的用于表示所述声学事件特征集合中各特征在区分声学事件以及背景音的重要程度；根据所述权值，得到多个特征子集，各所述特征子集中包括所述声学事件集合中的部分元素；检测各所述特征子集对声学事件的识别性能指标；根据各所述特征子集的维度以及各所述特征子集对声学事件的识别性能指标确定出各所述特征子集中的目标特征子集，将所述目标特征子集作为用于训练所述第一GMM模型的第一训练集，将所述目标特征子集中的特征作为所述目标特征。基于局部学习的特征选择算法基于最大间隔框架，可通过改变特征权值来达到最大间隔的目的，从而根据特征集中不同特征的权重，选择不同特征维度下的最佳声学事件特征。该算法计算效率高，且对数据分布无苛刻要求，并且选出的特征集也具有很好的泛化性。如图4 所示，在从训练集中(该训练集可包括声学事件训练集以及背景音训练集，声学事件训练集中可包括声学事件的音频，背景音训练集中可包括背景音的音频，其中，声学事件例如枪声)选出不同维度下的特征集后，在当前特征空间下分别学习出声学事件和背景音的GMM模型，并使用评估集中的音频检测得到 GMM模型在当前特征空间下的识别性能指标，其中，评估集中包括已知的声学事件的音频以及背景音的音频。最后综合考虑不同特征集的特征维度和不同的识别性能指标，选出一组最佳特征集，用来训练检测声学事件的GMM分类模型，结合基于MMDL的评价指标训练出最佳的GMM分类模型，与特征全集相比，该方法在不同信噪比情况下检测性能至少可提高五个百分点，且特征维度可以由183维特征超集降至30维特征子集。其中，基于局部学习的特征选择过程如图5所示，该过程可包括：步骤501：初始化音频特征权值W₀，将迭代次数t设置为0；步骤502：计算在当前特征权值W_t下训练集样本间距离；步骤 503：根据样本间距离，计算同类最近邻概率和异类最近邻概率；步骤504：在最大间隔框架下，计算新的特征权值W_t+1；步骤505：设置特征权值迭代此处t 为t+1，如果||W_t-W_t-1||≥θ，则返回执行步骤502，如果||W_t-W_t-1||＜θ执行步骤506：根据计算得到的特征权值W，输出所需的N个特征。其中，最大化间隔理论如图6所示，在图6中，对于任意一帧的特征向量x_n，我们总可以找到它的同类样本中的最近邻(NearestHit，NH)，以及异类样本中的最近邻(Nearest Miss,NM)。则样本x_n的最大化间隔的公式如下：

ρ_n＝1^T(|x_n-NM(x_n)|-|x_n-NH(x_n)|)；

式中，|·|代表元素间的绝对值操作。

加权间隔的公式如下：

ρ_n(w)＝w^T(|x_n-NM(x_n)|-|x_n-NH(x_n)|)；

式中，w代表声学事件的权值向量。

概率化间隔的公式如下：

式中，P(x_i＝NM(x_n)|w)代表样本帧x_i和x_n异类最近邻的概率；

P(x_i＝NH(x_n)|w)代表样本帧x_i和x_n同类最近邻的概率

代表计算样本x_n的异类最近邻的期望距离；

代表计算样本x_n的同类最近邻的期望距离；且为简化公式引入中间变量

采用优化算法学习特征权重的公式如下：

其中，w≥0，λ为正则化参数。

训练集整体间隔公式如下：

上式中的NM、NH函数分别指x样本点的类间最邻近点和类内最邻近点。根据特征全集和纯梅尔频率倒谱系数特征在对音频的分类性能上的对比，可知冗余特征的加入不仅不会提高声学事件的表征力，甚至会影响到声学事件检测系统的性能，且过多特征的计算还会影响系统的计算效率。因此本实施例的声学事件检测方法采用基于局部学习的声学事件特征学习算法，对声学事件特征进行了筛选，只保留最佳特征集。通过与基本系统的对比，证明了所选特征对于声学事件有更强的表现力，并且通过与其他特征选择算法的横向对比，表明了基于局部学习的特征选择算法在声学事件特征的选择上更有优势。

在一种可实现方式中，针对声学事件检测系统在复杂背景噪音下性能下降严重的问题，可使用基于NMF(Nonnegative Matrix Factor，非负矩阵分解)的声学事件降噪技术，考虑到声学事件和背景音声谱结构中的局部性，可采用一种混合局部字典来更精确地对声学事件和背景音的声谱进行表征，以达到更好的降噪目的，提高声学事件检测系统的鲁棒性。基于此，所述声学事件检测方法还可包括：将所述目标特征分别输入所述第一GMM高斯混合模型以及所述第二GMM模型之前，利用预先进行基于混合局部字典的训练得到的声学事件字典和/或背景音字典对所述待检测的音频的声音频谱进行增强。以下结合图7 对基于非负矩阵分解的声学事件降噪过程进行说明，在图7所示的方法中，声学事件以枪声为例，如图7所示，分别基于枪声训练集以及背景音训练集中的音频进行声音频谱提取，基于提取到声音频谱进行学习，分别得到枪声字典以及背景音字典，例如可通过最小重构误差学习字典，在检测声学事件时，提取输入的测试音频的声音频谱，利用枪声字典或背景音字典对提取到的声音频谱进行增强，得到增强后的声音频谱。

图8是根据一示例性实施例示出的一种声学事件检测装置的框图，如图8 所示，该装置80包括如下组成部分：

第一提取模块81，用于提取待检测的音频的目标特征，得到第一特征数据；

输入模块82，用于将所述第一特征数据分别输入第一GMM高斯混合模型以及第二GMM模型，得到第一似然概率以及第二似然概率，所述第一GMM 模型基于声学事件的音频的特征数据进行训练得到，所述第二GMM模型基于非声学事件的音频的特征数据进行训练得到；

第一确定模块83，用于根据所述第一似然概率以及所述第二似然概率依次确定所述待检测的音频中各单位音频的类型，所述类型包括声学事件以及非声学事件；

合并模块84，用于将确定出的相邻的类型为声学事件的单位音频合并；

第二确定模块85，用于当合并后的音频持续的时长超过阈值时，确定发生声学事件。

在一种可实现方式中，声学事件检测装置还可包括：第二提取模块，用于在预设特征空间下，分别提取第一训练集中各音频以及第二训练集中各音频的目标特征，得到第二特征数据以及第三特征数据，所述第一训练集中的音频为声学事件对应的音频，所述第二训练集中的音频为背景音对应的音频；训练模块，用于分别根据所述第二特征数据以及所述第三特征数据训练GMM模型；选择模块，用于基于最小描述长度MDL准则确定高斯分量数，基于所述高斯分量数根据训练出的GMM模型确定出所述第一GMM模型以及所述第二GMM 模型。

在一种可实现方式中，所述目标特征至少包括以下一种：过零率、短时能量、频谱形状描述子、子带能量分布描述子、梅尔频谱倒谱系数以及对数梅尔频率滤波器系数。

在一种可实现方式中，声学事件检测装置还可包括：第三提取模块，用于提取第一训练集中音频的特征，得到声学事件的特征集合，所述第一训练集中的音频为声学事件的音频；加权模块，用于采用基于局部学习的特征选择算法对所述声学事件特征集合中的特征进行加权，得到加权后的特征空间；学习模块，用于基于最大间隔理论学习所述声学事件特征集合中各特征对应的权值，所述权值的用于表示所述声学事件特征集合中各特征在区分声学事件以及背景音的重要程度；获得模块，用于根据所述权值，得到多个特征子集，各所述特征子集中包括所述声学事件集合中的部分元素；检测模块，用于检测各所述特征子集对声学事件的识别性能指标；第三确定模块，用于根据各所述特征子集的维度以及各所述特征子集对声学事件的识别性能指标确定出各所述特征子集中的目标特征子集，将所述目标特征子集作为用于训练所述第一GMM模型的第一训练集，将所述目标特征子集中的特征作为所述目标特征。

在一种可实现方式中，声学事件检测装置还可包括：增强模块，用于在将所述目标特征分别输入所述第一GMM高斯混合模型以及所述第二GMM模型之前，利用预先进行基于混合局部字典的训练得到的声学事件字典和/或背景音字典对所述待检测的音频的声音频谱进行增强。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种声学事件检测方法，其特征在于，包括：

提取待检测的音频的目标特征，得到第一特征数据；

将所述第一特征数据分别输入第一高斯混合GMM模型以及第二GMM模型，得到第一似然概率以及第二似然概率，所述第一GMM模型基于声学事件的音频的特征数据进行训练得到，所述第二GMM模型基于非声学事件的音频的特征数据进行训练得到；

根据所述第一似然概率以及所述第二似然概率依次确定所述待检测的音频中各单位音频的类型，所述类型包括声学事件以及非声学事件；

将确定出的相邻的类型为声学事件的单位音频合并；

当合并后的音频持续的时长超过阈值时，确定发生声学事件。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在预设特征空间下，分别提取第一训练集中各音频以及第二训练集中各音频的目标特征，得到第二特征数据以及第三特征数据，所述第一训练集中的音频为声学事件对应的音频，所述第二训练集中的音频为背景音对应的音频；

分别根据所述第二特征数据以及所述第三特征数据训练GMM模型；

基于最小描述长度MDL准则确定高斯分量数，基于所述高斯分量数根据训练出的GMM模型确定出所述第一GMM模型以及所述第二GMM模型。

3.根据权利要求1所述的方法，其特征在于，所述目标特征包括以下至少一种：

过零率、短时能量、频谱形状描述子、子带能量分布描述子、梅尔频谱倒谱系数以及对数梅尔频率滤波器系数。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

提取第一训练集中音频的特征，得到声学事件的特征集合，所述第一训练集中的音频为声学事件的音频；

采用基于局部学习的特征选择算法对所述声学事件特征集合中的特征进行加权，得到加权后的特征空间；

基于最大间隔理论学习所述声学事件特征集合中各特征对应的权值，所述权值的用于表示所述声学事件特征集合中各特征在区分声学事件以及背景音的重要程度；

根据所述权值，得到多个特征子集，各所述特征子集中包括所述声学事件集合中的部分元素；

检测各所述特征子集对声学事件的识别性能指标；

根据各所述特征子集的维度以及各所述特征子集对声学事件的识别性能指标确定出各所述特征子集中的目标特征子集，将所述目标特征子集作为用于训练所述第一GMM模型的第一训练集，将所述目标特征子集中的特征作为所述目标特征。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：

在将所述目标特征分别输入所述第一GMM高斯混合模型以及所述第二GMM模型之前，利用预先进行基于混合局部字典的训练得到的声学事件字典和/或背景音字典对所述待检测的音频的声音频谱进行增强。

6.一种声学事件检测装置，其特征在于，包括：

第一提取模块，用于提取待检测的音频的目标特征，得到第一特征数据；

输入模块，用于将所述第一特征数据分别输入第一GMM高斯混合模型以及第二GMM模型，得到第一似然概率以及第二似然概率，所述第一GMM模型基于声学事件的音频的特征数据进行训练得到，所述第二GMM模型基于非声学事件的音频的特征数据进行训练得到；

第一确定模块，用于根据所述第一似然概率以及所述第二似然概率依次确定所述待检测的音频中各单位音频的类型，所述类型包括声学事件以及非声学事件；

合并模块，用于将确定出的相邻的类型为声学事件的单位音频合并；

第二确定模块，用于当合并后的音频持续的时长超过阈值时，确定发生声学事件。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二提取模块，用于在预设特征空间下，分别提取第一训练集中各音频以及第二训练集中各音频的目标特征，得到第二特征数据以及第三特征数据，所述第一训练集中的音频为声学事件对应的音频，所述第二训练集中的音频为背景音对应的音频；

训练模块，用于分别根据所述第二特征数据以及所述第三特征数据训练GMM模型；

选择模块，用于基于最小描述长度MDL准则确定高斯分量数，基于所述高斯分量数根据训练出的GMM模型确定出所述第一GMM模型以及所述第二GMM模型。

8.根据权利要求6所述的装置，其特征在于，所述目标特征至少包括以下一种：

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第三提取模块，用于提取第一训练集中音频的特征，得到声学事件的特征集合，所述第一训练集中的音频为声学事件的音频；

加权模块，用于采用基于局部学习的特征选择算法对所述声学事件特征集合中的特征进行加权，得到加权后的特征空间；

学习模块，用于基于最大间隔理论学习所述声学事件特征集合中各特征对应的权值，所述权值的用于表示所述声学事件特征集合中各特征在区分声学事件以及背景音的重要程度；

获得模块，用于根据所述权值，得到多个特征子集，各所述特征子集中包括所述声学事件集合中的部分元素；

检测模块，用于检测各所述特征子集对声学事件的识别性能指标；

第三确定模块，用于根据各所述特征子集的维度以及各所述特征子集对声学事件的识别性能指标确定出各所述特征子集中的目标特征子集，将所述目标特征子集作为用于训练所述第一GMM模型的第一训练集，将所述目标特征子集中的特征作为所述目标特征。

10.根据权利要求6至9中任一项所述的装置，其特征在于，所述装置还包括：

增强模块，用于在将所述目标特征分别输入所述第一GMM高斯混合模型以及所述第二GMM模型之前，利用预先进行基于混合局部字典的训练得到的声学事件字典和/或背景音字典对所述待检测的音频的声音频谱进行增强。