CN110120230A - 一种声学事件检测方法及装置 - Google Patents

一种声学事件检测方法及装置 Download PDF

Info

Publication number
CN110120230A
CN110120230A CN201910015466.1A CN201910015466A CN110120230A CN 110120230 A CN110120230 A CN 110120230A CN 201910015466 A CN201910015466 A CN 201910015466A CN 110120230 A CN110120230 A CN 110120230A
Authority
CN
China
Prior art keywords
audio
acoustic events
feature
acoustic
gmm model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910015466.1A
Other languages
English (en)
Other versions
CN110120230B (zh
Inventor
袁庆升
包秀国
时磊
邹学强
张翠
胡燕琳
韩纪庆
汪瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
National Computer Network and Information Security Management Center
Original Assignee
Harbin Institute of Technology
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology, National Computer Network and Information Security Management Center filed Critical Harbin Institute of Technology
Priority to CN201910015466.1A priority Critical patent/CN110120230B/zh
Publication of CN110120230A publication Critical patent/CN110120230A/zh
Application granted granted Critical
Publication of CN110120230B publication Critical patent/CN110120230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Databases & Information Systems (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明提供一种声学事件检测方法及装置,用以解决相关技术中声学事件检测精度较低的问题。该方法包括:提取待检测的音频的目标特征,得到第一特征数据;将所述第一特征数据分别输入第一GMM模型以及第二GMM模型,得到第一似然概率以及第二似然概率,所述第一GMM模型基于声学事件的音频的特征数据进行训练得到,所述第二GMM模型基于非声学事件的音频的特征数据进行训练得到;根据所述第一似然概率以及所述第二似然概率依次确定所述待检测的音频中各单位音频的类型,所述类型包括声学事件以及非声学事件;将确定出的相邻的类型为声学事件的单位音频合并;当合并后的音频持续的时长超过阈值时,确定发生声学事件。本发明有效提高了声学事件检测的精度。

Description

一种声学事件检测方法及装置
技术领域
本发明涉及事件检测技术领域,尤其涉及一种声学事件检测方法及装置。
背景技术
声学事件检测主要涉及监控环境下对一些非常规事件的检测,这些声学事件的检测可以辅助监控人员针对不同事件及时采取应对措施,将损害降低至最小。监控设备的普及造成数据量的激增,这使得基于视频画面进行事件检测的方式变得迟钝而缓慢。而声音对一些枪声之类的带有明显“暴恐”意味的声学事件具有很强的表现力,而且音频数据处理的快速性也使得基于音频的声学事件检测方式成为监控环境下声学事件检测的有力措施。但噪音对于声学事件检测系统具有较大影响,噪音不仅会掩蔽目标事件音还会造成目标事件音的畸变,给检测带来较大困难。对于公共场所来说,噪音来源于实际生活中的各种非目标事件音,虽然一些相关技术中通过在目标事件中加入高斯白噪声来模拟噪声的影响,但这并不能刻画多变复杂的现实噪音,导致基于声音检测声学事件的精度较低。
发明内容
本发明的主要目的在于提供一种声学事件检测方法及装置,以解决相关技术中声学事件检测精度较低的问题。
根据本发明的一个方面,提供了一种声学事件检测方法,包括:提取待检测的音频的目标特征,得到第一特征数据;将所述第一特征数据分别输入第一高斯混合GMM模型以及第二GMM模型,得到第一似然概率以及第二似然概率,所述第一GMM模型基于声学事件的音频的特征数据进行训练得到,所述第二GMM模型基于非声学事件的音频的特征数据进行训练得到;根据所述第一似然概率以及所述第二似然概率依次确定所述待检测的音频中各单位音频的类型,所述类型包括声学事件以及非声学事件;将确定出的相邻的类型为声学事件的单位音频合并;当合并后的音频持续的时长超过阈值时,确定发生声学事件。
可选地,所述方法还包括:在预设特征空间下,分别提取第一训练集中各音频以及第二训练集中各音频的目标特征,得到第二特征数据以及第三特征数据,所述第一训练集中的音频为声学事件对应的音频,所述第二训练集中的音频为背景音对应的音频;分别根据所述第二特征数据以及所述第三特征数据训练GMM模型;基于最小描述长度MDL准则确定高斯分量数,基于所述高斯分量数根据训练出的GMM模型确定出所述第一GMM模型以及所述第二GMM 模型。
可选地,所述目标特征包括以下至少一种:过零率、短时能量、频谱形状描述子、子带能量分布描述子、梅尔频谱倒谱系数以及对数梅尔频率滤波器系数。
可选地,所述方法还包括:提取第一训练集中音频的特征,得到声学事件的特征集合,所述第一训练集中的音频为声学事件的音频;采用基于局部学习的特征选择算法对所述声学事件特征集合中的特征进行加权,得到加权后的特征空间;基于最大间隔理论学习所述声学事件特征集合中各特征对应的权值,所述权值的用于表示所述声学事件特征集合中各特征在区分声学事件以及背景音的重要程度;根据所述权值,得到多个特征子集,各所述特征子集中包括所述声学事件集合中的部分元素;检测各所述特征子集对声学事件的识别性能指标;根据各所述特征子集的维度以及各所述特征子集对声学事件的识别性能指标确定出各所述特征子集中的目标特征子集,将所述目标特征子集作为用于训练所述第一GMM模型的第一训练集,将所述目标特征子集中的特征作为所述目标特征。
可选地,所述方法还包括:在将所述目标特征分别输入所述第一GMM高斯混合模型以及所述第二GMM模型之前,利用预先进行基于混合局部字典的训练得到的声学事件字典和/或背景音字典对所述待检测的音频的声音频谱进行增强。
根据本发明的一个方面,提供了一种声学事件检测装置,包括:第一提取模块,用于提取待检测的音频的目标特征,得到第一特征数据;输入模块,用于将所述第一特征数据分别输入第一GMM高斯混合模型以及第二GMM模型,得到第一似然概率以及第二似然概率,所述第一GMM模型基于声学事件的音频的特征数据进行训练得到,所述第二GMM模型基于非声学事件的音频的特征数据进行训练得到;第一确定模块,用于根据所述第一似然概率以及所述第二似然概率依次确定所述待检测的音频中各单位音频的类型,所述类型包括声学事件以及非声学事件;合并模块,用于将确定出的相邻的类型为声学事件的单位音频合并;第二确定模块,用于当合并后的音频持续的时长超过阈值时,确定发生声学事件。
可选地,所述装置还包括:第二提取模块,用于在预设特征空间下,分别提取第一训练集中各音频以及第二训练集中各音频的目标特征,得到第二特征数据以及第三特征数据,所述第一训练集中的音频为声学事件对应的音频,所述第二训练集中的音频为背景音对应的音频;训练模块,用于分别根据所述第二特征数据以及所述第三特征数据训练GMM模型;选择模块,用于基于最小描述长度MDL准则确定高斯分量数,基于所述高斯分量数根据训练出的GMM 模型确定出所述第一GMM模型以及所述第二GMM模型。
可选地,所述目标特征至少包括以下一种:过零率、短时能量、频谱形状描述子、子带能量分布描述子、梅尔频谱倒谱系数以及对数梅尔频率滤波器系数。
可选地,所述装置还包括:第三提取模块,用于提取第一训练集中音频的特征,得到声学事件的特征集合,所述第一训练集中的音频为声学事件的音频;加权模块,用于采用基于局部学习的特征选择算法对所述声学事件特征集合中的特征进行加权,得到加权后的特征空间;学习模块,用于基于最大间隔理论学习所述声学事件特征集合中各特征对应的权值,所述权值的用于表示所述声学事件特征集合中各特征在区分声学事件以及背景音的重要程度;获得模块,用于根据所述权值,得到多个特征子集,各所述特征子集中包括所述声学事件集合中的部分元素;检测模块,用于检测各所述特征子集对声学事件的识别性能指标;第三确定模块,用于根据各所述特征子集的维度以及各所述特征子集对声学事件的识别性能指标确定出各所述特征子集中的目标特征子集,将所述目标特征子集作为用于训练所述第一GMM模型的第一训练集,将所述目标特征子集中的特征作为所述目标特征。
可选地,所述装置还包括:增强模块,用于在将所述目标特征分别输入所述第一GMM高斯混合模型以及所述第二GMM模型之前,利用预先进行基于混合局部字典的训练得到的声学事件字典和/或背景音字典对所述待检测的音频的声音频谱进行增强。
本发明实施例的声学事件检测方法,通过预先训练得到的声学事件的GMM 模型以及背景音的GMM模型可对未知类型的音频进行分类,能够有效的区别未知音频中的声学事件以及背景音,提高了声学事件检测的精度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据一示例性实施例示出的一种声学事件检测方法的流程图;
图2是根据一示例性实施例示出的一种声学事件检测方法的流程图;
图3是基于MDL的模型评价准则确定最佳模型分量数的示意图;
图4是根据一示例性实施例示出的一种声学事件检测方法的流程图;
图5是根据一示例性实施例示出的基于局部学习的特征选择过程的示意图;
图6是根据一示例性实施例示出的最大化间隔理论及公式示意图;
图7是根据一示例性实施例示出的基于非负矩阵分解的声学事件降噪过程的示意图;
图8是根据一示例性实施例示出的一种声学事件检测装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是根据一示例性实施例示出的一种声学事件检测方法的流程图,如图1 所示,该方法包括如下步骤:
步骤101:提取待检测的音频的目标特征,得到第一特征数据;
在提取音频的目标特征之前,可对音频数据进行分帧和/或加窗处理,通过分析声学事件(该声学事件例如可以是异常事件)的特征,以帧为单位,可提取声学事件在时域、频域和感知域上的特征,该特征例如可包括过零率、短时能量、频谱形状描述子、子带能量分布描述子、反映人耳听觉的梅尔频率倒谱系数以及对数梅尔频率滤波器组系数中的一种或多种。为了刻画特征的动态性,可分别取这些特征的一阶与二阶差分。
步骤102:将所述第一特征数据分别输入第一GMM高斯混合模型以及第二 GMM模型,得到第一似然概率以及第二似然概率,所述第一GMM模型基于声学事件的音频的特征数据进行训练得到,所述第二GMM模型基于非声学事件的音频的特征数据进行训练得到;
其中,第一GMM模型以及第二GMM模型可基于训练集中的数据预先训练完成,其中,第一GMM模型可利用训练集中的声学事件的音频的特征进行训练,第二GMM模型可利用训练集中的背景音的音频的特征进行训练。
步骤103:根据所述第一似然概率以及所述第二似然概率依次确定所述待检测的音频中各单位音频的类型,所述类型包括声学事件以及非声学事件;
在步骤103中,第一似然概率表示音频的类型为声学事件的概率,第二似然概率表示音频的类型为背景音的概率,当第一似然概率大于第二似然概率时,确定音频的类型为声学事件,反之,确定音频的类型为背景音。其中,单位音频例如以帧为单位的音频。
步骤104:将确定出的相邻的类型为声学事件的单位音频合并;
例如,在确定出相邻的多帧音频的类型为声学事件时,可将该多帧音频合并,得到一段音频。
步骤105:当合并后的音频持续的时长超过阈值时,确定发生声学事件。
以下结合附图2对上述声学事件检测方法进行进一步说明,在图2所示的方法中,声学事件以枪声为例,对枪声类或背景音类训练数据进行分帧、加窗、提取特征并归一化处理之后,基于处理后的数据训练得到枪声类和/或背景音类 GMM分类模型(也称分类器)。基于该分类模型对实时音频流进行声学事件检的流程可包括:在分别训练出声学事件和背景音的GMM模型之后,对于未知类型的音频(包括声学事件的音频以及背景音的音频),即测试音频流进行分帧 (如图2所示,可分为FRAME(帧)1至FRAMEN)、加窗以及提取出相应特征并进行归一化后,分别输入到声学事件和背景音的GMM模型中,分别得到其在声学事件GMM模型以及背景音GMM模型下的似然概率,通过比较概率值的高低判断当前帧的标签(即当前帧的类型),在得到连续几帧的标签后,可采用中值滤波对它们进行平滑,并可将相邻的声学事件帧(帧对应的标签为声学事件时,称该帧为声学事件帧)拼接为声学事件段,如果声学事件段的时长超过阈值,则可认为出现了声学事件。
本发明实施例的声学事件检测方法,通过预先训练得到的声学事件的GMM 模型以及背景音的GMM模型可对未知类型的音频进行分类,能够有效的区别未知音频中的声学事件以及背景音,提高了声学事件检测的精度
在一种可实现方式中,在声学事件检测方法中还可包括建立上述第一GMM 模型以及第二GMM模型的步骤,基于此,该方法还可包括:在预设特征空间下,分别提取第一训练集中各音频以及第二训练集中各音频的目标特征,得到第二特征数据以及第三特征数据,所述第一训练集中的音频为声学事件对应的音频,所述第二训练集中的音频为背景音对应的音频;分别根据所述第二特征数据以及所述第三特征数据训练GMM模型;基于最小描述长度MDL准则确定高斯分量数,基于所述高斯分量数根据训练出的GMM模型确定出所述第一 GMM模型以及所述第二GMM模型。在预设特征空间下,提取声学事件和背景音的特征,在此之前,可先对音频文件进行分帧和/或加窗处理,得到每帧音频数据,然后对每帧音频数据提取相应的特征并进行归一化;在提取音频数据的特征后,可分别对声学事件和背景音训练各自的GMM模型,传统的GMM模型训练过程需要事先确定分量数,但对于声学事件和背景音,并不确定最佳分量数,可使用一种基于MMDL的模型评价准则来自动确定最佳模型分量数,图 3是基于MMDL的模型评价准则确定最佳模型分量数的示意图,如图3所示,基于MMDL的模型评价准则确定最佳模型分量数据的过程可包括:输入最小分量数据Kmin和最大分量数据Kmax,将当前分量数K设置为Kmax,用EM (Expectation Maximization Algorithm,最大期望算法)训练分量数为K下的 GMM模型,并记录当前模型下的MMDL,合并当前GMM模型中最相似的两个分量,将合并后的模型参数作为下一次的初始参数,将当前分量数K设置为 K-1,在K<Kmin时输出具有最小MMDL的模型。
其中,计算MMDL评价值的公式为:
其中,表示C个高斯分量的权值和参数;表示该GMM模型的误差,N表示样本数,M(1)为一常数。根据上述流程以及相应MMDL的计算公式,可选择出数量最少且效果最优的GMM模型作为当前声学事件的最优判别模型。在本实施例中,将基于最小描述长度的GMM模型训练用于声学事件检测系统,使得模型减小且效果最优。
在一种可实现方式中,所述目标特征可包括以下至少一种:过零率、短时能量、频谱形状描述子、子带能量分布描述子、梅尔频谱倒谱系数以及对数梅尔频率滤波器系数。
在一种可实现方式中,所述声学事件检测方法还可包括:提取第一训练集中音频的特征,得到声学事件的特征集合,所述第一训练集中的音频为声学事件的音频;采用基于局部学习的特征选择算法对所述声学事件特征集合中的特征进行加权,得到加权后的特征空间;基于最大间隔理论学习所述声学事件特征集合中各特征对应的权值,所述权值的用于表示所述声学事件特征集合中各特征在区分声学事件以及背景音的重要程度;根据所述权值,得到多个特征子集,各所述特征子集中包括所述声学事件集合中的部分元素;检测各所述特征子集对声学事件的识别性能指标;根据各所述特征子集的维度以及各所述特征子集对声学事件的识别性能指标确定出各所述特征子集中的目标特征子集,将所述目标特征子集作为用于训练所述第一GMM模型的第一训练集,将所述目标特征子集中的特征作为所述目标特征。基于局部学习的特征选择算法基于最大间隔框架,可通过改变特征权值来达到最大间隔的目的,从而根据特征集中不同特征的权重,选择不同特征维度下的最佳声学事件特征。该算法计算效率高,且对数据分布无苛刻要求,并且选出的特征集也具有很好的泛化性。如图4 所示,在从训练集中(该训练集可包括声学事件训练集以及背景音训练集,声学事件训练集中可包括声学事件的音频,背景音训练集中可包括背景音的音频,其中,声学事件例如枪声)选出不同维度下的特征集后,在当前特征空间下分别学习出声学事件和背景音的GMM模型,并使用评估集中的音频检测得到 GMM模型在当前特征空间下的识别性能指标,其中,评估集中包括已知的声学事件的音频以及背景音的音频。最后综合考虑不同特征集的特征维度和不同的识别性能指标,选出一组最佳特征集,用来训练检测声学事件的GMM分类模型,结合基于MMDL的评价指标训练出最佳的GMM分类模型,与特征全集相比,该方法在不同信噪比情况下检测性能至少可提高五个百分点,且特征维度可以由183维特征超集降至30维特征子集。其中,基于局部学习的特征选择过程如图5所示,该过程可包括:步骤501:初始化音频特征权值W0,将迭代次数t设置为0;步骤502:计算在当前特征权值Wt下训练集样本间距离;步骤 503:根据样本间距离,计算同类最近邻概率和异类最近邻概率;步骤504:在最大间隔框架下,计算新的特征权值Wt+1;步骤505:设置特征权值迭代此处t 为t+1,如果||Wt-Wt-1||≥θ,则返回执行步骤502,如果||Wt-Wt-1||<θ执行步骤506:根据计算得到的特征权值W,输出所需的N个特征。其中,最大化间隔理论如图6所示,在图6中,对于任意一帧的特征向量xn,我们总可以找到它的同类样本中的最近邻(NearestHit,NH),以及异类样本中的最近邻(Nearest Miss,NM)。则样本xn的最大化间隔的公式如下:
ρn=1T(|xn-NM(xn)|-|xn-NH(xn)|);
式中,|·|代表元素间的绝对值操作。
加权间隔的公式如下:
ρn(w)=wT(|xn-NM(xn)|-|xn-NH(xn)|);
式中,w代表声学事件的权值向量。
概率化间隔的公式如下:
式中,P(xi=NM(xn)|w)代表样本帧xi和xn异类最近邻的概率;
P(xi=NH(xn)|w)代表样本帧xi和xn同类最近邻的概率
代表计算样本xn的异类最近邻的期望距离;
代表计算样本xn的同类最近邻的期望距离;且为简化公式引入中间变量
采用优化算法学习特征权重的公式如下:
其中,w≥0,λ为正则化参数。
训练集整体间隔公式如下:
上式中的NM、NH函数分别指x样本点的类间最邻近点和类内最邻近点。根据特征全集和纯梅尔频率倒谱系数特征在对音频的分类性能上的对比,可知冗余特征的加入不仅不会提高声学事件的表征力,甚至会影响到声学事件检测系统的性能,且过多特征的计算还会影响系统的计算效率。因此本实施例的声学事件检测方法采用基于局部学习的声学事件特征学习算法,对声学事件特征进行了筛选,只保留最佳特征集。通过与基本系统的对比,证明了所选特征对于声学事件有更强的表现力,并且通过与其他特征选择算法的横向对比,表明了基于局部学习的特征选择算法在声学事件特征的选择上更有优势。
在一种可实现方式中,针对声学事件检测系统在复杂背景噪音下性能下降严重的问题,可使用基于NMF(Nonnegative Matrix Factor,非负矩阵分解)的声学事件降噪技术,考虑到声学事件和背景音声谱结构中的局部性,可采用一种混合局部字典来更精确地对声学事件和背景音的声谱进行表征,以达到更好的降噪目的,提高声学事件检测系统的鲁棒性。基于此,所述声学事件检测方法还可包括:将所述目标特征分别输入所述第一GMM高斯混合模型以及所述第二GMM模型之前,利用预先进行基于混合局部字典的训练得到的声学事件字典和/或背景音字典对所述待检测的音频的声音频谱进行增强。以下结合图7 对基于非负矩阵分解的声学事件降噪过程进行说明,在图7所示的方法中,声学事件以枪声为例,如图7所示,分别基于枪声训练集以及背景音训练集中的音频进行声音频谱提取,基于提取到声音频谱进行学习,分别得到枪声字典以及背景音字典,例如可通过最小重构误差学习字典,在检测声学事件时,提取输入的测试音频的声音频谱,利用枪声字典或背景音字典对提取到的声音频谱进行增强,得到增强后的声音频谱。
图8是根据一示例性实施例示出的一种声学事件检测装置的框图,如图8 所示,该装置80包括如下组成部分:
第一提取模块81,用于提取待检测的音频的目标特征,得到第一特征数据;
输入模块82,用于将所述第一特征数据分别输入第一GMM高斯混合模型以及第二GMM模型,得到第一似然概率以及第二似然概率,所述第一GMM 模型基于声学事件的音频的特征数据进行训练得到,所述第二GMM模型基于非声学事件的音频的特征数据进行训练得到;
第一确定模块83,用于根据所述第一似然概率以及所述第二似然概率依次确定所述待检测的音频中各单位音频的类型,所述类型包括声学事件以及非声学事件;
合并模块84,用于将确定出的相邻的类型为声学事件的单位音频合并;
第二确定模块85,用于当合并后的音频持续的时长超过阈值时,确定发生声学事件。
在一种可实现方式中,声学事件检测装置还可包括:第二提取模块,用于在预设特征空间下,分别提取第一训练集中各音频以及第二训练集中各音频的目标特征,得到第二特征数据以及第三特征数据,所述第一训练集中的音频为声学事件对应的音频,所述第二训练集中的音频为背景音对应的音频;训练模块,用于分别根据所述第二特征数据以及所述第三特征数据训练GMM模型;选择模块,用于基于最小描述长度MDL准则确定高斯分量数,基于所述高斯分量数根据训练出的GMM模型确定出所述第一GMM模型以及所述第二GMM 模型。
在一种可实现方式中,所述目标特征至少包括以下一种:过零率、短时能量、频谱形状描述子、子带能量分布描述子、梅尔频谱倒谱系数以及对数梅尔频率滤波器系数。
在一种可实现方式中,声学事件检测装置还可包括:第三提取模块,用于提取第一训练集中音频的特征,得到声学事件的特征集合,所述第一训练集中的音频为声学事件的音频;加权模块,用于采用基于局部学习的特征选择算法对所述声学事件特征集合中的特征进行加权,得到加权后的特征空间;学习模块,用于基于最大间隔理论学习所述声学事件特征集合中各特征对应的权值,所述权值的用于表示所述声学事件特征集合中各特征在区分声学事件以及背景音的重要程度;获得模块,用于根据所述权值,得到多个特征子集,各所述特征子集中包括所述声学事件集合中的部分元素;检测模块,用于检测各所述特征子集对声学事件的识别性能指标;第三确定模块,用于根据各所述特征子集的维度以及各所述特征子集对声学事件的识别性能指标确定出各所述特征子集中的目标特征子集,将所述目标特征子集作为用于训练所述第一GMM模型的第一训练集,将所述目标特征子集中的特征作为所述目标特征。
在一种可实现方式中,声学事件检测装置还可包括:增强模块,用于在将所述目标特征分别输入所述第一GMM高斯混合模型以及所述第二GMM模型之前,利用预先进行基于混合局部字典的训练得到的声学事件字典和/或背景音字典对所述待检测的音频的声音频谱进行增强。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种声学事件检测方法,其特征在于,包括:
提取待检测的音频的目标特征,得到第一特征数据;
将所述第一特征数据分别输入第一高斯混合GMM模型以及第二GMM模型,得到第一似然概率以及第二似然概率,所述第一GMM模型基于声学事件的音频的特征数据进行训练得到,所述第二GMM模型基于非声学事件的音频的特征数据进行训练得到;
根据所述第一似然概率以及所述第二似然概率依次确定所述待检测的音频中各单位音频的类型,所述类型包括声学事件以及非声学事件;
将确定出的相邻的类型为声学事件的单位音频合并;
当合并后的音频持续的时长超过阈值时,确定发生声学事件。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在预设特征空间下,分别提取第一训练集中各音频以及第二训练集中各音频的目标特征,得到第二特征数据以及第三特征数据,所述第一训练集中的音频为声学事件对应的音频,所述第二训练集中的音频为背景音对应的音频;
分别根据所述第二特征数据以及所述第三特征数据训练GMM模型;
基于最小描述长度MDL准则确定高斯分量数,基于所述高斯分量数根据训练出的GMM模型确定出所述第一GMM模型以及所述第二GMM模型。
3.根据权利要求1所述的方法,其特征在于,所述目标特征包括以下至少一种:
过零率、短时能量、频谱形状描述子、子带能量分布描述子、梅尔频谱倒谱系数以及对数梅尔频率滤波器系数。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
提取第一训练集中音频的特征,得到声学事件的特征集合,所述第一训练集中的音频为声学事件的音频;
采用基于局部学习的特征选择算法对所述声学事件特征集合中的特征进行加权,得到加权后的特征空间;
基于最大间隔理论学习所述声学事件特征集合中各特征对应的权值,所述权值的用于表示所述声学事件特征集合中各特征在区分声学事件以及背景音的重要程度;
根据所述权值,得到多个特征子集,各所述特征子集中包括所述声学事件集合中的部分元素;
检测各所述特征子集对声学事件的识别性能指标;
根据各所述特征子集的维度以及各所述特征子集对声学事件的识别性能指标确定出各所述特征子集中的目标特征子集,将所述目标特征子集作为用于训练所述第一GMM模型的第一训练集,将所述目标特征子集中的特征作为所述目标特征。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
在将所述目标特征分别输入所述第一GMM高斯混合模型以及所述第二GMM模型之前,利用预先进行基于混合局部字典的训练得到的声学事件字典和/或背景音字典对所述待检测的音频的声音频谱进行增强。
6.一种声学事件检测装置,其特征在于,包括:
第一提取模块,用于提取待检测的音频的目标特征,得到第一特征数据;
输入模块,用于将所述第一特征数据分别输入第一GMM高斯混合模型以及第二GMM模型,得到第一似然概率以及第二似然概率,所述第一GMM模型基于声学事件的音频的特征数据进行训练得到,所述第二GMM模型基于非声学事件的音频的特征数据进行训练得到;
第一确定模块,用于根据所述第一似然概率以及所述第二似然概率依次确定所述待检测的音频中各单位音频的类型,所述类型包括声学事件以及非声学事件;
合并模块,用于将确定出的相邻的类型为声学事件的单位音频合并;
第二确定模块,用于当合并后的音频持续的时长超过阈值时,确定发生声学事件。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第二提取模块,用于在预设特征空间下,分别提取第一训练集中各音频以及第二训练集中各音频的目标特征,得到第二特征数据以及第三特征数据,所述第一训练集中的音频为声学事件对应的音频,所述第二训练集中的音频为背景音对应的音频;
训练模块,用于分别根据所述第二特征数据以及所述第三特征数据训练GMM模型;
选择模块,用于基于最小描述长度MDL准则确定高斯分量数,基于所述高斯分量数根据训练出的GMM模型确定出所述第一GMM模型以及所述第二GMM模型。
8.根据权利要求6所述的装置,其特征在于,所述目标特征至少包括以下一种:
过零率、短时能量、频谱形状描述子、子带能量分布描述子、梅尔频谱倒谱系数以及对数梅尔频率滤波器系数。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
第三提取模块,用于提取第一训练集中音频的特征,得到声学事件的特征集合,所述第一训练集中的音频为声学事件的音频;
加权模块,用于采用基于局部学习的特征选择算法对所述声学事件特征集合中的特征进行加权,得到加权后的特征空间;
学习模块,用于基于最大间隔理论学习所述声学事件特征集合中各特征对应的权值,所述权值的用于表示所述声学事件特征集合中各特征在区分声学事件以及背景音的重要程度;
获得模块,用于根据所述权值,得到多个特征子集,各所述特征子集中包括所述声学事件集合中的部分元素;
检测模块,用于检测各所述特征子集对声学事件的识别性能指标;
第三确定模块,用于根据各所述特征子集的维度以及各所述特征子集对声学事件的识别性能指标确定出各所述特征子集中的目标特征子集,将所述目标特征子集作为用于训练所述第一GMM模型的第一训练集,将所述目标特征子集中的特征作为所述目标特征。
10.根据权利要求6至9中任一项所述的装置,其特征在于,所述装置还包括:
增强模块,用于在将所述目标特征分别输入所述第一GMM高斯混合模型以及所述第二GMM模型之前,利用预先进行基于混合局部字典的训练得到的声学事件字典和/或背景音字典对所述待检测的音频的声音频谱进行增强。
CN201910015466.1A 2019-01-08 2019-01-08 一种声学事件检测方法及装置 Active CN110120230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910015466.1A CN110120230B (zh) 2019-01-08 2019-01-08 一种声学事件检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910015466.1A CN110120230B (zh) 2019-01-08 2019-01-08 一种声学事件检测方法及装置

Publications (2)

Publication Number Publication Date
CN110120230A true CN110120230A (zh) 2019-08-13
CN110120230B CN110120230B (zh) 2021-06-01

Family

ID=67520252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910015466.1A Active CN110120230B (zh) 2019-01-08 2019-01-08 一种声学事件检测方法及装置

Country Status (1)

Country Link
CN (1) CN110120230B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600059A (zh) * 2019-09-05 2019-12-20 Oppo广东移动通信有限公司 声学事件检测方法、装置、电子设备及存储介质
CN111461438A (zh) * 2020-04-01 2020-07-28 中国人民解放军空军93114部队 一种信号检测方法、装置、电子设备和存储介质
CN112033066A (zh) * 2020-07-31 2020-12-04 海尔优家智能科技(北京)有限公司 故障检测方法及装置、存储介质、电子装置
CN112820318A (zh) * 2020-12-31 2021-05-18 西安合谱声学科技有限公司 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统
CN112951268A (zh) * 2021-02-26 2021-06-11 北京百度网讯科技有限公司 音频识别方法、设备和存储介质
CN115206294A (zh) * 2022-09-16 2022-10-18 深圳比特微电子科技有限公司 训练方法、声音事件检测方法、装置、设备和介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509545A (zh) * 2011-09-21 2012-06-20 哈尔滨工业大学 一种实时声学事件检测系统及检测方法
CN102799899A (zh) * 2012-06-29 2012-11-28 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
CN103310789A (zh) * 2013-05-08 2013-09-18 北京大学深圳研究生院 一种基于改进的并行模型组合的声音事件识别方法
CN104167211A (zh) * 2014-08-08 2014-11-26 南京大学 基于分层事件检测和上下文模型的多源场景声音摘要方法
US20150279351A1 (en) * 2012-12-19 2015-10-01 Google Inc. Keyword detection based on acoustic alignment
US20160364963A1 (en) * 2015-06-12 2016-12-15 Google Inc. Method and System for Detecting an Audio Event for Smart Home Devices
CN106448661A (zh) * 2016-09-23 2017-02-22 华南理工大学 基于纯净语音与背景噪声两极建模的音频类型检测方法
US20170103776A1 (en) * 2015-10-12 2017-04-13 Gwangju Institute Of Science And Technology Sound Detection Method for Recognizing Hazard Situation
CN107123432A (zh) * 2017-05-12 2017-09-01 北京理工大学 一种自匹配Top‑N音频事件识别信道自适应方法
WO2018005620A1 (en) * 2016-06-28 2018-01-04 Pindrop Security, Inc. System and method for cluster-based audio event detection
KR20180122171A (ko) * 2017-05-02 2018-11-12 서강대학교산학협력단 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509545A (zh) * 2011-09-21 2012-06-20 哈尔滨工业大学 一种实时声学事件检测系统及检测方法
CN102799899A (zh) * 2012-06-29 2012-11-28 北京理工大学 基于svm和gmm的特定音频事件分层泛化识别方法
US20150279351A1 (en) * 2012-12-19 2015-10-01 Google Inc. Keyword detection based on acoustic alignment
CN103310789A (zh) * 2013-05-08 2013-09-18 北京大学深圳研究生院 一种基于改进的并行模型组合的声音事件识别方法
CN104167211A (zh) * 2014-08-08 2014-11-26 南京大学 基于分层事件检测和上下文模型的多源场景声音摘要方法
US20160364963A1 (en) * 2015-06-12 2016-12-15 Google Inc. Method and System for Detecting an Audio Event for Smart Home Devices
US20170103776A1 (en) * 2015-10-12 2017-04-13 Gwangju Institute Of Science And Technology Sound Detection Method for Recognizing Hazard Situation
WO2018005620A1 (en) * 2016-06-28 2018-01-04 Pindrop Security, Inc. System and method for cluster-based audio event detection
CN106448661A (zh) * 2016-09-23 2017-02-22 华南理工大学 基于纯净语音与背景噪声两极建模的音频类型检测方法
KR20180122171A (ko) * 2017-05-02 2018-11-12 서강대학교산학협력단 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치
CN107123432A (zh) * 2017-05-12 2017-09-01 北京理工大学 一种自匹配Top‑N音频事件识别信道自适应方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
G. VALENZISE 等: ""Scream and gunshot detection and localization for audio-surveillance systems"", 《2007 IEEE CONFERENCE ON ADVANCED VIDEO AND SIGNAL BASED SURVEILLANCE》 *
K. ATREY 等: ""Audio Based Event Detection for Multimedia Surveillance"", 《2006 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS SPEECH AND SIGNAL PROCESSING PROCEEDINGS》 *
M. CRISTANI: ""On-line adaptive background modelling for audio surveillance"", 《PROCEEDINGS OF THE 17TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION》 *
MARCO CROCCO 等: ""Audio Surveillance: a Systematic Review"", 《HTTPS://ARXIV.ORG/ABS/1409.7787》 *
R. RADHAKRISHNAN: ""Generative Process Tracking for Audio Analysis"", 《PROC. IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》 *
X. LI 等: ""On-line sound event detection and recognition based on adaptive background model for robot audition"", 《2013 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND BIOMIMETICS (ROBIO)》 *
王开武: ""基于深度神经网络的异常声音事件检测"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
韩纪庆: ""声学事件检测技术的发展历程与研究进展"", 《数据采集与处理》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600059A (zh) * 2019-09-05 2019-12-20 Oppo广东移动通信有限公司 声学事件检测方法、装置、电子设备及存储介质
CN111461438A (zh) * 2020-04-01 2020-07-28 中国人民解放军空军93114部队 一种信号检测方法、装置、电子设备和存储介质
CN111461438B (zh) * 2020-04-01 2024-01-05 中国人民解放军空军93114部队 一种信号检测方法、装置、电子设备和存储介质
CN112033066A (zh) * 2020-07-31 2020-12-04 海尔优家智能科技(北京)有限公司 故障检测方法及装置、存储介质、电子装置
CN112820318A (zh) * 2020-12-31 2021-05-18 西安合谱声学科技有限公司 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及系统
CN112951268A (zh) * 2021-02-26 2021-06-11 北京百度网讯科技有限公司 音频识别方法、设备和存储介质
CN112951268B (zh) * 2021-02-26 2023-01-10 北京百度网讯科技有限公司 音频识别方法、设备和存储介质
CN115206294A (zh) * 2022-09-16 2022-10-18 深圳比特微电子科技有限公司 训练方法、声音事件检测方法、装置、设备和介质
CN115206294B (zh) * 2022-09-16 2022-12-06 深圳比特微电子科技有限公司 训练方法、声音事件检测方法、装置、设备和介质

Also Published As

Publication number Publication date
CN110120230B (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN110120230A (zh) 一种声学事件检测方法及装置
CN110189769B (zh) 基于多个卷积神经网络模型结合的异常声音检测方法
CN106653032B (zh) 低信噪比环境下基于多频带能量分布的动物声音检测方法
CN108231067A (zh) 基于卷积神经网络与随机森林分类的声音场景识别方法
CN102270451B (zh) 说话人识别方法及系统
Monge-Alvarez et al. Audio-cough event detection based on moment theory
CN109886242A (zh) 一种行人重识别的方法及系统
US20180277146A1 (en) System and method for anhedonia measurement using acoustic and contextual cues
CN103994820B (zh) 一种基于微孔径麦克风阵列的运动目标识别方法
CN114863937A (zh) 基于深度迁移学习与XGBoost的混合鸟鸣识别方法
CN111986699A (zh) 基于全卷积网络的声音事件检测方法
CN109584888A (zh) 基于机器学习的鸣笛识别方法
CN116842460A (zh) 基于注意力机制与残差神经网络的咳嗽关联疾病识别方法和系统
US20220051075A1 (en) Methods and apparatuses for tracking weak signal traces
CN107274912A (zh) 一种手机录音的设备来源辨识方法
CN109271889A (zh) 一种基于双层lstm神经网络的动作识别方法
Chaves et al. Katydids acoustic classification on verification approach based on MFCC and HMM
CN105006231A (zh) 基于模糊聚类决策树的分布式大型人口语者识别方法
Kelly et al. Pervasive sound sensing: A weakly supervised training approach
CN106650685A (zh) 一种基于心电图信号的身份识别方法及装置
CN109117787A (zh) 一种情感脑电信号识别方法及系统
Cope et al. Classifying plant leaves from their margins using dynamic time warping
Dov et al. Voice activity detection in presence of transients using the scattering transform
Kim et al. Stethoscope-Guided Supervised Contrastive Learning for Cross-Domain Adaptation on Respiratory Sound Classification
CN114626412A (zh) 用于无人值守传感器系统的多类别目标识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant