CN111477213A - 一种基于机器学习的声事件检测系统及方法 - Google Patents

一种基于机器学习的声事件检测系统及方法 Download PDF

Info

Publication number
CN111477213A
CN111477213A CN202010157799.0A CN202010157799A CN111477213A CN 111477213 A CN111477213 A CN 111477213A CN 202010157799 A CN202010157799 A CN 202010157799A CN 111477213 A CN111477213 A CN 111477213A
Authority
CN
China
Prior art keywords
machine learning
data
audio
module
event detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010157799.0A
Other languages
English (en)
Inventor
万同堂
周翊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010157799.0A priority Critical patent/CN111477213A/zh
Publication of CN111477213A publication Critical patent/CN111477213A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B21/00Alarms responsive to a single specified undesired or abnormal condition and not otherwise provided for
    • G08B21/18Status alarms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Emergency Management (AREA)
  • Signal Processing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及一种基于机器学习的声事件检测系统及方法,属于音频检测和故障检测技术领域。该系统包括:拾音模块、识别模块和后台管理模块;拾音模块用于完成音频采集的工作,由麦克风和相应的外围电路组成;识别模块由基于机器学习方法的识别模型组成,完成音频的实时识别功能;后台管理模块用于完成识别结果的展示。本发明系统可以更加精确的检测到声事件并且在噪声干扰的情况下具有更好的鲁棒性。

Description

一种基于机器学习的声事件检测系统及方法
技术领域
本发明属于音频检测和故障检测技术领域,涉及一种基于机器学习的声事件检测方法。
背景技术
声事件检测技术通过实时检测声事件的类型和发生时间,从而对监控系统中的突发事件进行检测、报警等操作。当前声事件检测主要应用在智能家居、工业探伤、故障检测等领域。现有的技术一般采用高斯混合模型(GMM)因马尔科夫模型等方法对实时音频进行分类。但是,当前技术存在一些问题,如:分类和检测模型不准确导致实际应用出现声事件的误报、漏报问题;模型训练阶段需要大量的数据进行训练,由于声事件的出现频率往往比较低而导致训练数据短缺的问题。
因此,目前亟需一种能够提高声事件检测准确率的系统,解决声事件出现频率低导致训练数据稀缺导致检测结果不准确的问题。
本发明提出了一套基于机器学习方法的鲁棒声事件检测系统,该发明提出的基于机器学习方法的声事件检测模型大大提升了声事件检测的准确率,另外本发明提出的训练数据增强的方法也解决了训练数据稀缺的情况下的模型训练问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于机器学习的声事件检测系统及方法,解决声事件出现频率低导致训练数据稀缺情况下的模型训练问题,从而提高声事件检测准确率和鲁棒性。
为达到上述目的,本发明提供如下技术方案:
1)一种基于机器学习的声事件检测方法,具体包括以下步骤:
S1:拾音模块完成音频采集;
S2:识别模块先将采集的音频进行数据增强处理,然后根据构建训练完的机器学习识别模型对采集的音频进行识别;
S3:后台管理模块将识别模型预测的结果进行展示。
进一步,所述步骤S2中,数据增强处理具体包括:利用不同的噪声源对训练数据进行加噪,然后再利用OMLSA降噪系统对带噪数据进行降噪,之后输入识别模型作为训练数据。
更进一步,所述OMLSA降噪系统对带噪数据进行降噪的过程包括:首先将带噪数据进行分帧加窗,然后做短时傅里叶变换得到频谱信息,其次利用自适应滤波原理估计噪声的频谱增益从而达到降噪的效果,最后将输出的频谱数据通过IFFT、窗口合成和去重叠等操作,得到增强的音频数据。
进一步,所述步骤S2中,构建和训练机器学习识别模型具体包括:首先从输入音频中提取MFCCs特征和频谱特征,然后经过DNN和CRNN网络进行建模,最后通过模型融合的方法将两者融合。
更进一步,所述DNN网络由全连接层和非线性激活层构成;DNN的输入是扁平化的特征矩阵,它输入到d个隐藏的全连接层中,每个层有n个神经元;每个全连接层后面采用一个基于整流线性单元(ReLU)的激活函数;首先利用滑动窗口将输入数据流划分为多个数据帧;64毫秒的持续时间和40%的重叠。我们提取了40维的MFCC。输出是一个线性laver,接着是一个软最大层,产生k个声音事件的输出概率,用于进一步的后验处理。
更进一步,所述CRNN网络由CNN和RNN组合而成,利用卷积lavers的局部时间/空间相关性和使用最新层的声音特征的全局时间依赖性。CRNN模型首先是一个卷积层,然后是一个RNN对信号进行编码,最后是一个密集的全连接层来映射信息;为了将两个网络结合起来,最后在输出层使用一个完全连接的层(两个隐藏层有128和64个单元)来融合两个网络的输出。
2)一种基于机器学习的声事件检测系统,包括:拾音模块、识别模块和后台管理模块;
所述拾音模块用于完成音频采集的工作,由麦克风和相应的外围电路组成;
所述识别模块由基于机器学习方法的识别模型组成,完成音频的实时识别功能;
所述后台管理模块用于完成识别结果的展示。
本发明的有益效果在于:采用本发明提出的检测方法进行系统预测,可以更加精确的检测到声事件并且在噪声干扰的情况下具有更好的鲁棒性。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为数据增强处理流程图;
图2为OMLSA降噪系统原理图;
图3为识别模型总体结构图;
图4为CNN模型结构图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图4,为一种基于机器学习的声事件检测方法,具体包括以下步骤:S1:拾音模块完成音频采集;S2:识别模块先将采集的音频进行数据增强处理,然后根据构建训练完的机器学习识别模型对采集的音频进行识别;S3:后台管理模块将识别模型预测的结果进行展示。
声事件检测系统包括:拾音模块、识别模块和后台管理模块。拾音模块主要是完成音频采集的工作,由麦克风和相应的外围电路组成;识别模块由本发明提出的基于机器学习方法的识别模型组成,完成音频的实时识别功能;后台管理模块完成识别结果的展示。
该系统的识别过程包括:
1)数据增强:由于声事件检测系统中,用于训练识别模型的数据往往比较少,因此常采用数据增强的方法,用以增加训练数据的数量,从而提升训练模型的性能;传统的音频数据增强方法如时域或者频域的拉伸和压缩往往会对训练数据噪声失真,导致训练的模型泛化性不好;本发明提出的数据增强方法可以在音频数据失真比较小的情况下最大可能的增加训练数据的数量。其增强的流程如图1所示,所提出的数据增强系统由:噪声源、增强系统、训练数据、OMLSA降噪系统组成,其基本流程是利用不同的噪声源对训练数据进行加噪,然后再利用OMLSA降噪系统对带噪数据进行降噪,之后输入模型作为训练数据;而在实际应用中,也还要利用相同的算法对现实的数据进行OMLSA降噪,这样在训练系统和实际系统中就达到了信道匹配的效果,从而模型能发挥最大的性能的同时又具有更好的噪声鲁棒性。
图2为OMLSA降噪系统的流程图,带噪信号经过系统后,首先进行分帧加窗,然后做短时傅里叶变换得到频谱信息,然后利用自适应滤波原理估计噪声的频谱增益从而达到降噪的效果,最后输出的频谱数据通过IFFT、窗口合成、去重叠等操作之后得到增强之后的音频数据。
假设x(n)和d(n)分别表示声音事件和不相关的加性噪声信号,其中n为离散时间指标。观察到的信号由y(n)=x(n)+d(n)给出,则短时傅里叶可以表示如下:
Figure BDA0002404707590000041
其中,l为每一帧音频的索引,M为帧移,k为频域索引,则纯净信号的STFT可以表示为:
Figure BDA0002404707590000042
估计得到的纯净信号为:
Figure BDA0002404707590000043
频谱增益可以通过如下计算得到:
Figure BDA0002404707590000044
其中,
Figure BDA0002404707590000045
2)识别模型的建立和训练
识别模型总体结构如图3所示,输入音频分别提取MFCCs特征和频谱特征,分别经过DNN和CRNN网络进行建模,最后通过模型融合的方法将两者融合在一起。
其中,CRNN的网络结构如图4所示,由CNN和RNN组合而成,利用卷积lavers的局部时间/空间相关性和使用最新层的声音特征的全局时间依赖性。CRNN模型首先是一个卷积层,然后是一个RNN对信号进行编码,最后是一个密集的全连接层来映射信息;为了将两个网络结合起来,最后在输出层使用一个完全连接的层(两个隐藏层有128和64个单元)来融合两个网络的输出。
DNN网络由全连接层和非线性激活层构成;DNN的输入是扁平化的特征矩阵,它输入到d个隐藏的全连接层中,每个层有n个神经元;每个全连接层后面采用一个基于整流线性单元(ReLU)的激活函数;首先利用滑动窗口将输入数据流划分为多个数据帧;64毫秒的持续时间和40%的重叠。我们提取了40维的MFCC。输出是一个线性laver,接着是一个软最大层,产生k个声音事件的输出概率,用于进一步的后验处理。
3)系统预测
按照本发明提出的检测方法进行系统预测,可以更加精确的检测到声事件并且在噪声干扰的情况下具有更好的鲁棒性。
实施例1:本实施例中系统建模所采用的网络参数如表1所示,以等错误率(Equalerror rate,EER)为指标衡量系统的性能。
表1数据增强方法对EER的影响
Figure BDA0002404707590000051
表2不同结构的模型对EER的影响
Figure BDA0002404707590000052
本实施例中,DNN网络和CRNN网络模型具体参数如表4所示。
表4网络模型具体参数
Figure BDA0002404707590000053
从表1~3中可以看出所提出的数据增强方法可以显著提升系统在安静场景和噪声场景下的性能,从而可以得出本发明所提出的模型可以显著提升系统的性能。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于机器学习的声事件检测方法,其特征在于,该方法具体包括以下步骤:
S1:拾音模块完成音频采集;
S2:识别模块先将采集的音频进行数据增强处理,然后根据构建训练完的机器学习识别模型对采集的音频进行识别;
S3:后台管理模块将识别模型预测的结果进行展示。
2.根据权利要求1所述的一种基于机器学习的声事件检测方法,其特征在于,所述步骤S2中,数据增强处理具体包括:利用不同的噪声源对训练数据进行加噪,然后再利用OMLSA降噪系统对带噪数据进行降噪,之后输入识别模型作为训练数据。
3.根据权利要求2所述的一种基于机器学习的声事件检测方法,其特征在于,所述OMLSA降噪系统对带噪数据进行降噪的过程包括:首先将带噪数据进行分帧加窗,然后做短时傅里叶变换得到频谱信息,其次利用自适应滤波原理估计噪声的频谱增益从而达到降噪的效果,最后将输出的频谱数据通过IFFT、窗口合成和去重叠的操作,得到增强的音频数据。
4.根据权利要求1所述的一种基于机器学习的声事件检测方法,其特征在于,所述步骤S2中,构建和训练机器学习识别模型具体包括:首先从输入音频中提取MFCCs特征和频谱特征,然后经过DNN和CRNN网络进行建模,最后通过模型融合的方法将两者融合。
5.根据权利要求4所述的一种基于机器学习的声事件检测方法,其特征在于,所述DNN网络由全连接层和非线性激活层构成;DNN的输入是扁平化的特征矩阵,它输入到d个隐藏的全连接层中,每个层有n个神经元;每个全连接层后面采用一个基于整流线性单元的激活函数;首先利用滑动窗口将输入数据流划分为多个数据帧;输出是一个线性laver,接着是一个软最大层,产生k个声音事件的输出概率。
6.根据权利要求4所述的一种基于机器学习的声事件检测方法,其特征在于,所述CRNN网络由CNN和RNN组合而成,CRNN模型首先是一个卷积层,然后是一个RNN对信号进行编码,最后是一个密集的全连接层来映射信息;最后在输出层使用一个完全连接的层来融合两个网络的输出。
7.一种基于机器学习的声事件检测系统,其特征在于,该系统包括:拾音模块、识别模块和后台管理模块;
所述拾音模块用于完成音频采集的工作,由麦克风和相应的外围电路组成;
所述识别模块由基于机器学习方法的识别模型组成,完成音频的实时识别功能;
所述后台管理模块用于完成识别结果的展示。
CN202010157799.0A 2020-03-09 2020-03-09 一种基于机器学习的声事件检测系统及方法 Pending CN111477213A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010157799.0A CN111477213A (zh) 2020-03-09 2020-03-09 一种基于机器学习的声事件检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010157799.0A CN111477213A (zh) 2020-03-09 2020-03-09 一种基于机器学习的声事件检测系统及方法

Publications (1)

Publication Number Publication Date
CN111477213A true CN111477213A (zh) 2020-07-31

Family

ID=71748076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010157799.0A Pending CN111477213A (zh) 2020-03-09 2020-03-09 一种基于机器学习的声事件检测系统及方法

Country Status (1)

Country Link
CN (1) CN111477213A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113823324A (zh) * 2021-11-22 2021-12-21 天津大学 一种基于迁移学习的柴油机燃烧噪声检测方法及系统
CN114155856A (zh) * 2021-12-17 2022-03-08 深圳市瑞凡微电子科技有限公司 一种日语语音识别系统及识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109473119A (zh) * 2017-09-07 2019-03-15 中国科学院声学研究所 一种声学目标事件监控方法
CN110223713A (zh) * 2019-06-11 2019-09-10 苏州思必驰信息科技有限公司 声音事件检测模型训练方法及声音事件检测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109473119A (zh) * 2017-09-07 2019-03-15 中国科学院声学研究所 一种声学目标事件监控方法
CN110223713A (zh) * 2019-06-11 2019-09-10 苏州思必驰信息科技有限公司 声音事件检测模型训练方法及声音事件检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TONGTANG WAN 等: "Noise Robust Sound Event Detection Using Deep Learning and Audio Enhancement", 《2019 IEEE INTERNATIONAL SYMPOSIUM ON SIGNAL PROCESSING AND INFORMATION TECHNOLOGY》 *
万同堂: "音频监控系统中声事件检测", 《中国优秀硕士学位论文全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113823324A (zh) * 2021-11-22 2021-12-21 天津大学 一种基于迁移学习的柴油机燃烧噪声检测方法及系统
CN114155856A (zh) * 2021-12-17 2022-03-08 深圳市瑞凡微电子科技有限公司 一种日语语音识别系统及识别方法

Similar Documents

Publication Publication Date Title
CN108172238B (zh) 一种语音识别系统中基于多个卷积神经网络的语音增强算法
US11024324B2 (en) Methods and devices for RNN-based noise reduction in real-time conferences
Kawaguchi et al. Anomaly detection based on an ensemble of dereverberation and anomalous sound extraction
CN111261183B (zh) 一种语音去噪的方法及装置
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
CN103646649A (zh) 一种高效的语音检测方法
CN113870893B (zh) 一种多通道双说话人分离方法及系统
CN107333018A (zh) 一种回声时延估计及追踪方法
CN111477213A (zh) 一种基于机器学习的声事件检测系统及方法
Park et al. Multiresolution CNN for reverberant speech recognition
CN111341319A (zh) 一种基于局部纹理特征的音频场景识别方法及系统
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN109997186B (zh) 一种用于分类声环境的设备和方法
CN112347450A (zh) 一种基于眨眼声音信号的身份验证方法
CN111341351B (zh) 基于自注意力机制的语音活动检测方法、装置及存储介质
CN113707175A (zh) 基于特征分解分类器与自适应后处理的声学事件检测系统
CN112420079A (zh) 语音端点检测方法和装置、存储介质及电子设备
Luo et al. A system for the detection of polyphonic sound on a university campus based on CapsNet-RNN
Shin et al. SELD U-Net: Joint Optimization of Sound Event Localization and Detection with Noise Reduction
TWI659410B (zh) Audio recognition method and device
Sudo et al. Improvement of DOA estimation by using quaternion output in sound event localization and detection
CN111341331B (zh) 基于局部注意力机制的语音增强方法、装置及介质
CN117577133A (zh) 一种基于深度学习的哭声检测方法及系统
TWI749547B (zh) 應用深度學習的語音增強系統
Summoogum et al. Acoustic based footstep detection in pervasive healthcare

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200731