CN101819770A - 音频事件检测系统及方法 - Google Patents

音频事件检测系统及方法 Download PDF

Info

Publication number
CN101819770A
CN101819770A CN201010103634A CN201010103634A CN101819770A CN 101819770 A CN101819770 A CN 101819770A CN 201010103634 A CN201010103634 A CN 201010103634A CN 201010103634 A CN201010103634 A CN 201010103634A CN 101819770 A CN101819770 A CN 101819770A
Authority
CN
China
Prior art keywords
audio
signal
module
audio signal
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201010103634A
Other languages
English (en)
Inventor
胡瑞敏
杭波
马晔
高戈
杨玉红
周成
王晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201010103634A priority Critical patent/CN101819770A/zh
Publication of CN101819770A publication Critical patent/CN101819770A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明音频检测技术领域,尤其涉及一种音频事件检测系统及方法。本发明的音频事件检测系统包括取样模块,用于取样来自音频输入设备的单声道或多声道的输入信号,得到当前帧的音频信号,音频显著度分析模块,用于对当前帧的音频信号进行显著度分析,得到当前音频信号的显著度,音频信号筛选模块,用于得到需要进一步进行事件匹配的待匹配音频信号和待判音频信号显著度,事件匹配模块,判断待选音频信号是否包含特定的音频事件,输出匹配事件类型和匹配信号似然度,综合判别模块,综合判别当前音频信号是否包含突发事件。本发明考虑了音频信号在频域上的子带能量分布变化,能够在较低计算复杂度下达到较高的检出率。

Description

音频事件检测系统及方法
技术领域
本发明涉及音频检测技术领域,尤其涉及一种音频事件检测系统及方法。
背景技术
智能的音频监控中需要对突发事件进行检测,进而采取报警、高质量编码等操作。当前事件检测技术主要应用于离线检测,对音频信号直接应用高斯混合模型(GMM)、隐马尔可夫模型(HMM)等方法进行事件匹配。由于当前事件检测技术在检测音频信号中是否包含突发事件时,需对音频信号中每一帧信号进行相同的处理,故计算复杂度较高;且当前事件检测技术在对音频信号进行突发事件检测的过程中通常是以数帧作为一个检测窗同时进行处理,故对突发事件进行检测的响应延时较长。
发明内容
本发明的目的是提供一种音频事件检测系统及方法,以检测出音频突发事件。
为达到上述目的,本发明采用如下的技术方案:
一种音频事件检测系统,其特征在于,包括:
取样模块,用于取样来自音频输入设备的单声道或多声道的输入信号,得到当前帧的音频信号,并将所获得的当前帧的音频信号分两路输出,一路输出连接音频显著度分析模块,一路输出连接音频信号筛选模块;
音频显著度分析模块,用于提取音频的特征并对取样模块输入的当前帧的音频信号进行显著度分析,得到当前音频信号的显著度,并将当前帧的音频信号的显著度输出给音频信号筛选模块;
音频信号筛选模块,用于根据音频显著度分析模块输入的当前音频信号的显著度,得到需要进一步进行事件匹配的待匹配音频信号和待判音频信号显著度,并相应地分两路输出,一路将待匹配音频信号输出至事件匹配模块,另一路将待判音频信号显著度输出至综合判别模块;
事件匹配模块,用于根据音频信号筛选模块输入的待匹配音频信号,判断待选音频信号是否包含特定的音频事件,输出匹配事件类型和匹配信号似然度,并分别将所得的匹配事件类型、匹配信号似然度分两路输出给综合判别模块;
综合判别模块,用于根据音频信号筛选模块输入的待判音频信号显著度、事件匹配模块输入的匹配事件类型和匹配信号似然度,综合判别后,如果当前音频信号包含突发事件,则输出匹配事件类型和事件判定结果。
一种音频事件检测方法,包括以下步骤:
①由取样模块取样来自音频输入设备的单声道或多声道的输入信号;
②由①所得的第k帧的信号求得第k帧信号的能量Icur
I cur = Σ 1 N [ s ( n ) ] 2
其中s(n)为当前帧单声道采样信号,N为每一帧的采样点数;
③由②得到第k帧的信号求得第k帧信号的能量Icur,设定一阈值M1,设定另一阈值M2,若Icur<M1,重复步骤①,否则进入步骤④;
④将①中取样所得的第k帧的信号进行音频特征提取,得到第k帧待匹配音频信号的特征矢量
Figure GSA00000019881900022
⑤将④得到的第k帧的信号的特征矢量
Figure GSA00000019881900023
分别与枪声和尖叫声对应的两类GMM计算对数似然度,得到第k帧的信号与枪声GMM匹配的对数似然度sgun,以及与尖叫声GMM匹配的对数似然度sscream
设定一阈值s,当sgun或sscream大于s时,若sgun>sscream则第k帧的信号匹配为枪声,若sscream>sgun则第k帧的信号匹配为尖叫声;当sgun和sscream都小于s时则第k帧的信号不包含任何音频匹配事件;
⑥若且由⑤得到第k帧的信号不包含任何音频匹配事件,转步骤⑦,否则转步骤⑧;
⑦若由③得到Icur<M2,转步骤①,否则转步骤⑨;
⑧由⑤得到第k帧的信号的音频匹配事件类型,标注第k帧的信号的音频匹配事件类型;
⑨标注第k帧的信号包含突发事件。
本发明具有以下优点和积极效果:
1)考虑了音频信号显著度对音频事件检测的影响,能够在较低计算复杂度下达到较高的检出率。
附图说明
图1是本发明提供的音频事件检测系统结构框图。
图2是本发明提供的音频事件检测方法流程图。
其中,
1-取样模块,2-音频显著度分析模块,3-音频信号筛选模块,4-事件匹配模块,5-综合判别模块,6-输入信号,7-音频信号,8-显著度,9-待匹配音频信号,10-匹配事件类型,11-匹配信号似然度,12-待判信号显著度,13-匹配事件类型,14-事件判定结果。
具体实施方式
下面以具体实施例结合附图对本发明作进一步说明:
本发明提供的音频事件检测系统,具体采用如下的技术方案,参见图1,该音频事件检测系统包括:
取样模块1、音频显著度分析模块2、音频信号筛选模块3、事件匹配模块4、综合判别模块5;
取样模块1用于取样来自音频输入设备的输入信号6,以获得当前帧的音频信号,其中音频输入设备一般采用麦克风,但不限于麦克风,取样模块1可以从单声道输入音频信号取样完毕后,逐帧送往其它模块处理,取样模块1还可以边取样边将取得的一帧信号送往其它模块处理,其中因为逐帧处理,所以当前正在处理的帧被称为当前帧,上述的音频采样技术属于本领域常用的技术,在此不予赘述;取样模块1获得的当前帧的音频信号7,分两路输出,一路输出连接音频显著度分析模块2,一路输出连接音频信号筛选模块3;
音频显著度分析模块2用于根据取样模块1输入的的当前帧的音频信号,计算当前帧信号的能量Icur,并根据当前帧信号的能量得到当前帧信号的显著度M=Icur
I cur = Σ 1 N [ s ( n ) ] 2
其中,s(n)为当前帧单声道采样信号,N为每一帧的采样点数,音频显著度分析模块2输出当前帧的音频信号的显著度8给音频信号筛选模块3;
音频信号筛选模块3用于根据音频显著度分析模块2输入的的当前帧的音频信号的显著度8,采用一种筛选方法,对取样模块得到的音频信号筛选得到需要进一步进行事件匹配的待匹配音频信号9,同时根据音频显著度分析分析模块2得到的当前帧的音频信号的显著度8,采用另一种筛选方法,对音频显著度分析分析模块2得到的当前帧的音频信号的显著度8筛选得到包含突发音频事件的待判音频信号显著度12,音频信号筛选模块3相应地分两路输出,一路将待匹配音频信号9输出至事件匹配模块4,另一路将待判音频信号显著度12输出至综合判别模块5;
具体实施时,音频信号筛选模块3设定两阈值M1和M2(1<M2)用于在当输入该模块的当前帧音频显著度M大于不同阈值时在后续模块进行不同的处理;其中,将M与M1比较作为一种筛选方法,当M1<M时,将音频信号输出为待匹配音频信号9;将与比较作为另一种筛选方法,当M2<M时,音频显著度分析分析模块得到的当前帧的音频信号的显著度8输出为待判音频信号显著度12;
事件匹配模块4用于根据音频信号筛选模块3得到的待匹配音频信号9,使用模式识别等方法判断待选音频信号是否包含特定的音频事件,如果待匹配音频信号9包含特定的音频事件,则待匹配音频信号9输出为匹配音频信号,并输出匹配事件类型10和匹配信号似然度11:
具体实施时,由于可选用不同的模型,如GMM、HMM等对待匹配事件进行建模,因此该模块可根据所选模型采取不同的匹配方法,本发明的一个实施例采用的是以GMM对待匹配事件每一帧的信号提取特征并进行建模:
共两类突发音频事件,枪声与尖叫声,各对应一类GMM,具体匹配步骤如下:
首先对音频信号筛选模块得到的待匹配音频信号进行音频特征提取,得到当前帧待匹配音频信号的特征矢量
Figure GSA00000019881900041
然后将上一步得到的当前帧待匹配音频信号的特征矢量
Figure GSA00000019881900042
分别与枪声和尖叫声对应的两类GMM计算对数似然度,得到当前帧音频信号与枪声GMM匹配的对数似然度sgun,以及与尖叫声GMM匹配的对数似然度sscream,设定一阈值s,当sgun或sscream大于s时,若sgun>sscream则当前帧音频信号匹配为枪声,否则匹配为尖叫声;
事件匹配模块4分别将所得的匹配事件类型10、匹配信号似然度11分两路输出给综合判别模块5;
综合判别模块5用于根据音频信号筛选模块3得到的待判音频信号显著度12和事件匹配模块4输出的匹配事件类型10和匹配信号似然度11,综合判别后,如果当前音频信号包含突发事件,则输出匹配事件类型13和事件判定结果14。
本发明提供的音频事件检测方法,具体采用以下的技术方案,参见图2所示,包括以下步骤:
③由取样模块取样来自麦克风的信号,采样率为32000Hz;
④由①所得的第k帧的信号求得第k帧信号的能量Icur
I cur = Σ 1 N [ s ( n ) ] 2
其中s(n)为当前帧单声道采样信号,N为每一帧的采样点数,由①可得N=640;
③由②得到第k帧的信号求得第k帧信号的能量Icur,设定一阈值M1=1020,设定另一阈值M1=1030,若Icur<M1,重复步骤①,否则进入步骤④;
④将①中取样所得的第k帧的信号进行音频特征提取,得到第k帧待匹配音频信号的特征矢量
Figure GSA00000019881900051
⑤将④得到的第k帧的信号的特征矢量分别与枪声和尖叫声对应的两类GMM计算对数似然度,得到第k帧的信号与枪声GMM匹配的对数似然度sgun,以及与尖叫声GMM匹配的对数似然度sscream。设定一阈值s=15,当sgun或sscream大于s时,若sgun>sscream则第k帧的信号匹配为枪声,若sscream>sgun则第k帧的信号匹配为尖叫声;当sgun和sscream都小于s时则第k帧的信号不包含任何音频匹配事件;
⑥若且由⑤得到第k帧的信号不包含任何音频匹配事件,转步骤⑦,否则转步骤⑧;
⑦若由③得到Icur<M2,转步骤①,否则转步骤⑨;
⑧由⑤得到第k帧的信号的音频匹配事件类型,标注第k帧的信号的音频匹配事件类型;
⑨标注第k帧的信号包含突发事件。

Claims (2)

1.一种音频事件检测系统,其特征在于包括:
取样模块(1),用于取样来自音频输入设备的单声道或多声道的输入信号(6),得到当前帧的音频信号(7),并将所获得的当前帧的音频信号(7)分两路输出,一路输出连接音频显著度分析模块(2),一路输出连接音频信号筛选模块(3);
音频显著度分析模块(2),用于提取音频的特征并对取样模块(1)输入的当前帧的音频信号(7)进行显著度分析,得到当前音频信号的显著度(8),并将当前帧的音频信号的显著度(8)输出给音频信号筛选模块(3);
音频信号筛选模块(3),用于根据音频显著度分析模块(2)输入的当前音频信号的显著度(8),得到需要进一步进行事件匹配的待匹配音频信号(9)和待判音频信号显著度(12),并相应地分两路输出,一路将待匹配音频信号(9)输出至事件匹配模块(4),另一路将待判音频信号显著度(12)输出至综合判别模块(5);
事件匹配模块(4),用于根据音频信号筛选模块(3)输入的待匹配音频信号(9),判断待选音频信号是否包含特定的音频事件,输出匹配事件类型(10)和匹配信号似然度(11),并分别将所得的匹配事件类型(10)、匹配信号似然度(11)分两路输出给综合判别模块(5);
综合判别模块(5),用于根据音频信号筛选模块(3)输入的待判音频信号显著度(12)、事件匹配模块(4)输入的匹配事件类型(10)和匹配信号似然度(11),综合判别后,如果当前音频信号包含突发事件,则输出匹配事件类型(13)和事件判定结果(14)。
2.一种音频事件检测方法,其特征在于,包括以下步骤:
①由取样模块取样来自音频输入设备的单声道或多声道的输入信号;
②由①所得的第k帧的信号求得第k帧信号的能量Icur
I cur = Σ 1 N [ s ( n ) ] 2
其中s(n)为当前帧单声道采样信号,N为每一帧的采样点数;
③由②得到第k帧的信号求得第k帧信号的能量Icur,设定一阈值M1,设定另一阈值M2,若Icur<M1,重复步骤①,否则进入步骤④;
④将①中取样所得的第k帧的信号进行音频特征提取,得到第k帧待匹配音频信号的特征矢量
Figure FSA00000019881800012
⑤将④得到的第k帧的信号的特征矢量
Figure FSA00000019881800013
分别与枪声和尖叫声对应的两类GMM计算对数似然度,得到第k帧的信号与枪声GMM匹配的对数似然度sgun,以及与尖叫声GMM匹配的对数似然度sscream
设定一阈值s,当sgun或sscream大于s时,若sgun>sscream则第k帧的信号匹配为枪声,若sscream>sgun则第k帧的信号匹配为尖叫声;当Sgun和sscream都小于s时则第k帧的信号不包含任何音频匹配事件;
⑥若且由⑤得到第k帧的信号不包含任何音频匹配事件,转步骤⑦,否则转步骤⑧;
⑦若由③得到Icur<M2,转步骤①,否则转步骤⑨;
⑧由⑤得到第k帧的信号的音频匹配事件类型,标注第k帧的信号的音频匹配事件类型;
⑨标注第k帧的信号包含突发事件。
CN201010103634A 2010-01-27 2010-01-27 音频事件检测系统及方法 Pending CN101819770A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010103634A CN101819770A (zh) 2010-01-27 2010-01-27 音频事件检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010103634A CN101819770A (zh) 2010-01-27 2010-01-27 音频事件检测系统及方法

Publications (1)

Publication Number Publication Date
CN101819770A true CN101819770A (zh) 2010-09-01

Family

ID=42654845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010103634A Pending CN101819770A (zh) 2010-01-27 2010-01-27 音频事件检测系统及方法

Country Status (1)

Country Link
CN (1) CN101819770A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201230A (zh) * 2011-06-15 2011-09-28 天津大学 一种突发事件语音检测方法
CN102664004A (zh) * 2012-03-22 2012-09-12 重庆英卡电子有限公司 森林盗窃行为识别方法
CN103578470A (zh) * 2012-08-09 2014-02-12 安徽科大讯飞信息科技股份有限公司 一种电话录音数据的处理方法及系统
CN103632682A (zh) * 2013-11-20 2014-03-12 安徽科大讯飞信息科技股份有限公司 一种音频特征检测的方法
CN107240405A (zh) * 2017-06-14 2017-10-10 深圳市冠旭电子股份有限公司 一种音箱及告警方法
WO2017211206A1 (zh) * 2016-06-08 2017-12-14 中兴通讯股份有限公司 视频标记方法、装置及视频监控方法和系统
CN107730829A (zh) * 2016-10-20 2018-02-23 北京奥斯达兴业科技有限公司 警报联动方法和装置
CN110070895A (zh) * 2019-03-11 2019-07-30 江苏大学 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN110800053A (zh) * 2017-06-13 2020-02-14 米纳特有限公司 基于音频数据获取事件指示的方法和设备
CN110942766A (zh) * 2019-11-29 2020-03-31 厦门快商通科技股份有限公司 音频事件检测方法、系统、移动终端及存储介质

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201230A (zh) * 2011-06-15 2011-09-28 天津大学 一种突发事件语音检测方法
CN102201230B (zh) * 2011-06-15 2012-08-22 天津大学 一种突发事件语音检测方法
CN102664004A (zh) * 2012-03-22 2012-09-12 重庆英卡电子有限公司 森林盗窃行为识别方法
CN102664004B (zh) * 2012-03-22 2013-10-23 重庆英卡电子有限公司 森林盗窃行为识别方法
CN103578470A (zh) * 2012-08-09 2014-02-12 安徽科大讯飞信息科技股份有限公司 一种电话录音数据的处理方法及系统
CN103632682A (zh) * 2013-11-20 2014-03-12 安徽科大讯飞信息科技股份有限公司 一种音频特征检测的方法
CN107483879B (zh) * 2016-06-08 2020-06-09 中兴通讯股份有限公司 视频标记方法、装置及视频监控方法和系统
WO2017211206A1 (zh) * 2016-06-08 2017-12-14 中兴通讯股份有限公司 视频标记方法、装置及视频监控方法和系统
CN107483879A (zh) * 2016-06-08 2017-12-15 中兴通讯股份有限公司 视频标记方法、装置及视频监控方法和系统
CN107730829A (zh) * 2016-10-20 2018-02-23 北京奥斯达兴业科技有限公司 警报联动方法和装置
CN110800053A (zh) * 2017-06-13 2020-02-14 米纳特有限公司 基于音频数据获取事件指示的方法和设备
CN107240405A (zh) * 2017-06-14 2017-10-10 深圳市冠旭电子股份有限公司 一种音箱及告警方法
CN110070895A (zh) * 2019-03-11 2019-07-30 江苏大学 一种基于监督变分编码器因素分解的混合声音事件检测方法
CN110942766A (zh) * 2019-11-29 2020-03-31 厦门快商通科技股份有限公司 音频事件检测方法、系统、移动终端及存储介质

Similar Documents

Publication Publication Date Title
CN101819770A (zh) 音频事件检测系统及方法
CN103854662B (zh) 基于多域联合估计的自适应语音检测方法
CN102522082B (zh) 一种公共场所异常声音的识别与定位方法
CN102438189B (zh) 基于双通路声信号的声源定位方法
US20030095667A1 (en) Computation of multi-sensor time delays
CA2699316A1 (en) Apparatus and method for calculating bandwidth extension data using a spectral tilt controlled framing
CN103038823B (zh) 用于语音提取的系统和方法
CN101625858B (zh) 语音端点检测中短时能频值的提取方法
CN106226739A (zh) 融合子带分析的双声源定位方法
JP5605573B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
CN102509546B (zh) 应用于轨道交通的降噪和异常声音检测方法
JP5605574B2 (ja) 多チャンネル音響信号処理方法、そのシステム及びプログラム
Lu et al. Real-time unsupervised speaker change detection
CN109360585A (zh) 一种语音激活检测方法
CN104064196B (zh) 一种基于语音前端噪声消除的提高语音识别准确率的方法
KR101749254B1 (ko) 딥 러닝 기반의 통합 음향 정보 인지 시스템
US8666734B2 (en) Systems and methods for multiple pitch tracking using a multidimensional function and strength values
CN105916090A (zh) 一种基于智能化语音识别技术的助听器系统
CN103996399A (zh) 语音检测方法和系统
CN102201230B (zh) 一种突发事件语音检测方法
CN110706721A (zh) 基于bp神经网络的电除尘火花放电识别方法
CN114613384B (zh) 一种基于深度学习多输入语音信号波束形成信息互补方法
Talagala et al. Binaural localization of speech sources in the median plane using cepstral HRTF extraction
CN104200815A (zh) 一种基于相关分析的音频噪声实时检测方法
CN110179492B (zh) 基于自适应双阈值的肠鸣音智能识别算法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100901