CN101819770A

CN101819770A - 音频事件检测系统及方法

Info

Publication number: CN101819770A
Application number: CN201010103634A
Authority: CN
Inventors: 胡瑞敏; 杭波; 马晔; 高戈; 杨玉红; 周成; 王晓晨
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2010-01-27
Filing date: 2010-01-27
Publication date: 2010-09-01

Abstract

本发明音频检测技术领域，尤其涉及一种音频事件检测系统及方法。本发明的音频事件检测系统包括取样模块，用于取样来自音频输入设备的单声道或多声道的输入信号，得到当前帧的音频信号，音频显著度分析模块，用于对当前帧的音频信号进行显著度分析，得到当前音频信号的显著度，音频信号筛选模块，用于得到需要进一步进行事件匹配的待匹配音频信号和待判音频信号显著度，事件匹配模块，判断待选音频信号是否包含特定的音频事件，输出匹配事件类型和匹配信号似然度，综合判别模块，综合判别当前音频信号是否包含突发事件。本发明考虑了音频信号在频域上的子带能量分布变化，能够在较低计算复杂度下达到较高的检出率。

Description

音频事件检测系统及方法

技术领域

本发明涉及音频检测技术领域，尤其涉及一种音频事件检测系统及方法。

背景技术

智能的音频监控中需要对突发事件进行检测，进而采取报警、高质量编码等操作。当前事件检测技术主要应用于离线检测，对音频信号直接应用高斯混合模型(GMM)、隐马尔可夫模型(HMM)等方法进行事件匹配。由于当前事件检测技术在检测音频信号中是否包含突发事件时，需对音频信号中每一帧信号进行相同的处理，故计算复杂度较高；且当前事件检测技术在对音频信号进行突发事件检测的过程中通常是以数帧作为一个检测窗同时进行处理，故对突发事件进行检测的响应延时较长。

发明内容

本发明的目的是提供一种音频事件检测系统及方法，以检测出音频突发事件。

为达到上述目的，本发明采用如下的技术方案：

一种音频事件检测系统，其特征在于，包括：

取样模块，用于取样来自音频输入设备的单声道或多声道的输入信号，得到当前帧的音频信号，并将所获得的当前帧的音频信号分两路输出，一路输出连接音频显著度分析模块，一路输出连接音频信号筛选模块；

音频显著度分析模块，用于提取音频的特征并对取样模块输入的当前帧的音频信号进行显著度分析，得到当前音频信号的显著度，并将当前帧的音频信号的显著度输出给音频信号筛选模块；

音频信号筛选模块，用于根据音频显著度分析模块输入的当前音频信号的显著度，得到需要进一步进行事件匹配的待匹配音频信号和待判音频信号显著度，并相应地分两路输出，一路将待匹配音频信号输出至事件匹配模块，另一路将待判音频信号显著度输出至综合判别模块；

事件匹配模块，用于根据音频信号筛选模块输入的待匹配音频信号，判断待选音频信号是否包含特定的音频事件，输出匹配事件类型和匹配信号似然度，并分别将所得的匹配事件类型、匹配信号似然度分两路输出给综合判别模块；

综合判别模块，用于根据音频信号筛选模块输入的待判音频信号显著度、事件匹配模块输入的匹配事件类型和匹配信号似然度，综合判别后，如果当前音频信号包含突发事件，则输出匹配事件类型和事件判定结果。

一种音频事件检测方法，包括以下步骤：

①由取样模块取样来自音频输入设备的单声道或多声道的输入信号；

②由①所得的第k帧的信号求得第k帧信号的能量I_cur，

I_{cur} = Σ_{1}^{N} {[s (n)]}^{2}

其中s(n)为当前帧单声道采样信号，N为每一帧的采样点数；

③由②得到第k帧的信号求得第k帧信号的能量I_cur，设定一阈值M₁，设定另一阈值M₂，若I_cur＜M₁，重复步骤①，否则进入步骤④；

④将①中取样所得的第k帧的信号进行音频特征提取，得到第k帧待匹配音频信号的特征矢量

⑤将④得到的第k帧的信号的特征矢量

分别与枪声和尖叫声对应的两类GMM计算对数似然度，得到第k帧的信号与枪声GMM匹配的对数似然度s_gun，以及与尖叫声GMM匹配的对数似然度s_scream；

设定一阈值s，当s_gun或s_scream大于s时，若s_gun＞s_scream则第k帧的信号匹配为枪声，若s_scream＞s_gun则第k帧的信号匹配为尖叫声；当s_gun和s_scream都小于s时则第k帧的信号不包含任何音频匹配事件；

⑥若且由⑤得到第k帧的信号不包含任何音频匹配事件，转步骤⑦，否则转步骤⑧；

⑦若由③得到I_cur＜M₂，转步骤①，否则转步骤⑨；

⑧由⑤得到第k帧的信号的音频匹配事件类型，标注第k帧的信号的音频匹配事件类型；

⑨标注第k帧的信号包含突发事件。

本发明具有以下优点和积极效果：

1)考虑了音频信号显著度对音频事件检测的影响，能够在较低计算复杂度下达到较高的检出率。

附图说明

图1是本发明提供的音频事件检测系统结构框图。

图2是本发明提供的音频事件检测方法流程图。

其中，

1-取样模块，2-音频显著度分析模块，3-音频信号筛选模块，4-事件匹配模块，5-综合判别模块，6-输入信号，7-音频信号，8-显著度，9-待匹配音频信号，10-匹配事件类型，11-匹配信号似然度，12-待判信号显著度，13-匹配事件类型，14-事件判定结果。

具体实施方式

下面以具体实施例结合附图对本发明作进一步说明：

本发明提供的音频事件检测系统，具体采用如下的技术方案，参见图1，该音频事件检测系统包括：

取样模块1、音频显著度分析模块2、音频信号筛选模块3、事件匹配模块4、综合判别模块5；

取样模块1用于取样来自音频输入设备的输入信号6，以获得当前帧的音频信号，其中音频输入设备一般采用麦克风，但不限于麦克风，取样模块1可以从单声道输入音频信号取样完毕后，逐帧送往其它模块处理，取样模块1还可以边取样边将取得的一帧信号送往其它模块处理，其中因为逐帧处理，所以当前正在处理的帧被称为当前帧，上述的音频采样技术属于本领域常用的技术，在此不予赘述；取样模块1获得的当前帧的音频信号7，分两路输出，一路输出连接音频显著度分析模块2，一路输出连接音频信号筛选模块3；

音频显著度分析模块2用于根据取样模块1输入的的当前帧的音频信号，计算当前帧信号的能量I_cur，并根据当前帧信号的能量得到当前帧信号的显著度M＝I_cur，

I_{cur} = Σ_{1}^{N} {[s (n)]}^{2}

其中，s(n)为当前帧单声道采样信号，N为每一帧的采样点数，音频显著度分析模块2输出当前帧的音频信号的显著度8给音频信号筛选模块3；

音频信号筛选模块3用于根据音频显著度分析模块2输入的的当前帧的音频信号的显著度8，采用一种筛选方法，对取样模块得到的音频信号筛选得到需要进一步进行事件匹配的待匹配音频信号9，同时根据音频显著度分析分析模块2得到的当前帧的音频信号的显著度8，采用另一种筛选方法，对音频显著度分析分析模块2得到的当前帧的音频信号的显著度8筛选得到包含突发音频事件的待判音频信号显著度12，音频信号筛选模块3相应地分两路输出，一路将待匹配音频信号9输出至事件匹配模块4，另一路将待判音频信号显著度12输出至综合判别模块5；

具体实施时，音频信号筛选模块3设定两阈值M₁和M₂(1＜M₂)用于在当输入该模块的当前帧音频显著度M大于不同阈值时在后续模块进行不同的处理；其中，将M与M₁比较作为一种筛选方法，当M₁＜M时，将音频信号输出为待匹配音频信号9；将与比较作为另一种筛选方法，当M₂＜M时，音频显著度分析分析模块得到的当前帧的音频信号的显著度8输出为待判音频信号显著度12；

事件匹配模块4用于根据音频信号筛选模块3得到的待匹配音频信号9，使用模式识别等方法判断待选音频信号是否包含特定的音频事件，如果待匹配音频信号9包含特定的音频事件，则待匹配音频信号9输出为匹配音频信号，并输出匹配事件类型10和匹配信号似然度11：

具体实施时，由于可选用不同的模型，如GMM、HMM等对待匹配事件进行建模，因此该模块可根据所选模型采取不同的匹配方法，本发明的一个实施例采用的是以GMM对待匹配事件每一帧的信号提取特征并进行建模：

共两类突发音频事件，枪声与尖叫声，各对应一类GMM，具体匹配步骤如下：

首先对音频信号筛选模块得到的待匹配音频信号进行音频特征提取，得到当前帧待匹配音频信号的特征矢量

然后将上一步得到的当前帧待匹配音频信号的特征矢量

分别与枪声和尖叫声对应的两类GMM计算对数似然度，得到当前帧音频信号与枪声GMM匹配的对数似然度s_gun，以及与尖叫声GMM匹配的对数似然度s_scream，设定一阈值s，当s_gun或s_scream大于s时，若s_gun＞s_scream则当前帧音频信号匹配为枪声，否则匹配为尖叫声；

事件匹配模块4分别将所得的匹配事件类型10、匹配信号似然度11分两路输出给综合判别模块5；

综合判别模块5用于根据音频信号筛选模块3得到的待判音频信号显著度12和事件匹配模块4输出的匹配事件类型10和匹配信号似然度11，综合判别后，如果当前音频信号包含突发事件，则输出匹配事件类型13和事件判定结果14。

本发明提供的音频事件检测方法，具体采用以下的技术方案，参见图2所示，包括以下步骤：

③由取样模块取样来自麦克风的信号，采样率为32000Hz；

④由①所得的第k帧的信号求得第k帧信号的能量I_cur，

I_{cur} = Σ_{1}^{N} {[s (n)]}^{2}

其中s(n)为当前帧单声道采样信号，N为每一帧的采样点数，由①可得N＝640；

③由②得到第k帧的信号求得第k帧信号的能量I_cur，设定一阈值M₁＝10²⁰，设定另一阈值M₁＝10³⁰，若I_cur＜M₁，重复步骤①，否则进入步骤④；

⑤将④得到的第k帧的信号的特征矢量分别与枪声和尖叫声对应的两类GMM计算对数似然度，得到第k帧的信号与枪声GMM匹配的对数似然度s_gun，以及与尖叫声GMM匹配的对数似然度s_scream。设定一阈值s＝15，当s_gun或s_scream大于s时，若s_gun＞s_scream则第k帧的信号匹配为枪声，若s_scream＞s_gun则第k帧的信号匹配为尖叫声；当s_gun和s_scream都小于s时则第k帧的信号不包含任何音频匹配事件；

⑦若由③得到I_cur＜M₂，转步骤①，否则转步骤⑨；

⑨标注第k帧的信号包含突发事件。

Claims

1.一种音频事件检测系统，其特征在于包括：

取样模块(1)，用于取样来自音频输入设备的单声道或多声道的输入信号(6)，得到当前帧的音频信号(7)，并将所获得的当前帧的音频信号(7)分两路输出，一路输出连接音频显著度分析模块(2)，一路输出连接音频信号筛选模块(3)；

音频显著度分析模块(2)，用于提取音频的特征并对取样模块(1)输入的当前帧的音频信号(7)进行显著度分析，得到当前音频信号的显著度(8)，并将当前帧的音频信号的显著度(8)输出给音频信号筛选模块(3)；

音频信号筛选模块(3)，用于根据音频显著度分析模块(2)输入的当前音频信号的显著度(8)，得到需要进一步进行事件匹配的待匹配音频信号(9)和待判音频信号显著度(12)，并相应地分两路输出，一路将待匹配音频信号(9)输出至事件匹配模块(4)，另一路将待判音频信号显著度(12)输出至综合判别模块(5)；

事件匹配模块(4)，用于根据音频信号筛选模块(3)输入的待匹配音频信号(9)，判断待选音频信号是否包含特定的音频事件，输出匹配事件类型(10)和匹配信号似然度(11)，并分别将所得的匹配事件类型(10)、匹配信号似然度(11)分两路输出给综合判别模块(5)；

综合判别模块(5)，用于根据音频信号筛选模块(3)输入的待判音频信号显著度(12)、事件匹配模块(4)输入的匹配事件类型(10)和匹配信号似然度(11)，综合判别后，如果当前音频信号包含突发事件，则输出匹配事件类型(13)和事件判定结果(14)。

2.一种音频事件检测方法，其特征在于，包括以下步骤：

②由①所得的第k帧的信号求得第k帧信号的能量I_cur，

I_{cur} = Σ_{1}^{N} {[s (n)]}^{2}

其中s(n)为当前帧单声道采样信号，N为每一帧的采样点数；

⑤将④得到的第k帧的信号的特征矢量

⑦若由③得到I_cur＜M₂，转步骤①，否则转步骤⑨；

⑨标注第k帧的信号包含突发事件。