CN102163427B

CN102163427B - 一种基于环境模型的音频异常事件检测方法

Info

Publication number: CN102163427B
Application number: CN201010613780A
Authority: CN
Inventors: 李祺; 朱洪亮; 辛阳; 邹俊伟; 黎羴; 刘杰
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2010-12-20
Filing date: 2010-12-20
Publication date: 2012-09-12
Anticipated expiration: 2030-12-20
Also published as: CN102163427A

Abstract

一种基于环境模型的音频异常事件检测方法，操作步骤如下：(1)利用隐马尔科夫模型对监控环境中的音频数据进行分析，得到当前音频片段相对于每一种音频类型的相似程度，形成相似度向量；(2)在相似度向量的基础上进行整理，获得类型检测向量；(3)先采用离线训练方式，用基于神经网络的方法建立无异常事件发生时的环境模型，再根据训练好的模型，用在线测试的方式判断当前音频是否为异常事件。

Description

一种基于环境模型的音频异常事件检测方法

技术领域

本发明涉及一种基于音频信息的异常事件检测方法，确切地说，涉及一种基于环境模型的音频异常事件检测方法，属于多媒体信息的音频监控系统中的音频信号分析及其应用的信息安全技术领域。

背景技术

随着多媒体技术的不断发展和人们安全意识的提高，基于音视频的监控系统在人们的工作和生活中起着日益重要的作用。例如，在智能家居中，人们会部署摄像头来监控是否有人非法进入；在智能办公室中，人们会部署摄像头和音频传感器来检测异常事件的发生；在智能幼儿监控系统中，人们会部署音频传感器节点，看看病房中的婴儿是否发出啼哭声等。

随着监控系统的普及，单纯的依靠视频的监控系统暴露出了越来越多的不足。

第一，视频监控系统容易受光线的影响。室外监控中，阴天的时候摄像机的检测效果会大幅度下降；室内监控中，在夜晚等不需灯光照明的情况下，摄像机无法正常工作。

第二，视频监控系统中容易发生遮挡，例如交通监控中，我们所需要监控的车通常会被其他车辆挡住，影响监控效果。

第三，对于尖叫声、玻璃破碎声等异常情况，音频监控的效果强于视频监控。

第四，音频监控的成本远低于视频监控。

综上所述，音频监控系统在人们生活中的作用越发的重要。通过音频来对视频进行辅助，能够大大提高监控系统的工作效率。

在实际应用中，用户在音频监控方面通常有以下两个要求：(1)在监控系统中找出自己感兴趣的事件。例如，在对婴儿进行监控的过程中，家长希望知道婴儿什么时间发出了啼哭声；(2)通过监控系统发现异常时间，并采取相应处理。例如，在办公大楼的监控中，用户希望一旦检测出尖叫声就立刻发出警报，提醒安全保障人员尽快了解情况并采取相应措施。在本发明中，我们主要针对上述的第二种需求展开工作。

针对音频异常事件的检测，目前国内外都做了大量的工作，现有技术通常采用基于阈值的方法或基于机器学习的方法。下面分别介绍之：

基于阈值的方法，首先提取每一帧音频信号的声学特征，然后把这些特征的幅值与设定的阈值进行比较，将超过或低于设定门限的音频帧判定为异常事件。基于阈值的方法具有简单、直观的优点。在这类方法中，特征参数的选取尤为重要。近几年来，针对音频异常事件检测这一问题，研究者们提出了多种多样的音频信号的特征参数或其衍生参数。比如倒谱系数、带方差、自相关函数、信息熵等都被逐渐应用到音频分类技术中。另外，还有些工作通过将音频信号的几种特征结合起来，而音频异常事件的判断也由原来的单一门限发展到多门限。但是基于阈值的方法由于对于不同的场景，需要选定不同的阈值，所以不具有普遍性。另外，这种方法在信噪比较高时准确性较好，在音频监控系统这种信噪比较低的环境中很难达到令人满意的检测精度。

基于机器学习的方法首先需要选取大量的样本对各种异常的音频类型分别进行训练，确定模型参数，然后利用已经建立好的模型对音频信号是否异常进行判定。基于机器学习的方法理论基础坚实、实现机制简单，具有准确性好、稳健性较强等特点，因而为目前的大多数音频分类系统所采用。基于机器学习的方法要求事先给出一批具有类标记的训练样本，通过有指导的学习训练来生成分类器，进而对测试样本集合中的待分类样本进行分类。总的来说，较典型的音频分类算法主要包括最小距离法、支持向量机、神经网络、决策树方法和隐马尔科夫模型方法等。但是，这些方法通常选择对异常事件进行建模。在很多情况下，于是对异常事件的定义就显得尤为重要。很多情况下，人们对于异常事件的整理都不够全面具体。

为此，如何对全面有效的对特定场景中的音频异常事件进行检测就成为业内科技人员关注的新课题。

发明内容

有鉴于此，本发明的目的是提供一种基于环境模型的音频异常事件检测方法，使用该方法检测异常音频事件时，我们只需要对正常的情况(即环境)进行建模，该环境模型采用双重嵌套的方式，底层是隐马尔可夫模型，上层是神经网络模型。由于对于正常事件的定义比异常事件的定义简便，所以使用该方法分析异常事件时，更加全面和有效。

为了达到上述目的，本发明提供了一种基于环境模型的音频异常事件检测的方法，其特征在于，所述方法包括下述操作步骤：

(1)利用隐马尔科夫模型对监控环境中的音频数据进行初步的分析，得到当前音频片段相对于每一种基本音频类型的最大似然值，并形成最大似然值向量；

(2)在最大似然值向量的基础上进行整理，滤除噪声干扰，形成类型检测向量；

(3)先采用离线训练方式，用基于神经网络的方法建立无异常事件发生时的环境模型，再根据训练好的模型，用在线测试的方式判断当前音频是否为异常事件。

所述步骤(1)进一步包括下列操作内容：

(11)获取监控环境中的音频数据，将其中的音频采样数据序列按照设定的时长进行分帧处理，将该音频采样数据序列划分为一个音频数据帧序列；

(12)按照下述计算公式分别对每帧音频数据提取该帧音频数据的两个时域特征参数：短时能量和短时过零率；其中，每个音频数据帧的短时能量是该帧内所有音频采样值的平方和，即第i帧的短时能量是：

而第i帧的短时过零率是在该帧中的音频信号穿过零值、即坐标横轴的次数：

上述两式中，自然数n是该第i帧中的音频采样值的序号，其最大值是N，S_n是第n个采样的取样值，sgn()为符号函数，音频采样值S_n为正数的符号函数是1，音频采样值S_n为负数和0的符号函数都是-1，即：

sgn (S_{n}) = \{\begin{matrix} 1, & S_{n} > 0 \\ - 1, & S_{n} \leq 0 \end{matrix};

(13)根据人耳反应和人类心理反应的原理，采用无限逼近的方法，提取每帧音频数据的8维频域特征参数：Mel频率倒谱系数，即MFCC参数；以便与上述短时能量和短时过零率，形成10维的特征向量；

(14)利用隐马尔科夫模型对基本音频类型进行建模和检测：先在训练过程中采用Baum-Welch算法调整隐马尔科夫模型中的各项参数，得到各个相应的模型后，再用Viterbi算法计算和检测当前的音频片断与每一种模型的相似程度，即最大似然值，在最大似然值的基础上形成最大似然值向量。

所述步骤(11)中的设定时长范围是10ms-50ms的短时间时长。

所述音频数据的短时能量是反映该音频数据在单位时间内的强度特征参数，所述短时过零率是在某种程度上反映该音频信号的频率特征。

所述步骤(13)进一步包括下列操作内容：

(131)设定已有一音频采样帧{x_i}，式中，自然数i是采样音频帧的序号，其最大值是M，对该音频采样帧{x_i}作M点的快速傅里叶FFT变换，以将该音频采样帧的时域信号{x_i}转化为频域分量{X_i}；

(132)将转换后的频域分量{X_i}从线性标识转化为Mel频率标识：转化方法是先用Mel尺度将频域信号{X_i}进行变换至Mel域，然后采用一系列三角滤波器，即Mel带通滤波器进行滤波处理；

(133)对每个Mel带通滤波器的输出功率谱取对数，得到相应的对数功率谱后，再进行反离散余弦DCT变换，最后得到每帧音频数据的8维频域特征参数：Mel频率倒谱系数，即MFCC参数。

所述步骤(14)进一步包括下列操作内容：

(141)设定共需分析N种基本音频类型，当前音频片段与其中第i种基本音频类型的相似程度，即最大似然值为c_i，那么，当前音频片段的最大似然值向量为c＝[c₁，c₂，...，c_N]

所述步骤(2)进一步包括下列操作内容：

(21)若当前音频片段与其中第i种音频类型的相似程度小于或等于它与所有音频类型相似度的平均值，那么我们认为这种音频类型是噪声干扰所造成的，并将其修正为0，即：

d_{i} = \{\begin{matrix} c_{i} + radom (0, \frac{1}{2 N} Σ_{k = 1}^{N} c_{k}) & if c_{i} > \frac{1}{N} Σ_{k = 1}^{N} c_{k} \\ 0 & if c_{i} \leq \frac{1}{N} Σ_{k = 1}^{N} c_{k} \end{matrix}

其中，d_i被成为最大似然值的修正值，

表示0到

之间的一个随机数。

(22)在最大似然值修正值的基础上形成类型检测向量：

类型检测向量d＝[d₁，d₂，...，d_N]

所述步骤(3)进一步包括下列操作内容：

(31)为音频环境建立神经网络模型，模型表示为：

y = Σ_{i = 1}^{N} w_{i} - θ

其中，y表示该神经网络的输出，w_i表示音频环境与各个音频类型之间相互关联的权重值，θ表示异常事件的阈值。

(32)采集大量的音频环境样本，使用离线训练的方式，利用神经网络对音频环境模型进行训练后，得到音频环境与各个音频类型之间相互关联的权重值，以及异常事件的阈值；

(33)利用在线测试的方式，将当前音频片段的类型检测向量输入神经网络进行计算，若神经网络的输出大于0，则表示当前音频片段为正常环境音；若神经网络的输出小于0，则表示当前音频片段为异常事件。

本发明是一种基于环境模型的音频异常事件检测方法，它在技术上的创新主要是从通过建立正常模型弥补了以往的建立异常模型所导致的不够全面的问题，下面进行详细的说明。

首先，现有技术的研究大都会选择对异常的音频事件进行建模，例如，在办公大楼内，研究者通常会对“尖叫声”、“爆炸声”等异常事件进行建模，然后判断当前的音频片段是否属于这些异常的类别。但是，如果楼内发生了没有预先定义的异常事件，例如“玻璃破碎声”，那么现有的技术方案则无法做出正确的判断。而本发明选择对正常事件进行建模，众所周知，正常事件的定义和统计相对于异常事件而言更加的准确和全面，而且完全可以根据人们在日常生活中的经验得到，例如，办公大楼里面的正常音频只包括：语音、脚步声、电梯到达声、门的开关声、笑声、掌声等。正常环境的定义的也比异常事件的定义更加方便。为此，本发明提出针对正常事件，即环境进行建模，能够更加全面有效的对异常事件进行判断。。

另外，在建立正常环境模型时，现有的技术很多都是直接收集正常环境模型，并直接建模。由于正常环境的音频数据也是多种多样的，这种方法建模通常会需要很大的训练样本库，而且训练过程中容易导致模型不收敛。为此，本发明提出将环境模型进行进一步的划分，分割成各种各样的音频类别，如，环境模型是由语音、脚步声、电梯到达声等这些音频类别所组成的。我们对这些音频类型分别训练，并通过上层的神经网络模型探索这些模型在环境中以何种方式进行组合。这样做，不需要采集过多的环境样本就可以训练出比较全面可靠的环境模型，使得该方法更加迅捷、正确和实用，能够满足音频监控技术的发展需求。

附图说明

图1是本发明基于环境模型的音频异常事件检测的操作步骤流程图。

图2是本发明方法中的步骤(1)相似度向量形成过程的流程图。

图3是本发明方法中的MFCC参数提取过程示意图。

图4是本发明方法中的环境模型训练的流程图

图5是本发明方法中的步骤(3)判断是否有异常音频事件发生的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图和实施例的试验情况对本发明作进一步的详细描述。

本发明是一种基于环境模型的音频异常事件检测方法，该方法是先处理原始音频文件中的音频数据而提取其中音频特征参数，再利用这些参数与几种基本类型的隐马尔可夫模型进行比对，求得相似度向量。然后，相似度向量的基础上进行去噪声处理。最后，在此基础上利用环境模型进行分析，判断是否有异常音频事件发生。本发明在分析是否有异常音频事件发生时，能克服现有技术中对异常事件定义不完备以及训练数据集过于庞大的不足之处。

参见图1，说明本发明根据环境模型分析音频异常事件的方法的操作步骤以及本发明的实施例和仿真情况：

步骤1、利用隐马尔科夫模型对监控环境中的音频数据进行初步的分析，得到当前音频片段相对于每一种基本音频类型的最大似然值，并形成最大似然值向量。

参见图2，具体介绍该步骤1包括的下列具体操作内容：

(11)输入音频文件，将其中的音频采样数据序列按照设定的短时间时长(10ms-50ms)进行分帧处理，其中每个短时间段称为一帧，分帧操作后，将该音频采样数据序列划分为一个音频数据帧序列。

本发明仿真实施例的实验中，将每10ms定义为一个音频帧，因此在后续操作中，对每一个10ms分别计算其音频特征参数。

(12)按照下述计算公式分别对每帧音频数据提取该帧音频数据的两个时域特征参数：反映该音频数据在单位时间内的强度特征参数的短时能量和在某种程度上反映该音频信号的频率特征参数的短时过零率；其中，每个音频数据帧的短时能量是该帧内所有音频采样值的平方和，即第i帧的短时能量是：

众所周知，在模式识别过程中，特征参数的选择与提取至关重要。在音频数据中，人们提取了大量的特征参数对音频文件进行识别和分类，本发明基于以往研究工作及音频产品的相关技术，从大量的音频参数中选择出了用于基本音频事件检测的、并囊括了音频信号在时域和频域方面的特征参数。这些参数都被成功地用于多种语音识别和声纹识别产品中。本发明针对音频文件在时域方面提取短时能量和短时过零率，在频域方面则选择了采用8维MFCC(Mel频率倒谱系数)参数，形成了10维的特征向量。

为验证本发明方法的切实可行，仿真实施例中，针对当前用户普遍关注的智能家居场景和智能办公楼场景进行分析。实施例仿真系统接受用户输入一个采用PCM音频压缩格式、采样频率48k、采样位数16位、声道数目1(立体声)、文件格式为wav的音频文件，输出为txt格式的摘要文件，每一行的输出都由当前的帧号和正常/异常判定符号描述组成。例如：“1000-＞1”用于表示当前音频信号的第1000帧是异常音频事件；“2000-＞0”用于表示当前音频信号的第2000帧是正常音频事件。实施例中，N表示第i帧中所包含的音频采样数量，由于实验的采样率为48k(每秒钟有48000个采样值)，帧长为10ms，可以计算出N＝480。

人耳具有的特殊功能，使得人耳在嘈杂的环境中仍能正常分辨出各种声音，其中耳蜗起到了很关键的滤波作用。经过声学家、心理学家、生物学家的共同研究和试验发现，耳蜗实际上是一个滤波器组，其滤波作用在1000Hz以下为线性尺度，而在1000Hz以上为对数尺度。为了能够从声学、生物学和心理学的角度共同出发，从人耳结构和人类对声音的反应入手，提取出更贴合于人类理解能力的语音信号参数，现有技术从人耳反应及人类心理反应出发的无限逼近的方法，提出了Mel频率倒谱系数(MFCC参数)。

参见图3，介绍该步骤的具体操作内容为：

(132)将转换后的频域分量{X_i}从线性标识转化为Mel频率标识：先用Mel尺度将频域信号{X_i}进行变换至Mel域，然后采用一系列三角滤波器，即Mel带通滤波器进行滤波处理；

(133)对每个Mel带通滤波器的输出功率谱取对数，得到相应的对数功率谱后，再进行反离散余弦(DCT)变换，最后得到每帧音频数据的8维频域特征参数：Mel频率倒谱系数，即MFCC参数。

(14)因为隐马尔可夫模型HMM(Hidden Markov Models)能够较好地描述声音的语义特性而被广泛用于音频分类系统。本发明方法也是利用隐马尔科夫模型对基本音频事件进行建模、检测和分类：先在训练过程中采用Baum-Welch算法调整隐马尔科夫模型中的各项参数，得到各个相应的模型后，再用Viterbi算法计算和检测当前的音频片断与每一种模型的相似程度(即最大似然值)，然后，将这些参数进行整合，形成似然值向量。

整合成似然值向量的具体方法为：

众所周知，在音频监控系统中，会有很多的噪声干扰，很多音频类型虽然不存在，但是当前音频信号与它的相似程度却不为0，这将对我们后续的检测过程形成很大程度的干扰。在这一步中，我们就针对这一问题，滤除噪声，提高后续检测的精确度。这一步骤的具体工作是：

步骤2、在最大似然值向量的基础上进行整理，滤除噪声干扰，形成类型检测向量；

这一步的具体做法是：

d_{i} = \{\begin{matrix} c_{i} + radom (0, \frac{1}{2 N} Σ_{k = 1}^{N} c_{k}) & if c_{i} > \frac{1}{N} Σ_{k = 1}^{N} c_{k} \\ 0 & if c_{i} \leq \frac{1}{N} Σ_{k = 1}^{N} c_{k} \end{matrix}

其中，d_i被成为最大似然值的修正值，

表示0到

之间的一个随机数。

(22)在最大似然值修正值的基础上形成类型检测向量：

类型检测向量d＝[d₁，d₂，...，d_N]

得到类型检测向量后，本发明利用神经网络对正常环境模型进行建模，并以在线测试的方式判断当前片段是否为音频异常事件。这也是本发明中的重点步骤：步骤3。

步骤3、先采用离线训练方式，用基于神经网络的方法建立无异常事件发生时的环境模型，再根据训练好的模型，用在线测试的方式判断当前音频是否为异常事件。。

参见图4，介绍该步骤3中离线训练部分的具体操作内容为：

(31)为音频环境建立神经网络模型，模型表示为：

y = Σ_{i = 1}^{N} w_{i} - θ

如图5所示，步骤3中在线测试部分的主要操作内容为：

总之，本发明的仿真实施例的试验是成功的，实现了发明目的。

Claims

1.一种基于环境模型的音频异常事件检测方法，其特征在于，所述方法包括下述操作步骤：

2.根据权利要求1所述的方法，其特征在于：

所述步骤(1)进一步包括下列操作内容：

sgn (S_{n}) = \{\begin{matrix} 1, & S_{n} > 0 \\ - 1, & S_{n} \leq 0 \end{matrix};

3.根据权利要求2所述的方法，其特征在于：

所述步骤(14)进一步包括下列操作内容：

4.根据权利要求1所述的方法，其特征在于：

所述步骤(2)进一步包括下列操作内容：

(21)若当前音频片段与其中第i种音频类型的相似程度小于或等于它与所有音频类型相似度的平均值，那么我们认为这种音频类型是噪声干扰所造成的，并将其修正为0，并将它的影响以随机的方式分布于非噪声的音频类型，即：

d_{i} = \{\begin{matrix} c_{i} + radom (0, \frac{1}{2 N} Σ_{k = 1}^{N} c_{k}) & if c_{i} > \frac{1}{N} Σ_{k = 1}^{N} c_{k} \\ 0 & if c_{i} \leq \frac{1}{N} Σ_{k = 1}^{N} c_{k} \end{matrix}

其中，d_i被成为最大似然值的修正值，

表示0到

之间的一个随机数；

(22)在最大似然值修正值的基础上形成类型检测向量：

类型检测向量d＝[d₁，d₂，...，d_N]。

5.根据权利要求2所述的方法，其特征在于：所述步骤(11)中的设定时长范围是10ms-50ms的短时间时长。

6.根据权利要求2所述的方法，其特征在于：所述音频数据的短时能量是反映该音频数据在单位时间内的强度特征参数，所述短时过零率是在某种程度上反映该音频信号的频率特征。

7.根据权利要求2所述的方法，其特征在于：所述步骤(13)进一步包括下列操作内容：

8.根据权利要求1所述的方法，其特征在于：

所述步骤(3)进一步包括下列操作内容：

(31)为音频环境建立神经网络模型，模型表示为：

y = Σ_{i = 1}^{N} w_{i} - θ

其中，y表示该神经网络的输出，w_i表示音频环境与各个音频类型之间相互关联的权重值，θ表示异常事件的阈值；