CN102163427B - 一种基于环境模型的音频异常事件检测方法 - Google Patents

一种基于环境模型的音频异常事件检测方法 Download PDF

Info

Publication number
CN102163427B
CN102163427B CN201010613780A CN201010613780A CN102163427B CN 102163427 B CN102163427 B CN 102163427B CN 201010613780 A CN201010613780 A CN 201010613780A CN 201010613780 A CN201010613780 A CN 201010613780A CN 102163427 B CN102163427 B CN 102163427B
Authority
CN
China
Prior art keywords
audio
value
frame
short
maximum likelihood
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201010613780A
Other languages
English (en)
Other versions
CN102163427A (zh
Inventor
李祺
朱洪亮
辛阳
邹俊伟
黎羴
刘杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201010613780A priority Critical patent/CN102163427B/zh
Publication of CN102163427A publication Critical patent/CN102163427A/zh
Application granted granted Critical
Publication of CN102163427B publication Critical patent/CN102163427B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种基于环境模型的音频异常事件检测方法,操作步骤如下:(1)利用隐马尔科夫模型对监控环境中的音频数据进行分析,得到当前音频片段相对于每一种音频类型的相似程度,形成相似度向量;(2)在相似度向量的基础上进行整理,获得类型检测向量;(3)先采用离线训练方式,用基于神经网络的方法建立无异常事件发生时的环境模型,再根据训练好的模型,用在线测试的方式判断当前音频是否为异常事件。

Description

一种基于环境模型的音频异常事件检测方法
技术领域
本发明涉及一种基于音频信息的异常事件检测方法,确切地说,涉及一种基于环境模型的音频异常事件检测方法,属于多媒体信息的音频监控系统中的音频信号分析及其应用的信息安全技术领域。
背景技术
随着多媒体技术的不断发展和人们安全意识的提高,基于音视频的监控系统在人们的工作和生活中起着日益重要的作用。例如,在智能家居中,人们会部署摄像头来监控是否有人非法进入;在智能办公室中,人们会部署摄像头和音频传感器来检测异常事件的发生;在智能幼儿监控系统中,人们会部署音频传感器节点,看看病房中的婴儿是否发出啼哭声等。
随着监控系统的普及,单纯的依靠视频的监控系统暴露出了越来越多的不足。
第一,视频监控系统容易受光线的影响。室外监控中,阴天的时候摄像机的检测效果会大幅度下降;室内监控中,在夜晚等不需灯光照明的情况下,摄像机无法正常工作。
第二,视频监控系统中容易发生遮挡,例如交通监控中,我们所需要监控的车通常会被其他车辆挡住,影响监控效果。
第三,对于尖叫声、玻璃破碎声等异常情况,音频监控的效果强于视频监控。
第四,音频监控的成本远低于视频监控。
综上所述,音频监控系统在人们生活中的作用越发的重要。通过音频来对视频进行辅助,能够大大提高监控系统的工作效率。
在实际应用中,用户在音频监控方面通常有以下两个要求:(1)在监控系统中找出自己感兴趣的事件。例如,在对婴儿进行监控的过程中,家长希望知道婴儿什么时间发出了啼哭声;(2)通过监控系统发现异常时间,并采取相应处理。例如,在办公大楼的监控中,用户希望一旦检测出尖叫声就立刻发出警报,提醒安全保障人员尽快了解情况并采取相应措施。在本发明中,我们主要针对上述的第二种需求展开工作。
针对音频异常事件的检测,目前国内外都做了大量的工作,现有技术通常采用基于阈值的方法或基于机器学习的方法。下面分别介绍之:
基于阈值的方法,首先提取每一帧音频信号的声学特征,然后把这些特征的幅值与设定的阈值进行比较,将超过或低于设定门限的音频帧判定为异常事件。基于阈值的方法具有简单、直观的优点。在这类方法中,特征参数的选取尤为重要。近几年来,针对音频异常事件检测这一问题,研究者们提出了多种多样的音频信号的特征参数或其衍生参数。比如倒谱系数、带方差、自相关函数、信息熵等都被逐渐应用到音频分类技术中。另外,还有些工作通过将音频信号的几种特征结合起来,而音频异常事件的判断也由原来的单一门限发展到多门限。但是基于阈值的方法由于对于不同的场景,需要选定不同的阈值,所以不具有普遍性。另外,这种方法在信噪比较高时准确性较好,在音频监控系统这种信噪比较低的环境中很难达到令人满意的检测精度。
基于机器学习的方法首先需要选取大量的样本对各种异常的音频类型分别进行训练,确定模型参数,然后利用已经建立好的模型对音频信号是否异常进行判定。基于机器学习的方法理论基础坚实、实现机制简单,具有准确性好、稳健性较强等特点,因而为目前的大多数音频分类系统所采用。基于机器学习的方法要求事先给出一批具有类标记的训练样本,通过有指导的学习训练来生成分类器,进而对测试样本集合中的待分类样本进行分类。总的来说,较典型的音频分类算法主要包括最小距离法、支持向量机、神经网络、决策树方法和隐马尔科夫模型方法等。但是,这些方法通常选择对异常事件进行建模。在很多情况下,于是对异常事件的定义就显得尤为重要。很多情况下,人们对于异常事件的整理都不够全面具体。
为此,如何对全面有效的对特定场景中的音频异常事件进行检测就成为业内科技人员关注的新课题。
发明内容
有鉴于此,本发明的目的是提供一种基于环境模型的音频异常事件检测方法,使用该方法检测异常音频事件时,我们只需要对正常的情况(即环境)进行建模,该环境模型采用双重嵌套的方式,底层是隐马尔可夫模型,上层是神经网络模型。由于对于正常事件的定义比异常事件的定义简便,所以使用该方法分析异常事件时,更加全面和有效。
为了达到上述目的,本发明提供了一种基于环境模型的音频异常事件检测的方法,其特征在于,所述方法包括下述操作步骤:
(1)利用隐马尔科夫模型对监控环境中的音频数据进行初步的分析,得到当前音频片段相对于每一种基本音频类型的最大似然值,并形成最大似然值向量;
(2)在最大似然值向量的基础上进行整理,滤除噪声干扰,形成类型检测向量;
(3)先采用离线训练方式,用基于神经网络的方法建立无异常事件发生时的环境模型,再根据训练好的模型,用在线测试的方式判断当前音频是否为异常事件。
所述步骤(1)进一步包括下列操作内容:
(11)获取监控环境中的音频数据,将其中的音频采样数据序列按照设定的时长进行分帧处理,将该音频采样数据序列划分为一个音频数据帧序列;
(12)按照下述计算公式分别对每帧音频数据提取该帧音频数据的两个时域特征参数:短时能量和短时过零率;其中,每个音频数据帧的短时能量是该帧内所有音频采样值的平方和,即第i帧的短时能量是:
Figure BSA00000403881700031
而第i帧的短时过零率是在该帧中的音频信号穿过零值、即坐标横轴的次数:
Figure BSA00000403881700041
上述两式中,自然数n是该第i帧中的音频采样值的序号,其最大值是N,Sn是第n个采样的取样值,sgn()为符号函数,音频采样值Sn为正数的符号函数是1,音频采样值Sn为负数和0的符号函数都是-1,即: sgn ( S n ) = 1 , S n > 0 - 1 , S n ≤ 0 ;
(13)根据人耳反应和人类心理反应的原理,采用无限逼近的方法,提取每帧音频数据的8维频域特征参数:Mel频率倒谱系数,即MFCC参数;以便与上述短时能量和短时过零率,形成10维的特征向量;
(14)利用隐马尔科夫模型对基本音频类型进行建模和检测:先在训练过程中采用Baum-Welch算法调整隐马尔科夫模型中的各项参数,得到各个相应的模型后,再用Viterbi算法计算和检测当前的音频片断与每一种模型的相似程度,即最大似然值,在最大似然值的基础上形成最大似然值向量。
所述步骤(11)中的设定时长范围是10ms-50ms的短时间时长。
所述音频数据的短时能量是反映该音频数据在单位时间内的强度特征参数,所述短时过零率是在某种程度上反映该音频信号的频率特征。
所述步骤(13)进一步包括下列操作内容:
(131)设定已有一音频采样帧{xi},式中,自然数i是采样音频帧的序号,其最大值是M,对该音频采样帧{xi}作M点的快速傅里叶FFT变换,以将该音频采样帧的时域信号{xi}转化为频域分量{Xi};
(132)将转换后的频域分量{Xi}从线性标识转化为Mel频率标识:转化方法是先用Mel尺度将频域信号{Xi}进行变换至Mel域,然后采用一系列三角滤波器,即Mel带通滤波器进行滤波处理;
(133)对每个Mel带通滤波器的输出功率谱取对数,得到相应的对数功率谱后,再进行反离散余弦DCT变换,最后得到每帧音频数据的8维频域特征参数:Mel频率倒谱系数,即MFCC参数。
所述步骤(14)进一步包括下列操作内容:
(141)设定共需分析N种基本音频类型,当前音频片段与其中第i种基本音频类型的相似程度,即最大似然值为ci,那么,当前音频片段的最大似然值向量为c=[c1,c2,...,cN]
所述步骤(2)进一步包括下列操作内容:
(21)若当前音频片段与其中第i种音频类型的相似程度小于或等于它与所有音频类型相似度的平均值,那么我们认为这种音频类型是噪声干扰所造成的,并将其修正为0,即:
d i = c i + radom ( 0 , 1 2 N Σ k = 1 N c k ) if c i > 1 N Σ k = 1 N c k 0 if c i ≤ 1 N Σ k = 1 N c k
其中,di被成为最大似然值的修正值,
Figure BSA00000403881700052
表示0到
Figure BSA00000403881700053
之间的一个随机数。
(22)在最大似然值修正值的基础上形成类型检测向量:
类型检测向量d=[d1,d2,...,dN]
所述步骤(3)进一步包括下列操作内容:
(31)为音频环境建立神经网络模型,模型表示为:
y = Σ i = 1 N w i - θ
其中,y表示该神经网络的输出,wi表示音频环境与各个音频类型之间相互关联的权重值,θ表示异常事件的阈值。
(32)采集大量的音频环境样本,使用离线训练的方式,利用神经网络对音频环境模型进行训练后,得到音频环境与各个音频类型之间相互关联的权重值,以及异常事件的阈值;
(33)利用在线测试的方式,将当前音频片段的类型检测向量输入神经网络进行计算,若神经网络的输出大于0,则表示当前音频片段为正常环境音;若神经网络的输出小于0,则表示当前音频片段为异常事件。
本发明是一种基于环境模型的音频异常事件检测方法,它在技术上的创新主要是从通过建立正常模型弥补了以往的建立异常模型所导致的不够全面的问题,下面进行详细的说明。
首先,现有技术的研究大都会选择对异常的音频事件进行建模,例如,在办公大楼内,研究者通常会对“尖叫声”、“爆炸声”等异常事件进行建模,然后判断当前的音频片段是否属于这些异常的类别。但是,如果楼内发生了没有预先定义的异常事件,例如“玻璃破碎声”,那么现有的技术方案则无法做出正确的判断。而本发明选择对正常事件进行建模,众所周知,正常事件的定义和统计相对于异常事件而言更加的准确和全面,而且完全可以根据人们在日常生活中的经验得到,例如,办公大楼里面的正常音频只包括:语音、脚步声、电梯到达声、门的开关声、笑声、掌声等。正常环境的定义的也比异常事件的定义更加方便。为此,本发明提出针对正常事件,即环境进行建模,能够更加全面有效的对异常事件进行判断。。
另外,在建立正常环境模型时,现有的技术很多都是直接收集正常环境模型,并直接建模。由于正常环境的音频数据也是多种多样的,这种方法建模通常会需要很大的训练样本库,而且训练过程中容易导致模型不收敛。为此,本发明提出将环境模型进行进一步的划分,分割成各种各样的音频类别,如,环境模型是由语音、脚步声、电梯到达声等这些音频类别所组成的。我们对这些音频类型分别训练,并通过上层的神经网络模型探索这些模型在环境中以何种方式进行组合。这样做,不需要采集过多的环境样本就可以训练出比较全面可靠的环境模型,使得该方法更加迅捷、正确和实用,能够满足音频监控技术的发展需求。
附图说明
图1是本发明基于环境模型的音频异常事件检测的操作步骤流程图。
图2是本发明方法中的步骤(1)相似度向量形成过程的流程图。
图3是本发明方法中的MFCC参数提取过程示意图。
图4是本发明方法中的环境模型训练的流程图
图5是本发明方法中的步骤(3)判断是否有异常音频事件发生的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图和实施例的试验情况对本发明作进一步的详细描述。
本发明是一种基于环境模型的音频异常事件检测方法,该方法是先处理原始音频文件中的音频数据而提取其中音频特征参数,再利用这些参数与几种基本类型的隐马尔可夫模型进行比对,求得相似度向量。然后,相似度向量的基础上进行去噪声处理。最后,在此基础上利用环境模型进行分析,判断是否有异常音频事件发生。本发明在分析是否有异常音频事件发生时,能克服现有技术中对异常事件定义不完备以及训练数据集过于庞大的不足之处。
参见图1,说明本发明根据环境模型分析音频异常事件的方法的操作步骤以及本发明的实施例和仿真情况:
步骤1、利用隐马尔科夫模型对监控环境中的音频数据进行初步的分析,得到当前音频片段相对于每一种基本音频类型的最大似然值,并形成最大似然值向量。
参见图2,具体介绍该步骤1包括的下列具体操作内容:
(11)输入音频文件,将其中的音频采样数据序列按照设定的短时间时长(10ms-50ms)进行分帧处理,其中每个短时间段称为一帧,分帧操作后,将该音频采样数据序列划分为一个音频数据帧序列。
本发明仿真实施例的实验中,将每10ms定义为一个音频帧,因此在后续操作中,对每一个10ms分别计算其音频特征参数。
(12)按照下述计算公式分别对每帧音频数据提取该帧音频数据的两个时域特征参数:反映该音频数据在单位时间内的强度特征参数的短时能量和在某种程度上反映该音频信号的频率特征参数的短时过零率;其中,每个音频数据帧的短时能量是该帧内所有音频采样值的平方和,即第i帧的短时能量是:
Figure BSA00000403881700081
而第i帧的短时过零率是在该帧中的音频信号穿过零值、即坐标横轴的次数:
Figure BSA00000403881700082
上述两式中,自然数n是该第i帧中的音频采样值的序号,其最大值是N,Sn是第n个采样的取样值,sgn()为符号函数,音频采样值Sn为正数的符号函数是1,音频采样值Sn为负数和0的符号函数都是-1,即:
Figure BSA00000403881700083
众所周知,在模式识别过程中,特征参数的选择与提取至关重要。在音频数据中,人们提取了大量的特征参数对音频文件进行识别和分类,本发明基于以往研究工作及音频产品的相关技术,从大量的音频参数中选择出了用于基本音频事件检测的、并囊括了音频信号在时域和频域方面的特征参数。这些参数都被成功地用于多种语音识别和声纹识别产品中。本发明针对音频文件在时域方面提取短时能量和短时过零率,在频域方面则选择了采用8维MFCC(Mel频率倒谱系数)参数,形成了10维的特征向量。
为验证本发明方法的切实可行,仿真实施例中,针对当前用户普遍关注的智能家居场景和智能办公楼场景进行分析。实施例仿真系统接受用户输入一个采用PCM音频压缩格式、采样频率48k、采样位数16位、声道数目1(立体声)、文件格式为wav的音频文件,输出为txt格式的摘要文件,每一行的输出都由当前的帧号和正常/异常判定符号描述组成。例如:“1000->1”用于表示当前音频信号的第1000帧是异常音频事件;“2000->0”用于表示当前音频信号的第2000帧是正常音频事件。实施例中,N表示第i帧中所包含的音频采样数量,由于实验的采样率为48k(每秒钟有48000个采样值),帧长为10ms,可以计算出N=480。
(13)根据人耳反应和人类心理反应的原理,采用无限逼近的方法,提取每帧音频数据的8维频域特征参数:Mel频率倒谱系数,即MFCC参数;以便与上述短时能量和短时过零率,形成10维的特征向量;
人耳具有的特殊功能,使得人耳在嘈杂的环境中仍能正常分辨出各种声音,其中耳蜗起到了很关键的滤波作用。经过声学家、心理学家、生物学家的共同研究和试验发现,耳蜗实际上是一个滤波器组,其滤波作用在1000Hz以下为线性尺度,而在1000Hz以上为对数尺度。为了能够从声学、生物学和心理学的角度共同出发,从人耳结构和人类对声音的反应入手,提取出更贴合于人类理解能力的语音信号参数,现有技术从人耳反应及人类心理反应出发的无限逼近的方法,提出了Mel频率倒谱系数(MFCC参数)。
参见图3,介绍该步骤的具体操作内容为:
(131)设定已有一音频采样帧{xi},式中,自然数i是采样音频帧的序号,其最大值是M,对该音频采样帧{xi}作M点的快速傅里叶FFT变换,以将该音频采样帧的时域信号{xi}转化为频域分量{Xi};
(132)将转换后的频域分量{Xi}从线性标识转化为Mel频率标识:先用Mel尺度将频域信号{Xi}进行变换至Mel域,然后采用一系列三角滤波器,即Mel带通滤波器进行滤波处理;
(133)对每个Mel带通滤波器的输出功率谱取对数,得到相应的对数功率谱后,再进行反离散余弦(DCT)变换,最后得到每帧音频数据的8维频域特征参数:Mel频率倒谱系数,即MFCC参数。
(14)因为隐马尔可夫模型HMM(Hidden Markov Models)能够较好地描述声音的语义特性而被广泛用于音频分类系统。本发明方法也是利用隐马尔科夫模型对基本音频事件进行建模、检测和分类:先在训练过程中采用Baum-Welch算法调整隐马尔科夫模型中的各项参数,得到各个相应的模型后,再用Viterbi算法计算和检测当前的音频片断与每一种模型的相似程度(即最大似然值),然后,将这些参数进行整合,形成似然值向量。
整合成似然值向量的具体方法为:
(141)设定共需分析N种基本音频类型,当前音频片段与其中第i种基本音频类型的相似程度,即最大似然值为ci,那么,当前音频片段的最大似然值向量为c=[c1,c2,...,cN]
众所周知,在音频监控系统中,会有很多的噪声干扰,很多音频类型虽然不存在,但是当前音频信号与它的相似程度却不为0,这将对我们后续的检测过程形成很大程度的干扰。在这一步中,我们就针对这一问题,滤除噪声,提高后续检测的精确度。这一步骤的具体工作是:
步骤2、在最大似然值向量的基础上进行整理,滤除噪声干扰,形成类型检测向量;
这一步的具体做法是:
(21)若当前音频片段与其中第i种音频类型的相似程度小于或等于它与所有音频类型相似度的平均值,那么我们认为这种音频类型是噪声干扰所造成的,并将其修正为0,即:
d i = c i + radom ( 0 , 1 2 N Σ k = 1 N c k ) if c i > 1 N Σ k = 1 N c k 0 if c i ≤ 1 N Σ k = 1 N c k
其中,di被成为最大似然值的修正值,
Figure BSA00000403881700102
表示0到
Figure BSA00000403881700103
之间的一个随机数。
(22)在最大似然值修正值的基础上形成类型检测向量:
类型检测向量d=[d1,d2,...,dN]
得到类型检测向量后,本发明利用神经网络对正常环境模型进行建模,并以在线测试的方式判断当前片段是否为音频异常事件。这也是本发明中的重点步骤:步骤3。
步骤3、先采用离线训练方式,用基于神经网络的方法建立无异常事件发生时的环境模型,再根据训练好的模型,用在线测试的方式判断当前音频是否为异常事件。。
参见图4,介绍该步骤3中离线训练部分的具体操作内容为:
(31)为音频环境建立神经网络模型,模型表示为:
y = Σ i = 1 N w i - θ
其中,y表示该神经网络的输出,wi表示音频环境与各个音频类型之间相互关联的权重值,θ表示异常事件的阈值。
(32)采集大量的音频环境样本,使用离线训练的方式,利用神经网络对音频环境模型进行训练后,得到音频环境与各个音频类型之间相互关联的权重值,以及异常事件的阈值;
如图5所示,步骤3中在线测试部分的主要操作内容为:
(33)利用在线测试的方式,将当前音频片段的类型检测向量输入神经网络进行计算,若神经网络的输出大于0,则表示当前音频片段为正常环境音;若神经网络的输出小于0,则表示当前音频片段为异常事件。
总之,本发明的仿真实施例的试验是成功的,实现了发明目的。

Claims (8)

1.一种基于环境模型的音频异常事件检测方法,其特征在于,所述方法包括下述操作步骤:
(1)利用隐马尔科夫模型对监控环境中的音频数据进行初步的分析,得到当前音频片段相对于每一种基本音频类型的最大似然值,并形成最大似然值向量;
(2)在最大似然值向量的基础上进行整理,滤除噪声干扰,形成类型检测向量;
(3)先采用离线训练方式,用基于神经网络的方法建立无异常事件发生时的环境模型,再根据训练好的模型,用在线测试的方式判断当前音频是否为异常事件。
2.根据权利要求1所述的方法,其特征在于:
所述步骤(1)进一步包括下列操作内容:
(11)获取监控环境中的音频数据,将其中的音频采样数据序列按照设定的时长进行分帧处理,将该音频采样数据序列划分为一个音频数据帧序列;
(12)按照下述计算公式分别对每帧音频数据提取该帧音频数据的两个时域特征参数:短时能量和短时过零率;其中,每个音频数据帧的短时能量是该帧内所有音频采样值的平方和,即第i帧的短时能量是:
Figure FSB00000784027000011
而第i帧的短时过零率是在该帧中的音频信号穿过零值、即坐标横轴的次数:
Figure FSB00000784027000021
上述两式中,自然数n是该第i帧中的音频采样值的序号,其最大值是N,Sn是第n个采样的取样值,sgn()为符号函数,音频采样值Sn为正数的符号函数是1,音频采样值Sn为负数和0的符号函数都是-1,即: sgn ( S n ) = 1 , S n > 0 - 1 , S n ≤ 0 ;
(13)根据人耳反应和人类心理反应的原理,采用无限逼近的方法,提取每帧音频数据的8维频域特征参数:Mel频率倒谱系数,即MFCC参数;以便与上述短时能量和短时过零率,形成10维的特征向量;
(14)利用隐马尔科夫模型对基本音频类型进行建模和检测:先在训练过程中采用Baum-Welch算法调整隐马尔科夫模型中的各项参数,得到各个相应的模型后,再用Viterbi算法计算和检测当前的音频片断与每一种模型的相似程度,即最大似然值,在最大似然值的基础上形成最大似然值向量。
3.根据权利要求2所述的方法,其特征在于:
所述步骤(14)进一步包括下列操作内容:
(141)设定共需分析N种基本音频类型,当前音频片段与其中第i种基本音频类型的相似程度,即最大似然值为ci,那么,当前音频片段的最大似然值向量为c=[c1,c2,...,cN]
4.根据权利要求1所述的方法,其特征在于:
所述步骤(2)进一步包括下列操作内容:
(21)若当前音频片段与其中第i种音频类型的相似程度小于或等于它与所有音频类型相似度的平均值,那么我们认为这种音频类型是噪声干扰所造成的,并将其修正为0,并将它的影响以随机的方式分布于非噪声的音频类型,即:
d i = c i + radom ( 0 , 1 2 N Σ k = 1 N c k ) if c i > 1 N Σ k = 1 N c k 0 if c i ≤ 1 N Σ k = 1 N c k
其中,di被成为最大似然值的修正值,
Figure FSB00000784027000032
表示0到
Figure FSB00000784027000033
之间的一个随机数;
(22)在最大似然值修正值的基础上形成类型检测向量:
类型检测向量d=[d1,d2,...,dN]。
5.根据权利要求2所述的方法,其特征在于:所述步骤(11)中的设定时长范围是10ms-50ms的短时间时长。
6.根据权利要求2所述的方法,其特征在于:所述音频数据的短时能量是反映该音频数据在单位时间内的强度特征参数,所述短时过零率是在某种程度上反映该音频信号的频率特征。
7.根据权利要求2所述的方法,其特征在于:所述步骤(13)进一步包括下列操作内容:
(131)设定已有一音频采样帧{xi},式中,自然数i是采样音频帧的序号,其最大值是M,对该音频采样帧{xi}作M点的快速傅里叶FFT变换,以将该音频采样帧的时域信号{xi}转化为频域分量{Xi};
(132)将转换后的频域分量{Xi}从线性标识转化为Mel频率标识:转化方法是先用Mel尺度将频域信号{Xi}进行变换至Mel域,然后采用一系列三角滤波器,即Mel带通滤波器进行滤波处理;
(133)对每个Mel带通滤波器的输出功率谱取对数,得到相应的对数功率谱后,再进行反离散余弦DCT变换,最后得到每帧音频数据的8维频域特征参数:Mel频率倒谱系数,即MFCC参数。
8.根据权利要求1所述的方法,其特征在于:
所述步骤(3)进一步包括下列操作内容:
(31)为音频环境建立神经网络模型,模型表示为:
y = Σ i = 1 N w i - θ
其中,y表示该神经网络的输出,wi表示音频环境与各个音频类型之间相互关联的权重值,θ表示异常事件的阈值;
(32)采集大量的音频环境样本,使用离线训练的方式,利用神经网络对音频环境模型进行训练后,得到音频环境与各个音频类型之间相互关联的权重值,以及异常事件的阈值;
(33)利用在线测试的方式,将当前音频片段的类型检测向量输入神经网络进行计算,若神经网络的输出大于0,则表示当前音频片段为正常环境音;若神经网络的输出小于0,则表示当前音频片段为异常事件。
CN201010613780A 2010-12-20 2010-12-20 一种基于环境模型的音频异常事件检测方法 Expired - Fee Related CN102163427B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010613780A CN102163427B (zh) 2010-12-20 2010-12-20 一种基于环境模型的音频异常事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010613780A CN102163427B (zh) 2010-12-20 2010-12-20 一种基于环境模型的音频异常事件检测方法

Publications (2)

Publication Number Publication Date
CN102163427A CN102163427A (zh) 2011-08-24
CN102163427B true CN102163427B (zh) 2012-09-12

Family

ID=44464623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010613780A Expired - Fee Related CN102163427B (zh) 2010-12-20 2010-12-20 一种基于环境模型的音频异常事件检测方法

Country Status (1)

Country Link
CN (1) CN102163427B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111770427A (zh) * 2020-06-24 2020-10-13 杭州海康威视数字技术股份有限公司 麦克风阵列的检测方法、装置、设备以及存储介质

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103578470B (zh) * 2012-08-09 2019-10-18 科大讯飞股份有限公司 一种电话录音数据的处理方法及系统
CN104052617A (zh) * 2013-03-13 2014-09-17 北京千橡网景科技发展有限公司 基于连续时间马尔可夫链进行用户行为分析的方法和设备
CN103198838A (zh) * 2013-03-29 2013-07-10 苏州皓泰视频技术有限公司 一种用于嵌入式系统的异常声音监控方法和监控装置
CN103500307A (zh) * 2013-09-26 2014-01-08 北京邮电大学 一种基于行为模型的移动互联网恶意应用软件检测方法
CN103617393A (zh) * 2013-11-28 2014-03-05 北京邮电大学 一种基于支持向量机的移动互联网恶意应用软件检测方法
CN104409073A (zh) * 2014-11-04 2015-03-11 贵阳供电局 一种变电设备声音与语音的识别方法
CN105244038A (zh) * 2015-09-30 2016-01-13 金陵科技学院 一种基于hmm的选矿设备故障异常音频分析与识别方法
CN106611599A (zh) * 2015-10-21 2017-05-03 展讯通信(上海)有限公司 基于人工神经网络的语音识别方法、装置及电子设备
US9749733B1 (en) * 2016-04-07 2017-08-29 Harman Intenational Industries, Incorporated Approach for detecting alert signals in changing environments
CN106098068B (zh) * 2016-06-12 2019-07-16 腾讯科技(深圳)有限公司 一种声纹识别方法和装置
CN107548007B (zh) * 2016-06-23 2020-02-04 杭州海康威视数字技术股份有限公司 一种音频信号采集设备的检测方法及装置
CN107786931B (zh) * 2016-08-24 2021-03-23 中国电信股份有限公司 音频检测方法及装置
US11397792B2 (en) 2016-09-08 2022-07-26 Nec Corporation Anomaly detecting device, anomaly detecting method, and recording medium
CN106453878B (zh) * 2016-09-30 2019-11-15 努比亚技术有限公司 基于声音的提示方法及移动终端
CN106529433B (zh) * 2016-10-25 2019-07-16 天津大学 基于声音信号的队列步伐整齐度评价方法
CN109389775B (zh) * 2017-08-07 2022-04-12 青岛海尔洗衣机有限公司 一种商用衣物处理装置的远程控制方法
CN108492837B (zh) * 2018-03-23 2020-10-13 腾讯音乐娱乐科技(深圳)有限公司 音频突发白噪声的检测方法、装置及存储介质
CN108519149B (zh) * 2018-03-28 2020-09-01 长安大学 一种基于声音时频域分析的隧道事故监测报警系统及方法
CN108923809B (zh) * 2018-06-13 2020-03-06 Oppo广东移动通信有限公司 一种耳道杂物提示方法及相关产品
CN109472311A (zh) * 2018-11-13 2019-03-15 北京物灵智能科技有限公司 一种用户行为识别方法及装置
CN111354366B (zh) * 2018-12-20 2023-06-16 沈阳新松机器人自动化股份有限公司 一种异常声音检测方法及异常声音检测装置
CN109658953A (zh) * 2019-01-12 2019-04-19 深圳先进技术研究院 一种婴儿哭声识别方法、装置及设备
CN110398647B (zh) * 2019-06-26 2022-02-15 深圳供电局有限公司 变压器状态监测方法
CN110519637B (zh) * 2019-08-27 2021-05-18 西北工业大学 基于音频视频监控结合的异常监测方法
CN110942670A (zh) * 2019-11-20 2020-03-31 神思电子技术股份有限公司 一种高速公路雾区诱导方法
CN111326179B (zh) * 2020-02-27 2023-05-26 杭州雄迈集成电路技术股份有限公司 一种婴儿哭声检测深度学习方法
CN113450825B (zh) * 2020-03-27 2022-06-28 百度在线网络技术(北京)有限公司 一种音频检测方法、装置、设备和介质
CN113470694A (zh) * 2021-04-25 2021-10-01 重庆市科源能源技术发展有限公司 水轮机组遥听监测方法、装置和系统
CN113691687A (zh) * 2021-07-08 2021-11-23 浙江大华技术股份有限公司 报警方法、报警设备、电子装置和存储介质
CN114486254A (zh) * 2022-02-09 2022-05-13 青岛迈金智能科技股份有限公司 一种基于时/频双域分析的自行车轴承检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1527992A (zh) * 2001-03-15 2004-09-08 �ʼҷ����ֵ������޹�˾ 监视偶尔需要帮助的独居者的自动系统
CN101477798A (zh) * 2009-02-17 2009-07-08 北京邮电大学 一种分析和提取设定场景的音频数据的方法
CN101494049A (zh) * 2009-03-11 2009-07-29 北京邮电大学 一种用于音频监控系统中的音频特征参数的提取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080215318A1 (en) * 2007-03-01 2008-09-04 Microsoft Corporation Event recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1527992A (zh) * 2001-03-15 2004-09-08 �ʼҷ����ֵ������޹�˾ 监视偶尔需要帮助的独居者的自动系统
CN101477798A (zh) * 2009-02-17 2009-07-08 北京邮电大学 一种分析和提取设定场景的音频数据的方法
CN101494049A (zh) * 2009-03-11 2009-07-29 北京邮电大学 一种用于音频监控系统中的音频特征参数的提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
栾少文.《智能监控系统中公共场所异常声音检测的研究》.《中国优秀硕士学位论文全文数据库》.2009, *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111770427A (zh) * 2020-06-24 2020-10-13 杭州海康威视数字技术股份有限公司 麦克风阵列的检测方法、装置、设备以及存储介质

Also Published As

Publication number Publication date
CN102163427A (zh) 2011-08-24

Similar Documents

Publication Publication Date Title
CN102163427B (zh) 一种基于环境模型的音频异常事件检测方法
CN101494049B (zh) 一种用于音频监控系统中的音频特征参数的提取方法
Kong et al. DCASE 2018 challenge surrey cross-task convolutional neural network baseline
CN101710490B (zh) 语音评测的噪声补偿方法及装置
CN102664006B (zh) 基于时频域分析的异常人声检测方法
CN105679310A (zh) 一种用于语音识别方法及系统
CN106251874A (zh) 一种语音门禁和安静环境监控方法及系统
Venter et al. Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings
CN102522082A (zh) 一种公共场所异常声音的识别与定位方法
CN103646649A (zh) 一种高效的语音检测方法
CN103280220A (zh) 一种实时的婴儿啼哭声识别方法
CN102509547A (zh) 基于矢量量化的声纹识别方法及系统
Lokhande et al. Voice activity detection algorithm for speech recognition applications
CN106205606A (zh) 一种基于语音识别的动态定位监控方法及系统
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN102623009A (zh) 一种基于短时分析的异常情绪自动检测和提取方法和系统
Kim et al. Hierarchical approach for abnormal acoustic event classification in an elevator
CN105825857A (zh) 基于声纹识别帮助失聪患者判断声音类别的方法
Junkai et al. Coal-rock interface recognition based on MFCC and neural network
CN105916090A (zh) 一种基于智能化语音识别技术的助听器系统
CN102496366B (zh) 一种与文本无关的说话人识别方法
Wiśniewski et al. Automatic detection of disorders in a continuous speech with the hidden Markov models approach
Kuo Feature extraction and recognition of infant cries
US6751580B1 (en) Tornado recognition system and associated methods
CN114974229A (zh) 基于电力现场作业音频数据提取异常行为的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120912

Termination date: 20121220