CN102664006B - 基于时频域分析的异常人声检测方法 - Google Patents
基于时频域分析的异常人声检测方法 Download PDFInfo
- Publication number
- CN102664006B CN102664006B CN201210109092.8A CN201210109092A CN102664006B CN 102664006 B CN102664006 B CN 102664006B CN 201210109092 A CN201210109092 A CN 201210109092A CN 102664006 B CN102664006 B CN 102664006B
- Authority
- CN
- China
- Prior art keywords
- sound
- abnormal
- intensity
- time
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004458 analytical method Methods 0.000 title claims abstract description 7
- 239000012634 fragment Substances 0.000 claims abstract description 31
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 19
- 239000000284 extract Substances 0.000 claims description 17
- 238000012544 monitoring process Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 11
- 230000006872 improvement Effects 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Emergency Alarm Devices (AREA)
Abstract
本发明涉及一种基于时频域分析的异常人声检测方法。该方法首先计算实时更新的监控场景背景声音强度,检测并提取声音强度突变片段;然后提取异常片段的均值滤波梅尔频率倒谱系数;最后将提取到的异常片段声音梅尔频率倒谱系数参数作为观测序列,输入训练好的改进隐马尔科夫过程模型,根据人声频率特征,分析该异常片段是否为异常人声。其中隐马尔科夫过程模型加入时序相关性进行改进。该方法结合时域提取能量突变帧和频域范围验证,可有效检测到异常人声,实时性好,抗噪声性能强,鲁棒性较好。
Description
技术领域
本发明主要涉及一种基于时频域分析的异常人声检测方法。
背景技术
安全防控越来越成为公众关注的焦点,视频监视系统得到了普遍的推广应用,我国绝大多数县级以上城市以及乡镇重点场所均已依法建立视频监视体系,实现多方位全天候的视频监视和存储。目前绝大多数视频监视系统没有对声音进行监控,或者仅做简单的录制,缺少对声音信息的实时分析处理。当发生不安全事件时,现场往往存在呼救、尖叫、大喊等异常人声,现有视频监视系统不能对异常人声做出及时反应,智能化预警程度不高,不能更有效地保护人民群众的人身、财物安全。
发明内容
针对视频监视系统中人声监控的空白,本发明提供一种基于时频域分析的异常人声检测方法,该方法包括基于时域的背景声音强度实时更新方法、异常声音片段提取方法,基于频域的异常声音片段均值滤波MFCC参数提取方法、引入时间相关性的HMM模型训练及异常人声检测方法。
本发明的异常人声检测方法主要针对道路、街面等公共场所或其它重点位置的声音信息进行自动监控,包括时域处理和频域处理,首先在时域处理阶段,计算实时更新的监控场景背景声音强度,检测并提取声音强度突变片段;然后进入频域处理阶段,对异常声音片段提取经过均值滤波的梅尔频率倒谱系数 (Mel-Frequency Cepstrum Coefficients,MFCC),将提取到的异常片段声音MFCC作为观测序列,输入训练好的改进隐马尔科夫过程(Hidden Markov Model,HMM)模型,根据人声频率特征,分析该异常片段是否为异常人声;其中HMM模型引入时序相关性加以改进;本发明完整处理流程如图1所示,下面对本发明中的技术方案阐述如下:
1、计算监控场景实时背景声音强度
首先在初始化过程中计算一定时长的背景声音能量作为初始背景强度,然后在处理过程中不断加入当前声音片段,删除旧的声音片段,实现背景强度的实时更新。具体流程为:
Step1.1:背景声音强度初始化
式中的Ei为第i段短时声音片段强度,其计算方法为:
其中N为短时声音片段长度,w()为短时窗函数,t为声音采样点时刻,x()是采样时刻的声音强度,Si为第i段短时声音片段的起始采样时刻。在11.025kHz左右的采样频率下,N选为100~300,对应时间为10~30ms;
Step1.2:背景声音强度实时更新
在后续人声处理过程中实时更新背景声音强度,每获取一段新的短时声音后,首先移除背景声音序列中的第一段短时声音,然后将新的短时声音作为新背景声音序列的最后一段,最后使用Step1.1的方法计算该新背景声音序列的平均声音强度,将其作为当前的背景声音强度,实现背景声音强度实时更新。
2、提取声音突变片段
根据声音信号的能量随时间变化,发生异常情况时声音短时能量变化明显的特点,对语音的时域短时能量进行分析,以获取声音突变段。
具体过程如下:
Step2.1:通过Step1.1计算当前段声音的短时能量Ec;
3、提取经过均值滤波的梅尔频率倒谱系数
梅尔频率倒谱系数 MFCC考虑人耳听觉特性,在特征提取过程中利用音调特性,用梅尔频率刻度对实际频率进行变换,可以模拟人耳听到的声音高低与声音频率之间的非线性关系,本发明对传统MFCC参数加以均值滤波,抗噪声性能较好。提取经过均值滤波的MFCC流程为:
Step3.1:计算异常声音片段频谱
将当前检测到的异常声音片段时域信号x补若干0形成长为M的序列,一般取M=512;然后经过离散傅立叶变换后得到线性频谱X(k);
Step3.2:对线性频谱X(k)进行均值滤波,得到平滑谱Z(k),其中w为以k为中心的滤波窗口;
Step3.3:计算梅尔频谱对数能量
将上述线性频谱Z(k)通过梅尔频率滤波器组,得到梅尔频谱,通过对数能量的计算,得到对数频谱s(l);
其中Hl(k)为梅尔滤波器组,l为其中的滤波器序号,M为滤波器总数;
Step3.4:计算梅尔频率倒谱系数;
其中p为倒谱系数参数。
4、基于改进隐马尔科夫过程(HMM)模型过程的异常声音检测
在本方法中,将提取到的异常片段声音MFCC系数作为观测序列,输入训练好的HMM模型,其输出为对应的识别结果。其中HMM模型加入时序相关性实现改进,可增强鲁棒性。其具体处理过程为:
Step4.1:构造改进的HMM形式为λ=(S,A,BB,π),S为隐含的状态集合S={Si,1≤i≤N},N为状态总数;A为状态转移矩阵A={aij,1≤i≤N,1≤j≤N};BB为引入时间相关性限制后的观察值概率矩阵BB={bbj(·)|qt(·)=qt-1(·),1≤j≤N},其中qt(·)为当前时刻观察值,qt-1(·)为前一时刻观察值;π为初始状态概率矢量;
Step4.2:预先采集若干种类异常人声样本,包括呼救、尖叫、大喊等典型异常人声,并提取其均值滤波MFCC参数输入到改进后的HMM模型进行训练;
Step4.3:将待识别的异常声音片段MFCC输入训练好的改进HMM模型,其输出为对应的识别结果。
通过上述处理,可准确、有效地实时提取到声音中的异常人声信息。
本发明的优点在于:
1、实时更新背景声音,灵活性更强;
2、提取经过均值滤波的MFCC参数,可提高抗噪声性能;
3、HMM模型中加入时序相关性,使处理效果更具鲁棒性;
4、结合时域提取能量突变帧和频域范围验证,可有效检测到异常人声。
附图说明
图1是本发明处理流程图,
图2是本发明提取改进的MFCC参数流程图。
具体实施方式
本发明设计的异常人声检测方法主要针对道路、街面等公共场所或其它重点位置的声音信息进行自动监控,首先通过时域能量差异检测其中的异常片段,然后根据人声频率特征,分析该异常片段是否为异常人声,具体流程如下:
1、计算监控场景实时背景声音强度,具体流程为:
Step1.1:背景声音强度初始化
式中的Ei为第i段短时声音片段强度,其计算方法为:
其中N为短时声音片段长度,w()为短时窗函数,t为声音采样点时刻,x()是采样时刻的声音强度,Si为第i段短时声音片段的起始采样时刻。在11.025kHz左右的采样频率下,N选为100~300,对应时间为10~30ms;
Step1.2:背景声音强度实时更新
在后续人声处理过程中实时更新背景声音强度,每获取一段新的短时声音后,首先移除背景声音序列中的第一段短时声音,然后将新的短时声音作为新背景声音序列的最后一段,最后使用和Step1.1类似的方法计算该新背景声音序列的平均声音强度,将其作为当前的背景声音强度,实现背景声音强度实时更新。
2、提取声音突变片段
根据声音信号的能量随时间变化,发生异常情况时声音短时能量变化明显的特点,对语音的时域短时能量进行分析,以获取声音突变片段。
具体过程如下:
Step2.1:通过Step1.1计算当前段声音的短时能量Ec;
3、提取改进的梅尔频率倒谱系数
计算梅尔频率倒谱系数,并使用均值滤波器对线性频谱进行平滑,抗噪声性能较好。提取经过均值滤波的MFCC流程为:
Step3.1:计算异常声音片段频谱
将当前检测到的异常声音片段时域信号x补若干0形成长为M的序列,一般取M=512;然后经过离散傅立叶变换后得到线性频谱X(k);
Step3.2:对线性频谱X(k)进行均值滤波,得到平滑谱Z(k),其中w为以k为中心的滤波窗口;
Step3.3:计算梅尔频谱对数能量
将上述线性频谱Z(k)通过梅尔频率滤波器组,得到梅尔频谱,通过对数能量的计算,得到对数频谱s(l);
其中Hl(k)为梅尔滤波器组,l为其中的滤波器序号,M为滤波器总数;
Step3.4:计算梅尔频率倒谱系数;
其中p为倒谱系数参数。
4、基于改进的HMM模型过程的异常声音检测
将提取到的异常片段声音MFCC系数作为观测序列,输入训练好的HMM模型,其输出为对应的识别结果。其中HMM模型加入时序相关性实现改进,可增强鲁棒性。其具体处理过程为:
Step4.1:构造改进的HMM形式为λ=(S,A,BB,π),S为隐含的状态集合S={Si,1≤i≤N},N为状态总数;A为状态转移矩阵A={aij,1≤i≤N,1≤j≤N};BB为引入时间相关性限制后的观察值概率矩阵BB={bbj(·)|qt(·)=qt-1(·),1≤j≤N},其中qt(·)为当前时刻观察值,qt-1(·)为前一时刻观察值;π为初始状态概率矢量;
Step4.2:预先采集若干种类异常人声样本,包括呼救、尖叫、大喊等典型异常人声,并提取其均值滤波MFCC参数输入到改进后的HMM模型进行训练;
Step4.3:将待识别的异常声音片段MFCC输入训练好的改进HMM模型,其输出为对应的识别结果。
通过上述处理,可准确、有效地实时提取到声音中的异常人声信息。
Claims (2)
1.一种基于时频域分析的异常人声检测方法,该方法包括时域处理和频域处理,在时域处理阶段,通过计算短时声音强度来获取并实时更新监控场景背景声音强度,提取存在声音强度突变的异常声音片段;其特征在于:在频域处理阶段,首先对异常声音片段提取经过均值滤波的梅尔频率倒谱系数 (Mel-Frequency Cepstrum Coefficients,MFCC),将提取到的异常片段声音MFCC作为观测序列,输入训练好的改进隐马尔科夫过程(Hidden Markov Model,HMM)模型,分析该异常片段是否为异常人声,包括如下步骤:
步骤1、计算监控场景实时背景声音强度,具体过程如下:
Step1.1:背景声音强度初始化
其中N为短时声音片段长度,为短时窗函数,t为声音采样点时刻,是采样时刻的声音强度,为第i段短时声音片段的起始采样时刻。在11.025kHz左右的采样频率下,N选为100~300,对应时间为10~30ms;
Step1.2:背景声音强度实时更新
在后续人声处理过程中实时更新背景声音强度,每获取一段新的短时声音后,首先移除背景声音序列中的第一段短时声音,然后将新的短时声音作为新背景声音序列的最后一段,最后使用Step1.1的方法计算该新背景声音序列的平均声音强度,将其作为当前的背景声音强度,实现背景声音强度实时更新;
步骤2、提取声音突变片段
步骤3、提取经过均值滤波的梅尔频率倒谱系数,具体过程如下:
Step3.1:计算异常声音片段频谱
Step3.3:计算梅尔频谱对数能量
Step3.4:计算梅尔频率倒谱系数;
其中p为倒谱系数参数;
步骤4、将待识别的异常声音片段的MFCC输入预先训练好的改进HMM模型,判断该异常声音片段是否是异常人声,具体处理过程为:
Step4.2:预先采集若干种类异常人声样本,提取其均值滤波MFCC参数输入到改进后的HMM模型进行训练;
Step4.3:将待识别的异常声音片段MFCC输入训练好的改进HMM模型,其输出为对应的识别结果。
2.根据权利要求1所述的基于时频域分析的异常人声检测方法,其特征在于,改进的HMM模型训练方法是:首先采集异常人声样本,包括呼救、尖叫、大喊典型异常人声,提取其MFCC参数;然后将异常人声样本MFCC参数作为输入参数,训练该改进的HMM过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210109092.8A CN102664006B (zh) | 2012-04-14 | 2012-04-14 | 基于时频域分析的异常人声检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210109092.8A CN102664006B (zh) | 2012-04-14 | 2012-04-14 | 基于时频域分析的异常人声检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102664006A CN102664006A (zh) | 2012-09-12 |
CN102664006B true CN102664006B (zh) | 2014-05-14 |
Family
ID=46773472
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210109092.8A Expired - Fee Related CN102664006B (zh) | 2012-04-14 | 2012-04-14 | 基于时频域分析的异常人声检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102664006B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103226948B (zh) * | 2013-04-22 | 2015-01-07 | 山东师范大学 | 一种基于声学事件的音频场景识别方法 |
CN103530605B (zh) * | 2013-09-29 | 2017-01-25 | 数基科技(北京)有限公司 | 一种鲁棒的异常行为检测方法 |
US9779361B2 (en) | 2014-06-05 | 2017-10-03 | Mitsubishi Electric Research Laboratories, Inc. | Method for learning exemplars for anomaly detection |
CN104409078A (zh) * | 2014-12-11 | 2015-03-11 | 黑龙江真美广播通讯器材有限公司 | 异常声音检测和识别系统 |
CN106971741B (zh) * | 2016-01-14 | 2020-12-01 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
CN105654959B (zh) * | 2016-01-22 | 2020-03-06 | 韶关学院 | 一种自适应滤波的系数更新方法及装置 |
CN105791286B (zh) * | 2016-03-01 | 2018-10-02 | 上海海事大学 | 云端虚拟环境的异常检测和处理方法 |
EP3438623A4 (en) * | 2016-04-01 | 2020-04-08 | Nippon Telegraph and Telephone Corporation | LEARNING DEVICE FOR DETECTING ITS ABNORMAL, SOUND EXTRACTION DEVICE OF ACOUSTIC CHARACTERISTIC, SAMPLING DEVICE OF ITS ABNORMAL, AND RELATED METHOD AND PROGRAM |
CN105848033A (zh) * | 2016-04-10 | 2016-08-10 | 王美金 | 一种在听音乐状态下与人交谈的耳机 |
CN105976831A (zh) * | 2016-05-13 | 2016-09-28 | 中国人民解放军国防科学技术大学 | 基于哭声识别的遗漏孩童检测方法 |
CN107554470B (zh) * | 2016-06-30 | 2021-11-19 | 罗伯特·博世有限公司 | 用于处理车辆紧急状态的装置和方法 |
CN106529433B (zh) * | 2016-10-25 | 2019-07-16 | 天津大学 | 基于声音信号的队列步伐整齐度评价方法 |
CN106782612B (zh) * | 2016-12-08 | 2019-12-13 | 腾讯音乐娱乐(深圳)有限公司 | 一种逆向爆音检测方法及其装置 |
CN107086036A (zh) * | 2017-04-19 | 2017-08-22 | 杭州派尼澳电子科技有限公司 | 一种高速公路隧道安全监控方法 |
CN107886959B (zh) * | 2017-09-30 | 2021-07-27 | 中国农业科学院蜜蜂研究所 | 一种提取蜜蜂访花视频片段的方法和装置 |
CN109089075A (zh) * | 2018-07-10 | 2018-12-25 | 浙江工商大学 | 嵌入式跨云智能存贮方法和系统 |
CN109298642B (zh) * | 2018-09-20 | 2021-08-27 | 三星电子(中国)研发中心 | 采用智能音箱进行监控的方法及装置 |
CN109616140B (zh) * | 2018-12-12 | 2022-08-30 | 浩云科技股份有限公司 | 一种异常声音分析系统 |
CN109741762B (zh) * | 2019-02-15 | 2020-12-22 | 嘉楠明芯(北京)科技有限公司 | 声音活动检测方法及装置和计算机可读存储介质 |
CN110033785A (zh) * | 2019-03-27 | 2019-07-19 | 深圳市中电数通智慧安全科技股份有限公司 | 一种呼救识别方法、装置、可读存储介质及终端设备 |
JP7385381B2 (ja) * | 2019-06-21 | 2023-11-22 | 株式会社日立製作所 | 異常音検知システム、擬似音生成システム、および擬似音生成方法 |
CN111640427A (zh) * | 2020-05-29 | 2020-09-08 | 武汉科技大学 | 基于声音时频域分析的球磨机工况识别方法、系统和装置 |
CN111858680B (zh) * | 2020-08-01 | 2022-10-25 | 西安交通大学 | 一种快速实时检测卫星遥测时序数据异常的系统与方法 |
CN112331225B (zh) * | 2020-10-26 | 2023-09-26 | 东南大学 | 一种高噪声环境下辅助听力的方法及装置 |
CN113705448A (zh) * | 2021-08-27 | 2021-11-26 | 苏州美糯爱医疗科技有限公司 | 一种区分主动脉瓣狭窄心音与正常心音方法、装置及系统 |
CN113776835B (zh) * | 2021-10-11 | 2022-07-26 | 山东大学 | 基于增强梅尔线性频率倒谱系数的滚动轴承故障诊断方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7177861B2 (en) * | 2001-01-23 | 2007-02-13 | Intel Corporation | Method and system for detecting semantic events |
CN101364408A (zh) * | 2008-10-07 | 2009-02-11 | 西安成峰科技有限公司 | 一种声像联合的监控方法及系统 |
CN102098492A (zh) * | 2009-12-11 | 2011-06-15 | 上海弘视通信技术有限公司 | 音视频联合分析的打架斗殴检测系统及其检测方法 |
CN102322943A (zh) * | 2011-06-13 | 2012-01-18 | 河北省电力公司超高压输变电分公司 | 用于电力设备的声音异常检测系统及检测方法 |
-
2012
- 2012-04-14 CN CN201210109092.8A patent/CN102664006B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7177861B2 (en) * | 2001-01-23 | 2007-02-13 | Intel Corporation | Method and system for detecting semantic events |
CN101364408A (zh) * | 2008-10-07 | 2009-02-11 | 西安成峰科技有限公司 | 一种声像联合的监控方法及系统 |
CN102098492A (zh) * | 2009-12-11 | 2011-06-15 | 上海弘视通信技术有限公司 | 音视频联合分析的打架斗殴检测系统及其检测方法 |
CN102322943A (zh) * | 2011-06-13 | 2012-01-18 | 河北省电力公司超高压输变电分公司 | 用于电力设备的声音异常检测系统及检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102664006A (zh) | 2012-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102664006B (zh) | 基于时频域分析的异常人声检测方法 | |
CN102163427B (zh) | 一种基于环境模型的音频异常事件检测方法 | |
CN101980336B (zh) | 一种基于隐马尔可夫模型的汽车声音识别方法 | |
CN104916289A (zh) | 行车噪声环境下快速声学事件的检测方法 | |
CN109616140B (zh) | 一种异常声音分析系统 | |
JP5922263B2 (ja) | 特定の対象音を検出するシステム及び方法 | |
CN104050965A (zh) | 具有情感识别功能的英语语音发音质量评价系统及方法 | |
CN104078039A (zh) | 基于隐马尔科夫模型的家用服务机器人语音识别系统 | |
CN101976564A (zh) | 昆虫声音识别方法 | |
CN102623009A (zh) | 一种基于短时分析的异常情绪自动检测和提取方法和系统 | |
Mallidi et al. | Novel neural network based fusion for multistream ASR | |
CN106205606A (zh) | 一种基于语音识别的动态定位监控方法及系统 | |
CN103985390A (zh) | 一种基于伽马通相关图语音特征参数提取方法 | |
KR101250668B1 (ko) | Gmm을 이용한 응급 단어 인식 방법 | |
CN105825857A (zh) | 基于声纹识别帮助失聪患者判断声音类别的方法 | |
Kuo | Feature extraction and recognition of infant cries | |
CN103557925B (zh) | 水下目标gammatone离散小波系数听觉特征提取方法 | |
CN109920447B (zh) | 基于自适应滤波器振幅相位特征提取的录音欺诈检测方法 | |
CN105916090A (zh) | 一种基于智能化语音识别技术的助听器系统 | |
CN102201230B (zh) | 一种突发事件语音检测方法 | |
CN116153337B (zh) | 合成语音溯源取证方法及装置、电子设备及存储介质 | |
CN206781702U (zh) | 一种基于量子神经网络的语音识别汽车防盗系统 | |
Wang et al. | F0 estimation in noisy speech based on long-term harmonic feature analysis combined with neural network classification | |
CN109389994A (zh) | 用于智能交通系统的声源识别方法及装置 | |
CN104599682A (zh) | 电话线质量语音的基音周期提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140514 |