CN102664006B

CN102664006B - 基于时频域分析的异常人声检测方法

Info

Publication number: CN102664006B
Application number: CN201210109092.8A
Authority: CN
Inventors: 谢剑斌; 李沛秦; 刘通; 闫玮; 唐朝京; 谢昌颐
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2012-04-14
Filing date: 2012-04-14
Publication date: 2014-05-14
Anticipated expiration: 2032-04-14
Also published as: CN102664006A

Abstract

本发明涉及一种基于时频域分析的异常人声检测方法。该方法首先计算实时更新的监控场景背景声音强度，检测并提取声音强度突变片段；然后提取异常片段的均值滤波梅尔频率倒谱系数；最后将提取到的异常片段声音梅尔频率倒谱系数参数作为观测序列，输入训练好的改进隐马尔科夫过程模型，根据人声频率特征，分析该异常片段是否为异常人声。其中隐马尔科夫过程模型加入时序相关性进行改进。该方法结合时域提取能量突变帧和频域范围验证，可有效检测到异常人声，实时性好，抗噪声性能强，鲁棒性较好。

Description

基于时频域分析的异常人声检测方法

技术领域

本发明主要涉及一种基于时频域分析的异常人声检测方法。

背景技术

安全防控越来越成为公众关注的焦点，视频监视系统得到了普遍的推广应用，我国绝大多数县级以上城市以及乡镇重点场所均已依法建立视频监视体系，实现多方位全天候的视频监视和存储。目前绝大多数视频监视系统没有对声音进行监控，或者仅做简单的录制，缺少对声音信息的实时分析处理。当发生不安全事件时，现场往往存在呼救、尖叫、大喊等异常人声，现有视频监视系统不能对异常人声做出及时反应，智能化预警程度不高，不能更有效地保护人民群众的人身、财物安全。

发明内容

针对视频监视系统中人声监控的空白，本发明提供一种基于时频域分析的异常人声检测方法，该方法包括基于时域的背景声音强度实时更新方法、异常声音片段提取方法，基于频域的异常声音片段均值滤波MFCC参数提取方法、引入时间相关性的HMM模型训练及异常人声检测方法。

本发明的异常人声检测方法主要针对道路、街面等公共场所或其它重点位置的声音信息进行自动监控，包括时域处理和频域处理，首先在时域处理阶段，计算实时更新的监控场景背景声音强度，检测并提取声音强度突变片段；然后进入频域处理阶段，对异常声音片段提取经过均值滤波的梅尔频率倒谱系数 (Mel-Frequency Cepstrum Coefficients，MFCC)，将提取到的异常片段声音MFCC作为观测序列，输入训练好的改进隐马尔科夫过程(Hidden Markov Model，HMM)模型，根据人声频率特征，分析该异常片段是否为异常人声；其中HMM模型引入时序相关性加以改进；本发明完整处理流程如图1所示，下面对本发明中的技术方案阐述如下：

1、计算监控场景实时背景声音强度

首先在初始化过程中计算一定时长的背景声音能量作为初始背景强度，然后在处理过程中不断加入当前声音片段，删除旧的声音片段，实现背景强度的实时更新。具体流程为：

Step1.1：背景声音强度初始化

连续获取L段等长度短时声音片段，计算每段声音片段强度并做平均，求得平均声音强度

，作为背景声音初始强度：

\overset{&OverBar;}{{EL}_{0}} = \frac{1}{L} \times Σ_{i = 1}^{L} E_{i}

式中的E_i为第i段短时声音片段强度，其计算方法为：

E_{i} = Σ_{t = S_{i}}^{S_{i} + N - 1} {[x (t) w (S_{i} + N - 1 - t)]}^{2}

其中N为短时声音片段长度,w()为短时窗函数，t为声音采样点时刻，x()是采样时刻的声音强度，S_i为第i段短时声音片段的起始采样时刻。在11.025kHz左右的采样频率下，N选为100~300，对应时间为10~30ms；

Step1.2：背景声音强度实时更新

在后续人声处理过程中实时更新背景声音强度，每获取一段新的短时声音后，首先移除背景声音序列中的第一段短时声音，然后将新的短时声音作为新背景声音序列的最后一段，最后使用Step1.1的方法计算该新背景声音序列的平均声音强度

，将其作为当前的背景声音强度，实现背景声音强度实时更新。

2、提取声音突变片段

根据声音信号的能量随时间变化，发生异常情况时声音短时能量变化明显的特点，对语音的时域短时能量进行分析，以获取声音突变段。

具体过程如下：

Step2.1：通过Step1.1计算当前段声音的短时能量E_c；

Step2.2：计算当前短时声音片段强度E_c与当前背景声音强度

的比值mean_T，若mean_T>1并且E_c>1.0000e+009，说明此声音片段可能存在异常。

3、提取经过均值滤波的梅尔频率倒谱系数

梅尔频率倒谱系数 MFCC考虑人耳听觉特性，在特征提取过程中利用音调特性，用梅尔频率刻度对实际频率进行变换，可以模拟人耳听到的声音高低与声音频率之间的非线性关系，本发明对传统MFCC参数加以均值滤波，抗噪声性能较好。提取经过均值滤波的MFCC流程为：

Step3.1：计算异常声音片段频谱

将当前检测到的异常声音片段时域信号x补若干0形成长为M的序列，一般取M=512；然后经过离散傅立叶变换后得到线性频谱X(k)；

Step3.2：对线性频谱X(k)进行均值滤波，得到平滑谱Z(k)，其中w为以k为中心的滤波窗口；

Z (k) = \frac{\underset{w}{Σ} X (i)}{w}

Step3.3：计算梅尔频谱对数能量

将上述线性频谱Z(k)通过梅尔频率滤波器组，得到梅尔频谱，通过对数能量的计算，得到对数频谱s(l)；

s (l) = \ln [Σ_{k = 0}^{N - 1} {| Z (k) |}^{2} H_{l} (k)], 0 \leq l \leq M

其中H_l(k)为梅尔滤波器组，l为其中的滤波器序号，M为滤波器总数；

Step3.4：计算梅尔频率倒谱系数；

c (p) = Σ_{l = 0}^{M - 1} s (l) \cos [\frac{πp (l + 1 / 2)}{M}], 0 \leq l \leq M

其中p为倒谱系数参数。

4、基于改进隐马尔科夫过程（HMM）模型过程的异常声音检测

在本方法中，将提取到的异常片段声音MFCC系数作为观测序列，输入训练好的HMM模型，其输出为对应的识别结果。其中HMM模型加入时序相关性实现改进，可增强鲁棒性。其具体处理过程为：

Step4.1：构造改进的HMM形式为λ=(S,A,BB,π)，S为隐含的状态集合S={S_i,1≤i≤N}，N为状态总数；A为状态转移矩阵A={a_ij,1≤i≤N,1≤j≤N}；BB为引入时间相关性限制后的观察值概率矩阵BB={bb_j(·)|q_t(·)=q_t-1(·),1≤j≤N}，其中q_t(·)为当前时刻观察值，q_t-1(·)为前一时刻观察值；π为初始状态概率矢量；

Step4.2：预先采集若干种类异常人声样本，包括呼救、尖叫、大喊等典型异常人声，并提取其均值滤波MFCC参数输入到改进后的HMM模型进行训练；

Step4.3：将待识别的异常声音片段MFCC输入训练好的改进HMM模型，其输出为对应的识别结果。

通过上述处理，可准确、有效地实时提取到声音中的异常人声信息。

本发明的优点在于：

1、实时更新背景声音，灵活性更强；

2、提取经过均值滤波的MFCC参数，可提高抗噪声性能；

3、HMM模型中加入时序相关性，使处理效果更具鲁棒性；

4、结合时域提取能量突变帧和频域范围验证，可有效检测到异常人声。

附图说明

图1是本发明处理流程图，

图2是本发明提取改进的MFCC参数流程图。

具体实施方式

本发明设计的异常人声检测方法主要针对道路、街面等公共场所或其它重点位置的声音信息进行自动监控，首先通过时域能量差异检测其中的异常片段，然后根据人声频率特征，分析该异常片段是否为异常人声，具体流程如下：

1、计算监控场景实时背景声音强度，具体流程为：

Step1.1：背景声音强度初始化

，作为背景声音初始强度：

\overset{&OverBar;}{{EL}_{0}} = \frac{1}{L} \times Σ_{i = 1}^{L} E_{i}

式中的E_i为第i段短时声音片段强度，其计算方法为：

E_{i} = Σ_{t = S_{i}}^{S_{i} + N - 1} {[x (t) w (S_{i} + N - 1 - t)]}^{2}

Step1.2：背景声音强度实时更新

在后续人声处理过程中实时更新背景声音强度，每获取一段新的短时声音后，首先移除背景声音序列中的第一段短时声音，然后将新的短时声音作为新背景声音序列的最后一段，最后使用和Step1.1类似的方法计算该新背景声音序列的平均声音强度

2、提取声音突变片段

根据声音信号的能量随时间变化，发生异常情况时声音短时能量变化明显的特点，对语音的时域短时能量进行分析，以获取声音突变片段。

具体过程如下：

Step2.1：通过Step1.1计算当前段声音的短时能量E_c；

Step2.2：计算当前短时声音片段强度E_c与当前背景声音强度

3、提取改进的梅尔频率倒谱系数

计算梅尔频率倒谱系数，并使用均值滤波器对线性频谱进行平滑，抗噪声性能较好。提取经过均值滤波的MFCC流程为：

Step3.1：计算异常声音片段频谱

Z (k) = \frac{\underset{w}{Σ} X (i)}{w}

Step3.3：计算梅尔频谱对数能量

s (l) = \ln [Σ_{k = 0}^{N - 1} {| Z (k) |}^{2} H_{l} (k)], 0 \leq l \leq M

Step3.4：计算梅尔频率倒谱系数；

c (p) = Σ_{l = 0}^{M - 1} s (l) \cos [\frac{πp (l + 1 / 2)}{M}], 0 \leq l \leq M

其中p为倒谱系数参数。

4、基于改进的HMM模型过程的异常声音检测

将提取到的异常片段声音MFCC系数作为观测序列，输入训练好的HMM模型，其输出为对应的识别结果。其中HMM模型加入时序相关性实现改进，可增强鲁棒性。其具体处理过程为：

Step4.1：构造改进的HMM形式为λ=(S,A,BB,π)，S为隐含的状态集合S={S_i,1≤i≤N}，N为状态总数；A为状态转移矩阵A={a_ij,1≤i≤N,1≤j≤N}；BB为引入时间相关性限制后的观察值概率矩阵BB={bb_j(·)｜q_t(·)=q_t-1(·),1≤j≤N}，其中q_t(·)为当前时刻观察值，q_t-1(·)为前一时刻观察值；π为初始状态概率矢量；

Claims

1.一种基于时频域分析的异常人声检测方法，该方法包括时域处理和频域处理，在时域处理阶段，通过计算短时声音强度来获取并实时更新监控场景背景声音强度，提取存在声音强度突变的异常声音片段；其特征在于：在频域处理阶段，首先对异常声音片段提取经过均值滤波的梅尔频率倒谱系数 (Mel-Frequency Cepstrum Coefficients，MFCC)，将提取到的异常片段声音MFCC作为观测序列，输入训练好的改进隐马尔科夫过程(Hidden Markov Model，HMM)模型，分析该异常片段是否为异常人声，包括如下步骤：

步骤1、计算监控场景实时背景声音强度，具体过程如下：

Step1.1：背景声音强度初始化