发明内容
本发明的目的在于提出一种适用于公共场所异常声音的特征提取方法,旨在解决公共场所异常声音特征提取中关键的理论及技术问题,即一是公共场所背景噪声建模问题;二是公共场所异常声音的特征提取问题。
对于公共场所背景噪声建模问题:公共场所如广场、车站、校园的背景情况很复杂,噪声很大,有时噪声甚至会淹没待研究的信号。要解决公共场所异常声音特征提取的核心问题,首先需要获得公共场所背景噪声分布模型。我们知道,公共场所背景噪声为自然信号,往往存在一些大气噪声、人为噪声如汽车鸣笛声、脚步声等脉冲噪声的干扰。公共场所背景噪声具有较为明显的脉冲特性,其统计密度函数具有长拖尾现象。目前业界还没有有效的理论分析结果,研究人员均将公共场所背景噪声假设为高斯分布。为了获得适当的公共场所背景噪声模型,本发明提出通过Kolmogorov-Smirnov(K-S)假设检验对目前现有的几种公共场所噪声假设模型进行拟合优度分析。根据K-S假设检验得到公共场所背景噪声模型为T分布,用T分布来描述公共场所背景噪声较传统的高斯分布和SaS分布更为合理。
对于公共场所异常声音特征提取:目前异常声音的特征提取方法大多沿用传统的语音信号处理方法如mel频率倒谱系数(Melfrequency cepstrum coefficient,MFCC)、线性预测倒谱参数(Linear predictive cepstral coding,LPCC)。而公共场所异常声音不仅包含语音信号如尖叫声,还包括非语音信号如爆炸声、枪声等。由于公共场所异常声音信号的基频频率分散,信号能量在不同宽度的频率域集中分布,同时在整个频率域呈现非均匀分布的特点,上述传统方法对异常声音的特征描述能力有限。目前大多数研究人员采用各类特征融合策略来增强对异常声音特征的表征力。但从原理上看,各类融合方法仍然不能从根本上解决非语音信号特征提取的问题。本发明通过对目前非平稳、非线性信号处理领域新理论、新方法的分析,并充分考虑公共场合背景噪声对异常声音特征提取的影响,提出一种新的公共场所异常声音特征提取方法,即基于T分布的总体局部均值分解(Basedon ensemble local mean decomposition,TD-ELMD)方法,将其用于公共场所异常声音的特征描述。
基于以上分析,本发明提出的公共场所异常声音特征提取方法包括公共场所背景噪声建模与公共场所异常声音特征提取两个步骤;
步骤1:所述公共场所背景噪声建模,是使用自由度为v的T分布来描述公共场所背景噪声,将自由度为v的T分布随机数据替代原始总体局部均值分解(ELMD)中的高斯白噪声,得到基于T分布的总体局部均值分解(TD-ELMD)模型;
步骤2:公共场所异常声音特征提取,是利用TD-ELMD模型将公共场所异常声音信号分解为若干阶瞬时频率的乘积函数(PFi)分量;用PFi分量的能量与异常声音信号总能量相比作为公共场所异常声音特征向量;最后,将该特征向量输入支持向量机(SVM)进行分类识别。
所述步骤1中基于T分布的总体局部均值分解(TD-ELMD)模型为:
其中:X(t)为待分析的信号,PFp(t)是分解出来的乘积函数,u(t)是残余量,k代表的是一组PF分量的个数,p为序号;n代表的是每一个PF是由n次添加不同的服从T分布的噪声序列到原始信号进行TD-ELMD分解,在同一位置得到的PF分量的个数,即每个PFp(t)的个数,在这里对同一位置的PFp(t)分量进行求平均,即对n个PFp(t)分量进行求平均作为每个位置的最终PFp(t)分量,这里i是序号;同样,对ui(t),由于每次TD-ELMD分解只会得到一个残余量u(t),所以,这里是将n次添加不同的服从T分布的噪声序列到原始信号进行TD-ELMD得到的n个u(t)进行求平均作为最终的u(t)。
所述步骤2的公共场所异常声音特征提取的具体实现步骤如下:
步骤2.1:用TD-ELMD模型将公共场所异常声音信号即原始异常声音信号分解成若干阶PFi分量。
步骤2.2:求出各阶PFi分量的能量Ei
其中,Ai是PFi分量的幅值,N是待分析信号的长度,i是PF分量的阶数。
步骤2.3:计算各阶PF
i分量的能量E
i和原始异常声音信号的能量E的比
生成原始异常声音信号的特征向量,k
i则为异常声音信号的特征量。
步骤2.4:将ki归一化后的公共场所异常声音特征向量输入SVM分类器,则可得到公共场所异常声音分类识别结果。
本发明的优点在于:
1、本发明充分考虑公共场所背景噪声对公共场所异常声音特征提取方法的影响,从理论上分析得到的T分布比传统的高斯分布更能反映公共场所背景噪声的实际情况,提出的TD-ELMD模型更能够反映公共场所异常声音信号的特点。
2、用服从T分布的公共场所背景噪声代替原始ELMD方法中的高斯白噪声,建立了一种更加适合于公共场所环境的异常声音特征描述模型(TD-ELMD)。提出的将TD-ELMD分解得到的公共场所异常声音各瞬时频率的PFi的能量与异常声音信号总能量之比作为公共场所异常声音特征向量,简单有效。
3、本发明方法通过实验验证,优于传统的基于语音信号处理的特征提取方法,其特征描述能力更强,对公共场所异常声音的识别具有更好的鲁棒性。
具体实施方式
以下结合附图进一步详细阐述本发明:
本发明提出的公共场所异常声音特征提取流程框图如图1所示,主要内容为两部分:公共场所背景噪声建模与公共场所异常声音特征提取。
一、公共场所背景噪声建模:是使用自由度为v的T分布来描述公共场所背景噪声,将自由度为v的T分布随机数据替代原始总体局部均值分解(ELMD)中的高斯白噪声,得到基于T分布的总体局部均值分解(TD-ELMD)模型。
(一)本发明使用自由度为v的T分布来描述公共场所背景噪声是基于以下研究:
首先假设公共场所背景噪声模型为T分布、高斯分布和对称a稳定分布(Symmetric alpha stable,SaS)分布。然后采用K-S假设检验方法对这三种假设进行拟合优度分析,得出公共场所噪声用自由度为v的T分布来描述更为合理的结论。具体方法为:
(1)采集几种典型的公共场所背景噪声数据,地点如广场、车站及学校、时段如早、中、晚。
(2)将噪声数据进行预处理,分帧,得到时长为1s的声音信号。分组得到N组公共场所背景噪声数据。如每组噪声录制时间为3分钟,将每组噪声信号分帧得100组时长为1s的噪声信号,组成若干小组噪声数据,最后合并为N组噪声数据。
将需要判断的分布f1,f2,…,fn如T分布、高斯分布、SaS分布作为参考分布,将预处理后的噪声作为样本。采用K-S假设检验进行拟合优度分析。其基本原理为:比较样本与参考分布之间的累积分布函数之间的最大差距,由此判断样本是否服从该参考分布。当这个差距足够小时,则可认为样本是来自参考分布,反之,则认为样本不是来自参考分布。
K-S假设检验定义如下:
H0:样本服从指定的分布;
H1:样本并不服从指定的分布;
统计量:D=max|Fn(x)-F0(x)|
其中,F0(x)表示理论分布的分布函数,Fn(x)表示一组随机样本的累计频率函数。D(n,α)是显著水平为α样本容量为n时的拒绝临界值。
当统计量D>D(n,α),则拒绝H0,反之则接受H0假设。
A、对假设的n个分布,采用K-S假设检验对N组噪声数据进行拟合优度分析,可得到n个分布各自在N组数据中服从相应分布的数据量m1,m2,…,mk,…,mn。
B、将m1,m2,…,mk,…,mn分别除以N,得到N个数据服从n个分布的概率p1,p2,…,pk,…,pn.。
C、比较p1,p2,…,pk,…,pn值的大小,就可判断出适合于该原始噪声数据的分布。
公共场所背景噪声的K-S假设检验流程如图2所示,其检验结果如表1所示。根据表1,本发明认为公共场所背景噪声用T分布来描述更合理。
表1不同假设分布噪声数据的K-S假设检验的接受率(%)(显著度为0.05)
公式(1)为T分布概率密度函数,其中v为自由度。
(4)T分布自由度v的确定方法:我们已经证明,用T分布作为公共场所噪声模型有更广的适应性。对于T-分布中自由度v,本文将采用实验的方法确定。具体为:当一个服从T分布的噪声信号的概率密度函数一经确定后,它的自由度就随之确定了。在收集的噪声数据中,有少部分的噪声信号并不服从T分布。为此,首先通过K-S假设检验,剔除不服从T分布的噪声数据。设总的实验数据为n组,保留m组服从T分布的数据。然后根据这m组噪声数据的概率密度函数,由最大似然估计可计算出相应的均值μ、标准差σ及自由度v。通过综合分析,确定自由度v=15为的T分布来描述公共场所噪声分布比较恰当。
(二)本发明中,将T分布噪声随机数据替代原始ELMD中的高斯白噪声,推导出基于T分布的总体均值分解(TD-ELMD)模型的过程如下:
1、根据LMD方法,对于一个待分析的原始信号X(t)可做如下分解:
其中,PFp(t)是分解出来的乘积函数,u(t)是残余量。
2、在待分析的原始信号X(t)中添加一次T噪声序列c1(t)后,公式(1)可写成:
3、在信号X(t)中添加n次不同的T噪声序列ci(t)后,系列公式可表示成:
X(t)+c1(t)=PF11(t)+PF12(t)+…+PF1p(t)+…+PF1k(t)+u1(t), (3)
X(t)+c2(t)=PF21(t)+PF22(t)+…+PF2p(t)+…+PF2k(t)+u2(t), (4)
X(t)+ci(t)=PFi1(t)+PFi2(t)+…+PFip(t)+…+PFik(t)+ui(t), (5)
…
X(t)+cn(t)=PFn1(t)+PFn2(t)+…+PFnp(t)+…+PFnk(t)+un(t), (6)
将上述n个公式累加,并两边同除以n可得:
根据广义中心极限定理,公式(7)中的c1(t)+c2(t)+…+cn(t)项相加为零。于是,公式(7)可以用公式(8)来表示。
即每一个PFi可表示为添加了n个T分布不同噪声序列的PFi平均值。
二、公共场所异常声音特征提取
根据推导出的TD-ELMD模型将公共场所异常声音信号分解成若干个PFi分量,分解结果如图3所示。求出原始异常声音信号X(t)的能量E与每一个PFi分量的能量Ei。将各阶PFi分量的能量Ei与原始信号的能量E之比作为公共场所异常声音信号X(t)的特征向量:
其中,Ai是PFi分量的幅值,N是待分析信号的长度,i是PF分量的阶数。ki则为原始异常声音信号特征。
最后,将上述得到的特征向量输入SVM分类器,即可得到分类识别结果。