发明内容
本发明的目的在于提出一种公共场所异常声音识别及定位方法。该方法利用模式识别、阵列信号处理技术,对公共场所产生的异常声音进行分析,确定是否为异常声音,进而确定是否存在异常事件。如有异常事件,迅速确定该异常事件发生的方向和位置。该方位信息可引导视频监控云台进行相应动作,对公共场所突发的异常事件进行实时跟踪、监控。提高公共场所监控系统的智能化能力。
本发明的主要内容为:判断监控区域是否存在异常声音,对不同的异常声音进行分类识别及对异常声音进行定位。
所述异常声音识别方法为:将异常声音的特征序列信号转换为时频谱的谱图,然后通过独立成分分析(ICA)、稀疏表示分类(SRC)等图像处理方法对异常声音进行分类识别,具体步骤如下:
①对异常声音的时序信号进行短时傅里叶变换(short-time Fouriertransform,STFT),使用汉明窗作为滑动窗。傅里叶变换的长度为2Nf点,这样每一帧的信号都可以得到长度为Nf的频谱,其声压值为:
PdB=20×log10|x(1:Nf)|
式中,x为信号的频谱值,PdB表示其声压值;
将异常声音的时频表达沿频率轴切分成Nb个图像块。将每个异常声音样本的图像块通过列堆栈转换为向量,并把所有样本得到的向量合并成为矩阵X∈RM×N,其中M是样本声谱图的大小,N表示声音样本的数量。
②将训练样本X作为独立成分分析的输入矩阵,得到分离矩阵W,然后将X投影到W张成的子空间构成稀疏分解的冗余字典A。
③将系统检测到的异常声音信号经过步骤①的声谱图转换后向W张成的子空间投影得到y,可以由冗余字典A中原子线性表示,异常声音信号的稀疏描述为:
subject to Ax=y
计算残差得到异常声音信号的类别结果:
i=1,2,…,j。
上式中y为待检测信号转换后投影到子空间的表示,
表示优化问题的解中第i个样本的系数,而
则表示由其重建的特征
则r
i表示原信号与重建新号的差距。显然,y与
的差距越小,i与待识别样本就越接近,则可得到判定结果。
所述公共场所异常声音定位方法为:根据公共场所异常声音的特点对原始声音信号进行非线性变换,然后对传统的时延估计方法中的HB加权函数进行改进,使其适用于公共场所噪声环境下异常声音定位的要求,其步骤如下:
设两个有间隔的传声器m1和m2接收到的信号x1(n)、x2(n)为:
其中,s(n)表示异常声音信号,a1、a2表示声波传播衰减因子(ai<1,i=1,2),τ12是传声器m2相对于m1接收信号的时间延迟,b1(n)和b2(n)为环境噪声,即加性噪声;
①通过分析,我们认为公共场所背景噪声符合分数低阶α分布。由于α<2并且其值下降的时候,接收信号x1(n)和x2(n)不存在稳定的二阶统计量,而传统的HB加权函数是基于二阶统计量来计算接收信号的互相关函数的。为了保证HB加权函数在处理公共场所环境下异常声音信号时延估计的性能,本发明引入非线性变换对接收信号x1(n)和x2(n)作预处理,即对给定的两路传声器信号x1(n)和x2(n)作反正切变换,以抑制分数低阶α分布噪声中的脉冲部分。
式中,arctan[·]为反正切函数,k为控制非线性变换程度的参数(k>0)。本发明中k值根据α值与信噪比的不同而变化,r1(n)和r2(n)为两个输入信号经过反正切变换得到的结果。
②计算信号的自功率谱函数
及互功率谱函数
传统的HB加权函数
在公共场所环境中,并不能获得接收信号的自功率谱Φ
SS,在信号与噪声相互独立的假定下,用
代替Φ
SS在高信噪比环境下两者之间的误差较小,不影响时延估计的性能。为此,HB加权函数可以表示如下:
实际中由于公共场所环境中的中强度的背景噪声与复杂的反射干扰影响会减小Φ
SS在
中的比例。为此,本发明中将传统的HB加权函数取λ次方得到新的HB加权函数
根据数据帧不同的信噪比调整新的HB甲醛的比重,其中本发明中的0.5≤λ≤1,λ随信噪比的改变而变化,σ表示信噪比。
然后,再通过新的HB加权函数计算得到互功率谱函数
如下式:
其中σ0,σ1,λ0和λ1是按实际情况确定的常数,且λ1>λ0,σ1≥σ0。σ=30dB时,λ=1;σ=10dB时,λ=0.75。
③对获得的互功率谱函数
进行累计加权,加长输入信号的长度可以提高算法的抗噪能力,从而进一步突出互相关函数的峰值。互相关函数累计函数如下式:
其中,m为帧数。
对互相关函数累计函数
求反傅里叶变换,可以得到互相关函数值
如下式:
其中,e-jwt表示一系列不同频率的正弦序列,j是虚部符号,w是数字频率,t为时间。
④得到互相关函数
的峰值,即给定两个传声器接收信号的时延估计值,进而可求出声音的方位信息。
本发明的核心是对公共场所的典型异常声音进行分类识别及定位处理。本发明通过对公共场所获取的声音信号进行分析,确定在该区域是否存在异常声音,从而判别是否有异常事件发生。如果有异常事件发生,则快速确定异常事件发生的方向和位置,为视频监控系统提供快速、准确的方位信息。
本发明的优点在于:
(1)将异常声音特征时序信号转换为时频域的谱图进行分析,用基于听觉感知的稀疏编码声音识别技术解决信号特征提取与识别问题,并引入非线性变换,抑制公共场所背景噪声中脉冲噪声的影响,增强了声音定位算法在低信噪比环境下保持互相关函数峰值的能力;
(2)对传统的HB加权函数进行改进,降低了由低信噪比带来的权值变化。
(3)引入一种多帧数据加权处理,使新的HB加权广义互相关算法更加适合于处理公共场所复杂声学环境中的异常声音定位能力。
具体实施方式
以下结合附图进一步详细阐述本发明:
参见图2,本方法分为异常声音识别方法和异常声音定位方法两部分:
1.异常声音判定及识别方法
1)通过双阈值门限检测到疑似异常声音片段,求取此声音片段的功率谱密度图在3875-4200hz的变化率,将其与预先设定的阈值比较从而判定是否存在异常。2)将异常声音的特征时序信号转换为时频域的谱图,然后通过独立成分分析(ICA)、稀疏表示分类(SRC)方法对异常声音谱图进行分类识别。
2、异常声音定位方法
对确定为异常声音的信号做非线性变换,在频域计算该信号的子功率谱与互功率谱,本发明提出的非线性变换HB加权互相关函数,使传统的时延估计方法适应公共场所噪声环境对异常声音定位的要求。
参见图1和图8,以下以广场为例,说明异常声音检测、识别及定位的具体实施步骤:
1.判定监控区域是否存在异常声音
利用具有音频输入的视音频摄像机采集到的现场音频信息。监控中心主机对其进行音频分析处理和识别,具体处理步骤如下:
①通过双门限阈值方法对采集到的信号快速检测出可疑信号片段。具体操作如下:设置高低两个门限,低门限数值比较小,对信号变化比较敏感,很容易被超过。而高门限数值较大,信号必须达到一定强度才能被超过。整个异常声音信号检测可以分为四段:背景噪声段、过渡段、异常声音段、结束。在背景噪声段,如果音频信号的强度超越了低门限,开始标记为起始点,进入过渡段。在过渡段中,如果高门限被超过认为是异常声音,如果信号强度回落到低门限以下,就将过渡状态恢复到背景噪声状态。对于一些瞬时的尖峰脉冲,通过设定最短时间门限来判别。当前状态处于异常声音段时,如果信号强度数值降低到低门限以下,而且总的计时长度小于最短时间门限,则认为是尖峰脉冲。否则就标记异常声音片段的结束端点。
②对检测到的疑似异常声音信号片段,用加窗平均周期方法(Welch)来估计信号的功率谱密度。Welch法估计功率谱是频域内提取淹没在噪声中有用信息的有效分析方法,可以减少误差,抑制噪声,使谱估计更加平滑。图3的(a)(b)(c)(d)分别为从广场背景噪声检测出的4种典型异常声音得到的功率谱密度图。爆炸声和枪声的基频频率都在300Hz以下,能量集中分布在300Hz以内的低频区间。尖叫声(男)的能量集中在700-1500Hz频率区间,尖叫声(女和小孩)的能量集中在1000-3000Hz之间。玻璃片破碎声频率成分最为复杂,能量分布在1000-5000Hz之间。而广场背景噪声的频率成分主要分布在0~40000hz,属于粉红噪声,超过4000hz急剧减少,故在4000hz附近梯度最大,如图3(e)所示。
于是,可以计算疑似异常片段功率谱密度图在3875-4250Hz范围内的变化率 根据 的值做出判断:
其中T为预先设定的判定阈值,由大量实验得出当阈值T=-0.0864时,判定效果最佳。
2.异常声音分类识别
当检测到监控区域有异常声音出现时,则按照图3所示的异常声音识别流程框图,先将时域采样的异常声音信号转换为时频域的声谱图,然后基于独立成分分析(ICA)及稀疏表示分类(SRC)的方法进行分类识别。具体步骤如下:
①对异常声音时域信号(图4(a))进行短时傅里叶变换。使用汉明窗作为滑动窗,因为汉明窗的主瓣宽度和带外衰减较大。使用的傅里叶变换的长度为2Nf点,这样每一帧的信号都可以得到长度为Nf的频谱。为了更好的体现信号时域特征,然后转换成声压值表示:
PdB=20×log10|x(1:Nf)|
式中,x为一帧信号的频谱值,PdB表示其声压值。所有帧信号变换后得到声谱图(图4(b))。
将异常声音的时频表达沿频率轴切分成Nb个图像块(图4(c)),这是为了更好的模拟听觉神经元的感受野,因为大部分听觉神经元只会对很窄的一个频率段敏感。本发明将每个异常声音样本的图像块通过列堆栈转换为向量,然后把所有样本得到的向量合并成为矩阵X∈RM×N作为独立成分分析的输入矩阵,M是样本声谱图的大小,N表示声音样本的数量。图5为4种典型的异常声音声谱图。
②对步骤①中得到数据矩阵X进行预处理,包括中心化和白化两个过程。
中心化:X=X-E(X)
使X为零均值矢量,E表示取期望。
然后进行白化:Z=D-1/2FTX
使得E(ZZT)=I
成立。式中,Z是经过白化处理的数据。D和F分别是X的协方差矩阵Rv=E(XXT)的特征值矩阵和特征向量矩阵,I为单位矩阵,T为转置符号。
③根据已知的Z进行独立成分估计:随机初始化wi,i=1,…,m,其中每个wi都具有单位范数,m是要估计的独立成分个数。
对每一个i=1,…,m,迭代更新wi:
其中,
为W的第i行分量的转置。f(u)=tanh(a
1u),a
1为常数,1≤a
1≤2,这里a
1取1。
对矩阵W=[w1,…,wm]T进行对称正交化:W←(WWT)-1/2W
得到混合矩阵Wo训练样本X投影到W张成的子空间是稀疏特征基的集合A,即存储于系统中的冗余字典:A=WX
步骤②、③是独立成分分析(ICA)的实现过程,如图4(d)所示。
④当系统检测到异常时序声音信号S[n],经过步骤①的声谱图转换后得到x∈RM×1,向子空间投影得到y=Wx。然后运用稀疏重构分类方法(基于L1范数最小化)对y进行分类识别,待识别的信号可以由字典A中的原子线性表示。所以通过求解如下问题求出待测声音信号的稀疏表示:
subject to Ax=y
⑤计算残差得到类别结果:i=1,2,…,j
上式中y为待检测信号转换后投影到子空间的表示,
表示优化问题的解中第i个样本的系数,而
则表示由其重建的特征
则r
i表示原信号与重建新号的差距。显然,y与
的差距越小,i与待识别样本就越接近,则可得到判定结果。
步骤④⑤是稀疏表示分类(SRC)的实现过程,如图4(e)所示。
3.确定异常声音的方向及位置
设两个有间隔的传声器m1和m2接收到的信号x1(n)、x2(n)可以表示为:
其中,s(n)表示异常声源信号,a1、a2表示声波传播衰减因子(ai<1,i=1,2),τ12是传声器m2相对于m1接收信号的时间延迟,b1(n)和b2(n)为环境噪声,即加性噪声。
①对给定的两路传声器接收信号x1(n)和x2(n),其背景噪声是分数低阶α分布噪声,当α<2并且其值下降的时候,接收信号x1(n)和x2(n)不存在稳定的二阶统计量。传统的HB加权函数是基于二阶统计量来计算接收信号的互相关函数的。为了保证HB加权函数在处理公共场所环境下异常声音信号时延估计的性能,引入非线性变换对接收信号x1(n)和x2(n)作预处理得到新的输入信号x1(n)和x2(n)以抑制分数低阶α分布噪声中的脉冲部分。
式中,arctan[·]为反正切函数,k为控制非线性变换程度的参数(k>0)。本发明中k值根据α值与信噪比的不同而变化,r1(n)和r2(n)为两个输入信号经过反正切变换得到的结果。
②计算自功率谱函数
以及互功率谱函数
本发明对传统的HB加权函数
进行改进(Φ
SS为信号的自功率谱),由于在公共场所环境中,并不能获得接收信号的自功率谱Φ
SS,在信号与噪声相互独立的假定下,新的HB加权函数可以表示如下:
对于传统的HB加权方法采用
代替Φ
SS在高信噪比环境下两者之间的误差较小,不影响时延估计的性能。在公共场所环境中,中强度的背景噪声与复杂的反射干扰影响会减小Φ
SS在
中的比例。为此,本发明对传统的HB加权函数取λ次方,根据数据帧不同的信噪比调整新的HB加权的比重,其中本发明提出λ取值为:0.5≤λ≤1,λ随信噪比的改变而变化,σ表示信噪比。
其中σ0,σ1,λ0和λ1是按实际情况确定的常数,且λ1>λ0,σ1≥σ0。σ=30dB时,λ=1;σ=10dB时,λ=0.75。
③利用步骤①、②所得结果对互功率谱函数进行累计加权,加长输入信号的长度可以提高算法的抗噪能力,从而进一步突出互相关函数的峰值。可以得到互相关函数累计函数
其中,m为帧数。
根据得到的互相关函数累计函数
求反傅里叶变换,可以得到互相关函数值
其中,e-jwt表示一系列不同频率的正弦序列,j是虚部符号,ω是数字频率,t为时间。
图7为计算机仿真得到的互相关函数示意图。
④得到互相关函数后,通过反傅里叶变换得到互相关函数的峰值,即得到给定两个传声器接收信号的时延估计值,进而求出声源的方位信息。
4.引导视频监控装置动作
根据步骤(3)得到的定位结果执行相应的操作:由监控中心主机产生语音报警信号提示值班人员,同时向智能终端控制器发送控制命令,根据定位结果得到的位置数据引导摄像机转向异常事件发生方位,由智能终端控制器来控制现场警示设备产生警示。