CN102522082B

CN102522082B - 一种公共场所异常声音的识别与定位方法

Info

Publication number: CN102522082B
Application number: CN2011104448507A
Authority: CN
Inventors: 李伟红; 刘鹏; 龚卫国; 汤海兵; 张智龙; 仲建华
Original assignee: Chongqing University
Current assignee: Wuxi Lisha Artificial Intelligence Technology Co ltd
Priority date: 2011-12-27
Filing date: 2011-12-27
Publication date: 2013-07-10
Anticipated expiration: 2031-12-27
Also published as: CN102522082A

Abstract

本发明是用于公共场所异常声音识别及定位方法，属于音频信号处理技术领域。该方法通过双阈值算法和Welch法估计功率谱来判定公共场所是否存在异常声音；然后将异常声音特征时序信号转换为时频域的谱图，利用听觉感知的稀疏编码声音识别技术解决异常声音的特征提取及分类识别问题。为了抑制公共场所背景噪声中脉冲噪声对异常声音定位的影响，引入非线性变换，增强异常声音的互相关函数峰值能力。对传统的HB加权函数进行改进，降低由低信噪比带来的权值变化。引入一种多帧数据加权处理，使新的HB加权广义互相关算法更加适合于处理公共场所复杂声学环境中的异常声音定位能力。由于该方法结合基于听觉感知的稀疏编码声音识别技术和改进的到达时间差的声源定位技术，可以更好的利用异常事件所伴随的声音信息，可以提高公共场所监控系统的智能化水平。

Description

一种公共场所异常声音的识别与定位方法

技术领域

本发明属于音频信号处理、模式识别和阵列信号处理技术领域。

背景技术

公共场所是指公众从事社会生活的各种场所。在公共场所环境下人们日常生产活动中所发生的各种危险事件、交通事件、犯罪事件等等都与人们的生命财产安全息息相关。目前，各地不同程度地建设了以视频监视为核心技术的公共场所视频监视平台，这为减少犯罪率，提高破案效率和取证的科学性发挥了积极的作用。但是，现有的视频监视平台多实行重要场所、重要时间段人工监视加录像监视方式。一般场所多实行视频摄像机录像监视方式。大部分公共场所不可能实现24小时不间断人工监视，而突发异常事件有95％以上在人工不能实施有效监视的情况下发生。由于大多数公共场合所发生的异常事件一般都伴随有异常声音的产生，如枪声、爆炸声、玻璃破碎声、尖叫声等，异常声音的产生表明异常事件已发生或预示异常事件即将发生。为此，本发明通过对公共场所的声音进行分析，判定在该区域是否存在异常声音，然后确定该异常声音的方位，目的是引导视频监控系统对异常事件进行实时跟踪，在一定程度上缓解对重点单位和公共复杂场所人工监视的压力，提高公共监控系统的智能化能力。

本发明涉及两个主要的理论及技术问题：一是异常声音的分类识别；二是异常声音的定位。

目前对异常声音的识别与定位方法大多沿用传统的语音处理方法。由于公共场所噪声环境复杂，仅采用常用的声音识别及定位方法很难取得好的效果。在异常声音的特征提取部分，主要采用时域、频域和倒谱域特征参数进行特征描述。其中，时域特征有短时能量、短时过零率、短时自相关函数等；频域分析有频谱、功率谱、倒频谱、频谱包络分析等；倒谱域参数有线性预测参数、线性预测倒谱参数、mel频率倒谱系数等。为了增强特征参数对于语音信号的表征力，研究人员还将各类特征参数进行融合，这些特征参数均基于对人的发声机理研究得到的。但公共场所异常声音包含一些典型的非语音信号如枪声等。同时公共场所的噪声环境也很复杂。所以，这些常用的方法在公共场所异常声音特征提取中存在明显不足。为此，提取能较好的反映公共场所异常声音(包括语音信号和非语音信号)的特征参数就成为解决公共场所异常声音识别的关键。其次，语音识别中常用的分类器如矢量量化技术、动态时间规整、神经网络、高斯混合模型和隐含马尔科夫模型都在不同的应用领域显示了各自的特点。通过分析，本发明将目前很有特色的基于听觉感知的稀疏分解理论，用于解决公共场所异常声音特征提取及分类识别中。

在异常声音定位部分，由于公共场所背景噪声和反射干扰的影响变化甚至比传声器阵列的物理结构差异带来的变化大，这使得对公共场所异常声音的定位方法也不能简单的采用传统的声源定位方法。目前一般的声音定位方法有：1)基于高分辨率谱估计的定位方法。这类方法不受信号采样率的限制，能够有效对环境中多个声源进行准确定位，但是这种方法需要获得各个传声器信号的时空相关矩阵，而声音信号是不平稳的信号，只能通过相关假设与估计来获得相关矩阵。并且高分辨率谱估计方法计算复杂度较大，耗时较长，在实际异常声源定位的应用中受到一定的限制。2)基于最大输出功率的可控波束形成定位方法。这类方法在满足最大似然准则的前提下，通过搜索的方式，使传声器阵列所形成的波束对准异常声源，从而获得最大输出功率，在采用全部搜索的时候计算量非常大，若通过迭代方法来处理则对初始值的选择异常敏感，在实际应用中往往达不到预期的要求。3)基于到达时间差的定位方法。这类方法首先进行时延估计，主要有基于广义互相关的时延估计方法和基于自适应滤波的时延估计方法。然后根据传声器阵列的物理结构来估计异常声源的空间位置。这种方法主要的优点是简单、实用性较好。为此，本发明以这类方法作为基础，结合公共场所噪声环境及异常声音的特点，提出适用于公共场所异常声音定位的解决方案。

可以看到，在目前的社会背景及技术条件下，对公共场所异常声音的识别及定位技术进行深入的研究，不仅对维护国家安全、社会稳定和公共安全有很重要的社会意义，同时对促进异常声音特征提取、识别及定位相关领域的理论及技术研究的发展有着积极的作用。

发明内容

本发明的目的在于提出一种公共场所异常声音识别及定位方法。该方法利用模式识别、阵列信号处理技术，对公共场所产生的异常声音进行分析，确定是否为异常声音，进而确定是否存在异常事件。如有异常事件，迅速确定该异常事件发生的方向和位置。该方位信息可引导视频监控云台进行相应动作，对公共场所突发的异常事件进行实时跟踪、监控。提高公共场所监控系统的智能化能力。

本发明的主要内容为：判断监控区域是否存在异常声音，对不同的异常声音进行分类识别及对异常声音进行定位。

所述异常声音识别方法为：将异常声音的特征序列信号转换为时频谱的谱图，然后通过独立成分分析(ICA)、稀疏表示分类(SRC)等图像处理方法对异常声音进行分类识别，具体步骤如下：

①对异常声音的时序信号进行短时傅里叶变换(short-time Fouriertransform，STFT)，使用汉明窗作为滑动窗。傅里叶变换的长度为2N_f点，这样每一帧的信号都可以得到长度为N_f的频谱，其声压值为：

PdB＝20×log₁₀|x(1：N_f)|

式中，x为信号的频谱值，PdB表示其声压值；

将异常声音的时频表达沿频率轴切分成N_b个图像块。将每个异常声音样本的图像块通过列堆栈转换为向量，并把所有样本得到的向量合并成为矩阵X∈R^M×N，其中M是样本声谱图的大小，N表示声音样本的数量。

②将训练样本X作为独立成分分析的输入矩阵，得到分离矩阵W，然后将X投影到W张成的子空间构成稀疏分解的冗余字典A。

③将系统检测到的异常声音信号经过步骤①的声谱图转换后向W张成的子空间投影得到y，可以由冗余字典A中原子线性表示，异常声音信号的稀疏描述为：

{\hat{x}}_{1} = \arg \min {| | x | |}_{1}

subject to Ax＝y

计算残差得到异常声音信号的类别结果：

i＝1，2，…，j。

上式中y为待检测信号转换后投影到子空间的表示，

表示优化问题的解中第i个样本的系数，而则表示由其重建的特征

则r_i表示原信号与重建新号的差距。显然，y与的差距越小，i与待识别样本就越接近，则可得到判定结果。

所述公共场所异常声音定位方法为：根据公共场所异常声音的特点对原始声音信号进行非线性变换，然后对传统的时延估计方法中的HB加权函数进行改进，使其适用于公共场所噪声环境下异常声音定位的要求，其步骤如下：

设两个有间隔的传声器m₁和m₂接收到的信号x₁(n)、x₂(n)为：

\{\begin{matrix} x_{1} (n) = a_{1} s (n) + b_{1} (n) \\ x_{2} (n) = a_{2} s (n - τ_{12}) + b_{2} (n) \end{matrix}

其中，s(n)表示异常声音信号，a₁、a₂表示声波传播衰减因子(a_i＜1，i＝1，2)，τ₁₂是传声器m₂相对于m₁接收信号的时间延迟，b₁(n)和b₂(n)为环境噪声，即加性噪声；

①通过分析，我们认为公共场所背景噪声符合分数低阶α分布。由于α＜2并且其值下降的时候，接收信号x₁(n)和x₂(n)不存在稳定的二阶统计量，而传统的HB加权函数是基于二阶统计量来计算接收信号的互相关函数的。为了保证HB加权函数在处理公共场所环境下异常声音信号时延估计的性能，本发明引入非线性变换对接收信号x₁(n)和x₂(n)作预处理，即对给定的两路传声器信号x₁(n)和x₂(n)作反正切变换，以抑制分数低阶α分布噪声中的脉冲部分。

\{\begin{matrix} r_{1} (n) = ψ [x_{1} (n)] = \arctan [k x_{1} (n)] \\ r_{2} (n) = ψ [x_{2} (n)] = arctab [k x_{2} (n)] \end{matrix}

式中，arctan[·]为反正切函数，k为控制非线性变换程度的参数(k＞0)。本发明中k值根据α值与信噪比的不同而变化，r₁(n)和r₂(n)为两个输入信号经过反正切变换得到的结果。

②计算信号的自功率谱函数

及互功率谱函数传统的HB加权函数

在公共场所环境中，并不能获得接收信号的自功率谱Φ_SS，在信号与噪声相互独立的假定下，用

代替Φ_SS在高信噪比环境下两者之间的误差较小，不影响时延估计的性能。为此，HB加权函数可以表示如下：

H_{12} (ω) = | Φ_{X_{1} X_{2}} | / Φ_{X_{1} X_{1}} Φ_{X_{2} X_{2}}

实际中由于公共场所环境中的中强度的背景噪声与复杂的反射干扰影响会减小Φ_SS在

中的比例。为此，本发明中将传统的HB加权函数取λ次方得到新的HB加权函数

根据数据帧不同的信噪比调整新的HB甲醛的比重，其中本发明中的0.5≤λ≤1，λ随信噪比的改变而变化，σ表示信噪比。

H_{12^{(ω)}}^{*} = {| \frac{Φ_{X_{1} X_{2}}}{Φ_{X_{1} X_{1}} Φ_{X_{2} X_{2}}} |}^{λ}

λ = \{\begin{matrix} λ_{0} & σ < σ_{0} \\ \frac{λ_{1} - λ_{0}}{σ_{1} - σ_{0}} (σ - σ_{1}) + λ_{1} & σ_{0} \leq σ < σ_{1} \\ λ_{1} & σ > σ_{1} \end{matrix}

然后，再通过新的HB加权函数计算得到互功率谱函数

如下式：

Φ_{X_{1} X_{2}}^{*} (ω) = H_{12}^{*} (ω) Φ_{X_{1} X_{2}} (ω)

其中σ₀，σ₁，λ₀和λ₁是按实际情况确定的常数，且λ₁＞λ₀，σ₁≥σ₀。σ＝30dB时，λ＝1；σ＝10dB时，λ＝0.75。

③对获得的互功率谱函数

进行累计加权，加长输入信号的长度可以提高算法的抗噪能力，从而进一步突出互相关函数的峰值。互相关函数累计函数如下式：

S_{X_{1} X_{2}}^{m} (ω) = \{\begin{matrix} Φ_{X_{1} X_{2}}^{* 1} (ω) & m = 1 \\ 0.5 (Φ_{X_{1} X_{2}}^{* 1} (ω) + Φ_{X_{1} X_{2}}^{* 2} (ω)) & m = 2 \\ (Φ_{X_{1} X_{2}}^{* (m - 2)} (ω) + Φ_{X_{1} X_{2}}^{* (m - 1)} (ω) + Φ_{X_{1} X_{2}}^{* m} (ω)) / 3, & m = 3 \end{matrix}

其中，m为帧数。

对互相关函数累计函数

求反傅里叶变换，可以得到互相关函数值

如下式：

R_{GCC}^{m} (τ) = {&Integral;}_{- \infty}^{+ \infty} S_{X_{1} X_{2}}^{m} (ω) e^{- jωt} dω

其中，e^-jwt表示一系列不同频率的正弦序列，j是虚部符号，w是数字频率，t为时间。

④得到互相关函数

的峰值，即给定两个传声器接收信号的时延估计值，进而可求出声音的方位信息。

本发明的核心是对公共场所的典型异常声音进行分类识别及定位处理。本发明通过对公共场所获取的声音信号进行分析，确定在该区域是否存在异常声音，从而判别是否有异常事件发生。如果有异常事件发生，则快速确定异常事件发生的方向和位置，为视频监控系统提供快速、准确的方位信息。

本发明的优点在于：

(1)将异常声音特征时序信号转换为时频域的谱图进行分析，用基于听觉感知的稀疏编码声音识别技术解决信号特征提取与识别问题，并引入非线性变换，抑制公共场所背景噪声中脉冲噪声的影响，增强了声音定位算法在低信噪比环境下保持互相关函数峰值的能力；

(2)对传统的HB加权函数进行改进，降低了由低信噪比带来的权值变化。

(3)引入一种多帧数据加权处理，使新的HB加权广义互相关算法更加适合于处理公共场所复杂声学环境中的异常声音定位能力。

附图说明

图1：以广场为例的异常声音检测、识别及定位方案图；

图2：本发明提出的公共场所异常声音识别及定位框图；

图3：典型异常声音和广场背景噪声的功率谱密度图；

图4：本发明提出的公共场所异常声音识别流程框图；

图5：四类典型异常声音的声谱图；其中(a)“爆炸声”；(b)“枪声”；(c)“玻璃碎声”；(d)“尖叫声”；

图6：基于非线性变换的改进HB加权时延估计方法的异常声音定位流程框图

图7：本发明方法提出的互相关函数示意图(以枪声作为典型异常声音，广场环境噪声作为背景噪声)

图8：本发明提出的异常声音识别及定位程序流程图

具体实施方式

以下结合附图进一步详细阐述本发明：

参见图2，本方法分为异常声音识别方法和异常声音定位方法两部分：

1.异常声音判定及识别方法

1)通过双阈值门限检测到疑似异常声音片段，求取此声音片段的功率谱密度图在3875-4200hz的变化率，将其与预先设定的阈值比较从而判定是否存在异常。2)将异常声音的特征时序信号转换为时频域的谱图，然后通过独立成分分析(ICA)、稀疏表示分类(SRC)方法对异常声音谱图进行分类识别。

2、异常声音定位方法

对确定为异常声音的信号做非线性变换，在频域计算该信号的子功率谱与互功率谱，本发明提出的非线性变换HB加权互相关函数，使传统的时延估计方法适应公共场所噪声环境对异常声音定位的要求。

参见图1和图8，以下以广场为例，说明异常声音检测、识别及定位的具体实施步骤：

1.判定监控区域是否存在异常声音

利用具有音频输入的视音频摄像机采集到的现场音频信息。监控中心主机对其进行音频分析处理和识别，具体处理步骤如下：

①通过双门限阈值方法对采集到的信号快速检测出可疑信号片段。具体操作如下：设置高低两个门限，低门限数值比较小，对信号变化比较敏感，很容易被超过。而高门限数值较大，信号必须达到一定强度才能被超过。整个异常声音信号检测可以分为四段：背景噪声段、过渡段、异常声音段、结束。在背景噪声段，如果音频信号的强度超越了低门限，开始标记为起始点，进入过渡段。在过渡段中，如果高门限被超过认为是异常声音，如果信号强度回落到低门限以下，就将过渡状态恢复到背景噪声状态。对于一些瞬时的尖峰脉冲，通过设定最短时间门限来判别。当前状态处于异常声音段时，如果信号强度数值降低到低门限以下，而且总的计时长度小于最短时间门限，则认为是尖峰脉冲。否则就标记异常声音片段的结束端点。

②对检测到的疑似异常声音信号片段，用加窗平均周期方法(Welch)来估计信号的功率谱密度。Welch法估计功率谱是频域内提取淹没在噪声中有用信息的有效分析方法，可以减少误差，抑制噪声，使谱估计更加平滑。图3的(a)(b)(c)(d)分别为从广场背景噪声检测出的4种典型异常声音得到的功率谱密度图。爆炸声和枪声的基频频率都在300Hz以下，能量集中分布在300Hz以内的低频区间。尖叫声(男)的能量集中在700-1500Hz频率区间，尖叫声(女和小孩)的能量集中在1000-3000Hz之间。玻璃片破碎声频率成分最为复杂，能量分布在1000-5000Hz之间。而广场背景噪声的频率成分主要分布在0～40000hz，属于粉红噪声，超过4000hz急剧减少，故在4000hz附近梯度最大，如图3(e)所示。

于是，可以计算疑似异常片段功率谱密度图在3875-4250Hz范围内的变化率

\frac{Δ_{dB}}{Δ_{Hz}} = \frac{{dB}_{(3875,4250)}}{375},

根据

\frac{Δ_{dB}}{Δ_{Hz}} = \frac{{dB}_{(3875,4250)}}{375}

的值做出判断：

其中T为预先设定的判定阈值，由大量实验得出当阈值T＝-0.0864时，判定效果最佳。

2.异常声音分类识别

当检测到监控区域有异常声音出现时，则按照图3所示的异常声音识别流程框图，先将时域采样的异常声音信号转换为时频域的声谱图，然后基于独立成分分析(ICA)及稀疏表示分类(SRC)的方法进行分类识别。具体步骤如下：

①对异常声音时域信号(图4(a))进行短时傅里叶变换。使用汉明窗作为滑动窗，因为汉明窗的主瓣宽度和带外衰减较大。使用的傅里叶变换的长度为2N_f点，这样每一帧的信号都可以得到长度为N_f的频谱。为了更好的体现信号时域特征，然后转换成声压值表示：

PdB＝20×log₁₀|x(1：N_f)|

式中，x为一帧信号的频谱值，PdB表示其声压值。所有帧信号变换后得到声谱图(图4(b))。

将异常声音的时频表达沿频率轴切分成N_b个图像块(图4(c))，这是为了更好的模拟听觉神经元的感受野，因为大部分听觉神经元只会对很窄的一个频率段敏感。本发明将每个异常声音样本的图像块通过列堆栈转换为向量，然后把所有样本得到的向量合并成为矩阵X∈R^M×N作为独立成分分析的输入矩阵，M是样本声谱图的大小，N表示声音样本的数量。图5为4种典型的异常声音声谱图。

②对步骤①中得到数据矩阵X进行预处理，包括中心化和白化两个过程。

中心化：X＝X-E(X)

使X为零均值矢量，E表示取期望。

然后进行白化：Z＝D^-1/2F^TX

使得E(ZZ^T)＝I

成立。式中，Z是经过白化处理的数据。D和F分别是X的协方差矩阵R_v＝E(XX^T)的特征值矩阵和特征向量矩阵，I为单位矩阵，T为转置符号。

③根据已知的Z进行独立成分估计：随机初始化w_i，i＝1，…，m，其中每个w_i都具有单位范数，m是要估计的独立成分个数。

对每一个i＝1，…，m，迭代更新w_i：

w_{i} &LeftArrow; E {Zf (w_{i}^{T} Z)} - E {f (w_{i}^{T} Z)} w_{i}

其中，

为W的第i行分量的转置。f(u)＝tanh(a₁u)，a₁为常数，1≤a₁≤2，这里a₁取1。

对矩阵W＝[w₁，…，w_m]^T进行对称正交化：W←(WW^T)^-1/2W

得到混合矩阵W_o训练样本X投影到W张成的子空间是稀疏特征基的集合A，即存储于系统中的冗余字典：A＝WX

步骤②、③是独立成分分析(ICA)的实现过程，如图4(d)所示。

④当系统检测到异常时序声音信号S[n]，经过步骤①的声谱图转换后得到x∈R^M×1，向子空间投影得到y＝Wx。然后运用稀疏重构分类方法(基于L₁范数最小化)对y进行分类识别，待识别的信号可以由字典A中的原子线性表示。所以通过求解如下问题求出待测声音信号的稀疏表示：

{\hat{x}}_{1} = \arg \min {| | x | |}_{1}

subject to Ax＝y

⑤计算残差得到类别结果：i＝1，2，…，j

上式中y为待检测信号转换后投影到子空间的表示，

表示优化问题的解中第i个样本的系数，而

则表示由其重建的特征

则r_i表示原信号与重建新号的差距。显然，y与

的差距越小，i与待识别样本就越接近，则可得到判定结果。

步骤④⑤是稀疏表示分类(SRC)的实现过程，如图4(e)所示。

3.确定异常声音的方向及位置

设两个有间隔的传声器m₁和m₂接收到的信号x₁(n)、x₂(n)可以表示为：

\{\begin{matrix} x_{1} (n) = a_{1} s (n) + b_{1} (n) \\ x_{2} (n) = a_{2} s (n - τ_{12}) + b_{2} (n) \end{matrix}

其中，s(n)表示异常声源信号，a₁、a₂表示声波传播衰减因子(a_i＜1，i＝1，2)，τ₁₂是传声器m₂相对于m₁接收信号的时间延迟，b₁(n)和b₂(n)为环境噪声，即加性噪声。

①对给定的两路传声器接收信号x₁(n)和x₂(n)，其背景噪声是分数低阶α分布噪声，当α＜2并且其值下降的时候，接收信号x₁(n)和x₂(n)不存在稳定的二阶统计量。传统的HB加权函数是基于二阶统计量来计算接收信号的互相关函数的。为了保证HB加权函数在处理公共场所环境下异常声音信号时延估计的性能，引入非线性变换对接收信号x₁(n)和x₂(n)作预处理得到新的输入信号x₁(n)和x₂(n)以抑制分数低阶α分布噪声中的脉冲部分。

\{\begin{matrix} r_{1} (n) = ψ [x_{1} (n)] = \arctan [k x_{1} (n)] \\ r_{2} (n) = ψ [x_{2} (n)] = arctab [k x_{2} (n)] \end{matrix}

②计算自功率谱函数

以及互功率谱函数本发明对传统的HB加权函数

进行改进(Φ_SS为信号的自功率谱)，由于在公共场所环境中，并不能获得接收信号的自功率谱Φ_SS，在信号与噪声相互独立的假定下，新的HB加权函数可以表示如下：

H_{12} (ω) = | Φ_{X_{1} X_{2}} | / Φ_{X_{1} X_{1}} Φ_{X_{2} X_{2}}

对于传统的HB加权方法采用

代替Φ_SS在高信噪比环境下两者之间的误差较小，不影响时延估计的性能。在公共场所环境中，中强度的背景噪声与复杂的反射干扰影响会减小Φ_SS在

中的比例。为此，本发明对传统的HB加权函数取λ次方，根据数据帧不同的信噪比调整新的HB加权的比重，其中本发明提出λ取值为：0.5≤λ≤1，λ随信噪比的改变而变化，σ表示信噪比。

H_{12^{(ω)}}^{*} = {| \frac{Φ_{X_{1} X_{2}}}{Φ_{X_{1} X_{1}} Φ_{X_{2} X_{2}}} |}^{λ}

λ = \{\begin{matrix} λ_{0} & σ < σ_{0} \\ \frac{λ_{1} - λ_{0}}{σ_{1} - σ_{0}} (σ - σ_{1}) + λ_{1} & σ_{0} \leq σ < σ_{1} \\ λ_{1} & σ > σ_{1} \end{matrix}

通过提出的新的HB加权函数计算得到互功率谱函数

Φ_{X_{1} X_{2}}^{*} (ω) = H_{12}^{*} (ω) Φ_{X_{1} X_{2}} (ω)

③利用步骤①、②所得结果对互功率谱函数进行累计加权，加长输入信号的长度可以提高算法的抗噪能力，从而进一步突出互相关函数的峰值。可以得到互相关函数累计函数

S_{X_{1} X_{2}}^{m} (ω) = \{\begin{matrix} Φ_{X_{1} X_{2}}^{* 1} (ω) & m = 1 \\ 0.5 (Φ_{X_{1} X_{2}}^{* 1} (ω) + Φ_{X_{1} X_{2}}^{* 2} (ω)) & m = 2 \\ (Φ_{X_{1} X_{2}}^{* (m - 2)} (ω) + Φ_{X_{1} X_{2}}^{* (m - 1)} (ω) + Φ_{X_{1} X_{2}}^{* m} (ω)) / 3, & m = 3 \end{matrix}

其中，m为帧数。

根据得到的互相关函数累计函数

求反傅里叶变换，可以得到互相关函数值

R_{GCC}^{m} (τ) = {&Integral;}_{- \infty}^{+ \infty} S_{X_{1} X_{2}}^{m} (ω) e^{- jωt} dω

其中，e^-jwt表示一系列不同频率的正弦序列，j是虚部符号，ω是数字频率，t为时间。

图7为计算机仿真得到的互相关函数示意图。

④得到互相关函数后，通过反傅里叶变换得到互相关函数的峰值，即得到给定两个传声器接收信号的时延估计值，进而求出声源的方位信息。

4.引导视频监控装置动作

根据步骤(3)得到的定位结果执行相应的操作：由监控中心主机产生语音报警信号提示值班人员，同时向智能终端控制器发送控制命令，根据定位结果得到的位置数据引导摄像机转向异常事件发生方位，由智能终端控制器来控制现场警示设备产生警示。

Claims

1.一种公共场所异常声音的识别与定位方法，所述本方法首先对公共场所获取的声音信号进行分析，确定在该区域是否存在异常声音，从而判别是否有异常事件发生；如果有异常事件发生，则快速确定异常事件发生的方向和位置，为视频监控系统提供快速、准确的方位信息；所述方法分为异常声音识别方法和异常声音定位方法两部分，其特征在于：所述异常声音识别方法为：

（1）首先是判定是否存在异常声音；

（2）然后将异常声音的特征时序信号转换为时频域的谱图，通过独立成分分析（ICA）、稀疏表示分类（SRC)图像处理方法对异常声音谱图进行分类识别，具体步骤如下：

①对异常声音的时序信号进行短时傅里叶变换：使用汉明窗作为滑动窗，傅里叶变换的长度为2N_f点，这样每一帧的信号都可以得到长度为N_f的频谱，其声压值为：

PdB=20×log₁₀x(1:N_f)

式中，x为一帧信号的频谱值，PdB表示其声压值；

将异常声音的时频表达沿频率轴切分成N_b个图像块，将每个异常声音样本的图像块通过列堆栈转换为向量，并把所有样本得到的向量合并成为矩阵X∈R^M×N，其中M是样本声谱图的大小，N表示声音样本的数量；

②将训练样本X作为独立成分分析的输入矩阵，得到分离矩阵W，然后将X投影到W张成的子空间构成稀疏分解的冗余字典A；