CN102522082B - 一种公共场所异常声音的识别与定位方法 - Google Patents

一种公共场所异常声音的识别与定位方法 Download PDF

Info

Publication number
CN102522082B
CN102522082B CN2011104448507A CN201110444850A CN102522082B CN 102522082 B CN102522082 B CN 102522082B CN 2011104448507 A CN2011104448507 A CN 2011104448507A CN 201110444850 A CN201110444850 A CN 201110444850A CN 102522082 B CN102522082 B CN 102522082B
Authority
CN
China
Prior art keywords
abnormal sound
signal
sound
omega
phi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2011104448507A
Other languages
English (en)
Other versions
CN102522082A (zh
Inventor
李伟红
刘鹏
龚卫国
汤海兵
张智龙
仲建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Lisha Artificial Intelligence Technology Co ltd
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN2011104448507A priority Critical patent/CN102522082B/zh
Publication of CN102522082A publication Critical patent/CN102522082A/zh
Application granted granted Critical
Publication of CN102522082B publication Critical patent/CN102522082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明是用于公共场所异常声音识别及定位方法,属于音频信号处理技术领域。该方法通过双阈值算法和Welch法估计功率谱来判定公共场所是否存在异常声音;然后将异常声音特征时序信号转换为时频域的谱图,利用听觉感知的稀疏编码声音识别技术解决异常声音的特征提取及分类识别问题。为了抑制公共场所背景噪声中脉冲噪声对异常声音定位的影响,引入非线性变换,增强异常声音的互相关函数峰值能力。对传统的HB加权函数进行改进,降低由低信噪比带来的权值变化。引入一种多帧数据加权处理,使新的HB加权广义互相关算法更加适合于处理公共场所复杂声学环境中的异常声音定位能力。由于该方法结合基于听觉感知的稀疏编码声音识别技术和改进的到达时间差的声源定位技术,可以更好的利用异常事件所伴随的声音信息,可以提高公共场所监控系统的智能化水平。

Description

一种公共场所异常声音的识别与定位方法
技术领域
本发明属于音频信号处理、模式识别和阵列信号处理技术领域。
背景技术
公共场所是指公众从事社会生活的各种场所。在公共场所环境下人们日常生产活动中所发生的各种危险事件、交通事件、犯罪事件等等都与人们的生命财产安全息息相关。目前,各地不同程度地建设了以视频监视为核心技术的公共场所视频监视平台,这为减少犯罪率,提高破案效率和取证的科学性发挥了积极的作用。但是,现有的视频监视平台多实行重要场所、重要时间段人工监视加录像监视方式。一般场所多实行视频摄像机录像监视方式。大部分公共场所不可能实现24小时不间断人工监视,而突发异常事件有95%以上在人工不能实施有效监视的情况下发生。由于大多数公共场合所发生的异常事件一般都伴随有异常声音的产生,如枪声、爆炸声、玻璃破碎声、尖叫声等,异常声音的产生表明异常事件已发生或预示异常事件即将发生。为此,本发明通过对公共场所的声音进行分析,判定在该区域是否存在异常声音,然后确定该异常声音的方位,目的是引导视频监控系统对异常事件进行实时跟踪,在一定程度上缓解对重点单位和公共复杂场所人工监视的压力,提高公共监控系统的智能化能力。
本发明涉及两个主要的理论及技术问题:一是异常声音的分类识别;二是异常声音的定位。
目前对异常声音的识别与定位方法大多沿用传统的语音处理方法。由于公共场所噪声环境复杂,仅采用常用的声音识别及定位方法很难取得好的效果。在异常声音的特征提取部分,主要采用时域、频域和倒谱域特征参数进行特征描述。其中,时域特征有短时能量、短时过零率、短时自相关函数等;频域分析有频谱、功率谱、倒频谱、频谱包络分析等;倒谱域参数有线性预测参数、线性预测倒谱参数、mel频率倒谱系数等。为了增强特征参数对于语音信号的表征力,研究人员还将各类特征参数进行融合,这些特征参数均基于对人的发声机理研究得到的。但公共场所异常声音包含一些典型的非语音信号如枪声等。同时公共场所的噪声环境也很复杂。所以,这些常用的方法在公共场所异常声音特征提取中存在明显不足。为此,提取能较好的反映公共场所异常声音(包括语音信号和非语音信号)的特征参数就成为解决公共场所异常声音识别的关键。其次,语音识别中常用的分类器如矢量量化技术、动态时间规整、神经网络、高斯混合模型和隐含马尔科夫模型都在不同的应用领域显示了各自的特点。通过分析,本发明将目前很有特色的基于听觉感知的稀疏分解理论,用于解决公共场所异常声音特征提取及分类识别中。
在异常声音定位部分,由于公共场所背景噪声和反射干扰的影响变化甚至比传声器阵列的物理结构差异带来的变化大,这使得对公共场所异常声音的定位方法也不能简单的采用传统的声源定位方法。目前一般的声音定位方法有:1)基于高分辨率谱估计的定位方法。这类方法不受信号采样率的限制,能够有效对环境中多个声源进行准确定位,但是这种方法需要获得各个传声器信号的时空相关矩阵,而声音信号是不平稳的信号,只能通过相关假设与估计来获得相关矩阵。并且高分辨率谱估计方法计算复杂度较大,耗时较长,在实际异常声源定位的应用中受到一定的限制。2)基于最大输出功率的可控波束形成定位方法。这类方法在满足最大似然准则的前提下,通过搜索的方式,使传声器阵列所形成的波束对准异常声源,从而获得最大输出功率,在采用全部搜索的时候计算量非常大,若通过迭代方法来处理则对初始值的选择异常敏感,在实际应用中往往达不到预期的要求。3)基于到达时间差的定位方法。这类方法首先进行时延估计,主要有基于广义互相关的时延估计方法和基于自适应滤波的时延估计方法。然后根据传声器阵列的物理结构来估计异常声源的空间位置。这种方法主要的优点是简单、实用性较好。为此,本发明以这类方法作为基础,结合公共场所噪声环境及异常声音的特点,提出适用于公共场所异常声音定位的解决方案。
可以看到,在目前的社会背景及技术条件下,对公共场所异常声音的识别及定位技术进行深入的研究,不仅对维护国家安全、社会稳定和公共安全有很重要的社会意义,同时对促进异常声音特征提取、识别及定位相关领域的理论及技术研究的发展有着积极的作用。
发明内容
本发明的目的在于提出一种公共场所异常声音识别及定位方法。该方法利用模式识别、阵列信号处理技术,对公共场所产生的异常声音进行分析,确定是否为异常声音,进而确定是否存在异常事件。如有异常事件,迅速确定该异常事件发生的方向和位置。该方位信息可引导视频监控云台进行相应动作,对公共场所突发的异常事件进行实时跟踪、监控。提高公共场所监控系统的智能化能力。
本发明的主要内容为:判断监控区域是否存在异常声音,对不同的异常声音进行分类识别及对异常声音进行定位。
所述异常声音识别方法为:将异常声音的特征序列信号转换为时频谱的谱图,然后通过独立成分分析(ICA)、稀疏表示分类(SRC)等图像处理方法对异常声音进行分类识别,具体步骤如下:
①对异常声音的时序信号进行短时傅里叶变换(short-time Fouriertransform,STFT),使用汉明窗作为滑动窗。傅里叶变换的长度为2Nf点,这样每一帧的信号都可以得到长度为Nf的频谱,其声压值为:
PdB=20×log10|x(1:Nf)|
式中,x为信号的频谱值,PdB表示其声压值;
将异常声音的时频表达沿频率轴切分成Nb个图像块。将每个异常声音样本的图像块通过列堆栈转换为向量,并把所有样本得到的向量合并成为矩阵X∈RM×N,其中M是样本声谱图的大小,N表示声音样本的数量。
②将训练样本X作为独立成分分析的输入矩阵,得到分离矩阵W,然后将X投影到W张成的子空间构成稀疏分解的冗余字典A。
③将系统检测到的异常声音信号经过步骤①的声谱图转换后向W张成的子空间投影得到y,可以由冗余字典A中原子线性表示,异常声音信号的稀疏描述为:
x ^ 1 = arg min | | x | | 1 subject to Ax=y
计算残差得到异常声音信号的类别结果:
Figure BDA0000125171920000032
i=1,2,…,j。
上式中y为待检测信号转换后投影到子空间的表示,
Figure BDA0000125171920000033
表示优化问题的解中第i个样本的系数,而则表示由其重建的特征
Figure BDA0000125171920000035
则ri表示原信号与重建新号的差距。显然,y与的差距越小,i与待识别样本就越接近,则可得到判定结果。
所述公共场所异常声音定位方法为:根据公共场所异常声音的特点对原始声音信号进行非线性变换,然后对传统的时延估计方法中的HB加权函数进行改进,使其适用于公共场所噪声环境下异常声音定位的要求,其步骤如下:
设两个有间隔的传声器m1和m2接收到的信号x1(n)、x2(n)为:
x 1 ( n ) = a 1 s ( n ) + b 1 ( n ) x 2 ( n ) = a 2 s ( n - τ 12 ) + b 2 ( n )
其中,s(n)表示异常声音信号,a1、a2表示声波传播衰减因子(ai<1,i=1,2),τ12是传声器m2相对于m1接收信号的时间延迟,b1(n)和b2(n)为环境噪声,即加性噪声;
①通过分析,我们认为公共场所背景噪声符合分数低阶α分布。由于α<2并且其值下降的时候,接收信号x1(n)和x2(n)不存在稳定的二阶统计量,而传统的HB加权函数是基于二阶统计量来计算接收信号的互相关函数的。为了保证HB加权函数在处理公共场所环境下异常声音信号时延估计的性能,本发明引入非线性变换对接收信号x1(n)和x2(n)作预处理,即对给定的两路传声器信号x1(n)和x2(n)作反正切变换,以抑制分数低阶α分布噪声中的脉冲部分。
r 1 ( n ) = ψ [ x 1 ( n ) ] = arctan [ k x 1 ( n ) ] r 2 ( n ) = ψ [ x 2 ( n ) ] = arctab [ k x 2 ( n ) ]
式中,arctan[·]为反正切函数,k为控制非线性变换程度的参数(k>0)。本发明中k值根据α值与信噪比的不同而变化,r1(n)和r2(n)为两个输入信号经过反正切变换得到的结果。
②计算信号的自功率谱函数
Figure BDA0000125171920000044
及互功率谱函数传统的HB加权函数
Figure BDA0000125171920000046
在公共场所环境中,并不能获得接收信号的自功率谱ΦSS,在信号与噪声相互独立的假定下,用
Figure BDA0000125171920000047
代替ΦSS在高信噪比环境下两者之间的误差较小,不影响时延估计的性能。为此,HB加权函数可以表示如下:
H 12 ( ω ) = | Φ X 1 X 2 | / Φ X 1 X 1 Φ X 2 X 2
实际中由于公共场所环境中的中强度的背景噪声与复杂的反射干扰影响会减小ΦSS
Figure BDA0000125171920000052
中的比例。为此,本发明中将传统的HB加权函数取λ次方得到新的HB加权函数
Figure BDA0000125171920000053
根据数据帧不同的信噪比调整新的HB甲醛的比重,其中本发明中的0.5≤λ≤1,λ随信噪比的改变而变化,σ表示信噪比。
H 12 ( ω ) * = | Φ X 1 X 2 Φ X 1 X 1 Φ X 2 X 2 | λ
&lambda; = &lambda; 0 &sigma; < &sigma; 0 &lambda; 1 - &lambda; 0 &sigma; 1 - &sigma; 0 ( &sigma; - &sigma; 1 ) + &lambda; 1 &sigma; 0 &le; &sigma; < &sigma; 1 &lambda; 1 &sigma; > &sigma; 1
然后,再通过新的HB加权函数计算得到互功率谱函数
Figure BDA0000125171920000056
如下式:
&Phi; X 1 X 2 * ( &omega; ) = H 12 * ( &omega; ) &Phi; X 1 X 2 ( &omega; )
其中σ0,σ1,λ0和λ1是按实际情况确定的常数,且λ1>λ0,σ1≥σ0。σ=30dB时,λ=1;σ=10dB时,λ=0.75。
③对获得的互功率谱函数
Figure BDA0000125171920000058
进行累计加权,加长输入信号的长度可以提高算法的抗噪能力,从而进一步突出互相关函数的峰值。互相关函数累计函数如下式:
S X 1 X 2 m ( &omega; ) = &Phi; X 1 X 2 * 1 ( &omega; ) m = 1 0.5 ( &Phi; X 1 X 2 * 1 ( &omega; ) + &Phi; X 1 X 2 * 2 ( &omega; ) ) m = 2 ( &Phi; X 1 X 2 * ( m - 2 ) ( &omega; ) + &Phi; X 1 X 2 * ( m - 1 ) ( &omega; ) + &Phi; X 1 X 2 * m ( &omega; ) ) / 3 , m = 3
其中,m为帧数。
对互相关函数累计函数
Figure BDA00001251719200000510
求反傅里叶变换,可以得到互相关函数值
Figure BDA00001251719200000511
如下式:
R GCC m ( &tau; ) = &Integral; - &infin; + &infin; S X 1 X 2 m ( &omega; ) e - j&omega;t d&omega;
其中,e-jwt表示一系列不同频率的正弦序列,j是虚部符号,w是数字频率,t为时间。
④得到互相关函数
Figure BDA0000125171920000062
的峰值,即给定两个传声器接收信号的时延估计值,进而可求出声音的方位信息。
本发明的核心是对公共场所的典型异常声音进行分类识别及定位处理。本发明通过对公共场所获取的声音信号进行分析,确定在该区域是否存在异常声音,从而判别是否有异常事件发生。如果有异常事件发生,则快速确定异常事件发生的方向和位置,为视频监控系统提供快速、准确的方位信息。
本发明的优点在于:
(1)将异常声音特征时序信号转换为时频域的谱图进行分析,用基于听觉感知的稀疏编码声音识别技术解决信号特征提取与识别问题,并引入非线性变换,抑制公共场所背景噪声中脉冲噪声的影响,增强了声音定位算法在低信噪比环境下保持互相关函数峰值的能力;
(2)对传统的HB加权函数进行改进,降低了由低信噪比带来的权值变化。
(3)引入一种多帧数据加权处理,使新的HB加权广义互相关算法更加适合于处理公共场所复杂声学环境中的异常声音定位能力。
附图说明
图1:以广场为例的异常声音检测、识别及定位方案图;
图2:本发明提出的公共场所异常声音识别及定位框图;
图3:典型异常声音和广场背景噪声的功率谱密度图;
图4:本发明提出的公共场所异常声音识别流程框图;
图5:四类典型异常声音的声谱图;其中(a)“爆炸声”;(b)“枪声”;(c)“玻璃碎声”;(d)“尖叫声”;
图6:基于非线性变换的改进HB加权时延估计方法的异常声音定位流程框图
图7:本发明方法提出的互相关函数示意图(以枪声作为典型异常声音,广场环境噪声作为背景噪声)
图8:本发明提出的异常声音识别及定位程序流程图
具体实施方式
以下结合附图进一步详细阐述本发明:
参见图2,本方法分为异常声音识别方法和异常声音定位方法两部分:
1.异常声音判定及识别方法
1)通过双阈值门限检测到疑似异常声音片段,求取此声音片段的功率谱密度图在3875-4200hz的变化率,将其与预先设定的阈值比较从而判定是否存在异常。2)将异常声音的特征时序信号转换为时频域的谱图,然后通过独立成分分析(ICA)、稀疏表示分类(SRC)方法对异常声音谱图进行分类识别。
2、异常声音定位方法
对确定为异常声音的信号做非线性变换,在频域计算该信号的子功率谱与互功率谱,本发明提出的非线性变换HB加权互相关函数,使传统的时延估计方法适应公共场所噪声环境对异常声音定位的要求。
参见图1和图8,以下以广场为例,说明异常声音检测、识别及定位的具体实施步骤:
1.判定监控区域是否存在异常声音
利用具有音频输入的视音频摄像机采集到的现场音频信息。监控中心主机对其进行音频分析处理和识别,具体处理步骤如下:
①通过双门限阈值方法对采集到的信号快速检测出可疑信号片段。具体操作如下:设置高低两个门限,低门限数值比较小,对信号变化比较敏感,很容易被超过。而高门限数值较大,信号必须达到一定强度才能被超过。整个异常声音信号检测可以分为四段:背景噪声段、过渡段、异常声音段、结束。在背景噪声段,如果音频信号的强度超越了低门限,开始标记为起始点,进入过渡段。在过渡段中,如果高门限被超过认为是异常声音,如果信号强度回落到低门限以下,就将过渡状态恢复到背景噪声状态。对于一些瞬时的尖峰脉冲,通过设定最短时间门限来判别。当前状态处于异常声音段时,如果信号强度数值降低到低门限以下,而且总的计时长度小于最短时间门限,则认为是尖峰脉冲。否则就标记异常声音片段的结束端点。
②对检测到的疑似异常声音信号片段,用加窗平均周期方法(Welch)来估计信号的功率谱密度。Welch法估计功率谱是频域内提取淹没在噪声中有用信息的有效分析方法,可以减少误差,抑制噪声,使谱估计更加平滑。图3的(a)(b)(c)(d)分别为从广场背景噪声检测出的4种典型异常声音得到的功率谱密度图。爆炸声和枪声的基频频率都在300Hz以下,能量集中分布在300Hz以内的低频区间。尖叫声(男)的能量集中在700-1500Hz频率区间,尖叫声(女和小孩)的能量集中在1000-3000Hz之间。玻璃片破碎声频率成分最为复杂,能量分布在1000-5000Hz之间。而广场背景噪声的频率成分主要分布在0~40000hz,属于粉红噪声,超过4000hz急剧减少,故在4000hz附近梯度最大,如图3(e)所示。
于是,可以计算疑似异常片段功率谱密度图在3875-4250Hz范围内的变化率 &Delta; dB &Delta; Hz = dB ( 3875,4250 ) 375 , 根据 &Delta; dB &Delta; Hz = dB ( 3875,4250 ) 375 的值做出判断:
Figure BDA0000125171920000083
其中T为预先设定的判定阈值,由大量实验得出当阈值T=-0.0864时,判定效果最佳。
2.异常声音分类识别
当检测到监控区域有异常声音出现时,则按照图3所示的异常声音识别流程框图,先将时域采样的异常声音信号转换为时频域的声谱图,然后基于独立成分分析(ICA)及稀疏表示分类(SRC)的方法进行分类识别。具体步骤如下:
①对异常声音时域信号(图4(a))进行短时傅里叶变换。使用汉明窗作为滑动窗,因为汉明窗的主瓣宽度和带外衰减较大。使用的傅里叶变换的长度为2Nf点,这样每一帧的信号都可以得到长度为Nf的频谱。为了更好的体现信号时域特征,然后转换成声压值表示:
PdB=20×log10|x(1:Nf)|
式中,x为一帧信号的频谱值,PdB表示其声压值。所有帧信号变换后得到声谱图(图4(b))。
将异常声音的时频表达沿频率轴切分成Nb个图像块(图4(c)),这是为了更好的模拟听觉神经元的感受野,因为大部分听觉神经元只会对很窄的一个频率段敏感。本发明将每个异常声音样本的图像块通过列堆栈转换为向量,然后把所有样本得到的向量合并成为矩阵X∈RM×N作为独立成分分析的输入矩阵,M是样本声谱图的大小,N表示声音样本的数量。图5为4种典型的异常声音声谱图。
②对步骤①中得到数据矩阵X进行预处理,包括中心化和白化两个过程。
中心化:X=X-E(X)
使X为零均值矢量,E表示取期望。
然后进行白化:Z=D-1/2FTX
使得E(ZZT)=I
成立。式中,Z是经过白化处理的数据。D和F分别是X的协方差矩阵Rv=E(XXT)的特征值矩阵和特征向量矩阵,I为单位矩阵,T为转置符号。
③根据已知的Z进行独立成分估计:随机初始化wi,i=1,…,m,其中每个wi都具有单位范数,m是要估计的独立成分个数。
对每一个i=1,…,m,迭代更新wi:  w i &LeftArrow; E { Zf ( w i T Z ) } - E { f ( w i T Z ) } w i
其中,
Figure BDA0000125171920000092
为W的第i行分量的转置。f(u)=tanh(a1u),a1为常数,1≤a1≤2,这里a1取1。
对矩阵W=[w1,…,wm]T进行对称正交化:W←(WWT)-1/2W
得到混合矩阵Wo训练样本X投影到W张成的子空间是稀疏特征基的集合A,即存储于系统中的冗余字典:A=WX
步骤②、③是独立成分分析(ICA)的实现过程,如图4(d)所示。
④当系统检测到异常时序声音信号S[n],经过步骤①的声谱图转换后得到x∈RM×1,向子空间投影得到y=Wx。然后运用稀疏重构分类方法(基于L1范数最小化)对y进行分类识别,待识别的信号可以由字典A中的原子线性表示。所以通过求解如下问题求出待测声音信号的稀疏表示:
x ^ 1 = arg min | | x | | 1 subject to Ax=y
⑤计算残差得到类别结果:i=1,2,…,j
上式中y为待检测信号转换后投影到子空间的表示,
Figure BDA0000125171920000103
表示优化问题的解中第i个样本的系数,而
Figure BDA0000125171920000104
则表示由其重建的特征
Figure BDA0000125171920000105
则ri表示原信号与重建新号的差距。显然,y与
Figure BDA0000125171920000106
的差距越小,i与待识别样本就越接近,则可得到判定结果。
步骤④⑤是稀疏表示分类(SRC)的实现过程,如图4(e)所示。
3.确定异常声音的方向及位置
设两个有间隔的传声器m1和m2接收到的信号x1(n)、x2(n)可以表示为:
x 1 ( n ) = a 1 s ( n ) + b 1 ( n ) x 2 ( n ) = a 2 s ( n - &tau; 12 ) + b 2 ( n )
其中,s(n)表示异常声源信号,a1、a2表示声波传播衰减因子(ai<1,i=1,2),τ12是传声器m2相对于m1接收信号的时间延迟,b1(n)和b2(n)为环境噪声,即加性噪声。
①对给定的两路传声器接收信号x1(n)和x2(n),其背景噪声是分数低阶α分布噪声,当α<2并且其值下降的时候,接收信号x1(n)和x2(n)不存在稳定的二阶统计量。传统的HB加权函数是基于二阶统计量来计算接收信号的互相关函数的。为了保证HB加权函数在处理公共场所环境下异常声音信号时延估计的性能,引入非线性变换对接收信号x1(n)和x2(n)作预处理得到新的输入信号x1(n)和x2(n)以抑制分数低阶α分布噪声中的脉冲部分。
r 1 ( n ) = &psi; [ x 1 ( n ) ] = arctan [ k x 1 ( n ) ] r 2 ( n ) = &psi; [ x 2 ( n ) ] = arctab [ k x 2 ( n ) ]
式中,arctan[·]为反正切函数,k为控制非线性变换程度的参数(k>0)。本发明中k值根据α值与信噪比的不同而变化,r1(n)和r2(n)为两个输入信号经过反正切变换得到的结果。
②计算自功率谱函数
Figure BDA0000125171920000112
以及互功率谱函数本发明对传统的HB加权函数
Figure BDA0000125171920000114
进行改进(ΦSS为信号的自功率谱),由于在公共场所环境中,并不能获得接收信号的自功率谱ΦSS,在信号与噪声相互独立的假定下,新的HB加权函数可以表示如下:
H 12 ( &omega; ) = | &Phi; X 1 X 2 | / &Phi; X 1 X 1 &Phi; X 2 X 2
对于传统的HB加权方法采用
Figure BDA0000125171920000116
代替ΦSS在高信噪比环境下两者之间的误差较小,不影响时延估计的性能。在公共场所环境中,中强度的背景噪声与复杂的反射干扰影响会减小ΦSS
Figure BDA0000125171920000117
中的比例。为此,本发明对传统的HB加权函数取λ次方,根据数据帧不同的信噪比调整新的HB加权的比重,其中本发明提出λ取值为:0.5≤λ≤1,λ随信噪比的改变而变化,σ表示信噪比。
H 12 ( &omega; ) * = | &Phi; X 1 X 2 &Phi; X 1 X 1 &Phi; X 2 X 2 | &lambda;
&lambda; = &lambda; 0 &sigma; < &sigma; 0 &lambda; 1 - &lambda; 0 &sigma; 1 - &sigma; 0 ( &sigma; - &sigma; 1 ) + &lambda; 1 &sigma; 0 &le; &sigma; < &sigma; 1 &lambda; 1 &sigma; > &sigma; 1
通过提出的新的HB加权函数计算得到互功率谱函数
Figure BDA00001251719200001110
&Phi; X 1 X 2 * ( &omega; ) = H 12 * ( &omega; ) &Phi; X 1 X 2 ( &omega; )
其中σ0,σ1,λ0和λ1是按实际情况确定的常数,且λ1>λ0,σ1≥σ0。σ=30dB时,λ=1;σ=10dB时,λ=0.75。
③利用步骤①、②所得结果对互功率谱函数进行累计加权,加长输入信号的长度可以提高算法的抗噪能力,从而进一步突出互相关函数的峰值。可以得到互相关函数累计函数
Figure BDA0000125171920000121
S X 1 X 2 m ( &omega; ) = &Phi; X 1 X 2 * 1 ( &omega; ) m = 1 0.5 ( &Phi; X 1 X 2 * 1 ( &omega; ) + &Phi; X 1 X 2 * 2 ( &omega; ) ) m = 2 ( &Phi; X 1 X 2 * ( m - 2 ) ( &omega; ) + &Phi; X 1 X 2 * ( m - 1 ) ( &omega; ) + &Phi; X 1 X 2 * m ( &omega; ) ) / 3 , m = 3
其中,m为帧数。
根据得到的互相关函数累计函数
Figure BDA0000125171920000123
求反傅里叶变换,可以得到互相关函数值
Figure BDA0000125171920000124
R GCC m ( &tau; ) = &Integral; - &infin; + &infin; S X 1 X 2 m ( &omega; ) e - j&omega;t d&omega;
其中,e-jwt表示一系列不同频率的正弦序列,j是虚部符号,ω是数字频率,t为时间。
图7为计算机仿真得到的互相关函数示意图。
④得到互相关函数后,通过反傅里叶变换得到互相关函数的峰值,即得到给定两个传声器接收信号的时延估计值,进而求出声源的方位信息。
4.引导视频监控装置动作
根据步骤(3)得到的定位结果执行相应的操作:由监控中心主机产生语音报警信号提示值班人员,同时向智能终端控制器发送控制命令,根据定位结果得到的位置数据引导摄像机转向异常事件发生方位,由智能终端控制器来控制现场警示设备产生警示。

Claims (2)

1.一种公共场所异常声音的识别与定位方法,所述本方法首先对公共场所获取的声音信号进行分析,确定在该区域是否存在异常声音,从而判别是否有异常事件发生;如果有异常事件发生,则快速确定异常事件发生的方向和位置,为视频监控系统提供快速、准确的方位信息;所述方法分为异常声音识别方法和异常声音定位方法两部分,其特征在于:所述异常声音识别方法为:
(1)首先是判定是否存在异常声音;
(2)然后将异常声音的特征时序信号转换为时频域的谱图,通过独立成分分析(ICA)、稀疏表示分类(SRC)图像处理方法对异常声音谱图进行分类识别,具体步骤如下:
①对异常声音的时序信号进行短时傅里叶变换:使用汉明窗作为滑动窗,傅里叶变换的长度为2Nf点,这样每一帧的信号都可以得到长度为Nf的频谱,其声压值为:
PdB=20×log10x(1:Nf)
式中,x为一帧信号的频谱值,PdB表示其声压值;
将异常声音的时频表达沿频率轴切分成Nb个图像块,将每个异常声音样本的图像块通过列堆栈转换为向量,并把所有样本得到的向量合并成为矩阵X∈RM×N,其中M是样本声谱图的大小,N表示声音样本的数量;
②将训练样本X作为独立成分分析的输入矩阵,得到分离矩阵W,然后将X投影到W张成的子空间构成稀疏分解的冗余字典A;
③将系统检测到的异常声音信号经过步骤①的声谱图转换后向W张成的子空间投影得到y,可以由冗余字典A中原子线性表示,异常声音信号的稀疏描述为:
x ^ 1 = arg min | | x | | 1  subject to Ax=y
计算残差得到异常声音信号的类别结果:i=1,2,···,j。
上式中y为待检测信号转换后投影到子空间的表示,
Figure FDA00003076895600013
表示优化问题的解中第i个样本的系数,而
Figure FDA00003076895600027
则表示由其重建的特征
Figure FDA00003076895600022
则ri表示原信号与重建新号的差距,显然,y与
Figure FDA00003076895600023
的差距越小,i与待识别样本就越接近,则可得到判定结果;
所述公共场所异常声音定位方法为:根据公共场所异常声音的特点对原始声音信号进行非线性变换,然后对传统的时延估计方法中的HB加权函数进行改进,使其适用于公共场所噪声环境下异常声音定位的要求,其步骤如下:
设两个有间隔的传声器m1和m2接收到的信号x1(n)、x2(n)为:
x 1 ( n ) = a 1 s ( n ) + b 1 ( n ) x 2 ( n ) = a 2 s ( n - &tau; 12 ) + b 2 ( n )
其中,s(n)表示异常声音信号,a1、a2表示声波传播衰减因子(ai<1,i=1,2),τ12是传声器m2相对于m1接收信号的时间延迟,b1(n)和b2(n)为环境噪声,即加性噪声;
①用非线性变换对接收信号x1(n)和x2(n)作预处理,即对给定的两路传声器接收信号x1(n)和x2(n)作反正切变换,以抑制分数低阶α分布噪声中的脉冲部分:
r 1 ( n ) = &psi; [ x 1 ( n ) ] = arctan [ kx 1 ( n ) ] r 2 ( n ) = &psi; [ x 2 ( n ) ] = arctan [ kx 2 ( n ) ]
式中,arctan[·]为反正切函数,k为控制非线性变换程度的参数,k>0,k值根据α值与信噪比的不同而变化,r1(n)和r2(n)为两个输入信号经过反正切变换得到的结果;
②计算信号的自功率谱函数ΦX1X1、ΦX2X2,及互功率谱函数ΦX1X2;HB加权函数表示如下:
H12(ω)=|ΦX1X2|/ΦX1X1ΦX2X2
将HB加权函数取λ次方得到新的HB加权函数
Figure FDA00003076895600026
根据数据帧不同的信噪比调整新的HB加权的比重,其中0.5≤λ≤1,λ随信噪比的改变而变化,σ表示信噪比
H 12 ( &omega; ) * = | &Phi; X 1 X 2 &Phi; X 1 X 1 &Phi; X 2 X 2 | &lambda;
&lambda; = &lambda; 0 &sigma; < &sigma; 0 &lambda; 1 - &lambda; 0 &sigma; 1 - &sigma; 0 ( &sigma; - &sigma; 1 ) + &lambda; 1 &sigma; 0 &le; &sigma; < &sigma; 1 &lambda; 1 &sigma; > &sigma; 1
然后,再通过新的HB加权函数计算得到互功率谱函数如下式:
&Phi; X 1 X 2 * ( &omega; ) = H 12 * ( &omega; ) &Phi; X 1 X 2 ( &omega; )
其中σ0,σ1,λ0和λ1是按实际情况确定的常数,且λ10,σ1≥σ0。σ=30dB时,λ=1;σ=10dB时,λ=0.75;
③对获得的互功率谱函数
Figure FDA00003076895600035
进行累计加权,互相关函数累计函数如下式:
S X 1 X 2 m ( &omega; ) = &Phi; X 1 X 2 * 1 ( &omega; ) m = 1 0.5 ( &Phi; X 1 X 2 * 1 ( &omega; ) + &Phi; X 1 X 2 * 2 ( &omega; ) ) m = 2 ( &Phi; X 1 X 2 * ( m - 2 ) ( &omega; ) + &Phi; X 1 X 2 * ( m - 1 ) ( &omega; ) + &Phi; X 1 X 2 * m ( &omega; ) ) / 3 , m = 3
其中,m为帧数;
对互相关函数累计函数
Figure FDA000030768956000310
求反傅里叶变换,得到互相关函数值
Figure FDA00003076895600037
如下式:
R GCC m ( &tau; ) = &Integral; - &infin; + &infin; S X 1 X 2 m ( &omega; ) e - j&omega;t d&omega;
其中,e-jwt表示一系列不同频率的正弦序列,j是虚部符号,ω是数字频率,t为时间;
④得到互相关函数
Figure FDA00003076895600039
的峰值,即给定两个传声器接收信号的时延估计值,进而可求出声音的方位信息。
2.根据权利要求1所述的公共场所异常声音的识别与定位方法,其特征在于:所述判定是否存在异常声音的方法为:采用双阈值算法门限检测到疑似异常声音片段,用加窗平均周期方法(Welch)来估计信号的功率谱密度,将功率谱密度在3875-4250Hz范围内的变化率与预先设定的阈值比较,从而判定是否存在异常。
CN2011104448507A 2011-12-27 2011-12-27 一种公共场所异常声音的识别与定位方法 Active CN102522082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104448507A CN102522082B (zh) 2011-12-27 2011-12-27 一种公共场所异常声音的识别与定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104448507A CN102522082B (zh) 2011-12-27 2011-12-27 一种公共场所异常声音的识别与定位方法

Publications (2)

Publication Number Publication Date
CN102522082A CN102522082A (zh) 2012-06-27
CN102522082B true CN102522082B (zh) 2013-07-10

Family

ID=46292979

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104448507A Active CN102522082B (zh) 2011-12-27 2011-12-27 一种公共场所异常声音的识别与定位方法

Country Status (1)

Country Link
CN (1) CN102522082B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI586183B (zh) * 2015-10-01 2017-06-01 Mitsubishi Electric Corp An audio signal processing device, a sound processing method, a monitoring device, and a monitoring method
TWI595793B (zh) * 2015-06-25 2017-08-11 宏達國際電子股份有限公司 聲音處理裝置及方法
TWI595792B (zh) * 2015-01-12 2017-08-11 芋頭科技(杭州)有限公司 多聲道的數位麥克風
US10228445B2 (en) 2016-03-30 2019-03-12 International Business Machines Corporation Signal propagating positioning system

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103730109B (zh) * 2014-01-14 2016-02-03 重庆大学 一种公共场所异常声音特征提取方法
CN104954543A (zh) * 2014-03-31 2015-09-30 小米科技有限责任公司 自动报警方法、装置及移动终端
EP3140831B1 (en) * 2014-05-08 2018-07-11 Telefonaktiebolaget LM Ericsson (publ) Audio signal discriminator and coder
CN104076404B (zh) * 2014-07-02 2016-10-19 中国科学院电子学研究所 运用多通道相干抑制地磁背景噪声的磁异常探测方法
KR20160044363A (ko) * 2014-10-15 2016-04-25 현대자동차주식회사 음향 신호 처리를 이용한 경적 인식 장치 및 방법
CN104538041B (zh) * 2014-12-11 2018-07-03 深圳市智美达科技有限公司 异常声音检测方法及系统
CN105810213A (zh) * 2014-12-30 2016-07-27 浙江大华技术股份有限公司 一种典型异常声音检测方法及装置
CN104616664B (zh) * 2015-02-02 2017-08-25 合肥工业大学 一种基于声谱图显著性检测的音频识别方法
CN104882144B (zh) * 2015-05-06 2018-10-30 福州大学 基于声谱图双特征的动物声音识别方法
CN105118511A (zh) * 2015-07-31 2015-12-02 国网电力科学研究院武汉南瑞有限责任公司 一种雷声识别方法
CN105118522B (zh) * 2015-08-27 2021-02-12 广州市百果园网络科技有限公司 噪声检测方法及装置
CN105424170B (zh) * 2015-11-03 2018-07-06 中国人民解放军国防科学技术大学 一种枪声探测计数方法及系统
CN105609099A (zh) * 2015-12-25 2016-05-25 重庆邮电大学 基于人耳听觉特性的语音识别预处理方法
CN105679313A (zh) * 2016-04-15 2016-06-15 福建新恒通智能科技有限公司 一种音频识别报警系统及方法
CA3026624A1 (en) * 2016-06-08 2017-12-14 Exxonmobil Research And Engineering Company Automatic visual and acoustic analytics for event detection
CN106228979B (zh) * 2016-08-16 2020-01-10 重庆大学 一种公共场所异常声音特征提取及识别方法
CN106328120B (zh) * 2016-08-17 2020-01-10 重庆大学 公共场所异常声音特征提取方法
CN106382981B (zh) * 2016-08-26 2018-12-25 中国地震局地壳应力研究所 一种单站次声波信号识别提取方法
CN108073856A (zh) * 2016-11-14 2018-05-25 华为技术有限公司 噪音信号的识别方法及装置
WO2018188287A1 (zh) * 2017-04-11 2018-10-18 广东美的制冷设备有限公司 一种语音控制方法、装置及家电设备
CN107123421A (zh) * 2017-04-11 2017-09-01 广东美的制冷设备有限公司 语音控制方法、装置及家电设备
CN107086036A (zh) * 2017-04-19 2017-08-22 杭州派尼澳电子科技有限公司 一种高速公路隧道安全监控方法
CN107393555B (zh) * 2017-07-14 2020-08-18 西安交通大学 一种低信噪比异常声音信号的检测系统及检测方法
CN107742517A (zh) * 2017-10-10 2018-02-27 广东中星电子有限公司 一种对异常声音的检测方法及装置
CN108198568B (zh) * 2017-12-26 2020-10-16 太原理工大学 一种多声源定位的方法及系统
CN109031203A (zh) * 2018-06-25 2018-12-18 大连大学 混响房间内分布式麦克风阵列多声源定位的恢复块稀疏信号的算法
CN109473112B (zh) * 2018-10-16 2021-10-26 中国电子科技集团公司第三研究所 一种脉冲声纹识别方法、装置、电子设备及存储介质
CN109490833B (zh) * 2018-10-30 2022-11-15 重庆大学 一种改进型传播矩阵的gcc逆模型快速声源识别方法
CN109660755A (zh) * 2018-11-13 2019-04-19 苏州网信信息科技股份有限公司 应用于景区布控网系统的实时监控方法
CN109493579A (zh) * 2018-12-28 2019-03-19 赵俊瑞 一种公共突发事件自动报警监控系统及方法
CN109887515B (zh) * 2019-01-29 2021-07-09 北京市商汤科技开发有限公司 音频处理方法及装置、电子设备和存储介质
CN110070882B (zh) * 2019-04-12 2021-05-11 腾讯科技(深圳)有限公司 语音分离方法、语音识别方法及电子设备
CN110110796B (zh) * 2019-05-13 2020-12-18 哈尔滨工程大学 一种基于深度学习的海上船舶时序数据的分析方法
CN110135359A (zh) * 2019-05-17 2019-08-16 深圳市熠摄科技有限公司 一种基于声源定位的监控视频评估行为分析处理方法
CN110189769B (zh) * 2019-05-23 2021-11-19 复钧智能科技(苏州)有限公司 基于多个卷积神经网络模型结合的异常声音检测方法
CN110221250A (zh) * 2019-06-27 2019-09-10 中国科学院西安光学精密机械研究所 一种异常声音定位方法及定位装置
CN110764054A (zh) * 2019-09-29 2020-02-07 福州外语外贸学院 一种紧急声音方位辨识方法及装置
CN111207305A (zh) * 2020-02-25 2020-05-29 上海电机学院 用于锅炉管道泄漏点定位的信号时延估值方法
CN112188427A (zh) * 2020-08-19 2021-01-05 天津大学 一种公共场所群体异常事件物联传感系统和方法
CN112072650A (zh) * 2020-09-02 2020-12-11 深圳大学 一种电力系统功率振荡路径识别方法、系统及存储介质
CN112331208A (zh) * 2020-09-30 2021-02-05 音数汇元(上海)智能科技有限公司 人身安全监控方法、装置、电子设备和存储介质
CN112526587B (zh) * 2020-11-09 2023-05-30 上海建工集团股份有限公司 混凝土泵送管道安全状态识别方法及设备
CN113393857A (zh) * 2021-06-10 2021-09-14 腾讯音乐娱乐科技(深圳)有限公司 一种音乐信号的人声消除方法、设备及介质
CN115662460B (zh) * 2022-12-29 2023-03-31 杭州兆华电子股份有限公司 一种工业设备的异常音提取方法
CN117688371B (zh) * 2024-02-04 2024-04-19 安徽至博光电科技股份有限公司 一种二次联合广义互相关时延估计方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003346256A (ja) * 2002-05-29 2003-12-05 Soriton Syst:Kk 異常事態の認識とその解決方法
CN102148032A (zh) * 2010-12-03 2011-08-10 北京声迅电子有限公司 应用于atm机的异常声音检测方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3713860B2 (ja) * 1996-12-20 2005-11-09 石川島播磨重工業株式会社 コンベア異常検出方法及びその装置
US7825813B2 (en) * 2006-07-25 2010-11-02 Intelehealth, Inc Identifying activity in an area utilizing sound detection and comparison
JP2009008823A (ja) * 2007-06-27 2009-01-15 Fujitsu Ltd 音響認識装置、音響認識方法、及び、音響認識プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003346256A (ja) * 2002-05-29 2003-12-05 Soriton Syst:Kk 異常事態の認識とその解決方法
CN102148032A (zh) * 2010-12-03 2011-08-10 北京声迅电子有限公司 应用于atm机的异常声音检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
智能监控系统中公共场所异常声音检测的研究;栾少文;《中国优秀硕士学位论文全文数据库》;20091010;全文 *
栾少文.智能监控系统中公共场所异常声音检测的研究.《中国优秀硕士学位论文全文数据库》.2009,全文.

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI595792B (zh) * 2015-01-12 2017-08-11 芋頭科技(杭州)有限公司 多聲道的數位麥克風
TWI595793B (zh) * 2015-06-25 2017-08-11 宏達國際電子股份有限公司 聲音處理裝置及方法
TWI586183B (zh) * 2015-10-01 2017-06-01 Mitsubishi Electric Corp An audio signal processing device, a sound processing method, a monitoring device, and a monitoring method
US10228445B2 (en) 2016-03-30 2019-03-12 International Business Machines Corporation Signal propagating positioning system

Also Published As

Publication number Publication date
CN102522082A (zh) 2012-06-27

Similar Documents

Publication Publication Date Title
CN102522082B (zh) 一种公共场所异常声音的识别与定位方法
Sakashita et al. Acoustic scene classification by ensemble of spectrograms based on adaptive temporal divisions
CN102163427B (zh) 一种基于环境模型的音频异常事件检测方法
Schädler et al. Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition
US9240191B2 (en) Frame based audio signal classification
CN104008751A (zh) 一种基于bp神经网络的说话人识别方法
Venter et al. Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings
Talmon et al. Single-channel transient interference suppression with diffusion maps
CN101320566A (zh) 基于多带谱减法的非空气传导语音增强方法
Avanzato et al. A convolutional neural networks approach to audio classification for rainfall estimation
Stern et al. Features based on auditory physiology and perception
Khoa Noise robust voice activity detection
Chuangsuwanich et al. Robust Voice Activity Detector for Real World Applications Using Harmonicity and Modulation Frequency.
Yousefi et al. Assessing speaker engagement in 2-person debates: Overlap detection in United States Presidential debates.
Youssef et al. Towards a systematic study of binaural cues
He et al. Stress detection using speech spectrograms and sigma-pi neuron units
Varela et al. Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector
Marchi et al. Audio onset detection: A wavelet packet based approach with recurrent neural networks
Sezgin et al. A novel perceptual feature set for audio emotion recognition
Madikeri et al. Filterbank slope based features for speaker diarization
Papadopoulos et al. Global SNR Estimation of Speech Signals for Unknown Noise Conditions Using Noise Adapted Non-Linear Regression.
Venkatesan et al. Deep recurrent neural networks based binaural speech segregation for the selection of closest target of interest
CN111968671B (zh) 基于多维特征空间的低空声目标综合识别方法及装置
Uzkent et al. Pitch-range based feature extraction for audio surveillance systems
Missaoui et al. Gabor filterbank features for robust speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210511

Address after: 200333 room 5081, 5th floor, No.5 Lane 600, Yunling West Road, Putuo District, Shanghai

Patentee after: Shanghai Lisha Technology Co.,Ltd.

Address before: 400030 No. 174 Sha Jie street, Shapingba District, Chongqing

Patentee before: Chongqing University

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230621

Address after: 214000, Building 1, Building 599-5, Jianzhu West Road, Wuxi City, Jiangsu Province, China, 313-314

Patentee after: Wuxi Lisha Artificial Intelligence Technology Co.,Ltd.

Address before: 200333 room 5081, 5th floor, No.5 Lane 600, Yunling West Road, Putuo District, Shanghai

Patentee before: Shanghai Lisha Technology Co.,Ltd.