CN102419972A

CN102419972A - 一种声音信号检测和识别的方法

Info

Publication number: CN102419972A
Application number: CN2011103831022A
Authority: CN
Inventors: 冯祖仁; 程欣; 贠光梅; 高紫晨; 刘振; 郭文涛
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2011-11-28
Filing date: 2011-11-28
Publication date: 2012-04-18
Anticipated expiration: 2031-11-28
Also published as: CN102419972B

Abstract

本发明涉及一种声音信号检测和识别的方法，公开了一种主要基于声音特征化表达、背景抑制算法、信号检出和数据融合这四个过程的声音检测和识别方法。其中声音信号特征化表达的方法是基于声音频谱能量和分布进行计算的；背景抑制算法，是根据声音的相似度加权值对声音的频域进行滤波进行计算的；信号检出是通过对能量归一化的数据与抑制后数据求差来进行计算的；最后，数据融合是通过变参数加权的方式一方面避免因分帧造成的延时效应从而保证即时性，另一方面抵消非平稳背景的干扰，从而提高鲁棒性。该声音信号检测和识别方法识别精度高，能够有效的避免背景干扰的影响，即便在极低的信噪比情况下亦可以达到满意的检测和识别结果。

Description

一种声音信号检测和识别的方法

技术领域：

本发明涉及一种声音的检测和识别方法，特别涉及一种能够对弱声音信号的检测和识别也特别有效的基于声音信号的特征化表达、背景抑制处理、信号检出和数据融合的声音信号检测和识别方法。

背景技术：

声音检测和识别技术在国防，安全监控，人机交互等领域均有着广泛的应用，特别是由于声音的检测和识别的方法相对于图像的检测与识别方法，机动灵活且不易受到自然条件的影响，近年来吸引了越来越多研究者的注意。成为当前计算机声音处理领域中的研究热点之

在计算机声音处理领域，目前常用的数学分析工具有短时傅里叶变换、小波变换、小波包变换等。通过这些数学分析工具，我们可以对声音信号进行详细的时频域分析，比如在对声音信号进行时域分析时，可以获得声音信号的过零率、振幅、周期、能量等信息；进行频域分析时可以获得声音信号的频谱分布、基频频率、各次谐波频率，Mel倒频谱系数等信息。通过对这些声音信号进行时频谱分析，可以检测出声音信号中所包含的有用信息。其中，短时傅里叶变换通过选择不同的窗函数可以反映出不同时变信号局部的时域和频域的综合信息，而小波变换则是法国从事石油信号处理的工程师J.Morlet在1974年首先提出的一种变换方法，它与傅里叶变换等变换相比，是一个时间和频率的局网域变换，因而能有效的从信号中提取资讯，它可以通过伸缩和平移等运算功能对函数或信号进行多尺度细化分析，解决傅里叶变换不能解决的许多困难问题，因而小波变化被誉为“数学显微镜”，它是调和分析发展史上里程碑式的进展。它的正交性和多分辨分析性已经成功应用于很多领域，特别在声音信号处理领域，小波变换的的多分辨分析性已经被广泛地利用作由粗到精的逐步观察声音信号。诸多学者在这一领域进行了大量的研究，例如：马宁等人用短时傅里叶变换及小波变换理论分析了强噪声背景下雷达弱信号检测方法，利用小波变换的“变焦特性”能够有效地从强噪声背景中检测到弱信号，从而将目标从噪声中检测出来。徐岩等人采用从强噪声中提取话音信号的自适应噪声抵消技术入手，对最小均方误差的性能进行了分析，针对其收敛速度慢、提取信号频带窄的缺点，提出了改进的有动量因子的自适应最小均方误差算法，对解决弱信号提取问题有一定效果。童宁宁等人分析了小波包变换的良好时频分析特性，根据信号与噪声具有不同的Lipschitz指数，通过引入子频带∞-范数，对信号和噪声进行频谱分析，将最佳子空间的熵值及最佳子空间在完整二叉树中的位置参数作为特征量，并应用浮动阈值去噪方法，解决了低信噪比情况下的弱信号检测问题。通过计算机的数值计算，模拟了浮动阈值去噪法基于小波包变换和小波变换的强噪声背景下的弱信号检测，从仿真的波形图中得出在低信噪比情况下的弱信号检测方面小波包变换优于小波变换。

在当前声音检测和识别领域中，广泛应用的理论和方法是基于统计学中假设检验的似然比检验。但是由于在实际应用中对人类有用的信息往往被淹没在强的背景声音干扰中，人类采集到数据信号一般是非平稳的，并且只有很低的信干比(信噪比)。而当传统的信号检测与识别方法在碰到信干比(信噪比)很低或非白噪声干扰或非平稳干扰声音(噪声)的时候，系统的检测性能会急剧下降，很难获得较高的检测率。

发明内容：

为了解决上述声音检测和识别领域中的问题，从而在更低的信噪比条件下和更加复杂的信号环境下也能有效地进行声音信号的检测和识别，发明人利用目前热门的信号处理理论进行信号检测方面的研究，提出了一种基于声音时频域变换的声音检测算法，能够克服当前统计学中假设检验似然比检验方法的固有缺陷，提供一套有效的系统的实时声音信号检测和识别算法。

本发明采用的技术方案如下：

一种声音信号检测和识别的方法，包括以下步骤：

步骤一，预处理过程：首先利用目标声音的特征化表达方式将目标声音制作成目标模板{Q_u}；接着将实时获取的原始声音信号进行分帧，每一定长度的数据分成一帧，每帧之间重叠一定的长度；同时初始化计数器i为零，初始化最终检测和识别量化结果{R_i|i＝1，2，…LENGTH}的每个元素为零，初始化加权系数{α_i|i＝1，2，…M}的所有元素为零；

步骤二，帧数据的特征化：通过分帧后原始声音的特征化表达方式计算第i帧数据的特征向量{S_u}；

步骤三，基于背景抑制的处理方式：将步骤一和步骤二得到的目标模板{Q_u}和第i帧数据的特征向量{S_u}通过基于背景抑制的方法进行处理，以抑制第i帧数据中的背景噪音和干扰部分，从而得到处理结果序列；

步骤四，信号检出的过程：利用信号检出的方法对步骤三得到的处理结果序列进行信号检出，以进一步抑制背景噪声或干扰并同时补偿由于原始信号非平稳而造成的影响，从而得到检出结果序列

{d_{x}^{i} | x = 1,2, . . ., M};

步骤五，数据融合：利用数据融合的方法对检出结果序列进行加权处理，依据每一帧的数据结果和检测的即时性，从而得到一个用于判断最终结果的统一的相似度量化序列R；

步骤六，遍历每帧数据：首先判断当前相似度量化序列R中是否有元素大于阈值T，如果是则输出该元素的位置；然后更新计数器

并且重复上面步骤二到步骤六，直至遍历所有帧数据。

通过以上的六个步骤后的算法输出结果就是从原始声音中检测和识别到的目标声音发生的位置。

本发明通过上述6个重要方面对声音信号进行处理，从而得到一个最终的相似度统一量化序列，该相似度统一量化序列中的每一个元素的值与在该元素位置上发生了原始声音包含目标声音这个事件的概率成正比。我们最后通过阈值的方法对该相似度量化序列进行滤波处理，从而检测和识别该原始声音中是否有目标声音发生，并且定位该目标声音出现的位置(即发生时间)。

附图说明：

图1是小波包变换示意图；

图2是13层小波包变换以及时频域矩阵示意图；

图3是步骤六得到的检测与和识别结果{α_j}

图4是一种数据融合的方法中系数{α_j}的变换示意图。

具体实施方式：

下面结合附图对本发明做进一步详细描述：

参见图1-4，本发明欲解决的问题可以举出如下一个例子说明，即就是从一段有着强的环境干扰声音或噪声的原始声音中，检测其中是否有目标声音发生，并且定位该目标声音出现的位置(即发生时间)。

本发明的方法将通过如下文提到的技术部分予以实现。

1目标声音的特征化表达方式。其目的是将目标声音通过该方法制作成特征模板以供后面的检测和识别过程使用。

2原始声音的分帧处理。其目的是将待检测和识别的原始声音信号数据分割成为若干具有一定相互重叠的以帧为单位的数据。

3帧信号的特征化表达方式。其目的是从帧数据中提取有用的特征序列。本方法与上文提到大目标声音的特征化表达方式非常相似，都是利用相同的声音的特征化表达方法来计算该帧数据的特征序列，并将得到的特征序列提供给后面的算法使用。

4基于背景抑制的信号处理方式。其目的是利用前面计算得到的目标声音特征模板和原始声音特征序列，使用本处理方法抑制原始声音中的背景干扰信号分量并增强其中的目标声音分量。

5一种信号检出方式。其目的是进一步增强背景抑制的效果，并兼顾考虑前后帧之间的影响。

6一种数据融合方式。其目的是在信号检出结果的基础上，进一步增加算法的鲁棒性并同时保证算法的即时检测效率。

(1)目标声音的特征化表达方式

对于目标声音信号来说，其特征化表达方法亦称为目标信号的模板化。

由于声音信号的频谱中包含有大量的信息，所以根据不同的频谱可以区分不同的声音信号。特别是声音信号的局部时频能量

反映了原信号在该频率范围内某时段的振动能量大小，对于上文中提到的具有强烈能量特征的非平稳声音信号检测和识别具有非常重要的意义。

考虑到为了增加模板的鲁棒性和降低模板对于数据初始位置的敏感性，我们首先通过滑动窗口的方法将目标声音信号分成若干组滑动窗结果。具体来说就是用一个大小为目标信号长度(LEN)减去一定长度(len)的矩形窗(长度为LEN-len+1)依次向后位移一个数据的方法，将原本1个长度为LEN的目标声音信号滤波为len个长度为LEN-len+1的窗口目标信号。

接着，通过利用N层小波包变换的方法依次将每一个窗口目标信号从时域转换到时频局域，从而得到len个窗口信号的时频域矩阵。我们记第i个窗口信号的时频域矩阵为

其中U＝2^N(下同)。注，本方法的N层小波包变换与目标声音模板化方法中提到的N层小波包变换相同。

然后按照如下公式一对该矩阵的每行求平方和，从而得到声音信号的第i个窗口信号的特征向量

[\begin{matrix} Q_{1}^{i} \\ Q_{2}^{i} \\ . \\ . \\ . \\ Q_{U}^{i} \end{matrix}] = [\begin{matrix} Σ_{v = 1}^{V} {A_{1, v}^{i}}^{2} \\ Σ_{v = 1}^{V} {A_{2, v}^{i}}^{2} \\ . \\ . \\ . \\ Σ_{v = 1}^{V} {A_{U, v}^{i}}^{2} \end{matrix}]

(公式一)

最后，按下公式对所有窗口的特征序列进行均值滤波求其平均值{Q_u|u＝1，2，…，U}作为目标声音信号的特征化表达结果。

Q = [\begin{matrix} Q_{1} \\ Q_{2} \\ . \\ . \\ . \\ Q_{U} \end{matrix}] = \frac{1}{\max (i)} [\begin{matrix} Σ_{i = 1}^{\max (i)} Q_{1}^{i} \\ Σ_{i = 1}^{\max (i)} Q_{2}^{i} \\ . \\ . \\ . \\ Σ_{i = 1}^{\max (i)} Q_{U}^{i} \end{matrix}]

(公式二)

(2)原始声音信号的分帧化处理

由于原始信号的时间较长，需要将原始信号进行分帧处理。

根据经验，我们可以将原始声音数据按照24秒的时间长度为分成帧数据，每段帧数据之间重叠23秒，即相当于让每帧对应位置的数据之间相互偏移采样率Fz个数据，其中采样率Fz是取决于声音格式的硬件常数，通常是22050。

整个分帧化处理相当于将原始声音数据{OrigData_i|i＝1，2，…，Fz·Time}序列转化成为若干帧数据{Frame_i，j|i＝1，2，…Fz·24s，j＝1，2，…}的矩阵。

(3)分帧后原始声音信号的特征化表达方式

分帧后原始声音信号的特征化表达方式与目标声音信号的特征化表达方式略有不同。由于原始信号的分帧的过程已经提高了原始声音数据的鲁棒性，所以分帧后原始信号的特征化表达方式就不需要使用在目标声音模板化时使用的滑动窗口滤波的方法了。

具体的来说就是首先对每一帧的原始声音时域数据通过N层小波包变换计算该第i帧声音数据的时频域矩阵

{A_{u, t}^{i} | (u = 1,2, . . . U; v = 1,2, . . .)} .

然后按照如下公式三对该矩阵运算求该时频域矩阵每行数据的平方和，从而得到该帧数据的特征化表达向量

S^{i} = [\begin{matrix} S_{1}^{i} \\ S_{2}^{i} \\ . \\ . \\ . \\ S_{U}^{i} \end{matrix}] = [\begin{matrix} Σ_{v = 1}^{V} {A_{1, v}^{i}}^{2} \\ Σ_{v = 1}^{V} {A_{2, v}^{i}}^{2} \\ . \\ . \\ . \\ Σ_{v = 1}^{V} {A_{U, v}^{i}}^{2} \end{matrix}]

(公式三)

(4)一种基于背景抑制的处理方式

该基于背景抑制的信号处理过程目的是对一帧声音数据进行基于背景抑制的信号处理，从而使得该帧声音数据中与目标信号差异较大的背景干扰信号分量减小，同时使与目标信号相似的声音分量增大。算法需要的输入是目标信号模板数据和该帧数据的特征化表达向量，算法的输出则是经过背景抑制后信号一维时域数据。具体包括如下步骤：

a.计算相似度加权值：即根据目标信号模板的特征矩阵{Q_u}的元素Q_u和该帧声音信号的特征矩阵

的对应元素

按照如下公式四计算该帧声音的相似度加权值

Φ_{u}^{i} = \frac{Q_{u}}{S_{u}^{i}}, u = 1,2, . . . U

(公式四)

其中Q_u表示目标模板向量中的第u个特征值，而表示该帧声音特征化表达的第u个特征值。

b.进行基于背景抑制的加权处理：即根据相似度权值Φⁱ对该帧声音片段的时频域矩阵按照如下公式加权，得到加权结果矩阵

(公式五)

c.重构时频结果到时域：即通过用N层反小波包变换将加权结果矩阵

重构为一维时域数据，从而得到第i帧数据的经过背景抑制处理过程的结果。

(5)一种信号检出方式

虽然将一帧的数据经过了基于背景抑制的处理过程后，我们得到了一组与经过分帧后的原始声音信号等长度的数据结果，该结果已经初步的将背景与信号进行分离。我们需要近一步增强算法的检测效果。

通过大量的实验后我们发现，通过将原始数据与经过背景抑制处理后的数据求差的方式可以得到最佳的信号检出效果。但是，但是考虑到背景干扰声音是非平稳的，所以在求差之前，应当首先对原始数据进行能量归一化处理，即保证所有用来求差的一帧原始数据的平方和为某一给定常数C。同样的，对背景抑制处理后的数据也进行同样的能量归一化处理，亦保证所有一帧数据的平方和为某一给定常数C。最后再对两帧对应的数据求差从而得到信号的检出结果

其中M表示一帧数据的长度(下同)。

由于

的值代表了该帧声音与目标声音的相似程度，所以

中最大值所在位置的那部分声音段就是该帧声音中与目标声音特征最为接近的声音段。

(6)一种数据融合方式

一种数据融合的方法，它的目的是能够综合考虑所有帧的信号检出结果提高检测正确率并同时确保能在第一时间检测到结果，即保证算法具有高效的检测即时性。方法是通过变加权的方式将所有帧的信号检出结果加权融合成为统一的一个原始声音的相似度量化序列{R_x}。

由于在将任意第i帧声音的检出结果

向{R_x}叠加的时候采用位移叠加的方式，产生了{R_x}中每个元素所在位置被叠加的次数是不相同的问题。所以我们需要用一组权系数抵消因为叠加次数不相同导致的结果不准确和检测迟滞的效应。

具体的方法为，首先初始化相似度量化序列{R_j|j＝1，2，…LENGTH}的每个元素均为零，其中LENGTH等于原始声音的数据长度。初始加权系数{α_j|j＝1，2，…M+Fz}的每个元素为零，其中M表示一帧的数据长度，Fz表示帧与帧之间的对应数据的间隔。

其次遍历所有帧的信号检出结果：对第i帧数据的检出结果

按如下公式进行加权，从而更新相似度量化序列{R_x}。其中Fz是常数，等于帧与帧的对应数据之间的偏移量。

(公式六)

在遍历的过程中，每次更新相似度量化序列{R_j}之后，都应当按照下面公式六不断地更新加权系数α_j：

(公式七)

公式七{α_j}的变换示意图见附图4。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施方式仅限于此，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单的推演或替换，都应当视为属于本发明由所提交的权利要求书确定专利保护范围。

Claims

1.一种声音信号检测和识别的方法，其特征在于，包括以下步骤：

步骤一，预处理过程：首先利用目标声音的特征化表达方式将目标声音制作成目标模板{Q_u|u＝1，2，…}；接着将实时获取的原始声音信号进行分帧，每一定长度的数据分成一帧，每帧之间重叠一定的长度；同时初始化计数器i为零，初始化最终检测和识别量化结果{R_i|i＝1，2，…LENGTH}的每个元素为零，初始化加权系数{α_i|i＝1，2，…M}的所有元素为零；其中LENGTH表示该待检测声音的数据长度。M表示一帧数据的长度。

步骤二，帧数据的特征化：通过分帧后原始声音的特征化表达方式计算第i帧数据的特征向量{S_u|u＝1，2，…}；

{d_{x}^{i} | x = 1,2, . . . M};

步骤五，数据融合：利用数据融合的方法对检出结果序列

进行加权处理，依据每一帧的数据结果和检测的即时性，从而得到一个用于判断最终结果的统一的相似度量化序列{R_u|u＝1，2，…}；

步骤六，遍历每帧数据：首先判断当前相似度量化序列{R_u}中是否有元素大于某一预先设定的阈值T，如果是则输出该元素的位置；然后更新计数器

并且重复上面步骤二到步骤六，直至遍历所有帧数据；