CN103325388A

CN103325388A - 基于最小能量小波框架的静音检测方法

Info

Publication number: CN103325388A
Application number: CN2013102001625A
Authority: CN
Inventors: 谢映海; 王健
Original assignee: Guangzhou Haige Communication Group Inc Co
Current assignee: Guangzhou Haige Communication Group Inc Co
Priority date: 2013-05-24
Filing date: 2013-05-24
Publication date: 2013-09-25
Anticipated expiration: 2033-05-24
Also published as: CN103325388B

Abstract

本发明公开了一种基于最小能量小波框架的静音检测方法，包括以下步骤：1)对受加性高斯白噪声污染的模拟语音信号进行抽样，得到数字语音抽样信号；2)在一个离散信号空间上，采用最小能量小波框架把数字语音抽样信号分解成多个子信号；3)对步骤2)分解的每个子信号同时进行分帧处理，分别计算每个子信号同一时间轴上的一帧的能量大小并进行相加，然后计算出VAD判决变量的具体数值；4)采用判决器对VAD判决变量的具体数值进行判决，得到三段式判决门限的初步判决结果，再采用判决结果平滑算法，得到最终VAD判决结果，从而判断信号中的语音信号静默区和语音信号活动区。本发明具有低计算复杂度、自适应性强、VAD效果准确率高和硬件代价低的特点。

Description

基于最小能量小波框架的静音检测方法

技术领域

本发明涉及一种静音检测方法，尤其是一种基于最小能量小波框架的静音检测方法，属于数字语音信号处理技术领域。

背景技术

静音检测(VAD)技术，是数字语音信号处理的一项重要技术，它通过采用各种算法检测出会话中的静默时间段和活动时间段，并根据检测结果对这两种信号采用不同的处理措施，从而提高语音信号处理的整体效果。

检测准确率是VAD算法的重要性能指标，保守的VAD算法会引入过多的纯噪声信号，激进的VAD算法则会损失部分语音信号；另外算法计算复杂度和实现代价也是考虑因素，前者对于手持设备尤其重要，低计算复杂度的算法可以延长电池的工作时间，而后者对于低端产品十分重要，低计算复杂度的算法对硬件的要求较低，可以降低产品成本，提高市场竞争力。传统的一些静音检测技术，如基于频域能量特征或基于谱熵的检测技术等，虽然检测准确率较高，但算法的计算复杂度较高，极大限制了相关技术的使用范围。

小波理论目前在语音信号处理领域有着广泛的应用，特别是其中的最小能量小波框架，既保持了单小波的优点，又克服了单小波的缺陷，把正交性、光滑性、紧支性、对称性等完美的结合起来，在很大程度上克服了正交基和双正交基的缺陷，而且具有正交基和双正交基所无法比拟的许多优良性质和良好的应用前景。

发明内容

本发明的目的，是为了解决上述现有技术的缺陷，提供一种具有低计算复杂度、自适应性强、VAD效果准确率高和硬件代价低特点的基于最小能量小波框架的静音检测方法。

本发明的目的可以通过采取如下技术方案达到：

基于最小能量小波框架的静音检测方法，其特征在于包括以下步骤：

1)对受加性高斯白噪声污染的模拟语音信号进行抽样，得到数字语音抽样信号；

2)利用一组最小能量小波框架把步骤1)得到的数字语音抽样信号分解成多个子信号；

3)对步骤2)分解的每个子信号同时进行分帧处理，分别计算每个子信号同一时间轴上的一帧的能量大小并进行相加，然后计算出VAD判决变量的具体数值；

4)采用判决器对VAD判决变量的具体数值进行判决，得到三段式的初步判决结果，再采用判决结果平滑算法，得到最终VAD判决结果，从而判断数字语音抽样信号中的语音信号静默区和语音信号活动区。

作为一种优选方案，所述数字语音抽样信号表示如下：

X_[n]＝S_[n]+U_[n] (1)

其中，S_[n]为纯语音抽样信号，U_[n]为背景噪声抽样信号。

作为一种优选方案，所述步骤2)中，最小能量小波框架由4个子数列组成，具体如下：

p_{[k]} = [\frac{1}{16}, \frac{1}{4}, \frac{3}{8}, \frac{1}{4}, \frac{1}{16}, 0],

{q^{1}}_{[k]} = [0, \frac{1}{16}, - \frac{1}{4}, \frac{3}{8}, - \frac{1}{4}, \frac{1}{16}],

{q^{2}}_{[k]} = [\frac{1}{16}, - \frac{\sqrt{7}}{8}, 0, \frac{\sqrt{7}}{8}, - \frac{1}{16}, 0],

{q^{3}}_{[k]} = [0, \frac{1}{16}, \frac{\sqrt{7}}{8}, 0, - \frac{\sqrt{7}}{8}, - \frac{1}{16}]; - - - (2)

利用小波塔式分解算法对信号X_[n]进行单层分解，分解式如下：

c_{[n]} Σ_{k = 1}^{6} p_{[k]} X_{[2 n - 1 + k]};

d_{[n]}^{1} = Σ_{k = 1}^{6} q_{[k]}^{1} X_{[2 n - 1 + k]};

d_{[n]}^{2} = Σ_{k = 1}^{6} q_{[k]}^{2} X_{[2 n - 1 + k]}; - - - (3)

d_{[n]}^{3} = Σ_{k = 1}^{6} q_{[k]}^{3} X_{[2 n - 1 + k]};

即分解成4个子信号c_[n]、

和

每个子信号的长度为信号X_[n]的一半。

作为一种优选方案，所述步骤3)中，对分解的子信号c_[n]、和

同时进行分帧处理，每帧含λ个样点，即第k帧表示如下：

Fc(k)＝[c_[λ*(k-1)+1]，c_[λ*(k-1)+2]，...，c_{[λ*(k-1)+λ]}]；

Fd1(k)＝[d¹ _[λ*(k-1)+1]，d¹ _[λ*(k-1)+2]，...，d¹ _{[λ*(k-1)+λ]}]；

Fd2(k)＝[d² _[λ*(k-1)+1]，d² _[λ*(k-1)+2]，...，d² _{[λ*(k-1)+λ]}]；

Fd3(k)＝[d³ _[λ*(k-1)+1]，d³ _[λ*(k-1)+2]，...，d³ _{[λ*(k-1)+λ]}]；

分别计算Fc(k)、Fd1(k)、Fd2(k)和Fd3(k)的能量大小，记为：

P_c(k)＝||Fc(k)||²

P_{d^{1}} (k) = {| | Fd 1 (k) | |}^{2}

P_{d^{2}} (k) = {| | FD 2 (k) | |}^{2}

P_{d^{3}} (k) = {| | Fd 3 (k) | |}^{2}

令

P (k) = P_{c} (k) + P_{d^{1}} (k) + P_{d^{2}} (k) + P_{d^{3}} (k) - - - (4)

则针对X_[n]信号的区间[X_2λ*(k-1)+1，...，X_{2λ*(k-1)+2λ}]的VAD初步判决变量的具体数值如下：

D (k) = Θ^{| \frac{P_{c} (k)}{P (k)} - 0.2734 |} + Θ^{| \frac{P_{d^{1}} (k)}{P (k)} - 0.2734 |} + Θ^{| \frac{P_{d^{2}} (k)}{P (k)} - 0.2266 |} + Θ^{| \frac{P_{d^{3}} (k)}{P (k)} - 0.2266 | - - - (5)}

其中k≥1，λ≥128，Θ≥5；参数Θ的最佳值通过测试来设定。

作为一种优选方案，所述步骤4)中，采用判决器对VAD判决变量的具体数值进行判决，得到第k帧的初步判决结果：

G (k) = \{\begin{matrix} 0, D (k) \leq Δ_{1} \\ 1, Δ_{1} < D (k) \leq Δ_{2} \\ 2, D (k) > Δ_{2} \end{matrix} - - - (6)

再采用判决结果平滑算法，得到第k帧的最终VAD判决结果：

GG (k) = \{\begin{matrix} 0, ifG (k - N) + G (k - N + 1) + . . . + G (k) \leq 1 \\ 1, ifG (k - N) + G (k - N + 1) + . . . + G (k) &GreaterEqual; 2 \end{matrix} - - - (7)

其中k≥1，Δ₂＞Δ₁＞0；0表示纯噪声帧，1表示语音帧，阈值Δ₁和Δ₂的最佳值通过测试来设定，N的值根据用途来设定。

本发明相对于现有技术具有如下的有益效果：

1、本发明的检测方法针对受高斯白噪声污染的数字语音信号，在一个离散信号空间上采用最小能量小波框架把数字语音信号进行分解，由于纯噪声区的信号和被噪声污染的语音活动区的信号分解后子信号的能量分布情况将存在明显的差异性，因此提出一种判决变量生成方式，通过三段式的判决门限和判决结果平滑算法，来最终判断信号中的语音信号静默区和语音信号活动区。

2、本发明的检测方法具有低计算复杂度的特点，在时域上进行信号分解，最小能量小波框架子数列的长度都仅为6，仅需要及其少量的实数线性加法和乘法运算即可完成整个静音检测过程(对应长度N的输入信号，计算复杂度仅为O(N)级)。

3、本发明的检测方法自适应性强，整个过程都无需噪声参数更新，算法对噪声的功率变化十分不敏感；VAD效果准确率高，在较低信噪比情况下仍具有较高的检测准确率；硬件代价低，整套算法仅需要极少量的线性加法和乘法运算，无需额外的硬件支持。

附图说明

图1为本发明的静音检测流程图。

图2为语音实验室产生的时间长度为300秒的纯净语音信号示意图。

图3为计算机产生的时间长度为300秒的功率时变的高斯白噪声信号示意图。

图4为语音实验室产生的纯净语音信号和计算机产生的功率时变的高斯白噪声信号混合后的加噪信号示意图。

图5为对加噪信号采用本发明VAD算法的效果示意图。

具体实施方式

实施例1：

本实施例的静音检测方法针对受高斯白噪声污染的数字语音信号，基于如下引理1实现：

引理1如果数列qⁱ _[k]：i＝1，2，...，N生成了离散信号空间上一个和数列p_[k]相联系的最小能量小波框架，则对任意数列c_[j+1，k]，有小波塔式分解算法如下：

c_{[j, l]} = \frac{1}{\sqrt{2}} \underset{k}{Σ} p_{[k - 2 l]} c_{[j + 1, k]}

d_{[j, l]}^{i} = \frac{1}{\sqrt{2}} \underset{k}{Σ} q_{[k - 2 l]}^{i} c_{[j + 1, k]}, (i = 1,2, . . ., N) - - - (8)

其小波塔式重构算法如下：

c_{[j + 1, l]} = \frac{1}{\sqrt{2}} \underset{k}{Σ} {p_{[l - 2 k]} c_{[j, k]} + Σ_{i = 1}^{N} q_{[l - 2 k]}^{i} d_{[j, k]}^{i}} - - - (9)

及满足分解前后的能量不变性等式：

上述式(8)、(9)和(10)，由于可以利用分解公式对数列进行逐层分解，因此数列c_[j+1，k]的下标j+1表示层数，k表示整数轴。

如图1所示，本实施例的静音检测方法包括以下步骤：

1)对受加性高斯白噪声污染的模拟语音信号进行抽样，得到数字语音抽样信号，所述数字语音抽样信号表示如下：

X_[n]＝S_[n]+U_[n] (1)

其中，S_[n]为纯语音抽样信号，U_[n]为背景噪声抽样信号。

2)在一个离散信号空间上采用最小能量小波框架对数字语音抽样信号进行分解，所述最小能量小波框架由4个子数列组成，如下：

p_{[k]} = [\frac{1}{16}, \frac{1}{4}, \frac{3}{8}, \frac{1}{4}, \frac{1}{16}, 0],

{q^{1}}_{[k]} = [0, \frac{1}{16}, - \frac{1}{4}, \frac{3}{8}, - \frac{1}{4}, \frac{1}{16}],

{q^{2}}_{[k]} = [\frac{1}{16}, - \frac{\sqrt{7}}{8}, 0, \frac{\sqrt{7}}{8}, - \frac{1}{16}, 0],

{q^{3}}_{[k]} = [0, \frac{1}{16}, \frac{\sqrt{7}}{8}, 0, - \frac{\sqrt{7}}{8}, - \frac{1}{16}]; - - - (2)

c_{[n]} Σ_{k = 1}^{6} p_{[k]} X_{[2 n - 1 + k]};

d_{[n]}^{1} = Σ_{k = 1}^{6} q_{[k]}^{1} X_{[2 n - 1 + k]};

d_{[n]}^{2} = Σ_{k = 1}^{6} q_{[k]}^{2} X_{[2 n - 1 + k]}; - - - (3)

d_{[n]}^{3} = Σ_{k = 1}^{6} q_{[k]}^{3} X_{[2 n - 1 + k]};

即分解成4个子信号c_[n]、

和

可以看到每个子信号的长度为信号X_[n]的一半，分解前后信号的能量将保持不变。

3)对分解的子信号c_[n]、

和

同时进行分帧处理，每帧含256个样点，即第k帧表示如下：

Fc(k)＝[c_{[256*(k-1)+1]}，c_{[256*(k-1)+2]}，...，c_{[256*(k-1)+256]}]；

Fd1(k)＝[d¹ _{[256*(k-1)+1]}，d¹ _{[256*(k-1)+2]}，...，d¹ _{[256*(k-1)+256]}]；

Fd2(k)＝[d² _{[256*(k-1)+1]}，d² _{[256*(k-1)+2]}，...，d² _{[256*(k-1)+256]}]；

Fd3(k)＝[d³ _{[256*(k-1)+1]}，d³ _{[256*(k-1)+2]}，...，d³ _{[256*(k-1)+256]}]；

分别计算Fc(k)、Fd1(k)、Fd2(k)和Fd3(k)的能量大小，记为：

P_c(k)＝||Fc(k)||²

P_{d^{1}} (k) = {| | Fd 1 (k) | |}^{2}

P_{d^{2}} (k) = {| | FD 2 (k) | |}^{2}

P_{d^{3}} (k) = {| | Fd 3 (k) | |}^{2}

令

P (k) = P_{c} (k) + P_{d^{1}} (k) + P_{d^{2}} (k) + P_{d^{3}} (k) - - - (4)

由于纯噪声区的信号和被噪声污染的语音活动区的信号分解后子信号的能量分布情况将存在明显的差异性，则针对X_[n]信号区间[X_512*(k-1)+1，...，X_{512*(k-1)+512}]的VAD判决变量的具体数值如下：

D (k) = {30 Θ}^{| \frac{P_{c} (k)}{P (k)} - 0.2734 |} + {30 Θ}^{| \frac{P_{d^{1}} (k)}{P (k)} - 0.2734 |} + 30^{| \frac{P_{d^{2}} (k)}{P (k)} - 0.2266 |} + {30 Θ}^{| \frac{P_{d^{3}} (k)}{P (k)} - 0.2266 | - - - (5)}

其中k≥1。

4)采用判决器对VAD判决变量的具体数值进行判决，得到第k帧的初步判决结果，为三段式的判决门限：

G (k) = \{\begin{matrix} 0, D (k) \leq 4.55 \\ 1, 4.55 < D (k) \leq 4.85 \\ 2, D (k) > 4.85 \end{matrix} - - - (6)

所述式(6)中，系统把前面M帧信号都默认为纯噪声帧，即G(k)＝0，1≤k≤M。

采用判决结果平滑算法，得到第k帧的最终VAD判决结果：

注：系统默认开机后至少存在1秒以上的纯噪声信号。

为提高算法检测准确率，判决平滑过程中存在N帧的拖尾保护，具体大小视VAD算法的具体用途自行设定(本实施例中N＝15)，其值过大会引入过多的纯噪声信号，过小则会损失部分语音信号，根据式(7)最终判断数字语音抽样信号X_[n]中的语音信号静默区和语音信号活动区。

图2和图3分别给出了一段时间长度为300秒，语音实验室产生的干净语音信号和利用计算机产生的功率时变的高斯白噪声信号，可以看出在有语音活动区，噪声的功率明显是大于或等于信号的功率的，因此信号平均信噪比是明显小于0dB的。

图4是语音实验室产生的干净语音信号和利用计算机产生的功率时变的高斯白噪声信号两者加性混合后的信号(即加噪信号)情况，图5为对加噪信号采用本实施例提供的VAD算法得到的静音检测效果(此时拖尾保护长度为N＝15)，中心黑色虚线段部分表示语音活动区，其余部分表示静默区。从仿真结果看出，即使接收信号的信噪比已经明显低于0dB，但本实施例的VAD算法还是把99.3％以上的语音信号活动区间检测出来，仅因拖尾保护措施引入了少量的纯噪声区间，整体性能已经超过了现有的一些经典VAD算法。

以上所述，仅为本发明优选的实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都属于本发明的保护范围。

Claims

1.基于最小能量小波框架的静音检测方法，其特征在于包括以下步骤：

2.根据权利要求1所述的基于最小能量小波框架的静音检测方法，其特征在于：所述数字语音抽样信号表示如下：

X_[n]＝S_[n]+U_[n] (1)

其中，S_[n]为纯语音抽样信号，U_[n]为背景噪声抽样信号。

3.根据权利要求2所述的基于最小能量小波框架的静音检测方法，其特征在于：所述步骤2)中，最小能量小波框架由4个子数列组成，具体如下：

p_{[k]} = [\frac{1}{16}, \frac{1}{4}, \frac{3}{8}, \frac{1}{4}, \frac{1}{16}, 0],

{q^{1}}_{[k]} = [0, \frac{1}{16}, - \frac{1}{4}, \frac{3}{8}, - \frac{1}{4}, \frac{1}{16}],

{q^{2}}_{[k]} = [\frac{1}{16}, - \frac{\sqrt{7}}{8}, 0, \frac{\sqrt{7}}{8}, - \frac{1}{16}, 0],

{q^{3}}_{[k]} = [0, \frac{1}{16}, \frac{\sqrt{7}}{8}, 0, - \frac{\sqrt{7}}{8}, - \frac{1}{16}]; - - - (2)

c_{[n]} Σ_{k = 1}^{6} p_{[k]} X_{[2 n - 1 + k]};

d_{[n]}^{1} = Σ_{k = 1}^{6} q_{[k]}^{1} X_{[2 n - 1 + k]};

d_{[n]}^{2} = Σ_{k = 1}^{6} q_{[k]}^{2} X_{[2 n - 1 + k]}; - - - (3)

d_{[n]}^{3} = Σ_{k = 1}^{6} q_{[k]}^{3} X_{[2 n - 1 + k]};

即分解成4个子信号c_[n]、

和

每个子信号的长度为信号X_[n]的一半。

4.根据权利要求3所述的基于最小能量小波框架的静音检测方法，其特征在于：所述步骤3)中，对分解的子信号c_[n]、

和

同时进行分帧处理，每帧含λ个样点，即第k帧表示如下：

Fc(k)＝[c_[λ*(k-1)+1]，c_[λ*(k-1)+2]，...，c_{[λ*(k-1)+λ]}]；

分别计算Fc(k)、Fd1(k)、Fd2(k)和Fd3(k)的能量大小，记为：

P_c(k)＝||Fc(k)||²

P_{d^{1}} (k) = {| | Fd 1 (k) | |}^{2}

P_{d^{2}} (k) = {| | FD 2 (k) | |}^{2}

P_{d^{3}} (k) = {| | Fd 3 (k) | |}^{2}

令

P (k) = P_{c} (k) + P_{d^{1}} (k) + P_{d^{2}} (k) + P_{d^{3}} (k) - - - (4)

D (k) = Θ^{| \frac{P_{c} (k)}{P (k)} - 0.2734 |} + Θ^{| \frac{P_{d^{1}} (k)}{P (k)} - 0.2734 |} + Θ^{| \frac{P_{d^{2}} (k)}{P (k)} - 0.2266 |} + Θ^{| \frac{P_{d^{3}} (k)}{P (k)} - 0.2266 | - - - (5)}

其中k≥1，λ≥128，Θ≥5；参数Θ的最佳值通过测试来设定。

5.根据权利要求4所述的基于最小能量小波框架的静音检测方法，其特征在于：所述步骤4)中，采用判决器对VAD判决变量的具体数值进行判决，得到第k帧的初步判决结果：

G (k) = \{\begin{matrix} 0, D (k) \leq Δ_{1} \\ 1, Δ_{1} < D (k) \leq Δ_{2} \\ 2, D (k) > Δ_{2} \end{matrix} - - - (6)

再采用判决结果平滑算法，得到第k帧的最终VAD判决结果：

GG (k) = \{\begin{matrix} 0, ifG (k - N) + G (k - N + 1) + . . . + G (k) \leq 1 \\ 1, ifG (k - N) + G (k - N + 1) + . . . + G (k) &GreaterEqual; 2 \end{matrix} - - - (7)