CN101625869A

CN101625869A - 一种基于小波包能量的非空气传导语音增强方法

Info

Publication number: CN101625869A
Application number: CN200910023557A
Authority: CN
Inventors: 李盛; 王健琪; 荆西京; 牛明
Original assignee: Fourth Military Medical University FMMU
Current assignee: Fourth Military Medical University FMMU
Priority date: 2009-08-11
Filing date: 2009-08-11
Publication date: 2010-01-13
Anticipated expiration: 2029-08-11
Also published as: CN101625869B

Abstract

一种基于小波包能量的非空气传导语音增强方法，在应用小波包分析技术对语音信号进行分解与重构的基础上，对分解后的小波包系数从尺度和时间两方面进行阈值自适应调节，再对此系数进行重构以实现语音信号的噪声自适应消除，从而实现算法的有效性和较强的针对性。采用这种方法的实例表明，这种新型非空气传导语音增强方法能够有效弥补传统语音增强方法针对性不强的弱点，且执行效率高，效果明显，因此具有较强的实用价值和应用前景。

Description

一种基于小波包能量的非空气传导语音增强方法

技术领域

本发明属于语音信号的探测与采集及语音增强技术领域，特别涉及一种基于小波包能量的非空气传导语音增强方法。

背景技术

语音的非空气传导探测技术是指利用除空气以外的其它介质来传导声音。大量的实验数据表明，采用雷达波探测出来的语音信号干扰成分，要比采用普通声学传感器复杂得多。其干扰主要来自以下几个方面：(a)目标说话时的体动干扰。如说话时的头部运动、手势、口唇运动、心跳、呼吸等；(b)雷达波的各次谐波、信道噪声及语音探测系统硬件本身的附加噪声；(c)外界环境噪声的干扰，这些噪声信号成份复杂，幅度更强，且多与语音信号频谱相混叠，严重影响了语音信号的质量。因此，对于在对所采集雷达语音信号进行特性分析的基础上，有针对性地进行语音的去噪增强，也是一项十分重要的工作。

发明内容

本发明的目的在于基于非空气传导语音存在的缺陷与不足，提供一种基于小波包能量的非空气传导语音增强方法，该方法能够弥补传统语音增强方法针对性不强的弱点，且执行效率高，效果明显，因此具有较强的实用价值和应用前景。

为达到上述目的，本发明采用的技术方案是：

1)首先，对雷达非空气传导的语音信号采样并做A/D转换，进行数字化处理得到带噪语音信号，其采样速率为5KHz～20KHz；

2)其次，对带噪语音信号进行小波包分解；

3)然后，分别基于尺度和时间计算小波包系数的自适应阈值；

4)最后，利用自适应阈值进行小波包系数更新，并进行小波包重构以恢复增强后的语音信号。

所说的对带噪语音信号进行小波包分解的步骤如下：

设带噪语音信号y(n)由纯净语音信号s(n)与噪声信号d(n)叠加而成，即：

y(n)＝s(n)+d(n) (1)

选择小波函数，对带噪语音信号y(n)经j层小波包变换后得到2^j个子带小波系数，j≥1，其中第k个子带中第m个小波系数值为w_k，m ^j，并将小波分阶层数设为4层，

w_{k, m}^{j} = WP {y (n), j} - - - (2)

所说的基于尺度和时间计算小波包系数自适应阈值的方法如下：

1)首先，计算全局小波消噪阈值λ，其计算公式为：

\{\begin{matrix} λ = σ \sqrt{2 \log (N)} \\ σ = MAD / 0.6745 \end{matrix} - - - (3)

式中σ为噪声信号的噪声水平，N为噪声信号的信号长度，MAD为小波系数绝对值的中值，MAD的取值由第1个尺度小波系数得到，将以上公式扩展至小波包变换，即得到基于尺度的自适应阈值，其中小波包变换第k个子带的阈值λ_k为：

\{\begin{matrix} λ_{k} = σ_{k} \sqrt{2 \log (N_{k})} \\ σ_{k} = {MAD}_{k} / 0.6745 \end{matrix} - - - (4)

式中σ_k为第k个子带的噪声水平，N_k为第k个子带的信号长度，MAD_k为第k个子带小波系数w_k，m ^j绝对值的中值；

其次，根据以下公式得到小波包系数的Teager能量t_k，m ^j：

t_{k, m}^{j} = {[w_{k, m}^{j}]}^{2} - w_{k, m - 1}^{j} w_{k, m + 1}^{j} - - - (5)

经过Teager能量计算后采用二阶低通巴特沃思IIR滤波器h_k(m)对Teager能量滤波并归一化，得到时间自适应掩模M_k，m ^j：

M_{k, m}^{j} = \frac{t_{k, m}^{j} * h_{k} (m)}{\max (| t_{k, m}^{j} * h_{k} (m) |)} - - - (6)

由于含有语音成分的帧其Teager能量值波动较大，因此对第k个子带Teager能量掩模M_k，m ^j分帧并作直方图分析，根据当前帧M_k，m ^j的偏移值S_k ^j区分语音帧和噪声帧；

S_{k}^{j} = abscissa [H (M_{k, m}^{j})] - - - (7)

上式中H表示M_k，m ^j的直方图分布，abscissa[·]函数表示直方图分布最大值的横坐标值，即Teager能量最集中的值，若

S_{k}^{j} < 0.35

则第k个子带当前帧为语音帧，利用S_k ^j对M_k，m ^j进行修正即可得到最终的时间自适应阈值M′_k，m ^j：

最后，利用式(8)得到的时间自适应阈值对式(4)得到的尺度自适应阈值进行修正，即可得到第k个子带的时间-尺度自适应阈值λ_k，m：

λ_{k, m} = λ_{k} (1 - α M_{k, m}^{' j}) - - - (9)

根据小波阈值消噪原理，将由上式计算得到的阈值代入软阈值消噪公式，

其中Ts(λ，w_k)为软阈值，由此得到消噪后的小波系数

{\hat{w}}_{k, m}^{j} = Ts (λ_{k, m}, w_{k, m}^{j}) - - - (11)

所说的利用更新后的小波包系数的自适应阈值进行小波包重构以恢复增强后的语音信号是根据小波包分解所使用的小波函数和层数，利用消噪后的小波系数

，运用重构滤波器重构出增强后的语音信号：

\hat{s} (n) = {WP}^{- 1} {{\hat{w}}_{k, m}^{j}, j} - - - (12)

本发明应用小波包分析技术对语音信号进行分解与重构的基础上，对分解后的小波包系数从尺度和时间两方面进行阈值自适应调节，再对此系数进行重构以实现语音信号的噪声自适应消除，从而实现算法的有效性和较强的针对性。采用这种方法的实例表明，这种新型非空气传导语音增强方法能够有效弥补传统语音增强方法针对性不强的弱点，且执行效率高，效果明显，因此具有较强的实用价值和应用前景。

附图说明

图1为整个雷达非空气传导语音增强系统的结构框图；

图2为对某段指定的语音信号，使用本发明所述方法之前和之后，及与传统谱减法相比的雷达语音语谱图比较图。其中图2(a)为未增强语音的语谱图，图2(b)为使用传统谱减法增强后的语音谱图；图2(c)为使用本发明所述方法增强后语音的语谱图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

参见图1，本发明首先将接收到的雷达非空气传导语音信号进行数字化处理后进行小波包变换1；对所获得的小波包系数进行两方面的处理：一是计算全局阈值2；二是通过计算Teager能量算子3，进而计算二阶低通滤波器4，从而生成时间自适应掩模5。利用所生成的时间自适应掩模5，结合全局阈值2得到时间-尺度自适应阈值6。利用此时间-尺度自适应阈值对小波包系数进行阈值处理7，并经过小波包重构8得到增强后的语音。

其具体步骤如下：

2)其次，对带噪语音信号进行小波包分解；

y(n)＝s(n)+d(n) (1)

w_{k, m}^{j} = WP {y (n), j} - - - (2)

其具体步骤如下：首先，计算全局小波消噪阈值λ，其计算公式为：

\{\begin{matrix} λ = σ \sqrt{2 \log (N)} \\ σ = MAD / 0.6745 \end{matrix} - - - (3)

\{\begin{matrix} λ_{k} = σ_{k} \sqrt{2 \log (N_{k})} \\ σ_{k} = {MAD}_{k} / 0.6745 \end{matrix} - - - (4)

其次，根据以下公式得到小波包系数的Teager能量t_k，m ^j：

t_{k, m}^{j} = {[w_{k, m}^{j}]}^{2} - w_{k, m - 1}^{j} w_{k, m + 1}^{j} - - - (5)

M_{k, m}^{j} = \frac{t_{k, m}^{j} * h_{k} (m)}{\max (| t_{k, m}^{j} * h_{k} (m) |)} - - - (6)

S_{k}^{j} = abscissa [H (M_{k, m}^{j})] - - - (7)

S_{k}^{j} < 0.35

λ_{k, m} = λ_{k} (1 - α M_{k, m}^{' j}) - - - (9)

其中Ts(λ，w_k)为软阈值，由此得到消噪后的小波系数

{\hat{w}}_{k, m}^{j} = Ts (λ_{k, m}, w_{k, m}^{j}) - - - (11)

4)最后，利用更新后的小波包系数的自适应阈值进行小波包重构以恢复增强后的语音信号是根据小波包分解所使用的小波函数和层数，利用消噪后的小波系数

，运用重构滤波器重构出增强后的语音信号：

\hat{s} (n) = {WP}^{- 1} {{\hat{w}}_{k, m}^{j}, j} - - - (12)

以下是发明人给出的实施例，但并不局限于这些实施例：

一位男性在距离雷达式非空气传导语音探测仪前5米处以正常语速发声，语音材料为“第四军医大学”，语音时长为4.8秒。依下述步骤对此语音做增强处理：

1)对雷达非空气传导语音信号采样做A/D转换，采样速率为10KHz/秒；

2)对数字化后的雷达语音进行带噪信号的小波包分解；

3)计算基于尺度和时间的小波包系数自适应消噪阈值；

4)进行小波包重构以恢复增强语音信号；

处理结果见图2：从图2(a)中可以看出，原始语音中携带有具有较强能量的噪声，这些噪声在语音字句之间能够明显地观察到。图2(b)显示出传统的谱减法能够有效地减少2kHz以下的噪声，同时也能有效去除语音间隙的噪声，但是不能够去除高频噪声。图2(c)示出本专利申请所述的基于小波包能量的非空气传导语音增强方法的效果。它不仅能够减小语音及其间隙中的低频噪声，而且能较完全地去除高频噪声。说明与传统谱减法相比，基于小波包能量的非空气传导语音增强方法能够在全频率段内实现较好的语音增强效果。同步开展的听觉感知实验也表明本专利所述方法能够有效去除雷达语音的噪声，且不丢失语音信息。

此外，与传统谱滤波方法相比，本方法能在去噪度、语音畸变度及残留“音乐噪声”之间做出很好的折衷，这是因为算法能够同时在时间和频域尺度动态地调整阈值，并进而自适应调整小波包系数。因此，无论是从噪声谱估计还是语音谱估计上来看，该算法更能实时地自适应地跟踪语音的变化，从而使得算法中的谱增益以及噪声谱估计更符合假设的语音模型和人耳听觉特性，并在较大程度上提高了语音信号的可懂度。

本发明主要针对基于雷达的非空气传导语音增强，在一些特殊应用场合中，也能够应用于其它语音增强领域(如机器人的声音)，同时兼顾语音信号分析及语音识别等学科领域的需要。

尽管本发明所论述的是针对基于雷达的非空气传导语音的增强方法，但本发明的使用范围并不仅限于雷达式非空气传导语音信号的增强，对于一些类似情况或相似条件下获取的语音信号(甚至其它声学信号)，本发明所述方法都具有重要的直接或间接的使用和借鉴价值；

本发明所述的语音增强方法主要针对一般的雷达语音噪声环境，对于特殊的声学环境和过于嘈杂的声学背景则需要做有针对性的修改；

由于基于雷达的非空气传导语音的采集过程较传统语音采集过程复杂，因此本发明所述方法所适用语音信号的质量还要受到前端采集电路的影响，但大量的实验表明，本发明具有相当好的抗前端噪声影响的效果，具有较广泛的适用性。

Claims

1、一种基于小波包能量的非空气传导语音增强方法，其特征在于：

2)其次，对带噪语音信号进行小波包分解；

2、根据权利要求1所述的基于小波包能量的非空气传导语音增强方法，其特征在于：所说的对带噪语音信号进行小波包分解的步骤如下：

y(n)＝s(n)+d(n)(1)

w_{k, m}^{j} = WP {y (n), j} - - - (2) .

3、根据权利要求1所述的基于小波包能量的非空气传导语音增强方法，其特征在于：所说的基于尺度和时间计算小波包系数自适应阈值的方法如下：

1)首先，计算全局小波消噪阈值λ，其计算公式为：

\{\begin{matrix} λ = σ \sqrt{2 \log (N)} \\ σ = MAD / 0.6745 \end{matrix} - - - (3)

\{\begin{matrix} λ_{k} = σ_{k} \sqrt{2 \log (N_{k})} \\ σ_{k} = {MAD}_{k} / 0.6745 \end{matrix} - - - (4)

其次，根据以下公式得到小波包系数的Teager能量t_k，m ^j：

t_{k, m}^{j} = {[w_{k, m}^{j}]}^{2} - w_{k, m - 1}^{j} w_{k, m + 1}^{j} - - - (5)

M_{k, m}^{j} = \frac{t_{k, m}^{j} * h_{k} (m)}{\max (| t_{k, m}^{j} * h_{k} (m) |)} - - - (6)

S_{k}^{j} = abscissa [H (M_{k, m}^{j})] - - - (7)

S_{k}^{j} < 0.35

λ_{k, m} = λ_{k} (1 - α {M^{'}}_{k, m}^{j}) - - - (9)

其中Ts(λ，w_k)为软阈值，由此得到消噪后的小波系数

{\hat{w}}_{k, m}^{j} = Ts (λ_{k, m}, w_{k, m}^{j}) - - - (11) .

4、根据权利要求1或2或3所述的基于小波包能量的非空气传导语音增强方法，其特征在于：所说的利用更新后的小波包系数的自适应阈值进行小波包重构以恢复增强后的语音信号是根据小波包分解所使用的小波函数和层数，利用消噪后的小波系数

运用重构滤波器重构出增强后的语音信号：

\hat{s} (n) = {WP}^{- 1} {{\hat{w}}_{k, m}^{j}, j} - - - (12) .