CN103456310A

CN103456310A - 一种基于谱估计的瞬态噪声抑制方法

Info

Publication number: CN103456310A
Application number: CN2013103831229A
Authority: CN
Inventors: 陈喆; 殷福亮; 张兆伟
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2013-08-28
Filing date: 2013-08-28
Publication date: 2013-12-18
Anticipated expiration: 2033-08-28
Also published as: CN103456310B

Abstract

本发明公开了一种基于谱估计的瞬态噪声抑制方法，属于数字信号处理技术领域。本发明包括以下几步：第一步：基于改进的最小控制递归平滑的非瞬态背景噪声功率谱估计：第二步：基于改进最小控制递归平滑和最优修正对数谱幅度估计的瞬态噪声功率谱估计：第三步：基于最优修正对数谱幅度估计及瞬态噪声谱估计的语音噪声抑制。

Description

一种基于谱估计的瞬态噪声抑制方法

技术领域

本发明涉及一种基于谱估计的瞬态噪声抑制方法，属于数字信号处理技术领域。

背景技术

语音中的瞬态噪声(也称为暂态噪声)属于一种加性噪声。通常，瞬态噪声在时域中具有突发性、脉冲性等特点，其能量常集中在较短的时域区间内，而在频域分布则较宽。典型的瞬态信号常由一个初始的峰值和一段持续时间约为10～50ms的衰减的短时振荡过程构成，如敲门、鼠标点击、节拍器、键盘敲击、锤子击打声等都属于瞬态噪声。瞬态噪声存在于很多场合中，如助听器、免提组件、手机及视讯会议终端等语音通信设备中。瞬态噪声的存在严重影响语音质量，使语音信号清晰度和可懂度下降，引起听觉疲劳，甚至使语音系统无法正常工作。因此，需要采用瞬态噪声抑制技术，以提高语音质量。

发明内容

本发明针对以上问题的提出，而研制一种基于谱估计的瞬态噪声抑制方法。

本发明采取的技术方案如下：

一种基于谱估计的瞬态噪声抑制方法包括以下几步：

第一步：基于改进的最小控制递归平滑的非瞬态背景噪声功率谱估计；

第二步：基于改进最小控制递归平滑和最优修正对数谱幅度估计的瞬态噪声功率谱估计；

第三步：基于最优修正对数谱幅度估计及瞬态噪声谱估计的语音噪声抑制。

本发明的原理及有益效果：考虑到语音信号和背景噪声变化较慢而瞬态噪声变化很快这一特点，本发明提出了一种基于改进的最小控制的递归平滑以及最优修正对数谱幅度估计的瞬态噪声抑制方法。首先，根据改进的最小控制的递归平滑方法来估计观测信号中慢变语音和背景噪声的时变功率谱；然后根据估计的功率谱，结合最优修正对数谱幅度估计方法来增强瞬态噪声和非瞬态成分的差异，并估计瞬态噪声的功率谱。此外，采用传统的最小控制的递归平滑方法，从瞬态噪声和语音信号中估计背景噪声的功率谱。最后，将估计的瞬态噪声和背景噪声功率谱进行合并，并再次运用最优修正对数谱幅度估计方法，同时抑制瞬态噪声和背景噪声，得到增强后的语音幅度谱。

附图说明

图1基本的最优修正对数谱幅度估计(OM-LSA)方法的功能框图。

图2计算最优幅度谱增益的功能框图。

图3计算P_frame(l)的流程图。

图4Phillip A.Hetherington，Shreyas A.Paranjpe.在公开号为2006116873的美国专利“Repetitive transient noise removal”(2003)的流程图。

图5基于MMCRA和OM-LSA的瞬态噪声抑制方法功能框图。

图6基于MCRA的噪声功率谱估计功能框图。

图7原始语音语谱图例子。

图8在图7语音中加入噪声后的语谱图。

图9使用R.Talmon，I.Cohen，and S.Gannot在论文“Transient noise reductionusing nonlocal diffusion filters”(IEEE Trans.on Audio，Speech and LanguageProcessing，2011，19(6)：1584-1599)中提出的技术处理图8语音后的语谱图。

图10使用本发明方法处理图8语音后的语谱图。

具体实施方式

下面结合附图对本发明做进一步说明：

基于最优修正对数谱幅度估计(OM-LSA)的瞬态噪声抑制方法

在低信噪比、非平稳背景噪声情形下为了实现语音噪声抑制，Cohen等人提出了基于最优修正对数谱幅度估计(OM-LSA)的瞬态噪声抑制方法。该方法在低信噪比、非平稳噪声环境下具有很好的鲁棒性。其思想是通过观测信号先验信噪比估计、噪声估计，以及语音存在概率估计，得到观测信号的最优频谱增益函数，最后将频域观测信号与增益函数作乘，获得去噪后的语音信号。基于最优修正对数谱幅度估计(OM-LSA)方法的功能框图如图1所示。

(1)最优增益修正

将观测信号记为y(n)，纯净信号记为x(n)，加性噪声记为d(n)。则有

y(n)＝x(n)+d(n)； (1)对观测信号y(n)进行加窗分帧操作，并用短时傅立叶变换进行分析：

Y (k, l) = Σ_{n = 0}^{N - 1} y (n + lM) h (n) e^{- j (2 π / N) nk}

其中，k为频率索引，l为时域帧的索引，h(n)为窗函数，M为帧移。这里选择LSA估计来计算频谱增益，LSA的核心思想就是最小化

其中，A(k，l)＝|X(k，l)|表示纯净语音的幅度谱，而

是A(k，l)的最优估计值。假设各频谱分量统计独立，则定义短时对数谱的估计为：

\hat{A} (k, l) = \exp {E [\log A (k, l) | Y (k, l)]} - - - (3)

这里给出以下二元假设模型：

H₀(k，l)：Y(k，l)＝D(k，l)， (4)

H₁(k，l)：Y(k，l)＝X(k，l)+D(k，l)，

其中，D(k，l)表示噪声的短时傅立叶变换(STFT)。H₀(k，l)和H₁(k，l)分别表示无音和有音两种状态。观测信号的条件概率密度函数表示为：

P (Y (k, l) | H_{0} (k, l)) = \frac{1}{π λ_{d} (k, l)} \exp {- \frac{| Y (k, l) |^{2}}{λ_{d} (k, l)}}; - - - (5)

P (Y (k, l) | H_{1} (k, l)) = \frac{1}{π (λ_{x} (k, l) + λ_{d} (k, l))} \exp {- \frac{| Y (k, l) |^{2}}{λ_{x} (k, l) + λ_{d} (k, l)}}; - - - (6)

其中，λ_x(k，l)＝E[|X(k，l)|²]|H₁(k，l)，λ_d(k，l)＝E[|D(k，l)|²]，分别表示语音信号和噪声的方差。对条件有音概率p(k，l)应用贝叶斯准则，则有

p (k, l) = {1 + \frac{q (k, l)}{1 - q (k, l)} (1 + ξ (k, l)) \times \exp (- v (k, l))}^{- 1}, - - - (7)

v (k, l) = \frac{γ (k, l) ξ (k, l)}{1 + ξ (k, l)}, - - - (8)

其中，ξ(k，l)，γ(k，l)分别表示观测信号的先验信噪比和后验信噪比。而根据二元假设模型，则有：

E(logA(k，l)|Y(k，l))＝E[logA(k，l)|Y(k，l)，H₁(k，l)]p(k，l)

+E[logA(k，l)|Y(k，l)，H₀(k，l)]×(1-p(k，l))， (9)则基于最优修正对数谱幅度估计(OM-LSA)的短时对数谱幅度估计表示如下：

\begin{matrix} \hat{A} (k, l) = {(\exp {E [\log A (k, l) | Y (k, l), H_{1} (k, l)]})}^{p (k, l)} \\ \times {(\exp {E [\log A (k, l) | Y (k, l), H_{0} (k, l)]})}^{(1 - p (k, l))}, \end{matrix} - - - (10)

设定增益门限G_min，用以表征非语音段的增益下限，其值依赖于对噪声的主观评测。令

为有音段的状态增益函数，于是有

G_{H_{1}} (k, l) = \frac{ξ (k, l)}{1 + ξ (k, l)} \exp (\frac{1}{2} {&Integral;}_{v (k, l)}^{\infty} \frac{e^{- t}}{t} dt), - - - (11)

则最终由最优修正对数谱幅度估计(OM-LSA)得出的最优增益函数为：

G (k, l) = {G_{H_{1}} {(k, l)}}^{p (k, l)} G_{\min}^{1 - p (k, l)}, - - - (12)

计算最优增益的先验知识包括计算先验信噪比、后验信噪比、先验无音概率以及条件有音概率。计算最优增益的功能框图如图2所示。

(2)先验信噪比估计

由最优增益修正过程可知，先验信噪比ξ(k，l)需要用来估计

及p(k，l)。最优修正对数谱幅度估计(OM-LSA)方法采用一种面向判决的方法估计先验信噪比。Ξ(k，l)＝αG²(k，l-1)γ(k，l-1)+(1-α)max{γ(k，l)-1，0}； (13)

其中，α为权重因子，0＜α＜1，用来控制噪声消除与信号瞬态失真之间的取舍。

在不确定语音是否存在时，利用式(13)得出的是无条件的先验信噪比，而最终的先验信噪比ξ(k，l)为Ξ(k，l)/(1-q(k，l))，因此ξ(k，l)和q(k，l)易相互作用，严重影响增益估计的结果，并引入残留噪声。因此，计算先验信噪比时，需要将语音存在的不确定性考虑在内，即

\hat{ξ} (k, l) = α G_{H_{1}}^{2} (k, l - 1) γ (k, l - 1) + (1 - α) \max {γ (k, l) - 1,0} - - - (14)

当语音存在时，G(k，l)就变为

而当无音时，G(k，l)衰减到G_min，有效地避免了式(14)存在的问题。

(3)先验无音概率估计

最优修正对数谱幅度估计(OM-LSA)方法中，采用软判决的方法计算三个与ξ(k，l)的时频分布相关的参数，实现对q(k，l)的估计。首先采用平滑因子β，对先验信噪比估计值进行递归平滑。

ζ (k, l) = βζ (k, l - 1) + (1 - β) \hat{ξ} (k, l - 1) - - - (15)

然后，通过在频域利用平滑窗对先验SNR进行局部和全局平滑，得到先验SNR的局部和全局平均值。

ξ_λ(k，l)＝∑h_λ(i)ζ(k-i，l) (16)

其中，λ有选择局部(local)或者全局(global)两个选项，h_λ为选定的平滑窗。定义P_local(k，l)和P_global(k，l)两个参数，表示语音存在概率和平滑信噪比之间的关系。

其中，λ有选择局部(local)或者全局(global)两个选项，ζ_min和ζ_max为经验值，能在保持较弱语音成分的同时最大限度的减弱噪声。为了进一步消除噪声的影响，基于语音帧能量定义参数P_frame(l)。首先在频域内计算ζ(k，l)的平均值，记作ξ_frame(l)。为了防止语音的起始点或较弱成分被切削，规定ξ_frame(l)增加时，即为有音帧。P_frame(l)的计算流程如图3所示。图3中的u(l)表示语音帧到噪声帧的一种软过渡，

其中，ξ_peak表示受限的ζ_frame峰值。

最后由P_local，P_global，P_frame三个参数，能获得先验无音概率的估计值。

\hat{q} (k, l) = 1 - P_{local} (k, l) P_{global} (k, l) P_{frame} (l) - - - (19)

由式(19)可知，当

时，p(k，l)→0，这种情况下容易引起语音失真，这里设定一个阈值q_max，限制

的大小。

与本发明相关的现有技术一

现有技术一的技术方案

Talmon等提出了一类瞬态噪声抑制方法。该类方法的共同点是采用非局部扩散滤波器(Non-Local filters，NL filters)和改进最优修正对数谱幅度估计(OM-LSA)方法。首先，利用语音信号在时域的强自相关性及瞬态噪声的突发性，首先通过一个改进的语音估计器增强瞬态噪声，并通过计算各观测帧功率谱之间的欧式距离，建立用作瞬态噪声结构学习的扩散矩阵，该扩散矩阵能够标明各观测帧之间的功率谱差异，其实际上是一个非局部扩散滤波器，通过非局部扩散滤波估计瞬态噪声的功率谱密度，最后采用最优修正对数谱幅度估计(OM-LSA)方法及噪声的功率谱分布抑制瞬态噪声。该方法分为两个阶段，分别是基于NL扩散滤波器的瞬态噪声功率谱(PSD)估计阶段和基于最优修正对数谱幅度估计(OM-LSA)的瞬态噪声抑制阶段。

现有技术一的缺点

现有技术一的缺点为：(1)该方法假设相同类型的瞬态干扰重复出现多次，或者瞬态噪声间有相同的功率谱分布，对偶尔出现的瞬态噪声抑制效果较差。(2)该方法计算量很大，难以实时处理。

与本发明相关的现有技术二

现有技术二的技术方案

说明书附图4是Hetherington等在2003年公开号为2006116873的美国专利“Repetitive transient noise removal”中使用技术方法的流程图。该技术根据噪声特点进行建模，利用建模的信号与待检测信号的相关系数来确定待检测数据是否为含有噪声，若存在噪声，则根据建模信号将待检测信号中的噪声成分移除。

现有技术二的缺点

该技术适用于对具有重复性的噪声进行去噪。由于瞬态噪声的类型多种多样，当短时间内存在多种不同类型的瞬态噪声时，会造成建模不准确，影响去噪效果。

本发明采取的技术方案

本发明所要解决的技术问题

本发明针对瞬态噪声干扰的音频，应用最小控制递归平滑(MCRA)和最优修正对数谱幅度估计(OM-LSA)技术，通过谱估计的方法，提出了一种基于瞬态噪声谱估计的瞬态噪声抑制方法，能有效地抑制语音中的瞬态噪声，提高语音质量和可懂度。

本发明提供的完整技术方案

技术方案简述

考虑到语音信号和背景噪声变化较慢而瞬态噪声变化很快这一特点，本发明提出了一种基于改进最小控制递归平滑(MCRA)以及最优修正对数谱幅度估计(OM-LSA)的瞬态噪声抑制方法，该方法的整体框图如图5所示。

首先，根据改进的MCRA方法来估计观测信号中慢变语音和背景噪声的时变功率谱密度(PSD)；然后根据估计的功率谱密度(PSD)，结合最优修正对数谱幅度估计(OM-LSA)方法来增强瞬态噪声和非瞬态成分的差异，并估计瞬态噪声的功率谱密度(PSD)。此外，采用传统的最小控制递归平滑(MCRA)方法，从瞬态噪声和语音信号中估计背景噪声的功率谱密度(PSD)。最后，将估计的瞬态噪声和背景噪声功率谱密度(PSD)进行合并，并再次运用最优修正对数谱幅度估计(OM-LSA)方法，同时抑制瞬态噪声和背景噪声，得到增强后的语音幅度谱。

实现步骤

第一步：基于改进的最小控制递归平滑(Minima Controlled RecursiveAveraging，MCRA)的非瞬态背景噪声功率谱估计；

I.Cohen在论文“Noise spectrum estimation in adverse environments：Improvedminima controlled recursive averaging”(IEEE Transation.on Speech and AudioProcessing，2003，11(5)：466-475)中提出了基于最小控制的递归平均(MCRA)方法及其改进方法来估计短时噪声的功率谱，其递归过程由条件语音存在概率所控制，而条件语音存在概率由先验信噪比、后验信噪比以及先验无音概率得到。基于最小控制的递归平均(MCRA)的噪声谱估计框图如图6所示。

(1)短时功率谱平滑

在不存在语音的观测帧中，应用一种短时递归平滑方法，平滑时变的噪声谱，具体如式(20)所示。

H_{0} (k . l) : {\hat{λ}}_{d} (k, l + 1) = α_{d} {\hat{λ}}_{d} (k, l) + (1 - α_{d}) {| Y (k, l) |}^{2}

(20)

H_{1} (k, l) : {\hat{λ}}_{d} (k, l + 1) = α_{d} {\hat{λ}}_{d} (k, l)

式中，α_d为平滑参数。假设条件语音存在概率为

p′(k，l)＝P(H₁(k，l)|Y(k，l)) (21)

则噪声功率谱估计为：

{\hat{λ}}_{d} (k, l + 1) = {\hat{λ}}_{d} (k, l) p^{'} (k, l) + [α_{d} {\hat{λ}}_{d} (k, l) + (1 - α_{d}) {| Y (k, l) |}^{2}] (1 - p^{'} (k, l))

(22)

= {\tilde{α}}_{d} (k, l) {\hat{λ}}_{d} (k, l) + (1 - {\tilde{α}}_{d} (k, l)) {| Y (k, l) |}^{2}

其中，

是个时变的平滑的参数，其定义式为：

{\tilde{α}}_{d} (k, l) = α_{d} + (1 - α_{d}) p^{'} (k, l) - - - (23)

因此，对噪声的谱估计通过平滑当前帧以前的功率谱值获得，而平滑参数由条件语音存在概率p’(k，l)控制。

(2)条件语音存在概率计算

由短时功率谱平滑分析可知，要进行噪声功率谱平滑，首先需计算条件语音存在概率。MCRA基于噪声信号能量的局部统计来追踪条件语音存在概率，通过计算当前帧各频点能量与该频点的局部最小值之间的比值，来进行有音无音判决。

①通过对STFT幅值的平方加窗来平滑带噪语音信号的能量。

S_{f} (k, l) = Σ_{i = - w}^{w} b (i) {| Y (k - i, l) |}^{2} - - - (24)

式中，b(i)为长为2w+1的窗函数。这里b(i)＝1/(2w+1)，i＝-w，...，w

②通过一阶递归平均平滑能量谱。

S(k，l)＝α_sS(k，l-1)+(1-α_s)S_f(k，l) (25)

其中，α_s为平滑参数，0＜α_s＜1。当前能量的最小值S_min(k，l)通过前向最小值搜索得到，具体如下，

S_min(k，l)＝min{S(k，l)，S(k，l-1)...S(k，l-L+1)} (26)

其中，L为前向局部搜索窗的长度，针对于不同的说话人及说话环境，该搜索窗的长度大约为0.5～1.5秒。

③条件语音存在概率估计

定义

为含噪信号局部能量与其最小值的比值。则通过下式作有音判决：

S_{r} (k, l) \begin{matrix} > \\ < \end{matrix} δ - - - (27)

其中，δ为经验阈值，当S_r(k，l)＞δ时，当前频点被标记为有音，否则，被标记为无音。I(k，l)定义为语音存在指示器。

即得到条件语音存在概率的估计式：

{\hat{p}}^{'} (k, l) = α_{p} {\hat{p}}^{'} (k, l - 1) + (1 - α_{p}) I (k, l) - - - (29)

其中，α_p为平滑参数。将估计的

代入式(22)，计算时变平滑参数

进而估计背景噪声功率谱

第二步：基于改进最小控制递归平滑，Modified Minima Controlled RecursiveAveraging，MMCRA，和最优修正对数谱幅度估计，Optimally Modified LogSpectral Amplitude Estimator，OM-LSA，的瞬态噪声功率谱估计；

(1)基于IMCRA的非瞬态成分功率谱估计

语音信号和背景噪声相对于瞬态噪声，其频谱是慢变的，基于此，本方法将瞬态噪声视为信号，而将语音和背景噪声等非瞬态成分视为噪声，对MCRA方法进行改进，通过计算瞬态噪声出现概率来控制非瞬态成分功率谱的递归平滑，使其能够估计观测信号中非瞬态成分的时变功率谱(PSD)。

首先，通过对对频谱幅度的平方|Y(k，l)|²进行一阶递归平均，得到平滑后的功率谱。

S(k，l)＝α_sS(k，l-1)+(1-α_s)|Y(k，l)|² (30)

其中，α_s为用于控制对PSD快速追踪的平滑参数，α_s越小，当前帧的权重越大，则能够捕获语音或者背景噪声的快速变化，本发明建议α_s取值在0.7～0.9之间。瞬态噪声出现概率由平滑后功率谱的局部最小值控制，采用MCRA方法，使用局部因果窗来前向搜索最小功率值，能够检测出大部分语音和背景噪声部分。但是，语音音素的起音点处同样具有突发性，如果只采用前向搜索窗计算最小功率值，语音起音点将被错误地判断为瞬态信号，造成后续语音噪声抑制的失真。这里，将未来的时间帧考虑在内，来分辨瞬态噪声和语音起音点，因为瞬态噪声一般由一个强脉冲和一段短时衰减振荡组成，因此瞬态噪声的能量会迅速衰减，而起音点之后的语音能量在该音素内会保持平稳。因此，在搜索最小功率值时，同时采用了前向因果窗和后向非因果窗进行搜索，具体如下：

S_{\min}^{L} (k, l) = \min {S (k, l), S (k, l - 1) . . . S (k, l - L + 1)} - - - (31)

S_{\min - ac}^{T} (k, l) = \min {S (k, l), S (k, l + 1) . . . S (k, l + T - 1)} - - - (32)

S_{\min} (k, l) = \max {S_{\min}^{L} (k, l), S_{\min - ac}^{T} (k, l)} - - - (33)

其中，L和T分别为前向因果窗和后向非因果窗的长度。该搜索方法避免了语音音素起音点的误判问题。

然后，用与MCRA中条件语音存在概率估计相同的方法，估计瞬态噪声出现概率，具体过程如式(27)～(29)所示。根据瞬态噪声出现概率估计值通过式(23)中的方法，计算用于非瞬态成分功率谱平滑的时变参数

并利用式(34)递归地估计语音及背景噪声的功率谱

{\hat{λ}}_{nt} (k, l + 1) = {\tilde{α}}_{nt} (k, l) {\hat{λ}}_{nt} (k, l) + (1 - {\tilde{α}}_{nt} (k, l)) {| Y (k, l) |}^{2} - - - (34)

(2)瞬态噪声谱估计

通过OM-LSA对瞬态信号进行增强，并抑制语音和背景噪声，进而达到瞬态噪声谱估计的目的。本专利对OM-LSA方法的原理和实现步骤进行了详细的介绍，这里在此进行阐述。

将瞬态噪声作为要进行增强的信号，首先将上一节估计的非瞬态成分功率谱

作为噪声的功率谱，用于瞬态信号的后验信噪比γ_t。

γ_{t} (k, l) = \frac{{| Y (k, l) |}^{2}}{{\hat{λ}}_{nt}} - - - (35)

令G_f(k，l)为估计瞬态噪声功率谱的最优频谱增益，则根据式(12)，该最优频谱增益为：

G_{f} (k, l) = {G_{H_{1}}^{'} (k, l)}^{{\hat{p}}^{'} (k, l)} G_{\min}^{1 - {\hat{p}}^{'} (k, l)} - - - (36)

G_{H_{1}}^{'} (k, l) = \frac{ξ_{t} (k, l)}{1 + ξ_{t} (k, l)} \exp (\frac{1}{2} {&Integral;}_{v_{t} (k, l)}^{\infty} \frac{e^{- t}}{t} dt) - - - (37)

式中，G_min为瞬态噪声不存在时的频谱增益，ξ_t(k，l)表示瞬态信号的先验信噪比，其估计方法如下：

{\hat{ξ}}_{t} (k, l) = α_{t} G_{H_{1}}^{2} (k, l - 1) γ_{t} (k, l - 1) + (1 - α_{t}) \max {γ_{t} (k, l) - 1,0} - - - (38)

其中，α_t为权重因子，用来控制非瞬态成分消除与瞬态信号失真之间的取舍。最终通过最优频谱增益估计值G_f(k，f)与含噪语音幅度谱的平方相乘，得到增强后的瞬态信号功率谱估计

{\hat{λ}}_{t} (k, l) = \exp {E [\log {| T (k, l) |}^{2} | Y (k, l)]}

(39)

= {| G_{f} (k, l) Y (k, l) |}^{2}

在这一过程中，将瞬态噪声视为信号，而将语音和其他背景噪声视为噪声，利用瞬态噪声的突变性，实现对非瞬态成分功率谱的平滑与跟踪。再利用OM-LSA方法计算瞬态噪声的功率谱估计。

第三步：基于最优修正对数谱幅度估计(Optimally Modified Log SpectralAmplitude Estimator，OM-LSA)及瞬态噪声谱估计的语音噪声抑制。

根据第一步背景噪声功率谱估计

以及第二步中瞬态噪声功率谱估计值

得到总的噪声功率谱估计值，即：

{\hat{λ}}_{d}^{*} (k, l) = {\hat{λ}}_{d} (k, l) + {\hat{λ}}_{t} (k, l) - - - (40)

令

分别表示先验信噪比和后验信噪比，则语音存在时的增益函数

表示如下：

G_{H_{1}}^{*} (k, l) = \frac{ξ^{*} (k, l)}{1 + ξ^{*} (k, l)} \exp (\frac{1}{2} {&Integral;}_{v^{*} (k, l)}^{\infty} \frac{e^{- t}}{dt} dt) - - - (41)

其中，

v^{*} (k, l) = \frac{γ^{*} (k, l) ξ^{*} (k, l)}{1 - ξ^{*} (k, l)} - - - (42)

令G^*(k，l)为含噪信号的频谱增益，根据式(12)得到最终的频谱增益函数。然后利用该频谱增益函数修正含噪信号的幅度谱，得到增强后的幅度谱

\hat{S} (k, l) = G^{*} (k, l) Y (k, l), - - - (43)

由于人耳对相位信息不敏感，因此，将增强后的幅度谱与含噪信号的相位谱结合，并经傅立叶反变换，加合成窗及重叠相加操作，得到增强后的语音信号。

本发明技术方案带来的有益效果：

为了说明本发明技术的有效性，使用两种指标对本房名进行了性能评估，这两种指标分别为分段信噪比SNR_Seg和分段对数谱失真测度LSD_Seg。分段信噪比计算方法如式(44)所示。

{SNR}_{seg} = \frac{1}{N_{t}} Σ_{k = 1}^{N_{t}} 10 \log_{10} \frac{\underset{n &Element; {frm}_{k}}{Σ} {| x (n) |}^{2}}{\underset{n &Element; {frm}_{k}}{Σ} {| \hat{x} (n) - x (n) |}^{2}}; - - - (44)

分段对数谱失真测度的方法如式(45)所示：

{LSD}_{seg} = \frac{1}{N_{t}} Σ_{l = 0}^{N_{t} - 1} {\frac{2}{N} Σ_{k = 0}^{N / 2 - 1} {[10 lo g_{10} TX (k, l) - 10 lo g_{10} T \hat{X} (k, l)]}^{2}}^{\frac{1}{2}}; - - - (45)

其中，X为原始语音的短时傅里叶变换，

为待测语音的短时傅里叶变换，N_t为待测语音帧的帧数，TX定义如下：

TX(k，l)＝max{|X(k，l)²，δ}； (46)

δ = 10^{- \frac{50}{10}} \max_{k, l} {| X (k, l) |}^{2}; - - - (47)

本发明中用到的具体参数设定如表1所示。这里将本发明技术方案与R.Talmon，I.Cohen，and S.Gannot在论文“Transient noise reduction using nonlocaldiffusion filters”(IEEE Trans.on Audio，Speech and Language Processing，2011，19(6)：1584-1599)中提出的技术进行了比较，其中分段信噪比和分段谱失真测度的结果见表2与表3，语谱图的例子见图7～图10。由表2可见，本技术方案在三种不同的输入信噪比下，其分段信噪比的提高量均要高于R.Talmon，I.Cohen，and S.Gannot在论文“Transient noise reduction using nonlocal diffusion filters”(IEEE Trans.on Audio，Speech and Language Processing，2011，19(6)：1584-1599)中提出的技术；由表3可知，本技术方案的分段谱失真要小于R.Talmon，I.Cohen，and S.Gannot在论文“Transient noise reduction using nonlocaldiffusion filters”(IEEE Trans.on Audio，Speech and Language Processing，2011，19(6)：1584-1599)中提出的技术，说明在频域失真方面，该方案的性能要优于基于NL-LSA的技术方案；图7是一个不含瞬态噪声语音的语谱图例子，图8是在图7的语音中混入瞬态噪声后的语谱图，图9是用R.Talmon，I.Cohen，and S.Gannot在论文“Transient noise reduction using nonlocal diffusion filters”(IEEE Trans.onAudio，Speech and Language Processing，2011，19(6)：1584-1599)中提出的技术的处理图8语音的结果，由图9可以看出，R.Talmon，I.Cohen，and S.Gannot在论文“Transient noise reduction using nonlocal diffusion filters”(IEEE Trans.on Audio.Speech and Language Processing，2011，19(6)：1584-1599)中提出的技术的处理结果存在明显的瞬态噪声残留，这主要是因为瞬态信号通过逆滤波器后存在衰减，以及估计瞬态信号值时作了近似假设造成的。图10是用本发明方法处理图8语音的结果，由图10可以看出，本发明处理后的瞬态噪声谱残留要少很多，对语音谱的损伤也较小。

表1 本发明具体的参数设定

表2瞬态噪声抑制效果客观评价(SNR_seg)

表3瞬态噪声抑制效果客观评价(LSDSeg)

本发明涉及到的缩略语和关键术语定义

LSD：Log-spectrum Distortion，对数谱失真。

MCRA：Minima Controlled Recursive Averaging，最小控制递归平滑。

MMCRA：Modified Minima Controlled Recursive Averaging，改进最小控制递归平滑。

NL filters：Non-Local filters，非局部扩散滤波器。

OM-LSA：Optimally Modified Log Spectral Amplitude Estimator，最优修正对数谱幅度估计。

PSD：Power Spectral Density，功率谱密度。

STFT：Short Time Fourier Transform，短时傅立叶变换。

SNR：Signal Noise Ratio，信噪比。

Claims

1.一种基于谱估计的瞬态噪声抑制方法，其特征在于：包括以下几步：

2.根据权利要求1所述的一种基于谱估计的瞬态噪声抑制方法，其特征在于：基于改进的最小控制递归平滑的非瞬态背景噪声谱估计步骤如下：

(1)定义纯净语音信号为x(n)，加性噪声为d(n)，观测信号为y(n)，

y(n)＝x(n)+d(n)，

对观测信号y(n)进行加窗分帧操作，并进行短时傅立叶变换：

Y (k, l) = Σ_{n = 0}^{N - 1} y (n + lM) h (n) e^{- j (2 π / N) nk},

其中，n为时域索引，n＝0，1，...，k为频率索引，k＝0，1，...，N-1，l为时域帧的索引，l＝0，1，...，h(n)为窗函数，N为帧长，256≤N≤2048，也是窗口宽度，M为帧移，0.25N≤M≤0.75N；

(2)短时功率谱平滑

对于不存在语音的观测信号帧，用短时递归平滑法来平滑时变噪声功率谱

{\hat{λ}}_{d} (k, l),

H_{0} (k, l) : {\hat{λ}}_{d} (k, l + 1) = α_{d} {\hat{λ}}_{d} (k, l) + (1 - α_{d}) {| Y (k, l) |}^{2},

H_{1} (k, l) : {\hat{λ}}_{d} (k, l + 1) = α_{d} {\hat{λ}}_{d} (k, l),

其中，H₀(k，l)和H₁(k，l)分别表示无音和有音两种状态，α_d为平滑参数，α_d的取值范围是0＜α_d＜1；设条件语音存在概率为

p′(k，l)＝P(H₁(k，l)|Y(k，l))，

则非瞬态噪声功率谱估计为：

{\hat{λ}}_{d} (k, l + 1) = {\hat{λ}}_{d} (k, l) p^{'} (k, l) + [α_{d} {\hat{λ}}_{d} (k, l) + (1 - α_{d}) {| Y (k, l) |}^{2}] (1 - p^{'} (k, l))

(22)

= {\tilde{α}}_{d} (k, l) {\hat{λ}}_{d} (k, l) + (1 - {\tilde{α}}_{d} (k, l)) {| Y (k, l) |}^{2},

其中，

是个时变的平滑的参数，其定义式为：

{\tilde{α}}_{d} (k, l) = α_{d} + (1 - α_{d}) p^{'} (k, l), - - - (23)

因此，通过平滑当前帧以前的功率谱值获得噪声的功率谱估计，而平滑参数由条件语音存在概率p′(k，l)控制；

(3)条件语音存在概率计算

最小控制递归平滑方法基于噪声信号能量的局部统计来追踪条件语音存在概率，通过计算当前帧各频点能量与该频点的局部最小值之间的比值，进行有音／无音判决；

①通过对短时傅立叶变换幅值的平方加窗来平滑带噪语音信号的功率谱；

S_{f} (k, l) = Σ_{i = - w}^{w} b (i) {| Y (k - i, l) |}^{2},

式中，b(i)为长为2w+1的窗函数；

②通过一阶递归平均来进一步平滑功率谱；

S(k，l)＝α_sS(k，l-1)+(1-α_s)S_f(k，l)，

其中，α_s为平滑参数，α_s的取值范围是0＜α_s＜1；当前能量的最小值S_min(k，l)通过后向最小值搜索得到，具体如下：

S_min(k，l)＝min{S(k，l)，S(k，l-1)，...，S(k，l-L+1)}，

其中，min{·}表示搜索最小值，L为后向局部搜索窗的长度，针对于不同的说话人及说话环境，该搜索窗的等效时间长度为0.5～1.5秒；

③条件语音存在概率估计

定义

为含噪信号局部能量与其最小值的比值；则通过与经验阈值δ的比较进行有音／无音判决：

S_{r} (k, l) \begin{matrix} > \\ < \end{matrix} δ,

当S_r(k，l)＞δ时，标记当前频点为有音；否则，标记当前频点为无音；定义I(k，l)为语音存在指示器；

则条件语音存在概率的估计为：

{\hat{p}}^{'} (k, l) = α_{p} {\hat{p}}^{'} (k, l - 1) + (1 - α_{p}) I (k, l),

其中，α_p为平滑参数，α_p的取值范围是0＜α_p＜1；将估计的

代入式(22)，计算时变平滑参数

进而能估计非瞬态背景噪声功率谱

3.根据权利要求1所述的一种基于谱估计的瞬态噪声抑制方法，其特征在于：基于改进最小控制递归平滑的瞬态噪声功率谱估计如下：

(1)相对于瞬态噪声，语音信号和背景噪声的功率谱变化较慢，这该步骤中，本发明将瞬态噪声视为信号，而将语音和背景噪声等非瞬态成分视为噪声，对最小控制递归平滑方法进行改进，通过计算瞬态噪声出现概率来控制非瞬态成分功率谱的递归平滑，使其能够估计观测信号中非瞬态成分的时变功率谱；

首先，通过对频谱幅度的平方|Y(k，l)|²进行一阶递归平均，得到平滑后的功率谱；

S(k，l)＝α_sS(k，l-1)+(1-α_s)|Y(k，l)|²，

其中，α_s为用于控制对功率谱快速追踪的平滑参数，α_s越小，当前帧的权重越大，则能够捕获语音或者背景噪声的快速变化，α_s取值范围是0.65＜α_s＜0.95；瞬态噪声出现概率由平滑后功率谱的局部最小值控制，采用最小控制递归平滑方法，使用局部因果窗来前向搜索最小功率值，能够检测出大部分语音和背景噪声部分；但是，语音音素的起音点处同样具有突发性，如果只采用前向搜索窗计算最小功率值，语音起音点将被错误地判断为瞬态信号，造成后续语音噪声抑制的失真；这里，将未来的时间帧考虑在内，来分辨瞬态噪声和语音起音点，因为瞬态噪声一般由一个强脉冲和一段短时衰减振荡组成，因此瞬态噪声的能量会迅速衰减，而起音点之后的语音能量在该音素内会保持平稳，因此，在搜索最小功率值时，同时采用了前向因果窗和后向非因果窗进行搜索，具体如下：

S_{\min}^{L} (k, l) = \min {S (k, l), S (k, l - 1), . . ., S (k, l - L + 1)},

S_{\min - ac}^{T} (k, l) = \min {S (k, l), S (k, l + 1), . . ., S (k, l + T - 1)},

S_{\min} (k, l) = \max {S_{\min}^{L} (k, l), S_{\min - ac}^{T} (k, l)},

其中，min{·}表示搜索最小值，max{·}表示搜索最大值，L和T分别为前向因果窗和后向非因果窗的长度；该搜索方法避免了语音音素起音点的误判问题；然后，用与最小控制递归平滑中条件语音存在概率估计相同的方法，估计瞬态噪声出现概率，具体过程如式(27)～(29)所示，根据瞬态噪声出现概率估计值通过式(23)中的方法，计算用于非瞬态成分功率谱平滑的时变参数并利用式(34)递归地估计语音及背景噪声的功率谱