CN1210608A

CN1210608A - 一种有噪语音参数增强的方法和装置

Info

Publication number: CN1210608A
Application number: CN97191991A
Authority: CN
Inventors: P·亨德尔; P·泽奎斯特
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 1996-02-01
Filing date: 1997-01-27
Publication date: 1999-03-10
Also published as: SE506034C2; AU711749B2; US6324502B1; DE69714431D1; EP0897574B1; WO1997028527A1; EP0897574A1; AU1679097A; KR100310030B1; DE69714431T2; JP2000504434A; SE9600363D0; CA2243631A1; SE9600363L; KR19990081995A

Abstract

通过确定(22,26)一个背景噪声的PSD估计,确定(18)有噪语音的参数,从语音参数中确定(20)有噪语音的一个PSD估计,从有噪语音的PSD估计中减去一个背景噪声的PSD估计,并从增强的语音PSD估计中估计增强的语音参数,来达到增强有噪语音的参数的目的。

Description

一种有噪语音参数增强的方法和装置

技术领域

本发明涉及一种对有噪语音进行参数增强的方法和装置，它们可被用于例如电话系统中的噪声抑制装置中。

发明背景

信号处理中的一种常见的问题是从有噪声的测量值中对信号进行增强。例如，这种情况可以是在单麦克风电话系统，既可以是传统的电话也可以是蜂窝电话，增强语音的质量，其中的语音被有色噪声所削弱，比如在蜂窝电话系统中的汽车噪声。

一种常见的噪声抑制方法是基于卡尔曼滤波的，因为这种方法可以处理有色噪声，并具有较好的数值复杂性。基于卡尔曼滤波的噪声抑制方法的主要参考文献是[1]。但是，卡尔曼滤波是一种基于模型的自适应方法，例如其中对语音和噪声都是按自回归(AR)过程来建立模型的。这样，卡尔曼滤波中的一个主要问题是滤波算法依赖于一套必须被估计出来的未知参数集。关于估计所包含参数的最重要的两个问题是(ⅰ)语音的自回归参数是从削弱的语音数据中估计出来的，(ⅱ)语音数据是非平稳的。这样，为了获得具有高听觉质量的卡尔曼滤波的输出，被估计参数的准确性和精确度就是至关重要的。

发明概要

本发明的一个目标是提供一种改进的方法和装置，用于有噪语音参数的估计。这些增强了的语音参数可被用于对有噪语音进行卡尔曼滤波以抑制噪声。另外，增强了的语音也可被直接用于语音编码中的语音参数。

上述目标是通过按照权利要求1的方法与按照权利要求11的装置来完成的。

附图简述

本发明，通过结合附图一起参考下文描述，它与其他目标和优点可以在更大程度上被理解，其中：

图1是按照本发明的装置的方框图。

图2是用于图1所示装置中的一种语音活动检测器(VAD)的状态图。

图3是按照本发明方法的流程图。

图4说明了有噪语音的功率谱密度(PSD)的基本特征。

图5说明了背景噪声的一种简单的功率谱密度PSD。

图6说明了从图4中的PSD减去图5所示的PSD后所导致的PSD。

图7以一个损耗函数形式说明了通过本发明获得的改进。

图8以一个损耗比率形式说明了通过本发明获得的改进。

优选实施方案详述

在语音信号处理中，输入语音经常被背景噪声所污染。例如，在免提汽车电话中，语音对背景噪声的比率可能低至0分贝，甚至更低。这么高的噪声电平严重地降低了通话的质量，不但由于高噪声电平本身，也由于当对有噪语音编码并通过一个数字通讯信道传送时产生的听觉赝象。为了减少这种听觉赝象，有时需要通过某种噪声抑制的方法，例如通过卡尔曼滤波[1]来对有噪的输入语音进行预处理。

在某些噪声抑制方法中(例如卡尔曼滤波)自回归参数(AR)是非常有趣的。因此，对于这些方法，为了产生具有高听觉质量的增强语音输出，从有噪语音数据中精确地估计自回归参数是必须的。现在，将参考图1至6来描述这样一个有噪语音参数增强方法。

图1中，从麦克风10得到一个连续模拟信号x(t)。信号x(t)被送入一个A/D转换器12。这个A/D转换器(并具有适当的数据缓冲)产生声音数据帧{x(k)}(包括语音，或包括背景噪声，也可以两者都包括)。一个声音帧在8000Hz的采样率下，通常包含100-300音频采样点。为了简化下面的讨论，假设一帧长度为N=250个采样点。声音帧{x(k)}被送入一个声音活动检测器(VAD)14，该检测器控制着一个开关16，其用途是根据VAD14的状态把声音帧{x(k)}送入装置中的不同模块。

VAD14可以按照[2]中所讨论的原理来设计，通常是以状态机的形式被实现的。图2说明了这样一个状态机的可能状态。在状态0，VAD14是空闲的或“非活性的”，它说明声音帧{x(k)}未被进一步处理。状态20表示一个噪声电平，并且没有语音。状态21表示一个噪声电平和一个低语音/噪声比。在语音活动与噪声的转移期间，这个状态被激活。最后，状态22表示一个噪声电平和高语音/噪声比。

一个声音帧{x(k)}含有声音采样点，可被表示为：

x(k)=s(k)+v(k) k=1,…,N (1)

其中x(k)代表有噪语音的采样值，s(k)代表语音的采样值，而v(k)代表外加的有色背景噪声。假设有噪语音信号在一帧之间是平稳的。而且语音信号s(k)可用一个r阶自回归(AR)模型来描述：

s (k) = - Σ_{i = 1}^{I} c_{i} s (k - i) + w_{s} (k) - - - (2)

其中W_s(k)的方差已知是σ_s ²。类似地，V(k)可通过一个q阶AR模型来描述

v (k) = - Σ_{i = 1}^{q} b_{i} v (k - i) + w_{v} (k) - - - (3)

其中W_v(k)的方差已知是σ_v ²。r和q都远小于帧长度N。一般，r的取值最好在10左右，而q最好在0-7之间取值，例如4(q=0对应于一个恒定的功率谱密度，即白噪声)。关于语音AR建模的更多的信息可从[3]中找到。

而且，有噪语音的功率谱密度Φ_x(w)可被分为语音的功率谱密度Φ_s(w)与背景噪声的功率谱密度Φ_v(w)之和，也就是

Φ_x(ω)=Φ_s(ω)+Φ_v(ω) (4)按照(2)，它满足

φ_{x} (ω) = \frac{σ_{s}^{2}}{{| l + Σ_{m = 1}^{I} c_{m} e^{- iωm} |}^{2}} - - - (5)

类似地，按照(3)，它满足

φ_{v} (ω) = \frac{σ_{v}^{2}}{{| l + Σ_{m = 1}^{q} b_{m} e^{- iωm} |}^{2}} - - - (6)

根据(2)-(3),x(k)等于一个具有功率谱密度Φ_x(w)的自相关移动平均模型(ARMA)。Φ_x(w)的一个估计(在这里和以后估计值用一个“^”来表示)可以通过一个自回归模型(AR)得到，也就是

φ_{x} (ω) = \frac{\hat{σ_{x}^{2}}}{{| l + Σ_{m = 1}^{p} \hat{a_{m}} e^{- iωm} |}^{2}} - - - (7)

其中{l})和是AR模型中的被估计出的参数。

(k) = - Σ_{i = 1}^{p} a_{i} x (k - i) + w_{x} (k) - - - (8)

其中W_x(k)的方差已知是σ_x ²，并且r≤p≤N。应当注意，在(7)中

不是Φ_x(w)在统计上的一致估计量。但在语音信号处理中，这并不是一个严重的问题，因为事实上X(k)根本不是平稳过程。

在图1中，当VAD 14把语音(图2中的状态21和22)信号X(k)送入一个有噪语音AR估计器18时，估计器18就估计方程(8)中的参数σ_x ²,{a5}。这个估计可以按[3]来进行(在图3所示的流程图中，这对应于步骤120)。被估计出来的参数被送入模块20，其作用是按方程(7)(图3中的步骤130)来计算输入信号X(k)的功率谱密度的一个估计。

本发明的一个基本特征是，背景噪声是按长时平稳来对待的，也就是在几帧信号中时平稳的。因为当在没有S(k)的周期中，语音的强度通常足够低以至于足以估计噪声模型，所以长时平稳特征可以被用于在有噪语音帧的功率谱密度中减去噪声的功率谱密度，这是通过在噪声帧期间存储噪声模型参数而在有噪语音帧使用这些参数来实现的。因此，当VAD 14表现为背景噪声状态(图2中的状态20)时，该帧数据被送入一个噪声AR参数估计器22，它估计这一帧噪声的参数σ_v ²，和{b_j}(这对应于图3所示的流程图中的步骤140)。如上所述，估计出的参数存储于缓冲区24，以备在以后有噪语音帧(图3中的步骤150)中使用。当需要使用这些参数时(在一个有噪语音帧期间)，它们将从缓冲区24中被取出来。这些参数同时也被送入模块26用于背景噪声的功率谱密度估计，或者在噪声帧期间(图3中的步骤160)，这意味着所得到的估计值必须被缓冲存储以备后用，或者在下一语音帧期间，这意味着必须被存储的只有参数。因此，对于只含背景再生的帧数据，所估计出的参数并不实际用于增强的目的。而是把噪声信号送入衰减器28中，该衰减器以例如10分贝来衰减噪声的强度(图3中的步骤170)。在方程(7)中定义的功率谱密度(PSD)的估计量

，还有通过一个类似于(6)的方程定义的，但在AR参数和σ_v ²上有“^”符号的PSD估计量，都是频率ω的函数。下一个步骤是执行实际的PSD相减，这一步是在模块30中完成的(图3中的步骤180)。按本发明，语音信号的功率谱密度是按照下式估计的

φ_{s} (ω) = φ_{x} (ω) - δ φ_{v} (ω) - - - (9)

其中δ是一个标量的构造变量，通常在间隔0＜δ＜4中取值。一般情况下，δ具有一个在1附近的值(δ=1对应于方程(4))。

本发明的一个基本特点是为了获得增强的PSD的准确图样，增强的PSD

是在频率域ω上以一个充分大的数目进行采样的。事实上，PSD是在一组离散频率集上来被计算的。

ω = \frac{2 πm}{M} m = 1, . . ., M - - - (10)

参看[3]，它给出了PSD估计的一个离散序列。

{φ_{x} (1), φ_{s} (2), . . ., φ_{s} (M)} = {φ_{s} (m)} m = 1 . . . M - - - (11)

这个特征还可通过图4-6来进一步说明。图4说明了有噪语音的一个典型的PSD估计。图5说明了背景噪声的一个典型的PSD估计

。在这种情况下，图4和图5中所示信号之间的信噪比是0分贝。图6说明了按照方程(9)，在减去噪声之后增强的PSD估计

，这里δ=1。因为PSD估计

的形状对于增强的语音参数的估计是至关重要的，所以使增强的PSD估计以一个充分大的频率数来被采样以给出函数形状的真实图样(尤其是峰)，正是本发明的一个基本特点。

实际上，是按照公式(6)和(7)来被采样的。例如，在公式(7)中，可以通过快速傅立叶变换(FFT)来被采样。因此，1,a₁,a₂,…,a_p可被看作是一个序列，这个序列的FFT将被计算出来。因为采样数M必须大于P(P大约是10-20)，所以有必要对序列补0。对于M，适合的值是2的幂，例如64,128,256。但是通常选择采样数M小于帧长256(在这个例子中N=256)。而且，由于

是功率的谱密度，是一个非负实数，在增强的语音参数从采样的增强PSD估计

中计算出来之前，

的采样值必须被限制为非负值。

在模块30执行PSD相减之后，采样值集合

被送入模块32以便从PSD估计(图3中的步骤190)中计算增强的语音参数。这个操作是模块20和26的逆操作，模块20和26是从AR参数来计算PSD估计。因为直接从PSD估计中显式地提取这些参数是不可能的，所以必须使用迭代算法。可以使用系统辨识的一个通用算法，例如在[4]中所提出的算法。

在附录中，也描述了一个用于计算参数的优选过程。

增强的参数或者可直接用于例如语音编码方面，或者可用于控制一个滤波器，例如图1所示噪声抑制器中的卡尔曼滤波器34(图3中的步骤200)。卡尔曼滤波器34也受到所估计出的噪声AR参数的控制，这两个参数集按照[1]中描述的原理控制卡尔曼滤波器，使之对含有有噪语音的帧数据{X(k)}进行滤波。

如果在一个应用中只需要增强的语音参数，那么实际地估计噪声AR参数就不是必须的(在图1中的噪声抑制器中，噪声AR参数必须被估计出来，因为它们控制着卡尔曼滤波器34)。而背景噪声的长时平稳被用于估计Φ_v(ω)。例如，可能用到

φ_{v} (ω)^{(m)} = ρ φ_{v} (ω)^{(m - 1)} + (1 - ρ) \overset{&OverBar;}{φ_{v}} (ω) - - - (12)

其中是基于一直到并包括帧数m的数据的(持续的)平均PSD估计，是基于当前帧的估计

可以通过周期图(FFT)从输入数据直接被估计出来)。因子ρ∈(0,1)相对于假设的V(k)的平稳性而被调节。在τ帧内的平均近似地对应于ρ，由

τ = \frac{2}{1 - ρ} - - - (13)

隐式地确定。例如，参数ρ可以具有一个0.95附近的值。

在一个优选实施方案中，按照(12)的平均同时也作用于按照(6)的参数PSD估计。这个平均过程可以是图1中模块26的一部分，同时也可作为图3中的步骤160来执行。

在图1所示实施方案的修改版中，衰减器28可以被省去。而卡尔曼滤波器34可被用作信号X(k)的一个衰减器。在这种情况下，背景噪声AR模型的参数被送入卡尔曼滤波器34的所有两个控制输入端，但以一个具有较低方差的参数(对应于所需要的衰减)送入在语音帧期间接受增强语音参数的控制输入端。

而且，如果由计算增强的语音参数所引起的延时被认为过长，按照本发明的一个修改实施方案，使用当前语音帧的增强语音参数来对下一语音帧进行滤波是可能的(在这个实施方案中，语音被看作在两帧之内是平稳的)。在这个修改的实施方案中，一个语音帧的增强语音参数可以的计算与下述过程，即用先前的语音帧的增强参数对该帧进行的滤波同时进行。

按本发明的方法的基本算法现在可以总结如下：

在语音休止期，做下列工作

-对于M个序列的集合，估计背景噪声的PSD

。这里任何类型的PSD都可能用到，例如参数的或非参数的(周期图)估计。按(12)用长时平均减小PSD估计的误差的方差。

对于语音的活动期：在每一帧中，做下列工作

-基于{X(k)}估计AR参数{a_i}以及有噪语音的残差方差σ_x ²。

-基于这些有噪语音参数，对于M个序列的集合计算有噪语音的PSD估计

-基于和

，用(9)计算语音PSD

的一个估计。因子δ是一个近似为1的构造变量。

-基于增强的PSD ，计算增强的AR参数以及对应的残差。

图1所示装置中的大多数模块最好都以一个或几个微/信号处理器的组合来实现(例如模块14,18,20,22,26,30,32以及34)。

为了说明按本发明的这个方法的性能，做了几个仿真实验。为了衡量增强参数对原始参数的改善，对于200个不同的仿真情况，计算了如下的测度：

v = \frac{1}{200} Σ_{m = 1}^{200} (\frac{Σ_{k = 1}^{M} {[\log (φ (k)) - \log (φ_{s} (k))]}^{2}}{Σ_{k = 1}^{M} \log {(φ_{s} (k))}^{2}})^{(m)} - - - (14)

对于有噪的和增强的参数都要计算这个测度(泄漏函数)，也就是说，

或者代表

或者代表

。在(14)中，(·)^(m)代表仿真数目m的结果。这两个测度在图7中得到说明。图8说明了这两个测度之间的比率。从图中可见，对于低信噪比(SNR＜15db)增强参数的工作性能比有噪参数要好，而对于高信噪比，两种参数集合的性能几乎是一样的。在低信噪比值的情况下，对于给定的测度V的值，在增强参数和有噪参数之间的SNR的改善是以7dB为数量级的。

精通技术的人都可以理解，对于本发明，在不偏离由附带的权利要求所定义的精神和范围的条件下，可以作很多改进和变化。

附录

为了增加增强参数的估计的数值鲁棒性，式(11)中所估计的增强PSD数据将按照下面的非线性变换作变换

\hat{T} = {(\hat{γ} (1), \hat{γ} (2), . . ., \hat{γ} (M))}^{T} - - - (15)

其中

而ε是一个用户选定或依赖于数据的阈值，它确保

是一个实数。使用某些粗略的近似(基于傅立叶级数展开，采样数较大的假定，以及较高的模型阶数)，在有兴趣的频率间隔，得到

方程(17)给出

在(18)中，表达式γ(k)被定义为

γ (k) = E [\hat{γ} (k)] = - \log (σ_{s}^{2}) + \log (| 1 + Σ_{m = 1}^{I} c_{m} e^{- i \frac{2 πk}{M} m} |^{2}) - - - (19)

假设有统计意义上有效的估计，以及对应的协方差矩阵

的估计，向量

x=(σ_s ²,c₁,c₂…,c_r)^T (20)以及它的协方差矩阵Px可以以初始的估计值

和

按下式计算

G (k) = {[\frac{&PartialD; Γ (x)}{&PartialD; x} |_{x = \hat{x} (k)}]}^{T}

\hat{P_{x}} (k) = {[G (k) {\hat{P}}_{Γ}^{- 1} G^{T} (k)]}^{- 1}

\hat{x} (k + 1) = \hat{x} (k) + {\hat{P}}_{x} (k) {\hat{P}}_{Γ}^{- 1} [Γ - Γ (\hat{x (k)})] - - - (21)

在上述算法中，r(x)和x之间的关系由下式给定

Γ(x)=(γ(1),γ(2),…,γ(M))^T (22)其中γ(k)由(19)给定。对于

由于Γ(x)对x的梯度由下式给定

{[\frac{&PartialD; Γ (x)}{&PartialD; x}]}^{T} = (ψ_{1}, ψ_{2}, . . ., ψ_{M}) - - - (24)

所以上述算法(21)包括对估计

的许多计算。这些计算的主要部分来自于与(M×M)矩阵的相乘及其转置。但是，

接近于对角矩阵(参看方程(18))并可近似为

{\hat{P}}_{Γ} = \frac{2 r}{N} I = const • I - - - (25)

其中I代表(M×M)的单位矩阵。因此，根据优选实施方案，可以以初始估计值

和

，用下列次优算法

G (k) = {[\frac{&PartialD; Γ (x)}{&PartialD; x} |_{x = \hat{x} (k)}]}^{T}

\hat{x} (k + 1) = \hat{x} (k) + [G (k) G^{T} (k)]^{- 1} G (k) [Γ - Γ (\hat{x} (k))] - - - (26)

在(26)中，G(k)的维数为((r+1)×M)。

参考文献[1]J.D.Gibson,B.Koo和S.D.Gray，“语音增强和编码用的有色

噪声滤波”，IEEE声学、语音和信号处理文集，第39卷，8期第

1732～1742页，1991年8月。[2]D.K.Freeman,G.Cosier,C.B.Southcott和I.Boyd，“泛欧数

字蜂窝移动电话服务用话音活动检测器”1989 IEEE声学、语音和

信号处理国际会议，1989年第489-502页。[3]J.S.Lim和A.V.Oppenheim，“弱化语音的全极点建模，”IEEE

声学、语音和信号处理文集，第ASSP-26卷3期，1978年6月第

228-231。

[4]T.Soderstrom,P.stoica，和B.Friedlander，“系统识别的间接预测误差方法。”Automatica,27卷，1期第183-188页1991年。

Claims

1．一种有噪语音参数增强的方法，其特点是

从背景噪声采样值的第一个集合开始，以M个频率确定背景噪声的一个功率谱密度的估计，其中M是一个预先确定的正整数。

从背景噪声采样值的第二个集合估计P个自回归参数，以及第一个残余方差，其中P是一个预先确定的正整数且远小于M。

以上述的M个频率，从上述的P个自回归参数以及第一个残余方差中，确定有噪语音的一个功率谱密度的估计。

通过从上述有噪语音功率谱密度的估计中减去上述背景噪声的谱密度估计乘以一个预先确定正比例因子的乘积，确定增强的语音的一个功率谱密度的估计。

从上述增强的语音功率谱密度估计中，确定r个增强的自回归参数和一个增强的残余方差，其中r是一个预先确定的正整数。

2．权利要求1中的方法，其特点是，限制上述增强的语音功率谱密度的估计为非负值。

3．权利要求2中的方法，其特点是，上述预先确定的正比例因子在0-4的范围内取值。

4．权利要求3中的方法，其特点是，上述预先确定的正比例因子近似等于1。

5．权利要求4中的方法，其特点是，上述预先确定的整数r等于上述预先确定的整数P。

6．权利要求5中的方法，其特点是，

从背景噪声采样值的第一个集合估计q个自回归参数，以及第二个残余方差，其中q是一个预先确定的正整数且远小于p。

以上述的M个频率，从上述的q个自回归参数以及第二个残差方差中，确定背景噪声的功率谱密度的估计。

7．权利要求1或6中的方法，其特点是，在一个预先确定的背景噪声采样值的集合数上，对上述背景噪声功率谱密度的估计做平均。

8．前面任何一个权利要求中的方法，其特点是，使用上述增强的自回归参数和上述增强的残余方差来调整一个滤波器，目的是对有噪语音采样值的第三个集合进行滤波。

9．权利要求8中的方法，其特点是，上述有噪语音采样值的第二个和第三个集合是同一个集合。

10．权利要求8或9中的方法，其特点是，用卡尔曼滤波的方法对上述有噪语音采样值的第三个集合进行滤波。

11．一个有噪语音参数增强装置，其特点是，

装置(22,26)用于从背景噪声采样值的第一个集合以M个频率确定背景噪声的功率谱密度的一个估计，其中M是一个预先确定的正整数。

装置(18)用于从背景噪声采样值的第二个集合估计P个自回归参数，以及第一个残余方差，其中P是一个预先确定的正整数且远小于M。

装置(20)用于以上述的M个频率，从上述的P个自回归参数以及第一个残余方差中，确定有噪语音的一个功率谱密度的估计。

装置(30)用于通过从上述有噪语音功率谱密度的估计中减去上述背景噪声的谱密度估计乘以一个预先确定正比例因子的乘积，确定增强的语音的一个功率谱密度的估计。

装置(32)用于从上述增强的语音功率谱密度估计中，确定r个增强的自回归参数和一个增强的残余方差，其中r是一个预先确定的正整数。

12．权利要求11中的装置，其特点是，装置(30)限制上述增强的语音功率谱密度的估计为非负值。

13．权利要求12中的装置，其特点是，

装置(22)用于从背景噪声采样值的第一个集合估计q个自回归参数，以及第二个残余方差，其中q是一个预先确定的正整数且远小于p。

装置(26)用于以上述的M个频率，从上述的q个自回归参数以及第二个残余方差中，确定背景噪声的功率谱密度的估计。

14．权利要求11或13中的装置，其特点是，装置(26)在一个预先确定的背景噪声采样值的集合数上，对上述背景噪声功率谱密度的估计做平均。

15．前面任何一个权利要求中的装置，其特点是，装置(34)使用上述增强的自回归参数和上述增强的残余方差来调整一个滤波器，目的是对有噪语音采样值的第三个集合进行滤波。

16．权利要求15中的装置，其特点是，卡尔曼滤波器(34)对上述有噪语音采样值的第三个集合进行滤波。

17．权利要求15中的装置，其特点是，卡尔曼滤波器(34)对上述有噪语音采样值的第三个集合进行滤波，上述有噪语音采样值的第二个和第三个集合是同一个集合。