CN100520913C

CN100520913C - 增强语音质量的方法及其装置

Info

Publication number: CN100520913C
Application number: CNB2005100995665A
Authority: CN
Inventors: 金灿佑
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2004-09-07
Filing date: 2005-09-07
Publication date: 2009-07-29
Anticipated expiration: 2025-09-07
Also published as: BRPI0503959A; EP1632935A1; CN1746974A; KR20060022525A; ATE385027T1; RU2005127995A; RU2391778C2; US20060074640A1; US7590524B2; JP4350690B2; DE602005004464T2; KR100640865B1; JP2006079085A; EP1632935B1; DE602005004464D1

Abstract

本发明涉及增强语音的质量，其中，通过从无声语音中去除噪声来减少语音质量衰减。本发明包括将输入语音划分成一有声语音和一无声语音，在所述有声语音上执行自适应滤波以去除所述有声语音的噪声，并且在所述无声语音上执行频谱相减。

Description

增强语音质量的方法及其装置

本申请要求提交于2004年9月7日的韩国专利申请第10-2004-0071371的优先权，该申请整体结合在此作为参考。

技术领域

本发明涉及增强语音质量的方法和装置。虽然本发明适合各种各样的应用，但是它尤其适用于有效地增强语音质量。

背景技术

一般而言，已经提出了各种用于增强语音质量的方法。频谱相减法(SSM)是多种方法中有代表性的一个。下文结合图1解释频谱相减法(SSM)。

SSM是一种直接评估短时频谱幅度的方法。在SSM中，语音被建模为一种形式，其中加入了一种由一不相关随机变量所表示的噪声。该语音建模由以下的公式1来表达。

(公式1)

y[n]＝s[n]+d[n]

在公式1中，y[n]是输入语音。此外，假定d[n]是s[n]的不相关噪声。因此，根据以下公式2建立了功率谱密度。

(公式2)

S_γ(e^jω)＝S_s(e^jω)+S_d(e^jω)

在公式2中，S_γ(e^jω)是通过短时离散时间傅立叶变换(DTFT)由公式3表示的。

(公式3)

S_γ(e^jω)＝|Y(e^jω)|²

相位是已知的，用来寻找语音帧本身的频谱。此外，已经证实使用实质上与噪声混合的噪声语音的相位来确定语音帧的相位是没有大的差异的。(D.L.Wang和J.S.Lim，“相位在语音增强中的不重要性”(The unimportanceof phase in speech enhancement)IEEE声学论文集，语音以及信号处理，卷ASSP30，第679—681页，1982。)

(公式4)

\hat{S} (e^{jω}) = {| S_{y} (e^{jω}) - {\hat{S}}_{d} (e^{jω}) |}^{1 / 2} e^{j φ_{t} (ω)}

公式4中的S_y(e^jω)是由公式2得出的。并且φ_t(e^jω)使用了带噪声语音的相位。这样，可从公式4得到所要的

[n]的估算值。如果没有语音，则从噪声中估算

下文参考图2解释了多种语音质量增强方法中的一种，诸如自适应线性增强器(ALE)。首先，解释通用自适应滤波器的使用，因为ALE的发展来自一种使用自适应滤波器的方案。

当使用自适应滤波器时，在接收了两个麦克风的输入后，即，接收噪声语音作为一个麦克风的输入，并接收纯噪声作为另一个麦克风的输入，由于两个麦克风间的间距等，生成一个传递函数或其类似函数。然而，自适应滤波器移除了传递函数以获得纯净的语音。

使用自适应滤波器的方法在某些情况是非常有效的，并且已经成功地用于实际用途。然而，该方法要求安装一对麦克风。同样，在判断该对麦克风应该彼此间隔多远地放置时存在着结构性难点。这样，在诸如移动终端等用户设备上应用该方法是困难的。

ALE(自适应线性增强器)是对使用自适应滤波器的方法的改进，并且是一种通过留出等于信号之间的基音周期的差，在获取自同一麦克风的信号s[n]和d[n]上执行自适应滤波的方案。在此，基音周期对应于语音信号内的有声语音部分的周期。

对于有声语音，一个周期性脉冲序列激励一个声道。这样，ALE在有声语音上施加了一个相当可观的效果。然而，对于无声语音，对应的语音是破碎的。

下文解释了多种语音质量增强方法中的一种，诸如使用自适应梳状滤波器的方案。首先，当使用自适应梳状滤波器时，一个类似于ALE的对应方案在有声语音上有着更好的效果。

在有声语音的情况下，激励信号是周期信号。即使在脉冲序列上执行傅立叶变换，结果也表明该脉冲序列出现在频域中。这样，在有声语音的情况下，在基音频率变为多倍的部分周期性地出现波峰。理所当然的是，整体频谱轮廓是由称为共振峰的声道共振来表示的。

当含噪声语音由y[n]所表示时，语音由s[n]所表示，且已去除噪声的语音被估算为由

[n]表示，由自适应梳状滤波器增强的语音由公式5表示。

(公式5)

\hat{s} [n] = Σ_{i = - L}^{L} C_{j} y (n - {iT}_{0})

在公式5中，T₀表示已提取的基音周期，c_i表示梳状滤波器系数。在此，一般使用较小的值(1～6)作为值L。同时，因为噪声通常不是周期性的，因此自适应梳状滤波器在去除噪声方面是有效的。然而，相关技术的语音质量增强方法含有以下问题或缺点。

第一，如果没有语音，则在SSM中是从噪声估算的。然而，不能够可靠地测量

即，如果假设噪声d[n]是稳定信号，则只能估算

即使的确如此，也不能避免频谱根据时间的变化。尤其是，在移动终端或其类似物的情况下，因为四周的环境在不停变化，不能可靠地测量

第二，ALE或使用自适应梳状滤波器的方案在有声语音上显示出了优秀的性能。然而，这些方案或方法仅仅适用于有声信号。在将ALE或使用自适应梳状滤波器的方案应用于无声信号的情况下，因为有声/无声(V/UV)判断的微小偏移，性能会下降。

第三，在特定语音的情况下，有声特征出现在低频，或无声特征出现在高频，由此ALE的性能下降。

发明内容

本发明针对语音质量的增强。

以下描述将给出本发明的其它特征和优点，部分可从该描述中显而易见的，或可以通过对本发明的实践来获知。本发明的目的和其它优点可通过书面描述及其权利要求书以及附图中特别指出的结构来实现和获取。

为了得到这些和其他优点并根据本发明的目的，如所实施和广泛描述的，本发明被实施为一种用于增强语音质量的方法，该方法包括将输入语音划分成有声语音和无声语音，在有声语音上执行自适应滤波以去除有声语音的噪声，并在无声语音上执行频谱相减。

较佳地，本方法还包括在有声语音上使用自适应滤波执行自适应线性增强器处理来去移有声语音的噪声。通过自适应线性增强器处理从对应于先前的有声语音的指定帧所估算出的噪声频谱的平均值用于频谱相减。自适应滤波使用从对应于有声语音的帧中提取的基音周期。

在本发明一个方面，该方法还包括在输入语音上执行低通滤波和高通滤波的至少一个，并在高通滤波的输出上执行自适应梳状滤波，以去除输出的噪声。较佳地，当高通滤波的输出对应于有声语音时，执行自适应梳状滤波。在本发明的另一方面，低通滤波的输出被划分成有声语音和无声语音。

较佳地，从有声语音段获取的的噪声频谱数据用于频谱相减。此外，噪声频谱数据是通过对噪声频谱求平均值所得的值，该噪声频谱是由通过自适应滤波从对应于先前的有声语音的指定帧所估算的。

根据本发明另一实施例，一种用于增强语音质量的装置包括一用于将输入语音划分成有声语音和无声语音的判别块、一用于在有声语音上执行自适应线性增强器处理以去除有声语音的噪声的自适应线性增强器(ALE)块、以及一用于在无声语音上执行频谱相减的频谱相减(SS)块。

较佳地，该装置还包括一用于在输入语音上执行低通滤波以输出到判别块的低通滤波器，以及一用于在输入语音上执行高通滤波的高通滤波器。

在本发明的一个方面，该装置还包括一用于当高通滤波器的输出对应于有声语音时去除来自高通滤波器的输出的噪声的自适应梳状滤波器。较佳地，该自适应梳状滤波器使用一从有声语音提取的基音周期。

在本发明的另一方面，该装置还包括一基音提取器，用于从有声语音提取基音周期，其中，该基音提取器向ALE块提供了所提取的基音周期。

较佳地，SS块使用由ALE块估算出的噪声频谱。此外，SS块使用由ALE块从对应于先前的有声语音的指定帧估算出的噪声频谱的平均值。

根据本发明另一实施例，一种用于增强语音质量的方法包括接收输入语音；在输入语音上执行高通滤波；当高通滤波的输出对应于有声语音时，在高通滤波的输出上执行自适应梳状滤波；在输入语音上执行低通滤波；当低通滤波的输出对应于有声语音时，使用自适应梳状滤波在低通滤波的输出上执行自适应线性增强器处理；以及当低通滤波的输出对应于无声语音时，在低通滤波的输出上执行频谱相减。

可以理解的是，本发明的前述概括描述和下述详细描述是示例性和解释性的，并旨在提供对要求保护的本发明的进一步解释。

附图说明

附图被包括在内以提供对本发明的进一步理解，并结合在本说明书中且作为其一部分，该附图示出了本发明的实施例以及用于揭示本发明的原理的描述。不同附图中由相同标号引用的本发明的特征、元件和方面表示根据一个或多个实施例的相同、等价或相似的特征、元件或方面。

图1是示出了一个通用频谱相减法(SSM)的框图。

图2是示出了一个通用自适应线性增强器(ALE)的框图。

图3是根据本发明一个实施例用于增强语音质量的装置的框图。

图4是示出了根据本发明的一个实施例用于增强语音质量的方法的流程图。

具体实施方式

本发明涉及增强语音质量。

现在将详细参考本发明的较佳实施例，其示例在附图中示出。只要可能的情况下，相同的参考标号将贯穿附图来表示相同或相似的部分。

在一种根据本发明的一个实施例的增强语音质量的方法中，在有声语音上执行一指定的语音质量增强处理，而在无声语音上使用从执行指定的语音质量增强处理所获得的噪声频谱来执行频谱相减法(SSM)。

参考图3，解释了一种根据本发明的一个实施例用于增强语音质量的装置。

参考图3，一种用于增强语音质量的装置包括在输入语音y[n]上执行低通滤波的低通滤波器(LPF)51，以及在输入语音y[n]上执行高通滤波的高通滤波器(HPF)50。

该装置还包括用于处理高频分量的自适应梳状滤波器56。该装置也包括有声/无声(U/UV)判别块52、基音提取器53和处理低频分量的频谱相减块55。此外，该装置包括自适应线性增强器(ALE)块54。或者，可由用于使用不同的语音质量增强方案的装置来替换ALE块54。

HPF 50的输出被输入到自适应梳状滤波器56。LPF 51的输出根据有声或无声语音来通过使用ALE或SSM的路径。V/UV判别块52判断通过LPF 51的语音是对应于有声还是无声语音。随后根据V/UV判别块52的判别结果判断是使用ALE还是SSM。

较佳地，V/UV判别块52向使用SSM的频谱相减块55传送一个对应于语音中已经通过LPF 51的无声语音的帧。或者，一个对应于语音中已经通过LPF51的有声语音的帧可被传送给使用ALE的路径。该使用ALE的路径包括基音提取器53和ALE块54。

基音提取器53从对应于已经有声语音的帧中提取基音周期T₀，并向自适应梳状滤波器56提供所提取的基音周期T₀。基音提取器53也向ALE块54提供所提取的基音周期，其中ALE块54为ALE使用该基音周期T₀来为对应于有声语音的帧增强语音质量。

如上文的描述中所提及的，本发明使用ALE块54作为根据本发明的一个实施例用于增强语音质量的装置。

因为其中存在基音频率的频率范围对应于50～400Hz，因此确定LPF51的截止频率要足以包括该频率范围，并允许在基音周期上含有最显著影响的一部分语音能够通过。较佳地，截止频率可被设置为大约800Hz。

在本发明一个实施例中，当应用ALE时，可通过重新组合400～4,000Hz的范围来获取含有0～4kHz带宽的语音。这对应于含有8kHz采样率的情况。为准备这种情况，本发明进一步使用自适应梳状滤波器56。

本发明的自适应梳状滤波器56去移了位于类似高频中由基音分量表示的脉冲序列的部分之间的噪声。较佳地，如果对应于有声语音的纯净信号存在于高频分量中，则自适应梳状滤波器56即运行。

同时，使用SSM的频谱相减块55使用从有声语音段获取的噪声频谱数据。较佳地，频谱相减块55使用通过对在先前的声语音的指定帧中估算出的噪声频谱求平均值所得的值。换言之，每当从有声语音获得噪声频谱时，对预定数量的帧的噪声频谱数据序列求平均值，来获得噪声频谱数据。这样，语音

[n]可通过从频谱相减块55和自适应梳状滤波器56的输出中去除噪声的方式来获得。

图4是根据本发明的一个实施例增强语音质量的方法的框图。参考图4，一旦输入了指定语音y[n](S1)，在输入语音y[n]上执行低通滤波(S2)和高通滤波(S3)。

其中存在基音频率的频率范围通常为50～400Hz，因此，足以包括该频率范围并在基音周期上含有最显著影响的语音部分经受低通滤波。较佳地，低通滤波的截止频率被设为大约800Hz。

随后，识别低通滤波的输出是对应于有声语音还是无声语音(S4)。如果低通滤波的输出对应于有声语音，则在对应于有声语音的帧上执行指定的语音质量增强方法。较佳地，ALE用于用于有声语音的语音质量增强方法。这样，在对应于有声语音的帧上执行ALE处理(S6)。

在ALE处理之前，理所当然的是从对应于有声语音的帧上提取基音周期(S5)。所提取的基音周期用于自适应梳状滤波(S8)和ALE处理(S6)。

然而，如果低通滤波的输出对应于无声语音，则在对应于无声语音的帧上执行频谱相减(S9)。在执行频谱相减时，使用通过对由ALE处理从先前的有声语音的指定帧估算的噪声频谱求平均值而获得的值。较佳地，使用通过每当由ALE处理从有声语音获得噪声频谱时对预定数量的帧的噪声频谱数据序列求平均值所获得的值。相应的值是从有声语音中获得的噪声频谱数据。

在输入语音y[n]上执行高通滤波所得的输出上执行自适应梳状滤波，以去除输出的噪声(S8)。这样，从来自低通滤波(S5)的输出的有声语音中提取的基音周期用于执行自适应梳状滤波。然而，在自适应梳状滤波之前，判断来自高通滤波的输出是否对应于有声语音(S7)。如果存在对应于有声语音的纯净信号，则执行自适应梳状滤波。

这样，语音

[n]可通过从频谱相减和自适应梳状滤波的结果中去除噪声的方法来获得。根据上述的本发明，性能要比ALE或SSM所希望的要好。

在本发明中，当在含有强基音特征的低通分量上执行ALE之后，自适应梳状滤波器进一步在高频分量对应于有声语音时使用。这样，如果低频和高频分别含有有声和无声特征，则本发明提供了有效的性能。

因为基于基音特征(也是语音的一般特征)增强了语音的质量，因此本发明相比其他语音质量方法(如，维纳(Wiener)滤波、频谱相减法)，对多路干扰噪声及其类似物更有抵抗力。因此，本发明可用于使用移动终端的单个麦克风的噪声去除以及用于使用便携式录音机录制语音时的噪声去除。本发明还可用于通用有线/无线电话或在PDA或其类似物中录制语音时的噪声去除。

前述实施例和优点仅仅是示例性的，且不能被解释为对本发明的限制。本教导可容易地应用于于其他类型的装置。本发明的描述旨在为说明性的，并不限制权利要求书的范围。本领域的技术人员很容易得出多种替换、修改以及变形。在权利要求书中，装置加功能条项旨在覆盖在此描述的执行所述功能的结构，不仅覆盖结构上的等价物，还覆盖了等价的结构。

Claims

1.一种增强语音质量的方法，其特征在于，包括：

将输入语音划分成一有声语音和一无声语音；

对所述有声语音执行自适应滤波以去除所述有声语音的噪声；以及

对所述无声语音执行频谱相减，

对所述输入语音执行低通滤波和高通滤波中的至少一个；

对所述高通滤波的输出执行自适应梳状滤波来去除所述输出的噪声；

其中当所述高通滤波的输出对应于所述有声语音时，执行所述自适应梳状滤波。

2.如权利要求1所述的方法，其特征在于，还包括对所述有声语音使用所述自适应滤波执行一自适应线性增强器处理，来去除所述有声语音的噪声。

3.如权利要求2所述的方法，其特征在于，通过所述自适应线性增强器处理从对应于先前的有声语音的指定帧所估算出的噪声频谱的平均值被用于所述频谱相减。

4.如权利要求1所述的方法，其特征在于，所述自适应滤波使用从对应于所述有声语音的帧中提取的基音周期。

5.如权利要求1所述的方法，其特征在于，所述低通滤波的输出被划分成有声语音和无声语音。

6.如权利要求1所述的方法，其特征在于，从所述有声语音的片段获取的噪声频谱数据用于所述频谱相减。

7.如权利要求6所述的方法，其特征在于，所述噪声频谱数据是通过对由所述自适应滤波从对应于先前的有声语音的指定帧所估算出的噪声频谱求平均值所得的值。

8.一种用于增强语音质量的装置，其特征在于，包括：

一判别块，用于将输入语音划分成一有声语音和一无声语音；

一自适应线性增强器块，用于对所述有声语音执行自适应线性增强器处理，以去除所述有声语音的噪声；以及

一频谱相减块，用于对所述无声语音执行频谱相减；

一低通滤波器，用于对所述输入语音执行低通滤波以向所述判别块输出；以及

一高通滤波器，用于对所述输入语音执行高通滤波；

一自适应梳状滤波器，用于当所述高通滤波器的输出对应于所述有声语音时去除来自所述高通滤波器的输出的噪声。

9.如权利要求8所述的装置，其特征在于，所述自适应梳状滤波器使用一从所述有声语音提取的基音周期。

10.如权利要求8所述的装置，其特征在于，还包括一基音提取器，用于从所述有声语音提取基音周期。

11.如权利要求10所述的装置，其特征在于，所述基音提取器向所述自适应线性增强器块提供所提取的基音周期。

12.如权利要求8所述的装置，其特征在于，所述频谱相减块使用由所述自适应线性增强器块估算出的噪声频谱。

13.如权利要求8所述的装置，其特征在于，所述频谱相减块使用由所述自适应线性增强器块从对应于先前的有声语音的指定帧中估算出的噪声频谱的平均值。

14.一种用于增强语音质量的方法，其特征在于，包括：

接收一输入语音；

对所述输入语音执行高通滤波；

当所述高通滤波的输出对应于一有声语音时，对所述高通滤波的输出执行自适应梳状滤波；

对所述输入语音执行低通滤波；

当所述低通滤波的输出对应于所述有声语音时，对所述低通滤波的输出使用所述自适应梳状滤波执行自适应线性增强器处理；以及

当所述低通滤波的输出对应于一无声语音时，对所述低通滤波的输出执行频谱相减。