CN101627426B

CN101627426B - 用于控制稳态背景噪声的平滑的方法和设备

Info

Publication number: CN101627426B
Application number: CN2008800072746A
Authority: CN
Inventors: S·布鲁恩
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2007-03-05
Filing date: 2008-02-27
Publication date: 2013-03-13
Anticipated expiration: 2028-02-27
Also published as: US20100088092A1; WO2008108721A1; RU2469419C2; US9852739B2; US20160155457A1; US20180075854A1; JP5198477B2; EP2118889B1; PL2118889T3; US9318117B2; RU2009136562A; JP2010520513A; CN101627426A; EP2118889A1; ZA200906297B; US10438601B2; EP2118889A4

Abstract

在对电信语音会话中的稳态背景噪声进行平滑的方法中，最初对表示语音会话的信号进行接收和解码S10，其中所述信号包括语音分量和背景噪声分量。之后，为所述信号提供S20噪度度量，并且根据所提供的噪度度量来自适应地平滑S30背景噪声分量。

Description

用于控制稳态背景噪声的平滑的方法和设备

技术领域

本发明大体上涉及电信系统中的语音编码，尤其涉及用于控制此类系统中稳态背景噪声的平滑(smoothing)的方法和设备。

背景技术

语音编码是获得话音信号的紧凑(compact)表示以实现在带宽受限的有线和无线信道和/或存储装置上的高效传输的过程。当今，语音编码器已经成为电信和多媒体基础设施中的重要组成部分。依赖于高效语音编码的商用系统包括蜂窝通信、互联网协议语音(VOIP)、视频会议、电子玩具、存档和数字同步语音和数据(DSVD)，以及众多的基于PC的游戏和多媒体应用。

作为连续时间信号，可以通过采样和量化过程对语音进行数字表示。通常使用16比特或8比特量化来对语音采样进行量化。类似于许多其他信号，语音信号包含大量冗余信息(信号中的连续采样之间的非零互信息)或者在感知上无关的信息(收听人无法感知的信息)。多数电信编码器是有损耗的，这意味着合成语音在感知上类似于原始语音、但是可能在物理上不一样。

语音编码器将数字化语音信号转换为经编码的表示，后者通常是以帧来传送的。相应地，语音解码器接收经编码的帧并对所重构的语音进行合成。

许多现代语音编码器属于被称作LPC(线性预测编码器)的一大类语音编码器。此类编码器的实例是：3GPP FR、EFR、AMR和AMR-WB语音编解码器，3GPP2 EVRC、SMV和EVRC-WB语音编解码器，以及诸如G.278、G.723、G.729等等之类的各种ITU-T编解码器。

这些编码器都在信号生成过程中采用合成滤波器概念。该滤波器用于对将被再生的信号的短时频谱进行建模，而该滤波器的输入被假设为处理所有其他信号变化。

这些合成滤波器模型的共同特征是：将被再生的信号是由定义该滤波器的参数来表示的。术语“线性预测”指的是通常用于估计滤波器参数的一类方法。因而，将被再生的信号部分由一组滤波器参数来表示并且部分由驱动滤波器的激励信号来表示。

此类编码概念的益处源于这样的事实：能够用相对少的比特高效地描述滤波器和其驱动激励信号这二者。

一个特定类别的基于LPC的编解码器是基于综合分析(AbS)原则。这些编解码器在编码器中包括了解码器的本地复本(local copy)，并且通过在一组候选激励信号之中选择使合成的输出信号与原始语音信号的相似性最高的激励信号来寻找合成滤波器的驱动激励信号。

采用此类线性预测编码并且尤其是AbS编码的概念已被证明对于语音信号而言是比较适用的，即使是在例如4-12kbps的低比特率的情况下也是如此。然而，当使用此类编码技术的移动电话的用户沉默并且输入信号包括环境声音时，目前已知的编码器难以应对该情况，原因是它们是针对语音信号而被优化的。当不能识别所熟悉的声音时(原因是它们已经被编码器“错误处理(mistreat)”了)，另一侧的收听者会很容易变得气恼。

所谓的涡流(swirling)引起再生背景声音中最为严重的质量降级。该现象发生于具有相对稳态的背景声音的场景中，诸如汽车噪声，并且是由经解码信号的频谱和功率的非自然时间波动(temporalfluctuation)引起的。这些波动又是由对合成滤波器因子和其激励信号的估计和量化不足引起的。通常，当编解码器比特率增加时，涡流会变小。

涡流先前已经被认为是一个问题，并且在文献中已经针对其提出了多种解决方案。美国专利5632004[1]公开了一种所提出的解决方案。根据该专利，在语音不活动(inactive)期间，通过低通滤波或带宽扩展来修改滤波器参数以使得合成的背景声音的频谱变化减少。美国专利5579432[2]中进一步改进了该方法，以使得所描述的反涡流技术仅仅在检测到背景噪声的稳态时才应用。

美国专利5487087[3]公开了另一种解决涡流问题的方法。该方法利用经修改的信号量化方案，后者匹配信号本身和其时变这二者。特别地，设想了在不活动语音的时段(period)期间为LPC滤波器参数和信号增益参数使用此类波动减少的量化器。

另一组方法解决了由经合成的信号的不期望的功率波动所引起的信号质量降级。美国专利6275798[4]中描述了其中之一，并且该方法也是3GPP TS 26.090[5]中所描述的AMR语音编解码器算法的一部分。根据该公开，依赖于LPC短期频谱的平稳性(stationarity)来自适应地(adaptively)对合成的滤波器激励信号、固定的码本组成中的至少一个分量的增益进行平滑。专利EP 1096476[6]和专利申请EP1688920[7]的公开中进一步研究了该方法，其中平滑操作还包含将在信号合成中使用的增益限制。US 5953697[8]中描述了将用于LPC声码器中的相关方法。根据该公开，控制合成滤波器的激励信号的增益以使得经合成语音的最大幅度刚好达到输入语音波形包络。

另一类解决涡流问题的方法作为语音解码器后的后处理器而运行。专利EP 0665530[9]描述了一种方法，该方法在所检测到的语音不活动期间用经低通滤波的白噪声和舒适噪声信号来代替部分语音解码器输出信号。类似的方法在各种出版物中被采用，这些出版物公开了相关方法，这些方法用经滤波的噪声来代替部分语音解码器输出信号。

参见图1，可缩放(scalable)或嵌入式编码是一种编码范例，其中，编码是在多层中进行的。基层或核心层以低比特率对信号进行编码，而其他层(一层在另一层之上)相对于编码提供一定增强，这是通过从核心层一直到先前各层的所有层来实现的。每层增加一定额外的比特率。所生成的比特流被嵌入，这意味着较低层编码的比特流被嵌入更高层的比特流。这一特性使得在传输或接收器中的任何地方丢弃属于较高层的比特成为可能。此类经剥离的(stripped)比特流仍能够被解码至保留比特的层。

当今最常使用的可缩放语音压缩算法是64kbps G.711 A/U律对数算法PCM编解码器。经8kHz采样的G.711编解码器将12比特或13比特线性PCM采样转换为8比特对数采样。对数采样的有序(ordered)比特表示允许偷用G.711比特流中的最低位(LSB)，从而使G.711编码器在48、56和64kbps之间实际上是SNR可缩放的。出于带内控制信令的目的，将G.711编解码器的该缩放特性用于电路交换通信网络中。使用该G.711缩放特性的最近实例是3GPP TFO协议，该协议支持在传统64kbps PCM链路上进行宽带语音建立和传输。初始使用原始64kbps G.711流中的8kbps，以在不显著影响窄带服务质量的情况下兼顾宽带语音服务的呼叫建立。在呼叫建立之后，宽带语音将使用64kbps G.711流中的16kbps。其他支持开环可缩放性的较早的语音编码标准是G.727(嵌入式ADPCM)以及一定程度上的G.722(子带ADPCM)。

可缩放语音编码技术的更新的进展是MPEG-4标准，该标准为MPEG4-CELP提供了缩放性扩展。通过传输额外滤波器参数信息和额外创新参数信息，可以增强MPE基层。国际电信联盟标准化委员会ITU-T近期已经结束了新的可缩放编解码器G.729.1(也被称作G.729.EV)的标准化。该可缩放语音编解码器的比特率范围是从8kbps到32kbps。该编解码器的主要使用场合是允许在家中或办公室网关中高效地共享有限的带宽资源，例如在若干VOIP呼叫之间共享xDSL64/128kbps上行链路。

可缩放语音编码的一个最近的趋势是为较高层提供对非语音音频信号(诸如音乐)的编码的支持。在此类编解码器中，例如根据综合分析范例(在该范例中，CELP是突出的实例)，较低层仅仅采用传统的语音编码。因为此类编码仅仅非常适合语音而对于诸如音乐之类的非语音音频信号就不那么适合，所以上层根据用于音频编解码器中的编码范例来工作。这里，上层编码通常对下层编码的编码误差有影响。

另一种涉及语音编解码器的相关方法是所谓的频谱倾斜补偿，其是在对经解码的语音的自适应后置滤波(postfiltering)的背景中进行的。其所解决的问题是补偿短期或共振峰(format)后置滤波器所引入的频谱倾斜。此类技术是例如AMR编解码器和SMV编解码器的一部分，并且主要目标是语音期间的编解码器性能而非其背景噪声性能。SMV编解码器在合成滤波前的加权残值域中应用该倾斜补偿，不过并非响应于该残值的LPC分析。

上述任何解决涡流问题的技术的共同点是：必须如此应用它们以使得它们对涡流提供最佳可能的增强效果而不对语音再生(reproduction)的质量造成负面影响。因而，所有这些方法仅在实施了适当规则时才提供益处，其中根据所述规则、依赖于待重构的信号特性而对它们进行激活或去激活。在以下的现有技术中，在如何控制它们的特定方面来讨论防涡流技术。

一个现有技术公开[10]公开了一种特定的噪声平滑方法以及其特定控制。该控制基于对经解码的信号中的背景噪声比的估计，其又操纵(steer)该特定平滑方法中的某些增益因子。值得强调的是，不像其他方法，该平滑方法的激活不是响应于VAD标记或者某些稳态量度(metric)而控制的。

与上述现有技术形成对比，另一公开[11]描述了响应于某些稳态噪声检测器的平滑操作。不使用专用VAD，而是根据LPC参数(LSF)的测量和能量波动以及音调(pitch)信息来进行硬判决。为了缓解将语音帧误分类为稳态噪声帧的问题，向语音突发中添加延时(hangover)时段。

另一现有技术公开[9]描述了背景噪声平滑方法的控制功能，该功能响应于VAD标记而运行。为了防止语音帧被宣告(declare)为不活动，向其间噪声平滑保持不活动的、被宣告为活动语音的信号突发添加延时时段。为确保从背景噪声平滑被去激活的时段到平滑被激活的时段的平滑过渡，逐渐激活平滑至某一固定最大程度的平滑操作。代替部分经解码的语音信号的噪声信号的功率和谱特征(高通滤波的程度)适应于经解码的语音信号中的背景噪声电平估计。尽管如此，平滑操作的程度，即以噪声代替经解码的语音信号的量，仅仅取决于VAD判决，而决不取决于对背景噪声的特性(诸如平稳性等等)的分析。

先前所提到的[4]的公开描述了用于解码器的参数平滑方法，该解码器允许响应于混频(mix)因子而进行逐渐(增益)参数平滑。该混频因子是对待重构的信号的平稳性的指示，并且控制参数平滑，以使得所检测到的平稳性越大，所执行的平滑就越多。

根据上述[10]的平滑操作控制算法的主要问题是：其特别适合于其中所描述的特定噪声平滑器(smoother)。因此，其是否能与其他任一种噪声平滑方法结合使用(以及如何与其他任一种噪声平滑方法结合使用)都不明显。没有使用VAD的事实引起了特定问题，即该方法甚至在活动的语音部分执行信号修改，这潜在地使得语音降级或者至少影响其再生的自然性。

根据[11]和[9]的平滑算法的主要问题是：背景噪声平滑的程度不是逐渐依赖于将被近似的背景噪声的特性。例如，根据完全启用或禁用哪种平滑操作，现有技术[11]利用稳态噪声帧检测。与之类似，[9]中所公开的方法不能根据背景噪声特性来操纵平滑方法，这样其使用程度较低。这意味着所述方法遭受用于那些背景噪声类型的非自然噪声再生，尽管所述背景噪声类型表现出不能通过所采用的噪声平滑方法而被适当建模的特性，但是它们还是被分类为稳态噪声或不活动语音。

中所公开的方法的主要问题是：其强烈依赖于至少考虑了当前帧的当前参数和对应的先前参数的稳态估计。尽管如此，在与本发明相关的研究期间，发现平稳性尽管有用，但是不能总提供关于是否希望进行背景噪声平滑的良好指示。此外，仅仅依赖于平稳性度量同样会导致以下情况：其中即使某些噪声类型表现出不能通过所采用的噪声平滑方法而被适当建模的特性，它们也被分类为稳态噪声。

限制所有上述方法的特定问题来自于以下事实：它们仅仅是解码器方法。由于该事实，它们在以一定准确度评价背景噪声特性方面存在概念性问题，如果应利用渐进分辨率来控制噪声平滑操作，则将需要所述准确度。然而，这对于自然噪声再生将是必需的。

依赖于平稳性度量的所有方法的共同问题是：平稳性本身是指示统计信号特性(如能量和谱)在多大程度上在时间上保持不变的特性。由于这个原因，通常通过将给定帧或子帧的统计特性与先前帧或子帧的特性进行比较来计算平稳性度量。然而，提供平稳性度量仅在较低程度上作为背景信号的实际感知特性的指示。特别地，平稳性度量并不指示信号有多么类似噪声(noise-like)，尽管如此，根据发明者的研究，其对于好的防涡流方法而言是必不可少的参数。

因此，所需要的是控制电信系统中的背景噪声平滑操作语音会话的方法和设备。

发明内容

本发明的一个目的是实现电信系统中改进的语音会话质量。

本发明的另一目的是实现对电信系统中的语音会话中的稳态背景噪声的改进的平滑控制。

这些和其他目的是根据所附权利要求来实现的。

基本上，在平滑电信语音会话中的稳态背景噪声的方法中，最初对表示语音会话的信号进行接收和解码S10，所述信号包括语音分量和背景噪声分量这二者。此外，为该信号提供S20噪度(noisiness)度量，并且根据所提供的噪度度量来自适应地平滑S30背景噪声分量。

本发明的优点包含：

电信系统中改进的语音会话质量。

稳态背景噪声信号的改进的重构信号质量。

附图说明

通过结合附图并参见以下描述，可以清楚地理解本发明以及本发明的其他目的和优点，其中：

图1是可缩放语音和音频编解码器的示意性框图；

图2是图示了根据本发明的背景噪声平滑方法的实施例的流程图；

图3是图示了根据本发明的实施例的间接控制平滑的方法的时序图的示意图；

图4是图示了根据本发明的方法的实施例的对背景噪声平滑的VAD驱动激活的时序图的示意图；

图5是图示了根据本发明的设备的实施例的流程图；

图6是图示了根据本发明的控制器设备的实施例的框图；

图7是图示了根据本发明的设备的实施例的框图。

缩写

AbS综合分析

ADPCM自适应差分PCM

AMR-WB自适应多速率宽带

EVRC-WB增强可变速率宽带编解码器

CELP码激励线性预测

DXT不连续传输

DSVD数字同步语音和数据

ISP导抗谱对(Immittance Spectral Pair)

ITU-T国际电信联盟

LPC线性预测编码器

LSF线性谱频率

MPEG运动图像专家组

PCM脉冲编码调制

SMV可选择模式声码器

VAD话音活动检测器

VOIP基于网际协议的语音

具体实施方式

本说明书将在无线移动语音会话的背景中描述本发明。尽管如此，其同样适用于有线连接。在以下描述中，术语语音和话音将被作为同义使用。因而语音会话指示电信网络中至少两个终端或节点之间的话音/语音通信。假设语音会话总是包括两个分量，即语音分量和背景噪声分量。语音分量是该会话的实际有声(voiced)通信，其能够是活动的(例如一个人在讲话)或者不活动的(例如该人在词或短语之间沉默)。背景噪声分量是来自于讲话人周围环境的环境噪声。该噪声在性质上或多或少会是稳态的。

如上所述，语音会话的一个问题是如何提高包含稳态背景噪声(或就此而言的其他任意噪声)的环境中的语音会话质量。根据已知方法，存在多种被频繁采用的平滑背景噪声的方法。尽管如此，存在这样的风险：通过使语音分量失真或者使得剩余背景噪声甚至更为令人烦扰，平滑操作实际上降低了语音会话的质量或“可听性”。

在研究本发明的过程中，发现背景噪声平滑仅对于某些背景信号(诸如汽车噪声)特别有用。对于其他背景噪声类型(诸如串音(babble)、办公室、重音(double taker)等等)，背景噪声平滑不会向合成的信号提供同等程度的质量改进，并且甚至可能使得背景噪声再生不自然。还发现，“噪度”是适当的表征性特征，其指示背景噪声平滑是否能够提供质量增强。还发现，噪度是比平稳性更为充分的特征，其中平稳性已经在现有技术方法中得以应用。

因此，本发明的主要目标是根据背景信号的噪度度量或量度来逐渐控制稳态背景噪声的平滑操作。如果在话音不活动期间，发现背景信号非常类似噪声，则使用更大程度的平滑。如果不活动信号不那么类似噪声，则降低噪声平滑的程度或者根本不执行平滑。噪度度量优选地得自于编码器中，并且被传送至解码器，在解码器中，对噪声平滑的控制取决于此。尽管如此，其还能够得自于解码器本身。

参见图2，基本上，根据本发明的一般实施例包括对电信系统中至少两个终端之间的电信语音会话中的稳态背景噪声进行平滑的方法。最初，对表示语音会话(即至少两个移动用户之间的有声信息交换)的信号进行接收和解码S10，所述信号能够被描述成包括语音分量(即实际话音)和背景噪声分量(即环境声音)这二者。为了在话音不活动期间对背景噪声进行平滑，为语音会话确定噪度度量并为该信号提供S20噪度度量。噪度度量是对稳态背景噪声分量的噪声程度的度量。之后，根据所提供的噪度度量对背景噪声分量进行自适应地平滑S30或修改。最后，将所传送信号的信号表示与由此经平滑的背景噪声分量相合成以使得所接收到的信号的质量得以改进。

根据本发明的另一实施例，噪度量度描述信号有多么类似噪声或者其包含了多少随机分量。更特别地，能够根据信号的可预测性来定义并描述噪度度量或量度，其中，具有强随机分量的信号的可预测性很差，而具有弱随机分量的信号则更容易预测。因此，能够通过公知的信号的LPC预测增益G_p来定义此类噪度度量，其被定义为：

G_{p} = \frac{σ_{x}^{2}}{σ_{e, p}^{2}} - - - (1)

此处，σ_x ²表示背景(噪声)信号的方差，并且σ_e，p ²表示通过p阶LPC分析所获得的该信号的LPC预测误差的方差。除了方差，还可以通过功率或能量来定义预测增益。还已知，预测误差方差σ_e，p ²和预测误差方差序列σ_e，k ²，k＝1...p-1，可作为Levinson-Durbin算法的副产品而被很容易地获得，Levinson-Durbin算法用于根据背景噪声信号的自相关参数序列来计算LPC参数。通常，预测增益对于具有较弱随机分量的信号而言比较高，而对于类似噪声的信号而言则较低。

根据本发明的优选实施例，通过采用具有不同阶数p和q的两个LPC预测滤波器的预测增益的比率来获得适当的类似的噪度量度，其中p＞q，

metric (p, q) = \frac{G_{p}}{G_{q}} = \frac{σ_{e, q}^{2}}{σ_{e, p}^{2}} - - - (2)

该量度给出以下指示：当将LPC滤波器阶数从q增加到p时，预测增益的增加多少。如果该信号具有低噪度则其给出高值，而如果噪度值高则给出接近1的值。适当的选择是q＝2而p＝16，不过LPC阶数的其他值同样是可能的。

应当注意到，优选地，在编码器侧确定或计算上述噪度量度或度量并且此后将其传送至解码器侧，并且在解码器侧提供。尽管如此，根据解码器侧实际接收到的信号来确定或计算噪度量度同样是可能的(仅做微小的调整)。

在编码器侧计算量度的一个优势是：计算能够基于未量化的(un-quantized)LPC参数，并且因此潜在地具有最佳可能解。此外，计算该量度不需要额外的计算复杂性，原因是所需的预测误差方差可作为LPC分析的副产品而被很容易获得(如上所述)，所述LPC分析通常在任何情况下都被执行。在编码器中计算量度需要该量度之后被量化，并且需要经量化的量度的编码表示被传送至解码器，在解码器中，其用于控制背景噪声平滑。噪度参数的传输需要某种比特率，例如每20ms帧5比特因此250bps，这可能形成劣势。尽管如此，考虑到在语音不活动时段期间仅需要噪度参数，所以根据特定实施例，在活动的语音期间略过(skip)该传输、并且仅在不活动期间对其进行传送是可能的，其中在所述不活动期间，通常是能够获得该比特率的，原因是编解码器不需要与活动语音期间相同的比特率。与之类似，考虑到以某种特定较低速率模式对无声语音声音和不活动声音进行编码的语音编解码器的特殊情况，提供该额外的比特率而不增加额外成本也是可能的。

尽管如此，如上所述，根据所接收到的并经解码的LPC参数在解码器侧得到噪度度量是可能的。公知的提升(step-up)/降低(step-down)过程提供了一种用于从所接收到的LPC参数计算预测误差方差序列的方法，如上所述，其继而能够被用于计算噪度度量。

应当指出，根据实验性结果，本发明的噪度度量在结合特定背景噪声平滑方法的情况下特别有益，在研究中，该度量与所述方法相结合。尽管如此，在结合了其他防涡流方法的情况下，将该度量与在现有技术中已知的稳态度量相结合可能是有益的。噪度度量能够与之相结合的一种此类度量是LPC参数相似性量度。该度量例如通过对应的LPC参数向量之间的Euclidian距离来评估两个连续帧的LPC参数，如LSF参数。如果连续LPC参数向量差异很大，则该量度会引起较大的值并且由此能够被用作信号平稳性的指示。

还应当注意，除了本发明的“噪度”与现有技术方法的“平稳性”之间的上述概念性差异之外，这些度量之间还存在至少一个另外的重要的区别性差异。即，计算平稳性包含得到至少当前帧的当前参数，并且将其与至少某个先前帧的先前参数相关。与之对照，噪度能够被计算为对当前帧的即时度量而不用了解某个较早的帧。其好处是能够节省用于存储来自于先前帧的状态的存储器。

以下实施例描述了能够根据所提供的噪度度量来控制防涡流方法的方式。假设通过控制因子来控制平滑操作并且不限制一般性，等于1的控制因子意味着没有平滑操作，而等于0的因子意味着最大可能程度的平滑。

根据基本实施例，所提供的噪度度量直接控制对背景噪声信号进行解码期间所应用的平滑的程度。假设通过参数γ来控制平滑程度。于是例如，根据以下示例性表达式将来自上文的噪度量度直接映射为γ是可能的

γ＝Q{(metric-1)·μ}+v (3)

v的适当选择是0.5并且对于μ而言，是0.5与2之间的值。应当注意到Q{.}表示量化运算符，其还执行数值范围的限制以使得控制因子不超过1。还应注意，优选地根据输入信号的谱含量来选择系数μ。特别地，如果编解码器是以16kHz采样率进行操作的宽带编解码器并且输入信号具有宽带频谱(0-7kHz)，则该量度会引起比输入信号具有窄带频谱(0-3400Hz)的情况中相对更小的值。为了对该效应进行补偿，针对宽带含量的μ应比针对窄带含量的μ大。适当选择是对于宽带含量而言μ＝2，而对于窄带含量而言μ＝0.5。尽管如此，取决于特定情况，其他值也是可能的。因而，根据该信号是包含宽带含量还是窄带含量，能够通过参数μ来对平滑操作程度进行特殊校准。

影响重构背景噪声信号的质量的一个重要方面是不活动时段期间的噪度量度会非常快速地变化。如果前述噪度量度用于直接控制背景噪声平滑，其可能会引入不期望的信号波动。参见图3，根据本发明的另一优选实施例，噪度度量用于对背景噪声平滑进行间接控制而非直接控制。一种可能性是例如利用低通滤波的噪度度量的平滑。尽管如此，这可能引起以下情况：可应用比量度所指示的程度更强的平滑程度，其继而可能影响合成的信号的自然性。因此，优选原则是避免背景噪声平滑程度快速提高，并且另一方面，当噪度量度突然指示更低程度的平滑是适当的时候允许快速地改变。以下描述指定操纵背景噪声平滑的程度以便实现该行为的一种优选方法。假设通过参数γ来控制平滑程度。不像上述直接控制，噪度度量现在根据以下公式来操纵间接控制参数：

γ_min＝Q{(metric-1)·μ}+v (4)

则平滑控制参数γ被设置为γ_min与先前所使用的平滑控制参数γ减去某个量δ之后之间的最大值：

γ＝max(γ_min，γ-δ) (5)

该操作的效果是只要γ仍大于γ_min，则逐步朝着γ_min来调整γ。否则，其等于γ_min。对于该步长大小δ的适当选择是0.05。在图3中，所描述的操作被直观化。

本发明者的研究已经表明，间接或直接取决于所提供的噪度度量的背景噪声平滑能够提供重构背景噪声信号的质量增强。还已经发现，对于质量而言以下是很重要的：确保在活动语音期间避免平滑操作，并且背景噪声平滑的程度不会太频繁且太快速地改变。

一个相关方面是语音活动检测(VAD)操作，VAD操作控制是否启用背景噪声平滑。理想情况下，VAD应检测其中启用背景噪声平滑的语音信号的活动部分之间的不活动时段。尽管如此，在实际中，不存在这样的理想VAD，并且会发生部分活动语音被宣告为不活动或者不活动部分被宣告为活动语音的情况。为了提供针对活动语音可能被宣告为不活动的问题的解决方案，通常做法是例如在具有不连续传输(DTX)的语音传输中向被宣告为活动的分段添加所谓的延时时段。这是一种人为扩展被宣告为活动的时段的方法。其降低帧被错误地宣告为不活动的可能性。已经发现，在控制背景噪声平滑操作的背景中，能够有利地应用对应的原则。

参见图2和图6，根据本发明的优选实施例，公开了检测语音分量的活动状态的另一步骤S25。之后，控制背景噪声平滑操作并且仅响应于所检测到的语音分量的不活动而发起背景噪声平滑操作。此外，使用延迟或延时，这意味着仅在VAD已开始宣告帧为不活动的预定数目的帧之后才启用背景噪声平滑。适当的选择(并非限制)是例如在启用噪声平滑之前、VAD已经开始宣告帧为不活动之后等待5帧(＝100ms)。关于VAD有时会宣告非语音帧为活动的问题，发现无论何时VAD宣告帧为活动，不管该VAD判决是否正确，关闭背景噪声平滑操作都是适当的。此外，在乱真(spurious)VAD激活之后，即刻恢复背景噪声平滑(即没有延时)是有益的。如果所检测到活动时段仅仅是短暂的，其例如小于或等于3帧(＝60ms)。

为了进一步改进背景噪声平滑的性能，发现在延时时段之后逐渐启用背景噪声平滑而非过于突然开启背景噪声平滑是有益的。为了实现此类逐渐启用，定义了渐入(phase-in)时段，在该渐入时段期间，操纵平滑操作逐渐从非激活状态到完全启用状态。假设渐入时段长为k个帧，并且还假设当前帧为该渐入时段中的第n个帧，则通过在其原始值γ与其对应于平滑操作去激活(γ_inact＝1)的值之间进行内插来获得用于该帧的平滑控制参数g^*：

g^{*} = 1 + \frac{(γ - 1) \cdot n}{K} - - - (6)

应当注意到，仅在延时时段之后(即不是乱真VAD激活之后)激活渐入时段是有益的。

图4图示了示例性时序图，其指示了平滑控制参数g^*与VAD标记、添加的延时和渐入时段的依赖关系。此外，示出了仅当VAD是0、并且在延时时段之后，平滑才被启用。

图5的流程图中示出了利用背景噪声平滑的语音活动驱动(VAD)激活来实施上述方法的过程的另一实施例，并且下文将对此进行解释。为以起点开始的每个帧(或子帧)执行该过程。首先，检查VAD标记，并且如果其具有等于1的值，则执行活动语音路径。此处，增加用于活动语音帧的计数器(Act_count)。然后检查计数器是否超过乱真VAD激活限度(Act_count＞enab_ho_lim)，并且如果情况就是这样，则重置用于不活动帧的计数器(Inact_count＝0)，这又是指示在下一个不活动时段期间将要添加延时时段的信号。此后，该过程停止。

尽管如此，如果VAD标记具有指示不活动的等于0的值，则执行不活动语音路径。此处，首先增加不活动帧计数器(Inact_count)。然后检查该计数器是否小于或等于延时限度(Inact_count＜＝ho)，在该种情况下，执行用于延时时段的执行路径。在这种情况下，噪声平滑控制参数g^*被设定为1，这会禁用平滑。此外，用乱真VAD激活限度对活动帧计数器进行初始化(Act_count＝enab_ho_lim)，这意味着在后续的乱真VAD激活的情况下，仍不会禁用延时时段。此后，该过程停止。如果不活动帧计数器大于延时限度，则检查不活动帧是否小于或等于延时限度加上渐入限度(Inact_count＜＝ho+pi)。如果情况是这样，则执行对渐入时段的处理，这意味着利用上述内插(g^*＝内插)来获得噪声平滑控制参数。否则，不修改噪声平滑控制参数。此后，利用按照噪声平滑参数的程度执行背景噪声平滑过程。之后，重置活动帧计数器(Act_count＝0)，这意味着此后，在乱真VAD激活之后，禁用延时时段。此后，该过程停止。

取决于利用噪声平滑过程所达到的质量，其不仅在不活动语音期间，而且在具有类似噪声特征的无声语音期间可引起质量增强。因此，在这种情况下，背景噪声平滑的语音活动驱动激活可受益于扩展，其不仅在不活动语音帧而且在无声帧期间被激活。

通过将所述方法与背景噪声平滑的间接控制和背景噪声平滑的语音活动驱动的激活相结合，获得本发明的优选实施例。

根据结合可缩放编解码器的本发明的另一实施例，如果利用更高速率层进行解码，则总体上降低了平滑程度。这是因为更高速率的语音编码在背景噪声时段期间通常具有更少的涡流问题。

本发明特别有益的实施例能够与平滑操作相结合，其中，结合了LPC参数平滑(例如低通滤波)和激励信号修改。简而言之，平滑操作包含对表示语音会话的信号进行接收和解码，该信号包括语音分量和背景噪声分量。之后，为该信号确定LPC参数和激励信号。此后，通过降低激励信号的功率和谱波动来修改所确定的激励信号以提供经平滑的输出信号。最后，根据所确定的LPC参数和激励信号，对输出信号进行合成和输出。与本发明的控制操作相结合，提供了质量得以改进的经合成的语音信号。

下文参考图6和7来描述根据本发明的设备。图6和图7中的通用输入/输出单元I/O中隐含地公开了不涉及本发明的特定工作的任意公知的通用传输/接收和/或编码/解码功能。

参见图6，其示出了用于对电信语音会话中的稳态背景噪声分量的平滑进行控制的控制单元1。控制单元1适于接收和传送与语音会话相关的输入/输出信号。因而，控制器1包括用于处理传入信号和传出信号的通用输出/输出I/O单元。此外，该控制器包括接收器和解码器单元10，其适于对包括语音分量和背景噪声分量这二者的表示语音会话的信号进行接收和解码。此外，单元1包括用于提供与输入信号相关的噪度量度的单元20。根据一个实施例，噪度单元20可适于根据所接收到的信号来实际确定噪度度量，或者根据另一实施例，适于从电信系统中的某个其他节点(优选地从所接收到的信号所源自的节点或用户终端)接收噪度度量。此外，控制器1包括背景平滑单元30，后者根据来自于噪度度量单元20的噪度度量来实现对所重构的语音信号的平滑。

仍参见图6，根据另一实施例，控制器设备1包括语音活动检测器或VAD 25，后者由附图中的虚线框所指示。VAD 25运行以检测信号的语音分量的活动状态，并且将其作为另外的输入而提供以在平滑单元30中实现改进的平滑。

参见图7，控制器设备1优选地集成在电信系统中的解码器单元中。尽管如此，如针对图6所描述的那样，控制器1中用于提供噪度度量的单元可适于仅接收从电信系统中的另一节点传送的噪度度量。因而，图7中还公开了编码器设备。编码器包括用于传送和接收信号的通用输入/输出单元I/O。该单元隐含地公开了所有必要的已知的用于使得编码器能够运行的功能。一种此类功能被特别公开为编码和传送单元100，其用于对表示语音会话的信号进行编码和传送。此外，编码器包括单元200和单元300，单元200用于为所传送的信号确定噪度度量，单元300用于将所确定的噪度度量传送至控制器1的噪度提供单元20。

本发明的优点包括：

改进的背景噪声平滑操作；

对背景噪声平滑的改进控制。

本领域技术人员应当理解，可以对本发明进行各种修改和变化而不脱离由所附权利要求所定义的范围。

参考文献

美国专利5632004

美国专利5579432

美国专利5487087

美国专利6275798B1

3GPP TS 26.090，AMR语音编解码器；代码转换功能

EP 1096476

EP 1688920

美国专利5953697

EP 665530 B1

Tasaki等人，Post noise smoother to improve low bit ratespeech-coding performance，IEEE Workshop on speech coding，1999

Ehara等人，Noise Post-Processing Based on a StationaryNoise Generator，IEEE Workshop on speech coding，2002

Claims

1.一种对电信语音会话中的稳态背景噪声进行平滑的方法，其特征在于：

对表示语音会话的信号进行接收和解码(S10)，所述信号包括语音分量和背景噪声分量这二者；

为所述信号提供(S20)噪度度量，所述噪度度量指示信号的可预测性，所述噪度度量是根据所述信号的可预测性来定义的；以及

根据所述提供的噪度度量来自适应地平滑(S30)所述背景噪声分量，其中所述平滑操作由所述噪度度量根据平滑控制参数来间接控制，所述平滑控制参数逐渐跟踪所检测到的所述噪度度量的增加，并且即刻跟踪所检测到的所述噪度度量的减小。

2.根据权利要求1所述的方法，其特征在于所述噪度度量逆向地取决于可预测性。

3.根据权利要求2所述的方法，其特征在于所述噪度度量基于与具有不同阶数的LPC分析滤波相关联的预测误差方差的比率。

4.根据权利要求1所述的方法，其特征在于响应于所检测到的所述表示语音会话的信号的窄带或宽带含量而适配所述噪度量度。

5.根据权利要求1所述的方法，其特征在于为所述信号的每个帧至少执行一次所述噪度提供步骤(S20)。

6.根据权利要求5所述的方法，其特征在于为所述信号的每个所述帧的每个子帧执行所述噪度提供步骤(S20)。

7.根据前述权利要求中任一项所述的方法，其特征在于另外的步骤：检测(S25)所述语音分量的活动状态，以及响应于具有不活动状态的所述语音分量而发起所述自适应平滑。

8.根据权利要求7所述的方法，其特征在于响应于所检测到的不活动语音分量而以预定延迟发起所述自适应平滑。

9.根据权利要求8所述的方法，其特征在于在少于预定数目的帧的乱真VAD激活之后即刻恢复所述背景噪声平滑。

10.根据权利要求8所述的方法，其特征在于在所述延迟结束时逐渐发起所述平滑操作。

11.根据权利要求7所述的方法，其特征在于响应于检测到活动语音分量而即刻终止所述自适应平滑。

12.一种用于电信系统中的背景平滑的控制器，其特征在于：

用于对表示语音会话的信号进行接收和解码的装置(10)，所述信号包括语音分量和背景噪声分量这二者；

用于为所述信号提供噪度度量的装置(20)，所述噪度度量指示信号的可预测性；所述噪度度量是根据所述信号的可预测性来定义的；以及

用于根据所述提供的噪度度量来自适应地平滑所述背景噪声分量的装置(30)，其中所述平滑装置适于由所述噪度度量根据平滑控制参数来间接控制，所述平滑控制参数逐渐跟踪所检测到的所述噪度度量的增加，并且即刻跟踪所检测到的所述噪度度量的减小。

13.根据权利要求12所述的控制器，其特征在于所述噪度度量提供装置(20)适于从网络节点接收所述噪度度量。

14.根据权利要求12所述的控制器，其特征在于所述提供装置(20)适于根据所接收到的且经解码的所述信号的LPC参数来得到噪度度量。

15.根据权利要求12所述的控制器，其特征在于用于检测所述语音分量的活动状态的另外装置(25)，并且所述平滑装置适于响应于具有不活动状态的所述语音分量而发起所述自适应平滑。

16.根据权利要求15所述的控制器，其特征在于所述平滑装置(30)还适于响应于所检测到的不活动语音分量而以预定延迟发起所述自适应平滑。

17.根据权利要求16所述的控制器，其特征在于所述平滑装置适于在所述延迟结束时逐渐发起所述平滑操作。

18.根据权利要求15所述的控制器，其特征在于所述平滑装置适于响应于检测到活动语音分量而即刻终止所述自适应平滑。

19.一种电信系统中的解码器设备，其特征在于：

用于为所述信号提供噪度度量的装置(20)，所述噪度度量指示信号的可预测性，所述噪度度量是根据所述信号的可预测性来定义的；以及

20.根据权利要求19所述的解码器设备，其特征在于所述噪度度量提供装置适于从网络节点接收所述噪度度量。

21.根据权利要求19所述的解码器设备，其特征在于所述提供装置适于根据所接收到的且经解码的所述信号的LPC参数来得到噪度度量。

22.一种电信系统中的编码器设备，其特征在于：

用于对去往用户终端的表示语音会话的信号进行编码和传送的装置(100)，所述信号包括语音分量和背景噪声分量这二者；

用于为所述传送的信号确定噪度度量的装置(200)，所述噪度度量指示信号的可预测性，所述噪度度量是根据所述信号的可预测性来定义的，其中所述噪度度量基于与具有不同阶数的LPC分析滤波相关联的预测误差方差的比率；

用于在所述用户终端处提供所述确定的噪度度量的装置(300)。