CN101069231A

CN101069231A - 语音通信的舒适噪声生成方法

Info

Publication number: CN101069231A
Application number: CNA2005800053614A
Authority: CN
Inventors: P·拉姆库玛; S·豪苏尔
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2004-03-15
Filing date: 2005-03-14
Publication date: 2007-11-07
Also published as: EP1726006A2; WO2005091273A3; KR20060121990A; US20050203733A1; US7536298B2; KR100847391B1; JP2007525723A; WO2005091273A2

Abstract

本发明的一个实施例通过降低舒适噪声生成算法的计算复杂度对国际电信联盟的ITU－T G.729附录B的舒适噪声生成算法加以改进。与如附录B所描述的对每一非活动噪声帧计算新的随机高斯噪声样本相比，通过对每一非活动语音帧重复使用预先计算的随机高斯噪声样本来降低计算复杂度。

Description

语音通信的舒适噪声生成方法

领域

本发明的各实施例涉及电信应用中的语音压缩，尤其涉及生成舒适的噪声来代替在因特网或多媒体通信期间所说的单词之间的静音间隔。

背景

尽管通信的替换模式正在增长，但口头通信通常是交换信息的优选方法。具体地，电话通信使得两方之间的发言和收听能够跨越全球。然而，当前数字和因特网技术与语音通信的交会并不是毫无困难的。

一个这样的难题是有效地利用可用带宽。数字通信系统必须将模拟语音或音频信号转换成数字信号。数字信号进而在导航到其目的地时占据带宽。最大化带宽及其有效利用是因特网和多媒体通信的普遍存在的问题。

另一难题是创建用户所熟悉和感到舒适的通信环境。语音和噪声通信的基准是电话。电话通信含有丰富的声音、音调变化、音调细微差别以及口头通信的其它特征。口头通信的额外特征对通信添加了上下文，并且应当在因特网或多媒体通信应用中得到保存。此外，在电话呼叫过程中每一呼叫参与者一般可听见另一端所发生的事情的意义上，连接总是打开的。不幸的是，发送静音或背景噪声而不发送任何附加的语音对大多数通信应用而言是低效的带宽使用。

国际电信联盟建议G.729(“G.729”)描述了用于因特网和多媒体通信的固定速率语音编码器。具体地，该编码器以8kHz到8kbps的采样速率来压缩语音和音频信号。该编码算法利用了共轭结构-代数码激励线性预测(“CS-ACELP”)，并且基于码激励线性预测(“CELP”)编码模型。该编码器以每秒8000个样本的速率在对应于80个样本的10毫秒语音帧上操作。每一发送的帧首先被分析以提取CELP模型参数，诸如线性预测滤波器系数、自适应和固定码本索引以及增益。参数被编码并发送。在解码器侧，通过利用基于10阶线性预测的短期合成滤波器来重建语音。解码器还利用基于自适应码本方法的长期合成滤波器。重建的语音被后滤波以增强语音质量。

G.729附录B(“附录B”)定义了语音活动检测(“VAD”)不连续发送(“DTX”)以及舒适噪声生成(“CNG”)算法。结合G.729，附录B试图将收听环境和带宽利用改进为优于G.729单独创建的环境和带宽利用。简言之，参考图1，由附录B采用的算法和系统用VAD 104检测语音活动的存在与否。当VAD检测到语音活动时，它触发活动语音编码器103，通过通信信道105发送经编码的语音通信，并利用活动语音解码器108来恢复重建的语音109。当VAD 104未检测到语音活动时，它触发与通信信道105和非活动语音解码器107相结合的非活动语音编码器102，发送并恢复重建的语音109。

重建的语音109的特性取决于VAD 104是否检测到语音活动。当VAD 104检测到语音活动时，对重建的语音109编码，并对通过通信信道105发送的语音解码。当VAD 104未检测到语音活动时，按照附录B的CNG算法，重建的语音109是舒适噪声。假定一般在所说的单词之间的间隔中在50％以上时间进行语音通信，则需要在不干扰通信环境的前提下降低非语音间隔的带宽要求的方法。

附图简述

图1是根据ITU-T G.729附录B的编码器和解码器的现有技术框图。

图2是根据ITU-T G.729附录B的现有技术舒适噪声生成流程图。

图3是根据本发明的一个实施例的舒适噪声生成流程图。

详细描述

描述了用于为语音通信生成舒适噪声的方法的各实施例。现在将详细参考附图中示出的这些实施例的描述。尽管将结合这些附图来描述各实施例，但是决不意图将它们限于此处所公开的附图。相反，意图是要覆盖落入由所附权利要求书定义的所描述的实施例的精神和范围之内的所有替换、修改和等效技术方案。

简言之，本发明的一个实施例通过降低舒适噪声生成算法的计算复杂度在G.729附录B的舒适噪声生成算法上加以改进。与附录B中所描述的对每一非活动噪声帧计算新的随机高斯噪声样本相比，通过对每一非活动噪声帧重复使用预先计算的随机高斯噪声样本降低了计算复杂度。

如所介绍的，因特网和多媒体语音通信应用得益于最大化的带宽利用，而同时保留了可接受的通信环境。国际电信联盟在ITU-T建议G.729中描述了使用共轭结构-代数码激励线性预测(CS-ACELP)以8kbit/s对语音的编码。附录B增加了用于为符合建议V.70的终端所优化的G.729的静音压缩方案。将依次作为本发明的改进实施例讨论每一方案。

G.729编码器以每秒8000个样本在对应于80个样本的10毫秒帧上操作。每一发送的帧首先被分析以提取CELP模型参数。这些参数包括以下：线谱对(“LSP”)；自适应码本延迟；基调延迟奇偶校验；固定码本索引；固定码本符号；码本增益(第1级)；以及码本增益(第2级)。这些参数与语音信号一起编码并通过通信信道发送。

在解码器侧，提取并解码参数索引以检索给定10毫秒语音数据帧的编码器参数。对于每一5毫秒的子帧，LSP[定义缩写]系数确定线性预测滤波器系数。自适应码本和固定码本矢量的和按其各自的增益比例缩放后确定了激励。该语音信号然后通过经由LP合成滤波器对该激励滤波来重建。重建的语音信号然后经历各种后处理步骤来增强质量。

将附录B结合到编码和解码过程中增加了附加的算法步骤。附加的算法包括语音活动检测、不连续发送、以及舒适噪声生成。以下将进一步讨论其中的每一个。

VAD的目的是确定传入信号中是否存在语音活动。如果VAD检测到语音活动，则按照G.729建议对该信号进行编码、发送和解码。如果VAD未检测到语音活动，则它调用DTX和CNG算法来降低非语音信号的带宽要求，同时维持可接受的收听环境。

具体地，VAD作用于10毫秒帧，并从传入信号提取4个参数：全和低频带帧能量、线谱频率(“LSF”)的集合和帧过零速率。当VAD未立即确定是否存在语音活动(例如，令检测如此敏感以使在语音和非语音模式之间迅速切换并非是理想的)时，它利用初始化过程来建立所提取的参数的长期平均值。VAD算法然后计算一组差异参数，即当前帧参数和参数的移动平均之间的差异。差异参数是频谱失真、能量差异、低频带能量差异和过零差异。

VAD然后基于这4个差异参数对它是否检测到语音活动作出初始判断。如果VAD判断是它检测到活动语音信号，则不更新移动平均。如果VAD判断是它未检测到活动语音信号(例如，表示背景噪声的非活动语音信号)，则只要背景噪声的参数满足某一阈值准则，就更新移动平均。初始VAD判断被进一步平滑以反映语音信号的长期平稳特性。

VAD在满足条件时更新参数和差异参数的移动平均。VAD使用一阶自回归方案来更新参数的移动平均。自回归方案的系数对每一参数是不同的，如在活动语音信号的开始期间或当VAD检测到大噪声或语音信号特性改变时所使用的系数那样。

预期结果是VAD对传入信号是否表示活动语音或者它是否为静音或可用较低的平均比特率来表示的背景噪声作出准确且稳定的判断。一旦VAD判定数据帧是非活动语音帧，则DTX和CNG算法通过添加不连续传送和舒适语音生成来完成静音压缩方案。

DTX在非活动语音帧(如由VAD算法所确定的)上操作以确定是否应将经更新的参数发送到非活动语音解码器。对于更新非活动语音解码器的DTX判断取决于帧能量和频谱失真度量的绝对和自适应阈值。如果判断是更新参数，则非活动语音编码器对适当的参数编码，并将更新的参数发送到非活动语音解码器。非活动语音解码器然后可基于更新的参数生成非活动语音信号。如果帧未触发绝对或自适应阈值，则非活动语音解码器继续基于最新近接受到的更新生成非活动语音信号。结果是非活动语音解码器生成模拟VAD确定为不是活动语音信号的信号的非活动语音信号。另外，如果由非活动语音信号所表示的背景噪声显著改变，则可更新非活动语音信号，但是如果背景噪声保持稳定，则不会通过持续更新非活动语音解码器而消耗带宽。

非活动语音解码器在VAD未检测到语音活动时生成舒适噪声。CNG通过将受控伪随机(即，计算机生成的随机)激励信号引入到LPC[定义缩写]滤波器来生成舒适噪声。非活动语音解码器然后产生非活动语音信号，如同它是活动语音信号一样。伪随机激励是活动语音激励和随机高斯激励的混合。根据附录B，为每一非活动语音帧的两个子帧中的每一40个样本计算随机高斯噪声。对于每一子帧，舒适噪声生成激励以选择固定域内的基调滞后而开始。接着，由码本网格内的随机选择生成固定码本参数。然后，计算自适应激励信号。固定码本参数和随机激励被组合以形成复合激励信号。复合激励信号然后用于产生被设计成模拟通信期间的背景噪声的舒适噪声，而不会消耗活动语音信号所需的传输带宽。

在活动语音信号传输(即，活动语音帧)期间，活动语音编码器和活动语音解码器利用15个参数来对活动语音信号进行编码和解码。在非活动语音或静音帧期间，仅使用4个参数来传递背景噪声或周围环境条件。

如上所述，由附录B提供的CNG算法使得非活动语音编码器和非活动语音解码器对每一非或动语音帧生成随机高斯噪声。由每一非活动语音帧生成的随机噪声用来自前一帧(活动语音或非活动语音)的激励来内插，以平滑语音信号中的突变。由于50％或更多的因特网或多媒体通信都是非活动的，或是静音的，因此该随机噪声生成不必要地消耗了处理器带宽。例如，按照附录B的算法生成随机噪声对每一非活动语音帧需要大约11,000个处理器周期。

本发明的一个实施例在对编码器处的每一非活动语音帧生成新高斯随机噪声的步骤上加以改进。给定随机高斯数的特性，对任何给定帧生成的随机噪声具有与对任何其它非活动帧生成的随机噪声一样的统计特性。当真实的背景或周围环境条件改变时，可使用比例因子来使复合激励信号(随机噪声是一个分量)与真实环境相匹配。简言之，该编码器不对每一非活动语音帧生成新的随机噪声信号，因为仅仅改变比例因子已足以使经比例缩放的随机噪声和所得的复合激励信号与周围环境噪声条件近似匹配。

本发明的一个实施例预先计算随机高斯噪声以创建噪声样本模板，并对每一后续的非活动语音帧重复使用该预先计算的噪声来激励合成滤波器。在一个实施例中，存在80个样本的随机高斯噪声，并且这些样本被储存在80个条目查找表中。随机噪声的确切值并不重要，也无需在解码器中再现它，只要噪声的统计和频谱特性被保留在所发送的信号中。与实现附录B的CNG算法的大约11,000个处理器周期相比，重复使用预先计算的随机噪声对每一非活动语音帧需要大约320个处理器周期。在与大约40倍的处理器周期节省相关联的舒适噪声质量中只有极少或没有明显的降级。

与发送和接收例如非活动语音帧相关联的延迟取决于传播延迟和算法延迟。传播延迟独立于舒适噪声生成算法的选择，而算法延迟按定义来看取决于算法。如上所述，附录B的CNG算法对每一非活动语音帧需要大约11,000个处理器周期，而本发明的一个实施例的CNG算法需要大约320个处理器周期。处理器周期的减少减小了算法延迟，进而减小了与发送和接收非活动语音帧相关联的总延迟。总延迟的减小改进了收听环境，因为用户可能熟悉仅有的传播延迟(例如，传统电话系统的延迟)并对其感到舒适。

具体地，在现有技术中，如图2所示，附录B的CNG算法的一部分以开始201开始。如果当前帧的增益为零，则该算法用零填充激励202。该算法然后生成随机自适应码本和固定码本参数203。然后为每一子帧生成40个高斯激励的新样本204。生成随机自适应激励205。通过将自适应和高斯激励相加来计算当前激励，并且对当前激励进行重新比例缩放206。该算法然后计算固定码本增益207，并用ACELP激励更新当前激励208。该过程对作为非活动语音子帧的每一子帧进行循环209，直到子帧为活动语音帧，此时循环停止210。

图3示出了描绘本发明的一个实施例的流程图。该实施例的算法的一部分以开始301而开始。如果当前帧的增益为零，则该算法用零填充激励302。该算法然后生成随机自适应码本和固定码本参数303。该算法从80个条目的查找表(即，80个高斯噪声样本)中重复使用预先计算的高斯噪声样本以生成高斯激励304。生成随机自适应激励305。通过将自适应和高斯激励相加来计算当前激励，并对当前激励进行重新比例缩放306。该算法然后计算固定码本增益307，并用ACELP激励更新当前激励308。该过程对作为非活动语音帧的每一子帧进行循环309，直到该子帧为活动语音帧，此时该循环停止310。

新颖的改进之处在于编码器对每一子帧生成高斯噪声204与从例如80个条目的查找表中重复使用预先计算的高斯噪声304之间的差别。本发明的一个实施例的益处在于它降低了舒适噪声生成的计算复杂度以及相应的算法延迟。具体地，不需要在编码器处对每一非活动语音帧生成新的随机数；相反，可计算覆盖一帧的持续时间的单组随机数，并在触发舒适噪声生成的所有其它非活动语音帧中重复使用，而不会导致对听众的任何可察觉的降级和失真。本发明的一个实施例通过利用预先计算的随机数的数组或模板降低了对自适应高斯白噪声(“AWGN”)的连续实时计算的需求。对所有舒适噪声帧重复使用预先计算的随机数的数组以使合成滤波器自适应。结果是本发明的一个实施例简化了编码器中对每一舒适噪声帧的舒适噪声生成的大多数计算上的需求要素。

附录B的VAD、DTX和CNG元素的目标能够由本发明的一个实施例来更好地实现，因为该实施例生成同样可接受的例如因特网和多媒体通信环境，而消耗更少的计算资源。如上所述，在所生成的舒适噪声的质量方面没有任何明显的降级，且处理器带宽节省是显著的。

重要的是注意，该算法不限于因特网和多媒体通信，而是可结合到可得益于本发明的一实施例的CNG算法的降低的计算要求的任何电信应用中。此外，尽管参考附录B标准的编码器一侧描述了CNG算法，但本发明的一个实施例中对CNG算法的使用不限于附录B。相反，CNG算法，尤其是在对预先计算的随机数的重复使用，可被应用于任何舒适噪声生成方案。

本领域的技术人员可以认识到所公开的实施例的优点，这表现在它降低了创建准确地模拟静音周期期间的背景噪声的舒适噪声的计算复杂度。它是对创建舒适通信环境同时减少其处理器负载的改进的解决方案。

Claims

1.一种方法，包括：

基于多个随机噪声样本计算多个随机激励；

储存所述随机激励；

检测信号中的语音活动；

如果检测到非语音活动，则对所述信号编码以创建非活动语音信号，包括：

基于所述随机激励之一对非活动语音帧计算当前激励；

重复使用所述随机激励以对其它非活动语音帧计算当前激励；

2.如权利要求1所述的方法，其特征在于，还包括如果所述非活动语音帧的增益为零，则用零填充所述当前激励。

3.如权利要求2所述的方法，其特征在于，还包括生成随机自适应码本参数和固定码本参数。

4.如权利要求3所述的方法，其特征在于，还包括：

基于所述随机自适应码本参数生成随机自适应激励；

计算所述随机自适应激励和所述随机激励之一之和；以及

用所述随机自适应激励和所述随机激励之一之和对所述当前激励进行重新比例缩放。

5.如权利要求4所述的方法，其特征在于，还包括：

基于所述固定码本参数计算固定码本增益；

用代数码激励线性预测激励更新所述当前激励；以及

对其它非活动语音帧进行循环。

6.如权利要求1所述的方法，其特征在于，所述随机噪声样本是高斯噪声样本。

7.一种包括内容的存储介质，其中当由访问机器执行所述内容时，使所述访问机器实现一种方法，所述方法包括：

基于多个随机噪声样本计算多个随机激励；

储存所述随机激励；

检测信号中的语音活动；

基于所述随机激励之一对非活动语音帧计算当前激励；

对其它非活动语音帧重复使用所述随机激励来计算所述当前激励。

8.如权利要求7所述的存储介质，其特征在于，包括当由访问机器执行时使所述访问机器执行还包括以下步骤的方法的内容：如果所述非活动语音帧的增益为零，则用零填充所述当前激励。

9.如权利要求8所述的存储介质，其特征在于，包括当由访问机器执行时使所述访问机器实现还包括以下步骤的方法的内容：生成随机自适应码本参数和固定码本参数。

10.如权利要求9所述的存储介质，其特征在于，包括当由访问机器执行时使所述访问机器实现还包括以下步骤的方法的内容：

基于所述随机自适应码本参数生成随机自适应激励；

计算所述随机自适应激励和所述随机激励之一之和；以及

11.如权利要求10所述的存储介质，其特征在于，包括当由访问机器执行时使所述访问机器实现还包括以下步骤的方法的内容：

基于所述固定码本参数计算固定码本增益；

用代数码激励线性预测激励更新所述当前激励；以及

对其它非活动语音帧进行循环。

12.如权利要求7所述的存储介质，其特征在于，所述随机噪声样本是高斯噪声样本。

13.一种装置，包括：

耦合到通信信道的编码器，其中所述编码器被配置成基于多个随机激励之一对非活动语音帧计算当前激励，并对其它非活动语音帧重复使用所述随机激励来计算当前激励；

耦合到所述编码器的语音活动检测器，用于检测非活动语音信号；

耦合到所述通信信道的解码器，所述解码器还包括舒适噪声生成器，用于在所述语音活动检测器检测到非活动语音信号时生成舒适噪声。

14.如权利要求13所述的装置，其特征在于，所述舒适噪声生成器还被配置成在所述非活动语音帧的增益为零时用零填充所述当前激励。

15.如权利要求14所述的装置，其特征在于，所述舒适噪声生成器还被配置成生成随机自适应码本参数和固定码本参数。

16.如权利要求15所述的装置，其特征在于，所述舒适噪声生成器还被配置成：

基于所述随机自适应码本参数生成随机自适应激励；

计算所述随机自适应激励和所述随机激励之一之和；

17.如权利要求16所述的装置，其特征在于，所述舒适噪声生成器还被配置成：

基于所述固定码本参数计算固定码本增益；

用代数码激励线性预测激励更新所述当前激励；以及

对其它非活动语音帧进行循环。

18.如权利要求13所述的装置，其特征在于，所述随机激励基于多个随机噪声样本。

19.如权利要求18所述的装置，其特征在于，所述随机噪声样本是高斯噪声样本。

20.一种包含内容的存储介质，其中当由访问机器执行所述内容时，使所述访问机器生成：

耦合到通信信道的编码器，其中所述编码器被配置成基于多个随机激励之一对非活动语音帧计算当前激励，并对其它非活动语音帧重复使用所述随机激励来计算所述当前激励；

21.如权利要求20所述的存储介质，其特征在于，所述舒适噪声生成器还被配置成在所述非活动语音帧的增益为零时用零填充所述当前激励。

22.如权利要求21所述的存储介质，其特征在于，所述舒适噪声生成器还被配置成生成随机自适应码本参数和固定码本参数。

23.如权利要求22所述的存储介质，其特征在于，所述舒适噪声生成器还被配置成：

基于所述随机自适应码本参数生成随机自适应激励；

计算所述随机自适应激励和所述随机激励之一之和；以及

用所述随机自适应激励和所述随机激励之一之和来对所述当前激励进行重新比例缩放。

24.如权利要求23所述的存储介质，其特征在于，所述舒适噪声生成器还被配置成：

基于所述固定码本参数计算固定码本增益；

用代数码激励线性预测激励来更新所述当前激励；以及

对其它非活动语音帧进行循环。

25.如权利要求20所述的存储介质，其特征在于，所述随机激励基于多个随机噪声样本。

26.如权利要求25所述的存储介质，其特征在于，所述随机噪声样本是高斯噪声样本。

27.一种方法，包括：

对非活动语音信号编码，包括：

基于多个随机激励之一对非活动语音帧计算当前激励；以及

28.如权利要求27所述的方法，其特征在于，还包括在所述非活动语音帧的增益为零时用零填充所述当前激励。

29.如权利要求28所述的方法，其特征在于，还包括生成随机自适应码本参数和固定码本参数。

30.如权利要求29所述的方法，其特征在于，还包括：

基于所述随机自适应码本参数生成随机自适应激励；

计算所述随机自适应激励和所述随机激励之一之和；以及

31.如权利要求30所述的方法，其特征在于，还包括：

基于所述固定码本参数计算固定码本增益；

用代数码激励线性预测激励更新所述当前激励；以及

对其它非活动语音帧进行循环。

32.如权利要求27所述的方法，其特征在于，所述随机激励基于多个随机噪声样本。

33.如权利要求32所述的方法，其特征在于，所述随机噪声样本是高斯噪声样本。

34.一种装置，包括：

编码器，它被配置成基于多个随机激励之一对非活动语音帧计算当前激励，以及对其它非活动语音帧重复使用所述随机激励来计算所述当前激励。

35.如权利要求34所述的装置，其特征在于，所述编码器还被配置成如果所述非活动语音帧的增益为零则用零填充所述当前激励。

36.如权利要求35所述的装置，其特征在于，所述编码器还被配置成生成随机自适应码本参数和固定码本参数。

37.如权利要求36所述的装置，其特征在于，所述编码器还被配置成：

基于所述随机自适应码本参数生成随机自适应激励；

计算所述随机自适应激励和所述随机激励之一之和；以及

38.如权利要求37所述的装置，其特征在于，所述编码器还被配置成：

基于所述固定码本参数计算固定码本增益；

用代数码激励线性预测激励更新所述当前激励；以及

对其它非活动语音帧进行循环。

39.如权利要求34所述的装置，其特征在于，所述随机激励基于多个随机噪声样本。

40.如权利要求39所述的装置，其特征在于，所述随机噪声样本是高斯噪声样本。