CN101946281B

CN101946281B - 用于对背景噪声信息进行解码的方法和装置

Info

Publication number: CN101946281B
Application number: CN2009801056374A
Authority: CN
Inventors: P·塞蒂亚万; S·尚德尔; H·塔戴
Original assignee: Siemens Enterprise Communications GmbH and Co KG
Current assignee: Unify GmbH and Co KG
Priority date: 2008-02-19
Filing date: 2009-02-02
Publication date: 2012-08-15
Anticipated expiration: 2029-02-02
Also published as: US20110040560A1; RU2010138566A; RU2454737C2; DE102008009720A1; US8260606B2; KR101166650B1; EP2245622A1; WO2009103609A1; KR20100125340A; CN101946281A; EP2245622B1; JP2011512564A; JP5006975B2

Abstract

本发明的基本思想在于，对在有效语音阶段期间关于带宽转换(Bitrate Switching，位速率转换)过程的信息进行确定。根据本发明在语音阶段期间，在解码器侧，关于宽带有效语音帧与窄带有效语音帧相比的百分比份额的信息被采集。在此，宽带有效语音帧的高百分比份额显示出，在编解码器侧优选宽带的应用，因此存在在DTX阶段期间以宽带方式合成噪声信息的需求。

Description

用于对背景噪声信息进行解码的方法和装置

技术领域

本发明涉及用于对在语音信号编码方法中的背景噪声信息进行解码的方法和装置。

背景技术

从电信的开始阶段起，对于电话通话规定模拟语音传输的带宽限制。在300Hz至3400Hz的有限制的频段上进行语音传输。

也在用于当今的数字电信的许多语音信号编码方法中规定这种有限制的频段。为此，在编码过程之前执行模拟信号的带宽限制。在此，将编解码器用于编码和用于解码，根据在300Hz和3400Hz之间的频段中的所述带宽限制，该编解码器以下也称为窄带语音编解码器(Narrow Band Speech Codec，窄带语音编解码器)。在此，应将编解码器的概念既理解为用于对音频信号进行数字编码的编码规范，也理解为以重建音频信号为目标对数据进行解码的解码规范。

例如从ITU-T推荐标准G.729中公知一种窄带语音编解码器。借助那里所述的编码规范，提供数据速率为8kbit/s的窄带语音信号的传输。

此外公知所谓的宽带语音编解码器(Wide Band Speech Codec，宽带语音编解码器)，这些宽带语音编解码器为了改善听觉印象提供在扩展的频段中的编码。这种扩展的频段例如位于50Hz和7000Hz的频率之间。例如从ITU-T推荐标准G.729.EV中公知一种宽带语音编解码器。

通常以可缩放的方式配置用于宽带语音编解码器的编码方法。可缩放性在这里指的是，所传输的编码数据含有不同的分界的块，这些块含有所编码的语音信号的窄带份额、宽带份额和/或全带宽。这种可缩放的配置一方面允许接收机侧的向下兼容性，并且另一方面在传输信道中的数据传输容量有限制的情况下，该可缩放的配置提供在发送机侧和接收机侧调整数据速率和所传输的数据帧大小的简单可能性。

为了通过编解码器降低数据传输速率，通常规定对要传输的数据进行压缩。例如通过编码方法来达到压缩，在这些编码方法中，为了对语音数据进行编码而确定激励信号的参数和滤波参数。然后向接收机传输滤波参数以及说明激励信号的参数。在接收机处借助编解码器合成在主观听觉印象方面尽可能与原来的语音信号相似的合成语音信号。借助该也称为“Analysis-by-Synthesis(合成分析)”的方法，不传输所确定的和数字化的扫描值(采样)本身，而是传输所确定的实现语音信号在接收机侧的合成的参数。

用于降低数据传输速率的另一措施提供一种在专业领域也以概念DTX为人熟悉的用于不连续传输(Discontinuous Transmission，不连续传输)的方法。DTX的基本目标是在语音间歇的情况下降低数据传输速率。

为此在发送机侧采用语音间歇识别(Voice Activity Detection，VAD，语音活动检测)，在低于特定信号电平的情况下，该语音间歇识别识别出语音间歇。

通常，接收机在语音间歇期间不期望完全的静音。相反地，完全的静音在接收机侧会导致误解，或者甚至会导致连接中断的猜测。由于该原因，应用用于生成所谓的舒适噪声(Comfort Noise，舒适噪声)的方法。

舒适噪声是为了填充接收机侧上的静音阶段而合成的噪声。舒适噪声用于继续存在连接的主观印象，而不要求用于语音信号的传输所提供的数据传输速率。换言之，在发送机侧对噪声进行编码比对语音数据进行编码耗费更小的成本。为了以在接收机侧仍感知为真实的方式对舒适噪声进行合成、即解码，以低得多的数据速率来传输数据。在此情况下所传输的数据在专业领域中也称为SID(Silence InsertionDescription，静音插入描述)。

在现有技术中，在用于采用诸如ITU-T G.729.1、G.722.2或3GPPAMR-WB的宽带语音编解码器的情况下进行不连续传输的方法中存在问题。所述可缩放的宽带语音编解码器通常支持在50至7000Hz的宽带范围中的不同的数据传输速率。

用于语音信息的编码的可能数据速率例如是例如在标准G.729.1中所采用的8，12，14，16，...，32kbit/s。8和12kbit/s的数据速率应用于窄带信号(50Hz至4kHz)。大于12kbit/s的数据速率应用于4至7kHz的高频带。

在传输期间可以在所述的数据速率之间变换。在此，从窄带数据速率突然变换到宽带数据速率众所周知地引起对于人体接收器官的干扰效应。例如由于数据流的切断(Bitstream Truncation，位流切断)实现这种过渡，该过渡例如通过发送机和接收机之间的传输网络引起，例如由于建立其它附加的连接或由于该传输网络中的数据拥塞(Congestion，拥塞)。所述切断导致数据速率的变化，并最终导致语音信号从宽带传输向窄带传输的过渡。

如果在编码器中应用不连续传输或DTX方法的方法，则可以节省传输各个数据帧的数据传输速率。当将相应的帧表征为语音间歇时，则恰好采用DTX方法。在DTX方法的应用中，由于两个因素达到了在所传输的帧上的降低的数据传输速率。首先，在编码器侧不必向解码器发送所有的无效帧。其次，所发送的SID帧或无效帧比语音数据帧占用少得多的位。

这种方法在编码器侧要求语音间歇识别(VAD)的参与。借助语音间歇检测器来通知发送机侧的编码器：含有扫描值和要编码的当前的帧是否含有语音信号或者是否含有具有背景噪声的语音间歇。借助该特征在编码器中采取确定无效帧(Inactive Speech Frame，无效语音帧)的感知特征(Perceptional Characteristics，感知特征)的措施。例如平均的能量以及频谱和时间的特征属于这种感知特征。

编码器随即向解码器发送专门标记的帧、即SID帧(SilenceInsertion Descriptor，静音插入描述符)。解码器基于在SID帧中所含有的信息合成舒适噪声，其中解码器可以根据SID帧确定，所含有的噪声信息是否涉及窄带信息或宽带信息。

在窄带信息和宽带信息之间的数据速率的变换(“BitrateSwitching”，位速率转换)是每个可缩放的宽带语音编解码器的常见情形。虽然在文献中已充分描述对在正常语音阶段期间-即不存在语音间歇-的数据速率变换的处理，然而目前还不知道在进入DTX阶段时的处理。

因此产生了紧迫的需求，所述需求是说明一种用于在DTX阶段期间和/或在进入DTX阶段时的数据速率变换的方法，以便在过渡到DTX阶段之前或期间，最佳地对在窄带数据速率和宽带数据速率之间的变换做出反应。

在语音间歇期间，数据速率的切断是不太可能的，因为SID帧的数据占用(Bitstream Relocation，位流的重定位)无论如何比在“正常的”编解码器操作-即在专有的语音阶段期间的编解码器操作-中的有效语音数据帧需要更少的位。

这导致一种可能的情形，其中数据速率在有效的语音阶段期间被改变，但是在语音间歇中，也就是在DTX阶段期间该数据速率保留在宽带模式中。在此，由于对解码器侧的人体接收器官的强烈干扰，在这种状况下推荐以窄带方式对有效语音帧进行解码并且以宽带方式再现语音间歇中的背景噪声。

这种状况例如以高概率出现在如下情况中：在所述情况中，编码器侧所发送的语音数据帧被传输网络切断，但是在传输网络侧仍剩余足够的容量以传输宽带SID帧。

迄今没有公知用于在语音间歇期间变换SID帧的数据速率的方法。用于变换数据速率的已有方法仅仅涉及在有效语音阶段期间的正常的编解码器运行。

发明内容

本发明的任务是说明一种用于在语音间歇期间变换SID帧的数据速率的方法，该方法具有改善了的在解码器上合成的信号质量的结果。

通过独立权利要求的主题来解决该任务。

本发明的基本思想在于，对在有效语音阶段期间关于带宽转换(Bitrate Switching，位速率转换)过程的信息进行确定。在此，根据本发明所采用的语音信号编码方法或编解码器的可缩放特性已经表达了编解码器用于带宽转换的可能性。

根据本发明在语音阶段期间，在解码器侧，关于宽带有效语音帧与窄带有效语音帧相比的百分比份额的信息被采集。换言之，不像迄今在现有技术中提议的那样，在变换到语音间歇的时刻才采集关于背景噪声特性的信息。在此，宽带有效语音帧的高百分比份额显示出，在编解码器侧优选宽带应用，因此存在在DTX阶段期间以宽带方式合成噪声信息、即对噪声信息进行解码的需求。如果相反地确定低的百分比份额，甚至当所接收的SID帧可能允许合成-即解码-宽带噪声时，也在解码器侧在进入DTX阶段时生成窄带噪声。

利用这里所介绍的本发明方法足以解决本发明的任务，即说明一种用于在语音间歇期间变换SID帧的数据速率的方法。根据这里所介绍的发明解决方案，根据所述任务要解决的在具有不同数据速率的噪声信息之间的变换，被细化为确定具有不同数据速率的噪声信息的份额。与变换相反地，所述份额可以用在具有不同数据速率的噪声信息之间的任意比例来调节。

通过将噪声信号质量调节或匹配到以前所采集的语音信号质量(窄带/宽带)上的可调节性或可匹配性，对于整个信号，也就是噪声信号和语音信号，在接收机侧整体上得出显著提高的信号质量。因此，根据本发明的方法解决了本发明的任务，即获得改善了的在解码器上合成的信号的质量。

根据本发明方法的这种方案证明对于本发明的作为从属权利要求主题的有利改进方案是基本性的。

如果根据本发明方法做出如下决策、即在语音间歇期间以特定质量(即宽带或窄带地)合成噪声信号，则可能出现以下的情况：在有效语音阶段期间的最后几个帧中，在网络侧发生对有效数据帧的切断。

为了解释首先假设，所采用的编解码器优选宽带再现方式，并且过去通过传输网络也大多数确保宽带传输方式。这可能导致以下的情况：在接收解码器上接收到首批SID帧之前，少数有效语音帧作为窄带语音帧到达该接收解码器。

在此情况下，在没有附加措施的情况下，在首批少数SID帧期间可能进行从窄带语音信号到宽带噪声信号的突然过渡。用于重新调节到宽带接收条件的这种过渡一般是如此重要，但是该过渡对于接收者则感觉为有干扰性的。

因此，根据本发明的扩展方案规定，在进入DTX阶段时，首先对背景噪声信息进行主要是窄带的解码，该主要是窄带的解码在可调节时间段之后过渡到主要是宽带的解码。因此优选准连续地进行这种过渡，其中按照特定的份额因子在离散的时刻-因此“准”连续地-来调节过渡。

根据本发明的扩展方案，建议一种用于快速转换的方法，在该方法中在100ms的特定时间帧之内，执行从窄带(份额因子＝0)噪声信号质量到宽带(份额因子＝1)噪声信号质量的准连续过渡。在解码器侧执行该过渡。

根据本发明的扩展方案，份额因子的以下值已证明对于主观的人体听觉感受为特别有利的：

在进入DTX阶段的时刻份额因子为0，因而仅有窄带噪声；

在进入DTX阶段之后20ms的时刻，份额因子为0.09525986892242；

在进入DTX阶段之后40ms的时刻，份额因子为0.19753086419753；

在进入DTX阶段之后60ms的时刻，份额因子为0.36595031245237；

在进入DTX阶段之后80ms的时刻，份额因子为0.62429507696997；和

在进入DTX阶段之后100ms的时刻，份额因子为1，因而仅有宽带噪声。

***

根据本发明的扩展方案假设，所采用的编解码器优选窄带的再现方式和/或过去不能通过传输网络确保宽带传输方式。这可导致以下的情况：在接收的解码器中接收到首批SID帧之前，少数有效语音帧作为宽带语音帧到达该接收的解码器。

根据本发明的扩展方案规定，在进入DTX阶段时，首先对背景噪声信息进行主要是宽带的解码，该主要是宽带的解码在可调节时间段之后过渡到主要是窄带的解码。类似于上述扩展方案，优选准连续地进行这种过渡，其中按照特定的份额因子在离散时刻来调节过渡。

根据本发明的扩展方案建议一种用于快速转换(Fast Switching，快速转换)的方法，在该方法中在100ms的特定时间帧之内，执行从宽带(份额因子＝1)噪声信号质量到窄带(份额因子＝0)噪声信号质量的准连续过渡。在解码器侧执行该过渡。

为了准连续地从宽带噪声信号质量过渡到窄带噪声信号质量，调节具有像上面那样的不过以相反顺序的值的份额因子。

本发明还包括一种应用可缩放的语音信号编码方法来对用于传送背景噪声信息的SID帧进行解码的装置，具有：用于确定在语音间歇期间所接收的宽带语音帧与要接收的窄带语音帧相比的份额的装置，用于在进入DTX阶段时对在SID帧中所含有的背景噪声信息进行解码的装置，其中按照所确定的份额进行解码，其中在确定进入DTX阶段时所接收的宽带语音帧的高份额的情况下，对背景噪声信息进行主要是宽带的解码；在确定进入DTX阶段时所接收的宽带语音帧的份额低的情况下，对背景噪声信息进行主要是窄带的解码。

附图说明

以下借助附图详细阐述本发明的具有其它优点和扩展方案的实施例。

图1示出具有多次带宽转换和一次进入语音间歇的在发送机和接收机之间的数据速率的时间示图，其中SID帧被发送；

图2A示出带宽转换的第一情形的示意图；

图2B示出带宽转换的第二情形的示意图；和

图3示出在解码器侧实施的转换过程，该转换过程具有从窄带噪声信号质量到宽带噪声信号质量的准连续过渡。

具体实施方式

图1中示出具有各数据速率DR的语音数据帧的时间上的传输，以及从第三时刻t3开始的SID帧的传输。

在第一时刻t1之前用32kbit/s的数据速率进行宽带有效语音帧的传输。从时刻t1开始进行到22kbit/s的数据速率的转换，并从第二时刻t2开始进行到12kbit/s的数据速率的转换。12kbit/s的数据速率已经相当于窄带语音帧。

在第三时刻t3假设，由于语音间歇在发送机侧进行到DTX阶段的过渡。因此从第三时刻t3开始，在确定的时间周期中发送SID帧SID。

现在从第三时刻t3开始出现之前所阐述的情况，在过去-在第二时刻t2和第三时刻t3之间的时间阶段期间-已传送窄带语音信号，其中从第三时刻t3开始从现在起通过相应的SID帧提供宽带噪声信号。在每个SID帧的长度为43位并且每个所发送SID帧的周期为20ms的情况下，SID帧的数据速率对应于43bit/20ms＝2.15kbit/s。

在此情况下出现如下状况：在解码器侧可能进行从窄带语音信号到宽带噪声信号的直接的、即不连续的过渡。这种突然的过渡对于人体接收器官感觉为特别有干扰性的。

图2A和图2B示出数据速率DR随时间t的变化曲线的两种可能情形。

在图2A中，由于网络的限制或由于另外的情况，传输基本上以窄带方式进行，在图2A的示例中以8kbit/s进行，而在第一时刻t1和第二时刻t2之间的少数的时刻，例外地以32kbit/s进行宽带传输。

在图2B中又记录了相反的情况，即在大多数时间以32kbit/s进行的宽带传输方式和在第四时刻t4与第五时刻t5之间例外地短暂地进行的窄带传输方式。

以下在图2A示例的时刻t3以及在图2B示例的时刻t6假设，进行到DTX阶段的进入。

根据本发明的方式，在解码器侧的语音阶段期间，采集关于宽带有效语音帧与窄带有效语音帧相比的份额的信息。

在此对于图2A的示例，应将宽带有效语音帧的百分比份额称为很低的，而在图2B的示例中存在宽带有效语音帧的高百分比份额。

在图2A的示例中在时刻t3进入DTX阶段时，现在通过应用本发明的方法来生成窄带噪声，尽管从时刻t3开始所接收(没有示出)的SID帧可能允许合成宽带噪声。

相反在图2B的示例中，在时刻t6随着在时刻t6开始的DTX阶段，优选以宽带方式合成噪声信息。

在图3中绘出关于以ms为单位给出的时间TIME的噪声信号质量HB-SHARE。在此，图3示出紧接在根据以上图2B的情形之后的噪声信号的配置，在该配置中，由于在解码器侧所确定的宽带有效语音帧的百分比份额，已确定在DTX阶段期间以宽带方式合成噪声信息的需求。

在图3的示图中，在所示时刻TIME为0ms时进行到DTX阶段中的过渡。为了准连续地配置该从窄带语音信号到宽带噪声信号的过渡-这已证明是对于人体接收器官的主观听觉感受最有利的扩展方案，在该时刻TIME以仅仅窄带的信号开始，即以宽带噪声的份额HB-SHARE为0开始。在100ms的时刻，宽带噪声份额是1或100％。在实践中，为了从在时刻TIME＝0ms的仅仅窄带的噪声信号准连续地过渡到在时刻TIME＝100ms的仅仅宽带的噪声信号，已经证实在多个离散时刻TIME的份额HB-SHARE的下列值：

在时刻TIME＝20ms，份额HB-SHARE为0.09525986892242；

在时刻TIME＝40ms，份额HB-SHARE为0.19753086419753；

在时刻TIME＝60ms，份额HB-SHARE为0.36595031245237；

在时刻TIME＝80ms，份额HB-SHARE为0.62429507696997。

本发明的另一实施方式以相似的方式提供从宽带语音信号到窄带噪声信号的过渡。

为此首先参照图2A假设一种轻微改变的情形，其中与图2A中所示情形不同，在时刻t3之前不久还对具有32kbit/s的宽带传输(没有示出)进行改变。尽管有该“尖峰”，但是宽带有效语音帧的百分比份额仍然保持很低，使得从现在起在进入到DTX阶段的过渡时仍要合成噪声信号，该噪声信号以宽带方式开始，但是-由于大多数的窄带传输历史和因此未来期望窄带传输特性的延续-将被转化为窄带噪声信号。为了准连续地配置从宽带语音信号到窄带噪声信号的这种过渡，在进入到DTX阶段时用仅仅宽带的信号、即用份额HB-SHARE为1的宽带噪声开始。在100ms的时刻，窄带噪声份额为0。为了从在进入DTX阶段时刻的仅仅宽带的噪声信号准连续地过渡到在100ms之后的时刻的仅仅窄带的噪声信号，有利地以相反的顺序调节上面所建议的值。这对应于根据图3的在纵坐标HB-SHARE上镜像的曲线。

Claims

1.一种应用可缩放的语音信号编码方法来对用于传送背景噪声信息的SID帧(SID)进行解码的方法，具有以下的步骤：

确定在语音间歇期间所接收的宽带语音帧与要接收的窄带语音帧相比的份额，

在进入DTX阶段时对在SID帧中所含有的背景噪声信息进行解码，其中按照所确定的份额进行解码，其中在确定进入DTX阶段时所接收的宽带语音帧的高份额的情况下，对背景噪声信息进行主要是宽带的解码；在确定进入DTX阶段时所接收的宽带语音帧的份额低的情况下，对背景噪声信息进行主要是窄带的解码。

2.按照权利要求1的方法，其特征在于，在确定进入DTX阶段时所接收的宽带语音帧的高份额的情况下，首先对背景噪声信息进行主要是窄带的解码，该主要是窄带的解码在可调节时间段之后过渡到主要是宽带的解码。

3.按照权利要求2的方法，其特征在于，能够用表达宽带噪声信号质量与窄带噪声信号质量之间的比例的份额因子(HB-SHARE)来调节到主要是宽带的解码的过渡。

4.按照权利要求3的方法，其特征在于，在进入DTX阶段的时刻，所述份额因子的大小被确定为零。

5.按照权利要求3或4的方法，其特征在于，在进入DTX阶段之后100ms的时刻，所述份额因子的大小被确定为1。

6.按照权利要求3至4之一的方法，其特征在于，所述份额因子的大小

-在进入DTX阶段之后20ms的时刻被确定为0.09525986892242；

-在进入DTX阶段之后40ms的时刻被确定为0.19753086419753；

-在进入DTX阶段之后60ms的时刻被确定为0.36595031245237；和

-在进入DTX阶段之后80ms的时刻被确定为0.62429507696997。

7.按照权利要求1的方法，其特征在于，在确定进入DTX阶段时所接收的宽带语音帧的份额低的情况下，首先对背景噪声信息进行主要是宽带的解码，该主要是宽带的解码在可调节时间段之后过渡到主要是窄带的解码。

8.按照权利要求7的方法，其特征在于，能够用表达宽带噪声信号质量与窄带噪声信号质量之间的比例的份额因子(HB-SHARE)来调节到主要是窄带的解码的过渡。

9.按照权利要求8的方法，其特征在于，在进入DTX阶段的时刻，所述份额因子的大小被确定为1。

10.按照权利要求8或9的方法，其特征在于，在进入DTX阶段之后100ms的时刻，所述份额因子的大小被确定为零。

11.按照权利要求8至9之一的方法，其特征在于，所述份额因子的大小

-在进入DTX阶段之后20ms的时刻被确定为0.62429507696997；

-在进入DTX阶段之后40ms的时刻被确定为0.36595031245237；

-在进入DTX阶段之后60ms的时刻被确定为0.19753086419753；和

-在进入DTX阶段之后80ms的时刻被确定为0.09525986892242。

12.一种应用可缩放的语音信号编码方法来对用于传送背景噪声信息的SID帧(SID)进行解码的装置，具有：

用于确定在语音间歇期间所接收的宽带语音帧与要接收的窄带语音帧相比的份额的装置，

用于在进入DTX阶段时对在SID帧中所含有的背景噪声信息进行解码的装置，其中按照所确定的份额进行解码，其中在确定进入DTX阶段时所接收的宽带语音帧的高份额的情况下，对背景噪声信息进行主要是宽带的解码；在确定进入DTX阶段时所接收的宽带语音帧的份额低的情况下，对背景噪声信息进行主要是窄带的解码。

13.按照权利要求12的装置，其特征在于在本身公知的ITU-T标准G.729.1中的实施。