CN103680509B

CN103680509B - 一种语音信号非连续传输及背景噪声生成方法

Info

Publication number: CN103680509B
Application number: CN201310682844.4A
Authority: CN
Inventors: 李强; 谢虹恩; 张小红; 郑秋菊; 王丽珍; 夏绪玖; 明艳; 李云
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2013-12-16
Filing date: 2013-12-16
Publication date: 2016-04-06
Anticipated expiration: 2033-12-16
Also published as: CN103680509A

Abstract

本发明请求保护一种语音信号非连续传输及背景噪声生成方法，此方法包括：在语音帧向静音帧转换时加入过渡帧，根据静音帧中背景噪声的波动值大小来决定发送静音描述帧的频率。在解码端，以白噪声作为激励信号，通过线性预测编码合成滤波器后，再经过增益调整得到舒适噪声。本发明在传输噪声信号时具有较好的自适应性，并且合成的背景噪声在主观听觉上具有良好的连续性和舒适性。

Description

一种语音信号非连续传输及背景噪声生成方法

技术领域

本发明涉及语音通信领域，更具体地说，涉及一种语音编码中的非连续传输技术和舒适背景噪声的生成方法。

背景技术

在语音通信过程中，语音压缩编码技术可以减小传输语音信号所需的带宽，增加通信系统的容量。人类在进行语音通信时，大约有70%左右的时间没有讲话，如果始终用一种速率进行语音编码，这对传输信道资源是一种浪费，而信道资源在通信领域，尤其是无线通信领域，是极其宝贵的。

在现有技术中，为了减少这种资源浪费，将传输的话音信号帧分为语音帧和静音帧两类。由于接收端所关注的是有用的语音信号，因此可用相对语音信号较低的编码速率对静音帧中的背景噪声信号进行编码传输，即采用非连续传输DTX（DiscontinuosTransmissionmode）的方式。在接收端，虽然静音帧的背景噪声合成质量有所下降，但不会对语音信号的连续性造成影响。

图1为现有的背景噪声编解码方案示意图。发送端使用话音激活检测VAD(VoiceActivityDetector)算法判断信号是语音信号还是背景噪声信号，如果VAD输出是“1”，说明当前信号是语音信号，采用正常的语音编码方法进行编码传输；如果VAD输出是“0”，说明当前信号是背景噪声信号，则以相对较低的编码速率对该信号进行编码，用产生的背景噪声帧代替语音帧进行传输。对于背景噪声信号，只提取其谱形状线性预测LP（LinearPredictive）参数和能量参数，并量化编码组成静音描述SID(SilenceDescriptor)帧，然后根据DTX方案进行传输；接收端的舒适噪声产生CNG（ComfortNoiseGenerator）模块解码SID帧，合成出能描述发送端背景噪声特性的舒适噪声。

在目前的语音通信技术中，G.729AnnexB和3GPPAMR(AdaptiveMultiRate)是应用了DTX/CNG技术的具有代表性的语音编码标准。

G.729B标准中的DTX模块使用了自适应能量门限和频谱失真测度来判断是否发送SID帧。当频谱参数和能量参数发生较大变化时，发送SID帧。两个相邻的SID帧之间的最小间隔为2；在接收端，舒适噪声由激励信号通过LPC(LinearPredictiveCoding)合成滤波器得到。而激励信号是一个伪白噪声激励ex(n)，ex(n)是语音激励ex₁(n)和高斯白噪声激励ex₂(n)的混合。高斯白噪声信号的加入是为了改善生成舒适噪声的生动性。此DTX/CNG方法把第一个静音帧判决为SID帧，即在话音变为背景噪声时没有设置平滑过渡阶段，这让接收方在听觉上会感到不自然。另外，自适应能量门限和频谱失真测度算法比较复杂，这增大了整个系统的复杂度。G.729中SID帧参数的比特分配如表1所示。

表1G.729中SID帧的比特分配

特征参数描述	比特数
		LSF量化预测器索引	1
一级LSF量化矢量	5
		二级LSF量化矢量	4
增益（能量）	5

而AMR标准中的DTX模块采用固定的编码发送方式，在经过一个8帧的缓冲后，进入背景噪声编码阶段。无论噪声的特性是否平稳，每8帧发送一个更新的SID帧。SID帧参数的计算也很简单，是最近8帧提取的参数的平均值。在解码阶段，舒适噪声的生成方法采用类似语音信号的合成算法。因此，AMR标准的DTX/CNG方法比较简单，且易于实现。但是背景噪声采用固定编码速率，当背景噪声特性变化较大时，不能及时地描述出参数的变化信息，这导致接收端生成的舒适背景噪声过于平滑。AMR中SID帧参数的分配比特情况如表2所示。

表2AMR中SID帧的比特分配

特征参数描述	比特数
		参考矢量索引	3
一级LSF量化矢量	8
		二级LSF量化矢量	9
三级LSF量化矢量	9
		能量对数形式	6

另外，目前的CNG算法都是基于简化的码激励线性预测CELP（CodeExcitedLinearPrediction）模型的背景噪声生成算法，不适合采用混合激励线性预测MELP（MixedExcitationLinearPrediction）的声码器。MELP声码器于1997年成为美国联邦标准，其后产生的增强型双速率MELP编码标准MELPe(EnhancedMixedExcitationLinearPrediction)也成为了北大西洋公约组织标准。与其它相近速率的语音编码方式相比，MELP合成的语音质量较好，常用于保密电话通信。本发明中的DTX/CNG方法也适用于采用MELP声码器的语音通信系统。

发明内容

为了解决上述技术问题，本发明提供了一种语音信号的非连续传输方法，以实现语音信号向背景噪声信号连续平滑的过渡，并提出了一种计算背景噪声波动的公式，根据计算出的背景噪声变化值大小自适应地选择SID帧的发送频率。

本发的方法包括用话音激活检测VAD算法判断输入信号是语音信号还是背景噪声信号，所述语音信号按照正常的语音编码方法进行编码传输；在语音信号向背景噪声信号转换时加入过渡帧；提取背景噪声信号中背景噪声的基本特征参数，并计算出背景噪声的波动信息，根据波动信息的大小决定SID帧的发送频率；接收端解码SID帧后，用白噪声作为激励信号，先通过线性预测滤波器，再经过增益调整，产生舒适背景噪声。

具体地，本发明中的过渡帧为背景噪声信号从第一帧开始的连续M帧，所述过渡帧的帧格式和编码发送方式与语音信号的帧格式和编码发送方式相同。也即进行语音编码的语音帧结束后的前M帧，这些帧都当作语音帧处理，而不作为静音帧。过渡帧之后的第一帧为SID帧，其参数是前M个过渡帧参数和本帧参数的平均值。

更进一步，提取的背景噪声的基本特征参数包括谱参数和增益参数，波动信息包括谱参数波动信息和增益参数波动信息。SID帧的发送频率为，每N帧或N/2帧发送一次SID帧，SID帧的发送频率默认是每N帧发送一次。首先判断计算出的谱波动值是否大于预设门限一，若是，则进一步判断所述的增益波动值是否大于预设门限二，若是，则SID帧的发送频率设定为N/2，即每N/2帧发送一次SID帧；其余情况下，SID帧的发送频率设定为N，即每N帧发送一次SID帧。

上述方法具有通用性，不仅适用于CELP语音编解码模型，而且也适用于MELP语音编解码模型。

本发明实施例还提供了一种适用于MELP语音编解码模型的舒适噪声生成方法。此方法根据MELP算法的特点，将白噪声作为激励信号通过LPC合成滤波器，并经过增益调整得到舒适噪声，其他解码参数均采用默认值。

附图说明

图1为现有的背景噪声编解码方案示意图；

图2为本发明实施例中SID帧的编码发送方式示意图；

图3为本发明实施例中非连续传输流程示意图；

图4为本发明实施例中舒适噪声的生成原理示意图。

具体实施方式

本发明实施例1中，将输入语音信号的整个非连续传输过程分为3个阶段：语音编码阶段、过渡阶段、噪声编码阶段。每个阶段都有独自的帧类型，语音编码阶段的帧为语音帧SPEECH，过渡阶段的帧为过渡帧SPEECH_H，噪声编码阶段的帧有静音描述帧SID和不传输帧NO_TRANS两种。

SID帧的编码发送方式示意图如图2所示。在编码端，首先用VAD算法来判断信号是语音信号还是背景噪声信号。若是语音信号则进入语音编码阶段，按照正常的语音编码方式工作。若判断为背景噪声信号，那么从第一个静音帧开始的连续M帧均为过渡阶段，M≤7。过渡阶段后即进入噪声编码阶段，噪声编码阶段的第一个帧为SID帧，它的参数为前M帧和本帧参数的平均值。接下来每隔n个NO_TRANS帧编码发送一个SID帧，每个NO_TRANS帧都要计算编码参数，但是并不进行编码参数的发送，以后的每个SID帧中的参数为前n帧和本帧参数的平均值。n不是一个固定值，而是在计算背景噪声参数后，通过判断噪声的波动值大小来确定。n即为静音描述帧的发送频率N和N/2，N的取值范围是[2，8]，实施例2中以N=8进行详细说明。

在解码端，解码器根据判断出的帧类型对帧进行解码，由于NO_TRANS帧中没有参数信息，因此直接使用上一个SID帧的解码参数代替，最后用白噪声作为激励信号通过LPC合成滤波器，再经过增益调整后得到舒适噪声。

下面结合附图和实施例对本发明的技术方案进行详细说明。

本发明实施例2为采用MELP算法的2.4kbps声码器语音通信系统提供一种DTX/CNG方案，其具体流程如图3所示，包括以下步骤：

步骤301：语音帧向静音帧转换时加入过渡帧

具体可以为：输入的语音信号经过VAD算法模块，判断当前信号帧是语音帧还是静音帧。当信号帧从语音帧变为静音帧时，将从此帧开始的最多7帧连续静音帧视为过渡帧，其帧格式和编码发送方式与语音帧相同。

步骤302：提取静音帧中背景噪声的基本特征参数

具体可以为：按照MELP语音帧特征参数的提取方法，提取每个背景噪声帧的谱参数和增益参数，将连续4帧的参数分别保存到缓存lsf_hist[i]和gain_hist[i]中，并且每4帧更新一次缓存。

步骤303：分析背景噪声的波动情况

具体可以为：通过步骤302保存的4帧信号特征参数计算出谱波动值和增益波动值，也就是每4个背景噪声帧计算一次波动值。

谱波动值计算公式为：，增益波动值计算公式为：。其中，lsf[k，s]表示第s帧的lsf矢量的第k个系数，gain[s]表示第s帧的增益大小，P的值为10，表示lsf矢量的维数，L的值为4，表示选定的反映波动情况的背景噪声帧数量。

步骤304：确定静音描述帧的发送频率

具体可以为：根据步骤303计算出来的波动值大小判断当前背景噪声信号是否稳定，自适应地确定SID帧的发送频率。若谱波动值spec_wav大于设定的预设门限一，则进一步判断增益波动值gain_wav是否大于预设门限二，若是，则判定当前背景噪声信号不稳定，将SID帧的发送频率设定为每4帧发送一次，否则为每8帧发送一次。对于门限一和门限二值的估计,可通过计算大量含有稳定和非稳定背景噪声的语料信号的谱波动值和增益波动值后统计得出。

步骤305：编码静音描述帧并写入码流

具体可以为：当前SID帧的参数为最近4帧或8帧的平均值。谱参数计算公式为：；由于在MELP中，每帧有G₁和G₂两个增益参数，因此，SID增益参数的计算公式为：，，其中k=4或8。

SID帧中参数的编码量化方式按照语音帧的编码量化方式进行，将量化后的参数比特写入SID帧，SID帧的比特分配如表3所示。

表3MELP中SID帧的比特分配

特征参数描述	比特数
		LSF参数	25
增益一	3
		增益二	5
同步	1

步骤306：解码静音描述帧，以白噪声作为线性预测滤波器的激励，经增益调整，产生舒适噪声。

具体可以为：如图4所示，接收端先对帧头进行解码，通过帧头区分出各种类型的帧：若为语音帧，则按照原来MELP的解码方法和合成方法进行处理；若为SID帧，则解码出SID帧中的LSF参数和增益参数。舒适噪声合成方法与MELP的语音合成方法类似，只需将语音合成使用的混合噪声激励改为白噪声激励，再将基音周期设定为[40,103]之间的一个固定值，其他合成参数均采用默认值。

Claims

1.一种语音信号非连续传输及背景噪声生成方法，包括用话音激活检测VAD算法判断输入信号是语音信号还是背景噪声信号，其特征在于：所述语音信号按照正常的语音编码方法进行编码传输；在语音信号向背景噪声信号转换时加入过渡帧；提取背景噪声信号中背景噪声的基本特征参数，并计算出背景噪声的波动信息，根据波动信息的大小决定静音描述SID帧的发送频率；接收端解码静音描述SID帧后，用白噪声作为激励信号，先通过线性预测滤波器，再经过增益调整，产生舒适背景噪声。

2.根据权利要求1所述一种语音信号非连续传输及背景噪声生成方法，其特征在于：所述过渡帧为背景噪声信号从第一帧开始的连续M帧，所述过渡帧的帧格式和编码发送方式与语音信号的帧格式和编码发送方式相同。

3.根据权利要求2所述一种语音信号非连续传输及背景噪声生成方法，其特征在于：所述过渡帧之后的第一帧为静音描述SID帧，其参数是前M个过渡帧参数和本帧参数的平均值。

4.根据权利要求1或2或3所述一种语音信号非连续传输及背景噪声生成方法，其特征在于：所述背景噪声的基本特征参数包括谱参数和增益参数，所述波动信息包括谱参数波动信息和增益参数波动信息。

5.根据权利要求4所述一种语音信号非连续传输及背景噪声生成方法，其特征在于：所述谱参数波动信息的谱波动值计算公式如下：

其中，lsf[k，s]表示第s帧的线谱频率矢量的第k个系数，P表示线谱频率矢量的维数，L表示选定的反映谱波动情况的背景噪声帧数量。

6.根据权利要求4所述一种语音信号非连续传输及背景噪声生成方法，其特征在于：所述增益参数波动信息的增益波动值计算公式如下：

其中，gain[s]表示第s帧的增益大小，L表示选定的反映增益波动情况的背景噪声帧数量。

7.根据权利要求1或5或6所述一种语音信号非连续传输及背景噪声生成方法，其特征在于：所述静音描述SID帧的发送频率为:每N帧或N/2帧发送一次静音描述SID帧。

8.根据权利要求7所述一种语音信号非连续传输及背景噪声生成方法，其特征在于：判断所述静音描述帧的发送频率的方法为：首先判断谱波动值spec_wav是否大于预设门限一，若是，则进一步判断增益波动值gain_wav是否大于预设门限二，若是，则静音描述SID帧的发送频率设定为N/2；其余情况下，静音描述SID帧的发送频率设定为N。