CN101430880A

CN101430880A - 一种背景噪声的编解码方法和装置

Info

Publication number: CN101430880A
Application number: CN 200710169832
Authority: CN
Inventors: 张琦
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2007-11-07
Filing date: 2007-11-07
Publication date: 2009-05-13
Also published as: WO2009067883A1

Abstract

本发明公开了一种背景噪声的编解码方法，包括以下步骤：当接收到的音频帧为噪声帧时，根据当前噪声帧的传输模式选择需要编码的噪声帧；对所述需要编码的噪声帧进行分层编码。通过使用本发明实施例提供的方法和装置，编码端根据当前噪声帧的传输模式选择需要编码的噪声帧进行分层编码，可以对背景噪声帧进行具有带宽可伸缩性的编码；解码端根据接收到的分层编码的噪声帧的传输模式解码出噪声帧的编码参数，进行背景噪声重建，以实现对背景噪声进行具有带宽可伸缩性的解码。

Description

一种背景噪声的编解码方法和装置

技术领域

本发明涉及语音通信技术领域，尤其涉及一种背景噪声的编解码方法和装置。

背景技术

对于语音通信来说，只有约40％的时间属于以语音为主体的有用信号，而60％左右的语音间隙属于无用的背景噪声信息。对于语音间隙的背景噪声而言，如果采用与语音信号一样高的码率进行传输势必造成网络带宽的巨大浪费；而完全不传输背景噪声又会造成接收端的听觉上不连续，会让人感觉很不舒服，当背景噪声较强时尤为明显，甚至会影响人们对于语音信息的正常理解。在这一背景下产生了很多以DTX(Discontinuous Transmission，非连续传输)方式压缩背景噪声的方法，一方面可以实现降低语音通讯的带宽，另一方面可以同时维持接收端听觉的连续性。

图1是语音通信中以DTX方式压缩背景噪声的方法示意图。在编码端输入信号后，对输入信号进行VAD(Voice Activity Detection，语音激活检测)检测，判断当前帧的类型，若当前帧为语音信号则进行相应的语音编码；若当前帧为背景噪声，则由DTX编解码系统根据相应的非连续传输策略进行SID(Silence Insertion Descriptor，静音插入帧)的编码。相应的解码端的处理情况为：对于语音帧码流进行语音帧解码重建出语音信号；而非连续传输系统根据接收到的非连续的SID帧码流，运用特定的CNG(Comfort NoiseGeneration，舒适噪声重建出)算法重建出连续的舒适背景噪声信号。

G.729.1是ITU(International Telecommunication Union，国际电信联盟)最新发布的新一代语音编解码标准，这种嵌入式语音编解码标准最大的特点是具有分层编码的特性，能够提供码率范围在8kb/s～32kb/s的窄带到宽带的音频质量，允许在传输过程中，根据信道状况丢弃外层码流，具有良好的信道自适应性。一般来说，在语音编解码领域，窄带信号是指频带0～4000Hz的信号，宽带信号是指频带在0～8000Hz的信号，超宽带信号是指频带在0～16000Hz的信号。在本文中，宽带信号又可以分解为低带信号分量和高带信号分量，低带信号(分量)均指0～4000Hz的信号，低带信号分量又可以称为窄带信号分量。高带信号(分量)是指4000～8000Hz的信号，超高带信号(分量)是指8000～16000Hz的信号。

在G.729.1标准中，通过将码流构造成嵌入式的分层结构来达到分级性，其核心层使用G.729标准进行编码，是一种新型的嵌入式可分层的多速率语音编解码器。输入为20ms的超帧，当采样率为16000Hz，帧长为320点，输入信号s_WB(n)首先经过QMF(Quadrature Mirror Filterbank，正交镜像滤波器)滤波(H₁(z)，H₂(z))分成两个子带，低子带信号

经过50Hz截止频率的高通滤波器进行预处理，输出信号s_LB(n)使用8kb/s～12kb/s的窄带嵌入式CELP(Code-Excited Linear-Prediction，码激励线性预测)编码器进行编码，s_LB(n)和12Kb/s码率下CELP编码器的本地合成信号

之间的差值信号d_LB(n)经过知觉加权滤波(W_LB(z))后的信号

通过MDCT(Modified Discrete CosineTransform，修正的离散余弦变换)变换到频域。加权滤波器W_LB(z)包含了增益补偿，用来保持滤波器输出与高带输入信号s_HB(n)之间的谱连续性。加权后的差值信号要变换到频域内。

高带信号分量乘上(-1)ⁿ进行谱反转之后的信号

通过截止频率为3000HZ的低通滤波器进行预处理，滤波后的信号s_HB(n)使用TDBWE(Time-Domain BandWidth Extension，时域带宽扩展)编码器进行编码，进入TDAC(Time Domain Alias Cancellation，时域混叠消除)编码模块的s_HB(n)也要先使用MDCT变换到频域上。

组MDCT系数

和S_HB(k)最后使用TDAC进行编码。另外，还有一些参数用FEC(Frame Erasure Concealment，帧差错隐藏)编码器进行传输，用以改进在传输中出现丢帧时造成的错误。

图2为G.729.1各层编码器系统框图，其中虚线部分是用于分带的QMF滤波器组。图3为G.729.1各层解码器系统框图，解码器的实际工作模式由接收到的码流层数决定，也等价于由接收到的码率决定。其中虚线部分是用于把各个子带合成全带信号的QMF滤波器组。根据解码器接收到的不同码率各情况分述如下：

1、如果接收到的码率为8kb/s或12kb/s(即仅接收到第一层或者前两层)：第一层或者前两层的码流由嵌入式CELP解码器进行解码，得到解码后的信号

再进行后滤波得到

经过高通滤波之后进入QMF滤波器组合成16kHz的宽带信号，其中高带分量置0。

2、如果接收到的码率为14kb/s(即接收到前三层)：除了CELP解码器解码出低带信号分量以外，TDBWE解码器也解码出高带信号分量

对进行MDCT变换，把高带信号分量谱中3000Hz以上(对应于16kHz采样率中7000Hz以上)频率分量置0，然后进行逆MDCT变换，迭加之后并进行谱翻转，然后在QMF滤波器组中与CELP解码器解码出的低带分量

一起合成16kHz的宽带信号。

3、如果接收到14kb/s以上速率的码流(对应于前四层或者更多层)：除了CELP解码器解码出低带信号分量

TDBWE解码器解码出高带信号分量以外，还要使用TDAC解码器解码出低带加权差分信号和高带增强信号，对全频带信号进行增强，最终也在QMF滤波器组中合成16kHz的宽带信号。

G729.1的码流具有分层结构，允许在传输的过程中根据信道的传输能力从外向内丢弃外层码流，以达到对信道状况的自适应。但是由于种种原因，G.729.1标准中尚未定义对噪声帧的非连续传输模式，这也就意味着对于语音通信中的间隙阶段，编码器仍然需要按照语音帧进行编码，这样不仅加大了编码器的算法负担，同时也浪费了信道有限的传输带宽，因此需要引入一种针对噪声的非连续传输模式。

现有技术中存在一种G.729 AnnexB的DTX/CNG噪声编码方法，对于在VAD检测中判断为背景噪声的信号帧，计算当前帧的谱、能量相对于长时平均谱、能量的失真，若超过一定的阈值，则进行噪声帧编码。编码参数中的帧能量是经过平滑的帧能量，采用5比特量化编码。对于线谱对频率参数的量化对象，在当前谱参数与过去6帧的平均谱参数之间选择。若当前LPC(LinearPrediction Coding，线性预测编码)参数与过去6帧平均LPC参数的距离大于1.12202，采用当前线谱对频率参数进行量化，否则对过去6帧的平均LPC参数所对应的线谱对频率参数进行量化，可见这一选择方案对于背景噪声的平稳特性来说是不连续的。采用1比特的预测器与5比特+4比特的2级矢量量化，SID帧比特分配如表1所示：

表1 G.729 AnnexB SID帧比特分配

编码参数描述	比特数
编码参数描述	比特数	线谱对频率预测器索引	1
线谱对频率第一子矢量索引	5	线谱对频率预测器索引	1
线谱对频率第一子矢量索引	5	线谱对频率第二子矢量索引	4
帧能量对数索引	5	线谱对频率第二子矢量索引	4
帧能量对数索引	5	总计	15

在解码端，对于解码的帧能量采用平滑方法计算每一帧的能量，而对于线谱对频率参数则采用直接拷贝最近一次的SID线谱对频率参数。

上述噪声编码方法仅仅适用于对窄带的噪声进行编码，对于宽带的噪声则无能为力，缺乏带宽的可伸缩性。

现有技术中还存在一种AMR-WB(Adaptive Multi-rate-Wideband，宽带自适应多速率语音编码器)为代表的DTX/CNG噪声编码方法。AMR-WB是基于16kHz采样、20毫秒帧处理的，对于在VAD检测中判断为语音信号的信号帧进行可变速率的编码，而对VAD检测中判断为背景噪声的输入信号则采用一种固定的编码方式，即每隔7帧输出一帧35比特SID帧信息。SID编码参数主要是对背景噪声的能量及谱参数进行编码。在AMR-WB的SID帧中，能量参数是当前噪声帧的对数域能量：

{en}_{\log} = \frac{1}{2} \log_{2} (\frac{1}{256} Σ_{n = 0}^{255} s^{2} (n)) - - - (1)

对于谱参数，AMR-WB中使用ISF(Immittance Spectral Frequency，即时频谱频率)参数来表示。ISF参数是一个16维的矢量，由16阶的LPC(LinearPrediction Coding，线性预测编码)系数转换而来。

在AMR-WB的方案实现中第j帧的能量及线谱对频率参数都是对最近8帧的平均值：

E_{\log}^{mean} (j) = \frac{1}{8} Σ_{n = 0}^{7} E_{\log} (j - n) - - - (2)

{ISF}^{mean} (j) = \frac{1}{8} Σ_{n = 0}^{7} ISF (j - n) - - - (3)

其中平均帧能量

用6比特进行量化，而谱参数的量化使用分裂量化技术，将16维的ISF量化矢量分成5个子矢量分别进行量化。AMR-WB的SID帧长度为35比特，其比特分配如表2所示：

表2 AMR SID帧比特分配

编码参数描述	比特数
编码参数描述	比特数	第一ISF子矢量索引	6
第二ISF子矢量索引	6	第一ISF子矢量索引	6
第二ISF子矢量索引	6	第三ISF子矢量索引	6
第四ISF子矢量索引	5	第三ISF子矢量索引	6
第四ISF子矢量索引	5	第五ISF子矢量索引	5
对数帧能量索引	6	第五ISF子矢量索引	5
对数帧能量索引	6	抖动标志	1
总计	35	抖动标志	1

上述方案中虽然可以对宽带的噪声帧进行编码，但是，由于对背景噪声采用固定的编码方式，同样缺乏带宽的可伸缩性。

发明内容

本发明实施例提供一种背景噪声的编解码方法和装置，可以对背景噪声进行具有带宽可伸缩性的编码。

本发明的实施例提供一种背景噪声的编解码方法，包括以下步骤：

当接收到的音频帧为噪声帧时，根据当前噪声帧的传输模式选择需要编码的噪声帧；

对所述需要编码的噪声帧进行分层编码。

当接收到的音频帧为分层编码的噪声帧时，根据当前噪声帧的传输模式解码出所述噪声帧的编码参数；

根据所述编码参数进行背景噪声重建。

本发明的实施例还提供一种编码器，包括：

选择单元，用于当接收到的音频帧为噪声帧时，根据当前帧的传输模式选择需要编码的噪声帧，并将选择的结果发送给编码单元；

编码单元，用于根据所述选择单元发送的结果，对需要进行编码的噪声帧进行分层编码。

本发明的实施例还提供一种解码器，包括：

解码单元，用于当接收到的音频帧为分层编码的噪声帧时，根据当前噪声帧的传输模式解码出所述噪声帧的编码参数；

重建单元，用于根据所述解码单元发送的所述噪声帧的编码参数，进行背景噪声重建。

本发明还提供一种背景噪声的编解码系统，包括：

编码器，用于当接收到的音频帧为噪声帧时，根据当前噪声帧的传输模式选择需要编码的噪声帧，对所述需要编码的噪声帧进行分层编码；

解码器，用于当从所述编码器接收到的音频帧为分层编码的噪声帧时，根据当前噪声帧的传输模式解码出所述噪声帧的编码参数，根据所述编码参数进行背景噪声重建。

与现有技术相比，本发明的实施例具有以下优点：

通过使用本发明实施例提供的方法和装置，编码端根据当前噪声帧的传输模式选择需要编码的噪声帧进行分层编码，可以对背景噪声帧进行具有带宽可伸缩性的编码；解码端根据接收到的分层编码的噪声帧的传输模式解码出噪声帧的编码参数，进行背景噪声重建，以实现对背景噪声进行具有带宽可伸缩性的解码。

附图说明

图1是现有技术中以DTX方式压缩背景噪声的方法示意图；

图2是现有技术中G.729.1编码器系统示意图；

图3是现有技术中G.729.1解码器系统示意图；

图4是本发明实施例一的一种背景噪声的编码方法流程示意图；

图5是本发明实施例二的一种背景噪声的编码方法流程示意图；

图6是本发明实施例二的DTX噪声编码实现模块示意图；

图7是本发明实施例二的背景噪声的TDBWE编码器系统示意图；

图8是本发明实施例二的编码器系统示意图；

图9是本发明实施例二的解码端的CNG噪声解码模块示意图；

图10是本发明实施例二的利用重建出的低带编码参数恢复低带信号分量的方法示意图；

图11是本发明实施例二的利用重建出的高带编码参数恢复高带信号分量的方法示意图；

图12是本发明实施例二的解码器系统示意图；

图13是本发明实施例三的一种背景噪声的编码方法流程示意图；

图14是本发明实施例三的噪声帧的编码端系统示意图；

图15是本发明实施例三的噪声帧的解码端系统示意图；

图16是本发明实施例五的一种编码器示意图；

图17是本发明实施例六的一种解码器示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明的实施例一中，一种背景噪声的编解码方法如图4所示，具体步骤如下：

步骤S401、在编码端，对输入的音频帧利用VAD检测，判断当前音频帧的类型，如果当前音频帧为语音帧，则按照语音帧编码算法对音频帧进行编码，如果当前帧为噪声帧且前一帧为语音帧(即当前发生了从语音帧到噪声帧的切换)，转步骤S402。

步骤S402、如果当前发生了从语音帧到噪声帧的切换，还可能首先进入拖尾阶段。

具体的，如果当前发生了从语音帧到噪声帧的切换，还可能首先进入拖尾阶段，拖尾阶段具体为：在发生从语音帧到噪声帧切换后的N帧时间内，仍然按照语音帧的编码算法对当前噪声帧进行编码，但是降低了编码速度。

步骤S403、根据传输模式选择需要编码的噪声帧。

对当前帧可以采用两种传输模式进行编码传输：非连续传输(DTX)模式和连续传输模式。如果采用非连续传输模式，判断是否需要对当前帧进行编码，如果判断需要对当前噪声帧进行编码，则选择当前帧为需要编码的噪声帧，否则对当前帧不做任何处理；如果采用连续传输模式，则直接选择当前帧为需要编码的噪声帧，即对所有的接收到的噪声帧进行编码。

步骤S404、对需要编码的噪声帧进行窄带核心层编码。

具体的，获取需要编码的噪声帧的低带信号分量，对低带信号分量进行核心层参数编码。获取需要编码的噪声帧的低带信号分量方法包括：对需要编码的噪声帧进行分带滤波，将噪声帧分成低带信号分量和高带信号分量；或将全频带的噪声信号进行高通滤波，并进行降采样处理，得到低带信号分量。

对获取的低带信号分量进行窄带核心层编码的方法具体包括：对噪声帧的低带信号分量进行线性预测分析，得到线性预测系数和信号能量；将线性预测系数转化成谱参数，对谱参数进行矢量量化，得到量化的谱参数；将信号能量进行对数量化，得到帧能量；将量化的谱参数及帧能量作为噪声帧的窄带核心层参数。

步骤S405、如果还需要进行扩展层编码，则对窄带核心层编码后的噪声帧进行扩展层编码。

具体的，对噪声帧进行窄带增强层编码，即对窄带核心层中谱参数的量化误差和信号能量的量化误差进行量化。对噪声帧进行宽带扩展层编码，即对噪声帧的高带信号分量进行扩展参数编码。扩展层可以是一层，也可以是多层。宽带扩展层包括宽带核心层和宽带增强层。

对噪声帧进行宽带扩展层编码具体包括：获取高带信号分量的时域包络和频域包络，将频域包络各维分量减去量化后的时域包络，得到的矢量分裂成多个子矢量，并分别进行量化，得到宽带扩展层编码参数。

或者采用TDAC编码算法对噪声帧的低带残差信号分量及高带信号分量进行宽带扩展层编码具体为：将低带信号分量进行重建，将重建的低带信号分量升采样并进行频谱扩展，得到重建的宽带信号，将原始的宽带信号与重建的宽带信号的残差进行MDCT变换，对得到的MDCT系数进行量化编码，即可得到宽带扩展层参数。

步骤S406、编码完成后，传输编码后的噪声帧。

步骤S407、在解码端，从接收到的编码码流中解码出编码参数，判断当前音频帧的类型，如果当前音频帧为语音帧，则按照语音帧解码算法对音频帧进行解码，否则，转步骤S408。

步骤S408、如果接收到的音频帧为噪声帧，根据当前噪声帧的传输模式解码出噪声帧的编码参数。

具体的，当前噪声帧的传输模式为非连续传输时，解码出接收到的噪声帧的编码参数，对于未传输的噪声帧，则根据以前接收到的噪声帧或在拖尾阶段缓存的编码参数解码出当前噪声帧的编码参数。

当前噪声帧的传输模式为连续传输时，则对接收到的噪声帧解码出编码参数。

步骤S409、根据解码出的编码参数进行背景噪声重建。

具体的，当接收到的噪声帧只包含窄带核心层或既包括窄带核心层又包括窄带增强层时，使用重建出的谱参数计算出合成滤波器的系数，使用高斯随机噪声作为激励，通过计算出的合成滤波器进行合成滤波，并使用重建出的能量参数进行时域整形，重建出背景噪声信号；或者对低带编码参数进行CELP解码，得到解码出的低带信号分量，将低带信号分量升采样为全频带信号并进行频谱扩展，重建出背景噪声信号。

当接收到的噪声帧还包含宽带扩展层时，可以采用TDBWE解码算法对噪声帧重建出背景噪声信号；或采用TDAC解码算法对噪声帧重建出的背景噪声信号。

采用TDBWE解码算法对噪声帧重建出背景噪声信号的方法具体为：使用重建出的谱参数计算出合成滤波器的系数，使用高斯随机噪声作为激励，通过计算出的合成滤波器进行合成滤波，并使用重建出的能量参数进行时域整形，得到背景噪声信号的低带信号分量；使用高斯随机噪声作为激励源，利用重建出的高带编码参数对激励源进行时域整形和频域整形，重建出背景噪声信号的高带信号分量；将重建出的低带信号分量和高带信号分量进行QMF合成滤波，得到背景噪声信号。

采用TDAC解码算法对噪声帧建出背景噪声信号的方法具体为：对低带编码参数通过CELP解码算法解码出低带信号分量，将低带信号分量升采样并进行频谱扩展，得到全频带信号；对重建的高带编码参数进行反量化和反MDCT变换，得到残差信号，与全频带信号进行合并，得到宽带的背景噪声信号。

本发明的实施例二中，以对高带信号分量采用TDBWE编码算法进行编码为例，一种背景噪声的编解码方法如图5所示，具体步骤如下：

步骤S501、在编码端，输入一帧长度为20ms、采样率为16000Hz的数据，对输入的音频帧利用VAD检测，判断当前帧的类型，如果当前帧是语音帧，转步骤S502，如果当前帧为噪声帧且前一帧为语音帧(即当前发生了从语音帧到噪声帧的切换)，转步骤S503。

具体的，本实施例中使用的全速率语音帧的帧结构如表3所示。

表3 全速率语音帧的帧结构

本实施例中使用的全速率噪声帧的帧结构如表4所示：

表4 全速率噪声帧的帧结构

步骤S502、如果当前帧是语音帧，则按照语音帧编码算法对当前帧进行编码，且最高可编码出32kb/s的编码码流。

步骤S503、如果当前发生了从语音帧到噪声帧的切换，还可以首先进入拖尾阶段。

具体的，拖尾阶段持续时间为N帧，即在发生从语音帧到噪声帧切换后的N帧时间内，仍然按照语音帧的编码算法对当前噪声帧进行编码，但是要降低编码速度。例如，如果切换前语音帧的编码速率为14kb/s或者更高，那么进入拖尾阶段后则可以按照14kb/s的编码速率进行编码，如果切换前语音帧的编码速率为8kb/s或者12kb/s，那么进入拖尾阶段后则可以按照8kb/s的编码速率进行编码，直至拖尾阶段结束。拖尾阶段同时还可以完成对噪声参数的学习训练，即缓存拖尾阶段低带信号分量的自相关函数、低带编码参数和高带编码参数等，用于对后续噪声帧的编码进行初始化。

拖尾阶段结束后，对当前帧可以采用两种传输模式进行编码传输：非连续传输(DTX)模式和连续传输模式。如果采用非连续传输模式对当前帧进行编码传输，则执行步骤S504，如果采用连续传输模式，则对所有接收到的噪声帧进行编码，直接执行步骤S505～步骤S507。

步骤S504、判断是否需要对当前噪声帧进行编码，如果需要对当前噪声帧进行编码，转步骤S505，否则不对当前帧进行任何处理。

具体的，可以利用特定准则确定DTX的策略，判断是否需要对当前帧进行编码，即计算当前噪声帧的谱、能量相对于长时平均谱、能量(即之前缓存的编码参数的平均谱、能量)的失真，若失真超过特定阈值，则对该噪声帧进行编码，否则不对当前帧进行任何处理。

非连续传输模式下，对噪声帧进行编码的实现模块示意图如图6所示。

步骤S505、对当前噪声帧进行窄带核心层编码。

具体的，本实施例中窄带核心层参数编码可以采用CELP模型，对于需要进行SID编码传输的背景噪声帧进行QMF分带滤波，按频率高低分成若干个子带，本实施例取最简单的情况，将背景噪声帧分成两个子带：低带信号分量s_LB(n)和高带信号分量s_HB(n)，低带信号分量频率范围为0～4000Hz，高带信号分量频率范围为4000～8000Hz。对低带信号分量s_LB(n)进行加窗、求取自相关函数和LPC分析，得到LPC系数a(i)(其中i＝1，2，…，M)和信号能量E，通常，会对自相关函数进行适当的平滑处理再进行LPC分析，以得到平滑的LPC系数a(i)；将LPC系数a(i)转化成谱参数Ω＝[ω_i，i＝1，2，…，M]，其中M为线性预测的阶数，然后对谱参数Ω＝[ω_i，i＝1，2，…，M]进行矢量量化，得到量化的谱参数将信号能量E进行对数量化，得到帧能量

量化的谱参数

及帧能量

作为背景噪声的窄带核心层参数

步骤S506、如果需要进行扩展层参数编码，则对窄带核心层编码后的噪声帧进行扩展层参数编码。

具体的，如果需要进行窄带增强层编码，则对窄带核心层中谱参数的量化误差和能量参数的量化误差进一步量化，即如果量化前的谱参数为Ω，在核心层量化后的谱参数为

则在窄带增强层中，对

进行量化，量化结果是增强层中谱量化码本中的索引值；对于能量参数，也采用类似的方法，对

进行量化，即可得到窄带增强层编码的噪声帧。

如果还需要进行宽带核心层编码，对经过窄带增强层编码的噪声帧进行扩展参数编码。具体的，将背景噪声帧分解出的高带信号分量，采用TDBWE编码算法对高带信号分量进行扩展参数编码，如图7所示，即首先分别计算高带信号分量的时域包络或频域包络。时域包络的计算方法如公式(1)所示：

\begin{matrix} T_{env} (i) = \frac{1}{2} \log_{2} (Σ_{n = 0}^{\frac{N}{I} - 1} {s_{HB}}^{2} (n + i * \frac{N}{I})), & i = 0, \cdot \cdot \cdot, I - 1 \end{matrix} - - - (1)

其中I为时域包络的个数。

频域包络的计算方法如下所示：首先使用一个128抽头的汉宁窗对高带信号分量进行加窗，窗函数如公式(2)所示：

w_{F} (n) = \{\begin{matrix} \frac{1}{2} (1 - \cos (\frac{2 πn}{143})), & n = 0, \cdot \cdot \cdot, 71 \\ \frac{1}{2} (1 - \cos (\frac{2 π (n - 16)}{111})), & n = 72, \cdot \cdot \cdot, 127 \end{matrix} - - - (2)

加窗后的高带信号分量为：

\begin{matrix} s_{HB}^{w} (n) = s_{HB} (n) \cdot w_{E} (n + 31) & i = - 31, \cdot \cdot \cdot, 96 \end{matrix} - - - (3)

对加窗后的信号进行128点的FFT(Fast Fourier Transform，快速傅立叶变换)，使用多项结构实现：

\begin{matrix} S_{HB}^{fft} (k) = {FFT}_{64} (s_{HB}^{w} (n) \cdot s_{HB}^{w} (n + 64)), & k = 0, \cdot \cdot \cdot, 63, n = - 31, \cdot \cdot \cdot, 32 \end{matrix} - - - (4)

利用计算出的FFT系数求取加权频域包络，在G.729.1中因为仅需要对全带的4000～7000Hz频段进行编码，因此对于高带信号分量而言，仅需计算其0～3000Hz频段(对应于前25个FFT系数)的加权频域包络即可：

其中J为频域包络的个数。本发明实施例也可以应用到对高带任意频段求取频域包络，频域包络的个数也可以为大于0的任意值，因而不仅仅局限于G.729.1中的应用。

因为对于背景噪声的编码而言，人耳并不能对背景噪声的时域包络区分的很精细，因此不需要像语音帧那样分成16个时域包络，而是仅需要计算出整帧的平均时域包络即可，如公式(6)所示：

\begin{matrix} T_{env} = \frac{1}{I} (Σ_{i = 0}^{I - 1} T_{env} (i)), & i = 0, \cdot \cdot \cdot, I - 1 \end{matrix} - - - (6)

得到的时域包络使用长度为5比特、量化步长为3dB的均匀量化器进行量化，量化后的时域包络用

来表示，然后将J维的频域包络各维分量减去

后的矢量分裂成3个子矢量，分别进行量化；将量化后的时域包络和频域包络通过复用器输出，得到宽带扩展层编码的噪声帧。

步骤S507、编码完成后，传输编码后的噪声帧。

本发明实施例的编码器系统如图8所示。

以上步骤为本实施例中编码端对噪声帧的处理流程，对应上述编码过程，相应的解码流程的具体步骤如下：

步骤S508、在解码端，从接收到的编码码流中解码出编码参数，判断出当前帧的类型，如果当前帧为语音帧，则按照语音帧解码算法对音频帧进行解码，如果当前帧为噪声帧，转步骤S509。

具体的，由于在码流的传输过程中，媒体网关可能会根据信道状况从外层到内层逐层丢弃一些编码比特，以适应信道的传输能力，因此，即使编码器发送的是全速率的编码帧，在解码器可能也无法接收到全速率的码流。在解码端，解码器只能根据实际接收到的码流，按照相应的速率进行解码。

步骤S509、重建接收到的噪声帧的编码参数，并根据噪声帧的编码参数重建出背景噪声信号。

如果采用了非连续传输的模式，在噪声段，解码器只能断续地接收到SID帧，对于接收到的噪声帧重建出编码参数，对于没有传输的帧，通过以前接收到的噪声帧或者在拖尾阶段学习到的噪声参数重建出当前帧的编码参数，再进行背景噪声重建。非连续传输模式下的解码模块如图9所示。

如果采用连续传输模式，则对所有接收到的噪声帧重建出编码参数，进行背景噪声重建。

当接收到的噪声帧只包含窄带核心层时，需要计算出窄带核心层的编码参数

利用重建出的谱参数Ω构造出滤波器，其中该滤波器利用高斯随机噪声作为激励信号，对窄带核心层的编码参数进行滤波，对滤波后的窄带核心层的编码参数再使用解码出的能量参数E进行整形，即可重建出背景噪声的低带信号分量，如图10所示。如果解码器还要求输出宽带的信号，则将高带信号分量置为0，利用QMF合成滤波器与重建出的低带信号分量合成宽带信号输出即可，如果解码器不要求输出宽带信号，则将重建出的低带信号分量直接输出即可。

当接收到的噪声帧还包含窄带增强层时，由于窄带增强层只是对核心层谱参数和能量参数量化精度的增强，并未增加新的参数，因此对解码获得的谱参数和能量参数，使用与仅有窄带核心层码流类似的解码过程，即可获得重建的宽带或者窄带背景噪声信号。

当接收到的噪声帧还包含宽带核心层时，则重建出噪声帧的低带编码参数和高带编码参数，利用重建的低带编码参数或重建的低带信号分量重建出低带参数(如基音延迟、固定码本增益和自适应码本增益等)，对重建出的低带参数利用高斯随机噪声进行整形得到激励源，利用重建出的高带编码参数P_WB＝[T_env，F_env(j)]对激励源进行时域整形和频域整形，即可得到噪声帧的高带信号分量，将重建的高带信号分量和低带信号分量进行QMF滤波组合，即可重建出全带的背景噪声帧，如图11所示。

本发明实施例的解码器系统如图12所示。

本发明的实施例三中，以采用TDAC编码算法对高带信号分量进行编码为例，一种背景噪声的编解码方法如图13所示，具体步骤如下：

步骤S1301、在编码端，对输入的音频帧利用VAD检测，判断当前帧的类型，如果当前帧是语音帧，转步骤S1302，如果当前帧为噪声帧且前一帧为语音帧(即当前发生了从语音帧到噪声帧的切换)，转步骤S1303。

本实施例中使用的全速率噪声帧的帧结构如表5所示：

表5 噪声帧的比特分配

步骤S1302、如果当前帧是语音帧，则按照语音帧编码算法对当前帧进行编码，且最高可编码出32kb/s的编码码流。

步骤S1303、如果当前发生了从语音帧到噪声帧的切换，还可以首先进入拖尾阶段。

拖尾阶段结束后，对当前帧可以采用两种传输模式进行编码传输：非连续传输(DTX)模式和连续传输模式。如果采用非连续传输模式对当前帧进行编码传输，则执行步骤S1304，如果采用连续传输模式，则对所有接收到的噪声帧进行编码，直接执行步骤S1305～步骤S1307。

步骤S1304、判断是否需要对当前噪声帧进行编码，如果需要对当前噪声帧进行编码，转步骤S1305，否则不对当前帧进行任何处理。

判断是否需要对当前帧进行编码的方法与实施例二中步骤S504一致，不再赘述。

步骤S1305、将全频带的噪声信号进行高通滤波和降采样处理，得到噪声帧的低带信号分量。

具体的，可以采用实施例二中QMF滤波的方法得到噪声帧的低带信号分量，也可以采用高通滤波和降采样处理的方法得到噪声帧的低带信号分量，本实施例中采用高通滤波和降采样处理的方法。

可以利用二阶椭圆高通滤波器转移函数对噪声信号x(n)进行高通滤波得到滤波后的噪声信号y(n)，转移函数如公式(7)所示：

H (z) = \frac{0.95551031152729 - 1.91102039813878 z^{- 1} - 0.9555103152729 z^{- 2}}{1 - 1.96646455789804 z^{- 1} + 9.671820760729101 z^{- 2}} - - - (7)

滤波器的输入信号x(n)与输出信号y(n)之间的关系如式(8)所示：

y(n)＝1.96646455789804y(n-1)+9.671820760729101y(n-2)+0.95551031152729x(n)

-1.91102039813878x(n-1)-0.9555103152729x(n-2)

(8)

对高通滤波后的噪声信号y(n)进行降采样处理，得到低带信号分量yl(n)，降采样处理的方法如公式(9)所示：

y_l(n)＝y(2n) (9)

步骤S1306、对噪声帧的低带信号分量进行预加重，然后进行CELP编码，得到噪声帧低带编码参数，该噪声帧可以只包含窄带核心层参数，也可以既包含窄带核心层也包含窄带增强层。

具体的，首先对低带信号分量y_l(n)进行LPC分析，进行加窗、求取自相关函数和LPC分析，得到LPC系数a(i)(其中i＝1，2，…，M)和残差能量E，通常，会对自相关函数进行适当的平滑处理再进行LPC分析，以得到平滑的LPC系数a(i)；将LPC系数a(i)转化成谱参数Ω＝[ω_i，i＝1，2，…，M]，其中M为线性预测的阶数，然后对谱参数Ω＝[ω_i，i＝1，2，…，M]进行矢量量化，得到量化的谱参数

将残差能量E进行对数量化，得到帧能量

量化的谱参数

及帧能量

作为背景噪声的窄带核心层参数

则对窄带核心层中谱参数的量化误差和能量参数的量化误差进一步量化，即可得到噪声帧的窄带增强层。

步骤S1307、利用得到的噪声帧的低带编码参数重建出低带信号分量。

具体的，利用重建出的谱参数

构造出合成滤波器，利用高斯随机噪声作为激励信号，经过合成滤波器滤波，滤波器的输出再使用解码出的能量参数

进行整形，即可重建出背景噪声的低带信号分量

步骤S1308、对重建出的低带信号分量升采样为原始采样率，并进行频谱扩展获得重建的全带信号。

具体的：

步骤S1309、将原始的全带信号与重建的全带信号的残差进行MDCT变换，对MDCT系数进行量化编码，得到噪声帧的高带编码参数，重建出噪声帧高带信号分量，该噪声帧可以只包含宽带核心层，也可以既包含宽带核心层也包含宽带增强层。

步骤S1310、将低带信号分量、高带信号分量通过复用器处理，得到分层结构的背景噪声的编码码流并传输。

本发明实施例的编码器系统如图14所示。

步骤S1311、在解码端，从接收到的编码码流中解码出编码参数，判断出当前帧的类型，如果当前帧为语音帧，则按照语音帧解码算法对音频信号进行解码，如果当前帧为噪声帧，转步骤S1312。

在传输的过程中，媒体网关可以根据信道的传输特性，在需要的时候丢弃噪声帧的外层编码比特，而不影响内层比特的解码。在解码端，解码器根据实际接收到的码流进行解码。

步骤S1312、重建接收到的噪声帧的编码参数，并根据噪声帧的编码参数重建出背景噪声信号。

具体的，如果接收到到的噪声帧只包含窄带核心层或既包含窄带核心层又包括窄带增强层，对接收到的噪声帧进行CELP解码，得到解码出的低带信号分量，将低带信号分量升采样为全频带信号并进行频谱扩展，即可得到重建的背景噪声信号。

如果接收到的噪声帧还包含宽带核心层或宽带核心层加宽带增强层，则将接收到的噪声帧的低带编码参数通过CELP解码算法解码出低带信号分量，将低带信号分量升采样并进行频谱扩展，得到全频带信号；将接收到的噪声帧的高带编码参数(即MDCT系数)经过反量化、反MDCT变换，得到残差信号，与低带信号分量重建的全频带信号相加，即可得到最终重建的全频带背景噪声。

本实施例的解码器系统框图如图15所示。

通过使用以上实施例提供的方法和装置，编码端根据当前噪声帧的传输模式选择需要编码的噪声帧进行分层编码，可以对背景噪声帧进行具有带宽可伸缩性的编码；解码端根据接收到的分层编码的噪声帧的传输模式解码出噪声帧的编码参数，进行背景噪声重建，以实现对背景噪声进行具有带宽可伸缩性的解码。

本发明的实施例四提供一种编解码系统，包括：

编码器10，用于当接收到的音频帧为噪声帧时，根据当前噪声帧的传输模式选择需要编码的噪声帧，对需要编码的噪声帧进行分层编码。

解码器20，用于当从编码器接收到的音频帧为分层编码的噪声帧时，根据当前噪声帧的传输模式解码出噪声帧的编码参数，根据编码参数进行背景噪声重建。

本发明的实施例五提供一种编码器，如图16所示，包括：

选择单元11，用于当接收到的音频帧为噪声帧时，根据当前帧的传输模式选择需要编码的噪声帧，并将选择的结果发送给编码单元。编码单元12，用于根据选择单元发送的结果，对需要进行编码的噪声帧进行分层编码。

本编码器还包括：判断单元13，用于判断当前接收到的音频帧的类型，当音频帧为噪声帧且前一帧为语音帧时，特定帧时间内，将接收到的噪声帧发送给语音编码单元，特定帧时间后，将接收到的噪声帧发送给选择单元11。语音帧编码单元14，用于接收到判断单元13发送的噪声帧后，按照语音编码算法对噪声帧进行编码且降低编码速率，并缓存接收到的噪声帧的编码参数。

编码单元12进一步包括：低带编码子单元121，用于对噪声帧的低带信号分量进行核心层编码。高带编码子单元122，用于对核心层编码子单元编码的噪声帧的高带信号分量进行扩展层编码。

本发明的实施例六提供一种解码器如图17所示，包括：

解码单元21，用于当接收到的音频帧为分层编码的噪声帧时，根据当前噪声帧的传输模式解码出噪声帧的编码参数。重建单元22，用于根据解码单元发送的噪声帧的编码参数，进行背景噪声重建。

具体的，重建单元22进一步包括：低带子单元221，用于当接收到的噪声帧只包含窄带核心层或既包含窄带核心层又包含窄带增强层时，利用解码单元输出的低带编码参数，重建出背景噪声信号的低带信号分量。高带子单元222，用于当接收到的噪声帧还包含宽带扩展层时，利用解码单元输出的高带编码参数，重建出背景噪声信号的高带信号分量。合成子单元223，用于将低带信号分量和高带信号分量进行合成滤波，得到背景噪声信号。

通过使用以上实施例提供的装置，编码端根据当前噪声帧的传输模式选择需要编码的噪声帧进行分层编码，可以对背景噪声帧进行具有带宽可伸缩性的编码；解码端根据接收到的分层编码的噪声帧的传输模式解码出噪声帧的编码参数，进行背景噪声重建，以实现对背景噪声进行具有带宽可伸缩性的解码。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该获取机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备执行本发明各个实施例所述的方法。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1、一种背景噪声的编码方法，其特征在于，包括以下步骤：

对所述需要编码的噪声帧进行分层编码。

2、如权利要求1所述背景噪声的编码方法，其特征在于，所述当接收到的音频帧为噪声帧时，根据当前噪声帧的传输模式选择需要编码的噪声帧之前还包括：

判断所述当前接收到的音频帧的类型；

当所述音频帧为噪声帧且前一帧为语音帧时，则进入拖尾阶段，即在特定帧时间内，按照语音帧的编码算法对所述噪声帧进行编码，且降低编码速率。

3、如权利要求2所述背景噪声的编码方法，其特征在于，在所述拖尾阶段，缓存低带信号分量的自相关函数、低带编码参数和高带编码参数。

4、如权利要求1所述背景噪声的编码方法，其特征在于，所述根据当前噪声帧的传输模式选择需要编码的噪声帧具体为：

所述当前噪声帧的传输模式为非连续传输时，对所述噪声帧进行判断，如果判断需要对所述噪声帧进行编码，则选择所述噪声帧为需要编码的噪声帧；或

所述当前噪声帧的传输模式为连续传输时，则选择当前噪声帧为需要编码的噪声帧。

5、如权利要求4所述背景噪声的编码方法，其特征在于，所述当前噪声帧的传输模式为非连续传输时，对所述噪声帧进行判断的方法具体为：

计算所述噪声帧的谱、能量相对于长时平均谱、能量的失真，若所述失真超过特定阈值，则对该所述噪声帧进行编码，否则不对当前帧进行任何处理。

6、如权利要求1所述背景噪声的编码方法，其特征在于，所述对所述需要编码的噪声帧进行分层编码的方法具体包括：

对所述需要编码的噪声帧进行分带滤波，将所述噪声帧分成低带信号分量和高带信号分量。

7、如权利要求1所述背景噪声的编码方法，其特征在于，所述对所述需要编码的噪声帧进行分层编码的方法具体包括：

将全频带的噪声信号进行高通滤波，并进行降采样处理，得到低带信号分量。

8、如权利要求6或7所述背景噪声的编码方法，其特征在于，对所述低带信号分量进行窄带核心层编码。

9、如权利要求8所述背景噪声的编码方法，其特征在于，所述对所述低带信号分量进行窄带核心层编码的方法具体包括：

对所述噪声帧的低带信号分量进行线性预测分析，得到线性预测系数和信号能量；

将所述线性预测系数转化成谱参数，对所述谱参数进行矢量量化，得到量化的谱参数；

将所述信号能量进行对数量化，得到帧能量；

将所述量化的谱参数及所述帧能量作为所述噪声帧的窄带核心层参数。

10、如权利要求8所述背景噪声的编码方法，其特征在于，所述对需要编码的噪声帧进行分层编码，进一步包括：

对所述噪声帧进行窄带增强层编码，即对所述窄带核心层中所述谱参数的量化误差和所述信号能量的量化误差进行量化。

11、如权利要求8所述背景噪声的编码方法，其特征在于，所述对需要编码的噪声帧进行分层编码，进一步包括：

对所述噪声帧进行宽带扩展层编码。

12、如权利要求11所述背景噪声的编码方法，其特征在于，所述对所述噪声帧进行宽带扩展层编码具体包括：

获取所述高带信号分量的时域包络和频域包络，将所述频域包络各维分量减去量化后的时域包络，得到的矢量分裂成多个子矢量，并分别进行量化，得到宽带扩展层编码参数。

13、如权利要求11所述背景噪声的编码方法，其特征在于，所述对所述噪声帧进行宽带扩展层编码具体为采用时域混叠消除TDAC编码算法对所述噪声帧的低带残差信号分量及高带信号分量进行宽带扩展层编码的方法，具体包括：

将所述低带信号分量进行重建，将所述重建的低带信号分量升采样并进行频谱扩展，得到重建的宽带信号，将原始的宽带信号与所述重建的宽带信号的残差进行修正的离散余弦变换MDCT变换，对得到的MDCT系数进行量化编码，得到宽带扩展层编码参数。

14、一种背景噪声的解码方法，其特征在于，包括以下步骤：

根据所述编码参数进行背景噪声重建。

15、如权利要求14所述背景噪声的解码方法，其特征在于，所述根据当前噪声帧的传输模式解码出所述噪声帧的编码参数的方法具体为：

所述当前噪声帧的传输模式为非连续传输时，解码出接收到的噪声帧的编码参数，对于未传输的噪声帧，则根据以前接收到的噪声帧或在拖尾阶段缓存的编码参数解码出当前噪声帧的编码参数；或

所述当前噪声帧的传输模式为连续传输时，则对所述接收到的噪声帧解码出编码参数。

16、如权利要求14所述背景噪声的解码方法，其特征在于，所述根据所述编码参数进行背景噪声重建的方法具体为：

所述接收到的噪声帧只包含窄带核心层或既包括窄带核心层又包括窄带增强层时，使用重建出的谱参数计算出合成滤波器的系数，使用高斯随机噪声作为激励，通过计算出的合成滤波器进行合成滤波，并使用重建出的能量参数进行时域整形，重建出背景噪声信号。

17、如权利要求14所述背景噪声的解码方法，其特征在于，所述根据所述编码参数进行背景噪声重建的方法具体为：

所述接收到的噪声帧只包含窄带核心层或既包括窄带核心层又包括窄带增强层时，对低带编码参数进行码激励线性预测CELP解码，得到解码出的低带信号分量，将低带信号分量升采样为全频带信号并进行频谱扩展，重建出背景噪声信号。

18、如权利要求14所述背景噪声的解码方法，其特征在于，所述根据所述编码参数进行背景噪声重建，进一步包括：

所述接收到的噪声帧还包含宽带扩展层时，

采用时域带宽扩展TDBWE解码算法对所述噪声帧重建出背景噪声信号；或

采用TDAC解码算法对所述噪声帧重建出背景噪声信号。

19、如权利要求18所述背景噪声的解码方法，其特征在于，所述采用TDBWE解码算法对所述噪声帧重建出背景噪声信号的方法具体为：

使用重建出的谱参数计算出合成滤波器的系数，使用高斯随机噪声作为激励，通过计算出的合成滤波器进行合成滤波，并使用重建出的能量参数进行时域整形，得到背景噪声信号的低带信号分量；

使用高斯随机噪声作为激励源，利用重建出的高带编码参数对所述激励源进行时域整形和频域整形，重建出背景噪声信号的高带信号分量；

将所述重建出的低带信号分量和高带信号分量进行合成滤波，得到背景噪声信号。

20、如权利要求18所述背景噪声的解码方法，其特征在于，所述采用TDAC解码算法对所述噪声帧建出背景噪声信号的方法具体为：

对低带编码参数通过CELP解码算法解码出低带信号分量，将低带信号分量升采样并进行频谱扩展，得到全频带信号；

对重建的高带编码参数进行反量化和反MDCT变换，得到残差信号，与所述全频带信号进行合并，得到宽带的背景噪声信号。

21、一种编码器，其特征在于，包括：

22、如权利要求21所述编码器，其特征在于，还包括：

判断单元，用于判断当前接收到的音频帧的类型，当所述音频帧为噪声帧且前一帧为语音帧时，特定帧时间内，将接收到的噪声帧发送给语音编码单元，所述特定帧时间后，将接收到的噪声帧发送给所述选择单元；

语音帧编码单元，用于接收到所述判断单元发送的噪声帧后，按照语音编码算法对所述噪声帧进行编码且降低编码速率。

23、如权利要求21所述编码器，其特征在于，所述编码单元进一步包括：

低带编码子单元，用于对噪声帧的低带信号分量进行核心层编码；

高带编码子单元，用于对所述核心层编码子单元编码的噪声帧的高带信号分量进行扩展层编码。

24、一种解码器，其特征在于，包括：

25、如权利要求24所述解码器，其特征在于，所述重建单元进一步包括：

低带子单元，用于当接收到的噪声帧只包含窄带核心层或既包含窄带核心层又包含窄带增强层时，利用解码单元输出的低带编码参数，重建出背景噪声信号的低带信号分量；

高带子单元，用于当接收到的噪声帧还包含宽带扩展层时，利用解码单元输出的高带编码参数，重建出背景噪声信号的高带信号分量；

合成子单元，用于将所述低带信号分量和高带信号分量进行合成滤波，得到背景噪声信号。

26、一种编解码系统，其特征在于，包括：