CN111402907B

CN111402907B - 一种基于g.722.1的多描述语音编码方法

Info

Publication number: CN111402907B
Application number: CN202010177908.5A
Authority: CN
Inventors: 陈喆; 殷福亮; 何莹男
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2023-04-18
Anticipated expiration: 2040-03-13
Also published as: CN111402907A

Abstract

本发明公开了一种基于G.722.1的多描述语音编码方法，将原始语音信号分别输入至G.722.1编码器和互补编码器进行编码分别得到码流I和码流II；将码流I和码流II分别打包成packet1和packet2，再将packet1和packet2通过通信网络传输至解码器中进行解码得到解码语音信号。该方法采用一种多描述语音编码框架，将一条语音编码出两个码流，这两个码流互不影响，可以使用原解码器单独解码，且解码出的语音质量不低于原G.722.1编解码器；如果两个码流联合解码，解码出的语音质量明显优于原G.722.1编解码器，并且新引入的互补编码器，编码时采用不断量化、反馈感知误差的方法。

Description

一种基于G.722.1的多描述语音编码方法

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种基于G.722.1的多描述语音编码方法。

背景技术

随着计算机网络和通信技术的迅猛发展，VoIP已经被广泛使用在多媒体通信和实时传输中，它采用UDP快速地、一次性地传输语音数据，由于UDP不能保证数据包能有序并全部到达接收端，当网络阻塞时，就会发生丢包。当丢包率超过10％，通信质量就会明显下降。在语音信号编解码的过程中，通过在解码端或信道进行额外的操作，可以实现丢包隐藏，进而明显提升语音信号的通信质量。

在陈羿江发表的“G.729语音编码抗丢包算法研究及其ARM平台实现”^[1]文章中提到的多描述编码，它的思想是将待编码语音信号分为奇偶序列，两个序列通过两个DPCM编码器编码，编码后的码流分别在不同的信道上进行传输。在接收端，如果只接收到其中一个码流，则使用解码器进行半速率的解码，然后进行升采样，得到输出语音；如果同时接收到两个码流，则分别对两个码流进行半速率解码，然后对解码语音进行奇偶交叠，得到最终的语音信号。因此该技术具有如下缺陷：在解码端，当只接收到其中一个码流时，只能进行半速率的解码，这会导致语音质量的下降；同时接收到两个码流时，解码出的语音质量与原来DPCM的编解码方案没有提升。

另外在徐明亮发表的“多描述抗丢包音频编码与传输算法研究”^[2]文章中提到的听觉剩余信号标量量化双描述编码，它的思想是将待编码的语音信号首先通过心理声学模型，分解为听觉掩蔽门限和听觉剩余信号，对听觉剩余信号进行标量量化双描述编码。编码端，听觉剩余信号先通过取整算法取整，然后将其分别输入到两个标量量化器中，生成码流1与码流2；解码端，根据接收到的码流选择相应的边解码器或中央解码器对其进行解码。但是该技术的缺陷是：在解码端，它使用三个解码器，不同码流需要对应的解码器来解码，因此需要引入额外的比特来标识码流，破坏原比特流格式，系统的复杂度高；并且发生丢帧时，码流1或码流2只包含原有信号的一部分量化信息，这样重构语音的质量会受到很大的影响；在对已经部署的编解码系统进行升级时，工作量大，独立性和兼容性较差；同时接收到两个码流时，解码出的语音质量与原编解码方案没有提升。

发明内容

根据现有技术存在的问题，本发明公开了一种基于G.722.1的多描述语音编码方法，具体包括如下步骤：

将原始语音信号分别输入至G.722.1编码器和互补编码器进行编码分别得到码流I和码流II；

将原始语音信号输入至G.722.1编码器进行MLT变换得到MLT系数，将MLT系数划分为多个区域并计算每个区域的区域功率，对区域功率进行量化处理得到区域功率的量化指数，对量化指数进行编码得到区域功率编码比特，对MLT系数、区域功率的量化指数以及区域功率编码比特进行进一步编码处理得到码流I；

将原始语音信号输入至互补编码器中首先获取语音信号的量化指数，对该量化指数进行优化调整获得该语音信号的码流，对该码流进行部分解码处理得到对应的解码MLT系数，将此解码MLT系数和码流I进行部分解码得到的MLT系数输入至感知误差计算模块获取感知误差，循环优化调整过程在最优调整方案下获取码流II；

将码流I和码流II分别打包成packet1和packet2，再将packet1和packet2通过通信网络传输至解码器中进行解码得到解码语音信号。

所述量化指数进行优化调整过程为：

设量化指数为rms_index(r)，集合C＝{rms_index(r)-1，rms_index(r)+1}，将编码器分为14个区域，每一区域有两种可能取值，将每个区域r初步量化的rms_index(r)替换为集合C中的任一元素，对全部14个区域进行调整，共有约为2¹⁴-1种调整方法，对于任一区域r，有-8≤rms_index(r)≤31，r≠0，因此对于rms_index(r)＝-8，对于区域0，rms_index(0)＝0，不选取集合C的第一个元素，对于rms_index(r)＝31，不选取集合C的第二个元素，设初始调整方法为P₀，P₀为2¹⁴-1种调整方法中的随机一种，最优调整方法为P_m，并满足联合感知误差最小同时互补编码器的感知误差不大于G.722.1编码器的感知误差。

所述感知误差采用如下方式获取：

将码流I进行部分解码得到enc1_mlt(n)，将优化调整后的码流进行部分解码得到enc2_mlt(n)，对enc1_mlt(n)和enc2_mlt(n)加权得到联合解码的MLT系数com_mlt(n)，其计算公式为

计算相对误差

计算感知加权权重w(n)

其中E是等响度曲线中听阈曲线上对应25nHz频率的dB值；

计算感知误差为

其中0≤n<280，mlt(n)为编码信号经过MLT变换得到的MLT系数，将式(4)中的com_mlt(n)替换为enc1_mlt(n)和enc2_mlt(n)，对应的误差记为e_enc1和e_enc2。

由于采用了上述技术方案，本发明提供的一种基于G.722.1的多描述语音编码方法，该方法采用一种多描述语音编码框架，将一条语音编码出两个码流，这两个码流互不影响，可以使用原解码器单独解码，且解码出的语音质量不低于原G.722.1编解码器；如果两个码流联合解码，解码出的语音质量明显优于原G.722.1编解码器，并且新引入的互补编码器，编码时采用不断量化、反馈感知误差的方法，来寻找与原G.722.1编码器量化方向相反的量化方向，且保证自身量化方向的感知误差更小。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明中基于G.722.1的多描述语音编码系统的结构示意图；

图2为本发明中G.722.1编码器内部框图；

图3为本发明中互补编码器模块的结构示意图；

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1所示的基于G.722.1的多描述语音编码的结构示意图，其中G.722.1编码器模块内部结构如图2所示，互补编码器模块的内部结构如图3所示。

一种基于G.722.1的多描述语音编码方法，具体包括如下步骤：

S1:使用G.722.1编码器模块对输入语音信号进行编码。如图2所示，这里使用的G.722.1编码器模块与ITU标准完全相同，在G.722.1编码器模块中，输入的语音信号分别经过MLT变换模块、区域功率量化编码模块、MLT系数编码模块，具体步骤如下：

S11:输入语音信号经过MLT变换模块21得到MLT系数：将采样率16kHz位深16bit的PCM小端语音信号x(n)分帧，帧长320点，连续两帧(640点)进行一次MLT变换，得到320个MLT系数，每次进行MLT变换的640个点由前一帧的320个点和当前帧的320个点组成。

其中，0≤n<640，0≤m<320。

对得到的320个MLT系数mlt(m)，丢弃后40个，仅处理前280个MLT系数。

S12:280个MLT系数经过区域功率量化编码模块22得到区域功率的量化指数和区域功率的编码比特。这部分与ITU标准中描述的做法完全相同，参考[3]进行实现。

S13:将280个MLT系数、区域功率的量化指数和区域功率的编码比特输送至MLT系数编码模块23中，最终得到G.722.1编码器的编码结果码流I，对应的打包结果为图1中的packet1。

S2:使用互补编码器对输入语音信号进行编码。如图3所示，语音帧分别经过互补编码器模块中的编码参数调节模块31、部分解码模块32、感知误差计算模块33。具体操作步骤如下：

S21:语音信号首先进入编码参数调节模块31，该模块与S1所述G.722.1编码器模块中，除S12步骤外，其余步骤相同。该模块输出为码流，送入部分解码模块32继续处理。这里给出该模块中区域功率量化编码模块22的具体做法：

(1)把280个MLT系数分成每20个系数一组的区域，总的区域数number_of_regions＝14。区域r包括第20r至20r+19个MLT系数，其中：

0≤r<number_of_regions

(2)计算所有区域r的幅度包络即该区域中MLT系数的RMS值：

(3)量化rms(r)，得到量化指数rms_index(r)。量化重建值集合为：

对于整数i，-8≤i<31

rms_index(0)进一步受到限制，即1≤rms_index(r)<31。若rms(r)的值处在

至

的范围内，其对应的量化指数为rms_index(r)＝i。

(4)对量化指数rms_index(r)进行调整。具体调整方法如下：设集合C＝{rms_index(r)-1，rms_index(r)+1}，用集合C中任一元素替代rms_index(r)来完成调整操作。编码器分为14个区域，每一区域有两种可能取值。一次调整为对全部14个区域，将每个区域r初步量化的rms_index(r)替换为集合C中的任一元素。对全部14个区域进行调整，共有约为2¹⁴-1种调整方法。对于的任一频带r，有-8≤rms_index(r)≤31，r≠0，因此对于rms_index(r)＝-8(对于频带0，rms_index(0)＝0)，不选取集合C的第一个元素，对于rms_index(r)＝31，不选取集合C的第二个元素。设初始调整方法为P₀，P₀为2¹⁴-1种调整方法中的随机一种，最优调整方法为P_m。

(5)将rms_index(r)进行编码，得到幅度包络的编码，即包络编码比特。rms_index(0)是每帧中最先传输的值，使用5个比特，最高有效位先传输，rms_index(0)＝0值保留，不使用。对其余13个区域的量化指数进行微分编码，即差值diff_rms_index(r)为rms_index(r)-rms_index(r-1)，其中rms_index(r)为后一个区域的量化指数，rms_index(r-1)为前一个区域的量化指数，并且差值是按区域顺序传输的。最后对差值进行霍夫曼编码，这些差值对应的编码比特使用ITU标准中的规定。

S22:编码参数调节模块31计算出的码流进入部分解码模块32得到当前调整方案(S21中的(4))下，解码出的MLT系数。部分解码模块32的具体步骤与ITU标准中，G.722.1解码器的步骤相同，但仅是一部分，解码出280个MLT系数即可，不进行后续的IMLT变换，这里不赘述。将当前部分解码模块32输出的280个MLT系数记为enc2_mlt(n)。码流I经过部分解码模块得到的280个MLT系数记为enc1_mlt(n)。

S23:将码流I进行部分解码得到enc1_mlt(n)，将当前编码参数调节模块31计算出的码流进行部分解码得到enc2_mlt(n)。将enc1_mlt(n)和enc2_mlt(n)输入到感知误差计算模块33中，计算出感知误差值。具体步骤如下：

(1)计算联合解码的结果，记为com_mlt(n)，其计算公式为

(2)计算相对误差

(3)计算感知加权权重w(n)

其中E是等响度曲线中听阈曲线上对应25nHz频率的dB值，如表1所示。

(4)计算感知误差为

其中0≤n<280，mlt(n)为编码信号经过MLT变换得到的MLT系数。将式(4)中的com_mlt(n)替换为enc1_mlt(n)和enc2_mlt(n)，对应的误差记为e_enc1和e_enc2。

表1等响度表

Tab.1 Table of equal loudness

S24:结合上述的S21编码参数调节模块31、S22部分解码模块32、S23感知误差计算模块33，互补编码器执行流程为：

首先，执行编码参数调节模块31，其中量化指数rms_index(r)的调整方法采用初始调整方法P₀；其次，执行部分解码模块32；然后，执行感知误差计算模块33，得到初始调整方法P₀下的e_enc1、e_enc2和e_com。

不断重复上述过程，遍历2¹⁴-1种调整方法，得到最优的调整方法P_m，满足以下：

1.调整方法P_m满足，在2¹⁴-1种调整方法中，e_com最小；

2.调整方法P_m满足，e_enc2≤e_enc1；

调整方法P_m下得到的码流即为互补解码器的输出，记为码流II，如图3所示，对应的打包结果为图1中的packet2。

S3:如图1所示，packet1和packet2通过通信网传输到解码端，本方法解码端的具体操作步骤如下：

S31:计算当前帧的最终解码出的MLT系数。对每一帧数据，根据数据包的丢失情况，存在4种情形：(1)packet1、packet2都不丢；(2)packet1不丢而packet2丢；(3)packet1丢而packet2不丢；(4)packet1、packet2都丢。设多描述编解码最终输出的280个MLT系数记为newmlt(n)，解码packet1、packet2得到的MLT系数记为mlt1(n)和mlt2(n)，其解码过程与部分解码模块32相同，newmlt_his(n)表示上一帧解码的newmlt(n)。对于上述每种情况的处理方法如表2所示。

表2 MLT系数的替换公式

Tab.2 Substitution formula of MLT coefficients

S32:将解码出的280个MLT系数newmlt(n)，补上40个零，得到320个MLT系数，做IMLT变换得到时域音频信号。IMLT过程是先进行IV型DCT，然后进行加窗、重叠处理，具体操作如下。

IV型DCT为

其中，u(n)表示当前帧IV型DCT，newmlt(m)表示解码出的280个MLT系数补上40个零的结果。

加窗、重叠处理的具体方法为

其中u_old表示前一帧DCT输出的一半，窗函数

u(n)中未使用的后一半存储为u_old，供下一帧使用，即

u_old(n)＝u(n+160)，0≤n<160 (10)

式(8)中的y(n)为最终解码出的时域语音信号。

为验证本专利算法的有效性，分别对多描述编码器和G.722.1编码器解码出的语音质量进行主观评价和客观评价。在进行主观评价实验时，使用两种编码器对同一段语音进行编码，选取12位试听者对解码出的语音进行试听评分，主观评价采用MOS评分，评分准则如表3所示。客观评价采用主观语音质量评估PESQ(Perceptual Evaluation of SpeechQuality)^[4]。在进行客观评价时，对于宽带PESQ的测量，用12个人的48段8-10s的语音作为输入，将48段语音使用两个编码器进行编解码，对输出结果进行宽带PESQ测试取均值。所有主观和客观实验均分别在32kbps和24kbps两种码率下进行，丢包率分别设定为0％、1％、3％、5％、10％、20％、30％，丢包方式为随机丢包。

表3 MOS语音评分标准

Tab.3 Standard of Mean Opinion Score

主观实验结果如表4所示。从表4可以看出，多描述编解码方法在不同码率和丢包率下的MOS评分较高，即语音的质量较好。在32kbps和24kbps两种码率下，宽带PESQ实验结果如表5所示。不丢包时(丢包率0％)，本文的分布式语音编码方法宽带PESQ的改善量在0.1以上，随着丢包率的提高，改善量先增加后略有减小；在丢包率为10％和20％时，改善量在1以上。由此可见，多描述编码算法可以实现，在不丢包时，语音质量明显提升；在丢包时，语音质量改善明显。

表4两种方法的MOS评分结果

Tab.4 MOS score results for both methods

表5 PESQ测试结果

Tab.5 PESQ test results

所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

[1]陈羿江.G.729语音编码抗丢包算法研究及其ARM平台实现[D].西安电子科技大学,2012.

[2]徐明亮.多描述抗丢包音频编码与传输算法研究[D].西安电子科技大学,2007.

[3]ITU-T Recommendation G.722.1,Low-complexity coding at 24and 32kbitfor hands-free operations in systems with low frame loss[S],2005,05.

[4]ITU-T Recommendation P.862,Perceptual evaluation of speech quality(PESQ):An objective method for end-to-end speech quality assessment ofnarrow-band telephone networks and speech codecs[S],2005,11.

Claims

1.一种基于G.722.1的多描述语音编码方法，其特征在于包括：

2.根据权利要求1所述的一种基于G.722.1的多描述语音编码方法，其特征还在于：所述量化指数进行优化调整过程为：

3.根据权利要求2所述的一种基于G.722.1的多描述语音编码方法，其特征还在于：所述感知误差采用如下方式获取：

计算相对误差

计算感知加权权重w(n)

其中E是等响度曲线中听阈曲线上对应25nHz频率的dB值；

计算感知误差为