CN106098072A

CN106098072A - 一种基于混合激励线性预测的600bps甚低速率语音编解码方法

Info

Publication number: CN106098072A
Application number: CN201610395422.2A
Authority: CN
Inventors: 李强; 朱兰; 陈浩; 张玲; 明艳
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2016-06-02
Filing date: 2016-06-02
Publication date: 2016-11-09
Anticipated expiration: 2036-06-02
Also published as: CN106098072B

Abstract

本发明请求保护一种基于混合激励线性预测的600bps甚低速率语音编解码方法，包括：编码端对输入的语音信号进行加窗截断，得到一个子帧，提取子帧的语音特征参数，包括：线谱对频率、基音周期、增益和带通清/浊音强度；以相邻五个子帧组成一个超帧，判断出超帧的类型；对语音特征参数进行多帧联合量化编码；利用多帧联合量化编码后的剩余比特对重要的语音特征参数进行差错控制；最后组成二进制比特流进行传送。解码端解析出超帧类型和语音特征参数后，进行语音特征参数完整性重构，生成激励信号，再经过自适应谱增强、合成滤波器、增益控制和脉冲散布滤波后得到合成语音信号。本发明能有效地降低语音编码速率，接收端合成的语音具有较高的清晰度和可懂度，且算法复杂度较低。

Description

一种基于混合激励线性预测的600bps甚低速率语音编解码方法

技术领域

本发明属于语音通信领域，特别是涉及到一种基于混合激励线性预测的甚低速率语音编解码器，可应用在保密通信、卫星移动通信以及深海通信中。

背景技术

语音是人类相互传递信息的主要载体，是现代通信中最直接、最方便、最有效的交流方式，也是未来人机交互的主要手段。随着通信技术的发展，图像、数据等非语音信息在信息传递中所占比重越来越大，但有效的语音信息传递仍然是众多通信系统必备的功能之一。

虽然光纤传输技术的引入为通信网络提供了巨大的传输容量，信道带宽问题似乎得到解决。但人们对频带资源有限的陆地蜂窝移动通信和卫星通信的需求也在不断增加。语音信号经过模/数转换后，数据量大增，数字语音信号在通信网中进行传输时需要更大的带宽，这对频带资源有限的无线通信系统来说，传输成本增大，因此，必须对数字化后的语音信号进行压缩编码。一般将速率低于1.2kbps的语音编码称为甚低速率语音编码，甚低速率语音编码技术在现代通信系统中有着特殊的应用。(1)保密通信。由于数字加密技术可增加通信的安全性，语音信号通过甚低速率编码器编码后，对编码的语音数据进行加密处理，然后在窄带信道上进行传输。(2)增大系统容量。卫星移动通信系统主要用于解决线路铺设艰难的边远山区、浩瀚的沙漠和广阔海洋区域的通信，通过降低语音的编码速率，在有限的频带的信道上提供更多的话音通道，提高通信效率。(3)通信条件恶劣的军事通信和水下通信中也是甚低速率语音编码技术的应用领域。可以说甚低速率语音通信的这些特殊应用，促进了甚低速率语音编码技术的发展。

经过几十年的研究和发展，高质量语音编码技术已大规模地走向实用化，产生了许多语音编码国际标准。国际标准化组织ITU-T相继制定了16kb/s的G.728(LD-CELP)、8kb/s的G.729(CS-ACELP)、5.3/6.3kb/s的G.723.1(ACELP)等国际语音编码标准；国际海事卫星组织(INMARSAT)于1990年制定的语音压缩编码标准采用了4.15kb/s改进型多带激励(IMBE)算法；美国Qualcom公司为CDMA移动通信系统采用了4kb/s～8kb/s的变速率语音压缩编码的标准QCELP，并纳入了IS-95标准中。二十世纪九十年代，McCree博士和Barnwell教授提出了混合激励线性预测(MELP)编码算法，采用MELP算法可产生具有较高合成质量的1.2～2.4kbps声码器。通过分析1.2～2.4kbps低速率声码器算法原理，提出一种600bps甚低速率声码器的实现方法，可扩大MELP算法在低码率语音编码领域的应用范围。

发明内容

针对现有技术的不足，提出了一种算法复杂度较低，所需存储空间较小，合成语音清晰度较高的600bps甚低速率语音编解码方法。本发明的技术方案如下：

一种基于混合激励线性预测的600bps甚低速率语音编解码方法，其包括以下步骤：

101、在编码端，对输入的语音信号进行分段，以N毫秒(N取值为20)为一个子帧，相邻五个子帧组成一个超帧，将超帧的语音数据存储在数据缓存器结构中。

102、提取每一子帧的语音特征参数，包括：线谱对频率、基音周期、增益和带通清/浊音强度；

103、根据每子帧的清/浊音状态判断出超帧的类型，对五个子帧的语音特征参数进行多帧联合量化编码；

104、利用多帧联合量化编码后的剩余比特对重要的语音特征参数进行差错控制，最后组成二进制比特流传送给解码端；

105、在解码端，从接收到的比特流中解析出超帧类型和语音特征参数，然后进行语音特征参数完整性重构，利用重构的语音特征参数生成激励信号，再经过自适应谱增强、合成滤波器、增益控制和脉冲散布滤波后得到合成语音信号。

进一步的，所述步骤101对输入的语音信号进行分段前还包括滤除工频干扰在内的预处理步骤，及对语音信号加窗截断的步骤。

进一步的，所述步骤101数据缓存器结构：1到350是前一超帧后350个语音样点的存储区域，351到1150是当前超帧的五个子帧共800个语音样点的存储区域。

进一步的，所述步骤102中提取带通清/浊音强度。每个子帧的语音信号通过滤波器组分解为5个子频带，计算出每个子频带的清/浊音强度值，当判断出某子频带为清音状态，用“0”表示，如果为浊音状态，则用“1”表示。其中第一子频带的清/浊音状态决定该子帧的清/浊音状态。

进一步的，所述步骤103中超帧类型有16种。判断出超帧的连续五个子帧的清/浊音状态后，五个子帧的清/浊音状态值视为一种超帧结构；统计出每种超帧结构出现的概率；取概率最大的16种结构做为超帧类型，剩余16种超帧结构归类到与之相近的超帧类型中。

进一步的，所述步骤103对五个子帧的语音特征参数进行多帧联合量化包括；将传输的参数按其在帧结构中分配的比特数进行标量量化或矢量量化，具体参数的量化包括：

A1、超帧类型的量化：对超帧类型进行4bit标量量化；

A2、基音周期的量化：对于没有浊音子帧的超帧，不传输基音周期参数；对只有一个浊音子帧的超帧，只对浊音子帧的基音周期进行对数化，再进行7bit标量量化；对有两个浊音子帧的超帧，将5个子帧的基音周期进行对数化后，再组成一个矢量，进行9bit的矢量量化；对于有两个以上浊音子帧的超帧，将5个子帧的基音周期进行对数化后，再组成一个矢量，进行11bit矢量量化；

A3、带通清/浊音强度的量化：除了最低子频带外，将五个子帧的其余4个子频带的清/浊音状态值组成一个20维矢量。如果超帧没有浊音子帧，不传输带通清/浊音强度值；如果超帧只有一个浊音子帧，对超帧的20维清/浊音状态矢量进行4bit的矢量量化；对于有两个或两个以上浊音子帧的超帧，对超帧的20维清/浊音状态进行5bit矢量量化；

A4、增益的量化：每子帧提取2个增益值，五个子帧的增益组成一个10维矢量，进行8bit矢量量化；

A5、线谱对频率的量化：只对超帧中的2或3个子帧的LSF参数进行量化。若子帧为清音帧，进行9bit的矢量量化；若子帧为浊音帧，进行16bit的矢量量化。

进一步的，所述步骤104对重要的语音特征参数进行差错控制，具体包括：

A1、如果超帧是UUUUU模式

步骤一：将增益值(Gain)量化后的8bit平均分成两个部分，每部分进行汉明(8,4)编码保护；

步骤二：对超帧类型值(Type)进行汉明(8,4)编码保护；

步骤三：对多级矢量量化后的线谱对频率(LSF)进行保护。对第一子帧的第一级5bit的高4位进行汉明(7,4)编码保护，对剩余的1bit联合第二级的高3bit进行汉明(7,4)编码保护，对第一子帧第二级剩余的1bit联合第三子帧第一级的高3bit进行汉明(7,4)编码保护；

A2、如果超帧是VUUUU模式

对量化后增益值(Gain)的高4位进行汉明(7,4)编码保护；

A3、如果超帧是UUUUV模式

对量化后增益值(Gain)的高4位进行汉明(7,4)编码保护。

进一步的，所述步骤105利用重构的语音特征参数生成激励信号，包括步骤：将残差谐波幅度和抖动值设置为默认值；

根据步骤105解析出的超帧类型，判断出每个子帧的清/浊状态。若为浊音子帧，利用残差谐波幅度和带通清/浊音强度生成周期性脉冲激励信号；若为清音子帧，激励为白噪声信号。激励信号经合成滤波器后，得到重构的语音信号。

进一步的，步骤105中的合成滤波器的系统函数为其中，α_i是通过解码重构出的线谱对频率经转换后得到的线性预测系数值。

所述N取值为20。

本发明的优点及有益效果如下：

本发明能实现一种基于混合激励线性预测的600bps声码器。通过采取多子帧的语音特征参数联合量化的方式，为各种语音特征参数分配合理的量化比特数，采取标量量化和矢量量化的方式，既降低了编码器的输出比特率，又保证合成语音具有较高清晰度和可懂度，且编解码算法复杂度相对较小，实现成本较低。采用本发明实现的甚低码率声码器可应用在军事保密和卫星移动通信等频带资源有限的无线通信系统中。因此本发明具有良好的应用前景和实用价值。

附图说明

图1本发明提供的实施例语音编解码流程图

图2本发明编码端语音信号处理流程图

图3本发明解码端语音特征参数恢复及语音信号合成流程图

图4编码数据缓存结构示意图

具体实施方式

以下结合附图，对本发明作进一步说明：

在编码端，对输入的语音信号进行去噪等预处理后，加窗截断形成20ms的子帧，五个子帧组成一个超帧；对五个子帧的语音特征参数进行联合量化，并利用帧结构中的剩余比特对一些重要的语音特征参数进行差错控制编码，最后组成二进制比特流进行传送。在解码端，从接收到的比特流中解析出各语音特征参数，利用解析出的语音特征参数生成激励信号，经过合成滤波器后得到重构的语音。再经过增益调整和脉冲整形滤波，得到最终的合成语音。

提取子帧的语音参数有：线谱对频率(LSF)、基音周期(Pitch)、带通清/浊音强度(BPVC)和增益(Gain)。

(1)编码端的基本步骤

步骤一：将输入的语音信号经过一个截止频率为100Hz的高通滤波器，滤除50Hz的工频干扰；

步骤二：把五个连续的20ms子帧组成一个超帧，按编码数据缓存器结构进行存储；

步骤三：分别提取五个子帧的语音特征参数；

步骤四：根据五个子帧的清/浊音状态值通过查表确定超帧类型；

步骤五：根据超帧类型，确定各语音特征参数量化所用的比特数；

步骤六：对超帧类型进行量化，对子帧的语音特征参数进行联合量化；

步骤七：利用编码后超帧结构中的剩余比特对步骤六所得的重要参数进行差错控制编码；

步骤八：对联合量化后的参数和差错控制编码参数一起组成二进制比特流，传送给解码端；

其中，编码端步骤二中的“编码数据缓存器结构”如图4所示，1到350是前一超帧后350个样点的存储区域，351到1150是当前超帧五个子帧共800个样点的存储区域。

其中，编码端步骤六中“对超帧类型进行量化，对子帧的语音特征参数进行联合量化”，超帧类型和子帧的语音特征参数比特分配和量化方式如下：

步骤一：超帧类型(Type)进行4bit标量量化；

步骤二：基音周期(Pitch)的量化。对于没有浊音子帧的超帧，不传输基音周期参数；对于只有一个浊音子帧的超帧，先对浊音子帧的基音周期进行对数化，再进行7bit标量量化；对于有两个浊音子帧的超帧，将5个子帧的基音周期进行对数化后组成一个矢量，再进行9bit的矢量量化；对于有两个以上浊音子帧的超帧，将5个子帧的基音周期进行对数化后组成一个矢量，再进行11bit矢量量化；

步骤三：带通清/浊音强度(BPVC)的量化。除了最低子频带外，将五个子帧的其余4个子频带的清/浊音状态值组成一个20维矢量。如果超帧没有浊音子帧，不传输带通清/浊音强度值；如果超帧只有一个浊音子帧，对超帧的20维清/浊音状态矢量进行4bit的矢量量化；对于有两个或两个以上浊音子帧的超帧，对超帧的20维清/浊音状态进行5bit矢量量化；

步骤四：增益的量化。每子帧提取2个增益值，五个子帧的增益组成一个10维矢量，进行8bit矢量量化；

步骤五：线谱对频率的量化。只对超帧中的2或3个子帧的LSF参数进行量化。若子帧为清音帧，进行9bit的矢量量化；若子帧为浊音帧，进行16bit的矢量量化。

其中，编码端步骤七中“差错控制编码”，差错控制编码方式如下：

A1、如果超帧是UUUUU模式

步骤二：对超帧类型(Type)进行汉明(8,4)编码保护；

A2、如果超帧是VUUUU模式

对量化后增益值(Gain)的高4位进行汉明(7,4)编码保护；

A2、如果超帧是UUUUV模式

对量化后增益值(Gain)的高4位进行汉明(7,4)编码保护。

本发明设计的600bps声码器，超帧类型和超帧结构如表1所示，LSF参数量化方案如表2所示，编码端帧结构比特分配方案如表3所示。

表1

超帧类型(Type)	超帧结构
		0	UUUUU(UVUUU.UUVUU.UUUVU.UVUVU)
1	VUUUU(VUUVU.VUVUU)
		2	UUUUV(UVUUV.UUVUV)
3	VVUUU
		4	VUUUV
5	UVVUU
		6	UUVVU
7	UUUVV
		8	VVVVV(VUVVV.VVUVV.VVVUV.VUVUV)
9	VVVVU(VUVVU.VVUVU)
		10	UVVVV(UVUVV.UVVUV)
11	UVVVU
		12	VVVUU
13	VVUUV
		14	VUUVV
15	UUVVV

表2

表3

(2)解码端的基本步骤

图3给出的是解码端语音特征参数的解码和语音信号的合成过程。

步骤一：解码端从接收到的比特流中解析出超帧类型(Type)和语音特征参数的量化索引值，通过量化索引得到语音特征参数的初值后，进行语音特征参数完整性重构。残差谐波幅度(Fsmag)设置为默认值1.0，抖动(Jitter)设置为默认值0.25；

步骤二：采用上述语音特征参数生成的激励信号经过合成滤波器后得到重构的语音信号；

步骤三：对重构的语音信号进行增益调整和脉冲整形滤波，得到最终合成的语音信号；

其中，解码端步骤二中“采用上述语音特征参数生成的激励信号”。根据步骤一解析出的超帧类型，可判断出五个子帧的清/浊状态。若为浊音子帧，利用残差谐波幅度(Fsmag)和带通清/浊音强度(BPVC)生成周期性脉冲激励信号；若为清音子帧，激励信号为白噪声信号；

其中，解码端步骤二中“经过合成滤波器后得到重构的语音信号”，合成滤波器的系数α_i是解析重构后的线谱对频率LSF经转换后得到的。合成滤波器的系统函数

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于混合激励线性预测的600bps甚低速率语音编解码方法，其特征在于，包括以下步骤：

101、在编码端，对输入的语音信号进行分段，以N毫秒为一个子帧，相邻五个子帧组成一个超帧，将超帧的语音数据存储在数据缓存器结构中。

2.根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法，其特征在于，所述步骤101对输入的语音信号进行分段前还包括滤除工频干扰在内的预处理步骤，及对语音信号加窗截断的步骤。

3.根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法，其特征在于，所述步骤101数据缓存器结构：1到350是前一超帧后350个语音样点的存储区域，351到1150是当前超帧的五个子帧共800个语音样点的存储区域。

4.根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法，其特征在于，所述步骤102中提取带通清/浊音强度。每个子帧的语音信号通过滤波器组分解为5个子频带，计算出每个子频带的清/浊音强度值，当判断出某子频带为清音状态，用“0”表示，如果为浊音状态，则用“1”表示，其中第一子频带的清/浊音状态决定该子帧的清/浊音状态。

5.根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法，其特征在于，所述步骤103中超帧类型有16种。判断出超帧的连续五个子帧的清/浊音状态后，五个子帧的清/浊音状态值视为一种超帧结构；统计出每种超帧结构出现的概率；取概率最大的16种结构做为超帧类型，剩余16种超帧结构归类到与之相近的超帧类型中。

6.根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法，其特征在于，所述步骤103对五个子帧的语音特征参数进行多帧联合量化包括；将传输的参数按其在帧结构中分配的比特数进行标量量化或矢量量化，具体参数的量化包括：

A1、超帧类型的量化：对超帧类型进行4bit标量量化；

7.根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法，其特征在于，所述步骤104对重要的语音特征参数进行差错控制，具体包括：

A1、如果超帧是UUUUU模式

步骤一：将增益值Gain量化后的8bit平均分成两个部分，每部分进行汉明(8,4)编码保护；

步骤二：对超帧类型值Type进行汉明(8,4)编码保护；

步骤三：对多级矢量量化后的线谱对频率LSF进行保护。对第一子帧的第一级5bit的高4位进行汉明(7,4)编码保护，对剩余的1bit联合第二级的高3bit进行汉明(7,4)编码保护，对第一子帧第二级剩余的1bit联合第三子帧第一级的高3bit进行汉明(7,4)编码保护；

A2、如果超帧是VUUUU模式

对量化后增益值Gain的高4位进行汉明(7,4)编码保护；

A3、如果超帧是UUUUV模式

对量化后增益值Gain的高4位进行汉明(7,4)编码保护。

8.根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法，其特征在于，所述步骤105利用重构的语音特征参数生成激励信号，包括步骤：将残差谐波幅度和抖动值设置为默认值；

根据步骤105解析出的超帧类型，判断出每个子帧的清/浊状态。若为浊音子帧，利用残差谐波幅度和带通清/浊音强度生成周期性脉冲激励信号；若为清音子帧，激励为白噪声信号，激励信号经合成滤波器后，得到重构的语音信号。

9.根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法，其特征在于，步骤105中的合成滤波器的系统函数为其中，α_i是通过解码重构出的线谱对频率经转换后得到的线性预测系数值。

10.根据权利要求1所述的基于混合激励线性预测的600bps甚低速率语音编解码方法，其特征在于，所述N取值为20。