CN109616129B

CN109616129B - 用于提升语音丢帧补偿性能的混合多描述正弦编码器方法

Info

Publication number: CN109616129B
Application number: CN201811342149.2A
Authority: CN
Inventors: 林志斌; 刘晓峻; 狄敏
Original assignee: Jiangsu Province Nanjing University Of Science And Technology Electronic Information Technology Co ltd; Ma'anshan Aidesheng Electronic Technology Co ltd; Nanjing Nanda Electronic Wisdom Service Robot Research Institute Co ltd; Nanjing University
Current assignee: Jiangsu Province Nanjing University Of Science And Technology Electronic Information Technology Co ltd; Ma'anshan Aidesheng Electronic Technology Co ltd; Nanjing Nanda Electronic Wisdom Service Robot Research Institute Co ltd; Nanjing University
Priority date: 2018-11-13
Filing date: 2018-11-13
Publication date: 2021-07-30
Anticipated expiration: 2038-11-13
Also published as: CN109616129A

Abstract

本发明公开了一种用于提升语音丢帧补偿性能的混合多描述正弦编码器方法，编码器框架结构由三个编码器组成，分别为多描述正弦编码器、参数编码器一和参数编码器二，其中多描述正弦编码器是核心编解码器，参数编码器一和参数编码器二为发送端丢包补偿用辅助编码器，引入两帧的信号延迟，增加了混合多描述正弦编码器的编解码器对网络丢包的鲁棒性。本发明通过牺牲相关冗余度提高人机交互通讯语音丢帧纠错能力，有效的提升人机交互数据丢失时的语音质量。

Description

用于提升语音丢帧补偿性能的混合多描述正弦编码器方法

技术领域

本发明涉及一种混合多描述正弦编码器方法，属于音频处理技术领域。

背景技术

在过去的几年里，人机交互获得了广泛的重视，并取得了巨大的成功。但是在不可靠的分组网络上，由于分组丢失的存在，传输的语音质量还不尽如人意。传统的处理分组丢失的方法是重传。但是当分组丢失率较高时，重传会导致更加拥塞的环境，并且不能满足实时性的要求。与重传不同，多描述编码(MDC)可以显著提高传输的稳定性，而又不引入明显的时延，是一种有效的解决分组丢失的方法。早期提出的多描述波形语音编码器算法简单，可以很好地提高系统的传输稳定性，但这类编码器的压缩率不高。后续有人提出基于CELP的多描述编码器，这些编码器有足够高的压缩效率,但是它们的参数之间有很强的依赖性，描述分解方法不够灵活，稳定性的提高是以性能大幅降低为代价的,而且分组的丢失会影响到编码器状态的恢复。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提出一种混合多描述正弦编码器方法，通过牺牲相关冗余度提高人机交互通讯语音丢帧纠错能力，有效的提升人机交互数据丢失时的语音质量。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种用于提升语音丢帧补偿性能的混合多描述正弦编码器方法，编码器框架结构由三个编码器组成，分别为多描述正弦编码器、参数编码器一和参数编码器二，其中多描述正弦编码器是核心编解码器，参数编码器一和参数编码器二为发送端丢包补偿用辅助编码器，引入两帧的信号延迟，增加了混合多描述正弦编码器的编解码器对网络丢包的鲁棒性；其中多描述正弦编码器为基于多描述框架的正弦编码器，

多描述正弦编码器主要由两部分组成，其中一部分为线谱对参数冗余描述，另一部分为残差信号的匹配跟踪正弦建模模块及其交织多描述；采用线性预测求残差的方式进行混合多描述编码，其中线谱对参数量化采用感知加权分裂矢量量化方式进行，采用10阶全极点滤波器进行线性预测，转化成10个对应的LSF参数，采用分裂矢量量化方式将10维的矢量分裂成3个矢量，然后分别对这3个矢量进行矢量量化的分裂矢量量化；首先将10维LSP参数分别分组为LSF₁＝{lsf(1),lsf(2),lsf(3)}，LSF₂＝{lsf(4),lsf(5),lsf(6)}，和LSF₃＝{lsf(7),lsf(8),lsf(9),lsf(10)}；同时对LSF₁码本以lsf(3)为基准进行由小到大排序，对LSF₃码本以lsf(7)为基准进行由小到大排序；LSF₁、LSF₂和LSF₃三个码本的大小分别为M1、M2和M3；先量化矢量LSF₂，在量化LSF₁之前，先找到LSF₁码本中lsf(3)<lsf(4)的码本序号Index1，仅在码本的序号1～Index1间搜索与LSF₁最邻近的码字；在量化LSF₃之前，先找到LSF₃码本中lsf(7)>lsf(6)的码本序号Index3，仅在码本的序号Index1～M3场间搜索与LSF₃最邻近的码字；对分裂量化得到的矢量进行冗余描述，复制一份描述到描述2，与匹配跟踪中的正弦描述传输分组至编码器描述2码流；

多描述正弦编码器码率为B0(kbps)，辅助的参数编码器一和参数编码器二编码码率为B1(kbps)和B2(kbps)，三种满足以下关系：

B2<＝B1<B0 (1)

多描述正弦编码器第m帧传输的码流为第m、m+1和m+2帧的编码信号，其中主编码器传输B0(kbps)的码流信息，作为当前帧的码流信号，而参数编码器一和参数编码器二作为丢包补偿的冗余编码器。

在正弦模型中,每一帧语音信号用一组正弦信号之和来表示，因此，对于第i帧信号有

采用正弦字典对语音信号进行信号分解，在一个高度冗余的字典空间D中将输入信号s(n)分解成一组原子(atom)信号的线性组合，假定包含M个原子的字典为：

D＝{g_m}；m＝0，1，...，M-1 (3)

匹配跟踪的分解迭代过程如下：

设置初始输入信号为当前残差信号，即令r₀＝s(n)，在第k(k>＝0)步迭代中，查找第k个原子索引m_k，使该原子与当前残差信号r_k的相关系数最大，此时对应的原子字典的频率就是建模频率，而此刻该正弦原子的幅度就是残差信号和原子的内积：

此时得到重构信号为：

其中K为迭代次数。

对于正弦建模来说，可以采用如下的复指数原子组成的正弦字典：

此处字典空间是由复指数原子所刻画的，而实际中面临的通常是实信号，采用共轭子空间投影技术，在由字典原子及其复共轭所形成的子空间中计算相关系数，其结果也以共轭对的形式出现,这样第k步迭代得到的残差信号为:

此时合成信号为：

此为正弦合成的基本原理公式，ξ_k亦为复数；

由匹配跟踪得到对应的一组幅度、频率和相位

其中K为提取的正弦数目，若K为偶数，将该组正弦建模参数按照幅度进行能量大小排列，对新排序的参数分组，其中分组一为

所对应的一组幅度频率和相位，分组二：

所对应的一组幅度频率和相位，在两个分组之间加入一定冗余，将分组一中的前几个能量大的信号加入分组二，分组二中的前几个能量大的信号加入分组一，保持两个分组描述能量的一致性，分组后的正弦多描述为：

优选的：参数编码器一和参数编码器二为正弦参数编码器，或者参数编码器一和参数编码器二为低比特率的参数编码器。

优选的：在任何连续丢帧在三帧以内的帧丢失，可以在一定程度上恢复其编码信号，对于连续丢帧三帧及其三帧以上的帧丢失，采用波形外推的方式进行丢帧补偿。

优选的：在解码端，只要收到任何一组描述，就可以与前面的LSP对应的描述组成完整的描述，恢复语音信号，如果收到两组描述，语音质量将大大提升。

优选的：参数编码器一为编码码率略高于参数编码器二的编码器。

本发明相比现有技术，具有以下有益效果：

1.采用混合多描述正弦编码器的码流结构以牺牲一定相关冗余度提高丢帧纠错能力；

2.正弦多描述编码方法中的数据分组采用多描述传输，为分组网络的纠错提供一定的保障；

3.正弦编码器的频率轨迹及其幅度的可预测给解码端的帧内或帧间的纠错带来好处。

附图说明

图1为多描述编码框架。

图2为多描述编码器解码框架。

图3为混合多描述编码框架结构。

图4为混合多描述正弦编码器顶层码流结构。

图5为多描述正弦编码器框架。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

一种用于提升语音丢帧补偿性能的混合多描述正弦编码器方法，主要包括：

1.多描述编码框架(图1)

2.多描述编码器解码框架(图2)

3.混合多描述编码框架结构(图3)

4.混合多描述正弦编码器顶层码流结构(图4)

5.多描述正弦编码器框架(图5)

图1给出了多描述语音编码系统的基本结构，语音信号首先被分成两个或者多个描述，这些描述在不同的信道上独立传输。每个描述都可以单独解码，部分地恢复原始信号(如图2中解码器1和2的输出)，如果得到多个描述，它们联合在一起可以得到更好的重建质量(如图2中解码器0的输出)。多描述编码的基本思想就是在两个描述之间引入相关性，也就是冗余。当任何一个描述丢失时，解码器可以根据这部分冗余从正确接收的描述中部分地恢复丢失的数据。对于波形多描述编码器,奇数样点和偶数样点被分解到两个描述中，解码器在恢复单个描述时，利用了样点自身的冗余，用内插法恢复丢失的样点。为了避免奇偶样点分解造成的频谱混叠,该类编码器的采样率都比较高，增加了系统的负担。而参数多描述编码器可根据参数的统计特性将参数分配到两个描述中。因为参数之间的依赖性，以及对误差的敏感性，使得两个描述中有大量重复的参数才可以单独解码,从而降低了系统的压缩率。

由图1和图2可知，在分组网络中，不同的信道的传输的数据丢失概率不同，故解码端在同一时刻可能收到来自发送端的某个描述信号，通过对应的解码器可以部分得到编码信息，一定程度上减少丢包带来的音质损伤，在分组网络的丢包处理上有着极其广泛的应用。

本发明涉及的多描述正弦编码器的主体框架如图3所示，本发明引入两帧的编码延迟弥补发送端的丢帧补偿。

如图3所示，本发明的编码器框架结构由三个编码器组成，其中多描述编码器是本发明的核心编解码器，参数编码器1和参数编码器2为发送端丢包补偿用辅助编码器，本发明引入两帧的信号延迟，增加了混合多描述编码器的编解码器对网络丢包的鲁棒性。其中多描述编码器为基于多描述框架的正弦编码器，而参数编码器1为编码码率略高于参数编码器2的编码器，两个辅助编码器的选择可以是正弦参数编码器，也可以是低比特率的其他类型参数编码器框架结构。

根据混合多描述编码器的框架结构图，本发明中，图3中的多描述编码器码率为B0(kbps)，辅助的参数编码器1和2编码码率为B1(kbps)和B2(kbps)，三种满足以下关系：

B2<＝B1<B0 (1)

混合多描述编码器顶层码流结构如图4所示。

如图4所示，第m帧传输的码流为第m、m+1和m+2帧的编码信号，其中主编码器传输B0(kbps)的码流信息，作为当前帧的码流信号，而辅助参数编码器1和2作为丢包补偿的冗余编码器。由图4可以看出，在任何连续丢帧在三帧以内的帧丢失，本发明的编码器均可以在一定程度上恢复其编码信号，对于连续丢帧三帧及其三帧以上，本发明采用波形外推的方式进行丢帧补偿。

本发明的多描述正弦编码框架为图5所示。

如图5所示，本发明的多描述正弦编码器主要由两部分组成，其中一部分为线谱对参数冗余描述，另一部分为残差信号的匹配跟踪正弦建模模块及其交织多描述。

本发明采用线性预测求残差的方式进行混合多描述编码，其中线谱对参数量化采用感知加权分裂矢量量化方式进行。本发明采用10阶全极点滤波器进行线性预测，转化成10个对应的LSF参数。本发明采用分裂矢量量化方式将10维的矢量分裂成3个矢量，然后分别对这3个矢量进行矢量量化的分裂矢量量化。首先将10维LSP参数分别分组为LSF₁＝{lsf(1),lsf(2),lsf(3)}，LSF₂＝{lsf(4),lsf(5),lsf(6)}，和LSF₃＝{lsf(7),lsf(8),lsf(9),lsf(10)}。为了避免系统的不稳定，同时对LSF₁码本以lsf(3)为基准进行由小到大排序，对LSF₃码本以lsf(7)为基准进行由小到大排序；LSF₁、LSF₂和LSF₃三个码本的大小分别为M1、M2和M3。先量化矢量LSF₂，在量化LSF₁之前，先找到LSF₁码本中lsf(3)<lsf(4)的码本序号Index1，仅在码本的序号1～Index1间搜索与LSF₁最邻近的码字；在量化LSF₃之前，先找到LSF₃码本中lsf(7)>lsf(6)的码本序号Index3，仅在码本的序号Index1～M3场间搜索与LSF₃最邻近的码字。对分裂量化得到的矢量进行冗余描述，复制一份描述到描述2，与匹配跟踪中的正弦描述传输分组至编码器描述2码流。

本发明采用匹配跟踪提取幅度、频率和相位信息，也就是采用正弦字典对语音信号进行信号分解。匹配跟踪是一种自适应的信号分解迭代算法，它在一个高度冗余的字典(dictionary)空间D中将输入信号s(n)分解成一组原子(atom)信号的线性组合。假定包含M个原子的字典为：

D＝{g_m}；m＝0，1，...，M-1 (3)

匹配跟踪的分解迭代过程如下：

此时得到重构信号为：

其中K为迭代次数。

此处字典空间是由复指数原子所刻画的，而实际中面临的通常是实信号。为了处理方便，本发明采用共轭子空间投影技术，在由字典原子及其复共轭所形成的子空间中计算相关系数，其结果也以共轭对的形式出现,这样第k步迭代得到的残差信号为:

此时合成信号为：

此为正弦合成的基本原理公式，ξ_k亦为复数。

由匹配跟踪得到对应的一组幅度、频率和相位

所对应的一组幅度频率和相位，分组二：

所对应的一组幅度频率和相位，为了进一步修正两个描述的能量，本发明在两个分组之间加入一定冗余，将分组一中的前几个能量大的信号加入分组二，分组二中的前几个能量大的信号加入分组一，保持两个分组描述能量的一致性。分组后的正弦多描述可以描述为：

在解码端，只要收到任何一组描述，就可以与前面的LSP对应的描述组成完整的描述，恢复语音信号，如果收到两组描述，语音质量将大大提升。

实施方法为：

1.获取输入语音信号x(n)。

2.语音信号预处理和线性预测与逆滤波。

3.进行线谱对参数冗余描述，采用10阶全极点滤波器进行线性预测，转化成10个对应的LSF参数。本发明采用分裂矢量量化方式将10维的矢量分裂成3个矢量，然后分别对这3个矢量进行矢量量化的分裂矢量量化。首先将10维LSP参数分别分组为LSF₁＝{lsf(1),lsf(2),lsf(3)}，LSF₂＝{lsf(4),lsf(5),lsf(6)}，和LSF₃＝{lsf(7),lsf(8),lsf(9),lsf(10)}。为了避免系统的不稳定，同时对LSF₁码本以lsf(3)为基准进行由小到大排序，对LSF₃码本以lsf(7)为基准进行由小到大排序；LSF₁、LSF₂和LSF₃三个码本的大小分别为M1、M2和M3。先量化矢量LSF₂，在量化LSF₁之前，先找到LSF₁码本中lsf(3)<lsf(4)的码本序号Index1，仅在码本的序号1～Index1间搜索与LSF₁最邻近的码字；在量化LSF₃之前，先找到LSF₃码本中lsf(7)>lsf(6)的码本序号Index3，仅在码本的序号Index1～M3场间搜索与LSF₃最邻近的码字。对分裂量化得到的矢量进行冗余描述，复制一份描述到描述2，与匹配跟踪中的正弦描述传输分组至编码器描述2码流。

4.进行残差信号匹配跟踪正弦建模，由匹配跟踪得到对应的一组幅度、频率和相位

所对应的一组幅度频率和相位，分组二：

所对应的一组幅度频率和相位，为了进一步修正两个描述的能量，本发明在两个分组之间加入冗余，将描述1的前M个能量大的信号加入描述2，描述2中的前M个能量大的信号加入描述1，本发明M取5。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种用于提升语音丢帧补偿性能的混合多描述正弦编码器方法，其特征在于：编码器框架结构包括三个编码器，分别为多描述正弦编码器、参数编码器一和参数编码器二，其中多描述正弦编码器是核心编解码器，参数编码器一和参数编码器二为发送端丢包补偿用辅助编码器，引入两帧的信号延迟，增加了混合多描述正弦编码器的编解码器对网络丢包的鲁棒性；其中多描述正弦编码器为基于多描述框架的正弦编码器，

在正弦模型中，每一帧语音信号用一组正弦信号之和来表示，因此，对于第i帧信号有

采用正弦字典对语音信号进行信号分解，在一个高度冗余的字典空间D中将输入信号s(n)分解成一组原子信号的线性组合，假定包含M个原子的字典为：

D＝{g_m}；m＝0，1，...，M-1 (3)

匹配跟踪的分解迭代过程如下：

设置初始输入信号为当前残差信号，即令r₀＝s(n)，在第k步迭代中，k>＝0，查找第k个原子索引m_k，使该原子与当前残差信号r_k的相关系数最大，此时对应的原子字典的频率就是建模频率，而此刻该正弦原子的幅度就是残差信号和原子的内积：

此时得到重构信号为：

其中K为迭代次数；

对于正弦建模来说，采用如下的复指数原子组成的正弦字典：

此处字典空间是由复指数原子所刻画的，采用共轭子空间投影技术，在由字典原子及其复共轭所形成的子空间中计算相关系数，其结果也以共轭对的形式出现，这样第k步迭代得到的残差信号为:

此时合成信号为：

此为正弦合成的基本原理公式，ξ_k亦为复数；

由匹配跟踪得到对应的一组幅度、频率和相位

k＜＝K，其中K为提取的正弦数目，若K为偶数，将该组正弦建模参数按照幅度进行能量大小排列，对新排序的参数分组，其中分组一为

所对应的一组幅度频率和相位，分组二：

所对应的一组幅度频率和相位，在两个分组之间加入一定冗余，将分组一中的前两个以上的能量大的信号加入分组二，分组二中的前两个以上的能量大的信号加入分组一，保持两个分组描述能量的一致性，分组后的正弦多描述为：

2.根据权利要求1所述用于提升语音丢帧补偿性能的混合多描述正弦编码器方法，其特征在于：参数编码器一和参数编码器二为正弦参数编码器，或者参数编码器一和参数编码器二为低比特率的参数编码器。

3.根据权利要求1所述用于提升语音丢帧补偿性能的混合多描述正弦编码器方法，其特征在于：在任何连续丢帧在三帧以内的帧丢失，在一定程度上恢复其编码信号，对于连续丢帧三帧及其三帧以上的帧丢失，采用波形外推的方式进行丢帧补偿。

4.根据权利要求1所述用于提升语音丢帧补偿性能的混合多描述正弦编码器方法，其特征在于：在解码端，只要收到任何一组描述，就可以与前面的LSP对应的描述组成完整的描述，恢复语音信号，如果收到两组描述，语音质量将大大提升。

5.根据权利要求1所述用于提升语音丢帧补偿性能的混合多描述正弦编码器方法，其特征在于：多描述正弦编码器码率为B0，辅助的参数编码器一和参数编码器二编码码率为B1和B2，三种满足以下关系：

B2<＝B1<B0 (1)

多描述正弦编码器第m帧传输的码流为第m、m+1和m+2帧的编码信号，其中主编码器传输B0的码流信息，作为当前帧的码流信号，而参数编码器一和参数编码器二作为丢包补偿的冗余编码器。

6.根据权利要求1所述用于提升语音丢帧补偿性能的混合多描述正弦编码器方法，其特征在于：参数编码器一为编码码率高于参数编码器二的编码器。