CN111404639A

CN111404639A - 一种抗丢包的压缩感知基音频流编解码方法及系统

Info

Publication number: CN111404639A
Application number: CN202010207866.5A
Authority: CN
Inventors: 张军; 杜佳梦
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2020-07-10

Abstract

本申请公开了一种抗丢包的压缩感知基音频流编解码方法及系统，包括：获取源语音信号；采用稀疏二元感知矩阵对所述源语音信号进行重采样，将源语音信号与稀疏二元感知矩阵相乘得到重采样后的信号，对所述重采样后的信号进行交织处理，得到语音编码数据。本申请通过采用稀疏二元感知矩阵对语音信号进行整体线性重采样，使得每个采样点包含信号的整体信息，在随机丢失重要信息的情况下，接收端仅需部分数据包即可以利用基于图理论的压缩感知重构算法高质量、实时地恢复语音信号。

Description

一种抗丢包的压缩感知基音频流编解码方法及系统

技术领域

本申请涉及音频编解码技术领域，尤其涉及一种抗丢包的压缩感知基音频流编解码方法及系统。

背景技术

VoIP(Voice over Internet Protocol)称为IP电话或者是网络电话，是一种基于互联网进行语音交互的通信系统。在VoIP技术中，由于分组交换的技术特点，以及网络环境不稳定等问题(如网络拥塞)使得丢包、延迟现象非常常见，从而导致语音通信质量急剧恶化。因此，如何在丢包情况下，保障实时语音通讯的服务质量是VoIP技术的关键问题。

目前丢包处理技术，即用来恢复或隐藏由丢包所造成的损失的相关技术，可以分为两类：一类通常是基于发送端采用的措施，需要接收端的共同参与才能实现，称之为丢包恢复技术(PLR，packet loss recovery)，例如交织等。另一类是基于接收端采取的措施，不涉及发送端，称之为丢包隐藏技术(PLC，packet loss concealment)，例如插值等。这两类技术都在一定程度上提高了IP通讯质量。近年来，有文献提出了基于压缩感知(CS)的语音丢包恢复方案，其主要思想是在解码端采用压缩感知技术从剩余数据中恢复信号，以达到抗丢包的目的。

然而，现有基于压缩感知的语音信号丢包恢复算法，仅利用信号内在的相关性，丢失少量数据尚可恢复；若实际丢包率高，仅通过语音信号本身相关性无法恢复。另外，在实际丢包率高的情况下，采用现有的压缩感知编解码方案重构的语音信号的PESQ(perceptual evaluation of speech quality)测试得分不佳。

发明内容

本申请实施例提供了一种抗丢包的压缩感知基音频流编解码方法及系统，在压缩感知框架下，利用超低复杂度的测量矩阵对信号进行编码后再打包发送，在接收端利用压缩感知重构算法减少高质量恢复语音信号所需的采样数，提高系统的抗丢包能力。

有鉴于此，本申请第一方面提供了一种抗丢包的压缩感知基音频流编解码方法，所述方法的编码过程包括：

获取源语音信号；采用稀疏二元感知矩阵对所述源语音信号进行重采样，所述对源语音信号重采样具体为：

f_s＝Θf＝ΘΨx

式中，f表示源语音信号；Θ为稀疏二元感知矩阵，大小为n行n列，矩阵中的元素由0和1组成；Ψ为变换矩阵，x为变换系数向量；f_s为重采样后的信号；

对所述重采样后的信号进行交织处理，得到语音编码数据。

可选的，所述对所述重采样后的源语音信号进行交织处理，得到语音编码数据具体表示为：

f_i＝P_if_s＝[f_i ⁽¹⁾f_i ⁽²⁾...f_i ^(n-1)f_i ⁽ⁿ⁾]^T

所述为P_i交织矩阵，所述f_i为语音编码数据，f_i ⁽ⁿ⁾为语音编码数据被拆分成n个语音帧。

可选的，在编码过程之后还包括：

所述语音编码数据在网络环境中发生随机丢包，所述随机丢包表示为：

式中，

表示丢包后接收到的信号。

可选的，在所述语音编码数据网络环境中发生随机丢包之后还包括：

对所述丢包矩阵解交织，包括：

式中，

表示解交织后的语音信号；P_i ^T表示解交织矩阵。

可选的，解码过程表示为：

min||x||₁ subject to y＝Ax

A＝ΦΘΨ

式中，Φ∈R^m×n为随机测量矩阵，其中m＜＜n；

变换系数向量的估计值；

为源语音信号的估计值。

本申请第二方面提供一种抗丢包的压缩感知基音频流编解码系统，所述系统包括：

所述语音获取模块用于获取源语音信号；

所述语音编码模块用于对所述源语音信号进行编码；

所述语音编码模块包括重采样模块以及交织模块；

所述重采样模块用于采用稀疏二元感知矩阵对所述源语音信号进行重采样，所述对源语音信号重采样具体为：

f_s＝Θf＝ΘΨx

所述交织模块用于对所述重采样后的信号进行交织处理，得到语音编码数据。

可选的，还包括：

随机丢包矩阵的构造模块，所述随机丢包模块用于根据所述语音编码数据输入到网络环境中发生的随机丢包结果，构造对应的随机丢包矩阵，所述随机丢包矩阵表示为：

式中，

表示丢包后接收的信号。

可选的，还包括：

解交织模块，所述解交织模块用于对所述丢包矩阵解交织，包括：

式中，

表示解交织后的语音信号；P_i ^T表示解交织矩阵。

可选的，还包括：

解码模块，所述解码模块用于对丢包后的语音数据进行解码，解码过程表示为：

min||x||₁ subject to y＝Ax

A＝ΦΘΨ

式中，Φ∈R^m×n为随机测量矩阵，其中m＜＜n；

变换系数向量的估计值，

为源语音信号的估计值。

本申请第三方面提供一种抗丢包的压缩感知基音频流编解码设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的抗丢包的压缩感知基音频流编解码方法的步骤。

从以上技术方案可以看出，本申请具有以下优点：

本申请中，提供了一种抗丢包的压缩感知基音频流编解码方法，获取源语音信号；采用稀疏二元感知矩阵对源语音信号进行重采样，将源语音信号与稀疏二元感知矩阵相乘得到重采样后的信号，对重采样后的信号进行交织处理，得到语音编码数据。

本申请通过采用稀疏二元感知矩阵对语音信号进行整体线性重采样，使得每个采样点包含信号的整体信息，在随机丢失重要信息的情况下，接收端仅需部分数据包即可以利用基于图理论的压缩感知重构算法高质量、实时地恢复语音信号。

附图说明

图1为本申请一种抗丢包的压缩感知基音频流编解码方法的一个实施例的方法流程图；

图2为本申请一种抗丢包的压缩感知基音频流编解码系统的一个实施例的系统示意图；

图3为现有技术中未采用交织技术对语音帧进行处理的一个实施例的示意图；

图4为现有技术中采用交织技术对语音帧进行处理的一个实施例的示意图。

具体实施方式

现有的采用丢包恢复技术，例如交织技术的方法可参考图3所示，具体为：一段语音信号，采样率为8kHz，发送端间隔20ms接收一次数据，则总共获得160个字节的数据，假设每5ms一个帧(则共有四个语音帧)，将4帧分为16个单元，依次编号为1～16：其中，第一个语音帧对应1～4号，第二帧对应5～8号，第三帧对应9～12号，第四帧对应13～16号。采用均匀交织技术，相继取每一帧的第一号组合为第一个数据包，每一帧的第二号组合为第二个数据包，每一帧的第三号组合为第三个数据包，每一帧的第四号组合为第四号数据包。则第一个数据包包含单元编号1、5、9、13，第二个数据包包含编号2、6、10、14，第三个数据包包含编号3、7、11、15，第四个数据包包含编号4、8、12、16。假设在传输的过程中，交织后的第二个和第三个数据包丢失，如图4所示，可以看出从交织流中丢失单个分组不会像非交织流中那样产生连续长时间段的数据丢失，而是在重构的语音帧中产生间隔的相对短时间的数据丢失，从而降低连续数据丢失对语音质量的影响。

现有的压缩感知技术中，可以提高丢包情况下的语音质量。假设在发送端将源语音信号f封装成四个数据包，对f应用交织技术可得：

其中，其中P_i是交织矩阵，交织过程实际上是实现了原始数据传输序列的置乱，将传输中出现的连续突发误码分散。应用交织技术，原来相邻的帧在传输流中被分开，打乱语音分组数据的发送顺序。在VoIP系统中，考虑随机丢失两个数据包的例子，在此情况下，解码端只接收到两个数据包，其丢失两个交织数据包后的剩余的数据包可以表示为：

在接收端对丢失交织数据包后的剩余数据包进行解交织，从而恢复初始语音帧的顺序排列，其解交织后的输出向量(即接收端接收到的向量)

为：

其中P_i ^T为解交织矩阵，则源语音信号f与解交织后的输出向量

之间的关系可以表示成以下的观测模型：

其中解交织后的输出向量

可以看作源语音信号f的一个缩短向量，即f的部分元素由于丢包而不包含在

中，由于丢失的位置信息是随机的，所以解码端收到的信号

包含源语音信号f中的元素也是随机的。这一过程可以等价为存在一个随机测量矩阵Φ∈R^m×n(m＜＜n)，该测量矩阵Φ可以由单位矩阵剔除源语音信号f发生随机丢包的位置所对应的行而构成。测量矩阵是根据网络环境所造成的随机丢包来生成的，由于丢包是随机产生的，所以对应生成的测量矩阵Φ是一个随机矩阵，具体构造方法如下：

(1)若数据包未丢失，那么Φ是n*n的单位矩阵，也就意味着解码端接收到信号和输入信号一致，则观测矩阵为：

(2)若数据包丢失，那么测量矩阵Φ是m*n(m＜＜n)的随机矩阵，可由上述单位矩阵剔除源语音信号f中发生丢包的位置所对应的行而构成，如图4所示，假设f的交织流在传输过程中第二个语音帧和第三个语音帧丢失了，而第一个和第四个语音帧正常接收，则观测矩阵为：

压缩感知理论表明，只要源语音信号在某一变换域是稀疏的，那么压缩感知技术可以以少量的测量值恢复信号。因此，不妨假设存在一个变换矩阵Ψ，使得源语音信号f在某一变换域(例如小波域)上稀疏，即信号可以表示为：

f＝Ψx

因此，观测模型可以表示为：

其中，A＝ΦΨ(m×n)代表压缩感知矩阵，因此，观测模型表示对长度为n的信号x进行压缩采样得到了长度为m的信号

现在考虑重构x，若满足约束等距性质(RIP)，压缩感知理论证明信号x可以通过求解以下凸优化问题得到，即

则可以应用f＝Ψx来最终得到信号的估计值

然而以上采用压缩感知的语音信号丢包恢复算法，仅利用信号的内在相关性，因此，以上方法仅在丢失少量数据尚可恢复；若实际丢包率过高，仅通过语音信号本身相关性无法恢复。

因此，针对上述缺点，本发明提出在编码端利用超低复杂度的测量矩阵对语音信号进行整体线性重采样，使得每个采样点包含信号的整体信息，从而进一步减少在接收端高质量恢复语音信号所需的采样数，提高系统的抗丢包能力。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1，图1为本申请实施例中信息处理系统架构图，包括：

101、获取源语音信号。

102、采用稀疏二元感知矩阵对源语音信号进行重采样，对源语音信号重采样具体为：

f_s＝Θf＝ΘΨx

式中，f表示源语音信号；Θ为稀疏二元感知矩阵，大小为n行n列，矩阵中的元素由0和1组成；Ψ为变换矩阵，x为变换系数向量；f_s为重采样后的信号。

需要说明的是，本申请所构造的稀疏二元感知矩阵Θ大小为n×n,其元素由0和1组成，且元素“1”在每列中仅出现少量次数，即稀疏二元感知矩阵为低复杂度的测量矩阵，当矩阵稀疏度越高，其复杂度越低(编码过程仅需通过少量的加法操作即可完成)。编码端通过将语音信号线形投影到该感知矩阵实现对语音信号的整体重采样(编码)。

103、对重采样后的源语音信号进行交织处理，得到语音编码数据。

需要说明的是，在一种具体的实施方式中，对重采样后的源语音信号进行交织处理，得到语音编码数据具体表示为：

f_i＝P_if_s＝[f_i ⁽¹⁾f_i ⁽²⁾...f_i ^(n-1)f_i ⁽ⁿ⁾]^T

式中，P_i为交织矩阵，f_i为语音编码数据，f_i ⁽ⁿ⁾为语音编码数据被拆分成n个语音帧，交织过程即完成对原始数据传输序列的置乱，应用交织技术，原来相邻语音帧在传输流中被分开，打乱语音帧分组数据的发送顺序，从而当语音帧在网络环境中发生丢包时，则可以将存在大段的连续语音丢失转化为随机的小段丢失，并在接收端恢复初始语音帧的顺序排列，以降低连续丢包对语音通信产生影响。

本申请还提供了一种抗丢包的压缩感知基音频流编解码方法的另一种实施例，实施例还包括：

在编码过程之后，语音编码数据在网络环境中发生随机丢包，随机丢包表示为：

式中，

表示丢包后接收到的信号。

在随机丢包之后还包括：对丢包矩阵解交织，包括：

式中，

表示解交织后的语音信号；P_i ^T表示解交织矩阵。

则解码过程可以表示为：

min||x||₁ subject to y＝Ax

A＝ΦΘΨ

式中，Φ∈R^m×n(m＜＜n)为随机测量矩阵,根据网络实际发生的丢包情况，解码端删除单位阵中丢失数据所对应的行得到；

变换系数向量的估计值；

为源语音信号的估计值。

在一种具体的实施方式中，本申请具体为：

若源语音信号f为：[1 2 3 4 5 6 7 8 9 10]^T，设置源语音信号为：

则将源语音信号进行重采样得到：

进一步的，将源语音信号分为多个语音帧发送。

以第四位置信息为例：

通过构造二元稀疏矩阵Θ，使得f_s第二、三、五、九位置包含了原信号第四位置的元素信息(即源语音信号f中的数值4)，同样的重采样后的信号f_s每个分量包含原信号多个位置上的信息(例如第4个位置上的22包含了原信号第5，7，10位置上的信息)。所以即使在传输的过程中部分数据丢失(例如重采样信号第二、三位置上的数据丢失)，还是可以在解码端应用压缩感知重构算法从没有丢失的数据中(例如第五、九位置)恢复原信号第四位的信息。

不妨假设，在网络传输的过程中，f_s的第四位置信息丢失。现信号接收端考虑恢复信号，具体解码过程如下：

假设y为客户端接收到的已丢包的信号，由于f_s的第四位置信息丢失，将向量y的第四个分量剔除变成一个大小为9×1的向量，解码端根据丢失的结果生成一个测量矩阵Φ

相应的，可以表示成压缩感知观测模型y＝Ax其中A＝ΦΘΨ，Ψ为已知的某个稀疏变换基，所以向量y和矩阵A都是已知的。现在考虑重构x，若满足约束等距性质(RIP)，压缩感知理论证明信号x可以通过求解以下凸优化问题得到，即

进一步的，利用

来最终得到源语音信号f的估计值

以上是本申请的方法的实施例。

以上是本申请的方法的实施例，本申请还提供了一种抗丢包的压缩感知基音频流编解码系统的实施例，如图2所示，包括：

语音获取模块201以及语音编码模块202：

语音获取模块201用于获取源语音信号；

语音编码模块202用于对源语音信号进行编码；

语音编码模块202包括重采样模块2021以及交织模块2022；

重采样模块2021用于采用稀疏二元感知矩阵对源语音信号进行重采样，对源语音信号重采样具体为：

f_s＝Θf＝ΘΨx

交织模块2022用于对重采样后的源语音信号进行交织处理，得到语音编码数据。

在一种具体的实施方式中还包括：随机丢包矩阵的构造模块，随机丢包矩阵的构造模块用于将语音编码数据输入到网络环境中发生随机丢包，随机丢包表示为：

式中，

表示丢包矩阵。

在一种具体的实施方式中还包括：

解交织模块，解交织模块用于对所述丢包矩阵解交织，包括：

式中，

表示解交织后的语音信号；P_i ^T表示解交织矩阵。

在一种具体的实施方式中还包括：

解码模块，解码模块用于对丢包后的语音数据进行解码，解码过程表示为：

min||x||₁ subject to y＝Ax

A＝ΦΘΨ

式中，Φ∈R^m×n为随机测量矩阵，其中m＜＜n；

变换系数向量的估计值，

为源语音信号的估计值。

本申请还提供了一种抗丢包的压缩感知基音频流编解码设备，包括处理器以及存储器，存储器用于存储程序代码，并将程序代码传输给处理器；处理器用于根据程序代码中的指令执行本申请一种抗丢包的压缩感知基音频流编解码方法的实施例。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。