CN116248229B

CN116248229B - 一种面向实时语音通讯的丢包补偿方法

Info

Publication number: CN116248229B
Application number: CN202211572689.6A
Authority: CN
Inventors: 张星东; 招梓枫; 丁卓; 鲁宁
Original assignee: Nanjing Longyuan Information Technology Co ltd
Current assignee: Nanjing Longyuan Information Technology Co ltd
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-12-01
Anticipated expiration: 2042-12-08
Also published as: CN116248229A

Abstract

本发明公开一种面向实时语音通讯的丢包补偿方法，包括如下步骤：构建基于对抗神经网络的补偿训练模型，所述补偿训练模型包括补偿系数生成器、谐波组和逼真度判别器；将历史音频输入至所述补偿系数生成器和谐波组中处理，获得初始修补音频；通过所述逼真度判别器计算初始修补音频与所述历史音频所对应的无丢包真实音频之间的相似度；基于相似度，更新补偿训练模型的参数，继续训练，直到模型收敛或达到最大迭代次数，输出当前的补偿系数生成器和谐波组作为训练好的丢包补偿模型。本发明能够更加准确地预测出丢失的音频帧，提高实时语音通讯中的音频质量。

Description

一种面向实时语音通讯的丢包补偿方法

技术领域

本发明涉及语音通讯技术领域，尤其涉及一种面向实时语音通讯的丢包补偿方法。

背景技术

目前，现有的实时语音通讯(视频会议、语音聊天、网络游戏等)，对实时性和准确性的要求越来越高。在实时语音通讯的音频传输过程中，影响音频音质的主要因素是面向无连接的分组交换网络传输所造成的丢包，其降低了音频数据还原的准确率。

随着深度学习技术的发展，出现了一些基于深度神经网络的智能丢包补偿方案，但是，在现有技术中，一般是先将音频信号进行频域特征提取后，然后再输入到模型中进行基于频域特征的音频预测，这样的处理会丢失大量的原始信息，对于音频帧的补偿的准确度较差。

发明内容

为了解决上述技术问题，本发明提出一种面向实时语音通讯的丢包补偿方法。在所述方法中，基于对抗神经网络的丢包补偿模型，能够更加准确地预测出丢失的音频帧，提高实时语音通讯中的音频质量。

为了达到上述目的，本发明的技术方案如下：

一种面向实时语音通讯的丢包补偿方法，包括如下步骤：

构建基于对抗神经网络的补偿训练模型，所述补偿训练模型包括补偿系数生成器、谐波组和逼真度判别器；

将历史音频输入至所述补偿系数生成器和谐波组中处理，获得初始修补音频；

通过所述逼真度判别器计算初始修补音频与所述历史音频所对应的无丢包真实音频之间的相似度；

基于相似度，更新补偿训练模型的参数，继续训练，直到模型收敛或达到最大迭代次数，输出当前的补偿系数生成器和谐波组作为训练好的丢包补偿模型。

优选地，将历史音频输入至所述补偿系数生成器和谐波组中处理，获得初始修补音频，包括如下步骤：

将历史音频输入至所述补偿系数生成器中，获得补偿系数；

将补偿系数作为权重对所述谐波组的谐波进行加权求和，获得初始修补音频。

优选地，所述补偿系数生成器包括降采样模块、时序推理模块和上采样模块，其中，

所述降采样模块，包括若干个层叠的卷积模块，所述卷积模块的输出作为下一个卷积模块的输入；

所述时序推理模块，包括若干个层叠的递归网络模块，所述递归网络模块包括递归神经网络、归一化、激活函数操作；用于将卷积模块的输出结果跳跃连接至上采样模块；

所述上采样模块，包括若干个层叠的插值模块，所述插值模块包括插值、跳跃张量合并操作；用于将降采样模块中每一个卷积模块的输出均通过一个跳跃连接将当前卷积模块的处理结果传递给上采样模块，上采样模块对应层级的插值模块将该张量与本层级处理结果合并作为下一层级插值模块的输入。

优选地，所述谐波组由多个长度相等的谐波组成。

优选地，所述谐波组的获取方式，包括如下步骤：

构建谐波训练网络，所述谐波训练网络包括编码器、时序网络和解码器；

将波形信号输入至谐波训练网络中，通过音频去噪的方式训练，直到网络模型收敛或达到最大迭代次数，输出谐波组。

优选地，所述编码器由一个卷积模块构成，包括一维卷积、归一化、激活函数等操作，用于将输入的一维信号波形处理为二维张量A∈R^τxN；

所述时序网络由多个层叠的空洞卷积模块构成，每个空洞卷积模块包括一维空洞卷积、归一化、激活函数操作，处理结果为二维张量B∈R^τxN；

所述解码器由一个谐波矩阵W∈R^NxT构成，用于通过将时序网络输出和谐波矩阵相乘得到Y∈R^τxT，对τ个波形信号片段进行部分重叠相加得到和原一维信号波形等长的输出波形。

优选地，所述谐波训练网络的训练过程中，通过正交性训练法控制不同子谐波的之间的互相关L，公式如下所示：

L＝|WW^T|

其中矩阵W∈R^NxT为谐波组，N为谐波组中谐波数量，T为音频的长度或采样点个数。

优选地，所述逼真度判别器包括一个降采样模块和一个线性模块，其中，

所述降采样模块，包括若干个层叠的卷积模块，所述卷积模块包括一维卷积、归一化、激活函数操作；

所述线性模块，包括若干个层叠的线性层。

优选地，所述补偿训练模型的训练过程中，采用梯度下降法自适应的更新补偿训练模型的参数。

优选地，还包括如下步骤：

将待修补音频输入至训练好的丢包补偿模型中进行音频补偿处理，获得修补后音频；

通过播放器播放所述修补后音频。

基于上述技术方案，本发明的有益效果是：本发明构建基于对抗神经网络的补偿训练模型，所述补偿训练模型包括补偿系数生成器、谐波组和逼真度判别器；将历史音频输入至所述补偿系数生成器和谐波组中处理，获得初始修补音频；通过所述逼真度判别器计算初始修补音频与所述历史音频所对应的无丢包真实音频之间的相似度；基于相似度，更新补偿训练模型的参数，继续训练，直到模型收敛或达到最大迭代次数，输出当前的补偿系数生成器和谐波组作为训练好的丢包补偿模型。本发明通过训练好的丢包补偿模型，能够更加准确地预测出丢失的音频帧，提高实时语音通讯中的音频质量。

附图说明

图1是一个实施例中一种面向实时语音通讯的丢包补偿方法的应用环境图；

图2是一个实施例中一种面向实时语音通讯的丢包补偿方法的流程示意图；

图3是一个实施例中一种面向实时语音通讯的丢包补偿方法中补偿训练模型训练阶段的流程图；

图4是一个实施例中一种面向实时语音通讯的丢包补偿方法中丢包补偿模型推理阶段的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本申请实施例提供的一种面向实时语音通讯的丢包补偿方法，可以应用于如图1所示的应用环境中。如图1所示，该应用环境包括计算机设备110。计算机设备110可以构建基于对抗神经网络的补偿训练模型，所述补偿训练模型包括补偿系数生成器、谐波组和逼真度判别器；计算机设备110可以将历史音频输入至所述补偿系数生成器和谐波组中处理，获得初始修补音频；计算机设备110可以通过所述逼真度判别器计算初始修补音频与所述历史音频所对应的无丢包真实音频之间的相似度；计算机设备110可以基于相似度，更新补偿训练模型的参数，继续训练，直到模型收敛或达到最大迭代次数，输出当前的补偿系数生成器和谐波组作为训练好的丢包补偿模型。其中，计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、机器人、无人飞行器、平板电脑等设备。

如图2、3所示，本实施例提供一种面向实时语音通讯的丢包补偿方法，包括如下步骤：

步骤202，构建基于对抗神经网络的补偿训练模型，所述补偿训练模型包括补偿系数生成器、谐波组和逼真度判别器。

计算机设备能够构建基于对抗神经网络的补偿训练模型，丢包补偿模型由3部分组成：分别为补偿系数生成器、谐波组、逼真度判别器，其中，补偿系数生成器由一个编解码器神经网络构成，包含一个降采样模块，一个时序推理模块和一个上采样模块；逼真度判别器由一个降采样模块和一个线性模块组成；谐波组由多个长度相等的谐波组成，谐波组通过谐波训练网络得到。

步骤204，将历史音频输入至所述补偿系数生成器和谐波组中处理，获得初始修补音频。

本实施例中，补偿系数生成器基于所输入的历史音频，估计出N个谐波系数，构成1个谐波系数向量用于后续的补偿帧合成；谐波组由N个长度为1帧的谐波组成,可以矩阵W∈R^NxT表示，其中T为1帧音频的长度或采样点个数。通过将补偿系数生成器输出补偿系数和谐波组进行加权求和/>得到初始修补音频/>

步骤206，通过所述逼真度判别器计算初始修补音频与所述历史音频所对应的无丢包真实音频之间的相似度。

本实施例中，逼真度判别器用于在训练时判定补偿帧的逼真度，迫使补偿系数生成器和谐波组对丢失的语音帧进行更逼真的补偿恢复。

步骤208，基于相似度，更新补偿训练模型的参数，继续训练，直到模型收敛或达到最大迭代次数，输出当前的补偿系数生成器和谐波组作为训练好的丢包补偿模型。

本实施例中，在补偿训练模型训练阶段，逼真度判别器将比较初始修补音频和真实无丢包音频之间的相似度，而在推理运行阶段，逼真度判别器被弃置，直接使用补偿系数生成器和谐波组修补后的音频作为丢包补偿模型的输出。

其中，在补偿训练模型的训练过程中，采用梯度下降法自适应的更新补偿训练模型的参数。

在一个实施例中，提供的一种面向实时语音通讯的丢包补偿方法还可以包括将历史音频输入至所述补偿系数生成器和谐波组中处理，获得初始修补音频的过程，具体过程包括：将历史音频输入至所述补偿系数生成器中，获得补偿系数；将补偿系数作为权重对所述谐波组的谐波进行加权求和，获得初始修补音频。

在一个实施例中，提供的一种面向实时语音通讯的丢包补偿方法中，所述补偿系数生成器包括降采样模块、时序推理模块和上采样模块，其中，所述降采样模块，包括若干个层叠的卷积模块，所述卷积模块的输出作为下一个卷积模块的输入；所述时序推理模块，包括若干个层叠的递归网络模块，所述递归网络模块包括递归神经网络、归一化、激活函数操作；用于将卷积模块的输出结果跳跃连接至上采样模块；所述上采样模块，包括若干个层叠的插值模块，所述插值模块包括插值、跳跃张量合并操作；用于将降采样模块中每一个卷积模块的输出均通过一个跳跃连接将当前卷积模块的处理结果传递给上采样模块，上采样模块对应层级的插值模块将该张量与本层级处理结果合并作为下一层级插值模块的输入。

在一个实施例中，提供的一种面向实时语音通讯的丢包补偿方法中，所述谐波组由多个长度相等的谐波组成。

在一个实施例中，提供的一种面向实时语音通讯的丢包补偿方法还可以包括所述谐波组的获取方式的过程，具体过程包括：构建谐波训练网络，所述谐波训练网络包括编码器、时序网络和解码器；将波形信号输入至谐波训练网络中，通过音频去噪的方式训练，直到网络模型收敛或达到最大迭代次数，输出谐波组。

其中，所述编码器由一个卷积模块构成，包括一维卷积、归一化、激活函数等操作，用于将输入的一维信号波形处理为二维张量A∈R^τxN；所述时序网络由多个层叠的空洞卷积模块构成，每个空洞卷积模块包括一维空洞卷积、归一化、激活函数操作，处理结果为二维张量B∈R^τxN；所述解码器由一个谐波矩阵W∈R^NxT构成，用于通过将时序网络输出和谐波矩阵相乘得到Y∈R^τxT，对τ个波形信号片段进行部分重叠相加得到和原一维信号波形等长的输出波形。通过音频去噪的方式训练该谐波训练网络，得到一个合理分布的谐波矩阵W∈R^NxT作为丢包补偿模型的谐波组。

在一个实施例中，提供的一种面向实时语音通讯的丢包补偿方法中，所述谐波训练网络的训练过程中，通过正交性训练法控制不同子谐波的之间的互相关L，公式如下所示：

L＝|WW^T|

其中矩阵W∈R^NxT为谐波组，在谐波组训练过程中参数可调，而在补偿模型训练过程中不可调。

在一个实施例中，提供的一种面向实时语音通讯的丢包补偿方法中，所述逼真度判别器包括一个降采样模块和一个线性模块，其中，所述降采样模块，包括若干个层叠的卷积模块，所述卷积模块包括一维卷积、归一化、激活函数操作；所述线性模块，包括若干个层叠的线性层。

在一个实施例中，提供的一种面向实时语音通讯的丢包补偿方法还可以包括推理运行阶段的过程，具体过程包括：将待修补音频输入至训练好的丢包补偿模型中进行音频补偿处理，获得修补后音频；通过播放器播放所述修补后音频，如图4所示。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅为本发明所公开的一种面向实时语音通讯的丢包补偿方法的优选实施方式，并非用于限定本说明书实施例的保护范围。凡在本说明书实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的保护范围之内。

Claims

1.一种面向实时语音通讯的丢包补偿方法，其特征在于，包括如下步骤：

将历史音频输入至所述补偿系数生成器中，获得补偿系数；将补偿系数作为权重对所述谐波组的谐波进行加权求和，获得初始修补音频，所述补偿系数生成器包括降采样模块、时序推理模块和上采样模块，其中，所述降采样模块，包括若干个层叠的卷积模块，所述卷积模块的输出作为下一个卷积模块的输入；所述时序推理模块，包括若干个层叠的递归网络模块，所述递归网络模块包括递归神经网络、归一化、激活函数操作；用于将卷积模块的输出结果跳跃连接至上采样模块；所述上采样模块，包括若干个层叠的插值模块，所述插值模块包括插值、跳跃张量合并操作；用于将降采样模块中每一个卷积模块的输出均通过一个跳跃连接将当前卷积模块的处理结果传递给上采样模块，上采样模块对应层级的插值模块将该张量与本层级处理结果合并作为下一层级插值模块的输入；

通过所述逼真度判别器计算初始修补音频与所述历史音频所对应的无丢包真实音频之间的相似度，所述逼真度判别器包括一个降采样模块和一个线性模块，其中，所述降采样模块，包括若干个层叠的卷积模块，所述卷积模块包括一维卷积、归一化、激活函数操作；所述线性模块，包括若干个层叠的线性层；

2.根据权利要求1所述的一种面向实时语音通讯的丢包补偿方法，其特征在于，所述谐波组由多个长度相等的谐波组成。

3.根据权利要求2所述的一种面向实时语音通讯的丢包补偿方法，其特征在于，所述谐波组的获取方式，包括如下步骤：

4.根据权利要求3所述的一种面向实时语音通讯的丢包补偿方法，其特征在于，所述编码器由一个卷积模块构成，包括一维卷积、归一化、激活函数等操作，用于将输入的一维信号波形处理为二维张量A∈R^τxN；

5.根据权利要求3所述的一种面向实时语音通讯的丢包补偿方法，其特征在于，所述谐波训练网络的训练过程中，通过正交性训练法控制不同子谐波的之间的互相关L，公式如下所示：

L＝|WW^T|

6.根据权利要求1所述的一种面向实时语音通讯的丢包补偿方法，其特征在于，所述补偿训练模型的训练过程中，采用梯度下降法自适应的更新补偿训练模型的参数。

7.根据权利要求1至6任意一项所述的一种面向实时语音通讯的丢包补偿方法，其特征在于，还包括如下步骤：

通过播放器播放所述修补后音频。