CN117524253B

CN117524253B - 针对网络音频丢包的低延迟修复和隐藏方法及其设备

Info

Publication number: CN117524253B
Application number: CN202410011919.4A
Authority: CN
Inventors: 赵胜; 丁卓
Original assignee: Nanjing Longyuan Information Technology Co ltd
Current assignee: Nanjing Longyuan Information Technology Co ltd
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-05-07
Anticipated expiration: 2044-01-04
Also published as: CN117524253A

Abstract

本发明涉及音频修复技术领域，具体涉及一种针对网络音频丢包的低延迟修复和隐藏方法及其设备；使用短时傅里叶变换将音频信号分成多个时间段，并在每个时间段内计算其频谱表示；使用自回归模型以及循环神经网络模型对其进行建模和预测；使用卷积神经网络对其进行建模和预测；将时域和频域的预测结果进行合并，得到完整的音频信号预测结果；在针对网络音频丢包的低延迟修复和隐藏设备中，包括模型训练模块、数据加密模块和音频修复模块；通过上述方式，实现实时隐藏错误的能力有助于减轻丢包造成的音频损伤，从而提高现实场景中音频播放的质量。

Description

针对网络音频丢包的低延迟修复和隐藏方法及其设备

技术领域

本发明涉及音频修复技术领域，尤其涉及一种针对网络音频丢包的低延迟修复和隐藏方法及其设备。

背景技术

网络音乐直播旨在通过电信网络使远程音乐家可以互动并共同演出，从而彻底改变传统的音乐交互概念。然而，由于其对音频质量和网络延迟方面的极其严格的要求，为了最大限度地减少音频传输的端到端延迟，NMP应用程序的典型实现是使用未压缩的双向音频流，并利用UDP作为传输协议。由于UDP无连接且不可靠，因此通过UDP传输的音频数据包在传输过程中有丢失的风险，且不会重新传输，因此会导致接收器的音频播放出现故障。

发明内容

本发明的目的在于提供一种针对网络音频丢包的低延迟修复和隐藏方法及其设备，旨在解决现有技术中的由于UDP无连接且不可靠，因此通过UDP传输的音频数据包在传输过程中有丢失的风险，且不会重新传输，因此会导致接收器的音频播放出现故障的技术问题。

为实现上述目的，本发明采用的一种针对网络音频丢包的低延迟修复和隐藏方法，包括如下步骤：

频谱表示：使用短时傅里叶变换将音频信号分成多个时间段，并在每个时间段内计算其频谱表示；

时域表示：在每个时间段中，使用自回归模型以及循环神经网络模型对其进行建模和预测；

频域表示：对于每个频谱子带，使用卷积神经网络对其进行建模和预测；

预测合并：对于每个时间段的每个频谱子带，将时域和频域的预测结果进行合并，得到完整的音频信号预测结果。

其中，在频谱表示：使用短时傅里叶变换将音频信号分成多个时间段，并在每个时间段内计算其频谱表示的步骤中：

在计算频谱时，根据所需的预测精度和计算复杂度选择窗口大小和重叠率。

其中，在时域表示：在每个时间段中，使用自回归模型以及循环神经网络模型对其进行建模和预测的步骤中：

在建模时，将已知的音频数据作为输入，将丢失的音频数据作为标签，以监督学习的方式进行模型训练。

在预测时，利用已知的音频数据和模型参数，通过计算预测误差得到丢失的音频数据。

其中，在频域表示：对于每个频谱子带，使用卷积神经网络对其进行建模和预测的步骤中：

在建模时，将已知的频谱数据作为输入，将丢失的音频数据作为标签，以监督学习的方式进行模型训练。

在预测时，利用已知的频谱数据和模型参数，通过计算预测误差得到丢失的音频数据。

使用卷积神经网络，将100*200*3光谱时间表示作为输入并生成512维矢量；

利用卷积神经网络合成一个有效的数据包，以卷积神经网络从过去的信号历史中提取的潜在代码为条件，将大小为128的前一个有效数据包与大小为512的过去光谱时间内容的潜在代码进行连接。

本发明还提供一种针对网络音频丢包的低延迟修复和隐藏设备，采用于所述针对网络音频丢包的低延迟修复和隐藏方法，包括负责训练深度学习模型，用于实现音频数据丢包的修复和隐藏的模型训练模块；

负责对音频数据进行加密保护，以保护音频数据的隐私的数据加密模块；

负责实现音频数据的修复和隐藏的音频修复模块。

本发明的一种针对网络音频丢包的低延迟修复和隐藏方法及其设备，通过将音频信号转换为频谱表示，然后使用自回归模型或循环神经网络模型对其进行建模和预测；同时，对于每个频谱子带，可以使用卷积神经网络模型进行建模和预测，最后将时域和频域的预测结果进行合并，得到完整的音频信号预测结果。通过这种混合方法，可以充分利用频谱和时域信号的特点，提高预测精度和鲁棒性；实现实时隐藏错误的能力有助于减轻丢包造成的音频损伤，从而提高现实场景中音频播放的质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的针对网络音频丢包的低延迟修复和隐藏方法的步骤流程图。

图2是本发明的使用卷积神经网络建模和预测的步骤流程图。

具体实施方式

请参阅图1和图2，其中图1是针对网络音频丢包的低延迟修复和隐藏方法的步骤流程图，图2是使用卷积神经网络建模和预测的步骤流程。

本发明提供了一种针对网络音频丢包的低延迟修复和隐藏方法，包括如下步骤：

S1：频谱表示：使用短时傅里叶变换将音频信号分成多个时间段，并在每个时间段内计算其频谱表示，在计算频谱时，根据所需的预测精度和计算复杂度选择窗口大小和重叠率；

S3：时域表示：在每个时间段中，使用自回归模型以及循环神经网络模型对其进行建模和预测；在建模时，将已知的音频数据作为输入，将丢失的音频数据作为标签，以监督学习的方式进行模型训练；在预测时，利用已知的音频数据和模型参数，通过计算预测误差得到丢失的音频数据；

S3：频域表示：对于每个频谱子带，使用卷积神经网络对其进行建模和预测；在建模时，将已知的频谱数据作为输入，将丢失的音频数据作为标签，以监督学习的方式进行模型训练；在预测时，利用已知的频谱数据和模型参数，通过计算预测误差得到丢失的音频数据；

S4：预测合并：对于每个时间段的每个频谱子带，将时域和频域的预测结果进行合并，得到完整的音频信号预测结果。

在本实施方式中，首先使用短时傅里叶变换将音频信号分成多个时间段，并在每个时间段内计算其频谱表示，在计算频谱时，根据所需的预测精度和计算复杂度选择窗口大小和重叠率；其次在每个时间段中，使用自回归模型以及循环神经网络模型对其进行建模和预测；在建模时，将已知的音频数据作为输入，将丢失的音频数据作为标签，以监督学习的方式进行模型训练；在预测时，利用已知的音频数据和模型参数，通过计算预测误差得到丢失的音频数据；同时对于每个频谱子带，使用卷积神经网络对其进行建模和预测；在建模时，将已知的频谱数据作为输入，将丢失的音频数据作为标签，以监督学习的方式进行模型训练；在预测时，利用已知的频谱数据和模型参数，通过计算预测误差得到丢失的音频数据；最后对于每个时间段的每个频谱子带，将时域和频域的预测结果进行合并，得到完整的音频信号预测结果；通过将音频信号转换为频谱表示，然后使用自回归模型或循环神经网络模型对其进行建模和预测；同时，对于每个频谱子带，可以使用卷积神经网络模型进行建模和预测，最后将时域和频域的预测结果进行合并，得到完整的音频信号预测结果。通过这种混合方法，可以充分利用频谱和时域信号的特点，提高预测精度和鲁棒性；实现实时隐藏错误的能力有助于减轻丢包造成的音频损伤，从而提高现实场景中音频播放的质量。

进一步地，在频域表示：对于每个频谱子带，使用卷积神经网络对其进行建模和预测的步骤中：

S31：使用卷积神经网络，将100*200*3光谱时间表示作为输入并生成512维矢量；

S32：利用卷积神经网络合成一个有效的数据包，以卷积神经网络从过去的信号历史中提取的潜在代码为条件，将大小为128的前一个有效数据包与大小为512的过去光谱时间内容的潜在代码进行连接。

在本实施方式中，首先使用卷积神经网络，将100*200*3光谱时间表示作为输入并生成512维矢量，其中降维过程如下：具有3*3卷积核和1*2池化的3层卷积架构在接下来的两层中连接到2*2池化，最后一个线性层将维度降为512。每个卷积层都有64个通道；然后利用卷积神经网络合成一个有效的数据包，以卷积神经网络从过去的信号历史中提取的潜在代码为条件，将大小为128的前一个有效数据包与大小为512的过去光谱时间内容的潜在代码进行连接，两个信号，一个用于学习时域中的连续性，一个用于学习频谱内容，被连接起来以生成摘要包含信号两个方面的矢量。这被馈送到一个合成神经网络，该网络由3个完全连接的1024个神经元层组成，用于预测丢失或丢失的数据包。

本发明还提供了一种针对网络音频丢包的低延迟修复和隐藏设备，采用所述针对网络音频丢包的低延迟修复和隐藏方法，包括负责训练深度学习模型，用于实现音频数据丢包的修复和隐藏的模型训练模块；负责对音频数据进行加密保护，以保护音频数据的隐私的数据加密模块；负责实现音频数据的修复和隐藏的音频修复模块。

在本实施方式中，所述模型训练模块：该模块主要负责训练深度学习模型，用于实现音频数据丢包的修复和隐藏。具体地，该模块使用卷积神经网络结合频谱和时域信号实现丢包内容预测。在训练模型时，需要提供一定数量的有标注的音频数据，同时需要对模型进行合理的参数设置和训练策略，以获得较好的预测效果。所述数据加密模块：该模块主要负责对音频数据进行加密保护，以保护音频数据的隐私。具体地，该模块使用同态加密技术对音频数据进行加密，使得只有具有相应密钥的用户才能够解密和获取音频数据。通过加密保护，可以有效避免音频数据在传输和存储过程中被未经授权的用户获取和利用。所述音频修复模块：该模块主要负责实现音频数据的修复和隐藏。具体地，该模块实时监测网络音频数据的丢包情况，及时发现丢包事件，并使用训练好的深度学习模型对丢失的音频数据进行预测和修复，以恢复音频数据的完整性和连续性。同时，该模块还利用绝对误差乘以反汉宁窗实现损失函数的加权表示，从而提高模型对边缘样本的预测精度。通过音频修复模块的处理，可以有效减轻丢包造成的音频损伤，提高现实场景中音频播放的质量。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种针对网络音频丢包的低延迟修复和隐藏方法，其特征在于，包括如下步骤：

预测合并：对于每个时间段的每个频谱子带，将时域和频域的预测结果进行合并，得到完整的音频信号预测结果；

在时域表示：在每个时间段中，使用自回归模型以及循环神经网络模型对其进行建模和预测的步骤中：

在建模时，将已知的音频数据作为输入，将丢失的音频数据作为标签，以监督学习的方式进行模型训练；

在预测时，利用已知的音频数据和模型参数，通过计算预测误差得到丢失的音频数据；

在频域表示：对于每个频谱子带，使用卷积神经网络对其进行建模和预测的步骤中：

在建模时，将已知的频谱数据作为输入，将丢失的音频数据作为标签，以监督学习的方式进行模型训练；

在预测时，利用已知的频谱数据和模型参数，通过计算预测误差得到丢失的音频数据；

2.如权利要求1所述的针对网络音频丢包的低延迟修复和隐藏方法，其特征在于，在频谱表示：使用短时傅里叶变换将音频信号分成多个时间段，并在每个时间段内计算其频谱表示的步骤中：

3.一种针对网络音频丢包的低延迟修复和隐藏设备，采用于如权利要求1所述的针对网络音频丢包的低延迟修复和隐藏方法，其特征在于，

包括负责训练深度学习模型，用于实现音频数据丢包的修复和隐藏的模型训练模块；

负责实现音频数据的修复和隐藏的音频修复模块。