CN113096685B

CN113096685B - 音频处理方法及装置

Info

Publication number: CN113096685B
Application number: CN202110362001.0A
Authority: CN
Inventors: 王晓红; 陈佳路; 刘鲁鹏; 元海明; 李贝; 夏龙; 杨元祖
Original assignee: Beijing Ape Power Future Technology Co Ltd
Current assignee: Beijing Ape Power Future Technology Co Ltd
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2024-05-07
Anticipated expiration: 2041-04-02
Also published as: CN113096685A

Abstract

本说明书提供音频处理方法及装置，其中所述音频处理方法包括：获取包含丢失音频片段的待处理音频；在所述待处理音频中确定与所述丢失音频片段相邻的前音频片段和后音频片段，并构建所述前音频片段的前音频频域特征集合和所述后音频片段的后音频频域特征集合；将所述前音频频域特征集合和所述后音频频域特征集合进行拼接，并将拼接后的音频频域特征集合输入至音频处理模型进行处理获得局部频域帧序列；基于所述前音频片段对应的前频域帧序列、所述局部频域帧序列以及所述后音频片段对应的后频域帧序列生成用于替换所述待处理音频的目标音频；实现了对丢失音频区间进行精准的修复，有效的保证了音频的完整性。

Description

音频处理方法及装置

技术领域

本说明书涉及计算机技术领域，特别涉及一种音频处理方法。本说明书同时涉及一种音频处理装置，一种计算设备，以及一种计算机可读存储介质。

背景技术

随着互联网技术的发展，音频修复技术在越来越多的场景中得以应用，如在录制音频过程中出现的损坏问题，或者传输过程中丢包导致的音频缺失问题，再或者存储故障导致的音频丢失问题等，为了保证音频的完整性，都会涉及到音频修复技术。现有技术中，在对损坏或者丢失的音频进行修复时，通常会采用幅值DNN网络；而幅值DNN网络虽然能够完成音频的修复处理，但是在幅值DNN网络的相位处理中，需要用phase gradient heapintegration算法来估计相位的初值，再通过Griffin-Lim算法迭代100次得到最终的相位，计算过程较为复杂，因此亟需一种有效的方案以解决上述问题。

发明内容

有鉴于此，本说明书实施例提供了一种音频处理方法。本说明书同时涉及一种音频处理装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种音频处理方法，包括：

获取包含丢失音频片段的待处理音频；

在所述待处理音频中确定与所述丢失音频片段相邻的前音频片段和后音频片段，并构建所述前音频片段的前音频频域特征集合和所述后音频片段的后音频频域特征集合；

将所述前音频频域特征集合和所述后音频频域特征集合进行拼接，并将拼接后的音频频域特征集合输入至音频处理模型进行处理获得局部频域帧序列；

基于所述前音频片段对应的前频域帧序列、所述局部频域帧序列以及所述后音频片段对应的后频域帧序列生成用于替换所述待处理音频的目标音频。

可选地，所述在所述待处理音频中确定与所述丢失音频片段相邻的前音频片段和后音频片段，包括：

在所述待处理音频定位所述丢失音频片段；

选择所述丢失音频片段之前设定时长的音频片段确定为所述前音频片段，以及所述丢失音频片段之后设定时长的音频片段确定为所述后音频片段。

可选地，所述构建所述前音频片段的前音频频域特征集合和所述后音频片段的后音频频域特征集合，包括：

对所述前音频片段和所述后音频片段进行预处理，获得所述前音频片段对应的所述前频域帧序列以及所述后音频片段对应的所述后频域帧序列；

基于所述前频域帧序列构建所述前音频频域特征集合，以及基于所述后频域帧序列构建所述后音频频域特征集合。

可选地，所述对所述前音频片段和所述后音频片段进行预处理，获得所述前音频片段对应的所述前频域帧序列以及所述后音频片段对应的所述后频域帧序列，包括：

对所述前音频片段和所述后音频片段进行分帧处理，获得所述前音频片段对应的前音频时域帧序列以及所述后音频片段对应的后音频时域帧序列；

基于预设的补充信息和变换参数对所述前音频时域帧序列和所述后音频时域帧序列进行变换处理，获得所述前音频片段对应的所述前频域帧序列以及所述后音频片段对应的所述后频域帧序列。

可选地，所述基于所述前频域帧序列构建所述前音频频域特征集合，以及基于所述后频域帧序列构建所述后音频频域特征集合，包括：

确定所述前频域帧序列对应的前频域信息，以及所述后频域帧序列对应的后频域信息；

基于所述前频域信息确定所述前频域帧序列的前频域帧、前分量和前复数，以及所述后频域信息确定所述后频域帧序列的后频域帧、后分量和后复数；

基于所述前频域帧、所述前分量和所述前复数构建所述前音频频域特征集合，以及所述后频域帧、所述后分量和所述后复数构建所述后音频频域特征集合。

可选地，所述将拼接后的音频频域特征集合输入至音频处理模型进行处理获得局部频域帧序列，包括：

将拼接后的音频频域特征集合输入至所述音频处理模型，通过所述音频处理模型中的编码模块进行编码处理，获得编码特征集合；

通过所述音频处理模型中的解码模块对所述编码特征集合进行处理，获得解码特征集合；

基于所述解码特征集合生成目标音频频域特征集合；

通过所述音频处理模块中的输出模块对所述目标音频频域特征集合进行处理，获得所述音频处理模型输出的所述局部频域帧序列。

可选地，所述基于所述解码特征集合生成目标音频频域特征集合，包括：

通过所述音频处理模型中的卷积模块对所述解码特征集合进行处理，获得初始音频频域特征集合；

通过所述音频处理模型中的掩码模块对所述初始音频频域特征集合进行处理，获得中间音频频域特征集合；

基于所述音频处理模型中的参考幅值对所述中间音频频域特征集合进行调整，获得所述目标音频频域特征集合。

可选地，所述参考幅值通过如下方式确定：

确定所述丢失音频片段对应的丢失音频频域信息，并基于所述丢失频域信息在所述音频频域特征集合中确定第一频域帧和第二频域帧；

选择所述第一频域帧对应的幅值确定为第一幅值，以及所述第二频域帧对应的幅值确定为第二幅值；

根据线性插值算法计算第三幅值，并基于所述第一幅值、所述第二幅值和所述第三幅值创建所述参考幅值。

可选地，所述基于所述前音频片段对应的前频域帧序列、所述局部频域帧序列以及所述后音频片段对应的后频域帧序列生成用于替换所述待处理音频的目标音频，包括：

基于所述前频域帧序列、所述局部频域帧序列和所述后频域帧生成目标全局频域帧序列；

对所述目标全局频域帧序列进行逆处理获得目标全局时域帧序列，并基于所述目标全局时域帧序列生成用于替换所述待处理音频的所述目标音频。

可选地，所述基于所述前频域帧序列、所述局部频域帧序列和所述后频域帧生成目标全局频域帧序列，包括：

基于所述补充信息在所述前频域帧序列中确定目标前频域帧序列，以及在所述后频域帧序列中确定目标后频域帧序列；

将所述目标前频域帧序列、所述局部频域帧序列和所述目标后频域帧序列进行拼接，获得所述目标全局频域帧序列。

可选地，所述音频处理模型通过如下方式训练：

获取样本音频以及所述样本音频对应的样本局部频域帧序列；

基于所述样本音频构建样本音频特征集合，并基于所述样本音频特征集合和所述样本局部频域帧序列对初始音频处理模型进行训练，直至所述初始音频处理模型满足训练停止条件，根据训练结果获得所述音频处理模型。

可选地，所述训练停止条件由所述初始音频处理模型的损失值确定；

相应的，所述损失值由幅值损失和相位损失确定，用于确定训练过程中的初始音频处理模型的预测精准度。

根据本说明书实施例的第二方面，提供了一种音频处理装置，包括：

获取模块，被配置为获取包含丢失音频片段的待处理音频；

构建模块，被配置为在所述待处理音频中确定与所述丢失音频片段相邻的前音频片段和后音频片段，并构建所述前音频片段的前音频频域特征集合和所述后音频片段的后音频频域特征集合；

处理模块，被配置为将所述前音频频域特征集合和所述后音频频域特征集合进行拼接，并将拼接后的音频频域特征集合输入至音频处理模型进行处理获得局部频域帧序列；

生成模块，被配置为基于所述前音频片段对应的前频域帧序列、所述局部频域帧序列以及所述后音频片段对应的后频域帧序列生成用于替换所述待处理音频的目标音频。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该指令被执行时实现所述音频处理方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现所述音频处理方法的步骤。

本申请提供的一种音频处理方法，在获取到包含丢失音频片段的待处理音频后，可以在所述待处理音频中确定与丢失音频片段相邻的前音频片段和后音频片段，并构建前音频片段和后音频片段分别对应的前音频频域特征集合和后音频频域特征集合，之后将二者进行拼接，并将拼接后的音频频域特征集合输入至音频处理模型进行处理，即可得到频域维度修复的局部频域帧序列，最后通过将前音频片段对应的前频域帧序列、所述局部频域帧序列以及所述后音频片段对应的后频域帧序列进行拼接并转换，即可得到替换待处理音频的目标音频，实现在频域维度结合上下文的音频对丢失音频片段进行修复，不仅可以保证修复的精准度，还能够降低相位计算的复杂度，有效的保证了修复后的目标音频的质量。

附图说明

图1是本说明书一实施例提供的一种音频处理方法的结构示意图；

图2是本说明书一实施例提供的一种音频处理方法的流程图；

图3是本说明书一实施例提供的一种复数网络的结构示意图；

图4是本说明书一实施例提供的一种音频处理模型的结构示意图；

图5是本说明书一实施例提供的一种编码层和解码层的结构示意图；

图6是本说明书一实施例提供的一种应用于即时通讯场景中的音频处理方法的处理流程图；

图7是本说明书一实施例提供的一种音频处理装置的结构示意图；

图8是本说明书一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

短时傅里叶变换：(short-time Fourier transform，STFT)选择一个时频局部化的窗函数，假定分析窗函数g(t)在一个短时间间隔内是平稳(伪平稳)的，移动窗函数，使f(t)g(t)在不同的有限时间宽度内是平稳信号，从而计算出各个不同时刻的功率谱。

音频修复：在音频中出现损坏或者丢失的音频片段的情况下，通过对丢失的音频片段进行恢复的处理称之为音频修复。在不同的场景下，针对丢失的音频片段长短可以采用不同的修复算法完成修复处理。

线性插值：(Linear Interpolation)是指插值函数为一次多项式的插值方式，其在插值节点上的插值误差为零。即根据已知的数据序列找到其中的规律；然后根据找到的这个规律，来对其中尚未有数据记录的点进行数值估计。

汉宁窗：(Hanning)是窗函数之一，是升余弦窗的一个特例。汉宁窗可以看作是3个矩形时间窗的频谱之和，或者说是3个sinc(t)型函数之和，而括号中的两项相对于第一个谱窗向左、右各移动了π/T，从而使旁瓣互相抵消，消去高频干扰和漏能。其适用于非周期性的连续信号。

在本说明书中，提供了一种音频处理方法，本说明书同时涉及一种音频处理装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

实际应用中，音频修复场景通常分为10ms以下的局部丢失信息(gap)的恢复场景，属于短的gap；100ms以上的gap恢复场景，属于长的gap；以及10ms至100ms之间的gap恢复场景，如64ms的gap恢复场景；针对不同的场景通常会采用不同的修复算法对丢失的音频进行处理，以得到完成的音频。现有技术中，大多会采用幅值DNN(Deep Neural Networks)网络完成丢失音频片段的修复。幅值DNN网络仅输出幅值信息，相位信息需要单独计算：先使用gradient heap integration算法来设置相位的初始值，再使用快速Griffin-Lim算法迭代100次得到最终的相位，计算复杂度高，运行缓慢。因此亟需一种有效的方案以实现在保证音频修复效率的情况下，可以提高修复后音频的质量。

参见图1所示的音频处理方法的结构示意图，在获取到包含丢失音频片段的待处理音频后，可以在所述待处理音频中确定与丢失音频片段相邻的前音频片段和后音频片段，并构建前音频片段和后音频片段分别对应的前音频频域特征集合和后音频频域特征集合，之后将二者进行拼接，并将拼接后的音频频域特征集合输入至音频处理模型进行处理，即可得到频域维度修复的局部频域帧序列，最后通过将前音频片段对应的前频域帧序列、所述局部频域帧序列以及所述后音频片段对应的后频域帧序列进行拼接并反变换，即可得到替换待处理音频的目标音频，实现在频域维度结合上下文的音频对丢失音频片段进行修复，不仅可以保证修复的精准度，还能够降低相位计算的复杂度，有效的保证了修复后的目标音频的质量。

图2示出了根据本说明书一实施例提供的一种音频处理方法的流程图，具体包括以下步骤：

步骤S202，获取包含丢失音频片段的待处理音频。

具体的，所述待处理音频具体是指包含丢失音频片段，且需要进行音频修复处理的音频。相应的，所述丢失音频片段具体是指所述待处理音频中，由于损坏或者丢失而缺失的音频片段，且所述丢失音频片段在所述待处理音频中相邻的音频片段均为未丢失的音频片段。

实际应用中，造成所述待处理音频片段中出现所述丢失音频片段的原因可能是存储故障，如黑胶唱片被刮伤；或者音频录制过程中环境噪声过大、录制音量较小，如通过即时通信软件进行语音沟通时，某个时间段说话声音过小引起；再或者音频传输过程中丢包导致，如在线听课场景中，服务器向客户端下发的音频数据包丢失等；都可能导致音频片段丢失，因此本实施例提供一种音频处理方法，其目的是为了能够对待处理音频中的丢失音频片段进行修复，即在频域维度结合上下文音频，通过音频处理模型预测丢失音频片段的局部频域特征，以此为基础生成目标音频，从而保证音频的完整性。需要说明的是，在音频修复场景中均可以采用本实施例提供的音频处理方法完成，本实施例提供的音频处理方法应用的场景可以根据实际应用场景进行设置，本实施例在此不作任何限定。

本实施例以丢失音频片段为64ms为例进行说明，相应的待处理音频即为包含64ms丢失音频片段的音频，且所述待处理音频的时长要大于64ms，以保证后续可以结合丢失音频片段的上下文音频片段对丢失音频片段进行修复，以得到用于替换待处理音频的目标音频。

步骤S204，在所述待处理音频中确定与所述丢失音频片段相邻的前音频片段和后音频片段，并构建所述前音频片段的前音频频域特征集合和所述后音频片段的后音频频域特征集合。

具体的，在上述获取包含所述丢失音频片段的待处理音频之后，为了能够在后续准确的对所述丢失音频片段进行修复，此时获取基于所述丢失音频片段在所述待处理音频中定位与所述丢失音频片段相邻的前音频片段和后音频片段，之后构建前音频片段和后音频片段分别对应的音频频域特征集合，以实现在频域维度可以结合上下文音频频段对丢失音频片段对应的局部频域帧序列进行预测，以获得修复精准度高且质量好的目标音频。

基于此，所述前音频片段具体是指所述待处理音频中所述丢失音频片段之前相邻的音频片段，所述后音频片段具体是指所述待处理音频中所述丢失音频片段之后相邻的音频片段，通过在音频修复的过程中结合上下文音频可以有效的提高修复丢失音频片段的精准度。相应的，所述前音频频域特征集合具体是指对时域维度的前音频片段进行短时傅里叶变换后基于变换结果构建的特征集合，相应的，所述后音频频域特征集合也是指对时域维度的后音频片段进行短时傅里叶变换后基于变换结果构建的特征集合，以实现后续可以在频域维度进行丢失音频片段的修复。

实际应用中，由于在时域维度进行音频修复的方案会存在相位误差大的问题，以及修复后的音频上下文搭接不连贯的问题，为了能够避免上述问题对修复后的音频的质量产生影响，本实施例采用在复数域进行处理，以达到精准高效的完成修复处理操作，即构建所述前音频片段和所述后音频片段分别对应的前音频频域特征集合和后音频频域特征集合，以得到频域维度的特征集合，方便后续进行操作处理。

进一步的，由于不同场景下包含丢失音频片段的待处理音频的时长并不固定，如果直接提取时长较长的待处理音频进行后续的音频修复处理操作，会造成过多的冗余计算量，并且可能会导致针对丢失音频片段修复不精准的问题，因此在获取到包含丢失音频片段的待处理音频后，可以按照需求从待处理音频中选择丢失音频片段之前设定时长的音频片段作为前音频片段，以及丢失音频片段之后设定时长的音频片段作为后音频片段，以提高后续的音频修复效率，同时保证修复的精准度，本实施例中，具体实现方式如下所述：

在所述待处理音频中定位所述丢失音频片段；

具体实施时，在选择所述前音频片段和所述后音频片段的过程中，由于在不同场景下具有不同的需求，因此可以根据需求选择所述丢失音频片段之前设定时长的音频片段作为所述前音频片段，以及所述丢失音频片段之后设定时长的音频片段作为所述后音频片段，其中，选择所述前音频片段所设定的时长和选择所述后音频片段所设定的时长可以相同或不同，且设定的时长大小可以根据实际应用场景设定，本实施例在此不作任何限定。

举例说明，服务器根据用户请求向用户持有的客户端发送了长度为T的古诗朗诵音频，以供用户可以学习古诗以及背诵。在此过程中，由于网络波动，导致该音频出现丢包情况，致使长度为T的古诗朗诵音频缺少了Sg＝64ms的音频片段，此时为了能够向用户提供完成的古诗朗诵音频，可以对丢失的音频片段进行修复，其中长度为T的古诗朗诵音频即为待处理音频，音频片段Sg＝64ms即为丢失音频片段。

进一步的，由于丢失音频片段Sg的长度仅为64ms，而古诗朗诵音频的长度为T，如果结合丢失音频片段Sg的上下文音频进行后续的音频修复处理，可能会产生冗余的计算量，因此为了能够提高后续的修复精准度以及效率，可以基于丢失音频片段Sg在古诗朗诵音频中的位置选择其之前128ms的音频片段作为前音频片段Sb，以及选择其之后128ms的音频片段作为后音频片段Sa，以实现后续的音频修复处理过程。其中，由于待处理音频和丢失音频都是在时域维度进行确定的，因此在待处理音频在16k采样率的情况下，可以取前音频片段Sb，丢失音频片段Sg和后音频片段Sa共signal_length＝5120个采样点，其中丢失音频片段Sg＝64ms(1024采样点)，而丢失音频片段Sg之前的前音频片段Sb＝128ms(2048采样点)，丢失音频片段Sg之后的后音频片段Sa＝128ms(2048采样点)，以此为基础进行后续的音频修复处理。

综上，为了后续进行音频修复的效率和精准度，可以在所述待处理音频中选择设定时长的音频片段确定为前音频片段和后音频片段，以减少冗余音频片段带来的影响，从而提高音频修复效率。

更进一步的，在基于所述丢失音频片段确定所述前音频片段和所述后音频片段之后，为了能够达到相位误差小且修复后的音频上下文搭接更加连贯，可以变换到频域维度进行音频修复处理，因此在得到所述前/后音频片段后，可以变换到频域维度得到各个音频片段对应的频域帧序列，之后构建各个音频片段对应的音频频域特征集合，用于在频域维度进行丢失音频片段的修复，本实施例中，具体实现方式如步骤S2042至步骤S2044所述：

步骤S2042，对所述前音频片段和所述后音频片段进行预处理，获得所述前音频片段对应的所述前频域帧序列以及所述后音频片段对应的所述后频域帧序列。

具体的，所述前频域帧序列具体是指通过对时域维度的前音频片段进行变换后，得到的该音频在频域维度对应的全部频域帧组成的序列，相应的，所述后频域帧序列具体是指通过对时域维度的后音频片段进行变换后，得到的该音频在频域维度对应的全部频域帧组成的序列。所述预处理具体是指对所述前音频片段和所述后音频片段进行短时傅里叶变换(sftf)所做的处理。

基于此，在从所述待处理音频中确定所述丢失音频片段相邻的所述前音频片段和所述后音频片段之后，为了能够提高修复所述丢失音频片段的修复准确性，可以在时域维度分别对所述前音频片段和后音频片段进行预处理，以得到所述前音频片段对应的所述前频域帧序列以及所述后音频片段对应的所述后频域帧序，即从时域维度变换到频域维度进行后续的音频修复操作，以提高修复精准度的同时，提高修复后的音频的质量。

进一步的，在从时域维度变换到频域维度的过程中，由于前音频片段和后音频片段的时长无法固定，因此在进行短时傅里叶变换时，考虑到需要对前音频片段和所述后音频片段全部变换到频域维度，则需要在分帧处理后，针对各个音频片段进行补充处理，以此为基础才能够完成短时傅里叶变换处理，本实施例中，具体实现方式如下所述：

具体的，所述前音频时域帧序列具体是指在时域维度对所述前音频片段进行分帧处理后得到的多个时域帧组成的序列；相应的，所述后音频时域帧序列具体是指在时域维度对所述后音频片段进行分帧处理后得到的多个时域帧组成的序列；相应的，所述补充信息具体是指为了能够完成对所述前音频时域帧序列和所述后音频时域帧序列的变换处理操作，所针对各个时域帧序列添加的信息，相应的，所述变换参数具体是指在进行短时傅里叶变换时所需要配置的参数，通过该参数可以对前音频时域帧序列和所述后音频时域帧序列进行变换处理，所述变换参数包括但不限于frame_length的取值，frame_step的取值，fft_length的取值，以及加窗类型等。

基于此，在得到所述前音频片段和所述后音频片段之后，为了能够提高后续音频修复的精准度，此时可以对所述前音频片段和所述后音频片段分别进行分帧处理，以得到所述前音频片段对应的前音频时域帧序列和所述后音频片段对应的后音频时域帧序列。

进一步的，由于所述前音频时域帧序列和所述后音频时域帧序列在进行短时傅里叶变换时，可能会出现包含的采样点不足以支持完成变换处理；如采样点过少或过多，经过变换后会剩余少量的采样点不够下一次变换处理的情况，此时为了能够将全部时域帧都进行变换处理，可以基于所述补充信息对所述前音频时域帧序列和所述后音频时域帧序列进行补充，之后利用变换参数对补充后的前音频时域帧序列和后音频时域帧序列进行变换处理，以得到所述前音频片段在频域维度对应的前频域帧序列，以及所述后音频片段在频域维度对应的后频域帧序列，方便后续在频域维度进行音频修复处理操作。

沿用上例，在确定丢失音频片段Sg＝64ms，前音频片段Sb＝128ms以及后音频片段Sa＝128ms的基础上，为了能够对丢失音频片段64ms的音频进行修复，此时可以从时域维度转换到频域维度，以提高修复精准度；基于此，首先分别对前音频片段和后音频片段分别进行分帧处理，得到前音频片段Sb对应的前音频时域帧序列[T₁～T₁₆](其中，T_n表示每个前时域帧，前音频片段Sb对应有16个时域帧)，后音频片段Sa对应的后音频时域帧序列[T₃₁～T₄₆](其中，T_n表示每个前时域帧，后音频片段Sb对应有16个时域帧)。

进一步的，在确定前音频片段Sb对应的前音频时域帧序列[T₁～T₁₆]以及后音频片段Sa对应的后音频时域帧序列[T₃₁～T₄₆]后，此时可以基于变换参数frame_length＝512，frame_step＝128，fft_length＝511，加汉宁窗，pad_end＝False对前音频时域帧序列[T₁～T₁₆]和后音频时域帧序列[T₃₁～T₄₆]进行stft变换处理。但是由于frame_length取值为512，在对前音频时域帧序列和后音频时域帧序列进行最后一次采样时，只能取到128个采样点，而缺少384个采样点，这就导致无法支持全时域帧进行sftf变换，因此为了保证音频修复的精准度，需要取到128个采样点后，基于补充信息在前音频时域帧序列后边补充384个零，同理，基于补充信息在后音频时域帧序列前补充384个零，然后分别针对补零的前/后音频时域帧序列做不加padding的stft正变换处理，根据变换处理结果得到前音频片段Sb对应的前频域帧序列(stft帧1至stft帧16)，以及后音频片段Sa对应的后频域帧序列(stft帧28至stft帧43)。

需要说明的是，由于在进行stft变换处理时，对前音频片段Sb和后音频片段Sa都进行了补零处理，前音频片段Sb和后音频片段Sa在补零之前分别包含16个时域帧，经过补零后将分别包含19个时域帧，而每个stft帧对应四个时域帧，因此19个时域帧将变换出16个频域帧，即前频域帧序列包含stft帧1至stft帧16共16个频域帧，后频域帧序列包含stft帧28至stft帧43共16个频域帧。而frame_length/frame_step/fft_length也可以取不同的值。一般来讲，frame_length/frame_step的比值越大，音频修复的效果越好，因此实际应用中可以根据实际修复音频的需求选择取值，本实施例在此不作任何限定。

此外，由于后续进行音频修复所使用的音频处理模型是基于U-NET网络构建的模型，考虑到在编码阶段按照梯度下降的方式(每次编码除以2)方便计算，变换参数中的fft_length的取值为511，以此控制音频片段对应的音频频域特征集合中的分量是偶数，实现在编码阶段更加方便计算处理。

综上，为了能够保证后续可以精准的对丢失音频片段进行修复处理，此时将对时域维度的前音频片段和后音频片段变换到频域维度，以得到前音频片段对应的前频域帧序列以及后音频片段对应的后音频帧序列，为后续音频修复处理打下基础，实现精准高效的完成音频修复处理。

步骤S2044，基于所述前频域帧序列构建所述前音频频域特征集合，以及基于所述后频域帧序列构建所述后音频频域特征集合。

具体的，在上述根据变换处理得到前音频片段和后音频片段分别对应的前频域帧序列和后频域帧序列的基础上，进一步的，由于后续进行音频修复处理需要使用音频处理模型实现，为了能够对幅值信息和相位信息都进行预测，本实施例提供的音频处理模型Complex U-Net使用复数深度神经网络(complex-valued deep neural network)，不仅神经网络的输入是复数的，神经网络的各层也都是复数的，从而确保了丢失音频区间的相位和幅值的预测都更接近于真实值，音频修复的质量的效果得到了很大的提升。

基于此，由于所述音频处理模型采用了复数深度神经网络构建，因此模型的输入也需要采用复数形式，因此在得到所述前频域帧序列和所述后频域帧序列后，可以基于所述前频域帧序列和所述后频域帧序列分别构建所述前音频片段对应的前音频频域特征集合以及所述后音频片段对应的后音频频域特征集合。其中，所述前音频频域特征集合和所述后音频频域特征集合具体是指通过结合多维度数据组成的复数形式的输入shape，同时模型的输出也将与输入的表征相对应，从而保证模型对丢失的音频片段的预测精准度。

进一步的，在构建所述前音频频域特征集合和所述后音频频域特征集合的过程中，考虑到复数域的影响，以及后续模型处理时编码模块梯度下降的处理策略，此时可以基于前频域帧序列和后频域帧序列分别对应的频域信息构建所述前音频频域特征集合和所述后音频频域特征集合，本实施例中，具体实现方式如下所述：

具体的，所述前频域信息具体是指在频域维度所述前频域帧序列所具有的信息，所述后频域信息具体是指在频域维度所述后频域帧序列所具有的信息；相应的，所述前频域帧即为所述前频域帧序列中包含的各个前频域帧所对应的值，所述前分量具体是指前音频片段进行短时傅里叶变换后所对应的各个频点，所述前复数具体是指短时傅里叶变换后由实部和虚部组成的复数。同理，所述后频域帧即为所述后频域帧序列中包含的各个后频域帧所对应的值，所述后分量具体是指后音频片段进行短时傅里叶变换后所对应的各个频点，所述后复数具体是指短时傅里叶变换后由实部和虚部组成的复数。

基于此，在确定所述前音频片段对应的前频域帧序列以及所述后音频片段对应的后频域帧序列的基础上，此时将分别确定所述前频域帧序列和所述后频域帧序列分别对应的前频域信息和后频域信息，之后即可根据所述前频域信息确定所述前频域帧序列的前频域帧、前分量和前复数，根据所述后频域信息确定所述后频域帧序列的后频域帧、后分量和后复数；最后基于所述前频域帧、所述前分量和所述前复数构建所述前音频频域特征集合，以及所述后频域帧、所述后分量和所述后复数构建所述后音频频域特征集合即可。

沿用上例，在得到前音频片段Sb对应的前频域帧序列(stft帧1至stft帧16)以及后音频片段Sa对应的后频域帧序列(stft帧28至stft帧43)之后，此时即可根据前频域帧序列和后频域帧序列构建模型的输入shape相关的特征，由于前频域帧序列中包含16个频域帧，且选择了fft_length＝511，因此基于前频域帧序列(stft帧1至stft帧16)对应的前频域信息构建出的前音频片段Sb对应的前音频特征集合为(batch，16,256,2)，其中，16表示stft帧1至stft帧16，256表示512个点的stft变换后的前256个分量，2表示实部和虚部组成的复数。同理，后频域帧序列中包含16个频域帧，且选择了fft_length＝511，因此基于后频域帧序列(stft帧28至stft帧43)对应的后频域信息构建出的后音频片段Sa对应的后音频特征集合为(batch，16,256,2)，其中，16表示stft帧28至stft帧43，256表示512个点的stft变换后的前256个分量，2表示实部和虚部组成的复数。

综上，通过采用频域帧，分量和复数三个维度组成前音频片段对应的前音频频域特征集合以及后音频片段对应的后音频频域特征集合，保证以复数形式进行表达，实现更加契合所述音频处理模型，方便后续模型对其进行预测处理，以得到更加精准的局部频域帧序列。

步骤S206，将所述前音频频域特征集合和所述后音频频域特征集合进行拼接，并将拼接后的音频频域特征集合输入至音频处理模型进行处理获得局部频域帧序列。

具体的，在上述得到所述前音频频域特征集合和后音频频域特征集合的基础上，进一步的，考虑到上下文音频片段对丢失音频片段的影响，为了能够在频域维度精准的对丢失音频片段进行修复，此时可以将所述前音频频域特征集合和所述后音频频域特征集合进行拼接，以得到拼接后的音频频域特征集合作为所述音频处理模型的输入，并将其输入至音频处理模型进行预测处理，从而得到所述丢失音频片段经过模型处理后输出的局部频域特征序列，后续可以转换到时域维度完成对丢失音频片段的修复。

基于此，所述音频处理模型具体是指基于复数深度神经网络架构构建的预测模型；所述局部频域帧序列具体是指通过模型预测处理后得到的包含丢失音频片段对应的预测音频片段的频域帧组成的序列，所述局部频域帧序列中包含至少一个局部频域帧，且至少一个局部频域帧中包含预测音频片段，预测音频片段具体是指通过模型进行预测处理后能够对丢失音频片段进行补偿的音频片段。

为了能够对丢失音频片段进行精准的修复，并且保证修复后的目标音频的质量，可以基于Complex U-Net神经网络构建所述音频处理模型，实现可以对几十毫秒级别的音频进行修复，保证修复后音频的质量。也就是说，复数神经网络是通过结合实部和虚部同时对频域维度的频域帧序列进行预测，以获得频域维度下的频域帧序列。参见图3所示的复数网络的示意图，以Complex Conv2D为例进行说明，设该网络的输入为h＝x+iy，复数卷积矩阵为W＝A+iB，其中A和B是实数矩阵，x和y为实数，Complex Conv2D的计算公式为：W*h＝(A*x-B*y)+i(B*x+A*y)，从而实现通过结合实部和虚部的方式经过复数神经网络进行目标结果的预测，以达到在复数域完成预测处理过程。

基于此，本实施例提供的音频处理方法中所述音频处理模型将基于Complex U-Net神经网络构建，因此该音频处理模型在进行局部频域帧序列预测时，将经过编码阶段，解码阶段以及卷积处理阶段，本实施例中，具体实现方式如下所述：

将拼接后的音频频域特征集合输入至所述音频处理模型，通过所述音频处理模型中的编码模块进行编码处理，获得编码特征集合；通过所述音频处理模型中的解码模块对所述编码特征集合进行处理，获得解码特征集合；通过所述音频处理模型中的卷积模块对所述解码特征集合进行处理，获得初始音频频域特征集合；通过所述音频处理模型中的掩码模块对所述初始音频频域特征集合进行处理，获得中间音频频域特征集合；基于所述音频处理模型中的参考幅值对所述中间音频频域特征集合进行调整，获得所述目标音频频域特征集合；通过所述音频处理模块中的输出模块对所述目标音频频域特征集合进行处理，获得所述音频处理模型输出的所述局部频域帧序列。

具体的，所述编码特征集合具体是指通过所述音频处理模型中的编码模块对拼接后的音频频域特征集合进行编码处理后得到的音频特征集合；相应的，所述解码特征集合具体是指所述音频处理模型中的解码模块对编码特征集合进行解码处理后得到的音频特征集合。所述初始音频频域特征集合具体是指卷积模块对所述解码特征集合进行卷积处理后得到的音频特征集合，所述中间音频频域特征集合具体是指通过所述掩码模块对初始音频频域特征集合进行掩码处理后得到的音频特征集合，所述目标音频频域特征集合具体是指通过所述音频处理模型中的参考幅值对中间音频频域特征集合进行调整后得到的音频特征集合。

基于此，在得到拼接后的音频频域特征集合之后，即可将所述音频频域特征集合输入至所述音频处理模型，通过所述音频处理模型中的编码模块对所述音频频域特征集合进行编码处理，以得到所述编码特征集合；之后再通过所述音频处理模型中的解码模块对所述编码特征集合进行处理，获得解码特征集合；在得到所述解码特征集合后即可通过卷积模块对所述解码特征集合进行处理，获得初始音频频域特征集合；之后再通过所述音频处理模型中的掩码模块对所述初始音频频域特征集合进行处理，获得中间音频频域特征集合；最后基于所述音频处理模型中的参考幅值对所述中间音频频域特征集合进行调整，获得所述目标音频频域特征集合；实现通过所述音频处理模块中的输出模块对所述目标音频频域特征集合进行处理，获得所述音频处理模型输出的所述局部频域帧序列。

实际应用中，在通过所述掩码模块对所述初始音频频域特征集合进行处理的过程中，实则是通过将幅值和相位进行整合，以得到能够通过参考幅值调整的音频频域特征集合，实现后续可以通过所述音频处理模型输出所述局部频域帧序列，所述掩码模块在进行处理时可以采用如下公式(1)实现：

其中，I_t,f表示频域的输入，表示频域的输出，/>表示幅值，/>表示相位。

更进一步的，在通过所述参考幅值对所述中间音频频域特征集合进行调整的过程中，为了能够提高模型预测的精准度，所述参考幅值可以通过如下方式确定：

具体的，所述丢失音频频域信息具体是指所述丢失音频片段在频域维度所对应的信息，包括但不限于所述丢失音频片段的对应的频域帧数量；相应的，所述第一频域帧和所述第二频域帧具体是指拼接后的所述音频频域帧集合中任意两个频域帧，且所述第一频域帧在所述第二频域帧之前，相应的，所述第一幅值具体是指所述第一频域帧对应的幅值，所述第二幅值具体是指所述第二频域帧对应的幅值，所述第三幅值具体是指基于线性插值算法计算出的幅值，且所述第三幅值的个数大于等于1。

基于此，由于掩码模块“Mask processing”计算的掩码的幅值在[0,1]区间，因此为了能够得到质量较高的音频，可以通过参考幅值来提升音量。而在确定所述参考幅值的过程中，由于参考幅值是调整所述中间音频频域特征集合的参数，因此需要保证参考幅值与所述中间音频频域特征集合具有相同的表达形式，因此在构建所述参考幅值时，可以根据所述丢失音频片段对应的丢失音频频域信息确定第一频域帧和第二频域帧，之后选择第一频域帧对应的幅值作为起始幅值(第一幅值)，选择所述第二频域帧对应的幅值作为(结束幅值)，之后结合线性插值算法计算所述起始幅值和所述结束幅值中间的幅值，以通过整合第一幅值，第三幅值和第二幅值的方式得到所述参考幅值，实现对所述中间音频频域特征集合进行调整，提高模型的预测精准度。

沿用上例，在得到前音频特征集合(batch，16,256,2)和后音频特征集合(batch，16,256,2)的基础上，可以将前音频特征集合和后音频特征集合进行整合得到音频处理模型的输入shape(batch，32,256,2)，进一步的，参见图4所示的模型框架示意图，在将(batch，32,256,2)输入至音频处理模型的过程中，通过模型中的编码模块(包含7个编码层)对(batch，32,256,2)进行处理，获得编码特征集合(batch，4,2,64)，之后再将编码特征集合输入至解码模块(包含7个解码层)对编码特征集合(batch，4,2,64)进行解码处理得到解码特征集合(batch，32,256,8)，之后再进行一次编码处理得到(batch，16,256,2)。

进一步的，通过音频处理模型中的卷积模块对(batch，16,256,2)进行卷积处理，由于卷积模块中设置Complex_Conv2D(6,1)(1,1)2valid，因此可以在(batch，16,256,2)中包含的16个频域帧中每选择连续的6个频域帧进行卷积处理，直至全部处理完毕得到11个频域的输出，即根据处理结果得到初始音频频域特征集合(batch，11,256,2)，再通过掩码模块对其进行处理，得到中间音频频域特征集合(batch，11,256,2)，最后通过参考幅值(batch，11,256,1)对中间音频频域特征集合进行调整，即可得到目标音频频域特征集合(batch，11,256,2)，最后再通过音频处理模型的输出模块对目标音频频域特征集合(batch，11,256,2)进行处理，即可得到局部频域帧序列(预测stft帧1至预测stft帧11)，其中包括11个预测频域帧。

更进一步的，参见图5所示的编码层和解码层的结构示意图，当编码模块对输入的音频频域特征集合进行处理的过程中，卷积层，批标准化和激活函数都会采用复数形式，以此保证在复数域对局部频域帧序列进行预测。基于此，编码模块中每一编码层所对应的参数如下表(1)所示：

	kernel_size	strides	filters
				Encoder_1	(3,5)	(1,2)	32
Encoder_2	(3,5)	(2,2)	64
				Encoder_3	(3,5)	(1,2)	64
Encoder_4	(3,5)	(2,2)	64
				Encoder_5	(3,5)	(1,2)	64
Encoder_6	(3,5)	(2,2)	64
				Encoder_7	(3,5)	(1,2)	64

表(1)

以Encoder_1为例，参见图5中所示的编码层和解码层的示意图，complex_Conv2D的三个参数分别为：kernel_size表示卷积核尺寸，strides表示步长，filters表示过滤器数量。解码模块中每一解码层所对应的参数如下表(2)所示：

表(2)

相应的，以Decoder_1为例，参见图5中所示的编码层和解码层的示意图，complex_Conv2DTranspose的三个参数分别为：kernel_size表示卷积核尺寸，strides表示步长，filters表示过滤器数量。

此外，由于丢失音频区间包含11个频域帧，因此也需要11帧参考幅值，而音频处理模型的输入是32个频域帧，因此可以选择32个频域帧中的第13帧对应的幅值作为第1帧参考幅值，选择32个频域帧中的第20帧对应的幅值作为第11帧参考幅值，之后第1帧参考幅值至第11帧参考幅值中间的参考幅值由线性插值算法产生，以获得参考幅值(batch，11,256,1)。其中，参考幅值是用于对中间音频特征集合进行调整时所引入的参数，因此参考幅值的最后一维特征引入实部即可(参考幅值的输入表达中的“1”表示实部)，以实现对中间音频特征集合进行调整，最后再经过模型的输出层即可输出局部频域帧序列。

此外，需要说明的是，所述编码模块和所述解码模块中包含的编码层个数以及解码层个数可以根据实际应用场景设定，相应的，所述卷积模块中卷积核的大小，步长也可以根据实际应用场景设定，本实施例在此不作任何限定。

综上所述，为了能够对幅值信息和相位信息都进行预测，本实施例提供的音频处理模型将采用复数深度神经网络构建所述音频处理模型，实现在频域维度对丢失音频片段进行预测，从而精准的对丢失音频片段进行音频修复处理。

本实施例提供的一个或多个实施方式中，所述音频处理模型采用如下方式进行训练：

具体的，所述样本音频具体是指包含丢失音频区间的样本音频，相应的，所述样本局部频域帧序列具体是指训练模型时所述样本音频对应的输出结果，基于此，在获取到所述样本音频以及所述样本音频对应的样本局部频域帧序列后，可以基于所述样本音频构建样本音频特征集合，具体构建过程是指确定样本音频中的样本丢失音频片段，之后选择样本丢失音频片段前后相邻的音频片段确定样本前音频片段和样本后音频片段，之后构建样本前音频片段对应的样本前音频特征集合，以及样本后音频片段对应的样本后音频特征集合，最后将样本后音频特征集合和样本前音频特征集合进行拼接，即可得到所述样本音频特征集合。

进一步的，在得到所述样本音频特征集合后，即可基于所述样本音频特征集合和所述样本局部频域帧序列对初始音频处理模型进行训练，直至所述初始音频处理模型满足训练停止条件，根据训练结果获得所述音频处理模型。其中，所述训练停止条件由所述初始音频处理模型的损失值确定；相应的，所述损失值由幅值损失和相位损失确定，用于确定训练过程中的初始音频处理模型的预测精准度。

更进一步的，在根据所述样本音频特征集合和所述样本局部频域帧序列对所述初始音频处理模型进行训练的过程中，实则是将所述样本音频特征集合输入至所述初始音频处理模型进行预测处理，获得所述初始音频处理模型输出的预测样本局部频域帧序列，之后基于预测样本局部频域帧序列和所述样本局部频域帧序列计算模型的损失值，若损失值不满足模型的训练停止条件，则选择新的样本继续对模型进行训练，若损失值满足模型的训练停止条件，则可以将当前训练后的模型作为所述音频处理模型，以用于相应的业务场景中。

基于此，由于所述音频处理模型可以对相位信息和幅值信息都进行预测，因此可以将相位损失和幅值损失的权重设置相同，均为0.5，同时在计算相位损失时，不是单纯的使用相位输出信息，而是结合了整个频谱这样可以帮助网络关注大多数语音信号所在的幅值较高的T-F bin。进一步的，在计算幅值损失时，要先对能量进行压缩，压缩系数为0.3。

实际应用中，损失值可以通过如下式(2)，式(3)和式(4)计算得到：

L＝0.5*L_a+0.5*L_p (2)

其中，La为幅值损失，Lp为相位损失，L为损失值，S^out表示网络输出的频谱，S^gt表示目标频谱。表示对S^out的幅值进行幂律压缩，压缩系数为0.3。/>表示对S^gt的幅值进行幂律压缩，压缩系数为0.3。MSE表示均方误差(Mean Square Error)，abs表示幅值。

此外，音频处理模型的输入shape取决于前音频片段/后音频片段/丢失音频片段/frame_length/frame_step/fft_length的具体参数。输入与输出的shape也可以相同，且音频处理模型中的卷积层的kernel_size和个数可以自行变化，本实施例在此不作任何限定。

步骤S208，基于所述前音频片段对应的前频域帧序列、所述局部频域帧序列以及所述后音频片段对应的后频域帧序列生成用于替换所述待处理音频的目标音频。

具体的，在获得所述局部频域帧序列的基础上，即可结合所述前音频片段对应的前频域帧序列，所述后音频片段对应的后频域帧序列生成用于替换所述待处理音频的目标音频。

进一步的，由于模型的输出结果属于频域维度，因此在得到所述局部频域帧序列后，可以在频域维度对前频域帧序列，所述局部频域帧序列和所述后频域帧序列进行拼接，之后根据拼接结果变换到时域维度，以生成所述目标音频，本实施例中，具体实现方式如下所述：

将所述目标前频域帧序列、所述局部频域帧序列和所述目标后频域帧序列进行拼接，获得所述目标全局频域帧序列；

具体的，所述目标前频域帧序列具体是指从所述前音频片段对应的前频域帧序列中，剔除受所述补充信息影响的频域帧序列后得到的频域帧序列，相应的，所述目标后频域帧序列具体是指从所述后音频片段对应的后频域帧序列中，剔除受所述补充信息影响的频域帧序列后得到的频域帧序列。相应的，所述目标全局频域帧序列具体是指将目标前频域帧序列、所述局部频域帧序列和所述目标后频域帧序列进行拼接后得到的频域帧序列，且其中剔除了所述补充信息影响的频域帧，所述逆处理具体是指对所述目标全局频域帧序列作反向短时傅里叶变换所对应的处理。所述目标全局时域帧序列具体是指在时域维度由多个全局时域帧组成的序列，且通过所述目标全局时域帧序列可以生成所述目标音频，也即是说所述目标全局时域帧序列中包含预测音频片段对应的全局时域音频帧。

基于此，在得到所述局部频域帧序列后，为了避免补充信息对拼接后音频搭接不通顺的影响，可以基于所述补充信息对所述前频域帧序列和所述后频域帧序列进行调整，以获得所述目标前频域帧序列和目标后频域帧序列，之后拼接所述目标前频域帧序列、所述局部频域帧序列和所述目标后频域帧序列，获得所述目标全局频域帧序列，最后再通过对所述目标全局频域帧序列进行逆处理，即可获得目标全局时域帧序列，再基于目标全局时域帧序列生成用于替换所述待处理音频的所述目标音频即可。

沿用上例，在获得音频处理模型输出局部频域帧序列(预测stft帧1至预测stft帧11)的基础上，进一步的，由于前音频片段Sb对应的前频域帧序列(stft帧1至stft帧16)以及后音频片段Sa对应的后频域帧序列(stft帧28至stft帧43)中分别包含16个频域帧，而在进行短时傅里叶变换时进行了补零处理，因此为了避免补零操作而带来的影响，可以基于补零操作在前频域帧序列(stft帧1至stft帧16)中选择不受补零影响的stft帧1至stft帧13作为目标前频域帧序列，同理，在后频域帧序列(stft帧28至stft帧43)中选择不受补零影响的stft帧31至stft帧43作为目标前频域帧序列作为目标后频域帧序列。

进一步的，之后将目标前频域帧序列(stft帧1至stft帧13)，局部频域帧序列(预测stft帧1至预测stft帧11)以及目标后频域帧序列(stft帧31至stft帧43)按照顺序进行拼接，即可得到目标全局频域帧序列(stft帧1至stft帧13，预测stft帧1至预测stft帧11，stft帧31至stft帧43)。再通过对目标全局频域帧序列进行反变换，即可得到目标全局时域帧序列，而由于受到汉宁窗的影响，目标全局时域帧序列最左边384个采样点和最右边384个采样点不可用，因此最左边384个采样点和最右边384个采样点对应的时域帧可以使用古诗朗诵音频中的原始时域帧替换，从而生成长度为T的古诗朗诵音频用于向用户播放即可使得用户收到相应的音频内容。

综上，通过采用先替换再变换的方式生成所述目标音频，不仅可以保证生成的目标音频的精准度，还能够有效的保证目标音频的质量，从而使得音频的播放效果不会因为音频修复后发生改变的问题，进一步提高收听音频的体验，同时由于丢失音频片段前后相邻的音频区间也会进行替换，因此可以进一步保证目标音频的顺滑度，保证目标音频的音频质量。

下述结合附图6，以本说明书提供的音频处理方法在即时通讯场景中的应用为例，对所述音频处理方法进行进一步说明。其中，6示出了本说明书一实施例提供的一种应用于即时通讯场景中的音频处理方法的处理流程图，具体包括以下步骤：

步骤S602，获取包含丢失音频片段的待处理音频。

步骤S604，在待处理音频中确定与丢失音频片段相邻的前音频片段和后音频片段。

步骤S606，对前音频片段和后音频片段进行分帧处理，获得前音频片段对应的前音频时域帧序列以及后音频片段对应的后音频时域帧序列。

步骤S608，基于预设的补充信息和变换参数对前音频时域帧序列和后音频时域帧序列进行变换处理，获得前音频片段对应的前频域帧序列以及后音频片段对应的所述后频域帧序列。

步骤S610，确定前频域帧序列对应的前频域信息，以及后频域帧序列对应的后频域信息。

步骤S612，基于前频域信息确定前频域帧序列的前频域帧、前分量和前复数，以及后频域信息确定后频域帧序列的后频域帧、后分量和后复数。

步骤S614，基于前频域帧、前分量和前复数构建前音频频域特征集合，以及后频域帧、后分量和后复数构建后音频频域特征集合。

步骤S616，拼接前音频频域特征集合和后音频频域特征集合，并输入至音频处理模型进行处理获得局部频域帧序列。

步骤S618，基于补充信息在前频域帧序列中确定目标前频域帧序列，以及在后频域帧序列中确定目标后频域帧序列；

步骤S620，将目标前频域帧序列、局部频域帧序列和目标后频域帧序列进行拼接，获得目标全局频域帧序列。

步骤S622，对目标全局频域帧序列进行逆处理获得目标全局时域帧序列，并基于目标全局时域帧序列生成用于替换待处理音频的目标音频。

本申请提供的一种音频处理方法，实现在频域维度结合上下文的音频对丢失音频片段进行修复，不仅可以保证修复的精准度，还能够降低相位计算的复杂度，有效的保证了修复后的目标音频的质量。

与上述方法实施例相对应，本说明书还提供了音频处理装置实施例，图7示出了本说明书一实施例提供的一种音频处理装置的结构示意图。如图7所示，该装置包括：

获取模块702，被配置为获取包含丢失音频片段的待处理音频；

构建模块704，被配置为在所述待处理音频中确定与所述丢失音频片段相邻的前音频片段和后音频片段，并构建所述前音频片段的前音频频域特征集合和所述后音频片段的后音频频域特征集合；

处理模块706，被配置为将所述前音频频域特征集合和所述后音频频域特征集合进行拼接，并将拼接后的音频频域特征集合输入至音频处理模型进行处理获得局部频域帧序列；

生成模块708，被配置为基于所述前音频片段对应的前频域帧序列、所述局部频域帧序列以及所述后音频片段对应的后频域帧序列生成用于替换所述待处理音频的目标音频。

一个可选的实施例中，所述构建模块704进一步被配置为：

在所述待处理音频定位所述丢失音频片段；选择所述丢失音频片段之前设定时长的音频片段确定为所述前音频片段，以及所述丢失音频片段之后设定时长的音频片段确定为所述后音频片段。

一个可选的实施例中，所述构建模块704进一步被配置为：

对所述前音频片段和所述后音频片段进行预处理，获得所述前音频片段对应的所述前频域帧序列以及所述后音频片段对应的所述后频域帧序列；基于所述前频域帧序列构建所述前音频频域特征集合，以及基于所述后频域帧序列构建所述后音频频域特征集合。

一个可选的实施例中，所述构建模块704进一步被配置为：

对所述前音频片段和所述后音频片段进行分帧处理，获得所述前音频片段对应的前音频时域帧序列以及所述后音频片段对应的后音频时域帧序列；基于预设的补充信息和变换参数对所述前音频时域帧序列和所述后音频时域帧序列进行变换处理，获得所述前音频片段对应的所述前频域帧序列以及所述后音频片段对应的所述后频域帧序列。

一个可选的实施例中，所述构建模块704进一步被配置为：

确定所述前频域帧序列对应的前频域信息，以及所述后频域帧序列对应的后频域信息；基于所述前频域信息确定所述前频域帧序列的前频域帧、前分量和前复数，以及所述后频域信息确定所述后频域帧序列的后频域帧、后分量和后复数；基于所述前频域帧、所述前分量和所述前复数构建所述前音频频域特征集合，以及所述后频域帧、所述后分量和所述后复数构建所述后音频频域特征集合。

一个可选的实施例中，所述处理模块706进一步被配置为：

将拼接后的音频频域特征集合输入至所述音频处理模型，通过所述音频处理模型中的编码模块进行编码处理，获得编码特征集合；通过所述音频处理模型中的解码模块对所述编码特征集合进行处理，获得解码特征集合；基于所述解码特征集合生成目标音频频域特征集合；通过所述音频处理模块中的输出模块对所述目标音频频域特征集合进行处理，获得所述音频处理模型输出的所述局部频域帧序列。

一个可选的实施例中，所述处理模块706进一步被配置为：

通过所述音频处理模型中的卷积模块对所述解码特征集合进行处理，获得初始音频频域特征集合；通过所述音频处理模型中的掩码模块对所述初始音频频域特征集合进行处理，获得中间音频频域特征集合；基于所述音频处理模型中的参考幅值对所述中间音频频域特征集合进行调整，获得所述目标音频频域特征集合。

一个可选的实施例中，所述参考幅值通过如下方式确定：

确定所述丢失音频片段对应的丢失音频频域信息，并基于所述丢失频域信息在所述音频频域特征集合中确定第一频域帧和第二频域帧；选择所述第一频域帧对应的幅值确定为第一幅值，以及所述第二频域帧对应的幅值确定为第二幅值；根据线性插值算法计算第三幅值，并基于所述第一幅值、所述第二幅值和所述第三幅值创建所述参考幅值。

一个可选的实施例中，所述生成模块708进一步被配置为：

基于所述前频域帧序列、所述局部频域帧序列和所述后频域帧生成目标全局频域帧序列；对所述目标全局频域帧序列进行逆处理获得目标全局时域帧序列，并基于所述目标全局时域帧序列生成用于替换所述待处理音频的所述目标音频。

一个可选的实施例中，所述生成模块708进一步被配置为：

基于所述补充信息在所述前频域帧序列中确定目标前频域帧序列，以及在所述后频域帧序列中确定目标后频域帧序列；将所述目标前频域帧序列、所述局部频域帧序列和所述目标后频域帧序列进行拼接，获得所述目标全局频域帧序列。

一个可选的实施例中，所述音频处理模型通过如下方式训练：

一个可选的实施例中，所述训练停止条件由所述初始音频处理模型的损失值确定；相应的，所述损失值由幅值损失和相位损失确定，用于确定训练过程中的初始音频处理模型的预测精准度。

本申请提供的音频处理装置，在获取到包含丢失音频片段的待处理音频后，可以在所述待处理音频中确定与丢失音频片段相邻的前音频片段和后音频片段，并构建前音频片段和后音频片段分别对应的前音频频域特征集合和后音频频域特征集合，之后将二者进行拼接，并将拼接后的音频频域特征集合输入至音频处理模型进行处理，即可得到频域维度修复的局部频域帧序列，最后通过将前音频片段对应的前频域帧序列、所述局部频域帧序列以及所述后音频片段对应的后频域帧序列进行拼接并转换，即可得到替换待处理音频的目标音频，实现在频域维度结合上下文的音频对丢失音频片段进行修复，不仅可以保证修复的精准度，还能够降低相位计算的复杂度，有效的保证了修复后的目标音频的质量。

上述为本实施例的一种音频处理装置的示意性方案。需要说明的是，该音频处理装置的技术方案与上述的音频处理方法的技术方案属于同一构思，音频处理装置的技术方案未详细描述的细节内容，均可以参见上述音频处理方法的技术方案的描述。

图8示出了根据本说明书一实施例提供的一种计算设备800的结构框图。该计算设备800的部件包括但不限于存储器810和处理器820。处理器820与存储器810通过总线830相连接，数据库850用于保存数据。

计算设备800还包括接入设备840，接入设备840使得计算设备800能够经由一个或多个网络860通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备840可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备800的上述部件以及图8中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图8所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备800可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备800还可以是移动式或静止式的服务器。

其中，处理器820用于执行所述音频处理方法对应的计算机可执行指令。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的音频处理方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述音频处理方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时以用于所述音频处理方法。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的音频处理方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述音频处理方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

获取包含丢失音频片段的待处理音频；

在所述待处理音频中确定与所述丢失音频片段相邻的前音频片段和后音频片段，并构建所述前音频片段的前音频频域特征集合和所述后音频片段的后音频频域特征集合，其中所述前音频频域特征集合基于前频域帧、前分量和前复数构建，所述后音频频域特征集合基于后频域帧、后分量和后复数构建；

将所述前音频频域特征集合和所述后音频频域特征集合进行拼接，并将拼接后的音频频域特征集合输入至音频处理模型进行处理获得局部频域帧序列，其中，所述音频处理模型采用复数深度神经网络构建，用于结合实部和虚部对拼接后的音频频域特征集合包含的频域帧序列进行预测；所述音频处理模型包含参考幅值，所述参考幅值用于提高音频质量；

2.根据权利要求1所述的音频处理方法，其特征在于，所述在所述待处理音频中确定与所述丢失音频片段相邻的前音频片段和后音频片段，包括：

在所述待处理音频定位所述丢失音频片段；

3.根据权利要求1所述的音频处理方法，其特征在于，所述构建所述前音频片段的前音频频域特征集合和所述后音频片段的后音频频域特征集合，包括：

4.根据权利要求3所述的音频处理方法，其特征在于，所述对所述前音频片段和所述后音频片段进行预处理，获得所述前音频片段对应的所述前频域帧序列以及所述后音频片段对应的所述后频域帧序列，包括：

5.根据权利要求3所述的音频处理方法，其特征在于，所述基于所述前频域帧序列构建所述前音频频域特征集合，以及基于所述后频域帧序列构建所述后音频频域特征集合，包括：

6.根据权利要求1所述的音频处理方法，其特征在于，所述将拼接后的音频频域特征集合输入至音频处理模型进行处理获得局部频域帧序列，包括：

基于所述解码特征集合生成目标音频频域特征集合；

7.根据权利要求6所述的音频处理方法，其特征在于，所述基于所述解码特征集合生成目标音频频域特征集合，包括：

8.根据权利要求7所述的音频处理方法，其特征在于，所述参考幅值通过如下方式确定：

9.根据权利要求4所述的音频处理方法，其特征在于，所述基于所述前音频片段对应的前频域帧序列、所述局部频域帧序列以及所述后音频片段对应的后频域帧序列生成用于替换所述待处理音频的目标音频，包括：

10.根据权利要求9所述的音频处理方法，其特征在于，所述基于所述前频域帧序列、所述局部频域帧序列和所述后频域帧生成目标全局频域帧序列，包括：

11.根据权利要求1所述的音频处理方法，其特征在于，所述音频处理模型通过如下方式训练：

12.根据权利要求11所述的音频处理方法，其特征在于，所述训练停止条件由所述初始音频处理模型的损失值确定；

13.一种音频处理装置，其特征在于，包括：

获取模块，被配置为获取包含丢失音频片段的待处理音频；

构建模块，被配置为在所述待处理音频中确定与所述丢失音频片段相邻的前音频片段和后音频片段，并构建所述前音频片段的前音频频域特征集合和所述后音频片段的后音频频域特征集合，其中所述前音频频域特征集合基于前频域帧、前分量和前复数构建，所述后音频频域特征集合基于后频域帧、后分量和后复数构建；

处理模块，被配置为将所述前音频频域特征集合和所述后音频频域特征集合进行拼接，并将拼接后的音频频域特征集合输入至音频处理模型进行处理获得局部频域帧序列，其中，所述音频处理模型采用复数深度神经网络构建，用于结合实部和虚部对拼接后的音频频域特征集合包含的频域帧序列进行预测；所述音频处理模型包含参考幅值，所述参考幅值用于提高音频质量；

14.一种计算设备，其特征在于，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，以实现权利要求1至12任意一项所述方法的步骤。

15.一种计算机可读存储介质，其特征在于，其存储有计算机指令，该指令被处理器执行时实现权利要求1至12任意一项所述方法的步骤。