CN112289343A

CN112289343A - 音频修复方法、装置及电子设备和计算机可读存储介质

Info

Publication number: CN112289343A
Application number: CN202011171443.9A
Authority: CN
Inventors: 张斌
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2021-01-29
Anticipated expiration: 2040-10-28
Also published as: CN112289343B

Abstract

本申请公开了一种音频修复方法、装置及一种电子设备和计算机可读存储介质，该方法包括：获取待处理音频，提取待处理音频的时域特征和频域特征；对待处理音频的空白频域部分进行标记得到待处理音频的频域标记特征；将时域特征输入训练完成的时域波形修复生成器中，获得待处理音频的第一时域信号，将频域特征和频域标记特征输入训练完成的频域频谱修复生成器中，获得待处理音频的第一频域信号；将第一频域信号转换为第二时域信号，将第一时域信号和第二时域信号整合为目标时域信号，并基于目标时域信号得到目标音频。本申请提供的音频修复方法，不需要占用额外的带宽存储冗余信息，兼容性较好，提高了音频修复的准确性。

Description

音频修复方法、装置及电子设备和计算机可读存储介质

技术领域

本申请涉及音频处理技术领域，更具体地说，涉及音频修复方法、装置及电子设备和计算机可读存储介质。

背景技术

在实际应用中，由于网络传输和音频编解码原因使得一些歌曲存在音频片段丢失，造成音频中存在一些长空白片段，因此需要对存在长空白片段的音频进行修复。

在相关技术中，借鉴图像修复技术，可以采用前向纠错(FEC，Feedforward ErrorCorrection)方式，即在当前数据包中加入前一个数据包的冗余信息并进行传输，若存在丢失数据包，则可以通过临近数据包包含的冗余信息，恢复出丢失数据包内容。然而，编码冗余信息需要占用额外带宽，且存在编码器兼容问题。

另外，可以采用丢包补偿(PLC，Packet Loss Concealment)的方式，即在解码端根据已知语音帧预测丢失帧，该方式无需额外带宽，兼容性好。但是，经典PLC方案基于信号分析，通过对正常接收包的参数的复制或者调整，预测丢包帧的波形，处理能力比较弱，只能处理较短的数据帧，无法适用于长空白音频的修复。

可见，在实现本发明过程中，发明人发现相关技术中至少存在如下问题：需要占用额外带宽、兼容性较差。

发明内容

本申请的目的在于提供一种音频修复方法、装置及一种电子设备和一种计算机可读存储介质，不需要占用额外的带宽存储冗余信息，兼容性较好，同时提高了音频修复的准确性。

为实现上述目的，本申请第一方面提供了一种音频修复方法，包括：

获取待处理音频，提取所述待处理音频的时域特征和频域特征；

对所述待处理音频的空白频域部分进行标记得到所述待处理音频的频域标记特征；

将所述时域特征输入训练完成的时域波形修复生成器中，获得所述待处理音频的第一时域信号，将所述频域特征和所述频域标记特征输入训练完成的频域频谱修复生成器中，获得所述待处理音频的第一频域信号；

将所述第一频域信号转换为第二时域信号，将所述第一时域信号和所述第二时域信号整合为目标时域信号，并基于所述目标时域信号得到目标音频。

为实现上述目的，本申请第二方面提供了一种音频修复装置，包括：

第一提取模块，用于获取待处理音频，提取所述待处理音频的时域特征和频域特征；

标记模块，用于对所述待处理音频的空白频域部分进行标记得到所述待处理音频的频域标记特征；

输入模块，用于将所述时域特征输入训练完成的时域波形修复生成器中，获得所述待处理音频的第一时域信号，将所述频域特征和所述频域标记特征输入训练完成的频域频谱修复生成器中，获得所述待处理音频的第一频域信号；

整合模块，用于将所述第一频域信号转换为第二时域信号，将所述第一时域信号和所述第二时域信号整合为目标时域信号，并基于所述目标时域信号得到目标音频。

为实现上述目的，本申请第三方面提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述音频修复方法的步骤。

为实现上述目的，本申请第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述音频修复方法的步骤。

通过以上方案可知，本申请提供的一种音频修复方法，包括：获取待处理音频，提取所述待处理音频的时域特征和频域特征；对所述待处理音频的空白频域部分进行标记得到所述待处理音频的频域标记特征；将所述时域特征输入训练完成的时域波形修复生成器中，获得所述待处理音频的第一时域信号，将所述频域特征和所述频域标记特征输入训练完成的频域频谱修复生成器中，获得所述待处理音频的第一频域信号；将所述第一频域信号转换为第二时域信号，将所述第一时域信号和所述第二时域信号整合为目标时域信号，并基于所述目标时域信号得到目标音频。

本申请提供的音频修复方法，引入了深度学习方法，分别构建时域波形修复生成器和频域频谱修复生成器，利用时域波形修复生成器和频域频谱修复生成器进行双分支的预测。具体的，利用时域波形修复生成器预测待处理音频的第一时域信号，利用频域频谱修复生成器预测待处理音频的第一频域信号，将第一频域信号转换为第二时域信号，并将第一时域信号和第二时域信号整合为目标时域信号，以得到待处理音频的真实音频。由此可见，本申请提供的音频修复方法，不需要占用额外的带宽存储冗余信息，兼容性较好，通过时域和频域的双分支预测，加强了时域轴和频域轴的相关性，使修补的空缺音频片段更加真实自然，充分利用历史信息，预测出丢失包的语音数据，修复还原后而不引入额外杂音，提高了音频修复的准确性。本申请还公开了一种音频修复装置及一种电子设备和一种计算机可读存储介质，同样能实现上述技术效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1为本申请实施例提供的一种音频修复系统的架构图；

图2为本申请实施例提供的第一种音频修复方法的流程图；

图3为本申请实施例提供的第二种音频修复方法的流程图；

图4为本申请实施例提供的一种时域波形修复生成器和频域频谱修复生成器的训练过程的示意图；

图5为本申请实施例提供的一种音频修复装置的结构图；

图6为本申请实施例提供的一种电子设备的结构图。

具体实施方式

随着深度学习的发展，其可以应用于解决连续丢包补偿的问题。一般地，基于谱回归或者生成模型的方法通过网络，逐点地预测频谱或者时域信号。比如，在16kHz采样率，一个20ms帧的数据等效于320个样本点。

长空白音频修复主要通过技术手段还原音频中的缺失部分，本申请的申请人经研究发现，单独从时域上出发，原始长空白音频的结构性规律太差，容易向修复的音频引入噪音，单独从频域上出发，可以将STFT(中文全称：短时傅里叶变换，英文全称：short-timeFourier transform或short-term Fourier transform)频谱模当成二维单通道图像，针对空白缺失部分进行填补修复，但是STFT频谱模实际上在时间轴和频率轴存在时间相关行。因此，在本申请中，利用时域波形修复生成器和频域频谱修复生成器进行双分支的预测，加强了时域轴和频域轴的相关性，使修补的空缺音频片段更加真实自然，充分利用历史信息，预测出丢失包的语音数据，修复还原后而不引入额外杂音，提高了音频修复的准确性。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解本申请提供的音频修复方法，下面对其使用的系统进行介绍。参见图1，其示出了本申请实施例提供的一种音频修复系统的架构图，如图1所示，包括音频采集设备10和服务器20。

音频采集设备10用于采集待处理音频，服务器20用于对待处理音频进行时域和频域的双分支预测，完成待处理音频的音频修复。

当然，音频修复系统还可以客户端30，可以包括PC(中文全称：个人计算机，英文全称：Personal Computer)等固定终端和手机等移动终端，客户端30上可以设置扬声器，用于输出修复完成的真实音频。

本申请实施例公开了一种音频修复方法，不需要占用额外的带宽存储冗余信息，兼容性较好，同时提高了音频修复的准确性。

参见图2，本申请实施例提供的第一种音频修复方法的流程图，如图2所示，包括：

S101：获取待处理音频，提取所述待处理音频的时域特征和频域特征；

S102：对所述待处理音频的空白频域部分进行标记得到所述待处理音频的频域标记特征；

本实施例的执行主体为上述音频修复系统中的服务器，目的为对待处理音频进行修复，得到其对应的真实音频。待处理音频由于网络传输和音频编解码原因包含一段空白部分，该空白部分的时间跨度大于预设值，即待处理音频为长空白音频，因此需要利用时域波形修复生成器和频域频谱修复生成器进行双分支的预测，进而进行长空白音频的修复。

在具体实施中，首先提取待处理音频的时域特征和频域特征，频域特征可以由时域特征经过STFT变换得到，具体的，时域特征为a_t,f，频域特征为A_t,f，其复数形式表示为：

S103：将所述时域特征输入训练完成的时域波形修复生成器中，获得所述待处理音频的第一时域信号，将所述频域特征和所述频域标记特征输入训练完成的频域频谱修复生成器中，获得所述待处理音频的第一频域信号；

在具体实施中，分别构建时域波形修复生成器(waveform inpaintinggenerator)和频域频谱修复生成器(spectrogram impainting generator)，形成双分支的修复生成器。可以理解的是，上述双分支的修复生成器均可以基于encoder-decoder的Hourglass-like网络生成模型结构进行训练，该网络生成模型结构主要用来学习语音信号高度结构化的特征。

在本步骤中，将待处理音频的时域特征输入训练完成的时域波形修复生成器中进行预测得到第一时域信号，将待处理音频的频域特征输入训练完成的频域频谱修复生成器中进行预测得到第一频域信号。

S104：将所述第一频域信号转换为第二时域信号，将所述第一时域信号和所述第二时域信号整合为目标时域信号，并基于所述目标时域信号得到目标音频。

在本步骤中，利用声码器将频域频谱修复生成器预测得到的第一频域信号转换为第二时域信号，作为一种可行的实施方式，将所述第一频域信号转换为第二时域信号，包括：利用Griffin-Lim算法将所述第一频域信号转换为第二时域信号。Griffin-Lim是一种声码器，常用于语音合成，即将语音合成系统生成的声学参数转换成语音波形，这种声码器不需要训练、不需要预知相位谱，而是通过帧与帧之间的关系估计相位信息，从而重建语音波形。

第一时域信号和第二时域信号可以整合为目标时域信号，该目标时域信号即为预测得到的真实音频的时域信号。作为一种可行的实施方式，将所述第一时域信号和所述第二时域信号整合为目标时域信号，包括：将所述第一时域信号和所述第二时域信号进行加权平均得到所述目标时域信号。在具体实施中，预设第一时域信号与第二时域信号对应的权重，基于各自的权重将第一时域信号和第二时域信号进行加权平均得到目标时域信号，加权平均有利于平滑信号，防止突变。

基于上述目标时域信号可以得到待处理音频的真实音频，即目标音频。可以理解的是，时域信号记录了声音能量随时间的强弱变化，因此，基于目标时域信号的指示将能量按照时序恢复出来，即可得到对应的目标音频。此处可以利用音频解码器将数字音频信息即目标时域信号，转换成模拟音频信号即目标音频输出，一般来说，音频解码器分为两类，一类是用于Hi-Fi(High-Fidelity)听音的纯音频解码器，另一类即AV(Adult Video)影音解码器。

通过时域和频域的双分支预测，加强了时域轴和频域轴的相关性，使修补的空缺音频片段更加真实自然，提高歌曲音质。同时针对一些由网络传输要求的需求，由于网络不稳定导致少量数据包丢失，从而造成音频片段缺失，使用该技术方案可以将丢失的片段还原，减少音频片段丢失导致音质降低，提升音频音质。

本申请实施例提供的音频修复方法，引入了深度学习方法，分别构建时域波形修复生成器和频域频谱修复生成器，利用时域波形修复生成器和频域频谱修复生成器进行双分支的预测。具体的，利用时域波形修复生成器预测待处理音频的第一时域信号，利用频域频谱修复生成器预测待处理音频的频域信号，将频域信号转换为第二时域信号，并将第一时域信号和第二时域信号整合为目标时域信号，以得到待处理音频的真实音频。由此可见，本申请实施例提供的音频修复方法，不需要占用额外的带宽存储冗余信息，兼容性较好，通过时域和频域的双分支预测，加强了时域轴和频域轴的相关性，使修补的空缺音频片段更加真实自然，充分利用历史信息，预测出丢失包的语音数据，修复还原后而不引入额外杂音，提高了音频修复的准确性。

下面介绍时域波形修复生成器和频域频谱修复生成器的训练方法，具体的：

参见图3，本申请实施例提供的第二种音频修复方法的流程图，如图3所示，包括：

S201：获取训练空白音频和所述训练空白音频对应的训练真实音频；

S202：提取所述训练空白音频的训练时域特征和训练频域特征，并对所述训练空白音频的空白频域部分进行标记得到所述训练空白音频的训练频域标记特征；

本实施例的执行主体为上述音频修复系统中的服务器，目的为构建时域波形修复生成器和频域频谱修复生成器。在具体实施中，首先获取训练空白音频和该训练空白音频对应的真实音频，即训练真实音频。其次提取训练空白音频的时域特征和频域特征作为训练时域特征和训练频域特征，并对训练空白音频的空白频域部分进行标记得到训练频域标记特征。具体的特征提取和特征标记过程与上一实施例介绍的过程类似，在此不再赘述。

S203：利用所述训练时域特征和所述训练真实音频的时域信号训练神经网络模型得到训练完成的时域波形修复生成器，利用所述训练频域特征、所述训练频域标记特征和所述训练真实音频的频域信号训练神经网络模型得到训练完成的频域频谱修复生成器。

在具体实施中，利用训练时域特征和训练真实音频的时域信号训练神经网络模型得到训练完成的时域波形修复生成器，利用训练频域特征、训练频域标记特征和训练真实音频的频域信号训练神经网络模型得到训练完成的频域频谱修复生成器。此处的神经网络模型均可以为encoder-decoder的Hourglass-like网络生成模型。

作为一种优选实施方式，将所述训练时域特征和所述训练真实音频的时域信号输入时域波形修复生成器中进行训练，直至时域损失函数和时域感知损失函数收敛，得到训练完成的时域波形修复生成器，将所述训练频域特征、所述训练频域标记特征和所述训练真实音频的频域信号输入频域频谱修复生成器中进行训练，直至频域感知损失函数收敛，得到训练完成的频域频谱修复生成器，包括：将所述训练时域特征输入时域波形修复生成器中得到第三时域信号，将所述训练频域特征输入频域频谱修复生成器中得到第二频域信号；将所述第三时域信号转换为第三频域信号，将所述第二频域信号经过傅里叶变换转换为第四时域信号；将所述第三时域信号和所述第四时域信号整合为整合时域信号，将所述第二频域信号和所述第三频域信号整合为整合频域信号；利用时域损失函数和/或时域感知损失函数计算所述整合时域信号与所述训练真实音频的时域信号之间的第一差异，利用频域感知损失函数计算所述整合频域信号与所述训练真实音频的频域信号之间的第二差异；调整所述时域波形修复生成器和所述频域频谱修复生成器中的参数，直至所述第一差异和所述第二差异满足预设条件，得到训练完成的时域波形修复生成器和训练完成的频域频谱修复生成器。

需要说明的是，在训练过程中，除了使用时域损失函数来最小化长空白音频和真实ground-truth音频的差异，还可以使用感知损失函数(perceptual loss)，该感知损失函数既可以作用于时域，也可以作用于频域。作用于时域时称之为时域感知损失函数，作用于频域时称之为频域感知损失函数。

时域波形修复生成器和频域频谱修复生成器的训练过程如图4所示，提取训练空白音频的训练时域特征a_t,f和训练频域特征A_t,f，训练频域特征A_t,f可以由训练时域特征a_t,f经过STFT变换得到，将训练时域特征a_t,f输入时域波形修复生成器后得到时域信号o_t1，将训练频域特征A_t,f输入频域频谱修复生成器后得到频域信号O_t1，时域信号o_t1经过STFT变换得到频域信号O_t2，频域信号O_t1经过Griffin-Lim算法转换为时域信号o_t2，时域信号o_t1和时域信号o_t2加权平均后得到时域信号o_t，频域信号O_t1和频域信号O_t2加权平均后得到频域信号O_t。上述训练空白音频对应的训练真实音频的时域信号为o_g，经STFT变换得到训练真实音频的频域信号O_g。经过不断的训练，即不断调整时域波形修复生成器和频域频谱修复生成器中的参数，利用时域损失函数L_l1loss和时域感知损失函数L_{t_perc}可以使得时域信号o_t无限接近于时域信号o_g，利用频域感知损失函数L_{f_perc}可以使得时域信号O_t无限接近于时域信号O_g。

下面介绍训练时域波形修复生成器的过程中使用到的损失函数，即上述第一差异的计算方法，具体的，利用时域损失函数计算第一差异的方案为：对所述训练空白音频的空白时域部分进行标记得到时域标记特征；计算所述第三时域信号与第五时域信号的差值的绝对值，并将所述时域标记特征与所述绝对值的乘积确定为所述第一差异；其中，所述第五时域信号为所述训练真实音频的时域信号。

在具体实施中，对训练空白音频的空白时域部分进行标记得到时域标记特征，记为a_mask(t,f)，其中，a_mask(t,f)＝1的部分为空白时域部分，a_mask(t,f)＝0的部分为非空白时域部分。

时域损失函数可以表示为：

L_l1loss＝|a_mask(t,f)(o_t-o_g)|

其中，o_t为时域波形修复生成器对训练空白音频预测得到的时域信号，即第三时域信号，o_g为训练真实音频的时域信号，即第五时域信号。在使用时域损失函数训练时域波形修复生成器时可以采用上述公式计算第一差异。

利用时域感知损失函数计算第一差异的方案为：将所述第三时域信号输入深度时域特征提取模型得到第一深度时域特征，将所述第五时域信号输入所述深度时域特征提取模型得到第二深度时域特征，并将所述第一深度时域特征与所述第二深度时域特征的差值的绝对值确定为所述第一差异。

在具体实施中，为了提高构建的时域感知损失函数的准确度，提升时域波形修复生成器的训练效果，利用深度时域特征提取模型提取深度时域特征辅助训练，此处的深度时域特征提取模型可以为VGGish网络。使用预训练完成的深度时域特征提取模型提取深度时域特征进行时域损失函数辅助训练，可以使修复的音频信号更加自然可靠。具体的，将时域波形修复生成器对训练空白音频预测得到的时域信号和训练真实音频的时域信号分别输入深度时域特征提取模型中，分别得到第一深度时域特征和第二深度时域特征，第一深度时域特征与第二深度时域特征的差值的绝对值即为时域感知损失函数，可以表示为：

L_{t_perc}＝|φ(o_t)-φ(o_g)|

其中，φ为训练完成的深度时域特征提取模型。在使用时域感知损失函数训练时域波形修复生成器时可以采用上述公式进行计算。

可以理解的是，在使用时域损失函数和时域感知损失函数训练时域波形修复生成器时，可以采用上述两个公式分别计算第一差异。

下面介绍训练频域频谱修复生成器的过程中使用到的损失函数，即上述第二差异的计算方法，具体的，所述利用频域感知损失函数计算所述整合频域信号与所述训练真实音频的频域信号之间的第二差异，包括：在训练所述频域频谱修复生成器的过程中，将第二频域信号输入深度频域特征提取模型得到第一深度频域特征，将第三频域信号输入所述深度频域特征提取模型得到第二深度频域特征，并将所述第一深度频域特征与所述第二深度频域特征的差值的绝对值确定为所述第二差异。

在具体实施中，为了提高构建的频域感知损失函数的准确度，提升频域频谱修复生成器的训练效果，利用深度频域特征提取模型提取深度频域特征辅助训练，此处的深度频域特征提取模型可以为VGGish网络。使用预训练完成的深度频域特征提取模型提取深度频域特征进行训练，可以使修复的音频信号更加自然可靠。具体的，将频域波形修复生成器对训练空白音频预测得到的频域信号和训练真实音频的频域信号分别输入深度频域特征提取模型中，分别得到第一深度频域特征和第二深度频域特征，第一深度频域特征与第二深度频域特征的差值的绝对值即为频域感知损失函数，表示为：

其中，

为训练完成的深度频域特征提取模型，O_t为频域波形修复生成器对训练空白音频预测得到的频域信号，即第二频域信号，O_g为训练真实音频的频域信号，即第三频域信号，其可以通过训练真实音频的时域信号o_g经STFT变换得到。

下面对本申请实施例提供的一种音频修复装置进行介绍，下文描述的一种音频修复装置与上文描述的一种音频修复方法可以相互参照。

参见图5，本申请实施例提供的一种音频修复装置的结构图，如图5所示，包括：

第一提取模块100，用于获取待处理音频，提取所述待处理音频的时域特征和频域特征；

标记模块200，用于对所述待处理音频的空白频域部分进行标记得到所述待处理音频的频域标记特征；

输入模块300，用于将所述时域特征输入训练完成的时域波形修复生成器中，获得所述待处理音频的第一时域信号，将所述频域特征和所述频域标记特征输入训练完成的频域频谱修复生成器中，获得所述待处理音频的第一频域信号；

整合模块400，用于将所述第一频域信号转换为第二时域信号，将所述第一时域信号和所述第二时域信号整合为目标时域信号，并基于所述目标时域信号得到目标音频。

本申请实施例提供的音频修复装置，引入了深度学习方法，分别构建时域波形修复生成器和频域频谱修复生成器，利用时域波形修复生成器和频域频谱修复生成器进行双分支的预测。具体的，利用时域波形修复生成器预测待处理音频的第一时域信号，利用频域频谱修复生成器预测待处理音频的频域信号，将频域信号转换为第二时域信号，并将第一时域信号和第二时域信号整合为目标时域信号，以得到待处理音频的真实音频。由此可见，本申请实施例提供的音频修复装置，不需要占用额外的带宽存储冗余信息，兼容性较好，通过时域和频域的双分支预测，加强了时域轴和频域轴的相关性，使修补的空缺音频片段更加真实自然，充分利用历史信息，预测出丢失包的语音数据，修复还原后而不引入额外杂音，提高了音频修复的准确性。

在上述实施例的基础上，作为一种优选实施方式，还包括：

获取模块，用于获取训练空白音频和所述训练空白音频对应的训练真实音频；

第二提取模块，用于提取所述训练空白音频的训练时域特征和训练频域特征，并对所述训练空白音频的空白频域部分进行标记得到所述训练空白音频的训练频域标记特征；

训练模块，用于利用所述训练时域特征和所述训练真实音频的时域信号训练神经网络模型得到训练完成的时域波形修复生成器，利用所述训练频域特征、所述训练频域标记特征和所述训练真实音频的频域信号训练神经网络模型得到训练完成的频域频谱修复生成器。

在上述实施例的基础上，作为一种优选实施方式，所述训练模块具体为将所述训练时域特征和所述训练真实音频的时域信号输入时域波形修复生成器中进行训练，直至时域损失函数和时域感知损失函数收敛，得到训练完成的时域波形修复生成器，将所述训练频域特征、所述训练频域标记特征和所述训练真实音频的频域信号输入频域频谱修复生成器中进行训练，直至频域感知损失函数收敛，得到训练完成的频域频谱修复生成器的模块。

在上述实施例的基础上，作为一种优选实施方式，所述训练模块包括：

输入单元，用于将所述训练时域特征输入时域波形修复生成器中得到第三时域信号，将所述训练频域特征输入频域频谱修复生成器中得到第二频域信号；

转换单元，用于将所述第三时域信号转换为第三频域信号，将所述第二频域信号经过傅里叶变换转换为第四时域信号；

整合单元，用于将所述第三时域信号和所述第四时域信号整合为整合时域信号，将所述第二频域信号和所述第三频域信号整合为整合频域信号；

第一计算单元，用于利用时域损失函数和/或时域感知损失函数计算所述整合时域信号与所述训练真实音频的时域信号之间的第一差异；

第二计算单元，用于利用频域感知损失函数计算所述整合频域信号与所述训练真实音频的频域信号之间的第二差异；

调整单元，用于调整所述时域波形修复生成器和所述频域频谱修复生成器中的参数，直至所述第一差异和所述第二差异满足预设条件，得到训练完成的时域波形修复生成器和训练完成的频域频谱修复生成器。

在上述实施例的基础上，作为一种优选实施方式，所述第一计算单元包括：

第一确定子单元，用于对所述训练空白音频的空白时域部分进行标记得到时域标记特征，计算所述第三时域信号与第五时域信号的差值的绝对值，并将所述时域标记特征与所述绝对值的乘积确定为所述第一差异；其中，所述第五时域信号为所述训练真实音频的时域信号；

和/或，第二确定子单元，用于将所述第三时域信号输入深度时域特征提取模型得到第一深度时域特征，将所述第五时域信号输入所述深度时域特征提取模型得到第二深度时域特征，并将所述第一深度时域特征与所述第二深度时域特征的差值的绝对值确定为所述第一差异。

在上述实施例的基础上，作为一种优选实施方式，所述第二计算单元具体用于在训练所述频域频谱修复生成器的过程中，将第二频域信号输入深度频域特征提取模型得到第一深度频域特征，将第三频域信号输入所述深度频域特征提取模型得到第二深度频域特征，并将所述第一深度频域特征与所述第二深度频域特征的差值的绝对值确定为所述第二差异。

在上述实施例的基础上，作为一种优选实施方式，所述整合模块400包括：

转换单元，用于利用Griffin-Lim算法将所述第一频域信号转换为第二时域信号；

整合单元，用于将所述第一时域信号和所述第二时域信号整合为目标时域信号，并基于所述目标时域信号得到所述待处理音频的真实音频。

在上述实施例的基础上，作为一种优选实施方式，所述整合单元具体为将所述第一时域信号和所述第二时域信号进行加权平均得到所述目标时域信号，并基于所述目标时域信号得到所述待处理音频的真实音频的单元。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本申请还提供了一种电子设备，参见图6，本申请实施例提供的一种电子设备60的结构图，如图6所示，可以包括处理器61和存储器62。

其中，处理器61可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器61可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器61也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器61可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器61还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器62可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器62还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器62至少用于存储以下计算机程序621，其中，该计算机程序被处理器61加载并执行之后，能够实现前述任一实施例公开的由服务器侧执行的音频修复方法中的相关步骤。另外，存储器62所存储的资源还可以包括操作系统622和数据623等，存储方式可以是短暂存储或者永久存储。其中，操作系统622可以包括Windows、Unix、Linux等。

在一些实施例中，电子设备60还可包括有显示屏63、输入输出接口64、通信接口65、传感器66、电源67以及通信总线68。

当然，图6所示的电子设备的结构并不构成对本申请实施例中电子设备的限定，在实际应用中电子设备可以包括比图6所示的更多或更少的部件，或者组合某些部件。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述任一实施例服务器所执行的音频修复方法的步骤。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种音频修复方法，其特征在于，包括：

2.根据权利要求1所述音频修复方法，其特征在于，还包括：

获取训练空白音频和所述训练空白音频对应的训练真实音频；

提取所述训练空白音频的训练时域特征和训练频域特征，并对所述训练空白音频的空白频域部分进行标记得到所述训练空白音频的训练频域标记特征；

利用所述训练时域特征和所述训练真实音频的时域信号训练神经网络模型得到训练完成的时域波形修复生成器，利用所述训练频域特征、所述训练频域标记特征和所述训练真实音频的频域信号训练神经网络模型得到训练完成的频域频谱修复生成器。

3.根据权利要求2所述音频修复方法，其特征在于，所述利用所述训练时域特征和所述训练真实音频的时域信号训练神经网络模型得到训练完成的时域波形修复生成器，利用所述训练频域特征、所述训练频域标记特征和所述训练真实音频的频域信号训练神经网络模型得到训练完成的频域频谱修复生成器，包括：

将所述训练时域特征和所述训练真实音频的时域信号输入时域波形修复生成器中进行训练，直至时域损失函数和时域感知损失函数收敛，得到训练完成的时域波形修复生成器，将所述训练频域特征、所述训练频域标记特征和所述训练真实音频的频域信号输入频域频谱修复生成器中进行训练，直至频域感知损失函数收敛，得到训练完成的频域频谱修复生成器。

4.根据权利要求3所述音频修复方法，其特征在于，将所述训练时域特征和所述训练真实音频的时域信号输入时域波形修复生成器中进行训练，直至时域损失函数和时域感知损失函数收敛，得到训练完成的时域波形修复生成器，将所述训练频域特征、所述训练频域标记特征和所述训练真实音频的频域信号输入频域频谱修复生成器中进行训练，直至频域感知损失函数收敛，得到训练完成的频域频谱修复生成器，包括：

将所述训练时域特征输入时域波形修复生成器中得到第三时域信号，将所述训练频域特征输入频域频谱修复生成器中得到第二频域信号；

将所述第三时域信号转换为第三频域信号，将所述第二频域信号经过傅里叶变换转换为第四时域信号；

将所述第三时域信号和所述第四时域信号整合为整合时域信号，将所述第二频域信号和所述第三频域信号整合为整合频域信号；

利用时域损失函数和/或时域感知损失函数计算所述整合时域信号与所述训练真实音频的时域信号之间的第一差异；

利用频域感知损失函数计算所述整合频域信号与所述训练真实音频的频域信号之间的第二差异；

调整所述时域波形修复生成器和所述频域频谱修复生成器中的参数，直至所述第一差异和所述第二差异满足预设条件，得到训练完成的时域波形修复生成器和训练完成的频域频谱修复生成器。

5.根据权利要求4所述音频修复方法，其特征在于，所述利用时域损失函数和/或时域感知损失函数计算所述整合时域信号与所述训练真实音频的时域信号之间的第一差异，包括：

对所述训练空白音频的空白时域部分进行标记得到时域标记特征，计算所述第三时域信号与第五时域信号的差值的绝对值，并将所述时域标记特征与所述绝对值的乘积确定为所述第一差异；其中，所述第五时域信号为所述训练真实音频的时域信号；

和/或，将所述第三时域信号输入深度时域特征提取模型得到第一深度时域特征，将所述第五时域信号输入所述深度时域特征提取模型得到第二深度时域特征，并将所述第一深度时域特征与所述第二深度时域特征的差值的绝对值确定为所述第一差异。

6.根据权利要求4所述音频修复方法，其特征在于，所述利用频域感知损失函数计算所述整合频域信号与所述训练真实音频的频域信号之间的第二差异，包括：

在训练所述频域频谱修复生成器的过程中，将第二频域信号输入深度频域特征提取模型得到第一深度频域特征，将第三频域信号输入所述深度频域特征提取模型得到第二深度频域特征，并将所述第一深度频域特征与所述第二深度频域特征的差值的绝对值确定为所述第二差异。

7.根据权利要求1所述音频修复方法，其特征在于，将所述第一频域信号转换为第二时域信号，包括：

利用Griffin-Lim算法将所述第一频域信号转换为第二时域信号。

8.根据权利要求1所述音频修复方法，其特征在于，将所述第一时域信号和所述第二时域信号整合为目标时域信号，包括：

将所述第一时域信号和所述第二时域信号进行加权平均得到所述目标时域信号。

9.一种音频修复装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至8任一项所述音频修复方法的步骤。