CN113707168A

CN113707168A - 一种语音增强方法、装置、设备及存储介质

Info

Publication number: CN113707168A
Application number: CN202111031462.6A
Authority: CN
Inventors: 周振昆; 方磊; 方四安; 柳林; 徐承
Original assignee: Hefei Ustc Iflytek Co ltd
Current assignee: Hefei Ustc Iflytek Co ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-11-26

Abstract

本申请提出一种语音增强方法、装置、设备及存储介质，该方法包括：将带噪语音输入预先训练的复合式对抗增强网络模型，得到所述复合式对抗增强网络模型输出的语音增强结果，所述语音增强结果中至少包括增强语音；其中，所述复合式对抗增强网络模型对带噪语音进行语音增强处理得到的增强语音的声纹特征，接近于与带噪语音对应的干净语音的声纹特征。上述方法可以在对带噪语音进行语音增强的同时，降低语音增强造成的语音失真。

Description

一种语音增强方法、装置、设备及存储介质

技术领域

本申请涉及语音增强技术领域，具体涉及一种语音增强方法、装置、设备及存储介质。

背景技术

语音增强是指干净语音在现实生活中受到来自各种噪声干扰时，需要通过一定的方法将噪声滤除，以提升语音的质量和可懂度的技术。

对于说话人语音来说，其主要能量集中于低频范围(0Hz-1500Hz)，高频部分(大于1500Hz)包含的能量相对较少。尽管说话人语音中的高频部分能量较低，但是却包含了说话人音色、音调等重要的声纹信息。相对能量较高的低频部分，能量较低的高频内容更容易被噪声淹没。

常规的语音增强方案，通常是基于信号处理的语音增强方法和基于深度学习的语音增强算法，这些方法对高信噪比的语音信号进行增强的效果较好，但是对于低信噪比的语音信号，这些方法在对噪声进行去除时，会将语音信号的高频部分连同噪声一起去除，从而使语音信号丢失重要的声纹信息，造成听感上的语音失真。

发明内容

基于上述技术现状，本申请提出一种语音增强方法、装置、设备及存储介质，可以在对带噪语音进行语音增强的同时，降低语音增强造成的语音失真。

为了达到上述目的，本申请提出具体技术方案：

一种语音增强方法，包括：

将带噪语音输入预先训练的复合式对抗增强网络模型，得到所述复合式对抗增强网络模型输出的语音增强结果，所述语音增强结果中至少包括增强语音；

其中，所述复合式对抗增强网络模型对带噪语音进行语音增强处理得到的增强语音的声纹特征，接近于与带噪语音对应的干净语音的声纹特征。

可选的，所述语音增强结果中还包括音频增益，所述音频增益基于对带噪语音进行语音增强处理得到的增强语音与带噪语音在各采样点的幅度比值而确定；

所述复合式对抗增强网络模型对带噪语音进行语音增强处理得到的音频增益，接近于带噪语音对应的干净语音相对于该带噪语音的音频增益；

所述方法还包括：

根据所述语音增强结果，获取与输入的所述带噪语音对应的增强语音。

可选的，所述根据所述语音增强结果，获取与输入的所述带噪语音对应的增强语音，包括：

根据所述语音增强结果中的增强语音以及音频增益，计算得到与输入的所述带噪语音对应的增强语音。

可选的，所述复合式对抗增强网络模型，包括至少两个深度对抗增强模块，各个深度对抗增强模块依次串联连接，每个深度对抗增强模块分别用于进行语音增强处理，并且输出语音增强处理得到的增强语音。

可选的，所述复合式对抗增强网络包括依次串联的第一深度对抗增强模块、第二深度对抗增强模块和第三深度对抗增强模块；

其中，输入所述复合式对抗增强网络模型的带噪语音输入所述第一深度对抗增强模块，所述第三深度对抗增强模块的输出作为所述复合式对抗增强网络模型输出的语音增强结果；并且，所述第一深度对抗增强模块的输出语音的信噪比和输入语音的信噪比之间的差值，与所述第二深度对抗增强模块的输出语音的信噪比和输入语音的信噪比之间的差值相同。

可选的，所述第一深度对抗增强模块、所述第二深度对抗增强模块和所述第三深度对抗增强模块分别包括设定数量的多尺度残差单元。

对各个深度对抗增强模块输出的增强语音进行加权求和，得到第一增强结果；

根据所述带噪语音以及所述音频增益，计算得到第二增强结果；

根据所述第一增强结果和所述第二增强结果，计算得到与输入的所述带噪语音对应的增强语音。

可选的，所述复合式对抗增强网络模型的训练过程，包括：

获取带噪语音样本、该带噪语音样本对应的干净语音，以及基于该带噪语音样本和对应的干净语音确定的目标音频增益；

将所述带噪语音样本输入所述复合式对抗增强网络模型，得到所述复合式对抗增强网络模型输出的增强语音以及音频增益；

获取所述复合式对抗增强网络模型输出的增强语音的声纹特征，以及获取与该带噪语音样本对应的干净语音的声纹特征；

根据所述复合式对抗增强网络模型输出的增强语音以及该带噪语音样本对应的干净语音确定音频映射损失、根据所述复合式对抗增强网络模型输出的音频增益以及所述目标音频增益确定音频增益损失，以及，根据所述复合式对抗增强网络模型输出的增强语音的声纹特征以及与该带噪语音样本对应的干净语音的声纹特征确定声纹特征损失；

至少根据所述音频映射损失、所述音频增益损失以及所述声纹特征损失，对所述复合式对抗增强网络模型进行参数校正。

可选的，所述方法还包括：

通过将所述复合式对抗增强网络模型输出的增强语音与该带噪语音样本对应的干净语音进行对比，确定语音差异损失；

所述至少根据所述音频映射损失、所述音频增益损失以及所述声纹特征损失，对所述复合式对抗增强网络模型进行参数校正，包括：

根据所述音频映射损失、所述音频增益损失、所述声纹特征损失以及所述语音差异损失，对所述复合式对抗增强网络模型进行参数校正。

可选的，所述获取所述复合式对抗增强网络模型输出的增强语音的声纹特征，以及获取与该带噪语音样本对应的干净语音的声纹特征，包括：

分别将所述复合式对抗增强网络模型输出的增强语音，以及与该带噪语音样本对应的干净语音输入预先训练的声纹特征提取网络，得到所述复合式对抗增强网络模型输出的增强语音的声纹特征，以及与该带噪语音样本对应的干净语音的声纹特征；

其中，所述声纹特征提取网络通过从输入语音中提取说话人声纹特征并进行说话人识别训练得到。

可选的，所述通过将所述复合式对抗增强网络模型输出的增强语音与该带噪语音样本对应的干净语音进行对比，确定语音差异损失，包括：

利用预先训练的语音判别网络对所述复合式对抗增强网络模型输出的增强语音与该带噪语音样本对应的干净语音进行判别处理；

根据所述语音判别网络输出的判别结果，确定语音差异损失；

其中，所述语音判别网络具备对带噪语音以及与带噪语音对应的干净语音进行区分判别的能力。

可选的，所述复合式对抗增强网络包括依次串联的第一深度对抗增强模块、第二深度对抗增强模块和第三深度对抗增强模块；其中，输入所述复合式对抗增强网络模型的带噪语音输入所述第一深度对抗增强模块，所述第三深度对抗增强模块的输出作为所述复合式对抗增强网络模型输出的语音增强结果；

所述对所述复合式对抗增强网络模型进行参数校正，包括：

以所述第一深度对抗增强模块的输出语音的信噪比相对于其输入语音的信噪比提高第一预设值，以及，所述第二深度对抗增强模块的输出语音的信噪比相对于其输入语音的信噪比提高所述第一预设值为目标，对所述复合式对抗增强网络模型进行参数校正。

一种语音增强装置，包括：

语音增强单元，用于将带噪语音输入预先训练的复合式对抗增强网络模型，得到所述复合式对抗增强网络模型输出的语音增强结果，所述语音增强结果中至少包括增强语音；

一种语音增强设备，包括：

存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现上述的语音增强方法。

一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现上述的语音增强方法。

本申请提出的语音增强方法，借助预先训练的复合式对抗增强网络模型对带噪语音进行语音增强处理，得到增强语音。该复合式对抗增强网络模型，具备对带噪语音进行语音增强处理得到与带噪语音对应的增强语音的能力，并且，该模型对带噪语音进行语音增强处理得到的增强语音的声纹特征，接近于与带噪语音对应的干净语音的声纹特征。则，通过该复合式对抗增强网络模型对带噪语音进行处理，不仅可以达到对带噪语音进行语音增强的目的，而且可以更多地保留语音中的声纹信息，从而可以降低语音增强造成的语音失真。

尤其是在对低信噪比的带噪语音进行语音增强时，本申请实施例技术方案在对带噪语音进行语音增强的同时，还能够更充分地保留语音信号中的声纹信息，从而可以解决现有的语音增强方案对低信噪比的带噪语音进行语音增强时造成明显的语音失真的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一种语音增强方法的流程示意图；

图2是本申请实施例提供的复合式对抗增强网络模型的结构示意图；

图3是本申请实施例提供的深度对抗增强模块的结构示意图；

图4是本申请实施例提供的多尺度残差单元的结构示意图；

图5是本申请实施例提供的复合式对抗增强网络模型的训练过程示意图；

图6是本申请实施例提供的一种语音增强装置的结构示意图；

图7是本申请实施例提供的一种语音增强设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于语音增强技术领域，应用本申请实施例技术方案，能够对带噪语音进行增强得到更为清晰、干净的增强语音，并且，增强后的语音可以保留语音信号的高频部分，即，保留语音信号中的音色、音调等声纹信息。

现有的单通道语音增强算法主要分为基于信号处理的语音增强方法和基于深度学习的语音增强算法。基于信号处理的语音增强算法主要采用滤波等信号处理的方法进行降噪，由于很多不合理的假设的存在，如语音和噪声的相互独立假设、噪声符合平稳分布，限制了它们的性能上限，对非平稳噪声信号的抑制能力较弱；而基于深度学习的语音增强方法，通过有监督训练学习语音和噪声的统计特性，其降噪性能相比基于信号处理的语音增强算法有所提升。但是在低信噪比等复杂场景下，噪声和话音深度耦合，模型在对噪声进行去除时，通常会造成部分话音的丢失，带来语音失真。

具体而言，对于说话人语音来说，主要能量集中于低频范围(0Hz-1500Hz),高频部分(大于1500Hz)包含的能量相对较少。尽管说话人语音中的高频部分能量较低，但是却包含了说话人音色、音调等重要的声纹信息。相对能量较高的低频部分，能量较低的高频内容更容易被噪声淹没。

在低信噪比场景下，现有的语音增强方法会将语音的高频部分连同噪声一起去除，从而使语音高频部分丢失，损失了重要的说话人音色、音调等声纹信息，造成语音失真。

因此，现有的语音增强方法无法充分保留语音中的声纹信息，尤其是对低信噪比的带噪语音进行增强时，其很容易造成语音失真。

针对上述问题，本申请实施例提出一种语音增强方案，该方案在对带噪语音进行增强得到增强语音的同时，能够使得增强语音保留更多的声纹信息，从而可以降低语音增强造成语音失真，提高语音增强效果。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提出一种语音增强方法，参见图1所示，该方法包括：

S101、获取带噪语音。

具体的，上述的带噪语音，是指由干净语音和噪声混合组成的语音信号。本申请实施例提出的语音增强方法，用于对上述的带噪语音进行语音增强处理，滤除该带噪语音中的噪声成分，从而提高该语音的质量科可懂度。

上述的带噪语音，可以是从自然环境(包含噪声的环境)中采集语音信号得到的声音信号，也可以是通过对干净语音信号进行加噪处理得到的带噪语音信号。

S102、将带噪语音输入预先训练的复合式对抗增强网络模型，得到所述复合式对抗增强网络模型输出的语音增强结果。

本申请实施例提出的语音增强方法，具体是借助预先训练的复合式对抗增强网络模型，来对带噪语音进行语音增强处理，得到该复合式对抗增强网络模型输出的语音增强结果。在该语音增强结果中，至少包括了对带噪语音进行语音增强得到的增强语音，该增强语音即为从带噪语音中滤除噪声成分之后的语音信号。

作为本申请实施例的主要创新内容，上述的复合式对抗增强网络模型，不仅具备对带噪语音进行语音增强处理得到与带噪语音对应的增强语音的能力，更为重要的是，该复合式对抗增强网络模型被训练为，当其对带噪语音进行语音增强处理时，能够更加充分地保留语音信号中的声纹信息，使得对带噪语音进行语音增强处理得到的增强语音的声纹特征，接近于与带噪语音对应的干净语音的声纹特征。

其中，对带噪语音进行语音增强处理得到的增强语音的声纹特征，接近于与带噪语音对应的干净语音的声纹特征，具体可以是对带噪语音进行语音增强处理得到的增强语音的声纹特征，和带噪语音对应的干净语音的声纹特征之间的相似度大于设定的相似度阈值。为了使得该复合式对抗增强网络模型在语音增强过程中能够充分地保留语音信号中的声纹信息，该相似度阈值可以设置为一较高阈值，例如可以将相似度阈值设置为90％。

为了使得上述的复合式对抗增强网络模型对带噪语音进行语音增强处理得到的增强语音的声纹特征，接近于与带噪语音对应的干净语音的声纹特征，作为示例性的训练方式，该复合式对抗增强网络模型可以通过如下方式训练得到：

首先，对干净语音A进行加噪得到带噪语音B，使上述的复合式对抗增强网络模型对上述的带噪语音B进行语音增强处理，得到增强语音C。

然后，从干净语音A提取干净语音声纹特征，以及，从增强语音C中提取增强语音声纹特征。

最后，根据干净语音声纹特征和增强语音声纹特征计算确定声纹特征损失，以及根据干净语音A和增强语音C计算确定语音增强损失。以该声纹特征损失和语音增强损失共同作为损失函数，采用梯度下降方法对模型参数进行反向校正。

反复执行上述的训练过程，直至模型的语音增强损失和声纹特征损失都下降到各自对应的阈值范围，此时结束模型训练过程。

在上述的训练过程中，该复合式对抗增强网络模型不仅要提升语音增强的效果，还要提升对语音中的声纹特征的保留效果，从而使得经过上述训练的模型既能够取得满意的语音增强效果，还能够充分保留语音中的声纹特征，从而降低语音增强造成的语音失真。

基于上述训练得到的复合式对抗增强网络模型，本申请实施例在对带噪语音进行语音增强时，将带噪语音输入该复合式对抗增强网络模型，得到该复合式对抗增强网络模型输出的语音增强结果。则，基于该复合式对抗增强网络模型的上述功能，其得到的语音增强结果中的增强语音，不仅达到了对带噪语音进行语音增强的目的，并且该增强语音中更多地保留了带噪语音中的声纹信息，从而使得该增强语音的语音失真更低。

通过上述介绍可见，本申请实施例提出的语音增强方法，借助预先训练的复合式对抗增强网络模型对带噪语音进行语音增强处理，得到增强语音。该复合式对抗增强网络模型，具备对带噪语音进行语音增强处理得到与带噪语音对应的增强语音的能力，并且，该模型对带噪语音进行语音增强处理得到的增强语音的声纹特征，接近于与带噪语音对应的干净语音的声纹特征。则，通过该复合式对抗增强网络模型对带噪语音进行处理，不仅可以达到对带噪语音进行语音增强的目的，而且可以更多地保留语音中的声纹信息，从而可以降低语音增强造成的语音失真。

作为一种优选的实施方式，上述的复合式对抗增强网络模型对带噪语音进行语音增强得到的语音增强结果中，不仅包含增强语音，还包括音频增益。

其中，该音频增益基于对带噪语音进行语音增强处理得到的增强语音与带噪语音在各采样点的幅度比值而确定，即，该复合式对抗增强网络模型对带噪语音进行语音增强处理得到的音频增益，代表了语音增强后的语音与带噪语音在各采样点的幅值的比值。

正常情况下，干净语音与干净语音经过加噪得到的带噪语音在各采样点的比值是基本固定的，也就是干净语音与干净语音经过加噪得到的带噪语音的音频增益基本是固定的。因此，如果对带噪语音进行语音增强后的增强语音的音频增益，接近干净语音相对于带噪语音的音频增益，则可以说明对带噪语音进行语音增强后的增强语音接近于干净语音，也就是从另一方面表明了对带噪语音的语音增强效果较好，其语音失真较低。

基于上述思想，本申请实施例为上述的复合式对抗增强网络模型设置两个输出，一个是增强语音，另一个是音频增益。

在模型训练过程中，对干净语音A进行加噪得到带噪语音B，使上述的复合式对抗增强网络模型对上述的带噪语音B进行语音增强处理，得到增强语音C。

然后，从干净语音A提取干净语音声纹特征，以及，从增强语音C中提取增强语音声纹特征。并且，获取干净语音A相对于带噪语音B的音频增益，以及获取增强语音C相对于带噪语音B的音频增益。

最后，根据干净语音声纹特征和增强语音声纹特征计算确定声纹特征损失、根据干净语音A和增强语音C计算确定语音增强损失，以及根据干净语音A相对于带噪语音B的音频增益，以及获取增强语音C相对于带噪语音B的音频增益计算确定音频增益损失。以该声纹特征损失、语音增强损失和音频增益损失共同作为损失函数，采用梯度下降方法对模型参数进行反向校正。

经过上述训练后，该复合式对抗增强网络模型不仅能够对带噪语音进行语音增强得到增强语音，并且能够使增强语音中保留更多的声纹信息，更重要的是，该模型在训练过程中能够学习语音和噪声之间比例关系，能够有效减小增强语音的突变程度，降低语音失真，从而提升语音听感质量。

由于上述的复合式对抗增强网络模型的输出包括增强语音和音频增益两部分，因此，在得到该模型对带噪语音进行语音增强处理而输出的语音增强结果后，根据该语音增强结果，获取与输入该复合式对抗增强网络模型的带噪语音对应的增强语音。

示例性的，可以根据该语音增强结果中的增强语音以及音频增益，计算得到与输入的带噪语音对应的增强语音。

例如，由于音频增益基于增强语音与带噪语音在各采样点的幅度比值而确定，因此，根据带噪语音以及该模型输出的音频增益，能够计算得到增强语音。然后，利用计算得到的增强语音与复合式对抗增强网络模型输出的增强语音进行加权求和，得到与输入的带噪语音对应的增强语音。

作为一种可选的实施方式，本申请实施例上述的复合式对抗增强网络模型由至少两个深度对抗增强模块依次串联连接构成。其中，每个深度对抗增强模块分别用于进行语音增强处理，并且输出语音增强处理得到的增强语音。

示例性的，参见图2所示，本申请实施例上述的复合式对抗增强网络模型具体由三个依次串联的深度对抗增强模块构成，根据三者之间串联构成的级联关系，从前级到后级可分别命名为第一深度对抗增强模块、第二深度对抗增强模块和第三深度对抗增强模块。

参见图3所示，每个深度对抗增强模块分别由3层一维卷积和1层一维反卷积组成，卷积核大小分别为(32,1,1,16)，步长分别为(16,1,1,8)，采用ReLU激活函数和InstanceNorm规整。

同时，每个深度对抗增强模块均包含3个多尺度残差单元，如图4所示，每个多尺度残差单元分别由3个一维卷积和InstanceNorm规整和PReLU激活函数组成，3个一维卷积的步长均为1，卷积核大小分别为(1，8*2ⁿ，1)，即第二个卷积的卷积核大小是变化的，记为可变卷积，多尺度残差单元采用残差结构，将输出和本单元的输入相叠加，有利于在深层网络结算时保留数据的梯度信息。

每个深度对抗增强模块均输出增强语音output，其中，第三深度对抗增强模块不仅输出增强语音，同时采用了另外的一维卷积运算和解码步骤，得到预测的音频增益output3_gain。

基于上述的模型结构，当带噪语音输入上述的复合式对抗增强网络模型时，该带噪语音输入第一深度对抗增强模块，第一深度对抗增强模块输出的增强语音output1和带噪语音融合后输入第二深度对抗增强模块；第二深度对抗增强模块输出的增强语音output2和带噪语音融合后输入第三深度对抗增强模块；第三深度对抗增强模块输出增强语音output3和音频增益output3_gain，作为该复合式对抗增强网络模型输出的语音增强结果。

并且，该复合式对抗增强网络模型被训练为，其第一深度对抗增强模块的输出语音的信噪比和输入语音的信噪比之间的差值，与所述第二深度对抗增强模块的输出语音的信噪比和输入语音的信噪比之间的差值相同。也就是，第一深度对抗增强模块和第二深度对抗增强模块，能够使输入语音的信噪比提高相同数值。例如图2中所示，带噪语音经过第一深度对抗增强模块处理后，信噪比提高10dB，再经过第二深度对抗增强模块处理后，信噪比又提高10dB。基于该多级深度对抗增强模块的设计，该模型能够实现带噪语音信噪比的逐步提升，提升了模型对未知噪声的鲁棒性，可以降低语音增强带来的语音失真。

基于上述的多层级的深度对抗增强模块的设计，上述的复合式对抗增强网络模型输出的增强语音实际上是由各个深度对抗增强模块输出的增强语音组成的。

因此，上述的根据复合式对抗增强网络模型输出的语音增强结果，获取与输入的所述带噪语音对应的增强语音，具体可以通过执行如下步骤A1-A3实现：

A1、对各个深度对抗增强模块输出的增强语音进行加权求和，得到第一增强结果。

例如，假设图2所示的复合式对抗增强网络模型的各个深度对抗增强模块输出的增强语音分别为output1、output2、output3，则可以通过如下公式计算得到第一增强结果enh_1：

enh_1＝0.3*output1+0.3*output2+0.4*output3

A2、根据所述带噪语音以及所述音频增益，计算得到第二增强结果。

例如，假设复合式对抗增强网络模型输出的音频增益为output3_gain，则可以通过如下公式计算得到第二增强结果enh_2：

enh_2＝N_wav+log output3_gain

其中，表示带噪语音的原始采样数据。

A3、根据所述第一增强结果和所述第二增强结果，计算得到与输入的所述带噪语音对应的增强语音。

具体的，根据如下公式，计算得到与输入的带噪语音对应的增强语音EnH：

EnH＝0.5*enh_1+0.5*enh_2

即，增强语音EnH为对输入复合式对抗增强网络模型的带噪语音进行语音增强的最终增强结果。

下面对上述的复合式对抗增强网络模型的训练过程进行介绍。

具体的，上述的复合式对抗增强网络模型的训练，可以按照图5所示的过程，通过执行如下步骤B1-B5实现：

B1、获取带噪语音样本、该带噪语音样本对应的干净语音，以及基于该带噪语音样本和对应的干净语音确定的目标音频增益。

具体的，通过对干净语音input_clean进行加噪处理得到带噪语音，该带噪语音即可作为带噪语音样本input，用于模型训练。

根据如下干净语音input_clean和带噪语音样本input的幅值，根据如下公式可计算得到目标音频增益label_gain：

B2、将所述带噪语音样本输入所述复合式对抗增强网络模型，得到所述复合式对抗增强网络模型输出的增强语音以及音频增益。

具体的，将带噪语音样本input输入复合式对抗增强网络模型，得到增强语音output，以及音频增益output_gain。

B3、获取所述复合式对抗增强网络模型输出的增强语音的声纹特征，以及获取与该带噪语音样本对应的干净语音的声纹特征。

对复合式对抗增强网络模型输出的增强语音output和带噪语音样本input对应的干净语音input_clean分别进行声纹特征提取，得到增强语音output的声纹特征，以及干净语音input_clean的声纹特征。

示例性的，分别将复合式对抗增强网络模型输出的增强语音output，以及与该带噪语音样本input对应的干净语音input_clean输入预先训练的声纹特征提取网络，得到复合式对抗增强网络模型输出的增强语音output的声纹特征，以及与该带噪语音样本input对应的干净语音input_clean的声纹特征；

具体的，假设有N个说话人，采用时延深度神经网络(TDNN)训练声纹识别任务，基于交叉熵损失函数作为训练准则，进行声纹识别训练。在完成声纹识别训练后，以该网络的pooling层后的全连接层输出作为声纹特征，此时该网络即可作为声纹特征提取网络。

在上述的声纹特征提取网络的训练过程中，由于采用分类准则进行训练，因此提取的声纹特征具有较强的声纹表征能力，即对于语音信号中的高频信息有较好的区分性。

B4、根据所述复合式对抗增强网络模型输出的增强语音以及该带噪语音样本对应的干净语音确定音频映射损失、根据所述复合式对抗增强网络模型输出的音频增益以及所述目标音频增益确定音频增益损失，以及，根据所述复合式对抗增强网络模型输出的增强语音的声纹特征以及与该带噪语音样本对应的干净语音的声纹特征确定声纹特征损失。

具体的，计算复合式对抗增强网络模型输出的增强语音output以及该带噪语音样本input对应的干净语音input_clean之间的L1范数作为音频映射损失Loss_G_wav。

按照如下公式，计算复合式对抗增强网络模型输出的音频增益output_gain的均方误差，作为音频增益损失Loss_G_gain：

其中，N表示语音中的说话人总数。

按照如下公式，计算复合式对抗增强网络模型输出的增强语音output的声纹特征以及与该带噪语音样本input对应的干净语音input_clean的声纹特征的余弦距离，作为声纹特征损失Loss_vid：

其中，N表示语音中的说话人总数；v_i表示干净语音input_clean的声纹特征；v′_i表示增强语音output的声纹特征。

B5、至少根据所述音频映射损失、所述音频增益损失以及所述声纹特征损失，对所述复合式对抗增强网络模型进行参数校正。

具体的，采用梯度下降方法，对上述的复合式对抗增强网络模型的参数进行校正，使模型的音频映射损失、音频增益损失以及声纹特征损失分别下降。

重复上述的B1-B5的训练过程，直至模型各项损失均下降至相应的数值范围内时，结束模型训练过程。

进一步的，在上述B1-B5所示的模型训练过程的基础上，本申请实施例在执行步骤B4的同时，还执行如下步骤B6：

B6、通过将所述复合式对抗增强网络模型输出的增强语音与该带噪语音样本对应的干净语音进行对比，确定语音差异损失。

具体的，通过在语音层面对复合式对抗增强网络模型输出的增强语音output与带噪语音样本input对应的干净语音input_clean进行对比，确定两者之间的语音差异损失。

作为示例性的实现方式，本申请实施例利用预先训练的语音判别网络对复合式对抗增强网络模型输出的增强语音output与带噪语音样本input对应的干净语音input_clean进行判别处理；并根据所述语音判别网络输出的判别结果，确定语音差异损失；

语音判别网络对干净样本进行判断，判别语音的“真”、“假”。“真”是指样本为干净语音，“假”表示语音为复合式对抗增强网络模型输出的语音。干净样本的类别标签为1，而增强语音的类别标签为0。采用L2范数作为语音判别网络损失函数，损失函数分为两部分，首先，对于干净语音，

其中x_i代表真实干净语音，D(x_i)为语音判别网络的输出，N为样本个数。其次，对于复合式对抗增强网络模型输出的增强语音x′，将x′送入语音判别网络中进行类别判定，语音判别网络的损失

代表复合式对抗增强网络模型输出的增强语音。语音判别网络的总损失为：

通过对语音判别网络的不断训练，提升其对干净语音和增强语音的分辨能力。

基于上述训练得到的语音判别网络，在上述的复合式对抗增强网络模型的训练过程中，利用该语音判别网络对复合式对抗增强网络模型输出的增强语音output与带噪语音样本input对应的干净语音input_clean进行判别处理，并基于语音判别网络的判别结果，按照如下公式计算确定语音差异损失Loss_{G_D}：

即与上述的步骤B4和B6计算得到的各项损失函数，在执行步骤B5时，具体是根据所述音频映射损失、所述音频增益损失、所述声纹特征损失以及所述语音差异损失，对所述复合式对抗增强网络模型进行参数校正。

具体的，采用梯度下降方法，对上述的复合式对抗增强网络模型的参数进行校正，使模型的音频映射损失、音频增益损失、声纹特征损失以及语音差异损失分别下降。

在上述的训练过程中，同时考虑了复合式对抗增强网络模型输出的增强语音与干净语音在音频增益、声纹特征、语音相似度等各方面的区别，并基于这些区别对复合式对抗增强网络模型进行参数修正，由此可以保证经过训练的复合式对抗增强网络模型在进行语音增强时，能够使增强语音更加接近干净语音并且能够保留更多的声纹信息。

更进一步的，参见图2所示，上述的复合式对抗增强网络模型具体由依次串联的第一深度对抗增强模块、第二深度对抗增强模块和第三深度对抗增强模块构成。其中，输入复合式对抗增强网络模型的带噪语音输入第一深度对抗增强模块，第三深度对抗增强模块的输出作为复合式对抗增强网络模型输出的语音增强结果。

为了使得第一深度对抗增强模块的输出语音的信噪比和输入语音的信噪比之间的差值，与第二深度对抗增强模块的输出语音的信噪比和输入语音的信噪比之间的差值相同。

本申请实施例设定，在根据各项损失函数，对复合式对抗增强网络模型进行参数校正时，不仅以各项损失函数梯度下降为目标，还以第一深度对抗增强模块的输出语音的信噪比相对于其输入语音的信噪比提高第一预设值，以及，第二深度对抗增强模块的输出语音的信噪比相对于其输入语音的信噪比提高所述第一预设值为目标，对复合式对抗增强网络模型进行参数校正。经过上述训练，使得该复合式对抗增强网络模型能够逐步提高带噪语音信噪比，提升对未知噪声的鲁棒性，降低语音失真。

综合本申请实施例上述的复合式对抗增强网络模型的训练过程可以理解诶，本申请实施例引入声纹信息指导模型的语音增强过程，通过声纹约束，提升模型对高频信号成分的保护能力，从而降低语音失真。同时，该复合式对抗增强网络模型中设计了多尺度残差单元，可以提升对多尺度空间信息的利用，并结合递进学习和多任务学习方法，进一步提升语音听感，降低语音失真。并且，基于该复合式对抗增强网络模型的语音增强方法能够实现端到端的语音增强，从而减少特征提取等处理流程，便于工程实现。

与上述的语音增强方法相对应的，本申请实施例还提出一种语音增强装置，参见图6所示，该装置至少包括：

语音增强单元100，用于将带噪语音输入预先训练的复合式对抗增强网络模型，得到所述复合式对抗增强网络模型输出的语音增强结果，所述语音增强结果中至少包括增强语音；

其中，所述复合式对抗增强网络模型，具备对带噪语音进行语音增强处理得到与带噪语音对应的增强语音的能力，并且，该模型对带噪语音进行语音增强处理得到的增强语音的声纹特征，接近于与带噪语音对应的干净语音的声纹特征。

所述装置还包括：

语音处理单元，用于根据所述语音增强结果，获取与输入的所述带噪语音对应的增强语音。

可选的，所述复合式对抗增强网络模型的训练过程，包括：

可选的，所述复合式对抗增强网络模型的训练过程，还包括：

所述对所述复合式对抗增强网络模型进行参数校正，包括：

具体的，上述的语音增强装置的具体结构和相应的处理内容，请参见上述方法实施例的内容，此处不再赘述。

本申请另一实施例还提出一种语音增强设备，参见图7所示，该设备包括：

存储器200和处理器210；

其中，所述存储器200与所述处理器210连接，用于存储程序；

所述处理器210，用于通过运行所述存储器200中存储的程序，实现上述任一实施例公开的语音增强方法。

具体的，上述语音增强设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器(read-only memory，ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请实施例所提供的语音增强方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时，实现上述任一实施例提供的语音增强方法的各个步骤。

具体的，上述的语音增强设备的各个部分的具体工作内容，以及上述的存储介质上的计算机程序被处理器运行时的具体处理内容，均可以参见上述的语音增强方法的各个实施例的内容，此处不再赘述。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音增强方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述语音增强结果中还包括音频增益，所述音频增益基于对带噪语音进行语音增强处理得到的增强语音与带噪语音在各采样点的幅度比值而确定；

所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述语音增强结果，获取与输入的所述带噪语音对应的增强语音，包括：

4.根据权利要求2所述的方法，其特征在于，所述复合式对抗增强网络模型，包括至少两个深度对抗增强模块，各个深度对抗增强模块依次串联连接，每个深度对抗增强模块分别用于进行语音增强处理，并且输出语音增强处理得到的增强语音。

5.根据权利要求4所述的方法，其特征在于，所述复合式对抗增强网络包括依次串联的第一深度对抗增强模块、第二深度对抗增强模块和第三深度对抗增强模块；

6.根据权利要求5所述的方法，其特征在于，所述第一深度对抗增强模块、所述第二深度对抗增强模块和所述第三深度对抗增强模块分别包括设定数量的多尺度残差单元。

7.根据权利要求4所述的方法，其特征在于，所述根据所述语音增强结果，获取与输入的所述带噪语音对应的增强语音，包括：

8.根据权利要求2所述的方法，其特征在于，所述复合式对抗增强网络模型的训练过程，包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.根据权利要求8所述的方法，其特征在于，所述获取所述复合式对抗增强网络模型输出的增强语音的声纹特征，以及获取与该带噪语音样本对应的干净语音的声纹特征，包括：

11.根据权利要求9所述的方法，其特征在于，所述通过将所述复合式对抗增强网络模型输出的增强语音与该带噪语音样本对应的干净语音进行对比，确定语音差异损失，包括：

12.根据权利要求8所述的方法，其特征在于，所述复合式对抗增强网络包括依次串联的第一深度对抗增强模块、第二深度对抗增强模块和第三深度对抗增强模块；其中，输入所述复合式对抗增强网络模型的带噪语音输入所述第一深度对抗增强模块，所述第三深度对抗增强模块的输出作为所述复合式对抗增强网络模型输出的语音增强结果；

所述对所述复合式对抗增强网络模型进行参数校正，包括：

13.一种语音增强装置，其特征在于，包括：

14.一种语音增强设备，其特征在于，包括：

存储器和处理器；

所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至12中任意一项所述的语音增强方法。

15.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时，实现如权利要求1至12中任意一项所述的语音增强方法。