CN113593594A

CN113593594A - 语音增强模型的训练方法和设备及语音增强方法和设备

Info

Publication number: CN113593594A
Application number: CN202111018634.6A
Authority: CN
Inventors: 陈联武; 张晨; 张旭; 郑羲光; 任新蕾
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-11-02
Anticipated expiration: 2041-09-01
Also published as: CN113593594B

Abstract

本公开提供了一种语音增强模型的训练方法和设备及语音增强方法和设备。所述语音增强模型包括共享特征网络和多任务降噪网络，所述多任务降噪网络包括多个降噪网络，所述训练方法包括：获取包括干净语音信号和带噪语音信号的训练样本；将所述带噪语音信号的信息输入所述共享特征网络，得到所述带噪语音信号对应的特征；将所述特征分别输入所述多个降噪网络中的每个降噪网络，得到所述多个降噪网络分别预测的增强语音信号的信息；根据所述多个降噪网络分别预测的增强语音信号的信息和所述干净语音信号，计算所述语音增强模型的损失函数；通过根据所述损失函数调整所述共享特征网络和所述多个降噪网络的参数，对所述语音增强模型进行训练。

Description

语音增强模型的训练方法和设备及语音增强方法和设备

技术领域

本公开总体说来涉及音频技术领域，更具体地讲，涉及一种语音增强模型的训练方法和设备、语音增强方法和设备。

背景技术

随着深度学习技术的快速发展，近年来基于神经网络的语音增强技术也在不断进步。通过大规模的数据训练，当前神经网络能够很好地从带噪语音信号中提取出干净语音信号。

短视频已经成为当今社会人们获取信息和休闲娱乐的主要方式。在短视频的内容制作过程中，能否很好地完成语音降噪，也成为影响用户体验的一个重要因素。

发明内容

本公开的示例性实施例在于提供一种语音增强模型的训练方法和设备及语音增强方法和设备，其能够满足用户的个性化降噪需求。

根据本公开实施例的第一方面，提供一种语音增强模型的训练方法，所述语音增强模型包括共享特征网络和多任务降噪网络，所述多任务降噪网络包括多个降噪网络，不同降噪网络用于不同的降噪任务，其中，所述训练方法包括：获取包括干净语音信号和带噪语音信号的训练样本，其中，所述带噪语音信号是基于所述干净语音信号混合噪声信号得到的；将所述带噪语音信号的信息输入所述共享特征网络，得到所述带噪语音信号对应的特征；将所述特征分别输入所述多个降噪网络中的每个降噪网络，得到所述多个降噪网络分别预测的增强语音信号的信息；根据所述多个降噪网络分别预测的增强语音信号的信息和所述干净语音信号，计算所述语音增强模型的损失函数；通过根据所述损失函数调整所述共享特征网络和所述多个降噪网络的参数，对所述语音增强模型进行训练。

可选地，降噪任务的类型包括以下项之中的至少一项：语音降噪解混响、语音降噪不解混响、保留离麦克风预设距离内的语音、保留所有语音、以及仅去除平稳底噪。

可选地，所述带噪语音信号的信息为：所述带噪语音信号的频域信息，所述增强语音信号的信息为：所述增强语音信号的频域信息；或者，所述带噪语音信号的信息为：所述带噪语音信号的时域信息，所述增强语音信号的信息为：所述增强语音信号的时域信息。

可选地，根据所述多个降噪网络分别预测的增强语音信号的信息和所述干净语音信号，计算所述语音增强模型的损失函数的步骤包括：分别针对所述多个降噪网络中的每个降噪网络，根据该降噪网络预测的增强语音信号的信息和所述干净语音信号，计算该降噪网络的损失函数；对所述多个降噪网络的损失函数进行加权求和，得到所述语音增强模型的损失函数。

可选地，所述带噪语音信号的信息为：所述带噪语音信号的幅度谱，所述增强语音信号的信息为：所述增强语音信号的掩蔽矩阵；根据该降噪网络预测的增强语音信号的信息和所述干净语音信号，计算该降噪网络的损失函数的步骤包括：将该降噪网络预测的增强语音信号的掩蔽矩阵和所述带噪语音信号的幅度谱相乘，得到预测的增强语音信号的幅度谱；根据预测的增强语音信号的幅度谱和所述干净语音信号的幅度谱，计算该降噪网络的损失函数。

可选地，所述噪声信号为包括多种噪声的噪声信号。

可选地，所述干净语音信号为包括多人语音的语音信号；和/或，所述干净语音信号的类型包括以下项之中的至少一项：不变速不变调语音、变速不变调语音、不变速变调语音、变速变调语音。

可选地，所述带噪语音信号为：所述干净语音信号混合所述噪声信号后通过至少一种滤波器滤波后得到的信号。

根据本公开实施例的第二方面，提供一种语音增强方法，所述语音增强方法基于语音增强模型来执行，其中，所述语音增强模型包括共享特征网络和多任务降噪网络，所述多任务降噪网络包括多个降噪网络，不同降噪网络用于不同的降噪任务，其中，所述语音增强方法包括：获取降噪任务需求信息；从所述多个降噪网络之中选择与所述降噪任务需求信息相匹配的降噪网络；将待增强的带噪语音信号的信息输入所述共享特征网络，得到所述带噪语音信号对应的特征；将所述特征输入选择的降噪网络，得到预测的增强语音信号的信息；根据预测的增强语音信号的信息，得到预测的增强语音信号。

可选地，根据预测的增强语音信号的信息，得到预测的增强语音信号的步骤包括：获取目标降噪强弱级别信息；按照目标降噪强弱级别信息所对应的降噪指标的指标值，对预测的增强语音信号的信息进行处理，得到符合目标降噪强弱级别信息的语音增强信号。

可选地，降噪指标包括以下项之中的至少一项：噪声抑制分贝值、信噪比提升值、以及信号失真比提升值。

可选地，所述带噪语音信号的信息为：所述带噪语音信号的幅度谱，所述增强语音信号的信息为：所述增强语音信号的掩蔽矩阵，所述降噪指标为噪声抑制分贝值；在按照目标降噪强弱级别信息所对应的降噪指标的指标值，对预测的增强语音信号的信息进行处理，得到符合目标降噪强弱级别信息的语音增强信号的步骤中：

通过下式得到符合目标降噪强弱级别信息的语音增强信号的幅度谱Z：

Z＝f(a,M_i)·Y

其中，a表示目标降噪强弱级别信息所对应的噪声抑制分贝值，Y表示所述带噪语音信号的幅度谱，M_i表示选择的降噪网络预测的增强语音信号的掩蔽矩阵，f()表示增强语音信号的掩蔽矩阵调整函数，M_i(t,f)表示掩蔽矩阵M_i中第t帧第f个频点对应的取值，thr＝10^a/20。

可选地，所述语音增强模型是使用如上所述的训练方法训练得到的。

根据本公开实施例的第三方面，提供一种语音增强模型的训练设备，所述语音增强模型包括共享特征网络和多任务降噪网络，所述多任务降噪网络包括多个降噪网络，不同降噪网络用于不同的降噪任务，其中，所述训练设备包括：训练样本获取单元，被配置为获取包括干净语音信号和带噪语音信号的训练样本，其中，所述带噪语音信号是基于所述干净语音信号混合噪声信号得到的；特征提取单元，被配置为将所述带噪语音信号的信息输入所述共享特征网络，得到所述带噪语音信号对应的特征；增强语音预测单元，被配置为将所述特征分别输入所述多个降噪网络中的每个降噪网络，得到所述多个降噪网络分别预测的增强语音信号的信息；损失函数计算单元，被配置为根据所述多个降噪网络分别预测的增强语音信号的信息和所述干净语音信号，计算所述语音增强模型的损失函数；模型参数调整单元，被配置为通过根据所述损失函数调整所述共享特征网络和所述多个降噪网络的参数，对所述语音增强模型进行训练。

可选地，损失函数计算单元分别针对所述多个降噪网络中的每个降噪网络，根据该降噪网络预测的增强语音信号的信息和所述干净语音信号，计算该降噪网络的损失函数；并对所述多个降噪网络的损失函数进行加权求和，得到所述语音增强模型的损失函数。

可选地，所述带噪语音信号的信息为：所述带噪语音信号的幅度谱，所述增强语音信号的信息为：所述增强语音信号的掩蔽矩阵；损失函数计算单元将该降噪网络预测的增强语音信号的掩蔽矩阵和所述带噪语音信号的幅度谱相乘，得到预测的增强语音信号的幅度谱；并根据预测的增强语音信号的幅度谱和所述干净语音信号的幅度谱，计算该降噪网络的损失函数。

可选地，所述噪声信号为包括多种噪声的噪声信号。

根据本公开实施例的第四方面，提供一种语音增强设备，所述语音增强设备基于语音增强模型来执行，其中，所述语音增强模型包括共享特征网络和多任务降噪网络，所述多任务降噪网络包括多个降噪网络，不同降噪网络用于不同的降噪任务，其中，所述语音增强设备包括：需求信息获取单元，被配置为获取降噪任务需求信息；降噪网络选择单元，被配置为从所述多个降噪网络之中选择与所述降噪任务需求信息相匹配的降噪网络；特征提取单元，被配置为将待增强的带噪语音信号的信息输入所述共享特征网络，得到所述带噪语音信号对应的特征；增强语音预测单元，被配置为将所述特征输入选择的降噪网络，得到预测的增强语音信号的信息；增强语音确定单元，被配置为根据预测的增强语音信号的信息，得到预测的增强语音信号。

可选地，增强语音确定单元获取目标降噪强弱级别信息；并按照目标降噪强弱级别信息所对应的降噪指标的指标值，对预测的增强语音信号的信息进行处理，得到符合目标降噪强弱级别信息的语音增强信号。

可选地，所述带噪语音信号的信息为：所述带噪语音信号的幅度谱，所述增强语音信号的信息为：所述增强语音信号的掩蔽矩阵，所述降噪指标为噪声抑制分贝值；增强语音确定单元通过下式得到符合目标降噪强弱级别信息的语音增强信号的幅度谱Z：

Z＝f(a,M_i)·Y

可选地，所述语音增强模型是使用如上所述的训练设备训练得到的。

根据本公开实施例的第五方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的语音增强模型的训练方法和/或如上所述的语音增强方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的语音增强模型的训练方法和/或如上所述的语音增强方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现如上所述的语音增强模型的训练方法和/或如上所述的语音增强方法。

本公开的实施例提供的技术方案至少带来以下有益效果：能够满足用户的个性化降噪需求；对于高复杂性场景下的带噪语音信号也有很好的降噪效果。

本公开的实施例提供的技术方案能够很好地解决在短视频场景下语音降噪面临的一系列问题：一方面，降噪效果的个性化需求：短视频内容制作者对语音降噪目标效果会有不同的要求，例如，是否去混响、是否去除背景人声等。另一方面，场景复杂性高：在短视频制作中语音数据包含变速变调、录音设备种类繁多、噪声场景多样等问题。通过本公开的示例性实施例的多任务模型训练和后处理时的分级降噪设计，能够满足用户对降噪的个性化需求；本公开的示例性实施例通过使用随机EQ滤波器、多语言多噪声混合、变速变调等训练数据增强方法，提高了模型鲁棒性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出根据本公开示例性实施例的语音增强模型的训练方法的流程图；

图2示出根据本公开示例性实施例的语音增强模型的示例；

图3示出根据本公开示例性实施例的语音增强方法的流程图；

图4示出根据本公开示例性实施例的调用语音增强模型的示例；

图5示出根据本公开示例性实施例的分级降噪的示例；

图6示出根据本公开示例性实施例的语音增强模型的训练设备的结构框图；

图7示出根据本公开示例性实施例的语音增强设备的结构框图；

图8示出根据本公开示例性实施例的电子设备的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

图1示出根据本公开示例性实施例的语音增强模型的训练方法的流程图。

所述语音增强模型包括共享特征网络和多任务降噪网络，所述多任务降噪网络包括多个降噪网络，每个降噪网络用于对应的降噪任务，也即，每个降噪网络用于满足对应的降噪需求，达到对应的降噪效果。不同降噪网络用于不同的降噪任务，换言之，针对不同的降噪任务，可搭建对应的降噪网络，以满足对应的降噪需求，达到所需的降噪效果。

参照图1，在步骤S101，获取包括干净语音信号和带噪语音信号的训练样本。这里，所述带噪语音信号是基于所述干净语音信号混合噪声信号得到的。

作为示例，所述噪声信号可为包括多种噪声的噪声信号。

作为示例，所述干净语音信号可为包括多人语音的语音信号。

作为示例，所述带噪语音信号可为：所述干净语音信号混合所述噪声信号后通过至少一种滤波器滤波后得到的信号。作为示例，所述至少一种滤波器可包括但不限于以下项之中的至少一项：低通滤波器、高通滤波器、带通滤波器、以及陷波滤波器。可对上述滤波器进行多次随机组合，生成最终的随机EQ滤波器来模拟现实场景中的多种硬件设备EQ。

作为示例，所述干净语音信号的类型可包括但不限于以下项之中的至少一项：不变速不变调语音、变速不变调语音、不变速变调语音、变速变调语音。例如，变速变调数值可在[0.5，2]之间随机抽样得到。

考虑到语音降噪场景的复杂性，例如，短视频语音降噪场景的复杂性，本公开提出结合变速变调、随机EQ滤波器、多语音多噪声混合等的训练数据增强方式，以提高基于训练数据训练得到的语音增强模型的鲁棒性。

在步骤S102，将所述带噪语音信号的信息输入所述共享特征网络，得到所述带噪语音信号对应的特征。

作为示例，所述带噪语音信号的信息可为所述带噪语音信号的频域信息(即，频域信号或频谱信号)或时域信息(即，时域信号)。作为示例，所述带噪语音信号的信息可为所述带噪语音信号的频谱信号，例如，所述带噪语音信号的信息可为所述带噪语音信号的幅度谱。例如，所述带噪语音信号对应的特征可为所述带噪语音信号的频谱特征。

作为示例，所述共享特征网络可由多层二维卷积网络来实现。应该理解，也可由其他网络形式来实现，本公开对此不作限制。

在步骤S103，将所述特征分别输入所述多个降噪网络中的每个降噪网络，得到所述多个降噪网络分别预测的增强语音信号的信息。

作为示例，降噪任务的类型可包括但不限于以下项之中的至少一项：语音降噪解混响、语音降噪不解混响、保留离麦克风预设距离内的语音、保留所有语音、以及仅去除平稳底噪。例如，所述预设距离可为1米或3米。

作为示例，预测的增强语音信号的信息可为预测的增强语音信号的频域信息或时域信息。例如，预测的增强语音信号的信息可为预测的增强语音信号的掩蔽矩阵。

作为示例，所述带噪语音信号的信息可为：所述带噪语音信号的频域信息，所述增强语音信号的信息可为：所述增强语音信号的频域信息。

作为另一示例，所述带噪语音信号的信息可为：所述带噪语音信号的时域信息，所述增强语音信号的信息可为：所述增强语音信号的时域信息。例如，所述带噪语音信号的信息可为：所述带噪语音信号的幅度谱，所述增强语音信号的信息可为：所述增强语音信号的掩蔽矩阵。

如图2所示，作为示例，每个降噪网络可包含多层循环神经网络(GRUs_i)和一层全连接网络(MLP_i)，最后输出相关的语音掩蔽矩阵(Mask_i)。其中，i＝[1,2,…,M]，M表示所述多任务降噪网络中的降噪网络的数目，也即，所支持的降噪任务的数目，M为大于1的整数。

在步骤S104，根据所述多个降噪网络分别预测的增强语音信号的信息和所述干净语音信号，计算所述语音增强模型的损失函数。

应该理解，可通过各种适当的方式，根据所述多个降噪网络分别预测的增强语音信号的信息和所述干净语音信号，计算所述语音增强模型的损失函数，本公开对此不作限制。

作为示例，可分别针对所述多个降噪网络中的每个降噪网络，根据该降噪网络预测的增强语音信号的信息和所述干净语音信号，计算该降噪网络的损失函数；并对所述多个降噪网络的损失函数进行加权求和，得到所述语音增强模型的损失函数。

作为示例，所述带噪语音信号的信息为：所述带噪语音信号的幅度谱，所述增强语音信号的信息为：所述增强语音信号的掩蔽矩阵；根据每个降噪网络预测的增强语音信号的信息和所述干净语音信号，计算该降噪网络的损失函数的步骤可包括：将该降噪网络预测的增强语音信号的掩蔽矩阵和所述带噪语音信号的幅度谱相乘，得到预测的增强语音信号的幅度谱；并根据预测的增强语音信号的幅度谱和所述干净语音信号的幅度谱，计算该降噪网络的损失函数。

作为示例，可通过下式对所述多个降噪网络的损失函数进行加权求和，得到所述语音增强模型的损失函数loss_all：

其中，L_i表示第i个降噪网络的损失函数，α_i为对应的损失函数的权重。

作为示例，L_i可以是增强语音信号的幅度谱和干净语音信号的幅度谱的MSE，即，如下式所示：

L_i＝mean(|Y·M_i-X|²) (2)

其中，M_i表示第i个降噪网络输出的掩蔽矩阵，Y表示带噪语音信号的幅度谱，X表示干净语音信号的幅度谱。

在步骤S105，通过根据所述损失函数调整所述共享特征网络和所述多个降噪网络的参数，对所述语音增强模型进行训练。

作为示例，可以最小化所述损失函数为目标，调整所述共享特征网络的参数和所述多个降噪网络的参数。

应该理解，可以进行多轮训练直至模型收敛，每轮训练可使用至少一个训练样本进行训练。不同训练样本中的干净语音信号的类型(例如，不变速不变调语音、变速不变调语音、不变速变调语音、变速变调语音)可不同或相同；不同训练样本中的带噪语音信号所使用的滤波器的组合可不同或相同。

图3示出根据本公开示例性实施例的语音增强方法的流程图。所述语音增强方法适用于各种语音降噪场景，例如，短视频场景。

所述语音增强方法基于语音增强模型来执行，其中，所述语音增强模型包括共享特征网络和多任务降噪网络，所述多任务降噪网络包括多个降噪网络，不同降噪网络用于不同的降噪任务。

参照图3，在步骤S201，获取降噪任务需求信息。

作为示例，降噪任务需求信息可体现对降噪任务的需求。

作为示例，可向用户提供用于选择降噪任务的用户界面，根据用户在所述用户界面中的选择操作，确定用户所需的降噪任务的信息。

应该理解，也可通过其他方式获取降噪任务需求信息，本公开对此不作限制。

在步骤S202，从所述多个降噪网络之中选择与所述降噪任务需求信息相匹配的降噪网络。

作为示例，可预先存储降噪任务与降噪网络的映射关系，从而可根据降噪任务需求信息，选择出对应的降噪网络。

在步骤S203，将待增强的带噪语音信号的信息输入所述共享特征网络，得到所述带噪语音信号对应的特征。

作为示例，所述带噪语音信号的信息可为所述带噪语音信号的频域信息或时域信息。作为示例，所述带噪语音信号的信息可为所述带噪语音信号的频谱信号，例如，所述带噪语音信号的信息可为所述带噪语音信号的幅度谱。例如，所述带噪语音信号对应的特征可为所述带噪语音信号的频谱特征。

在步骤S204，将所述特征输入选择的降噪网络，得到预测的增强语音信号的信息。

例如，如图4所示，如果与降噪任务需求信息相匹配的降噪网络为降噪网络i，在使用所述语音增强模型进行预测时，仅需调用共享特征网络和降噪网络i即可，无需调用多任务降噪网络中的其他降噪网络。既节省了运算量和所占内存，也提高了针对用户降噪需求的降噪效果。

作为示例，所述语音增强模型可以是使用如上述示例性实施例所述的训练方法训练得到的。

在步骤S205，根据预测的增强语音信号的信息，得到预测的增强语音信号。

作为示例，可直接根据预测的增强语音信号的信息，得到预测的增强语音信号。例如，可将预测的增强语音信号的掩蔽矩阵和所述带噪语音信号的幅度谱相乘，得到预测的增强语音信号的幅度谱，再基于预测的增强语音信号的幅度谱得到预测的增强语音信号。例如，当预测的增强语音信号的信息为预测的增强语音信号的时域信号时，即直接得到了预测的增强语音信号。

根据对于降噪程度强弱的个性化需求，本公开还提出了分级降噪的方法。作为示例，可获取目标降噪强弱级别信息；并按照目标降噪强弱级别信息(也即，目标降噪强弱级别)所对应的降噪指标的指标值，对预测的增强语音信号的信息进行处理，得到符合目标降噪强弱级别信息(也即，目标降噪强弱级别)的语音增强信号。应该理解，不同降噪强弱级别所对应的降噪指标的指标值不同。作为示例，可预先设置不同降噪级别与降噪客观指标的指标值之间的映射关系。

作为示例，可向用户提供用于选择降噪等级的用户界面，根据用户在所述用户界面中的选择操作，确定目标降噪强弱级别信息。

作为示例，降噪指标可包括但不限于以下项之中的至少一项：噪声抑制分贝值、信噪比提升值、以及信号失真比提升值。

例如，以噪声抑制分贝值(dB)为例，降噪指标映射方式可为：级别1：-6dB、级别2：-12dB、级别3：-24dB、以及级别4：-100dB。

作为示例，所述带噪语音信号的信息可为：所述带噪语音信号的幅度谱，所述增强语音信号的信息可为：所述增强语音信号的掩蔽矩阵，所述降噪指标可为噪声抑制分贝值；其中，可按照目标降噪强弱级别信息所对应的降噪指标的指标值，根据所述带噪语音信号的幅度谱对预测的增强语音信号的掩蔽矩阵进行处理。

作为示例，可通过式(3)和式(4)得到符合目标降噪强弱级别信息的语音增强信号的幅度谱Z：

Z＝f(a,M_i)·Y (3)

例如，如图5所示，根据预设的降噪级别与客观降噪指标的映射，基于目标降噪级别信息，确定与目标降噪级别对应的降噪指标的指标值。然后，可根据确定的降噪指标的指标值、选择的降噪网络i输出的目标语言掩蔽矩阵、以及带噪语音信号，得到最终的增强语音信号。

应该理解，根据本公开示例性实施例的语音增强模型的训练方法及语音增强方法可适用于单通道频域降噪、单通道时域降噪、多通道频域降噪、多通道时域降噪，本公开对此不作限制。

根据本公开示例性实施例的语音增强方法中的具体处理，已经在上述相关的语音增强模型的训练方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6示出根据本公开示例性实施例的语音增强模型的训练设备的结构框图。所述语音增强模型包括共享特征网络和多任务降噪网络，所述多任务降噪网络包括多个降噪网络，不同降噪网络用于不同的降噪任务。

如图6所示，根据本公开示例性实施例的语音增强模型的训练设备10包括：训练样本获取单元101、特征提取单元102、增强语音预测单元103、损失函数计算单元104、以及模型参数调整单元105。

具体说来，训练样本获取单元101被配置为获取包括干净语音信号和带噪语音信号的训练样本，其中，所述带噪语音信号是基于所述干净语音信号混合噪声信号得到的。

特征提取单元102被配置为将所述带噪语音信号的信息输入所述共享特征网络，得到所述带噪语音信号对应的特征。

增强语音预测单元103被配置为将所述特征分别输入所述多个降噪网络中的每个降噪网络，得到所述多个降噪网络分别预测的增强语音信号的信息。

损失函数计算单元104被配置为根据所述多个降噪网络分别预测的增强语音信号的信息和所述干净语音信号，计算所述语音增强模型的损失函数。

模型参数调整单元105被配置为通过根据所述损失函数调整所述共享特征网络和所述多个降噪网络的参数，对所述语音增强模型进行训练。

作为示例，降噪任务的类型可包括以下项之中的至少一项：语音降噪解混响、语音降噪不解混响、保留离麦克风预设距离内的语音、保留所有语音、以及仅去除平稳底噪。

作为示例，所述带噪语音信号的信息可为：所述带噪语音信号的频域信息，所述增强语音信号的信息可为：所述增强语音信号的频域信息；或者，所述带噪语音信号的信息可为：所述带噪语音信号的时域信息，所述增强语音信号的信息可为：所述增强语音信号的时域信息。

作为示例，损失函数计算单元104可分别针对所述多个降噪网络中的每个降噪网络，根据该降噪网络预测的增强语音信号的信息和所述干净语音信号，计算该降噪网络的损失函数；并对所述多个降噪网络的损失函数进行加权求和，得到所述语音增强模型的损失函数。

作为示例，所述带噪语音信号的信息可为：所述带噪语音信号的幅度谱，所述增强语音信号的信息可为：所述增强语音信号的掩蔽矩阵；损失函数计算单元104可将该降噪网络预测的增强语音信号的掩蔽矩阵和所述带噪语音信号的幅度谱相乘，得到预测的增强语音信号的幅度谱；并根据预测的增强语音信号的幅度谱和所述干净语音信号的幅度谱，计算该降噪网络的损失函数。

作为示例，所述噪声信号可为包括多种噪声的噪声信号；和/或所述干净语音信号可为包括多人语音的语音信号；和/或所述带噪语音信号可为：所述干净语音信号混合所述噪声信号后通过至少一种滤波器滤波后得到的信号；和/或所述干净语音信号的类型可包括以下项之中的至少一项：不变速不变调语音、变速不变调语音、不变速变调语音、变速变调语音。

图7示出根据本公开示例性实施例的语音增强设备的结构框图。

所述语音增强设备基于语音增强模型来执行，其中，所述语音增强模型包括共享特征网络和多任务降噪网络，所述多任务降噪网络包括多个降噪网络，不同降噪网络用于不同的降噪任务。

如图7所示，根据本公开示例性实施例的语音增强设备20包括：需求信息获取单元201、降噪网络选择单元202、特征提取单元203、增强语音预测单元204、以及增强语音确定单元205。

具体说来，需求信息获取单元201被配置为获取降噪任务需求信息。

降噪网络选择单元202被配置为从所述多个降噪网络之中选择与所述降噪任务需求信息相匹配的降噪网络。

特征提取单元203被配置为将待增强的带噪语音信号的信息输入所述共享特征网络，得到所述带噪语音信号对应的特征。

增强语音预测单元204被配置为将所述特征输入选择的降噪网络，得到预测的增强语音信号的信息。

增强语音确定单元205被配置为根据预测的增强语音信号的信息，得到预测的增强语音信号。

作为示例，增强语音确定单元205可获取目标降噪强弱级别信息；并按照目标降噪强弱级别信息所对应的降噪指标的指标值，对预测的增强语音信号的信息进行处理，得到符合目标降噪强弱级别信息的语音增强信号。

作为示例，降噪指标可包括以下项之中的至少一项：噪声抑制分贝值、信噪比提升值、以及信号失真比提升值。

作为示例，所述带噪语音信号的信息可为：所述带噪语音信号的幅度谱，所述增强语音信号的信息可为：所述增强语音信号的掩蔽矩阵，所述降噪指标为噪声抑制分贝值；增强语音确定单元205可通过下式得到符合目标降噪强弱级别信息的语音增强信号的幅度谱Z：

Z＝f(a,M_i)·Y

其中，a表示目标降噪强弱级别信息所对应的噪声抑制分贝值，·Y表示所述带噪语音信号的幅度谱，M_i表示选择的降噪网络预测的增强语音信号的掩蔽矩阵，f()表示增强语音信号的掩蔽矩阵调整函数，M_i(t,f)表示掩蔽矩阵M_i中第t帧第f个频点对应的取值，thr＝10^a/20。

作为示例，所述语音增强模型是使用如上述示例性实施例所述的训练设备训练10得到的。

关于上述实施例中的设备，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

此外，应该理解，根据本公开示例性实施例的语音增强模型的训练设备10和语音增强设备20中的各个单元可被实现硬件组件和/或软件组件。本领域技术人员根据限定的各个单元所执行的处理，可以例如使用现场可编程门阵列(FPGA)或专用集成电路(ASIC)来实现各个单元。

图8示出根据本公开示例性实施例的电子设备的结构框图。参照图8，该电子设备30包括：至少一个存储器301和至少一个处理器302，所述至少一个存储器301中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器302执行时，执行如上述示例性实施例所述的语音增强模型的训练方法和/或语音增强方法。

作为示例，电子设备30可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备30并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备30还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备30中，处理器302可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器302还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器302可运行存储在存储器301中的指令或代码，其中，存储器301还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器301可与处理器302集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器301可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器301和处理器302可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器302能够读取存储在存储器中的文件。

此外，电子设备30还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备30的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行如上述示例性实施例所述的语音增强模型的训练方法和/或语音增强方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品中的指令可由至少一个处理器执行以完成如上述示例性实施例所述的语音增强模型的训练方法和/或语音增强方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音增强模型的训练方法，其特征在于，所述语音增强模型包括共享特征网络和多任务降噪网络，所述多任务降噪网络包括多个降噪网络，不同降噪网络用于不同的降噪任务，其中，所述训练方法包括：

获取包括干净语音信号和带噪语音信号的训练样本，其中，所述带噪语音信号是基于所述干净语音信号混合噪声信号得到的；

将所述带噪语音信号的信息输入所述共享特征网络，得到所述带噪语音信号对应的特征；

将所述特征分别输入所述多个降噪网络中的每个降噪网络，得到所述多个降噪网络分别预测的增强语音信号的信息；

根据所述多个降噪网络分别预测的增强语音信号的信息和所述干净语音信号，计算所述语音增强模型的损失函数；

通过根据所述损失函数调整所述共享特征网络和所述多个降噪网络的参数，对所述语音增强模型进行训练。

2.根据权利要求1所述的训练方法，其特征在于，降噪任务的类型包括以下项之中的至少一项：

语音降噪解混响、语音降噪不解混响、保留离麦克风预设距离内的语音、保留所有语音、以及仅去除平稳底噪。

3.根据权利要求1所述的训练方法，其特征在于，所述带噪语音信号的信息为：所述带噪语音信号的频域信息，所述增强语音信号的信息为：所述增强语音信号的频域信息；

或者，所述带噪语音信号的信息为：所述带噪语音信号的时域信息，所述增强语音信号的信息为：所述增强语音信号的时域信息。

4.根据权利要求1所述的训练方法，其特征在于，根据所述多个降噪网络分别预测的增强语音信号的信息和所述干净语音信号，计算所述语音增强模型的损失函数的步骤包括：

分别针对所述多个降噪网络中的每个降噪网络，根据该降噪网络预测的增强语音信号的信息和所述干净语音信号，计算该降噪网络的损失函数；

对所述多个降噪网络的损失函数进行加权求和，得到所述语音增强模型的损失函数。

5.一种语音增强方法，其特征在于，所述语音增强方法基于语音增强模型来执行，其中，所述语音增强模型包括共享特征网络和多任务降噪网络，所述多任务降噪网络包括多个降噪网络，不同降噪网络用于不同的降噪任务，其中，所述语音增强方法包括：

获取降噪任务需求信息；

从所述多个降噪网络之中选择与所述降噪任务需求信息相匹配的降噪网络；

将待增强的带噪语音信号的信息输入所述共享特征网络，得到所述带噪语音信号对应的特征；

将所述特征输入选择的降噪网络，得到预测的增强语音信号的信息；

根据预测的增强语音信号的信息，得到预测的增强语音信号。

6.一种语音增强模型的训练设备，其特征在于，所述语音增强模型包括共享特征网络和多任务降噪网络，所述多任务降噪网络包括多个降噪网络，不同降噪网络用于不同的降噪任务，其中，所述训练设备包括：

训练样本获取单元，被配置为获取包括干净语音信号和带噪语音信号的训练样本，其中，所述带噪语音信号是基于所述干净语音信号混合噪声信号得到的；

特征提取单元，被配置为将所述带噪语音信号的信息输入所述共享特征网络，得到所述带噪语音信号对应的特征；

增强语音预测单元，被配置为将所述特征分别输入所述多个降噪网络中的每个降噪网络，得到所述多个降噪网络分别预测的增强语音信号的信息；

损失函数计算单元，被配置为根据所述多个降噪网络分别预测的增强语音信号的信息和所述干净语音信号，计算所述语音增强模型的损失函数；

模型参数调整单元，被配置为通过根据所述损失函数调整所述共享特征网络和所述多个降噪网络的参数，对所述语音增强模型进行训练。

7.一种语音增强设备，其特征在于，所述语音增强设备基于语音增强模型来执行，其中，所述语音增强模型包括共享特征网络和多任务降噪网络，所述多任务降噪网络包括多个降噪网络，不同降噪网络用于不同的降噪任务，其中，所述语音增强设备包括：

需求信息获取单元，被配置为获取降噪任务需求信息；

降噪网络选择单元，被配置为从所述多个降噪网络之中选择与所述降噪任务需求信息相匹配的降噪网络；

特征提取单元，被配置为将待增强的带噪语音信号的信息输入所述共享特征网络，得到所述带噪语音信号对应的特征；

增强语音预测单元，被配置为将所述特征输入选择的降噪网络，得到预测的增强语音信号的信息；

增强语音确定单元，被配置为根据预测的增强语音信号的信息，得到预测的增强语音信号。

8.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至4中任一项所述的语音增强模型的训练方法和/或如权利要求5所述的语音增强方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至4中任一项所述的语音增强模型的训练方法和/或如权利要求5所述的语音增强方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被至少一个处理器执行时实现如权利要求1至4中任一项所述的语音增强模型的训练方法和/或如权利要求5所述的语音增强方法。