CN113241088A

CN113241088A - 语音增强模型的训练方法及装置、语音增强方法及装置

Info

Publication number: CN113241088A
Application number: CN202110774752.3A
Authority: CN
Inventors: 任新蕾; 张旭; 郑羲光; 陈联武; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-07-09
Filing date: 2021-07-09
Publication date: 2021-08-10
Anticipated expiration: 2041-07-09
Also published as: CN113241088B

Abstract

本公开关于一种语音增强模型的训练方法及装置、语音增强方法及装置。该训练方法包括：获取训练样本集，其中，训练样本集中每个训练样本包括多通道含噪语音信号和对应的多通道干净语音信号；将多通道含噪语音信号的复数谱输入到复数掩码网络，得到每个通道的复数掩码；基于每个通道的复数谱与对应的复数掩码，得到每个通道的增强复数谱；将每个通道的增强复数谱输入到波束形成模块，得到单通道的预估增强复数谱；基于预估增强复数谱对应的预估时域信号和多通道干净语音信号中预定通道的干净语音信号，确定语音增强模型的目标损失函数；根据目标损失函数调整复数掩码网络的参数，对语音增强模型进行训练。

Description

语音增强模型的训练方法及装置、语音增强方法及装置

技术领域

本公开涉及音视频领域，尤其涉及一种语音增强模型的训练方法及装置、语音增强方法及装置。

背景技术

近几年，人们越来越青睐于通过线上音视频会议的方式开会，这有助于打破人与人之间的距离障碍，提供更高效的沟通方式。但是，会议室的背景噪声、混响和麦克风数量等因素往往会严重影响会议期间的语音质量。为了提高语音质量，人们提出了各种各样的语音增强算法，如联合传统的信号波束形成算法和基于神经网络的单通道语音增强方法，即使用神经网络估计出单通道掩码mask，然后使用该mask计算信号波束形成算法中所需的噪声协方差矩阵等统计量，最后使用传统的信号波束形成算法进行语音增强。但是，该方案还是以传统的信号波束形成算法为主，没有充分利用神经网络的优势，导致语音增强性能提升有限。

发明内容

本公开提供一种语音增强模型的训练方法及装置、语音增强方法及装置，以至少解决相关技术中的语音增强算法没有很好的提升语音增强性能的问题。

根据本公开实施例的第一方面，提供一种语音增强模型的训练方法，语音增强模型包括复数掩码网络和波束形成模块，训练方法包括：获取训练样本集，其中，训练样本集中每个训练样本包括多通道含噪语音信号和对应的多通道干净语音信号，多通道含噪语音信号是对应的多通道干净语音信号添加噪声和混响后的语音信号；将多通道含噪语音信号的复数谱输入到复数掩码网络，得到每个通道的复数掩码，其中，复数掩码表示的是含噪语音信号中干净语音信号的占比；基于每个通道的复数谱与对应的复数掩码，得到每个通道的增强复数谱；将每个通道的增强复数谱输入到波束形成模块，得到单通道的预估增强复数谱；基于预估增强复数谱对应的预估时域信号和多通道干净语音信号中预定通道的干净语音信号，确定语音增强模型的目标损失函数；根据目标损失函数调整复数掩码网络的参数，对语音增强模型进行训练。

可选地，基于预估增强复数谱对应的预估时域信号和多通道干净语音信号中预定通道的干净语音信号，确定语音增强模型的目标损失函数，包括：基于预估时域信号、多通道干净语音信号中预定通道的干净语音信号和预定通道的噪声信号，确定语音增强模型的目标损失函数。

可选地，基于预估时域信号、多通道干净语音信号中预定通道的干净语音信号和预定通道的噪声信号，确定语音增强模型的目标损失函数，包括：基于多通道干净语音信号中预定通道的干净语音信号和预定通道的含噪语音信号，获取真实噪声信号；基于预估时域信号和预定通道的含噪语音信号，获取预估噪声信号；基于预估时域信号、预定通道的干净语音信号、预估噪声信号和真实噪声信号，确定语音增强模型的目标损失函数。

可选地，基于预估时域信号、预定通道的干净语音信号、预估噪声信号和真实噪声信号，确定语音增强模型的目标损失函数，包括：基于预估时域信号和预定通道的干净语音信号的差值的绝对值、预估噪声信号和真实噪声信号的差值的绝对值，确定语音增强模型的目标损失函数。

可选地，预定通道为多通道对应的麦克风阵列中位置居中的通道。

可选地，复数掩码网络包括因果U-NET网络。

根据本公开实施例的第二方面，提供一种语音增强方法，包括：获取待处理的多通道含噪语音信号；将多通道含噪语音信号的复数谱输入到语音增强模型中复数掩码网络，得到每个通道的复数掩码；基于每个通道的复数谱与对应的复数掩码，得到每个通道的增强复数谱；将每个通道的增强复数谱输入到语音增强模型中波束形成模块，得到单通道的增强复数谱；获取增强复数谱对应的时域信号，并将时域信号作为多通道含噪语音信号的增强语音信号。

可选地，获取增强复数谱对应的时域信号，包括：将增强复数谱进行滤波处理；基于滤波处理后的增强复数谱得到对应的时域信号。

可选地，复数掩码网络包括因果U-NET网络。

可选地，语音增强模型是通过上述的训练方法训练得到的。

根据本公开实施例的第三方面，提供一种语音增强模型的训练装置，语音增强模型包括复数掩码网络和波束形成模块，训练装置包括：训练样本集获取单元，被配置为获取训练样本集，其中，训练样本集中每个训练样本包括多通道含噪语音信号和对应的多通道干净语音信号，多通道含噪语音信号是对应的多通道干净语音信号添加噪声和混响后的语音信号；复数掩码获取单元，被配置为将多通道含噪语音信号的复数谱输入到复数掩码网络，得到每个通道的复数掩码，其中，复数掩码表示的是含噪语音信号中干净语音信号的占比；增强复数谱获取单元，被配置为基于每个通道的复数谱与对应的复数掩码，得到每个通道的增强复数谱；预估增强复数谱获取单元，被配置为将每个通道的增强复数谱输入到波束形成模块，得到单通道的预估增强复数谱；目标损失函数确定单元，被配置为基于预估增强复数谱对应的预估时域信号和多通道干净语音信号中预定通道的干净语音信号，确定语音增强模型的目标损失函数；训练单元，被配置为根据目标损失函数调整复数掩码网络的参数，对语音增强模型进行训练。

可选地，目标损失函数确定单元，还被配置为基于预估时域信号、多通道干净语音信号中预定通道的干净语音信号和预定通道的噪声信号，确定语音增强模型的目标损失函数。

可选地，目标损失函数确定单元，还被配置为基于多通道干净语音信号中预定通道的干净语音信号和预定通道的含噪语音信号，获取真实噪声信号；基于预估时域信号和预定通道的含噪语音信号，获取预估噪声信号；基于预估时域信号、预定通道的干净语音信号、预估噪声信号和真实噪声信号，确定语音增强模型的目标损失函数。

可选地，目标损失函数确定单元，还被配置为基于预估时域信号和预定通道的干净语音信号的差值的绝对值、预估噪声信号和真实噪声信号的差值的绝对值，确定语音增强模型的目标损失函数。

可选地，复数掩码网络包括因果U-NET网络。

根据本公开实施例的第四方面，提供一种语音增强装置，包括：获取单元，被配置为获取待处理的多通道含噪语音信号；复数掩码获取单元，被配置为将多通道含噪语音信号的复数谱输入到语音增强模型中复数掩码网络，得到每个通道的复数掩码；第一增强复数谱获取单元，被配置为基于每个通道的复数谱与对应的复数掩码，得到每个通道的增强复数谱；第二增强复数谱获取单元，被配置为将每个通道的增强复数谱输入到语音增强模型中波束形成模块，得到单通道的增强复数谱；增强语音信号获取单元，被配置为获取增强复数谱对应的时域信号，并将时域信号作为多通道含噪语音信号的增强语音信号。

可选地，增强语音信号获取单元，还被配置为将增强复数谱进行滤波处理；基于滤波处理后的增强复数谱得到对应的时域信号。

可选地，复数掩码网络包括因果U-NET网络。

可选地，语音增强模型是通过如上的训练方法训练得到的。

根据本公开实施例的第五方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现根据本公开的语音增强模型的训练方法及装置、语音增强方法及装置。

根据本公开实施例的第六方面，提供了一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行如上根据本公开的语音增强模型的训练方法及装置、语音增强方法及装置。

根据本公开实施例的第七方面，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现根据本公开的语音增强模型的训练方法及装置、语音增强方法及装置。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的语音增强模型的训练方法及装置、语音增强方法及装置，将复数掩码网络与信号波束形成算法相结合，即将多通道含噪语音信号的复数谱输入到复数掩码网络中得到每个通道的复数掩码，基于该复数掩码和对应通道的复数谱得到每个通道的增强复数谱，再将每个通道的增强复数谱输入到波束形成模块，得到单通道的预估增强复数谱，从而可以得到对应的预估时域信号来调整复数掩码网络参数，完成对语音增强模型的训练，使得训练好的语音增强模型可以有效降低语音通信期间的噪声和混响干扰，很好的提高了语音增强性能；同时，与相关技术中在时域中对语音增强模型进行训练相比，本公开的训练过程在复数谱域进行，也进一步地降低了语音通信期间的噪声和混响干扰，提高了语音增强性能。因此，本公开解决了相关技术中的语音增强算法没有很好的提升语音增强性能的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的语音增强模型的训练方法的实施场景示意图。

图2是根据一示例性实施例示出的一种语音增强模型的训练方法的流程图。

图3是根据一示例性实施例示出的一种生成训练样本集的仿真过程示意图。

图4是根据一示例性实施例示出的一种可选的语音增强模型的训练方法的流程图。

图5是根据一示例性实施例示出的另一种可选的语音增强模型的训练方法的流程图。

图6是根据一示例性实施例示出的一种语音增强方法的流程图。

图7是根据一示例性实施例示出的一种可选的语音增强方法的流程图。

图8是根据一示例性实施例示出的一种语音增强模型的训练装置的框图。

图9是根据一示例性实施例示出的一种语音增强装置的框图。

图10是根据本公开实施例的一种电子设备1000的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：（1）包括A；（2）包括B；（3）包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：（1）执行步骤一；（2）执行步骤二；（3）执行步骤一和步骤二。

本公开提供了一种语音增强模型的训练方法和语音增强方法，能够有效降低语音通信期间的噪声和混响干扰。图1是示出根据本公开的示例性实施例的语音增强模型的训练方法的实施场景示意图，如图1所述，该实施场景包括服务器100、用户终端110和用户终端120，其中，用户终端不限于2个，包括并不限于手机、个人计算机等设备，用户终端可以安装有用于获取声音的麦克风阵列，服务器可以是一个服务器，也可以是若干个服务器组成服务器集群，还可以是云计算平台或虚拟化中心。

服务器100接收用户终端110、120发送的对语音增强模型进行训练的请求之后，可以统计历史上接收的单通道干净语音信号和噪声信号，然后仿真为多通道干净语音信号和噪声信号，将仿真得到的多通道干净语音信号和多通道噪声信号按预设方式混合并添加混响后，得到多通道含噪语音信号，将该多通道含噪语音信号和多通道干净语音信号作为用于训练语音增强模型的一个训练样本，按上述方式可以得到多个训练样本，将多个训练样本合并可以得到训练样本集，在得到训练样本集以后，服务器100将多通道含噪语音信号的复数谱输入到复数掩码网络，得到每个通道的复数掩码，其中，复数掩码表示的是含噪语音信号中干净语音信号的占比，再基于每个通道的复数谱与对应的复数掩码，得到每个通道的增强复数谱，然后，将每个通道的增强复数谱输入到波束形成模块，得到单通道的预估增强复数谱，进而基于预估增强复数谱对应的预估时域信号和多通道干净语音信号中预定通道的干净语音信号，确定语音增强模型的目标损失函数，以根据目标损失函数调整复数掩码网络的参数，对语音增强模型进行训练。

在训练好语音增强模型后，用户终端110、120通过麦克风阵列接收多通道含噪语音信号（如会议中说话人的声音）并发送给服务器100，服务器100接收到多通道含噪语音信号后，将多通道含噪语音信号的复数谱输入到语音增强模型中复数掩码网络，得到每个通道的复数掩码，并基于每个通道的复数谱与对应的复数掩码，得到每个通道的增强复数谱，再将每个通道的增强复数谱输入到语音增强模型中波束形成模块，得到单通道的增强复数谱，从而获取增强复数谱对应的时域信号，该时域信号即用户终端110、120接收到的多通道含噪语音信号的增强语音信号，也即会议中说话人去除噪声和混响后的声音。

下面，将参照图2至图10详细描述根据本公开的示例性实施例的语音增强模型的训练方法及装置、图像处理方法及装置。

图2是根据一示例性实施例示出的一种语音增强模型的训练方法的流程图，如图2所示的语音增强模型包括复数掩码网络和波束形成模块，语音增强模型的训练方法可以包括以下步骤：

在步骤S201中，获取训练样本集，其中，训练样本集中每个训练样本包括多通道含噪语音信号和对应的多通道干净语音信号，多通道含噪语音信号是对应的多通道干净语音信号添加噪声和混响后的语音信号。上述训练样本集中的多通道含噪语音信号和对应的多通道干净语音信号，可以通过单通道干净语音信号和噪声信号仿真生成。

根据本公开的示例性实施例，可以通过如下方式获取训练样本集：获取多个单通道干净语音信号和多个单通道噪声信号；对于多个单通道干净语音信号和多个单通道噪声信号中每个单通道干净语音信号和对应的单通道噪声信号，获取对应的多通道干净语音信号和多通道噪声信号，基于多通道干净语音信号和多通道噪声信号，获取多通道含噪语音信号；将所有多通道含噪语音信号和对应的多通道干净语音信号合并，得到训练样本集。通过本实施例，可以仿真得到用于训练的训练样本集，使得训练结果更准确。

例如，图3是根据一示例性实施例示出的一种生成训练样本集的仿真过程示意图，如图3所示，首先，对单通道干净语音信号和噪声信号用各种不同的滤波器进行滤波以进行硬件设备的EQ模拟，然后，使用镜像法结合麦克风阵列的坐标生成多通道房间冲激响应（Room Impulse Response，缩写为RIR）；接着，将经过EQ模拟后的单通道干净语音和噪声信号与对应的多通道RIR卷积仿真出多通道干净语音信号和噪声信号，最后将多通道干净语音信号和噪声信号以特定的信噪比进行加性混合生成训练数据作为训练集。此时生成的训练样本包含多通道干净语音信号和与其对应的多通道含噪语音信号，与多通道含噪语音信号相比，多通道干净语音信号除了不包含噪声以外，也只保留部分（如前50ms）的混响。

返回图2，在步骤S202中，将多通道含噪语音信号的复数谱输入到复数掩码网络，得到每个通道的复数掩码，其中，复数掩码表示的是含噪语音信号中干净语音信号的占比。上述复数掩码网络包括但不限于因果U-NET网络。在复数掩码网络为因果U-NET网络时，该因果U-NET网络是一个Encoder-Decoder架构。其中，Encoder包含8个卷积块，每个卷积块包含一个Conv2d层、Batch Normalization层、Dropout层和LeakyRelu激活函数；Decoder包含8个反转卷积块，每个反转卷积块与对应的卷积块唯一的不同之处是将Conv2d层替换为Conv2dTranspose层。表1展示了Encoder中每个Conv2d层的超参数，而因果U-NET网络中每层的输入特征可以按照[BatchSize，Frequency，Frame，Channel]的形式组织。

表1 Encoder中每个Conv2d层的超参数

返回图2，在步骤S203中，基于每个通道的复数谱与对应的复数掩码，得到每个通道的增强复数谱。例如，可以将每个通道的复数谱与对应的复数掩码相乘，将相乘的结果作为每个通道的增强复数谱。

在步骤S204中，将每个通道的增强复数谱输入到波束形成模块，得到单通道的预估增强复数谱。例如，使用波束形成的方式将每个通道的增强复数谱在通道维相加，将相加的结果作为单通道的预估增强复数谱。

在步骤S205中，基于预估增强复数谱对应的预估时域信号和多通道干净语音信号中预定通道的干净语音信号，确定语音增强模型的目标损失函数。上述预定通道可以为多通道对应的麦克风阵列中位置居中的通道。例如，如图4所示，对于由M个麦克风组成的麦克风阵列，可以选取某一路麦克风

的干净语音信号作为学习目标（如可由图中的micphoneselection模块完成）。具体地，如果麦克风阵列是线性阵列，可以选择使用麦克风阵列中间的麦克风的干净语音信号作为学习目标，如8麦克的线性阵列，可以选择第3路信号作为参考信号，也即学习目标。此时由于该麦克风处于麦克风阵列相对中间的位置，因此可以获得平均较高的信噪比。

根据本公开的示例性实施例，基于预估增强复数谱对应的预估时域信号和多通道干净语音信号中预定通道的干净语音信号，确定语音增强模型的目标损失函数可以包括：基于预估时域信号、多通道干净语音信号中预定通道的干净语音信号和预定通道的噪声信号，确定语音增强模型的目标损失函数。通过本实施例，结合干净语音和噪声信号共同确定损失函数，使得更准确的调整模型参数。

根据本公开的示例性实施例，基于预估时域信号、多通道干净语音信号中预定通道的干净语音信号和预定通道的噪声信号，确定语音增强模型的目标损失函数可以包括：基于多通道干净语音信号中预定通道的干净语音信号和预定通道的含噪语音信号，获取真实噪声信号；基于预估时域信号和预定通道的含噪语音信号，获取预估噪声信号；基于预估时域信号、预定通道的干净语音信号、预估噪声信号和真实噪声信号，确定语音增强模型的目标损失函数。

根据本公开的示例性实施例，基于预估时域信号、预定通道的干净语音信号、预估噪声信号和真实噪声信号，确定语音增强模型的目标损失函数，可以包括：基于预估时域信号和预定通道的干净语音信号的差值的绝对值、预估噪声信号和真实噪声信号的差值的绝对值，确定语音增强模型的目标损失函数。

例如，可以使用时域的平均绝对误差MAE(mean absolute error)作为网络的目标损失loss函数，并且包含语音信号和噪声信号两项。具体见下式：

其中，

和

分别为真实干净语音信号（如上述

）和估计的干净语音信号（如上述预估时域信号）。

和

分别为真实噪声信号和估计的噪声信号，二者满足以下关系：

其中，

是含噪语音信号。

在步骤S206中，根据目标损失函数调整复数掩码网络的参数，对语音增强模型进行训练。例如，如图4所示，使用估计出的单通道增强语音

和

求出目标损失函数loss值，基于该loss值更新语音增强模型的参数，直至语音增强模型收敛。

下面以复数掩码网络为因果U-NET网络为例系统的论述上述实施例，图5展示了语音增强模型的训练过程，如图5所示，该语音增强模型联合了一个基于因果U-NET网络的神经网络以及一个波束形成模块。首先，对多通道时域含噪语音信号

（

表示麦克风数量）进行短时傅里叶变换（Short-Time Fourier Transform，缩写为STFT）得到多通道复数谱

；接着，将该多通道复数谱送入因果U-NET网络，得到每个通道对应的复数掩码mask

；然后，将多通道含噪语音信号的复数谱与复数mask相乘得到多通道增强的复数谱

；接着，使用波束形成的方式将

在通道维相加得到单通道增强的复数谱

；最后，对其进行短时逆傅里叶变换（Inverse Short-Time FourierTransform，缩写为ISTFT）得到增强的时域信号。

图6是根据一示例性实施例示出的一种语音增强方法的流程图，如图6语音增强方法可以包括以下步骤：

在步骤S601中，获取待处理的多通道含噪语音信号。该多通道含噪语音信号可以是终端内的麦克风阵列接收到语音信号。

在步骤S602中，将多通道含噪语音信号的复数谱输入到语音增强模型中复数掩码网络，得到每个通道的复数掩码。上述复数掩码网络包括因果U-NET网络，具体的结构已经在上面详细介绍了，此处不再展开论述。上述语音增强模型是通过上述实施例中的训练方法训练得到的，具体的训练过程上面已经详细介绍，此处不再展开论述。

在步骤S603中，基于每个通道的复数谱与对应的复数掩码，得到每个通道的增强复数谱。例如，可以将每个通道的复数谱与对应的复数掩码相乘，将相乘的结果作为每个通道的增强复数谱。

在步骤S604中，将每个通道的增强复数谱输入到语音增强模型中波束形成模块，得到单通道的增强复数谱。例如，使用波束形成的方式将每个通道的增强复数谱在通道维相加，将相加的结果作为单通道的增强复数谱。

在步骤S605中，获取增强复数谱对应的时域信号，并将时域信号作为多通道含噪语音信号的增强语音信号。

根据本公开的示例性实施例，获取增强复数谱对应的时域信号时，可以先将增强复数谱进行滤波处理，然后基于滤波处理后的增强复数谱得到对应的时域信号。通过本实施例，可以进一步的抑制噪声。

例如，在语音增强模型训练完成后，应用该训练好的语音增强模型时，可以在训练好的语音增强模型后引入维纳后置滤波器，其流程如图7所示，本实施例使用最小值跟踪算法作为噪声估计算法，且其窗长设置为4秒，维纳滤波器的系数按照下式计算：

其中，

是含噪语音的功率谱密度，

是估计的噪声功率谱密度，

表示帧索引，

表示频率索引。

本公开上述实施例，可以借助于麦克风阵列、波束形成和深度学习的强大性能，如结合神经网络（如多通道因果U-NET网络）和波束形成的优势，能有效降低语音通信期间的噪声和混响的干扰，极大地提升了通信质量。

图8是根据一示例性实施例示出的一种语音增强模型的训练装置的框图。参照图8，语音增强模型包括复数掩码网络和波束形成模块，该语音增强模型的训练装置包括：训练样本集获取单元80、复数掩码获取单元82、增强复数谱获取单元84、预估增强复数谱获取单元86、目标损失函数确定单元88和训练单元810。

训练样本集获取单元80，被配置为获取训练样本集，其中，训练样本集中每个训练样本包括多通道含噪语音信号和对应的多通道干净语音信号，多通道含噪语音信号是对应的多通道干净语音信号添加噪声和混响后的语音信号；复数掩码获取单元82，被配置为将多通道含噪语音信号的复数谱输入到复数掩码网络，得到每个通道的复数掩码，其中，复数掩码表示的是含噪语音信号中干净语音信号的占比；增强复数谱获取单元84，被配置为基于每个通道的复数谱与对应的复数掩码，得到每个通道的增强复数谱；预估增强复数谱获取单元86，被配置为将每个通道的增强复数谱输入到波束形成模块，得到单通道的预估增强复数谱；目标损失函数确定单元88，被配置为基于预估增强复数谱对应的预估时域信号和多通道干净语音信号中预定通道的干净语音信号，确定语音增强模型的目标损失函数；训练单元810，被配置为根据目标损失函数调整复数掩码网络的参数，对语音增强模型进行训练。

根据本公开的实施例，目标损失函数确定单元88，还被配置为基于预估时域信号、多通道干净语音信号中预定通道的干净语音信号和预定通道的噪声信号，确定语音增强模型的目标损失函数。

可选地，目标损失函数确定单元88，还被配置为基于多通道干净语音信号中预定通道的干净语音信号和预定通道的含噪语音信号，获取真实噪声信号；基于预估时域信号和预定通道的含噪语音信号，获取预估噪声信号；基于预估时域信号、预定通道的干净语音信号、预估噪声信号和真实噪声信号，确定语音增强模型的目标损失函数。

根据本公开的实施例，目标损失函数确定单元88，还被配置为基于预估时域信号和预定通道的干净语音信号的差值的绝对值、预估噪声信号和真实噪声信号的差值的绝对值，确定语音增强模型的目标损失函数。

根据本公开的实施例，预定通道为多通道对应的麦克风阵列中位置居中的通道。

根据本公开的实施例，复数掩码网络包括因果U-NET网络。

图9是根据一示例性实施例示出的一种语音增强装置的框图。参照图9，该装置包括：获取单元90、复数掩码获取单元92、第一增强复数谱获取单元94、第二增强复数谱获取单元96和增强语音信号获取单元98。

获取单元90，被配置为获取待处理的多通道含噪语音信号；复数掩码获取单元92，被配置为将多通道含噪语音信号的复数谱输入到语音增强模型中复数掩码网络，得到每个通道的复数掩码；第一增强复数谱获取单元94，被配置为基于每个通道的复数谱与对应的复数掩码，得到每个通道的增强复数谱；第二增强复数谱获取单元96，被配置为将每个通道的增强复数谱输入到语音增强模型中波束形成模块，得到单通道的增强复数谱；增强语音信号获取单元98，被配置为获取增强复数谱对应的时域信号，并将时域信号作为多通道含噪语音信号的增强语音信号。

根据本公开的实施例，增强语音信号获取单元98，还被配置为将增强复数谱进行滤波处理；基于滤波处理后的增强复数谱得到对应的时域信号。

根据本公开的实施例，复数掩码网络包括因果U-NET网络。

根据本公开的实施例，语音增强模型是通过如上的训练方法训练得到的。

根据本公开的实施例，可提供一种电子设备。图10是根据本公开实施例的一种电子设备1000的框图，该电子设备包括至少一个存储器1001和至少一个处理器1002，所述至少一个存储器中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例的语音增强模型的训练方法及语音增强方法。

作为示例，电子设备1000可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1000并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令（或指令集）的装置或电路的集合体。电子设备1000还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程（例如，经由无线传输）以接口互联的便携式电子设备。

在电子设备1000中，处理器1002可包括中央处理器（CPU）、图形处理器（GPU）、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器1002还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器1002可运行存储在存储器中的指令或代码，其中，存储器1001还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器1001可与处理器1002集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器1002可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1001和处理器1002可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器1002能够读取存储在存储器1001中的文件。

此外，电子设备1000还可包括视频显示器（诸如，液晶显示器）和用户交互接口（诸如，键盘、鼠标、触摸输入装置等）。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种计算机可读存储介质，其中，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行本公开实施例的语音增强的训练方法及语音增强方法。这里的计算机可读存储介质的示例包括：只读存储器（ROM）、随机存取可编程只读存储器（PROM）、电可擦除可编程只读存储器（EEPROM）、随机存取存储器（RAM）、动态随机存取存储器（DRAM）、静态随机存取存储器（SRAM）、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器（HDD）、固态硬盘（SSD）、卡式存储器（诸如，多媒体卡、安全数字（SD）卡或极速数字（XD）卡）、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开实施例，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现本公开实施例的语音增强模型的训练方法及语音增强方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音增强模型的训练方法，其特征在于，所述语音增强模型包括复数掩码网络和波束形成模块，所述训练方法包括：

获取训练样本集，其中，所述训练样本集中每个训练样本包括多通道含噪语音信号和对应的多通道干净语音信号，所述多通道含噪语音信号是所述对应的多通道干净语音信号添加噪声和混响后的语音信号；

将多通道含噪语音信号的复数谱输入到所述复数掩码网络，得到每个通道的复数掩码，其中，所述复数掩码表示的是含噪语音信号中干净语音信号的占比；

基于每个通道的复数谱与对应的复数掩码，得到每个通道的增强复数谱；

将每个通道的增强复数谱输入到所述波束形成模块，得到单通道的预估增强复数谱；

基于所述预估增强复数谱对应的预估时域信号和所述多通道干净语音信号中预定通道的干净语音信号，确定所述语音增强模型的目标损失函数；

根据所述目标损失函数调整所述复数掩码网络的参数，对所述语音增强模型进行训练。

2.如权利要求1所述的训练方法，其特征在于，所述基于所述预估增强复数谱对应的预估时域信号和所述多通道干净语音信号中预定通道的干净语音信号，确定所述语音增强模型的目标损失函数，包括：

基于所述预估时域信号、所述多通道干净语音信号中预定通道的干净语音信号和所述预定通道的噪声信号，确定所述语音增强模型的目标损失函数。

3.如权利要求2所述的训练方法，其特征在于，所述基于所述预估时域信号、所述多通道干净语音信号中预定通道的干净语音信号和所述预定通道的噪声信号，确定所述语音增强模型的目标损失函数，包括：

基于所述多通道干净语音信号中预定通道的干净语音信号和所述预定通道的含噪语音信号，获取真实噪声信号；

基于所述预估时域信号和所述预定通道的含噪语音信号，获取预估噪声信号；

基于所述预估时域信号、所述预定通道的干净语音信号、所述预估噪声信号和所述真实噪声信号，确定所述语音增强模型的目标损失函数。

4.如权利要求3所述的训练方法，其特征在于，所述基于所述预估时域信号、所述预定通道的干净语音信号、所述预估噪声信号和所述真实噪声信号，确定所述语音增强模型的目标损失函数，包括：

基于所述预估时域信号和所述预定通道的干净语音信号的差值的绝对值、所述预估噪声信号和所述真实噪声信号的差值的绝对值，确定所述语音增强模型的目标损失函数。

5.如权利要求1所述的训练方法，其特征在于，所述预定通道为多通道对应的麦克风阵列中位置居中的通道。

6.如权利要求1至5中任一项所述的训练方法，其特征在于，所述复数掩码网络包括因果U-NET网络。

7.一种语音增强方法，其特征在于，包括：

获取待处理的多通道含噪语音信号；

将多通道含噪语音信号的复数谱输入到语音增强模型中复数掩码网络，得到每个通道的复数掩码；

将每个通道的增强复数谱输入到语音增强模型中波束形成模块，得到单通道的增强复数谱；

获取所述增强复数谱对应的时域信号，并将所述时域信号作为所述多通道含噪语音信号的增强语音信号。

8.如权利要求7所述的语音增强方法，其特征在于，所述获取所述增强复数谱对应的时域信号，包括：

将所述增强复数谱进行滤波处理；

基于滤波处理后的增强复数谱得到对应的时域信号。

9.如权利要求7或8所述的语音增强方法，其特征在于，所述复数掩码网络包括因果U-NET网络。

10.如权利要求7或8所述的语音增强方法，其特征在于，所述语音增强模型是通过如权利要求1至6中任一项所述的训练方法训练得到的。

11.一种语音增强模型的训练装置，其特征在于，所述语音增强模型包括复数掩码网络和波束形成模块，所述训练装置包括：

训练样本集获取单元，被配置为获取训练样本集，其中，所述训练样本集中每个训练样本包括多通道含噪语音信号和对应的多通道干净语音信号，所述多通道含噪语音信号是所述对应的多通道干净语音信号添加噪声和混响后的语音信号；

复数掩码获取单元，被配置为将多通道含噪语音信号的复数谱输入到所述复数掩码网络，得到每个通道的复数掩码，其中，所述复数掩码表示的是含噪语音信号中干净语音信号的占比；

增强复数谱获取单元，被配置为基于每个通道的复数谱与对应的复数掩码，得到每个通道的增强复数谱；

预估增强复数谱获取单元，被配置为将每个通道的增强复数谱输入到所述波束形成模块，得到单通道的预估增强复数谱；

目标损失函数确定单元，被配置为基于所述预估增强复数谱对应的预估时域信号和所述多通道干净语音信号中预定通道的干净语音信号，确定所述语音增强模型的目标损失函数；

训练单元，被配置为根据所述目标损失函数调整所述复数掩码网络的参数，对所述语音增强模型进行训练。

12.如权利要求11所述的训练装置，其特征在于，所述目标损失函数确定单元，还被配置为基于所述预估时域信号、所述多通道干净语音信号中预定通道的干净语音信号和所述预定通道的噪声信号，确定所述语音增强模型的目标损失函数。

13.如权利要求12所述的训练装置，其特征在于，所述目标损失函数确定单元，还被配置为基于所述多通道干净语音信号中预定通道的干净语音信号和所述预定通道的含噪语音信号，获取真实噪声信号；基于所述预估时域信号和所述预定通道的含噪语音信号，获取预估噪声信号；基于所述预估时域信号、所述预定通道的干净语音信号、所述预估噪声信号和所述真实噪声信号，确定所述语音增强模型的目标损失函数。

14.如权利要求13所述的训练装置，其特征在于，所述目标损失函数确定单元，还被配置为基于所述预估时域信号和所述预定通道的干净语音信号的差值的绝对值、所述预估噪声信号和所述真实噪声信号的差值的绝对值，确定所述语音增强模型的目标损失函数。

15.如权利要求11所述的训练装置，其特征在于，所述预定通道为多通道对应的麦克风阵列中位置居中的通道。

16.如权利要求11至15中任一项所述的训练装置，其特征在于，所述复数掩码网络包括因果U-NET网络。

17.一种语音增强装置，其特征在于，包括：

获取单元，被配置为获取待处理的多通道含噪语音信号；

复数掩码获取单元，被配置为将多通道含噪语音信号的复数谱输入到语音增强模型中复数掩码网络，得到每个通道的复数掩码；

第一增强复数谱获取单元，被配置为基于每个通道的复数谱与对应的复数掩码，得到每个通道的增强复数谱；

第二增强复数谱获取单元，被配置为将每个通道的增强复数谱输入到语音增强模型中波束形成模块，得到单通道的增强复数谱；

增强语音信号获取单元，被配置为获取所述增强复数谱对应的时域信号，并将所述时域信号作为所述多通道含噪语音信号的增强语音信号。

18.如权利要求17所述的语音增强装置，其特征在于，所述增强语音信号获取单元，还被配置为将所述增强复数谱进行滤波处理；基于滤波处理后的增强复数谱得到对应的时域信号。

19.如权利要求17或18所述的语音增强装置，其特征在于，所述复数掩码网络包括因果U-NET网络。

20.如权利要求17或18所述的语音增强装置，其特征在于，所述语音增强模型是通过如权利要求1至6中任一项所述的训练方法训练得到的。

21.一种电子设备，其特征在于，包括:

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的语音增强模型的训练方法和权利要求7至10中任一项所述的语音增强方法。

22.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至6中任一项所述的语音增强模型的训练方法和/或权利要求7至10中任一项所述的语音增强方法。