CN114283833A

CN114283833A - 语音增强模型训练方法、语音增强方法、相关设备及介质

Info

Publication number: CN114283833A
Application number: CN202111596013.6A
Authority: CN
Inventors: 任新蕾; 许成林; 陈联武; 郑羲光; 张旭; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-05

Abstract

本公开关于一种语音增强模型训练方法、语音增强方法、相关设备及介质。训练方法包括：基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应；将单通道纯净时域语音信号和时域噪声信号分别与三维房间冲激响应进行卷积，得到纯净时域三维语音信号和时域三维噪声信号；基于预设信噪比对纯净时域三维语音信号和时域三维噪声信号进行混合处理，得到样本含噪时域三维语音信号；将样本含噪时域三维语音信号的复数谱输入到语音增强模型中，得到单通道预估增强复数谱；基于单通道预估增强复数谱对应的预估时域信号和单通道纯净时域语音信号，确定语音增强模型的目标损失函数；根据目标损失函数调整语音增强模型的参数，对语音增强模型进行训练。

Description

语音增强模型训练方法、语音增强方法、相关设备及介质

技术领域

本公开涉及语音增强领域，尤其涉及一种语音增强模型训练方法、语音增强方法、相关设备及介质。

背景技术

近几年，人们越来越青睐于通过线上音视频会议的方式开会，这有助于打破人与人之间的距离障碍，提供更高效的沟通方式。但是，会议室的背景噪声，混响和麦克风数量等因素往往会严重影响会议期间的语音质量。为了提高语音质量，目前提出多种语音增强方式来进行语音增强处理。

但是，相关技术中的语音增强方式仅能针对平面声场进行语音增强处理，并不能对三维声场进行语音增强。

发明内容

本公开提供一种语音增强模型训练方法、语音增强方法、相关设备及介质，以至少解决相关技术中无法对三维声场进行语音增强的问题。

根据本公开实施例的第一方面，提供一种语音增强模型训练方法，训练方法包括：基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应；将单通道纯净时域语音信号和时域噪声信号分别与三维房间冲激响应进行卷积，得到纯净时域三维语音信号和时域三维噪声信号；基于预设信噪比对纯净时域三维语音信号和时域三维噪声信号进行混合处理，得到样本含噪时域三维语音信号；将样本含噪时域三维语音信号的复数谱输入到语音增强模型中，得到单通道预估增强复数谱；基于单通道预估增强复数谱对应的预估时域信号和单通道纯净时域语音信号，确定语音增强模型的目标损失函数；根据目标损失函数调整语音增强模型的参数，对语音增强模型进行训练。

可选地，将样本含噪时域三维语音信号的复数谱输入到语音增强模型中，得到单通道预估增强复数谱，包括：根据样本含噪时域三维语音信号确定每个通道的样本复数谱，得到多个通道的样本复数谱；将多个通道的样本复数谱输入到语音增强模型的复数掩码网络，得到多个通道的样本复数掩码，其中，样本复数掩码表示相应通道的含噪时域语音信号中纯净时域语音信号的占比；根据多个通道的样本复数谱和样本复数掩码确定每个通道的样本增强复数谱，得到多个通道的样本增强复数谱；将多个通道的样本增强复数谱输入到语音增强模型的波束形成模块，得到单通道预估增强复数谱。

可选地，基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应，包括：通过第一三维声场麦克风采集第一信号格式的三维扫频信号，其中，第一三维声场麦克风包括多个心形指向的麦克风单元；基于第一信号格式的三维扫频信号，得到第一信号格式的三维房间冲激响应；将第一信号格式的三维房间冲激响应转换为第二信号格式的三维房间冲激响应。

可选地，基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应，包括：通过第二三维声场麦克风采集第二信号格式的三维扫频信号，其中，第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元；基于第二信号格式的三维扫频信号，得到第二信号格式的三维房间冲激响应。

可选地，基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应，包括：通过第一三维声场麦克风采集第一信号格式的三维扫频信号，其中，第一三维声场麦克风包括多个心形指向的麦克风单元；基于第一信号格式的三维扫频信号，得到第一信号格式的三维房间冲激响应。

可选地，基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应，包括：通过第二三维声场麦克风采集第二信号格式的三维扫频信号，其中，第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元；基于第二信号格式的三维扫频信号，得到第二信号格式的三维房间冲激响应；将第二信号格式的三维房间冲激响应转换为第一信号格式的三维房间冲激响应。

根据本公开实施例的第二方面，提供一种语音增强方法，包括：获取待处理的含噪三维时域语音信号；将含噪三维时域语音信号的复数谱输入到语音增强模型，得到单通道增强复数谱；确定单通道增强复数谱对应的时域信号，并将时域信号作为含噪三维时域语音信号的增强时域语音信号；其中，语音增强模型是基于上述的训练方法训练得到。

可选地，将含噪三维时域语音信号的复数谱输入到语音增强模型，得到单通道增强复数谱，包括：根据含噪三维时域语音信号确定每个通道的复数谱，得到多个通道的复数谱；将多个通道的复数谱输入到语音增强模型的复数掩码网络，得到多个通道的复数掩码，其中，复数掩码表示相应通道的含噪时域语音信号中纯净时域语音信号的占比；根据多个通道的复数谱和复数掩码确定每个通道的增强复数谱，得到多个通道的增强复数谱；将多个通道的增强复数谱输入到语音增强模型的波束形成模块，得到单通道增强复数谱。

可选地，获取待处理的含噪三维时域语音信号，包括：通过第一三维声场麦克风采集第一信号格式的含噪三维时域语音信号，其中，第一三维声场麦克风包括多个心形指向的麦克风单元；将第一信号格式的含噪三维时域语音信号转换为第二信号格式的含噪三维时域语音信号。

可选地，获取待处理的含噪三维时域语音信号，包括：通过第二三维声场麦克风采集第二信号格式的含噪三维时域语音信号，其中，第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元。

可选地，获取待处理的含噪三维时域语音信号，包括：通过第一三维声场麦克风采集第一信号格式的含噪三维时域语音信号，其中，第一三维声场麦克风包括多个心形指向的麦克风单元。

可选地，获取待处理的含噪三维时域语音信号，包括：通过第二三维声场麦克风采集第二信号格式的含噪三维时域语音信号，其中，第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元；将第二信号格式的含噪三维时域语音信号转换为第一信号格式的含噪三维时域语音信号。

根据本公开实施例的第三方面，提供一种语音增强模型的训练装置，训练装置包括：三维房间冲激响应确定单元，被配置为基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应；三维信号获取单元，被配置为将单通道纯净时域语音信号和时域噪声信号分别与三维房间冲激响应进行卷积，得到纯净时域三维语音信号和时域三维噪声信号；样本信号获取单元，被配置为基于预设信噪比对纯净时域三维语音信号和时域三维噪声信号进行混合处理，得到样本含噪时域三维语音信号；预估增强模型获取单元，被配置为将样本含噪时域三维语音信号的复数谱输入到语音增强模型中，得到单通道预估增强复数谱；目标损失函数确定单元，被配置为基于单通道预估增强复数谱对应的预估时域信号和单通道纯净时域语音信号，确定语音增强模型的目标损失函数；训练单元，被配置为根据目标损失函数调整语音增强模型的参数，对语音增强模型进行训练。

可选地，预估增强模型获取单元，还被配置为根据样本含噪时域三维语音信号确定每个通道的样本复数谱，得到多个通道的样本复数谱；将多个通道的样本复数谱输入到语音增强模型的复数掩码网络，得到多个通道的样本复数掩码，其中，样本复数掩码表示相应通道的含噪时域语音信号中纯净时域语音信号的占比；根据多个通道的样本复数谱和样本复数掩码确定每个通道的样本增强复数谱，得到多个通道的样本增强复数谱；将多个通道的样本增强复数谱输入到语音增强模型的波束形成模块，得到单通道预估增强复数谱。

可选地，三维房间冲激响应确定单元，还被配置为通过第一三维声场麦克风采集第一信号格式的三维扫频信号，其中，第一三维声场麦克风包括多个心形指向的麦克风单元；基于第一信号格式的三维扫频信号，得到第一信号格式的三维房间冲激响应；将第一信号格式的三维房间冲激响应转换为第二信号格式的三维房间冲激响应。

可选地，三维房间冲激响应确定单元，还被配置为通过第二三维声场麦克风采集第二信号格式的三维扫频信号，其中，第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元；基于第二信号格式的三维扫频信号，得到第二信号格式的三维房间冲激响应。

可选地，三维房间冲激响应确定单元，还被配置为通过第一三维声场麦克风采集第一信号格式的三维扫频信号，其中，第一三维声场麦克风包括多个心形指向的麦克风单元；基于第一信号格式的三维扫频信号，得到第一信号格式的三维房间冲激响应。

可选地，三维房间冲激响应确定单元，还被配置为通过第二三维声场麦克风采集第二信号格式的三维扫频信号，其中，第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元；基于第二信号格式的三维扫频信号，得到第二信号格式的三维房间冲激响应；将第二信号格式的三维房间冲激响应转换为第一信号格式的三维房间冲激响应。

根据本公开实施例的第四方面，提供一种语音增强装置，包括：含噪三维时域语音信号获取单元，被配置为获取待处理的含噪三维时域语音信号；增强复数谱获取单元，被配置为将含噪三维时域语音信号的复数谱输入到语音增强模型，得到单通道增强复数谱；增强信号获取单元，被配置为确定单通道增强复数谱对应的时域信号，并将时域信号作为含噪三维时域语音信号的增强时域语音信号；其中，语音增强模型是基于上述的训练方法训练得到。

可选地，增强复数谱获取单元，还被配置为根据含噪三维时域语音信号确定每个通道的复数谱，得到多个通道的复数谱；将多个通道的复数谱输入到语音增强模型的复数掩码网络，得到多个通道的复数掩码，其中，复数掩码表示相应通道的含噪时域语音信号中纯净时域语音信号的占比；根据多个通道的复数谱和复数掩码确定每个通道的增强复数谱，得到多个通道的增强复数谱；将多个通道的增强复数谱输入到语音增强模型的波束形成模块，得到单通道增强复数谱。

可选地，含噪三维时域语音信号获取单元，还被配置为通过第一三维声场麦克风采集第一信号格式的含噪三维时域语音信号，其中，第一三维声场麦克风包括多个心形指向的麦克风单元；将第一信号格式的含噪三维时域语音信号转换为第二信号格式的含噪三维时域语音信号。

可选地，含噪三维时域语音信号获取单元，还被配置为通过第二三维声场麦克风采集第二信号格式的含噪三维时域语音信号，其中，第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元。

可选地，含噪三维时域语音信号获取单元，还被配置为通过第一三维声场麦克风采集第一信号格式的含噪三维时域语音信号，其中，第一三维声场麦克风包括多个心形指向的麦克风单元。

可选地，含噪三维时域语音信号获取单元，还被配置为通过第二三维声场麦克风采集第二信号格式的含噪三维时域语音信号，其中，第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元；将第二信号格式的含噪三维时域语音信号转换为第一信号格式的含噪三维时域语音信号。

根据本公开实施例的第五方面，提供了一种电子设备，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为执行指令，以实现根据本公开的语音增强模型的训练方法和/或语音增强方法。

根据本公开实施例的第六方面，提供了一种计算机可读存储介质，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行如上根据本公开的语音增强模型的训练方法和/或语音增强方法。

根据本公开实施例的第七方面，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现根据本公开的语音增强模型的训练方法和/或语音增强方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的语音增强模型训练方法、语音增强方法、相关设备及介质，采用三维声场的时域语音信号训练语音增强模型，且整个训练过程在复数谱域进行，不再在时域中进行，使得训练出的语音增强模型可以有效降低三维语音通信期间的噪声和混响干扰，提高三维声场场景下的语音增强效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的语音增强模型的训练方法的实施场景示意图；

图2是根据一示例性实施例示出的一种语音增强模型的训练方法的流程图；

图3是根据一示例性实施例示出的一种三维声场麦克风示意图；

图4是根据一示例性实施例示出的一种生成训练样本集的仿真过程示意图；

图5是根据一示例性实施例示出的一种可选的语音增强模型的训练方法的流程图；

图6是根据一示例性实施例示出的另一种可选的语音增强模型的训练方法的流程图；

图7是根据一示例性实施例示出的一种语音增强方法的流程图；

图8是根据一示例性实施例示出的另一种语音增强方法的流程图；

图9是根据一示例性实施例示出的一种语音增强模型的训练装置的框图；

图10是根据一示例性实施例示出的一种语音增强装置的框图；

图11是根据本公开实施例的一种电子设备1100的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

针对上述问题，本公开提供了一种语音增强模型的训练方法，能够有效降低三维语音通信期间的噪声和混响干扰，下面以视频会议场景为例进行说明。

图1是示出根据本公开的示例性实施例的语音增强模型的训练方法的实施场景示意图，如图1所述，该实施场景包括服务器100、用户终端110和用户终端120，其中，用户终端不限于2个，包括并不限于手机、个人计算机等设备，用户终端可以安装用于视频会议的应用程序，服务器可以是一个服务器，也可以是若干个服务器组成服务器集群，还可以是云计算平台或虚拟化中心。

服务器100接收用户终端110、120发送的对语音增强模型进行训练的请求之后，接收三维声场麦克风采集的三维扫频信号，基于该三维扫频音信号得到三维房间冲激响应(Room Impulse Response，缩写为RIR)，再将单通道纯净时域语音信号和时域噪声信号，分别与对应的RIR进行卷积得到纯净三维时域语音信号和三维时域噪声信号，将纯净三维时域语音信号和三维时域噪声信号进行混合得到样本含噪三维时域语音信号；服务器100将样本含噪三维时域语音信号每个通道的样本复数谱输入到语音增强模型中复数掩码网络，得到每个通道的样本复数掩码，其中，样本复数掩码表示的是一个通道的含噪时域语音信号中纯净时域语音信号的占比；服务器100基于每个通道的样本复数谱与对应的样本复数掩码，得到每个通道的样本增强复数谱；服务器100将每个通道的样本增强复数谱输入到语音增强模型的波束形成模块，得到单通道预估增强复数谱；服务器100基于预估增强复数谱对应的预估时域信号和单通道纯净时域语音信号，确定语音增强模型的目标损失函数；服务器100根据目标损失函数调整复数掩码网络的参数，对语音增强模型进行训练，得到训练好的语音增强模型，通过训练好的语音增强模型可以对通过麦克风获取的三维时域语音信号进行语音增强，也即得到视频会议中发言人的声音。

下面，将参照图2至图10详细描述根据本公开的示例性实施例的语音增强模型训练方法、语音增强方法、相关设备及介质。

图2是根据一示例性实施例示出的一种语音增强模型的训练方法的流程图，如图2所示，训练方法包括以下步骤：

在步骤S201中，基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应。

根据本公开的示例性实施例，基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应，包括：通过第一三维声场麦克风采集第一信号格式的三维扫频信号，其中，第一三维声场麦克风包括多个心形指向的麦克风单元；基于第一信号格式的三维扫频信号，得到第一信号格式的三维房间冲激响应；将第一信号格式的三维房间冲激响应转换为第二信号格式的三维房间冲激响应。通过本实施例，即使麦克风采集的是第一信号格式的三维扫频信号，也可以转换得到第二信号格式的三维RIR。

例如，图3是根据一示例性实施例示出的一种三维声场麦克风示意图，如图3所示，三维声场麦克风使用了4个心形指向的麦克风单元，分别为FLU(前左上，Front Left Up)，FRD(前右下，Front Right Down)，BLD(后左下，Back Left Down)和BRU(前右上，BackRight Up)，通过上述形式的麦克风采集出来的信号即为A格式的信号，需要说明的是，A格式是一种信号格式，而信号格式还包括B格式，B格式的信号可以通过1个全指向的麦克风单元和3个8字形指向的麦克风单元采集到。如可以采用如图3所示的三维声场麦克风获取A格式的三维扫频信号，也即采集的原始4路扫频信号，基于该原始4路扫频信号，得到A格式的三维RIR，再将A格式的三维RIR转换为B格式的三维RIR。需要说明的是，这里也可以直接将A格式的三维扫频信号，也即原始4路扫频信号直接转换为B格式的扫频信号，再基于B格式的扫频信号得到B格式的三维RIR，对此与AB格式之间转换的时机，本公开对此并不进行限定。

下面简要说明A格式转换到B格式的转换逻辑，以一个降噪场景为例进行说明，其中，s_a(t)代表纯净时域三维时域语音信号，n_a(t)代表时域三维噪音信号，m_a(t)代表麦克风采集的含噪时域三维语音信号，则有：

m_a(t)＝s_a(t)+n_a(t),a＝FLU,FRD,BLD,BRU (1)

再使用短时傅里叶变换，变换后在时频域可以表示为(l为帧序列，f为频率序列)：

M_a(l,f)＝S_a(l,f)+N_a(l,f) (2)

预估时域信号可以通过下面等式获得：

其中，

对于在工业界更普遍使用的三维直角坐标系的B格式信号，可以通过A格式信号获得：

其中，

故有：

其中，

后续使用神经网络，可以得到对于W_B ^T的估计，从而达到分离语音和噪音的目的。

根据本公开的示例性实施例，基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应，包括：通过第二三维声场麦克风采集第二信号格式的三维扫频信号，其中，第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元；基于第二信号格式的三维扫频信号，得到第二信号格式的三维房间冲激响应。通过本实施例，可以直接、快速的获取到第二信号格式的三维RIR。

根据本公开的示例性实施例，基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应，包括：通过第一三维声场麦克风采集第一信号格式的三维扫频信号，其中，第一三维声场麦克风包括多个心形指向的麦克风单元；基于第一信号格式的三维扫频信号，得到第一信号格式的三维房间冲激响应。通过本实施例，可以直接、快速的获取到第一信号格式的三维RIR。

根据本公开的示例性实施例，基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应，包括：通过第二三维声场麦克风采集第二信号格式的三维扫频信号，其中，第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元；基于第二信号格式的三维扫频信号，得到第二信号格式的三维房间冲激响应；将第二信号格式的三维房间冲激响应转换为第一信号格式的三维房间冲激响应。通过本实施例，即使麦克风采集的是第二信号格式的三维扫频信号，也可以转换得到第一信号格式的三维RIR。例如，上述第一预设数量可以为1，第二预设数量可以为3，对此本公开并不限定。需要说明的是B格式到A格式的转换与A格式到B格式的转换是相逆过程，此处不再展开论述。

在步骤S202中，将单通道纯净时域语音信号和时域噪声信号分别与三维房间冲激响应进行卷积，得到纯净时域三维语音信号和时域三维噪声信号。

需要说明的是，针对单通道纯净时域语音信号和时域噪声信号，也可以选择不同的三维房间冲激响应，具体的，单通道纯净时域语音信号和时域噪声信号各自的三维RIR，其获取方式是一样的，即都是基于三维声场麦克风采集的三维扫频信号，确定对应三维RIR，不同之处是三维声场麦克风位置不同，比如，在一个屋子里的一个位置设置三维声场麦克风采集三维扫频信号，用来获取针对单通道纯净时域语音信号的三维RIR，在另一个位置设置三维声场麦克风采集三维扫频信号，用来获取针对单通道时域噪声信号的三维RIR。

在步骤S203中，基于预设信噪比对纯净时域三维语音信号和时域三维噪声信号进行混合处理，得到样本含噪时域三维语音信号。

例如，本公开训练所需的样本含噪三维时域语音信号可以通过如图4所示的仿真过程仿真产生。图4是根据一示例性实施例示出的一种生成训练样本集的仿真过程示意图，如图4所示，首先，使用三维声场麦克风阵列采集三维扫频信号，如此处获取的是第一信号格式(如A格式)的三维扫频信号，基于该三维扫频信号得到A格式的RIR，并将该A格式的RIR转换为第二信号格式(如B格式)的RIR；然后，将单通道的纯净时域语音信号和时域噪声信号，分别与对应的B格式RIR卷积仿真出B格式的纯净三维时域语音信号和时域噪声信号；最后，将该B格式的纯净三维时域语音信号和时域噪声信号以一定的信噪比进行加性混合生成训练样本，以此类推得到训练样本集。

在步骤S204中，将样本含噪时域三维语音信号的复数谱输入到语音增强模型中，得到单通道预估增强复数谱。

根据本公开的示例性实施例，将样本含噪时域三维语音信号的复数谱输入到语音增强模型中，得到单通道预估增强复数谱，包括：根据样本含噪时域三维语音信号确定每个通道的样本复数谱，得到多个通道的样本复数谱；将多个通道的样本复数谱输入到语音增强模型的复数掩码网络，得到多个通道的样本复数掩码，其中，样本复数掩码表示相应通道的含噪时域语音信号中纯净时域语音信号的占比；根据多个通道的样本复数谱和样本复数掩码确定每个通道的样本增强复数谱，得到多个通道的样本增强复数谱；将多个通道的样本增强复数谱输入到语音增强模型的波束形成模块，得到单通道预估增强复数谱。根据本实施例，在复数域将复数掩码和波束形成算法相结合，可以得到较好的增强复数谱。

返回图2，在步骤S202中，将含噪三维时域语音信号中每个通道的含噪时域语音信号的复数谱输入到复数掩码网络，得到每个通道的复数掩码，其中，复数掩码表示的是一个通道的含噪时域语音信号中纯净时域语音信号的占比。

例如，复数掩码网络可以包括但不限于因果U-NET网络。例如，在复数掩码网络为因果U-NET网络时，本公开使用的U-NET网络可以是一个编码器-解码器(Encoder-Decoder)架构，其中，编码器(Encoder)可以包含10个卷积块，每个卷积块包含一个2维卷积(Conv2d)层、批量标准化(Batch Normalization)层、丢弃(Dropout)层和LeakyRelu激活函数；解码器(Decoder)可以包含10个反转卷积块，每个反转卷积块与对应的卷积块唯一的不同之处是将2维卷积(Conv2d)层替换为2维转置卷积(Conv2dTranspose，也称为2维反转卷积)层。表1展示了Encoder中每个Conv2d层的超参数，表中第一列为层(Layer)，第二列为通道数(Channel number)，第三列为卷积核(Kernel)，第四列为步长(Stride)。U-NET网络中每层的输入特征可以按照[批大小(BatchSize)，频点(Frequency)，帧(Frame)，通道(Channel)]的形式组织。

表1 Encoder中每个Conv2d层的超参数

返回图2，在步骤S205中，基于单通道预估增强复数谱对应的预估时域信号和单通道纯净时域语音信号，确定语音增强模型的目标损失函数。

例如，可以发明使用时域的平均绝对误差MAE(mean absolute error)作为网络目标损失函数loss，具体见下式：

其中，s为对应的单通道纯净时域语音信号，

为单通道预估增强复数谱对应的预估时域信号。

在步骤S206中，根据目标损失函数调整语音增强模型的参数，对语音增强模型进行训练。例如，如图5所示，使用预估增强复数谱

对应的预估时域信号

和单通道纯净时域语音信号s求出目标损失函数(loss)，基于该loss值更新语音增强模型的参数，直至语音增强模型收敛，其中，图5中的各标识含义如下：m_W,m_X,m_Y,m_Z分别表示四个通道上的时域含噪时域语音信号，M_W,M_X,M_Y,M_Z表示每个通道的复数谱，STFT表示短时傅里叶变换(Short-TimeFourier Transform)，ISTFT表示短时逆傅里叶变换(Inverse Short-Time FourierTransform)。

下面以复数掩码网络为因果U-NET网络为例系统的论述上述实施例，图6展示了语音增强模型的训练过程，如图6所示，该语音增强模型联合了一个基于因果U-NET网络的神经网络以及一个波束形成模块。首先，对B格式的多通道的时域含噪时域语音信号{m_W,m_X,m_Y,m_Z}(即组成上述含噪时域三维语音信号)进行短时傅里叶变换(Short-Time FourierTransform，缩写为STFT)得到多通道的时域含噪时域语音信号的复数谱{M_W,M_X,M_Y,M_Z}，其中，W、X、Y、Z表示四个通道，m_W,m_X,m_Y,m_Z分别表示四个通道上的时域含噪时域语音信号，M_W,M_X,M_Y,M_Z表示每个通道的复数谱；接着，将该多通道复数谱送入U-NET网络，得到每个通道对应的复数掩码mask，即对应图中{W_W,W_X,W_Y,W_Z}；然后，将多通道时域含噪时域语音信号的复数谱与对应的复数mask相乘得到多通道增强的复数谱

接着，使用波束形成的方式将

在通道维相加得到单通道增强的复数谱

最后，对其进行短时逆傅里叶变换(Inverse Short-Time Fourier Transform，缩写为ISTFT)得到增强的时域语音信号。

图7是根据一示例性实施例示出的一种语音增强方法的流程图，如图7语音增强方法可以包括以下步骤：

在步骤S701中，获取待处理的含噪三维时域语音信号。

在步骤S702中，将含噪三维时域语音信号的复数谱输入到语音增强模型，得到单通道增强复数谱，其中，语音增强模型是基于上述的训练方法训练得到。

在步骤S703中，确定单通道增强复数谱对应的时域信号，并将时域信号作为含噪三维时域语音信号的增强时域语音信号。

根据本公开的示例性实施例，将含噪三维时域语音信号的复数谱输入到语音增强模型，得到单通道增强复数谱，包括：根据含噪三维时域语音信号确定每个通道的复数谱，得到多个通道的复数谱；将多个通道的复数谱输入到语音增强模型的复数掩码网络，得到多个通道的复数掩码，其中，复数掩码表示相应通道的含噪时域语音信号中纯净时域语音信号的占比；根据多个通道的复数谱和复数掩码确定每个通道的增强复数谱，得到多个通道的增强复数谱；将多个通道的增强复数谱输入到语音增强模型的波束形成模块，得到单通道增强复数谱。

根据本公开的示例性实施例，获取待处理的含噪三维时域语音信号，包括：通过第一三维声场麦克风采集第一信号格式的含噪三维时域语音信号，其中，第一三维声场麦克风包括多个心形指向的麦克风单元；将第一信号格式的含噪三维时域语音信号转换为第二信号格式的含噪三维时域语音信号。

根据本公开的示例性实施例，获取待处理的含噪三维时域语音信号，包括：通过第二三维声场麦克风采集第二信号格式的含噪三维时域语音信号，其中，第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元。

根据本公开的示例性实施例，获取待处理的含噪三维时域语音信号，包括：通过第一三维声场麦克风采集第一信号格式的含噪三维时域语音信号，其中，第一三维声场麦克风包括多个心形指向的麦克风单元。

根据本公开的示例性实施例，获取待处理的含噪三维时域语音信号，包括：通过第二三维声场麦克风采集第二信号格式的含噪三维时域语音信号，其中，第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元；将第二信号格式的含噪三维时域语音信号转换为第一信号格式的含噪三维时域语音信号。

例如，在语音增强模型训练完成后，可以将待处理的含噪时域语音信号转换到第二信号格式的时域语音信号，并将其输入到语音增强模型中，得到对应的增强时域语音信号，具体如图8所示。综上，为了提升语音通信质量，本公开基于声场麦克风(soundfieldmicrophone)的三维声场信号设计了一个传统信号处理结合深度学习的空间音频波束形成方法，主要包括一个多通道U-NET网络和一个波束形成模块。该系统能有效降低三维声场时域语音信号的噪声和混响的干扰，极大地提升主观语音听感和语音可懂度。

图9是根据一示例性实施例示出的一种语音增强模型的训练装置的框图。参照图9，语音增强模型包括复数掩码网络和波束形成模块，该训练装置包括三维房间冲激响应确定单元90、三维信号获取单元92、样本信号获取单元94、预估增强模型获取单元96、目标损失函数确定单元98和训练单元910。

三维房间冲激响应确定单元90，被配置为基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应；三维信号获取单元92，被配置为将单通道纯净时域语音信号和时域噪声信号分别与三维房间冲激响应进行卷积，得到纯净时域三维语音信号和时域三维噪声信号；样本信号获取单元94，被配置为基于预设信噪比对纯净时域三维语音信号和时域三维噪声信号进行混合处理，得到样本含噪时域三维语音信号；预估增强模型获取单元96，被配置为将样本含噪时域三维语音信号的复数谱输入到语音增强模型中，得到单通道预估增强复数谱；目标损失函数确定单元98，被配置为基于单通道预估增强复数谱对应的预估时域信号和单通道纯净时域语音信号，确定语音增强模型的目标损失函数；训练单元910，被配置为根据目标损失函数调整语音增强模型的参数，对语音增强模型进行训练。

根据本公开的示例性实施例，预估增强模型获取单元96，还被配置为根据样本含噪时域三维语音信号确定每个通道的样本复数谱，得到多个通道的样本复数谱；将多个通道的样本复数谱输入到语音增强模型的复数掩码网络，得到多个通道的样本复数掩码，其中，样本复数掩码表示相应通道的含噪时域语音信号中纯净时域语音信号的占比；根据多个通道的样本复数谱和样本复数掩码确定每个通道的样本增强复数谱，得到多个通道的样本增强复数谱；将多个通道的样本增强复数谱输入到语音增强模型的波束形成模块，得到单通道预估增强复数谱。

根据本公开的示例性实施例，三维房间冲激响应确定单元90，还被配置为：通过第一三维声场麦克风采集第一信号格式的三维扫频信号，其中，第一三维声场麦克风包括多个心形指向的麦克风单元；基于第一信号格式的三维扫频信号，得到第一信号格式的三维房间冲激响应；将第一信号格式的三维房间冲激响应转换为第二信号格式的三维房间冲激响应。

根据本公开的示例性实施例，三维房间冲激响应确定单元90，还被配置为：通过第二三维声场麦克风采集第二信号格式的三维扫频信号，其中，第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元；基于第二信号格式的三维扫频信号，得到第二信号格式的三维房间冲激响应。

根据本公开的示例性实施例，三维房间冲激响应确定单元90，还被配置为：通过第一三维声场麦克风采集第一信号格式的三维扫频信号，其中，第一三维声场麦克风包括多个心形指向的麦克风单元；基于第一信号格式的三维扫频信号，得到第一信号格式的三维房间冲激响应。

根据本公开的示例性实施例，三维房间冲激响应确定单元90，还被配置为：通过第二三维声场麦克风采集第二信号格式的三维扫频信号，其中，第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元；基于第二信号格式的三维扫频信号，得到第二信号格式的三维房间冲激响应；将第二信号格式的三维房间冲激响应转换为第一信号格式的三维房间冲激响应。

图10是根据一示例性实施例示出的一种语音增强装置的框图。参照图10，该装置包括：含噪三维时域语音信号获取单元1002、增强复数谱获取单元1004和增强信号获取单元1006。

含噪三维时域语音信号获取单元1002，被配置为获取待处理的含噪三维时域语音信号；增强复数谱获取单元1004，被配置为将含噪三维时域语音信号的复数谱输入到语音增强模型，得到单通道增强复数谱；增强信号获取单元1006，被配置为确定单通道增强复数谱对应的时域信号，并将时域信号作为含噪三维时域语音信号的增强时域语音信号；其中，语音增强模型是基于上述的训练方法训练得到。

根据本公开的示例性实施例，增强复数谱获取单元1004，还被配置为根据含噪三维时域语音信号确定每个通道的复数谱，得到多个通道的复数谱；将多个通道的复数谱输入到语音增强模型的复数掩码网络，得到多个通道的复数掩码，其中，复数掩码表示相应通道的含噪时域语音信号中纯净时域语音信号的占比；根据多个通道的复数谱和复数掩码确定每个通道的增强复数谱，得到多个通道的增强复数谱；将多个通道的增强复数谱输入到语音增强模型的波束形成模块，得到单通道增强复数谱。

根据本公开的示例性实施例，含噪三维时域语音信号获取单元1002，还被配置为通过第一三维声场麦克风采集第一信号格式的含噪三维时域语音信号，其中，第一三维声场麦克风包括多个心形指向的麦克风单元；将第一信号格式的含噪三维时域语音信号转换为第二信号格式的含噪三维时域语音信号。

根据本公开的示例性实施例，含噪三维时域语音信号获取单元1002，还被配置为通过第二三维声场麦克风采集第二信号格式的含噪三维时域语音信号，其中，第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元。

根据本公开的示例性实施例，含噪三维时域语音信号获取单元1002，还被配置为通过第一三维声场麦克风采集第一信号格式的含噪三维时域语音信号，其中，第一三维声场麦克风包括多个心形指向的麦克风单元。

根据本公开的示例性实施例，含噪三维时域语音信号获取单元1002，还被配置为通过第二三维声场麦克风采集第二信号格式的含噪三维时域语音信号，其中，第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元；将第二信号格式的含噪三维时域语音信号转换为第一信号格式的含噪三维时域语音信号。

根据本公开的实施例，可提供一种电子设备。图11是根据本公开实施例的一种电子设备1100的框图，该电子设备包括至少一个存储器1101和至少一个处理器1102，所述至少一个存储器中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例的语音增强模型的训练方法及语音增强方法。

作为示例，电子设备1100可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备1000并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备1100还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备1100中，处理器1102可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器1102还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器1102可运行存储在存储器中的指令或代码，其中，存储器1101还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器1101可与处理器1102集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器1101可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器1101和处理器1102可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器1102能够读取存储在存储器1101中的文件。

此外，电子设备1100还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备的所有组件可经由总线和/或网络而彼此连接。

根据本公开的实施例，还可提供一种计算机可读存储介质，其中，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行本公开实施例的语音增强模型的训练方法及语音增强方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开实施例，提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行时实现本公开实施例的语音增强模型的训练方法及语音增强方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音增强模型训练方法，其特征在于，所述训练方法包括：

基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应；

将单通道纯净时域语音信号和时域噪声信号分别与所述三维房间冲激响应进行卷积，得到纯净时域三维语音信号和时域三维噪声信号；

基于预设信噪比对所述纯净时域三维语音信号和所述时域三维噪声信号进行混合处理，得到样本含噪时域三维语音信号；

将所述样本含噪时域三维语音信号的复数谱输入到语音增强模型中，得到单通道预估增强复数谱；

基于所述单通道预估增强复数谱对应的预估时域信号和所述单通道纯净时域语音信号，确定所述语音增强模型的目标损失函数；

根据所述目标损失函数调整所述语音增强模型的参数，对所述语音增强模型进行训练。

2.如权利要求1所述的训练方法，其特征在于，所述将所述样本含噪时域三维语音信号的复数谱输入到语音增强模型中，得到单通道预估增强复数谱，包括：

根据所述样本含噪时域三维语音信号确定每个通道的样本复数谱，得到多个通道的样本复数谱；

将所述多个通道的样本复数谱输入到所述语音增强模型的复数掩码网络，得到所述多个通道的样本复数掩码，其中，所述样本复数掩码表示相应通道的含噪时域语音信号中纯净时域语音信号的占比；

根据所述多个通道的样本复数谱和样本复数掩码确定每个通道的样本增强复数谱，得到所述多个通道的样本增强复数谱；

将所述多个通道的样本增强复数谱输入到所述语音增强模型的波束形成模块，得到单通道预估增强复数谱。

3.如权利要求1所述的训练方法，其特征在于，所述基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应，包括：

通过第一三维声场麦克风采集第一信号格式的三维扫频信号，其中，所述第一三维声场麦克风包括多个心形指向的麦克风单元；

基于所述第一信号格式的三维扫频信号，得到所述第一信号格式的三维房间冲激响应；

将所述第一信号格式的三维房间冲激响应转换为第二信号格式的三维房间冲激响应。

4.如权利要求1所述的训练方法，其特征在于，所述基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应，包括：

通过第二三维声场麦克风采集第二信号格式的三维扫频信号，其中，所述第二三维声场麦克风包括第一预设数量个全指向的麦克风单元和第二预设数量个8字形指向的麦克风单元；

基于所述第二信号格式的三维扫频信号，得到所述第二信号格式的三维房间冲激响应。

5.一种语音增强方法，其特征在于，包括：

获取待处理的含噪三维时域语音信号；

将所述含噪三维时域语音信号的复数谱输入到语音增强模型，得到单通道增强复数谱；

确定所述单通道增强复数谱对应的时域信号，并将所述时域信号作为所述含噪三维时域语音信号的增强时域语音信号；

其中，所述语音增强模型是基于权利要求1至4中任一项所述的训练方法训练得到。

6.一种语音增强模型的训练装置，其特征在于，所述训练装置包括：

三维房间冲激响应确定单元，被配置为基于三维声场麦克风采集的三维扫频信号，确定三维房间冲激响应；

三维信号获取单元，被配置为将单通道纯净时域语音信号和时域噪声信号分别与所述三维房间冲激响应进行卷积，得到纯净时域三维语音信号和时域三维噪声信号；

样本信号获取单元，被配置为基于预设信噪比对所述纯净时域三维语音信号和所述时域三维噪声信号进行混合处理，得到样本含噪时域三维语音信号；

预估增强模型获取单元，被配置为将所述样本含噪时域三维语音信号的复数谱输入到语音增强模型中，得到单通道预估增强复数谱；

目标损失函数确定单元，被配置为基于所述单通道预估增强复数谱对应的预估时域信号和所述单通道纯净时域语音信号，确定所述语音增强模型的目标损失函数；

训练单元，被配置为根据所述目标损失函数调整所述语音增强模型的参数，对所述语音增强模型进行训练。

7.一种语音增强装置，其特征在于，包括：

含噪三维时域语音信号获取单元，被配置为获取待处理的含噪三维时域语音信号；

增强复数谱获取单元，被配置为将所述含噪三维时域语音信号的复数谱输入到语音增强模型，得到单通道增强复数谱；

增强信号获取单元，被配置为确定所述单通道增强复数谱对应的时域信号，并将所述时域信号作为所述含噪三维时域语音信号的增强时域语音信号；

8.一种电子设备，其特征在于，包括:

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至4中任一项所述的语音增强模型的训练方法和/或权利要求5所述的语音增强方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1至4中任一项所述的语音增强模型的训练方法和/或权利要求5所述的语音增强方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现如权利要求1至4中任一项所述的语音增强模型的训练方法和/或权利要求5所述的语音增强方法。