CN113990343A

CN113990343A - 语音降噪模型的训练方法和装置及语音降噪方法和装置

Info

Publication number: CN113990343A
Application number: CN202111368043.1A
Authority: CN
Inventors: 张旭; 郑羲光; 韩润强; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-01-28

Abstract

本公开关于语音降噪模型的训练方法和装置及语音降噪方法和装置。训练方法包括：获取含噪语音信号样本，含噪语音信号样本是通过将多条原始语音信号及噪声信号混合得到，每条原始语音信号具有距离值，该距离值表示原始语音信号与目标麦克风位置之间的距离；获取预设第一保留距离值以及目标降噪语音信号，目标降噪语音信号是通过基于每条原始语音信号的距离值以及预设第一保留距离值计算得到；将含噪语音信号样本的幅度谱和预设第一保留距离值输入语音降噪模型，得到估计的降噪语音信号的幅度谱；基于估计的降噪语音信号的幅度谱与目标降噪语音信号的幅度谱计算损失函数的值；基于计算出的损失函数的值训练语音降噪模型。

Description

语音降噪模型的训练方法和装置及语音降噪方法和装置

技术领域

本公开涉及音频技术领域，更具体地说，涉及一种语音降噪模型的训练方法和装置及语音降噪方法和装置。

背景技术

音频降噪通常是指将一段音频信号中的噪声部分去除掉或者削弱，得到期望音频信号的过程。一般意义上的音频降噪主要是指去除或削弱噪声得到期望信号。目前音频降噪的方式主要分为传统降噪算法和基于神经网络的降噪算法。传统降噪算法主要是指谱减法，维纳滤波法等算法，他们往往依赖于背景噪声的加性或者期望信号及噪声信号的统计特性，对于实际环境下出现的突发性噪声等意想不到的噪声类型，其性能往往无法满足实际的需求。因此考虑到噪声破坏的复杂性过程，基于神经网络的降噪算法迅速发展起来，在低信噪比、非平稳噪声等环境下展现出明显的优势。

在会议场景中，当远程会议时，通话双方往往受到各种环境噪声的干扰，因此音频降噪成为会议场景下提升通话质量和体验的重要技术。然而，现有的传统或者深度学习降噪技术，通常可抑制掉非语音的各种噪声，而对于远处传来的非期望语音的干扰无法起到抑制作用。

发明内容

本公开提供一种语音降噪模型的训练方法和装置及语音降噪方法和装置，以至少解决上述相关技术中的问题，也可不解决任何上述问题。

根据本公开实施例的第一方面，提供一种语音降噪模型的训练方法，包括：获取含噪语音信号样本，其中，所述含噪语音信号样本是通过将多条原始语音信号及噪声信号混合得到，每条原始语音信号具有距离值，该距离值表示原始语音信号的发声位置与用于收集该原始语音信号的目标麦克风位置之间的距离；获取预设第一保留距离值以及与所述含噪语音信号样本对应的目标降噪语音信号，其中，所述预设第一保留距离值表示保留在与所述目标麦克风位置相距所述预设第一保留距离值范围内的语音信号并抑制该范围外的语音信号，所述目标降噪语音信号是通过基于每条原始语音信号的距离值以及所述预设第一保留距离值，得到每条原始语音信号的保留因子，并通过将每条原始语音信号的保留因子分别作为每条原始语音信号的权重来对将所述多条原始语音信号进行加权求和而得到；将所述含噪语音信号样本的幅度谱和所述预设第一保留距离值输入所述语音降噪模型，得到估计的降噪语音信号的幅度谱；基于所述估计的降噪语音信号的幅度谱与所述目标降噪语音信号的幅度谱计算损失函数的值；基于计算出的损失函数的值调整所述语音降噪模型的参数，以训练所述语音降噪模型。

可选地，所述通过基于每条原始语音信号的距离值以及预设第一保留距离值，得到每条原始语音信号的保留因子，可包括：根据每条原始语音信号的距离值与所述预设第一保留距离值的比较结果，确定每条原始语音信号的保留因子。

可选地，所述根据每条原始语音信号的距离值与所述预设第一保留距离值的比较结果，确定每条原始语音信号的保留因子，可包括：将距离值等于或小于所述预设第一保留距离值的原始语音信号的保留因子确定为1；将距离值大于所述预设第一保留距离值的原始语音信号的保留因子确定为小于1，其中，所述距离值越大，保留因子越小。

可选地，所述将距离值大于所述预设第一保留距离值的原始语音信号的保留因子确定为小于1，可包括：将距离值在所述预设第一保留距离值至预设第二距离保留值范围内的原始语音信号的保留因子确定为大于0且小于1的值，其中，所述距离值越大，保留因子越小，所述预设第二保留距离值比所述预设第一保留距离值大预定距离；将距离值在所述预设第二保留距离值以上的原始语音信号的保留因子确定为0。

可选地，每条原始语音信号的保留因子可被表示为：

其中，m为每条原始语音信号的距离值，m0为所述预设第一保留距离值，m0+a为所述预设第二保留距离值，a为所述预定距离。

可选地，所述语音降噪模型的输出可为估计的掩膜比，其中，掩膜比表示所述目标降噪语音信号的幅度谱与所述含噪语音信号样本的幅度谱的比值；其中，将所述含噪语音信号样本的幅度谱和所述预设第一保留距离值输入所述语音降噪模型，得到估计的降噪语音信号的幅度谱，可包括：将所述含噪语音信号样本的幅度谱和所述预设第一保留距离值输入所述语音降噪模型，得到所述估计的掩膜比；将所述估计的掩膜比与所述含噪语音信号样本的幅度谱相乘，得到所述估计的降噪语音信号的幅度谱。

根据本公开实施例的第二方面，提供一种语音降噪方法，所述语音降噪方法是通过根据本公开的训练方法训练得到的语音降噪模型来执行，其中，所述语音降噪方法包括：在音视频会议场景中用于收集待降噪语音信号的目标麦克风处获取所述待降噪语音信号；获取所述预设第一保留距离值；将所述待降噪语音信号的幅度谱和所述预设第一保留距离值输入所述语音降噪模型，得到估计的降噪语音信号的幅度谱；基于所述估计的降噪语音信号的幅度谱，得到估计的降噪语音信号；将所述估计的降噪语音信号输入所述目标麦克风。

可选地，所述语音降噪模型的输出可为估计的掩膜比，其中，掩膜比表示目标降噪语音信号的幅度谱与所述待降噪语音信号的幅度谱的比值；其中，将所述待降噪语音信号的幅度谱和所述预设第一保留距离值输入所述语音降噪模型，得到估计的降噪语音信号的幅度谱，可包括：将所述待降噪语音信号的幅度谱和所述预设第一保留距离值输入所述语音降噪模型，得到所述估计的掩膜比；将所述估计的掩膜比与所述待降噪语音信号的幅度谱相乘，得到所述估计的降噪语音信号的幅度谱。

可选地，所述基于所述估计的降噪语音信号的幅度谱，得到估计的降噪语音信号，可包括：将所述估计的降噪语音信号的幅度谱和所述待降噪语音信号的相位谱结合并执行时频逆变换，获得所述估计的降噪语音信号。

可选地，所述待降噪语音信号可通过在所述目标麦克风处的收音设备收集得到。

根据本公开实施例的第三方面，提供一种语音降噪模型的训练装置，包括：第一获取单元，被配置为获取含噪语音信号样本，其中，所述含噪语音信号样本是通过将多条原始语音信号及噪声信号混合得到，每条原始语音信号具有距离值，该距离值表示原始语音信号的发声位置与用于收集该原始语音信号的目标麦克风位置之间的距离；第二获取单元，被配置为获取预设第一保留距离值以及与所述含噪语音信号样本对应的目标降噪语音信号，其中，所述预设第一保留距离值表示保留在与所述目标麦克风位置相距所述预设第一保留距离值范围内的语音信号并抑制该范围外的语音信号，所述目标降噪语音信号是通过基于每条原始语音信号的距离值以及所述预设第一保留距离值，得到每条原始语音信号的保留因子，并通过将每条原始语音信号的保留因子分别作为每条原始语音信号的权重来对将所述多条原始语音信号进行加权求和而得到；估计单元，被配置为将所述含噪语音信号样本的幅度谱和所述预设第一保留距离值输入所述语音降噪模型，得到估计的降噪语音信号的幅度谱；计算单元，被配置为基于所述估计的降噪语音信号的幅度谱与所述目标降噪语音信号的幅度谱计算损失函数的值；训练单元，被配置为基于计算出的损失函数的值调整所述语音降噪模型的参数，以训练所述语音降噪模型。

可选地，每条原始语音信号的保留因子可根据每条原始语音信号的距离值与所述预设第一保留距离值的比较结果确定。

可选地，可将距离值等于或小于所述预设第一保留距离值的原始语音信号的保留因子确定为1；可将距离值大于所述预设第一保留距离值的原始语音信号的保留因子确定为小于1，其中，所述距离值越大，保留因子越小。

可选地，可将距离值在所述预设第一保留距离值至预设第二距离保留值范围内的原始语音信号的保留因子确定为大于0且小于1的值，其中，所述距离值越大，保留因子越小，所述预设第二保留距离值比所述预设第一保留距离值大预定距离；可将距离值在所述预设第二保留距离值以上的原始语音信号的保留因子确定为0。

可选地，每条原始语音信号的保留因子可被表示为：

可选地，所述语音降噪模型的输出可为估计的掩膜比，其中，掩膜比表示所述目标降噪语音信号的幅度谱与所述含噪语音信号样本的幅度谱的比值；估计单元可被配置为：将所述含噪语音信号样本的幅度谱和所述预设第一保留距离值输入所述语音降噪模型，得到所述估计的掩膜比；将所述估计的掩膜比与所述含噪语音信号样本的幅度谱相乘，得到所述估计的降噪语音信号的幅度谱。

根据本公开实施例的第四方面，提供一种语音降噪装置，所述语音降噪装置是通过根据本公开的训练方法训练得到的语音降噪模型来执行操作，其中，所述语音降噪装置包括：第一获取单元，被配置为在音视频会议场景中用于收集待降噪语音信号的目标麦克风处获取所述待降噪语音信号；第二获取单元，被配置为获取所述预设第一保留距离值；估计单元，被配置为将所述待降噪语音信号的幅度谱和所述预设第一保留距离值输入所述语音降噪模型，得到估计的降噪语音信号的幅度谱；计算单元，被配置为基于所述估计的降噪语音信号的幅度谱，得到估计的降噪语音信号；输入单元，被配置为将所述估计的降噪语音信号输入所述目标麦克风。

可选地，所述语音降噪模型的输出可为估计的掩膜比，其中，掩膜比表示目标降噪语音信号的幅度谱与所述待降噪语音信号的幅度谱的比值；其中，估计单元可被配置为：将所述待降噪语音信号的幅度谱和所述预设第一保留距离值输入所述语音降噪模型，得到所述估计的掩膜比；将所述估计的掩膜比与所述待降噪语音信号的幅度谱相乘，得到所述估计的降噪语音信号的幅度谱。

可选地，信号获取单元可被配置为：将所述估计的降噪语音信号的幅度谱和所述待降噪语音信号的相位谱结合并执行时频逆变换，获得所述估计的降噪语音信号。

根据本公开实施例的第五方面，提供一种电子设备，包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的语音降噪模型的训练方法或语音降噪方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的语音降噪模型的训练方法或语音降噪方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现根据本公开的语音降噪模型的训练方法或语音降噪方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的语音降噪模型的训练方法和训练装置以及语音降噪方法和语音降噪装置，利用近处及远处语音的不同特性，如混响特性和能量特性等，根据语音信号的距离和用户设置的特定距离设置不同的软抑制因子来生成训练标签，对语音降噪模型进行训练，使得训练后的语音降噪模型能够对与麦克风的特定距离内的人声起到完美的保留作用，对该特定距离之外的人声起到抑制作用，并且随着距离的变远，抑制作用越强，直到完全消除。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的语音降噪模型的训练过程和推理过程的示意图。

图2是示出根据本公开的示例性实施例的语音降噪模型的训练方法的流程图。

图3是示出根据本公开的示例性实施例的语音降噪方法的流程图。

图4是示出根据本公开的示例性实施例的语音降噪模型的训练装置的框图。

图5是示出根据本公开的示例性实施例的语音降噪装置的框图。

图6是根据本公开的示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

通常情况下，会议场景保证某个范围内的通话质量即可，超出这个范围的语音或者其他音频皆可被抑制或消除掉。但是现有的传统或者深度学习降噪技术，在单麦克风情况下，无法分辨麦克风接收到的语音距离麦克风的距离，因此通常可抑制非语音的各种噪声，但是对于远处非期望的语音，无法起到抑制作用。

为了解决上述技术问题，本公开一种基于会议场景下基于距离的音频降噪方法。该方法在原有音频降噪的基础上，利用近处及远处语音的不同特性，如混响特性和能量特性等，根据语音信号的距离和用户设置的特定距离设置不同的软抑制因子来生成训练标签，对语音降噪模型进行训练，使得训练后的语音降噪模型能够对与麦克风的特定距离内的人声起到完美的保留作用，对该特定距离之外的人声起到抑制作用，并且随着距离的变远，抑制作用越强，直到完全消除。下面，将参照图1至图6详细描述根据本公开的语音降噪模型的训练方法和装置及语音降噪方法和装置。

图1是示出根据本公开的示例性实施例的语音降噪模型的训练过程和推理过程的示意图。其中，图1中的(a)示出语音降噪模型的训练过程，图1中的(b)示出语音降噪模型的推理过程。

参照图1中的(a)，可通过将多条已知距离的原始语音信号和噪声信号混合，得到语音信号样本。这里，距离是指原始语音信号与用于收集原始语音信号的目标麦克风的距离。根据这多条原始语音信号的距离以及用户设置的保留距离m0来设置这多条原始语音信号的保留因子g，并基于保留因子g对这多条原始语音信号进行混合，得到语音信号标签。这里，保留距离m0是指对在与目标麦克风的m0距离内的原始语音信号进行保留，对在与目标麦克风的m0距离外的原始语音信号进行抑制。例如，在与目标麦克风的m0距离内的原始语音信号的保留因子g设置为1，在与目标麦克风的m0距离外的原始语音信号的保留因子g设置为小于1，并且距离越大，保留因子越小，至直为0。通过语音信号样本、保留距离m0和语音信号标签对神经网络模型进行训练，得到训练好的语音降噪模型。

例如，多条原始语音信号的数量可被设置为3。当然，本公开不限制原始语音信号的数量，可根据需要设置原始语音信号的数量。一般建议原始语音信号数量小于或等于3，若更多则类似于babble。可将已知道距离的原始语音信号x1、已知道距离的原始语音信号x2、已知道距离的原始语音信号x3和噪声信号进行混合，得到混合信号，将混合信号从时域转换至时频域(例如短时傅里叶变换(Short-Time Fourier Transform，STFT))，然后将频域信号提取幅度作为训练特征1。通过设置保留距离m0来对已知道距离的原始语音信号x1、x2、x3分别进行抑制g1、g2、g3之后，将三者的混合信号x1*g1+x2*g2+x3*g3从时域转换至时频域(例如，STFT))，然后将频域信号提取幅度作为标签。此外，将保留距离m0作为语音降噪模型训练所需要的特征2。将特征1、特征2和标签送入语音降噪模型进行训练，得到所需要的语音降噪模型。

参照图1中的(b)，可待降噪信号从时域转换至时频域(例如STFT)，然后将频域信号的幅度谱与保留距离m0一起送入训练好的语音降噪模型，得到降噪信号。

根据通过上述训练方法训练后的语音降噪模型，可对与麦克风的特定距离内的人声起到完美的保留作用，对该特定距离之外的人声起到抑制作用，并且随着距离的变远，抑制作用越强，直到完全消除。

参照图2，在步骤201，可获取含噪语音信号样本。这里，含噪语音信号样本是通过将多条原始语音信号及噪声信号混合得到，每条原始语音信号具有距离值，该距离值表示原始语音信号的发声位置与用于收集该原始语音信号的目标麦克风位置之间的距离。例如，假设有d条原始语音信号x1、x2、…、xd以及对应的已知距离值m1、m2、…、md，可将d条原始语音信号x1、x2、…、xd以及噪声信号进行混合，可得到含噪语音信号样本y。假设长度为T的原始语音信号x1、x2、…、xd在时域上可分别为x1(t)、x2(t)、…、xd(t),因此，含噪语音信号样本y在时域上可为y(t),其中，t代表时间，0＜t≤T。

根据本公开的示例性实施例，含噪语音信号样本中原始语音信号的数量被设置为，但不限于，3。本公开不限制原始语音信号的数量，可根据需要来设置原始语音信号的数量。

根据本公开的示例性实施例，原始语音信号可通过在目标麦克风处的收音设备收集得到。例如，可模拟音视频会议场景，在用于接收语音信号的目标麦克风处设置收音设备，在与目标麦克风距离各种不同距离处发出语音信号，通过收音设备收集这些语音信号，从而得到具有各种不同距离值的多条原始语音信号，并记录每条原始语音信号的距离值。

根据本公开的示例性实施例，噪声信号可通过从网上下载、实际录制等方式获取到，并可按照一定的信噪比在时域将多条原始语音信号及噪声信号相加来产生含噪语音信号样本。

在步骤202，可获取预设第一保留距离值以及与含噪语音信号样本对应的目标降噪语音信号。这里，预设第一保留距离值表示保留在与目标麦克风位置相距所述预设第一保留距离值范围内的语音信号并抑制该范围外的语音信号。可通过基于每条原始语音信号的距离值以及预设第一保留距离值，得到每条原始语音信号的保留因子，并通过将每条原始语音信号的保留因子分别作为每条原始语音信号的权重来对将所述多条原始语音信号进行加权求和而得到。例如，可基于每条原始语音信号的距离值m1、m2、…、md以及预设第一保留距离值m0，计算保留因子g(m1,m0)，g(m2,m0)、…、g(md,m0)，并将保留因子g(m1,m0)，g(m2,m0)、…、g(md,m0)作为权重对d条原始语音信号x1、x2、…、xd进行加权求和，得到期望的目标降噪语音信号x。例如，目标降噪语音信号x可被表示为：

x(t)＝x1(t)*g(m1,m0)+x2(t)*g(m2,m0)+…+xd(t)*g(mn,m0)

根据本公开的示例性实施例，可利用预设第一保留距离值对各条原始语音信号进行软抑制，即，可根据每条原始语音信号的距离值与预设第一保留距离值的比较结果，确定每条原始语音信号的保留因子。原则上，希望保留距离值在预设第一保留距离值内的原始语音信号，而抑制距离值在预设第一保留距离值外的原始语音信号，因此，可将距离值在预设第一保留距离值内的原始语音信号的保留因子设置为大于距离值在预设第一保留距离值外的原始语音信号。

例如，可将距离值等于或小于预设第一保留距离值的原始语音信号的保留因子确定为1。将距离值大于预设第一保留距离值的原始语音信号的保留因子确定为小于1，其中，距离值越大，保留因子越小。也就是说，对距离值在预设第一保留距离值内的原始语音信号完全保留，而对距离值在预设第一保留距离值外的原始语音信号进行抑制，且距离值越大，抑制得越多。

例如，可将距离值在预设第一保留距离值至预设第二距离保留值范围内的原始语音信号的保留因子确定为大于0且小于1的值，其中，距离值越大，保留因子越小，预设第二保留距离值比所述预设第一保留距离值大预定距离；并将距离值在预设第二保留距离值以上的原始语音信号的保留因子确定为0。也就是说，对距离值在预设第一保留距离值内的原始语音信号完全保留，而对距离值在预设第一保留距离值与预设第二保留距离值之间的原始语音信号进行部分抑制，并对距离值在预设第二保留距离值以上的原始语音信号进行完全抑制。

例如，原始语音信号的保留因子被表示为：

其中，m为每条原始语音信号的距离值，m0为预设第一保留距离值，m0+a为预设第二保留距离值，a为预定距离。例如，a可被设置为，但不限于，1。

在步骤203，可将含噪语音信号样本的幅度谱和预设第一保留距离值输入语音降噪模型，得到估计的降噪语音信号的幅度谱。这里，语音降噪模型可由任何可能的神经网络模型来实现。例如，含噪语音信号样本可从时域变换到时频域(例如，STFT)，y(t)在时频域可表示为：

Y(n,k)＝STFT(y(t))

其中，n为帧序列，0＜n≤N，N为总帧数，k为中心频率序列0＜k≤K，K为总频点数。

可取含噪语音信号样本在时频域的信号Y(n,k)的幅度Mag，获得幅度谱MagY(n,k)，可被表示为：

MagY(n,k)＝abs(Y(n,k))

随后，含噪语音信号样本的幅度谱MagY(n,k)和预设第一保留距离值m0送入语音降噪模型noise reduce()，得到估计的降噪语音信号的幅度谱MagX0(n,k)，可被表示为：

MagX0(n,k)＝noise reduce(MagY(n,k),m0)

根据本公开的示例性实施例，含噪语音信号样本的幅度谱可作为语音降噪模型的输入，而预设第一保留距离值可根据用户设置在语音降噪模型的任何位置输入语音降噪模型。例如，可将含噪语音信号样本的幅度谱与预设第一保留距离值进行拼接，再一起输入到语音降噪模型。又例如，可将预设第一保留距离值输入到语音降噪模型的中间层或输出层。

根据本公开的示例性实施例，语音降噪模型的输出可为估计的降噪语音信号的幅度谱或者估计的掩膜比，其中，掩膜比表示目标降噪语音信号的幅度谱与含噪语音信号样本的幅度谱的比值。在语音降噪模型的输出为估计的掩膜比的情况下，可将含噪语音信号样本的幅度谱和预设第一保留距离值输入语音降噪模型，得到估计的掩膜比；并将估计的掩膜比与含噪语音信号样本的幅度谱相乘，得到估计的降噪语音信号的幅度谱。

在步骤204，可基于估计的降噪语音信号的幅度谱与目标降噪语音信号的幅度谱计算损失函数的值。例如，若长度为T的目标降噪语音信号x在时域上为x(t)，其中t代表时间，0＜t≤T，则经过短时傅里叶变换后，x(t)在时频域可表示为：

X(n,k)＝STFT(x(t))

其中，n为帧序列索引，0＜n≤N，N为总帧数，k为中心频率序列索引，0＜k≤K，K为总频点数。

根据本公开的示例性实施例，可通过计算估计的降噪语音信号的幅度谱与目标降噪语音信号的幅度谱之间的均方误差(MSE)、均方根误差(RMSE)或平均绝对误差(MAE)等来作为损失函数的值。当然，本公开不限制损失函数，可利用任何可能的损失函数来训练本公开的语音降噪模型。

在步骤205，可基于计算出的损失函数的值调整语音降噪模型的参数，以训练语音降噪模型。也就是说，可通过损失函数计算的损失反向传播来调整语音降噪模型的参数。此外，在模型训练过程中，可使用批量含噪语音信号样本来调整(或更新)语音降噪模型的参数，并以最小化损失函数的值为目标，迭代地调整(或更新)语音降噪模型的参数，直至语音降噪模型收敛。

图3是示出根据本公开的示例性实施例的语音降噪方法的流程图。这里，根据本公开的示例性实施例的语音降噪方法可根据上面参照图2所述的训练方法训练得到的语音降噪模型来执行。

在步骤301，可在视频会议场景中用于收集待降噪语音信号的目标麦克风处获取待降噪语音信号。例如，在音视频会议场景中，目标麦克风用于接收语音信号以通过网络发送至其他参与音视频会议的终端。因此，在目标麦克风接收到语音信号之前，可先对语音信号进行降噪，再将降噪语音信号输入到目标麦克风，从而提高音视频会议的语音信号质量。因此，可通过在所述目标麦克风处的收音设备收集待降噪语音信号，再将待降噪语音信号根据本公开的语音降噪方法降噪得到降噪语音信号，并将降噪语音信号输入到目标麦克风，以网络发送至其他参与音视频会议的终端。

在步骤302，可获取预设第一保留距离值。预设第一保留距离值可为训练时使用的预设第一保留距离值。

在步骤303，可将待降噪语音信号的幅度谱和预设第一保留距离值输入语音降噪模型，得到估计的降噪语音信号的幅度谱。

根据本公开的示例性实施例，待降噪语音信号的幅度谱可作为语音降噪模型的输入，而预设第一保留距离值可根据用户设置在语音降噪模型的任何位置输入语音降噪模型。例如，可将含待降噪语音信号的幅度谱与预设第一保留距离值进行拼接，再一起输入到语音降噪模型。又例如，可将预设第一保留距离值输入到语音降噪模型的中间层或输出层。

根据本公开的示例性实施例，语音降噪模型的输出可为估计的降噪语音信号的幅度谱或者估计的掩膜比，其中，掩膜比表示目标降噪语音信号的幅度谱与待降噪语音信号的幅度谱的比值。在语音降噪模型的输出为估计的掩膜比的情况下，可将待降噪语音信号的幅度谱和预设第一保留距离值输入语音降噪模型，得到估计的掩膜比；并将估计的掩膜比与待降噪语音信号的幅度谱相乘，得到估计的降噪语音信号的幅度谱。

在步骤304，可基于估计的降噪语音信号的幅度谱，得到估计的降噪语音信号。

根据本公开的示例性实施例，可将估计的降噪语音信号的幅度谱和待降噪语音信号的相位谱结合并执行时频逆变换(例如，短时傅里叶变换(ISTFT))，获得估计的降噪语音信号。

例如，若长度为T的待降噪语音信号y’在时域上分别为y’(t),其中t代表时间，0<t≤T，则经过短时傅里叶变换后，y’(t)在时频域可表示为：

Y’(n,k)＝STFT(y’(t))

随后，分别取待降噪语音信号Y’(n,k)的幅度Mag和相位Pha：

MagY’(n,k)＝abs(Y’(n,k))

PhaY’(n,k)＝Y’(n,k)/abs(Y’(n,k))

随后，将待降噪语音信号的幅度谱MagY’(n,k)和预设第一保留距离值m0输入语音降噪模型noise reduce()，得到估计的降噪语音信号的幅度谱MagX’(n,k)，可被表示为：

MagX’(n,k)＝noise reduce(MagY’(n,k),m0)

随后，将估计的降噪语音信号的幅度谱MagX’(n,k)和待降噪语音信号的相位谱PhaY’(n,k)结合并执行ISTFT，获得估计的降噪语音信号X’(t)，可被表示为：

X’(t)＝ISTFT(MagX’(n,k)*PhaY’(n,k))

在步骤305，可将估计的降噪语音信号输入目标麦克风，以用于通过网络发送至其他参与音视频会议的终端。

参照图4，根据本公开的示例性实施例的语音降噪模型的训练装置400可包括第一获取单元401、第二获取单元402、估计单元403、计算单元404和训练单元405。

第一获取单元401可获取含噪语音信号样本。这里，含噪语音信号样本是通过将多条原始语音信号及噪声信号混合得到，每条原始语音信号具有距离值，该距离值表示原始语音信号的发声位置与用于收集该原始语音信号的目标麦克风位置之间的距离。

第二获取单元402可获取预设第一保留距离值以及与含噪语音信号样本对应的目标降噪语音信号。这里，预设第一保留距离值表示保留在与目标麦克风位置相距所述预设第一保留距离值范围内的语音信号并抑制该范围外的语音信号。可通过基于每条原始语音信号的距离值以及预设第一保留距离值，得到每条原始语音信号的保留因子，并通过将每条原始语音信号的保留因子分别作为每条原始语音信号的权重来对将所述多条原始语音信号进行加权求和而得到。

例如，原始语音信号的保留因子被表示为：

估计单元403可将含噪语音信号样本的幅度谱和预设第一保留距离值输入语音降噪模型，得到估计的降噪语音信号的幅度谱。这里，语音降噪模型可由任何可能的神经网络模型来实现。

根据本公开的示例性实施例，语音降噪模型的输出可为估计的降噪语音信号的幅度谱或者估计的掩膜比，其中，掩膜比表示目标降噪语音信号的幅度谱与含噪语音信号样本的幅度谱的比值。在语音降噪模型的输出为估计的掩膜比的情况下，估计单元403可将含噪语音信号样本的幅度谱和预设第一保留距离值输入语音降噪模型，得到估计的掩膜比；并将估计的掩膜比与含噪语音信号样本的幅度谱相乘，得到估计的降噪语音信号的幅度谱。

计算单元404可基于估计的降噪语音信号的幅度谱与目标降噪语音信号的幅度谱计算损失函数的值。

根据本公开的示例性实施例，计算单元404可通过计算估计的降噪语音信号的幅度谱与目标降噪语音信号的幅度谱之间的均方误差(MSE)、均方根误差(RMSE)或平均绝对误差(MAE)等来作为损失函数的值。当然，本公开不限制损失函数，可利用任何可能的损失函数来训练本公开的语音降噪模型。

训练单元405可基于计算出的损失函数的值调整语音降噪模型的参数，以训练语音降噪模型。也就是说，训练单元405可通过损失函数计算的损失反向传播来调整语音降噪模型的参数。此外，在模型训练过程中，训练单元405可使用批量含噪语音信号样本来调整(或更新)语音降噪模型的参数，并以最小化损失函数的值为目标，迭代地调整(或更新)语音降噪模型的参数，直至语音降噪模型收敛。

图5是示出根据本公开的示例性实施例的语音降噪装置的框图。这里，根据本公开的示例性实施例的语音降噪装置可根据上面参照图2所述的训练方法训练得到的语音降噪模型来执行操作。

参照图5，根据本公开的示例性实施例的语音降噪装置500可包括第一获取单元501、第二获取单元502、估计单元503、计算单元504和输入单元505。

第一获取单元501可在视频会议场景中用于收集待降噪语音信号的目标麦克风处获取待降噪语音信号。例如，在音视频会议场景中，目标麦克风用于接收语音信号以通过网络发送至其他参与音视频会议的终端。因此，在目标麦克风接收到语音信号之前，可先对语音信号进行降噪，再将降噪语音信号输入到目标麦克风，从而提高音视频会议的语音信号质量。因此，可通过在所述目标麦克风处的收音设备收集待降噪语音信号，再将待降噪语音信号根据本公开的语音降噪方法降噪得到降噪语音信号，并将降噪语音信号输入到目标麦克风，以网络发送至其他参与音视频会议的终端。

第二获取单元502可获取预设第一保留距离值。预设第一保留距离值可为训练时使用的预设第一保留距离值。

估计单元503可将待降噪语音信号的幅度谱和预设第一保留距离值输入语音降噪模型，得到估计的降噪语音信号的幅度谱。

根据本公开的示例性实施例，语音降噪模型的输出可为估计的降噪语音信号的幅度谱或者估计的掩膜比，其中，掩膜比表示目标降噪语音信号的幅度谱与待降噪语音信号的幅度谱的比值。在语音降噪模型的输出为估计的掩膜比的情况下，估计单元503可将待降噪语音信号的幅度谱和预设第一保留距离值输入语音降噪模型，得到估计的掩膜比；并将估计的掩膜比与待降噪语音信号的幅度谱相乘，得到估计的降噪语音信号的幅度谱。

计算单元504可基于估计的降噪语音信号的幅度谱，得到估计的降噪语音信号。

输入单元505可将估计的降噪语音信号输入目标麦克风，以用于通过网络发送至其他参与音视频会议的终端。

图6是根据本公开的示例性实施例的电子设备600的框图。

参照图6，电子设备600包括至少一个存储器601和至少一个处理器1202，所述至少一个存储器601中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器602执行时，执行根据本公开的示例性实施例的语音降噪模型的训练方法或语音降噪方法。

作为示例，电子设备600可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备600并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备600还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备600中，处理器602可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器602可运行存储在存储器601中的指令或代码，其中，存储器601还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器601可与处理器602集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器1201可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器601和处理器602可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器602能够读取存储在存储器中的文件。

此外，电子设备600还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备600的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种计算机可读存储介质，其中，当计算机可读存储介质中的指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的语音降噪模型的训练方法或语音降噪方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，包括计算机指令，该计算机指令可由至少一个处理器执行以完成根据本公开的示例性实施例的语音降噪模型的训练方法或语音降噪方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音降噪模型的训练方法，其特征在于，包括：

获取含噪语音信号样本，其中，所述含噪语音信号样本是通过将多条原始语音信号及噪声信号混合得到，每条原始语音信号具有距离值，该距离值表示原始语音信号的发声位置与用于收集该原始语音信号的目标麦克风位置之间的距离；

获取预设第一保留距离值以及与所述含噪语音信号样本对应的目标降噪语音信号，其中，所述预设第一保留距离值表示保留在与所述目标麦克风位置相距所述预设第一保留距离值范围内的语音信号并抑制该范围外的语音信号；所述目标降噪语音信号是通过基于每条原始语音信号的距离值以及所述预设第一保留距离值，得到每条原始语音信号的保留因子，并通过将每条原始语音信号的保留因子分别作为每条原始语音信号的权重来对将所述多条原始语音信号进行加权求和而得到；

将所述含噪语音信号样本的幅度谱和所述预设第一保留距离值输入所述语音降噪模型，得到估计的降噪语音信号的幅度谱；

基于所述估计的降噪语音信号的幅度谱与所述目标降噪语音信号的幅度谱计算损失函数的值；

基于计算出的损失函数的值调整所述语音降噪模型的参数，以训练所述语音降噪模型。

2.如权利要求1所述的训练方法，其特征在于，所述通过基于每条原始语音信号的距离值以及预设第一保留距离值，得到每条原始语音信号的保留因子，包括：

根据每条原始语音信号的距离值与所述预设第一保留距离值的比较结果，确定每条原始语音信号的保留因子。

3.如权利要求2所述的训练方法，其特征在于，所述根据每条原始语音信号的距离值与所述预设第一保留距离值的比较结果，确定每条原始语音信号的保留因子，包括：

将距离值等于或小于所述预设第一保留距离值的原始语音信号的保留因子确定为1；

将距离值大于所述预设第一保留距离值的原始语音信号的保留因子确定为小于1，其中，所述距离值越大，保留因子越小。

4.如权利要求3所述的训练方法，其特征在于，所述将距离值大于所述预设第一保留距离值的原始语音信号的保留因子确定为小于1，包括：

将距离值在所述预设第一保留距离值至预设第二距离保留值范围内的原始语音信号的保留因子确定为大于0且小于1的值，其中，所述距离值越大，保留因子越小，所述预设第二保留距离值比所述预设第一保留距离值大预定距离；

将距离值在所述预设第二保留距离值以上的原始语音信号的保留因子确定为0。

5.一种语音降噪方法，其特征在于，所述语音降噪方法是通过如权利要求1至4中任意一项权利要求所述的训练方法训练得到的语音降噪模型来执行，其中，所述语音降噪方法包括：

在音视频会议场景中用于收集待降噪语音信号的目标麦克风处获取所述待降噪语音信号；

获取所述预设第一保留距离值；

将所述待降噪语音信号的幅度谱和所述预设第一保留距离值输入所述语音降噪模型，得到估计的降噪语音信号的幅度谱；

基于所述估计的降噪语音信号的幅度谱，得到估计的降噪语音信号；

将所述估计的降噪语音信号输入所述目标麦克风。

6.一种语音降噪模型的训练装置，其特征在于，包括：

第一获取单元，被配置为获取含噪语音信号样本，其中，所述含噪语音信号样本是通过将多条原始语音信号及噪声信号混合得到，每条原始语音信号具有距离值，该距离值表示原始语音信号的发声位置与用于收集该原始语音信号的目标麦克风位置之间的距离；

第二获取单元，被配置为获取预设第一保留距离值以及与所述含噪语音信号样本对应的目标降噪语音信号，其中，所述预设第一保留距离值表示保留在与所述目标麦克风位置相距所述预设第一保留距离值范围内的语音信号并抑制该范围外的语音信号，所述目标降噪语音信号是通过基于每条原始语音信号的距离值以及所述预设第一保留距离值，得到每条原始语音信号的保留因子，并通过将每条原始语音信号的保留因子分别作为每条原始语音信号的权重来对将所述多条原始语音信号进行加权求和而得到；

估计单元，被配置为将所述含噪语音信号样本的幅度谱和所述预设第一保留距离值输入所述语音降噪模型，得到估计的降噪语音信号的幅度谱；

计算单元，被配置为基于所述估计的降噪语音信号的幅度谱与所述目标降噪语音信号的幅度谱计算损失函数的值；

训练单元，被配置为基于计算出的损失函数的值调整所述语音降噪模型的参数，以训练所述语音降噪模型。

7.一种语音降噪装置，其特征在于，所述语音降噪装置是通过如权利要求1至4中任意一项权利要求所述的训练方法训练得到的语音降噪模型来执行操作，其中，所述语音降噪装置包括：

第一获取单元，被配置为在音视频会议场景中用于收集待降噪语音信号的目标麦克风处获取所述待降噪语音信号；

第二获取单元，被配置为获取所述预设第一保留距离值；

估计单元，被配置为将所述待降噪语音信号的幅度谱和所述预设第一保留距离值输入所述语音降噪模型，得到估计的降噪语音信号的幅度谱；

计算单元，被配置为基于所述估计的降噪语音信号的幅度谱，得到估计的降噪语音信号；

输入单元，被配置为将所述估计的降噪语音信号输入所述目标麦克风。

8.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到4中的任一权利要求所述的语音降噪模型的训练方法或如权利要求5所述的语音降噪方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到4中的任一权利要求所述的语音降噪模型的训练方法或如权利要求5所述的语音降噪方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被至少一个处理器执行时实现如权利要求1到4中的任一权利要求所述的语音降噪模型的训练方法或如权利要求5所述的语音降噪方法。