CN114121029A

CN114121029A - 语音增强模型的训练方法和装置以及语音增强方法和装置

Info

Publication number: CN114121029A
Application number: CN202111590294.4A
Authority: CN
Inventors: 陈联武; 张晨; 郑羲光; 任新蕾; 张旭
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-03-01

Abstract

本公开提供一种语音增强模型的训练方法和装置以及语音增强方法和装置。所述训练方法可包括以下步骤：获取包括干净语音信号和带噪语音信号的训练样本；将带噪语音信号的信息输入特征提取网络，得到与带噪语音信号对应的特征；将特征输入降噪网络，得到由降噪网络预测的预测信息；将特征输入变速变调判定网络，得到由变速变调判定网络预测的带噪语音信号的变速变调估计值；基于带噪语音信号的信息、预测信息、变速变调估计值和干净语音信号的信息来调整特征提取网络、降噪网络和变速变调判定网络的参数，以训练语音增强模型。

Description

语音增强模型的训练方法和装置以及语音增强方法和装置

技术领域

本公开涉及人工智能和语音处理领域，尤其涉及一种用于对输入语音进行语音增强的语音增强模型的训练方法和装置以及语音增强方法和装置。

背景技术

随着深度学习技术的快速发展，近年来基于神经网络的语音增强技术也在不断进步。通过大规模的数据训练，当前神经网络能够很好地从带噪语音信号中提取出干净语音信号。

短视频已经成为当今社会人们获取信息和休闲娱乐的主要方式。在短视频的内容制作过程中，为了提升内容的多样性和可玩性，内容制作者经常会对声音进行变速变调处理。然而，相关技术对经变速变调处理的声音的增强效果并不理想，因此，亟需一种鲁棒地增强变速变调声音的方案。

发明内容

本公开提供一种用于对输入语音进行语音增强的语音增强模型的训练方法和装置以及语音增强方法和装置、电子设备及存储介质，以至少解决基于神经网络的语音增强技术对变速变调音频进行语音增强的鲁棒性问题。

根据本公开实施例的第一方面，提供一种语音增强模型的训练方法，所述语音增强模型包括特征提取网络和降噪网络，所述训练方法可包括以下步骤：获取训练样本，其中，所述训练样本包括干净语音信号和带噪语音信号，所述干净语音信号是未进行变速变调处理的无噪声语音信号，所述带噪语音信号是通过对所述干净语音信号进行变速变调处理和噪声混合处理得到的；将所述带噪语音信号的信息输入所述特征提取网络，得到与所述带噪语音信号对应的特征；将所述特征输入所述降噪网络，得到由所述降噪网络预测的预测信息，其中，所述预测信息用于生成所述带噪语音信号的增强语音信号；将所述特征输入变速变调判定网络，得到由所述变速变调判定网络预测的所述带噪语音信号的变速变调估计值；基于所述带噪语音信号的信息、所述预测信息、所述变速变调估计值和所述干净语音信号的信息来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数，以训练所述语音增强模型。

可选地，基于所述带噪语音信号的信息、所述预测信息、所述变速变调估计值和所述干净语音信号的信息来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数，以训练所述语音增强模型，可包括：根据所述带噪语音信号的信息、所述预测信息和所述干净语音信号的信息，计算第一损失函数；根据所述变速变调估计值和在对所述干净语音信号执行变速变调处理时的变速变调实际值，计算第二损失函数；通过根据所述第一损失函数和所述第二损失函数来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数。

可选地，所述带噪语音信号的信息可包括所述带噪语音信号的幅度谱，所述预测信息可包括用于获得增强语音信号的掩蔽矩阵，其中，根据所述带噪语音信号的信息、所述预测信息和所述干净语音信号的信息，计算第一损失函数，可包括：将所述用于获得增强语音信号的掩蔽矩阵和所述带噪语音信号的幅度谱相乘，得到所述增强语音信号的幅度谱；根据所述增强语音信号的幅度谱和所述干净语音信号的幅度谱，计算所述第一损失函数。

可选地，根据所述变速变调估计值和在对所述干净语音信号执行变速变调处理时的变速变调实际值，计算第二损失函数，可包括：基于所述变速变调估计值中的变速估计值和所述变速变调实际值中的变速实际值来计算第一误差函数；基于所述变速变调估计值中的变调估计值和所述变速变调实际值中的变调实际值来计算第二误差函数；基于所述第一误差函数和所述第二误差函数来计算所述第二损失函数。

可选地，根据所述变速变调估计值和在对所述干净语音信号执行变速变调处理时的变速变调实际值，计算第二损失函数，可包括：将所述变速变调估计值和所述变速变调实际值调整为预设范围内的数值；基于调整后的变速变调估计值与调整后的变速变调实际值之间的误差来计算第二损失函数。

可选地，将所述变速变调估计值和所述变速变调实际值调整为预设范围内的数值，可包括：获取在对所述干净语音信号进行变速变调处理时的最大变快倍速、最大变慢倍速、最大升调倍速和最大降调倍速；基于所述最大变快倍速、所述最大变慢倍速和预设的变速值调整策略，将所述变速变调估计值中的变速估计值和所述变速变调实际值中的变速实际值调整为预设范围内的数值；基于所述最大升调倍速、所述最大降调倍速和预设的变调调整策略，将所述变速变调估计值中的变调估计值和所述变速变调实际值中的变调实际值调整为预设范围内的数值。

可选地，根据所述变速变调估计值和在对所述干净语音信号执行变速变调处理时的变速变调实际值，计算第二损失函数，可包括：使用针对语音帧的变速变调估计值和变速变调实际值来计算第二损失函数。

可选地，所述带噪语音信号的信息可包括所述带噪语音信号的频域信息，所述预测信息可包括用于获得增强语音信号的频域信息；或者，所述带噪语音信号的信息可包括所述带噪语音信号的时域信息，所述预测信息可包括用于获得增强语音信号的时域信息。

根据本公开实施例的第二方面，提供一种语音增强方法，可包括：获取输入语音；将所述输入语音输入至语音增强模型，得到与所述输入语音对应的增强语音，其中，所述语音增强模型基于如上所述的训练方法被获得。

根据本公开实施例的第三方面，提供一种语音增强模型的训练装置，所述语音增强模型包括特征提取网络和降噪网络，所述训练装置可包括：获取模块，被配置为获取训练样本，其中，所述训练样本包括干净语音信号和带噪语音信号，所述干净语音信号是未进行变速变调处理的无噪声语音信号，所述带噪语音信号是通过对所述干净语音信号进行变速变调处理和噪声混合处理得到的；特征提取模块，被配置为将所述带噪语音信号的信息输入所述特征提取网络，得到与所述带噪语音信号对应的特征；降噪模块，被配置为将所述特征输入所述降噪网络，得到由所述降噪网络预测的预测信息，其中，所述预测信息用于生成所述带噪语音信号的增强语音信号；变速变调判定模块，被配置为将所述特征输入变速变调判定网络，得到由所述变速变调判定网络预测的所述带噪语音信号的变速变调估计值；训练模块，被配置为基于所述带噪语音信号的信息、所述预测信息、所述变速变调估计值和所述干净语音信号的信息来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数，以训练所述语音增强模型。

可选地，训练模块可被配置为：根据所述带噪语音信号的信息、所述预测信息和所述干净语音信号的信息，计算第一损失函数；根据所述变速变调估计值和在对所述干净语音信号执行变速变调处理时的变速变调实际值，计算第二损失函数；通过根据所述第一损失函数和所述第二损失函数来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数。

可选地，所述带噪语音信号的信息可包括所述带噪语音信号的幅度谱，所述预测信息可包括用于获得增强语音信号的掩蔽矩阵，其中，训练模块可被配置为：将所述用于获得增强语音信号的掩蔽矩阵和所述带噪语音信号的幅度谱相乘，得到所述增强语音信号的幅度谱；根据所述增强语音信号的幅度谱和所述干净语音信号的幅度谱，计算所述第一损失函数。

可选地，训练模块可被配置为：基于所述变速变调估计值中的变速估计值和所述变速变调实际值中的变速实际值来计算第一误差函数；基于所述变速变调估计值中的变调估计值和所述变速变调实际值中的变调实际值来计算第二误差函数；基于所述第一误差函数和所述第二误差函数来计算所述第二损失函数。

可选地，训练模块可被配置为：将所述变速变调估计值和所述变速变调实际值调整为预设范围内的数值；基于调整后的变速变调估计值与调整后的变速变调实际值之间的误差来计算第二损失函数。

可选地，训练模块可被配置为：获取在对所述干净语音信号进行变速变调处理时的最大变快倍速、最大变慢倍速、所述最大升调倍速和所述最大降调倍速；基于所述最大变快倍速、所述最大变慢倍速和预设的变速值调整策略，将所述变速变调估计值中的变速估计值和所述变速变调实际值中的变速实际值调整为预设范围内的数值；基于所述最大升调倍速、所述最大降调倍速和预设的变调调整策略，将所述变速变调估计值中的变调估计值和所述变速变调实际值中的变调实际值调整为预设范围内的数值。

可选地，训练模块可被配置为：使用针对语音帧的变速变调估计值和变速变调实际值来计算第二损失函数。

根据本公开实施例的第四方面，提供一种语音增强装置，可包括：获取模块，被配置为获取输入语音；处理模块，被配置为将所述输入语音输入至语音增强模型，得到与所述输入语音对应的增强语音，其中，所述语音增强模型基于如上所述的训练方法被获得。

根据本公开实施例的第五方面，提供一种电子设备，所述电子设备可包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如上所述的训练方法和语音增强方法。

根据本公开实施例的第六方面，提供一种存储指令的计算机可读存储介质，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如上所述的训练方法和语音增强方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如上所述的训练方法和语音增强方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过在模型训练时引入用于判定语音变速变调的神经网络，使得训练好的语音增强模型可提取语音变速变调相关的特征，从而根据该特征进行针对性的语音增强处理，提升了语音增强模型在变速变调场景下的降噪效果，增强了语音增强模型针对变速变调语音进行增强的鲁棒性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据本公开的实施例的语音增强系统的示意图；

图2是根据本公开的实施例的语音增强方法的流程图；

图3是根据本公开的实施例的语音增强模型的训练方法的流程图；

图4是根据本公开的实施例的语音增强系统的结构示意图；

图5是根据本公开的实施例的语音增强设备的结构示意图；

图6是根据本公开的实施例的语音增强装置的框图；

图7是根据本公开的实施例的语音增强模型的训练装置的框图；

图8是根据本公开的实施例的电子设备的框图。

在整个附图中，应注意，相同的参考标号用于表示相同或相似的元件、特征和结构。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。

以下描述和权利要求中使用的术语和词语不限于书面含义，而仅由发明人用来实现本公开的清楚且一致的理解。因此，本领域的技术人员应清楚，本公开的各种实施例的以下描述仅被提供用于说明目的而不用于限制由权利要求及其等同物限定的本公开的目的。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

为了提升深度神经网络降噪在变速变调场景的性能，本公开提出了一种变速变调可感知的神经网络语音降噪解决方案。在现有的降噪模型训练中加入变速变调值的预测，通过多任务训练可以使神经网络主动提取输入信号的变速变调信息，进而指导本公开的语音增强模型进行针对性的降噪处理。

在下文中，根据本公开的各种实施例，将参照附图对本公开的方法、装置进行详细描述。

图1是根据本公开的实施例的语音增强系统的示意图。图1示出了根据本公开实施例的一种变速变调可感知的语音增强系统框架。通常的语音增强网络可以分为特征提取网络和降噪网络两个部分。根据本公开的实施例，可在特征提取网络之后另外增加一个变速变调判定网络。变速变调判定网络可基于特征提取网络输出的特征来估计当前语音的变速数值和变调数值。通过优化变速变调判断的准确度，使得特征提取网络输出的特征可包含语音的变速变调信息，同时降噪网络可根据这些变速变调信息，生成针对性的增强语音信号。

根据本公开的语音增强模型可包括图1的特征提取网络和降噪网络。在对语音增强模型进行训练的过程中，可输入带噪语音信号经过特征提取网络得到特征向量，之后分别通过降噪网络和变速变调判定网络，得到增强语音的掩蔽矩阵和变速变调估计值，基于降噪网络的输出和变速变调判定网络的输出来计算得到损失函数值。以最小化损失函数值为目标，优化特征提取网络、降噪网络和变速变调判定网络，更新模型参数直至语音增强模型收敛。

根据上述方式训练出的语音增强模型能够感知语音的变速变调信息。

在模型预测阶段，对于语音降噪使用场景，可仅运行图1的特征提取网络和降噪网络，从而得到降噪后的语音数据。在模型测试过程中，可不运行变速变调判定网络。下面将根据图2至图4来详细阐述本公开的模型训练过程和模型预测过程。

图2是根据本公开的实施例的语音增强方法的流程图。根据本公开的语音增强方法可应用于任何语音降噪场景。例如，可对不变速不变调的带噪语音、变速不变调的带噪语音、不变速变调的带噪语音、变速变调的带噪语音进行语音降噪。

根据本公开的语音增强方法可由任意电子设备执行。电子设备可以是用户所在终端。电子设备可以是智能手机、平板电脑、便携式计算机和台式计算机等中的至少一种。电子设备可安装有目标应用，用于对上述带噪语音进行降噪处理，以得到干净语音。

在步骤S201，获取输入语音。这里，输入语音可以是不变速不变调的带噪语音、变速不变调的带噪语音、不变速变调的带噪语音、变速变调的带噪语音等。语音中的噪声信号可包括多种噪声。

在步骤S202，将获取的输入语音输入至语音增强模型，得到与该输入语音对应的增强语音。

根据本公开的语音增强模型可由神经网络实现，例如，语音增强模型可包括特征提取网络和降噪网络。特征提取网络可采用多层卷积网络和循环神经网络实现，降噪网络可采用多层循环神经网络和全连接网络实现。然而，上述示例仅是示例性的，本公开不限于此。

作为示例，首先，输入语音经过短时傅里叶变换(Short Time FourierTransform，STFT)，得到输入语音频谱。输入语音频谱经过多层卷积网络和循环神经网络，提取对应的特征向量。提取出的特征向量经过多层循环神经网络和全连接网络，输出对应的时频掩蔽矩阵。时频掩蔽矩阵与输入语音频谱相乘，可得到估计的干净语音频谱，之后估计的干净语音频谱经过反短时傅里叶变换(Inverse Short Time Fourier Transform，ISTFT)得到估计的干净语音信号。

下面将参照图3和图4详细描述如何训练本公开的语音增强模型。

图3是根据本公开的实施例的语音增强模型的训练方法的流程图。图4是根据本公开的实施例的语音增强系统的结构示意图。

根据本公开的训练方法可由任意电子设备执行。电子设备可以是用户所在终端。电子设备可以是智能手机、平板电脑、便携式计算机和台式计算机等中的至少一种。

根据本公开实施例的语音增强模型可包括特征提取部分和降噪部分。在对语音增强模型进行训练时，可引入变速变调判定部分，使得训练出的语音增强模型可感知语音的变速变调信息，以更加有针对性地对输入语音进行降噪处理。

参照图3，在步骤S301，获取训练样本。训练样本可包括干净语音信号和带噪语音信号，干净语音信号可指未进行变速变调处理的无噪声语音信号(即不变速不变调的语音信号)，带噪语音信号可指通过对干净语音信号进行变速变调处理和噪声混合处理得到的。

作为示例，干净语音信号可在安静环境(诸如录音棚)中采集得到。然后，将干净语音信号混合各种噪声信号得到带噪语音信号，并且将带噪语音信号按照不同的变快倍速、变慢倍速、升调倍速和降调倍速调整为变速变调的带噪语音信号。可根据实际需求预先设置最大变快倍速、最大变慢倍速、最大升调倍速和最大降调倍速。

此外，由于语速语调信息是长时信息，所以训练时所使用的样本数据可以是较长时间范围的语音信号，诸如4-5秒的语音信号。这样，可保证在后面提取出的特征更加准确。

在步骤S302，将带噪语音信号的信息输入语音增强模型的特征提取网络，得到与带噪语音信号对应的特征。

在本公开中，可使用语音信号的频域信息来训练语音增强模型，也可使用语音信号的时域信息来训练语音增强模型。

在带噪语音信号的信息为频域信息的情况下，可首先对带噪语音信号执行STFT，以得到带噪语音信号的频谱信息。然后将该频谱信息输入特征提取网络来得到带噪语音信号的特征信息。

由于语速语调信息是长时信息，这样特征提取网络需要具备较大的时域感知范围，所以特征提取网络可加入诸如循环神经网络之类的结构来进行建模。

作为示例，参照图4，特征提取网络可由多层卷积网络CNNs和循环神经网络GRUs_0构成。在获得带噪语音信号的频谱信息后，可将频谱信息输入特征提取网络，从而得到带噪语音信号的特征。

在步骤S303，将得到的特征输入语音增强模型的降噪网络，得到由降噪网络预测的预测信息。这里，预测信息可用于生成所述带噪语音信号的增强语音信号。增强语音信号可指语音增强模型输出的干净语音估计信号。

作为示例，参照图4，降噪网络可采用多层循环神经网络GRUs_1和全连接网络MLPs_1实现。在获得带噪语音信号的特征后，可将提取的特征输入降噪网络，从而得到针对带噪语音信号获得增强语音信号的信息。

预测信息可以是用于获得增强语音信号的掩蔽矩阵。可根据带噪语音信号的信息是频域信息还是时域信息来得到不同域的掩蔽矩阵。降噪网络可基于提取的特征输出用于获得增强语音信号的掩蔽矩阵。

在预测信息是频域掩蔽矩阵的情况下，通过将得到的掩蔽矩阵与带噪语音的频谱相乘，得到增强语音的频谱。

在步骤S304，将得到的特征输入变速变调判定网络，得到由变速变调判定网络预测的带噪语音信号的变速变调估计值。

作为示例，参照图4，变速变调判定网络可由多层循环神经网络GRUs_2和全连接网络MLPs_2实现。在获得带噪语音信号的特征后，可将提取的特征输入变速变调判定网络，从而得到针对带噪语音信号的变速变调估计值。

在步骤S305，基于带噪语音信号的信息、预测信息、变速变调估计值和干净语音信号的信息来调整特征提取网络、降噪网络和变速变调判定网络的参数，以训练语音增强模型。

具体地，可根据带噪语音信号的信息、预测信息和干净语音信号的信息来计算第一损失函数，根据变速变调估计值和在对干净语音信号执行变速变调处理时的变速变调实际值来计算第二损失函数，通过根据第一损失函数和第二损失函数来调整特征提取网络、降噪网络和变速变调判定网络的参数，对语音增强模型进行训练。下面以频域信息为例来描述损失函数的构建。

可将用于获得增强语音信号的掩蔽矩阵和带噪语音信号的幅度谱相乘，得到增强语音信号的幅度谱，根据增强语音信号的幅度谱和干净语音信号的幅度谱来计算第一损失函数。

作为示例，第一损失函数可以是增强语音信号幅度谱和干净语音信号幅度谱之间的均方误差。例如，由如下等式(1)来表示第一损失函数L_spec：

其中，t表示语音信号的第t帧，T表示语音信号的总帧数，M(t)表示第t帧的掩蔽向量，Y(t)表示带噪语音信号的第t帧的幅度谱，X(t)表示干净语音信号的第t帧的幅度谱。

在本公开中，可将变速值和变调值作为两个单独的变量来考虑。可基于变速变调估计值中的变速估计值和变速变调实际值中的变速实际值来计算第一误差函数，基于变速变调估计值中的变调估计值和变速变调实际值中的变调实际值来计算第二误差函数，然后基于第一误差函数和第二误差函数来计算用于变速变调判定的第二损失函数。

作为示例，可由如下等式(2)来表示第二损失函数：

其中，t表示语音信号的第t帧，T表示语音信号的总帧数，S_norm(t)和P_norm(t)分别表示第t帧对应的实际变速值和实际变调值，

和

分别表示第t帧对应的变速估计值和变调估计值，函数Dist(x，y)表示变速值或变调值的误差函数。

这里，Dist(x，y)＝max(|x-y|-δ，0)。其中，δ表示变速值或变调值的允许误差门限，当估计误差小于δ时，误差函数值为0。设计允许误差门限的目的在于，语音本身会具有一定的语速语调变化范围，而神经网络对于变速变调值的估计误差计算需要考虑到这部分变化。这样可保证训练出的模型更加符合实际要求。

在获得第一损失函数和第二损失函数，可对第一损失函数和第二损失函数进行加权求和，通过使最终的损失函数值最小来训练得到语音增强模型。

根据本公开的另一实施例，为了使变速变调判定网络估计的变速变调值更加准确，在训练时可对变速变调值进行规整。具体地，可将变速变调估计值和对应的变速变调实际值调整为预设范围内的数值，然后基于调整后的变速变调估计值与调整后的变速变调实际值之间的误差来计算第二损失函数。

作为示例，可基于最大变快倍速、最大变慢倍速和预设的变速值调整策略，将变速变调估计值中的变速估计值和变速变调实际值中的变速实际值调整为预设范围内的数值。可基于最大升调倍速、最大降调倍速和预设的变调调整策略，将变速变调估计值中的变调估计值和变速变调实际值中的变调实际值调整为预设范围内的数值。最大变快倍速、最大变慢倍速、最大升调倍速和最大降调倍速可根据实际需求被不同地设置。

变速值的预设范围可以是-1至最大变快倍速与最大变慢倍速之比，变调值的预设范围可以是-1至最大升调倍速与最大降调倍速之比。

假设语音信号的原始变速值为S,最大变快倍速和变慢倍速均为N，则原始变速值S的范围是

为了使得变速值更加线性地反映音频特性，规整后的变速值S_norm可被表示为如下等式(3)：

按照如等式(3)示出的变速值调整策略规整后的S_norm的范围是[-1，1]。

当最大变快倍速为N，最大变慢倍速为M时，规整后的变速值S_norm可被表示为如下等式(4)：

按照如等式(4)示出的变速值调整策略规整后的S_norm的范围是

同理，假设语音信号的原始变调值为P，最大升调倍速和最大降调倍速均为N时，则规整后的变调值P_norm可被表示为如下等式(5)

按照如等式(5)示出的变调值调整策略规整后的P_norm的范围是[-1，1]。

当最大升调倍速为N，最大降调倍速为M时，规整后的变调值P_norm可被表示为如下等式(6)：

按照如等式(6)示出的变调值调整策略规整后的P_norm的范围是

在使用规整后的变速变调值计算第二损失函数的情况下，对于误差函数中的允许误差门限δ，假设变速/变调范围为

当允许20％以内的语速/语调变化不计入误差时，规整后的变速/变调值的允许误差门限可被表示为

接下来，按照上述等式(2)，使用规整后的变速变调值来计算第二损失函数。

根据本公开的又一示例，在第二损失函数的计算中，考虑到非语音帧没有变速变调的概念，因此可在计算第二损失函数中去除非语音帧的影响。可使用针对语音帧的变速变调估计值和变速变调实际值来计算第二损失函数。这样训练出的变速变调判定网络的预测准确度更高。

例如，可使用如下等式(7)表示考虑到非语音帧的影响的第二损失函数

其中，V(t)表示第t帧是否为语音的判断函数，

在获得第一损失函数和第二损失函数后，可将第一损失函数和第二损失函数组合来得到总函数函数。

作为示例，利用等式(1)和等式(7)的损失函数来构建最终的损失函数L_all，如下等式(8)所示：

其中，a表示变速变调判定网络的第二损失函数的权重，例如，a＝0.1。

在模型训练中，以使总损失函数值最小化为目标，优化特征提取网络、降噪网络和变速变调判定网络的参数，更新模型参数直至模型收敛。

此外，图4示出了单通道(一个语音增强模型)频域降噪的结构，然而根据本公开的实施例，可按照图3所述的训练方法，可针对不同类型的降噪任务同时训练不同的语音增强模型。本公开的训练方法可适用于单通道时域和频域降噪系统，也可适用于多通道(针对不同降噪任务的多个语音增强模型)时域和频域降噪系统。在同时训练多个语音增强模型的情况下，可共享一个变速变调判定网络，也可针对每个语音增强模型分别设置一个变速变调判定网络。

本公开根据短视频场景的特点，设计了一种变速变调可感知的神经网络降噪系统，通过多任务训练的方式，使得神经网络可提取变速变调相关特征向量，进而根据该特征向量进行针对性的语音降噪处理，提升神经网络在变速变调场景的降噪效果。

图5是本公开实施例的硬件运行环境的语音增强设备的结构示意图。

如图5所示，语音增强设备500可包括：处理组件501、通信总线502、网络接口503、输入输出接口504、存储器505以及电源组件506。其中，通信总线502用于实现这些组件之间的连接通信。输入输出接口504可以包括视频显示器(诸如，液晶显示器)、麦克风和扬声器以及用户交互接口(诸如，键盘、鼠标、触摸输入装置等)，可选地，输入输出接口504还可包括标准的有线接口、无线接口。网络接口503可选的可包括标准的有线接口、无线接口(如无线保真接口)。存储器505可以是高速的随机存取存储器，也可以是稳定的非易失性存储器。存储器505可选的还可以是独立于前述处理组件501的存储装置。

本领域技术人员可以理解，图5中示出的结构并不构成对语音增强设备500的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图5所示，作为一种存储介质的存储器505中可包括操作系统(诸如MAC操作系统)、数据存储模块、网络通信模块、用户接口模块、模型训练程序、语音增强程序以及数据库。

在图5所示的语音增强设备500中，网络接口503主要用于与外部电子设备/终端进行数据通信；输入输出接口504主要用于与用户进行数据交互；语音增强设备500中的处理组件501、存储器505可被设置在语音增强设备500中，语音增强设备500通过处理组件501调用存储器505中存储的模型训练程序、语音增强程序以及由操作系统提供的各种API，执行本公开实施例提供的模型训练方法和语音增强方法。

处理组件501可以包括至少一个处理器，存储器505中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器执行时，执行根据本公开实施例的模型训练方法和语音增强方法。然而，上述示例仅是示例性的，本公开不限于此。

处理组件501可通过执行程序来实现对语音增强设备500所包括的组件的控制。

语音增强设备500可经由输入输出接口504接收或输出语音信号。

处理组件501可执行根据本公开实施例的模型训练方法和语音增强方法。

作为示例，语音增强设备500可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，语音增强设备500并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。语音增强设备500还可以是集成控制系统或系统管理器的一部分，或者可以被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在语音增强设备500中，处理组件501可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理组件501还可以包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理组件501可运行存储在存储器中的指令或代码，其中，存储器505还可以存储数据。指令和数据还可以经由网络接口503而通过网络被发送和接收，其中，网络接口503可以采用任何已知的传输协议。

存储器505可以与处理组件501集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器505可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可以使用的其他存储装置。存储器和处理组件501可以在操作上进行耦合，或者可以例如通过I/O端口、网络连接等互相通信，使得处理组件501能够读取存储在存储器505中的数据。

图6是根据本公开的实施例的语音增强装置的框图。

参照图6，语音增强装置600可包括获取模块601和处理模块602。语音增强装置600中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略语音增强装置600中的一些模块，或者还可包括另外的模块。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。

获取模块601可获取输入语音。

处理模块602可将输入语音输入至语音增强模型，得到与输入语音对应的增强语音，其中，语音增强模型基于如上所述的训练方法被获得。

上面已根据图2至图4详细描述了对语音增强操作和模型训练操作，这里不再进行描述。

图7是根据本公开的实施例的语音增强模型的训练装置的框图。

参照图7，训练装置700可包括获取模块701、特征提取模块702、降噪模块703、变速变调判定模块704和训练模块705。训练装置700中的每个模块可由一个或多个模块来实现，并且对应模块的名称可根据模块的类型而变化。在各种实施例中，可省略训练装置700中的一些模块，或者还可包括另外的模块。此外，根据本公开的各种实施例的模块/元件可被组合以形成单个实体，并且因此可等效地执行相应模块/元件在组合之前的功能。

获取模块701可获取训练样本。训练样本可包括干净语音信号和带噪语音信号，干净语音信号是未进行变速变调处理的无噪声语音信号，带噪语音信号是通过对干净语音信号进行变速变调处理和噪声混合处理得到的。

特征提取模块702可将带噪语音信号的信息输入特征提取网络，得到与带噪语音信号对应的特征。

降噪模块703可将特征输入降噪网络，得到由降噪网络预测的预测信息。预测信息可用于生成所述带噪语音信号的增强语音信号。

变速变调判定模块704可将特征输入变速变调判定网络，得到由变速变调判定网络预测的带噪语音信号的变速变调估计值。

训练模块705可基于带噪语音信号的信息、预测信息、变速变调估计值和干净语音信号的信息来调整特征提取网络、降噪网络和变速变调判定网络的参数，以训练语音增强模型。

可选地，训练模块705可根据带噪语音信号的信息、预测信息和干净语音信号的信息，计算第一损失函数；根据变速变调估计值和在对干净语音信号执行变速变调处理时的变速变调实际值，计算第二损失函数；通过根据第一损失函数和第二损失函数来调整特征提取网络、降噪网络和变速变调判定网络的参数。

可选地，在带噪语音信号的信息可包括带噪语音信号的幅度谱，预测信息可包括用于获得增强语音信号的掩蔽矩阵的情况下，训练模块705可将用于获得增强语音信号的掩蔽矩阵和带噪语音信号的幅度谱相乘，得到增强语音信号的幅度谱，根据增强语音信号的幅度谱和干净语音信号的幅度谱，计算第一损失函数。

可选地，训练模块705可基于变速变调估计值中的变速估计值和变速变调实际值中的变速实际值来计算第一误差函数；基于变速变调估计值中的变调估计值和变速变调实际值中的变调实际值来计算第二误差函数；基于第一误差函数和第二误差函数来计算第二损失函数。

可选地，训练模块705可将变速变调估计值和变速变调实际值调整为预设范围内的数值；基于调整后的变速变调估计值与调整后的变速变调实际值之间的误差来计算第二损失函数。

可选地，训练模块705可获取在对干净语音信号执行变速变调处理时的最大变快倍速、最大变慢倍速、最大升调倍速和最大降调倍速；基于最大变快倍速、最大变慢倍速和预设的变速值调整策略，将变速变调估计值中的变速估计值和变速变调实际值中的变速实际值调整为预设范围内的数值；基于最大升调倍速、最大降调倍速和预设的变调调整策略，将变速变调估计值中的变调估计值和变速变调实际值中的变调实际值调整为预设范围内的数值。

可选地，训练模块705可使用针对语音帧的变速变调估计值和变速变调实际值来计算第二损失函数。

可选地，带噪语音信号的信息可包括带噪语音信号的频域信息，预测信息可包括用于获得增强语音信号的频域信息；或者，带噪语音信号的信息可包括带噪语音信号的时域信息，预测信息可包括用于获得增强语音信号的时域信息。也就是说，本公开的语音增强模型可适用于对语音时域信号进行增强，也可适用于对语音频域信号进行增强。

上面已根据图2至图4详细描述了对模型训练操作，这里不再进行描述。

根据本公开的实施例，可提供一种电子设备。图8是根据本公开实施例的电子设备的框图，该电子设备800可包括至少一个存储器802和至少一个处理器801，所述至少一个存储器802存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器801执行时，执行根据本公开实施例的模型训练方法和语音增强方法。

处理器801可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器801还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

作为一种存储介质的存储器802可包括操作系统、数据存储模块、网络通信模块、用户接口模块、模型训练程序、语音增强程序以及数据库。

存储器802可与处理器801集成为一体，例如，可将RAM或闪存布置在集成电路微处理器等之内。此外，存储器802可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器802和处理器801可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器801能够读取存储在存储器802中的文件。

此外，电子设备800还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备800的所有组件可经由总线和/或网络而彼此连接。

本领域技术人员可理解，图8中示出的结构并不构成对的限定，可包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

根据本公开的实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的模型训练方法和语音增强方法。这里的计算机可读存储介质的示例包括：只读存储器(Read Only Memory，ROM)、可编程只读存储器(Programmable Read Only Memory，PROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、随机存取存储器(Random Access Memory，RAM)、动态随机存取存储器(Dynamic Random Access Memory，DRAM)、静态随机存取存储器(Static Random Access Memory，SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(Hard Disk Drive，HDD)、固态硬盘(Solid State Drive，SSD)、卡式存储器(诸如，多媒体卡、安全数字(Secure Digital，SD)卡或极速数字卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的实施例中，还可提供一种计算机程序产品，该计算机程序产品中的指令可由计算机设备的处理器执行以完成上述的模型训练方法和语音增强方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音增强模型的训练方法，其特征在于，所述语音增强模型包括特征提取网络和降噪网络，其中，所述训练方法包括：

获取训练样本，其中，所述训练样本包括干净语音信号和带噪语音信号，所述干净语音信号是未进行变速变调处理的无噪声语音信号，所述带噪语音信号是通过对所述干净语音信号进行变速变调处理和噪声混合处理得到的；

将所述带噪语音信号的信息输入所述特征提取网络，得到与所述带噪语音信号对应的特征；

将所述特征输入所述降噪网络，得到由所述降噪网络预测的预测信息，其中，所述预测信息用于生成所述带噪语音信号的增强语音信号；

将所述特征输入变速变调判定网络，得到由所述变速变调判定网络预测的所述带噪语音信号的变速变调估计值；

基于所述带噪语音信号的信息、所述预测信息、所述变速变调估计值和所述干净语音信号的信息来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数，以训练所述语音增强模型。

2.根据权利要求1所述的训练方法，其特征在于，基于所述带噪语音信号的信息、所述预测信息、所述变速变调估计值和所述干净语音信号的信息来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数，以训练所述语音增强模型，包括：

根据所述带噪语音信号的信息、所述预测信息和所述干净语音信号的信息，计算第一损失函数；

根据所述变速变调估计值和在对所述干净语音信号执行变速变调处理时的变速变调实际值，计算第二损失函数；

通过根据所述第一损失函数和所述第二损失函数来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数。

3.根据权利要求2所述的训练方法，其特征在于，所述带噪语音信号的信息包括所述带噪语音信号的幅度谱，所述预测信息包括用于获得增强语音信号的掩蔽矩阵，

所述根据所述带噪语音信号的信息、所述预测信息和所述干净语音信号的信息，计算第一损失函数，包括：

将所述用于获得增强语音信号的掩蔽矩阵和所述带噪语音信号的幅度谱相乘，得到所述增强语音信号的幅度谱；

根据所述增强语音信号的幅度谱和所述干净语音信号的幅度谱，计算所述第一损失函数。

4.根据权利要求2所述的训练方法，其特征在于，根据所述变速变调估计值和在对所述干净语音信号执行变速变调处理时的变速变调实际值，计算第二损失函数，包括：

基于所述变速变调估计值中的变速估计值和所述变速变调实际值中的变速实际值来计算第一误差函数；

基于所述变速变调估计值中的变调估计值和所述变速变调实际值中的变调实际值来计算第二误差函数；

基于所述第一误差函数和所述第二误差函数来计算所述第二损失函数。

5.一种语音增强方法，其特征在于，包括：

获取输入语音；

将所述输入语音输入至语音增强模型，得到所述输入语音对应的增强语音，

其中，所述语音增强模型基于权利要求1至4中任一项所述的训练方法被获得。

6.一种语音增强模型的训练装置，其特征在于，所述语音增强模型包括特征提取网络和降噪网络，其中，所述训练装置包括：

获取模块，被配置为获取训练样本，其中，所述训练样本包括干净语音信号和带噪语音信号，所述干净语音信号是未进行变速变调处理的无噪声语音信号，所述带噪语音信号是通过对所述干净语音信号进行变速变调处理和噪声混合处理得到的；

特征提取模块，被配置为将所述带噪语音信号的信息输入所述特征提取网络，得到与所述带噪语音信号对应的特征；

降噪模块，被配置为将所述特征输入所述降噪网络，得到由所述降噪网络预测的预测信息，其中，所述预测信息用于生成所述带噪语音信号的增强语音信号；

变速变调判定模块，被配置为将所述特征输入变速变调判定网络，得到由所述变速变调判定网络预测的所述带噪语音信号的变速变调估计值；

训练模块，被配置为基于所述带噪语音信号的信息、所述预测信息、所述变速变调估计值和所述干净语音信号的信息来调整所述特征提取网络、所述降噪网络和所述变速变调判定网络的参数，以训练所述语音增强模型。

7.一种语音增强装置，其特征在于，包括：

获取模块，被配置为获取输入语音；

处理模块，被配置为将所述输入语音输入至语音增强模型，得到与所述输入语音对应的增强语音，

8.一种电子设备，其特征在于，包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到4或权利要求5中的任一项权利要求所述的方法。

9.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到4或权利要求5中的任一项权利要求所述的方法。

10.一种计算机程序产品，所述计算机程序产品中的指令被电子装置中的至少一个处理器运行以执行如权利要求1到4或权利要求5中的任一项权利要求所述的方法。