CN111554321B

CN111554321B - 降噪模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN111554321B
Application number: CN202010313506.3A
Authority: CN
Inventors: 张旭; 郑羲光; 张晨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2023-12-05
Anticipated expiration: 2040-04-20
Also published as: CN111554321A

Abstract

本公开提供了一种降噪模型训练方法、装置、电子设备及存储介质，涉及网络技术领域，解决无法准确地获得期望音频信号的问题。该方法包括：获取原始音频信号的第一特征信息和对原始音频信号加噪处理后的带噪音频信号的第二特征信息；将第一特征信息和第二特征信息输入训练模型，计算得到估计特征信息；根据第一特征信息、估计特征信息确定损失函数，损失函数用于表示训练模型估计得到的特征信息与原始音频信号的特征信息之间的损失；根据带噪音频信号的信噪比，调整损失函数中的相位损失函数以确定调整后的损失函数；根据调整后的损失函数对训练模型进行训练，以调整训练模型的参数，得到降噪模型。该方法应用于对音频信号降噪的场景中。

Description

降噪模型训练方法、装置、电子设备及存储介质

技术领域

本公开涉及网络技术领域，尤其涉及一种降噪模型训练方法、装置、电子设备及存储介质。

背景技术

随着电子技术及网络技术的快速发展，电子设备可以在时频域基于神经网络的降噪算法对音频信号进行降噪处理。

具体的，电子设备可以将时域上的音频信号做短时傅里叶变换(short-timeFourier transform，STFT)，变换为时频域上的音频信号，然后电子设备可以根据变换到时频域上的音频信号的幅度信息和相位信息，基于神经网络获得估计幅度信息和估计相位信息，从而得到期望音频信号，即降噪后的音频信号。

然而，由于音频信号中的每帧信号的信噪比可能不同，因此，在对时域上的音频信号做STFT之后，可能使得变换到时频域上的音频信号的相位信息不准确，从而导致基于神经网络获得的估计相位信息不准确，进而无法准确地获得期望音频信号。

发明内容

本公开提供一种降噪模型训练方法、装置、电子设备及存储介质，至少解决相关技术中无法准确地获得期望音频信号的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种降噪模型训练方法，该降噪模型训练方法包括：获取原始音频信号的第一特征信息和带噪音频信号的第二特征信息，带噪音频信号为对原始音频信号加噪处理后的音频信号；将第一特征信息和第二特征信息输入训练模型，计算得到估计特征信息；根据第一特征信息、估计特征信息确定损失函数，损失函数用于表示训练模型估计得到的特征信息与原始音频信号的特征信息之间的损失；根据带噪音频信号的信噪比，调整损失函数中的相位损失函数以确定调整后的损失函数；根据调整后的损失函数对训练模型进行训练，以调整训练模型的参数，得到降噪模型。

可选地，本公开实施例中，根据带噪音频信号的信噪比，调整损失函数中的相位损失函数以确定调整后的损失函数的步骤，包括：根据带噪音频信号的信噪比，计算相位损失函数的相位因子；根据相位因子，调整损失函数中的相位损失函数。

可选地，本公开实施例中，根据相位因子，调整损失函数中的相位损失函数的步骤，包括:Loss(f)＝Mag(f)+α*Pha(f)。其中，Loss(f)为损失函数，Mag(f)为损失函数中的幅度损失函数，α为相位因子，Pha(f)为相位损失函数。

可选地，本公开实施例中，其中，x(t)为原始音频信号，y(t)为带噪音频信号，T为原始音频信号的时长，且0＜t≤T。

可选地，本公开实施例中，其中，MagX₀(n,k)为估计特征信息中的估计幅度信息，MagX(n,k)为原始音频信号的幅度信息，PhaX₀(n,k)为估计特征信息中的估计相位信息，PhaX(n,k)为原始音频信号的相位信息，K为原始音频信号的总频点数，且0＜k≤K。

可选地，本公开实施例中，在获取原始音频信号的第一特征信息和带噪音频信号的第二特征信息的步骤之前，降噪模型训练方法还包括：对原始音频信号和带噪音频信号进行短时傅里叶变换STFT；获取原始音频信号的第一特征信息和带噪音频信号的第二特征信息的步骤，包括：获取进行STFT后的原始音频信号的第一特征信息和进行STFT后的带噪音频信号的第二特征信息。

根据本公开实施例的第二方面，提供一种降噪方法，该降噪方法包括：获取第一音频信号的目标特征信息；将目标特征信息输入降噪模型，得到目标估计特征信息；根据目标估计特征信息，生成第二音频信号，第二音频信号为对第一音频信号降噪后的音频信号；降噪模型为采用如上述第一方面或第一方面的任一种可能实现方式所述的降噪模型训练方法训练得到的模型。

可选地，本公开实施例中，获取第一音频信号的目标特征信息的步骤，包括：获取进行短时傅里叶变换STFT后的第一音频信号的目标特征信息；根据目标估计特征信息，生成第二音频信号的步骤，包括：根据逆短时傅里叶变换ISTFT后的目标估计特征信息，生成第二音频信号。

根据本公开实施例的第三方面，提供一种降噪模型训练装置，包括获取模块和处理模块。其中，获取模块，被配置为获取原始音频信号的第一特征信息和带噪音频信号的第二特征信息，带噪音频信号为对原始音频信号加噪处理后的音频信号；处理模块，被配置为将获取模块获取的第一特征信息和第二特征信息输入训练模型，计算得到估计特征信息；并根据第一特征信息、估计特征信息确定损失函数；以及根据带噪音频信号的信噪比，调整损失函数中的相位损失函数以确定调整后的损失函数；并根据调整后的损失函数对训练模型进行训练，以调整训练模型的参数，得到降噪模型。其中，损失函数用于表示训练模型估计得到的特征信息与原始音频信号的特征信息之间的损失。

根据本公开实施例的第四方面，提供一种降噪装置，包括目标获取模块和目标处理模块。其中，目标获取模块，被配置为获取第一音频信号的目标特征信息；目标处理模块，被配置为将目标获取模块获取的目标特征信息输入降噪模型，得到目标估计特征信息；并根据目标估计特征信息，生成第二音频信号；其中，降噪模型为采用如上述第一方面或第一方面的任一种可能实现方式所述的降噪模型训练方法训练得到的模型，第二音频信号为对第一音频信号降噪后的音频信号。

根据本公开实施例的第五方面，提供一种电子设备，包括：

处理器；

用于存储该处理器可执行指令的存储器；

其中，该处理器被配置为执行指令，以实现如上述第一方面或第一方面的任一种可能实现方式所述的降噪模型训练方法。

根据本公开实施例的第六方面，提供一种存储介质，当该存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述第一方面或第一方面的任一种可能实现方式所述的降噪模型训练方法。

根据本公开实施例的第七方面，提供一种计算机程序产品，当该计算机程序产品中的指令由电子设备的处理器执行时，使得电子设备能够执行如上述第一方面或第一方面的任一种可能实现方式所述的降噪模型训练方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过该方案，基于音频信号的信噪比不同可能导致降噪后的音频信号的相位信息不准确的情况，由于本公开实施例中，在确定训练模型的损失函数之后，可以根据音频信号的信噪比，调整损失函数中的相位损失函数，得到调整后的损失函数。如此，根据该调整后的损失函数对训练模型进行训练，即调整训练模型的参数之后，根据该训练模型训练的估计信息更加准确，从而获得的期望音频信号更加准确。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种降噪模型训练方法的系统框图；

图2是根据一示例性实施例示出的一种降噪模型训练方法的流程图之一；

图3是根据一示例性实施例示出的一种降噪模型训练方法的流程图之二；

图4是根据一示例性实施例示出的一种降噪方法的流程图；

图5是根据一示例性实施例示出的一种降噪模型训练装置的框图；

图6是根据一示例性实施例示出的一种降噪装置的框图；

图7是根据一示例性实施例示出的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

期望音频信号：为对原始音频信号降噪处理后得到的音频信号。

本领域技术人员应能理解上述电子设备仅为举例，其他现有的或今后可能出现的电子设备如可适用于本公开，也应包含在本公开保护范围以内，并在此以引用方式包含于此。

本公开实施例中提供的降噪模型训练方法的执行主体可以为本公开实施例提供的降噪模型训练装置，也可以为包括该降噪模型训练装置的电子设备，具体的可以根据实际使用需求确定，本公开实施例不作限定。

下面以降噪模型训练装置为例，结合各个附图，对本公开实施例提供的降噪模型训练方法进行示例性的说明。

下面先结合图1对本公开实施例提供的降噪模型训练方法的流程进行示例性地说明。

本公开实施例中，音频信号可以包括至少一帧信号，降噪模型训练装置可以以一帧信号为单位训练模型，也可以以多帧信号为单位训练模型。具体可以根据实际使用需求确定，本公开实施例不作限定。

如图1所示，为本公开实施例提供的降噪模型训练方法的系统框图。

如①所示，降噪模型训练装置获取原始音频信号的第一特征信息(例如幅度信息和相位信息)，以及带噪音频信号的第二特征信息(例如幅度信息和相位信息)。具体的，假设原始音频信号为时域上的音频信号，且带噪音频信号也为时域上的音频信号。那么，降噪模型训练装置可以将时域上的原始音频信号进行SFTF变换至时频域上，并获取原始音频信号的第一特征信息，并且，降噪模型训练装置可以将时域上的带噪音频信号进行SFTF变换至时频域上，并获取带噪音频信号的第二特征信息。

如②所示，降噪模型训练装置获取估计特征信息，并确定训练模型的损失函数。具体的，降噪模型训练装置可以将第一特征信息和第二特征信息输入训练模型中，得到估计特征信息。然后降噪模型训练装置可以根据估计特征信息和第一特征信息，确定训练模型得到的估计特征信息和原始音频信号的第一特征信息之间的损失，即损失函数。

如③所示，降噪模型训练装置在输出训练模型估计的估计特征信息之前，估计特征信息之间可以互相校正，从而可以输出准确的估计特征信息。

如④所示，降噪模型训练装置调整损失函数并得到降噪模型。具体地，降噪模型训练装置可以根据带噪音频信号的信噪比，调整损失函数中的相位损失函数，从而调整损失函数。进一步，降噪模型训练装置可以再根据调整后的损失函数，对训练模型进行训练，从而调整训练模型的参数，最终得到降噪模型。

本公开实施例中，降噪装置可以对原始音频信号和带噪音频信号中每帧信号或多帧信号执行上述①-④操作，从而得到降噪模型。

图2是根据一示例性实施例示出的一种降噪模型训练方法的流程图，如图2所示，降噪模型训练方法用于降噪模型训练装置中，该方法可以包括以下步骤21-步骤25。

在步骤21中，降噪模型训练装置获取原始音频信号的第一特征信息和带噪音频信号的第二特征信息。

其中，上述带噪音频信号可以为对原始音频信号加噪处理后的音频信号。具体地，降噪模型训练装置可以在原始音频信号上增加任意一个噪声信号，例如白噪声、高斯噪声等，从而得到带噪音频信号。

可选地，本公开实施例中，上述原始音频信号的第一特征信息可以包括原始音频信号的第一幅度信息和第一相位信息，带噪音频信号的第二特征信息可以包括带噪音频信号的第二幅度信息和第二相位信息。

可选地，本公开实施例中，一种可能的实现方式中，降噪模型训练装置可以依次获取原始音频信号中每一帧信号的特征信息和带噪音频信号中每一帧信号的特征信息，得到第一特征信息和第二特征信息。另一种可能的实现方式中，降噪模型训练装置可以依次获取原始音频信号中多帧信号的特征信息和带噪音频信号中多帧信号的特征信息，得到第一特征信息和第二特征信息。

可选地，本公开实施例中，上述原始音频信号可以为降噪模型训练装置中的任意一个音频信号。例如，可以为降噪模型训练装置下载的音频信号，也可以为用户触发降噪装置模型训练录制的音频信号等。具体可以根据实际使用需求确定，本公开实施例不作限定。

可选地，本公开实施例中的原始音频信号和带噪音频信号均为时域上的信号。

在步骤22中，降噪模型训练装置将第一特征信息和第二特征信息输入训练模型，计算得到估计特征信息。

可选地，本公开实施例中，上述估计特征信息可以包括估计幅度信息和估计相位信息。

本公开实施例中，如上述②所示，在降噪模型训练装置获取到第一特征信息和第二特征信息之后，降噪模型训练装置可以将第一特征信息和第二特征信息输入训练模型，计算得到估计特征信息。具体地，降噪模型训练装置可以从第一特征信息中的第一幅度信息和第二特征信息中的第二幅度信息中，提取与幅度对应的特征和标签，并将提取的特征和标签输入至训练模型，计算得到估计幅度信息；然后再从第一特征信息中的第一相位信息和第二特征信息中的第二相位信息中，提取与相位信息对应的特征和标签，并将提取的特征和标签输入至训练模型，计算得到估计相位信息，从而可以得到估计特征信息。

在步骤23中，降噪模型训练装置根据第一特征信息和估计特征信息确定损失函数。

其中，上述损失函数可以用于表示训练模型估计得到的特征信息与原始音频信号的特征信息之间的损失。

可以理解，上述损失函数即用于表示估计特征信息和第一特征信息之间的损失。

本公开实施例中，在降噪模型训练装置计算得到估计特征信息之后，降噪模型训练装置可以根据第一特征信息和估计特征信息确定训练模型的损失函数。

在步骤24中，降噪模型训练装置根据带噪音频信号的信噪比，调整损失函数中的相位损失函数以确定调整后的损失函数。

本公开实施例中，降噪模型训练装置可以根据带噪音频信号的信噪比，调整损失函数中的相位损失函数，进而调整损失函数，并根据调整后的损失函数对训练模型进行训练，得到降噪模型。

可选地，本公开实施例中，在降噪模型训练装置以一帧信号或以多帧信号为单位训练模型的过程中，带噪音频信号中不同帧(一帧或多帧)信号的信噪比不同，根据不同帧信号的信噪比确定相位因子不同，从而对相位损失函数调整的程度也不同。具体的，在降噪模型训练装置训练模型的过程中，降噪模型训练装置可以根据训练中的一帧信号或多帧信号的信噪比实时更新相位因子，从而实时对相位损失函数进行调整，进而损失函数也实时发生变化，然后降噪模型训练装置可以根据实时变化的损失函数对训练模型进行训练，来调整训练模型的参数，从而得到的降噪模型可以更好地适应不同信噪比的音频信号。

示例性地，假设带噪音频信号包括两帧信号，且降噪模型训练装置以一帧信号为单位训练模型。由于两帧信号的信噪比不同，且训练模型中的参数是参考两帧信号的信噪比确定的，从而训练模型可以更好地适应包括两帧信号的带噪音频信号。

可选地，本公开实施例中，上述步骤24具体可以通过下述的步骤24a和步骤24b实现。

在步骤24a中，降噪模型训练装置根据带噪音频信号的信噪比，计算相位损失函数的相位因子。

可选地，本公开实施例中，上述步骤24a具体可以通过下述公式(1)实现：

其中，α为相位损失函数的相位因子，x(t)为原始音频信号，y(t)为带噪音频信号，T为原始音频信号的时长，且0＜t≤T，可以用于表示带噪音频信号的信噪比。

可以理解，本公开实施例中，α的取值可以为和2中的最小值。具体的，当/>小于2时，α的取值为/>当/>大于2时，α的取值为2。

本公开实施例中，带噪音频信号的信噪比越高，α越小，带噪音频信号的信噪比越低，α越大。可以理解，在带噪音频信号的信噪比较低的情况下，该带噪音频信号的相位信息受到噪声的影响较大，得到的估计相位信息不准确，因此可以为相位损失函数增加一个较大相位因子，从而可以在一定程度上减小相位信息受到噪声的影响，进而可以保证训练模型比较准确。在带噪音频信号的信噪比较高的情况下，该带噪音频信号的相位信息受到噪声的影响较小，训练模型本身就较为合理，因此，可以为相位损失函数增加一个较小的相位因子，从而可以在一定程度上保持相位信息受到噪声的影响，进而可以保证训练模型更加准确。

需要说明的是，为了保证信噪比较低的音频信号对α的影响，本公开实施例中将α的取值范围设置为(1,2]。其中，2为采用大量不同信噪比的音频信号，经过多次训练、计算、对比得到的经验值。

可选地，本公开实施例可以不限定α的具体计算方式，只要保证α与带噪音频信号的信噪比有关即可。

在步骤24b中，降噪模型训练装置根据相位因子，调整损失函数中的相位损失函数。

可选地，本公开实施例中，上述步骤24b具体可以通过下述的公式(2)实现：

Loss(f)＝Mag(f)+α*Pha(f)； (2)

其中，Loss(f)为损失函数，Mag(f)为损失函数中的幅度损失函数，α相位因子，Pha(f)为相位损失函数。

从上述损失函数可以看出，由于带噪音频信号的信噪比不同，因此可以通过调整相位损失函数的相位因子，得到更加准确的训练模型。

可选地，本公开实施例中，上述其中，MagX₀(n,k)为估计特征信息中的估计幅度信息，MagX(n,k)为原始音频信号的幅度信息，PhaX₀(n,k)为估计特征信息中的估计相位信息，PhaX(n,k)为原始音频信号的相位信息，K为原始音频信号的总频点数(即对原始音频信号进行STFT时，采样的总采样点数)，且0＜k≤K。

在步骤25中，降噪模型训练装置根据调整后的损失函数对训练模型进行训练，以调整训练模型的参数，得到降噪模型。

本公开实施例中，在降噪模型训练装置调整损失函数中的相位损失函数之后，降噪模型训练装置可以根据调整后的损失函数对训练模型进行训练，即调整训练模型的参数，从而得到降噪模型。

下面结合下述实例对上述步骤S21和步骤S25进行进一步示例性地说明。

假设原始音频信号的总帧数N为3，原始音频信号的总频点数K为3，且一帧音频信号对应一个频点数，且降噪模型训练装置以3帧信号为单位训练模型。在降噪模型训练装置获取到原始音频信号中第一帧信号x(t₁)的幅度信息MagX(1,1)和相位信息PhaX(1,1)(即第一特征信息)，以及带噪音频信号中第一帧信号y(t₁)的幅度信息和相位信息(第二特征信息)之后，降噪模型训练装置可以将第一特征信息和第二特征信息输入训练模型，得到估计特征信息，即估计幅度信息MagX₀(1,1)和估计相位信息PhaX₀(1,1)；然后降噪模型训练装置可以根据第一特征信息和估计特征信息，确定损失函数，并根据上述公式(1)，通过带噪音频信号的信噪比，计算相位因子，以及根据上述公式(2)，通过计算的相位因子，调整损失函数中的相位损失函数，从而调整损失函数；最后，降噪模型训练装置可以根据调整后的损失函数对训练模型训练，即调整训练模型的参数，直至训练模型收敛，得到降噪模型。

本公开实施例提供的降噪模型训练方法中，基于音频信号的信噪比不同可能导致降噪后的音频信号的相位信息不准确的情况，由于本公开实施例中，在确定训练模型的损失函数之后，可以根据音频信号的信噪比，调整损失函数中的相位损失函数，得到调整后的损失函数。如此，根据该调整后的损失函数对训练模型进行训练，即调整训练模型的参数之后，得到的训练模型可以更好地适应不同信噪比的音频信号，即根据该训练模型训练的估计信息更加准确，从而获得的期望音频信号更加准确。

可选地，本公开实施例中，在降噪模型训练装置获取原始音频信号的第一特征信息和带噪音频信号的第二特征信息之前，降噪模型训练装置可以先将时域上的原始音频信号和带噪音频信号分别进行STFT变换至时频域，然后再获取原始音频信号的第一特征信息和带噪音频信号的第二特征信息。

示例性的，结合上述图2，如图3所示，在上述的步骤S21之前，本公开实施例提供的降噪模型训练方法还包括下述的步骤S26，且上述步骤S21具体可以通过下述的步骤S21a实现。

在步骤S26中，降噪模型训练装置对原始音频信号和带噪音频信号进行STFT。

可选地，本公开实施例中，降噪模型训练装置可以分别对原始音频信号和带噪音频信号进行STFT，即将时域上的原始音频信号变换至时频域上的原始音频信号，并将时域上的带噪音频信号变换至时频域上的带噪音频信号。

在步骤S21a中，降噪模型训练装置获取进行STFT后的原始音频信号的第一特征信息和进行STFT后的带噪音频信号的第二特征信息。

本公开实施例中，在降噪模型训练装置获取到时频域上(即进行STFT后)的原始音频信号和带噪音频信号之后，降噪模型训练装置可以获取时频域上的原始音频信号的第一特征信息，即第一幅度信息和第一相位信息，并获取时频域上的带噪音频信号的第二特征信息，即第二幅度信息和第二相位信息。

本公开实施例中，由于时域上的音频信号较为复杂，因此在音频信号进行STFT之后，可以得到易于分析的时频域上的音频信号，从而可以简化降噪模型训练装置训练模型的过程。

图3是根据一示例性实施例示出的一种降噪方法的流程图，如图4所示，降噪方法用于降噪装置中，该方法可以包括以下步骤31-步骤33。

在步骤31中，降噪装置获取第一音频信号的目标特征信息。

可选地，本公开实施例中，上述目标特征信息可以包括第一音频信号的幅度信息和相位信。

可选地，本公开实施例中，上述第一音频信号可以为带噪音频信号，即具有噪声的音频信号。

可选地，本公开实施例中，上述步骤31具体可以通过下述的步骤31a实现。

在步骤31a中，降噪装置获取进行STFT后的第一音频信号的目标特征信息。

需要说明的是，对步骤31的其他描述可以参照上述步骤21中的相关描述，对步骤31a的其他描述可以参照上述步骤25和步骤26中的相关描述，为避免重复，此处不再赘述。

在步骤32中，降噪装置将目标特征信息输入降噪模型，得到目标估计特征信息。

其中，上述降噪模型可以为上述一示例性实施例示出的一种降噪模型训练方法训练得到的模型。

需要说明的是，对步骤32的其他描述可以参照上述步骤22中的相关描述，为避免重复，此处不再赘述。

在步骤33中，降噪装置根据目标估计特征信息，生成第二音频信号。

其中，上述第二音频信号可以为对第一音频信号降噪后的音频信号。

本公开实施例中，在降噪装置得到经过降噪模型训练的目标估计特征信息之后，降噪装置可以根据目标估计特征信息，生成对第一音频信号降噪后的音频信号，即第二音频信号。

可选地，本公开实施例中，上述步骤33具体可以通过下述的步骤33a实现。

在步骤33a中，降噪装置根据进行ISTFT后的目标估计特征信息，生成第二音频信号。

本公开实施例中，在降噪装置得到目标估计特征信息，即目标估计幅度信息和目标估计相位信息之后，降噪装置可以先将目标估计幅度信息和目标估计相位信息相乘，然后再对目标估计幅度信息和目标估计相位信息的乘积进行ISTFT变换，即可得到时域上的与第一音频信号对应的第二音频信号，即对第一音频信号降噪处理后的音频信号。

本公开实施例提供的降噪算法中，基于音频信号的信噪比不同可能导致降噪后的音频信号的相位信息不准确的情况，由于本公开实施例中，在确定训练模型的损失函数之后，可以根据音频信号的信噪比，调整损失函数中的相位损失函数，得到调整后的损失函数。如此，根据该调整后的损失函数对训练模型进行训练，即调整训练模型的参数之后，得到的训练模型可以更好地适应不同信噪比的音频信号，即根据该训练模型训练的估计信息更加准确，从而获得的期望音频信号更加准确。

图5是根据一示例性实施例示出的一种降噪训练模型装置的框图。参照图5，该降噪训练模型装置50可以包括获取模块51和处理模块52。其中，获取模块51，被配置为获取原始音频信号的第一特征信息和带噪音频信号的第二特征信息，带噪音频信号为对原始音频信号加噪处理后的音频信号；处理模块52，被配置为将获取模块51获取的第一特征信息和第二特征信息输入训练模型，计算得到估计特征信息；并根据第一特征信息和估计特征信息确定损失函数；以及根据带噪音频信号的信噪比，调整损失函数中的相位损失函数以确定调整后的损失函数；并根据调整后的损失函数对训练模型进行训练，以调整训练模型的参数，得到降噪模型；损失函数用于表示训练模型估计得到的特征信息与原始音频信号的特征信息之间的损失。

可选地，本公开实施例中，上述处理模块52，具体被配置为根据带噪音频信号的信噪比，计算相位损失函数的相位因子；并根据相位因子，调整损失函数中的相位损失函数。

可选地，本公开实施例中，上述处理模块52，具体被配置为执行：Loss(f)＝Mag(f)+α*Pha(f)。其中，Loss(f)为损失函数，Mag(f)为损失函数中的幅度损失函数，α为相位因子，Pha(f)为相位损失函数。

可选地，本公开实施例中，其中，MagX₀(n,k)为估计特征信息中的估计幅度信息，MagX(n,k)为原始音频信号的幅度信息，PhaX₀(n,k)为估计特征信息中的估计相位信息，PhaX(n,k)为原始音频信号中的相位信息，K为原始音频信号的总频点数，且0＜k≤K。

可选地，本公开实施例中，上述处理模块52，还被配置为在获取模块51获取原始音频信号的第一特征信息和带噪音频信号的第二特征信息的步骤之前，对原始音频信号和带噪音频信号进行STFT；获取模块51，具体被配置为获取处理模块52进行STFT后的原始音频信号的第一特征信息和进行STFT后的带噪音频信号的第二特征信息。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

通过该方案，基于音频信号的信噪比不同可能导致降噪后的音频信号的相位信息不准确的情况，由于本公开实施例中，在确定训练模型的损失函数之后，可以根据音频信号的信噪比，调整损失函数中的相位损失函数，得到调整后的损失函数。如此，根据该调整后的损失函数对训练模型进行训练，即调整训练模型的参数之后，得到的训练模型可以更好地适应不同信噪比的音频信号，即根据该训练模型训练的估计信息更加准确，从而获得的期望音频信号更加准确。

图6是根据一示例性实施例示出的一种降噪装置的框图。参照图6，该降噪装置60包括目标获取模块61和目标处理模块62。其中，目标获取模块61，被配置为获取第一音频信号的目标特征信息，目标处理模块62，被配置为将目标获取模块61获取的目标特征信息输入降噪模型，得到目标估计特征信息；并根据目标估计特征信息，生成第二音频信号；降噪模型为采用一示例性实施例示出的一种降噪模型训练方法训练得到的模型，第二音频信号为对第一音频信号降噪后的音频信号。

可选地，本公开实施例中，上述目标获取模块61，具体被配置为获取进行STFT后的第一音频信号的目标特征信息；目标处理模块62，具体被配置为根据进行ISTFT后的目标估计特征信息，生成第二音频信号。

本公开实施例还提供一种电子设备，该电子设备可以包括上述各个实施例中的降噪模型训练装置或降噪装置。对于降噪模型训练装置或降噪装置的描述具体可以参见上述各个实施例中的相关描述，此处不再赘述。

本公开实施例中的电子设备可以是任何一种可与用户通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互的电子产品，例如手机、平板电脑、掌上电脑、个人计算机(Personal Computer，PC)、可穿戴设备、智能电视等。

下面结合图7对本公开实施例提供的电子设备的一种可能的硬件结构进行示例性地说明。

图7是根据一示例性实施例示出的一种电子设备的硬件示意图。电子设备100包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备以及计步器等。如图7所示，电子设备100包括但不限于：处理器101、存储器102、显示器103、输入单元104、输出单元105、网络单元106、接口单元107、射频单元108、电源109以及传感器110等。

需要说明的是，本领域技术人员可以理解，图7中示出的电子设备100的结构并不构成对电子设备100的限定，电子设备100可以包括比图7所示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本公开实施例中，上述输入单元104，用于获取原始音频信号的第一特征信息和带噪音频信号的第二特征信息；处理器101，用于将输入单元104将第一特征信息和第二特征信息输入训练模型，计算得到估计特征信息；并根据第一特征信息和估计特征信息确定损失函数；以及根据带噪音频信号的信噪比，调整损失函数中的相位损失函数以确定调整后的损失函数；并根据调整后的损失函数对训练模型进行训练，以调整训练模型的参数，得到降噪模型。带噪音频信号为对原始音频信号加噪处理后的音频信号，损失函数用于表示训练模型估计得到的特征信息与原始音频信号的特征信息之间的损失。

可以理解，本公开实施例中，上述降噪模型训练装置的结构示意图(例如上述图5)中的获取模块51可以通过上述输入单元104实现，上述降噪装置的结构示意图(例如上述图5)中的处理模块52可以通过上述处理器101实现。

需要说明的是，上述电子设备100能够实现上述方法实施例中电子设备实现的各个过程，且能达到相同的技术效果，为避免重复，详细描述这里不再赘述。

处理器101是电子设备100的控制中心，利用各种接口和线路连接整个电子设备100的各个部分，通过运行或执行存储在存储器102内的软件程序和/或模块，以及调用存储在存储器102内的数据，执行电子设备100的各种功能和处理数据，从而对电子设备100进行整体监控。处理器101可包括一个或多个处理单元；可选地，处理器101可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器101中。

存储器102可用于存储软件程序以及各种数据。存储器102可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器102可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

显示器103用于显示由用户输入的信息或提供给用户的信息。显示器103可包括显示面板，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(OrganicLight-Emitting Diode，OLED)等形式来配置显示面板。

输入单元104可以用于接收音频或视频信号。输入单元104可以包括图形处理器(Graphics Processing Unit，GPU)和麦克风，图形处理器对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示器103上。经图形处理器处理后的图像帧可以存储在存储器102(或其它存储介质)中或者经由射频单元108或网络单元106进行发送。麦克风可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元108发送到移动通信基站的格式输出。

输入单元104可以为用户输入单元，可用于接收输入的数字或字符信息，以及产生与电子设备100的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元包括触控面板以及其他输入设备。触控面板，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)。触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器101，接收处理器101发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板。除了触控面板，用户输入单元还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板可覆盖在显示面板上，当触控面板检测到在其上或附近的触摸操作后，传送给处理器101以确定触摸事件的类型，随后处理器101根据触摸事件的类型在显示面板上提供相应的视觉输出。触控面板与显示面板可以作为两个独立的部件来实现电子设备100的输入和输出功能，也可以将触控面板与显示面板集成而实现电子设备100的输入和输出功能，具体此处不做限定。

输出单元105可以为音频输出单元，可以将射频单元108或网络单元106接收的或者在存储器102中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元还可以提供与电子设备100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元包括扬声器、蜂鸣器以及受话器等。

电子设备100通过网络单元106为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

接口单元107为外部装置与电子设备100连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元107可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备100内的一个或多个元件或者可以用于在电子设备100和外部装置之间传输数据。

射频单元108可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器101处理；另外，将上行的数据发送给基站。通常，射频单元108包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元108还可以通过无线通信系统与网络和其他设备通信。

电源109(比如电池)可以用于为各个部件供电，可选地，电源109可以通过电源管理系统与处理器101逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

传感器110可以包括光传感器、运动传感器以及其他传感器中的至少一个。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在电子设备100移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器110还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

另外，电子设备100包括一些未示出的功能模块(例如摄像头)，在此不再赘述。

另外，上述实施例提供的电子设备在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在示例性实施例中，本公开实施例还提供了一种包括指令的存储介质，例如包括指令的存储器102，上述指令可由电子设备100的处理器101执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，本公开实施例还提供了一种包括一条或多条指令的计算机程序产品，该一条或多条指令可以由电子设备100的处理器101执行以完成上述方法。

需要说明的是，上述存储介质中的指令或计算机程序产品中的一条或多条指令被处理器101执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种降噪模型训练方法，其特征在于，所述方法包括：

获取原始音频信号的第一特征信息和带噪音频信号的第二特征信息，所述带噪音频信号为对所述原始音频信号加噪处理后的音频信号；

将所述第一特征信息和所述第二特征信息输入训练模型，计算得到估计特征信息；所述估计特征信息包括估计幅度信息和估计相位信息；

根据所述第一特征信息和所述估计特征信息确定损失函数，所述损失函数用于表示所述训练模型估计得到的特征信息与原始音频信号的特征信息之间的损失；

根据所述带噪音频信号的信噪比，调整所述损失函数中的相位损失函数以确定调整后的损失函数；

根据所述调整后的损失函数对所述训练模型进行训练，以调整所述训练模型的参数，得到降噪模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述带噪音频信号的信噪比，调整所述损失函数中的相位损失函数以确定调整后的损失函数的步骤，包括：

根据所述带噪音频信号的信噪比，计算所述相位损失函数的相位因子；

根据所述相位因子，调整所述损失函数中的相位损失函数。

3.根据权利要求2所述的方法，其特征在于，所述根据所述相位因子，调整所述损失函数中的相位损失函数的步骤，包括:

Loss(f)＝Mag(f)+α*Pha(f)；

其中，Loss(f)为所述损失函数，Mag(f)为所述损失函数中的幅度损失函数，α为所述相位因子，Pha(f)为所述相位损失函数。

4.根据权利要求3所述的方法，其特征在于，

其中，x(t)为所述原始音频信号，y(t)为所述带噪音频信号，T为所述原始音频信号的时长，且0＜t≤T。

5.根据权利要求3或4所述的方法，其特征在于，

其中，MagX₀(n,k)为所述估计特征信息中的估计幅度信息，MagX(n,k)为所述原始音频信号的幅度信息，PhaX₀(n,k)为所述估计特征信息中的估计相位信息，PhaX(n,k)为所述原始音频信号的相位信息，N为所述原始音频信号的总帧数，0＜n≤N，K为所述原始音频信号的总频点数，且0＜k≤K。

6.根据权利要求1所述的方法，其特征在于，所述获取原始音频信号的第一特征信息和带噪音频信号的第二特征信息的步骤之前，所述方法还包括：

对所述原始音频信号和所述带噪音频信号进行短时傅里叶变换STFT；

所述获取原始音频信号的第一特征信息和带噪音频信号的第二特征信息的步骤，包括：

获取进行STFT后的所述原始音频信号的所述第一特征信息和进行STFT后的所述带噪音频信号的所述第二特征信息。

7.一种降噪方法，其特征在于，所述方法包括：

获取第一音频信号的目标特征信息；

将所述目标特征信息输入降噪模型，得到目标估计特征信息；

根据所述目标估计特征信息，生成第二音频信号，所述第二音频信号为对所述第一音频信号降噪后的音频信号；

其中，所述降噪模型为采用如权利要求1至6中任一项所述的降噪模型训练方法训练得到的模型。

8.根据权利要求7所述的方法，其特征在于，所述获取第一音频信号的目标特征信息的步骤，包括：

获取进行短时傅里叶变换STFT后的所述第一音频信号的所述目标特征信息；

所述根据所述目标估计特征信息，生成第二音频信号的步骤，包括：

根据进行逆短时傅里叶变换ISTFT后的所述目标估计特征信息，生成所述第二音频信号。

9.一种降噪模型训练装置，其特征在于，所述降噪模型训练装置包括获取模块和处理模块；

所述获取模块，被配置为获取原始音频信号的第一特征信息和带噪音频信号的第二特征信息，所述带噪音频信号为对所述原始音频信号加噪处理后的音频信号；

所述处理模块，被配置为将所述获取模块获取的所述第一特征信息和所述第二特征信息输入训练模型，计算得到估计特征信息，所述估计特征信息包括估计幅度信息和估计相位信息；并根据所述第一特征信息和所述估计特征信息确定损失函数；以及根据所述带噪音频信号的信噪比，调整所述损失函数中的相位损失函数以确定调整后的损失函数；并根据所述调整后的损失函数对所述训练模型进行训练，以调整所述训练模型的参数，得到降噪模型；

其中，所述损失函数用于表示所述训练模型估计得到的特征信息与原始音频信号的特征信息之间的损失。

10.根据权利要求9所述的降噪模型训练装置，其特征在于，

所述处理模块，具体被配置为根据所述带噪音频信号的信噪比，计算所述相位损失函数的相位因子；并根据所述相位因子，调整所述损失函数中的相位损失函数。

11.根据权利要求10所述的降噪模型训练装置，其特征在于，

所述处理模块，具体被配置为执行：

Loss(f)＝Mag(f)+α*Pha(f)；

12.根据权利要求11所述的降噪模型训练装置，其特征在于，

13.根据权利要求11或12所述的降噪模型训练装置，其特征在于，

其中，MagX₀(n,k)为所述估计特征信息中的估计幅度信息，MagX(n,k)为所述原始音频信号的幅度信息，PhaX₀(n,k)为所述估计特征信息中的估计相位信息，PhaX(n,k)为所述原始音频信号中的相位信息，N为所述原始音频信号的总帧数，0＜n≤N，K为所述原始音频信号的总频点数，且0＜k≤K。

14.根据权利要求9所述的降噪模型训练装置，其特征在于，

所述处理模块，还被配置为在所述获取模块获取所述原始音频信号的所述第一特征信息和所述带噪音频信号的所述第二特征信息的步骤之前，对所述原始音频信号和所述带噪音频信号进行短时傅里叶变换STFT；

所述获取模块，具体被配置为获取所述处理模块进行STFT后的所述原始音频信号的所述第一特征信息和所述处理模块进行STFT后的所述带噪音频信号的所述第二特征信息。

15.一种降噪装置，其特征在于，所述降噪装置包括目标获取模块和目标处理模块；

所述目标获取模块，被配置为获取第一音频信号的目标特征信息；

所述目标处理模块，被配置为将所述目标获取模块获取的所述目标特征信息输入降噪模型，得到目标估计特征信息；并根据所述目标估计特征信息，生成第二音频信号；

其中，所述降噪模型为采用如权利要求1至6中任一项所述的降噪模型训练方法训练得到的模型，所述第二音频信号为对所述第一音频信号降噪后的音频信号。

16.根据权利要求15所述的降噪装置，其特征在于，

所述目标获取模块，具体被配置为获取进行短时傅里叶变换STFT后的所述第一音频信号的所述目标特征信息；

所述目标处理模块，具体被配置为根据进行逆短时傅里叶变换ISTFT后的所述目标估计特征信息，生成所述第二音频信号。

17.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的降噪模型训练方法。

18.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的降噪模型训练方法。