CN113314147B

CN113314147B - 音频处理模型的训练方法及装置、音频处理方法及装置

Info

Publication number: CN113314147B
Application number: CN202110575699.4A
Authority: CN
Inventors: 张旭; 郑羲光; 张晨; 任新蕾
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2023-07-25
Anticipated expiration: 2041-05-26
Also published as: CN113314147A

Abstract

本公开关于一种音频处理模型的训练方法及装置、音频处理方法及装置。该音频处理模型的训练方法包括：获取音频信号的幅度谱和带噪音频信号的幅度谱，其中，带噪音频信号与音频信号相应；基于音频信号的幅度谱和带噪音频信号的幅度谱计算每个时频点的掩膜值；从带噪音频信号提取模型训练所需的特征；基于带噪音频信号的幅度谱、每个时频点的掩膜值和模型训练所需的特征对音频处理模型进行训练。根据本公开的音频处理模型的训练方法及装置，在相同的网络大小下，可起到更好的噪声抑制效果，并且能够更好的保留语音；在相同的去噪效果下或语音保留效果下，能降低网络大小，实现终端上实时降噪处理。

Description

音频处理模型的训练方法及装置、音频处理方法及装置

技术领域

本公开涉及音视频技术领域。更具体地，本公开涉及一种音频处理模型的训练方法及装置、一种音频处理方法及装置。

背景技术

音频降噪通常是指将一段音频信号中的噪声部分去除掉或者削弱，得到期望音频信号的过程。一般意义上的音频降噪主要是指去除或削弱噪声得到期望信号；目前音频降噪的方式主要分为传统降噪算法和基于神经网络的降噪算法。传统降噪算法主要是指谱减法，维纳滤波法等算法，他们往往依赖于背景噪声的加性或者期望信号及噪声信号的统计特性，对于实际环境下出现的突发性噪声等意想不到的噪声类型，其性能往往无法满足实际的需求。因此考虑到噪声破坏的复杂性过程，基于神经网络的降噪算法迅速发展起来，在低信噪比、非平稳噪声等环境下展现出明显的优势。

发明内容

本公开的示例性实施例在于提供一种音频处理模型的训练方法及装置、一种音频处理方法及装置，以至少解决相关技术中的音频处理模型的训练的问题，也可不解决任何上述问题。

根据本公开的示例性实施例，提供一种音频处理模型的训练方法，包括：获取音频信号的幅度谱和带噪音频信号的幅度谱，其中，带噪音频信号与音频信号相应；基于音频信号的幅度谱和带噪音频信号的幅度谱计算每个时频点的掩膜值；从带噪音频信号提取模型训练所需的特征；基于带噪音频信号的幅度谱、每个时频点的掩膜值和模型训练所需的特征对音频处理模型进行训练。

可选地，获取音频信号的幅度谱和带噪音频信号的幅度谱的步骤可包括：分别对音频信号和带噪音频信号进行从时域到时频域的转换；基于转换得到的时频域信号，获取每帧音频信号的幅度以及每帧带噪音频信号的幅度，得到音频信号的幅度谱和带噪音频信号的幅度谱。

可选地，基于音频信号的幅度谱和带噪音频信号的幅度谱计算每个时频点的掩膜值的步骤包括：针对每个时频点，计算音频信号的幅度和带噪音频信号的幅度的比值；当所述比值小于阈值时，将所述比值确定为所述每个时频点的掩膜值；当所述比值大于所述阈值时，将所述阈值确定为所述每个时频点的掩膜值。

可选地，基于带噪音频信号的幅度谱、每个时频点的掩膜值和模型训练所需的特征对音频处理模型进行训练的步骤可包括：使用第一映射函数对每个时频点的掩膜值进行处理；基于带噪音频信号的幅度谱、处理后的掩膜值和模型训练所需的特征对音频处理模型进行训练。

可选地，第一映射函数可包括用于抑制噪声的函数。

可选地，基于带噪音频信号的幅度谱、处理后的掩膜值和模型训练所需的特征对音频处理模型进行训练的步骤可包括：通过音频处理模型基于模型训练所需的特征计算预测掩膜值；基于带噪音频信号的幅度谱、处理后的掩膜值和预测掩膜值，通过损失函数计算带噪音频信号的幅度预测谱与音频信号的幅度谱之间的偏差，并根据偏差调整音频处理模型的参数。

可选地，损失函数可以是基于第二映射函数和第三映射函数的乘积来构建的，其中，第二映射函数可以是以处理后的掩膜值为变量的函数，第三映射函数可包括第一乘积与第二乘积之间的差的绝对值函数，其中，第一乘积可以是带噪音频信号的幅度谱和处理后的掩膜值的乘积，第二乘积可以是带噪音频信号的幅度谱和预测掩膜值的乘积。

可选地，通过损失函数计算带噪音频信号的幅度预测谱与音频信号的幅度谱之间的偏差的步骤可包括：基于预测掩膜值估计带噪音频信号的降噪后幅度谱作为带噪音频信号的幅度预测谱。

可选地，第二映射函数可用于保留信噪比低于阈值的语音。

可选地，模型训练所需的特征可包括幅度特征。

根据本公开的示例性实施例，提供一种音频处理方法，包括：获取音频信号的幅度特征；使用根据本公开的实施例中的音频处理模型的训练方法训练得到的音频处理模型，基于音频信号的幅度特征估计音频信号的掩膜值；基于音频信号的掩膜值对音频信号进行降噪处理。

可选地，基于音频信号的掩膜值对音频信号进行降噪处理的步骤可包括：基于掩膜值估计音频信号的幅度谱；对幅度谱和和相位谱进行乘积运算；对乘积运算结果进行从时频域到时域的变换，得到处理后的音频信号。

根据本公开的示例性实施例，提供一种音频处理模型的训练装置，包括：幅度谱获取单元，被配置为获取音频信号的幅度谱和带噪音频信号的幅度谱，其中，带噪音频信号与音频信号相应；掩膜值计算单元，被配置为基于音频信号的幅度谱和带噪音频信号的幅度谱计算每个时频点的掩膜值；和特征提取单元，被配置为从带噪音频信号提取模型训练所需的特征；模型训练单元，被配置为基于带噪音频信号的幅度谱、每个时频点的掩膜值和模型训练所需的特征对音频处理模型进行训练。

可选地，幅度谱获取单元可被配置为：分别对音频信号和带噪音频信号进行从时域到时频域的转换；基于转换得到的时频域信号，获取每帧音频信号的幅度以及每帧带噪音频信号的幅度，得到音频信号的幅度谱和带噪音频信号的幅度谱。

可选地，掩膜值计算单元可被配置为：针对每个时频点，计算音频信号的幅度和带噪音频信号的幅度的比值；当所述比值小于阈值时，将所述比值确定为所述每个时频点的掩膜值；当所述比值大于所述阈值时，将所述阈值确定为所述每个时频点的掩膜值。

可选地，模型训练单元可被配置为：使用第一映射函数对每个时频点的掩膜值进行处理；基于带噪音频信号的幅度谱、处理后的掩膜值和模型训练所需的特征对音频处理模型进行训练。

可选地，第一映射函数可包括用于抑制噪声的函数。

可选地，模型训练单元可被配置为：通过音频处理模型基于模型训练所需的特征计算预测掩膜值；基于带噪音频信号的幅度谱、处理后的掩膜值和预测掩膜值，通过损失函数计算带噪音频信号的幅度预测谱与音频信号的幅度谱之间的偏差，并根据偏差调整音频处理模型的参数。

可选地，模型训练单元可被配置为：基于预测掩膜值估计带噪音频信号的降噪后幅度谱作为带噪音频信号的幅度预测谱。

可选地，第二映射函数可用于保留信噪比低于阈值的语音。

可选地，模型训练所需的特征可包括幅度特征。

根据本公开的示例性实施例，提供一种音频处理装置，包括：特征获取单元，被配置为获取音频信号的幅度特征；掩膜值计算单元，被配置为使用根据本公开的实施例中的音频处理模型的训练方法训练得到的音频处理模型，基于音频信号的幅度特征估计音频信号的掩膜值；和降噪处理单元，被配置为基于音频信号的掩膜值对音频信号进行降噪处理。

可选地，降噪处理单元可被配置为：基于掩膜值估计音频信号的幅度谱；对幅度谱和和相位谱进行乘积运算；对乘积运算结果进行从时频域到时域的变换，得到处理后的音频信号。

根据本公开的示例性实施例，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现根据本公开的示例性实施例的音频处理模型的训练方法或音频处理方法。

根据本公开的示例性实施例，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被电子设备的处理器执行时，使得电子设备执行根据本公开的示例性实施例的音频处理模型的训练方法或音频处理方法。

根据本公开的示例性实施例，提供一种计算机程序产品，包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，实现根据本公开的示例性实施例的音频处理模型的训练方法或音频处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

在相同的网络大小下，可起到更好的噪声抑制效果，并且能够更好的保留语音，尤其是保留低信噪比语音；

在相同的去噪效果下或语音保留效果下，能降低网络大小，实现终端上实时降噪处理。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1示出根据本公开的示例性实施例的音频处理模型的训练方法的流程图。

图2示出第一映射函数的一种示例曲线图。

图3示出第二映射函数的一种示例曲线图。

图4示出根据本公开的示例性实施例的音频处理方法的流程图。

图5示出根据本公开的示例性实施例的音频处理模型的训练和检测的整体系统框图。

图6示出根据本公开的示例性实施例的音频处理模型的训练装置的框图。

图7示出根据本公开的示例性实施例的音频处理装置的框图。

图8是根据本公开的示例性实施例的电子设备800的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

基于神经网络的降噪算法按照估计目标域的不同，可分为时域算法(直接估计时域波形作为估计信号)和时频域算法(将信号做短时傅里叶变换(STFT)到时频域，做估计运算，再通过短时傅里叶逆变换(ISTFT)到时域，得到估计信号)。相关研究和文献表明，相比于时域算法，时频域算法能得到更优的性能和效果。AI时频域降噪算法是指仅利用神经网络估计音频信号的幅度信息，相位信息用带噪音频信号的相位，两者相乘再ISTFT到时域得到估计信号。在相关技术中，在信号时频域进行降噪时，掩膜(Mask)值往往估计并非完全准确，造成降噪效果及语音保留效果的不稳定。在此，本公开提出一种基于音频信号处理的深度学习前处理及后处理联合优化方法，在此方法下，可使相同网络大小下得到更加优异的语音保留及降噪效果，可利用更小的神经网络大小实现相同语音保留及降噪效果。

通常情况下，在时频域处理音频问题时，选用Mask值作为网络学习的目标网络往往能获得更好的收敛性能和效果(Mask值是介于0到1之间的数值)。在某一时频点上，当信噪比越低时，Mask值越接近于0；反之越接近于1。利用Mask值作为网络的学习目标，理想情况下，网络学习得到的Mask值就是信号与带噪信号的幅度比值。但是由于网络性能等原因，网络估计出的Mask值往往与理想Mask值有一定的误差，从而造成噪声去除不干净或出现语音剪切的现象。考虑网络性能等问题，结合传统信号处理，本公开提出一种基于Mask前处理与神经网络损失(loss)函数相结合的优化方法，使用Mask前处理能够更好的抑制噪声，同时考虑到网络loss函数中信号能量的不均衡性，结合前处理信号时频点的信噪比(SNR)设计loss函数，能够突出低信号比/能量低点的权重，进而达到噪声去除效果及低信噪比语音保留效果同时良好的状态。

下面，将参照图1至图8具体描述根据本公开的示例性实施例的音频处理模型的训练方法及装置、音频处理方法及装置。

参照图1，在步骤S101，获取音频信号的幅度谱和带噪音频信号的幅度谱。这里，带噪音频信号与音频信号相应。

在本公开的示例性实施例中，在获取音频信号的幅度谱和带噪音频信号的幅度谱时，可首先分别对音频信号和带噪音频信号进行从时域到时频域的转换然后基于转换得到的时频域信号，获取每帧音频信号的幅度以及每帧带噪音频信号的幅度，得到音频信号的幅度谱和带噪音频信号的幅度谱。

将原始音频信号和带噪音频信号分别通过短时傅里叶变换转到时频域。若长度为T的原始音频信号x和带噪音频信号y在时域上分别为x(t)和y(t)，这里，t代表时间，0＜t≤T，则经过短时傅里叶变换后，x(t)和y(t)在时频域可分别表示为如下：

X(n，k)＝STFT(x(t))，

Y(n，k)＝STFT(y(t))。

这里，n为帧序列，0＜n≤N，N为总帧数，k为中心频率序列0＜k≤K，K为总频点数。

之后，分别获取时频域的原始音频信号X(n，k)的幅度MagX(n，k)及带噪音频信号Y(n，k)的幅度MagY(n，k)。这里，

MagX(n，k)＝abs(X(n，k))，

PhaY(n，k)＝Y(n，k)/abs(Y(n，k))。

在步骤S102，基于音频信号的幅度谱和带噪音频信号的幅度谱计算每个时频点的掩膜值。

在本公开的示例性实施例中，在基于音频信号的幅度谱和带噪音频信号的幅度谱计算每个时频点的掩膜值Mask时，可首先针对每个时频点，计算音频信号的幅度和带噪音频信号的幅度的比值。然后当所述比值小于阈值时，将所述比值确定为所述每个时频点的掩膜值；当所述比值大于所述阈值时，将所述阈值确定为所述每个时频点的掩膜值，从而提高掩模值的精确性。

例如，可使用以下公式来计算每个时频点的Mask：

需要注意的是，由于信号混合特性造成的大于1的Mask值置1，在这里由于信号相位抵消等原因，原始音频信号叠加噪声信号在某些特殊时频点上可能导致混合信号幅度小于原始信号幅度，故可限定Mask值小于等于1。

在步骤S103，从带噪音频信号提取模型训练所需的特征。

在本公开的示例性实施例中，模型训练所需的特征可包括幅度特征。

在步骤S104，基于带噪音频信号的幅度谱、每个时频点的掩膜值和模型训练所需的特征对音频处理模型进行训练。

在本公开的示例性实施例中，在基于带噪音频信号的幅度谱、每个时频点的掩膜值和模型训练所需的特征对音频处理模型进行训练时，可首先使用第一映射函数对每个时频点的掩膜值进行处理，然后基于带噪音频信号的幅度谱、处理后的掩膜值和模型训练所需的特征对音频处理模型进行训练。

在本公开的示例性实施例中，第一映射函数可包括用于抑制噪声的函数。第一映射函数的作用为抑制噪声，从而突出高信噪比语音，从而在相同的网络大小下，可起到更好的噪声抑制效果，并且能够更好的保留语音。

在本公开的示例性实施例中，在基于带噪音频信号的幅度谱、处理后的掩膜值和模型训练所需的特征对音频处理模型进行训练时，可首先通过音频处理模型基于模型训练所需的特征计算预测掩膜值，然后基于带噪音频信号的幅度谱、处理后的掩膜值和预测掩膜值，通过损失函数计算带噪音频信号的幅度预测谱与音频信号的幅度谱之间的偏差，并根据偏差调整音频处理模型的参数，从而提高训练效果。

在本公开的示例性实施例中，损失函数可以是基于第二映射函数和第三映射函数的乘积来构建的，其中，第二映射函数可以是以处理后的掩膜值为变量的函数，第三映射函数可包括第一乘积与第二乘积之间的差的绝对值函数。这里，第一乘积可以是带噪音频信号的幅度谱和处理后的掩膜值的乘积，第二乘积可以是带噪音频信号的幅度谱和处理后的掩膜值的乘积。在这种情况下，在相同的去噪效果下或语音保留效果下，能降低网络大小，实现终端上实时降噪处理。

在本公开的示例性实施例中，在通过损失函数计算带噪音频信号的幅度预测谱与音频信号的幅度谱之间的偏差时，可基于预测掩膜值估计带噪音频信号的降噪后幅度谱作为带噪音频信号的幅度预测谱，从而提高计算的准确性。

在本公开的示例性实施例中，第二映射函数可用于保留信噪比低于阈值的语音。

例如，可使用以下公式对每个时频点的掩膜值进行处理：

Mask0(n，k)＝func1(Mask(n，k))。

这里，func1(Mask(n，k))是第一映射函数，Mask0为使用第一映射函数映射之后的Mask值。

例如，损失函数可以是，但不限于以下损失函数：

Loss(n，k)＝func2(Mask0(n，k))*func3(MagY(n，k)，Mask0(n，k)，Mask_pre，MagY(n，k))。

例如，损失函数一种形式可以是：

Loss(n，k)＝func2(Mask0(n，k))*abs{MagY(n，k)*Mask0(n，k)-Mask_pre*MagY(n，k)}。

这里，MagY(n，k)是带噪音频信号的幅度，Mask_pre是预测掩膜值(Mask预测值)，func2(Mask0(n，k))是根据Mask0(n，k)所计算而得到，func2(Mask0(n，k))的作用是突出低信噪比语音，消除func1(Mask(n，k))造成的低信噪比语音抑制的不良情况。结合func1(Mask(n，k))和func2(MaskO(n，k))可抑制噪声，同时可突出低信噪比语音。

例如，图2和图3分别示出第一映射函数func1(Mask(n，k))和第二映射函数func2(Mask0(n，k))的一种示例曲线图。也就是说，func1(Mask(n，k))和func2(MaskO(n，k))的一种实现可以为：

参照图4，在步骤S401，获取音频信号的幅度特征。

在步骤S402，使用在本公开的实施例中的音频处理模型的训练方法训练得到的音频处理模型，基于音频信号的幅度特征估计音频信号的掩膜值。

在步骤S403，基于音频信号的掩膜值对音频信号进行降噪处理。

在本公开的示例性实施例中，在基于音频信号的掩膜值对音频信号进行降噪处理时，可首先基于掩膜值估计音频信号的幅度谱，并对幅度谱和和相位谱进行乘积运算，然后对乘积运算结果进行从时频域到时域的变换，得到处理后的音频信号。

例如，图5示出根据本公开的示例性实施例的音频处理模型的训练和检测的整体系统框图。在图5中，在模型训练阶段，首先将原始音频信号和混合原始音频信号后的带噪数据分别进行短时傅里叶变换，从时域转换至时频域，取得每帧音频信号的幅度和相位信息。然后选取原始音频信号和带噪音频信号的幅度谱，利用公式计算Mask值，将计算得到的Mask值通过设计好的前处理函数，作为网络学习的目标(label)；再从带噪语音中提取网络训练所需的幅度特征，作为网络学习的特征(feature)，将label和feature送入网络进行网络训练，将经过前处理函数后的Mask值送入loss函数以作训练时使用，通过网络训练获得训练后的模型。在测试模型阶段，首先将带噪音频信号的幅度特征进入网络进行预测，然后将预测得到的Mask预测值乘以带噪音频信号的相位谱后进行短时反傅里叶变换得到最终预测的音频信号。

以上已经结合图1至图5对根据本公开的示例性实施例的音频处理模型的训练方法进行了描述。在下文中，将参照图6对根据本公开的示例性实施例的音频处理模型的训练装置及其单元进行描述。

参照图6，音频处理模型的训练装置包括幅度谱获取单元61、掩膜值计算单元62、特征提取单元63和模型训练单元64。

幅度谱获取单元61被配置为获取音频信号的幅度谱和带噪音频信号的幅度谱。这里，带噪音频信号与音频信号相应。

在本公开的示例性实施例中，幅度谱获取单元61可被配置为：分别对音频信号和带噪音频信号进行从时域到时频域的转换；基于转换得到的时频域信号，获取每帧音频信号的幅度以及每帧带噪音频信号的幅度，得到音频信号的幅度谱和带噪音频信号的幅度谱。

掩膜值计算单元62被配置为基于音频信号的幅度谱和带噪音频信号的幅度谱计算每个时频点的掩膜值。

在本公开的示例性实施例中，掩膜值计算单元62可被配置为：针对每个时频点，计算音频信号的幅度和带噪音频信号的幅度的比值；当所述比值小于阈值时，将所述比值确定为所述每个时频点的掩膜值；当所述比值大于所述阈值时，将所述阈值确定为所述每个时频点的掩膜值。

特征提取单元63被配置为从带噪音频信号提取模型训练所需的特征；

模型训练单元64被配置为基于带噪音频信号的幅度谱、每个时频点的掩膜值和模型训练所需的特征对音频处理模型进行训练。

在本公开的示例性实施例中，模型训练单元64可被配置为：使用第一映射函数对每个时频点的掩膜值进行处理；基于带噪音频信号的幅度谱、处理后的掩膜值和模型训练所需的特征对音频处理模型进行训练。

在本公开的示例性实施例中，第一映射函数包括用于抑制噪声的函数。

在本公开的示例性实施例中，模型训练单元64可被配置为：通过音频处理模型基于模型训练所需的特征计算预测掩膜值；基于带噪音频信号的幅度谱、处理后的掩膜值和预测掩膜值，通过损失函数计算带噪音频信号的幅度预测谱与音频信号的幅度谱之间的偏差，并根据偏差调整音频处理模型的参数。

在本公开的示例性实施例中，损失函数是基于第二映射函数和第三映射函数的乘积来构建的，其中，第二映射函数是以处理后的掩膜值为变量的函数，第三映射函数包括第一乘积与第二乘积之间的差的绝对值函数，其中，第一乘积是带噪音频信号的幅度谱和处理后的掩膜值的乘积，第二乘积是带噪音频信号的幅度谱和预测掩膜值的乘积。

在本公开的示例性实施例中，模型训练单元64可被配置为：基于预测掩膜值估计带噪音频信号的降噪后幅度谱作为带噪音频信号的幅度预测谱。

在本公开的示例性实施例中，第二映射函数用于保留信噪比低于阈值的语音。

图7示出根据本公开的示例性实施例的音频处理装置的框图。

参照图7，音频处理装置包括特征获取单元71、掩膜值计算单元72和降噪处理单元73。

特征获取单元71被配置为获取音频信号的幅度特征。

掩膜值计算单元72被配置为使用根据本公开的实施例中的音频处理模型的训练方法训练得到的音频处理模型，基于音频信号的幅度特征估计音频信号的掩膜值。

降噪处理单元73被配置为基于音频信号的掩膜值对音频信号进行降噪处理。

在本公开的示例性实施例中，降噪处理单元73可被配置为：基于掩膜值估计音频信号的幅度谱；对幅度谱和和相位谱进行乘积运算；对乘积运算结果进行从时频域到时域的变换，得到处理后的音频信号。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

以上已经结合图6和图7对根据本公开的示例性实施例的音频处理模型的训练装置进行了描述。接下来，结合图8对根据本公开的示例性实施例的电子设备进行描述。

图8是根据本公开的示例性实施例的电子设备800的框图。

参照图8，电子设备800包括至少一个存储器801和至少一个处理器802，所述至少一个存储器801中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器802执行时，执行根据本公开的示例性实施例的音频处理模型的训练的方法。

在本公开的示例性实施例中，电子设备800可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备800并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备800还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备800中，处理器802可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器802可运行存储在存储器801中的指令或代码，其中，存储器801还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器801可与处理器802集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器801可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储器801和处理器802可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器802能够读取存储在存储器中的文件。

此外，电子设备800还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备800的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还提供一种包括指令的计算机可读存储介质，例如包括指令的存储器801，上述指令可由装置800的处理器802执行以完成上述方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品包括计算机程序/指令，当所述计算机程序/指令被处理器执行时，实现根据本公开的示例性实施例的音频处理模型的训练的方法。

以上已参照图1至图8描述了根据本公开的示例性实施例的音频处理模型的训练方法及装置、音频处理方法及装置。然而，应该理解的是：图6中所示的音频处理模型的训练装置、音频处理装置及其单元可分别被配置为执行特定功能的软件、硬件、固件或上述项的任意组合，图7中所示的电子设备并不限于包括以上示出的组件，而是可根据需要增加或删除一些组件，并且以上组件也可被组合。

根据本公开的音频处理模型的训练方法及装置，通过获取音频信号的幅度谱和带噪音频信号的幅度谱，其中，带噪音频信号与音频信号相应，基于音频信号的幅度谱和带噪音频信号的幅度谱计算每个时频点的掩膜值，从带噪音频信号提取模型训练所需的特征，基于带噪音频信号的幅度谱、每个时频点的掩膜值和模型训练所需的特征对音频处理模型进行训练，从而在相同的网络大小下，可起到更好的噪声抑制效果，并且能够更好的保留语音；并且在相同的去噪效果下或语音保留效果下，可降低网络大小，实现终端上实时降噪处理。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理模型的训练方法，其特征在于，包括：

获取音频信号的幅度谱和带噪音频信号的幅度谱，其中，带噪音频信号与所述音频信号相应；

基于所述音频信号的幅度谱和带噪音频信号的幅度谱计算每个时频点的掩膜值；

从带噪音频信号提取模型训练所需的特征；

基于带噪音频信号的幅度谱、每个时频点的掩膜值和模型训练所需的特征对音频处理模型进行训练，

其中，基于带噪音频信号的幅度谱、每个时频点的掩膜值和模型训练所需的特征对音频处理模型进行训练的步骤包括：

使用第一映射函数对每个时频点的掩膜值进行处理；

通过音频处理模型基于模型训练所需的特征计算预测掩膜值；

基于带噪音频信号的幅度谱、处理后的掩膜值和预测掩膜值，通过损失函数计算带噪音频信号的幅度预测谱与所述音频信号的幅度谱之间的偏差，并根据偏差调整音频处理模型的参数，

其中，损失函数是基于第二映射函数和第三映射函数的乘积来构建的，其中，第二映射函数是以处理后的掩膜值为变量的函数，第三映射函数包括第一乘积与第二乘积之间的差的绝对值函数，其中，第一乘积是带噪音频信号的幅度谱和处理后的掩膜值的乘积，第二乘积是带噪音频信号的幅度谱和预测掩膜值的乘积。

2.根据权利要求1所述的音频处理模型的训练方法，其特征在于，基于所述音频信号的幅度谱和带噪音频信号的幅度谱计算每个时频点的掩膜值的步骤包括：

针对每个时频点，计算所述音频信号的幅度和带噪音频信号的幅度的比值；

当所述比值小于阈值时，将所述比值确定为所述每个时频点的掩膜值；

当所述比值大于所述阈值时，将所述阈值确定为所述每个时频点的掩膜值。

3.根据权利要求1所述的音频处理模型的训练方法，其特征在于，第一映射函数包括用于抑制噪声的函数。

4.根据权利要求1所述的音频处理模型的训练方法，其特征在于，通过损失函数计算带噪音频信号的幅度预测谱与所述音频信号的幅度谱之间的偏差的步骤包括：

基于预测掩膜值估计带噪音频信号的降噪后幅度谱作为带噪音频信号的幅度预测谱。

5.根据权利要求1所述的音频处理模型的训练方法，其特征在于，第二映射函数用于保留信噪比低于阈值的语音。

6.根据权利要求1所述的音频处理模型的训练方法，其特征在于，模型训练所需的特征包括幅度特征。

7.一种音频处理方法，其特征在于，包括：

获取音频信号的幅度特征；

使用如权利要求1-6任一项所述的音频处理模型的训练方法训练得到的音频处理模型，基于所述音频信号的幅度特征估计所述音频信号的掩膜值；

基于所述音频信号的掩膜值对所述音频信号进行降噪处理。

8.根据权利要求7所述的音频处理方法，其特征在于，基于所述音频信号的掩膜值对所述音频信号进行降噪处理的步骤包括：

基于掩膜值估计所述音频信号的幅度谱；

对幅度谱和相位谱进行乘积运算；

对乘积运算结果进行从时频域到时域的变换，得到处理后的音频信号。

9.一种音频处理模型的训练装置，其特征在于，包括：

幅度谱获取单元，被配置为获取音频信号的幅度谱和带噪音频信号的幅度谱，其中，带噪音频信号与所述音频信号相应；

掩膜值计算单元，被配置为基于所述音频信号的幅度谱和带噪音频信号的幅度谱计算每个时频点的掩膜值；和

特征提取单元，被配置为从带噪音频信号提取模型训练所需的特征；

模型训练单元，被配置为基于带噪音频信号的幅度谱、每个时频点的掩膜值和模型训练所需的特征对音频处理模型进行训练，

其中，模型训练单元被配置为：

使用第一映射函数对每个时频点的掩膜值进行处理；

10.根据权利要求9所述的音频处理模型的训练装置，其特征在于，掩膜值计算单元被配置为：

11.根据权利要求9所述的音频处理模型的训练装置，其特征在于，第一映射函数包括用于抑制噪声的函数。

12.根据权利要求9所述的音频处理模型的训练装置，其特征在于，模型训练单元被配置为：

13.根据权利要求9所述的音频处理模型的训练装置，其特征在于，第二映射函数用于保留信噪比低于阈值的语音。

14.根据权利要求9所述的音频处理模型的训练装置，其特征在于，模型训练所需的特征包括幅度特征。

15.一种音频处理装置，其特征在于，包括：

特征获取单元，被配置为获取音频信号的幅度特征；

掩膜值计算单元，被配置为使用如权利要求1-6任一项所述的音频处理模型的训练方法训练得到的音频处理模型，基于所述音频信号的幅度特征估计所述音频信号的掩膜值；和

降噪处理单元，被配置为基于所述音频信号的掩膜值对所述音频信号进行降噪处理。

16.根据权利要求15所述的音频处理装置，其特征在于，降噪处理单元被配置为：

基于掩膜值估计所述音频信号的幅度谱；

对幅度谱和相位谱进行乘积运算；

17.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的方法。

18.一种计算机可读存储介质，存储有计算机程序，其特征在于，当所述计算机程序被电子设备的处理器执行时，使得电子设备执行如权利要求1至8中任一项所述的方法。