CN111599373B

CN111599373B - 一种降噪模型的压缩方法

Info

Publication number: CN111599373B
Application number: CN202010266069.4A
Authority: CN
Inventors: 李庆龙; 姜姗
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2023-04-18
Anticipated expiration: 2040-04-07
Also published as: CN111599373A

Abstract

本发明的一种降噪模型的压缩方法，包括如下步骤：步骤1，获取带噪训练语音的特征，根据带噪语音和对应的纯净语音计算时频掩蔽mask‑r；步骤2，利用特征和对应的时频掩蔽训练预设的Teacher模型；步骤3，将训练数据的特征输入到预设的Student模型中，在训练预设的Student模型时，将带噪的训练语音特征输入到训练好的Teacher模型中获得mask‑t，再将此带噪的训练语音的特征输入到预设的Student模型中得到mask‑s，根据mask‑r，mask‑t和mask‑s分别计算loss1，loss2和系数a，得到Loss函数，通过所述loss函数对预设的Student模型进行指导训练，直至收敛，获得收敛后的Student模型；步骤4，将带噪语音输入到收敛后的Student模型进行计算获得增强后的语音。本发明的目的在于提供一种降噪性能好、功耗低的降噪模型的压缩方法。

Description

一种降噪模型的压缩方法

技术领域

本发明属于信号处理技术领域，具体涉及一种降噪模型的压缩方法。

背景技术

语音降噪是将混合语音中的噪声和人声分离出来，在尽可能完整保留人声部分的同时尽可能多的去除噪声部分。这可以有效提高语音通信或语音交互的质量，使人或机器在嘈杂的环境下也能听到清晰、干净的语音。随着基于深度学习的降噪方法在移动设备上的全面应用，降低模型的参数量的任务也越来越重要。

传统的降噪方法在非平稳噪声环境下很难取得很好的效果，尤其对于瞬态的噪声更是无能为力。当前基于深度学习技术的降噪方法可以有效的去除快变的噪声，取得更好的语音降噪效果，但模型通常结构复杂，参数量大，对计算资源的消耗比较严重。移动设备上运行降噪模型时，对功耗的要求更为苛刻。所以在保证降噪性能几乎不变的前提下，模型压缩变的尤为重要。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中在保证降噪性能的前提下，降噪模型难于压缩的问题。

为此，采用的技术方案是，本发明的一种降噪模型的压缩方法，包括如下步骤：

步骤1，获取带噪训练语音的特征，根据带噪语音和对应的纯净语音计算时频掩蔽mask-r；

步骤2，利用特征和对应的时频掩蔽训练预设的Teacher模型；

步骤3，将训练数据的特征输入到预设的Student模型中，在训练预设的Student模型时，将带噪的训练语音特征输入到训练好的Teacher模型中获得mask-t，再将此带噪的训练语音的特征输入到预设的Student模型中得到mask-s，根据mask-r，mask-t和mask-s分别计算loss1，loss2和系数a，得到Loss函数，

Loss＝a*loss1+(1-a)* loss2 (1)

在利用预设的Student模型预测的mask-s计算loss1，

loss1 ＝ MSE(mask-r， mask-s) (2)

利用Teacher模型预测mask-t计算loss2

loss2 ＝ MSE(mask-t， mask-s) (3)

再计算权重a，

a＝ |mask-r – mask-t| + 0.5，如果a > 1，则a取值为1 (4)

将式(2)、(3)、(4)代入式(1)得

Loss＝(|mask-r–mask-t|+0.5)*MSE(mask-r，mask-s)+{1-(|mask-r–mask-t|

+0.5)}*MSE(mask-t，mask-s)

其中MSE为均方误差函数，

通过所述loss函数对预设的Student模型进行指导训练，直至收敛，获得收敛后的Student模型；

步骤4，将带噪语音输入到收敛后的Student模型进行计算获得增强后的语音。

优选的，所述步骤2包括：

将训练语音的特征输入到Teacher模型中，模型给出预测的mask_，根据mask_和mask-r之间的误差e1指导预设的Teacher模型训练直至e1不变，保存训练好的Teacher模型。

优选的，所述步骤4包括：

将带噪语音先进行特征提取，获得特征，然后将对应的特征输入到收敛后的Student模型，获得预测的mask，将mask与带噪语音的频谱相乘后进行逆傅里叶变换得到增强后的语音。

优选的，所述带噪语音进行傅里叶变换获得所述带噪语音的频谱。

优选的，所述步骤4包括：

所述带噪语音的获取基于一个麦克风获取单通道语音。

本发明技术方案具有以下优点：本发明的一种降噪模型的压缩方法，包括如下步骤：步骤1，获取带噪训练语音的特征，根据带噪语音和对应的纯净语音计算时频掩蔽mask-r；步骤2，利用特征和对应的时频掩蔽训练预设的Teacher模型；步骤3，将训练数据的特征输入到预设的Student模型中，在训练预设的Student模型时，将带噪的训练语音特征输入到训练好的Teacher模型中获得mask-t，再将此带噪的训练语音的特征输入到预设的Student模型中得到mask-s，根据mask-r，mask-t和mask-s分别计算loss1，loss2和系数a，得到Loss函数，

Loss＝a*loss1+(1-a)* loss2 (1)

在利用预设的Student模型预测的mask-s计算loss1，

loss1 ＝ MSE(mask-r， mask-s) (2)

利用Teacher模型预测mask-t计算loss2

loss2 ＝ MSE(mask-t， mask-s) (3)

再计算权重a，

a＝ |mask-r – mask-t| + 0.5，如果a > 1，则a取值为1 (4)

将式(2)、(3)、(4)代入式(1)得

Loss＝(|mask-r–mask-t|+0.5)*MSE(mask-r，mask-s)+{1-(|mask-r–mask-t|

+0.5)}*MSE(mask-t，mask-s)

其中MSE为均方误差函数，

通过所述loss函数对预设的Student模型进行指导训练，直至收敛，获得收敛后的Student模型；步骤4，将带噪语音输入到收敛后的Student模型进行计算获得增强后的语音。由于通过带噪的训练语音训练Teacher模型，利用Teacher-Student方法将Teacher模型的预测空间映射到Student模型，将Teacher模型计算出的标签作为先验知识指导Student模型的训练；根据Teacher模型预测标签与实际标签之间的误差动态地计算损失权重，控制实际标签和Teacher模型预测标签的重要程度，从而让Student模型降噪性能效果更好。相比使用固定的权重a来计算损失，动态计算损失的方法综合考虑了真实数据和Teacher模型预测的标签，更符合实际应用场景。因而，本方法将复杂的Teacher模型学到的知识迁移到简单的Student模型上，使得在保证降噪性能几乎不变的前提下，对降噪模型进行了压缩，不仅取得了良好的语音降噪效果，而且模型结构简单，参数量少，减少了计算资源的消耗，使得机器在嘈杂的环境下也能听到清晰、干净的语音。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明的算法流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种降噪模型的压缩方法，如图1所示，降噪模型分为Teacher模型训练、知识蒸馏和Student模型测试三个阶段。

一、Teacher模型训练阶段

1、将带噪的训练语音进行特征提取feature，获得特征，并利用带噪的训练语音和其对应的纯净语音计算相应的真实mask-r

2、将真实mask-r和所述特征分别输入模型中进行训练，待模型训练收敛后就获得Teacher模型；

二、知识蒸馏阶段

1、将带噪语音进行特征提取，然后输入到Teacher模型中，得到Teacher模型预测的mask-t，根据该语音对应的真实mask-r进行对比，计算权重a:

a＝|mask-r–mask-t|+0.5，if a>1，则a取值为1

图1中loss1和loss2分别表示Student模型预测的mask-s与真实mask-r、Teacher模型预测mask-t的MSE，计算公式如下：

loss1＝MSE(mask-r,mask-s)，

loss2＝MSE(mask-t,mask-s)，

其中MSE为均方误差函数，

2、将loss作为损失函数对Student模型进行调整后，直至收敛，获得调整后的Student模型；

三、Student模型测试阶段

将带噪语音进行特征提取，获得特征，然后将对应的特征输入到调整后的Student模型，获得预测的mask，将mask与带噪语音的频谱相乘后进行逆傅里叶变换得到增强后的语音。图1中STFT为傅里叶变换，ISTFT为逆傅里叶变换。

上述技术方案的工作原理及有益技术效果：通过带噪的训练语音训练Teacher模型，利用Teacher-Student方法将Teacher模型的预测空间映射到Student模型，将Teacher模型计算出的标签作为先验知识指导Student模型的训练；根据Teacher模型预测标签与实际标签之间的误差动态地计算损失权重，控制实际标签和Teacher模型预测标签的重要程度(Teacher模型预测的mask-t与真实mask-r的差别越大，实际标签越可信，a就越大)，从而让Student模型降噪性能效果更好。相比使用固定的权重a来计算损失，动态计算损失的方法综合考虑了真实数据和Teacher模型预测的标签，更符合实际应用场景。因而，本方法将复杂的Teacher模型学到的知识迁移到简单的Student模型上，使得在保证降噪性能几乎不变的前提下，对降噪模型进行了压缩，不仅取得了良好的语音降噪效果，而且模型结构简单，参数量少，减少了计算资源的消耗，使得机器在嘈杂的环境下也能听到清晰、干净的语音。

在一个实施例中，所述带噪语音的获取基于一个麦克风获取单通道语音，通过单通道获取语音，减少噪音的干扰，以便获取清晰的语音信号。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种降噪模型的压缩方法，其特征在于，包括如下步骤：

步骤2，利用特征和对应的时频掩蔽训练预设的Teacher模型；

Loss＝a*loss1+(1-a)* loss2 (1)

在利用预设的Student模型预测的mask-s计算loss1，

loss1 ＝ MSE(mask-r， mask-s) (2)

利用Teacher模型预测mask-t计算loss2

loss2 ＝ MSE(mask-t， mask-s) (3)

再计算权重a，

a＝ |mask-r – mask-t| + 0.5，如果a > 1，则a取值为1 (4)

将式(2)、(3)、(4)代入式(1)得

Loss＝(|mask-r–mask-t|+0.5)*MSE(mask-r，mask-s)+{1-(|mask-r–mask-t|+0.5)}*MSE(mask-t，mask-s)

其中MSE为均方误差函数，

2.根据权利要求1所述的一种降噪模型的压缩方法，其特征在于，所述步骤2包括：

3.根据权利要求1所述的一种降噪模型的压缩方法，其特征在于，所述步骤4包括：

4.根据权利要求3所述的一种降噪模型的压缩方法，其特征在于，所述带噪语音进行傅里叶变换获得所述带噪语音的频谱。

5.根据权利要求1所述的一种降噪模型的压缩方法，其特征在于，所述步骤4包括：

所述带噪语音的获取基于一个麦克风获取单通道语音。