CN111429931B

CN111429931B - 一种基于数据增强的降噪模型压缩方法及装置

Info

Publication number: CN111429931B
Application number: CN202010224879.3A
Authority: CN
Inventors: 李庆龙; 关海欣
Original assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd; Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date: 2020-03-26
Filing date: 2020-03-26
Publication date: 2023-04-18
Anticipated expiration: 2040-03-26
Also published as: CN111429931A

Abstract

本发明提供了一种基于数据增强的降噪模型压缩方法及装置，其中方法包括：获取预设的初始Teacher模型；获取带噪的训练语音，以及获取所述带噪的训练语音对应的纯净语音；基于所述带噪的训练语音和所述纯净语音，对所述初始Teacher模型进行训练，待所述初始Teacher模型训练收敛后作为最终Teacher模型；获取预设的初始Student模型；获取实际采集的带噪实际语音；基于所述带噪的训练语音、最终Teacher模型和所述带噪实际语音对所述初始Student模型进行训练，待所述初始Student模型训练收敛后作为最终Student模型。本发明在保证降噪性能几乎不变的前提下，尽可能压缩模型的参数量，从而使降噪模型在压缩模型的同时，还能保证在实际场景运用中降噪性能不变。

Description

一种基于数据增强的降噪模型压缩方法及装置

技术领域

本发明涉及语音降噪技术领域，特别涉及一种基于数据增强的降噪模型压缩方法及装置。

背景技术

语音降噪是将混合语音中的噪声和人声分离出来，在尽可能完整保留人声部分的同时尽可能多的去除噪声部分。这可以有效提高语音通信或语音交互的质量，使人或机器在嘈杂的环境下也能听到清晰、干净的语音。传统的降噪方法在非平稳噪声环境下很难取得很好的效果，尤其对于瞬态的噪声更是无能为力，当前基于深度学习技术的降噪方法可以有效的去除快变的噪声，取得更好的语音降噪效果。而目前主流的基于深度学习技术的降噪方法表现良好，但模型参数量比较大，且会有冗余，对计算资源的消耗比较严重。在移动设备上运行时，对功耗的要求就比较苛刻，所以在保证降噪性能几乎不变的前提下，模型压缩变的尤为重要。

发明内容

本发明提供一种模型的参数量少且降噪性能不变的基于数据增强的降噪模型压缩方法。

本发明提供一种基于数据增强的降噪模型压缩方法，该方法具体包括步骤S1-S6：

步骤S1:获取预设的初始Teacher模型；

步骤S2:获取带噪的训练语音，以及获取所述带噪的训练语音对应的纯净语音；

步骤S3:基于所述带噪的训练语音和所述纯净语音，对所述初始Teacher模型进行训练，待所述初始Teacher模型训练收敛后作为最终Teacher模型；

步骤S4：获取预设的初始Student模型；

步骤S5:获取实际采集的带噪实际语音；

步骤S6:基于所述带噪的训练语音、最终Teacher模型和所述实际采集的带噪实际语音对所述初始Student模型进行训练，待所述初始Student模型训练收敛后作为最终Student模型。

优选的，所述基于数据增强的降噪模型压缩方法还包括：

步骤S7：获取带噪测试语音，基于所述带噪测试语音对所述最终Student模型进行测试；当测试不通过时重复执行步骤S1至S6。

优选的，所述步骤S3：基于所述带噪的训练语音和所述纯净语音，对所述初始Teacher模型进行训练，待所述初始Teacher模型训练收敛后作为最终Teacher模型；具体包括：

步骤S301:提取所述带噪的训练语音中的特征值作为第一特征值；

步骤S302:基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值；

步骤S303:将所述第一特征值输入初始Teacher模型中获得第一时频掩蔽值；计算出所述第一时频掩蔽值和所述实际时频掩蔽值之间的第一均方误差；

步骤S304：将所述第一特征值、所述第一时频掩蔽值和所述实际时频掩蔽值作为训练数据，所述第一均方误差作为损失函数，对所述初始Teacher模型进行训练；

步骤S305:待所述初始Teacher模型训练收敛后作为最终Teacher模型。

优选的，步骤S6:基于所述带噪的训练语音、最终Teacher模型和所述带噪实际语音对所述Student模型进行训练，待所述Student模型训练收敛后作为最终Student模型，具体包括：

步骤S601:将所述第一特征值输入所述最终Teacher模型中，预测出第二时频掩蔽值；

步骤S602:提取所述实际采集的带噪实际语音的特征值作为第二特征值；

步骤S603:将所述第二特征值输入所述最终Teacher模型中，预测出第三时频掩蔽值；

步骤S604:将所述第一特征值输入所述初始Teacher模型中，预测出第四时频掩蔽值；计算所述第四时频掩蔽值与所述第二时频掩蔽值之间的第二均方误差；

步骤S605:将所述第二特征值输入所述初始Student模型中，预测出第五时频掩蔽值；计算出所述第五时频掩蔽值和所述第三时频掩蔽值之间的第三均方误差；

步骤S606:将所述第一特征值和第二时频掩蔽值、所述第二特征值和第三时频掩蔽值作为训练数据，将所述第二均方误差和所述第三均方误差作为损失函数，对初始Student模型进行训练，待所述初始Student模型训练收敛后作为最终Student模型。

优选的，为了在压缩模型的同时，还能保证在实际场景运用中降噪性能不变，优选的技术方案是，所述步骤S7：获取带噪测试语音，基于所述带噪测试语音对所述最终Student模型进行测试，当测试不通过时重复执行步骤S1至S6；具体包括：

步骤S701:提取所述带噪测试语音的特征值为第三特征值；

步骤S702:将所述第三特征值输入所述最终Student模型，预测出第六时频掩蔽值；

步骤S703:获取所述带噪测试语音的频谱，并将所述频谱与所述第六时频掩蔽值相乘后经过逆傅里叶变换即可得到增强后的第一增强语音；

步骤S704:计算所述第一增强语音与预设的第二增强语音之间的相似度，作为测试结果输出；

步骤S705：当所述测试结果小于预设值时，重复执行步骤S1至S6。

本实施例中，将带噪测试语音进行特征提取，并将其输入值保存好的小模型中，得到预测的时频掩蔽值，并将预测的时频掩蔽值与带噪测试语音的频谱相乘后进行逆傅里叶变换得到增强后的语音，从而保证模型压缩后在实际场景中降噪性能的不变。

优选的，为了能够利用带噪实际语音和其对应的纯净语音的基础上计算出实际的视频掩蔽值，优选的技术方案是，所述步骤S302:基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值，具体包括：

获取所述纯净语音的频谱，基于所述纯净语音的频谱计算出第一能量序列；所述第一能量序列包括所述纯净语音的频谱各个采样点的能量值；

获取所述带噪的训练语音的频谱，基于所述带噪的训练语音的频谱计算出第二能量序列；所述第二能量序列包括所述带噪的训练语音的频谱各个采样点的能量值；

根据所述第二能量序列与所述第一能量序列确定出所述实际时频掩蔽值。

优选的，为了实现压缩后的模型的降噪性能测试，优选的技术方案是，所述步骤S703:计算所述语音与预设增强结果之间的相似度，作为测试结果输出，具体包括：

获取所述第一增强语音的频谱，基于所述第一增强语音的频谱计算出第三能量序列；所述第三能量序列包括所述第一增强语音的频谱各个采样点的能量值；

获取所述第二增强语音的频谱，基于所述第二增强语音的频谱计算出第四能量序列；所述第四能量序列包括所述第二增强语音的频谱各个采样点的能量值；

计算第三能量序列与所述第四能量序列中各个能量值之间的差值是否在预设阈值内，计算在所述预设阈值内的采样点的占比；将所述占比作为所述第一增强语音与预设的第二增强语音之间的相似度。

本发明还提供一种基于数据增强的降噪模型压缩装置包括：

初始Teacher模型获取模块，用于获取预设的初始Teacher模型；

第一语音获取模块，用于获取带噪的训练语音，以及获取所述带噪的训练语音对应的纯净语音；

Teacher模型训练模块，用于基于所述带噪的训练语音和所述纯净语音，对所述初始Teacher模型进行训练，待所述初始Teacher模型训练收敛后作为最终Teacher模型；

初始Studen模型获取模块，用于获取预设的初始Student模型；

第二语音获取模块，用于获取实际采集的带噪实际语音；

最终Student模型获取模块，用于基于所述带噪的训练语音、最终Teacher模型和所述实际采集的带噪实际语音对所述初始Student模型进行训练，待所述初始Student模型训练收敛后作为最终Student模型。

优选的，基于数据增强的降噪模型压缩装置还包括：

测试模块，用于获取带噪测试语音，基于所述带噪测试语音对所述最终Student模型进行测试；当测试不通过时重新获取所述初始Teacher模型并训练获得所述最终Teacher模型，重新获取初始Student模型并训练获得所述最终Student模型。

优选的，所述Teacher模型训练模块执行包括如下操作：

提取所述带噪的训练语音中的特征值作为第一特征值；

基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值；

将所述第一特征值输入初始Teacher模型中获得第一时频掩蔽值；计算出所述第一时频掩蔽值和所述实际时频掩蔽值之间的第一均方误差；

将所述第一特征值、所述第一时频掩蔽值和所述实际时频掩蔽值作为训练数据，所述第一均方误差作为损失函数，对所述初始Teacher模型进行训练；

待所述初始Teacher模型训练收敛后作为最终Teacher模型。

优选的，所述最终Student模型获取模块执行包括如下操作：

优选的，测试模块执行包括如下操作：

步骤S701:提取所述带噪测试语音的特征值为第三特征值；

步骤S705：当所述测试结果小于预设值时，重新获取所述初始Teacher模型并训练获得所述最终Teacher模型，重新获取所述初始Student模型并训练获得所述最终Student模型。

优选的，所述Teacher模型训练模块执行所述步骤S302:基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值，具体包括：

优选的，所述测试模块执行所述步骤S703:计算所述语音与预设增强结果之间的相似度，作为测试结果输出，具体包括：

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于数据增强的降噪模型压缩方法的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供一种基于数据增强的降噪模型压缩方法，如图1所示，该方法流程如下，具体包括步骤S1-S6：

步骤S1:获取预设的初始Teacher模型；

步骤S4：获取预设的初始Student模型；

步骤S5:获取实际采集的带噪实际语音；

本实施例，着重于一种基于数据增强的降噪模型压缩方法，获取预设的初始Teacher模型【手动配置参数的大的降噪模型】，首先压缩前需要保证Teacher模型的降噪性能，采用训练数据(即：带噪的训练语音)和对应于训练数据的纯净语音(没有噪声的语音)输入到语音降噪模型中进行训练，待语音降噪模型收敛后得到最终Teacher模型，获取预设的初始Student模型【手动配置参数的小的降噪模型】，Student模型的参数量相对较少；因为实际应用场景中，不管是初始Teacher模型还是最终Teacher模型模型其参数较多，模型较大，应用不方便；通常采用Student模型，减少模型的参数量，从而更易于应用；使装载压缩后的模型的终端的配置可以降低，进而减少终端的成本。最后基于带噪的训练语音、最终Teacher模型和所述实际采集的带噪实际语音对所述初始Student模型进行训练，待所述初始Student模型训练收敛后作为最终Student模型，采用最终Teacher模型的预测值对Student模型的训练进行指导，在最终Teacher模型训练集的基础上增加了原本无标签的实际数据(通过最终Teacher模型得到预测值)，从而使得最终Student模型在实际应用场景中的效果更好。同时经最终Teacher模型的预测空间映射到最终Student模型上，让训练任务更简单，更容易收敛。

在一个实施例中，为了对最终Student模型进行测试，优选的技术方案是，所述基于数据增强的降噪模型压缩方法还包括：

采用带噪测试语音对最终Student模型进行测试，当测试不通过时，重复步骤S1至步骤S6，直至测试通过。通过测试保证压缩后的模型的降噪性能。

在一个实施例中，为了能够保证压缩前的模型的降噪性能，优选的技术方案是，所述步骤S3：基于所述带噪的训练语音和所述纯净语音，对所述初始Teacher模型进行训练，待所述初始Teacher模型训练收敛后作为最终Teacher模型；具体包括：

本申请的前置条件是在大量模拟数据基础上得到了初始Teacher模型。首先压缩前要保证初始Teacher模型的降噪性能，需要对初始Teacher模型进行训练；采用带噪的训练语音和对应的纯净语音对初始Teacher模型进行训练。

其中，第一特征值以及下面的第二特征值和第三特征值的提取公式如下：

feature＝log(|STFT(F)|)；

公式中，feature表示特征值，STFT表示短时傅里叶变换，||为语音信号的幅度；F表示语音信号的频谱。

其中，实际时频掩蔽值的计算公式如下：

mask_r＝|clean|/|mix|；

公式中，mask_r表示实际时频掩蔽值；|clean|表示纯净语音的幅度谱；|mix|表示带噪的训练语音的幅度谱。

在一个实施例中，为了保证压缩后的模型的降噪性能，优选的技术方案是，步骤S6:基于所述带噪的训练语音、最终Teacher模型和所述带噪实际语音对所述Student模型进行训练，待所述Student模型训练收敛后作为最终Student模型，具体包括：

本实施例中，通过最终Teacher模型对压缩后的初始Student模型进行指导训练，保证Student模型具有Teacher模型的降噪性能的同时，降低参数量，使其应用范围更广。

在一个实施例中，为了对压缩后的模型进行测试，优选的技术方案是，所述步骤S7：获取带噪测试语音，基于所述带噪测试语音对所述最终Student模型进行测试，；当测试不通过时重复执行步骤S1至S6，具体包括：

步骤S701:提取所述带噪测试语音的特征值为第三特征值；

本实施例中，应用带噪测试语音对最终Student模型进行测试，当测试不通过时，重复步骤S1至步骤S6，直至测试通过。通过测试保证压缩后的模型的降噪性能。

在一个实施例中，为了能够利用带噪实际语音和其对应的纯净语音的基础上计算出实际的视频掩蔽值，优选的技术方案是，所述步骤S302:基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值，具体包括：

在一个实施例中，为了能够在压缩模型后，保证其模型的降噪性能，优选的技术方案是，获取所述第一增强语音的频谱，基于所述第一增强语音的频谱计算出第三能量序列；所述第三能量序列包括所述第一增强语音的频谱各个采样点的能量值；

本发明还提供一种基于数据增强的降噪模型压缩装置包括：

初始Teacher模型获取模块，用于获取基于大量模拟数据训练出来的初始Teacher模型；

Teacher模型训练模块，用于基于所述带噪的训练语音和所述纯净语音，对所述初始Teacher模型进行训练，待所述初始Teacher模型训练收敛后作为Teacher模型；

初始Studen模型获取模块，用于获取预设的初始Student模型；

第二语音获取模块，还用于获取实际采集的带噪实际语音；

最终Student模型获取模块，用于基于所述带噪的训练语音、纯净语音、Teacher模型和所述实际采集的带噪实际语音对所述Student模型进行训练，待所述Student模型训练收敛后作为最终Student模型。

本实施例，着重于一种基于数据增强的降噪模型压缩方法，第一步通过初始Teacher模型获取模块获取初始Teacher模型(手动配置参数的大的降噪模型)，首先压缩前需要保证Teacher模型的降噪性能，通过Teacher模型训练模块采用训练数据(即：带噪的训练语音)和对应于训练数据的纯净语音(没有噪声的语音)输入到语音降噪模型中进行训练，待语音降噪模型收敛后得到最终Teacher模型。其次，通过初始Studen模型获取模块获取预设的初始Student模型(手动配置参数的小的降噪模型)，Student模型的参数量相对较少；因为实际应用场景中，不管是初始Teacher模型还是最终Teacher模型模型其参数较多，模型较大，应用不方便；通常采用Student模型，减少模型的参数量，从而更易于应用；使装载压缩后的模型的终端的配置可以降低，进而减少终端的成本。最后通过最终Student模型获取模块基于带噪的训练语音、最终Teacher模型和所述实际采集的带噪实际语音对所述初始Student模型进行训练，待所述初始Student模型训练收敛后作为最终Student模型，采用最终Teacher模型的预测值对Student模型的训练进行指导，在最终Teacher模型训练集的基础上增加了原本无标签的实际数据(通过最终Teacher模型得到预测值)，从而使得最终Student模型在实际应用场景中的效果更好。同时经最终Teacher模型的预测空间映射到最终Student模型上，让训练任务更简单，更容易收敛。

在一个实施例中，为了对最终Student模型进行测试，基于数据增强的降噪模型压缩装置还包括：

测试模块，用于获取带噪测试语音，基于所述带噪测试语音对所述最终Student模型进行测试；当测试不通过时重新生成所述最终Student模型。

采用带噪测试语音对最终Student模型进行测试，当测试不通过时重新获取所述初始Teacher模型并训练获得所述最终Teacher模型，重新获取所述初始Student模型并训练获得所述最终Student模型，直至测试通过。通过测试保证压缩后的模型的降噪性能。

在一个实施例中，为了能够保证压缩前的模型的降噪性能，所述Teacher模型训练模块执行包括如下操作：

提取所述带噪的训练语音中的特征值作为第一特征值；

待所述初始Teacher模型训练收敛后作为最终Teacher模型。

在一个实施例中，为了保证压缩后的模型的降噪性能，所述最终Student模型获取模块执行包括如下操作：

在一个实施例中，为了对压缩后的模型进行测试，测试模块执行包括如下操作：

步骤S701:提取所述带噪测试语音的特征值为第三特征值；

本实施例中，应用带噪测试语音对最终Student模型进行测试，当测试不通过时，重新生成最终Student模型，直至测试通过。通过测试保证压缩后的模型的降噪性能。

在一个实施例中，所述Teacher模型训练模块执行所述步骤S302:基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值，具体包括：

在一个实施例中，所述测试模块执行所述步骤S603:计算所述语音与预设增强结果之间的相似度，作为测试结果输出，具体包括：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于数据增强的降噪模型压缩方法，其特征在于，包括：

步骤S1:获取预设的初始Teacher模型；

步骤S4：获取预设的初始Student模型；

步骤S5:获取实际采集的带噪实际语音；

步骤S6:基于所述带噪的训练语音、最终Teacher模型和所述带噪实际语音对所述初始Student模型进行训练，待所述初始Student模型训练收敛后作为最终Student模型；

所述步骤S3:基于所述带噪的训练语音和所述纯净语音，对所述初始Teacher模型进行训练，待所述初始Teacher模型训练收敛后作为最终Teacher模型；具体包括：

步骤S305:待所述初始Teacher模型训练收敛后作为最终Teacher模型；

步骤S6:基于所述带噪的训练语音、最终Teacher模型和所述带噪实际语音对所述初始Student模型进行训练，待所述初始Student模型训练收敛后作为最终Student模型，具体包括：

2.如权利要求1所述的基于数据增强的降噪模型压缩方法，其特征在于，还包括：

3.如权利要1或2所述的基于数据增强的降噪模型压缩方法，其特征在于，所述步骤S7：获取带噪测试语音，基于所述带噪测试语音对所述最终Student模型进行测试，当测试不通过时重复执行步骤S1至S6，具体包括：

步骤S701:提取所述带噪测试语音的特征值为第三特征值；

步骤S704:计算所述第一增强语音与预设的第二增强语音之间的相似度，作为测试结果输出

4.如权利要求1所述的基于数据增强的降噪模型压缩方法，其特征在于，

所述步骤S302:基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值，具体包括：

5.如权利要求3所述的基于数据增强的降噪模型压缩方法，其特征在于，

所述步骤S703:计算所述语音与预设增强结果之间的相似度，作为测试结果输出，具体包括：

6.一种基于数据增强的降噪模型压缩装置，其特征在于，包括：

初始Teacher模型获取模块，用于获取预设的初始Teacher模型；

初始Student模型获取模块，用于获取预设的初始Student模型；

第二语音获取模块，用于获取实际采集的带噪实际语音；

最终Student模型获取模块，用于基于所述带噪的训练语音、最终Teacher模型和所述实际采集的带噪实际语音对所述初始Student模型进行训练，待所述初始Student模型训练收敛后作为最终Student模型；

所述Teacher模型训练模块中，得到最终Teacher模型的方法，包括：

提取所述带噪的训练语音中的特征值作为第一特征值；

待所述初始Teacher模型训练收敛后作为最终Teacher模型；

所述最终Student模型获取模块中，获取最终Student模型的方法，包括：

将所述第一特征值输入所述最终Teacher模型中，预测出第二时频掩蔽值；

提取所述实际采集的带噪实际语音的特征值作为第二特征值；

将所述第二特征值输入所述最终Teacher模型中，预测出第三时频掩蔽值；

将所述第一特征值输入所述初始Teacher模型中，预测出第四时频掩蔽值；计算所述第四时频掩蔽值与所述第二时频掩蔽值之间的第二均方误差；

将所述第二特征值输入所述初始Student模型中，预测出第五时频掩蔽值；计算出所述第五时频掩蔽值和所述第三时频掩蔽值之间的第三均方误差；

将所述第一特征值和第二时频掩蔽值、所述第二特征值和第三时频掩蔽值作为训练数据，将所述第二均方误差和所述第三均方误差作为损失函数，对初始Student模型进行训练，待所述初始Student模型训练收敛后作为最终Student模型。

7.如权利要求6所述的基于数据增强的降噪模型压缩装置，其特征在于，还包括：

测试模块，用于获取带噪测试语音，基于所述带噪测试语音对所述最终Student模型进行测试；当测试不通过时重新获取所述初始Teacher模型并训练获得所述最终Teacher模型，重新获取所述初始Student模型并训练获得所述最终Student模型。

8.如权利要求6所述的基于数据增强的降噪模型压缩装置，其特征在于，所述Teacher模型训练模块执行包括如下操作：

提取所述带噪的训练语音中的特征值作为第一特征值；

待所述初始Teacher模型训练收敛后作为最终Teacher模型。