CN114067819A

CN114067819A - 基于跨层相似性知识蒸馏的语音增强方法

Info

Publication number: CN114067819A
Application number: CN202111385676.3A
Authority: CN
Inventors: 谢跃; 程佳鸣; 梁瑞宇; 王青云; 唐闺臣
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-02-18

Abstract

本发明公开了基于跨层相似性知识蒸馏的语音增强方法，包括提取深度神经网络的输入特征，再构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型，接着根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架，并预训练大规模参数的蒸馏基础模型作为教师模型，再利用预训练好的教师模型对学生模型进行蒸馏；本发明提出了跨级路径连接的策略，并融合了多层教师模型的有效信息来引导单层学生网络，且为了更好地适应语音增强任务，引入了帧级相似性蒸馏损失，并在教师和学生的表示空间中保留成对相似性以最终实现知识转移，还用大规模的教师模型引导轻量的学生模型，能够有效的提升低复杂度语音增强模型的效果，具有良好的应用前景。

Description

基于跨层相似性知识蒸馏的语音增强方法

技术领域

本发明涉及语音增强技术领域，具体涉及基于跨层相似性知识蒸馏的语音增强方法。

背景技术

得益于深度学习的发展，相比于传统的机器学习方法与信号处理方法，基于数据驱动的模型在语音增强任务上的最新进展显示了优越的性能。这些监督性学习方法正在成为主流因为它们能够从海量的带噪-干净语音数据对中挖掘出有效信息，从而学到强大的噪声抑制能力(尤其是对于非平稳噪声)。在最近的深度噪声抑制(DNS)系列挑战赛上，众多基于深度学习的语音增强模型在实时和非实时赛道上均报告了优良的表现。但若想取得理想的性能，一般需要一个较大的深度神经网络(DNN)模型，也即需要耗费较多计算资源和存储空间。即使这样的模型能够满足DNS挑战赛的实时要求，在一些低延时的应用场景或资源限制的设备上(比如耳机)也会出现部署困难的问题。因此，降低模型的存储和计算量在促进实时应用中的深度学习系统的实用性方面显得越来越重要。

目前主流的模型压缩方法，比如剪枝、量化和知识蒸馏，均在降低模型的复杂度方面有一定成效；第一类是网络剪枝方法，这类方法通过一定的策略选择并删除具有高冗余度的参数，仅保留信息量最大，最重要的参数，同时对剩余的参数进行一定的微调以保证一致性，另一类网络量化的方法通过减少表示每个权重所需的位数来压缩原始网络；然而，现有的知识蒸馏方法大多应用于分类任务，在语音增强这样的回归任务上的相关工作并不多见，并且应用于语音领域的知识蒸馏技术多专注于拉近师生模型的输出距离，而未对模型的中间表示做研究；通过上述的描述，如何利用知识蒸馏技术对语音增强模型进行压缩，是提高语音增强效率和实时性的关键，是当前需要解决的问题；因此，需要设计基于跨层相似性知识蒸馏的语音增强方法。

发明内容

本发明的目的是克服现有的语音(单通道)增强方法在现实场景的部署中常常会遇到的硬件资源受限或低延迟要求的挑战，为更好的有效解决该问题，本发明提供了一种基于跨层相似性知识蒸馏的语音增强方法，首先基于跨层相似性知识蒸馏的语音增强方法，提出了跨级路径连接的策略，并融合多层教师模型的有效信息来引导单层学生网络，且为了更好地适应语音增强任务，引入了帧级相似性蒸馏损失，并在教师和学生的表示空间中保留成对相似性以最终实现知识转移，还用大规模的教师模型引导轻量的学生模型，方法巧妙新颖，具有良好的应用前景。

为了达到上述目的，本发明所采用的技术方案是：

基于跨层相似性知识蒸馏的语音增强方法，包括以下步骤，

步骤(A)，提取深度神经网络的输入特征；

步骤(B)，构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型；

步骤(C)，根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架，并预训练大规模参数的蒸馏基础模型作为教师模型；

步骤(D)，利用预训练好的教师模型对学生模型进行蒸馏，并产生蒸馏输出结果；

步骤(E)，基于蒸馏的输出结果，利用成对相似度矩阵计算特征距离；

步骤(F)，将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形。

前述的基于跨层相似性知识蒸馏的语音增强方法，步骤(A)，提取深度神经网络的输入特征，其中深度神经网络的输入特征是分别从带噪语音和干净语音中提取的复频谱特征，并将理想复值掩蔽作为训练目标。

前述的基于跨层相似性知识蒸馏的语音增强方法，步骤(B)，构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型，其中深度复卷积循环语音增强网络结构是基于复卷积编码器-解码器架构构建的；而蒸馏基础模型包括编码器、中间层和解码器，其中编码器具有六层正向复卷积层、中间层具有两层复数LSTM层和解码器具有六层反向复卷积层。

前述的基于跨层相似性知识蒸馏的语音增强方法，步骤(C)，根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架，并预训练含有大规模参数的蒸馏基础模型作为教师模型，其中师生学习框架包括教师模型和学生模型，教师模型和学生模型使用相同的蒸馏基础模型架构，但教师模型的每个对应层通道数为学生模型的四倍；多层教师模型和学生模型之间的有效信息采用特征融合变换层进行传递，其中特征融合变换层包括两层正向卷积层和一层卷积层，且特征融合的成对相似度能作为蒸馏损失。

前述的基于跨层相似性知识蒸馏的语音增强方法，步骤(D)，利用预训练好的教师模型对学生模型进行蒸馏，其中蒸馏的位置设置在编码器、中间层和解码器，且整个蒸馏过程呈对称式进行，以中间层内部含有的两层LSTM层为中心分别向编码器和解码器进行特征融合，而特征融合的具体步骤如下，

步骤(D1)，特征融合操作在编码器和解码器阶段进行，由于教师和学生各层的特征表示维度有差异，因此要对特征进行维度转换，设教师模型和学生模型第i层的特征分别为

和

，那么知识蒸馏损失

如公式(1)所示，

其中，I表示待蒸馏多层学生模型的中间表示特征集，

是特征的维度变换操作，

表示师生模型中间特征的距离；

步骤(D2)，要避免多层特征的相互干扰和减少冗余的计算，设对n层的特征进行蒸馏，并将变换后的学生特征

记为

，对公式(1)交换求和顺序，如公式(2)所示，

接着将多个距离对的和等效近似为融合特征的距离，如公式(3)所示，

其中，

表示递归函数；

步骤(D3)，特征融合的过程是通过渐进的方式进行的，特征融合操作定义为一个递归函数

，并令

表示从

到

的特征融合，特征融合蒸馏损失

的计算是从第n-1层开始进行的，如公式(4)所示，

步骤(D4)，计算每个连接路径的递归函数，并利用采样的方法将高层次特征重划定为低层次特征的尺寸，再将来自不同层次的两个特征连接在一起，利用1×1卷积对当前层特征和递归累积特征进行注意力加权并生成最终的蒸馏输出结果。

前述的基于跨层相似性知识蒸馏的语音增强方法，步骤(E)，基于蒸馏的输出结果，利用成对相似度矩阵计算特征距离，其具体步骤如下，

步骤(E1)，对于第l层融合后的特征图为O_T∈R^b×c×t×f，要先进行帧级别的切分，再把特征压平为两个维度，即第j帧变换后为

其中，b是批量大小，c是输出通道数，t是语音帧数，f则是特征维度，帧级特征维度为f′＝c·f，下标T和S分别表示教师和学生；

步骤(E2)，分别计算教师和学生的相似度矩阵，再对矩阵的每一行[i,:]应用L2规范化，如公式(5)所示，

其中，每帧计算得到的相似度矩阵

维度大小为b×b，上标T表示矩阵的转置操作；

步骤(E3)，第l层相似度蒸馏损失

定义为所有帧的相似度距离叠加，如公式(6)所示，

其中，||·||_F表示Frobenius规范化。

前述的基于跨层相似性知识蒸馏的语音增强方法，步骤(F)，将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形，其中重建是利用学生模型预测的理想复值掩蔽与输入特征中的带噪语音复频谱相乘得到增强语音复频谱，再通过逆傅里叶变换还原时域波形，接着通过相似度距离叠加算法合成得到增强语音波形具体步骤如下，

步骤(F1)，在使用理想复值掩蔽重建估计语音的过程中，首先取出网络输出的实部

和虚部

，并以极坐标形式计算出幅度谱和相位谱的掩蔽

和

如公式(7)所示，

步骤(F2)，利用带噪语音的幅度谱Y_mag和相位谱Y_phase重建预测语音频谱

并得到增强语音复频谱，如公式(8)所示，

本发明的有益效果是：本发明的基于跨层相似性知识蒸馏的语音增强方法，利用模型的中间特征表示进行知识转移，为适应编码器解码器结构的语音增强框架进行了针对性的设计，首先引入了跨级路径连接的策略，并融合了多层教师模型的有效信息来引导单层学生网络，其次提出了帧级相似性蒸馏损失，并在教师和学生的表示空间中保留成对相似性以实现知识转移，接着通过保留模型中间表示的跨层相似性进行知识转移，稳定有效地提升了低复杂度学生模型的效果，有效的实现了该方法能够提升低复杂度语音增强模型的效果，且方法巧妙新颖，具有良好的应用前景。

附图说明

图1是本发明的基于跨层相似性知识蒸馏的语音增强方法的流程图；

图2是本发明训练阶段和增强阶段的示意图。

具体实施方式

下面将结合说明书附图，对本发明作进一步的说明。

如图1所示，本发明的基于跨层相似性知识蒸馏的语音增强方法，包括以下步骤，

步骤(A)，提取深度神经网络的输入特征，其中深度神经网络的输入特征是分别从带噪语音和干净语音中提取的复频谱特征，并将理想复值掩蔽作为训练目标。

步骤(B)，构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型，其中深度复卷积循环语音增强网络结构(DCCRN)是基于复卷积编码器-解码器架构构建的；而蒸馏基础模型包括编码器、中间层和解码器，其中编码器具有六层正向复卷积层、中间层具有两层复数LSTM层和解码器具有六层反向复卷积层；

其中，复数LSTM层含有建模语音的长时相关性。

步骤(C)，根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架，并预训练含有大规模参数的蒸馏基础模型作为教师模型，其中师生学习框架包括教师模型和学生模型，教师模型和学生模型使用相同的蒸馏基础模型架构，但教师模型的每个对应层通道数为学生模型的四倍；多层教师模型和学生模型之间的有效信息采用特征融合变换层进行传递，其中特征融合变换层包括两层正向卷积层和一层卷积层，且特征融合的成对相似度能作为蒸馏损失；

其中，两层正向卷积层用于维度的变换，一层卷积层用于当前特征和递归特征的加权；整个蒸馏过程不会为学生模型的推断过程引入额外的参数，因此可以零负担地提升学生模型的效果。

步骤(D)，利用预训练好的教师模型对学生模型进行蒸馏，其中蒸馏的位置设置在编码器、中间层和解码器，且整个蒸馏过程呈对称式进行，以中间层内部含有的两层LSTM层为中心分别向编码器和解码器进行特征融合，而特征融合的具体步骤如下，

其中，蒸馏的位置选择是为了适应基础模型DCCRN对称式设计的编码器-解码器结构；

和

，那么知识蒸馏损失

如公式(1)所示，

其中，I表示待蒸馏多层学生模型的中间表示特征集，

是特征的维度变换操作，

表示师生模型中间特征的距离；为了不损伤教师模型包含的有效信息，我们仅对学生模型的特征进行变换；且对于编码器层，使用教师模型前i层的特征对学生模型的当前层进行蒸馏，而对于解码器层则是后i层；

记为

，对公式(1)交换求和顺序，如公式(2)所示，

其中，

表示递归函数；

，并令

表示从

到

的特征融合，特征融合蒸馏损失

的计算是从第n-1层开始进行的，如公式(4)所示，

其中，对于第n层的特征仅进行维度的变换。

步骤(E)，基于蒸馏的输出结果，利用成对相似度矩阵计算特征距离，其具体步骤如下，

其中，每帧计算得到的相似度矩阵

维度大小为b×b，上标T表示矩阵的转置操作；

步骤(E3)，第l层相似度蒸馏损失

定义为所有帧的相似度距离叠加，如公式(6)所示，

其中，||·||_F表示Frobenius规范化。

步骤(F)，将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形，其中重建是利用学生模型预测的理想复值掩蔽与输入特征中的带噪语音复频谱相乘得到增强语音复频谱，再通过逆傅里叶变换还原时域波形，接着通过相似度距离叠加算法合成得到增强语音波形,具体步骤如下，

和虚部

，并以极坐标形式计算出幅度谱和相位谱的掩蔽

和

如公式(7)所示，

并得到增强语音复频谱，如公式(8)所示，

为了充分比较算法的蒸馏效果，下面介绍本发明的一个具体实施例，实验设置在公开数据集DNS Challenge上进行对比实验，且数据集包含来自2150个说话人的500小时干净语料和总计约180小时的65000条噪声剪辑，并随机切分语料库成训练集和验证集各60000和1000条语音；训练集和验证集中的带噪语音是通过从语音集和噪声集中随机选择片段，并在-5dB到15dB之间的随机SNR下进行混合来生成的；测试集对应的性能指标如表1，其中对比算法选取同样在DNS数据集上公开结果的实时语音增强算法NSNet，RNNoise和DTLN；DCCRN-S为未蒸馏的学生模型，而CLSKD为采用本发明算法进行蒸馏的学生模型；从性能指标上看，所提出的模型在各项指标上均具有较大优势，且相比于原学生模型，两种指标WB-PESQ和STOI分别提升0.122和0.0031。

表1算法性能对比

综上所述，本发明的基于跨层相似性知识蒸馏的语音增强方法，利用模型的中间特征表示进行知识转移，为适应编码器解码器结构的语音增强框架进行了针对性的设计，首先引入了跨级路径连接的策略，并融合了多层教师模型的有效信息来引导单层学生网络，其次提出了帧级相似性蒸馏损失，并在教师和学生的表示空间中保留成对相似性以实现知识转移，接着通过保留模型中间表示的跨层相似性进行知识转移，稳定有效地提升了低复杂度学生模型的效果，有效的实现了该方法能够提升低复杂度语音增强模型的效果，且方法巧妙新颖，具有良好的应用前景，具有方法科学合理、适用性强和效果佳等优点。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.基于跨层相似性知识蒸馏的语音增强方法，其特征在于：包括以下步骤，

步骤(A)，提取深度神经网络的输入特征；

2.根据权利要求1所述的基于跨层相似性知识蒸馏的语音增强方法，其特征在于：步骤(A)，提取深度神经网络的输入特征，其中深度神经网络的输入特征是分别从带噪语音和干净语音中提取的复频谱特征，并将理想复值掩蔽作为训练目标。

3.根据权利要求1所述的基于跨层相似性知识蒸馏的语音增强方法，其特征在于：步骤(B)，构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型，其中深度复卷积循环语音增强网络结构是基于复卷积编码器-解码器架构构建的；而蒸馏基础模型包括编码器、中间层和解码器，其中编码器具有六层正向复卷积层、中间层具有两层复数LSTM层和解码器具有六层反向复卷积层。

4.根据权利要求3所述的基于跨层相似性知识蒸馏的语音增强方法，其特征在于：步骤(C)，根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架，并预训练含有大规模参数的蒸馏基础模型作为教师模型，其中师生学习框架包括教师模型和学生模型，教师模型和学生模型使用相同的蒸馏基础模型架构，但教师模型的每个对应层通道数为学生模型的四倍；多层教师模型和学生模型之间的有效信息采用特征融合变换层进行传递，其中特征融合变换层包括两层正向卷积层和一层卷积层，且特征融合的成对相似度能作为蒸馏损失。

5.根据权利要求4所述的基于跨层相似性知识蒸馏的语音增强方法，其特征在于：步骤(D)，利用预训练好的教师模型对学生模型进行蒸馏，其中蒸馏的位置设置在编码器、中间层和解码器，且整个蒸馏过程呈对称式进行，以中间层内部含有的两层LSTM层为中心分别向编码器和解码器进行特征融合，而特征融合的具体步骤如下，

和

那么知识蒸馏损失

如公式(1)所示，

其中，I表示待蒸馏多层学生模型的中间表示特征集，

是特征的维度变换操作，

表示师生模型中间特征的距离；

记为

对公式(1)交换求和顺序，如公式(2)所示，

其中，

表示递归函数；

并令

表示从

到

的特征融合，特征融合蒸馏损失

的计算是从第n-1层开始进行的，如公式(4)所示，

6.根据权利要求5所述的基于跨层相似性知识蒸馏的语音增强方法，其特征在于：步骤(E)，基于蒸馏的输出结果，利用成对相似度矩阵计算特征距离，其具体步骤如下，

其中，每帧计算得到的相似度矩阵

维度大小为b×b，上标T表示矩阵的转置操作；

步骤(E3)，第l层相似度蒸馏损失

定义为所有帧的相似度距离叠加，如公式(6)所示，

其中，||·||_F表示Frobenius规范化。

7.根据权利要求1所述的基于跨层相似性知识蒸馏的语音增强方法，其特征在于：步骤(F)，将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形，其中重建是利用学生模型预测的理想复值掩蔽与输入特征中的带噪语音复频谱相乘得到增强语音复频谱，再通过逆傅里叶变换还原时域波形，接着通过相似度距离叠加算法合成得到增强语音波形，具体步骤如下，

和虚部

并以极坐标形式计算出幅度谱和相位谱的掩蔽

和

如公式(7)所示，

并得到增强语音复频谱，如公式(8)所示，