CN114067819A - 基于跨层相似性知识蒸馏的语音增强方法 - Google Patents

基于跨层相似性知识蒸馏的语音增强方法 Download PDF

Info

Publication number
CN114067819A
CN114067819A CN202111385676.3A CN202111385676A CN114067819A CN 114067819 A CN114067819 A CN 114067819A CN 202111385676 A CN202111385676 A CN 202111385676A CN 114067819 A CN114067819 A CN 114067819A
Authority
CN
China
Prior art keywords
distillation
model
layer
student
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111385676.3A
Other languages
English (en)
Inventor
谢跃
程佳鸣
梁瑞宇
王青云
唐闺臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Institute of Technology
Original Assignee
Nanjing Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Institute of Technology filed Critical Nanjing Institute of Technology
Priority to CN202111385676.3A priority Critical patent/CN114067819A/zh
Publication of CN114067819A publication Critical patent/CN114067819A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于跨层相似性知识蒸馏的语音增强方法,包括提取深度神经网络的输入特征,再构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,接着根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练大规模参数的蒸馏基础模型作为教师模型,再利用预训练好的教师模型对学生模型进行蒸馏;本发明提出了跨级路径连接的策略,并融合了多层教师模型的有效信息来引导单层学生网络,且为了更好地适应语音增强任务,引入了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以最终实现知识转移,还用大规模的教师模型引导轻量的学生模型,能够有效的提升低复杂度语音增强模型的效果,具有良好的应用前景。

Description

基于跨层相似性知识蒸馏的语音增强方法
技术领域
本发明涉及语音增强技术领域,具体涉及基于跨层相似性知识蒸馏的语音增强方法。
背景技术
得益于深度学习的发展,相比于传统的机器学习方法与信号处理方法,基于数据驱动的模型在语音增强任务上的最新进展显示了优越的性能。这些监督性学习方法正在成为主流因为它们能够从海量的带噪-干净语音数据对中挖掘出有效信息,从而学到强大的噪声抑制能力(尤其是对于非平稳噪声)。在最近的深度噪声抑制(DNS)系列挑战赛上,众多基于深度学习的语音增强模型在实时和非实时赛道上均报告了优良的表现。但若想取得理想的性能,一般需要一个较大的深度神经网络(DNN)模型,也即需要耗费较多计算资源和存储空间。即使这样的模型能够满足DNS挑战赛的实时要求,在一些低延时的应用场景或资源限制的设备上(比如耳机)也会出现部署困难的问题。因此,降低模型的存储和计算量在促进实时应用中的深度学习系统的实用性方面显得越来越重要。
目前主流的模型压缩方法,比如剪枝、量化和知识蒸馏,均在降低模型的复杂度方面有一定成效;第一类是网络剪枝方法,这类方法通过一定的策略选择并删除具有高冗余度的参数,仅保留信息量最大,最重要的参数,同时对剩余的参数进行一定的微调以保证一致性,另一类网络量化的方法通过减少表示每个权重所需的位数来压缩原始网络;然而,现有的知识蒸馏方法大多应用于分类任务,在语音增强这样的回归任务上的相关工作并不多见,并且应用于语音领域的知识蒸馏技术多专注于拉近师生模型的输出距离,而未对模型的中间表示做研究;通过上述的描述,如何利用知识蒸馏技术对语音增强模型进行压缩,是提高语音增强效率和实时性的关键,是当前需要解决的问题;因此,需要设计基于跨层相似性知识蒸馏的语音增强方法。
发明内容
本发明的目的是克服现有的语音(单通道)增强方法在现实场景的部署中常常会遇到的硬件资源受限或低延迟要求的挑战,为更好的有效解决该问题,本发明提供了一种基于跨层相似性知识蒸馏的语音增强方法,首先基于跨层相似性知识蒸馏的语音增强方法,提出了跨级路径连接的策略,并融合多层教师模型的有效信息来引导单层学生网络,且为了更好地适应语音增强任务,引入了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以最终实现知识转移,还用大规模的教师模型引导轻量的学生模型,方法巧妙新颖,具有良好的应用前景。
为了达到上述目的,本发明所采用的技术方案是:
基于跨层相似性知识蒸馏的语音增强方法,包括以下步骤,
步骤(A),提取深度神经网络的输入特征;
步骤(B),构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型;
步骤(C),根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练大规模参数的蒸馏基础模型作为教师模型;
步骤(D),利用预训练好的教师模型对学生模型进行蒸馏,并产生蒸馏输出结果;
步骤(E),基于蒸馏的输出结果,利用成对相似度矩阵计算特征距离;
步骤(F),将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(A),提取深度神经网络的输入特征,其中深度神经网络的输入特征是分别从带噪语音和干净语音中提取的复频谱特征,并将理想复值掩蔽作为训练目标。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(B),构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,其中深度复卷积循环语音增强网络结构是基于复卷积编码器-解码器架构构建的;而蒸馏基础模型包括编码器、中间层和解码器,其中编码器具有六层正向复卷积层、中间层具有两层复数LSTM层和解码器具有六层反向复卷积层。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(C),根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练含有大规模参数的蒸馏基础模型作为教师模型,其中师生学习框架包括教师模型和学生模型,教师模型和学生模型使用相同的蒸馏基础模型架构,但教师模型的每个对应层通道数为学生模型的四倍;多层教师模型和学生模型之间的有效信息采用特征融合变换层进行传递,其中特征融合变换层包括两层正向卷积层和一层卷积层,且特征融合的成对相似度能作为蒸馏损失。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(D),利用预训练好的教师模型对学生模型进行蒸馏,其中蒸馏的位置设置在编码器、中间层和解码器,且整个蒸馏过程呈对称式进行,以中间层内部含有的两层LSTM层为中心分别向编码器和解码器进行特征融合,而特征融合的具体步骤如下,
步骤(D1),特征融合操作在编码器和解码器阶段进行,由于教师和学生各层的特征表示维度有差异,因此要对特征进行维度转换,设教师模型和学生模型第i层的特征分别为
Figure BDA0003367040710000041
Figure BDA0003367040710000042
,那么知识蒸馏损失
Figure BDA0003367040710000043
如公式(1)所示,
Figure BDA0003367040710000044
其中,I表示待蒸馏多层学生模型的中间表示特征集,
Figure BDA0003367040710000045
是特征的维度变换操作,
Figure BDA0003367040710000046
表示师生模型中间特征的距离;
步骤(D2),要避免多层特征的相互干扰和减少冗余的计算,设对n层的特征进行蒸馏,并将变换后的学生特征
Figure BDA0003367040710000047
记为
Figure BDA0003367040710000048
,对公式(1)交换求和顺序,如公式(2)所示,
Figure BDA0003367040710000049
接着将多个距离对的和等效近似为融合特征的距离,如公式(3)所示,
Figure BDA00033670407100000410
其中,
Figure BDA00033670407100000411
表示递归函数;
步骤(D3),特征融合的过程是通过渐进的方式进行的,特征融合操作定义为一个递归函数
Figure BDA00033670407100000412
,并令
Figure BDA00033670407100000413
表示从
Figure BDA00033670407100000414
Figure BDA00033670407100000415
的特征融合,特征融合蒸馏损失
Figure BDA00033670407100000416
的计算是从第n-1层开始进行的,如公式(4)所示,
Figure BDA00033670407100000417
步骤(D4),计算每个连接路径的递归函数,并利用采样的方法将高层次特征重划定为低层次特征的尺寸,再将来自不同层次的两个特征连接在一起,利用1×1卷积对当前层特征和递归累积特征进行注意力加权并生成最终的蒸馏输出结果。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(E),基于蒸馏的输出结果,利用成对相似度矩阵计算特征距离,其具体步骤如下,
步骤(E1),对于第l层融合后的特征图为OT∈Rb×c×t×f,要先进行帧级别的切分,再把特征压平为两个维度,即第j帧变换后为
Figure BDA0003367040710000051
其中,b是批量大小,c是输出通道数,t是语音帧数,f则是特征维度,帧级特征维度为f′=c·f,下标T和S分别表示教师和学生;
步骤(E2),分别计算教师和学生的相似度矩阵,再对矩阵的每一行[i,:]应用L2规范化,如公式(5)所示,
Figure BDA0003367040710000052
其中,每帧计算得到的相似度矩阵
Figure BDA0003367040710000053
维度大小为b×b,上标T表示矩阵的转置操作;
步骤(E3),第l层相似度蒸馏损失
Figure BDA0003367040710000054
定义为所有帧的相似度距离叠加,如公式(6)所示,
Figure BDA0003367040710000055
其中,||·||F表示Frobenius规范化。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(F),将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形,其中重建是利用学生模型预测的理想复值掩蔽与输入特征中的带噪语音复频谱相乘得到增强语音复频谱,再通过逆傅里叶变换还原时域波形,接着通过相似度距离叠加算法合成得到增强语音波形具体步骤如下,
步骤(F1),在使用理想复值掩蔽重建估计语音的过程中,首先取出网络输出的实部
Figure BDA0003367040710000061
和虚部
Figure BDA0003367040710000062
,并以极坐标形式计算出幅度谱和相位谱的掩蔽
Figure BDA0003367040710000063
Figure BDA0003367040710000064
如公式(7)所示,
Figure BDA0003367040710000065
步骤(F2),利用带噪语音的幅度谱Ymag和相位谱Yphase重建预测语音频谱
Figure BDA0003367040710000066
并得到增强语音复频谱,如公式(8)所示,
Figure BDA0003367040710000067
本发明的有益效果是:本发明的基于跨层相似性知识蒸馏的语音增强方法,利用模型的中间特征表示进行知识转移,为适应编码器解码器结构的语音增强框架进行了针对性的设计,首先引入了跨级路径连接的策略,并融合了多层教师模型的有效信息来引导单层学生网络,其次提出了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以实现知识转移,接着通过保留模型中间表示的跨层相似性进行知识转移,稳定有效地提升了低复杂度学生模型的效果,有效的实现了该方法能够提升低复杂度语音增强模型的效果,且方法巧妙新颖,具有良好的应用前景。
附图说明
图1是本发明的基于跨层相似性知识蒸馏的语音增强方法的流程图;
图2是本发明训练阶段和增强阶段的示意图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1所示,本发明的基于跨层相似性知识蒸馏的语音增强方法,包括以下步骤,
步骤(A),提取深度神经网络的输入特征,其中深度神经网络的输入特征是分别从带噪语音和干净语音中提取的复频谱特征,并将理想复值掩蔽作为训练目标。
步骤(B),构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,其中深度复卷积循环语音增强网络结构(DCCRN)是基于复卷积编码器-解码器架构构建的;而蒸馏基础模型包括编码器、中间层和解码器,其中编码器具有六层正向复卷积层、中间层具有两层复数LSTM层和解码器具有六层反向复卷积层;
其中,复数LSTM层含有建模语音的长时相关性。
步骤(C),根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练含有大规模参数的蒸馏基础模型作为教师模型,其中师生学习框架包括教师模型和学生模型,教师模型和学生模型使用相同的蒸馏基础模型架构,但教师模型的每个对应层通道数为学生模型的四倍;多层教师模型和学生模型之间的有效信息采用特征融合变换层进行传递,其中特征融合变换层包括两层正向卷积层和一层卷积层,且特征融合的成对相似度能作为蒸馏损失;
其中,两层正向卷积层用于维度的变换,一层卷积层用于当前特征和递归特征的加权;整个蒸馏过程不会为学生模型的推断过程引入额外的参数,因此可以零负担地提升学生模型的效果。
步骤(D),利用预训练好的教师模型对学生模型进行蒸馏,其中蒸馏的位置设置在编码器、中间层和解码器,且整个蒸馏过程呈对称式进行,以中间层内部含有的两层LSTM层为中心分别向编码器和解码器进行特征融合,而特征融合的具体步骤如下,
其中,蒸馏的位置选择是为了适应基础模型DCCRN对称式设计的编码器-解码器结构;
步骤(D1),特征融合操作在编码器和解码器阶段进行,由于教师和学生各层的特征表示维度有差异,因此要对特征进行维度转换,设教师模型和学生模型第i层的特征分别为
Figure BDA0003367040710000081
Figure BDA0003367040710000082
,那么知识蒸馏损失
Figure BDA0003367040710000083
如公式(1)所示,
Figure BDA0003367040710000084
其中,I表示待蒸馏多层学生模型的中间表示特征集,
Figure BDA0003367040710000085
是特征的维度变换操作,
Figure BDA0003367040710000086
表示师生模型中间特征的距离;为了不损伤教师模型包含的有效信息,我们仅对学生模型的特征进行变换;且对于编码器层,使用教师模型前i层的特征对学生模型的当前层进行蒸馏,而对于解码器层则是后i层;
步骤(D2),要避免多层特征的相互干扰和减少冗余的计算,设对n层的特征进行蒸馏,并将变换后的学生特征
Figure BDA0003367040710000087
记为
Figure BDA0003367040710000088
,对公式(1)交换求和顺序,如公式(2)所示,
Figure BDA0003367040710000089
接着将多个距离对的和等效近似为融合特征的距离,如公式(3)所示,
Figure BDA00033670407100000810
其中,
Figure BDA00033670407100000811
表示递归函数;
步骤(D3),特征融合的过程是通过渐进的方式进行的,特征融合操作定义为一个递归函数
Figure BDA00033670407100000812
,并令
Figure BDA00033670407100000813
表示从
Figure BDA00033670407100000814
Figure BDA00033670407100000815
的特征融合,特征融合蒸馏损失
Figure BDA00033670407100000816
的计算是从第n-1层开始进行的,如公式(4)所示,
Figure BDA0003367040710000091
其中,对于第n层的特征仅进行维度的变换。
步骤(D4),计算每个连接路径的递归函数,并利用采样的方法将高层次特征重划定为低层次特征的尺寸,再将来自不同层次的两个特征连接在一起,利用1×1卷积对当前层特征和递归累积特征进行注意力加权并生成最终的蒸馏输出结果。
步骤(E),基于蒸馏的输出结果,利用成对相似度矩阵计算特征距离,其具体步骤如下,
步骤(E1),对于第l层融合后的特征图为OT∈Rb×c×t×f,要先进行帧级别的切分,再把特征压平为两个维度,即第j帧变换后为
Figure BDA0003367040710000092
其中,b是批量大小,c是输出通道数,t是语音帧数,f则是特征维度,帧级特征维度为f′=c·f,下标T和S分别表示教师和学生;
步骤(E2),分别计算教师和学生的相似度矩阵,再对矩阵的每一行[i,:]应用L2规范化,如公式(5)所示,
Figure BDA0003367040710000093
其中,每帧计算得到的相似度矩阵
Figure BDA0003367040710000094
维度大小为b×b,上标T表示矩阵的转置操作;
步骤(E3),第l层相似度蒸馏损失
Figure BDA0003367040710000095
定义为所有帧的相似度距离叠加,如公式(6)所示,
Figure BDA0003367040710000096
其中,||·||F表示Frobenius规范化。
步骤(F),将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形,其中重建是利用学生模型预测的理想复值掩蔽与输入特征中的带噪语音复频谱相乘得到增强语音复频谱,再通过逆傅里叶变换还原时域波形,接着通过相似度距离叠加算法合成得到增强语音波形,具体步骤如下,
步骤(F1),在使用理想复值掩蔽重建估计语音的过程中,首先取出网络输出的实部
Figure BDA0003367040710000101
和虚部
Figure BDA0003367040710000102
,并以极坐标形式计算出幅度谱和相位谱的掩蔽
Figure BDA0003367040710000103
Figure BDA0003367040710000104
如公式(7)所示,
Figure BDA0003367040710000105
步骤(F2),利用带噪语音的幅度谱Ymag和相位谱Yphase重建预测语音频谱
Figure BDA0003367040710000106
并得到增强语音复频谱,如公式(8)所示,
Figure BDA0003367040710000107
为了充分比较算法的蒸馏效果,下面介绍本发明的一个具体实施例,实验设置在公开数据集DNS Challenge上进行对比实验,且数据集包含来自2150个说话人的500小时干净语料和总计约180小时的65000条噪声剪辑,并随机切分语料库成训练集和验证集各60000和1000条语音;训练集和验证集中的带噪语音是通过从语音集和噪声集中随机选择片段,并在-5dB到15dB之间的随机SNR下进行混合来生成的;测试集对应的性能指标如表1,其中对比算法选取同样在DNS数据集上公开结果的实时语音增强算法NSNet,RNNoise和DTLN;DCCRN-S为未蒸馏的学生模型,而CLSKD为采用本发明算法进行蒸馏的学生模型;从性能指标上看,所提出的模型在各项指标上均具有较大优势,且相比于原学生模型,两种指标WB-PESQ和STOI分别提升0.122和0.0031。
表1算法性能对比
Figure BDA0003367040710000111
综上所述,本发明的基于跨层相似性知识蒸馏的语音增强方法,利用模型的中间特征表示进行知识转移,为适应编码器解码器结构的语音增强框架进行了针对性的设计,首先引入了跨级路径连接的策略,并融合了多层教师模型的有效信息来引导单层学生网络,其次提出了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以实现知识转移,接着通过保留模型中间表示的跨层相似性进行知识转移,稳定有效地提升了低复杂度学生模型的效果,有效的实现了该方法能够提升低复杂度语音增强模型的效果,且方法巧妙新颖,具有良好的应用前景,具有方法科学合理、适用性强和效果佳等优点。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.基于跨层相似性知识蒸馏的语音增强方法,其特征在于:包括以下步骤,
步骤(A),提取深度神经网络的输入特征;
步骤(B),构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型;
步骤(C),根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练大规模参数的蒸馏基础模型作为教师模型;
步骤(D),利用预训练好的教师模型对学生模型进行蒸馏,并产生蒸馏输出结果;
步骤(E),基于蒸馏的输出结果,利用成对相似度矩阵计算特征距离;
步骤(F),将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形。
2.根据权利要求1所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(A),提取深度神经网络的输入特征,其中深度神经网络的输入特征是分别从带噪语音和干净语音中提取的复频谱特征,并将理想复值掩蔽作为训练目标。
3.根据权利要求1所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(B),构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,其中深度复卷积循环语音增强网络结构是基于复卷积编码器-解码器架构构建的;而蒸馏基础模型包括编码器、中间层和解码器,其中编码器具有六层正向复卷积层、中间层具有两层复数LSTM层和解码器具有六层反向复卷积层。
4.根据权利要求3所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(C),根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练含有大规模参数的蒸馏基础模型作为教师模型,其中师生学习框架包括教师模型和学生模型,教师模型和学生模型使用相同的蒸馏基础模型架构,但教师模型的每个对应层通道数为学生模型的四倍;多层教师模型和学生模型之间的有效信息采用特征融合变换层进行传递,其中特征融合变换层包括两层正向卷积层和一层卷积层,且特征融合的成对相似度能作为蒸馏损失。
5.根据权利要求4所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(D),利用预训练好的教师模型对学生模型进行蒸馏,其中蒸馏的位置设置在编码器、中间层和解码器,且整个蒸馏过程呈对称式进行,以中间层内部含有的两层LSTM层为中心分别向编码器和解码器进行特征融合,而特征融合的具体步骤如下,
步骤(D1),特征融合操作在编码器和解码器阶段进行,由于教师和学生各层的特征表示维度有差异,因此要对特征进行维度转换,设教师模型和学生模型第i层的特征分别为
Figure FDA0003367040700000021
Figure FDA0003367040700000022
那么知识蒸馏损失
Figure FDA0003367040700000023
如公式(1)所示,
Figure FDA0003367040700000024
其中,I表示待蒸馏多层学生模型的中间表示特征集,
Figure FDA0003367040700000025
是特征的维度变换操作,
Figure FDA0003367040700000026
表示师生模型中间特征的距离;
步骤(D2),要避免多层特征的相互干扰和减少冗余的计算,设对n层的特征进行蒸馏,并将变换后的学生特征
Figure FDA0003367040700000027
记为
Figure FDA0003367040700000028
对公式(1)交换求和顺序,如公式(2)所示,
Figure FDA0003367040700000029
接着将多个距离对的和等效近似为融合特征的距离,如公式(3)所示,
Figure FDA0003367040700000031
其中,
Figure FDA0003367040700000032
表示递归函数;
步骤(D3),特征融合的过程是通过渐进的方式进行的,特征融合操作定义为一个递归函数
Figure FDA0003367040700000033
并令
Figure FDA0003367040700000034
表示从
Figure FDA0003367040700000035
Figure FDA0003367040700000036
的特征融合,特征融合蒸馏损失
Figure FDA0003367040700000037
的计算是从第n-1层开始进行的,如公式(4)所示,
Figure FDA0003367040700000038
步骤(D4),计算每个连接路径的递归函数,并利用采样的方法将高层次特征重划定为低层次特征的尺寸,再将来自不同层次的两个特征连接在一起,利用1×1卷积对当前层特征和递归累积特征进行注意力加权并生成最终的蒸馏输出结果。
6.根据权利要求5所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(E),基于蒸馏的输出结果,利用成对相似度矩阵计算特征距离,其具体步骤如下,
步骤(E1),对于第l层融合后的特征图为OT∈Rb×c×t×f,要先进行帧级别的切分,再把特征压平为两个维度,即第j帧变换后为
Figure FDA0003367040700000039
其中,b是批量大小,c是输出通道数,t是语音帧数,f则是特征维度,帧级特征维度为f′=c·f,下标T和S分别表示教师和学生;
步骤(E2),分别计算教师和学生的相似度矩阵,再对矩阵的每一行[i,:]应用L2规范化,如公式(5)所示,
Figure FDA00033670407000000310
其中,每帧计算得到的相似度矩阵
Figure FDA0003367040700000041
维度大小为b×b,上标T表示矩阵的转置操作;
步骤(E3),第l层相似度蒸馏损失
Figure FDA0003367040700000042
定义为所有帧的相似度距离叠加,如公式(6)所示,
Figure FDA0003367040700000043
其中,||·||F表示Frobenius规范化。
7.根据权利要求1所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(F),将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形,其中重建是利用学生模型预测的理想复值掩蔽与输入特征中的带噪语音复频谱相乘得到增强语音复频谱,再通过逆傅里叶变换还原时域波形,接着通过相似度距离叠加算法合成得到增强语音波形,具体步骤如下,
步骤(F1),在使用理想复值掩蔽重建估计语音的过程中,首先取出网络输出的实部
Figure FDA0003367040700000044
和虚部
Figure FDA0003367040700000045
并以极坐标形式计算出幅度谱和相位谱的掩蔽
Figure FDA0003367040700000046
Figure FDA0003367040700000047
如公式(7)所示,
Figure FDA0003367040700000048
步骤(F2),利用带噪语音的幅度谱Ymag和相位谱Yphase重建预测语音频谱
Figure FDA0003367040700000049
并得到增强语音复频谱,如公式(8)所示,
Figure FDA00033670407000000410
CN202111385676.3A 2021-11-22 2021-11-22 基于跨层相似性知识蒸馏的语音增强方法 Pending CN114067819A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111385676.3A CN114067819A (zh) 2021-11-22 2021-11-22 基于跨层相似性知识蒸馏的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111385676.3A CN114067819A (zh) 2021-11-22 2021-11-22 基于跨层相似性知识蒸馏的语音增强方法

Publications (1)

Publication Number Publication Date
CN114067819A true CN114067819A (zh) 2022-02-18

Family

ID=80278945

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111385676.3A Pending CN114067819A (zh) 2021-11-22 2021-11-22 基于跨层相似性知识蒸馏的语音增强方法

Country Status (1)

Country Link
CN (1) CN114067819A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028891A (zh) * 2023-02-16 2023-04-28 之江实验室 一种基于多模型融合的工业异常检测模型训练方法和装置
CN117351997A (zh) * 2023-12-05 2024-01-05 清华大学 基于反向知识蒸馏的合成音频检测方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028891A (zh) * 2023-02-16 2023-04-28 之江实验室 一种基于多模型融合的工业异常检测模型训练方法和装置
CN117351997A (zh) * 2023-12-05 2024-01-05 清华大学 基于反向知识蒸馏的合成音频检测方法及系统
CN117351997B (zh) * 2023-12-05 2024-02-23 清华大学 基于反向知识蒸馏的合成音频检测方法及系统

Similar Documents

Publication Publication Date Title
Yin et al. Phasen: A phase-and-harmonics-aware speech enhancement network
CN109841226A (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN114067819A (zh) 基于跨层相似性知识蒸馏的语音增强方法
CN103531205A (zh) 基于深层神经网络特征映射的非对称语音转换方法
CN114141238A (zh) 一种融合Transformer和U-net网络的语音增强方法
CN112309411A (zh) 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统
CN115101085A (zh) 一种卷积增强外部注意力的多说话人时域语音分离方法
CN117059103A (zh) 基于低秩矩阵近似的语音识别微调任务的加速方法
CN114495957A (zh) 一种基于Transformer改进的语音增强方法、系统、装置
Hao et al. A Unified Framework for Low-Latency Speaker Extraction in Cocktail Party Environments.
CN115602152A (zh) 一种基于多阶段注意力网络的语音增强方法
Zhang et al. Temporal Transformer Networks for Acoustic Scene Classification.
Qi et al. Exploring deep hybrid tensor-to-vector network architectures for regression based speech enhancement
CN116391191A (zh) 用于处理滤波器组域中的音频样本的生成神经网络模型
CN116682444A (zh) 一种基于波形频谱融合网络的单通道语音增强方法
Makki et al. Unaligned training for voice conversion based on a local nonlinear principal component analysis approach
Shen Application of transfer learning algorithm and real time speech detection in music education platform
Tan et al. Low-complexity acoustic scene classification using blueprint separable convolution and knowledge distillation
Han et al. Variational automatic channel pruning algorithm based on structure optimization for convolutional neural networks
CN105551503A (zh) 基于原子预选择的音频匹配追踪方法与系统
CN112735469A (zh) 低内存语音关键词检测方法、系统、介质、设备及终端
Zeng et al. Speech Enhancement of Complex Convolutional Recurrent Network with Attention
CN116248229B (zh) 一种面向实时语音通讯的丢包补偿方法
CN117649839B (zh) 一种基于低秩适应的个性化语音合成方法
CN117711417B (zh) 一种基于频域自注意力网络的语音质量增强方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination