CN114067819A - 基于跨层相似性知识蒸馏的语音增强方法 - Google Patents
基于跨层相似性知识蒸馏的语音增强方法 Download PDFInfo
- Publication number
- CN114067819A CN114067819A CN202111385676.3A CN202111385676A CN114067819A CN 114067819 A CN114067819 A CN 114067819A CN 202111385676 A CN202111385676 A CN 202111385676A CN 114067819 A CN114067819 A CN 114067819A
- Authority
- CN
- China
- Prior art keywords
- distillation
- model
- layer
- student
- teacher
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 27
- 238000004821 distillation Methods 0.000 claims abstract description 63
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 230000004927 fusion Effects 0.000 claims description 33
- 238000001228 spectrum Methods 0.000 claims description 32
- 239000011159 matrix material Substances 0.000 claims description 17
- 230000009466 transformation Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 230000000873 masking effect Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000000750 progressive effect Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 3
- 239000010410 layer Substances 0.000 abstract description 73
- 230000000694 effects Effects 0.000 abstract description 7
- 238000012546 transfer Methods 0.000 abstract description 5
- 239000002356 single layer Substances 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000003475 lamination Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于跨层相似性知识蒸馏的语音增强方法,包括提取深度神经网络的输入特征,再构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,接着根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练大规模参数的蒸馏基础模型作为教师模型,再利用预训练好的教师模型对学生模型进行蒸馏;本发明提出了跨级路径连接的策略,并融合了多层教师模型的有效信息来引导单层学生网络,且为了更好地适应语音增强任务,引入了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以最终实现知识转移,还用大规模的教师模型引导轻量的学生模型,能够有效的提升低复杂度语音增强模型的效果,具有良好的应用前景。
Description
技术领域
本发明涉及语音增强技术领域,具体涉及基于跨层相似性知识蒸馏的语音增强方法。
背景技术
得益于深度学习的发展,相比于传统的机器学习方法与信号处理方法,基于数据驱动的模型在语音增强任务上的最新进展显示了优越的性能。这些监督性学习方法正在成为主流因为它们能够从海量的带噪-干净语音数据对中挖掘出有效信息,从而学到强大的噪声抑制能力(尤其是对于非平稳噪声)。在最近的深度噪声抑制(DNS)系列挑战赛上,众多基于深度学习的语音增强模型在实时和非实时赛道上均报告了优良的表现。但若想取得理想的性能,一般需要一个较大的深度神经网络(DNN)模型,也即需要耗费较多计算资源和存储空间。即使这样的模型能够满足DNS挑战赛的实时要求,在一些低延时的应用场景或资源限制的设备上(比如耳机)也会出现部署困难的问题。因此,降低模型的存储和计算量在促进实时应用中的深度学习系统的实用性方面显得越来越重要。
目前主流的模型压缩方法,比如剪枝、量化和知识蒸馏,均在降低模型的复杂度方面有一定成效;第一类是网络剪枝方法,这类方法通过一定的策略选择并删除具有高冗余度的参数,仅保留信息量最大,最重要的参数,同时对剩余的参数进行一定的微调以保证一致性,另一类网络量化的方法通过减少表示每个权重所需的位数来压缩原始网络;然而,现有的知识蒸馏方法大多应用于分类任务,在语音增强这样的回归任务上的相关工作并不多见,并且应用于语音领域的知识蒸馏技术多专注于拉近师生模型的输出距离,而未对模型的中间表示做研究;通过上述的描述,如何利用知识蒸馏技术对语音增强模型进行压缩,是提高语音增强效率和实时性的关键,是当前需要解决的问题;因此,需要设计基于跨层相似性知识蒸馏的语音增强方法。
发明内容
本发明的目的是克服现有的语音(单通道)增强方法在现实场景的部署中常常会遇到的硬件资源受限或低延迟要求的挑战,为更好的有效解决该问题,本发明提供了一种基于跨层相似性知识蒸馏的语音增强方法,首先基于跨层相似性知识蒸馏的语音增强方法,提出了跨级路径连接的策略,并融合多层教师模型的有效信息来引导单层学生网络,且为了更好地适应语音增强任务,引入了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以最终实现知识转移,还用大规模的教师模型引导轻量的学生模型,方法巧妙新颖,具有良好的应用前景。
为了达到上述目的,本发明所采用的技术方案是:
基于跨层相似性知识蒸馏的语音增强方法,包括以下步骤,
步骤(A),提取深度神经网络的输入特征;
步骤(B),构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型;
步骤(C),根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练大规模参数的蒸馏基础模型作为教师模型;
步骤(D),利用预训练好的教师模型对学生模型进行蒸馏,并产生蒸馏输出结果;
步骤(E),基于蒸馏的输出结果,利用成对相似度矩阵计算特征距离;
步骤(F),将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(A),提取深度神经网络的输入特征,其中深度神经网络的输入特征是分别从带噪语音和干净语音中提取的复频谱特征,并将理想复值掩蔽作为训练目标。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(B),构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,其中深度复卷积循环语音增强网络结构是基于复卷积编码器-解码器架构构建的;而蒸馏基础模型包括编码器、中间层和解码器,其中编码器具有六层正向复卷积层、中间层具有两层复数LSTM层和解码器具有六层反向复卷积层。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(C),根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练含有大规模参数的蒸馏基础模型作为教师模型,其中师生学习框架包括教师模型和学生模型,教师模型和学生模型使用相同的蒸馏基础模型架构,但教师模型的每个对应层通道数为学生模型的四倍;多层教师模型和学生模型之间的有效信息采用特征融合变换层进行传递,其中特征融合变换层包括两层正向卷积层和一层卷积层,且特征融合的成对相似度能作为蒸馏损失。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(D),利用预训练好的教师模型对学生模型进行蒸馏,其中蒸馏的位置设置在编码器、中间层和解码器,且整个蒸馏过程呈对称式进行,以中间层内部含有的两层LSTM层为中心分别向编码器和解码器进行特征融合,而特征融合的具体步骤如下,
接着将多个距离对的和等效近似为融合特征的距离,如公式(3)所示,
步骤(D4),计算每个连接路径的递归函数,并利用采样的方法将高层次特征重划定为低层次特征的尺寸,再将来自不同层次的两个特征连接在一起,利用1×1卷积对当前层特征和递归累积特征进行注意力加权并生成最终的蒸馏输出结果。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(E),基于蒸馏的输出结果,利用成对相似度矩阵计算特征距离,其具体步骤如下,
其中,b是批量大小,c是输出通道数,t是语音帧数,f则是特征维度,帧级特征维度为f′=c·f,下标T和S分别表示教师和学生;
步骤(E2),分别计算教师和学生的相似度矩阵,再对矩阵的每一行[i,:]应用L2规范化,如公式(5)所示,
其中,||·||F表示Frobenius规范化。
前述的基于跨层相似性知识蒸馏的语音增强方法,步骤(F),将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形,其中重建是利用学生模型预测的理想复值掩蔽与输入特征中的带噪语音复频谱相乘得到增强语音复频谱,再通过逆傅里叶变换还原时域波形,接着通过相似度距离叠加算法合成得到增强语音波形具体步骤如下,
本发明的有益效果是:本发明的基于跨层相似性知识蒸馏的语音增强方法,利用模型的中间特征表示进行知识转移,为适应编码器解码器结构的语音增强框架进行了针对性的设计,首先引入了跨级路径连接的策略,并融合了多层教师模型的有效信息来引导单层学生网络,其次提出了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以实现知识转移,接着通过保留模型中间表示的跨层相似性进行知识转移,稳定有效地提升了低复杂度学生模型的效果,有效的实现了该方法能够提升低复杂度语音增强模型的效果,且方法巧妙新颖,具有良好的应用前景。
附图说明
图1是本发明的基于跨层相似性知识蒸馏的语音增强方法的流程图;
图2是本发明训练阶段和增强阶段的示意图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1所示,本发明的基于跨层相似性知识蒸馏的语音增强方法,包括以下步骤,
步骤(A),提取深度神经网络的输入特征,其中深度神经网络的输入特征是分别从带噪语音和干净语音中提取的复频谱特征,并将理想复值掩蔽作为训练目标。
步骤(B),构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,其中深度复卷积循环语音增强网络结构(DCCRN)是基于复卷积编码器-解码器架构构建的;而蒸馏基础模型包括编码器、中间层和解码器,其中编码器具有六层正向复卷积层、中间层具有两层复数LSTM层和解码器具有六层反向复卷积层;
其中,复数LSTM层含有建模语音的长时相关性。
步骤(C),根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练含有大规模参数的蒸馏基础模型作为教师模型,其中师生学习框架包括教师模型和学生模型,教师模型和学生模型使用相同的蒸馏基础模型架构,但教师模型的每个对应层通道数为学生模型的四倍;多层教师模型和学生模型之间的有效信息采用特征融合变换层进行传递,其中特征融合变换层包括两层正向卷积层和一层卷积层,且特征融合的成对相似度能作为蒸馏损失;
其中,两层正向卷积层用于维度的变换,一层卷积层用于当前特征和递归特征的加权;整个蒸馏过程不会为学生模型的推断过程引入额外的参数,因此可以零负担地提升学生模型的效果。
步骤(D),利用预训练好的教师模型对学生模型进行蒸馏,其中蒸馏的位置设置在编码器、中间层和解码器,且整个蒸馏过程呈对称式进行,以中间层内部含有的两层LSTM层为中心分别向编码器和解码器进行特征融合,而特征融合的具体步骤如下,
其中,蒸馏的位置选择是为了适应基础模型DCCRN对称式设计的编码器-解码器结构;
其中,I表示待蒸馏多层学生模型的中间表示特征集,是特征的维度变换操作,表示师生模型中间特征的距离;为了不损伤教师模型包含的有效信息,我们仅对学生模型的特征进行变换;且对于编码器层,使用教师模型前i层的特征对学生模型的当前层进行蒸馏,而对于解码器层则是后i层;
接着将多个距离对的和等效近似为融合特征的距离,如公式(3)所示,
其中,对于第n层的特征仅进行维度的变换。
步骤(D4),计算每个连接路径的递归函数,并利用采样的方法将高层次特征重划定为低层次特征的尺寸,再将来自不同层次的两个特征连接在一起,利用1×1卷积对当前层特征和递归累积特征进行注意力加权并生成最终的蒸馏输出结果。
步骤(E),基于蒸馏的输出结果,利用成对相似度矩阵计算特征距离,其具体步骤如下,
其中,b是批量大小,c是输出通道数,t是语音帧数,f则是特征维度,帧级特征维度为f′=c·f,下标T和S分别表示教师和学生;
步骤(E2),分别计算教师和学生的相似度矩阵,再对矩阵的每一行[i,:]应用L2规范化,如公式(5)所示,
其中,||·||F表示Frobenius规范化。
步骤(F),将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形,其中重建是利用学生模型预测的理想复值掩蔽与输入特征中的带噪语音复频谱相乘得到增强语音复频谱,再通过逆傅里叶变换还原时域波形,接着通过相似度距离叠加算法合成得到增强语音波形,具体步骤如下,
为了充分比较算法的蒸馏效果,下面介绍本发明的一个具体实施例,实验设置在公开数据集DNS Challenge上进行对比实验,且数据集包含来自2150个说话人的500小时干净语料和总计约180小时的65000条噪声剪辑,并随机切分语料库成训练集和验证集各60000和1000条语音;训练集和验证集中的带噪语音是通过从语音集和噪声集中随机选择片段,并在-5dB到15dB之间的随机SNR下进行混合来生成的;测试集对应的性能指标如表1,其中对比算法选取同样在DNS数据集上公开结果的实时语音增强算法NSNet,RNNoise和DTLN;DCCRN-S为未蒸馏的学生模型,而CLSKD为采用本发明算法进行蒸馏的学生模型;从性能指标上看,所提出的模型在各项指标上均具有较大优势,且相比于原学生模型,两种指标WB-PESQ和STOI分别提升0.122和0.0031。
表1算法性能对比
综上所述,本发明的基于跨层相似性知识蒸馏的语音增强方法,利用模型的中间特征表示进行知识转移,为适应编码器解码器结构的语音增强框架进行了针对性的设计,首先引入了跨级路径连接的策略,并融合了多层教师模型的有效信息来引导单层学生网络,其次提出了帧级相似性蒸馏损失,并在教师和学生的表示空间中保留成对相似性以实现知识转移,接着通过保留模型中间表示的跨层相似性进行知识转移,稳定有效地提升了低复杂度学生模型的效果,有效的实现了该方法能够提升低复杂度语音增强模型的效果,且方法巧妙新颖,具有良好的应用前景,具有方法科学合理、适用性强和效果佳等优点。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (7)
1.基于跨层相似性知识蒸馏的语音增强方法,其特征在于:包括以下步骤,
步骤(A),提取深度神经网络的输入特征;
步骤(B),构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型;
步骤(C),根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练大规模参数的蒸馏基础模型作为教师模型;
步骤(D),利用预训练好的教师模型对学生模型进行蒸馏,并产生蒸馏输出结果;
步骤(E),基于蒸馏的输出结果,利用成对相似度矩阵计算特征距离;
步骤(F),将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形。
2.根据权利要求1所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(A),提取深度神经网络的输入特征,其中深度神经网络的输入特征是分别从带噪语音和干净语音中提取的复频谱特征,并将理想复值掩蔽作为训练目标。
3.根据权利要求1所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(B),构建基于深度复卷积循环语音增强网络结构的蒸馏基础模型,其中深度复卷积循环语音增强网络结构是基于复卷积编码器-解码器架构构建的;而蒸馏基础模型包括编码器、中间层和解码器,其中编码器具有六层正向复卷积层、中间层具有两层复数LSTM层和解码器具有六层反向复卷积层。
4.根据权利要求3所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(C),根据蒸馏基础模型构建基于跨层相似性蒸馏的师生学习框架,并预训练含有大规模参数的蒸馏基础模型作为教师模型,其中师生学习框架包括教师模型和学生模型,教师模型和学生模型使用相同的蒸馏基础模型架构,但教师模型的每个对应层通道数为学生模型的四倍;多层教师模型和学生模型之间的有效信息采用特征融合变换层进行传递,其中特征融合变换层包括两层正向卷积层和一层卷积层,且特征融合的成对相似度能作为蒸馏损失。
5.根据权利要求4所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(D),利用预训练好的教师模型对学生模型进行蒸馏,其中蒸馏的位置设置在编码器、中间层和解码器,且整个蒸馏过程呈对称式进行,以中间层内部含有的两层LSTM层为中心分别向编码器和解码器进行特征融合,而特征融合的具体步骤如下,
接着将多个距离对的和等效近似为融合特征的距离,如公式(3)所示,
步骤(D4),计算每个连接路径的递归函数,并利用采样的方法将高层次特征重划定为低层次特征的尺寸,再将来自不同层次的两个特征连接在一起,利用1×1卷积对当前层特征和递归累积特征进行注意力加权并生成最终的蒸馏输出结果。
6.根据权利要求5所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(E),基于蒸馏的输出结果,利用成对相似度矩阵计算特征距离,其具体步骤如下,
其中,b是批量大小,c是输出通道数,t是语音帧数,f则是特征维度,帧级特征维度为f′=c·f,下标T和S分别表示教师和学生;
步骤(E2),分别计算教师和学生的相似度矩阵,再对矩阵的每一行[i,:]应用L2规范化,如公式(5)所示,
其中,||·||F表示Frobenius规范化。
7.根据权利要求1所述的基于跨层相似性知识蒸馏的语音增强方法,其特征在于:步骤(F),将输入特征中的带噪语音复频谱谱特征输入到蒸馏后的学生模型并重建增强语音波形,其中重建是利用学生模型预测的理想复值掩蔽与输入特征中的带噪语音复频谱相乘得到增强语音复频谱,再通过逆傅里叶变换还原时域波形,接着通过相似度距离叠加算法合成得到增强语音波形,具体步骤如下,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111385676.3A CN114067819A (zh) | 2021-11-22 | 2021-11-22 | 基于跨层相似性知识蒸馏的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111385676.3A CN114067819A (zh) | 2021-11-22 | 2021-11-22 | 基于跨层相似性知识蒸馏的语音增强方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114067819A true CN114067819A (zh) | 2022-02-18 |
Family
ID=80278945
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111385676.3A Pending CN114067819A (zh) | 2021-11-22 | 2021-11-22 | 基于跨层相似性知识蒸馏的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114067819A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028891A (zh) * | 2023-02-16 | 2023-04-28 | 之江实验室 | 一种基于多模型融合的工业异常检测模型训练方法和装置 |
CN117351997A (zh) * | 2023-12-05 | 2024-01-05 | 清华大学 | 基于反向知识蒸馏的合成音频检测方法及系统 |
-
2021
- 2021-11-22 CN CN202111385676.3A patent/CN114067819A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116028891A (zh) * | 2023-02-16 | 2023-04-28 | 之江实验室 | 一种基于多模型融合的工业异常检测模型训练方法和装置 |
CN117351997A (zh) * | 2023-12-05 | 2024-01-05 | 清华大学 | 基于反向知识蒸馏的合成音频检测方法及系统 |
CN117351997B (zh) * | 2023-12-05 | 2024-02-23 | 清华大学 | 基于反向知识蒸馏的合成音频检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yin et al. | Phasen: A phase-and-harmonics-aware speech enhancement network | |
CN109841226A (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
CN114067819A (zh) | 基于跨层相似性知识蒸馏的语音增强方法 | |
CN103531205A (zh) | 基于深层神经网络特征映射的非对称语音转换方法 | |
CN114141238A (zh) | 一种融合Transformer和U-net网络的语音增强方法 | |
CN112309411A (zh) | 相位敏感的门控多尺度空洞卷积网络语音增强方法与系统 | |
CN115101085A (zh) | 一种卷积增强外部注意力的多说话人时域语音分离方法 | |
CN117059103A (zh) | 基于低秩矩阵近似的语音识别微调任务的加速方法 | |
CN114495957A (zh) | 一种基于Transformer改进的语音增强方法、系统、装置 | |
Hao et al. | A Unified Framework for Low-Latency Speaker Extraction in Cocktail Party Environments. | |
CN115602152A (zh) | 一种基于多阶段注意力网络的语音增强方法 | |
Zhang et al. | Temporal Transformer Networks for Acoustic Scene Classification. | |
Qi et al. | Exploring deep hybrid tensor-to-vector network architectures for regression based speech enhancement | |
CN116391191A (zh) | 用于处理滤波器组域中的音频样本的生成神经网络模型 | |
CN116682444A (zh) | 一种基于波形频谱融合网络的单通道语音增强方法 | |
Makki et al. | Unaligned training for voice conversion based on a local nonlinear principal component analysis approach | |
Shen | Application of transfer learning algorithm and real time speech detection in music education platform | |
Tan et al. | Low-complexity acoustic scene classification using blueprint separable convolution and knowledge distillation | |
Han et al. | Variational automatic channel pruning algorithm based on structure optimization for convolutional neural networks | |
CN105551503A (zh) | 基于原子预选择的音频匹配追踪方法与系统 | |
CN112735469A (zh) | 低内存语音关键词检测方法、系统、介质、设备及终端 | |
Zeng et al. | Speech Enhancement of Complex Convolutional Recurrent Network with Attention | |
CN116248229B (zh) | 一种面向实时语音通讯的丢包补偿方法 | |
CN117649839B (zh) | 一种基于低秩适应的个性化语音合成方法 | |
CN117711417B (zh) | 一种基于频域自注意力网络的语音质量增强方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |