CN111599373B - 一种降噪模型的压缩方法 - Google Patents

一种降噪模型的压缩方法 Download PDF

Info

Publication number
CN111599373B
CN111599373B CN202010266069.4A CN202010266069A CN111599373B CN 111599373 B CN111599373 B CN 111599373B CN 202010266069 A CN202010266069 A CN 202010266069A CN 111599373 B CN111599373 B CN 111599373B
Authority
CN
China
Prior art keywords
mask
model
voice
inputting
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010266069.4A
Other languages
English (en)
Other versions
CN111599373A (zh
Inventor
李庆龙
姜姗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010266069.4A priority Critical patent/CN111599373B/zh
Publication of CN111599373A publication Critical patent/CN111599373A/zh
Application granted granted Critical
Publication of CN111599373B publication Critical patent/CN111599373B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明的一种降噪模型的压缩方法,包括如下步骤:步骤1,获取带噪训练语音的特征,根据带噪语音和对应的纯净语音计算时频掩蔽mask‑r;步骤2,利用特征和对应的时频掩蔽训练预设的Teacher模型;步骤3,将训练数据的特征输入到预设的Student模型中,在训练预设的Student模型时,将带噪的训练语音特征输入到训练好的Teacher模型中获得mask‑t,再将此带噪的训练语音的特征输入到预设的Student模型中得到mask‑s,根据mask‑r,mask‑t和mask‑s分别计算loss1,loss2和系数a,得到Loss函数,通过所述loss函数对预设的Student模型进行指导训练,直至收敛,获得收敛后的Student模型;步骤4,将带噪语音输入到收敛后的Student模型进行计算获得增强后的语音。本发明的目的在于提供一种降噪性能好、功耗低的降噪模型的压缩方法。

Description

一种降噪模型的压缩方法
技术领域
本发明属于信号处理技术领域,具体涉及一种降噪模型的压缩方法。
背景技术
语音降噪是将混合语音中的噪声和人声分离出来,在尽可能完整保留人声部分的同时尽可能多的去除噪声部分。这可以有效提高语音通信或语音交互的质量,使人或机器在嘈杂的环境下也能听到清晰、干净的语音。随着基于深度学习的降噪方法在移动设备上的全面应用,降低模型的参数量的任务也越来越重要。
传统的降噪方法在非平稳噪声环境下很难取得很好的效果,尤其对于瞬态的噪声更是无能为力。当前基于深度学习技术的降噪方法可以有效的去除快变的噪声,取得更好的语音降噪效果,但模型通常结构复杂,参数量大,对计算资源的消耗比较严重。移动设备上运行降噪模型时,对功耗的要求更为苛刻。所以在保证降噪性能几乎不变的前提下,模型压缩变的尤为重要。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中在保证降噪性能的前提下,降噪模型难于压缩的问题。
为此,采用的技术方案是,本发明的一种降噪模型的压缩方法,包括如下步骤:
步骤1,获取带噪训练语音的特征,根据带噪语音和对应的纯净语音计算时频掩蔽mask-r;
步骤2,利用特征和对应的时频掩蔽训练预设的Teacher模型;
步骤3,将训练数据的特征输入到预设的Student模型中,在训练预设的Student模型时,将带噪的训练语音特征输入到训练好的Teacher模型中获得mask-t,再将此带噪的训练语音的特征输入到预设的Student模型中得到mask-s,根据mask-r,mask-t和mask-s分别计算loss1,loss2和系数a,得到Loss函数,
Loss=a*loss1+(1-a)* loss2           (1)
在利用预设的Student模型预测的mask-s计算loss1,
loss1 = MSE(mask-r, mask-s)           (2)
利用Teacher模型预测mask-t计算loss2
loss2 = MSE(mask-t, mask-s)            (3)
再计算权重a,
a= |mask-r – mask-t| + 0.5, 如果a > 1,则a取值为1  (4)
将式(2)、(3)、(4)代入式(1)得
Loss=(|mask-r–mask-t|+0.5)*MSE(mask-r,mask-s)+{1-(|mask-r–mask-t|
+0.5)}*MSE(mask-t,mask-s)
其中MSE为均方误差函数,
通过所述loss函数对预设的Student模型进行指导训练,直至收敛,获得收敛后的Student模型;
步骤4,将带噪语音输入到收敛后的Student模型进行计算获得增强后的语音。
优选的,所述步骤2包括:
将训练语音的特征输入到Teacher模型中,模型给出预测的mask_,根据mask_和mask-r之间的误差e1指导预设的Teacher模型训练直至e1不变,保存训练好的Teacher模型。
优选的,所述步骤4包括:
将带噪语音先进行特征提取,获得特征,然后将对应的特征输入到收敛后的Student模型,获得预测的mask,将mask与带噪语音的频谱相乘后进行逆傅里叶变换得到增强后的语音。
优选的,所述带噪语音进行傅里叶变换获得所述带噪语音的频谱。
优选的,所述步骤4包括:
所述带噪语音的获取基于一个麦克风获取单通道语音。
本发明技术方案具有以下优点:本发明的一种降噪模型的压缩方法,包括如下步骤:步骤1,获取带噪训练语音的特征,根据带噪语音和对应的纯净语音计算时频掩蔽mask-r;步骤2,利用特征和对应的时频掩蔽训练预设的Teacher模型;步骤3,将训练数据的特征输入到预设的Student模型中,在训练预设的Student模型时,将带噪的训练语音特征输入到训练好的Teacher模型中获得mask-t,再将此带噪的训练语音的特征输入到预设的Student模型中得到mask-s,根据mask-r,mask-t和mask-s分别计算loss1,loss2和系数a,得到Loss函数,
Loss=a*loss1+(1-a)* loss2           (1)
在利用预设的Student模型预测的mask-s计算loss1,
loss1 = MSE(mask-r, mask-s)           (2)
利用Teacher模型预测mask-t计算loss2
loss2 = MSE(mask-t, mask-s)            (3)
再计算权重a,
a= |mask-r – mask-t| + 0.5, 如果a > 1,则a取值为1  (4)
将式(2)、(3)、(4)代入式(1)得
Loss=(|mask-r–mask-t|+0.5)*MSE(mask-r,mask-s)+{1-(|mask-r–mask-t|
+0.5)}*MSE(mask-t,mask-s)
其中MSE为均方误差函数,
通过所述loss函数对预设的Student模型进行指导训练,直至收敛,获得收敛后的Student模型;步骤4,将带噪语音输入到收敛后的Student模型进行计算获得增强后的语音。由于通过带噪的训练语音训练Teacher模型,利用Teacher-Student方法将Teacher模型的预测空间映射到Student模型,将Teacher模型计算出的标签作为先验知识指导Student模型的训练;根据Teacher模型预测标签与实际标签之间的误差动态地计算损失权重,控制实际标签和Teacher模型预测标签的重要程度,从而让Student模型降噪性能效果更好。相比使用固定的权重a来计算损失,动态计算损失的方法综合考虑了真实数据和Teacher模型预测的标签,更符合实际应用场景。因而,本方法将复杂的Teacher模型学到的知识迁移到简单的Student模型上,使得在保证降噪性能几乎不变的前提下,对降噪模型进行了压缩,不仅取得了良好的语音降噪效果,而且模型结构简单,参数量少,减少了计算资源的消耗,使得机器在嘈杂的环境下也能听到清晰、干净的语音。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明的算法流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种降噪模型的压缩方法,如图1所示,降噪模型分为Teacher模型训练、知识蒸馏和Student模型测试三个阶段。
一、Teacher模型训练阶段
1、将带噪的训练语音进行特征提取feature,获得特征,并利用带噪的训练语音和其对应的纯净语音计算相应的真实mask-r
2、将真实mask-r和所述特征分别输入模型中进行训练,待模型训练收敛后就获得Teacher模型;
二、知识蒸馏阶段
1、将带噪语音进行特征提取,然后输入到Teacher模型中,得到Teacher模型预测的mask-t,根据该语音对应的真实mask-r进行对比,计算权重a:
a=|mask-r–mask-t|+0.5,if a>1,则a取值为1
图1中loss1和loss2分别表示Student模型预测的mask-s与真实mask-r、Teacher模型预测mask-t的MSE,计算公式如下:
loss1=MSE(mask-r,mask-s),
loss2=MSE(mask-t,mask-s),
其中MSE为均方误差函数,
2、将loss作为损失函数对Student模型进行调整后,直至收敛,获得调整后的Student模型;
三、Student模型测试阶段
将带噪语音进行特征提取,获得特征,然后将对应的特征输入到调整后的Student模型,获得预测的mask,将mask与带噪语音的频谱相乘后进行逆傅里叶变换得到增强后的语音。图1中STFT为傅里叶变换,ISTFT为逆傅里叶变换。
上述技术方案的工作原理及有益技术效果:通过带噪的训练语音训练Teacher模型,利用Teacher-Student方法将Teacher模型的预测空间映射到Student模型,将Teacher模型计算出的标签作为先验知识指导Student模型的训练;根据Teacher模型预测标签与实际标签之间的误差动态地计算损失权重,控制实际标签和Teacher模型预测标签的重要程度(Teacher模型预测的mask-t与真实mask-r的差别越大,实际标签越可信,a就越大),从而让Student模型降噪性能效果更好。相比使用固定的权重a来计算损失,动态计算损失的方法综合考虑了真实数据和Teacher模型预测的标签,更符合实际应用场景。因而,本方法将复杂的Teacher模型学到的知识迁移到简单的Student模型上,使得在保证降噪性能几乎不变的前提下,对降噪模型进行了压缩,不仅取得了良好的语音降噪效果,而且模型结构简单,参数量少,减少了计算资源的消耗,使得机器在嘈杂的环境下也能听到清晰、干净的语音。
在一个实施例中,所述带噪语音的获取基于一个麦克风获取单通道语音,通过单通道获取语音,减少噪音的干扰,以便获取清晰的语音信号。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种降噪模型的压缩方法,其特征在于,包括如下步骤:
步骤1,获取带噪训练语音的特征,根据带噪语音和对应的纯净语音计算时频掩蔽mask-r;
步骤2,利用特征和对应的时频掩蔽训练预设的Teacher模型;
步骤3,将训练数据的特征输入到预设的Student模型中,在训练预设的Student模型时,将带噪的训练语音特征输入到训练好的Teacher模型中获得mask-t,再将此带噪的训练语音的特征输入到预设的Student模型中得到mask-s,根据mask-r,mask-t和mask-s分别计算loss1,loss2和系数a,得到Loss函数,
Loss=a*loss1+(1-a)* loss2           (1)
在利用预设的Student模型预测的mask-s计算loss1,
loss1 = MSE(mask-r, mask-s)           (2)
利用Teacher模型预测mask-t计算loss2
loss2 = MSE(mask-t, mask-s)            (3)
再计算权重a,
a= |mask-r – mask-t| + 0.5, 如果a > 1,则a取值为1  (4)
将式(2)、(3)、(4)代入式(1)得
Loss=(|mask-r–mask-t|+0.5)*MSE(mask-r,mask-s)+{1-(|mask-r–mask-t|+0.5)}*MSE(mask-t,mask-s)
其中MSE为均方误差函数,
通过所述loss函数对预设的Student模型进行指导训练,直至收敛,获得收敛后的Student模型;
步骤4,将带噪语音输入到收敛后的Student模型进行计算获得增强后的语音。
2.根据权利要求1所述的一种降噪模型的压缩方法,其特征在于,所述步骤2包括:
将训练语音的特征输入到Teacher模型中,模型给出预测的mask_,根据mask_和mask-r之间的误差e1指导预设的Teacher模型训练直至e1不变,保存训练好的Teacher模型。
3.根据权利要求1所述的一种降噪模型的压缩方法,其特征在于,所述步骤4包括:
将带噪语音先进行特征提取,获得特征,然后将对应的特征输入到收敛后的Student模型,获得预测的mask,将mask与带噪语音的频谱相乘后进行逆傅里叶变换得到增强后的语音。
4.根据权利要求3所述的一种降噪模型的压缩方法,其特征在于,所述带噪语音进行傅里叶变换获得所述带噪语音的频谱。
5.根据权利要求1所述的一种降噪模型的压缩方法,其特征在于,所述步骤4包括:
所述带噪语音的获取基于一个麦克风获取单通道语音。
CN202010266069.4A 2020-04-07 2020-04-07 一种降噪模型的压缩方法 Active CN111599373B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010266069.4A CN111599373B (zh) 2020-04-07 2020-04-07 一种降噪模型的压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010266069.4A CN111599373B (zh) 2020-04-07 2020-04-07 一种降噪模型的压缩方法

Publications (2)

Publication Number Publication Date
CN111599373A CN111599373A (zh) 2020-08-28
CN111599373B true CN111599373B (zh) 2023-04-18

Family

ID=72187382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010266069.4A Active CN111599373B (zh) 2020-04-07 2020-04-07 一种降噪模型的压缩方法

Country Status (1)

Country Link
CN (1) CN111599373B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712099B (zh) * 2020-10-10 2024-04-12 江苏清微智能科技有限公司 一种基于双层知识蒸馏说话人模型压缩系统和方法
CN112669870B (zh) * 2020-12-24 2024-05-03 北京声智科技有限公司 语音增强模型的训练方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986788A (zh) * 2018-06-06 2018-12-11 国网安徽省电力有限公司信息通信分公司 一种基于后验知识监督的噪声鲁棒声学建模方法
CN110390950A (zh) * 2019-08-17 2019-10-29 杭州派尼澳电子科技有限公司 一种基于生成对抗网络的端到端语音增强方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10811030B2 (en) * 2017-09-12 2020-10-20 Board Of Trustees Of Michigan State University System and apparatus for real-time speech enhancement in noisy environments

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986788A (zh) * 2018-06-06 2018-12-11 国网安徽省电力有限公司信息通信分公司 一种基于后验知识监督的噪声鲁棒声学建模方法
CN110390950A (zh) * 2019-08-17 2019-10-29 杭州派尼澳电子科技有限公司 一种基于生成对抗网络的端到端语音增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Ryo Aihara,et al.Teacher-student Deep Clustering for Low-delay Single Channel Speech Separation.2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).2019,690-704. *

Also Published As

Publication number Publication date
CN111599373A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN108831499B (zh) 利用语音存在概率的语音增强方法
US11056130B2 (en) Speech enhancement method and apparatus, device and storage medium
WO2020107269A1 (zh) 自适应语音增强方法和电子设备
US6691090B1 (en) Speech recognition system including dimensionality reduction of baseband frequency signals
CN111599373B (zh) 一种降噪模型的压缩方法
CN111429931B (zh) 一种基于数据增强的降噪模型压缩方法及装置
CN102549659A (zh) 抑制音频信号中的噪声
CN1210608A (zh) 一种有噪语音参数增强的方法和装置
CN108490349A (zh) 基于Mel频率倒谱系数的电机异音检测方法
WO2021007841A1 (zh) 噪声估计方法、噪声估计装置、语音处理芯片以及电子设备
CN112735456A (zh) 一种基于dnn-clstm网络的语音增强方法
CN112820315A (zh) 音频信号处理方法、装置、计算机设备及存储介质
CN108696648A (zh) 一种短时语音信号处理的方法、装置、设备及存储介质
CN110808057A (zh) 一种基于约束朴素生成对抗网络的语音增强方法
US20240046947A1 (en) Speech signal enhancement method and apparatus, and electronic device
CN117294985A (zh) 一种tws蓝牙耳机控制方法
CN113782044A (zh) 一种语音增强方法及装置
CN112151055B (zh) 音频处理方法及装置
CN112201269B (zh) 基于改进噪声估计的mmse-lsa语音增强方法
JP3183104B2 (ja) ノイズ削減装置
CN101533642A (zh) 一种语音信号处理方法及装置
CN114827363A (zh) 用于通话过程中消除回声的方法、设备和可读存储介质
CN112614502B (zh) 基于双lstm神经网络的回声消除方法
Wang et al. Research on transformer fault voiceprint recognition based on Mel time-frequency spectrum-convolutional neural network
CN111429927B (zh) 提升个性化合成语音质量的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant