CN111312271B - 一种提高收敛速度和处理性能的模型压缩方法和系统 - Google Patents
一种提高收敛速度和处理性能的模型压缩方法和系统 Download PDFInfo
- Publication number
- CN111312271B CN111312271B CN202010129841.8A CN202010129841A CN111312271B CN 111312271 B CN111312271 B CN 111312271B CN 202010129841 A CN202010129841 A CN 202010129841A CN 111312271 B CN111312271 B CN 111312271B
- Authority
- CN
- China
- Prior art keywords
- model
- mask
- voice
- training
- mix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 230000006835 compression Effects 0.000 title claims abstract description 65
- 238000007906 compression Methods 0.000 title claims abstract description 65
- 238000012545 processing Methods 0.000 title claims abstract description 45
- 238000012549 training Methods 0.000 claims abstract description 183
- 238000012360 testing method Methods 0.000 claims abstract description 125
- 230000009467 reduction Effects 0.000 claims abstract description 24
- 230000008569 process Effects 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 21
- 238000001228 spectrum Methods 0.000 claims description 19
- 238000013459 approach Methods 0.000 claims description 14
- 230000000873 masking effect Effects 0.000 claims description 11
- 238000013508 migration Methods 0.000 abstract description 4
- 230000005012 migration Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 15
- 238000013135 deep learning Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提出了一种提高收敛速度和处理性能的模型压缩方法和系统,属于语音降噪处理技术领域。所述模型压缩方法的Teacher模型训练阶段、模型参数迁移及Student模型训练阶段和测试阶段;所述模型压缩系统包括Teacher模型训练模块、Student模型训练模块和模型测试模块。
Description
技术领域
本发明提出了一种提高收敛速度和处理性能的模型压缩方法和系统,属于语音降噪处理技术领域。
背景技术
语音降噪是将混合语音中的噪声和人声分离出来,在尽可能完整保留人声部分的同时尽可能多的去除噪声部分。这可以有效提高语音通信或语音交互的质量,使人或机器在嘈杂的环境下也能听到清晰、干净的语音。随着基于深度学习的降噪方法在移动设备上的全面应用,降低模型的参数量的任务也越来越重要。
传统的降噪方法在非平稳噪声环境下很难取得很好的效果,尤其对于瞬态的噪声更是无能为力,当前基于深度学习技术的降噪方法可以有效的去除快变的噪声,取得更好的语音降噪效果,而目前主流的基于深度学习技术的降噪方法表现良好,但模型参数量比较大,且会有冗余,对计算资源的消耗比较严重。在移动设备上运行时,对功耗的要求就比较苛刻,所以在保证降噪性能几乎不变的前提下,模型压缩变的尤为重要。随着模型参数量的减小,如果重新训练模型,由于参数初始化的问题,模型的性能或许会有较大的性能损失,且训练时的收敛速度比较慢,模型压缩、调优的时间代价比较大。
发明内容
本发明提供了一种提高收敛速度和处理性能的模型压缩方法和系统,用以解决现有的主模型训练过程中,模型压缩直接训练后的训练效果不稳定且模型训练收敛速度慢的问题,所采取的技术方案如下:
一种提高收敛速度和处理性能的模型压缩方法,所述模型压缩方法的过程包括:
步骤1、利用带噪语音mix作为语音训练数据,结合带噪语音mix的实际掩膜mask_r对 Teacher模型进行训练,获得训练收敛后的Teacher模型;
步骤2、对Student模型中的模型参数进行参数量压缩,并利用训练收敛后的Teacher模型参数对压缩后的Student模型进行初始化,并结合带噪语音mix的实际掩膜mask_r对Student 模型进行指导训练,获得训练收敛后的Student模型;
步骤3、利用带噪的测试语音对训练收敛后的Student模型进行测试,并获得训练收敛后 Student模型的测试数据。
进一步地,步骤1所述获得训练收敛后的Teacher模型的过程包括:
步骤101、选取带噪语音mix作为Teacher模型训练阶段的语音训练数据,对所述带噪语音mix进行特征提取,获取所述带噪语音mix的语音特征;
步骤102、将所述带噪语音mix和带噪语音对应的纯净语音进行计算,获得带噪语音mix 的实际掩膜mask_r;
步骤103、将步骤101获得的带噪语音mix的语音特征和步骤102获得的实际掩膜mask_r 分别输入到Teacher模型中,Teacher模型通过所述带噪语音mix的特征和实际掩膜mask_r 对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第一次估计掩膜mask;
步骤104、将步骤103获得的第一次估计掩膜mask和步骤102获得的实际掩膜mask_r 进行比较,计算获取掩膜第一误差值e1;
步骤105、将步骤104获得的掩膜误差值e1输入到Teacher模型中,所述Teacher模型根据掩膜第一误差值e1对所述带噪语音mix的特征和实际掩膜mask_r的数据处理过程进行参数调整,使第一次估计掩膜mask无限趋近于实际掩膜mask_r;
步骤106、通过掩膜第一误差值e1和实际掩膜mask_r对Teacher模型进行不断训练使其收敛,待Teacher模型训练收敛后,保存收敛后的Teacher模型以备后用。
进一步地,步骤2所述获得训练收敛后的Student模型的过程包括:
步骤201、建立一个Student模型,所述Student模型的架构与Teacher模型相同,但是 Student模型中每个隐含层内的节点数量比Teacher模型中每个隐含层的节点数量少;然后将训练收敛后的Teacher模型中的部分参数迁移至Student模型中,利用所述Teacher模型参数对压缩后的Student模型进行初始化;
步骤202、将所述带噪语音mix进行特征提取后获得的语音特征输入至完成初始化的 Student模型中;Student模型通过所述带噪语音mix的语音特征和训练收敛后的Teacher模型参数对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第二次估计掩膜mask_s;
步骤203、将步骤202获得的第二次估计掩膜mask_s与所述带噪语音mix的实际掩膜 mask_r进行比较,计算获得掩膜第二误差值e2;
步骤204、将步骤203获得的掩膜第二误差值e2输入至Student模型中,所述Student模型根据掩膜第二误差值e2对所述带噪语音mix的语音特征和训练收敛后的Teacher模型参数的数据处理过程进行参数调整,使第二次估计掩膜mask_s无限趋近于实际掩膜mask_r;
步骤205、通过掩膜第二误差值e2和实际掩膜mask_r对Student模型进行不断训练使其收敛,待Student模型训练收敛后,保存训练收敛后的Student模型。
进一步地,步骤3所述对训练收敛后的Student模型进行测试的过程包括:
步骤301、对带噪的测试语音进行特征提取,获取所述测试语音的语音特征;将所述测试语音的语音特征输入至训练收敛后的Student模型;
步骤302、所述训练收敛后的Student模型根据测试语音的语音特征对测试语音的掩膜进行预测,获得与所述测试语音的语音特征对应的测试语音掩膜mask_c;
步骤303、对所述测试语音进行短时傅里叶变换(STFT),获得所述测试语音的频谱;
步骤304、将步骤302获得的测试语音掩膜mask_c与步骤303获得的测试语音的频谱进行乘积运算,并将乘积结果进行逆短时傅立叶变换(ISTFT)获得测试语音降噪处理后的增强语音,完成训练收敛后的Student模型的测试;所述增强语音体现的语音质量数据即为所述练收敛后Student模型的测试数据。
一种提高收敛速度和处理性能的模型压缩方法对应的模型压缩系统,所述模型压缩系统包括:
Teacher模型训练模块,用于利用带噪语音mix作为语音训练数据,结合带噪语音mix的实际掩膜mask_r对Teacher模型进行训练,获得训练收敛后的Teacher模型;
Student模型训练模块,用于利用训练收敛后的Teacher模型参数对压缩后的Student模型进行初始化,并结合带噪语音mix的实际掩膜mask_r对Student模型进行指导训练,获得训练收敛后的Student模型;
模型测试模块,用于利用带噪的测试语音对训练收敛后的Student模型进行测试,并获得训练收敛后Student模型的测试数据。
进一步地,所述Teacher模型训练模块包括:
特征提取模块,用于对所述带噪语音mix进行特征提取获取所述带噪语音mix的语音特征;
实际掩膜获取模块,用于将所述带噪语音mix和带噪语音对应的纯净语音进行计算,获得带噪语音mix的实际掩膜mask_r;
数据输入模块一,用于将所述带噪语音mix的语音特征和所述实际掩膜mask_r分别输入到Teacher模型中;
掩膜第一误差值获取模块,用于在接收到Teacher模型发送的第一次估计掩膜mask后,将第一次估计掩膜mask和实际掩膜mask_r进行比较,计算获取掩膜第一误差值e1,并将所述掩膜第一误差值e1发送至Teacher模型;
Teacher模型,用于通过所述带噪语音mix的特征和实际掩膜mask_r对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第一次估计掩膜mask并发送至掩膜第一误差值获取模块;以及,用于在接收到掩膜第一误差值获取模块发送的掩膜第一误差值e1后,根据掩膜第一误差值e1对所述带噪语音mix的特征和实际掩膜mask_r的数据处理过程进行参数调整,使第一次估计掩膜mask无限趋近于实际掩膜mask_r,直至获得训练收敛后的Teacher 模型;
Teacher模型保存模块,用于保存训练收敛后的Teacher模型。
进一步地,所述Student模型训练模块包括:
Student模型压缩模块,用于对Student模型进行模型参数量的压缩,获得压缩后的Student 模型;
参数初始化模块,用于将所述Teacher模型的模型参数迁移至压缩后的Student模型中,并利用Teacher模型的模型参数对压缩后的Student模型进行初始化,获得完成初始化的 Student模型;
数据输入模块二、用于将所述带噪语音mix进行特征提取后获得的语音特征输入至完成初始化的Student模型中;
掩膜第二误差值获取模块,用于将所述第二次估计掩膜mask_s与所述带噪语音mix的实际掩膜mask_r进行比较,计算获得掩膜第二误差值e2,并将所述掩膜第二误差值e2发送至 Student模型中;
Student模型,用于通过所述带噪语音mix的语音特征和训练收敛后的Teacher模型参数对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第二次估计掩膜mask_s,并将所述第二次估计掩膜mask_s发送至掩膜第二误差值获取模块中;以及,用于在接收到掩膜第二误差值获取模块发送的掩膜第二误差值e2后,根据掩膜第二误差值e2对所述带噪语音 mix的语音特征和训练收敛后的Teacher模型参数的数据处理过程进行参数调整,使第二次估计掩膜mask_s无限趋近于实际掩膜mask_r,直至获得训练收敛后的Student模型;
Student模型保存模块,用于保存训练收敛后的Student模型。
进一步地,所述模型测试模块包括:
测试特征提取模块,用于对带噪的测试语音进行特征提取,获取所述测试语音的语音特征,并将所述测试语音的语音特征输入至训练收敛后的Student模型进行掩膜预测;
频谱获取模块,用于对所述测试语音进行短时傅里叶变换获得所述测试语音的频谱;
运算模块,用于将训练收敛后的Student模型预测的测试语音掩膜mask_c与测试语音的频谱进行乘积运算,并将乘积结果进行逆短时傅立叶变换获得测试语音降噪处理后的增强语音。
本发明有益效果:
本发明提出的提高收敛速度和处理性能的模型压缩方法和系统,通过训练Teacher模型,提高Teacher模型的降噪性能,在对Student模型进行参数量压缩的时候,将其已经训练好的部分参数用来初始化压缩后的模型,就相当于直接把Teacher模型学习到的部分知识直接迁移到Student模型,使Student模型有了较好的先验知识信息,再在原始数据上对压缩后的模型进行自适应迭代,极大程度上提高了Student模型的收敛速度,并且使Student模型较好的继承Teacher模型的性能。与随机初始化后,重新训练的模型相比,本发明提出的提高收敛速度和处理性能的模型压缩方法对应的模型压缩方法和系统训练获得的具有迁移知识的Student 模型的训练效果稳定性高,收敛速度快,在进行了模型参数量压缩后,模型的性能依然存在较大的提高。
附图说明
图1为发明所述模型压缩方法流程图;
图2为发明所述模型压缩系统的结构示意图;
图3为发明所述模型压缩系统的原理示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种提高收敛速度和处理性能的模型压缩方法和系统,用以解决现有的主模型训练过程中,模型压缩直接训练后的训练效果不稳定且训练收敛速度慢的问题。
本发明实施例提供了一种提高收敛速度和处理性能的模型压缩方法,如图1所示,所述模型压缩方法的过程包括:
步骤1、利用带噪语音mix作为语音训练数据,结合带噪语音mix的实际掩膜mask_r对 Teacher模型进行训练,获得训练收敛后的Teacher模型;
步骤2、对Student模型中的模型参数进行参数量压缩,并利用训练收敛后的Teacher模型参数对压缩后的Student模型进行初始化,并结合带噪语音mix的实际掩膜mask_r对Student 模型进行指导训练,获得训练收敛后的Student模型;
步骤3、利用带噪的测试语音对训练收敛后的Student模型进行测试,并获得训练收敛后 Student模型的测试数据。
上述技术方案的工作原理为:利用带噪语音mix作为语音训练数据,结合带噪语音mix 的实际掩膜mask_r训练Teacher模型用以提高Teacher模型的降噪性能,在对Student模型进行参数量压缩的时候,将Teacher模型已经训练好的部分参数用来初始化压缩后的模型,就相当于直接把Teacher模型学习到的部分知识直接迁移到Student模型,使Student模型有了较好的先验知识信息,再在原始数据上对压缩后的模型进行基于掩膜的自适应迭代,最终获得训练好的Student模型。
上述技术方案的技术效果为:本实施例提出的提高收敛速度和处理性能的模型压缩方法训练获得的具有迁移知识的Student模型的训练效果稳定性高,收敛速度快,在进行了模型参数量压缩后,模型的性能依然存在较大的提高。
本发明的一个实施例,步骤1所述获得训练收敛后的Teacher模型的过程包括:
步骤101、选取带噪语音mix作为Teacher模型训练阶段的语音训练数据,对所述带噪语音mix进行特征提取,获取所述带噪语音mix的语音特征;
步骤102、将所述带噪语音mix和带噪语音对应的纯净语音进行计算,获得带噪语音mix 的实际掩膜mask_r;
步骤103、将步骤101获得的带噪语音mix的语音特征和步骤102获得的实际掩膜mask_r 分别输入到Teacher模型中,Teacher模型通过所述带噪语音mix的特征和实际掩膜mask_r 对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第一次估计掩膜mask;
步骤104、将步骤103获得的第一次估计掩膜mask和步骤102获得的实际掩膜mask_r 进行比较,计算获取掩膜第一误差值e1;
步骤105、将步骤104获得的掩膜误差值e1输入到Teacher模型中,所述Teacher模型根据掩膜第一误差值e1对所述带噪语音mix的特征和实际掩膜mask_r的数据处理过程进行参数调整,使第一次估计掩膜mask无限趋近于实际掩膜mask_r;
步骤106、通过掩膜第一误差值e1和实际掩膜mask_r对Teacher模型进行不断训练使其收敛,待Teacher模型训练收敛后,保存收敛后的Teacher模型以备后用。
上述技术方案的工作原理为:将混有噪音的语音作为Teacher模型训练阶段的语音训练数据,特征提取带噪语音的feature,并通过带噪语音和其对应的纯净语音进行计算获取带噪语音的实际掩膜mask_r,Teacher模型通过带噪语音的feature和实际掩膜mask_r对带噪语音的掩膜进行估计并获得掩膜估计值,Teacher模型根据掩膜估计值与带噪语音的实际掩膜之间的误差进行自适应迭代直至迭代收敛,即Teacher模型训练收敛,则表示Teacher模型训练完成。最后保存训练好的Teacher模型为后续Student模型训练做准备。
上述技术方案的技术效果为:通过上述Teacher模型的训练方法能够有效提高训练过程中的模型收敛速度,同时,通过上述训练方法训练出的Teacher模型具有较高的降噪性能和稳定性。
本发明的一个实施例,步骤2所述获得训练收敛后的Student模型的过程包括:
步骤201、建立一个Student模型,所述Student模型的架构与Teacher模型相同,但是 Student模型中每个隐含层内的节点数量比Teacher模型中每个隐含层的节点数量少;对 Student模型进行模型压缩,然后将训练收敛后的Teacher模型中的部分参数迁移至Student 模型中,利用所述Teacher模型参数对压缩后的Student模型进行初始化;
步骤202、将所述带噪语音mix进行特征提取后获得的语音特征输入至完成初始化的 Student模型中;Student模型通过所述带噪语音mix的语音特征和训练收敛后的Teacher模型参数对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第二次估计掩膜mask_s;
步骤203、将步骤202获得的第二次估计掩膜mask_s与所述带噪语音mix的实际掩膜 mask_r进行比较,计算获得掩膜第二误差值e2;
步骤204、将步骤203获得的掩膜第二误差值e2输入至Student模型中,所述Student模型根据掩膜第二误差值e2对所述带噪语音mix的语音特征和训练收敛后的Teacher模型参数的数据处理过程进行参数调整,使第二次估计掩膜mask_s无限趋近于实际掩膜mask_r;
步骤205、通过掩膜第二误差值e2和实际掩膜mask_r对Student模型进行不断训练使其收敛,待Student模型训练收敛后,保存训练收敛后的Student模型。
上述技术方案的工作原理为:将训练收敛的Teacher模型的全部或部分模型参数迁移至 Student模型中,在Student模型进行参数压缩的过程中,使用迁移至Student模型中的Teacher 模型参数对压缩后的Student模型进行初始化,使Teacher模型学习到的全部或部分知识直接迁移到Student模型中。然后Student模型通过带噪语音的语音特征与Teacher模型参数预测估计带噪语音的掩膜,第二次估计掩膜mask_s,并根据第二次估计掩膜mask_s与所述带噪语音mix的实际掩膜mask_r之间的误差值进行进行自适应迭代直至迭代收敛,即Teacher模型训练收敛,则表示Student模型训练完成,然后对Student模型进行保存。
上述技术方案的技术效果为:在Student模型进行参数压缩的过程中将Teacher模型的全部或部分模型参数迁移至Student模型中,并对Student模型进行初始化,使Student模型具有了较好的先验知识信息,有效提高了Student模型的掩膜预测估计的性能和效率,提高了 Student模型掩膜估计的准确性,同时,通过上述训练方法结合Teacher模型的全部或部分模型参数对Student模型进行训练,能够极大程度上提高Student模型的收敛速度,提高Student 模型模型训练的效率。
本发明的一个实施例,步骤3所述对训练收敛后的Student模型进行测试的过程包括:
步骤301、对带噪的测试语音进行特征提取,获取所述测试语音的语音特征;将所述测试语音的语音特征输入至训练收敛后的Student模型;
步骤302、所述训练收敛后的Student模型根据测试语音的语音特征对测试语音的掩膜进行预测,获得与所述测试语音的语音特征对应的测试语音掩膜mask_c;
步骤303、对所述测试语音进行短时傅里叶变换(STFT),获得所述测试语音的频谱;
步骤304、将步骤302获得的测试语音掩膜mask_c与步骤303获得的测试语音的频谱进行乘积运算,并将乘积结果进行逆短时傅立叶变换(ISTFT)获得测试语音降噪处理后的增强语音,完成训练收敛后的Student模型的测试;所述增强语音体现的语音质量数据即为所述练收敛后Student模型的测试数据。
上述技术方案的工作原理为:另选择一个带噪语音作为测试语音,将其输入至训练好的 Student模型中,通过Student模型计算获得测试语音的掩膜mask_c;然后通过测试语音掩膜 mask_c和测试语音的频谱获取测试语音降噪处理后的增强语音。最后通过增强语音质量与其他模型压缩方法获得的模型降噪后的语音进行对比,确定本发明所述模型压缩方法获得的 Student模型的降噪性能更好。
上述技术方案的技术效果为:上述模型测试方法有效提高了Student模型测试速度和测试准确度。
本发明实施例提供了一种提高收敛速度和处理性能的模型压缩方法对应的模型压缩系统,如图2所示,所述模型压缩系统包括:
Teacher模型训练模块,用于利用带噪语音mix作为语音训练数据,结合带噪语音mix的实际掩膜mask_r对Teacher模型进行训练,获得训练收敛后的Teacher模型;
Student模型训练模块,用于利用训练收敛后的Teacher模型参数对压缩后的Student模型进行初始化,并结合带噪语音mix的实际掩膜mask_r对Student模型进行指导训练,获得训练收敛后的Student模型;
模型测试模块,用于利用带噪的测试语音对训练收敛后的Student模型进行测试,并获得训练收敛后Student模型的测试数据。
上述技术方案的工作原理为:如图3所示,所述模型压缩系统通过Teacher模型训练模块利用带噪语音mix作为语音训练数据,结合带噪语音mix的实际掩膜mask_r对Teacher模型进行训练,获得训练收敛后的Teacher模型;然后,通过Student模型训练模块对Student模型中的模型参数进行参数量压缩,并利用训练收敛后的Teacher模型参数对压缩后的Student 模型进行初始化,并结合带噪语音mix的实际掩膜mask_r对Student模型进行指导训练,获得训练收敛后的Student模型;最后,模型测试模块利用带噪的测试语音对训练收敛后的 Student模型进行测试,并获得训练收敛后Student模型的测试数据。
上述技术方案的技术效果为:本实施例提出的提高收敛速度和处理性能的模型压缩系统训练获得的具有迁移知识的Student模型的训练效果稳定性高,收敛速度快,在进行了模型参数量压缩后,模型的性能依然存在较大的提高。
本发明的一个实施例,所述Teacher模型训练模块包括:
特征提取模块,用于对所述带噪语音mix进行特征提取获取所述带噪语音mix的语音特征;
实际掩膜获取模块,用于将所述带噪语音mix和带噪语音对应的纯净语音进行计算,获得带噪语音mix的实际掩膜mask_r;
数据输入模块一,用于将所述带噪语音mix的语音特征和所述实际掩膜mask_r分别输入到Teacher模型中;
掩膜第一误差值获取模块,用于在接收到Teacher模型发送的第一次估计掩膜mask后,将第一次估计掩膜mask和实际掩膜mask_r进行比较,计算获取掩膜第一误差值e1,并将所述掩膜第一误差值e1发送至Teacher模型;
Teacher模型,用于通过所述带噪语音mix的特征和实际掩膜mask_r对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第一次估计掩膜mask并发送至掩膜第一误差值获取模块;以及,用于在接收到掩膜第一误差值获取模块发送的掩膜第一误差值e1后,根据掩膜第一误差值e1对所述带噪语音mix的特征和实际掩膜mask_r的数据处理过程进行参数调整,使第一次估计掩膜mask无限趋近于实际掩膜mask_r,直至获得训练收敛后的Teacher 模型;
Teacher模型保存模块,用于保存训练收敛后的Teacher模型。
上述技术方案的工作原理为:如图3所示,利用特征提取模块对所述带噪语音mix进行特征提取,获取所述带噪语音mix的语音特征;通过实际掩膜获取模块将所述带噪语音mix 和带噪语音对应的纯净语音进行计算,获得带噪语音mix的实际掩膜mask_r;然后,利用数据输入模块一将所述带噪语音mix的语音特征和所述实际掩膜mask_r分别输入到Teacher模型中;Teacher模型通过所述带噪语音mix的特征和实际掩膜mask_r对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第一次估计掩膜mask,并发送至掩膜第一误差值获取模块中,掩膜第一误差值获取模块在接收到第一次估计掩膜mask后,将第一次估计掩膜 mask和实际掩膜mask_r进行比较,计算获取掩膜第一误差值e1,并将所述掩膜第一误差值 e1发送至Teacher模型;Teacher模型在接收到掩膜第一误差值获取模块发送的掩膜第一误差值e1后,根据掩膜第一误差值e1对所述带噪语音mix的特征和实际掩膜mask_r的数据处理过程进行参数调整,使第一次估计掩膜mask无限趋近于实际掩膜mask_r,直至获得训练收敛后的Teacher模型;最后通过Teacher模型保存模块保存训练收敛后的Teacher模型。
上述技术方案的技术效果为:通过上述Teacher模型的训练方法能够有效提高训练过程中的模型收敛速度,同时,通过上述训练方法训练出的Teacher模型具有较高的降噪性能和稳定性。
本发明的一个实施例,所述Student模型训练模块包括:
Student模型压缩模块,用于对Student模型进行模型参数量的压缩,获得压缩后的Student 模型;
参数初始化模块,用于将所述Teacher模型的模型参数迁移至压缩后的Student模型中,并利用Teacher模型的模型参数对压缩后的Student模型进行初始化,获得完成初始化的 Student模型;
数据输入模块二、用于将所述带噪语音mix进行特征提取后获得的语音特征输入至完成初始化的Student模型中;
掩膜第二误差值获取模块,用于将所述第二次估计掩膜mask_s与所述带噪语音mix的实际掩膜mask_r进行比较,计算获得掩膜第二误差值e2,并将所述掩膜第二误差值e2发送至 Student模型中;
Student模型,用于通过所述带噪语音mix的语音特征和训练收敛后的Teacher模型参数对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第二次估计掩膜mask_s,并将所述第二次估计掩膜mask_s发送至掩膜第二误差值获取模块中;以及,用于在接收到掩膜第二误差值获取模块发送的掩膜第二误差值e2后,根据掩膜第二误差值e2对所述带噪语音 mix的语音特征和训练收敛后的Teacher模型参数的数据处理过程进行参数调整,使第二次估计掩膜mask_s无限趋近于实际掩膜mask_r,直至获得训练收敛后的Student模型;
Student模型保存模块,用于保存训练收敛后的Student模型。
上述技术方案的工作原理为:如图3所示,首先通过Student模型压缩模块对Student模型进行模型压缩,然后通过参数初始化模块将训练收敛后的Teacher模型参数迁移至Student 模型中,利用所述Teacher模型参数对压缩后的Student模型进行初始化;通过数据输入模块二将所述带噪语音mix进行特征提取后获得的语音特征输入至完成初始化的Student模型中;然后Student模型通过所述带噪语音mix的语音特征和训练收敛后的Teacher模型参数对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第二次估计掩膜mask_s,并将所述第二次估计掩膜mask_s发送至掩膜第二误差值获取模块中;掩膜第二误差值获取模块将所述第二次估计掩膜mask_s与所述带噪语音mix的实际掩膜mask_r进行比较,计算获得掩膜第二误差值e2,并将所述掩膜第二误差值e2发送至Student模型中;Student模型接收到掩膜第二误差值获取模块发送的掩膜第二误差值e2后,根据掩膜第二误差值e2对所述带噪语音mix 的语音特征和训练收敛后的Teacher模型参数的数据处理过程进行参数调整,使第二次估计掩膜mask_s无限趋近于实际掩膜mask_r,直至获得训练收敛后的Student模型;最后,通过 Student模型保存模块保存训练收敛后的Student模型。
上述技术方案的技术效果为:在Student模型进行参数压缩的过程中将Teacher模型的全部或部分模型参数迁移至Student模型中,并对Student模型进行初始化,使Student模型具有了较好的先验知识信息,有效提高了Student模型的掩膜预测估计的性能和效率,提高了 Student模型掩膜估计的准确性,同时,通过上述训练方法结合Teacher模型的全部或部分模型参数对Student模型进行训练,能够极大程度上提高Student模型的收敛速度,提高Student 模型模型训练的效率。
本发明的一个实施例,所述模型测试模块包括:
测试特征提取模块,用于对带噪的测试语音进行特征提取,获取所述测试语音的语音特征,并将所述测试语音的语音特征输入至训练收敛后的Student模型进行掩膜预测;
频谱获取模块,用于对所述测试语音进行短时傅里叶变换获得所述测试语音的频谱;
运算模块,用于将训练收敛后的Student模型预测的测试语音掩膜mask_c与测试语音的频谱进行乘积运算,并将乘积结果进行逆短时傅立叶变换获得测试语音降噪处理后的增强语音。
上述技术方案的工作原理为:如图3所示,选择另一个带噪语音作为测试语音,通过测试特征提取模块对带噪的测试语音进行特征提取,获取所述测试语音的语音特征;将所述测试语音的语音特征输入至训练收敛后的Student模型;所述训练收敛后的Student模型根据测试语音的语音特征对测试语音的掩膜进行预测,获得与所述测试语音的语音特征对应的测试语音掩膜mask_c;通过频谱获取模块对所述测试语音进行短时傅里叶变换(STFT),获得所述测试语音的频谱;然后通过运算模块将测试语音掩膜mask_c与测试语音的频谱进行乘积运算,并将乘积结果进行逆短时傅立叶变换(ISTFT)获得测试语音降噪处理后的增强语音,完成训练收敛后的Student模型的测试;所述增强语音体现的语音质量数据即为所述练收敛后Student模型的测试数据。最后通过增强语音质量与其他模型压缩方法获得的模型降噪后的语音进行对比,确定本发明所述模型压缩方法获得的Student模型的降噪性能更好。
上述技术方案的技术效果为:上述模型测试模块能够有效提高Student模型测试速度和测试准确度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种提高收敛速度和处理性能的模型压缩方法,其特征在于,所述模型压缩方法的过程包括:
步骤1、利用带噪语音mix作为语音训练数据,结合带噪语音mix的实际掩膜mask_r对Teacher模型进行训练,获得训练收敛后的Teacher模型;
步骤2、对Student模型中的模型参数进行参数量压缩,并利用训练收敛后的Teacher模型参数对压缩后的Student模型进行初始化,并结合带噪语音mix的实际掩膜mask_r对Student模型进行指导训练,获得训练收敛后的Student模型;
步骤3、利用带噪的测试语音对训练收敛后的Student模型进行测试,并获得训练收敛后Student模型的测试数据。
2.根据权利要求1所述模型压缩方法,其特征在于,步骤1所述获得训练收敛后的Teacher模型的过程包括:
步骤101、选取带噪语音mix作为Teacher模型训练阶段的语音训练数据,对所述带噪语音mix进行特征提取,获取所述带噪语音mix的语音特征;
步骤102、将所述带噪语音mix和带噪语音对应的纯净语音进行计算,获得带噪语音mix的实际掩膜mask_r;
步骤103、将步骤101获得的带噪语音mix的语音特征和步骤102获得的实际掩膜mask_r分别输入到Teacher模型中,Teacher模型通过所述带噪语音mix的特征和实际掩膜mask_r对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第一次估计掩膜mask;
步骤104、将步骤103获得的第一次估计掩膜mask和步骤102获得的实际掩膜mask_r进行比较,计算获取掩膜第一误差值e 1;
步骤105、将步骤104获得的掩膜误差值e 1输入到Teacher模型中,所述Teacher模型根据掩膜第一误差值e 1对所述带噪语音mix的特征和实际掩膜mask_r的数据处理过程进行参数调整,使第一次估计掩膜mask无限趋近于实际掩膜mask_r;
步骤106、通过掩膜第一误差值e 1和实际掩膜mask_r对Teacher模型进行不断训练使其收敛,待Teacher模型训练收敛后,保存收敛后的Teacher模型以备后用。
3.根据权利要求1所述模型压缩方法,其特征在于,步骤2所述获得训练收敛后的Student模型的过程包括:
步骤201、建立一个Student模型,所述Student模型的架构与Teacher模型相同,但是Student模型中每个隐含层内的节点数量比Teacher模型中每个隐含层的节点数量少;然后将训练收敛后的Teacher模型中的部分参数迁移至Student模型中,利用所述Teacher模型参数对压缩后的Student模型进行初始化;
步骤202、将所述带噪语音mix进行特征提取后获得的语音特征输入至完成初始化的Student模型中;Student模型通过所述带噪语音mix的语音特征和训练收敛后的Teacher模型参数对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第二次估计掩膜mask_s;
步骤203、将步骤202获得的第二次估计掩膜mask_s与所述带噪语音mix的实际掩膜mask_r进行比较,计算获得掩膜第二误差值e 2;
步骤204、将步骤203获得的掩膜第二误差值e 2输入至Student模型中,所述Student模型根据掩膜第二误差值e 2对所述带噪语音mix的语音特征和训练收敛后的Teacher模型参数的数据处理过程进行参数调整,使第二次估计掩膜mask_s无限趋近于实际掩膜mask_r;
步骤205、通过掩膜第二误差值e 2和实际掩膜mask_r对Student模型进行不断训练使其收敛,待Student模型训练收敛后,保存训练收敛后的Student模型。
4.根据权利要求1所述模型压缩方法,其特征在于,步骤3所述对训练收敛后的Student模型进行测试的过程包括:
步骤301、对带噪的测试语音进行特征提取,获取所述测试语音的语音特征;将所述测试语音的语音特征输入至训练收敛后的Student模型;
步骤302、所述训练收敛后的Student模型根据测试语音的语音特征对测试语音的掩膜进行预测,获得与所述测试语音的语音特征对应的测试语音掩膜mask_c;
步骤303、对所述测试语音进行短时傅里叶变换,获得所述测试语音的频谱;
步骤304、将步骤302获得的测试语音掩膜mask_c与步骤303获得的测试语音的频谱进行乘积运算,并将乘积结果进行逆短时傅立叶变换获得测试语音降噪处理后的增强语音,完成训练收敛后的Student模型的测试;所述增强语音体现的语音质量数据即为所述练收敛后Student模型的测试数据。
5.一种如权利要求1-4任一所述方法对应的模型压缩系统,其特征在于,所述模型压缩系统包括:
Teacher模型训练模块,用于利用带噪语音mix作为语音训练数据,结合带噪语音mix的实际掩膜mask_r对Teacher模型进行训练,获得训练收敛后的Teacher模型;
Student模型训练模块,用于利用训练收敛后的Teacher模型参数对压缩后的Student模型进行初始化,并结合带噪语音mix的实际掩膜mask_r对Student模型进行指导训练,获得训练收敛后的Student模型;
模型测试模块,用于利用带噪的测试语音对训练收敛后的Student模型进行测试,并获得训练收敛后Student模型的测试数据。
6.根据权利要求5所述模型压缩系统,其特征在于,所述Teacher模型训练模块包括:
特征提取模块,用于对所述带噪语音mix进行特征提取获取所述带噪语音mix的语音特征;
实际掩膜获取模块,用于将所述带噪语音mix和带噪语音对应的纯净语音进行计算,获得带噪语音mix的实际掩膜mask_r;
数据输入模块一,用于将所述带噪语音mix的语音特征和所述实际掩膜mask_r分别输入到Teacher模型中;
掩膜第一误差值获取模块,用于在接收到Teacher模型发送的第一次估计掩膜mask后,将第一次估计掩膜mask和实际掩膜mask_r进行比较,计算获取掩膜第一误差值e 1,并将所述掩膜第一误差值e 1发送至Teacher模型;
Teacher模型,用于通过所述带噪语音mix的特征和实际掩膜mask_r对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第一次估计掩膜mask并发送至掩膜第一误差值获取模块;以及,用于在接收到掩膜第一误差值获取模块发送的掩膜第一误差值e 1后,根据掩膜第一误差值e 1对所述带噪语音mix的特征和实际掩膜mask_r的数据处理过程进行参数调整,使第一次估计掩膜mask无限趋近于实际掩膜mask_r,直至获得训练收敛后的Teacher模型;
Teacher模型保存模块,用于保存训练收敛后的Teacher模型。
7.根据权利要求5所述模型压缩系统,其特征在于,所述Student模型训练模块包括:
Student模型压缩模块,用于对Student模型进行模型参数量的压缩,获得压缩后的Student模型;
参数初始化模块,用于将所述Teacher模型的模型参数迁移至压缩后的Student模型中,并利用Teacher模型的模型参数对压缩后的Student模型进行初始化,获得完成初始化的Student模型;
数据输入模块二,用于将所述带噪语音mix进行特征提取后获得的语音特征输入至完成初始化的Student模型中;
Student模型通过所述带噪语音mix的语音特征和训练收敛后的Teacher模型参数对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第二次估计掩膜mask_s;
掩膜第二误差值获取模块,用于将所述第二次估计掩膜mask_s与所述带噪语音mix的实际掩膜mask_r进行比较,计算获得掩膜第二误差值e 2,并将所述掩膜第二误差值e 2发送至Student模型中;
Student模型,用于通过所述带噪语音mix的语音特征和训练收敛后的Teacher模型参数对带噪语音mix的掩膜进行估计处理,获得所述带噪语音mix的第二次估计掩膜mask_s,并将所述第二次估计掩膜mask_s发送至掩膜第二误差值获取模块中;以及,用于在接收到掩膜第二误差值获取模块发送的掩膜第二误差值e 2后,根据掩膜第二误差值e 2对所述带噪语音mix的语音特征和训练收敛后的Teacher模型参数的数据处理过程进行参数调整,使第二次估计掩膜mask_s无限趋近于实际掩膜mask_r,直至获得训练收敛后的Student模型;
Student模型保存模块,用于保存训练收敛后的Student模型。
8.根据权利要求5所述模型压缩系统,其特征在于,所述模型测试模块包括:
测试特征提取模块,用于对带噪的测试语音进行特征提取,获取所述测试语音的语音特征,并将所述测试语音的语音特征输入至训练收敛后的Student模型进行掩膜预测;
频谱获取模块,用于对所述测试语音进行短时傅里叶变换获得所述测试语音的频谱;
运算模块,用于将训练收敛后的Student模型预测的测试语音掩膜mask_c与测试语音的频谱进行乘积运算,并将乘积结果进行逆短时傅立叶变换获得测试语音降噪处理后的增强语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010129841.8A CN111312271B (zh) | 2020-02-28 | 2020-02-28 | 一种提高收敛速度和处理性能的模型压缩方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010129841.8A CN111312271B (zh) | 2020-02-28 | 2020-02-28 | 一种提高收敛速度和处理性能的模型压缩方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111312271A CN111312271A (zh) | 2020-06-19 |
CN111312271B true CN111312271B (zh) | 2023-03-21 |
Family
ID=71147830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010129841.8A Active CN111312271B (zh) | 2020-02-28 | 2020-02-28 | 一种提高收敛速度和处理性能的模型压缩方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111312271B (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108334934B (zh) * | 2017-06-07 | 2021-04-13 | 赛灵思公司 | 基于剪枝和蒸馏的卷积神经网络压缩方法 |
CN108389576B (zh) * | 2018-01-10 | 2020-09-01 | 苏州思必驰信息科技有限公司 | 压缩后的语音识别模型的优化方法及系统 |
CN108764462A (zh) * | 2018-05-29 | 2018-11-06 | 成都视观天下科技有限公司 | 一种基于知识蒸馏的卷积神经网络优化方法 |
CN109711544A (zh) * | 2018-12-04 | 2019-05-03 | 北京市商汤科技开发有限公司 | 模型压缩的方法、装置、电子设备及计算机存储介质 |
CN109637546B (zh) * | 2018-12-29 | 2021-02-12 | 苏州思必驰信息科技有限公司 | 知识蒸馏方法和装置 |
EP3748545A1 (en) * | 2019-06-07 | 2020-12-09 | Tata Consultancy Services Limited | Sparsity constraints and knowledge distillation based learning of sparser and compressed neural networks |
CN110796619B (zh) * | 2019-10-28 | 2022-08-30 | 腾讯科技(深圳)有限公司 | 一种图像处理模型训练方法、装置、电子设备及存储介质 |
-
2020
- 2020-02-28 CN CN202010129841.8A patent/CN111312271B/zh active Active
Non-Patent Citations (1)
Title |
---|
邓侃 ; 欧智坚 ; .深层神经网络语音识别自适应方法研究.2015,(07),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111312271A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111429931B (zh) | 一种基于数据增强的降噪模型压缩方法及装置 | |
US20210035594A1 (en) | Methods and devices for rnn-based noise reduction in real-time conferences | |
CN109616139A (zh) | 语音信号噪声功率谱密度估计方法和装置 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN108922513A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN116405109B (zh) | 基于线性直驱的光模块通信自适应调制方法 | |
CN112331224A (zh) | 轻量级时域卷积网络语音增强方法与系统 | |
CN111599373B (zh) | 一种降噪模型的压缩方法 | |
CN109344751B (zh) | 一种车内噪声信号的重构方法 | |
CN113345460B (zh) | 音频信号处理方法、装置、设备及存储介质 | |
CN114242099A (zh) | 基于改进相位谱补偿和全卷积神经网络的语音增强算法 | |
CN113572708A (zh) | 一种dft信道估计改进方法 | |
CN110808057A (zh) | 一种基于约束朴素生成对抗网络的语音增强方法 | |
Jia et al. | Federated domain adaptation for asr with full self-supervision | |
CN115410589A (zh) | 一种基于联合感知损失的注意力生成对抗语音增强方法 | |
Kim et al. | WaveNODE: A continuous normalizing flow for speech synthesis | |
CN111312271B (zh) | 一种提高收敛速度和处理性能的模型压缩方法和系统 | |
CN114267372A (zh) | 语音降噪方法、系统、电子设备和存储介质 | |
Yang et al. | RS-CAE-based AR-Wiener filtering and harmonic recovery for speech enhancement | |
Tu et al. | Mutual Information Enhanced Training for Speaker Embedding. | |
CN114938232B (zh) | 基于lstm的同时同频全双工数字域自干扰抑制方法 | |
US20230186943A1 (en) | Voice activity detection method and apparatus, and storage medium | |
CN115497492A (zh) | 一种基于全卷积神经网络的实时语音增强方法 | |
Huang et al. | Teacher-Student Training Approach Using an Adaptive Gain Mask for LSTM-Based Speech Enhancement in the Airborne Noise Environment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |