CN111429931B - 一种基于数据增强的降噪模型压缩方法及装置 - Google Patents

一种基于数据增强的降噪模型压缩方法及装置 Download PDF

Info

Publication number
CN111429931B
CN111429931B CN202010224879.3A CN202010224879A CN111429931B CN 111429931 B CN111429931 B CN 111429931B CN 202010224879 A CN202010224879 A CN 202010224879A CN 111429931 B CN111429931 B CN 111429931B
Authority
CN
China
Prior art keywords
model
voice
initial
training
noisy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010224879.3A
Other languages
English (en)
Other versions
CN111429931A (zh
Inventor
李庆龙
关海欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010224879.3A priority Critical patent/CN111429931B/zh
Publication of CN111429931A publication Critical patent/CN111429931A/zh
Application granted granted Critical
Publication of CN111429931B publication Critical patent/CN111429931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种基于数据增强的降噪模型压缩方法及装置,其中方法包括:获取预设的初始Teacher模型;获取带噪的训练语音,以及获取所述带噪的训练语音对应的纯净语音;基于所述带噪的训练语音和所述纯净语音,对所述初始Teacher模型进行训练,待所述初始Teacher模型训练收敛后作为最终Teacher模型;获取预设的初始Student模型;获取实际采集的带噪实际语音;基于所述带噪的训练语音、最终Teacher模型和所述带噪实际语音对所述初始Student模型进行训练,待所述初始Student模型训练收敛后作为最终Student模型。本发明在保证降噪性能几乎不变的前提下,尽可能压缩模型的参数量,从而使降噪模型在压缩模型的同时,还能保证在实际场景运用中降噪性能不变。

Description

一种基于数据增强的降噪模型压缩方法及装置
技术领域
本发明涉及语音降噪技术领域,特别涉及一种基于数据增强的降噪模型压缩方法及装置。
背景技术
语音降噪是将混合语音中的噪声和人声分离出来,在尽可能完整保留人声部分的同时尽可能多的去除噪声部分。这可以有效提高语音通信或语音交互的质量,使人或机器在嘈杂的环境下也能听到清晰、干净的语音。传统的降噪方法在非平稳噪声环境下很难取得很好的效果,尤其对于瞬态的噪声更是无能为力,当前基于深度学习技术的降噪方法可以有效的去除快变的噪声,取得更好的语音降噪效果。而目前主流的基于深度学习技术的降噪方法表现良好,但模型参数量比较大,且会有冗余,对计算资源的消耗比较严重。在移动设备上运行时,对功耗的要求就比较苛刻,所以在保证降噪性能几乎不变的前提下,模型压缩变的尤为重要。
发明内容
本发明提供一种模型的参数量少且降噪性能不变的基于数据增强的降噪模型压缩方法。
本发明提供一种基于数据增强的降噪模型压缩方法,该方法具体包括步骤S1-S6:
步骤S1:获取预设的初始Teacher模型;
步骤S2:获取带噪的训练语音,以及获取所述带噪的训练语音对应的纯净语音;
步骤S3:基于所述带噪的训练语音和所述纯净语音,对所述初始Teacher模型进行训练,待所述初始Teacher模型训练收敛后作为最终Teacher模型;
步骤S4:获取预设的初始Student模型;
步骤S5:获取实际采集的带噪实际语音;
步骤S6:基于所述带噪的训练语音、最终Teacher模型和所述实际采集的带噪实际语音对所述初始Student模型进行训练,待所述初始Student模型训练收敛后作为最终Student模型。
优选的,所述基于数据增强的降噪模型压缩方法还包括:
步骤S7:获取带噪测试语音,基于所述带噪测试语音对所述最终Student模型进行测试;当测试不通过时重复执行步骤S1至S6。
优选的,所述步骤S3:基于所述带噪的训练语音和所述纯净语音,对所述初始Teacher模型进行训练,待所述初始Teacher模型训练收敛后作为最终Teacher模型;具体包括:
步骤S301:提取所述带噪的训练语音中的特征值作为第一特征值;
步骤S302:基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值;
步骤S303:将所述第一特征值输入初始Teacher模型中获得第一时频掩蔽值;计算出所述第一时频掩蔽值和所述实际时频掩蔽值之间的第一均方误差;
步骤S304:将所述第一特征值、所述第一时频掩蔽值和所述实际时频掩蔽值作为训练数据,所述第一均方误差作为损失函数,对所述初始Teacher模型进行训练;
步骤S305:待所述初始Teacher模型训练收敛后作为最终Teacher模型。
优选的,步骤S6:基于所述带噪的训练语音、最终Teacher模型和所述带噪实际语音对所述Student模型进行训练,待所述Student模型训练收敛后作为最终Student模型,具体包括:
步骤S601:将所述第一特征值输入所述最终Teacher模型中,预测出第二时频掩蔽值;
步骤S602:提取所述实际采集的带噪实际语音的特征值作为第二特征值;
步骤S603:将所述第二特征值输入所述最终Teacher模型中,预测出第三时频掩蔽值;
步骤S604:将所述第一特征值输入所述初始Teacher模型中,预测出第四时频掩蔽值;计算所述第四时频掩蔽值与所述第二时频掩蔽值之间的第二均方误差;
步骤S605:将所述第二特征值输入所述初始Student模型中,预测出第五时频掩蔽值;计算出所述第五时频掩蔽值和所述第三时频掩蔽值之间的第三均方误差;
步骤S606:将所述第一特征值和第二时频掩蔽值、所述第二特征值和第三时频掩蔽值作为训练数据,将所述第二均方误差和所述第三均方误差作为损失函数,对初始Student模型进行训练,待所述初始Student模型训练收敛后作为最终Student模型。
优选的,为了在压缩模型的同时,还能保证在实际场景运用中降噪性能不变,优选的技术方案是,所述步骤S7:获取带噪测试语音,基于所述带噪测试语音对所述最终Student模型进行测试,当测试不通过时重复执行步骤S1至S6;具体包括:
步骤S701:提取所述带噪测试语音的特征值为第三特征值;
步骤S702:将所述第三特征值输入所述最终Student模型,预测出第六时频掩蔽值;
步骤S703:获取所述带噪测试语音的频谱,并将所述频谱与所述第六时频掩蔽值相乘后经过逆傅里叶变换即可得到增强后的第一增强语音;
步骤S704:计算所述第一增强语音与预设的第二增强语音之间的相似度,作为测试结果输出;
步骤S705:当所述测试结果小于预设值时,重复执行步骤S1至S6。
本实施例中,将带噪测试语音进行特征提取,并将其输入值保存好的小模型中,得到预测的时频掩蔽值,并将预测的时频掩蔽值与带噪测试语音的频谱相乘后进行逆傅里叶变换得到增强后的语音,从而保证模型压缩后在实际场景中降噪性能的不变。
优选的,为了能够利用带噪实际语音和其对应的纯净语音的基础上计算出实际的视频掩蔽值,优选的技术方案是,所述步骤S302:基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值,具体包括:
获取所述纯净语音的频谱,基于所述纯净语音的频谱计算出第一能量序列;所述第一能量序列包括所述纯净语音的频谱各个采样点的能量值;
获取所述带噪的训练语音的频谱,基于所述带噪的训练语音的频谱计算出第二能量序列;所述第二能量序列包括所述带噪的训练语音的频谱各个采样点的能量值;
根据所述第二能量序列与所述第一能量序列确定出所述实际时频掩蔽值。
优选的,为了实现压缩后的模型的降噪性能测试,优选的技术方案是,所述步骤S703:计算所述语音与预设增强结果之间的相似度,作为测试结果输出,具体包括:
获取所述第一增强语音的频谱,基于所述第一增强语音的频谱计算出第三能量序列;所述第三能量序列包括所述第一增强语音的频谱各个采样点的能量值;
获取所述第二增强语音的频谱,基于所述第二增强语音的频谱计算出第四能量序列;所述第四能量序列包括所述第二增强语音的频谱各个采样点的能量值;
计算第三能量序列与所述第四能量序列中各个能量值之间的差值是否在预设阈值内,计算在所述预设阈值内的采样点的占比;将所述占比作为所述第一增强语音与预设的第二增强语音之间的相似度。
本发明还提供一种基于数据增强的降噪模型压缩装置包括:
初始Teacher模型获取模块,用于获取预设的初始Teacher模型;
第一语音获取模块,用于获取带噪的训练语音,以及获取所述带噪的训练语音对应的纯净语音;
Teacher模型训练模块,用于基于所述带噪的训练语音和所述纯净语音,对所述初始Teacher模型进行训练,待所述初始Teacher模型训练收敛后作为最终Teacher模型;
初始Studen模型获取模块,用于获取预设的初始Student模型;
第二语音获取模块,用于获取实际采集的带噪实际语音;
最终Student模型获取模块,用于基于所述带噪的训练语音、最终Teacher模型和所述实际采集的带噪实际语音对所述初始Student模型进行训练,待所述初始Student模型训练收敛后作为最终Student模型。
优选的,基于数据增强的降噪模型压缩装置还包括:
测试模块,用于获取带噪测试语音,基于所述带噪测试语音对所述最终Student模型进行测试;当测试不通过时重新获取所述初始Teacher模型并训练获得所述最终Teacher模型,重新获取初始Student模型并训练获得所述最终Student模型。
优选的,所述Teacher模型训练模块执行包括如下操作:
提取所述带噪的训练语音中的特征值作为第一特征值;
基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值;
将所述第一特征值输入初始Teacher模型中获得第一时频掩蔽值;计算出所述第一时频掩蔽值和所述实际时频掩蔽值之间的第一均方误差;
将所述第一特征值、所述第一时频掩蔽值和所述实际时频掩蔽值作为训练数据,所述第一均方误差作为损失函数,对所述初始Teacher模型进行训练;
待所述初始Teacher模型训练收敛后作为最终Teacher模型。
优选的,所述最终Student模型获取模块执行包括如下操作:
步骤S601:将所述第一特征值输入所述最终Teacher模型中,预测出第二时频掩蔽值;
步骤S602:提取所述实际采集的带噪实际语音的特征值作为第二特征值;
步骤S603:将所述第二特征值输入所述最终Teacher模型中,预测出第三时频掩蔽值;
步骤S604:将所述第一特征值输入所述初始Teacher模型中,预测出第四时频掩蔽值;计算所述第四时频掩蔽值与所述第二时频掩蔽值之间的第二均方误差;
步骤S605:将所述第二特征值输入所述初始Student模型中,预测出第五时频掩蔽值;计算出所述第五时频掩蔽值和所述第三时频掩蔽值之间的第三均方误差;
步骤S606:将所述第一特征值和第二时频掩蔽值、所述第二特征值和第三时频掩蔽值作为训练数据,将所述第二均方误差和所述第三均方误差作为损失函数,对初始Student模型进行训练,待所述初始Student模型训练收敛后作为最终Student模型。
优选的,测试模块执行包括如下操作:
步骤S701:提取所述带噪测试语音的特征值为第三特征值;
步骤S702:将所述第三特征值输入所述最终Student模型,预测出第六时频掩蔽值;
步骤S703:获取所述带噪测试语音的频谱,并将所述频谱与所述第六时频掩蔽值相乘后经过逆傅里叶变换即可得到增强后的第一增强语音;
步骤S704:计算所述第一增强语音与预设的第二增强语音之间的相似度,作为测试结果输出;
步骤S705:当所述测试结果小于预设值时,重新获取所述初始Teacher模型并训练获得所述最终Teacher模型,重新获取所述初始Student模型并训练获得所述最终Student模型。
优选的,所述Teacher模型训练模块执行所述步骤S302:基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值,具体包括:
获取所述纯净语音的频谱,基于所述纯净语音的频谱计算出第一能量序列;所述第一能量序列包括所述纯净语音的频谱各个采样点的能量值;
获取所述带噪的训练语音的频谱,基于所述带噪的训练语音的频谱计算出第二能量序列;所述第二能量序列包括所述带噪的训练语音的频谱各个采样点的能量值;
根据所述第二能量序列与所述第一能量序列确定出所述实际时频掩蔽值。
优选的,所述测试模块执行所述步骤S703:计算所述语音与预设增强结果之间的相似度,作为测试结果输出,具体包括:
获取所述第一增强语音的频谱,基于所述第一增强语音的频谱计算出第三能量序列;所述第三能量序列包括所述第一增强语音的频谱各个采样点的能量值;
获取所述第二增强语音的频谱,基于所述第二增强语音的频谱计算出第四能量序列;所述第四能量序列包括所述第二增强语音的频谱各个采样点的能量值;
计算第三能量序列与所述第四能量序列中各个能量值之间的差值是否在预设阈值内,计算在所述预设阈值内的采样点的占比;将所述占比作为所述第一增强语音与预设的第二增强语音之间的相似度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于数据增强的降噪模型压缩方法的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供一种基于数据增强的降噪模型压缩方法,如图1所示,该方法流程如下,具体包括步骤S1-S6:
步骤S1:获取预设的初始Teacher模型;
步骤S2:获取带噪的训练语音,以及获取所述带噪的训练语音对应的纯净语音;
步骤S3:基于所述带噪的训练语音和所述纯净语音,对所述初始Teacher模型进行训练,待所述初始Teacher模型训练收敛后作为最终Teacher模型;
步骤S4:获取预设的初始Student模型;
步骤S5:获取实际采集的带噪实际语音;
步骤S6:基于所述带噪的训练语音、最终Teacher模型和所述实际采集的带噪实际语音对所述初始Student模型进行训练,待所述初始Student模型训练收敛后作为最终Student模型。
本实施例,着重于一种基于数据增强的降噪模型压缩方法,获取预设的初始Teacher模型【手动配置参数的大的降噪模型】,首先压缩前需要保证Teacher模型的降噪性能,采用训练数据(即:带噪的训练语音)和对应于训练数据的纯净语音(没有噪声的语音)输入到语音降噪模型中进行训练,待语音降噪模型收敛后得到最终Teacher模型,获取预设的初始Student模型【手动配置参数的小的降噪模型】,Student模型的参数量相对较少;因为实际应用场景中,不管是初始Teacher模型还是最终Teacher模型模型其参数较多,模型较大,应用不方便;通常采用Student模型,减少模型的参数量,从而更易于应用;使装载压缩后的模型的终端的配置可以降低,进而减少终端的成本。最后基于带噪的训练语音、最终Teacher模型和所述实际采集的带噪实际语音对所述初始Student模型进行训练,待所述初始Student模型训练收敛后作为最终Student模型,采用最终Teacher模型的预测值对Student模型的训练进行指导,在最终Teacher模型训练集的基础上增加了原本无标签的实际数据(通过最终Teacher模型得到预测值),从而使得最终Student模型在实际应用场景中的效果更好。同时经最终Teacher模型的预测空间映射到最终Student模型上,让训练任务更简单,更容易收敛。
在一个实施例中,为了对最终Student模型进行测试,优选的技术方案是,所述基于数据增强的降噪模型压缩方法还包括:
步骤S7:获取带噪测试语音,基于所述带噪测试语音对所述最终Student模型进行测试;当测试不通过时重复执行步骤S1至S6。
采用带噪测试语音对最终Student模型进行测试,当测试不通过时,重复步骤S1至步骤S6,直至测试通过。通过测试保证压缩后的模型的降噪性能。
在一个实施例中,为了能够保证压缩前的模型的降噪性能,优选的技术方案是,所述步骤S3:基于所述带噪的训练语音和所述纯净语音,对所述初始Teacher模型进行训练,待所述初始Teacher模型训练收敛后作为最终Teacher模型;具体包括:
步骤S301:提取所述带噪的训练语音中的特征值作为第一特征值;
步骤S302:基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值;
步骤S303:将所述第一特征值输入初始Teacher模型中获得第一时频掩蔽值;计算出所述第一时频掩蔽值和所述实际时频掩蔽值之间的第一均方误差;
步骤S304:将所述第一特征值、所述第一时频掩蔽值和所述实际时频掩蔽值作为训练数据,所述第一均方误差作为损失函数,对所述初始Teacher模型进行训练;
步骤S305:待所述初始Teacher模型训练收敛后作为最终Teacher模型。
本申请的前置条件是在大量模拟数据基础上得到了初始Teacher模型。首先压缩前要保证初始Teacher模型的降噪性能,需要对初始Teacher模型进行训练;采用带噪的训练语音和对应的纯净语音对初始Teacher模型进行训练。
其中,第一特征值以及下面的第二特征值和第三特征值的提取公式如下:
feature=log(|STFT(F)|);
公式中,feature表示特征值,STFT表示短时傅里叶变换,||为语音信号的幅度;F表示语音信号的频谱。
其中,实际时频掩蔽值的计算公式如下:
mask_r=|clean|/|mix|;
公式中,mask_r表示实际时频掩蔽值;|clean|表示纯净语音的幅度谱;|mix|表示带噪的训练语音的幅度谱。
在一个实施例中,为了保证压缩后的模型的降噪性能,优选的技术方案是,步骤S6:基于所述带噪的训练语音、最终Teacher模型和所述带噪实际语音对所述Student模型进行训练,待所述Student模型训练收敛后作为最终Student模型,具体包括:
步骤S601:将所述第一特征值输入所述最终Teacher模型中,预测出第二时频掩蔽值;
步骤S602:提取所述实际采集的带噪实际语音的特征值作为第二特征值;
步骤S603:将所述第二特征值输入所述最终Teacher模型中,预测出第三时频掩蔽值;
步骤S604:将所述第一特征值输入所述初始Teacher模型中,预测出第四时频掩蔽值;计算所述第四时频掩蔽值与所述第二时频掩蔽值之间的第二均方误差;
步骤S605:将所述第二特征值输入所述初始Student模型中,预测出第五时频掩蔽值;计算出所述第五时频掩蔽值和所述第三时频掩蔽值之间的第三均方误差;
步骤S606:将所述第一特征值和第二时频掩蔽值、所述第二特征值和第三时频掩蔽值作为训练数据,将所述第二均方误差和所述第三均方误差作为损失函数,对初始Student模型进行训练,待所述初始Student模型训练收敛后作为最终Student模型。
本实施例中,通过最终Teacher模型对压缩后的初始Student模型进行指导训练,保证Student模型具有Teacher模型的降噪性能的同时,降低参数量,使其应用范围更广。
在一个实施例中,为了对压缩后的模型进行测试,优选的技术方案是,所述步骤S7:获取带噪测试语音,基于所述带噪测试语音对所述最终Student模型进行测试,;当测试不通过时重复执行步骤S1至S6,具体包括:
步骤S701:提取所述带噪测试语音的特征值为第三特征值;
步骤S702:将所述第三特征值输入所述最终Student模型,预测出第六时频掩蔽值;
步骤S703:获取所述带噪测试语音的频谱,并将所述频谱与所述第六时频掩蔽值相乘后经过逆傅里叶变换即可得到增强后的第一增强语音;
步骤S704:计算所述第一增强语音与预设的第二增强语音之间的相似度,作为测试结果输出;
步骤S705:当所述测试结果小于预设值时,重复执行步骤S1至S6。
本实施例中,应用带噪测试语音对最终Student模型进行测试,当测试不通过时,重复步骤S1至步骤S6,直至测试通过。通过测试保证压缩后的模型的降噪性能。
在一个实施例中,为了能够利用带噪实际语音和其对应的纯净语音的基础上计算出实际的视频掩蔽值,优选的技术方案是,所述步骤S302:基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值,具体包括:
获取所述纯净语音的频谱,基于所述纯净语音的频谱计算出第一能量序列;所述第一能量序列包括所述纯净语音的频谱各个采样点的能量值;
获取所述带噪的训练语音的频谱,基于所述带噪的训练语音的频谱计算出第二能量序列;所述第二能量序列包括所述带噪的训练语音的频谱各个采样点的能量值;
根据所述第二能量序列与所述第一能量序列确定出所述实际时频掩蔽值。
在一个实施例中,为了能够在压缩模型后,保证其模型的降噪性能,优选的技术方案是,获取所述第一增强语音的频谱,基于所述第一增强语音的频谱计算出第三能量序列;所述第三能量序列包括所述第一增强语音的频谱各个采样点的能量值;
获取所述第二增强语音的频谱,基于所述第二增强语音的频谱计算出第四能量序列;所述第四能量序列包括所述第二增强语音的频谱各个采样点的能量值;
计算第三能量序列与所述第四能量序列中各个能量值之间的差值是否在预设阈值内,计算在所述预设阈值内的采样点的占比;将所述占比作为所述第一增强语音与预设的第二增强语音之间的相似度。
本发明还提供一种基于数据增强的降噪模型压缩装置包括:
初始Teacher模型获取模块,用于获取基于大量模拟数据训练出来的初始Teacher模型;
第一语音获取模块,用于获取带噪的训练语音,以及获取所述带噪的训练语音对应的纯净语音;
Teacher模型训练模块,用于基于所述带噪的训练语音和所述纯净语音,对所述初始Teacher模型进行训练,待所述初始Teacher模型训练收敛后作为Teacher模型;
初始Studen模型获取模块,用于获取预设的初始Student模型;
第二语音获取模块,还用于获取实际采集的带噪实际语音;
最终Student模型获取模块,用于基于所述带噪的训练语音、纯净语音、Teacher模型和所述实际采集的带噪实际语音对所述Student模型进行训练,待所述Student模型训练收敛后作为最终Student模型。
本实施例,着重于一种基于数据增强的降噪模型压缩方法,第一步通过初始Teacher模型获取模块获取初始Teacher模型(手动配置参数的大的降噪模型),首先压缩前需要保证Teacher模型的降噪性能,通过Teacher模型训练模块采用训练数据(即:带噪的训练语音)和对应于训练数据的纯净语音(没有噪声的语音)输入到语音降噪模型中进行训练,待语音降噪模型收敛后得到最终Teacher模型。其次,通过初始Studen模型获取模块获取预设的初始Student模型(手动配置参数的小的降噪模型),Student模型的参数量相对较少;因为实际应用场景中,不管是初始Teacher模型还是最终Teacher模型模型其参数较多,模型较大,应用不方便;通常采用Student模型,减少模型的参数量,从而更易于应用;使装载压缩后的模型的终端的配置可以降低,进而减少终端的成本。最后通过最终Student模型获取模块基于带噪的训练语音、最终Teacher模型和所述实际采集的带噪实际语音对所述初始Student模型进行训练,待所述初始Student模型训练收敛后作为最终Student模型,采用最终Teacher模型的预测值对Student模型的训练进行指导,在最终Teacher模型训练集的基础上增加了原本无标签的实际数据(通过最终Teacher模型得到预测值),从而使得最终Student模型在实际应用场景中的效果更好。同时经最终Teacher模型的预测空间映射到最终Student模型上,让训练任务更简单,更容易收敛。
在一个实施例中,为了对最终Student模型进行测试,基于数据增强的降噪模型压缩装置还包括:
测试模块,用于获取带噪测试语音,基于所述带噪测试语音对所述最终Student模型进行测试;当测试不通过时重新生成所述最终Student模型。
采用带噪测试语音对最终Student模型进行测试,当测试不通过时重新获取所述初始Teacher模型并训练获得所述最终Teacher模型,重新获取所述初始Student模型并训练获得所述最终Student模型,直至测试通过。通过测试保证压缩后的模型的降噪性能。
在一个实施例中,为了能够保证压缩前的模型的降噪性能,所述Teacher模型训练模块执行包括如下操作:
提取所述带噪的训练语音中的特征值作为第一特征值;
基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值;
将所述第一特征值输入初始Teacher模型中获得第一时频掩蔽值;计算出所述第一时频掩蔽值和所述实际时频掩蔽值之间的第一均方误差;
将所述第一特征值、所述第一时频掩蔽值和所述实际时频掩蔽值作为训练数据,所述第一均方误差作为损失函数,对所述初始Teacher模型进行训练;
待所述初始Teacher模型训练收敛后作为最终Teacher模型。
本申请的前置条件是在大量模拟数据基础上得到了初始Teacher模型。首先压缩前要保证初始Teacher模型的降噪性能,需要对初始Teacher模型进行训练;采用带噪的训练语音和对应的纯净语音对初始Teacher模型进行训练。
在一个实施例中,为了保证压缩后的模型的降噪性能,所述最终Student模型获取模块执行包括如下操作:
步骤S601:将所述第一特征值输入所述最终Teacher模型中,预测出第二时频掩蔽值;
步骤S602:提取所述实际采集的带噪实际语音的特征值作为第二特征值;
步骤S603:将所述第二特征值输入所述最终Teacher模型中,预测出第三时频掩蔽值;
步骤S604:将所述第一特征值输入所述初始Teacher模型中,预测出第四时频掩蔽值;计算所述第四时频掩蔽值与所述第二时频掩蔽值之间的第二均方误差;
步骤S605:将所述第二特征值输入所述初始Student模型中,预测出第五时频掩蔽值;计算出所述第五时频掩蔽值和所述第三时频掩蔽值之间的第三均方误差;
步骤S606:将所述第一特征值和第二时频掩蔽值、所述第二特征值和第三时频掩蔽值作为训练数据,将所述第二均方误差和所述第三均方误差作为损失函数,对初始Student模型进行训练,待所述初始Student模型训练收敛后作为最终Student模型。
本实施例中,通过最终Teacher模型对压缩后的初始Student模型进行指导训练,保证Student模型具有Teacher模型的降噪性能的同时,降低参数量,使其应用范围更广。
在一个实施例中,为了对压缩后的模型进行测试,测试模块执行包括如下操作:
步骤S701:提取所述带噪测试语音的特征值为第三特征值;
步骤S702:将所述第三特征值输入所述最终Student模型,预测出第六时频掩蔽值;
步骤S703:获取所述带噪测试语音的频谱,并将所述频谱与所述第六时频掩蔽值相乘后经过逆傅里叶变换即可得到增强后的第一增强语音;
步骤S704:计算所述第一增强语音与预设的第二增强语音之间的相似度,作为测试结果输出;
步骤S705:当所述测试结果小于预设值时,重新获取所述初始Teacher模型并训练获得所述最终Teacher模型,重新获取所述初始Student模型并训练获得所述最终Student模型。
本实施例中,应用带噪测试语音对最终Student模型进行测试,当测试不通过时,重新生成最终Student模型,直至测试通过。通过测试保证压缩后的模型的降噪性能。
在一个实施例中,所述Teacher模型训练模块执行所述步骤S302:基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值,具体包括:
获取所述纯净语音的频谱,基于所述纯净语音的频谱计算出第一能量序列;所述第一能量序列包括所述纯净语音的频谱各个采样点的能量值;
获取所述带噪的训练语音的频谱,基于所述带噪的训练语音的频谱计算出第二能量序列;所述第二能量序列包括所述带噪的训练语音的频谱各个采样点的能量值;
根据所述第二能量序列与所述第一能量序列确定出所述实际时频掩蔽值。
在一个实施例中,所述测试模块执行所述步骤S603:计算所述语音与预设增强结果之间的相似度,作为测试结果输出,具体包括:
获取所述第一增强语音的频谱,基于所述第一增强语音的频谱计算出第三能量序列;所述第三能量序列包括所述第一增强语音的频谱各个采样点的能量值;
获取所述第二增强语音的频谱,基于所述第二增强语音的频谱计算出第四能量序列;所述第四能量序列包括所述第二增强语音的频谱各个采样点的能量值;
计算第三能量序列与所述第四能量序列中各个能量值之间的差值是否在预设阈值内,计算在所述预设阈值内的采样点的占比;将所述占比作为所述第一增强语音与预设的第二增强语音之间的相似度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种基于数据增强的降噪模型压缩方法,其特征在于,包括:
步骤S1:获取预设的初始Teacher模型;
步骤S2:获取带噪的训练语音,以及获取所述带噪的训练语音对应的纯净语音;
步骤S3:基于所述带噪的训练语音和所述纯净语音,对所述初始Teacher模型进行训练,待所述初始Teacher模型训练收敛后作为最终Teacher模型;
步骤S4:获取预设的初始Student模型;
步骤S5:获取实际采集的带噪实际语音;
步骤S6:基于所述带噪的训练语音、最终Teacher模型和所述带噪实际语音对所述初始Student模型进行训练,待所述初始Student模型训练收敛后作为最终Student模型;
所述步骤S3:基于所述带噪的训练语音和所述纯净语音,对所述初始Teacher模型进行训练,待所述初始Teacher模型训练收敛后作为最终Teacher模型;具体包括:
步骤S301:提取所述带噪的训练语音中的特征值作为第一特征值;
步骤S302:基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值;
步骤S303:将所述第一特征值输入初始Teacher模型中获得第一时频掩蔽值;计算出所述第一时频掩蔽值和所述实际时频掩蔽值之间的第一均方误差;
步骤S304:将所述第一特征值、所述第一时频掩蔽值和所述实际时频掩蔽值作为训练数据,所述第一均方误差作为损失函数,对所述初始Teacher模型进行训练;
步骤S305:待所述初始Teacher模型训练收敛后作为最终Teacher模型;
步骤S6:基于所述带噪的训练语音、最终Teacher模型和所述带噪实际语音对所述初始Student模型进行训练,待所述初始Student模型训练收敛后作为最终Student模型,具体包括:
步骤S601:将所述第一特征值输入所述最终Teacher模型中,预测出第二时频掩蔽值;
步骤S602:提取所述实际采集的带噪实际语音的特征值作为第二特征值;
步骤S603:将所述第二特征值输入所述最终Teacher模型中,预测出第三时频掩蔽值;
步骤S604:将所述第一特征值输入所述初始Teacher模型中,预测出第四时频掩蔽值;计算所述第四时频掩蔽值与所述第二时频掩蔽值之间的第二均方误差;
步骤S605:将所述第二特征值输入所述初始Student模型中,预测出第五时频掩蔽值;计算出所述第五时频掩蔽值和所述第三时频掩蔽值之间的第三均方误差;
步骤S606:将所述第一特征值和第二时频掩蔽值、所述第二特征值和第三时频掩蔽值作为训练数据,将所述第二均方误差和所述第三均方误差作为损失函数,对初始Student模型进行训练,待所述初始Student模型训练收敛后作为最终Student模型。
2.如权利要求1所述的基于数据增强的降噪模型压缩方法,其特征在于,还包括:
步骤S7:获取带噪测试语音,基于所述带噪测试语音对所述最终Student模型进行测试;当测试不通过时重复执行步骤S1至S6。
3.如权利要1或2所述的基于数据增强的降噪模型压缩方法,其特征在于,所述步骤S7:获取带噪测试语音,基于所述带噪测试语音对所述最终Student模型进行测试,当测试不通过时重复执行步骤S1至S6,具体包括:
步骤S701:提取所述带噪测试语音的特征值为第三特征值;
步骤S702:将所述第三特征值输入所述最终Student模型,预测出第六时频掩蔽值;
步骤S703:获取所述带噪测试语音的频谱,并将所述频谱与所述第六时频掩蔽值相乘后经过逆傅里叶变换即可得到增强后的第一增强语音;
步骤S704:计算所述第一增强语音与预设的第二增强语音之间的相似度,作为测试结果输出
步骤S705:当所述测试结果小于预设值时,重复执行步骤S1至S6。
4.如权利要求1所述的基于数据增强的降噪模型压缩方法,其特征在于,
所述步骤S302:基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值,具体包括:
获取所述纯净语音的频谱,基于所述纯净语音的频谱计算出第一能量序列;所述第一能量序列包括所述纯净语音的频谱各个采样点的能量值;
获取所述带噪的训练语音的频谱,基于所述带噪的训练语音的频谱计算出第二能量序列;所述第二能量序列包括所述带噪的训练语音的频谱各个采样点的能量值;
根据所述第二能量序列与所述第一能量序列确定出所述实际时频掩蔽值。
5.如权利要求3所述的基于数据增强的降噪模型压缩方法,其特征在于,
所述步骤S703:计算所述语音与预设增强结果之间的相似度,作为测试结果输出,具体包括:
获取所述第一增强语音的频谱,基于所述第一增强语音的频谱计算出第三能量序列;所述第三能量序列包括所述第一增强语音的频谱各个采样点的能量值;
获取所述第二增强语音的频谱,基于所述第二增强语音的频谱计算出第四能量序列;所述第四能量序列包括所述第二增强语音的频谱各个采样点的能量值;
计算第三能量序列与所述第四能量序列中各个能量值之间的差值是否在预设阈值内,计算在所述预设阈值内的采样点的占比;将所述占比作为所述第一增强语音与预设的第二增强语音之间的相似度。
6.一种基于数据增强的降噪模型压缩装置,其特征在于,包括:
初始Teacher模型获取模块,用于获取预设的初始Teacher模型;
第一语音获取模块,用于获取带噪的训练语音,以及获取所述带噪的训练语音对应的纯净语音;
Teacher模型训练模块,用于基于所述带噪的训练语音和所述纯净语音,对所述初始Teacher模型进行训练,待所述初始Teacher模型训练收敛后作为最终Teacher模型;
初始Student模型获取模块,用于获取预设的初始Student模型;
第二语音获取模块,用于获取实际采集的带噪实际语音;
最终Student模型获取模块,用于基于所述带噪的训练语音、最终Teacher模型和所述实际采集的带噪实际语音对所述初始Student模型进行训练,待所述初始Student模型训练收敛后作为最终Student模型;
所述Teacher模型训练模块中,得到最终Teacher模型的方法,包括:
提取所述带噪的训练语音中的特征值作为第一特征值;
基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值;
将所述第一特征值输入初始Teacher模型中获得第一时频掩蔽值;计算出所述第一时频掩蔽值和所述实际时频掩蔽值之间的第一均方误差;
将所述第一特征值、所述第一时频掩蔽值和所述实际时频掩蔽值作为训练数据,所述第一均方误差作为损失函数,对所述初始Teacher模型进行训练;
待所述初始Teacher模型训练收敛后作为最终Teacher模型;
所述最终Student模型获取模块中,获取最终Student模型的方法,包括:
将所述第一特征值输入所述最终Teacher模型中,预测出第二时频掩蔽值;
提取所述实际采集的带噪实际语音的特征值作为第二特征值;
将所述第二特征值输入所述最终Teacher模型中,预测出第三时频掩蔽值;
将所述第一特征值输入所述初始Teacher模型中,预测出第四时频掩蔽值;计算所述第四时频掩蔽值与所述第二时频掩蔽值之间的第二均方误差;
将所述第二特征值输入所述初始Student模型中,预测出第五时频掩蔽值;计算出所述第五时频掩蔽值和所述第三时频掩蔽值之间的第三均方误差;
将所述第一特征值和第二时频掩蔽值、所述第二特征值和第三时频掩蔽值作为训练数据,将所述第二均方误差和所述第三均方误差作为损失函数,对初始Student模型进行训练,待所述初始Student模型训练收敛后作为最终Student模型。
7.如权利要求6所述的基于数据增强的降噪模型压缩装置,其特征在于,还包括:
测试模块,用于获取带噪测试语音,基于所述带噪测试语音对所述最终Student模型进行测试;当测试不通过时重新获取所述初始Teacher模型并训练获得所述最终Teacher模型,重新获取所述初始Student模型并训练获得所述最终Student模型。
8.如权利要求6所述的基于数据增强的降噪模型压缩装置,其特征在于,所述Teacher模型训练模块执行包括如下操作:
提取所述带噪的训练语音中的特征值作为第一特征值;
基于所述纯净语音和所述带噪的训练语音计算出实际时频掩蔽值;
将所述第一特征值输入初始Teacher模型中获得第一时频掩蔽值;计算出所述第一时频掩蔽值和所述实际时频掩蔽值之间的第一均方误差;
将所述第一特征值、所述第一时频掩蔽值和所述实际时频掩蔽值作为训练数据,所述第一均方误差作为损失函数,对所述初始Teacher模型进行训练;
待所述初始Teacher模型训练收敛后作为最终Teacher模型。
CN202010224879.3A 2020-03-26 2020-03-26 一种基于数据增强的降噪模型压缩方法及装置 Active CN111429931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010224879.3A CN111429931B (zh) 2020-03-26 2020-03-26 一种基于数据增强的降噪模型压缩方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010224879.3A CN111429931B (zh) 2020-03-26 2020-03-26 一种基于数据增强的降噪模型压缩方法及装置

Publications (2)

Publication Number Publication Date
CN111429931A CN111429931A (zh) 2020-07-17
CN111429931B true CN111429931B (zh) 2023-04-18

Family

ID=71549696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010224879.3A Active CN111429931B (zh) 2020-03-26 2020-03-26 一种基于数据增强的降噪模型压缩方法及装置

Country Status (1)

Country Link
CN (1) CN111429931B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112447183A (zh) * 2020-11-16 2021-03-05 北京达佳互联信息技术有限公司 音频处理模型的训练、音频去噪方法、装置及电子设备
CN112669870B (zh) * 2020-12-24 2024-05-03 北京声智科技有限公司 语音增强模型的训练方法、装置和电子设备
CN113314107B (zh) * 2021-05-28 2022-10-21 思必驰科技股份有限公司 训练语音增广模型的方法和装置
CN114283828A (zh) * 2021-09-02 2022-04-05 腾讯科技(北京)有限公司 语音降噪模型的训练方法、语音评分方法、装置及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316648A (zh) * 2017-07-24 2017-11-03 厦门理工学院 一种基于有色噪声的语音增强方法
CN110659665A (zh) * 2019-08-02 2020-01-07 深圳力维智联技术有限公司 一种异维特征的模型构建方法及图像识别方法、装置
CN110808063A (zh) * 2019-11-29 2020-02-18 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于处理语音的装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101089952B (zh) * 2006-06-15 2010-10-06 株式会社东芝 噪声抑制、提取特征、训练模型及语音识别的方法和装置
US20160111107A1 (en) * 2014-10-21 2016-04-21 Mitsubishi Electric Research Laboratories, Inc. Method for Enhancing Noisy Speech using Features from an Automatic Speech Recognition System

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107316648A (zh) * 2017-07-24 2017-11-03 厦门理工学院 一种基于有色噪声的语音增强方法
CN110659665A (zh) * 2019-08-02 2020-01-07 深圳力维智联技术有限公司 一种异维特征的模型构建方法及图像识别方法、装置
CN110808063A (zh) * 2019-11-29 2020-02-18 北京搜狗科技发展有限公司 一种语音处理方法、装置和用于处理语音的装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汤玲 ; 戴斌 ; .抗噪声语音识别及语音增强算法的应用.计算机仿真.2006,(09),全文. *

Also Published As

Publication number Publication date
CN111429931A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111429931B (zh) 一种基于数据增强的降噪模型压缩方法及装置
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
US8972255B2 (en) Method and device for classifying background noise contained in an audio signal
US6691090B1 (en) Speech recognition system including dimensionality reduction of baseband frequency signals
CN108833722A (zh) 语音识别方法、装置、计算机设备及存储介质
CN112820315A (zh) 音频信号处理方法、装置、计算机设备及存储介质
CN111710344A (zh) 一种信号处理方法、装置、设备及计算机可读存储介质
CN101176149A (zh) 用于音调噪声鲁棒的信号处理系统
CN107895571A (zh) 无损音频文件识别方法及装置
CN111292768A (zh) 丢包隐藏的方法、装置、存储介质和计算机设备
CN113763977A (zh) 消除回声信号的方法、装置、计算设备和存储介质
Li et al. Speech transmission index from running speech: A neural network approach
CN101673550A (zh) 谱增益计算方法、装置以及噪声抑制系统
CN112614504A (zh) 单声道语音降噪方法、系统、设备及可读存储介质
CN111326170A (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
CN114530160A (zh) 模型训练方法、回声消除方法、系统、设备及存储介质
CN111599373B (zh) 一种降噪模型的压缩方法
CN113571080A (zh) 语音增强方法、装置、设备及存储介质
CN113642417B (zh) 一种基于改进小波算法的绝缘架空导线局部放电信号的去噪方法
CN114827363A (zh) 用于通话过程中消除回声的方法、设备和可读存储介质
CN114302301A (zh) 频响校正方法及相关产品
JP2024502287A (ja) 音声強調方法、音声強調装置、電子機器、及びコンピュータプログラム
Unoki et al. MTF-based power envelope restoration in noisy reverberant environments
Jose Amrconvnet: Amr-coded speech enhancement using convolutional neural networks
CN114333892A (zh) 一种语音处理方法、装置、电子设备和可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant