CN113744725A - 一种语音端点检测模型的训练方法及语音降噪方法 - Google Patents
一种语音端点检测模型的训练方法及语音降噪方法 Download PDFInfo
- Publication number
- CN113744725A CN113744725A CN202110952262.8A CN202110952262A CN113744725A CN 113744725 A CN113744725 A CN 113744725A CN 202110952262 A CN202110952262 A CN 202110952262A CN 113744725 A CN113744725 A CN 113744725A
- Authority
- CN
- China
- Prior art keywords
- layer
- voice
- noise
- signal
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000001514 detection method Methods 0.000 title claims abstract description 47
- 230000009467 reduction Effects 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 title claims abstract description 18
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000003062 neural network model Methods 0.000 claims abstract description 6
- 230000004913 activation Effects 0.000 claims description 63
- 238000005070 sampling Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 11
- 230000003595 spectral effect Effects 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 4
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 claims description 4
- 230000006870 function Effects 0.000 abstract description 65
- 238000004422 calculation algorithm Methods 0.000 abstract description 13
- 230000000694 effects Effects 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000009826 distribution Methods 0.000 abstract description 3
- 125000004122 cyclic group Chemical group 0.000 abstract description 2
- 238000001228 spectrum Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000000605 extraction Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000004205 output neuron Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种语音端点检测模型的训练方法及语音降噪方法,训练方法包括以下步骤:对纯净语音信号进行预处理和端点检测,以得到语音帧和静音帧的真实标签值;加入噪声信号,得到带噪语音信号;提取带噪语音信号的特征值;隐层依据特征值对带噪语音信号进行分类,以得到语音帧和纯噪声帧的估计标签值;对估计标签值与真实标签值进行损失函数计算,根据计算结果以优化语音端点检测模型的模型参数。本发明提供的语音端点检测模型的训练方法及语音降噪方法融合了深度学习思想,构建循环神经网络模型,基于数据驱动,计算算法中需要的估计参数值,得到更准确的噪声统计分布规律,进而达到较为理想的降噪效果。
Description
技术领域
本发明涉及语音降噪技术领域,特别涉及一种语音端点检测模型的训练方法及语音降噪方法。
背景技术
随着汽车智能化程度的快速发展,语音识别及操控系统逐渐成为汽车标配。行车场景中不同工况的噪声,包括路噪、胎噪、发动机噪声、风噪、空调噪声等,这些噪声能量高,频率范围与语音的频率范围重叠度高,对语音的掩蔽效应强烈,严重影响语音识别系统的识别能力。语音端点检测是语音识别过程中的一个必要环节,对信号中语音部分起始点的准确检测与判断,可以大幅度提升语音识别系统的识别率。传统检测方法中对人工声学特征的提取难以描述行车场景中的带噪语音,影响车载语音系统中语音信号的端点检测能力。
在dsp芯片上进行语音降噪时,采用的都是信号处理的方法,保证算法的复杂度和实时性,比如谱减算法,基于加性噪声场景,利用对噪声的频谱估计,在经验意义上对语音做降噪处理。这种降噪方式算法流程简单、原理易懂,但从数学推导角度却不够严格和完备。不具有理论上的最优性能。而对于维纳滤波算法,基于最优均方误差准则进行带噪语音信号的降噪处理,可证明性能更优且易于处理。
维纳滤波算法的思想是设计一个降噪系统,使得输出的降噪语音信号尽可能逼近期望的纯净语音信号,通过最小化系统输出信号与期望信号之间的误差,使降噪性能达到最优。但算法要对参数进行统计估计,目前对先验信噪比的估计方法不理想,实际的应用环境中的端点检测的精度难以提升,且基于信号帧的更新算法鲁棒性不足。基于信号处理的降噪算法中的参数估计问题影响算法的降噪性能,因无法获取实际场景中噪声的统计分布规律,现有技术中都是基于经验给出估计值,因此降噪效果也就完全依赖于对应参数估计值的准确性。
发明内容
为了克服现有技术存在的不足,本发明提供了一种语音端点检测模型的训练方法及语音降噪方法,所述技术方案如下:
一方面,本发明提供了一种语音端点检测模型的训练方法,所述语音端点检测模型基于神经网络模型,其用于对带噪语音进行端点检测,所述语音端点检测模型包括输入层、多个隐层以及输出层,至少有一个隐层包括GRU层和/或LSTM层;
所述训练方法包括以下步骤:
S1、对纯净语音信号进行预处理和端点检测,以得到语音帧和静音帧的真实标签值;
S2、在带有标签值的纯净语音信号中加入噪声信号,得到带噪语音信号,其包含对应纯净语音信号端点检测后的真实标签值;
S3、提取所述带噪语音信号的fbank特征、MFCC特征、谱熵特征、倒谱距离特征、PLP特征中的一种或多种,以得到所述语音端点检测模型输入的特征值;
S4、将所述特征值输入至所述输入层,所述隐层依据所述特征值对所述带噪语音信号进行分类,以得到语音帧和纯噪声帧的估计标签值,并通过所述输出层进行输出;
S5、对所述估计标签值与所述真实标签值进行损失函数计算,根据计算结果以优化所述语音端点检测模型的模型参数。
进一步地,所述隐层包括第一隐层、第二隐层和第三隐层,所述第一隐层包括全连接层和tanh激活函数层,所述第二隐层包括ReLU激活函数层,第三隐层包括全连接层和sigmoid激活函数层,
所述第二隐层还包括GRU层,所述特征值依次经过全连接层、tanh激活函数层、GRU层、ReLU激活函数层、全连接层、sigmoid激活函数层处理,以得到语音帧和纯噪声帧的估计标签值;
和/或,
所述第二隐层还包括LSTM层,所述特征值依次经过全连接层、tanh激活函数层、LSTM层、ReLU激活函数层、全连接层、sigmoid激活函数层处理,以得到语音帧和纯噪声帧的估计标签值。
进一步地,所述隐层还包括优化隐层,所述优化隐层位于所述第一隐层和第二隐层之间。
进一步地,所述优化隐层包括GRU层和tanh激活函数层,所述第一隐层的输出依次经GRU层和tanh激活函数层处理至所述第二隐层;
和/或,
所述优化隐层包括全连接层和ReLU激活函数层,所述第一隐层的输出依次经全连接层和ReLU激活函数层处理至所述第二隐层。
进一步地,所述优化隐层包括全连接层层和tanh激活函数层,所述第一隐层的输出依次经全连接层和tanh激活函数层处理至所述第二隐层。
进一步地,所述优化隐层的输出与第一隐层的输出合并后输出至所述第二隐层。
进一步地,步骤S1中对纯净语音进行预处理包括以下步骤:
S101、对输入的语音信号进行升采样或者降采样;
S102、消除采样得到的语音信号的直流分量,并进行幅值归一化处理;
S103、对步骤S102处理后语音信号进行分帧加窗处理;
S104、利用傅里叶变换,将分帧加窗后的语音信号从时域转换到频域进行输出。
进一步地,在步骤S4中还包括,根据所述估计标签值,得到语音帧数目和纯噪声帧数目。
另一方面,本发明还提供了一种语音降噪方法,包括以下步骤:
P1、将带噪语音进行信号预处理后输入所述的语音端点检测模型,得到语音帧和纯噪声帧的估计标签值,从而得到纯噪声帧数目,以计算噪声帧能量;
P2、根据得到语音帧和纯噪声帧的估计标签值,计算先验信噪比的初始值,以及各语音帧对应的后验信噪比和先验信噪比;
P3、计算维纳滤波的增益函数并利用其对语音帧信号进行降噪;
P4、利用逆傅里叶变换,将降噪后的语音帧信号从频域转换到时域;
P5、将转换后的语音帧信号合并,以得到降噪后的语音信号。
进一步地,在步骤P3后还包括以下步骤:
P400、根据步骤P3降噪后的语音帧信号更新当前语音帧先验信噪比的初始值,以重新计算当前语音帧的先验信噪比,并执行步骤P3;
执行一次或者循环执行多次步骤P400后,执行P4-P5。
进一步地,在步骤P5中,需要先对所述转换后的语音帧信号进行去除加窗操作之后,再进行合并操作。
本发明提供的技术方案带来的有益效果如下:
(1)利用神经网络模型进行深度学习,得到降噪计算中需要的估计参数值,使得估计参数值更加接近真实情况;
(2)使得信噪比估计更为准确,提高了降噪效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的语音端点检测模型结构示意图;
图2是本发明实施例提供的语音降噪方法流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,更清楚地了解本发明的目的、技术方案及其优点,以下结合具体实施例并参照附图对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是,附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。除此,本发明的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本发明的一个实施例中,提供了一种语音端点检测模型的训练方法,所述语音端点检测模型基于神经网络模型,即NNWAP网络模型,其用于对带噪语音进行端点检测,所述语音端点检测模型包括输入层、多个隐层以及输出层;
其中,所述隐层包括第一隐层、第二隐层和第三隐层,所述第一隐层包括全连接层和tanh激活函数层,所述第二隐层包括ReLU激活函数层,第三隐层包括全连接层和sigmoid激活函数层。
在此基础上语音端点检测模型至少有以下几种架构:
架构1
所述第二隐层还包括GRU层,所述特征值依次经过全连接层、tanh激活函数层、GRU层、ReLU激活函数层、全连接层、sigmoid激活函数层处理,以实现对带噪语音的分类标记。
架构2
所述第二隐层还包括LSTM层,所述特征值依次经过全连接层、tanh激活函数层、LSTM层、ReLU激活函数层、全连接层、sigmoid激活函数层处理,以实现对带噪语音的分类标记。
架构3
架构1和架构2的方案可同时存在进行,使得第二隐层形成两个分支,此时第一隐层的输出分别经过第二隐层的两个分支处理后,合并输出至第三隐层,使得模型的运算更加稳定。
架构4
在架构1的基础上,所述隐层还包括优化隐层,所述优化隐层位于所述第一隐层和第二隐层之间,所述优化隐层包括GRU层和tanh激活函数层,所述第一隐层的输出依次经GRU层和tanh激活函数层处理至所述第二隐层;
架构5
与架构4不同在于优化隐层的内容不同,所述优化隐层包括全连接层和ReLU激活函数层,所述第一隐层的输出依次经全连接层和ReLU激活函数层处理至所述第二隐层。
架构6
架构4和架构5的方案可同时存在进行,使得优化隐层形成两个分支,此时第一隐层的输出分别经过优化隐层的两个分支处理后,合并输出至第二隐层,使得模型的运算更加稳定。
架构7
在架构2的基础上,所述隐层还包括优化隐层,所述优化隐层位于所述第一隐层和第二隐层之间,所述优化隐层包括全连接层层和tanh激活函数层,所述第一隐层的输出依次经全连接层和tanh激活函数层处理至所述第二隐层。
在架构7中,所述优化隐层的输出与第一隐层的输出合并后输出至所述第二隐层。
架构8
架构6和架构7的方案可同时存在进行,参见图1,所述优化隐层形成三个分支,对应地,第一分支包括GRU层和tanh激活函数层,第二分支包括全连接层和ReLU激活函数层,第三分支包括全连接层层和tanh激活函数层;所述第二隐层形成两个分支,对应地,第四分支包括GRU层和ReLU激活函数层,第五分支包括LSTM层和ReLU激活函数层;第一隐层的输出分别通过第一分支和第二分支处理并汇总至第四分支,同时,第一隐层的输出通过第三分支处理后输出至第五分支,第四分支的输出和第五分支的输出汇总至第三隐层处理后输出。其中需要注意的是,可以通过设置第一隐层的参数输出,使得第一隐层可以输出相同或不同的参数数量及数值至下一分支层。
针对语音端点检测模型,其训练方法包括以下步骤:
S1、对纯净语音信号进行预处理和端点检测,以得到语音帧和静音帧的真实标签值;
S2、在带有标签值的纯净语音信号中加入噪声信号,得到带噪语音信号,其包含对应纯净语音信号端点检测后的真实标签值;
S3、提取所述带噪语音信号的fbank特征、MFCC特征、谱熵特征、倒谱距离特征、PLP特征中的一种或多种,以得到所述语音端点检测模型输入的特征值;
S4、将所述特征值输入至所述输入层,所述隐层依据所述特征值对所述带噪语音信号进行分类,以得到语音帧和纯噪声帧的估计标签值,并通过所述输出层进行输出;
S5、对所述估计标签值与所述真实标签值进行损失函数计算,根据计算结果以优化所述语音端点检测模型的模型参数。
其中,在步骤S1中,对纯净语音进行预处理包括以下步骤:
S101、对输入的语音信号进行升采样或者降采样,以保证语音数据采样率的一致性;
S102、消除采样得到的语音信号的直流分量,
其中,x1(i)是指语音信号采样点对应的信号,消除直流分量即为语音信号的各个分量减去语音信号平均值的过程,x2(i)是指相应消除直流分量的语音信号,l表示语音数据长度;
并x2(i)进行幅值归一化处理,
其中,max是指语音信号中的分量最大值,x3(i)表示相应归一化处理后的语音信号。
S103、对步骤S102处理后语音信号进行分帧加窗处理;
其中,处理过程中汉明窗的表达形式如下:
其中,α在0.4-0.6范围内取值,n表示语音帧的索引。
S104、利用傅里叶变换,将分帧加窗后的语音信号从时域转换到频域进行输出,得到可应用的语音信号,可记作x(i),
相应傅里叶变换公式如下:
其中,w是频率,t是时间,e-iwt是复变函数。
下面以具体实例进行说明:
步骤1
对输入的纯净语音实施上个实施例中的语音预处理操作。
步骤2
对步骤1中预处理后的语音信号进行基于对数频谱距离的端点检测,得到语音帧和静音帧的标签值,
其中,xi(m)是分帧处理后的第i帧语音信号,L是帧长,Xi(k)是xi(m)进行DFT后的离散频谱,k为离散频谱值的索引,j为虚数单位。
其中,和是x0(n)和x1(n)两个不同语音信号第i帧的对数频谱,上标0和1是不同的信号x0(n)和x1(n),dspec(i)是两个信号的对数频谱距离,L2是只取频率为正的部分,帧长是L时,L2=L/2+1。
步骤3
在纯净语音信号中加入噪声,得到带噪语音,其包含对应纯净语音端点检测后的标签值。
步骤4
提取带噪语音的fbank特征、MFCC特征、谱熵特征、倒谱距离特征、PLP特征。
(1)fbank特征提取过程
H(z)=1-az-1
其中,a是常数,z是极点,H(z)是所设置的预加重的滤波器。
X(i,k)=FFT[xi(m)]
其中,X(i,k)是语音信号xi(m)进行傅里叶变换后的频域表达。
E(i,k)=[X(i,k)]2
其中,E(i,k)是第i帧语音信号的能量谱。
其中,Hm(k)是Mel滤波器的频率响应,m是第m个Mel滤波器(共M个),S(i,m)是第i帧语音信号的Mel滤波器能量值。
(2)MFCC特征特征提取过程
MFFC特征的提取过程和fbank一样,区别在于比MFCC特征多了一个DCT计算过程。
其中,S(i,m)是第i帧语音信号的Mel滤波器能量值,m是第m个Mel滤波器(共M个),i是第i帧,n是DCT后的谱线。
(3)谱熵特征
其中,pi(k)是第i帧第k个频率分量fk对应的概率密度,N是FFT长度。
其中,Hi是第i帧语音信号的短时谱熵。
(4)倒谱距离特征
其中,w是频率,e-jnw是复变函数,ci(n)是第i帧语音信号xi(m)的倒谱系数,并且
(5)LPC特征
其中,ak是预测器系数,p是预测器阶数,n是语音信号采样点,由于语音样点之间存在着相关性,那么当前点/未来点可以用过去的p个样本点进行预测通过使真实语音信号和预测值之间差值的平方和达到最小值,能够确定唯一一组的预测器系数。
其中e(n)是预测误差。
xm(n)=x(m+n)
其中,xm(n)是m个语音信号的周期延拓。
其中,Em是短时预测误差。
步骤5
重复执行步骤1至步骤4若干次,得到大量所述语音端点检测模型的输入特征值。
步骤6
将得到的带噪语音的20个fbank特征、20个MFCC特征、1个谱熵特征、1个倒谱距离特征、8个LPC特征,共计50个特征输入全连接层,设置初始权重为0.4~0.5,偏置为1,选择tanh激活函数,设置输出50个参数。
全连接层的计算公式:
zi=wTxi+b
其中,wT是权重,b是偏置。
tanh激活函数:
步骤7
将得到的带噪语音的20个fbank特征、20个MFCC特征、1个谱熵特征、1个倒谱距离特征、8个LPC特征,共计50个特征输入全连接层,设置初始权重为0.4~0.5,偏置为1,选择tanh激活函数,设置输出20个参数。
步骤8
将步骤6的输出参数输入GRU层,设置初始权重为0.4~0.5,偏置为1,选择tanh激活函数,输出20个参数。
步骤9
将步骤6的输出参数输入全连接层,设置初始权重为0.4~0.5,偏置为1,选择ReLU激活函数,输出20个参数。
ReLU激活函数:
relu=max(0,x)
步骤10
将步骤8和步骤9的输出参数输入GRU层,设置初始权重为0.4~0.5,偏置为1,选择ReLU激活函数,输出20个参数。
GRU层的计算过程:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
步骤11
将步骤7的输出参数输入全连接层,设置初始权重为0.4~0.5,偏置为1,选择tanh激活函数,输出20个参数。
步骤12
将步骤7和步骤11的输出参数输入LSTM层,设置初始权重为0.4~0.5,偏置为1,选择ReLU激活函数,输出20个参数。
LSTM层的计算过程:
ft=σ(Wf[ht-1,xt]+bf)
其中,xt是t时刻输入,ht-1是t-1时刻神经元信息,σ是Sigmoid激活函数。
Sigmoid激活函数:
其中,σ(z)输出0~1之间的数值。
it=σ(Wi[ht-1,xt]+bi)
ot=σ(Wo[ht-1,xt]+b0)
ht=ot*tanh(Ct)
其中,σ决定输出神经元的哪个部分,ht是最终输出。
步骤13
将步骤10和步骤12的输出参数输入全连接层,设置初始权重为0.4~0.5,偏置为1,选择sigmoid激活函数,该层的输出即为对应语音帧或纯噪声帧的标签值。
步骤14
统计语音帧和纯噪声帧数目。
步骤15
对步骤13得到的标签值和真实标签值进行平方损失函数的计算,根据计算结果不断对参数进行优化。
平方损失函数:
其中,Y-f(X)是残差,n是样本数,目标是最小化这个目标函数值。
步骤16
保存优化好参数的网络模型。
在本发明的一个实施例中,提供了一种语音降噪方法,包括以下步骤:
P1、将带噪语音进行信号预处理后输入所述的语音端点检测模型,得到语音帧和纯噪声帧的估计标签值,从而得到纯噪声帧数目,以计算噪声帧能量;
P2、根据得到语音帧和纯噪声帧的估计标签值,计算先验信噪比的初始值,以及各语音帧对应的后验信噪比和先验信噪比;
P3、计算维纳滤波的增益函数并利用其对语音帧信号进行降噪;
P4、利用逆傅里叶变换,将降噪后的语音帧信号从频域转换到时域;
P5、先对所述转换后的语音帧信号进行去除加窗操作之后,再进行合并操作,以得到降噪后的语音信号。
上述实施例中对单个语音帧只进行了一次降噪处理,优选地,还可以对其单个语音帧进行多次降噪,以实现更优的降噪效果。
对其单个语音帧进行多次降噪,需要在上述实施例的基础上,进行以下优化步骤:在步骤P3后还包括以下步骤:
P400、根据步骤P3降噪后的语音帧信号更新当前语音帧先验信噪比的初始值,以重新计算当前语音帧的先验信噪比,并执行步骤P3;
执行一次或者循环执行多次步骤P400后,执行P4-P5。
参见图2,下面以具体实例进行说明该语音降噪方法:
步骤A
将带噪语音输入到所述语音端点检测模型中,根据所得到的纯噪声帧数目计算噪声帧能量noise,
其中,NIS是噪声帧数。
步骤B
根据步骤A得到的语音帧和纯噪声帧标签值,计算先验信噪比的初始值,
其中,N是帧数,voice是带噪语音帧的能量。
其中,snr是先验信噪比的初始值。
步骤C
计算当前语音帧的后验信噪比
步骤D
计算当前语音帧的先验信噪比
snrx=∝snr+(1-∝)max(snrh-1,0)
其中,∝是平滑参数,在范围0.3-0.5内取值。
步骤E
计算维纳滤波的增益函数
步骤F
计算降噪后的语音信号
x_finished(i)=x(i)·Hw
步骤G
根据步骤F中得到的语音信号更新当前语音帧的先验信噪比的初始值
步骤H
对带噪语音的各帧重复执行步骤D-F,利用更新后的先验信噪比,进行再次降噪。
步骤I
应用逆傅里叶变换,将降噪后的语音信号从频域转换到时域。
逆傅里叶变换公式:
其中,eiwt是复变函数。
步骤J
先对各帧语音信号去除加窗,然后将处理后的语音信号合成输出。
去除加窗计算函数:
其中,x(i)是第i帧语音信号,w(n)的窗函数。
本发明提供的语音降噪方法,基于信号处理的降噪思想,保留算法在dsp芯片上的运算实时性优势,通过采用深度学习网络模型来提升算法中参数估计值的准确性,从而改善带噪语音的降噪效果。在数据准备阶段,对纯净语音信号运用基于对数频谱距离的端点检测计算方法,得到纯净语音帧和静音帧的标签值。加入噪声,得到对应带噪语音的语音帧和无话帧的标签值。在模型训练阶段,将准备好的带噪语音及其标签值输入到网络模型中。该网络模型运用全连接层、长短期记忆网络LSTM、GRU层对带噪语音进行特征提取和分类。经过训练,该网络结构能够对语音帧和噪声帧作出区分,进而统计出语音帧数和噪声帧数。在此基础上,计算得到先验信噪比和后验信噪比,进而在降噪计算阶段,实现语音降噪过程。
本发明提供的语音端点检测模型的训练方法及语音降噪方法针对现有方法中前导无话段长度、先验信噪比、后验信噪比、噪声能量值估计值的不准确性问题,本发明融合深度学习思想,构建循环神经网络模型,基于数据驱动,计算算法中需要的估计参数值,得到更准确的噪声统计分布规律,进而达到较为理想的降噪效果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音端点检测模型的训练方法,其特征在于,所述语音端点检测模型基于神经网络模型,其用于对带噪语音进行端点检测,所述语音端点检测模型包括输入层、多个隐层以及输出层,至少有一个隐层包括GRU层和/或LSTM层;
所述训练方法包括以下步骤:
S1、对纯净语音信号进行预处理和端点检测,以得到语音帧和静音帧的真实标签值;
S2、在带有标签值的纯净语音信号中加入噪声信号,得到带噪语音信号,其包含对应纯净语音信号端点检测后的真实标签值;
S3、提取所述带噪语音信号的fbank特征、MFCC特征、谱熵特征、倒谱距离特征、PLP特征中的一种或多种,以得到所述语音端点检测模型输入的特征值;
S4、将所述特征值输入至所述输入层,所述隐层依据所述特征值对所述带噪语音信号进行分类,以得到语音帧和纯噪声帧的估计标签值,并通过所述输出层进行输出;
S5、对所述估计标签值与所述真实标签值进行损失函数计算,根据计算结果以优化所述语音端点检测模型的模型参数。
2.根据权利要求1所述的语音端点检测模型的训练方法,其特征在于,所述隐层包括第一隐层、第二隐层和第三隐层,所述第一隐层包括全连接层和tanh激活函数层,所述第二隐层包括ReLU激活函数层,第三隐层包括全连接层和sigmoid激活函数层,
所述第二隐层还包括GRU层,所述特征值依次经过全连接层、tanh激活函数层、GRU层、ReLU激活函数层、全连接层、sigmoid激活函数层处理,以得到语音帧和纯噪声帧的估计标签值;
和/或,
所述第二隐层还包括LSTM层,所述特征值依次经过全连接层、tanh激活函数层、LSTM层、ReLU激活函数层、全连接层、sigmoid激活函数层处理,以得到语音帧和纯噪声帧的估计标签值。
3.根据权利要求2所述的语音端点检测模型的训练方法,其特征在于,所述隐层还包括优化隐层,所述优化隐层位于所述第一隐层和第二隐层之间。
4.根据权利要求3所述的语音端点检测模型的训练方法,其特征在于,
所述优化隐层包括GRU层和tanh激活函数层,所述第一隐层的输出依次经GRU层和tanh激活函数层处理至所述第二隐层;
和/或,
所述优化隐层包括全连接层和ReLU激活函数层,所述第一隐层的输出依次经全连接层和ReLU激活函数层处理至所述第二隐层。
5.根据权利要求3或4所述的语音端点检测模型的训练方法,其特征在于,所述优化隐层包括全连接层层和tanh激活函数层,所述第一隐层的输出依次经全连接层和tanh激活函数层处理至所述第二隐层。
6.根据权利要求5所述的语音端点检测模型的训练方法,其特征在于,所述优化隐层的输出与第一隐层的输出合并后输出至所述第二隐层。
7.根据权利要求1所述的语音端点检测模型的训练方法,其特征在于,步骤S1中对纯净语音进行预处理包括以下步骤:
S101、对输入的语音信号进行升采样或者降采样;
S102、消除采样得到的语音信号的直流分量,并进行幅值归一化处理;
S103、对步骤S102处理后语音信号进行分帧加窗处理;
S104、利用傅里叶变换,将分帧加窗后的语音信号从时域转换到频域进行输出。
8.一种语音降噪方法,其特征在于,包括以下步骤:
P1、将带噪语音进行信号预处理后输入权利要求1-7中任一项所述的语音端点检测模型,得到语音帧和纯噪声帧的估计标签值,从而得到纯噪声帧数目,以计算噪声帧能量;
P2、根据得到语音帧和纯噪声帧的估计标签值,计算先验信噪比的初始值,以及各语音帧对应的后验信噪比和先验信噪比;
P3、计算维纳滤波的增益函数并利用其对语音帧信号进行降噪;
P4、利用逆傅里叶变换,将降噪后的语音帧信号从频域转换到时域;
P5、将转换后的语音帧信号合并,以得到降噪后的语音信号。
9.根据权利要求8所述的语音降噪方法,其特征在于,在步骤P3后还包括以下步骤:
P400、根据步骤P3降噪后的语音帧信号更新当前语音帧先验信噪比的初始值,以重新计算当前语音帧的先验信噪比,并执行步骤P3;
执行一次或者循环执行多次步骤P400后,执行P4-P5。
10.根据权利要求8所述的语音降噪方法,其特征在于,在步骤P5中,需要先对所述转换后的语音帧信号进行去除加窗操作之后,再进行合并操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110952262.8A CN113744725A (zh) | 2021-08-19 | 2021-08-19 | 一种语音端点检测模型的训练方法及语音降噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110952262.8A CN113744725A (zh) | 2021-08-19 | 2021-08-19 | 一种语音端点检测模型的训练方法及语音降噪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113744725A true CN113744725A (zh) | 2021-12-03 |
Family
ID=78731748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110952262.8A Pending CN113744725A (zh) | 2021-08-19 | 2021-08-19 | 一种语音端点检测模型的训练方法及语音降噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113744725A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115602191A (zh) * | 2022-12-12 | 2023-01-13 | 杭州兆华电子股份有限公司(Cn) | 一种变压器声纹检测系统的噪声消除方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106328155A (zh) * | 2016-09-13 | 2017-01-11 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种修正先验信噪比过估计的语音增强方法 |
CN106503801A (zh) * | 2016-10-18 | 2017-03-15 | 天津工业大学 | 基于深度学习的电阻抗层析成像方法 |
CN108198547A (zh) * | 2018-01-18 | 2018-06-22 | 深圳市北科瑞声科技股份有限公司 | 语音端点检测方法、装置、计算机设备和存储介质 |
CN111339783A (zh) * | 2020-02-24 | 2020-06-26 | 东南大学 | 一种基于rntm的话题挖掘方法与装置 |
WO2020159935A1 (en) * | 2019-01-28 | 2020-08-06 | Dignity Health | Systems, methods, and media for automatically transforming a digital image into a simulated pathology image |
CN112133322A (zh) * | 2020-10-19 | 2020-12-25 | 南通赛洋电子有限公司 | 一种基于噪声分类优化imcra算法的语音增强方法 |
CN112489677A (zh) * | 2020-11-20 | 2021-03-12 | 平安科技(深圳)有限公司 | 基于神经网络的语音端点检测方法、装置、设备及介质 |
WO2021057427A1 (zh) * | 2019-09-25 | 2021-04-01 | 西安交通大学 | 一种基于PU learning的跨区域企业偷漏税识别方法及系统 |
MY186235A (en) * | 2012-11-30 | 2021-06-30 | Univ Malaya | Artificial neural network for use in forecasting hydropower reservoir operation |
-
2021
- 2021-08-19 CN CN202110952262.8A patent/CN113744725A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MY186235A (en) * | 2012-11-30 | 2021-06-30 | Univ Malaya | Artificial neural network for use in forecasting hydropower reservoir operation |
CN106328155A (zh) * | 2016-09-13 | 2017-01-11 | 广东顺德中山大学卡内基梅隆大学国际联合研究院 | 一种修正先验信噪比过估计的语音增强方法 |
CN106503801A (zh) * | 2016-10-18 | 2017-03-15 | 天津工业大学 | 基于深度学习的电阻抗层析成像方法 |
CN108198547A (zh) * | 2018-01-18 | 2018-06-22 | 深圳市北科瑞声科技股份有限公司 | 语音端点检测方法、装置、计算机设备和存储介质 |
WO2020159935A1 (en) * | 2019-01-28 | 2020-08-06 | Dignity Health | Systems, methods, and media for automatically transforming a digital image into a simulated pathology image |
WO2021057427A1 (zh) * | 2019-09-25 | 2021-04-01 | 西安交通大学 | 一种基于PU learning的跨区域企业偷漏税识别方法及系统 |
CN111339783A (zh) * | 2020-02-24 | 2020-06-26 | 东南大学 | 一种基于rntm的话题挖掘方法与装置 |
CN112133322A (zh) * | 2020-10-19 | 2020-12-25 | 南通赛洋电子有限公司 | 一种基于噪声分类优化imcra算法的语音增强方法 |
CN112489677A (zh) * | 2020-11-20 | 2021-03-12 | 平安科技(深圳)有限公司 | 基于神经网络的语音端点检测方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
张蒙: "室内环境下基于麦克风阵列的语音增强算法研究", 《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》, pages 18 - 20 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115602191A (zh) * | 2022-12-12 | 2023-01-13 | 杭州兆华电子股份有限公司(Cn) | 一种变压器声纹检测系统的噪声消除方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108172238B (zh) | 一种语音识别系统中基于多个卷积神经网络的语音增强算法 | |
CN106971741B (zh) | 实时将语音进行分离的语音降噪的方法及系统 | |
CN105513605B (zh) | 手机麦克风的语音增强系统和语音增强方法 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN110232933B (zh) | 音频检测方法、装置、存储介质及电子设备 | |
CN109192200B (zh) | 一种语音识别方法 | |
CN103065629A (zh) | 一种仿人机器人的语音识别系统 | |
WO2002029782A1 (en) | Perceptual harmonic cepstral coefficients as the front-end for speech recognition | |
US20060165202A1 (en) | Signal processor for robust pattern recognition | |
CN110265065B (zh) | 一种构建语音端点检测模型的方法及语音端点检测系统 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
KR101892733B1 (ko) | 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
Mallidi et al. | Autoencoder based multi-stream combination for noise robust speech recognition | |
CN111540342A (zh) | 一种能量阈值调整方法、装置、设备及介质 | |
Nian et al. | A progressive learning approach to adaptive noise and speech estimation for speech enhancement and noisy speech recognition | |
Tu et al. | DNN training based on classic gain function for single-channel speech enhancement and recognition | |
CN113744725A (zh) | 一种语音端点检测模型的训练方法及语音降噪方法 | |
Katsir et al. | Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation | |
KR101802444B1 (ko) | 독립 벡터 분석 및 반향 필터 재추정을 이용한 베이시안 특징 향상에 의한 강인한 음성 인식 장치 및 방법 | |
Pham et al. | Using artificial neural network for robust voice activity detection under adverse conditions | |
CN109741733B (zh) | 基于一致性路由网络的语音音素识别方法 | |
Chen et al. | InQSS: a speech intelligibility assessment model using a multi-task learning network | |
CN102290048A (zh) | 一种基于mfcc远距离差值的鲁棒语音识别方法 | |
CN115910074A (zh) | 一种智能门禁的语音控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |