CN113782011B - 频带增益模型的训练方法及用于车载场景的语音降噪方法 - Google Patents
频带增益模型的训练方法及用于车载场景的语音降噪方法 Download PDFInfo
- Publication number
- CN113782011B CN113782011B CN202110985541.4A CN202110985541A CN113782011B CN 113782011 B CN113782011 B CN 113782011B CN 202110985541 A CN202110985541 A CN 202110985541A CN 113782011 B CN113782011 B CN 113782011B
- Authority
- CN
- China
- Prior art keywords
- frequency band
- noise
- voice
- layer
- sru
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 title claims abstract description 35
- 230000009467 reduction Effects 0.000 title claims abstract description 34
- 238000001228 spectrum Methods 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 238000005457 optimization Methods 0.000 claims abstract description 5
- 230000004913 activation Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 29
- 238000001914 filtration Methods 0.000 claims description 23
- 238000002156 mixing Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 26
- 238000004364 calculation method Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 238000004378 air conditioning Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 101000802640 Homo sapiens Lactosylceramide 4-alpha-galactosyltransferase Proteins 0.000 description 3
- 102100035838 Lactosylceramide 4-alpha-galactosyltransferase Human genes 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 3
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Noise Elimination (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了频带增益模型的训练方法及用于车载场景的语音降噪方法,训练方法包括以下步骤:将纯语音信号和纯噪声信号分别分帧后,并逐帧按照频率进行分带,得到纯语音频带和纯噪声频带,将纯语音信号和纯噪声信号混合后,对其进行分帧处理,并逐帧按照相应频率进行分带,得到带噪语音频带,根据各纯噪声、纯语音、带噪语音频带的能量,以得到纯噪声频带相应的对数谱、增益期望值和特征值;将特征值输入频带增益模型,以输出各带噪语音频带对应的增益值,并利用增益期望值以及对数谱作为标签进行神经网络训练,以实现对所述频带增益模型的参数优化。本发明提供的训练方法及语音降噪方法对带噪语音进行降噪的同时保证语音识别系统的鲁棒性。
Description
技术领域
本发明涉及语音降噪技术领域,特别涉及一种频带增益模型的训练方法及用于车载场景的语音降噪方法。
背景技术
随着汽车智能化程度的提升,车载语音系统成为汽车座舱内的标准配置,车载语音系统有两个需求,(1)行车时保证清晰的语音通话质量;(2)行车时保证稳定的语音识别系统性能。由于行车过程中发动机噪声、风噪、路噪和空调噪声等的影响,语音信号受到复杂环境的干扰,严重影响语音系统的表现,影响用户的使用体验。车载场景中的噪声已经成为一个必须克服的问题。
语音降噪的常用方法及特点可以归纳如下:
(1)传统的基于信号处理的算法,如谱减法,维纳滤波法等,假定语音服从一定的分布,而噪声是平稳或者缓慢变化的,估计噪声的功率谱或者理想维纳滤波器,算法简单,实时性好,满足条件下能取得较好的分离性能,但实际的场景环境中,难以满足假设条件,降噪性能会打折扣。
(2)基于分解计算的方法,如非负矩阵分解,假设声音信号的频谱具有低秩结构,因此可以采用一个数量比较小的基来进行表示,能够挖掘语音信号中的基本谱模式,但这种计算方法是线性模型结构,难以捕捉语音信号的非线性特性,而且计算代价较大,复杂度高,很难满足实时性要求。
(3)基于规则的算法,如根据听觉场景分析的研究中发现的一些规则或机制对噪声场景下的语音增强问题进行建模,这种方法的以规则为支撑,模型的可解释性较强,但因为听觉研究一般采用较为简单的刺激作为输入,得到的规律不一定适用于复杂听觉环境,其模型目标是重现实验范式中的结果,难以应用到实际的问题中,另外大部分的听觉模型严重依赖于分组线索,尤其是基音提取的准确性,而这在复杂的听觉环境下又难以保证,因此语音降噪的效果不够理想。
(4)基于深度学习模型的降噪算法,依靠计算机强大算力,利用深度神经网络的高度非线性对语音进行建模,在庞大数据量的驱动下,能获得较好的降噪表现,但模型对计算资源要求高,实时性差。
另外由于语音降噪和语音识别的优化目标不同,很多降噪算法处理后的语音数据会受损,导致语音识别系统的准确率下降,因此降噪算法的设计需要兼顾语音识别算法的模型设计。
发明内容
为了克服现有技术存在的不足,本发明提供了频带增益模型的训练方法及用于车载场景的语音降噪方法,所述技术方案如下:
一方面,本发明提供了一种频带增益模型的训练方法,所述频带增益模型基于神经网络模型,采用SRU架构,所述频带增益模型能够依据带噪语音信号的特征值对其多个频段的信号进行降噪增益;
所述训练方法包括以下步骤:
S1、将纯语音信号和纯噪声信号分别分帧后,并逐帧按照频率进行分带,得到n个纯语音频带和n个纯噪声频带,计算各纯语音频带和各纯噪声频带的能量;将所述纯语音信号和纯噪声信号混合后,得到带噪语音信号,对其进行分帧处理,并逐帧按照相应频率进行分带,得到n个带噪语音频带,计算各带噪语音频带的能量;
根据各纯噪声频带的能量,以得到所述纯噪声频带相应的n个对数谱;
根据所述纯语音频带的能量与相应频段的所述带噪语音频带的能量的比值,以得到n个增益期望值;
根据各带噪语音频带的能量,得到相应的对数功率谱,并通过反离散余弦变换得到n个MFCC系数,以作为所述带噪语音频带相应的n个特征值;
S2、将所述n个特征值输入所述频带增益模型,以输出各带噪语音频带对应的增益值,并利用所述增益期望值以及所述对数谱作为标签进行神经网络训练,以实现对所述频带增益模型的参数优化。
进一步地,所述频带增益模型包括第一SRU层、第二SRU层、第三SRU层、第四SRU层、第五SRU层、第一全连接层和第二全连接层,
所述特征值输入至所述第一SRU层,使用tanh激活函数处理后输出;
所述特征值输入至所述第一全连接层,使用tanh激活函数处理后输出至所述第二SRU层,在所述第二SRU层,使用Relu激活函数处理后输出至所述第三SRU层;
在所述第三SRU层中,对所述第一全连接层的输出和第二SRU层的输出使用Relu激活函数处理后输出;
在所述第四SRU层中,对所述第一SRU层的输出和第三SRU层的输出使用Relu激活函数处理后输出;
在所述第五SRU层中,对所述第一SRU层的输出、第三SRU层的输出和第四SRU层的输出使用Relu激活函数处理后输出;
在所述第二全连接层中,对所述第五SRU层的输出使用sigmoid激活函数处理后输出,以得到所述带噪语音频带的增益值。
进一步地,所述第二SRU层中的SRU单元能够进行并行计算,并能通过遗忘门更新隐藏态。
进一步地,对所述带噪语音信号的各帧进行清音判断及处理,以得到其基音周期值,并将所述基音周期值作为新增特征值输入至所述频带增益模型一起进行训练。
进一步地,根据所述基音周期值,得到所述带噪语音信号对应的基音信号带,计算所述基音信号带的能量,并结合所述带噪语音频带的能量一起做离散余弦变换,以得到关联参数,将其作为新增特征值输入至所述频带增益模型一起进行训练。
进一步地,对所述特征值做一阶导数和/或二阶导数处理,将得到的结果作为新增特征值输入至所述频带增益模型一起进行训练。
进一步地,所述纯语音信号、纯噪声信号和带噪语音信号均才采用梅尔滤波器进行分带。
另一方面,本发明还提供了一种适用于车载场景的语音降噪方法,包括以下步骤:
P1、将带噪语音进行分帧处理,并逐帧按照频率进行分带,得到m个带噪语音频带,提取其对应的m个特征值,并输入所述的频带增益模型,以得到所述带噪语音频带对应的增益值;
P2、采用梳状滤波器对所述带噪语音频带进行基音滤波;
P3、计算所述带噪语音频带滤波后的能量,以得到所述带噪语音频带在滤波前后的能量比值;
P4、将所述带噪语音频带滤波后的信号与所述能量比值相乘,再与所述带噪语音频带对应的增益值相乘,以得到降噪后语音数据。
进一步地,所述梳状滤波器的设置公式如下:
x′[i]=x[i]+a×P
其中,x[i]和x′[i]分别表示滤波前后的信号,a为滤波器系数,P为含基频部分语音信号生成的频域数据。
进一步地,所述滤波器系数采用以下公式计算:
其中,Expe为所述带噪语音信号能量与其基音能量的相关值,gb为增益值。
本发明提供的技术方案带来的有益效果如下:
(1)提高了在低信噪比以及不平稳噪声的环境下的降噪效果;
(2)对带噪语音进行降噪的同时保证语音识别系统的鲁棒性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的频带增益模型框架示意图;
图2是本发明实施例提供的频带增益模型结构示意图;
图3是本发明实施例提供的频带增益模型中SRU单元的结构示意图;
图4是本发明实施例提供的用于车载场景的语音降噪方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,更清楚地了解本发明的目的、技术方案及其优点,以下结合具体实施例并参照附图对本发明实施例中的技术方案进行清楚、完整地描述。需要说明的是,附图中未绘示或描述的实现方式,为所属技术领域中普通技术人员所知的形式。另外,虽然本文可提供包含特定值的参数的示范,但应了解,参数无需确切等于相应的值,而是可在可接受的误差容限或设计约束内近似于相应的值。显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。除此,本发明的说明书和权利要求书中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本发明的一个实施例中,提供了一种频带增益模型的训练方法,所述频带增益模型基于神经网络模型,采用SRU架构,所述频带增益模型能够依据带噪语音信号的特征值对其多个频段的信号进行降噪增益。
所述训练方法包括以下步骤:
S1、将纯语音信号和纯噪声信号分别分帧后,并逐帧按照频率进行分带,得到n个纯语音频带和n个纯噪声频带,计算各纯语音频带和各纯噪声频带的能量;将所述纯语音信号和纯噪声信号混合后,得到带噪语音信号,对其进行分帧处理,并逐帧按照相应频率进行分带,得到n个带噪语音频带,计算各带噪语音频带的能量;
根据各纯噪声频带的能量,以得到所述纯噪声频带相应的n个对数谱;
根据所述纯语音频带的能量与相应频段的所述带噪语音频带的能量的比值,以得到n个增益期望值;
根据各带噪语音频带的能量,得到相应的对数功率谱,并通过反离散余弦变换得到n个MFCC系数,以作为所述带噪语音频带相应的n个特征值;
S2、将所述n个特征值输入所述频带增益模型,以输出各带噪语音频带对应的增益值,并利用所述增益期望值以及所述对数谱作为标签进行神经网络训练,以实现对所述频带增益模型的参数优化。
其中,所述频带增益模型包括第一SRU层、第二SRU层、第三SRU层、第四SRU层、第五SRU层、第一全连接层和第二全连接层,
所述特征值输入至所述第一SRU层,使用tanh激活函数处理后输出;
所述特征值输入至所述第一全连接层,使用tanh激活函数处理后输出至所述第二SRU层,在所述第二SRU层,使用Relu激活函数处理后输出至所述第三SRU层,所述第二SRU层中的SRU单元能够进行并行计算,并能通过遗忘门更新隐藏态;
在所述第三SRU层中,对所述第一全连接层的输出和第二SRU层的输出使用Relu激活函数处理后输出;
在所述第四SRU层中,对所述第一SRU层的输出和第三SRU层的输出使用Relu激活函数处理后输出;
在所述第五SRU层中,对所述第一SRU层的输出、第三SRU层的输出和第四SRU层的输出使用Relu激活函数处理后输出;
在所述第二全连接层中,对所述第五SRU层的输出使用sigmoid激活函数处理后输出,以得到所述带噪语音频带的增益值。
为了增强训练的效果以及加快训练的时间,至少可以采用以下三种方式以丰富所述带噪语音的特征值的来源:
方式一:对所述带噪语音信号的各帧进行清音判断及处理,以得到其基音周期值,并将所述基音周期值作为新增特征值输入至所述频带增益模型一起进行训练。
方式二:在方式一的基础上,在根据所述基音周期值,得到所述带噪语音信号对应的基音信号带,计算所述基音信号带的能量,并结合所述带噪语音频带的能量一起做离散余弦变换,以得到关联参数,将其作为新增特征值输入至所述频带增益模型一起进行训练。
方式三:对所述特征值做一阶导数和/或二阶导数处理,将得到的结果作为新增特征值输入至所述频带增益模型一起进行训练。
需要注意的是,以上三种方式可同时使用,大量地增加了所述带噪语音的特征值,将其一起输入所述频带增益模型进行模型训练,效果更佳。
在本发明的一个实施例中,针对频带增益模型,进行以下方式训练。
步骤1使用录音设备采集行车过程中的纯噪声音频数据和纯语音频数据。
其中,行车过程中的纯噪声音频数据指在某一车速以及车窗和空调状态下对应采集的纯噪声音频数据;车速数据即为对应背景噪声的车速,数值为整数,如80代表80km/h;空调数据表示该背景噪声下空调风挡的挡位信息,这里分别为[关闭,半开]状态;车窗数据表示该背景噪声下的车窗开闭状态信息,这里分别为[关闭,半开,全开]状态。数据包括车速30-120区间,四个车窗和空调不同开启状态,各种行车工况下的噪声。
步骤2对收集的音频数据执行升采样或降采样操作,统一纯语音音频数据和纯噪声音频数据的采样率,采样率为8k-48k,以分别作为纯噪声信号和纯语音信号。
步骤3对纯语音信号以及纯噪声信号进行分帧,帧长15~30ms,帧移5~10ms。
步骤4将步骤3得到的音频数据进行加窗,加平顶窗,窗函数表达式为:
步骤5将步骤4得到音频数据进行傅里叶变换,其变换公式为:
其中,Xn(ejω)是针对时域信号x(n)的傅里叶变换,下标n表示时间标号,{ω(n)}为实数窗序列。
步骤6将步骤5得到的音频数据逐帧按频率进行分带,为符合人耳听觉特征,此处分带采用梅尔滤波器,使用65个滤波器分成66个频段,其中梅尔频率与实际频率的关系如下:
其中,Fmel是以Mel为单位的感知频率,f是以Hz为单位的实际频率。
步骤7将步骤6分带后的信号进行能量的计算,能量计算公式如下:
E(k)=|X(k)|2
则频带的能量为:
步骤8纯噪声信号经步骤7的计算方式后得到纯噪声能量,使用纯噪声能量计算得到66个对数谱,其计算公式如下:
Ln[i]=log10(10-2+En[i])
其中Ln[i]为对数谱,En[i]为纯噪声能量。
步骤9将所述纯语音信号和纯噪声信号进行混合,对得到混合后的音频数据进行降采样,以节省计算量,以得到带噪语音信号,并进行相应的分帧处理。
步骤10对带噪语音使用步骤6中的梅尔滤波器进行滤波,得到相应的带噪语音频带,将每个带噪语音频带内的能量进行叠加。
步骤11将每个滤波器的输出取对数,得到相应频带的对数功率谱,并进行反离散余弦变换,得到66个MFCC系数,将得到66个MFCC系数作为特征值,分别记作x1~x66。
式中,x′(k)为第k个滤波器输出功率谱,L为MFCC系数的个数。
步骤12针对x1~x66的前18个系数分别做一阶、二阶导数处理,以增加36个特征值,分别记作x67~x102。
一阶求导:
二阶求导:
步骤13计算带噪语音信号的基音周期,作为特征值,记作x103。
其计算步骤包括:
(1)用900Hz低通滤波器对一帧带噪语音信号{x(n)}进行滤波,并去掉开头的20个输出值不用,得到的数据记作{x′(n)};
(2)分别求{x′(n)}的前部100~120个样点和后部100~120个样点的最大幅度,并取其中较小的一个,乘以因子0.68作为门限电平CL;
(3)对{x(n)}分别进行中心消波得到{y(n)}和三电平量化得到{y′(n)};
(4)求{y(n)}、{y′(n)}的互相关值R(k),计算公式如下:
此处k的取值范围20~150,相应于基音频率范围60~500Hz,R(0)相当于短时能量;
(5)得到互相关值后,可以得到R(20)~R(150)中的最大值Rmax,如果Rmax<0.25R(0),则认为本帧为清音,令其基音周期值P为0,否则基音周期P即为使R(k)为最大值Rmax时位置k的值,即P=argmax20≤k≤150R(k)。
步骤14根据步骤13得到带噪语音中基音信号带,使用步骤7的能量计算公式,计算每个带噪语音频带的能量数据Ex以及其基音信号带的能量数据Ep。其中wb(k)为频带在频点k处的振幅。
Ex=∑kwb(k)|X(k)|2
Ep=∑kwb(k)|P(k)|2
利用得到的相关能量,做离散余弦变换,以计算得到12个值x104~x115做为特征值。离散余弦变换公式如下:
其中,f(i)为原始的信号,F(u)是离散余弦变换后的系数,N为原始信号的点数,c(u)为补偿系数,可以使离散余弦变换矩阵为正交矩阵。
步骤15利用变换后的纯语音能量与带噪语音能量的比值来计算出66个增益期望值g[i],增益计算公式如下:
其中,Ey(b)为纯语音能量,Ex(b)为带噪语音能量。
如果g[i]>1,令g[i]=1;如果纯语音的端点检测值为零、纯语音的特征提取得到的静音标记为零或g[i]=0,令g[i]=-1。
步骤16将115个特征值输x1~x115入所述频带增益模型中,所述频带增益模型共7层,66个输出,共450个神经元,如图1和图2所示,其模型内部数据流程如下:
步骤16-1首先进入全连接层,使用tanh激活函数处理,设置权重约束,损失函数权重0.3~0.5,对主权重矩阵进行约束0.45~0.5,对偏置向量进行约束为0.45~0.5,施加在权重上的正则项为10-6~10-7,施加在偏置向量上的正则项为10-6~10-7,共输出64个值。
步骤16-2将步骤16-1得到的64个值输入SRU层,依靠输入的xt进行并行计算,其中W表示权重矩阵。
ft=σ(Wf*xt+bf)
rt=σ(Wr*xt+br)
步骤16-3使用步骤16-2中计算出的值通过遗忘门来更新隐藏态ct,最终得到输出ht,其中g表示激活函数。
ht=g(ct)
步骤16-4参见图3,步骤16-2和步骤16-3中的SRU单元,运用Relu激活函数处理,输出36个值。
步骤16-5将步骤16-1和步骤16-4中的输出放入一个SRU层,使用Relu激活函数处理,共有42个输出。
步骤16-6将最开始输入的115个特征值放入一个SRU层,使用tanh激活函数处理,共有86个输出。
步骤16-7将步骤16-5和步骤16-6中两层的输出值放入一个新的SRU层,使用Relu激活函数处理,共输出48个值。
步骤16-8将步骤16-5、步骤16-6和步骤16-7中的三层的输出放入一个新的SRU层,使用Relu激活函数处理,共输出108个值。
步骤16-9将步骤16-8的输出作为一个全连接层的输入,使用sigmoid激活函数处理,共输出66个增益值。
通过以上步骤已完成对频带增益模型的基础构建。
步骤17将提取到的115个特征值输入至所述频带增益模型,将66个增益期望值以及66个对数谱做为标签进行训练。整个模型有一组66维的输出,它们作用于不同频率,从而完成噪声抑制的工作。
具体地,将数据分成30~40/份,即一次训练选取30~40个样本,训练100~120次,将训练集中10%~20%的数据作为验证集,训练后得到增益数据。
其中,设置训练所用到的优化器、损失函数,优化器使用adam,用于梯度控制,使用交叉熵损失函数。
式中,x表示样本,y表示实际的标签,a表示预测的输出,n表示样本总数量。
需要说明的是该实施例的步骤没有严格的先后顺序,可根据实际进行灵活调换或删减,在不付出实质性对该方法的修改仍属于被实施例的保护范围。
在本发明的一个实施例中,提供了一种适用于车载场景的语音降噪方法,包括以下步骤:
P1、将带噪语音进行分帧处理,并逐帧按照频率进行分带,得到m个带噪语音频带,提取其对应的m个特征值,并输入所述的频带增益模型,以得到所述带噪语音频带对应的增益值;
P2、采用梳状滤波器对所述带噪语音频带进行基音滤波;
P3、计算所述带噪语音频带滤波后的能量,以得到所述带噪语音频带在滤波前后的能量比值;
P4、将所述带噪语音频带滤波后的信号与所述能量比值相乘,再与所述带噪语音频带对应的增益值相乘,以得到降噪后语音数据。
其中,所述梳状滤波器的设置公式如下:
x′[i]=x[i]+a×P
式中,x[i]和x′[i]分别表示滤波前后的信号,P为含基频部分语音信号生成的频域数据,a为滤波器系数,所述滤波器系数采用以下公式计算:
式中,Expe为所述带噪语音信号能量与其基音能量的相关值,gb为增益值。
车载语音识别系统在低信噪比的行车工况中效果差,其中一个重要原因是真实车载环境下会产生许多不稳定性噪声,影响语音识别的效果。传统的语音降噪技术不能很好的完成真实场景下的语音降噪,本发明提供的方法能够针对不同车速以及不同的开窗和空调情况下的场景进行实时的语音降噪,有效解决多种行车环境下语音识别不准确的问题。
具体针对处理车载降噪时,参见图4,包括以下步骤:
步骤a使用录音设备采集各种行车场景下的语音音频数据,语音音频数据为不同行驶工况下的带噪语音,将带噪语音进行分帧处理,并逐帧按照频率进行分带,得到带噪语音频带,对带噪语音频带提取特征值输入训练好的频带增益模型中,以得到相应的增益值,上述实施例中含有提取特征值的过程,再此不再赘述。
步骤b设计截至频率为800Hz的低通滤波器,使带噪语音通过该滤波器,除高频噪音;。
步骤c根据步骤a获得的增益值完成基音滤波,基音滤波采用梳状滤波器,梳状滤波器的公式如下:
x[i]=x[i]+a*P
其中,a为滤波器系数,P为含基频部分语音信号生成的频域数据。使用滤波器重新量化到原始语音的能量。
其中,滤波器系数采用以下公式计算:
式中,Expe为带噪语音频带信号能量与其基音能量的相关值,gb为增益值,当Expe≥gb时,则a=1;若gb=1,则a=0,此时没有噪声;若Expe=0,则a=0,此时没有基音。
Expe的计算公式如下:
其中,
Expe′=∑kwb(k)X(k)P(k)
Ex=∑kwb(k)|X(k)|2
Ep=∑kwb(k)|P(k)|2
从而得到Expe的展开公式:
其中,Expe是对Expe′做标准化处理,X(k)为信号,P(k)为含基频部分语音信号生成的频域数据。其中wb(k)为频带在频点k处的振幅,Ex为带的能量数据,Ep为对应基音信号带的能量数据。
步骤d计算步骤c滤波后的带噪语音频带的能量newE。
步骤e计算滤波前带噪语音频带能量与相应滤波后带噪语音频带能量的比值,计算公式如下:
步骤f将滤波后信号X[i]与步骤e得到的比值相乘得到信号X′[i],使每个频带的能量与原始信号的能量一样。
X′[i]=X[i]×norm
步骤g将经过步骤f处理后得到的信号X′[i]乘以每个频带对应的增益值,得到降噪后的语音数据X″[i]。
X″[i]=X′[i]×g[i]
步骤h将每一帧数据进行快速傅里叶逆变换操作,将频域信号转换到时域。
快速傅里叶逆变换:
步骤i合成每一帧处理后的数据,输出降噪后的音频流。
传统的基于信号处理的语音降噪方法中,有很多参数需要人工估计或者微调,导致得到的参数不够准确,对噪声估计的也不够准确,在低信噪比以及不平稳噪声的环境下,降噪效果不够理想。本发明将传统信号处理技术与深度学习方法相结合,用数据驱动的方式训练学习降噪参数,保留传统信号处理算法的实时性优势,提升了算法的降噪性能,同时设计算法时,兼顾人耳的听觉特性和语音识别模型的感知特性,使得对带噪语音进行降噪的同时保证语音识别系统的鲁棒性。
本发明提供频带增益模型的训练方法及用于车载场景的语音降噪方法将传统信号处理与深度学习相结合,针对行车场景的噪声特性,设计神经网络模型进行参数学习,得到噪声的频谱估计权重数据。依据人耳的听觉特性规律和语音识别模型中对语音特征的依赖,对接收的带噪语音按照梅尔倒谱进行分频带滤波操作,将信号的每一帧数据进行增益控制,从而实现语音降噪。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种频带增益模型的训练方法,其特征在于,所述频带增益模型基于神经网络模型,采用SRU架构,所述频带增益模型能够依据带噪语音信号的特征值对其多个频段的信号进行降噪增益;
所述频带增益模型包括第一SRU层、第二SRU层、第三SRU层、第四SRU层、第五SRU层、第一全连接层和第二全连接层,
所述特征值输入至所述第一SRU层,使用tanh激活函数处理后输出;所述特征值输入至所述第一全连接层,使用tanh激活函数处理后输出至所述第二SRU层,在所述第二SRU层,使用Relu激活函数处理后输出至所述第三SRU层;在所述第三SRU层中,对所述第一全连接层的输出和第二SRU层的输出使用Relu激活函数处理后输出;在所述第四SRU层中,对所述第一SRU层的输出和第三SRU层的输出使用Relu激活函数处理后输出;在所述第五SRU层中,对所述第一SRU层的输出、第三SRU层的输出和第四SRU层的输出使用Relu激活函数处理后输出;在所述第二全连接层中,对所述第五SRU层的输出使用sigmoid激活函数处理后输出,以得到所述带噪语音频带的增益值;
所述训练方法包括以下步骤:
S1、将纯语音信号和纯噪声信号分别分帧后,并逐帧按照频率进行分带,得到n个纯语音频带和n个纯噪声频带,计算各纯语音频带和各纯噪声频带的能量;将所述纯语音信号和纯噪声信号混合后,得到带噪语音信号,对其进行分帧处理,并逐帧按照相应频率进行分带,得到n个带噪语音频带,计算各带噪语音频带的能量;
根据各纯噪声频带的能量,以得到所述纯噪声频带相应的n个对数谱;
根据所述纯语音频带的能量与相应频段的所述带噪语音频带的能量的比值,以得到n个增益期望值;
根据各带噪语音频带的能量,得到相应的对数功率谱,并通过反离散余弦变换得到n个MFCC系数,以作为所述带噪语音频带相应的n个特征值;
S2、将所述n个特征值输入所述频带增益模型,以输出各带噪语音频带对应的增益值,并利用所述增益期望值以及所述对数谱作为标签进行神经网络训练,以实现对所述频带增益模型的参数优化。
2.根据权利要求1所述的频带增益模型的训练方法,其特征在于,所述第二SRU层中的SRU单元能够进行并行计算,并能通过遗忘门更新隐藏态。
3.根据权利要求1所述的频带增益模型的训练方法,其特征在于,对所述带噪语音信号的各帧进行清音判断及处理,以得到其基音周期值,并将所述基音周期值作为新增特征值输入至所述频带增益模型一起进行训练。
4.根据权利要求3所述的频带增益模型的训练方法,其特征在于,根据所述基音周期值,得到所述带噪语音信号对应的基音信号带,计算所述基音信号带的能量,并结合所述带噪语音频带的能量一起做离散余弦变换,以得到关联参数,将其作为新增特征值输入至所述频带增益模型一起进行训练。
5.根据权利要求1所述的频带增益模型的训练方法,其特征在于,对所述特征值做一阶导数和/或二阶导数处理,将得到的结果作为新增特征值输入至所述频带增益模型一起进行训练。
6.根据权利要求1所述的频带增益模型的训练方法,其特征在于,所述纯语音信号、纯噪声信号和带噪语音信号均采用梅尔滤波器进行分带。
7.一种适用于车载场景的语音降噪方法,其特征在于,包括以下步骤:
P1、将带噪语音进行分帧处理,并逐帧按照频率进行分带,得到m个带噪语音频带,提取其对应的m个特征值,并输入权利要求1至6中任一项所述的频带增益模型,以得到所述带噪语音频带对应的增益值;
P2、采用梳状滤波器对所述带噪语音频带进行基音滤波;
P3、计算所述带噪语音频带滤波后的能量,以得到所述带噪语音频带在滤波前后的能量比值;
P4、将所述带噪语音频带滤波后的信号与所述能量比值相乘,再与所述带噪语音频带对应的增益值相乘,以得到降噪后语音数据。
8.根据权利要求7所述的适用于车载场景的语音降噪方法,其特征在于,所述梳状滤波器的设置公式如下:
x′[i]=x[i]+a×P
其中,x[i]和x′[i]分别表示滤波前后的信号,a为滤波器系数,P为含基频部分语音信号生成的频域数据。
9.根据权利要求8所述的适用于车载场景的语音降噪方法,其特征在于,所述滤波器系数采用以下公式计算:
其中,Expe为所述带噪语音信号能量与其基音能量的相关值,gb为增益值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110985541.4A CN113782011B (zh) | 2021-08-26 | 2021-08-26 | 频带增益模型的训练方法及用于车载场景的语音降噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110985541.4A CN113782011B (zh) | 2021-08-26 | 2021-08-26 | 频带增益模型的训练方法及用于车载场景的语音降噪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113782011A CN113782011A (zh) | 2021-12-10 |
CN113782011B true CN113782011B (zh) | 2024-04-09 |
Family
ID=78839274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110985541.4A Active CN113782011B (zh) | 2021-08-26 | 2021-08-26 | 频带增益模型的训练方法及用于车载场景的语音降噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113782011B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114387772B (zh) * | 2021-12-15 | 2022-11-25 | 深圳市东峰盛科技有限公司 | 一种安防监控用具有警报结构的摄像头 |
CN117198308B (zh) * | 2023-09-11 | 2024-03-19 | 辽宁工程技术大学 | 一种车内反馈音效的风格迁移方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999012155A1 (en) * | 1997-09-30 | 1999-03-11 | Qualcomm Incorporated | Channel gain modification system and method for noise reduction in voice communication |
JP2005348173A (ja) * | 2004-06-03 | 2005-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 雑音低減方法、この方法を実施する装置、プログラムおよびその記録媒体 |
CN103646648A (zh) * | 2013-11-19 | 2014-03-19 | 清华大学 | 一种噪声功率估计方法 |
CN108877782A (zh) * | 2018-07-04 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN109065067A (zh) * | 2018-08-16 | 2018-12-21 | 福建星网智慧科技股份有限公司 | 一种基于神经网络模型的会议终端语音降噪方法 |
CN109767782A (zh) * | 2018-12-28 | 2019-05-17 | 中国科学院声学研究所 | 一种提高dnn模型泛化性能的语音增强方法 |
CN110120225A (zh) * | 2019-04-01 | 2019-08-13 | 西安电子科技大学 | 一种基于gru网络的结构的音频降噪系统及方法 |
CN110335620A (zh) * | 2019-07-08 | 2019-10-15 | 广州欢聊网络科技有限公司 | 一种噪声抑制方法、装置和移动终端 |
CN110610715A (zh) * | 2019-07-29 | 2019-12-24 | 西安工程大学 | 一种基于cnn-dnn混合神经网络的降噪方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060028337A1 (en) * | 2004-08-09 | 2006-02-09 | Li Qi P | Voice-operated remote control for TV and electronic systems |
US8005668B2 (en) * | 2004-09-22 | 2011-08-23 | General Motors Llc | Adaptive confidence thresholds in telematics system speech recognition |
ES2928295T3 (es) * | 2020-02-14 | 2022-11-16 | System One Noc & Dev Solutions S A | Método de mejora de las señales de voz telefónica basado en redes neuronales convolucionales |
-
2021
- 2021-08-26 CN CN202110985541.4A patent/CN113782011B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1999012155A1 (en) * | 1997-09-30 | 1999-03-11 | Qualcomm Incorporated | Channel gain modification system and method for noise reduction in voice communication |
JP2005348173A (ja) * | 2004-06-03 | 2005-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 雑音低減方法、この方法を実施する装置、プログラムおよびその記録媒体 |
CN103646648A (zh) * | 2013-11-19 | 2014-03-19 | 清华大学 | 一种噪声功率估计方法 |
CN108877782A (zh) * | 2018-07-04 | 2018-11-23 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN109065067A (zh) * | 2018-08-16 | 2018-12-21 | 福建星网智慧科技股份有限公司 | 一种基于神经网络模型的会议终端语音降噪方法 |
CN109767782A (zh) * | 2018-12-28 | 2019-05-17 | 中国科学院声学研究所 | 一种提高dnn模型泛化性能的语音增强方法 |
CN110120225A (zh) * | 2019-04-01 | 2019-08-13 | 西安电子科技大学 | 一种基于gru网络的结构的音频降噪系统及方法 |
CN110335620A (zh) * | 2019-07-08 | 2019-10-15 | 广州欢聊网络科技有限公司 | 一种噪声抑制方法、装置和移动终端 |
CN110610715A (zh) * | 2019-07-29 | 2019-12-24 | 西安工程大学 | 一种基于cnn-dnn混合神经网络的降噪方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113782011A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020177371A1 (zh) | 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质 | |
CN113782011B (zh) | 频带增益模型的训练方法及用于车载场景的语音降噪方法 | |
JP5230103B2 (ja) | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
CN108831499A (zh) | 利用语音存在概率的语音增强方法 | |
CN103531204B (zh) | 语音增强方法 | |
CN107845389A (zh) | 一种基于多分辨率听觉倒谱系数和深度卷积神经网络的语音增强方法 | |
CN112735456A (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN110942766A (zh) | 音频事件检测方法、系统、移动终端及存储介质 | |
CN111583954A (zh) | 一种说话人无关单通道语音分离方法 | |
CN111785285A (zh) | 面向家居多特征参数融合的声纹识别方法 | |
CN102157156A (zh) | 一种单通道语音增强的方法和系统 | |
Wolfe et al. | Towards a perceptually optimal spectral amplitude estimator for audio signal enhancement | |
JP4757775B2 (ja) | 雑音抑圧装置 | |
CN114189781A (zh) | 双麦神经网络降噪耳机的降噪方法及系统 | |
CN112259117B (zh) | 一种目标声源锁定和提取的方法 | |
CN103971697B (zh) | 基于非局部均值滤波的语音增强方法 | |
CN114566179A (zh) | 一种时延可控的语音降噪方法 | |
Lu et al. | Controlling tradeoff between approximation accuracy and complexity of a smooth function in a reproducing kernel Hilbert space for noise reduction | |
CN115312073A (zh) | 一种联合信号处理和深度神经网络的低复杂度的残余回声抑制方法 | |
CN111491245B (zh) | 基于循环神经网络的数字助听器声场识别算法及实现方法 | |
CN114822573A (zh) | 语音增强方法、装置、耳机设备以及计算机可读存储介质 | |
CN103270772A (zh) | 信号处理设备、信号处理方法和信号处理程序 | |
Al-Mafrachi et al. | A Robust Acoustic Head Orientation Estimation and Speech Enhancement for In-Car Communication Systems | |
Li et al. | Non-linear spectral contrast stretching for in-car speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |