CN111968666B - 基于深度域自适应网络的助听器语音增强方法 - Google Patents
基于深度域自适应网络的助听器语音增强方法 Download PDFInfo
- Publication number
- CN111968666B CN111968666B CN202010847510.8A CN202010847510A CN111968666B CN 111968666 B CN111968666 B CN 111968666B CN 202010847510 A CN202010847510 A CN 202010847510A CN 111968666 B CN111968666 B CN 111968666B
- Authority
- CN
- China
- Prior art keywords
- domain
- data
- enhancement model
- speech
- discriminator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000012549 training Methods 0.000 claims abstract description 42
- 238000013526 transfer learning Methods 0.000 claims abstract description 39
- 230000006978 adaptation Effects 0.000 claims abstract description 27
- 230000008485 antagonism Effects 0.000 claims abstract description 19
- 238000001228 spectrum Methods 0.000 claims abstract description 7
- 238000013136 deep learning model Methods 0.000 claims abstract description 4
- 238000013508 migration Methods 0.000 claims description 44
- 230000005012 migration Effects 0.000 claims description 44
- 239000004576 sand Substances 0.000 claims description 18
- 230000003044 adaptive effect Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000003042 antagnostic effect Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 208000032041 Hearing impaired Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 208000016354 hearing loss disease Diseases 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004599 local-density approximation Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/50—Customised settings for obtaining desired overall acoustical characteristics
- H04R25/505—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing
- H04R25/507—Customised settings for obtaining desired overall acoustical characteristics using digital signal processing implemented by neural network or fuzzy logic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L2021/065—Aids for the handicapped in understanding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Neurosurgery (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种基于深度域自适应网络的助听器语音增强方法,包括:分别从带噪语音和干净语音中提取帧级对数功率谱特征;构建基于编码器‑解码器结构的深度学习模型作为基线语音增强模型;在基线语音增强模型的基础上,构建基于深度域自适应网络的迁移学习语音增强模型;迁移学习语音增强模型在特征编码器和重建解码器之间引入域适配层和相对鉴别器;利用域对抗性损失训练迁移学习语音增强模型;在增强阶段,根据训练后的深度域自适应迁移学习语音增强模型,输入目标域带噪语音的帧级LPS特征,重建增强语音波形。本发明通过域对抗性训练来激励特征编码器生成域不变性特征,从而提高语音增强模型对未见噪声的适应性。
Description
技术领域
本发明涉及语音增强技术领域,尤其涉及一种基于深度域自适应网络的助听器语音增强方法。
背景技术
在复杂环境下,目标声音通常淹没在噪声中,声音频谱分析的结果受到严重影响,使得自适应降频算法性能急剧下降。同时,听障患者的一些听障特征,如听觉阈值较高,短时特征辨认困难,以及退化的听觉外周,使得复杂场景下的语音理解成为影响使用率的普遍问题和难题。
经典的单通道噪声抑制器基于统计信号处理方法,其重点在于如何从含噪语音中有效估计噪声谱,从而对其进行抑制。典型算法包括谱减法、维纳滤波法、最小均方误差法、最小控制的迭代平均的噪声估计算法及其改进算法等。这类算法能够适应噪声水平并在平稳噪声下表现良好。但是这些算法难以处理真实场景中的非平稳噪声,并且这类算法中很多不合理的假设和经验参数的设置限制了它们性能的上限。
近年来基于数据驱动的语音增强算法取得重要进展,监督语音增强算法性能表现优异。然而,基于数据驱动的语音增强算法的关键问题之一是对未经训练的条件的泛化性。由于现实环境的复杂性,实际场景的声学环境可能与训练语料的声学环境有着很大的差异。解决泛化问题的常见手段是扩充训练数据,即使用尽可能多的声学条件训练模型。但对于复杂的现实环境,涵盖实际声学环境中无限潜在噪声与语言类型是不切实际的,环境中的噪声水平也是在不断变化的,因此监督语音增强模型的失配问题是始终存在的。
通过上述的描述,如何建立一种能够自适应环境变化的语音增强模型,是提高语音增强鲁棒性和性能的关键,对于提升听障患者的语音理解度和算法普适性具有重要研究意义。
申请号为CN110111803A的专利公开了一种基于自注意多核最大均值差异的迁移学习语音增强方法,在多核最大均值差异前端添加自注意力算法,通过最小化源域注意到的特征和目标域注意到的特征之间的多核最大均值差异,实现对无标签的目标域的迁移学习。该专利通过迁移学习算法实现了未知噪声类型和未知信噪比的迁移,但仅实现了一种噪声到另一种噪声的迁移,其适用场景有局限性。其次,该算法在噪声类型和信噪比均不匹配的情形下迁移效果有限。而在本发明中,将多核最大均值差异与域对抗性训练相结合,通过对抗性损失引导模型学习域不变特征,实现了多种噪声到多种噪声的迁移,且在噪声类型和信噪比均不匹配的情形下有明显的迁移效果。
申请号为CN110570433A的专利公开了基于生成对抗网络的图像语义分割模型构建方法和装置,该方法使用分割模型训练源域数据集,再使用生成对抗网络将源域数据集转换为新的目标域数据集,并使用新的目标域数据集微调源域分割模型。该专利主要应用于图像语义分割领域,与本专利的应用场景有较大区别。其次,在方法上,该专利是先通过生成对抗模型对从源域数据集中所提取出的图像与目标域数据集进行对抗训练,生成新的目标域数据集,并在新的数据集上微调原模型。而在本专利中,则是在原模型的训练过程中引入对抗性损失以引导模型产生域不变特征,从而实现对目标域的迁移。
论文《利用生成噪音提高语音增强方法的泛化能力》主要研究的是利用生成对抗网络生成多种噪声类型,以提高训练集噪声类型的多样性,从而提升语音增强的泛化性。该论文与本专利的算法有一定区别,本专利的算法不是通过增加训练噪声的类型来提升算法对未见噪声的泛化性,而是利用迁移学习的算法引导模型适应目标域的数据,从而提升对目标域未见噪声的增强效果。
发明内容
发明目的:针对现有技术中单通过语音增强方法面对未见声学环境出现模型失配的缺陷,本发明公开了一种基于深度域自适应网络的助听器语音增强方法,通过融合两种迁移策略,在迁移学习语音增强模型中引入相对鉴别器和域适配层来进行对抗性训练,通过域对抗性训练来激励特征编码器生成域不变性特征,从而提高语音增强模型对未见噪声的适应性。
技术方案:为实现上述技术目的,本发明采用以下技术方案。
一种基于深度域自适应网络的助听器语音增强方法,包括以下步骤:
S1:建立训练输入样本:分别从带噪语音和干净语音中提取帧级对数功率谱特征LPS,将所有的对数功率谱特征LPS作为输入样本;
S2:构建基线语音增强模型:在深度神经网络中构建基于编码器-解码器结构的深度学习模型作为基线语音增强模型;其中编码器-解码器结构为连接的特征编码器和重建解码器;
S3:构建迁移学习语音增强模型:在步骤S2的基线语音增强模型的基础上,构建基于深度域自适应网络的迁移学习语音增强模型;迁移学习语音增强模型在特征编码器和重建解码器之间引入并联连接的域适配层和相对鉴别器;
S4:在训练阶段,采用两种迁移策略训练迁移学习语音增强模型:利用域对抗性损失训练迁移学习语音增强模型,通过域的对抗性引导迁移学习语音增强模型学习域不变特征;
S5:在增强阶段,根据训练后的深度域自适应网络的迁移学习语音增强模型,输入目标域带噪语音的帧级LPS特征,重建增强语音波形,实现语音增强。
优选地,所述S2中基线语音增强模型的结构为:基线模型为3层深度神经网络模型,包括依次连接的两层双向长短时记忆网络BLSTM和一层全连接层,前两层双向长短时记忆网络BLSTM分别作为特征编码器与重建解码器,最后一层全连接层作为特征变换的映射层。
优选地,所述S3中迁移学习语音增强模型的结构为:在基线语音增强模型的编码器-解码器结构中间引入两个额外的域自适应模块,两个域自适应模块分别是用于计算多核最大均值差异MK-MMD的域适配层,以及用于计算域对抗性损失的相对鉴别器,所述域适配层和相对鉴别器并列连接;其中域适配层仅用于计算MK-MMD,没有需要训练的网络参数,而相对鉴别器包含一层长短时记忆网络LSTM以及一层具有至少一个神经元的全连接层。
优选地,所述S4中采用两种迁移策略训练迁移学习语音增强模型,其具体过程为:
S41、迁移学习语音增强模型中包括两个流向的训练数据,分别为带标签的源域数据的LPS特征和不带标签的目标域数据的LPS特征,两个流向的训练数据同时输入特征编码器,提取各自的深度特征,在此过程中两个数据共享权重;两个数据同时执行步骤S42、S43和S44,即通过三个模块分别进行计算;
S42、重建解码器计算回归损失:带标签的源域数据Xs被馈送到重建解码器中,重建其LPS特征,然后计算重建的LPS特征与源域标签之间的平均绝对损失MAE作为整个迁移学习语音增强模型的回归损失;该损失用于衡量源域自回归任务的性能,使该损失最小化可以最佳拟合源域数据集;
S43、域适配层计算多核最大均值差异:带标签的源域数据Xs和不带标签的目标域数据XT输入至域适配层中,用于计算多核最大均值差异,通过最小化多核最大均值差异可以使得带标签的源域数据Xs和不带标签的目标域数据XT的分布尽可能地接近,使得特征编码器产生对不同域噪声具有鲁棒性的域不变特征;
S44、相对鉴别器计算相对生成对抗损失:带标签的源域数据Xs和不带标签的目标域数据XT输入到相对鉴别器中,相对鉴别器可以看作源域和目标域之间的二分分类器;两个数据通过相对鉴别器输出的0-1之间的判决量计算相对生成对抗损失;最小化相对生成对抗损失能够使得相对鉴别器更好地区别带标签的源域数据Xs和不带标签的目标域数据XT;
S45、对迁移学习语音增强模型的参数进行更新:结合步骤S42、S43和S44的计算结果,采用梯度下降法对迁移学习语音增强模型的参数进行更新。
优选地,所述步骤S44中相对鉴别器计算相对生成对抗损失前,在特征编码器和相对鉴别器之间插入梯度反转层GRL,在前向传播即特征编码器向相对鉴别器输入数据时,GRL作为标识层,使输入保持不变;而在反向传播即相对鉴别器向特征编码器输入数据时,相对鉴别器的相对生成对抗损失以反向的权重作用于特征编码器,形成编码器与鉴别器的对抗,通过相对鉴别器和特征编码器之间的极大极小博弈以实现域的迁移,达到特征的域不变性。
优选地,所述步骤S42中整个迁移学习语音增强模型的回归损失的计算公式为:
其中,Lreg为整个迁移学习语音增强模型的回归损失,N为批训练数目,Y为干净语音的标签,Dec()为重建解码器。
优选地,所述步骤S43中最小化多核最大均值差异的计算公式为:
优选地,所述步骤S44中相对生成对抗损失的计算公式为:
优选地,所述步骤S45中对迁移学习语音增强模型的参数进行更新,其计算公式为:
其中,α是学习率,Lreg为整个迁移学习语音增强模型的回归损失,LMK-MMD为最小化多核最大均值差异,LD为相对生成对抗损失,θEnc、θDec和θD分别表示特征编码器、重建解码器以及相对鉴别器的待训练参数,λ和μ分别为相对生成对抗损失和多核最大均值差异的权重参数。
优选地,所述S4中采用两种迁移策略训练迁移学习语音增强模型,实现从源域噪声类型向目标域噪声类型的迁移;所述迁移学习方法中的源域噪声类型和信噪比与目标域噪声类型和信噪比互不重叠。
有益效果:
1、本发明融合了两种迁移策略,在迁移学习语音增强模型中引入相对鉴别器和域适配层来进行对抗性训练,通过域对抗性训练来激励特征编码器生成域不变性特征,从而提高语音增强模型对未见噪声的适应性;
2、本发明引入相对鉴别器计算相对生成对抗损失作为域对抗性损失,更好地引导模型向目标域适应;本发明引入域适配层计算多核最大均值差异作为域对抗性损失的正则项,从而进一步拉近域之间的边缘分布距离,最终实现对无标签的目标域语音的迁移学习,提高语音增强性能;
3、本发明的方法能够提高语音增强的鲁棒性和性能,方法巧妙新颖,具有良好的应用前景,可应用于助听器、语音通信和终端设备的语音增强等领域中。
附图说明
图1为本发明的方法流程图;
图2为本发明的信号流向图;
图3为本发明的性能指标结果图。
具体实施方式
以下结合附图对本发明做进一步的说明和解释。
如附图1所示,本发明的一种基于深度域自适应网络的助听器语音增强方法,包括以下步骤:
步骤(A),建立训练输入样本:选取多组数据构建样本集,每组数据中包括带噪语音和干净语音,分别从带噪语音和干净语音中提取帧级对数功率谱特征LPS,将所有的帧级对数功率谱特征LPS作为输入样本,作为深度神经网络的输入特征和训练目标。
步骤(B),构建基线语音增强模型:在深度神经网络中构建基于编码器-解码器结构的深度学习模型作为基线语音增强模型,其中编码器-解码器结构为连接的特征编码器和重建解码器。基线语音增强模型为3层深度神经网络模型,包括依次连接的两层双向长短时记忆网络BLSTM和一层全连接层,前两层双向长短时记忆网络BLSTM分别作为特征编码器与重建解码器,最后一层全连接层作为特征变换的映射层。
步骤(C),构建迁移学习语音增强模型:在基线语音增强模型的基础上构建基于深度域自适应网络的迁移学习语音增强模型,在原有的编码器-解码器结构中间引入两个额外的域自适应模块,分别是用于计算多核最大均值差异(MK-MMD)的域适配层,以及用于计算域对抗性损失的相对鉴别器。域适配层和相对鉴别器并列连接,其中域适配层不包含待训练参数,即域适配层仅用于计算多核最大均值差异MK-MMD,没有需要训练的网络参数。而相对鉴别器包含连接的一层LSTM网络层以及一层具有至少一个神经元的全连接层。相对鉴别器在训练阶段与编码器、解码器交替训练;
步骤(D),在训练阶段,对迁移学习语音增强模型进行训练:采用两种迁移策略训练迁移学习语音增强模型,其中源域和目标域分别包含多种噪声类型,且源域噪声类型和信噪比与目标域噪声类型和信噪比互不重叠,实现从源域噪声类型向目标域噪声类型的迁移。源域中噪声类型包括DestroyerEngine、FactoryFloor、HFchannel、Pink以及Wind,信噪比包括-10dB、-5dB、0dB、5dB、10dB、15dB和20dB;目标域中噪声类型包括Speech babble,Cry、Car Riding、Crossing和Market Place,信噪比包括-6dB、-3dB、0dB、3dB、6dB。
训练步骤(C)构建的基于深度域自适应网络的迁移学习语音增强模型,包括两条训练数据流向,分别为带标签的源域数据的LPS特征和不带标签的目标域数据的LPS特征,如附图2所示,训练过程具体如下:
(D1),两个流向的数据同时输入特征编码器,通过BLSTM网络提取深度特征,在此过程中两个数据共享权重。在下面过程中,两个数据将通过三个模块分别进行计算;
(D2),第一个模块为重建编码器,重建解码器计算回归损失:带标签的源域数据Xs将被馈送到重建编码器中重建对数功率谱特征,然后计算与源域标签之间的平均绝对损失MAE作为整个网络即迁移学习语音增强模型的回归损失Lreg,如公式(1)所示:
其中N为批训练数目,Y为干净语音的标签,即样本集中未添加噪声前的干净语音的标签,Dec()为重建解码器。该损失用于衡量源域自回归任务的性能,使该损失最小化可以最佳拟合源域数据集。
(D3),在第二个模块中,域适配层计算多核最大均值差异:带标签的源域数据Xs和不带标签的目标域数据XT被用于计算多核最大均值差异LMK-MMD,通过最小化LMK-MMD可以使得带标签的源域数据Xs和不带标签的目标域数据XT的分布尽可能地接近,也就是使得编码器产生对不同域噪声具有鲁棒性的域不变特征。LMK-MMD的定义如公式(2)所示:
(D3)中所使用的高斯核函数为一组基核的线性组合,其总数为19,系数分别为:1e-6,1e-5,1e-4,1e-3,1e-2,1e-1,1,5,10,15,20,25,30,35,100,1e3,1e4,1e5,1e6:
(D4),第三个模块中,相对鉴别器计算相对生成对抗损失:将带标签的源域数据Xs和不带标签的目标域数据XT输入到相对鉴别器中。相对鉴别器可以看作源域和目标域之间的二分分类器。两个数据通过相对鉴别器输出的0-1之间的判决量被用于计算相对生成对抗损失LD,如公式(3)所示:
其中D表示相对鉴别器网络,为数据分布的期望,xs为带标签的源域数据中的具体数据,xT为不带标签的目标域数据中的具体数据,σ表示sigmoid函数,其定义为最小化相对生成对抗损失LD能够使得相对鉴别器更好地区别Xs和XT,而网络的训练需要通过相对鉴别器和特征编码器之间的极大极小博弈以实现域的迁移,也即期望特征编码器提取的特征能够混淆相对鉴别器的判决,以达到特征的域不变性。为此,在相对鉴别器和编码器之间插入一个梯度反转层GRL。在前向传播时,即特征编码器向相对鉴别器输入数据时,GRL充当一个标识层,使输入保持不变;而在反向传播时,即相对鉴别器向特征编码器输入数据时,鉴别器的损失以反向的权重即-λ作用于特征编码器,形成特征编码器与鉴别器的对抗。
(D5)对迁移学习语音增强模型的参数进行更新:在三个流向的计算后,需要用梯度下降法对整个网络即迁移学习语音增强模型的参数进行更新,总体更新公式如下:
其中,α是学习率,θEnc,θDec和θD分别表示特征编码器、重建解码器以及相对鉴别器的待训练参数,λ和μ分别为相对生成对抗损失和多核最大均值差异的权重参数,权重参数λ和μ用于平衡相对生成对抗损失和多核最大均值差异对于特征编码器参数更新的影响。整个网络的训练通过特征编码器和相对鉴别器之间的对抗使得特征编码器能够生成域不变特征,而多核最大均值差异成为整体域对抗性训练的正则化项,为域对抗损失的梯度更新加上了一层约束,使其能够更好地向拉近两个域分布的方向更新。
步骤(E),语音增强阶段:根据训练后的迁移学习语音增强模型,输入目标域带噪语音的帧级LPS特征并重建增强语音波形。而重建是利用目标域带噪语音中的相位信息通过反向傅里叶变换得到增强语音的时域波形,并通过重叠相加算法合成得到整个增强语音波形,实现语音增强。
对于助听器产品来说,声音通过麦克风采集进入助听器的算法处理单元,本方法的语音增强方法设置于算法处理单元内,然后算法处理单元从片内FLASH中获得本发明方法中所需的神经网络的参数,然后调用本发明中的语音增强方法对语音进行增强处理。处理后的语音通过受话器播放给听障患者。如果本发明中的语音增强方法重新训练,只需要更新FLASH中的参数即可。
本发明的方法能够提高语音增强的鲁棒性和性能,方法巧妙新颖,具有良好的应用前景,除了应用于助听器中,还可应用于语音通信和终端设备的语音增强等领域中。
为了充分比较算法的迁移性能,实验设置在中文语料库上进行噪声类型的迁移实验。训练数据集的噪声类型包括DestroyerEngine、FactoryFloor、HFchannel、Pink以及Wind,训练数据集用于步骤(D)的迁移学习语音增强模型训练过程中;而测试集设置在目标域,目标域未见的噪声类型包括Speech babble,Cry、Car Riding、Crossing和MarketPlace,测试集用于步骤(E)的增强阶段。训练与测试所使用的语音和噪声均没有重叠。步骤(D)的迁移学习语音增强模型的训练设置在7种信噪比(-10dB,-5dB,0dB,5dB,10dB,15dB,20dB)下进行,而步骤(E)的增强阶段测试在5种信噪比下进行(-6dB,-3dB,0dB,3dB,6dB)。测试集对应的各种信噪比下的平均性能指标如附图3所示,其中MK-MMD和DAT分别代表多核最大均值差异迁移方法与域对抗性训练迁移方法,noisy代表原始含噪信号,proposed代表本发明提出的方法。从性能指标上看,本发明所述的方法在各项指标上均具有较大优势。相比于域对抗性训练模型,三种指标客观语音质量评估(PESQ)、短时客观可懂度(STOI)和频域加权分段信噪比(FWSNR)分别提升0.163,0.024和0.819。
综上所述,本发明的基于深度域自适应网络的助听器语音增强方法,融合了两种迁移策略,在基于编码器-解码器的语音增强框架中分别引入域鉴别器和域适配层来进行对抗性训练。首先引入相对鉴别器损失作为域对抗性损失以更好地引导模型向目标域适应。其次,将基于多核最大均值差异的损失作为域对抗性损失的正则项,从而进一步拉近域之间的边缘分布距离。本发明通过域对抗性训练来激励特征编码器生成域不变性特征,从而提高语音增强模型对未见噪声的适应性。因此,本发明的方法能够提高语音增强鲁棒性和性能,方法巧妙新颖,具有良好的应用前景,如应用在助听器上。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种基于深度域自适应网络的助听器语音增强方法,其特征在于,包括以下步骤:
S1:建立训练输入样本:分别从带噪语音和干净语音中提取帧级对数功率谱特征LPS,将所有的对数功率谱特征LPS作为输入样本;
S2:构建基线语音增强模型:在深度神经网络中构建基于编码器-解码器结构的深度学习模型作为基线语音增强模型;其中编码器-解码器结构为连接的特征编码器和重建解码器;
S3:构建迁移学习语音增强模型:在步骤S2的基线语音增强模型的基础上,构建基于深度域自适应网络的迁移学习语音增强模型;迁移学习语音增强模型在特征编码器和重建解码器之间引入并联连接的域适配层和相对鉴别器;
S4:在训练阶段,采用两种迁移策略训练迁移学习语音增强模型:利用域对抗性损失训练迁移学习语音增强模型,通过域的对抗性引导迁移学习语音增强模型学习域不变特征;
S5:在增强阶段,根据训练后的迁移学习语音增强模型,输入目标域带噪语音的帧级LPS特征,重建增强语音波形,实现语音增强;
所述S4中采用两种迁移策略训练迁移学习语音增强模型,其具体过程为:
S41、迁移学习语音增强模型中包括两个流向的训练数据,分别为带标签的源域数据的LPS特征和不带标签的目标域数据的LPS特征,两个流向的训练数据同时输入特征编码器,提取各自的深度特征,在此过程中两个数据共享权重;两个数据同时执行步骤S42、S43和S44,即通过三个模块分别进行计算;
S42、重建解码器计算回归损失:带标签的源域数据Xs被馈送到重建解码器中,重建其LPS特征,然后计算重建的LPS特征与源域标签之间的平均绝对损失MAE作为整个迁移学习语音增强模型的回归损失;该损失用于衡量源域自回归任务的性能,使该损失最小化可以最佳拟合源域数据集;
S43、域适配层计算多核最大均值差异:带标签的源域数据Xs和不带标签的目标域数据XT输入至域适配层中,用于计算多核最大均值差异,通过最小化多核最大均值差异可以使得带标签的源域数据Xs和不带标签的目标域数据XT的分布尽可能地接近,使得特征编码器产生对不同域噪声具有鲁棒性的域不变特征;
S44、相对鉴别器计算相对生成对抗损失:带标签的源域数据Xs和不带标签的目标域数据XT输入到相对鉴别器中,相对鉴别器可以看作源域和目标域之间的二分分类器;两个数据通过相对鉴别器输出的0-1之间的判决量计算相对生成对抗损失;最小化相对生成对抗损失能够使得相对鉴别器更好地区别带标签的源域数据Xs和不带标签的目标域数据XT;
S45、对迁移学习语音增强模型的参数进行更新:结合步骤S42、S43和S44的计算结果,采用梯度下降法对迁移学习语音增强模型的参数进行更新。
2.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法,其特征在于,所述S2中基线语音增强模型的结构为:基线模型为3层深度神经网络模型,包括依次连接的两层双向长短时记忆网络BLSTM和一层全连接层,前两层双向长短时记忆网络BLSTM分别作为特征编码器与重建解码器,最后一层全连接层作为特征变换的映射层。
3.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法,其特征在于,所述S3中迁移学习语音增强模型的结构为:在基线语音增强模型的编码器-解码器结构中间引入两个额外的域自适应模块,两个域自适应模块分别是用于计算多核最大均值差异MK-MMD的域适配层,以及用于计算域对抗性损失的相对鉴别器,所述域适配层和相对鉴别器并列连接;其中域适配层仅用于计算多核最大均值差异MK-MMD,相对鉴别器包含连接的一层长短时记忆网络LSTM以及一层具有至少一个神经元的全连接层。
4.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法,其特征在于:所述步骤S44中相对鉴别器计算相对生成对抗损失前,在特征编码器和相对鉴别器之间插入梯度反转层GRL,在前向传播即特征编码器向相对鉴别器输入数据时,GRL作为标识层,使输入保持不变;而在反向传播即相对鉴别器向特征编码器输入数据时,相对鉴别器的相对生成对抗损失以反向的权重作用于特征编码器,形成编码器与鉴别器的对抗,通过相对鉴别器和特征编码器之间的极大极小博弈以实现域的迁移,达到特征的域不变性。
9.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法,其特征在于,所述S4中采用两种迁移策略训练迁移学习语音增强模型,实现从源域噪声类型向目标域噪声类型的迁移;迁移学习方法中的源域噪声类型和信噪比与目标域噪声类型和信噪比互不重叠。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010847510.8A CN111968666B (zh) | 2020-08-20 | 2020-08-20 | 基于深度域自适应网络的助听器语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010847510.8A CN111968666B (zh) | 2020-08-20 | 2020-08-20 | 基于深度域自适应网络的助听器语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111968666A CN111968666A (zh) | 2020-11-20 |
CN111968666B true CN111968666B (zh) | 2022-02-01 |
Family
ID=73390762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010847510.8A Active CN111968666B (zh) | 2020-08-20 | 2020-08-20 | 基于深度域自适应网络的助听器语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111968666B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112802491B (zh) * | 2021-02-07 | 2022-06-14 | 武汉大学 | 一种基于时频域生成对抗网络的语音增强方法 |
CN113673570A (zh) * | 2021-07-21 | 2021-11-19 | 南京旭锐软件科技有限公司 | 电子器件图片分类模型的训练方法、装置及设备 |
CN113762527A (zh) * | 2021-09-08 | 2021-12-07 | 京东科技信息技术有限公司 | 一种数据处理方法、系统、存储介质及电子设备 |
CN114339564B (zh) * | 2021-12-23 | 2023-06-16 | 清华大学深圳国际研究生院 | 一种基于神经网络的用户自适应助听器自验配方法 |
CN117435916B (zh) * | 2023-12-18 | 2024-03-12 | 四川云实信息技术有限公司 | 航片ai解译中的自适应迁移学习方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619885A (zh) * | 2019-08-15 | 2019-12-27 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
CN110867181A (zh) * | 2019-09-29 | 2020-03-06 | 北京工业大学 | 基于scnn和tcnn联合估计的多目标语音增强方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10971142B2 (en) * | 2017-10-27 | 2021-04-06 | Baidu Usa Llc | Systems and methods for robust speech recognition using generative adversarial networks |
US10885383B2 (en) * | 2018-05-16 | 2021-01-05 | Nec Corporation | Unsupervised cross-domain distance metric adaptation with feature transfer network |
CN110060701B (zh) * | 2019-04-04 | 2023-01-31 | 南京邮电大学 | 基于vawgan-ac的多对多语音转换方法 |
CN110111803B (zh) * | 2019-05-09 | 2021-02-19 | 南京工程学院 | 基于自注意多核最大均值差异的迁移学习语音增强方法 |
CN110739003B (zh) * | 2019-10-23 | 2022-10-28 | 北京计算机技术及应用研究所 | 基于多头自注意力机制的语音增强方法 |
-
2020
- 2020-08-20 CN CN202010847510.8A patent/CN111968666B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110619885A (zh) * | 2019-08-15 | 2019-12-27 | 西北工业大学 | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 |
CN110867181A (zh) * | 2019-09-29 | 2020-03-06 | 北京工业大学 | 基于scnn和tcnn联合估计的多目标语音增强方法 |
Non-Patent Citations (1)
Title |
---|
利用门控循环编解码网络的语音增强方法;常新旭等;《计算机工程与设计》;20200615(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111968666A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111968666B (zh) | 基于深度域自适应网络的助听器语音增强方法 | |
CN110390950B (zh) | 一种基于生成对抗网络的端到端语音增强方法 | |
CN109841226B (zh) | 一种基于卷积递归神经网络的单通道实时降噪方法 | |
Hsu et al. | Unsupervised learning of disentangled and interpretable representations from sequential data | |
WO2021143327A1 (zh) | 语音识别方法、装置和计算机可读存储介质 | |
Tan et al. | A convolutional recurrent neural network for real-time speech enhancement. | |
CN112364779B (zh) | 信号处理与深-浅网络多模型融合的水声目标识别方法 | |
WO2021043015A1 (zh) | 语音识别方法及装置、神经网络训练方法及装置 | |
Lu et al. | Ensemble modeling of denoising autoencoder for speech spectrum restoration. | |
CN108922513B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
CN112581979B (zh) | 一种基于语谱图的语音情绪识别方法 | |
CN110459225B (zh) | 一种基于cnn融合特征的说话人辨认系统 | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN111653288A (zh) | 基于条件变分自编码器的目标人语音增强方法 | |
CN111899757A (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
Lin et al. | Speech enhancement using forked generative adversarial networks with spectral subtraction | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
CN111899750A (zh) | 联合耳蜗语音特征和跳变深层神经网络的语音增强算法 | |
CN112331232B (zh) | 一种结合cgan谱图去噪和双边滤波谱图增强的语音情感识别方法 | |
Abdulatif et al. | Investigating cross-domain losses for speech enhancement | |
Hepsiba et al. | Enhancement of single channel speech quality and intelligibility in multiple noise conditions using wiener filter and deep CNN | |
Xu et al. | Selector-enhancer: learning dynamic selection of local and non-local attention operation for speech enhancement | |
Jannu et al. | Multi-stage Progressive Learning-Based Speech Enhancement Using Time–Frequency Attentive Squeezed Temporal Convolutional Networks | |
Yu et al. | A novel target decoupling framework based on waveform-spectrum fusion network for monaural speech enhancement | |
CN114141266A (zh) | 基于pesq驱动的强化学习估计先验信噪比的语音增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |