CN111968666B

CN111968666B - 基于深度域自适应网络的助听器语音增强方法

Info

Publication number: CN111968666B
Application number: CN202010847510.8A
Authority: CN
Inventors: 王青云; 梁瑞宇; 程佳鸣; 孙世若; 邹采荣; 唐闺臣; 谢跃; 包永强
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2022-02-01
Anticipated expiration: 2040-08-20
Also published as: CN111968666A

Abstract

本发明公开了一种基于深度域自适应网络的助听器语音增强方法，包括：分别从带噪语音和干净语音中提取帧级对数功率谱特征；构建基于编码器‑解码器结构的深度学习模型作为基线语音增强模型；在基线语音增强模型的基础上，构建基于深度域自适应网络的迁移学习语音增强模型；迁移学习语音增强模型在特征编码器和重建解码器之间引入域适配层和相对鉴别器；利用域对抗性损失训练迁移学习语音增强模型；在增强阶段，根据训练后的深度域自适应迁移学习语音增强模型，输入目标域带噪语音的帧级LPS特征，重建增强语音波形。本发明通过域对抗性训练来激励特征编码器生成域不变性特征，从而提高语音增强模型对未见噪声的适应性。

Description

基于深度域自适应网络的助听器语音增强方法

技术领域

本发明涉及语音增强技术领域，尤其涉及一种基于深度域自适应网络的助听器语音增强方法。

背景技术

在复杂环境下，目标声音通常淹没在噪声中，声音频谱分析的结果受到严重影响，使得自适应降频算法性能急剧下降。同时，听障患者的一些听障特征，如听觉阈值较高，短时特征辨认困难，以及退化的听觉外周，使得复杂场景下的语音理解成为影响使用率的普遍问题和难题。

经典的单通道噪声抑制器基于统计信号处理方法，其重点在于如何从含噪语音中有效估计噪声谱，从而对其进行抑制。典型算法包括谱减法、维纳滤波法、最小均方误差法、最小控制的迭代平均的噪声估计算法及其改进算法等。这类算法能够适应噪声水平并在平稳噪声下表现良好。但是这些算法难以处理真实场景中的非平稳噪声，并且这类算法中很多不合理的假设和经验参数的设置限制了它们性能的上限。

近年来基于数据驱动的语音增强算法取得重要进展，监督语音增强算法性能表现优异。然而，基于数据驱动的语音增强算法的关键问题之一是对未经训练的条件的泛化性。由于现实环境的复杂性，实际场景的声学环境可能与训练语料的声学环境有着很大的差异。解决泛化问题的常见手段是扩充训练数据，即使用尽可能多的声学条件训练模型。但对于复杂的现实环境，涵盖实际声学环境中无限潜在噪声与语言类型是不切实际的，环境中的噪声水平也是在不断变化的，因此监督语音增强模型的失配问题是始终存在的。

通过上述的描述，如何建立一种能够自适应环境变化的语音增强模型，是提高语音增强鲁棒性和性能的关键，对于提升听障患者的语音理解度和算法普适性具有重要研究意义。

申请号为CN110111803A的专利公开了一种基于自注意多核最大均值差异的迁移学习语音增强方法，在多核最大均值差异前端添加自注意力算法，通过最小化源域注意到的特征和目标域注意到的特征之间的多核最大均值差异，实现对无标签的目标域的迁移学习。该专利通过迁移学习算法实现了未知噪声类型和未知信噪比的迁移，但仅实现了一种噪声到另一种噪声的迁移，其适用场景有局限性。其次，该算法在噪声类型和信噪比均不匹配的情形下迁移效果有限。而在本发明中，将多核最大均值差异与域对抗性训练相结合，通过对抗性损失引导模型学习域不变特征，实现了多种噪声到多种噪声的迁移，且在噪声类型和信噪比均不匹配的情形下有明显的迁移效果。

申请号为CN110570433A的专利公开了基于生成对抗网络的图像语义分割模型构建方法和装置，该方法使用分割模型训练源域数据集，再使用生成对抗网络将源域数据集转换为新的目标域数据集，并使用新的目标域数据集微调源域分割模型。该专利主要应用于图像语义分割领域，与本专利的应用场景有较大区别。其次，在方法上，该专利是先通过生成对抗模型对从源域数据集中所提取出的图像与目标域数据集进行对抗训练，生成新的目标域数据集，并在新的数据集上微调原模型。而在本专利中，则是在原模型的训练过程中引入对抗性损失以引导模型产生域不变特征，从而实现对目标域的迁移。

论文《利用生成噪音提高语音增强方法的泛化能力》主要研究的是利用生成对抗网络生成多种噪声类型，以提高训练集噪声类型的多样性，从而提升语音增强的泛化性。该论文与本专利的算法有一定区别，本专利的算法不是通过增加训练噪声的类型来提升算法对未见噪声的泛化性，而是利用迁移学习的算法引导模型适应目标域的数据，从而提升对目标域未见噪声的增强效果。

发明内容

发明目的：针对现有技术中单通过语音增强方法面对未见声学环境出现模型失配的缺陷，本发明公开了一种基于深度域自适应网络的助听器语音增强方法，通过融合两种迁移策略，在迁移学习语音增强模型中引入相对鉴别器和域适配层来进行对抗性训练，通过域对抗性训练来激励特征编码器生成域不变性特征，从而提高语音增强模型对未见噪声的适应性。

技术方案：为实现上述技术目的，本发明采用以下技术方案。

一种基于深度域自适应网络的助听器语音增强方法，包括以下步骤：

S1：建立训练输入样本：分别从带噪语音和干净语音中提取帧级对数功率谱特征LPS，将所有的对数功率谱特征LPS作为输入样本；

S2：构建基线语音增强模型：在深度神经网络中构建基于编码器-解码器结构的深度学习模型作为基线语音增强模型；其中编码器-解码器结构为连接的特征编码器和重建解码器；

S3：构建迁移学习语音增强模型：在步骤S2的基线语音增强模型的基础上，构建基于深度域自适应网络的迁移学习语音增强模型；迁移学习语音增强模型在特征编码器和重建解码器之间引入并联连接的域适配层和相对鉴别器；

S4：在训练阶段，采用两种迁移策略训练迁移学习语音增强模型：利用域对抗性损失训练迁移学习语音增强模型，通过域的对抗性引导迁移学习语音增强模型学习域不变特征；

S5：在增强阶段，根据训练后的深度域自适应网络的迁移学习语音增强模型，输入目标域带噪语音的帧级LPS特征，重建增强语音波形，实现语音增强。

优选地，所述S2中基线语音增强模型的结构为：基线模型为3层深度神经网络模型，包括依次连接的两层双向长短时记忆网络BLSTM和一层全连接层，前两层双向长短时记忆网络BLSTM分别作为特征编码器与重建解码器，最后一层全连接层作为特征变换的映射层。

优选地，所述S3中迁移学习语音增强模型的结构为：在基线语音增强模型的编码器-解码器结构中间引入两个额外的域自适应模块，两个域自适应模块分别是用于计算多核最大均值差异MK-MMD的域适配层，以及用于计算域对抗性损失的相对鉴别器，所述域适配层和相对鉴别器并列连接；其中域适配层仅用于计算MK-MMD，没有需要训练的网络参数，而相对鉴别器包含一层长短时记忆网络LSTM以及一层具有至少一个神经元的全连接层。

优选地，所述S4中采用两种迁移策略训练迁移学习语音增强模型，其具体过程为：

S41、迁移学习语音增强模型中包括两个流向的训练数据，分别为带标签的源域数据的LPS特征和不带标签的目标域数据的LPS特征，两个流向的训练数据同时输入特征编码器，提取各自的深度特征，在此过程中两个数据共享权重；两个数据同时执行步骤S42、S43和S44，即通过三个模块分别进行计算；

S42、重建解码器计算回归损失：带标签的源域数据X_s被馈送到重建解码器中，重建其LPS特征，然后计算重建的LPS特征与源域标签之间的平均绝对损失MAE作为整个迁移学习语音增强模型的回归损失；该损失用于衡量源域自回归任务的性能，使该损失最小化可以最佳拟合源域数据集；

S43、域适配层计算多核最大均值差异：带标签的源域数据X_s和不带标签的目标域数据X_T输入至域适配层中，用于计算多核最大均值差异，通过最小化多核最大均值差异可以使得带标签的源域数据X_s和不带标签的目标域数据X_T的分布尽可能地接近，使得特征编码器产生对不同域噪声具有鲁棒性的域不变特征；

S44、相对鉴别器计算相对生成对抗损失：带标签的源域数据X_s和不带标签的目标域数据X_T输入到相对鉴别器中，相对鉴别器可以看作源域和目标域之间的二分分类器；两个数据通过相对鉴别器输出的0-1之间的判决量计算相对生成对抗损失；最小化相对生成对抗损失能够使得相对鉴别器更好地区别带标签的源域数据X_s和不带标签的目标域数据X_T；

S45、对迁移学习语音增强模型的参数进行更新：结合步骤S42、S43和S44的计算结果，采用梯度下降法对迁移学习语音增强模型的参数进行更新。

优选地，所述步骤S44中相对鉴别器计算相对生成对抗损失前，在特征编码器和相对鉴别器之间插入梯度反转层GRL，在前向传播即特征编码器向相对鉴别器输入数据时，GRL作为标识层，使输入保持不变；而在反向传播即相对鉴别器向特征编码器输入数据时，相对鉴别器的相对生成对抗损失以反向的权重作用于特征编码器，形成编码器与鉴别器的对抗，通过相对鉴别器和特征编码器之间的极大极小博弈以实现域的迁移，达到特征的域不变性。

优选地，所述步骤S42中整个迁移学习语音增强模型的回归损失的计算公式为：

其中，L_reg为整个迁移学习语音增强模型的回归损失，N为批训练数目，Y为干净语音的标签，Dec()为重建解码器。

优选地，所述步骤S43中最小化多核最大均值差异的计算公式为：

其中，L_MK-MMD为最小化多核最大均值差异，X，Y分别表示带标签的源域数据X_s和不带标签的目标域数据X_T，x_i，y_j表示X，Y中的具体数据，m，n表示X_s和X_T的维度，高斯核函数定义为

优选地，所述步骤S44中相对生成对抗损失的计算公式为：

其中，L_D为相对生成对抗损失，

为数据分布的期望，x_s为带标签的源域数据中的具体数据，x_T为不带标签的目标域数据中的具体数据，σ表示sigmoid函数，其定义为

优选地，所述步骤S45中对迁移学习语音增强模型的参数进行更新，其计算公式为：

其中，α是学习率，L_reg为整个迁移学习语音增强模型的回归损失，L_MK-MMD为最小化多核最大均值差异，L_D为相对生成对抗损失，θ_Enc、θ_Dec和θ_D分别表示特征编码器、重建解码器以及相对鉴别器的待训练参数，λ和μ分别为相对生成对抗损失和多核最大均值差异的权重参数。

优选地，所述S4中采用两种迁移策略训练迁移学习语音增强模型，实现从源域噪声类型向目标域噪声类型的迁移；所述迁移学习方法中的源域噪声类型和信噪比与目标域噪声类型和信噪比互不重叠。

有益效果：

1、本发明融合了两种迁移策略，在迁移学习语音增强模型中引入相对鉴别器和域适配层来进行对抗性训练，通过域对抗性训练来激励特征编码器生成域不变性特征，从而提高语音增强模型对未见噪声的适应性；

2、本发明引入相对鉴别器计算相对生成对抗损失作为域对抗性损失，更好地引导模型向目标域适应；本发明引入域适配层计算多核最大均值差异作为域对抗性损失的正则项，从而进一步拉近域之间的边缘分布距离，最终实现对无标签的目标域语音的迁移学习，提高语音增强性能；

3、本发明的方法能够提高语音增强的鲁棒性和性能，方法巧妙新颖，具有良好的应用前景，可应用于助听器、语音通信和终端设备的语音增强等领域中。

附图说明

图1为本发明的方法流程图；

图2为本发明的信号流向图；

图3为本发明的性能指标结果图。

具体实施方式

以下结合附图对本发明做进一步的说明和解释。

如附图1所示，本发明的一种基于深度域自适应网络的助听器语音增强方法，包括以下步骤：

步骤(A)，建立训练输入样本：选取多组数据构建样本集，每组数据中包括带噪语音和干净语音，分别从带噪语音和干净语音中提取帧级对数功率谱特征LPS，将所有的帧级对数功率谱特征LPS作为输入样本，作为深度神经网络的输入特征和训练目标。

步骤(B)，构建基线语音增强模型：在深度神经网络中构建基于编码器-解码器结构的深度学习模型作为基线语音增强模型，其中编码器-解码器结构为连接的特征编码器和重建解码器。基线语音增强模型为3层深度神经网络模型，包括依次连接的两层双向长短时记忆网络BLSTM和一层全连接层，前两层双向长短时记忆网络BLSTM分别作为特征编码器与重建解码器，最后一层全连接层作为特征变换的映射层。

步骤(C)，构建迁移学习语音增强模型：在基线语音增强模型的基础上构建基于深度域自适应网络的迁移学习语音增强模型，在原有的编码器-解码器结构中间引入两个额外的域自适应模块，分别是用于计算多核最大均值差异(MK-MMD)的域适配层，以及用于计算域对抗性损失的相对鉴别器。域适配层和相对鉴别器并列连接，其中域适配层不包含待训练参数，即域适配层仅用于计算多核最大均值差异MK-MMD，没有需要训练的网络参数。而相对鉴别器包含连接的一层LSTM网络层以及一层具有至少一个神经元的全连接层。相对鉴别器在训练阶段与编码器、解码器交替训练；

步骤(D)，在训练阶段，对迁移学习语音增强模型进行训练：采用两种迁移策略训练迁移学习语音增强模型，其中源域和目标域分别包含多种噪声类型，且源域噪声类型和信噪比与目标域噪声类型和信噪比互不重叠，实现从源域噪声类型向目标域噪声类型的迁移。源域中噪声类型包括DestroyerEngine、FactoryFloor、HFchannel、Pink以及Wind，信噪比包括-10dB、-5dB、0dB、5dB、10dB、15dB和20dB；目标域中噪声类型包括Speech babble，Cry、Car Riding、Crossing和Market Place，信噪比包括-6dB、-3dB、0dB、3dB、6dB。

训练步骤(C)构建的基于深度域自适应网络的迁移学习语音增强模型，包括两条训练数据流向，分别为带标签的源域数据的LPS特征和不带标签的目标域数据的LPS特征，如附图2所示，训练过程具体如下：

(D1)，两个流向的数据同时输入特征编码器，通过BLSTM网络提取深度特征，在此过程中两个数据共享权重。在下面过程中，两个数据将通过三个模块分别进行计算；

(D2)，第一个模块为重建编码器，重建解码器计算回归损失：带标签的源域数据X_s将被馈送到重建编码器中重建对数功率谱特征，然后计算与源域标签之间的平均绝对损失MAE作为整个网络即迁移学习语音增强模型的回归损失L_reg，如公式(1)所示：

其中N为批训练数目，Y为干净语音的标签，即样本集中未添加噪声前的干净语音的标签，Dec()为重建解码器。该损失用于衡量源域自回归任务的性能，使该损失最小化可以最佳拟合源域数据集。

(D3)，在第二个模块中，域适配层计算多核最大均值差异：带标签的源域数据X_s和不带标签的目标域数据X_T被用于计算多核最大均值差异L_MK-MMD，通过最小化L_MK-MMD可以使得带标签的源域数据X_s和不带标签的目标域数据X_T的分布尽可能地接近，也就是使得编码器产生对不同域噪声具有鲁棒性的域不变特征。L_MK-MMD的定义如公式(2)所示：

其中X，Y分别表示带标签的源域数据X_s和不带标签的目标域数据X_T，x_i，y_j表示X，Y中的具体数据，m，n表示X_s和X_T的维度，高斯核函数定义为

(D3)中所使用的高斯核函数为一组基核的线性组合，其总数为19，系数分别为：1e-6，1e-5，1e-4，1e-3，1e-2，1e-1，1，5，10，15，20，25，30，35，100，1e3，1e4，1e5，1e6：

(D4)，第三个模块中，相对鉴别器计算相对生成对抗损失：将带标签的源域数据X_s和不带标签的目标域数据X_T输入到相对鉴别器中。相对鉴别器可以看作源域和目标域之间的二分分类器。两个数据通过相对鉴别器输出的0-1之间的判决量被用于计算相对生成对抗损失L_D，如公式(3)所示：

其中D表示相对鉴别器网络，

最小化相对生成对抗损失L_D能够使得相对鉴别器更好地区别X_s和X_T，而网络的训练需要通过相对鉴别器和特征编码器之间的极大极小博弈以实现域的迁移，也即期望特征编码器提取的特征能够混淆相对鉴别器的判决，以达到特征的域不变性。为此，在相对鉴别器和编码器之间插入一个梯度反转层GRL。在前向传播时，即特征编码器向相对鉴别器输入数据时，GRL充当一个标识层，使输入保持不变；而在反向传播时，即相对鉴别器向特征编码器输入数据时，鉴别器的损失以反向的权重即-λ作用于特征编码器，形成特征编码器与鉴别器的对抗。

(D5)对迁移学习语音增强模型的参数进行更新：在三个流向的计算后，需要用梯度下降法对整个网络即迁移学习语音增强模型的参数进行更新，总体更新公式如下：

其中，α是学习率，θ_Enc，θ_Dec和θ_D分别表示特征编码器、重建解码器以及相对鉴别器的待训练参数，λ和μ分别为相对生成对抗损失和多核最大均值差异的权重参数，权重参数λ和μ用于平衡相对生成对抗损失和多核最大均值差异对于特征编码器参数更新的影响。整个网络的训练通过特征编码器和相对鉴别器之间的对抗使得特征编码器能够生成域不变特征，而多核最大均值差异成为整体域对抗性训练的正则化项，为域对抗损失的梯度更新加上了一层约束，使其能够更好地向拉近两个域分布的方向更新。

步骤(E)，语音增强阶段：根据训练后的迁移学习语音增强模型，输入目标域带噪语音的帧级LPS特征并重建增强语音波形。而重建是利用目标域带噪语音中的相位信息通过反向傅里叶变换得到增强语音的时域波形，并通过重叠相加算法合成得到整个增强语音波形，实现语音增强。

对于助听器产品来说，声音通过麦克风采集进入助听器的算法处理单元，本方法的语音增强方法设置于算法处理单元内，然后算法处理单元从片内FLASH中获得本发明方法中所需的神经网络的参数，然后调用本发明中的语音增强方法对语音进行增强处理。处理后的语音通过受话器播放给听障患者。如果本发明中的语音增强方法重新训练，只需要更新FLASH中的参数即可。

本发明的方法能够提高语音增强的鲁棒性和性能，方法巧妙新颖，具有良好的应用前景，除了应用于助听器中，还可应用于语音通信和终端设备的语音增强等领域中。

为了充分比较算法的迁移性能，实验设置在中文语料库上进行噪声类型的迁移实验。训练数据集的噪声类型包括DestroyerEngine、FactoryFloor、HFchannel、Pink以及Wind，训练数据集用于步骤(D)的迁移学习语音增强模型训练过程中；而测试集设置在目标域，目标域未见的噪声类型包括Speech babble，Cry、Car Riding、Crossing和MarketPlace，测试集用于步骤(E)的增强阶段。训练与测试所使用的语音和噪声均没有重叠。步骤(D)的迁移学习语音增强模型的训练设置在7种信噪比(-10dB，-5dB，0dB，5dB，10dB，15dB，20dB)下进行，而步骤(E)的增强阶段测试在5种信噪比下进行(-6dB，-3dB，0dB，3dB，6dB)。测试集对应的各种信噪比下的平均性能指标如附图3所示，其中MK-MMD和DAT分别代表多核最大均值差异迁移方法与域对抗性训练迁移方法，noisy代表原始含噪信号，proposed代表本发明提出的方法。从性能指标上看，本发明所述的方法在各项指标上均具有较大优势。相比于域对抗性训练模型，三种指标客观语音质量评估(PESQ)、短时客观可懂度(STOI)和频域加权分段信噪比(FWSNR)分别提升0.163，0.024和0.819。

综上所述，本发明的基于深度域自适应网络的助听器语音增强方法，融合了两种迁移策略，在基于编码器-解码器的语音增强框架中分别引入域鉴别器和域适配层来进行对抗性训练。首先引入相对鉴别器损失作为域对抗性损失以更好地引导模型向目标域适应。其次，将基于多核最大均值差异的损失作为域对抗性损失的正则项，从而进一步拉近域之间的边缘分布距离。本发明通过域对抗性训练来激励特征编码器生成域不变性特征，从而提高语音增强模型对未见噪声的适应性。因此，本发明的方法能够提高语音增强鲁棒性和性能，方法巧妙新颖，具有良好的应用前景，如应用在助听器上。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度域自适应网络的助听器语音增强方法，其特征在于，包括以下步骤：

S5：在增强阶段，根据训练后的迁移学习语音增强模型，输入目标域带噪语音的帧级LPS特征，重建增强语音波形，实现语音增强；

所述S4中采用两种迁移策略训练迁移学习语音增强模型，其具体过程为：

2.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法，其特征在于，所述S2中基线语音增强模型的结构为：基线模型为3层深度神经网络模型，包括依次连接的两层双向长短时记忆网络BLSTM和一层全连接层，前两层双向长短时记忆网络BLSTM分别作为特征编码器与重建解码器，最后一层全连接层作为特征变换的映射层。

3.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法，其特征在于，所述S3中迁移学习语音增强模型的结构为：在基线语音增强模型的编码器-解码器结构中间引入两个额外的域自适应模块，两个域自适应模块分别是用于计算多核最大均值差异MK-MMD的域适配层，以及用于计算域对抗性损失的相对鉴别器，所述域适配层和相对鉴别器并列连接；其中域适配层仅用于计算多核最大均值差异MK-MMD，相对鉴别器包含连接的一层长短时记忆网络LSTM以及一层具有至少一个神经元的全连接层。

4.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法，其特征在于：所述步骤S44中相对鉴别器计算相对生成对抗损失前，在特征编码器和相对鉴别器之间插入梯度反转层GRL，在前向传播即特征编码器向相对鉴别器输入数据时，GRL作为标识层，使输入保持不变；而在反向传播即相对鉴别器向特征编码器输入数据时，相对鉴别器的相对生成对抗损失以反向的权重作用于特征编码器，形成编码器与鉴别器的对抗，通过相对鉴别器和特征编码器之间的极大极小博弈以实现域的迁移，达到特征的域不变性。

5.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法，其特征在于，所述步骤S42中整个迁移学习语音增强模型的回归损失的计算公式为：

其中，L_reg为整个迁移学习语音增强模型的回归损失，N为批训练数目，X_s为带标签的源域数据，Y为干净语音的标签，Dec()为重建解码器。

6.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法，其特征在于，所述步骤S43中最小化多核最大均值差异的计算公式为：

7.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法，其特征在于，所述步骤S44中相对生成对抗损失的计算公式为：

其中，L_D为相对生成对抗损失，

8.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法，其特征在于，所述步骤S45中对迁移学习语音增强模型的参数进行更新，其计算公式为：

9.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法，其特征在于，所述S4中采用两种迁移策略训练迁移学习语音增强模型，实现从源域噪声类型向目标域噪声类型的迁移；迁移学习方法中的源域噪声类型和信噪比与目标域噪声类型和信噪比互不重叠。