CN109616105A

CN109616105A - 一种基于迁移学习的带噪语音识别方法

Info

Publication number: CN109616105A
Application number: CN201811454937.0A
Authority: CN
Inventors: 潘成华; 李参宏; 万莉
Original assignee: Jiangsu Net Into Polytron Technologies Inc
Current assignee: Jiangsu Net Into Polytron Technologies Inc
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2019-04-12

Abstract

本发明提出一种基于迁移学习的带噪语音识别方法，所述方法包括判断迁移学习是否适用于带噪语音的声学建模，若是，则建立教师模型和学生模型，并利用教师模型指导学生模型进行训练，本发明实施例提出的基于迁移学习的带噪语音识别方法，利用教师模型指导学生模型进行训练，能够有效地将教师模型中的后验概率信息迁移至学生模型中，从而提高声学模型在带噪数据集尤其是低信噪比数据集上的鲁棒性。使得系统在带噪语音环境下的识别准确率有了提升。

Description

一种基于迁移学习的带噪语音识别方法

技术领域

本发明涉及信号处理领域，具体的涉及到一种基于迁移学习的带噪语音识别方法。

背景技术

随着语音识别技术的发展，噪声成为语音识别系统广泛实用化的关键因素。目前已有的解决噪声环境下语音识别鲁棒性的主要方法有：(1)采用自适应算法训练鲁棒性声学模型；(2)直接利用带噪语音数据训练声学模型；(3)先对带噪语音进行增强处理，然后利用处理后的数据训练声学模型。这三种方法都是在干净语音和带噪语音的平行数据已知的前提下进行的，且在方法上或将干净语音直接作为训练数据，或将其作为降噪处理的参考标准，并未最大限度地挖掘干净语音的知识。

中国专利CN201110258884.7一种基于MFCC远距离差值的鲁棒语音识别方法，采用远距离差值作为语音识别特征参数，但该专利不能将老师模型中的后验概率信息迁移至学生模型中，从而提高声学模型在带噪数据集上的鲁棒性。

发明内容

基于上述问题，本发明的目的旨在至少解决所述技术缺陷之一。提出一种基于迁移学习的带噪语音识别方法，利用教师模型指导学生模型进行训练，能够有效地将教师模型中的后验概率信息迁移至学生模型中，从而提高声学模型在带噪数据集尤其是低信噪比数据集上的鲁棒。为实现上述目的，本发明采用如下技术方案：

一种基于迁移学习的带噪语音识别方法，所述方法包括：

判断迁移学习是否适用于带噪语音的声学建模，若是，则建立教师模型和学生模型，并利用教师模型指导学生模型进行训练。

优选的，所述判断迁移学习是否适用于带噪语音的声学建模的步骤包括：

采用MFCC提取干净语音和带噪语音的特征并构成特征向量；

计算干净语音特征向量和带噪语音特征向量之间的最大均值差异MMD；

判断所述MMD是否小于阈值，若是，则适用于带噪语音的声学建模。

优选的，所述利用教师模型指导学生模型进行训练的方法包括：

采用MFCC提取干净语音和带噪语音的特征并构成特征向量；

生成GMM-HMM模型；

生成硬标签；

训练老师模型；

生成软标签；

训练学生模型。

优选的，所述采用MFCC提取干净语音和带噪语音的特征并构成特征向量的步骤包括：

对语音进行预加重、分帧和加窗处理后对每一个短时分析窗通过FFT得到对应的频谱，并通过滤波器组得到Mel频谱，并在Mel频谱上进行倒谱分析。

优选的，所述生成GMM-HMM模型的步骤包括：将采用MFCC提取的语音特征用高斯混合模型区模拟，再把均值和方差输入到HMM的模型中，其中GMM-HMM用于生成强制对齐信息，即硬标签。

优选的，所述生成硬标签的步骤包括：

通过提取的干净语音的特征，训练一个GMM-HMM模型，然后通过帧级别的强制对齐得到每帧数据的硬标签。

优选的，所述生成软标签的步骤包括：

将提取的干净语音的特征作为老师模型的输入，利用前向算法计算其后验概率分布，即为软标签。

优选的，所述训练学生模型的步骤包括：

利用提取的干净语音的特征和带噪语音的特征的平行关系，将提取的带噪语音的特征和干净语音的软标签进行对齐，得到带噪语音的特征的软标签，再利用该特征和其软标签训练学生模型。

优选的，在学生模型训练的过程中，老师模型的参数保持不变，仅更新学生模型参数。

相对于现有技术中的方案，本发明的优点：

本发明实施例提出的基于迁移学习的带噪语音识别方法，利用教师模型指导学生模型进行训练，能够有效地将教师模型中的后验概率信息迁移至学生模型中，从而提高声学模型在带噪数据集尤其是低信噪比数据集上的鲁棒性。使得系统在带噪语音环境下的识别准确率有了提升。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明判断迁移学习是否适用于带噪语音的声学建模的流程示意图。

图2为利用教师模型指导学生模型训练的流程示意图。

图3为利用教师模型指导学生模型训练的流程示意图。

具体实施方式

以下结合具体实施例对上述方案做进一步说明。应理解，这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以如具体厂家的条件做进一步调整，未注明的实施条件通常为常规实验中的条件。

本申请公开了一种基于迁移学习的带噪语音识别方法，所述方法包括判断迁移学习是否适用于带噪语音的声学建模，若是，则建立教师模型和学生模型，并利用教师模型指导学生模型进行训练。

在本发明的其中一实施例中，请参考图1所示为本发明判断迁移学习是否适用于带噪语音的声学建模的流程示意图。如图1所示，判断迁移学习是否适用于带噪语音的声学建模的步骤包括：

步骤S1，采用MFCC提取干净语音和带噪语音的特征并构成特征向量；本系统采用MFCC进行特征提取，提取过程为，先对语音进行预加重、分帧和加窗，再对每一个短时分析窗通过FFT得到对应的频谱，并通过滤波器组得到Mel频谱，最后在Mel频谱上进行倒谱分析，即取对数，坐逆变换，实际逆变换一般通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为MFCC系数，获得Mel频谱倒谱系数MFCC，这个MFCC就是这帧语音的特征。这时，语音就可以通过一系列的倒谱向量来描述了，每个向量就是每帧的MFCC特征向量。

步骤S2，计算干净语音特征向量和带噪语音特征向量之间的最大均值差异MMD，这是迁移学习中使用频度最高的相似度度量准则，迁移学习只能在一定相似度范围内才能进行迁移。两个随机变量的MMD平方距离为

步骤S3，判断MMD是否小于阈值，若计算求得MMD的值小于阀值，则执行步骤S4，使用迁移学习来训练语音识别系统的声学建模中。

请参考图2、图3所示为利用教师模型指导学生模型训练的流程示意图，所述方法包括以下步骤：

步骤S10，采用MFCC分别提取干净语音和带噪语音的特征并构成特征向量；本系统采用MFCC进行特征提取，提取过程为，先对语音进行预加重、分帧和加窗，再对每一个短时分析窗通过FFT得到对应的频谱，并通过滤波器组得到Mel频谱，最后在Mel频谱上进行倒谱分析，即取对数，坐逆变换，实际逆变换一般通过DCT离散余弦变换来实现，取DCT后的第2个到第13个系数作为MFCC系数，获得Mel频谱倒谱系数MFCC，这个MFCC就是这帧语音的特征。这时，语音就可以通过一系列的倒谱向量来描述了，每个向量就是每帧的MFCC特征向量。

步骤S20，生成GMM-HMM模型：把通过MFCC提取的干净语音特征用高斯混合模型区模拟，再把均值和方差输入到HMM的模型中。GMM-HMM用于生成强制对齐信息，即硬标签。

步骤S30，生成硬标签：仅用干净语音提取特征，训练一个GMM-HMM模型，然后通过帧级别的强制对齐得到每帧数据的硬标签t_hard。硬标签由0、1构成的向量，比如某一帧数据的硬标签为[0 0 1 0]，词向量代表该帧属于标签三的概率为1，属于其他标签的概率都为0。

步骤S40，训练老师模型：本发明将教师模型设为不同结构的神经网络，CNN、DNN、LSTM和BLSTM。CNN和LSTM在语音识别任务中可以获得比DNN更好的性能提升，对建模能力来说，CNN擅长减小频域变化，LSTM可以提供长时记忆，而DNN适合将特征映射到独立空间，将CNN，LSTM，DNN等串起来融合到一个网络中，获得比单独网络更好的性能。

步骤S50，生成软标签：用干净语音的特征x_c作为教师模型的输入，利用前向算法计算其后验概率分布(软标签t_soft)。假设[0.02 0.1 0.830.03 0.01 0.01]为某一帧数据的软标签，此向量代表属于标签1的概率为0.02，属于标签2的概率为0.1，其他以此类推。

步骤S60，训练学生模型：首先利用干净语音和带噪语音的平行关系，将带噪语音提取的特征x和干净语音的软标签t_soft进行对齐，得到带噪语音特征x的软标签，再利用该特征和其软标签训练学生模型。在学生模型训练的过程中，老师模型的参数保持不变，仅更新学生模型参数。

本发明的迁移学习是将教师模型的后验概率分布知识迁移到学生模型的训练中，学生模型在训练的过程中，尽量逼近教师模型的后验概率分布，模仿教师的行为。二者之间后验概率分布的差异用相对熵来最小化。

假设P_c代表教师模型的后延概率分布，Q代表学生模型的后验概率分布，那么二者之间的后验概率分布差异可以表示为

在学生模型训练过程中，需要最小化式(1)，表示为

D_KL(P_c||Q)＝H(P_c,Q)-H(P_c) (2)

其中，H(P_c,Q)＝∑_i-P_c(s_i|x_c)lnQ(s_i|x) (3)

H(P_c)＝∑_i-P_c(s_i|x_c)lnP_c(s_i|x_c) (4)

i表示三因子状态的下标，s_i表示第i个三因子状态，x_c表示干净语音的特征，x表示带噪语音的特征，P_c(s_i|x_c)表示特征x_c被识别为第i个三因子状态的后验证概率，该后验概率由教师模型采用前向算法计算得到，Q(s_i|x)表示特征x被识别为第i个三因子状态的后验概率。式(4)只与教师模型的后验概率分布有关，与学生模型的后验概率分布无关，故可忽略，由此可得

D_KL(P_c||Q)≡∑_i-P_c(s_i|x_c)lnQ(s_i|x) (5)

式(5)的最小值即求交叉熵的最小值。标准交叉熵训练准则中分类标签是三因子状态的由0、1构成的向量(硬标签)，而式(5)中的分类标签为老师模型计算所得的后验概率分布(软标签)。因此，对式(5)进行优化时，只需将标准交叉熵准则中的硬标签替换成软标签即可。

在教师模型的指导下，学生模型在各种信噪比环境下都能获得明显的性能提升，特别是对低信噪比数据的性能提升尤为显著。其主要原因有：教师模型对干净语音中的音素特征能较好地感知和准确地建模，而带噪语音的音素特征受到干扰甚至破坏，故而不能被准确感知。与带噪语音相比，干净语音利用GMM-HMM生成的硬标签具有更高的准确率；软标签含有更为丰富的信息，GMM-HMM生成的硬标签为0、1构成的向量，而教师模型的后验概率分布是一种软标签，它是概率值向量，软标签含有更丰富的排名信息，不仅含有每帧数据最有可能的标签，还包含潜在可能标签的概率信息，故学生模型不但能利用这些丰富的信息进行更好的建模，亦可依据这些信息纠正部分错误的标签。

本发明采用迁移学习对带噪语音进行声学建模，即利用教师模型指导学生模型进行训练，能够有效地将教师模型中的后验概率信息迁移至学生模型中，从而提高声学模型在带噪数据集尤其是低信噪比数据集上的鲁棒性。使得本发明在带噪语音环境下的识别准确率有了提升。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡如本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于迁移学习的带噪语音识别方法，其特征在于，所述方法包括判断迁移学习是否适用于带噪语音的声学建模，若是，则建立教师模型和学生模型，并利用教师模型指导学生模型进行训练。

2.根据权利要求1所述的基于迁移学习的带噪语音识别方法，其特征在于，所述判断迁移学习是否适用于带噪语音的声学建模的步骤包括：

采用MFCC提取干净语音和带噪语音的特征并构成特征向量；

3.根据权利要求1所述的基于迁移学习的带噪语音识别方法，其特征在于，所述利用教师模型指导学生模型进行训练的方法包括：

采用MFCC提取干净语音和带噪语音的特征并构成特征向量；

生成GMM-HMM模型；

生成硬标签；

训练老师模型；

生成软标签；

训练学生模型。

4.根据权利要求2所述的基于迁移学习的带噪语音识别方法，其特征在于，所述采用MFCC提取干净语音和带噪语音的特征并构成特征向量的步骤包括：

5.根据权利要求3所述的基于迁移学习的带噪语音识别方法，其特征在于，所述生成GMM-HMM模型的步骤包括：

把通过MFCC提取的干净语音特征用高斯混合模型区模拟，再把均值和方差输入到HMM的模型中，其中GMM-HMM用于生成强制对齐信息，即硬标签。

6.根据权利要求3所述的基于迁移学习的带噪语音识别方法，其特征在于，所述生成硬标签的步骤包括：

7.根据权利要求3所述的基于迁移学习的带噪语音识别方法，其特征在于，所述生成软标签的步骤包括：

8.根据权利要求3所述的基于迁移学习的带噪语音识别方法，其特征在于，所述训练学生模型的步骤包括：

9.根据权利要求8所述的基于迁移学习的带噪语音识别方法，其特征在于，在学生模型训练的过程中，老师模型的参数保持不变，仅更新学生模型参数。