CN112599121B

CN112599121B - 基于辅助数据正则化的说话人自适应方法

Info

Publication number: CN112599121B
Application number: CN202011411575.4A
Authority: CN
Inventors: 罗小杰; 魏建国; 李�杰
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2023-06-20
Anticipated expiration: 2040-12-03
Also published as: CN112599121A

Abstract

本发明属于语音识别领域的说话人自适应技术，为解决数据的稀疏性问题带来的过拟合，提高目标说话人的识别准确率。本发明，基于辅助数据正则化的说话人自适应方法，步骤如下：步骤一，说话人无关的语音识别系统的训练；步骤二，辅助数据集的获取；步骤三，准备说话人的数据；步骤四，使用目标说话人的语音数据和选取的辅助数据集，并通过GMM‑HMM系统生成自适应训练需要的词格Lattice,使用如下的损失函数进行训练，其中α用来控制辅助数据集的权重，步骤五，经过充分训练得到目标说话人的声学模型，使用目标说话人的声学模型，构建语音识别系统。本发明主要应用于语音识别场合。

Description

基于辅助数据正则化的说话人自适应方法

技术领域

本发明属于语音识别领域的说话人自适应技术，一种使用少量的目标说话人的数据将语音识别的声学模型转为目标说话人的声学模型的自适应方法。

背景技术

通过大量数据训练得到的语音识别的模型往往在实际使用过程中会比预期的效果要差，究其原因是训练数据和测试数据不匹配，或者说模型没有学习到测试数据某些特征，从而导致效果变差。由于训练数据和测试数据之间的不匹配，说话人无关(SpeakerIndependent)的大词汇量连续语音识别系统与训练较为充分的说话人相关(SpeakerDependent)的系统相比还是有较大的差距。

说话人自适应是语音识别中的关键技术，通过说话人自适应技术在说话人无关语音识别模型和说话人相关的语音识别的模型中相互转换，通常情况下，说话人自适应技术利用少量的自适应数据通过变换语音特征或者修正声学模型来提供特定说话人识别准确率。同时说话人自适应技术分为两类，一种通过自适应数据修正语音识别的模型使的系统匹配当前的说话人，另一种则是通过修改特定说话人的语音特征使得修改后的特征可以匹配当前的语音识别模型。

在传统的基于高斯混合-隐马尔可夫模型(Gaussian Mixture Model-HiddenMarkov Model,GMM-HMM)的语音识别中，说话人自适应技术使得针对特定说话人的识别错误率降低5％到30％。说话人自适应的技术主要有：(1)说话人归一化，为了减小不同说话人之间的差异，语音的特征映射到一个归一化的特征空间。(2)最大后验概率(Maximum APosterior,MAP)，MAP利用贝叶斯理论，假设GMM-HMM的参数服从某个先验分布，由于这个先验分布的存在，在自适应的过程中防止过拟合。(3)基于变换的方法。通过估计说话人无关的特征和说话人相关的特征之前的映射关系，通过这个估计的映射关系在说话人无关的特征和说话人相关的特征之间变换，来减少训练数据和测试数据之间的匹配，经典的方法主要有最大似然线性回归(Maximum Likelihood Linear Regression,MLLR)，以及由MLLR发展而来的受限最大似然回归(Constrained MLLR,CMLLR)。

随着深度的学习的快速发展，神经网络可以很好对复杂的高度非线性关系进行建模，神经网络在语音识别领域取得很大成功，语音识别系统的识别率再次得到提高，深度神经网络-隐马尔可夫模型(Deep Neural Network-Hidden Markov Model,DNN-HMM)成为声学模型的主流方法。基于DNN的说话人的自适应技术也再次成为研究的热点。对于基于神经网络的声学模型的说话人自适应技术主要有：(1)线性变换，即通过在神经网络中添加一层用于自适应训练，而固定其他参数。(2)正则化，正则化方法主要包括Kullback-LeiblerRegularization(KL正则化)和L2正则化。(3)说话人感知训练，通过引入说话人的信息，比如说话人标识向量I-vector,使声学模型可以学习到说话人的信息。(4)对抗训练，使用对抗生成网络对特征提取器进行调整，使得特征提取器的提取到的特征分布不会偏离说话人无关的特征提取器提取的特征分布太远。

发明内容

为克服现有技术的不足，本发明旨在解决数据的稀疏性问题带来的过拟合，提高目标说话人的识别准确率。为此，本发明采取的技术方案是，基于辅助数据正则化的说话人自适应方法，步骤如下：

步骤一，说话人无关的语音识别系统的训练：使用目前已有的其他说话人的数据训练一个说话人无关的语音识别模型，所述语音识别模型的结构为DNN-HMM模型，其中DNN的网络结构为时延神经网络TDNN，同时使用Lattice free MMI的训练准则进行训练，Lattice free MMI指得是基于无词格的最大互信息熵；

步骤二，辅助数据集的获取，从训练数据中选择，辅助数据集中应该覆盖所有的训练数据的音素，同时使得辅助数据集中包含的说话人数据量尽量多，避免某个说话人的数据过多对训练过程造成影响；

步骤三，准备说话人的数据；

步骤四，使用目标说话人的语音数据和选取的辅助数据集，并通过GMM-HMM系统生成自适应训练需要的词格Lattice,使用如下的损失函数进行训练，其中α用来控制辅助数据集的权重，在训练过程中所起到的作用：

步骤五，经过充分训练得到目标说话人的声学模型，使用目标说话人的声学模型，构建语音识别系统。

说话人无关的声学模型的训练包括语音特征梅尔频率倒谱系数MFCC(MelFrequency Cepstral Coefficient)特征的提取、单音素训练，单音素训练完成之后进行三音素训练，以及自适应训练，此时利用已有的三音素模型对训练数据进行强制对齐，构建Lattice free MMI训练准则需要的决策树和Lattice，声学模型使用的时延神经网络，训练的损失函数为

其中k表示声学缩放系统，θ表示模型参数，s^m表示状态序列，物理意义为：分子表示正确的路径的得分总和，分母表示所有路径对应的得分总和，同时为了避免拟合，加入了交叉熵和L2正则化，即最终训练的损失函数为

步骤二具体步骤如下：首先拥有训练数据的文本，同时也拥有一个字典，字典中保存了词或者字到音素的映射关系，通过字典得到将训练数据的文本映射成对应的音素序列，即训练数据语句ID到音素序列的映射，通过训练数据语句ID到音素序列的映射，得到每个音素到语句ID的映射，即那个语句中包含了这个音素，在每个音素对应的语句ID中随机选择一个，这样得到的语句ID的集合此时已经覆盖了所有的音素，根据语句ID的集合再到训练数据中选择对应的数据，得到最终的辅助数据集。

步骤四具体步骤如下：首先载入SI声学模型和目标说话人的数据以及辅助数据集，通过HMM-GMM生成自适应训练需要的Lattice，用于Lattice free MMI准则下的自适应训练，直到模型收敛得到最后的说话人相关的模型。

步骤四详细步骤：得到话人无关的声学模型SI之后，准备辅助数据集和目标说话人的自适应数据，同时使用以下的损失函数进行自适应训练：

其中J(x,y:θ)时目标说话人的损失，

是辅助数据集的损失，α用来控制辅助数据集的权重，N为自适应的数据量，M为辅助数据集数据量，通过训练模型收敛得到的该说话人的相关的声学模型，用于后续的该说话人的语音的识别。

本发明的特点及有益效果是：

为了解决数据的稀疏性问题带来的过拟合问题，本发明采用基于辅助数据的数据正则化技术，结合多任务学习的机制来提高目标说话人的识别准确率。

附图说明：

图1为声学模型的神经网络结构示意图；

图2为辅助数据集选择的伪代码描述；

图3为说话人自适应的示意图；

图4为说话人相关的声学模型的训练示意图。

具体实施方式

说话人自适应技术面临的一个主要问题是，目标说话人的数据有限同时由于数据量少而导致的数据稀疏性。尽管已经提出了许多基于神经网络的声学模型的自适应技术，但是目前已有的说话人自适应技术并没有从根本上数据的稀疏性问题。

为了解决由于目标说话人少量数据的稀疏性问题，本发明使用辅助数据集对训练过程进行正则化，使用多任务学习的损失函数来进行训练，使得声学模型不会由于数据量过少而导致过拟合问题，从而提高目标说话人声学模型的性能。

本发明主要包含以下几个步骤：

步骤一，说话人无关的语音识别系统的训练。使用目前已有的其他说话人的数据训练一个说话人无关的语音识别模型。声学的模型的结构为DNN-HMM模型，其中DNN的网络结构为时延神经网络(TDNN)。针对不同的数据集使用不同结构的TDNN网络，同时使用基于Lattice free MMI的训练准则进行训练。

步骤二，辅助数据集的获取，本发明使用的辅助数据集按照既定的规则从训练数据中选择，辅助数据集中应该覆盖所有的训练数据的音素，同时使得辅助数据集中包含的说话人数量尽量多，避免某个说话人的数据过多对训练过程造成影响。

步骤三，准备说话人的数据。

步骤四，使用目标说话人的语音数据和选取的辅助数据集，并通过GMM-HMM系统生成自适应训练需要的Lattice,使用如下的损失函数进行训练，其中α用来控制辅助数据集的权重，在训练过程中所起到的作用。

步骤五，经过充分训练得到目标说话人的声学模型。使用目标说话人的声学模型，构建语音识别系统。

以下结合附图和具体实施例对本发明做进一步的阐述：

本发明的基本思想是通过结合辅助数据集和说话人的数据，由于辅助数据集覆盖了所有的音素，所以在一定程序上弥补了音素的稀疏性，同时添加的辅助数据也可以起到正则化的作用通过控制辅助数据集在训练过程中的权重来进行训练，提高语音识别的准确率。

步骤一，说话人无关的声学模型的训练主要包括语音特征MFCC特征的提取，MFCC的维度为13维，加上其一阶差分和二阶差分，最终的特征为39维。然后是单音素训练，单音素训练完成之后进行三音素训练，以及自适应训练。此时利用已有的三音素模型对训练数据进行强制对齐。构建Lattice free MMI训练准则需要的决策树和Lattice.声学模型使用的时延神经网络，其主要结构如图1所示，此时训练的损失函数为

其中k表示声学缩放系统，θ表示模型参数，s^m表示状态序列。物理意义可以理解为：分子表示正确的路径的总得分(声学模型和语言模型)，分母表示所有路径对应的得分总和

同时为了避免拟合，加入了交叉熵和L2正则化。

即最终训练的损失函数为

步骤二，图2阐述了辅助数据集的选择的方法，首先我们拥有训练数据的文本，同时我们也拥有一个字典，字典中保存了词或者字到音素的映射关系，通过字典我们可以得到将训练数据的文本映射成对应的音素序列，即训练数据语句ID到音素序列的映射，通过训练数据语句ID到音素序列的映射，我们可以得到每个音素到语句ID的映射，即那个语句中包含了这个音素，在每个音素对应的语句ID中随机选择一个，这样得到的语句ID的集合此时已经覆盖了所有的音素，根据语句ID的集合再到训练数据中选择对应的数据，得到最终的辅助数据集。

步骤三，准备好目标说话人的数据以及辅助数据集的数据，包括特征的提取并通过GMM-HMM系统生成自适应需要的Lattice，用于Lattice-free MMI的训练。

步骤四，图3阐述了本发明提出的说话人自适应方法的整个流程，从说话人无关的声学模型的训练，到说话人自适应训练得到说话人相关的模型。图3中的训练数据是很多个说话人共同组成的数据集，SI声学模型指的是Speaker Independent声学模型，即说话人无关模型，辅助数据集是从训练数据的中通过根据图2的描述的方法得到的一个子集，这个辅助数据集应该包含所有的音素，同时这个辅助数据集中的句子应该尽可能的包含多个说话人，避免在做特定说话人自适应时产生偏差，SD模型指的是Speaker Dependent声学模型，即说话人相关模型。通过训练数据训练基于神经网络的声学模型，这里的声学模型的基本架构是时延神经网络，训练准则是区分性训练准则中的最大互信息，通过训练收敛得到说话人无关的声学模型(SI声学模型)。得到SI声学模型之后，准备辅助数据集和目标说话人的自适应数据，同时使用以下的损失函数进行自适应训练。

其中J(x,y:θ)时目标说话人的损失，

是辅助数据集的损失，α用来控制辅助数据集的权重。N为自适应的数据量，M为辅助数据集数据量，通过训练模型收敛得到的该说话人的相关的声学模型，用于后续的该说话人的语音的识别。

图4阐述了说话人自适应训练的过程的具体的流程图，首先载入SI声学模型和目标说话人的数据以及辅助数据集，通过HMM-GMM生成自适应训练需要的Lattice，用于Lattice free MMI准则下的自适应训练，直到模型收敛得到最后的说话人相关的模型。

步骤五，使用最终得到的目标说话人的声学模型，并和语言模型构建语音识别系统进行识别。

Claims

1.一种基于辅助数据正则化的说话人自适应方法，其特征是，步骤如下：

步骤一，说话人无关的语音识别系统的训练：使用目前已有的其他说话人的数据训练一个说话人无关的语音识别模型，所述语音识别模型的结构为DNN-HMM模型，其中DNN的网络结构为时延神经网络TDNN，同时使用Lattice free MMI的训练准则进行训练，

Lattice free MMI指得是基于无词格的最大互信息熵；

步骤二，辅助数据集的获取，从训练数据中选择，辅助数据集中覆盖所有的训练数据的音素，同时使得辅助数据集中包含的说话人数据量尽量多，避免某个说话人的数据过多对训练过程造成影响；

步骤二具体步骤如下：首先拥有训练数据的文本，同时也拥有一个字典，字典中保存了词或者字到音素的映射关系，通过字典得到将训练数据的文本映射成对应的音素序列，即训练数据语句ID到音素序列的映射，通过训练数据语句ID到音素序列的映射，得到每个音素到语句ID的映射，即哪个语句中包含了这个音素，在每个音素对应的语句ID中随机选择一个，这样得到的语句ID的集合此时已经覆盖了所有的音素，根据语句ID的集合再到训练数据中选择对应的数据，得到最终的辅助数据集

步骤三，准备目标说话人的语音数据；

步骤四，使用目标说话人的语音数据和选取的辅助数据集，并通过GMM-HMM系统生成自适应训练需要的词格Lattice,使用如下的损失函数进行训练，其中α是用来控制辅助数据集的权重，在训练过程中所起到的作用如下式：

其中J(x,y:θ)是目标说话人的损失，

是辅助数据集的损失，α用来控制辅助数据集的权重，N为自适应的数据量，M为辅助数据集数据量，

具体步骤如下：首先载入说话人无关的声学模型SI和目标说话人的数据以及辅助数据集，通过HMM-GMM生成自适应训练需要的Lattice，用于Lattice free MMI准则下的自适应训练，直到模型收敛得到最后的说话人相关的模型

步骤五，经过充分训练得到目标说话人的声学模型，使用目标说话人的声学模型，构建语音识别系统

得到说话人无关的声学模型SI之后，准备辅助数据集和目标说话人的自适应数据，同时使用以下的损失函数进行自适应训练：

通过训练模型收敛得到的该说话人的相关的声学模型，用于后续的该说话人的语音的识别。