CN114743545B

CN114743545B - 方言种类预测模型的训练方法、设备及存储介质

Info

Publication number: CN114743545B
Application number: CN202210666185.4A
Authority: CN
Inventors: 赵文博; 肖清; 许程冲
Original assignee: China Unicom Guangdong Industrial Internet Co Ltd
Current assignee: China Unicom Guangdong Industrial Internet Co Ltd
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-09-02
Anticipated expiration: 2042-06-14
Also published as: CN114743545A

Abstract

本发明提供方言种类预测模型的训练方法、设备及存储介质，方法包括：将自监督训练数据和语音识别训练数据输入编码器模型，得到自监督数据向量和第一语音数据向量；根据编码器模型以及语音识别模型的损失函数构造第一阶段混合损失函数，以训练编码器模型以及语音识别模型；将方言种类判别训练数据以及语音识别训练数据输入训练后的编码器模型得到方言数据向量以及第二语音数据向量；根据语音识别模型以及方言种类预测模型的损失函数构造第二阶段混合损失函数，以训练语音识别模型以及方言种类预测模型。该方法通过半监督的方式快速对前述的三种模型进行联合训练，且在输入数量有限的标注数据的前提下训练得到精准度较高的方言种类预测模型。

Description

方言种类预测模型的训练方法、设备及存储介质

技术领域

本发明涉及语音识别领域，更具体地，涉及方言种类预测模型的训练方法、设备及存储介质。

背景技术

语音交互是人类最直接和便捷的沟通方式之一，可以在短时间内传递丰富信息内容，满足人们对信息表达和交互的需要。在一般非正式场合中，人们沟通交流倾向于使用其熟悉的本地方言。让机器能够自动区分不同种类的方言，可以为后续的方言ASR奠定技术基础，在地域文化保护、跨区域交流、国家安全监管等方面都有重要意义。国内方言种类繁多、发音差异较大，数据收集和标注的成本相对普通话而言要高得多，且目前的语音识别模型的识别准确率较低，需要依赖大量的标注数据，当标注数据不足时，其识别准确率和泛化能力严重劣化，且数据标注的过程需要耗费大量的人力和时间成本，因此需要构建一种能够高效、准确判别不同方言的方法。

发明内容

本发明旨在克服上述现有技术的至少一种缺陷，提供方言种类预测模型的训练方法、设备及存储介质，用于解决现有技术中对方言识别的准确率较低且严重依赖标注数据的问题。

本发明采用的技术方案包括：

本发明提供一种方言种类预测模型的训练方法，包括：获取语音数据，对所述语音数据进行预处理，将预处理后的语音数据分为自监督训练数据、语音识别训练数据和方言种类判别训练数据；将自监督训练数据和语音识别训练数据输入编码器模型，以使编码器模型分别编码得到自监督数据向量和第一语音数据向量；根据自监督数据向量构造所述编码器模型的自监督损失函数；根据所述语音识别模型的输出构造语音识别模型的损失函数；根据所述编码器模型的自监督损失函数，以及所述语音识别模型的损失函数构造第一阶段混合损失函数；将第一语音数据向量输入语音识别模型，并利用所述第一阶段混合损失函数训练所述编码器模型以及所述语音识别模型，直至所述第一阶段混合损失函数的函数值不再降低；将方言种类判别训练数据以及语音识别训练数据输入训练后的编码器模型，以使编码器模型对其编码得到方言数据向量以及第二语音数据向量；根据所述方言种类预测模型的输出构造方言种类预测模型的损失函数；根据所述语音识别模型的损失函数，以及所述方言种类预测模型的损失函数构造第二阶段混合损失函数；将方言数据向量以及第二语音数据向量分别输入方言种类预测模型以及训练后的语音识别模型，并利用所述第二阶段混合损失函数训练所述语音识别模型以及所述方言种类预测模型，直至所述第二阶段混合损失函数的函数值不再降低，得到训练后的方言种类预测模型。

本发明提供的方言种类预测模型的训练方法，通过第一阶段的预训练对编码器模型进行自监督训练，以及结合编码器模型的自监督损失函数以及语音识别模型的损失函数构造第一阶段混合损失函数，以半监督联合学习的方式共同训练编码器模型以及语音识别模型，最大限度地利用无标注的数据提高编码器模型的收敛速度。训练后的编码器模型具备较强的提取音频特征的能力，将其编码的方言数据向量以及第二语音数据向输入方言种类预测模型以及训练后的语音识别模型，结合语音识别模型的损失函数以及方言种类预测模型的损失函数构造第二阶段混合损失函数，以共同训练语音识别模型和方言种类预测模型，同样是最大限度利用有标注的数据提高方言种类预测模型的特征抽取能力以及收敛速度，训练后的方言种类预测模型作为语音识别模型的前置处理模块，其有效提取方言语言特征，能够对方言种类进行精准预测，从而提高后续语音识别模型对方言语音识别的准确率。

进一步，所述第二阶段混合损失函数为

；其中，所述

为第二阶段混合损失函数，所述

为适应性权重衰减因子，所述

为所述方言种类预测模型的损失函数，所述

为所述语音识别模型的损失函数；所述适应性权重衰减因子通过式子

确定；其中，所述

为超参数，所述

为训练最大迭代次数，所述

为训练当前迭代次数。

本发明在构建第二阶段混合损失函数时引入适应性权重衰减因子，使其在损失函数中随迭代次数的变化作适应性更新，在训练前期，第二阶段混合损失函数的权重侧重于语音识别模型，则前期训练侧重于语音识别模型的训练，提高模型的音频特征抽取能力，而随着适应性权重衰减因子不断增大，后期训练侧重于方言种类预测模型的训练，重点提高方言种类识别的性能。

进一步，所述语音识别模型的损失函数为

；其中，所述

为语音识别模型的损失函数，所述

为所述语音识别模型在接收到第一语音数据向量后输出对应所述第一语音数据向量的转写标签；所述

为所有有效CTC路径的集合，且

，所述

表示单条CTC路径长度，所述

与所述

分别表示第一语音数据向量和其对应的真实转写标签序列，所述

为CTC路径的映射关系。

进一步，所述方言种类预测模型的损失函数为

；其中，所述

为方言种类预测模型，所述

为预先设定的训练批次的数据大小，所述

为方言数据向量的真实方言种类标签，所述

为所述方言种类预测模型在接收到方言数据向量后输出对应所述方言数据向量的方言种类标签。

进一步，所述自监督损失函数为

；其中，所述

为自监督损失函数，所述

表示任意两个向量之间的相似度，所述

为衰减因子参数；所述任意两个向量之间的相似度通过式子

确定，所述

与

为任意两个向量。

进一步，所述第一阶段混合损失函数为

；其中，所述

为第一阶段混合损失函数，所述

为所述自监督损失函数，所述

为语言识别模型的损失函数；所述

为用于调整

与

之间权重的超参数，所述

表示单条CTC路径长度。

进一步，所述编码器模型包括若干个首尾串联的注意力模块，每个注意力模块基于式子

对所输入的数据进行编码，并将编码后的数据向量输出至下一个注意力模块，由串联的最后一个注意力模块输出最终编码后的数据向量；其中，

表示第n个注意力模块的注意力机制变换，所述Q、K、V分别为注意力机制中的查询、键和值，d为嵌入层维度；所述

为V的转置矩阵；每个注意力模块输出的编码后的数据向量为

；所述

为编码后的数据向量，所述

表示非线性激活函数，所述

为注意力机制变换，所述

表示当前注意力模块的输入。

进一步，对所述语音数据进行预处理，具体包括：将所述语音数据的采样率匹配预先设定的目的采样率；对已匹配采样率的语音数据进行回声和噪声处理；对回声和噪声处理后的语音数据进行静音切除处理；对静音切除处理后的语音数据进行频谱特征转换处理。

对训练数据进行预处理，有利于提高后续模型训练时的数据匹配率、模型训练的效果以及提高计算和收敛速度。

与现有技术相比，本发明的有益效果为：

本发明提供的方言种类预测模型的训练方法中，第一阶段的预训练同时对编码器模型以及语音识别模型进行训练，使编码器模型以半监督的方式快速获取到语音特征的提取能力，加快了其收敛速度。第二阶段的联合训练利用训练完成的编码器模型对方言种类判别训练数据以及语音识别训练数据进行编码，更好地提取其中的语音特征，并同时对语音识别模型以及方言种类识别模型进行训练，直至第二阶段混合损失函数的函数值不再降低，训练后的方言种类预测模型能够作为其他语音识别模型的前置处理模型，准确地预测语音数据的方言种类，有利于提高对方言语音识别的准确性，且由于第二阶段的训练共同训练了语音识别模型以及方言种类预测模型，方言种类预测模型的训练无需高度依赖标注数据的数量也能够达到较佳的训练效果。

附图说明

图1为本发明实施例1提供的方法的整体流程示意图。

图2为本发明实施例1提供的方法的步骤S110~S210的流程示意图。

图3为本发明实施例1提供的方法的步骤S111~S114的流程示意图。

具体实施方式

本发明附图仅用于示例性说明，不能理解为对本发明的限制。为了更好说明以下实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

实施例1

本实施例提供一种方言种类预测模型的训练方法，采取两个阶段训练的方式训练得到方言种类预测模型，训练得到的方言种类预测模型尤其适用于通信场景的方言识别。其中，如图1所示，整体训练中需要分阶段训练三个模型，分别是编码器模型、语音识别模型以及方言种类预测模型。

结合图1、2所示，该方法包括以下步骤：

S110、获取语音数据，对语音数据进行预处理；

在本步骤中，预处理是为了优化数据，例如对数据去噪、将数据调整为模型兼容的数据类型等等。具体地，如图3所示，预处理包括以下步骤：

S111、将语音数据的采样率匹配预先设定的目的采样率；

本步骤可由图1中的重采样模块执行，不同应用场景下，语音数据的采样率不相同，以通信场景的音频数据作为示例，由于通信场景音频多数为8kHz采样率，当训练模型时使用语料的采样率为16kHz，需要对原始音频信号进行采样率重采样，将原采样率转换到目的采样率。

更具体地，应先计算根据原采样率与目的采样率相比的系数，确定重采样后音频的采样点数，之后选取适用的插值方程计算重采样点的数值，并输出对应目标采样率的音频信号

S112、对已匹配采样率的语音数据进行回声和噪声处理；

本步骤可由图1中的噪声回声去除模块执行，该步骤用于中的回声和噪声处理用于去除噪音与回声，有助于提高后续模块的识别准确率。具体地，可采用AEC抵消器和非线性滤波器对语音数据进行回声和噪声处理。

S113、对经过回声和噪声处理后的语音数据进行静音切除处理；

本步骤可由图1中的静音切除模块执行，该步骤中的静音切除处理是指将音频数据中的无效静音部分切除，减少后续模块不必要的计算量。

具体地，静音切除处理可采用混合高斯模型处理，首先对降噪后的音频进行VAD处理，再采用混合高斯模型估计语音数据中语音和非语音的似然概率，并迭代更新后验概率与高斯模型直至收敛，之后根据实际情况设定静音分离阈值，将语音数据中的静音部分切除。

S114、对静音切除处理后的语音数据进行频谱特征转换处理；

本步骤可由图1中的频谱特征转换模块执行，具体地，本步骤用于将时域上的语音数据转换到频域上进行分析，即对上一步得到的有效语音数据进行预加重，平衡信号频谱。之后对语音数据进行分帧，将其按固定长度切分为多个帧信号。对每个帧信号进行加窗处理，让帧两端平滑衰减以获得更高质量的频谱。对每帧加窗后的信号进行短时傅里叶变换，将信号从时域转换到频域。在经过变换后的能量谱上应用Mel滤波器组，得到语音信号对应的FBank特征，完成对语音数据的频谱特征转换处理。

S120、将预处理后的语音数据分为自监督训练数据、语音识别训练数据和方言种类判别训练数据；

本步骤可由图1中的训练数据处理模块执行。在本步骤中，由于本实施例提供的训练方法需涉及到三个模型的训练，因此需要准备分别输入三个模型的语音数据。

其中，自监督训练数据用于编码器模型的自监督训练，具体地，自监督训练数据可以是在一段语音数据中，按5%的比例随机选取多个帧信号，将其初始化为零向量。按照序列长度对处理后的数据进行排序拼接，再按照批次大小裁切，从而得到对应的自监督训练数据。

语音识别训练数据用于语音识别模型的训练，具体地，可使用Tokenizer将语音数据对应的转写文本转换为整型数据，之后按照序列长度将语音信号与转写数据进行排序拼接，再按照批次大小裁切，从而得到对应的语音识别训练数据。

方言种类判别训练数据用于方言种类预测模型的训练，具体地，可按照序列长度将语音信号与对应方言种类标签进行排序拼接，再按照批次大小裁切，从而得到对应的方言种类判别训练数据。

S130、将自监督训练数据和语音识别训练数据输入编码器模型；

在本步骤执行之前，应先加载整体神经网络结构至计算机显存中并初始化神经网络参数。在本步骤中，将自监督训练数据和语音识别训练输入编码器模型后，编码器模型将两者分别编码得到自监督数据向量和第一语音数据向量，并将第一语音数据向量输入语音识别模型，语音识别模型会对每一个输入的第一语音数据向量输出对应的转写标签。

具体地，编码器模型包括若干个首尾串联的注意力模块，每个注意力模块基于式子

对所输入的数据进行编码，并将编码后的数据向量输出至下一个注意力模块，由串联的最后一个注意力模块输出最终编码后的数据向量。

其中，

表示第n个注意力模块的注意力机制变换，Q、K、V分别为注意力机制中的查询、键和值，d为嵌入层维度；

为V的转置矩阵。

每个注意力模块输出的编码后的数据向量为

。

其中，

为编码后的数据向量，

表示非线性激活函数，

为注意力机制变换，

表示当前注意力模块的输入。

S140、根据自监督数据向量构造编码器模型的自监督损失函数；

在本步骤中，自监督损失函数为

。

其中，

为自监督损失函数，

表示任意两个向量之间的相似度，

为衰减因子参数；任意两个向量之间的相似度通过式子

确定，

与

为任意两个向量。

S150、根据语音识别模型的输出构造语音识别模型的损失函数；

在本步骤中，语音识别模型的损失函数为

。

其中，

为语音识别模型的损失函数，

为所述语音识别模型在接收到第一语音数据向量后输出对应所述第一语音数据向量的转写标签；

为所有有效CTC路径的集合，且

，

表示单条CTC路径长度，

与

分别表示第一语音数据向量和其对应的真实转写标签序列，

为CTC路径的映射关系。

S160、根据编码器模型的自监督损失函数，以及语音识别模型的损失函数构造第一阶段混合损失函数；

在本步骤中，第一阶段混合损失函数为

。

其中，

为第一阶段混合损失函数，

为所述自监督损失函数，

为语言识别模型的损失函数；

为用于调整

与

之间权重的超参数，

表示单条CTC路径长度。

第一阶段混合损失函数由自监督损失函数和语言识别模型的损失函数组成，用于在后续步骤中共同训练编码器模型以及语音识别模型。

S170、将第一语音数据向量输入语音识别模型，并利用第一阶段混合损失函数训练编码器模型以及语音识别模型，直至第一阶段混合损失函数的函数值不再降低；

在第一阶段预训练的过程中，需重复执行步骤S130以将自监督训练数据以及语音识别训练数据输入编码器模型，由编码器模型分别进行编码并得到自监督数据向量以及第一语音数据向量，并将第一语音数据向量输入语音识别模型，语音识别模型输出第一语音数据向量对应的语音转写标签，每一次输入新的第一语音数据向量以及输出自监督数据向量时，第一阶段混合损失函数的函数值会重新计算并更新，且每一次迭代计算的过程会不断更新网络结构参数，直至第一阶段混合损失函数的函数值不再降低表示训练完成。

第一阶段预训练完成后，加载第一阶段预训练得到的神经网络参数。

利用第一阶段混合损失函数对编码器模型以及语音识别模型进行预训练，能够最大限度地利用了无标注的数据进行半监督的联合学习，得到预训练后的编码器模型以及语音识别模型，与语音识别模型同时进行训练也加快了编码器模型的收敛速度。

S180、将方言种类判别训练数据以及语音识别训练数据输入训练后的编码器模型；

在本步骤中，将方言种类判别训练数据以及语音识别训练数据输入训练后的编码器模型，训练后的编码器模型对其进行编码得到方言数据向量以及第二语音数据向量，方言种类预测模型会对每一个输入的方言数据向量输出对应的方言种类标签，语音识别模型会对每一个输入的第二语音数据向量输出对应的转写标签。

完成训练的编码器模型具备了语音特征抽取能力，在对方言种类判别训练数据以及语音识别训练数据进行编码时，能够得到更精准表征方言种类特征的方言数据向量以及第二语音数据向量，并将其输入方言种类预测模型以及语音识别模型进行下一步的训练。

S190、根据方言种类预测模型的输出构造方言种类预测模型的损失函数；

在本步骤中，方言种类预测模型的损失函数为

。

其中，

为方言种类预测模型，

为预先设定的训练批次的数据大小，

为方言数据向量的真实方言种类标签，

为方言种类预测模型在接收到方言数据向量后输出对应方言数据向量的方言种类标签。

S200、根据语音识别模型的损失函数，以及方言种类预测模型的损失函数构造第二阶段混合损失函数；

在本步骤中，第二阶段混合损失函数为

。

其中，

为第二阶段混合损失函数，

为适应性权重衰减因子，

为所述方言种类预测模型的损失函数，

为语音识别模型的损失函数。

适应性权重衰减因子通过式子

确定。

其中，

为超参数，

为训练最大迭代次数，

为训练当前迭代次数。

训练最大迭代次数是指在训练模型过程中迭代计算次数的最大值，当达到训练最大迭代次数时，无论模型性能是否达标都停止训练过程。

从适应性权重衰减因子的计算式子可看出，随着迭代次数的增加，适应性权重衰减因子

的值会越大，表示在训练前期，第二阶段混合损失函数的函数值主要由语音识别模型的损失函数的函数值决定，在训练前期主要用于训练语音识别模型的语音特征提取能力，但在训练后期，第二阶段混合损失函数的函数值主要由方言种类预测模型的损失函数的函数值决定，在训练后期用于训练方言种类预测模型的方言种类识别能力。

S210、将方言数据向量以及第二语音数据向量输入方言种类预测模型以及训练后的语音识别模型，并利用第二阶段混合损失函数训练语音识别模型以及方言种类预测模型，直至第二阶段混合损失函数的函数值不再降低，得到训练后的方言种类预测模型。

在第二阶段联合训练的过程中，需重复执行步骤S180以将方言种类判别训练数据以及语音识别训练数据输入编码器模型，由编码器模型编码后得到方言数据向量以及第二语音数据向量，并将方言数据向量以及第二语音数据向量分别输入方言种类预测模型以及训练后的语音识别模型，方言种类预测模型输出方言数据向量对应的方言种类标签，语音识别模型输出第二语音数据向量对应的转写标签，每一次输入新的第二语音数据向量以及方言数据向量时，第二阶段混合损失函数的函数值会重新计算并更新，且每一次迭代计算的过程会不断更新网络结构参数，直至第二阶段混合损失函数的函数值不再降低表示训练完成。

利用第二阶段混合损失函数同时训练语音识别模型以及方言种类预测模型，能够更高效利用有标注的数据提高方言种类预测模型的特征抽取能力以及收敛速度，在训练完成后，语音识别模型可以去除，训练后的方言种类预测模型可用于精准预测语音数据中的方言种类，并作为其他语音识别模型的前置处理模块，以提高语音识别模型对方言语音识别的准确率。

本实施例提供的方言种类预测模型的训练方法，通过第一阶段的预训练同时对编码器模型以及语音识别模型进行训练，使编码器模型以半监督的方式在数量有限的无标注数据输入的情况快速获取到语音特征的提取能力，且加快收敛速度。第二阶段的联合训练利用训练完成的编码器模型对方言种类判别训练数据以及语音识别训练数据进行编码，以更好地提取其中的语音特征，编码得到的方言数据向量以及第二语音数据向量输入方言种类预测模型和语音识别模型进行预测，分别得到方言种类标签以及转写标签，直至第二阶段混合损失函数的函数值不再降低。在第二阶段的联合训练过程中，利用适应性权重衰减因子，使训练前后期关注不同的模型，并在训练后期侧重关注方言种类预测模型。在第二阶段训练完成并去除语音识别模型后，训练后的方言种类预测模型能够作为其他语音识别模型的前置处理模型，准确地预测语音数据的方言种类，有利于提高对方言语音识别的准确性，且由于第二阶段的训练共同训练了语音识别模型以及方言种类预测模型，方言种类预测模型的训练无需高度依赖标注数据的数量也能够达到较佳的训练效果，降低了数据标注所带来的人力和时间成本。

实施例2

本实施例提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现实施例1提供的方言种类预测模型的训练方法。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1提供的方言种类预测模型的训练方法。

显然，本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例，而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。