CN115223549A

CN115223549A - 一种越南语语音识别语料构建方法

Info

Publication number: CN115223549A
Application number: CN202210803360.XA
Authority: CN
Inventors: 高盛祥; 曾令帆; 余正涛; 董凌
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-07-09
Filing date: 2022-07-09
Publication date: 2022-10-21

Abstract

本发明提出一种越南语语音识别语料构建方法，属于人工智能技术领域。本发明利用语音预训练模型和文本预训练模型获取到的语音表征和文本表征，先通过CTC进行时序对齐，然后利用局部注意力和全局注意力相结合的混合注意力将语音和文本二次对齐，对齐好的语音和文本可直接作为越南语语音识别语料。实验结果表明，该方法有效减少越南语语音文本对齐任务中语义对齐错位的问题，提升模型在噪声数据的对齐鲁棒性，减小语音文本不同模态的差距，提高越南语语音识别语料的质量。

Description

一种越南语语音识别语料构建方法

技术领域：

本发明涉及越南语语音识别语料构建方法，属于人工智能技术领域。

背景技术：

越南语属于资源稀缺型语言，越南语语音识别公开数据集只有数百小时，相较于英文、中文等大语种的数万小时来说，标注数据的稀缺和稀疏性使得模型无法较好适应口音、年龄、环境噪音、语速、近远场等因素引起数据偏移。导致识别模型在越南语上的识别率不理想。而越南语有大量有声读物、影视剧等长语音文本数据可用作训练语料，但人工标注方式工作量大，代价高昂，因此，研究越南语语音文本自动对齐算法，对越南语语音数据进行自动标注对齐具有重大研究意义和价值。同时在互联网数据(语音和文本数据)常常会带有大量噪声数据(语音噪声，文本噪声)，常见例如语音与文本不匹配的情况出现漏字、吞字、错字、文本与语音不相符等问题。语音文本对齐任务需要解决的不仅仅只是按照声学边界来与文本进行时序对齐的问题，更需要在语音文本并不完全对应的情况下进行语义对齐。

发明内容：

本发明提出了越南语语音识别语料构建方法，解决了越南语语音文本对齐任务中因文本增加或删除等噪声数据导致对齐错位的问题，该方法使用大型预训练语音和文本模型分别作为语音特征提取器和文本特征提取器，然后使用CTC-混合交叉注意力对语音和文本进行对齐。给予模型理解文本和语音的能力，令模型学习到不同模态间的语义对齐信息；并在上述基础上融合越南语声调特征的越南语音素文本编码器，使模型在学习上下文语义信息的同时，更能关注到越南语语音中声调的变化的特征。

本发明的技术方案是：一种越南语语音识别语料构建方法，所述方法的包含训练过程和解析过程，具体步骤如下：

训练过程包括：

(1)收集语音长度20秒以内的包含越南语对应的语音和文本作为训练语料和测试语料；

(2)对开源语音识别数据集进行了文本预处理，包括：数据清洗，数据清洗包括去除标点、数字、英文以及非法字符、统一Unicode编码、使用越南语转音素工具Viphoneme对越南语文本转换成音素。

(3)对音频进行预处理，切除静音片段；

(4)在步骤(2)的基础上构建音素粒度的词表；

(5)对预训练语音编码器进行微调,其中语音编码器使用Wav2vec2的预训练模型，该模型由7层卷积神经网络和12层transformer网络组合而成，能够缩短语音的序列长度并将语音编码成一个隐藏层维度为768的向量。该模型需要使用无监督语音预训练好，再使用有标签的越南语语音识别数据微调得到。

(6)对预训练文本编码器重新预训练，其中文本编码器使用预训练文本编码器Bert,该模型采取比原Bert更小的模型参数，其中隐藏层为4层。

(7)将微调好语音编码器和预训练的文本编码器的参数初始化给对齐模型的语音编码器和文本编码器。

(8)使用CTC-混合交叉注意力对语音特征和文本特征进行联合训练；使用混合交叉注意力对语音表征X^S和文本表征Y^P进行语义对齐，其中的得到的语音表征为

其中

表示语音编码器，得到的文本特征

其中

为文本编码器；根据chunk分块将交叉注意力的局部注意力中的参数

全局注意力参数

分别分块得到互不重叠的划分子序列

例如

其中的G为分组的数量，T为序列长度，C为子序列的长度,

同理。A矩阵表示语音序列与文本序列之间的相似度矩阵；

H＝concatenate[Z^X,O_g] (9)

如公式(1)所示局部注意力中的参数

是通过语音表征Z^X仿射变换得到,其中W_Q,W_K,

为模型线性层参数；如公式(2)

通过对

按组切分补齐得到，

为

的相似度矩阵；如公式(3)通过relu非线性激活函数计算出局部注意力参数的相似度矩阵；如公式(4)，通过softmax函数将相似度矩阵映射到0到1之间，交叉注意力机制模型将学习一个对齐矩阵

其中N为文本序列长度，T为语音序列长度，用于对齐语音序列和音素文本序列；如公式(5)，通过注意加权得到

如公式(6)、公式(7)，全局注意力同理；如公式(7),将局部特征与全局特征相加再通过仿射变化得到O_g；如公式(9),将语音表征Z^X和公式(8)所得特征进行拼接得到H其中H用于CTC损失函数训练；

局部查询向量；

局部被查询信息与其他信息的相关性向量；

由局部查询向量

与局部被查询信息与其他信息的相关性向量

计算得到的局部注意力相似度矩阵；b是偏置矩阵；

局部信息矩阵；

由局部注意力相似度矩阵与局部信息矩阵运算得到的加权局部信息矩阵；

全局查询向量；

全局被查询信息与其他信息的相关性向量；

全局信息矩阵；

加权全局信息矩阵；

W_o：神经网络模型中的可学习的参数矩阵。

U_g：神经网络中的门控参数矩阵。

解析过程包括：

(9)将一段语音和文本送入训练好的对齐模型；

(10)模型通过CTC-混合交叉注意力对对齐结果进行二次语义对齐得到对齐结果。对于首次CTC对齐置信度小于阈值的结果需要使用混合交叉注意力进行二次语义对齐；越南语语音文本对齐模型中有两个解码器输出，分别是wav2vec经过线性层输出的越南语语音语越南语音素词表的概率矩阵

其中C为词表的大小；混合交叉注意力得到的越南语语音语越南语音素文本相似度矩阵

由概率矩阵F得到其中每一帧对应的字符概率k_j,t＝p(c_j|t,F)＝F_c,t,c∈[1,N],t∈[1,T]，这样利用动态规划算法得到对齐最大联合概率如公式(10)所示；

其中p(blank|t)为当前时刻t为空白字符的概率，将第一个字符的转移概率设为零，然后计算当下一个字符为空白符或者为下一个字符时的最大转移概率，令当前最后一个字符概率为t＝argmax_t′(k′_t,N-1)，然后通过回溯转移概率矩阵k_j,t找到字符与帧对应的一条概率最大的路径，得到对齐关系S_t，如公式(11)所示；

通过最小化平均概率能惩罚由于错误的匹配产生的概率得到对齐关系S^att＝[x₁＝y₁,…,x_i＝y_j,x_i+1＝y_j,…,x_t＝y_n]；N:当前文本的长度，为正整数；j：为概率矩阵F的下标，0≤j≤N且j为整数；x_i:i为下标，表示某一时刻的语音帧，0≤i≤T，其中T为语音的帧长，y_j：j为下标，表示某一时刻对应的字符，0≤j≤N.其中N为文本的长度；x_t:t为下标，表示t时刻对应的语音帧，0≤t≤T.其中T为语音的帧长；y_n:n为下标，表示第n个字符，0≤n≤N.其中N为文本的长度。

本发明的有益效果是：本方法提出越南语语音识别语料构建方法，针对越南语语音文本对齐任务中因文本增加或删除等噪声数据导致对齐错位的问题，本发明将结合越南语声学声调特征，提出基于融入越南语声调特征的文本编码器的CTC-混合交叉注意力的双解码器重对齐方法，有效减少对齐任务中语义对齐错位的现象，提升模型在噪声数据的对齐鲁棒性。实验表明，基于混合交叉注意力机制的对齐方法有助于模型在局部和全局上关注语音文本对齐信息，使用对比学习能够让模型学习到语音文本模态间的语义对齐信息，减小语音文本不同模态的差距。

附图说明：

图1是本发明提出的越南语语音识别语料构建方法的对齐模型训练过程示意图；

图2是本发明提出的越南语语音识别语料构建方法的对齐模型解码解析过程示意图；

图3是本发明提出的越南语语音识别语料构建方法的混合注意力模型结构图；

图4是本发明交叉注意力与混合注意力训练加速实验示意图。

具体实现方式：

实施例1，如图1-图4所示，一种越南语语音识别语料构建方法，所述方法的具体步骤如下：

Step1、收集包含对应的语音和越南语文本作为训练语料和测试语料；具体的，同时使用开源数据集VIVOS,其中包含11660平行句对；

表1为数据集设置

Step2、对数据集的文本进行预处理，对越南语文本数据进行数据清洗，数据清洗包括去除标点、数字、英文以及非法字符、统一Unicode编码。使用开源的越南语文本转音素工具Viphoneme得到越南语音素序列；

Step3、对于音频，将所有音频使借助于计算机自动文本处理工具sox对音频文件进行重采样为比特率为16kHz的wav格式文件；

Step4、在Step2的基础上构建音素粒度的词表；

Step5、在越南语有监督数据集上微调越南语Wav2vec2语音编码器，无监督数据上预训练越南语文本Bert编码器；

Step6、将微调好语音编码器和预训练的文本编码器的参数初始化给对齐模型的语音编码器和文本编码器；

Step7、使用CTC-混合交叉注意力对语音特征和文本特征进行联合训练；

使用混合交叉注意力对语音表征X^S和文本表征Y^P进行语义对齐，其中的得到的语音表征为

其中

表示语音编码器，得到的文本特征

其中

全局注意力参数

分别分块得到互不重叠的划分子序列

例如

其中的G为分组的数量，T为序列长度，C为子序列的长度,

同理。A矩阵表示语音序列与文本序列之间的相似度矩阵；

H＝concatenate[Z^X,O_g] (9)

如公式(1)所示局部注意力中的参数

是通过语音表征Z^X仿射变换得到,其中W_Q,W_K,

为模型线性层参数；如公式(2)

通过对

按组切分补齐得到，

为

局部查询向量；

局部被查询信息与其他信息的相关性向量；

由局部查询向量

与局部被查询信息与其他信息的相关性向量

计算得到的局部注意力相似度矩阵；b是偏置矩阵；

局部信息矩阵；

全局查询向量；

全局被查询信息与其他信息的相关性向量；

全局信息矩阵；

加权全局信息矩阵；

W_o：神经网络模型中的可学习的参数矩阵。

U_g：神经网络中的门控参数矩阵。

Step8、将一段语音和文本送入训练好的对齐模型；

Step9、模型通过CTC-混合交叉注意力对对齐结果进行二次语义对齐得到对齐结果。对于首次CTC对齐置信度小于阈值的结果需要使用混合交叉注意力进行二次语义对齐；越南语语音文本对齐模型中有两个解码器输出，分别是wav2vec经过线性层输出的越南语语音语越南语音素词表的概率矩阵

其中p(blank|t)为当前时刻t为空白字符的概率，将第一个字符的转移概率设为零，然后计算当下一个字符为空白符或者为下一个字符时的最大转移概率，令当前最后一个字符概率为t＝argmax_t′(k′t,N-1)，然后通过回溯转移概率矩阵k_j,t找到字符与帧对应的一条概率最大的路径，得到对齐关系S_t，如公式(11)所示；

通过最小化平均概率能惩罚由于错误的匹配产生的概率得到对齐关系S^att＝[x₁＝y₁,…,x_i＝y_j,x_i+1＝y_j,…,x_t＝y_n]；N:当前文本的长度，为正整数；

j：为概率矩阵F的下标，0≤j≤N且j为整数；x_i:i为下标，表示某一时刻的语音帧，0≤i≤T，其中T为语音的帧长，y_j：j为下标，表示某一时刻对应的字符，0≤j≤N.其中N为文本的长度；x_t:t为下标，表示t时刻对应的语音帧，0≤t≤T.其中T为语音的帧长；y_n:n为下标，表示第n个字符，0≤n≤N.其中N为文本的长度。

借助于CTC-混合注意力对齐方法，对音频与其对应的文本进行音素级别的对齐，得到文本中每个单词对应的音频时间片段。对于文本序列对应的原音频，首先将音频与文本进行强制文本对齐，该操作允许我们能够获取到文本序列中每个单词对应的音频帧的大致对齐。例如：

文本序列：

音频对齐：1.080-1.880

1.880-2.320

2.320-2.7840

本发明工作，使用预训练模型用于和提取语音和文本特征。表2展示了使用不同算法语音文本对齐实验的准确率。

表2使用不同算法进行越南语语音文本对齐结果

实验结果如表2所示，相比于传统基于隐马尔科夫模型对齐模型MFA，Gentle，基于CTC-混合交叉注意力模型在噪声数据集上但F1值分别提升巨大，也充分体现出神经网络对齐的优势。相较于本发明的基线模型，在VIVOS干净数据集上F1值相差约0.5％，但在具有VIVOS噪声数据集下准确率能够提升8％的意味着在噪声场景下，CTC-混合交叉注意力机制两次对齐能够有效减少对齐错位的现象，能够提高语料构建的质量。

本发明中提到混合注意力机制理论上的时间复杂度要比普通注意力机制小，对于大规模数据训练来说能够加速训练速度，减少时间成本。为了探究在线性交叉混和注意力与交叉注意力的在训练相同步数下，模型训练加速情况设计了速度对实验，分别使用交叉注意力与线性混合实验的对齐模型在VIVOS数据集上训练2400步，使用一张Tesla T4显卡。记录两个模型的损失和每100步的平均运行时间，其中为了使loss训练时间的数据级保持一致，loss值以缩小100倍展示，如图4所示.其中图4中有两组对比，分别是线性混合交叉注意力与交叉注意力训练速度对比，线性混合交叉注意力与交叉注意力loss对比。实验表明线性混合交叉注意力与交叉注意力在loss值相近的情况下，线性混合交叉注意力的平均每步训练时长为9.9秒,交叉注意力的平均每步训练时长为22.57秒，也就是说线性混合交叉注意力在相似的性能表现下，训练速度约为交叉注意力的2.27倍。

表3混合注意力消融实验

实验编号	音素词嵌入	交叉注意力	混合注意力	对比损失	CTC解码	准确率	召回率	F1
									实验1	-	-	√	√	√	0.64	0.65	0.64
实验2	√	-	√	√	-	0.60	0.60	0.60
									实验3	√	-	-	√	√	0.58	0.56	0.57
实验4	-	√	-	√	-	0.59	0.59	0.59
									实验5	-	-	√	√	-	0.58	0.59	0.58
实验6	-	√	-	-	-	0.55	0.55	0.55
									实验7	-	-	√	-	-	0.56	0.56	0.56

实验结果如表3所示，实验5和实验6对比，混合注意力由于使用了线性注意力机制，在准确率接近的情况下有效减少训练时间，在对齐模型中使用线性混合注意力相较于普通交叉注意力约有2.27倍的速度提升；实验4和实验6与实验5和实验7的F1值分别提高7％和3％，表明加入对比损失有利于模型减小不同模态之间的差异性；在实验2和实验5中，实验2结合了越南语声调的特征，融入了越南语声调信息比不融入声调特征F1值提升3％,证明了越南语音素编码器融入声调信息有助于提升对齐的准确率；实验1与实验2中，实验1使用了CTC-Attention联合解码，在F1值上提升了6％,证明了Attention二次重对齐有助于矫正越南语语音文本不完全一致情况下错位对齐。

Claims

1.一种越南语语音识别语料构建方法，其特征在于：所述方法的包含两个过程和10个步骤如下：

训练过程包括：

(1)收集包含越南语对应的语音和文本作为训练语料和测试语料；

(2)对数据集的文本进行预处理，将越南语文本转换成越南语音素；

(3)对音频进行预处理，切除静音片段；

(4)在步骤(2)的基础上构建音素粒度的词表；

(5)对预训练语音编码器进行微调；

(6)对预训练文本编码器重新预训练；

(7)将微调好语音编码器和预训练的文本编码器的参数初始化给对齐模型的语音编码器和文本编码器；

(8)使用CTC-混合交叉注意力对语音特征和文本特征进行联合训练；

解析过程包括：

(9)将一段语音和文本送入训练好的对齐模型；

(10)模型通过CTC-混合交叉注意力对对齐结果进行二次语义对齐得到对齐结果。

2.根据权利要求1所述的越南语语音识别语料构建方法，其特征在于，所述(2)中对开源语音识别数据集进行了文本预处理，包括：数据清洗，数据清洗包括去除标点、数字、英文以及非法字符、统一Unicode编码、使用越南语转音素工具Viphoneme对越南语文本转换成音素。

3.根据权利要求1所述的越南语语音识别语料构建方法，其特征在于，所述(5)中，其中语音编码器使用Wav2vec2的预训练模型，该模型由7层卷积神经网络和12层transformer网络组合而成，能够缩短语音的序列长度并将语音编码成一个隐藏层维度为768的向量，该模型需要使用无监督语音预训练好，再使用有标签的越南语语音识别数据微调得到。

4.根据权利要求1所述的越南语语音识别语料构建方法，其特征在于，所述(6)中，其中文本编码器使用预训练文本编码器Bert,该模型采取比原Bert小的模型参数，其中隐藏层为4层。

5.根据权利要求1所述的越南语语音识别语料构建方法，其特征在于，所述(8)中，使用混合交叉注意力对语音表征X^S和文本表征Y^P进行语义对齐，其中的得到的语音表征为

其中

表示语音编码器，得到的文本特征

其中

全局注意力参数

分别分块得到互不重叠的划分子序列

A矩阵表示语音序列与文本序列之间的相似度矩阵；

H＝concatenate[Z^X，O_g] (9)

如公式(1)所示局部注意力中的参数

是通过语音表征Z^X仿射变换得到，其中W_Q，W_K，

为模型线性层参数；如公式(2)

通过对

按组切分补齐得到，

为

如公式(6)、公式(7)，全局注意力同理；如公式(7)，将局部特征与全局特征相加再通过仿射变化得到O_g；如公式(9)，将语音表征Z^X和公式(8)所得特征进行拼接得到H其中H用于CTC损失函数训练；

局部查询向量；

局部被查询信息与其他信息的相关性向量；

由局部查询向量

与局部被查询信息与其他信息的相关性向量

计算得到的局部注意力相似度矩阵；b是偏置矩阵；

局部信息矩阵；

全局查询向量；

全局被查询信息与其他信息的相关性向量；

全局信息矩阵；

加权全局信息矩阵；

W_o：神经网络模型中的可学习的参数矩阵。

U_g：神经网络中的门控参数矩阵。

6.根据权利要求1所述的越南语语音识别语料构建方法，其特征在于，所述(10)中，对于首次CTC对齐置信度小于阈值的结果需要使用混合交叉注意力进行二次语义对齐；越南语语音文本对齐模型中有两个解码器输出，分别是wav2vec经过线性层输出的越南语语音语越南语音素词表的概率矩阵

由概率矩阵F得到其中每一帧对应的字符概率k_j，t＝p(c_j|t，F)＝F_c，t，c∈[1，N]，t∈[1，T]，这样利用动态规划算法得到对齐最大联合概率如公式(10)所示；

其中p(blank|t)为当前时刻t为空白字符的概率，将第一个字符的转移概率设为零，然后计算当下一个字符为空白符或者为下一个字符时的最大转移概率，令当前最后一个字符概率为t＝argmax_t′(k′_t，N-1)，然后通过回溯转移概率矩阵k_j，t找到字符与帧对应的一条概率最大的路径，得到对齐关系S_t，如公式(11)所示；

通过最小化平均概率能惩罚由于错误的匹配产生的概率得到对齐关系S^att＝[x₁＝y₁，...，x_i＝y_j，x_i+1＝y_j，...，x_t＝y_n]；N：当前文本的长度，为正整数；

j：为概率矩阵F的下标，0≤j≤N且j为整数；x_i：i为下标，表示某一时刻的语音帧，0≤i≤T，其中T为语音的帧长，y_j：j为下标，表示某一时刻对应的字符，0≤j≤N.其中N为文本的长度；x_t：t为下标，表示t时刻对应的语音帧，0≤t≤T.其中T为语音的帧长；y_n：n为下标，表示第n个字符，0≤n≤N.其中N为文本的长度。