CN114944148B

CN114944148B - 融合外部语言知识的流式越南语语音识别方法

Info

Publication number: CN114944148B
Application number: CN202210803414.2A
Authority: CN
Inventors: 高盛祥; 王俊强; 余正涛
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-07-09
Filing date: 2022-07-09
Publication date: 2023-08-22
Anticipated expiration: 2042-07-09
Also published as: CN114944148A

Abstract

本发明提出融合外部语言知识的流式越南语语音识别方法，属人工智能领域。越南语为低资源语言，训练语料难以获取；流式端到端模型在训练过程中难以学习到外部大量文本中的语言知识，这些问题限制了流式越南语语音识别模型的性能。本发明以越南语音节作为语言模型和流式越南语语音识别模型的建模单元，在训练阶段，通过预训练越南语语言模型和语音识别模型解码器的输出计算一个新的损失函数，帮助流式越南语语音识别模型学习一些越南语语言知识从而优化其模型参数。在越南语数据集上，在训练阶段融合语言模型能将流式越南语语音识别模型的词错率提升2.45％。在解码阶段再次融合语言模型，还能将模型词错率分别提升1.35％和4.75％。

Description

融合外部语言知识的流式越南语语音识别方法

技术领域

本发明涉及人工智能领域，提出了融合外部语言知识的流式越南语语音识别方法。

背景技术

近年来，虽然端到端语音识别受到了广泛关注，但目前针对越南语语音识别研究还比较少。Nguyen等人构建了500小时的越南语数据集并使用TDNN和BLSTM神经网络构建声学模型，在解码阶段融合了4元语言模型。为了提升模型性能，它将4元语言模型替换为RNN语言模型，在3小时测试集数据上进行测试，词错率达到6.9％。Nguyen和Huy使用CTC损失函数将TDNN和BLSTM模型结合一起联合训练越南语语音识别模型，在FPT测试数据集上，词错率达到14.41％。刘佳文提出了一种基于Transformer模型的越南语语音识模型，在VIVOS数据集上，字符错率达到40.4％。ESPNET基于不同的Transducer模型在VIVOS数据集上做了不同实验，RNN-T词错率达到36.6％，Conformer/RNN-T词错率达到26％。为了提升模型识别率，这些模型都在解码阶段融合了语言模型，但在解码阶段融合语言模型只能影响模型的识别结果，并不能利用语言模型来优化语音识别模型的参数。因此，本发明在流式越南语语音识别模型的训练阶段和解码阶段都融合了语言模型。在训练阶段融合语言模型可以帮助流式语音识别模型学习一些越南语语言知识优化其模型参数。

发明内容

本发明提供了一种融合外部语言知识的流式越南语语音识别方法，首次在训练阶段将越南语语言模型融合到流式越南语语音识别模型中，提升了流式越南语语音识别模型的识别率。

本发明的技术方案是：融合外部语言知识的流式越南语语音识别方法，所述方法的具体步骤如下：

Step1、收集越南语单语文本作为语言模型的训练预料；

Step2、使用收集的越南语文本语料预训练transformer语言模型；

Step3、将预训练transformer语言模型在训练阶段融合到流式Hybrid CTC/Attention语音识别模型中。

作为本发明的进一步方案，所述Step1的具体步骤为：

Step1.1、使用爬虫爬取不同网站和领域的越南语单语文本，由于每个网站使用的文本编码格式不同，统一全部文本语料使用utf-8编码；

Step1.2、去除越南语单语文本中的乱码、数字；

Step1.3、根据训练要求切分越南语单语本段落，适应语言模型的训练。

作为本发明的进一步方案，所述Step2中使用Transformer-xl作为越南语语言模型，解决越南语音节长期依赖和位置编码丢失的问题，从而使越南语语言模型更好地表征越南语语言知识，在融合过程中能让语音识别模型从越南语语言模型学习到越南语语言知识，从而提升语音识别模型的识别率。

作为本发明的进一步方案，所述Step3的具体步骤为：

Step3.1、将越南语语言模型输出的P_LM作为真实分布，Transformer解码器输出的P_AED作为理论数据分布，使用KL散度来计算Transformer解码器与越南语Transformer-xl语言模型的融合损失函数；实现原理如下：

令L_AED-LM损失函数等于D_KL(P_LM||P_AED)并使其最小化；

Step3.2、在融合过后，引入了一个语言模型融合超参数α(0≤α<1)，用来调节Transformer解码器L_AED损失函数和L_AED-LM损失函数；使联合损失函数为L_Joint，其计算过程如下：

L_Joint＝(1-α)L_AED+αL_AED-LM

Step3.3、训练的联合损失函数与传统Hybrid CTC/Attention模型损失函数类似，不同的是将Attention损失函数修改为Transformer解码器融合了越南语语言模型的损失函数，其计算过程如下所示：

Loss＝λL_CTC+(1-λ)L_Joint

其中λ(0≤λ<1)参数表示CTC权重参数；L_CTC表示Hybrid CTC/Attention模型CTC解码器的损失函数；

Step3.4、流式越南语语音识别模型最后使用Loss损失函数来训练；这种训练方式能让融合损失函数L_AED-LM在训练阶段同时优化CTC解码器和Transformer解码器的参数，帮助CTC和Transformer解码器联合学习到越南语语言知识从而提升流式越南语语音识别模型的识别率。

作为本发明的进一步方案，还包括步骤Step4、用训练好的模型进行语言识别时，在解码阶段使用Shallow Fusion或WFST再次融合预训练好的语言模型进行语言识别。

本发明的有益效果是：本发明以越南语音节作为语言模型和流式越南语语音识别模型的建模单元，在训练阶段，通过预训练越南语语言模型和语音识别模型解码器的输出计算一个新的损失函数，帮助流式越南语语音识别模型学习一些越南语语言知识从而优化其模型参数。在越南语VIVOS数据集上，在训练阶段融合语言模型可以将流式越南语语音识别模型的词错率提升2.45％。在解码阶段使用Shallow Fusion或WFST再次融合语言模型，还可以将模型词错率分别提升1.35％和4.75％。

附图说明

图1为本发明中的融合外部语言知识的流式越南语语音识别方法架构图；

图2为本发明中的越南语语言模型和Transformer解码器的输出概率分布。

具体实施方式

实施例1：如图1-图2所示，融合外部语言知识的流式越南语语音识别方法，所述方法的具体步骤如下：

Step1、收集越南语单语文本作为语言模型的训练预料；

Step2、使用收集的越南语文本语料预训练transformer语言模型；

作为本发明的进一步方案，所述Step1的具体步骤为：

Step1.2、去除越南语单语文本中的乱码、数字；

作为本发明的进一步方案，所述Step2中使用Transformer-xl作为越南语语言模型。

作为本发明的进一步方案，所述Step3的具体步骤为：

Step3.1、将越南语语言模型输出的P_LM作为真实分布，Transformer解码器输出的P_AED作为理论数据分布，如图2所示，使用KL散度来计算Transformer解码器与越南语Transformer-xl语言模型的融合损失函数；实现原理如下：

令L_AED-LM损失函数等于D_KL(P_LM||P_AED)并使其最小化；

L_Joint＝(1-α)L_AED+αL_AED-

Loss＝λL_CTC+(1-λ)L_Joint

为了说明本发明的效果，本发明进行了如下实验：实验在开源越南语数据集VIVOS上进行。使用Adam优化器，学习率设置为0.002，学习率预热设置为25000步；使用标签平滑技术来计算损失函数，标签平滑率设置为0.1。通过调整CTC权重超参数λ和融合语言模型权重参数α来控制越南语语言模型对流式越南语语音识别模型的影响。所有实验均在一张NVIDIA Tesla T4上完成训练。

实验一：为了验证本发明提出的方法对流式越南语语音识别模型性能有提升，本发明将流式越南语语音识别模型的CTC超参数λ和语言模型融合超参数α分别设置为不同的值，对比在训练阶段融合语言模型前后和不同超参数对流式端到端越南语语音识别模型性能的影响，实验结果见表1和表2。

表1：当CTC权重为0.3时，融合语言模型权重参数α对流式越南语语音识别模型的影响

表2：当CTC权重为0.5时，融合语言模型权重参数α对流式越南语语音识别模型的影响

实验结果数据显示，当CTC权重参数设置为0.3时，在不融合语言模型(融合语言模型权重参数α为0)的情况下，流式越南语语音识别模型词错率为31.03％(baseline)。当以0.3的权重融合语言模型时，性能有明显提升，词错率达到了28.58％。但当语言模型融合权重设置为0.5时，性能相比基线模型有一定下降。当语言模型融合权重设置为0.7时，性能相比基线模型又有一定提升，达到29.15％。当CTC权重参数设置为0.5时，在不融合语言模型的情况下，流式越南语语音识别模型词错率为30.30％(baseline)。当语言模型融合权重参数分别设置为0.3/0.5/0.7时，流式越南语语音识别模型的识别性能相比基线模型都有所提升，但语言模型融合权重参数对流式越南语语音识别模型的识别词错率影响不怎么明显，词错率保持在29％左右。

当CTC权重参数为0.3，语言模型融合权重参数为0.5时，性能相比基线模型有一定下降。主要是因为当语言模型融合权重设置为0.5时，解码器和语言模型的输出比重相同，语音识别模型不能抉择解码器和越南语语言模型输出的重要性，从而导致模型混乱，识别性能下降。但是当语言模型融合权重设置为其他值时，性能相比基线模型都有一定提升。这说明了流式越南语语音识别模型可以从越南语语言模型中学习到越南语语言知识从而优化其模型参数，达到识别性能提升的效果。

实验二：为了验证融合越南语语言模型对流式越南语语音识别模型识别结果的影响，本次实验将CTC权重参数设置为0.3，语言模型融合权重参数分别设置为0/0.3，针对一个句子进行识别结果分析，实验结果见表3。

表3：融合语言模型对流式越南语语音识别结果的影响

实验结果表明，融合了语言模型的流式越南语语音识别模型识别结果完全正确，而未融合语言模型的流式越南语语音识别模型识别词错率为18.18％。

未融合语言模型的流式越南语语音识别模型识别错了两个音节和là，主要原因是/>和/>là和/>音节的发音非常相似，提取出来的语音特征也非常接近，从而导致语音识别模型不能辨别。而融合了越南语语言模型的流式越南语语音识别模型可以学习到和/>可以组成一个词，而/>和/>là不能组成词，从而/>和/>的输出概率高于/>和/>là，因此流式越南语语音识别模型选择/> 和/>输出。

实验结果表明，在训练阶段融合语言模型确实可以纠正一些流式越南语语音识别模型将越南语音节识别错误的情况。

实验三：为了验证二次融合语言模型对流式越南语语音识别模型识别率的影响。本发明在解码阶段使用Shallow Fusion和WFST方法分别对Transformer-xl语言模型和3元语言模型进行融合。实验结果如表4和表5所示。

表4：使用Shallow Fusion融合方法对流式越南语模型性能的影响

表5：使用WFST融合方法对流式越南语模型性能的影响

实验数据结果显示，在训练阶段融合语言模型后，在解码阶段使用ShallowFusion方法再次融合Transformer语言模型还可以将模型的识别率提升1.35％；在训练阶段融合语言模型后，在解码阶段使用WFST融合3元语言模型，性能达到最佳23.83％，其识别率相对于基线模型使用WFST提升了0.49％。

虽然使用Shallow Fusion或WFST方法进行解码，模型识别率会有所差距，但实验数据结果显示，在训练阶段融合语言模型后，在解码阶段再次融合语言模型确实可以进一步提升流式越南语语音识别模型的识别率。同时，在训练阶段和解码阶段都融合语言模型，模型的识别率要明显高于在解码阶段单独融合语言模型的识别率。

实验四：对比实验。本次实验对比了本发明使用的流式模型和ESPNET使用RNN-T、Conformer/RNN-T模型在VIVOS测试数据集上的结果。实验结果如表6所示。

表6：和其他模型识别效果对比

实验结果数据显示，本发明使用的流式模型词错率达到23.83％，RNN-T和Conformer/RNN-T模型的词错率分别为36.6％和26.0％。

本发明在训练阶段融合语言模型后，再使用WFST在解码阶段融合3元语言模型的识别率达到最佳。其主要原因是本发明同时在训练阶段和解码阶段都融合了语言模型。在训练阶段融合语言模型可以优化模型的参数；在解码阶段融合语言模型可以纠正语音识别模型识别结果。而ESPNET仅在解码阶段融合了语言模型，只影响了语音识别模型的识别结果，并不能优化模型的参数。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融合外部语言知识的流式越南语语音识别方法，其特征在于：所述方法的具体步骤如下：

Step1、收集越南语单语文本作为语言模型的训练语料；

Step2、使用收集的越南语文本语料预训练transformer语言模型；

Step3、将预训练transformer语言模型在训练阶段融合到流式Hybrid CTC/Attention语音识别模型中；

所述Step1的具体步骤为：

Step1.2、去除越南语单语文本中的乱码、数字；

Step1.3、根据训练要求切分越南语单语本段落，适应语言模型的训练；

所述Step2中使用Transformer-xl作为越南语语言模型；

所述Step3的具体步骤为：

令L_AED-LM损失函数等于D_KL(P_LM||P_AED)并使其最小化；

L_Joint＝(1-α)L_AED+αL_AED-LM

Step3.3、训练的联合损失函数是将传统Hybrid CTC/Attention模型损失函数中的Attention损失函数修改为Transformer解码器融合了越南语语言模型的损失函数，其计算过程如下所示：

Loss＝λL_CTC+(1-λ)L_Joint

2.根据权利要求1所述的融合外部语言知识的流式越南语语音识别方法，其特征在于：还包括步骤Step4、用训练好的模型进行语言识别时，在解码阶段使用Shallow Fusion或WFST再次融合预训练好的语言模型进行语言识别。