CN116757184A

CN116757184A - 融合发音特征的越南语语音识别文本纠错方法及系统

Info

Publication number: CN116757184A
Application number: CN202311040757.9A
Authority: CN
Inventors: 余正涛; 杨尚龙; 王文君; 董凌; 孙童
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-09-15
Anticipated expiration: 2043-08-18
Also published as: CN116757184B

Abstract

本发明涉及融合发音特征的越南语语音识别文本纠错方法及系统，属于自然语言处理技术领域。本发明利用国际音标（IPA）对越南语发音进行表征的方法，并在模型编码阶段通过交叉注意力机制融合对应文本序列的发音特征。由于越南语一个发音对应多种语义的特点，将发音特征融入模型中扩大了搜索空间，提高了模型的错误检测和生成能力。此外，本发明使用基于非自回归结构的解码器，可以并行地生成目标序列中的所有单词，从而极大地降低解码时延。实验结果表明，在同等数据集上，该方法相比通用文本纠错模型实现约1%的词错率降低，同时节省近50%的解码时间消耗。

Description

融合发音特征的越南语语音识别文本纠错方法及系统

技术领域

本发明涉及融合发音特征的越南语语音识别文本纠错方法及系统，属于自然语言处理技术领域。

背景技术

在自然语言处理研究领域中，文本纠错旨在对另一生成式系统的输出序列进行进一步检测、优化，以提高该生成式系统在语义关系、语法使用上的准确率。例如对自动语音识别（Automatic Speech Recognition，ASR）、神经机器翻译（Neural MachineTranslation， NMT）以及光学字符识别（Optical Character Recognition， OCR）的输出序列纠错。文本纠错的研究工作根据模型训练方式的不同主要可以分为基于统计学的文本纠错和基于端到端模型的文本纠错。首先，在基于统计学的机器翻译较为强大的阶段，Cucu等利用统计学机器翻译模型为自动语音识别系统进行文本纠错。Anantaram等提出利用本体学习的思想，通过四阶段的解码对ASR系统的输出进行检测、纠正。随着互联网训练语料的扩增，端到端模型的性能逐渐强于统计学模型，随之取代其成为研究的主流。Tanaka等曾利用语言模型捕获输出序列中的长距离语义依赖，同时从多个ASR输出序列中选择更优的结果来达到纠错的目的。Mani等首次在纠错模型中采用基于Transformer构建的自回归语言模型，Liao等进一步将MASS预训练策略应用于文本纠错任务当中。

针对越南语文本纠错问题的研究工作多集中于对文本序列进行拼写检查，不能很好的迁移到语音识别特定领域内的文本纠错上来。Nguyen P H等利用编辑距离算法对检测错误的单词进行再生成，以达到纠错的目的，但其检测策略依赖于2元语言模型，对声调错误的检测效果不佳。Nguyen H T等提出在越南语中，拼写错误相对于其他错误更为常见且更容易改变文本语义，影响文本的可读性，提出了一种基于深度学习的方法来有效应对拼写错误。Pham N L等将机器翻译的思想引入越南语文本纠错任务中，利用神经机器翻译模型将错误文本“翻译”成正确文本，受限于生成式模型的不可控性，模型容易将正确的单词进行了错误的再生成，同时自回归的解码方式令模型解码时延较高。

发明内容

本发明提供了融合发音特征的越南语语音识别文本纠错方法及系统，以用于解决现有的纠错方法纠错性能低、解码时延长的问题。

本发明的技术方案是：第一方面，提供融合发音特征的越南语语音识别文本纠错方法，所述方法包括如下：

步骤1、收集越南语带有错误的源文本序列数据集；

步骤2、构建编码器：采用标准非自回归Transformer编解码结构构建编码器；

步骤3、把带有错误的源文本序列作为构建好的编码器的输入序列输入到编码器，提取出越南语文本的发音特征和文本特征并通过交叉注意力机制进行融合后再与文本特征残差连接，得到最终的混合特征矩阵；

步骤4、构建目标序列长度预测模块，把最终的混合特征矩阵作为目标序列长度预测模块的输入，利用构建好的目标序列长度预测模块获取源文本序列到目标序列的编辑距离对齐序列，即操作标签序列，来指导模型解码器平行解码；

步骤5、构建解码器：采用标准非自回归Transformer编解码结构构建解码器，解码器并行地输出目标序列；

步骤6、利用步骤1收集到的数据，Adam作为模型参数优化器，优化模型参数。

进一步地，所述步骤3的具体步骤如下：

步骤3.1、通过编码器中的现有的文本特征编码器将输入文本以单词为粒度进行词嵌入得到文本特征矩阵；

步骤3.2、通过编码器中的现有的国际音标转换模块将输入文本借助Epitra工具将字母映射为音素，即国际音标；

步骤3.3、再通过编码器中的现有的发音特征编码器将音素作为粒度进行词嵌入，得到发音特征矩阵；

步骤3.4、再通过发音特征交叉注意力模块中的交叉注意力机制将发音特征矩阵与文本特征矩阵进行融合得到混合特征矩阵，即：

Q、K、V分别为注意力机制中的查询向量、键向量和值向量，其中，，，为注意力头数；CrossAttention是指交叉注意力机制，Softmax表示Softmax函数；

步骤3.5、混合特征矩阵与原始文本特征矩阵进行残差连接得到最终的混合特征矩阵：。

进一步地，所述步骤4中，所述获取源文本序列到目标序列的编辑距离对齐序列包括两部分：首先对源文本序列和目标序列计算最小编辑距离；之后根据最小编辑距离获取的编辑路径得分选择最优对齐路径，在选择最优对齐路径后，将其余路径上的操作舍弃，只保留最优对齐路径上的操作，之后为最优对齐路径上的输入序列中的每一个单词打上操作标签，其中操作标签包括“删除”、“保留”、“替换”、“插入”，最终得到与目标序列等长的操作标签序列，即源文本序列到目标序列的编辑距离对齐序列。

进一步地，所述步骤5中，所述解码器以利用目标长度预测模块输出的操作标签序列对源文本序列进行编辑操作后得到的新文本序列作为解码器的输入，这个新文本序列和源文本序列是等长的，解码器对新文本序列进行解码，并行地输出目标序列。

第二方面，本发明还提供融合发音特征的越南语语音识别文本纠错系统，该系统包括用于执行上述第一方面所述的方法的模块。

本发明的有益效果是：

1、本发明利用国际音标（IPA）对越南语发音进行表征，在模型编码阶段利用交叉注意力机制，融入对应文本序列的发音特征，得益于越南语一个发音对应多种语义的特点，融合发音特征后扩大了模型的搜索空间，提升了模型的错误检测和生成能力；

2、基于非自回归结构的解码器能够并行地生成目标序列中的所有单词，极大地降低了解码时延；实验证明，在同等数据集上，本发明相比通用文本纠错模型实现约1%的词错率降低，同时节省近50%的解码时间消耗。

附图说明

图1为本发明中的文本纠错模型结构图。

具体实施方式

下面结合附图，对本发明的实施例进行描述。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例的执行主体可以为各种类型的终端，终端例如可以是计算机、智能手机、平板电脑、可穿戴设备、个人数字助理（英文：Personal DigitalAssistant，缩写：PDA）、移动互联网设备（英文：Mobile Internet Device，缩写：MID）等可进行文本处理的终端，本发明对此不作任何限制。

如图1所示，是本发明融合发音特征的越南语语音识别文本纠错方法的文本纠错模型结构图，包括如下步骤：

步骤1、收集越南语带有错误的源文本序列数据集；

所述步骤3的具体步骤如下：

步骤3.2、通过编码器中的现有的国际音标转换模块将输入文本借助Epitra工具将字母（grapheme）映射为音素（phoneme），即国际音标（IPA）；越南语发音灵活多变、特点鲜明，借助发音特征能够有效地辅助模型对输入文本语义进行建模，提升模型的语言理解能力，能够更清晰的分辨相同、相似发音的不同义词；映射后的音标序列如表1所示。

表 1 越南语文本经过映射后的国际音标序列示例

国际音标（IPA）能够分辨出口语中的音位、语调等信息，能够有效地将越南语语音中多变的声调信息进行表征。将文本对应的IPA作为音素提供给模型，能够扩大模型的搜索空间，提升模型对同音、近音字、词的识别和生成能力。此外，非自回归生成式模型独有的并性解码策略，能够在几乎不损失模型性能的前提下，极大地提升模型推理速度；

步骤3.5、为了更好突出文本纠错中输入文本的主要作用，避免发音特征对同音词造成过多的错误修正，混合特征矩阵与原始文本特征矩阵进行残差连接得到最终的混合特征矩阵：。

文本的编辑操作包含“删除”、“保留”、“替换”、“插入”，这四种操作的不同组合可以实现“错误文本”到“正确文本”的映射关系。编辑距离是针对两个字符串之间的差异程度的量化，能够很好的通过“编辑次数”来反映两个文本序列之间的长度差异。因此，本发明使用编辑距离来对源文本序列（带错误文本）和目标序列（正确文本）进行对齐操作，得到源文本序列在建模粒度上的长度序列作为非自回归模型的解码长度限制，有效解决源文本与目标文本长度不一致的问题。

目标序列长度预测模块使用混合特征作为输入，利用源文本序列到目标序列的编辑距离对齐序列作为输出，起到指导模型解码器平行解码的作用。所述获取源文本序列到目标序列的编辑距离对齐序列包括两部分：首先对源文本序列和目标序列计算最小编辑距离；之后根据最小编辑距离获取的编辑路径得分选择最优对齐路径，在选择最优对齐路径后，将其余路径上的操作舍弃，只保留最优对齐路径上的操作，之后为最优对齐路径上的输入序列中的每一个单词打上操作标签，其中操作标签包括“删除”、“保留”、“替换”、“插入”，如表2所示，其中0代表删除操作、1代表保留操作，-1代表替换操作，-1以下代表插入操作，最终得到与目标序列等长的操作标签序列，即源文本序列到目标序列的编辑距离对齐序列，根据输入序列利用编辑距离获取到的操作序列示例如表2所示。

表 2 越南语错误文本和正确文本经过对齐后的长度序列示例

关于解码的过程：

解码部分采用了基于非自回归策略的Transformer解码器，其接收的输入是以利用目标长度预测模块输出的操作标签序列对源文本序列进行增、删操作后得到的新文本序列；目标序列长度预测模块提供了操作标签序列，操作标签序列中的每个操作标签代表了对应位置的字符需要进行的操作，包括删除、添加、替换等。因此，解码器的作用是对利用目标长度预测模块输出的操作标签序列对源文本序列进行编辑操作后得到的新文本序列进行解码，得到最终的文本纠错结果；其中编辑操作包括。因为，目标序列长度预测模块可以根据输入序列预测出每个字符token 需要进行的操作，但是这些操作并不一定能够直接得到正确的目标序列，解码器的作用对新序列文本解码，进一步生成正确的目标序列。

下面为本发明系统实施例，本发明系统实施例用于执行本发明方法第一实施例实现的方法，为了便于说明，仅示出了本发明实施例相关的部分，具体未揭示的部分，请参照本发明第一实施例。

本发明实施例提供融合发音特征的越南语语音识别文本纠错系统，该系统包括：

收集模块：收集越南语带有错误的源文本序列数据集；

第一构建模块：用于构建编码器：采用标准非自回归Transformer编解码结构构建编码器；

第一获取模块：用于把带有错误的源文本序列作为构建好的编码器的输入序列输入到编码器，提取出越南语文本的发音特征和文本特征并通过交叉注意力机制进行融合后再与文本特征残差连接，得到最终的混合特征矩阵；

第二构建模块及第二获取模块：第二构建模块用于构建目标序列长度预测模块，第二获取模块用于把最终的混合特征矩阵作为目标序列长度预测模块的输入，利用构建好的目标序列长度预测模块获取源文本序列到目标序列的编辑距离对齐序列，即操作标签序列，来指导模型解码器平行解码；

第三构建模块及输出模块：第三构建模块用于构建解码器：采用标准非自回归Transformer编解码结构构建解码器，输出模块用于解码器并行地输出目标序列；

优化模块：用于利用收集模块收集到的数据，Adam作为模型参数优化器，优化模型参数。

为了说明本发明的效果，本发明做了如下实验进行验证，表3为越南语语音识别文本纠错实验结果，其中FC-IPA为本发明所用方法，并使用多个基线实现方案作为对照组。

表3中的对比方法的介绍:

无纠错：使用越南语自动语音识别系统对common voice测试集合的语音进行转录，得到的文本不经过任何文本纠错系统，直接计算词错率；

ConstDecoder：使用预训练语言模型BERT、BART等对输入序列进行错误识别，将被标记为“错位”的token输入下游Transformer自回归解码器进行正确文本的生成，剩余token保持不变，拼接后作为输出序列；

FastCorrect：单纯使用序列文本特征作为模型输入，长度预测器对每个token进行目标长度推测，0代表删除、1代表保留或替换、大于1代表插入，将原始序列隐状态根据推测长度进行调整后输入下游Transformer非自回归解码器进行文本生成作为输出序列；

FastCorrect-K：在FastCorrect的基础上添加融合知识图谱的预训练语言模型作为编码器，仍然使用文本序列作为输入，经过实体知识图谱为原始文本序列中的实体词添加知识图谱中存在的关联关系（soft link），为编码器提供更丰富的上下文关系和语义知识，利用融合知识图谱的语言模型K-BERT对前述序列进行特征提取后作为模型输入；

NMT-Transformer：基于Transformer自回归结构实现的神经机器翻译模型，直接作为端到端模型应用到越南语语音识别文本纠错当中，以“含错误文本序列”作为模型输入，经过自回归解码方式生成“正确文本序列”作为输出；

FC-IPA：本发明方法；

评价指标介绍：

编辑准确率（）、编辑召回率（）、生成正确率（）、WER是词错率、WERR是词错率提升率（WER Reduction, WERR）。

表 3 越南语语音识别文本纠错实验结果

根据实验结果，本发明相比通用文本纠错模型实现约1%的词错率降低，不难看出多数在英、汉等大语种上取得较好效果的语音识别文本纠错实现方案直接应用至越南语上时往往不能保持很好的模型性能。受限于训练资源规模的不足，ConstDecoder中的预训练语言模型BERT语义理解能力不强，不能有效起到错误检测的作用，从而进一步影响其解码器的生成能力，同时该模型采用有限上下文长度解码的方式来提高模型推理速度，破坏了自回归解码器的上下文依赖关系，最终导致模型对文本的“反向纠错”。FastCorrect将检错、纠错分为两个模块，使用不同的损失函数对整体模型进行联合优化，有效利用了有限的训练资源，提升了模型的检错能力，但基于非自回归的解码器生成能力较弱，在特征有限的前提下不能有效理解越南语复杂的声调结构，往往生成“文本正确但声调错误”的单词，造成模型整体性能不足；在添加了实体知识图谱作为外部知识约束之后，模型受限于K-BERT的编码能力，各方面均出现不同程度的下降。基于机器翻译思想构建的端到端文本纠错模型本质上不存在“检错、纠错”两个过程，模型根据原始文本直接生成目标文本，在模型训练不够充分的情况下容易对本身正确的文本造成错误的“改正”，最终造成词错率的上升；同时基于自回归的解码方式消耗大量时间和计算资源，对正确单词的生成造成计算资源的浪费，大大延长了模型解码时间。越南语独特的声调特点决定了需要更细致的模型设计来捕捉其特有的发音特征，辅助模型对近音、同音词的检测和生成。因此，在添加了原始文本的IPA作为发音特征辅助模型理解文本后，模型的检错能力得到较为明显的提升，在错误检测召回率上尤为明显，模型能够有效理解文本语义，正确区分近音、同音词，对错误位置的单词进行正确地生成。

表4为越南语语音识别文本纠错模型推理时延实验结果。

根据实验结果不难看出，节省近50%的解码时间消耗，基于神经机器翻译思想构建的自回归Transformer类模型受限于结构，对目标序列的每个单词进行自回归式的生成，解码时长最高。ConstDecoder为了降低解码时间，利用有限上下文长度对目标单词进行生成，但有限长度下仍然采用自回归式解码。采用非自回归式解码策略，对目标序列中的每个单词进行并行生成，极大地降低了模型的解码时长。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融合发音特征的越南语语音识别文本纠错方法，其特征在于：所述方法包括如下：

步骤1、收集越南语带有错误的源文本序列数据集；

2.根据权利要求1所述的融合发音特征的越南语语音识别文本纠错方法，其特征在于：所述步骤3的具体步骤如下：

步骤3.4、再通过发音特征交叉注意力模块中的交叉注意力机制将发音特征矩阵与文本特征矩阵/>进行融合得到混合特征矩阵/>，即：

；

Q、K、V分别为注意力机制中的查询向量、键向量和值向量，其中，，/>，/>为注意力头数；CrossAttention是指交叉注意力机制，Softmax表示Softmax函数；

步骤3.5、混合特征矩阵与原始文本特征矩阵进行残差连接得到最终的混合特征矩阵/>：/>。

3.根据权利要求1所述的融合发音特征的越南语语音识别文本纠错方法，其特征在于：所述步骤4中，所述获取源文本序列到目标序列的编辑距离对齐序列包括两部分：首先对源文本序列和目标序列计算最小编辑距离；之后根据最小编辑距离获取的编辑路径得分选择最优对齐路径，在选择最优对齐路径后，将其余路径上的操作舍弃，只保留最优对齐路径上的操作，之后为最优对齐路径上的输入序列中的每一个单词打上操作标签，其中操作标签包括“删除”、“保留”、“替换”、“插入”，最终得到与目标序列等长的操作标签序列，即源文本序列到目标序列的编辑距离对齐序列。

4.根据权利要求1所述的融合发音特征的越南语语音识别文本纠错方法，其特征在于：所述步骤5中，所述解码器以利用目标长度预测模块输出的操作标签序列对源文本序列进行编辑操作后得到的新文本序列作为解码器的输入，这个新文本序列和源文本序列是等长的，解码器对新文本序列进行解码，并行地输出目标序列。

5.融合发音特征的越南语语音识别文本纠错系统，其特征在于，包括用于执行如权利要求1-4任一权利要求所述的方法的模块。