CN115293138A

CN115293138A - 一种文本纠错方法及计算机设备

Info

Publication number: CN115293138A
Application number: CN202210927490.4A
Authority: CN
Inventors: 陈玮; 冯少辉; 张建业
Original assignee: Beijing Iplus Teck Co ltd
Current assignee: Beijing Iplus Teck Co ltd
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-11-04
Anticipated expiration: 2042-08-03
Also published as: CN115293138B

Abstract

本发明涉及一种文本纠错方法及计算机设备，属于语音识别技术领域；本发明的文本纠错方法包括以下步骤：获取语音识别后的语音转写文本；采用预先训练的长度预测模型对所述语音转写文本进行字符长度预测，得到所述语音转写文本对应的长度标签；根据所述长度标签对所述语音转写文本进行修改，得到预测长度的待纠错文本；将所述待纠错文本输入预先训练的文本纠错模型进行纠错，得到纠错后的文本。本发明解决了现有技术中文本纠错方法在纠错时无法准确定位到错词进行修改，导致针对语音转写文本的纠错准确性不高的问题。

Description

一种文本纠错方法及计算机设备

技术领域

本发明涉及语音识别技术领域，特别涉及一种文本纠错方法及计算机设备。

背景技术

文本纠错是自然语言处理中的一个基础问题，已经被广泛运用于键盘输入法、文档编辑、搜索引擎以及语音识别等领域。而针对不同的应用采取不同的纠错方法往往能够得到更好的纠错效果。对于语音转写文本中的错误，其大多属于口语化、发音模糊不清而产生的音似错误，而且语音转写文本的错误分布比较稀疏，在纠错时需要精准定位到错词进行修改，而避免对正确的词进行修改，这导致常见的拼写纠错算法和语法纠错算法在语音转写文本上的效果并不理想。因此，设计专门的方案对语音转写文本进行纠错成为一项急需解决的难题。

发明内容

鉴于上述的分析，本发明旨在提供一种文本纠错方法和计算机设备；解决现有技术中的文本纠错方法在纠错时无法准确定位到错词进行修改，导致针对语音转写文本的纠错准确性不高的问题。

本发明的目的主要是通过以下技术方案实现的：

一方面，本发明提供了一种文本纠错方法，包括以下步骤：获取语音识别后的语音转写文本；

采用预先训练的长度预测模型对所述语音转写文本进行字符长度预测，得到所述语音转写文本对应的长度标签；

根据所述长度标签对所述语音转写文本进行修改，得到预测长度的待纠错文本；

将预测长度的所述待纠错文本输入预先训练的文本纠错模型进行纠错，得到纠错后的文本。

进一步的，所述预先训练的长度预测模型采用带有长度标注的训练样本集对基于Bert的预训练模型进行训练得到；

所述长度标签为经过所述长度预测模型预测的所述语音转写文本中每个单字符对应的预测字符的长度。

进一步的，所述带有长度标注的训练样本集为根据目标文本对对应的原始文本进行长度标注后构建得到的训练样本集；所述训练样本集中包括原始语音转写文本、所述原始语音转写文本对应的标注标签和目标文本。

进一步的，构建所述训练样本集，包括：对获取的多个原始语音转写文本进行校对，得到与所述语音转写文本对应的目标文本；

计算所述语音转写文本与目标文本的编辑距离，基于最小编辑距离得到多个编辑路径；并根据每个路径中未经修改的字符个数计算各个编辑路径的匹配得分，选择匹配得分最高的路径为候选编辑路径；

根据所述候选编辑路径构建编辑对齐字符集合；并基于所述编辑对齐字符集合中的每个字符在预先构建的训练词表中出现的频率，计算各个候选编辑路径的频率得分，选择得分最高的候选编辑路径作为最终编辑路径；

根据所述最终编辑路径得到原始语音转写文本中每个字符对应目标文本的长度标注标签；

基于所述原始语音转写文本、长度标注标签及目标文本，构建得到训练样本集合。

进一步的，所述文本纠错模型通过下述方法训练得到：根据所述长度预测模型在训练过程中输出的长度标签，对原始语音转写文本进行修改，得到与对应的目标文本相同长度的待纠错文本；利用所述待纠错文本及对应的目标文本对基于Bert的预训练模型进行训练，经过损失函数迭代更新，得到文本纠错模型；

所述文本纠错模型用于根据预先构建的词表对修改后的待纠错文本进行纠错，得到纠错后的文本。

进一步的，所述文本纠错模型为基于Bert的非自回归纠错模型，包括文本表示层、全连接层和CRF层；

所述文本表示层，用于对待纠错文本进行文本表示，得到具有上下文信息的n*k矩阵，其中n为句子的最大长度，k为词向量维度；

所述全连接层，用于根据文本表示层的输出预测输入字符映射到输出字符的概率分布，得到字符预测的发射矩阵；

所述CRF层，基于全连接层的输出，通过初始化转移矩阵，得到每个句子中字符排序的最佳路径。

进一步的，通过下列损失函数进行迭代更新，得到文本纠错模型：

Loss_crf＝-(1-P_crf(Y|X))^γlogP_crf(Y|X)；

其中γ为控制惩罚权重的超参数；P_crf(Y|X)为输出字符的概率值。

进一步的，所述根据长度标签对所述语音转写文本进行修改包括：删除长度为0的字符，在长度为m的字符相邻位置插入m-1个相同的字符，以得到预测长度的语音转写文本，m为大于1的整数。

进一步的，所述根据所述候选编辑路径构建编辑对齐字符集合包括：

根据所述候选编辑路径对原始语音转写文本进行长度标注，得到每个编辑路径对应的标注结果；根据每个编辑路径对应的长度标注结果得到多个可选的替换字符并构建得到编辑对齐字符集合。

另一方面，还提供一种计算机设备，包括至少一个处理器，以及至少一个与所述处理器通信连接的存储器；

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现前述的文本纠错方法。

本技术方案的有益效果：

1、本发明通过文本长度标注和文本纠错两个任务，采用长度预测模型对语音转写文本进行长度预测，将语音转写文本和目标文本进行编辑对齐和长度标注，并基于编辑对齐和长度标注后的文本进行纠错；该方法可以在纠错时精准定位到错词进行修改，避免正确的词被误纠，有效解决现有纠错模型在语音转写文本上应用效果较差的问题；

2、本发明的文本纠错方法为通过非自回归的方式进行预测的方法，提升了预测的效率，且有效地缓解了自回归解码模型由于循环递归解码导致的错误传递、重复解码等问题，大大提高了纠错后文本相对纠错前文本的忠诚度；

3、本发明的纠错模型在训练过程中引入焦点损失缓解不同标签训练样本不均衡和不同标签难易程度不同导致的训练误差，并结合长度标签预测任务给出了一种带加权因子的多任务损失函数，有效地提升了模型的拟合程度和泛化能力。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分的从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为本发明实施例的文本纠错方法流程图。

图2为本发明实施例的文本纠错方法流程示意图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本实施例中的一种文本纠错方法，如图1所示，包括以下步骤：

步骤S1：获取语音识别后的语音转写文本；

具体的，本发明的文本纠错方法适用于任意方式得到的语音转写文本；优选的，本实施例采用基于wav2vec2.0模型的参数微调方法进行语音识别，所述wav2vec2.0模型包括特征提取层、上下文编码层和输出层三部分；所述特征提取层使用多层卷积网络实现语音帧级别的特征提取；所述上下文编码层用于提取帧间的关联特征，所述输出层使用预训练的语言模型输出语音识别后的语音转写文本。

步骤S2：采用预先训练的长度预测模型对所述语音转写文本进行字符长度预测，得到所述语音转写文本对应的长度标签；

具体的，预先训练的长度预测模型为采用带有长度标注的训练样本集对基于Bert的预训练模型进行训练得到的长度预测模型；

所述长度标签为经过所述长度预测模型预测的所述语音转写文本中每个单字符对应的正确字符的长度。

带有长度标注的训练样本集为根据原始文本对应的目标文本对所述原始文本进行长度标注后构建得到的训练样本集，所述训练样本集中包括原始语音转写文本、所述原始语音转写文本对应的标注标签和目标文本。

其中，构建训练样本集，包括：

对通过语音识别系统输出的语音转写文本进行校对，得到与语音转写文本对应的目标文本；

计算所述语音转写文本与目标文本的编辑距离，基于最小编辑距离得到多个编辑路径；

根据每个路径中未经修改的字符个数计算各个编辑路径的匹配得分，选择匹配得分最高的路径为候选编辑路径；

根据所述候选编辑路径构建编辑对齐字符集合；基于所述编辑对齐字符集合中的每个字符在预先构建的词表中出现的频率，计算各个候选编辑路径的频率得分，选择得分最高的候选编辑路径作为最终编辑路径；

基于所述最终编辑路径得到原始语音转写文本中每个字符对应目标文本的长度标注标签；

基于所述原始语音转写文本、长度标签及目标文本，构建得到训练样本集合。

另外，在获取目标文本后还包括构建词表，即，对训练样本集合中的所有目标文本进行分词操作，基于分词后得到的长度不小于2的所有词构建词表，词表中还包括每个词在词表中出现的频率。

进一步的，编辑距离表示将语音转写文本转换为目标文本所需的最少编辑操作次数，用来度量两个句子的不相似性。有效的编辑操作包括字符插入、删除和替换。

优选的，定义语音转写文本为a＝(a₁,a₂,...,a_i...a_M)，目标文本为b＝(b₁,b₂,...b_j...b_N)，其中M和N为语音转写文本和目标文本的长度。将两个字符串a、b的编辑距离表示为lev_a,b(M,N)，则lev_a,b(M,N)可用如下的数学语言描述：

lev_a,b(i,j)表示a中前i个字符和b中前j个字符之间的编辑距离，其中，0≤i≤M,0≤j≤N。

当min(i,j)＝0时，lev_a,b(M,N)对应着字符串a中前i个字符和字符串b中前j个字符，此时的i,j有一个值为0，表示字符串a和b中有一个为空串，那么从a转换到b只需要进行max(i,j)次单字符编辑操作即可，所以字符串a和b之间的编辑距离为max(i,j)，即i,j中的最大值。

当min(i,j)≠0的时候,lev_a,b(M,N)为如下三种情况的最小值：

(1)lev_a,b(i-1,j)+1表示删除a_i；

(2)lev_a,b(i,j-1)+1表示插入b_j；

(3)

表示替换b_j；

为一个指示函数，表示当a_i＝b_j时取0；当a_i≠b_j时，其值为1。

作为一个具体的实施例，若语音转写文本a为“天天更加好”，目标文本b为“明天会更好”，则在纠错过程中，需在第一个“天”前面插入“明”，将第二个“天”替换为“会”，将“加”删除，共进行了3次编辑操作，则a和b的编辑距离为3。

进一步的，根据路径中未经修改的字符个数计算匹配得分，选择匹配得分最高的路径为候选编辑路径。

具体地，匹配得分为路径中未经修改的字符个数。

例如，语音转写文本为“天天更加好”，目标文本为“明天会更好”。编辑路径1的结果为：

编辑路径2的结果为：

编辑路径3的结果为：

Source	天	天	更	加	好
						Target	明	天	会	更	好

编辑路径1中，有3个字符未经修改；编辑路径2中，有3个字符未经修改；编辑路径3中，有2个字符未经修改。则3条路径的匹配得分分别为3、3、2。则保留编辑路径1和编辑路径2为候选编辑路径。

进一步的，根据候选编辑路径对原始语音转写文本进行长度标注，得到每个编辑路径对应的标注结果；根据每个编辑路径对应的长度标注结果得到多个可选的替换字符并构建得到编辑对齐字符集合，基于编辑对齐字符集合中的每个字符在预先构建的词表中出现的频率，计算各个候选编辑路径的频率得分，选择得分最高的候选编辑路径作为最终编辑路径，并基于最终编辑路径确定原始语音转写文本中每个字符的长度标注标签。

作为一个具体的实施例，若语音转写文本为“天天更加好”，目标文本为“明天会更好”。编辑路径1对应的长度标注结果为：

编辑路径2对应的长度标注结果有两种，第一种结果为：

第二种结果为：

假设在预先构建的词表中，“明天”的频率为90，“天会”的频率为20，“会更”的频率为70，其余单个字符的频率为0，则编辑路径1的频率得分为90+0+0+0+0＝90，编辑路径2的第一种结果的频率得分为0+20+0+0+0＝20，编辑路径2的第二种结果的频率得分为0+0+70+0+0＝70。编辑路径1的频率得分最高，因此选择编辑路径1的长度标注方式。得到语音转写文本“天天更加好”的长度标签为“1、1、2、0、1”。

进一步的，在训练时，将训练样本集合中的语音转写文本和标注标签输入长度预测模型，对语音转写文本中每个单字符的长度进行预测并标注；

优选的，长度预测模型包括嵌入层、编码层和输出层；

所述嵌入层，用于将输入的所述语音转写文本表示为包括词向量、位置嵌入和文段分割嵌入的嵌入层隐向量；抽象形式化为H⁰＝E₀+P₀+S₀

所述编码层，用于根据所述嵌入层隐向量经过编码得到具有上下文表示的编码层隐向量；Bert的编码层实际是Transformer Encoder的堆叠，用于获取上下文信息。Bert-base模型采用L＝12层的Transformer Encoder堆叠。抽象化形式为H^l＝Transformer_block(H^l-1),l∈[1,L]。

所述输出层，用于根据所述编码层隐向量经过线性变换,输出预测得到的每个字符的长度标签及所述长度标签对应的预测概率。

优选的，将文本中第i个字符w_i的长度标注为w_i'，模型输出w_i的预测概率为：

其中，

为层内的参数，W为神经元的权重，c为偏置。

Bert长度预测器在训练时，直接使用预训练好的Bert-base模型，L＝12，H＝768，A＝12，总参数＝110M，参数通过预训练初始化。计算预测概率的线性层的参数则随机初始化。

具体地，Bert长度预测器对语音转写文本中每个字符的长度进行预测，输出相应预测长度的概率值：p(w＝w_i'|θ)；

将长度预测器的损失函数定义为：

其中，θ为模型中所有参数的符号表示。

经过损失函数的迭代更新，得到收敛的长度预测模型。

在使用长度预测模型进行长度预测时，将语音转写文本输入长度预测模型，可自动输出语音转写文本的每个单字符对应的长度标签。

步骤S3：根据所述长度标签对所述语音转写文本进行修改，得到预测长度的待纠错文本；

具体的，根据长度预测模型输出的语音转写文本对应的长度标签，对语音转写本文进行修改；即，根据长度标记调整或填充待纠错文本，包括：删除长度为0的字符，在长度为m的字符相邻位置插入m-1个相同的字符，以得到预测长度的语音转写文本，m为大于1的整数。

例如，若语音转写文本为“天天更加好”，经长度预测模型预测得到的长度标签为“2、1、1、0、1”，则将语音转写文本修改为“天天天更好”，如下表所示。

优选的，在对长度标注后的语音转写本文进行修改后还可以对文本进行符号的过滤，并构成字表，将每个句子中的字进行数字化；将字符和长度标注对应的数据以batch的方式读取，并tokenize每个句子，将[CLS]和[SEP]加在句子的首尾，分别表示文本序列的开始和结束。

步骤S4：将所述待纠错文本输入预先训练的文本纠错模型进行纠错，得到纠错后的文本；

文本纠错模型用于根据预先构建的词表对待纠错文本进行纠错，得到纠错后的文本；

具体的，初始化预先训练的文本纠错模型，并加载词表，所述词表接到输出层的CRF之后；使用文本纠错模型对修改后的待纠错文本依次进行BERT编码和CRF层解码，得到解码输出；根据解码输出和词表的映射关系得到纠错后文本；优选的，可以对纠错后的文本进行后处理，去掉特殊标记，添加标点等，得到最终的可读性更强的纠错后的文本。

本实施例采用Bert-base模型自带的词表，包含了几乎所有的中文字和特殊符号、英文字母等。在应用中，也可以根据具体的应用领域，构建领域词表，以进一步提高文本纠错的准确性。

优选的，文本纠错模型通过下述方法训练得到：根据所述长度预测模型在训练过程中输出的长度标签，对原始语音转写文本进行修改，得到与对应的目标文本相同长度的待纠错文本；利用所述待纠错文本及对应的目标文本对基于Bert的预训练模型进行训练，经过损失函数迭代更新，得到文本纠错模型。

具体的，文本纠错模型为基于Bert的非自回归纠错模型，包括文本表示层、全连接层和CRF层；其中，

文本表示层，用于对待纠错文本进行文本表示，得到具有上下文信息的n*k矩阵，其中n为句子的最大长度，k为词向量维度；

具体的，对于一个经过长度标注并进行修改后的中文文本序列，将其表示为F＝{f₁，f₂，f₃，..，f_n}，这个输入序列对应到Bert模型中会分别生成词向量、位置嵌入矩阵和文段分割嵌入矩阵。将这三个词嵌入组合起来就成为了文本表示层输出E_n*k，E_n*k为一个3维的矩阵，这个序列包含每个token的字符信息、句子信息以及它们的位置信息。与其他的语言模型相比较，Bert预训练语言模型可以对词前后两侧的信息进行充分的利用，以此得到更佳的词分布表征式。

文本表示层在训练时，直接使用预训练好的Bert-base模型，L＝12，H＝768，A＝12，总参数＝110M，参数通过预训练初始化。用Bert-base预训练模型进行文本表示，文本表示为[batch_size，sequence_length，embedding_size]的矩阵。文本表示层的输出为[batch_size，sequence_length，768]的矩阵。

全连接层，用于根据文本表示层的输出预测输入字符映射到输出字符的概率分布，得到字符预测的发射矩阵；将Bert文本表示层的输出结果输入到全连接层，得到大小为[sequence_length，vocab_size]的发射矩阵。

所述CRF层，基于全连接层的输出，通过初始化转移矩阵和损失函数迭代更新，得到每个句子中字符排序的最佳路径。

具体的，全连接层的输出矩阵为P，即字符预测的发射矩阵，P_ij代表词x_i映射到y_j的非归一化概率，P的维度为n*k，k为词向量维度；CRF层的输入对以上全连接层输出P经过Softmax归一化后的目标序列概率分数矩阵；CRF的转移矩阵为A，A_ij代表字符y_i到y_j的转移概率，转移矩阵A需要随机初始化；y0和yn是句子的开始和结束标签，所以A的维度为(k+2)*(k+2)。令|V|＝k+2，则A的维度为|V|*|V|；

定义得分函数为

利用softmax函数，为每一个正确的字符序列Y定义一个概率值，Yx为所有可能的字符序列：

在训练中，最大化p(Y|X)的对数似然得到：

s(X,Y)为得分函数：

X为输入字符序列；Y为预测的输出字符序列，y_i表示输出字符序列Y中的字符；Yx为所有可能的字符序列；

为Yx中的每一个字符序列；

为字符y_i到y_i+1的转移概率。

更具体地，由于语音转写文本中，大多数字符是正确的，不需要被修改，只有少数字符是错误的，在训练过程中错误字符应该更受到重视，并对优化目标做出更多贡献。为了解决语音转写数据样本不均衡的问题，在训练中，引入焦点损失函数。引入焦点损失后CRF层的损失函数为：

Loss_crf＝-(1-P_crf(Y|X))^γlogP_crf(Y|X)，

优选的，长度预测器也可以采用焦点损失函数，引入焦点损失后长度预测器的损失函数为：

其中，γ是控制惩罚权重的超参数。

优选的，转换矩阵A∈R^|V|×|V|是进行依赖关系建模的核心项。通常在端到端的训练过程中，可以将A作为神经网络参数进行学习。然而，|V|通常是非常大的，特别是在文本生成场景，因此在实践中高效地获取A是不可行的。为了克服这一障碍，引入两个低秩神经参数度量：

E1,E2∈R^|V|×dm；

将满秩转移矩阵A近似为A＝E₁E₂ ^T，其中，d_m<<|V|。相比于现有的算法，本发明的方法不需搜索所有路径，大大提高了求解效率。

优选的，长度预测器和非自回归纠错器串行连接，其总损失函数为：

Loss＝αLoss_lp+βLoss_crf，

即：

其中，α和β为权重系统，用于平衡长度预测和纠错两个任务，本实施例中α和β均取值为0.5。

在训练中需要调控的参数包括句子最大长度max_seq_length、训练批量大小train_batch_size、学习率learning_rate、迭代次数num_epoch、dropout_rate。其中模型参数max_seq_length＝128，train_batch_size＝100，learning_rate＝5e-4，num_epoch＝500，num_layers＝5，hidden_size＝128，dropout_rate＝0.3。

本发明的一个具体实施例，如图2所示，为本发明实施例的文本纠错方法示意图，首先通过长度预测任务的原始语音转写文本进行长度标注，再通过纠错任务对长度标注后的文本进行字符预测，得到纠错后的文本。

综上所述，本发明的实施例提供的文本纠错方法，利用编辑对齐的方式获得长度标注，根据长度标注调整转写文本，采用多任务和非自回归的方式进行训练，提升了效率，可以有效解决语音转写文本纠错率低的问题。

本发明的另一个实施例，提供了一种计算机设备，包括至少一个处理器，以及至少一个与所述处理器通信连接的存储器；存储器存储有可被处理器执行的指令，所述指令用于被处理器执行以实现前述实施例的文本纠错方法。

本领域技术人员可以理解，实现上述实施例方法的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读存储介质中。其中，所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种文本纠错方法，其特征在于，包括以下步骤：

获取语音识别后的语音转写文本；

将所述待纠错文本输入预先训练的文本纠错模型进行纠错，得到纠错后的文本。

2.根据权利要求1所述的文本纠错方法，其特征在于，所述预先训练的长度预测模型采用带有长度标注的训练样本集对基于Bert的预训练模型进行训练得到；

3.根据权利要求2所述的文本纠错方法，其特征在于，所述带有长度标注的训练样本集为根据目标文本对对应的原始文本进行长度标注后构建得到的训练样本集；所述训练样本集中包括原始语音转写文本、所述原始语音转写文本对应的标注标签和目标文本。

4.根据权利要求3所述的文本纠错方法，其特征在于，构建所述训练样本集，包括：

对获取的多个原始语音转写文本进行校对，得到与所述语音转写文本对应的目标文本；

5.根据权利要求2所述的文本纠错方法，其特征在于，所述文本纠错模型通过下述方法训练得到：根据所述长度预测模型在训练过程中输出的长度标签，对原始语音转写文本进行修改，得到与对应的目标文本相同长度的待纠错文本；利用所述待纠错文本及对应的目标文本对基于Bert的预训练模型进行训练，经过损失函数迭代更新，得到文本纠错模型；

6.根据权利要求5所述的文本纠错方法，其特征在于，所述文本纠错模型为基于Bert的非自回归纠错模型，包括文本表示层、全连接层和CRF层；

7.根据权利要求5所述的文本纠错方法，其特征在于，利用下列损失函数进行迭代更新，得到文本纠错模型：

Loss_crf＝-(1-P_crf(Y|X))^γlogP_crf(Y|X)；

8.根据权利要求1所述的文本纠错方法，其特征在于，所述根据长度标签对所述语音转写文本进行修改包括：删除长度为0的字符，在长度为m的字符相邻位置插入m-1个相同的字符，以得到预测长度的语音转写文本，m为大于1的整数。

9.根据权利要求4所述的文本纠错方法，其特征在于，所述根据所述候选编辑路径构建编辑对齐字符集合包括：

10.一种计算机设备，其特征在于，包括至少一个处理器，以及至少一个与所述处理器通信连接的存储器；

所述存储器存储有可被所述处理器执行的指令，所述指令用于被所述处理器执行以实现权利要求1-9任一项所述的文本纠错方法。