CN114429136A

CN114429136A - 一种文本纠错方法

Info

Publication number: CN114429136A
Application number: CN202111628585.8A
Authority: CN
Inventors: 杨珂; 吕晓宝; 王元兵; 王海荣
Original assignee: Sugon Nanjing Research Institute Co ltd
Current assignee: Sugon Nanjing Research Institute Co ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-05-03

Abstract

本发明公开了一种文本纠错方法，该方法包括步骤如下：首先将获取的文本数据分割为若干语义单位；再对每个语义单位，按照语义顺序逐字遍历，对遍历到的字进行掩盖，并将掩盖后的语义单位输入训练好的纠错模型中，输出由若干候选字组成的语义候选字字典；通过将语义候选字字典与原始字和原始字的混淆字字典进行比对，当判断原始字出现错误时，输出最优的替换字，当判断原始字未出现错误时，则不进行替换更改；对语义单位逐字遍历纠错后再统一利用替换字修改错误字完成第一轮纠错，重复执行多轮纠错，直至语义单位中不存在错误或完成设定轮次的纠错。该种文本纠错方法纠错效率高，能够减少文本本身错误导致的正确字误判的问题。

Description

一种文本纠错方法

技术领域

本发明属于计算机应用领域，具体涉及一种文本纠错方法。

背景技术

随着计算机技术的普及，对电子化文件的需求也大大增加，越来越多的企业倾向于使用电子文档为日常的基础。在大量使用电子文档的基础中，针对文档中错字进行纠错存在需求。

利用新兴的人工智能技术，通过使用大量文本训练的方式，使模型学习人类使用语言时的基本逻辑，从而可以分析文本中某个位置可能使用的字词，结合针对字词的拼音，字形等特征，对文本进行纠错。然而，目前技术存在着纠错范围狭窄，文本本身错误导致正确字词误判的问题。

发明内容

发明目的：本发明的目的在于提供一种文本纠错方法。

技术方案：本发明所述的一种文本纠错方法，其特征在于：该方法包括步骤如下：

(1)获取文本数据后，按照文本内语义分割符号将文本分割为若干语义单位；

(2)对每个语义单位，按照语义顺序逐字遍历，对遍历到的字进行掩盖，并将掩盖后的语义单位输入训练好的纠错模型中，输出由若干候选字组成语义候选字字典；

(3)通过将语义候选字字典与原始字和原始字的混淆字字典进行比对，当判断原始字出现错误时，输出最优的替换字，当判断原始字未出现错误时，则不进行替换更改；

(4)对语义单位逐字遍历纠错后再统一利用替换字修改错误字完成第一轮纠错，将完成第一轮纠错的语义单位重复执行步骤(2)和步骤(3)，直至语义单位中不存在错误或完成设定轮次的纠错。

优选的，步骤(2)中纠错模型采用bert模型，训练文本采用目标领域的文本文档，对训练用的文本文档同样按照文本内语义分割符号将文本分割为若干语义单位，训练过程中利用训练文本的语义单位对纠错模型进行有监督预测，直至纠错模型模型收敛。

优选的，纠错模型训练过程中针对文本文档中的中文字符，进行掩盖预测、词语替换预测或词语不替换预测。

优选的，纠错模型训练用的文本文档中的部分正确字替换为易混淆字后用于纠错模型训练。

优选的，步骤(3)中当语义候选字字典中存在原始字，则判定原始字正确；若语义候选字字典中不存在原始字，则将语义候选字字典内的字按纠错模型预测概率得分由高到低逐一与原始字的混淆字字典进行比对，当发现语义候选字存在于混淆字字典内，将该字作为替换字输出，同时终止比对；当语义候选字字典内的全部字均不存在于混淆字字典内时，则判定原始字正确。

优选的，纠错模型对掩盖字预测后按照概率得分又高到低输出语义候选字，将指定数量或概率超过指定阈值的语义候选字组成语义候选字字典。

优选的，混淆字字典包括原始字的同音字、近音字，形近字以及使用者日常输入原始字时产生的错误字。

进一步的，纠错模型采用bert模型能够对自然语言进行处理，bert模型以transformer结构为基础，将多个transformer层叠加，组成类似LSTM的结构。利用结构中的循环部分，使得先前与后续输入的内容以数据的方式在模型中交汇，从而实现针对文本的上下文理解。在训练bert模型的过程中，使用MLM方法，通过让纠错模型习得文本的行文逻辑，使模型在遇到未知文本时拥有预测能力。

在训练过程中，将训练文本编码后，设定文本原始字编码为模型应该输出的结果，利用纠错模型计算输出编码与原文本编码的差距，通过对上述差距反向求解梯度更新参数，使模型预测结果能够接近目标值。该训练一直持续到训练集的损失函数值逐渐下降到基本稳定，且验证集损失函数值与训练集损失函数差值在设定范围内，则可认定模型已收敛。

根据文本纠错方法的应用领域，例如公文写作领域的文本纠错，纠错模型在训练时选取大量目标领域的文本文档，用于加强纠错模型对于领域的针对性，训练模式采用bert的标准训练模式，纠错模型训练过程中包括三种训练模式：掩盖预测、词语替换预测和词语不替换预测；其中，掩盖预测即将文本中的文字替换为特定符号进行掩盖，表示这个位置需要预测；词语替换即将某个字替换成其他字，用于训练纠错模型在遇到错误字的情况下依然能够将附近需要预测的内容预测正确且纠正这个给错字；不替换预测指不对该位置字进行掩盖或替换，依然使模型预测这个字，强化模型对“这个位置应当出现的什么字”的认识。

可将文字中15％的内容设为预测目标，进行掩盖预测、词语替换预测或词语不替换预测。在掩盖和改错字的过程中，每次只针对一个字，虽然在数据的组织形式上只进行了单字掩盖，但是依然可以对文本中的连续错字进行纠错，因为在训练数据中存在连续掩盖的单字，使模型可以达成与词预测相同的效果。

进一步的，为了让训练数据尽可能接近实际情况，增强模型的泛用性，在15％的预测内容中，特意将错字替换部分替换成同音近音字，因为实际的文本输入中多使用拼音输入法，所以错误因该以同音近音错误为主错误。考虑到可能存在按错键位，五笔输入等可能，依然保留了少部分的随机替换与近形字替换，强化模型在各种场景下的泛用性。训练过程中针对文字使用错误的情况，可增加训练过程中掩盖预测其比例，使训练更贴近实际情况。由于训练过程中将错别字设置为易混淆字，会使模型训练难度增大，收敛速度减慢，需要更多轮的训练才能收敛。

进一步的，随机选取掩盖字的过程中对语句中字符并未做任何区别，包含中文，英文，数字，标点符号等，考虑到文本纠错的应用场景，纠错重点应集中于中文部分。故在模型训练中进行随机掩盖的过程中，首先对字符进行判断，仅选择中文字符。不仅如此，在针对中文字符也进行一定的筛选。考虑到模型仅能学习文本行文逻辑，超出行文逻辑的部分如数字增减，年份，字母等，无法对模型的性能做出优化，因此同样排除此类字符，强化模型训练效率，加速模型收敛。

进一步的，使用bert模型时产生的语义候选字字典中如果没有原始字，则根据原始字形成混淆字字典，混淆字字典的形成过程如下：

收集汉语中的通用汉字，根据原始字的读音制作表头，将同音字置与同一表头下，形成同音字字典，然后根据常见易混淆的拼音发音，如平舌音翘舌音，前鼻音后鼻音等发音之间，将相近读音表头合并为一个，并将表头下内容合并，形成字音词典，结合网上搜集的近形字词典，结合字音词典和近形字词典形成该原始字的混淆字字典。

进一步的，混淆字字典除常规音近形近字之外，还可以根据客户使用习惯，统计客户在日常打字中常犯的错误，为模型添加特定字匹配，在遇到这些字的时候优先使用客户常见错字与语义候选字典相比较，若存在相同字，则认为该常见错字为正确用字。

进一步的，对于每个语义单位，每次在生成正确字后，将正确字加入列表中，并不直接替换语义单位的原始字，在后续词语的预测过程中依旧使用原始字进行预测，直至对语义单位中每个字完成一轮预测后再对错误字词进行统一替换。此时，语义单位中每个错误字的影响范围不会超过前后两个字。而现有技术中的预测字即时替换再进行后续语句预测，可能存在某一错误字词对处于该字词前后的字词造成影响，使模型产生错误判断。且由于该处的错误判断是由于后续真实错字的影响，在后续针对真正的错字判断时，受到前方误判的影响，会反过来印证该处错误字词的“正确性”，使得针对真实错误的判断更加困难。

在一轮预测完成对错误字统一替换后，进行新一轮的预测，即使上一轮出现了错误预测，由于相邻两轮预测过程相互独立，后续对错字的预测并不受影响，虽然每次单独预测不进行替换会导致产生正确预测后却无法消除错误词语对之后位置的词语预测的影响，但是该影响可以通过替换正确字后，利用后续轮次的预测操作解决。

通过对一个语义单位进行多轮预测，可以提高算法的准确率，由于存在循环过程，为防止陷入死循环，设定循环次数阈值，如果在阈值轮数范围内，能够完成全部纠错，则该语义单位的纠错过程结束，如果达到阈值轮数，语义单位的纠错还未结束，则强制结束纠错过程，对下一个语义单位开始遍历预测。

有益效果：本申请所述的技术方案中能够利用训练好的纠错模型对文本中的错别字词进行判断，当判断出错误字词时，在由原始字的同音、近音、近形字等组成的混淆字字典中匹配正确字；对于文本的每轮纠错后，统一将错误字进行替换，重复进行多轮纠错，既能够提高纠错结果的精准度，又能够消除由于错误判断替换对后续预测带来的负面影响。

附图说明

图1为本发明中文本纠错方法的工作流程图；

图2为本发明中纠错模型训练方法流程图。

具体实施方式

下面结合附图和实施例对本发明的技术方案做进一步详细说明。

一种文本纠错方法，该方法包括步骤如下：

步骤1，获取待纠错文本数据后，针对文本进行分割，将整段文本根据句号，问好，感叹号等语义分割符号分割成若干个相互独立的语义单位，以语义单位为基础，针对每个语义单位单独进行预测；

步骤2，针对每个语义单位，按照语序从左向右依次遍历每个字，遍历到当前字时，会进行掩盖，然后将掩盖后的句子输入训练完成的纠错模型；根据纠错模型针对掩盖字输出的可能字的概率，选取其中概率超过90％的候选字或选取制定数量的候选字，生成句子中掩盖位置的语义候选字字典，并将语义候选字字典中的语义候选字按照模型给出概率由大到小排列；

步骤3，当语义候选字字典中存在原始字，则判定原始字正确；若语义候选字字典中不存在原始字，则将语义候选字字典内的字按纠错模型预测概率得分由高到低逐一与原始字的混淆字字典进行比对，当发现语义候选字存在于混淆字字典内，将改字作为替换字输出，同时终止比对；当语义候选字字典内的全部字均不存在于混淆字字典内时，则判定原始字正确。当判定原始字错误并生成用于替换的正确字后，将正确字加入列表中，但并不直接替换原句中的原始，在后续的预测过程中依旧使用原始字进行预测，直至语义单位内每个字完成一轮预测后再统一对错误字词进行替换。

步骤4，重复步骤2至步骤3，直至新一轮纠错过程中该语义单位中未出现错误字替换，或循环轮数到达设定阈值轮数，结束对该语义单位的文本纠错，输出纠错后的语义单位。

步骤6，遍历待纠错文本中全部语义单位，完成待纠错文本的文本纠错。

本实施例中，纠错模型使用了当前针对自然语言处理效果最好的bert模型，bert模型以transformer结构为基础，将多个transformer层叠加，组成类似LSTM的结构，利用结构中的循环部分，使得先前与后续输入的内容以数据的方式在模型中交汇，从而实现针对文本的上下文理解。在训练bert模型的过程中，使用MLM方法，如图2所示，利用纠错模型训练过程中包括三种训练模式：掩盖预测、词语替换预测和词语不替换预测，使纠错模型习得文本的行文逻辑，使模型在遇到未知文本时拥有预测能力。

本实施例中，待纠错文本为公文文本数据，因此，针对公文写作领域，纠错模型的训练数据选取大量的公文文档，提高纠错模型的针对性，训练模式采用了bert的标准训练模式，将训练数据文字中15％的内容设为预测目标，进行掩盖预测、词语替换预测或词语不替换预测，采用有监督的学习模式，将学习重点集中于词语的掩盖方面。在词语替换预测训练中，按照8：1：1的比例设置同近音字替换、随机字替换和近形字替换，强化纠错模型在各种场景下的泛用性。

本实施例中，纠错模型在训练过程中，由于纠错重点集中在中文部分，因此在训练纠错模型的过程中在选择预测目标之前，首先对对字符进行判断，仅选择中文字符，进一步的，针对中文字符也进行筛选，考虑到模型仅能学习文本行文逻辑，超出行文逻辑的部分如数字增减，年份，字母等，无法对模型的性能做出优化，因此排除此类字符，强化模型训练效率，加速模型收敛。训练过程中，将文本编码，设定原文本编码为模型应该输出的结果，通过计算输出编码与原文本编码的差距，通过上述差距反向求解梯度更新参数，使模型预测结果能够接近目标值。该训练一直持续到训练集的损失函数值逐渐下降到基本稳定，且验证集损失函数值与训练集损失函数基本接近，则可认定模型已收敛。

本实施例中，在候选字判定过程中，原始字的混淆字字典形成过程如下，首先搜集了汉语中通用的7000个左右的汉字，根据读音制作表头，将同音字置与同一表头下，形成同音字字典，然后根据常见易混淆的拼音发音，如平舌音翘舌音，前鼻音后鼻音等发音之间，将相近读音表头合并为一个，并将表头下内容合并，组成字音词典。进一步的，通过网络上现有的近形字词典，选取原始字的近形字组成近形词典。合并字音词典和近形词典组成原始字的混淆字字典。进一步的，混淆字字典内除常规音近形近字之外，还可以根据客户使用习惯，统计客户在日常打字中常犯的错误，为模型添加特定字匹配，在遇到这些字的时候优先使用客户常见错字与语义候选字典相比较，若存在相同字，则认为该常见错字为正确用字。

本实施例中，将对每个语义单位进行纠错的轮数设定为5轮，利用自制数据集进行验证，纠错正确率超过80％，由于每轮纠错过程中在不替换错误字的情况下，错误字只对前后两个位置的字词产生影响，不会因为错误字产生连续的判断错误，实际验证过程中未出现对一个语义单位执行5轮纠错而强制退出的情况。

综上，利用训练好的纠错模型直接对处理好的待纠错文本进行纠错，在纠错模型训练过程中通过选取目标领域的文本文档作为训练文本、提高字词替换概率、选取具有行文逻辑的中文字符作为掩盖、替换目标等手段，提高纠错模型的训练效率和针对性，能够得到预测精准度较高的纠错模型。进一步的，对文本中每个语义单位进行一轮纠错后统一进行错误字替换，减少了由于错误纠错导致后续预测被干扰的问题，利用多轮预测，提高了整体预测的精准度。

Claims

1.一种文本纠错方法，其特征在于：该方法包括步骤如下：

2.根据权利要求1所述的一种文本纠错方法，其特征在于：所述的步骤(2)中纠错模型采用bert模型，训练文本采用目标领域的文本文档，对训练用的文本文档同样按照文本内语义分割符号将文本分割为若干语义单位，训练过程中利用训练文本的语义单位对纠错模型进行有监督预测，直至纠错模型模型收敛。

3.根据权利要求2所述的一种文本纠错方法，其特征在于：所述的纠错模型训练过程中针对文本文档中的中文字符，进行掩盖预测、词语替换预测或词语不替换预测。

4.根据权利要求3所述的一种文本纠错方法，其特征在于：所述的纠错模型训练用的文本文档中的部分正确字替换为易混淆字后用于纠错模型训练。

5.根据权利要求1所述的一种文本纠错方法，其特征在于：所述的步骤(3)中当语义候选字字典中存在原始字，则判定原始字正确；若语义候选字字典中不存在原始字，则将语义候选字字典内的字按纠错模型预测概率得分由高到低逐一与原始字的混淆字字典进行比对，当发现语义候选字存在于混淆字字典内，将该字作为替换字输出，同时终止比对；当语义候选字字典内的全部字均不存在于混淆字字典内时，则判定原始字正确。

6.根据权利要求5所述的一种文本纠错方法，其特征在于：所述的纠错模型对掩盖字预测后按照概率得分由高到低输出语义候选字，将指定数量或概率超过指定阈值的语义候选字组成语义候选字字典。

7.根据权利要求5所述的一种文本纠错方法，其特征在于：所述的混淆字字典包括原始字的同音字、近音字，形近字以及使用者日常输入原始字时产生的错误字。