CN117236319B

CN117236319B - 一种基于Transformer生成模型的真实场景中文文本纠错方法

Info

Publication number: CN117236319B
Application number: CN202311244618.8A
Authority: CN
Inventors: 高健; 黄文新; 李昌金
Original assignee: China Asean Information Harbor Co ltd
Current assignee: China Asean Information Harbor Co ltd
Priority date: 2023-09-25
Filing date: 2023-09-25
Publication date: 2024-04-19
Anticipated expiration: 2043-09-25
Also published as: CN117236319A

Abstract

本发明公开了一种基于Transformer生成模型的真实场景中文文本纠错方法，涉及计算机软件技术。根据初始数据集建立多任务训练数据集，并对其进行训练，以获取Tokenizer；将开源T5生成模型作为预训练模型；通过Tokenizer对多任务训练数据集进行数据转换，并将数据转换后的多任务训练数据集输入至预训练模型进行训练，以获得文本纠错模型；将待纠错的文档中的文本数据进行拆句处理，以获取句子集合；将句子集合输入至Tokenizer进行预处理，以获取模型输入数据；将模型输入数据输入至文本纠错模型进行预测推理，获得初始推理结果；将初始推理结果进行筛选，获得文本纠错结果。本发明可以对真实场景下的办公文本文档进行比较准确的错误内容纠正，进一步获得更为准确的中文纠错结果。

Description

一种基于Transformer生成模型的真实场景中文文本纠错方法

技术领域

本发明涉及计算机软件技术，更具体地说，它涉及一种基于Transformer生成模型的真实场景中文文本纠错方法。

背景技术

目前在文本办公场景中，尚未找到高效的自动化方法完全纠正各种文本和文档的编写错误，这给办公文件的准确性带来了严峻挑战。这些文本编写错误包含语义错误、拼写错误、语法错误、用词不当以及漏字错字等，它们可能会误导读者、降低可信度、影响形象和声誉，同时也会造成沟通障碍并增加错误修正成本，这些潜在问题会对个人、企业、政府部门甚至整个社会造成非常严重和恶劣的负面影响。

针对真实场景中文文本纠错，目前主要采用统计方法、规则库方法、RNN以及BERT等方法。然而这些方法的自动检测纠错率依然不能满足自动纠错的要求，准确率仍然具有较大的提升空间。

发明内容

本发明要解决的技术问题是针对现有技术的不足，提供一种基于Transformer生成模型的真实场景中文文本纠错方法，进一步获得更为准确的中文纠错结果，可以对真实场景下的办公文本文档进行比较准确的错误内容纠正。

本发明所述的一种基于Transformer生成模型的真实场景中文文本纠错方法，该方法包括：

步骤1：采集公开数据集和内部数据集；

步骤2：根据所述公开数据集和内部数据集建立具有标准提示语的多任务训练数据集；

步骤3：将所述多任务训练数据集输入到BPE算法中进行训练，以获取Tokenizer；

步骤4：获取由多语言数据库训练得到的开源T5生成模型作为预训练模型；

步骤5：通过所述Tokenizer对多任务训练数据集进行数据转换，并将数据转换后的多任务训练数据集输入至所述预训练模型进行训练，以获得文本纠错模型；

步骤6：将待纠错的文档中的文本数据进行拆句处理，以获取句子集合；将所述句子集合输入至Tokenizer进行预处理，以获取模型输入数据；

步骤7：将所述模型输入数据输入至文本纠错模型进行预测推理，获得初始推理结果；

步骤8：将所述初始推理结果进行筛选，获得最终的文本纠错结果。

作进一步的改进，所述步骤2具体为，

对所述内部数据集进行预处理操作，合并所述公开数据集和预处理后的内部数据集；根据所述公开数据集建立标准提示语，同时清洗掉所述公开数据集中的原始提示语，将所述标准提示语添加合并后的数据集中，以建立多任务训练数据集。

进一步地，所述预处理操作，具体为，对所述内部数据集进行清洗、格式化处理、自动化标注和人工标注。

作进一步的改进，在所述多任务训练数据集输入到BPE算法中前，对所述BPE算法的参数进行配置。

更进一步地，所述BPE算法的参数配置具体为，

所述BPE算法中的Normalizer使用NFKC方法，预处理使用Whitespace方法，解码器使用ByteLevel方法，设置词矩阵大小为固定值一，设置起始、结束、未知、mak标识作为特殊字符，采用所述多任务训练数据集总长度作为训练长度，批大小设置为固定值二。

作进一步的改进，在步骤4中，所述多语言数据库采用mC4多语言数据；所述预训练模型采用Large版本T5生成模型。

作进一步的改进，在步骤6中，所述拆句处理具体为，

去除待纠错的文档中的所述文本数据的表格和图片，依据标题、中文句号、中文感叹号、中文问号、中文双引号整体的规则将所述文本数据进行拆句。

作进一步的改进，在步骤6中，将所述句子集合输入至Tokenizer进行预处理，具体为，

为所述句子集合中的每个句子添加所述标准提示语。

作进一步的改进，在步骤8中，所述筛选具体为，

配置所述文本纠错模型中的do_sample后处理策略，将所述初始推理结果进行do_sample后处理筛选，通过所述Tokenizer将经过后处理筛选的初始推理结果转换回文本数据，获得输出的文本纠错结果。

进一步地，所述do_sample后处理策略具体为，

采集N个真实场景的办公文档，保留已有文本错误；并对所述办公文档进行人工添加语义错误、拼写错误、语法错误、用词不当以及漏字错字，作为测试样本；通过所述文本纠错模型对测试样本进行测试，找到do_sample后处理相关参数temperature、top_p、top_k和no_repeat_ngram_size的最佳参数值。

有益效果

本发明的优点在于：本发明基于Transformer生成模型，通过内部数据叠加公开数据打造训练数据集的方式，采用基于提示语的多任务训练提高模型语义理解能力的思路，训练中文文本纠错模型，在推理检测时，经过分句输入和do_sample后处理筛选，进一步获得更为准确的中文纠错结果，可以对真实场景下的办公文本文档进行比较准确的错误内容纠正。与以往统计方法、规则库方法、RNN以及BERT的方法相比，其具有准确率更高、语义理解能力更强、泛化能力更广等优点，可以对中文办公文本和文档中的语义错误、拼写错误、语法错误、用词不当和漏字错字等错误实现自动检测纠正，有效降低办公过程中的文档文字错误带来的的负面影响。

附图说明

图1为本发明的真实场景中文文本纠错方法流程图。

具体实施方式

下面结合实施例，对本发明作进一步的描述，但不构成对本发明的任何限制，任何人在本发明权利要求范围所做的有限次的修改，仍在本发明的权利要求范围内。

参阅图1，本发明的一种基于Transformer生成模型的真实场景中文文本纠错方法，其具备包括如下步骤。

第一阶段为训练阶段。该阶段主要由以下五个步骤组成。

步骤1：初始数据准备。

采集公开的数据，包括SIGHAN中文纠错数据集、Wang271k中文纠错数据集、今日头条中文新闻分类数据集、THUCNews文本分类数据集、DuReader阅读理解数据集、OCNLI文本推理数据集、MSRA命名实体识别数据集、CLUENER2020命名实体识别数据集、pCLUE文本数据集等数据集，将这些数据集合为公开数据集。采集互联网内公开的办公文档数据、在用户内部收集各类办公文档，将其集合成内部数据集；合并公开数据集和内部数据集作为初始数据集。

公开数据集具体包含有纠错、分类、理解、推理和提取类文本处理任务的数据，总计300万条数据。其中，SIGHAN和Wang271k数据集提供中文文本纠错任务数据，共含27万条数据；今日头条中文新闻和THUCNews数据集提供中文文本分类任务数据，共含112万条数据；DuReader数据集提供中文阅读理解任务数据，共含20万条数据；OCNLI数据集提供中文文本推理任务数据，共含5.6万条数据；MSRA和CLUENER2020数据集提供实体识别类的中文提取任务数据，共含6万条数据；pCLUE数据集提供中文分类、理解、推理和提取类等综合任务数据，共含130万条数据。

内部数据集包含有互联网采集部分和用户内部收集部分，共计5000份。其中，在互联网内采集的数据4000份，具体包含政府公开网站内公开的办公、公文、通知、宣传等文档数据；在用户内部收集的数据1000份，具体包含办公、公文、通知、流程、项目管理、学习资料和脱敏合同等文档数据。

步骤2：数据预处理。

主要是预处理步骤1中的初始数据集，建立多任务训练数据集。

其中，预处理为，对内部数据集部分进行清洗、格式化处理、自动化标注和人工标注，合并公开数据集和预处理后的内部数据集，添加对应任务的提示语，建立多任务训练数据集。

具体的，如内部数据集中的办公文档，需要对其文本数据去除表格和图片内容，依据标题、中文句号、中文问号、中文感叹号以及双引号整体的规则将文本数据进行拆句，去除错误、重复、空白、全符号、全数字、全代码和非中文的内容。将清洗和分句完毕的数据进行复制，将90％的复制数据通过自动化方式增加“邻近汉字换位”、“同音词替换”、“随机增删字符”和“中-英-中机器回译”的方式改变为错误样本一，将10％的复制数据通过人工方式添加语义错误、拼写错误、语法错误、用词不当以及漏字错字等常见错误作为错误样本二，然后对齐复制前的数据和错误样本的数据。

检查具有纠错、分类、理解、推理和提取类功能的公开数据集的数据完整性和正确性，确保其准确无误。

根据这些纠错、分类、理解、推理和提取类的公开数据集建立标准提示语，同时清洗掉原始公开数据集内的原始提示语。将建立的标准提示语依据分类加入所有的数据中，形成最终的多任务训练数据集。

步骤3：Tokenizer(即分词器)建立。

将步骤2中的多任务训练数据集作为Tokenizer训练集，采用BPE算法，并配置BPE算法的参数。将Tokenizer训练集输入到配置好参数的BPE算法中进行训练，训练完成即可得到文本纠错模型的Tokenizer。

其中，BPE算法的参数配置具体为，BPE算法中的Normalizer使用NFKC方法，预处理使用Whitespace方法，解码器使用ByteLevel方法，词矩阵大小选择32000，设置起始、结束、未知、mak等标识作为特殊字符，使用Tokenizer训练集总长度作为训练长度，批大小选择1024。

步骤4：获取预训练模型。

通过互联网，获取由mC4多语言数据训练得到的开源T5(Text-to-Text TransferTransformer)生成模型，并选择其中拥有7.8亿参数的Large版本T5生成模型作为预训练模型，损失函数与预训练模型的损失函数对齐。

步骤5：文本纠错模型训练。

其训练策略为，使用步骤3中训练得到的Tokenizer作为预训练模型的Tokenizer，将步骤2得到的多任务训练数据集通过步骤3中训练得到的Tokenizer转换并输入预训练模型进行训练，获得训练好的T5生成模型，即为文本纠错模型。

具体的训练策略为，Tokenizer将多任务训练数据集转化为预训练模型型适用的输入数据，输入数据最大长度设定为640；训练采用全参数微调训练；训练和验证数据集分割选用K-fold方法，其中K＝5，K-fold在比例分割训练和验证集时，采用相同比例分别分割每个类别任务数据的方法进行切分，最终5个fold训练出的模型使用SWA(stochaticweight averaging)方法融合得到一个训练好的最终模型，作为文本纠错模型。在训练过程中，优化器选用Adafactor优化器，学习率选择预训练模型学习率值的四分之一，使用余弦退火学习率调整策略，训练总epoch数、热身步数、批大小、Early stop、Dropout等参数根据预训练模型训练时的损失和准确率反馈进行优化调整。

第二阶段为推理阶段。包括以下三个步骤。

步骤6：纠错文本预处理。

抽取需要纠错的文档中的文本数据，并去除表格和图片等数据，依据标题、中文句号、中文感叹号、中文问号、中文双引号整体的规则将文本数据进行拆句，获得具有多个句子的句子集合。将句子集合输入至Tokenizer进行预处理，以获取模型输入数据。即为句子集合中的每个句子添加步骤2中纠错类任务的标准提示语，从而形成模型输入数据。

步骤7：模型推理。

将模型输入数据输入步骤5训练得到的文本纠错模型进行预测推理，获得初始推理结果。

步骤8：推理结果后处理。

其中，后处理筛选为do_sample后处理筛选。具体的，配置文本纠错模型(即训练后的开源T5生成模型)中的do_sample后处理策略，并将步骤7中的初始推理结果进行do_sample后处理筛选，最终通过步骤3训练好的Tokenizer将经过后处理筛选的初始推理结果转换回文本数据，获得输出的文本纠错结果。其中，无纠错时输出原始文本数据，有纠错时输出修正过的文本数据。

具体的，do_sample后处理策略为，采集100个真实场景的办公文档，保留已有文本错误，并人工添加语义错误、拼写错误、语法错误、用词不当以及漏字错字等常见错误，通过测试，找到do_sample后处理相关参数temperature、top_p、top_k和no_repeat_ngram_size的最佳参数值。

随着大语言模型(LLM)的快速发展和落地，人工智能四大领域中的自然语言处理得到了人们的肯定，而自然语言处理中基于Transformer的生成模型可以实现真实场景下文本自动纠错的功能。因此，本发明的中文文本纠错方法与以往统计方法、规则库方法、RNN以及BERT的方法相比，其具有准确率更高、语义理解能力更强、泛化能力更广等优点，可以对中文办公文本和文档中的语义错误、拼写错误、语法错误、用词不当和漏字错字等错误实现自动检测纠正，有效降低办公过程中的文档文字错误带来的的负面影响。

以上所述的仅是本发明的优选实施方式，应当指出对于本领域的技术人员来说，在不脱离本发明结构的前提下，还可以作出若干变形和改进，这些都不会影响本发明实施的效果和专利的实用性。

Claims

1.一种基于Transformer生成模型的真实场景中文文本纠错方法，其特征在于，该方法包括：

步骤1：采集公开数据集和内部数据集；

步骤8：将所述初始推理结果进行筛选，获得文本纠错结果；

在所述多任务训练数据集输入到BPE算法中前，对所述BPE算法的参数进行配置；

所述BPE算法的参数配置具体为，

所述BPE算法中的Normalizer使用NFKC方法，预处理使用Whitespace方法，解码器使用ByteLevel方法，设置词矩阵大小为固定值一，设置起始、结束、未知、mak标识作为特殊字符，采用所述多任务训练数据集总长度作为训练长度，批大小设置为固定值二；

在步骤4中，所述多语言数据库采用mC4多语言数据；所述预训练模型采用Large版本T5生成模型。

2.根据权利要求1所述的一种基于Transformer生成模型的真实场景中文文本纠错方法，其特征在于，所述步骤2具体为，

3.根据权利要求2所述的一种基于Transformer生成模型的真实场景中文文本纠错方法，其特征在于，所述预处理操作，具体为，对所述内部数据集进行清洗、格式化处理、自动化标注和人工标注。

4.根据权利要求1所述的一种基于Transformer生成模型的真实场景中文文本纠错方法，其特征在于，在步骤6中，所述拆句处理具体为，

5.根据权利要求1所述的一种基于Transformer生成模型的真实场景中文文本纠错方法，其特征在于，在步骤6中，将所述句子集合输入至Tokenizer进行预处理，具体为，

为所述句子集合中的每个句子添加所述标准提示语。

6.根据权利要求1所述的一种基于Transformer生成模型的真实场景中文文本纠错方法，其特征在于，在步骤8中，所述筛选具体为，

7.根据权利要求6所述的一种基于Transformer生成模型的真实场景中文文本纠错方法，其特征在于，所述do_sample后处理策略具体为，