CN115688703A

CN115688703A - 一种特定领域文本纠错方法、存储介质和装置

Info

Publication number: CN115688703A
Application number: CN202211342299.XA
Authority: CN
Inventors: 邓华; 武侠; 崔豪驿; 鲍娌娜; 李荣生; 邓养吾; 齐一飞; 杨阳; 刘伟; 苗德雨; 刘抗抗
Original assignee: State Grid Corp of China SGCC; Yantai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Current assignee: Yantai Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date: 2022-10-31
Filing date: 2022-10-31
Publication date: 2023-02-03
Anticipated expiration: 2042-10-31
Also published as: CN115688703B

Abstract

本发明公开一种特定领域文本的纠错方法、存储介质和装置，其中方法包括：构造特定领域训练用数据集；使用通用领域数据集对文本生成模型进行第一阶段训练；对文本生成模型通过加入词性监督信号进行改造，然后利用特定领域训练用数据集对改造后的文本生成模型进行第二阶段训练；对训练后的文本生成模型进行句子级纠错，并解码生成矫正后的文本。本发明无需人工标注标签，可以根据现有数据自动生成标签；能够继承通用领域常用的语法特点与先验知识；能够针对特定领域特别是电力领域做出适配性纠正，能够识别特定领域内的特有名词与常用术语；能够结合句子的词性组合特征来进行纠错。

Description

一种特定领域文本纠错方法、存储介质和装置

技术领域

本发明涉及文本纠错领域，主要针对一种特定领域尤其是电力领域新闻文本的纠错方法、存储介质和装置。

背景技术

中文文本纠错常见错误类型分为音似、形似、多字、漏字、乱序、语法错误六大类型，然而在实际任务场景中，这些问题并不一定全都存在，比如输入法或是语音识别校对会主要关注音似错误，OCR校对则会关注形似错误，而搜索引擎则关注所有错误类型。本文则主要关注电力新闻领域内常见的多字漏字情况进行研究，而关于多字漏字的研究方法也较少，故具有一定挑战性。

文本纠错方法分为基于判别式模型和基于生成式模型两大类，其中基于判别式模型主要是通过对TOKEN进行判别，是否需要进行删除、添加或修改来完成纠错工作。在判别式模型中，MacBERT模型在原生的BERT上进行了修改，追加了一个全连接层作为错误检测模块，训练时用错误检测模块与错误修正模块的损失加权得到最终的损失，不过该研究主要针对对齐类错误修正，而无法考虑多字漏字情况。基于ERNIE的模型CSC提出了结合拼音特征的softmask策略，该工作发现拼音特征能够显著提升拼写错误类型纠正效果，却没有考虑到词性信息对整句语法的帮助，而且该方法同样只能针对对齐类错误纠正。

在生成式模型中，bart预训练模型，直接生成纠正后的句子，生成式模型结构更加简化的同时效果也有提升。Seq2edit模型而则是生成了动作序列，去对原输入进行操作，以此来实现非对齐类错误的修正，但这种方法同样忽视了词性的作用。在最近，由于T5在各大NLP任务上展现出优异表现，同样被使用到了文本纠错领域，并取得了目前最好的性能。

目前市面上，百度腾讯京东都有相关文本纠错产品，但是由于电网领域尤其特别，如果不针对性调整，很难达到其效果，如还有部分开源产品，中文单词自动纠错Cn_Speck_Checker和Autochecker&autocorrecter for chinese等，目前相关算法在各种自测数据集中表现效果尚且一般，用在非对齐类错误矫正上更是难以作为。

发明内容

为了克服上述现有技术中的问题，本发明提供一种特定领域文本纠错方法、存储介质和装置，优化纠错模型，提高检错检漏能力。

本发明第一方面，提供一种特定领域文本纠错方法，包括以下步骤：

S1、构造特定领域训练用数据集；

S2、使用通用领域数据集对文本生成模型进行第一阶段训练；

S3、对所述文本生成模型通过加入词性监督信号进行改造，然后利用所述特定领域训练用数据集对改造后的文本生成模型进行第二阶段训练；

S4、对训练后的文本生成模型进行句子级纠错，并解码生成矫正后的文本。

进一步的，步骤S1中所述构造特定领域训练用数据集具体包括：

S11、对训练样本进行预处理，包括删除重复数据和特殊符号；

S12、对训练样本按照特定标点符号进行分句；

S13、根据分句后的句子构造出有错误的句子，作为训练用数据集。

更进一步的，步骤S13所述根据分句后的句子构造出有错误的句子具体包括：

S131、对分句后的句子进行分词；

S132、根据分词长度设定增字和减字的次数；

S133、进行增字操作：两个分词之间作为一个插入位置，选择前一个词的尾部或后一个词的首部作为插入样本，所述插入样本的长度最小为1，最大不超过所在词的长度；重复进行增字操作，直到达到预设次数；

S134、进行减字操作：在当前句子中随机选择一候选词，删除所述候选词的前一部分或后一部分，删减长度最小为1，最大不超过所述候选词的长度；重复进行减字操作，直到达到预设次数；

S135、得到有错误的句子组成的数据集，用于训练文本生成模型。

进一步的，步骤S2具体包括：

S21、调用通用领域的文本纠错数据集，提取原-目标句子对；

S22、针对每对句子对计算原句与目标句的最小编辑距离和编辑路径；

S23、保留最短编辑路径中包含了增字与减字操作的句子对；

S24、将步骤S23得到的句子对输入文本生成模型，实现对所述文本生成模型的微调。

进一步的，步骤S3具体包括，

S31、将特定领域训练用数据集中的句子进行分词；

S32、对分词后的句子进行词性标注，得到词性标注序列；

S33、将词性标注的句子输入文本生成模型进行第二阶段训练，所述文本生成模型包括第一编码层和第二编码层，所述第一编码层用于将词性标注序列转化为POS语义表征，所述第二编码层用于将词性标签文本转化为TOKEN语义表征。

更进一步的，步骤S32中所述对分词后的句子进行词性标注由Ltp中文语言处理系统完成。

进一步的，步骤S4具体包括：

S41、将待纠错的句子使用分词器进行分词；

S42、将分词后的句子进行词性标注，得到词性标注序列；

S43、将所述词性标注序列输入文本生成模型，经编码得到POS语义表征和TOKEN语义表征，将所述POS语义表征和所述TOKEN语义表征相加，输入解码层；

S44、在所述文本生成模型的解码层，使用束搜索策略进行解码，生成全局最优结果。

本发明第二方面，提供一种计算机可读的存储介质，所述计算机可读的存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项技术方案所述的方法。

本发明第三方面，提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项技术方案所述的方法。

本发明的技术方案带来以下有益效果：无需人工标注标签，可以根据现有数据自动生成标签；能够继承通用领域常用的语法特点与先验知识；能够针对特定领域特别是电力领域做出适配性纠正，能够识别特定领域内的特有名词与常用术语；能够结合句子的词性组合特征来进行纠错。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例特定领域文本纠错方法的流程图；

图2为图1实施例中构造训练用数据集中错误文本的方法流程图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明提供的一种实施例是一种特定领域文本纠错方法，流程如图1所示。包括以下步骤：

S1、构造特定领域训练用数据集。

需要说明的是，本实施例所述的特定领域均指电力领域，本实施例的方法实际也可以应用到其他特定领域，该方法所针对的主要是新闻文本的纠错。

训练用数据集的构造过程包括：

S11、对训练样本进行预处理，包括删除重复数据和特殊符号。

训练样本是给定的若干个电力领域新闻文本，删除的特殊符号包括但不限于<ZWNBSP>、<ZWJ>、<NBSP>、英文逗号等，此外样本末尾还可能包括人名、空格和一些网址链接，同样需要删除。对包含了小标题的段落，要根据小标题首先进行话题分割，再将小标题内容在文本中删除。比如以下的一段文本：

天津市公布2022年风电光伏项目开发建设方案9月6日，天津市发改委发布《关于天津市2022年风电、光伏发电项目开发建设方案的公示》。根据公示，2022年天津市风电、光伏发电项目开发建设方案中项目共计46个，项目规模总计7340.27MW。河北取消超4GW风电光伏项目9月8日，河北省发改委公布《河北省风电、光伏发电项目拟调整情况公示》。经电网公司对接入和消纳条件确认、第三方咨询单位对基本要件审核，总计约4.077GW风电、光伏项目被取消。重庆印发建设世界级智能网联新能源汽车产业集群发展规划9月8日，重庆市政府印发《重庆市建设世界级智能网联新能源汽车产业集群发展规划(2022—2030年)》，目标到2025年，初步形成世界级智能网联新能源汽车产业集群雏形，智能网联新能源汽车产销量占全国比重达到10％以上。到2030年，建成世界级智能网联新能源汽车产业集群。

上述文本中包括三个小标题：“天津市公布2022年风电光伏项目开发建设方案”、“河北取消超4GW风电光伏项目”和“重庆印发建设世界级智能网联新能源汽车产业集群发展规划”，小标题后的句子是对应于小标题的新闻内容。预处理时需要删除三个小标题。

S12、对训练样本按照特定标点符号进行分句。

一般分句所依据的标点符号包括句号、问号、省略号、感叹号，先根据常用标点符号分句，然后将有成对标点符号的句子进行处理，对成对标点符号间的内容进行合并，例如两个双引号在两个句子中则需要合并，最后将双引号句子与后面的句子进行合并(在电力新闻素材中，双引号往往仅代表一个人说的一句话，不能构成一个句子，而只有极少数情况双引号应该与前一个句子合并，所以统一与后面的句子合并)。最后将所有符合预定长度的句子提取出来，作为数据集的一部分。继续以上述举例文本为例，将三个段落分别进行分句，保留分词长度为10-100之间的句子，得到该新闻的原句集合。

S13、根据分句后的句子构造出有错误的句子，作为训练用数据集；该步骤包括：

S131、通过分词器对分句后的句子进行分词；

S132、根据分词长度设定增字和减字的次数，通过增字和减字构造出错误句子；

以举例文本中的句子“根据公示，2022年天津市风电、光伏发电项目开发建设方案中项目共计46个，项目规模总计7340.27MW。”为例，具体步骤如下：

a.首先将句子进行分词，分词结果为：“根据公式，2022年天津市风电、光伏发电项目开发建设方案中项目共计46个，项目规模总计7340.37MW”，分词长度为19。

b.首先根据步骤S132获取增字次数为1和减字次数为1。

对于增字来说，如分词后的长度小于10：操作次数在[0,1]中选择，概率分别为

[0.5,0.5]；长度大于10小于50：操作次数在[0,1,2]中选择，概率分别为[0.5,0.3,0.2]；长度大于50：操作次数在[0,1,2,3]中选择，概率分别为[0.5,0.25,0.15,0.1]。

对于减字来说，如果分词后的长度小于10：操作次数在[0,1]中选择，概率分别为[0.4,0.6]；长度大于10小于50：次数在[0,1,2]中选择，概率分别为[0.4,0.35,0.25]；长度大于50：操作次数在[0,1,2,3]中选择，概率分别为[0.4,0.25,0.2,0.15]。

c.在步骤S133中获取插入位置为8，插入内容为“发”，即得到句子“根据公示，2022年天津市风电、光伏发电项目开发发建设方案中项目共计46个，项目规模总计7340.27MW。”并重新进行分词。

d.在步骤S134中将“光伏发电”中的“电”进行删除，得到最终的source句子“根据公示，2022年天津市风电、光伏发项目开发发建设方案中项目共计46个，项目规模总计7340.27MW。”

S2、使用通用领域数据集对文本生成模型进行第一阶段训练。

采用现有的通用领域数据集lang8，lang8数据集是一个包含1220069个句子对的中文文本纠错数据集。本实施例中的文本生成模型示例性的使用T5预训练深度学习模型，包含编码层和解码层。

具体包括：

S21、获取lang8数据集，提取原-目标句子对；

S22、计算每对原句与目标句的最小编辑距离和编辑路径；编辑距离指从原句到目标句所需要的编辑次数，包括插入词、删除词及替换词这三种操作；

S23、保留最短编辑路径中只包含了增字与减字操作的句子对；

S24、将S23得到的数据作为T5模型的输入，对T5模型进行第一阶段训练。

S3、对文本生成模型通过加入词性监督信号进行改造，然后利用特定领域训练用数据集对改造后的文本生成模型进行第二阶段训练。此时文本生成模型T5应已完成第一阶段训练，并在T5中新加入一个编码层。该步骤包括：

S31、将执行步骤S1得到的特定领域训练用数据集中的句子进行分词；

S32、对分词后的句子进行词性标注，得到词性标注序列；本实施例采用ltp进行词性标注，ltp是现有的中文语言处理系统。

S33、将词性标注的句子输入文本生成模型进行第二阶段训练，文本生成模型包括第一编码层和第二编码层，所述第一编码层用于将词性标注序列转化为POS语义表征，所述第二编码层用于将词性标签文本转化为TOKEN语义表征。

S4、对训练后的文本生成模型进行句子级纠错，并解码生成矫正后的文本。包括：

S41、将待纠错的句子使用分词器进行分词；

S42、将分词后的句子进行词性标注，得到词性标注序列；

S44、在文本生成模型的解码层，使用束搜索策略进行解码，生成全局最优结果。

另外，本发明还提供一种实施例，涉及计算机可读的存储介质，所述计算机可读的存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项技术方案所述的方法。

本发明还提供一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项技术方案所述的方法。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种特定领域文本纠错方法，其特征在于，包括以下步骤，

S1、构造特定领域训练用数据集；

2.根据权利要求1所述的特定领域文本纠错方法，其特征在于，步骤S1中所述构造特定领域训练用数据集具体包括：

S12、对训练样本按照特定标点符号进行分句；

3.根据权利要求2所述的特定领域文本纠错方法，其特征在于，步骤S13所述根据分句后的句子构造出有错误的句子具体包括：

S131、对分句后的句子进行分词；

S132、根据分词长度设定增字和减字的次数；

4.根据权利要求1所述的特定领域文本纠错方法，其特征在于，步骤S2具体包括：

S21、调用通用领域的文本纠错数据集，提取原-目标句子对；

S23、保留最短编辑路径中包含了增字与减字操作的句子对；

5.根据权利要求1所述的特定领域文本纠错方法，其特征在于，步骤S3具体包括，

S31、将特定领域训练用数据集中的句子进行分词；

S32、对分词后的句子进行词性标注，得到词性标注序列；

6.根据权利要求5所述的特定领域文本纠错方法，其特征在于，步骤S32中所述对分词后的句子进行词性标注由Ltp中文语言处理系统完成。

7.根据权利要求1所述的特定领域文本纠错方法，其特征在于，步骤S4具体包括：

S41、将待纠错的句子使用分词器进行分词；

S42、将分词后的句子进行词性标注，得到词性标注序列；

8.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。

9.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。