CN114048321A

CN114048321A - 一种多粒度文本纠错数据集生成方法、装置及设备

Info

Publication number: CN114048321A
Application number: CN202110923835.4A
Authority: CN
Inventors: 刘洋
Original assignee: Hunan Dademaning Information Technology Co ltd
Current assignee: Hunan Dademaning Information Technology Co ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2022-02-15

Abstract

本发明属于人工智能技术领域，具体涉及多粒度文本纠错数据集生成方法、装置及设备。所述生成方法具体包括：获取新闻网站的新闻语料，并进行语料预处理，获得预处理语料；将预处理语料进行实体标注后，按照预设的关系抽取方法进行实体分类获得语料中实体之间的关系；根据实体及实体之间的关系构建多元组，并根据知识图谱进行多元组内实体的替换，获得词粒度文本纠错数据集；获取实体，基于混淆字集进行实体中字替换，获得字粒度文本纠错数据集。该方法根据关系抽取确定错误生成位置，基于混淆集和字频生成字粒度的错误，基于知识图谱生成词粒度的错误获得多层次纠错数据集，能显著提高中文文本纠错模型在新闻领域的精度。

Description

一种多粒度文本纠错数据集生成方法、装置及设备

技术领域

本发明属于人工智能技术领域，具体涉及新闻领域中多粒度文本纠错数据集生成方法、装置及设备。

背景技术

文本纠错是自然语言处理的子任务之一，在近些年得到了广泛的关注，能够在日常生活中的众多领域发挥重要作用，比如新闻编辑进行文稿审核，法律文书领域；也可以将文本纠错应用于各类数据集，提升数据集质量，从而为上层的深度学习任务提供数据支持。

现有技术中，常用的中文文本纠错方法主要基于传统统计学习方法和深度学习方法。基于统计学习的方法需要富有经验的工程师设计若干规则，人工提取文本中特征，需要耗费大量人力，且难度很高。深度学习方法可以通过在大量有标注数据上训练，自动提取文本特征，从而实现文本纠错，随着深度学习技术的快速发展，逐渐成为文本纠错领域主流方法。然而，深度学习方法的效果依赖于标注数据的数量，对于文本纠错领域，训练数据极难获得，业内获取标注数据主要依赖于长期积累，不仅需要的时间长，而且数据量少，难以满足深度学习的需求，因此迫切需要一种自动生成文本纠错数据集的方法。

目前自动生成文本纠错数据集的主流方法是收集正确语料，通过混淆字集随机生成错误语料，虽然这种方法可以在一定程度上解决训练集的问题，但是存在着若干问题：(1)生成的错误和实际业务场景数据分布存在差异，在新闻领域中，对于不同错别字的纠错能力需求是存在差异的，对于机构名、地名、关键人名等具有严格规范的名称，对模型精度的要求较高，而一般生成纠错数据集的方法，未考虑到这一需求，导致模型对于不同字发生错误进行纠错的能力没有梯度化差异，难以满足实际需求。(2)未考虑字频、字频因素，传统生成纠错数据集的方法，从句子中随机选定出错字后，会根据混淆字集，从中随机挑选一个字作为错误样例，这种随机挑选的方法没有考虑生活中字频的因素，例如对于自己的“己”字，“乙”和“已”都是该字的混淆字，然而我们实际错字更容易打成自“已”，而传统的方法并未考虑到这一点。(3)由于这种生成数据集的方法及其依赖混淆字集，而词粒度的混淆字集非常匮乏，因此企业难以生成词粒度的错误，导致模型只能识别单个字发生错误的情况，对于整个词出现错误的情况难以处理。

发明内容

基于此，本发明将关系抽取任务和知识图谱引入构建文本纠错数据集的过程，先对句子中地名、机构名、关键人名、专有名词等重要实体进行标注，选取重要实体进行字粒度的错误生成；同时使用Ownthink知识图谱，根据关系抽取标注的实体和实体之间的关系，对整个实体词进行替换，从而生成词粒度纠错数据，以解决中文文本纠错数据集少，数据集质量与实际需求差异较大的问题，以及词粒度标注数据缺乏的问题。

本发明提供了一种多粒度文本纠错数据集生成方法，所述生成方法具体包括：

获取新闻网站的新闻语料，并进行语料预处理，获得预处理语料；

将所述预处理语料进行实体标注后，按照预设的关系抽取方法进行实体分类获得语料中实体之间的关系；

根据所述实体及实体之间的关系构建多元组，并根据知识图谱进行多元组内实体的替换，获得词粒度文本纠错数据集；

获取所述实体，基于混淆字集进行实体中字替换，获得字粒度文本纠错数据集。

进一步的，所述语料预处理具体包括：

将获得的政务新闻语料先后进行分句、分词、去停用词、去url连接；

将分句后语料进行过滤，去除篇章过短和无意义语料。

进一步的，将所述预处理语料将所述预处理语料进行实体标注步骤具体包括：

将所述预处理语料采用RoBERT预训练模型进行处理获得词向量语料；

构建BiLSTM-CRF模型，以所述词向量语料为输入进行训练获得每个字对应的标签；

根据所述标签，获得新闻语料中关键人名、机构名和地名三类实体。

进一步的，所述按照预设的关系抽取方法进行实体分类获得语料中实体之间的关系步骤具体包括：

将所述标注实体进行两两匹配，并以所述匹配后的两实体的名称作为输入，采用RoBERTa预训练模型进行编码，获得匹配词向量，

构建神经网络模型，以所述匹配词向量为输入进行分类，获得语料中实体之间的关系。

进一步的，所述根据所述实体及实体之间的关系构建多元组，并根据知识图谱进行多元组内实体的替换，获得词粒度文本纠错数据集步骤具体包括：

根据所述实体及实体之间的关系构建多元组(A,B,R)，所述A、B为两个实体，R为实体之间的关系；

根据实体A，从领域词典中随机选取同类别实体C，并根据所述实体C与实体关系R，在ownthink知识图谱中查找出用于替换的实体D；

将所述实体D替换实体B，获得替换文本，构建词粒度文本纠错数据集。

进一步的，所述获取所述实体，基于混淆字集进行实体中字替换，获得字粒度文本纠错数据集步骤具体包括：

随机选取所述实体中的文字E，根据混淆字集找到与文字E对应的混淆字，并根据字频挑选出替换文字F，

将所述实体中的文字E替换成文字F，获得替换文本，构件字粒度文本纠错数据集。

基于同一发明构思的，一种多粒度文本纠错数据集生成装置，所述装置具体包括：

语料预处理模块，用于获取新闻网站的政务新闻语料，并进行语料预处理，获得预处理语料；

关系抽取模块，用于将所述预处理语料进行实体标注后，按照预设的关系抽取方法进行实体分类获得语料中实体之间的关系；

词粒度文本纠错集生成模块，用于根据所述实体及实体之间的关系构建多元组，并根据知识图谱进行多元组内实体的替换，获得词粒度文本纠错数据集；

字粒度文本纠错集生成模块，用于获取所述实体，基于混淆字集进行实体中字替换，获得字粒度文本纠错数据集。

基于同一发明构思的，本发明实施例还提供了一种多粒度文本纠错数据集生成设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述多粒度文本纠错数据集生成方法的步骤。

基于同一发明构思的，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述多粒度文本纠错数据集生成方法的步骤。

有益效果：

本发明根据新闻报道的实际需求，将关系抽取任务引入数据集生成过程，对人名、地名、机构名等若干重要实体进行错误生成，同时考虑字频因素，获得标注数据集更贴近实际业务场景，保证训练数据和实际业务场景数据分布尽量一致，另一方面，基于关系抽取的结果，结合知识图谱能实现对整个词进行替换，从而生成大量的词粒度的标注数据，解决词粒度标注数据难以获得的问题，让模型不仅能够纠正字粒度的错误，也能对词粒度的错误有较好的纠正能力。本发明的多层次中文文本纠错数据集自动生成方法，生成的数据集能显著提高中文文本纠错模型在新闻领域的精度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的多粒度文本纠错数据集生成方法的流程图；

图2为本发明实施例提供的词粒度文本纠错数据集生成流程图；

图3为本发明实施例提供的词粒度文本纠错数据生成示例；

图4为本发明实施例提供的字粒度文本纠错数据集生成流程图；

图5为本发明实施例提供的字粒度文本纠错数据生成示例。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

在本发明实施例中，所述知识图谱为ownthink通用知识图谱，为现有技术中最大的中文开放知识图谱，对两千五百多万实体进行了融合，并保存有各实体属性惯性，数据集包含：歧义关系，全部知识，属性值以及相应的知识图谱。本发明所述涉及的领域词典的构造方法包括以下步骤：首先根据城市级别，将地名分为三类：省级行政区、地级市、县级市，构造获得地名词典；根据时事新闻，收集更新主级地区主要关键人名及各次级地区主要关键人名将关键人分为35类，分别是主级地区主要关键人以及34个次级地区的主要关键人，构造出关键人名词典；根据收集的主级地区行政机关，以及各次级地区行政机关，将所述机关分为35类，分别是主级地区行政机构以及34个次级地区的主要行政机构，从而构造出行政机构词典；即可获得三个领域词典，分别为地名词典、关键人词典和行政机构词典，应该理解的是，可以按照上述逻辑获得其他领域词典，用于纠错集的生成。

在本发明实施例中，所述混淆字集是经收集获得含有错误的文本，构造出的数据集，并统计相应的错误文本出现的频次。

如图1所示，在本发明实施例中，提出了一种多粒度文本纠错数据集生成方法的流程图，所述生成方法具体包括：

步骤S101，获取新闻网站的新闻语料，并进行语料预处理，获得预处理语料。

在本发明实施例中，使用爬虫工具，从各大新闻网站爬取政务新闻语料，并对所述政务新闻语料进行预处理，预处理流程主要包括：分句、分词、去停用词、去url连接等冗余内容；对于分句后的语料进行过滤，主要去除篇章过短或无意义的语料，比如“新闻来源：XX日报”，获得预处理语料。

步骤S102，将所述预处理语料进行实体标注后，按照预设的关系抽取方法进行实体分类获得语料中实体之间的关系。

在本发明实施例中，所述将所述预处理语料进行实体标注具体包括以下步骤：

将所述预处理语料采用RoBERT预训练模型进行处理获得词向量语料，基于BiLSTM-CRF架构构建命名实体识别模型，以所述词向量语料作为BiLSTM (BidirectionalLong Short-Term Memory，双向长短期记忆网络)层的输入，输出语料中各字符的多个标签，并以所述多个标签作为CRF层，进行训练，最后通过softmax层输出每个字对应的最终标签，根据每个字对应的最终标签，获得新闻语料中关键人名、机构名和地名三类实体。以RoBERTa预训练模型作为模型编码层，相较于传统深度学习模型，如RNN(RecurrentNeuralNetwork，循环神经网络)预训练模型可以更好的编码文本的语义信息，BiLSTM-CRF模型相较于单纯使用BiLSTM网络，CRF(Conditional Random Field，向量条件随机场) 的加入能够对BiLSTM层输出的标签予以约束，提高模型精度。

在本发明实施例中，所述按照预设的关系抽取方法进行实体分类获得语料中实体之间的关系步骤具体包括以下步骤：

将标注的实体进行两两匹配，每个实体与除了自己的实体进行成对匹配获得匹配实体，并以所述匹配实体的两个实体的名称作为输入，经过RoBERTa预训练模型进行编码，将所述匹配实体编码为匹配词向量；将RoBERTa预训练模型编码后的词向量作为CNN(Convolutional Neural Networks，卷积神经网络) 层的输入，将CNN层的输出作为softmax层的输入，最终输出各类关系的概率。以所述匹配词向量为输入进行分类，将实体之间的关系分为五类，具体包括：省会，重要城市，现任关键人，主级地区关键人，其他。

步骤S103，根据所述实体及实体之间的关系构建多元组，并根据知识图谱进行多元组内实体的替换，获得词粒度文本纠错数据集。

在本发明实施例中，如图2所示的词粒度文本纠错数据集的生成流程以及图3所示词粒度文本纠错数据示例，将获取的语料进行预处理后进行关系抽取，获得实体之间的关系，并构建多元组，比如三元组(A,B,R)，其中A、B分别是两个实体，R是实体之间的关系，从领域词典随机选取同一类别的实体C，根据所述实体C和三元组内的关系R，在ownthink通用知识图谱中进行查找，找到用于替换的实体D，将实体B采用实体D进行替换获得替换文本，根据原始文本和替换文本，构建词粒度文本纠错数据集，应该理解的是，实体C和实体 D可以是多个，形成多个替换文本，从而构建含有多个词粒度错误替换文本的纠错数据集。

该方法通过知识图谱和领域词典对文本中的词进行替换，既保证了被替换词和替换词在语义上具有较高的相似度，又提高模型识别错误的难度，能更好的对纠错模型进行训练。

步骤S103，获取所述实体，基于混淆字集进行实体中字替换，获得字粒度文本纠错数据集。

在本发明实施例中，如图4所示的字粒度文本纠错数据集的生成流程以及图5所示字粒度文本纠错数据示例，所述混淆字集是经收集含有错误文本的数据集，混淆字主要包括：与原始文字具有相同的部分，与原始文字具有相同的读音等，如表1所示示例。

表1混淆集示例

将爬取获得的原始语料进行预处理后，进行混淆集不同混淆字出现的频次进行统计获得字频。根据关系抽取时标注的实体，从实体中随机挑选出某个字，在根据混淆集中对应的混淆字，基于字频挑选出用于替换的字。例如，从标注的实体“苹果河”中挑选“苹”字作为备选字，从混淆集中找到用于替换“苹”的字，选取其中出现频次最高的字“平”用于替换。将替换后的词在原始文本中进行替换，获得含有错别字的文本，根据原始语料和替换后的语料，构建字粒度文本纠错数据集。应该理解的是，也可以从实体中挑选出多个混淆字进行混淆字替换，获得字粒度文本纠错数据集。

本方法通过选择语句中的重要实体，比如关键人名、地名和机构名进行错误生成，更加符合新闻领域的实际需要，使得训练后的模型能够在实际场景下取得更好的纠错率。

在本发明实施例中，本发明还提供了一种多粒度文本纠错数据集生成装置，所述装置具体包括：

语料预处理模块，用于获取新闻网站的政务新闻语料，并进行语料预处理，获得预处理语料。在本发明实施例中，所述预处理包括分句、分词、去停用词、去url连接等冗余内容；对于分句后的语料进行过滤，主要去除篇章过短或无意义的语料，比如“新闻来源：XX日报”，获得预处理语料。

关系抽取模块，用于将所述预处理语料进行实体标注后，按照预设的关系抽取方法进行实体分类获得语料中实体之间的关系。

在本发明实施例中，所述预处理语料进行实体标注包括：采用采用RoBERT 预训练模型进行处理获得词向量语料，构建BiLSTM-CRF模型，以所述词向量语料作为输入，进行训练，获得每个字对应的最终标签，根据每个字对应的最终标签，获得新闻语料中关键人名、机构名和地名三类实体。所述预设的关系抽取方法包括：将标注的实体进行两两匹配，每个实体与除了自己的实体进行成对匹配获得匹配实体，并以所述匹配实体的两个实体的名称作为输入，经过 RoBERTa预训练模型进行编码，将所述匹配实体编码为匹配词向量；将词向量作为CNN(Convolutional Neural Networks，卷积神经网络)层的输入，将CNN 层的输出作为softmax层的输入，最终输出各类关系的概率。以所述匹配词向量为输入进行分类，将实体之间的关系分为五类，具体包括：省会，重要城市，现任关键人，主级地区关键人，其他。

词粒度文本纠错集生成模块，用于根据所述实体及实体之间的关系构建多元组，并根据知识图谱进行多元组内实体的替换，获得词粒度文本纠错数据集。

在本发明实施例中，所述模块以累计获得混淆集为基础，将爬取获得的原始语料进行预处理后，进行混淆集不同混淆字出现的频次进行统计获得字频。根据关系抽取时标注的实体，从实体中随机挑选出某个字，在根据混淆集中对应的混淆字，基于字频挑选出用于替换的字。将替换后的词在原始文本中进行替换，获得含有错别字的文本，根据原始语料和替换后的语料，构建字粒度文本纠错数据集。

基于同一发明构思的，本发明实施例还提供了一种多粒度文本纠错数据集生成设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述多粒度文本纠错数据集生成方法的步骤，同时所述存储其中存储有ownthink通用知识图谱、领域词典和混淆集。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种多粒度文本纠错数据集生成方法，其特征在于，所述生成方法具体包括：

2.根据权利要求1所述的多粒度文本纠错数据集生成方法，其特征在于，所述语料预处理具体包括：

将分句后语料进行过滤，去除篇章过短和无意义语料。

3.根据权利要求1所述的多粒度文本纠错数据集生成方法，其特征在于，将所述预处理语料将所述预处理语料进行实体标注步骤具体包括：

4.根据权利要求1所述的多粒度文本纠错数据集生成方法，其特征在于，所述按照预设的关系抽取方法进行实体分类获得语料中实体之间的关系步骤具体包括：

将所述标注实体进行两两匹配，并以所述匹配后的两实体的名称作为输入，采用RoBERTa预训练模型进行编码，获得匹配词向量；

5.根据权利要求1所述的多粒度文本纠错数据集生成方法，其特征在于，所述根据所述实体及实体之间的关系构建多元组，并根据知识图谱进行多元组内实体的替换，获得词粒度文本纠错数据集步骤具体包括：

6.根据权利要求1所述的多粒度文本纠错数据集生成方法，其特征在于，所述获取所述实体，基于混淆字集进行实体中字替换，获得字粒度文本纠错数据集步骤具体包括：

7.一种多粒度文本纠错数据集生成装置，其特征在于，所述装置具体包括：

8.一种多粒度文本纠错数据集生成设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的多粒度文本纠错数据集生成方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的多粒度文本纠错数据集生成方法的步骤。