CN114817570A

CN114817570A - 基于知识图谱的新闻领域多场景文本纠错方法

Info

Publication number: CN114817570A
Application number: CN202210511014.4A
Authority: CN
Inventors: 陈功彬; 徐桢虎; 高登科; 李少博; 陈涵宇
Original assignee: Sichuan Cover Media Technology Co ltd
Current assignee: Sichuan Cover Media Technology Co ltd
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-07-29

Abstract

本发明涉及文本纠错领域，具体涉及一种基于知识图谱的新闻领域多场景文本纠错方法，技术方案包括：对各大新闻网站进行数据爬取、分类以及过滤；然后进行信息抽取，获取实体关系属性、事件数据、实体词以及领域词；根据实体词与领域词得到正样本，对正样本进行处理得到负样本，正样本与负样本构成正负样本数据集；根据实体关系属性与事件数据构建新闻领域图谱知识库；根据新闻领域的不同应用场景搭建不同的文本纠错模型以及图谱知识库搜索引擎；对于待纠错的文本，进行分词处理、实体抽取及语义分析，获取上下位词语及实体关系，然后利用搜索引擎在图谱知识库进行图谱检索；根据文本纠错模型的类型进行不同的处理。本发明适用于新闻领域文本纠错。

Description

基于知识图谱的新闻领域多场景文本纠错方法

技术领域

本发明涉及文本纠错领域，具体涉及一种基于知识图谱的新闻领域多场景文本纠错方法。

背景技术

伴随着互联网的飞速发展，媒体行业也在逐步扩大影响力，伴随着的是越来越多的网络新闻数据和网络用户，而文本数据的增多也必然会导致出错机率的增大，会直接影响到读者的阅读体验。因此，迫切的需要更好地自动纠错方法来提升文本数据的质量。

现有的文本纠错方法大多是通用领域的文本纠错，并没有针对特定领域的纠错方法出现。虽然通用的纠错方法覆盖的领域也比较广，但纠错的能力比较差，对于一些专有领域词汇或表达的错误并不能很好的检测并纠错。同时，现有的纠错模型主要分为基于规则、基于统计语言模型和基于大规模预训练模型，基于规则的方法就需要构建足够大的词汇库才能保证纠错的准确率，而基于统计语言模型和预训练模型的方法则需要大量的训练样本才能更好的泛化。因此，我们提出一种基于知识图谱的新闻领域多场景文本纠错方法，利用知识图谱技术来更好地建立新闻领域的知识库，从而构建更非富的词汇库以及训练数据，来提升纠错模型的效果。同时针对新闻领域不同的场景和业务需求，搭建不同的纠错模型来进一步提升模型效果和用户体验。

发明内容

本申请的目的是提供一种基于知识图谱的新闻领域多场景文本纠错方法，极大地提高了纠错能力。

本发明采取如下技术方案实现上述目的，基于知识图谱的新闻领域多场景文本纠错方法，包括：

步骤1、对各大新闻网站进行数据爬取，对爬取后的新闻数据进行分类以及过滤；

步骤2、对过滤后的新闻数据进行信息抽取，获取实体关系属性、事件数据、实体词以及领域词；

步骤3、根据实体词与领域词得到正样本，对正样本进行处理得到负样本，正样本与负样本构成正负样本数据集；

步骤4、根据实体关系属性与事件数据构建新闻领域图谱知识库；

步骤5、根据新闻领域的不同应用场景搭建不同的文本纠错模型以及图谱知识库搜索引擎；

步骤6、对于待纠错的文本，进行分词处理、实体抽取及语义分析，获取上下位词语及实体关系，然后利用搜索引擎在图谱知识库进行图谱检索；

步骤7、对文本纠错模型的类型进行判断，若是基于规则的模型，则进入步骤8；若是基于语言模型或预训练模型，则进入步骤9；

步骤8、召回待纠错词的相似词集和事件集，并计算与上下文的相似关系来选取相似得分最高的k个相似词或事件作为正确建议，结束流程，k为大于0的整数；

步骤9、利用正负样本数据集来训练和微调文本纠错模型，然后由文本纠错模型自动检测和纠错，同时结合规则纠错，并给出最后的正确建议，结束流程。

进一步的是，为了提高爬取数据的质量，步骤1中，对各大新闻网站进行数据爬取的具体方法包括：

梳理全网各大新闻网站，选取某段时间内各大新闻网站的数据进行分析，通过对各个属性维度人工抽样评估打分后进行计算平均得分，得到不同数据源各自的权重得分；对梳理出来的新闻源，根据权重得分分配抓取资源，所述属性包括新闻质量、数量、多样性以及时效属性。

对爬取后的新闻数据进行分类，并对分类后的数据进行过滤的具体方法包括：

对爬取后的新闻数据，进行划分归类，过滤掉无法归类和信息残缺的新闻数据；再对分好类别的新闻数据进行敏感以及不良过滤，最后对新闻数据进行脏数据的清洗、相似新闻去重，并全量字段结构化处理后存入数据库。

进一步的是，步骤2中，所述信息抽取包括实体抽取、领域词抽取以及领域事件抽取。

为了保证提取实体词的质量，所述实体抽取的具体方法包括：使用领域词典和深度学习结合的方式进行实体识别抽取，基于中文预训练模型与条件随机场算法进行句子级别的实体关系联合抽取，获得实体与属性，实体与关系的三元组，并计算抽取出来实体在新闻语料中的得分，将实体得分进行归一化，选取得分之和大于设置值的实体词作为新闻文本的实体词并保存整理存入数据库。

进一步的是，为了获得新闻事件的描述，所述事件抽取的具体方法包括选取领域事件三元组，选取领域事件三元组的具体方法包括：

对分类过滤后的新闻文本进行分句处理，将新闻标题、正文句子转换为语义向量，再以标题内容作为中心向量，并对正文句子进行建模打分，得到每个句子重要程度分数；

对句子中抽取的事件三元组、实体得分以及每个句子重要程度分数进行加权排序，选取得分最高的三元组作为领域事件三元组。

进一步的是，为了提高领域词的质量，所述领域词抽取的具体方法包括：通过领域词典进行领域词的抽取，对获取的领域词与实体词进行去重处理，保存去重后的领域词。

进一步的是，为了提高样本集的质量，得到正样本的具体方法包括：将包含实体词和领域词的句子作为正样本。得到负样本的具体方法包括：将正样本中的实体词和领域词替换成对应的相似词得到的句子作为负样本；或将正样本句子转换成语音，然后随机加入噪音，再转换成文本，转换成的文本即为负样本。

进一步的是，为了提高领域知识的结构化和层次化，以及提高后续的高维护性和可扩展性，步骤4中，根据实体关系属性与事件数据构建新闻领域图谱知识库的具体方法包括：

爬取各百科网站包含领域实体和领域事件的结构化数据，筛选、过滤后作为实体与事件数据的补充；

然后对获取的实体词和领域词的相似词数据以及补充的实体与事件数据进行指代消解以及实体消歧操作；

再以实体词和事件为主体，实体间的关系、实体的各个属性、实体和事件的关系以及事件和事件的关系作为实体词和事件的属性字段构建实体和事件的知识库；或以领域词汇和领域事件为本体建立知识图谱，包含实体词和领域词的句子集作为词汇的延伸属性，同时建立词与事件间的关系。

本发明对全网数据源进行量化分析，保证了数据的可靠性和多样性。针对爬取后的数据进行脏数据的清洗和敏感数据的过滤，并且进行人工复核，大大保证了数据的高质量；使用领域词典和深度学习结合的方式进行实体抽取，基于中文预训练模型与条件随机场算法进行句子级别的实体关系联合抽取，通过加权得分的方式获取实体词，极大地保证了提取实体词的质量；采用句子三元组和实体权重的加权得分，从而获得新闻事件的描述；构建领域实体和事件知识图谱形式存储领域知识，使领域知识更加结构化和层次化，提高其后续的高维护性和可扩展性。通过构建新闻领域不同场景的相关搜索引擎和纠错模型，进行更针对性、更细化地文本纠错，极大地提升文本纠错的效果。

附图说明

图1是本发明实施例提供的一种多源数据获取和处理流程图；

图2是本发明实施例提供一种实体词和领域词抽取流程图；

图3是本发明实施例提供的一种领域事件三元组抽取模型流程；

图4是本发明实施例提供的一种相似词挖掘和正负样本生成流程图；

图5是本发明实施例提供的一种新闻领域知识图谱构建流程图；

图6是本发明实施例提供的一种图知识库检索引擎和模型搭建流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图1-6对本发明的具体实施方式进行详细说明。

本发明基于知识图谱的新闻领域多场景文本纠错方法，包括：

为了提高爬取数据的质量，步骤1中，对各大新闻网站进行数据爬取的具体方法包括：

步骤2中，所述信息抽取包括实体抽取、领域词抽取以及领域事件抽取。

为了获得新闻事件的描述，所述事件抽取的具体方法包括选取领域事件三元组，选取领域事件三元组的具体方法包括：

为了提高领域词的质量，所述领域词抽取的具体方法包括：通过领域词典进行领域词的抽取，对获取的领域词与实体词进行去重处理，保存去重后的领域词。

为了提高样本集的质量，得到正样本的具体方法包括：将包含实体词和领域词的句子作为正样本。得到负样本的具体方法包括：将正样本中的实体词和领域词替换成对应的相似词得到的句子作为负样本；或将正样本句子转换成语音，然后随机加入噪音，再转换成文本，转换成的文本即为负样本。

为了提高领域知识的结构化和层次化，以及提高后续的高维护性和可扩展性，步骤4中，根据实体关系属性与事件数据构建新闻领域图谱知识库的具体方法包括：

本发明具体实施例流程包括五个方面，全网数据爬取和过滤、信息抽取、词汇挖掘和正负样本数据生成、知识图谱构建、搜索引擎和模型构建。

1.全网数据爬取和数据过滤，如图1所示，具体包括：

a)梳理全网各大新闻网站，如人民网、新华网、央视网等，选取一段时间内各大新闻网站的数据进行分析，主要是新闻的质量、数量、多样性、时效性等属性，通过对各个属性维度人工抽样评估打分后进行计算平均得分，得到不同源各自的权重；

b)针对梳理出来的新闻源，选取得分靠前的几个新闻数据源，根据权重得分分配抓取资源，针对得分较高的新闻源增加爬取数据量，反之则减少爬取数据量，基于python开源Scrapy包构建爬虫算法，定期进行数据的迭代更新；

c)针对爬取后的新闻数据，进行划分归类，主要是政治、体育、娱乐、财经等新闻类别，然后过滤掉一些无法归类和信息残缺的新闻数据；

d)构建基于词典、拼音、异形字、深度学习的敏感检测算法，对上述分好类别的新闻数据，进行敏感、不良过滤(涉黄、涉暴、广告等)；

e)最后对上述新闻数据进行脏数据的清洗、相似新闻去重，并全量字段结构化处理入库。

2.信息抽取，如图2所示，具体包括：

a)对上述处理过的新闻文本进行分句处理，基于ALBert算法将新闻标题、正文句子embedding为语义向量。以标题内容作为中心向量，利用TextRank算法对正文句子进行建模打分，得到每个句子重要程度分数；

b)使用领域词典和深度学习结合的方式进行实体识别抽取，基于ALBert+CRF的方法进行句子级别的实体关系联合抽取，获得实体和属性、实体和关系的三元组，利用TF-idf(term frequency–inverse document frequency)计算抽取出来实体在新闻语料中的得分，将实体得分进行归一化，选取得分之和大于设置值的实体词作为文本的实体词并保存整理入库；

c)利用现有的领域词典进行领域词的抽取，对获取的领域词与实体词进行去重处理，保存去重后的领域词，丰富现有词库；

d)过滤掉不包含实体词和领域词的句子，保留剩下的句子用于和词汇建立对应关系，同一个词可对应多个句子，同一句子也可对应多个词；

e)分句后进行领域事件提取，包括提取领域事件三元组，领域事件三元组抽取模型流程如图3，该任务分为触发词识别和论元识别两部分。在论元识别中，采用预训练模型BERT的微调变体RoBERTa模型(在bert的基础上采用了动态Masking策略、Next SentencePrediction以及增大训练语料和步长等优化操作)作为embedding的初始值，并且加入attention层，使得可以对长距离依赖进行建模。结合句子中抽取的事件三元组，以及上一步得到的实体词得分进行加权排序，选取得分最高的三元组作为新闻事件的描述。

3.相似词挖掘和正负样本生成，如图4所示，具体包括：

a)对上述得到的实体词和领域词进行相似词的挖掘，同时结合现有领域词典添加一些额外的领域词汇，使用word2vecter和文本相似度(编辑距离、LCS)联合来挖掘同义词、近似词，通过pypinyin、pinyin工具包来获取词汇的同音词。将得到的相似词进行人工复筛，然后取topk作为词汇衍生的相似词；

b)将包含实体词和领域词的句子作为正样本，然后将其中的实体词和领域词替换成对应的相似词得到的句子作为负样本，构成正负样本集合。另一种方法是使用文本和语音间的转换技术，将正样本句子转换成语音，然后随机加入噪音，再转换成文本，这样得到的文本也作为负样本加入到样本集。

4.知识图谱构建，如图5所示，具体包括：

a)从百科数据中获取实体和事件的补充数据，爬取各百科网站包含上述领域实体和领域事件的结构化数据，筛选、过滤后作为上述数据的补充；

b)对上述抽取出来的实体关系属性和事件数据进行图知识库构建，以实体词和事件为主体，实体间的关系、实体的各个属性、实体和事件的关系以及事件和事件的关系作为实体词和事件的属性字段构建实体和事件的知识库；

c)基于前期收集到的实体词和领域词的相似词数据及百科获取的外部数据进行指代消解，通过相关词语word2vec向量化技术进行实体消歧相关操作；

d)以领域词汇和领域事件为本体建立知识图谱，包含实体词和领域词的句子集作为词汇的延申属性，同时建立词与事件间的关系(如果词能匹配到对应事件)。

5.图知识库搜索引擎构建和纠错模型搭建，如图6所示，具体包括：

a)针对新闻领域的不同应用场景搭建不同的文本纠错模型，对语义要求不强的场景(如：政治机构纠错、政治人物纠错等)使用基于规则和统计语言模型的方法来搭建纠错模型，对于那些对语义和上下文要求比较高的场景(如：领导人语录纠错、领导人语义场景纠错等)要加入bert这些预训练语言模型了，使用规则+MacBERT这种组合方法来搭建纠错模型；

b)针对不同的应用场景和模型需求开发构建相关词汇和事件知识库检索引擎，并结合业务制定相关检索逻辑。词汇检索引擎是以词、词的相近词汇作以及词的N-gram片段(1-gram表示词中的各个字，2-gram表示词中两个字组成的片段，依次类推，N为该词的长度)作为检索的关键字来构建的，事件检索引擎则是以该事件包含的实体词和该事件的N-gram片段作为检索关键字来构建的。

c)开发封装接口服务，对于待纠错的文本，进行分词处理，并进行实体抽取及语义分析，获取上下位词语及实体关系，然后利用搜索引擎进行图谱检索；

d)对于基于规则的模型，召回待纠错词的相似词集和事件集，并计算与上下文的相似关系来选取相似得分高的topk作为正确建议；对于基于语言模型和预训练模型则需要利用数据库中的正负样本数据来训练和微调模型，然后由模型自动检测和纠错，同时结合规则纠错来给出最后的正确建议。

本发明的有益效果为：

1)多源数据爬取。针对全网数据源进行量化分析，保证了数据的可靠性和多样性。针对爬取后的数据进行脏数据的清洗和敏感数据的过滤，并且进行人工复核，大大保证了数据的高质量。

2)领域实体抽取。使用领域词典和深度学习结合的方式进行实体抽取，基于ALBERT+CRF的方法进行句子级别的实体关系联合抽取，然后通过加权得分的方式取topK(得分最高的k个)的实体词，极大地保证了提取实体词的质量。

3)领域事件抽取。基于深度学习模型对事件抽取任务进行联合训练，减少了传统方法的多级任务造成了误差传递。通过预训练模型和注意力层的添加减少，提高对长距离依赖的建模能力。采用句子三元组和实体权重的加权得分，从而获得新闻事件的描述。

4)相似词挖掘和正负样本生成。通过NLP相关的算法技术和工具包，对抽取到的领域实体词进行相似词的挖掘和包含实体词的句子生成，拓展了领域实体的延申属性，也为文本纠错提供词库和训练数据的支撑，极大地提升了纠错的能力。

5)构建领域实体和事件知识图谱形式存储领域知识，使领域知识更加结构化和层次化，提高其后续的高维护性和可扩展性。通过构建新闻领域不同场景的相关搜索引擎和纠错模型，进行更针对性、更细化地文本纠错，提升文本纠错的效果。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.基于知识图谱的新闻领域多场景文本纠错方法，其特征在于，包括：

2.根据权利要求1所述的基于知识图谱的新闻领域多场景文本纠错方法，其特征在于，步骤1中，对各大新闻网站进行数据爬取的具体方法包括：

3.根据权利要求1所述的基于知识图谱的新闻领域多场景文本纠错方法，其特征在于，步骤1中，对爬取后的新闻数据进行分类，并对分类后的数据进行过滤的具体方法包括：

4.根据权利要求1所述的基于知识图谱的新闻领域多场景文本纠错方法，其特征在于，步骤2中，所述信息抽取包括实体抽取、领域词抽取以及领域事件抽取。

5.根据权利要求4所述的基于知识图谱的新闻领域多场景文本纠错方法，其特征在于，所述实体抽取的具体方法包括：使用领域词典和深度学习结合的方式进行实体识别抽取，基于中文预训练模型与条件随机场算法进行句子级别的实体关系联合抽取，获得实体与属性，实体与关系的三元组，并计算抽取出来实体在新闻语料中的得分，将实体得分进行归一化，选取得分之和大于设置值的实体词作为新闻文本的实体词并保存整理存入数据库。

6.根据权利要求5所述的基于知识图谱的新闻领域多场景文本纠错方法，其特征在于，所述事件抽取的具体方法包括选取领域事件三元组，选取领域事件三元组的具体方法包括：

7.根据权利要求4所述的基于知识图谱的新闻领域多场景文本纠错方法，其特征在于，所述领域词抽取的具体方法包括：通过领域词典进行领域词的抽取，对获取的领域词与实体词进行去重处理，保存去重后的领域词。

8.根据权利要求1所述的基于知识图谱的新闻领域多场景文本纠错方法，其特征在于，步骤3中，得到正样本的具体方法包括：将包含实体词和领域词的句子作为正样本。

9.根据权利要求8所述的基于知识图谱的新闻领域多场景文本纠错方法，其特征在于，得到负样本的具体方法包括：将正样本中的实体词和领域词替换成对应的相似词得到的句子作为负样本；或将正样本句子转换成语音，然后随机加入噪音，再转换成文本，转换成的文本即为负样本。

10.根据权利要求1所述的基于知识图谱的新闻领域多场景文本纠错方法，其特征在于，步骤4中，根据实体关系属性与事件数据构建新闻领域图谱知识库的具体方法包括：