CN110569345B

CN110569345B - 一种基于实体链接和关系预测的时政知识智能问答方法

Info

Publication number: CN110569345B
Application number: CN201910831731.3A
Authority: CN
Inventors: 朱全银; 倪欣; 周泓; 马天龙; 苏力
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2022-07-29
Anticipated expiration: 2039-09-04
Also published as: CN110569345A

Abstract

本发明公开了一种基于实体链接和关系预测的时政知识智能问答方法，首先使用爬虫技术建立时事政治生语料库，然后构建时事政治知识图谱；接着使用自然语言处理技术抽取问句中的实体，并在时政知识图谱中进行实体链接；对抽取出中心词后的问句进行关系预测，形成在时政知识图谱中的三元组目标实体查询关系；用Cypher查询语句在时政知识图谱中进行目标实体查询，最后将查询到的知识图谱中的目标实体作为回答输出。本发明可有效辅助学生进行时政知识的学习。

Description

一种基于实体链接和关系预测的时政知识智能问答方法

技术领域

本发明属于智能问答技术领域，特别涉及一种基于实体链接和关系预测的时政知识智能问答方法。

背景技术

2019年2月28日，中国互联网络信息中心(CNNIC)公布的第43期《中国互联网络发展状况统计报告》显示，到2018年12月为止，中国在线教育在线用户数量为2.01亿，相较于2017年增长了29.7％，而在线教育的使用也提高了4.2％的比例，达到了24.3％的新高峰，网络辅助学习成为一个不可或缺的学习方式。

然而，现在市场上很多包括百度、Google等在内的基于字符串匹配的搜索引擎，搜索到目标结果的效率过低，首先是因为目前的网络数据规模空前未有，其次是因为检索体系的原因，根据自然语言检索出成千上万的相关结果，但是目标答案难以准确获得。在信息快速发展的今天，低效的搜索引擎已经不能满足用户的使用需求，能够开发出能够理解用户搜索意图的搜索引擎迫在眉睫，正如美国华盛顿大学图灵实验室的ETtzioni教授指出“问答系统是下一代搜索引擎的基本形态”，它能够提供更为精准的信息服务，因而由字符串匹配层面到实体表示层面的过渡成为理所应当。基于此，基于自然语言处理技术的问答系统的研究成为自然语言处理中智能交互的一个重要研究方向。

目前我国已知的语料库没有时事政治相关的。只有一些专业型方向上的信息语料库(例如北京语言大学HSK动态作文语料库、汉字偏误数据资料库、平衡语料库等)，并且预测的数据也较为简单，没有从时政人物关系、新闻实事、文汇学习、理论解读等多角度综合起来去分析。

所以，本设计将最新政治的新闻动向、文献等诸多时政素材整合成为可以用于处理的数据集，通过实体链接，关系预测等技术，设计出辅助学生学习时政的时政智能问答方法，提高学生对时政的关注度和兴趣。

发明内容

发明目的：针对上述问题，本发明提供基于一种基于实体链接和关系预测的时政知识智能问答方法，通过实体链接和关系预测任务，将问句抽取得到实体链接到时政知识图谱中的实体，再使用编解码结构的神经网络，根据自然语言问题预测出该问题所对应的关系，设计出对时政知识能进行智能问答的方法。

技术方案：本发明提出一种基于实体链接和关系预测的时政知识智能问答方法，包括如下步骤：

(1)构建时政语料数据库和时事政治知识图谱；

(2)使用自然语言处理技术抽取问句中的实体，并在时政知识图谱中进行实体链接；

(3)对抽取出中心词后的问句进行关系预测，形成在时政知识图谱中的三元组目标实体查询关系；

(4)用Cypher查询语句在时政知识图谱中进行目标实体查询，最后将查询到的知识图谱中的目标实体作为回答输出。

进一步的，所述步骤(1)中构建时政语料数据库的具体步骤如下：

运用爬虫技术从重要活动数据集、重要会议数据集、重要讲话数据集、出国访问数据集、指示批示数据集、生态文明数据集、国家部门发布的讲坛、文献知识数据集等，爬取其中的标题、新闻发布时间、新闻来源、正文内容、编辑和类别，表示为GT_g＝{tg₁,tg₂,tg₃,tg₄,tg₅,tg₆}。

进一步的，所述步骤(2)中对问句进行实体识别，进行实体链接的具体步骤如下：

设对问句抽取得到的每个实体包含K个潜在的约束关系，为每一个约束关系赋予一个描述对(q_i,q_j)，然后对每一个描述对乘以一个权重α_ijk，计算每个约束关系的加权得分，得到问句文本中的实体链接到正确的知识图谱中的实体指称项。

进一步的，所述步骤(3)中关系预测使用编解码结构的神经网络的具体步骤如下：

(3.1)Encoder端使用两层堆叠的GRU层，hidden_size为256，在编码阶段，一层计算前向特征参数，一层计算后向特征参数，然后将前向和后向的特征参数求和作为Decoder端的输入；

(3.2)在Decoder端采用单向的GRU层，hidden_size为256，在解码阶段，通过对标记“_GO”和“_EOS”来判断输入文本的开始和结束，从而对真正的文本内容进行解码；在对解码阶段进行训练时，该模型根据给定文本序列的隐藏表示向量以及先前得到的词，预测输出句子的最大似然化。

进一步的，所述步骤(4)中用Cypher查询语句在时政知识图谱中进行目标实体查询，最后将查询到的知识图谱中的目标实体作为回答输出的具体步骤如下：

查询通过步骤(2)和步骤(3)处理后，形成一条知识图谱中的目标实体查询关系，然后用带问号的三元组形式表述；然后使用查询语句时政知识图谱中进行目标实体查询；最后将查询到的知识图谱中的目标实体作为回答输出。

本发明采用上述技术方案，具有以下有益效果：

本发明利用爬虫技术自建了时政领域的知识图谱，为特定领域特别是学校领域提供一种时政知识的智能问答方法，具体描述如下：本发明利用实体链接技术，消除异构数据中的实体冲突、实体间指向不明晰等实体间的指向二义性问题；利用关系预测模型，根据自然语言问题预测出该问题所对应的关系，因而该技术是整个智能问答过程中至关重要的一步。基于设计的学校领域时政知识智能问答方法，可以应用于时政辅助学习系统的构建。

附图说明

图1为本发明的总体流程图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，本发明所述的一种基于实体链接和关系预测的时政知识智能问答方法，包括如下步骤：

步骤1：利用爬虫技术按照设计的格式构建时政语料数据库，构建出时事政治知识图谱；

步骤1.1：运用爬虫技术从重要活动数据集、重要会议数据集、重要讲话数据集、出国访问数据集、指示批示数据集、生态文明数据集、国家部门发布的讲坛、文献知识数据集等爬取其中的标题、新闻发布时间、新闻来源、正文内容、编辑和类别，表示为GT_g＝{tg₁,tg₂,tg₃,tg₄,tg₅,tg₆}；

步骤2：使用自然语言处理技术抽取问句中的实体，并在时政知识图谱中进行实体链接；

步骤2.1：运用BiLSTM-CRF模型抽取方法抽取问句中的实体；

步骤2.2：设对问句抽取得到的每个实体包含K个潜在的约束关系，为每一个约束关系赋予一个描述对(q_i,q_j)，然后对每一个描述对乘以一个权重α_ijk，计算每个约束关系的加权得分，得到问句文本中的实体链接到正确的知识图谱中的实体指称项；

步骤3：对抽取出中心词后的问句进行关系预测，形成在时政知识图谱中的三元组目标实体查询关系；

步骤3.1：Encoder端使用两层堆叠的GRU层，hidden_size为256，在编码阶段，一层计算前向特征参数，一层计算后向特征参数，然后将前向和后向的特征参数求和作为Decoder端的输入；

步骤3.2：在Decoder端采用单向的GRU层，hidden_size为256，在解码阶段，通过对标记“_GO”和“_EOS”来判断输入文本的开始和结束，从而对真正的文本内容进行解码。在对解码阶段进行训练时，该模型根据给定文本序列的隐藏表示向量以及先前得到的词，来预测输出句子的最大似然化。

步骤4：用Cypher查询语句在时政知识图谱中进行目标实体查询，最后将查询到的知识图谱中的目标实体作为回答输出；

步骤4.1：通过步骤(2)和步骤(3)处理后，会形成一条知识图谱中的目标实体查询关系，这里用带问号的三元组形式表述。即可使用查询语句时政知识图谱中进行目标实体查询。最后将查询到的知识图谱中的目标实体作为回答输出。

Claims

1.一种基于实体链接和关系预测的时政知识智能问答方法，其特征在于，包括如下步骤：

(1)构建时政语料数据库和时事政治知识图谱，包括：运用爬虫技术从重要活动数据集、重要会议数据集、重要讲话数据集、出国访问数据集、指示批示数据集、生态文明数据集、国家部门发布的讲坛、文献知识数据集，爬取其中的标题、新闻发布时间、新闻来源、正文内容、编辑和类别，表示为GT_g＝{tg₁,tg₂,tg₃,tg₄,tg₅,tg₆}；

(2)使用自然语言处理技术抽取问句中的实体，并在时政知识图谱中进行实体链接，包括：设对问句抽取得到的每个实体包含K个潜在的约束关系，为每一个约束关系赋予一个描述对(q_i,q_j)，然后对每一个描述对乘以一个权重α_ijk，计算每个约束关系的加权得分，得到问句文本中的实体链接到正确的知识图谱中的实体指称项；

(3)对抽取出中心词后的问句进行关系预测，形成在时政知识图谱中的三元组目标实体查询关系，包括：

(3.2)在Decoder端采用单向的GRU层，hidden_size为256，在解码阶段，通过对标记“_GO”和“_EOS”来判断输入文本的开始和结束，从而对真正的文本内容进行解码；在对解码阶段进行训练时，模型根据给定文本序列的隐藏表示向量以及先前得到的词，预测输出句子的最大似然化；

2.根据权利要求1所述的一种基于实体链接和关系预测的时政知识智能问答方法，其特征在于，所述步骤(4)中用Cypher查询语句在时政知识图谱中进行目标实体查询，最后将查询到的知识图谱中的目标实体作为回答输出的具体步骤如下：