CN112597316B

CN112597316B - 一种可解释性推理问答方法及装置

Info

Publication number: CN112597316B
Application number: CN202011609499.8A
Authority: CN
Inventors: 洪万福; 钱智毅; 王旺
Original assignee: Xiamen Yuanting Information Technology Co ltd
Current assignee: Xiamen Yuanting Information Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2023-12-26
Anticipated expiration: 2040-12-30
Also published as: CN112597316A

Abstract

本发明提供了一种可解释性推理问答方法及装置，包括：根据待回答的问题，构建所述问题相关领域的知识图谱；将所述知识图谱转化为图结构，并预测所述图结构中实体与实体之间的语义关系；基于所述语义关系，获取实体之间的逻辑规则；基于所述逻辑规则，补全所述知识图谱；根据待回答的问题，基于补全的所述知识图谱，获取所述问题的答案。本公开通过运用规则进行关系推理,达到知识图谱补全的目标，从而增加推理过程的可解释性，让问答系统回答的更加准确，提高用户体验。

Description

一种可解释性推理问答方法及装置

技术领域

本发明涉及问答方法，尤其涉及一种可解释性推理问答方法及装置。

背景技术

智能回答系统一直是Al领域的一个热门话题，而最近随着众多知识库的发展又促进了这一任务的实现。然而，由于语言和知识的多样性和复杂性，基于知识库问答的推理工作仍然是一个具有挑战性的任务，其中基于知识图谱的问答系统也越来越受大家关注。知识图谱的完备性和正确性也愈发重要。尽管当前知识图谱中蕴含着数以亿计的事实，但是知识图谱中的知识还远不够完备。例如，在大规模知识库Freebase中,有超过90％的人物其基本信息都是不完整的，缺失的一-些信息包括国籍、兄弟、姐妹、子女、职业、出生地等等。此外，在信息抽取过程中，由于数据来源复杂，知识错误的可能性很大，而这些信息本身也很难利用互联网上现有的开放数据获得，这种情况使得知识图谱完备性不够，影响问答系统回答的准确性，降低了用户体验。

发明内容

为了解决上述技术问题的至少一个，本发明提供了一种可解释性推理问答方法及装置。

本发明的技术方案是这样实现的：

一种可解释性推理问答方法，包括：

根据待回答的问题，构建所述问题相关领域的知识图谱；

将所述知识图谱转化为图结构，并预测所述图结构中实体与实体之间的语义关系；

基于所述语义关系，获取实体之间的逻辑规则；

基于所述逻辑规则，补全所述知识图谱；

根据待回答的问题，基于补全的所述知识图谱，获取所述问题的答案。

进一步地，所述预测所述图结构中实体与实体之间的语义关系，包括：

以所述图结构中的每个实体分别对应设置为一个节点，以所述实体与实体之间的关系为边，基于所述节点之间的关系路径所蕴含的信息，挖掘实体之间的多步路径；基于所述多步路径，预测实体之间的语义关系。

进一步地，所述基于每个所述语义关系，获取实体之间的逻辑规则，包括：

基于随机游走的规则挖掘模型，计算图结构中实体之间随机游走的转移概率，将随机游走路径形式化为推理规则；

对所述推理规则进行规则扩展，增加所述推理规则的数量；

对所有所述推理规则进行清洗和修剪，获得适用于推理的逻辑规则。

进一步地，所述对所述推理规则进行规则扩展，增加所述推理规则的数量，包括：

将所述推理规则的二元特性作为附件信息，通过关系运算增加所述推理规则的数量。

进一步地，所述对所有所述推理规则进行清洗和修剪，获得适用于推理的逻辑规则，包括：

基于支持度、置信度、交叉度、以及头部覆盖率，对所述推理规则进行评分，基于评分对所述推理规则进行清洗和修剪。

进一步地，所述构建所述问题相关领域的知识图谱，包括：

基于爬虫技术，从互联网获取所述问题相关领域的非结构化文本数据；

对所述文本数据进行命名实体识别和关系抽取，以获取所述文本数据中的实体对，并抽取其相互的语义关系；

基于识别的命名实体的上下文信息和抽取的其相对应的语义关系，对所述知识中，属于同一命名实体的相关知识进行知识融合；

将知识融合后的文本数据，以三元组的形式导入图形数据库，构建知识图谱。

进一步地，所述基于所述逻辑规则，补全所述知识图谱，包括：

基于聚类算法，将所有所述逻辑规则，根据语义关系的相似原则分别聚类划分为数个类簇；

结合所述知识图谱中现有的信息，根据相应类簇的逻辑规则，推理出知识图谱中缺失的信息。

进一步地，所述基于所述逻辑规则，补全所述知识图谱，还包括：

基于所述逻辑规则，结合马尔科夫逻辑网，构建推理网络；

基于所述推理网络，补全所述知识图谱。

一种可解释性推理问答装置，包括：

知识图谱构建模块，用于根据待回答的问题，构建所述问题相关领域的知识图谱；

查询推理模块，用于挖掘所述知识图谱的实体之间的逻辑规则，并利用所述逻辑规则补全所述知识图谱；

自然语言问答模块，用于基于补全的所述知识图谱，推理所述问题的答案。

进一步地，所述查询推理模块包括：

知识图谱查询模块，用于查询实体以及实体之间的关系在所述知识图谱中的位置，以该位置查询其上下文信息，并基于可视化的图形数据库的结构化查询语言，对知识图谱进行搜索；

实体关系推理模块，基于所述知识图谱中缺失的三元组信息，根据所述逻辑规则，推理所述知识图谱中缺失的实体、以及实体之间的关系，补全所述知识图谱。

附图说明

附图示出了本发明的示例性实施方式，并与其说明一起用于解释本发明的原理，其中包括了这些附图以提供对本发明的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是本公开的可解释性推理问答方法的流程示意图；

图2是本公开的可解释性推理问答装置的结构示意图。

具体实施方式

下面结合附图和实施方式对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本发明。

需要说明的是，文中的步骤编号，仅为了方便具体实施例的解释，不作为限定步骤执行先后顺序的作用。本实施例提供的方法可以由相关的服务器执行，且下文均以服务器作为执行主体为例进行说明。

实施例一

参照图1，本实施例提供一种可解释性推理问答方法，包括：

根据待回答的问题，构建所述问题相关领域的知识图谱；

基于所述语义关系，获取实体之间的逻辑规则；

基于所述逻辑规则，补全所述知识图谱；

根据待回答的问题，基于补全的所述知识图谱，在知识图谱中推理出最有回答，获取所述问题的答案。

本公开针对现有知识图谱不完备的问题，通过研究知识图谱中知识实体之间潜在的语义和结构特征，进而挖掘实体之间的逻辑规则，并利用逻辑规则，补全知识图谱，这种基于本体的推理方法能够有效补全知识图谱中缺失的信息，使得知识图谱所包含的知识更加完备，也能让问答系统回答的更加准确，提高用户体验，而知识图谱推理补全的过程又增加了推理过程的可解释性。

通常情况，实体和关系推理是通过一些给定的信息，例如以缺失的三元组的形式给定不服信息，利用这些信息推理出三元组中缺失部分信息。作为本实施例的优选实施方式，所述预测所述图结构中实体与实体之间的语义关系，可通过路径排序算法来实现，路径排序算法是随机游走算法比较好的实现之一，通过将图结构中的每个实体分别对应设置为一个节点，以所述实体与实体之间的关系为边，基于所述节点之间的关系路径所蕴含的信息，挖掘实体之间的多步路径；基于所述多步路径，预测实体之间的语义关系。

作为本实施例的优选实施方式，基于每个所述语义关系，获取实体之间的逻辑规则包括：

对所述推理规则进行规则扩展，增加所述推理规则的数量；

所述对所述推理规则进行规则扩展，增加所述推理规则的数量，包括：

其中，二元特性包括：传递性、对称性、反对称性、自反性、反自反性和等价性。二元关系特性可由关系性质定义，设R为A上的关系，I_A代表集合A，则

(1)R在A上自反当且仅当

(2)R在A上反自反当且仅当R∩I_A＝Φ；

(3)R在A上对称当且仅当R＝R^-1；

(4)R在A上反对称当且仅当

(5)R在A上传递当且仅当

(6)R在A上等价当且仅当R＝R'；

关系运算可以有替换和加法两种方式，对称关系的扩展是显而易见的，例如，对于对称规则“isMarriedTo(x,y)—isMarried(y,x)”。原始规则“hasChild(x,y)+isMarriedTo(x,z)→hasChild(z,y)”,通过应用关系运算的替换方法，可以扩展以下五条规则：

(1)isMarriedTo(x,z)+hasChild(x,y)→hasChild(z,y)

(2)isMarriedTo(z,x)+hasChild(x,y)→hasChild(z,y)

(3)isMarriedTo(z,x)+hasChild(z,y)→hasChild(x,y)

(4)hasChild(x,y)+hasChild(z,y)→isMarriedTo(x,z)

(5)hasChild(x,y)+hasChild(z,y)→isMarriedTo(z,x)

通过原始规则加上规则的特性，可以获得更多在推理阶段非常有用的等价规则，基于关系的二元特性，能够有效地解决变量顺序带来的推理效率和准确率问题。

针对基于知识库挖掘的推理规则数量有限的问题，本文利用有限的规则扩展学习数量庞大且准确的推理规则，提出将关系二元特性应用于推理规则的扩展学习过程，消除推理规则中变量顺序对推理规则应用的影响，扩大推理规则应用范围。

本实施例通过支持度、置信度、交叉度、以及头部覆盖率等四个指导因子，来刻画知识图谱中隐含的有益信息，基于“规则中关系得分越高，则规则准确性越高”的假设，提高规则的置信度，从而生成适用于推理的逻辑规则；提高逻辑规则的准确率。

其中，支持度指能够正确进行预测的规则数量的一种量化，在知识图谱中，一条规则所包含的知识图谱中不同的实例化实体对的数量，数量越多，说明被验证频率越高，规则可信度和准确性就越高。

置信度是规则用于推理时的可信性的一种量化，在规则挖掘任务中，将置信度定义为：不同的实例化实体对出现在一条规则的数量(即支持度)占所有规则体总数的比率。

交叉度用来衡量候选规则头中关系谓词与规则体中关系谓词的共现程度，即当出现规则头中的关系词时，规则体中的关系词出现的概率，交叉度在一定程度上衡量了规则的专一性。

头部覆盖度是计算每一个头部关系词出现的次数，然后使用该关系词的支持度在头部关系词数量中所占的比例作为衡量指标。

作为本施例的优选实施方式，所述构建所述问题相关领域的知识图谱，包括：

基于爬虫技术，从互联网获取所述问题相关领域的非结构化文本数据；为了降低无关网页的爬取量，可以有选择的针对特定行业信息进行最佳优先搜索的爬取方法。预处理方面有去除无效或重复字符，去除转义符，使用正则等处理形式进行消歧，规范数据格式。

对所述文本数据进行命名实体识别和关系抽取，以获取所述文本数据中的实体对，并抽取其相互的语义关系；命名实体识别和关系抽取，通过利用有标注的数据来训练合适的标注模型，从而用其对句子进行标注，常见的模型有马尔科夫模型和条件随机场。关系抽取的目的是从文本中识别出命名实体后识别出实体对并抽取其相互的语义关系，有三种主要技术，分别是有监督学习、半监督学习和无监督学习。有监督学习方法是用分类的方法来完成关系抽取任务，根据训练出来的分类器，从而能够在多轮训练之后预测未标记语料的关系。半监督的信息抽取是利用完成的知识图谱来帮助训练自己的模型，利用迭代的方式从其他未标记数据中抽取关系对应的关系模板以及发现更多的自动标注数据。无监督的信息抽取方法利用概率学基础，认为一个实体在不同语料中有相同的语义关系，那么他们很可能同时拥有相同的上下文信息。

基于识别的命名实体的上下文信息和抽取的其相对应的语义关系，对所述知识中，属于同一命名实体的相关知识进行知识融合；在知识获取时，通过爬虫技术从不同的知识库获取同一知识信息，需要的知识进行融合并存储，实际上是将两个或多个知识图谱进行合并，并进行实体对齐、本体匹配等。

将知识融合后的文本数据，以三元组的形式导入图形数据库，构建知识图谱，其中图形数据库采用Neo4j等图形数据库中。Neo4j是一个高性能的,NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。

作为实施例的优选实施方式，所述基于所述逻辑规则，补全所述知识图谱，包括：

本实施例中，利用潜在语义相似性，将规则划分到不同簇，再通过可视化界面展示出来，以提高推理效率和推理过程的可解释性。

使用语义关系的聚类算法的目的在于使类内元素的同质性最大化和类间元素的异质性最大化。规则聚类的好处在于，当局部图中涉及的关系为某一类关系时，可以运用该类别下的规则进行推理，而非应用全部规则进行剪枝。规则聚类使得同类别的规则语义相关性强，不同类别之间语义相关性弱，例如，类簇A表示家庭关系所产生的规则，类簇B表示工作关系所产生的推理规则。规则聚类根据语义聚类,语义相似性作为人工智能中各类任务的首要特性，与聚类算法结合使用，可以用来指导规则聚类过程。语义相似性可以衡量两条规则之间的相似性，然后将语义相近的规则聚到同一个类簇中，便于后续推理。

本实施例为应用推理规则推理出隐含知识，在知识图谱上进行信息补全，所述基于所述逻辑规则，补全所述知识图谱，还包括：

基于所述逻辑规则，结合马尔科夫逻辑网，构建推理网络，包括权重学习和结构学习，并基于所述推理网络，补全所述知识图谱。

本实施例利用马尔科夫逻辑网构建一个高效的推理网络，马尔科夫逻辑网是马尔科夫网络模型和一阶谓词逻辑结合的产物，是一个强大的机器学习框架，该框架运用被赋予权重的一阶谓词逻辑准则作为知识图谱，指导推理过程。一阶谓词逻辑本身是可以进行推理的，但这种推理模式过于严谨。在一阶谓词逻辑的认知中，准则是绝对对立的。而马尔科夫逻辑网将这种非黑即白的硬性约束转化为一种软性约束，给出的是概率，这种概率即代表事件为真的可能性，而非直接判断它的对错。相比于一阶谓词逻辑，马尔科夫逻辑网能够更好地处理知识图谱中存在的矛盾与不确定性，相比于概率图模型，马尔科夫逻辑网的特征表示方式更加简洁有效。

总的来说，本公开通过在特定知识图谱中知识之间潜在的语义和结构特征，利用随机游走模型进行原始规则挖掘，提出支持度、置信度、交叉度以及头部覆盖率这四个指导因子来指导规则挖掘过程，将反馈神经网络应用于规则挖掘结果的评分。本文基于“规则中关系得分越高，则规则准确性越高”的假设，提高规则的置信度，从而生成适用于推理的逻辑规则；针对规则数量有限等问题，本文提出将关系二元特性，如对称性、传递性等性质应用于规则扩展中，运用函数约束进行规则计算，扩展更多规则。在规则聚类中，将语义相似的规则划分到一个簇中，以提高推理效率；为构建高效的推理网络，本文对马尔科夫逻辑网络进行建模，将规则库应用于知识图谱,运用规则进行关系推理,达到知识图谱补全的目标，从而增加推理过程的可解释性，让问答系统回答的更加准确，提高用户体验。

实施例二

参照图2，本实施例提供一种可解释性推理问答装置，包括：

知识图谱构建模块，用于根据待回答的问题，构建所述问题相关领域的知识图谱；所述知识图谱构建模块包括知识抽取、知识表示和知识融合。知识抽取又分为：非结构化数据清洗、命名实体识别、关系抽取。本系统构建中文知识图谱时，在数据处理方面使用爬虫框架，在知识抽取部分使用基于序列和树结构的端到端的模型，经过知识融合，最后利用可视化的图形数据库来存储知识三元组。

自然语言问答模块，用于基于补全的所述知识图谱，推理所述问题的答案，同时针对知识图谱信息缺失、存在错误知识等问题，建立基于推理规则的知识图谱补全方案。

所述查询推理模块包括：

实体关系推理模块，基于所述知识图谱中缺失的三元组信息，根据所述逻辑规则，推理所述知识图谱中缺失的实体、以及实体之间的关系，补全所述知识图谱，其主要利用基于实体和关系的向量化表示来进行推理。

本实施例的原理和效果与实施例一中的一致，本实施例不再重复描述。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本发明，而并非是对本发明的范围进行限定。对于所属领域的技术人员而言，在上述发明的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本发明的范围内。

Claims

1.一种可解释性推理问答方法，其特征在于，包括：

根据待回答的问题，构建所述问题相关领域的知识图谱；

将所述推理规则的二元特性作为附件信息，通过关系运算增加所述推理规则的数量；

对所有所述推理规则进行清洗和修剪，获得适用于推理的逻辑规则；

结合所述知识图谱中现有的信息，根据相应类簇的逻辑规则，推理出知识图谱中缺失的信息；

基于所述逻辑规则，结合马尔科夫逻辑网，构建推理网络；基于所述推理网络，补全所述知识图谱；

2.如权利要求1所述的方法，其特征在于，

所述预测所述图结构中实体与实体之间的语义关系，包括：

3.如权利要求1或2所述的方法，其特征在于，

所述构建所述问题相关领域的知识图谱，包括：

对所述文本数据进行命名实体识别和关系抽取，以获取所述文本数据中的实体对，并抽取实体对相互的语义关系；

基于识别的命名实体的上下文信息和抽取的实体对相对应的语义关系，对所述知识中，属于同一命名实体的相关知识进行知识融合；

4.一种用于如权利要求1-3任一项所述可解释性推理问答方法的装置，其特征在于，包括：

查询推理模块，用于挖掘所述知识图谱的实体之间的逻辑规则，并基于聚类算法，将所有所述逻辑规则，根据语义关系的相似原则分别聚类划分为数个类簇；结合所述知识图谱中现有的信息，根据相应类簇的逻辑规则，推理出知识图谱中缺失的信息；基于所述逻辑规则，结合马尔科夫逻辑网，构建推理网络；基于所述推理网络，补全所述知识图谱；

5.如权利要求4所述的装置，其特征在于，所述查询推理模块包括：

用户输入要查询的实体或者关系，系统返回知识图谱中已存在的三元组信息，若没有返回结果，则以输入语句中缺失的三元组信息，通过已有的逻辑规则，推理所述知识图谱中缺失的实体、以及实体之间的关系，补全所述知识图谱。