CN116401353A

CN116401353A - 一种结合内部与外部知识图谱的安全多跳问答方法及系统

Info

Publication number: CN116401353A
Application number: CN202310387064.0A
Authority: CN
Inventors: 王平辉; 蔡林熹
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-07-07

Abstract

本发明提供了一种结合内部与外部知识图谱的安全多跳问答方法及系统，属于多跳问答领域，根据内部知识图谱与外部知识图谱进行联合训练，构建联合表示学习子系统；基于所述联合表示学习子系统，获取实体表示与关系表示；基于所述内部知识图谱，通过语言编码模型与序列编码模型，构建问题编码解码子系统；获取多跳推理路径；基于所述多跳推理路径，以及，所述联合表示学习子系统所获取的所述实体表示与所述关系表示，构建安全知识检索子系统；当从私人端向所述安全知识检索子系统输入多跳问题，获取所述多跳问题对应的正确答案。通过本发明提供的方法，不仅可以在保证隐私的情况下实现在多个知识图谱上完成问答推理，还可以提高查询效率。

Description

一种结合内部与外部知识图谱的安全多跳问答方法及系统

技术领域

本发明属于多跳问答领域，具体涉及一种结合内部与外部知识图谱的安全多跳问答方法及系统。

背景技术

知识图谱(Knowledge Graph)通过三元组的形式结构化存储海量的信息，将互联网数据表达成客观可认知的语义表示，具有强大的语义表达能力。基于知识图谱的问答系统利用其丰富的结构化信息，通过理解用户的自然语言问题，给出准确的答案，在医疗、金融、电商等多个领域都显示出了重要的应用价值。而在实际应用场景中，用户更倾向于表达复杂的多跳问题，因此多跳问答的研究是一项重要的任务。

而私人构建的知识图谱往往是不完整的，这是由于构建知识图谱本身是一件极具挑战性的工作，例如本体设计，知识标注都需要专家知识作为支撑，训练知识抽取模型需要一定的成本。因此针对用户的复杂问题进行推理时容易受到很大的限制，例如当单一知识图谱中不包含能够定位答案的正确推理路径或用户所期待的答案时，依赖单一知识图谱很难得到正确的答案。

发明内容

鉴于上述问题，本发明实施例提供了一种结合内部与外部知识图谱的安全多跳问答方法、系统、电子设备及存储介质，以便克服上述问题或者至少部分地解决上述问题。

本发明实施例第一方面，提供了一种结合内部与外部知识图谱的安全多跳问答方法，所述方法包括：

根据内部知识图谱与外部知识图谱进行联合训练，构建联合表示学习子系统；

基于所述联合表示学习子系统，获取实体表示与关系表示；其中，所述实体表示包括所述内部知识图谱的内部实体表示与所述外部知识图谱的外部实体表示，所述关系表示包括所述内部知识图谱的内部关系表示与所述外部知识图谱的外部关系表示；

基于所述内部知识图谱，通过语言编码模型与序列编码模型，构建问题编码解码子系统；

基于所述问题编码解码子系统，获取多跳推理路径；

基于所述多跳推理路径，以及，所述联合表示学习子系统所获取的所述实体表示与所述关系表示，构建安全知识检索子系统；

当从私人端向所述安全知识检索子系统输入多跳问题，获取所述多跳问题对应的正确答案。

可选地，所述根据内部知识图谱与外部知识图谱进行联合训练，构建联合表示学习子系统，包括：

获取所述内部知识图谱的内部关系列表，以及所述外部知识图谱的外部关系列表；

基于所述内部关系列表与所述外部关系列表，获取公有关系列表；

基于所述公有关系列表，通过正交普鲁克问题构建联合表示学习子系统。

可选地，所述基于所述联合表示学习子系统，获取实体表示与关系表示，包括：

基于所述联合表示学习子系统，构建实体与公有关系的约束条件；

基于所述约束条件，获取关系生成因子；

基于所述关系生成因子，获取计算关系嵌入矩阵；

基于所述关系嵌入矩阵与所述约束条件进行训练，获取所述实体表示与所述关系表示。

可选地，所述基于所述内部知识图谱，通过语言编码模型与序列编码模型，构建问题编码解码子系统，包括：

基于所述内部知识图谱，获取问答训练数据；

基于所述问答训练数据，抽取自然语言问题与对应的主题实体及答案；

基于所述自然语言问题，通过所述语言编码模型与所述序列编码模型，获取所述自然语言问题的预测路径；

基于所述主题实体及所述答案，以所述内部知识图谱中的最短路径为弱监督标签，生成所述主题实体与所述答案的关系序列；其中，在所述内部知识图谱中存在多个相同最短路径的情况下，以出现频率最高的所述最短路径为所述弱监督标签；

基于所述预测路径与所述关系序列，更新所述语言编码模型与所述序列编码模型；

基于更新后的所述语言编码模型与所述序列编码模型，构建所述问题编码解码子系统。

可选地，基于所述多跳推理路径，以及，所述联合表示学习子系统所获取的所述实体表示与所述关系表示，构建安全知识检索子系统，包括：

对所述实体表示与所述关系表示进行乘积量化压缩，获取乘积量化码书；

基于所述实体表示，获取所述实体表示对应的倒排索引；

基于所述倒排索引，获取所述倒排索引对应向量列表集合；

基于所述多跳推理路径，以及所述向量列表集合、所述倒排索引、所述乘积量化码书，构建所述安全知识检索子系统。

可选地，当从私人端向所述安全知识检索子系统输入多跳问题时，所述安全知识检索子系统输出所述多跳问题对应的正确答案，包括：

基于所述安全知识检索子系统，将所述多跳问题转化为多个查询向量；

通过对所述多个查询向量进行距离计算与非对称距离计算，获取多个所述查询向量对应的最近邻实体嵌入表示；

基于所述最近邻实体嵌入表示，获取所述正确答案。

本发明实施例第二方面，提供了一种结合内部与外部知识图谱的安全多跳问答系统，所述系统包括：

第一构建模块，用于根据内部知识图谱与外部知识图谱进行联合训练，构建联合表示学习子系统；

第一获取模块，用于基于所述联合表示学习子系统，获取实体表示与关系表示；其中，所述实体表示包括所述内部知识图谱的内部实体表示与所述外部知识图谱的外部实体表示，所述关系表示包括所述内部知识图谱的内部关系表示与所述外部知识图谱的外部关系表示；

第二构建模块，用于基于所述内部知识图谱，通过语言编码模型与序列编码模型，构建问题编码解码子系统；

第二获取模块，用于基于所述问题编码解码子系统，获取多跳推理路径；

第三构建模块，用于基于所述多跳推理路径，以及，所述联合表示学习子系统所获取的所述实体表示与所述关系表示，构建安全知识检索子系统；

第三获取模块，用于当从私人端向所述安全知识检索子系统输入多跳问题，获取所述多跳问题对应的正确答案。

可选地，第一构建模块，包括：

第一构建子模块，用于获取所述内部知识图谱的内部关系列表，以及所述外部知识图谱的外部关系列表；

可选地，第一获取模块，包括：

第一获取子模块，用于基于所述联合表示学习子系统，构建实体与公有关系的约束条件；

基于所述约束条件，获取关系生成因子；

基于所述关系生成因子，获取计算关系嵌入矩阵；

可选地，第二构建模块，包括：

基于所述内部知识图谱，获取问答训练数据；

可选地，第三构建模块，包括：

第三构建子模块，用于对所述实体表示与所述关系表示进行乘积量化压缩，获取乘积量化码书；

基于所述实体表示，获取所述实体表示对应的倒排索引；

基于所述倒排索引，获取所述倒排索引对应向量列表集合；

可选地，第三获取模块，包括：

第三获取子模块，用于基于所述安全知识检索子系统，将所述多跳问题转化为多个查询向量；

基于所述最近邻实体嵌入表示，获取所述正确答案。

本发明实施例第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现如本发明实施例第一方面所述的结合内部与外部知识图谱的安全多跳问答中的步骤。

本发明实施例第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例第一方面所述的结合内部与外部知识图谱的安全多跳问答的步骤。

通过本发明提供的方法，首先根据内部知识图谱与外部知识图谱进行联合训练，构建联合表示学习子系统，获取实体表示与关系表示，可以将内部知识图谱与外部知识图谱联合起来，扩大检索多跳问题答案的检索范围，提高准确率与精确度，然后通过内部知识图谱，通过语言编码模型与序列编码模型，构建问题编码解码子系统，获取多跳推理路径，再通过多跳推理路径，以及，实体表示与关系表示，构建安全知识检索子系统；可以保证私人端的隐私，最后当从私人端向安全知识检索子系统输入多跳问题，获取多跳问题对应的正确答案。

通过本发明提供的方法，不仅能够在多个知识图谱上进行知识图谱问答推理，提高了知识图谱问答系统准确率，也可以在查询的过程中提高查询效率，还可以保障私人端查询数据的隐私以及查询结果的隐私。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种结合内部与外部知识图谱的安全多跳问答方法的步骤流程图；

图2是本发明实施例提供的一种结合内部与外部知识图谱的安全多跳问答方法的系统结构示意图；

图3是本发明实施例提供的一种联合表示学习子系统的示意图；

图4是本发明实施例提供的一种问题编码解码子系统的示意图；

图5是本发明实施例提供的一种安全知识检索子系统的示意图；

图6是本发明实施例提供的一种结合内部与外部知识图谱的安全多跳问答系统的示意图；

图7是本发明实施例提供的一种电子设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图更详细地描述本发明的示例性的实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

实施例一

参照图1，图1是本发明实施例提供的一种结合内部与外部知识图谱的安全多跳问答方法的步骤流程图；所述方法步骤流程包括：

步骤S101：根据内部知识图谱与外部知识图谱进行联合训练，构建联合表示学习子系统。

在本实施例中，主要是针对内部知识图谱不完整性的问题，相关技术中是采用两种方式来解决该问题，第一种从数据源的角度出发，通过实体链接的方式收集与知识图谱中实体相关联的文档，建立实体-文档异构图，从而增强数据来源，在实体之间引入新的联系。第二种从模型的角度出发，利用知识图谱嵌入的链接预测能力，将节点和关系用知识图谱嵌入进行表示，将用户所提的问题、问题中所包含的主题实体和答案建模成三元组的形式进行嵌入表示，来弥补知识图谱中关系缺失的问题，但是相关技术中都知识考虑了关系缺失的情况，忽略了实体缺失的可能性，在本实施例中，引入开源知识图谱作为数据补充，即外部知识图谱，来解决实体缺失的情况。考虑到开源知识图谱规模巨大，将其下载到本地来扩充本地知识库的做法是不可行的，是根据查询需求进行检索，首先根据用户的问题先在本地检索到与问题相关的实体集合，再将该实体集合的每一个实体元素作为查询输入开源方，得到查询实体相应的邻居实体作为补充，再对所有候选实体进行排序，因此根据内部知识图谱与外部知识图谱进行联合训练，构建联合表示学习子系统，联合表示学习子系统，旨在保护私人端内部知识图谱实体数据隐私的前提下，学习私人端内部知识图谱和公共端外部知识图谱的联合表示，为问题编码解码子系统奠定基础。该部分通过联邦学习的方式统一更新关系的表示，另外基于正交普鲁克问题学习知识图谱的表示，用于后续的知识搜索。

步骤S102：基于所述联合表示学习子系统，获取实体表示与关系表示；其中，所述实体表示包括所述内部知识图谱的内部实体表示与所述外部知识图谱的外部实体表示，所述关系表示包括所述内部知识图谱的内部关系表示与所述外部知识图谱的外部关系表示。

在本实施例中，通过联合表示学习子系统，获取实体表示与关系表示，由于联合表示学习子系统是一个由内部知识图谱与外部知识图谱共同构建的联合表示学习子系统，是一个内部知识图谱与外部知识图谱有着共同关系的联合表示学习子系统，参照图2，图2是本发明实施例提供的一种结合内部与外部知识图谱的安全多跳问答方法的系统结构示意图，通过将内部知识图谱中的实体与关系，以及外部知识图谱中的实体与关系，放入联合表示学习子系统里面进行训练，就能得到实体表示与关系表示，即图2中的输出1～4，实体表示包括头部实体与尾部实体，可以理解为头部实体通过关系，得到尾部实体，例如鲁迅的职业是作家，头部实体就是鲁迅，尾部实体是作家，关系是职业。

步骤S103：基于所述内部知识图谱，通过语言编码模型与序列编码模型，构建问题编码解码子系统。

在本实施例中，通过内部知识图谱，通过语言编码模型与序列编码模型，构建问题编码解码子系统，将私人端所提的自然语言问题用大规模语言模型BERT编码得到对应的向量表示，再利用问题所对应的推理路径作为监督信号，即利用内部知识图谱中问题与答案之间的最短路径生成弱监督标签，将通过一个循环神经网络，通过预测序列和伪标签之间的二元交叉熵损失计算梯度，更新编码模型和解码模型的参数。将更新后的语言编码模型与序列编码模型，构建问题编码解码子系统。

步骤S104：基于所述问题编码解码子系统，获取多跳推理路径。

在本实施例中，通过问题编码解码子系统，获取多跳推理路径，结合图2，通过问题解码编码子系统，可以将自然语言问题编码成向量表示，再利用循环神经网络，将问题的向量表示解码层对应的推理路径，即多跳推理路径，多跳推理路径是指头部实体与尾部实体中间存在多个关系，不是仅仅只是头部实体通过一个关系就可以直接得到尾部实体，例如多跳问题为姚明的妻子身高是多少？第一关系是确定姚明的妻子是叶丽，第二个关系是叶莉的身高是1.9米，那么就会存在两个关系，通过两个关系才能得到头部实体对应正确的尾部实体，这里的妻子与身高都是关系，可以理解为两跳关系，第一跳关系是妻子，第二跳关系是身高。

步骤S105：基于所述多跳推理路径，以及，所述联合表示学习子系统所获取的所述实体表示与所述关系表示，构建安全知识检索子系统。

在本实施例中，通过多跳推理路径，以及联合表示学习子系统得到的实体关系与关系表示，构建安全知识检索子系统，是因为在通过内部知识图谱向外部知识图谱进行检索答案时，检索的问题里面包括的头部实体会暴露用户的真实想法，会存在一个泄密的可能，因此需要构建一个安全知识检索子系统来做到一个保密的作用，本实施例中的安全知识检索子系统为半诚实对手模型，虽然在半诚实对手安全模型中，参与方都会正确执行协议不会违反协议，但是可能会被恶意攻击者监听获取到在协议执行过程中的自己的输入输出以及在协议运行过程中获得的信息，因此本实施例中的以问题当中包含的主题实体为出发点，根据问题编码解码子系统输出推理路径利用联合表示学习子系统所得的实体和关系表示对已有三元组或潜在的三元组进行搜索。该子系统将知识图谱的三元组查询归约为基于欧氏平方距离的最近邻搜索问题，结合乘积量化大幅提高查找效率。在向公共端实体集合搜索的过程中，保证私有端的多个查询向量以及公共端实体列表与多个查询向量的距离度量无法被公共端获取，以保证私有端的查询隐私，来构建安全知识检索子系统，需要说明的是本实施例中，私有端对应内部知识图谱端，公共端对应外部知识图谱端，同理地，其它处的私有端与公共端参照此处说明，不再赘述。

步骤S106：当从私人端向所述安全知识检索子系统输入多跳问题，获取所述多跳问题对应的正确答案。

在本实施例中，当从私人端向安全知识检索子系统输出多跳问题时，安全知识检索就会输出对应的正确答案，例如向安全知识检索子系统输入姚明妻子的身高是多少时，安全知识检索子系统就会输出1.9米。

在一种实施例中，所述根据内部知识图谱与外部知识图谱进行联合训练，构建联合表示学习子系统，包括：获取所述内部知识图谱的内部关系列表，以及所述外部知识图谱的外部关系列表；基于所述内部关系列表与所述外部关系列表，获取公有关系列表；基于所述公有关系列表，通过正交普鲁克问题构建联合表示学习子系统。

在本实施例中，构建联合表示学习子系统的目的是为了从私人端输入问题，通过联合表示学习子系统将外部知识图谱联合起来，可以在外部知识图谱中进行查找相比于在内部知识图谱中更准确或者更完善的答案，构建联合表示学习子系统，是为了给私人端进行服务，因此需要获取内部知识图谱的内部关系列表，以及外部知识图谱的外部关系列表，通过内部关系列表与外部关系列表，获取公有关系列表，即内部知识图谱与外部知识图谱中存在相同关系的公有关系列表，基于所述公有关系列表，通过正交普鲁克问题构建联合表示学习子系统。

示例地，私人端所持有的内部知识图谱

和公共端所持有的外部知识图谱/>

回答由私人端提出的自然语言问题q，其中问题对应的答案可能位于内部知识图谱或外部知识图谱，其中/>

ε_in≠ε_ex；/>

ε为实体集合，/>

为关系集合，即公有关系列表，/>

为/>

的三元组集合，私人端和公共端采用正交普鲁克分析建模实体和关系，即通过正交普鲁克问题构建联合表示学习子系统。

在一种实施例中，所述基于所述联合表示学习子系统，获取实体表示与关系表示，包括：基于所述联合表示学习子系统，构建实体与公有关系的约束条件；基于所述约束条件，获取关系生成因子；基于所述关系生成因子，获取计算关系嵌入矩阵；基于所述关系嵌入矩阵与所述约束条件进行训练，获取所述实体表示与所述关系表示。

在本实施例中，参照图3，图3是本发明实施例提供的一种联合表示学习子系统的示意图，根据正交普鲁克问题定义可得，若头实体表示H，关系表示R，尾实体表示T应该满足以下约束：

并且关系表示R为正交矩阵。私人端和公共端在本地按关系对三元组进行划分，对每种关系/>

对应的实体矩阵H_i和T_i进行计算得到关系的生成因子H_i ^TT_i，私人端和公共端按关系分别将其计算所得生成因子/>

上传至服务器端，服务器端根据生成因子计算关系嵌入矩阵：/>

其中generate()为关系嵌入生成函数，t为当前更新轮次，上标in和ex代表属于私人端或公共端的实体嵌入。接着服务器将属于两方的关系嵌入矩阵分别下发，私人端和公共端利用更新的关系矩阵和/>

更新实体的表示，重复此过程至训练收敛，私人端和公共端即得到最终的知识图谱嵌入表示。重复此过程至私人端与公共端的约束条件/>

值不再变化，训练收敛，私人端和公共端即得到最终的知识图谱嵌入表示/>

和/>

其中H^*,T^*代表头实体和尾实体的最终嵌入表示矩阵，R^*为关系的最终嵌入表示矩阵，下标in和ex分别指代私人端和公共端，对于同一关系r_i∈R，需保证关系嵌入矩阵R_i同时满足

以及/>

根据矩阵运算的性质，这个问题的解可以等价为对/>

进行奇异值分解，即/>

其中

t为当前更新轮次，上标in和ex代表属于私人端或公共端的实体嵌入。接着服务器将属于两方的关系嵌入矩阵分别下发，私人端和公共端利用更新的关系矩阵和/>

更新实体的表示，重复此过程至训练收敛，结合图3，输出1与输出3是关系表示，输出2与输出4是实体表示。

在一种实施例中，所述基于所述内部知识图谱，通过语言编码模型与序列编码模型，构建问题编码解码子系统，包括：基于所述内部知识图谱，获取问答训练数据；基于所述问答训练数据，抽取自然语言问题与对应的主题实体及答案；基于所述自然语言问题，通过所述语言编码模型与所述序列编码模型，获取所述自然语言问题的预测路径；基于所述主题实体及所述答案，以所述内部知识图谱中的最短路径为弱监督标签，生成所述主题实体与所述答案的关系序列；其中，在所述内部知识图谱中存在多个相同最短路径的情况下，以出现频率最高的所述最短路径为所述弱监督标签；基于所述预测路径与所述关系序列，更新所述语言编码模型与所述序列编码模型；基于更新后的所述语言编码模型与所述序列编码模型，构建所述问题编码解码子系统。

在本实施例中，根据内部知识图谱，获取问答训练数据，其中问答训练数据可以是从其他渠道直接获取，满足问答训练数据中包括的实体或关系存在于内部知识图谱中就可以，也可以根据内部知识图谱中存在的实体与关系，通过一些现有的软件生成的问答训练数据，其中问答训练数据包括自然语言问题与问答数据和内部知识图谱是两个并列的输入。问答训练数据当中本身就包含了自然语言问题和其主题实体和答案，因此无需抽取。其实这里的逻辑应该是，根据问答数据中的主题实体和答案，在内部知识图谱中标注出弱监督标签。参照图4，图4是本发明实施例提供的一种问题编码解码子系统的示意图；训练过程：将私人端所提供的自然语言问题q用大规模语言模型BERT编码得到对应的向量表示v_q，再利用问题q所对应的推理路径作为监督信号，将v_q通过一个长短时记忆网络(LongShort-Term Memory,LSTM),输出对应的关系序列。LSTM模型的初始化输入h₀＝FFN_h(v_q)，c₀＝FFN_c(v_q)，x₀＝v_q。第t个时间步的隐层向量h_t＝LSTM(h_t-1,c_t-1,x_t-1)，对应的输出向量a_t＝softmax(MLP(h_t))，其中a_t的维度大小等于关系列表

的大小，意味着每一个时间步t的输出向量预测关系序列中的第t个关系r_t为a_t维度中分数最高的维度索引值。

推理过程：与训练过程前向传播的过程一致，将私人端所提的自然语言问题q用大规模语言模型BERT编码得到对应的向量表示v_q，再利用问题q所对应的推理路径作为监督信号，将v_q通过LSTM输出对应的关系序列。

最后当为每一个自然语言问题q都生成对应的推理路径PATH＝(r₁,r₂,…,r_n)当作伪标签后，通过预测序列和伪标签之间的二元交叉熵损失计算梯度，更新语言编码模型和序列解码模型的参数，通过更新后的语言编码模型与序列解码模型，构建问题编码解码子系统。

在一种实施例中，基于所述多跳推理路径，以及，所述联合表示学习子系统所获取的所述实体表示与所述关系表示，构建安全知识检索子系统，包括：对所述实体表示与所述关系表示进行乘积量化压缩，获取乘积量化码书；基于所述实体表示，获取所述实体表示对应的倒排索引；基于所述倒排索引，获取所述倒排索引对应向量列表集合；基于所述多跳推理路径，以及所述向量列表集合、所述倒排索引、所述乘积量化码书，构建所述安全知识检索子系统。

在本实施例中，参照图5，图5是本发明实施例提供的一种安全知识检索子系统的示意图；构建安全知识检索子系统，对公共端和私人端的知识图谱的实体嵌入分别进行量化压缩，将已知头实体和关系，查找尾实体的三元组查询问题转化为欧式空间中已知多个查询向量求最近邻向量的最近邻搜索问题，以实现高效的三元组检索，同时搜索过程在私人端进行，保证私人端的查询隐私。

示例地，以公共端实体嵌入集合为例，对实体嵌入集合进行乘积量化压缩。首先对每一个实体的嵌入表示计算与其距离最近的粗粒度聚类中心，(用K-means算法获得)，继而为实体的倒排索引值，计算实体e嵌入表示与i对应的聚类中心表示c_i之间的差值r(e)，再对差值向量进行乘积量化得到量化后的向量q_p(r(e))，将向量q_p(r(e))的量化编码和实体e的id存储到倒排索引中索引值为i的向量列表

中。构建安全知识检索子系统，按照此方法对公共端实体嵌入集合中的每一个实体嵌入表示执行此操作，使得整个嵌入集合被量化编码，经过乘积量化后的数据存储量大大减小，公共端将量化后的码书和倒排索引发送至私人端，私人端用倒排索引的聚类中心表示计算距离多个查询向量x最近的聚类中心j，然后计算x与聚类中心表示c_j的差值r(x)。私人端向公共端检索倒排索引值为j的向量列表/>

接着公共端将对应向量列表与乘积量化码书发送给私人端，私人端利用列表/>

和乘积量化码书计算与r(x)距离最近的向量，并根据乘积量化的码书计算得到距离查询向量最近的实体。

在一种实施例中，当从私人端向所述安全知识检索子系统输入多跳问题时，所述安全知识检索子系统输出所述多跳问题对应的正确答案，包括：基于所述安全知识检索子系统，将所述多跳问题转化为多个查询向量；通过对所述多个查询向量进行距离计算与非对称距离计算，获取多个所述查询向量对应的最近邻实体嵌入表示；基于所述最近邻实体嵌入表示，获取所述正确答案。

在本实施例中，对于多跳问题获取正确答案，是依次按照顺序将多跳问题拆分为单跳问题进行计算，每一个单跳问题对应一个查询向量，按照递归的顺序对多跳问题进行查询答案，通过最后一跳问题的实体嵌入表示来获取正确的答案。示例地，假设多跳问题是姚明妻子的身高是多少？该问题是一个两跳问题，按照本发明提供的方法，首先会确认第一跳的问题是姚明的妻子是谁？就会将第一跳的问题转化为查询向量，得到一个答案为叶莉，得到第一跳的答案以后，再出现第二跳的问题就是叶莉的身高是多少？此时就会将第二跳的问题转化为查询向量，继续进行查询，得到第二跳的答案为1.9米。

结合图5，当从私人端向安全知识检索子系统输入多跳问题，向公共端进行查询时，安全知识检索子系统会将多跳问题转化为多个查询向量，如果该多跳问题是一个一跳问题，那么只有一个查询向量x＝hR_j，(即此时头实体为h，关系为r_u)，头实体与关系都是属于关系联合表示学习子系统最终的关系表示与实体表示里面的内容，公共端将倒排索引发送到私人端，私人端用倒排索引的聚类中心表示计算距离查询向量x最近的聚类中心j。然后计算x与聚类中心表示c_j的差值r(x)。私人端向公共端检索倒排索引值为j的向量列表

和乘积量化码书计算与r(x)距离最近的向量，其对应的实体作为最终的查询结果，如果多跳问题是一个两跳问题，那么多跳问题里面抽出来两个关系r1,r2，主题实体为e1。首先将E1*R1(分别代表e1和r1的向量表示)作为第一个查询向量，查到最合适的中间向量e2，然后再将E2*R2作为第二个查询向量，也是最后一个查询向量，查到最合适的向量记为E3，此时发现多跳问题所对应的关系序列r1，r2都用过了，代表查询已经结束，那么此时认为E3为用户寻找的正确答案。因此，对于一个自然语言问题q，已知其主题实体e_topic和推理路径PATH＝(r₁,r₂,…,r_n)，迭代式地利用安全知识检索子系统。由e_topic和r₁求出e₁使得其三者构成的三元组(e_topic,r₁,e₁)存在与内部知识图谱或外部知识图谱中，以此类推，最终检索得到(e_n-1,r_n,e_n)，其中e_n被视作问题q的答案。即图5中最终输出的最近邻实体嵌入，也是多跳问题最后对应的答案。

由于RDF数据库或图数据库的知识图谱查询技术只能检索到知识图谱中显式表示的三元组，知识图谱的不完整性，传统的知识检索将会导致复杂问题的可回答性下降。本发明利用知识图谱嵌入隐式建模知识的特性，将实体嵌入映射到欧式空间中，将三元组查询建模为欧氏空间下的最近邻检索，利用乘积量化对实体嵌入做进一步量化压缩，使得三元组的查询更加高效。

实施例二

本发明实施例第二方面，提供了一种结合内部与外部知识图谱的安全多跳问答系统，所述系统包括：第一构建模块601、第一获取模块602、第二构建模块603、第二获取模块604、第三构建模块605、第三获取模块606。

第一构建模块601，用于根据内部知识图谱与外部知识图谱进行联合训练，构建联合表示学习子系统。

第一获取模块602，用于基于所述联合表示学习子系统，获取实体表示与关系表示；其中，所述实体表示包括所述内部知识图谱的内部实体表示与所述外部知识图谱的外部实体表示，所述关系表示包括所述内部知识图谱的内部关系表示与所述外部知识图谱的外部关系表示。

第二构建模块603，用于基于所述内部知识图谱，通过语言编码模型与序列编码模型，构建问题编码解码子系统。

第二获取模块604，用于基于所述问题编码解码子系统，获取多跳推理路径。

第三构建模块605，用于基于所述多跳推理路径，以及，所述联合表示学习子系统所获取的所述实体表示与所述关系表示，构建安全知识检索子系统。

第三获取模块606，用于当从私人端向所述安全知识检索子系统输入多跳问题，获取所述多跳问题对应的正确答案。

通过本发明提供的安全多跳问答系统，应用在多跳问答领域上，不仅能够在多个知识图谱上进行知识图谱问答推理，提高了知识图谱问答系统准确率，也可以在查询的过程中提高查询效率，还可以保障私人端查询数据的隐私以及查询结果的隐私。

实施例三

在本实施例中，参照图7，图7是本发明实施例提供的一种电子设备的示意图；如图7所示，电子设备100包括：存储器110和处理器120，存储器110与处理器120之间通过总线通信连接，存储器110中存储有计算机程序，该计算机程序可在处理器120上运行，进而实现本申请实施例第一方面所述的结合内部与外部知识图谱的安全多跳问答的步骤。

实施例四

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、装置的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种结合内部与外部知识图谱的安全多跳问答方法及系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种结合内部与外部知识图谱的安全多跳问答方法，其特征在于，所述方法包括：

基于所述问题编码解码子系统，获取多跳推理路径；

2.根据权利要求1所述的方法，其特征在于，所述根据内部知识图谱与外部知识图谱进行联合训练，构建联合表示学习子系统，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述联合表示学习子系统，获取实体表示与关系表示，包括：

基于所述约束条件，获取关系生成因子；

基于所述关系生成因子，获取计算关系嵌入矩阵；

4.根据权利要求1所述的方法，其特征在于，所述基于所述内部知识图谱，通过语言编码模型与序列编码模型，构建问题编码解码子系统，包括：

基于所述内部知识图谱，获取问答训练数据；

5.根据权利要求1所述的方法，其特征在于，基于所述多跳推理路径，以及，所述联合表示学习子系统所获取的所述实体表示与所述关系表示，构建安全知识检索子系统，包括：

基于所述实体表示，获取所述实体表示对应的倒排索引；

基于所述倒排索引，获取所述倒排索引对应向量列表集合；

6.根据权利要求1所述的方法，其特征在于，当从私人端向所述安全知识检索子系统输入多跳问题时，所述安全知识检索子系统输出所述多跳问题对应的正确答案，包括：

基于所述最近邻实体嵌入表示，获取所述正确答案。

7.一种结合内部与外部知识图谱的安全多跳问答系统，其特征在于，所述系统包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-6任一项所述的结合内部与外部知识图谱的安全多跳问答方法中的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任一项所述的结合内部与外部知识图谱的安全多跳问答的步骤。