CN113157882A

CN113157882A - 以用户语义为中心的知识图谱路径检索方法及装置

Info

Publication number: CN113157882A
Application number: CN202110353405.3A
Authority: CN
Inventors: 孙宇清; 刘天元
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-07-23
Anticipated expiration: 2041-03-31
Also published as: CN113157882B

Abstract

一种以用户语义为中心的知识图谱路径检索方法，其特征在于，建立至少两个实体之间的检索查询路径，所述检索查询路径受到：从公共知识图谱系统中根据预学习的实体属性关联语义和用户语义约束。本发明相较于传统方法，本发明所包含的关联语义学习方法使用知识图谱中实体属性建模实体关联语义，对知识图谱后续更新的新出现的实体具有鲁棒性，无需重新训练。

Description

以用户语义为中心的知识图谱路径检索方法及装置

技术领域

本发明公开一种以用户语义为中心的知识图谱路径检索方法及装置，属于知识图谱检索的技术领域。

背景技术

知识图谱是一种使用有向图结构存储事实性信息的网络结构，其中的节点和边可以具有不同的类型。近来许多智能应用使用知识图谱来支撑各种推断和推理任务。Freebase，YAGO以及Wikidata都是著名的开放知识图谱，存储了人类社会相关的常识。谷歌使用此类知识图谱来为其搜索结果提供更丰富的相关信息或关联性更强的相关搜索。

知识图谱可以使用多种不同的方式进行检索。其中最为基础和有意义的为实体关联检索，判断两个给定节点间是否存在一条关联路径。许多知识图谱的应用提供面向人类的服务，寻找的路径不仅需要结构联通，更需要在语义上具有实际意义。

现有的传统的解决方式还包括如随机游走和图遍历方法等，通常基于网络结构信息，返回的路径为基于结构的拓扑路径。同时用户查询知识图谱时的目的性可能存在不同，即路径的实际语义与查询用户的需求密切关联。在路径查找过程中既要考虑常识性的语义知识，也要考虑以用户为中心的特定需求。

但是实际应用时，常规公共知识图谱系统的方式检索查询存在以下技术问题：

由于知识图谱的规模通常较大，维护和运行专用的存储和查询系统成本较高，使用时普遍采用使用公共知识图谱系统的方式对知识图谱的信息进行查询利用，而公共知识图谱系统普遍对短时间内的查询使用次数存在限制，因此本技术领域需要一个高效的方法来完成实体间符合用户语义的路径检索。

发明内容

为了解决知识图谱中以用户语义为中心的实体路径检索需求，本发明提供了一种以用户语义为中心的知识图谱路径检索方法。

本发明还公开了实现上述检索方法的装置。

技术术语解释：

知识图谱：由实体和关系边组成，由G＝<V，R，F>表示。其中V表示实体集合，R表示关系类型集合，F＝{<v_h，r，v_t>|v_h，v_t∈V，r∈R}表示事实三元组集合。对于每一个三元组<v_h，r，v_t>，v_h，v_t分别被称作头实体和尾实体。

实体属性：一个关系通常需要和一个具体的值联系在一起才具有实际意义，因此引入属性的概念来表示一个实体的特性，由二元组<r，v_t>表示，其中r∈R 尾实体v_t∈V。知识图谱的事实集合F中所出现的所有属性由Λ表示。为了学习多个属性是如何共同影响实体间的复杂连接的，引入函数α来获取实体v_h∈V所具有的属性集合。函数定义为α(v_h)＝{<r，v_t>|<v_h，r，v_t>∈F}。

实体属性关联集：对于实体p和q，他们共同具有的属性越多，越有可能具有紧密的关联。将p和q的共同属性集合称为关联集，表示为

则当且仅当

时，p和q具有直接的关联，记为

语义路径：p和q之间的一条语义路径为一系列的实体，表示为v₀v₁…v_l，其中v₀＝p，v_l＝q，对于i∈[0..l-1]，均有

l为路径长度。

本发明的技术方案如下：

一种以用户语义为中心的知识图谱路径检索方法，其特征在于，建立至少两个实体之间的检索查询路径，所述检索查询路径受到：从公共知识图谱系统中根据预学习的实体属性关联语义和用户语义约束。用户提出对实体之间的路径检索查询，同时定义表达用户实际需求的语义约束。本发明根据用户查询，从公共知识图谱系统中根据预学习的实体属性关联语义以及用户约束，高效的查询出符合用户语义的实体路径进行返回。

根据本发明优选的，所述预学习的实体属性关联语义包括：对公共知识图谱系统中的关联语义进行建模学习，将关联语义建模为属性在隐含话题空间中的向量表示；

优选的，此处采用隐藏狄利克雷分布方法，英文LDA方法，用于建模文档和词汇间关联关系的生成式话题模型：

每个关联集

被映射为一个文档，并且与话题分布θ∈(0，1)^K相关联，关联集

的生成过程包含有两层多项分布：首先根据话题分布θ选取话题τ，之后根据话题和属性间的关联φ_τ选取属性t∈Λ。所述LDA方法的生成过程与观察到的实体关联与属性间的关系类似。使K∈N⁺表示话题空间的大小，从整个知识图谱的角度来看，存在一个全局的话题分布，对每个话题存在一个属性上的分布：令Φ∈ (0，1)^K×|Λ|表示话题和全部属性集之间的关联分布，每一列向量φ_τ∈(0，1)^|Λ|，τ∈ [1..K]表示话题τ与属性间的关联分布。

根据本发明优选的，所述对公共知识图谱系统中的关联语义进行建模学习还包括：在预处理阶段，从公共知识图谱系统中采样一定数量的实体，之后通过采样该部分实体间的直接关联，生成大量的关联集

为观测训练样本，使用LDA方法进行属性关联语义的建模学习。优选的，所述建模学习采用基于变分贝叶斯的在线LDA算法。经过建模学习后，可以获得属性和话题之间的关联矩阵Φ。其中的每个元素Φ_τ，t表示了话题τ与属性t之间的关联强度。矩阵Φ表示了知识图谱中实体间的关联语义。本方法的学习过程同时具有高效性和鲁棒性。知识图谱的规模通常非常大，常使用分布式的形式进行存取。而相较于其他模型，本模型仅需要知识图谱的一部分信息即可完成训练。同时通过对实体属性的建模，本方法对知识图谱的更新具有鲁棒性。

根据本发明优选的，建立实体之间的检索查询路径时，所述实体包括用户的查询输入，所述查询输入包括：

待检索关联的实体p，q∈V、公共知识图谱系统查询次数限制

和表达用户语义需求的约束集合π，共同表示为

即用户的查询输入。

根据本发明优选的，所述用户语义约束包括：包含约束和除外约束：

所述包含约束，由属性集合

表示，表明检索查询路径上的每个实体必须包含π_p中的属性，即对路径上的每一个实体v，有

所述除外约束，由属性集合

表示，表明在计算关联集和实体关联时， π_x集合中的属性不被考虑。

根据本发明优选的，所述用户语义约束还包括语义属性间等价约束，表示为 π_e(t₁，t₂)，t₁，t₂∈Λ，表示属性t₁和t₂在推断任务中等价，该关系满足自反性、对称性和传递性。

通过上述约束，用户可根据领域知识，选择对形成路径更有意义的属性。例如对经济领域的欺诈检测而言，知识图谱包含了企业、雇员、客户、股东等信息，而审查员可能会对一定金额以上的敏感交易进行潜在的欺诈检查。对于公司甲有子公司公司乙的情况，说明两公司之间具有紧密的关系，可以使用等价关系将受雇于两者的属性认为等同。

根据本发明优选的，所述用户约束还包括候选实体筛选和关联语义调整：

首先考虑所有可能的候选实体：

1)考虑到包含约束要求实体都具有π_p中的属性，候选实体集合应当表示为

根据直接关联

的定义，V_π中的实体已经因为共同拥有 π_p中的属性而形成了关联，因此π_p中的属性在选取检索查询路径上的候选实体时需被排除；

2)如果包含约束中的属性与其它属性有等价关系，则具有等价属性的实体需作为候选实体，令Λ′表示在实行约束后可用的属性集合。类似的，除外约束将保证π_x中的属性从Λ′中排除，但不会影响候选实体集合V_π。令π表示用户定义的等价关系和约束集合，引入函数

表示在约束下实体v∈V所具有的属性。因此约束下实体p，q∈V_π之间的关联集计算为

在约束π下，当且仅当

时，p与q具有直接关联，表示为

其次进行关联语义的调整：

在前述建模过程中获取了关联语义Φ，在具体的检索查询中对关联语义Φ进行调整以适应约束π；

1)根据下列步骤计算新的属性集合Λ′，并计算Φ在Λ′上的投影Φ′，

首先根据除外约束计算原始属性集合中允许使用的属性集合：表示为

对于每个属性t∈Λ′，如果有与其相关的等价关系π_e(t，t′)∈π，将创建一个虚拟属性

来代替t和t′，即从Λ′中删去t和t′以避免冗余，具有属性t或t′的实体将转为使用属性

虚拟属性的集合表示为

新的属性集合

计算Φ在Λ′上的投影Φ′时，

中的属性保留原始的与话题间的关联强度，对于等价关系π_e(t，t′)∈π所产生的虚拟属性

话题τ与属性

之间的关联概率为与属性t和t′关联概率之和，即有对τ∈[1..K]，

考虑到等价的传递性，可能有两个以上的属性互相等价，这些属性共同形成一个等价集，关联概率也相应的做出修改；最终形成在用户约束下的关联语义Φ′；

2)重建每个话题所具有的关联强度：之前每个话题对关联语义的贡献是相同的，在π的约束下，被移除的属性将减弱与其具有关联的话题的关联强度，因此引入一个调整向量来记录剩余属性带来的话题关联强度，记为

3)对根据用户约束调整得到的关联语义Φ′中每个话题的概率分布重新进行归一化，上述过程并不需要对关联语义Φ重新进行训练，可以在与π相关的线性时间内完成。

根据本发明优选的，所述建立实体之间的检索查询路径是指根据用户查询对公共知识图谱系统进行检索以获取符合用户语义的实体路径，其特征在于，给定知识图谱G上的一个用户的查询输入

首先检查实体p和q是否直接关联，或通过检查邻居实体集合

与

确定是否存在一跳的关联：如果不存在，则期望寻找到一条短且紧密的关联。

根据本发明优选的，确定短且紧密的关联的方法为利用二阶共现现象协助寻找到一个更有可能形成简短有意义的语义路径的中间实体：找到一个中间属性t，根据概率算法找到的具有t属性的实体更有可能成为路径上的实体。概率算法的流程如图2所示。在建模过程中，话题起到关联不同属性的作用，同时话题也可以成为选取路径中间实体的参考，例如寻找一个首尾实体所没有的新属性来查找中间实体，例如：属性t₁和t₂在训练时经常与t₃一同出现，而t₁与t₂不曾同时出现，在学习得到的话题空间中，t₁依然会与t₂接近，这种现象称为二阶共现。

根据本发明优选的，根据概率算法找到的具有t属性的实体更有可能成为路径上的实体的方法包括：

1)根据实体共同关注的话题来选取中间属性：根据学习到的关联语义Φ，依据实体属性

知

计算实体话题分布θ_p和θ_q；通过计算两个话题分布的哈德曼积，结合约束处理过程得到的话题强度调整向量

即获取两者共同关注的话题分布作为参考话题分布：

2)根据θ_ref随机选取一个隐含话题τ，根据以Φ_τ为参数的多项分布选取中间属性t。根据事件的独立性，可使用如下公式计算每个属性的选取概率分布ω：

ω＝θ_ref·Φ∈R^|Λ| (2)

3)在对公共知识图谱系统的查询次数尚少于查询预算

时，使用以ω为参数的多项分布选取中间属性t；

4)查找具有属性t的实体：检查集合

与

其中

表示实体v的邻居实体，

表示具有属性t的实体，两种集合的构建均需要进行公共知识图谱系统的查询；

如果两个集合均不为空时，则从

与

中各自选取实体 m₁和m₂，他们由属性t所连接，同时分别与p或q连接，即查找到一条路径

并返回；

否则，将在查询预算

允许的情况下，重复步骤3)继续选取下一个中间属性。

根据本发明优选的，选取所述属性t时，引入属性的权重以表示用户对属性的重要性有偏好，属性t的权重定义为w_t∈(0，1)，形成权重向量

在路径推断过程中属性分布参数则计算为

其中w_t越大表示相较于其他属性更偏好属性t在结果路径中出现。

实现以用户语义为中心的知识图谱路径检索方法的装置，其特征在于，包括：预处理模块和查询模块，用户通过查询模块向所述装置输入查询信息、输出查询结果；同时装置具备与外部信息源进行信息交互的数据链路；

所述预处理模块包括关联语义学习模块、实体属性关联语义，在预处理阶段通过关联语义学习模块，根据公共知识图谱系统中的实体属性关联信息，学习建模实体属性中所包含的实体关联语义；

所述查询模块包括用户约束处理模块和语义路径检索模块，在查询阶段，根据用户给出的实际语义约束对学习到的实体关联语义进行调整，以用户给出的实体为目标，对公共知识图谱系统进行检索，给出符合用户语义需求的实体路径，最终形成查询结果。

本发明技术优势在于：

1.相较于传统方法，本发明所包含的关联语义学习方法使用知识图谱中实体属性建模实体关联语义，对知识图谱后续更新的新出现的实体具有鲁棒性，无需重新训练。

2.相较于传统方法，本发明所包含的语义路径检索方法使用所学习的关联语义进行了高效的路径中间实体检索，能够使用较少的公开知识图谱系统查询次数检索出有效的语义路径，在查询次数有限的情况下成功率更高。

3.相较于传统方法，本发明所包含的语义路径检索方法所检索出的结果路径，能够满足用户提出的属性逻辑约束以及属性偏好的定量约束。在查找过程中除了逻辑性地实施约束外，也考虑到了约束对所学习的关联语义的影响。同时所检索的结果路径长度较短，关联性强，对用户有更高的实用价值。

附图说明

图1是本发明所述实现以用户语义为中心的知识图谱路径检索方法的装置结构示意图；

图2是以用户语义为中心的实体路径检索算法。

具体实施方式

下面结合实施例和说明书附图对本发明做详细的说明，但不限于此。

实施例1、

本实施例以在常见的公共知识图谱YAGO的部分采样YAGO3M上进行以人类实体之间的路径查询为例。其中，所述YAGO3M共包含约100万人类实体，人类实体具有约45万不同的属性。

一种以用户语义为中心的知识图谱路径检索方法，建立至少两个实体之间的检索查询路径，所述检索查询路径受到：从公共知识图谱系统中根据预学习的实体属性关联语义和用户语义约束。

所述预学习的实体属性关联语义包括：对公共知识图谱系统中的关联语义进行建模学习，将关联语义建模为属性在隐含话题空间中的向量表示；

采用隐藏狄利克雷分布方法，英文LDA方法，用于建模文档和词汇间关联关系的生成式话题模型：

每个关联集

所述对公共知识图谱系统中的关联语义进行建模学习还包括：在预处理阶段，从公共知识图谱系统中采样一定数量的实体，从YAGO3M中随机选取约5万人类实体，使用从中所采样到的关联集作为样本使用LDA方法进行训练，之后通过采样该部分实体间的直接关联，生成大量的关联集

为观测训练样本，使用LDA方法进行属性关联语义的建模学习。优选的，所述建模学习采用基于变分贝叶斯的在线LDA算法。此处作为示例选取LDA话题数为5，经过LDA方法训练后得到知识图谱的关联语义，话题-属性矩阵Φ。

建立实体之间的检索查询路径时，所述实体包括用户的查询输入，所述查询输入包括：

待检索关联的实体p，q∈V、公共知识图谱系统查询次数限制

和表达用户语义需求的约束集合π，共同表示为

即用户的查询输入。一个可能的用户查询输入实例为

其中约束π规定路径中只接受<graduateFrom，*>形式，即毕业于某校的属性，使检索路径上查找到的人类实体之间均为校友关系。

所述用户语义约束包括：包含约束和除外约束：

所述包含约束，由属性集合

所述除外约束，由属性集合

所述用户语义约束还包括语义属性间等价约束，表示为π_e(t₁，t₂)，t₁，t₂∈Λ，表示属性t₁和t₂在推断任务中等价，该关系满足自反性、对称性和传递性。

所述用户约束还包括候选实体筛选和关联语义调整：

首先考虑所有可能的候选实体：

根据直接关联

在约束π下，当且仅当

时，p与q具有直接关联，表示为

其次进行关联语义的调整：

虚拟属性的集合表示为

新的属性集合

计算Φ在Λ′上的投影Φ′时，

话题τ与属性

所述建立实体之间的检索查询路径是指根据用户查询对公共知识图谱系统进行检索以获取符合用户语义的实体路径，其特征在于，给定知识图谱G上的一个用户的查询输入

首先检查实体p和q是否直接关联，或通过检查邻居实体集合

与

确定短且紧密的关联的方法为利用二阶共现现象协助寻找到一个更有可能形成简短有意义的语义路径的中间实体：找到一个中间属性t，根据概率算法找到的具有t属性的实体更有可能成为路径上的实体。概率算法的流程如图2所示。

根据概率算法找到的具有t属性的实体更有可能成为路径上的实体的方法包括：

和

即获取两者共同关注的话题分布作为参考话题分布：

ω＝θ_ref·Φ∈R^|Λ| (2)

3)在对公共知识图谱系统的查询次数尚少于查询预算

时，使用以ω为参数的多项分布选取中间属性t；

4)查找具有属性t的实体：检查集合

与

其中

表示实体v的邻居实体，

如果两个集合均不为空时，则从

与

并返回；

否则，将在查询预算

允许的情况下，重复步骤3)继续选取下一个中间属性。

选取所述属性t时，引入属性的权重以表示用户对属性的重要性有偏好，属性t的权重定义为w_t∈(0，1)，形成权重向量

在路径推断过程中属性分布参数则计算为

在本实施例中所描述的用户约束处理模块算法对知识图谱中的关联语义Φ 进行调整：删去其中不可使用的属性并调整权重，得到约束下的关联语义Φ′和话题关联强度向量

首先通过查询公共知识图谱，获取所查询实体<Keith O′Nions>，< Max Cleland>的直接关联实体集合

与

然后计算所查询实体<Keith O′Nions>，<Max Cleland>的话题分布θ_p＝ [0.15，0.15，0.2，0.1，0.4]，θ_q＝[0.1，0.1，0.1，0.4，0.3]，根据公式(1)和(2)计算中间属性参考分布

以ω为参数抽取可能的中间属性t，一个可能的中间属性为 <graduateFrom，Harvard University>，即毕业于哈佛大学。

通过查询公共知识图谱，获取具有该属性的人类实体集合

检查交集

与

发现均为非空。从两个集合中各自抽取一个人类实体，最终构成路径：

其中Keith O’Nions与David Dolphin 均毕业于诺丁汉大学，David Dolphin与Joe Negron均毕业于哈佛大学，Joe Negron与Max Cleland均毕业于斯泰森大学。所返回的检索路径满足用户所给出的语义约束。

实施例2、

如图1所示。实现以用户语义为中心的知识图谱路径检索方法的装置，其特征在于，包括：预处理模块和查询模块，用户通过查询模块向所述装置输入查询信息、输出查询结果；同时装置具备与外部信息源进行信息交互的数据链路，所述的外部信息源可以是公共知识图谱系统；

Claims

1.一种以用户语义为中心的知识图谱路径检索方法，其特征在于，建立至少两个实体之间的检索查询路径，所述检索查询路径受到：从公共知识图谱系统中根据预学习的实体属性关联语义和用户语义约束。

2.根据权利要求1所述的一种以用户语义为中心的知识图谱路径检索方法，其特征在于，所述预学习的实体属性关联语义包括：对公共知识图谱系统中的关联语义进行建模学习，将关联语义建模为属性在隐含话题空间中的向量表示；

每个关联集

的生成过程包含有两层多项分布：首先根据话题分布θ选取话题τ，之后根据话题和属性间的关联Φ_τ选取属性t∈Λ。

3.根据权利要求2所述的一种以用户语义为中心的知识图谱路径检索方法，其特征在于，所述对公共知识图谱系统中的关联语义进行建模学习还包括：在预处理阶段，从公共知识图谱系统中采样一定数量的实体，之后通过采样该部分实体间的直接关联，生成大量的关联集

为观测训练样本，使用LDA方法进行属性关联语义的建模学习；优选的，所述建模学习采用基于变分贝叶斯的在线LDA算法。

4.根据权利要求1所述的一种以用户语义为中心的知识图谱路径检索方法，其特征在于，建立实体之间的检索查询路径时，所述实体包括用户的查询输入，所述查询输入包括：

待检索关联的实体p，q∈V、公共知识图谱系统查询次数限制

和表达用户语义需求的约束集合π，共同表示为

即用户的查询输入；

所述用户语义约束包括：包含约束和除外约束：

所述包含约束，由属性集合

所述除外约束，由属性集合

表示，表明在计算关联集和实体关联时，π_x集合中的属性不被考虑。

5.根据权利要求4所述的一种以用户语义为中心的知识图谱路径检索方法，其特征在于，所述用户语义约束还包括语义属性间等价约束，表示为π_e(t₁，t₂)，t₁，t₂∈Λ，表示属性t₁和t₂在推断任务中等价，该关系满足自反性、对称性和传递性。

6.根据权利要求5所述的一种以用户语义为中心的知识图谱路径检索方法，其特征在于，所述用户约束还包括候选实体筛选和关联语义调整：

首先考虑所有可能的候选实体：

π_p中的属性在选取检索查询路径上的候选实体时需被排除；

2)如果包含约束中的属性与其它属性有等价关系，则具有等价属性的实体需作为候选实体；

其次进行关联语义的调整：

虚拟属性的集合表示为

新的属性集合

计算Φ在Λ′上的投影Φ′时，

话题τ与属性

2)重建每个话题所具有的关联强度：在π的约束下，引入一个调整向量来记录剩余属性带来的话题关联强度，记为

3)对根据用户约束调整得到的关联语义Φ′中每个话题的概率分布重新进行归一化。

7.根据权利要求1所述的一种以用户语义为中心的知识图谱路径检索方法，其特征在于，所述建立实体之间的检索查询路径是指根据用户查询对公共知识图谱系统进行检索以获取符合用户语义的实体路径，其特征在于，给定知识图谱G上的一个用户的查询输入

首先检查实体p和q是否直接关联，或通过检查邻居实体集合

与

确定是否存在一跳的关联：如果不存在，则期望寻找到一条短且紧密的关联；

确定短且紧密的关联的方法为利用二阶共现现象协助寻找到一个更有可能形成简短有意义的语义路径的中间实体：找到一个中间属性t，根据概率算法找到的具有t属性的实体更有可能成为路径上的实体。

8.根据权利要求7所述的一种以用户语义为中心的知识图谱路径检索方法，其特征在于，根据概率算法找到的具有t属性的实体更有可能成为路径上的实体的方法包括：

和

即获取两者共同关注的话题分布作为参考话题分布：

2)根据θ_ref随机选取一个隐含话题τ，根据以Φ_τ为参数的多项分布选取中间属性t；

根据事件的独立性，可使用如下公式计算每个属性的选取概率分布ω：

ω＝θ_ref·Φ∈R^|Λ| (2)

3)在对公共知识图谱系统的查询次数尚少于查询预算

时，使用以ω为参数的多项分布选取中间属性t；

4)查找具有属性t的实体：检查集合

与

其中

表示实体v的邻居实体，

表示具有属性t的实体；

如果两个集合均不为空时，则从

与

中各自选取实体m₁和m₂，他们由属性t所连接，同时分别与p或q连接，即查找到一条路径

并返回；

否则，将在查询预算

允许的情况下，重复步骤3)继续选取下一个中间属性。

9.根据权利要求8所述的一种以用户语义为中心的知识图谱路径检索方法，其特征在于，选取所述属性t时，引入属性的权重以表示用户对属性的重要性有偏好，属性t的权重定义为w_t∈(0，1)，形成权重向量

在路径推断过程中属性分布参数则计算为

10.一种实现以用户语义为中心的知识图谱路径检索方法的装置，其特征在于，包括：预处理模块和查询模块，用户通过查询模块向所述装置输入查询信息、输出查询结果；同时装置具备与外部信息源进行信息交互的数据链路；