CN113157882A - 以用户语义为中心的知识图谱路径检索方法及装置 - Google Patents

以用户语义为中心的知识图谱路径检索方法及装置 Download PDF

Info

Publication number
CN113157882A
CN113157882A CN202110353405.3A CN202110353405A CN113157882A CN 113157882 A CN113157882 A CN 113157882A CN 202110353405 A CN202110353405 A CN 202110353405A CN 113157882 A CN113157882 A CN 113157882A
Authority
CN
China
Prior art keywords
attribute
entity
user
topic
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110353405.3A
Other languages
English (en)
Other versions
CN113157882B (zh
Inventor
孙宇清
刘天元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110353405.3A priority Critical patent/CN113157882B/zh
Publication of CN113157882A publication Critical patent/CN113157882A/zh
Application granted granted Critical
Publication of CN113157882B publication Critical patent/CN113157882B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种以用户语义为中心的知识图谱路径检索方法,其特征在于,建立至少两个实体之间的检索查询路径,所述检索查询路径受到:从公共知识图谱系统中根据预学习的实体属性关联语义和用户语义约束。本发明相较于传统方法,本发明所包含的关联语义学习方法使用知识图谱中实体属性建模实体关联语义,对知识图谱后续更新的新出现的实体具有鲁棒性,无需重新训练。

Description

以用户语义为中心的知识图谱路径检索方法及装置
技术领域
本发明公开一种以用户语义为中心的知识图谱路径检索方法及装置,属于知 识图谱检索的技术领域。
背景技术
知识图谱是一种使用有向图结构存储事实性信息的网络结构,其中的节点和 边可以具有不同的类型。近来许多智能应用使用知识图谱来支撑各种推断和推理 任务。Freebase,YAGO以及Wikidata都是著名的开放知识图谱,存储了人类社 会相关的常识。谷歌使用此类知识图谱来为其搜索结果提供更丰富的相关信息或 关联性更强的相关搜索。
知识图谱可以使用多种不同的方式进行检索。其中最为基础和有意义的为实 体关联检索,判断两个给定节点间是否存在一条关联路径。许多知识图谱的应用 提供面向人类的服务,寻找的路径不仅需要结构联通,更需要在语义上具有实际 意义。
现有的传统的解决方式还包括如随机游走和图遍历方法等,通常基于网络结 构信息,返回的路径为基于结构的拓扑路径。同时用户查询知识图谱时的目的性 可能存在不同,即路径的实际语义与查询用户的需求密切关联。在路径查找过程 中既要考虑常识性的语义知识,也要考虑以用户为中心的特定需求。
但是实际应用时,常规公共知识图谱系统的方式检索查询存在以下技术问题:
由于知识图谱的规模通常较大,维护和运行专用的存储和查询系统成本较高, 使用时普遍采用使用公共知识图谱系统的方式对知识图谱的信息进行查询利用, 而公共知识图谱系统普遍对短时间内的查询使用次数存在限制,因此本技术领域 需要一个高效的方法来完成实体间符合用户语义的路径检索。
发明内容
为了解决知识图谱中以用户语义为中心的实体路径检索需求,本发明提供了 一种以用户语义为中心的知识图谱路径检索方法。
本发明还公开了实现上述检索方法的装置。
技术术语解释:
知识图谱:由实体和关系边组成,由G=<V,R,F>表示。其中V表示实体集 合,R表示关系类型集合,F={<vh,r,vt>|vh,vt∈V,r∈R}表示事实三元 组集合。对于每一个三元组<vh,r,vt>,vh,vt分别被称作头实体和尾实体。
实体属性:一个关系通常需要和一个具体的值联系在一起才具有实际意义, 因此引入属性的概念来表示一个实体的特性,由二元组<r,vt>表示,其中r∈R 尾实体vt∈V。知识图谱的事实集合F中所出现的所有属性由Λ表示。为了学习多 个属性是如何共同影响实体间的复杂连接的,引入函数α来获取实体vh∈V所具 有的属性集合。函数定义为α(vh)={<r,vt>|<vh,r,vt>∈F}。
实体属性关联集:对于实体p和q,他们共同具有的属性越多,越有可能具有 紧密的关联。将p和q的共同属性集合称为关联集,表示为
Figure BDA0003001705610000021
则 当且仅当
Figure BDA0003001705610000022
时,p和q具有直接的关联,记为
Figure BDA0003001705610000023
语义路径:p和q之间的一条语义路径为一系列的实体,表示为v0v1…vl, 其中v0=p,vl=q,对于i∈[0..l-1],均有
Figure BDA0003001705610000024
l为路径长度。
本发明的技术方案如下:
一种以用户语义为中心的知识图谱路径检索方法,其特征在于,建立至少两 个实体之间的检索查询路径,所述检索查询路径受到:从公共知识图谱系统中根 据预学习的实体属性关联语义和用户语义约束。用户提出对实体之间的路径检索 查询,同时定义表达用户实际需求的语义约束。本发明根据用户查询,从公共知 识图谱系统中根据预学习的实体属性关联语义以及用户约束,高效的查询出符合 用户语义的实体路径进行返回。
根据本发明优选的,所述预学习的实体属性关联语义包括:对公共知识图谱 系统中的关联语义进行建模学习,将关联语义建模为属性在隐含话题空间中的向 量表示;
优选的,此处采用隐藏狄利克雷分布方法,英文LDA方法,用于建模文档和 词汇间关联关系的生成式话题模型:
每个关联集
Figure BDA0003001705610000036
被映射为一个文档,并且与话题分布θ∈(0,1)K相关联,关联集
Figure BDA0003001705610000037
的生成过程包含有两层多项分布:首先根据话题分布θ选取话题τ,之后根据话 题和属性间的关联φτ选取属性t∈Λ。所述LDA方法的生成过程与观察到的实体 关联与属性间的关系类似。使K∈N+表示话题空间的大小,从整个知识图谱的 角度来看,存在一个全局的话题分布,对每个话题存在一个属性上的分布:令Φ∈ (0,1)K×|Λ|表示话题和全部属性集之间的关联分布,每一列向量φτ∈(0,1)|Λ|,τ∈ [1..K]表示话题τ与属性间的关联分布。
根据本发明优选的,所述对公共知识图谱系统中的关联语义进行建模学习还 包括:在预处理阶段,从公共知识图谱系统中采样一定数量的实体,之后通过采 样该部分实体间的直接关联,生成大量的关联集
Figure BDA0003001705610000038
为观测训练样本,使用LDA方 法进行属性关联语义的建模学习。优选的,所述建模学习采用基于变分贝叶斯的 在线LDA算法。经过建模学习后,可以获得属性和话题之间的关联矩阵Φ。其中 的每个元素Φτ,t表示了话题τ与属性t之间的关联强度。矩阵Φ表示了知识图谱中实 体间的关联语义。本方法的学习过程同时具有高效性和鲁棒性。知识图谱的规模 通常非常大,常使用分布式的形式进行存取。而相较于其他模型,本模型仅需要 知识图谱的一部分信息即可完成训练。同时通过对实体属性的建模,本方法对知 识图谱的更新具有鲁棒性。
根据本发明优选的,建立实体之间的检索查询路径时,所述实体包括用户的 查询输入,所述查询输入包括:
待检索关联的实体p,q∈V、公共知识图谱系统查询次数限制
Figure BDA0003001705610000031
和表达 用户语义需求的约束集合π,共同表示为
Figure BDA0003001705610000032
即用户的查询输入。
根据本发明优选的,所述用户语义约束包括:包含约束和除外约束:
所述包含约束,由属性集合
Figure BDA0003001705610000033
表示,表明检索查询路径上的每个实体必 须包含πp中的属性,即对路径上的每一个实体v,有
Figure BDA0003001705610000034
所述除外约束,由属性集合
Figure BDA0003001705610000035
表示,表明在计算关联集和实体关联时, πx集合中的属性不被考虑。
根据本发明优选的,所述用户语义约束还包括语义属性间等价约束,表示为 πe(t1,t2),t1,t2∈Λ,表示属性t1和t2在推断任务中等价,该关系满足自反性、对 称性和传递性。
通过上述约束,用户可根据领域知识,选择对形成路径更有意义的属性。例 如对经济领域的欺诈检测而言,知识图谱包含了企业、雇员、客户、股东等信息, 而审查员可能会对一定金额以上的敏感交易进行潜在的欺诈检查。对于公司甲有 子公司公司乙的情况,说明两公司之间具有紧密的关系,可以使用等价关系将受 雇于两者的属性认为等同。
根据本发明优选的,所述用户约束还包括候选实体筛选和关联语义调整:
首先考虑所有可能的候选实体:
1)考虑到包含约束要求实体都具有πp中的属性,候选实体集合应当表示为
Figure BDA0003001705610000041
根据直接关联
Figure BDA0003001705610000042
的定义,Vπ中的实体已经因为共同拥有 πp中的属性而形成了关联,因此πp中的属性在选取检索查询路径上的候选实体时 需被排除;
2)如果包含约束中的属性与其它属性有等价关系,则具有等价属性的实体 需作为候选实体,令Λ′表示在实行约束后可用的属性集合。类似的,除外约束将 保证πx中的属性从Λ′中排除,但不会影响候选实体集合Vπ。令π表示用户定义的 等价关系和约束集合,引入函数
Figure BDA0003001705610000043
表示在约束下实体v∈V所具有的属性。因 此约束下实体p,q∈Vπ之间的关联集计算为
Figure BDA0003001705610000044
在约束π下,当且 仅当
Figure BDA0003001705610000045
时,p与q具有直接关联,表示为
Figure BDA0003001705610000046
其次进行关联语义的调整:
在前述建模过程中获取了关联语义Φ,在具体的检索查询中对关联语义Φ进 行调整以适应约束π;
1)根据下列步骤计算新的属性集合Λ′,并计算Φ在Λ′上的投影Φ′,
首先根据除外约束计算原始属性集合中允许使用的属性集合:表示为
Figure BDA0003001705610000047
对于每个属性t∈Λ′,如果有与其相关的等价关系πe(t,t′)∈π,将创建一个 虚拟属性
Figure BDA0003001705610000051
来代替t和t′,即从Λ′中删去t和t′以避免冗余,具有属性t或t′的实体将 转为使用属性
Figure BDA0003001705610000052
虚拟属性的集合表示为
Figure BDA0003001705610000053
新的属性集合
Figure BDA0003001705610000054
计算Φ在Λ′上的投影Φ′时,
Figure BDA0003001705610000055
中的属性保留原始的与话题间的关联强度,对于等价关系πe(t,t′)∈π所产生的虚拟属性
Figure BDA0003001705610000056
话题τ与属性
Figure BDA0003001705610000057
之间的关联概率为与 属性t和t′关联概率之和,即有对τ∈[1..K],
Figure BDA00030017056100000513
考虑到等价的传 递性,可能有两个以上的属性互相等价,这些属性共同形成一个等价集,关联概 率也相应的做出修改;最终形成在用户约束下的关联语义Φ′;
2)重建每个话题所具有的关联强度:之前每个话题对关联语义的贡献是相 同的,在π的约束下,被移除的属性将减弱与其具有关联的话题的关联强度,因 此引入一个调整向量来记录剩余属性带来的话题关联强度,记为
Figure BDA0003001705610000058
Figure BDA0003001705610000059
3)对根据用户约束调整得到的关联语义Φ′中每个话题的概率分布重新进行 归一化,上述过程并不需要对关联语义Φ重新进行训练,可以在与π相关的线性 时间内完成。
根据本发明优选的,所述建立实体之间的检索查询路径是指根据用户查询对 公共知识图谱系统进行检索以获取符合用户语义的实体路径,其特征在于,给定 知识图谱G上的一个用户的查询输入
Figure BDA00030017056100000510
首先检查实体p和q是否直 接关联,或通过检查邻居实体集合
Figure BDA00030017056100000511
Figure BDA00030017056100000512
确定是否存在一跳的关联:如果 不存在,则期望寻找到一条短且紧密的关联。
根据本发明优选的,确定短且紧密的关联的方法为利用二阶共现现象协助寻 找到一个更有可能形成简短有意义的语义路径的中间实体:找到一个中间属性t, 根据概率算法找到的具有t属性的实体更有可能成为路径上的实体。概率算法的 流程如图2所示。在建模过程中,话题起到关联不同属性的作用,同时话题也可 以成为选取路径中间实体的参考,例如寻找一个首尾实体所没有的新属性来查找 中间实体,例如:属性t1和t2在训练时经常与t3一同出现,而t1与t2不曾同时出现, 在学习得到的话题空间中,t1依然会与t2接近,这种现象称为二阶共现。
根据本发明优选的,根据概率算法找到的具有t属性的实体更有可能成为路 径上的实体的方法包括:
1)根据实体共同关注的话题来选取中间属性:根据学习到的关联语义Φ, 依据实体属性
Figure BDA0003001705610000061
Figure BDA0003001705610000062
计算实体话题分布θp和θq;通过计算两个话题分布的哈 德曼积,结合约束处理过程得到的话题强度调整向量
Figure BDA0003001705610000063
即获取两者共同关注的 话题分布作为参考话题分布:
Figure BDA0003001705610000064
2)根据θref随机选取一个隐含话题τ,根据以Φτ为参数的多项分布选取中间 属性t。根据事件的独立性,可使用如下公式计算每个属性的选取概率分布ω:
ω=θref·Φ∈R|Λ| (2)
3)在对公共知识图谱系统的查询次数尚少于查询预算
Figure BDA00030017056100000616
时,使用以ω为参 数的多项分布选取中间属性t;
4)查找具有属性t的实体:检查集合
Figure BDA0003001705610000065
Figure BDA0003001705610000066
其中
Figure BDA0003001705610000067
表示实体v的邻居实体,
Figure BDA0003001705610000068
表示具有属性t的实体,两种集合的 构建均需要进行公共知识图谱系统的查询;
如果两个集合均不为空时,则从
Figure BDA0003001705610000069
Figure BDA00030017056100000610
中各自选取实体 m1和m2,他们由属性t所连接,同时分别与p或q连接,即查找到一条路径
Figure BDA00030017056100000611
Figure BDA00030017056100000612
并返回;
否则,将在查询预算
Figure BDA00030017056100000613
允许的情况下,重复步骤3)继续选取下一个中间属 性。
根据本发明优选的,选取所述属性t时,引入属性的权重以表示用户对属性 的重要性有偏好,属性t的权重定义为wt∈(0,1),形成权重向量
Figure BDA00030017056100000614
在路 径推断过程中属性分布参数则计算为
Figure BDA00030017056100000615
其中wt越大表示相较于其他属性 更偏好属性t在结果路径中出现。
实现以用户语义为中心的知识图谱路径检索方法的装置,其特征在于,包括: 预处理模块和查询模块,用户通过查询模块向所述装置输入查询信息、输出查询 结果;同时装置具备与外部信息源进行信息交互的数据链路;
所述预处理模块包括关联语义学习模块、实体属性关联语义,在预处理阶段 通过关联语义学习模块,根据公共知识图谱系统中的实体属性关联信息,学习建 模实体属性中所包含的实体关联语义;
所述查询模块包括用户约束处理模块和语义路径检索模块,在查询阶段,根 据用户给出的实际语义约束对学习到的实体关联语义进行调整,以用户给出的实 体为目标,对公共知识图谱系统进行检索,给出符合用户语义需求的实体路径, 最终形成查询结果。
本发明技术优势在于:
1.相较于传统方法,本发明所包含的关联语义学习方法使用知识图谱中实体 属性建模实体关联语义,对知识图谱后续更新的新出现的实体具有鲁棒性,无需 重新训练。
2.相较于传统方法,本发明所包含的语义路径检索方法使用所学习的关联语 义进行了高效的路径中间实体检索,能够使用较少的公开知识图谱系统查询次数 检索出有效的语义路径,在查询次数有限的情况下成功率更高。
3.相较于传统方法,本发明所包含的语义路径检索方法所检索出的结果路径, 能够满足用户提出的属性逻辑约束以及属性偏好的定量约束。在查找过程中除了 逻辑性地实施约束外,也考虑到了约束对所学习的关联语义的影响。同时所检索 的结果路径长度较短,关联性强,对用户有更高的实用价值。
附图说明
图1是本发明所述实现以用户语义为中心的知识图谱路径检索方法的装置 结构示意图;
图2是以用户语义为中心的实体路径检索算法。
具体实施方式
下面结合实施例和说明书附图对本发明做详细的说明,但不限于此。
实施例1、
本实施例以在常见的公共知识图谱YAGO的部分采样YAGO3M上进行以人类实 体之间的路径查询为例。其中,所述YAGO3M共包含约100万人类实体,人类实 体具有约45万不同的属性。
一种以用户语义为中心的知识图谱路径检索方法,建立至少两个实体之间的 检索查询路径,所述检索查询路径受到:从公共知识图谱系统中根据预学习的实 体属性关联语义和用户语义约束。
所述预学习的实体属性关联语义包括:对公共知识图谱系统中的关联语义进 行建模学习,将关联语义建模为属性在隐含话题空间中的向量表示;
采用隐藏狄利克雷分布方法,英文LDA方法,用于建模文档和词汇间关联关 系的生成式话题模型:
每个关联集
Figure BDA0003001705610000081
被映射为一个文档,并且与话题分布θ∈(0,1)K相关联,关联集
Figure BDA0003001705610000082
的生成过程包含有两层多项分布:首先根据话题分布θ选取话题τ,之后根据话 题和属性间的关联φτ选取属性t∈Λ。所述LDA方法的生成过程与观察到的实体 关联与属性间的关系类似。使K∈N+表示话题空间的大小,从整个知识图谱的 角度来看,存在一个全局的话题分布,对每个话题存在一个属性上的分布:令Φ∈ (0,1)K×|Λ|表示话题和全部属性集之间的关联分布,每一列向量φτ∈(0,1)|Λ|,τ∈ [1..K]表示话题τ与属性间的关联分布。
所述对公共知识图谱系统中的关联语义进行建模学习还包括:在预处理阶段, 从公共知识图谱系统中采样一定数量的实体,从YAGO3M中随机选取约5万人类 实体,使用从中所采样到的关联集作为样本使用LDA方法进行训练,之后通过采 样该部分实体间的直接关联,生成大量的关联集
Figure BDA0003001705610000083
为观测训练样本,使用LDA方 法进行属性关联语义的建模学习。优选的,所述建模学习采用基于变分贝叶斯的 在线LDA算法。此处作为示例选取LDA话题数为5,经过LDA方法训练后得到知 识图谱的关联语义,话题-属性矩阵Φ。
建立实体之间的检索查询路径时,所述实体包括用户的查询输入,所述查询 输入包括:
待检索关联的实体p,q∈V、公共知识图谱系统查询次数限制
Figure BDA0003001705610000084
和表达 用户语义需求的约束集合π,共同表示为
Figure BDA0003001705610000085
即用户的查询输入。 一个可能的用户查询输入实例为
Figure BDA0003001705610000086
Figure BDA0003001705610000087
其中约束π规定路径中只接受<graduateFrom,*>形式,即毕业于 某校的属性,使检索路径上查找到的人类实体之间均为校友关系。
所述用户语义约束包括:包含约束和除外约束:
所述包含约束,由属性集合
Figure BDA0003001705610000091
表示,表明检索查询路径上的每个实体必 须包含πp中的属性,即对路径上的每一个实体v,有
Figure BDA0003001705610000092
所述除外约束,由属性集合
Figure BDA0003001705610000093
表示,表明在计算关联集和实体关联时, πx集合中的属性不被考虑。
所述用户语义约束还包括语义属性间等价约束,表示为πe(t1,t2),t1,t2∈Λ, 表示属性t1和t2在推断任务中等价,该关系满足自反性、对称性和传递性。
所述用户约束还包括候选实体筛选和关联语义调整:
首先考虑所有可能的候选实体:
1)考虑到包含约束要求实体都具有πp中的属性,候选实体集合应当表示为
Figure BDA0003001705610000094
根据直接关联
Figure BDA00030017056100000914
的定义,Vπ中的实体已经因为共同拥有 πp中的属性而形成了关联,因此πp中的属性在选取检索查询路径上的候选实体时 需被排除;
2)如果包含约束中的属性与其它属性有等价关系,则具有等价属性的实体 需作为候选实体,令Λ′表示在实行约束后可用的属性集合。类似的,除外约束将 保证πx中的属性从Λ′中排除,但不会影响候选实体集合Vπ。令π表示用户定义的 等价关系和约束集合,引入函数
Figure BDA0003001705610000095
表示在约束下实体v∈V所具有的属性。因 此约束下实体p,q∈Vπ之间的关联集计算为
Figure BDA0003001705610000096
在约束π下,当且 仅当
Figure BDA0003001705610000097
时,p与q具有直接关联,表示为
Figure BDA0003001705610000098
其次进行关联语义的调整:
在前述建模过程中获取了关联语义Φ,在具体的检索查询中对关联语义Φ进 行调整以适应约束π;
1)根据下列步骤计算新的属性集合Λ′,并计算Φ在Λ′上的投影Φ′,
首先根据除外约束计算原始属性集合中允许使用的属性集合:表示为
Figure BDA0003001705610000099
对于每个属性t∈Λ′,如果有与其相关的等价关系πe(t,t′)∈π,将创建一个 虚拟属性
Figure BDA00030017056100000910
来代替t和t′,即从Λ′中删去t和t′以避免冗余,具有属性t或t′的实体将 转为使用属性
Figure BDA00030017056100000911
虚拟属性的集合表示为
Figure BDA00030017056100000912
新的属性集合
Figure BDA00030017056100000913
计算Φ在Λ′上的投影Φ′时,
Figure BDA0003001705610000101
中的属性保留原始的与话题间的关联强度,对于等价关系πe(t,t′)∈π所产生的虚拟属性
Figure BDA0003001705610000102
话题τ与属性
Figure BDA0003001705610000103
之间的关联概率为与 属性t和t′关联概率之和,即有对τ∈[1..K],
Figure BDA00030017056100001012
考虑到等价的传 递性,可能有两个以上的属性互相等价,这些属性共同形成一个等价集,关联概 率也相应的做出修改;最终形成在用户约束下的关联语义Φ′;
2)重建每个话题所具有的关联强度:之前每个话题对关联语义的贡献是相 同的,在π的约束下,被移除的属性将减弱与其具有关联的话题的关联强度,因 此引入一个调整向量来记录剩余属性带来的话题关联强度,记为
Figure BDA0003001705610000104
Figure BDA0003001705610000105
3)对根据用户约束调整得到的关联语义Φ′中每个话题的概率分布重新进行 归一化,上述过程并不需要对关联语义Φ重新进行训练,可以在与π相关的线性 时间内完成。
所述建立实体之间的检索查询路径是指根据用户查询对公共知识图谱系统 进行检索以获取符合用户语义的实体路径,其特征在于,给定知识图谱G上的一 个用户的查询输入
Figure BDA0003001705610000106
首先检查实体p和q是否直接关联,或通过检 查邻居实体集合
Figure BDA0003001705610000107
Figure BDA0003001705610000108
确定是否存在一跳的关联:如果不存在,则期望寻 找到一条短且紧密的关联。
确定短且紧密的关联的方法为利用二阶共现现象协助寻找到一个更有可能 形成简短有意义的语义路径的中间实体:找到一个中间属性t,根据概率算法找 到的具有t属性的实体更有可能成为路径上的实体。概率算法的流程如图2所示。
根据概率算法找到的具有t属性的实体更有可能成为路径上的实体的方法包 括:
1)根据实体共同关注的话题来选取中间属性:根据学习到的关联语义Φ, 依据实体属性
Figure BDA0003001705610000109
Figure BDA00030017056100001010
计算实体话题分布θp和θq;通过计算两个话题分布的哈 德曼积,结合约束处理过程得到的话题强度调整向量
Figure BDA00030017056100001011
即获取两者共同关注的 话题分布作为参考话题分布:
Figure BDA0003001705610000111
2)根据θref随机选取一个隐含话题τ,根据以Φτ为参数的多项分布选取中间 属性t。根据事件的独立性,可使用如下公式计算每个属性的选取概率分布ω:
ω=θref·Φ∈R|Λ| (2)
3)在对公共知识图谱系统的查询次数尚少于查询预算
Figure BDA0003001705610000112
时,使用以ω为参 数的多项分布选取中间属性t;
4)查找具有属性t的实体:检查集合
Figure BDA0003001705610000113
Figure BDA0003001705610000114
其中
Figure BDA0003001705610000115
表示实体v的邻居实体,
Figure BDA0003001705610000116
表示具有属性t的实体,两种集合的 构建均需要进行公共知识图谱系统的查询;
如果两个集合均不为空时,则从
Figure BDA0003001705610000117
Figure BDA0003001705610000118
中各自选取实体 m1和m2,他们由属性t所连接,同时分别与p或q连接,即查找到一条路径
Figure BDA0003001705610000119
Figure BDA00030017056100001110
并返回;
否则,将在查询预算
Figure BDA00030017056100001111
允许的情况下,重复步骤3)继续选取下一个中间属 性。
选取所述属性t时,引入属性的权重以表示用户对属性的重要性有偏好,属 性t的权重定义为wt∈(0,1),形成权重向量
Figure BDA00030017056100001112
在路径推断过程中属性分 布参数则计算为
Figure BDA00030017056100001113
在本实施例中所描述的用户约束处理模块算法对知识图谱中的关联语义Φ 进行调整:删去其中不可使用的属性并调整权重,得到约束下的关联语义Φ′和 话题关联强度向量
Figure BDA00030017056100001114
首先通过查询公共知识图谱,获取所查询实体<Keith O′Nions>,< Max Cleland>的直接关联实体集合
Figure BDA00030017056100001115
Figure BDA00030017056100001116
Figure BDA00030017056100001117
然后计算所查询实体<Keith O′Nions>,<Max Cleland>的话题分布θp= [0.15,0.15,0.2,0.1,0.4],θq=[0.1,0.1,0.1,0.4,0.3],根据公式(1)和(2)计算中间属性 参考分布
Figure BDA0003001705610000121
以ω为参数抽取可能的中间属性t,一个可能的中间属性为 <graduateFrom,Harvard University>,即毕业于哈佛大学。
通过查询公共知识图谱,获取具有该属性的人类实体集合
Figure BDA0003001705610000122
检查交集
Figure BDA0003001705610000123
Figure BDA0003001705610000124
发现均为非空。 从两个集合中各自抽取一个人类实体,最终构成路径:
Figure BDA0003001705610000125
Figure BDA0003001705610000126
其中Keith O’Nions与David Dolphin 均毕业于诺丁汉大学,David Dolphin与Joe Negron均毕业于哈佛大学,Joe Negron与Max Cleland均毕业于斯泰森大学。所返回的检索路径满足用户所给 出的语义约束。
实施例2、
如图1所示。实现以用户语义为中心的知识图谱路径检索方法的装置,其特 征在于,包括:预处理模块和查询模块,用户通过查询模块向所述装置输入查询 信息、输出查询结果;同时装置具备与外部信息源进行信息交互的数据链路,所 述的外部信息源可以是公共知识图谱系统;
所述预处理模块包括关联语义学习模块、实体属性关联语义,在预处理阶段 通过关联语义学习模块,根据公共知识图谱系统中的实体属性关联信息,学习建 模实体属性中所包含的实体关联语义;
所述查询模块包括用户约束处理模块和语义路径检索模块,在查询阶段,根 据用户给出的实际语义约束对学习到的实体关联语义进行调整,以用户给出的实 体为目标,对公共知识图谱系统进行检索,给出符合用户语义需求的实体路径, 最终形成查询结果。

Claims (10)

1.一种以用户语义为中心的知识图谱路径检索方法,其特征在于,建立至少两个实体之间的检索查询路径,所述检索查询路径受到:从公共知识图谱系统中根据预学习的实体属性关联语义和用户语义约束。
2.根据权利要求1所述的一种以用户语义为中心的知识图谱路径检索方法,其特征在于,所述预学习的实体属性关联语义包括:对公共知识图谱系统中的关联语义进行建模学习,将关联语义建模为属性在隐含话题空间中的向量表示;
优选的,此处采用隐藏狄利克雷分布方法,英文LDA方法,用于建模文档和词汇间关联关系的生成式话题模型:
每个关联集
Figure FDA0003001705600000011
被映射为一个文档,并且与话题分布θ∈(0,1)K相关联,关联集
Figure FDA0003001705600000012
的生成过程包含有两层多项分布:首先根据话题分布θ选取话题τ,之后根据话题和属性间的关联Φτ选取属性t∈Λ。
3.根据权利要求2所述的一种以用户语义为中心的知识图谱路径检索方法,其特征在于,所述对公共知识图谱系统中的关联语义进行建模学习还包括:在预处理阶段,从公共知识图谱系统中采样一定数量的实体,之后通过采样该部分实体间的直接关联,生成大量的关联集
Figure FDA0003001705600000013
为观测训练样本,使用LDA方法进行属性关联语义的建模学习;优选的,所述建模学习采用基于变分贝叶斯的在线LDA算法。
4.根据权利要求1所述的一种以用户语义为中心的知识图谱路径检索方法,其特征在于,建立实体之间的检索查询路径时,所述实体包括用户的查询输入,所述查询输入包括:
待检索关联的实体p,q∈V、公共知识图谱系统查询次数限制
Figure FDA0003001705600000014
和表达用户语义需求的约束集合π,共同表示为
Figure FDA0003001705600000015
即用户的查询输入;
所述用户语义约束包括:包含约束和除外约束:
所述包含约束,由属性集合
Figure FDA0003001705600000016
表示,表明检索查询路径上的每个实体必须包含πp中的属性,即对路径上的每一个实体v,有
Figure FDA0003001705600000017
所述除外约束,由属性集合
Figure FDA0003001705600000018
表示,表明在计算关联集和实体关联时,πx集合中的属性不被考虑。
5.根据权利要求4所述的一种以用户语义为中心的知识图谱路径检索方法,其特征在于,所述用户语义约束还包括语义属性间等价约束,表示为πe(t1,t2),t1,t2∈Λ,表示属性t1和t2在推断任务中等价,该关系满足自反性、对称性和传递性。
6.根据权利要求5所述的一种以用户语义为中心的知识图谱路径检索方法,其特征在于,所述用户约束还包括候选实体筛选和关联语义调整:
首先考虑所有可能的候选实体:
1)考虑到包含约束要求实体都具有πp中的属性,候选实体集合应当表示为
Figure FDA0003001705600000021
πp中的属性在选取检索查询路径上的候选实体时需被排除;
2)如果包含约束中的属性与其它属性有等价关系,则具有等价属性的实体需作为候选实体;
其次进行关联语义的调整:
在前述建模过程中获取了关联语义Φ,在具体的检索查询中对关联语义Φ进行调整以适应约束π;
1)根据下列步骤计算新的属性集合Λ′,并计算Φ在Λ′上的投影Φ′,
首先根据除外约束计算原始属性集合中允许使用的属性集合:表示为
Figure FDA0003001705600000022
对于每个属性t∈Λ′,如果有与其相关的等价关系πe(t,t′)∈π,将创建一个虚拟属性
Figure FDA0003001705600000023
来代替t和t′,即从Λ′中删去t和t′以避免冗余,具有属性t或t′的实体将转为使用属性
Figure FDA0003001705600000024
虚拟属性的集合表示为
Figure FDA0003001705600000025
新的属性集合
Figure FDA0003001705600000026
计算Φ在Λ′上的投影Φ′时,
Figure FDA0003001705600000027
中的属性保留原始的与话题间的关联强度,对于等价关系πe(t,t′)∈π所产生的虚拟属性
Figure FDA0003001705600000028
话题τ与属性
Figure FDA0003001705600000029
之间的关联概率为与属性t和t′关联概率之和,即有对τ∈[1..K],
Figure FDA00030017056000000210
2)重建每个话题所具有的关联强度:在π的约束下,引入一个调整向量来记录剩余属性带来的话题关联强度,记为
Figure FDA00030017056000000211
3)对根据用户约束调整得到的关联语义Φ′中每个话题的概率分布重新进行归一化。
7.根据权利要求1所述的一种以用户语义为中心的知识图谱路径检索方法,其特征在于,所述建立实体之间的检索查询路径是指根据用户查询对公共知识图谱系统进行检索以获取符合用户语义的实体路径,其特征在于,给定知识图谱G上的一个用户的查询输入
Figure FDA0003001705600000031
首先检查实体p和q是否直接关联,或通过检查邻居实体集合
Figure FDA0003001705600000032
Figure FDA0003001705600000033
确定是否存在一跳的关联:如果不存在,则期望寻找到一条短且紧密的关联;
确定短且紧密的关联的方法为利用二阶共现现象协助寻找到一个更有可能形成简短有意义的语义路径的中间实体:找到一个中间属性t,根据概率算法找到的具有t属性的实体更有可能成为路径上的实体。
8.根据权利要求7所述的一种以用户语义为中心的知识图谱路径检索方法,其特征在于,根据概率算法找到的具有t属性的实体更有可能成为路径上的实体的方法包括:
1)根据实体共同关注的话题来选取中间属性:根据学习到的关联语义Φ,依据实体属性
Figure FDA0003001705600000034
Figure FDA0003001705600000035
计算实体话题分布θp和θq;通过计算两个话题分布的哈德曼积,结合约束处理过程得到的话题强度调整向量
Figure FDA0003001705600000036
即获取两者共同关注的话题分布作为参考话题分布:
Figure FDA0003001705600000037
2)根据θref随机选取一个隐含话题τ,根据以Φτ为参数的多项分布选取中间属性t;
根据事件的独立性,可使用如下公式计算每个属性的选取概率分布ω:
ω=θref·Φ∈R|Λ| (2)
3)在对公共知识图谱系统的查询次数尚少于查询预算
Figure FDA0003001705600000038
时,使用以ω为参数的多项分布选取中间属性t;
4)查找具有属性t的实体:检查集合
Figure FDA0003001705600000039
Figure FDA00030017056000000310
其中
Figure FDA00030017056000000311
表示实体v的邻居实体,
Figure FDA00030017056000000312
表示具有属性t的实体;
如果两个集合均不为空时,则从
Figure FDA00030017056000000313
Figure FDA00030017056000000314
中各自选取实体m1和m2,他们由属性t所连接,同时分别与p或q连接,即查找到一条路径
Figure FDA00030017056000000315
Figure FDA00030017056000000316
并返回;
否则,将在查询预算
Figure FDA0003001705600000041
允许的情况下,重复步骤3)继续选取下一个中间属性。
9.根据权利要求8所述的一种以用户语义为中心的知识图谱路径检索方法,其特征在于,选取所述属性t时,引入属性的权重以表示用户对属性的重要性有偏好,属性t的权重定义为wt∈(0,1),形成权重向量
Figure FDA0003001705600000042
在路径推断过程中属性分布参数则计算为
Figure FDA0003001705600000043
10.一种实现以用户语义为中心的知识图谱路径检索方法的装置,其特征在于,包括:预处理模块和查询模块,用户通过查询模块向所述装置输入查询信息、输出查询结果;同时装置具备与外部信息源进行信息交互的数据链路;
所述预处理模块包括关联语义学习模块、实体属性关联语义,在预处理阶段通过关联语义学习模块,根据公共知识图谱系统中的实体属性关联信息,学习建模实体属性中所包含的实体关联语义;
所述查询模块包括用户约束处理模块和语义路径检索模块,在查询阶段,根据用户给出的实际语义约束对学习到的实体关联语义进行调整,以用户给出的实体为目标,对公共知识图谱系统进行检索,给出符合用户语义需求的实体路径,最终形成查询结果。
CN202110353405.3A 2021-03-31 2021-03-31 以用户语义为中心的知识图谱路径检索方法及装置 Active CN113157882B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110353405.3A CN113157882B (zh) 2021-03-31 2021-03-31 以用户语义为中心的知识图谱路径检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110353405.3A CN113157882B (zh) 2021-03-31 2021-03-31 以用户语义为中心的知识图谱路径检索方法及装置

Publications (2)

Publication Number Publication Date
CN113157882A true CN113157882A (zh) 2021-07-23
CN113157882B CN113157882B (zh) 2022-05-31

Family

ID=76886348

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110353405.3A Active CN113157882B (zh) 2021-03-31 2021-03-31 以用户语义为中心的知识图谱路径检索方法及装置

Country Status (1)

Country Link
CN (1) CN113157882B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN107038262A (zh) * 2017-05-30 2017-08-11 海南大学 一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增强方法
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN108197290A (zh) * 2018-01-19 2018-06-22 桂林电子科技大学 一种融合实体和关系描述的知识图谱表示学习方法
CN108959613A (zh) * 2018-07-17 2018-12-07 杭州电子科技大学 一种面向rdf知识图谱的语义近似查询方法
CN109918489A (zh) * 2019-02-28 2019-06-21 上海乐言信息科技有限公司 一种多策略融合的知识问答方法和系统
US20200004873A1 (en) * 2018-06-27 2020-01-02 Adobe Inc. Conversational query answering system
CN110704743A (zh) * 2019-09-30 2020-01-17 北京科技大学 一种基于知识图谱的语义搜索方法及装置
CN111191042A (zh) * 2019-12-10 2020-05-22 同济大学 一种基于知识图谱路径语义关系的搜索准确性评价方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN105550190A (zh) * 2015-06-26 2016-05-04 许昌学院 面向知识图谱的跨媒体检索系统
CN107038262A (zh) * 2017-05-30 2017-08-11 海南大学 一种关联频度计算的基于数据图谱、信息图谱和知识图谱框架的语义建模及抽象增强方法
CN107665252A (zh) * 2017-09-27 2018-02-06 深圳证券信息有限公司 一种创建知识图谱的方法及装置
CN108197290A (zh) * 2018-01-19 2018-06-22 桂林电子科技大学 一种融合实体和关系描述的知识图谱表示学习方法
US20200004873A1 (en) * 2018-06-27 2020-01-02 Adobe Inc. Conversational query answering system
CN108959613A (zh) * 2018-07-17 2018-12-07 杭州电子科技大学 一种面向rdf知识图谱的语义近似查询方法
CN109918489A (zh) * 2019-02-28 2019-06-21 上海乐言信息科技有限公司 一种多策略融合的知识问答方法和系统
CN110704743A (zh) * 2019-09-30 2020-01-17 北京科技大学 一种基于知识图谱的语义搜索方法及装置
CN111191042A (zh) * 2019-12-10 2020-05-22 同济大学 一种基于知识图谱路径语义关系的搜索准确性评价方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PEIHAO TONG ET AL.: "Leveraging Domain Context for Question Answering Over Knowledge Graph", 《DATA SCIENCE AND ENGINEERING》 *
文枭: "基于知识图谱的内容推荐算法研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈成 等: "意图知识图谱的构建与应用", 《大数据》 *

Also Published As

Publication number Publication date
CN113157882B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN104239513B (zh) 一种面向领域数据的语义检索方法
JP5391634B2 (ja) 文書の段落分析によるその文書のタグの選択
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
JP2009093651A (ja) 統計分布を用いたトピックスのモデリング
CN113779211A (zh) 一种基于自然语言实体关系的智能问答推理方法和系统
CN112507136A (zh) 一种知识驱动的业务操作图谱构建方法
CN111651447B (zh) 一种智能建造全寿期数据处理分析管控系统
CN113254659A (zh) 一种基于知识图谱技术的档案研判方法及系统
CN110633366A (zh) 一种短文本分类方法、装置和存储介质
CN113761971B (zh) 一种遥感影像目标知识图谱构建方法及装置
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及系统
CN107291895B (zh) 一种快速的层次化文档查询方法
Rinaldi et al. A matching framework for multimedia data integration using semantics and ontologies
CN112036178A (zh) 一种配网实体相关的语义搜索方法
US9594755B2 (en) Electronic document repository system
CN116127084A (zh) 基于知识图谱的微电网调度策略智能检索系统及方法
Ma et al. Matching descriptions to spatial entities using a Siamese hierarchical attention network
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN117149974A (zh) 一种子图检索优化的知识图谱问答方法
CN113157882B (zh) 以用户语义为中心的知识图谱路径检索方法及装置
CN115797795A (zh) 基于强化学习的遥感影像问答式检索系统及方法
Bhavani et al. An efficient clustering approach for fair semantic web content retrieval via tri-level ontology construction model with hybrid dragonfly algorithm
Eddamiri et al. Graph embeddings for linked data clustering
CN113127650A (zh) 一种基于图数据库的技术图谱构建方法和系统
CN112580691A (zh) 一种元数据字段的术语匹配方法、匹配系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant