CN108959613B - 一种面向rdf知识图谱的语义近似查询方法 - Google Patents

一种面向rdf知识图谱的语义近似查询方法 Download PDF

Info

Publication number
CN108959613B
CN108959613B CN201810782472.5A CN201810782472A CN108959613B CN 108959613 B CN108959613 B CN 108959613B CN 201810782472 A CN201810782472 A CN 201810782472A CN 108959613 B CN108959613 B CN 108959613B
Authority
CN
China
Prior art keywords
entity
corpus
semantic
query
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810782472.5A
Other languages
English (en)
Other versions
CN108959613A (zh
Inventor
徐小良
葛张鹏
王宇翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201810782472.5A priority Critical patent/CN108959613B/zh
Publication of CN108959613A publication Critical patent/CN108959613A/zh
Application granted granted Critical
Publication of CN108959613B publication Critical patent/CN108959613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种面向RDF知识图谱的语义近似查询方法。本发明中的离线阶段:首先,考虑RDF知识图谱实体与谓词具有的语义局部性特征,对RDF知识图谱划分,并对划分后的知识图谱进行可训练文本语料的生成;其次,利用文本嵌入模型对上述文本语料进行上下文敏感的语义学习,获取实体与谓词的语义向量。在线阶段:首先,针对用户提交的SPARQL查询进行语法分析,并对其中的谓词进行语义扩展;其次,从给定实体出发进行基于谓词语义相似度的近似查询,获取语义近似查询结果。本发明利用语义局部性特征对RDF知识图谱进行上下文敏感的语义学习,进而支持对RDF知识图谱的模糊查询应用,实时返回满足用户查询意图的近似查询结果。

Description

一种面向RDF知识图谱的语义近似查询方法
技术领域
本发明涉及知识图谱查询技术领域,具体涉及一种面向RDF知识图谱的语义近似查询方法。
背景技术
近年来,随着社交网络、电子商务等新一代大规模互联网智能应用的兴起,网络中各类数据的规模、更新速率、复杂程度均日益增长。在大数据分析过程中,基于RDF(Resource Description Framework)的知识图谱(Knowledge Graph)作为一种有效描述大数据及其复杂关联关系的数据表现形式,扮演着越来越重要的角色。
目前,面向RDF知识图谱的查询方法按照其所用技术及应用场景可分为以下两类:(1)基于子图遍历和匹配算法实现对给定查询图的精确查询,即返回严格满足查询条件的查询结果(查询结果一定包含给定的查询谓词)。(2)基于先验知识和结构相似性实现对给定查询图的模糊查询,即返回近似查询结果(查询结果不仅限于给定的谓词)。
上述研究成果分别从结构相似性、语义相似性等角度展开研究并取得了突出效果,但面对多源异构且具有一定数据不完整性的RDF知识图谱,上述研究成果仍然具有一定的局限性。以wikipedia为例,其允许全网用户进行开放式的词条创立、维护、更新,导致针对同一实体或谓词的描述具有多种不同形式,使用户无法给出精确的查询语句,引起查询结果的缺失。此外,也会出现某类知识缺乏描述信息的情况,即存在一定的数据不完整性,使用户无法通过通用的先验知识获取此类知识的结构特征,引起查询结果缺失。
综上所述,在RDF知识图谱查询应用中,由于用户并不了解底层数据的组织结构与关联关系,无法写出精确的SPARQL查询语句,且无法利用有限的先验知识覆盖某一领域全部知识的图谱结构,从而导致查询结果数量有限且不能很好满足用户真实查询意图。为此,本发明充分考虑RDF知识图谱中实体与谓词的语义局部性特征实现对知识图谱数据的有效重构形成可训练的文本语料,在此基础上利用文本语义嵌入模型实现上下文敏感的语义学习,获取实体与谓词的语义向量,最后对用户提供的SPARQL查询语句进行语法分析并扩展查询谓词语义,实现基于语义相似度的RDF知识图谱近似查询,实时返回满足用户查询意图的语义近似查询结果。
发明内容
本发明的目的在于克服上述已有技术的不足,提出一种面向RDF知识图谱的语义近似查询方法,有效解决RDF知识图谱查询在多源异构及数据不完整性约束下的查询精度及性能问题,有助于促进知识图谱近似查询研究领域的进一步发展。本发明提出的面向RDF知识图谱的语义近似查询方法,具体步骤包括两个阶段:离线语料生成和训练阶段以及在线实时查询阶段。其中:
步骤1:离线语料生成和训练阶段。
这个阶段包括将RDF知识图谱转化成可训练的文本语料,并利用文本嵌入模型对该文本语料进行上下文敏感的语义学习,训练出实体与谓词的语义向量。主要包括以下三个步骤:
步骤1.1:实体划分
实体划分是根据实体的类型,对RDF知识图谱进行划分,使得相同类型的实体聚集在一起进行语料的生成,有助于语料训练效果的提高。假设给定两个实体ei和ej,通过RDF知识图谱获得两个实体的邻接实体分别是N(ei)={ni1,ni2,...,nik}和N(ej)={nj1,nj2,...,njm}(其中,ni1是实体ei的第一个邻接实体)。再获取给定实体及其邻接实体的类型分别是T(ei)={ti1,ti2,...,tik'}和T(ej)={tj1,tj2,...,tjm'},如果T(ei)和T(ej)的主要部分都重合,即可判定实体ei和ej是相同类型的实体。按照上述规则将RDF知识图谱中的所有实体划分为n个实体集合E={Ek|1≤k≤n,k∈N},其中,每个实体集Ek包含了相同类型的m个实体,表示为Ek={eki|1≤i≤m,i∈N}。
步骤1.2:语料生成
考虑RDF知识图谱中实体与谓词的语义局部性特征,提出一种BFS-DFS混合图遍历语料生成算法CorpusGeneration,对知识图谱数据进行有效重构,形成可训练的文本语料。根据步骤1.1划分好的实体集,对n个实体集合的每一个实体集都进行语料生成。下面拿n个实体集合中的某一个实体集E作为例子进行说明,其他实体集合也做相同操作。考虑某一个实体节点,周边与其越靠近的知识图谱网络所表达的语义信息必定与该实体更为相关,而与其越远的知识图谱网络所表达的语义信息相对来说相关性更低,生成的语料文本经过训练以后得到的相关性效果也较差。因此本发明考虑用广度优先遍历算法(BFS)先在某个实体周边框定一个范围,尽可能保证基于这个范围内生成的语料文本与该实体具有较高的相关性。框定范围后,为了保证生成的语料信息具有一定的逻辑性和实际意义,比如车型BMW_X6的厂商是BMW公司,而BMW公司又是德国企业,那么具有实际意义的一条路径即可表示为:
BMW_X6-manufacturer-BMW-location-Germany
因此本发明在框定范围的基础上采用了深度优先遍历算法(DFS)来获取框定范围内具有逻辑性和实际意义的路径,将这些路径拼接后构成语料文本。下面拿n个实体集合中的某一个实体集作为例子进行说明,其他实体集合也做相同操作。假设从n个实体集合中选定了一个实体集E,该实体集中包含了相同类型的m个实体,表示为E={ei|1≤i≤m,i∈N}。从构建好的RDF知识图谱中获取关于这个实体集E的实体类型关系结构图O,并给定语料限定层数参数n,把E,O,n作为输入参数,按如下算法进行语料生成:
Figure BDA0001732937380000031
Figure BDA0001732937380000041
其中,输入参数E为知识图谱划分后选定的实体集;O为从RDF知识图谱得到该实体集中实体的类型关系图结构;n为给定的语料限定层数参数;T为已经作为起始节点访问过的实体集合。
首先设置T为空,表明初始时实体集E中的任何实体节点都未被访问。根据已访问节点集合T以及关于实体集E中关于实体类型的关系结构O,从实体集E中选定一个实体estart作为起始中心节点,并从E集合中删除该实体,避免之后对该实体进行重复访问处理;当E不为空时,首先初始化Pstart为空,Pstart为起始节点estart到以estart为中心n层范围内的其他节点(不包括estart)的路径,Cstart以是关于起始节点estart的语料文本,把estart、n、Pstart、Cstart以及T作为输入做nDepthBFS算法操作,在nDepthBFS算法中生成的语料文本信息更新到Cstart,同时更新T。退出nDepthBFS算法,把更新完的Cstart加入到语料集C中。根据更新完的T以及O,并在实体集E中过滤掉已经作为中心节点访问过的集合T,重新选定一个起始中心节点,重复以上操作直到实体集E中的所有实体节点都被访问。
其中,nDepthBFS中生成语料信息更新Cstart以及T的过程按如下算法进行计算:
Figure BDA0001732937380000042
Figure BDA0001732937380000051
其中,该算法中的输入estart为起始中心节点,n为给定的语料限定层数参数,Pstart为estart到以estart为中心n层范围内的其他节点的路径,Cstart为关于当前中心点estart的语料文本信息,T为已经作为起始节点访问过的实体集合。
算法首先判断当前语料限定层数n是否小于等于零,如果满足n小于等于零的条件,说明当前范围内中心节点周围已无其他节点与边,则把当前中心节点estart加到路径Pstart中,然后把当前路径Pstart为加入到语料集Cstart中,并且把estart加入到T中,表明中心节点estart已经被访问过;如果不满足n小于等于零的条件,则把当前中心节点estart加到路径Pstart中,并且把estart加入到T中,表明中心节点estart已经被访问过,然后找出中心节点estart的邻接节点,对于每一个estart的邻接节点都做nDepthBFS递归操作,其中输入参数更新为n-1层,直到中心节点周围已无其他节点与边。
步骤1.3:语料训练
通过步骤1.2的算法进行一系列计算之后把RDF知识图谱转化成了可以训练的文本语料C,利用gensim的word2vec模型对语料C进行上下文敏感的语义学习,得到关于语料C的语义模型M,通过加载该模型可以获取语料C中某一个词word的topK个词义最相近的相关词,构成关于word的相关词集合word',使之可以在进行在线实时查询的时候被使用。
步骤2:在线实时查询阶段。
这个阶段包括对用户给定的SPARQL查询语句进行语法分析,并对其中的谓词进行适当语义扩展;然后从给定实体出发进行基于谓词语义相似度的近似迭代查询,实时获取语义近似查询结果。主要包括以下两个步骤:
步骤2.1:SPARQL解析
对用户给定的SPARQL查询语句进行语法分析,解析出用户指定实体、用户期望返回宾语的类型、用户指定的关系谓词,并根据步骤1.3中得到的语义模型M计算出关系谓词的相关词,完成适当的语义扩展。在该过程中,将解析得到的结果作为输入参数代入迭代查询算法semanticApproQuery进行实时计算。具体按如下算法进行解析:
Figure BDA0001732937380000061
其中,该算法中的输入Q为用户给定的SPARQL查询语句。该算法先对用户给定的SPARQL查询语句Q进行解析,得到指定主语实体estart,用户期望返回结果的宾语实体的类型tend,以及指定的谓语关系r;通过步骤1.3得到的相似词计算模型M,计算出指定谓语关系r的所有近义相关词的集合r';G为总查询结果集,初始为空;P为查询结果的子路径。
步骤2.2:近似迭代查询
通过解析用户给定的SPARQL语句,得到主语实体、指定谓词以及宾语实体类型,为了尽可能全的找出用户希望得到的宾语实体,本发明考虑从主语实体出发,借助训练得到的语义模型获取谓词的语义相关词,在知识图谱中匹配由主语实体+相关谓词构成的子图模式,从而找到与主语实体一跳相关的宾语实体,并判断该宾语实体的类型是否属于用户指定的实体类型,若符合则加入结果集中。再从已得到的结果集中的宾语实体出发,迭代上述操作可找到与主语实体两跳相关的宾语实体结果。如此迭代查询,直到找出所有满足条件的宾语实体,再将迭代过程中记录的宾语实体拼接成一条路径,即找到指定主语实体到结果宾语的路径(实体之间用谓词连接)。具体的查询过程按如下semanticApproQuery算法进行:
Figure BDA0001732937380000071
其中,该算法中的输入estart为用户指定的主语实体节点,r'为指定谓语关系r的相似词集合,tend为用户期望返回结果实体的类型、P为查询结果的子路径、G为总查询结果集。
算法首先判断起始节点estart的类型是否是tend类型,若条件满足,则把当前子路径P加入到查询结果集G中;若条件不满足,则获取当前起始节点estart的邻接谓语关系词,判断该词是否属于r',若属于,则获取当前起始节点estart与当前谓语关系词ri组成的三元组关系中的另一个节点e'start,把该节点加入到子路径P中。然后将e'start、r'、tend、G、P作为新的输入参数,递归调用semanticApproQuery算法,直到找到当前节点的类型是tend才结束。
与现有技术相比,本发明有如下优点:
一方面,本发明考虑了语义局部性特征,实现了上下文敏感知识图谱语义学习。通过BFS-DFS混合图遍历算法实现对RDF图数据的有效重布局,将物理上具有局部相关性的实体聚合在一起形成文本语料(完成从图数据到文本语料的有效转换),在保留已有三元组知识的同时通过局部相关性对其进行知识扩充以尽可能消除多源异构和数据不完整性对语义学习带来的负面影响,使得在数据多源化以及数据不完整的情况下,借助数据本身带有的语义尽可能地减少对于先验知识的依赖。然后利用文本嵌入模型对RDF知识图谱实体、谓词等要素实现上下文敏感的语义学习,获取语义向量,为后续语义近似迭代查询提供数据基础。
另一方面,在上述数据基础上,本发明对用户的SPARQL查询进行语义拓展即查询语义的泛化,然后通过多层次的迭代查询,尽可能多的查找出所有满足条件的路径。
附图说明
图1为本发明的系统架构图。
图2为本发明离线和在线阶段的实例流程图。
具体实施方式
以下用实例并结合附图来演示本发明的具体实施方式。本发明整体系统架构如图1所示,各个阶段依次进行处理如下:
步骤1:离线语料生成和训练阶段。
这个阶段包括将RDF知识图谱转化成可训练的文本语料,并利用文本嵌入模型对该文本语料进行上下文敏感的语义学习,训练出实体与谓词的语义向量。主要包括以下三个步骤:
步骤1.1:实体划分
面向整个英文维基库(https://www.wikipedia.org/)的RDF知识图谱,根据实体的类型,相同类型的实体聚集成一类,将RDF知识图谱中的所有实体划分为n个实体集合E={Ek|1≤k≤n,k∈N},其中,每个实体集Ek包含了相同类型的m个实体,表示为Ek={eki|1≤i≤m,i∈N}。
步骤1.2:语料生成
根据步骤1.1划分好的实体集,对n个实体集合的每一个实体集都进行语料生成。下面拿n个实体集合中的某一个实体集E作为例子进行说明,其他实体集合也做相同操作。在该实体集E中选取某一个实体节点G,从G点出发通过BFS-DFS混合图遍历语料生成算法CorpusGeneration,获取了G点周边相关的实体节点与关系,如图2中RDF KG of G Storage所示,其中图中各个实体记号与它实际意义的对应关系如下:
A:University_of_Stuttgart
B:Stuttgart
C:München
D:FC_Bayern_München
E:Porsche_911
F:Porsche
G:Germany
H:BMW
I:BMW_X5
J:Porsche_Panamera
K:Porsche_Cayenne
L:Angela_Dorothea_Merkel
M:BMW_Z4
N:BMW_i8
O:Automobile
图中各个关系记号与它实际意义的对应关系如下:
r1:education
r2:sport
r3:establish
r4:city
r5:city
r6:place_of_origin
r7:manufacturer
r8:location
r9:production
r10:manufacturer
r11:designer
r12:supplier
r13:leader
r14:designer
r15:supplier
r16:type
r17:type
r18:type
r19:type
r20:type
r21:type
最终转化得到的文本语料如下:
Gr4Br3Fr7E Gr4Br3Fr11J Gr4Br3Fr12K Gr5Cr6Hr10I......
替换成实际意义的文本语料如下:
Germany-city-Stuttgart-establish-Porsche-manufacturer-Porsche_911
Germany-city-Stuttgart-establish-Porsche-designer-Porsche_Panamera
Germany-city-Stuttgart-establish-Porsche-supplier-Porsche_Cayenne
Germany-city-München-place_of_origin-BMW-manufacturer-BMW_X5
步骤1.3:语料训练
利用gensim的word2vec模型对上述步骤1.2得到的语料文本进行上下文敏感的语义学习,学习得到语料中每一个词的200维的向量,由这些向量构成了关于该语料的语义模型。通过加载该模型可以获取语料中某一个词的topK个词义最相近的相关词,构成关于这个词的相关词集合,使之可以在进行在线实时查询的时候被使用。
步骤2:在线实时查询阶段。
这个阶段包括对用户给定的SPARQL查询语句进行语法分析,并对其中的谓词进行适当语义扩展;然后从给定实体出发进行基于谓词语义相似度的近似迭代查询,实时获取语义近似查询结果。主要包括以下两个步骤:
步骤2.1:SPARQL解析
对用户给定的SPARQL查询语句进行语法分析,解析出用户指定实体、用户期望返回宾语的类型、用户指定的关系谓词,并根据步骤1.3中得到的语义模型计算出关系谓词的相关词,完成适当的语义扩展。在该过程中,将解析得到的结果作为输入参数代入迭代查询算法semanticApproQuery进行实时计算。如说明书附图2中用户给出的SPARQL查询语句所表述的查询意图是想找到在德国生产的汽车,解析该SPARQL语句可以得出用户指定实体标记是G(Germany),用户期望返回的宾语类型实体标记是O(Automobile),用户指定的关系谓词是r8(location)、r11(designer)和r16(type),通过训练好的语义模型对这些谓词进行适当的语义扩展,得到r8与r4、r5、r3、r6、r9语义相关,即location与establish、place_of_origin、production等词语义相关。
步骤2.2:近似迭代查询
通过解析用户给定的SPARQL语句,得到主语实体、指定谓词以及宾语实体类型,为了尽可能全的找出用户希望得到的宾语实体,本发明考虑从主语实体出发,借助训练得到的语义模型获取谓词的语义相关词,在知识图谱中匹配由主语实体+相关谓词构成的子图模式,从而找到与主语实体一跳相关的宾语实体,并判断该宾语实体的类型是否属于用户指定的实体类型,若符合则加入结果集中。再从已得到的结果集中的宾语实体出发,迭代上述操作可找到与主语实体两跳相关的宾语实体结果。如此迭代查询,直到找出所有满足条件的宾语实体,再将迭代过程中记录的宾语实体拼接成一条路径,即找到指定主语实体到结果宾语的路径(实体之间用谓词连接)。具体的查询过程按semanticApproQuery算法进行。在实例中如说明书附图2中的近似查询结果图所示,通过解析SPARQL语句以及适当语义扩展以后,从标记为G的指定实体出发,通过迭代查询,得到G到标记为O的所有路径,即找到了在德国生产的汽车有Porsche_911、Porsche_Panamera、Porsche_Cayenne、BMW_X5、BMW_Z4、BMW_i8等,并且找到了这些汽车与德国之间的路径关系。

Claims (2)

1.一种面向RDF知识图谱的语义近似查询方法,其特征在于,该方法包含两个阶段:离线语料生成和训练阶段以及在线实时查询阶段;其中:
所述离线语料生成和训练阶段包含如下步骤:
步骤1.1:实体划分
根据实体的类型,对RDF知识图谱进行划分,使得相同类型的实体聚集在一起进行语料的生成;
步骤1.2:语料生成
根据RDF知识图谱中实体与谓词的语义局部性特征,通过提出一种BFS-DFS混合图遍历语料生成算法CorpusGeneration,对知识图谱数据进行有效重构,形成可训练的文本语料;根据步骤1.1划分好的实体集,对n个实体集合的每一个实体集都进行语料生成;
步骤1.3:语料训练
利用gensim的word2vec模型对步骤1.2中生成的文本语料进行上下文敏感的语义学习,得到关于该语料的语义模型,通过加载该模型获取语料中每一个词的topK个词义最相近的相关词,构成关于这个词的相关词集合,使之可以在进行在线实时查询的时候被使用;
所述在线实时查询阶段包含如下步骤:
步骤2.1:SPARQL解析
对用户给定的SPARQL查询语句进行语法分析,解析出用户指定实体、用户期望返回宾语的类型、用户指定的关系谓词,并根据加载步骤1.3中得到的语义模型计算出指定关系谓词的相关词,完成适当的语义扩展;
步骤2.2:近似迭代查询
通过解析用户给定的SPARQL查询语句,得到主语实体、指定谓词以及宾语实体类型;该查询从主语实体出发,借助步骤1.3扩展得到指定谓词的语义相关词集合,在知识图谱中匹配由主语实体和相关谓词构成的子图模式,从而找到与主语实体一跳相关的宾语实体,并判断该宾语实体的类型是否属于用户指定的实体类型,若符合则加入结果集中;再从已得到的结果集中的宾语实体出发,迭代上述操作可找到与主语实体两跳相关的宾语实体结果;如此迭代查询,直到找出所有满足条件的宾语实体,再将迭代过程中记录的宾语实体拼接成一条路径,即找到指定主语实体到结果宾语的路径;
所述步骤1.2进行语料生成时提出的一种BFS-DFS混合图遍历语料生成算法CorpusGeneration具体是:
设定输入参数E为知识图谱划分后选定的实体集;O为从RDF知识图谱得到该实体集中实体的类型关系图结构;n为给定的语料限定层数参数;T为已经作为起始节点访问过的实体集合;
首先设置T为空,表明初始时实体集E中的任何实体节点都未被访问;根据已访问节点集合T以及关于实体集E中关于实体类型的关系结构O,从实体集E中选定一个实体estart作为起始中心节点,并从E集合中删除该实体,避免之后对该实体进行重复访问处理;当E不为空时,首先初始化Pstart为空,Pstart为起始节点estart到以estart为中心n层范围内的其他节点的路径,不包括起始节点estart,Cstart是关于起始节点estart的语料文本,把estart、n、Pstart、Cstart以及T作为输入做nDepthBFS算法操作,在nDepthBFS算法中生成的语料文本信息更新到Cstart,同时更新T;退出nDepthBFS算法,把更新完的Cstart加入到语料集C中;根据更新完的T以及O,并在实体集E中过滤掉已经作为中心节点访问过的集合T,重新选定一个起始中心节点,重复以上操作直到实体集E中的所有实体节点都被访问。
其中nDepthBFS算法中生成语料信息更新Cstart以及T的过程按如下进行:
设定输入参数estart为起始中心节点,n为给定的语料限定层数参数,Pstart为estart到以estart为中心n层范围内的其他节点的路径,Cstart为关于当前中心点estart的语料文本信息,T为已经作为起始节点访问过的实体集合;
首先判断当前语料限定层数n是否小于等于零,如果满足n小于等于零的条件,说明当前范围内中心节点周围已无其他节点与边,则把当前中心节点estart加到路径Pstart中,然后把当前路径Pstart加入到语料集Cstart中,并且把estart加入到T中,表明中心节点estart已经被访问过;如果不满足n小于等于零的条件,则把当前中心节点estart加到路径Pstart中,并且把estart加入到T中,表明中心节点estart已经被访问过,然后找出中心节点estart的邻接节点,对于每一个estart的邻接节点都做nDepthBFS递归操作,其中输入参数更新为n-1层,直到中心节点周围已无其他节点与边。
2.根据权利要求1所述的一种面向RDF知识图谱的语义近似查询方法,其特征在于:步骤2.2中提出的一种近似迭代查询方法semanticApproQuery具体是:
设定输入参数estart为用户指定的主语实体节点,r'为指定谓语关系r的相似词集合,tend为用户期望返回结果实体的类型、P为查询结果的子路径、G为总查询结果集;
首先判断起始节点estart的类型是否是tend类型,若条件满足,则把当前子路径P加入到查询结果集G中;若条件不满足,则获取当前起始节点estart的邻接谓语关系词,判断该词是否属于r',若属于,则获取当前起始节点estart与当前谓语关系词ri组成的三元组关系中的另一个节点e'start,把该节点加入到子路径P中;然后将e'start、r'、tend、G、P作为新的输入参数,递归调用semanticApproQuery算法,直到找到当前节点的类型是tend才结束。
CN201810782472.5A 2018-07-17 2018-07-17 一种面向rdf知识图谱的语义近似查询方法 Active CN108959613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810782472.5A CN108959613B (zh) 2018-07-17 2018-07-17 一种面向rdf知识图谱的语义近似查询方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810782472.5A CN108959613B (zh) 2018-07-17 2018-07-17 一种面向rdf知识图谱的语义近似查询方法

Publications (2)

Publication Number Publication Date
CN108959613A CN108959613A (zh) 2018-12-07
CN108959613B true CN108959613B (zh) 2021-09-03

Family

ID=64496078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810782472.5A Active CN108959613B (zh) 2018-07-17 2018-07-17 一种面向rdf知识图谱的语义近似查询方法

Country Status (1)

Country Link
CN (1) CN108959613B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933788B (zh) * 2019-02-14 2023-05-23 北京百度网讯科技有限公司 类型确定方法、装置、设备和介质
CN109902149B (zh) 2019-02-21 2021-08-13 北京百度网讯科技有限公司 查询处理方法和装置、计算机可读介质
CN111611419B (zh) * 2019-02-26 2023-06-20 阿里巴巴集团控股有限公司 一种子图识别方法及装置
CN109992786B (zh) * 2019-04-09 2022-11-25 杭州电子科技大学 一种语义敏感的rdf知识图谱近似查询方法
CN109992658B (zh) * 2019-04-09 2023-04-11 智言科技(深圳)有限公司 一种知识驱动的sparql查询构建方法
CN110347798B (zh) * 2019-07-12 2021-06-01 之江实验室 一种基于自然语言生成技术的知识图谱辅助理解系统
CN110347846B (zh) * 2019-07-15 2023-05-26 苏州工业职业技术学院 有时间约束的非连通知识图谱查询方法
CN110489610B (zh) * 2019-08-14 2022-02-08 北京海致星图科技有限公司 一种知识图谱实时查询解决方案
CN112395365B (zh) * 2019-08-14 2022-02-08 北京海致星图科技有限公司 一种知识图谱批量离线查询解决方案
CN110851616A (zh) * 2019-10-08 2020-02-28 杭州电子科技大学 一种基于领域子图的rdf知识图谱存储与管理方法
CN110909111B (zh) * 2019-10-16 2023-07-14 天津大学 基于知识图谱rdf数据特征的分布式存储与索引方法
CN110807325B (zh) * 2019-10-18 2023-05-26 腾讯科技(深圳)有限公司 谓词识别方法、装置及存储介质
CN111125524B (zh) * 2019-12-20 2023-07-18 四川文轩教育科技有限公司 基于知识图谱的数据分析与数据推送方法
CN111813958B (zh) * 2020-07-20 2023-10-20 广东道方云泽信息科技有限公司 基于创新创业平台的智慧服务方法与系统
US11847123B2 (en) 2021-03-22 2023-12-19 Tata Consultancy Services Limited System and method for knowledge retrieval using ontology-based context matching
CN112905806B (zh) * 2021-03-25 2022-11-01 哈尔滨工业大学 基于强化学习的知识图谱实体化视图生成器及生成方法
CN113157882B (zh) * 2021-03-31 2022-05-31 山东大学 以用户语义为中心的知识图谱路径检索方法及装置
CN114036373B (zh) * 2021-11-05 2023-09-29 北京百度网讯科技有限公司 搜索方法及装置、电子设备和存储介质
CN114564636B (zh) * 2021-12-29 2024-06-25 东方财富信息股份有限公司 一种金融信息搜索中台的召回排序算法和层叠式技术架构
CN114513404B (zh) * 2021-12-30 2023-11-03 网络通信与安全紫金山实验室 时间敏感网络的配置方法、装置及计算机可读存储介质
CN116304213B (zh) * 2023-03-20 2024-03-19 中国地质大学(武汉) 基于图神经网络的rdf图数据库子图匹配查询优化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015047963A1 (en) * 2013-09-27 2015-04-02 Microsoft Corporation Query expansion, filtering and ranking for improved semantic search results utilizing knowledge graphs
CN106934012A (zh) * 2017-03-10 2017-07-07 上海数眼科技发展有限公司 一种基于知识图谱的自然语言问答实现方法和系统
CN107247736A (zh) * 2017-05-08 2017-10-13 广州索答信息科技有限公司 一种基于知识图谱的厨房领域问答方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015047963A1 (en) * 2013-09-27 2015-04-02 Microsoft Corporation Query expansion, filtering and ranking for improved semantic search results utilizing knowledge graphs
CN106934012A (zh) * 2017-03-10 2017-07-07 上海数眼科技发展有限公司 一种基于知识图谱的自然语言问答实现方法和系统
CN107247736A (zh) * 2017-05-08 2017-10-13 广州索答信息科技有限公司 一种基于知识图谱的厨房领域问答方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Semantic SPARQL Similarity Search Over RDF Knowledge Graphs";Weiguo Zheng等;《Proceedings of the VLDB Endowment》;20160731;第9卷(第11期);第840-851页 *
"面向大规模RDF数据的语义搜索";王昊奋;《中国博士学位论文全文数据库 信息科技辑》;20141215;全文 *

Also Published As

Publication number Publication date
CN108959613A (zh) 2018-12-07

Similar Documents

Publication Publication Date Title
CN108959613B (zh) 一种面向rdf知识图谱的语义近似查询方法
CN111488467B (zh) 地理知识图谱的构建方法、装置、存储介质及计算机设备
CN110727839B (zh) 自然语言查询的语义解析
CN106021457B (zh) 基于关键词的rdf分布式语义搜索方法
CN111737400A (zh) 一种基于知识推理的大数据业务标签的扩展方法及系统
CN110275947A (zh) 基于命名实体识别的特定领域知识图谱自然语言查询方法及装置
CN103440314A (zh) 一种基于Ontology的语义检索方法
CN104239513A (zh) 一种面向领域数据的语义检索方法
CN114218400A (zh) 基于语义的数据湖查询系统及方法
CN111444220A (zh) 规则驱动和数据驱动相结合的跨平台sql查询优化方法
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN113326267A (zh) 基于倒排索引和神经网络算法的地址匹配方法
Moreau et al. Fuzzy query by example
CN117874204A (zh) 一种知识问答方法、系统、存储介质和计算机设备
Patras et al. A comparative evaluation of RDBMS and GDBMS for shortest path operations on pedestrian navigation data
CN114579605B (zh) 表格问答数据处理方法、电子设备及计算机存储介质
CN116738983A (zh) 模型进行金融领域任务处理的词嵌入方法、装置、设备
CN116610874A (zh) 一种基于知识图谱和图神经网络的跨域推荐方法
CN116050523A (zh) 一种基于混合知识图的注意力引导增强的常识推理框架
US20220230053A1 (en) Graph neural network for signal processing
CN114064820A (zh) 一种基于混合架构的表格语义查询粗排方法
CN118410130B (zh) 一种基于知识图谱的预训练语言模型构建方法
CN111414556B (zh) 一种基于知识图谱的服务发现方法
CN114398349A (zh) 一种利用路径排序快速进行知识图谱补全的方法
CN113191498B (zh) 一种基于规则的Spark分布式弹性语义流推理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant