CN106021457B - 基于关键词的rdf分布式语义搜索方法 - Google Patents

基于关键词的rdf分布式语义搜索方法 Download PDF

Info

Publication number
CN106021457B
CN106021457B CN201610326228.9A CN201610326228A CN106021457B CN 106021457 B CN106021457 B CN 106021457B CN 201610326228 A CN201610326228 A CN 201610326228A CN 106021457 B CN106021457 B CN 106021457B
Authority
CN
China
Prior art keywords
semantic
rdf
keyword
path
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610326228.9A
Other languages
English (en)
Other versions
CN106021457A (zh
Inventor
汪璟玢
陈双
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201610326228.9A priority Critical patent/CN106021457B/zh
Publication of CN106021457A publication Critical patent/CN106021457A/zh
Application granted granted Critical
Publication of CN106021457B publication Critical patent/CN106021457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于关键词的RDF分布式语义搜索方法,基于RDF本体构建输入查询关键词的语义可达路径,在构建阶段根据查询内容的语义内容和语义结构进行评分排序,生成Top‑k语义可达路径,然后利用MapReduce计算框架并行搜索返回Top‑k查询结果。本发明所提出的基于关键词的RDF分布式语义搜索方法,基于本体构建搜索语义可达路径确定查询关键词间相互连接路径,避免了直接在大规模RDF数据图上费时的迭代计算,利用MapReduce计算模型实现并行计算,有效地减少了整体计算复杂度来提升查询性能。

Description

基于关键词的RDF分布式语义搜索方法
技术领域
本发明涉及海量RDF数据检索技术领域,特别是一种基于关键词的RDF分布式语义搜索方法。
背景技术
RDF作为语义网的基础,以三元组形式表示信息并交换万维网上的知识和数据。语义Web数据规模日益庞大,要求查询处理不断演化为处理分布式存储的大规模RDF数据。目前有关RDF上的关键词查询根据查询处理方式的不同,可以分为两类:关键词结构化方法和关键词直接匹配方法。第一种关键词结构化方法,将关键词翻译成联合查询,再得到SPARQL查询语句。文献Rdf keyword search based on keywords-to-sparql translation[C]结合数据图将包含用户查询关键词的子图映射成查询语句,翻译成SPARQL查询语句,进行查询操作然后返回结果。Ladwing G等人从RDF数据中抽取结构信息,构造查询搜索图,搜索符合要求的子图生成结构化查询得到查询结果。但是这类由关键词构造结构化查询语句方法,需要从RDF数据中抽取结构信息,时间开销大。由于响应时间等于查询转换时间加查询结果生成时间,其执行策略依赖于用户的反馈,其实时响应速度并不理想,难以适应海量RDF数据存储与查询需求。
另一种关键词直接匹配方法,在图数据上搜索包含所有关键词的子图,利用评分函数对候答案排序,返回top-k查询结果。Elbassuoni采用基于统计概率的评分排序模型,对检索到查询子图进行评分排序,返回评分值高匹配结果。Le W等人从RDF图数据中抽取摘要信息,利用图摘要剪枝从而加速搜索效率。但基于图结构的关键词搜索这类方法,为图数据中的所有关键词顶点建立倒排索引或为所有顶点对维护最短路径矩阵,这种难以扩展为分布式图并行查询。原因在于为具有数以百万计甚至上亿顶点的海量语义数据建立路径索引或维护最短路径矩阵是不可行的。借助有效的索引,从图数据中找到匹配关键词的顶点相对容易,确定顶点之间的连接是一个复杂的问题,需要在图上迭代搜索。De Virgilio等提出了一种新的分布式RDF关键词搜索方法,利用MapReduce将图并行问题转换为数据并行处理问题,但忽视了RDF数据间语义关联关系。
发明内容
本发明的目的在于提供一种基于关键词的RDF分布式语义搜索方法,以克服现有技术中存在的缺陷。
为实现上述目的,本发明的技术方案是:一种基于关键词的RDF分布式语义搜索方法,基于RDF本体构建输入查询关键词的语义可达路径,在构建阶段根据查询内容的语义内容和语义结构进行评分排序,生成Top-k语义可达路径,然后利用MapReduce计算框架并行搜索返回Top-k查询结果。
在本发明一实施例中,还包括一Hbase分布式存储阶段,且存储过程按照如下方式实现:在MapReduce计算框架的Map阶段,将RDF实例元组以及OWL本体按类别并行解析分割,在Reduce阶段输出类元组,得到分割后类元组数据文件,并批量导入Hbase分布式数据库。
在本发明一实施例中,所述Hbase分布式数据库包括如下类型表:OWL_Table、Index_S_Table、Index_O_Table、ClassName_SPO以及ClassName_OPS;所述OWL_Table存储RDF本体信息,类、属性的定义信息及语义关联关系;所述Index_S_Table为主语S索引表,存储所有主语为S对应类的实例三元组;所述Index_O_Table为宾语O索引表,存储所有宾语为O对应类或文本的实例三元组;所述ClassName_SPO以(S,P,O)形式存储每个类的实例三元组信息;所述ClassName_OPS以(O,P,S)形式存储每个类的实例三元组信息。
在本发明一实施例中,构建Top-k语义可达路径按照如下方式实现:首先确定用户输入的各个查询关键词对应实例类;其次依据RDF本体表构建类-属性二维模型CP;然后在m*m二维矩阵模型中搜索涵盖所有实例类的语义通路。
在本发明一实施例中,在所述类-属性二维模型CP中搜索所有查询实例类两两可达语义路径阶段,利用SSE函数进行评分返回评分高的Top-k语义可达路径;其中,SSE函数如下所示:
Figure BDA0000991540440000021
α为调节参数,Length(path)=Σi,j∈1,2,...,mdistance(ci,cj),
Figure BDA0000991540440000022
Length(path)表示语义内容评分,等于语义路径的路径长度,distance(ci,cj)为实例类ci和cj间语义距离,sim(path)表示语义结构评分,I(ci)为实例类ci定义属性的集合,|I(ci)|为集合个数。I(ci)∩I(cj)为实例类ci和实例类cj共同定义的属性。
在本发明一实施例中,在所述MapReduce计算框架并行搜索阶段,对所述Top-k语义可达路径集合SRPs进行预处理,将所有路径提取公共子路径;将预处理后的SRPs作为MapReduce的输入,从所述Hbase分布式数据库中读取匹配的RDF实例三元组实现RDF关键词分布式并行搜索。
在本发明一实施例中,在所述MapReduce的Map阶段:根据所述路径集合SRPs确定并行关键词顶点对应的搜索路径的实例三元组,若实例三元组满足搜索路径则生成一对<key,value>,其中,key为满足的路径srpi的序号i,value为四元组;
在所述MapReduce的Reduce阶段:完成同一个搜索路径srpi对应的多个子路径的连接,每个连接得到一个查询结果;最后并行完成所有的SRPs搜索路径的连接操作,返回查询结果:
Rs={R1,R2,…,Ri,…,Rk}
其中,k为语义可达路径的路径数。
相较于现有技术,本发明具有以下有益效果:本发明所提出的一种基于关键词的RDF分布式语义搜索方法,基于本体构建搜索语义可达路径确定查询关键词间相互连接路径,避免了直接在大规模RDF数据图上费时的迭代计算,减少了搜索迭代次数,利用MapReduce计算模型实现并行计算,减少了MapReduce的任务数,有效地减少了整体计算复杂度来提升查询性能,降低整体计算复杂性,提升了搜索效率。
附图说明
图1为本发明中DSSOK算法框架图。
图2为本发明中DBpedia的RDF数据片段。
图3为本发明中类-属性二维模型
图4为本发明一实施例中查询示意图。
图5为本发明一实施例中MapReduce具体处理过程示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
现有图上关键词搜索方案,通过为图数据中的所有关键词顶点建立倒排索引和预先计算所有顶点之间的最短路径来提高搜索效率,但这种设计方案的前提是假定图数据可以完全加载至内存在图上进行多次迭代计算,显然对于对海量分布式语义网数据-具有数百万计甚至上亿的顶点RDF图数据是不切实际的。目前的图上关键词搜索方案,采用图结构表示数据的方法,借助有效的索引,从图数据中找到匹配关键词的顶点相对容易,然而在大规模RDF图数据上迭代搜索关键词顶点之间的连接是一个复杂的问题,需要昂贵的计算成本且查询响应效果不理想。文献Distributed keyword search over rdf via mapreduce[M]提出了一种构建大量RDF路径索引来帮助确定顶点之间的连接,但MapReduce并行度大,网络传输开销大。因为RDF本体涵盖了RDF图数据资源和属性的定义、分类及相互间关联关系,通常是确定的且KB级别小规模的数据,通过RDF本体可推导任意两个实例类或属性间相互关联关系从而快速确定顶点连接路径。因而,DSSOK算法基于本体构建搜索语义可达路径确定查询关键词间相互连接路径,避免了直接在大规模RDF数据图上费时的迭代计算,利用MapReduce计算模型实现并行计算,有效地减少了整体计算复杂度来提升查询性能。
进一步的,在本实施例中,DSSOK(Distributed Semantic Search with Ontologyon Keyword)算法的主要思想是基于RDF本体构建输入关键词的语义可达路径,在构建阶段综合考虑查询内容的语义内容和语义结构进行评分排序,生成Top-k语义可达路径,然后利用MapReduce计算框架并行搜索返回Top-k查询结果。DSSOK算法总体框架设计如图1所示。DSSOK算法分为分布式存储、构建语义搜索路径和分布式语义搜索3个阶段。
以下给出RDF关键词搜索的相关定义。
问题描述给定关键词查询Q={q1,q2,…,qi,…,qm},RDF数据图G,返回查询关键词高匹配的即语义评分值高的Top-k查询连通子图。
定义1(RDF三元组)设t<s,p,o>表示RDF三元组,s∈(IUB),p∈(IUB),o∈(IUBUL),I是IRI顶点的集合,B是空白顶点集合,L是文本顶点集合。
定义2(RDF图)设G={t1,t2,…,ti,…,tn}表示由一组三元组定义的RDF图。每个三元组ti<si,pi,oi>作为RDF图G中的边,三元组中的主语si和宾语oi作为顶点,谓语pi表示由主语指向宾语的一条有向边。图2为关于"阿波罗"号飞船探月计划的RDF数据片段。表1给出了图2中RDF数据片段对应的本体定义信息。
表1
Figure BDA0000991540440000051
定义3(语义可达路径,Semantic Reachable Path简写为SRP)通过RDF本体信息可推导任意两个实例类或属性间相互关联关系,我们用语义可达路径来表达这种关联关系。首先将表1RDF本体定义信息等价转换为图3类-属性二维模型(记为CP),其中一条语义可达路径定义为:path=SpaceMission-CP[SpaceMission[Person]-Person-CP[Person][string]-string,其中CP[SpaceMission][Person]=crew,CP[Person][string]=name。CP[X][Y]表示行为X且列为Y的属性取值,X、Y取值为RDF本体定义的类,CP[X][Y]为RDF本体定义的属性,表示X与Y之间通过CP[X][Y]关联起来,存在一条语义路径为X-CP[X][Y]-Y。若实例类间无关联属性,则为CP[X][Y]=¢。
定义4(查询结果)已知RDF数据集G,给定关键词查询Q,把包含查询关键词的URI顶点或文本顶点称为关键词顶点,URI或文本顶点可以完全匹配或部分包含关键词。查询结果是包含所有查询关键词顶点的连通子图(记为R以三元组集合形式表示,其中任意两个三元组通过主语或宾语或其他三元组关联形成连通子图)。形式化表示,R={t1,t2,…,tk,…,tr},其中
Figure BDA0000991540440000052
ti<si,pi,oi>和tj<sj,pj,oj>,则有(si=si且oi≠oj)或(si=oj且oi≠sj)或(oi=sj且si≠oj)或(oi=oj且si≠sj)。两个三元组集合中元素不完全相同,则认为是不同的查询结果。
定义5(语义评分,Semantic Score Estimation简写为SSE)输入查询Q={q1,q2,…,qi,…,qm}对应RDF本体中的实例类C={c1,c2,…,ci,…,cm},假定找到Q的一条语义可达路径
path=c1-CP[c1][c2]-…-CP[ci-1][ci]-…-CP[cm-1][cm]-cm
Figure BDA0000991540440000061
其中Length(path)=Σi,j∈1,2,...,mdistance(ci,cj),
语义评分由语义内容评分和语义结构评分两部分构成,α为调节参数,本文中α=0.5表示两者影响程度一样。distance(ci,cj)为实例类ci和cj间语义距离,若实例类ci和cj不可达,语义距离为distance(ci,cj)=+∞。Length(path)表示语义内容评分,等于语义路径的路径长度(路径包含顶点个数-1),路径长度越短,则
Figure BDA0000991540440000063
值越大说明内容越紧凑。sim(path)表示语义结构评分,I(ci)为实例类ci定义属性的集合,|I(ci)|为集合个数。I(ci)∩I(cj)为实例类ci和实例类cj共同定义的属性,sim(path)值越大说明语义结构越相似。SSE(path)评分方式使得越好的结果评分值越高,最终按照评分值降序排列,返回前k个结果。
为了让本领域人员进一步了解本发明所提出的基于关键词的RDF分布式语义搜索方法,下面结合具体实施例进行说明。
进一步的,在本实施例中,DSSOK算法借助分布式数据库Hbase作为存储媒介,依据RDF本体中定义的实例类别信息对大规模RDF实例三元组数据,分门别类进行有规则的分布式存储。结合RDF图数据的特点,同一类型的RDF实例三元组数据间的语义关系较密切。输入关键词查询依据关键词所属类别,借助有效的索引表查找同一类型的数据有效缩减查询范围且快速找到语义关联密切的查询结果。HBase具备分布式和列存储特性,可满足稀疏数据类型RDF的存储需求。此外,HBase提供了Row key索引,在MapReduce计算模型上HBase系统可容易实现批处理运算,实现大规模RDF存储和查询性能都会比较理想,具有高扩展性。具体Hbase表及存储内容说明如表2所示。
表2
Figure BDA0000991540440000071
其中,OWL_Table存储RDF本体定义信息,RDF本体是确定且稳定的,只需要一次解析存储至OWL_Table本体表避免每次查询都要重复解析RDF本体来构建类-属性二维模型。Index_S_Table和Index_O_Table是以S和O为主键的索引表,根据输入查询关键词快速定位对应到具体实例类和三元组实例类表ClassName_SPO或ClassName_OPS,为查询关键词构建Top-k语义搜索路径提供依据,同时利用索引快速定位提高查询效率。
进一步的,在本实施例中,Top-k语义可达路径构建思路如下:为了减小在大规模图上迭代计算连接路径的开销,该算法充分运用RDF图数据语义结构特征,RDF本体是海量RDF图数据的一个浓缩摘要。DSSOK算法将在大规模RDF数据图上构建所有查询关键词顶点间相互连接路径问题转换为在KB级别大小的RDF本体上推导出查询关键词所对应实例类间可达语义路径问题,避免了直接在大规模RDF数据图上费时的迭代计算和搜索关键词顶点连接路径,将问题潜在的复杂度从n2降到m2(n表示三元组数目一般百万级别以上甚至上亿,m表示RDF本体定义实例类个数一般几十到数百级别的)。
进一步的,在本实施例中,在大规模RDF图数据分布式存储基础上,为用户输入的查询关键词构建Top-k语义可达路径,首先确定各个查询关键词对应实例类,其次依据RDF本体表构建类-属性二维模型CP,然后在m*m二维矩阵里模型中搜索涵盖所有实例类的语义通路。在CP中搜索所有查询实例类两两可达语义路径阶段,利用SSE函数进行评分返回评分高的Top-k语义可达路径。构建Top-k语义可达路径实现如算法1以及表3所示。
算法1:为输入的查询关键词构建Top-k语义可达路径算法
输入:关键词查询Q,Hbase数据表,CP和整型值k
输出:关于查询Q的Top-k语义可达路径
表3
在本实施例中,输入查询关键词“Apollo-11,Rocket,Armstrong”表达用户想查询关于“阿波罗11号”的信息。为了便于解释算法1具体执行过程如图4所示,以图2中RDF数据片段来说明。阶段一找到关键词匹配的关键词顶点,阶段二将关键词顶点映射到本体中对应的实例类,最后阶段三构建关于查询关键词的语义可达路径。
图4查询示例的语义可达路径利用SSE语义评分计算过程如下,阶段二中的01,02,03和04分别对应实例类SpaceMission,string,Person和Rocket。
Figure BDA0000991540440000082
进一步的,在本实施例中,利用MapReduce分布式搜索算法的构建思想如下所示:面对大规模分布式语义网数据的巨大计算量,借助MapReduce并行计算模型来加快完成RDF关键词查询。为了避免了直接在大规模RDF数据图上多次的迭代计算与搜索,该算法先基于RDF本体上推导出查询关键词所对应实例类间可能的语义连接路径,从所有语义连接路径中提取公共子路径来减少不必要的冗余计算,然后只需执行一个MapReduce实现并行计算即可完成查询,有效地减少整体计算的复杂性,提升查询效率。
在本实施例中,首先对路径进行预处理,假定用户输入由m个关键词构成的查询Q,其对应RDF本体中的实例类集合C和匹配的关键词顶点集合V,执行算法1得到查询Q对应的Top-k语义路径集合SRPs(k条语义可达路径,其中每条都覆盖C中所有实例类),记为SRPs={srp1,srp2,…,srpi,…,srpk}。一条SRP可以看成由许多段子路径构成的,假定srp1=p1-p2-p3-p4,srp2=p1-p2-p5-p6,srp3=p3-p5-p6,显然SRPs中路径间会有公共的子路径,如果在MapReduce阶段并行搜索所有SPRs中的路径会有很多冗余的计算拉低了整体的查询性能。因此,在进行MapReduce计算前,我们先对SRPs中所有路径提取公共子路径减少不必要的冗余计算,srp1和srp2具有公共子路p1-p2,记为<(1,2),(p1,p2)>,以及其他路径间的公共子路径<(1),(p4)>,<(1,3),(p3)>,<(2,3),(p5,p6)>。
在本实施例中,如图4所示,阶段一中匹配的关键词顶点和阶段三中构建得到的Top-k语义可达路径作为MapReduce的输入,然后从结构化存储层Hbase分布式数据库中读取匹配的RDF实例三元组实现RDF关键词分布式并行搜索,MapReduce处理过程包括Map阶段与Reduce阶段。
Map阶段:依据SRPs确定并行关键词顶点对应的搜索路径的实例三元组,如三元组满足搜索路径则生成一对<key,value>。其中key为满足的路径srpi的序号i,value为四元组,如<(1),(p1,st,pt,ot)>表示实例三元组(st,pt,ot)满足SRPs中的srpi的子路径p1
Reduce阶段:完成同一个搜索路径srpi对应的多个子路径的连接,每个连接得到一个查询结果。最后并行完成所有的SRPs搜索路径的连接操作,返回查询结果Rs={R1,R2,…,Ri,…,Rk}。DSSOK算法的MapReduce具体处理过程如图5所示。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (2)

1.一种基于关键词的RDF分布式语义搜索方法,其特征在于,基于RDF本体构建输入查询关键词的语义可达路径,在构建阶段根据查询内容的语义内容和语义结构进行评分排序,生成Top-k语义可达路径,然后利用MapReduce计算框架并行搜索返回Top-k查询结果;
其中,还包括一Hbase分布式存储阶段,且存储过程按照如下方式实现:在MapReduce计算框架的Map阶段,将RDF实例元组以及OWL本体按类别并行解析分割,在Reduce阶段输出类元组,得到分割后类元组数据文件,并批量导入Hbase分布式数据库;
其中,构建Top-k语义可达路径按照如下方式实现:首先确定用户输入的各个查询关键词对应实例类;其次依据RDF本体表构建类-属性二维模型CP;然后在m*m二维矩阵模型中搜索涵盖所有实例类的语义通路;
其中,在所述类-属性二维模型CP中搜索所有查询实例类两两可达语义路径阶段,利用SSE函数进行评分返回评分高的Top-k语义可达路径;其中,SSE函数如下所示:
α为调节参数,
Figure FDA0002089183510000013
Figure FDA0002089183510000012
Length(path)表示语义内容评分,等于语义路径的路径长度,distance(ci,cj)为实例类ci和cj间语义距离,sim(path)表示语义结构评分,I(ci)为实例类ci定义属性的集合,|I(ci)|为集合个数, I(ci)∩I(cj)为实例类ci和实例类cj共同定义的属性;
其中,在所述MapReduce计算框架并行搜索阶段,对所述Top-k语义可达路径的路径集合SRPs进行预处理,将所有路径提取公共子路径;将预处理后的SRPs作为MapReduce的输入,从所述Hbase分布式数据库中读取匹配的RDF实例三元组实现RDF关键词分布式并行搜索;
其中,在所述MapReduce的Map阶段:根据所述路径集合SRPs确定并行关键词顶点对应的搜索路径的实例三元组,若实例三元组满足搜索路径则生成一对<key,value>,其中,key为满足的路径srpi的序号i,value为四元组;
在所述MapReduce的Reduce阶段:完成同一个搜索路径srpi对应的多个子路径的连接,每个连接得到一个查询结果;最后并行完成所有的SRPs搜索路径的连接操作,返回查询结果:
Rs={R1,R2,…,Ri,…,Rk}
其中,k为语义可达路径的个数。
2.根据权利要求1所述的基于关键词的RDF分布式语义搜索方法,其特征在于,所述Hbase分布式数据库包括如下类型表:OWL_Table、Index_S_Table、Index_O_Table、ClassName_SPO以及ClassName_OPS;所述OWL_Table存储RDF本体信息,类、属性的定义信息及语义关联关系;所述Index_S_Table为主语S索引表,存储所有主语为S对应类的实例三元组;所述Index_O_Table为宾语O索引表,存储所有宾语为O对应类的或文本的实例三元组;所述ClassName_SPO以(S,P,O)形式存储每个类的实例三元组信息;所述ClassName_OPS以(O,P,S)形式存储每个类的实例三元组信息。
CN201610326228.9A 2016-05-17 2016-05-17 基于关键词的rdf分布式语义搜索方法 Active CN106021457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610326228.9A CN106021457B (zh) 2016-05-17 2016-05-17 基于关键词的rdf分布式语义搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610326228.9A CN106021457B (zh) 2016-05-17 2016-05-17 基于关键词的rdf分布式语义搜索方法

Publications (2)

Publication Number Publication Date
CN106021457A CN106021457A (zh) 2016-10-12
CN106021457B true CN106021457B (zh) 2019-10-15

Family

ID=57098118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610326228.9A Active CN106021457B (zh) 2016-05-17 2016-05-17 基于关键词的rdf分布式语义搜索方法

Country Status (1)

Country Link
CN (1) CN106021457B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528648B (zh) * 2016-10-14 2019-10-15 福州大学 结合Redis内存数据库的分布式RDF关键词近似搜索方法
CN106844445B (zh) * 2016-12-16 2020-08-14 天津大学 基于语义的资源描述框架rdf图划分方法
CN106874425B (zh) * 2017-01-23 2020-02-07 福州大学 基于Storm的实时关键词近似搜索算法
CN106874426B (zh) * 2017-01-23 2019-12-31 福州大学 基于Storm的RDF流式数据关键词实时搜索方法
CN107229704A (zh) * 2017-05-25 2017-10-03 深圳大学 一种基于ksp算法的资源描述框架查询方法和系统
CN107463774A (zh) * 2017-07-21 2017-12-12 温馨港网络信息科技(苏州)有限公司 基于大数据的健康状况分析预测方法及系统
CN107895037B (zh) * 2017-11-28 2022-05-03 北京百度网讯科技有限公司 一种问答数据处理方法、装置、设备和计算机可读介质
CN108804580B (zh) * 2018-05-24 2021-05-25 湖南大学 一种在联邦型rdf数据库中查询关键字的方法
CN109974732B (zh) * 2019-03-28 2022-11-15 东北大学 一种基于语义感知的Top-k多请求路径规划方法
CN110188344A (zh) * 2019-04-23 2019-08-30 浙江工业大学 一种多特征融合的关键词提取方法
CN110059264B (zh) * 2019-04-24 2023-07-07 东南大学 基于知识图谱的地点检索方法、设备及计算机存储介质
CN110245271B (zh) * 2019-05-21 2021-10-08 华中科技大学 基于属性图的大规模关联数据划分方法及系统
CN111061828B (zh) * 2019-11-29 2023-08-29 华中师范大学 一种数字图书馆知识检索方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462610A (zh) * 2015-01-06 2015-03-25 福州大学 结合本体的分布式rdf存储与查询优化方法
CN104615703A (zh) * 2015-01-30 2015-05-13 福州大学 一种结合Rete算法的RDF数据分布式并行推理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462610A (zh) * 2015-01-06 2015-03-25 福州大学 结合本体的分布式rdf存储与查询优化方法
CN104615703A (zh) * 2015-01-30 2015-05-13 福州大学 一种结合Rete算法的RDF数据分布式并行推理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于HBbase的RDF数据存储模型;朱敏等;《计算机研究与发展》;20131231;第23-31页 *
基于索引的分布式RDF查询优化算法;汪璟玢等;《计算机科学》;20141130;第41卷(第11期);第233-238页 *

Also Published As

Publication number Publication date
CN106021457A (zh) 2016-10-12

Similar Documents

Publication Publication Date Title
CN106021457B (zh) 基于关键词的rdf分布式语义搜索方法
WO2021083239A1 (zh) 一种进行图数据查询的方法、装置、设备及存储介质
Nabli et al. Efficient cloud service discovery approach based on LDA topic modeling
JP6216467B2 (ja) 視覚・意味複合ネットワーク、および当該ネットワークを形成するための方法
CN108509543B (zh) 一种基于Spark Streaming的流式RDF数据多关键词并行搜索方法
CN106874426B (zh) 基于Storm的RDF流式数据关键词实时搜索方法
CN104866471B (zh) 一种基于局部敏感哈希策略的实例匹配方法
CN114218400A (zh) 基于语义的数据湖查询系统及方法
Xie et al. Application of improved recommendation system based on spark platform in big data analysis
CN106528648A (zh) 结合Redis内存数据库的分布式RDF关键词近似搜索方法
CN105844230A (zh) 一种基于云平台的遥感影像分割方法
Zhang et al. Efficient spatio-textual similarity join using mapreduce
CN106909626A (zh) 改进的决策树分类算法实现搜索引擎优化技术
CN106021306A (zh) 基于本体匹配的案例搜索系统
Taheriyan et al. Leveraging Linked Data to Infer Semantic Relations within Structured Sources.
Liu et al. Finding smallest k-compact tree set for keyword queries on graphs using mapreduce
Kardes et al. Ccf: Fast and scalable connected component computation in mapreduce
Avogadro et al. LamAPI: a comprehensive tool for string-based entity retrieval with type-base filters.
Lin et al. [Retracted] A Two‐Phase Method for Optimization of the SPARQL Query
CN114385827A (zh) 面向会议知识图谱的检索方法
KR102411778B1 (ko) 다중 지식의 비교 우위를 추론하는 서버, 방법 및 컴퓨터 프로그램
Assi et al. Instance Matching in Knowledge Graphs through random walks and semantics
Katib et al. A Tool for Efficiently Processing SPARQL Queries on RDF Quads.
Bachiega et al. An architecture for cost optimization in the processing of big geospatial data in public cloud providers
Pan et al. Ranked web service matching for service description using owl-s

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant