CN106021457B

CN106021457B - 基于关键词的rdf分布式语义搜索方法

Info

Publication number: CN106021457B
Application number: CN201610326228.9A
Authority: CN
Inventors: 汪璟玢; 陈双
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2016-05-17
Filing date: 2016-05-17
Publication date: 2019-10-15
Anticipated expiration: 2036-05-17
Also published as: CN106021457A

Abstract

本发明涉及一种基于关键词的RDF分布式语义搜索方法，基于RDF本体构建输入查询关键词的语义可达路径，在构建阶段根据查询内容的语义内容和语义结构进行评分排序，生成Top‑k语义可达路径，然后利用MapReduce计算框架并行搜索返回Top‑k查询结果。本发明所提出的基于关键词的RDF分布式语义搜索方法，基于本体构建搜索语义可达路径确定查询关键词间相互连接路径，避免了直接在大规模RDF数据图上费时的迭代计算，利用MapReduce计算模型实现并行计算，有效地减少了整体计算复杂度来提升查询性能。

Description

基于关键词的RDF分布式语义搜索方法

技术领域

本发明涉及海量RDF数据检索技术领域，特别是一种基于关键词的RDF分布式语义搜索方法。

背景技术

RDF作为语义网的基础,以三元组形式表示信息并交换万维网上的知识和数据。语义Web数据规模日益庞大，要求查询处理不断演化为处理分布式存储的大规模RDF数据。目前有关RDF上的关键词查询根据查询处理方式的不同,可以分为两类:关键词结构化方法和关键词直接匹配方法。第一种关键词结构化方法,将关键词翻译成联合查询,再得到SPARQL查询语句。文献Rdf keyword search based on keywords-to-sparql translation[C]结合数据图将包含用户查询关键词的子图映射成查询语句，翻译成SPARQL查询语句，进行查询操作然后返回结果。Ladwing G等人从RDF数据中抽取结构信息，构造查询搜索图，搜索符合要求的子图生成结构化查询得到查询结果。但是这类由关键词构造结构化查询语句方法，需要从RDF数据中抽取结构信息，时间开销大。由于响应时间等于查询转换时间加查询结果生成时间，其执行策略依赖于用户的反馈，其实时响应速度并不理想,难以适应海量RDF数据存储与查询需求。

另一种关键词直接匹配方法,在图数据上搜索包含所有关键词的子图,利用评分函数对候答案排序，返回top-k查询结果。Elbassuoni采用基于统计概率的评分排序模型，对检索到查询子图进行评分排序，返回评分值高匹配结果。Le W等人从RDF图数据中抽取摘要信息，利用图摘要剪枝从而加速搜索效率。但基于图结构的关键词搜索这类方法，为图数据中的所有关键词顶点建立倒排索引或为所有顶点对维护最短路径矩阵，这种难以扩展为分布式图并行查询。原因在于为具有数以百万计甚至上亿顶点的海量语义数据建立路径索引或维护最短路径矩阵是不可行的。借助有效的索引，从图数据中找到匹配关键词的顶点相对容易，确定顶点之间的连接是一个复杂的问题，需要在图上迭代搜索。De Virgilio等提出了一种新的分布式RDF关键词搜索方法，利用MapReduce将图并行问题转换为数据并行处理问题，但忽视了RDF数据间语义关联关系。

发明内容

本发明的目的在于提供一种基于关键词的RDF分布式语义搜索方法，以克服现有技术中存在的缺陷。

为实现上述目的，本发明的技术方案是：一种基于关键词的RDF分布式语义搜索方法，基于RDF本体构建输入查询关键词的语义可达路径，在构建阶段根据查询内容的语义内容和语义结构进行评分排序，生成Top-k语义可达路径，然后利用MapReduce计算框架并行搜索返回Top-k查询结果。

在本发明一实施例中，还包括一Hbase分布式存储阶段，且存储过程按照如下方式实现：在MapReduce计算框架的Map阶段，将RDF实例元组以及OWL本体按类别并行解析分割，在Reduce阶段输出类元组，得到分割后类元组数据文件，并批量导入Hbase分布式数据库。

在本发明一实施例中，所述Hbase分布式数据库包括如下类型表：OWL_Table、Index_S_Table、Index_O_Table、ClassName_SPO以及ClassName_OPS；所述OWL_Table存储RDF本体信息，类、属性的定义信息及语义关联关系；所述Index_S_Table为主语S索引表,存储所有主语为S对应类的实例三元组；所述Index_O_Table为宾语O索引表,存储所有宾语为O对应类或文本的实例三元组；所述ClassName_SPO以(S,P,O)形式存储每个类的实例三元组信息；所述ClassName_OPS以(O,P,S)形式存储每个类的实例三元组信息。

在本发明一实施例中，构建Top-k语义可达路径按照如下方式实现：首先确定用户输入的各个查询关键词对应实例类；其次依据RDF本体表构建类-属性二维模型CP；然后在m*m二维矩阵模型中搜索涵盖所有实例类的语义通路。

在本发明一实施例中，在所述类-属性二维模型CP中搜索所有查询实例类两两可达语义路径阶段，利用SSE函数进行评分返回评分高的Top-k语义可达路径；其中，SSE函数如下所示：

α为调节参数，Length(path)＝Σ_{i,j∈1,2,...,m}distance(c_i,c_j)，

Length(path)表示语义内容评分，等于语义路径的路径长度，distance(c_i,c_j)为实例类c_i和c_j间语义距离，sim(path)表示语义结构评分，I(c_i)为实例类c_i定义属性的集合，|I(c_i)|为集合个数。I(c_i)∩I(c_j)为实例类c_i和实例类c_j共同定义的属性。

在本发明一实施例中，在所述MapReduce计算框架并行搜索阶段，对所述Top-k语义可达路径集合SRPs进行预处理，将所有路径提取公共子路径；将预处理后的SRPs作为MapReduce的输入，从所述Hbase分布式数据库中读取匹配的RDF实例三元组实现RDF关键词分布式并行搜索。

在本发明一实施例中，在所述MapReduce的Map阶段：根据所述路径集合SRPs确定并行关键词顶点对应的搜索路径的实例三元组，若实例三元组满足搜索路径则生成一对<key，value>，其中，key为满足的路径srp_i的序号i，value为四元组；

在所述MapReduce的Reduce阶段：完成同一个搜索路径srp_i对应的多个子路径的连接，每个连接得到一个查询结果；最后并行完成所有的SRPs搜索路径的连接操作，返回查询结果：

Rs＝{R₁,R₂,…,R_i,…,R_k}

其中，k为语义可达路径的路径数。

相较于现有技术，本发明具有以下有益效果：本发明所提出的一种基于关键词的RDF分布式语义搜索方法，基于本体构建搜索语义可达路径确定查询关键词间相互连接路径，避免了直接在大规模RDF数据图上费时的迭代计算，减少了搜索迭代次数，利用MapReduce计算模型实现并行计算，减少了MapReduce的任务数，有效地减少了整体计算复杂度来提升查询性能，降低整体计算复杂性，提升了搜索效率。

附图说明

图1为本发明中DSSOK算法框架图。

图2为本发明中DBpedia的RDF数据片段。

图3为本发明中类-属性二维模型

图4为本发明一实施例中查询示意图。

图5为本发明一实施例中MapReduce具体处理过程示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

现有图上关键词搜索方案，通过为图数据中的所有关键词顶点建立倒排索引和预先计算所有顶点之间的最短路径来提高搜索效率，但这种设计方案的前提是假定图数据可以完全加载至内存在图上进行多次迭代计算，显然对于对海量分布式语义网数据-具有数百万计甚至上亿的顶点RDF图数据是不切实际的。目前的图上关键词搜索方案，采用图结构表示数据的方法，借助有效的索引，从图数据中找到匹配关键词的顶点相对容易，然而在大规模RDF图数据上迭代搜索关键词顶点之间的连接是一个复杂的问题，需要昂贵的计算成本且查询响应效果不理想。文献Distributed keyword search over rdf via mapreduce[M]提出了一种构建大量RDF路径索引来帮助确定顶点之间的连接，但MapReduce并行度大，网络传输开销大。因为RDF本体涵盖了RDF图数据资源和属性的定义、分类及相互间关联关系，通常是确定的且KB级别小规模的数据，通过RDF本体可推导任意两个实例类或属性间相互关联关系从而快速确定顶点连接路径。因而，DSSOK算法基于本体构建搜索语义可达路径确定查询关键词间相互连接路径，避免了直接在大规模RDF数据图上费时的迭代计算，利用MapReduce计算模型实现并行计算，有效地减少了整体计算复杂度来提升查询性能。

进一步的，在本实施例中，DSSOK(Distributed Semantic Search with Ontologyon Keyword)算法的主要思想是基于RDF本体构建输入关键词的语义可达路径，在构建阶段综合考虑查询内容的语义内容和语义结构进行评分排序，生成Top-k语义可达路径，然后利用MapReduce计算框架并行搜索返回Top-k查询结果。DSSOK算法总体框架设计如图1所示。DSSOK算法分为分布式存储、构建语义搜索路径和分布式语义搜索3个阶段。

以下给出RDF关键词搜索的相关定义。

问题描述给定关键词查询Q＝{q₁,q₂,…,q_i,…,q_m},RDF数据图G,返回查询关键词高匹配的即语义评分值高的Top-k查询连通子图。

定义1(RDF三元组)设t<s,p,o>表示RDF三元组，s∈(IUB),p∈(IUB),o∈(IUBUL),I是IRI顶点的集合，B是空白顶点集合，L是文本顶点集合。

定义2(RDF图)设G＝{t₁,t₂,…,t_i,…,t_n}表示由一组三元组定义的RDF图。每个三元组t_i<s_i,p_i,o_i>作为RDF图G中的边，三元组中的主语s_i和宾语o_i作为顶点，谓语p_i表示由主语指向宾语的一条有向边。图2为关于"阿波罗"号飞船探月计划的RDF数据片段。表1给出了图2中RDF数据片段对应的本体定义信息。

表1

定义3(语义可达路径,Semantic Reachable Path简写为SRP)通过RDF本体信息可推导任意两个实例类或属性间相互关联关系，我们用语义可达路径来表达这种关联关系。首先将表1RDF本体定义信息等价转换为图3类-属性二维模型(记为CP)，其中一条语义可达路径定义为:path＝SpaceMission-CP[SpaceMission[Person]-Person-CP[Person][string]-string，其中CP[SpaceMission][Person]＝crew,CP[Person][string]＝name。CP[X][Y]表示行为X且列为Y的属性取值，X、Y取值为RDF本体定义的类，CP[X][Y]为RDF本体定义的属性，表示X与Y之间通过CP[X][Y]关联起来，存在一条语义路径为X-CP[X][Y]-Y。若实例类间无关联属性，则为CP[X][Y]＝￠。

定义4(查询结果)已知RDF数据集G，给定关键词查询Q,把包含查询关键词的URI顶点或文本顶点称为关键词顶点,URI或文本顶点可以完全匹配或部分包含关键词。查询结果是包含所有查询关键词顶点的连通子图(记为R以三元组集合形式表示，其中任意两个三元组通过主语或宾语或其他三元组关联形成连通子图)。形式化表示，R＝{t₁,t₂,…,t_k,…,t_r}，其中

t_i<s_i,p_i,o_i>和t_j<s_j,p_j,o_j>,则有(s_i＝s_i且o_i≠o_j)或(s_i＝o_j且o_i≠s_j)或(o_i＝s_j且s_i≠o_j)或(o_i＝o_j且s_i≠s_j)。两个三元组集合中元素不完全相同，则认为是不同的查询结果。

定义5(语义评分,Semantic Score Estimation简写为SSE)输入查询Q＝{q₁,q₂,…,q_i,…,q_m}对应RDF本体中的实例类C＝{c₁,c₂,…,c_i,…,c_m}，假定找到Q的一条语义可达路径

path＝c₁-CP[c₁][c₂]-…-CP[c_i-1][c_i]-…-CP[c_m-1][c_m]-c_m。

其中Length(path)＝Σ_{i,j∈1,2,...,m}distance(c_i,c_j)，

语义评分由语义内容评分和语义结构评分两部分构成，α为调节参数，本文中α＝0.5表示两者影响程度一样。distance(c_i,c_j)为实例类c_i和c_j间语义距离，若实例类c_i和c_j不可达，语义距离为distance(c_i,c_j)＝+∞。Length(path)表示语义内容评分，等于语义路径的路径长度(路径包含顶点个数-1)，路径长度越短，则

值越大说明内容越紧凑。sim(path)表示语义结构评分，I(c_i)为实例类c_i定义属性的集合，|I(c_i)|为集合个数。I(c_i)∩I(c_j)为实例类c_i和实例类c_j共同定义的属性，sim(path)值越大说明语义结构越相似。SSE(path)评分方式使得越好的结果评分值越高，最终按照评分值降序排列，返回前k个结果。

为了让本领域人员进一步了解本发明所提出的基于关键词的RDF分布式语义搜索方法，下面结合具体实施例进行说明。

进一步的，在本实施例中，DSSOK算法借助分布式数据库Hbase作为存储媒介，依据RDF本体中定义的实例类别信息对大规模RDF实例三元组数据，分门别类进行有规则的分布式存储。结合RDF图数据的特点，同一类型的RDF实例三元组数据间的语义关系较密切。输入关键词查询依据关键词所属类别，借助有效的索引表查找同一类型的数据有效缩减查询范围且快速找到语义关联密切的查询结果。HBase具备分布式和列存储特性，可满足稀疏数据类型RDF的存储需求。此外,HBase提供了Row key索引，在MapReduce计算模型上HBase系统可容易实现批处理运算，实现大规模RDF存储和查询性能都会比较理想，具有高扩展性。具体Hbase表及存储内容说明如表2所示。

表2

其中，OWL_Table存储RDF本体定义信息，RDF本体是确定且稳定的，只需要一次解析存储至OWL_Table本体表避免每次查询都要重复解析RDF本体来构建类-属性二维模型。Index_S_Table和Index_O_Table是以S和O为主键的索引表，根据输入查询关键词快速定位对应到具体实例类和三元组实例类表ClassName_SPO或ClassName_OPS，为查询关键词构建Top-k语义搜索路径提供依据，同时利用索引快速定位提高查询效率。

进一步的，在本实施例中，Top-k语义可达路径构建思路如下：为了减小在大规模图上迭代计算连接路径的开销，该算法充分运用RDF图数据语义结构特征，RDF本体是海量RDF图数据的一个浓缩摘要。DSSOK算法将在大规模RDF数据图上构建所有查询关键词顶点间相互连接路径问题转换为在KB级别大小的RDF本体上推导出查询关键词所对应实例类间可达语义路径问题，避免了直接在大规模RDF数据图上费时的迭代计算和搜索关键词顶点连接路径，将问题潜在的复杂度从n²降到m²(n表示三元组数目一般百万级别以上甚至上亿，m表示RDF本体定义实例类个数一般几十到数百级别的)。

进一步的，在本实施例中，在大规模RDF图数据分布式存储基础上，为用户输入的查询关键词构建Top-k语义可达路径，首先确定各个查询关键词对应实例类，其次依据RDF本体表构建类-属性二维模型CP，然后在m*m二维矩阵里模型中搜索涵盖所有实例类的语义通路。在CP中搜索所有查询实例类两两可达语义路径阶段，利用SSE函数进行评分返回评分高的Top-k语义可达路径。构建Top-k语义可达路径实现如算法1以及表3所示。

算法1:为输入的查询关键词构建Top-k语义可达路径算法

输入：关键词查询Q,Hbase数据表，CP和整型值k

输出：关于查询Q的Top-k语义可达路径

表3

在本实施例中，输入查询关键词“Apollo-11,Rocket,Armstrong”表达用户想查询关于“阿波罗11号”的信息。为了便于解释算法1具体执行过程如图4所示，以图2中RDF数据片段来说明。阶段一找到关键词匹配的关键词顶点，阶段二将关键词顶点映射到本体中对应的实例类，最后阶段三构建关于查询关键词的语义可达路径。

图4查询示例的语义可达路径利用SSE语义评分计算过程如下,阶段二中的01,02,03和04分别对应实例类SpaceMission,string,Person和Rocket。

进一步的，在本实施例中，利用MapReduce分布式搜索算法的构建思想如下所示：面对大规模分布式语义网数据的巨大计算量，借助MapReduce并行计算模型来加快完成RDF关键词查询。为了避免了直接在大规模RDF数据图上多次的迭代计算与搜索，该算法先基于RDF本体上推导出查询关键词所对应实例类间可能的语义连接路径，从所有语义连接路径中提取公共子路径来减少不必要的冗余计算，然后只需执行一个MapReduce实现并行计算即可完成查询，有效地减少整体计算的复杂性，提升查询效率。

在本实施例中，首先对路径进行预处理，假定用户输入由m个关键词构成的查询Q，其对应RDF本体中的实例类集合C和匹配的关键词顶点集合V，执行算法1得到查询Q对应的Top-k语义路径集合SRPs(k条语义可达路径，其中每条都覆盖C中所有实例类)，记为SRPs＝{srp₁,srp₂,…,srp_i,…,srp_k}。一条SRP可以看成由许多段子路径构成的，假定srp₁＝p₁-p₂-p₃-p₄，srp₂＝p₁-p₂-p₅-p₆，srp₃＝p₃-p₅-p₆，显然SRPs中路径间会有公共的子路径，如果在MapReduce阶段并行搜索所有SPRs中的路径会有很多冗余的计算拉低了整体的查询性能。因此，在进行MapReduce计算前，我们先对SRPs中所有路径提取公共子路径减少不必要的冗余计算，srp₁和srp₂具有公共子路p₁-p₂，记为<(1,2),(p₁,p₂)>，以及其他路径间的公共子路径<(1),(p₄)>,<(1,3),(p₃)>,<(2,3),(p₅,p₆)>。

在本实施例中，如图4所示，阶段一中匹配的关键词顶点和阶段三中构建得到的Top-k语义可达路径作为MapReduce的输入，然后从结构化存储层Hbase分布式数据库中读取匹配的RDF实例三元组实现RDF关键词分布式并行搜索，MapReduce处理过程包括Map阶段与Reduce阶段。

Map阶段:依据SRPs确定并行关键词顶点对应的搜索路径的实例三元组，如三元组满足搜索路径则生成一对<key，value>。其中key为满足的路径srp_i的序号i，value为四元组，如<(1),(p₁,s_t,p_t,o_t)>表示实例三元组(s_t,p_t,o_t)满足SRPs中的srp_i的子路径p₁。

Reduce阶段:完成同一个搜索路径srp_i对应的多个子路径的连接，每个连接得到一个查询结果。最后并行完成所有的SRPs搜索路径的连接操作，返回查询结果Rs＝{R₁,R₂,…,R_i,…,R_k}。DSSOK算法的MapReduce具体处理过程如图5所示。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于关键词的RDF分布式语义搜索方法，其特征在于，基于RDF本体构建输入查询关键词的语义可达路径，在构建阶段根据查询内容的语义内容和语义结构进行评分排序，生成Top-k语义可达路径，然后利用MapReduce计算框架并行搜索返回Top-k查询结果；

其中，还包括一Hbase分布式存储阶段，且存储过程按照如下方式实现：在MapReduce计算框架的Map阶段，将RDF实例元组以及OWL本体按类别并行解析分割，在Reduce阶段输出类元组，得到分割后类元组数据文件，并批量导入Hbase分布式数据库；

其中，构建Top-k语义可达路径按照如下方式实现：首先确定用户输入的各个查询关键词对应实例类；其次依据RDF本体表构建类-属性二维模型CP；然后在m*m二维矩阵模型中搜索涵盖所有实例类的语义通路；

其中，在所述类-属性二维模型CP中搜索所有查询实例类两两可达语义路径阶段，利用SSE函数进行评分返回评分高的Top-k语义可达路径；其中，SSE函数如下所示：

α为调节参数，

Length(path)表示语义内容评分，等于语义路径的路径长度，distance(c_i,c_j)为实例类c_i和c_j间语义距离，sim(path)表示语义结构评分，I(c_i)为实例类c_i定义属性的集合，|I(c_i)|为集合个数， I(c_i)∩I(c_j)为实例类c_i和实例类c_j共同定义的属性；

其中，在所述MapReduce计算框架并行搜索阶段，对所述Top-k语义可达路径的路径集合SRPs进行预处理，将所有路径提取公共子路径；将预处理后的SRPs作为MapReduce的输入，从所述Hbase分布式数据库中读取匹配的RDF实例三元组实现RDF关键词分布式并行搜索；

其中，在所述MapReduce的Map阶段：根据所述路径集合SRPs确定并行关键词顶点对应的搜索路径的实例三元组，若实例三元组满足搜索路径则生成一对<key，value>，其中，key为满足的路径srp_i的序号i，value为四元组；

Rs＝{R₁,R₂,…,R_i,…,R_k}

其中，k为语义可达路径的个数。

2.根据权利要求1所述的基于关键词的RDF分布式语义搜索方法，其特征在于，所述Hbase分布式数据库包括如下类型表：OWL_Table、Index_S_Table、Index_O_Table、ClassName_SPO以及ClassName_OPS；所述OWL_Table存储RDF本体信息，类、属性的定义信息及语义关联关系；所述Index_S_Table为主语S索引表,存储所有主语为S对应类的实例三元组；所述Index_O_Table为宾语O索引表,存储所有宾语为O对应类的或文本的实例三元组；所述ClassName_SPO以(S,P,O)形式存储每个类的实例三元组信息；所述ClassName_OPS以(O,P,S)形式存储每个类的实例三元组信息。