CN105955999B

CN105955999B - 一种大规模RDF图的ThetaJoin查询处理方法

Info

Publication number: CN105955999B
Application number: CN201610247087.1A
Authority: CN
Inventors: 袁平鹏; 金海�; 王涛
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2016-04-20
Filing date: 2016-04-20
Publication date: 2019-04-23
Anticipated expiration: 2036-04-20
Also published as: CN105955999A

Abstract

本发明公开了一种大规模RDF图的ThetaJoin查询处理方法，包括了以下步骤：(1)采用伙伴内存分配的方式分配ID空间，对RDF常量数据进行保序编码。(2)建立数据字典，将RDF三元组数据转化为ID三元组，压缩存储并建立索引。(3)解析含ThetaJoin的SPARQL查询请求，将已知量转化为ID并将变量编码。(4)利用扩展的查询图模型对查询进行表示，查询分解划分星型子查询，为各星型子查询生成执行计划。(5)并行执行各个星型子查询，利用数据的分块和流水线提高并行度，并尽可能早的处理ThetaJoin。(6)将星型子查询内部的变量约束传递给相邻星型子查询，利用连接调度对中间结果执行连接运算，削减中间结果。(7)执行全连接，按照投影变量的顺序将查询结果返回给用户。

Description

一种大规模RDF图的ThetaJoin查询处理方法

技术领域

本发明属于大数据处理领域，更具体地，涉及一种大规模RDF图数据的ThetaJoin查询处理方法。

背景技术

过去的一些年，语义网和RDF的研究与应用都得到了飞速发展。一些重要的应用领域如社交网络、生命科学、商业智能都更倾向于使用RDF数据模型。越来越多的机构如纽约时报、维基百科(Wikipedia)等，在互联网上发布RDF形式的数据。与此同时，RDF的数据规模也以惊人的速度爆发式增长。目前LOD(Linked Open Data)项目已从2011年的294个数据集增长到2014年的1091个数据集，数据总规模量早在2012年便超过了520亿条三元组。

对于RDF数据的存储与查询，国内外专家提出了许多思路和方法，也涌现出了许多不同类型的RDF数据存储查询引擎。按照存储方式大体上可以分为：基于三元组表的存储引擎、基于属性表的存储引擎、基于垂直划分的存储引擎以及基于数据图的存储引擎。在查询处理上，也出现了各种各样的方式。将SPARQL查询转化为SQL语句利用关系数据库是处理查询最直接简单的方式，但更有效的处理方式是利用自有存储结合针对RDF数据的查询优化来处理SPARQL查询。

SPARQL作为W3C推荐的语义数据标准查询语句，2013年发布的SPARQL1.1查询语言规则，包括了数据的更新、ThetaJoin等一系列复杂的操作。而已有的一部分RDF查询引擎，如RDF-3X,TripleBit等，仅能够处理简单的三元组模式匹配查询，涉及到的连接处理都是Equi-Join，将查询的优化工作集中在了等值连接的查询优化上，而不能处理含不等符号(<,>,>＝,<＝)的ThetaJoin查询。但在RDF的数据分析和数据挖掘领域，会涉及很多复杂的查询，包括ThetaJoin查询。ThetaJoin查询可以更丰富地表达用户的查询需求。关于ThetaJoin查询的优化技术，随着数据库技术尤其是关系数据库技术的发展已经被国内外学者研究的较多，但是如何高效处理RDF图数据上的SPARQL ThetaJoin查询，却很少被人提及。为了能够处理RDF图数据上的ThetaJoin查询，有些专家利用分布式MapReduce并行框架来实现Multi-Way ThetaJoin等，但这些研究工作在处理RDF图时将RDF数据转化为(Key,Value)对的形式，利用Hadoop本身的特性来进行处理。有些研究选择利用关系数据库能够利用SQL引擎处理ThetaJoin查询。也有一些研究在处理SPARQL查询时，实质是将SPARQL转化为SQL或通过修改SQL编译器来支持SPARQL，利用SQL优化的方式进行处理，但都借助于已有数据库的优化策略，未能针对RDF数据本身的特性进行优化，效率都比较低，开销较大。

发明内容

针对以上现有技术缺陷或改进需求，本发明提供一种大规模RDF图数据的ThetaJoin查询处理方法，其目的在于为已有的RDF存储系统提供处理ThetaJoin查询的方法，提升ThetaJoin查询的处理效率，同时使得对于数据规模的增加，具有良好的扩展性。

为实现上述目的，本发明提供了一种大规模RDF图数据的ThetaJoin查询处理方法，具体包括了以下步骤：

(1)采用类似于伙伴内存分配的方式分配ID空间，对RDF常量数据进行保序编码，对分配的ID空间建立索引。

(2)建立数据字典，将RDF三元组数据转化为ID三元组数据，采用压缩的位图矩阵进行存储，并建立索引。

(3)用户提交SPARQL查询语句，将用户提交的查询语句交给SPARQL解析器进行解析，并将查询语句中的已知量转化为ID，并对变量进行编码。

(4)构建查询图，对查询图进行优化，将复杂的关系模式及表达式模式进行分解，使得查询图得以简化。将查询图分解为若干以连接变量为中心的星型子查询，计算模式、变量以及连接的选择度，并为每个子查询生成相应的查询执行计划。

(5)并行的执行各个星型子查询，星型子查询内部利用数据的分块和基于块的流水线scan提高并行度，同时尽可能早的执行星型子查询内部的ThetaJoin。

(6)将星型子查询中间结果的变量约束信息传递给相邻的星型子查询，利用数据的分块将模式之间的连接转化为块之间的连接，采用面向块的连接调度执行，削减中间结果。

(7)执行全连接，按照循环嵌套连接的方式执行ThetaJoin，将满足条件的元组按照投影变量的顺序转化为字符串形式，并输出最终结果返回给用户。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有以下有益效果：

(1)节省I/O开销。与直接存储原始数据相比，利用保序ID编码压缩存储的方式，大大减少数据的存储空间。针对ThetaJoin查询存在比较操作符的特性，与普通编码方式相比，保序编码能够将原始数据的比较转化为ID的比较，省去了频繁查找ID对应的原始数据的过程，减少了I/O代价。

(2)节省执行开销。对查询进行分解，仅为简单的星型子查询生成查询计划，比为整个查询生成查询计划更简单。采用基于块的流水线scan和面向块的连接调度，将一个大的范围分割为多个小的间隔区间，同时将模式的连接转化为块的连接，并行度大，中间结果更小。

附图说明

图1为本发明的大规模RDF图的ThetaJoin查询处理方法的流程图；

图2为本发明的保序ID分配的流程图；

图3为本发明实施例的星型子查询内部基于块的流水线scan处理的子图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提出了一种大规模RDF图的ThetaJoin查询处理方法，包括对RDF图数据实行保序ID编码、查询处理等，其中查询处理流程图如图1所示，包括以下步骤：

步骤1常量数据的保序ID分配，流程图如图2所示，具体包括以下几个子步骤：

(1-1)对RDF数据进行预处理，收集RDF常量数据，划分为字符串和数值型数据，并分别排序；

(1-2)依据实体的数目将ID空间大小设为2³²，ID空间允许分裂和回收，同时分配与回收的ID空间大小为2的幂次方；

(1-3)为每一段数据分配一段连续的ID空间，大小为2的幂次方且大于数据段的长度；

(1-4)对数据段内的每一个常量数据，找到对应分配的ID空间，依据分配的连续ID空间大小及常量值数据的大小顺序，在已分配的ID空间中为常量数据分配一个保持大小关系一致性的ID；

(1-5)若对应的ID空间中无法继续分配与其保持大小一致性的ID，则回收该ID空间，撤销该段数据已分配的ID并重新分配，重复(1-3)和(1-4)直至所有数据编码结束。

步骤2建立RDF数据原始字符串与ID相互映射的数据字典。将原始数据转化为ID，从而将RDF数据的三元组转化为ID三元组，并压缩存储。建立用于数据定位的块索引以及有助于查询执行的实体谓词索引和统计信息索引。

步骤3用户将查询请求利用SPARQL语句表示。将用户提交的查询语句交给SPARQL解析器进行解析，将查询语句中的变量编码，利用数据字典，将查询语句中的已知量转化为ID。

步骤4构建查询图并进行优化，查询分解，生成查询计划。具体包括了以下几个子步骤：

(4-1)将查询语句中的复杂表达式模式(含有逻辑预算与、或和非)进行分解简化；

(4-2)构建查询图，其中变量(包括连接变量和约束变量)以及模式(包括三元组模式、关系模式和表达式模式)为顶点。若变量出现在模式中，则变量顶点与模式顶点之间形成一条边。若两个模式之间具有共同的连接变量，则两个模式顶点之间形成一条边；

(4-3)将查询图分解成多个以变量为中心的星型子查询；

(4-4)计算模式、变量的选择度，将以低选择度变量为中心的星型子查询中的公共模式标记为不执行，避免重复计算；

(4-5)根据变量选择度和模式选择度的大小顺序，将部分值约束表达式模式与三元组模式合并，使得查询执行过程中模式的scan与过滤操作同时执行；调整模式的执行顺序，为每个星型子查询生成查询计划。

步骤5并行的执行各星型子查询,星型子查询采用基于块的流水线scan，如图3所示，具体包括以下子步骤：

(5-1)各星型子查询并行执行；

(5-2)在星型子查询内部采用基于块的流水线scan。依据模式选择度大小顺序，利用索引，定位星型子查询最大选择度的模式对应的数据块范围，并行的读取；

(5-3)当最大选择度模式的一个数据块scan结束，将数据块的边界值传递给星型子查询内其他低选择度模式；

(5-4)星型子查询内低选择度模式利用得到的边界值及索引，定位需要读取的数据块范围，并行读取；

(5-5)将星型子查询内的星型模式连接转化为数据块的连接，利用连接调度并行执行。

步骤6将星型子查询内部中间结果的变量约束信息传递给相邻的星型子查询，采用面向块的连接调度并发执行，对中间结果继续削减。

步骤7执行全连接，按照循环嵌套连接的方式执行ThetaJoin，将满足条件的元组按照投影变量的顺序转化为原始数据并返回给用户。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大规模RDF图的ThetaJoin查询处理方法，其特征在于，包括以下步骤：

步骤1采用伙伴内存分配的方式分配ID空间，对RDF常量数据进行保序编码，使得数据的ID大小顺序与原始数据的大小顺序保持一致，并对分配的ID空间建立索引；

步骤2建立原始数据与ID相互映射的数据字典，将RDF图数据转化为ID三元组数据进行压缩存储并建立索引；

步骤3将用户提交的SPARQL查询语句交给SPARQL解析器，将查询语句中的已知量转化为ID，并对变量进行编码；

步骤4将解析后查询语句中的变量、三元组模式、关系模式、表达式模式表示成查询图，对查询图进行优化，将查询图分解为多个星型子查询，为每个星型子查询生成相应的执行计划；

步骤5并行的执行各个星型子查询，星型子查询内部利用数据的分块和基于块的流水线scan提高并行度，同时执行星型子查询内部的ThetaJoin；

步骤6将星型子查询内部中间结果的变量约束信息传递给相邻的星型子查询，将模式的连接转化为块的连接，采用面向块的连接调度并发执行，削减中间结果；

步骤7执行全连接，按照循环嵌套连接的方式执行ThetaJoin，按照查询变量的顺序收集结果集ID，转化为字符串，并输出最终结果返回给用户。

2.如权利要求1所述的大规模RDF图的ThetaJoin查询处理方法，其特征在于，所述步骤1具体包括以下子步骤：

(1-2)依据实体的数目将ID空间大小设为2³²，ID空间允许分配和回收，分配与回收的ID空间大小为2的幂次方；

(1-4)对段内每一个常量数据，找到其对应分配的ID空间，依据分配的连续ID空间大小及常量值数据大小顺序，在已分配的ID空间中为常量数据分配一个保持大小关系一致性的ID；

3.如权利要求1或2所述的大规模RDF图的ThetaJoin查询处理方法，其特征在于，所述步骤4具体包括以下子步骤：

(4-1)将查询语句中的复杂表达式模式进行分解简化，所述复杂表达式模式包含了逻辑运算符与、或和非；

(4-2)构建查询图，其中变量以及模式为顶点，所述变量包括连接变量和约束变量，所述模式包括三元组模式、关系模式和表达式模式；若变量出现在模式中，则该变量顶点与模式顶点之间形成一条边；若两个模式之间具有共同的连接变量，则两个模式顶点之间形成一条边；

(4-3)将查询分解成多个以变量为中心的星型子查询；

4.如权利要求1或2所述的大规模RDF图的ThetaJoin查询处理方法，其特征在于，所述步骤5具体包括以下子步骤：

(5-1)各星型子查询并行执行；

(5-2)在星型子查询内部采用基于块的流水线scan，依据模式选择度大小顺序，利用索引，定位星型子查询最大选择度的模式对应的数据块范围，并行的读取；

(5-4)星型子查询内低选择度模式利用得到的边界值及索引，定位需要读取的数据块范围，并行读取;

(5-5)将星型子查询内的星型模式连接转化为数据块的连接，利用连接调度并行执行，削减中间结果大小。