CN104809168A

CN104809168A - 超大规模rdf图数据的划分与并行分布处理方法

Info

Publication number: CN104809168A
Application number: CN201510157833.3A
Authority: CN
Inventors: 袁平鹏; 金海�; 谢昌凤; 罗毅
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2015-04-06
Filing date: 2015-04-06
Publication date: 2015-07-29
Anticipated expiration: 2035-04-06
Also published as: CN104809168B

Abstract

本发明公开了一种超大规模RDF图数据的划分与并行分布处理方法，包括：对原始的RDF图数据进行预处理，生成对应的哈希字典文件和整形三列表数据，并将整形三列表数据转换成关联矩阵M；建立关联矩阵M的超图模型，在该超图模型中，M的主语、谓词和宾语即为超边，与超边相关的数据即为超边数据；判断该RDF图数据是连通图还是非连通图，如果是非连通图，则将该非连通图划分为多个连通图；基于超图模型，并发的广度遍历并等分放置路径上的超边数据，将超边数据进行分类排序并等分成K份放入K个从节点上，同时建立超边数据与从节点的映射关系。本发明的划分速度快，划分质量高，数据和任务负载均衡，查询处理的并行度高、速度快。

Description

超大规模RDF图数据的划分与并行分布处理方法

技术领域

本发明属于大数据处理领域，更具体地，涉及一种超大规模RDF图数据的划分与并行分布处理方法。

背景技术

资源描述框架(Resource Description Framework，简称RDF)是整个语义网系统结构中的核心，它被广泛用来描述互联网上存在的各种信息资源。随着RDF数据的不断增长，在单机上处理已经显得力不从心了，所以必须将RDF数据划分到多机上进行处理。

对超大规模RDF图数据的划分，常用的方法有启发式划分和并行层次划分。对于启发式方法，一般是提供一个目标函数，然后划分围绕着这个函数的最优化方向展开，但是目标函数的选取比较困难。对于并行层次划分，则包含三个划分阶段：粗化阶段(Coarsen)、初始化阶段(Initial)和细化提纯阶段(Uncoarsen refinement)，粗化阶段则把大图收缩为小图，初始化阶段则对小图进行划分，细化提纯阶段则将小图还原回大图，最终完成划分。这两种方法普遍存在划分时间过长、划分质量不高和任务负载不均衡的问题，最终导致数据的查询处理性能低效。另外，还有采用Metis划分工具将RDF数据的顶点划分成两两不相交的部分，然后以每个顶点为中心向外延伸n跳，最后使用Hadoop处理节点之间的数据传输和结果收集，它的缺点主要是数据冗余度太大，数据处理速度比较慢。

目前，对超大规模图数据的划分和并行分布处理还处于发展阶段，现有的解决方案存在一些技术问题：图数据的划分速度慢，划分质量差；此外，其无法有效地保证数据间关系的完整性、节点数据分布的均匀性和任务负载的均衡性。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种超大规模图数据的划分与并行分布处理方法和系统，其目的在于，通过采用基于超图的生成树划分方法，并发的广度遍历并等分放置路径上的超边数据，从而兼顾数据分布的均匀性和任务负载的均衡性，并通过采用位块传输和流水线式的处理方式，解决现有划分方法的划分时间过长、划分质量不高和任务负载不均衡的问题。

为实现上述目的，按照本发明的一个方面，提供了一种超大规模RDF图数据的划分与并行分布处理方法，包括以下步骤：

(1)对原始的RDF图数据进行预处理，生成对应的哈希字典文件和整形三列表数据，并将整形三列表数据转换成关联矩阵M；

(2)建立关联矩阵M的超图模型，在该超图模型中，M的主语、谓词和宾语即为超边，与超边相关的数据即为超边数据；

(3)判断该RDF图数据是连通图还是非连通图，如果是连通图则转入步骤(4)，如果是非连通图，则将该非连通图划分为多个连通图，并对每一个连通图执行步骤(4)；

(4)基于超图模型，并发的广度遍历并等分放置路径上的超边数据，并将超边数据进行分类排序并等分成K份放入K个从节点上，其中K为正整数，同时建立超边数据与从节点的映射关系；

(5)对划分到每个从节点上的数据进行后续处理，去除冗余数据，生成相应的关联矩阵、统计信息和索引文件；

(6)各个从节点加载相应的关联矩阵、统计信息和索引文件到内存中，并等待主节点发送来的查询任务；

(7)主节点接收用户提交的查询任务，并将其分解为子查询任务，将子查询任务分发到对应的从节点上进行处理，最终生成投影变量数据；

(8)各从节点采用位块的方式对投影变量数据进行封装和压缩，并以流水线方式将封装和压缩后的数据进行传输和后续的连接处理；

(9)将各个从节点上的中间处理结果进行差值压缩，并将压缩后的结果发送回主节点；

(10)主节点接收来自各个从节点的压缩结果，对结果进行解压操作和最终的汇总处理，并把汇总结果返回给用户。

优选地，步骤(4)包括以下子步骤：

(4-1)获取超图模型中所有的谓词，选取度数最大的谓词作为遍历的起始点，并获得该谓词的超边数据；

(4-2)将该谓词的超边数据进行分类，并按照每一类别的超边数量进行降序排序；

(4-3)将分类排序所获得的每一类别下的数据进行K等分切，然后放入K个从节点上；

(4-4)将该谓词标记为已访问，同时建立该谓词的超边数据与从节点的映射关系；

(4-5)从分类排序所获得的类别中得到一批新的超边，剔除已访问的超边，并获取每个主语对应的超边数据，将每一个主语的超边数据进行分类，并按照每一类别的超边数量进行降序排序；

(4-6)并发的将分类排序所获得的每一类别下的数据进行K等分切，然后放入K个从节点上；

(4-7)标记已访问的超边并建立超边数据与从节点的映射关系；

(4-8)从分类排序所获得的类别中又得到一批新的超边，剔除已访问的超边，并获取每个宾语对应的超边数据，将每一个宾语的超边数据进行分类，并按照每一类别的超边数量进行降序排序；

(4-9)并发的将分类排序所获得的每一类别下的数据进行K等分切，然后放入K个从节点上；

(4-10)标记已访问的超边并建立超边数据与从节点的映射关系；

(4-11)跳转到步骤(4-5)，直至所有的超边都遍历完一遍为止。

优选地，步骤(4-3)、(4-6)和(4-9)中K等分切的具体执行标准如下，其中Deg表示某超边的某一分类的度：

当Deg<K/2时，通过哈希生成一个节点号，然后将该分类的全部数据放入该节点上；

当K/2≤Deg<K时，将该分类数据进行冗余补全，使其冗余之后的Deg恰好为K，此时就可以等分成K份；

当Deg≥K时，直接将该分类数据等分成K份放入K个从节点上。

优选地，步骤(7)具体包括以下步骤：

(7-1)接收用户提交的查询任务Q；

(7-2)对查询任务Q进行初步的解析，生成原始的查询图G；

(7-3)根据建立的超边数据与从节点的映射关系，对查询图G进行分析，初步确定G中的每一个超边数据的节点分布，并生成超边数据的节点分布情况；

(7-4)根据节点分布情况来确定查询任务的每一分句的节点归属，由此生成每个从节点对应的子查询任务；

(7-5)对于每一个子查询任务，判断其是连通图还是非连通图，若为连通图则转到步骤(7-6)，若不连通，则补全所有与该子查询任务的连接变量相关的语句，使之成为一个连通图，然后转入步骤(7-6)；

(7-6)将各个子查询任务进行压缩，并将它们分发到相应的从节点上进行处理；

(7-7)各从节点接收相应的数据，对其进行解压，获取对应的子查询；

(7-8)各从节点利用本地的统计信息和索引文件生成该查询任务对应的查询计划，接着执行相应的查询任务，以生成投影变量数据。

优选地，步骤(8)具体包括以下步骤：

(8-1)确定需要进行交互的数据，即不同节点所拥有的公共变量所包含的ID段；

(8-2)比较不同节点待传输数据量的大小，选取数据量较小的节点作为发送方；

(8-3)将发送方的数据ID段按照连接变量进行分块，分块的标准是保证同一个块内的ID范围比较相近，不同块之间的ID范围则相隔渐远，这里假定分成了N块；

(8-4)设置计数器count＝1；

(8-5)将第count个数据块转换成相应的位块，通过待传输的数据总量确定前后两个ID的差值阈值D0，这里的D0用来判别当前ID是归入当前位块还是下一个位块；

(8-6)获取一个新ID，计算新ID与上一个ID的差值，记为Di；若Di≤D0，则先在位块上填充Di-1个bit-0，然后再填充一个bit-1，修改delta为delta+Di；否则，一个位块形成，将delta值填入该位块，传输该位块，再重新生成一个位块，将该ID填入startID，并将delta置为1；

(8-7)接收方接收相应的位块；

(8-8)接收方解压相应的位块，获取原始ID段，并进行连接处理，与此同时发送方在压缩并传输下一个位块，即接收方在执行步骤(8-8)的时候，发送方在并发的执行步骤(8-5)，形成流水线式的执行方式；

(8-9)设置计数器count＝count+1；

(8-10)判断count是否大于N，若是则进入步骤(8-11)，否则返回到步骤(8-5)；

(8-11)收集并合并各个削减后的数据块，根据查询任务中的投影变量来生成本地的最终处理结果。

按照本发明的另一方面，提供了一种超大规模RDF图数据的划分与并行分布处理系统，包括：

第一模块，用于对原始的RDF图数据进行预处理，生成对应的哈希字典文件和整形三列表数据，并将整形三列表数据转换成关联矩阵M；

第二模块，用于建立关联矩阵M的超图模型，在该超图模型中，M的主语、谓词和宾语即为超边，与超边相关的数据即为超边数据；

第三模块，用于判断该RDF图数据是连通图还是非连通图，如果是连通图则转入第四模块，如果是非连通图，则将该非连通图划分为多个连通图，并对每一个连通图执行第四模块；

第四模块，用于基于超图模型，并发的广度遍历并等分放置路径上的超边数据，并将超边数据进行分类排序并等分成K份放入K个从节点上，其中K为正整数，同时建立超边数据与从节点的映射关系；

第五模块，用于对划分到每个从节点上的数据进行后续处理，去除冗余数据，生成相应的关联矩阵、统计信息和索引文件；

第六模块，用于各个从节点加载相应的关联矩阵、统计信息和索引文件到内存中，并等待主节点发送来的查询任务；

第七模块，用于主节点接收用户提交的查询任务，并将其分解为子查询任务，将子查询任务分发到对应的从节点上进行处理，最终生成投影变量数据；

第八模块，用于各从节点采用位块的方式对投影变量数据进行封装和压缩，并以流水线方式将封装和压缩后的数据进行传输和后续的连接处理；

第九模块，用于将各个从节点上的中间处理结果进行差值压缩，并将压缩后的结果发送回主节点；

第十模块，用于主节点接收来自各个从节点的压缩结果，对结果进行解压操作和最终的汇总处理，并把汇总结果返回给用户。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)划分速度快，划分质量高：由于采用了步骤(2)和步骤(4)，通过并发的广度遍历和等分路径上的超边数据，在提升划分速度的同时保证了数据间关系的完整性，提高了划分质量；

(2)任务负载均衡性好：由于采用了步骤(4)，通过将遍历路径上的超边数据等分到K个从节点上，使得各个从节点的数据分布均衡，进而保证各个从节点的任务负载均衡，不至于出现节点瓶颈；

(3)数据的查询处理速度快：由于采用了步骤(8)，使用位块传输和并行半连接技术来减少节点间的数据通信，位块的传输和中间结果的连接处理以流水线的方式进行，进一步的加快数据的传输和查询处理速度。

附图说明

图1是本发明超大规模RDF图数据的划分与并行分布处理方法的流程图；

图2是本发明方法中步骤(4)的细化流程图；

图3是本发明方法中步骤(7)的细化流程图；

图4是本发明方法中步骤(8)的细化流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明的超大规模RDF图数据的划分与并行分布处理方法包括以下步骤：

(2)建立关联矩阵M的超图模型，在该超图模型中，M的主语(S)、谓词(P)和宾语(O)即为超边，与超边相关的数据即为超边数据；

(4)基于超图模型，并发的广度遍历并等分放置路径上的超边数据，并将超边数据进行分类排序并等分成K份放入K个从节点上(K为正整数，且其取值大小是由用户基于RDF图数据的大小来设定)，同时建立超边数据与从节点的映射关系。如图2所示，本步骤具体包括以下子步骤：

(4-2)将该谓词的超边数据进行分类，即把同一宾语的超边数据归为一类，并按照每一类别的超边数量进行降序排序；

(4-5)从分类排序所获得的类别中得到一批新的超边(即主语)，剔除已访问的超边，并获取每个主语对应的超边数据，将每一个主语的超边数据进行分类，即把同一谓词的超边数据归为一类，并按照每一类别的超边数量进行降序排序；

(4-8)从分类排序所获得的类别中又得到一批新的超边(即宾语)，剔除已访问的超边，并获取每个宾语对应的超边数据，将每一个宾语的超边数据进行分类，即把同一谓词的超边数据归为一类，并按照每一类别的超边数量进行降序排序；

(4-11)跳转到步骤(4-5)，直至所有的超边都遍历完一遍为止；

其中步骤(4-3)、(4-6)和(4-9)中提到的K等分切的具体执行标准如下(假定某超边的某一分类的度为Deg)：

当Deg≥K时，直接将该分类数据等分成K份放入K个从节点上。

(7)主节点接收用户提交的查询任务，并将其分解为子查询任务，将子查询任务分发到对应的从节点上进行处理，最终生成投影变量数据。如图3所示，具体包括以下步骤：

(7-1)接收用户提交的查询任务Q；

(7-2)对查询任务Q进行初步的解析，生成原始的查询图G；

(7-5)对于每一个子查询任务，判断其是连通图还是非连通图，若为连通图则转到步骤(7-6)，若不连通，则补全所有与该子查询任务的连接变量相关的语句，使之成为一个连通图；

(7-8)各从节点利用本地的统计信息和索引文件生成该查询任务对应的查询计划，接着执行相应的查询任务，以生成投影变量数据；

(8)各从节点采用位块的方式对投影变量数据进行封装和压缩，并以流水线方式将封装和压缩后的数据进行传输和后续的连接处理。如图4所示，具体包括以下步骤(以节点Node1和Node2的交互为例)：

(8-1)确定需要进行交互的数据，即Node1和Node2所拥有的公共变量所包含的ID段；

(8-2)比较Node1和Node2待传输数据量的大小，选取数据量较小的那个节点作为发送方；

(8-4)设置计数器count＝1；

(8-5)将第count个数据块转换成相应的位块，通过待传输的数据总量确定前后两个ID的差值阈值D0，这里的D0用来判别当前ID是归入当前位块还是下一个位块，其中，位块的结构如下：

startID

delta

1

0

1

0

…

1

结构中的bit-0代表对应的ID不存在，bit-1代表对应的ID存在，此外还需标志该位块所对应的起始ID和ID范围，这里我们以startID和delta表示；

(8-7)接收方接收相应的位块；

(8-9)设置count＝count+1；

(8-11)收集并合并各个削减后的数据块，根据查询任务中的投影变量来生成本地的最终处理结果；

本发明的优点在于：

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种超大规模RDF图数据的划分与并行分布处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的划分与并行分布处理方法，其特征在于，步骤(4)包括以下子步骤：

(4-11)跳转到步骤(4-5)，直至所有的超边都遍历完一遍为止。

3.根据权利要求2所述的划分与并行分布处理方法，其特征在于，步骤(4-3)、(4-6)和(4-9)中K等分切的具体执行标准如下，其中Deg表示某超边的某一分类的度：

当Deg≥K时，直接将该分类数据等分成K份放入K个从节点上。

4.根据权利要求1所述的划分与并行分布处理方法，其特征在于，步骤(7)具体包括以下步骤：

(7-1)接收用户提交的查询任务Q；

(7-2)对查询任务Q进行初步的解析，生成原始的查询图G；

5.根据权利要求1所述的划分与并行分布处理方法，其特征在于，步骤(8)具体包括以下步骤：

(8-4)设置计数器count＝1；

(8-7)接收方接收相应的位块；

(8-9)设置计数器count＝count+1；

6.一种超大规模RDF图数据的划分与并行分布处理系统，其特征在于，包括：