CN109344259A

CN109344259A - 一种基于多层划分框架的rdf分布式存储方法

Info

Publication number: CN109344259A
Application number: CN201810803364.1A
Authority: CN
Inventors: 刘均; 王瑞杰; 晋毓泽; 张铎; 魏笔凡; 王萌; 姚思雨; 曾宏伟
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2018-07-20
Filing date: 2018-07-20
Publication date: 2019-02-15
Anticipated expiration: 2038-07-20
Also published as: CN109344259B

Abstract

本发明公开了一种基于多层划分框架的RDF分布式存储方法，主要步骤包括：(1)通过MMA算法优化RDF图中的顶点移动，保护了RDF图中小社团；(2)通过MSLM算法对RDF图进行粗糙化，发现了RDF图中的社团结构，并且在此基础了缩小了RDF数据的规模；(3)通过B_AP算法实现了对RDF图的k‑way分割，使得各个物理存储节点之间的数据量相对平衡并且降低了节点之间的通信代价。本发明提出了完整的RDF分布式存储方法，为提升RDF的查询效率奠定了基础。

Description

一种基于多层划分框架的RDF分布式存储方法

技术领域

本发明属于分布式存储领域，具体涉及一种基于多层划分框架的RDF分布式存储方法。

背景技术

随着语义网的高速发展，RDF(Resource Description Framework)作为语义网的核心标准也呈现爆炸式的增长，对大规模RDF数据的存储和查询管理成为了当前研究的热点。传统基于单机的RDF存储和查询由于数据扩展性差等问题在面对超大规模的RDF数据时难以管理，所以基于分布式的RDF存储和查询成为了研究趋势，而如何更好地将RDF分割且进行分布式查询成为了在分布式系统上对RDF研究的重点。

分布式系统和云计算平台因为存储空间大，可扩展性强等优势而在各个领域取得长足发展。而RDF数据集的日渐增长也使得对RDF的存储和查询的研究在近些年来越来越多地向基于分布式系统或者云计算平台发展。分布式系统存储RDF图数据主要涉及到在分布式环境下的布局形式，分割算法，冗余算法等诸多问题。现有的RDF分布式存储技术主要包括基于哈希的RDF分割方法，基于键值对的RDF分割方法，基于图模型的RDF分割方法和基于多层划分框架的RDF分割方法，其中当前最为流行的就是基于多层划分框架思想的RDF分割方法。

针对RDF分布式存储方法，申请人通过查询，检索到2篇与本发明相关的发明专利：

(1)一种分布式层次化的RDF数据的存储方法，申请号：201310658588.5；该专利公开了一种分布式层次化的RDF数据的存储方法，包括：对所有RDF数据进行索引；采用两个存储层以存储索引后的RDF数据，从底层到上层依次为：持久化存储层和分布式内存存储层；所有RDF数据首先存储到持久化存储层，然后，将常用的RDF数据存储到分布式内存存储层；将所有存储在持久化存储层的RDF数据自动保持多个备份；当检测到分布式内存存储层的节点发生数据失效时，在下次查询到该节点中的RDF数据时，从持久化存储层去获取相应的数据。

(2)一种高效的分布式的RDF数据存储方法，申请号：201610064516.1；该专利公开了一种高效的分布式的RDF数据存储方法。包括：1)用户为待上传的每一三元组选取一命名图或设定一新的命名图；并根据业务需求为该三元组设定一有效谓词及其三元组；2)数据控制系统对用户上传的RDF数据中的每条三元组进行解析，提取该三元组的谓词及该三元组的命名图的有效谓词；然后根据该有效谓词，将该三元组拆分成具有相同唯一标识的两个三元组：同一主语的完整谓词的三元组和同一主语的有效谓词的三元组；有效谓词为完整谓词中一部分谓词；3)数据控制系统将得到的同一主语的完整谓词的三元组数据和同一主语的有效谓词的三元组数据分别存储到不同的数据库集群。

上述的两个专利方案中均没有从宏观上考虑RDF的社团特性与分布式系统的通信代价问题，从而可能导致各个物理节点之间交叉边数目过多而使得查询效率下降，无法达到高效存储的目的。

发明内容

本发明的目的在于提供一种基于多层划分框架的RDF分布式存储方法，以克服现有技术存在的物理节点之间低平衡性与高通信代价的缺陷。

本发明采用如下技术方案来实现的：

一种基于多层划分框架的RDF分布式存储方法，该方法通过MMA算法和MSLM算法实现对RDF图的粗糙化，通过B_AP算法实现对RDF图的k-way分割，具体步骤如下：

Step1执行以下初始化操作：

101)RDF图的初始化：设RDF三元组的主语集合为T_s，谓语集合为T_p，宾语集合为T_o，那么定于RDF图为：G＝(V,E)，其中V＝{v|v∈T_s∪T_o}，并且假设n＝|V|表示RDF图中顶点的个数，m＝|E|表示RDF图边的数量；

102)数据预处理：将RDF数据的N-Triple型数据集全部处理为图格式，为后续在RDF图上的算法运行做准备；

Step2通过MMA算法首先对RDF图的顶点移动进行优化：在MMA算法中设定ε∈[β,0.5)，其中0＜β＜0.5，当模块度的增值大于ε，进行移动顶点；

Step3通过MSLM算法对RDF图进行粗糙化：基于模块度的MSLM算法将RDF图的规模进行压缩，达到粗糙化RDF图的目的，其具体的优化步骤如下：

301)RDF图中存在大量的属性节点，其入度都为1，所以本文认为将RDF图中所有的入度为1的顶点都等同于属性节点，即在算法运算过程，如果节点的入度为1，直接跳过进行下一个顶点的运算；

302)RDF图中存在着大量小社团，但是在模块度增加的情况下不断被吞并，所以设置浮动参数来调节保护小社团的存在；

Step4通过B_AP算法对RDF图进行k-way分割，实现分割的平衡性和最小边割的目标。

本发明进一步的改进在于，Step2中所述的MMA算法描述如下：

假设顶点v从c₁移动c₂到了，则对于c₁和c₂的模块度的变化如下：

式中E(c₁)和E(c₂)表示粗糙子图c₁和c₂中的边数，而和表示粗糙子图中c₁和c₂顶点v的邻居顶点；所以，模块度增值ΔQ的计算公式如下：

ΔQ＝ΔQ₁+ΔQ₂ (7)。

本发明进一步的改进在于，Step3中所述的MSLM算法描述如下：

对于RDF图运行MSLM算法后，计算模块度值变量ΔQ'，假设计算社团c₁的某个顶点v_i进行移动，其模块度变化计算公式如下：

式中，ω_in(v_i)表示由顶点v_i入射社团c₁的权重之和，∑_tot表示入射社团c₁的总权重，而ω(v_i)表示顶点v_i的总权重。

本发明进一步的改进在于，Step4中的具体实现步骤描述如下：

401)定义新的相似度：为了体现RDF图中顶点的相似度与边的权重成比例，使用一个线性函数转换来标准化相似度，公式如下：

式中MAX表示图中顶点中权值的最大值，而MIN表示权值的最小值；

402)初选聚类中心：运用顶点密度作为筛选备选的聚类中心的条件，如果顶点v_i所有邻居顶点的顶点密度都较小而且顶点v_i与其他的顶点密度较高的顶点关系疏远，那么顶点将会被当作备选的聚类中心；顶点密度的计算公式如下：

式中d_c是截止距离，满足数据集中所有数据顶点的1％到2％的邻居顶点的平均值；

403)为了使得最终的聚类之间的边割最小，引入了一个目标函数f(P)；当目标函数收敛的时候，表示聚类之间的相似度最小，而各个聚类中心内部的相似度达到最大，目标函数f(P)的计算公式如下：

式中，a(P_i,P_j)表示两个聚类之间的相似度值，其计算公式如下：

404)平衡策略：为了实现各个聚类中顶点数目的平衡，每个聚类需要设置最大容量限制，当在迭代过程中某个聚类中的顶点数目超过了限制，将通过聚类中各个顶点的相似度做出相应的调整。

本发明进一步的改进在于，步骤404)的具体实现步骤如下：

a)在各个聚类中计算所有内部顶点与聚类中心之间的相似度，然后按降序进行排序；

b)寻找一个最小的顶点集，这个顶点集的权重总和与相似度总和都要比新的顶点小；

c)如果存在这样一个顶点集，则用新的顶点将其替换；

d)如果不存在，则将新的顶点分配到次优化的聚类之中。

本发明进一步的改进在于，Step4中所述的B_AP算法描述如下：

a)输入相似度矩阵S、RDF图分割数k和平衡因子α，并且初始化RDF粗糙化图C；

b)从粗糙化图C中筛选出潜在的聚类中心集合o，调整参数p直到选出k个聚类中心为止；

c)计算最小边割的目标函数，并且循环遍历图中的节点v_i并且计算相似度最大值；

d)如果顶点v_i满足物理存储节点的容量限制，则将v_i分配给相应的聚类；否则，则采用平衡策略进行调整；

e)循环上述步骤，直到最小边割目标函数收敛，算法结束。

本发明具有如下有益的技术效果：

本发明基于多层划分框架对RDF图进行了分布式分割存储。在多层划分框架的第一步中，实现了对RDF图的粗糙化，减少了RDF图的规模，并且挖掘了其中的社团特性，为第二步分割做好了准备。在多层划分框架中的第二步中，实现了平衡分割，即保证了每个分割之间的数据量差别稳定在一个可以控制的范围，使得分布式系统查询可以并行进行；此外在保证平衡性的情况下，实现了各分割之间的最小边切，使得各个物理存储节点之间的通信代价最小，提高了存储查询效率。

附图说明

图1是本发明所提出的基于多层划分框架的RDF分布式存储方法的流程图。

图2是本发明所提出的MMA算法的流程图。

图3是本发明所提出的MSLM算法的流程图。

图4是MSLM算法具体的RDF粗糙化示例图。

图5是本发明所提出的B_AP算法的流程图。

具体实施方式

以下结合附图及实施例对本发明作进一步的详细说明。

如图1所示，本发明提供的基于多层划分框架的RDF分布式存储方法，该方法通过MMA算法和MSLM算法实现对RDF图的粗糙化，通过B_AP算法实现对RDF图的k-way分割，具体步骤如下：

Step1执行以下初始化操作：

101)RDF图的初始化：设RDF三元组的主语集合为T_s，谓语集合为T_p，宾语集合为T_o，那么定于RDF图为：G＝(V,E)，其中V＝{v|v∈T_s∪T_o}，并且假设n＝|V|表示RDF图中顶点的个数，m＝|E|表示RDF图边的数量。

102)数据预处理：将RDF数据的N-Triple型数据集全部处理为图格式，为后续在RDF图上的算法运行做准备。

Step2通过MMA算法首先对RDF图的顶点移动进行优化：在MMA算法中设定ε∈[β,0.5)，其中0＜β＜0.5。当模块度的增值大于ε，在移动顶点。MMA算法描述如图2所示：

重点说明模块度增值ΔQ是如何计算的，假设顶点v从c₁移动c₂到了，则对于c₁和c₂的模块度的变化如下：

式中E(c₁)和E(c₂)表示粗糙子图c₁和c₂中的边数，而和表示粗糙子图中c₁和c₂顶点v的邻居顶点。所以，ΔQ的计算公式如下：

ΔQ＝ΔQ₁+ΔQ₂ (3)

如图3所示，MSLM算法描述如下：

图4展示了MSLM算法粗糙化图的一个示例，在每轮迭代中，MSLM根据模块度的值将关系密切的顶点划分在同一个社团，并在下次迭代中将这些顶点粗糙化一个顶点，并重复上面的过程。而粗糙化顶点之间的边的权值则是不同社团之间所有边的数量的总和。在(d)中，将在(c)中的A拆分为A1和A2，即在(c)中的迭代过程中，A中再次调用MMA算法，使得A社团拆分，达到了局部最优的效果，同时也保证了全局最优。

Step4通过B_AP算法对RDF图进行k-way分割，实现分割的平衡性和最小边割的目标。B_AP算法改进的具体描述如下：

401)定义新的相似度：为了体现RDF图中顶点的相似度与边的权重成比例，本发明提出了使用一个线性函数转换来标准化相似度，公式如下：

式中MAX表示图中顶点中权值的最大值，而MIN表示权值的最小值。

402)初选聚类中心：本发明运用顶点密度作为筛选备选的聚类中心的条件。如果顶点v_i所有邻居顶点的顶点密度都较小而且顶点v_i与其他的顶点密度较高的顶点关系疏远，那么顶点将会被当作备选的聚类中心。顶点密度的计算公式如下：

式中d_c是截止距离，满足数据集中所有数据顶点的1％到2％的邻居顶点的平均值。

403)为了使得最终的聚类之间的边割最小，本发明引入了一个目标函数f(P)。当目标函数收敛的时候，表示聚类之间的相似度最小，而各个聚类中心内部的相似度达到最大，目标函数f(P)的计算公式如下：

404)平衡策略：为了实现各个聚类中顶点数目的平衡，每个聚类需要设置最大容量限制。当AP聚类算法在迭代过程中某个聚类中的顶点数目超过了限制，将通过聚类中各个顶点的相似度做出相应的调整，步骤如下：

c)如果存在这样一个顶点集，则用新的顶点将其替换；

d)如果不存在，则将新的顶点分配到次优化的聚类之中。

如图5所示，B_AP算法的具体步骤如下：

e)循环上述步骤，直到最小边割目标函数收敛，算法结束。

Claims

1.一种基于多层划分框架的RDF分布式存储方法，其特征在于，该方法通过MMA算法和MSLM算法实现对RDF图的粗糙化，通过B_AP算法实现对RDF图的k-way分割，具体步骤如下：

Step1执行以下初始化操作：

2.根据权利要求1所述的基于多层划分框架的RDF分布式存储方法，其特征在于，Step2中所述的MMA算法描述如下：

ΔQ＝ΔQ₁+ΔQ₂ (7)。

3.根据权利要求2所述的基于多层划分框架的RDF分布式存储方法，其特征在于，Step3中所述的MSLM算法描述如下：

4.根据权利要求3所述的基于多层划分框架的RDF分布式存储方法，其特征在于，Step4中的具体实现步骤描述如下：

5.根据权利要求4所述的基于多层划分框架的RDF分布式存储方法，其特征在于，步骤404)的具体实现步骤如下：

c)如果存在这样一个顶点集，则用新的顶点将其替换；

d)如果不存在，则将新的顶点分配到次优化的聚类之中。

6.根据权利要求4所述的基于多层划分框架的RDF分布式存储方法，其特征在于，Step4中所述的B_AP算法描述如下：

e)循环上述步骤，直到最小边割目标函数收敛，算法结束。