CN105117488A

CN105117488A - 一种基于混合层次聚类的rdf数据平衡分割算法

Info

Publication number: CN105117488A
Application number: CN201510603743.2A
Authority: CN
Inventors: 陈志奎; 冷泳林; 程心如
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2015-09-19
Filing date: 2015-09-19
Publication date: 2015-12-02
Anticipated expiration: 2035-09-19
Also published as: CN105117488B

Abstract

一种基于混合层次聚类的RDF数据平衡分割算法，包括如下步骤：通过对唯一属性值节点的合并和高邻域节点的移除来压缩RDF聚类数据规模；通过基于邻域节点的相似性度量和基于交互边的相似性度量计算RDF图中节点和数据块儿间的相似性；通过逐层AP聚类发现图中所有潜在的聚类中心和数据块儿，实现图的粗化；通过平衡调整算法实现RDF图分割的平衡；最后通过K-means聚类算法实现指定数目的数据分割。本发明实施例针对RDF数据有向图的本质，将AP聚类与K-means聚类相结合实现RDF数据基于图的平衡分割。本发明有效地提升网络接入服务评估准确性、动态响应性能和连接时间的预测准确度。

Description

一种基于混合层次聚类的RDF数据平衡分割算法

技术领域

本发明涉及计算机技术领域，具体涉及一种基于混合层次聚类的RDF数据平衡分割算法。

背景技术

RDF(resourcedescriptionframework)是由WWW提出的对万维网上信息进行描述的一个框架，它为Web上的各种应用提供信息描述规范。它用主语表示信息实体或概念，谓语表示实体所具有的相关属性，宾语表示对应的属性值。这种简单的表述方式可以用来表示Web上的任意被标识的信息，为在应用程序之间交换数据提供了互操作性。因此，RDF数据被广泛应用于多种领域的元数据描述。如Wikipedia，DBLP等都用RDF表达它们的元数据，IBM智慧地球的研究中也广泛采用RDF数据描述和集成语义。

随着RDF数据的广泛应用，RDF数据规模急剧增加，原始的单机存储RDF数据在存储和查询上遇到了性能瓶颈，分布式的存储方案是解决大规模RDF数据存储的一种常用的解决方案。而RDF数据的分布式存储面临的一个关键问题是RDF的数据分割，不同的数据分割方式在数据的查询性能和节点间通信上有很大差异。

基于三元组的水平或垂直分割方式，在划分数据时忽略了元组间关联性，因此在执行查询时，存储节点间需要传递大量信息完成子句的关联查询。

基于图的分割方式可以将逻辑上相连的数据划分到一个存储节点，使大部分查询子句的连接能够在存储节点内部完成，减少了存储节点间数据通信量，提高了数据并行查询可能性。

基于图的分割算法主要包括网格划分算法、谱聚类算法、启发式算法和多层划分算法。网格划分根据统计和估算不同区域的网格单元个数，使各区域的网格单元个数尽可能相等，从而得到较平衡的划分结果。由于网格划分方法所依据的不是结点间的连接信息，而是一个已有的网格单元组结构，因此网格划分方法更适用于已知结点坐标信息的情况，尽管也有算法能够根据结点的连接信息计算出结点的坐标，但是时间消耗太大。

谱聚类算法建立在谱图理论基础上，与传统的聚类算法相比，具有它能在任意形状的样本空间上聚类且收敛于全局最优解的优点，其本质是将聚类问题转化为图的最优划分问题。该算法首先根据给定的样本数据集定义一个描述成对数据点相似度的矩阵，并且计算矩阵的特征值和特征向量，然后选择合适的特征向量聚类不同的数据点。谱聚类算法的聚类过程中需要求解矩阵的特征值与特征向量，处理大规模数据集的时候，求解过程不但非常耗时，而且所需要的内存空间也非常大，面临着内存溢出的危险，对计算机内存容量和处理速度都要求很高。

启发式方法不关注区域网格单元的个数，尽可能把连接关系密切的节点划分在一个区域，常用的启发算法包括广度优先划分、KL/FM方法。广度优先划分方法从某一个结点开始，通过加入相邻的结点来逐渐增大所在区域，并尽可能地把相连的结点都划分到同一个区域。KL/FM算法是启发式划分方法中较为典型的算法。KL/FM方法本质上是对图的再划分。即已经存在一个图的初始划分，或者是一个图的随机划分，在此基础之上进行较少次数的节点调整，从而减少边割数。启发式方法对数据的初始化要求较高，因此要进行多次初始化，从结果中选择最好的划分。

KL/FM算法通常只能处理10⁴个顶点规模以内的图，为了处理规模较大的图，Kumar、Hendrickson、Hauck等人都各自提出了多层次的图划分框METIS。METIS算法包括三个阶段：粗化，分割和反粗化。即首先通过粗化将大图缩减成可接受的小图，然后在小图上采用一定的分割算法进行划分，划分好后再通过反粗糙化将小图上的划分还原成原图上的划分。METIS可以处理百万规模以内的大图，为了处理更大规模的数据，Kumar等人又提出了并行版本的METIS—ParMetis，其能处理千万顶点规模的大图。METIS框架执行图分割时效率非常高，但算法执行前要对输入数据进行转换，此转换效率非常高。

Shang等人在层次聚类思想基础上，利用FS(FastSampling)算法在稀疏图上选择图中代表性的数据点，然后利用谱聚类算法对这些数据点进行分割，最后对分割图进行反粗化，但该算法没有考虑图分割平衡性问题。

针对图的分割算法很多，但这些算法都有各自的局限性，当面临大规模RDF数据时，这些算法并没有真正的从RDF数据本身特性出发，实现有效性分割存储。因此随着RDF数据的大量增长，RDF数据应用范围扩大，一种有效的RDF分割是十分有必要的。

发明内容

随着RDF数据应用领域的不断扩大，其数据规模越来越大，由于内存和CPU的限制，单机存储和查询大规模RDF数据出现瓶颈，分布式存储是一种解决大规模RDF数据存储和查询的有效方法，有效的数据分割是实现分布式存储的前提。本发明探究一种基于混合层次聚类的RDF数据平衡分割算法，包括以下步骤：

步骤1、基于节点合并和移除的RDF数据预处理；

步骤2、基于邻域和交互边的两种相似性度量方法；

步骤3、基于AP的多层次聚类；

步骤4、层次聚类的平衡调整；

步骤5、基于K-means的图分割算法。

附图说明

图1为混合层次聚类的RDF数据平衡分割算法框架图。

图2为移除不同高度数节点的边割比例变化情况。

图3为移除不同高度数节点算法执行效率。

图4为平衡分割算法与FAP算法的边割比对比。

图5为平衡分割算法与FAP算法的执行效率对比。

具体实施方式

下面结合附图对本发明实施例做进一步说明。

图1为混合层次聚类的RDF数据平衡分割算法框架图，本发明考虑RDF数据本身特性，对于一个给定的RDF图，其图中节点分为资源节点和值节点两类，其中有部分值节点只属于某一个资源节点，即资源节点存在一个属性，其值在RDF图中是唯一的，为了降低图分割时的计算量，本发明将此类节点合并到其资源节点中，逻辑上合成一个数据点实现图的压缩。另外，RDF图中高邻域节点严重影响分割和查询性能，因此本发明针对高邻域节点进行移除处理，该方法对于降低边割比和分割执行效率效果显著。

RDF图分割需要计算节点间相似性，本发明基于分割时边割比的考虑，定义基于邻域和交互边两种不同的节点相似度计算方法，这两种方法分别用于原始图和数据块儿顶点图两种不同节点相似性的计算。初始时，对原始图采用基于邻域的节点相似度计算方法，当对图粗化，图的顶点聚类成数据块儿后采用交互边相似度计算方法。

算法执行首先采用AP聚类自动将联系紧密的节点聚类成一个数据块儿，由于分布式存储最终制定存储节点数目，因此后继聚类可以根据实际计算能力和需求采用k-means聚类实现最终指定数目的分割。

具有步骤如下：

1、一种基于混合层次聚类的RDF数据平衡分割算法，包括如下步骤：

步骤1、基于节点合并和移除的RDF数据预处理；

步骤2、基于邻域和交互边的两种相似性度量方法；

步骤3、基于AP的多层次聚类；

步骤4、层次聚类的平衡调整；

步骤5、基于K-means的图分割算法。

步骤1、基于节点合并和移除的RDF数据预处理：

以RDF图节点压缩和节点移除为基础的数据预处理，节点压缩针对唯一属性值节点，节点移除针对高邻域节点，降低RDF图中参与聚类节点数目。

1)节点合并

给定RDF图G＝(V,E)，其中V＝V_e∪V_l表示图中节点的集合，V_e代表实体节点，V_l表示属性值节点。E＝{e(v_i,v_j)|v_i,v_j∈V}＝E_r∪E_a表示有向边的集合，其中E_r代表关系边，E_a代表属性边。

在RDF有向图中，如果属性边E_a所对应的属性值节点v_j∈V_l只属于指向它的主语节点v_i∈V_e，则节点v_j在数据分割时必然要与v_i划分到同一存储节点。因此针对这类节点，将节点v_j与指向它的主语节点v_i合并成一个节点。

2)节点移除

在RDF图中，节点邻域分布并不是均匀的，有一部分节点的邻域数目非常高。节点邻域数目越高，和其关联的节点就越多，当查询时这些节点被查询的几率越高，因此产生的网络通信代价越高。

为降低存储节点间通信代价，在对RDF图进行分割前，将节点度数超过一定阈值的节点从RDF图中移除，待图分割结束后加这些高度数节点分别存储到与之相关的存储节点上，用存储代价换取通信代价。

步骤2、基于邻域和交互边的两种相似性度量方法：

1)基于邻域相似性度量

基于邻域的相似性度量方法其主要思想是“如果一个节点的邻域节点同另一个节点相连，则认为这两个节点相似性大”，即这两个节点通过领域紧密的联系在一起。同时，一个节点的邻域节点同另一个节点的远近关系也影响着相似度的大小，本文用路径长度表示两个节点远近。

设N_r(v)是节点v在半径为r的邻域集合，邻域内任意节点q与节点v的最短距离为l，节点q到节点v的权重w_qv＝1/l。节点q到v的权重和路径长度有关，路径长度越长，则权重越小，即该点与v的相似度越小。

计算图中节点u到任意节点v的相似度如公式(1)：

s i m i l a r i t y (u, v) = \frac{Σ_{k &Element; {inter}_{r} (u, v)} w_{k v}}{Σ_{k &Element; N_{r} (u)} w_{k u}} - - - (1)

其中N_r(u)和N_r(v)是节点u,v的半径为r的邻域集合，inter_r(u,v)＝N_r(u)∩N_r(v)表示两个节点邻域的交集。

2)基于交互边相似性度量

交互边是指位于两个不同集合的节点间的连接边。RDF图分割的一个目的是使分割后的交互边最小，本方法中的混合层次聚类算法中从第二层聚类开始，为了使分割结果交互边最小，算法以交互边作为两个聚类数据块儿间的权重，衡量两个数据块儿间的相似度，如果数据块儿间交互边越多，代表两个数据块儿相似度越大，否则越小。

给定两个数据块C_i和C_j，cut(C_i,C_j)表示两个数据块内节点间的交互边数目，cut_min(C_k)和cut_max(C_k)分别代表所有数据块间最小交互边和最大交互边数目，则两个数据块相似性计算如公式(2)

s i m i l a r i t y (C_{i}, C_{j}) = \frac{c u t (C_{i}, C_{j}) - {cut}_{\min} (C_{k})}{{cut}_{\max} (C_{k}) - {cut}_{\min} (C_{k})} - - - (2)

步骤3、基于AP的多层次聚类：

AP聚类算法是2007年在Science杂志上由BrendanJ.Frey和DelbertDueck提出的一种新的聚类算法。它根据n个节点所组成的相似度矩阵进行聚类，该算法不需要事先指定聚类数目，它将所有的数据点都作为潜在的聚类中心，通过数据点间“消息传递”逐步发现合适的聚类中心。

AP聚类算法通过迭代更新吸引度矩阵R＝[r(i,k)]与归属度矩阵A＝[a(i,k)]，逐步确定高质量聚类中心，吸引度矩阵和归属度矩阵更新规则如下：

用归属度矩阵与相似度矩阵S＝[s(i,k)]更新吸引度矩阵R：

r (i, k) = s (i, k) - \underset{k^{'} &NotEqual; k}{m a x} {a (i, k^{'}) + s (i, k^{'})} - - - (4)

用吸引度矩阵R更新归属度矩阵A：

a (i, k) = m i n {0, r (k, k) + \underset{i &NotElement; {i, k}}{Σ} m a x {0, r (i^{'}, k)}}

a (k, k) = \underset{i^{'} &NotEqual; k}{Σ} m a x {0, r (i^{'}, k)} - - - (5)

其中，s(i,k)为点i到点k的相似度，表明点k作为点i的聚类中心的合适程度；r(i,k)表示点k对点i的吸引度，反映点k通过与其他数据点k′竞争，作为适合数据点i的聚类中心的程度；a(i,k)表示点i对点k的归属度，反映数据点i选择数据点k作为其聚类中心的适合程度。当i＝k时，s(k,k)由输入的偏向参数p(k)设置，p(k)越大，数据点k越有可能被选为聚类中心，聚类个数越多；反之，p(k)越小，聚类个数越少。

算法在执行过程中，吸引度矩阵和归属度矩阵需要迭代更新，因此每次更新的时间复杂度为O(n²)，算法迭代T次，时间复杂度为O(Tn²)。该时间复杂度在面临大规模数据时，其效率非常低的，AP聚类算法认为由于稀疏图的消息传递仅在存在的边间进行，因此效率会明显增加，对于一个稀疏相似度矩阵，时间复杂度将达到O(Tn)。

RDF图分割的目的是将紧密连接的节点分配到一个存储节点，因此在计算节点间相似性时，如果两个节点间的相似性越小，则这两个节点被分配到一个存储节点的可能性就越小。本算法在执行AP聚类前，设定相似度矩阵中小于阈值δ的节点间的相似性为-∞，提高算法时间性能。

AP层次聚类算法步骤：

输入：RDF图G＝(V,E)，聚类数目阈值T

输出：聚类数据块C＝{C₁,C₂,...,C_m}，其中m≤T

步骤：

1)基于邻域相似度方法构建稀疏相似度矩阵S；

2)在稀疏相似度矩阵S上执行AP聚类算法，产生m个数据块；

3)如果m>T，利用公式(2)计算数据块间相似度，生成新的相似度矩阵S；

3)将S作为新的输入，重新执行2)，直到m≤T。

步骤4、层次聚类的平衡调整

将大图分割成子图分布式存储到不同存储节点时，子图的大小规模均衡性影响查询效率，如果子图大小规模不均性，并行计算和查询效率会降低。因此，为了确保分割均衡性，算法将在AP聚类的每一层引入平衡调整算法。

给定一个图G＝(V,E)，将图分割成k个划分P＝{P₁,P₂,...,P_k}，k个分割平衡性应满足1-e₁≤PB_i≤1+e₂，其中PB_i＝|V_i|/m并且m＝|V|/k。分割平行性越好，e₁，e₂值越小。

平衡调整算法步骤：

输入：聚类后的分割P＝{P₁,P₂,…,P_k}，e₁，e₂

输出：平衡后分割P′＝{P₁′,P₂′,…,P_t′}

步骤：

1)分别计算聚类后k个分割的平行性PB＝{PB₁,PB₂,...,PB_k}

2)Forp＝1tok

ifPB_i<1-e₁

merge(P_i,P_j)，其中Cut(P_i,P_j)最大，且PB_j<1+e₂

elseifPB_i>1+e₂

利用KL算法分割P_i直到1-e₁≤P_i′≤1+e₂

步骤5、基于K-means的图分割算法

由于AP层次聚类不能指定聚类即图分割数目，但AP聚类能发现图中所有潜在的聚类中心，因此算法利用AP聚类逐层缩小图的规模，当得到一定规模数据块后，采用K-means聚类实现最终数目的聚类分割。

K-means算法步骤：

输入：数据块交互边矩阵S，最终分割数目k

输出：分割集合C＝{C₁,C₂,...,C_k}

步骤：

1)随机选择k个初始聚类中心C＝{c₁,c₂,...,c_k}

2)将其它数据块分配到和其相似度最小的聚类中心

3)更新聚类中心

①计算聚类C_i的平均向量

S (\overset{&OverBar;}{v_{i}}) = \frac{1}{| C_{i} |} \underset{v_{k} &Element; C_{i}}{Σ} S (v_{k}, v_{j}), &ForAll; v_{j} &Element; V

②计算新的聚类中心c_i′

c_{i}^{'} = {argmin}_{v_{k} &Element; C_{i}} | | s (v_{k}) - s (\overset{&OverBar;}{v_{i}}) | |

③重复步骤2)和3)，直到目标函数E收敛

E = Σ_{i = 1}^{k} \underset{v_{k} &Element; C_{i}}{Σ} | | s (v_{k}) - s (\overset{&OverBar;}{v_{i}}) | |^{2}

验证结果：

在本发明的实验中，选择RDF标准的LUBM(theLehighUniversityBenchmark)和DBLP两种数据集验证算法性能。实验环境为i33.30GHzPC，4GB内存和WindowsXP操作系统。两种数据集的信息如表1所示：

表1数据集基本信息

为验证高度节点对图分割的影响，实验中移除不同度数的节点信息如表2所示：

表2数据集高度数节点信息

本发明主要验证图分割的边割比、时间性能和平衡性三个指标，算法将与Shang等人提出FAP层次聚类算法进行比较。

1)边割比与时间性能

给定一个图G＝(V,E)，将图分割成k个数据块P₁＝(V₁,E₁),P₂＝(V₂,E₂),...,P_k＝(V_k,E_k)，分割的边割比定义如下：

I E R = \frac{Σ_{i = 1}^{k} | c u t (P_{i}, G \ P_{i}) |}{| E |} - - - (6)

其中cut(P_i,G\P_i)表示数据块P_i同其它数据块间的交互边数目。验证邻域半径设定为2。算法首先验证高度数节点对分割边割比的影响，从图2和图3可以看出，随着移除的高度数节点数目增加，分割产生的边割比在不断下降，分割效率不断提高。这主要是由于高度数节点的连接边多，分割过程中计算量增加，因此时间性能降低，反之提高。边数增加使数据块间的交互边数目增加，因此边割比增加，而移除高度数节点不仅使边割比明显下降，而且算法中提出的将高度数节点放到不同的存储节点存储，由表2可以看出，高度数节点数目非常小，由此产生的存储空间代价可以忽略。

将本发明算法与FAP快速层次聚类算法进行比较，由于算法在结点相似度计算中充分考虑边割影响，因此本算法在执行RDF分割时边割比优于FAP算法，同时本算法的时间效率也高于FAP算法。

2)分割平衡性

本发明算法使用如下公式衡量RDF图分割后的平衡性，显然PB_max和PB_min的值越接近1，表示分割平衡性越好。

PB_max＝max(|V_i|)/m(10)

PB_min＝min(|V_i|)/m(11)

上表为LUBM数据集上的平衡性对比和DBLP数据集上的平衡性对比。

由表中数据可以看出，本发明算法在增加了平衡调整算法后，分割平衡性明显优于FAP算法。

综上所述，本发明在深入分析RDF图分割必要性及现有技术的基础上，结合RDF数据自身的特征和约束，提出了一种适用于RDF图分割存储的算法，并从数据预处理、层次聚类算法和平衡调整三个方面对所提出的算法进行了详细描述。最后通过一系列的实验对算法的边割比、时间性能和平衡性进行了全面的考察与分析。

Claims

1.一种基于混合层次聚类的RDF数据平衡分割算法，包括如下步骤：

步骤1：基于节点合并和移除的RDF数据预处理

以RDF图节点压缩和节点移除为基础的数据预处理，节点压缩针对唯一属性值节点，节点移除针对高邻域节点，降低RDF图中参与聚类节点数目；

1)节点合并

给定RDF图G＝(V,E)，其中V＝V_e∪V_l表示图中节点的集合，V_e代表实体节点，V_l表示属性值节点；E＝{e(v_i,v_j)|v_i,v_j∈V}＝E_r∪E_a表示有向边的集合，其中E_r代表关系边，E_a代表属性边；

在RDF有向图中，如果属性边E_a所对应的属性值节点v_j∈V_l只属于指向它的主语节点v_i∈V_e，则节点v_j在数据分割时必然要与v_i划分到同一存储节点；针对这类节点，将节点v_j与指向它的主语节点v_i合并成一个节点；

2)节点移除

在RDF图中，节点邻域分布并不是均匀的，有一部分节点的邻域数目非常高；节点邻域数目越高，和其关联的节点就越多，当查询时这些节点被查询的几率越高，因此产生的网络通信代价越高；

为降低存储节点间通信代价，在对RDF图进行分割前，将节点度数超过一定阈值的节点从RDF图中移除，待图分割结束后加这些高度数节点分别存储到与之相关的存储节点上，用存储代价换取通信代价；

步骤2：基于邻域和交互边的两种相似性度量方法：

1)基于邻域相似性度量：如果一个节点的邻域节点同另一个节点相连，则认为这两个节点相似性大；同时，一个节点的邻域节点同另一个节点的远近关系也影响着相似度的大小；路径长度表示两个节点远近；

设N_r(v)是节点v在半径为r的邻域集合，邻域内任意节点q与节点v的最短距离为l，节点q到节点v的权重w_qv＝1/l；节点q到v的权重和路径长度有关，路径长度越长，则权重越小，即该点与v的相似度越小；

计算节点u到任意节点v的相似度如公式(1)：

s i m i l a r i t y (u, v) = \frac{Σ_{k &Element; {inter}_{r} (u, v)} w_{k v}}{Σ_{k &Element; N_{r} (u)} w_{k u}} - - - (1)

其中N_r(u)和N_r(v)是节点u,v的半径为r的邻域集合，inter_r(u,v)＝N_r(u)∩N_r(v)表示两个节点邻域的交集；

2)基于交互边相似性度量

交互边是指位于两个不同集合的节点间的连接边；RDF图分割的一个目的是使分割后的交互边最小，混合层次聚类算法中从第二层聚类开始；以交互边作为两个聚类数据块儿间的权重，衡量两个数据块儿间的相似度，如果数据块儿间交互边越多，代表两个数据块儿相似度越大，否则越小；

s i m i l a r i t y (C_{i}, C_{j}) = \frac{c u t (C_{i}, C_{j}) - {cut}_{\min} (C_{k})}{{cut}_{\max} (C_{k}) - {cut}_{\min} (C_{k})} - - - (2)

步骤3：基于AP聚类算法的多层次聚类：

用归属度矩阵与相似度矩阵S＝[s(i,k)]更新吸引度矩阵R：

r (i, k) = s (i, k) - \underset{k^{'} &NotEqual; k}{m a x} {a (i, k^{'}) + s (i, k^{'})} - - - (4)

用吸引度矩阵R更新归属度矩阵A：

a (i, k) = \min {0, r (k, k) + \underset{i^{'} &NotElement; {i, k}}{Σ} m a x {0, r (i^{'}, k)}}

a (k, k) = \underset{i^{'} &NotEqual; k}{Σ} m a x {0, r (i^{'}, k)} - - - (5)

其中，s(i,k)为点i到点k的相似度，表明点k作为点i的聚类中心的合适程度；r(i,k)表示点k对点i的吸引度，反映点k通过与其他数据点k'竞争，作为适合数据点i的聚类中心的程度；a(i,k)表示点i对点k的归属度，反映数据点i选择数据点k作为其聚类中心的适合程度；当i＝k时，s(k,k)由输入的偏向参数p(k)设置，p(k)越大，数据点k越有可能被选为聚类中心，聚类个数越多；反之，p(k)越小，聚类个数越少；

在执行过程中，吸引度矩阵和归属度矩阵需要迭代更新，每次更新的时间复杂度为O(n²)，算法迭代T次，时间复杂度为O(Tn²)；RDF图分割的目的是将紧密连接的节点分配到一个存储节点，如果两个节点间的相似性越小，则这两个节点被分配到一个存储节点的可能性就越小；在执行AP聚类前，设定相似度矩阵中小于阈值δ的节点间的相似性为-∞，提高时间性能；