CN104699698A

CN104699698A - 基于海量数据的图查询处理方法

Info

Publication number: CN104699698A
Application number: CN201310654842.4A
Authority: CN
Inventors: 陈春; 成杰峰; 张慧玲
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2013-12-05
Filing date: 2013-12-05
Publication date: 2015-06-10

Abstract

本发明提供了一种基于海量数据的图查询处理方法，带来一系列有益的技术效果，如在面对海量的图数据，无论是在庞大的数据规模上，或是数据的内部结构和关系的多样和复杂上，都能有效的进行处理，可以在查询研究工作中很好的解决top-k问题，也能够直接的求解top-k的子图匹配。

Description

基于海量数据的图查询处理方法

技术领域

本发明涉及计算机科学，尤其涉及一种基于海量数据的图查询处理方法。

背景技术

随着物联网、移动互联网、云计算以及各种数据自动采集技术的迅猛发展，许多应用领域在迅速积累着大量的数据。大数据将成为继云计算、物联网之后信息技术产业又一次颠覆性的技术变革。大数据不单指数据的量大，也指数据的结构多样化、内部关系复杂。图模型是一类表现力强而通用性高的数据结构，用于描述对象及对象之间相互联系的数据结构模型。简言之，图是是由节点（即对象）与连线（即对象间的联系）构成的。图数据是具有此类网络结构的各类数据的统称。

当前研究的图结构是许多海量数据如社会化媒体数据和生物数据的重要表现，所以图数据处理、查询和挖掘算法是解决大数据问题的关键技术。目前，国内外知名企业和高校对图的研究非常重视。比如：Microsoft研究院基于云计算的Trinity项目，研究用于数据中心的Querying Large Distributed Graph项目；Google用于大图处理的系统Pregel和MapReduce；亚虎研究院的GraphPartitioning项目；Neo4j公司的开源图数据库；UCSB大学的“Massive Graphs inClusters”项目。

图查询语言：从查询语言的功能来看，图的查询语言大体可分为两类。一类是Ad-hoc图查询语言：用以完成图中的某单项查询任务。通常这类图的查询没有明确的规定查询语言的语法，比如可达性类查询，最短路径/距离类查询，最近邻节点类查询，子图类查询。另一类是通用图查询语言：可以完成多项查询任务，通常这类图的查询明确定的规定了查询语言的语法及其表达能力，比如GraphQL、SoQL、ECRPQs等。

目前的一个研究是通过扩展已有的图查询语言来设计新型的图查询语言，通过增加其表达能力，来适应新的应用带来的需求。新型语言的设计需要在图的表达能力和查询复杂性之间有一个权衡。其中子图同构查询结构保持严密，但查询时间复杂度高（NP-complete），而图模拟查询虽然复杂性较低（多项式时间），但结构损失严重。目前这个问题没有得到很好的解决。而这个问题是解决大规模图查询的关键问题之一。本质上，这是一个查全率、查准率和查时间复杂性的权衡问题。

当微博数据表示为图时，图的顶点和边都带有类型。比如，顶点可以分为用户、应用、微群等类型，而这些不同类型顶点之间的边也有不同的类型。目前有很多传统的查询，如PageRank，关键字查询等，在多类型图上缺少合理的语义。而这是分析多类型图必须要解决的一个重要的问题。我们发现这方面的研究工作相对欠缺，只有很少的文献对这类问题进行了初步的探讨。

图的查询处理：图查询的研究包括图数据的查询、并行图查询和分布式图查询。因为不同的图查询的共性较少，大家主要针对某种特定查询语言做研究。另外，也研究如何通过建立图索引等方法来进行查询的优化。目前，有很多并行的图查询的软件包，Google也提供了Pregel和MapReduce来支持分布式图查询。但由于图的查询语言的特点，这些系统并不能有效的支持所有的查询语言，并且其中关键的功能仍然需要用户自己实现。

数据库应用里，早就存在着对子图匹配问题的研究，传统上，子图匹配是指子图同构，根据给定查询图的大小和结构来查找匹配，即一个小图是否完全包含在另一个图中或者是否包含在一个大型图数据的集合中。子图同构在数据库方面的主要应用是频繁子图挖掘：对于许多包含上千个节点的小型数据图集合的情况。

针对单个大型数据图所包含的子图进行匹配查询，我们将所有的这种同类工作可按照是否存在给定查询图来进一步区分。若用户没有指定查询图，采用关键字查找类研究，要求在数据图中找出包含用户给定的关键字的top-k连通树。

另外，许多工作是针对给出查询图的情况，也是本发明要研究的方向。许多研究并没有考虑找出查询图的top-k匹配。有的只研究了给定查询图的k个较好的匹配，可能其算法找出的k个匹配并不一定是所有最好的匹配，所以该论文中的问题定义与本文不同。有的在算法研究给定查询图的嵌入查询。如相似函数，比如图编辑距离，用于衡量匹配与查询图之间的相似度。可能其算法找到的top-k查询不要求所有的连接约束都满足数据图中的连接路径。但是，本发明的查询要求匹配结果与查询图具有相同的结构（精确匹配）。有的算法首先找出全部匹配，因为首先找出全部匹配再按权重排序并选出top-k解，这样会十分耗时，也不能直接用于kGPM。

发明内容

本发明的目的在于提供一种基于海量数据的图查询处理方法，能够快速和方便的基于海量数据进行图查询处理。

为了达到上述目的，本发明提供了一种基于海量数据的图查询处理方法，其包括以下步骤：

S1、定义路径长度S，遍历不同节点的出发路径，记录长度不大于所述路径长度S的路径，并重复通过Map、Reduce方法获得多个连接表；

S2、采用所述多个连接表构建一个多重排序匹配列表，并对该排序匹配列表进行全部查询，找到最接近的K个匹配来多维表示；

S3、采用所述多维表示建立一个图模型；

S4、根据所述图模型来定义一个查询区域，并计算所述排序匹配列表中序列的大小；

S5：定义查询图Q，并根据该查询图Q获得其任意生成树；

S6：根据所述排序匹配列表中序列的大小生成按从大到小顺序排列的查询树，得排好序的查询树匹配列表；

S7：对每条查询树缺失的边进行最短路径计算；

S8：通过所述查询树缺失的边的最短路径寻找对应的查询图Q；

S9：所述查询图Ｑ采用评分函数计算出其权重，以得到查询图Ｑ的top-k解。

优选的，在步骤S1中，所述Map、Reduce方法采用MapReduce计算模型分解而来。

优选的，在步骤S3中，所述图模型包含查询图和查询树的图嵌入。

优选的，在步骤S4中，对于查询区域，需完全覆盖这个查询区域，覆盖方法包括：移动垂直于每个坐标轴的平面来扫描整个空间，匹配区域必须包含在其中至少一个扫描平面的区域中。

优选的，在S9中，所述采用的评分函数为其中，u,v∈M_Q，(A,D)＝(Λ^-1(u),Λ^-1(v))为Q中的边，c_(A,D)为与查询边(A,D)关联的系数。

附图说明

图1为本发明中基于海量数据的图查询处理方法的流程图；

图2为本发明中基于社会网络中的子图匹配示意图；

图3为本发明中示例数据图G_D的示意图；

图4为本发明中示例数据图上的查询/匹配的示意图；

图5为本发明中图的存储模式的示意图；

图6为本发明中查询树与排序表的示意图；

图7为本发明中进行MapReduce并行处理处理的构架示意图；

图8为本发明中进行MapReduce并行程序的任务粒度；

图9为本发明中生成树及其对应t-list；

图10为本发明中进行扫描读取连接表生成排序列表的过程示意图。

具体实施方式

下面将结合附图以及具体实施例来对本发明作进一步详细说明。

请参考图1至图10本发明提供了一种基于海量数据的图查询处理方法，其包括以下步骤：

S3、采用所述多维表示建立一个图模型；

S5：定义查询图Q，并根据该查询图Q获得其任意生成树；

S7：对每条查询树缺失的边进行最短路径计算；

请参照图1至图10，下面以一个具体实施例进行说明，本发明提供了如何在一个大型数据图中给定查询图的top-k匹配问题。首先，定义顶点-标签数据图G_D＝(V,E,Σ,Λ)，其中V为顶点集合；E为无向边的集合；Σ为顶点标签的集合，通常远不及G_D中的所有顶点数；Λ是顶点集合到标签集合的映射函数，若v_i∈V，一个标签X∈Σ，则Λ(v_i)表示顶点v_i的标签。给定一个标签X∈Σ，则X的扩展为ext(X)，该集合中包含了G_D中所有标签为X的顶点。定义路径的权重为包含的边的权重之和，若边(u,v)∈E，每条边权重为1，用δ(u,v)表示顶点u和v之间的最短路径的权重。下面用集合V(G)和E(G)来表示任意图G的顶点集合和边集合。

请参考图2，其为一个简单的数据图G_D，其中所有边的权重值为1。为简化说明，省略其他的标签，设标签集合为{CEO，Doctor，Manager}。图3显示了两顶点之间的两种连接线，其中，实线代表图中的边，虚线代表路径，该路径包含多个标签不同于以上三种标签的顶点，因此，忽略这些路径上的顶点，每条路径的长度标在图中。

定义查询图Q＝(V(Q),E(Q),W_Q)，为加权无向连通图，其中，V(Q)为标签集合Σ的一个子集，E(Q)为V(Q)中顶点之间边的集合。为简化说明，本文假定V(Q)中没有重复的标签。对于重复的标签，本文中的方法很容易扩展。对于每一条边(X,Y)∈E(Q)，权重函数W_Q(X,Y)为(X,Y)指定一个系数c_(X,Y)。若一个查询图Q中没有环，则称为树查询(tree query)，若有环，则称为环查询(cyclic query)或图查询(graph query)。下文中提到的查询图均为环查询。图4中（a）部分中的查询图有三个标签，分别是CEO(简写为C)、Doctor(D)、Manager(M)，各边系数c_(C,D)，c_(D,M)，c_(C,M)均为1。

给定一个查询图Q，子图匹配问题（graph pattern matching problem，GPM）要求找出Q在数据图G_D中的匹配M_Q，M_Q是一个n维顶点元组＜v₁,v₂,...,v_n,＞，其中，v_i∈V(G_D)且n＝|V(Q)|。若Q在G_D中存在匹配M_Q，则Q和M_Q之间存在一一映射，该映射满足两个条件，标签条件和结构条件。

标签条件：任意顶点X∈V(Q)，存在顶点x∈M_Q，x的标签是X。

结构条件：对于任意边(X,Y)∈E(Q)，存在两个对应的顶点x,y∈M_Q，x的标签是X，y的标签是Y，x和y在G_D中有路径相连。

GPM要求找出给定查询的全部匹配。对一个大型数据图进行查询会返回大量的匹配结果，将所有的匹配返回给用户并不利于用户对结果的分析和处理，而且计算全部的匹配结果会十分耗时，因此本发明研究快速的top-k子图匹配算法。

kGPM问题：定义top-k的子图匹配问题需要定义评分函数，许多已有的评分函数是基于顶点评分和边评分。若M_Q为Q在G_D中的匹配，顶点评分反映M_Q中顶点的重要性，边评分反映M_Q中边的连接是否紧密。

为简单起见，本文的评分函数仅考虑边评分。评分函数如下：

score (M_{Q}) = \underset{(A, D) &Element; E (Q)}{Σ} c_{(A, D)} \cdot δ (u, v) - - - (1)

其中，u,v∈M_Q，(A,D)＝(Λ^-1(u),Λ^-1(v))为Q中的边，c_(A,D)为与查询边(A,D)关联的系数。因此，对于Q的每条查询边，M_Q中就有相应的元组权重值。等式(1)表示M_Q中所有属于|E(Q)|的权重之和。G_D中，两顶点的最短路径权重越小，认为这两个顶点连接越紧密，因此score(M_Q)值越小，则认为匹配M_Q越好。

top-k子图匹配问题：给定一个查询图Q和数据图G_D，Q的top-k匹配就是在G_D中的k个匹配，即列表(M_Q ⁽¹⁾,M_Q ⁽²⁾,…,M_Q ^(k))，并且这k个匹配满足两个条件：(1)在这k个匹配中，若i＜j，则score(M_Q ⁽ⁱ⁾)≤score(M_Q ^(j))，i,j∈1,2,…，k；(2)对Q的任何不在该列表中的匹配M_Q，有score(M_Q ⁽ⁱ⁾)≤score(M_Q)，i∈1,2,…,k。本发明研究带环查询的kGPM问题。

图4中(b)和(c)部分分别显示了权重值均为8的两个匹配结果M_Q ⁽¹⁾＝＜8,6,9＞和M_Q ⁽²⁾＝＜4,2,3＞。

找出环查询的top-k匹配很难，对于top-k的子树匹配问题，存在着线性时间和线性空间复杂度的算法。为了找到查询图Q的top-k解，需要动态构建查询树的排序匹配列表。也就是说，给定一个查询图Q，我们选择一棵或多棵查询树来构建这些查询树的排序匹配列表，同时，对每个查询树的匹配结果，我们将其扩展成查询图Q的匹配。当成功获得top-k匹配后，子树匹配的计算过程就会停止。

方法综述：找出环查询的top-k匹配很难，对于top-k的子树匹配问题，存在着线性时间和线性空间复杂度的算法。为了找到查询图Q的top-k解，需要动态构建查询树的排序匹配列表。也就是说，给定一个查询图Q，我们选择一棵或多棵查询树来构建这些查询树的排序匹配列表，同时，对每个查询树的匹配结果，我们将其扩展成查询图Q的匹配。当成功获得top-k匹配后，子树匹配的计算过程就会停止。

具体来说，对于一个查询图Q，其任意一棵生成树都可以作为寻找Q的top-k匹配的查询树。生成树的匹配结果是按照权重大小排序的，因此对于每一个查询树，其匹配结果形成了排好序的查询树匹配列表。为了简化说明，用t-lsits表示这个排序列表。与排序列表的连续扫描一样，t-lsits也是逐渐创建和处理的：在查询树t-lsits里，所有的查询树匹配都要被验证，返回的最新匹配会立即被处理。最后根据Q中有的而查询树中缺失的边，将查询树的匹配拓展成Q的匹配。对于每条缺失的边，比如(A,D)，查询树匹配已有对应的顶点为a和d，我们只需找到a和d之间的最短路径，以及考虑对应Q的权重。当满足以上条件之后，也就得到了Q的匹配。

如图6所示，T₁和T₂是图4（a）部分中Q的查询树，L₁和L₂分别是T₁和T₂的排序匹配列表。表中的第1列是按权重值从小到大排列的所有T₁或T₂的匹配，第3列是匹配的权重值。要得到总权重值，还需考虑缺失边的权重，因此，L₁和L₂表中的匹配排列顺序区别很大。

创建生成树匹配列表：我们简单回顾创建生成树匹配列表t-lsits的创建和存储所花费的代价。对于一个给定的查询树T的top-k匹配，我们采用自底向上的方法：首先考虑T的最小的子树，然后考虑较大的子树，最后是整个树T。数据图G_D以边传递闭包的形式存储，传递闭包可能很大，但存在较好的方法对其进行压缩，如2-hop覆盖方法，而且能有效的支持大规模数据图的复杂查询。

传递闭包以数据库中表的形式存储，若R_(A,D)为图中一个表，则其具有如下形式：AD_CONN_(A,D,dist)，列A和D表示标签为A和标签为D的顶点，dist表示相应顶点之间最短路径的距离。若(a,d,δ(a,d))为表中的一个记录，则有a,d∈V(G_D)，a的标签为A，d的标签为D，δ(a,d)为顶点a和d的最短路径的权重，表中的记录按照dist值从小到大排列。下文用R_(A,D)来指代这样的表。图G_D的标签集合为Σ，因此图G_D会有O(|Σ|²)个这样的表。当t表示R_(A,D)中的一个记录，对于a,d∈t，t·dist就是δ(a,d)。这样的表支持顺序访问，可以按顺序扫描，当给定两个顶点a,d，根据索引很容易找到对应顶点的最短路径权重值δ(a,d)，比如B⁺树。图5列出了图2中数据图G_D中的三个表格：R_(M,D)、R_(D,C)、R_(M,C)。

该算法存在线性时间和空间的复杂度O(Σ_(X,Y)∈E(T)|R_(X,Y)|)。若查询树为T，算法返回top-1匹配的时间和空间复杂度为O(Σ_(X,Y)∈E(T)|R_(X,Y)|)，而返回其他匹配的时间和空间复杂度为固定的量Δ，它们与给定的数据图的大小并不相关。子树匹配算法首先需要对查询树进行自底向上的分解，但对一个带环的查询图无法进行这种分解操作，因此子树匹配算法并不能直接用来求解子图匹配问题。

挑战性：虽然创建一个t-lsits可以花费最小的代价，但是使用多个t-lsits解决kGPM问题的代价并不一定更高。因为，一个排序列表里面的前k个匹配并不包含所有的kGPM匹配结果，这时，若果将T扩展成Q，那么相应的Q的总匹配权重可能会增加许多。另一方面，不同的t-lsits可以包含kGPM匹配的不同部分，这样使用多个列表可能比单一列表快。下面的示例会说明这一点。图6中的任何一个排序列表，必须验证不少于7个匹配来获得top-k匹配。当同时考虑两个排序列表时，两个表上最好的两个匹配就是kGPM的匹配结果。

另一方面，对于kGPM问题，使用的查询树也不是越多越好，因为创建许多的排序表需花费很大代价。因此，问题的难点就是如何选择一组查询树，使得查找给定kGPM的代价最小。即使给定一组查询树，还有一个问题：循环方式访问每一个排序列表，每次循环返回一条记录。但是，对于查询图的生成匹配，不同的列表有不同的选择度。因此，给定一组查询树，本发明进一步研究一个最好的办法来协调各个t-lsits以达总体代价最优化。

为此，可采用最优化查询来解决上述难题，通过基于代价的最优化查询，找出最优查询方案。其基本思路是设定代价模型来估计每种查询方案的最小代价，然后找出所有查询方案中代价最小的查询方案。为了到达这个目的，我们首先基于多重的t-lsits定义kGPM的一个多维表示。接着，我们用这个多维表示建立了一个实际的最优化模型。在这个模型中我们提出一个代价模型和每个t-lsits的大小估计。这样就可以计算出kGPM问题中代价最小的查询方案。

在此，我们简要的介绍一下多维表示。它包含Q和查询树的图嵌入，kGPM的匹配区域定义以及如何在h维空间中查找匹配结果的陈述。通常，查询方案P中指定了h个查询树，T₁,T₂,…,T_h，我们将所有Q的匹配分解成查询树并插入到相应的h维空间的顶点上，T_i 1≤i≤h表示第i维定点。在这个h维空间中，每个查询图Q的匹配M_Q指定以下坐标(Y₁(M_Q),Y₂(M_Q),…,Y_h(M_Q))，其中Y_i(M_Q)由第i个查询树来定义。这样Q的top-k的匹配对应于该空间中的一个区域，叫做匹配区域。可以发现，要找到kGPM的匹配，必须覆盖这个匹配区域。覆盖方法如下：移动垂直于每个坐标轴的平面来扫描整个空间，匹配区域必须包含在其中至少一个扫描平面的某个区域内。那么查询第i个查询树以及对应的匹配列表的过程可以看成是对第i维空间的扫描操作。

设M_i是一个查询树匹配，M_Q是Q的匹配。Y_i(M_Q)是查询树T_i的评分函数。其定义如下：

Y_{i} (M_{Q}) = {score}^{'} (M_{i}) = {&Sum;}_{(A, D) &Element; E (T_{i}) c_{(A, D)}^{'}} δ (u, c) - - - (2)

其中，(A,D)＝(∧^-1(u),∧^-1(v)),u,v∈M_i为T_i中的查询边，c(A,D)为等式(1)中给定的系数，n(A,D)为查询边(A,D)在T₁,T₂,…,T_h中出现的总次数。因此，对于给定的h查询树有：

score(M_Q)≥Y₁(M_Q)+Y₂(M_Q)+…+Y_h(M_Q) (3)

上述等式在h查询树中至少有一个包含Q的查询边时成立。在本文例子中，有

Y_{1} (M_{Q}) = \frac{1}{2} δ (m, d) + δ (d, c)

和

Y_{2} (M_{Q}) = δ (m, c) + \frac{1}{2} δ (m, d) .

使用h个变量，y₁,y₂,…,y_h来构造一个h维空间，其中第i维度有y_i来定义。对于给定的查询图Q的匹配结果M_Q，其第i维度的值是由Y_i(M_Q)y₁，1≤i≤h确定的。因此，每个匹配结果M_Q可以映射到h维空间的点(Y₁(M_Q),Y₂(M_Q),…,Y_h(M_Q))上。图7的(a)部分举例说明了一个由y₁和y₂确定的二维空间，在这个二维空间上，可以用(Y₁(M_Q),Y₂(M_Q))来确定一个匹配M_Q的位置。

若M_Q可以从查询树匹配结果M_i扩展得到，那么M_i在h维空间中的位置与M_Q的位置相同。因为，M_i包含了M_Q的所有节点，所以M_i在每个维度上的值跟M_Q是相同的。在图7的(a)部分中，实心点表示了所有的查询图和查询树的匹配结果。

使用y_i直接表示score(M_Q)，根据等式(3)有：

score(M_Q)≥y₁+y₂+…+y_h (4)

设MAX是Q的第k个匹配结果的得分，那么其他的k_-1个匹配必须满足y₁+y₂+…+y_h≤MAX。因此，所有的kGPM的结果都必须在以下的空间范围内：

\{\begin{matrix} y_{1} + y_{1} + . . . + y_{1} \leq MAX \\ y_{i} = 0,1 \leq i \leq h \end{matrix} .

图7的(a)部分中举例说明了当k＝4的时候的二维空间，即被两条坐标轴和直线y₁+y₂＝MAX所包含的三角区域。

设α_i为第i个t-lsits中权重最大的，即对于所有的查询树匹配结果M_i都有score′(M_Q)≤α_i，设第i个t-lsits中最后一个匹配结果，score′(M_Q)≤α_i。所以，每个查询树的匹配过程可以看成是用一个垂直于坐标轴的平面从坐标轴开始到y_i＝α_i扫描。所有的Q的匹配结果都能够识别。

这样，查找kGPM的过程就可以看成通过移动一个平面来扫描整个匹配区域。图7中(c)部分举例说明了仅使用一个查询树(可以使用T₁或者T₂)的情况。当使用T₁或者T₂进行扫描时，最小的扫描区域分别是C₁或者C₂。在这种情况下，α₁＝α₂＝MAX。

当使用多颗树的查询方案时，每个查询树的查询操作可以以比MAX小很多的查询权重。例如在图7的(d)部分中，T₁和T₂可以分别在α₁和α₂，α₁+α₂＝MAX处停止查询操作。因此，对于α₁和α₂，我们不需要生成M₁和M₂，其中α₁≤score′(M₁)≤MAX，α₂≤score′(M₂)≤MAX。根据以上结论，用一个查询树的方案所得到的匹配结果可能比使用多棵树的方案所得到的匹配结果更多。

在实现高可扩展的分布并行方式处理子图模式匹配查询需要把处理细化为路径搜索和查询时计算两个部分分别考虑。由于这些都是数据密集型处理，适合考虑通过Map任务和Reduce任务的分解、综合及流水化(pipeline)完成达到并行。整体上说，路径搜索部分的处理是遍历所有不同节点出发的到图中附近所有顶点长度小于S的最短路径，并生成所有的连接表（如R_(A,D)等等）；而查询时计算顺序数据访问路径搜索部分所得的连接表，并且进行大量的分布的聚集操作得到所有生成树的树匹配排序列表，最后按上述快速图查询处理方法完成所有处理。

路径搜索：面向海量数据处理的云计算技术核心是MapReduce计算模型。MapReduce计算模型将复杂的分布式计算简化分解成Map和Reduce两类基本任务，彼此有机的协作。这些Map任务和Reduce任务分散在集群计算环境中不同的计算节点上，以实现大规模分布计算的可扩展性。Map任务从分布式文件系统读入数据，再将不同数据元素生成(key,value)对，其中value可为任何元组，对象或数据块。Map任务将(key,value)对按key值分别存储。Master节点则通知一个Reduce任务取得同一个key的所有(key,value)对作为这个Reduce任务的输入。这个Reduce任务使用所有的value数据计算。即Map任务的结果作为Reduce操作的输入，Reduce操作的结果作为输出。而且，Reduce的输出可再一次成为新一轮的Map操作的输入。这样，系统以流水化的方式执行多重MapReduce并行程序，直至程序算法的整体逻辑完全执。

为了能快速遍历所有不同节点出发的所有长度小于等于S的路径，我们考虑通过Map任务和Reduce任务对路径搜索任务分解。简单地说，我们使用多个计算节点同时遍历从多个不同源节点出发的路径。这里关键的问题是我们无须一次遍历至距离为S的节点以一次产生所有长度小于等于S的路径，因为那样会使某一节点产生大量的路径而无法完成该节点的计算，另外，如果该节点读取大量结果路径出错更会使系统需要重新分配计算。基于以上考虑，我们设计一套具有可调任务粒度的MapReduce并行程序。通过粒度的调节，可以更好控制多个运算节点的负载平衡。这种粒度由从某一源节点遍历至其他目标节点的最远距离决定。

如图8所示，考虑给定的统一初始距离值d，由节点υ遍历至其他目标节点u₁，u_２，…，u_k的这个距离范围d内所有路径由某一Map任务节点找出（图中围绕υ的内部阴影部分）。同理，从节点u₁，u₂，…，u_k的遍历也可由其相应Map任务节点完成。而Reduce任务将所有遍历出的路径通过中间结点连接为更长的最短路径，比如通过图中u₁，u_２，…，u_k，可将从υ出发的路径连接至长度为d+1到2×d的路径而得到距离范围2×d内的所有路径（图中围绕υ的内部阴影部分）。输出可以在次进行MapReduce，直到所得的路径是所有需要的路径，即长度可以为S。这个统一初始距离值d控制任务粒度的大小。粒度越大则完成一次MapReduce所需的内存和CPU代价越多，但整体MapReduce次数较少。当d＝1时，路径由两条边的连接生成；当d=S时，Map任务直接完成某一源节点的路径搜索。所以，基于1≤d≤S的任务粒度可调；通过优化任务粒度能使整个处理最佳，我们将研究任务粒度的优化问题。

具体地说，首次Map任务生成的(key,value)要使用value记录所有长度小于d的所有最短路径一次，其中key为路径的最后一个节点；并要生成(key,value)使用value记录所有等于d的所有路径两次，key分别为路径的第一个节点或最后一个节点。在以前的例子中，假设从υ出发的长度小于d的所有路径为长度等于d的所有路径为υ的Map任务将产生：

所有的路径被Map任务按同一个源节点（有“from”的key-value对）和目标节点（有“to”的key-value对）分配给同一个Reduce任务。这个Reduce任务可以将具有同一个连接节点的两段路径得到成更长的路径，并以此类推。比如可由处理key为u₁的Reduce任务将为连接为一系列长度为d+1，d+2，…，2×d的最短路径。所得路径按源节点υ和其他目标节点u₁，u_２，…，u_k的标签存到磁盘上的所有的连接表（如R_(A,D)等等）。

查询时计算：该阶段处理HDFS上存储的大量连接表得到执行所给定kGPM的所有t-lists这一个过程。其余kGPM处理均可参照在上述子图模式匹配的快速高效处理方法部分内容。

图9根据我们kGPM的示例数据图的例子，给出了1棵生成树和它对应的t-list。该排序列表的生成过程是扫描读取（M，D）和（M，C）的连接表，根据标签为M的不同节点，如9、10和3，组合（M，D）和（M，C）的连接表的路径。此过程可由图10说明。

可以发现此过程是针对不同具有M标签的顶点的聚集操作，我们从HDFS上读取连接表的时候，以不同具有M标签的定点为key分派数据，各自组合(Map阶段)。然后归并所得相同具有M标签的顶点的组合得到，并排序得到最终的排序列表t-list(Reduce阶段)。而如何分解较大的生成树，以较少的MapReduce遍数和中间结果数完成处理，仍将在本项目中仔细研究。

为了更好地支持现今互联网上真实的大规模图应用，本发明考虑了千万和数亿规模的大图。在高可扩展的分布并行方式处理子图模式匹配查询研究上，我们提出了新颖的技术路线。具体的是，将计算不确定图的任务分解为基于图遍历的路径搜索以及查询时计算。适合考虑通过Map任务和Reduce任务的分解、综合及流水化(pipeline)完成达到并行。

综合来说，本发明带来一系列有益的技术效果，如在面对海量的图数据，无论是在庞大的数据规模上，或是数据的内部结构和关系的多样和复杂上，都能有效的进行处理，可以在查询研究工作中很好的解决top-k问题，也能够直接的求解top-k的子图匹配。

可以理解的是，对于本领域的普通技术人员来说，可以根据本发明的技术构思做出其他各种相应的改变与变形，而所有这些改变与变形都应属于本发明权利要求的保护范围。

Claims

1.一种基于海量数据的图查询处理方法，其特征在于，包括以下步骤：

S3、采用所述多维表示建立一个图模型；

S5：定义查询图Q，并根据该查询图Q获得其任意生成树；

S7：对每条查询树缺失的边进行最短路径计算；

2.根据权利要求1所述的基于海量数据的图查询处理方法，其特征在于，在步骤S1中，所述Map、Reduce方法采用MapReduce计算模型分解而来。

3.根据权利要求1所述的基于海量数据的图查询处理方法，其特征在于，在步骤S3中，所述图模型包含查询图和查询树的图嵌入。

4.根据权利要求1所述的基于海量数据的图查询处理方法，其特征在于，在步骤S4中，对于查询区域，需完全覆盖这个查询区域，覆盖方法包括：移动垂直于每个坐标轴的平面来扫描整个空间，匹配区域必须包含在其中至少一个扫描平面的区域中。

5.根据权利要求1所述的基于海量数据的图查询处理方法，其特征在于，在S9中，所述采用的评分函数为其中，u,v∈M_Q，(A,D)＝(Λ^-1(u),Λ^-1(v))为Q中的边，c_(A,D)为与查询边(A,D)关联的系数。