CN105335524B

CN105335524B - 一种应用于大规模非规则结构数据的图搜索方法

Info

Publication number: CN105335524B
Application number: CN201510872650.XA
Authority: CN
Inventors: 刘智勇; 王晶晶; 乔红; 杨旭; 苏建华
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2015-11-27
Filing date: 2015-11-27
Publication date: 2019-09-24
Anticipated expiration: 2035-11-27
Also published as: CN105335524A

Abstract

本发明提出了一种应用于大规模非规则结构数据的图搜索方法，包括数据预处理方法和查询执行方法，其中数据预处理方法为：将非规则结构数据进行格式统一，为每个图的原图点构造一近邻标签向量表，构造具有属性点的扩充图；查询执行方法为：在原图数据点中利用一近邻标签筛选与关键点对应的候选匹配点，计算候选匹配点的匹配度并选择局部区域的中心点，在中心点周围划分出局部区域并查询子图和局部图的近似图匹配。该算法在保证搜索准确性的同时，大幅度降低运算复杂度，可以实现可行且有效的大规模非规则结构数据的图搜索。

Description

一种应用于大规模非规则结构数据的图搜索方法

技术领域

本发明属于图数据管理、图数据挖掘领域，涉及一种应用于大规模非规则结构数据的图搜索方法。

背景技术

图模型是最常见的结构模型之一，由自然形成或人工构造产生，广泛应用于各类关系的描述。其中，点通常用来代表实体，如分子、个人、电子账户等；边通常用来描述两个实体间的具体关系，如分子键、通讯往来等。

社会计算、生物信息学等应用中存在大量非规则结构数据的处理需求，基于图模型的挖掘算法逐步受到人们的关注。其中，一种点用离散化标签标识属性、边用权重值表示点联系紧密程度的非规则结构数据，在社交网络分析、知识发现等领域具有广泛应用，图搜索是实际应用中一项极为重要的需求。例如，给定一个社交网络图，若想了解某种社交子结构存在的情况，可以将此种社交子结构表示为查询子图，在给定的大型社交网络图中找到查询子图的匹配。又例如，生物网络的图模型通常由上万个点和百万条边组成，图搜索可以确定某个分子结构是否出现于搜索的生物网络中，生物学家可以通过图搜索来减少蛋白质结构匹配的实验代价。

对于大规模非规则结构数据的图搜索方法，传统的图数据库信息检索方法可能返回大量查询结果，且查询结果不具有代表性，这是因为没有考虑点的影响力差异；现有方法大多利用索引(Index)结构剪枝，采用回溯算法的基本框架，返回精确匹配结果，这些方法复杂度较高，且只能返回完全与查询子图匹配的图搜索结果，但无法返回与查询子图相似的结果；此外，由于子图匹配本身是一个NP-hard问题，复杂度较高，直接使用图匹配的经典算法无法解决大规模非规则结构数据的图搜索问题。可见传统的图搜索方法已经无法满足日益增长的大规模非规则结构数据的处理需求。

发明内容

为解决现有图搜索方法的复杂度高和效率不能满足需求的问题，本发明提出了一种应用于大规模非规则结构数据的图搜索方法，在保证精度的条件下，降低了算法的复杂度，提高了图搜索的效率。

本发明提出的一种应用于大规模非规则结构数据的图搜索方法，包括数据预处理方法和查询执行方法；

数据预处理方法包括如下步骤：

步骤S11，将非规则结构数据统一为一种图的数据格式作为原图；统一数据格式后的每个图中的点为原图点；

步骤S12，为每个图的原图点构造一近邻标签向量表；

所述为每个图的原图点构造一近邻标签向量表的方法为：依据原图的m个不同的标签，为每个原图点构造一个m位的一近邻标签向量，若原图点存在标签为label_i的邻接点，则该原图点一近邻标签向量中对应的第i位取值为1，否则该位取值为0；

步骤S13，在统一数据格式后的每个图中加入新的点作为属性点，并添加对应的边，形成具有属性点的扩充图；

步骤S14，在扩充图上，使用重启动随机游走算法，以每个属性点为起点，计算属性点到每个原图点的概率。

查询执行方法包括如下步骤：

步骤S21，确定查询子图的关键性节点作为关键点，并在原图点中利用一近邻标签向量表筛选与关键点对应的点作为候选匹配点；

步骤22，计算候选匹配点的匹配度，并根据匹配度大小选择局部区域的中心点；

步骤23，在中心点周围进行局部区域的划分，利用松弛法进行查询子图和局部图的近似图匹配。

优选的，所述扩充图的构建方法为：依据原图的m个不同的标签加入m个属性点，这m个属性点的数据格式与原图点的数据格式完全相同，点序列号递增；以属性点为起点，以相同标签的其它原图点为终点，向原图中添加单向边。

优选的，所述候选匹配点的筛选方法为：

步骤211，在原图点中筛选出所有标签与关键点标签相同的原图点；

步骤212，对关键点的一近邻标签向量取反后与步骤211中筛选出来的原图点的标签向量进行或运算，若结果为全1向量，则将该原图点选为候选匹配点。

优选的，所述候选匹配点的匹配度的计算方法为：计算查询子图中关键点到其它点的概率，并结合步骤S14中的属性点到每个原图点的概率，按照如下公式计算候选匹配点与关键点的匹配度g(q,i)，

其中查询子图q中的点的下标用l和k表示，k为查询子图的关键点下标，l为查询子图的非关键点下标；扩充图G'中下标用l_label和i表示，其中i表示候选匹配点的下标，l_label表示q中非关键点l对应的G'中属性点的下标；r_{l_label,i}代表属性点到候选匹配点的R值，r_l,k表示查询子图中非关键点l到关键点k的R值。

优选的，所述根据匹配度大小选择局部区域的中心点的方法为：按照候选匹配点与关键点的匹配度递减顺排序，选择前K个点作为局部区域的中心点。

优选的，采用宽度优先遍历的方法进行局部区域的划分，具体为：设定遍历层数和点规模的阈值，以局部区域的中心点为根点进行宽度优先遍历，当点数达到点规模的阈值或层数的阈值或所有点都没有未经遍历的邻接点时，扩展停止，得到该中心点对应的局部区域。

优选的，在局部区域划分的过程中设置有中心点的邻接点的筛选过程，筛选依据为：

中心点的邻接点的标签属于查询子图的关键点的邻接点的标签的一种，则选择该中心点的邻接点加入局部区域，否则不予选择；

将中心点的邻接点的一近邻标签向量与关键点所有邻接点的一近邻标签向量取反后的向量组中各个向量依次做或运算，若存在结果为全1向量，则选择该中心点的邻接点加入局部区域，否则不予选择。

优选的，近似图匹配采用的松弛法为渐非凸渐凹化过程方法。

本发明采用整体线性筛选、局部结构匹配的思路，即利用图的某些信息，对全图进行快速粗定位，筛选重要点作为局部区域的中心点；然后在该局部区域内，利用渐非凸渐凹化算法进行图匹配，将图搜索问题转化为搜索范围的多个局部分别与搜索子图相互匹配的过程，在保证一定精度的条件下，降低算法的复杂度。

附图说明

图1为本发明实施例的整体框架图示；

图2为本发明实施例的大规模非规则结构数据的预处理方法的图示；

图3为本发明实施例的应用于大规模非规则结构数据图搜索的方法的图示。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

如图1所示，本发明的一种应用于大规模非规则结构数据的图搜索方法，包括两大部分：数据预处理部分和查询执行部分。

数据预处理部分主要包含数据规范化、一近邻标签向量构建、扩充图构建以及离线计算R值(R值具体表示为r_i,j，表示重启动随机游走中从起始点i到达点j的概率，可以反映两点间联系的紧密程度)，即针对大规模非规则结构数据的特点，对数据进行统一格式的存储，并为每个点构造一近邻标签向量表，并根据图搜索的需要，扩充原图数据获得扩充图，在扩充图上为每个点离线计算R值。

查询执行部分的主要思路是利用关键点匹配度确定中心点，并在中心点周围划分局部区域，在每个局部区域利用渐非凸渐凹化过程进行近似图匹配，从而得到图搜索结果。

在我们的方法中，我们采用重启动的随机游走取得的R值来衡量两点关系的紧密程度，较好的利用了边的权重信息，在计算匹配度的同时，考虑了点在图中的重要性差异，利用关键点的匹配度，使得返回查询结果更具代表性；同时由于采用了松弛法进行局部的子图匹配，可以返回近似查询结果；离线计算R值、利用匹配度定位中心点、利用一近邻标签筛选点以及只在局部区域内利用松弛法进行图匹配等方法，降低了算法复杂度，可用于大规模非规则结构数据的图搜索。

如图2所示，本发明数据预处理方法包括如下步骤：

步骤S11，大规模非规则结构数据的规范化：将非规则结构数据统一为一种图的数据格式作为原图；统一数据格式后的每个图中的点为原图点；

实际中，原始数据因应用领域、搜集方式、存储方式的不同而具有多种多样的格式，我们需要对取得的原始数据进行统一规范，将图数据格式统一为一种标准图数据格式后存储。

所述标准图数据格式为：

G#Gid

*Vertices VertiecesNumber

0 LabelofVertices_0

1 LabelofVertices_1

.......

vn-1 LabelofVertices_vn-1

*Edges EdgesNumber

v_i₀v_j₀WeightofEdges

......

其中“G#Gid”表示开始图信息描述；以“G＝-1”表示结束图信息描述；“*VerticesVertiecesNumber”表示开始图中点信息描述，其中“VerticesNumber”是点总数，此外，点信息按行存储，格式为“vid LabelofVertices_vid”，其中“vid”是点的唯一序号，“LabelofVertices_vid是点的标签信息；“*Edges EdgesNumber”表示结束点信息部分，并开始图中边信息描述，边信息按行存储，格式为“v_i v_j WeightofEdges”，其中v_i是起点序号，v_j是终点序号，WeightofEdges是边的权重信息。该标准图数据格式既可以表示无向图，也可以表示有向图。每点具有一个唯一的序号和标签，不同点的标签可以相同，边用起点序号和终点序号描述，具有权重信息，边的权重代表两点间关系的紧密程度。例如，在论文引用网络中，用点表示作者，若两作者曾为共同作者，则两点之间有边相连，边的权重代表两人合作论文的次数，权重越大，代表两人合作次数越多，联系越紧密。权重信息的设定方法与应用领域密切相关，可根据实际应用需求而定。

应用中，用户需要按照上述标准格式处理原始图数据，在进行图搜索时，查询子图也需按照同样的标准数据格式给出，然后才能进行图搜索。例如，对于社交网络数据形成的图数据，我们将其中的个人作为点，根据个人职业的不同，为其分配不同的标签。根据人际关系将对应点相连，在查询时，将需要查询的社交模式也按照相同的数据格式给出，进行图搜索后，返回具有一定代表性的图搜索结果。

步骤S12，构造一近邻标签向量表：为每个图的原图点构造一近邻标签向量表；

在图搜索时,需要根据一近邻信息，进行点筛选。为了提高筛选效率，在数据预处理时，提前构造一近邻标签向量表。构造一近邻标签向量的方法为：已知原图有m个不同的标签(label_1,label_2,...label_m)，则每个原图点具有一个m位的一近邻标签向量，若该点存在标签为label_i的邻接点，则该原图点一近邻标签向量中对应位设为1，否则该位设为0。假如图中所有点共有5种标签，分别为A、B、C、D、E，某点有四个邻接点，邻接点标签分别为A、A、B、C，则该点的一近邻标签向量为[11100]。在进行图搜索时，查询子图也需按照同样的方法构造一近邻标签向量。

步骤S13，加入属性点扩充原图：在统一数据格式后的每个图中加入新的点作为属性点，并添加对应的边，形成具有属性点的扩充图；

图搜索时，需要根据查询子图的关键点与图数据中各个点的匹配度的来确定局部区域的中心点，为了计算匹配度，将原始图扩充为具有属性点的扩充图，即在原图中加入属性点，并添加对应边。

扩充原图的具体方法为：已知原图有m个不同的标签(label_1,label_2,...label_m)，则向原始图中加入m个属性点，这m个属性点的数据格式与原图点的数据格式完全相同，点序列号递增；以属性点为起点，以相同标签的其它原图点为终点，向原图中添加单向边，边的数据格式也与原图边的数据格式完全相同，边的权重值均设为1。

这样一个由普通点和属性点组成的扩充图就构造好了，属性点不对应任何实体，因此属性点并不参与实际的子图匹配，只参与配度计算，筛选出具有一定的代表性的关键点的匹配点。

步骤S14，离线计算属性点到各原图点的R值：在扩充图上，使用重启动随机游走算法，以每个属性点为起点，计算属性点到每个原图点的概率。

在步骤S13形成的扩充图上，分别从m个属性点出发，使用重启动随机游走，计算该属性点到每个原图点的概率值R。R的计算采用迭代方法，迭代次数T可以根据计算精度的要求人为设定。R的计算如公式(1)所示：

其中为按列规一化之后的权重矩阵；为起始向量，第i个元素为1，其余为零，代表从i点出发，向其他各点随机游走；为排序向量，r_ij为从i点出发到达j的R值，迭代结束时代表从i点出发到达j点的概率；c为重启动随机游走算法的重启动参数，表示以(1-c)的概率回到起始点，以c的概率继续随机游走。

在迭代开始，目标从起点游走到该点的邻接点，到达各邻接点的概率与边的权重成正比。同时，在迭代的每一步，都有(1-c)的概率重新回到起始点。迭代的终止条件是达到最大迭代次数T，或的L2范数小于临界值ξ。最终得到的为从i点出发到图中其他各点的R值，也就是r_i,j组成的向量。在实际应用中由于属性点到原图点的边是单向且权重相等，因此在计算属性点到原图点的R值时，在迭代的第一步，目标从属性点运动到各同属性点的R值是相等的。

因为R值包含了图的全局结构信息，相比于传统的图距离(例如最短路径、最大流)，R值包含了两点之间多层次关系。关于R值的计算，除了传统的迭代方法，还有多种快速算法可以选择，可以提高R值计算的效率。因此R值的计算方法可按照数据规模、应用领域和实际应用需求进行选择。

按照上述方法，利用扩充图，离线计算出所有属性点到每一个原图点的R值，并将其存储，作为关键点对应匹配点的匹配度计算的依据之一。

如图3所示，查询执行方法包括如下步骤：

步骤S21，筛选查询子图关键点的候选匹配点：确定查询子图的关键性节点作为关键点，并在原图点中利用一近邻标签向量表筛选与关键点对应的结点作为候选匹配点；

这里我们默认已经得到与数据图相同标准格式的查询子图，查询子图各个边具有相同的权重1，且子图规模远小于数据图，我们的目标是从数据图中找到与查询子图近似的子图，且查询结果具有一定的代表性，在本算法中主要是指关键点的匹配点是具有一定代表性的点。该步骤主要包括确定关键查询子图的关键点和利用一近邻标签向量筛选。

首先需要确定查询子图的关键点，即该点与查询子图的其他点相比更加重要，更需要关注其匹配结果的代表性。在实际应用中，关键点可以有多种确定方式：可以根据子图自身的结构信息确定关键点，例如可以将查询子图中度最大的点作为查询子图的关键点；也可以根据实际需求，结合专业信息等，指定某点为关键点。在确定好关键点之后，用基于迭代的重启动随机游走算法计算查询子图中关键点到其他点的R值，因为查询子图的规模通常较小，在线计算R值的时间很短。

显然，候选匹配点的标签必须与关键点相同，除此此外，我们利用一近邻标签向量表来初步筛选查询子图关键的候选匹配点，具体方法是：

步骤212，对关键点的一近邻标签向量取反后与步骤211中筛选出来的原图点的标签向量分别进行或运算，若结果为全1向量，则将该原图点选为候选匹配点。

步骤22，计算候选匹配点的匹配度：计算候选匹配点的匹配度，并根据匹配度大小选择局部区域的中心点；

通常情况下，经过筛选后得到的候选匹配点的规模依然很大，因此我们计算所有候选匹配点与关键点的匹配度g(q,i)。

候选匹配点的匹配度的计算方法为：计算查询子图中关键点到其它结点的概率，并结合步骤S14中的属性点到每个原图点的概率，按照公式(2)计算候选匹配点与关键点的匹配度，

其中查询子图q中的结点的下标用l和k表示，k为查询子图的关键点下标，l为查询子图的非关键点下标；扩充图G'中下标用l_label和i表示，其中i表示候选匹配点的下标，l_label表示q中非关键点l对应的G'中属性点的下标；r_{l_label,i}代表属性点到候选匹配点的R值，r_l,k表示查询子图中非关键点l到关键点k的R值。

我们认为在查询子图中，与关键点关系越紧密的点越重要，对于这样的非关键点，需要给对应项较大的影响权重，所以每个非关键点l对应的乘积项具有的r_l,k系数。

由于数据图的属性点到各个点的R值即r_{l_label,i}已经在数据预处理阶段离线计算完毕，而且由于查询子图由于规模很小，在线计算R值需要的时间很短，因此每个点的匹配度计算实际上只需要进行简单的相乘运算，非常快捷。按照上述方法，我们可以获得所有候选匹配点与关键点的匹配度，并按照匹配度从大到小的顺序排列，取其前K个点作为步骤23中局部区域的中心点，其中K的数值可以根据使用需求确定，也可以根据搜索结果进行相应调整。

步骤23，局部区域近似图匹配：在中心点周围进行局部区域的划分，利用松弛法进行查询子图和局部图的近似图匹配。

局部区域近似图匹配主要包括局部区域的划分和近似图匹配两个部分。

在步骤22中，我们计算了所有候选匹配点的匹配度大小，并将其中匹配度较大的K个点设定为局部区域的中心点，接下来需要在这些中心点周围按照一定的规则划分出K个局部区域，并将下一步近似图匹配的范围限定在这K个局部区域内。

在本实施例中，局部区域划分采用宽度优先遍历的方法：设定遍历层数的阈值L和结点规模的阈值K_max，以局部区域的中心点作为根节点，进行宽度优先遍历。当点数增加到点规模阈值K_max或层数到达阈值L或所有点都没有未经遍历的邻接点时，扩展停止，得到该中心点对应的局部区域。

此外，在局部区域划分的过程中设置有中心点的邻接点的筛选过程。查询子图的关键点的邻接点的重要性要高于其他非关键点，可以根据关键点的邻接点对中心点的邻接点进行筛选。因此，在划分局部区域时加入筛选过程，即划入局部区域的中心点的邻接点必须满足以下条件：

(1)该邻接点的点标签必须是查询子图的关键点的邻接点的标签的一种。具体方法为：将该点的标签信息表示为向量形式，若标签为label_k，则向量的第k位为1，其余位为0，例如图中所有点共有5种标签，分别为A、B、C、D、E，该点标签为A，则点标签向量为(10000)。将关键点的一近邻标签向量与该点标签向量进行或运算，若结果等于关键点的一近邻标签向量，则选择该中心点的邻接点加入局部区域，否则不予选择。

(2)将关键点所有邻接点的一近邻标签向量提出来，得到s个一近邻标签向量(不同邻接点可能具有相同的一近邻标签向量)，分别取反后组成向量组[X₁,X₂,...X_s]，将中心点的邻接点的一近邻标签向量与向量组[X₁,X₂,...X_s]中的各个向量依次做或运算，若存在结果为全1向量，则选择该中心点的邻接点加入局部区域，否则不予选择。

按照上述方法，我们可以得到K个局部区域，接下来在局部区域内进行近似图匹配。若查询子图给出边的权重信息，则可以直接在对应的局部区域进行近似图匹配；若查询子图并未给出边的权重信息，则默认边的权重相同设为1，在局部区域内进行近似图匹配之前，需要将局部区域中的边的权重都设为1。

假设查询子图的点个数为M，在点数为N的局部区域内，问题转化为图匹配问题，可用公式(3)所示组合优化的形式给出：

目标函数分为两个部分，tr(K_P ^TX)表示点标签差异，tr(A₁-XA₂X^T)^T(A₁-XA₂X^T)表示边及结构差异。其中，A₁∈R^M×M表示查询子图的邻接矩阵，A₂∈R^N×N表示局部图的邻接矩阵；X是待求的分配矩阵，其形式为置换矩阵，α为调节标签信息和结构信息的权重系数。K_p∈R^M ^×N，描述两图点标签信息的差异情况。例如,查询子图q中点i与局部区域中点j的标签信息相同，则K_p(i,j)＝0；否则K_p(i,j)＝1。需要注意的是，K_p的定义相对于整个图匹配问题是独立的部分，因此可以根据应用领域中标签的实际差异情况，定义不同的标签差异衡量方法。

解决上述组合优化问题采用渐非凸渐凹化过程。渐非凸渐凹化过程是一种可用于解决一般组合图优化问题的确定性退火方法，它以一种简单的方式严格实现了一种凹凸松弛，且不需要显性构建凹凸函数，解决了很多松弛方法中的凹凸函数难以构建甚至无法构建的问题。该算法在图匹配、二次指派等问题上取得的精度远高于其他常用的松弛方法。该算法的存储复杂度为O(N²)，计算复杂度为O(N³)。使用该方法在点规模相对较小的局部区域进行近似图匹配是可行且精确的。

在K个局部区域内，将查询子图与每一个局部图进行图匹配，返回K个图匹配结果，可以根据目标函数的值衡量查询子图与局部图的匹配程度。实际使用时，也可以根据需要，对匹配程度进行一定的限制，即只返回匹配程度高于设定值的查询结果。

综上，本发明引进的大规模非规则结构数据的图搜索方法，大大降低运算复杂度，具有一定的有效性和应用价值。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种应用于大规模非规则结构数据的图搜索方法，其特征在于，包括数据预处理方法和查询执行方法；

数据预处理方法包括如下步骤：

步骤S12，为每个图的原图点构造一近邻标签向量表；

步骤S14，在扩充图上，使用重启动随机游走算法，以每个属性点为起点，计算属性点到每个原图点的概率；

查询执行方法包括如下步骤：

2.如权利要求1所述的一种应用于大规模非规则结构数据的图搜索方法，其特征在于，所述扩充图的构建方法为：依据原图的m个不同的标签加入m个属性点，这m个属性点的数据格式与原图点的数据格式完全相同，点序列号递增；以属性点为起点，以相同标签的其它原图点为终点，向原图中添加单向边。

3.如权利要求1所述的一种应用于大规模非规则结构数据的图搜索方法，其特征在于，所述候选匹配点的筛选方法为：

4.如权利要求1-3中任一项所述的一种应用于大规模非规则结构数据的图搜索方法，其特征在于，所述候选匹配点的匹配度的计算方法为：计算查询子图中关键点到其它点的概率，并结合步骤S14中的属性点到每个原图点的概率，按照如下公式计算候选匹配点与关键点的匹配度g(q,i)，

5.如权利要求4所述的一种应用于大规模非规则结构数据的图搜索方法，其特征在于，所述根据匹配度大小选择局部区域的中心点的方法为：按照候选匹配点与关键点的匹配度递减顺排序，选择前K个点作为局部区域的中心点。

6.如权利要求5所述的一种应用于大规模非规则结构数据的图搜索方法，其特征在于，采用宽度优先遍历的方法进行局部区域的划分，具体为：设定遍历层数和点规模的阈值，以局部区域的中心点为根点进行宽度优先遍历，当点数达到点规模的阈值或层数的阈值或所有点都没有未经遍历的邻接点时，扩展停止，得到该中心点对应的局部区域。

7.如权利要求6所述的一种应用于大规模非规则结构数据的图搜索方法，其特征在于，在局部区域划分的过程中设置有中心点的邻接点的筛选过程，筛选依据为：

8.如权利要求7所述的一种应用于大规模非规则结构数据的图搜索方法，其特征在于，近似图匹配采用的松弛法为渐非凸渐凹化过程方法。