CN106383863A

CN106383863A - 一种同构子图查询优化方法

Info

Publication number: CN106383863A
Application number: CN201610800640.XA
Authority: CN
Inventors: 刘琦; 金丹丹; 肖博; 蔡卫东
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2016-09-05
Filing date: 2016-09-05
Publication date: 2017-02-08

Abstract

本发明公开了一种同构子图查询优化方法，该方法是基于精确性同构子图查询中的经典算法VF2算法上进行的改进优化，由于VF2目前在大图的运用中查询代价过高，本发明在其基础上对其优化，分别从标签频率排序以及加速候选对寻找方案，以及利用稀疏矩阵代替原本二维矩阵来优化匹配对的存储方式等三个方面对其进行优化，提出一种新的同构子图查询优化方法。在新的优化方法中，首先，加速原有VF2算法的寻找候选对的方案降低其时间复杂度；其次，在数据导入时，按照标签出现的频率排序，优先匹配出现频率少的标签；最后，优化匹配对的存储方式，用稀疏矩阵代替原有矩阵。本发明公开的新的同构子图查询优化方法可以有效降低算法执行时间和递归次数，提高算法性能。

Description

一种同构子图查询优化方法

技术领域

本发明涉及一种同构子图查询优化方法，属于计算机中的图论领域。

背景技术

当前生活中的很多关系，如社交网络、互联网超链关系、语义网以及生物作用网络等，都会运用到离散数学中的图加以描述并进行分析。随着Web技术和社交媒体的发展，导致现实世界产生的图数据正在爆炸式的增长，据统计，Facebook每天日常至少有9亿活跃用户，而每个用户平均有130个朋友，这样的网络数据的增长速度可想而知，而子图同构作为图数据分析中的基本操作，被广泛应用于蛋白相互作用网络分析、知识库、程序分析等应用中。

同构子图查询就是在一张数据图G中找出给定的查询图Q同构的所有子图，并输出这些同构子图，具体实例如图1所示，查询图Q在数据图G中的同构子图如图b中顶点为1、3、4、5以及虚线部分构成。

从数学的定义上来说，设数据图G可表示为G＝(V，E，T，l_G)，其中V表示图G的顶点集合，E表示图G的边集合，T表示图G中顶点的标签集合，l_G表示顶点集合V到标签集合T的标签函数，l_G为每一个顶点赋予标签集合T中的一个标签。同样，查询图可表示为G＝(V_q，E_q，T_q，l_q)，其中V_q是查询图的顶点集，E_q是查询图的边集，T_q是标签集。l_q是V_q到E_q的标签函数，将查询图中的顶点映射到标签集T_q上。查询图的标签集T_q可以确保是数据图标签集T的子集。而同构子图匹配的目标是在数据图G中，找出满足如下三个条件的子图g＝(V_g,E_g)：

(1)子图条件：V_g∈V,E_g∈E；

(2)规模匹配条件：匹配到的子图的点集、边集大小必须与查询图点集、边集大小相同，即|V_q|＝|V_g|且|E_q|＝|E_g|，其中|V_q|表示集合V_q的元素个数；

(3)同构匹配条件：存在从查询图q的点集到同构子图g的点集的一个双射f:V_g→V_g，该双射f同时满足：

1)标签l_q(v)＝l_G(f(v))；

2)拓扑结构

VF2算法是Luigi P.Cordella等人于2004年提出的一种针对大图匹配的同构子图查询算法，该算法的核心思想是搜索加剪枝，从而达到同构子图的查询，但由于其在数据图规模较大的情况下查询的代价过高，所以对其进行优化是很有必要的，也是对图论领域中子图同构研究的一项推进。

发明内容

发明目的：

本发明的目的是针对带标签的同构子图查询问题，优化同构子图查询VF2算法，分别从优化标签频率以及候选对寻找方案，以及采用稀疏矩阵等来优化VF2算法，降低算法复杂度，提高原算法性能。

技术方案

本发明主要是从优化标签频率以及候选对寻找方案优化以及算法初始化阶段来进行优化。

首先，算法输入阶段，输入查询图Q和数据图G，以及匹配映射函数M()，中间状态s,首先对查询图Q中标签的出现频率按从低到高的方式进行排序，在进行匹配的时候，优先匹配Q中出现频率低的标签，可以尽早排除不可能的点，从而加速匹配速度。

其次，运用递归的方式进行数据图G的搜索匹配，在匹配初始化阶段，采用稀疏矩阵来代替原本VF2算法中的二维矩阵来构建边矩阵，优化匹配对的存储方式，可以降低算法空间开销，将其空间复杂度从O(n²)降低为O(n)。搜索匹配时也是优先匹配标签出现频率最低的点，在匹配其余点时，如果前驱或者后继出现多个，也是优先选择标签频率低的。

匹配的过程主要是如果匹配映射函数M(s)包含了查询图Q中的所有点和边，则Q在数据图G中的同构子图找到，否则，需要在每次局部匹配基础上，再匹配一个点。原VF2算法中，在后续匹配点中，同时需要考虑该点的前驱和后继，而在本发明中的算法中，在匹配初始化阶段产生的可能匹配对不需要像原算法中Q×G，仅需要查询图Q中的一个点与数据图G中所有点，即可遍历整个搜索空间，将其时间复杂度从O(m*n)降低为O(n)。

后续点的匹配中，首先找出所有可能进行匹配点对集合P(s)，然后对于查询图Q中的一个点与数据图G中所有点组成的匹配对中的每一个匹配对p，检查加入匹配p是否适应可行性规则，如果不适应，则需要进入匹配点对集合P(s)中的下一匹配，直至找到适应可行性规则的p,然后将p加入M(s)，同时状态更新为s',循环过程结束后，则存储其数据结构，并输出查询图Q和数据图G之间的映射关系，也就是查询图Q在G中的同构子图。

检验其可行性主要是依据以下规则，设新加入匹配对是(n,m)，则需满足：则对于n在数据图G中的所有前驱(或后继)，必须能在查询图G中m的前驱(或后继)里有相应的点与之对应。同样，对于m在查询图G中的所有前驱(或后继)，也必须能在数据图Q中n的前驱(或后继)里有相应的点与之对应。这两条规则保证加入新的匹配对后，两个子图依然是同构的。其次，数据图中n在当前已经匹配的点集的所有边的起点(或终点)集合中的前驱(或后继)的数目，必须大于等于查询图中m在当前已经匹配的点集的所有边的起点(或终点)集合中的前驱(或后继)的数目。如果不满足，则说明对于查询图中新匹配的点m，其邻居个数是大于数据图中n的邻居个数的，所以说最终必然无法完全匹配查询图中所有的点。

有益效果

VF2算法是精确性同构子图查询中的经典算法，但在目前大图的运用中查询代价过高，本发明并在其基础上对其优化，分别从标签频率排序以及加速候选对寻找方案，以及利用稀疏矩阵代替原本二维矩阵来优化匹配对的存储方式等三个方面对其进行优化，提出一种新的同构子图查询优化方法，可以有效降低算法执行时间和递归次数，提高了算法性能。

附图说明

图1为同构子图查询实例；

图2为本发明的算法流程。

具体实施方式

以下结合附图具体说明，本发明主要是从优化标签频率以及候选对寻找方案优化以及算法初始化阶段来进行优化，主要优化流程图如图2所示：

输入数据查询图Q，数据图G以及查询过程中中间状态s，匹配映射函数M()，首先进行标签的统计与排序，将输入的图数据按标签出现的频率，从低到高排序，同样，在标签匹配的时候，首先匹配出现频率最低的标签，这样子可以尽早去除不可能的点，从而缩小的匹配范围，减少匹配时间。

标签统计与排序之后，进入匹配初始化阶段，该过程中本发明优化了匹配对的存储方式，将原本的二维矩阵存储替换成稀疏矩阵，一旦匹配到相同的点和边，即以稀疏矩阵的方式构建，可以很大程度上降低算法空间开销，并将其空间复杂度由O(n²)降低为O(n)。同时在初始化阶段，优先匹配出现频率最低的点，当匹配其余点时，如果前驱和后继出现多个情况的话，也是选择优先匹配频率较低的点。

匹配初始化之后进行判定，当匹配映射集合M(s)中已经包含了查询图中所有节点时，则直接输出查询图Q与数据图G的映射关系，若没有，进入下一阶段，首先生成候选对集合P(s),然后对新加入的匹配p,对应可行性规则是否适应，原VF2算法中，候选匹配时，候选点需要同时考虑其前驱和后继，这样的情况下，当图的规模变大时，匹配的时间将会很慢，而在本发明的优化算法中，仅需要查询图Q中的一个点和数据图G中的所有点，将其两两匹配就可以遍历整个的图空间，加速了候选匹配的时间，将该过程的时间复杂度由O(m*n)降低为O(n)。在生成的候选对集合中的每一个匹配对，由可行性规则来判断新加入的匹配对是否适应，如果不适应，进入候选集下一状态，直至找到适应可行性规则的匹配对,然后将该匹配对加入映射集合，同时更新中间状态,循环过程结束后，存储其数据结构，并输出数据图G和查询图Q之间的映射关系，也就是查询图Q在数据图G中的同构子图。

Claims

1.一种同构子图查询优化方法，其特征在于，包括如下步骤：

1)输入查询图Q和数据图G，以及匹配映射函数M()，中间状态s,对查询图Q中标签的出现频率按从低到高的方式进行排序，在进行匹配的时候，优先匹配Q中出现频率低的标签；

2)运用递归的方式进行数据图G的搜索匹配，在匹配初始化阶段，采用稀疏矩阵来代替VF2中的二维矩阵来构建边矩阵；搜索匹配时，优先匹配标签出现频率最低的点，在匹配其余点时，如果前驱或者后继出现多个，同样优先选择标签频率低的；

3)查询图Q和数据图G进行匹配时，如果匹配映射函数M(s)包含了查询图Q中的所有点和边，则Q在数据图G中的同构子图找到，否则，需要在每次局部匹配基础上，进行后续点的匹配；

4)在后续点的匹配中，首先找出所有可能进行匹配点对集合P(s)，然后对于查询图Q中的一个点与数据图G中所有点组成的匹配对中的每一个匹配对p，检查加入匹配p是否适应保证两图同构的可行性规则，如果不适应，则需要进入匹配点对集合P(s)中的下一匹配，直至找到适应可行性规则的p,然后将p加入M(s)，同时状态更新为s’，循环过程结束后，则存储其数据结构，并输出查询图Q和数据图G之间的映射关系，也就是查询图Q在G中的同构子图。