CN109101570A

CN109101570A - 一种基于图摘要的图模式挖掘方法

Info

Publication number: CN109101570A
Application number: CN201810786032.7A
Authority: CN
Inventors: 何洁月; 王鹤
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2018-12-28

Abstract

本发明公开一种基于图摘要的图模式挖掘方法PDDGS算法，依次包括以下步骤：步骤1：给定输入图G和支持度S，使用RoG算法将输入图G进行摘要，得到摘要图Gs；步骤2：根据步骤1得到的摘要图G是，运用GraphZip算法进行图模式挖掘，产生候选集合；步骤3：对候选集合进行筛选，生成挖掘结果。通过引入图摘要阶段，将原始图进行拆解、划分，大大提高了图模式挖掘的效率。因此本发明具有较高的使用价值。

Description

一种基于图摘要的图模式挖掘方法

技术领域

本发明涉及一种图摘要方法和图模式挖掘方法，属于图摘要算法与图模式挖掘算法技术领域。

背景技术

近年来，图结构的数据在网络、社会网络、社交网络和生物网络等领域中被大量的收集和分析。在所有的上述的问题中，都有一个共同的问题——对具有数百万甚至数亿节点和边的图进行分析。一方面，用通常的方法来处理如此庞大且复杂的数据，来获取其中的信息是十分困难的，而且这些数据还在以指数级继续增长。另一方面，设计可以拓展到大型图的图挖掘算法本来就是一件极具挑战性的工作。

图摘要算法是一个可以解决上述问题的算法。图摘要算法的目的是根据原始图去构造一个简单的替代，这个替代也是图，但是规模远小于原始图。直观的来看，图摘要问题是把图进行高层次的抽象。在摘要图中，每一个节点代表一个输入图的节点集合，每条边代表两个节点集合之间所有的连接。

关联规则中的模式挖掘是数据挖掘的一个重要的分支，而其中频繁子图挖掘算法通常产生大量的甚至指数级数量的频繁子图，严重的影响了挖掘结果的可用性。使用图摘要的方法可以有效的解决上述的问题。图摘要的方法对图进行摘要，然后对摘要后的摘要图进行图模式挖掘，可以有效的避免产生过多的输出图，而且由于图摘要的特性，它的时间和空间复杂度相对其他图模式挖掘算法要小很多。因此，将图摘要算法应用到图模式挖掘算法中具有较高的应用价值。

发明内容

本发明的目的在于解决现有图模式挖掘算法对于大型图处理的时间复杂度较高的问题。

为了解决上述技术问题，本发明的技术方案如下：本发明所述的基于图摘要的图模式挖掘算法，对于输入图G，依次包括以下顺序执行的步骤：

步骤1、对于节点集合V＝{v₁，v₂，…，v_n}，依次计算每个节点的密度ρ，将节点和节点密度保存在集合F中。密度ρ的计算方法如下：

ρ＝ρ₁+αρ₂

其中ρ₁、ρ₂、α分别为一步长密度、二步长密度和系数；

步骤2、对集合F按照密度ρ由大到小进行排序；

步骤3、每次从F中的取一个节点v，寻找它的所有2步长节点u，依次根据重构误差公式C计算v和2步长节点的重构误差C；重构误差C公式如下：

其中c_u、c_v分别是两个节点的相临节点，c_w是两个节点集u、v相邻的公共节点数。

步骤4、选择重构误差C≥θ且最大的节点，与选定的节点v进行合并，更新F，转至步骤3；

步骤5、如果所有2步长节点的重构误差均不满足C≥θ，则将节点移出F集合，若移出后集合F为空，则结束摘要阶段，保存摘要阶段结果；

步骤6、将摘要阶段生成的每一个子图，作为一个批次输入。初始化一个具有单边的字典P，P中存储输入的子图的每一条边；

步骤7、对于下一个输入的图，如果边e出现过，则对其进行扩增1条边，这条边需要时之前出现过的边；

步骤8、对于于每一个模式，计算每一个模式的H值，进行排序，取前S个模式。H计算方法如下：

H(p_i)＝(|E_pi|-1)×(F_pi-1)

其中E_pi指这个模式中边的条数，F_pi指这个模式出现的次数。

相对于现有技术，本发明具有如下优点：图摘要作为一种处理大型图类型数据而出现的算法，在处理图数据方面具有加速数据处理的优势。将图摘要算法和图模式挖掘算法结合，在提高数据处理效率的基础上，最大限度的保证处理结果的有效性。将图摘要算法和图模式挖掘算法结合，在保证结果近似相同的情况下，对于提高数据处理的效率方面有显著的提高。

附图说明

图1为本发明方法PDDGS算法的流程图；

图2为输入图G；

图3为摘要图；

图4为模式挖掘阶段示意图；

图5为在人工数据集下的实验结果；

图6为在真实数据集下的实验结果。

具体实施方式

下面对本发明技术方案进行进一步说明。

下文中所涉及符号和参数的定义如表1：

表1 符号说明

参见图1-图6，一种基于图摘要的图模式挖掘算法，具体步骤如下：步骤1、对于节点集合V＝{v₁，v₂，…，v_n}，依次计算每个节点的密度ρ，将节点和节点密度保存在集合F中，密度ρ的计算方法如下：

ρ＝ρ₁+αρ₂；

其中ρ₁、ρ₂、α(0＜α＜1)分别为一步长密度、二步长密度和系数。

如图2所示，例如对于节点a，在α取0.5的情况下，其1步长节点数为5个，分别为b、c、h、g、e，2步长节点数为2，分别为d、f，因此其密度ρ_a＝7。

步骤2、对集合F按照密度ρ由大到小进行排序；

如图2，以h、g两个节点为例，h节点的相邻节点有4个，分别为a、d、e、f，因此，c_f为4；g节点相邻节点有3个，分别为a、e、f，因此c_g为3；h和g的公共相邻的节点有3个，分别为a、e、f，因此c_w为3；h和g的重构误差为

如果这里取θ≥0.5，那么h、g节点满足条件，可以进行合并，合并以后，h、g节点生成一个新的节点。由于合并节点而丢失的边或新增的边存储在修正集中。图2中的图，进行摘要后，可以用摘要图3表示。其中C为记录的修正集。

步骤8、对于每一个模式，计算每一个模式的H值，进行排序，取前S个模式，S根据实际需求而定。H计算方法如下：

H(p_i)＝(|E_pi|-1)×(F_pi-1)

使用图4来说明步骤6、7、8的具体过程。S⁽¹⁾为第一个输入进来的子图，将图进行拆解，拆解后为一些独立边的集合，生成字典P。之后输入第二个输入子图S⁽²⁾，将字典P中的结构对S⁽²⁾进行子图同构匹配，存在匹配的结构，进行一条边的扩增。例如S⁽²⁾中存在A-B这个结构，然后对其进行扩增一条边A-C。在计算同构时，使用了VF2算法，这里不进行详述。

同时，字典P是有大小的，只对P保存前若干个有效结果。筛选标准是H值，这个打分可以把出现1次的模式和边数位1的结构筛选掉。在得分相同时，优先考虑Epi-1的值，即优先考虑结构大的模式。

我们在人工数据集和真实数据集中进行了测试，测试结果展示如下。对照算法为HSIGRAM算法。

需要说明的上述实施例仅仅是本发明的较佳实施例，并没有用来限定本发明的保护范围，在上述技术方案的技术上做出的等同替换或者替代，均属于本发明的保护范围。

Claims

1.一种基于图摘要的图模式挖掘算法，其特征在于，对于输入图G，依次包括以下顺序执行的步骤：

步骤1、对于节点集合V＝{v₁，v₂，…，v_n}，依次计算每个节点的密度ρ，将节点和节点密度保存在集合F中,

步骤2、对集合F按照密度ρ由大到小进行排序；

步骤3、每次从F中的取一个节点v，寻找它的所有2步长节点u，依次根据重构误差公式C计算v和2步长节点的重构误差C；

步骤6、将摘要阶段生成的每一个子图，作为一个批次输入，初始化一个具有单边的字典P，P中存储输入的子图的每一条边；

步骤8、对于每一个模式，计算每一个模式的H值，进行排序，取前S个模式，S根据实际需求而定,H计算方法如下：

H(p_i)＝(|E_pi|-1)×(F_pi-1)；

2.根据权利要求1所述的基于图摘要的图模式挖掘算法，其特征在于，所述步骤1)中，密度ρ的计算方法如下：

ρ＝ρ₁+αρ₂；

其中ρ₁、ρ₂、α(0≤α≤1)分别为一步长密度、二步长密度和系数。

3.根据权利要求2所述的基于图摘要的图模式挖掘算法，其特征在于，所述步骤3)中重构误差C公式如下：