CN109101570A - 一种基于图摘要的图模式挖掘方法 - Google Patents

一种基于图摘要的图模式挖掘方法 Download PDF

Info

Publication number
CN109101570A
CN109101570A CN201810786032.7A CN201810786032A CN109101570A CN 109101570 A CN109101570 A CN 109101570A CN 201810786032 A CN201810786032 A CN 201810786032A CN 109101570 A CN109101570 A CN 109101570A
Authority
CN
China
Prior art keywords
node
abstract
chart
density
mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810786032.7A
Other languages
English (en)
Inventor
何洁月
王鹤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810786032.7A priority Critical patent/CN109101570A/zh
Publication of CN109101570A publication Critical patent/CN109101570A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于图摘要的图模式挖掘方法PDDGS算法,依次包括以下步骤:步骤1:给定输入图G和支持度S,使用RoG算法将输入图G进行摘要,得到摘要图Gs;步骤2:根据步骤1得到的摘要图G是,运用GraphZip算法进行图模式挖掘,产生候选集合;步骤3:对候选集合进行筛选,生成挖掘结果。通过引入图摘要阶段,将原始图进行拆解、划分,大大提高了图模式挖掘的效率。因此本发明具有较高的使用价值。

Description

一种基于图摘要的图模式挖掘方法
技术领域
本发明涉及一种图摘要方法和图模式挖掘方法,属于图摘要算法与图模式挖掘算法技术领域。
背景技术
近年来,图结构的数据在网络、社会网络、社交网络和生物网络等领域中被大量的收集和分析。在所有的上述的问题中,都有一个共同的问题——对具有数百万甚至数亿节点和边的图进行分析。一方面,用通常的方法来处理如此庞大且复杂的数据,来获取其中的信息是十分困难的,而且这些数据还在以指数级继续增长。另一方面,设计可以拓展到大型图的图挖掘算法本来就是一件极具挑战性的工作。
图摘要算法是一个可以解决上述问题的算法。图摘要算法的目的是根据原始图去构造一个简单的替代,这个替代也是图,但是规模远小于原始图。直观的来看,图摘要问题是把图进行高层次的抽象。在摘要图中,每一个节点代表一个输入图的节点集合,每条边代表两个节点集合之间所有的连接。
关联规则中的模式挖掘是数据挖掘的一个重要的分支,而其中频繁子图挖掘算法通常产生大量的甚至指数级数量的频繁子图,严重的影响了挖掘结果的可用性。使用图摘要的方法可以有效的解决上述的问题。图摘要的方法对图进行摘要,然后对摘要后的摘要图进行图模式挖掘,可以有效的避免产生过多的输出图,而且由于图摘要的特性,它的时间和空间复杂度相对其他图模式挖掘算法要小很多。因此,将图摘要算法应用到图模式挖掘算法中具有较高的应用价值。
发明内容
本发明的目的在于解决现有图模式挖掘算法对于大型图处理的时间复杂度较高的问题。
为了解决上述技术问题,本发明的技术方案如下:本发明所述的基于图摘要的图模式挖掘算法,对于输入图G,依次包括以下顺序执行的步骤:
步骤1、对于节点集合V={v1,v2,…,vn},依次计算每个节点的密度ρ,将节点和节点密度保存在集合F中。密度ρ的计算方法如下:
ρ=ρ1+αρ2
其中ρ1、ρ2、α分别为一步长密度、二步长密度和系数;
步骤2、对集合F按照密度ρ由大到小进行排序;
步骤3、每次从F中的取一个节点v,寻找它的所有2步长节点u,依次根据重构误差公式C计算v和2步长节点的重构误差C;重构误差C公式如下:
其中cu、cv分别是两个节点的相临节点,cw是两个节点集u、v相邻的公共节点数。
步骤4、选择重构误差C≥θ且最大的节点,与选定的节点v进行合并,更新F,转至步骤3;
步骤5、如果所有2步长节点的重构误差均不满足C≥θ,则将节点移出F集合,若移出后集合F为空,则结束摘要阶段,保存摘要阶段结果;
步骤6、将摘要阶段生成的每一个子图,作为一个批次输入。初始化一个具有单边的字典P,P中存储输入的子图的每一条边;
步骤7、对于下一个输入的图,如果边e出现过,则对其进行扩增1条边,这条边需要时之前出现过的边;
步骤8、对于于每一个模式,计算每一个模式的H值,进行排序,取前S个模式。H计算方法如下:
H(pi)=(|Epi|-1)×(Fpi-1)
其中Epi指这个模式中边的条数,Fpi指这个模式出现的次数。
相对于现有技术,本发明具有如下优点:图摘要作为一种处理大型图类型数据而出现的算法,在处理图数据方面具有加速数据处理的优势。将图摘要算法和图模式挖掘算法结合,在提高数据处理效率的基础上,最大限度的保证处理结果的有效性。将图摘要算法和图模式挖掘算法结合,在保证结果近似相同的情况下,对于提高数据处理的效率方面有显著的提高。
附图说明
图1为本发明方法PDDGS算法的流程图;
图2为输入图G;
图3为摘要图;
图4为模式挖掘阶段示意图;
图5为在人工数据集下的实验结果;
图6为在真实数据集下的实验结果。
具体实施方式
下面对本发明技术方案进行进一步说明。
下文中所涉及符号和参数的定义如表1:
表1 符号说明
参见图1-图6,一种基于图摘要的图模式挖掘算法,具体步骤如下:步骤1、对于节点集合V={v1,v2,…,vn},依次计算每个节点的密度ρ,将节点和节点密度保存在集合F中,密度ρ的计算方法如下:
ρ=ρ1+αρ2
其中ρ1、ρ2、α(0<α<1)分别为一步长密度、二步长密度和系数。
如图2所示,例如对于节点a,在α取0.5的情况下,其1步长节点数为5个,分别为b、c、h、g、e,2步长节点数为2,分别为d、f,因此其密度ρa=7。
步骤2、对集合F按照密度ρ由大到小进行排序;
步骤3、每次从F中的取一个节点v,寻找它的所有2步长节点u,依次根据重构误差公式C计算v和2步长节点的重构误差C;重构误差C公式如下:
其中cu、cv分别是两个节点的相临节点,cw是两个节点集u、v相邻的公共节点数。
如图2,以h、g两个节点为例,h节点的相邻节点有4个,分别为a、d、e、f,因此,cf为4;g节点相邻节点有3个,分别为a、e、f,因此cg为3;h和g的公共相邻的节点有3个,分别为a、e、f,因此cw为3;h和g的重构误差为
步骤4、选择重构误差C≥θ且最大的节点,与选定的节点v进行合并,更新F,转至步骤3;
如果这里取θ≥0.5,那么h、g节点满足条件,可以进行合并,合并以后,h、g节点生成一个新的节点。由于合并节点而丢失的边或新增的边存储在修正集中。图2中的图,进行摘要后,可以用摘要图3表示。其中C为记录的修正集。
步骤5、如果所有2步长节点的重构误差均不满足C≥θ,则将节点移出F集合,若移出后集合F为空,则结束摘要阶段,保存摘要阶段结果;
步骤6、将摘要阶段生成的每一个子图,作为一个批次输入。初始化一个具有单边的字典P,P中存储输入的子图的每一条边;
步骤7、对于下一个输入的图,如果边e出现过,则对其进行扩增1条边,这条边需要时之前出现过的边;
步骤8、对于每一个模式,计算每一个模式的H值,进行排序,取前S个模式,S根据实际需求而定。H计算方法如下:
H(pi)=(|Epi|-1)×(Fpi-1)
其中Epi指这个模式中边的条数,Fpi指这个模式出现的次数。
使用图4来说明步骤6、7、8的具体过程。S(1)为第一个输入进来的子图,将图进行拆解,拆解后为一些独立边的集合,生成字典P。之后输入第二个输入子图S(2),将字典P中的结构对S(2)进行子图同构匹配,存在匹配的结构,进行一条边的扩增。例如S(2)中存在A-B这个结构,然后对其进行扩增一条边A-C。在计算同构时,使用了VF2算法,这里不进行详述。
同时,字典P是有大小的,只对P保存前若干个有效结果。筛选标准是H值,这个打分可以把出现1次的模式和边数位1的结构筛选掉。在得分相同时,优先考虑Epi-1的值,即优先考虑结构大的模式。
我们在人工数据集和真实数据集中进行了测试,测试结果展示如下。对照算法为HSIGRAM算法。
需要说明的上述实施例仅仅是本发明的较佳实施例,并没有用来限定本发明的保护范围,在上述技术方案的技术上做出的等同替换或者替代,均属于本发明的保护范围。

Claims (3)

1.一种基于图摘要的图模式挖掘算法,其特征在于,对于输入图G,依次包括以下顺序执行的步骤:
步骤1、对于节点集合V={v1,v2,…,vn},依次计算每个节点的密度ρ,将节点和节点密度保存在集合F中,
步骤2、对集合F按照密度ρ由大到小进行排序;
步骤3、每次从F中的取一个节点v,寻找它的所有2步长节点u,依次根据重构误差公式C计算v和2步长节点的重构误差C;
步骤4、选择重构误差C≥θ且最大的节点,与选定的节点v进行合并,更新F,转至步骤3;
步骤5、如果所有2步长节点的重构误差均不满足C≥θ,则将节点移出F集合,若移出后集合F为空,则结束摘要阶段,保存摘要阶段结果;
步骤6、将摘要阶段生成的每一个子图,作为一个批次输入,初始化一个具有单边的字典P,P中存储输入的子图的每一条边;
步骤7、对于下一个输入的图,如果边e出现过,则对其进行扩增1条边,这条边需要时之前出现过的边;
步骤8、对于每一个模式,计算每一个模式的H值,进行排序,取前S个模式,S根据实际需求而定,H计算方法如下:
H(pi)=(|Epi|-1)×(Fpi-1);
其中Epi指这个模式中边的条数,Fpi指这个模式出现的次数。
2.根据权利要求1所述的基于图摘要的图模式挖掘算法,其特征在于,所述步骤1)中,密度ρ的计算方法如下:
ρ=ρ1+αρ2
其中ρ1、ρ2、α(0≤α≤1)分别为一步长密度、二步长密度和系数。
3.根据权利要求2所述的基于图摘要的图模式挖掘算法,其特征在于,所述步骤3)中重构误差C公式如下:
其中cu、cv分别是两个节点的相临节点,cw是两个节点集u、v相邻的公共节点数。
CN201810786032.7A 2018-07-17 2018-07-17 一种基于图摘要的图模式挖掘方法 Pending CN109101570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810786032.7A CN109101570A (zh) 2018-07-17 2018-07-17 一种基于图摘要的图模式挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810786032.7A CN109101570A (zh) 2018-07-17 2018-07-17 一种基于图摘要的图模式挖掘方法

Publications (1)

Publication Number Publication Date
CN109101570A true CN109101570A (zh) 2018-12-28

Family

ID=64846657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810786032.7A Pending CN109101570A (zh) 2018-07-17 2018-07-17 一种基于图摘要的图模式挖掘方法

Country Status (1)

Country Link
CN (1) CN109101570A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287118B (zh) * 2020-10-30 2023-06-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 事件模式频繁子图挖掘与预测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096719A (zh) * 2011-02-18 2011-06-15 中国科学院计算技术研究所 一种基于图的存储模式挖掘方法
US7974978B2 (en) * 2004-04-30 2011-07-05 International Business Machines Corporation System and method for graph indexing
US20130024183A1 (en) * 2007-10-29 2013-01-24 Cornell University System and method for automatically summarizing fine-grained opinions in digital text
US20130097138A1 (en) * 2011-10-17 2013-04-18 Omer BARKOL Discovering representative composite ci patterns in an it system
US20140258211A1 (en) * 2010-03-07 2014-09-11 Dr. Hamid Hatami-Hanza Interactive and Social Knowledge Discovery Sessions
CN104809242A (zh) * 2015-05-15 2015-07-29 成都睿峰科技有限公司 一种基于分布式结构的大数据聚类方法和装置
CN106295248A (zh) * 2016-08-08 2017-01-04 温州大学 基于复杂生物网络集的频繁模式挖掘酵母菌基因共表达团的预测方法
CN107577742A (zh) * 2017-08-28 2018-01-12 上海电机学院 一种基于贝叶斯方法的多关系社交网络模式挖掘方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7974978B2 (en) * 2004-04-30 2011-07-05 International Business Machines Corporation System and method for graph indexing
US20130024183A1 (en) * 2007-10-29 2013-01-24 Cornell University System and method for automatically summarizing fine-grained opinions in digital text
US20140258211A1 (en) * 2010-03-07 2014-09-11 Dr. Hamid Hatami-Hanza Interactive and Social Knowledge Discovery Sessions
CN102096719A (zh) * 2011-02-18 2011-06-15 中国科学院计算技术研究所 一种基于图的存储模式挖掘方法
US20130097138A1 (en) * 2011-10-17 2013-04-18 Omer BARKOL Discovering representative composite ci patterns in an it system
CN104809242A (zh) * 2015-05-15 2015-07-29 成都睿峰科技有限公司 一种基于分布式结构的大数据聚类方法和装置
CN106295248A (zh) * 2016-08-08 2017-01-04 温州大学 基于复杂生物网络集的频繁模式挖掘酵母菌基因共表达团的预测方法
CN107577742A (zh) * 2017-08-28 2018-01-12 上海电机学院 一种基于贝叶斯方法的多关系社交网络模式挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHARLES PACKER ET.AL: ""GraphZip: Mining Graph Streams using Dictionary-based Compression"", 《HTTP://WWW.MLGWORKSHOP.ORG/2017/PAPERMLG2017_PAPER_18.PDF》 *
KIFAYAT ULLAH KHAN ET.AL: ""Lossless Graph Summarization using Dense Subgraphs Discovery"", 《PROCEEDINGS OF THE 9TH INTERNATIONAL CONFERENCE ON UBIQUITOUS INFORMATION MANAGEMENT AND COMMUNICATION》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287118B (zh) * 2020-10-30 2023-06-02 西南电子技术研究所(中国电子科技集团公司第十研究所) 事件模式频繁子图挖掘与预测方法

Similar Documents

Publication Publication Date Title
Zheng et al. Migo-nas: Towards fast and generalizable neural architecture search
Abello et al. Massive quasi-clique detection
Friedman et al. Learning Bayesian network structure from massive datasets: The" sparse candidate" algorithm
Jo et al. Edge representation learning with hypergraphs
CN106991051B (zh) 一种基于变异测试和关联规则的测试用例约简方法
US7945668B1 (en) System and method for content-aware co-clustering algorithm based on hourglass model
CN106096066A (zh) 基于随机近邻嵌入的文本聚类方法
CN104408034A (zh) 一种面向文本大数据的中文分词方法
CN111460165A (zh) 用于知识图谱链接预测的方法、装置和计算机可读存储介质
Riedy et al. Multithreaded community monitoring for massive streaming graph data
CN113297427A (zh) 一种基于u型嵌套网络的图分类方法
CN109919172A (zh) 一种多源异构数据的聚类方法及装置
Huai et al. Zerobn: Learning compact neural networks for latency-critical edge systems
Kanezashi et al. Adaptive pattern matching with reinforcement learning for dynamic graphs
Lin et al. Aacp: Model compression by accurate and automatic channel pruning
CN108470251B (zh) 基于平均互信息的社区划分质量评价方法及系统
CN109101570A (zh) 一种基于图摘要的图模式挖掘方法
Zhang et al. Graph pruning for model compression
Yu et al. Retrieval-enhanced generative model for large-scale knowledge graph completion
CN113505278A (zh) 图匹配方法、装置、电子设备及存储介质
WO2018082320A1 (zh) 数据流连接方法及装置
CN105162648B (zh) 基于骨干网络扩展的社团检测方法
Choi et al. Scalable Wasserstein Gradient Flow for Generative Modeling through Unbalanced Optimal Transport
CN110309139B (zh) 高维近邻对搜索方法和系统
CN112579831A (zh) 基于SimRank全局矩阵平滑收敛的网络社区发现方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181228