CN110502669B - 基于n边dfs子图轻量级无监督图表示学习的社交媒体数据分类方法及装置 - Google Patents
基于n边dfs子图轻量级无监督图表示学习的社交媒体数据分类方法及装置 Download PDFInfo
- Publication number
- CN110502669B CN110502669B CN201910631146.9A CN201910631146A CN110502669B CN 110502669 B CN110502669 B CN 110502669B CN 201910631146 A CN201910631146 A CN 201910631146A CN 110502669 B CN110502669 B CN 110502669B
- Authority
- CN
- China
- Prior art keywords
- graph
- subgraph
- edge
- sub
- dfs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于图形处理技术领域,公开一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法及装置,该方法包括:步骤1:在图集各图中分别遍历N边DFS子图结构,对各图的N边DFS子图进行抽取;步骤2:对抽取的N边DFS子图进行汇集,构成各图的子图集;步骤3:将所述子图集输入到神经网络模型中进行训练,得到各图的向量表示;该装置包括:子图抽取模块;子图汇集模块;图向量表示模块。本发明可适用于规模较大的图数据集,可以较全面地抽取子图结构。
Description
技术领域
本发明属于图形处理技术领域,尤其涉及一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法及装置。
背景技术
在现实生活中,图是一种普遍存在的数据结构,它可以模拟几乎所有事物之间的联系,例如通信网络中用户之间的通联关系、网络拓扑图中计算机与计算机之间的联系、社交网络中用户与用户之间的关系等。通常系统中的每个实体都映射到了图中的一个节点,而实体之间的联系则被映射为图中的一条边,图结构可以很方便地反映现实生活中事物之间的联系。其中图与图之间的相似性计算是一个热门的研究领域,比较图与图之间的相似性在现实生活中有较为广泛的应用,可用于恶意代码检测、蛋白质相互作用网络属性分类、用户评论情感分类等。然而,随着图数据集规模的不断扩大,传统的图相似性计算基于节点和边的统计、图的同构测试,上述方法不能很好的捕捉图中的内在结构变化,已不能满足需求。而通过在图数据集上引入图表示学习模型,可以方便地对图数据集进行分类,同时通过将图转化为向量表示可以方便地进行图的相似性计算。
为了反映图的结构变化、对图集按照结构相似性进行分类,学者们已经提出了许多图表示学习方法,较为典型的有Edge-Conditioned Convolution(ECC)、Pathchy-san(PSCN)、Graph2Vec、GE-FSG等算法,在上述算法中ECC、PSCN算法属于有监督的图表示学习算法,在数据集的分类上效果良好,而有监督的图表示学习算法其特性决定了其不能直接用于其他类似聚类、社团检测等任务中。Graph2Vec、GE-FSG算法属于无监督的图表示学习算法,用来学习整个图的向量表示,可以方便对图之间的相似性进行度量,其适用性较有监督的图表示学习算法有较大的提升,可用于图分类、聚类、链接预测及社团检测等方面的任务。
在无监督的图表示学习邻域,Graph2Vec算法基于根子图抽取,而根子图抽取过程中忽略了根子图内部的子结构相似性,即不管两个根子图有多相似,只要其不完全相同则视为两个不同的结构,同时Graph2Vec算法是在节点邻域内而不是在整个图的范围内抽取结构特征,因此其存在着图结构学习不全面的问题,进而直接影响其图分类任务的准确度。GE-FSG算法基于频繁子图挖掘,然而频繁子图挖掘时间复杂度较高,不适用于规模较大的图数据集。
图在进行表示学习后可以将图结构转化为向量形式,进而可以快速方便地度量图之间的相似性,现有的图表示学习方法主要是基于根子图和频繁子图抽取,之后调用神经网络模型获得图的向量表示。这些方法存在下列问题:一是部分算法在子图抽取时较为复杂,通用性不高;二是在图表示学习时因未能较全面地抽取子图导致最终生成的向量无法较好地表示原始图形,进而导致图分类效果不够理想。
发明内容
本发明针对现有图表示学习方法不能全面地抽取图的结构信息、且不适用于规模较大的图数据集的问题,提出一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法及装置。
为了实现上述目的,本发明采用以下技术方案:
一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法,包括:
步骤1:在图集各图中分别遍历N边DFS子图结构,对各图的N边DFS子图进行抽取;
步骤2:对抽取的N边DFS子图进行汇集,构成各图的子图集;
步骤3:将所述子图集输入到神经网络模型中进行训练,得到各图的向量表示。
进一步地,所述步骤1包括:
步骤1.1:采用深度优先子图搜索算法,利用最小DFSCode对子图进行唯一标识,将子图转化为文本形式表示;
步骤1.2:对于图集中的每一个图依次执行N边DFS子图抽取,首先生成初始1边子图集,之后在生成初始1边子图集上依次进行N边DFS子图挖掘:
生成初始边集,由每一条初始边开始逐步扩展,扩展时首先判断当前子图是否DFSCode最小,若是则进行该子图的扩展,直到扩展的子图边数达到设定的阈值N,此时停止该子图的扩展,若否则不进行该子图的扩展;由k边子图生成k+1边子图的过程中遵循最右路径扩展原则,首先构造子图的最右路径,之后在最右路径的各节点上分别生成前向边和后向边,将所有新生成的边分别添加到k边子图上构成多个k+1边子图,其中,k+1≤N。
进一步地,所述步骤2包括:
步骤2.1:根据子图实例的数量确定该子图的最小DFSCode在相应子图集中出现的次数;不考虑子图重叠问题,同一子图的实例中只要有一个节点不同则视为不同的实例;
步骤2.2:按照子图的最小DFSCode在相应子图集中出现的次数对子图进行排序,构成相应子图集。
进一步地,所述步骤3包括:
将DFSCode格式的子图集视为一篇文档,子图集中的每一个子图视为一个单词,通过doc2vec模型训练得到对应图的向量表示。
一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类装置,包括:
子图抽取模块,用于在图集各图中分别遍历N边DFS子图结构,对各图的N边DFS子图进行抽取;
子图汇集模块,用于对抽取的N边DFS子图进行汇集,构成各图的子图集;
图向量表示模块,用于将所述子图集输入到神经网络模型中进行训练,得到各图的向量表示。
进一步地,所述子图抽取模块包括:
最小DFSCode标识子模块,用于采用深度优先子图搜索算法,利用最小DFSCode对子图进行唯一标识,将子图转化为文本形式表示;
子图抽取子模块,用于对于图集中的每一个图依次执行N边DFS子图抽取,首先生成初始1边子图集,之后在生成初始1边子图集上依次进行N边DFS子图挖掘:
生成初始边集,由每一条初始边开始逐步扩展,扩展时首先判断当前子图是否DFSCode最小,若是则进行该子图的扩展,直到扩展的子图边数达到设定的阈值N,此时停止该子图的扩展,若否则不进行该子图的扩展;由k边子图生成k+1边子图的过程中遵循最右路径扩展原则,首先构造子图的最右路径,之后在最右路径的各节点上分别生成前向边和后向边,将所有新生成的边分别添加到k边子图上构成多个k+1边子图,其中,k+1≤N。
进一步地,所述子图汇集模块包括:
子图频度统计子模块,用于根据子图实例的数量确定该子图的最小DFSCode在相应子图集中出现的次数;不考虑子图重叠问题,同一子图的实例中只要有一个节点不同则视为不同的实例;
子图排序子模块,用于按照子图的最小DFSCode在相应子图集中出现的次数对子图进行排序,构成相应子图集。
进一步地,所述图向量表示模块具体用于:
将DFSCode格式的子图集视为一篇文档,子图集中的每一个子图视为一个单词,通过doc2vec模型训练得到对应图的向量表示。
与现有技术相比,本发明具有的有益效果:
本发明通过在图中遍历N边DFS子图结构,使用DFSCode对子图进行唯一标识,通过限定遍历子图的最大边数N来降低子图抽取的时间复杂度,同时由于在整个图范围内抽取N边DFS子图克服了基于节点根子图抽取的片面性,在生成每个图的子图集后将其输入到神经网络模型中得到图的向量表示,可以较全面地抽取子图结构。本发明具有下列特点:
1.本发明没有采用高时间复杂度的频繁子图挖掘算法,而是采用了较低时间复杂度的指定大小的N边DFS子图遍历,进而可以在较快的时间内生成子图集,可适用于规模较大的图数据集。
2.本发明是完全的无监督的网络表示学习方法,其模型训练过程不依赖类的标签。这也符合现实情况,在现实中需要分类的对象其类别标签往往难以获取,相较于有监督的网络表示学习算法无监督的网络表示学习算法可以更好地适应现实情况。
3.不同于基于节点、路径、子图的网络表示学习算法,本发明可以直接学习到整个图的向量表示,从而可以直接应用于分类、聚类等任务中。
4.在多个数据集上就分类任务进行实验对比,本发明在大多数数据集上分类准确率有2%-90%的提升。
附图说明
图1为本发明实施例一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法的基本流程图;
图2为本发明实施例一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法的子图扩展策略示意图;
图3为本发明实施例一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法的子图频度计算示意图;
图4为本发明实施例一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法图表示学习模型结构示意图;
图5为本发明实施例一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法的子图最大边数与分类准确率关系图;
图6为本发明实施例一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法的向量表示维度与分类准确率关系图;
图7为本发明实施例一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法的子图生成时间对比图;
图8为本发明实施例一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类装置的结构示意图。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
1.相关定义
(1)标签图:标签图为带有节点标签和边标签的图,其表示为:G=(V,E,L),其中,V是图G中的顶点的集合,E是图G中边的集合,L是边和节点的标签映射函数。
(2)子图:已知标签图G=(V,E,L),现在有一个图S=(VS,ES,LS),对于任意当且仅当LS(v)=L(v)对于每个v∈VS,LS(u,v)=L(u,v)对于每个(u,v)∈ES都成立时,则称图S为图G的子图。
(3)图表示学习:给定一个图G=(V,E,L),图表示学习的目的是学习一个映射函数f将图映射到一个低维向量中:G→Y∈RD,其中D为预期的图表示的维度。算法最终得到图G的低维稠密的向量表示,这种表示形式在处理大规模图集时非常有效。
(4)DFSEdge(depth-first search edge):DFSEdge是图中边的表示形式,图中一条边称作一个DFSEdge,一个DFSEdge是一个五元组(frm,to,v1,elb,v2),其中frm和to是这条边两个端点在DFSCode里的序号,v1和v2是这条边两个端点的标签,elb是这条边的标签。
(5)DFSCode:DFSCode由一系列DFSEdge组合而成的,一个n边图的DFSCode为{DFSEdge1,DFSEdge2,...,DFSEdgen},一个图可以用多个不同的DFSCode(DFS编码)表示。
(6)DFS字典序(depth-first search lexicographic order):为了比较DFSEdge之间大小关系,定义五元组(frm,to,v1,elb,v2)优先级依次降低,DFSEdge之间通过依次比较各级别标识的字典序来确定大小关系。
(7)最小DFSCode:一个图可以用多个不同的DFSCode表示,基于DFS字典序,取最小的DFSCode来唯一的标识一个图,此时的编码称为最小DFSCode。
(8)子图频度:特定结构的子图在图中可能会出现多次,将子图在原始图中出现的总次数称为子图的频度。
(9)图的相似性:图的相似性是指两图之间的相似程度。判断两图是否相似属于图的相似性匹配问题,该问题已经被证明为NP完全问题,算法复杂度是图规模大小的指数函数。在对图进行表示学习后,图向量之间的距离即为图之间的相似性度量指标,距离越近代表相似性越高,距离越远代表相似性越低。
(10)N边DFS子图:已知图G=(V,E,L),图S=(VS,ES,LS),图S为图G基于深度优先遍历获得的一个子图,若图S的边数|ES|≤N,N∈R,则称图S为图G的N边DFS子图。
2.问题描述
给定一组图数据集GS={G1,G2,...,Gn}和预期的图表示的维度D,目标是学习每个图Gi∈GS的D维向量表示。在由G→RD的D维向量学习过程中,若G1和G2中有越多的子结构相同,则G1和G2向量之间的距离也越近,反之亦然。在发明中,假设图中所有的节点都有标签,对于没有标签的图可以使用节点的度来作为其标签。
实施例1:
如图1所示,一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法,为表述方便,简称为Substructure2vec,包括:
步骤S101:在图集各图中分别遍历N边DFS子图结构,对各图的N边DFS子图进行抽取;包括:
步骤S1011:采用深度优先子图搜索算法,利用最小DFSCode对子图进行唯一标识,将子图转化为文本形式表示;
步骤S1012:对于图集中的每一个图依次执行N边DFS子图抽取,首先生成初始1边子图集,之后在生成初始1边子图集上依次进行N边DFS子图挖掘:
生成初始边集,由每一条初始边开始逐步扩展,扩展时首先判断当前子图是否DFSCode最小,若是则进行该子图的扩展,直到扩展的子图边数达到设定的阈值N,此时停止该子图的扩展,若否则不进行该子图的扩展;由k边子图生成k+1边子图的过程中遵循最右路径扩展原则,首先构造子图的最右路径,之后在最右路径的各节点上分别生成前向边和后向边,将所有新生成的边分别添加到k边子图上构成多个k+1边子图,其中,k+1≤N。
步骤S101具体包括:
借鉴gSpan算法原理,采用深度优先子图搜索算法,利用最小DFSCode对图进行唯一标识,以防止同一子图的多次生成。该算法首先生成初始边集,由每一条初始边开始逐步扩展,直到扩展的子图边数达到设定的阈值N,此时停止该子图的扩展。由k边子图生成k+1边子图的过程中遵循最右路径扩展原则,即首先构造子图的最右路径,之后在最右路径的各节点上分别生成前向边和后向边,将所有新生成的边分别添加到k边子图上构成多个k+1边子图。具体子图扩展方式见图2,S0为当前子图,首先生成当前子图的最右路径,即S0中黑色的路径,之后在最右路径上进行扩展,其中S1、S2、S3为前向边扩展,S4为后向边扩展。
需要注意的是,在gSpan频繁子图挖掘算法中是在整个图集上同时进行子图遍历,之后再通过子图同构测试、支持度计算判断是否为频繁子图。而本发明的任务是遍历图集中所有图的N边DFS子图结构,不需要在整个图集范围内进行子图同构测试、支持度计算,因此只需要在各个图中依次进行N边DFS子图遍历即可。将gSpan算法进行修改以适应N边DFS子图遍历,在遍历子图后使用最小DFSCode来唯一标识子图,将子图转化为文本形式表示。关于最小DFSCode示例如下,图2中待扩展子图S0,其DFSCode有多种表达方式,如表1所示,表1中列举了子图S0的3种DFS编码,此时根据DFS字典序α<β<γ,实际上α即为子图S0的最小DFS编码,对于子图S0可以将其转化为文本表示{(0,1,A,1,B),(0,2,A,1,B),
(2,3,B,1,C)}。
表1子图S0的部分DFSCode表示
α | β | γ |
(0,1,A,1,B) | (0,1,A,1,B) | (0,1,B,1,A) |
(0,2,A,1,B) | (1,2,B,1,C) | (1,2,A,1,B) |
(2,3,B,1,C) | (0,3,A,1,B) | (2,3,B,1,C) |
将N边DFS子图抽取算法命名为StructureExtract,具体流程见算法1,对于图集中的每一个图依次执行N边DFS子图抽取,该算法首先生成初始1边子图集(算法1第2-4行),之后在生成初始子图集上依次进行N边DFS子图挖掘(算法1第5-8行)。算法1第7行SubgraphMining函数是子图挖掘函数,其具体流程见算法2,该算法主要进行子图遍历,在达到指定最大边数N后停止遍历,在扩展子图时首先判断当前子图是否DFSCode最小(算法2第2-4行),用来防止同一子图多次生成,之后扩展子图并迭代进行子图挖掘(算法2第5-11行)。
算法1:StructureExtract
算法2:SubgraphMining
下面就StructureExtract算法的时间复杂度进行分析,N边DFS子图抽取算法改编自频繁子图挖掘算法gSpan,gSpan算法子图扩展时间复杂度为O(2m),其中m为图中边数,如果限定子图扩展的最大边数为N,则StructureExtract算法时间复杂为O(mN),其时间复杂度远远低于频繁子图挖掘的时间复杂度,因此其可适用于规模较大的图数据集。
步骤S102:对抽取的N边DFS子图进行汇集,构成各图的子图集;包括:
步骤S1021:根据子图实例的数量确定该子图的最小DFSCode在相应子图集中出现的次数;不考虑子图重叠问题,同一子图的实例中只要有一个节点不同则视为不同的实例;
步骤S1022:按照子图的最小DFSCode在相应子图集中出现的次数对子图进行排序,构成相应子图集。
步骤S102具体包括:
在抽取N边DFS子图后,为了生成整个图的N边DFS子图集,还需要汇集一个图的N边DFS子图。在汇集子图时需要考虑子图的频度和子图之间的顺序关系。
在图中进行子图遍历时,不可避免的会出现同一子图的多个实例,在汇集N边DFS子图集时需要根据子图实例的数量来确定该子图的DFSCode在相应汇集子图集中出现的次数。为简便起见,此处不考虑子图重叠问题,同一子图的实例中只要有一个节点不同则视为不同的实例。如图3所示,图3的S中子图A-B-C共有两个实例。对于同一子图的多个实例,认为子图实例的数量与整个图的结构相关,图3中假设最大边数N=2,图3的S和T中2边子图相同,共有A-B-C、B-A-B子图两种,然而图3的S和T的结构并不相同,图3的S中2边子图A-B-C共出现了两次,图3的T中2边子图A-B-C共出现了1次,为了在生成的N边DFS子图集上对二者进行区分,在汇集图3的S的2边DFS子图集时子图A-B-C需要出现两次。
本发明采用doc2vec模型来学习图的向量表示,而doc2vec神经网络模型在进行训练时依赖于单词之间的顺序关系,因此在汇集N边DFS子图构成子图集的过程中需要谨慎处理子图之间的顺序关系。在doc2vec模型中基于通过目标单词和其上下文单词彼此预测最终求得向量表示,因此目标单词与其上下文的向量表示会比较接近。同时具体到子图集上认为拥有相似结构的子图也应该拥有比较接近的向量表示,因此按照子图的DFSCode对子图集进行排序,这样拥有相似结构的子图在语料库中也会比较接近,与某一子图相似的子图集也会出现该子图的上下文中,在最终的向量表示中相似结构子图在向量空间中的距离也相应的会比较接近。
步骤S103:将所述子图集输入到神经网络模型中进行训练,得到各图的向量表示;包括:
将DFSCode格式的子图集视为一篇文档,子图集中的每一个子图视为一个单词,通过doc2vec模型训练得到对应图的向量表示。
步骤S103具体包括:
doc2vec模型在自然语言处理领域取得了广泛应用,被用于计算文档的向量表示,其原理为将文档ID引入语料库中,在训练过程中结合上下文、单词顺序和段落特征,最终得到单词和文档的向量表示。在Substructure2vec算法中DFSCode格式的子图集被视为一篇文档,子图集中的每一个子图被视为一个单词,最终通过doc2vec模型训练得到整个图的向量表示。
采用图4中的PV-DBOW模型(Distributed Bag of Words version of ParagraphVector)来学习图的表示,PV-DBOW模型是doc2vec的一种模型,是Skip-gram模型(continuous skip-gram model)的扩展,其训练方法是忽略输入的上下文,直接让模型去预测文档中的随机单词。具体而言,图被视为一个文档,而子图则被视为一个个单词,通过给定一组图集GS={G1,G2,...,Gn},对于图集GS中的一个图Gi,其子图集为c(Gi)={sg1,sg2,...,sgn},最终的目标是最大化下式:
其中sgj∈c(Gi),为图Gi中的一个子图;
其中sgj为子图的向量表示,v为所有子结构的数量。经过网络表示学习后,具有相似子结构的图将具有相似的向量表示。为了优化计算,可以采用负采样技术,通过负采样技术构造一个新的目标函数,同时最大化正样本的似然,最小化负样本的似然,进一步提升了计算的效率。
在完成图的表示学习后,如果图Gj和Gj拥有相似的子图集,则它们的向量表示也会比较接近。
(一)实验设置
(1)实验数据
为了验证本发明的效果,分别在7个带标签数据集和6个无标签数据集上进行分类效果测试,数据集来自各个领域,包括生物信息学、化学及社交网络,其中带标签数据集节点、边统计信息见表2。
分别采用MUTAG、PTC、PROTEINS、NCI1、NCI109、ENZYMES及D&D数据集来进行实验验证,其中MUTAG是188化合物结构的数据集,根据其是否对特定细菌具有诱变效应来对数据进行标识。PTC数据集由344种化合物结构组成,根据其是否对鼠类具有致癌性进行标识。PROTEINS数据集由1113个蛋白质结构组成。NCI1、NCI109这两个数据集则是与癌细胞研究相关的化合物集合,分别有4110、4127个样本。ENZYMES包含了6种酶,每种100个蛋白质结构。D&D是蛋白质结构数据集,被标识为酶或非酶两种类型。
表2带标签数据集统计
数据集 | 样本数 | 平均节点数 | 平均边数 | 图标签 | 节点标签 |
MUTAG | 188 | 17.9 | 19.8 | 2 | 7 |
PTC | 344 | 25.6 | 26 | 2 | 19 |
PROTEINS | 1113 | 39.1 | 72.8 | 2 | 3 |
ENZYMES | 600 | 32.6 | 62.1 | 6 | 3 |
NCI1 | 4110 | 29.9 | 32.3 | 2 | 37 |
NCI109 | 4127 | 29.7 | 32.1 | 2 | 38 |
D&D | 1178 | 284.3 | 715.7 | 2 | 82 |
无标签数据集分别采用COLLAB、IMDB-B、IMDB-M、REDDIT-BINARY、REDDIT-MULTI-5K、REDDIT-MULTI-12K数据集来进行实验验证,如表3,N/A表示无。COLLAB是一个科研合作数据集,通过生成不同研究人员的合作网络,并将每个网络标识为研究者的领域,根据研究领域不同共分为高能物理学、凝聚态物理学及天体物理学。IMDB-B是IMDB收录的电影合作网络数据集,每一张图表示一部电影,节点表示演员,边表示他们之间是否在一部电影里存在合作关系,每部电影被分为动作和爱情两种类型。IMDB-M是IMDB-B的扩展,它有三张类型构成,分为喜剧、爱情和科幻。REDDIT-BINARY数据集采集自REDDIT网站,其中每个图对于与一个在线讨论,其中节点表示用户,如何两个用户之间存在着相互评论则它们之间存在着边。每个图按照是否是基于问题/答案模式还是讨论模式进行标识。REDDIT-MULTI-5K中每个图对于与一个在线讨论,用讨论所属的版块进行标识,共分为5个版块。REDDIT-MULTI-12K数据集是REDDIT-MULTI-5K数据集的扩充版本,共分为11个不同的版块。
表3无标签数据集统计
数据集 | 样本数 | 平均节点数 | 平均边数 | 图标签 | 节点标签 |
COLLAB | 5000 | 74.5 | 2424.6 | 3 | N/A |
IMDB-B | 1000 | 19.8 | 96.4 | 2 | N/A |
IMDB-M | 1500 | 13 | 65.8 | 3 | N/A |
REDDIT-BINARY | 2000 | 429.6 | 497.8 | 2 | N/A |
REDDIT-MULTI-5K | 4999 | 508.5 | 594.9 | 5 | N/A |
REDDIT-MULTI-12K | 11929 | 391.4 | 456.9 | 11 | N/A |
(2)基线方法
为了验证本发明方法的有效性,采用了9种当前最新基线方法:基于图核函数:采用GK、Deep GK、Weisfeiler-Lehman kernal(WL)、Deep WL图核函数。
有监督的网络表示学习的方法:采用PSCN、ECC两种有监督的图表示学习方法来做比对。
非监督的网络表示学习方法:采用Graph2Vec、GE-FSG两种目前最新的无监督网络表示学习方法,这两种算法是主要比对算法,对于Graph2Vec算法将根子图的阶数设置为2,学习后向量的维度为1024。
(3)评估指标
为了评估Substructure2ve算法的网络表示学习效果,采用支持向量机(supportvector machine,SVM)来对所学习到的图向量进行分类,在实验中选用线性核SVM(linear-kernel SVM)来对图向量进行分类。
将90%的数据用于训练模型,10%的数据用于预测分类效果,同时为了保证结果的客观性性,进行10次分类训练预测,并取这10次预测准确性的均值为最终的分类准确度。分类准确率为分类正确的样本数与样本总数之间的比值,其中t为分类正确的样本数,f为分类错误的样本数,其计算公式如下:
(二)Substructure2vec算法参数选择
本发明方法在N边DFS子图遍历阶段有1个参数需要设置,该参数为待扩展的最大子图边数N。由图5可以看出,对大多数有标签数据集来说,最大子图边数N一般在2-5边范围内取得最佳分类效果,无标签数据集使用节点的度来作为节点标签,当最大子图边数N为1时获得最佳分类准确度。
下面具体介绍最大子图边数N、向量表示的维度D对分类准确率的影响。当需要研究一个参数变化对分类准确率的影响时,需要保持另外参数不变。图5显示在待扩展子图最大边数对分类准确率的影响,此时固定向量表示的维度为512。由图5中可以看出,对于大多数数据集来说,首先分类的准确率随着子图最大边数的增长逐步提升,在达到峰值后又开始了下降,这反映出随着子图最大边数的增大,训练样本不断增多,抽取的子结构信息越发全面,因此分类准确率也会随之提升,同时随着边数的不断增多,噪音数据也不断的增加,在达到峰值后分类准确率也随之下降。图6显示图表示学习的维度与分类准确率之间的关系,固定最大子图边数N为5,可以发现在维度大于64后维度与分类准确率之间相关性较小,比较平稳。
(三)分类结果分析
(1)有标签数据集分类结果分析
通过表4,可以看到,在有标签数据集上本发明方法在大多数数据集上分类效果上优于原有的算法,分别在PTC、NCI109、NCI1、ENZYMES、PROTEINS数据集上取得较好效果。具体来说,与无监督算法Graph2Vec算法对比,本发明准确率提升了5%-90%,与GE-FSG算法相比较在D&D数据集上表现较差,在其它数据集上表现优于GE-FSG算法,分类准确率大致提升了2%-70%。
表4有标签图分类结果统计
(2)无标签数据集分类结果分析
通过表5,可以看到在无标签数据集上本发明在大多数数据集上分类效果上优于原有的算法。具体来说,与GK、Deep GK、Graph2Vec算法相比较,本发明准确率均有较大地提升,而与GE-FSG算法相比较在IMDB_B及IMDB_M数据上表现稍差,但因COLLAB、REDDIT-BINARY、REDDIT-MULTI-5K及REDDIT-MULTI-12K数据集规模较大,频繁子图挖掘算法的高时间复杂度,已无法在可接受的时间范围内进行频繁子图挖掘,因此GE-FSG算法不适用于上述数据集。综上,在无标签数据集上本发明在分类准确率及适用性方面均取得了较好的效果。
表5无标签图分类结果统计
(3)子图抽取时间对比分析
下面就无监督的图表示学习算法GE-FSG、Graph2Vec及Subsructure2vec算法子图抽取时间进行对比,具体子图抽取时间对比见图7,此时使用GE-FSG算法中指定的支持度阈值,对于Graph2Vec算法统一将根子图的阶数设置为2,同样Subsructure2vec算法也使用表4中指定的最大子图边数阈值N。从图7中可以发现,频繁子图抽取时间随着数据集不同挖掘时间波动较大,尤其是在大型数据集上频繁子图挖掘较耗时,而本发明在特征抽取上因限制了子图扩展最大边数,从而子图抽取较为快速,而Graph2Vec算法则只需要生成基于节点的根子图,因此其特征抽取时间要优于其它算法。
本发明通过在图中遍历N边DFS子图结构,使用DFSCode对子图进行唯一标识,通过限定遍历子图的最大边数N来降低子图抽取的时间复杂度,同时由于在整个图范围内抽取N边DFS子图克服了基于节点根子图抽取的片面性,在生成每个图的子图集后将其输入到神经网络模型中得到图的向量表示,可以较全面地抽取子图结构。本发明具有下列特点:
1.本发明没有采用高时间复杂度的频繁子图挖掘算法,而是采用了较低时间复杂度的指定大小的N边DFS子图遍历,进而可以在较快的时间内生成子图集,可适用于规模较大的图数据集。
2.本发明是完全的无监督的网络表示学习方法,其模型训练过程不依赖类的标签。这也符合现实情况,在现实中需要分类的对象其类别标签往往难以获取,相较于有监督的网络表示学习算法无监督的网络表示学习算法可以更好地适应现实情况。
3.不同于基于节点、路径、子图的网络表示学习算法,本发明可以直接学习到整个图的向量表示,从而可以直接应用于分类、聚类等任务中。
4.在多个数据集上就分类任务进行实验对比,本发明在大多数数据集上分类准确率有2%-90%的提升。
实施例2:
如图8所示,一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类装置,包括:
子图抽取模块201,用于在图集各图中分别遍历N边DFS子图结构,对各图的N边DFS子图进行抽取;
子图汇集模块202,用于对抽取的N边DFS子图进行汇集,构成各图的子图集;
图向量表示模块203,用于将所述子图集输入到神经网络模型中进行训练,得到各图的向量表示。
具体地,所述子图抽取模块201包括:
最小DFSCode标识子模块2011,用于采用深度优先子图搜索算法,利用最小DFSCode对子图进行唯一标识,将子图转化为文本形式表示;
子图抽取子模块2012,用于对于图集中的每一个图依次执行N边DFS子图抽取,首先生成初始1边子图集,之后在生成初始1边子图集上依次进行N边DFS子图挖掘:
生成初始边集,由每一条初始边开始逐步扩展,扩展时首先判断当前子图是否DFSCode最小,若是则进行该子图的扩展,直到扩展的子图边数达到设定的阈值N,此时停止该子图的扩展,若否则不进行该子图的扩展;由k边子图生成k+1边子图的过程中遵循最右路径扩展原则,首先构造子图的最右路径,之后在最右路径的各节点上分别生成前向边和后向边,将所有新生成的边分别添加到k边子图上构成多个k+1边子图,其中,k+1≤N。
进一步地,所述子图汇集模块202包括:
子图频度统计子模块2021,用于根据子图实例的数量确定该子图的最小DFSCode在相应子图集中出现的次数;不考虑子图重叠问题,同一子图的实例中只要有一个节点不同则视为不同的实例;
子图排序子模块2022,用于按照子图的最小DFSCode在相应子图集中出现的次数对子图进行排序,构成相应子图集。
具体地,所述图向量表示模块203具体用于:
将DFSCode格式的子图集视为一篇文档,子图集中的每一个子图视为一个单词,通过doc2vec模型训练得到对应图的向量表示。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (2)
1.一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类方法,其特征在于,包括:
步骤1:在IMDB-B数据集各图中分别遍历N边DFS子图结构,对各图的N边DFS子图进行抽取;IMDB-B数据集中,每一张图表示一部电影,节点表示演员,边表示演员之间是否在一部电影里存在合作关系;
所述步骤1包括:
步骤1.1:采用深度优先子图搜索算法,利用最小DFSCode对子图进行唯一标识,将子图转化为文本形式表示;
步骤1.2:对于IMDB-B数据集中的每一个图依次执行N边DFS子图抽取,首先生成初始1边子图集,之后在生成初始1边子图集上依次进行N边DFS子图挖掘:
生成初始边集,由每一条初始边开始逐步扩展,扩展时首先判断当前子图是否DFSCode最小,若是则进行该子图的扩展,直到扩展的子图边数达到设定的阈值N,此时停止该子图的扩展,若否则不进行该子图的扩展;由k边子图生成k+1边子图的过程中遵循最右路径扩展原则,首先构造子图的最右路径,之后在最右路径的各节点上分别生成前向边和后向边,将所有新生成的边分别添加到k边子图上构成多个k+1边子图,其中,k+1≤N;
步骤2:对抽取的N边DFS子图进行汇集,构成IMDB-B数据集中各图的子图集;
所述步骤2包括:
步骤2.1:根据子图实例的数量确定该子图的最小DFSCode在相应子图集中出现的次数;不考虑子图重叠问题,同一子图的实例中只要有一个节点不同则视为不同的实例;
步骤2.2:按照子图的最小DFSCode在相应子图集中出现的次数对子图进行排序,构成相应子图集;
步骤3:将所述子图集输入到神经网络模型中进行训练,得到各图的向量表示;
所述步骤3包括:
将DFSCode格式的子图集视为一篇文档,子图集中的每一个子图视为一个单词,通过doc2vec模型训练得到对应图的向量表示;
步骤4:采用线性核SVM对得到的IMDB-B数据集中各图的向量进行分类,将90%的数据用于训练线性核SVM模型,10%的数据用于预测分类效果,同时为了保证结果的客观性,进行10次分类训练预测,最终将每部电影分类为动作或爱情两种类型之一,并取这10次预测准确性的均值作为最终的分类准确度。
2.一种基于N边DFS子图轻量级无监督图表示学习的社交媒体数据分类装置,其特征在于,包括:
子图抽取模块,用于在IMDB-B数据集各图中分别遍历N边DFS子图结构,对各图的N边DFS子图进行抽取;IMDB-B数据集中,每一张图表示一部电影,节点表示演员,边表示演员之间是否在一部电影里存在合作关系;
子图汇集模块,用于对抽取的N边DFS子图进行汇集,构成IMDB-B数据集中各图的子图集;
图向量表示模块,用于将所述子图集输入到神经网络模型中进行训练,得到各图的向量表示;
分类模块,用于采用线性核SVM对得到的IMDB-B数据集中各图的向量进行分类,将90%的数据用于训练线性核SVM模型,10%的数据用于预测分类效果,同时为了保证结果的客观性,进行10次分类训练预测,最终将每部电影分类为动作或爱情两种类型之一,并取这10次预测准确性的均值作为最终的分类准确度;
所述子图抽取模块包括:
最小DFSCode标识子模块,用于采用深度优先子图搜索算法,利用最小DFSCode对子图进行唯一标识,将子图转化为文本形式表示;
子图抽取子模块,用于对于IMDB-B数据集中的每一个图依次执行N边DFS子图抽取,首先生成初始1边子图集,之后在生成初始1边子图集上依次进行N边DFS子图挖掘:
生成初始边集,由每一条初始边开始逐步扩展,扩展时首先判断当前子图是否DFSCode最小,若是则进行该子图的扩展,直到扩展的子图边数达到设定的阈值N,此时停止该子图的扩展,若否则不进行该子图的扩展;由k边子图生成k+1边子图的过程中遵循最右路径扩展原则,首先构造子图的最右路径,之后在最右路径的各节点上分别生成前向边和后向边,将所有新生成的边分别添加到k边子图上构成多个k+1边子图,其中,k+1≤N;
所述子图汇集模块包括:
子图频度统计子模块,用于根据子图实例的数量确定该子图的最小DFSCode在相应子图集中出现的次数;不考虑子图重叠问题,同一子图的实例中只要有一个节点不同则视为不同的实例;
子图排序子模块,用于按照子图的最小DFSCode在相应子图集中出现的次数对子图进行排序,构成相应子图集;
所述图向量表示模块具体用于:
将DFSCode格式的子图集视为一篇文档,子图集中的每一个子图视为一个单词,通过doc2vec模型训练得到对应图的向量表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631146.9A CN110502669B (zh) | 2019-07-12 | 2019-07-12 | 基于n边dfs子图轻量级无监督图表示学习的社交媒体数据分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631146.9A CN110502669B (zh) | 2019-07-12 | 2019-07-12 | 基于n边dfs子图轻量级无监督图表示学习的社交媒体数据分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110502669A CN110502669A (zh) | 2019-11-26 |
CN110502669B true CN110502669B (zh) | 2022-06-03 |
Family
ID=68585415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910631146.9A Active CN110502669B (zh) | 2019-07-12 | 2019-07-12 | 基于n边dfs子图轻量级无监督图表示学习的社交媒体数据分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110502669B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111538870B (zh) * | 2020-07-07 | 2020-12-18 | 北京百度网讯科技有限公司 | 文本的表达方法、装置、电子设备及可读存储介质 |
CN111931416B (zh) * | 2020-07-16 | 2022-09-16 | 清华大学 | 一种结合可解释性的图表示学习的超参数优化方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116766B (zh) * | 2013-03-20 | 2015-11-18 | 南京大学 | 一种基于增量神经网络和子图编码的图像分类方法 |
CN106991132A (zh) * | 2017-03-08 | 2017-07-28 | 南京信息工程大学 | 一种基于图集重构与图核降维的图分类方法 |
CN107978373A (zh) * | 2017-11-23 | 2018-05-01 | 吉林大学 | 一种基于共训练的半监督生物医学事件抽取方法 |
-
2019
- 2019-07-12 CN CN201910631146.9A patent/CN110502669B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110502669A (zh) | 2019-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Motif-driven contrastive learning of graph representations | |
Xu | Understanding graph embedding methods and their applications | |
Cavallari et al. | Embedding both finite and infinite communities on graphs [application notes] | |
Chen et al. | Colnet: Embedding the semantics of web tables for column type prediction | |
Cai et al. | A comprehensive survey of graph embedding: Problems, techniques, and applications | |
Malach et al. | Decoupling" when to update" from" how to update" | |
Meng et al. | Leveraging concept association network for multimedia rare concept mining and retrieval | |
WO2016205286A1 (en) | Automatic entity resolution with rules detection and generation system | |
Sun et al. | Spatial dual-modality graph reasoning for key information extraction | |
WO2022166380A1 (zh) | 一种基于meanshift优化的数据处理方法和装置 | |
Draisbach et al. | Transforming pairwise duplicates to entity clusters for high-quality duplicate detection | |
CN113535947B (zh) | 一种带有缺失标记的不完备数据的多标记分类方法及装置 | |
US20240185582A1 (en) | Annotation-efficient image anomaly detection | |
CN110502669B (zh) | 基于n边dfs子图轻量级无监督图表示学习的社交媒体数据分类方法及装置 | |
Noering et al. | Pattern discovery in time series using autoencoder in comparison to nonlearning approaches | |
Nguyen et al. | Subgraph mining in a large graph: A review | |
Li et al. | An efficient probabilistic approach for graph similarity search | |
Luo et al. | Toward effective semi-supervised node classification with hybrid curriculum pseudo-labeling | |
Wang et al. | Incremental fuzzy association rule mining for classification and regression | |
Xu et al. | DHA: Supervised deep learning to hash with an adaptive loss function | |
Jain et al. | HML-RF: Hybrid multi-label random forest | |
Wang et al. | A two-stage multi-view partial multi-label learning for enhanced disambiguation | |
CN105162648B (zh) | 基于骨干网络扩展的社团检测方法 | |
Hong et al. | A mixtures-of-trees framework for multi-label classification | |
Presotto et al. | Weakly supervised learning based on hypergraph manifold ranking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |