CN112529057A - 一种基于图卷积网络的图相似性计算方法及装置 - Google Patents
一种基于图卷积网络的图相似性计算方法及装置 Download PDFInfo
- Publication number
- CN112529057A CN112529057A CN202011395402.8A CN202011395402A CN112529057A CN 112529057 A CN112529057 A CN 112529057A CN 202011395402 A CN202011395402 A CN 202011395402A CN 112529057 A CN112529057 A CN 112529057A
- Authority
- CN
- China
- Prior art keywords
- graph
- topological
- embedding
- nodes
- topological graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 48
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 47
- 239000011159 matrix material Substances 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000001537 neural effect Effects 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 5
- 230000014509 gene expression Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 22
- 208000030507 AIDS Diseases 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000003646 Spearman's rank correlation coefficient Methods 0.000 description 1
- 101150095095 TIMELESS gene Proteins 0.000 description 1
- 230000000840 anti-viral effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003925 brain function Effects 0.000 description 1
- 125000004432 carbon atom Chemical group C* 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 150000001875 compounds Chemical group 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 125000001997 phenyl group Chemical group [H]C1=C([H])C([H])=C(*)C([H])=C1[H] 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图卷积网络的图相似性计算方法及装置,能够克服现有的基于GNN的图相似性计算模型不能很好的学习图的层次结构的缺点,通过在合理的时间内将图的扁平和层次表示结合在一起来提高图相似度计算的有效性。具体地,本发明实施例提出了一个完全支持反向传播的基于端到端地神经网络的函数,通过仔细设计函数的每一部分,使得该函数能学习到图的扁平的和层次的信息,最终将一对图映射为相似度评分,以同时克服现有技术耗时长及无法捕捉图的层次结构的缺点。
Description
技术领域
本发明属于图相似性计算技术领域,尤其涉及一种基于图卷积网络的图相似性计算方法及装置。
背景技术
拓扑是一种不考虑事物的大小、形状等物理属性,而仅仅使用节点Vertex)与边(edge)描述多个事物之间关系的抽象表示方法,而用拓扑表示的事物之间的关系的模型称为拓扑图。拓扑不关心事物的细节,也不在乎相互的比例关系,而只是一定情况下以图的形式,在图中用节点表示事物,用节点之间的边表示事物之间的关系,以抽象出多个事物之间的相互关系。拓扑图可以用于抽象现实世界中的绝大多数信息,如,社交网络,电力网络,生物化学分子结构,计算机程序依赖性等。
在对拓扑图的研究中,拓扑图之间的相似性计算得到了很广泛研究与应用,Thomas gartner等人将拓扑图的相似性计算用于化学分子分类;karten Borgwardt等人将拓扑图相似性计算应用于蛋白质分子结构分析;Yujia Li等人将拓扑图相似性计算应用于电脑系统安全研究;Sofia Ktena等人将拓扑图相似性计算应用于人体大脑功能研究等等。拓扑图的相似性计算作为应用拓扑图的基本功能得到广泛的研究与应用。然而,过去几十年中,为了计算拓扑图之间的相似度指标,如:图编辑距离(Graph Edit Distance)、最大公共子图(Maximum Common Subgraph)、图同构(Graph Isomorphism)等,往往需要耗费大量的时间与计算资源,因为这些都是NP完全问题。尽管Yongjiang Liang、Zhiping Zeng、Xiang Zhao等人提出的一些剪枝策略和Sebastien Bougleux、Stefan Fankhauser、MichelNeuhaus、Kaspar Riesen等人提出的启发式方法都尝试给出近似度量值和加快相似性计算的方法,但是上述启发式算法和由它们扩展出来的次优的解决方案的计算时间复杂度也是高阶多项式的甚至是次指数的。并且这些方法涉及基于离散优化或组合优化的算法的复杂的设计和实现,因此,这些方法只适用于较小的并且对时间要求不高的拓扑图相似性计算,很难使这些方法用于新的任务。
针对以往的图相似性计算耗时严重的问题,Yunsheng Bai等人基于神经网络提出了一种快速的图相似性计算方法SimGNN,通过设计一个图神经网络来学习一个将两个拓扑图映射为一个基于图编辑距离的相似性的函数。这个方法使得计算图的相似性的时间复杂度下降到平方级。然而,这种基于gnn的图相似性计算模型本质上都是扁平的,并且没有学习到图的层次表示,这限制了模型在图相似度学习中的能力。
发明内容
本发明的目的在于提供一种基于图卷积网络的图相似性计算方法及装置,通过在合理的时间内将图的扁平和层次表示结合在一起来提高图相似度计算的有效性,以解决上述不能兼顾时间和图的层次的技术问题。
为达此目的,本发明采用以下技术方案:
第一方面,提出了一种基于图卷积网络的图相似性计算方法,包括以下步骤:
分别确定第一拓扑图和第二拓扑图的初始节点特征;
分别求得第一拓扑图和第二拓扑图的节点的嵌入表示;
根据第一拓扑图和第二拓扑图的节点的嵌入表示,分别通过注意力机制和DIFFPOOL方法对节点嵌入进行汇总,分别得到第一拓扑图的扁平化全图嵌入和层次化全图嵌入,得到第二拓扑图的扁平化全图嵌入和层次化全图嵌入;
采用神经张量网络NTN分别处理第一拓扑图和第二拓扑图在扁平层面以及层次化层面的图嵌入之间的关系;
将扁平化图嵌入相似性得分与层次化图嵌入相似性得分进行拼接,将拼接输入一个含有一个隐藏层的全连接神经网络降维汇总,以得到第一拓扑图和第二拓扑图之间的相似性得分。
可选地,所述分别确定第一拓扑图和第二拓扑图的初始节点特征,具体包括:
若拓扑图为节点含标签的图,对每一种标签采用one-hot向量作为初始的特征节点;
若拓扑图为节点不含标签的图,对所有的节点采取相同的向量作为节点的初始特征向量。
可选地,所述分别求得第一拓扑图和第二拓扑图的节点的嵌入表示,具体包括;
通过图卷积网络、DeepWalk、Node2vec或LINE的方式,分别求得第一拓扑图和第二拓扑图的节点的嵌入表示。
可选地,所述分别求得第一拓扑图和第二拓扑图的节点的嵌入表示,具体包括:
将图的初始节点特征和图的邻接矩阵输入三层图卷积网络,以此得到第一拓扑图和第二拓扑图的节点的嵌入表示,每层输出的节点嵌入的维度分别为64、32、16。
可选地,还包括模型的训练方法,所述训练方法包括:
采用A*方法求出图编辑距离,并由标准化图编辑距离得来的相似性分数作为训练的目标,均方误差作为损失函数。
第二方面,提供了一种基于图卷积网络的图相似性计算装置,包括:
确定模块,用于分别确定第一拓扑图和第二拓扑图的初始节点特征;
求解模块,用于分别求得第一拓扑图和第二拓扑图的节点的嵌入表示;
注意力机制模块,用于根据第一拓扑图和第二拓扑图的节点的嵌入表示,对节点嵌入进行汇总,以得到第一拓扑图的扁平化全图嵌入和第二拓扑图的扁平化全图嵌入;
DIFFPOOL模块,用于根据第一拓扑图和第二拓扑图的节点的嵌入表示,对节点嵌入进行汇总,以得到第一拓扑图的层次化全图嵌入和第二拓扑图的层次化全图嵌入;
神经张量网络NTN模块,用于处理第一拓扑图和第二拓扑图在扁平层面以及层次化层面的图嵌入之间的关系;
拼接模块,用于将扁平化图嵌入相似性得分与层次化图嵌入相似性得分进行拼接;
降维汇总模块,用于将拼接输入一个含有一个隐藏层的全连接神经网络降维汇总,以得到第一拓扑图和第二拓扑图之间的相似性得分。
可选地,还包括:
训练模块,用于采用A*方法求出图编辑距离,并由标准化图编辑距离得来的相似性分数作为训练的目标,均方误差作为损失函数。
可选地,所述求解模块为图卷积网络、DeepWalk、Node2vec或LINE模块。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例提供的一种基于图卷积网络的图相似性计算方法及装置,能够克服现有的基于GNN的图相似性计算模型不能很好的学习图的层次结构的缺点,通过在合理的时间内将图的扁平和层次表示结合在一起来提高图相似度计算的有效性。具体地,本发明实施例提出了一个完全支持反向传播的基于端到端地神经网络的函数,通过仔细设计函数的每一部分,使得该函数能学习到图的扁平的和层次的信息,最终将一对图映射为相似度评分,以同时克服现有技术耗时长及无法捕捉图的层次结构的缺点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容所能涵盖的范围内。
图1是拓扑图例子;
图2是图1中部分边的编号以及编号表示的边;
图3是图1按照节点顺序为v0,v1,v2,...,v5的邻接矩阵;
图4是GED计算实例;
图5是DIFFPOOL例子示意图;
图6是基于图卷积网络的图相似性计算框架GscGCN;
图7是实验数据集;
图8是实验结果;
图9是运行时间比较;
图10是AIDS数据集上图的节点嵌入维度对GscGCN得出mse的影响;
图11是AIDS数据集上NTN超参数K对GscGCN得出mse的影响。
具体实施方式
为使得本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例提供了一个端到端的能够同时学到图的扁平和层次信息的拓扑图相似性计算方法。在保持计算复杂度与最新的方法同级别的情况下,本实施例提出的GscGCN(Graph Similarity Computation with Graph Convolution Networks,基于图卷积网络的图相似性计算框架)能在相似性计算上达到更好的性能。
具体地,计算图的相似性需要满足两个基本要求:表示不变形、可归纳性、对称性。由于随着枚举图中节点的顺序不同,同一个拓扑图的邻接矩阵也会存在不同的。提出的方法针对这些情况得到的最终结果是一致的,则称为具有表示不变形。提出的方法经过训练集训练后,不仅能在训练集上具有良好的表现,在测试集上也具有良好的表现,这种性质称为可归纳性。此外,为了满足两个图的相似性得分具有对称性也就是说与它们的输入次序无关,采用Siamese网络的结构来设计模型。
下面先给出本实施例的相关定义。
定义1(拓扑图):拓扑图G=(V,E),其中V是G的顶点集,E是G的边集,e∈E由二元组构成,对于有向图,有序数对e=<u,v>,其中u,v∈V,表示一条以u为起点,v为终点的有向边。对于无向图,无序数对e=(u,v)与e=(v,u),其中u,v∈V,表示同一条端点分别为u,v的无向边。
例如,图1是一个有6个顶点v1,v2,...,v6和14条边的无向拓扑图,对图1中的部分边进行编号,如图2所示。
定义2(图的邻接矩阵):对于拓扑图G=(V,E),给定顶点集V={v1,v2,v3,...,vn},对节点任意枚举排序得到序列其中tk,k∈{1,2,...,n},按照序列创建二维矩阵A,若边则邻接矩阵A第i行j列的元素为Aij=1,否则Aij=0。
例如,图3为图1按照节点顺序为v0,v1,v2,...,v5的邻接矩阵。
定义3(图编辑距离):拓扑图G1与拓扑图G2之间的图编辑距离GED(G1,G2)是从图G1到图G2的最小的原子编辑操作的数量。对图形的原子编辑操作为,插入节点或边、删除节点或边,重新标号节点。
例如,图4为图编辑距离例子。图4中的左侧拓扑图经过一次删除边、两次插入边、一次重新标定节点,最终得到右侧拓扑图,所以两者之间的图编辑距离为4。
定义4(标准化图编辑距离):给定拓扑图G1与拓扑图G2之间的图编辑距离GED(G1,G2),则两图之间的标准化图编辑距离为图编辑距离与两图节点平均数之商标准化图编辑距离可以规范化两个图之间的距离,避免因为图之间规模的差异导致的图之间图编辑距离差异过大。
定义5(图的节点嵌入):给定拓扑图G=(V,E)以及图中每个节点的初始特征向量,通过某一双射函数f(vi)→ui,vi∈V,ui∈RD将图中节点映射到D维欧几里得空间中的过程称为图的节点嵌入,对应双射函数称为嵌入函数,对应D维欧几里得空间称为图的嵌入空间。
定义6(图卷积网络):给定图G=(V,E)以及图中每个节点的初始特征向量组成的初始特征矩阵U(0),若图嵌入函数为则图嵌入方法称为图卷积网络。其中l∈N*为嵌入函数迭代次数,也称为图卷积网络的层数;U(l)为第l∈N*次图卷积的输入,也就是当层图卷积每个节点开始的特征向量矩阵,U(l+1)为l∈N*次图卷积的输出,也就是经过当层图卷积后每个节点的特征向量矩阵;其中A为图的邻接矩阵,IN为大小与邻接矩阵相同的单位矩阵;中非0元素为σ(.)为激活函数。图卷积网络只考虑one-hot邻域,需要通过增加层数l∈N*来增加感受野以提高嵌入水准。
定义7(注意力机制):给定图G=(V,E),记图的节点嵌入矩阵为U∈RN×D,其中第n行为节点n的嵌入表示un∈RD,N=|V|为图的节点数量,D是节点嵌入空间的维度。首先,通过公式获得图的结构和特征的扁平化全局信息c,其中W2∈RD×D是一个可学习的参数权重矩阵。然后,通过节点嵌入向量un∈RD与扁平化全局信息c的内积并经激活函数处理后可获取节点嵌入向量的加权和时自身的权重,最终得到整个图的嵌入向量其中为sigmod激活函数。
定义8(DIFFPOOL方法):记第l∈N*次粗化后的图的邻接矩阵为其中Nl为第l∈N*次粗化后的图的节点数量。记U(l)是第l∈N*次粗化后的图的节点嵌入矩阵。记是第l∈N*次粗化后的图的软聚类赋值矩阵。首先在第l∈N*层需要依照 分别得到新矩阵X(l+1)和新粗化的邻接矩阵矩阵A(l+1)。为了赋值矩阵和嵌入矩阵U(l),两个独立的图的节点嵌入模块GNNl,embed和GNNl,pool(如,GCN,GAT,GIN等)分别应用于输入簇节点特征X(l)和粗化邻接矩阵A(l):U(l)=GNNl,embed(A(l),X(l)),S(l)=softmax(GNNl,pool(A(l),X(l)))。
Rex Ying等人在NeurIPS 2018上提出了一个可以从图的节点嵌入中获取图的层次结构信息的可微分方法DIFFPOOL。例如图5所示,DIFFPOOL为深度图神经网络的每一层的节点学习了可微分的软性群聚类,将节点映射到一组集群,成为下一层的粗化后的输入。与注意力机制形成整个图的扁平化嵌入向量不同,DIFFPOOL方法得到的层次化图嵌入捕获了图中节点组合的特征及其之间的结构信息。这一点很重要,因为在现实世界图中,这些节点组合及其连接可能是图的特殊特征,例如,当研究化学分子时,苯环总是作为一个整体来处理,因为它具有某些化学性质,而不是其中的某些碳原子。对于那些缺少某些固定的结构化节点组合的图(如社交网络、推荐系统等),DIFFPOOL方法也可以对图进行粗化,帮助我们忽略过于密集的点簇,更多地关注它们之间的联系。
定义9(神经张量网络):给定同一D维欧拉空间中的两个向量hi,hj∈RD,可以用于评估两者之间的非线性关系,可用于评估两者之间的线性关系,其中为可学习参数矩阵,故使用神经张量网络被用于计算评估两者之间的关系,其中为偏移项,f3(.)为激活函数,本方法中取为ReLU函数,即f3(x)=max(0,x)。
本发明实施例提出的一个基于图卷积网络的端到端的图相似性计算模型GscGCN,能够同时兼顾图的扁平化与层次化特征,更好地捕捉图的特征,求得图之间的相似性得分。算法描述参见具体实施方案。
具体地,本实施例提供了一种基于图卷积网络的图相似性计算方法,包括以下步骤:
首先分别确定确定图Gi与图Gj的初始的节点特征和其中Ni,Nj∈R分别为图Gi与图Gj的节点数量,D(0)∈R为节点初始特征的维度。对于节点含标签的图,我们对每一种标签采用one-hot向量作为初始的特征节点,对于不含标签的图,我们对所有的节点采取相同的向量作为节点的初始特征向量。
然后我们通过相同的图卷积网络分别求得图Gi与图Gj的节点的嵌入表示。由于一层的图卷积网络只能考虑到节点的一阶邻域,为了增大图卷积网络的感受野,我们这个模型中采用三层的图卷积网络,每层输出的节点嵌入的维度分别为64、32、16。由此,将图的初始节点特征和图的邻接矩阵输入三层图卷积网络,得到图Gi与图Gj的节点的嵌入表示Ui和Ui。
为了汇总全图的信息方便进行图之间的相似性得分的计算,我们根据图Gi与图Gj的节点的嵌入表示Ui和Uj,分别通过注意力机制和DIFFPOOL方法对节点嵌入进行汇总,分别得到图Gi的扁平化全图嵌入hi和层次化全图嵌入Ui hier以及图Gj的扁平化全图嵌入hj和层次化全图嵌入Uj hier。
接着为了计算评估两图的图嵌入之间的关系,我们采用神经张量网络NTN分别处理两图在扁平层面以及层次化层面的图嵌入之间的关系,得到关系为 其中b4∈RK2为模型中的可学习参数;K1=K2=16为模型超参数;f3(.)=f4(.)=ReLU(.)为激活函数。
最后,将扁平化图嵌入相似性得分与层次化相似性得分进行拼接,得到将拼接输入一个含有一个隐藏层的全连接神经网络(Multi-Layer Perceptron,MLP)降维汇总,最终得到两个图之间的相似性得分si,j pre∈R。
进一步地,为了训练模型,我们采用Kaspar Riesen等人提出的A*方法精确地求出图编辑距离GED,并由标准化图编辑距离nGED(Gi,Gj)得来的相似性分数scores=exp(-nGED(Gi,Gj))作为训练的目标,均方误差(Mean Squared Error)作为损失函数:其中M为训练集中的图两两组对而成的图对的集合,|M|为M中图对的数量。
为了进一步公开本发明创造,基于图卷积网络的端到端的图相似性计算模型GscGCN算法主要包含四个重要的计算模块:图卷积网络GCN模块、注意力机制Attention模块、DIFFPOOL模块以及神经张量网络NTN模块,本文中对每一个模块的详细设计伪代码如下:
算法复杂度分析:
给定图Gi=(Vi,Ei)与图Gj=(Vj,Ej),不妨令n=max{|Vi|,|Vj|},m=max{|Ei|,|Ej|}。GCN模块的时间复杂度为O(m),Attention模块的时间复杂度为O(n),DIFFPOOL模块的时间复杂度为O(n2),NTN模以及最后的MLP汇总缓解时间复杂度为常数时间复杂度,与图的规模无关。因而总得来说,模型的时间复杂度为O(n2+m)。
算法实验结果:
数据集采用SIMGNN算法论文实验中的其中3个现实世界的图地数据集,这些数据集的概况如图5所示。
AIDS数据集:
AIDS数据集包含很多来自NCI/NIH 7的Developmental Therapeutics Program计划的很多的化学分子,(https://wiki.nci.nih.gov/display/NCIDTPdata/AIDS+Antiviral+Screen+Data)包含42,687种化学化合物结构(忽略氢原子),已经被用于很多现有的对图相似性的研究中,如Zhiping Zeng、Xiang Zhao、Weiguo Zheng、Yunsheng Bai等人对图相似性的研究。本次实验选择了AIDS数据集中560个图,每个图有小于等于10个节点。每个节点为29种类型标签中的一种。
LINUX数据集:
LINUX数据集最初是Xiaoli Wang等人在研究图相似性时引入的,它是由LINUX内核生成的48,747个程序依赖图(Program Dependence Graphs,PDG)的集合。每个图都是一个函数的表示,其中一个节点表示一条语句,一条边表示两条语句之间的依赖关系。选择节点数等于或小于10个的图800个。LINUX数据集中节点没有标签。
IMDBMulti数据集:
IMDBMulti数据集由1500个电影演员的自我中心网络组成,如果他们出现在同一部电影中,就会有一条边相连。为了测试GscGCN方法的可伸缩性和效率,我们随机筛选了数据集中1200个图。IMDBMulti数据集中的节点都没有标签。
实验:
我们与两大类已有的经典方法进行比较,一类是基于离散优化或组合优化的算法的经典近似算法,如,Michel Neuhaus等人提出的A*-Beamsearch(Beam)方法、Harold Kuhn等人的Hungarian方法、Stefan Fankhauser等人的VJ方法;另一类是基于图神经网络的方法,如Yunsheng Bai等人的SimGNN方法,只采用DIFFPOOL方法捕捉层次化信息而不采用attention机制的DIFFGNN方法。我们将在AIDS、LINUX、IMDBMulti三个数据集上,测试以上各种方法和我们提出的GscGCN方法的三项指标:均方误差(mean squared error,mse)、斯皮尔曼相关系数(Spearman`s Rank Correlation Coefficient(p))、肯德尔相关系数(Kendall’s Rank Correlation Coefficient(τ))。此外,由于第一类方法在大型数据集上无法在合理时间内得出有效得分,所以我们不将第一类方法应用到IMDBMulti数据集上。对需要进行训练的模型,我们均在每个选用数据集中随机抽取80%的图作为训练集,20%的图作为测试集。训练模型采用Adam方法进行训练,10000epoch,minibatch大小为128。
图8显示了各种方法在数据集AIDS、LINUX、IMDBMulti上的三项指标。由此可以看出我们提出的方法GscGCN在三个数据集上都取得了最优或次优的结果,说明我们新提出的模型GscGCN能够很好地对图的相似性进行建模。
图9显示了各种模型的运行时间,比较可知,我们的模型GscGCN的运行时间与SIMGNN属于同一数量级,都明显地比其他经典方法快速,特别是我们方法具有较好的延展性,即处理大图与处理小图耗时并不会相差很大。
图10和图11分别显示了在AIDS数据集上图的节点嵌入维度以及NTN中超参数K对GscGCN得出mse的影响,发现当节点的嵌入维度达到5以及NTN中超参数K达到16后,继续变化对模型影响较低,说明我们的GscGCN模型具有较好的参数敏感性,模型稳定。
在本申请的另一实施例中,还提供了一种基于图卷积网络的图相似性计算装置,包括:
确定模块,用于分别确定第一拓扑图和第二拓扑图的初始节点特征;
求解模块,用于分别求得第一拓扑图和第二拓扑图的节点的嵌入表示;
注意力机制模块,用于根据第一拓扑图和第二拓扑图的节点的嵌入表示,对节点嵌入进行汇总,以得到第一拓扑图的扁平化全图嵌入和第二拓扑图的扁平化全图嵌入;
DIFFPOOL模块,用于根据第一拓扑图和第二拓扑图的节点的嵌入表示,对节点嵌入进行汇总,以得到第一拓扑图的层次化全图嵌入和第二拓扑图的层次化全图嵌入;
神经张量网络NTN模块,用于处理第一拓扑图和第二拓扑图在扁平层面以及层次化层面的图嵌入之间的关系;
拼接模块,用于将扁平化图嵌入相似性得分与层次化图嵌入相似性得分进行拼接;
降维汇总模块,用于将拼接输入一个含有一个隐藏层的全连接神经网络降维汇总,以得到第一拓扑图和第二拓扑图之间的相似性得分;
训练模块,用于采用A*方法求出图编辑距离,并由标准化图编辑距离得来的相似性分数作为训练的目标,均方误差作为损失函数。
可选地,所述求解模块为图卷积网络、DeepWalk、Node2vec或LINE模块。
本实施例提供的基于图卷积网络的图相似性计算装置,用于实现上述基于图卷积网络的图相似性计算方法,通过在合理的时间内将图的扁平和层次表示结合在一起来提高图相似度计算的有效性。
综上所述,上述实施例提供的基于图卷积网络的图相似性计算方法及装置,其关键在于:基于图神经网络的端到端的模型,提供一对图,就能直接得到图之间的相似性;提出的模型能够同时捕捉图的扁平化信息与层次信息,能够更准确地计算图之间的相似性;在保持时间复杂度与现有最先进方法持平的情况下,我们的模型的性能更有优势。上述实施例给出了一个端到端的能够同时学到图的扁平和层次信息的拓扑图相似性计算方法,在保持计算复杂度与最新的方法同级别的情况下,GscGCN能在相似性计算上达到更好的性能。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于图卷积网络的图相似性计算方法,其特征在于,包括以下步骤:
分别确定第一拓扑图和第二拓扑图的初始节点特征;
分别求得第一拓扑图和第二拓扑图的节点的嵌入表示;
根据第一拓扑图和第二拓扑图的节点的嵌入表示,分别通过注意力机制和DIFFPOOL方法对节点嵌入进行汇总,分别得到第一拓扑图的扁平化全图嵌入和层次化全图嵌入,得到第二拓扑图的扁平化全图嵌入和层次化全图嵌入;
采用神经张量网络NTN分别处理第一拓扑图和第二拓扑图在扁平层面以及层次化层面的图嵌入之间的关系;
将扁平化图嵌入相似性得分与层次化图嵌入相似性得分进行拼接,将拼接输入一个含有一个隐藏层的全连接神经网络降维汇总,以得到第一拓扑图和第二拓扑图之间的相似性得分。
2.根据权利要求1所述的基于图卷积网络的图相似性计算方法,其特征在于,所述分别确定第一拓扑图和第二拓扑图的初始节点特征,具体包括:
若拓扑图为节点含标签的图,对每一种标签采用one-hot向量作为初始的特征节点;
若拓扑图为节点不含标签的图,对所有的节点采取相同的向量作为节点的初始特征向量。
3.根据权利要求1所述的基于图卷积网络的图相似性计算方法,其特征在于,所述分别求得第一拓扑图和第二拓扑图的节点的嵌入表示,具体包括;
通过图卷积网络、DeepWalk、Node2vec或LINE的方式,分别求得第一拓扑图和第二拓扑图的节点的嵌入表示。
4.根据权利要求1所述的基于图卷积网络的图相似性计算方法,其特征在于,所述分别求得第一拓扑图和第二拓扑图的节点的嵌入表示,具体包括:
将图的初始节点特征和图的邻接矩阵输入三层图卷积网络,以此得到第一拓扑图和第二拓扑图的节点的嵌入表示,每层输出的节点嵌入的维度分别为64、32、16。
5.根据权利要求1所述的基于图卷积网络的图相似性计算方法,其特征在于,还包括模型的训练方法,所述训练方法包括:
采用A*方法求出图编辑距离,并由标准化图编辑距离得来的相似性分数作为训练的目标,均方误差作为损失函数。
6.一种基于图卷积网络的图相似性计算装置,其特征在于,包括:
确定模块,用于分别确定第一拓扑图和第二拓扑图的初始节点特征;
求解模块,用于分别求得第一拓扑图和第二拓扑图的节点的嵌入表示;
注意力机制模块,用于根据第一拓扑图和第二拓扑图的节点的嵌入表示,对节点嵌入进行汇总,以得到第一拓扑图的扁平化全图嵌入和第二拓扑图的扁平化全图嵌入;
DIFFPOOL模块,用于根据第一拓扑图和第二拓扑图的节点的嵌入表示,对节点嵌入进行汇总,以得到第一拓扑图的层次化全图嵌入和第二拓扑图的层次化全图嵌入;
神经张量网络NTN模块,用于处理第一拓扑图和第二拓扑图在扁平层面以及层次化层面的图嵌入之间的关系;
拼接模块,用于将扁平化图嵌入相似性得分与层次化图嵌入相似性得分进行拼接;
降维汇总模块,用于将拼接输入一个含有一个隐藏层的全连接神经网络降维汇总,以得到第一拓扑图和第二拓扑图之间的相似性得分。
7.根据权利要求6所述的基于图卷积网络的图相似性计算装置,其特征在于,还包括:
训练模块,用于采用A*方法求出图编辑距离,并由标准化图编辑距离得来的相似性分数作为训练的目标,均方误差作为损失函数。
8.根据权利要求6所述的基于图卷积网络的图相似性计算装置,其特征在于,所述求解模块为图卷积网络、DeepWalk、Node2vec或LINE模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011395402.8A CN112529057A (zh) | 2020-12-03 | 2020-12-03 | 一种基于图卷积网络的图相似性计算方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011395402.8A CN112529057A (zh) | 2020-12-03 | 2020-12-03 | 一种基于图卷积网络的图相似性计算方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112529057A true CN112529057A (zh) | 2021-03-19 |
Family
ID=74996658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011395402.8A Pending CN112529057A (zh) | 2020-12-03 | 2020-12-03 | 一种基于图卷积网络的图相似性计算方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112529057A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114385827A (zh) * | 2021-12-29 | 2022-04-22 | 上海云思智慧信息技术有限公司 | 面向会议知识图谱的检索方法 |
CN116680633A (zh) * | 2023-05-06 | 2023-09-01 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
-
2020
- 2020-12-03 CN CN202011395402.8A patent/CN112529057A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114385827A (zh) * | 2021-12-29 | 2022-04-22 | 上海云思智慧信息技术有限公司 | 面向会议知识图谱的检索方法 |
CN116680633A (zh) * | 2023-05-06 | 2023-09-01 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
CN116680633B (zh) * | 2023-05-06 | 2024-01-26 | 国网四川省电力公司广安供电公司 | 基于多任务学习的异常用户检测方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Efficient evolutionary search of attention convolutional networks via sampled training and node inheritance | |
CN110084296B (zh) | 一种基于特定语义的图表示学习框架及其多标签分类方法 | |
CN112364880B (zh) | 基于图神经网络的组学数据处理方法、装置、设备及介质 | |
CN109284406B (zh) | 基于差异循环神经网络的意图识别方法 | |
CN110677284B (zh) | 一种基于元路径的异构网络链路预测的方法 | |
CN113657450B (zh) | 基于注意机制的陆战场图像-文本跨模态检索方法及其系统 | |
CN112199532B (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN112905801A (zh) | 基于事件图谱的行程预测方法、系统、设备及存储介质 | |
Fang et al. | Topological optimization of the DenseNet with pretrained-weights inheritance and genetic channel selection | |
CN112529057A (zh) | 一种基于图卷积网络的图相似性计算方法及装置 | |
CN109919172A (zh) | 一种多源异构数据的聚类方法及装置 | |
Zhang et al. | Modeling the Homophily Effect between Links and Communities for Overlapping Community Detection. | |
CN111488498A (zh) | 基于图神经网络的“节点-图”跨层图匹配方法及系统 | |
CN115661550A (zh) | 基于生成对抗网络的图数据类别不平衡分类方法及装置 | |
CN112364747A (zh) | 一种有限样本下的目标检测方法 | |
CN117237559A (zh) | 面向数字孪生城市的三维模型数据智能分析方法及系统 | |
Xu et al. | Graphical modeling for multi-source domain adaptation | |
CN113762331A (zh) | 关系型自蒸馏方法、装置和系统及存储介质 | |
CN117349494A (zh) | 空间图卷积神经网络的图分类方法、系统、介质及设备 | |
CN117011219A (zh) | 物品质量检测方法、装置、设备、存储介质和程序产品 | |
CN115664970A (zh) | 基于双曲空间的网络异常点检测方法 | |
CN115204171A (zh) | 基于超图神经网络的文档级事件抽取方法及系统 | |
CN113159976B (zh) | 一种微博网络重要用户的识别方法 | |
CN114782752A (zh) | 基于自训练的小样本图像集成分类方法及装置 | |
Qiang et al. | Hybrid deep neural network-based cross-modal image and text retrieval method for large-scale data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210319 |