CN113255895A - 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法 - Google Patents

基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法 Download PDF

Info

Publication number
CN113255895A
CN113255895A CN202110632199.XA CN202110632199A CN113255895A CN 113255895 A CN113255895 A CN 113255895A CN 202110632199 A CN202110632199 A CN 202110632199A CN 113255895 A CN113255895 A CN 113255895A
Authority
CN
China
Prior art keywords
graph
node
nodes
sub
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110632199.XA
Other languages
English (en)
Other versions
CN113255895B (zh
Inventor
夏逸宽
张吉
高军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Zhejiang Lab
Original Assignee
Peking University
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Zhejiang Lab filed Critical Peking University
Priority to CN202110632199.XA priority Critical patent/CN113255895B/zh
Publication of CN113255895A publication Critical patent/CN113255895A/zh
Application granted granted Critical
Publication of CN113255895B publication Critical patent/CN113255895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法。该方法对训练数据中的图进行子图采样;通过有标注的已经对齐的节点对,利用图神经网络学习子图中节点的低维向量表示;根据子图中节点的低维向量表示计算节点之间的相似度,并以相似度作为依据对图进行对齐,最终获得训练好参数的图神经网络;在推测阶段,对待对齐的两图通过训练好的图神经网络得到每个节点的低维向量表示,进而计算节点之间的相似度,并以相似度作为依据对两图进行对齐,进而利用对齐后的多图数据进行联合数据挖掘。本发明在有监督的设置下,考虑了模型的表达性能,损失函数设置,以及表示向量空间约束和可扩展性,实现了对已有方法的提升。

Description

基于图神经网络表示学习的结构图对齐方法和多图联合数据 挖掘方法
技术领域
本发明属于信息技术领域,具体涉及一种基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法。
背景技术
图数据以点和边的形式来描述事物之间的关系,可以很好地描述客观世界中的事物联系,在生产生活中随处可见,如社交网络、知识图谱、电子商务等。而随着近年来数据规模飞速增长,很多客观实体不能够在同一个图中进行表示,我们常常需要对多个图中的实体挖掘其中的联系。因此,图对齐作为多图联合数据挖掘的一个必要的预处理步骤,有着非常广泛的应用和需求。比如,当今很多人很可能在多个社交网络中拥有账号,如果想要整合多个社交网络的信息进行数据分析,第一步就是需要对于多个社交网络中由同一个自然人持有的账号进行对齐。又比如,当今很多互联网公司互相并购,如果需要利用购入的公司的数据进行联合推荐,也需要首先利用账号之间的关系,对账号进行对齐。一个好的对齐结果可以使得后续的多图联合的下游任务的结果大幅提升,因此如何在多图之间挖掘对应的节点关系是一种迫切的需要。
现有的方法从模型角度可以分为两大类:基于优化函数的算法和基于图表示学习的算法。基于优化函数的算法通过定义节点之间对齐的一致性指标(如相似的节点的邻居也应该相似)来获得一个优化函数,并通过算法来求解这个优化问题得到两图节点之间的相似性,并为一个节点选择另一个图中最相似的点作为对齐的点。基于图神经网络的算法则通过图神经网络聚合每个节点周围节点的信息,通过约束给定的已知对应的节点向量之间的距离来学习得到适用于图对齐的表示向量。
基于第一类的代表性算法如FINAL,通过对齐一致性约束得到优化问题,并将其转化成类似于Pagerank的迭代优化问题,并给出了快速的近似算法。这个方法的问题在于优化问题具有O(n2)的复杂度,不利于扩展,并且算法的效果有待提高。基于第二类的算法如IONE,对于每个节点学习一对输入输出上下文表示,来分别代表在社交网络中关注和被关注的关系,更好地捕捉用户之间的相似性。这个方法的问题在于建模过于简单,表达能力不足,同时也不利于扩展到超大规模的图数据上。
从算法可扩展性的角度,由于图对齐算法通常需要计算图节点两两之间的相似度,需要图规模平方级别的存储和时间复杂度。因此在显存受限的情况下,如果在全图范围内训练一个模型,在时间和空间上都很难保证算法的可扩展性。从模型效果的角度,现有方法在模型架构,和指导训练的损失函数上都有优化的空间,在表达能力上有所欠缺,导致模型的性能不足,并且现有方法并没有考虑到两图映射空间的一致性。
发明内容
为了提高图对齐算法的可扩展性,并且在算法训练过程中对图结构的信息进行充分利用,本专利提出了一种基于图神经网络表示学习的结构图对齐方法,该方法采用针对结构图对齐的有监督图表示学习方法,通过有标注的已经对齐的节点对来学习结构图中节点的低维向量表示,这些向量可以直接计算距离来得到两图节点之间的相似度,并以此作为依据进行对齐。
本发明采用的技术方案如下:
一种基于图神经网络表示学习的结构图对齐方法,包括训练阶段和推测阶段:
所述训练阶段包括:对训练数据中的图进行子图采样;对于采样的子图,通过有标注的已经对齐的节点对,利用图神经网络学习子图中节点的低维向量表示;根据子图中节点的低维向量表示计算节点之间的相似度,并以相似度作为依据对图进行对齐,最终获得训练好参数的图神经网络;
所述推测阶段包括:对待对齐的两图,通过训练好参数的图神经网络得到每个节点的低维向量表示,根据节点的低维向量表示计算节点之间的相似度,并以相似度作为依据对两图进行对齐。
进一步地,所述图神经网络以两层GAT网络作为主干网络,并共享第一层GAT网络的参数。
进一步地,所述相似度的计算公式为:
Pi,j=(Sigmoid(<MLPpred(H1′i),H2′j>)+Sigmoid(<MLPpred(H2′j),H1′i>))/2
其中,Pi,j表示采样的子图G1′中的节点i与子图G2′中的节点j的相似度;MLPpred表示MLP预测头;MLPpred(H1′i)表示经过MLP预测头后的子图G1′的节点的隐层表示;MLPpred(H2′j)表示经过MLP预测头后的子图G2′的节点的隐层表示,H1′i表示子图G1′的节点经过GAT编码器的隐层表示,H2′j表示子图G2′的节点经过GAT编码器的隐层表示,Sigmoid表示激活函数。
进一步地,在所述训练阶段,在采样得到的子图上,根据三种损失函数计算图神经网络的损失,然后通过反向传播梯度下降算法训练图神经网络,得到训练好的神经网络的参数;所述三种损失函数包括二分类损失、Margin损失和MMD损失。
进一步地,所述子图采样包括以下步骤:
对于待对齐的其中一个图,利用切割工具切割得到子图,通过随机游走的方法扩展切割得到的子图,得到子图最邻近、最关键的邻居并加入到子图中,即对于待扩展子图的每个节点都随机游走得到多条长为T的路径,并统计在这些路径中出现频率多的节点作为选择的节点;在待对齐的另一个图中,以已知的对齐的节点作为骨架扩展子图,得到两个子图,将得到的两个子图交给图神经网络模型进行训练。
进一步地,所述子图采样包括以下步骤:
选取最初已知的对应子图作为骨干进行扩展,通过随机游走的算法分别扩展两图的子图交给模型进行训练,之后选取若干最自信的点进行扩展;所述最自信的点是指,如果目前的模型对于两图中的点i,j给出对应的相似度Pi,j,那么当前模型最自信的点k为argmaxi(maxj(Pi,j));在扩展少量的节点之后,通过随机游走的算法扩展适量的节点作为下一个交给模型训练的子图;通过扩展节点的数量,保证扩展得到的子图相对均衡。
一种多图联合数据挖掘方法,包括以下步骤:
采用上述方法对至少两个图中的数据进行图对齐;
利用对齐后的多图数据进行联合数据挖掘。
本发明提出的基于图神经网络表示学习的结构图对齐方法,在有监督的设置下,考虑了模型的表达性能,损失函数设置,表示向量空间约束和可扩展性,实现了对已有方法的提升。
本方法的优点如下:
1)现有的利用图神经网络的图对齐算法使用的模型相对简单,表达能力不强。本方法采用GAT的图神经网络模型,可以更好地建模节点之间聚合的关系。本方法提出的MLP预测头,可以进一步提高模型的表达能力,更符合度量相似度的对比学习的机器学习场景,同时双向的相似度计算可以分别考虑两图之间的联系,在两图不对等的情况下可以获得更好的效果。
2)现有的利用对抗训练来约束表示向量的方式具有不稳定,训练开销大等缺点,本方法引入的MMD损失,可以更快地衡量分布之间的差别,并且使得训练更稳定,参数更少,效果更好。
3)现有的图对齐算法在大图上进行整体的对齐,不具备大规模的扩展性。本方法提出通过子图采样的方法得到对齐模型,并进行拓展、整合,这样的策略有着更好的可扩展性,并且更符合现实中的场景。此外,现有的图对齐算法并没有考虑两图不对等、不均衡的情况,在不均衡的数据上无法取得令人满意的效果,采取子图采样的方法可以有效地规避这一问题,在均衡的子图上获得更好的效果。
附图说明
图1是本发明方法的整体框架图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
图表示学习是一种挖掘图中信息的方法,目标是学习图中节点的低维向量表示,能够针对目标任务进行简单的运算就能得到结果。在图对齐中,目标就是学习节点的低维向量表示,可以直接通过向量之间的距离计算来衡量两图之间节点的相似度。相比于直接计算两图节点之间的相似度,学习图表示向量有着更低的复杂度,更有利于进行大规模扩展,因此本专利关注于学习图表示向量来解决图对齐问题。又由于在现实生活中,图上完整的属性信息有时并不能获得,因此本专利关注利用图结构信息来进行图对齐的技术。本专利根据图对齐问题的特点,对于图神经网络对齐的架构进行了优化,提高了性能,并且引入子图采样的技术,提高效果和可扩展性。
本专利是在有监督的设置下利用图神经网络来学习两结构图中的节点的低维向量表示,并依据此来进行对齐。为了提高算法的性能,本专利优化了图神经网络的输入、结构、损失函数,来获得最大的表达能力。同时,本专利考虑了两图表示空间应保持的一致性,进一步优化了性能。为了提升算法的可扩展性,本专利利用子图采样的方法来减小训练数据规模,平衡采集得到的子图的规模,使得采样的子图更加合理,在子图上取得更优的性能,使得算法能够扩展到更大的图上。
本发明方法的整体框架如图1所示。给定两个待对齐的图G1={V1,E1},G2={V2,E2},其中V代表图中的节点集,而E代表图中的边集。将在对齐之前已经知道的对齐的节点视为已知的对齐节点,比如在社交网络中填写了另一个社交网络里对应账号的用户节点集合。首先根据两图结构和已知的对齐节点构成异构图,并选择左图节点-左图节点-右图节点-右图节点作为指导路径随机游走的metapath(元路径),使用metapath2vec方法采样并且训练得到左右图节点的初始向量,记作{X1,X2}。其中左图是指G1,右图是指G2。接下来,采集初始子图并根据给定的图神经网络模型得到子图上的对应的对齐表示向量,根据已有的模型挑选出最自信的节点加入子图当中,并变化采样子图,继续训练上述模型,最终得到对齐的表示向量和结果。
下面给出模型和子图采样的详细构造以及具体实施方式。
1.模型:
对于给定的采集好的子图G1′,G2′,本专利利用图神经网络建模节点的邻居信息,并通过已知节点的对应关系约束训练,并将两图表示空间加以约束以获得更好的效果。
具体来说,本专利使用一个两层GAT(Graph Attention Networks,图注意力网络)网络作为主干网络,因为GAT可以更好地捕捉到每个节点更关键的邻居来辅助对齐。特别地,本专利共享GAT网络的第一层参数,而区别于两层网络不共享参数,共享第一层GAT的参数可以用较小的参数量获得较好的效果。
将上述得到的代表图的结构信息的G1′,G2′中节点的初始向量{X1′,X2′}视为GAT的输入向量。假设共享的第一层GAT为GAT{0},第二层GAT分别为GAT{1}{0},GAT{1}{1}。那么得到两图GAT第二层的输出分别是H1′=GAT{1}{0}(GAT{0}(X1′)),H2′=GAT{1}{1}(GAT{0}(X2′))。
之后将得到的隐层表示H1′,H2′分别通过一个MLP(Multilayer perceptron,多层感知机)预测头,并通过内积运算来与另一图的隐层表示计算相似度。假设此处的两层MLP预测头为MLPpred,对于子图G1′中的节点i与子图G2′中的节点j,计算这两节点对应的概率(即相似度)为:
Pi,j=(Sigmoid(<MLPpred(H1′i),H2′j>)+Sigmoid(<MLPpred(H2′j),H1′i>))/2。
其中,MLPpred(H1′i)即图1中的P1′,表示经过MLP预测头后的子图G1′的节点的隐层表示;MLPpred(H2′j)即图1中的P2′,表示经过MLP预测头后的子图G2′的节点的隐层表示,H1′i表示子图G1′的节点经过GAT编码器的隐层表示,H2′j表示子图G2′的节点经过GAT编码器的隐层表示,Sigmoid表示激活函数
Figure BDA0003104100270000051
假设有给定的对应节点集合Cor,使得所有对应的上述子图G1′的节点i与子图G2′的节点j,满足(i,j)∈Cor。采样节点对(i′,j′)!∈Cor,本专利将对应与不对应看作一个二分类问题,并通过交叉熵来作为损失函数,即二分类损失(Binary-Classifier Loss)为:
Loss1=∑(i,j)-log(Pi,j)+∑(i′,j′)-log(1-Pi′,j′)。
其中,i′表示采集出的负样本节点对中子图G1′的节点的序号,j′表示采集出的负样本节点对中子图G2′的节点的序号,Pi′,j′表示采集出的负样本节点对属于同一实体的概率。
另外,本专利提出应该保证一节点与已知对应节点的相似度要高于其负采样节点的相似度,并通过Margin损失(Margin Loss)来约束这一点,即:
Loss2=∑(i,j)∈Cor,(i,j′)!∈Cormax(-Pi,j+m+Pi,j′,0),其中m为给定的margin,margin表示正样本与负样本之间应该被分开的边界大小。
为了保证两图表示空间的相似性,本专利提出运用最大平均差异MMD(MaximumMean Discrepancy)衡量两图空间的差异,并且通过减小MMD来约束这一点。通过采样两图分布中的向量并进行MMD运算,可以在更短的时间里得到这一指标,并规避掉使用对抗训练的不稳定性和高昂的代价。具体地说,两分布之间的MMD定义为:
Figure BDA0003104100270000061
其中(xi,xj)、(xi,yj)、(yi,yj)为从[X,Y]中采样得到的n^2个向量,X表示子图G1′的节点的隐层表示空间的随机变量,Y表示子图G2′的节点的隐层表示空间的随机变量,MMD[X,Y]表示度量X,Y这两个随机变量的MMD距离,而k是用于衡量向量之间相似度的一个核函数。
本专利提出通过上述的MMD定义来约束上述得到的两图的隐向量空间,即MMD损失(MMD Loss)为:Loss3=MMD[H1,H2]。
本专利的模型通过上述的三个Loss联合进行训练,得到对应的表示向量,并通过上述的方式进行相似度计算,来得到图对齐的结果。
2.子图采样:
本专利通过采集更加均衡的子图来剔除不必要的节点和边来获得更好的图对齐效果,并且由于子图的规模可控,可以获得更好的可扩展性能。
本专利提出两个方法来通过子图解决图对齐的问题。
其一,对于待对齐的其中一个图(整图),利用Metis等图切割工具分割,并且设置权重,引导分割算法保留待测试节点的连边。对于每个切割得到的子图,本专利提出通过随机游走的方法扩展切割得到的子图,通过随机游走得到子图最邻近、最关键的邻居并加入到子图中。具体地说,通过对于待扩展子图的每个节点都随机游走得到多条长为T的路径,并统计在这些路径中出现频率多的节点作为选择的节点。在待对齐的另一个图(整图)中,以已知的对齐的节点作为骨架扩展子图,得到两个子图(这里指第一个图切割成一堆子图,对于每一个子图都在第二个图中扩展出一个子图,每一个第一个图的子图都会得到第二个图中的一个子图,是为两个子图)。并将得到的两个子图交给模型进行训练。
得到每个对应子图的模型后,可以通过对应的概率整合每个子图模型。具体地说,对于一个子图上的某一个节点i,和另一子图上的节点j,如果存在n个子图模型衡量了节点i和节点j之间的相似度,并且
Figure BDA0003104100270000071
为第k个子图模型给出的i,j之间的相似度,那么可以得到最终的相似度为
Figure BDA0003104100270000072
其二,选取最初已知的对应子图作为骨干进行扩展。通过上述随机游走的算法分别扩展两图的子图交给模型进行训练。之后选取若干模型最自信的点进行扩展。具体地说,这里模型最自信的点是指,如果目前的模型对于两图中的点i,j给出对应的相似度Pi,j,那么当前模型最自信的点k为argmaxi(maxj(Pi,j))。在扩展少量的节点之后,通过上述随机游走的算法扩展适量的节点作为下一个交给模型训练的子图。通过扩展节点的数量,可以保证扩展得到的子图相对均衡。
不断重复这个过程,直到模型选择出了关键的点和边,最终得到一个更好的子图,并在上面得到了更好的模型和表示向量。
在训练阶段,通过上述方法采样子图,然后在采样得到的子图对上,根据上述三种损失函数计算神经网络的损失,然后通过反向传播梯度下降算法训练神经网络后,得到训练好的神经网络的参数。并通过上述的扩展、整合的方法,得到最后的图神经网络模型。在推测阶段,输入通过metapath2vec得到的初始节点向量,然后通过训练好参数的图神经网络得到每个节点的表示向量。之后可以通过组织表示向量的数据结构,快速高效地找到待对齐节点到目标图各节点的相似度,完成图对齐的工作。
为了测试本发明方法的有效性,在四个公开的结构图对数据集上进行了实验。其中Foursquare-Twitter数据集是两个社交网络数据,分别有5313,5120个点,和76972,164920条边,边代表社交网络中的关注、好友关系,其中的对齐数据来自于共用账号的自然人在Google+服务上的记录,共有2708条已知的对齐数据。Douban-Weibo数据集也是两个社交网络数据,分别有10103,9576个点,和527980,270780条边,边代表社交网络中的关注、好友关系,其中的对齐数据来自于网络爬虫,共有4752条已知的对齐数据。DBLP数据集是两个学术引用网络数据,分别11526,12311个点,和28565,26162条边,点代表两个不同领域中发表过论文的学者,边代表他们的引用关系,其中的对齐数据来自于同时在两个领域发表过论文的学者,共有1295条对齐的数据。Reddit数据集是Reddit社区的帖子数据集,节点代表论坛中的帖子,连边表示被同一个用户评论过的关系,共有232965个点,11606919条边。通过一定的概率腐蚀原图中的边,并且打乱节点得到一个新的图,作为需要对齐的第二行图,已知的对齐数据就是原图中所有的点。
在上述四个数据集上选取一定比例的已知对应节点作为模型知道的用于训练对应节点,而剩下的对应节点作为测试节点,利用生成的节点向量表示进行距离计算来衡量相似度,来进行图对齐任务。采用节点找到的对应节点的top-k精度和MPR指标来评判,实验结果表明,本专利的方法在有监督的图对齐任务中达到了优秀的结果,比已有的先进方法平均高出5个百分点。在可扩展性方面,本方法的子图采样方法在Reddit数据集上获得了与全图模型相当的性能,而许多之前的算法受限于高昂的时间与空间代价无法在这个数据集上获得结果。
本发明的另一个实施例提供一种基于本发明的图对齐方法的多图联合数据挖掘方法,包括以下步骤:
1)预处理:采用本发明的上述方法对至少两个图中的数据进行图对齐;
2)多图联合数据挖掘:利用对齐后的多图数据进行数据挖掘。比如:
在社交网络领域,可以利用多社交网络中的朋友关系进行联合数据挖掘,得到更准确的朋友预测和推荐。
在电子商务领域,可以利用多电子商务平台中的用户和商品关系进行联合数据挖掘,得到更准确的商品推荐。
基于同一发明构思,本发明的另一实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
本专利中提到的图神经网络选择为GAT,可以替代为其他图神经网络。
本专利中提到的最初的节点向量生成方式Metapath2vec,可以替代为其他可以表达节点之间邻居关系的图表示算法。
本发明未详细阐述的部分属于本领域技术人员的公知技术。
以上公开的本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容,本发明的保护范围以权利要求书界定的范围为准。

Claims (10)

1.一种基于图神经网络表示学习的结构图对齐方法,其特征在于,包括训练阶段和推测阶段:
所述训练阶段包括:对训练数据中的图进行子图采样;对于采样的子图,通过有标注的已经对齐的节点对,利用图神经网络学习子图中节点的低维向量表示;根据子图中节点的低维向量表示计算节点之间的相似度,并以相似度作为依据对图进行对齐,最终获得训练好参数的图神经网络;
所述推测阶段包括:对待对齐的两图,通过训练好参数的图神经网络得到每个节点的低维向量表示,根据节点的低维向量表示计算节点之间的相似度,并以相似度作为依据对两图进行对齐。
2.根据权利要求1所述的方法,其特征在于,所述图神经网络以两层GAT网络作为主干网络,并共享第一层GAT网络的参数。
3.根据权利要求1所述的方法,其特征在于,所述相似度的计算公式为:
Pi,j=(Sigmoid(<MLPpred(H1′i),H2′j>)+Sigmoid(<MLPpred(H2′j),H1′i>))/2
其中,Pi,j表示采样的子图G1′中的节点i与子图G2′中的节点j的相似度;MLPpred表示MLP预测头;MLPpred(H1′i)表示经过MLP预测头后的子图G1′的节点的隐层表示;MLPpred(H2′j)表示经过MLP预测头后的子图G2′的节点的隐层表示,H1′i表示子图G1′的节点经过GAT编码器的隐层表示,H2′j表示子图G2′的节点经过GAT编码器的隐层表示,Sigmoid表示激活函数。
4.根据权利要求1所述的方法,其特征在于,在所述训练阶段,在采样得到的子图上,根据三种损失函数计算图神经网络的损失,然后通过反向传播梯度下降算法训练图神经网络,得到训练好的神经网络的参数;所述三种损失函数包括二分类损失、Margin损失和MMD损失。
5.根据权利要求4所述的方法,其特征在于,所述三种损失函数的计算公式为:
假设有给定的对应节点集合Cor,使得所有对应的子图G1′的节点i与子图G2′的节点j,满足(i,j)∈Cor;采样节点对(i′,j′)!∈Cor,将对应与不对应看作一个二分类问题,并通过交叉熵来作为损失函数,即二分类损失为:
Loss1=∑(i,j)-log(Pi,j)+∑(i′,j′)-log(1-Pi′,j′),
其中,i′表示采集出的负样本节点对中子图G1′的节点的序号,j′表示采集出的负样本节点对中子图G2′的节点的序号,Pi′,j′表示采集出的负样本节点对属于同一实体的概率;
通过Margin损失保证一节点与已知对应节点的相似度要高于其负采样节点的相似度,即:Loss2=∑(i,j)∈Cor,(i,j′)!∈Cormax(Pi,j+m-Pi,j′,0),其中m为给定的margin;
Loss2=∑(i,j)∈Cor,(i,j′)!∈Cormax(-Pi,j+m+Pi,j′,0),
其中,m为给定的margin,margin表示正样本与负样本之间应该被分开的边界大小;
MMD定义为:
Figure FDA0003104100260000021
其中(xi,xj)、(xi,yj)、(yi,yj)为从[X,Y]中采样得到的n^2个向量,X表示子图G1′的节点的隐层表示空间的随机变量,Y表示子图G2′的节点的隐层表示空间的随机变量,MMD[X,Y]表示度量X,Y这两个随机变量的MMD距离,k是用于衡量向量之间相似度的一个核函数;
通过上述的MMD定义来约束两图的隐向量空间,即MMD损失为:Loss3=MMD[H1,H2]。
6.根据权利要求1所述的方法,其特征在于,所述子图采样包括以下步骤:
对于待对齐的其中一个图,利用切割工具切割得到子图,通过随机游走的方法扩展切割得到的子图,得到子图最邻近、最关键的邻居并加入到子图中,即对于待扩展子图的每个节点都随机游走得到多条长为T的路径,并统计在这些路径中出现频率多的节点作为选择的节点;在待对齐的另一个图中,以已知的对齐的节点作为骨架扩展子图,得到两个子图,将得到的两个子图交给图神经网络模型进行训练。
7.根据权利要求1所述的方法,其特征在于,所述子图采样包括以下步骤:
选取最初已知的对应子图作为骨干进行扩展,通过随机游走的算法分别扩展两图的子图交给模型进行训练,之后选取若干最自信的点进行扩展;所述最自信的点是指,如果目前的模型对于两图中的点i,j给出对应的相似度Pi,j,那么当前模型最自信的点k为argmaxi(maxj(Pi,j));在扩展少量的节点之后,通过随机游走的算法扩展适量的节点作为下一个交给模型训练的子图;通过扩展节点的数量,保证扩展得到的子图相对均衡。
8.一种多图联合数据挖掘方法,其特征在于,包括以下步骤:
采用权利要求1~7中任一权利要求所述的方法对至少两个图中的数据进行图对齐;
利用对齐后的多图数据进行联合数据挖掘。
9.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一权利要求所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一权利要求所述的方法。
CN202110632199.XA 2021-06-07 2021-06-07 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法 Active CN113255895B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110632199.XA CN113255895B (zh) 2021-06-07 2021-06-07 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110632199.XA CN113255895B (zh) 2021-06-07 2021-06-07 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法

Publications (2)

Publication Number Publication Date
CN113255895A true CN113255895A (zh) 2021-08-13
CN113255895B CN113255895B (zh) 2023-06-16

Family

ID=77186794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110632199.XA Active CN113255895B (zh) 2021-06-07 2021-06-07 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法

Country Status (1)

Country Link
CN (1) CN113255895B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113850381A (zh) * 2021-09-15 2021-12-28 支付宝(杭州)信息技术有限公司 一种图神经网络训练方法及装置
CN114494783A (zh) * 2022-01-27 2022-05-13 南京邮电大学 一种基于动态图神经网络的预训练方法
CN114708479A (zh) * 2022-03-31 2022-07-05 杭州电子科技大学 一种基于图结构和特征的自适应防御方法
CN115272404A (zh) * 2022-06-17 2022-11-01 江南大学 一种基于核空间和隐式空间特征对齐的多目标跟踪方法
CN116304367A (zh) * 2023-02-24 2023-06-23 河北师范大学 基于图自编码器自监督训练用于获得社区的算法及装置
WO2023115521A1 (en) * 2021-12-24 2023-06-29 Robert Bosch Gmbh Method and apparatus for enity alignment
CN117669572A (zh) * 2023-12-08 2024-03-08 北京工业大学 信息处理方法、装置、电子设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180210890A1 (en) * 2017-01-25 2018-07-26 Electronics And Telecommunications Research Institute Apparatus and method for providing content map service using story graph of video content and user structure query
CN109636658A (zh) * 2019-01-17 2019-04-16 电子科技大学 一种基于图卷积的社交网络对齐方法
CN111860783A (zh) * 2020-07-22 2020-10-30 中山大学 图节点低维表征学习方法、装置、终端设备及存储介质
CN111950594A (zh) * 2020-07-14 2020-11-17 北京大学 基于子图采样的大规模属性图上的无监督图表示学习方法和装置
CN112084373A (zh) * 2020-08-05 2020-12-15 国家计算机网络与信息安全管理中心 一种基于图嵌入的多源异构网络用户对齐方法
CN112241478A (zh) * 2020-11-12 2021-01-19 广东工业大学 一种基于图神经网络的大规模数据可视化降维方法
US20210150152A1 (en) * 2019-11-20 2021-05-20 Oracle International Corporation Employing abstract meaning representation to lay the last mile towards reading comprehension

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180210890A1 (en) * 2017-01-25 2018-07-26 Electronics And Telecommunications Research Institute Apparatus and method for providing content map service using story graph of video content and user structure query
CN109636658A (zh) * 2019-01-17 2019-04-16 电子科技大学 一种基于图卷积的社交网络对齐方法
US20210150152A1 (en) * 2019-11-20 2021-05-20 Oracle International Corporation Employing abstract meaning representation to lay the last mile towards reading comprehension
CN111950594A (zh) * 2020-07-14 2020-11-17 北京大学 基于子图采样的大规模属性图上的无监督图表示学习方法和装置
CN111860783A (zh) * 2020-07-22 2020-10-30 中山大学 图节点低维表征学习方法、装置、终端设备及存储介质
CN112084373A (zh) * 2020-08-05 2020-12-15 国家计算机网络与信息安全管理中心 一种基于图嵌入的多源异构网络用户对齐方法
CN112241478A (zh) * 2020-11-12 2021-01-19 广东工业大学 一种基于图神经网络的大规模数据可视化降维方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XINLEI CHEN ET AL.: "Exploring Simple Siamese Representation Learning", 《ARXIV.ORG》 *
ZIJIAN WANG ET AL.: "Prototype-matching graph network for heterogeneous domain adaptation", 《MM "20: PROCEEDINGS OF THE 28TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *
任尊晓 等: "一种基于多尺度特征和改进采样策略的异构网络对齐方法", 《数据采集与处理》 *
李慧 等: "一种基于图卷积自编码模型的多维度学科知识网络融合方法", 《图书情报工作》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113850381A (zh) * 2021-09-15 2021-12-28 支付宝(杭州)信息技术有限公司 一种图神经网络训练方法及装置
WO2023115521A1 (en) * 2021-12-24 2023-06-29 Robert Bosch Gmbh Method and apparatus for enity alignment
CN114494783A (zh) * 2022-01-27 2022-05-13 南京邮电大学 一种基于动态图神经网络的预训练方法
CN114708479A (zh) * 2022-03-31 2022-07-05 杭州电子科技大学 一种基于图结构和特征的自适应防御方法
CN114708479B (zh) * 2022-03-31 2023-08-29 杭州电子科技大学 一种基于图结构和特征的自适应防御方法
CN115272404A (zh) * 2022-06-17 2022-11-01 江南大学 一种基于核空间和隐式空间特征对齐的多目标跟踪方法
CN115272404B (zh) * 2022-06-17 2023-07-18 江南大学 一种基于核空间和隐式空间特征对齐的多目标跟踪方法
CN116304367A (zh) * 2023-02-24 2023-06-23 河北师范大学 基于图自编码器自监督训练用于获得社区的算法及装置
CN116304367B (zh) * 2023-02-24 2023-12-01 河北师范大学 基于图自编码器自监督训练用于获得社区的算法及装置
CN117669572A (zh) * 2023-12-08 2024-03-08 北京工业大学 信息处理方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN113255895B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN113255895B (zh) 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法
CN111950594B (zh) 基于子图采样的大规模属性图上的无监督图表示学习方法和装置
CN110347932B (zh) 一种基于深度学习的跨网络用户对齐方法
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
Guo et al. Trust-aware recommendation based on heterogeneous multi-relational graphs fusion
CN109743196B (zh) 一种基于跨双层网络随机游走的网络表征方法
Li et al. Hypergraph transformer neural networks
Liu et al. NAS-SCAM: Neural architecture search-based spatial and channel joint attention module for nuclei semantic segmentation and classification
CN112784118A (zh) 一种对三角形结构敏感的图中的社区发现方法和装置
Jin et al. Deepwalk-aware graph convolutional networks
Zhou et al. Betweenness centrality-based community adaptive network representation for link prediction
Xie et al. A joint link prediction method for social network
Huang et al. Deep adaptive interest network: personalized recommendation with context-aware learning
Liang et al. MHFP: Multi-view based hierarchical fusion pooling method for 3D shape recognition
Cai et al. Automatic relation-aware graph network proliferation
CN114743053A (zh) 基于图神经网络和自注意力的磁共振影像辅助处理系统
CN113989544A (zh) 一种基于深度图卷积网络的群体发现方法
CN110633394B (zh) 基于特征加强的图压缩方法
Su et al. Semantically guided projection for zero-shot 3D model classification and retrieval
Wei et al. G^ 2SAM: Graph-Based Global Semantic Awareness Method for Multimodal Sarcasm Detection
Chen et al. Gaussian mixture embedding of multiple node roles in networks
CN106650972B (zh) 一种面向社交网络基于云模型的推荐系统评分预测方法
CN115346055A (zh) 一种基于多核宽度图神经网络特征提取与分类方法
Xu et al. Recursive multi-relational graph convolutional network for automatic photo selection
CN114913028A (zh) 一种基于知识图谱提取倾向性的群组推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant