CN111783879A - 基于正交注意力机制的层次化压缩图匹配方法及系统 - Google Patents
基于正交注意力机制的层次化压缩图匹配方法及系统 Download PDFInfo
- Publication number
- CN111783879A CN111783879A CN202010617255.8A CN202010617255A CN111783879A CN 111783879 A CN111783879 A CN 111783879A CN 202010617255 A CN202010617255 A CN 202010617255A CN 111783879 A CN111783879 A CN 111783879A
- Authority
- CN
- China
- Prior art keywords
- graph
- vector
- matching
- compression
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000006835 compression Effects 0.000 title claims abstract description 121
- 238000007906 compression Methods 0.000 title claims abstract description 121
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000007246 mechanism Effects 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims abstract description 199
- 239000011159 matrix material Substances 0.000 claims abstract description 85
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000007781 pre-processing Methods 0.000 claims abstract description 34
- 230000006870 function Effects 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 22
- 230000009466 transformation Effects 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 13
- 108010074506 Transfer Factor Proteins 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 9
- 238000007477 logistic regression Methods 0.000 claims description 5
- 238000012417 linear regression Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 17
- 230000009467 reduction Effects 0.000 abstract description 8
- 230000008569 process Effects 0.000 abstract description 6
- 238000000605 extraction Methods 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 208000030507 AIDS Diseases 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于正交注意力机制的层次化压缩图匹配方法及系统,包括获取拟匹配的大图数据对,对大图数据进行预处理;根据历史图库训练基于正交注意力机制的大图匹配模型;将预处理后的图数据对输入图匹配模型得到匹配结果并输出。本发明在获取图向量的过程中使用图注意力网络对图进行降维训练,对点向量进行更新,使得点向量能更好地表达图拓扑结构及节点信息,然后将降维后的点向量及邻接矩阵输入正交注意力网络进行图规模压缩,通过逐层压缩使得图信息的提取更加细致,最终获得了更为精确的图向量,进而通过压缩后的精确图向量进行图匹配,有利于图匹配结果的准确性,并且计算量小,计算更加快速准确。
Description
技术领域
本发明属于图计算、知识图谱技术领域,尤其涉及一种基于正交注意力机制的层次化压缩图匹配方法及系统。
背景技术
图匹配应用领域非常广泛,例如蛋白质结构匹配、三维对象匹配、路网分析及社交网络学习。其本质是图同构问题,而图同构已被证明是NP完全问题,没有多项式时间内的解,因此两图是否匹配的判定面临许多困难。
通常,学术界对图匹配问题的研究分为两类:精确匹配与近似匹配。人们最初对精确匹配进行了深入研究,产生了一系列图精确匹配算法,其中最具代表性的算法为A*算法。但精确匹配算法存在许多弊端,最突出的缺点在于,精确匹配只能处理16个点以内规模的图,然而随着社会发展,图数据规模日益增大,人们对大图匹配的需求日益增多,这一需求刺激了近似匹配领域的发展。近似匹配算法在匹配速度与准确度之间进行折中,最具代表性的算法包括A*-Beamsearch、Hungarian和VJ算法。但其时间复杂度依然很高,通常为图中节点数量的多项式时间或次指数时间,大图匹配消耗的时间常常难以忍受。
伴随着图表示学习的发展产生了新的解决思路,即基于图神经网络的深度学习方法。这类方法通常利用图表示学习方法获得所输入图对的低维向量表示,进而将图匹配问题转化为向量空间的相似度得分计算问题。然而,实际应用中,多数场景下我们不需要获得两图间确切的相似度得分,对于给定的图三元组(G1,G2,G3),只需知道图G1与G2更相似还是与G3更相似,即进行相对相似度比较。另外,目前的图深度学习方法在几十个点的图上匹配结果较好,泛化至几百点的图准确度偏低,因此提高模型泛化能力也是一个亟待解决的问题。
发明内容
本发明要解决的技术问题是怎样快速准确地对大图进行图匹配,提出了一种基于正交注意力机制的层次化压缩图匹配方法及系统。
为解决该问题,本发明采用的技术方案是:
一种基于正交注意力机制的层次化压缩图匹配方法,包括以下步骤:
步骤1:获取拟匹配的大图数据对,对大图数据进行预处理,所述预处理是指将图进行点向量初始化,所述大图数据是指节点数大于16个点以上的图;所述点向量初始化是指:对于给定包含n个节点(V1,V2,...,Vn)的图G,每个节点都转换为实数向量其中F表示向量初始维度,为人工设定的参数,向量初始化根据节点类型分为两种情况:若图中包含m种类型的节点,则构造维度为m的one-hot向量;若图中只有一种类型的节点,则构造维度为F的向量,每个维度初始值均设为1。
步骤2:根据历史图库训练基于正交注意力机制的大图匹配模型;
步骤3:将预处理后的图数据对输入图匹配模型得到匹配结果并输出。
进一步地,步骤2中所述大图匹配模型的训练方法为:
步骤2.1:获取历史图库中所有的大图数据,对历史图库中的大图数据进行预处理;
步骤2.2:对预处理后的历史图库采用VF2算法生成图数据样本训练库并添加标签,所述图数据训练样本库中每条样本的数据组织形式为(G1,G2)的成对形式,标签为1表示图数据中的两幅图G1与G2匹配,标签为0表示图数据中的两幅图G1与G2不匹配,将每一条图数据对及其标签作为一条训练样本;
步骤2.3:设置迭代次数,每次迭代随机从训练样本库中提取N条样本;
步骤2.4:对每一条样本数据中的两幅图各自的点向量集合[h1,h2,……,hn]及邻接矩阵A输入图注意力网络更新点向量,分别得到两幅图的低维点向量矩阵X;
步骤2.5:将所述低维点向量矩阵X进行线性转换,得到维度为n×kn的点向量矩阵n为线性转换前的点向量矩阵维度,kn为线性转换后的点向量矩阵维度,k∈(0,1)为人为设置的超参,的每一行对应压缩前的每个点向量,每一列对应压缩后的每个点向量,根据得到图压缩转换矩阵T,其中
是通过参数作用的X的线性转换矩阵,F表示向量初始维度,为人工设定的参数,转移因子Tp,q表示节点压缩前图节点p对于压缩后图节点q的权重,T为由转移因子Tp,q形成的图压缩转换矩阵,代表了正交注意力机制,是中的一行,代表图规模压缩前点p的向量表示,是中的一列,代表了的图规模压缩后簇q向量表示,LeakyReLU为激活函数,softmax为归一化函数;
步骤2.6:根据所述图压缩转换矩阵T进行图压缩,生成新的点向量矩阵X′及邻接矩阵A′,X′表示压缩后有kn个节点的图G′:
步骤2.7:将所述点向量矩阵X′及邻接矩阵A′输入步骤2.4,直至图对中的图被压缩至所需规模并输出图对(Gi,Gj)各自的图向量;
步骤2.8:计算图对(Gi,Gj)的欧式距离并利用自定义归一化函数进行归一化,采用交叉熵损失函数,优化图匹配模型使得分类结果与真实标签尽可能一致:
Lpair为图对(Gi,Gj)的真实标签,Eucij为向量空间上图对的欧式距离,scale为超参,训练时人为设定,N为训练样本数;
步骤2.9:当N条样本数据计算完后,更新迭代次数,返回步骤2.3,直至达到最大迭代次数,输出图匹配模型。
进一步地,所述图压缩模型为逻辑回归模型。
本发明还提供了一种基于正交注意力机制的层次化压缩图匹配系统,包括以下模块:
预处理模块:用于获取拟匹配的大图数据对,对大图数据进行预处理,所述预处理是指将图进行点向量初始化,所述大图数据是指节点数大于16个点以上的图;
大图匹配模型训练模块:用于根据历史图库训练基于正交注意力机制的大图匹配模型;
图匹配结果输出模块:用于将预处理后的大图数据对输入图匹配模型得到匹配结果并输出。
本发明还提供了一种针对于小图的图匹配方法,具体为:
一种基于正交注意力机制的层次化压缩图匹配方法,包括以下步骤:
S1:获取拟匹配的三元组图数据,对小图数据进行预处理,所述预处理是指将图进行点向量初始化;
S2:根据历史图库训练基于正交注意力机制的小图匹配模型;
S3:将预处理后的三元组图数据输入小图匹配模型得到匹配结果并输出。
进一步地,S2中所述小图匹配模型的训练方法为:
S2.1:获取历史图库中的小图数据,对历史图库中的小图数据进行预处理;
S2.2:对历史图库中的每条小图数据,用A*算法计算出数据集中任意两图间的图编辑距离,将数据组织为(G1,G2,G3)的三元组形式,每个三元组表示模型将进行(G1,G2)与(G1,G3)的相对相似度比较,将每个三元组数据作为一条样本数据,将(G1,G2)与(G1,G3)的图编辑距离之差作为样本数据的标签,G1、G2、G3分别表示历史图库中的小图数据;
S2.3:将历史图库中所有三元组图数据及其标签组成训练样本库;
S2.4:设置迭代次数,每次迭代随机从训练样本库中提取M条样本;
S2.5:对每一条样本中三元组中的各图的点向量集合及邻接矩阵A输入图注意力网络更新点向量,得到图的低维点向量矩阵;
S2.6:将所述低维点向量矩阵X进行线性转换,得到维度为n*kn的点向量矩阵的每一行对应压缩前的每个点向量,每一列对应压缩后的每个点向量,根据得到图压缩转换矩阵T,其中k∈(0,1)为人为设置的超参;
是通过参数作用的X的线性转换矩阵,转移因子Tp,q表示节点压缩前图节点p对于压缩后图节点q的权重,T为由转移因子Tp,q形成的图压缩转换矩阵,代表了正交注意力机制,是中的一行,代表图规模压缩前点p的向量表示,是中的一列,代表了的图规模压缩后簇q向量表示,LeakyReLU为激活函数,softmax为归一化函数;
S2.7:根据所述图压缩转换矩阵T,进行图压缩,生成新的点向量矩阵X′及邻接矩阵A′,X′表示压缩后有kn个节点的图G′:
其中,F表示向量初始维度,为人工设定的参数;
S2.8:将所述点向量矩阵X'及邻接矩阵A'输入S2.5,直至图对中的图被压缩至所需规模并输出三元组(Gi,Gj,Gk)各自的图向量,Gi、Gj、Gk分别表示历史图库中的小图数据;
S2.9:根据所输出的三元组(Gi,Gj,Gk)各自的图向量,分别计算(Gi,Gj)和(Gi,Gk)的欧式距离,采用均方误差损失函数,优化模型使得两欧式距离之差与真实值的图编辑距离之差尽可能接近:
Ltriple为三元组(Gi,Gj,Gk)的真实标签,Eucij为向量空间上(Gi,Gj)的欧式距离,Eucik为向量空间上(Gi,Gk)的欧式距离,M为训练样本数;
S2.10:当M条样本数据计算完后,更新迭代次数,返回S2.4,直至达到最大迭代次数,输出图匹配模型。
进一步地,所述小图匹配模型为线性回归模型。
本发明还提供了一种基于正交注意力机制的层次化压缩图匹配系统,包括以下模块:
小图数据预处理模块:获取拟匹配的三元组图数据,对小图数据进行预处理,所述预处理是指将图进行点向量初始化;
小图匹配模型训练模块:根据历史图库训练基于正交注意力机制的小图匹配模型;
图匹配结果输出模块:将预处理后的三元组图数据对输入小图匹配模型得到匹配结果并输出。
进一步地,步骤2.5或S2.5中所述更新点/簇向量的具体方法为:
a.计算图节点i与其邻居节点j之间的注意力权重:
其中,W是图注意力网络参数向量,hi表示第i个节点的点向量,hj表示第j个邻居节点的点向量;LeakyReLU为激活函数,
b.根据注意力权重更新图的节点信息:
将图的点向量集合及其邻接矩阵重复b次输入GAT网络,其中b为人工设定参数,网络输出为训练获得的图节点的低维向量X表示,Ni表示第i个节点的邻居节点集合;σ是非线性激活函数。
进一步地,所述点向量初始化是指:对于给定包含n个节点(V1,V2,...,Vn)的图G,每个节点都转换为实数向量其中F表示向量初始维度,为人工设定的参数,向量初始化根据节点类型分为两种情况:若图中包含m种类型的节点,则构造维度为m的one-hot向量;若图中只有一种类型的节点,则构造维度为F的向量,每个维度初始值均设为1。
与现有技术相比,本发明所取得的有益效果是:
本发明一种基于正交注意力机制的层次化压缩图匹配方法,对图进行点向量初始化后,由于图的全局拓扑结构中蕴含了丰富的图信息,图向量的获取是以图神经网络为基础的图相似度学习方法中的重要步骤,本发明在获取图向量的过程中首先通过图注意力网络进行点向量的降维,然后将降维后的点向量及邻接矩阵输入正交注意力网络进行图规模压缩,每一次压缩都利用正交图注意力机制获得每个节点对压缩后每个节点的贡献度,这是图的全局结构信息的体现,同时,逐层压缩也使得图信息的提取更加细致,最终获得了更为精确的图向量,进而通过压缩后的精确图向量进行图匹配,有利于图匹配结果的准确性。而且本发明使用压缩后的精确图向量进行图匹配,其计算量小,计算更加快速。因此,本发明可以快速准确的进行大图的匹配。本发明的方法同样适用于小图的匹配计算。
附图说明
图1为本发明实施例一的系统流程图;
图2为基于GNN的图相似度学习网络中图向量学习的一般方式;
图3为本发明正交注意力压缩机制示意图;
图4为基于GNN的图相似度学习网络注意力权重举例;
图5位本发明正交注意力压缩权重举例;
图6为本发明实施例二的系统流程图。
具体实施方式
实施例一:
图1至图5示出了本发明的一种具体实施例,一种基于正交注意力机制的层次化压缩图匹配方法,主要是针对于大图的匹配问题,如图1所示,本实施例中根据所处理数据图的规模使用逻辑回归模型,包括以下步骤:
步骤1:获取拟匹配的大图数据对,对大图数据进行预处理,所述预处理是指将图进行点向量初始化,所述大图数据是指节点数大于16个点以上的图;本实施例中采用20点至500点的大图;
步骤2:根据历史图库训练基于正交注意力机制的大图匹配模型;大图匹配模型的具体训练方法为:
步骤2.1:获取历史图库中所有的大图数据,对历史图库中的大图数据进行预处理;
步骤2.2:对预处理后的历史图库采用VF2算法生成图数据样本训练库并添加标签,所述图数据训练样本库中每条样本的数据组织形式为(G1,G2)的成对形式,标签为1表示,图数据中的两幅图G1与G2匹配,标签为0表示图数据中的两幅图G1与G2不匹配,将每一条图数据对及其标签作为一条训练样本;
本实施例中,采用VF2算法库生成正样本(即匹配的图)和负样本(即不匹配的图),正样本标签为1,负样本为0。在正样本生成上,由于两个同构的无标签图是完全相同的,因此,对同构条件进行了小幅松弛,以点数相差1-3点的最大同构子图作为正样本。采用点数相差3-7个点的图作为负样本。VF2算法是指论文“A(sub)graph isomorphism algorithmfor matching large graphs,IEEE transactions on pattern analysis and machineintelligence 2004Vol.26P1367-1372 0162-8828”得到。
步骤2.3:设置迭代次数,每次迭代随机从训练样本库中提取N条样本;
步骤2.4:对每一条样本数据中的两幅图各自的点向量集合[h1,h2,……,hn]及邻接矩阵A输入图注意力网络更新点向量,分别得到两幅图的低维点向量矩阵X;
a.计算图节点i与其邻居节点j之间的注意力权重:
其中,W是图注意力网络参数向量,hi表示第i个节点的点向量,hj表示第j个邻居节点的点向量;LeakyReLU为激活函数,
b.根据注意力权重更新图的节点信息:
将图的点向量集合及其邻接矩阵重复b次输入GAT网络,其中b为人工设定参数,网络输出为训练获得的图节点的低维向量X表示,Ni表示第i个节点的邻居节点集合;σ是非线性激活函数。
步骤2.5:将所述低维点向量矩阵X进行线性转换,得到维度为n×kn的点向量矩阵n为线性转换前的点向量矩阵维度,kn为线性转换后的点向量举着维度,k∈(0,1)为人为设置的超参,的每一行对应压缩前的每个点向量,每一列对应压缩后的每个点向量,根据得到图压缩转换矩阵T,其中;
是通过参数作用的X的线性转换矩阵,F表示向量初始维度,为人工设定的参数,转移因子Tp,q表示节点压缩前图节点p对于压缩后图节点q的权重,T为由转移因子Tp,q形成的图压缩转换矩阵,代表了正交注意力机制,是中的一行,代表图规模压缩前点p的向量表示,是中的一列,代表了的图规模压缩后簇q向量表示,LeakyReLU为激活函数,softmax为归一化函数;
步骤2.6:根据所述图压缩转换矩阵T进行图压缩,生成新的点向量矩阵X′及邻接矩阵A′,X′表示压缩后有kn个节点的图G′:
步骤2.7:将所述点向量矩阵X′及邻接矩阵A′输入步骤2.4,直至图对中的图被压缩至所需规模并输出图对(Gi,Gj)各自的图向量,Gi,Gj分别表示图对中的图数据;
步骤2.8:计算图对(Gi,Gj)的欧式距离并利用自定义归一化函数进行归一化,采用交叉熵损失函数,优化图匹配模型使得分类结果与真实标签尽可能一致,
Lpair为图对(Gi,Gj)的真实标签,Eucij为向量空间上图对的欧式距离,scale为超参,训练时人为设定,N为训练样本数;
步骤2.9:当N条样本数据计算完后,更新迭代次数,返回步骤2.3,直至达到最大迭代次数,输出图匹配模型。
步骤3:将预处理后的图数据对输入大图匹配模型得到匹配结果并输出。
将预处理后的拟匹配图数据对输入到大图匹配模型中,经过多层图注意力网络对图对中图的点向量及其邻接矩阵降维后,再输入到正交注意力网络进行压缩,重复这两步,直到图压缩到所需规模,甚至一个点后,计算压缩后图对的欧式距离,将欧式距离输入交叉熵损失函数,判断图对是否匹配,给出匹配结果。
本实施例中,大图匹配模型为逻辑回归模型。
在本实施例中,对图进行点向量初始化后,由于图的全局拓扑结构中蕴含了丰富的图信息,图向量的获取是以图神经网络为基础的图相似度学习方法中的重要步骤,现有技术在以图神经网络为基础的图相似度学习网络中,对于图向量的学习通常采用以下方式:1、节点向量加权求和,及求平均或其他方式,该方法完全忽略了图的拓扑结构,因此图信息提取欠缺;2、普通attention方式,将点向量与一个人为随机规定的全局图表示(如点向量的均值)进行注意力计算,该方法易受人为因素影响,且对图的全局信息提取不完善。本发明在获取图向量的过程中首先通过图注意力网络进行点向量的降维,由于使用图注意力网络对图进行训练,对点向量进行更新,使得点向量能更好地表达图拓扑结构及节点信息,然后将降维后的点向量及邻接矩阵输入正交注意力网络进行图规模压缩,每一次压缩都利用正交图注意力机制获得每个节点对压缩后每个节点的贡献度,这是图的全局结构信息的体现,同时,逐层压缩也使得图信息的提取更加细致,压缩后的点向量可以代表整个图的图向量,使用压缩后的图向量进行图匹配,有利于大图匹配计算,其原理符合真实世界中图的层次结构机理,因此,使用本发明最终获得了更为精确的图向量,进而通过压缩后的精确图向量进行图匹配,有利于图匹配结果的准确性。而且使用压缩后的精确图向量进行图匹配,其计算量小,计算更加快速。因此,本发明可以快速准确的进行大图的匹配。本发明的方法同样适用于小图的匹配计算。本发明基于深度学习计算框架TensorFlow实现。一般情况下,任意两层正交注意力压缩层之间采用两层图注意力网络进行节点/簇的向量更新,本实施例采用两层正交注意力压缩层进行图规模压缩,图最终被压缩为一个点。点向量初始化维度设置为128。
本发明还提供了一种基于正交注意力机制的层次化压缩图匹配系统,包括以下模块:
预处理模块:用于获取拟匹配的大图数据对,对大图数据进行预处理,所述预处理是指将图进行点向量初始化,所述大图数据是指节点数大于16个点以上的图;
大图匹配模型训练模块:用于根据历史图库训练基于正交注意力机制的大图匹配模型;
图匹配结果输出模块:用于将预处理后的大图数据对输入图匹配模型得到匹配结果并输出。
实施例二:
与实施例一不同的是,本实施例主要是为了针对于小图的匹配问题,也就是节点数小于16个点以内的图,针对于小图,现有技术中使用A*算法进行图匹配,但是本实施例通过使用两层正交注意力及图注意力压缩,使用被压缩后的图进行图匹配。
一种基于正交注意力机制的层次化压缩图匹配方法,如图6所示,包括以下步骤:
S1:获取拟匹配的三元组图数据,对小图数据进行预处理,所述预处理是指将图进行点向量初始化,所述小图数据是指节点数小于16个点以内的图;
S2:根据历史图库训练基于正交注意力机制的小图匹配模型;
根据权利要求5所述的方法,S2中所述小图匹配模型的训练方法为:
S2.1:获取历史图库中的小图数据,对历史图库中的小图数据进行预处理;
S2.2:对历史图库中的每条小图数据,用A*算法计算出数据集中任意两图间的图编辑距离,将数据组织为(G1,G2,G3)的三元组形式,每个三元组表示模型将进行(G1,G2)与(G1,G3)的相对相似度比较,将每个三元组数据作为一条样本数据,将(G1,G2)与(G1,G3)的图编辑距离之差作为样本数据的标签,G1、G2、G3分别表示历史图库中的小图数据;
S2.3:将历史匹配图库中所有三元组图数据及其标签组成训练样本库;
S2.4:设置迭代次数,每次迭代随机从训练样本库中提取M条样本;
S2.5:对每一条样本中三元组中的图各自的点向量集合及邻接矩阵A输入图注意力网络层更新点向量,得到图的低维点向量矩阵;
S2.6:将所述低维点向量矩阵X进行线性转换,得到维度为n*kn的点向量矩阵的每一行对应压缩前的每个点向量,每一列对应压缩后的每个点向量,根据得到图压缩转换矩阵T,其中k∈(0,1)为人为设置的超参;
是通过参数作用的X的线性转换矩阵,转移因子Tp,q表示节点压缩前图节点p对于压缩后图节点q的权重,T为由转移因子Tp,q形成的图压缩转换矩阵,代表了正交注意力机制,是中的一行,代表图规模压缩前点p的向量表示,是中的一列,代表了的图规模压缩后簇q向量表示,LeakyReLU为激活函数,softmax为归一化函数;
S2.7:根据所述图压缩转换矩阵T,进行图压缩,生成新的点向量矩阵X′及邻接矩阵A′,X′表示压缩后有kn个节点的图G′:
其中,F表示向量初始维度,为人工设定的参数;
S2.8:将所述点向量矩阵X'及邻接矩阵A'输入S2.5,直至图对中的图被压缩至所需规模并输出三元组(Gi,Gj,Gk)各自的图向量,Gi、Gj、Gk分别表示历史图库中的小图数据;
S2.9:根据所输出的三元组(Gi,Gj,Gk)各自的图向量,分别计算(Gi,Gj)和(Gi,Gk)的欧式距离,输入到均方误差损失函数,优化模型使得两欧式距离之差与真实值的图编辑距离之差尽可能接近:
其中,Ltriple为三元组(Gi,Gj,Gk)的真实标签,Eucij为向量空间上(Gi,Gj)的欧式距离,Eucik为向量空间上(Gi,Gk)的欧式距离,M为训练样本数;
S2.10:当M条样本数据计算完后,更新迭代次数,返回S2.4,直至达到最大迭代次数,输出小图匹配模型。
S3:将预处理后的三元组图数据对输入小图匹配模型得到匹配结果并输出。
将预处理后的拟匹配图数据三元组输入到小图匹配模型中,经过多层图注意力网络对三元组中各图的点向量及其邻接矩阵降维后,再输入到正交注意力网络进行压缩,重复这两步,直到图压缩到所需规模,甚至一个点后,计算压缩后三元组图(Gi,Gj,Gk)中(Gi,Gj)和(Gi,Gk)的欧式距离,将欧式距离输入均方误差损失函数,根据预设的阈值判断三元组中的两个图对是否相似,给出相似结果。
本实施例中,将拟匹配的三元组图数据输入小图匹配模型,本实施例中的小图匹配模型为线性回归模型。本发明在图向量的获取过程中首先通过图注意力网络进行点向量的降维,由于使用图注意力网络对图进行训练,对点向量进行更新,使得点向量能更好地表达图拓扑结构及节点信息,然后将降维后的点向量及邻接矩阵输入正交注意力网络进行图规模压缩,每一次压缩都利用正交图注意力机制获得每个节点对压缩后每个节点的贡献度,这是图的全局结构信息的体现,同时,逐层压缩也使得图信息的提取更加细致,压缩后的点向量可以代表整个图的图向量,使用压缩后的图向量进行图匹配,有利于图匹配计算,其原理符合真实世界中图的层次结构机理,因此,使用本发明最终获得了更为精确的图向量,进而通过压缩后的精确图向量进行图匹配,有利于图匹配结果的准确性。而且本发明使用压缩后的精确图向量进行图匹配,其计算量小,计算更加快速。因此,本发明可以更加快速准确的进行小图的匹配。
图2、图3为基于GNN的图相似度学习网络中图向量学习的一般方式和本发明正交注意力压缩机制的区别展示,这里以一个5节点的图为例进行说明。对于有5个节点的图,一般注意模块和本发明的正交注意模块都接受大小为5×m的点向量矩阵来生成注意力权重矩阵,其中m为点向量维数。在一般注意力机制中,采用点向量矩阵与人为随机规定的全局图表示(如点向量的均值)进行注意力权重计算,然后对点向量进行加权和生成图向量。不同于粗糙的一般注意力机制,正交注意力压缩模块利用一个大小为5×2的矩阵(第二层正交注意力压缩模块利用大小为2×1的矩阵),压缩前图中任意节点都对压缩后的图贡献注意力权重,且该权重通过对中相应的行和列进行正交路径的注意力运算求得,因为中的行对应了压缩前图中节点,列对应了压缩后图中节点。所有的正交注意力权重组成了一个用于图粗化的转移矩阵。特别地,本发明使用两个递归的正交注意图压缩模块将图粗化为只有一个节点,并采用最终的点向量作为图向量。我们的正交注意模块可以方便地插入到任意一个图神经网络中,以端到端的方式进行图相似度学习。
图4、图5为为基于GNN的图相似度学习网络中图向量学习的一般方式和本发明正交注意力压缩机制中注意力权重的区别展示,其中原始图中不同节点对压缩后节点的权重采用不同粗细的线表示。显然,本发明采用两层正交注意力压缩层,大大增加了图拓扑信息收集密度,从而获取更多的图全局结构信息,使得最终获得的图向量更准确。另外,即使在只采用一层正交注意力压缩层的情况下,本发明依然更具优势,因为一般注意力模块直接人为随机预定义全局图表示,而本发明在学习中对其进行更新,排除了人为因素的干扰。
本发明在AIDS和LINUX数据集上进行了线性回归模型与其他方式的对比实验,具体实验结果见表1、表2。本发明选用的对照组方法包括Beam搜索、Hungarian算法、VJ算法及SimGNN模型,其中前三者为传统的基于图编辑距离的近似图匹配方法,SimGNN为基于图神经网络的图相似度学习方法。所采用的评价指标包括计算时间、前10个匹配结果的准确度、前20个匹配结果的精确度、三元组匹配准确度。实验结果表明,本发明性能几乎优于其他所有方式。在计算时间方面,传统算法的时间复杂度远高于机器学习方法,这是可以理解的。有趣的是,传统算法使用了比本发明近16倍和3.5倍的时间来实现其极限内的最高的三元组匹配精确度,且该准确度仍然比本发明差,这可能是由于传统算法在时间和精度之间进行折中导致的。
表1AIDS数据集对比实验结果
表2LINUX数据集对比实验结果
本发明在人工数据集上进行了逻辑回归模型与其他方式的对比实验,具体实验结果见表3,本发明选用的对照组方法为SimGNN,一个基于图神经网络的图相似度学习模型。表3包含了检验本发明在大图上的性能。结果表明本发明始终优于SimGNN模型,这说明了正交注意压缩层的重要性。由于内存限制了对大图的训练,因此我们的模型必须能够实现在稍小的图中进行训练并在大图上进行测试,也就是本发明必须具备泛化能力。对于100点、200点、300点的实验,我们在20-50点的图上训练。实验结果表明,与SimGNN相比,本发明具有提高泛化性能的潜力。
表3人工数据集对比实验结果(图对匹配准确度)
为了验证正交注意层的有效性,我们在本发明t中采用不同数量的正交注意层进行了消融实验。基准模型采用一层一般注意力层代替本发明中的正交注意力压缩层。由表4可以看出,用一个正交注意力压缩层代替一般注意力层后,三元组匹配准确度和图对匹配准确度均显著增加。且本发明对于大图的性能提升尤其明显,基准模型此时基本为一个随机预测模型,这证明了正交注意力压缩层可以消除人为因素对随机规定的全局图表示的不利影响。随着正交注意力层数量的增加,准确度整体呈上升趋势。实验结果表明,该正交注意力压缩模块可以通过捕获全局信息来显著提高性能。但模块数量从2个增加到3个时准确度的增幅略小于模块数量从1个增加到2个的增幅,甚至出现下降趋势。更多的正交注意力压缩模块意味着更多的参数和更多的内存使用。为了平衡性能和资源使用量,我们在其他所有实验中都选择2层正交注意力压缩层作为默认设置。
表4正交注意力压缩层数对性能的影响
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (10)
1.一种基于正交注意力机制的层次化压缩图匹配方法,其特征在于,包括以下步骤:
步骤1:获取拟匹配的大图数据对,对大图数据进行预处理,所述预处理是指将图进行点向量初始化,所述大图数据是指节点数大于16个点以上的图;
步骤2:根据历史图库训练基于正交注意力机制的大图匹配模型;
步骤3:将预处理后的图数据对输入大图匹配模型得到匹配结果并输出。
2.根据权利要求1所述的方法,其特征在于:步骤2中所述大图匹配模型的训练方法为
步骤2.1:获取历史图库中所有的大图数据,对历史图库中的大图数据进行预处理;
步骤2.2:对预处理后的历史图库采用VF2算法生成图数据样本训练库并添加标签,所述图数据训练样本库中每条样本的数据组织形式为(G1,G2)的成对形式,标签为1表示,图数据中的两幅图G1与G2匹配,标签为0表示图数据中的两幅图G1与G2不匹配,将每一条图数据对及其标签作为一条训练样本;
步骤2.3:设置迭代次数,每次迭代随机从训练样本库中提取N条样本;
步骤2.4:对每一条样本数据中的两幅图各自的点向量集合[h1,h2,……,hn]及邻接矩阵A输入图注意力网络更新点向量,分别得到两幅图的低维点向量矩阵X;
步骤2.5:将所述低维点向量矩阵X进行线性转换,得到维度为n×kn的点向量矩阵n为线性转换前的点向量矩阵维度,kn为线性转换后的点向量矩阵维度,k∈(0,1)为人为设置的超参,的每一行对应压缩前的每个点向量,每一列对应压缩后的每个点向量,根据得到图压缩转换矩阵T,其中
是通过参数作用的X的线性转换矩阵,F表示向量初始维度,为人工设定的参数,转移因子Tp,q表示节点压缩前图节点p对于压缩后图节点q的权重,T为由转移因子Tp,q形成的图压缩转换矩阵,代表了正交注意力机制,是中的一行,代表图规模压缩前点p的向量表示,是中的一列,代表了的图规模压缩后簇q向量表示,LeakyReLU为激活函数,softmax为归一化函数;
步骤2.6:根据所述图压缩转换矩阵T进行图压缩,生成新的点向量矩阵X′及邻接矩阵A′,X′表示压缩后有kn个节点的图G′:
步骤2.7:将所述点向量矩阵X′及邻接矩阵A′输入步骤2.4,直至图对中的图被压缩至所需规模并输出图对(Gi,Gj)各自的图向量;
步骤2.8:计算图对(Gi,Gj)的欧式距离并利用自定义归一化函数进行归一化,采用交叉熵损失函数,优化图匹配模型使得分类结果与真实标签尽可能一致:
Lpair为图对(Gi,Gj)的真实标签,Eucij为向量空间上图对的欧式距离,scale为超参,训练时人为设定,N为训练样本数;
步骤2.9:当N条样本数据计算完后,更新迭代次数,返回步骤2.3,直至达到最大迭代次数,输出图匹配模型。
3.根据权利要求2所述的方法,其特征在于:所述图匹配模型为逻辑回归模型。
4.一种基于正交注意力机制的层次化压缩图匹配系统,其特征在于:包括以下模块:
预处理模块:用于获取拟匹配的大图数据对,对大图数据进行预处理,所述预处理是指将图进行点向量初始化,所述大图数据是指节点数大于16个点以上的图,;
大图匹配模型训练模块:用于根据历史图库训练基于正交注意力机制的大图匹配模型;
图匹配结果输出模块:用于将预处理后的大图数据对输入大图匹配模型得到匹配结果并输出。
5.一种基于正交注意力机制的层次化压缩图匹配方法,其特征在于,包括以下步骤:
S1:获取拟匹配的三元组图数据,对小图数据进行预处理,所述预处理是指将图进行点向量初始化,所述小图数据是指节点数小于16个点以内的图;
S2:根据历史图库训练基于正交注意力机制的小图匹配模型;
S3:将预处理后的三元组图数据输入小图匹配模型得到匹配结果并输出。
6.根据权利要求5所述的方法,其特征在于:S2中所述小图匹配模型的训练方法为:
S2.1:获取历史图库中的小图数据,对历史图库中的小图数据进行预处理;
S2.2:对历史图库中的每条小图数据,用A*算法计算出数据集中任意两图间的图编辑距离,将数据组织为(G1,G2,G3)的三元组形式,每个三元组表示模型将进行(G1,G2)与(G1,G3)的相对相似度比较,将每个三元组数据作为一条样本数据,将(G1,G2)与(G1,G3)的图编辑距离之差作为样本数据的标签;
S2.3:将历史图库中所有三元组图数据及其标签组成训练样本库;
S2.4:设置迭代次数,每次迭代随机从训练样本库中提取M条样本;
S2.5:对每一条样本中三元组中的各图的点向量集合及邻接矩阵A输入图注意力网络更新点向量,得到图的低维点向量矩阵;
S2.6:将所述低维点向量矩阵X进行线性转换,得到维度为n*kn的点向量矩阵 的每一行对应压缩前的每个点向量,每一列对应压缩后的每个点向量,根据得到图压缩转换矩阵T,其中k∈(0,1)为人为设置的超参;
是通过参数作用的X的线性转换矩阵,转移因子Tp,q表示节点压缩前图节点p对于压缩后图节点q的权重,T为由转移因子Tp,q形成的图压缩转换矩阵,代表了正交注意力机制,是中的一行,代表图规模压缩前点p的向量表示,是中的一列,代表了的图规模压缩后簇q向量表示,LeakyReLU为激活函数,softmax为归一化函数;
S2.7:根据所述图压缩转换矩阵T,进行图压缩,生成新的点向量矩阵X′及邻接矩阵A′,X′表示压缩后有kn个节点的图G′:
其中,F表示向量初始维度,为人工设定的参数;
S2.8:将所述点向量矩阵X'及邻接矩阵A'输入S2.5,直至图对中的图被压缩至所需规模并输出三元组(Gi,Gj,Gk)各自的图向量,Gi、Gj、Gk分别表示历史图库中的小图数据;
S2.9:根据所输出的三元组(Gi,Gj,Gk)各自的图向量,分别计算(Gi,Gj)和(Gi,Gk)的欧式距离,采用均方误差损失函数,优化小图匹配模型使得两欧式距离之差与真实值的图编辑距离之差尽可能接近:
Ltriple为三元组(Gi,Gj,Gk)的真实标签,Eucij为向量空间上(Gi,Gj)的欧式距离,Eucik为向量空间上(Gi,Gk)的欧式距离,M为训练样本数;
S2.10:当M条样本数据计算完后,更新迭代次数,返回S2.4,直至达到最大迭代次数,输出小图匹配模型。
7.根据权利要求6所述的方法,其特征在于:所述小图匹配模型为线性回归模型。
8.一种基于正交注意力机制的层次化压缩图匹配系统,其特征在于,包括以下模块:
小图数据预处理模块:获取拟匹配的三元组图数据,对小图数据进行预处理,所述预处理是指将图进行点向量初始化;
小图匹配模型训练模块:根据历史图库训练基于正交注意力机制的小图匹配模型;
图匹配结果输出模块:将预处理后的三元组图数据对输入小图匹配模型得到匹配结果并输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010617255.8A CN111783879B (zh) | 2020-07-01 | 2020-07-01 | 基于正交注意力机制的层次化压缩图匹配方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010617255.8A CN111783879B (zh) | 2020-07-01 | 2020-07-01 | 基于正交注意力机制的层次化压缩图匹配方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783879A true CN111783879A (zh) | 2020-10-16 |
CN111783879B CN111783879B (zh) | 2023-05-30 |
Family
ID=72761432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010617255.8A Active CN111783879B (zh) | 2020-07-01 | 2020-07-01 | 基于正交注意力机制的层次化压缩图匹配方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783879B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204676A (zh) * | 2021-01-07 | 2021-08-03 | 北京欧拉认知智能科技有限公司 | 基于图结构数据的压缩存储方法 |
CN113592013A (zh) * | 2021-08-06 | 2021-11-02 | 国网新源水电有限公司富春江水力发电厂 | 一种基于图注意力网络的三维点云分类方法 |
CN114048240A (zh) * | 2021-11-18 | 2022-02-15 | 长春理工大学 | 一种基于近似图匹配算法的数据集成方法及系统 |
CN117892188A (zh) * | 2023-12-19 | 2024-04-16 | 济南大学 | 一种基于轴承振动信号关系及图神经网络的故障分类方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540045A (zh) * | 2009-03-25 | 2009-09-23 | 湖南大学 | 基于同步正交匹配追踪的多源图像融合方法 |
CN109345575A (zh) * | 2018-09-17 | 2019-02-15 | 中国科学院深圳先进技术研究院 | 一种基于深度学习的图像配准方法及装置 |
CN110020682A (zh) * | 2019-03-29 | 2019-07-16 | 北京工商大学 | 一种基于小样本学习的注意力机制关系对比网络模型方法 |
CN110298037A (zh) * | 2019-06-13 | 2019-10-01 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
-
2020
- 2020-07-01 CN CN202010617255.8A patent/CN111783879B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101540045A (zh) * | 2009-03-25 | 2009-09-23 | 湖南大学 | 基于同步正交匹配追踪的多源图像融合方法 |
CN109345575A (zh) * | 2018-09-17 | 2019-02-15 | 中国科学院深圳先进技术研究院 | 一种基于深度学习的图像配准方法及装置 |
CN110020682A (zh) * | 2019-03-29 | 2019-07-16 | 北京工商大学 | 一种基于小样本学习的注意力机制关系对比网络模型方法 |
CN110298037A (zh) * | 2019-06-13 | 2019-10-01 | 同济大学 | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204676A (zh) * | 2021-01-07 | 2021-08-03 | 北京欧拉认知智能科技有限公司 | 基于图结构数据的压缩存储方法 |
CN113204676B (zh) * | 2021-01-07 | 2021-12-10 | 北京欧拉认知智能科技有限公司 | 基于图结构数据的压缩存储方法 |
CN113592013A (zh) * | 2021-08-06 | 2021-11-02 | 国网新源水电有限公司富春江水力发电厂 | 一种基于图注意力网络的三维点云分类方法 |
CN113592013B (zh) * | 2021-08-06 | 2024-04-30 | 国网新源水电有限公司富春江水力发电厂 | 一种基于图注意力网络的三维点云分类方法 |
CN114048240A (zh) * | 2021-11-18 | 2022-02-15 | 长春理工大学 | 一种基于近似图匹配算法的数据集成方法及系统 |
CN117892188A (zh) * | 2023-12-19 | 2024-04-16 | 济南大学 | 一种基于轴承振动信号关系及图神经网络的故障分类方法 |
CN117892188B (zh) * | 2023-12-19 | 2024-07-09 | 济南大学 | 一种基于轴承振动信号关系及图神经网络的故障分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111783879B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783879A (zh) | 基于正交注意力机制的层次化压缩图匹配方法及系统 | |
CN114926746B (zh) | 基于多尺度差分特征注意力机制的sar图像变化检测方法 | |
CN106778604B (zh) | 基于匹配卷积神经网络的行人再识别方法 | |
CN112308158A (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN108062551A (zh) | 一种基于邻接矩阵的图特征提取系统、图分类系统和方法 | |
CN111950594A (zh) | 基于子图采样的大规模属性图上的无监督图表示学习方法和装置 | |
CN110232434A (zh) | 一种基于属性图优化的神经网络架构评估方法 | |
CN105608690A (zh) | 一种基于图论和半监督学习相结合的图像分割方法 | |
CN113705580B (zh) | 基于深度迁移学习的高光谱图像分类方法 | |
Hafez et al. | Networks community detection using artificial bee colony swarm optimization | |
CN113065974A (zh) | 一种基于动态网络表示学习的链路预测方法 | |
CN112862015A (zh) | 一种基于超图神经网络的论文分类方法及系统 | |
CN111881716A (zh) | 一种基于多视角生成对抗网络的行人重识别方法 | |
CN102722578B (zh) | 一种基于拉普拉斯正则化无监督的聚类特征选取方法 | |
CN110866134A (zh) | 一种面向图像检索的分布一致性保持度量学习方法 | |
CN110136017A (zh) | 一种基于数据增强和非负矩阵稀疏分解的群组发现方法 | |
CN104966075A (zh) | 一种基于二维判别特征的人脸识别方法与系统 | |
Khodayar et al. | Deep generative graph distribution learning for synthetic power grids | |
CN114495163B (zh) | 基于类别激活映射的行人重识别生成学习方法 | |
CN116010813A (zh) | 基于图神经网络融合标签节点影响度的社区检测方法 | |
CN113989544A (zh) | 一种基于深度图卷积网络的群体发现方法 | |
Wang et al. | Uncovering fuzzy communities in networks with structural similarity | |
CN113744072A (zh) | 一种基于深度神经网络融合拓扑和内容社团检测方法 | |
CN109472712A (zh) | 一种基于结构特征强化的高效马尔可夫随机场社团发现方法 | |
Hoang et al. | Mitigating Degree Biases in Message Passing Mechanism by Utilizing Community Structures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |