CN111783879B - 基于正交注意力机制的层次化压缩图匹配方法及系统 - Google Patents

基于正交注意力机制的层次化压缩图匹配方法及系统 Download PDF

Info

Publication number
CN111783879B
CN111783879B CN202010617255.8A CN202010617255A CN111783879B CN 111783879 B CN111783879 B CN 111783879B CN 202010617255 A CN202010617255 A CN 202010617255A CN 111783879 B CN111783879 B CN 111783879B
Authority
CN
China
Prior art keywords
graph
vector
data
matrix
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010617255.8A
Other languages
English (en)
Other versions
CN111783879A (zh
Inventor
李东升
刘苧
蹇松雷
赖志权
刘锋
陈易欣
黄震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202010617255.8A priority Critical patent/CN111783879B/zh
Publication of CN111783879A publication Critical patent/CN111783879A/zh
Application granted granted Critical
Publication of CN111783879B publication Critical patent/CN111783879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于正交注意力机制的层次化压缩图匹配方法及系统,包括获取拟匹配的大图数据对,对大图数据进行预处理;根据历史图库训练基于正交注意力机制的大图匹配模型;将预处理后的图数据对输入图匹配模型得到匹配结果并输出。本发明在获取图向量的过程中使用图注意力网络对图进行降维训练,对点向量进行更新,使得点向量能更好地表达图拓扑结构及节点信息,然后将降维后的点向量及邻接矩阵输入正交注意力网络进行图规模压缩,通过逐层压缩使得图信息的提取更加细致,最终获得了更为精确的图向量,进而通过压缩后的精确图向量进行图匹配,有利于图匹配结果的准确性,并且计算量小,计算更加快速准确。

Description

基于正交注意力机制的层次化压缩图匹配方法及系统
技术领域
本发明属于图计算、知识图谱技术领域,尤其涉及一种基于正交注意力机制的层次化压缩图匹配方法及系统。
背景技术
图匹配应用领域非常广泛,例如蛋白质结构匹配、三维对象匹配、路网分析及社交网络学习。其本质是图同构问题,而图同构已被证明是NP完全问题,没有多项式时间内的解,因此两图是否匹配的判定面临许多困难。
通常,学术界对图匹配问题的研究分为两类:精确匹配与近似匹配。人们最初对精确匹配进行了深入研究,产生了一系列图精确匹配算法,其中最具代表性的算法为A*算法。但精确匹配算法存在许多弊端,最突出的缺点在于,精确匹配只能处理16个点以内规模的图,然而随着社会发展,图数据规模日益增大,人们对大图匹配的需求日益增多,这一需求刺激了近似匹配领域的发展。近似匹配算法在匹配速度与准确度之间进行折中,最具代表性的算法包括A*-Beamsearch、Hungarian和VJ算法。但其时间复杂度依然很高,通常为图中节点数量的多项式时间或次指数时间,大图匹配消耗的时间常常难以忍受。
伴随着图表示学习的发展产生了新的解决思路,即基于图神经网络的深度学习方法。这类方法通常利用图表示学习方法获得所输入图对的低维向量表示,进而将图匹配问题转化为向量空间的相似度得分计算问题。然而,实际应用中,多数场景下我们不需要获得两图间确切的相似度得分,对于给定的图三元组(G1,G2,G3),只需知道图G1与G2更相似还是与G3更相似,即进行相对相似度比较。另外,目前的图深度学习方法在几十个点的图上匹配结果较好,泛化至几百点的图准确度偏低,因此提高模型泛化能力也是一个亟待解决的问题。
发明内容
本发明要解决的技术问题是怎样快速准确地对大图进行图匹配,提出了一种基于正交注意力机制的层次化压缩图匹配方法及系统。
为解决该问题,本发明采用的技术方案是:
一种基于正交注意力机制的层次化压缩图匹配方法,包括以下步骤:
步骤1:获取拟匹配的大图数据对,对大图数据进行预处理,所述预处理是指将图进行点向量初始化,所述大图数据是指节点数大于16个点以上的图;所述点向量初始化是指:对于给定包含n个节点(V1,V2,...,Vn)的图G,每个节点都转换为实数向量
Figure BDA0002564183260000021
其中F表示向量初始维度,为人工设定的参数,向量初始化根据节点类型分为两种情况:若图中包含m种类型的节点,则构造维度为m的one-hot向量;若图中只有一种类型的节点,则构造维度为F的向量,每个维度初始值均设为1。
步骤2:根据历史图库训练基于正交注意力机制的大图匹配模型;
步骤3:将预处理后的图数据对输入图匹配模型得到匹配结果并输出。
进一步地,步骤2中所述大图匹配模型的训练方法为:
步骤2.1:获取历史图库中所有的大图数据,对历史图库中的大图数据进行预处理;
步骤2.2:对预处理后的历史图库采用VF2算法生成图数据样本训练库并添加标签,所述图数据训练样本库中每条样本的数据组织形式为(G1,G2)的成对形式,标签为1表示图数据中的两幅图G1与G2匹配,标签为0表示图数据中的两幅图G1与G2不匹配,将每一条图数据对及其标签作为一条训练样本;
步骤2.3:设置迭代次数,每次迭代随机从训练样本库中提取N条样本;
步骤2.4:对每一条样本数据中的两幅图各自的点向量集合[h1,h2,……,hn]及邻接矩阵A输入图注意力网络更新点向量,分别得到两幅图的低维点向量矩阵X;
步骤2.5:将所述低维点向量矩阵X进行线性转换,得到维度为n×kn的点向量矩阵
Figure BDA0002564183260000022
n为线性转换前的点向量矩阵维度,kn为线性转换后的点向量矩阵维度,k∈(0,1)为人为设置的超参,/>
Figure BDA0002564183260000023
的每一行对应压缩前的每个点向量,每一列对应压缩后的每个点向量,根据/>
Figure BDA0002564183260000024
得到图压缩转换矩阵T,其中
Figure BDA0002564183260000025
Figure BDA0002564183260000026
Figure BDA0002564183260000027
是通过参数/>
Figure BDA0002564183260000028
作用的X的线性转换矩阵,F表示向量初始维度,为人工设定的参数,转移因子Tp,q表示节点压缩前图节点p对于压缩后图节点q的权重,T为由转移因子Tp,q形成的图压缩转换矩阵,/>
Figure BDA0002564183260000029
代表了正交注意力机制,/>
Figure BDA00025641832600000210
是/>
Figure BDA00025641832600000211
中的一行,代表图规模压缩前点p的向量表示,/>
Figure BDA00025641832600000212
是/>
Figure BDA00025641832600000213
中的一列,代表了的图规模压缩后簇q向量表示,LeakyReLU为激活函数,softmax为归一化函数;
步骤2.6:根据所述图压缩转换矩阵T进行图压缩,生成新的点向量矩阵X′及邻接矩阵A′,X′表示压缩后有kn个节点的图G′:
Figure BDA0002564183260000031
Figure BDA0002564183260000032
步骤2.7:将所述点向量矩阵X′及邻接矩阵A′输入步骤2.4,直至图对中的图被压缩至所需规模并输出图对(Gi,Gj)各自的图向量;
步骤2.8:计算图对(Gi,Gj)的欧式距离并利用自定义归一化函数进行归一化,采用交叉熵损失函数,优化图匹配模型使得分类结果与真实标签尽可能一致:
Figure BDA0002564183260000033
Lpair为图对(Gi,Gj)的真实标签,Eucij为向量空间上图对的欧式距离,scale为超参,训练时人为设定,N为训练样本数;
Figure BDA0002564183260000034
大于等于预设的阈值,则分类结果为匹配,预测标签值为1,当
Figure BDA0002564183260000035
小于预设的阈值,则分类结果为不匹配,即预测标签值为0;
步骤2.9:当N条样本数据计算完后,更新迭代次数,返回步骤2.3,直至达到最大迭代次数,输出图匹配模型。
进一步地,所述图压缩模型为逻辑回归模型。
本发明还提供了一种基于正交注意力机制的层次化压缩图匹配系统,包括以下模块:
预处理模块:用于获取拟匹配的大图数据对,对大图数据进行预处理,所述预处理是指将图进行点向量初始化,所述大图数据是指节点数大于16个点以上的图;
大图匹配模型训练模块:用于根据历史图库训练基于正交注意力机制的大图匹配模型;
图匹配结果输出模块:用于将预处理后的大图数据对输入图匹配模型得到匹配结果并输出。
本发明还提供了一种针对于小图的图匹配方法,具体为:
一种基于正交注意力机制的层次化压缩图匹配方法,包括以下步骤:
S1:获取拟匹配的三元组图数据,对小图数据进行预处理,所述预处理是指将图进行点向量初始化;
S2:根据历史图库训练基于正交注意力机制的小图匹配模型;
S3:将预处理后的三元组图数据输入小图匹配模型得到匹配结果并输出。
进一步地,S2中所述小图匹配模型的训练方法为:
S2.1:获取历史图库中的小图数据,对历史图库中的小图数据进行预处理;
S2.2:对历史图库中的每条小图数据,用A*算法计算出数据集中任意两图间的图编辑距离,将数据组织为(G1,G2,G3)的三元组形式,每个三元组表示模型将进行(G1,G2)与(G1,G3)的相对相似度比较,将每个三元组数据作为一条样本数据,将(G1,G2)与(G1,G3)的图编辑距离之差作为样本数据的标签,G1、G2、G3分别表示历史图库中的小图数据;
S2.3:将历史图库中所有三元组图数据及其标签组成训练样本库;
S2.4:设置迭代次数,每次迭代随机从训练样本库中提取M条样本;
S2.5:对每一条样本中三元组中的各图的点向量集合及邻接矩阵A输入图注意力网络更新点向量,得到图的低维点向量矩阵;
S2.6:将所述低维点向量矩阵X进行线性转换,得到维度为n*kn的点向量矩阵
Figure BDA0002564183260000041
的每一行对应压缩前的每个点向量,每一列对应压缩后的每个点向量,根据/>
Figure BDA0002564183260000042
得到图压缩转换矩阵T,其中k∈(0,1)为人为设置的超参;
Figure BDA0002564183260000043
Figure BDA0002564183260000044
Figure BDA0002564183260000045
是通过参数/>
Figure BDA0002564183260000046
作用的X的线性转换矩阵,转移因子Tp,q表示节点压缩前图节点p对于压缩后图节点q的权重,T为由转移因子Tp,q形成的图压缩转换矩阵,
Figure BDA0002564183260000047
代表了正交注意力机制,/>
Figure BDA0002564183260000048
是/>
Figure BDA0002564183260000049
中的一行,代表图规模压缩前点p的向量表示,/>
Figure BDA00025641832600000410
Figure BDA00025641832600000411
中的一列,代表了的图规模压缩后簇q向量表示,LeakyReLU为激活函数,softmax为归一化函数;
S2.7:根据所述图压缩转换矩阵T,进行图压缩,生成新的点向量矩阵X′及邻接矩阵A′,X′表示压缩后有kn个节点的图G′:
Figure BDA00025641832600000412
Figure BDA00025641832600000413
其中,F表示向量初始维度,为人工设定的参数;
S2.8:将所述点向量矩阵X'及邻接矩阵A'输入S2.5,直至图对中的图被压缩至所需规模并输出三元组(Gi,Gj,Gk)各自的图向量,Gi、Gj、Gk分别表示历史图库中的小图数据;
S2.9:根据所输出的三元组(Gi,Gj,Gk)各自的图向量,分别计算(Gi,Gj)和(Gi,Gk)的欧式距离,采用均方误差损失函数,优化模型使得两欧式距离之差与真实值的图编辑距离之差尽可能接近:
Figure BDA00025641832600000414
Ltriple为三元组(Gi,Gj,Gk)的真实标签,Eucij为向量空间上(Gi,Gj)的欧式距离,Eucik为向量空间上(Gi,Gk)的欧式距离,M为训练样本数;
Figure BDA0002564183260000051
小于所设的阈值,则(Gi,Gj)两幅图更相似,当/>
Figure BDA0002564183260000052
大于所设的阈值,则(Gi,Gk)两幅图更相似;
S2.10:当M条样本数据计算完后,更新迭代次数,返回S2.4,直至达到最大迭代次数,输出图匹配模型。
进一步地,所述小图匹配模型为线性回归模型。
本发明还提供了一种基于正交注意力机制的层次化压缩图匹配系统,包括以下模块:
小图数据预处理模块:获取拟匹配的三元组图数据,对小图数据进行预处理,所述预处理是指将图进行点向量初始化;
小图匹配模型训练模块:根据历史图库训练基于正交注意力机制的小图匹配模型;
图匹配结果输出模块:将预处理后的三元组图数据对输入小图匹配模型得到匹配结果并输出。
进一步地,步骤2.5或S2.5中所述更新点/簇向量的具体方法为:
a.计算图节点i与其邻居节点j之间的注意力权重:
Figure BDA0002564183260000053
其中,W是图注意力网络参数向量,hi表示第i个节点的点向量,hj表示第j个邻居节点的点向量;LeakyReLU为激活函数,
b.根据注意力权重更新图的节点信息:
Figure BDA0002564183260000054
将图的点向量集合及其邻接矩阵重复b次输入GAT网络,其中b为人工设定参数,网络输出为训练获得的图节点的低维向量X表示,Ni表示第i个节点的邻居节点集合;σ是非线性激活函数。
进一步地,所述点向量初始化是指:对于给定包含n个节点(V1,V2,...,Vn)的图G,每个节点都转换为实数向量
Figure BDA0002564183260000055
其中F表示向量初始维度,为人工设定的参数,向量初始化根据节点类型分为两种情况:若图中包含m种类型的节点,则构造维度为m的one-hot向量;若图中只有一种类型的节点,则构造维度为F的向量,每个维度初始值均设为1。
与现有技术相比,本发明所取得的有益效果是:
本发明一种基于正交注意力机制的层次化压缩图匹配方法,对图进行点向量初始化后,由于图的全局拓扑结构中蕴含了丰富的图信息,图向量的获取是以图神经网络为基础的图相似度学习方法中的重要步骤,本发明在获取图向量的过程中首先通过图注意力网络进行点向量的降维,然后将降维后的点向量及邻接矩阵输入正交注意力网络进行图规模压缩,每一次压缩都利用正交图注意力机制获得每个节点对压缩后每个节点的贡献度,这是图的全局结构信息的体现,同时,逐层压缩也使得图信息的提取更加细致,最终获得了更为精确的图向量,进而通过压缩后的精确图向量进行图匹配,有利于图匹配结果的准确性。而且本发明使用压缩后的精确图向量进行图匹配,其计算量小,计算更加快速。因此,本发明可以快速准确的进行大图的匹配。本发明的方法同样适用于小图的匹配计算。
附图说明
图1为本发明实施例一的系统流程图;
图2为基于GNN的图相似度学习网络中图向量学习的一般方式;
图3为本发明正交注意力压缩机制示意图;
图4为基于GNN的图相似度学习网络注意力权重举例;
图5位本发明正交注意力压缩权重举例;
图6为本发明实施例二的系统流程图。
具体实施方式
实施例一:
图1至图5示出了本发明的一种具体实施例,一种基于正交注意力机制的层次化压缩图匹配方法,主要是针对于大图的匹配问题,如图1所示,本实施例中根据所处理数据图的规模使用逻辑回归模型,包括以下步骤:
步骤1:获取拟匹配的大图数据对,对大图数据进行预处理,所述预处理是指将图进行点向量初始化,所述大图数据是指节点数大于16个点以上的图;本实施例中采用20点至500点的大图;
步骤2:根据历史图库训练基于正交注意力机制的大图匹配模型;大图匹配模型的具体训练方法为:
步骤2.1:获取历史图库中所有的大图数据,对历史图库中的大图数据进行预处理;
步骤2.2:对预处理后的历史图库采用VF2算法生成图数据样本训练库并添加标签,所述图数据训练样本库中每条样本的数据组织形式为(G1,G2)的成对形式,标签为1表示,图数据中的两幅图G1与G2匹配,标签为0表示图数据中的两幅图G1与G2不匹配,将每一条图数据对及其标签作为一条训练样本;
本实施例中,采用VF2算法库生成正样本(即匹配的图)和负样本(即不匹配的图),正样本标签为1,负样本为0。在正样本生成上,由于两个同构的无标签图是完全相同的,因此,对同构条件进行了小幅松弛,以点数相差1-3点的最大同构子图作为正样本。采用点数相差3-7个点的图作为负样本。VF2算法是指论文“A(sub)graph isomorphism algorithmfor matching large graphs,IEEE transactions on pattern analysis and machineintelligence 2004Vol.26P1367-1372 0162-8828”得到。
步骤2.3:设置迭代次数,每次迭代随机从训练样本库中提取N条样本;
步骤2.4:对每一条样本数据中的两幅图各自的点向量集合[h1,h2,……,hn]及邻接矩阵A输入图注意力网络更新点向量,分别得到两幅图的低维点向量矩阵X;
a.计算图节点i与其邻居节点j之间的注意力权重:
Figure BDA0002564183260000071
其中,W是图注意力网络参数向量,hi表示第i个节点的点向量,hj表示第j个邻居节点的点向量;LeakyReLU为激活函数,
b.根据注意力权重更新图的节点信息:
Figure BDA0002564183260000072
将图的点向量集合及其邻接矩阵重复b次输入GAT网络,其中b为人工设定参数,网络输出为训练获得的图节点的低维向量X表示,Ni表示第i个节点的邻居节点集合;σ是非线性激活函数。
步骤2.5:将所述低维点向量矩阵X进行线性转换,得到维度为n×kn的点向量矩阵
Figure BDA0002564183260000073
n为线性转换前的点向量矩阵维度,kn为线性转换后的点向量举着维度,k∈(0,1)为人为设置的超参,/>
Figure BDA0002564183260000074
的每一行对应压缩前的每个点向量,每一列对应压缩后的每个点向量,根据/>
Figure BDA0002564183260000075
得到图压缩转换矩阵T,其中;
Figure BDA0002564183260000076
Figure BDA0002564183260000077
Figure BDA0002564183260000078
是通过参数/>
Figure BDA0002564183260000079
作用的X的线性转换矩阵,F表示向量初始维度,为人工设定的参数,转移因子Tp,q表示节点压缩前图节点p对于压缩后图节点q的权重,T为由转移因子Tp,q形成的图压缩转换矩阵,/>
Figure BDA0002564183260000081
代表了正交注意力机制,/>
Figure BDA0002564183260000082
是/>
Figure BDA0002564183260000083
中的一行,代表图规模压缩前点p的向量表示,/>
Figure BDA0002564183260000084
是/>
Figure BDA0002564183260000085
中的一列,代表了的图规模压缩后簇q向量表示,LeakyReLU为激活函数,softmax为归一化函数;
步骤2.6:根据所述图压缩转换矩阵T进行图压缩,生成新的点向量矩阵X′及邻接矩阵A′,X′表示压缩后有kn个节点的图G′:
Figure BDA0002564183260000086
/>
Figure BDA0002564183260000087
步骤2.7:将所述点向量矩阵X′及邻接矩阵A′输入步骤2.4,直至图对中的图被压缩至所需规模并输出图对(Gi,Gj)各自的图向量,Gi,Gj分别表示图对中的图数据;
步骤2.8:计算图对(Gi,Gj)的欧式距离并利用自定义归一化函数进行归一化,采用交叉熵损失函数,优化图匹配模型使得分类结果与真实标签尽可能一致,
Figure BDA0002564183260000088
Lpair为图对(Gi,Gj)的真实标签,Eucij为向量空间上图对的欧式距离,scale为超参,训练时人为设定,N为训练样本数;
Figure BDA0002564183260000089
大于等于预设的阈值,则分类结果为匹配,预测标签值为1,当
Figure BDA00025641832600000810
小于预设的阈值,则分类结果为不匹配,即预测标签值为0;
步骤2.9:当N条样本数据计算完后,更新迭代次数,返回步骤2.3,直至达到最大迭代次数,输出图匹配模型。
步骤3:将预处理后的图数据对输入大图匹配模型得到匹配结果并输出。
将预处理后的拟匹配图数据对输入到大图匹配模型中,经过多层图注意力网络对图对中图的点向量及其邻接矩阵降维后,再输入到正交注意力网络进行压缩,重复这两步,直到图压缩到所需规模,甚至一个点后,计算压缩后图对的欧式距离,将欧式距离输入交叉熵损失函数,判断图对是否匹配,给出匹配结果。
本实施例中,大图匹配模型为逻辑回归模型。
在本实施例中,对图进行点向量初始化后,由于图的全局拓扑结构中蕴含了丰富的图信息,图向量的获取是以图神经网络为基础的图相似度学习方法中的重要步骤,现有技术在以图神经网络为基础的图相似度学习网络中,对于图向量的学习通常采用以下方式:1、节点向量加权求和,及求平均或其他方式,该方法完全忽略了图的拓扑结构,因此图信息提取欠缺;2、普通attention方式,将点向量与一个人为随机规定的全局图表示(如点向量的均值)进行注意力计算,该方法易受人为因素影响,且对图的全局信息提取不完善。本发明在获取图向量的过程中首先通过图注意力网络进行点向量的降维,由于使用图注意力网络对图进行训练,对点向量进行更新,使得点向量能更好地表达图拓扑结构及节点信息,然后将降维后的点向量及邻接矩阵输入正交注意力网络进行图规模压缩,每一次压缩都利用正交图注意力机制获得每个节点对压缩后每个节点的贡献度,这是图的全局结构信息的体现,同时,逐层压缩也使得图信息的提取更加细致,压缩后的点向量可以代表整个图的图向量,使用压缩后的图向量进行图匹配,有利于大图匹配计算,其原理符合真实世界中图的层次结构机理,因此,使用本发明最终获得了更为精确的图向量,进而通过压缩后的精确图向量进行图匹配,有利于图匹配结果的准确性。而且使用压缩后的精确图向量进行图匹配,其计算量小,计算更加快速。因此,本发明可以快速准确的进行大图的匹配。本发明的方法同样适用于小图的匹配计算。本发明基于深度学习计算框架TensorFlow实现。一般情况下,任意两层正交注意力压缩层之间采用两层图注意力网络进行节点/簇的向量更新,本实施例采用两层正交注意力压缩层进行图规模压缩,图最终被压缩为一个点。点向量初始化维度设置为128。
本发明还提供了一种基于正交注意力机制的层次化压缩图匹配系统,包括以下模块:
预处理模块:用于获取拟匹配的大图数据对,对大图数据进行预处理,所述预处理是指将图进行点向量初始化,所述大图数据是指节点数大于16个点以上的图;
大图匹配模型训练模块:用于根据历史图库训练基于正交注意力机制的大图匹配模型;
图匹配结果输出模块:用于将预处理后的大图数据对输入图匹配模型得到匹配结果并输出。
实施例二:
与实施例一不同的是,本实施例主要是为了针对于小图的匹配问题,也就是节点数小于16个点以内的图,针对于小图,现有技术中使用A*算法进行图匹配,但是本实施例通过使用两层正交注意力及图注意力压缩,使用被压缩后的图进行图匹配。
一种基于正交注意力机制的层次化压缩图匹配方法,如图6所示,包括以下步骤:
S1:获取拟匹配的三元组图数据,对小图数据进行预处理,所述预处理是指将图进行点向量初始化,所述小图数据是指节点数小于16个点以内的图;
S2:根据历史图库训练基于正交注意力机制的小图匹配模型;
根据权利要求5所述的方法,S2中所述小图匹配模型的训练方法为:
S2.1:获取历史图库中的小图数据,对历史图库中的小图数据进行预处理;
S2.2:对历史图库中的每条小图数据,用A*算法计算出数据集中任意两图间的图编辑距离,将数据组织为(G1,G2,G3)的三元组形式,每个三元组表示模型将进行(G1,G2)与(G1,G3)的相对相似度比较,将每个三元组数据作为一条样本数据,将(G1,G2)与(G1,G3)的图编辑距离之差作为样本数据的标签,G1、G2、G3分别表示历史图库中的小图数据;
S2.3:将历史匹配图库中所有三元组图数据及其标签组成训练样本库;
S2.4:设置迭代次数,每次迭代随机从训练样本库中提取M条样本;
S2.5:对每一条样本中三元组中的图各自的点向量集合及邻接矩阵A输入图注意力网络层更新点向量,得到图的低维点向量矩阵;
S2.6:将所述低维点向量矩阵X进行线性转换,得到维度为n*kn的点向量矩阵
Figure BDA0002564183260000101
的每一行对应压缩前的每个点向量,每一列对应压缩后的每个点向量,根据/>
Figure BDA0002564183260000102
得到图压缩转换矩阵T,其中k∈(0,1)为人为设置的超参;
Figure BDA0002564183260000103
Figure BDA0002564183260000104
Figure BDA0002564183260000105
是通过参数/>
Figure BDA0002564183260000106
作用的X的线性转换矩阵,转移因子Tp,q表示节点压缩前图节点p对于压缩后图节点q的权重,T为由转移因子Tp,q形成的图压缩转换矩阵,
Figure BDA0002564183260000107
代表了正交注意力机制,/>
Figure BDA0002564183260000108
是/>
Figure BDA0002564183260000109
中的一行,代表图规模压缩前点p的向量表示,/>
Figure BDA00025641832600001010
是/>
Figure BDA00025641832600001011
中的一列,代表了的图规模压缩后簇q向量表示,LeakyReLU为激活函数,softmax为归一化函数;
S2.7:根据所述图压缩转换矩阵T,进行图压缩,生成新的点向量矩阵X′及邻接矩阵A′,X′表示压缩后有kn个节点的图G′:
Figure BDA00025641832600001012
Figure BDA00025641832600001013
其中,F表示向量初始维度,为人工设定的参数;
S2.8:将所述点向量矩阵X'及邻接矩阵A'输入S2.5,直至图对中的图被压缩至所需规模并输出三元组(Gi,Gj,Gk)各自的图向量,Gi、Gj、Gk分别表示历史图库中的小图数据;
S2.9:根据所输出的三元组(Gi,Gj,Gk)各自的图向量,分别计算(Gi,Gj)和(Gi,Gk)的欧式距离,输入到均方误差损失函数,优化模型使得两欧式距离之差与真实值的图编辑距离之差尽可能接近:
Figure BDA00025641832600001014
其中,Ltriple为三元组(Gi,Gj,Gk)的真实标签,Eucij为向量空间上(Gi,Gj)的欧式距离,Eucik为向量空间上(Gi,Gk)的欧式距离,M为训练样本数;
Figure BDA0002564183260000111
所设的阈值,则(Gi,Gj)两幅图更相似,当/>
Figure BDA0002564183260000112
大于所设的阈值,则(Gi,Gk)两幅图更相似;
S2.10:当M条样本数据计算完后,更新迭代次数,返回S2.4,直至达到最大迭代次数,输出小图匹配模型。
S3:将预处理后的三元组图数据对输入小图匹配模型得到匹配结果并输出。
将预处理后的拟匹配图数据三元组输入到小图匹配模型中,经过多层图注意力网络对三元组中各图的点向量及其邻接矩阵降维后,再输入到正交注意力网络进行压缩,重复这两步,直到图压缩到所需规模,甚至一个点后,计算压缩后三元组图(Gi,Gj,Gk)中(Gi,Gj)和(Gi,Gk)的欧式距离,将欧式距离输入均方误差损失函数,根据预设的阈值判断三元组中的两个图对是否相似,给出相似结果。
本实施例中,将拟匹配的三元组图数据输入小图匹配模型,本实施例中的小图匹配模型为线性回归模型。本发明在图向量的获取过程中首先通过图注意力网络进行点向量的降维,由于使用图注意力网络对图进行训练,对点向量进行更新,使得点向量能更好地表达图拓扑结构及节点信息,然后将降维后的点向量及邻接矩阵输入正交注意力网络进行图规模压缩,每一次压缩都利用正交图注意力机制获得每个节点对压缩后每个节点的贡献度,这是图的全局结构信息的体现,同时,逐层压缩也使得图信息的提取更加细致,压缩后的点向量可以代表整个图的图向量,使用压缩后的图向量进行图匹配,有利于图匹配计算,其原理符合真实世界中图的层次结构机理,因此,使用本发明最终获得了更为精确的图向量,进而通过压缩后的精确图向量进行图匹配,有利于图匹配结果的准确性。而且本发明使用压缩后的精确图向量进行图匹配,其计算量小,计算更加快速。因此,本发明可以更加快速准确的进行小图的匹配。
图2、图3为基于GNN的图相似度学习网络中图向量学习的一般方式和本发明正交注意力压缩机制的区别展示,这里以一个5节点的图为例进行说明。对于有5个节点的图,一般注意模块和本发明的正交注意模块都接受大小为5×m的点向量矩阵来生成注意力权重矩阵,其中m为点向量维数。在一般注意力机制中,采用点向量矩阵与人为随机规定的全局图表示(如点向量的均值)进行注意力权重计算,然后对点向量进行加权和生成图向量。不同于粗糙的一般注意力机制,正交注意力压缩模块利用一个大小为5×2的矩阵
Figure BDA0002564183260000113
(第二层正交注意力压缩模块利用大小为2×1的矩阵),压缩前图中任意节点都对压缩后的图贡献注意力权重,且该权重通过对/>
Figure BDA0002564183260000114
中相应的行和列进行正交路径的注意力运算求得,因为/>
Figure BDA0002564183260000115
中的行对应了压缩前图中节点,列对应了压缩后图中节点。所有的正交注意力权重组成了一个用于图粗化的转移矩阵。特别地,本发明使用两个递归的正交注意图压缩模块将图粗化为只有一个节点,并采用最终的点向量作为图向量。我们的正交注意模块可以方便地插入到任意一个图神经网络中,以端到端的方式进行图相似度学习。
图4、图5为为基于GNN的图相似度学习网络中图向量学习的一般方式和本发明正交注意力压缩机制中注意力权重的区别展示,其中原始图中不同节点对压缩后节点的权重采用不同粗细的线表示。显然,本发明采用两层正交注意力压缩层,大大增加了图拓扑信息收集密度,从而获取更多的图全局结构信息,使得最终获得的图向量更准确。另外,即使在只采用一层正交注意力压缩层的情况下,本发明依然更具优势,因为一般注意力模块直接人为随机预定义全局图表示,而本发明在学习中对其进行更新,排除了人为因素的干扰。
本发明在AIDS和LINUX数据集上进行了线性回归模型与其他方式的对比实验,具体实验结果见表1、表2。本发明选用的对照组方法包括Beam搜索、Hungarian算法、VJ算法及SimGNN模型,其中前三者为传统的基于图编辑距离的近似图匹配方法,SimGNN为基于图神经网络的图相似度学习方法。所采用的评价指标包括计算时间、前10个匹配结果的准确度、前20个匹配结果的精确度、三元组匹配准确度。实验结果表明,本发明性能几乎优于其他所有方式。在计算时间方面,传统算法的时间复杂度远高于机器学习方法,这是可以理解的。有趣的是,传统算法使用了比本发明近16倍和3.5倍的时间来实现其极限内的最高的三元组匹配精确度,且该准确度仍然比本发明差,这可能是由于传统算法在时间和精度之间进行折中导致的。
表1AIDS数据集对比实验结果
Figure BDA0002564183260000121
表2LINUX数据集对比实验结果
Figure BDA0002564183260000131
本发明在人工数据集上进行了逻辑回归模型与其他方式的对比实验,具体实验结果见表3,本发明选用的对照组方法为SimGNN,一个基于图神经网络的图相似度学习模型。表3包含了检验本发明在大图上的性能。结果表明本发明始终优于SimGNN模型,这说明了正交注意压缩层的重要性。由于内存限制了对大图的训练,因此我们的模型必须能够实现在稍小的图中进行训练并在大图上进行测试,也就是本发明必须具备泛化能力。对于100点、200点、300点的实验,我们在20-50点的图上训练。实验结果表明,与SimGNN相比,本发明具有提高泛化性能的潜力。
表3人工数据集对比实验结果(图对匹配准确度)
Figure BDA0002564183260000132
为了验证正交注意层的有效性,我们在本发明t中采用不同数量的正交注意层进行了消融实验。基准模型采用一层一般注意力层代替本发明中的正交注意力压缩层。由表4可以看出,用一个正交注意力压缩层代替一般注意力层后,三元组匹配准确度和图对匹配准确度均显著增加。且本发明对于大图的性能提升尤其明显,基准模型此时基本为一个随机预测模型,这证明了正交注意力压缩层可以消除人为因素对随机规定的全局图表示的不利影响。随着正交注意力层数量的增加,准确度整体呈上升趋势。实验结果表明,该正交注意力压缩模块可以通过捕获全局信息来显著提高性能。但模块数量从2个增加到3个时准确度的增幅略小于模块数量从1个增加到2个的增幅,甚至出现下降趋势。更多的正交注意力压缩模块意味着更多的参数和更多的内存使用。为了平衡性能和资源使用量,我们在其他所有实验中都选择2层正交注意力压缩层作为默认设置。
表4正交注意力压缩层数对性能的影响
Figure BDA0002564183260000141
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (8)

1.一种基于正交注意力机制的层次化压缩图匹配方法,其特征在于,包括以下步骤:
步骤1:获取拟匹配的大图数据对,对大图数据进行预处理,所述预处理是指将图进行点向量初始化,所述大图数据是指节点数大于16个点以上的图;
步骤2:根据历史图库训练基于正交注意力机制的大图匹配模型;
步骤3:将预处理后的大图数据对输入大图匹配模型得到匹配结果并输出;
步骤2中所述大图匹配模型的训练方法为
步骤2.1:获取历史图库中所有的大图数据,对历史图库中的大图数据进行预处理;
步骤2.2:对预处理后的历史图库中的大图数据采用VF2算法生成图数据训练样本库并添加标签,所述图数据训练样本库中每条样本的数据组织形式为
Figure QLYQS_1
的成对形式,标签为1表示图数据中的两幅图/>
Figure QLYQS_2
与/>
Figure QLYQS_3
匹配,标签为0表示图数据中的两幅图/>
Figure QLYQS_4
与/>
Figure QLYQS_5
不匹配,将每一条图数据对及其标签作为一条训练样本;
步骤2.3:设置迭代次数,每次迭代随机从训练样本库中提取N条样本;
步骤2.4:对每一条样本数据中的两幅图各自的点向量集合
Figure QLYQS_6
及邻接矩阵A输入图注意力网络更新点向量,分别得到两幅图的低维点向量矩阵X;
步骤2.5:将所述低维点向量矩阵X进行线性转换,得到维度为
Figure QLYQS_9
的点向量矩阵/>
Figure QLYQS_13
,/>
Figure QLYQS_14
为线性转换前的点向量矩阵维度,/>
Figure QLYQS_8
为线性转换后的点向量矩阵维度,/>
Figure QLYQS_10
为人为设置的超参,/>
Figure QLYQS_11
的每一行对应压缩前的每个点向量,每一列对应压缩后的每个点向量,根据
Figure QLYQS_12
得到图压缩转换矩阵/>
Figure QLYQS_7
,其中
Figure QLYQS_15
Figure QLYQS_16
Figure QLYQS_18
是通过参数/>
Figure QLYQS_20
作用的X的线性转换矩阵,F表示向量初始维度,为人工设定的参数,转移因子/>
Figure QLYQS_23
表示节点压缩前图节点p对于压缩后图节点q的权重,T为由转移因子/>
Figure QLYQS_19
形成的图压缩转换矩阵,/>
Figure QLYQS_22
代表了正交注意力机制,
Figure QLYQS_24
是/>
Figure QLYQS_26
中的一行,代表压缩前图节点p的向量表示,/>
Figure QLYQS_17
是/>
Figure QLYQS_21
中的一列,代表压缩后图节点q的向量表示,/>
Figure QLYQS_25
为激活函数,/>
Figure QLYQS_27
为归一化函数;
步骤2.6:根据所述图压缩转换矩阵T进行图压缩,生成新的点向量矩阵
Figure QLYQS_28
及邻接矩阵/>
Figure QLYQS_29
,/>
Figure QLYQS_30
表示压缩后有kn个节点的图/>
Figure QLYQS_31
:
Figure QLYQS_32
Figure QLYQS_33
,/>
步骤2.7:将所述点向量矩阵
Figure QLYQS_34
及邻接矩阵/>
Figure QLYQS_35
输入步骤2.4,直至图对中的图被压缩至所需规模并输出图对/>
Figure QLYQS_36
各自的图向量;
步骤2.8:计算图对
Figure QLYQS_37
的欧式距离并利用自定义归一化函数进行归一化,采用交叉熵损失函数,优化图匹配模型使得分类结果与真实标签尽可能一致:
Figure QLYQS_38
Figure QLYQS_39
大于等于预设的阈值,则分类结果为匹配,预测标签值为1,当/>
Figure QLYQS_40
小于预设的阈值,则分类结果为不匹配,即预测标签值为0;
Figure QLYQS_41
为图对/>
Figure QLYQS_42
的真实标签,/>
Figure QLYQS_43
为向量空间上图对的欧式距离,/>
Figure QLYQS_44
为超参,训练时人为设定,/>
Figure QLYQS_45
为训练样本数;
步骤2.9:当
Figure QLYQS_46
条样本数据计算完后,更新迭代次数,返回步骤2.3,直至达到最大迭代次数,输出图匹配模型。
2.根据权利要求1所述的方法,其特征在于:所述图匹配模型为逻辑回归模型。
3.一种基于正交注意力机制的层次化压缩图匹配系统,其特征在于:包括以下模块:
预处理模块:用于获取拟匹配的大图数据对,对大图数据进行预处理,所述预处理是指将图进行点向量初始化,所述大图数据是指节点数大于16个点以上的图,;
大图匹配模型训练模块:用于根据历史图库训练基于正交注意力机制的大图匹配模型;
图匹配结果输出模块:用于将预处理后的大图数据对输入大图匹配模型得到匹配结果并输出;
所述大图匹配模型训练模块训练大图匹配模型的方法为
步骤2.1:获取历史图库中所有的大图数据,对历史图库中的大图数据进行预处理;
步骤2.2:对预处理后的历史图库中的大图数据采用VF2算法生成图数据训练样本库并添加标签,所述图数据训练样本库中每条样本的数据组织形式为
Figure QLYQS_47
的成对形式,标签为1表示图数据中的两幅图/>
Figure QLYQS_48
与/>
Figure QLYQS_49
匹配,标签为0表示图数据中的两幅图/>
Figure QLYQS_50
与/>
Figure QLYQS_51
不匹配,将每一条图数据对及其标签作为一条训练样本;
步骤2.3:设置迭代次数,每次迭代随机从训练样本库中提取N条样本;
步骤2.4:对每一条样本数据中的两幅图各自的点向量集合
Figure QLYQS_52
及邻接矩阵A输入图注意力网络更新点向量,分别得到两幅图的低维点向量矩阵X;
步骤2.5:将所述低维点向量矩阵X进行线性转换,得到维度为
Figure QLYQS_55
的点向量矩阵/>
Figure QLYQS_56
,/>
Figure QLYQS_59
为线性转换前的点向量矩阵维度,/>
Figure QLYQS_54
为线性转换后的点向量矩阵维度,/>
Figure QLYQS_57
为人为设置的超参,/>
Figure QLYQS_58
的每一行对应压缩前的每个点向量,每一列对应压缩后的每个点向量,根据
Figure QLYQS_60
得到图压缩转换矩阵/>
Figure QLYQS_53
,其中/>
Figure QLYQS_61
Figure QLYQS_62
Figure QLYQS_64
是通过参数/>
Figure QLYQS_67
作用的X的线性转换矩阵,F表示向量初始维度,为人工设定的参数,转移因子/>
Figure QLYQS_69
表示节点压缩前图节点p对于压缩后图节点q的权重,T为由转移因子/>
Figure QLYQS_65
形成的图压缩转换矩阵,/>
Figure QLYQS_66
代表了正交注意力机制,
Figure QLYQS_68
是/>
Figure QLYQS_70
中的一行,代表压缩前图节点p的向量表示,/>
Figure QLYQS_63
是/>
Figure QLYQS_71
中的一列,代表压缩后图节点q的向量表示,/>
Figure QLYQS_72
为激活函数,/>
Figure QLYQS_73
为归一化函数;
步骤2.6:根据所述图压缩转换矩阵T进行图压缩,生成新的点向量矩阵
Figure QLYQS_74
及邻接矩阵/>
Figure QLYQS_75
,/>
Figure QLYQS_76
表示压缩后有kn个节点的图/>
Figure QLYQS_77
:
Figure QLYQS_78
Figure QLYQS_79
步骤2.7:将所述点向量矩阵
Figure QLYQS_80
及邻接矩阵/>
Figure QLYQS_81
输入步骤2.4,直至图对中的图被压缩至所需规模并输出图对/>
Figure QLYQS_82
各自的图向量;
步骤2.8:计算图对
Figure QLYQS_83
的欧式距离并利用自定义归一化函数进行归一化,采用交叉熵损失函数,优化图匹配模型使得分类结果与真实标签尽可能一致:
Figure QLYQS_84
Figure QLYQS_85
大于等于预设的阈值,则分类结果为匹配,预测标签值为1,当/>
Figure QLYQS_86
小于预设的阈值,则分类结果为不匹配,即预测标签值为0;
Figure QLYQS_87
为图对/>
Figure QLYQS_88
的真实标签,/>
Figure QLYQS_89
为向量空间上图对的欧式距离,/>
Figure QLYQS_90
为超参,训练时人为设定,/>
Figure QLYQS_91
为训练样本数;
步骤2.9:当
Figure QLYQS_92
条样本数据计算完后,更新迭代次数,返回步骤2.3,直至达到最大迭代次数,输出图匹配模型。
4.一种基于正交注意力机制的层次化压缩图匹配方法,其特征在于,包括以下步骤:
S1:获取拟匹配的三元组图数据,对小图数据进行预处理,所述预处理是指将图进行点向量初始化,所述小图数据是指节点数小于16个点以内的图;
S2:根据历史图库训练基于正交注意力机制的小图匹配模型;
S3:将预处理后的三元组图数据输入小图匹配模型得到匹配结果并输出;
S2中所述小图匹配模型的训练方法为:
S2.1:获取历史图库中的小图数据,对历史图库中的小图数据进行预处理;
S2.2:对历史图库中的每条小图数据,用A*算法计算出数据集中任意两图间的图编辑距离,将数据组织为
Figure QLYQS_93
的三元组形式,每个三元组表示模型将进行/>
Figure QLYQS_94
Figure QLYQS_95
的相对相似度比较,将每个三元组数据作为一条样本数据,将/>
Figure QLYQS_96
与/>
Figure QLYQS_97
的图编辑距离之差作为样本数据的标签;
S2.3:将历史图库中所有三元组图数据及其标签组成训练样本库;
S2.4:设置迭代次数,每次迭代随机从训练样本库中提取
Figure QLYQS_98
条样本;
S2.5:对每一条样本中三元组中的各图的点向量集合及邻接矩阵A输入图注意力网络更新点向量,得到图的低维点向量矩阵X;
S2.6:将所述低维点向量矩阵X进行线性转换,得到维度为n*kn的点向量矩阵
Figure QLYQS_99
,/>
Figure QLYQS_100
的每一行对应压缩前的每个点向量,每一列对应压缩后的每个点向量,根据/>
Figure QLYQS_101
得到图压缩转换矩阵T,其中/>
Figure QLYQS_102
为人为设置的超参;
Figure QLYQS_103
Figure QLYQS_104
Figure QLYQS_107
是通过参数/>
Figure QLYQS_108
作用的X的线性转换矩阵,转移因子/>
Figure QLYQS_114
表示节点压缩前图节点p对于压缩后图节点q的权重,T为由转移因子/>
Figure QLYQS_106
形成的图压缩转换矩阵,/>
Figure QLYQS_109
代表了正交注意力机制,/>
Figure QLYQS_112
是/>
Figure QLYQS_115
中的一行,代表压缩前图节点p的向量表示,/>
Figure QLYQS_105
是/>
Figure QLYQS_110
中的一列,代表压缩后图节点q的向量表示,/>
Figure QLYQS_111
为激活函数,/>
Figure QLYQS_113
为归一化函数;
S2.7:根据所述图压缩转换矩阵T,进行图压缩,生成新的点向量矩阵
Figure QLYQS_116
及邻接矩阵
Figure QLYQS_117
,/>
Figure QLYQS_118
表示压缩后有kn个节点的图/>
Figure QLYQS_119
:
Figure QLYQS_120
Figure QLYQS_121
其中,F表示向量初始维度,为人工设定的参数;
S2.8:将所述点向量矩阵
Figure QLYQS_122
及邻接矩阵/>
Figure QLYQS_123
输入S2.5,直至图对中的图被压缩至所需规模并输出三元组/>
Figure QLYQS_124
各自的图向量,/>
Figure QLYQS_125
分别表示历史图库中的小图数据;
S2.9:根据所输出的三元组
Figure QLYQS_126
各自的图向量,分别计算/>
Figure QLYQS_127
和/>
Figure QLYQS_128
的欧式距离,采用均方误差损失函数,优化小图匹配模型使得两欧式距离之差与真实值的图编辑距离之差尽可能接近:/>
Figure QLYQS_129
Figure QLYQS_130
为三元组/>
Figure QLYQS_131
的真实标签,/>
Figure QLYQS_132
为向量空间上/>
Figure QLYQS_133
的欧式距离,/>
Figure QLYQS_134
为向量空间上/>
Figure QLYQS_135
的欧式距离,/>
Figure QLYQS_136
为训练样本数;
Figure QLYQS_137
小于所设的阈值,则/>
Figure QLYQS_138
两幅图更相似,当/>
Figure QLYQS_139
大于所设的阈值,则/>
Figure QLYQS_140
两幅图更相似;
S2.10:当
Figure QLYQS_141
条样本数据计算完后,更新迭代次数,返回S2.4,直至达到最大迭代次数,输出小图匹配模型。
5.根据权利要求4所述的方法,其特征在于:所述小图匹配模型为线性回归模型。
6.一种基于正交注意力机制的层次化压缩图匹配系统,其特征在于,包括以下模块:
小图数据预处理模块:获取拟匹配的三元组图数据,对小图数据进行预处理,所述预处理是指将图进行点向量初始化;
小图匹配模型训练模块:根据历史图库训练基于正交注意力机制的小图匹配模型;
图匹配结果输出模块:将预处理后的三元组图数据对输入小图匹配模型得到匹配结果并输出;
所述小图匹配模型训练模块训练小图匹配模型的方法为:
S2.1:获取历史图库中的小图数据,对历史图库中的小图数据进行预处理;
S2.2:对历史图库中的每条小图数据,用A*算法计算出数据集中任意两图间的图编辑距离,将数据组织为
Figure QLYQS_142
的三元组形式,每个三元组表示模型将进行/>
Figure QLYQS_143
Figure QLYQS_144
的相对相似度比较,将每个三元组数据作为一条样本数据,将/>
Figure QLYQS_145
与/>
Figure QLYQS_146
的图编辑距离之差作为样本数据的标签;
S2.3:将历史图库中所有三元组图数据及其标签组成训练样本库;
S2.4:设置迭代次数,每次迭代随机从训练样本库中提取
Figure QLYQS_147
条样本;
S2.5:对每一条样本中三元组中的各图的点向量集合及邻接矩阵A输入图注意力网络更新点向量,得到图的低维点向量矩阵X;
S2.6:将所述低维点向量矩阵X进行线性转换,得到维度为n*kn的点向量矩阵
Figure QLYQS_148
,/>
Figure QLYQS_149
的每一行对应压缩前的每个点向量,每一列对应压缩后的每个点向量,根据/>
Figure QLYQS_150
得到图压缩转换矩阵T,其中/>
Figure QLYQS_151
为人为设置的超参;
Figure QLYQS_152
Figure QLYQS_153
Figure QLYQS_156
是通过参数/>
Figure QLYQS_158
作用的X的线性转换矩阵,转移因子/>
Figure QLYQS_164
表示节点压缩前图节点p对于压缩后图节点q的权重,T为由转移因子/>
Figure QLYQS_155
形成的图压缩转换矩阵,/>
Figure QLYQS_159
代表了正交注意力机制,/>
Figure QLYQS_161
是/>
Figure QLYQS_163
中的一行,代表压缩前图节点p的向量表示,/>
Figure QLYQS_154
是/>
Figure QLYQS_157
中的一列,代表压缩后图节点q的向量表示,/>
Figure QLYQS_160
为激活函数,/>
Figure QLYQS_162
为归一化函数;
S2.7:根据所述图压缩转换矩阵T,进行图压缩,生成新的点向量矩阵
Figure QLYQS_165
及邻接矩阵/>
Figure QLYQS_166
Figure QLYQS_167
表示压缩后有kn个节点的图/>
Figure QLYQS_168
:
Figure QLYQS_169
Figure QLYQS_170
其中,F表示向量初始维度,为人工设定的参数;
S2.8:将所述点向量矩阵
Figure QLYQS_171
及邻接矩阵/>
Figure QLYQS_172
输入S2.5,直至图对中的图被压缩至所需规模并输出三元组/>
Figure QLYQS_173
各自的图向量,/>
Figure QLYQS_174
分别表示历史图库中的小图数据;
S2.9:根据所输出的三元组
Figure QLYQS_175
各自的图向量,分别计算/>
Figure QLYQS_176
和/>
Figure QLYQS_177
的欧式距离,采用均方误差损失函数,优化小图匹配模型使得两欧式距离之差与真实值的图编辑距离之差尽可能接近:
Figure QLYQS_178
Figure QLYQS_179
为三元组/>
Figure QLYQS_180
的真实标签,/>
Figure QLYQS_181
为向量空间上/>
Figure QLYQS_182
的欧式距离,/>
Figure QLYQS_183
为向量空间上/>
Figure QLYQS_184
的欧式距离,/>
Figure QLYQS_185
为训练样本数;
Figure QLYQS_186
小于所设的阈值,则/>
Figure QLYQS_187
两幅图更相似,当/>
Figure QLYQS_188
大于所设的阈值,则/>
Figure QLYQS_189
两幅图更相似;
S2.10:当
Figure QLYQS_190
条样本数据计算完后,更新迭代次数,返回S2.4,直至达到最大迭代次数,输出小图匹配模型。
7.根据权利要求1或4所述的方法,其特征在于:步骤2.4或S2.5中所述更新点向量的具体方法为:
a. 计算图节点i与其邻居节点j之间的注意力权重:
Figure QLYQS_191
其中,
Figure QLYQS_192
是图注意力网络参数向量,/>
Figure QLYQS_193
表示第/>
Figure QLYQS_194
个节点的点向量,/>
Figure QLYQS_195
表示第/>
Figure QLYQS_196
个邻居节点的点向量;/>
Figure QLYQS_197
为激活函数,/>
b. 根据注意力权重更新图的节点信息:
Figure QLYQS_198
将图的点向量集合及其邻接矩阵重复b次输入GAT网络,其中b为人工设定参数,网络输出为训练获得的图节点的低维向量X表示,
Figure QLYQS_199
表示第/>
Figure QLYQS_200
个节点的邻居节点集合;σ是非线性激活函数。
8.根据权利要求1或4所述的方法,其特征在于:所述点向量初始化是指:对于给定包含n个节点
Figure QLYQS_201
的图/>
Figure QLYQS_202
,每个节点都转换为实数向量/>
Figure QLYQS_203
,其中F表示向量初始维度,为人工设定的参数,向量初始化根据节点类型分为两种情况:若图中包含m种类型的节点,则构造维度为m的one-hot向量;若图中只有一种类型的节点,则构造维度为F的向量,每个维度初始值均设为1。/>
CN202010617255.8A 2020-07-01 2020-07-01 基于正交注意力机制的层次化压缩图匹配方法及系统 Active CN111783879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010617255.8A CN111783879B (zh) 2020-07-01 2020-07-01 基于正交注意力机制的层次化压缩图匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010617255.8A CN111783879B (zh) 2020-07-01 2020-07-01 基于正交注意力机制的层次化压缩图匹配方法及系统

Publications (2)

Publication Number Publication Date
CN111783879A CN111783879A (zh) 2020-10-16
CN111783879B true CN111783879B (zh) 2023-05-30

Family

ID=72761432

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010617255.8A Active CN111783879B (zh) 2020-07-01 2020-07-01 基于正交注意力机制的层次化压缩图匹配方法及系统

Country Status (1)

Country Link
CN (1) CN111783879B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204676B (zh) * 2021-01-07 2021-12-10 北京欧拉认知智能科技有限公司 基于图结构数据的压缩存储方法
CN113592013B (zh) * 2021-08-06 2024-04-30 国网新源水电有限公司富春江水力发电厂 一种基于图注意力网络的三维点云分类方法
CN114048240A (zh) * 2021-11-18 2022-02-15 长春理工大学 一种基于近似图匹配算法的数据集成方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101540045A (zh) * 2009-03-25 2009-09-23 湖南大学 基于同步正交匹配追踪的多源图像融合方法
CN109345575A (zh) * 2018-09-17 2019-02-15 中国科学院深圳先进技术研究院 一种基于深度学习的图像配准方法及装置
CN110020682A (zh) * 2019-03-29 2019-07-16 北京工商大学 一种基于小样本学习的注意力机制关系对比网络模型方法
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101540045A (zh) * 2009-03-25 2009-09-23 湖南大学 基于同步正交匹配追踪的多源图像融合方法
CN109345575A (zh) * 2018-09-17 2019-02-15 中国科学院深圳先进技术研究院 一种基于深度学习的图像配准方法及装置
CN110020682A (zh) * 2019-03-29 2019-07-16 北京工商大学 一种基于小样本学习的注意力机制关系对比网络模型方法
CN110298037A (zh) * 2019-06-13 2019-10-01 同济大学 基于增强注意力机制的卷积神经网络匹配的文本识别方法

Also Published As

Publication number Publication date
CN111783879A (zh) 2020-10-16

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN111783879B (zh) 基于正交注意力机制的层次化压缩图匹配方法及系统
CN108805188B (zh) 一种基于特征重标定生成对抗网络的图像分类方法
CN114926746B (zh) 基于多尺度差分特征注意力机制的sar图像变化检测方法
CN109389171B (zh) 基于多粒度卷积降噪自动编码器技术的医疗图像分类方法
CN104268593A (zh) 一种小样本情况下多稀疏表示的人脸识别方法
CN112818764B (zh) 一种基于特征重建模型的低分辨率图像人脸表情识别方法
CN109272332B (zh) 一种基于递归神经网络的客户流失预测方法
CN112949828A (zh) 一种基于图学习的图卷积神经网络交通预测方法及系统
CN112464004A (zh) 一种多视角深度生成图像聚类方法
CN112860904B (zh) 一种融入外部知识的生物医疗关系抽取方法
CN112862015A (zh) 一种基于超图神经网络的论文分类方法及系统
CN111861756A (zh) 一种基于金融交易网络的团伙检测方法及其实现装置
CN110851654A (zh) 基于张量化数据降维的工业设备故障检测分类方法
CN111753207A (zh) 一种基于评论的神经图协同过滤模型
CN112766283A (zh) 一种基于多尺度卷积网络的两相流流型识别方法
CN111695611A (zh) 一种蜂群优化核极限学习和稀疏表示机械故障识别方法
CN113553918B (zh) 一种基于脉冲主动学习的机打发票字符识别方法
CN114488069A (zh) 基于图神经网络的雷达高分辨率距离像识别方法
CN113989544A (zh) 一种基于深度图卷积网络的群体发现方法
CN114359167A (zh) 一种复杂场景下基于轻量化YOLOv4的绝缘子缺陷检测方法
CN109948589A (zh) 基于量子深度信念网络的人脸表情识别方法
CN117093924A (zh) 基于域适应特征的旋转机械变工况故障诊断方法
CN112286996A (zh) 一种基于网络链接和节点属性信息的节点嵌入方法
CN112329918A (zh) 一种基于注意力机制的对抗正则化网络嵌入方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant