CN114511708A - 基于节点级嵌入特征三维关系重建的图数据相似度方法 - Google Patents

基于节点级嵌入特征三维关系重建的图数据相似度方法 Download PDF

Info

Publication number
CN114511708A
CN114511708A CN202210059012.6A CN202210059012A CN114511708A CN 114511708 A CN114511708 A CN 114511708A CN 202210059012 A CN202210059012 A CN 202210059012A CN 114511708 A CN114511708 A CN 114511708A
Authority
CN
China
Prior art keywords
graph
data
node
dimensional
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210059012.6A
Other languages
English (en)
Inventor
刘博�
武嘉慧
王志晗
张冀东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202210059012.6A priority Critical patent/CN114511708A/zh
Publication of CN114511708A publication Critical patent/CN114511708A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于节点级嵌入特征三维关系重建的图数据相似度方法,属于深度学习领域,首先通过孪生图卷积层和相似节点交互模块生成节点级嵌入特征三维关系,然后将节点级嵌入特征三维关系经过三维卷积提取特征,将三维特征经过Flatten层展开为一维,获得最终节点级关系向量。这一关系向量输入到由全连接层构成的结果输出模块得到预测输出。这一预测输出与实际的标签值进行比较,通过损失函数和反向传播算法对整体模型参数进行更新以达到学习的目的。完成训练的DeepSIM‑3D模型能高效可靠地计算输入的两个图结构数据的相似度。

Description

基于节点级嵌入特征三维关系重建的图数据相似度方法
技术领域
本发明属于深度学习领域,主要用于图结构数据相似度计算。设计了一种成对节点比较方法,主要用于基于节点级嵌入特征三维关系重建的图结构数据相似度计算。
背景技术
图广泛存在于真实世界的多种场景中,即节点和边的集合。比如社交网络中人与人之间的联系,生物中蛋白质相互作用以及通信网络中的IP地址之间的通信等等。除此之外,我们最常见的一张图片、一个句子也可以抽象地看做是一个图模型的结构,图结构可以说是无处不在。
图相似性搜索是最重要的基于图的应用程序之一,例如查找与化合物最相似的化合物,但比较两个图的相似度是一个非常复杂的问题。将神经网络应用到图结构数据上,是一类计算图之间相似度的办法,减少计算复杂度,同时保持良好的性能。图结构数据是非欧几里得数据,难以通过传统的距离度量直接表示,在图上直接进行机器学习具有一定的局限性,通常使用图嵌入来进行图的表示。图嵌入是一种将图数据(通常为高维稠密的矩阵)映射为低微稠密向量的过程。图嵌入技术大致可以分为两种:节点嵌入和图嵌入。当需要对节点进行分类,节点相似度预测,节点分布可视化时一般采用节点的嵌入;当需要在图级别上进行预测,需要将整个图表示为一个向量进行嵌入表示。将图表示为向量后,可以方便的用传统距离度量方式计算相似度,如马氏距离。
节点嵌入的目标是优化嵌入空间和节点到该空间的映射逻辑,使网络中“相似”的节点在嵌入空间中彼此“接近”。早期的节点嵌入算法利用基于随机行走方法来得到节点在多维空间上的向量表示并以此定义节点之间的“相似性”。随着深度学习的出现,基于神经网络的算法,包括图卷积网络(Graph Convolution Network),也被应用到节点嵌入的计算中。
本发明最重要的创新点是提出了一种新的基于节点级嵌入特征的图结构数据相似度模型。本模型使用图卷积网络(GCN)结合孪生结构(Siamese Architecture)进行特征提取,即:生成成对的图结构数据嵌入。孪生图卷积神经网络通过在双分支结构的两个图卷积神经网络模块之间共享权值的方式,实现孪生结构。基于深度学习的图相似度计算本质上是衡量两个图在特征空间上的差异,孪生图卷积神经网络可以将成对的图嵌入到向量空间中,更有利于利用常见的度量方式(如:欧氏距离、余弦相似度和马氏距离等)进行比对。
将经过图卷积层得到的节点级嵌入输入到全连接层中,得到固定维度的节点级向量,并对每层向量进行组内相加,得到节点级特征交互向量,并通过向量整合获得三维特征,再经过卷积层、Flatten层获得一维节点级关系向量,最终输入到全连接层中以实现相似度计算并输出预测得分。
本发明综合以上思想,对图结构数据相似度进行计算,调研中发现,基于节点级嵌入特征三维关系重建的图结构数据相似度计算方法的本发明所提模型具有创新性和原创性。
发明内容
受前人工作启发,本发明所提出的模型设计两个输入用以接收成对的图数据,输入模块之后连接三个共享权值的图卷积层实现孪生图卷积特征提取模块。将孪生图卷积模块的输出结果输入到全连接层得到固定维度的节点级向量。每对孪生图卷积层的两个输出向量对应相加得到三个节点级交互向量,之后将三个向量相乘得到三维特征。经过三维卷积层提取特征,并用Flatten层将三维的输入压平,得到一维的节点级关系向量。关系向量表征节点对之间的差异,将其输入全连接层输出预测值,与实际值进行比较并通过反向传播算法对模型整体参数进行训练,训练完成后的模型可以对图结构数据进行可靠、快速的计算。
步骤1、获取公开图结构数据集数据集并标签值计算与训练集、验证集、测试集划分:
对公开数据集进行两两分组并调用Network X库中的图编辑距离算法进行标签生成,生成后的的数据按比例进行训练集、验证集、测试集划分。
步骤2、将步骤1划分完成的训练数据输入DeepSIM-3D模型,通过孪生图卷积层和相似节点交互模块生成节点级嵌入特征三维关系:
图卷积神经网络负责图结构嵌入生成,为了提高图卷积效率,使用参数化切比雪夫图卷积方法作为特征提取的基础模块,通过共享权值的方式构成孪生结构,以确保输出的结果处于同一特种空间之下,方便进行向量操作。将生成的三对节点通过相似节点交互模型中进行相加相乘融合操作,获得节点级嵌入特征三维关系。
步骤3、将步骤2获得的节点级嵌入特征三维关系经过三维卷积提取特征。
步骤4、将步骤4获得的三维特征经过Flatten层展开为一维,获得最终节点级关系向量。
步骤5、调用结果输出模块接收步骤4输出的关系向量进行结果预测:
结果输出模块有全连接层构成,最终输出相似度结果,与步骤1中生成的标签值进行比较,通过设置MSE损失函数和反向传播算法实现整个模型的参数更新,并用验证集进行验证,当达到学习的效果时生成最终的图结构数据相似度计算模型DeepSIM-3D。
步骤6、调用步骤5中生成的DeepSIM-3D模型并用测试集进行测试,当预测的MSE值符合预期值时,保存模型,此模型在后续使用中只需输入待测数据即可实现高效、精准计算。
与现有技术比较,DeepSIM-3D模型因为考虑了多尺度特征,对节点级特征进行了三维融合,所以特征很全面,最后预测得出的图相似度计算结果精确度很高。
附图说明
图1模型结构图。
图2孪生图卷积模块。
图3相似节点交互模块。
具体实施方式
以下结合附图和实施例对本发明所提模型进行详细说明。
一种基于节点级嵌入特征三维关系重建的图结构数据相似度计算方法,该方法包括如下步骤:
步骤1、获取公开图结构数据集数据集并标签值计算与训练集、验证集、测试集划分:
公开的图结构数据集仅包含原始的图结构数据而不包括成对的相似度标签,故对公开数据集进行两两分组并调用Network X库中的图编辑距离算法进行标签生成,生成后的的数据按一定比例(如7:2:1)进行训练集、验证集、测试集划分。
步骤2、将训练数据输入模型,通过孪生图卷积层和相似节点交互模块生成节点级嵌入特征三维关系:
图卷积神经网络负责图结构嵌入生成,为了提高图卷积效率,使用参数化切比雪夫图卷积方法作为特征提取的基础模块,通过共享权值的方式构成孪生结构,以确保输出的结果处于同一特种空间之下,方便进行向量操作。将生成的三对节点通过相似节点交互模型中进行相加相乘融合操作,获得节点级嵌入特征三维关系。
步骤3、将节点级嵌入特征三维关系经过三维卷积提取特征。
步骤4、将三维特征经过Flatten层展开为一维,获得最终节点级关系向量。
步骤5、调用结果输出模块接收步骤4输出的关系向量进行结果预测:
结果输出模块有全连接层构成,最终输出相似度结果,这一结果与步骤1中生成的标签值进行比较,通过设置MSE损失函数和反向传播算法实现整个模型的参数更新,并用验证集进行验证,当达到学习的效果时生成最终的图结构数据相似度计算模型DeepSIM-3D。
步骤6、调用步骤5中生成的DeepSIM-3D模型并用测试集进行测试,当预测的MSE值符合预期值时,保存模型,此模型在后续使用中只需输入待测数据即可实现高效、精准计算。
本发明所提出的深度学习模型称为DeepSIM-3D(模型结构图见说明书附图1),首先需要从开源网站上图结构数据集,并将之作为原始数据进行数据预处理。数据预处理部分主要负责将数据集中的图结构数据两两一组进行相似度标签计算,例如,LINUX数据集有100个图结构数据,则其经过预处理之后可以生成10000个带相似度标签的数据集。其中,相似度标签使用NetworkX库中提供的图编辑距离计算方法进行快速计算。预处理后的数据输入到模型中,作为模型参数训练的原始数据。
模型的输入层接受预处理后数据,并将之输入到孪生图卷积模块模块(见说明书附图2)。孪生图卷积模块主要负责图嵌入生成,即将图结构数据映射为对应的向量表示。图卷积操作选择了参数化图卷积神经网络代表之一,即:切比雪夫网络。传统的图卷积操作定义在频域上,通过对图的拉普拉斯矩阵的特征分解得出图傅里叶变换如下式所示:
L=UΛUT
Figure BDA0003475025170000071
其中,L为图的拉普拉斯矩阵,U为拉普拉斯矩阵的特征向量,x和
Figure BDA0003475025170000072
分别是图节点上信号和对应的图傅里叶变换结果。因傅里叶变换可逆,可知逆图傅里叶变换如下式所示:
Figure BDA0003475025170000073
由上述式子可给出图卷积操作定义如下:
x1*x2=IGFT(GFT(x1)⊙GFT(x2))
其中x1、x2表示两个图节点上信号,IGFT和GFT分别代表逆图傅里叶变换和图傅里叶变换,⊙为矩阵的哈达玛积。进一步改写上式,可得:
Figure BDA0003475025170000074
由此,可以得出参数化图卷积操作定义式如下:
y=gθ*x=gθ(L)x=gθ(UΛUT)x=Ugθ(Λ)UTx
Figure BDA0003475025170000075
不难看出,如上定义的参数化图卷积操作需要大量的计算开销,主要是因为拉普拉斯矩阵特征分解的计算复杂度较高,图规模越大,计算开销越大。
由此,本DeepSIM-3D模型选择了基于切比雪夫多项式的切比雪夫网络作为优化手段,大大降低了计算的复杂度。切比雪夫多项式如下所示:
Tk(x)=2xTk-1(x)-Tk-2(x)
应用此多项式简化计算,需特别定义T0=1和T1=x,由于切比雪夫多项式可迭代计算,可大大降低计算开销,图卷积核可改写为:
Figure BDA0003475025170000081
由此,图卷积操作可定义为:
Figure BDA0003475025170000082
针对输入的节点级向量数据,其中,上式x为经数据预处理模块和特征映射模块处理后的数据集合,k是参数化矩阵的阶数,gθ为可训练图卷积核,y计算所得的高维数据特征向量作为下游分类任务的输入。
由此为基础构建切比雪夫图卷积层,两个并行的切比雪夫图卷积层通过共享权值的方式实现孪生结构,从每个图卷积层中提取特征,经过全连接层输出6个16×1的固定维度的节点关系向量,可定义为:
(x1,y1),(x2,y2),(x3,y3)
即:孪生图卷积模块。
为了得到节点间的交互关系,分别使孪生GCN输出融合,即经过两个同一层中两个节点级关系特征相加,即可得到三个融合后的节点向量,可定义为:
z1=x1+y1
z2=x2+y2
z3=x3+y3
之后使三个融合向量相乘,得到16×16×16的三维特征,即融合了三层孪生GCN的特征关联。
图结构是高维数据,由低维的特征嵌入反推高维节点空间关系,增加了特征。即:相似节点交互模块(相似节点交互模块,见说明书附图3)。
之后用三维卷积对输入数据提取特征,提升泛化能力。假设输入数据的大小为a1×a2×a3,channel数为c,过滤器大小为f,即过滤器维度为f×f×f×c,过滤器数量为n。三维卷积最终的输出为:
(a1-f+1)×(a2-f+1)×(a3-f+1)×n
将三维卷积结果输入Flatten层,将三维数组按照x轴或y轴进行拉伸,变成一维的数组,最后输出两个节点级嵌入的关系向量,输入到由全连接层构成的结果预测模块,实现图结构数据相似度的可靠计算。

Claims (4)

1.基于节点级嵌入特征三维关系重建的图数据相似度方法,其特征在于:该方法的实施步骤如下:
步骤1、获取公开图结构数据集数据集并标签值计算与训练集、验证集、测试集划分:
对公开数据集进行两两分组并调用Network X库中的图编辑距离算法进行标签生成,生成后的的数据按比例进行训练集、验证集、测试集划分;
步骤2、将步骤1划分完成的训练数据输入DeepSIM-3D模型,通过孪生图卷积层和相似节点交互模块生成节点级嵌入特征三维关系:
图卷积神经网络负责图结构嵌入生成,为了提高图卷积效率,使用参数化切比雪夫图卷积方法作为特征提取的基础模块,通过共享权值的方式构成孪生结构,以确保输出的结果处于同一特种空间之下,方便进行向量操作;将生成的三对节点通过相似节点交互模型中进行相加相乘融合操作,获得节点级嵌入特征三维关系;
步骤3、将步骤2获得的节点级嵌入特征三维关系经过三维卷积提取特征;
步骤4、将步骤4获得的三维特征经过Flatten层展开为一维,获得最终节点级关系向量;
步骤5、调用结果输出模块接收步骤4输出的关系向量进行结果预测:
结果输出模块有全连接层构成,最终输出相似度结果,与步骤1中生成的标签值进行比较,通过设置MSE损失函数和反向传播算法实现整个模型的参数更新,并用验证集进行验证,当达到学习的效果时生成最终的图结构数据相似度计算模型DeepSIM-3D;
步骤6、调用步骤5中生成的DeepSIM-3D模型并用测试集进行测试,当预测的MSE值符合预期值时,保存模型,此模型在后续使用中只需输入待测数据即可实现高效、精准计算。
2.根据权利要求1所述的基于节点级嵌入特征三维关系重建的图数据相似度方法,其特征在于:公开的图结构数据集仅包含原始的图结构数据而不包括成对的相似度标签,故对公开数据集进行两两分组并调用Network X库中的图编辑距离算法进行标签生成,生成后的的数据按一定比例进行训练集、验证集、测试集划分。
3.根据权利要求1所述的基于节点级嵌入特征三维关系重建的图数据相似度方法,其特征在于:所提出的深度学习模型称为DeepSIM-3D,首先需要从开源网站上图结构数据集,并将之作为原始数据进行数据预处理;数据预处理部分主要负责将数据集中的图结构数据两两一组进行相似度标签计算;相似度标签使用NetworkX库中提供的图编辑距离计算方法进行快速计算;预处理后的数据输入到模型中,作为模型参数训练的原始数据;
模型的输入层接受预处理后数据,并将之输入到孪生图卷积模块模块;孪生图卷积模块主要负责图嵌入生成,即将图结构数据映射为对应的向量表示;图卷积操作选择了参数化图卷积神经网络代表之一,即:切比雪夫网络;图卷积操作定义在频域上,通过对图的拉普拉斯矩阵的特征分解得出图傅里叶变换。
4.根据权利要求3所述的基于节点级嵌入特征三维关系重建的图数据相似度方法,其特征在于:
用三维卷积对输入数据提取特征,提升泛化能力;假设输入数据的大小为a1×a2×a3,channel数为c,过滤器大小为f,即过滤器维度为f×f×f×c,过滤器数量为n;三维卷积最终的输出为:
(a1-f+1)×(a2-f+1)×(a3-f+1)×n
将三维卷积结果输入Flatten层,将三维数组按照x轴或y轴进行拉伸,变成一维的数组,最后输出两个节点级嵌入的关系向量,输入到由全连接层构成的结果预测模块,实现图结构数据相似度的可靠计算。
CN202210059012.6A 2022-01-18 2022-01-18 基于节点级嵌入特征三维关系重建的图数据相似度方法 Pending CN114511708A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210059012.6A CN114511708A (zh) 2022-01-18 2022-01-18 基于节点级嵌入特征三维关系重建的图数据相似度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210059012.6A CN114511708A (zh) 2022-01-18 2022-01-18 基于节点级嵌入特征三维关系重建的图数据相似度方法

Publications (1)

Publication Number Publication Date
CN114511708A true CN114511708A (zh) 2022-05-17

Family

ID=81550316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210059012.6A Pending CN114511708A (zh) 2022-01-18 2022-01-18 基于节点级嵌入特征三维关系重建的图数据相似度方法

Country Status (1)

Country Link
CN (1) CN114511708A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115205472A (zh) * 2022-09-16 2022-10-18 成都国星宇航科技股份有限公司 实景重建图片的分组方法、装置、设备及存储介质
CN117333758A (zh) * 2023-12-01 2024-01-02 博创联动科技股份有限公司 基于大数据分析的田地路线识别系统
CN117391150A (zh) * 2023-12-07 2024-01-12 之江实验室 一种基于分层池化图哈希的图数据检索模型训练方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020140386A1 (zh) * 2019-01-02 2020-07-09 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN113241117A (zh) * 2021-05-21 2021-08-10 北京工业大学 一种基于残差图卷积神经网络rna-蛋白质结合位点判别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020140386A1 (zh) * 2019-01-02 2020-07-09 平安科技(深圳)有限公司 基于TextCNN知识抽取方法、装置、计算机设备及存储介质
CN113241117A (zh) * 2021-05-21 2021-08-10 北京工业大学 一种基于残差图卷积神经网络rna-蛋白质结合位点判别方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115205472A (zh) * 2022-09-16 2022-10-18 成都国星宇航科技股份有限公司 实景重建图片的分组方法、装置、设备及存储介质
CN117333758A (zh) * 2023-12-01 2024-01-02 博创联动科技股份有限公司 基于大数据分析的田地路线识别系统
CN117333758B (zh) * 2023-12-01 2024-02-13 博创联动科技股份有限公司 基于大数据分析的田地路线识别系统
CN117391150A (zh) * 2023-12-07 2024-01-12 之江实验室 一种基于分层池化图哈希的图数据检索模型训练方法
CN117391150B (zh) * 2023-12-07 2024-03-12 之江实验室 一种基于分层池化图哈希的图数据检索模型训练方法

Similar Documents

Publication Publication Date Title
Abu-El-Haija et al. Mixhop: Higher-order graph convolutional architectures via sparsified neighborhood mixing
Xie et al. Point clouds learning with attention-based graph convolution networks
Yang et al. Spagan: Shortest path graph attention network
Yu et al. Multi-view harmonized bilinear network for 3d object recognition
CN114511708A (zh) 基于节点级嵌入特征三维关系重建的图数据相似度方法
Klokov et al. Escape from cells: Deep kd-networks for the recognition of 3d point cloud models
Andoni et al. Learning polynomials with neural networks
Bertozzi et al. Diffuse interface models on graphs for classification of high dimensional data
Mazur et al. Cloud transformers: A universal approach to point cloud processing tasks
Hoang et al. Revisiting graph neural networks: Graph filtering perspective
CN112417289B (zh) 一种基于深度聚类的资讯信息智能推荐方法
Rao et al. Discovering nonlinear PDEs from scarce data with physics-encoded learning
Lei et al. Analytic marching: An analytic meshing solution from deep implicit surface networks
Huang et al. Learning disentangled representation for multi-view 3D object recognition
CN111709523A (zh) 一种基于内部集成的宽度学习方法
Mehr et al. Manifold learning in quotient spaces
Hu et al. M-gcn: Multi-scale graph convolutional network for 3d point cloud classification
Lu et al. App-net: Auxiliary-point-based push and pull operations for efficient point cloud classification
Li et al. Conditional random mapping for effective ELM feature representation
Hamilton The Graph Neural Network Model
CN113221794B (zh) 一种训练数据集生成方法、装置、设备及存储介质
Li et al. Anchor-based sparse subspace incomplete multi-view clustering
Xia et al. On the substructure countability of graph neural networks
Bu et al. Shift-invariant ring feature for 3D shape
Kozlov et al. Dual-valued neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination