CN112906873A - 一种图神经网络训练方法、装置、电子设备及存储介质 - Google Patents

一种图神经网络训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112906873A
CN112906873A CN202110330710.0A CN202110330710A CN112906873A CN 112906873 A CN112906873 A CN 112906873A CN 202110330710 A CN202110330710 A CN 202110330710A CN 112906873 A CN112906873 A CN 112906873A
Authority
CN
China
Prior art keywords
sample
neural network
graph
trained
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110330710.0A
Other languages
English (en)
Inventor
石川
江训强
陆元福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110330710.0A priority Critical patent/CN112906873A/zh
Publication of CN112906873A publication Critical patent/CN112906873A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本申请实施例提供的一种图神经网络训练方法、装置、电子设备及存储介质,应用于信息技术领域,通过提取样本异质图对应的不相关节点的负样本和不一致关系的负样本,结构层面的正样本和基于结构层面的正样本的负样本,然后根据提取到的样本对待训练的图神经网络进行训练,从而可以充分利用当前获得的样本,减少所需的样本图像的数量。

Description

一种图神经网络训练方法、装置、电子设备及存储介质
技术领域
本申请涉及信息技术领域,特别是涉及一种图神经网络训练方法、装置、电子设备及存储介质。
背景技术
异质图是指含有多种不同类型节点和关系的图,在现实中通过异质图往往更能体现待分类目标之间的关系。例如,在对电影和演员进行分类时,同一演员可能参演多部电影,同一电影也可能包括多个演员。
然而,当前在对用于对异质图进行分类的图神经网络进行训练时,所需的样本图像往往较多,导致获取样本的成本往往较高。
发明内容
本申请实施例的目的在于提供一种图神经网络训练方法、装置、电子设备及存储介质,用以解决训练过程中,样本需求大的问题。具体技术方案如下:
本申请实施例的第一方面,首先提供了一种图神经网络训练方法,上述方法包括:
获取样本异质图,其中,样本异质图中包括用于表征待分类目标的多个节点;
利用待训练的图神经网络提取样本异质图中的不相关节点的负样本和不一致关系的负样本;
根据不相关节点的负样本和不一致关系的负样本,通过第一预设损失函数计算待训练的图神经网络的第一损失;
利用待训练的图神经网络提取样本异质图中的结构层面的正样本和基于结构层面的正样本的负样本;
根据结构层面的正样本和基于结构层面的正样本的负样本,通过第二预设损失函数计算待训练的图神经网络的第二损失;
根据第一损失和第二损失,计算待训练的图神经网络的综合损失;
根据综合损失对待训练的图神经网络的参数进行调整,返回利用待训练的图神经网络提取样本异质图中的不相关节点的负样本和不一致关系的负样本的步骤继续执行,直至综合损失满足预设条件,得到训练好的图神经网络。
本申请实施例的第二方面,提供了一种图神经网络训练装置,上述装置包括:
样本获取模块,用于获取样本异质图,其中,样本异质图中包括用于表征待分类目标的多个节点;
第一样本提取模块,用于利用待训练的图神经网络提取样本异质图中的不相关节点的负样本和不一致关系的负样本;
第一损失计算模块,用于根据不相关节点的负样本和不一致关系的负样本,通过第一预设损失函数计算待训练的图神经网络的第一损失;
第二样本提取模块,用于利用待训练的图神经网络提取样本异质图中的结构层面的正样本和基于结构层面的正样本的负样本;
第二损失计算模块,用于根据结构层面的正样本和基于结构层面的正样本的负样本,通过第二预设损失函数计算待训练的图神经网络的第二损失;
综合损失计算模块,用于根据第一损失和第二损失,计算待训练的图神经网络的综合损失;
模型获取模块,用于根据综合损失对待训练的图神经网络的参数进行调整,返回利用待训练的图神经网络提取样本异质图中的不相关节点的负样本和不一致关系的负样本的步骤继续执行,直至综合损失满足预设条件,得到训练好的图神经网络。
本申请实施例还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一图神经网络训练方法。
本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现上述任一图神经网络训练方法。
本申请实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一图神经网络训练方法。
本申请实施例有益效果:
本申请实施例提供的一种图神经网络训练方法,通过获取样本异质图;利用待训练的图神经网络提取样本异质图中的不相关节点的负样本和不一致关系的负样本;根据不相关节点的负样本和不一致关系的负样本,通过第一预设损失函数计算待训练的图神经网络的第一损失;利用待训练的图神经网络提取样本异质图中的结构层面的正样本和基于结构层面的正样本的负样本;根据结构层面的正样本和基于结构层面的正样本的负样本,通过第二预设损失函数计算待训练的图神经网络的第二损失;根据第一损失和第二损失,计算待训练的图神经网络的综合损失;根据综合损失对待训练的图神经网络的参数进行调整,返回利用待训练的图神经网络提取样本异质图中的不相关节点的负样本和不一致关系的负样本的步骤继续执行,直至综合损失满足预设条件,得到训练好的图神经网络。通过提取样本异质图对应的不相关节点的负样本和不一致关系的负样本,结构层面的正样本和基于结构层面的正样本的负样本,然后根据提取到的样本对待训练的图神经网络进行训练,从而可以充分利用当前获得的样本,减少所需的样本图像的数量。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本申请实施例提供的图神经网络训练方法的一种流程示意图;
图2a为本申请实施例提供的计算第一损失的一种流程示意图;
图2b为本申请实施例提供的计算第二损失的一种流程示意图;
图3a为本申请实施例提供的一种异质图的示意图;
图3b为本申请实施例提供的异质图的网络关系的第一种示意图;
图3c为本申请实施例提供的异质图的网络关系的第二种示意图;
图3d为本申请实施例提供的异质图的网络关系的第三种示意图;
图3e为本申请实施例提供的异质图的网络关系的第四种示意图;
图4为本申请实施例提供的图神经网络训练装置的一种结构示意图;
图5为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例的第一方面,首先提供了一种图神经网络训练方法,上述方法包括:
获取样本异质图,其中,样本异质图中包括用于表征待分类目标的多个节点;
利用待训练的图神经网络提取样本异质图中的不相关节点的负样本和不一致关系的负样本;
根据不相关节点的负样本和不一致关系的负样本,通过第一预设损失函数计算待训练的图神经网络的第一损失;
利用待训练的图神经网络提取样本异质图中的结构层面的正样本和基于结构层面的正样本的负样本;
根据结构层面的正样本和基于结构层面的正样本的负样本,通过第二预设损失函数计算待训练的图神经网络的第二损失;
根据第一损失和第二损失,计算待训练的图神经网络的综合损失;
根据综合损失对待训练的图神经网络的参数进行调整,返回利用待训练的图神经网络提取样本异质图中的不相关节点的负样本和不一致关系的负样本的步骤继续执行,直至综合损失满足预设条件,得到训练好的图神经网络。
可见,通过本申请实施例的图神经网络训练方法,可以提取样本异质图对应的不相关节点的负样本和不一致关系的负样本,结构层面的正样本和基于结构层面的正样本的负样本,然后根据提取到的样本对待训练的图神经网络进行训练,从而可以充分利用当前获得的样本,减少所需的样本图像的数量。
具体的,参见图1,图1为本申请实施例的图神经网络训练方法的一种流程示意图,包括:
步骤S11,获取样本异质图。
其中,样本异质图中包括用于表征待分类目标的多个节点。
本申请实施例中,异质图可以通过
Figure BDA0002994427820000051
来表示,其中,
Figure BDA0002994427820000052
和ε分别表示节点和边的集合。同时也关联一个节点类型映射函数
Figure BDA0002994427820000053
和一个边类型映射函数
Figure BDA0002994427820000054
其中
Figure BDA0002994427820000055
Figure BDA0002994427820000056
分别表示节点和边的集合且
Figure BDA0002994427820000057
异质图的网络模式
Figure BDA0002994427820000058
指定节点对象上的类型约束以及节点对象之间的关系。
本申请实施例的图神经网络训练方法应用于对图神经网络进行训练的智能终端,具体的该智能终端可以是电脑或服务器等。
步骤S12,利用待训练的图神经网络提取样本异质图中的不相关节点的负样本和不一致关系的负样本。
本申请中给定正的三元组
Figure BDA0002994427820000059
在R与R-不一致的关系类型下,存在与u(或v)连接的节点,因此,三元组<u,R-,w>代表了不同于<u,R,v>的语义语境。因此,本申请通过从不一致关系集
Figure BDA00029944278200000510
构造具有不一致关系
Figure BDA00029944278200000511
的负三元组<u,R-,w>形式上,对于正的三元组
Figure BDA00029944278200000512
定义来自不一致关系的负样本,表示为
Figure BDA00029944278200000513
可选的,利用待训练的图神经网络提取样本异质图中的不相关节点的负样本和不一致关系的负样本,包括:
利用待训练的图神经网络,通过第一预设公式:
Figure BDA0002994427820000061
提取样本异质图中的不相关节点的负样本,其中,ε表示为边的集合,
Figure BDA0002994427820000062
表示节点u和节点w的关系且与正关系
Figure BDA0002994427820000063
不同,
Figure BDA0002994427820000064
表示样本异质图中的不相关节点的负样本,
Figure BDA0002994427820000065
为边类型映射函数;
利用待训练的图神经网络,通过第二预设公式:
Figure BDA0002994427820000066
提取样本异质图中的不一致关系的负样本,其中,*代表任意关系,-代表没有连边的节点,
Figure BDA0002994427820000067
表示节点,
Figure BDA0002994427820000068
表示样本异质图中的不一致关系的负样本。
步骤S13,根据不相关节点的负样本和不一致关系的负样本,通过第一预设损失函数计算待训练的图神经网络的第一损失。
可选的,根据不相关节点的负样本和不一致关系的负样本,通过第一预设损失函数计算待训练的图神经网络的第一损失,包括:
根据不相关节点的负样本和不一致关系的负样本,通过第一预设损失函数:
Figure BDA0002994427820000069
Figure BDA00029944278200000610
Figure BDA00029944278200000611
计算待训练的图神经网络的第一损失,其中,hu节点u的矩阵表示,hv为节点v的矩阵表示,WR表示为边关系R的训练矩阵,
Figure BDA0002994427820000071
Figure BDA0002994427820000072
分别表示为基于关系级别和基于节点级别的对比学习损失,
Figure BDA0002994427820000073
为来自关系的正样本。
步骤S14,利用待训练的图神经网络提取样本异质图中的结构层面的正样本和基于结构层面的正样本的负样本。
在本申请实施例中,正样本可以通过原图来构造,元图可以被视为多个元路径的组合。元图可以表示为
Figure BDA0002994427820000074
其中
Figure BDA0002994427820000075
是表示类型的节点集,εM
Figure BDA0002994427820000076
之间的边集。元路径
Figure BDA00029944278200000717
定义在图上的网络模式
Figure BDA0002994427820000077
下的一条路径,可以表示为
Figure BDA0002994427820000078
被定义为一个在类型
Figure BDA0002994427820000079
和类型
Figure BDA00029944278200000710
的复合关系
Figure BDA00029944278200000711
其中o表示关系上的组合运算符。
本申请中,给定元图
Figure BDA00029944278200000712
和源节点u,定义并构造元图实例m∈I(M)作为围绕u的一组节点,使得匹配元图M,其中I(M)表示M的所有实例的集合。
可选的,利用待训练的图神经网络提取样本异质图中的结构层面的正样本和基于结构层面的正样本的负样本,包括:
利用待训练的图神经网络,通过第三预设公式:
Figure BDA00029944278200000713
提取样本异质图中的结构层面的正样本,其中,
Figure BDA00029944278200000714
表示为元图类型集合,M表示为一种类型的元图,m表示为M类型元图的实例,
Figure BDA00029944278200000715
是节点u基于结构的正样本。
利用待训练的图神经网络,通过第四预设公式:
Figure BDA00029944278200000716
提取样本异质图中的基于结构层面的正样本的负样本,其中,t-1表示为上一次训练因此前几次训练的正样本作为负样本,
Figure BDA0002994427820000081
表示基于所述结构层面的正样本的负样本。
本申请实施例中的负样本,通过在训练过程中,基于先前的正样本,通过添加最新的正样本并移除最旧的正样本来生成负样本。
步骤S15,根据结构层面的正样本和基于结构层面的正样本的负样本,通过第二预设损失函数计算待训练的图神经网络的第二损失。
可选的,根据结构层面的正样本和基于结构层面的正样本的负样本,通过第二预设损失函数计算待训练的图神经网络的第二损失,包括:
根据结构层面的正样本和基于结构层面的正样本的负样本,通过第二预设损失函数:
Figure BDA0002994427820000082
计算待训练的图神经网络的第二损失,其中,
Figure BDA0002994427820000083
为第二损失,
Figure BDA0002994427820000084
节点u的矩阵表示转置矩阵,P+为真样本集合,
Figure BDA0002994427820000085
为正样本中的一个节点。
步骤S16,根据第一损失和第二损失,计算待训练的图神经网络的综合损失。
其中,计算第一损失和第二损失可以参见图2a和图2b,根据第一损失和第二损失,计算待训练的图神经网络的综合损失,可以通过求和的方式计算,例如,通过预设公式:
Figure BDA0002994427820000086
计算待训练的图神经网络的综合损失。
步骤S17,根据综合损失对待训练的图神经网络的参数进行调整,返回利用待训练的图神经网络提取样本异质图中的不相关节点的负样本和不一致关系的负样本的步骤继续执行,直至综合损失满足预设条件,得到训练好的图神经网络。
其中,预设条件可以为综合损失小于某一预设阈值。
通过本申请实施例的图神经网络训练方法得到的训练好的图神经网络模型后,可以根据该训练好的图神经网络对待识别图像进行图像的识别,从而得到识别结果。
可见,通过本申请实施例的图神经网络训练方法,可以提取样本异质图对应的不相关节点的负样本和不一致关系的负样本,结构层面的正样本和基于结构层面的正样本的负样本,然后根据提取到的样本对待训练的图神经网络进行训练,从而可以充分利用当前获得的样本,减少所需的样本图像的数量。
本申请中,通过使用DBLP,Yelp和Aminer进行实验对比,对于每个数据集,均将整个图形随机分成两个图形,用于预训练和微调,得到三个数据集的详细统计数据,如下:
DBLP摘自某网站。根据发表论文的领域,DBLP作者被划分为数据库、数据挖掘、人工智能和信息检索四个研究领域。将DBLP随机分为预训练图和微调图,分别包含50%的作者和其他相关节点。具体的,可以参见图3a、图3b、图3c、图3d、图3e,其中,A表示作者,P表示论文,C表示会议,T表示主题,a1、a2、a3、a4表示不同的作者,p1、p2、p3、p4、p5表示不同的论文,c1、c2表示不同的会议,t1、t 2、t 3、t 4表示不同的主题。
Yelp是为一种广泛使用的基准数据集。按照业务节点3:1的比例,将Yelp随机拆分为预训练图和微调图
Aminer是一个书目图表。Aminer中的论文标注了人工智能等17个研究领域,用于节点分类。
表1.三个数据集的统计信息
Figure BDA0002994427820000091
对比模型。将提出的模型与基线模型比较,包括无预训练方法、三种基于图形神经网络的无监督目标方法(即GAE、EdgePred、DGI)和预训练方法(即GPT-GNN)。无预训练方法采用GNN模型学习节点表示,然后在微调图上执行下游任务GAE专注于传统的链路预测任务,随机屏蔽掉固定比例的边缘,并训练模型来重建这些被屏蔽的边缘。EdgePred预测节点对的连通性,并强制连接的节点具有相似的节点嵌入。DGI通过图的面片表示最大化局部互信息。GPT-GNN是一个用于预处理神经网络的先进模型,通过重构输入图的属性和结构,从输入图中学习可转移的知识。
其中,CPT-HG可以在不同的GNN模式下实施。本申请实施例中,主要研究HGT,最具表现力和最先进的GNN异质图形架构。
参数设置通过用PyTorch实现CPT-HG,并采用自适应矩估计(Adam)优化器来训练建议的CPT-HG。在预训练过程中,将节点表示的维数设置为64,将基本GNN层数设置为2,并将所有方法的关注点设置为1。学习率从[0.01,0.008,0.005,0.001]开始排列。对于基线的其他参数,可以根据经验进行优化。对于CPT-HG,来自不一致关系和不相关节点的负样本大小分别设置为50和200。排队负样本的大小设置为100。使用基于验证集性能的提前停止,耐心等待10个阶段进行模型训练。
评价指标根据前面的工作,首先通过利用预训练图中的自监督信息来预训练模型(包括基线和我们的CPT-HG)。然后,使用下游任务中的标记信息(例如,链路预测)来微调预先训练的模型。下游实验用10个随机种子运行,在测试集上报告平均实验结果和标准偏差。
根据经验比较了CPT-HG和两个下游任务中的基线,包括链路预测和节点分类链路预测在预训练的静力触探图和基线之后,将预训练的模型应用到微调图上以预测边缘。具体来说,考虑DBLP数据集中的论文术语预测、Yelp数据集中的商业定位以及Aminer数据集中的论文作者和论文会议。在微调过程中,以8:1:1的比例随机划分要预测的边(如Aminer中的论文作者),以构建训练集、验证集和测试集。随机抽取与训练集相同数量的未连接节点对作为模型优化的负样本。最后,最小化交叉熵损失来训练微调过程中的GNN模型,并用MRR度量来评估预测性能。
表2展示了三个数据集上的链接预测性能。总体而言,与最佳基线相比,MRR改进了2.16%-6.81%。显著的改进归功于异质图的结构和语义信息建模。与无预训练基线相比,CPT-HG在三个数据集上的链路预测性能分别显著提高了5.83%、2.64%和10.85%。这些改进表明,异质图上的对比预训练能够为下游任务学习可转移的信息知识。在不同的基线中,传统的基于图神经网络的方法(例如GAE)由于预训练图的使用不足而获得不令人满意的性能。GPT-GNN通过在子分类上的生成性预训练表现得更好,以便学习可转移的知识。
表2.在三个数据集上的链接预测任务的实验结果(MRR标准)
Figure BDA0002994427820000111
最好的方法是加粗,其次是下划线节点分类。为了评估模型在节点分类任务中的性能,由预先训练的模型学习的节点表示被馈送到线性分类器以预测节点标签。根据以1:2:7的比例随机分割标记节点,用于训练、验证和测试集。由于Yelp数据集中没有标签信息,在DBLP和Aminer数据集上进行了实验,并采用精度作为评价指标。如表3所示,可以发现CPT-HG在两个数据集上的表现始终比所有基线好。
表3.在DBLP和Aminer数据集上的节点分类任务中的实验结果
Figure BDA0002994427820000112
表4.不同下游任务中不同烧蚀模型的分析
Figure BDA0002994427820000113
进一步的,对于CPT-HGsuband CPT-HGrel、CPT-HGsub仅仅将子图级预训练任务用于构建性预训练,在异质图中建模结构属性,而CPT-HGrel仅仅使用关系级预训练任务来捕获语义信息。在表4中,报告了两个消融模型的性能以及在链路预测和节点分类任务中相对于无预训练基线的改进。
总的来说,完整的CPT-HG在大多数情况下实现了最大的改进,这表明了为预训练异质图联合捕获语义关系和子图结构的必要性。与CPT-HGsub相比,CPT-HGrel带来的改善更为显著。尽管CPT-HGsub对图的结构进行了编码,但在CPT-HGrel编码的语义关系对于异质图中的节点表示更为重要。CPT-HGrel在Yelp数据集上实现了最小的改进,由于Yelp中的关系对于少量不同类型的节点信息较少,如表1中Yelp数据集的统计所示。另一方面,CPT-HGsub通过专注于对图中的子图结构建模来提高链路预测性能。
表5.在Aminer数据集上链接预测中不同GNN体系结构的分析
Figure BDA0002994427820000121
本申请中,CPT-HG不限于GNNs的体系结构,进一步将CPTHG应用于五个GNN体系结构,包括两个异质GNNs(即HGT、RGCN)和三个同质GNNs(即GCN、GAT、GraphSAGE),用于研究CPT-HG的普适性。由于在三个数据集中观察到相似的趋势,只报告最大Aminer数据集中的链接预测性能。
如表5所示,CPT-HG能够提高大多数GNN架构的下游任务性能。此外,在所有GNN车型中,经过预先训练的HGT获得了最佳性能增益。因为CPT-HG可以利用异质图上可转移的语义和结构特性来提高GNN模型的性能。同时,预先训练的GAT性能较差。
进一步的,本申请中,通过研究了实验设置对模型性能的影响,包括元图的影响和预训练子图的大小。与之前的分析类似,获取Aminer数据集上的结果。
通过使用不同的元图对CPT-HG的性能进行了实证验证,包括PAP、PCP、PATP和PACP。例如,只使用元图PAP来执行子图级别的预训练任务,表示为CPT-HGPAP,使用所有的元图来进行原始的CPT-HG,在表6中,报告了与原始模型相比不同元图的结果。可知,用一些元图(如PAP和PCP)预先训练CPT-HG很难在异质图中学习语义和结构,甚至降低了模型性能。随着元图的结构变得更加复杂(例如,PACP),CPTHG通过在图中编码更多的结构信息来获得更多的性能增益。
进一步的,为了研究预训练子图大小的影响。本申请还探讨了预训练子图的大小将如何影响模型性能,并检查了{10%,50%,100%}百分比的预训练子图。在表7中,CPT-HG通过更多的预训练数据集持续提高了链路预测性能。当训练前的图形非常小(例如10%)时,CPT-HG很难为下游任务学习到有用的语义和结构信息,导致性能较差。
表6.Aminer数据集上节点分类中不同元图的分析
Figure BDA0002994427820000131
表7.将预训练性能增益与不同百分比的预训练数据集进行比较
Figure BDA0002994427820000132
通过本申请对应的实验,在异质图上预训练GNN模型,并提出了一种新的异质图上神经网络的对比预训练策略——CPT-HG。通过对比学习来利用关系级和子图级的预训练任务,这利用了异质图固有的自监督信息。并在关系层,设计了一个预训练任务来区分两个节点之间的关系类型,它编码了异质图的基本特征。在子图层,还提出了一个预训练任务来区分不同元图的子图实例,对高阶语义上下文进行编码。
本申请实施例的第二方面,参见图4,提供了一种图神经网络训练装置,上述装置包括:
样本获取模块401,用于获取样本异质图,其中,样本异质图中包括用于表征待分类目标的多个节点;
第一样本提取模块402,用于利用待训练的图神经网络提取样本异质图中的不相关节点的负样本和不一致关系的负样本;
第一损失计算模块403,用于根据不相关节点的负样本和不一致关系的负样本,通过第一预设损失函数计算待训练的图神经网络的第一损失;
第二样本提取模块404,用于利用待训练的图神经网络提取样本异质图中的结构层面的正样本和基于结构层面的正样本的负样本;
第二损失计算模块405,用于根据结构层面的正样本和基于结构层面的正样本的负样本,通过第二预设损失函数计算待训练的图神经网络的第二损失;
综合损失计算模块406,用于根据第一损失和第二损失,计算待训练的图神经网络的综合损失;
模型获取模块407,用于根据综合损失对待训练的图神经网络的参数进行调整,返回利用待训练的图神经网络提取样本异质图中的不相关节点的负样本和不一致关系的负样本的步骤继续执行,直至综合损失满足预设条件,得到训练好的图神经网络。
可选的,第一样本提取模块,包括:
第一预设公式子模块,用于利用待训练的图神经网络,通过第一预设公式:
Figure BDA0002994427820000141
提取样本异质图中的不相关节点的负样本,其中,ε表示为边的集合,
Figure BDA0002994427820000151
表示节点u和节点w的关系且与正关系
Figure BDA0002994427820000152
不同,
Figure BDA0002994427820000153
表示样本异质图中的不相关节点的负样本,
Figure BDA0002994427820000154
为边类型映射函数;
第二预设公式子模块,用于利用待训练的图神经网络,通过第二预设公式:
Figure BDA0002994427820000155
提取样本异质图中的不一致关系的负样本,其中,*代表任意关系,-代表没有连边的节点,
Figure BDA0002994427820000156
表示节点,
Figure BDA0002994427820000157
表示样本异质图中的不一致关系的负样本。
可选的,第一损失计算模块,具体用于:根据不相关节点的负样本和不一致关系的负样本,通过第一预设损失函数:
Figure BDA0002994427820000158
Figure BDA0002994427820000159
Figure BDA00029944278200001510
计算待训练的图神经网络的第一损失,其中,hu节点u的矩阵表示,hv为节点v的矩阵表示,WR表示为边关系R的训练矩阵,
Figure BDA00029944278200001511
Figure BDA00029944278200001512
分别表示为基于关系级别和基于节点级别的对比学习损失,
Figure BDA00029944278200001513
为来自关系的正样本。
可选的,第二样本提取模块,包括:
第三预设公式子模块,用于利用待训练的图神经网络,通过第三预设公式:
Figure BDA00029944278200001514
提取样本异质图中的结构层面的正样本,其中,
Figure BDA0002994427820000161
表示为元图类型集合,M表示为一种类型的元图,m表示为M类型元图的实例,
Figure BDA0002994427820000162
是节点u基于结构的正样本;
第四预设公式子模块,用于利用待训练的图神经网络,通过第四预设公式:
Figure BDA0002994427820000163
提取样本异质图中的基于结构层面的正样本的负样本,其中,t-1表示为上一次训练因此前几次训练的正样本作为负样本,
Figure BDA0002994427820000164
表示基于所述结构层面的正样本的负样本;
可选的,第二损失计算模块,具体用于:
根据结构层面的正样本和基于结构层面的正样本的负样本,通过第二预设损失函数:
Figure BDA0002994427820000165
计算待训练的图神经网络的第二损失,其中,
Figure BDA0002994427820000166
为第二损失,
Figure BDA0002994427820000167
节点u的矩阵表示转置矩阵,P+为真样本集合,
Figure BDA0002994427820000168
为正样本中的一个节点。
可见,通过本申请实施例的图神经网络训练装置,可以提取样本异质图对应的不相关节点的负样本和不一致关系的负样本,结构层面的正样本和基于结构层面的正样本的负样本,然后根据提取到的样本对待训练的图神经网络进行训练,从而可以充分利用当前获得的样本,减少所需的样本图像的数量。
本申请实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存放计算机程序;
处理器501,用于执行存储器503上所存放的程序时,实现如下步骤:
获取样本异质图,其中,样本异质图中包括用于表征待分类目标的多个节点;
利用待训练的图神经网络提取样本异质图中的不相关节点的负样本和不一致关系的负样本;
根据不相关节点的负样本和不一致关系的负样本,通过第一预设损失函数计算待训练的图神经网络的第一损失;
利用待训练的图神经网络提取样本异质图中的结构层面的正样本和基于结构层面的正样本的负样本;
根据结构层面的正样本和基于结构层面的正样本的负样本,通过第二预设损失函数计算待训练的图神经网络的第二损失;
根据第一损失和第二损失,计算待训练的图神经网络的综合损失;
根据综合损失对待训练的图神经网络的参数进行调整,返回利用待训练的图神经网络提取样本异质图中的不相关节点的负样本和不一致关系的负样本的步骤继续执行,直至综合损失满足预设条件,得到训练好的图神经网络。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一图神经网络训练方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一图神经网络训练方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、存储介质、计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (10)

1.一种图神经网络训练方法,其特征在于,所述方法包括:
获取样本异质图,其中,所述样本异质图中包括用于表征待分类目标的多个节点;
利用待训练的图神经网络提取所述样本异质图中的不相关节点的负样本和不一致关系的负样本;
根据所述不相关节点的负样本和所述不一致关系的负样本,通过第一预设损失函数计算所述待训练的图神经网络的第一损失;
利用待训练的图神经网络提取所述样本异质图中的结构层面的正样本和基于所述结构层面的正样本的负样本;
根据所述结构层面的正样本和所述基于所述结构层面的正样本的负样本,通过第二预设损失函数计算所述待训练的图神经网络的第二损失;
根据所述第一损失和所述第二损失,计算所述待训练的图神经网络的综合损失;
根据所述综合损失对所述待训练的图神经网络的参数进行调整,返回所述利用待训练的图神经网络提取所述样本异质图中的不相关节点的负样本和不一致关系的负样本的步骤继续执行,直至所述综合损失满足预设条件,得到训练好的图神经网络。
2.根据权利要求1所述的方法,其特征在于,所述利用待训练的图神经网络提取所述样本异质图中的不相关节点的负样本和不一致关系的负样本,包括:
利用待训练的图神经网络,通过第一预设公式:
Figure FDA0002994427810000011
提取所述样本异质图中的不相关节点的负样本,其中,ε表示为边的集合,
Figure FDA0002994427810000012
表示节点u和节点w的关系且与正关系
Figure FDA0002994427810000013
不同,
Figure FDA0002994427810000014
表示样本异质图中的不相关节点的负样本,
Figure FDA0002994427810000015
为边类型映射函数;
利用待训练的图神经网络,通过第二预设公式:
Figure FDA0002994427810000016
提取所述样本异质图中的不一致关系的负样本,其中,*代表任意关系,-代表没有连边的节点,
Figure FDA0002994427810000029
表示节点,
Figure FDA0002994427810000021
表示样本异质图中的不一致关系的负样本。
3.根据权利要求2所述的方法,其特征在于,所述根据所述不相关节点的负样本和所述不一致关系的负样本,通过第一预设损失函数计算所述待训练的图神经网络的第一损失,包括:
根据所述不相关节点的负样本和所述不一致关系的负样本,通过第一预设损失函数:
Figure FDA0002994427810000022
Figure FDA0002994427810000023
Figure FDA0002994427810000024
计算所述待训练的图神经网络的第一损失,其中,hu节点u的矩阵表示,
Figure FDA00029944278100000210
为节点v的矩阵表示,WR表示为边关系R的训练矩阵,
Figure FDA0002994427810000025
Figure FDA0002994427810000026
分别表示为基于关系级别和基于节点级别的对比学习损失,
Figure FDA0002994427810000027
为来自关系的正样本。
4.根据权利要求1所述的方法,其特征在于,所述利用待训练的图神经网络提取所述样本异质图中的结构层面的正样本和基于所述结构层面的正样本的负样本,包括:
利用待训练的图神经网络,通过第三预设公式:
Figure FDA0002994427810000028
提取所述样本异质图中的结构层面的正样本,其中,
Figure FDA0002994427810000031
表示为元图类型集合,M表示为一种类型的元图,m表示为M类型元图的实例,
Figure FDA0002994427810000032
是节点u基于结构的正样本;
利用待训练的图神经网络,通过第四预设公式:
Figure FDA0002994427810000033
提取所述样本异质图中的基于所述结构层面的正样本的负样本,其中,t-1表示为上一次训练因此前几次训练的正样本作为负样本,
Figure FDA0002994427810000034
表示基于所述结构层面的正样本的负样本。
5.根据权利要求4所述的方法,其特征在于,所述根据所述结构层面的正样本和所述基于所述结构层面的正样本的负样本,通过第二预设损失函数计算所述待训练的图神经网络的第二损失,包括:
根据所述结构层面的正样本和所述基于所述结构层面的正样本的负样本,通过第二预设损失函数:
Figure FDA0002994427810000035
计算所述待训练的图神经网络的第二损失,其中,
Figure FDA0002994427810000036
为第二损失,
Figure FDA0002994427810000037
节点u的矩阵表示转置矩阵,P+为真样本集合,
Figure FDA0002994427810000038
为正样本中的一个节点。
6.一种图神经网络训练装置,其特征在于,所述装置包括:
样本获取模块,用于获取样本异质图,其中,所述样本异质图中包括用于表征待分类目标的多个节点;
第一样本提取模块,用于利用待训练的图神经网络提取所述样本异质图中的不相关节点的负样本和不一致关系的负样本;
第一损失计算模块,用于根据所述不相关节点的负样本和所述不一致关系的负样本,通过第一预设损失函数计算所述待训练的图神经网络的第一损失;
第二样本提取模块,用于利用待训练的图神经网络提取所述样本异质图中的结构层面的正样本和基于所述结构层面的正样本的负样本;
第二损失计算模块,用于根据所述结构层面的正样本和所述基于所述结构层面的正样本的负样本,通过第二预设损失函数计算所述待训练的图神经网络的第二损失;
综合损失计算模块,用于根据所述第一损失和所述第二损失,计算所述待训练的图神经网络的综合损失;
模型获取模块,用于根据所述综合损失对所述待训练的图神经网络的参数进行调整,返回所述利用待训练的图神经网络提取所述样本异质图中的不相关节点的负样本和不一致关系的负样本的步骤继续执行,直至所述综合损失满足预设条件,得到训练好的图神经网络。
7.根据权利要求6所述的装置,其特征在于,所述第一样本提取模块,包括:
第一预设公式子模块,用于利用待训练的图神经网络,通过第一预设公式:
Figure FDA0002994427810000041
提取所述样本异质图中的不相关节点的负样本,其中,其中,ε表示为边的集合,
Figure FDA0002994427810000042
表示节点u和节点w的关系且与正关系
Figure FDA0002994427810000043
不同,
Figure FDA0002994427810000044
表示样本异质图中的不相关节点的负样本,
Figure FDA0002994427810000045
为边类型映射函数;
第二预设公式子模块,用于利用待训练的图神经网络,通过第二预设公式:
Figure FDA0002994427810000046
提取所述样本异质图中的不一致关系的负样本,其中,*代表任意关系,-代表没有连边的节点,
Figure FDA0002994427810000047
表示节点,
Figure FDA0002994427810000048
表示样本异质图中的不一致关系的负样本。
8.根据权利要求7所述的装置,其特征在于,所述第一损失计算模块,具体用于:根据所述不相关节点的负样本和所述不一致关系的负样本,通过第一预设损失函数:
Figure FDA0002994427810000049
Figure FDA0002994427810000051
Figure FDA0002994427810000052
计算所述待训练的图神经网络的第一损失,其中,
Figure FDA0002994427810000053
Figure FDA0002994427810000056
分别表示为节点u和节点v的表示,WR表示为边关系R的训练矩阵,
Figure FDA0002994427810000054
Figure FDA0002994427810000055
分别表示为基于关系级别和基于节点级别的对比学习损失。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。
CN202110330710.0A 2021-03-26 2021-03-26 一种图神经网络训练方法、装置、电子设备及存储介质 Pending CN112906873A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110330710.0A CN112906873A (zh) 2021-03-26 2021-03-26 一种图神经网络训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110330710.0A CN112906873A (zh) 2021-03-26 2021-03-26 一种图神经网络训练方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112906873A true CN112906873A (zh) 2021-06-04

Family

ID=76109135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110330710.0A Pending CN112906873A (zh) 2021-03-26 2021-03-26 一种图神经网络训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112906873A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688757A (zh) * 2021-08-30 2021-11-23 五邑大学 一种sar图像识别方法、装置及存储介质
CN114299304A (zh) * 2021-12-15 2022-04-08 腾讯科技(深圳)有限公司 一种图像处理方法及相关设备
CN114330312A (zh) * 2021-11-03 2022-04-12 腾讯科技(深圳)有限公司 标题文本处理方法、装置、存储介质和程序

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178039A (zh) * 2019-12-18 2020-05-19 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置
CN111222049A (zh) * 2020-01-08 2020-06-02 东北大学 语义增强的异构信息网络上Top-k相似度搜索方法
CN111860769A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 预训练图神经网络的方法以及装置
CN111930858A (zh) * 2020-07-22 2020-11-13 北京邮电大学 一种异质信息网络的表示学习方法、装置及电子设备
CN112381147A (zh) * 2020-11-16 2021-02-19 虎博网络技术(上海)有限公司 动态图片相似度模型建立、相似度计算方法和装置
US20210067549A1 (en) * 2019-08-29 2021-03-04 Nec Laboratories America, Inc. Anomaly detection with graph adversarial training in computer systems

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210067549A1 (en) * 2019-08-29 2021-03-04 Nec Laboratories America, Inc. Anomaly detection with graph adversarial training in computer systems
CN111178039A (zh) * 2019-12-18 2020-05-19 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置
CN111222049A (zh) * 2020-01-08 2020-06-02 东北大学 语义增强的异构信息网络上Top-k相似度搜索方法
CN111860769A (zh) * 2020-06-16 2020-10-30 北京百度网讯科技有限公司 预训练图神经网络的方法以及装置
CN111930858A (zh) * 2020-07-22 2020-11-13 北京邮电大学 一种异质信息网络的表示学习方法、装置及电子设备
CN112381147A (zh) * 2020-11-16 2021-02-19 虎博网络技术(上海)有限公司 动态图片相似度模型建立、相似度计算方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688757A (zh) * 2021-08-30 2021-11-23 五邑大学 一种sar图像识别方法、装置及存储介质
CN114330312A (zh) * 2021-11-03 2022-04-12 腾讯科技(深圳)有限公司 标题文本处理方法、装置、存储介质和程序
CN114299304A (zh) * 2021-12-15 2022-04-08 腾讯科技(深圳)有限公司 一种图像处理方法及相关设备
CN114299304B (zh) * 2021-12-15 2024-04-12 腾讯科技(深圳)有限公司 一种图像处理方法及相关设备

Similar Documents

Publication Publication Date Title
CN108959431B (zh) 标签自动生成方法、系统、计算机可读存储介质及设备
CN105912611B (zh) 一种基于cnn的快速图像检索方法
CN112906873A (zh) 一种图神经网络训练方法、装置、电子设备及存储介质
Salha et al. Simple and effective graph autoencoders with one-hop linear models
CN110059181B (zh) 面向大规模分类体系的短文本标签方法、系统、装置
CN111125460B (zh) 信息推荐方法及装置
US9183296B1 (en) Large scale video event classification
CN107844533A (zh) 一种智能问答系统及分析方法
CN106033426A (zh) 一种基于潜在语义最小哈希的图像检索方法
CN112966763A (zh) 一种分类模型的训练方法、装置、电子设备及存储介质
Yang et al. Image automatic annotation via multi-view deep representation
Doan et al. Efficient implicit unsupervised text hashing using adversarial autoencoder
Suthar et al. A survey of web usage mining techniques
WO2020147259A1 (zh) 一种用户画像方法、装置、可读存储介质及终端设备
Eken et al. DoCA: a content-based automatic classification system over digital documents
TWI452477B (zh) 以模糊相似度與k最近鄰居法為基礎之多標籤文件分類方法
US11709798B2 (en) Hash suppression
Yu et al. A classifier chain algorithm with k-means for multi-label classification on clouds
Chen et al. Topological transduction for hybrid few-shot learning
CN116090538A (zh) 一种模型权重获取方法以及相关系统
CN110704575B (zh) 一种动态自适应二元层次词汇树图像检索方法
Sanjana Ad service detection-a comparative study using machine learning techniques
Luengo et al. Dimensionality reduction for big data
Singh et al. User specific context construction for personalized multimedia retrieval
Kabir et al. Content-Based Image Retrieval Using AutoEmbedder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210604