CN112580742A - 基于标签传播的图神经网络快速训练方法 - Google Patents

基于标签传播的图神经网络快速训练方法 Download PDF

Info

Publication number
CN112580742A
CN112580742A CN202011591264.0A CN202011591264A CN112580742A CN 112580742 A CN112580742 A CN 112580742A CN 202011591264 A CN202011591264 A CN 202011591264A CN 112580742 A CN112580742 A CN 112580742A
Authority
CN
China
Prior art keywords
label
graph
training
nodes
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011591264.0A
Other languages
English (en)
Inventor
何向南
董汉德
陈佳伟
毕书显
丁兆麟
冯福利
崔鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202011591264.0A priority Critical patent/CN112580742A/zh
Publication of CN112580742A publication Critical patent/CN112580742A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于标签传播的图神经网络快速训练方法,包括:使用标签传播算法传播训练集的标签矩阵,为图结构中其他节点赋予伪标签,得到图结构中所有节点的软标签矩阵,软标签矩阵的元素为节点被打上伪标签的静态置信度;所述训练集中包含了图结构中一部分节点集合的类别标签;根据节点自身的特征信息和逐渐收敛的神经网络预测器为节点的伪标签分配动态置信度;自适应地结合两类置信度,指导训练神经网络预测器。该方法相比于传统解耦GCN的运算量更小,能够以更快的速度训练到收敛,且比较适合并行的分布式计算;此外,能够提升性能,并且对于标签噪声的鲁棒性更强。

Description

基于标签传播的图神经网络快速训练方法
技术领域
本发明涉及神经网络训练技术领域,尤其涉及一种基于标签传播的图神经网络快速训练方法。
背景技术
图结构广泛存在,比如论文之间的引用关系网络、推荐系统的用户-物品二分图、分子结构图等,设计通用的图学习范式具有广泛的应用前景,然而由于图结构信息的复杂性,设计通用的图学习范式存在巨大的挑战。近些年来提出的图卷积神经网络(GraphConvolution Neural Network,GCN)适用于多种图数据任务,可以看作是一种通用的图学习范式。由于图卷积神经网络的有效性和灵活性,其迅速在学术界和工业界得到了广泛的关注。
对于图卷积神经网络有两种理解:从谱域理解图卷积网络可以看作是一种低通滤波器,通过过滤高频信号、保留低频信号,使图信号在图结构上的变换更加平滑;从空域理解图卷积网络,图卷积网络可以分为邻居聚合和特征变换两部分,邻居聚合使得相连的节点的表示更加接近,特征变换使得特征能够有效地变换到需要的空间。从空域理解图卷积网络更加直观,这种理解方法迅速成为主流,并启发了一系列有价值的工作,比如图注意力网络(GAT)、图同构网络(GIN)、基于采样的图卷积网络(GraphSage)等等。
从空域理解图卷积网络也看出了图卷积网络设计的不合理之处:邻居聚合和特征变换在图卷积网络里是耦合在一起的,这种设计是没有必要的,还可能带来一定的副作用:邻居聚合是为了让图信号更加平滑,过深的邻居聚合会导致过度平滑,降低节点之间的区分度,从而降低性能;特征变换是为了增强模型的表达能力和学习能力,过深的特征变换使得模型有太多参数,很容易导致过拟合,此外深度的神经网络也会遇到梯度消失和梯度爆炸的问题。因此邻居聚合的层数和特征变换的层数都有最优值,两者最优值很可能是不相等的,图卷积网络里的耦合强制两者相等,可能使模型陷入次优解。
最近几个重要的工作对此进行了改进,提出了解耦图卷积网络--在若干层特征变换之后做若干层邻居聚合。APPNP(对神经预测的近似个性化传播算法)和DAGNN(深层自适应图神经网络)两个算法显示地提出该框架,SGCN(简化图卷积神经网络)和lightGCN(轻型图卷积神经网络)从简化的角度出发也可以归纳到解耦GCN里面。解耦GCN以比GCN更简洁的形式取得了更好的效果,且为分析模型带来可行性,具有重要的意义。但是,传统解耦图卷积网络的方案训练效率不高、以及训练后的网络模型性能也有待提升。
发明内容
本发明的目的是提供一种基于标签传播的图神经网络快速训练方法,可以大幅提升训练效率、取得更好的性能、稳定性和鲁棒性更优秀。
本发明的目的是通过以下技术方案实现的:
一种基于标签传播的图神经网络快速训练方法,其特征在于,包括:
使用标签传播算法传播训练集的标签矩阵,为图结构中其他节点赋予伪标签,得到图结构中所有节点的软标签矩阵,软标签矩阵的元素为节点被打上伪标签的静态置信度;所述训练集中包含了图结构中一部分节点集合的类别标签;
根据节点自身的特征信息和逐渐收敛的神经网络预测器为节点的伪标签分配动态置信度;自适应地结合两类置信度,指导训练神经网络预测器。
由上述本发明提供的技术方案可以看出,1)训练速度明显提升,相比于传统解耦GCN的运算量更小,能够以更快的速度训练到收敛,且比较适合并行的分布式计算;2)性能提升,在测试集上准确率有所提升;3)对于标签噪声的鲁棒性更强,当标签噪声的比例增大时,PTA性能下降更加缓慢。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于标签传播的图神经网络快速训练方法的流程图;
图2为本发明实施例提供的PTA训练过程示意图;
图3为本发明实施例提供的网络模型对标签噪声鲁棒性对比图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于标签传播的图神经网络快速训练方法,如图1所示,其主要包括如下阶段:
第一个阶段:使用标签传播算法传播训练集的标签矩阵,为图结构中其他节点赋予伪标签,得到图结构中所有节点的软标签矩阵,软标签矩阵的元素可以表示节点被打上伪标签的静态置信度。
第二个阶段:根据节点自身的特征信息和逐渐收敛的神经网络预测器为节点的伪标签分配动态置信度;自适应地结合两类置信度,指导训练神经网络预测器,可以得到稳定、鲁棒的模型。
本发明实施例中,所涉及的两类置信度可以理解为节点被打上各类标签(伪标签)的权重,静态置信度是根据图结构和训练集中的标签决定(由图结构主导),由于图结构是不变的,图结构主导置信度是静态,称为静态置信度。动态置信度则是由节点特征和神经网络预测器决定(由模型主导),神经网络预测器在不断优化,因此由模型主导的置信度是动态的,称为动态置信度。随着训练的进行,使得神经网络预测器越来越可靠,因此在结合静态置信度和动态置信度时,逐渐增加动态置信度的重要性,称此过程为自适应地结合两类置信度的组合方式,并以此方式得到总体的置信度。一个节点可以被打上任何伪标签,某个伪标签的总体置信度越大,则节点被打上相应伪标签的概率就越大。
通过以上两个阶段完成图神经网络快速训练后,还可以执行第三个阶段,得到预测结果,主要过程如下:经训练得到收敛的神经网络预测器之后,采用解耦图卷积网络的聚合邻居的方式,根据图解耦聚合神经网络预测器的输出,得到最终对每个节点的预测结果。
本发明实施例上述方案主要获得如下有益效果:1)训练速度明显提升,相比于传统解耦GCN的运算量更小,能够以更快的速度训练到收敛,且比较适合并行的分布式计算;2)性能提升,在测试集上准确率有所提升;3)对于标签噪声的鲁棒性更强,当标签噪声的比例增大时,PTA性能下降更加缓慢。
为了便于理解,下面针对上述方案的三个阶段做详细的介绍。
一、第一个阶段。
第一个阶段所涉及的方案可以称为标签传播算法(Label Propagation,LP)。
本发明实施例中,受PageRank(佩奇排名)算法启发,在使用标签传播算法中引入个性化因子,传播训练集的标签矩阵得到图中节点的软标签矩阵,表示为:
Y(0)=Y
Figure BDA0002869175710000041
Figure BDA0002869175710000042
Ysoft=Y(K)
其中,Y为训练集的标签矩阵:若节点i在训练集中,则矩阵Y的第i行为节点i对应的独热向量;若节点i不在训练集中,则矩阵Y的第i行是全0向量;Y(k)是第k层次传播之后的软标签矩阵,α代表个性化因子,可以看作权重,代表
Figure BDA0002869175710000043
和Y(0)的权重,取值范围是0-1;
Figure BDA0002869175710000044
是归一化后图结构的邻接矩阵;举例来说:D为邻接矩阵A的度矩阵,是一个对角阵,满足dii=∑jaij,则归一化后为
Figure BDA0002869175710000045
Figure BDA0002869175710000046
K表示标签传播的层数,代表传播策略;
Figure BDA0002869175710000047
为软标签矩阵Y(k)的第i行;yi代表节点i的真实标签(在训练集中,真实标签是已知的),Vl表示训练集中的节点集合;Ysoft为软标签矩阵,其第i行第j列元素代表节点i被打上伪标签j的静态置信度。
本发明实施例中,图结构可以是目前已有的各类图结构,基于图结构可以完成图节点分类任务,例如,在论文引用网络里预测论文的类别、在社交网络里预测用户的兴趣或职业、在共同作者网络里预测研究人员的研究方向。当然,这一层面所涉及的技术可以参照常规方式实现,本发明不做限制。
本领域人员可以理解,所述训练集包含了图结构中一部分节点集合的相关数据信息,数据信息形式也即前文提到的节点的类别标签,通常为文本形式。图结构可以是通用的,图结构中节点可以对应具体的文本或者具体图像等通用的数据信息。基于本发明的方案可以针对于图结构中的半监督节点分类任务,具体来说,给定图结构、图结构中所有节点的特征、一部分节点的标签(即训练集);目标是预测图中另一部分节点的标签。
本阶段相当于是利用标签传播算法传播训练集节点的标签,计算出图中其他节点被打上伪标签的静态置信度;此阶段产生的伪标签为第二个阶段的训练提供指导。
二、第二个阶段。
本发明实施例中,为了将传统的标签传播算法推广到特征信息可用的场景,提出一种通用的传播再训练的学习范式,也即,先用标签传播算法传播训练集中的标签,得到软标签(soft label)矩阵;之后,再用软标签指导训练神经网络预测器。
经分析,现有技术中解耦GCN的方案,相当于是一种带权的传播再训练算法,图结构与神经网络预测器共同决定伪标签的权重,具体为:由图结构决定的静态权重、由模型决定的动态权重做乘法后,再对每个训练集分发出的伪标签做归一化共同组成。图结构决定的静态权重用来衡量各节点之间的相似度,确定训练集标签经图结构传播对图中其他节点的影响,可以反映节点被打上伪标签的静态置信度;模型决定的动态权重,由节点的特征输入到当前的神经网络预测器中的输出所决定,可以反映节点被打上伪标签的动态置信度。将两类置信度做乘法,相当于综合了图结构和特征的信息,再将从每个训练集节点出发的邻居节点的权重归一化,强制使训练集每个节点的重要性是相同的。
本发明实施例中,在解耦GCN的方案的基础上,从传播再训练算法的角度设计出一种快速训练解耦GCN的方法,称为自适应传播再训练算法(Propagation then TrainingAdaptively,PTA),如图2所示,为PTA训练(第二个阶段)过程示意图,主要说明如下:图2中(1)到(3)是静态置信度,静态置信度取决于图结构和训练集,(1)中阴影表示训练集。(3)描述了训练集节点经图结构传播后形成的置信度,由于训练集和图结构都是静态的,这一部分的置信度也是静态的。图2中(2)到(4)是动态置信度,动态置信度取决于神经网络预测器和节点的特征,(2)中的x表示每个节点的特征,(4)表示根据每个节点的特征计算出的置信度,这部分是动态置信度,因为模型随着训练是变化的,因此得出的权重也是动态的。将(3)与(4)一起综合考量,得到(5)中的置信度。不同于解耦GCN,图2中(3)和(4)综合到(5)的方式有两点不同:去除了对于从每个训练集出发权重的归一化;引入自适应因子,随着训练的进行,自适应地调整(3)和(4)的综合方式。由于(3)与(4)综合的方式是会随着训练的过程变化的,因此,为自适应训练。
解耦GCN每个训练集出发的权重是满足归一化的,这种对权重的归一化会降低模型对标签噪声的鲁棒性,将其去除后,损失函数具有简单的形式:
Figure BDA0002869175710000061
Figure BDA0002869175710000062
上述损失函数形式在优化神经网络预测器的时候,无需每次都聚合图信号,实现了解耦图卷积网络的快速优化。
然而,上述损失函数的形式会导致训练的不稳定,为了改进这点,本发明实施例中引入了自适应因子γ,随着优化的进行,自适应地修改两类置信度的结合方式,并使用自适应结合的置信度作为伪标签的权重,指导训练神经网络预测器,损失函数表示为:
Figure BDA0002869175710000063
γ=log(1+e/∈)
其中,Ysoft为图结构中其他节点赋予的伪标签构成的软标签矩阵;X表示节点特征矩阵,特征矩阵的每一行代表一个节点的特征,每一列表示特征的维度;sum(.)代表矩阵所有元素之和,
Figure BDA0002869175710000064
代表矩阵的元素积;e代表训练的epoch(时期),∈是超参,用来调节自适应因子γ随epoch的敏感程度;f(X)与fθ(X)均表示神经网络预测器的输出(即节点的类别预测结果),二者数值相等,f(X)项不参与反向传播梯度,只起到权重的作用,对应动态置信度,fθ(X)保留了梯度,fθ(X)项代表梯度从这一项反向传播。更明确的说,通过上述损失函数优化神经网络预测器的算法可以称为自适应传播再训练算法。
值得注意的是,自适应结合的两类置信度具体体现为:Ysoft与f(X)的组合方式并非一成不变的(例如,上述损失函数将二者做乘法),而是随着优化的进行(即e增大),自适应地改变其组合方式,f(X)的指数因子是变化的,其变化代表了组合方式的变化。
本发明实施例中,由模型决定的动态权重的可靠性取决于模型质量的高低,模型越可靠,其给出的置信度的指导意义越强。随着训练的进行,模型会逐渐收敛,其质量也越来越高,因此动态权重的比例会逐渐增大,也就对应其指数增大。从上述损失函数也可以看到,e=0的时候,γ=0,总体置信度只由Ysoft决定,随着迭代的进行,e增大,f(X)重要程度越高。
三、第三个阶段。
训练得到收敛的fθ(X)项后,采用解耦GCN一样的模式聚合邻居节点的信息,进一步提升性能,形式为:
H(0)=fθ(X)
Figure BDA0002869175710000071
Figure BDA0002869175710000072
其中,H(k)表示第k次聚合后的节点表示/节点预测结果,第i行表示第i个节点的类别预测结果,第j列表示预测为第j个类别的概率;K′为聚合总次数,α′代表个性化因子,
Figure BDA0002869175710000073
为最终得到的对每个节点的类别预测结果。实际应用中,α′与α、K与K′可以是相同数值,也可以是不同数值,具体由技术人员根据情况或者经验自行设定。
本领域技术人员可以理解,节点表示是指节点在标签空间中的表示,其维度就是标签的类别数,每一层聚合之后的维度都是类别数,因此中间的任何一层(甚至是没有经过聚合的神经网络预测器的输出)都可以看作是对节点标签的预测。当然,为了确保性能,最终采用K′聚类后的结果。
为了更为直观的体现本发明上述方案的效果,还进行了对比实验。
实验中,采用具有代表性的APPNP算法作为解耦GCN的代表进行对比;并使用了四个标准的数据集,来验证本发明上述方案(简称PTA)的优势,四个数据集分别是CITESEER,CORA_ML,PUBMED,MS_ACADEMIC,这些数据集的统计信息如表1所示。
数据集 Nodes Edges Features Classes
CITESEER 2,110 3,668 3,703 6
CORA_ML 2,810 7,981 2,879 7
PUBMED 19,717 44,324 500 3
MS_ACADEMIC 18,333 81,894 6,805 15
表1数据集的统计信息
表1所示的统计信息中给出了各个数据集的节点数、连边数、特征数以及类别数。
实验从训练耗时、准确率、标签噪声的鲁棒性三个方面进行。
1、训练耗时对比。
表2与表3给出了PTA模型与APPNP算法每次迭代的训练耗时与训练总耗时。
方法 CITESEER CORA_ML PUBMED MS_ACADEMIC
APPNP 34.73ms 28.60ms 34.98ms 30.51ms
PTA 3.33ms 3.35ms 3.27ms 3.33ms
表2每次迭代的训练耗时
方法 CITESEER CORA_ML PUBMED MS_ACADEMIC
APPNP 52.75s 75.30s 49.39s 134.23s
PTA 10.14s 11.95s 10.59s 17.12s
PTA(F) 1.19s 1.25s 1.40s 3.92s
表3训练总耗时
通过表2:每一次训练耗时,PTA约为APPNP的1/10,这验证了PTA的训练优势,在每一次训练无需做邻居聚合,可以有效地提升效率。通过表3:总的训练时间,PTA约是APPNP的1/5。值得一提的是,PTA(F)即PTA的快速(fast)模式,总的耗时约是APPNP的1/50,总的训练时间更验证了PTA相比于APPNP训练效率上的优势。快速模式在计算验证集性能(每次迭代都要计算,用于早停)时不执行前文所提及的第三个阶段,仅仅在计算测试集性能的时候执行第三个阶段。快速模式虽然相比于完整的PTA而言性能略有下降,但是仍然优于解耦GCN方案的性能。
2、准确率对比。
准确率对比时还引入了当前性能较好的其他模型,表4展示了PTA和当前性能较好的模型对比结果。
方法 CITESEER CORA_ML PUBMED MS_ACADEMIC
MLP 63.98±0.44 68.42±0.34 69.47±0.47 89.69±0.10
GCN 73.62±0.39 82.70±0.39 76.84±0.44 91.39±0.10
SGCN 75.57±0.28 75.97±0.72 71.24±0.86 91.03±0.16
DAGNN 74.53±0.38 85.75±0.23 79.59±0.37 92.29±0.07
APPNP 75.48±0.29 85.07±0.25 79.61±0.33 93.31±0.08
PTA 75.98±0.24 85.90±0.21 79.89±0.31 93.64±0.08
表4准确率和准确率的不确定度
通过表4:PTA的性能优于目前较好的所有模型,这说明了PTA的有效性。为了进一步验证PTA相比于APPNP的优势,进行了t检验,结果如表5,对所有数据集都满足p<0.05,说明至少有95%的把握说PTA的性能优于APPNP。此外,通过表4,可以看出PTA的不确定度小于APPNP,这说明了PTA的稳定性更好。
CITESEER CORA_ML PUBMED MS_ACADEMIC
p-value 5.56×10<sup>-4</sup> 1.81×10<sup>-9</sup> 1.09×10<sup>-2</sup> 1.57×10<sup>-8</sup>
表5 PTA相比于APPNP的t检验的p值
3、标签噪声的鲁棒性对比。
图3展示了PTA、PTS和APPNP对标签噪声鲁棒性的实验结果。图3中,横坐标的标签噪声率指的是错误的标签在训练集所有标签中占的比重。PTS是指仅适用静态置信度指导模型训练的方案(即损失函数为
Figure BDA0002869175710000091
通过图3:在所有标签噪声下,PTA都表现最好,说明了PTA的优势是稳定的;随着标签噪声的增大,PTA和APPNP的差距越来越大,说明了随着标签噪声的增加,PTA性能下降更少,即PTA对于标签噪声更加鲁棒。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种基于标签传播的图神经网络快速训练方法,其特征在于,包括:
使用标签传播算法传播训练集的标签矩阵,为图结构中其他节点赋予伪标签,得到图结构中所有节点的软标签矩阵,软标签矩阵的元素为节点被打上伪标签的静态置信度;所述训练集中包含了图结构中一部分节点集合的类别标签;
根据节点自身的特征信息和逐渐收敛的神经网络预测器为节点的伪标签分配动态置信度;自适应地结合两类置信度,指导训练神经网络预测器。
2.根据权利要求1所述的一种基于标签传播的图神经网络快速训练方法,其特征在于,所述使用标签传播算法传播训练集的标签矩阵,为图结构中其他节点赋予伪标签,得到图结构中所有节点的软标签矩阵的过程表示为:
Y(0)=Y
Figure FDA0002869175700000011
Figure FDA0002869175700000012
Ysoft=Y(K)
其中,Y为训练集的标签矩阵:若节点i在训练集中,则矩阵Y的第i行为节点i对应的独热向量;若节点i不在训练集中,则矩阵Y的第i行是全0向量;Y(k)是第k层次传播之后的软标签矩阵,α为个性化因子,
Figure FDA0002869175700000013
是归一化后图结构的邻接矩阵;K表示标签传播的层数;yi (k)为软标签矩阵Y(k)的第i行;yi代表训练集中节点i的真实标签,Vl表示训练集中的节点集合;Ysoft为软标签矩阵。
3.根据权利要求1所述的一种基于标签传播的图网络快速训练方法,其特征在于,
静态置信度与动态置信度表示节点被打上伪标签的权重;
静态置信度由图结构主导,图结构中的静态权重用来衡量训练集标签经图结构传播对图中其他节点的影响,从而为各节点的伪标签分配相应的静态置信度;
动态置信度则由神经网络预测器主导,节点的特征输入到当前的神经网络预测器得到的输出决定节点被打上伪标签的动态置信度;
随着训练的进行,神经网络预测器的可靠性逐渐提升,在结合静态置信度和动态置信度时,逐渐增加动态置信度的重要性,这一过程为自适应地结合两类置信度的组合方式,并以此方式得到总体的置信度。
4.根据权利要求1或3所述的一种基于标签传播的图神经网络快速训练方法,其特征在于,自适应地结合两类置信度,指导训练神经网络预测器时,损失函数表示为:
Figure FDA0002869175700000021
γ=log(1+e/∈)
其中,Ysoft为图结构中其他节点赋予的伪标签构成的软标签矩阵;X表示节点特征矩阵;sum(.)代表矩阵所有元素之和,
Figure FDA0002869175700000022
代表矩阵的元素积;e代表训练的epoch,∈是超参,用来调节自适应因子γ随epoch的敏感程度;f(X)与fθ(X)均表示神经网络预测器的输出,二者数值相等,f(X)项不参与反向传播梯度,只起到权重的作用,对应动态置信度,fθ(X)保留了梯度,fθ(X)项代表梯度从这一项反向传播。
5.根据权利要求4所述的一种基于标签传播的图神经网络快速训练方法,其特征在于,该方法还包括:经训练得到收敛的神经网络预测器之后,采用解耦图卷积网络的聚合邻居的方式,根据图解耦聚合神经网络预测器的输出,得到最终对每个节点的预测结果。
6.根据权利要求5所述的一种基于标签传播的图神经网络快速训练方法,其特征在于,
训练得到收敛的fθ(X)项后,在图结构上采用解耦图卷积网络聚合邻居的方式聚合邻居节点的信息,形式为:
H(0)=fθ(X)
Figure FDA0002869175700000023
Figure FDA0002869175700000024
其中,H(k)表示第k次聚合后的节点预测结果,第i行表示第i个节点的类别预测结果,第j列表示预测为第j个类别的概率,
Figure FDA0002869175700000025
是归一化后图结构的邻接矩阵,α′为个性化因子,K′为聚合总次数,
Figure FDA0002869175700000026
为最终得到的对每个节点的类别预测结果。
CN202011591264.0A 2020-12-29 2020-12-29 基于标签传播的图神经网络快速训练方法 Pending CN112580742A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011591264.0A CN112580742A (zh) 2020-12-29 2020-12-29 基于标签传播的图神经网络快速训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011591264.0A CN112580742A (zh) 2020-12-29 2020-12-29 基于标签传播的图神经网络快速训练方法

Publications (1)

Publication Number Publication Date
CN112580742A true CN112580742A (zh) 2021-03-30

Family

ID=75143896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011591264.0A Pending CN112580742A (zh) 2020-12-29 2020-12-29 基于标签传播的图神经网络快速训练方法

Country Status (1)

Country Link
CN (1) CN112580742A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990364A (zh) * 2021-04-22 2021-06-18 中国人民解放军军事科学院国防科技创新研究院 一种图数据节点分类方法及装置
CN114154578A (zh) * 2021-12-02 2022-03-08 内蒙古工业大学 面向非平衡数据基于半监督分布式训练的任务识别方法
CN115238808A (zh) * 2022-07-30 2022-10-25 北京理工大学 一种基于多任务的通信网络中节点宕机的检测方法
WO2022252455A1 (en) * 2021-06-01 2022-12-08 Huawei Technologies Co., Ltd. Methods and systems for training graph neural network using supervised contrastive learning
CN116127386A (zh) * 2023-04-19 2023-05-16 浪潮电子信息产业股份有限公司 一种样本分类方法、装置、设备和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740057A (zh) * 2018-12-28 2019-05-10 武汉大学 一种基于知识萃取的增强神经网络及信息推荐方法
CN111966823A (zh) * 2020-07-02 2020-11-20 华南理工大学 一种面向标签噪声的图节点分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740057A (zh) * 2018-12-28 2019-05-10 武汉大学 一种基于知识萃取的增强神经网络及信息推荐方法
CN111966823A (zh) * 2020-07-02 2020-11-20 华南理工大学 一种面向标签噪声的图节点分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HANDE DONG ETAL.: "On the Equivalence of Decoupled Graph Convolution Network and Label Propagation", 《HTTP://ARXIV:2010.12408V1》, pages 1 - 12 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990364A (zh) * 2021-04-22 2021-06-18 中国人民解放军军事科学院国防科技创新研究院 一种图数据节点分类方法及装置
WO2022252455A1 (en) * 2021-06-01 2022-12-08 Huawei Technologies Co., Ltd. Methods and systems for training graph neural network using supervised contrastive learning
CN114154578A (zh) * 2021-12-02 2022-03-08 内蒙古工业大学 面向非平衡数据基于半监督分布式训练的任务识别方法
CN114154578B (zh) * 2021-12-02 2023-10-31 内蒙古工业大学 面向非平衡数据基于半监督分布式训练的任务识别方法
CN115238808A (zh) * 2022-07-30 2022-10-25 北京理工大学 一种基于多任务的通信网络中节点宕机的检测方法
CN116127386A (zh) * 2023-04-19 2023-05-16 浪潮电子信息产业股份有限公司 一种样本分类方法、装置、设备和计算机可读存储介质
CN116127386B (zh) * 2023-04-19 2023-08-08 浪潮电子信息产业股份有限公司 一种样本分类方法、装置、设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN112580742A (zh) 基于标签传播的图神经网络快速训练方法
US9858534B2 (en) Weight generation in machine learning
CN112529168B (zh) 一种基于gcn的属性多层网络表示学习方法
CN112966114B (zh) 基于对称图卷积神经网络的文献分类方法和装置
US9953271B2 (en) Generation of weights in machine learning
US20230274150A1 (en) Performing Inference And Training Using Sparse Neural Network
CN110442802B (zh) 一种社交用户的多行为偏好预测方法
US20230084203A1 (en) Automatic channel pruning via graph neural network based hypernetwork
Feng et al. Uag: Uncertainty-aware attention graph neural network for defending adversarial attacks
Runchi et al. An ensemble credit scoring model based on logistic regression with heterogeneous balancing and weighting effects
CN109191276A (zh) 一种基于强化学习的p2p网络借贷机构风险评估方法
Wu et al. Estimating fund-raising performance for start-up projects from a market graph perspective
CN114154557A (zh) 癌症组织分类方法、装置、电子设备及存储介质
CN109933720B (zh) 一种基于用户兴趣自适应演化的动态推荐方法
CN110889493A (zh) 针对关系网络添加扰动的方法及装置
CN110751257A (zh) 一种基于饥饿游戏搜索算法构建预测模型的方法
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM
Zhao et al. Safe semi-supervised classification algorithm combined with active learning sampling strategy
CN116245139B (zh) 图神经网络模型训练方法和装置、事件检测方法和装置
Feng et al. Uncertainty-aware attention graph neural network for defending adversarial attacks
Fan et al. A repetitive feature selection method based on improved ReliefF for missing data
CN115543762A (zh) 一种磁盘smart数据扩充方法、系统及电子设备
CN113626685B (zh) 一种面向传播不确定性的谣言检测方法及装置
CN114266653A (zh) 集成学习的客户贷款风险预估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination