CN114492651A - 一种基于个性化网页排位的半监督图节点分类方法 - Google Patents

一种基于个性化网页排位的半监督图节点分类方法 Download PDF

Info

Publication number
CN114492651A
CN114492651A CN202210113155.0A CN202210113155A CN114492651A CN 114492651 A CN114492651 A CN 114492651A CN 202210113155 A CN202210113155 A CN 202210113155A CN 114492651 A CN114492651 A CN 114492651A
Authority
CN
China
Prior art keywords
node
matrix
nodes
graph
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210113155.0A
Other languages
English (en)
Inventor
梁春泉
赵航
陈航
王紫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest A&F University
Original Assignee
Northwest A&F University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest A&F University filed Critical Northwest A&F University
Priority to CN202210113155.0A priority Critical patent/CN114492651A/zh
Publication of CN114492651A publication Critical patent/CN114492651A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于个性化网页排位的半监督图节点分类方法:步骤1:对于给定的图,通过个性化网页排位算法计算得到图中节点的个性化网页排位值,从而得到各个标签对应的排序分布向量,根据排序分布向量得到节点的依赖向量,对依赖向量进行正则化后得到依赖关系矩阵。步骤2、通过对图神经网络的隐藏层进行多层堆叠计算,得到图神经网络经过多层隐藏层堆叠后输出的隐藏层矩阵;步骤3、将依赖关系矩阵加入到图神经网络的最后一层隐藏层矩阵中得到新的全局隐藏矩阵,进而得到新的图神经网络;步骤4、使用新的图神经网络进行节点分类。本发明最终使用新构建的图神经网络进行节点分类,达到了更好的节点分类效果。

Description

一种基于个性化网页排位的半监督图节点分类方法
技术领域
本发明属于数据挖掘领域,具体涉及一种基于个性化网页排位的半监督条件下的图节点分类方法。
背景技术
近年来,随着信息技术的发展,大量的数据、信息不断的涌入到人们的学习、生活中。很多数据表现为像拓扑网络一样不规则的非欧几里得数据。很多人们常用的社交软件如腾讯QQ、微信、微博等都是非欧几里得数据应用领域的代表。这些软件产生的海量非结构化数据具有一定的拓扑结构,有节点和边组成,即我们常说的图。图与我们的生活息息相关,在很多领域都有实际的作用,其中一个重要的研究热点就是图节点分类问题。在一个图上,它的节点分为标签节点和无标签节点,通过将标签节点的信息传播到未标签的节点上,从而预测出未标签节点的类别,这就是节点分类过程。图节点分类问题在现实生活有着很多应用,如引文网络中的网页分类、社交网络中的社区成员识别、万维网中的页面推荐、蛋白质关系网络中的蛋白质预测等。当前解决图节点分类问题的常用方法是图神经网络,其中包含了图卷积网络、图注意力网络等在此基础上延伸出来的一些其它网络模型如图马尔科夫网络。
尽管图神经网络在图节点分类问题上展现出了强大的效能,但仍然存在一些不足。现有的图神经网络模型一般由一组隐藏层和居于隐藏层之后的一组soft max层组成,隐藏层用于获取节点的高阶信息,soft max层用于得到节点的近似概率。其中节点的高阶信息由节点通过表征学习得到的节点表征向量组成,soft max层在进行节点分类时只用到了节点的表征信息,忽视了带标签节点与无标签节点间的依赖关系,导致节点分类结果不够准确。
发明内容
针对上述现有技术中存在的缺陷或不足,本发明提供一种基于个性化网页排位的半监督条件下的图节点分类方法,该方法能够获取带标签节点与无标签节点间的依赖关系,进一步地将此依赖关系以依赖向量的形式量化表示,在此基础上得到依赖关系矩阵,接着将依赖关系矩阵加入到图神经网络的最后一层隐藏层中构成新的图神经网络,最终使用新构建的图神经网络进行节点分类,以达到更好的节点分类效果。
为了达到上述目的,本发明采用如下技术方案予以解决:
一种基于个性化网页排位的半监督图节点分类方法,具体包括如下步骤:
步骤1:对于给定的图,通过个性化网页排位算法计算得到图中节点的个性化网页排位值,从而得到各个标签对应的排序分布向量,根据排序分布向量得到节点的依赖向量,对依赖向量进行正则化后得到依赖关系矩阵。
步骤2、通过对图神经网络的隐藏层进行多层堆叠计算,得到图神经网络经过多层隐藏层堆叠后输出的隐藏层矩阵,其中每一层隐藏层都包含节点的表征学习的传播和输出两部分;
步骤3、将步骤1得到的依赖关系矩阵加入到通过步骤2得到的图神经网络的最后一层隐藏层矩阵中,得到新的全局隐藏矩阵H,则此时图神经网络的隐藏层矩阵变为H,进而图神经网络转变为新的图神经网络;
步骤4、使用新的图神经网络的softmax层进行节点分类。
进一步的,所述步骤1具体包括如下子步骤:
步骤11,给定义一个图G=(V,E),其中,定义V是n个节点的集合,n=|V|,E是m条边的集合,E={(i,j)|i∈V,j∈V};VL是训练集节点集合,
Figure BDA0003495479500000021
YL是训练集节点的标签集合,C表示图G中包含的类别数目即标签个数,C={0,1,2…C-1};
步骤12,遍历训练集节点集合VL和训练集节点的标签集合YL,依次获得训练集中标签为c的节点集合Vc
Figure BDA0003495479500000031
且c∈{0,1,2,…,C-1},其中,Yc表示所有节点的标签均为c的标签集合;X为图G的特征矩阵
Figure BDA0003495479500000032
k为节点集合V中每个节点的特征向量的维数;
步骤13,构造用于计算节点的个性化网页排位值PR(i,Vc)的式(1):
Figure BDA0003495479500000033
其中,PR(i,Vc)表示V中节点i的个性化网页排位值;λ表示衰减因子,取0.85;|Vc|表示训练集中标签为c的节点集Vc中节点的数目;In(i)表示指向节点i的邻接节点集合;节点j∈In(i)是i的邻接节点;|Out(j)|表示由节点j引出的边的数量;PR(j,Vc)表示i的邻接节点j的个性化网页排位值,式1中,初始的
Figure BDA0003495479500000034
a+b表示节点i的度,其值等于节点i的出度a加入度b;
步骤14,将步骤12得到的集合Vc整体作为式1的输入,通过式1计算得到V中节点i的个性化网页排位值;接着将计算得到的n个节点的个性化网页排位值构成排序分布向量
Figure BDA0003495479500000035
Figure BDA0003495479500000036
由式2表示:
Figure BDA0003495479500000037
步骤15,重复步骤14得到C个排序分布向量
Figure BDA0003495479500000038
接着依次从C个排序分布向量中提取节点i对应的C个个性化网页排位值,提取过程用
Figure BDA0003495479500000039
表示,其中函数
Figure BDA00034954795000000310
表示获得节点i在类目为c时排序分布向量
Figure BDA00034954795000000311
中的个性化网页排位值PR(i,Vc),组成节点i的依赖向量di
Figure BDA00034954795000000312
由式3表示:
Figure BDA0003495479500000041
其中,
Figure BDA0003495479500000042
表示节点i在排序分布向量
Figure BDA0003495479500000043
中的个性化网页排位值;
步骤16,对节点i的依赖向量di进行正则化得到R_di
步骤17,计算依赖关系矩阵D,
Figure BDA0003495479500000044
进一步的,所述步骤16的具体操作如下:
利用式4对节点i的依赖向量di的C个个性化网页排位值进行相加得到sum(di),然后使用C个个性化网页排位值依次除以sum(di),得到正则化后的依赖向量R_di
sum(di)=PR(i,V0)+PR(i,V1)+R(i,V2)+…+PR(i,VC-1) (4)
Figure BDA0003495479500000045
进一步的,所述步骤2具体包括如下子步骤:
步骤21,节点i的表征学习包括传播部分和输出部分,其中,第一层隐藏层的传播部分的表征学习向量为
Figure BDA0003495479500000046
输出部分的表征学习向量为
Figure BDA0003495479500000047
Figure BDA0003495479500000048
其中,
Figure BDA0003495479500000049
为第一层隐藏层的传播部分的表征学习向量,Xi表示节点i的特征向量Xi∈X,Xj表示i的邻接节点j的特征向量Xj∈X,
Figure BDA00034954795000000410
表示节点j在第一层隐藏层的传播部分的表征学习向量,X(i,j)表示边(i,j)的特征向量,f为传播函数,用于将
Figure BDA00034954795000000411
的维数由初始的
Figure BDA00034954795000000412
变为
Figure BDA00034954795000000413
q为经过表征学习传播函数f后得到的表征学习向量
Figure BDA00034954795000000414
的维数,则此时传播部分的表征学习矩阵即隐藏层矩阵
Figure BDA00034954795000000415
h为将n个节点经过第一层隐藏层的表征学习的传播函数获得的n个传播部分表征学习向量
Figure BDA00034954795000000416
按照节点的顺序依次堆叠存放形成的一个n行q列的矩阵;其中初始的
Figure BDA00034954795000000417
即节点j的特征向量Xj
Figure BDA0003495479500000051
其中,
Figure BDA0003495479500000052
为第一层隐藏层的输出部分的表征学习向量,
Figure BDA0003495479500000053
为第一层隐藏层传播部分的表征学习向量,Xi表示节点i的特征向量Xi∈X,g为传播函数,用于将
Figure BDA0003495479500000054
的维数由f输出的
Figure BDA0003495479500000055
变为
Figure BDA0003495479500000056
t为经过表征学习传播函数g后得到的表征学习向量
Figure BDA0003495479500000057
的维数,则此时的输出部分的表征学习矩阵即隐藏层矩阵
Figure BDA0003495479500000058
步骤22,当隐藏层的层数为l层时,此时以第l-1层的表征学习的传播函数输出部分作为第l层的输入,第l层表征学习的输出部分作为第l+1层的输入,则此时表征学习的传播和输出过程可表示为式8、式9和式10:
Figure BDA0003495479500000059
Figure BDA00034954795000000510
Figure BDA00034954795000000511
其中
Figure BDA00034954795000000512
分别为第l层、第l+1层的传播部分的表征学习向量,
Figure BDA00034954795000000513
Figure BDA00034954795000000514
分别为第l-1层、第l层的输出部分的表征学习向量,则此时第l层传播部分的表征学习矩阵即隐藏层矩阵
Figure BDA00034954795000000515
第l+1层输出部分的表征学习矩阵即隐藏层矩阵
Figure BDA00034954795000000516
将L层隐藏层堆叠得到最终的隐藏层矩阵
Figure BDA00034954795000000517
C为数据集的类目数。
进一步的,所述步骤3中,利用式11将步骤1得到的依赖关系矩阵加入到通过步骤2得到的图神经网络的最后一层隐藏层矩阵中,得到新的全局隐藏矩阵H:
Figure BDA00034954795000000518
其中,函数
Figure BDA00034954795000000519
表示依赖关系矩阵D加入隐藏层矩阵h(L)的方式,具体是将维数相同的依赖关系矩阵D与隐藏层矩阵h(L)中的元素按位相乘后的值作为对应位置的元素值,
Figure BDA0003495479500000061
n为图中节点个数,C为标签类别个数。
进一步的,所述步骤4的具体操作如下:
使用新的图神经网络的soft max层对待测试集节点进行分类,用式12表示,其中,z为最终的节点分类概率,
Figure BDA0003495479500000062
n为图中节点个数,C为标签类别个数;
z=soft max(H) (12)。
本发明与现有技术相比具有以下优点:
(1)本发明利用个性化网页排位算法聚合了节点的多跳邻域信息和图的拓扑结构信息,此信息以节点的依赖向量表示,在依赖向量的基础上进一步地构建了依赖关系矩阵。
(2)本发明将依赖关系矩阵加入到图神经网络的最后一层隐藏层中构建新的图神经网络,使用新构建的图神经网络实现了更好的节点分类效果。
(3)构建新的图神经网络的方法通用性强,可以应用到多种图神经网络模型中,如图卷积神经网络、图注意力网络、图马尔科夫网络等。
附图说明
图1是本发明的基于个性化网页排位的半监督图节点分类方法的流程图。
图2是计算依赖关系矩阵模块的流程图。
具体实施方式
本发明涉及到的技术术语:
个性化网页排位算法:即个性化PageRank算法,PageRank算法是一种由谷歌提出的网页排名算法。PageRank算法通过计算页面链接的数量和质量来确定该网站的页面重要性的大致估算值。基本假设是,更重要的网站可能会收到来自其他网站的更多链接。
本发明为一种基于个性化网页排位的半监督图节点分类方法,可基于任何软件语言实现。该方法的基本实现思路为:先通过个性化网页排位算法计算节点间的依赖关系,在此基础上进一步获得依赖关系矩阵,然后通过图神经网络的多层隐藏层的堆叠计算得到全局隐藏层矩阵,其中每一层隐藏层包含节点的表征学习的传播和输出两部分,接着将依赖关系矩阵加入到全局隐藏层矩阵中构建新的图神经网络模型,最后使用新的图神经网络模型进行节点分类。本发明的方法为一种图神经网络的通用工具,在下文中以图神经网络(GNN)为例进行发明的构造说明。然后在试验部分分别以图卷积神经网络(GCN)、图注意力网络(GAT)、图马尔可夫网络(GMNN)为例进行了实验验证,使用了本发明方法的模型命名模式为在原有的图神经网络模型前边加上D,则上述三个模型依此变为DGCN、DGAT、DGMNN。
下面以Python语言,公用数据集Pubmed为例,结合附图对本发明进行详细论述。Pubmed数据集有19717个节点,44338条边,3个类,每个节点的特征维数是500,节点标签率为0.003即训练集节点共60个,其中每个类别对应的训练集节点为20个,测试集节点1000个。实验中所有评估算法均采用复杂网络工具处理包Networkx(v1.11)和Python(v3.6)。实验所用计算机信息为:处理器AMD Ryzen 5 1500X 3.50GHz,内存32.0GB,操作系统Windows10。
如图1所示,本发明给出的基于个性化网页排位的半监督图节点分类方法,具体包括如下步骤:
步骤1:对于给定的图,通过个性化网页排位算法计算得到图中节点的个性化网页排位值,从而得到各个标签对应的排序分布向量,根据排序分布向量得到节点的依赖向量,对依赖向量进行正则化后得到依赖关系矩阵。该步骤的主要目的是找到有标签节点与待分类节点间的依赖关系,同时获得图的全局信息,全局信息即节点的多跳邻域节点信息。如图2所示,包括如下子步骤:
步骤11,给定一个图G=(V,E),其中,定义V是n个节点的集合,n=|V|,E是m条边的集合,E={(i,j)|i∈V,j∈V};VL是训练集节点集合,
Figure BDA0003495479500000081
YL是训练集节点的标签集合,C表示图G中包含的类别数目(即不同标签的个数),C={0,1,2…C-1}。以Pubmed数据集为例,有19717个节点即n=19717,44338条边,即m=44338,3个类即C=3;
步骤12,遍历训练集节点集合VL和训练集节点的标签集合YL,依次获得训练集中标签为c的节点集合Vc
Figure BDA0003495479500000082
且c∈{0,1,2,…,C-1},其中,Yc表示所有节点的标签均为c的标签集合;X为图G的特征矩阵
Figure BDA0003495479500000083
k为节点集合V中每个节点的特征向量的维数。
此步骤目的是找到训练集中每个类别的训练集节点集合,为后续使用个性化网页排位算法做支撑。以Pubmed数据集为例,此步骤目的是得到训练集VL中3个类别分别对应的节点集V0,V1,V2,。
步骤13,构造用于计算节点的个性化网页排位值PR(i,Vc)的式(1):
Figure BDA0003495479500000084
其中,PR(i,Vc)表示V中节点i的个性化网页排位值;λ表示衰减因子(取0.85);|Vc|表示训练集中标签为c的节点集Vc中节点的数目;In(i)表示指向节点i的邻接节点集合;节点j∈In(i)是i的邻接节点;|Out(j)|表示由节点j引出的边的数量;PR(j,Vc)表示i的邻接节点j的个性化网页排位值,式1中,初始的
Figure BDA0003495479500000085
a+b表示节点i的度,其值等于节点i的出度a加入度b;
此步骤目的是给出计算节点的个性化网页排位值的方式,为后续计算奠定基础,同时以Pubmed数据集为例,|Vc|=|V0|+|V1|+|V2|=60,|V0|=|V1|=|V2|=20;
步骤14,将步骤12得到的集合Vc整体作为式1的输入,通过式1计算得到V中节点i的个性化网页排位值;接着将计算得到的n个节点的个性化网页排位值构成排序分布向量
Figure BDA0003495479500000091
Figure BDA0003495479500000092
由式2表示。以Pubmed数据集为例
Figure BDA0003495479500000093
即排序分布向量是一个大小为19717的一维行向量,此步骤用于计算得到节点的个性化网页排位值并暂存,便于后续使用。
Figure BDA0003495479500000094
步骤15,重复步骤14得到C个排序分布向量
Figure BDA0003495479500000095
接着依次从C个排序分布向量中提取节点i对应的C个个性化网页排位值,提取过程用
Figure BDA0003495479500000096
表示,其中函数
Figure BDA0003495479500000097
表示获得节点i在类目为c时排序分布向量
Figure BDA0003495479500000098
中的个性化网页排位值PR(i,Vc),如在Pubmed数据集中,节点5在类目为2的情况下的个性化网页排位值
Figure BDA0003495479500000099
组成节点i的依赖向量di
Figure BDA00034954795000000910
由式3表示,以Pubmed数据集为例
Figure BDA00034954795000000911
即节点的依赖向量是一个大小为3的一维行向量:
Figure BDA00034954795000000912
其中,
Figure BDA00034954795000000913
表示节点i在排序分布向量
Figure BDA00034954795000000914
中的个性化网页排位值。
步骤16,对节点i的依赖向量di进行正则化得到R_di
具体的,对di进行正则化的思路如下所示:首先利用式4对节点i的依赖向量di的C个个性化网页排位值进行相加得到sum(di),然后使用C个个性化网页排位值依次除以sum(di),得到正则化后的依赖向量R_di,正则化过程用式4和式5表示:
sum(di)=PR(i,V0)+PR(i,V1)+R(i,V2)+…+PR(i,VC-1) (4)
Figure BDA00034954795000000915
此步骤为了规范地评估节点的依赖关系对节点分类的作用,特意对节点依赖关系向量进行了正则化处理。
步骤17,计算依赖关系矩阵D,D={R_d0,R_d1,…,R_dn-1},
Figure BDA0003495479500000101
可以看出,D为将n个节点的正则化的依赖关系向量按照节点的顺序依次堆叠存放,最终形成一个n行c列的矩阵。以Pubmed数据集为例
Figure BDA0003495479500000102
即是一个19717行3列的矩阵。
步骤2、通过对图神经网络的隐藏层进行多层堆叠计算,得到图神经网络经过多层隐藏层堆叠后输出的隐藏层矩阵,其中每一层隐藏层都包含节点的表征学习的传播和输出两部分。
此步骤目的是通过隐藏层的多层迭代,获得节点的高阶信息表示,聚合节点与邻接节点间的信息和图的拓扑结构信息。假定图神经网络共有L层隐藏层,L={1,2,…l-1,l,l+1,…L},则图神经网络隐藏层的堆叠过程的具体操作如下:
步骤21,节点i的表征学习包括传播部分和输出部分,其中,第一层隐藏层的传播部分的表征学习向量为
Figure BDA0003495479500000103
输出部分的表征学习向量为
Figure BDA0003495479500000104
Figure BDA0003495479500000105
其中,
Figure BDA0003495479500000106
为第一层隐藏层的传播部分的表征学习向量,Xi表示节点i的特征向量Xi∈X,Xj表示i的邻接节点j的特征向量Xj∈X,
Figure BDA0003495479500000107
表示节点j在第一层隐藏层的传播部分的表征学习向量,X(i,j)表示边(i,j)的特征向量,f为传播函数,用于将
Figure BDA0003495479500000108
的维数由初始的
Figure BDA0003495479500000109
变为
Figure BDA00034954795000001010
q为经过表征学习传播函数f后得到的表征学习向量
Figure BDA00034954795000001011
的维数,则此时传播部分的表征学习矩阵即隐藏层矩阵
Figure BDA00034954795000001012
h(1)为将n个节点经过第一层隐藏层的表征学习的传播函数获得的n个传播部分表征学习向量
Figure BDA00034954795000001013
按照节点的顺序依次堆叠存放形成的一个n行q列的矩阵;其中初始的
Figure BDA00034954795000001014
即节点j的特征向量Xj
Figure BDA0003495479500000111
其中,
Figure BDA0003495479500000112
为第一层隐藏层的输出部分的表征学习向量,
Figure BDA0003495479500000113
为第一层隐藏层传播部分的表征学习向量,Xi表示节点i的特征向量Xi∈X,g为传播函数,用于将
Figure BDA0003495479500000114
的维数由f输出的
Figure BDA0003495479500000115
变为
Figure BDA0003495479500000116
t为经过表征学习传播函数g后得到的表征学习向量
Figure BDA0003495479500000117
的维数,则此时的输出部分的表征学习矩阵即隐藏层矩阵
Figure BDA0003495479500000118
步骤22,当隐藏层的层数为l层时,此时以第l-1层的表征学习的传播函数输出部分作为第l层的输入,第l层表征学习的输出部分作为第l+1层的输入,则此时表征学习的传播和输出过程可表示为式8、式9和式10:
Figure BDA0003495479500000119
Figure BDA00034954795000001110
Figure BDA00034954795000001111
其中
Figure BDA00034954795000001112
分别为第l层、第l+1层的传播部分的表征学习向量,
Figure BDA00034954795000001113
Figure BDA00034954795000001114
分别为第l-1层、第l层的输出部分的表征学习向量,则此时第l层传播部分的表征学习矩阵即隐藏层矩阵
Figure BDA00034954795000001115
第l+1层输出部分的表征学习矩阵即隐藏层矩阵
Figure BDA00034954795000001116
此处的隐藏层矩阵h(l)和h(l+1)与步骤21中隐藏层矩阵h(1)按相同的方式存放。
将L层隐藏层堆叠得到最终的隐藏层矩阵
Figure BDA00034954795000001117
此处的隐藏层矩阵h(L)与步骤21中隐藏层矩阵h(1)按相同的方式存放,其中C为数据集的类目数。此步骤通过隐藏层的L层迭代获得了节点的高阶信息表示。
步骤3、利用式11,将步骤1得到的依赖关系矩阵D加入到通过步骤2得到的图神经网络的最后一层隐藏层矩阵h(L)中,得到新的全局隐藏矩阵H,则此时原有的图神经网络的隐藏层矩阵变为H,进而原有的图神经网络转变为新的图神经网络DGNN:
Figure BDA0003495479500000121
其中,函数
Figure BDA0003495479500000122
表示D加入h(L)的方式,具体做法是将维数相同的矩阵D和h(L)中的元素按位相乘后的值作为对应位置的元素值,
Figure BDA0003495479500000123
可见,通过步骤1至步骤3得到了一个区别于其他图神经网络的新的图神经网络DGNN,即在原有的图神经网络的隐藏层的最后一层加入了表示节点间依赖关系的节点依赖关系矩阵,使得原始的图神经网络变成了分类效果更强大的DGNN。此步骤将依赖关系矩阵与图神经网络进行结合,是实现优越的节点分类效果的关键。
步骤4、图神经网络由一组隐藏层和居于隐藏层后的一层soft max层组成的端到端的深度学习模型,其中隐藏层用于获得节点的高阶表示,soft max层利用隐藏层输出的信息获得节点的直接近似概率分布。因此使用新的图神经网络的soft max层进行节点分类。具体操作如下:
使用DGNN的soft max层对待测试集节点进行分类,用式12表示,其中Z为最终的节点分类概率
Figure BDA0003495479500000124
以Pubmed数据集为例,Z表示了待测试节点分别属于类目0、类目1、类目2的概率。
z=soft max(H) (12)。
以下是本发明的方法的试验结果:
表1是本发明提出的添加节点依赖关系矩阵后的新的图神经网络与其他现有算法的整体性能对比,对比指标是节点分类准确率。该实验从整体上突出了本发明的有效性,由表1数据可知,在加入节点依赖关系矩阵后的模型DGCN、DGAT、DGMNN分别比其原始模型高了0.4、0.6和2.1,同时GMNN的实验效果也明显高于其它模型。
表1算法整体性能对比
Figure BDA0003495479500000125
Figure BDA0003495479500000131
表2是Pubmed数据集在低标签率下的本发明的算法与其他现有算法的性能对比。相较于Pubmed数据集原始的标签率为0.003,训练集共有60个节点,每个类别有20个训练集节点,本实验将标签率依次设置为0.0003、0.0005、0.001、0.002即训练集中每个类别的节点依次改为2个、4个、7个、14个以对比低标签率下本发明的优越性,对比指标是节点分类准确率。通过表2的实验结果可知,在减少同等训练集节点数量的前提下,加入了节点依赖关系矩阵的DGMNN的实验结果要明显高于其它模型,同时随着训练集节点数量的提高DGMNN的增幅也要优于其它模型。
表2 Pubmed低标签率算法性能对比
Figure BDA0003495479500000132
表3是Pubmed数据集算法的鲁棒性对比。通过用随机攻击方法产生干扰图来研究节点依赖关系分布矩阵对算法鲁棒性的增强效果。随机攻击,通过添加假边来扰动图结构,假边即原本不存在的边,本实验中添加假边的比例依次为原始边的2%、6%、10%、15%,即添加的假边条数依次为887、2660、4434、6651。干扰图即在原始图中添加了假边的图。对比指标是节点分类准确率。通过表3的实验结果可知,随着假边比例的增加,所有模型的节点分类准确率都在下降,但是加入了节点依赖关系矩阵的模型DGCN、DGAT、DGMNN的节点分类准确率要高于其原始模型,同时DGMNN的节点分类准确率是所有模型中最高的,这也进一步证明了本发明发的有效性。
表3 Pubmed数据集算法鲁棒性对比
Figure BDA0003495479500000141

Claims (6)

1.一种基于个性化网页排位的半监督图节点分类方法,其特征在于,具体包括如下步骤:
步骤1:对于给定的图,通过个性化网页排位算法计算得到图中节点的个性化网页排位值,从而得到各个标签对应的排序分布向量,根据排序分布向量得到节点的依赖向量,对依赖向量进行正则化后得到依赖关系矩阵;
步骤2、通过对图神经网络进行多层隐藏层堆叠计算得到输出的隐藏层矩阵,其中每一层隐藏层包含节点的表征学习的传播和输出两部分;
步骤3、将步骤1得到的依赖关系矩阵加入到通过步骤2得到的图神经网络的最后一层隐藏层矩阵中,得到新的全局隐藏矩阵H,则此时图神经网络的隐藏层矩阵变为H,进而图神经网络转变为新的图神经网络;
步骤4、使用新的图神经网络的softmax层进行节点分类。
2.如权利要求1所述的基于个性化网页排位的半监督图节点分类方法,其特征在于,所述步骤1具体包括如下子步骤:
步骤11,给定义一个图G=(V,E),其中,定义V是n个节点的集合,n=|V|,E是m条边的集合,E={(i,j)|i∈V,j∈V};VL是训练集节点集合,
Figure FDA0003495479490000011
YL是训练集节点的标签集合,C表示G中包含的类别数目即不同标签的个数,C={0,1,2…C-1};
步骤12,遍历训练集节点集合VL和训练集节点的标签集合YL,依次获得训练集中标签为c的节点集合Vc
Figure FDA0003495479490000012
且c∈{0,1,2,…,C-1},其中,Yc表示所有节点的标签均为c的标签集合;X为G的特征矩阵
Figure FDA0003495479490000013
k为节点集合V中每个节点的特征向量的维数;
步骤13,构造用于计算节点的个性化网页排位值PR(i,Vc)的式(1):
Figure FDA0003495479490000021
其中,PR(i,Vc)表示V中节点i的个性化网页排位值;λ表示衰减因子,取0.85;|Vc|表示训练集中标签为c的节点集Vc中节点的数目;In(i)表示指向节点i的邻接节点集合;节点j∈In(i)是i的邻接节点;|Out(j)|表示由节点j引出的边的数量;PR(j,Vc)表示i的邻接节点j的个性化网页排位值,式1中,初始的
Figure FDA0003495479490000022
a+b表示节点i的度,其值等于节点i的出度a加入度b;
步骤14,将步骤12得到的集合Vc整体作为式1的输入,通过式1计算得到V中节点i的个性化网页排位值;接着将计算得到的n个节点的个性化网页排位值构成排序分布向量
Figure FDA0003495479490000023
由式2表示:
Figure FDA0003495479490000024
步骤15,重复步骤14得到C个排序分布向量
Figure FDA0003495479490000025
接着依次从C个排序分布向量中提取节点i对应的C个个性化网页排位值,提取过程用
Figure FDA0003495479490000026
表示,其中函数
Figure FDA0003495479490000027
表示获得节点i在类目为c时排序分布向量
Figure FDA0003495479490000028
中的个性化网页排位值PR(i,Vc),组成节点i的依赖向量di
Figure FDA0003495479490000029
由式3表示:
Figure FDA00034954794900000210
其中,
Figure FDA00034954794900000211
表示节点i在排序分布向量
Figure FDA00034954794900000212
中的个性化网页排位值;
步骤16,对节点i的依赖向量di进行正则化得到R_di
步骤17,计算依赖关系矩阵D,D={R_d0,R_d1,…,R_dn-1},
Figure FDA00034954794900000213
3.如权利要求1所述的基于个性化网页排位的半监督图节点分类方法,其特征在于,所述步骤16的具体操作如下:
利用式4对节点i的依赖向量di的C个个性化网页排位值进行相加得到sum(di),然后使用C个个性化网页排位值依次除以sum(di),得到正则化后的依赖向量R_di
sum(di)=PR(i,V0)+PR(i,V1)+R(i,V2)+…+PR(i,VC-1) (4)
Figure FDA0003495479490000031
4.如权利要求1所述的基于个性化网页排位的半监督图节点分类方法,其特征在于,所述步骤2具体包括如下子步骤:
步骤21,节点i的表征学习包括传播部分和输出部分;其中,第一层隐藏层的传播部分的表征学习向量为
Figure FDA0003495479490000032
输出部分的表征学习向量为
Figure FDA0003495479490000033
Figure FDA0003495479490000034
其中,
Figure FDA0003495479490000035
为第一层隐藏层的传播部分的表征学习向量,Xi表示节点i的特征向量Xi∈X,Xj表示i的邻接节点j的特征向量Xj∈X,
Figure FDA0003495479490000036
表示节点j在第一层隐藏层的传播部分的表征学习向量,X(i,j)表示边(i,j)的特征向量,f为传播函数,用于将
Figure FDA0003495479490000037
的维数由初始的
Figure FDA0003495479490000038
变为
Figure FDA0003495479490000039
q为经过表征学习传播函数f后得到的表征学习向量
Figure FDA00034954794900000310
的维数,则此时传播部分的表征学习矩阵即隐藏层矩阵
Figure FDA00034954794900000311
h为将n个节点经过第一层隐藏层的表征学习的传播函数获得的n个传播部分表征学习向量
Figure FDA00034954794900000312
按照节点的顺序依次堆叠存放形成的一个n行q列的矩阵;其中初始的
Figure FDA00034954794900000313
即节点j的特征向量Xj
Figure FDA00034954794900000314
其中,
Figure FDA00034954794900000315
为第一层隐藏层的输出部分的表征学习向量,
Figure FDA00034954794900000316
为第一层隐藏层传播部分的表征学习向量,Xi表示节点i的特征向量Xi∈X,g为传播函数,用于将
Figure FDA0003495479490000041
的维数由f输出的
Figure FDA0003495479490000042
变为
Figure FDA0003495479490000043
t为经过表征学习传播函数g后得到的表征学习向量
Figure FDA0003495479490000044
的维数,则此时的输出部分的表征学习矩阵即隐藏层矩阵
Figure FDA0003495479490000045
步骤22,当隐藏层的层数为l层时,此时以第l-1层的表征学习的传播函数输出部分作为第l层的输入,第l层表征学习的输出部分作为第l+1层的输入,则此时表征学习的传播和输出过程可表示为式8、式9和式10:
Figure FDA0003495479490000046
Figure FDA0003495479490000047
Figure FDA0003495479490000048
其中
Figure FDA0003495479490000049
分别为第l层、第l+1层的传播部分的表征学习向量,
Figure FDA00034954794900000417
Figure FDA00034954794900000410
分别为第l-1层、第l层的输出部分的表征学习向量,则此时第l层传播部分的表征学习矩阵即隐藏层矩阵
Figure FDA00034954794900000411
第l+1层输出部分的表征学习矩阵即隐藏层矩阵
Figure FDA00034954794900000412
将L层隐藏层堆叠得到最终的隐藏层矩阵
Figure FDA00034954794900000413
C为数据集的类目数。
5.如权利要求1所述的基于个性化网页排位的半监督图节点分类方法,其特征在于,所述步骤3中,利用式11将步骤1得到的依赖关系矩阵加入到通过步骤2得到的图神经网络的最后一层隐藏层矩阵中,得到新的全局隐藏矩阵H:
Figure FDA00034954794900000414
其中,函数
Figure FDA00034954794900000415
表示依赖关系矩阵D加入隐藏层矩阵h(L)的方式,具体是将维数相同的依赖关系矩阵D与隐藏层矩阵h(L)中的元素按位相乘后的值作为对应位置的元素值,
Figure FDA00034954794900000416
n为图中节点个数,C为标签类别个数。
6.如权利要求1所述的基于个性化网页排位的半监督图节点分类方法,其特征在于,所述步骤4的具体操作如下:
使用新的图神经网络的softmax层对待测试集节点进行分类,用式12表示,其中,Z为最终的节点分类概率,
Figure FDA0003495479490000051
n为图中节点个数,C为标签类别个数;
z=soft max(H) (12)。
CN202210113155.0A 2022-01-30 2022-01-30 一种基于个性化网页排位的半监督图节点分类方法 Pending CN114492651A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210113155.0A CN114492651A (zh) 2022-01-30 2022-01-30 一种基于个性化网页排位的半监督图节点分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210113155.0A CN114492651A (zh) 2022-01-30 2022-01-30 一种基于个性化网页排位的半监督图节点分类方法

Publications (1)

Publication Number Publication Date
CN114492651A true CN114492651A (zh) 2022-05-13

Family

ID=81478941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210113155.0A Pending CN114492651A (zh) 2022-01-30 2022-01-30 一种基于个性化网页排位的半监督图节点分类方法

Country Status (1)

Country Link
CN (1) CN114492651A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982654A (zh) * 2023-03-21 2023-04-18 北京芯盾时代科技有限公司 一种基于自监督图神经网络的节点分类方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115982654A (zh) * 2023-03-21 2023-04-18 北京芯盾时代科技有限公司 一种基于自监督图神经网络的节点分类方法及装置
CN115982654B (zh) * 2023-03-21 2023-08-04 北京芯盾时代科技有限公司 一种基于自监督图神经网络的节点分类方法及装置

Similar Documents

Publication Publication Date Title
CN112529168B (zh) 一种基于gcn的属性多层网络表示学习方法
CN112567355B (zh) 用于知识库补全的端到端的结构感知卷积网络
CN108920720B (zh) 基于深度哈希和gpu加速的大规模图像检索方法
CN111950594B (zh) 基于子图采样的大规模属性图上的无监督图表示学习方法和装置
US11860675B2 (en) Latent network summarization
CN111737535B (zh) 一种基于元结构和图神经网络的网络表征学习方法
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
US20220414144A1 (en) Multi-task deep hash learning-based retrieval method for massive logistics product images
CN102750360A (zh) 一种用于推荐系统的计算机数据挖掘方法
CN110993037A (zh) 一种基于多视图分类模型的蛋白质活性预测装置
CN112633481A (zh) 一种多跳图卷积神经网络模型及其训练方法
Pedronette et al. Rank-based self-training for graph convolutional networks
Hong et al. Variational gridded graph convolution network for node classification
CN108984551A (zh) 一种基于多类别联合软聚类的推荐方法及系统
CN114492651A (zh) 一种基于个性化网页排位的半监督图节点分类方法
CN113516019B (zh) 高光谱图像解混方法、装置及电子设备
Zhang et al. Distributed learning of finite gaussian mixtures
Zhang et al. Network representation learning via improved random walk with restart
CN116756391A (zh) 一种基于图数据增强的不平衡图节点神经网络分类方法
CN114842247B (zh) 基于特征累加的图卷积网络半监督节点分类方法
Li et al. A graphical approach for filter pruning by exploring the similarity relation between feature maps
EP3816813A1 (en) Methods and systems for storing and querying database entries with neuromorphic computers
Minami et al. Skip vectors for RDF data: Extraction based on the complexity of feature patterns
Kung XNAS: a regressive/progressive NAS for deep learning
Nawaz et al. Collaborative similarity measure for intra graph clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination