CN114492651A

CN114492651A - 一种基于个性化网页排位的半监督图节点分类方法

Info

Publication number: CN114492651A
Application number: CN202210113155.0A
Authority: CN
Inventors: 梁春泉; 赵航; 陈航; 王紫
Original assignee: Northwest A&F University
Current assignee: Northwest A&F University
Priority date: 2022-01-30
Filing date: 2022-01-30
Publication date: 2022-05-13

Abstract

本发明公开了一种基于个性化网页排位的半监督图节点分类方法：步骤1：对于给定的图，通过个性化网页排位算法计算得到图中节点的个性化网页排位值，从而得到各个标签对应的排序分布向量，根据排序分布向量得到节点的依赖向量，对依赖向量进行正则化后得到依赖关系矩阵。步骤2、通过对图神经网络的隐藏层进行多层堆叠计算，得到图神经网络经过多层隐藏层堆叠后输出的隐藏层矩阵；步骤3、将依赖关系矩阵加入到图神经网络的最后一层隐藏层矩阵中得到新的全局隐藏矩阵，进而得到新的图神经网络；步骤4、使用新的图神经网络进行节点分类。本发明最终使用新构建的图神经网络进行节点分类，达到了更好的节点分类效果。

Description

一种基于个性化网页排位的半监督图节点分类方法

技术领域

本发明属于数据挖掘领域，具体涉及一种基于个性化网页排位的半监督条件下的图节点分类方法。

背景技术

近年来，随着信息技术的发展，大量的数据、信息不断的涌入到人们的学习、生活中。很多数据表现为像拓扑网络一样不规则的非欧几里得数据。很多人们常用的社交软件如腾讯QQ、微信、微博等都是非欧几里得数据应用领域的代表。这些软件产生的海量非结构化数据具有一定的拓扑结构，有节点和边组成，即我们常说的图。图与我们的生活息息相关，在很多领域都有实际的作用，其中一个重要的研究热点就是图节点分类问题。在一个图上，它的节点分为标签节点和无标签节点，通过将标签节点的信息传播到未标签的节点上，从而预测出未标签节点的类别，这就是节点分类过程。图节点分类问题在现实生活有着很多应用，如引文网络中的网页分类、社交网络中的社区成员识别、万维网中的页面推荐、蛋白质关系网络中的蛋白质预测等。当前解决图节点分类问题的常用方法是图神经网络，其中包含了图卷积网络、图注意力网络等在此基础上延伸出来的一些其它网络模型如图马尔科夫网络。

尽管图神经网络在图节点分类问题上展现出了强大的效能，但仍然存在一些不足。现有的图神经网络模型一般由一组隐藏层和居于隐藏层之后的一组soft max层组成，隐藏层用于获取节点的高阶信息，soft max层用于得到节点的近似概率。其中节点的高阶信息由节点通过表征学习得到的节点表征向量组成，soft max层在进行节点分类时只用到了节点的表征信息，忽视了带标签节点与无标签节点间的依赖关系，导致节点分类结果不够准确。

发明内容

针对上述现有技术中存在的缺陷或不足，本发明提供一种基于个性化网页排位的半监督条件下的图节点分类方法，该方法能够获取带标签节点与无标签节点间的依赖关系，进一步地将此依赖关系以依赖向量的形式量化表示，在此基础上得到依赖关系矩阵，接着将依赖关系矩阵加入到图神经网络的最后一层隐藏层中构成新的图神经网络，最终使用新构建的图神经网络进行节点分类，以达到更好的节点分类效果。

为了达到上述目的，本发明采用如下技术方案予以解决：

一种基于个性化网页排位的半监督图节点分类方法，具体包括如下步骤：

步骤1：对于给定的图，通过个性化网页排位算法计算得到图中节点的个性化网页排位值，从而得到各个标签对应的排序分布向量，根据排序分布向量得到节点的依赖向量，对依赖向量进行正则化后得到依赖关系矩阵。

步骤2、通过对图神经网络的隐藏层进行多层堆叠计算，得到图神经网络经过多层隐藏层堆叠后输出的隐藏层矩阵，其中每一层隐藏层都包含节点的表征学习的传播和输出两部分；

步骤3、将步骤1得到的依赖关系矩阵加入到通过步骤2得到的图神经网络的最后一层隐藏层矩阵中，得到新的全局隐藏矩阵H，则此时图神经网络的隐藏层矩阵变为H，进而图神经网络转变为新的图神经网络；

步骤4、使用新的图神经网络的softmax层进行节点分类。

进一步的，所述步骤1具体包括如下子步骤：

步骤11，给定义一个图G＝(V,E)，其中，定义V是n个节点的集合，n＝|V|，E是m条边的集合，E＝{(i,j)|i∈V,j∈V}；V_L是训练集节点集合，

Y_L是训练集节点的标签集合，C表示图G中包含的类别数目即标签个数，C＝{0,1,2…C-1}；

步骤12，遍历训练集节点集合V_L和训练集节点的标签集合Y_L，依次获得训练集中标签为c的节点集合V_c；

且c∈{0,1,2,…,C-1}，其中，Y_c表示所有节点的标签均为c的标签集合；X为图G的特征矩阵

k为节点集合V中每个节点的特征向量的维数；

步骤13，构造用于计算节点的个性化网页排位值PR(i,V_c)的式(1)：

其中，PR(i，V_c)表示V中节点i的个性化网页排位值；λ表示衰减因子，取0.85；|V_c|表示训练集中标签为c的节点集V_c中节点的数目；In(i)表示指向节点i的邻接节点集合；节点j∈In(i)是i的邻接节点；|Out(j)|表示由节点j引出的边的数量；PR(j,V_c)表示i的邻接节点j的个性化网页排位值，式1中，初始的

a+b表示节点i的度，其值等于节点i的出度a加入度b；

步骤14，将步骤12得到的集合V_c整体作为式1的输入，通过式1计算得到V中节点i的个性化网页排位值；接着将计算得到的n个节点的个性化网页排位值构成排序分布向量

由式2表示：

步骤15，重复步骤14得到C个排序分布向量

接着依次从C个排序分布向量中提取节点i对应的C个个性化网页排位值，提取过程用

表示，其中函数

表示获得节点i在类目为c时排序分布向量

中的个性化网页排位值PR(i,V_c)，组成节点i的依赖向量d_i，

由式3表示：

其中，

表示节点i在排序分布向量

中的个性化网页排位值；

步骤16，对节点i的依赖向量d_i进行正则化得到R_d_i；

步骤17，计算依赖关系矩阵D，

进一步的，所述步骤16的具体操作如下：

利用式4对节点i的依赖向量d_i的C个个性化网页排位值进行相加得到sum(d_i)，然后使用C个个性化网页排位值依次除以sum(d_i)，得到正则化后的依赖向量R_d_i：

sum(d_i)＝PR(i,V₀)+PR(i,V₁)+R(i,V₂)+…+PR(i,V_C-1) (4)

进一步的，所述步骤2具体包括如下子步骤：

步骤21，节点i的表征学习包括传播部分和输出部分，其中，第一层隐藏层的传播部分的表征学习向量为

输出部分的表征学习向量为

其中，

为第一层隐藏层的传播部分的表征学习向量，X_i表示节点i的特征向量X_i∈X，X_j表示i的邻接节点j的特征向量X_j∈X，

表示节点j在第一层隐藏层的传播部分的表征学习向量，X_(i,j)表示边(i,j)的特征向量，f为传播函数，用于将

的维数由初始的

变为

q为经过表征学习传播函数f后得到的表征学习向量

的维数，则此时传播部分的表征学习矩阵即隐藏层矩阵

h为将n个节点经过第一层隐藏层的表征学习的传播函数获得的n个传播部分表征学习向量

按照节点的顺序依次堆叠存放形成的一个n行q列的矩阵；其中初始的

即节点j的特征向量X_j。

其中，

为第一层隐藏层的输出部分的表征学习向量，

为第一层隐藏层传播部分的表征学习向量，X_i表示节点i的特征向量X_i∈X，g为传播函数，用于将

的维数由f输出的

变为

t为经过表征学习传播函数g后得到的表征学习向量

的维数，则此时的输出部分的表征学习矩阵即隐藏层矩阵

步骤22，当隐藏层的层数为l层时，此时以第l-1层的表征学习的传播函数输出部分作为第l层的输入，第l层表征学习的输出部分作为第l+1层的输入，则此时表征学习的传播和输出过程可表示为式8、式9和式10：

其中

分别为第l层、第l+1层的传播部分的表征学习向量，

分别为第l-1层、第l层的输出部分的表征学习向量，则此时第l层传播部分的表征学习矩阵即隐藏层矩阵

第l+1层输出部分的表征学习矩阵即隐藏层矩阵

将L层隐藏层堆叠得到最终的隐藏层矩阵

C为数据集的类目数。

进一步的，所述步骤3中，利用式11将步骤1得到的依赖关系矩阵加入到通过步骤2得到的图神经网络的最后一层隐藏层矩阵中，得到新的全局隐藏矩阵H：

其中，函数

表示依赖关系矩阵D加入隐藏层矩阵h^(L)的方式，具体是将维数相同的依赖关系矩阵D与隐藏层矩阵h^(L)中的元素按位相乘后的值作为对应位置的元素值，

n为图中节点个数，C为标签类别个数。

进一步的，所述步骤4的具体操作如下：

使用新的图神经网络的soft max层对待测试集节点进行分类，用式12表示，其中，z为最终的节点分类概率，

n为图中节点个数，C为标签类别个数；

z＝soft max(H) (12)。

本发明与现有技术相比具有以下优点：

(1)本发明利用个性化网页排位算法聚合了节点的多跳邻域信息和图的拓扑结构信息，此信息以节点的依赖向量表示，在依赖向量的基础上进一步地构建了依赖关系矩阵。

(2)本发明将依赖关系矩阵加入到图神经网络的最后一层隐藏层中构建新的图神经网络，使用新构建的图神经网络实现了更好的节点分类效果。

(3)构建新的图神经网络的方法通用性强，可以应用到多种图神经网络模型中，如图卷积神经网络、图注意力网络、图马尔科夫网络等。

附图说明

图1是本发明的基于个性化网页排位的半监督图节点分类方法的流程图。

图2是计算依赖关系矩阵模块的流程图。

具体实施方式

本发明涉及到的技术术语：

个性化网页排位算法：即个性化PageRank算法，PageRank算法是一种由谷歌提出的网页排名算法。PageRank算法通过计算页面链接的数量和质量来确定该网站的页面重要性的大致估算值。基本假设是，更重要的网站可能会收到来自其他网站的更多链接。

本发明为一种基于个性化网页排位的半监督图节点分类方法，可基于任何软件语言实现。该方法的基本实现思路为：先通过个性化网页排位算法计算节点间的依赖关系，在此基础上进一步获得依赖关系矩阵，然后通过图神经网络的多层隐藏层的堆叠计算得到全局隐藏层矩阵，其中每一层隐藏层包含节点的表征学习的传播和输出两部分，接着将依赖关系矩阵加入到全局隐藏层矩阵中构建新的图神经网络模型，最后使用新的图神经网络模型进行节点分类。本发明的方法为一种图神经网络的通用工具，在下文中以图神经网络(GNN)为例进行发明的构造说明。然后在试验部分分别以图卷积神经网络(GCN)、图注意力网络(GAT)、图马尔可夫网络(GMNN)为例进行了实验验证，使用了本发明方法的模型命名模式为在原有的图神经网络模型前边加上D，则上述三个模型依此变为DGCN、DGAT、DGMNN。

下面以Python语言，公用数据集Pubmed为例，结合附图对本发明进行详细论述。Pubmed数据集有19717个节点，44338条边，3个类，每个节点的特征维数是500，节点标签率为0.003即训练集节点共60个，其中每个类别对应的训练集节点为20个，测试集节点1000个。实验中所有评估算法均采用复杂网络工具处理包Networkx(v1.11)和Python(v3.6)。实验所用计算机信息为：处理器AMD Ryzen 5 1500X 3.50GHz，内存32.0GB，操作系统Windows10。

如图1所示，本发明给出的基于个性化网页排位的半监督图节点分类方法，具体包括如下步骤：

步骤1：对于给定的图，通过个性化网页排位算法计算得到图中节点的个性化网页排位值，从而得到各个标签对应的排序分布向量，根据排序分布向量得到节点的依赖向量，对依赖向量进行正则化后得到依赖关系矩阵。该步骤的主要目的是找到有标签节点与待分类节点间的依赖关系，同时获得图的全局信息，全局信息即节点的多跳邻域节点信息。如图2所示，包括如下子步骤：

步骤11，给定一个图G＝(V,E)，其中，定义V是n个节点的集合，n＝|V|，E是m条边的集合，E＝{(i,j)|i∈V,j∈V}；V_L是训练集节点集合，

Y_L是训练集节点的标签集合，C表示图G中包含的类别数目(即不同标签的个数)，C＝{0,1,2…C-1}。以Pubmed数据集为例，有19717个节点即n＝19717,44338条边，即m＝44338，3个类即C＝3；

k为节点集合V中每个节点的特征向量的维数。

此步骤目的是找到训练集中每个类别的训练集节点集合，为后续使用个性化网页排位算法做支撑。以Pubmed数据集为例，此步骤目的是得到训练集V_L中3个类别分别对应的节点集V₀，V₁,V₂,。

其中，PR(i，V_c)表示V中节点i的个性化网页排位值；λ表示衰减因子(取0.85)；|V_c|表示训练集中标签为c的节点集V_c中节点的数目；In(i)表示指向节点i的邻接节点集合；节点j∈In(i)是i的邻接节点；|Out(j)|表示由节点j引出的边的数量；PR(j,V_c)表示i的邻接节点j的个性化网页排位值，式1中，初始的

a+b表示节点i的度，其值等于节点i的出度a加入度b；

此步骤目的是给出计算节点的个性化网页排位值的方式，为后续计算奠定基础，同时以Pubmed数据集为例，|V_c|＝|V₀|+|V₁|+|V₂|＝60，|V₀|＝|V₁|＝|V₂|＝20；

由式2表示。以Pubmed数据集为例

即排序分布向量是一个大小为19717的一维行向量，此步骤用于计算得到节点的个性化网页排位值并暂存，便于后续使用。

步骤15，重复步骤14得到C个排序分布向量

表示，其中函数

表示获得节点i在类目为c时排序分布向量

中的个性化网页排位值PR(i,V_c)，如在Pubmed数据集中，节点5在类目为2的情况下的个性化网页排位值

组成节点i的依赖向量d_i，

由式3表示，以Pubmed数据集为例

即节点的依赖向量是一个大小为3的一维行向量：

其中，

表示节点i在排序分布向量

中的个性化网页排位值。

步骤16，对节点i的依赖向量d_i进行正则化得到R_d_i。

具体的，对d_i进行正则化的思路如下所示：首先利用式4对节点i的依赖向量d_i的C个个性化网页排位值进行相加得到sum(d_i)，然后使用C个个性化网页排位值依次除以sum(d_i)，得到正则化后的依赖向量R_d_i，正则化过程用式4和式5表示：

sum(d_i)＝PR(i,V₀)+PR(i,V₁)+R(i,V₂)+…+PR(i,V_C-1) (4)

此步骤为了规范地评估节点的依赖关系对节点分类的作用，特意对节点依赖关系向量进行了正则化处理。

步骤17，计算依赖关系矩阵D，D＝{R_d₀,R_d₁,…,R_d_n-1},

可以看出，D为将n个节点的正则化的依赖关系向量按照节点的顺序依次堆叠存放，最终形成一个n行c列的矩阵。以Pubmed数据集为例

即是一个19717行3列的矩阵。

步骤2、通过对图神经网络的隐藏层进行多层堆叠计算，得到图神经网络经过多层隐藏层堆叠后输出的隐藏层矩阵，其中每一层隐藏层都包含节点的表征学习的传播和输出两部分。

此步骤目的是通过隐藏层的多层迭代，获得节点的高阶信息表示，聚合节点与邻接节点间的信息和图的拓扑结构信息。假定图神经网络共有L层隐藏层，L＝{1,2,…l-1,l,l+1,…L}，则图神经网络隐藏层的堆叠过程的具体操作如下：

输出部分的表征学习向量为

其中，

的维数由初始的

变为

q为经过表征学习传播函数f后得到的表征学习向量

的维数，则此时传播部分的表征学习矩阵即隐藏层矩阵

h⁽¹⁾为将n个节点经过第一层隐藏层的表征学习的传播函数获得的n个传播部分表征学习向量

即节点j的特征向量X_j。

其中，

为第一层隐藏层的输出部分的表征学习向量，

的维数由f输出的

变为

t为经过表征学习传播函数g后得到的表征学习向量

的维数，则此时的输出部分的表征学习矩阵即隐藏层矩阵

其中

分别为第l层、第l+1层的传播部分的表征学习向量，

第l+1层输出部分的表征学习矩阵即隐藏层矩阵

此处的隐藏层矩阵h^(l)和h^(l+1)与步骤21中隐藏层矩阵h⁽¹⁾按相同的方式存放。

将L层隐藏层堆叠得到最终的隐藏层矩阵

此处的隐藏层矩阵h^(L)与步骤21中隐藏层矩阵h⁽¹⁾按相同的方式存放，其中C为数据集的类目数。此步骤通过隐藏层的L层迭代获得了节点的高阶信息表示。

步骤3、利用式11，将步骤1得到的依赖关系矩阵D加入到通过步骤2得到的图神经网络的最后一层隐藏层矩阵h^(L)中，得到新的全局隐藏矩阵H，则此时原有的图神经网络的隐藏层矩阵变为H，进而原有的图神经网络转变为新的图神经网络DGNN：

其中，函数

表示D加入h^(L)的方式，具体做法是将维数相同的矩阵D和h^(L)中的元素按位相乘后的值作为对应位置的元素值，

可见，通过步骤1至步骤3得到了一个区别于其他图神经网络的新的图神经网络DGNN，即在原有的图神经网络的隐藏层的最后一层加入了表示节点间依赖关系的节点依赖关系矩阵，使得原始的图神经网络变成了分类效果更强大的DGNN。此步骤将依赖关系矩阵与图神经网络进行结合，是实现优越的节点分类效果的关键。

步骤4、图神经网络由一组隐藏层和居于隐藏层后的一层soft max层组成的端到端的深度学习模型，其中隐藏层用于获得节点的高阶表示，soft max层利用隐藏层输出的信息获得节点的直接近似概率分布。因此使用新的图神经网络的soft max层进行节点分类。具体操作如下：

使用DGNN的soft max层对待测试集节点进行分类，用式12表示，其中Z为最终的节点分类概率

以Pubmed数据集为例，Z表示了待测试节点分别属于类目0、类目1、类目2的概率。

z＝soft max(H) (12)。

以下是本发明的方法的试验结果：

表1是本发明提出的添加节点依赖关系矩阵后的新的图神经网络与其他现有算法的整体性能对比，对比指标是节点分类准确率。该实验从整体上突出了本发明的有效性，由表1数据可知，在加入节点依赖关系矩阵后的模型DGCN、DGAT、DGMNN分别比其原始模型高了0.4、0.6和2.1，同时GMNN的实验效果也明显高于其它模型。

表1算法整体性能对比

表2是Pubmed数据集在低标签率下的本发明的算法与其他现有算法的性能对比。相较于Pubmed数据集原始的标签率为0.003，训练集共有60个节点，每个类别有20个训练集节点，本实验将标签率依次设置为0.0003、0.0005、0.001、0.002即训练集中每个类别的节点依次改为2个、4个、7个、14个以对比低标签率下本发明的优越性，对比指标是节点分类准确率。通过表2的实验结果可知，在减少同等训练集节点数量的前提下，加入了节点依赖关系矩阵的DGMNN的实验结果要明显高于其它模型，同时随着训练集节点数量的提高DGMNN的增幅也要优于其它模型。

表2 Pubmed低标签率算法性能对比

表3是Pubmed数据集算法的鲁棒性对比。通过用随机攻击方法产生干扰图来研究节点依赖关系分布矩阵对算法鲁棒性的增强效果。随机攻击，通过添加假边来扰动图结构，假边即原本不存在的边，本实验中添加假边的比例依次为原始边的2％、6％、10％、15％，即添加的假边条数依次为887、2660、4434、6651。干扰图即在原始图中添加了假边的图。对比指标是节点分类准确率。通过表3的实验结果可知，随着假边比例的增加，所有模型的节点分类准确率都在下降，但是加入了节点依赖关系矩阵的模型DGCN、DGAT、DGMNN的节点分类准确率要高于其原始模型，同时DGMNN的节点分类准确率是所有模型中最高的，这也进一步证明了本发明发的有效性。

表3 Pubmed数据集算法鲁棒性对比