CN114386600A

CN114386600A - 基于自适应结构和位置编码的网络表征方法

Info

Publication number: CN114386600A
Application number: CN202210034393.2A
Authority: CN
Inventors: 顾军华; 郑子辰; 杨亮; 牛炳鑫; 张亚娟; 陈成; 周文淼
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-04-22

Abstract

本发明为基于自适应结构和位置编码的网络表征方法，首先提取原始网络图中节点的特征信息和结构信息，并从原始网络图中得到两个子网络图和对应的邻接矩阵；其次，采用随机游走方式对原始网络图的位置编码进行初始化；接着，原始网络图的特征矩阵和两个子网络图的邻接矩阵分别输入到两个结构编码器中，得到两个子网络图的节点级表征；然后，将初始化后的位置编码经过两次位置编码器，得到两个基于注意力的位置编码；最后，将两个子网络图对应的节点级表征和基于注意力的位置编码分别按照维度为1拼接在一起，再经过全连接层映射为原始网络图的网络表征。该方法将网络图的位置编码和结构编码融合，使得网络表征将既包含结构信息，又包含位置信息。

Description

基于自适应结构和位置编码的网络表征方法

技术领域

本发明属于自监督图网络表征技术领域，具体是一种基于自适应结构和位置编码的网络表征方法。

背景技术

近年来，从图像分类和视频处理到语音识别和自然语言理解，深度学习已经彻底改变了许多机器学习任务。传统的机器学习所用到的数据通常为有着规则空间结构的欧式空间数据，而越来越多有挖掘意义的非欧式空间数据，如电子交易、推荐系统等抽象出来的图谱，则给现有的机器学习算法提出了严峻的挑战。网络表征方法可以对不规则的、无序的非欧式空间数据进行建模，将图的顶点、边或子图转换成低维嵌入，从而捕获数据的内部依赖关系，保留图的重要结构信息。图卷积网络模型(GCN)、图注意力机制模型(GAT)等网络表征方法在半监督节点分类、节点聚类等任务上都取得了较好效果。

现有技术中，现有的网络表征方法主要依靠网络的结构信息，获得网络的低维嵌入。现有的网络表征模型得到的表征不能涵盖节点的位置信息，这将会限制对同构节点和其他图对称网络的表达能力。解决这一问题的一种方式是通过堆叠多层卷积网络，将信息从一个节点传播到多跳邻居节点，从而区分较远节点的表示。但是图卷积神经网络的本质是消息传播，每个节点收集邻居节点的特征向量并将它们与自己的特征结合起来更新该节点的表示。堆叠多层卷积网络意味着每个节点聚集多跳邻居节点的特征，这将会使所有节点特征趋于一致，会导致严重的过平滑现象。而通过堆叠多层卷积网络来区分较远节点表示的方式实质上还是一种网络的结构表征，而缺乏节点的位置编码。

发明内容

针对现有技术的不足，本发明拟解决的技术问题是，提出一种基于自适应结构和位置编码的网络表征方法。

本发明解决所述技术问题采用的技术方案是：

一种基于自适应结构和位置编码的网络表征方法，其特征在于，该方法包括以下内容：

步骤1、提取原始网络图中节点的特征信息及结构信息，所有节点的特征信息构成原始网络图的特征矩阵，结构信息用邻接矩阵A表示；分别以一定比例随机删除原始网络图中的边，得到两个不同的子网络图S₁和S₂，两个子网络图的结构信息用稀疏矩阵A₁和A₂表示；将稀疏矩阵A₁和A₂分别与邻接矩阵A作差，得到子网络图S₁和S₂的邻接矩阵A_drop1和A_drop2；

步骤2、采用随机游走的方式对原始网络图的位置编码进行初始化；

步骤3、令子网络图S₁和S₂的结构编码器分别为g₁和g₂，将特征矩阵与邻接矩阵A_drop1输入到结构编码器g₁中，将特征矩阵与邻接矩阵A_drop2输入到结构编码器g₂中，得到子网络图S₁和S₂对应的节点级表征H₁和H₂；

步骤4、将步骤2中初始化后的位置编码经过两次位置编码器，得到基于注意力的位置编码P₁和P₂；

步骤5、将步骤3得到的节点级表征H₁与步骤4得到的基于注意力的位置编码P₁按照维度为1拼接在一起，将节点级表征H₁与基于注意力的位置编码P₂按照维度为1拼接在一起，得到两个融合后的节点级表征H₁'和H'₂；两个融合后的节点级表征再经过一个全连接层映射为原始网络图的网络表征；

至此完成基于自适应结构和位置编码的网络表征。

与现有技术相比，本发明的有益效果是：

1、针对传统的监督学习和无监督学习领域的众多网络模型都没有包含位置信息的问题，本发明将随机游走的思想融入到了网络表征中，提取网络图的位置编码；然后将网络图的位置编码和结构编码进行融合，使得最终得到的网络表征将既包含结构信息，又包含位置信息。

2、与GCN、GAT等监督学习相比，本发明采用了自监督领域中的对比学习方法，使得模型训练过程中不再需要标签信息，并且通过随机删边、拼接位置编码的方式，对原始的网络图进行了信息增广，从而提供了可以用于对比学习的两个视角的数据。

3、在训练过程中对位置编码与结构编码解耦，使位置编码有独立的损失函数，解决了融合信息中位置编码不便修改、不便优化的问题。

4、结构编码部分采用信息瓶颈计算节点级表征损失，扩展了被用于监督学习的信息瓶颈，提出了多输入下的信息瓶颈，从而更好的适应自监督学习任务。位置编码损失采用拉普拉斯特征损失，使位置信息能够独立进行优化。

5、由于采用随机删边的方式得到两个子网络图，还可以有效防止过平滑现象，提高了网络的表征质量。本发明方法对于网络的节点分类、节点聚类任务的效果较好，可以更好的拟合引文网络，提升引文网络的分类精度以及聚类精度。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图给出本发明的具体实施例，具体实施例仅用于进一步详细说明本发明，不限制本申请专利要求的保护范围。

本发明为基于自适应结构和位置编码的网络表征方法(简称方法，参见图1)，具体步骤如下：

步骤1、提取网络图S中节点的特征信息及结构信息，所有节点的特征信息构成网络图S的特征矩阵X，X∈R^N×F，R为矩阵空间维度，N为网络图S的节点个数，F为每个节点的特征个数；节点之间边的信息反映了网络图的结构信息，用邻接矩阵表示，以无向图为例，若节点i与节点j之间存在边相连，则节点i与j的邻接矩阵A_ij＝1；若不存在边相连，则邻接矩阵A_ij＝0，假设每条边的初始权重相同；假定网络图S的结构信息为邻接矩阵A，A∈R^N×N；分别以概率a₁、a₂随机删除网络图S中的边，得到两个不同的子网络图S₁和S₂，子网络图S₁和S₂的结构信息分别用与邻接矩阵A大小相等的稀疏矩阵A₁和A₂表示，子网络图S₁和S₂中的边数等于网络图S的总边数乘以(1-a₁/a₂)；将稀疏矩阵A₁和A₂分别与邻接矩阵A作差，得到子网络图S₁和S₂的邻接矩阵A_drop1和A_drop2，邻接矩阵A_drop1如式(1)所示，邻接矩阵A_drop2同理；

A_drop1＝A-A₁ (1)

步骤2、采用随机游走的方式对位置编码P进行初始化，从网络图S中获取每个节点的位置编码，所有节点的位置编码构成网络图S的位置编码P；其中，节点i的位置编码

用k阶随机游走编码表示为：

RW_ii＝AD^-1 (3)

其中，D为邻接矩阵A的度矩阵；RW_ii为节点i对应的随机游走算子，为降低随机游走算法的复杂度，本发明仅考虑节点i到达其自身的概率；当k足够大且网络图中每个节点具有唯一的k跳邻域时，节点i具有唯一的位置编码

步骤3、选用一层结构的GCN作为子网络图S₁和S₂的结构编码器，令子网络图S₁和S₂的结构编码器分别为g₁和g₂，则将特征矩阵X与邻接矩阵A_drop1作为结构编码器g₁的输入，特征矩阵X与邻接矩阵A_drop2作为结构编码器g₂的输入，得到子网络图S₁和S₂对应的节点级表征H₁和H₂，节点级表征H₁的表达式为：

其中，H^(l)、H^(l+1)分别为结构编码器g₁第l+1层输入和输出的节点级表征，σ为线性激活函数，

表示有自环的邻接矩阵，

表示有自环的邻接矩阵

的度矩阵，θ₁为编码器g₁的参数，I表示与邻接矩阵A大小相等的单位矩阵；

步骤4、选用图注意力网络(GAT)作为位置编码器，将初始化后的位置编码P经过两次位置编码器，得到基于注意力的位置编码P₁和P₂，用于描述不同节点之间边的重要程度；

对于图注意力网络而言，本发明采用多头注意力机制，每个节点分别计算单头位置编码后，将来自每个头的位置编码连接起来，得到多头位置编码；节点i的多头位置编码

为：

其中，||表示拼接，

表示节点i与j之间经过第m次图注意力机制计算得到的系数，为了便于比较不同节点之间的系数，使用softmax函数对注意力权重进行归一化处理；M表示使用的图注意力机制总数；W^m∈R^F'^×F表示权重矩阵，F'为输出维度；

为节点j的位置编码，e_ij为节点i与j之间的注意力权重，Q_i为节点i的邻域，节点t为邻域Q_i内的节点，e_it为节点i与t之间的注意力权重，a表示注意力机制；

式(8)中，m＝1表示单头注意力，m＝2,3,…,M表示多头注意力；

步骤5、将步骤3得到的节点级表征H₁与步骤4得到的基于注意力的位置编码P₁按照维度为1拼接在一起，将节点级表征H₁与基于注意力的位置编码P₂按照维度为1拼接在一起，得到两个融合后的节点级表征H₁'和H'₂，即两个子网络图S₁和S₂的网络表征；两个融合后的节点级表征再经过一个全连接层(MLP)映射为网络图S的网络表征，最终的网络表征的维度映射为与步骤3中编码器的输出维度相同，避免编码器在迭代过程中出现维度爆炸；融合后的节点级表征融合了网络图的结构编码和位置编码，两个融合后的节点级表征作为两个不同的视角对编码器和图注意力网络进行自监督学习。

重复步骤3～5对结构编码器g₁、g₂以及位置编码器进行迭代训练，在训练过程中，将步骤3得到的节点级表征与步骤4得到的基于注意力的位置编码进行解耦，分别计算节点级表征损失和位置编码损失，最后对这两部分的损失进行求和，得到网络图表征的总损失，以此优化结构编码器g₁、g₂以及位置编码器的参数；当网络图表征的总损失最小时，有最优的结构编码器g₁、g₂以及位置编码器，用于后续的节点分类或聚类任务；

采用信息论中的信息瓶颈作为节点级表征部分的损失，旨在丢弃输入网络图中的部分冗余信息；首先，因本发明主要应用于自监督学习领域，以解决标签信息昂贵等问题，因此需要将含有标签信息的信息瓶颈理论扩展至自监督学习领域；运用自监督学习中的对比学习方法，让两个不同视角的子网络图S₁和S₂互为另一个视角的“标签”，从而实现自监督的目的，通过互信息最大化的方式计算损失；此外，为了实现自监督学习任务，还需要获取网络图的全局信息，即图级表征C，因此将融合后的节点级表征通过读出函数

聚合成图级表征，具体而言，C₁、C₂分别为子网络图S₁和S₂的图级表征；

编码器g₁和g₂对应的节点级表征损失R_IB(θ₁)、R_IB(θ₂)如式(9)、(10)所示：

其中，

分别表示编码器g₁和g₂中的两个表征之间的互信息，互信息MI是一种基于香农熵的度量方法，用于衡量两个随机变量之间的依赖程度；β为超参数；

本发明利用JSD互信息估计器估计互信息

的值，因JSD互信息估计器对负样本数量不敏感，故得到的互信息估计值不会因负样本数量而大幅度变化，JSD互信息估计器的表达式为：

其中，H、

分别为正、负样本对应的节点级表征，

分别表示正、负样本的集合空间，负样本是对特征矩阵X进行随机扰动后得到的矩阵；D_ω为判别器，ω判别器的参数，sp表示softplus激活函数；

将式(9)与式(10)先求和再求平均，得到总的节点级表征损失，如式(12)所示；

位置编码损失采用如式(13)所示的拉普拉斯特征损失计算：

其中，f为位置编码P的维度，T表示矩阵转置，I_f表示与位置编码P大小相等的单位矩阵，RW为步骤2中所有节点对应的随机游走算子，λ为大于零的超参数，trace(·)表示矩阵的迹函数，

为Frobenius规范数；

最后，按照式(14)将总的节点级表征损失和位置编码损失进行求和，得到网络图表征的总损失；

L＝L_struct+μL_position(P) (14)

其中，μ为超参数。

仿真试验：

将本方法分别用于节点分类和聚类任务，结构编码器的参数设置包括：采用批次大小为1，每个训练周期的迭代次数为3000，训练周期为20，学习率为0.01，权重衰减为5e-4；位置编码器的参数设置包括：注意力头的个数为4，dropout函数的超参数为0.5，Leaky_ReLU函数的超参数为0.2。

针对不同数据集的参数设置为：对于Cora数据集，a₁＝a₂＝0.8，位置编码器的输出维度为64，结构编码器g₁和g₂的输出维度均为512；对于Citeseer数据集，a₁＝a₂＝0.9，位置编码器的输出维度为64，结构编码器g₁和g₂的输出维度均为512；对于Pubmed数据集，a₁＝a₂＝0.8，位置编码器的输出维度为32，结构编码器g₁和g₂的输出维度均为256。

在相同的试验条件下，将本方法与现有技术中常见的六种无监督网络模型分别用于完成节点分类任务，得到表1所示的准确率统计结果；

表1各模型用于节点分类任务得到的准确率

从表1可知，本方法在Cora和Pubmed数据集上的分类准确率分别提高了0.5个百分点，这是由于对于同构图而言，位置编码有助于区分具有相同邻域的不同类型节点，使得节点分类效果较好；而针对不同的数据集，两个结构编码器和位置编码器都会学习到最佳的参数，自适应不同的数据集。

在相同的试验条件下，将本发明方法与现有技术中常见的七种无监督网络模型分别用于完成节点聚类任务，得到表2所述的统计结果；

表2各模型用于节点聚类任务的结果统计

两种聚类评价指标分别为聚类准确率的平均归一化(NMI)和调兰德指数(ARI)；从表2可知，本方法的聚类性能优于其余模型，这是由于位置编码可以促使距离较远的同类型节点之间的联系更加紧密，进而取得较好的聚类效果。

各个模型的出处为：

[1]Velickovic P,Fedus W,Hamilton W L,et al.Deep Graph Infomax[C]//International Conference on Learning Representations.New Orleans,May 6-9,2019.France:Trans Tech Publications Ltd,2019:10341-103558.

[2]Peng Z,Huang W,Luo M,et al.Graph representation learning viagraphical mutual information maximization[C]//Proceedings of The WebConference 2020.2020:259-270.

[3]Zhu Y,Xu Y,Yu F,et al.Deep graph contrastive representationlearning[J].arXiv preprint arXiv:2006.04131,2020.

[4]Zhu Y,Xu Y,Yu F,et al.Graph contrastive learning with adaptiveaugmentation[C]//Proceedings of the Web Conference 2021.2021:2069-2080.

[5]Mavromatis C,Karypis G.Graph InfoClust:Maximizing Coarse-GrainMutual Information in Graphs[C]//Pacific-Asia Conference on KnowledgeDiscovery and Data Mining.Springer,Cham,2021:541-553.

[6]Hassani K,Khasahmadi A H.Contrastive multi-view representationlearning on graphs[C]//International Conference on Machine Learning.PMLR,2020:4116-4126.

[7]Kipf T N,Welling M.Variational graph auto-encoders[J].arXivpreprint arXiv:1611.07308,2016.[8]Wang C,Pan S,Long G,et al.Mgae:Marginalizedgraph autoencoder for graph clustering[C]//Proceedings of the 2017ACM onConference on Information and Knowledge Management.2017:889-898.

[9]Pan S,Hu R,Long G,et al.Adversarially regularized graphautoencoder for graph embedding[J].arXiv preprint arXiv:1802.04407,2018.

本发明未述及之处适用于现有技术。