CN114037014A

CN114037014A - 基于图自编码器的引用网络聚类方法

Info

Publication number: CN114037014A
Application number: CN202111337446.XA
Authority: CN
Inventors: 王�琦; 张育超; 袁媛
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-11-08
Filing date: 2021-11-08
Publication date: 2022-02-11

Abstract

本发明提供了一种基于图自编码器的引用网络聚类方法。首先，通过加噪处理获取原始数据对应的负样本；然后，利用编码器获取数据的节点级表征，再利用图池化函数获取图级表征，并利用解码器进行邻接矩阵重构，通过神经网络反向梯度传播，对整体损失函数进行优化，网络达到最优时的表征即为数据的最终表征；最后，通过对数据表征进行谱聚类获得原始数据的聚类结果。本发明充分利用了原始数据与学得的表征间的互信息、学得的表征和图级表征间的互信息，以及图数据的一阶和二阶空间拓扑结构，能够取得更好的聚类效果。

Description

基于图自编码器的引用网络聚类方法

技术领域

本发明属图表征学习技术领域，具体涉及一种基于图自编码器的引用网络聚类方法。

背景技术

近年来，有关图结构数据的应用不断增长，图分析成为热门的研究方向。引用网络是一种图结构的数据，其将学术文献作为图结构数据中的顶点，将文献之间的相互引用关系作为图结构数据中的边。通过这种顶点和边的形式，引用网络展现出整体文献中各个文献的被引水平。图聚类是图分析的一种基本方法，其主要目的是根据图结构数据顶点间的相似程度，将图结构数据中的所有顶点划分为不同的组或类，使得同一类顶点的相似性比不同类顶点间的相似性更大。目前大多数图聚类方法的基本处理过程是：首先采用图表征学习技术对图结构数据进行预处理，然后进行聚类，主要分为以下三类方法：

(1)基于概率模型的方法。这类方法通常将图数据中的节点看作是句子中的单词，通过对图中节点随机进行游走，获得低维图嵌入向量。最具代表性的是Perozzi等人在文献"B.Perozzi,R.Al-Rfou,and S.Skiena.Deepwalk:Online Learning ofSocialRepresentations.in Proceedings of International Conference on KnowledgeDiscovery and Data Mining,2014,pp.701-710"中提出的DeepWalk算法，它利用通过截断随机游走(truncated random walk)学习出一个网络的表示。但该方法没有考虑节点本身的属性，只考虑了图的拓扑结构。

(2)基于矩阵因式分解的方法。这类方法通过对原始数据的特征矩阵进行因式分解，从而得到一个低维的特征矩阵。最具代表性的是X.Wang等人在文献"X.Wang,P.Cui,J.Wang,J.Pei,W.Zhu,and S.Yang.“Community Preserving Network Embedding.inProceedings of AAAI Conference on Artificial Intelligence,vol.33,no.1,2017"提出的M-NMF算法，该方法在学得图表征的时候不仅考虑了图的微观结构，同时还考虑了图数据的介观社区结构。但该方法同样没有考虑节点本身的属性。

(3)基于深度学习的方法。这类方法通过神经网络对原始的图数据进行特征选择。最具代表性的是P.Velickovic等人在文献"P.Velickovic,W.Fedus,W.Hamilton,B.Nadler,P.Liò,Y.Bengio,and R.Hjelm.Deep Graph Infomax.in Proceedings ofInternational Conference on Learning Representations,2019"提出的DGI算法，该方法采用图卷积网络学习图节点的表征，同时考虑了图级和节点级特征之间的互信息。该方法的问题在于没有考虑原始特征和学得的节点级表征间的互信息，且采用了单层图卷积神经网络，没有考虑图中节点的二阶相似性。

发明内容

为了克服现有技术无法同时利用图数据互信息、图中节点属性和图数据拓扑的不足，本发明提供一种基于图自编码器的引用网络聚类方法。首先，通过加噪处理获取原始数据对应的负样本；然后，利用编码器获取数据的节点级表征，再利用图池化函数获取图级表征，并利用解码器进行邻接矩阵重构，通过神经网络反向梯度传播，对整体损失函数进行优化，网络达到最优时的表征即为数据的最终表征；最后，通过对数据表征进行谱聚类获得原始数据的聚类结果。本发明充分利用了原始数据与学得的表征间的互信息、学得的表征和图级表征间的互信息，以及图数据的一阶和二阶空间拓扑结构，能够取得更好的聚类效果。

一种基于图自编码器的引用网络聚类方法，其特征在于步骤如下：

步骤1：输入引用网络数据，并对其进行加噪处理，以输入的原始引用网络数据作为正样本，以加噪后的引用网络数据作为其对应的负样本；

步骤2：分别将正样本数据和负样本数据输入到编码器，获得其对应的节点级表征，所述的编码器为两层图卷积神经网络，按下式进行计算：

其中，H表示获取的节点级表征，

表示输入数据带自连的邻接矩阵，按照

计算得到，A表示输入引用网络数据的邻接矩阵，矩阵中元素值为0表示引用网络中两个节点不相连，元素值为1表示引用网络中两个节点相连接，I表示和矩阵A大小相同的单位矩阵，其主对角元素为1，其余元素为0，

表示带自连的邻接矩阵

的度矩阵，其主对角线各元素分别为矩阵

的各行元素之和，即

i表示矩阵

的行序号，j表示矩阵

的列序号，l表示编码器的层数序号，H^(l)表示编码器第l层卷积神经网络的输入特征，W^(l)表示编码器第l层卷积神经网络的权重，l＝0时，H^(l)＝X，X为输入引用网络数据的特征矩阵，σ(·)为激活函数；

步骤3：采用平均图池化函数

对正样本数据的节点级表征H进行处理，获取其图级表征

即

步骤4：将编码器输出的节点级表征输入到解码器中，获取重构的邻接矩阵，所述的解码器采用内积形式，按下式进行计算：

A′＝σ(HH^T) (2)

其中，A′为重构的邻接矩阵；

步骤5：通过神经网络反向梯度传播，对整体损失函数进行优化，直至整体损失达到最小或不再变化，完成网络参数优化，以此时编码器输出的节点级表征作为数据的最终表征；

所述的神经网络为步骤1至步骤4的所有处理和网络；

所述的整体损失函数L_total的计算公式如下：

L_total＝L_encoder+βL_decoder (3)

其中，L_encoder为编码阶段损失函数，L_decoder为解码阶段损失函数，β为超参数一，取值范围为[0,2]；

编码阶段损失函数L_encoder的计算公式为：

L_encoder＝L₁+αL₂ (4)

其中，L₁表示局部互信息损失，L₂表示全局互信息损失，α为超参数二，取值范围为[0,1]；L₁和L₂的计算公式分别如下：

其中，N表示初始引用网络数据中节点的数量，M表示加噪后引用网络数据中节点的数量，X表示正样本数据的特征矩阵，A表示正样本数据的邻接矩阵，

表示负样本数据的特征矩阵，

表示负样本数据的邻接矩阵，E_(X,A)表示正样本数据的期望，

表示负样本数据的期望，

表示第i个正样本数据的节点级表征，

表示图级表征，

表示第j个负样本数据的节点级表征，

表示第i个正样本数据的原始特征，

表示第j个负样本数据的原始特征，D_L(·)表示局部互信息判别器，

W_score是得分矩阵，σ(·)为激活函数，D_G(·)表示全局互信息判别器，

解码阶段损失函数L_decoder的计算公式为：

其中，y_ij是正样本数据的邻接矩阵A的第i行第j列节点的值，

是重构的邻接矩阵A′的第i行第j列节点的值；

步骤6：对数据的最终表征进行谱聚类，并以数据表征的聚类结果标签作为其对应数据的聚类标签，得到原始数据的聚类结果。

本发明的有益效果是：由于采用图卷积神经网络形式的编码器，使得表征不仅包含空间拓扑信息，还考虑了节点自身的属性信息；对于中间层的节点级表征，不仅考虑其和图级表征间的互信息，同时考虑其与原始数据间的互信息，且所采用的两层图卷积神经网络能够考虑节点间的二阶相似性信息，更好地保证学得的表征能最大化保留原始数据的判别信息，从而保证取得更好的聚类结果；由于采用谱聚类对所学得的表征进行聚类，对没有服从严格分布的数据也能取得很好的聚类效果。

附图说明

图1是本发明基于图自编码器的引用网络聚类方法流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明提供了一种基于图自编码器的引用网络聚类方法，其具体实现过程如下：

1、图结构数据预处理

为了得到图结构数据的负样本，以便后续能最大化表征间的互信息，本发明首先对原始图数据进行加噪处理，比如保持原有数据的邻接矩阵不变，同时对特征矩阵成行进行打乱。通过加噪处理，得到了负的图结构数据样本，即以原始数据作为正样本，以加噪后的数据作为其对应的负样本。

2、获取数据的节点级表征

分别将正样本数据和负样本数据输入到编码器，编码器为两层图卷积神经网络，图中的节点能考虑一阶和二阶的相似性信息，从而得到包含空间拓扑信息的节点级低维表征。具体如下式：

其中，H表示获取的节点级表征，

表示输入数据带自连的邻接矩阵，按照

表示带自连的邻接矩阵

的度矩阵，其主对角线各元素分别为矩阵

的各行元素之和，即

i表示矩阵

的行序号，j表示矩阵

的列序号，l表示编码器的层数序号，H^(l)表示编码器第l层卷积神经网络的输入特征，W^(l)表示编码器第l层卷积神经网络的权重，l＝0时，H^(l)＝X，X为输入引用网络数据的特征矩阵，σ(·)为激活函数。

3、获取图级表征

利用学到的正样本的节点级表征，进行图级表征的获取，具体是采用一个平均图池化函数

来对节点级表征进行图池化：

其中，

即为图级表征。

4、获取重构的引用网络邻接矩阵

利用解码器进行邻接矩阵的重构操作，即将编码器学到的正样本节点级低维表征输入到解码器中，进而重构出邻接矩阵。本发明的解码器采取内积形式：

A′＝σ(HH^T) (10)

其中，A′为重构的邻接矩阵。

5、整体优化参数

通过对编码阶段和解码阶段的损失函数进行反向梯度传播，在整体损失逐渐减小的过程中逐步使得网络参数最优，从而学得最好效果的表征。即以步骤1-4的整个过程作为神经网络处理全过程，对整体损失函数进行优化，直至整体损失达到最小或不再变化，完成网络参数优化，以此时编码器输出的节点级表征作为数据的最终表征。

编码阶段损失函数L_encoder的计算公式为：

L_encoder＝L₁+αL₂ (11)

其中，L₁表示局部互信息损失，L₂表示全局互信息损失，α为超参数二，取值范围为[0,1]。L₁和L₂的计算公式分别如下：

其中，N表示初始引用网络数据(正样本)中节点的数量，M表示加噪后引用网络数据(负样本)中节点的数量，X表示初始引用网络数据(正样本)的特征矩阵，A表示初始引用网络数据(正样本)的邻接矩阵，

表示加噪后引用网络数据(负样本)的特征矩阵，

表示加噪后引用网络数据(负样本)的邻接矩阵，E_(X,A)表示正样本数据的期望，

表示负样本数据的期望，

表示第i个正样本数据的节点级表征，

表示图级表征，

表示第j个负样本数据的节点级表征，

表示第i个正样本数据的原始特征，

表示第j个负样本数据的原始特征，D_L(·)表示局部互信息判别器，是一个双线性函数

来对正负样本对打分，其中W_score是一个可学习的得分矩阵，

是

的转置，σ(·)为激活函数，D_G(·)表示全局互信息判别器，是一个双线性函数

来对正负样本对打分，

是

的转置。

解码阶段损失函数L_encoder的计算公式为：

其中，y_ij是初始引用网络数据(正样本)的邻接矩阵A的第i行第j列节点的值(0或1)，

是重构的引用网络数据邻接矩阵A′中相应第i行第j列节点的值(0到1之间)。

整体损失函数L_total的计算公式如下：

L_total＝L_encoder+βL_decoder (15)

其中，L_encoder为编码阶段损失函数，L_decoder为解码阶段损失函数，β为超参数一，取值范围为[0,2]。

6、对学得的表征进行谱聚类

谱聚类对数据的分布没有严格要求，其通过衡量数据间的距离来得到相似矩阵。因此，对数据的最终表征进行谱聚类，并以数据表征的聚类结果标签作为其对应数据的聚类标签，得到原始数据的聚类结果。

为验证本发明方法的有效性，在中央处理器为

i7-10700F 2.90GHz CPU、内存16G、WINDOWS 10操作系统上以及TiTan RTX，运用PYCHARM软件进行仿真实验。实验中使用三种公开的数据集，分别是Cora,Citeseer,Pubmed数据库的引用网络数据。实验分别选择K-means方法、DNGR方法、GAE方法、ARGA_AX方法、DBGAN方法作为对比方法。其中，K-means方法是文献"S.Lloyd.Least Squares Quantization in Pcm.IEEE Transactions onInformation Theory,pp.129–137,1982."提出的方法；DNGR方法是文献"S.Cao,W.Lu,andQ.Xu.Deep Neural Networks for Learning Graph Representations.in Proceedingsof AAAI Conference on Artificial Intelligence,2016."提出的方法；GAE方法是文献"T.Kipf and M.Welling.Semi-supervised Classification with Graph ConvolutionalNetworks.arXiv preprint arXiv:1609.02907,2016."中提出的方法；ARGA_AX方法是文献"S.Pan,R.Hu,S.Fung,G.Long,J.Jiang,and C.Zhang.Learning Graph Embedding wihAdversarial Training Methods.IEEE Transactions on Cybernetics,pp.2475-2487,2020."中提出的方法；DBGAN方法是文献"S.Zheng,Z.Zhu,X.Zhang,Z.Liu,J.Cheng,andY.Zhao.Distribution-induced Bidirectional Generative Adversarial Network forGraph Representation Learning.In Proceedings ofIEEE Conference on ComputerVision and Pattern Recognition,2020,pp.7222-7231."中提出的方法。

分别计算精准度ACC、归一化互信息NMI和调整兰德指数ARI作为不同方法聚类结果的评价指标，具体如表1所示。可以看出，在Citeseer数据集上本发明方法在ACC、NMI、ARI指标上均优于其他方法；在Cora数据集上，DBGAN的ARI略高，但ACC与NMI均低于本发明方法；在Pubmed数据集上，本发明方法的NMI优于其他方法，DBGAN的ACC和ARI略高。总体来看，本发明方法具有较好的聚类效果。

表1