CN114037014A - 基于图自编码器的引用网络聚类方法 - Google Patents
基于图自编码器的引用网络聚类方法 Download PDFInfo
- Publication number
- CN114037014A CN114037014A CN202111337446.XA CN202111337446A CN114037014A CN 114037014 A CN114037014 A CN 114037014A CN 202111337446 A CN202111337446 A CN 202111337446A CN 114037014 A CN114037014 A CN 114037014A
- Authority
- CN
- China
- Prior art keywords
- data
- matrix
- encoder
- graph
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于图自编码器的引用网络聚类方法。首先,通过加噪处理获取原始数据对应的负样本;然后,利用编码器获取数据的节点级表征,再利用图池化函数获取图级表征,并利用解码器进行邻接矩阵重构,通过神经网络反向梯度传播,对整体损失函数进行优化,网络达到最优时的表征即为数据的最终表征;最后,通过对数据表征进行谱聚类获得原始数据的聚类结果。本发明充分利用了原始数据与学得的表征间的互信息、学得的表征和图级表征间的互信息,以及图数据的一阶和二阶空间拓扑结构,能够取得更好的聚类效果。
Description
技术领域
本发明属图表征学习技术领域,具体涉及一种基于图自编码器的引用网络聚类方法。
背景技术
近年来,有关图结构数据的应用不断增长,图分析成为热门的研究方向。引用网络是一种图结构的数据,其将学术文献作为图结构数据中的顶点,将文献之间的相互引用关系作为图结构数据中的边。通过这种顶点和边的形式,引用网络展现出整体文献中各个文献的被引水平。图聚类是图分析的一种基本方法,其主要目的是根据图结构数据顶点间的相似程度,将图结构数据中的所有顶点划分为不同的组或类,使得同一类顶点的相似性比不同类顶点间的相似性更大。目前大多数图聚类方法的基本处理过程是:首先采用图表征学习技术对图结构数据进行预处理,然后进行聚类,主要分为以下三类方法:
(1)基于概率模型的方法。这类方法通常将图数据中的节点看作是句子中的单词,通过对图中节点随机进行游走,获得低维图嵌入向量。最具代表性的是Perozzi等人在文献"B.Perozzi,R.Al-Rfou,and S.Skiena.Deepwalk:Online Learning ofSocialRepresentations.in Proceedings of International Conference on KnowledgeDiscovery and Data Mining,2014,pp.701-710"中提出的DeepWalk算法,它利用通过截断随机游走(truncated random walk)学习出一个网络的表示。但该方法没有考虑节点本身的属性,只考虑了图的拓扑结构。
(2)基于矩阵因式分解的方法。这类方法通过对原始数据的特征矩阵进行因式分解,从而得到一个低维的特征矩阵。最具代表性的是X.Wang等人在文献"X.Wang,P.Cui,J.Wang,J.Pei,W.Zhu,and S.Yang.“Community Preserving Network Embedding.inProceedings of AAAI Conference on Artificial Intelligence,vol.33,no.1,2017"提出的M-NMF算法,该方法在学得图表征的时候不仅考虑了图的微观结构,同时还考虑了图数据的介观社区结构。但该方法同样没有考虑节点本身的属性。
(3)基于深度学习的方法。这类方法通过神经网络对原始的图数据进行特征选择。最具代表性的是P.Velickovic等人在文献"P.Velickovic,W.Fedus,W.Hamilton,B.Nadler,P.Liò,Y.Bengio,and R.Hjelm.Deep Graph Infomax.in Proceedings ofInternational Conference on Learning Representations,2019"提出的DGI算法,该方法采用图卷积网络学习图节点的表征,同时考虑了图级和节点级特征之间的互信息。该方法的问题在于没有考虑原始特征和学得的节点级表征间的互信息,且采用了单层图卷积神经网络,没有考虑图中节点的二阶相似性。
发明内容
为了克服现有技术无法同时利用图数据互信息、图中节点属性和图数据拓扑的不足,本发明提供一种基于图自编码器的引用网络聚类方法。首先,通过加噪处理获取原始数据对应的负样本;然后,利用编码器获取数据的节点级表征,再利用图池化函数获取图级表征,并利用解码器进行邻接矩阵重构,通过神经网络反向梯度传播,对整体损失函数进行优化,网络达到最优时的表征即为数据的最终表征;最后,通过对数据表征进行谱聚类获得原始数据的聚类结果。本发明充分利用了原始数据与学得的表征间的互信息、学得的表征和图级表征间的互信息,以及图数据的一阶和二阶空间拓扑结构,能够取得更好的聚类效果。
一种基于图自编码器的引用网络聚类方法,其特征在于步骤如下:
步骤1:输入引用网络数据,并对其进行加噪处理,以输入的原始引用网络数据作为正样本,以加噪后的引用网络数据作为其对应的负样本;
步骤2:分别将正样本数据和负样本数据输入到编码器,获得其对应的节点级表征,所述的编码器为两层图卷积神经网络,按下式进行计算:
其中,H表示获取的节点级表征,表示输入数据带自连的邻接矩阵,按照计算得到,A表示输入引用网络数据的邻接矩阵,矩阵中元素值为0表示引用网络中两个节点不相连,元素值为1表示引用网络中两个节点相连接,I表示和矩阵A大小相同的单位矩阵,其主对角元素为1,其余元素为0,表示带自连的邻接矩阵的度矩阵,其主对角线各元素分别为矩阵的各行元素之和,即i表示矩阵的行序号,j表示矩阵的列序号,l表示编码器的层数序号,H(l)表示编码器第l层卷积神经网络的输入特征,W(l)表示编码器第l层卷积神经网络的权重,l=0时,H(l)=X,X为输入引用网络数据的特征矩阵,σ(·)为激活函数;
步骤4:将编码器输出的节点级表征输入到解码器中,获取重构的邻接矩阵,所述的解码器采用内积形式,按下式进行计算:
A′=σ(HHT) (2)
其中,A′为重构的邻接矩阵;
步骤5:通过神经网络反向梯度传播,对整体损失函数进行优化,直至整体损失达到最小或不再变化,完成网络参数优化,以此时编码器输出的节点级表征作为数据的最终表征;
所述的神经网络为步骤1至步骤4的所有处理和网络;
所述的整体损失函数Ltotal的计算公式如下:
Ltotal=Lencoder+βLdecoder (3)
其中,Lencoder为编码阶段损失函数,Ldecoder为解码阶段损失函数,β为超参数一,取值范围为[0,2];
编码阶段损失函数Lencoder的计算公式为:
Lencoder=L1+αL2 (4)
其中,L1表示局部互信息损失,L2表示全局互信息损失,α为超参数二,取值范围为[0,1];L1和L2的计算公式分别如下:
其中,N表示初始引用网络数据中节点的数量,M表示加噪后引用网络数据中节点的数量,X表示正样本数据的特征矩阵,A表示正样本数据的邻接矩阵,表示负样本数据的特征矩阵,表示负样本数据的邻接矩阵,E(X,A)表示正样本数据的期望,表示负样本数据的期望,表示第i个正样本数据的节点级表征,表示图级表征,表示第j个负样本数据的节点级表征,表示第i个正样本数据的原始特征,表示第j个负样本数据的原始特征,DL(·)表示局部互信息判别器,Wscore是得分矩阵,σ(·)为激活函数,DG(·)表示全局互信息判别器,
解码阶段损失函数Ldecoder的计算公式为:
步骤6:对数据的最终表征进行谱聚类,并以数据表征的聚类结果标签作为其对应数据的聚类标签,得到原始数据的聚类结果。
本发明的有益效果是:由于采用图卷积神经网络形式的编码器,使得表征不仅包含空间拓扑信息,还考虑了节点自身的属性信息;对于中间层的节点级表征,不仅考虑其和图级表征间的互信息,同时考虑其与原始数据间的互信息,且所采用的两层图卷积神经网络能够考虑节点间的二阶相似性信息,更好地保证学得的表征能最大化保留原始数据的判别信息,从而保证取得更好的聚类结果;由于采用谱聚类对所学得的表征进行聚类,对没有服从严格分布的数据也能取得很好的聚类效果。
附图说明
图1是本发明基于图自编码器的引用网络聚类方法流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明,本发明包括但不仅限于下述实施例。
如图1所示,本发明提供了一种基于图自编码器的引用网络聚类方法,其具体实现过程如下:
1、图结构数据预处理
为了得到图结构数据的负样本,以便后续能最大化表征间的互信息,本发明首先对原始图数据进行加噪处理,比如保持原有数据的邻接矩阵不变,同时对特征矩阵成行进行打乱。通过加噪处理,得到了负的图结构数据样本,即以原始数据作为正样本,以加噪后的数据作为其对应的负样本。
2、获取数据的节点级表征
分别将正样本数据和负样本数据输入到编码器,编码器为两层图卷积神经网络,图中的节点能考虑一阶和二阶的相似性信息,从而得到包含空间拓扑信息的节点级低维表征。具体如下式:
其中,H表示获取的节点级表征,表示输入数据带自连的邻接矩阵,按照计算得到,A表示输入引用网络数据的邻接矩阵,矩阵中元素值为0表示引用网络中两个节点不相连,元素值为1表示引用网络中两个节点相连接,I表示和矩阵A大小相同的单位矩阵,其主对角元素为1,其余元素为0,表示带自连的邻接矩阵的度矩阵,其主对角线各元素分别为矩阵的各行元素之和,即i表示矩阵的行序号,j表示矩阵的列序号,l表示编码器的层数序号,H(l)表示编码器第l层卷积神经网络的输入特征,W(l)表示编码器第l层卷积神经网络的权重,l=0时,H(l)=X,X为输入引用网络数据的特征矩阵,σ(·)为激活函数。
3、获取图级表征
4、获取重构的引用网络邻接矩阵
利用解码器进行邻接矩阵的重构操作,即将编码器学到的正样本节点级低维表征输入到解码器中,进而重构出邻接矩阵。本发明的解码器采取内积形式:
A′=σ(HHT) (10)
其中,A′为重构的邻接矩阵。
5、整体优化参数
通过对编码阶段和解码阶段的损失函数进行反向梯度传播,在整体损失逐渐减小的过程中逐步使得网络参数最优,从而学得最好效果的表征。即以步骤1-4的整个过程作为神经网络处理全过程,对整体损失函数进行优化,直至整体损失达到最小或不再变化,完成网络参数优化,以此时编码器输出的节点级表征作为数据的最终表征。
编码阶段损失函数Lencoder的计算公式为:
Lencoder=L1+αL2 (11)
其中,L1表示局部互信息损失,L2表示全局互信息损失,α为超参数二,取值范围为[0,1]。L1和L2的计算公式分别如下:
其中,N表示初始引用网络数据(正样本)中节点的数量,M表示加噪后引用网络数据(负样本)中节点的数量,X表示初始引用网络数据(正样本)的特征矩阵,A表示初始引用网络数据(正样本)的邻接矩阵,表示加噪后引用网络数据(负样本)的特征矩阵,表示加噪后引用网络数据(负样本)的邻接矩阵,E(X,A)表示正样本数据的期望,表示负样本数据的期望,表示第i个正样本数据的节点级表征,表示图级表征,表示第j个负样本数据的节点级表征,表示第i个正样本数据的原始特征,表示第j个负样本数据的原始特征,DL(·)表示局部互信息判别器,是一个双线性函数来对正负样本对打分,其中Wscore是一个可学习的得分矩阵,是的转置,σ(·)为激活函数,DG(·)表示全局互信息判别器,是一个双线性函数来对正负样本对打分,是的转置。
解码阶段损失函数Lencoder的计算公式为:
整体损失函数Ltotal的计算公式如下:
Ltotal=Lencoder+βLdecoder (15)
其中,Lencoder为编码阶段损失函数,Ldecoder为解码阶段损失函数,β为超参数一,取值范围为[0,2]。
6、对学得的表征进行谱聚类
谱聚类对数据的分布没有严格要求,其通过衡量数据间的距离来得到相似矩阵。因此,对数据的最终表征进行谱聚类,并以数据表征的聚类结果标签作为其对应数据的聚类标签,得到原始数据的聚类结果。
为验证本发明方法的有效性,在中央处理器为i7-10700F 2.90GHz CPU、内存16G、WINDOWS 10操作系统上以及TiTan RTX,运用PYCHARM软件进行仿真实验。实验中使用三种公开的数据集,分别是Cora,Citeseer,Pubmed数据库的引用网络数据。实验分别选择K-means方法、DNGR方法、GAE方法、ARGA_AX方法、DBGAN方法作为对比方法。其中,K-means方法是文献"S.Lloyd.Least Squares Quantization in Pcm.IEEE Transactions onInformation Theory,pp.129–137,1982."提出的方法;DNGR方法是文献"S.Cao,W.Lu,andQ.Xu.Deep Neural Networks for Learning Graph Representations.in Proceedingsof AAAI Conference on Artificial Intelligence,2016."提出的方法;GAE方法是文献"T.Kipf and M.Welling.Semi-supervised Classification with Graph ConvolutionalNetworks.arXiv preprint arXiv:1609.02907,2016."中提出的方法;ARGA_AX方法是文献"S.Pan,R.Hu,S.Fung,G.Long,J.Jiang,and C.Zhang.Learning Graph Embedding wihAdversarial Training Methods.IEEE Transactions on Cybernetics,pp.2475-2487,2020."中提出的方法;DBGAN方法是文献"S.Zheng,Z.Zhu,X.Zhang,Z.Liu,J.Cheng,andY.Zhao.Distribution-induced Bidirectional Generative Adversarial Network forGraph Representation Learning.In Proceedings ofIEEE Conference on ComputerVision and Pattern Recognition,2020,pp.7222-7231."中提出的方法。
分别计算精准度ACC、归一化互信息NMI和调整兰德指数ARI作为不同方法聚类结果的评价指标,具体如表1所示。可以看出,在Citeseer数据集上本发明方法在ACC、NMI、ARI指标上均优于其他方法;在Cora数据集上,DBGAN的ARI略高,但ACC与NMI均低于本发明方法;在Pubmed数据集上,本发明方法的NMI优于其他方法,DBGAN的ACC和ARI略高。总体来看,本发明方法具有较好的聚类效果。
表1
Claims (1)
1.一种基于图自编码器的引用网络聚类方法,其特征在于步骤如下:
步骤1:输入引用网络数据,并对其进行加噪处理,以输入的原始引用网络数据作为正样本,以加噪后的引用网络数据作为其对应的负样本;
步骤2:分别将正样本数据和负样本数据输入到编码器,获得其对应的节点级表征,所述的编码器为两层图卷积神经网络,按下式进行计算:
其中,H表示获取的节点级表征,表示输入数据带自连的邻接矩阵,按照计算得到,A表示输入引用网络数据的邻接矩阵,矩阵中元素值为0表示引用网络中两个节点不相连,元素值为1表示引用网络中两个节点相连接,I表示和矩阵A大小相同的单位矩阵,其主对角元素为1,其余元素为0,表示带自连的邻接矩阵的度矩阵,其主对角线各元素分别为矩阵的各行元素之和,即i表示矩阵的行序号,j表示矩阵的列序号,l表示编码器的层数序号,H(l)表示编码器第l层卷积神经网络的输入特征,W(l)表示编码器第l层卷积神经网络的权重,l=0时,H(l)=X,X为输入引用网络数据的特征矩阵,σ(·)为激活函数;
步骤4:将编码器输出的节点级表征输入到解码器中,获取重构的邻接矩阵,所述的解码器采用内积形式,按下式进行计算:
A′=σ(HHT) (2)
其中,A′为重构的邻接矩阵;
步骤5:通过神经网络反向梯度传播,对整体损失函数进行优化,直至整体损失达到最小或不再变化,完成网络参数优化,以此时编码器输出的节点级表征作为数据的最终表征;
所述的神经网络为步骤1至步骤4的所有处理和网络;
所述的整体损失函数Ltotal的计算公式如下:
Ltotal=Lencoder+βLdecoder (3)
其中,Lencoder为编码阶段损失函数,Ldecoder为解码阶段损失函数,β为超参数一,取值范围为[0,2];
编码阶段损失函数Lencoder的计算公式为:
Lencoder=L1+αL2 (4)
其中,L1表示局部互信息损失,L2表示全局互信息损失,α为超参数二,取值范围为[0,1];L1和L2的计算公式分别如下:
其中,N表示初始引用网络数据中节点的数量,M表示加噪后引用网络数据中节点的数量,X表示正样本数据的特征矩阵,A表示正样本数据的邻接矩阵,表示负样本数据的特征矩阵,表示负样本数据的邻接矩阵,E(X,A)表示正样本数据的期望,表示负样本数据的期望,表示第i个正样本数据的节点级表征,表示图级表征,表示第j个负样本数据的节点级表征,表示第i个正样本数据的原始特征,表示第j个负样本数据的原始特征,DL(·)表示局部互信息判别器,Wscore是得分矩阵,σ(·)为激活函数,DG(·)表示全局互信息判别器,
解码阶段损失函数Ldecoder的计算公式为:
步骤6:对数据的最终表征进行谱聚类,并以数据表征的聚类结果标签作为其对应数据的聚类标签,得到原始数据的聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111337446.XA CN114037014A (zh) | 2021-11-08 | 2021-11-08 | 基于图自编码器的引用网络聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111337446.XA CN114037014A (zh) | 2021-11-08 | 2021-11-08 | 基于图自编码器的引用网络聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114037014A true CN114037014A (zh) | 2022-02-11 |
Family
ID=80144092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111337446.XA Pending CN114037014A (zh) | 2021-11-08 | 2021-11-08 | 基于图自编码器的引用网络聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114037014A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114817578A (zh) * | 2022-06-29 | 2022-07-29 | 北京邮电大学 | 科技论文引用关系表示学习方法、系统及存储介质 |
CN116304367A (zh) * | 2023-02-24 | 2023-06-23 | 河北师范大学 | 基于图自编码器自监督训练用于获得社区的算法及装置 |
-
2021
- 2021-11-08 CN CN202111337446.XA patent/CN114037014A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114817578A (zh) * | 2022-06-29 | 2022-07-29 | 北京邮电大学 | 科技论文引用关系表示学习方法、系统及存储介质 |
CN114817578B (zh) * | 2022-06-29 | 2022-09-09 | 北京邮电大学 | 科技论文引用关系表示学习方法、系统及存储介质 |
CN116304367A (zh) * | 2023-02-24 | 2023-06-23 | 河北师范大学 | 基于图自编码器自监督训练用于获得社区的算法及装置 |
CN116304367B (zh) * | 2023-02-24 | 2023-12-01 | 河北师范大学 | 基于图自编码器自监督训练用于获得社区的算法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2020104006A4 (en) | Radar target recognition method based on feature pyramid lightweight convolutional neural network | |
CN109271522B (zh) | 基于深度混合模型迁移学习的评论情感分类方法及系统 | |
CN107622182B (zh) | 蛋白质局部结构特征的预测方法及系统 | |
CN112417219B (zh) | 基于超图卷积的超边链接预测方法 | |
CN111785329B (zh) | 基于对抗自动编码器的单细胞rna测序聚类方法 | |
CN113157957A (zh) | 一种基于图卷积神经网络的属性图文献聚类方法 | |
CN113693563B (zh) | 一种基于超图注意力网络的脑功能网络分类方法 | |
CN111460818B (zh) | 一种基于增强胶囊网络的网页文本分类方法及存储介质 | |
CN109214503B (zh) | 基于kpca-la-rbm的输变电工程造价预测方法 | |
CN114037014A (zh) | 基于图自编码器的引用网络聚类方法 | |
Badawi et al. | A hybrid memetic algorithm (genetic algorithm and great deluge local search) with back-propagation classifier for fish recognition | |
CN111899882A (zh) | 一种预测癌症的方法及系统 | |
WO2023217290A1 (zh) | 基于图神经网络的基因表型预测 | |
Mohammadi et al. | Improving linear discriminant analysis with artificial immune system-based evolutionary algorithms | |
CN110993037A (zh) | 一种基于多视图分类模型的蛋白质活性预测装置 | |
CN116403730A (zh) | 一种基于图神经网络的药物相互作用预测方法及系统 | |
CN115761275A (zh) | 一种基于图神经网络的无监督社区发现方法及系统 | |
CN116304367B (zh) | 基于图自编码器自监督训练用于获得社区的算法及装置 | |
CN116152554A (zh) | 基于知识引导的小样本图像识别系统 | |
CN115841607A (zh) | 一种基于图注意力网络的脑网络结构和相似度的联合学习方法 | |
CN114999635A (zh) | 一种基于图卷积神经网络和node2vec的circRNA-疾病关联关系预测方法 | |
CN114880538A (zh) | 基于自监督的属性图社团检测方法 | |
Padole et al. | Graph wavelet-based multilevel graph coarsening and its application in graph-CNN for alzheimer’s disease detection | |
CN114819056A (zh) | 一种基于域对抗和变分推断的单细胞数据整合方法 | |
CN109492770A (zh) | 一种基于个性化关系排序的属性网络嵌入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |