CN113505849A - 一种基于对比学习的多层网络聚类方法 - Google Patents

一种基于对比学习的多层网络聚类方法 Download PDF

Info

Publication number
CN113505849A
CN113505849A CN202110849386.3A CN202110849386A CN113505849A CN 113505849 A CN113505849 A CN 113505849A CN 202110849386 A CN202110849386 A CN 202110849386A CN 113505849 A CN113505849 A CN 113505849A
Authority
CN
China
Prior art keywords
graph
network
data
learning
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110849386.3A
Other languages
English (en)
Other versions
CN113505849B (zh
Inventor
康昭
潘尔林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110849386.3A priority Critical patent/CN113505849B/zh
Publication of CN113505849A publication Critical patent/CN113505849A/zh
Application granted granted Critical
Publication of CN113505849B publication Critical patent/CN113505849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于对比学习的多层网络聚类方法,解决了现有技术中的聚类方法难以同时利用网络节点属性和拓扑图信息、存在高频噪声、聚类准确率较低的问题。本发明包括以下步骤:S1.对原始的多层网络数据进行图滤波,得到图滤波后的数据;S2.基于图滤波得到的数据,利用数据的自表达性质的得到多个自表达图,再通过权重分配机制得到一致图Z;S3.为一致图Z构建图对比正则化项,在一致图Z上进行图对比学习;S4.在完成图对比学习的一致图Z上进行K‑means聚类得到最后的聚类结果。本发明相比于单网络方法聚类效果更好,远超15%;同时利用网络节点属性和拓扑图信息,消除高频噪声,提高聚类准确率。

Description

一种基于对比学习的多层网络聚类方法
技术领域
本发明属于数据信息处理技术领域,具体涉及一种基于对比学习的多层网络聚类方法。
背景技术
聚类是无监督学习的重要研究领域,处理的是无标签数据,目的是将相似的样本聚为一簇。所有聚类方法的主要目标是将未标记的相似对象的集合划分为多个类别,并且在过去的几十年中已经提出了大量的聚类方法。经典聚类方法包括K-means谱聚类等。但是,某些基于相似性度量的常规聚类方法,例如K-means及其改进的方法,由于其计算复杂度高,在高维和大规模数据集上的性能较差。而有些方法不适合非欧几何的数据。非欧几何的数据指的就是那些分布不符合欧式空间准则的数据,例如曲面分布的数据、图结构的数据等。诸如海量的社交网络数据、生物大分子、销售网络、文献引用网络等都是经典的网络结构数据。对于这些非欧几何的数据应用传统的聚类算法性能不佳。
多层网络是指网络的节点可以由不同类型的边连接起来,每一种边都被编码在不同的层中。每个网络都可以表示为一个图,图中每个节点都有它本身的信息,同时节点之间的各种关系又会形成结构信息,这两者信息结合才是完整的网络结构数据。也就表示多层网络,不仅仅有多重属性,还存在多个图结构。
为了直接处理多层网络数据,可扩展的多层网络嵌入方法(MNE,一种可扩展的多层网络嵌入模型)通过统一的网络嵌入框架学习多种特征表示;多层网络嵌入(PMNE)提出了三种策略(“网络聚合”、“结果聚合”和“层协同分析”)将多层网络投影到连续向量空间中。然而,他们未能在处理网络的结构信息的同时利用特征信息。
最近,基于GCN,图自动编码器聚类(O2MA)框架和用于聚类的多视图属性图卷积网络(MAGCN)在图聚类上取得了卓越的性能。O2MA引入了一种图自动编码器,基于一个信息丰富的基础网络学习所有节点的特征嵌入并重建所有网络。由于O2MA利用模块方法选择的信息丰富的网络,学习得到特征表示可能是不完整的。MAGCN利用所有网络的完整信息,并通过驱使不同网络的特征表示尽可能相似,以此来实现多层网络的学习。然而O2MA的目标是处理多个网络结构图,而MAGCN主要解决网络图中的属性数据。它们不能直接适用于多层网络(包括多个结构图和多个节点属性)聚类任务。
对比学习是一种特征表示学习方法,思想是拉近正样本的距离,驱离负样本。这一点思想与聚类主旨十分接近,可以考虑通过对比学习减小聚类集群内的差异性,提高聚类性能。但是目前的对比学习方法没有针对网络数据进行研究,更多的是只对特征进行操作,没有关注拓扑结构,也没有在图级别的对比学习。
发明内容
针对现有技术中的聚类方法难以同时利用网络节点属性和拓扑图信息、存在高频噪声、聚类准确率较低的问题,本发明提供一种基于对比学习的多层网络聚类方法,其目的在于:同时利用网络节点属性和拓扑图信息,消除高频噪声,提高聚类准确率。
本发明采用的技术方案如下:
1.一种基于对比学习的多层网络聚类方法,包括以下步骤:
S1:对原始的多层网络数据进行图滤波,得到图滤波后的数据;
其中,所述的多层网络数据包括论文网络、作者网络、电影网络和亚马逊购物网络数据;
S2:基于图滤波得到的数据,利用数据的自表达性质的得到多个自表达图,再通过权重分配机制得到一致图Z;
S3:为一致图Z构建图对比正则化项,在一致图Z上进行图对比学习,得到具有更好的聚类亲和性的图Z;
S4、在完成图对比学习的一致图Z上进行K-means聚类得到最后的聚类结果。
优选的,步骤S1具体包括以下步骤:
S11:将包含V层网络的网络数据转化为包含属性节点和多个拓扑结构的图结构数据,表示为图
Figure BDA0003181812440000031
其中ν为N个节点集合;
Figure BDA0003181812440000032
Figure BDA0003181812440000033
表示网络v上节点的特征矩阵;
Figure BDA0003181812440000034
是数据不同网络图各自的邻接矩阵;
S12:通过对图结构数据的计算,得到不同网络v的拉普拉斯矩阵Lv=Dv-Av,其中
Figure BDA0003181812440000035
表示对邻接矩阵标准化,
Figure BDA0003181812440000036
是不同网络图的度矩阵,I是单位矩阵;
S13:将拉普拉斯矩阵和特征矩阵带入图滤波公式
Figure BDA0003181812440000037
得到图滤波后的属性数据H;
S14:对所有网络完成图滤波后,得到滤波后的网络数据
Figure BDA0003181812440000038
Figure BDA0003181812440000039
优选的,步骤S2利用数据的自表达性质的得到多个自表达图,再通过权重分配机制得到一致图Z具体包括以下步骤:
首先,自表达性质是指:属于同一数据流的数据在同一子空间内,每个数据点可以表示为其他数据点的线性组合,将线性组合的参数矩阵视作一个图矩阵。利用这个性质可以借由以下步骤得到一致图:
S21:利用数据的自表达性质处理滤波后的网络数据的特征矩阵H1,…,HV,得到自表达图Z1,…,ZV
S22:通过权重分配机制处理所有网络数据得到的自表达图Z1,…,ZV,得到总的一致图Z。
优选的,步骤S21中,利用数据的自表达性质获得自表达图通过求解以下目标函数得到:
Figure BDA0003181812440000041
其中上标T为转置运算符;其中||·||F表示平方费森尤斯范数;
Figure BDA0003181812440000042
表示当函数最小时满足的变量ZV取值;第一项
Figure BDA0003181812440000043
是一个重构损失,目的是保证自表达图ZV要保留数据H的特性;第二项
Figure BDA0003181812440000044
是正则化项,可以避免过拟合;α>0是一个平衡参数,目的是平衡目标函数中的第一、二项权重。通过求解此目标函数,得到单个网络上的自表达图矩阵ZV
在步骤S22中,考虑到不同网络的自表达图ZV不同,这会导致不同网络的聚类结果不同。对于多层网络,应当注意到每个网络在参与构建一致图时具有不同权重。
优选的,每个网络的权重由下式确定:
Figure BDA0003181812440000045
式中λv表示网络v的权重因子;
Figure BDA0003181812440000046
为平滑项,用于自适应更新不同网络的权重,通过求解此目标函数,得到多层网络的一致图Z。
优选的,步骤S3中的图对比正则化项为:
Figure BDA0003181812440000047
式中
Figure BDA0003181812440000051
为网络v中节点i的最近邻的集合。log表示底数为e的对数运算,exp表示底数为e的指数运算。本发明通过图对比学习减小同一聚类集群内的差异性,提高聚类性能。通过图对比学习,得到一个更具聚类亲和性的新图Z。
优选的,结合S2和S3步骤,对一致图进行图对比学习后得到的模型目标函数为:
Figure BDA0003181812440000052
通过求解本目标函数,得到各网络的权重λv和具有很好聚类亲和性的一致图Z。之后S4步骤中,只需要将Z作为输入带进K-means聚类即可输出聚类结果。
优选的,得到所述模型目标函数后,采用交替优化的方法对模型进行优化,具体优化步骤如下:
S3.1:固定λv,更新Z,λv的初始值为1;
转化为求解以下目标函数:
Figure BDA0003181812440000053
使用梯度下降和Adam算法求解Z;
S3.2:固定Z,更新λv
转化为求解以下目标函数:
Figure BDA0003181812440000054
其中
Figure BDA0003181812440000055
令该目标函数对λv导数为零,求得λv的值:
Figure BDA0003181812440000061
优选的,步骤S3.1中,对于迭代次数t,可以求解得到梯度:
Figure BDA0003181812440000062
Figure BDA0003181812440000063
Figure BDA0003181812440000064
其中
Figure BDA0003181812440000065
n为近邻的数量,利用梯度下降一直更新,直到该目标函数收敛或者满足停止条件为止。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明在多层网络中提取一致性信息,相比于LINE和GAE等单网络方法聚类效果更好,远超15%;
2.本发明同时融合多层网络的节点特征和拓扑结构信息,相比PMNE、RMSC、SwMC等多层网络聚类方法有着非常明显的提升,最少也有2%(DBLP)提升。
3.本发明相较于深度方法O2MA和O2MAC、MAGCN、COMPLETER和MVGRL等,直接对数据处理,运用了图对比损失,在Amazon数据集上高达20%以上提升。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明的模型示意图;
图2为本发明的流程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合图1-2对本发明作详细说明。
对于本实施例中的图节点聚类问题,该问题可以描述为:
将多层网络数据表示为图
Figure BDA0003181812440000071
节点的数目为N,多层网络内包含不同的网络数量为V;其中ν为N个节点的集合;根据节点之间是否有边,
Figure BDA0003181812440000072
为不同网络的邻接矩阵,
Figure BDA0003181812440000073
是不同网络的度矩阵,其中
Figure BDA0003181812440000074
Figure BDA0003181812440000075
图上每个节点都会有自身的属性,
Figure BDA0003181812440000076
表示网络v上节点的属性特征矩阵。网络图聚类(节点聚类)指的是利用拓扑图(例如邻接矩阵)和节点本身的属性信息对节点进行聚类操作,将相似的那些节点聚类到同一个集群中去。假设图中共有C类节点,那么聚类之后图上应该把N个节点分到C中集群中。
如图1模型图所示,本发明模型主要包括图滤波、一致图生成、图对比学习和K-means聚类四个模块。
所述图滤波利用了数据的拓扑信息(邻接矩阵)和属性特征(特征矩阵),得到平滑的特征(即祛除了噪音点);人工收集的数据或者原始数据本身存在一些与整体数据偏离的数据点,这些就是噪音点。噪音点会降低聚类性能。以此图滤波可以提高聚类性能。所述一致图生成模块利用平滑的数据点,通过数据的自表达性质,得到了一个一致图。所述的图对比学习模块基于得到的一致图,在图上进行对比学习,得到一个更具聚类亲和性的一致图。所述K-means聚类模块在最终得到的一致图上聚类将图上的点分配到不同集群中。
如图2流程图所示,一种基于对比学习的多层网络聚类方法包括以下步骤:
S1、对原始的多层网络数据X1,…,XV进行图滤波,减少数据中的高频噪声,得到图滤波后的数据H1,…,HV
其中,所述图聚类数据集包括ACM、DBLP、IMDB、Amazon photo和Amazon computer数据集。
S2、基于图滤波后数据H1,…,HV,利用它们的自表达性质的得到多个自表达图Z1,…,ZV,再通过权重分配机制得到一致图Z;
S3、为一致图Z构建图对比正则化项,在图Z上进行图对比学习,得到具有更好的聚类亲和性的一致图Z;
S4、在完成图对比学习的一致图Z上进行K-means聚类,得到最后的聚类结果。
其中S1所用的基准多层网络数据集情况如下:
ACM:ACM数据集是一个源于ACM论文的网络数据集,节点属性特征是代表每篇论文关键词的词袋编码,其中有两个网络图(Graph)。这两张图表由两种类型的关系构成:“Co-Author”指的是同一作者所写的两篇论文,而“Co-subject”则表示两篇论文研究的是同一领域。
DBLP:它是来自DBLP数据集的作者网络。节点属性代表每个作者的关键词的词袋编码。其中三个关系构成了三个网络图:“Co-paper”,“Co-conference”和“Co-terms”,表示两个作者已经共著一篇论文、在同一会议上发表论文和发表了相同领域的论文。
IMDB:它是IMDB数据集中的电影网络。节点属性特征对应于表示每个电影的词袋元素。由同一个演员(“Co-Actor”)扮演并由同一个导演(“Co-Director”)指挥的关系被利用来构造两个网络图。
Amazon photos和Amazon computers:它们是亚马逊“Co-purchase”网络数据集的一部分,其中每一个节点代表一种商品,每种商品的特征由产品评论打分构成,网络图的每一条边表示该边连接的两种商品被一同购买。
本实施例的步骤S1具体为:
S11、将多层网络数据(包含V层网络)转化为包含属性节点和多个拓扑结构的图结构数据,得到
Figure BDA0003181812440000091
其中ν为N个节点集合。
Figure BDA0003181812440000092
是数据不同网络各自的邻接矩阵,
Figure BDA0003181812440000093
是不同网络的度矩阵
Figure BDA0003181812440000094
Figure BDA0003181812440000095
表示网络v上节点的特征矩阵。
S12、通过对图数据的计算,得到不同网络v的拉普拉斯矩阵Lv。其中Lv=Dv-Av
Figure BDA0003181812440000096
表示对邻接矩阵标准化,I是单位矩阵。
S13、把拉普拉斯矩阵和特征矩阵带入图滤波公式
Figure BDA0003181812440000097
得到图滤波后的属性数据H。
S14、对所有网络完成图滤波后,得到滤波后的网络数据
Figure BDA0003181812440000098
Figure BDA0003181812440000099
进一步地,所述步骤S2中,基于图滤波得到的数据
Figure BDA00031818124400000910
Figure BDA00031818124400000911
利用自表达性质得到一致图Z的方法具体为:
S21、使用自表达性质来处理滤波后的网络数据的特征矩阵H1,…,HV,得到自表达图Z1,…,ZV
S22、使用权重分配机制处理所有网络数据得到的自表达图Z1,…,ZV,得到总的一致图Z。
所述步骤S21中,利用数据的自表达性质获得自表达图需要求解以下目标函数:
Figure BDA0003181812440000101
第一项
Figure BDA0003181812440000102
是一个重构损失,目的是保证自表达图ZV要保留数据H的特性;第二项
Figure BDA0003181812440000103
是正则化项,可以避免过拟合;α>0是一个平衡参数,目的是平衡目标函数中的第一、二项权重。通过求解此目标函数,得到单个网络上的自表达图矩阵ZV
在步骤S22中,考虑到不同网络的自表达图ZV不同,这会导致不同网络的聚类结果不同。对于多层网络,应当注意到每个网络在参与构建一致图时具有不同权重:
Figure BDA0003181812440000104
式中λv是网络v的权重因子;第三项
Figure BDA0003181812440000105
为平滑项。通过求解此目标函数,得到多层网络的一致图Z。
步骤S3中提出了图对比损失,将其作为正则化项在一致图Z上进行对比学习。S3中图对比正则化项具体为:
Figure BDA0003181812440000106
式中
Figure BDA0003181812440000107
为网络v中节点i的最近邻的集合。通过图对比学习,得到一个更具聚类亲和性的新图Z。
结合S2和S3步骤,将完整的模型目标函数表示为:
Figure BDA0003181812440000111
通过求解本目标函数,得到各网络的权重λv和具有很好聚类亲和性的一致图Z。本目标函数求解采取交替优化策略,即固定其他变量,更新当前变量。具体优化步骤如下:
A1、固定λvv初始值为1),更新Z:
由于固定了λv,函数中只剩下一个变量Z,则更新Z等价于优化问题1:
Figure BDA0003181812440000112
求解该优化问题时KKT条件存在超越方程,因此使用梯度下降和Adam算法求解Z。具体的,对于第t次迭代,可以求解得到梯度:
Figure BDA0003181812440000113
其中
Figure BDA0003181812440000114
Figure BDA0003181812440000115
其中
Figure BDA0003181812440000116
n为近邻的数量,
Figure BDA0003181812440000117
表示节点j在网络v中是节点i的近邻。利用梯度下降一直更新Z,直到优化问题1收敛或者满足停止条件为止,得到Z的近似解。
A2、固定Z,更新λv
由于固定了Z,函数中只剩下一个变量λv,更新λv等价于求解优化问题2:
Figure BDA0003181812440000121
其中
Figure BDA0003181812440000122
最优值一般出现在导数为0点,因此令优化问题2函数对λv导数为零,得到λv的解值:
Figure BDA0003181812440000123
多次更新Z和λv,得到最终的Z后,在S4对Z进行K-means聚类得到聚类结果。本发明在五个基准测试集上测试算法性能,得到聚类的准确率(ACC),归一化互信息(NMI),调整兰德指数(ARI),F1得分。
实验:
为了验证提出的基于对比学习的多层网络聚类方法的优越性,本发明在5个公开基准网络数据集上进行了节点聚类的实验,数据集具体信息展现在表1中。本发明与处理网络数据聚类的多网络方法以及单网络方法进行比较。LINE和GAE被选为单网络方法的代表,因为数据集有多个网络,本发明在比较中选择两种方法所有网络中最好的结果。参与比较的多层网络方法聚类方法包括:PMNE、RMSC、SwMC。其中,PMNE和SwMC仅使用结构信息,而RMSC仅利用属性特征。PMNE使用三种策略将多层网络投影到连续向量空间中,因此我们选择三种策略中最好的结果。这些结果的比较呈现在表2中。MCGC还与其他不仅使用属性特征而且探索结构信息的方法进行了比较,即O2MA和O2MAC,MAGCN。COMPLETER和MVGRL通过对比学习分别学习不同网络属性和多个网络结构图的公共特征表示,本发明也与它们进行了比较。这些结果在表3中全部体现。实验中选择邻居数10。所有实验均在具有Intel(R)Core(TM)i7-8700 3.20GHz CPU、两个GeForce GTX 1080Ti GPU和64GB RAM的计算机上进行。其中“--”表示运行时超出内存,最优值都加粗显示。
从实验结果可以看出本发明有如下优点:
1)本发明在多层网络中提取一致性信息,相比于LINE和GAE等单网络方法聚类效果更好,远超15%;
2)本发明同时融合多层网络的节点特征和拓扑结构信息,相比PMNE、RMSC、SwMC等多层网络聚类方法有着非常明显的提升,最少也有2%(DBLP)提升。
3)本发明相较于深度方法O2MA和O2MAC、MAGCN、COMPLETER和MVGRL等,直接对数据处理,运用了图对比损失,在Amazon数据集上高达20%以上提升。
表1数据集信息(节点数、特征数、图和集群数)
Figure BDA0003181812440000131
表2在ACM、DBLP、IMDB上的结果
Figure BDA0003181812440000132
Figure BDA0003181812440000141
表3在Amazon数据集上的结果
Figure BDA0003181812440000142
以上所述实施例仅表达了本申请的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请技术方案构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。

Claims (9)

1.一种基于对比学习的多层网络聚类方法,其特征在于,包括以下步骤:
S1:对原始的多层网络数据进行图滤波,得到图滤波后的数据;
S2:基于图滤波得到的数据,利用数据的自表达性质的得到多个自表达图,再通过权重分配机制得到一致图Z;;
S3:为一致图Z构建图对比正则化项,在一致图Z上进行图对比学习;
S4、在完成图对比学习的一致图Z上进行K-means聚类得到最后的聚类结果。
2.根据权利要求1所述的一种基于对比学习的多层网络聚类方法,其特征在于,步骤S1具体包括以下步骤:
S11:将包含V层网络的网络数据转化为包含属性节点和多个拓扑结构的图结构数据,表示为图
Figure FDA0003181812430000011
其中
Figure FDA00031818124300000110
为N个节点集合;
Figure FDA0003181812430000012
Figure FDA0003181812430000013
表示网络v上节点的特征矩阵;
Figure FDA0003181812430000014
是数据不同网络图各自的邻接矩阵;
S12:通过对图结构数据的计算,得到不同网络v的拉普拉斯矩阵Lv=Dv-Av,其中
Figure FDA0003181812430000015
表示对邻接矩阵标准化,
Figure FDA0003181812430000016
是不同网络图的度矩阵,I是单位矩阵;
S13:将拉普拉斯矩阵和特征矩阵带入图滤波公式
Figure FDA0003181812430000017
得到图滤波后的属性数据H;
S14:对所有网络完成图滤波后,得到滤波后的网络数据
Figure FDA0003181812430000018
Figure FDA0003181812430000019
3.根据权利要求1所述的一种基于对比学习的多层网络聚类方法,其特征在于,步骤S2具体包括以下步骤:
S21:利用数据的自表达性质处理滤波后的网络数据的特征矩阵H1,…,HV,得到自表达图Z1,…,ZV
S22:通过权重分配机制处理所有网络数据得到的自表达图Z1,…,ZV,得到总的一致图Z。
4.根据权利要求3所述的一种基于对比学习的多层网络聚类方法,其特征在于,步骤S21中,利用数据的自表达性质获得自表达图通过求解以下目标函数得到:
Figure FDA0003181812430000021
式中上标T为转置运算符;其中||·||F表示平方费森尤斯范数;
Figure FDA0003181812430000022
表示当函数最小时满足的变量ZV取值;
Figure FDA0003181812430000023
为重构损失,用于保证自表达图ZV保留数据H的特性;
Figure FDA0003181812430000024
为正则化项,用于避免过拟合;α为平衡参数,α>0。
5.根据权利要求3所述的一种基于对比学习的多层网络聚类方法,其特征在于,步骤S22中,每个网络在参与构建一致图时具有不同权重,每个网络的权重由下式确定:
Figure FDA0003181812430000025
式中λv表示网络v的权重因子;
Figure FDA0003181812430000026
为平滑项,用于自适应更新不同网络的权重。
6.根据权利要求1所述的一种基于对比学习的多层网络聚类方法,其特征在于,步骤S3中的图对比正则化项为:
Figure FDA0003181812430000027
式中
Figure FDA0003181812430000028
为网络v中节点i的最近邻的集合。
7.根据权利要求1所述的一种基于对比学习的多层网络聚类方法,其特征在于,步骤S3中对一致图进行图对比学习后得到的模型目标函数为:
Figure FDA0003181812430000031
求解该模型目标函数得到每个网络的权重λv和提高了聚类亲和性的一致图Z。
8.根据权利要求7所述的一种基于对比学习的多层网络聚类方法,其特征在于,得到所述模型目标函数后,采用交替优化的方法对模型进行优化,具体优化步骤如下:
S3.1:固定λv,更新Z,λv的初始值为1;
转化为求解以下目标函数:
Figure FDA0003181812430000032
使用梯度下降和Adam算法求解Z;
S3.2:固定Z,更新λv
转化为求解以下目标函数:
Figure FDA0003181812430000033
其中
Figure FDA0003181812430000034
令该目标函数对λv导数为零,求得λv的值:
Figure FDA0003181812430000035
9.根据权利要求8所述的一种基于对比学习的多层网络聚类方法,其特征在于,步骤S3.1中,对于迭代次数t,可以求解得到梯度:
Figure FDA0003181812430000036
Figure FDA0003181812430000041
Figure FDA0003181812430000042
其中
Figure FDA0003181812430000043
n为近邻的数量,利用梯度下降一直更新,直到该目标函数收敛或者满足停止条件为止。
CN202110849386.3A 2021-07-27 2021-07-27 一种基于对比学习的多层网络聚类方法 Active CN113505849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110849386.3A CN113505849B (zh) 2021-07-27 2021-07-27 一种基于对比学习的多层网络聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110849386.3A CN113505849B (zh) 2021-07-27 2021-07-27 一种基于对比学习的多层网络聚类方法

Publications (2)

Publication Number Publication Date
CN113505849A true CN113505849A (zh) 2021-10-15
CN113505849B CN113505849B (zh) 2023-09-19

Family

ID=78014637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110849386.3A Active CN113505849B (zh) 2021-07-27 2021-07-27 一种基于对比学习的多层网络聚类方法

Country Status (1)

Country Link
CN (1) CN113505849B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019178561A2 (en) * 2018-03-16 2019-09-19 The United States Of America, As Represented By The Secretary, Department Of Health & Human Services Using machine learning and/or neural networks to validate stem cells and their derivatives for use in cell therapy, drug discovery, and diagnostics
CN111144463A (zh) * 2019-12-17 2020-05-12 中国地质大学(武汉) 一种基于残差子空间聚类网络的高光谱图像聚类方法
CN112529168A (zh) * 2020-12-29 2021-03-19 中国人民解放军国防科技大学 一种基于gcn的属性多层网络表示学习方法
WO2021059066A1 (en) * 2019-09-27 2021-04-01 Uab ”Biomatter Designs” Method for generating functional protein sequences with generative adversarial networks
CN113157957A (zh) * 2021-03-05 2021-07-23 北京工业大学 一种基于图卷积神经网络的属性图文献聚类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019178561A2 (en) * 2018-03-16 2019-09-19 The United States Of America, As Represented By The Secretary, Department Of Health & Human Services Using machine learning and/or neural networks to validate stem cells and their derivatives for use in cell therapy, drug discovery, and diagnostics
WO2021059066A1 (en) * 2019-09-27 2021-04-01 Uab ”Biomatter Designs” Method for generating functional protein sequences with generative adversarial networks
CN111144463A (zh) * 2019-12-17 2020-05-12 中国地质大学(武汉) 一种基于残差子空间聚类网络的高光谱图像聚类方法
CN112529168A (zh) * 2020-12-29 2021-03-19 中国人民解放军国防科技大学 一种基于gcn的属性多层网络表示学习方法
CN113157957A (zh) * 2021-03-05 2021-07-23 北京工业大学 一种基于图卷积神经网络的属性图文献聚类方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LIANG LIU 等: "Multilayer Graph Contrastive Clustering Network", 《SOCIAL AND INFORMATION NETWORKS》, pages 1 - 8 *
MIREILLE EL GHECHE 等: "OrthoNet: Multilayer Network Data Clustering", 《IEEE TRANSACTIONS ON SIGNAL AND INFORMATION PROCESSING OVER NETWORKS》, pages 1 - 11 *
ZHAO KANG 等: "Partition level multiview subspace clustering", 《NEURAL NETWORKS》, pages 1 - 28 *
任洲甫: "基于脑连接的丘脑功能分区研究", 《中国优秀硕士学位论文全文数据库 (医药卫生科技辑)》, pages 070 - 6 *
林治平: "基于自表达的多视图聚类算法研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, pages 138 - 830 *

Also Published As

Publication number Publication date
CN113505849B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
Li et al. Label efficient semi-supervised learning via graph filtering
Mohammadi et al. Improving linear discriminant analysis with artificial immune system-based evolutionary algorithms
CN116403730A (zh) 一种基于图神经网络的药物相互作用预测方法及系统
Hu et al. Adaptive hypergraph auto-encoder for relational data clustering
CN115761275A (zh) 一种基于图神经网络的无监督社区发现方法及系统
Zhao et al. SCC-MPGCN: self-attention coherence clustering based on multi-pooling graph convolutional network for EEG emotion recognition
Bandyopadhyay et al. Hypergraph attention isomorphism network by learning line graph expansion
Li et al. DLW-NAS: differentiable light-weight neural architecture search
Wu et al. Simplicial complex neural networks
Guo et al. Tensor-based adaptive consensus graph learning for multi-view clustering
CN114037014A (zh) 基于图自编码器的引用网络聚类方法
CN111738514B (zh) 利用局部距离和节点秩优化函数的社交网络社区发现方法
CN113360732A (zh) 一种大数据多视图图聚类方法
CN111738516B (zh) 通过局部距离和节点秩优化函数的社交网络社区发现系统
CN113505849B (zh) 一种基于对比学习的多层网络聚类方法
Kong et al. Joint orthogonal symmetric non-negative matrix factorization for community detection in attribute network
CN115691680A (zh) 基于Boosting与深度森林及单细胞测序数据的细胞通讯预测方法及应用
Meng et al. Adaptive resonance theory (ART) for social media analytics
CN110942082B (zh) 一种人才价值评估方法
Pan et al. Multi-agent evolutionary clustering algorithm based on manifold distance
CN111882441A (zh) 一种基于理财产品推荐场景的用户预测解释Treeshap方法
CN112465066A (zh) 一种基于clique匹配和分层池化的图分类方法
Hu et al. One-step kernelized sparse clustering on grassmann manifolds
Rahman et al. MarkovGNN: Graph Neural Networks on Markov Diffusion
Chen et al. Dual Graph Convolution for Attributed Graph Clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant