CN113505849B

CN113505849B - 一种基于对比学习的多层网络聚类方法

Info

Publication number: CN113505849B
Application number: CN202110849386.3A
Authority: CN
Inventors: 康昭; 潘尔林
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2023-09-19
Anticipated expiration: 2041-07-27
Also published as: CN113505849A

Abstract

本发明公开了一种基于对比学习的多层网络聚类方法，解决了现有技术中的聚类方法难以同时利用网络节点属性和拓扑图信息、存在高频噪声、聚类准确率较低的问题。本发明包括以下步骤：S1.对原始的多层网络数据进行图滤波，得到图滤波后的数据；S2.基于图滤波得到的数据，利用数据的自表达性质的得到多个自表达图，再通过权重分配机制得到一致图Z；S3.为一致图Z构建图对比正则化项，在一致图Z上进行图对比学习；S4.在完成图对比学习的一致图Z上进行K‑means聚类得到最后的聚类结果。本发明相比于单网络方法聚类效果更好，远超15％；同时利用网络节点属性和拓扑图信息，消除高频噪声，提高聚类准确率。

Description

一种基于对比学习的多层网络聚类方法

技术领域

本发明属于数据信息处理技术领域，具体涉及一种基于对比学习的多层网络聚类方法。

背景技术

聚类是无监督学习的重要研究领域，处理的是无标签数据，目的是将相似的样本聚为一簇。所有聚类方法的主要目标是将未标记的相似对象的集合划分为多个类别，并且在过去的几十年中已经提出了大量的聚类方法。经典聚类方法包括K-means谱聚类等。但是，某些基于相似性度量的常规聚类方法，例如K-means及其改进的方法，由于其计算复杂度高，在高维和大规模数据集上的性能较差。而有些方法不适合非欧几何的数据。非欧几何的数据指的就是那些分布不符合欧式空间准则的数据，例如曲面分布的数据、图结构的数据等。诸如海量的社交网络数据、生物大分子、销售网络、文献引用网络等都是经典的网络结构数据。对于这些非欧几何的数据应用传统的聚类算法性能不佳。

多层网络是指网络的节点可以由不同类型的边连接起来，每一种边都被编码在不同的层中。每个网络都可以表示为一个图，图中每个节点都有它本身的信息，同时节点之间的各种关系又会形成结构信息，这两者信息结合才是完整的网络结构数据。也就表示多层网络，不仅仅有多重属性，还存在多个图结构。

为了直接处理多层网络数据，可扩展的多层网络嵌入方法(MNE，一种可扩展的多层网络嵌入模型)通过统一的网络嵌入框架学习多种特征表示；多层网络嵌入(PMNE)提出了三种策略(“网络聚合”、“结果聚合”和“层协同分析”)将多层网络投影到连续向量空间中。然而，他们未能在处理网络的结构信息的同时利用特征信息。

最近，基于GCN，图自动编码器聚类(O2MA)框架和用于聚类的多视图属性图卷积网络(MAGCN)在图聚类上取得了卓越的性能。O2MA引入了一种图自动编码器，基于一个信息丰富的基础网络学习所有节点的特征嵌入并重建所有网络。由于O2MA利用模块方法选择的信息丰富的网络，学习得到特征表示可能是不完整的。MAGCN利用所有网络的完整信息，并通过驱使不同网络的特征表示尽可能相似，以此来实现多层网络的学习。然而O2MA的目标是处理多个网络结构图，而MAGCN主要解决网络图中的属性数据。它们不能直接适用于多层网络(包括多个结构图和多个节点属性)聚类任务。

对比学习是一种特征表示学习方法，思想是拉近正样本的距离，驱离负样本。这一点思想与聚类主旨十分接近，可以考虑通过对比学习减小聚类集群内的差异性，提高聚类性能。但是目前的对比学习方法没有针对网络数据进行研究，更多的是只对特征进行操作，没有关注拓扑结构，也没有在图级别的对比学习。

发明内容

针对现有技术中的聚类方法难以同时利用网络节点属性和拓扑图信息、存在高频噪声、聚类准确率较低的问题，本发明提供一种基于对比学习的多层网络聚类方法，其目的在于：同时利用网络节点属性和拓扑图信息，消除高频噪声，提高聚类准确率。

本发明采用的技术方案如下：

1.一种基于对比学习的多层网络聚类方法，包括以下步骤：

S1：对原始的多层网络数据进行图滤波，得到图滤波后的数据；

其中，所述的多层网络数据包括论文网络、作者网络、电影网络和亚马逊购物网络数据；

S2：基于图滤波得到的数据，利用数据的自表达性质的得到多个自表达图，再通过权重分配机制得到一致图Z；

S3：为一致图Z构建图对比正则化项，在一致图Z上进行图对比学习，得到具有更好的聚类亲和性的图Z；

S4、在完成图对比学习的一致图Z上进行K-means聚类得到最后的聚类结果。

优选的，步骤S1具体包括以下步骤：

S11：将包含V层网络的网络数据转化为包含属性节点和多个拓扑结构的图结构数据，表示为图其中ν为N个节点集合；/> 表示网络v上节点的特征矩阵；/>是数据不同网络图各自的邻接矩阵；

S12：通过对图结构数据的计算，得到不同网络v的拉普拉斯矩阵L^v＝D^v-A^v，其中表示对邻接矩阵标准化，/>是不同网络图的度矩阵，I是单位矩阵；

S13：将拉普拉斯矩阵和特征矩阵带入图滤波公式得到图滤波后的属性数据H；

S14：对所有网络完成图滤波后，得到滤波后的网络数据

优选的，步骤S2利用数据的自表达性质的得到多个自表达图，再通过权重分配机制得到一致图Z具体包括以下步骤：

首先，自表达性质是指：属于同一数据流的数据在同一子空间内，每个数据点可以表示为其他数据点的线性组合，将线性组合的参数矩阵视作一个图矩阵。利用这个性质可以借由以下步骤得到一致图：

S21：利用数据的自表达性质处理滤波后的网络数据的特征矩阵H¹,…,H^V，得到自表达图Z¹,…,Z^V；

S22：通过权重分配机制处理所有网络数据得到的自表达图Z¹,…,Z^V，得到总的一致图Z。

优选的，步骤S21中，利用数据的自表达性质获得自表达图通过求解以下目标函数得到：

其中上标T为转置运算符；其中||·||_F表示平方费森尤斯范数；表示当函数最小时满足的变量Z^V取值；第一项/>是一个重构损失，目的是保证自表达图Z^V要保留数据H的特性；第二项/>是正则化项，可以避免过拟合；α>0是一个平衡参数，目的是平衡目标函数中的第一、二项权重。通过求解此目标函数，得到单个网络上的自表达图矩阵Z^V。

在步骤S22中，考虑到不同网络的自表达图Z^V不同，这会导致不同网络的聚类结果不同。对于多层网络，应当注意到每个网络在参与构建一致图时具有不同权重。

优选的，每个网络的权重由下式确定：

式中λ^v表示网络v的权重因子；为平滑项，用于自适应更新不同网络的权重，通过求解此目标函数，得到多层网络的一致图Z。

优选的，步骤S3中的图对比正则化项为：

式中为网络v中节点i的最近邻的集合。log表示底数为e的对数运算，exp表示底数为e的指数运算。本发明通过图对比学习减小同一聚类集群内的差异性，提高聚类性能。通过图对比学习，得到一个更具聚类亲和性的新图Z。

优选的，结合S2和S3步骤，对一致图进行图对比学习后得到的模型目标函数为：

通过求解本目标函数，得到各网络的权重λ^v和具有很好聚类亲和性的一致图Z。之后S4步骤中，只需要将Z作为输入带进K-means聚类即可输出聚类结果。

优选的，得到所述模型目标函数后，采用交替优化的方法对模型进行优化，具体优化步骤如下：

S3.1：固定λ^v，更新Z，λ^v的初始值为1；

转化为求解以下目标函数：

使用梯度下降和Adam算法求解Z；

S3.2：固定Z，更新λ^v：

转化为求解以下目标函数：

其中令该目标函数对λ^v导数为零，求得λ^v的值：

优选的，步骤S3.1中，对于迭代次数t，可以求解得到梯度：

其中n为近邻的数量，利用梯度下降一直更新，直到该目标函数收敛或者满足停止条件为止。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1.本发明在多层网络中提取一致性信息，相比于LINE和GAE等单网络方法聚类效果更好，远超15％；

2.本发明同时融合多层网络的节点特征和拓扑结构信息，相比PMNE、RMSC、SwMC等多层网络聚类方法有着非常明显的提升，最少也有2％(DBLP)提升。

3.本发明相较于深度方法O2MA和O2MAC、MAGCN、COMPLETER和MVGRL等，直接对数据处理，运用了图对比损失，在Amazon数据集上高达20％以上提升。

附图说明

本发明将通过例子并参照附图的方式说明，其中：

图1为本发明的模型示意图；

图2为本发明的流程示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合图1-2对本发明作详细说明。

对于本实施例中的图节点聚类问题，该问题可以描述为：

将多层网络数据表示为图节点的数目为N，多层网络内包含不同的网络数量为V；其中ν为N个节点的集合；根据节点之间是否有边，为不同网络的邻接矩阵，/>是不同网络的度矩阵，其中/> 图上每个节点都会有自身的属性，/>表示网络v上节点的属性特征矩阵。网络图聚类(节点聚类)指的是利用拓扑图(例如邻接矩阵)和节点本身的属性信息对节点进行聚类操作，将相似的那些节点聚类到同一个集群中去。假设图中共有C类节点，那么聚类之后图上应该把N个节点分到C中集群中。

如图1模型图所示，本发明模型主要包括图滤波、一致图生成、图对比学习和K-means聚类四个模块。

所述图滤波利用了数据的拓扑信息(邻接矩阵)和属性特征(特征矩阵)，得到平滑的特征(即祛除了噪音点)；人工收集的数据或者原始数据本身存在一些与整体数据偏离的数据点，这些就是噪音点。噪音点会降低聚类性能。以此图滤波可以提高聚类性能。所述一致图生成模块利用平滑的数据点，通过数据的自表达性质，得到了一个一致图。所述的图对比学习模块基于得到的一致图，在图上进行对比学习，得到一个更具聚类亲和性的一致图。所述K-means聚类模块在最终得到的一致图上聚类将图上的点分配到不同集群中。

如图2流程图所示，一种基于对比学习的多层网络聚类方法包括以下步骤：

S1、对原始的多层网络数据X¹,…,X^V进行图滤波，减少数据中的高频噪声，得到图滤波后的数据H¹,…,H^V；

其中，所述图聚类数据集包括ACM、DBLP、IMDB、Amazon photo和Amazon computer数据集。

S2、基于图滤波后数据H¹,…,H^V，利用它们的自表达性质的得到多个自表达图Z¹,…,Z^V，再通过权重分配机制得到一致图Z；

S3、为一致图Z构建图对比正则化项，在图Z上进行图对比学习，得到具有更好的聚类亲和性的一致图Z；

S4、在完成图对比学习的一致图Z上进行K-means聚类，得到最后的聚类结果。

其中S1所用的基准多层网络数据集情况如下：

ACM:ACM数据集是一个源于ACM论文的网络数据集，节点属性特征是代表每篇论文关键词的词袋编码，其中有两个网络图(Graph)。这两张图表由两种类型的关系构成:“Co-Author”指的是同一作者所写的两篇论文，而“Co-subject”则表示两篇论文研究的是同一领域。

DBLP:它是来自DBLP数据集的作者网络。节点属性代表每个作者的关键词的词袋编码。其中三个关系构成了三个网络图：“Co-paper”，“Co-conference”和“Co-terms”，表示两个作者已经共著一篇论文、在同一会议上发表论文和发表了相同领域的论文。

IMDB:它是IMDB数据集中的电影网络。节点属性特征对应于表示每个电影的词袋元素。由同一个演员(“Co-Actor”)扮演并由同一个导演(“Co-Director”)指挥的关系被利用来构造两个网络图。

Amazon photos和Amazon computers:它们是亚马逊“Co-purchase”网络数据集的一部分，其中每一个节点代表一种商品，每种商品的特征由产品评论打分构成，网络图的每一条边表示该边连接的两种商品被一同购买。

本实施例的步骤S1具体为：

S11、将多层网络数据(包含V层网络)转化为包含属性节点和多个拓扑结构的图结构数据，得到其中ν为N个节点集合。/>是数据不同网络各自的邻接矩阵，/>是不同网络的度矩阵/> 表示网络v上节点的特征矩阵。

S12、通过对图数据的计算，得到不同网络v的拉普拉斯矩阵L^v。其中L^v＝D^v-A^v，表示对邻接矩阵标准化，I是单位矩阵。

S13、把拉普拉斯矩阵和特征矩阵带入图滤波公式得到图滤波后的属性数据H。

S14、对所有网络完成图滤波后，得到滤波后的网络数据

进一步地，所述步骤S2中，基于图滤波得到的数据利用自表达性质得到一致图Z的方法具体为：

S21、使用自表达性质来处理滤波后的网络数据的特征矩阵H¹,…,H^V，得到自表达图Z¹,…,Z^V；

S22、使用权重分配机制处理所有网络数据得到的自表达图Z¹,…,Z^V，得到总的一致图Z。

所述步骤S21中，利用数据的自表达性质获得自表达图需要求解以下目标函数：

第一项是一个重构损失，目的是保证自表达图Z^V要保留数据H的特性；第二项/>是正则化项，可以避免过拟合；α>0是一个平衡参数，目的是平衡目标函数中的第一、二项权重。通过求解此目标函数，得到单个网络上的自表达图矩阵Z^V，

在步骤S22中，考虑到不同网络的自表达图Z^V不同，这会导致不同网络的聚类结果不同。对于多层网络，应当注意到每个网络在参与构建一致图时具有不同权重：

式中λ^v是网络v的权重因子；第三项为平滑项。通过求解此目标函数，得到多层网络的一致图Z。

步骤S3中提出了图对比损失，将其作为正则化项在一致图Z上进行对比学习。S3中图对比正则化项具体为：

式中为网络v中节点i的最近邻的集合。通过图对比学习，得到一个更具聚类亲和性的新图Z。

结合S2和S3步骤，将完整的模型目标函数表示为：

通过求解本目标函数，得到各网络的权重λ^v和具有很好聚类亲和性的一致图Z。本目标函数求解采取交替优化策略，即固定其他变量，更新当前变量。具体优化步骤如下：

A1、固定λ^v(λ^v初始值为1)，更新Z：

由于固定了λ^v，函数中只剩下一个变量Z，则更新Z等价于优化问题1：

求解该优化问题时KKT条件存在超越方程，因此使用梯度下降和Adam算法求解Z。具体的，对于第t次迭代，可以求解得到梯度：

其中

其中n为近邻的数量，/>表示节点j在网络v中是节点i的近邻。利用梯度下降一直更新Z，直到优化问题1收敛或者满足停止条件为止，得到Z的近似解。

A2、固定Z，更新λ^v：

由于固定了Z，函数中只剩下一个变量λ^v，更新λ^v等价于求解优化问题2：

其中最优值一般出现在导数为0点，因此令优化问题2函数对λ^v导数为零，得到λ^v的解值：

多次更新Z和λ^v,得到最终的Z后，在S4对Z进行K-means聚类得到聚类结果。本发明在五个基准测试集上测试算法性能，得到聚类的准确率(ACC)，归一化互信息(NMI)，调整兰德指数(ARI)，F1得分。

实验：

为了验证提出的基于对比学习的多层网络聚类方法的优越性，本发明在5个公开基准网络数据集上进行了节点聚类的实验，数据集具体信息展现在表1中。本发明与处理网络数据聚类的多网络方法以及单网络方法进行比较。LINE和GAE被选为单网络方法的代表，因为数据集有多个网络，本发明在比较中选择两种方法所有网络中最好的结果。参与比较的多层网络方法聚类方法包括：PMNE、RMSC、SwMC。其中，PMNE和SwMC仅使用结构信息，而RMSC仅利用属性特征。PMNE使用三种策略将多层网络投影到连续向量空间中，因此我们选择三种策略中最好的结果。这些结果的比较呈现在表2中。MCGC还与其他不仅使用属性特征而且探索结构信息的方法进行了比较，即O2MA和O2MAC，MAGCN。COMPLETER和MVGRL通过对比学习分别学习不同网络属性和多个网络结构图的公共特征表示，本发明也与它们进行了比较。这些结果在表3中全部体现。实验中选择邻居数10。所有实验均在具有Intel(R)Core(TM)i7-8700 3.20GHz CPU、两个GeForce GTX 1080Ti GPU和64GB RAM的计算机上进行。其中“--”表示运行时超出内存，最优值都加粗显示。

从实验结果可以看出本发明有如下优点：

1)本发明在多层网络中提取一致性信息，相比于LINE和GAE等单网络方法聚类效果更好，远超15％；

2)本发明同时融合多层网络的节点特征和拓扑结构信息，相比PMNE、RMSC、SwMC等多层网络聚类方法有着非常明显的提升，最少也有2％(DBLP)提升。

3)本发明相较于深度方法O2MA和O2MAC、MAGCN、COMPLETER和MVGRL等，直接对数据处理，运用了图对比损失，在Amazon数据集上高达20％以上提升。

表1数据集信息(节点数、特征数、图和集群数)

表2在ACM、DBLP、IMDB上的结果

表3在Amazon数据集上的结果

以上所述实施例仅表达了本申请的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请保护范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请技术方案构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。

Claims

1.一种基于对比学习的多层网络聚类方法，其特征在于，包括以下步骤：

S3：为一致图Z构建图对比正则化项，在一致图Z上进行图对比学习；

S4、在完成图对比学习的一致图Z上进行K-means聚类得到最后的聚类结果；

步骤S1具体包括以下步骤：

S11：将包含V层网络的网络数据转化为包含属性节点和多个拓扑结构的图结构数据，表示为图其中/>为N个节点集合；/> 表示网络v上节点的特征矩阵；/>是数据不同网络图各自的邻接矩阵；其中所述网络数据为ACM数据集，所述属性节点为代表每篇论文关键词的词袋编码，所述图结构数据包括两个网络图，两个网络图由两种类型的关系构成:“Co-Author”指的是同一作者所写的两篇论文，而“Co-subject”则表示两篇论文研究的是同一领域；

S14：对所有网络完成图滤波后，得到滤波后的网络数据

2.根据权利要求1所述的一种基于对比学习的多层网络聚类方法，其特征在于，步骤S2具体包括以下步骤：

3.根据权利要求2所述的一种基于对比学习的多层网络聚类方法，其特征在于，步骤S21中，利用数据的自表达性质获得自表达图通过求解以下目标函数得到：

式中上标T为转置运算符；其中||·||_F表示平方费森尤斯范数；表示当函数最小时满足的变量Z^V取值；/>为重构损失，用于保证自表达图Z^V保留数据H的特性；/>为正则化项，用于避免过拟合；α为平衡参数，α>0。

4.根据权利要求2所述的一种基于对比学习的多层网络聚类方法，其特征在于，步骤S22中，每个网络在参与构建一致图时具有不同权重，每个网络的权重由下式确定：

式中λ^v表示网络v的权重因子；为平滑项，用于自适应更新不同网络的权重；α为平衡参数，α>0。

5.根据权利要求2所述的一种基于对比学习的多层网络聚类方法，其特征在于，步骤S3中的图对比正则化项为：

式中为网络v中节点i的最近邻的集合。

6.根据权利要求2所述的一种基于对比学习的多层网络聚类方法，其特征在于，步骤S3中对一致图进行图对比学习后得到的模型目标函数为：

式中，H^v为图滤波后的数据，α为平衡参数，α>0；

求解该模型目标函数得到每个网络的权重λ^v和提高了聚类亲和性的一致图Z。

7.根据权利要求6所述的一种基于对比学习的多层网络聚类方法，其特征在于，得到所述模型目标函数后，采用交替优化的方法对模型进行优化，具体优化步骤如下：

S3.1：固定λ^v，更新Z，λ^v的初始值为1；

转化为求解以下目标函数：

使用梯度下降和Adam算法求解Z；

S3.2：固定Z，更新λ^v：

转化为求解以下目标函数：

其中令该目标函数对λ^v导数为零，求得λ^v的值：

8.根据权利要求7所述的一种基于对比学习的多层网络聚类方法，其特征在于，步骤S3.1中，对于迭代次数t，可以求解得到梯度：

其中n为近邻的数量，利用梯度下降一直更新，直到该目标函数收敛或者满足停止条件为止；/>表示节点j在网络v中是节点i的近邻。