CN112270364A

CN112270364A - 基于滤波的图聚类方法

Info

Publication number: CN112270364A
Application number: CN202011203007.5A
Authority: CN
Inventors: 康昭; 刘展宇; 林治平; 田玲; 罗光春
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-01-26

Abstract

本发明提出了一种基于滤波的图聚类方法，首先使用一个低通滤波器来对原始数据特征进行一个滤波操作，然后基于子空间聚类模型进行了优化目标函数的改进，使其同时挖掘图的结构信息和特征信息，计算出亲和矩阵，最终将亲和矩阵对称化，并通过谱聚类得到图聚类结果。本发明十分通用，基于滤波技术，提出了一种简洁高效的图聚类算法模型，相较于基于深度学习的方法，本发明避免了大量参数的计算过程。本发明在多个广泛运用的数据集上相较于现存的方法展现了巨大的优势。

Description

基于滤波的图聚类方法

技术领域

本发明属于属性图聚类领域，尤其涉及一种基于滤波的图聚类方法。

背景技术

图聚类是机器学习，数据挖掘和模式识别中的一个长期存在的问题，它具有无数的应用场景，如社群分析，蛋白质结构分析等。图聚类的输入数据一般是属性图，而输出结果是每个结点的类别。属性图由每个结点自身特征，和结点与结点之间的边集构成，是非欧几里德结构数据(Non-Euclidean Structure Data)的一种很好的表示方法。由于图聚类是一个无监督学习任务，所以想要在数据上达到很好的效果十分困难。它的性能很容易受到许多因素的影响，例如聚类方法、数据噪声等。各种图聚类技术，比如K均值和谱聚类特别流行。然而，如K均值这样的方法，只会挖掘图的特征信息，而一些其他的方法只会挖掘图的结构信息。信息的不完全挖掘，使这些方法的图聚类结果不理想。

而对于大多数基于谱聚类的图聚类的方法，它们一般都会构造出图结点之间的相似度矩阵，然后将其作为谱聚类的输入，最终得到聚类结果。然而，构造相似度矩阵是一个困难的任务。研究表明，启发式构造相似度矩阵的方法可能无法完全反映结点之间相似度关系，从而导致谱聚类结果不优。所以，本发明从数据中去学习结点之间的相似度，从而能让学习到的相似度矩阵更能反映结点之间的关系。而本发明构造相似度的方法，是子空间聚类。而原本的子空间聚类方法并没有完全考虑数据的特点。一般来说，数据中都存在噪声，会对聚类结果造成很大的影响。同时原本的子空间聚类方法只挖掘了图的特征信息，并没有考虑图的结构信息，没有完全挖掘图的已知信息。

所以，考虑到上面的问题，本文提出了一个基于滤波的图聚类方法。本发明提出了一个对图结点特征的低通滤波方法，从而得到了更加光滑的表示。同时，本发明提出了一个新的优化目标函数，从而让子空间聚类能够完全挖掘图的结构信息和特征信息，让聚类结果有了较大提升。

发明内容

本发明提出了一种基于滤波的图聚类方法，该方法包括以下步骤：

步骤1：给定一个无向图

其中

表示结点，

代表了无向图中的结点数，X＝[x₁，…，x_n]^T为图结点的特征向量，A表示了结点之间的联系，即邻接矩阵，其中，a_ij＝a_ji≥0，结点的度v_i被定义为：

并且D＝diag(d₁，…，d_n)，相应的对称归一化图拉普拉斯矩阵可以定义为：

步骤2：对称归一化图拉普拉斯矩阵进行特征值分解为L_s＝UΛU^-1，相应的特征值按照递增序列表示为：Λ＝diag(λ₁，…，λ_n)，对应的正交特征向量集为U＝[u₁，…，u_n]，L_s的正交特征向量集被认为是图的傅里叶基，λ_i，i＝1，2，，...，n为相应频率，让

成为图结点上的实值函数，一个图信号f＝[f(v₁)，f(v₂)，...，f(v_n)]^T就可以表示为如下所示的特征向量的线性组合：

其中，c＝[c₁，c₂，...，c_n]^T是系数向量；

由于已知c_i，其绝对值表示出现在图信号f中的傅里叶基u_i的强度，采取以下方法测量f的平滑度：

其中f_i表示矩阵f的第i行，d_i表示矩阵D的第i行i列的元素；这表明对应于较小的λ_i的傅里叶基更平滑，因此，一个平滑的信号f应该包含更多的低频傅里叶基；

步骤3：基于平滑信号包含更多的低频基本信号以及在现实世界的很多图信号都是十分平滑的，换句话说，信号值应在连接的相邻节点之间逐渐变化，这可以通过一个低通图滤波器G来实现，假设h(λ_i)是一个低通频率响应函数，滤波后的信号f可以写成

其中，H(Λ)＝diag(h(λ₁)，h(λ₂)，...，h(λ_n))；

为了保护低通信号并且移除高频信号，h(λ_i)应该对于λ_i较小的值取较大的值，对于λ_i较大的值取较小的值，由于对称归一化图拉普拉斯矩阵的特征值落在[0，2]之内，设置低通响应函数

其中非负整数k是用来捕捉k邻接关系的，k为预先设定的图滤波的阶数，所以滤波后的信号f可以写成下面的形式：

进一步将X每一列作为一个图信号，然后我们的平滑表示

可以表达为下面的形式：

表示

中的一个数据样本，通过上述操作，事实上

是由通过迭代聚合其k个邻居的特征得到的，因此一个k阶的图滤波考虑了数据的长距离的数据联系，有助于捕捉数据的全局结构；

步骤4：为了能够学习到最佳的亲和矩阵，采用将子空间聚类和图滤波结合的方法，提出的目标优化式具体表达式如下：

其中S是亲和矩阵，A是邻接矩阵的多项式，f(A)＝A+A²+A³+…+A^P，α和P是预设的模型参数。可以看到，在目标优化式里面，亲和矩阵S既挖掘了平滑的图信号信息X，又用到了图的结构信息f(A)。而为了求解目标表达式，我们设上述目标优化式的一阶导数为0，从而得到

为了优化时间复杂度，我们使用了Woodbury矩阵恒等式，从而把上述式子改写成了

这样做，就把计算的时间复杂度从O(n³)降到了O(dn²)，其中n＞d。

步骤5：将S对称化得到C

然后将C作为谱聚类的输入，就可以得到最终的聚类结果。

本发明提出了一个新的基于图滤波的聚类方法，该方法同时挖掘了图的结构信息和特征信息，并对特征矩阵进行了低通滤波，获得了更加光滑的表示。对于基于最新技术的深度神经网络聚类技术，本发明提出的图聚类算法可产生相当甚至更好的结果。

附图说明

图1为本发明实施例采用的数据集的信息；

图2为本发明具体实施例的流程图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容以及理解图滤波在聚类算法中起的关键性作用，下面结合附图对本发明内容进一步阐释。

本发明采用了五个数据集，分别是引用网络Cora，Citeseer，Pubmed，LargeCora，网页网络Wiki。

首先对本发明的数据集进行预处理，确定每个数据集的一些参数设定，本发明的参数设定主要是图滤波的阶数k，模型参数α，以及邻接矩阵的阶数的P。Cora的样本点，数据类别数，数据维度分别为：2708，7和1433；Citeseer的样本点，数据类别数，数据维度分别为：3327，6和3703；Pubmed的样本点，数据类别数，数据维度分别为19717，3和500：Wiki的样本点，数据类别数，数据维度分别为：2405，17和4973；Large Cora的样本点，数据类别数，数据维度分别为：11881，10和3780。

然后直接采用本发明的基于滤波的图聚类方法对原数据集进行滤波，具体操作如下：

一种基于滤波的图聚类方法，该方法包括以下步骤：

步骤1：给定一个无向图

其中

表示结点，

其中，c＝[c₁，c₂，...，c_n]^T是系数向量；

其中，H(Λ)＝diag(h(λ₁)，h(λ₂)，...，h(λ_n))；

进一步将X每一列作为一个图信号，然后我们的平滑表示

可以表达为下面的形式：

矩阵是很多个样本构成的数据，

表示其中的一个数据样本，通过上述操作，事实上

是由通过迭代加强数据特征的k邻接关系所得到的，因此一个k阶的图滤波考虑了数据的长距离的数据联系，有助于捕捉数据的全局结构；

步骤4：为了能够学习到最佳的亲和矩阵，采用将子空间聚类和图滤波结合的方法，具体表达式如下：

其中S是亲和矩阵，A是邻接矩阵的多项式，f(A)＝A+A²+A³+…+A^P，α和P是预设的模型参数。可以看到，在目标优化式里面，亲和矩阵S既挖掘了平滑的图信号信息X，又用到了图的结构信息f(A)。而为了求解目标表达式，设上述式子的一阶导数为0，从而得到

为了优化时间复杂度，本发明使用了Woodbury矩阵恒等式，从而把上述式子改写成了

步骤5：将S对称化得到C

然后将C作为谱聚类的输入，就可以得到最终的聚类结果。

图2描述了本发明的具体实施流程图。为了说明本发明中图滤波技术具有消除噪声的优势以及图滤波的重要性，本发明进行了首先和其他聚类方法进行比较，然后再进行消融实验，从而对本发明的图滤波技术的优势予以佐证。

选取三个指标来对图滤波的作用来进行检验。准确率(ACC)，归一化互信息评价指标(NMI)，以及F1分数。

将本方法和其他三类方法进行了比较，结果在表1。

1.只用到图结构的聚类方法，如Spectral-g，M-NMF，DNGR等。

2.只用到图特征的聚类方法，如Spectral-f，k-means。

3.同时用到结构和特征的方法，如ARGE，GAE，AGC，SCI等。

表1聚类结果比较

从表1可以看出，本发明的算法在三个指标上相较于只挖掘图的结构信息或只挖掘图的特征信息的方法，有着较大的优势。这是本发明同时挖掘图的结构信息和特征信息的直接结果。虽然DeepWalk和DNGR使用了深度自动编码器，它们输出的结果仍不具备良好的表达力。

而相比于基于图卷积网络的方法，如GAE，VGAE，MGAE，ARGE等，本发明的结果仍然表现出色。这是因为本发明的算法更好利用了图的特征信息和结构信息，从而输出了一个细粒度的表示。

对于和本发明类似的AGC，本发明在Cora，Citeseer，Wiki，LargeCora数据集上有着较好的结果，在Pubmed数据集上指标持平。虽然AGC也聚集了k-hop的信息，但是本发明算法所产生的图表示更具有聚类友好性。

而最近被推出的方法，DAEGC，使用了深度attention技术。但是，他们的网络结构复杂，训练代价特别高。

表2的内容是本发明的算法和AGC，DAEGC的时间比较。可以看出，本发明的方法既具有模型简单，参数少的优点，产生的结果又非常有竞争力。

表2几种方法的时间代价(单位：s)

Method	Cora	Citeseer	Pubmed	Wiki	Large Cora
						AGC	3.42	40.36	20.77	8.21	29.18
DAEGC	561.69	946.89	50854.15	562.85	9339.67
						FGC	4.60	9.49	268.44	8.11	58.76

而表3是本发明的消融实验。其中，BaseLine的方法是设置f(A)＝A+A²，且不用滤波，直接将原来的特征矩阵X作为输入。其他几个实验方法是将f(A)设置为对应阶数，并将滤波后的特征矩阵

作为输入。

表3消融实验

从消融实验中可以看到，使用了滤波后的特征矩阵

相比于Baseline来说，结果会表现得更好，这说明了低通滤波起到了重要的作用。而对于邻接矩阵的多项式f(A)，不同数据集中表现最好的阶数不同。相比于f(A)＝0，其他阶数的平均表现更好，说明了引入图结构信息的重要性。而到了3阶，4阶后，本方法的平均表现就会略微下降。这可能是我们在计算高阶邻接矩阵时的信息损失。

综上所述图滤波在本发明中起到了显著的作用。本领域的普通技术人员将会意识到，这里所述的实例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。