CN112270364A - 基于滤波的图聚类方法 - Google Patents
基于滤波的图聚类方法 Download PDFInfo
- Publication number
- CN112270364A CN112270364A CN202011203007.5A CN202011203007A CN112270364A CN 112270364 A CN112270364 A CN 112270364A CN 202011203007 A CN202011203007 A CN 202011203007A CN 112270364 A CN112270364 A CN 112270364A
- Authority
- CN
- China
- Prior art keywords
- graph
- matrix
- signal
- clustering
- filtering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000001914 filtration Methods 0.000 title claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims abstract description 45
- 230000003595 spectral effect Effects 0.000 claims abstract description 8
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 12
- 238000005316 response function Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000005065 mining Methods 0.000 abstract description 7
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 abstract description 4
- 230000006872 improvement Effects 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 abstract 1
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000002679 ablation Methods 0.000 description 4
- 241000370685 Arge Species 0.000 description 2
- 101150043283 ccdA gene Proteins 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于滤波的图聚类方法,首先使用一个低通滤波器来对原始数据特征进行一个滤波操作,然后基于子空间聚类模型进行了优化目标函数的改进,使其同时挖掘图的结构信息和特征信息,计算出亲和矩阵,最终将亲和矩阵对称化,并通过谱聚类得到图聚类结果。本发明十分通用,基于滤波技术,提出了一种简洁高效的图聚类算法模型,相较于基于深度学习的方法,本发明避免了大量参数的计算过程。本发明在多个广泛运用的数据集上相较于现存的方法展现了巨大的优势。
Description
技术领域
本发明属于属性图聚类领域,尤其涉及一种基于滤波的图聚类方法。
背景技术
图聚类是机器学习,数据挖掘和模式识别中的一个长期存在的问题,它具有无数的应用场景,如社群分析,蛋白质结构分析等。图聚类的输入数据一般是属性图,而输出结果是每个结点的类别。属性图由每个结点自身特征,和结点与结点之间的边集构成,是非欧几里德结构数据(Non-Euclidean Structure Data)的一种很好的表示方法。由于图聚类是一个无监督学习任务,所以想要在数据上达到很好的效果十分困难。它的性能很容易受到许多因素的影响,例如聚类方法、数据噪声等。各种图聚类技术,比如K均值和谱聚类特别流行。然而,如K均值这样的方法,只会挖掘图的特征信息,而一些其他的方法只会挖掘图的结构信息。信息的不完全挖掘,使这些方法的图聚类结果不理想。
而对于大多数基于谱聚类的图聚类的方法,它们一般都会构造出图结点之间的相似度矩阵,然后将其作为谱聚类的输入,最终得到聚类结果。然而,构造相似度矩阵是一个困难的任务。研究表明,启发式构造相似度矩阵的方法可能无法完全反映结点之间相似度关系,从而导致谱聚类结果不优。所以,本发明从数据中去学习结点之间的相似度,从而能让学习到的相似度矩阵更能反映结点之间的关系。而本发明构造相似度的方法,是子空间聚类。而原本的子空间聚类方法并没有完全考虑数据的特点。一般来说,数据中都存在噪声,会对聚类结果造成很大的影响。同时原本的子空间聚类方法只挖掘了图的特征信息,并没有考虑图的结构信息,没有完全挖掘图的已知信息。
所以,考虑到上面的问题,本文提出了一个基于滤波的图聚类方法。本发明提出了一个对图结点特征的低通滤波方法,从而得到了更加光滑的表示。同时,本发明提出了一个新的优化目标函数,从而让子空间聚类能够完全挖掘图的结构信息和特征信息,让聚类结果有了较大提升。
发明内容
本发明提出了一种基于滤波的图聚类方法,该方法包括以下步骤:
步骤1:给定一个无向图其中表示结点,代表了无向图中的结点数,X=[x1,…,xn]T为图结点的特征向量,A表示了结点之间的联系,即邻接矩阵,其中,aij=aji≥0,结点的度vi被定义为:并且D=diag(d1,…,dn),相应的对称归一化图拉普拉斯矩阵可以定义为:
步骤2:对称归一化图拉普拉斯矩阵进行特征值分解为Ls=UΛU-1,相应的特征值按照递增序列表示为:Λ=diag(λ1,…,λn),对应的正交特征向量集为U=[u1,…,un],Ls的正交特征向量集被认为是图的傅里叶基,λi,i=1,2,,...,n为相应频率,让成为图结点上的实值函数,一个图信号f=[f(v1),f(v2),...,f(vn)]T就可以表示为如下所示的特征向量的线性组合:
其中,c=[c1,c2,...,cn]T是系数向量;
由于已知ci,其绝对值表示出现在图信号f中的傅里叶基ui的强度,采取以下方法测量f的平滑度:
其中fi表示矩阵f的第i行,di表示矩阵D的第i行i列的元素;这表明对应于较小的λi的傅里叶基更平滑,因此,一个平滑的信号f应该包含更多的低频傅里叶基;
步骤3:基于平滑信号包含更多的低频基本信号以及在现实世界的很多图信号都是十分平滑的,换句话说,信号值应在连接的相邻节点之间逐渐变化,这可以通过一个低通图滤波器G来实现,假设h(λi)是一个低通频率响应函数,滤波后的信号f可以写成
其中,H(Λ)=diag(h(λ1),h(λ2),...,h(λn));
为了保护低通信号并且移除高频信号,h(λi)应该对于λi较小的值取较大的值,对于λi较大的值取较小的值,由于对称归一化图拉普拉斯矩阵的特征值落在[0,2]之内,设置低通响应函数其中非负整数k是用来捕捉k邻接关系的,k为预先设定的图滤波的阶数,所以滤波后的信号f可以写成下面的形式:
步骤4:为了能够学习到最佳的亲和矩阵,采用将子空间聚类和图滤波结合的方法,提出的目标优化式具体表达式如下:
其中S是亲和矩阵,A是邻接矩阵的多项式,f(A)=A+A2+A3+…+AP,α和P是预设的模型参数。可以看到,在目标优化式里面,亲和矩阵S既挖掘了平滑的图信号信息X,又用到了图的结构信息f(A)。而为了求解目标表达式,我们设上述目标优化式的一阶导数为0,从而得到
为了优化时间复杂度,我们使用了Woodbury矩阵恒等式,从而把上述式子改写成了
这样做,就把计算的时间复杂度从O(n3)降到了O(dn2),其中n>d。
步骤5:将S对称化得到C
然后将C作为谱聚类的输入,就可以得到最终的聚类结果。
本发明提出了一个新的基于图滤波的聚类方法,该方法同时挖掘了图的结构信息和特征信息,并对特征矩阵进行了低通滤波,获得了更加光滑的表示。对于基于最新技术的深度神经网络聚类技术,本发明提出的图聚类算法可产生相当甚至更好的结果。
附图说明
图1为本发明实施例采用的数据集的信息;
图2为本发明具体实施例的流程图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容以及理解图滤波在聚类算法中起的关键性作用,下面结合附图对本发明内容进一步阐释。
本发明采用了五个数据集,分别是引用网络Cora,Citeseer,Pubmed,LargeCora,网页网络Wiki。
首先对本发明的数据集进行预处理,确定每个数据集的一些参数设定,本发明的参数设定主要是图滤波的阶数k,模型参数α,以及邻接矩阵的阶数的P。Cora的样本点,数据类别数,数据维度分别为:2708,7和1433;Citeseer的样本点,数据类别数,数据维度分别为:3327,6和3703;Pubmed的样本点,数据类别数,数据维度分别为19717,3和500:Wiki的样本点,数据类别数,数据维度分别为:2405,17和4973;Large Cora的样本点,数据类别数,数据维度分别为:11881,10和3780。
然后直接采用本发明的基于滤波的图聚类方法对原数据集进行滤波,具体操作如下:
一种基于滤波的图聚类方法,该方法包括以下步骤:
步骤1:给定一个无向图其中表示结点,代表了无向图中的结点数,X=[x1,…,xn]T为图结点的特征向量,A表示了结点之间的联系,即邻接矩阵,其中,aij=aji≥0,结点的度vi被定义为:并且D=diag(d1,…,dn),相应的对称归一化图拉普拉斯矩阵可以定义为:
步骤2:对称归一化图拉普拉斯矩阵进行特征值分解为Ls=UΛU-1,相应的特征值按照递增序列表示为:Λ=diag(λ1,…,λn),对应的正交特征向量集为U=[u1,…,un],Ls的正交特征向量集被认为是图的傅里叶基,λi,i=1,2,,...,n为相应频率,让成为图结点上的实值函数,一个图信号f=[f(v1),f(v2),...,f(vn)]T就可以表示为如下所示的特征向量的线性组合:
其中,c=[c1,c2,...,cn]T是系数向量;
由于已知ci,其绝对值表示出现在图信号f中的傅里叶基ui的强度,采取以下方法测量f的平滑度:
其中fi表示矩阵f的第i行,di表示矩阵D的第i行i列的元素;这表明对应于较小的λi的傅里叶基更平滑,因此,一个平滑的信号f应该包含更多的低频傅里叶基;
步骤3:基于平滑信号包含更多的低频基本信号以及在现实世界的很多图信号都是十分平滑的,换句话说,信号值应在连接的相邻节点之间逐渐变化,这可以通过一个低通图滤波器G来实现,假设h(λi)是一个低通频率响应函数,滤波后的信号f可以写成
其中,H(Λ)=diag(h(λ1),h(λ2),...,h(λn));
为了保护低通信号并且移除高频信号,h(λi)应该对于λi较小的值取较大的值,对于λi较大的值取较小的值,由于对称归一化图拉普拉斯矩阵的特征值落在[0,2]之内,设置低通响应函数其中非负整数k是用来捕捉k邻接关系的,k为预先设定的图滤波的阶数,所以滤波后的信号f可以写成下面的形式:
步骤4:为了能够学习到最佳的亲和矩阵,采用将子空间聚类和图滤波结合的方法,具体表达式如下:
其中S是亲和矩阵,A是邻接矩阵的多项式,f(A)=A+A2+A3+…+AP,α和P是预设的模型参数。可以看到,在目标优化式里面,亲和矩阵S既挖掘了平滑的图信号信息X,又用到了图的结构信息f(A)。而为了求解目标表达式,设上述式子的一阶导数为0,从而得到
为了优化时间复杂度,本发明使用了Woodbury矩阵恒等式,从而把上述式子改写成了
这样做,就把计算的时间复杂度从O(n3)降到了O(dn2),其中n>d。
步骤5:将S对称化得到C
然后将C作为谱聚类的输入,就可以得到最终的聚类结果。
图2描述了本发明的具体实施流程图。为了说明本发明中图滤波技术具有消除噪声的优势以及图滤波的重要性,本发明进行了首先和其他聚类方法进行比较,然后再进行消融实验,从而对本发明的图滤波技术的优势予以佐证。
选取三个指标来对图滤波的作用来进行检验。准确率(ACC),归一化互信息评价指标(NMI),以及F1分数。
将本方法和其他三类方法进行了比较,结果在表1。
1.只用到图结构的聚类方法,如Spectral-g,M-NMF,DNGR等。
2.只用到图特征的聚类方法,如Spectral-f,k-means。
3.同时用到结构和特征的方法,如ARGE,GAE,AGC,SCI等。
表1聚类结果比较
从表1可以看出,本发明的算法在三个指标上相较于只挖掘图的结构信息或只挖掘图的特征信息的方法,有着较大的优势。这是本发明同时挖掘图的结构信息和特征信息的直接结果。虽然DeepWalk和DNGR使用了深度自动编码器,它们输出的结果仍不具备良好的表达力。
而相比于基于图卷积网络的方法,如GAE,VGAE,MGAE,ARGE等,本发明的结果仍然表现出色。这是因为本发明的算法更好利用了图的特征信息和结构信息,从而输出了一个细粒度的表示。
对于和本发明类似的AGC,本发明在Cora,Citeseer,Wiki,LargeCora数据集上有着较好的结果,在Pubmed数据集上指标持平。虽然AGC也聚集了k-hop的信息,但是本发明算法所产生的图表示更具有聚类友好性。
而最近被推出的方法,DAEGC,使用了深度attention技术。但是,他们的网络结构复杂,训练代价特别高。
表2的内容是本发明的算法和AGC,DAEGC的时间比较。可以看出,本发明的方法既具有模型简单,参数少的优点,产生的结果又非常有竞争力。
表2几种方法的时间代价(单位:s)
Method | Cora | Citeseer | Pubmed | Wiki | Large Cora |
AGC | 3.42 | 40.36 | 20.77 | 8.21 | 29.18 |
DAEGC | 561.69 | 946.89 | 50854.15 | 562.85 | 9339.67 |
FGC | 4.60 | 9.49 | 268.44 | 8.11 | 58.76 |
表3消融实验
从消融实验中可以看到,使用了滤波后的特征矩阵相比于Baseline来说,结果会表现得更好,这说明了低通滤波起到了重要的作用。而对于邻接矩阵的多项式f(A),不同数据集中表现最好的阶数不同。相比于f(A)=0,其他阶数的平均表现更好,说明了引入图结构信息的重要性。而到了3阶,4阶后,本方法的平均表现就会略微下降。这可能是我们在计算高阶邻接矩阵时的信息损失。
综上所述图滤波在本发明中起到了显著的作用。本领域的普通技术人员将会意识到,这里所述的实例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (1)
1.一种基于滤波的图聚类方法,该方法包括以下步骤:
步骤1:给定一个无向图其中表示结点,代表了无向图中的结点数,X=[x1,…,xn]T为图结点的特征向量,A表示了结点之间的联系,即邻接矩阵,其中,aij=aji≥0,结点的度vi被定义为:并且D=diag(d1,…,dn),相应的对称归一化图拉普拉斯矩阵可以定义为:
步骤2:对称归一化图拉普拉斯矩阵进行特征值分解为Ls=UΛU-1,相应的特征值按照递增序列表示为:Λ=diag(λ1,…,λn),对应的正交特征向量集为U=[u1,…,un],Ls的正交特征向量集被认为是图的傅里叶基,λi,i=1,2,,...,n为相应频率,让f:成为图结点上的实值函数,一个图信号f=[f(v1),f(v2),...,f(vn)]T就可以表示为如下所示的特征向量的线性组合:
其中,c=[c1,c2,...,cn]T是系数向量;
由于已知ci,其绝对值表示出现在图信号f中的傅里叶基ui的强度,采取以下方法测量f的平滑度:
其中fi表示矩阵f的第i行,di表示矩阵D的第i行i列的元素;这表明对应于较小的λi的傅里叶基更平滑,因此,一个平滑的信号f应该包含更多的低频傅里叶基;
步骤3:由于平滑信号包含更多的低频傅里叶基,换句话说,信号值应在连接的相邻节点之间逐渐变化,这可以通过一个低通图滤波器G来实现,假设h(λi)是一个低通频率响应函数,滤波后的信号f可以写成
其中,H(Λ)=diag(h(λ1),h(λ2),...,h(λn));
为了保护低通信号并且移除高频信号,h(λi)应该对于λi较小的值取较大的值,对于λi较大的值取较小的值,由于对称归一化图拉普拉斯矩阵的特征值落在[0,2]之内,设置低通响应函数其中非负整数k是用来捕捉k邻接关系的,k为预先设定的图滤波的阶数,所以滤波后的信号f可以写成下面的形式:
步骤4:为了能够学习到最佳的亲和矩阵,采用将子空间聚类和图滤波结合的方法,具体表达式如下:
其中S是亲和矩阵,A是邻接矩阵的多项式,f(A)=A+A2+A3+…+AP,α和P是预设的模型参数;可以看到,在目标优化式里面,亲和矩阵S既挖掘了平滑的图信号信息X,又用到了图的结构信息f(A);而为了求解目标表达式,设上述式子的一阶导数为0,从而得到
为了优化时间复杂度,使用了Woodbury矩阵恒等式,从而把上述式子改写成了
这样做,就把计算的时间复杂度从O(n3)降到了O(dn2),其中n>d;
步骤5:将S对称化得到C
然后将C作为谱聚类的输入,得到最终的聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011203007.5A CN112270364A (zh) | 2020-11-02 | 2020-11-02 | 基于滤波的图聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011203007.5A CN112270364A (zh) | 2020-11-02 | 2020-11-02 | 基于滤波的图聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112270364A true CN112270364A (zh) | 2021-01-26 |
Family
ID=74344671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011203007.5A Pending CN112270364A (zh) | 2020-11-02 | 2020-11-02 | 基于滤波的图聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112270364A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113630104A (zh) * | 2021-08-18 | 2021-11-09 | 杭州电子科技大学 | 图滤波器的滤波器组频率选择性误差交替优化设计方法 |
-
2020
- 2020-11-02 CN CN202011203007.5A patent/CN112270364A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113630104A (zh) * | 2021-08-18 | 2021-11-09 | 杭州电子科技大学 | 图滤波器的滤波器组频率选择性误差交替优化设计方法 |
CN113630104B (zh) * | 2021-08-18 | 2022-08-23 | 杭州电子科技大学 | 图滤波器的滤波器组频率选择性误差交替优化设计方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sharma et al. | Classification through machine learning technique: C4. 5 algorithm based on various entropies | |
Chou et al. | Turbulent-PSO-based fuzzy image filter with no-reference measures for high-density impulse noise | |
Nejad et al. | A new enhanced learning approach to automatic image classification based on Salp Swarm Algorithm | |
CN111064721A (zh) | 网络流量异常检测模型的训练方法及检测方法 | |
Wang et al. | Sparse regularization-based fuzzy C-means clustering incorporating morphological grayscale reconstruction and wavelet frames | |
Kolar et al. | Sparsistent learning of varying-coefficient models with structural changes | |
Chang et al. | Automatic channel pruning via clustering and swarm intelligence optimization for CNN | |
Wang et al. | G-image segmentation: Similarity-preserving fuzzy C-means with spatial information constraint in wavelet space | |
Zainudin et al. | Feature Selection Optimization using Hybrid Relief-f with Self-adaptive Differential Evolution. | |
Bodyanskiy | Computational intelligence techniques for data analysis | |
CN106789149B (zh) | 采用改进型自组织特征神经网络聚类算法的入侵检测方法 | |
Roy et al. | Pair-copula based mixture models and their application in clustering | |
Xingrong | Research on time series data mining algorithm based on Bayesian node incremental decision tree | |
CN107229945A (zh) | 一种基于竞争学习的深度聚类方法 | |
CN112270364A (zh) | 基于滤波的图聚类方法 | |
Zhang et al. | Optimal echo state network parameters based on behavioural spaces | |
CN114037014A (zh) | 基于图自编码器的引用网络聚类方法 | |
Hao et al. | An adaptive stochastic resonance detection method with a knowledge-based improved artificial fish swarm algorithm | |
CN110941542B (zh) | 基于弹性网络的序列集成高维数据异常检测系统及方法 | |
Vathy-Fogarassy et al. | Hybrid minimal spanning tree and mixture of Gaussians based clustering algorithm | |
CN111738516A (zh) | 通过局部距离和节点秩优化函数的社交网络社区发现系统 | |
CN116759067A (zh) | 一种基于重建和Tabular数据的肝病诊断方法 | |
CN111461255B (zh) | 一种基于间隔分布的Siamese网络图像识别方法及系统 | |
Sun et al. | Reinforced contrastive graph neural networks (RCGNN) for anomaly detection | |
CN114168822A (zh) | 一种时间序列数据聚类模型建立及时间序列数据聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210126 |