CN108764356A - 基于引力相似度的图聚类方法 - Google Patents
基于引力相似度的图聚类方法 Download PDFInfo
- Publication number
- CN108764356A CN108764356A CN201810550210.6A CN201810550210A CN108764356A CN 108764356 A CN108764356 A CN 108764356A CN 201810550210 A CN201810550210 A CN 201810550210A CN 108764356 A CN108764356 A CN 108764356A
- Authority
- CN
- China
- Prior art keywords
- similarity
- node
- nodes
- cluster
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000011159 matrix material Substances 0.000 claims abstract description 33
- 230000005484 gravity Effects 0.000 claims description 43
- 238000004364 calculation method Methods 0.000 claims description 28
- 230000000739 chaotic effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 230000035945 sensitivity Effects 0.000 description 22
- 238000002474 experimental method Methods 0.000 description 7
- 238000007418 data mining Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23211—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with adaptive number of clusters
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开的基于引力相似度的图聚类方法,主要目的是提升节点包含分类属性的无向带权图的聚类效果。具体步骤包括:首先构建目标函数,然后选取k个度数最大的节点作为初始聚类中心计算各节点与簇中心的引力相似度来更新隶属度矩阵得到最初的划分,并计算目标函数值,再在每个簇中根据簇中心更新方法更新簇中心,然后更新隶属度矩阵并计算目标函数值,直到目标函数值不再改变时,算法停止该划分为最终划分结果。本发明公开的基于引力相似度的图聚类方法,解决了现有方法没有综合考虑图的拓扑结构、节点的属性特征以及时间复杂度较高的问题。
Description
技术领域
本发明属于数据挖掘方法技术领域,涉及一种基于引力相似度的图聚类方法。
背景技术
图是一种非常重要的数据结构,它可以形象地描述数据对象之间的关系,所以它经常被用来描述如人际关系网络、流行病传播网络、传感器网络和蛋白质网络等复杂网络的拓扑结构。图聚类技术可以有效地发现复杂网络中的社团结构,从而帮助研究者更好地理解复杂网络的特征和功能,预测复杂网络的演变规律。图聚类和传统的聚类最主要的区别在于,图聚类中节点的相似性不仅取决于图的拓扑结构而且还和节点之间的属性相似性有关,而传统的聚类中数据对象的相似性只取决于数据对象之间的属性相似性。图聚类算法实现两个目标:(1)同一个子图内的节点紧密相连,与其它子图的连接比较稀疏;(2)相似的节点应该被划分到同一个子图中,不相似的节点应该被划分到不同的子图中。
在一个图中,节点之间的联系构成了图的拓扑,节点的属性反映了节点的特征。图聚类就是根据图的拓扑和节点的特征将一个大图划分成若干个子图的过程,如果一个图聚类算法只考虑拓扑结构或者节点的特征,那么它将在聚类过程中丢失掉图的许多信息。然而大多数算法只关注于拓扑结构或者节点特征中的一个,而很少有算法将拓扑结构和节点特征结合起来。研究者已经提出了许多图聚类算法,并且已经将它们成功地应用在复杂网络中。大多数算法都只考虑到了网络的拓扑结构而忽视了网络中的节点特征。Tian等人提出了一种基于OLAP模式(OLAP-style)的算法,这种算法忽视了簇内的拓扑结构。Zhou等人提出统一距离方法(unified distance measure),这种算法的时间复杂度非线性增长,当属性很多时,该算法的时间复杂度将会很高。
发明内容
本发明的目的是提供一种基于引力相似度的图聚类方法,解决了现有方法聚类效果差以及时间复杂度较高的问题。
本发明所采用的技术方案是,基于引力相似度的图聚类方法,聚类的图为节点包含分类属性的无向带权图,定义为:一个节点包含分类属性的无向带权图可以用一个三元组表示G={V,A,E},其中,V={v1,v2,...,vn}为包含n个节点的非空集合,每个节点包含m个分类属性;A={a1,a2,...,am}为m个属性的非空集合,属性aj的值域为它是有限并且无序的;E={(vi,vj)|vi,vj∈V}是无向边的集合,节点vi与vj边的权值wij>0;
具体操作过程包括如下步骤:
步骤1.构建目标函数F(W,Z);
步骤2.选取k个度数最大的节点作为初始聚类中心得到中心点矩阵Z(1),计算各个节点与所有簇中心之间的引力相似度计算隶属度矩阵得到W(1)并计算目标函数值F(W(1),Z(1)),设置迭代次数t=1;
步骤3.根据中心点更新方法在每个簇中更新中心点矩阵Z(t+1)并计算目标函数值F(W(t),Z(t+1)),如果F(W(t),Z(t+1))=F(W(t),Z(t)),算法结束该划分为最终划分结果,否则,执行步骤4;
步骤4:计算各个节点与所有簇中心之间的引力相似度,并且更新隶属度矩阵得到W(t+1),计算目标函数值F(W(t+1),Z(t+1)),如果F(W(t+1),Z(t+1))=F(W(t),Z(t+1)),算法结束该划分为最终划分结果,否则,设置t=t+1,执行步骤3。
本发明的其他特点还在于,
步骤1中目标函数的如公式1所示:
其中,n是数据点的个数,k(≤n)是已知的簇个数;W=[wli]是k×n阶的{0,1}隶属度矩阵,表示数据点vi是否属于第l个簇,wli=1表示vi属于第l个簇,反之亦然;Z=[z1,z2,...,zk],zl是第l个簇中心。
步骤2的计算过程如下:
步骤2.1节点间的引力相似度包括结构相似度和属性相似度,计算引力相似度如公式2所示:
Sim(vi,vj)=α*sim(vi,vj)struct+(1-α)*sim(vi,vj)attr (2)
其中,sim(vi,vj)struct和sim(vi,vj)attr分别表示节点间的结构相似度和属性相似度;α为结构相似度和属性相似度之间的调节系数,α满足0≤α≤1;
步骤2.2计算属性相似度,计算过程如下:
其中:
k是簇的个数,并且,
的计算方法如公式6所示:
其中,aj为第j个分类属性,m为数据集的维数,k是簇的个数,f(vi,aj)表示节点vi第j个属性的值;
步骤2.3计算结构相似度,计算过程如下:
其中,A(vi,vj)为一对直连节点间的直接引力,其计算方法如公式8和公式9所示,式中d(vi),wij分别表示节点vi的度和节点vi到vj边的权重;
公式7中,R(vi,vj)为一对间接连接节点间的间接引力,计算方法如公式10所示:
公式7中sim(vi,vj)conn和sim(vi,vj)indirconn直接连接和间接连接节点间的结构相似度,计算方法分别如公式11和公式12所示:
其中,d(vi),wij分别表示节点vi的度和节点vi到vj边的权重;
步骤2.4将公式7和公式3带入公式2中得到引力相似度,然后将引力相似度转换成节点距离,如公式13所示:
Dis(vi,vj)=1-Sim(vi,vj) (13)
Z(t),W(t)代表第t次迭代时的簇中心和隶属度矩阵,更新隶属度矩阵得到W(t),如公式14所示:
其中,1≤i≤n,1≤l≤k;
将公式13得到的距离带入目标函数公式1中得到F(W(1),Z(1))。
步骤3的计算过程如下:
当隶属度矩阵W给定时,中心点矩阵Z的更新方法如公式15所示。
zl=vi (15)
其中,Vl/{vi}表示簇Vl中除vi外所有节点的集合;
带入目标函数公式1中得到F(W(t),Z(t+1))。
步骤4的计算过程如下:
更新隶属度矩阵得到W(t+1),如公式14所示:
其中,1≤i≤n,1≤l≤k;
带入目标函数公式1中得到目标函数值F(W(t+1),Z(t+1))。
本发明的有益效果是,基于引力相似度的图聚类方法,解决了现有方法没有综合考虑图的拓扑结构、节点的属性特征以及时间复杂度较高的问题。本发明的方法是一种新的属性图节点间的相似度度量,将它应用于K-Medoids算法框架中得到的AF-Cluster算法可以解决现有属性图聚类技术存在的聚类效果较差的问题。与已有的方法相比,在不提高时间复杂度的条件下可以提高属性图聚类的聚类效果。
附图说明
图1是本发明的基于引力相似度的图聚类方法的AF-Cluster算法的流程图;
图2是本发明的基于引力相似度的图聚类方法的AF-Cluster算法与现有技术在Political Blogs数据集上,不同聚类簇数时Density值的对比图;
图3是本发明的基于引力相似度的图聚类方法的AF-Cluster算法与现有技术在DBLP数据集上,不同聚类簇数时Density值的对比图;
图4是本发明的基于引力相似度的图聚类方法的AF-Cluster算法与现有技术在Political Blogs数据集上,不同聚类簇数时Entropy值的对比图;
图5是本发明的基于引力相似度的图聚类方法的AF-Cluster算法与现有技术在DBLP数据集上,不同聚类簇数时Entropy值的对比图;
图6是在Political Blogs数据集上,不同α取值对聚类结果的影响;
图7是在DBLP数据集上,不同α取值对聚类结果的影响。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明的基于引力相似度的图聚类方法,所聚类的图为节点包含分类属性的无向带权图,定义为:一个节点包含分类属性的无向带权图可以用一个三元组表示G={V,A,E},其中,V={v1,v2,...,vn}为包含n个节点的非空集合,每个节点包含m个分类属性;A={a1,a2,...,am}为m个属性的非空集合,属性aj的值域为它是有限并且无序的;E={(vi,vj)|vi,vj∈V}是无向边的集合,节点vi与vj边的权值wij>0;
具体操作过程包括如下步骤:
步骤1.构建目标函数F(W,Z);
步骤2.选取k个度数最大的节点作为初始聚类中心得到中心点矩阵Z(1),计算各个节点与所有簇中心之间的引力相似度更新隶属度矩阵得到W(1)并计算目标函数值F(W(1),Z(1)),设置迭代次数t=1;
步骤3.根据中心点更新方法在每个簇中更新中心点矩阵Z(t+1)并计算目标函数值F(W(t),Z(t+1)),如果F(W(t),Z(t+1))=F(W(t),Z(t)),算法结束该划分为最终划分结果,否则,执行步骤4;
步骤4:计算各个节点与所有簇中心之间的引力相似度,并且更新隶属度矩阵得到W(t+1),计算目标函数值F(W(t+1),Z(t+1)),如果F(W(t+1),Z(t+1))=F(W(t),Z(t+1)),算法结束该划分为最终划分结果,否则,设置t=t+1,执行步骤3。
步骤1中目标函数的如公式1所示:
其中,n是数据点的个数,k(≤n)是已知的簇个数;W=[wli]是k×n阶的{0,1}隶属度矩阵,表示数据点vi是否属于第l个簇,wli=1表示vi属于第l个簇,反之亦然;Z=[z1,z2,...,zk]是包含k个聚类中心的中心点矩阵,zl表示第l个簇中心。
步骤2的计算过程如下:
步骤2.1节点间的引力相似度包括结构相似度和属性相似度,计算引力相似度如公式2所示:
Sim(vi,vj)=α*sim(vi,vj)struct+(1-α)*sim(vi,vj)attr (2)
其中,sim(vi,vj)struct和sim(vi,vj)attr分别表示节点间的结构相似度和属性相似度;α为结构相似度和属性相似度之间的调节系数,α满足0≤α≤1,α为0时,节点间引力相似度的计算与图的拓扑结构没有关系;当α取值为1时,引力相似度的计算只与图的拓扑结构有关系,完全忽略节点的属性特征;当α从0到1取值逐渐增大时,相似度计算过程中图的拓扑结构的权重逐渐增大,节点属性特征的权重逐渐减小。引力相似度的取值范围为[0,1],值越大说明两个节点越相似,反之亦然;
步骤2.2计算属性相似度,计算过程如下:
其中:
k是簇的个数,并且,
的计算方法如公式6所示:
其中aj为第j个分类属性,m为数据集的维数,k是簇的个数,f(vi,aj)表示节点vi第j个属性的值;
步骤2.3计算结构相似度,计算过程如下:
其中,A(vi,vj)为一对直连节点间的直接引力,其计算方法如公式8和公式9所示,式中d(vi),wij分别表示节点vi的度和节点vi到vj边的权重;
公式7中,R(vi,vj)为一对间接连接节点间的间接引力,计算方法如公式10所示:
公式7中sim(vi,vj)conn和sim(vi,vj)indirconn直接连接和间接连接节点间的结构相似度,计算方法分别如公式11和公式12所示:
其中,d(vi),wij分别表示节点vi的度和节点vi到vj边的权重;
步骤2.4将公式7和公式3带入公式2中得到引力相似度,本发明的AF-Cluster算法的目标函数为节点到其所在簇中心的加权距离和,为了满足目标函数定义,AF-Cluster算法将引力相似度转换成节点距离然后将引力相似度转换成节点距离,如公式13所示:
Dis(vi,vj)=1-Sim(vi,vj) (13)
Z(t),W(t)代表第t次迭代时的簇中心和隶属度矩阵,更新隶属度矩阵得到W(t),如公式14所示:
其中,1≤i≤n,1≤l≤k;
将公式13得到的距离带入目标函数公式1中得到F(W(1),Z(1))。
步骤3的计算过程如下:
当隶属度矩阵W给定时,中心点矩阵Z的更新方法如公式15所示。
zl=vi (15)
其中,Vl/{vi}表示簇Vl中除vi外所有节点的集合;
带入目标函数公式1中得到F(W(t),Z(t+1))。
步骤4的计算过程如下:
更新隶属度矩阵得到W(t+1),如公式14所示:
其中,1≤i≤n,1≤l≤k;
带入目标函数公式1中得到目标函数值F(W(t+1),Z(t+1))。
本发明的基于引力相似度的图聚类方法所聚类的图类属性的无向带权图一个属性图是由拓扑结构和节点特征组成,相应地节点间的相似度也应该由结构相似度和属性相似度两部分构成。本发明使用节点间的直接引力和间接引力来定义节点间的结构相似度。
直接引力因子定义:在一个属性图中,一个节点vi到另一个与它直接连接的节点vj之间的紧密程度称之为vi到vj的直接引力因子,直接引力因子采用如公式15计算:
直接连接(15)
由于节点vi和vj不同,它们的度、各边的权重均有可能不同,因此f(vi,vj)≠f(vj,vi),即一对直连节点之间的直接引力因子不满足对称关系。直接引力因子的取值范围为(0,1),值越大说明vi到vj的关系越紧密;
直接引力定义:在一个属性图中,vi和vj是一对直接相连的节点,则节点vi和vj之间直接引力的计算方法如公式16所示:
两个直连节点之间的直接引力定义为这两个节点之间直接引力因子的平均值,由公式16可知A(vi,vj)=A(vj,vi),且直接引力的取值范围为(0,1),值越大说明这两个节点关系越紧密。
推荐路径定义:在一个属性图中,从源节点vi到另一个与它间接连接的节点vj所经过的一条路径pt(vi,vi+1,...,vi+m,...,vj)称为推荐路径,且该路径上所有节点只经过一次。
间接引力定义:在一个属性图中,从源节点vi到另一个与它间接连接的节点vj的一条推荐路径上,每经过一个节点,单方向上的直接引力的乘积称为间接引力,计算方法如公式17所示。
公式17中,节点对(vm,vm+1)为直接相连的两个节点,srcnode表示源节点,desnode表示目的节点。间接引力的取值范围为(0,1),值越大说明两个节点关系越紧密。因为直接引力满足对称关系,所以两个节点之间的间接引力也满足对称关系即R(vi,vj)=R(vj,vi)。
最优路径:在一个属性图中,从源节点vi到另一个与它间接连接的节点vj的推荐路径可能存在多条,定义间接引力最大的一条路径为源节点vi到目的节点vj的最优路径。
IGC-CSM算法中使用Jaccard系数来定义节点间的结构相似度,该算法将属性图中所有节点之间的连接关系分为三种,分别是:直接连接、间接连接和不连接,对应的计算公式如下:
(1)直接连接节点对的结构相似度计算方法如公式18所示。
(2)间接连接节点对的结构相似度计算方法如公式19所示。
其中,节点对(vm,vm+1)为直接相连的两个节点,从源节点vi到另一个与它间接连接的节点vj可能存在多条路径,IGC-CSM算法使用带权最短路径策略。
(3)不连接节点对的结构相似度为0。
本发明的AF-Cluster算法结合IGC-CSM算法中的结构相似度,在引入直接引力和间接引力后提出了一种新的结构相似度计算方法,计算方法如公式7所示,公式7中在计算间接相连节点的结构相似度时,使用的路径为描述的最优路径,即间接引力最大的一条路径。因为直接连接节点对的结构相似度取值范围为(0,1),间接连接也为(0,1),不连接为0,所以结构相似度的取值范围为[0,1)。
为了验证本发明的基于引力相似度的图聚类方法的有效性,将本发明的算法与W-Cluster、S-Cluster、SA-Cluster、K-SNAP和IGC-CSM五个算法进行对比,实验的数据集为Political Blogs和DBLP,使用Density和Entropy作为聚类结果评价指标,实验中除特殊说明外,调节系数a均设为0.5。
(1)Political Blogs数据集是一个包含1490个博客和19090条连接的网络。该网络中的每个博客都有一个属性值,它表示该博客的政治倾向,“0”表示“liberal”,“1”表示“conservative”。两个博客之间连接的权重均为1。
(2)DBLP是一个文献信息数据集,实验选取了该数据集的4个领域构成了一个子集,这4个领域分别是:data mining,information retrieve,artificial intelligence和database。实验构造了一个包含10000个作者和他们之间65734个合作关系的合作关系网络。对于网络中的每个节点都有两个属性,分别是数量属性和主题属性。数量属性有三个可选值:大于等于20表示“高度多产”,10到20之间表示“多产”,小于10表示“低产”。主题属性共有100个可能取值,每个作者都会从100个主题中选择其中一个作为其主题属性。
Density的定义:Density用来衡量聚类结果的结构相关性,它的定义为所有簇中边的总和与整个图边数的比值,Density的取值范围为[0,1],值越大说明聚类效果越好。其定义如公式20所示。
Entropy的定义:Entropy用来衡量簇内节点属性的相关性,当一个簇中节点属性越相似,则簇的Entropy越小,Entropy的取值范围为[0,∞],值越小说明聚类效果越好,其定义如公式21和公式22所示。
其中:prcnticn表示在簇Vc中,属性ai上值为ain的节点的百分比。n={1,2,...,ni}表示属性值的个数;c={1,2,...,k}为簇的个数。
图2是在Political Blogs数据集上六个算法的Density比较。实验设置的聚类簇数k分别为3、5、7、9,图中“avg”列表示各算法不同聚类簇数Density平均值对比。从图中可以看出六个算法得到的Density值大都随着聚类簇数的增加而减少,只有S-Cluster算法在簇数由7到9时上升。S-Cluster算法在k=3时得到的Density值在所有算法中是最大的,但是当k值为5、7、9时S-Cluster算法得到的Density值较低;SA-Cluster算法在k=5时的Density是六个算法中最大的。六个算法中,KSNAP算法在k值为5、7、9时得到的Density值最小,W-Cluster算法在k=3时得到的Density值最小。IGC-CSM和AF-Cluster算法的Density值一直大于0.9,说明这两个算法的稳定性高。AF-Cluster算法在k值为7、9时的Density值是所有算法中最大的,而且该算法得到的Density平均值也是最大的,这说明AF-Cluster算法得到的聚类结果结构相似性好。
图3是在DBLP数据集上,五个算法的Density值比较。实验设置的聚类簇数k分别为10、30、50、70,图中“avg”列表示各算法不同聚类簇数Density平均值对比。五个算法得到的Density值大都随着聚类簇数的增加而呈下降趋势。W-Cluster算法得到的Density值始终在五个算法中最小。S-Cluster和SA-Cluster算法得到的Density值大小相近,IGC-CSM和AF-Cluster算法得到的Density值大小相近。在k=10时,IGC-CSM算法的Density值最大;在k=50时,AF-Cluster算法与IGC-CSM算法的Density值相同。当k=30、70时AF-Cluster算法的Density略高于IGC-CSM算法,而且AF-Cluster算法得到的平均Density值大于IGC-CSM和其它三个算法,这说明AF-Cluster算法得到的聚类结果结构相似性较好。
图4是在Political Blogs(pblogs)数据集上,六个算法的Entropy值比较,实验设置的聚类簇数k分别为3、5、7、9,图中“avg”列表示各算法不同聚类簇数Entropy平均值对比。从图中可以看出KSNAP算法的Entropy值始终为0,IGC-CSM和AF-Cluster算法的Entropy值接近于0。在六个算法中,S-Cluster算法在k值为3、5、7时的Entropy值最大,W-Cluster算法在k=9时Entropy值最大。对于SA-Cluster算法,当k=3、5、7时算法得到的Entropy值一直低于0.1,但是当k=9时,算法得到的Entropy值上升到0.4,说明SA-Cluster算法聚类稳定性差。因此可以得出AF-Cluster、KSNAP和IGC-CSM三个算法可以很好地将属性值相同的节点划分到同一个簇当中,而S-Cluster和W-Cluster算法聚类结果的属性相似性较差。
图5是在DBLP数据集上,五个算法的Entropy值比较。实验设置的聚类簇数分别为10、30、50、70,图中“avg”列表示各算法不同聚类簇数Entropy平均值对比。在5个算法得到的Entropy值中,W-Cluster算法的Entropy值始终远低于其它四个算法,并且始终低于0.5。W-Cluster之外的其他四个算法中,AF-Cluster算法在k=30时Entropy值大于SA-Cluster算法,在k值为10、50、70时为为四个算法的最小;而且AF-Cluster算法得到的Entropy平均值最小,IGC-CSM算法的Entropy值始终最大;S-Cluster和SA-Cluster算法得到的Entropy平均值几乎相等。这说明在DBLP数据集上,AF-Cluster算法聚类结果的属性相似性在五个算法中仅次于W-Cluster算法。
从这四个结果可以看出,AF-Cluster算法聚类得到结果的平均Density值始终最大,说明AF-Cluster算法划分结果的结构相似性最好。在pblogs数据集上AF-Cluster算法得到的Entropy与KSNAP算法值一样为0,在DBLP数据集上Entropy平均值为第二小,但是取得最小值的W-Cluster算法的其他结果值均较差,所以从两个数据集的Entropy值来看,W-Cluster算法聚类稳定性较差,而AF-Cluster算法划分结果的属性相似性和稳定性均较好。综上所述,AF-Cluster算法得到的聚类结果有很好的结构相似性和属性相似性。
图6和图7是不同α取值对AF-Cluster算法聚类结果的影响。实验中共设置了α从0到1共11个取值。图中虚线为Density/Entropy的趋势。
图6(a)和(b)是pblogs数据集上,聚类簇数k=15时,α对算法聚类Density和Entropy的影响。在图6(a)中,当α=0时Density最小;随着α的增大,Density值呈波动上升趋势,在α大于等于0.5时,Density趋于平稳,此时Density值一直大于0.8;α=1时Density最大。在图6(b)中,当α小于等于0.9时,Entropy只趋于平稳,且Entropy值极低。当α从0.9到1的过程中,Entropy值急剧上升,一直到接近于1,结合图6(a)中,α=1时,Density值也是最大值,此时算法只考虑图的拓扑特征,而忽略了节点的属性特征。相应的当α=0时,算法的Density值最低,Entropy值为0,说明此时算法只考虑节点的属性特征而完全忽略了图的拓扑结构。
图7(a)和(b)是DBLP数据集上,聚类簇数k=25时,α对算法聚类Density和Entropy的影响。在图7(a)中,α=0时Density值最小;α从0增加到0.1的过程中,Density值急剧上升;当α≥0.1时,Density值大于0.8小于1,且比较平稳;α=1时Density值最大。在图7(b)中,在α取值为0时Entropy值最小;在α从0增加到1的过程中,当α取值在0和0.7之间时,Entropy值较为平稳且一直在2.5到3之间,当α大于0.7时,Entropy值迅速上升到3.5以上。结合图7(a)和图7(b)来看,随着α的增加,算法的Density和Entropy都是呈上升趋势,这意味着随着α的增加,聚类结果结构相似性上升属性相似性下降,同时也意味着当α取值比较小的时候,聚类结果的属性相似性较大,结构相似性较小。
从图6和图7的结果来看,当α取值较小时,AF-Cluster算法聚类结果的属性相似性较大,结构相似性较小,随着α的增加,聚类结果结构相似性上升属性相似性下降。
Claims (5)
1.基于引力相似度的图聚类方法,其特征在于,所聚类的图为节点包含分类属性的无向带权图,定义为:一个节点包含分类属性的无向带权图可以用一个三元组表示G={V,A,E},其中,V={v1,v2,...,vn}为包含n个节点的非空集合,每个节点包含m个分类属性;A={a1,a2,...,am}为m个属性的非空集合,属性aj的值域为它是有限并且无序的;E={(vi,vj)|vi,vj∈V}是无向边的集合,节点vi与vj边的权值wij>0;
具体操作过程包括如下步骤:
步骤1.构建目标函数F(W,Z);
步骤2.选取k个度数最大的节点作为初始聚类中心得到中心点矩阵Z(1),计算各个节点与所有簇中心之间的引力相似度计算隶属度矩阵得到W(1)并计算目标函数值F(W(1),Z(1)),设置迭代次数t=1;
步骤3.根据中心点更新方法在每个簇中更新中心点矩阵Z(t+1)并计算目标函数值F(W(t),Z(t+1)),如果F(W(t),Z(t+1))=F(W(t),Z(t)),算法结束该划分为最终划分结果,否则,执行步骤4;
步骤4:计算各个节点与所有簇中心之间的引力相似度,并且更新隶属度矩阵得到W(t +1),计算目标函数值F(W(t+1),Z(t+1)),如果F(W(t+1),Z(t+1))=F(W(t),Z(t+1)),算法结束该划分为最终划分结果,否则,设置t=t+1,执行步骤3。
2.如权利要求1所述的基于引力相似度的图聚类方法,其特征在于,所述步骤1中目标函数的如公式1所示:
其中,n是数据点的个数,k(≤n)是已知的簇个数;W=[wli]是k×n阶的{0,1}隶属度矩阵,表示数据点vi是否属于第l个簇,wli=1表示vi属于第l个簇,反之亦然;Z=[z1,z2,...,zk],zl是第l个簇中心。
3.如权利要求2所述的基于引力相似度的图聚类方法,其特征在于,所述步骤2的计算过程如下:
步骤2.1节点间的引力相似度包括结构相似度和属性相似度,计算引力相似度如公式2所示:
Sim(vi,vj)=α*sim(vi,vj)struct+(1-α)*sim(vi,vj)attr (2)
其中,sim(vi,vj)struct和sim(vi,vj)attr分别表示节点间的结构相似度和属性相似度;α为结构相似度和属性相似度之间的调节系数,α满足0≤α≤1;
步骤2.2计算属性相似度,计算过程如下:
其中:
k是簇的个数,并且,
的计算方法如公式6所示:
其中,aj为第j个分类属性,m为数据集的维数,k是簇的个数,f(vi,aj)表示节点vi第j个属性的值;
步骤2.3计算结构相似度,计算过程如下:
其中,A(vi,vj)为一对直连节点间的直接引力,其计算方法如公式8和公式9所示,式中d(vi),wij分别表示节点vi的度和节点vi到vj边的权重;
公式7中,R(vi,vj)为一对间接连接节点间的间接引力,计算方法如公式10所示:
公式7中sim(vi,vj)conn和sim(vi,vj)indirconn直接连接和间接连接节点间的结构相似度,计算方法分别如公式11和公式12所示:
其中,d(vi),wij分别表示节点vi的度和节点vi到vj边的权重;
步骤2.4将公式7和公式3带入公式2中得到引力相似度,然后将引力相似度转换成节点距离,如公式13所示:
Dis(vi,vj)=1-Sim(vi,vj) (13)
Z(t),W(t)代表第t次迭代时的簇中心和隶属度矩阵,更新隶属度矩阵得到W(t),如公式14所示:
其中,1≤i≤n,1≤l≤k;
将公式13得到的距离带入目标函数公式1中得到F(W(1),Z(1))。
4.如权利要求2所述的基于引力相似度的图聚类方法,其特征在于,所述步骤3的计算过程如下:
当隶属度矩阵W给定时,中心点矩阵Z的更新方法如公式15所示;
zl=vi (15)
其中,Vl/{vi}表示簇Vl中除vi外所有节点的集合;
带入目标函数公式1中得到F(W(t),Z(t+1))。
5.如权利要求2所述的基于引力相似度的图聚类方法,其特征在于,所述步骤4的计算过程如下:
更新隶属度矩阵得到W(t+1),如公式14所示:
其中,1≤i≤n,1≤l≤k;
带入目标函数公式1中得到目标函数值F(W(t+1),Z(t+1))。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810550210.6A CN108764356A (zh) | 2018-05-31 | 2018-05-31 | 基于引力相似度的图聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810550210.6A CN108764356A (zh) | 2018-05-31 | 2018-05-31 | 基于引力相似度的图聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108764356A true CN108764356A (zh) | 2018-11-06 |
Family
ID=64001444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810550210.6A Pending CN108764356A (zh) | 2018-05-31 | 2018-05-31 | 基于引力相似度的图聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108764356A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183567A (zh) * | 2019-07-05 | 2021-01-05 | 浙江宇视科技有限公司 | Birch算法的优化方法、装置、设备及存储介质 |
-
2018
- 2018-05-31 CN CN201810550210.6A patent/CN108764356A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183567A (zh) * | 2019-07-05 | 2021-01-05 | 浙江宇视科技有限公司 | Birch算法的优化方法、装置、设备及存储介质 |
CN112183567B (zh) * | 2019-07-05 | 2024-02-06 | 浙江宇视科技有限公司 | Birch算法的优化方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103106279B (zh) | 一种同时基于节点属性以及结构关系相似度的聚类方法 | |
CN102945333B (zh) | 一种基于先验知识和网络拓扑特性的关键蛋白预测方法 | |
CN103810261A (zh) | 一种基于商空间理论的K-means聚类方法 | |
CN101901251B (zh) | 基于马尔科夫过程亚稳性的复杂网络簇结构分析和识别方法 | |
US20190146981A1 (en) | Large scale social graph segmentation | |
CN108628967A (zh) | 一种基于学习生成网络相似度的网络学习群组划分方法 | |
CN116340646A (zh) | 一种基于超图基序优化多元用户表示的推荐方法 | |
CN110580252B (zh) | 多目标优化下的空间对象索引与查询方法 | |
CN117896263B (zh) | 基于邻域拓扑与投票机制的复杂网络关键节点识别方法 | |
CN108764356A (zh) | 基于引力相似度的图聚类方法 | |
Gajawada et al. | Projected clustering using particle swarm optimization | |
CN111738514A (zh) | 利用局部距离和节点秩优化函数的社交网络社区发现方法 | |
Fahy et al. | Finding multi-density clusters in non-stationary data streams using an ant colony with adaptive parameters | |
CN102902896A (zh) | 基于专家知识与拓扑相似的邻居优先生物分子子网搜索方法 | |
Yan et al. | FLPA: A fast label propagation algorithm for detecting overlapping community structure | |
CN109710812A (zh) | 一种网络表征算法稳定性度量方法 | |
Yang et al. | Oversampling methods combined clustering and data cleaning for imbalanced network data | |
CN108717551A (zh) | 一种基于最大隶属度的模糊层次聚类方法 | |
CN114429404A (zh) | 一种多模异质社交网络社区发现方法 | |
Peng et al. | Community Detection Algorithm for Heterogeneous Networks Based on Central Node and Seed Community Extension | |
CN109102011A (zh) | 一种多维网络数据的节点分类方法 | |
Mythili et al. | Research Analysis on Clustering Techniques in Wireless Sensor Networks | |
CN111709846A (zh) | 基于线图的局部社区发现算法 | |
CN112579831A (zh) | 基于SimRank全局矩阵平滑收敛的网络社区发现方法、装置及存储介质 | |
Du et al. | A Data‐Driven Parameter Adaptive Clustering Algorithm Based on Density Peak |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181106 |