CN107273934A - 一种基于属性融合的图聚类方法 - Google Patents
一种基于属性融合的图聚类方法 Download PDFInfo
- Publication number
- CN107273934A CN107273934A CN201710507324.8A CN201710507324A CN107273934A CN 107273934 A CN107273934 A CN 107273934A CN 201710507324 A CN201710507324 A CN 201710507324A CN 107273934 A CN107273934 A CN 107273934A
- Authority
- CN
- China
- Prior art keywords
- mrow
- attribute
- msub
- mover
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 230000004927 fusion Effects 0.000 claims abstract description 27
- 230000007246 mechanism Effects 0.000 claims abstract description 7
- 230000003044 adaptive effect Effects 0.000 claims abstract description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 44
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 11
- 230000008569 process Effects 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000010845 search algorithm Methods 0.000 description 3
- 238000000547 structure data Methods 0.000 description 3
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000005295 random walk Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 150000002148 esters Chemical class 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于属性融合的图聚类方法,通过构建多层属性融合模型,将图中节点的属性特征和结构关系划分为不同层次,再通过数据的结构关系和属性特征统一合并到同一底层网络中进行聚类操作,并根据聚类中节点投票机制,对数据的结构和属性分别进行加权融合,同时自适应更改属性层的权重系数,使得最后聚类结果更能反映数据的原始分布,从而解决属性层初始值的设置对聚类结果的影响问题,使得最后的聚类能够达到更好的效果。
Description
技术领域
本发明属于数据挖掘技术领域,更为具体地讲,涉及一种基于属性融合的图聚类方法。
背景技术
随着当前随着互联网的快速发展,相关领域产生了大量的复杂图结构数据,如何充分利用这些数据,挖掘有用的知识和信息成为当前研究的热点。图聚类技术是挖掘图结构数据的一种有效的方法,在生物领域,化学领域和社交网络领域等有着重要的实际应用价值。
然而传统的图聚类技术如基于划分的聚类方法,基于密度的聚类,基于层次的聚类,基于模型的聚类等往往只考虑图的拓扑关系和节点属性相似性,将图划分成结构紧密的子图或者是节点相似度较高的子图,对如何平衡节点属性相似度和结构关系对聚类结果的影响考虑的较少。
例如,Yang Zhou等人提出的SA-Cluster算法及其扩展算法SA-Cluster-Opt和Inc-Cluster都是基于划分的聚类算法。结合了数据对象的属性相似性和结构相似性,采用基于距离的度量,在原始图中增加属性节点形成增广图,用基于随机游走的距离度量属性边和结构边之间的相似性。然后采用K-medoids算法,对增加属性节点的增广图进行聚类。基于模型聚类的方法是通过设计一个融合图结构和节点属性特征的模型来寻找图数据与给定模型之间的最佳拟合。Akoglu等人通过对节点属性相似度和结构关系进行压缩编码,把图聚类问题转化为矩阵压缩编码问题,通过在聚类迭代过程中属性和边最大熵的节点进行划分。Xu等人提出了基于贝叶斯概率模型的BAGC算法,将节点属性特征和结构关系分别使其服从多项式分布和伯努利分布,最后将概率较大的节点划分到相应的簇内。Jaewon等人提出了CESNA算法,将节点属性特征和结构关系都设计成服从伯努利分布模型进行聚类。与BACG算法不同的是,CESNA算法的聚类结果簇之间有重叠的。此外,M.Ester提出的NetScan算法,NetScan算法将具有节点特征属性的图模型划分不同属性子图。该算法需要预先指定聚类数目,但是在没有先验条件下指定的聚类数目与真实聚类结果可能会出现较大偏差,使得聚类效果较差。针对NetScan算法存在的问题,Moser等人提出了无需提前指定聚类数目的JointClust算法,虽然不需要指定聚类数目,但仍需初始化选择聚类中心,使得聚类结果和初始类中心的选择有着很大的关系。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于属性图融合的图聚类方法,通过综合考虑数据的结构关系和属性特征来对数据进行聚类,挖掘数据中更多潜在的知识和信息。
为实现上述发明目的,本发明一种基于属性融合的图聚类方法,其特征在于,包括以下步骤:
(1)、利用将具有结构和属性关系的数据构建一个属性图G=(V,E,A,F)模型,其中,V表示属性图中顶点集合,V={v1,v2,…,vn};E表示属性图中边的集合,E={(vi,vj)(vi,vj)∈E(G),1≤i,j≤n},(vi,vj)表示由节点vi,vj构成的边,n表示边节点总数;A表示属性集合,A={a1,a2,…,am},am表示第m个属性特征;F表示属性图中顶点所具有的属性特征与其属性值之间的映射关系,F={fl|fl:V→dom(al),1≤l≤m};fl表示属性特征与其属性值间的映射关系,dom(al)表示属性al的属性值;
(2)、定义属性图多层融合模型和融合规则;
(2.1)、定义三个不同层次:属性层,结构层和底层网络;
定义属性层Ga(l),Ga(l)=(Va(l),Ea(l),Wa(l)),l=1,2,…,m和结构层Gb,Gb=(Vb,Eb,Wb);其中,Va(l)表示属性图中存在属性a(l)的节点集合,Ea(l)表示两个节点之间因共同的属性a(l)而存在的边的集合,Wa(l)是属性a(l)之间的相似性权重值;Vb是属性图中节点集合,Eb是连接节点之间存在关系边的集合,Wb是节点之间存在原有结构关系的边的权重值;底层网络Gu=(Vu,Eu,Wu),其中Eu是属性图中所有节点的集合,Eu是属性图中边的集合,Wu是由多层属性融合以后的节点之间边的权重值;
(3)、根据多层属性融合规则,将属性层和结构层加权融合到底层网络Gu中;
(3.1)、若顶点集合V中,任意两个节点之间只存在属性关系,则将顶点集合V中所有节点的不同属性层权重系数设置为αa(1),αa(2),…,αa(m),再将各个属性层经过加权后合并到底层网络中,合并后的底层网络中权重值Wu修改为:
Wu=αa(1)Wa(1)+αa(2)Wa(2)+…+αa(m)Wa(m);
(3.2)、若顶点集合V中,任意两个节点之间只存在结构层,即两个节点之间只具有原有的拓扑结构关系,则对两个节点之间的结构关系经过加权后合并到底层网络中,合并后的底层网络中两个节点之间的权重Wu值修改为:
Wu=βbWb
其中,βb为结构层的权重系数;
(3.3)、判断节点集合V中任意两个节点是否同时存在于属性层和结构层,如果两个节点之间既存在属性层又存在结构层,则将结构层和属性层一起合并到底层网络中,合并后的底层网络中两个节点之间的权重Wu值修改为:
(4)、构建底层网络的相似度矩阵;
(4.1)、计算底层网络中任意两节点之间的余弦相似度;
设任意两节点为X,Y,则两节点之间的余弦相似度为:
其中,X′、Y′分别表示X、Y的一阶导数;X,Y两个节点的余弦相似度主要是用节点的属性特征进行计算,每个节点包含的属性特征将节点看成一个一维向量,通过计算两个一维向量之间的余弦相似度来作为节点之间的相似度;
(4.2)、根据底层网络中任意两节点之间的余弦相似度构建相似度矩阵;
(5)、利用AP算法对相似度矩阵进行聚类操作,得到k个簇为C1,C2,…,Ck;
(6)通过节点投票机制来自适应更新属性层权重系数
(6.1)、对k个簇进行节点投票;
在每个簇内,判断簇内节点vi与聚类中心Cj之间是否存在共同的属性a(l),如果存在共同属性,则记该属性对节点的投票为1,反之,则为0,用公式表示为:
其中,为聚类后的第j个簇, 表示第个簇中第个节点;
(6.2)、定义为第t次迭代后的属性a(l)权重系数,则属性a(l)的t+1次权重系数更新为:
其中,表示第t次迭代中属性a(l)的增值;
(7)、待属性a(l)的t+1次权重系数更新后,返回步骤(3.1),重新更新属性层的权重系数,再利用AP算法进行聚类操作,直到达到预设的迭代次数或αa(l)保持不变时,迭代停止。
本发明的发明目的是这样实现的:
本发明一种基于属性融合的图聚类方法,通过构建多层属性融合模型,将图中节点的属性特征和结构关系划分为不同层次,再通过数据的结构关系和属性特征统一合并到同一底层网络中进行聚类操作,并根据聚类中节点投票机制,对数据的结构和属性分别进行加权融合,同时自适应更改属性层的权重系数,使得最后聚类结果更能反映数据的原始分布,从而解决属性层初始值的设置对聚类结果的影响问题,使得最后的聚类能够达到更好的效果。
同时,本发明一种基于属性融合的图聚类方法还具有以下有益效果:
(1)、本发明结合了数据的结构关系和属性特征进行聚类,对这两种影响数据聚类效果的因素进行了融合,使得最后的聚类结果能更好的反映数据之间的实际相互关系。
(2)、本发明通过聚类过程中使用节点投票机制,能够自适应更改属性层的权重系数,使得聚类能达到更好的效果,进一步挖掘数据中潜在的知识和信息。
附图说明
图1是本发明基于属性融合的图聚类方法流程图;
图2是多层属性融合图;
图3是采用二分查找算法选取AP算法中合适的偏向参数值流程图;
图4是簇中节点密度的柱状图;
图5是簇中节点属性熵的柱状图;
图6是迭代过程中不同属性层权重系数变化图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于属性融合的图聚类方法流程图。
在本实施例中,如图1所示,本发明一种基于属性融合的图聚类方法,包括以下步骤:
S1、将具有属性节点的图称为属性图,利用具有结构和属性关系的数据构建一个属性图G=(V,E,A,F)模型,其中,V表示属性图中顶点集合,V={v1,v2,…,vn};E表示属性图中边的集合,E={(vi,vj)|(vi,vj)∈E(G),1≤i,j≤n},(vi,vj)表示由节点vi,vj构成的边,n表示边节点总数;A表示属性集合,A={a1,a2,…,am},am表示第m个属性特征;F表示属性图中顶点所具有的属性特征与其属性值之间的映射关系,F={fl|fl:V→dom(al),1≤l≤m};fl表示属性特征与其属性值间的映射关系,dom(al)表示属性al的属性值;
S2、定义属性图多层融合模型和融合规则;
S2.1、定义三个不同层次:属性层,结构层和底层网络;
定义属性层Ga(l),Ga(l)=(Va(l),Ea(l),Wa(l)),l=1,2,…,m和结构层Gb,Gb=(Vb,Eb,Wb);其中,Va(l)表示属性图中存在属性a(l)的节点集合,Ea(l)表示两个节点之间因共同的属性a(l)而存在的边的集合,Wa(l)是属性a(l)之间的相似性权重值;Vb是属性图中节点集合,Eb是连接节点之间存在关系边的集合,Wb是节点之间存在原有结构关系的边的权重值;底层网络Gu=(Vu,Eu,Wu),其中Eu是属性图中所有节点的集合,Eu是属性图中边的集合,Wu是由多层属性融合以后的节点之间边的权重值;
S3、根据多层属性融合规则,将属性层和结构层加权融合到底层网络Gu中;
S3.1、若顶点集合V中,任意两个节点之间只存在属性关系,则将顶点集合V中所有节点的不同属性层权重系数设置为αa(1),αa(2),…,αa(m),再将各个属性层经过加权后合并到底层网络中,合并后的底层网络中权重值Wu修改为:
Wu=αa(1)Wa(1)+αa(2)Wa(2)+…+αa(m)Wa(m);
S3.2、若顶点集合V中,任意两个节点之间只存在结构层,即两个节点之间只具有原有的拓扑结构关系,则对两个节点之间的结构关系经过加权后合并到底层网络中,合并后的底层网络中两个节点之间的权重Wu值修改为:
Wu=βbWb
其中,βb为结构层的权重系数;
S3.3、判断节点集合V中任意两个节点是否同时存在于属性层和结构层,如果两个节点之间既存在属性层又存在结构层,则将结构层和属性层一起合并到底层网络中,合并后的底层网络中两个节点之间的权重Wu值修改为:
在本实施例中,如图2所示,其表示的是多层属性层和结构层融合模型,其中,底层网络中加粗的黑色线条表示结构层边和属性层边的叠加;
S4、构建底层网络的相似度矩阵;
S4.1、计算底层网络中任意两节点之间的余弦相似度;
设任意两节点为X,Y,则两节点之间的余弦相似度为:
其中,X′、Y′分别表示X、Y的一阶导数;X,Y两个节点的余弦相似度主要是用节点的属性特征进行计算,每个节点包含的属性特征将节点看成一个一维向量,通过计算两个一维向量之间的余弦相似度来作为节点之间的相似度。余弦相似度cos(X,Y)是一个介于[0,1]之间的数,最大的相似度为1,最大的相异度为0;
S4.2、根据底层网络中任意两节点之间的余弦相似度构建相似度矩阵;
S5、利用AP算法对相似度矩阵进行聚类操作,得到k个簇为C1,C2,…,Ck;
S6、通过节点投票机制来自适应更新属性层权重系数
图数据融合后的底层网络是由属性层和结构层共同决定的,底层网络节点之间权重计算如下式所示。
通过聚类结果反复调整属性系数αa(l)的值,改变网络层中αa(l)与βb之间的比例系数,从而改变节点属性和节点结构关系对聚类结果的贡献度。定义簇内每个节点之间的属性值,采用多数表决机制,若经过一次AP聚类后,产生的簇内节点之间大部分节点共享同一属性值,则此属性值对于最后的聚类效果有着较高的贡献度,则增大该属性权重系数,反之,则减少该属性权重系数。
S6.1、对k个簇进行节点投票;
在每个簇内,判断簇内节点vi与聚类中心Cj之间是否存在共同的属性a(l),如果存在共同属性,则记该属性对节点的投票为1,反之,则为0,用公式表示为:
其中,为聚类后的第个簇, 表示第个簇中第个节点;
S6.2、定义为第t次迭代后的属性a(l)权重系数,则属性a(l)的t+1次权重系数更新为:
其中,表示第t次迭代中属性a(l)的增值;上式中更新公式可以保证在迭代过程中属性层权重系数和为1,推导公式如下:
调整后的属性权重系数会随着的值增加,减少,或者保持不变,若则t+1次迭代中的值会随之增加,若则t+1次迭代中的值会随之减小,若则的值保持不变。
S7、待属性a(l)的t+1次权重系数更新后,返回步骤(3.1),重新更新属性层的权重系数,再利用AP算法进行聚类操作,直到达到预设的迭代次数或αa(l)保持不变时,迭代停止。
实验验证
为验证本发明的准确性和高效性,本实施例将算法在公开的DBLP数据集上进行验证。DBLP是全球计算机领域内权威的核心文献集成数据库系统,DBLP数据库中的文献以作者为核心,同时存储了相关文献的元数据,如:文献标题,发表日期和发表期刊等。同时DBLP数据库提供各种搜索和统计功能及开放了API接口和对数据集的下载服务。本实验从DBLP数据库中抽取5000个作者进行实验验证。将抽取出来的数据表示为一个科研合作网络图。实验数据共包括5000个节点和32020条无向边。每个节点采用两个属性值:作者发表文献数目和所属研究兴趣组。设置作者发表文献数目的阈值区间,定义三种属性类型来表示作者发表论文的数量。作者发表超过20篇文献的标记为“高产”属性,10篇到20篇之间的为“多产”属性,小于10篇的为“低产”属性。作者的研究兴趣组有100个可能取值,由发表文章的标题提取。
本实验将科研网络中的作者关系和属性映射为属性图模型,选取每个作者的首要兴趣组和发表文献作为作者自身的属性特征,对于作者所属兴趣组的特征属性,本文采用节点之间的余弦相似度值作为两个节点之间的相似度。对于作者发表文献的产量属性,两个作者发表文献数目在相同区间则定义两个作者之间存在属性相似度。为了能反映实际数据之间的相互关系,对于作者之间的合作关系强度,按照合作文献数目的多少设置不同的结构层边权重,本实验设置不同区间的边权重取值。作者之间合作发表论文数量在1~2之间时,结构边权重设置为1.5,3~5之间时,结构边权重设置为3.5,发表6篇以上时,结构边权重设置为4。属性权重初始化为兴趣属性层系数0.5,产量属性层系数为0.5。
为了使算法聚类结果和经典聚类算法进行比较,本文采用二分查找算法选取AP算法中合适的偏向参数值,使得基于属性融合的图聚类算法生成指定的簇数目,易于比较。为了能快速找到偏向参数值,根据输入数据集的相似度矩阵,首先确定产生最大簇数目的最大值Pmax和最少簇数目的Pmin,通过比较生成的簇数目与指定簇数的大小,计算Pmax和Pmin的平均值P=(Pmin+Pmax)/2,将搜索空间确定在[Pmin,P]或[P,Pmax]之中。这样如图3所示,通过二分查找算法,最终通过AP算法生成指定的簇数目。
为了验证本发明中提出的属性融合方法和自适应权重分配图聚类算法的准确性,本文提出几种经典的聚类算法和本发明进行比较。
K-medoids算法:只考虑图中拓扑结构,不考虑节点之间属性相似度,设置节点之间的属性相似度为0,即模型只存在结构层,不存在属性层。
AP算法:只考虑节点属性之间的相似性,不考虑节点之间的拓扑结构关系,即只存在属性层,不存在结构层。
SA-Cluster算法:一种基于增加属性节点的和采用随机游走计算节点之间相似度的图聚类算法。
本发明采用簇结构密度和簇中节点属性熵来进行综合评价。通过检测聚类算法中簇内部对象之间相互连接的密度和属性熵来综合衡量聚类效果的好坏。为了实现图结构数据聚类使得簇内部对象属性相似且结构紧密,不同簇内部属性不同且结构稀疏,本发明主要使用簇密度来评估簇内部结构的聚类效果,用节点具有的属性特征在不同簇内的分布,计算相应的属性熵来评估簇内节点属性是否一致。
四种图聚类算法在数据集DBLP5000上的聚类结果中的簇结构密度和簇中节点属性熵如图4和图5所示,由图4中可知,在相同聚类簇数目的情况下,基于结构聚类的K-medoids算法簇结构密度最大,原因是SA-Cluster和本发明不但考虑节点之间的结构关系,还考虑了节点属性之间的相似性,减弱了聚类结果中节点之间结构关系对聚类结果的影响。本发明的簇密度较SA-Cluster算法高,原因是SA-Cluster算法中原始结构边的权重值都设置为同一值,而本发明中提出的算法结构边权重根据作者之间的合作强度设置不同的值,更能反映科研网络中作者之间的不同合作关系。而只使用节点属性相似性进行聚类的AP算法,簇结构密度较低。由图5可知,K-medoids算法的簇中节点属性熵较高,原因是算法在聚类过程中只考虑了节点之间的结构关系,并没有考虑节点属性之间的相似性,本发明经过自适应更改属性层权重系数后,属性熵较低,表明簇内节点属性相似度较高,算法在属性熵标准上面比基于属性聚类的AP算法低是因为AP算法聚类过程中,兴趣属性和产量属性的层权重系数都设置为0.5。而经过本发明自适应更改权重系数之后,产量属性层权重系数较高,兴趣属性权重系数较低,如图6所示,本发明降低了簇中节点属性熵。图6中是在自适应图聚类过程中,聚类簇数目为50时,产量属性和兴趣属性层权重系数的变化趋势。由图中可以看出,产量属性层权重系数随着迭代次数的增加逐渐提升,兴趣属性的权重系数逐渐下降,主要原因是兴趣属性的首要兴趣组号100个,远多于产量属性的3个属性,而过多的属性值将使得聚类簇内节点之间的属性相异度增大,为了在聚类过程中使各个簇内属性值相似,通过自适应权重分配算法,逐渐降低兴趣属性的权重系数,增大产量属性权重,使得聚类达到较好的效果。最后,各个属性层系数趋向平稳,聚类结束。
表1是本发明聚类同一簇内部分节点;
表1
由表1可知,本发明经过自适应权重分配以后,聚类效果更好,表中作者之间的兴趣相似度较大,因在计算节点之间兴趣相似度时以余弦相似度为度量标准,故作者66,83,89几位作者也都被划入同一簇内,因为几位作者与其他作者之间也存在着兴趣相似度,虽然作者44与其他作者之间兴趣相似度较小,但其产量属性与其他作者之间有相似度,也被划入同一簇内,同时,在同一簇内,作者之间的原有合作关系也被保留,故用本发明进行聚类效果较好,能够反映数据之间的原始分布。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (2)
1.一种基于属性融合的图聚类方法,其特征在于,包括以下步骤:
(1)、利用将具有结构和属性关系的数据构建一个属性图G=(V,E,A,F)模型,其中,V表示属性图中顶点集合,V={v1,v2,…,vn};E表示属性图中边的集合,E={(vi,vj)|(vi,vj)∈E(G),1≤i,j≤n},(vi,vj)表示由节点vi,vj构成的边,n表示边节点总数;A表示属性集合,A={a1,a2,…,am},am表示第m个属性特征;F表示属性图中顶点所具有的属性特征与其属性值之间的映射关系,F={fl|fl:V→dom(al),1≤l≤m};fl表示属性特征与其属性值间的映射关系,dom(al)表示属性al的属性值;
(2)、定义属性图多层融合模型和融合规则;
(2.1)、定义三个不同层次:属性层,结构层和底层网络;
定义属性层Ga(l),Ga(l)=(Va(l),Ea(l),Wa(l)),l=1,2,…,m和结构层Gb,Gb=(Vb,Eb,Wb);其中,Va(l)表示属性图中存在属性a(l)的节点集合,Ea(l)表示两个节点之间因共同的属性a(l)而存在的边的集合,Wa(l)是属性a(l)之间的相似性权重值;Vb是属性图中节点集合,Eb是连接节点之间存在关系边的集合,Wb是节点之间存在原有结构关系的边的权重值;底层网络Gu=(Vu,Eu,Wu),其中Eu是属性图中所有节点的集合,Eu是属性图中边的集合,Wu是由多层属性融合以后的节点之间边的权重值;
(3)、根据多层属性融合规则规则,将属性层和结构层加权融合到底层网络Gu中;
(3.1)、若顶点集合V中,任意两个节点之间只存在属性关系,则将顶点集合V中所有节点的不同属性层权重系数设置为αa(1),αa(2),…,αa(m),再将各个属性层经过加权后合并到底层网络中,合并后的底层网络中权重值Wu修改为:
Wu=αa(1)Wa(1)+αa(2)Wa(2)+…+αa(m)Wa(m);
(3.2)、若顶点集合V中,任意两个节点之间只存在结构层,即两个节点之间只具有原有的拓扑结构关系,则对两个节点之间的结构关系经过加权后合并到底层网络中,合并后的底层网络中两个节点之间的权重Wu值修改为:
Wu=βbWb
其中,β为结构层的权重系数;
(3.3)、判断节点集合V中任意两个节点是否同时存在于属性层和结构层,如果两个节点之间既存在属性层又存在结构层,则将结构层和属性层一起合并到底层网络中,合并后的底层网络中两个节点之间的权重Wu值修改为:
<mrow>
<msub>
<mi>W</mi>
<mi>u</mi>
</msub>
<mo>=</mo>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>l</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msub>
<mi>&alpha;</mi>
<mrow>
<mi>a</mi>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
</mrow>
</msub>
<msub>
<mi>W</mi>
<mrow>
<mi>a</mi>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
</mrow>
</msub>
<mo>+</mo>
<msub>
<mi>&beta;</mi>
<mi>b</mi>
</msub>
<msub>
<mi>W</mi>
<mi>b</mi>
</msub>
<mo>;</mo>
</mrow>
(4)、构建底层网络的相似度矩阵;
(4.1)、计算底层网络中任意两节点之间的余弦相似度;
设任意两节点为X,Y,利用两节点的属性特征计算这两节点之间的余弦相似度为:
<mrow>
<mi>c</mi>
<mi>o</mi>
<mi>s</mi>
<mrow>
<mo>(</mo>
<mi>X</mi>
<mo>,</mo>
<mi>Y</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mrow>
<msup>
<mi>X</mi>
<mo>&prime;</mo>
</msup>
<mi>Y</mi>
</mrow>
<msup>
<mrow>
<mo>&lsqb;</mo>
<mrow>
<mo>(</mo>
<msup>
<mi>X</mi>
<mo>&prime;</mo>
</msup>
<mi>X</mi>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<msup>
<mi>Y</mi>
<mo>&prime;</mo>
</msup>
<mi>Y</mi>
<mo>)</mo>
</mrow>
<mo>&rsqb;</mo>
</mrow>
<mrow>
<mn>1</mn>
<mo>/</mo>
<mn>2</mn>
</mrow>
</msup>
</mfrac>
</mrow>
其中,X′、Y′分别表示X、Y的一阶导数;
(4.2)、根据底层网络中任意两节点之间的余弦相似度构建相似度矩阵;
(5)、利用AP算法对相似度矩阵进行聚类操作,得到k个簇为C1,C2,…,Ck;
(6)通过节点投票机制来自适应更新属性层权重系数
(6.1)、对k个簇进行节点投票;
在每个簇内,判断簇内节点与聚类中心之间是否存在共同的属性a(l),如果存在共同属性,则记该属性对节点的投票为1,反之,则为0,用公式表示为:
<mrow>
<msub>
<mi>vote</mi>
<mi>l</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>C</mi>
<mover>
<mi>j</mi>
<mo>&OverBar;</mo>
</mover>
</msub>
<mo>,</mo>
<msub>
<mi>v</mi>
<mover>
<mi>i</mi>
<mo>&OverBar;</mo>
</mover>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mn>1</mn>
</mtd>
<mtd>
<mrow>
<mi>a</mi>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>&Element;</mo>
<msub>
<mi>v</mi>
<mover>
<mi>i</mi>
<mo>&OverBar;</mo>
</mover>
</msub>
<mo>&cap;</mo>
<msub>
<mi>C</mi>
<mover>
<mi>j</mi>
<mo>&OverBar;</mo>
</mover>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>0</mn>
</mtd>
<mtd>
<mrow>
<mi>a</mi>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
<mo>&NotElement;</mo>
<msub>
<mi>v</mi>
<mover>
<mi>i</mi>
<mo>&OverBar;</mo>
</mover>
</msub>
<mo>&cap;</mo>
<msub>
<mi>C</mi>
<mover>
<mi>j</mi>
<mo>&OverBar;</mo>
</mover>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
其中,为聚类后的第个簇, 表示第个簇中第个节点;
(6.2)、定义为第t次迭代后的属性a(l)权重系数,则属性a(l)的t+1次权重系数更新为:
<mrow>
<msubsup>
<mi>&alpha;</mi>
<mrow>
<mi>a</mi>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>t</mi>
<mo>+</mo>
<mn>1</mn>
</mrow>
</msubsup>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mn>2</mn>
</mfrac>
<mrow>
<mo>(</mo>
<msubsup>
<mi>&alpha;</mi>
<mrow>
<mi>a</mi>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
</mrow>
<mi>t</mi>
</msubsup>
<mo>+</mo>
<msubsup>
<mi>&Delta;&alpha;</mi>
<mrow>
<mi>a</mi>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
</mrow>
<mi>t</mi>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
其中,表示第t次迭代中属性a(l)的增值;
<mrow>
<msubsup>
<mi>&Delta;&alpha;</mi>
<mrow>
<mi>a</mi>
<mrow>
<mo>(</mo>
<mi>l</mi>
<mo>)</mo>
</mrow>
</mrow>
<mi>t</mi>
</msubsup>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mover>
<mi>j</mi>
<mo>&OverBar;</mo>
</mover>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</msubsup>
<msub>
<mi>&Sigma;</mi>
<mrow>
<msub>
<mi>v</mi>
<mover>
<mi>i</mi>
<mo>&OverBar;</mo>
</mover>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mover>
<mi>j</mi>
<mo>&OverBar;</mo>
</mover>
</msub>
</mrow>
</msub>
<msub>
<mi>vote</mi>
<mi>l</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>v</mi>
<mover>
<mi>i</mi>
<mo>&OverBar;</mo>
</mover>
</msub>
<mo>)</mo>
</mrow>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>C</mi>
<mover>
<mi>j</mi>
<mo>&OverBar;</mo>
</mover>
</msub>
<mo>,</mo>
<msub>
<mi>v</mi>
<mover>
<mi>i</mi>
<mo>&OverBar;</mo>
</mover>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>l</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</msubsup>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mover>
<mi>j</mi>
<mo>&OverBar;</mo>
</mover>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</msubsup>
<msub>
<mi>&Sigma;</mi>
<mrow>
<msub>
<mi>v</mi>
<mover>
<mi>i</mi>
<mo>&OverBar;</mo>
</mover>
</msub>
<mo>&Element;</mo>
<msub>
<mi>C</mi>
<mover>
<mi>j</mi>
<mo>&OverBar;</mo>
</mover>
</msub>
</mrow>
</msub>
<msub>
<mi>vote</mi>
<mi>l</mi>
</msub>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>C</mi>
<mover>
<mi>j</mi>
<mo>&OverBar;</mo>
</mover>
</msub>
<mo>,</mo>
<msub>
<mi>v</mi>
<mover>
<mi>i</mi>
<mo>&OverBar;</mo>
</mover>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
(7)、待属性a(l)的t+1次权重系数更新后,返回步骤(3.1),重新更新属性层的权重系数,再利用AP算法进行聚类操作,直到达到预设的迭代次数或αa(l)保持不变时,迭代停止。
2.根据权利要求1所述的基于属性融合的图聚类方法,其特征在于,所述的余弦相似度cos(X,Y)是一个介于[0,1]之间的数,最大的相似度为1,最大的相异度为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710507324.8A CN107273934A (zh) | 2017-06-28 | 2017-06-28 | 一种基于属性融合的图聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710507324.8A CN107273934A (zh) | 2017-06-28 | 2017-06-28 | 一种基于属性融合的图聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107273934A true CN107273934A (zh) | 2017-10-20 |
Family
ID=60070335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710507324.8A Pending CN107273934A (zh) | 2017-06-28 | 2017-06-28 | 一种基于属性融合的图聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107273934A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107958055A (zh) * | 2017-11-29 | 2018-04-24 | 上海电机学院 | 一种基于互信息的图像属性关系的表示方法 |
CN108399268A (zh) * | 2018-03-29 | 2018-08-14 | 浙江大学 | 一种基于博弈论的增量式异构图聚类方法 |
CN109657016A (zh) * | 2018-12-30 | 2019-04-19 | 南京邮电大学盐城大数据研究院有限公司 | 一种属性图模型中挖掘满足同质性要求的属性的方法 |
CN110223351A (zh) * | 2019-05-30 | 2019-09-10 | 杭州蓝芯科技有限公司 | 一种基于卷积神经网络的深度相机定位方法 |
CN110417594A (zh) * | 2019-07-29 | 2019-11-05 | 吉林大学 | 网络构建方法、装置、存储介质及电子设备 |
CN110740177A (zh) * | 2019-10-12 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 网络合并方法和装置、存储介质及电子装置 |
CN110874607A (zh) * | 2018-08-31 | 2020-03-10 | 浙江大学 | 一种网络节点的聚类方法及装置 |
CN111884832A (zh) * | 2020-06-29 | 2020-11-03 | 华为技术有限公司 | 一种获取无源网络拓扑信息的方法及相关设备 |
CN112131261A (zh) * | 2020-10-09 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 基于社区网络的社区查询方法、装置和计算机设备 |
-
2017
- 2017-06-28 CN CN201710507324.8A patent/CN107273934A/zh active Pending
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107958055A (zh) * | 2017-11-29 | 2018-04-24 | 上海电机学院 | 一种基于互信息的图像属性关系的表示方法 |
CN108399268A (zh) * | 2018-03-29 | 2018-08-14 | 浙江大学 | 一种基于博弈论的增量式异构图聚类方法 |
CN110874607A (zh) * | 2018-08-31 | 2020-03-10 | 浙江大学 | 一种网络节点的聚类方法及装置 |
CN109657016A (zh) * | 2018-12-30 | 2019-04-19 | 南京邮电大学盐城大数据研究院有限公司 | 一种属性图模型中挖掘满足同质性要求的属性的方法 |
CN110223351A (zh) * | 2019-05-30 | 2019-09-10 | 杭州蓝芯科技有限公司 | 一种基于卷积神经网络的深度相机定位方法 |
CN110417594A (zh) * | 2019-07-29 | 2019-11-05 | 吉林大学 | 网络构建方法、装置、存储介质及电子设备 |
CN110417594B (zh) * | 2019-07-29 | 2020-10-27 | 吉林大学 | 网络构建方法、装置、存储介质及电子设备 |
CN110740177A (zh) * | 2019-10-12 | 2020-01-31 | 腾讯科技(深圳)有限公司 | 网络合并方法和装置、存储介质及电子装置 |
CN110740177B (zh) * | 2019-10-12 | 2021-08-06 | 腾讯科技(深圳)有限公司 | 网络合并方法和装置、存储介质及电子装置 |
CN111884832A (zh) * | 2020-06-29 | 2020-11-03 | 华为技术有限公司 | 一种获取无源网络拓扑信息的方法及相关设备 |
CN111884832B (zh) * | 2020-06-29 | 2022-06-14 | 华为技术有限公司 | 一种获取无源网络拓扑信息的方法及相关设备 |
CN112131261A (zh) * | 2020-10-09 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 基于社区网络的社区查询方法、装置和计算机设备 |
CN112131261B (zh) * | 2020-10-09 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 基于社区网络的社区查询方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273934A (zh) | 一种基于属性融合的图聚类方法 | |
CN110807154B (zh) | 一种基于混合深度学习模型的推荐方法与系统 | |
Qian et al. | Mining regional co-location patterns with k NNG | |
CN108681557B (zh) | 基于自扩充表示和相似双向约束的短文本主题发现方法及系统 | |
Ban et al. | Micro-directional propagation method based on user clustering | |
CN109409128B (zh) | 一种面向差分隐私保护的频繁项集挖掘方法 | |
CN109389151A (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN109190030B (zh) | 融合node2vec和深度神经网络的隐式反馈推荐方法 | |
WO2014109127A1 (ja) | インデックス生成装置及び方法並びに検索装置及び検索方法 | |
CN112182424A (zh) | 一种基于异构信息和同构信息网络融合的社交推荐方法 | |
CN105512277B (zh) | 一种面向图书市场书名的短文本聚类方法 | |
CN107092837A (zh) | 一种支持差分隐私的频繁项集挖掘方法和系统 | |
CN112417313A (zh) | 一种基于知识图卷积网络的模型混合推荐方法 | |
CN113626723B (zh) | 一种基于表示学习的属性图社区搜索方法和系统 | |
WO2020228536A1 (zh) | 图标生成方法及装置、获取图标的方法、电子设备以及存储介质 | |
CN114565053A (zh) | 基于特征融合的深层异质图嵌入模型 | |
US20220245510A1 (en) | Multi-dimensional model shape transfer | |
CN114329222B (zh) | 一种融合注意力机制和双端知识图谱的电影推荐方法 | |
Sun et al. | Graph force learning | |
Sun | Personalized music recommendation algorithm based on spark platform | |
Qi et al. | A multiscale convolutional gragh network using only structural information for entity alignment | |
CN111898039B (zh) | 一种融合隐藏关系的属性社区搜索方法 | |
Shu et al. | Localized curvature-based combinatorial subgraph sampling for large-scale graphs | |
CN118038032A (zh) | 基于超点嵌入和聚类的点云语义分割模型及其训练方法 | |
Su et al. | Semantically guided projection for zero-shot 3D model classification and retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20171020 |
|
RJ01 | Rejection of invention patent application after publication |