CN111931023A - 一种基于网络嵌入的社团结构识别方法及装置 - Google Patents
一种基于网络嵌入的社团结构识别方法及装置 Download PDFInfo
- Publication number
- CN111931023A CN111931023A CN202010625391.1A CN202010625391A CN111931023A CN 111931023 A CN111931023 A CN 111931023A CN 202010625391 A CN202010625391 A CN 202010625391A CN 111931023 A CN111931023 A CN 111931023A
- Authority
- CN
- China
- Prior art keywords
- node
- network
- matrix
- similarity matrix
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 239000011159 matrix material Substances 0.000 claims abstract description 341
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 23
- 239000013598 vector Substances 0.000 claims description 72
- LVBUDMVWXFSTOH-KBUPBQIOSA-N (5r,6r,7r,8s)-8-acetamido-6,7-dihydroxy-5-(hydroxymethyl)-n-phenyl-5,6,7,8-tetrahydroimidazo[1,2-a]pyridine-2-carboxamide Chemical compound N1([C@H](CO)[C@@H](O)[C@H](O)[C@H](C1=N1)NC(=O)C)C=C1C(=O)NC1=CC=CC=C1 LVBUDMVWXFSTOH-KBUPBQIOSA-N 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 36
- 238000010586 diagram Methods 0.000 description 22
- 238000004422 calculation algorithm Methods 0.000 description 16
- 230000000694 effects Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 241001481833 Coryphaena hippurus Species 0.000 description 6
- 238000005065 mining Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000003064 k means clustering Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- 241001125840 Coryphaenidae Species 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 235000005156 Brassica carinata Nutrition 0.000 description 1
- 244000257790 Brassica carinata Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于网络嵌入的社团结构识别方法及装置,涉及人工智能与复杂网络领域。用以解决现有节点的低维表示不能捕捉到社团结构信息以及结构相似性的问题。该方法包括:根据网络的邻接矩阵确定网络的一阶相似性矩阵和二阶相似形矩阵;根据互为邻居节点的两个节点确定网络的Dice’s相似度矩阵;根据网络的导出子图以及自轨道的数量,确定网络的结构相似性矩阵;根据一阶相似性矩阵、二阶相似性矩阵、Dice’s相似度矩阵和结构相似性矩阵确定网络的最终相似性矩阵;根据非负矩阵分解、最终相似性矩阵、社团成员指导矩阵和社团低维表示矩阵,得到节点的低维表示矩阵;根据k‑means对节点的低维表示矩阵进行聚类,得到网络的社团划分。
Description
技术领域
本发明涉及人工智能与复杂网络领域,更具体的涉及一种基于网络嵌入的社团结构识别方法及装置。
背景技术
现实世界中的一些复杂的关系可以由网络来描述,对于网络中的实体可以用抽象网络中的节点来表示,而对于实体间的联系则可以用边来描述。利用复杂网络对现实世界建模是一种非常有效的方法。复杂网络利用科学的研究手段将现实世界中的数据以一种易于理解和应用的方式来呈现,也正因如此,目前对复杂网络的研究受到广泛的关注。在复杂网络中,网络中的社团结构是其中最重要的特征之一,是揭示整个网络结构、功能以及动态变化的重要方法。此外,对现实世界网络中的社团结构进行识别往往能够揭露出一些以往未发掘的信息,这对理解现实世界存在的一些自然行为具有一定的指导意义。
在现实世界中,复杂网络中的社交网络分析是具有很高应用价值的研究热点之一,随着互联网的普及和人民生活水平的提高,人们之间的交流越发频繁和复杂,一些社交问题日益凸显,例如人们之间的交互难以理解,具有特定社交属性的人群难以发现,群体合作方式构建困难,并且这些问题已经成为削弱经济活力的瓶颈之一,制约了经济发展。针对上述问题,可以采用基于复杂网络的分析手段,利用网络中社团结构识别的方法,对社交网络进行社团识别,从而可以分析不同人群的社团聚集特征,不仅可以理解人们之间的一些社交交互,而且还可发现具有特定社交属性的人群,进而提高社会的合作效率。此外,除了社交网络,其它一些诸如电商网络中的购物关系网络也是新兴的研究之一。
随着物流和互联网技术的进步,人们参与在网络中购物的行为越来越频繁。通过研究人们之间的购物网络,可以更好的对被同类人群喜欢的物品进行归类。普遍认为,具有相似兴趣爱好的人往往具有形似的购物行为特征。如果某人购买了某件商品A后又买了商品B,而买了商品B的人又喜欢买商品C,那么对商品A和B这种关系抽象成边,对商品抽象成节点的话。很容易发现被同类人群喜欢的商品之间的连接比不同兴趣人群之间的连接更为紧密。针对这个特点,利用复杂网络中社团检测的方法,对购物关系网络进行识别,从而将一些被某特定人群喜欢的商品归类,这对提高电商经营者的销售量和增强消费者的消费体验有着很重要的意义。
此外,利用社团识别技术可以理解网络的拓扑结构,并且解决很多重要任务,如预测两种蛋白质之间的互动关系、分析生物学中基因组序列的作用、揭示不同万维网的主题、指出社会媒体的传播行为等。针对复杂网络中社团的识别,目前已经出现了很多优秀的算法,但是大多数都是直接对网络的邻接矩阵进行分析。此外,直接对网络的原始邻接矩阵进行分析会导致信息冗余,增加噪声等缺点。实际上网络中包含了大量隐含信息,这些隐含信息不能够被直接基于原始网络邻接矩阵进行分析的方法识别。例如:结构相似性。比如两个大学的校长他们没有直接联系,但由于他们有相似的功能而展现出相似的网络结构。因此,能够捕捉到更多网络隐含的信息成为复杂网络中社团识别新的一项挑战。
传统直接分析原始网络邻接矩阵的社团结构识别算法主要分为两大类别:基于启发式的算法和基于优化策略的算法。1.基于启发式算法的研究,其基本假设是在一个网络的动态过程,如马尔可夫链,在这个动态的过程中,社团划分将得到输出,虽然马尔科夫聚类算法已被扩展到解决重叠群落和有向图的社团划分,但不足之处是基于Markov链的扩大不均匀性的动态过程在现有的研究中没有得到解决,这限制了该类算法的应用;2.基于优化策略的算法,其思想旨在设计并优化一些精心设计的目标函数来得到社团划分,一些常见和著名的指标如模块度或似然函数经常被用来当成优化函数,然而,其准确性和计算成本限制了其应用。此外,这两类算法直接研究原始网络的邻接矩阵来识别社团结构,没有充分考虑网络中节点之间的内在关系。
综上所述,现有的社团结构识别方法因没有考虑网络中节点之间的关系,导致节点的低维表示不能捕捉到社团结构信息以及结构相似性的问题。
发明内容
本发明实施例提供一种基于网络嵌入的社团结构识别方法及装置,用以解决现有的社团结构识别方法因没有考虑网络中节点之间的关系,导致节点的低维表示不能捕捉到社团结构信息以及结构相似性的问题。
本发明实施例提供一种基于网络嵌入的社团结构识别方法,包括:根据网络的邻接矩阵确定所述网络的一阶相似性矩阵和所述网络的二阶相似形矩阵;
根据互为邻居节点的两个节点对应的公共邻居节点,以及两个所述节点分别对应的邻居节点,确定所述网络的Dice’s相似度矩阵;
根据所述网络的导出子图以及所述导出子图包括的自轨道的数量,确定所述网络的结构相似性矩阵;
根据所述网络的一阶相似性矩阵、所述网络的二阶相似性矩阵、所述网络的Dice’s相似度矩阵和所述网络的结构相似性矩阵确定所述网络的最终相似性矩阵;
根据NMF非负矩阵分解、所述最终相似性矩阵、社团成员指导矩阵和社团低维表示矩阵,得到所述节点的低维表示矩阵;
根据k-means对所述节点的低维表示矩阵进行聚类,得到所述网络的社团划分。
优选地,所述网络的最终相似性矩阵如下所示:
其中,S为所述网络的最终相似性矩阵,S(1)为所述网络的一阶相似性矩阵,S(2)为,Sequ为所述网络的结构相似性矩阵,Sdice为所述网络的Dice’s相似度矩阵,η为平衡二阶相似性矩阵贡献的系数,θ为平衡结构相似性矩阵贡献的系数,为平衡Dice’s相似度矩阵贡献的系数。
优选地,所述根据互为邻居节点的两个节点对应的公共邻居节点,以及两个所述节点分别对应的邻居节点,确定所述网络的Dice’s相似度矩阵,具体包括:
确认节点vi和节点vj的公共邻居节点的数量,节点vi的邻居节点的数量以及节点vj的邻居节点的数量;根据下列公式确认所述节点vi和所述节点vj的Dice’s相似度数值:
其中,为节点vi和节点vjDice’s相似度数值,|CommonNeihbor(vi,vj)|表示节点vi和节点vj公共邻居节点的数量,|Neighbor(vi)|表示节点vi的邻居节点的数量,|Neighbor(vj)|表示节点vj的邻居节点的数量;
根据所述节点vi和所述节点vj在相似度矩阵Sdice的位置,将所述节点vi和所述节点vj的Dice’s相似度数值添加到所述相似度矩阵Sdice中,得到所述网络的Dice’s相似度矩阵。
优选地,所述根据所述网络的导出子图以及所述导出子图包括的自轨道的数量,确定所述网络的结构相似性矩阵之前,还包括:
根据导出子图包括的节点的位置关系,确认所述导出子图包括的自轨道的数量,将所述自轨道的数量确认为所述网络的包括的列向量的总数;
通过下列公式确认所述导出子图包括的节点vi属于第k列的自轨道的次数:
其中,GDV(i)为列向量,GDVk(i)为节点vi在列向量GDV(i)中第k列的取值,1≤k≤自轨道数+1,为全部节点在列向量GDV(i)中第k列的GDV平均值,n为导出子图包括的全部节点的总数,为求方差。
优选地,所述根据所述网络的导出子图以及所述导出子图包括的自轨道数量,确定所述网络的结构相似性矩阵,具体包括:
根据k的取值范围,依次确认所述节点vi在每个列向量包括的自轨道的次数,将所述节点vi在每个列向量包括的自轨道的次数确定为所述节点vi标准化行向量;
根据所述节点vi的标准化行向量和所述节点vj的标准化行向量的余弦距离,确定所述节点vi和所述节点vj的结构相似性数值;
将所述节点vi和所述节点vj的结构相似性数值添加到结构相似性矩阵的第i行第j列,得到所述网络的结构相似性矩阵。
优选地,所述根据NMF非负矩阵分解、所述最终相似性矩阵、社团成员指导矩阵和社团低维表示矩阵,得到所述节点的低维表示矩阵之前,还包括:
根据所述最终相似性矩阵、社团成员指导矩阵和社团低维表示矩阵,得到总体目标函数:
s.t.,M≥0,U≥0,H≥0,C≥0,tr(HTH)=n
其中,H∈Rn×k为所述社团成员指导矩阵,H的每一行为社团隶属向量,每一行只有一个元素为1,且tr(HTH)=n,B=Rn×n,其中,C=Rk×m为k个所述社团低维表示矩阵,S(1)为所述网络的一阶相似性矩阵,S(2)为,Sequ为所述网络的结构相似性矩阵,Sdice为所述网络的Dice’s相似度矩阵,η为平衡二阶相似性矩阵贡献的系数,θ为平衡结构相似性矩阵贡献的系数,为平衡Dice’s相似度矩阵贡献的系数,为NMF分解过程,||H-UCT||为最小化项,tr(HTBH)为模块度项,M为分解得到的基矩阵。
优选地,所述根据NMF非负矩阵分解、所述最终相似性矩阵、社团成员指导矩阵和社团低维表示矩阵,得到所述节点的低维表示矩阵,具体包括:
当所述总体目标函数的增长量小于设定阈值时,则从所述总体目标函数中输出所述节点的低维表示矩阵;或者
当所述总体目标函数的增长量大于设定阈值,且迭代次数t小于最大迭代次数T,则根据所述NMF非负矩阵分解、所述最终相似性矩阵、所述社团成员指导矩阵和所述社团低维表示矩阵,再次确认所述总体目标函数。
本发明实施例还提供一种基于网络嵌入的社团结构识别装置,包括:
第一确定单元,用于根据网络的邻接矩阵确定所述网络的一阶相似性矩阵和所述网络的二阶相似形矩阵;
第二确定单元,用于根据互为邻居节点的两个节点对应的公共邻居节点,以及两个所述节点分别对应的邻居节点,确定所述网络的Dice’s相似度矩阵;
第三确定单元,用于根据所述网络的导出子图以及所述导出子图包括的自轨道的数量,确定所述网络的结构相似性矩阵;
第四确定单元,用于根据所述网络的一阶相似性矩阵、所述网络的二阶相似性矩阵、所述网络的Dice’s相似度矩阵和所述网络的结构相似性矩阵确定所述网络的最终相似性矩阵;
第一得到单元,用于根据NMF非负矩阵分解、所述最终相似性矩阵、社团成员指导矩阵和社团低维表示矩阵,得到所述节点的低维表示矩阵;
第二得到单元,用于根据k-means对所述节点的低维表示矩阵进行聚类,得到所述网络的社团划分。
优选地,所述第四确定单元具体用于:
其中,S为所述网络的最终相似性矩阵,S(1)为所述网络的一阶相似性矩阵,S(2)为,Sequ为所述网络的结构相似性矩阵,Sdice为所述网络的Dice’s相似度矩阵,η为平衡二阶相似性矩阵贡献的系数,θ为平衡结构相似性矩阵贡献的系数,为平衡Dice’s相似度矩阵贡献的系数。
优选地,所述第三确定单元具有用于:
根据导出子图包括的节点的位置关系,确认所述导出子图包括的自轨道的数量,将所述自轨道的数量确认为所述网络的包括的列向量的总数;
通过下列公式确认所述导出子图包括的节点vi属于第k列的自轨道的次数:
其中,GDV(i)为列向量,GDVk(i)为节点vi在列向量GDV(i)中第k列的取值,1≤k≤自轨道数+1,为全部节点在列向量GDV(i)中第k列的GDV平均值,n为导出子图包括的全部节点的总数,为求方差。
本发明实施例提供一种基于网络嵌入的社团结构识别方法,包括:根据网络的邻接矩阵确定所述网络的一阶相似性矩阵和所述网络的二阶相似形矩阵;根据互为邻居节点的两个节点对应的公共邻居节点,以及两个所述节点分别对应的邻居节点,确定所述网络的Dice’s相似度矩阵;根据所述网络的导出子图以及所述导出子图包括的自轨道数量,确定所述网络的结构相似性矩阵;根据所述网络的一阶相似性矩阵、所述网络的二阶相似性矩阵、所述网络的Dice’s相似度矩阵和所述网络的结构相似性矩阵确定所述网络的最终相似性矩阵;根据NMF非负矩阵分解、所述最终相似性矩阵、社团成员指导矩阵和社团低维表示矩阵,得到所述节点的低维表示矩阵;根据k-means对所述节点的低维表示矩阵进行聚类,得到所述网络的社团划分。该方法通过通过非负矩阵分解,能够捕获到网络中节点间一阶相似性、二阶相似性、Dice’s相似以及结构相似性;通过交替优化策略,能够得到蕴涵丰富信息的节点的低维向量表示矩阵,通过对这些节点的低维向量表示进行k-means聚类,可以输出较高网络社团结构;通过将模块度最大化思想与能够捕捉到多种相似性矩阵的非负矩阵分解方法相结合,解决了现有的社团结构识别方法因没有考虑网络中节点之间的关系,导致节点的低维表示不能捕捉到社团结构信息以及结构相似性的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于网络嵌入技术的网络社团结构识别方法流程示意图;
图2为本发明实施例提供的一阶和二阶相似度计算图解示意图;
图3为本发明实施例提供的Dice’s相似性矩阵计算图解示意图;
图4为本发明实施例提供的结构相似性的导出子图和自轨道的计算图解示意图;
图5为本发明实施例提供的网络结构示意图;
图6为本发明实施例提供的一种基于网络嵌入技术的网络社团结构识别方法详细流程示意图;
图7为本发明实施例提供的美国跆拳道社交网络上的社团挖掘效果示意图;
图8为本发明实施例提供的海豚社交网络上的社团挖掘的效果示意图;
图9为本发明实施例提供的一种基于网络嵌入技术的网络社团结构识别装置示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关概念介绍:
1、社团是由一组节点组成的模块,同一个社团内的包括的节点比不同社团之间的节点联系更加紧密。
2、原图G用G=(V,E)表示,V是G中所有顶点的集合;E是G中所有边的集合。
子图G'中所有顶点和边均包含于原图G,即E'∈E,V'∈V;
生成子图(Spanning Subgraph)G'中顶点个数V'必须与原图G中V的数量相同,而且E'∈E;
导出子图(Induced Subgraph)G',V'∈V,但对于V'中任一顶点,只要在原图G中有对应的边,那么就要出现在E'中;在实际应用中,点导出子图的定义为:若V'∈V,则V'及两端点都在V'中的边合起来为点导出子图,则本发明实施例中所提到的导出子图为点导出子图。
3、模块度Q的定义为社区内部的总边数和网络中总边数的比例减去一个期望值,该期望值是将网络设定为随机网络时同样的社区分配所形成的社区内部的总边数和网络中总边数的比例的大小,其如公式(1)所示:
图1为本发明实施例提供的一种基于网络嵌入技术的网络社团结构识别方法流程示意图;以下详细介绍本发明实施例提供的基于网络嵌入技术的网络社团结构识别方法。
如图1所示,该方法主要包括以下步骤:
步骤101,根据网络的邻接矩阵确定所述网络的一阶相似性矩阵和所述网络的二阶相似形矩阵;
步骤102,根据互为邻居节点的两个节点对应的公共邻居节点,以及两个所述节点分别对应的邻居节点,确定所述网络的Dice’s相似度矩阵;
步骤103,根据所述网络的导出子图以及所述导出子图包括的自轨道的数量,确定所述网络的结构相似性矩阵;
步骤104,根据所述网络的一阶相似性矩阵、所述网络的二阶相似性矩阵、所述网络的Dice’s相似度矩阵和所述网络的结构相似性矩阵确定所述网络的最终相似性矩阵;
步骤105,根据NMF非负矩阵分解、所述最终相似性矩阵、社团成员指导矩阵和社团低维表示矩阵,得到所述节点的低维表示矩阵;
步骤106,根据k-means对所述节点的低维表示矩阵进行聚类,得到所述网络的社团划分。
在步骤101中,输入网络G=(V,E)的邻接矩阵A,其中,V表示节点的集合,E表示边的集合,vi∈V表示网络G中的单个节点,如果vi和vj之间存在一条边,则Ai,j∈A且Ai,j=1否则Ai,j=0。
图2为本发明实施例提供的一阶和二阶相似度计算图解示意图,在实际应用中,一阶相似度由网络中有直接连边的节点对刻画,如图2所示,由于图中节点v5和节点v6之间有直接的连边,所以他们之间存在一阶相似度,进一步地,若两个节点之间没有之间的两边,则两个节点之间不存在一阶相似性,比如节点v4和节点v6之间没有之间的两边,则节点v4和节点v6之间不存在一阶相似性。
在本发明实施例中,采用网络G的邻接矩阵A来计算网络的一阶相似性矩阵,具体如公式(2)所示:
进一步地,二阶相似度由网络中有具有公共邻居的节点对刻画。如图2所示,由于节点v5和节点v4之间存在公共的邻居节点v1、节点v2和节点v3,所以节点v5和节点v4之间存在二阶相似度。
在本发明实施例中,采用一阶相似度矩阵S(1)的余弦相似度矩阵来表示网络的二阶相似性矩阵,具体公式(3)所示:
在步骤102中,根据互为邻居节点的两个节点对应的公共邻居节点,互为邻居节点的每个节点包括的邻居节点,可以确定互为邻居节点的两个节点的Dice’s相似度数值。图3为本发明实施例提供的Dice’s相似性矩阵计算图解示意图,以下以图3为例,介绍如何确定互为邻居节点的两个节点的Dice’s相似度数值。如图3所示,总共包括有6个节点,其中,节点v1、节点v2和节点v3组成一个社团,节点v4、节点v5和节点v6组成一个社团。在本发明实施例中,可以依次确认节点v1和节点v2的Dice’s相似度数值,节点v2和节点v3的Dice’s相似度数值,节点v1和节点v3的Dice’s相似度数值,节点v4和节点v5的Dice’s相似度数值,节点v4和节点v6的Dice’s相似度数值,节点v5和节点v6的Dice’s相似度数值。
在本发明实施例中,在确定两个节点的Dice’s相似度数值时,需要确定两个节点的公共连接节点的数量,每个节点的邻居节点的数量,当确认上述信息之后,可以通过下列公式(5)来确认两个节点的Dice’s相似度数值:
其中,为节点vi和节点vjDice’s相似度数值,也可以称对应于相似度矩阵Sdice中第i行第j列的元素;|CommonNeihbor(vi,vj)|表示节点vi和节点vj公共邻居节点的数量,|Neighbor(vi)|表示节点vi的邻居节点的数量,|Neighbor(vj)|表示节点vj的邻居节点的数量。
如图3所示,若要确认节点v1和节点v2的Dice’s相似度数值,则可以根据图3确认节点v1和节点v2的公共邻居节点数量为1,故|CommonNeighbor(v1,v2)|=1。由于节点v1的邻居节点数量为2,节点v2的邻居节点数量为3,故|Neighbor(v1)|=2,|Neighbor(v2)|=3,根据公式(5)可得到节点v1和节点v2的Dice’s相似度数值为0.4,即
若要确认节点v1和节点v3的Dice’s相似度数值,可以根据图3确认节点v1和节点v3的公共邻居节点数量为1,故|CommonNeighbor(v1,v3)|=1。由于节点v1的邻居节点数量为2,节点v3的邻居节点数量为2,故|Neighbor(v1)|=2,|Neighbor(v3)|=2,根据公式(3)可得节点v1和节点v3的Dice’s相似度数值为0.5,即
若要确认节点v 2和节点v3的Dice’s相似度数值,可以根据图3确认节点v 2和节点v3的公共邻居节点数量为1,故|CommonNeighbor(v2,v3)|=1。由于节点v2的邻居节点数量为3,节点v3的邻居节点数量为2,故|Neighbor(v2)|=3,|Neighbor(v3)|=2,根据公式(3)可得节点v2和节点v3的Dice’s相似度数值为0.4,即
若要确认节点v4和节点v5的Dice’s相似度数值,可以根据图3确认节点v4和节点v5的公共邻居节点数量为1,故|CommonNeighbor(v4,v5)|=1。由于节点v4的邻居节点数量为3,节点v5的邻居节点数量为2,故|Neighbor(v4)|=3,|Neighbor(v5)|=2,根据公式(3)可得节点v4和节点v5的Dice’s相似度数值为0.4,即
若要确认节点v4和节点v6的Dice’s相似度数值,可以根据图3确认节点v4和节点v6的公共邻居节点数量为1,故|CommonNeighbor(v4,v6)|=1。由于节点v4的邻居节点数量为3,节点v6的邻居节点数量为2,故|Neighbor(v4)|=3,|Neighbor(v6)|=2,根据公式(3)可得到节点v4和节点v6的Dice’s相似度数值为0.4,即
若要确认节点v5和节点v6的Dice’s相似度数值,可以根据图3确认节点v5和节点v6的公共邻居节点数量为1,故|CommonNeighbor(v5,v6)|=1。由于节点v5的邻居节点数量为2,节点v6的邻居节点数量为2,故|Neighbor(v5)|=2,|Neighbor(v6)|=2,根据公式(3)可得节点v5和节点v6的Dice’s相似度数值为0.5,即
进一步地,当确认网络内互为邻居节点的两个节点的Dice’s相似度数值之后,则可以根据互为邻居节点的两个节点确认的Dice’s相似度数值以及上述两个节点在相似度矩阵Sdice中的具体位置,将两个节点的Dice’s相似度数值添加到相似度矩阵Sdice中;根据上述方法,依次将多组两个节点的Dice’s相似度数值添加到相似度矩阵Sdice中,最后就得到了网络的Dice’s相似度矩阵。
如图3所示,根据公式(5)已经确认了图3中互为邻居节点的多个节点的Dice’s相似度数值,进一步地,可以根据确认的Dice’s相似度数值在相似度矩阵中Sdice的位置关系,将Dice’s相似度数值添加到相似度矩阵中。比如,节点v1和节点v2的Dice’s相似度数值在相似度矩阵Sdice中的位置为第1列第2行和第2列第1行;节点v2和节点v3的Dice’s相似度数值在相似度矩阵Sdice中的位置为第2列第3行和第3列第2行;节点v1和节点v3的Dice’s相似度数值在相似度矩阵Sdice中的位置为第1列第3行和第3列第1行;节点v4和节点v5的Dice’s相似度数值在相似度矩阵Sdice中的位置为第4列第5行和第5列第4行;节点v4和节点v6的Dice’s相似度数值在相似度矩阵Sdice中的位置为第4列第6行和第6列第4行;节点v5和节点v6的Dice’s相似度数值在相似度矩阵Sdice中的位置为第5列第6行和第6列第5行。由于其他节点之间不存在Dice’s相似度数值,在相似度矩阵Sdice将这些位置的数值确认为0,基于此,就可以得到网络的Dice’s相似度矩阵,具体如下列公式(6)所示:
在步骤103中,确认网络的导出子图,根据导出子图包括的节点的位置关系,确认导出子图包括的自轨道的数量,在本发明实施例中,将自轨道的数量确认为网络的列向量的总数。比如,若确认导出子图包括的自轨道的数量为10,则网络的包括的列向量为10。
图4为本发明实施例提供的结构相似性的导出子图和自轨道的计算图解示意图,以下结合图4详细介绍确认网络的结构相似性矩阵的过程。
在本发明实施例中,根据导出子图包括的节点的位置关系,确认导出子图包括的自轨道的数量,进一步地,将导出子图包括的自轨道的数量确认为网络包括的列向量的总数,根据下列公式(7)确认导出子图包括的节点属于第k列的自轨道的次数:
其中,GDV(i)为列向量,GDVk(i)为节点vi在列向量GDV(i)中第k列的取值,1≤k≤自轨道数+1,为全部节点在列向量GDV(i)中第k列的GDV平均值,n为导出子图包括的全部节点的总数,为求方差。
进一步地,当确认了节点属于第k列的自轨道的次数之后,根据k的取值范围,依次确认该节点在每个列向量包括的自轨道的次数,将确认的节点在每个列向量包括的自轨道的次数确定为节点的标准化行向量。根据确定的两个节点的标准化行向量的余弦距离,可以确定两个节点的结构相似性数值;当确定两个节点的结构相似性数值之后,可以根据两个节点的结构相似性数值以及上述两个节点在结构相似性矩阵中的具体位置,将上述两个节点的结构相似性数值添加到结构相似性矩阵;根据上述方法,依次将多组两个节点的结构相似性数值添加到结构相似性矩阵,最后就得到网络的结构相似性矩阵。
举例来说,如图4所示,图中包括有2节点导出子图G0、3节点导出子图G1和G2、4节点导出子图G3,G4,G5,G6,G7,G8,即图4中包括有9个导出子图,根据图中节点的位置关系,可以确定图4包括的自轨道的数量为15个。
以下以图4中G1为例:将G1中三个节点自左至右,自上至下编号为节点v1、节点v2和节点v3。
根据GDV(i)的定义可以确定,GDV(V1)=(1,0,1,0,0,0,0,0,0,0,0,0,0,0,0),
GDV(V2)=(2,1,0,0,0,0,0,0,0,0,0,0,0,0,0),GDV(V3)=(1,0,1,0,0,0,0,0,0,0,0,0,0,0,0),由于每个列向量中的15列依次代表该节点归属于不同自轨道的次数。根据GDV(V1)=(1,0,1,0,0,0,0,0,0,0,0,0,0,0,0),可以确定节点v1属于自轨道编号为0的次数为1次,节点v1属于自轨道编号为2的次数为1次,节点v1并不属于其他13个自轨道编号;相应地,根据GDV(V2)=(2,1,0,0,0,0,0,0,0,0,0,0,0,0,0),可以确定节点v2属于自轨道编号为0的次数为2次,节点v2属于自轨道编号为1的次数为1次,节点v2并不属于其他13个自轨道编号;进一步地,根据GDV(V3)=(1,0,1,0,0,0,0,0,0,0,0,0,0,0,0),可以确定节点v3属于自轨道编号为0的次数为1次,节点v3属于自轨道编号为2的次数为1次,节点v3并不属于其他13个自轨道编号。
在本发明实施例中,由于GDVk(i)表示节点vi在列向量GDV(i)中第k列的取值,因此,在该这个例子中,若当k=0时,则可以确认GDV0(1)=1,GDV0(2)=2,GDV0(3)=1,因此根据公式可以确认其中,表示节点v1、节点v2和节点v33个节点在第0列中的平均GDV值为接着可以根据公式依次确认节点v1对应的σ0值,节点v2对应的σ0值,节点v3对应的σ0值。
根据上述过程,确定了当k=0时,节点v1的SGDV0(1)值;节点v2的SGDV0(2)值、节点v3的SGDV0(3)值;进一步地,根据上述过程,可以依次确认k=1时,节点v1的SGDV1(1)值;节点v2的SGDV1(2)值、节点v3的SGDV1(3)值;k=2时,节点v1的SGDV2(1)值;节点v2的SGDV2(2)值、节点v3的SGDV2(3)值;依次类推,最后确认当k=14时,节点v1的SGDV14(1)值;节点v2的SGDV14(2)值、节点v3的SGDV14(3)值。
然后将节点v1对应的SGDV0(1)、SGDV1(1).......SGDV14(1)组合在一起,确定为节点v1的结构性相似向量值SGDV(1);将节点v2对应的SGDV0(2)、SGDV1(2).......SGDV14(2)组合在一起,确等为节点v2的结构性相似向量值SGDV(2);将节点v3对应的SGDV0(3)、SGDV1(3).......SGDV14(3)组合在一起,确定为节点v3的结构性相似向量值SGDV(3)。
进一步地,可以确定节点v1的结构性相似向量值SGDV(1)和节点v2的的结构性相似向量值SGDV(2)的余弦距离,将节点v1的结构性相似向量值SGDV(1)和节点v2的的结构性相似向量值SGDV(2)的余弦距离确认为节点v1和节点v2的结构相似性数值,由于节点v1和节点v2的结构相似性数值表示该数值在结构相似性矩阵中的位置为第1列第2行和第2行第1列,因此,可以再次确认节点v1和节点v3的结构相似性数值、节点v2和节点v3的结构相似性数值。从而可以得到网络的结构相似性矩阵。
图5为本发明实施例提供的网络结构示意图,以下结合图4和图5,再次说明本发明实施例提供的结构相似性矩阵的确定方法。
需要说明的是,图5所提供的网络包括有6个节点,图4是标准对比图,即根据图4所提供的导出子图,确定图5的包括的网络的结构相似性矩阵,具体地,包括以下步骤:
第一步:确定图5中包括的每个每个节点分别对应于15个自轨道的次数。
它们的值分别对应于GDV(i)中的每一列。6个节点分别对应于15个自轨道的次数如下:
GDV(v1)=(1,0,1,0,1,0,0,0,0,0,0,0,0,0,0);
GDV(v2)=(2,1,1,0,1,1,0,0,0,0,0,0,0,0,0);
GDV(v3)=(2,1,2,0,1,2,0,0,0,0,0,0,0,0,0);
GDV(v4)=(2,1,2,0,1,2,0,0,0,0,0,0,0,0,0);
GDV(v5)=(2,1,1,0,1,1,0,0,0,0,0,0,0,0,0);
GDV(v6)=(1,0,1,0,1,0,0,0,0,0,0,0,0,0,0);
以下以GDV(v1)和GDV(v3)为例,介绍如何确认节点的自轨道次数的方法:
如:GDV(v1)=(1,0,1,0,1,0,0,0,0,0,0,0,0,0,0),其中,第一列的1对应于节点v1属于自轨道0的次数为1,第二列的0对应于节点v1属于自轨道1的次数为0,如图4所示,自轨道1的要求是左右两边都要有节点连接,而在图5中节点v1无论如何都找不到这种连接模式;第三列的1对应于该节点v1属于自轨道2的次数为1,如图4所示,自轨道2的要求是3个节点连接起来组成的模式,如图5所示,节点v1、节点v2和节点v3连接起来刚好组成该模式,且节点v1的位置也刚刚好可以对应到自轨道2的那种连接模式;第四列的0对应于该节点属于自轨道3的次数为0,可以观察到,图5根本不存在三角形连接状态,因此节点v1更不能组成三角形形状;第五列的1对应于该节点属于自轨道4的次数为1,如图4所述,自轨道4的要求是4个节点连接组成的模式,如图5所述,节点v1、节点v2、节点v3和节点v4连接起来刚好组成该模式,另外,节点v1、节点v2、节点v3和v4除了这个连接模式之外,找不到其他连接模式可以使得节点1对应于自轨道4,所以该值只能为1而不是其他。另外,其他列值为0,表示该节点找不到对应于剩下的自轨道模式。
再如:GDV(v3)=(2,1,2,0,1,2,0,0,0,0,0,0,0,0,0),第一列的2对应于节点v3属于自轨道0的次数为2,如图5所示,可以有节点v2、节点v3连接组成该模式,也可以由节点v3和节点v4连接组成该模式。在这两种模式中节点3都对应于自轨道0;第二列的1对应于节点v3属于自轨道1的次数为1,因为自轨道1的要求是左右两边都要有节点连接,而节点v3只有一种这种的连接模式,即节点v2、节点v3和节点v4连接组成;第三列的2对应于节点v3属于自轨道2的次数为2,如图5所示,节点v1、节点v2、节点v3连接起来就可以组成该模式并且节点v3刚好对应于自轨道2,另外节点v3、节点v4和节点v5也可以组成这种连接模式;第四列的0对应于节点v3属于自轨道3的次数为0,可以观察到,图5中根本就不存在三角形连接状态,因此节点v3更不能组成三角形形状;第五列的1对应于节点v3属于自轨道4的次数为1,如图5所示,节点v3、节点v4、节点v5和节点v6就可以组成该模式,且节点v3就对应于自轨道4。另外,除了节点v3、节点v4、节点v5和节点v6连接模式之外,找不到其他连接模式可以使得节点v3对应于自轨道4,所以该值只能为1而不是其他;第六列的2对应于该节点属于自轨道5的次数为2,如图5所示,节点v2、节点v3、节点v4、节点v5和节点v6就可以组成该模式,且节点v3就对应于自轨道5。另外,节点v1、节点v2、节点v3和节点v4连接模式中的节点v3也对应于自轨道5,所以该列值为2,即共两次;另外,其他列值为0,表示该节点v3找不到对应于剩下的自轨道模式。
第二步:由于GDVk(i)表示节点vi在列向量GDV(i)中第k列的取值。因此,在该这个例子中,若当k=0时,则可以确认GDV0(1)=1,GDV0(2)=2,GDV0(3)=2,GDV0(4)=2,GDV0(5)=2,GDV0(6)=1,因此根据公式可以确认表示6个节点v1、节点v2、节点v3、节点v4、节点v5和节点v66个节点在第0列中的平均GDV值为
第四步:根据公式确定k=0时,节点v1的SGDV0(1)值,节点v2的SGDV0(2)值、节点v3的SGDV0(3)值,节点v4的SGDV0(4)值,节点v5的SGDV0(5)值,节点v6的SGDV0(6)值。
当确定了k=0时,节点v1的SGDV0(1)值,节点v2的SGDV0(2)值、节点v3的SGDV0(3)值,节点v4的SGDV0(4)值,节点v5的SGDV0(5)值,节点v6的SGDV0(6)值之后,可以根据上述过程,可以依次确认k=1时,节点v1的SGDV1(1)值、节点v2的SGDV1(2)值、节点v3的SGDV1(3)值、节点v4的SGDV1(4)值、节点v5的SGDV1(5)值、节点v6的SGDV1(6)值;k=2时,节点v1的SGDV2(1)值、节点v2的SGDV2(2)值、节点v3的SGDV2(3)值、节点v4的SGDV2(4)值、节点v5的SGDV2(5)值、节点v6的SGDV2(6)值;依次类推,最后确认当k=14时,节点v1的SGDV14(1)值、节点v2的SGDV14(2)值、节点v3的SGDV14(3)值、节点v4的SGDV14(4)值、节点v5的SGDV14(5)值、节点v6的SGDV14(6)值。
然后将节点v1对应的SGDV0(1)、SGDV1(1).......SGDV14(1)组合在一起,确定为节点v1的结构性相似向量值SGDV(1);将节点v2对应的SGDV0(2)、SGDV1(2).......SGDV14(2)组合在一起,确等为节点v2的结构性相似向量值SGDV(2)......将节点v6对应的SGDV0(6)、SGDV1(6).......SGDV14(6)组合在一起,确定为节点v3的结构性相似向量值SGDV(6)。
第五步:若要求得节点vi和节点vj的最终结构相似性值,取这两个向量的余弦即可得到。即取SGDV(i)和SGDV(j)的余弦。此即为节点vi和节点vj的结构相似性值,对所有节点求一遍,即可求得图5所示网络的结构相似性矩阵。
在步骤104中,根据上述3个步骤确定了网络的一阶相似性矩阵、网络的二阶相似性矩阵、网络的Dice’s相似度矩阵和述网络的结构相似性矩阵,将上述矩阵进行相加,即可以得到网络的最终相似性矩阵,网络的最终相似性矩阵如下公式(8)所示:
通过将本发明实施例提出来的网络的最终相似度矩阵作为非负矩阵分解的输入,该方法能够有效地捕捉到网络中节点的低阶和高阶相似性,进而使得本发明实施例提出来的方法能够有效的检测出网络中的社团结构。其中,低阶相似性由一阶相似性,二阶相似性和Dice相似性来捕捉,高阶相似性由结构相似性来捕捉。
在介绍步骤105中,先介绍模块度:模块度的如公式(1)所示:
在实际应用中,由于模块度是衡量社团划分质量的一种指标,其值越高代表社团划分效果越好。因此,一些常见的模块度最大化算法都是把模块度Q当成一个优化指标设计到目标函数里面,不断的优化该指标,即最大化Q来实现最优解。
为了适应本发明实施例提出的模块度最大化策略,H∈Rn×k为所述社团成员指导矩阵,H的每一行为社团隶属向量,每一行只有一个元素为1,并有tr(HTH)=n。如果H的第i行第j列值为1,则说明节点vi属于第j个社团。令B=Rn×n,其中去掉对模块度最大化没有影响的常数,公式(1)可变形得到:
Q=tr(HTBH),s.t. tr(HTH)=n (9)
进一步地,令C=Rk×m为K个社团的低维表示,C的初始值为随机初始化得到,如果节点i越属于社团r,那么向量ui,cr就越相似,即uicr越接近于1,其中,ui为节点vi的低维向量表示,也是低维表示矩阵U=Rn×d中的第i行,即ui∈U。Cr表示第r个社团的低维表示,即ci∈C。由于H为社团指导矩阵,每一行只有一列值为1,代表该行对应的节点属于该列对应的社团。故要得到社团的向量表示和节点的低维表示即要使得UCT越接近于H,其中H的初始值由谱聚类方法得到,即需最小化如下目标函数:
需要说明的是,在更新迭代过程中H和C,以及U的值会不断更新以满足公式(10)。
在步骤105中,根据模块度公式(9)、目标函数公式(10)和最终相似性矩阵公式(8)可以确定整体的目标函数,整体的目标函数如公式(11)所示,
s.t.,M≥0,U≥0,H≥0,C≥0,tr(HTH)=n (11)
在本发明实施例中,若整体的目标函数公式(11)的增长量<设定的阈值p,则可以输出整体目标函数中节点的低维表示矩阵U。
若整体的目标函数公式(11)的增长量大于等于设定的阈值p时,即迭代次数t小于最大迭代次数T,说明此时未达到期望的目标函数增长量小于设定的控制值,且其迭代次数还没有达到用户设定的值T,需要重新执行确定模块度公式(9)的这个步骤,然后根据NMF非负矩阵分解、最终相似性矩阵、社团成员指导矩阵和社团低维表示矩阵,再次确认所述总体目标函数。。
在步骤106中,利用k-means聚类算法对节点的低维矩阵U进行聚类并输出社团划分C={C1,C2,...,Cn};其中k-means为一种聚类算法,可以对向量矩阵进行聚类。由于在得到节点的低维矩阵U中把每个节点用不同的向量来表示,因此把节点的低维矩阵U作为k-means的输入是可以得到节点的聚类结果,即最后得到网络的社团划分。
图6为本发明实施例提供的一种基于网络嵌入技术的网络社团结构识别方法详细流程示意图,为了更加清楚的介绍本发明实施例提供的基于网络嵌入的社团结构识别方法,以下结合图6再次介绍基于网络嵌入的社团结构识别方法:
如图6所示,该方法包括以下步骤;
S1:输入网络G=(V,E)的邻接矩阵A,其中,V表示节点的集合,E表示边的集合,vi∈V表示网络G中的单个节点,如果vi和vj之间存在一条边,则Ai,j∈A且Ai,j=1否则Ai,j=0。
S2:一阶相似度由网络中有直接连边的节点对刻画,如图2所示,由于图中节点v5和节点v6之间有直接的连边,所以他们之间存在一阶相似度,进一步地,若两个节点之间没有之间的两边,则两个节点之间不存在一阶相似性,比如节点v4和节点v6之间没有之间的两边,则节点v4和节点v6之间不存在一阶相似性。
计算网络的一阶相似性矩阵,计算方式采用网络G的邻接矩阵A来刻画,具体如公式(2)所示:
S3:二阶相似度由网络中有具有公共邻居的节点对刻画,如图2所示,由于节点v5和节点v4之间存在公共的邻居节点v1、节点v2和节点v3,所以节点v5和节点v4之间存在二阶相似度。计算网络的二阶相似性矩阵,计算方式采用一阶相似度矩阵S(1)的余弦相似度矩阵来表示,
S4:计算网络内包括的两个节点的的Dice’s相似度数值,可以通过公式(5)表示:
进一步地,根据网络内互为邻居节点的两个节点的Dice’s相似度数值在相似度矩阵Sdice中的具体位置,将两个节点的Dice’s相似度数值添加到相似度矩阵Sdice中。根据上述方法,依次将多组两个节点的Dice’s相似度数值添加到相似度矩阵Sdice中,最后就得到了网络的Dice’s相似度矩阵。
S5:结构相似性由网络的导出子图来刻画。如说明书附图的图4所示,图中展示了4个节点以内的导出子图实例,其中包含了9个导出子图,和15个自轨道数量。根据下列公式(7)确认导出子图包括的节点属于第k列的自轨道的次数:
当确认了节点属于第k列的自轨道的次数之后,根据k的取值范围,依次确认该节点在每个列向量包括的自轨道的次数,将确认的节点在每个列向量包括的自轨道的次数确定为节点的标准化行向量。根据确定的两个节点的标准化行向量的余弦距离,可以确定两个节点的结构相似性数值;当确定两个节点的结构相似性数值之后,可以根据两个节点的结构相似性数值以及上述两个节点在结构相似性矩阵中的具体位置,将上述两个节点的结构相似性数值添加到结构相似性矩阵;根据上述方法,依次将多组两个节点的结构相似性数值添加到结构相似性矩阵,最后就得到网络的结构相似性矩阵。
S6:计算网络的最终相似度矩阵,计算方式如公式(8)所示:
S7:对于多社团情况下模块度Q的计算定义如公式(1)所示。
由于模块度是衡量社团划分质量的一种指标,其值越高代表社团划分效果越好。因此,一些常见的模块度最大化算法都是把模块度Q当成一个优化指标设计到目标函数里面,不断的优化该指标,即最大化Q来实现最优解。为了适应本发明实施例提出的模块度最大化策略,H∈Rn×k为所述社团成员指导矩阵,H的每一行为社团隶属向量,每一行只有一个元素为1,并有tr(HTH)=n。如果H的第i行第j列值为1,则说明节点vi属于第j个社团。令B=Rn×n,其中去掉对模块度最大化没有影响的常数,公式(1)可变形得到:
Q=tr(HTBH),s.t. tr(HTH)=n (9)
S8:令C=Rk×m为K个社团的低维表示,C的初始值为随机初始化得到,如果节点i越属于社团r,那么向量ui,cr就越相似,即uicr越接近于1,其中,ui为节点vi的低维向量表示,也是低维表示矩阵U=Rn×d中的第i行,即ui∈U。Cr表示第r个社团的低维表示,即ci∈C。由于H为社团指导矩阵,每一行只有一列值为1,代表该行对应的节点属于该列对应的社团。故要得到社团的向量表示和节点的低维表示即要使得UCT越接近于H,其中H的初始值由谱聚类方法得到,即需最小化如下目标函数:
S9:根据模块度公式(9)、目标函数公式(10)和最终相似性矩阵公式(8)可以确定整体的目标函数,整体的目标函数如公式(11)所示:
s.t.,M≥0,U≥0,H≥0,C≥0,tr(HTH)=n (11)
S10:当S9中的总体目标函数值的增长量<设定的阈值p,执行S12,否则执行S11;
S11:当迭代次数t小于最大迭代次数T时说明此时未达到S10中期望的目标函数增长量小于设定的控制值,且其迭代次数还没有达到用户设定的值T,因此重新执行S7,否则执行S12。其中t为当前迭代的次数,最大迭代次数T可由用户根据实际情况自行设置。
S12:输出S9目标函数中的节点低维表示矩阵U;
S13:利用k-means聚类算法对节点的低维矩阵U进行聚类并输出社团划分C={C1,C2,...,Cn};其中k-means为一种聚类算法,可以对向量矩阵进行聚类。由于在得到矩阵U中把每个节点用不同的向量来表示,因此把矩阵U作为k-means的输入是可以得到节点的聚类结果,即最后得到网络的社团划分。
表1展示了所测试的真实网络数据集的规模。其中,节点数代表测试网络的节点总数,边数代表测试网络中边的总数,社团数代表测试网络中包含的社团总数。
表1真实网络数据集规模
数据集 | 节点数 | 边数 | 社团数 |
Zacharys karate club | 34 | 78 | 2 |
Dolphins | 62 | 159 | 2 |
Polbooks | 105 | 441 | 3 |
Texas | 187 | 328 | 5 |
Cornell | 195 | 304 | 5 |
Washington | 230 | 446 | 5 |
Wisconsin | 265 | 530 | 5 |
European air-traffic | 339 | 5995 | 4 |
American air-traffic | 1190 | 13599 | 4 |
Amherst | 2021 | 81492 | 15 |
Hamilton | 2118 | 87486 | 15 |
Mich | 2933 | 54903 | 13 |
Rochester | 4145 | 145305 | 19 |
表2展示了多种对比方法和本发明实施例提供的方法(MSE-NMF)在多个真实网络上的社团识别效果对比。表中的结果由以下几个步骤得出:(1)通过运行本发明实施例提供的方法后会得到实验的社团划分结果C={C1,C2,...,Cn};(2)利用NMI来衡量本方法得到的划分结果相对于网络原始的真实划分的准确率,即得到表中的数值。每行中加粗的项表示该方法在对应行的数据集上效果最好。由此看出,本发明实施例提供的MSE-NMF方法在社团识别上的效果优于其它方法。
表2多个方法在真实世界网络上的社团挖掘结果对比(NMI)
表3展示了多种对比方法和本发明实施例提供的的方法(MSE-NMF)在多个真实网络上的社团识别效果对比。表中的结果由以下几个步骤得出:(1)通过运行本发明实施例提供的方法后会得到实验的社团划分结果C={C1,C2,...,Cn};(2)利用ARI来衡量本方法得到的划分结果相对于网络原始的真实划分的准确率,即得到表中的数值。每行中加粗的项表示该方法在对应行的数据集上效果最好。由此看出,除了Rochester网络,本发明实施例提供的MSE-NMF方法在社团识别上的效果优于其它方法。
表3多个方法在真实世界网络上的社团挖掘结果对比(ARI)
图7为本发明实施例提供的美国跆拳道社交网络上的社团挖掘效果示意图,如图7所示,该社交网络本来由一个老板经营,后来老板和教练发生了矛盾,导致该跆拳道俱乐部在两年内解体成了两个俱乐部,分别由原俱乐部老板和教练各经营一个俱乐部。在本发明实施例中,把这两个俱乐部看成两个独立的社团,其中这两个俱乐部共涉及了34名成员。为了使得本发明实施例提出的方法能够准确的识别出这两个社团,首先把这两个俱乐部成员和他们之间的关系抽象成拓扑结构的网络。具体来说,俱乐部成员中的每个成员抽象成一个节点表示。在任意两个成员之间,如果除了在俱乐部的课程或者会议之外还有其他的交互,则这两个人之间就认为存在一种关系,也就是说对应的两个节点之间存在一条连边。通过将该拓扑网络的邻接矩阵作为本发明实施例提供的算法的输入,本发明实施例提供的方法能够完全正确的检测出这两个社团,即两个俱乐部。如图7所示,不同的形状(图中用圆形和方形来表示两个原始社团)表示该跆拳道社交网络中真实存在的两个社团,而通过本发明实施例提供的方法得到的社团划分用不同颜色来表示。由实验结果可知,本发明实施例提供的方法能够完全准确的检测出上述提到的两个的跆拳道俱乐部。
图8为本发明实施例提供的海豚社交网络上的社团挖掘的效果示意图,该海豚社交网络中的每个节点代表一只海豚,每条边代表海豚间的交互。本发明实施例在该海豚社交网络上能够识别出两个不同的社团。不同的形状代表真实的社团划分,不同的颜色表示通过本发明实施例识别出来的颜色。效果显示,除了v39之外,其它节点划分完全正确。这说明,该海豚网络存在两个合作比较密切的团体。
综上所述,本发明实施例提供一种基于网络嵌入的社团结构识别方法,包括:根据网络的邻接矩阵确定所述网络的一阶相似性矩阵和所述网络的二阶相似形矩阵;根据互为邻居节点的两个节点对应的公共邻居节点,以及两个所述节点分别对应的邻居节点,确定所述网络的Dice’s相似度矩阵;根据所述网络的导出子图以及所述导出子图包括的自轨道数量,确定所述网络的结构相似性矩阵;根据所述网络的一阶相似性矩阵、所述网络的二阶相似性矩阵、所述网络的Dice’s相似度矩阵和所述网络的结构相似性矩阵确定所述网络的最终相似性矩阵;根据NMF非负矩阵分解、所述最终相似性矩阵、社团成员指导矩阵和社团低维表示矩阵,得到所述节点的低维表示矩阵;根据k-means对所述节点的低维表示矩阵进行聚类,得到所述网络的社团划分。该方法通过通过非负矩阵分解,能够捕获到网络中节点间一阶相似性、二阶相似性、Dice’s相似以及结构相似性;通过交替优化策略,能够得到蕴涵丰富信息的节点的低维向量表示矩阵,通过对这些节点的低维向量表示,可以输出较高网络社团结构;通过将模块度最大化思想与能够捕捉到多种相似性矩阵的非负矩阵分解方法相结合,解决了现有的社团结构识别方法因没有考虑网络中节点之间的关系,导致节点的低维表示不能捕捉到社团结构信息以及结构相似性的问题。
基于同一发明构思,本发明实施例提供了一种基于网络嵌入技术的网络社团结构识别装置,由于该装置解决技术问题的原理与一种基于网络嵌入技术的网络社团结构识别方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
图9为本发明实施例提供的一种基于网络嵌入技术的网络社团结构识别装置示意图,如图9所示,该装置主要包括有第一确定单元901,第二确定单元902,第三确定单元903,第四确定单元904,第一得到单元905和第二得到单元906,具体地:
第一确定单元901,用于根据网络的邻接矩阵确定所述网络的一阶相似性矩阵和所述网络的二阶相似形矩阵;
第二确定单元902,用于根据互为邻居节点的两个节点对应的公共邻居节点,以及两个所述节点分别对应的邻居节点,确定所述网络的Dice’s相似度矩阵;
第三确定单元903,用于根据所述网络的导出子图以及所述导出子图包括的自轨道的数量,确定所述网络的结构相似性矩阵;
第四确定单元904,用于根据所述网络的一阶相似性矩阵、所述网络的二阶相似性矩阵、所述网络的Dice’s相似度矩阵和所述网络的结构相似性矩阵确定所述网络的最终相似性矩阵;
第一得到单元905,用于根据NMF非负矩阵分解、所述最终相似性矩阵、社团成员指导矩阵和社团低维表示矩阵,得到所述节点的低维表示矩阵;
第二得到单元906,用于根据k-means对所述节点的低维表示矩阵进行聚类,得到所述网络的社团划分。
优选地,所述第四确定单元904具体用于:
其中,S为所述网络的最终相似性矩阵,S(1)为所述网络的一阶相似性矩阵,S(2)为,Sequ为所述网络的结构相似性矩阵,Sdice为所述网络的Dice’s相似度矩阵,η为平衡二阶相似性矩阵贡献的系数,θ为平衡结构相似性矩阵贡献的系数,为平衡Dice’s相似度矩阵贡献的系数。
优选地,所述第三确定单元903具有用于:
根据导出子图包括的节点的位置关系,确认所述导出子图包括的自轨道的数量,将所述自轨道的数量确认为所述网络的包括的列向量的总数;
通过下列公式确认所述导出子图包括的节点vi属于第k列的自轨道的次数:
其中,GDV(i)为列向量,GDVk(i)为节点vi在列向量GDV(i)中第k列的取值,1≤k≤自轨道数+1,为全部节点在列向量GDV(i)中第k列的GDV平均值,n为导出子图包括的全部节点的总数,为求方差。
应当理解,以上一种基于网络嵌入技术的网络社团结构识别装置包括的单元仅为根据该设备装置实现的功能进行的逻辑划分,实际应用中,可以进行上述单元的叠加或拆分。并且该实施例提供的一种基于网络嵌入技术的网络社团结构识别装置所实现的功能与上述实施例提供的一种基于网络嵌入技术的网络社团结构识别方法一一对应,对于该装置所实现的更为详细的处理流程,在上述方法实施例一中已做详细描述,此处不再详细描述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于网络嵌入的社团结构识别方法,其特征在于,包括:
根据网络的邻接矩阵确定所述网络的一阶相似性矩阵和所述网络的二阶相似形矩阵;
根据互为邻居节点的两个节点对应的公共邻居节点,以及两个所述节点分别对应的邻居节点,确定所述网络的Dice’s相似度矩阵;
根据所述网络的导出子图以及所述导出子图包括的自轨道的数量,确定所述网络的结构相似性矩阵;
根据所述网络的一阶相似性矩阵、所述网络的二阶相似性矩阵、所述网络的Dice’s相似度矩阵和所述网络的结构相似性矩阵确定所述网络的最终相似性矩阵;
根据NMF非负矩阵分解、所述最终相似性矩阵、社团成员指导矩阵和社团低维表示矩阵,得到所述节点的低维表示矩阵;
根据k-means对所述节点的低维表示矩阵进行聚类,得到所述网络的社团划分。
3.如权利要求1所述的方法,其特征在于,所述根据互为邻居节点的两个节点对应的公共邻居节点,以及两个所述节点分别对应的邻居节点,确定所述网络的Dice’s相似度矩阵,具体包括:
确认节点vi和节点vj的公共邻居节点的数量,节点vi的邻居节点的数量以及节点vj的邻居节点的数量;根据下列公式确认所述节点vi和所述节点vj的Dice’s相似度数值:
其中,为节点vi和节点vjDice’s相似度数值,|CommonNeihbor(vi,vj)|表示节点vi和节点vj公共邻居节点的数量,|Neighbor(vi)|表示节点vi的邻居节点的数量,|Neighbor(vj)|表示节点vj的邻居节点的数量;
根据所述节点vi和所述节点vj在相似度矩阵Sdice的位置,将所述节点vi和所述节点vj的Dice’s相似度数值添加到所述相似度矩阵Sdice中,得到所述网络的Dice’s相似度矩阵。
5.如权利要求4所述的方法,其特征在于,所述根据所述网络的导出子图以及所述导出子图包括的自轨道数量,确定所述网络的结构相似性矩阵,具体包括:
根据k的取值范围,依次确认所述节点vi在每个列向量包括的自轨道的次数,将所述节点vi在每个列向量包括的自轨道的次数确定为所述节点vi标准化行向量;
根据所述节点vi的标准化行向量和所述节点vj的标准化行向量的余弦距离,确定所述节点vi和所述节点vj的结构相似性数值;
将所述节点vi和所述节点vj的结构相似性数值添加到结构相似性矩阵的第i行第j列,得到所述网络的结构相似性矩阵。
6.如权利要求1所述的方法,其特征在于,所述根据NMF非负矩阵分解、所述最终相似性矩阵、社团成员指导矩阵和社团低维表示矩阵,得到所述节点的低维表示矩阵之前,还包括:
根据所述最终相似性矩阵、社团成员指导矩阵和社团低维表示矩阵,得到总体目标函数:
s.t.,M≥0,U≥0,H≥0,C≥0,tr(HTH)=n
7.如权利要求6所述的方法,其特征在于,所述根据NMF非负矩阵分解、所述最终相似性矩阵、社团成员指导矩阵和社团低维表示矩阵,得到所述节点的低维表示矩阵,具体包括:
当所述总体目标函数的增长量小于设定阈值时,则从所述总体目标函数中输出所述节点的低维表示矩阵;或者
当所述总体目标函数的增长量大于设定阈值,且迭代次数t小于最大迭代次数T,则根据所述NMF非负矩阵分解、所述最终相似性矩阵、所述社团成员指导矩阵和所述社团低维表示矩阵,再次确认所述总体目标函数。
8.一种基于网络嵌入的社团结构识别装置,其特征在于,包括:
第一确定单元,用于根据网络的邻接矩阵确定所述网络的一阶相似性矩阵和所述网络的二阶相似形矩阵;
第二确定单元,用于根据互为邻居节点的两个节点对应的公共邻居节点,以及两个所述节点分别对应的邻居节点,确定所述网络的Dice’s相似度矩阵;
第三确定单元,用于根据所述网络的导出子图以及所述导出子图包括的自轨道的数量,确定所述网络的结构相似性矩阵;
第四确定单元,用于根据所述网络的一阶相似性矩阵、所述网络的二阶相似性矩阵、所述网络的Dice’s相似度矩阵和所述网络的结构相似性矩阵确定所述网络的最终相似性矩阵;
第一得到单元,用于根据NMF非负矩阵分解、所述最终相似性矩阵、社团成员指导矩阵和社团低维表示矩阵,得到所述节点的低维表示矩阵;
第二得到单元,用于根据k-means对所述节点的低维表示矩阵进行聚类,得到所述网络的社团划分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010625391.1A CN111931023B (zh) | 2020-07-01 | 2020-07-01 | 一种基于网络嵌入的社团结构识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010625391.1A CN111931023B (zh) | 2020-07-01 | 2020-07-01 | 一种基于网络嵌入的社团结构识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111931023A true CN111931023A (zh) | 2020-11-13 |
CN111931023B CN111931023B (zh) | 2022-03-01 |
Family
ID=73317432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010625391.1A Active CN111931023B (zh) | 2020-07-01 | 2020-07-01 | 一种基于网络嵌入的社团结构识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111931023B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065974A (zh) * | 2021-03-16 | 2021-07-02 | 西北工业大学 | 一种基于动态网络表示学习的链路预测方法 |
CN113886688A (zh) * | 2021-09-27 | 2022-01-04 | 鹏城实验室 | 对象的关联关系预测方法、装置、终端设备以及存储介质 |
CN116228282A (zh) * | 2023-05-09 | 2023-06-06 | 湖南惟客科技集团有限公司 | 一种用户数据倾向的智能商品分销方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140324766A1 (en) * | 2014-07-04 | 2014-10-30 | Invent.ly LLC | Quantum State Dynamics in a Community of Subjects assigned Quantum States modulo a Proposition perceived in a Social Value Context |
CN108536844A (zh) * | 2018-04-13 | 2018-09-14 | 吉林大学 | 一种文本增强的网络表示学习方法 |
CN109740039A (zh) * | 2019-01-11 | 2019-05-10 | 西南大学 | 基于栈式自编码器的动态网络社团结构识别方法 |
CN109816535A (zh) * | 2018-12-13 | 2019-05-28 | 中国平安财产保险股份有限公司 | 欺诈识别方法、装置、计算机设备及存储介质 |
CN110532436A (zh) * | 2019-07-17 | 2019-12-03 | 中国人民解放军战略支援部队信息工程大学 | 基于社区结构的跨社交网络用户身份识别方法 |
CN110598129A (zh) * | 2019-09-09 | 2019-12-20 | 河南科技大学 | 基于两级信息熵的跨社交网络用户身份识别方法 |
-
2020
- 2020-07-01 CN CN202010625391.1A patent/CN111931023B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140324766A1 (en) * | 2014-07-04 | 2014-10-30 | Invent.ly LLC | Quantum State Dynamics in a Community of Subjects assigned Quantum States modulo a Proposition perceived in a Social Value Context |
CN108536844A (zh) * | 2018-04-13 | 2018-09-14 | 吉林大学 | 一种文本增强的网络表示学习方法 |
CN109816535A (zh) * | 2018-12-13 | 2019-05-28 | 中国平安财产保险股份有限公司 | 欺诈识别方法、装置、计算机设备及存储介质 |
CN109740039A (zh) * | 2019-01-11 | 2019-05-10 | 西南大学 | 基于栈式自编码器的动态网络社团结构识别方法 |
CN110532436A (zh) * | 2019-07-17 | 2019-12-03 | 中国人民解放军战略支援部队信息工程大学 | 基于社区结构的跨社交网络用户身份识别方法 |
CN110598129A (zh) * | 2019-09-09 | 2019-12-20 | 河南科技大学 | 基于两级信息熵的跨社交网络用户身份识别方法 |
Non-Patent Citations (3)
Title |
---|
PANAGIOTIS LIAKOS等: "Dices: Detecting Communities in Network Streams over the Cloud", 《2019 IEEE 12TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTING (CLOUD)》 * |
吴磊等: "基于相似度的三元社团合并算法", 《计算机应用研究》 * |
武海燕: "基于隐含社团预测的社交网络简方法", 《计算机工程与设计》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065974A (zh) * | 2021-03-16 | 2021-07-02 | 西北工业大学 | 一种基于动态网络表示学习的链路预测方法 |
CN113065974B (zh) * | 2021-03-16 | 2023-08-18 | 西北工业大学 | 一种基于动态网络表示学习的链路预测方法 |
CN113886688A (zh) * | 2021-09-27 | 2022-01-04 | 鹏城实验室 | 对象的关联关系预测方法、装置、终端设备以及存储介质 |
CN113886688B (zh) * | 2021-09-27 | 2024-07-05 | 鹏城实验室 | 对象的关联关系预测方法、装置、终端设备以及存储介质 |
CN116228282A (zh) * | 2023-05-09 | 2023-06-06 | 湖南惟客科技集团有限公司 | 一种用户数据倾向的智能商品分销方法 |
CN116228282B (zh) * | 2023-05-09 | 2023-08-11 | 湖南惟客科技集团有限公司 | 一种用户数据倾向的智能商品分销方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111931023B (zh) | 2022-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111931023B (zh) | 一种基于网络嵌入的社团结构识别方法及装置 | |
CN107784598A (zh) | 一种网络社区发现方法 | |
Kondratyuk et al. | When ensembling smaller models is more efficient than single large models | |
Langone et al. | Incremental kernel spectral clustering for online learning of non-stationary data | |
CN113918832B (zh) | 基于社交关系的图卷积协同过滤推荐系统 | |
CN113918833B (zh) | 通过社交网络关系的图卷积协同过滤实现的产品推荐方法 | |
US20120109959A1 (en) | Method and system for-clustering data arising from a database | |
CN110619084B (zh) | 一种根据图书馆读者借阅行为进行图书推荐的方法 | |
CN110033097A (zh) | 基于多个数据域确定用户与物品的关联关系的方法及装置 | |
Chang et al. | A genetic clustering algorithm using a message-based similarity measure | |
CN112131261A (zh) | 基于社区网络的社区查询方法、装置和计算机设备 | |
Leon-Alcaide et al. | An evolutionary approach for efficient prototyping of large time series datasets | |
Liu et al. | A supervised community detection method for automatic machining region construction in structural parts NC machining | |
Devanta | Optimization of the K-Means Clustering Algorithm Using Davies Bouldin Index in Iris Data Classification | |
CN106815653B (zh) | 一种基于距离博弈的社交网络关系预测方法及系统 | |
CN112905906A (zh) | 一种融合局部协同与特征交叉的推荐方法及系统 | |
CN117670464A (zh) | 一种去除社交平台噪声交互信号的商品推荐方法 | |
CN110020918B (zh) | 一种推荐信息生成方法和系统 | |
Zhao et al. | A pipeline for fair comparison of graph neural networks in node classification tasks | |
CN113470738B (zh) | 基于模糊聚类和基因本体语义相似性的可重叠蛋白质复合物识别方法和系统 | |
Adraoui et al. | A novel three-phase expansion algorithm for uncovering communities in social networks using local influence and similarity in embedding space | |
CN113961799A (zh) | 一种图模型和ctr模型的联合训练方法和装置 | |
Ramathilaga et al. | Two novel fuzzy clustering methods for solving data clustering problems | |
CN113158088A (zh) | 一种基于图神经网络的位置推荐方法 | |
Bottai et al. | Reinterpreting Economic Complexity: A co-clustering approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |