CN108765180A - 基于影响力与种子扩展的重叠社区发现方法 - Google Patents
基于影响力与种子扩展的重叠社区发现方法 Download PDFInfo
- Publication number
- CN108765180A CN108765180A CN201810535515.XA CN201810535515A CN108765180A CN 108765180 A CN108765180 A CN 108765180A CN 201810535515 A CN201810535515 A CN 201810535515A CN 108765180 A CN108765180 A CN 108765180A
- Authority
- CN
- China
- Prior art keywords
- community
- node
- similarity
- overlapping
- influence power
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000004364 calculation method Methods 0.000 claims description 4
- 241000238876 Acari Species 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000005303 weighing Methods 0.000 claims description 3
- 241000871264 Cardiospermum halicacabum Species 0.000 description 4
- 241000519324 Cardiospermum microcarpum Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于影响力与种子扩展的重叠社区发现方法,包括:1、读取网络数据集,生成网络结构图并获取节点信息;2、结合Jaccard系数和节点信息,计算节点的影响力分数;3、基于影响力分数,找到核心种子节点,建立核心种子社区集合;4、合并相似度高的社区,得到优化后的核心种子社区集合;5、根据社区邻居集中节点与相应社区的相似度,标记出候选节点;6、将满足模块度要求的候选节点加入相应社区中,得到重叠社区集合;7、将自由节点加入相似度高的重叠社区,更新重叠社区集合;8、合并相似度高的社区,得到优化后的重叠社区集合;9、输出最终的社区划分结果。该方法可以高效、准确地对复杂网络的重叠结构进行划分。
Description
技术领域
本发明涉及大规模网络上的重叠社区发现技术领域,特别是一种基于影响力与种子扩展的重叠社区发现方法。
背景技术
随着社会信息网络的快速发展,出现了很多复杂的网络结构,例如社交网络、科学家合作网络、文献引用网络、蛋白质互相协作网等。在复杂网络中,节点代表网络中的个体,而边代表个体间的联系,有的边还带有属性值。复杂网络中的社区结构通常表现为社区内的点连接紧密,而社区间的点连接稀疏。社区发现是研究复杂网络结构的关键技术之一。目前,社区发现的研究成果可以被应用于网络舆情监控、个性化兴趣推荐、蛋白质功能预测等诸多领域。
为了高效准确的挖掘出复杂网络中重要的社区结构,近些年已经有很多研究人员对其展开深入研究。传统的社区发现算法包括层次聚类算法、谱方法、基于团的方法、边聚类、标签传播等。这些算法虽然可以较好的发现网络社区结构,但需要对整个网络结构信息进行整体认知,当在规模较大或者不完整的复杂网络中就受到了一些约束,所以就有研究员提出了大量基于种子扩展的局部社区发现算法。
目前已有很多学者对基于种子扩展的重叠社区发现进行研究,也取得了很多成果,但仍然存在以下几个问题:首先算法的时间与空间复杂度相对较高,在处理较大规模网络时存在不足;其次,算法在选择种子节点时未能充分考虑节点间的紧密度,从而影响了社区扩展挖掘的精确度;最后,在社区扩展阶段未能综合考虑节点与社区的紧密度,对于参数的选择也不是很合理,所以社区发现的精度不高。
发明内容
本发明的目的在于提供一种基于影响力与种子扩展的重叠社区发现方法,该方法可以高效、准确地对复杂网络的重叠结构进行划分。
为实现上述目的,本发明的技术方案是:一种基于影响力与种子扩展的重叠社区发现方法,包括以下步骤:
步骤1:读取网络数据集,生成网络结构图并获取网络中节点的邻域信息;
步骤2:结合网络中两两节点之间的Jaccard系数和节点的邻域信息,计算网络中每个节点的影响力分数;
步骤3:基于节点的影响力分数,找到核心种子节点,进而建立核心种子社区集合coreSeeds;
步骤4:计算核心种子社区之间的相似度,合并相似度高的社区,得到优化后的核心种子社区集合coreSeeds’;
步骤5:根据各核心种子社区的社区邻居集中节点与相应核心种子社区的相似度,标记出候选节点;
步骤6:根据各候选节点的模块度,将满足模块度要求的候选节点加入相应核心种子社区中,得到重叠社区集合Cset;
步骤7:根据未属于任何社区的自由节点与各重叠社区的相似度,将自由节点加入相似度高的重叠社区,更新重叠社区集合Cset;
步骤8:根据重叠社区之间的相似度,合并相似度高的社区,得到优化后的重叠社区集合Cset’;
步骤9:输出最终的社区划分结果。
进一步地,在步骤1中,读取网络数据集,生成用于社区结构划分的网络结构图G=(V,E),其中V表示节点集,E表示边集,并获取网络中节点的邻域信息:
其中,Aij表示邻接矩阵,eij表示节点i和节点j之间的边。
进一步地,在步骤2中,计算网络中每个节点的影响力分数,包括以下步骤:
步骤2.1:统计每个节点的邻居集:
Γ(v)={u:u∈V,(v,u)∈E} (2)
其中,Γ(v)表示节点v的邻居集合,u表示节点v的邻居节点;
步骤2.2:计算任意两个节点之间的Jaccard系数:
Juv表示节点u与节点v的Jaccard系数,Juv用于衡量节点之间的亲密度,Juv值越大表示两个节点之间越相似;
步骤2.3:根据Jaccard系数和节点的邻域信息,计算每个节点的影响力分数Iscore(v):
其中,kv为节点v的度;Iscore(v)越大,表示节点v在网络中所具有的影响力越大,更有可能作为整个网络的核心种子节点。
进一步地,在步骤3中,基于节点的影响力分数,找到核心种子节点,进而建立核心种子社区集合coreSeeds,包括以下步骤:
步骤3.1:统计每个节点v的影响力分数大于其邻居节点影响力分数的个数lnum,若lnum与节点v邻居节点个数nnum的比值大于阈值ρ,则将节点v定义为核心种子节点,并把节点v作为初始种子社区;
步骤3.2:遍历节点v的邻居节点集Γ(v),计算邻居节点u与初始种子社区的相似度Snc(u,C),找出相似度Snc(u,C)大于设定阈值ε的邻居节点,加入到初始种子社区中得到核心种子社区S,从而得到核心种子社区集合coreSeeds:
Ns(C)=∪v∈CΓ(v)-C (6)
其中,C表示初始种子社区,|Ns(C)∩Γ(v)|为社区邻居集Ns(C)与节点v的邻居节点集的交集拥有的节点数,|Ns(C)∪Γ(v)|为社区邻居集Ns(C)与节点v的邻居节点集的并集拥有的节点数;Snc(u,C)表示节点u与社区C的相似度,Snc(u,C)越大,表明节点u属于社区C的概率越大;∪v∈CΓ(v)表示对属于社区C的所有节点的邻居集合进行合并操作,Ns(C)表示与社区C有直接连边的节点集合。
进一步地,在步骤4中,计算核心种子社区之间的相似度,合并相似度高的社区,包括以下步骤:
步骤4.1:计算核心种子社区集合coreSeeds中两两核心种子社区之间的社区相似度Scc(Ci,Cj):
其中,|Ci∩Cj|为社区Ci与社区Cj的交集拥有的节点数,|Ci|为社区Ci的节点数,|Cj|为社区Cj的节点数,min(|Ci|,|Cj|)返回的是两个社区中节点数的最小值;Scc(Ci,Cj)越大,表明社区Ci与社区Cj的结构越相近;
步骤4.2:将社区相似度Scc(Ci,Cj)大于设定阈值ε的社区两两合并,得到优化后的核心种子社区集合coreSeeds’。
进一步地,在步骤5中,根据各核心种子社区的社区邻居集中节点与相应核心种子社区的相似度,标记出候选节点,包括以下步骤:
步骤5.1:遍历步骤4得到的核心种子社区集合coreSeeds’,对于其中的每一个核心种子社区Cs,生成其社区邻居集Ns(Cs);
步骤5.2:遍历Ns(Cs),计算其中每个节点u与核心种子社区Cs的相似度Snc(u,Cs);
步骤5.3:将相似度Snc(u,Cs)大于设定阈值ε的节点标记为候选节点。
进一步地,在步骤6中,根据各候选节点的模块度,将满足模块度要求的候选节点加入相应核心种子社区中,包括以下步骤:
步骤6.1:分别计算各候选节点加入社区前、后的模块度Q,如果加入社区后Q值较原先Q值变大,则将节点加入社区,否则置其为自由节点;模块度Q的计算公式如下:
其中,m是网络中边的总数,nc是社区数目,lc是社区C中边的总数,dc是社区C中所有节点的度总和;
步骤6.2:更新Ns(Cs),重复步骤5到步骤6,直到Ns(Cs)为空时停止;
步骤6.3:得到网络结构的初始社区划分,记为重叠社区集合Cset。
进一步地,在步骤7中,根据未属于任何社区的自由节点与各重叠社区的相似度,将自由节点加入相似度高的重叠社区,包括以下步骤:
步骤7.1:找到网络中未属于任何社区的自由节点,形成自由节点集Vfree;
步骤7.2:遍历自由节点集Vfree,计算其中各自由节点vf与重叠社区集合Cset中每个社区Ci的相似度Snc(vf,Ci),把自由节点vf加入到相似度最高的社区中;如果相似度相同,则该自由节点同时属于多个社区,并对重叠社区集合Cset进行更新。
进一步地,在步骤8中,计算重叠社区集合Cset中两两社区之间的社区相似度Scc(Ci,Cj),如果相似度大于设定阈值ε时,则将社区进行合并,从而得到优化后的重叠社区集合Cset’。
进一步地,在步骤9中,输出最终的社区划分结果的方法如下:
步骤9.1:将重叠社区集合Cset’中每个社区Ci’中的节点vi,j写成行向量形式Ri=(vi,j);
步骤9.3:输出向量集{Ri},0<i<p,p为社区个数,每行代表一个社区;社区重叠由行向量中包含的重复节点表示。
本发明的有益效果是将影响力策略、相似度计算以及优化自适应函数fitness相结合,应用于较大规模网络的社区发现,从而能够有效地得到网络中重叠社区结构划分,并为网络聚类在重叠社区发现方向的发展提供有益补充。
附图说明
图1是本发明实施例的实现流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明基于影响力与种子扩展的重叠社区发现方法,如图1所示,包括以下步骤:
步骤1:读取网络数据集,生成网络结构图并获取网络中节点的邻域信息。具体方法为:
读取网络数据集,生成用于社区结构划分的网络结构图G=(V,E),其中V表示节点集,E表示边集,并获取网络中节点的邻域信息:
其中,Aij表示邻接矩阵,eij表示节点i和节点j之间的边。
步骤2:结合网络中两两节点之间的Jaccard系数和节点的邻域信息,计算网络中每个节点的影响力分数。具体包括以下步骤:
步骤2.1:统计每个节点的邻居集:
Γ(v)={u:u∈V,(v,u)∈E} (2)
其中,Γ(v)表示节点v的邻居集合,u表示节点v的邻居节点;
步骤2.2:计算任意两个节点之间的Jaccard系数:
Juv表示节点u与节点v的Jaccard系数,Juv用于衡量节点之间的亲密度,Juv值越大表示两个节点之间越相似;
步骤2.3:根据Jaccard系数和节点的邻域信息,计算每个节点的影响力分数Iscore(v):
其中,kv为节点v的度;Iscore(v)越大,表示节点v在网络中所具有的影响力越大,更有可能作为整个网络的核心种子节点。
步骤3:基于节点的影响力分数,找到核心种子节点,进而建立核心种子社区集合coreSeeds。具体包括以下步骤:
步骤3.1:统计每个节点v的影响力分数大于其邻居节点影响力分数的个数lnum,若lnum与节点v邻居节点个数nnum的比值大于阈值ρ,则将节点v定义为核心种子节点,并把节点v作为初始种子社区;
步骤3.2:遍历节点v的邻居节点集Γ(v),计算邻居节点u与初始种子社区的相似度Snc(u,C),找出相似度Snc(u,C)大于设定阈值ε的邻居节点,加入到初始种子社区中得到核心种子社区S,从而得到核心种子社区集合coreSeeds:
Ns(C)=∪v∈CΓ(v)-C (6)
其中,C表示由多个节点组成的一个初始种子社区,|Ns(C)∩Γ(v)|为社区邻居集Ns(C)与节点v的邻居节点集的交集拥有的节点数,|Ns(C)∪Γ(v)|为社区邻居集Ns(C)与节点v的邻居节点集的并集拥有的节点数;Snc(u,C)表示节点u与社区C的相似度,Snc(u,C)越大,表明节点u属于社区C的概率越大;∪v∈CΓ(v)表示对属于社区C的所有节点的邻居集合进行合并操作,Ns(C)表示与社区C有直接连边的节点集合。
步骤4:计算核心种子社区之间的相似度,合并相似度高的社区,得到优化后的核心种子社区集合coreSeeds’。具体包括以下步骤:
步骤4.1:计算核心种子社区集合coreSeeds中两两核心种子社区之间的社区相似度Scc(Ci,Cj):
其中,|Ci∩Cj|为社区Ci与社区Cj的交集拥有的节点数,|Ci|为社区Ci的节点数,|Cj|为社区Cj的节点数,min(|Ci|,|Cj|)返回的是两个社区中节点数的最小值;Scc(Ci,Cj)越大,表明社区Ci与社区Cj的结构越相近;
步骤4.2:将社区相似度Scc(Ci,Cj)大于设定阈值ε的社区两两合并,得到优化后的核心种子社区集合coreSeeds’。
步骤5:根据各核心种子社区的社区邻居集中节点与相应核心种子社区的相似度,标记出候选节点。具体包括以下步骤:
步骤5.1:遍历步骤4得到的核心种子社区集合coreSeeds’,对于其中的每一个核心种子社区Cs,生成其社区邻居集Ns(Cs);
步骤5.2:遍历Ns(Cs),计算其中每个节点u与核心种子社区Cs的相似度Snc(u,Cs);
步骤5.3:将相似度Snc(u,Cs)大于设定阈值ε的节点标记为候选节点。
步骤6:根据各候选节点的模块度,将满足模块度要求的候选节点加入相应核心种子社区中,得到重叠社区集合Cset。具体包括以下步骤:
步骤6.1:分别计算各候选节点加入社区前、后的模块度Q,如果加入社区后Q值较原先Q值变大,则将节点加入社区,否则置其为自由节点;模块度Q的计算公式如下:
其中,m是网络中边的总数,nc是社区数目,lc是社区C中边的总数,dc是社区C中所有节点的度总和;
步骤6.2:更新Ns(Cs),重复步骤5到步骤6,直到Ns(Cs)为空时停止;由于Ns(Cs)是一直更新的,当扩展到最后,最终社区的邻居集会出现为空集的情况,这也是迭代停止的条件;
步骤6.3:得到网络结构的初始社区划分,记为重叠社区集合Cset;因为每个核心种子社区的扩展都不互相影响,则一个节点在每次扩展的过程可能会同时被归属到不同的核心种子社区中,从而得到网络结构的重叠社区划分。
步骤7:根据未属于任何社区的自由节点与各重叠社区的相似度,将自由节点加入相似度高的重叠社区,更新重叠社区集合Cset。具体包括以下步骤:
步骤7.1:找到网络中未属于任何社区的自由节点,形成自由节点集Vfree;
步骤7.2:遍历自由节点集Vfree,计算其中各自由节点vf与重叠社区集合Cset中每个社区Ci的相似度Snc(vf,Ci),把自由节点vf加入到相似度最高的社区中;如果相似度相同,则该自由节点同时属于多个社区,并对重叠社区集合Cset进行更新。
步骤8:根据重叠社区之间的相似度,合并相似度高的社区,得到优化后的重叠社区集合Cset’。具体方法为:计算重叠社区集合Cset中两两社区之间的社区相似度Scc(Ci,Cj),如果相似度大于设定阈值ε时,则将社区进行合并,从而得到优化后的重叠社区集合Cset’。
步骤9:输出最终的社区划分结果。具体方法如下:
步骤9.1:将重叠社区集合Cset’中每个社区Ci’中的节点vi,j写成行向量形式Ri=(vi,j);
步骤9.3:输出向量集{Ri},0<i<p,p为社区个数,每行代表一个社区;社区重叠由行向量中包含的重复节点表示。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (10)
1.一种基于影响力与种子扩展的重叠社区发现方法,其特征在于,包括以下步骤:
步骤1:读取网络数据集,生成网络结构图并获取网络中节点的邻域信息;
步骤2:结合网络中两两节点之间的Jaccard系数和节点的邻域信息,计算网络中每个节点的影响力分数;
步骤3:基于节点的影响力分数,找到核心种子节点,进而建立核心种子社区集合coreSeeds;
步骤4:计算核心种子社区之间的相似度,合并相似度高的社区,得到优化后的核心种子社区集合coreSeeds’;
步骤5:根据各核心种子社区的社区邻居集中节点与相应核心种子社区的相似度,标记出候选节点;
步骤6:根据各候选节点的模块度,将满足模块度要求的候选节点加入相应核心种子社区中,得到重叠社区集合Cset;
步骤7:根据未属于任何社区的自由节点与各重叠社区的相似度,将自由节点加入相似度高的重叠社区,更新重叠社区集合Cset;
步骤8:根据重叠社区之间的相似度,合并相似度高的社区,得到优化后的重叠社区集合Cset’;
步骤9:输出最终的社区划分结果。
2.根据权利要求1所述的基于影响力与种子扩展的重叠社区发现方法,其特征在于,在步骤1中,读取网络数据集,生成用于社区结构划分的网络结构图G=(V,E),其中V表示节点集,E表示边集,并获取网络中节点的邻域信息:
其中,Aij表示邻接矩阵,eij表示节点i和节点j之间的边。
3.根据权利要求2所述的基于影响力与种子扩展的重叠社区发现方法,其特征在于,在步骤2中,计算网络中每个节点的影响力分数,包括以下步骤:
步骤2.1:统计每个节点的邻居集:
Γ(v)={u:u∈V,(v,u)∈E} (2)
其中,Γ(v)表示节点v的邻居集合,u表示节点v的邻居节点;
步骤2.2:计算任意两个节点之间的Jaccard系数:
Juv表示节点u与节点v的Jaccard系数,Juv用于衡量节点之间的亲密度,Juv值越大表示两个节点之间越相似;
步骤2.3:根据Jaccard系数和节点的邻域信息,计算每个节点的影响力分数Iscore(v):
其中,kv为节点v的度;Iscore(v)越大,表示节点v在网络中所具有的影响力越大,更有可能作为整个网络的核心种子节点。
4.根据权利要求3所述的基于影响力与种子扩展的重叠社区发现方法,其特征在于,在步骤3中,基于节点的影响力分数,找到核心种子节点,进而建立核心种子社区集合coreSeeds,包括以下步骤:
步骤3.1:统计每个节点v的影响力分数大于其邻居节点影响力分数的个数lnum,若lnum与节点v邻居节点个数nnum的比值大于阈值ρ,则将节点v定义为核心种子节点,并把节点v作为初始种子社区;
步骤3.2:遍历节点v的邻居节点集Γ(v),计算邻居节点u与初始种子社区的相似度Snc(u,C),找出相似度Snc(u,C)大于设定阈值ε的邻居节点,加入到初始种子社区中得到核心种子社区S,从而得到核心种子社区集合coreSeeds:
Ns(C)=∪v∈CΓ(v)-C (6)
其中,C表示初始种子社区,|Ns(C)∩Γ(v)|为社区邻居集Ns(C)与节点v的邻居节点集的交集拥有的节点数,|Ns(C)∪Γ(v)|为社区邻居集Ns(C)与节点v的邻居节点集的并集拥有的节点数;Snc(u,C)表示节点u与社区C的相似度,Snc(u,C)越大,表明节点u属于社区C的概率越大;∪v∈CΓ(v)表示对属于社区C的所有节点的邻居集合进行合并操作,Ns(C)表示与社区C有直接连边的节点集合。
5.根据权利要求4所述的基于影响力与种子扩展的重叠社区发现方法,其特征在于,在步骤4中,计算核心种子社区之间的相似度,合并相似度高的社区,包括以下步骤:
步骤4.1:计算核心种子社区集合coreSeeds中两两核心种子社区之间的社区相似度Scc(Ci,Cj):
其中,|Ci∩Cj|为社区Ci与社区Cj的交集拥有的节点数,|Ci|为社区Ci的节点数,|Cj|为社区Cj的节点数,min(|Ci|,|Cj|)返回的是两个社区中节点数的最小值;Scc(Ci,Cj)越大,表明社区Ci与社区Cj的结构越相近;
步骤4.2:将社区相似度Scc(Ci,Cj)大于设定阈值ε的社区两两合并,得到优化后的核心种子社区集合coreSeeds’。
6.根据权利要求5所述的基于影响力与种子扩展的重叠社区发现方法,其特征在于,在步骤5中,根据各核心种子社区的社区邻居集中节点与相应核心种子社区的相似度,标记出候选节点,包括以下步骤:
步骤5.1:遍历步骤4得到的核心种子社区集合coreSeeds’,对于其中的每一个核心种子社区Cs,生成其社区邻居集Ns(Cs);
步骤5.2:遍历Ns(Cs),计算其中每个节点u与核心种子社区Cs的相似度Snc(u,Cs);
步骤5.3:将相似度Snc(u,Cs)大于设定阈值ε的节点标记为候选节点。
7.根据权利要求6所述的基于影响力与种子扩展的重叠社区发现方法,其特征在于,在步骤6中,根据各候选节点的模块度,将满足模块度要求的候选节点加入相应核心种子社区中,包括以下步骤:
步骤6.1:分别计算各候选节点加入社区前、后的模块度Q,如果加入社区后Q值较原先Q值变大,则将节点加入社区,否则置其为自由节点;模块度Q的计算公式如下:
其中,m是网络中边的总数,nc是社区数目,lc是社区C中边的总数,dc是社区C中所有节点的度总和;
步骤6.2:更新Ns(Cs),重复步骤5到步骤6,直到Ns(Cs)为空时停止;
步骤6.3:得到网络结构的初始社区划分,记为重叠社区集合Cset。
8.根据权利要求7所述的基于影响力与种子扩展的重叠社区发现方法,其特征在于,在步骤7中,根据未属于任何社区的自由节点与各重叠社区的相似度,将自由节点加入相似度高的重叠社区,包括以下步骤:
步骤7.1:找到网络中未属于任何社区的自由节点,形成自由节点集Vfree;
步骤7.2:遍历自由节点集Vfree,计算其中各自由节点vf与重叠社区集合Cset中每个社区Ci的相似度Snc(vf,Ci),把自由节点vf加入到相似度最高的社区中;如果相似度相同,则该自由节点同时属于多个社区,并对重叠社区集合Cset进行更新。
9.根据权利要求8所述的基于影响力与种子扩展的重叠社区发现方法,其特征在于,在步骤8中,计算重叠社区集合Cset中两两社区之间的社区相似度Scc(Ci,Cj),如果相似度大于设定阈值ε时,则将社区进行合并,从而得到优化后的重叠社区集合Cset’。
10.根据权利要求9所述的基于影响力与种子扩展的重叠社区发现方法,其特征在于,在步骤9中,输出最终的社区划分结果的方法如下:
步骤9.1:将重叠社区集合Cset’中每个社区Ci’中的节点vi,j写成行向量形式Ri=(vi,j);
步骤9.3:输出向量集{Ri},0<i<p,p为社区个数,每行代表一个社区;社区重叠由行向量中包含的重复节点表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810535515.XA CN108765180A (zh) | 2018-05-29 | 2018-05-29 | 基于影响力与种子扩展的重叠社区发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810535515.XA CN108765180A (zh) | 2018-05-29 | 2018-05-29 | 基于影响力与种子扩展的重叠社区发现方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108765180A true CN108765180A (zh) | 2018-11-06 |
Family
ID=64003830
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810535515.XA Pending CN108765180A (zh) | 2018-05-29 | 2018-05-29 | 基于影响力与种子扩展的重叠社区发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108765180A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800342A (zh) * | 2018-12-13 | 2019-05-24 | 中国科学院信息工程研究所 | 一种基于节点影响力的多关系网络数据量化表示方法 |
CN110032603A (zh) * | 2019-01-22 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种对关系网络图中的节点进行聚类的方法及装置 |
CN111506620A (zh) * | 2020-03-31 | 2020-08-07 | 上海氪信信息技术有限公司 | 局部社区的挖掘与合并方法及其装置、芯片、存储介质 |
CN112214684A (zh) * | 2020-09-24 | 2021-01-12 | 青岛大学 | 一种种子扩展的重叠社区发现方法及装置 |
WO2021103508A1 (zh) * | 2019-11-25 | 2021-06-03 | 北京三快在线科技有限公司 | 种子用户的选取方法、装置、设备及存储介质 |
CN113436674A (zh) * | 2021-06-23 | 2021-09-24 | 兰州大学 | 一种基于topsis种子扩张的增量式社团检测方法—tseia |
-
2018
- 2018-05-29 CN CN201810535515.XA patent/CN108765180A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800342A (zh) * | 2018-12-13 | 2019-05-24 | 中国科学院信息工程研究所 | 一种基于节点影响力的多关系网络数据量化表示方法 |
CN110032603A (zh) * | 2019-01-22 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种对关系网络图中的节点进行聚类的方法及装置 |
WO2021103508A1 (zh) * | 2019-11-25 | 2021-06-03 | 北京三快在线科技有限公司 | 种子用户的选取方法、装置、设备及存储介质 |
CN111506620A (zh) * | 2020-03-31 | 2020-08-07 | 上海氪信信息技术有限公司 | 局部社区的挖掘与合并方法及其装置、芯片、存储介质 |
CN111506620B (zh) * | 2020-03-31 | 2023-04-25 | 上海氪信信息技术有限公司 | 局部社区的挖掘与合并方法及其装置、芯片、存储介质 |
CN112214684A (zh) * | 2020-09-24 | 2021-01-12 | 青岛大学 | 一种种子扩展的重叠社区发现方法及装置 |
CN112214684B (zh) * | 2020-09-24 | 2024-01-26 | 青岛大学 | 一种种子扩展的重叠社区发现方法及装置 |
CN113436674A (zh) * | 2021-06-23 | 2021-09-24 | 兰州大学 | 一种基于topsis种子扩张的增量式社团检测方法—tseia |
CN113436674B (zh) * | 2021-06-23 | 2023-02-17 | 兰州大学 | 一种基于topsis种子扩张的增量式社团检测方法—tseia |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108765180A (zh) | 基于影响力与种子扩展的重叠社区发现方法 | |
CN105740651B (zh) | 一种特定癌症差异表达基因调控网络的构建方法 | |
CN102810113B (zh) | 一种针对复杂网络的混合型聚类方法 | |
CN104462163B (zh) | 一种三维模型表征方法、检索方法及检索系统 | |
CN106709037B (zh) | 一种基于异构信息网络的电影推荐方法 | |
CN108334580A (zh) | 一种结合链接和属性信息的社区发现方法 | |
CN106951524A (zh) | 基于节点影响力的重叠社区发现方法 | |
CN106960390A (zh) | 基于节点聚合度的重叠社区划分方法 | |
CN101482876B (zh) | 基于权重的链接多属性的实体识别方法 | |
Zanghi et al. | Strategies for online inference of model-based clustering in large and growing networks | |
CN111445963B (zh) | 一种基于图节点信息聚合的子图同构约束求解方法 | |
CN103020163A (zh) | 一种网络中基于节点相似度的网络社区划分方法 | |
CN108763793A (zh) | 一种加权模糊型d-s证据理论框架 | |
CN108428006A (zh) | 一种基于共同邻居节点和社团结构的互联网链路预测方法 | |
CN113255895A (zh) | 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法 | |
CN109447261A (zh) | 一种基于多阶邻近相似度的网络表示学习的方法 | |
CN107729939A (zh) | 一种面向新增电网资源的cim模型扩展方法及装置 | |
CN107818328A (zh) | 结合局部信息的不完整数据相似性刻画方法 | |
Wang et al. | Cross-efficiency intervals integrated ranking approach based on the generalized Fermat-Torricelli point | |
CN103164487B (zh) | 一种基于密度与几何信息的数据聚类方法 | |
CN106530100A (zh) | 一种面向信任度社交网络的社区发现技术方法 | |
CN109992593A (zh) | 一种基于子图匹配的大规模数据并行查询方法 | |
CN104156462B (zh) | 基于元胞自动学习机的复杂网络社团挖掘方法 | |
Sathyakala et al. | RETRACTED ARTICLE: A weak clique based multi objective genetic algorithm for overlapping community detection in complex networks | |
CN102521649A (zh) | 基于密母计算的网络社区结构检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181106 |
|
RJ01 | Rejection of invention patent application after publication |