CN103699617A - 一种基于随机游走的社区发现方法 - Google Patents

一种基于随机游走的社区发现方法 Download PDF

Info

Publication number
CN103699617A
CN103699617A CN201310694794.1A CN201310694794A CN103699617A CN 103699617 A CN103699617 A CN 103699617A CN 201310694794 A CN201310694794 A CN 201310694794A CN 103699617 A CN103699617 A CN 103699617A
Authority
CN
China
Prior art keywords
community
node
random walk
limit
method based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310694794.1A
Other languages
English (en)
Other versions
CN103699617B (zh
Inventor
周亚东
刘晓明
管晓宏
胡成臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201310694794.1A priority Critical patent/CN103699617B/zh
Publication of CN103699617A publication Critical patent/CN103699617A/zh
Application granted granted Critical
Publication of CN103699617B publication Critical patent/CN103699617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于随机游走的社区发现方法,包括以下步骤,1)通过随机游走获得复杂网络的一个节点序列;2)对节点序列进行数据分析,获得两个节点之间的连接的紧密程度;3)根据节点之间连接的紧密程度来进行社区发现。本发明所公开的基于随机游走的在复杂网络的社区发现方法,实现简单、计算复杂度低,可以有效减少社区发现的计算资源开销,不需要任何先验信息,仅仅需要复杂网络的拓扑结构就可以获得社区发现结果,具有在实际复杂网络中应用的优势,同时对社区重叠部分的节点归属问题做了定量分析。

Description

一种基于随机游走的社区发现方法
技术领域
本发明属于复杂网络领域,具体涉及一种基于随机游走的社区发现方法。
背景技术
在网络理论的研究中,复杂网络是由数量巨大的节点和节点之间错综复杂的关系共同构成的网络结构。用数学的语言来说,就是一个有着足够复杂的拓扑结构特征的图。现实世界中包含着各种类型的复杂网络,如社会网络(朋友关系网络及合作网络等)、技术网络(万维网以及电力网等)、生物网络(神经网络、食物链网络以及新陈代谢网络等)。
经过近几年的努力,复杂网络的研究取得了许多重要进展,发现了复杂网络的若干统计特征,其中包括小世界性质(即网络中节点之间的平均距离很短,对数依赖于网络中的节点数)、无标度性质(即网络中节点的度分布右偏斜,具备幂函数或指数函数的形式)以及聚集性或网络传递性。
复杂网络的另一个重要特征就是网络中所呈现出的社区结构,大量实证研究表明,许多网络是异构的,即复杂网络不是大批性质相同节点的随机连接,而是许多类型的节点的组合,其中相同类型的节点存在较多的连接,而不同类型节点的连接则相对较少。我们把同一类型节点以及这些节点之间的边所构成的子图称为网络中的社区。
发现这些网络中的社区有助于我们更加有效地理解和开发这些网络,但是随着大数据时代的到来,由于目前算法的计算复杂度过高,一些算法需要先验知识和使用范围狭隘,导致这些算法无法在实际的复杂网络中应用。
发明内容
本发明的目的在于克服上述现有技术的缺点,提供了一种基于随机游走的社区发现方法,该方法在复杂网络中快速的进行社区的发现。
为达到上述目的,本发明所述的基于随机游走的社区发现方法包括以下步骤:
1)根据包含成员与成员之间关系的复杂网络构成一个相连通的无向图,其中,复杂网络中的成员记作无向图中的节点,成员与成员之间的关系记作无向图的边;
2)在无向图中进行L步随机游走,得遍历节点序列,将遍历节点序列划分为若干的子序列,每个子序列中包括H个节点,对每个子序列进行边的统计,当子序列中存在边时,则对相应边的统计量加1,然后对所有边的统计量进行排序;
3)将统计量最大的边(vg,vh)所对应的节点vg及节点vh作为社区C0的初始节点,记作C0={vg,vh};
4)对于第M个边(vi,vj),当vi属于已有社区Cx,并且vj不属于其他已有社区时,则记作vj属于社区Cx,并将vj添加到社区Cx中;当vi和vj均不属于任何已有社区时,则创建新的社区Cy,其中Cy={vi,vj};当vi属于已有社区Cx,且vj属于另一已有社区Cz时,则不进行处理;
5)重复步骤4),得到复杂网络的社区结构。
步骤2)中L=N2,其中N为无向图中节点的数量。
步骤2)中H大于或等于3,且H小于或等于10。
本发明具有以下有益效果:
本发明所述的基于随机游走的社区发现方法通过随机游走的方法获取复杂网络的遍历节点序列,然后将该遍历节点序列分为长度为K的子序列集,并统计所有子序列集中边的数量,当边的统计量越大,则代表该边对应的两个节点的关系越紧密,然后根据便的统计量进行社区的统计,从而能够得到无向图中的社区结构,处理过程中无需先验知识,达到降低计算代价的目的,时间短,适应性强。
附图说明
图1为本发明实施例一中复杂网络的结构示意图;
图2为本发明实施例一中获取边的统计量的流程图;
图3为本发明在负载网络中Zachary’s karate club应用结果的示意图。
具体实施方式
下面结合附图对本发明做进一步详细描述:
本发明所述的基于随机游走的社区发现方法包括以下步骤:
1)根据包含成员与成员之间关系的复杂网络构成一个相连通的无向图,其中,复杂网络中的成员记作无向图中的节点,成员与成员之间的关系记作无向图的边;
2)在无向图中进行L步随机游走,得遍历节点序列,将遍历节点序列划分为若干的子序列,每个子序列中包括H个节点,对每个子序列进行边的统计,当子序列中存在边时,则对相应边的统计量加1,然后对所有边的统计量进行排序;
3)将统计量最大的边(vg,vh)所对应的节点vg及节点vh作为社区C0的初始节点,记作C0={vg,vh};
4)对于第M个边(vi,vj),当vi属于已有社区Cx,并且vj不属于其他已有社区时,则记作vj属于社区Cx,并将vj添加到社区Cx中;当vi和vj均不属于任何已有社区时,则创建新的社区Cy,其中Cy={vi,vj};当vi属于已有社区Cx,且vj属于另一已有社区Cz时,则不进行处理;
5)重复步骤4),得到复杂网络的社区结构。
步骤2)中L=N2,其中N为无向图中节点的数量。
步骤2)中H大于或等于3,且H小于或等于10。
实施例一
1)通过用无向图G来表示图1所述表示的复杂网络;
2)参考图2,其中ESS代表边,在无向图G的所有节点[1,2,3,4,5,6,7]中以等概率的可能性选择一个节点作为随机游走的起始点,其中每个点被选中的概率为1/7,经过随机选择获得随机游走的起始节点为1,遍历节点序列VS=(1);以1为起始节点,在其邻居节点[2,3,4]中等概率选择目的节点,每个邻居节点被选中的概率为1/3,经过随机选择后,目的节点为2,遍历节点序列VS=(1,2);对于随机游走的每一步,目的节点u都是从当前节点v的邻居节点中等概率随机选择的一个点,同时将目的节点加入遍历节点序列中;当随机游走的步数达到49步的时候,则停止;设随机游走得到的遍历节点序列为(1,2,4,……,7,5,6),将随机游走得到的遍历节点序列(1,2,4,……,7,5,6)划分为长度为3的子序列集((1,2,4),……,(7,5,6));
对每一个子序列集进行边的统计,即对于子序列集中的所有节点,如果其中两个节点之间在无向图G中有边存在,则对应的边的统计量加1;以子序列(1,2,4)为例,对于三个节点的两两组合,可以得到有边e(1,2)、e(1,4)及e(2,4)在无向图G中存在,则对应的统计变量加1;将所有子序列集处理完毕,根据统计量对边进行排序,排序后为{(1,2),(2,3),(5,6),(3,4),(4,5),(5,7),(1,3),(6,7),(1,4),(2,4)};
3)选择统计量最大的边(1,2)所对应的两个节点1和节点2作为社区C0的初始节点,得C0={1,2};
4)对第二条边(2,3)对应的两个节点2及节点3,因为节点2属于社区C0,同时,节点3不属于其他社区,那么将认为节点3属于社区C0,此时C0={1,2,3};对第三条边(5,6)对应的节点5及节点6,因为节点5和节点6均都不属社区C0,则认为节点5和节点6属于另外一个社区,创建一个新的社区C1,使得C1={5,6};对第四条边(3,4)对应的节点3及节点4,因为节点3属于社区C0,同时,节点4不属于其他已有社区,那么将认为4属于社区C0,此时C0={1,2,3,4};对第五条边(4,5)对应节点4及节点5,因为节点4属于社区C0,节点5属于社区C1,则不对第五条边进行处理;对第六条边(5,7)对应的节点5及节点7,因为节点5属于社区C1,同时,节点7不属于其他社区,那么将认为节点7属于社区C1,此时C1={5,6,7};继续分析边(1,3),(6,7),(1,4),(2,4),它们所对应的节点已经划分好社区,那么不再处理;
5)边序列全部处理完毕,得到两个社区,分别为C0={1,2,3,4},C1={5,6,7}。
图3为本发明所述方法对Zachary’s karate club的处理结果,社区发现结果和现实中的社区情况是完全符合的。同时,图中的边的粗细代表两个节点之间的关系紧密程度,与数据处理所得边的数量的大小成正比,边越粗,则代表两个节点之间的联系越紧密。

Claims (3)

1.一种基于随机游走的社区发现方法,其特征在于,包括以下步骤:
1)根据包含成员与成员之间关系的复杂网络构成一个相连通的无向图,其中,复杂网络中的成员记作无向图中的节点,成员与成员之间的关系记作无向图的边;
2)在无向图中进行L步随机游走,得遍历节点序列,将遍历节点序列划分为若干的子序列,每个子序列中包括H个节点,对每个子序列进行边的统计,当子序列中存在边时,则对相应边的统计量加1,然后对所有边的统计量进行排序;
3)将统计量最大的边(vg,vh)所对应的节点vg及节点vh作为社区C0的初始节点,记作C0={vg,vh};
4)对于第M个边(vi,vj),当vi属于已有社区Cx,并且vj不属于其他已有社区时,则记作vj属于社区Cx,并将vj添加到社区Cx中;当vi和vj均不属于任何已有社区时,则创建新的社区Cy,其中Cy={vi,vj};当vi属于已有社区Cx,且vj属于另一已有社区Cz时,则不进行处理;
5)重复步骤4),得到复杂网络的社区结构。
2.根据权利要求1所述的基于随机游走的社区发现方法,其特征在于,步骤2)中L=N2,其中N为无向图中节点的数量。
3.根据权利要求1所述的基于随机游走的社区发现方法,其特征在于,步骤2)中H大于或等于3,且H小于或等于10。
CN201310694794.1A 2013-12-16 2013-12-16 一种基于随机游走的社区发现方法 Active CN103699617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310694794.1A CN103699617B (zh) 2013-12-16 2013-12-16 一种基于随机游走的社区发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310694794.1A CN103699617B (zh) 2013-12-16 2013-12-16 一种基于随机游走的社区发现方法

Publications (2)

Publication Number Publication Date
CN103699617A true CN103699617A (zh) 2014-04-02
CN103699617B CN103699617B (zh) 2017-06-06

Family

ID=50361145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310694794.1A Active CN103699617B (zh) 2013-12-16 2013-12-16 一种基于随机游走的社区发现方法

Country Status (1)

Country Link
CN (1) CN103699617B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103747033A (zh) * 2013-12-17 2014-04-23 西安交通大学 一种社区发现的方法
CN104102745A (zh) * 2014-07-31 2014-10-15 上海交通大学 基于局部最小边的复杂网络社团挖掘方法
CN104537126A (zh) * 2015-01-29 2015-04-22 中南大学 一种基于边图随机游走的重叠社区发现方法
CN106341258A (zh) * 2016-08-23 2017-01-18 浙江工业大学 一种基于二阶局部社团和种子节点结构信息的预测网络未知连边的方法
CN106789285A (zh) * 2016-12-28 2017-05-31 西安交通大学 一种在线社会网络多尺度社区发现方法
CN106886524A (zh) * 2015-12-15 2017-06-23 天津科技大学 一种基于随机游走的社会网络社区划分方法
CN107943806A (zh) * 2016-10-13 2018-04-20 中国科学院声学研究所 一种结合拓扑过滤和社区发现的媒体传播方法
CN109064049A (zh) * 2018-08-17 2018-12-21 深圳市中电数通智慧安全科技股份有限公司 一种动态划分风险区域的方法、装置及终端设备
WO2019072063A1 (zh) * 2017-10-10 2019-04-18 阿里巴巴集团控股有限公司 随机游走、基于集群的随机游走方法、装置以及设备
CN111079058A (zh) * 2019-12-16 2020-04-28 武汉大学 一种基于节点重要性的网络节点表示方法及装置
US10901971B2 (en) 2017-10-10 2021-01-26 Advanced New Technologies Co., Ltd. Random walking and cluster-based random walking method, apparatus and device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916256A (zh) * 2010-07-13 2010-12-15 北京大学 综合行动者兴趣与网络拓扑的社区发现方法
CN102857525A (zh) * 2011-06-28 2013-01-02 安徽大学 基于随机游走策略的社区发现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916256A (zh) * 2010-07-13 2010-12-15 北京大学 综合行动者兴趣与网络拓扑的社区发现方法
CN102857525A (zh) * 2011-06-28 2013-01-02 安徽大学 基于随机游走策略的社区发现方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BRUNO RIBEIRO等: "Estimating and Sampling Graphs with Multidimensional Random Walks", 《IMC"10 PROCEEDINGS OF THE 10TH ACM SIGCOMM CONFERENCE ON INTERNET MEASUREMENT》 *
刘阳等: "网络社区发现优化:基于随机游走的边权预处理方法", 《电子与信息学报》 *
牛尔力等: "P2P网络中的社区结构发现方法", 《计算机工程》 *
邓智龙等: "复杂网络中的社团结构发现方法", 《计算机科学》 *
陈端兵等: "重叠社区发现的两段策略", 《计算机科学》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103747033A (zh) * 2013-12-17 2014-04-23 西安交通大学 一种社区发现的方法
CN103747033B (zh) * 2013-12-17 2017-06-09 西安交通大学 一种社区发现的方法
CN104102745A (zh) * 2014-07-31 2014-10-15 上海交通大学 基于局部最小边的复杂网络社团挖掘方法
CN104102745B (zh) * 2014-07-31 2017-12-29 上海交通大学 基于局部最小边的复杂网络社团挖掘方法
CN104537126A (zh) * 2015-01-29 2015-04-22 中南大学 一种基于边图随机游走的重叠社区发现方法
CN104537126B (zh) * 2015-01-29 2017-12-01 中南大学 一种基于边图随机游走的重叠社区发现方法
CN106886524A (zh) * 2015-12-15 2017-06-23 天津科技大学 一种基于随机游走的社会网络社区划分方法
CN106341258B (zh) * 2016-08-23 2019-01-22 浙江工业大学 一种基于二阶局部社团和种子节点结构信息的预测网络未知连边的方法
CN106341258A (zh) * 2016-08-23 2017-01-18 浙江工业大学 一种基于二阶局部社团和种子节点结构信息的预测网络未知连边的方法
CN107943806A (zh) * 2016-10-13 2018-04-20 中国科学院声学研究所 一种结合拓扑过滤和社区发现的媒体传播方法
CN107943806B (zh) * 2016-10-13 2020-06-16 中国科学院声学研究所 一种结合拓扑过滤和社区发现的媒体传播方法
CN106789285A (zh) * 2016-12-28 2017-05-31 西安交通大学 一种在线社会网络多尺度社区发现方法
CN106789285B (zh) * 2016-12-28 2020-08-14 西安交通大学 一种在线社会网络多尺度社区发现方法
WO2019072063A1 (zh) * 2017-10-10 2019-04-18 阿里巴巴集团控股有限公司 随机游走、基于集群的随机游走方法、装置以及设备
US10776334B2 (en) 2017-10-10 2020-09-15 Alibaba Group Holding Limited Random walking and cluster-based random walking method, apparatus and device
US10901971B2 (en) 2017-10-10 2021-01-26 Advanced New Technologies Co., Ltd. Random walking and cluster-based random walking method, apparatus and device
CN109064049A (zh) * 2018-08-17 2018-12-21 深圳市中电数通智慧安全科技股份有限公司 一种动态划分风险区域的方法、装置及终端设备
CN111079058A (zh) * 2019-12-16 2020-04-28 武汉大学 一种基于节点重要性的网络节点表示方法及装置
CN111079058B (zh) * 2019-12-16 2023-07-28 武汉大学 一种基于节点重要性的网络节点表示方法及装置

Also Published As

Publication number Publication date
CN103699617B (zh) 2017-06-06

Similar Documents

Publication Publication Date Title
CN103699617A (zh) 一种基于随机游走的社区发现方法
CN104281674B (zh) 一种基于集聚系数的自适应聚类方法及系统
CN102035698B (zh) 基于决策树分类算法的http隧道检测方法
CN110532436A (zh) 基于社区结构的跨社交网络用户身份识别方法
Sun et al. Decentralized deep learning for multi-access edge computing: A survey on communication efficiency and trustworthiness
CN107611962B (zh) 电网系统支路搜索方法、系统及电子设备
CN106991617B (zh) 一种基于信息传播的微博社交关系提取算法
Liao et al. Predicting missing links via correlation between nodes
Chen et al. Visualization of network data provenance
CN104915354B (zh) 多媒体文件推送方法及装置
Nazarenko et al. Features of application of machine learning methods for classification of network traffic (features, advantages, disadvantages)
Jiang et al. A uniform framework for community detection via influence maximization in social networks
CN107784327A (zh) 一种基于gn的个性化社区发现方法
CN104992452A (zh) 基于热成像视频的飞行目标自动跟踪方法
CN106875278A (zh) 基于随机森林的社交网络用户画像方法
CN108764541B (zh) 一种结合时空特征和误差处理的风能预测方法
CN104077412A (zh) 一种基于多Markov链的微博用户兴趣预测方法
CN109743286A (zh) 一种基于图卷积神经网络的ip类型标记方法及设备
CN103747033B (zh) 一种社区发现的方法
WO2016086634A1 (zh) 一种拒绝率可控的Metropolis-Hastings图抽样算法
Gujjula et al. A hybrid metaheuristic for the maximum k-plex problem
CN107452001A (zh) 一种基于改进fcm算法的遥感图像序列分割方法
Sharma et al. Comparative analysis of different algorithms in link prediction on social networks
Le et al. A new method for evaluating node importance in complex networks based on data field theory
Han et al. An effective heterogeneous information network representation learning framework

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant