CN104657901A - 一种基于随机游走的标签传播社区发现方法 - Google Patents
一种基于随机游走的标签传播社区发现方法 Download PDFInfo
- Publication number
- CN104657901A CN104657901A CN201510018509.3A CN201510018509A CN104657901A CN 104657901 A CN104657901 A CN 104657901A CN 201510018509 A CN201510018509 A CN 201510018509A CN 104657901 A CN104657901 A CN 104657901A
- Authority
- CN
- China
- Prior art keywords
- node
- label
- community
- centroid
- probability distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000005295 random walk Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 title claims description 15
- 239000011159 matrix material Substances 0.000 claims abstract description 20
- 230000007704 transition Effects 0.000 claims abstract description 10
- 238000013508 migration Methods 0.000 claims description 29
- 230000005012 migration Effects 0.000 claims description 29
- 230000000644 propagated effect Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 2
- 238000012216 screening Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000004087 circulation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 125000000524 functional group Chemical group 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明请求保护一种基于随机游走的标签传播社区发现算法,包括以下步骤:1)构建转移矩阵:根据网络拓扑图生成邻接矩阵,通过节点的度结合邻接矩阵计算该节点到其他节点的转移概率,最后得出转移矩阵;2)计算节点的权重值:定义游走者的位置概率分布,根据转移矩阵计算游走者游走t步到达稳态以后的位置概率分布,此时的位置概率分布中的值则为节点的权重值;3设置中心节点的门限值,根据节点权重的降序排序完成中心节点的筛选,初步生成子社区;4)初始化节点标签,从中心节点出发进行标签传播,相互连接比较紧密的节点标签逐渐趋于一致,最后持有相同标签的节点形成一个社区。该方法消除了经典标签传播算法中更新节点标签顺序的随机性问题,从而有效的提高了算法的精确度。
Description
技术领域
本发明涉及通信技术领域,涉及一种基于随机游走模型的标签传播社区发现算法。
背景技术
社区广泛的存在于具有网络结构的系统中,从生物、计算机科学、工程、经济、政治。例如在蛋白质与蛋白质的交互网络中,社区就是细胞中具有相同特定功能的蛋白质群;在万维网中、社区就是那些具有相同或者相关主题的网页,在新陈代谢网络中社区就是那些循环、通路的功能团。
在社会中广泛存在着一些群体组织如家庭、工作或朋友圈、村庄、国家等,随着近些年由于互联网的兴起和社会媒体的应用,社区成员之间的地理限制逐渐被消除,因而产生了许多虚拟群体如在线社区等,社区成员之间的地理限制逐渐被消除,社交网络关系变得复杂。社区发现技术被应用于消除这些复杂性,从社交网络节点属性中挖掘其中的隐藏结构,其社区的发现是基于社会成员之间的交互。但是随着大规模在线社交网络的出现如Facebook、QQ等,社交网络中的节点拥有成百上千万,社区之间的差异和大小变得更加的复杂和多样性。许多算法如一些层次聚类算法在一些小规模网络上取得了较好的社区发现结果,但是这类算法需要一个全局的视野,需要优化功能函数(模块度)来促使算法的运行,具有较高的时间复杂度,难以扩展到大规模的复杂网络中。如何快速并精确的发现大规模网络中社区变成了一个亟待解决的难题。
随后,Raghavan、Albert等提出了一种接近线性复杂度用于发现大规模网络中的社区的经典标签传播的社区发现算法。算法的优点是简单,具有趋近于线性的时间复杂度,不需要社区数目、大小等先验性信息,社区发现的进行不需要通过优化目标函数,可以应用到大规模网络的社区发现。但是算法具有较高的随机性:网络中节点的标签具有相同的权重,因而在社区发现过程中会出 现多个最优的标签情况,算法只是随机的选择其中的一个标签;加上算法随机的遍历节点,进行标签更新,导致社区发现的结果不能收敛,多次重复实验不能得到相同结果。
因此一种适用于大规模网络的、稳定精确的社区发现算法将会有非常重要的意义和广阔的应用前景。
发明内容
针对以上现有技术中的不足,本发明的目的在于提供一种稳定精确的社区发现方法,本发明的技术方案如下:一种基于随机游走的标签传播社区发现方法,其包括以下步骤:
/101、创建随机游走模型:获取网络拓扑图并生成邻接矩阵,通过节点的度结合邻接矩阵计算该节点到其他节点的转移概率,最后得出转移矩阵P,其中转移矩阵P中的每一行数值代表的是游走者从本节点位置上转移到其他节点的概率,定义一个行向量I表示游走者当前的位置概率分布,则游走者游走一步后的位置概率分布就表示为I×P;
102、通过计算游走者t步之后的位置概率分布It,It表示节点的重要性分布,计算出网络中每个节点的权重值,则It中的每一个元素则代表相应节点的权重值;
103、根据步骤102中得出的网络中每个节点的权重值,筛选出中心节点,并对网络中的节点进行初步的划分,初始化节点标签,生成子社区;
104、从中心节点开始进行标签传播和更新,形成社区,完成社区发现。
进一步的,步骤102中的通过计算游走者游走t步之后的位置概率分布来得出节点的权重值,具体步骤是:计算游走者随机选择一个节点出发,沿着网络中的边,进行不停的随机游走,t步之后到达稳态的位置概率分布,用公式表示如下:
It=I0×Pt
It表示的是t步之后游走者的位置概率分布,I0则是初始时游走者的位置概
率分布。
进一步的,在步骤103中确定中心节点的步骤为:设置一个阈值r作为中心节点的门限值,权重值p≥r则作为中心节点的候选节点。
进一步的,在步骤104中标签的传播和更新具体为:选择标签邻居节点中标签权重最大的标签作为自己的标签:公式如下:
cx表示的是节点x的标签,Nl(x)是节点x邻居节点标签集,这里节点x也是自
己的邻居,Li表示的是标签i的权重。
进一步的,在步骤104中,中心节点开始进行标签传播和更新,节点更新标签的顺序不再是随机的,而是从第一个中心节点出发进行一轮广度优先遍历中心节点的邻居,依照标签更新条件判断节点是否更新标签,若更新则按照公式更新标签,否则什么也不做,并且在一个时间段内更新完一层后,跳转到下一个中心节点进行相同的更新,直到所有的节点标签不再发生变化。
本发明的优点及有益效果如下:
本发明提供了一种基于随机游走的标签传播社区发现方法,该方法有效的解决了经典标签传播社区发现算法中的随机性问题:通过计算游走者的位置概率分布得出节点的权重值,使得标签具有权重,从而有效的消除了经典标签传播算法选择标签时的随机性。通过引入一种中心节点的发现方法,发现社区的中心,因此提供一个迭代的从社区中心出发进行广度优先遍历邻居节点,更新标签的顺序,消除了经典标签传播算法中更新节点标签顺序的随机性问题,从而有效的提高了算法的精确度。
附图说明
图1是按照本发明优选实施例宏观流程图;
图2所示为网络拓扑示意图;
图3所示为更新标签时的网络示意图。
具体实施方式
下面结合附图给出一个非限定的实施例对本发明作进一步的阐述。但是应该理解,这些描述只是示例的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
图1为本发明所描述的宏观流程图,如图所示,本发明所述的基于随机游走的标签传播社区发现算法包括以下四个步骤:1)建立随机游走模型,其中包括游走者位置概率分布的定义、转移矩阵的确立;2)节点权重值的确立则是根据游走者随机游走t步之后的位置概率分布It确定的,节点的权重值等于向量It中相应位置的值,3)筛选中心节点,初始化节点标签,生成子社区;4)迭代的从每个中心节点开始进行标签传播和更新,形成稳定社区,完成社区发现;
在本实施例中,具体来说,在步骤1)中转移矩阵的建立是通过网络的邻接矩阵计算A得来,邻接矩阵反应的是节点之间的边连关系,如图2所示的网络拓扑图他所对应的邻接矩阵A为:
aij为1则表示节点i和j有边连接,转移矩阵P则是A中的每一行除以度数,Pi=Ai/ki,
Pi表示的是第i个节点转移到其他节点的概率,定义行向量I为当前时刻的位置概率分布,这里设置I0=(1,0,0,0,0,0,0,0,0,0,0),表示游走者当前的位置为节点1, 则游走者游走一步的概率则为I1=I0P,也就是游走者的游走可以用行向量与矩阵的相称来表示。
在步骤2)中节点的重要性分布的值,也就是节点的权重值分布等于游走者游走达到稳态以后的位置概率分布,公式如下:
It=I0×Pt
It表示的是t步之后游走者的位置概率分布,I0则是初始时游走者的位置概率分布。
在步骤3)中筛选中心节点的主要步骤是:将节点的权重值进行降序排列,pi表示的是第i个节点的权重值。通过实验确定阈值r。取1步骤中的降序列表中权重值p≥r的部分节点,从大到小依次做这样的处理:若节点i不属于任何社区,那么节点i就可以作为一个子社区的中心节点;如果i同中心节点相连则i加入中心节点所在的子社区;如果i已经加入了一个子社区则跳过这个节点,直到过程结束。然后初始化节点标签,同一子社区中的节点分配相同的标签,标签值等于子社区中心节点的id值,不同子社区之间标签则不同;每个游离节点则单独初始化为不同标签,标签值等于各个游离节点的id值。
在步骤4)中标签具有权重是因为持有标签的节点具有权重值,标签的权重值Li=pi,节点更新标签规则是选择邻居节点中相同标签权重之和最大的标签最为自己标签,计算公式如下:
cx表示的是节点x的标签,Nl(x)则是节点x邻居节点标签集(这里节点x也是自己的邻居),节点更新标签的顺序则是迭代从子社区的中心节点出发,按广度优先遍历自己的邻居节点,然后跳转到下一个子社区的中心节点…直到所有的节点标签不在发生变化,具体如图3所示一个网络局部视图,颜色较深的节点6和9作为两个子社区的社区种子,节点跟新标签的顺序为6,9,1 5 8 10,2 3 4 11,7。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (5)
1.一种基于随机游走的标签传播社区发现方法,其特征在于:包括以下步骤:
101、创建随机游走模型:获取网络拓扑图并生成邻接矩阵,通过节点的度结合邻接矩阵计算该节点到其他节点的转移概率,最后得出转移矩阵P,其中转移矩阵P中的每一行数值代表的是游走者从本节点位置上转移到其他节点的概率,定义一个行向量I表示游走者当前的位置概率分布,则游走者游走一步后的位置概率分布就表示为I×P;
102、通过计算游走者t步之后的位置概率分布It,It表示节点的重要性分布,计算出网络中每个节点的权重值,则It中的每一个元素则代表相应节点的权重值;
103、根据步骤102中得出的网络中每个节点的权重值,筛选出中心节点,并对网络中的节点进行初步的划分,初始化节点标签,生成子社区;
104、从中心节点开始进行标签传播和更新,形成社区,完成社区发现。
2.根据权利要求1所述的一种基于随机游走的标签传播社区发现方法,其特征在于:步骤102中的通过计算游走者游走t步之后的位置概率分布来得出节点的权重值,具体步骤是:计算游走者随机选择一个节点出发,沿着网络中的边,进行不停的随机游走,t步之后到达稳态的位置概率分布,用公式表示如下:
It=I0×Pt
It表示的是t步之后游走者的位置概率分布,I0则是初始时游走者的位置概率分布。
3.根据权利要求1所述的一种基于随机游走的标签传播社区发现方法,其特征在于:在步骤103中确定中心节点的步骤为:设置一个阈值r作为中心节点的门限值,权重值p≥r则作为中心节点的候选节点。
4.根据权利要求1所述的一种基于随机游走的标签传播社区发现方法,其特征在于:在步骤104中标签的传播和更新具体为:选择标签邻居节点中标签权重最大的标签作为自己的标签:公式如下:
cx表示的是节点x的标签,Nl(x)是节点x邻居节点标签集,这里节点x也是自
己的邻居,Li表示的是标签i的权重。
5.根据权利要求1所述的一种基于随机游走的标签传播社区发现方法,其特征在于:在步骤104中,中心节点开始进行标签传播和更新,节点更新标签的顺序不再是随机的,而是从第一个中心节点出发进行一轮广度优先遍历中心节点的邻居,依照标签更新条件判断节点是否更新标签,若更新则按照公式更新标签,否则什么也不做,并且在一个时间段内更新完一层后,跳转到下一个中心节点进行相同的更新,直到所有的节点标签不再发生变化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510018509.3A CN104657901B (zh) | 2015-01-14 | 2015-01-14 | 一种基于随机游走的标签传播社区发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510018509.3A CN104657901B (zh) | 2015-01-14 | 2015-01-14 | 一种基于随机游走的标签传播社区发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104657901A true CN104657901A (zh) | 2015-05-27 |
CN104657901B CN104657901B (zh) | 2018-04-27 |
Family
ID=53248982
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510018509.3A Active CN104657901B (zh) | 2015-01-14 | 2015-01-14 | 一种基于随机游走的标签传播社区发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104657901B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886524A (zh) * | 2015-12-15 | 2017-06-23 | 天津科技大学 | 一种基于随机游走的社会网络社区划分方法 |
CN106980659A (zh) * | 2017-03-20 | 2017-07-25 | 华中科技大学鄂州工业技术研究院 | 一种基于异构图模型的社交活动推荐方法 |
CN110069923A (zh) * | 2019-03-13 | 2019-07-30 | 咪咕文化科技有限公司 | 一种识别风险用户的方法及相关装置 |
CN110502568A (zh) * | 2019-08-08 | 2019-11-26 | 上海数禾信息科技有限公司 | 用于数据挖掘的实体关系计算方法以及装置、存储介质 |
CN113612749A (zh) * | 2021-07-27 | 2021-11-05 | 华中科技大学 | 一种面向入侵行为的溯源数据聚类方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110276649A1 (en) * | 2010-05-10 | 2011-11-10 | Telefonica, S.A. | Method for Efficient Partition and Replication of Social-Based Applications |
CN102857525A (zh) * | 2011-06-28 | 2013-01-02 | 安徽大学 | 基于随机游走策略的社区发现方法 |
CN103729467A (zh) * | 2014-01-16 | 2014-04-16 | 重庆邮电大学 | 一种社交网络中的社区结构发现方法 |
CN104021230A (zh) * | 2014-06-27 | 2014-09-03 | 重庆邮电大学 | 一种基于社区发现的协同过滤方法 |
-
2015
- 2015-01-14 CN CN201510018509.3A patent/CN104657901B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110276649A1 (en) * | 2010-05-10 | 2011-11-10 | Telefonica, S.A. | Method for Efficient Partition and Replication of Social-Based Applications |
CN102857525A (zh) * | 2011-06-28 | 2013-01-02 | 安徽大学 | 基于随机游走策略的社区发现方法 |
CN103729467A (zh) * | 2014-01-16 | 2014-04-16 | 重庆邮电大学 | 一种社交网络中的社区结构发现方法 |
CN104021230A (zh) * | 2014-06-27 | 2014-09-03 | 重庆邮电大学 | 一种基于社区发现的协同过滤方法 |
Non-Patent Citations (1)
Title |
---|
刘阳 等: "网络社区发现优化:基于随机游走的边权预处理方法", 《电子与信息学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106886524A (zh) * | 2015-12-15 | 2017-06-23 | 天津科技大学 | 一种基于随机游走的社会网络社区划分方法 |
CN106980659A (zh) * | 2017-03-20 | 2017-07-25 | 华中科技大学鄂州工业技术研究院 | 一种基于异构图模型的社交活动推荐方法 |
CN110069923A (zh) * | 2019-03-13 | 2019-07-30 | 咪咕文化科技有限公司 | 一种识别风险用户的方法及相关装置 |
CN110502568A (zh) * | 2019-08-08 | 2019-11-26 | 上海数禾信息科技有限公司 | 用于数据挖掘的实体关系计算方法以及装置、存储介质 |
CN110502568B (zh) * | 2019-08-08 | 2020-11-10 | 上海数禾信息科技有限公司 | 用于数据挖掘的实体关系计算方法以及装置、存储介质 |
CN113612749A (zh) * | 2021-07-27 | 2021-11-05 | 华中科技大学 | 一种面向入侵行为的溯源数据聚类方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104657901B (zh) | 2018-04-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gong et al. | Influence maximization in social networks based on discrete particle swarm optimization | |
Li et al. | Fast and accurate mining the community structure: integrating center locating and membership optimization | |
Zarandi et al. | Community detection in complex networks using structural similarity | |
CN110532436B (zh) | 基于社区结构的跨社交网络用户身份识别方法 | |
Liu et al. | Social learning discrete Particle Swarm Optimization based two-stage X-routing for IC design under Intelligent Edge Computing architecture | |
Oda et al. | Evaluation of WMN-GA for different mutation operators | |
Gong et al. | An improved memetic algorithm for community detection in complex networks | |
CN104657418B (zh) | 一种基于隶属度传播的复杂网络模糊社团挖掘方法 | |
CN104657901A (zh) | 一种基于随机游走的标签传播社区发现方法 | |
CN109308497A (zh) | 一种基于多标签网络的多向量表示学习方法 | |
CN107784598A (zh) | 一种网络社区发现方法 | |
Zhao et al. | A cellular learning automata based algorithm for detecting community structure in complex networks | |
Venturelli et al. | A Kriging-assisted multiobjective evolutionary algorithm | |
Lin et al. | An ILP based memetic algorithm for finding minimum positive influence dominating sets in social networks | |
Sheng et al. | Community detection based on human social behavior | |
Shang | Mean commute time for random walks on hierarchical scale-free networks | |
Liu et al. | DPRank centrality: finding important vertices based on random walks with a new defined transition matrix | |
Su et al. | A new random-walk based label propagation community detection algorithm | |
CN116151381B (zh) | 量子电路处理方法、装置及电子设备 | |
CN104156462A (zh) | 基于元胞自动学习机的复杂网络社团挖掘方法 | |
CN107578136A (zh) | 基于随机游走与种子扩展的重叠社区发现方法 | |
Msallam et al. | Improved intelligent water drops algorithm using adaptive schema | |
CN116611527A (zh) | 量子电路处理方法、装置及电子设备 | |
CN109635183A (zh) | 一种基于社区的合作者推荐方法 | |
CN106506183B (zh) | 网络社区的发现方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |