CN109379282B - 基于多标签传播的网络社区检测方法 - Google Patents
基于多标签传播的网络社区检测方法 Download PDFInfo
- Publication number
- CN109379282B CN109379282B CN201811247488.2A CN201811247488A CN109379282B CN 109379282 B CN109379282 B CN 109379282B CN 201811247488 A CN201811247488 A CN 201811247488A CN 109379282 B CN109379282 B CN 109379282B
- Authority
- CN
- China
- Prior art keywords
- node
- community
- nodes
- representing
- density
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000010586 diagram Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000005192 partition Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 9
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 6
- 230000000007 visual effect Effects 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L45/00—Routing or path finding of packets in data switching networks
- H04L45/50—Routing or path finding of packets in data switching networks using label swapping, e.g. multi-protocol label switch [MPLS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/50—Testing arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于多标签传播的网络社区检测方法,包括:步骤1:数据预处理阶段,计算各个节点的密度值与距离值;步骤2:社区中心点选择;利用各个节点的密度值与距离值,通过DPC决策图选取社区中心点;步骤3:根据社区中心点进行多标签传播,传播结果即为社区检测结果;步骤4:将社区检测结果与数据集中各节点的真实标签进行比较,证明方法的有效性。
Description
技术领域
本发明涉及一种社交网络的社区检测方法。
背景技术
随着信息科技和社交网络的快速发展,人与人之间的联系越方便,社交网络的规模越来越大。如何对庞大的社交网络进行有效的分析以发现有价值的信息是一个很有意义的问题。其中,社区检测方法是一种很重要的网络分析方法。该类方法通过社交网络中各用户之间的联系,将网络划分为多个不同的社区。通常来说,同一个社区内的用户之间具有紧密的联系,而不同社区的用户之间联系较弱。基于社区划分,可以分析不同社区用户的特点,并根据用户所在的社区提供符合该社区用户特点的服务,因此具有很大商业价值。
社区检测方法可分为基于图的划分、基于层次聚类以及标签传播方式。图划分方法需要预先知道网络中的社区数目;层次聚类方法通常时间复杂度高,而且最终检测到的社区数目取决于方法中设定的距离阈值;标签传播方法时间复杂度较低,适用于复杂网络,但是也存在标签更新不稳定、社区数目取决于方法中的特定参数的问题。
发明内容
为了克服现有技术无法准确识别网络中社区数量以及基于标签传播的方法中标签更新不稳定的问题,本发明提供一种新的基于多标签传播的网络社区检测方法来实现社区检测;
本发明利用网络拓扑结构,通过DPC(密度峰值检测算法)识别网络中社区中心点,并基于社区中心点进行多标签传播,从而实现网络社区检测;
基于多标签传播的网络社区检测方法,整体流程图如图1所示,主要分为中心点检测阶段和多标签传播阶段;具体步骤如下:
步骤1:数据预处理阶段,计算各个节点的密度值与距离值;密度值ρ,距离值δ以及密度-距离值γ的计算公式如公式(1)(2)(3)(4)所示:
ξi=∑jηj (1)
ρi=ξi+ηi (2)
γi=ρi×δi (4)
其中ηj表示节点j的度数,ξi表示节点i的所有邻居节点的度数之和,ρi表示节点i的密度值;dij表示节点i和节点j的图最短路径长度,其中节点j为密度值大于节点i的节点,δi表示节点i的密度值;
步骤2:社区中心点选择;利用各个节点的密度值与距离值,通过DPC决策图选取社区中心点;
2.1对节点的密度值和距离值分别进行Z-score标准化,标准化后的密度值ρ*,距离值ξ*以及标准化后的密度-距离值γ*的计算公式如公式(5)(6)(7)所示:
其中ρi表示节点i的密度值,μρ表示所有节点的密度值的平均值,σρ表示所有节点的密度值的标准差,表示节点i标准化后的密度值;δi表示节点i的距离值,μδ表示所有节点的距离值的平均值,σδ表示所有节点的距离值的标准差,表示节点i标准化后的距离值;表示节点i标准化后的密度-距离值;
2.2 DPC算法是一个聚类算法,其中的DPC决策图是一个散点图,通过绘制决策图可以识别出各簇的中心点;利用以上步骤得到的各节点标准化后的密度-距离值,按照从小到大排序,绘制出如图2所示的可视化决策图(横坐标为排序后序号,纵坐标为密度-距离值);通过观察决策图中点的分布,找到具有较高的密度-距离值的节点,图2中位于图右上方的两个黑色节点具有较高的密度-距离值,这些节点即识别为社区中心点;
步骤3:根据社区中心点进行多标签传播,传播结果即为社区检测结果;多标签传播方法具体步骤如下:
(1)对m个节点N={n1,n2,...,nm}的密度-距离值γ进行降序排序,得到序列T={T1,T2,...,Tm};
(2)初始化标签结果集L=[0,0,...,0],|L|=m;对各节点设定初始标签{(l1,0),(l2,0),...,(lk,0)},其中k为识别出的社区中心点个数;
节点Ti标签更新计算完成后,对标签进行归一化,使得:
其中最大标签项对应的标签ml为:
ml=arg max(li)
(6)对于标签结果集L,相同数值项对应的节点归属于同一社区,从而将网络划分为k个社区;
步骤4:将社区检测结果与数据集中各节点的真实标签进行比较,证明方法的有效性;采用准确率(Acc),兰德指数(ARI)和标准互信息(NMI)三个指标来衡量社区划分质量,它们的定义如公式(10)(11)(12)所示:
其中ai表示正确识别的属于第i个社区的节点数量,l表示社区的数目,n表示节点数目;
其中N11表示通过检测方法得到的社区划分与实际社区划分里都属于同一社区的节点对数目,N00表示通过检测方法得到的社区划分与实际社区划分里都不属于同一社区的节点对数目,N01表示通过检测方法得到的社区划分里不属于同一社区而在实际社区划分里属于同一社区的节点对数目,N10表示通过检测方法得到的社区划分里属于同一社区而在实际社区划分里不属于同一社区的节点对数目;
其中N表示节点数目,C表示混淆矩阵,混淆矩阵中的项Cij表示同时属于在A划分下的i社区和在B划分下的j社区的节点数目;CA(CB)表示在A(B)划分下社区的数目,Ci.(C.j)表示矩阵C中各项的总和;
基于多标签传播进行社区检测的方法流程至此结束。
本发明综合上述技术提出了基于多标签传播的社区检测方法。为了解决无法准确识别网络中社区数量的问题,采用DPC决策图便于识别明显社区。此外,为了解决标签传播方法中更新不稳定的问题,采用多标签以及结合节点相似度的方法。
本发明的优点是:(1)方法实现简单快速。社区中心点检测和多标签传播过程中,除网络拓扑结构外,只需要计算各节点的密度值和距离值作为重复使用数据,社区中心点检测部分的时间复杂度为O(n),多标签传播部分时间复杂度为O(kn),其中k为节点的平均度数,n为节点数。(2)基于多标签传播的社区检测结果质量较优。本发明提出的结合节点相似度的多标签传播方法,弥补了传播标签传播方法中只考虑节点标签分布的不足,相比于传统标签传播方法,在社区检测质量上有了一定提升。
附图说明
图1是本发明方法的整体流程图。
图2是本发明方法的中心点检测阶段决策图。
具体实施方式
本发明共有两个阶段,分别是社区中心点检测和多标签传播阶段;社区中心点检测阶段计算各个节点的密度值、距离值以及密度-距离值,使用DPC算法的决策图方法检测明显的社区中心点;在多标签传播阶段,使用上一阶段计算的各节点的密度-距离值以及识别出的社区中心点,结合节点之间的结果相似度进行多标签传播,得到最终的社区划分结果;
本发明的输入为社交网络的拓扑信息,输出为社区划分结果;
具体步骤如下:
步骤1:数据预处理阶段,计算各个节点的密度值与距离值;密度值ρ,距离值δ以及密度-距离值γ的计算公式如公式(1)(2)(3)(4)所示:
ξi=∑jηj (1)
ρi=ξi+ηi (2)
γi=ρi×δi (4)
其中ηj表示节点j的度数,ξi表示节点i的所有邻居节点的度数之和,ρi表示节点i的密度值;dij表示节点i和节点j的图最短路径长度,其中节点j为密度值大于节点i的节点,δi表示节点i的密度值;
步骤2:社区中心点选择;利用各个节点的密度值与距离值,通过DPC决策图选取社区中心点;
2.1对节点的密度值和距离值分别进行Z-score标准化,标准化后的密度值ρ*,距离值ξ*以及标准化后的密度-距离值γ*的计算公式如公式(5)(6)(7)所示:
其中ρi表示节点i的密度值,μρ表示所有节点的密度值的平均值,σρ表示所有节点的密度值的标准差,表示节点i标准化后的密度值;δi表示节点i的距离值,μδ表示所有节点的距离值的平均值,σδ表示所有节点的距离值的标准差,表示节点i标准化后的距离值;表示节点i标准化后的密度-距离值;
2.2 DPC算法是一个聚类算法,其中的DPC决策图是一个散点图,通过绘制决策图可以识别出各簇的中心点;利用以上步骤得到的各节点标准化后的密度-距离值,按照从小到大排序,绘制出如图2所示的可视化决策图(横坐标为排序后序号,纵坐标为密度-距离值);通过观察决策图中点的分布,找到具有较高的密度-距离值的节点,图2中位于图右上方的两个黑色节点具有较高的密度-距离值,这些节点即识别为社区中心点;
步骤3:根据社区中心点进行多标签传播,传播结果即为社区检测结果;多标签传播方法具体步骤如下:
(1)对m个节点N={n1,n2,...,nm}的密度-距离值γ进行降序排序,得到序列T={T1,T2,...,Tm};
(2)初始化标签结果集L=[0,0,...,0],|L|=m;对各节点设定初始标签{(l1,0),(l2,0),...,(lk,0)},其中k为识别出的社区中心点个数;
节点Ti标签更新计算完成后,对标签进行归一化,使得:
其中最大标签项对应的标签ml为:
ml=arg max(li)
(6)对于标签结果集L,相同数值项对应的节点归属于同一社区,从而将网络划分为k个社区;
步骤4:将社区检测结果与数据集中各节点的真实标签进行比较,证明方法的有效性;采用准确率(Acc),兰德指数(ARI)和标准互信息(NMI)三个指标来衡量社区划分质量,它们的定义如公式(10)(11)(12)所示:
其中ai表示正确识别的属于第i个社区的节点数量,l表示社区的数目,n表示节点数目;
其中N11表示通过检测方法得到的社区划分与实际社区划分里都属于同一社区的节点对数目,N00表示通过检测方法得到的社区划分与实际社区划分里都不属于同一社区的节点对数目,N01表示通过检测方法得到的社区划分里不属于同一社区而在实际社区划分里属于同一社区的节点对数目,N10表示通过检测方法得到的社区划分里属于同一社区而在实际社区划分里不属于同一社区的节点对数目;
其中N表示节点数目,C表示混淆矩阵,混淆矩阵中的项Cij表示同时属于在A划分下的i社区和在B划分下的j社区的节点数目;CA(CB)表示在A(B)划分下社区的数目,Ci.(C.j)表示矩阵C中各项的总和;
基于多标签传播进行社区检测的方法流程至此结束。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (1)
1.基于多标签传播的网络社区检测方法,具体步骤如下:
步骤1:数据预处理阶段,计算各个节点的密度值与距离值;密度值ρ,距离值δ以及密度-距离值γ的计算公式如公式(1)(2)(3)(4)所示:
ξi=∑jηj (1)
ρi=ξi+ηi (2)
γi=ρi×δi (4)
其中ηj表示节点j的度数,ξi表示节点i的所有邻居节点的度数之和,ρi表示节点i的密度值;dij表示节点i和节点j的图最短路径长度,其中节点j为密度值大于节点i的节点,δi表示节点i的密度值;
步骤2:社区中心点选择;利用各个节点的密度值与距离值,通过DPC决策图选取社区中心点;
2.1对节点的密度值和距离值分别进行Z-score标准化,标准化后的密度值ρ*,距离值ξ*以及标准化后的密度-距离值γ*的计算公式如公式(5)(6)(7)所示:
其中ρi表示节点i的密度值,μρ表示所有节点的密度值的平均值,σρ表示所有节点的密度值的标准差,表示节点i标准化后的密度值;δi表示节点i的距离值,μδ表示所有节点的距离值的平均值,σδ表示所有节点的距离值的标准差,表示节点i标准化后的距离值;表示节点i标准化后的密度-距离值;
2.2DPC算法是一个聚类算法,其中的DPC决策图是一个散点图,通过绘制决策图可以识别出各簇的中心点;利用以上步骤得到的各节点标准化后的密度-距离值,按照从小到大排序,绘制出以排序后的序号为横坐标,以密度-距离值为纵坐标的可视化决策图;通过观察决策图中点的分布,找到具有高于常值的密度-距离值的节点,这些节点即识别为社区中心点;
步骤3:根据社区中心点进行多标签传播,传播结果即为社区检测结果;多标签传播方法具体步骤如下:
(1)对m个节点N={n1,n2,...,nm}的密度-距离值γ进行降序排序,
得到序列T={T1,T2,…,Tm};
(2)初始化标签结果集L=[0,0,...,0],|L|=m;对各节点设定初始标签{(l1,0),(l2,0),...,(lk,0)},其中k为识别出的社区中心点个数;
节点Ti标签更新计算完成后,对标签进行归一化,使得:
其中最大标签项对应的标签ml为:
ml=arg max(li)
(6)对于标签结果集L,相同数值项对应的节点归属于同一社区,从而将网络划分为k个社区;
步骤4:将社区检测结果与数据集中各节点的真实标签进行比较,证明方法的有效性;采用准确率(Acc),兰德指数(ARI)和标准互信息(NMI)三个指标来衡量社区划分质量,它们的定义如公式(10)(11)(12)所示:
其中ai表示正确识别的属于第i个社区的节点数量,l表示社区的数目,n表示节点数目;
其中N11表示通过检测方法得到的社区划分与实际社区划分里都属于同一社区的节点对数目,N00表示通过检测方法得到的社区划分与实际社区划分里都不属于同一社区的节点对数目,N01表示通过检测方法得到的社区划分里不属于同一社区而在实际社区划分里属于同一社区的节点对数目,N10表示通过检测方法得到的社区划分里属于同一社区而在实际社区划分里不属于同一社区的节点对数目;
其中N表示节点数目,C表示混淆矩阵,混淆矩阵中的项Cij表示同时属于在A划分下的i社区和在B划分下的j社区的节点数目;CA(CB)表示在A(B)划分下社区的数目,Ci·(C·j)表示矩阵C中各项的总和;
基于多标签传播进行社区检测的方法流程至此结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811247488.2A CN109379282B (zh) | 2018-10-25 | 2018-10-25 | 基于多标签传播的网络社区检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811247488.2A CN109379282B (zh) | 2018-10-25 | 2018-10-25 | 基于多标签传播的网络社区检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109379282A CN109379282A (zh) | 2019-02-22 |
CN109379282B true CN109379282B (zh) | 2020-11-13 |
Family
ID=65401407
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811247488.2A Active CN109379282B (zh) | 2018-10-25 | 2018-10-25 | 基于多标签传播的网络社区检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109379282B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131942B (zh) * | 2020-08-19 | 2022-05-17 | 深圳云天励飞技术股份有限公司 | 场所的属性分类方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636978A (zh) * | 2015-02-12 | 2015-05-20 | 西安电子科技大学 | 一种基于多标签传播的重叠社区检测方法 |
CN105915602A (zh) * | 2016-04-13 | 2016-08-31 | 华南理工大学 | 基于社区检测算法p2p网络的调度方法及其系统 |
CN107862618A (zh) * | 2017-11-06 | 2018-03-30 | 郑州云海信息技术有限公司 | 一种基于标签传播算法的社区发现方法和装置 |
CN108491449A (zh) * | 2018-02-25 | 2018-09-04 | 河南理工大学 | 一种基于近邻特征传播标签的社区发现方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10824674B2 (en) * | 2016-06-03 | 2020-11-03 | International Business Machines Corporation | Label propagation in graphs |
US10970724B2 (en) * | 2017-01-06 | 2021-04-06 | At&T Intellectual Property I, L.P. | Generating telecommunication network construction zones via clustering on weighted adjacency graphs of distribution areas |
-
2018
- 2018-10-25 CN CN201811247488.2A patent/CN109379282B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636978A (zh) * | 2015-02-12 | 2015-05-20 | 西安电子科技大学 | 一种基于多标签传播的重叠社区检测方法 |
CN105915602A (zh) * | 2016-04-13 | 2016-08-31 | 华南理工大学 | 基于社区检测算法p2p网络的调度方法及其系统 |
CN107862618A (zh) * | 2017-11-06 | 2018-03-30 | 郑州云海信息技术有限公司 | 一种基于标签传播算法的社区发现方法和装置 |
CN108491449A (zh) * | 2018-02-25 | 2018-09-04 | 河南理工大学 | 一种基于近邻特征传播标签的社区发现方法 |
Non-Patent Citations (5)
Title |
---|
《Evidential Community Detection Based on Density Peaks》;Kuang Zhou;《The 5th International Conference on Belief Function》;20180930;全文 * |
《Multiple Voting Label Propagation Algorithm for Overlapping Communities Detection》;XiaoChun Yin;《 2018 3rd International Conference on Mechanical, Control and Computer Engineering (ICMCCE)》;20180930;全文 * |
《一种改进的标签传播快速社区发现方法》;康旭彬;《合肥工业大学学报》;20130131;全文 * |
《基于密度峰值的重叠社区发现算法研究》;冯国香;《中国优秀硕士学位论文全文数据库》;20150831;全文 * |
《基于点距离和密度峰值聚类的社区发现方法》;黄岚;《吉林大学学报(工学版)》;20161130(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109379282A (zh) | 2019-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344285B (zh) | 一种面向监控的视频图谱构建和挖掘方法、设备 | |
WO2018014610A1 (zh) | 基于c4.5决策树算法的特定用户挖掘系统及其方法 | |
CN108875816A (zh) | 融合置信度准则和多样性准则的主动学习样本选择策略 | |
CN107515877A (zh) | 敏感主题词集的生成方法和装置 | |
CN110990718B (zh) | 一种公司形象提升系统的社会网络模型构建模块 | |
CN112926045B (zh) | 一种基于逻辑回归模型的群控设备识别方法 | |
CN106250925B (zh) | 一种基于改进的典型相关分析的零样本视频分类方法 | |
CN111047173B (zh) | 基于改进d-s证据理论的社团可信度评估方法 | |
CN104850577A (zh) | 一种基于有序复合树结构的数据流最大频繁项集挖掘方法 | |
CN110544047A (zh) | 一种不良数据辨识方法 | |
CN113344128A (zh) | 一种基于微簇的工业物联网自适应流聚类方法及装置 | |
CN112115996A (zh) | 图像数据的处理方法、装置、设备及存储介质 | |
CN114897085A (zh) | 一种基于封闭子图链路预测的聚类方法及计算机设备 | |
CN109379282B (zh) | 基于多标签传播的网络社区检测方法 | |
CN108959577B (zh) | 基于非主属性离群点检测的实体匹配方法和计算机程序 | |
Xing et al. | Fuzzy c-means algorithm automatically determining optimal number of clusters | |
CN109783696B (zh) | 一种面向弱结构相关性的多模式图索引构建方法及系统 | |
CN110348480A (zh) | 一种非监督异常数据检测算法 | |
CN106611180A (zh) | 基于测试代价的决策树分类器构造方法 | |
CN109086453A (zh) | 一种从邻居实例中提取标签相关性的方法及系统 | |
Suyal et al. | Performance evaluation of rough set based classification models to intrusion detection system | |
CN109409394A (zh) | 一种基于半监督聚类的cop-kmeans方法与系统 | |
CN105139037A (zh) | 基于最小生成树的集成多目标进化自动聚类方法 | |
Wu et al. | A new community detection algorithm based on distance centrality | |
Rahman et al. | An efficient approach for selecting initial centroid and outlier detection of data clustering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |