CN112925991A - 社交网络中基于节点间相似度的社区检测方法 - Google Patents
社交网络中基于节点间相似度的社区检测方法 Download PDFInfo
- Publication number
- CN112925991A CN112925991A CN202110246283.8A CN202110246283A CN112925991A CN 112925991 A CN112925991 A CN 112925991A CN 202110246283 A CN202110246283 A CN 202110246283A CN 112925991 A CN112925991 A CN 112925991A
- Authority
- CN
- China
- Prior art keywords
- node
- nodes
- similarity
- change
- social network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 238000000034 method Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 6
- 230000006855 networking Effects 0.000 claims description 2
- 241001481833 Coryphaena hippurus Species 0.000 description 2
- 235000005156 Brassica carinata Nutrition 0.000 description 1
- 244000257790 Brassica carinata Species 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公布了一种社交网络中基于节点间相似性的社区检测方法包括:接收待检测的社交网络;计算所述待检测社交网络中节点的相似程度;基于所述节点间的相似程度,进行对于社交网络的社区划分;输出社区网络最优社区划分。本发明的社交网络中基于节点间相似性的社区检测方法,融合了节点状态变化的变化指数和节点之间的余弦相似性计算方法,以得到最优的社区划分。
Description
技术领域
本发明涉及网络数据处理技术领域,具体是一种社交网络中基于节点间相似性的社区检测方法。
背景技术
近年来,各领域的大量科研人员投入到对网络学科的深入研究中,蛋白质网络、互联网网络、信息网络和社会网络都是复杂网络的例子,逐渐探索和发现了复杂网络的一些特征。在复杂网络中,节点通过边连接成成对的,一些节点相对紧密地连接在一起并聚集成簇或堆,这就是所谓的社区结构。
社区结构分为三种类型:1)非重叠社区结构,2)重叠社区结构,3)层次社区结构。社区满足了每个节点应属于且只能属于一个社区的限制,称为非重叠社区。然而,在现实网络中,一个节点通常属于多个社区。例如,一个人可能属于一个社交网络中的几个社区,如家人、朋友和同事,即某些节点可以属于多个社区。这种包含重叠节点的社区通常称为重叠社区。多种不同层次的社区分布,许多大的社区包含较小的社区,而这些较小的社区又包含更小的社区,称为层次社区结构。
随着网络的发展,社交网络中数据复杂性逐渐增大,网络中节点之间的相关性逐渐增加,同一社区的节点通常具有相似的属性和特征(如背景、职业或兴趣),社区检测难度逐渐增大。传统的计算方法无法满足现有网络的检测计算,需要新的方法解释网络中两个节点之间的相似程度,从而划分出相应的社区,对节点加以区分。
发明内容
基于上述问题,本发明提供一种社交网络中基于节点相似性的社区检测方法,在社交网络环境中融合网络节点的状态变化和余弦相似性的计算方法,然后在此基础上提出新的节点相似性社区检测算法,以得到较好网络社区划分。
为解决上述问题,本发明提供了一种社交网络中基于节点间相似性的社区检测方法,具体包括:
接收待检测的社交网络;
计算所述待检测社交网络中节点状态变化指数;
基于变化指数,计算出节点间相似程度;
基于所述节点间相似程度,检测所述社交网络的社区分布;
输出检测的社区结构;
其中,基于所述节点间相似程度,检测所述社交网络的社区分布,具体包括:
根据社交数据,网络化社交数据;
根据节点相似程度,进行社区划分;
根据模块值判断最优社区划分;
输出最优社区划分结果。
其中,计算所述待检测社交网络中节点间的相似程度,具体包括:
根据余弦相似度计算方法,改进为节点余弦相似度计算;
根据节点余弦相似度计算方法,改进为节点间的相似度计算;
根据所述节点间的相似度计算方法,得到所述社交网络中节点间的相似程度。
其中,根据余弦相似度计算方法,改进为节点余弦相似性的方法,具体包括:
根据余弦相似度是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量;
根据节点之间的关系,余弦相似度可以转为节点余弦相似度:
G(vi)和G(vj)表示节点vi和节点vj的邻居集,d(vi),d(vj)表示节点vi,vj的度。
其中,根据节点余弦相似度计算方法,改进为节点间的相似度计算,具体包括:
根据节点总体状态变化,定义节点变化指数为TS(vi);
根据节点变化指数,可以改进节点间的动态相似度为:
TS(vi)为节点所有邻居及自己的变化指数,d(vi)为节点度数;
其中,节点总体状态变化,定义节点变化指数为TS(vi),具体包括:
根据节点状态变化,定义变化指数;
根据变化指数,计算节点总体的变化,定义为节点变化指数TS(vi);
节点变化指数表示为:
TE(i)为变化指数。
其中,根据节点状态变化,定义变化指数,具体包括:
根据节点分为两个状态:激活和未激活,用1和0表示;
根据节点状态的变化,定义变化指数为TE(i);
变化指数表示为:
Te(i)表示节点vi的邻居中状态为1的节点数,di表示节点vi的度。
本发明的社交网络中基于节点间相似性的社区检测,利用了节点在状态变化
时引起的节点间的相似性变化,完成最终分区。
附图说明
图1是本发明的一种社交网络中基于节点间相似性的社区检测方法的流程图。
图2是本发明的节点间相似度计算流程。
图3是本发明的TCS算法与其他三种算法所得模块度Q的对比示意图。
具体实施方式
下面结合附图,对本发明的具体实施方式作进一步详细描述。以下实施实例用于说明本发明,但不用来限制本发明的范围。
图1是本发明的一种社交网络中基于节点间相似性的社区检测方法的流程图。
参照图1,本发明的社交网络中基于节点间相似性的社区检测方法,具体包括以下步骤:
一种社交网络中基于节点间相似性的社区检测方法,具体包括:
接收待检测的社交网络;
计算所述待检测社交网络中节点状态变化指数;
基于变化指数,计算出节点间相似程度;
基于所述节点间相似程度,检测所述社交网络的社区分布;
输出检测的社区结构;
在一个实施例子中,对于社交网络中节点相似度计算将社交信息转化为社交网络。
网络模型可以表示为G=(V,E).包含N个节点和M条边的连通网络其中V={v1,v2,v3,...,,vN}表示节点集,E={e1,e2,e3,...,eM}是边集。
参照图2,本发明的相似度计算流程,具体包括以下步骤:
首先节点的状态为:激活和未激活两种,其中激活表示为1,未激活表示为0。因而我们可以为每个节点定义一个称为变化指数的量,选择节点计算其处于被激活状态下的变化指数。
接着,考虑到节点自身和其邻居节点在时间段的总体变化,因此定义一个计算节点的所有邻居的影响称为节点变化指数。
然后,根据余弦相似性是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量,在余弦相似度基础上改进为两个节点间的相似度计算方法。
最后,结合改进的余弦相似度和节点变化指数,计算出节点在动态时间内由于状态的变化所得出的社区划分。
在数据集选取上,选取四个经典数据集分别为Zachary空手道俱乐部,海豚网络,美国大学足球网,美国政治书籍网。
表1为四个数据集的信息,包括节点数,边数,平均度,社区数。
表1为四个数据集的信息
社区划分的评价指标为模块性(Q),它是评价社区检测的经典方法,被广泛采用来表示特定分区的社区结构的强度,以此用来衡量社区划分的好坏。因此,Q的值越大说明社区的结构越清晰。形式上,模块化(Q)可以定义为:
其中,di,dj表示节点vi,vj的度数,如果节点vi,vj在同一个社区,则函数δ(ci,cj)等于1,否则函数等于0。当所有节点都归属同一个社区的时候,Q=0。
选取了三个经典的算法进行对比,其中包括LPA算法、GN算法和FN算法。
表2给出了TCS算法所得到的模块度Q的值与其它两种算法的对比。
LPA | GN | FN | TCS | |
Karate | 0.3431 | 0.4013 | 0.3807 | 0.5828 |
Dolphin | 0.4622 | 0.5194 | 0.5064 | 0.5098 |
Football | 0.5901 | 0.5996 | 0.5497 | 0.6021 |
Books | 0.4900 | 0.5186 | 0.5020 | 0.5259 |
图3是TCS算法所得到的模块度Q的值与其它两种算法的对比。可以看到,TCS算法所得到的社区模块度Q,在四个数据集上的表现均优于其它三种算法。
通过上述关于模块度Q的实验表明,本文所提出的节点状态变化的节点动态相似性可以得到更优的社区划分。
以上实施方式仅用于本发明,而非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权力要求限定。
Claims (6)
1.一种社交网络中基于节点状态变化的节点相似性社区检测方法,其特征在于:
接收待检测的社交网络;
计算所述待检测社交网络中节点状态变化指数;
基于变化指数,计算出节点间相似程度;
基于所述节点间相似程度,检测所述社交网络的社区分布;
输出检测的社区结构;
其中,基于所述节点间相似程度,检测所述社交网络的社区分布,具体包括:
根据社交数据,网络化社交数据;
根据节点相似程度,进行社区划分;
根据模块值判断最优社区划分;
输出最优社区划分结果。
2.根据权利要求1所述,其特征在于:计算所述待检测社交网络中节点间的相似程度,具体包括:
根据余弦相似度计算方法,改进为节点余弦相似度计算;
根据节点余弦相似度计算方法,改进为节点间的相似度计算;
根据所述节点间的相似度计算方法,得到所述社交网络中节点间的相似程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110246283.8A CN112925991A (zh) | 2021-03-05 | 2021-03-05 | 社交网络中基于节点间相似度的社区检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110246283.8A CN112925991A (zh) | 2021-03-05 | 2021-03-05 | 社交网络中基于节点间相似度的社区检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112925991A true CN112925991A (zh) | 2021-06-08 |
Family
ID=76173489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110246283.8A Pending CN112925991A (zh) | 2021-03-05 | 2021-03-05 | 社交网络中基于节点间相似度的社区检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112925991A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609303A (zh) * | 2021-07-14 | 2021-11-05 | 上海电力大学 | 一种基于知识图谱的国内外电力市场研究热点追踪方法 |
CN115169501A (zh) * | 2022-08-05 | 2022-10-11 | 东北电力大学 | 基于公共邻居节点聚类熵紧密相似性的社区检测方法 |
-
2021
- 2021-03-05 CN CN202110246283.8A patent/CN112925991A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609303A (zh) * | 2021-07-14 | 2021-11-05 | 上海电力大学 | 一种基于知识图谱的国内外电力市场研究热点追踪方法 |
CN115169501A (zh) * | 2022-08-05 | 2022-10-11 | 东北电力大学 | 基于公共邻居节点聚类熵紧密相似性的社区检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gregory | Fuzzy overlapping communities in networks | |
CN106021298B (zh) | 一种基于非对称加权相似度的协同过滤推荐方法及系统 | |
CN112925991A (zh) | 社交网络中基于节点间相似度的社区检测方法 | |
Bin et al. | Collaborative filtering recommendation algorithm based on multi-relationship social network | |
CN109921921B (zh) | 一种时变网络中时效稳定社团的检测方法和装置 | |
CN111967520A (zh) | 一种基于改进的smote算法的不平衡数据处理方法 | |
CN109686402B (zh) | 基于动态加权相互作用网络中关键蛋白质识别方法 | |
Zhu et al. | Portal nodes screening for large scale social networks | |
Rahman et al. | CRUDAW: A novel fuzzy technique for clustering records following user defined attribute weights | |
CN114154557A (zh) | 癌症组织分类方法、装置、电子设备及存储介质 | |
Lu et al. | Multiple-kernel combination fuzzy clustering for community detection | |
Sun et al. | Overlapping community detection based on information dynamics | |
CN112148991A (zh) | 融合度折扣和局部节点的社交网络节点影响力推荐方法 | |
CN112464107A (zh) | 一种基于多标签传播的社交网络重叠社区发现方法及装置 | |
CN104731887B (zh) | 一种协同过滤中的用户相似度度量方法 | |
Li et al. | Regularized structural equation modeling with stability selection. | |
CN115018545A (zh) | 基于用户画像与聚类算法的相似用户分析方法及系统 | |
Chen et al. | Link prediction in signed networks based on connection degree | |
CN116932923B (zh) | 一种结合行为特征与三角协作度量的项目推荐方法 | |
CN107423319B (zh) | 一种垃圾网页检测方法 | |
Amin et al. | Advanced community identification model for social networks | |
CN116501980A (zh) | 基于密度峰值聚类标签传播的社区发现方法及装置 | |
Keil et al. | Topological data analysis of attribute networks using diffusion frechet function with ego-networks | |
CN112035545B (zh) | 一种考虑非活跃节点和社区边界的竞争影响力最大化方法 | |
CN108717551A (zh) | 一种基于最大隶属度的模糊层次聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210608 |