CN110427569A - 一种基于粗糙集理论的改进密度峰值重叠社区发现方法 - Google Patents
一种基于粗糙集理论的改进密度峰值重叠社区发现方法 Download PDFInfo
- Publication number
- CN110427569A CN110427569A CN201910696981.0A CN201910696981A CN110427569A CN 110427569 A CN110427569 A CN 110427569A CN 201910696981 A CN201910696981 A CN 201910696981A CN 110427569 A CN110427569 A CN 110427569A
- Authority
- CN
- China
- Prior art keywords
- node
- network
- community
- distance
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 238000005192 partition Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000012804 iterative process Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 235000005156 Brassica carinata Nutrition 0.000 description 1
- 244000257790 Brassica carinata Species 0.000 description 1
- 241001481833 Coryphaena hippurus Species 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于粗糙集理论的改进密度峰值重叠社区发现方法,包括如下步骤:首先采用改进的节点局部密度计算方法计算网络中个节点的局部密度属性(ρ);其次采用改进的高效的节点最小距离计算策略来计算各节点的最小距离属性(δ);针对节点间距离的计算,定义了一种ND‑subspace距离衡量方法并提出了新的社区中心点选取方式;最后在密度峰值聚类上进行对网络中的节点进行社区划分和对网络中的重叠节点进行迭代计算。本发明有效地解决了重叠节点划分问题,针对节点间距离的计算定义了ND‑subspace距离衡量方法,并改进了密度峰值聚类方法以更高效的划分大规模社交网络,能够有效的解决大规模社交网络的重叠社区划分问题。
Description
技术领域
本发明涉及数据挖掘领域,尤指涉及到大规模社交网络中重叠节点的分析和划分。
背景技术
随着网络科技的不断发展,网络社交成为人们重要的交流和互动方式。现如今已有许多网络社交平台,例如:Facebook、YouTube、Twitter等。这些平台会产生大量的社交网络数据,这些网络数据中蕴含着更深层次的结构信息。社区是由网络中联系紧密的个体所构成的群体,社区是网络局部特征的体现。挖掘网络中的社区结构能够帮助人们进一步探索网络中的所蕴含的知识。近年来,许多研究表明社区与社区之间可能存在重叠区域,这些重叠区域是网络中社区间联系的关键。因此重叠社区检测方法具有重要的理论意义和实用价值。社区发现是将相似度更高的节点聚簇的过程。网络数据往往以拓扑图形式存储,而数据中并没有直接给出节点间相似度或距离信息。因此,依据节点间拓扑关系来衡量节点间相似度或距离是社区发现的关键步骤之一。余弦相似度、Jaccord距离等虽然都能够将节点间拓扑关系转换为节点间相似度或距离,如1)J.Ding,X.He,J.Yuan,Y.Chen,and B.Jiang,“Community detection by propagating the label of center,”Physica A:Statistical Mechanics and its Applications,vol.503,pp.675–686,2018.和2)H.Zhou,Y.Zhang,and J.Li,“An overlapping community detection algorithm incomplex networks based on information theory,”Data&Knowledge Engineering,vol.117,pp.183-194,2018。但这些方法并没有充分利用节点间的拓扑信息。本发明借助粗糙集理论将节点的局部结构进一步形式化,并定义多种节点间相似度度量方法,进而求得节点间距离。本发明方法能较好的衡量节点间距离。
基于聚类思想的社区发现方法,思想简单,划分的社区结果质量较高,因而得到了广泛关注。但这类社区发现方法往往需要计算网络中任意节点间的距离(这导致算法的复杂度至少为O(n·logn)),例如基于K-means、基于节点密度、基于层次聚类的社区发现方法等。基于密度峰值的社区发现方法同样具有复杂度高的问题,因此研究一种基于网络数据集的数据结构特点对密度峰值算法进行改进而提高密度峰值聚类算法应用于社区发现的效率,同时对重叠节点的较为高效的识别和划分对社区发现算法实为一种迫切的技术需求。而经典的密度峰值聚类方法无法划分重叠节点。为了较好的识别和划分网络中的重叠节点,本方法借助粗糙集理论定义了一种针对重叠节点迭代计算的划分方法。
发明内容
鉴于现有技术的以上不足,本发明的目的是种基于粗糙集理论的改进密度峰值重叠社区发现方法,并使之具有更为完备和高效的优点。其手段如下:
一种基于粗糙集理论的改进密度峰值重叠社区发现方法,首先采用改进的节点局部密度计算方法计算网络中个节点的局部密度属性(ρ);其次采用改进的节点最小距离计算策略来计算各节点的最小距离属性(δ)并完成社区中心点;最后在密度峰值聚类上对网络中的节点进行社区划分及对重叠节点划分,最后完成目标任务解决大规模社交网络的重叠社区划分,包含以下的步骤:
步骤1:输入网络为网络的邻接矩阵;计算网络中各节点(vi)的局部密度(ρi)时,既要考虑vi的邻居个数|neib(vi)|,同时也考虑vi的邻居间的连接强度SNi,最终ρi的大小由|neib(vi)|和SNi共同决定,其计算公式如下:
其中,Axy对应邻接矩阵中x和y位置的值,P(neib(vi))表示neib(vi)构成完全图时边的个数;
步骤2:计算网络中各节点(vi)的最小距离δi时,需要将网络中的节点分为两类:局部峰值点(Vd)和普通点(Vn),并分别定义最小距离的计算方式。当节点vi满足条件:那么vi被划分到Vd中,否则vi被划分到Vn中。针对Vd中的节点最小距离的计算公式为:针对Vn中的节点最小距离的计算公式为:
步骤3:为网络中的每一个节点赋予核心值属性ci=ρi×δi,将网络中的节点按照核心值大小进行降序排列并存入List。定义中心点选择距离参数初始化i=0并遍历List中的节点,当List.get(i)∈Vd或者那么List.get(i)被选为中心点并继续遍历List,否则结束遍历。为网络中每一个节点都初始化一个链表labeli,用于存储节点的社区标签。并赋予中心节点不同的社区标签;
选取中心点后,每一个中心节点有且仅有一个社区标签,网络中的非中心节点没有社区标签;非中心节点的社区划分划分网络中的某一节点时,仅依据其邻居节点的关系而非网络中的所有节点;对重叠节点的实施迭代划分方式,其具体步骤如下:
步骤4:社区划分采用一种迭代的方式进行,这种迭代过程以重叠参数γ≤1作为迭代条件,当γ≤1时,清空网络中标签数量大于1的节点的社区标签,并执行步骤5;如果γ>1则输出最优的社区划分结构作为最终结果;
步骤5:将标签为空的节点按照核心值大小降序排列,并以此作为划分过程;当划分节点vi时,首先找到距离vi最近的邻居节点vk,然后遍历vi的所有邻居节点vl∈neib(vi),当时,将vl的社区标签赋予vi;
步骤6:如果网络中所有的节点都被赋予社区标签后,那么记录当前网络的社区划分情况,并对社区结果进行评价,γ=γ+step,并执行步骤4,否则跳转步骤5。
上述步骤的流程示意图如图1所示。进一步地,定义了一种基于粗糙集理论的距离衡量方法以计算网络中任意两个不同节点之间的距离。上述步骤2中的节点最小距离的计算时,按基于粗糙集理论的ND-subspace距离衡量方法计算网络中任意两个不同节点之间的距离,其过程包括如下步骤:
步骤1:vi,vj∈V(i≠j)是需要计算距离的两个节点,τ(vi)代表vi自身及其邻居节点构成的集合,vi和vj的局部结构可以构成子图SGij={Vij,Eij},其中Vij={τ(vi),τ(vj)},Eij={ei|node(ei)={vi or vj}};
步骤2:借助粗糙集理论将SGij中的Vij形式化,如下:
下近似(正域):RD(vi,vj)={vx|vx∈τ(vi)∩τ(vj)}∪vi∪vj
上近似:
边界域:
步骤3:SGij是由vi和vj的局部结构所构成的子图,因此通过衡量子图SGij的结构强度,可以衡量vi和vj之间距离;SGij的结构强度分为三部分:vi和vj之间的吸引力,RD(vi,vj)的结构强度以及RDb(vi,vj)和RD(vi,vj)的连接强度;
步骤3.1:通过如下公式计算SGij中vi和vj之间的吸引力:
步骤3.2:通过如下公式计算SGij中RD(vi,vj)的结构强度:
其中,Axy对应邻接矩阵中x和y位置的值,P(RD(vi,vj))表示RD(vi,vj)构成完全图时边的个数;
步骤3.3:通过如下公式计算RDb(vi,vj)和RD(vi,vj)的连接强度:
其中,Axy对应邻接矩阵中x和y位置的值,|RDb(vi,vj)|和|RD(vi,vj)|分别表示RDb(vi,vj)和RD(vi,vj)中节点的个数;
步骤3.4:通过步骤3.1-3.3来衡量SGij的结构强度,其计算方法如下:
Sij=a·Fij+b·SLij+c·SUij
其中,a+b+c=1,因此得到SGij的结构强度Sij∈[0,1];
步骤4:在步骤3.4中,Sij越大表明vi和vj的局部结构越相似。局部结构越相似的节点间距离越近,至此vi和vj之间的距离dij计算方法表达为:
dij=1-Sij。
距离计算的流程示意图如图2所示。
与现有技术相比,本发明的积极效果是:
一、区别于余弦相似度和Jaccord距离,本发明借助粗糙集思想定义了ND-subspace距离衡量方法。本发明方法在计算两个节点间距离时,以两节点局部结构信息构成子图,并借助粗糙集理论进一步对子图进行形式化,并针对不同节点集合定义相似度度量公式,最终由多个相似度计算节点间距离。这种方式在计算两个节点间距离时,充分利用了节点间邻居的连接信息。因此本发明方法能更完备地衡量网络节点间距离。
二、区别于以往的密度峰值社区发现方法,为了更高效的挖掘大规模社交网络并得到较好的社区结构,本发明对密度峰值聚类算法进行改进。依据网络数据结构的特殊性,对密度峰值聚类算法种局部密度、最小距离以及中心点的选择进行改进。
当计算某节点的局部密度时,无需计算网络中的其他节点到该节点的距离,而仅仅需要依据该节点的邻居节点的连接情况即可。这种方式大大降低了计算节点的局部密度时的时间开销。为了高效的计算各节点的最小距离,本方法将网络中的节点分为局部峰值点Vd和普通点Vn两个集合,并分别定义了最小距离计算公式。中心点选择也参考了局部峰值点Vd和普通点Vn两个集合,保证了中心点选择的准确率。
三、区别于其他重叠社区发现方法,本方法定义了重叠参数γ并定义了一种迭代划分方法,在迭代过程中不断调整γ对网络中的节点进行划分。但每次调整γ后对整个网络进行划分会大大降低算法效率,因此本发明借助粗糙集理论,在迭代过程中,仅仅对具有多个社区标签的节点进行重复计算和划分。本发明方法能够有效提高重叠节点的划分准确率。
附图说明
图1是本发明方法的执行流程示意图。
图2是本发明方法计算两个节点间距离时的执行流程示意图。
图3是对发明中进行调整图
图4是本发明在真实网络实施例的实验结果列表
图5是本发明在人工网络实施例的实验结果。
具体实施方式
具体实施步骤如下所示:
为了高效划分大规模网络,本发明针对密度峰值聚类算法中ρ和δ的计算以及中心点的选择提出了新的方法,其步骤如下:
步骤1:输入网络为网络的邻接矩阵。计算网络中各节点(vi)的局部密度(ρi)时,既要考虑vi的邻居个数|neib(vi)|,同时也考虑vi的邻居间的连接强度SNi,最终ρi的大小由|neib(vi)|和SNi共同决定,其计算公式如下:
其中,Axy对应邻接矩阵中x和y位置的值,P(neib(vi))表示neib(vi)构成完全图时边的个数;
步骤2:计算网络中各节点(vi)的最小距离δi时,需要将网络中的节点分为两类:局部峰值点(Vd)和普通点(Vn),并分别定义最小距离的计算方式。当节点vi满足条件:那么vi被划分到Vd中,否则vi被划分到Vn中。针对Vd中的节点最小距离的计算公式为:针对Vn中的节点最小距离的计算公式为:
步骤3:为网络中的每一个节点赋予核心值属性ci=ρi×δi,将网络中的节点按照核心值大小进行降序排列并存入List。定义中心点选择距离参数初始化i=0并遍历List中的节点,当List.get(i)∈Vd或者那么List.get(i)被选为中心点并继续遍历List,否则结束遍历。为网络中每一个节点都初始化一个链表labeli,用于存储节点的社区标签。并赋予中心节点不同的社区标签;
选取中心点后,每一个中心节点有且仅有一个社区标签,网络中的非中心节点没有社区标签。非中心节点的社区划分借助了密度峰值聚类算法的思想,但为了进一步提升本发明的效率,在划分网络中的某一节点时,仅依据其邻居节点的关系而非网络中的所有节点。并针对重叠节点的划分,本发明借助粗糙集思想定义了一种迭代划分方式,其具体步骤如下:
步骤4:社区划分采用一种迭代的方式进行,这种迭代过程以重叠参数γ≤1作为迭代条件,当γ≤1时,清空网络中标签数量大于1的节点的社区标签,并执行步骤9。如果γ>1则输出最优的社区划分结构作为最终结果;
步骤5:将标签为空的节点按照核心值大小降序排列,并以此作为划分过程。当划分节点vi时,首先找到距离vi最近的邻居节点vk,然后遍历vi的所有邻居节点vl∈neib(vi),当时,将vl的社区标签赋予vi;
步骤6:如果网络中所有的节点都被赋予社区标签后,那么记录当前网络的社区划分情况,并对社区结果进行评价,γ=γ+step,并执行步骤4,否则跳转步骤5。
针对上述步骤中网络中任意两个节点vi和vj间的距离计算方式,本发明也提出了新的方法,该方法借助粗糙集理论并充分利用了节点的局部结构信息来计算节点间距离,其具体步骤如下所示:
步骤1:vi,vj∈V(i≠j)是需要计算距离的两个节点,τ(vi)代表vi自身及其邻居节点构成的集合,vi和vj的局部结构可以构成子图SGij={Vij,Eij},其中Vij={τ(vi),τ(vj)},Eij={ei|node(ei)={vi or vj}};
步骤2:借助粗糙集理论将SGij中的Vij形式化,如下:
下近似(正域):RD(vi,vj)={vx|vx∈τ(vi)∩τ(vj)}∪vi∪vj
上近似:
边界域:
步骤3:SGij是由vi和vj的局部结构所构成的子图,因此通过衡量子图SGij的结构强度,可以衡量vi和vj之间距离。SGij的结构强度分为三部分:vi和vj之间的吸引力,RD(vi,vj)的结构强度以及RDb(vi,vj)和RD(vi,vj)的连接强度;
步骤3.1:通过如下公式计算SGij中vi和vj之间的吸引力:
步骤3.2:通过如下公式计算SGij中RD(vi,vj)的结构强度:
其中,Axy对应邻接矩阵中x和y位置的值,P(RD(vi,vj))表示RD(vi,vj)构成完全图时边的个数;
步骤3.3:通过如下公式计算RDb(vi,vj)和RD(vi,vj)的连接强度:
其中,Axy对应邻接矩阵中x和y位置的值,|RDb(vi,vj)|和|RD(vi,vj)|分别表示RDb(vi,vj)和RD(vi,vj)中节点的个数;
步骤3.4:通过步骤3.1-3.3来衡量SGij的结构强度,其计算方法如下:
Sij=a·Fij+b·SLij+c·SUij
本发明中令a=0.5、b=0.3、c=0.2,因此得到SGij的结构强度Sij∈[0,1];
步骤4:在步骤3.4中,Sij越大表明vi和vj的局部结构越相似。局部结构越相似的节点间距离越近,因此vi和vj之间的距离dij计算方法如下:
dij=1-Sij;
有益结果
为了验证本发明的有效性,本发明使用公共网络数据集和LFR人工网络作为本发明的验证数据,并使用EQ和NMILFK作为本发明的评估度量,其计算公式如下所示:
其中,m是网络中边的个数,O(i)是节点vi所属社区的个数,k(i)是节点vi的度,H(X|Y)为X在Y下的条件熵,H(X)为X的熵。
试验一
在Karate,Dolphin,Football,Lesmis,Polbooks,Power数据集上对本发明中的进行调整(为本发明中选取中心点的距离参数)。的大小与选取中心点的个数密切相关,越小,则本发明可能会选取更多的选取中心点;越大,则本发明会选取较少的中心点。本发明中所定义的距离计算方式所计算出的距离dij∈[0,1],因此可以得到为了更好的调整如图3所示,本发明以作为初始值,并0.05作为步长,依次划分以上数据集,当网络数据集取得极值时记录值。由此能够得到一组值,并以此作为之后网络划分的依据。
试验二
为了验证本发明的方法在真实社交网络中是否有效,在多个真实网络中对本发明进行测试。所使用的真实网络信息如图4所示,n表示网络中节点个数,m表示网络中边的个数,k表示网络中节点平均度。由于真实网络的真实社区结构难以获得,因此在本发明采用EQ作为真实网络的社区评价度量。为了验证本发明的效果,一种密度峰值社区发现算法DCN和基于信息理论的社区发现算法OCDIT作为对比算法,其对比实验结果如图4所示。本发明较DCN与OCDIT相比具有较为明显优势。
试验三
为了验证本发明的方法划分网络的准确率,本发明采用LFR生成带有真实社区标签的数据集,其试验结果如图5所示。由于生成的真实网络存在真实社区结构,因此采用EQ和NMILFK作为社区评价度量。生成的人工网络中重叠节点占比为10%,节点的重叠程度Om依次由2递增至8。由图5可以看出,本发明在EQ评价和NMILFK评价下都具有较好的结果。
Claims (2)
1.一种基于粗糙集理论的改进密度峰值重叠社区发现方法,首先采用改进的节点局部密度计算方法计算网络中个节点的局部密度属性(ρi);其次采用改进的节点最小距离计算策略来计算各节点的最小距离属性(δi)并完成社区中心点;最后在密度峰值聚类上对网络中的节点进行社区划分及对重叠节点划分,最后完成目标任务解决大规模社交网络的重叠社区划分,包含以下的步骤:
步骤1:输入网络为网络的邻接矩阵;计算网络中各节点(vi)的局部密度(ρi)时,既要考虑vi的邻居个数|neib(vi)|,同时也考虑vi的邻居间的连接强度SNi,最终ρi的大小由|neib(vi)|和SNi共同决定,其计算公式如下:
其中,Axy对应邻接矩阵中x和y位置的值,P(neib(vi))表示neib(vi)构成完全图时边的个数;
步骤2:计算网络中各节点(vi)的最小距离δi时,需要将网络中的节点分为两类:局部峰值点(Vd)和普通点(Vn),并分别定义最小距离的计算方式;当节点vi满足条件:那么vi被划分到Vd中,否则vi被划分到Vn中;针对Vd中的节点最小距离的计算公式为:针对Vn中的节点最小距离的计算公式为:
步骤3:为网络中的每一个节点赋予核心值属性ci=ρi×δi,将网络中的节点按照核心值大小进行降序排列并存入List;定义中心点选择距离参数初始化i=0并遍历List中的节点,当List.get(i)∈Vd或者那么List.get(i)被选为中心点并继续遍历List,否则结束遍历;为网络中每一个节点都初始化一个链表labeli,用于存储节点的社区标签,并赋予中心节点不同的社区标签;
选取中心点后,每一个中心节点有且仅有一个社区标签,网络中的非中心节点没有社区标签;非中心节点的社区划分划分网络中的某一节点时,仅依据其邻居节点的关系而非网络中的所有节点;对重叠节点的实施迭代划分方式,其具体步骤如下:
步骤4:社区划分采用一种迭代的方式进行,这种迭代过程以重叠参数γ≤1作为迭代条件,当γ≤1时,清空网络中标签数量大于1的节点的社区标签,并执行步骤5;如果γ>1则输出最优的社区划分结构作为最终结果;
步骤5:将标签为空的节点按照核心值大小降序排列,并以此作为划分过程;当划分节点vi时,首先找到距离vi最近的邻居节点vk,然后遍历vi的所有邻居节点vl∈neib(vi),当时,将vl的社区标签赋予vi;
步骤6:如果网络中所有的节点都被赋予社区标签后,那么记录当前网络的社区划分情况,并对社区结果进行评价,γ=γ+step,并执行步骤4,否则跳转步骤5。
2.根据权利要求1所述的基于粗糙集理论的改进密度峰值重叠社区发现方法,其特征在于,所述步骤2中的节点最小距离的计算时,按基于粗糙集理论的ND-subspace距离衡量方法计算网络中任意两个不同节点之间的距离,其过程包括如下步骤:
步骤1:vi,vj∈V(i≠j)是需要计算距离的两个节点,τ(vi)代表vi自身及其邻居节点构成的集合,vi和vj的局部结构可以构成子图SGij={Vij,Eij},其中Vij={τ(vi),τ(vj)},Eij={ei|node(ei)={vi or vj}};
步骤2:借助粗糙集理论将SGij中的Vij形式化,如下:
下近似(正域):RD(vi,vj)={vx|vx∈τ(vi)∩τ(vj)}∪vi∪vj
上近似:
边界域:
步骤3:SGij是由vi和vj的局部结构所构成的子图,因此通过衡量子图SGij的结构强度,可以衡量vi和vj之间距离;SGij的结构强度分为三部分:vi和vj之间的吸引力,RD(vi,vj)的结构强度以及RDb(vi,vj)和RD(vi,vj)的连接强度;
步骤3.1:通过如下公式计算SGij中vi和vj之间的吸引力:
步骤3.2:通过如下公式计算SGij中RD(vi,vj)的结构强度:
其中,Axy对应邻接矩阵中x和y位置的值,P(RD(vi,vj))表示RD(vi,vj)构成完全图时边的个数;
步骤3.3:通过如下公式计算RDb(vi,vj)和RD(vi,vj)的连接强度:
其中,Axy对应邻接矩阵中x和y位置的值,|RDb(vi,vj)|和|RD(vi,vj)|分别表示RDb(vi,vj)和RD(vi,vj)中节点的个数;
步骤3.4:通过步骤3.1-3.3来衡量SGij的结构强度,其计算方法如下:
Sij=a·Fij+b·SLij+c·SUij
其中,a+b+c=1,因此得到SGij的结构强度Sij∈[0,1];
步骤4:在步骤3.4中,Sij越大表明vi和vj的局部结构越相似;局部结构越相似的节点间距离越近,至此vi和vj之间的距离dij计算方法表达为:
dij=1-Sij。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910696981.0A CN110427569B (zh) | 2019-07-30 | 2019-07-30 | 一种基于粗糙集理论的改进密度峰值重叠社区发现方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910696981.0A CN110427569B (zh) | 2019-07-30 | 2019-07-30 | 一种基于粗糙集理论的改进密度峰值重叠社区发现方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427569A true CN110427569A (zh) | 2019-11-08 |
CN110427569B CN110427569B (zh) | 2021-09-24 |
Family
ID=68413184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910696981.0A Active CN110427569B (zh) | 2019-07-30 | 2019-07-30 | 一种基于粗糙集理论的改进密度峰值重叠社区发现方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427569B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455612A (zh) * | 2013-09-07 | 2013-12-18 | 西安电子科技大学 | 基于两阶段策略的非重叠与重叠网络社区检测方法 |
CN104636978A (zh) * | 2015-02-12 | 2015-05-20 | 西安电子科技大学 | 一种基于多标签传播的重叠社区检测方法 |
CN107153713A (zh) * | 2017-05-27 | 2017-09-12 | 合肥工业大学 | 社交网络中基于节点间相似性的重叠社区检测方法及系统 |
CN108595684A (zh) * | 2018-05-04 | 2018-09-28 | 中南大学 | 一种基于偏好学习机制的重叠社区发现方法及系统 |
CN108628936A (zh) * | 2018-03-20 | 2018-10-09 | 重庆邮电大学 | 一种结合用户重叠行为的微博重叠社团划分方法 |
CN108959652A (zh) * | 2018-08-04 | 2018-12-07 | 福州大学 | 基于密度峰值与社区归属度的重叠社区发现方法 |
-
2019
- 2019-07-30 CN CN201910696981.0A patent/CN110427569B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455612A (zh) * | 2013-09-07 | 2013-12-18 | 西安电子科技大学 | 基于两阶段策略的非重叠与重叠网络社区检测方法 |
CN104636978A (zh) * | 2015-02-12 | 2015-05-20 | 西安电子科技大学 | 一种基于多标签传播的重叠社区检测方法 |
CN107153713A (zh) * | 2017-05-27 | 2017-09-12 | 合肥工业大学 | 社交网络中基于节点间相似性的重叠社区检测方法及系统 |
CN108628936A (zh) * | 2018-03-20 | 2018-10-09 | 重庆邮电大学 | 一种结合用户重叠行为的微博重叠社团划分方法 |
CN108595684A (zh) * | 2018-05-04 | 2018-09-28 | 中南大学 | 一种基于偏好学习机制的重叠社区发现方法及系统 |
CN108959652A (zh) * | 2018-08-04 | 2018-12-07 | 福州大学 | 基于密度峰值与社区归属度的重叠社区发现方法 |
Non-Patent Citations (1)
Title |
---|
郭昆等: "基于密度峰值和社区归属度的重叠社区发现算法", 《小型微型计算机系统》 * |
Also Published As
Publication number | Publication date |
---|---|
CN110427569B (zh) | 2021-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108051035B (zh) | 基于门控循环单元的神经网络模型的管网漏损识别方法 | |
CN106326637A (zh) | 一种基于局部有效路径度的链路预测方法 | |
CN105183796A (zh) | 一种基于聚类的分布式链路预测方法 | |
CN109615550A (zh) | 一种基于相似性的局部社团检测方法 | |
CN110276966A (zh) | 交叉口信号控制时段划分方法 | |
CN109271427A (zh) | 一种基于近邻密度和流形距离的聚类方法 | |
CN104217088B (zh) | 运营商移动业务资源的优化方法与系统 | |
CN107248029A (zh) | 一种土地利用结构优化的多目标改进差分进化模型 | |
CN107729939A (zh) | 一种面向新增电网资源的cim模型扩展方法及装置 | |
CN105678590A (zh) | 一种面向社交网络基于云模型的topN推荐方法 | |
Liu et al. | A moving shape-based robust fuzzy K-modes clustering algorithm for electricity profiles | |
CN103677960A (zh) | 一种能耗约束的虚拟机博弈重放置方法 | |
CN110263945A (zh) | 基于马尔科夫链的配电网线损处理系统 | |
CN109948705A (zh) | 一种基于k近邻图的稀有类检测方法及装置 | |
CN109656898A (zh) | 基于节点度的分布式大规模复杂社团探测方法及装置 | |
Hu et al. | A new algorithm CNM-Centrality of detecting communities based on node centrality | |
CN103164487B (zh) | 一种基于密度与几何信息的数据聚类方法 | |
CN114417177A (zh) | 一种基于节点综合影响力的标签传播重叠社区发现方法 | |
CN107276093B (zh) | 基于场景削减的电力系统概率潮流计算方法 | |
CN108959652A (zh) | 基于密度峰值与社区归属度的重叠社区发现方法 | |
CN112989526A (zh) | 一种基于核极限学习机的航空网络关键节点识别方法 | |
CN110119268B (zh) | 基于人工智能的工作流优化方法 | |
CN116014764B (zh) | 一种分布式储能优化处理方法及装置 | |
CN110427569A (zh) | 一种基于粗糙集理论的改进密度峰值重叠社区发现方法 | |
CN115086179B (zh) | 一种社交网络中社区结构的检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |