CN110427569B - 一种基于粗糙集理论的改进密度峰值重叠社区发现方法 - Google Patents

一种基于粗糙集理论的改进密度峰值重叠社区发现方法 Download PDF

Info

Publication number
CN110427569B
CN110427569B CN201910696981.0A CN201910696981A CN110427569B CN 110427569 B CN110427569 B CN 110427569B CN 201910696981 A CN201910696981 A CN 201910696981A CN 110427569 B CN110427569 B CN 110427569B
Authority
CN
China
Prior art keywords
nodes
node
network
community
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910696981.0A
Other languages
English (en)
Other versions
CN110427569A (zh
Inventor
陈红梅
封云飞
李天瑞
桑彬彬
王生武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN201910696981.0A priority Critical patent/CN110427569B/zh
Publication of CN110427569A publication Critical patent/CN110427569A/zh
Application granted granted Critical
Publication of CN110427569B publication Critical patent/CN110427569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于粗糙集理论的改进密度峰值重叠社区发现方法,包括如下步骤:首先采用改进的节点局部密度计算方法计算网络中个节点的局部密度属性(ρ);其次采用改进的高效的节点最小距离计算策略来计算各节点的最小距离属性(δ);针对节点间距离的计算,定义了一种ND‑subspace距离衡量方法并提出了新的社区中心点选取方式;最后在密度峰值聚类上进行对网络中的节点进行社区划分和对网络中的重叠节点进行迭代计算。本发明有效地解决了重叠节点划分问题,针对节点间距离的计算定义了ND‑subspace距离衡量方法,并改进了密度峰值聚类方法以更高效的划分大规模社交网络,能够有效的解决大规模社交网络的重叠社区划分问题。

Description

一种基于粗糙集理论的改进密度峰值重叠社区发现方法
技术领域
本发明涉及数据挖掘领域,尤指涉及到大规模社交网络中重叠节点的分析和划分。
背景技术
随着网络科技的不断发展,网络社交成为人们重要的交流和互动方式。现如今已有许多网络社交平台,例如:Facebook、YouTube、Twitter等。这些平台会产生大量的社交网络数据,这些网络数据中蕴含着更深层次的结构信息。社区是由网络中联系紧密的个体所构成的群体,社区是网络局部特征的体现。挖掘网络中的社区结构能够帮助人们进一步探索网络中的所蕴含的知识。近年来,许多研究表明社区与社区之间可能存在重叠区域,这些重叠区域是网络中社区间联系的关键。因此重叠社区检测方法具有重要的理论意义和实用价值。社区发现是将相似度更高的节点聚簇的过程。网络数据往往以拓扑图形式存储,而数据中并没有直接给出节点间相似度或距离信息。因此,依据节点间拓扑关系来衡量节点间相似度或距离是社区发现的关键步骤之一。余弦相似度、Jaccord距离等虽然都能够将节点间拓扑关系转换为节点间相似度或距离,如1)J.Ding,X.He,J.Yuan,Y.Chen,and B.Jiang,“Community detection by propagating the label of center,”Physica A:Statistical Mechanics and its Applications,vol.503,pp.675–686,2018.和2)H.Zhou,Y.Zhang,and J.Li,“An overlapping community detection algorithm incomplex networks based on information theory,”Data&Knowledge Engineering,vol.117,pp.183-194,2018。但这些方法并没有充分利用节点间的拓扑信息。本发明借助粗糙集理论将节点的局部结构进一步形式化,并定义多种节点间相似度度量方法,进而求得节点间距离。本发明方法能较好的衡量节点间距离。
基于聚类思想的社区发现方法,思想简单,划分的社区结果质量较高,因而得到了广泛关注。但这类社区发现方法往往需要计算网络中任意节点间的距离(这导致算法的复杂度至少为O(n·logn)),例如基于K-means、基于节点密度、基于层次聚类的社区发现方法等。基于密度峰值的社区发现方法同样具有复杂度高的问题,因此研究一种基于网络数据集的数据结构特点对密度峰值算法进行改进而提高密度峰值聚类算法应用于社区发现的效率,同时对重叠节点的较为高效的识别和划分对社区发现算法实为一种迫切的技术需求。而经典的密度峰值聚类方法无法划分重叠节点。为了较好的识别和划分网络中的重叠节点,本方法借助粗糙集理论定义了一种针对重叠节点迭代计算的划分方法。
发明内容
鉴于现有技术的以上不足,本发明的目的是种基于粗糙集理论的改进密度峰值重叠社区发现方法,并使之具有更为完备和高效的优点。其手段如下:
一种基于粗糙集理论的改进密度峰值重叠社区发现方法,首先采用改进的节点局部密度计算方法计算网络中个节点的局部密度属性(ρ);其次采用改进的节点最小距离计算策略来计算各节点的最小距离属性(δ)并完成社区中心点;最后在密度峰值聚类上对网络中的节点进行社区划分及对重叠节点划分,最后完成目标任务解决大规模社交网络的重叠社区划分,包含以下的步骤:
步骤1:输入网络
Figure BDA0002149640970000021
为网络的邻接矩阵;计算网络中各节点(vi)的局部密度(ρi)时,既要考虑vi的邻居个数|neib(vi)|,同时也考虑vi的邻居间的连接强度SNi,最终ρi的大小由|neib(vi)|和SNi共同决定,其计算公式如下:
Figure BDA0002149640970000022
Figure BDA0002149640970000023
其中,Axy对应邻接矩阵中x和y位置的值,P(neib(vi))表示neib(vi)构成完全图时边的个数;
步骤2:计算网络中各节点(vi)的最小距离δi时,需要将网络中的节点分为两类:局部峰值点(Vd)和普通点(Vn),并分别定义最小距离的计算方式。当节点vi满足条件:
Figure BDA0002149640970000024
那么vi被划分到Vd中,否则vi被划分到Vn中。针对Vd中的节点最小距离的计算公式为:
Figure BDA0002149640970000025
针对Vn中的节点最小距离的计算公式为:
Figure BDA0002149640970000026
步骤3:为网络中的每一个节点赋予核心值属性ci=ρi×δi,将网络中的节点按照核心值大小进行降序排列并存入List。定义中心点选择距离参数
Figure BDA0002149640970000027
初始化i=0并遍历List中的节点,当List.get(i)∈Vd或者
Figure BDA0002149640970000028
那么List.get(i)被选为中心点并继续遍历List,否则结束遍历。为网络中每一个节点都初始化一个链表labeli,用于存储节点的社区标签。并赋予中心节点不同的社区标签;
选取中心点后,每一个中心节点有且仅有一个社区标签,网络中的非中心节点没有社区标签;非中心节点的社区划分划分网络中的某一节点时,仅依据其邻居节点的关系而非网络中的所有节点;对重叠节点的实施迭代划分方式,其具体步骤如下:
步骤4:社区划分采用一种迭代的方式进行,这种迭代过程以重叠参数γ≤1作为迭代条件,当γ≤1时,清空网络中标签数量大于1的节点的社区标签,并执行步骤5;如果γ>1则输出最优的社区划分结构作为最终结果;
步骤5:将标签为空的节点按照核心值大小降序排列,并以此作为划分过程;当划分节点vi时,首先找到距离vi最近的邻居节点vk,然后遍历vi的所有邻居节点vl∈neib(vi),当
Figure BDA0002149640970000031
时,将vl的社区标签赋予vi
步骤6:如果网络中所有的节点都被赋予社区标签后,那么记录当前网络的社区划分情况,并对社区结果进行评价,γ=γ+step,并执行步骤4,否则跳转步骤5。
上述步骤的流程示意图如图1所示。进一步地,定义了一种基于粗糙集理论的距离衡量方法以计算网络中任意两个不同节点之间的距离。上述步骤2中的节点最小距离的计算时,按基于粗糙集理论的ND-subspace距离衡量方法计算网络中任意两个不同节点之间的距离,其过程包括如下步骤:
步骤1:vi,vj∈V(i≠j)是需要计算距离的两个节点,τ(vi)代表vi自身及其邻居节点构成的集合,vi和vj的局部结构可以构成子图SGij={Vij,Eij},其中Vij={τ(vi),τ(vj)},Eij={ei|node(ei)={vi or vj}};
步骤2:借助粗糙集理论将SGij中的Vij形式化,如下:
下近似(正域):RD(vi,vj)={vx|vx∈τ(vi)∩τ(vj)}∪vi∪vj
上近似:
Figure BDA0002149640970000032
边界域:
Figure BDA0002149640970000033
步骤3:SGij是由vi和vj的局部结构所构成的子图,因此通过衡量子图SGij的结构强度,可以衡量vi和vj之间距离;SGij的结构强度分为三部分:vi和vj之间的吸引力,RD(vi,vj)的结构强度以及RDb(vi,vj)和RD(vi,vj)的连接强度;
步骤3.1:通过如下公式计算SGij中vi和vj之间的吸引力:
Figure BDA0002149640970000041
步骤3.2:通过如下公式计算SGijRD(vi,vj)的结构强度:
Figure BDA0002149640970000042
其中,Axy对应邻接矩阵中x和y位置的值,P(RD(vi,vj))表示RD(vi,vj)构成完全图时边的个数;
步骤3.3:通过如下公式计算RDb(vi,vj)和RD(vi,vj)的连接强度:
Figure BDA0002149640970000043
其中,Axy对应邻接矩阵中x和y位置的值,|RDb(vi,vj)|和|RD(vi,vj)|分别表示RDb(vi,vj)和RD(vi,vj)中节点的个数;
步骤3.4:通过步骤3.1-3.3来衡量SGij的结构强度,其计算方法如下:
Sij=a·Fij+b·SLij+c·SUij
其中,a+b+c=1,因此得到SGij的结构强度Sij∈[0,1];
步骤4:在步骤3.4中,Sij越大表明vi和vj的局部结构越相似。局部结构越相似的节点间距离越近,至此vi和vj之间的距离dij计算方法表达为:
dij=1-Sij
距离计算的流程示意图如图2所示。
与现有技术相比,本发明的积极效果是:
一、区别于余弦相似度和Jaccord距离,本发明借助粗糙集思想定义了ND-subspace距离衡量方法。本发明方法在计算两个节点间距离时,以两节点局部结构信息构成子图,并借助粗糙集理论进一步对子图进行形式化,并针对不同节点集合定义相似度度量公式,最终由多个相似度计算节点间距离。这种方式在计算两个节点间距离时,充分利用了节点间邻居的连接信息。因此本发明方法能更完备地衡量网络节点间距离。
二、区别于以往的密度峰值社区发现方法,为了更高效的挖掘大规模社交网络并得到较好的社区结构,本发明对密度峰值聚类算法进行改进。依据网络数据结构的特殊性,对密度峰值聚类算法种局部密度、最小距离以及中心点的选择进行改进。
当计算某节点的局部密度时,无需计算网络中的其他节点到该节点的距离,而仅仅需要依据该节点的邻居节点的连接情况即可。这种方式大大降低了计算节点的局部密度时的时间开销。为了高效的计算各节点的最小距离,本方法将网络中的节点分为局部峰值点Vd和普通点Vn两个集合,并分别定义了最小距离计算公式。中心点选择也参考了局部峰值点Vd和普通点Vn两个集合,保证了中心点选择的准确率。
三、区别于其他重叠社区发现方法,本方法定义了重叠参数γ并定义了一种迭代划分方法,在迭代过程中不断调整γ对网络中的节点进行划分。但每次调整γ后对整个网络进行划分会大大降低算法效率,因此本发明借助粗糙集理论,在迭代过程中,仅仅对具有多个社区标签的节点进行重复计算和划分。本发明方法能够有效提高重叠节点的划分准确率。
附图说明
图1是本发明方法的执行流程示意图。
图2是本发明方法计算两个节点间距离时的执行流程示意图。
图3是对发明中
Figure BDA0002149640970000052
进行调整图
图4是本发明在真实网络实施例的实验结果列表
图5是本发明在人工网络实施例的实验结果。
具体实施方式
具体实施步骤如下所示:
为了高效划分大规模网络,本发明针对密度峰值聚类算法中ρ和δ的计算以及中心点的选择提出了新的方法,其步骤如下:
步骤1:输入网络
Figure BDA0002149640970000051
为网络的邻接矩阵。计算网络中各节点(vi)的局部密度(ρi)时,既要考虑vi的邻居个数|neib(vi)|,同时也考虑vi的邻居间的连接强度SNi,最终ρi的大小由|neib(vi)|和SNi共同决定,其计算公式如下:
Figure BDA0002149640970000061
Figure BDA0002149640970000062
其中,Axy对应邻接矩阵中x和y位置的值,P(neib(vi))表示neib(vi)构成完全图时边的个数;
步骤2:计算网络中各节点(vi)的最小距离δi时,需要将网络中的节点分为两类:局部峰值点(Vd)和普通点(Vn),并分别定义最小距离的计算方式。当节点vi满足条件:
Figure BDA0002149640970000063
那么vi被划分到Vd中,否则vi被划分到Vn中。针对Vd中的节点最小距离的计算公式为:
Figure BDA0002149640970000064
针对Vn中的节点最小距离的计算公式为:
Figure BDA0002149640970000065
步骤3:为网络中的每一个节点赋予核心值属性ci=ρi×δi,将网络中的节点按照核心值大小进行降序排列并存入List。定义中心点选择距离参数
Figure BDA0002149640970000066
初始化i=0并遍历List中的节点,当List.get(i)∈Vd或者
Figure BDA0002149640970000067
那么List.get(i)被选为中心点并继续遍历List,否则结束遍历。为网络中每一个节点都初始化一个链表labeli,用于存储节点的社区标签。并赋予中心节点不同的社区标签;
选取中心点后,每一个中心节点有且仅有一个社区标签,网络中的非中心节点没有社区标签。非中心节点的社区划分借助了密度峰值聚类算法的思想,但为了进一步提升本发明的效率,在划分网络中的某一节点时,仅依据其邻居节点的关系而非网络中的所有节点。并针对重叠节点的划分,本发明借助粗糙集思想定义了一种迭代划分方式,其具体步骤如下:
步骤4:社区划分采用一种迭代的方式进行,这种迭代过程以重叠参数γ≤1作为迭代条件,当γ≤1时,清空网络中标签数量大于1的节点的社区标签,并执行步骤9。如果γ>1则输出最优的社区划分结构作为最终结果;
步骤5:将标签为空的节点按照核心值大小降序排列,并以此作为划分过程。当划分节点vi时,首先找到距离vi最近的邻居节点vk,然后遍历vi的所有邻居节点vl∈neib(vi),当
Figure BDA0002149640970000071
时,将vl的社区标签赋予vi
步骤6:如果网络中所有的节点都被赋予社区标签后,那么记录当前网络的社区划分情况,并对社区结果进行评价,γ=γ+step,并执行步骤4,否则跳转步骤5。
针对上述步骤中网络中任意两个节点vi和vj间的距离计算方式,本发明也提出了新的方法,该方法借助粗糙集理论并充分利用了节点的局部结构信息来计算节点间距离,其具体步骤如下所示:
步骤1:vi,vj∈V(i≠j)是需要计算距离的两个节点,τ(vi)代表vi自身及其邻居节点构成的集合,vi和vj的局部结构可以构成子图SGij={Vij,Eij},其中Vij={τ(vi),τ(vj)},Eij={ei|node(ei)={vi or vj}};
步骤2:借助粗糙集理论将SGij中的Vij形式化,如下:
下近似(正域):RD(vi,vj)={vx|vx∈τ(vi)∩τ(vj)}∪vi∪vj
上近似:
Figure BDA0002149640970000072
边界域:
Figure BDA0002149640970000073
步骤3:SGij是由vi和vj的局部结构所构成的子图,因此通过衡量子图SGij的结构强度,可以衡量vi和vj之间距离。SGij的结构强度分为三部分:vi和vj之间的吸引力,RD(vi,vj)的结构强度以及RDb(vi,vj)和RD(vi,vj)的连接强度;
步骤3.1:通过如下公式计算SGij中vi和vj之间的吸引力:
Figure BDA0002149640970000074
步骤3.2:通过如下公式计算SGijRD(vi,vj)的结构强度:
Figure BDA0002149640970000075
其中,Axy对应邻接矩阵中x和y位置的值,P(RD(vi,vj))表示RD(vi,vj)构成完全图时边的个数;
步骤3.3:通过如下公式计算RDb(vi,vj)和RD(vi,vj)的连接强度:
Figure BDA0002149640970000081
其中,Axy对应邻接矩阵中x和y位置的值,|RDb(vi,vj)|和|RD(vi,vj)|分别表示RDb(vi,vj)和RD(vi,vj)中节点的个数;
步骤3.4:通过步骤3.1-3.3来衡量SGij的结构强度,其计算方法如下:
Sij=a·Fij+b·SLij+c·SUij
本发明中令a=0.5、b=0.3、c=0.2,因此得到SGij的结构强度Sij∈[0,1];
步骤4:在步骤3.4中,Sij越大表明vi和vj的局部结构越相似。局部结构越相似的节点间距离越近,因此vi和vj之间的距离dij计算方法如下:
dij=1-Sij
有益结果
为了验证本发明的有效性,本发明使用公共网络数据集和LFR人工网络作为本发明的验证数据,并使用EQ和NMILFK作为本发明的评估度量,其计算公式如下所示:
Figure BDA0002149640970000082
Figure BDA0002149640970000083
其中,m是网络中边的个数,O(i)是节点vi所属社区的个数,k(i)是节点vi的度,H(X|Y)为X在Y下的条件熵,H(X)为X的熵。
试验一
在Karate,Dolphin,Football,Lesmis,Polbooks,Power数据集上对本发明中的
Figure BDA0002149640970000084
进行调整(
Figure BDA0002149640970000085
为本发明中选取中心点的距离参数)。
Figure BDA0002149640970000086
的大小与选取中心点的个数密切相关,
Figure BDA0002149640970000087
越小,则本发明可能会选取更多的选取中心点;
Figure BDA0002149640970000088
越大,则本发明会选取较少的中心点。本发明中所定义的距离计算方式所计算出的距离dij∈[0,1],因此可以得到
Figure BDA0002149640970000091
为了更好的调整
Figure BDA0002149640970000092
如图3所示,本发明以
Figure BDA0002149640970000093
作为初始值,并0.05作为步长,依次划分以上数据集,当网络数据集取得极值时记录
Figure BDA0002149640970000094
值。由此能够得到一组
Figure BDA0002149640970000095
值,并以此作为之后网络划分的依据。
试验二
为了验证本发明的方法在真实社交网络中是否有效,在多个真实网络中对本发明进行测试。所使用的真实网络信息如图4所示,n表示网络中节点个数,m表示网络中边的个数,k表示网络中节点平均度。由于真实网络的真实社区结构难以获得,因此在本发明采用EQ作为真实网络的社区评价度量。为了验证本发明的效果,一种密度峰值社区发现算法DCN和基于信息理论的社区发现算法OCDIT作为对比算法,其对比实验结果如图4所示。本发明较DCN与OCDIT相比具有较为明显优势。
试验三
为了验证本发明的方法划分网络的准确率,本发明采用LFR生成带有真实社区标签的数据集,其试验结果如图5所示。由于生成的真实网络存在真实社区结构,因此采用EQ和NMILFK作为社区评价度量。生成的人工网络中重叠节点占比为10%,节点的重叠程度Om依次由2递增至8。由图5可以看出,本发明在EQ评价和NMILFK评价下都具有较好的结果。

Claims (2)

1.一种基于粗糙集理论的改进密度峰值重叠社区发现方法,首先采用改进的节点局部密度计算方法计算网络中个节点的局部密度属性(ρi);其次采用改进的节点最小距离计算策略来计算各节点的最小距离属性(δi)并完成社区中心点;最后在密度峰值聚类上对网络中的节点进行社区划分及对重叠节点划分,最后完成目标任务解决大规模社交网络的重叠社区划分,包含以下的步骤:
步骤1:输入网络
Figure FDA0002149640960000011
为网络的邻接矩阵;计算网络中各节点(vi)的局部密度(ρi)时,既要考虑vi的邻居个数|neib(vi)|,同时也考虑vi的邻居间的连接强度SNi,最终ρi的大小由|neib(vi)|和SNi共同决定,其计算公式如下:
Figure FDA0002149640960000012
Figure FDA0002149640960000013
其中,Axy对应邻接矩阵中x和y位置的值,P(neib(vi))表示neib(vi)构成完全图时边的个数;
步骤2:计算网络中各节点(vi)的最小距离δi时,需要将网络中的节点分为两类:局部峰值点(Vd)和普通点(Vn),并分别定义最小距离的计算方式;当节点vi满足条件:
Figure FDA0002149640960000014
那么vi被划分到Vd中,否则vi被划分到Vn中;针对Vd中的节点最小距离的计算公式为:
Figure FDA0002149640960000015
针对Vn中的节点最小距离的计算公式为:
Figure FDA0002149640960000016
步骤3:为网络中的每一个节点赋予核心值属性ci=ρi×δi,将网络中的节点按照核心值大小进行降序排列并存入List;定义中心点选择距离参数
Figure FDA0002149640960000017
初始化i=0并遍历List中的节点,当List.get(i)∈Vd或者
Figure FDA0002149640960000018
那么List.get(i)被选为中心点并继续遍历List,否则结束遍历;为网络中每一个节点都初始化一个链表labeli,用于存储节点的社区标签,并赋予中心节点不同的社区标签;
选取中心点后,每一个中心节点有且仅有一个社区标签,网络中的非中心节点没有社区标签;非中心节点的社区划分划分网络中的某一节点时,仅依据其邻居节点的关系而非网络中的所有节点;对重叠节点的实施迭代划分方式,其具体步骤如下:
步骤4:社区划分采用一种迭代的方式进行,这种迭代过程以重叠参数γ≤1作为迭代条件,当γ≤1时,清空网络中标签数量大于1的节点的社区标签,并执行步骤5;如果γ>1则输出最优的社区划分结构作为最终结果;
步骤5:将标签为空的节点按照核心值大小降序排列,并以此作为划分过程;当划分节点vi时,首先找到距离vi最近的邻居节点vk,然后遍历vi的所有邻居节点vl∈neib(vi),当
Figure FDA0002149640960000021
时,将vl的社区标签赋予vi
步骤6:如果网络中所有的节点都被赋予社区标签后,那么记录当前网络的社区划分情况,并对社区结果进行评价,γ=γ+step,并执行步骤4,否则跳转步骤5。
2.根据权利要求1所述的基于粗糙集理论的改进密度峰值重叠社区发现方法,其特征在于,所述步骤2中的节点最小距离的计算时,按基于粗糙集理论的ND-subspace距离衡量方法计算网络中任意两个不同节点之间的距离,其过程包括如下步骤:
步骤1:vi,vj∈V(i≠j)是需要计算距离的两个节点,τ(vi)代表vi自身及其邻居节点构成的集合,vi和vj的局部结构可以构成子图SGij={Vij,Eij},其中Vij={τ(vi),τ(vj)},Eij={ei|node(ei)={vi or vj}};
步骤2:借助粗糙集理论将SGij中的Vij形式化,如下:
下近似(正域):RD(vi,vj)={vx|vx∈τ(vi)∩τ(vj)}∪vi∪vj
上近似:
Figure FDA0002149640960000022
边界域:
Figure FDA0002149640960000023
步骤3:SGij是由vi和vj的局部结构所构成的子图,因此通过衡量子图SGij的结构强度,可以衡量vi和vj之间距离;SGij的结构强度分为三部分:vi和vj之间的吸引力,RD(vi,vj)的结构强度以及RDb(vi,vj)和RD(vi,vj)的连接强度;
步骤3.1:通过如下公式计算SGij中vi和vj之间的吸引力:
Figure FDA0002149640960000031
步骤3.2:通过如下公式计算SGijRD(vi,vj)的结构强度:
Figure FDA0002149640960000032
其中,Axy对应邻接矩阵中x和y位置的值,P(RD(vi,vj))表示RD(vi,vj)构成完全图时边的个数;
步骤3.3:通过如下公式计算RDb(vi,vj)和RD(vi,vj)的连接强度:
Figure FDA0002149640960000033
其中,Axy对应邻接矩阵中x和y位置的值,|RDb(vi,vj)|和|RD(vi,vj)|分别表示RDb(vi,vj)和RD(vi,vj)中节点的个数;
步骤3.4:通过步骤3.1-3.3来衡量SGij的结构强度,其计算方法如下:
Sij=a·Fij+b·SLij+c·SUij
其中,a+b+c=1,因此得到SGij的结构强度Sij∈[0,1];
步骤4:在步骤3.4中,Sij越大表明vi和vj的局部结构越相似;局部结构越相似的节点间距离越近,至此vi和vj之间的距离dij计算方法表达为:
dij=1-Sij
CN201910696981.0A 2019-07-30 2019-07-30 一种基于粗糙集理论的改进密度峰值重叠社区发现方法 Active CN110427569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910696981.0A CN110427569B (zh) 2019-07-30 2019-07-30 一种基于粗糙集理论的改进密度峰值重叠社区发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910696981.0A CN110427569B (zh) 2019-07-30 2019-07-30 一种基于粗糙集理论的改进密度峰值重叠社区发现方法

Publications (2)

Publication Number Publication Date
CN110427569A CN110427569A (zh) 2019-11-08
CN110427569B true CN110427569B (zh) 2021-09-24

Family

ID=68413184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910696981.0A Active CN110427569B (zh) 2019-07-30 2019-07-30 一种基于粗糙集理论的改进密度峰值重叠社区发现方法

Country Status (1)

Country Link
CN (1) CN110427569B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455612A (zh) * 2013-09-07 2013-12-18 西安电子科技大学 基于两阶段策略的非重叠与重叠网络社区检测方法
CN104636978A (zh) * 2015-02-12 2015-05-20 西安电子科技大学 一种基于多标签传播的重叠社区检测方法
CN107153713A (zh) * 2017-05-27 2017-09-12 合肥工业大学 社交网络中基于节点间相似性的重叠社区检测方法及系统
CN108595684A (zh) * 2018-05-04 2018-09-28 中南大学 一种基于偏好学习机制的重叠社区发现方法及系统
CN108628936A (zh) * 2018-03-20 2018-10-09 重庆邮电大学 一种结合用户重叠行为的微博重叠社团划分方法
CN108959652A (zh) * 2018-08-04 2018-12-07 福州大学 基于密度峰值与社区归属度的重叠社区发现方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455612A (zh) * 2013-09-07 2013-12-18 西安电子科技大学 基于两阶段策略的非重叠与重叠网络社区检测方法
CN104636978A (zh) * 2015-02-12 2015-05-20 西安电子科技大学 一种基于多标签传播的重叠社区检测方法
CN107153713A (zh) * 2017-05-27 2017-09-12 合肥工业大学 社交网络中基于节点间相似性的重叠社区检测方法及系统
CN108628936A (zh) * 2018-03-20 2018-10-09 重庆邮电大学 一种结合用户重叠行为的微博重叠社团划分方法
CN108595684A (zh) * 2018-05-04 2018-09-28 中南大学 一种基于偏好学习机制的重叠社区发现方法及系统
CN108959652A (zh) * 2018-08-04 2018-12-07 福州大学 基于密度峰值与社区归属度的重叠社区发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于密度峰值和社区归属度的重叠社区发现算法;郭昆等;《小型微型计算机系统》;20190531;第1127-1136页 *

Also Published As

Publication number Publication date
CN110427569A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
Ronhovde et al. Local resolution-limit-free Potts model for community detection
CN111159425A (zh) 一种基于历史关系和双图卷积网络的时态知识图谱表示方法
CN109740106A (zh) 基于图卷积神经网络的大规模网络介数逼近方法、存储装置及存储介质
CN112633314A (zh) 一种基于多层采样的主动学习溯源攻击方法
CN110990718A (zh) 一种公司形象提升系统的社会网络模型构建模块
CN115545280A (zh) 一种低压配电网络拓扑生成方法及装置
CN114708479A (zh) 一种基于图结构和特征的自适应防御方法
CN114723037A (zh) 一种聚合高阶邻居节点的异构图神经网络计算方法
CN103164487B (zh) 一种基于密度与几何信息的数据聚类方法
CN110390058A (zh) 考虑时效性的Web服务可信混合推荐方法
Gialampoukidis et al. Community detection in complex networks based on DBSCAN* and a Martingale process
CN110427569B (zh) 一种基于粗糙集理论的改进密度峰值重叠社区发现方法
CN112949748A (zh) 基于图神经网络的动态网络异常检测算法模型
CN112183820A (zh) 基于线性规划的有向网络链路预测方法
CN104156462A (zh) 基于元胞自动学习机的复杂网络社团挖掘方法
CN109033746A (zh) 一种基于节点向量的蛋白质复合物识别方法
AU2021102429A4 (en) Method for selecting roads in a small-mesh accumulation area
CN115730248A (zh) 一种机器账号检测方法、系统、设备及存储介质
Wang et al. A novel subgraph querying method on directed weighted graphs
CN115965466A (zh) 一种基于子图对比的以太坊账户身份推理方法及系统
CN109255433B (zh) 一种基于相似性的社区检测的方法
CN111797281A (zh) 基于中心节点的二层相异性社区发现算法研究
CN112270336A (zh) 一种ga-bp工况识别方法及系统
CN106789285B (zh) 一种在线社会网络多尺度社区发现方法
Toujani et al. Ghhp: Genetic hybrid hierarchical partitioning for community structure in social medias networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant