CN110427569B

CN110427569B - 一种基于粗糙集理论的改进密度峰值重叠社区发现方法

Info

Publication number: CN110427569B
Application number: CN201910696981.0A
Authority: CN
Inventors: 陈红梅; 封云飞; 李天瑞; 桑彬彬; 王生武
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2021-09-24
Anticipated expiration: 2039-07-30
Also published as: CN110427569A

Abstract

本发明公开了一种基于粗糙集理论的改进密度峰值重叠社区发现方法，包括如下步骤：首先采用改进的节点局部密度计算方法计算网络中个节点的局部密度属性(ρ)；其次采用改进的高效的节点最小距离计算策略来计算各节点的最小距离属性(δ)；针对节点间距离的计算，定义了一种ND‑subspace距离衡量方法并提出了新的社区中心点选取方式；最后在密度峰值聚类上进行对网络中的节点进行社区划分和对网络中的重叠节点进行迭代计算。本发明有效地解决了重叠节点划分问题，针对节点间距离的计算定义了ND‑subspace距离衡量方法，并改进了密度峰值聚类方法以更高效的划分大规模社交网络，能够有效的解决大规模社交网络的重叠社区划分问题。

Description

一种基于粗糙集理论的改进密度峰值重叠社区发现方法

技术领域

本发明涉及数据挖掘领域，尤指涉及到大规模社交网络中重叠节点的分析和划分。

背景技术

随着网络科技的不断发展，网络社交成为人们重要的交流和互动方式。现如今已有许多网络社交平台，例如：Facebook、YouTube、Twitter等。这些平台会产生大量的社交网络数据，这些网络数据中蕴含着更深层次的结构信息。社区是由网络中联系紧密的个体所构成的群体，社区是网络局部特征的体现。挖掘网络中的社区结构能够帮助人们进一步探索网络中的所蕴含的知识。近年来，许多研究表明社区与社区之间可能存在重叠区域，这些重叠区域是网络中社区间联系的关键。因此重叠社区检测方法具有重要的理论意义和实用价值。社区发现是将相似度更高的节点聚簇的过程。网络数据往往以拓扑图形式存储，而数据中并没有直接给出节点间相似度或距离信息。因此，依据节点间拓扑关系来衡量节点间相似度或距离是社区发现的关键步骤之一。余弦相似度、Jaccord距离等虽然都能够将节点间拓扑关系转换为节点间相似度或距离，如1)J.Ding,X.He,J.Yuan,Y.Chen,and B.Jiang,“Community detection by propagating the label of center,”Physica A:Statistical Mechanics and its Applications,vol.503,pp.675–686,2018.和2)H.Zhou,Y.Zhang,and J.Li,“An overlapping community detection algorithm incomplex networks based on information theory,”Data&Knowledge Engineering,vol.117,pp.183-194,2018。但这些方法并没有充分利用节点间的拓扑信息。本发明借助粗糙集理论将节点的局部结构进一步形式化，并定义多种节点间相似度度量方法，进而求得节点间距离。本发明方法能较好的衡量节点间距离。

基于聚类思想的社区发现方法，思想简单，划分的社区结果质量较高，因而得到了广泛关注。但这类社区发现方法往往需要计算网络中任意节点间的距离(这导致算法的复杂度至少为O(n·logn))，例如基于K-means、基于节点密度、基于层次聚类的社区发现方法等。基于密度峰值的社区发现方法同样具有复杂度高的问题，因此研究一种基于网络数据集的数据结构特点对密度峰值算法进行改进而提高密度峰值聚类算法应用于社区发现的效率，同时对重叠节点的较为高效的识别和划分对社区发现算法实为一种迫切的技术需求。而经典的密度峰值聚类方法无法划分重叠节点。为了较好的识别和划分网络中的重叠节点，本方法借助粗糙集理论定义了一种针对重叠节点迭代计算的划分方法。

发明内容

鉴于现有技术的以上不足，本发明的目的是种基于粗糙集理论的改进密度峰值重叠社区发现方法，并使之具有更为完备和高效的优点。其手段如下：

一种基于粗糙集理论的改进密度峰值重叠社区发现方法，首先采用改进的节点局部密度计算方法计算网络中个节点的局部密度属性(ρ)；其次采用改进的节点最小距离计算策略来计算各节点的最小距离属性(δ)并完成社区中心点；最后在密度峰值聚类上对网络中的节点进行社区划分及对重叠节点划分，最后完成目标任务解决大规模社交网络的重叠社区划分，包含以下的步骤：

步骤1：输入网络

为网络的邻接矩阵；计算网络中各节点(v_i)的局部密度(ρ_i)时，既要考虑v_i的邻居个数|neib(v_i)|，同时也考虑v_i的邻居间的连接强度SN_i，最终ρ_i的大小由|neib(v_i)|和SN_i共同决定，其计算公式如下：

其中，A_xy对应邻接矩阵中x和y位置的值，P(neib(v_i))表示neib(v_i)构成完全图时边的个数；

步骤2：计算网络中各节点(v_i)的最小距离δ_i时，需要将网络中的节点分为两类：局部峰值点(V_d)和普通点(V_n)，并分别定义最小距离的计算方式。当节点v_i满足条件：

那么v_i被划分到V_d中，否则v_i被划分到V_n中。针对V_d中的节点最小距离的计算公式为：

针对V_n中的节点最小距离的计算公式为：

步骤3：为网络中的每一个节点赋予核心值属性c_i＝ρ_i×δ_i，将网络中的节点按照核心值大小进行降序排列并存入List。定义中心点选择距离参数

初始化i＝0并遍历List中的节点，当List.get(i)∈V_d或者

那么List.get(i)被选为中心点并继续遍历List，否则结束遍历。为网络中每一个节点都初始化一个链表label_i，用于存储节点的社区标签。并赋予中心节点不同的社区标签；

选取中心点后，每一个中心节点有且仅有一个社区标签，网络中的非中心节点没有社区标签；非中心节点的社区划分划分网络中的某一节点时，仅依据其邻居节点的关系而非网络中的所有节点；对重叠节点的实施迭代划分方式，其具体步骤如下：

步骤4：社区划分采用一种迭代的方式进行，这种迭代过程以重叠参数γ≤1作为迭代条件，当γ≤1时，清空网络中标签数量大于1的节点的社区标签，并执行步骤5；如果γ＞1则输出最优的社区划分结构作为最终结果；

步骤5：将标签为空的节点按照核心值大小降序排列，并以此作为划分过程；当划分节点v_i时，首先找到距离v_i最近的邻居节点v_k，然后遍历v_i的所有邻居节点v_l∈neib(v_i)，当

时，将v_l的社区标签赋予v_i；

步骤6：如果网络中所有的节点都被赋予社区标签后，那么记录当前网络的社区划分情况，并对社区结果进行评价，γ＝γ+step，并执行步骤4，否则跳转步骤5。

上述步骤的流程示意图如图1所示。进一步地，定义了一种基于粗糙集理论的距离衡量方法以计算网络中任意两个不同节点之间的距离。上述步骤2中的节点最小距离的计算时，按基于粗糙集理论的ND-subspace距离衡量方法计算网络中任意两个不同节点之间的距离，其过程包括如下步骤：

步骤1：v_i,v_j∈V(i≠j)是需要计算距离的两个节点，τ(v_i)代表v_i自身及其邻居节点构成的集合，v_i和v_j的局部结构可以构成子图SG_ij＝{V_ij,E_ij}，其中V_ij＝{τ(v_i),τ(v_j)}，E_ij＝{e_i|node(e_i)＝{v_i or v_j}}；

步骤2：借助粗糙集理论将SG_ij中的V_ij形式化，如下：

下近似(正域)：RD(v_i,v_j)＝{v_x|v_x∈τ(v_i)∩τ(v_j)}∪v_i∪v_j

上近似：

边界域：

步骤3：SG_ij是由v_i和v_j的局部结构所构成的子图，因此通过衡量子图SG_ij的结构强度，可以衡量v_i和v_j之间距离；SG_ij的结构强度分为三部分：v_i和v_j之间的吸引力，RD(v_i,v_j)的结构强度以及RD_b(v_i,v_j)和RD(v_i,v_j)的连接强度；

步骤3.1：通过如下公式计算SG_ij中v_i和v_j之间的吸引力：

步骤3.2：通过如下公式计算SG_ij中RD(v_i,v_j)的结构强度：

其中，A_xy对应邻接矩阵中x和y位置的值，P(RD(v_i,v_j))表示RD(v_i,v_j)构成完全图时边的个数；

步骤3.3：通过如下公式计算RD_b(v_i,v_j)和RD(v_i,v_j)的连接强度：

其中，A_xy对应邻接矩阵中x和y位置的值，|RD_b(v_i,v_j)|和|RD(v_i,v_j)|分别表示RD_b(v_i,v_j)和RD(v_i,v_j)中节点的个数；

步骤3.4：通过步骤3.1-3.3来衡量SG_ij的结构强度，其计算方法如下：

S_ij＝a·F_ij+b·SL_ij+c·SU_ij

其中，a+b+c＝1，因此得到SG_ij的结构强度S_ij∈[0,1]；

步骤4：在步骤3.4中，S_ij越大表明v_i和v_j的局部结构越相似。局部结构越相似的节点间距离越近，至此v_i和v_j之间的距离d_ij计算方法表达为：

d_ij＝1-S_ij。

距离计算的流程示意图如图2所示。

与现有技术相比，本发明的积极效果是：

一、区别于余弦相似度和Jaccord距离，本发明借助粗糙集思想定义了ND-subspace距离衡量方法。本发明方法在计算两个节点间距离时，以两节点局部结构信息构成子图，并借助粗糙集理论进一步对子图进行形式化，并针对不同节点集合定义相似度度量公式，最终由多个相似度计算节点间距离。这种方式在计算两个节点间距离时，充分利用了节点间邻居的连接信息。因此本发明方法能更完备地衡量网络节点间距离。

二、区别于以往的密度峰值社区发现方法，为了更高效的挖掘大规模社交网络并得到较好的社区结构，本发明对密度峰值聚类算法进行改进。依据网络数据结构的特殊性，对密度峰值聚类算法种局部密度、最小距离以及中心点的选择进行改进。

当计算某节点的局部密度时，无需计算网络中的其他节点到该节点的距离，而仅仅需要依据该节点的邻居节点的连接情况即可。这种方式大大降低了计算节点的局部密度时的时间开销。为了高效的计算各节点的最小距离，本方法将网络中的节点分为局部峰值点V_d和普通点V_n两个集合，并分别定义了最小距离计算公式。中心点选择也参考了局部峰值点V_d和普通点V_n两个集合，保证了中心点选择的准确率。

三、区别于其他重叠社区发现方法，本方法定义了重叠参数γ并定义了一种迭代划分方法，在迭代过程中不断调整γ对网络中的节点进行划分。但每次调整γ后对整个网络进行划分会大大降低算法效率，因此本发明借助粗糙集理论，在迭代过程中，仅仅对具有多个社区标签的节点进行重复计算和划分。本发明方法能够有效提高重叠节点的划分准确率。

附图说明

图1是本发明方法的执行流程示意图。

图2是本发明方法计算两个节点间距离时的执行流程示意图。

图3是对发明中

进行调整图

图4是本发明在真实网络实施例的实验结果列表

图5是本发明在人工网络实施例的实验结果。

具体实施方式

具体实施步骤如下所示：

为了高效划分大规模网络，本发明针对密度峰值聚类算法中ρ和δ的计算以及中心点的选择提出了新的方法，其步骤如下：

步骤1：输入网络

为网络的邻接矩阵。计算网络中各节点(v_i)的局部密度(ρ_i)时，既要考虑v_i的邻居个数|neib(v_i)|，同时也考虑v_i的邻居间的连接强度SN_i，最终ρ_i的大小由|neib(v_i)|和SN_i共同决定，其计算公式如下：

针对V_n中的节点最小距离的计算公式为：

初始化i＝0并遍历List中的节点，当List.get(i)∈V_d或者

选取中心点后，每一个中心节点有且仅有一个社区标签，网络中的非中心节点没有社区标签。非中心节点的社区划分借助了密度峰值聚类算法的思想，但为了进一步提升本发明的效率，在划分网络中的某一节点时，仅依据其邻居节点的关系而非网络中的所有节点。并针对重叠节点的划分，本发明借助粗糙集思想定义了一种迭代划分方式，其具体步骤如下：

步骤4：社区划分采用一种迭代的方式进行，这种迭代过程以重叠参数γ≤1作为迭代条件，当γ≤1时，清空网络中标签数量大于1的节点的社区标签，并执行步骤9。如果γ＞1则输出最优的社区划分结构作为最终结果；

步骤5：将标签为空的节点按照核心值大小降序排列，并以此作为划分过程。当划分节点v_i时，首先找到距离v_i最近的邻居节点v_k，然后遍历v_i的所有邻居节点v_l∈neib(v_i)，当

时，将v_l的社区标签赋予v_i；

针对上述步骤中网络中任意两个节点v_i和v_j间的距离计算方式，本发明也提出了新的方法，该方法借助粗糙集理论并充分利用了节点的局部结构信息来计算节点间距离，其具体步骤如下所示：

步骤2：借助粗糙集理论将SG_ij中的V_ij形式化，如下：

下近似(正域)：RD(v_i,v_j)＝{v_x|v_x∈τ(v_i)∩τ(v_j)}∪v_i∪v_j

上近似：

边界域：

步骤3：SG_ij是由v_i和v_j的局部结构所构成的子图，因此通过衡量子图SG_ij的结构强度，可以衡量v_i和v_j之间距离。SG_ij的结构强度分为三部分：v_i和v_j之间的吸引力，RD(v_i,v_j)的结构强度以及RD_b(v_i,v_j)和RD(v_i,v_j)的连接强度；

步骤3.1：通过如下公式计算SG_ij中v_i和v_j之间的吸引力：

步骤3.2：通过如下公式计算SG_ij中RD(v_i,v_j)的结构强度：

S_ij＝a·F_ij+b·SL_ij+c·SU_ij

本发明中令a＝0.5、b＝0.3、c＝0.2，因此得到SG_ij的结构强度S_ij∈[0,1]；

步骤4：在步骤3.4中，S_ij越大表明v_i和v_j的局部结构越相似。局部结构越相似的节点间距离越近，因此v_i和v_j之间的距离d_ij计算方法如下：

d_ij＝1-S_ij；

有益结果

为了验证本发明的有效性，本发明使用公共网络数据集和LFR人工网络作为本发明的验证数据，并使用EQ和NMI_LFK作为本发明的评估度量，其计算公式如下所示：

其中，m是网络中边的个数，O(i)是节点v_i所属社区的个数，k(i)是节点v_i的度，H(X|Y)为X在Y下的条件熵，H(X)为X的熵。

试验一

在Karate，Dolphin，Football，Lesmis，Polbooks，Power数据集上对本发明中的

进行调整(

为本发明中选取中心点的距离参数)。

的大小与选取中心点的个数密切相关，

越小，则本发明可能会选取更多的选取中心点；

越大，则本发明会选取较少的中心点。本发明中所定义的距离计算方式所计算出的距离d_ij∈[0,1]，因此可以得到

为了更好的调整

如图3所示，本发明以

作为初始值，并0.05作为步长，依次划分以上数据集，当网络数据集取得极值时记录

值。由此能够得到一组

值，并以此作为之后网络划分的依据。

试验二

为了验证本发明的方法在真实社交网络中是否有效，在多个真实网络中对本发明进行测试。所使用的真实网络信息如图4所示，n表示网络中节点个数，m表示网络中边的个数，k表示网络中节点平均度。由于真实网络的真实社区结构难以获得，因此在本发明采用EQ作为真实网络的社区评价度量。为了验证本发明的效果，一种密度峰值社区发现算法DCN和基于信息理论的社区发现算法OCDIT作为对比算法，其对比实验结果如图4所示。本发明较DCN与OCDIT相比具有较为明显优势。

试验三

为了验证本发明的方法划分网络的准确率，本发明采用LFR生成带有真实社区标签的数据集，其试验结果如图5所示。由于生成的真实网络存在真实社区结构，因此采用EQ和NMI_LFK作为社区评价度量。生成的人工网络中重叠节点占比为10％，节点的重叠程度Om依次由2递增至8。由图5可以看出，本发明在EQ评价和NMI_LFK评价下都具有较好的结果。

Claims

1.一种基于粗糙集理论的改进密度峰值重叠社区发现方法，首先采用改进的节点局部密度计算方法计算网络中个节点的局部密度属性(ρ_i)；其次采用改进的节点最小距离计算策略来计算各节点的最小距离属性(δ_i)并完成社区中心点；最后在密度峰值聚类上对网络中的节点进行社区划分及对重叠节点划分，最后完成目标任务解决大规模社交网络的重叠社区划分，包含以下的步骤：

步骤1：输入网络