CN107153713A

CN107153713A - 社交网络中基于节点间相似性的重叠社区检测方法及系统

Info

Publication number: CN107153713A
Application number: CN201710393283.4A
Authority: CN
Inventors: 丁帅; 牛锋; 杨善林; 孙晓; 范雯娟; 胡世康; 王浩
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2017-05-27
Filing date: 2017-05-27
Publication date: 2017-09-12
Anticipated expiration: 2037-05-27
Also published as: US20180341696A1; CN107153713B

Abstract

本发明公开了一种社交网络中基于节点间相似性的重叠社区检测方法及系统该方法包括：接收待检测的社交网络；计算所述待检测社交网络中节点间的相似程度；基于所述节点间的相似程度，检测所述社交网络的重叠社区；输出检测的重叠社区的结构。本发明的社交网络中基于节点间相似性的重叠社区检测方法，在社交网络环境中融合了网络结构信息与节点属性信息的相似性计算方法，然后在此基础之上提出了融合节点相似性的重叠社区发现算法，以得到网络结构与节点偏好双内聚的高质量社区。

Description

社交网络中基于节点间相似性的重叠社区检测方法及系统

技术领域

本发明涉及网络数据处理技术领域，尤其涉及一种社交网络中基于节点间相似性的重叠社区检测方法及系统。

背景技术

现实世界中存在的许多复杂系统大多可以用复杂网络进行描述。例如：新陈代谢网，蛋白质交互网，基因网络，科学家合著网络，电力网，航空网以及社交网络等等。一直以来人们对于复杂网络的研究从未间断，近些年来，由于互联网的快速发展使得人们越来越关注复杂网络，尤其是社交网络，并进行了大量的研究工作。

一般而言，复杂网络由于自身内部结构较为复杂，直接对整个网络进行研究是一件十分困难的事，因此人们一般通过研究网络的社区结构从而更好地理解整个网络。所谓社区，是节点的集合，在社区内部节点连接很紧密，但是属于不同社区的节点连接则比较稀疏。社区结构普遍存在于复杂网络中，社交网络作为复杂网络的一类也已被证明网络内部具有社区结构，很多用于复杂网络的社区发现算法也可用于社交网络。

现有的关于社区发现问题的处理方法主要分为了以下三类。一为基于节点连边的方式，即通过提取网络中节点之间的连边，将社区发现问题转化为图论等问题进行处理。此类方法没有考虑到社交网络中环境中节点所具有的属性信息和潜在的兴趣特征。一为基于节点内容的方式，通过提取网络中节点的自身属性信息和潜在的兴趣特征，将社区发现问题转化为节点聚类等问题进行处理。此类方法忽略了网络中极为重要的结构拓扑信息。还有一种综合方法，将网络结构与节点信息相结合，分别基于网络结构和节点信息对同一网络进行社区发现，从而得到两种不同的社区结构，在此基础之上使用一些特定的方法将两种社区进行融合，最终得到结构与内容双内聚的社区。此类方法需要进行两次的社区发现，在规模较大的社交网络中，其算法的效率较低。

发明内容

基于上述问题，本发明提供一种社交网络中基于节点间相似性的重叠社区检测方法及系统，在社交网络环境中融合了网络结构信息与节点属性信息的相似性计算方法，然后在此基础之上提出了融合节点相似性的重叠社区发现算法，以得到网络结构与节点偏好双内聚的高质量社区。

为解决上述问题，本发明提供了一种社交网络中基于节点间相似性的重叠社区检测方法，具体包括：

S1、接收待检测的社交网络；

S2、计算待检测社交网络中节点间的相似程度；

S3、基于节点间的相似程度，检测社交网络的重叠社区；

S4、输出检测的重叠社区的结构。

其中，计算所述待检测社交网络中节点间的相似程度，具体包括：

根据节点的邻居节点计算社交相似度，得到节点间的社交相似度；

根据节点的属性计算属性相似度，得到节点间的属性相似度；

根据所述社交相似度与所述节点间的属性相似度，得到所述社交网络中节点间的相似程度。

其中，根据节点的属性计算属性相似度，得到节点间的属性相似度，具体包括：

判断节点的属性是离散型属性还是文本型属性；

当节点的属性为离散型属性时，节点间的属性相似度为两个节点的属性是否相等，是则判定两个节点的属性相似；

当节点的属性为文本型属性时，计算节点间的属性相似度具体如下：

输入节点的文本属性值；

运用字符匹配的方式对属性文本进行分词处理，并对分词后的词组进行词性标注；

将分词处理后的属性文本进行去除停用词处理；

对去除停用词处理后的属性文本进行关键词提取，得到节点的关键词；

构建节点-关键词矩阵；

基于节点-关键词矩阵，计算节点间的关键词相似度作为节点间的属性相似度。

其中，基于所述节点间的相似程度，检测所述社交网络的重叠社区，具体包括：

根据所述节点间的相似程度，计算所述社交网络中的每个节点的相似势，所述节点的相似势为该节点在节点相似度中的相似影响力；

根据所述每个节点的相似势，设定所述社交网络的局部高势点，并将所述局部高势点作为粗糙聚类的初始聚类中心；

根据所述粗糙聚类的初始聚类中心，对所述社交网络的节点进行粗糙K-Mediods聚类，得到社交网络的初始重叠社区结构；

通过社区合并的方式对所述初始重叠社区结构进行优化；

输出最优重叠社区结构。

其中，根据所述每个节点的相似势，设定所述社交网络的局部高势点，并将所述局部高势点作为粗糙聚类的初始聚类中心，具体包括：

S21、选取社交网络中任一个未被标记的节点v_i并获取其邻居节点集合N(v_i)，计算邻居节点集合中所有节点的相似势；

S22、若p(v_j)≤p(v_i)，则进入步骤S23；否则若p(v_j)>p(v_i)且v_j尚未被标记，则使用v_j代替v_i后重新执行步骤S21，其中，v_j为邻居节点集合N(v_i)中的一个节点；

S23、将节点v_i进行标记后添加至初始聚类中心集合U；

S24、若社交网络中仍存在未被标记得节点，则执行步骤S21；否则，执行步骤S25；

S25、输出初始聚类中心集合U。

其中，根据所述粗糙聚类的初始聚类中心，对所述社交网络的节点进行粗糙K-Mediods聚类，得到社交网络的初始重叠社区结构，具体包括：

S31、设定社交网络G(V,E)的粗糙聚类的上近似权重w_up和下近似权重w_low；

S32、对于计算p(v_i,u_i)，其中p(u_i,v_i)为中心节点u_i在节点v_i处产生的相似势；

S3、将节点v_i划分至最强簇C_l，且

p(v_i,C_l)＝max{p(v₁,u_i),p(v₂,u_i),…,p(v₂,u_i)}；

S34、对于计算势能差δ＝p(v_i,C_l)-p(v_i,C_j)。若δ≤α，则将v_i划分至C_l与C_j上近似集合的交集中，即否则，将v_i划分至C_l的下近似中，即v_i∈C_l ；

S35、对于若即节点v_i处于两个簇的边界区域，则重新计算节点在簇中的势能，并设置p(v_i,C_l)＝max{p(v_i,C_m),p(v_i,C_n)}，p(v_i,C_j)＝min{p(v_i,C_m),p(v_i,C_n)}；

S36、重新计算簇中心；

S37、当所有的簇中心趋于稳定时，执行步骤S38；否则返回步骤S34；

S38、输出所得到的簇，即社交网络的初始重叠社区结构。

其中，通过社区合并的方式对所述初始重叠社区结构进行优化，具体包括：

S41、给定社交网络的社区划分C＝{C₁,C₂,…,C_k}，重叠度阈值Q；

S42、选取计算其重叠度over(C_x,C_y)。若over(C_x,C_y)>Q，

则执行S43；否则执行S44；

S43、将C_y合并至C_x并更新集合C,继续执行步骤S42；

S44、当社交前网络中的社区两两之间的重叠度均小于Q，则输出当前社区集合C。

其中，所述重叠度的计算方法为：

对于两个簇C_i和C_j，其簇重叠度的计算方法定义如下

式中min{|C_i|,|C_j|}表示取簇C_i与C_j中节点最小的簇的节点数目。

本发明的另一个方面，提供一种社交网络中基于节点间相似性的重叠社区检测系统，其特征在于，包括：

接收单元，用于接收待检测的社交网络；

相似度计算单元，用于计算所述待检测社交网络中节点间的相似程度；

重叠社区检测单元，用于基于所述节点间的相似程度，检测所述社交网络的重叠社区；

输出单元，用于输出检测的重叠社区的结构。

其中，所述相似度计算单元，具体包括：

社交相似度计算子单元，用于根据节点的邻居节点计算社交相似度，得到节点间的社交相似度；

属性相似度计算子单元，用于根据节点的属性计算属性相似度，得到节点间的属性相似度；

相似度计算子单元，用于根据所述社交相似度与所述节点间的属性相似度，得到所述社交网络中节点间的相似程度。

本发明的社交网络中基于节点间相似性的重叠社区检测方法及系统，充分利用了网络中的局部拓扑结构信息和节点自身信息，通过使用社交相似性和属性相似性来较为全面地完成了社交网络中节点之间的关系描述。

此外，本发明使用了粗糙K-Mediods聚类，从而简单高效地完成了重叠社区发现工作。并且，可以通过调节聚类过程中的相关参数，得到不同尺度的重叠社区。

附图说明

图1示出了本发明的一种社交网络中基于节点间相似性的重叠社区检测方法的流程图。

图2a-2c示出了本法的节点-关键词二部网络示意图。

图3示出了本发明的一种社交网络中基于节点间相似性的重叠社区检测系统的结构框图。

图4示出了本发明一个实施例中SLCDA算法与其它两种算法所得到的前15个最大社区的EQ值对比示意图。

图5示出了本发明的一个实施例中SLCDA算法与其它两种算法所得到的前15个最大社区的平均偏好内聚指数APCE对比示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

参照图1，本发明的社交网络中基于节点间相似性的重叠社区检测方法，具体包括以下步骤：

一种社交网络中基于节点间相似性的重叠社区检测方法，其特征在于，包括：

接收待检测的社交网络；

计算所述待检测社交网络中节点间的相似程度；

基于所述节点间的相似程度，检测所述社交网络的重叠社区；

输出检测的重叠社区的结构。

在一个实施例中，对于社交网络中节点相似度的计算，将从社交信息与属性信息两个维度展开。

在网络G(V,E)中，对于任意的节点u,v∈V，节点u对节点v的相似相似度的计算方法定义如下：

S(u,v)＝αS_S(u,v)+(1-α)S_A(u,v)

式中S(u,v)为节点u与v之间的相似性，S_S(u,v)和S_A(u,v)分别表示节点u与v之间社交相似性和属性相似性，α表示两部分相似相似所占的权重。

下面通过具体实施例，详细介绍整个相似度计算流程中的相关概念与计算方法。

在社交网络中，对于相邻的两个节点，其邻里重叠度越大，两个节点的相似程度越高。因此，本实施例通过不同节点的邻里重叠度来度量节点间的社交相似性。

对于社交网络中的节点u和v，其邻居节点集合记为Γ(u)和Γ(v)，D(t)为节点t的度，则社交相似度的计算方法定义如下：

对于社交网络中的节点u和v，属性相似度由节点u和v每一个属性相似度加权累加得到，计算方法定义如下：

式中|M|表示属性的个数。

节点的属性通常可以分为两类：离散型属性和文本型属性。对于不同类型的属性，其计算方法不同。对于离散型属性，在计算属性相似度时，基本思想就是判断当前属性的值是否相等即可。对于节点u和v，在离散型属性α_m下的取值为value1和value2，则u和v在属性α_m下的相似度计算方法如下：

需要说明的是，当前离散型属性相似性计算采用的是一种通用的方法。在实际的使用情景中，需要根据离散型属性的具体含义，对上述通用的离散型属性相似性计算方法做出调整。对于非结构化的文本型属性，其相似性计算过程为：

第一步，输入需要对比的两个文本型属性的值，包括长文本或短文本；

第二步，在大规模公开词典的基础之上，运用字符匹配的方式对属性文本进行分词处理，并对分词后的词组进行词性标注；

第三步，去掉分词后的结果中除了名词、动词、形容词和副词之外的词组，完成去除停用词处理；

第四步，使用TextRank算法完成属性文本中的关键词提取工作；

第五步，构建节点—关键词矩阵；

第六步，基于节点—关键词矩阵完成节点的关键词相似性的计算。需要说明的是，当网络中的节点本身具有关键词信息(如微博网络中的节点标签)，则文本型属性相似度计算流程中的第二步、第三步和第四步就可以直接省略。

在提取完所有节点的关键词信息后，构建N×K维节点—关键词矩阵M，其中N为网络中节点的个数，K为提取节点关键词的个数，M_ij＝1则表示第i个节点具有第j个关键词信息。至此，本实施例通过节点与对应的关键词构建了二部网络G_k，其中网络中的节点包括：原有网络的用户节点和对应的关键词节点，当用户节点具有某一个关键词信息时，就添加一条由用户节点指向该关键词节点的有向边。如图2(a)所示，V1、V2、V3和V4四个节点组成基本网络G，这4个节点一共具有两个关键词信息：DM和SNA，继而构建如图2(b)所示的节点—关键词矩阵M，并在此基础之上得到如图2(c)所示的节点—关键词二部有向网络G_k。

对于由关键词信息来计算节点之间的相似性，现有的方法就是计算两个节点之间所拥有的共同的关键词个数。但是本发明的实施例中，为了更好地解决社会网络中的社区发现问题，使得节点的关键词信息能够对网络中的节点有着很好的区分度。因此，本发明的实施例中，为每一个关键词赋予对应的权重，用于区分不同关键词对人群的区分度。

至此，在网络G中，通过上述的一系列文本处理操作，得到节点—关键词矩阵M，并在此基础之上构建节点—关键词二部网络G_k。对于G_k中的两个节点u和v，在文本型属性α_m上的相似度计算定义如下：

式中D_in(k)表示第k在二部网络G_k中的入度，其含义为使用了第k个关键词的节点个数。

基于上述计算社交网络的节点间的相似度，检测社交网络的重叠社区，其具体过程如下所述。

本发明的实施例的基于社交网络的节点间的相似度检测重叠社区的方法，具体为局部重叠社区发现算法SLCDA(Similarity-Based Local Overlapping-CommunityDetection Algorithm)。

SLCDA算法的步骤描述如下：

首先计算网络中节点之间的相似度，并在此基础之上计算网络中每一个节点的相似势；然后，依据节点的相似势得到网络中的局部高势点，从而确定粗糙聚类的初始聚类中心；接下来，将网络中的其它节点根据节点间的相似势划分至聚类簇的上近似与下近似中，通过计算聚类簇的上近似与下近似后重新选择聚类中心，直至聚类中心不再发生变化，从而完成网络节点的粗糙K-Mediods聚类；最后，通过不断合并重叠度较大的簇，得到最优的重叠社区结构。

以下通过具体实施例进行具体描述。

在社交网络中，相似的节点具有相互联系的倾向，同时社交网络通常会呈现出较为明显的局部特征，因从使得网络中节点的相似性影响范围也存在着局域特性，其总体上会随着距离的增大而减小，并且会在节点相似影响力的边界位置会下降为0。根据相似影响力的特征，本实施例提出使用相似势来描述网络中节点的相似影响力，并通过高斯势函数进行描述。

一个具体的实施例中，对于网络G(V,E)，选取任意一个节点v_i∈V为场源，以节点v_i为中心构建出作用场U(v_i)＝{v₁,v₂,…,v_n}，则节点v_i在节点v_j处产生的相似势可以表示为：

式中表示节点v_j的固有属性。在实际的应用中，有着非常丰富的物理意义，如节点的属性特征、活跃度等，在本实施例中忽略节点的固有属性；S(v_j,v_i)表示节点v_j对节点v_i的相似度；节点的作用场范围通过参数σ进行控制。在此基础上节点v_i的相似势可以表示为：

由于社交网络具有明显的局域特性，而基于相似势的社区发现本质上就是通过网络中具有代表性的高相似势节点来挖掘出局部高势区，进而实现网络社区的发现。因此，本实施例使用社交网络的局部高势点作为聚类中心进行聚类。

在一个具体的实施例中，在网络G(V,E)中，存在v_i∈V，其邻居节点为N(v_i)＝{v₁,v₂,…,v_n}，若节点v_i满足p(v_i)≥max{p(v_i,v₁),p(v_i,v₂),…,p(v_i,v_n)}，则节点v_i为当前网络的一个局部高势点。

本实施例中，构建初始聚类中心集合的具体步骤描述如下：

S23、将节点v_i进行标记后添加至初始聚类中心集合U；

S24、若社交网络G中仍存在未被标记得节点，则执行步骤S21；否则，执行步骤S25；

S25、输出初始聚类中心集合U。

在选定初始聚类中心后，对所述社交网络的节点进行粗糙K-Mediods聚类，得到社交网络的初始重叠社区结构。

一个实施例中，对于聚类簇C_i，对任意一个节点u_i∈C_i，则当u_i为簇C_i的中心节点时，C_i的相似紧密度计算公式定义如下：

式中CT(C_i,u_i)表示u_i为中心点时簇C_i的相似紧密度，w_low与w_up分别表示聚类簇C_i的下近似与上近似集合中节点的权重且满足w_low+w_up＝1，。在此基础上给出簇中心的更新公式定义如下：

通过粗糙K-Mediods聚类得到初始重叠社区结构的步骤描述如下：

S3、将节点v_i划分至最强簇C_l，且

p(v_i,C_l)＝max{p(v₁,u_i),p(v₂,u_i),…,p(v₂,u_i)}；

S36、重新计算簇中心；

S38、输出所得到的簇，即社交网络的初始重叠社区结构。

在得到社交网络的初始重叠社区结构后，通过社区合并的方式对所述初始重叠社区结构进行优化。

通过对初始的重叠社区结构以社区合并的方式进行优化，有助于提升社区结构的模块度Q，并呈现出更为清晰的社区层次结构。基于此，本实施例通过簇重叠度来衡量不同簇之间的重叠程度，并通过簇合并方式来完成。

在一个具体的实施例中，对于两个簇C_i和C_j，其簇重叠度的计算方法定义如下：

式中min{|C_i|,|C_j|}表示取簇C_i与C_j中节点最小的簇的节点数目。重叠社区结构优化步骤描述如下:

S42、选取计算其重叠度over(C_x,C_y)。若over(C_x,C_y)>Q，则执行S43；否则执行S44；

S43、将C_y合并至C_x并更新集合C,继续执行步骤S42；

在本发明的又一个实施例中，提供一种社交网络中基于节点间相似性的重叠社区检测系统，如图3所示，具体包括：

接收单元10，用于接收待检测的社交网络；

相似度计算单元20，用于计算所述待检测社交网络中节点间的相似程度；

重叠社区检测单元30，用于基于所述节点间的相似程度，检测所述社交网络的重叠社区；

输出单元40，用于输出检测的重叠社区的结构。

在一个实施例中，上述相似度计算单元20，具体包括：

社交相似度计算子单元201，用于根据节点的邻居节点计算社交相似度，得到节点间的社交相似度；

属性相似度计算子单元202，用于根据节点的属性计算属性相似度，得到节点间的属性相似度；

相似度计算子单元203，用于根据所述社交相似度与所述节点间的属性相似度，得到所述社交网络中节点间的相似程度。

以下通过具体实施例详细说明本法的社交网络中基于节点间相似性的重叠社区检测方法。

本发明使用用户的ID来代表用户。选取ID为1000080335用户，依靠用户的关注关系通过广度遍历的方式来获取微博用户的数据。采集的微博用户的信息包括：用户的关系列表(粉丝、关注)、用户的个人属性信息(用户ID、昵称、位置、性别、个人描述和标签、用户类型)和用户发布的微博信息(微博ID、用户ID、发布时间、微博内容)。

在数据处理完成后，本实施例基于微博用户之间的关注关系构建了微博网络，网络的基本统计信息如下：节点个数5731，连边个数46871，节点平均度8.179，网络直径9，平均路径长度3.573。

对于结构内聚性的评价，选取扩展模块度作为评价指标。对于网络G(V,E)，|E|＝m，进过社区发现后得到了k个社区，对于任意的一个节点其节点度为d_i，节点v_i归属的社区个数为O_i,则扩展模块度的计算方法定义如下：

式中A_i,j为当前网络G的邻接矩阵，当节点i与节点j之间存在一条连边，则A_i,j的值为1，反之A_i,j的值为0。

除了社区结构的内聚性外，需要更关注社区内部节点之间在偏好方面的相似性。因此提出偏好内聚指数来描述偏好的内聚程度。

对于一个网络G，其社区划分的结果为C＝{C₁,C₂,C₃,…C_n}，则当前社区的偏好内聚指数计算方法定义如下：

式中PCE表示当前所得到社区的偏好内聚指数且PCE∈(0,1]，pref(u,v)表示节点u和v之间的偏好相似性，分子和分母分别表示的是所有社区内节点对之间的偏好相似性的总和与整个网络中所有节点对之间的偏好相似性的总和。PCE反映的只是一个网络中所有社区的总体偏好内聚程度，却无法真实反映某一个具体社区的偏好内聚程度。

对于一个网络G，其社区划分的结果为C＝{C₁,C₂,C₃,…C_n}，取任意社区C_i∈C，则社区C_i的平均偏好内聚指数APCE计算方法定义如下：

式中APCE表示当前某一个社区的平均偏好内聚指数，|C_i|为社区C_i的节点个数。当APCE的值越大时，表明当前的社区具有越好的的信任内聚性。

在计算节点之间的属性相似信任时，本实施例选取数值型位置信息和文本型的标签信息两种属性。对于位置属性信息，其相似性的规则为：若province与city的ID相同，则位置属性的相似性为1；若province的ID相同，city的ID不同，则位置属性的相似性为2/3；若province与city的ID均不同，则位置属性的相似性为0。对于标签属性信息，通过对所采集微博数据进行预处理，从而得到用户的标签关键词数据，在此基础之上构建“用户—标签”二部网络并计算标签属性相似性。

选取了两个经典的社区发现算法进行对比，其中包括Newman算法和Infomap算法。表1给出了在上近似权重参数w_up＝0.1时，TLCDA算法所得到的社区结构EQ值与其它两种算法的对比。

表1微博网络中三种算法的EQ值比较

通过表1可以看到，SLCDA算法所得到的社区结构EQ值整体上低于Newman算法，高于Infomap算法。并且，相比于其它两种算法，SLCDA算法能够发掘出网络中更大规模的社区。

图4是上近似权重和社交相似权重分别为0.1和0.8时，SLCDA算法与其它两种算法所得到的前15个最大社区的EQ值对比，其中横坐标为三种算法前15个最大的社区，纵坐标为社区结构内聚性评价指标EQ。可以看到，TLCDA算法所得到的社区，在模块度贡献值方面显著高于Infomap算法。

通过与经典的社区发现算法进行对比分析后，可以看到本文TLCDA算法所得到的社区基本能够达到结构内聚性的要求。

在电子商务个性化推荐的研究中，通常根据用户购买商品的性质或类型来判定用户之间偏好的相似性。借鉴这一做法，本文将微博网络中用户发布的微博视作其购买的“产品”，通过所发微博的主题来判定用户的偏好。由此，给出微博网络中用户之间偏好相似性的定义。

在微博网络G(V,E)中，对于任意两个节点其所发微博的主题词集合分别为T_i＝{t₁,t₂…,t_m}和T_j＝{t₁,t₂…,t_n}，则节点v_i与v_j之间偏好相似性的计算方法定义如下：

式中pref(v_i,v_j)节点v_i与v_j之间的偏好相似性，dis(t_i,t_j)为两个微博主题词之间的语义距离，exp(-dis(t_i,t_j))表示以e为底数、以微博主题词之间语义距离的负数为指数的函数。

表2给出了在上近似权重参数w_up＝0.1时，SLCDA算法所得到的社区结构PCE值与其它两种算法的对比。通过表2可以看到，在偏好内聚性方面，SLCDA算法的表现明显优于其它两种算法。

表2微博网络中三种算法的PCE值比较

图5是上近似权重和社交相似权重分别为0.1和0.4时，SLCDA算法与其它两种算法所得到的前15个最大社区的平均偏好内聚指数APCE对比，其中横坐标为三种算法前15个最大的社区，纵坐标为评价指标APCE。可以看到，SLCDA算法所得到的单个社区在平均偏好内聚指数上的表现均优于其它两种算法。

通过上述关于结构内聚和偏好内聚两方面的实验表明，本文所提出的融合节点相似性的SLCDA算法在保证社区结构内聚性的要求之上，可以发掘出偏好内聚程度更高的潜在社区。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种社交网络中基于节点间相似性的重叠社区检测方法，其特征在于，包括：

接收待检测的社交网络；

计算所述待检测社交网络中节点间的相似程度；

输出检测的重叠社区的结构。

2.如权利要求1所述的方法，其特征在于，计算所述待检测社交网络中节点间的相似程度，具体包括：

3.如权利要求2所述的方法，其特征在于，根据节点的属性计算属性相似度，得到节点间的属性相似度，具体包括：

判断节点的属性是离散型属性还是文本型属性；

输入节点的文本属性值；

将分词处理后的属性文本进行去除停用词处理；

构建节点-关键词矩阵；

4.如权利要求1所述的方法，其特征在于，基于所述节点间的相似程度，检测所述社交网络的重叠社区，具体包括：

根据所述节点间的相似程度，计算所述社交网络中的每一个节点的相似势，所述节点的相似势为该节点在节点相似度中的相似影响力；

通过社区合并的方式对所述初始重叠社区结构进行优化；

输出最优重叠社区结构。

5.如权利要求4所述的方法，其特征在于，根据所述每个节点的相似势，设定所述社交网络的局部高势点，并将所述局部高势点作为粗糙聚类的初始聚类中心，具体包括：

S23、将节点v_i进行标记后添加至初始聚类中心集合U；

S25、输出初始聚类中心集合U。

6.如权利要求4所述的方法，其特征在于，根据所述粗糙聚类的初始聚类中心，对所述社交网络的节点进行粗糙K-Mediods聚类，得到社交网络的初始重叠社区结构，具体包括：

S32、对于u_i∈U，计算p(v_i,u_i)，其中p(u_i,v_i)为中心节点u_i在节点v_i处产生的相似势；

S3、将节点v_i划分至最强簇C_l，且

p(v_i,C_l)＝max{p(v₁,u_i),p(v₂,u_i),…,p(v₂,u_i)}；

S34、对于C_j∈C，计算势能差δ＝p(v_i,C_l)-p(v_i,C_j)。若δ≤α，则将v_i划分至C_l与C_j上近似集合的交集中，即否则，将v_i划分至C_l的下近似中，即v_i∈C_l；

S35、对于C_n∈C，若即节点v_i处于两个簇的边界区域，则重新计算节点在簇中的势能，并设置p(v_i,C_l)＝max{p(v_i,C_m),p(v_i,C_n)}，p(v_i,C_j)＝min{p(v_i,C_m),p(v_i,C_n)}；

S36、重新计算簇中心；

S38、输出所得到的簇，即社交网络的初始重叠社区结构。

7.如权利要求4所述的方法，其特征在于，通过社区合并的方式对所述初始重叠社区结构进行优化，具体包括：

S42、选取C_y∈C，计算其重叠度over(C_x,C_y)。若over(C_x,C_y)>Q，则执行S43；否则执行S44；

S43、将C_y合并至C_x并更新集合C,继续执行步骤S42；

8.如权利要求7所述的方法，其特征在于，所述重叠度的计算方法为：

对于两个簇C_i和C_j，其簇重叠度的计算方法定义如下

9.一种社交网络中基于节点间相似性的重叠社区检测系统，其特征在于，包括：

接收单元，用于接收待检测的社交网络；

输出单元，用于输出检测的重叠社区的结构。

10.如权利要求9所述的系统，其特征在于，所述相似度计算单元，具体包括：