CN112464107B

CN112464107B - 一种基于多标签传播的社交网络重叠社区发现方法及装置

Info

Publication number: CN112464107B
Application number: CN202011350850.6A
Authority: CN
Inventors: 范时平; 薛思豪
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2023-03-31
Anticipated expiration: 2040-11-26
Also published as: CN112464107A

Abstract

本发明属于社交网络技术领域，涉及一种基于多标签传播的社交网络重叠社区发现方法及装置；所述方法包括将社交用户节点的相似度映射到边的权重，并计算出各个节点的相似度，构建出加权网络；遍历加权网络中的每个节点的标签，如果目标节点具有与源节点相同的标签，那么该标签的权重采用第一更新公式更新，否则采用第二更新公式更新；去除传播更新后标签权重小于预设阈值的标签，取每个节点的前k个标签作为该节点的新标签；对每个标签的节点数进行计数，选择节点数最多的k个标签所对应的用户分别作为最终的重叠社区；本发明把节点的相似性映射到边的权值，进行多标签传播，从而解决了随机性的问题，有效地提高了社区的识别和划分的质量。

Description

一种基于多标签传播的社交网络重叠社区发现方法及装置

技术领域

本发明属于社交网络技术领域，特别涉及一种基于多标签传播的社交网络重叠社区发现方法及装置。

背景技术

现实世界中的很多系统都可以抽象为复杂网络，如社交网络、技术网络、生物网络，这些网络都具有一种普遍的特性——社区结构。在不同类型的网络中，社区有着不同的含义，但是所有社区内部节点间的联系总是比不同社区节点间的联系密切，准确地发现社区结构是在中观层面上理解网络结构进而研究复杂系统的有效途径。

社区发现的研究历史可以追溯到1927年，Rice等人基于投票模式的相似性发现小的政治团体中的社区，早期的研究工作大部分都围绕非重叠社区发现展开，此类算法将复杂网络划分成若干个互不相连的社区结构且一个节点只能隶属于一个社区，然而，现实中网络社区之间往往是相互重叠的，硬划分的社区发现算法无法满足需求。

近年来，学者们相继提出了大量能够识别重叠社区的算法。Palla等提出了一种基于最大团的派系过滤算法CPM来分析重叠的社区结构，并以此算法为原理开发了应用软件CFinder，该算法易受k值影响，且以最大团为种子计算复杂度较高。COPRA算法对基于标签传播的非重叠社区发现算法进行改进，在标签后面附上节点对该标签的归属系数，以便衡量该节点包含多个社区的信息比重，在迭代更新节点标签的过程中允许一个节点同时拥有多个标签，以发现网络中的重叠社区，该算法每次迭代的时间复杂度接近线性但稳定度较差。

中国专利CN103729475A提出了一种社交网络中多标签传播重叠社区发现方法，将社区划分过程划分为初步社区发现、节点层级标记以及重叠社区细化三个阶段，通过引入节点层级的思想及不同层级节点间的标签传播增益来规范标签在节点间的强度，使得在社区发现过程中，减小高层级的节点收影响的程度，同时低层级节点通常处于多个社区的交叉区域，能够根据自身的邻居节点的社区归属及层级信息选择合理的标签集合。该方法无需社区数目的先验知识，并对网络结构自适应，可有效的挖掘社交网络中的重叠社区结构；但是该方法缺少对标签权重的更新，导致划分出的社交网络重叠区域存在不稳定性和随机性较强等问题。

发明内容

针对现有技术中社交网络划分算法存在划分结果不稳定，随机性强，导致算法的准确性低的问题，本发明提出了一种基于多标签传播的社交网络重叠社区发现方法及装置，用于检测社交网络中的重叠社区。本发明首先计算节点之间的相似度，然后根据网络结构和节点的相似度传播多个标签，此外本发明使用修剪策略将每个节点的标签数保持在适当的范围内，能够有效提升本发明的发现效率。

本发明提供以下技术方案以解决上述技术问题：

在本发明的第一方面，本发明提供了一种基于多标签传播的社交网络重叠社区发现方法，所述方法包括以下步骤：

采集社交网络数据，构造出以社交网络用户为节点，用户关系为边的社交网络图；

将用户节点的相似度映射到边的权重，并计算出各个节点的相似度；

基于各个节点的相似度，构建出所述社交网络图所对应的加权网络；

遍历加权网络中的每个节点的标签，当源节点传播到目标节点时，如果目标节点具有与源节点相同的标签，那么该标签的权重采用第一更新公式更新，否则采用第二更新公式更新；

去除传播更新后标签权重小于预设阈值的标签，如果节点标签数小于或等于k，就将全部标签作为该节点的新标签，如果节点标签数大于k，则取每个节点的前k个标签作为该节点的新标签；

对每个标签的节点数进行计数，选择节点数最多的K个标签，按照节点数依次递减的顺序，分别将具有该标签的用户划分到一个区域中，从而依次划分出K个区域最终的重叠社区。

在本发明的第二方面，本发明还提供了一种基于多标签传播的社交网络重叠社区发现装置，所述装置包括：

采集模块，获取社交网络数据，包括社交用户和社交用户之间的关系；

社交网络模块，用于构造出以社交网络用户为节点，用户关系为边的社交网络图；

相似度计算模块，用于计算出各个节点之间的相似度；

加权网络模块，用于根据各个节点之间的相似度，构建出所述社交网络图所对应的加权网络；

传播模块，用于遍历加权网络中每个节点的标签，并采用第一更新公式或者第二更新公式更新标签权重；

确定模块，用于根据更新后的标签权重，选择出节点的新标签；

划分模块，对每个标签的节点数进行计数，选择节点数最多的k个标签作为最终的重叠社区。

本发明的有益效果：

本发明与现有技术相比，通过把用户节点的相似性映射到边的权值，可以充分利用节点间的属性关系，针对COPRA节点的标签传播的随机性，提出了一中基于节点多标签传播算法，该算法可以结合节点自身属性和网络拓扑结构，提高了重叠社区划分质量。在标签传播过程中，提出了两种标签权重更新公式，对每个节点的标签的重要程度按照节点的权重排序，最后设置了一个修剪操作，过滤掉权重小于设置阈值的标签，过滤掉的这些标签对重叠社区的划分意义不大，最后根据节点的标签划分重叠社区。

附图说明

图1是本发明实施例的社区发现方法的流程图；

图2是本发明实施例中通过节点相似度映射到边的权重构建加权网络的示意图；

图3是本发明所采用的多标签传播过程示意图；

图4是本发明实施例的社区发现装置的架构图；

图5是数据集的F1-score指标值示意图；

图6是数据集的Jaccard Similarity指标值示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例中一种基于多标签传播的社交网络重叠社区发现方法流程图，如图1所示，所述社区发现方法包括以下步骤：

S1、采集社交网络数据，构造出以社交网络用户为节点，用户关系为边的社交网络图；

所述社交网络数据包括微博、Twitter、Facebook等社交网络平台中的数据，可以通过基于社交网络平台的API爬取相应的数据。

社交网络的核心是参与其中的用户以及用户之间的关系。因此，本发明使用图模型来为用户以及用户间的关系进行建模，其中的节点表示社交网络中一个个的用户，而边则表示用户与用户之间的关系，如果想对这些关系强度(或亲密度)进行区分的话，还可以为每条边赋予一个权重，权值越大表示关系强度越大(或者越亲密)。

而社交网络图中将包含一定的结构，即社交网络图中存在多个子集合，在这些子集合的内部，边比较多，而子集合与子集合之间，边比较少；那些内部连接比较紧密的节点子集合对应的子图叫做社区(community)，各社区节点集合彼此没有交集的称为非重叠型(disjoint)社区，有交集的称为重叠型(overlapping)社区。网络图中包含一个个社区的现象称为社区结构，社区结构是网络中的一个普遍特征。给定一个网络图，找出其社区结构的过程叫做社区发现(community detection)。

以新浪微博为例，社交网络图中的节点表示新浪微博注册用户，边则表示注册用户之间的关注关系；在一些子集合内，该子集合内的用户喜欢关注动漫博主，另一些子集合内的用户喜欢关注影视类博主，通过本发明即可对这些用户进行划分。

S2、将用户节点的相似度映射到边的权重，并计算出各个节点的相似度；

计算出各个节点之间的相似度，并将所述相似度映射到节点之间的边权重上；其中，相似度公式表示为：

其中，Similarity(v_i,v_j)表示节点v_i和节点v_j的相似度；s为节点标签的个数，I(T_ik+T_jk)表示指标函数，T_ik表示节点v_i的第k个标签属性值，T_jk表示节点v_j的第k个标签属性值；当T_ik+T_jk等于2时I(T_ik+T_jk)为1，其他为0。

T_ik+T_jk是指当两个节点v_i和节点v_j的属性相同时为1，而对其加1是为了使任何边的权值都不等于0。

S3、基于各个节点的相似度，构建出所述社交网络图所对应的加权网络；

假设在社交网络图中，节点A和节点B之间的边权值为1，经过相似度计算后，节点A和节点B之间的边权值为8，那么就将新的边权值8加入社交网络图中节点A和节点B之间的边上，并将边权值更新后的社交网络图形成新的加权网络。

举个例子，假设在一个子集合内，如图2所示，包括三个节点V₁、V₂和V₃；节点V₁的属性标签包括动漫和影视，节点V₂的属性标签包括动漫、游戏和搞笑；节点V₃的属性包括阅读、动漫、科技和影视；基于相似度计算公式，可以得出节点V₁和节点V₂之间的权值为2，节点V₂和节点V₃之间的权值为3，节点V₁和节点V₃之间的权值为2。

通过上述相似度公式，能够简化社交网络图的表达难度，同时增强用户间的关系。

S4、遍历加权网络中的每个节点的标签，当源节点传播到目标节点时，如果目标节点具有与源节点相同的标签，那么该标签的权重采用第一更新公式更新，否则采用第二更新公式更新；

在本实施例中，可以定义一个标签字典labelDic用于存储标签权值。

初始化标签权重，遍历加权网络中的每个节点的标签，当源节点v_i传播到目标节点v_j时，如果目标节点v_j具有与源节点v_i相同的标签，那么该标签的权重采用公式(2)更新，否则采用公式(3)进行更新；

labelDic(v_j).label←labelDic(v_j)+w_ij×labelWeight×(y_i+1) (2)

labelDic(v_j).label←w_ij×labelWeight×(y_i+1) (3)

其中，labelDic(v_j).label表示在标签字典labelDic中存储的节点v_j的标签权重；w_ij表示节点v_i和节点v_j边权值，通过相似度公式计算而得；labelWeight表示标签权重，初始时为设置为1，后续将按照一定规则递减；y_i表示节点v_i的标准标签数，即节点v_i的标签数x减去节点标签最小的数Min比上节点标签最大数Max减去节点标签最小的数Min，表示为

y_i是一个(0，1)标准化后的数。

假设源节点v_i中包括标签{K₁,K₂,K₅,K₇}，目标节点v_j中包括标签{K₁,K₂,K₃}；那么标签K₁,K₂将采用公式(2)即第一更新公式进行更新，标签K₃将采用公式(3)即第二更新公式进行更新。

在上述实施例中，图3为本发明实施例所采用的多标签传播算法示例图，如图3所示，标签权重初始化为1即labelWeight＝1，本实施例的标签权重阈值r设置为1，重叠社区数为2，按照以下内容进行传播：

假设传播前的节点v₁包括标签label_3和标签label_1；节点v₂包括标签label_2；节点v₃包括标签label_1和标签label_2；传播后的节点v₁包括标签label_2和label_1，节点v₂包括标签label 3，节点v₃包括节点label_2和label_3；对每一个位于加权网络中的节点，先令它的标签权重初始值为1，当节点v₁传播到节点v₂时，节点v₂中的标签与节点v₁不存在相同标签，所以将按照第二更新公式更新节点v₂的标签权重，所以节点v₂的标签label_2的更新权重为1；而对于节点v₁传播到节点v₃时，节点v₃中存在与节点v₁相同的标签label_1，将按照第一更新公式更新节点v₃的标签权重。

以节点v₁到节点v₂为例，首先传播标签label_3,由于节点v₂中没有标签label_3，所以按照第二更新公式(3)进行更新，边权重w₁₂＝1，labelWeight＝1，y₂＝0，求得labelDic(v₂).label＝1；所以节点v₂的标签就传播到了v₁，且权重为刚刚计算的结果1，然后继续传播第二个标签label_1，此时按照标签权重的递减率α＝0.3为例，这时labelWeight＝labelWeight-0.3＝0.7，由于节点v₂中没有标签label 1，所以仍然按照第二更新公式(3)更新标签权重，w₁₂＝1，labelWeight＝0.7，y₂＝0，所以labelDic(v₂).label＝0.7，所以节点v₂最终有两个标签label_3和label_1，且标签权重为1和0.7。

在一些实施例中，由于每个用户的标签有高低之分，所以标签的权重依次递减；每当遍历节点的一个标签后，将对该标签的标签权重进行衰减。

在一些优选实施例中，该标签权重按照α递减。

在一些更为优选的实施例中，在社交网络平台中，每个用户的标签将会随着时间的推移而发生变化，它的变化过程往往遵循元素的半衰期规律，标签权重的变化趋势也就随之受到不同程度的驱动，引入半衰期函数

其中，t表示当前时刻，t₁表示用户注册到社交网络平台中的开始时间(t≥t₁)，w为半衰期，本实施例中优选w＝500。

S5、去除传播更新后标签权重小于预设阈值的标签，如果节点标签数小于或等于k，就将全部标签作为该节点的新标签，如果节点标签数大于k，则取每个节点的前k个标签作为该节点的新标签；

在本实施例中，可以定义一个标签表用于存储标签。

去掉标签权重小于预设阈值r的标签，并将每个节点的前k个标签作为该节点的新标签；若根据预设阈值r的标签总数小于k个，那么就将剩下的所有标签作为该节点的新标签。

S6、对每个标签的节点数进行计数，选择节点数最多的k个标签，按照节点数依次递减的顺序，分别将具有该标签的用户划分到一个区域中，从而依次划分出k个区域最终的重叠社区。

对每个标签的节点数进行计数，然后选择节点数最多的top-k个标签作为最终社区。

确定完k个标签后，按照顺序，首先对节点数最多的标签划分出一个区域，即拥有该标签的用户被划分到一个区域中，即一个重叠社区中；直至所有的k个标签都被划分完成，划分出最终的k个区域，即k个重叠区域。

图4给出了一种基于多标签传播的社交网络重叠社区发现装置结构图，所述装置包括：

相似度计算模块，用于计算出各个节点之间的相似度；

在一些实施例中，本发明的相似度计算模块与常规的相似度计算不同，本发明中相似度计算模块所预设的相似度计算公式表示为：

在一个实施例中，所述传播模块包括传播单元、判断单元、第一更新单元和第二更新单元；所述传播单元用于遍历源节点到目的节点之间的标签；所述判断单元用于判断所述目的节点中是否存在源节点中的标签，若存在则指向第一更新单元，否则指向第二更新单元；所述第一更新单元根据第一更新公式更新标签的权重；所述第二更新单元根据第二更新公式更新标签的权重。

在一个优选实施例中，所述传播模块包括标签权重衰减单元，所述标签权重衰减单元用于在遍历每个节点的一个标签后，对该标签的权重进行衰减。

在一个更为优选的实施例中，所采用的衰减方式包括线性衰减或半衰期函数衰减。

可以理解的是，本发明的社区发现方法和社区发现装置属于同一发明构思，其对应的特征可以相互引用，为了节省篇幅，本发明不再一一例举。

为了验证本发明所提出的社区发现方法及装置的划分效果，实验采用三个用于研究社交网络的真实数据集。Facebook和Twitter都是自我网络。可以在斯坦福大型网络数据集(https:/snap.standford.edu/data/)中找到，Facebook中的社区被定义为社交圈，而Twitter中是标签。在Facebook中，本发明将用户配置文件视为节点属性。在Twitter中，节点属性来自用户使用的主题标签。为了在大型网络上进行实验，本发明使用多个自我网络的组合网络作为最终数据集，分别包括10个Facebook自我网络和973个Twitter自我网络。Flickr是一个图片共享网络，其中节点代表用户，边代表用户之间的关注关系。用户添加到上传图片的标签作为节点属性。在此网络中，本发明将Flickr用户组作为真实的社区。具体见表1，其中n代表节点数，m代表边的数量；s节点的属性数；k社区数；AD平均度；AS社区的平均规模；AN社区成员平均数。

表1实验数据集

为了评估社区检测的性能，本发明采用了F1-score作为本发明的评价指标。这个度量标准是将本发明检测到的社区与最相似的真实社区匹配，并将每个真实社区与检测到的社区匹配。给定的真实社区集合C^*和检测到的社区的集合C，对F1-Score的评价函数定义如下：

其中

是两个社区集之间的相似性度量，在F1-Score中，这个相似性度量被定义为/>

和C_j的调和级数。这个指标在0-1之间，并且数值越大，表示结果越好。

与其他四个算法进行的比较如表2：

表2 F1-score比较

为了评估参数如何影响其社区检测中的性能，本发明在参数变化的3个数据集上进行了多次实验，迭代次数t和权重阈值r是算法中的两个主要参数，为了简洁起见，本发明固定一个参数。然后改变另一个参数的值，以确定其对社区检测任务的影响。

固定标签阈值r，令r＝3，改变迭代次数t的值，得到如图5所示。令r＝3，本发明令t的值为从3到20，删除了t<3时的评估结果，因为迭代次数太少，很难反应本方法对结果的影响。可以清楚的看到，随着迭代次数的增加，DOCAN的性能先上升后趋于稳定。这主要因为本方法在标签传播过程中会随着迭代次数的增加而收集越来越多的有用的信息当这个值不是很大的时候。随着迭代次数的不断增加，整个网络的节点标签分布趋于稳定，这使得当t足够大时，性能趋于稳定。

令t的值为10，改变r的值，结果如下图6所示，

对于标签阈值r，本发明给出了改变r的结果。r的增加大大提高DOCAN的性能，这说明本方法的修剪操作显著地帮本发明过滤了无用的标签，从而DOCAN能够发现更准确的社区。但随着r的不断增大，DOCAN的表现缓慢下降。这主要是因为太大的r删除了更多的标签，而这些标签可能对识别社区成员是有用的。当r＝10时，DOCAN取得最好的性能F1-score＝0.400。这与本发明在Facebook数据集上的实验结果非常接近。明显优于其他四个算法。当t＝10时，DOCAN的F1-score＝0.3905。明显优于其他四个算法。

在本发明的描述中，需要理解的是，术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多标签传播的社交网络重叠社区发现方法，其特征在于，所述方法包括以下步骤：

第一更新公式表示为：

labelDic(v_j).label←labelDic(v_j)+w_ij×labelWeight×(y_i+1)；

第二更新公式表示为：

labelDic(v_j).label←w_ij×labelWeight×(y_i+1)

其中，labelDic(v_j).label表示在标签字典中存储的节点v_j的标签权重；w_ij表示节点v_i和节点v_j边权值，通过节点的相似度公式计算而得；labelWeight表示标签权重；y_i表示节点v_i的标准标签数，即节点v_i的标签数x减去节点标签最小的数Min比上节点标签最大数Max减去节点标签最小的数Min，表示为

y_i是一个(0，1)标准化后的数；

2.根据权利要求1所述的一种基于多标签传播的社交网络重叠社区发现方法，其特征在于，各个节点的相似度的计算公式包括：

3.根据权利要求1所述的一种基于多标签传播的社交网络重叠社区发现方法，其特征在于，在遍历加权网络中的每个节点的标签后，该标签权重按照α线性递减。

4.根据权利要求1所述的一种基于多标签传播的社交网络重叠社区发现方法，其特征在于，在遍历加权网络中的每个节点的标签后，该标签权重按照半衰期函数递减。

5.一种基于多标签传播的社交网络重叠社区发现装置，其用于实现如权利要求1～4任一所述的一种基于多标签传播的社交网络重叠社区发现方法，其特征在于，所述装置包括：

相似度计算模块，用于计算出各个节点之间的相似度；

6.根据权利要求5所述的一种基于多标签传播的社交网络重叠社区发现装置，其特征在于，所述传播模块包括传播单元、判断单元、第一更新单元和第二更新单元；所述传播单元用于遍历源节点到目的节点之间的标签；所述判断单元用于判断所述目的节点中是否存在源节点中的标签，若存在则指向第一更新单元，否则指向第二更新单元；所述第一更新单元根据第一更新公式更新标签的权重；所述第二更新单元根据第二更新公式更新标签的权重。

7.根据权利要求5或6所述的一种基于多标签传播的社交网络重叠社区发现装置，其特征在于，所述传播模块包括标签权重衰减单元，所述标签权重衰减单元用于在遍历每个节点的一个标签后，对该标签的权重进行衰减。

8.根据权利要求7所述的一种基于多标签传播的社交网络重叠社区发现装置，其特征在于，所采用的衰减方式包括线性衰减或半衰期函数衰减。