CN108846543B

CN108846543B - 一种非重叠社区集合质量度量指标的计算方法及装置

Info

Publication number: CN108846543B
Application number: CN201810386263.9A
Authority: CN
Inventors: 冯禹洪; 吴远诗; 佘松; 罗秋明
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2021-10-29
Anticipated expiration: 2038-04-26
Also published as: CN108846543A

Abstract

本发明提供一种非重叠社区集合质量度量指标的计算方法及装置，通过获取社区集合X、Y中各社区中的元素得到顶点集合V，根据顶点集合V中各顶点v_i，分别遍历社区集合X、Y，构建社区标签数据集合LidList，之后基于对LidList的key取模的分组策略，再对集合LidList进行按key切分并分发到各进程，由各进程进行计算，得到计算各指标的所需数值，最后将其合并至单一进程进行运算，得到社区集合X、Y的度量指标。该方法采用并行分布式计算框架MPI并利用社区标签对计数加速社区集合度量指标的运算速度，同时通过该社区集合质量度量指标计算方法可同时计算出更多的度量指标，适用于大规模社区集合质量度量指标的计算。

Description

一种非重叠社区集合质量度量指标的计算方法及装置

技术领域

本发明属于计算机技术领域，尤其涉及一种非重叠社区集合质量度量指标的计算方法及装置。

背景技术

一般情况下，社交网络图可以抽象为节点和边构成的集合，其中节点表示网络中的个体，而边表示个体与个体之间的某种关联关系。社交网络图具有社区结构，其中，社区是由网络图中紧密连接节点构成，社区之间则通过稀疏的节点进行连接。社区发现即为对一个网络进行社区结构的刻画和划分，社区发现的结果则被称为社区集合。若社区集合中的节点仅属于一个社区，则该社区集合则被称为非重叠社区集合，否则被称为重叠社区集合。需要理解的是，通过不同的社区发现算法产生的社区集合是不同的，获知某一算法得到的社区集合与标准社区集合之间相似性或差异性，可通过计算相应的社区集合质量度量指标进行度量。对于非重叠社区集合，其度量指标有多个，具体分成为Measures based onCounting Pairs(基于计数对的度量)，Measures based on Cluster Matching(基于簇匹配的度量)和Measures based on Mutual Information(基于交互信息的度量)三类。在现有的算法中，存在串行算法和于2014年提出的一种基于MPICH并行分布式框架的算法(简称MPI-2014算法)，但是串行算法和该MPI-2014算法计算得到的度量指标仅为三类度量指标中的部分指标，同时由于现有算法无法适用于大规模社区集合，且算法效率较低，因此，提供一种适用于大规模社区集合的度量指标计算方法是亟需解决的。

发明内容

本发明的主要目的在于提供一种非重叠社区集合质量度量指标的计算方法及装置，旨在解决现有算法不适用于大规模社区集合质量度量指标计算的技术问题。

本发明提供的一种非重叠社区集合质量度量指标的计算方法包括：

步骤1、获取社区集合X＝{X₁,X₂,...X_K}、Y＝{Y₁,Y₂,...Y_K'}，及包含所述社区集合X、Y中各社区的顶点集合V＝{v₁,v₂,...v_n}；所述K、K'、n分别表示社区集合 X、Y以及顶点集合V中的元素个数；

步骤2、根据所述顶点集合V＝{v₁,v₂,...v_n}中的各顶点v_i，分别遍历社区集合 X＝{X₁,X₂,...X_K}、Y＝{Y₁,Y₂,...Y_K'}中的各社区，记录各顶点v_i在社区集合X、Y中所属社区的标签，得到标签Xid[i]、Yid[i]，i为大于0小于n的整数；

步骤3、按照元素类型(key,value)，将各顶点v_i对应的((Xid[i],0),Yid[i])、((Yid[i],1),Xid[i])元素添加至社区标签数据集合LidList，所述key为(key,value)类型的复合key；

步骤4、基于对LidList的key取模的分组策略，对所述社区标签数据集合 LidList进行按key切分，并将切分得到的元素分发至多个进程；由各进程根据分发得到的元素进行运算处理，得到计算各指标的所需数值；

步骤5、将所述各进程得到的所述计算各指标的所需数值发送至单一进程，由所述单一进程进行运算，输出所述社区集合X、Y的度量指标。

可选的，在步骤4中，所述基于对LidList的key取模的分组策略，对所述社区标签数据集合LidList进行按key切分，并将切分得到的元素分发至多个进程的步骤包括：

构建各进程对应的新建社区标签数据集合NewLidList；

基于对LidList的key取模的分组策略，将所述社区标签数据集合LidList按 key进行划分至各进程对应的新建社区标签数据集合NewLidList。

可选的，在步骤4中，所述由各进程根据分发得到的元素进行运算处理，得到计算各指标的所需数值的步骤包括：

将所述新建社区标签数据集合NewLidList中的各元素对key按字典序排序，并统计同一key中，不同value出现的次数；

根据所述新建社区标签数据集合NewLidList中的元素以及所述次数进行运算处理，得到计算各指标的所需数值。

进一步地，本发明还提供了一种非重叠社区集合质量度量指标计算装置，所述非重叠社区集合质量度量指标计算装置包括处理器、存储器及通信总线；

所述通信总线用于实现处理器和存储器之间的连接通信；

所述处理器用于执行存储器中存储的非重叠社区集合质量度量指标计算程序，所述非重叠社区集合质量度量指标计算程序包括：

获取模块，用于获取社区集合X＝{X₁,X₂,...X_K}、Y＝{Y₁,Y₂,...Y_K'}，及包含所述社区集合X、Y中各社区的顶点集合V＝{v₁,v₂,...v_n}；所述K、K'、n分别表示社区集合X、Y以及顶点集合V中的元素个数；

处理模块，用于根据所述顶点集合V＝{v₁,v₂,...v_n}中的各顶点v_i，分别遍历社区集合X＝{X₁,X₂,...X_K}、Y＝{Y₁,Y₂,...Y_K'}中的各社区，记录各顶点v_i在社区集合X、 Y中所属社区的标签，得到标签Xid[i]、Yid[i]，i为大于0小于n的整数；

添加模块，用于按照元素类型(key,value)，将各顶点v_i对应的 ((Xid[i],0),Yid[i])、((Yid[i],1),Xid[i])元素添加至社区标签数据集合LidList，所述 key为(key,value)类型的复合key；所述j为社区标签笛卡尔乘积数据集DicList[i] 中元素的标签；

分发模块，基于对LidList的key取模的分组策略，对所述社区标签数据集合LidList按key进行切分，并将切分得到的元素分发至多个进程；

运算模块，用于将所述各进程的所述计算各指标的所需数值发送至单一进程，由所述单一进程进行运算，输出所述社区集合X、Y的度量指标。

可选的，分发模块还用于构建各进程对应的新建社区标签数据集合 NewLidList；

可选的，分发模块还用于将所述新建社区标签数据集合NewLidList中的各元素对key按字典序排序，并统计同一key中，不同value出现的次数；

有益效果

本发明提供一种非重叠社区集合质量度量指标计算方法及装置，通过获取社区集合X、Y中各社区中的元素得到顶点集合V，根据顶点集合V中各顶点v_i，分别遍历社区集合X、Y，记录各顶点v_i在社区集合X、Y中所属社区的标签，并构建社区标签数据集合LidList，之后基于对LidList的key取模的分组策略，将 LidList集合中的元素按key切分并分发至各个进程，由各进程运算处理得到计算各指标的所需数值，最后合并计算各指标的所需数值至单一进程进行运算，得到关于社区集合X、Y的度量指标。由于该社区集合质量度量指标计算方法采用并行算法，从而可加速社区集合质量度量指标的运算速度，同时通过该社区集合质量度量指标计算方法计算出的度量指标更加丰富，从而适用于大规模社区集合质量度量指标的计算。

附图说明

下面将结合附图及实施例对本发明作进一步说明，附图中：

图1为本发明实施例提供的非重叠社区集合质量度量指标计算方法流程图；

图2为本发明实施例提供的非重叠社区集合质量度量指标计算方法与现有度量指标计算方法，在不同数据上ARI指标运行时间的比较示意图；

图3为本发明实施例提供的非重叠社区集合质量度量指标计算装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在介绍本发明社区集合质量度量指标的计算方法之前，先在此对各个指标进行介绍：需要理解的是，社区集合的度量指标分为非重叠社区集合质量度量指标和重叠社区集合质量度量指标，其中，非重叠社区集合质量度量指标分为 Measures based on CountingPairs，Measures based on Cluster Matching和 Measures based on MutualInformation三类，下面将对不同类型的度量指标进行介绍：

需要理解的是，社区集合X＝{X₁,X₂,...X_K}、Y＝{Y₁,Y₂,...Y_K'}中的元素X_k、Y_k'分别表示社区集合X、Y中的各个社区，其中K、K'分别表示社区集合X、Y中元素的个数，即社区的个数。集合社区集合X、Y中各个社区的顶点v_i可以得到顶点集合，以V＝{v₁,v₂,...v_n}表示，其中n表示顶点集合V中元素的个数，即顶点的个数，i为大于0小于n的整数。

对于非重叠社区集合的度量，其度量指标分为三类，具体的介绍如下：

第一类：Measures based on Counting Pairs(基于计数对的度量)

对于该类度量指标，其度量社区集合相似度的方法为计算同时在两个社区集合中以相同方式“分类”的顶点对的个数，具体的表示方法如下：

N₁₁表示在X和Y中，被划分到一个社区中的定点对的个数；

N₁₀(N₀₁)表示在X(Y)中被划分到一个社区，而在Y(X)中则不被划分到一个社区的节点对的个数；

N₀₀表示在X和Y中，不被划分到一个社区中的定点对的个数；

第一类具体有四种度量指标，包括：

1.1、统计所有被正确分类的顶点对的个数指标Rand Index(RI):

1.2、基于RI的改进指标Adjusted Rand Index(ARI)：

1.3、排除所有顶点对在两个社区集合中都分别不属于相同集合的度量指标Jaccard Index(JI)：

1.4、层次聚类指标Fowlkes–Mallows Index(FMI)：

第二类：Measures based on Cluster Matching(基于簇匹配的度量)

这类指标的方法核心在于为社区集合中的每个社区找到在另一个社区集合中满足最佳匹配的社区，该最佳匹配往往是指这两个集合的交集的大小是最大的。第二类指标具体有三种，包括：

2.1、最早是在文本聚类中用于估计聚类的精确度的指标F-Measure：

2.2、由Van Dongen提出的一种对称式的度量方案，Normalized Van Dongen-Measure(NVD)：

需要理解的是，X_r、Y_s分别表示社区集合X、Y中的社区，其中X_r、Y_s分别表示在社区集合X、Y中的第r个社区和第s个社区。

第三类：Measures based on Mutual Information(基于交互信息的度量)

该类指标是基于信息论中的熵，当应用在社区中时。其先假设V中所有的顶点都有相同的概率被随机选中，则每个顶点被放进社区X_r中的概率为 P(r)＝|X_r|/|V|，而每个顶点被同时放进社区X_r和Y_s中的概率为 P(r,s)＝|X_r∪Y_s|/|V|，X_r∈X，Y_r∈Y。社区集合信息熵H(X)、互信息I(X,Y)的计算公式如下：

第三类度量指标包括：

3.1、归一化互信息指标Normalized Mutual Information(NMI)：

3.2、信息变化指标Variation of Information(VI)：

VI(X,Y)＝H(X)+H(Y)-2I(X,Y)

基于上述各度量指标的计算公式，提出本发明方法各个实施例。

第一实施例

现有计算非重叠社区集合质量度量指标的计算方法有多种，包括igraph(复杂网络分析库)、scikit-learn(基于python的机器学习模块)、MPI-2014(基于MPI标准的算法)等，但是这些算法仅能计算出部分的指标，基于此，本发明新提出了一种非重叠社区集合质量度量指标的计算方法 MPI-PNCMC(MPI-Parallel Non-overlapping Community MetricComputation)，基于MPI标准的并行社区度量计算)，该算法是并行分布式框架的算法，相比现有的算法，本发明的计算方法速度更快，能计算的指标更加丰富。

本发明第一实施例所提供的非重叠社区集合质量度量指标的计算方法的流程图可参见图1，具体包括：

步骤1、获取社区集合X＝{X₁,X₂,...X_K}、Y＝{Y₁,Y₂,...Y_K'}，及包含社区集合X、 Y中各社区的顶点集合V＝{v₁,v₂,...v_n}。

需要理解的是，社区集合的数据是以文件存储的，因此在获取到社区集合后，可以直接获取到社区集合中，各社区的顶点，因此可以直接获取到顶点集合V。在该步骤中，所述K、K'、n分别表示社区集合X、Y以及顶点集合V中的元素个数。

步骤2、根据所述顶点集合V＝{v₁,v₂,...v_n}中的各顶点v_i，分别遍历社区集合 X＝{X₁,X₂, ...,X_K}、Y＝{Y₁,Y₂, ...,Y_K'}中的各社区，记录各顶点v_i在社区集合X、Y 中所属社区的标签，得到标签Xid[i]、Yid[i]。

在本实施例中，将以X_r、Y_s表示为社区集合X、Y中的社区进行解释说明，其中的r、s分别表示X_r社区、Y_s社区在社区集合X、Y中的社区标签，在此进行举例说明，第一例子：若顶点v₃在社区集合X、Y中的社区X₂、Y₁中，则在遍历社区集合X、Y后可得到标签Xid[3]＝2、Yid[3]＝1。i为大于0小于n的整数。后文所述的第一例子即指该处顶点v₃的例子。

步骤3、按照元素类型(key,value)，将各顶点v_i对应的((Xid[i],0),Yid[i])、((Yid[i],1),Xid[i])元素添加至社区标签数据集合LidList，所述key为(key,value)类型的复合key。

社区标签数据集合LidList中的元素类型为(key,value)，其中的key为复合 key，其类型也为(key,value)。承接第一例子，顶点v₃对应的社区标签数据集合 LidList＝{((2,0),1),((1,1),2)}。

步骤4、基于对LidList的key取模的分组策略，对所述社区标签数据集合 LidList按key进行切分，并将切分得到的元素分发至多个进程；由各进程根据分发得到的元素进行运算处理，得到计算各指标的所需数值。

具体的，该步骤4中，基于对LidList的key取模的分组策略，对所述社区标签数据集合LidList进行切分，并将切分得到的元素分发至多个进程的步骤包括：

构建各进程对应的新建社区标签数据集合NewLidList；

基于对LidList的key取模的分组策略，将所述社区标签数据集合LidList进行划分至各进程对应的新建社区标签数据集合NewLidList。

其中，步骤4由各进程根据分发得到的元素进行运算处理，得到计算各指标的所需数值的步骤包括：

将所述新建社区标签数据集合NewLidList中的各元素对key按字典序排序，并统计具有相同key的元素个数；

根据所述新建社区标签数据集合NewLidList中的元素以及所述元素个数进行运算处理，得到计算各指标的所需数值。

可以理解的是，在MPICH编程模型中，一个算法程序拥有多个进程，每个进程可以独立的处理数据。在本实施例中步骤4切分及分发的过程为：算法程序中的各进程构建其NewLidList，并独立的通过Network File System(NFS，网络文件系统)读取LidList中所有的元素，之后基于对LidList的key取模的分组策略，将符合的元素加入进程的NewLidList中，之后每个进程将NewLidList中的各个元素对key按字典序降序排序，并计数相同元素的个数，并进一步的对 NewLidList中的元素以及计算得到的相同元素的个数进行运算处理，得到计算各指标的所需数值。需要理解的是分组策略指的是，按照每个进程处理的数据量大小趋于相同的策略进行切分分组。

一般情况下字典序指按照字母顺序，或者数值小大顺序进行排列，本发明实施例中所述的字典序为数字小大顺序进行排序。社区标签数据集合LidList中的元素类型为(key,value)，因此此处的对key按字典序降序排序的含义为：将元素的key值按照数值小大顺序进行降序排列。需要注意的是，社区标签数据集合 LidList中元素类型的key为(key,value)类型的复合key，在排序时是依次对复合key，即(key，value)中的key、value进行排序。继续沿用上述第一例子进行解释说明：对顶点v₃对应的社区标签数据集合LidList＝{((2,0),1),((1,1),2)}对key按字典序降序排序的结果为：((1,1),2)、((2,0),1)。

在排序之后，统计具有相同复合key的元素的个数，最后根据NewLidList中的元素以及元素个数进行运算处理，得到计算各指标的所需数值。该处运算得到计算各指标的所需数值的算法可根据现有的计算算法计算得到，在此不再赘述。需要理解的是，该处的计算各指标的所需数值表示一个进程根据NewLidList 中的元素而计算得到的多个计算指标所需的数值，该处的指标所需数值表示计算度量指标所需要的数值，例如：若想要计算得到指标ARI(X,Y)，则需要计算出N₁₁、N₀₀、N₁₀、N₀₁以及M，进一步带入公式

中，即可计算得到ARI(X,Y)，在本例中，各指标所需数值即为N₁₁、N₀₀、N₁₀、N₀₁以及 M。

步骤5、将所述各进程的所述各指标所需数值发送至单一进程，由单一进程进行运算，输出所述社区集合X、Y的度量指标。

通过步骤4的计算，各个进程将能计算出多个指标所需数值，此时将各进程计算得到计算各指标的所需数值发送至单一进程，最后由单一进程按照预定算法进行计算，得到社区集合X、Y的度量指标。例如，进程1计算得到N₁₀(1)，进程2计算得到一个N₁₀(2)，此时进程3获取进程1与进程2的计算结果，将N₁₀(1) 与N₁₀(2)求和即可得到最终计算指标的所需数值N₁₀。

参见图2，图2展示了本文提出的算法MPI-PNCMC和scikit-learn，igraph 和mpi-2014在不同非重叠社区数据集上的比较，其中纵坐标是对数标度(log scale)；横坐标表示不同非重叠社区数据集，包括：

DBLP：数据库系统与逻辑编程数据集。

Amazon：亚马逊数据集。

Youtube：Youtube数据集。

Wiki：多人协作的写作系统数据集。

Orkut：社交服务网络数据集。

LiveJournal：综合型SNS交友网站数据集。

Friendster：社交网站数据集。

需要理解的是，图2中的红叉表示该算法在在对应的数据集下，无法在 10000秒以内计算出结果。由图2中可知本文提出的算法效果显著，在所有的数据集下都比其他算法要快。

进一步的，本发明的算法与现有算法MPI-2014、scikit-learn、igraph所能计算的度量指标种类的比较如表1所示，且由表1可知，本发明提出的社区集合质量度量指标计算方法能计算的指标更加丰富。

表1.各类算法可计算指标比较

第二实施例

本发明所提供的非重叠社区集合质量度量指标计算装置可参见图3所示，其包括处理器301、存储器302及通信总线303，其中：

通信总线303用于实现处理器301和存储器302之间的连接通信；

处理器301用于执行存储器302中存储的非重叠社区集合质量度量指标计算程序，所述非重叠社区集合质量度量指标计算程序包括：

获取模块，用于获取社区集合X＝{X₁,X₂,...X_K}、Y＝{Y₁,Y₂,...Y_K'}，及包含社区集合X、Y中各社区的顶点集合V＝{v₁,v₂,...v_n}；所述K、K'、n分别表示社区集合X、Y以及顶点集合V中的元素个数；

添加模块，用于按照元素类型(key,value)，将各顶点v_i对应的 ((Xid[i],0),Yid[i])、((Yid[i],1),Xid[i])元元素添加至社区标签数据集合LidList，所述key为(key,value)类型的复合key；

分发模块，用于基于对LidList的key取模的分组策略，对所述社区标签数据集合LidList按key进行切分，并将切分得到的元素分发至多个进程；

在本实施例的另外一些示例中，分发模块还用于构建各进程对应的新建社区标签数据集合NewLidList；基于对LidList的key取模的分组策略，将所述社区标签数据集合LidList进行划分至各进程对应的新建社区标签数据集合 NewLidList。

在本实施例的另外一些示例中，分发模块还用于将所述新建社区标签数据集合NewLidList中的各元素对key按字典序排序，并统计同一key中，不同value 出现的次数；根据所述新建社区标签数据集合NewLidList中的元素以及所述次数进行运算处理，得到计算各指标的所需数值。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种非重叠社区集合质量度量指标的计算方法，其特征在于，该方法包括以下步骤：

步骤1、获取社区集合X＝{X₁,X₂,...X_K}、Y＝{Y₁,Y₂,...Y_K'}，及包含所述社区集合X、Y中各社区的顶点集合V＝{v₁,v₂,...v_n}；所述K、K'、n分别表示社区集合X、Y以及顶点集合V中的元素个数；

步骤2、根据所述顶点集合V＝{v₁,v₂,...v_n}中的各顶点v_i，分别遍历社区集合X＝{X₁,X₂,...X_K}、Y＝{Y₁,Y₂,...Y_K'}中的各社区，记录各顶点v_i在社区集合X、Y中所属社区的标签，得到标签Xid[i]、Yid[i]，i为大于0小于n的整数；

步骤4、基于对LidList的key取模的分组策略，对所述社区标签数据集合LidList按key进行切分，并将切分得到的元素分发至多个进程；由各进程根据分发得到的元素进行运算处理，得到计算各指标的所需数值；

步骤5、将所述各进程计算得到的所需数值发送至单一进程，由所述单一进程进行运算，输出所述社区集合X、Y的度量指标。

2.如权利要求1所述的非重叠社区集合质量度量指标的计算方法，其特征在于，在步骤4中，所述基于对LidList的key取模的分组策略，对所述社区标签数据集合LidList按key进行切分，并将切分得到的元素分发至多个进程的步骤包括：

构建各进程对应的新建社区标签数据集合NewLidList；

基于对LidList的key取模的分组策略，将所述社区标签数据集合LidList按key进行划分至各进程对应的新建社区标签数据集合NewLidList。

3.如权利要求2所述的非重叠社区集合质量度量指标的计算方法，其特征在于，在步骤4中，所述由各进程根据分发得到的元素进行运算处理，得到计算各指标的所需数值的步骤包括：

4.一种非重叠社区集合质量度量指标的计算装置，其特征在于，所述非重叠社区集合质量度量指标计算装置包括处理器，存储器及通信总线；

所述通信总线用于实现所述处理器和所述存储器之间的连接通信；

所述处理器用于执行所述存储器中存储的非重叠社区集合质量度量指标计算程序，所述非重叠社区集合质量度量指标计算程序包括：

处理模块，用于根据所述顶点集合V＝{v₁,v₂,...v_n}中的各顶点v_i，分别遍历社区集合X＝{X₁,X₂,...X_K}、Y＝{Y₁,Y₂,...Y_K'}中的各社区，记录各顶点v_i在社区集合X、Y中所属社区的标签，得到标签Xid[i]、Yid[i]，i为大于0小于n的整数；

添加模块，用于按照元素类型(key,value)，将各顶点v_i对应的((Xid[i],0),Yid[i])、((Yid[i],1),Xid[i])元素添加至社区标签数据集合LidList，所述key为(key,value)类型的复合key；

分发模块，用于基于对LidList的key取模的分组策略，对所述社区标签数据集合LidList按key进行切分，并将切分得到的元素分发至多个进程；由各进程根据分发得到的元素进行运算处理，得到计算各指标的所需数值；

5.如权利要求4所述的非重叠社区集合质量度量指标计算装置，其特征在于，所述分发模块还用于构建各进程对应的新建社区标签数据集合NewLidList；

6.如权利要求5所述的非重叠社区集合质量度量指标计算装置，其特征在于，所述分发模块还用于将所述新建社区标签数据集合NewLidList中的各元素对key按字典序排序，并统计同一key中，不同value出现的次数；