CN105592405A

CN105592405A - 基于派系过滤和标签传播的移动通信用户群组构造方法

Info

Publication number: CN105592405A
Application number: CN201510734202.3A
Authority: CN
Inventors: 于瑞云; 姜国强; 王兴伟; 李婕; 于超; 洪淼
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2015-10-30
Filing date: 2015-10-30
Publication date: 2016-05-18
Anticipated expiration: 2035-10-30
Also published as: CN105592405B

Abstract

基于派系过滤和标签传播的移动通信用户群组构造方法，属于数据业务领域。计算用户节点间的联系紧密度；构建用户节点间的有权复杂网络；基于有权复杂网络，采用派系过滤算法构造社交关系群组的种子群组；基于种子群组，初始化网络中所有节点标签，即为每个节点分配初始标签；利用改进的SLPA算法进行标签传播，当绝大多数节点的标签收敛时，基于节点的标签将节点划分至对应的群组，完成社交关系群组的构造，即拥有相同标签的节点构成一个群组；本发明的有点为：可获得较好的用户好友推荐效果；获得较好的协同推荐效果；有助于用户构成分析；有助于发现异常群体；下一代通信的划分基础。

Description

基于派系过滤和标签传播的移动通信用户群组构造方法

技术领域

本发明属于数据业务领域，特别涉及一种基于派系过滤和标签传播的移动通信用户群组构造方法。

背景技术

现有技术中，没有发现有关通过用户间的通信信息构造社交关系群组并发现群组中心用户方法的文献。相对比较类似的SLPA(Speaker-listenerLabelPropagationAlgorithm，speaker-lisener标签传播策略算法)算法具有近线性的时间复杂度，且具有较好的性能，比较适合在具有较大数据集的前提背景下进行用户间社交关系群组的构造。SLPA算法初始时为所有用户节点都分配一个唯一的标签，致使该算法迭代收敛的时间变慢，且在同步更新策略中可能会产生振荡现象，鲁棒性相对较差。此外，尽管该算法能够发现重叠社区，但是主要针对无权网络，无法直接应用到有权复杂网络中。

本发明基于移动运营商自身所拥有的数据进行分析，不依赖任何OTT(OverTheTop，通过互联网向用户提供各种应用服务)应用，在实际应用中具有重要意义，基于移动通话记录构造用户社交群组不仅能够使移动运营商更深入地了解用户，适当缓解OTT业务的冲击，还能为其他一些服务提供基础。

发明内容

针对现有技术存在的不足，本发明提供一种基于派系过滤和标签传播的移动通信用户群组构造方法。

本发明的技术方案是这样：

一种基于派系过滤和标签传播的移动通信用户群组构造方法，包括以下步骤：

步骤1：计算用户间的联系紧密度；

假设在一段时间内用户A同时与用户B、C、D发生通话关系且以用户A为主体，则可以基于用户间的联系强度和联系稳定性，来度量用户A与用户B间的之间的联系紧密度；

步骤1.1：计算用户间的联系强度；

所述用户间的联系强度用于体现用户间相互联系的密切程度；用户A与用户B间的联系强度可通过公式(1)计算。

S_{A B} = {(\frac{{AVG}_{c o u p l e_d u r a t i o n}}{{AVG}_{a l l_d u r a t i o n}} \times \frac{{FRE}_{c o u p l e_t i m e s}}{{AVG}_{a l l_t i m e s}})}^{\frac{1}{2}} - - - (1)

其中，AVG_{couple_duration}表示用户A与用户B的平均通话时长，FRE_{couple_times}表示用户A与用户B的总通话次数，AVG_{all_duration}表示用户A与其所有通话对象B、C、D的平均通话时长的均值，AVG_{all_times}表示用户A与其所有通话对象B、C、D的平均通话次数；

步骤1.2：计算用户间的联系稳定性；

所述用户间的联系稳定性用于体现用户间通话联系的规律周期性；用户A与用户B间的联系稳定性按照公式(2)度量；

C_{A B} = {(\frac{{FRE}_{c o u p l e_w e e k s_t i m e s}}{{AVG}_{a l l_w e e k s_t i m e s}} \times \frac{{CV}_{g a p_w e e k s}}{A V G_{CV}_{g a p_w e e k s}})}^{\frac{1}{2}} - - - (2)

其中，C_AB表示用户A与用户B之间的联系稳定性；FRE_{couple_weeks_times}表示用户A与用户B的总通话周数，AVG_{all_weeks_times}表示用户A与其所有通话对象B、C、D的平均通话周数，CV_{gap_weeks}表示用户A与用户B联系间隔周数的离散系数，AVG_CV_{gap_weeks}表示用户A与其所有通话对象B、C、D的联系间隔周数的离散系数均值；

步骤1.3：基于用户间的联系强度与联系稳定性，计算用户间的联系紧密度；

用户A对用户B的联系紧密度I_AB按照公式(3)进行计算；

I_AB＝αC_AB+(1-α)S_AB(3)

其中，α∈[0,1]为用于调节用户间的联系强度与联系稳定性对联系紧密度的影响程度的常量；

考虑主动发起通信的用户对用户间联系紧密度的贡献程度更大一些，因此定义用户A与用户B的综合联系紧密度值I按照公式(4)计算；

I = \frac{n_{A B}}{n} I_{A B} + \frac{n_{B A}}{n} I_{B A} - - - (4)

其中n_AB表示用户A主叫用户B的通话次数；n_BA表示用户B主叫用户A的通话次数；用户A与用户B之间的总通话次数n＝n_AB+n_BA。

步骤2：构建用户间的有权复杂网络；

将移动通信网络中的用户抽象为节点，用户间的联系紧密度值抽象为边的权值，将用户间的通信关系抽象为有权复杂网络；

步骤3：基于有权复杂网络，采用派系过滤算法构造社交关系群组的种子群组；

具体方法为：首先设置派系大小参数k；然后从有权复杂网络中发现所有大小为k且满足设计要求的k-派系；随后针对这些k派系进行过滤，生成种子群组；所述过滤的方法为：设定阈值w^*，首先过滤掉复杂网络中所有权值小于w^*的边，然后忽略过滤后复杂网络中节点间的权值；

步骤4：基于种子群组，初始化网络中所有节点标签，即为每个节点分配初始标签；

方法为：将各个种子群组内节点的标签初始化为同一个标签，如果一个节点同时属于多个种子群组，则此节点同时保留多个种子群组所对应的标签；于种子群组内所包含的节点只是整个网络节点中的一部分，因而有些节点将不属于任何种子群组，对于没有被种子群组包含的节点，将它们的标签初始化为唯一标签；

步骤5：利用改进的SLPA算法进行标签传播，当绝大多数节点的标签收敛时，基于节点的标签将节点划分至对应的群组，完成社交关系群组的构造；

步骤5.1：利用Speaker策略发布用户的标签；

所述Speaker策略为：设定一个比例阈值T_SPEAKER，每次标签传播的迭代过程开始时，从节点历史标签集合中选取标签出现比例大于比例阈值的T_SPEAKER的标签对外发布；如果没有任何一个标签的出现比例满足阈值条件，则选择出现比例最大的标签作为该节点所对外发布的标签；如果同时出现多个比例最大的标签则随机选择其中一个标签对外发布；

步骤5.2：利用Listener策略接收用户的标签；

所述Listener策略的具体内容为：定义节点i所对应标签l的强度S_label(i,l)：

S_{l a b e l} (i, l) = \underset{j &Element; N S (i, l)}{Σ} w_{i j}

其中，NS(i,l)表示与节点i邻接并且其所发布的标签中含有标签l的节点集合，w_ij表示节点i与节点j连边的权值；迭代过程中，计算节点所接收到的每个标签的标签强度，选择拥有最大标签强度的标签作为本轮迭代该节点的更新标签并将其加入到自己的历史标签集合中；果出现多个标签强度最大的标签，则随机从中选择一个标签作为该节点本轮迭代更新的标签并将其加入到自己的历史标签集合中；

步骤5.3：利用同步标签传播策略进行标签传播；

步骤5.4：判断是否符合迭代停止条件，若是，则停止迭代并转至步骤5.5；

所述迭代停止条件为：设置两个阈值T_{convergence_rate}和T_{convergence_times}；在每次迭代过程中，统计收敛节点数N_identical，即节点在新一轮迭代中所获的标签与其历史标签集合中出现次数最多标签相同的节点数量；如果收敛节点数N_identical与网络中的总节点数N_total的比值不小于阈值T_{convergence_rate}的情况连续超过阈值T_{convergence_times}次出现，则认为本算法已经收敛，迭代停止；

步骤5.5：基于节点的标签将节点划分至对应的群组，完成社交关系群组的构造，即拥有相同标签的节点构成一个群组；

由于每个节点都存储了该节点在每一轮迭代中所接收并选择的标签，为了能够发现重叠群组，设置一个比例阈值T_{postprocessing}，针对每一个节点的历史标签集合，选择其标签历史集合中标签出现次数占总次数比例不小于阈值T_{postprocessing}的标签作为标识该节点群组划分的标签，则拥有相同标签的节点即构成一个群组；

本发明的有益效果：本发明的基于派系过滤和标签传播的移动通信用户群组构造方法具有如下优点：

1、可获得较好的用户好友推荐效果；

现阶段，微信等APP所采用的用户好友推荐方法都是基于本地通讯录而设计的，然而这种方法可能会产生错误的推荐，比如可能只是在通讯录中临时记录一个号码也会产生推荐。基于本发明所构造的社交关系群组进行好友推荐则不会出现此问题，因为利用移动运营商提供的数据所构造的群组能够较准确地反映用户间真实的社交关系，因此会有较好的推荐效果。此外，群组构造结果也可用于移动运营商自身业务的拓展，如飞信的好友推荐等。

2、获得较好的协同推荐效果；

拥有紧密联系的用户在某种程度上会拥有相同的兴趣爱好，如喜欢购物的用户总是会和喜欢购物的用户联系商量购物事宜，鉴于此可以试图了解群组内某些用户的兴趣，进而推测群组中的其他用户对此可能同样感兴趣。此外，当某商品要针对某群组进行推荐时，为节约成本，可以先将商品推送至群组内的某些用户，如果推荐成功则该用户会主动将此信息向其群组内的其他成员进行推荐。

3、有助于用户构成分析；

“人以类聚，物以群分”，在用户关系这里主要体现为相同层次的用户往往只和相同层次的人进行联系，如董事长总是和董事会的高层进行联系，员工总是和员工进行联系。鉴于此，通过本发明所构造的群组分析群组内某些用户所在的层次，可以反向推测其群组内其他用户所在的层次，而这种用户构成分析对于移动运营商调整电信资费等具有较大的意义。

4、有助于发现异常群体；

对于异常群体而言，有些时候很难发现异常群体的全部成员，而只能发现其中某一个或者某一些成员。鉴于异常群体间注定会相互联系，因此基于移动数据所构造的社交关系群组能够将这些异常群体划分至一个群组中，因而这对于发现整个异常群体具有非常重要的意义。

5、下一代通信的划分基础；

随着移动通信技术的发展，3G、4G业务应运而生，为了追求更高的通信速率，以及更便捷的内容共享，未来的移动通信业务极可能会采用D2D(DeviceToDevice)联网技术，即两个用户不依靠基站直接进行通信、上网、内容共享等。而同一个社交关系群组内的用户极有可能会时常相互通信并极有可能会时常存在于同一物理范围内，因此采用本发明方法所构造的社交关系群组可以作为D2D联网通信的基础划分。

附图说明

图1为本发明具体实施方式的基于派系过滤和标签传播的移动通信用户群组构造方法流程图；

图2为本发明具体实施方式的有权复杂网络示意图；

图3为本发明具体实施方式的拓扑混合参数对算法性能的影响比较图；

图4为本发明具体实施方式的权值混合参数对算法性能的影响比较图；

图5为本发明具体实施方式的重叠节点数对算法性能的影响比较图；

图6为本发明具体实施方式的联系紧密度值所对应关系数的分布图；

图7为本发明具体实施方式的群组规模统计分布图。

具体实施方式

下面结合附图对本发明的具体实施方式做详细说明。

本实施方式的基于派系过滤和标签传播的移动通信用户群组构造方法，如图1所示，包括如下步骤：

步骤1：计算用户间的联系紧密度；

通过分析通话记录中的通话时长、通话间隔和通话次数指标，充分考虑用户间的联系强度和联系稳定性，度量用户之间的联系紧密度。

步骤1.1：计算用户间的联系强度值；

所述用户间的联系强度主要用于体现用户间相互联系的密切程度，主要从联系的时长与联系的次数两个方面进行度量。为了方便叙述，设在一段时间内用户A同时与用户B、C、D发生通话关系且以用户A为主体，则用户A与用户B间的联系强度可通过公式(1)计算得出。

S_{A B} = {(\frac{{AVG}_{c o u p l e_d u r a t i o n}}{{AVG}_{a l l_d u r a t i o n}} \times \frac{{FRE}_{c o u p l e_t i m e s}}{{AVG}_{a l l_t i m e s}})}^{\frac{1}{2}} - - - (1)

其中，AVG_{couple_duration}表示用户A与用户B的平均通话时长，FRE_{couple_times}表示用户A与用户B的总通话次数，AVG_{all_duration}表示用户A与其所有通话对象B、C、D的平均通话时长的均值，AVG_{all_times}表示用户A与其所有通话对象B、C、D的平均通话次数。

步骤1.2：计算用户间的联系稳定性值；

所述用户间的联系稳定性主要用于体现用户间的通话联系是否具有一定的规律周期性。因为一些特殊的原因，比如工作原因，两位用户在某一集中时间段内的联系强度可能异常高，而过了这个时间段后两位用户可能很少联系甚至失去了联系，如果只单纯考虑联系强度显然难以体现出用户间真正的联系紧密度，因此加入联系稳定性的度量显得十分有必要。为了方便叙述，仍然设在一段时间内用户A同时与用户B、C、D发生通话关系且以用户A为主体，则用户A与用户B间的联系稳定性的度量如公式(2)所示。

C_{A B} = {(\frac{{FRE}_{c o u p l e_w e e k s_t i m e s}}{{AVG}_{a l l_w e e k s_t i m e s}} \times \frac{{CV}_{g a p_w e e k s}}{A V G_{CV}_{g a p_w e e k s}})}^{\frac{1}{2}} - - - (2)

其中，C_AB表示用户A与用户B之间的联系稳定性；FRE_{couple_weeks_times}表示用户A与用户B的总通话周数，AVG_{all_weeks_times}表示用户A与其所有通话对象B、C、D的平均通话周数，CV_{gap_weeks}表示用户A与用户B联系间隔周数的离散系数，AVG_CV_{gap_weeks}表示用户A与其所有通话对象B、C、D的联系间隔周数的离散系数均值。

步骤1.3：基于用户间的联系强度与联系稳定性，计算用户间的联系紧密度值；

为了方便叙述，仍然设在一段时间内用户A同时与用户B、C、D发生通话关系，以用户A为主体，用户A对用户B的联系紧密度I_AB根据公式(3)进行计算。

I_AB＝αC_AB+(1-α)S_AB(3)

其中，α∈[0,1]为用于调节用户间的联系强度与联系稳定性对联系紧密度的影响程度的常量。

考虑主动发起通信的用户对用户间联系紧密度的贡献程度更大一些，因此定义用户A与用户B的综合联系紧密度值I按照公式(4)计算。

I = \frac{n_{A B}}{n} I_{A B} + \frac{n_{B A}}{n} I_{B A} - - - (4)

其中，n_AB表示用户A主叫用户B的通话次数；n_BA表示用户B主叫用户A的通话次数；用户A与用户B之间的总通话次数n＝n_AB+n_BA。

步骤2：构建用户间的有权复杂网络；

将移动通信网络中的用户抽象为节点，用户间的联系紧密度值抽象为边的权值，将用户间的通信关系抽象为有权复杂网络。即将复杂网络建模为图G(V,E,W)，如图2所示，其中V(v₁,v₂,...,v_n)表示对用户进行标识的标签的集合，E(e₁,e₂,...,e_n)表示用户间的联系关系，W(w₁,w₂,...,w_n)表示用户间的联系紧密度值。

种子群组为群组中核心节点的集合，为群组的核心联系框架。现阶段绝大部分基于标签传播的群组构造算法在初始时均为网络内的所有节点分配一个唯一的标签，然而当算法收敛时，绝大部分的标签都已经被过滤掉，只保留了少量的标签，如此便大大增加了算法的迭代时间。而且当整个复杂网络的群组结构不太明显时，算法的鲁棒性也将大打折扣。鉴于此，本发明首先构造种子群组，并将此种子群组作为所要构造的社交关系群组的初始群组。

本发明采用派系过滤算法构造种子群组，这是因为基于固定派系大小的种子群组构造方法能够基于某一固定派系一次性构造出所有能体现用户间较强社交关系的种子群组，且所构造的种子群组间具有一定的重叠性。种子群组的重叠性对于基于标签传播的算法具有重要意义，如果使用不具有重叠特性的种子群组对标签进行初始化，则可能导致某些群组结构在标签传播前已被丢弃。

由于本发明所构建的复杂网络是有权的，而派系过滤算法主要用于处理无权网络，为了能够挖掘出用户间具有较强联系的紧密用户集合，本实施方式中的采用派系过滤算法构造社交关系群组的种子群组的方法为：首先设置派系大小参数k；然后从所抽象的网络中发现所有大小为k且满足设计要求的k-派系；随后针对这些k派系进行过滤，生成种子群组；所述过滤的方法为：设定阈值w^*，然后过滤掉复杂网络中所有权值小于w^*的边，再然后忽略过滤后复杂网络中节点间的权值；

固定派系大小k的种子群组构造方法能够发现群组中的核心关系，建立群组内的主体关系框架，为后续的其他群组构造算法提供较好的基础。而k值的选取对算法的性能有一定的影响，如果k选取的较大，则所构造群组的规模将变小，同一个群组可能被拆分成了多个群组，但是群组内的联系将会变强。反之，如果k选取的过小，则所构造群组的规模将会变大，群组内的联系也会相对变弱。通过若干次试验，确定k＝4时，所构造的群组的效果最好。

将各个种子群组内节点的标签初始化为同一个标签，如果一个节点同时属于多个种子群组，则此节点同时保留多个种子群组所对应的标签。由于种子群组内所包含的节点只是整个网络节点中的一部分，因而有些节点将不属于任何种子群组，对于没有被种子群组包含的节点，将它们的标签初始化为唯一标签。

步骤5：利用改进的SLPA算法进行标签传播(即标签更新)，当绝大多数节点的标签收敛时，基于节点的标签将节点划分至对应的群组，完成社交关系群组的构造；

现有SLPA算法的主要流程为首先为所有节点分配一个唯一的标签，然后开始标签传播迭代过程，每次选取一个节点作为听者(Listener)，所有听者的邻接节点(说者，Speaker)在其历史标签记录中选择一个出现次数最多的标签将其传递给听者(Listener)，听者(Listener)从所接收到的所有标签中选择一个出现次数最多的标签作为当前节点本次迭代的标签，并将其加入到自己的标签集合中，如此迭代直至达到设定的最大迭代次数。现有SLPA算法采用异步更新策略即异步传播策略，允许每个节点均保留其历史标签，最终对历史标签集合中标签出现的频率进行记录，将频率高的多个标签作为群组标识，从而实现了重叠社区的发现，在某些情况下能够有效防止标签振荡现象的发生，但是这种方法同样阻碍了多标签的传播，使传播的标签数量急剧减少，不利于重叠节点的发现。

而本实施方式的步骤5中利用改进的SLPA算法进行标签传播，具体包括步骤5.1至步骤5.4：

步骤5.1：利用Speaker策略发布用户的标签；

Speaker策略指的是节点基于自己历史标签集合对其邻接节点(即Listener)发布标签的策略。设定一个比例阈值T_SPEAKER，每次标签传播(标签更新)的迭代过程开始时从节点历史标签集合中选取标签出现比例大于比例阈值的T_SPEAKER的标签对外发布。如果没有任何一个标签的出现比例满足阈值条件，则选择出现比例最大的标签作为该节点所对外发布的标签，如果同时出现多个比例最大的标签则随机选择其中一个标签对外发布。

步骤5.2：利用Listener策略接收用户的标签；

Listener策略指的是节点从其所有邻接节点(即Speaker)所发布的标签中选择一个标签作为本轮迭代节点的更新标签并将其加入到自己的历史标签集合中的策略。定义节点i所对应标签l的强度S_label(i,l)：

S_{l a b e l} (i, l) = \underset{j &Element; N S (i, l)}{Σ} w_{i j}

其中，NS(i,l)表示与节点i邻接并且其所发布的标签中含有标签l的节点集合，w_ij表示节点i与节点j连边的权值。

迭代过程中，节点计算其所接收到的每个标签的标签强度，选择拥有最大标签强度的标签作为该节点本轮迭代的标签，如果出现多个标签强度最大的标签，则随机从中选择一个标签作为该节点本轮迭代更新的标签。

步骤5.3：利用同步标签传播策略进行标签传播，即标签更新；

同步标签传播策略易于多标签的传播，为了能够构造出更精确更符合实际的群组，本发明采用同步标签传播策略。

步骤5.4：判断是否停止迭代，若是，则执行步骤5.5；

设置两个阈值T_{convergence_rate}和T_{convergence_times}；在每次迭代过程中，统计收敛节点数N_identical，即节点在新一轮迭代中所获的标签与其历史标签集合中出现次数最多标签相同的节点数量；如果收敛节点数N_identical与网络中的总节点数N_total的比值不小于阈值T_{convergence_rate}的情况连续超过阈值T_{convergence_times}次出现，则认为本算法已经收敛，迭代停止。

本实施方式的步骤5还包括下面的步骤5.5：

步骤5.5：基于节点的标签将节点划分至对应的群组，完成社交关系群组的构造；

迭代停止意味着网络中的绝大多数节点的标签已经收敛，此时可以基于节点的标签将节点划分至对应的群组。如前所述，每个节点都存储了该节点在每一轮迭代中所接收并选择的标签，为了能够发现重叠群组，设置一个比例阈值T_{postprocessing}，针对每一个节点的历史标签集合，选择其标签历史集合中标签出现次数占总次数比例不小于阈值T_{postprocessing}的标签作为标识该节点群组划分的标签。最终，拥有相同标签的节点构成一个群组。

具体实验验证过程如下：

本实施方式将本发明的基于派系过滤和标签传播的移动通信用户群组构造方法在Hadoop平台下进行了基于MapReduce的并行实现，并分别利用LFR基准网络、中国移动真实通话记录数据集分别对在Hadoop平台下基于MapReduce并行实现的本发明的基于派系过滤和标签传播的社交关系群组构造方法进行有效性评价。

(1)本实施方式将本发明的基于派系过滤和标签传播的移动通信用户群组构造方法在Hadoop平台下基于MapReduce并行实现；

一个MapReduce作业处理数据集的过程主要包括Map、Combine、Partition、Reduce阶段。

本发明方法中为每个节点分配标签后便开始进入迭代的标签传播过程。标签初始化时，各个节点初始化为何种标签只取决于种子群组，各个节点间相互独立，因此可以以每个节点为中心并行完成节点标签初始化过程。

由于本发明方法中采用的是同步标签传播策略，因此节点新更新的标签完全取决于其上一轮邻接节点所拥有的历史标签集合，与其本轮邻接节点所更新的标签毫无关系，因此在每一轮迭代过程中节点间的标签传播是相互独立的，可以将标签传播的过程并行化。在某一轮迭代中，针对每一个节点，如果其要完成标签传播过程，该节点需知晓其每个邻接节点的标签集合以及该节点的邻接表，因此在进行标签传播前先利用MapReduce的按键排序分组特性将节点标签更新所需数据信息划分在一起，随后即可并行进行标签传播。

本实施方式基于种子群组初始化节点标签的伪代码如表1所示，该初始化只需一个MapReduce过程。Map阶段的任务为分发节点标签与种子群组标签，如果所输入的为种子群组，则以种子群组内各个节点的标签分别作为键，种子群组标签作为值进行输出，如果所输入的为节点集合，则以节点标识作为键输出。Reduce阶段的任务是初始化节点标签，因为Map阶段的输出均以节点的标识作为键，因此相同节点标识的Map输出会划分至同一个Reduce任务节点的同一组中，鉴于此在Reduce任务节点中，如果对于每个输入键，其对应的值集合中包含种子群组标识则说明该节点属于该种子群组，因此将其标签初始化为种子群组标识，当然如果值集合中包含多个种子群组标识，则将其标签初始化为多个种子群组标识。相反，如果值集合中不包含种子群组标识，则说明当前节点不属于任何种子群组，则按照步骤4将其标签初始化为唯一标识，即该节点自身的节点标识。

表1基于种子群组初始化节点标签的伪代码

表2所示的伪代码为基于MapReduce并行化设计的本发明方法中一次标签传播迭代流程，该流程共包含两个MapReduce过程，其中第二个MapReduce使用默认的Map设计。第一个MapReduce过程的作用为分发节点标签与邻接信息，具体而言第一Map阶段将节点标签信息以节点标识作为键，标签信息作为值输出，将邻接信息以邻接表中的每个邻接节点分别作为键，该邻接表所对应的节点标识作为值输出，此外由于在标签传播部分仍需邻接表信息，因此此处同时将邻接表信息输出。Reduce1阶段将第一Map阶段所输出的信息进行汇总，由于第一Map阶段的输出均是以节点标识为键，因此在Reduce1阶段可以将节点以及其邻接节点与其对应的历史标签集合统一起来，并以待更新节点标签的节点(Listener节点)标识作为键，其节点本身及其邻接节点(Speaker节点)的各历史标签集合分别作为值进行输出。基于第一个MapReduce过程，每个节点的邻接信息以及其邻接点对应的标签集合均会划分至同一个Reduce任务节点的同一组中，从而第二个MapReduce过程即可按照设计完成每个节点的标签更新并将其存储在自己的标签集合中。在更新各节点标签的同时，需同时判定当前节点是否已经进入收敛状态，统计进入收敛状态的节点数量，为迭代停止判定提供依据。

表2基于MapReduce并行化设计的本发明方法中一次标签传播迭代流程

(2)利用LFR基准网络对在Hadoop平台下基于MapReduce并行实现的本发明的基于派系过滤和标签传播的移动通信用户群组构造方法(以下简称本发明方法)进行有效性评价。

(2.1)实验背景

LFR基准网络专门用于验证各种群组构造(社区发现)算法的性能。通过配置LFR基准网络不同的参数(如表3所示)生成已知群组结构且具有重叠群组特性的复杂网络对基于标签传播原理的COPRA(CommunityOverlapPropagationAlgorithm)算法、基于局部扩张原理的OSLOM(OrderStatisticLocalOptimizationMethod)算法和本发明方法进行验证。由于LFR基准网络中的群组结构事先已知，因此采用扩展标准互信息(ExpandedNormalizedMutualInformation，ENMI)作为性能对比的指标。

表3LFR网络配置参数

其中k表示平均度数；k_max表示最大度数；c_min表示最小社区(群组)大小；c_max表示最大社区(群组)大小，O_n表示每个重叠节点所属固定社区个数；拓扑混合参数μ_t、权值混合参数μ_w、重叠节点的个数O_n为范围值，对比过程中会不断调整它们的值以更深入地观察各个群组构造算法的性能。

实验中，联系紧密度度量参数α取0.4，COPRA算法的参数v(v表示一个节点可以同时最多被划分至v个群组中)设置为O_m，即等于LFR基准网络中重叠节点同时属于的群组个数。实验中中Speaker策略中T_SPEAKER和T_{postprocessing}都设置为0.3，迭代停止条件中T_{convergence_rate}和T_{convergence_times}分别设置为0.001和5。此外，实验中使用的OSLOM群组构造算法的原始程序参见作者的论文“LancichinettiA,RadicchiF,RamascoJJ,etal.Findingstatisticallysignificantcommunitiesinnetworks[J].PloSone,2011,6(4):e18961.”，且所需的其他参数均采用其程序中的默认值。实验中使用的COPRA群组构造算法的原始程序参见作者的论文“GregoryS.Findingoverlappingcommunitiesinnetworksbylabelpropagation[J].NewJournalofPhysics,2010,12(10):103018.”，且所需的其他参数均采用其程序中的默认值。

(2.2)拓扑混合参数μ_t对算法的性能影响

设置LFR基准网络中节点总个数N＝50000，权值混合参数μ_w＝0.1，重叠节点个数O_n＝5000，调整拓扑混合参数μ_t，分别使用本发明方法、OSLOM群组构造算法、COPRA群组构造算法对所生成的模拟基准网络(LFR基准网络)进行群组构造，并计算所构造的各群组与原始群组的扩展标准互信息，结果如图3示。

拓扑混合参数μ_t指节点外部度数占其总度数的比例，μ_t越大，所生成基准网络的群组结构越模糊。如图2所示，总体而言本发明方法的性能均好于OSLOM群组构造算法和COPRA群组构造算法。起初COPRA群组构造算法与本发明方法的性能基本相当，ENMI均维持在0.86左右，均好于OSLOM群组构造算法，当μ_t大于0.4左右时，性能开始出现差异，本发明方法的性能开始好于COPRA算法，这主要是因为随着μ_t的不断增大，网络中的群组拓扑开始变得不清晰，这致使初始时为每个节点都分配一个唯一标签的COPRA算法在群组拓扑不明显的情况下所构造的群组质量下降。而本发明方法由于在群组构造前使用改进的基于派系过滤的群组构造算法构造种子群组，且所构造的种子群组具有非常强的群组特性，因此在网络群组拓扑不清晰的情况下仍能基于种子群组构造相应的群组。尽管存在如上差异，但随着μ_t的增大，四种算法的ENMI值都在不断衰减，特别是当μ_t大于0.9时三种拓扑的ENMI均为0，这因为群组内节点对外联系度比例过大，网络的群组拓扑结构已不存在。

(2.3)权值混合参数μ_w对算法性能的影响

设置LFR基准网络中节点总个数N＝50000，拓扑混合参数μ_t＝0.2，重叠节点个数O_n＝5000，调整权值混合参数μ_w，计算三种算法所构造的群组与原始群组的扩展标准互信息，结果如图4所示。

权重混合参数μ_w是节点对群组外节点连接边的权值总和与该节点与所有节点连接边的权值总和的比例值，同样权重混合参数越大，基准网络的群组结构越不明显。如图3所示，当权值混合参数μ_w较小时，本发明方法、COPRA算法的性能基本相当，ENMI值均维持在0.87左右，均好于OSLOM算法。随着μ_w的增大，算法的性能开始出现明显的差异，当μ_w大于0.25左右，COPRA算法性能急剧下降，而本发明方法则是出现了缓慢的下降，这主要是因为种子群组在较模糊的群组结构中识别了群组内的核心群组关系，致使其性能好于COPRA算法。由于OSLOM算法基于统计特性反复迭代判断相应的邻接节点是否应该加入群组，致使其群组构造的结果仍旧相对稳定，而尽管初始时的群组结构由种子群组标识，但是本发明方法仍旧对权值有较强的依赖，本发明方法依赖权值选择标签，因此在权值混合参数较大时OSLOM性能超过了本发明方法。同样，当混合参数μ_w大于0.65时，节点间的权值都主要分散在不同的群组间，群组结构过于模糊，进而算法性能均趋近于0。

(2-4)重叠节点数O_n对算法性能的影响

重叠节点数O_n是指基准网络中重叠节点的个数，重叠节点现象广泛存在于现实世界中，如某个用户可能既是某个家庭群组的成员又是某个同事群组的成员。设置LFR基准网络中节点总个数N＝50000，拓扑混合参数μ_t＝0.3，权值混合参数μ_w＝0.2，调整重叠节点数O_n，计算三种算法所构造的群组与原始群组的扩展标准互信息，结果如图5示，为了更清楚地对结果进行展示，图中横坐标改为重叠节点数O_n与网络总节点数N的比值。

如图4所示，总体而言本发明方法的性能好于OSLOM算法和COPRA算法。这是因为算法初始时所注入的种子群组即是有重叠的，而以此重叠种子群组为基础更有利于算法发现重叠群组，尤其是当重叠节点数量增多时。而COPRA算法和OSLOM算法均是相当于从一个节点作为初始群组进行群组构造，显然当重叠节点数量增多时对算法的性能会有一定的影响。此外，本发明方法中节点存储所有迭代过程中的历史标签也是能较好构造重叠群组的保证。

(3)利用中国移动真实通话记录数据集对在Hadoop平台下基于MapReduce并行实现的本发明的基于派系过滤和标签传播的社交关系群组构造方法进行有效性评价。

(3.1)实验背景

中国移动辽宁分公司记录了其所管辖范围内每个用户的每条通话记录，其记录的内容主要包括本端号码、对端号码、通话时间、通话时长、呼叫类型等共计15个字段。因数据量巨大，所有通话记录均使用Snappy压缩算法以纯文本的形式存储在Hadoop集群的HDFS上，从压缩文本大小而言，每天产生约9～10G的通话记录。

本实施方式提取了移动真实数据集中沈阳市共计4766379位用户的三个月通话记录作为实验的原始输入数据。首先基于通话记录对用户间的联系紧密度值进行度量计算，然后以用户为节点，用户间的联系紧密度值作为节点间边的权值，将用户间的通话关系抽象成一张体现用户间社交关系的加权复杂网络，并基于此加权复杂网络使用本发明的方法进行群组构造。

实验验证过程中，共度量出4406891位用户，33728562条有权关系，平均每位用户拥有7.654条关系。如图6所示，为联系紧密度值所对应关系数的分布图，其中横坐标表示所计算出的用户间的联系紧密度值(精确至0.1)，纵坐标表示相应的联系紧密度值所对应的关系数，横纵坐标轴均使用以10为底的对数坐标系。

从分布角度而言，联系紧密度值基本符合幂律分布，且具有明显的肥尾现象，这说明绝大部分用户之间的社交关系比较松散，少数用户之间的社交关系比较紧密。

(3.2)群组构造质量评估

对于移动的真实数据集而言，用户的真实群组划分是未知的，因此无法使用标准互信息对群组构造的结果进行度量。合理的群组划分应该体现为群组内的节点相互联系比较紧密，而群组与群组之间的节点相互联系比较稀疏，为此可以采用聚集系数来衡量群组构造的质量，它可以表示节点的局部连通性。群组构造的效果越好，群组内用户间联系越紧密，其聚集系数也越高，因此可以采用聚集系数度量群组构造的好坏。

为了便于进行直观比较，分别计算全网所有节点的聚集系数均值、加权聚集系数均值以及以各个群组为单位群组内节点的聚集系数均值、加权聚集系数均值，结果如表4所示，其中比值项表示群组的(加权)聚集系数均值与全网的(加权)聚集系数均值的比值。

表4聚集系数均值和加权聚集系数均值

从表4中可以看出，本发明方法所构造出的各个群组内节点的聚集系数均值、加权聚集系数均值都远大于全网所有节点的聚集系数均值、加权聚集系数均值，其比值均在4倍以上，这说明本发明方法构造的群组质量均较高，本发明方法是可行且有效的。从表4还可以看出，全网的平均聚集系数均值、加权聚集系数均值均较小，这说明用户真实的社交关系网络是一个非常稀疏的网络。

(3.3)实验群组规模

附图7为本发明方法所构造出的群组规模统计分布图，为了能够更清楚的展示统计数据，横纵坐标轴仍均使用以10为底的对数坐标系。针对4406891位用户，33728562条关系，本算法共构造出了498156个群组，平均每个群组包含9.351个用户。

从统计特性而言，所构造的群组规模均基本符合幂律分布，且具有明显的肥尾现象，即绝大多数的用户所拥有的社交群组较小，只有少部分用户拥有较大社交群组，而这正符合社会学的统计特性。

Claims

1.一种基于派系过滤和标签传播的移动通信用户群组构造方法，其特征在于：包括以下步骤：

步骤1：计算用户间的联系紧密度；

步骤2：构建用户间的有权复杂网络；

步骤5.1：利用Speaker策略发布用户的标签；

步骤5.2：利用Listener策略接收用户的标签；

S_{l a b e l} (i, l) = \underset{j &Element; N S (i, l)}{Σ} w_{i j}

步骤5.3：利用同步标签传播策略进行标签传播；

由于每个节点都存储了该节点在每一轮迭代中所接收并选择的标签，为了能够发现重叠群组，设置一个比例阈值T_{postprocessing}，针对每一个节点的历史标签集合，选择其标签历史集合中标签出现次数占总次数比例不小于阈值T_{postprocessing}的标签作为标识该节点群组划分的标签，则拥有相同标签的节点即构成一个群组。

2.根据权利要求1所述的基于派系过滤和标签传播的移动通信用户群组构造方法，其特征在于：所述步骤1计算用户间的联系紧密度的方法为：

步骤1.1：计算用户间的联系强度；

所述用户间的联系强度用于体现用户间相互联系的密切程度；用户A与用户B间的联系强度可通过公式(1)计算；

S_{A B} = {(\frac{{AVG}_{c o u p l i_d u r a t i o n}}{{AVG}_{a l l_d u r a t i o n}} \times \frac{{FRE}_{c o u p l e_t i m e s}}{{AVG}_{a l l_t i m e s}})}^{\frac{1}{2}} - - - (1)

步骤1.2：计算用户间的联系稳定性；

C_{A B} = {(\frac{{FRE}_{c o u p l e_w e e k s_t i m e s}}{{AVG}_{a l l_w e e k s_t i m e s}} \times \frac{{CV}_{g a p_w e e k s}}{A V G_{CV}_{g a p_w e e k s}})}^{\frac{1}{2}} - - - (2)

用户A对用户B的联系紧密度I_AB按照公式(3)进行计算；

I_AB＝αC_AB+(1-α)S_AB(3)

I = \frac{n_{A B}}{n} I_{A B} + \frac{n_{B A}}{n} I_{B A} - - - (4)

3.根据权利要求1所述的基于派系过滤和标签传播的移动通信用户群组构造方法，其特征在于：所述步骤3中采用派系过滤算法构造社交关系群组的种子群组的方法为：

首先设置派系大小参数k；然后从有权复杂网络中发现所有大小为k且满足设计要求的k-派系；随后针对这些k派系进行过滤，生成种子群组；所述过滤的方法为：设定阈值w^*，首先过滤掉复杂网络中所有权值小于w^*的边，然后忽略过滤后复杂网络中节点间的权值。

4.根据权利要求1所述的基于派系过滤和标签传播的移动通信用户群组构造方法，其特征在于：所述步骤4中初始化网络中所有节点标签的方法为：将各个种子群组内节点的标签初始化为同一个标签，如果一个节点同时属于多个种子群组，则此节点同时保留多个种子群组所对应的标签；于种子群组内所包含的节点只是整个网络节点中的一部分，因而有些节点将不属于任何种子群组，对于没有被种子群组包含的节点，将它们的标签初始化为唯一标签。

5.根据权利要求1至4任一项所述的基于派系过滤和标签传播的移动通信用户群组构造方法，其特征在于：所述步骤5.4中所述的迭代停止条件为：设置两个阈值T_{convergence_rate}和T_{convergence_times}；在每次迭代过程中，统计收敛节点数N_identical，即节点在新一轮迭代中所获的标签与其历史标签集合中出现次数最多标签相同的节点数量；如果收敛节点数N_identical与网络中的总节点数N_total的比值不小于阈值T_{convergence_rate}的情况连续超过阈值T_{convergence_times}次出现，则认为本算法已经收敛，迭代停止。