CN110275941A

CN110275941A - 一种基于粗化与局部重叠模块度的邮件挖掘方法

Info

Publication number: CN110275941A
Application number: CN201910546136.5A
Authority: CN
Inventors: 郭昆; 张鹏; 郭文忠; 陈羽中; 项冰洁
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-09-24
Also published as: WO2020253150A1

Abstract

本发明涉及一种基于粗化与局部重叠模块度的邮件挖掘方法，根据邮件头日志信息，构建邮件往来网络G；多次迭代遍历，将G中的三角形融合为一个复合节点，得到粗化后的图G_cn；根据Jaccard距离初始化G_cn中所有边对应节点的距离；迭代更新邻居节点间的距离直至所有距离收敛。距离小于1的节点属于同一群组，得到粗化图的群组划分C_cn；还原网络得到邮件往来网络的初始群组划分C；将距离为1的节点加入到使局部重叠模块度增量最大的群组集中得到重叠群组集合C_over；将C_over中群组节点数少于设定阈值的群组合并到与其紧密度最大的群组中，更新C_over最终得到邮件往来网络的群组划分C’输出最终的群组划分结果。本发明克服了传统模块度计算效率低的问题提高重叠群组发现的精度。

Description

一种基于粗化与局部重叠模块度的邮件挖掘方法

技术领域

本发明涉及大规模邮件网络上的重叠群组发现技术领域，特别是一种基于粗化与局部重叠模块度的邮件挖掘方法。

背景技术

随着技术的飞速发展，电子邮件成为了生活及工作中必不可少的工具。作为社交网络的重要通讯手段之一，其往来记录中隐含着错综复杂的社交关系。对邮件往来网络中的群组结构进行分析，能够更好地帮助研究人员挖掘邮件收发人之间的共同兴趣、职业等等，从而可以进行圈子推荐、好友推荐、精准广告投放以及定位可疑人群等。目前邮件挖掘相关研究及技术仍不太成熟，人们根据邮件中的不同数据进行不同的研究，如使用时间、邮件源地址等对系统做宏观统计，使用邮件正文对邮件进行分类，使用邮件收发关系的结构发现邮件群组和重要人物等。其中，关于利用邮件收发关系的结构发现邮件群组和重要人物的已有研究存在效率不高的问题，很难满足海量邮件信息处理的要求，并且大多数邮件挖掘系统需要结合多方面的数据，但由于邮件涉及个人隐私问题，收集的邮件语料库规模有限，所以对真实大规模邮件网络的挖掘还比较少，很难保证邮件群组识别的准确性。

发明内容

有鉴于此，本发明的目的是提出一种基于粗化与局部重叠模块度的邮件挖掘方法，可以高效、准确地对复杂网络的重叠结构进行划分。

本发明采用以下方案实现：一种基于粗化与局部重叠模块度的邮件挖掘方法，提供一种系统，该系统包括邮件往来网络构建模块、网络粗化模块、邮件群组识别模块、反粗化模块、重叠邮件群组划分模块、群组优化模块和输出模块；该系统按如下步骤进行邮件挖掘：

步骤S1：所述邮件往来网络构建模块获取系统中的邮件头日志信息构建邮件往来网络G：令邮件的发件人和收件人为节点，收发邮件的关系为边，邮件收发人之间的邮件往来频率为权重，构建用于划分群组结构的邮件往来网络G＝(V,E,W)，其中V表示节点集，E表示边集，W表示边的权重集；

步骤S2：所述网络粗化模块读取邮件往来网络G，按照节点的度从小到大的顺序遍历G中的三角形，将构成三角形的三个节点融合为一个复合节点，多次迭代遍历直至粗化率达到设定阈值，结束粗化过程，得到粗化后的图G_cn＝(V',E')；

步骤S3：所述邮件群组识别模块遍历所述粗化后的图G_cn中的所有边，根据Jaccard距离公式初始化所有边对应节点的距离；一条边存在三种不同类型的邻居，分别为直连邻居、共有邻居、专有邻居；根据这三种邻居对节点间距离的影响力，对所有边对应节点的距离进行多次迭代更新，得到节点间的距离趋于0或1；将距离为1的边切断，经过断边处理后，图结构中构成连通分支的节点属于同一群组，得到粗化图的群组划分C_cn；

步骤S4：所述反粗化模块根据节点映射关系，将原始邮件往来网络G中的被复合节点加入到复合节点所属的群组中，得到所述邮件往来网络G上的初始群组划分C；

步骤S5：所述重叠邮件群组划分模块，利用邮件往来网络上的初始群组划分C进行重叠邮件群组发现；根据节点标签变化所引起的局部重叠模块度增量大小，对距离为1的边所对应的节点进行群组归属判断，得到重叠群组集合C_over；

步骤S6：所述群组优化模块根据群组与群组间的紧密度，将所述重叠群组集合C_over中群组节点数少于设定阈值的群组合并到与其紧密度最大的群组中，得到最终的重叠群组集合C'；

步骤S7：所述输出模块输出最终邮件往来网络的群组划分结果C'。

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：读取邮件往来网络G＝(V,E,W)；

步骤S22：将所述邮件往来网络中的节点按度大小升序排序，将序列记为L_st；

步骤S23：针对每个节点v，初始化其标志位v.F＝-1；

步骤S24：从L_st中依次取出每个节点v；寻找由节点v构成的三角形；当构成三角形的三个顶点的标志位均小于2且其余两个节点的度小于v的度时，将三个节点粗化成一个复合节点v_cm，即用一个复合节点v_cm代替三角形的三个顶点；原先与三个顶点相连的边改为与v_cm相连，并合并两点间的重复边及边权；

步骤S25：当遍历完L_st中的所有节点后，即完成一层粗化，利用式(1)求出该层粗化的粗化率；

rate_coar＝(|G_m|-|G_m-1|)/|G| (1)

其中，G_m-1存储该层粗化前的图结构信息；G_m中存储粗化后

的图结构信息；

步骤S26：若rate_coar大于给定阈值，所述阈值范围为[0,1]，则重复步骤S21至S25；否则将G_m-1中的图结构信息存储至粗化后的图

G_cn＝(V',E')中。

进一步地，所述步骤S3具体包括以下步骤：

步骤S31：遍历粗化后的图G_cn的边集E'，基于Jaccard距离公式初始化所有边对应节点的距离的d(u,v)；Jaccard距离公式如下：

其中，Γ(·)表示包含节点自身的邻居集；

步骤S32：遍历粗化后的图G_cn的边集E'，将边记为e＝(u,v)，当0<d(u,v)<1时，依次求出该边的直连邻居、共有邻居、专有邻居的影响力DI、CI、EI；DI、CI、EI定义如下：

其中，f(·)为耦合函数，采用sin(·)函数；CN(u,v)为节点u，v的共同邻居集；EN(·)表示节点的专有邻居集，其定义如下：

EN(u)＝NB(u)-CN(u,v) (6)

步骤S33：令dist＝d(u,v)+DI+CI+EI；若dist≤0，则d(u,v)＝0；若0＜dist＜1，则d(u,v)＝dist；若dist≥1，则d(u,v)＝1；将距离更新至粗化后的图G_cn中；

步骤S34：当所有边对应节点的距离均为0或1，终止迭代过程；反之，重复步骤S32至步骤S34。

步骤S35：将粗化后的图G_cn中距离为1的边切断，经过断边处理后，粗化后的图G_cn中构成连通分支的节点属于同一群组，得到粗化图的群组划分G_cn。

进一步地，所述步骤S4具体包括以下步骤：

步骤S41：遍历粗化后的图G_cn的节点集V'，将节点记为v，将v覆盖的原始节点加入到v所属的群组中，更新群组划分Gcn；

步骤S42：遍历完成后，将群组划分G_cn中的群组信息存储至初始群组划分C。

进一步地，所述步骤S5具体包括以下步骤：

步骤S51：将所述邮件往来网络G中距离为1的边所对应的节点存入集合s中；

步骤S52：遍历s中的节点，即为i，求出节点i加入某一群组集，用以使局部重叠模块度增量ΔEQ达到最大；节点i加入某一群组集局部重叠模块度增量的定义如下：

其中，m表示邮件往来网络G中的边数；T_r表示节点u加入的某个群组，O_e表示节点e所属的群组个数；k_e表示节点e的度；A_ei用于表示节点e和节点i的连接情况；若两节点存在边，则A_ei取值为1，反之为0；

步骤S53：更新群组信息，得到重叠群组集合C_over。

进一步地，所述步骤S6具体包括以下步骤：

步骤S61：遍历所述重叠群组集合C_over中的节点数少于设定阈值的群组,记为C₁，计算该群组与其他群组的紧密度intimacy(C₁,C_k)；其中群组与群组的紧密度intimacy(C₁,C_k)的定义如下：

步骤S62：将C₁加入到紧密度最大的群组C_i中；

步骤S63：遍历完后，如果还存在节点数少于设定阈值的群组，则重复步骤S61至S63；反之，将最新的群组结构更新到重叠群组集合C_over中；

步骤S64：遍历完成后，将C_over中的群组信息存储至C'。

进一步地，所述步骤S7具体包括以下步骤：

步骤S71：将重叠群组集合C'中每个群组C_i'中的节点v_i,j写成行向量形式R_i＝(v_i,j)；

步骤S72：输出向量集{R_i}，0<i<p，p为群组个数，每行代表一个群组；群组重叠由行向量中包含的重复节点表示。

与现有技术相比，本发明有以下有益效果：

(1)本发明提出一种新的局部增量重叠模块度，并推导了其计算公式。新的模块度在很大程度上克服了传统模块度计算效率低的问题，并且有助于提高重叠群组发现的精度。

(2)本发明采用一种新的群组优化策略进行相似群组的合并，减少离群群组的数量，从而提高群组划分质量。因此能够有效地得到网络中重叠群组结构划分，并为网络聚类在重叠群组发现方向的发展提供有益补充。

附图说明

图1为本发明实施例的流程图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

如图1所示，本实施例提供了一种基于粗化与局部重叠模块度的邮件挖掘方法，提供一种系统，该系统包括邮件往来网络构建模块、网络粗化模块、邮件群组识别模块、反粗化模块、重叠邮件群组划分模块、群组优化模块和输出模块；该系统按如下步骤进行邮件挖掘：

步骤S6：所述群组优化模块根据群组与群组间的紧密度，将所述重叠群组集合C_over中群组节点数少于设定阈值即5的群组合并到与其紧密度最大的群组中，得到最终的重叠群组集合C'；

进一步地，所述步骤S2具体包括以下步骤：

步骤S21：读取邮件往来网络G＝(V,E,W)；

步骤S23：针对每个节点v，一般初始化其标志位v.F＝-1；

rate_coar＝(|G_m|-|G_m-1|)/|G| (1)

其中，G_m-1存储该层粗化前的图结构信息；G_m中存储粗化后的图结构信息；

步骤S26：若rate_coar大于给定阈值所述阈值范围为[0,1]，则重复步骤S21至S25；否则将G_m-1中的图结构信息存储至粗化后的图

G_cn＝(V',E')中。

进一步地，所述步骤S3具体包括以下步骤：

其中，Γ(·)表示包含节点自身的邻居集；

其中，f(·)为耦合函数，一般采用sin(·)函数；CN(u,v)为节点u，v的共同邻居集；EN(·)表示节点的专有邻居集，其定义如下：

EN(u)＝NB(u)-CN(u,v) (6)

在本实施例中，所述步骤S4具体包括以下步骤：

在本实施例中，所述步骤S5具体包括以下步骤：

步骤S53：更新群组信息，得到重叠群组集合C_over。

在本实施例中，所述步骤S6具体包括以下步骤：

步骤S62：将C₁加入到紧密度最大的群组C_i中；

步骤S64：遍历完成后，将C_over中的群组信息存储至C'。

在本实施例中，所述步骤S7具体包括以下步骤：

较佳的，本发明提出一种基于粗化与局部重叠模块度的邮件挖掘方法与系统，该系统挖掘邮件群组的时间复杂度近似线性，适用海量邮件信息的处理，并且能利用邮件往来网络的拓扑结构准确的识别网络中的群组。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于粗化与局部重叠模块度的邮件挖掘方法，其特征在于：提供一种系统，该系统包括邮件往来网络构建模块、网络粗化模块、邮件群组识别模块、反粗化模块、重叠邮件群组划分模块、群组优化模块和输出模块；该系统按如下步骤进行邮件挖掘：

2.根据权利要求1所述的一种基于粗化与局部重叠模块度的邮件挖掘方法，其特征在于：所述步骤S2具体包括以下步骤：

步骤S21：读取邮件往来网络G＝(V,E,W)；

步骤S23：针对每个节点v，初始化其标志位v.F＝-1；

rate_coar＝(|G_m|-|G_m-1|)/|G| (1)

步骤S26：若rate_coar大于给定阈值，所述阈值范围为[0,1]，则重复步骤S21至S25；否则将G_m-1中的图结构信息存储至粗化后的图G_cn＝(V',E')中。

3.根据权利要求1所述的一种基于粗化与局部重叠模块度的邮件挖掘方法，其特征在于：所述步骤S3具体包括以下步骤：

其中，Γ(·)表示包含节点自身的邻居集；

EN(u)＝NB(u)-CN(u,v) (6)

4.根据权利要求1所述的一种基于粗化与局部重叠模块度的邮件挖掘方法，其特征在于：所述步骤S4具体包括以下步骤：

步骤S41：遍历粗化后的图G_cn的节点集V'，将节点记为v，将v覆盖的原始节点加入到v所属的群组中，更新群组划分G_cn；

5.根据权利要求1所述的一种基于粗化与局部重叠模块度的邮件挖掘方法，其特征在于：所述步骤S5具体包括以下步骤：

步骤S53：更新群组信息，得到重叠群组集合C_over。

6.根据权利要求1所述的一种基于粗化与局部重叠模块度的邮件挖掘方法，其特征在于：所述步骤S6具体包括以下步骤：

步骤S62：将C₁加入到紧密度最大的群组C_i中；

步骤S64：遍历完成后，将C_over中的群组信息存储至C'。

7.根据权利要求1所述的一种基于粗化与局部重叠模块度的邮件挖掘方法，其特征在于：所述步骤S7具体包括以下步骤：