CN110275941A - 一种基于粗化与局部重叠模块度的邮件挖掘方法 - Google Patents

一种基于粗化与局部重叠模块度的邮件挖掘方法 Download PDF

Info

Publication number
CN110275941A
CN110275941A CN201910546136.5A CN201910546136A CN110275941A CN 110275941 A CN110275941 A CN 110275941A CN 201910546136 A CN201910546136 A CN 201910546136A CN 110275941 A CN110275941 A CN 110275941A
Authority
CN
China
Prior art keywords
group
node
mail
roughening
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910546136.5A
Other languages
English (en)
Inventor
郭昆
张鹏
郭文忠
陈羽中
项冰洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201910546136.5A priority Critical patent/CN110275941A/zh
Publication of CN110275941A publication Critical patent/CN110275941A/zh
Priority to PCT/CN2019/123582 priority patent/WO2020253150A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/42Mailbox-related aspects, e.g. synchronisation of mailboxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种基于粗化与局部重叠模块度的邮件挖掘方法,根据邮件头日志信息,构建邮件往来网络G;多次迭代遍历,将G中的三角形融合为一个复合节点,得到粗化后的图Gcn;根据Jaccard距离初始化Gcn中所有边对应节点的距离;迭代更新邻居节点间的距离直至所有距离收敛。距离小于1的节点属于同一群组,得到粗化图的群组划分Ccn;还原网络得到邮件往来网络的初始群组划分C;将距离为1的节点加入到使局部重叠模块度增量最大的群组集中得到重叠群组集合Cover;将Cover中群组节点数少于设定阈值的群组合并到与其紧密度最大的群组中,更新Cover最终得到邮件往来网络的群组划分C’输出最终的群组划分结果。本发明克服了传统模块度计算效率低的问题提高重叠群组发现的精度。

Description

一种基于粗化与局部重叠模块度的邮件挖掘方法
技术领域
本发明涉及大规模邮件网络上的重叠群组发现技术领域,特别是一种基于粗化与局部重叠模块度的邮件挖掘方法。
背景技术
随着技术的飞速发展,电子邮件成为了生活及工作中必不可少的工具。作为社交网络的重要通讯手段之一,其往来记录中隐含着错综复杂的社交关系。对邮件往来网络中的群组结构进行分析,能够更好地帮助研究人员挖掘邮件收发人之间的共同兴趣、职业等等,从而可以进行圈子推荐、好友推荐、精准广告投放以及定位可疑人群等。目前邮件挖掘相关研究及技术仍不太成熟,人们根据邮件中的不同数据进行不同的研究,如使用时间、邮件源地址等对系统做宏观统计,使用邮件正文对邮件进行分类,使用邮件收发关系的结构发现邮件群组和重要人物等。其中,关于利用邮件收发关系的结构发现邮件群组和重要人物的已有研究存在效率不高的问题,很难满足海量邮件信息处理的要求,并且大多数邮件挖掘系统需要结合多方面的数据,但由于邮件涉及个人隐私问题,收集的邮件语料库规模有限,所以对真实大规模邮件网络的挖掘还比较少,很难保证邮件群组识别的准确性。
发明内容
有鉴于此,本发明的目的是提出一种基于粗化与局部重叠模块度的邮件挖掘方法,可以高效、准确地对复杂网络的重叠结构进行划分。
本发明采用以下方案实现:一种基于粗化与局部重叠模块度的邮件挖掘方法,提供一种系统,该系统包括邮件往来网络构建模块、网络粗化模块、邮件群组识别模块、反粗化模块、重叠邮件群组划分模块、群组优化模块和输出模块;该系统按如下步骤进行邮件挖掘:
步骤S1:所述邮件往来网络构建模块获取系统中的邮件头日志信息构建邮件往来网络G:令邮件的发件人和收件人为节点,收发邮件的关系为边,邮件收发人之间的邮件往来频率为权重,构建用于划分群组结构的邮件往来网络G=(V,E,W),其中V表示节点集,E表示边集,W表示边的权重集;
步骤S2:所述网络粗化模块读取邮件往来网络G,按照节点的度从小到大的顺序遍历G中的三角形,将构成三角形的三个节点融合为一个复合节点,多次迭代遍历直至粗化率达到设定阈值,结束粗化过程,得到粗化后的图Gcn=(V',E');
步骤S3:所述邮件群组识别模块遍历所述粗化后的图Gcn中的所有边,根据Jaccard距离公式初始化所有边对应节点的距离;一条边存在三种不同类型的邻居,分别为直连邻居、共有邻居、专有邻居;根据这三种邻居对节点间距离的影响力,对所有边对应节点的距离进行多次迭代更新,得到节点间的距离趋于0或1;将距离为1的边切断,经过断边处理后,图结构中构成连通分支的节点属于同一群组,得到粗化图的群组划分Ccn
步骤S4:所述反粗化模块根据节点映射关系,将原始邮件往来网络G中的被复合节点加入到复合节点所属的群组中,得到所述邮件往来网络G上的初始群组划分C;
步骤S5:所述重叠邮件群组划分模块,利用邮件往来网络上的初始群组划分C进行重叠邮件群组发现;根据节点标签变化所引起的局部重叠模块度增量大小,对距离为1的边所对应的节点进行群组归属判断,得到重叠群组集合Cover
步骤S6:所述群组优化模块根据群组与群组间的紧密度,将所述重叠群组集合Cover中群组节点数少于设定阈值的群组合并到与其紧密度最大的群组中,得到最终的重叠群组集合C';
步骤S7:所述输出模块输出最终邮件往来网络的群组划分结果C'。
进一步地,所述步骤S2具体包括以下步骤:
步骤S21:读取邮件往来网络G=(V,E,W);
步骤S22:将所述邮件往来网络中的节点按度大小升序排序,将序列记为Lst
步骤S23:针对每个节点v,初始化其标志位v.F=-1;
步骤S24:从Lst中依次取出每个节点v;寻找由节点v构成的三角形;当构成三角形的三个顶点的标志位均小于2且其余两个节点的度小于v的度时,将三个节点粗化成一个复合节点vcm,即用一个复合节点vcm代替三角形的三个顶点;原先与三个顶点相连的边改为与vcm相连,并合并两点间的重复边及边权;
步骤S25:当遍历完Lst中的所有节点后,即完成一层粗化,利用式(1)求出该层粗化的粗化率;
ratecoar=(|Gm|-|Gm-1|)/|G| (1)
其中,Gm-1存储该层粗化前的图结构信息;Gm中存储粗化后
的图结构信息;
步骤S26:若ratecoar大于给定阈值,所述阈值范围为[0,1],则重复步骤S21至S25;否则将Gm-1中的图结构信息存储至粗化后的图
Gcn=(V',E')中。
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:遍历粗化后的图Gcn的边集E',基于Jaccard距离公式初始化所有边对应节点的距离的d(u,v);Jaccard距离公式如下:
其中,Γ(·)表示包含节点自身的邻居集;
步骤S32:遍历粗化后的图Gcn的边集E',将边记为e=(u,v),当0<d(u,v)<1时,依次求出该边的直连邻居、共有邻居、专有邻居的影响力DI、CI、EI;DI、CI、EI定义如下:
其中,f(·)为耦合函数,采用sin(·)函数;CN(u,v)为节点u,v的共同邻居集;EN(·)表示节点的专有邻居集,其定义如下:
EN(u)=NB(u)-CN(u,v) (6)
步骤S33:令dist=d(u,v)+DI+CI+EI;若dist≤0,则d(u,v)=0;若0<dist<1,则d(u,v)=dist;若dist≥1,则d(u,v)=1;将距离更新至粗化后的图Gcn中;
步骤S34:当所有边对应节点的距离均为0或1,终止迭代过程;反之,重复步骤S32至步骤S34。
步骤S35:将粗化后的图Gcn中距离为1的边切断,经过断边处理后,粗化后的图Gcn中构成连通分支的节点属于同一群组,得到粗化图的群组划分Gcn
进一步地,所述步骤S4具体包括以下步骤:
步骤S41:遍历粗化后的图Gcn的节点集V',将节点记为v,将v覆盖的原始节点加入到v所属的群组中,更新群组划分Gcn;
步骤S42:遍历完成后,将群组划分Gcn中的群组信息存储至初始群组划分C。
进一步地,所述步骤S5具体包括以下步骤:
步骤S51:将所述邮件往来网络G中距离为1的边所对应的节点存入集合s中;
步骤S52:遍历s中的节点,即为i,求出节点i加入某一群组集,用以使局部重叠模块度增量ΔEQ达到最大;节点i加入某一群组集局部重叠模块度增量的定义如下:
其中,m表示邮件往来网络G中的边数;Tr表示节点u加入的某个群组,Oe表示节点e所属的群组个数;ke表示节点e的度;Aei用于表示节点e和节点i的连接情况;若两节点存在边,则Aei取值为1,反之为0;
步骤S53:更新群组信息,得到重叠群组集合Cover
进一步地,所述步骤S6具体包括以下步骤:
步骤S61:遍历所述重叠群组集合Cover中的节点数少于设定阈值的群组,记为C1,计算该群组与其他群组的紧密度intimacy(C1,Ck);其中群组与群组的紧密度intimacy(C1,Ck)的定义如下:
步骤S62:将C1加入到紧密度最大的群组Ci中;
步骤S63:遍历完后,如果还存在节点数少于设定阈值的群组,则重复步骤S61至S63;反之,将最新的群组结构更新到重叠群组集合Cover中;
步骤S64:遍历完成后,将Cover中的群组信息存储至C'。
进一步地,所述步骤S7具体包括以下步骤:
步骤S71:将重叠群组集合C'中每个群组Ci'中的节点vi,j写成行向量形式Ri=(vi,j);
步骤S72:输出向量集{Ri},0<i<p,p为群组个数,每行代表一个群组;群组重叠由行向量中包含的重复节点表示。
与现有技术相比,本发明有以下有益效果:
(1)本发明提出一种新的局部增量重叠模块度,并推导了其计算公式。新的模块度在很大程度上克服了传统模块度计算效率低的问题,并且有助于提高重叠群组发现的精度。
(2)本发明采用一种新的群组优化策略进行相似群组的合并,减少离群群组的数量,从而提高群组划分质量。因此能够有效地得到网络中重叠群组结构划分,并为网络聚类在重叠群组发现方向的发展提供有益补充。
附图说明
图1为本发明实施例的流程图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图1所示,本实施例提供了一种基于粗化与局部重叠模块度的邮件挖掘方法,提供一种系统,该系统包括邮件往来网络构建模块、网络粗化模块、邮件群组识别模块、反粗化模块、重叠邮件群组划分模块、群组优化模块和输出模块;该系统按如下步骤进行邮件挖掘:
步骤S1:所述邮件往来网络构建模块获取系统中的邮件头日志信息构建邮件往来网络G:令邮件的发件人和收件人为节点,收发邮件的关系为边,邮件收发人之间的邮件往来频率为权重,构建用于划分群组结构的邮件往来网络G=(V,E,W),其中V表示节点集,E表示边集,W表示边的权重集;
步骤S2:所述网络粗化模块读取邮件往来网络G,按照节点的度从小到大的顺序遍历G中的三角形,将构成三角形的三个节点融合为一个复合节点,多次迭代遍历直至粗化率达到设定阈值,结束粗化过程,得到粗化后的图Gcn=(V',E');
步骤S3:所述邮件群组识别模块遍历所述粗化后的图Gcn中的所有边,根据Jaccard距离公式初始化所有边对应节点的距离;一条边存在三种不同类型的邻居,分别为直连邻居、共有邻居、专有邻居;根据这三种邻居对节点间距离的影响力,对所有边对应节点的距离进行多次迭代更新,得到节点间的距离趋于0或1;将距离为1的边切断,经过断边处理后,图结构中构成连通分支的节点属于同一群组,得到粗化图的群组划分Ccn
步骤S4:所述反粗化模块根据节点映射关系,将原始邮件往来网络G中的被复合节点加入到复合节点所属的群组中,得到所述邮件往来网络G上的初始群组划分C;
步骤S5:所述重叠邮件群组划分模块,利用邮件往来网络上的初始群组划分C进行重叠邮件群组发现;根据节点标签变化所引起的局部重叠模块度增量大小,对距离为1的边所对应的节点进行群组归属判断,得到重叠群组集合Cover
步骤S6:所述群组优化模块根据群组与群组间的紧密度,将所述重叠群组集合Cover中群组节点数少于设定阈值即5的群组合并到与其紧密度最大的群组中,得到最终的重叠群组集合C';
步骤S7:所述输出模块输出最终邮件往来网络的群组划分结果C'。
进一步地,所述步骤S2具体包括以下步骤:
步骤S21:读取邮件往来网络G=(V,E,W);
步骤S22:将所述邮件往来网络中的节点按度大小升序排序,将序列记为Lst
步骤S23:针对每个节点v,一般初始化其标志位v.F=-1;
步骤S24:从Lst中依次取出每个节点v;寻找由节点v构成的三角形;当构成三角形的三个顶点的标志位均小于2且其余两个节点的度小于v的度时,将三个节点粗化成一个复合节点vcm,即用一个复合节点vcm代替三角形的三个顶点;原先与三个顶点相连的边改为与vcm相连,并合并两点间的重复边及边权;
步骤S25:当遍历完Lst中的所有节点后,即完成一层粗化,利用式(1)求出该层粗化的粗化率;
ratecoar=(|Gm|-|Gm-1|)/|G| (1)
其中,Gm-1存储该层粗化前的图结构信息;Gm中存储粗化后的图结构信息;
步骤S26:若ratecoar大于给定阈值所述阈值范围为[0,1],则重复步骤S21至S25;否则将Gm-1中的图结构信息存储至粗化后的图
Gcn=(V',E')中。
进一步地,所述步骤S3具体包括以下步骤:
步骤S31:遍历粗化后的图Gcn的边集E',基于Jaccard距离公式初始化所有边对应节点的距离的d(u,v);Jaccard距离公式如下:
其中,Γ(·)表示包含节点自身的邻居集;
步骤S32:遍历粗化后的图Gcn的边集E',将边记为e=(u,v),当0<d(u,v)<1时,依次求出该边的直连邻居、共有邻居、专有邻居的影响力DI、CI、EI;DI、CI、EI定义如下:
其中,f(·)为耦合函数,一般采用sin(·)函数;CN(u,v)为节点u,v的共同邻居集;EN(·)表示节点的专有邻居集,其定义如下:
EN(u)=NB(u)-CN(u,v) (6)
步骤S33:令dist=d(u,v)+DI+CI+EI;若dist≤0,则d(u,v)=0;若0<dist<1,则d(u,v)=dist;若dist≥1,则d(u,v)=1;将距离更新至粗化后的图Gcn中;
步骤S34:当所有边对应节点的距离均为0或1,终止迭代过程;反之,重复步骤S32至步骤S34。
步骤S35:将粗化后的图Gcn中距离为1的边切断,经过断边处理后,粗化后的图Gcn中构成连通分支的节点属于同一群组,得到粗化图的群组划分Gcn
在本实施例中,所述步骤S4具体包括以下步骤:
步骤S41:遍历粗化后的图Gcn的节点集V',将节点记为v,将v覆盖的原始节点加入到v所属的群组中,更新群组划分Gcn;
步骤S42:遍历完成后,将群组划分Gcn中的群组信息存储至初始群组划分C。
在本实施例中,所述步骤S5具体包括以下步骤:
步骤S51:将所述邮件往来网络G中距离为1的边所对应的节点存入集合s中;
步骤S52:遍历s中的节点,即为i,求出节点i加入某一群组集,用以使局部重叠模块度增量ΔEQ达到最大;节点i加入某一群组集局部重叠模块度增量的定义如下:
其中,m表示邮件往来网络G中的边数;Tr表示节点u加入的某个群组,Oe表示节点e所属的群组个数;ke表示节点e的度;Aei用于表示节点e和节点i的连接情况;若两节点存在边,则Aei取值为1,反之为0;
步骤S53:更新群组信息,得到重叠群组集合Cover
在本实施例中,所述步骤S6具体包括以下步骤:
步骤S61:遍历所述重叠群组集合Cover中的节点数少于设定阈值的群组,记为C1,计算该群组与其他群组的紧密度intimacy(C1,Ck);其中群组与群组的紧密度intimacy(C1,Ck)的定义如下:
步骤S62:将C1加入到紧密度最大的群组Ci中;
步骤S63:遍历完后,如果还存在节点数少于设定阈值的群组,则重复步骤S61至S63;反之,将最新的群组结构更新到重叠群组集合Cover中;
步骤S64:遍历完成后,将Cover中的群组信息存储至C'。
在本实施例中,所述步骤S7具体包括以下步骤:
步骤S71:将重叠群组集合C'中每个群组Ci'中的节点vi,j写成行向量形式Ri=(vi,j);
步骤S72:输出向量集{Ri},0<i<p,p为群组个数,每行代表一个群组;群组重叠由行向量中包含的重复节点表示。
较佳的,本发明提出一种基于粗化与局部重叠模块度的邮件挖掘方法与系统,该系统挖掘邮件群组的时间复杂度近似线性,适用海量邮件信息的处理,并且能利用邮件往来网络的拓扑结构准确的识别网络中的群组。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (7)

1.一种基于粗化与局部重叠模块度的邮件挖掘方法,其特征在于:提供一种系统,该系统包括邮件往来网络构建模块、网络粗化模块、邮件群组识别模块、反粗化模块、重叠邮件群组划分模块、群组优化模块和输出模块;该系统按如下步骤进行邮件挖掘:
步骤S1:所述邮件往来网络构建模块获取系统中的邮件头日志信息构建邮件往来网络G:令邮件的发件人和收件人为节点,收发邮件的关系为边,邮件收发人之间的邮件往来频率为权重,构建用于划分群组结构的邮件往来网络G=(V,E,W),其中V表示节点集,E表示边集,W表示边的权重集;
步骤S2:所述网络粗化模块读取邮件往来网络G,按照节点的度从小到大的顺序遍历G中的三角形,将构成三角形的三个节点融合为一个复合节点,多次迭代遍历直至粗化率达到设定阈值,结束粗化过程,得到粗化后的图Gcn=(V',E');
步骤S3:所述邮件群组识别模块遍历所述粗化后的图Gcn中的所有边,根据Jaccard距离公式初始化所有边对应节点的距离;一条边存在三种不同类型的邻居,分别为直连邻居、共有邻居、专有邻居;根据这三种邻居对节点间距离的影响力,对所有边对应节点的距离进行多次迭代更新,得到节点间的距离趋于0或1;将距离为1的边切断,经过断边处理后,图结构中构成连通分支的节点属于同一群组,得到粗化图的群组划分Ccn
步骤S4:所述反粗化模块根据节点映射关系,将原始邮件往来网络G中的被复合节点加入到复合节点所属的群组中,得到所述邮件往来网络G上的初始群组划分C;
步骤S5:所述重叠邮件群组划分模块,利用邮件往来网络上的初始群组划分C进行重叠邮件群组发现;根据节点标签变化所引起的局部重叠模块度增量大小,对距离为1的边所对应的节点进行群组归属判断,得到重叠群组集合Cover
步骤S6:所述群组优化模块根据群组与群组间的紧密度,将所述重叠群组集合Cover中群组节点数少于设定阈值的群组合并到与其紧密度最大的群组中,得到最终的重叠群组集合C';
步骤S7:所述输出模块输出最终邮件往来网络的群组划分结果C'。
2.根据权利要求1所述的一种基于粗化与局部重叠模块度的邮件挖掘方法,其特征在于:所述步骤S2具体包括以下步骤:
步骤S21:读取邮件往来网络G=(V,E,W);
步骤S22:将所述邮件往来网络中的节点按度大小升序排序,将序列记为Lst
步骤S23:针对每个节点v,初始化其标志位v.F=-1;
步骤S24:从Lst中依次取出每个节点v;寻找由节点v构成的三角形;当构成三角形的三个顶点的标志位均小于2且其余两个节点的度小于v的度时,将三个节点粗化成一个复合节点vcm,即用一个复合节点vcm代替三角形的三个顶点;原先与三个顶点相连的边改为与vcm相连,并合并两点间的重复边及边权;
步骤S25:当遍历完Lst中的所有节点后,即完成一层粗化,利用式(1)求出该层粗化的粗化率;
ratecoar=(|Gm|-|Gm-1|)/|G| (1)
其中,Gm-1存储该层粗化前的图结构信息;Gm中存储粗化后的图结构信息;
步骤S26:若ratecoar大于给定阈值,所述阈值范围为[0,1],则重复步骤S21至S25;否则将Gm-1中的图结构信息存储至粗化后的图Gcn=(V',E')中。
3.根据权利要求1所述的一种基于粗化与局部重叠模块度的邮件挖掘方法,其特征在于:所述步骤S3具体包括以下步骤:
步骤S31:遍历粗化后的图Gcn的边集E',基于Jaccard距离公式初始化所有边对应节点的距离的d(u,v);Jaccard距离公式如下:
其中,Γ(·)表示包含节点自身的邻居集;
步骤S32:遍历粗化后的图Gcn的边集E',将边记为e=(u,v),当0<d(u,v)<1时,依次求出该边的直连邻居、共有邻居、专有邻居的影响力DI、CI、EI;DI、CI、EI定义如下:
其中,f(·)为耦合函数,采用sin(·)函数;CN(u,v)为节点u,v的共同邻居集;EN(·)表示节点的专有邻居集,其定义如下:
EN(u)=NB(u)-CN(u,v) (6)
步骤S33:令dist=d(u,v)+DI+CI+EI;若dist≤0,则d(u,v)=0;若0<dist<1,则d(u,v)=dist;若dist≥1,则d(u,v)=1;将距离更新至粗化后的图Gcn中;
步骤S34:当所有边对应节点的距离均为0或1,终止迭代过程;反之,重复步骤S32至步骤S34。
步骤S35:将粗化后的图Gcn中距离为1的边切断,经过断边处理后,粗化后的图Gcn中构成连通分支的节点属于同一群组,得到粗化图的群组划分Gcn
4.根据权利要求1所述的一种基于粗化与局部重叠模块度的邮件挖掘方法,其特征在于:所述步骤S4具体包括以下步骤:
步骤S41:遍历粗化后的图Gcn的节点集V',将节点记为v,将v覆盖的原始节点加入到v所属的群组中,更新群组划分Gcn
步骤S42:遍历完成后,将群组划分Gcn中的群组信息存储至初始群组划分C。
5.根据权利要求1所述的一种基于粗化与局部重叠模块度的邮件挖掘方法,其特征在于:所述步骤S5具体包括以下步骤:
步骤S51:将所述邮件往来网络G中距离为1的边所对应的节点存入集合s中;
步骤S52:遍历s中的节点,即为i,求出节点i加入某一群组集,用以使局部重叠模块度增量ΔEQ达到最大;节点i加入某一群组集局部重叠模块度增量的定义如下:
其中,m表示邮件往来网络G中的边数;Tr表示节点u加入的某个群组,Oe表示节点e所属的群组个数;ke表示节点e的度;Aei用于表示节点e和节点i的连接情况;若两节点存在边,则Aei取值为1,反之为0;
步骤S53:更新群组信息,得到重叠群组集合Cover
6.根据权利要求1所述的一种基于粗化与局部重叠模块度的邮件挖掘方法,其特征在于:所述步骤S6具体包括以下步骤:
步骤S61:遍历所述重叠群组集合Cover中的节点数少于设定阈值的群组,记为C1,计算该群组与其他群组的紧密度intimacy(C1,Ck);其中群组与群组的紧密度intimacy(C1,Ck)的定义如下:
步骤S62:将C1加入到紧密度最大的群组Ci中;
步骤S63:遍历完后,如果还存在节点数少于设定阈值的群组,则重复步骤S61至S63;反之,将最新的群组结构更新到重叠群组集合Cover中;
步骤S64:遍历完成后,将Cover中的群组信息存储至C'。
7.根据权利要求1所述的一种基于粗化与局部重叠模块度的邮件挖掘方法,其特征在于:所述步骤S7具体包括以下步骤:
步骤S71:将重叠群组集合C'中每个群组Ci'中的节点vi,j写成行向量形式Ri=(vi,j);
步骤S72:输出向量集{Ri},0<i<p,p为群组个数,每行代表一个群组;群组重叠由行向量中包含的重复节点表示。
CN201910546136.5A 2019-06-21 2019-06-21 一种基于粗化与局部重叠模块度的邮件挖掘方法 Pending CN110275941A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910546136.5A CN110275941A (zh) 2019-06-21 2019-06-21 一种基于粗化与局部重叠模块度的邮件挖掘方法
PCT/CN2019/123582 WO2020253150A1 (zh) 2019-06-21 2019-12-06 一种基于粗化与局部重叠模块度的邮件挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910546136.5A CN110275941A (zh) 2019-06-21 2019-06-21 一种基于粗化与局部重叠模块度的邮件挖掘方法

Publications (1)

Publication Number Publication Date
CN110275941A true CN110275941A (zh) 2019-09-24

Family

ID=67961544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910546136.5A Pending CN110275941A (zh) 2019-06-21 2019-06-21 一种基于粗化与局部重叠模块度的邮件挖掘方法

Country Status (2)

Country Link
CN (1) CN110275941A (zh)
WO (1) WO2020253150A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020253150A1 (zh) * 2019-06-21 2020-12-24 福州大学 一种基于粗化与局部重叠模块度的邮件挖掘方法
CN113094598A (zh) * 2021-05-08 2021-07-09 福州大学 基于联邦团渗透的视频推荐方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018219223A1 (zh) * 2017-05-31 2018-12-06 腾讯科技(深圳)有限公司 数据处理方法、装置及存储介质
CN109003195A (zh) * 2018-07-12 2018-12-14 福州大学 基于三角形粗化与动态距离的重叠社区发现方法
CN109345403A (zh) * 2018-09-04 2019-02-15 河海大学 一种基于局部模块度的层次重叠社区发现方法
CN109815414A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于多层网络社团划分的社交网络人物关系分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275941A (zh) * 2019-06-21 2019-09-24 福州大学 一种基于粗化与局部重叠模块度的邮件挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018219223A1 (zh) * 2017-05-31 2018-12-06 腾讯科技(深圳)有限公司 数据处理方法、装置及存储介质
CN109003195A (zh) * 2018-07-12 2018-12-14 福州大学 基于三角形粗化与动态距离的重叠社区发现方法
CN109345403A (zh) * 2018-09-04 2019-02-15 河海大学 一种基于局部模块度的层次重叠社区发现方法
CN109815414A (zh) * 2019-01-23 2019-05-28 四川易诚智讯科技有限公司 基于多层网络社团划分的社交网络人物关系分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARCUS W FELDMAN等: ""An Algorithm for Detecting Community Structure of Social Networks Based on Prior Knowledge and Modularity"", 《COMPLEXITY》 *
隆华,李宝安: ""基于重叠度与模块度增量的复杂网络社区识别"", 《计算机应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020253150A1 (zh) * 2019-06-21 2020-12-24 福州大学 一种基于粗化与局部重叠模块度的邮件挖掘方法
CN113094598A (zh) * 2021-05-08 2021-07-09 福州大学 基于联邦团渗透的视频推荐方法及系统
CN113094598B (zh) * 2021-05-08 2022-06-07 福州大学 基于联邦团渗透的视频推荐方法及系统

Also Published As

Publication number Publication date
WO2020253150A1 (zh) 2020-12-24

Similar Documents

Publication Publication Date Title
CN109902863B (zh) 一种基于多因素时空相关性的风速预测方法及装置
CN103379158B (zh) 一种社交网络中推荐好友信息的方法及系统
CN102347917B (zh) 用于网络消息通信的联系人语义分组方法
CN101482876B (zh) 基于权重的链接多属性的实体识别方法
CN110275941A (zh) 一种基于粗化与局部重叠模块度的邮件挖掘方法
CN106779203B (zh) 一种基于不同风速段的高原山区风电功率预测方法
Froese et al. The border k-means clustering algorithm for one dimensional data
Velasco Minimal free resolutions that are not supported by a CW-complex
CN102810113A (zh) 一种针对复杂网络的混合型聚类方法
CN110457771B (zh) 一种基于高程偏差传递的dem水流方向计算方法
CN107786388A (zh) 一种基于大规模网络流数据的异常检测系统
CN107169871B (zh) 一种基于关系组合优化和种子扩张的多关系社区发现方法
CN108765180A (zh) 基于影响力与种子扩展的重叠社区发现方法
CN103838820A (zh) 基于近邻传播的进化多目标优化社区检测方法
CN104700311B (zh) 一种社会网络中的邻域跟随社区发现方法
CN114882335A (zh) 基于联邦学习框架面向感算云一体化的智能图像传感装置
CN113139595A (zh) 一种基于角度和方向聚类的过采样方法
Wen et al. Cooperative data collection mechanism using multiple mobile sinks in wireless sensor networks
CN103744933A (zh) 一种基于并行化模块度优化的社区发现方法
Yang et al. Modified whale optimization algorithm for multi-type combine harvesters scheduling
Zhang et al. Deep reinforcement learning-based adaptive modulation for underwater acoustic communication with outdated channel state information
CN110442800A (zh) 一种融合节点属性和图结构的半监督社区发现方法
CN112484733B (zh) 一种基于拓扑图的强化学习室内导航方法
CN113033878B (zh) 基于多拓扑分级协同粒子群lstm的滑坡位移预测方法
CN103902547A (zh) 一种基于mdl的增量式动态社区快速发现方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190924

RJ01 Rejection of invention patent application after publication