CN111899117A - 应用于社交网络的k边连通分量挖掘系统及挖掘方法 - Google Patents

应用于社交网络的k边连通分量挖掘系统及挖掘方法 Download PDF

Info

Publication number
CN111899117A
CN111899117A CN202010747667.3A CN202010747667A CN111899117A CN 111899117 A CN111899117 A CN 111899117A CN 202010747667 A CN202010747667 A CN 202010747667A CN 111899117 A CN111899117 A CN 111899117A
Authority
CN
China
Prior art keywords
node
nodes
graph
module
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010747667.3A
Other languages
English (en)
Inventor
余婷
张吉
许增辉
杨羿
王一张
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202010747667.3A priority Critical patent/CN111899117A/zh
Publication of CN111899117A publication Critical patent/CN111899117A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种应用于社交网络的基于局部边连接度检测的k边连通分量挖掘系统,其包括层次化图分割计算模组、遍历排序模组、图分割模组、局部边连接度检测模组、节点合并模组及子图剪枝模组。所述层次化图分割计算模组维护一超节点索引。所述遍历排序模组初始化一节点序列,并遍历目标图的节点。所述图分割模组根据节点序列的排序状态分割目标图或子图。所述局部边连接度检测模组检测当前局部子图的k核结构的边连接度值。所述节点合并模组根据所述边连接度值的检测结果确认是否合并节点。所述子图剪枝模组根据所述节点合并模组的计算结果进行子图删除剪枝操作。同时,本发明还提供一种采用上述挖掘系统的挖掘方法。

Description

应用于社交网络的k边连通分量挖掘系统及挖掘方法
技术领域
本发明涉及社交网络技术领域,特别的,涉及一种应用于社交网 络的基于局部边连接度检测的k边连通分量挖掘系统及挖掘方法。
背景技术
计算机科学中的图是一种适用范围广泛的抽象数据结构。现实世 界中的许多复杂关系都能够用图来表示,如蛋白质的分子结构,社交 网络,电路布线等,与图相关的应用涉及了很多领域。新兴的社交网 络技术分析、语义Web技术分析等同样采用图的数据结构方式来解 决多个实体之间的复杂关系。
随着大数据化的发展趋势,社交网络技术的应用越来越广泛。社 交网络往往需要对多个实体之间的关联关系进行精确分析,如微博、 微信朋友圈、ResearchGate学术网络等领域,以用户作为实体及实体 之间的相互关系作为关联度,从计算机科学的抽象数据结构角度来表 征,定义社交网络技术中的每个节点对应一用户,所述节点之间的边 对应用户之间的连接关系,所述边的两端分别对应二节点,通过分析 所述节点与所述边之间的复杂关系可以描述出一个社交网络的结构 特征。
复杂社交网络中“社区结构特性”是指复杂网络中存在着“同一 社区的节点相互连接紧密、而不同社区之间的节点相互连接稀疏”的 特点。随着应用领域的不断扩展和发展,社区结构有了不同的新内涵: 社交网络中的社区代表了具有某些相近特征的人群,所谓社区是指局 部聚集的用户小群体,用稠密子图来表示局部聚集用户(社区),其 中衡量用户局部聚集度的重要指标是子图的边连接度,定义k边连通 分量为关联度不小于k的、极大的局部聚集用户群体,即:社区,在 该社区中断开用户对之间的任意k-1条关系,社区中的用户仍然可以 通过至少一条关系路径找到另一个用户。k边连通分量挖掘的目的就 是要探测并揭示出复杂网络中固有的社区结构,该问题的研究具有十 分重要的理论及现实意义,而且已经被广泛应用。
根据现有的图论理论研究,给出以下定义和定理:
给定一个无向图G=(V,E),其中V为节点集合,E为边集合,所 述边集合E是节点集合V中元素构成的无序二元组的集合。
节点合并:给定两个节点v,u∈V,则ev,u∈E代表图G中存在连 接v和u的边。若节点集
Figure BDA0002606848420000021
针对S中的节点执行合并操作,即 构造一个超节点vS,对于连接所述节点集S内节点和节点集S外节 点的边
Figure BDA0002606848420000022
用超节点vS替换节点v,将所述节点集S内 部的节点{v|v∈S}和边{ev,u|v∈S,u∈S}全部删除。
最小割(min cut):假设节点集SYT=V,
Figure BDA0002606848420000023
则C=(S,T) 表示连接S中节点和T中节点的边的集合,为一个割。图G的所有 割中,权重最小的那个即为最小割。
最小s-t割(min s-t cut):给定两个节点s,t∈V,如果一个割 Cs,t=(S,T),其中s∈S,t∈T,则Cs,t是一个s-t割。在所有的s-t割中, 权重最小的那个被称为最小s-t割。
最大s-t流(max s-t flow):给定两个节点s,t∈V,每条边有指 定的容量,从s到t最大容量的通路即为最大s-t流。
最大流最小割定理:给定两个节点s,t∈V,最小s-t割与最大s-t 流相等。
k核:满足任意一个节点的度数不小于k的子图。
k核引理:一个k边连接子图一定是一个k核,反之则不一定成 立。
k核连通分量(k-core component),如果一个子图的每个节点的 度数都不小于k,即表示该子图是k核。如果一个k核不被别的k核 包含,则是一个k核连通分量。
k边连接分量(k-edge connected component):如果一个子图的 最小割为k,即表示该子图是k边连接的。如果一个k边连接的子图 不被别的k边连接的子图包含,则是一个k边连接分量。
现有技术中有基于节点合并与图分割框架,采用最大邻接搜索 (MaximumAdjacency Search,MAS)排序策略对目标图的节点集合 进行遍历排序。所述MAS排序策略工作原理为:给定一个无向图 G=(V,E),所述无向图G维持一设定的节点序列,初始从节点集合V 中任意选择一节点加入所述设定的节点序列L,随后每一次都在剩余 的节点集合V-L中选择与当前节点序列L的边连接度最大的节点加 入L的队尾,直到所有剩余的节点都加入所述节点序列L中。
根据现有的MAS理论研究可知以下定理和推论:
MAS定理:采用MAS排序策略生成的节点序列最后两个节点s 和t的全局最小s-t割即为t与其他节点的割C(V\{t},{t})。
MAS推论:采用MAS排序策略生成节点序列L的过程中,如 果新加入的节点t与节点序列L的连接度为x,则t与当前L中最后 一个节点s的全局最小s-t割即为x。
在上述实施方式中,现有技术采用MAS排序策略对目标图的节 点进行遍历排序,从中挖掘出最小割小于k的s-t节点对(下称“s-t 节点对”),将所述s-t节点对当作属于同一k边连通分量的节点进 行合并。但是在某些情况下,所述s-t节点对并不属于同一个k边连 通分量,因此,直接合并所述s-t节点对会导致错误的计算结果。
请结合参阅图1及图2,其中图1是现有技术一种目标图结构示 意图,图2是对图1所示目标图结构进行遍历排序原理示意图。在所 述目标图中,设置k=3,则所述目标图中只有一个k边连通分量 {b,g,h,i}。采用MAS排序策略生成的节点序列L={a,b,c,d,e,f,g,h,i}, 虽然根据MAS推论e和f是全局s-t割等于3的节点对,即e和f是 s-t节点对,但是e和f并不属于任何一个k边连通分量。而现有技术 中采用DecB-LMSD方法在第一次遍历构造节点序列L的时,根据 MAS推论判断e与f为s-t节点对之后便合并e与f,导致产生错误 的结果。
此外,现有技术在任何一次最大邻接搜索的遍历中,一定会产生 子图分割或者节点合并两种情况中的至少一种。例如,提供包含多个 节点的目标图,当MAS排序策略遍历到目标图的最后一个节点t时, 如果节点t与前面的节点序列L的连接度小于k,则节点t与L会被 分割为二子图,否则节点t与当前节点序列L的连接度大于等于k, 则节点t将会与当前L中的最后一个节点s合并,生成新的节点序列, 所述新的节点序列包括节点t。因此,现有技术中的k边连通分量挖 掘方法需要将目标图分割到最小粒度,也就是说,分割树的每个叶子 节点要么是一个k边连通分量,要么是一个单节点,当不满足k边连 通分量,或单节点条件的子图,会循环持续分割运算下去,如此导致 构造分割树的计算量较大。对于不属于任何k边连通分量的节点构成 的子图,现有技术缺乏有效的剪枝条件将其提前删除。
在图1所示的目标图中,设置k=3,则节点集合{b,g,h,i}是一个k 边连通分量。然而在DecB-LMSD方法构造的过程中每一轮遍历过程 中,只合并一个新的节点,该四节点{b,g,h,i}的k边连通分量经过3 轮遍历才完全合并。可见,现有技术的上述挖掘k边连通分量的方法 中,每一次遍历只能合并k边连通分量的一部分,一个k边连通分量 要经过多轮遍历才能完全合并,计算的效率比较低。
针对上述缺陷,本发明提供一种应用于社交网络,兼具效率和高 正确率的近似k边连通分量挖掘算法,所述算法能够在较短的迭代次 数内收敛。
发明内容
本发明目的在于提供一种应用于社交网络快速和高正确率的基 于局部边连接度检测的k边连通分量挖掘系统。
同时,还提供一种采用上述基于局部边连接度检测的k边连通分 量挖掘系统的k边连通分量挖掘方法。
一种应用于社交网络的基于局部边连接度检测的k边连通分量 挖掘系统,其包括遍历排序模组、图分割模组、局部边连接度检测模 组、节点合并模组及图子图剪枝模组。所述遍历排序模组内初始化一 节点序列,接收包括多个节点的目标图,并采用MAS排序策略遍历 所述目标图的多个节点以构造新的节点序列。所述图分割模组根据所 述遍历排序模组构造的节点序列的排序状态与设定的边连接度值之 间的关系确认是否分割目标图以获得分割后对的子图。所述局部边连 接度检测模组自局部目标图中抽取k核结构进行检测,并根据检测结 果判断所述k核结构的边连接度值。所述节点合并模组根据所述局部 边连接度检测模组的检测结果与设定边连接度值之间的关系确认是 否合并节点。
进一步的,所述挖掘系统还包括用以维护一超节点索引的层次化 图分割计算模组。
进一步的,所述遍历排序模型采用基于语义感知的MAS排序策 略遍历所述目标图的节点,并构造新的节点序列。
进一步的,还包括子图剪枝模组,所述子图剪枝模组根据所述节 点合并模组的计算结果来确认是否进行子图删除剪枝操作。
一种应用于社交网络的基于局部边连接度检测的k边连通分量 挖掘方法,其包括如下步骤:提供遍历排序模组,所述遍历排序模组 初始化一节点序列;接收包括多个节点的目标图,所述遍历排序模组 采用基于语义感知的MAS排序策略遍历所述目标图的节点,并构造 一新的节点序列;提供图分割模组,所述图分割模组根据所述遍历排 序模组构造的节点序列的排序状态执行图分割操作;提供局部k边连 接度检测模组,对所述目标图进行局部边连接度检测;提供节点合并 模组,所述节点合并模组根据所述局部k边连接度检测模组的检测结 果执行节点合并操作,获得子图集合。
进一步的,在通过遍历排序模组遍历前还包括如下步骤:提供层 次化图分割计算模组,所述层次化图分割计算模组维护一超节点索 引。
进一步的,当对节点执行合并操作后,还包括对目标图中的所述 子图进行剪枝筛选步骤。
进一步的,采用基于语义感知的最大邻接搜索排序策略构造节点 序列步骤中,还包括如下步骤:初始化一空的节点序列;依次在未排 序的节点中选择一与初始化节点序列节点集合的连接度最大的节点 排在节点序列的队尾,当未排序的节点中有多个节点与已生成的节点 序列具有相同的最大边连接度,则采用“最近更新的候选节点优先选 择”的原则来选择下一顺位的节点。
进一步的,当构造节点序列时,对于每一被选择后将加入所述节 点序列的节点,计算该节点与其加入之前的当前节点序列的边连接度 值,判断该连接度值与设定值k的关系,当所述连接度值大于或等于 所述设定值k,则执行局部边连接度检测操作以对该节点与其之前节 点的边连接度进行检测。
进一步的,当连续的多个节点与其之前节点序列的边连接度值大 于或等于设定值k,则仅在所述连续节点中的最后一个节点加入节点 序列时执行局部边连接度检测操作。
进一步的,当执行局部边连接度检测操作时,包括如下步骤:
定义局部子图:定义最新加入节点序列的节点作为t节点,将所 述t节点及其之前节点构成的连通分量作为当前局部子图;
抽取k核结构获得s-t节点对:从所述当前局部子图中抽取包含 t节点的k核结构,如果所述k核结构为空,则结束局部边连接度检 测操作,如果所述k核结构不为空,则在k核结构中选择与t节点距 离最远的节点作为s节点,获得s-t节点对;
计算最小s-t割:计算最大s-t流得到所述k核结构的最小s-t割;
合并节点:判断该最小s-t割值与设定值的关系,如果该最小s-t 割值大于等于设定值,则在所述目标图中合并所述k核结构中的所有 节点,并在所述超节点索引中记录被合并的超节点及对应的原始节 点,然后结束局部边连接度检测操作;如果该最小s-t割值小于设定 值,则通过删除所述最小s-t割包含的边将所述k核结构分割为二子 图,将二子图中包含t节点的子图作为当前局部子图,继续执行抽取 k核结构及计算k核结构的最小s-t割。
进一步的,当选择所述最远s节点时,分别采用层次路径搜索策 略和语义感知的最大邻接搜索排序策略获得两个s节点,对于两个s 节点,分别计算其与t节点的最大s-t流,其中较小的最大s-t流值作 为所述k核的最小s-t割。
进一步的,在构造节点序列时,每次加入一个节点到所述节点序 列队尾后,计算已排序的节点组成的集合与未排序节点组成的集合之 间的边连接度,判断所述连接度与设定值k之间的关系,当所述连接 度小于所述设定值,则通过删除所述两个集合之间相连的边来分割所 述目标图。
进一步的,所述剪枝筛选方法首先判断所述子图中的节点数量或 超节点数量,如果该数量为1,则所述子图应被剪枝,然后判断在本 轮遍历访问过程中所述子图中是否有节点合并的情况,如果本轮无节 点合并,则所述子图应被剪枝。
进一步的,如果输出的剩余图不为空,则将该图作为目标图输入 层次化图分割计算模组中进行新一轮计算;当所述目标图为空时,所 述超节点索引中记录的即为k边连通分量计算结果,基于局部边连接 度检测的k边连通分量挖掘算法停止。
与相关技术相比,本发明提供的基于局部边连接度检测的k边连 通分量挖掘方法中,有如下有益效果:
首先,在本发明的k边连通分量挖掘系统中,增加设置所述局部 边连接度检测模组,在对全局k连接度的s-t节点对进行合并之前抽 取局部的k核结构并检测其中的边连接度,从而提高了合并结果的正 确率。
其次,在采取局部边连接度检测计算时,采用计算最小s-t割的 方式来替代计算k核最小割,因此减少局部边连接度检测的时间。通 过层次路径搜索及最大邻接搜索的方式选择s节点并分别计算最小 s-t割,上述两种可行的s点搜索策略使得计算出的最小s-t割即为k 核最小割的概率提高,因此提高了局部边连接度检测的准确性。当计 算最小s-t割时,根据最大流最小割定理采用最大s-t流算法来代替最 小s-t割的计算,提高算法速度。
进一步的,当采用所述挖掘方法挖掘k边连接子图时,根据k核 引理,当连续的若干个k连接度节点的最后一个加入L中时,从L 中抽取含有最后一个节点的k核,检测k核结构的局部边连接度。在 构造新的节点序列时,如果连续若干个连接度大于k的节点加入L,则在最后一个加入时采取局部k边连接度检测计算,如果k核结构的 边连接度大于等于k,则采用最大化合并的策略将所有节点一次性全 部合并,减少了局部k边连接度检测与合并的次数,提高计算效率。
更重要的是,基于连接度检测的结果,提出了有效的分割树剪枝 策略,在层次化分解的过程中将判定不属于任何k边连接分量的节点 和边提前删除,使得算法减少大量不必要的计算量,在较短的迭代次 数内收敛。
附图说明
图1是现有技术一种目标图结构示意图;
图2是现有方法对图1所示目标图进行遍历示意图;
图3是本发明一种基于局部边连接度检测的k边连通分量挖掘系 统结构示意图;
图4是采用图3所示基于局部边连接度检测的k边连通分量挖掘 系统的流程框图;
图5是是图4所示k边连通分量挖掘系统进行k边连通分量挖掘 的方法流程示意图;
图6是本发明一种带头部索引的队列数据结构来管理候选节点 及其与L的连接度值;及
图7是采用局部边连接度检测模组对局部边连接度检测方法流 程示意图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显 然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施 例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性 劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
所述基于局部边连接度检测的k边连通分量的挖掘系统和挖掘 方法旨在实现对社交网络中不同稠密程度的局部聚集用户群体之间 的关联度进行检测及挖掘,以微博、微信朋友圈为例,设定社交网络 抽象为计算机中的图,其中“图”为一种抽象数据结构;定义社交网 络中的用户抽象为“节点”;定义不同用户之间的关联关系或者互动 关系抽象为“节点”之间的“边”;定义具有一定关联度的用户群体 为“子图”,所述抽象数据结构是一图的集合,其包括多个子图和或 单节点;设定关联度参数值为“k”,则k值代表局部聚集程度的子 图的边连接度,具体而言,所述k边连通分量代表的是一个关联度不 小于k值的局部用户群体,于该子图中,当断开所述用户对之间的任 意k-1条边关系,则所述局部群体用户中的用户仍然可以通过至少一 条关系路径找到另一个用户,k值越大,所述局部群体用户中的用户 关联度越高。
在本发明中,取无向目标图为G=(V,E),其中V为节点集合,E 为边集合,所述节点集合V包括多个节点{v1,v2,...,vn},其中n为节点 的数量。在所述目标图G中,可能存在多个边连接度不小于k值的 连通分量,通过基于局部边连接度检测的k边连通分量挖掘系统通过 k边连通分量挖掘方法实现对边连接度不小于k值连通分量的挖掘, 快速发现局部聚集的用户群体,进而辅助广告投放、兴趣推荐、影响 力社区挖掘等商业行为。
请参阅图3,是本发明一种基于局部边连接度检测的k边连通分 量挖掘系统的结构框图。在本发明基于局部边连接度检测的k边连通 分量挖掘系统及挖掘方法中,采用语义感知的最大邻接搜索 (Maximum Adjacency Search,MAS)排序策略对目标图G检测挖掘k边连通分量。所述k边连通分量挖掘系统20是应用于社交网络的 基于局部边连接度检测的k边连通分量的挖掘系统,其对所述目标图 G进行局部边连接度检测以挖掘k边连通分量。
所述k边连通分量挖掘系统20包括层次化图分割计算模组21、 遍历排序模组23、图分割模组24、局部边连接度检测模组25、节点 合并模组27及子图剪枝模组29。
所述层次化图分割计算模组21维护一超节点索引。当所述k边 连通分量挖掘系统20工作时,所述层次化图分割计算模组21对目标 图G、目标图G分割后的子图、所述子图分割后的子图等进行层次 化分割计算。具体而言,当首次对目标图G进行k边连通分量挖掘时,所述层次化图分割计算模组21对目标图G进行层次化计算;当 目标图G分割形成若干子图后,所述层次化图分割计算模组21对经 分割后的若干子图进行层次化图分割计算,该过程中所述目标图可以 是子图。在所述层次化图分割计算过程中,若存在满足特定条件的子图,则对子图执行剪枝操作,直至所维护的目标图为空。
所述遍历排序模组23内初始化一节点序列L。初始时,提供包 括多个节点的目标图G。所述遍历排序模组23接收来自所述目标图 G的节点,并采用MAS排序策略遍历所述目标图G的节点,形成新 的节点序列。所谓基于语义感知的最大邻接搜索排序策略是指给定一 个无向图G=(V,E)及初始化一节点序列L,其中V代表节点集合,E 代表节点之间的边。定义未加入节点集合V的节点为剩余节点,所 述剩余节点集合V-L的节点中与所述节点序列L相连的节点称为候 选节点,剩余节点合并至节点序列L形成新的节点序列。初始从节点集合V中任意选择一节点加入所述节点序列L,随后每一次都在候选 节点中选择与当前节点序列L的边连接度最大的节点加入所述接点 序列L的队尾,直到所有节点都加入所述接点序列L中。随着所述 节点序列L中排序节点的增加,候选节点不断变化。若所述候选节点中有多个剩余节点的连接度与当前序列L的连接度具有相同最大值, 则按照“最近更新的候选节点优先选择”的原则来选择下一顺位的剩 余节点。
所述图分割模组24根据所述遍历排序模组23构造的节点序列状 态来决定是否分割目标图或子图。具体而言,如果已排序的节点集合 与未排序的节点集合之间的边连接度小于设定值,则通过删除所述两 个节点集合之间的边来分割所述目标图,获得分割后的二子图。
就所述图分割模组24而言,所述图分割模组24可以对目标图或 者经所属目标图分解后的子图进行分割操作。
所述局部边连接度检测模组25用以自当前局部子图中抽取k核 结构,并检测判断所述k核结构的边连接度值。具体而言,如果所述 k核结构为空,则结束局部边连接度检测操作;如果所述k核结构不 为空,则在所述k核结构中选择与t节点距离最远的节点作为s节点, 得到所述k核结构的最小s-t割。
所述节点合并模组27根据所述局部边连接度检测模组25的检测 结果与设定边连接度值k之间的关系确认是否合并节点。具体而言, 如果所述最小s-t割值大于等于设定值k,则在目标图G中合并所述 k核中的所有节点。
所述子图剪枝模组29根据所述节点合并模组27的合并结果决定 是否对子图进行剪枝。具体而言,如果所述子图在本轮未执行节点合 并,则对所述子图做剪枝处理;此外,如果所述子图中的(超)节点 数量为1,则所述子图应被剪枝。否则,不执行剪枝操作。
请结合参阅图4及图5,其中图4是采用图3所示k边连通分量 挖掘系统进行k边连通分量挖掘的流程框图,图5是图4所示k边连 通分量挖掘系统进行k边连通分量挖掘的方法流程示意图。当采用所 述k边连通分量挖掘系统20对目标图G进行检测并挖掘k边连通分量的方法时,其包括如下步骤:
步骤S01,提供所述层次化图分割计算模组21,所述层次化图分 割计算模组21维护一超节点索引;
初始,当采用所述k边连通分量挖掘系统对所述目标图G执行 挖掘k边连通分量时,初始提供包括多个节点的目标图G。
步骤S02,提供遍历排序模组23,所述遍历排序模组23初始化 一节点序列L;
步骤S03,接收包括多个节点的目标图G,所述遍历排序模组23 采用MAS排序策略遍历所述目标图G的节点,并构造一新的节点序 列;
在该步骤中,构造所述节点序列时,每次访问完一个节点后,进 一步计算该节点及其之前所有节点组成的集合与该节点之后所有节 点组成的集合之间的边连接度,并判断所述连接度与设定值k之间的 关系,依据该判断结果执行下一步骤,即:图分割操作。
步骤S04,在采用所述遍历排序模组23对所述目标图G的节点 遍历排序构造新的节点序列时,提供图分割模组24,所述图分割模 组24根据构造的节点序列状态来执行所述目标图G的分割;
在该步骤中,具体执行时,所谓构造的节点序列状态,是指当所 述连接度值小于所述设定值,则通过删除所述两个集合之间相连的边 来分割所述目标图或者子图。当所述连接度值大于所述设定值,则不 执行分割所述目标图或者子图的操作。
需要说明的是,当步骤S04是首次执行分割操作,则所述图分割 模组24是对所述目标图G进行分割操作;当步骤S04是对目标图G 经过分割后的子图进行分割操作,则执行对子图的分割操作。
步骤S05,在采用所述遍历排序模组23对所述目标图G的节点 遍历排序构造新的节点序列时,提供局部k边连接度检测模组25, 所述局部k边连接度检测模组25对所述目标图G进行局部边连接度 检测;
在本步骤中,通过增加设置所述局部边连接度检测模组25,在 对全局k连接度的s-t节点对进行合并之前抽取局部的k核结构并检 测其中的边连接度。
步骤S06,提供节点合并模组27,所述节点合并模组27根据所 述局部k边连接度检测模组25的检测结果执行节点合并操作;
具体而言,设定边连接度值为k,则如果所述最小s-t割值大于 等于设定值k,则在步骤S05中,所述目标图G中合并所述k核结构 的所有节点,并在步骤S01所述超节点索引中记录被合并的超节点及 对应的原始节点,然后结束局部边连接度检测操作,如果该最小s-t 割值小于设定值,则通过删除所述最小s-t割包含的边将所述k核分 割为二子图,将二子图中包含t节点的子图作为当前局部子图继续执 行局部k边连接度检测操作;
步骤S07,提供子图剪枝模组29,所述子图剪枝模组29对所述 目标图G中的每个子图进行剪枝筛选。
在步骤S02-S03中,如图6所示,本发明采用一种带头部索引的 队列数据结构来管理候选节点及其与L的连接度值。队列的长度为 4*n,V中的任一节点vi在所示数据结构中占有连续的4个位置:4i-4, 4i-3,4i-2,4i-1。这4个位置,connectivity、priority、previous,next, 分别记录vi与L的连接度、vi的优先级、与vi具有相同连接度的前一 个节点的起始位置、以及与vi具有相同连接度的后一个节点的起始位 置。其中,优先级的数值越大,表示该节点的优先级越高。当vi不属 于候选节点时,则vi所对应的4个位置全置零。所示数据结构维护一 个链表头索引,索引中的每一个链表头包含一个数字x,该链表头指 向连接度为x、优先级最高的节点起始位置。若有多个节点的连接度 为x,则按照优先级顺序组成双向链表:较高优先级节点的next位记 录较低优先级节点的起始位置,较低优先级节点的previous位记录较 高优先级节点的起始位置,最高优先级节点的previous位和最低优先 级节点next位都置零。
所示数据结构通过特殊的操作来管理节点以达到语义感知的排 序,涉及到节点选取、节点删除、节点更新、节点清空四种操作。具 体而言,当MAS排序算法要从候选节点中选择下一顺位的节点时, 程序调用节点选取操作来获取节点,然后调用节点删除操作将该顺位 节点从数据结构从删除,随后调用节点更新操作将与该顺位节点相连 的、未加入节点序列L的节点在所示数据结构中进行批量更新,如果 算法按照已排序节点序列L与未排序节点集V-L将目标图进行分割, 则需要调用节点清空操作。
(1)节点选取:从所示数据结构的头部索引中读取数值最大的 链表头,获取该链表头指向的节点位置,该位置对应的节点即为下一 顺位节点。
(2)节点删除:将待删除节点对应的4个位置全部置零,并将 该节点所在双向链表上的前后两个节点相互连接,如果该节点next 位未指向其他节点,则将该节点对应的链表头从索引中删除。
(3)节点更新:将需要更新的节点按照连接度和优先级排序: 连接度越小的节点排序越靠前,连接度相同时优先级越小的节点排序 越靠前,按照排好的顺序依次更新这些节点:调用节点删除操作将节 点从原双向链表中删除;将节点的connectivity位的数值设为更新后 的连接度y;将节点插入链表头数值为y的双向链表首位,将节点的 priority位设为双向链表上其后一个节点优先级数值加1,若数值为y 的链表头不存在,则新建一个数值为y的链表头,并指向该节点的地 址首位,将节点的priority位设为1。
(4)节点清空:依次遍历头部索引中的链表头,对于每个链表 头,将其指向的双向链表中的每个节点对应的4个位置全部置零,然 后删除链表头。
在本发明中,采用所示数据结构来管理候选节点,能实现“最近 更新的候选节点优先选择”的排序原则,并且每一次选取、删除、更 新操作都能在常数时间复杂度内完成,算法效率较高。
在构造步骤S03中所述的节点序列时,依次处理序列中每个新加 入的节点:对于每个新加入的节点,计算该节点与其之前节点序列的 边连接度,判断该连接度与设定值k的关系,当所述连接度大于或等 于所述设定值,则可以执行局部边连接度检测操作对该节点与其之前 节点的边连接度进行检测。
进一步的,当连续的多个节点与其之前节点序列的边连接度大于 等于设定值,则仅当所述连续节点的最后一个节点加入节点序列之后 执行局部边连接度检测操作。
如图7所示,在上述条件下,采用所述局部边连接度检测模组 25对局部边连接度检测方法包括如下步骤:
步骤S41,定义局部子图;
将所述最新加入节点序列的节点定义为t节点,将t节点及其之 前节点构成的连通子图作为当前局部子图。
步骤S42,抽取k核结构获得s-t节点对;
从所述当前局部子图中抽取包含t节点的极大k核,如果所述k 核为空,则结束局部边连接度检测操作,如果所述k核不为空,则在 k核中选择与t节点距离最远的节点作为s节点,获得s-t节点对。
具体而言,当选择所述最远s节点时,分别采用层次路径搜索策 略和语义感知的最大邻接搜索排序策略获得两个s节点,对于两个s 节点,分别计算其与t节点的最大s-t流,其中较小的最大s-t流值作 为所述k核的最小s-t割。
层次路径搜索方式:将k核中的节点分成若干个层次:H0,H1,…, Hm,其中层次的下标代表了其中的节点离t节点的距离,最小的一层 中只包含t节点,下一层中包含t节点的邻节点,与相邻又不被上层 所有包含的节点就放入下一个层次中,节点s从下标最大的层次中选 择。
MAS搜索方式:当选择所述s节点时,采用基于语义感知的最 大邻接搜索算法遍历,以t节点为初始节点为k核构造一个节点序列, 则所述节点序列的最后一个节点选择为s节点。
步骤S43,计算最小s-t割;
采用最大s-t流方法计算最大s-t流得到所述k核的最小s-t割。
步骤S44,合并节点。
判断该最小s-t割值与设定值k的关系,如果该最小s-t割值大于 等于设定值k,则在目标图中合并所述k核中的所有节点,并在步骤 S01所述超节点索引中记录被合并的超节点及对应的原始节点,然后 结束局部边连接度检测操作,如果该最小s-t割值小于设定值,则通 过删除所述最小s-t割包含的边将所述k核分割为二子图,将二子图 中包含t节点的子图作为当前局部子图,继续执行步骤S42至S44。
在步骤S07中,对所述目标图G中的每个子图进行剪枝筛选方 法如下:首先判断所述子图中的(超)节点数量,如果该数量为1, 则所述子图应被剪枝,然后判断在本轮遍历访问过程中所述子图中是 否有节点合并的情况,如果本轮无节点合并,则所述子图应被剪枝。
将应剪枝的子图删除后,如果输出的剩余图为空,则将步骤S01 所述子图集合作为结果输出,如果输出的剩余图不为空,则将该图作 为目标图,继续执行步骤S02至S07。
在上述k边连通分量挖掘系统进行k边连通分量挖掘的方法流程 中,初始执行对全局所述目标图G进行挖掘时,所述方法自所述步 骤S01开始执行,且是对所述目标图G进行遍历排序,执行合并、 分割及剪枝操作。
需要说明的是,在上述k边连通分量挖掘系统进行k边连通分量 挖掘的方法流程中,当循环执行步骤S02至S07,则不需要对所述目 标图G进行遍历排序、合并节点、分割目标图及剪枝操作,而是直 接执行对所述目标图G分割后的子图进行遍历排序、合并节点、分割目标图及剪枝操作,即,直接执行步骤S02至步骤S07。
进一步的,所述步骤S04中对所述子图分割操作也不是必经步 骤,只有当所述已排序的节点集合与未排序的节点集合之间的边连接 度小于设定值,则执行分割子图的操作。
同样的,所述步骤S06中对所述节点合并操作也并不是必经步 骤,只有当所述最小s-t割值大于等于设定值k,则在目标图G中执 行合并所述k核中的所有节点。
可见,步骤S04及步骤S06不是并不必须每次迭代计算,而是根 据所满足条件对应选择执行。步骤S04与步骤S06可以是同步执行, 也可以是先后执行。当然,作为实施方式的改进,所述步骤S06与所 述步骤S04可以互换执行。
相较于现有技术,在本发明的k边连通分量挖掘系统20中,增 加设置局部边连接度检测模组25,抽取合并前的节点及其之前节点 构成的连通子图作为当前局部子图,进而判断k核的最小s-t割,可 以快速计算出比较准确的检测结果。另一方面,在采取局部边连接度 检测计算时,通过层次路径搜索及最大邻接搜索的方式选择s节点, 使得计算出的最小s-t割即为k核最小割的概率提高,因此提高了局 部边连接度检测的准确性。
再者,当采用所述挖掘方法挖掘k边连接子图时,在构造新的节 点序列时,如果连续若干个连接度大于k的节点加入L,则在最后一 个加入时采取局部边连接度检测计算,减少了局部边连接度检测的次 数。根据k核引理,当连续的若干个k连接度节点的最后一个加入L 中时,从L中抽取含有最后一个节点的k核,检测k核的局部边连接 度,如果k核的边连接度大于等于k,则采用最大化合并的策略将所 有节点全部合并,提高计算效率。
此外,基于连接度检测的结果,提出了有效的分割树剪枝策略, 将判定不属于任何k边连通分量的节点和边提前删除,使得算法能够 减少大量不必要的计算量,在较短的迭代次数内收敛。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范 围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变 换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明 的专利保护范围内。

Claims (15)

1.一种应用于社交网络的基于局部边连接度检测的k边连通分量挖掘系统,其特征在于,包括:
遍历排序模组,其内初始化一节点序列,接收包括多个节点的目标图,并采用MAS排序策略遍历所述目标图的多个节点以构造新的节点序列;
图分割模组,其根据所述遍历排序模组构造的节点序列的排序状态与设定的边连接度值之间的关系确认是否分割目标图以获得分割后的子图;
局部边连接度检测模组,其自局部目标图中抽取k核结构进行检测,并根据检测结果判断所述k核结构的边连接度值;及
节点合并模组,其根据所述局部边连接度检测模组的检测结果与设定边连接度值之间的关系确认是否合并节点。
2.根据权利要求1所述的应用于社交网络的基于局部边连接度检测的k边连通分量挖掘系统,其特征在于,所述挖掘系统还包括用以维护一超节点索引的层次化图分割计算模组。
3.根据权利要求1所述的应用于社交网络的基于局部边连接度检测的k边连通分量挖掘系统,其特征在于,所述遍历排序模型采用基于语义感知的MAS排序策略遍历所述目标图的节点,并构造新的节点序列。
4.根据权利要求1所述的基于局部边连接度检测的k边连通分量挖掘系统,其特征在于,还包括子图剪枝模组,所述子图剪枝模组根据所述节点合并模组的计算结果来确认是否进行子图删除剪枝操作。
5.一种应用于社交网络的基于局部边连接度检测的k边连通分量挖掘挖掘方法,其特征在于,包括如下步骤:
提供遍历排序模组,所述遍历排序模组初始化一节点序列;
接收包括多个节点的目标图,所述遍历排序模组采用基于语义感知的MAS排序策略遍历所述目标图的节点,并构造一新的节点序列;
提供图分割模组,所述图分割模组根据所述遍历排序模组构造的节点序列的排序状态执行图分割操作;
提供局部k边连接度检测模组,对所述目标图进行局部边连接度检测;及
提供节点合并模组,所述节点合并模组根据所述局部k边连接度检测模组的检测结果执行节点合并操作,获得子图集合。
6.根据权利要求5所述的应用于社交网络的基于局部边连接度检测的k边连通分量挖掘方法,其特征在于,在通过遍历排序模组遍历前还包括如下步骤:提供层次化图分割计算模组,所述层次化图分割计算模组维护一超节点索引。
7.根据权利要求6所述的应用于社交网络的基于局部边连接度检测的k边连通分量挖掘方法,其特征在于,当对节点执行合并操作后,还包括对目标图中的所述子图进行剪枝筛选步骤。
8.根据权利要求6所述的应用于社交网络的基于局部边连接度检测的k边连通分量挖掘方法,其特征在于,采用基于语义感知的最大邻接搜索排序策略构造节点序列步骤中,还包括如下步骤:初始化一空的节点序列;依次在未排序的节点中选择一与初始化节点序列节点集合的连接度最大的节点排在节点序列的队尾,当未排序的节点中有多个节点与已生成的节点序列具有相同的最大边连接度,则采用“最近更新的候选节点优先选择”的原则来选择下一顺位的节点。
9.根据权利要求8所述的应用于社交网络的基于局部边连接度检测的k边连通分量挖掘方法,其特征在于,当构造节点序列时,对于每一被选择后将加入所述节点序列的节点,计算该节点与其加入之前的当前节点序列的边连接度值,判断该连接度值与设定值k的关系,当所述连接度值大于或等于所述设定值k,则执行局部边连接度检测操作以对该节点与其之前节点的边连接度进行检测。
10.根据权利要求9所述的应用于社交网络的基于局部边连接度检测的k边连通分量挖掘方法,其特征在于,当连续的多个节点与其之前节点序列的边连接度值大于或等于设定值k,则仅在所述连续节点中的最后一个节点加入节点序列时执行局部边连接度检测操作。
11.根据权利要9或10所述的应用于社交网络的基于局部边连接度检测的k边连通分量挖掘方法,其特征在于,当执行局部边连接度检测操作时,包括如下步骤:
定义局部子图:定义最新加入节点序列的节点作为t节点,将所述t节点及其之前节点构成的连通分量作为当前局部子图;
抽取k核结构获得s-t节点对:从所述当前局部子图中抽取包含t节点的k核结构,如果所述k核结构为空,则结束局部边连接度检测操作,如果所述k核结构不为空,则在k核结构中选择与t节点距离最远的节点作为s节点,获得s-t节点对;
计算最小s-t割:计算最大s-t流得到所述k核结构的最小s-t割;
合并节点:判断该最小s-t割值与设定值的关系,如果该最小s-t割值大于等于设定值,则在所述目标图中合并所述k核结构中的所有节点,并在所述超节点索引中记录被合并的超节点及对应的原始节点,然后结束局部边连接度检测操作;如果该最小s-t割值小于设定值,则通过删除所述最小s-t割包含的边将所述k核结构分割为二子图,将二子图中包含t节点的子图作为当前局部子图,继续执行抽取k核结构及计算k核结构的最小s-t割。
12.根据权利要求11所述的局部边连接度检测操作,其特征在于,当选择所述最远s节点时,分别采用层次路径搜索策略和语义感知的最大邻接搜索排序策略获得两个s节点,对于两个s节点,分别计算其与t节点的最大s-t流,其中较小的最大s-t流值作为所述k核的最小s-t割。
13.根据权利要求6所述的基于局部边连接度检测的k边连通分量挖掘方法,分割其特征在于,在构造节点序列时,每次加入一个节点到所述节点序列队尾后,计算已排序的节点组成的集合与未排序节点组成的集合之间的边连接度,判断所述连接度与设定值k之间的关系,当所述连接度小于所述设定值,则通过删除所述两个集合之间相连的边来分割所述目标图。
14.根据权利要求7所述的基于局部边连接度检测的k边连通分量挖掘方法,其特征在于,所述剪枝筛选方法首先判断所述子图中的节点数量或超节点数量,如果该数量为1,则所述子图应被剪枝,然后判断在本轮遍历访问过程中所述子图中是否有节点合并的情况,如果本轮无节点合并,则所述子图应被剪枝。
15.根据权利要求5所述的基于局部边连接度检测的k边连通分量挖掘方法,其特征在于,如果输出的剩余图不为空,则将该图作为目标图输入层次化图分割计算模组中进行新一轮计算;当所述目标图为空时,所述超节点索引中记录的即为k边连通分量计算结果,基于局部边连接度检测的k边连通分量挖掘算法停止。
CN202010747667.3A 2020-07-29 2020-07-29 应用于社交网络的k边连通分量挖掘系统及挖掘方法 Pending CN111899117A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010747667.3A CN111899117A (zh) 2020-07-29 2020-07-29 应用于社交网络的k边连通分量挖掘系统及挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010747667.3A CN111899117A (zh) 2020-07-29 2020-07-29 应用于社交网络的k边连通分量挖掘系统及挖掘方法

Publications (1)

Publication Number Publication Date
CN111899117A true CN111899117A (zh) 2020-11-06

Family

ID=73184069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010747667.3A Pending CN111899117A (zh) 2020-07-29 2020-07-29 应用于社交网络的k边连通分量挖掘系统及挖掘方法

Country Status (1)

Country Link
CN (1) CN111899117A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115051936A (zh) * 2022-03-31 2022-09-13 中国电子科技集团公司第十五研究所 一种基于多图的连通分量增量计算方法
CN115935027A (zh) * 2023-01-19 2023-04-07 北京百度网讯科技有限公司 目标对象拓扑图的数据处理方法及图分类模型的训练方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102745A (zh) * 2014-07-31 2014-10-15 上海交通大学 基于局部最小边的复杂网络社团挖掘方法
US20150356444A1 (en) * 2013-01-09 2015-12-10 Peking University Founder Group Co., Ltd. Method and system of discovering and analyzing structures of user groups in microblog
WO2016078368A1 (zh) * 2014-11-21 2016-05-26 深圳大学 一种基于k-核的社区搜索算法
US20170011091A1 (en) * 2015-07-06 2017-01-12 Xerox Corporation System and method for performing k-nearest neighbor search based on minimax distance measure and efficient outlier detection
CN107203619A (zh) * 2017-05-25 2017-09-26 电子科技大学 一种复杂网络下的核心子图提取算法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150356444A1 (en) * 2013-01-09 2015-12-10 Peking University Founder Group Co., Ltd. Method and system of discovering and analyzing structures of user groups in microblog
CN104102745A (zh) * 2014-07-31 2014-10-15 上海交通大学 基于局部最小边的复杂网络社团挖掘方法
WO2016078368A1 (zh) * 2014-11-21 2016-05-26 深圳大学 一种基于k-核的社区搜索算法
US20170011091A1 (en) * 2015-07-06 2017-01-12 Xerox Corporation System and method for performing k-nearest neighbor search based on minimax distance measure and efficient outlier detection
CN107203619A (zh) * 2017-05-25 2017-09-26 电子科技大学 一种复杂网络下的核心子图提取算法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115051936A (zh) * 2022-03-31 2022-09-13 中国电子科技集团公司第十五研究所 一种基于多图的连通分量增量计算方法
CN115935027A (zh) * 2023-01-19 2023-04-07 北京百度网讯科技有限公司 目标对象拓扑图的数据处理方法及图分类模型的训练方法

Similar Documents

Publication Publication Date Title
Yun et al. Incremental mining of weighted maximal frequent itemsets from dynamic databases
US10078802B2 (en) Method and system of discovering and analyzing structures of user groups in microblog
Quick et al. Using pregel-like large scale graph processing frameworks for social network analysis
CN104281652B (zh) 度量空间中逐个支撑点数据划分方法
CN102810113B (zh) 一种针对复杂网络的混合型聚类方法
KR101130734B1 (ko) 상황 구조 생성 방법 및, 상황 구조 생성 시스템
CN110719106B (zh) 一种基于节点分类排序的社交网络图压缩方法及系统
CN111899117A (zh) 应用于社交网络的k边连通分量挖掘系统及挖掘方法
CN114186073A (zh) 基于子图匹配和分布式查询的运维故障诊断分析方法
CN109460398A (zh) 时间序列数据的补全方法、装置及电子设备
Tang et al. Reliable community search in dynamic networks
CN108052743B (zh) 一种阶梯接近中心度确定方法及系统
CN117221087A (zh) 告警根因定位方法、装置及介质
Singh et al. High average-utility itemsets mining: a survey
CN108319728A (zh) 一种基于k-star的频繁社区搜索方法及系统
CN110489652B (zh) 基于用户行为检测的新闻推荐方法、系统及计算机设备
CN113821550B (zh) 路网拓扑图的划分方法、装置、设备及计算机程序产品
CN114036345A (zh) 一种轨迹数据的处理方法、设备及存储介质
CN115277124A (zh) 基于系统溯源图搜索匹配攻击模式的在线系统及服务器
CN113434769A (zh) 数字化与人工智能结合的互动行为画像分析方法及系统
CN104199824A (zh) 一种树型数据上判定节点关系的方法
Khaled et al. Solving limited-memory influence diagrams using branch-and-bound search
Tereshchenko et al. Recursion and parallel algorithms in geometric modeling problems
CN113806642A (zh) 一种社交网络快速最大团和极大团搜索方法
CN116881903B (zh) 一种面向溯源图入侵检测的恶意行为子图分级提取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination