CN108062360A - 一种大规模复杂网络社区结构检测的方法、系统及装置 - Google Patents

一种大规模复杂网络社区结构检测的方法、系统及装置 Download PDF

Info

Publication number
CN108062360A
CN108062360A CN201711229558.7A CN201711229558A CN108062360A CN 108062360 A CN108062360 A CN 108062360A CN 201711229558 A CN201711229558 A CN 201711229558A CN 108062360 A CN108062360 A CN 108062360A
Authority
CN
China
Prior art keywords
node
spectrum data
mrow
community
storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711229558.7A
Other languages
English (en)
Inventor
汤志康
李春英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN201711229558.7A priority Critical patent/CN108062360A/zh
Publication of CN108062360A publication Critical patent/CN108062360A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种大规模复杂网络社区结构检测的方法、系统及装置,方法包括:将待检测的大规模复杂网络抽象为图谱数据;采用多线程并行滑动窗口模型,对抽象得到的图谱数据进行优化存储;采用多线程并行的自适应标签传播算法对存储的图谱数据进行标签化处理;根据标签化处理的结果进行后期处理并输出社区结构检测的结果。系统包括图谱抽象模块、优化存储模块、标签化处理模块和后期处理模块。装置包括存储器和处理器。本发明降低了时间复杂度并提高了执行效率;本发明还能通过普通个人计算机对大规模图谱进行计算,降低了成本;本发明能够自适应地识别重叠和非重叠社区,提高了社区检测的准确性。本发明可广泛应用于复杂网络服务计算领域。

Description

一种大规模复杂网络社区结构检测的方法、系统及装置
技术领域
本发明涉及复杂网络服务计算领域,尤其是一种大规模复杂网络社区结构检测的方法、系统及装置。
背景技术
复杂网络并不是一大批性质完全相同的节点随机连接在一起,也不是各种类型的节点之间不相关的随意链接,而是“乱中有序”——相同类型节点之间连接较多,构成一个一个的小社区,不同类型节点之间连接较少,但这些连接将成为沟通不同社区的重要通道。社区检测的目的是在乱中有序的复杂网络中找出满足同一类型中的节点以及这些节点之间的边所构成的子图。
在大型复杂网络中进行社区发现,具有重要的实际意义,从宏观的角度而言,它可以以一种分而治之的方式研究整个复杂网络的组成和动态演化过程,其次它可以帮助我们更好的了解复杂网络,比如在社会关系网络中,社区能够显示根据相同的兴趣爱好或社会背景而形成的真实的社会团体,进而可以进行关键人物分析、各种类型推荐、以及精准广告营销;又如在生物分子反应网络中,社区可以表示分子聚合到一起形成某一类型的功能单元。因此,发现复杂网络中的社区有助于更加有效地理解开发这些网络中的奥秘,解决相关的问题。
目前,对于复杂网络中的社区结构检测通常采用启发式探测和基于统计推理的检测方法,这些传统检测方法存在时间复杂度高、执行效率低且检测结果不够准确的问题,另外,现有对大规模的复杂网络进行社区结构检测仅能通过大型服务器来实现,成本较高。
发明内容
为解决上述技术问题,本发明的目的在于:提供一种时间复杂度低、执行效率高、检测结果准确且成本低的,大规模复杂网络社区结构检测的方法、系统及装置。
本发明所采取的第一技术方案是:
一种大规模复杂网络社区结构检测的方法,包括以下步骤:
将待检测的大规模复杂网络抽象为图谱数据;
采用多线程并行滑动窗口模型,对抽象得到的图谱数据进行优化存储;
采用多线程并行的自适应标签传播算法对存储的图谱数据进行标签化处理;
根据标签化处理的结果进行后期处理并输出社区结构检测的结果,其中,后期处理包括识别重叠节点和合并子集社区。
进一步,所述采用多线程并行滑动窗口模型,对抽象得到的图谱数据进行优化存储这一步骤,包括以下步骤:
将图谱数据划分为P个不相交的区间,其中,每个区间对应一个内存块,所述内存块用于存放以对应区间内节点为终点的入边信息和边属性信息;
根据起始节点序号对每个区间内的边按从小到大的顺序进行排序;
根据排序的结果,通过滑动P-1个窗口来获取每个区间内节点的出边信息,并将获取的出边信息存储至对应内存块;
根据节点的入边信息、边属性信息和出边信息,通过节点更新函数进行图谱数据挖掘。
进一步,所述采用多线程并行的自适应标签传播算法对存储的图谱数据进行标签化处理这一步骤,包括以下步骤:
对存储的图谱数据进行标签初始化处理;
根据标签初始化处理的结果,对存储的图谱数据进行标签更新处理。
进一步,所述对存储的图谱数据进行标签初始化处理这一步骤,包括以下步骤:
将节点的邻接节点存放于一个数组中,并以该节点命名数组;
将内存块中区间节点对应的标签号初始化为0;
从内存块中选取一个标签号为0的节点为当前节点i;
在当前节点i的邻接节点中查找标签号为0且影响力最大的节点j;
判断节点j的邻接节点中标签值为0且影响力最大的节点是否为当前节点i,若是,则将边(i,j)作为初始边,并将该邻接节点加入与当前节点i和节点j均相邻、标签号为0且影响力最大的节点h,得到极大完全图并执行下一步骤;反之,则从内存块中选取下一个标签号为0的节点为当前节点i,并返回在当前节点i的邻接节点中查找标签号为0且影响力最大的节点j这一步骤;
根据得到的极大完全图,将节点i和节点j中较大的节点编号作为该极大完全图中节点的标签号。
进一步,所述对存储的图谱数据进行标签更新处理这一步骤,包括以下步骤:
S1、根据标签初始化处理的结果,通过节点更新函数对节点的标签号和权重进行更新,所述节点更新函数的表达式为:
其中,bt(c,i)表示在第t轮迭代时标签c在节点i下的权重,t的初始值为1,N(i)表示节点i邻接节点的集合,|(i)|表示节点i的影响力;
S2、判断是否存在节点的权重小于若是,则执行步骤S3;反之,则保留该节点对应的标签号和权重并执行步骤S4,其中,L表示节点i拥有的标签个数;
S3、判断是否该节点的所有标签对应的权重都小于若是,则保留该节点的最大权重对应的标签号及权重,并删除该节点的其余标签号和权重;反之,则保留该节点对应的标签号和权重;
S4、对保留的节点的权重进行归一化处理;
S5、判断是否存在节点的标签号为0,若是,则将t的值加1并返回步骤S1;反之,则终止标签更新处理过程。
进一步,所述根据标签化处理的结果进行后期处理并输出社区结构检测的结果这一步骤,包括以下步骤:
判断节点是否同时属于两个不同的社区,若是,则确定该节点为重叠节点;反之,则确定该节点不是重叠节点;
判断社区Ci和社区Cj是否满足若是,则删除社区Ci并保留社区Cj;反之,则不做处理;
输出复杂网络的社区检测结果。
本发明所采取的第二技术方案是:
一种大规模复杂网络社区结构检测的系统,包括:
图谱抽象模块,用于将待检测的大规模复杂网络抽象为图谱数据;
优化存储模块,用于采用多线程并行滑动窗口模型,对图谱抽象模块处理得到的图谱数据进行优化存储;
标签化处理模块,用于采用多线程并行的自适应标签传播算法对存储的图谱数据进行标签化处理;
后期处理模块,用于根据标签化处理模块的处理结果进行后期处理并输出社区结构检测的结果,其中,后期处理包括识别重叠节点和合并子集社区。
进一步,所述优化存储模块,包括:
区间划分单元,用于将图谱数据划分为P个不相交的区间,其中,每个区间对应一个内存块,所述内存块用于存放以对应区间内节点为终点的入边信息和边属性信息;
排序单元,用于根据起始节点序号对每个区间内的边按从小到大的顺序进行排序;
信息获取单元,用于根据排序单元的处理结果,通过滑动P-1个窗口来获取每个区间内节点的出边信息,并将获取的出边信息存储至对应内存块;
数据挖掘单元,用于根据节点的入边信息、边属性信息和出边信息,通过节点更新函数进行图谱数据挖掘。
进一步,所述标签化处理模块,包括:
标签初始化处理单元,用于对存储的图谱数据进行标签初始化处理;
标签更新处理单元,用于根据标签初始化处理单元的处理结果,对存储的图谱数据进行标签更新处理。
本发明所采取的第三技术方案是:
一种大规模复杂网络社区结构检测的装置,包括:
存储器,用于存储程序;
处理器,用于加载所述程序以执行如第一技术方案所述的大规模复杂网络社区结构检测的方法。
本发明的有益效果是:本发明采用多线程并行滑动窗口模型,对抽象得到的图谱数据进行优化存储,能通过硬盘外存来扩展待处理复杂网络的规模,进而可以通过普通个人计算机对大规模图谱进行计算,降低了时间复杂度并提高了执行效率,同时,相较于通过大型服务器来进行图谱计算的方式,本发明的成本较低;另外,本发明能够自适应地识别重叠和非重叠社区,大大提高了社区检测结果的准确性。
附图说明
图1为本发明一种大规模复杂网络社区结构检测的方法的步骤流程图;
图2为本发明一种大规模复杂网络社区结构检测的系统的整体结构框图;
图3为实施例一大规模复杂网络的原始状态示意图;
图4为实施例一大规模复杂网络的标签初始化结果示意图;
图5为实施例一大规模复杂网络的社区检测结果示意图。
具体实施方式
参照图1,一种大规模复杂网络社区结构检测的方法,包括以下步骤:
将待检测的大规模复杂网络抽象为图谱数据;
采用多线程并行滑动窗口模型,对抽象得到的图谱数据进行优化存储;
采用多线程并行的自适应标签传播算法对存储的图谱数据进行标签化处理;
根据标签化处理的结果进行后期处理并输出社区结构检测的结果,其中,后期处理包括识别重叠节点和合并子集社区。
其中,抽象得到的图谱数据为拓扑结构信息的图谱数据。
进一步作为优选的实施方式,所述采用多线程并行滑动窗口模型,对抽象得到的图谱数据进行优化存储这一步骤,包括以下步骤:
将图谱数据划分为P个不相交的区间,其中,每个区间对应一个内存块,所述内存块用于存放以对应区间内节点为终点的入边信息和边属性信息;
根据起始节点序号对每个区间内的边按从小到大的顺序进行排序;
根据排序的结果,通过滑动P-1个窗口来获取每个区间内节点的出边信息,并将获取的出边信息存储至对应内存块;
根据节点的入边信息、边属性信息和出边信息,通过节点更新函数进行图谱数据挖掘。
进一步作为优选的实施方式,所述采用多线程并行的自适应标签传播算法对存储的图谱数据进行标签化处理这一步骤,包括以下步骤:
对存储的图谱数据进行标签初始化处理;
根据标签初始化处理的结果,对存储的图谱数据进行标签更新处理。
进一步作为优选的实施方式,所述对存储的图谱数据进行标签初始化处理这一步骤,包括以下步骤:
将节点的邻接节点存放于一个数组中,并以该节点命名数组;
将内存块中区间节点对应的标签号初始化为0;
从内存块中选取一个标签号为0的节点为当前节点i;
在当前节点i的邻接节点中查找标签号为0且影响力最大的节点j;
判断节点j的邻接节点中标签值为0且影响力最大的节点是否为当前节点i,若是,则将边(i,j)作为初始边,并将该邻接节点加入与当前节点i和节点j均相邻、标签号为0且影响力最大的节点h,得到极大完全图并执行下一步骤;反之,则从内存块中选取下一个标签号为0的节点为当前节点i,并返回在当前节点i的邻接节点中查找标签号为0且影响力最大的节点j这一步骤;
根据得到的极大完全图,将节点i和节点j中较大的节点编号作为该极大完全图中节点的标签号。
其中,标签初始化处理是一个迭代过程,当一次迭代过程没有出现新的极大完全图时,则终止标签初始化处理过程。
进一步作为优选的实施方式,所述对存储的图谱数据进行标签更新处理这一步骤,包括以下步骤:
S1、根据标签初始化处理的结果,通过节点更新函数对节点的标签号和权重进行更新,所述节点更新函数的表达式为:
其中,bt(c,i)表示在第t轮迭代时标签c在节点i下的权重,t的初始值为1,N(i)表示节点i邻接节点的集合,|(i)|表示节点i的影响力;
S2、判断是否存在节点的权重小于若是,则执行步骤S3;反之,则保留该节点对应的标签号和权重并执行步骤S4,其中,L表示节点i拥有的标签个数;
S3、判断是否该节点的所有标签对应的权重都小于若是,则保留该节点的最大权重对应的标签号及权重,并删除该节点的其余标签号和权重;反之,则保留该节点对应的标签号和权重;
S4、对保留的节点的权重进行归一化处理;
S5、判断是否存在节点的标签号为0,若是,则将t的值加1并返回步骤S1;反之,则终止标签更新处理过程。
其中,若步骤S3中的最大权重对应多个标签号,则从多个标签号中随机选择一个进行保留。
进一步作为优选的实施方式,所述根据标签化处理的结果进行后期处理并输出社区结构检测的结果这一步骤,包括以下步骤:
判断节点是否同时属于两个不同的社区,若是,则确定该节点为重叠节点;反之,则确定该节点不是重叠节点;
判断社区Ci和社区Cj是否满足若是,则删除社区Ci并保留社区Cj;反之,则不做处理;
输出复杂网络的社区检测结果。
参照图2,与图1的方法相对应,本发明一种大规模复杂网络社区结构检测的系统,包括:
图谱抽象模块,用于将待检测的大规模复杂网络抽象为图谱数据;
优化存储模块,用于采用多线程并行滑动窗口模型,对图谱抽象模块处理得到的图谱数据进行优化存储;
标签化处理模块,用于采用多线程并行的自适应标签传播算法对存储的图谱数据进行标签化处理;
后期处理模块,用于根据标签化处理模块的处理结果进行后期处理并输出社区结构检测的结果,其中,后期处理包括识别重叠节点和合并子集社区。
进一步作为优选的实施方式,所述优化存储模块,包括:
区间划分单元,用于将图谱数据划分为P个不相交的区间,其中,每个区间对应一个内存块,所述内存块用于存放以对应区间内节点为终点的入边信息和边属性信息;
排序单元,用于根据起始节点序号对每个区间内的边按从小到大的顺序进行排序;
信息获取单元,用于根据排序单元的处理结果,通过滑动P-1个窗口来获取每个区间内节点的出边信息,并将获取的出边信息存储至对应内存块;
数据挖掘单元,用于根据节点的入边信息、边属性信息和出边信息,通过节点更新函数进行图谱数据挖掘。
进一步作为优选的实施方式,所述标签化处理模块,包括:
标签初始化处理单元,用于对存储的图谱数据进行标签初始化处理;
标签更新处理单元,用于根据标签初始化处理单元的处理结果,对存储的图谱数据进行标签更新处理。
与图1的方法相对应,本发明一种大规模复杂网络社区结构检测的装置,包括:
存储器,用于存储程序;
处理器,用于加载所述程序以执行本发明大规模复杂网络社区结构检测的方法。
下面结合说明书附图和具体实施例对本发明作进一步解释和说明。
实施例一
针对传统的复杂网络社区检测方法时间复杂度高、执行效率低、成本高且不够方便实用的问题,本发明提出了一种大规模复杂网络社区结构检测的方法、系统及装置。本发明采用多线程并行滑动窗口模型,对抽象得到的图谱数据进行优化存储,能通过硬盘外存来扩展待处理复杂网络的规模,降低了时间复杂度并提高了执行效率;再者,本发明能够通过普通个人计算机对大规模图谱进行计算,相较于传统通过大型服务器来进行图谱计算的方式,降低了成本;另外,本发明能够自适应地识别重叠节点和合并子集社区,提高了社区检测结果的准确性。
参照图1,本发明一种大规模复杂网络社区检测的方法的具体步骤流程为:
步骤1:复杂网络抽象过程:对复杂网络的示例形式化表示为图谱数据G=(V,E),其中V=(v1,v2,v3,v4,v5,v6,v7,v8,v9),E={e12,e14,e23,e24,e25,e34,e35,e36,e45,e56,e67,e68,e78,e89},V表示社会网络节点集合,E表示节点间相邻关系的集合。
步骤2:优化存储过程:图谱节点被划分为4个区间,每个区间和一个内存块关联,在执行多线程并行滑动窗口模型时,随即选取一个内存块并从该内存块中读取节点的入边信息,然后从另外三个滑动内存块中读取出边信息,如此循环,直至读取完四个内存块中的节点入边信息。这种分片的思想可以适应无尺度的大规模图数据和内存受限的系统环境,大大提高了单机系统下大规模图数据的处理效率,降低了时间复杂度。
步骤3:采用多线程并行的自适应标签传播算法对存储的图谱数据进行标签化处理。
所述步骤3的具体过程包括:
A、标签初始化以及寻找极大完全图:按照多线程并行的自适应标签传播算法对图3所示的原始复杂网络进行标签初始化,初始化的结果如图4所示,共有2个不相交的极大完全图,分别是(2,4,5,3)和(6,8,7)。寻找极大完全图的过程首先读取了节点1,节点1共有2个邻接节点,分别为节点2和节点4。假设我们先选择节点2,而节点2影响力最大的邻接节点为节点4和节点5,节点4和节点5的最大邻接节点均包含节点2。假设选择(2,4)作为初始边寻找极大完全图,则节点5和节点3依次加入,并且4是节点2和节点4中编号较大的,因此4作为第一个极大完全图(2,4,5,3)的标签号。同理,我们能够找到第二个不相交的极大完全图(6,8,7),标签号为8。两个极大完全图中节点标签对应的权重均为1。
B、标签更新处理:按照多线程并行的自适应标签传播算法的更新规则,对图4所示的复杂网络初始化结果示意图进行第1轮迭代后,节点标签权重的更新结果及后期处理过程如表1所示。由表1可知,该复杂网络进行第1轮迭代后,节点3、节点5和节点6分别获得了2个标签号,在自适应阈值的限定下,他们的阈值均是但是节点3和节点5下的标签8对应的权重是小于阈值因此标签8在节点3和节点5中是无意义的,删除标签8及其对应权重;对于节点6,其阈值是而对应的两个标签权重都不小于因此节点6对应的两个标签都需要保留,节点6成为该复杂网络中的重叠节点。
表1
步骤4:后期处理以及输出社区检测结果:由表1可知,当多线程并行的自适应标签传播算法完成第1轮迭代后,该复杂网络中已经不存在标签号为0的节点,因此标签更新过程停止。如图5所示,在该复杂网络中共发现两个非重叠社区,分别为{1,2,3,4,5,6}和{6,7,8,9},其中,6是重叠节点。
综上所述,本发明一种大规模复杂网络社区检测的方法、系统及装置具有以下优点:
1)、本发明采用多线程并行滑动窗口模型,对抽象得到的图谱数据进行优化存储,能通过硬盘外存来扩展待处理复杂网络的规模,大大降低了时间复杂度并提高了执行效率。
2)、本发明通过采用多线程并行滑动窗口模型,能够通过普通个人计算机对大规模图谱进行计算,相较于通过大型服务器来进行图谱计算的方式,降低了成本,更加方便。
3)、本发明在对存储的图谱数据进行标签初始化处理的时候引入了节点的影响力,降低了影响力较大标签对节点产生的负面影响。
4)、本发明全程不需要参数控制,能够根据复杂网络的特性自适应地识别重叠和非重叠社区,具有良好的自适应性,并提高了社区检测的准确性。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种大规模复杂网络社区结构检测的方法,其特征在于:包括以下步骤:
将待检测的大规模复杂网络抽象为图谱数据;
采用多线程并行滑动窗口模型,对抽象得到的图谱数据进行优化存储;
采用多线程并行的自适应标签传播算法对存储的图谱数据进行标签化处理;
根据标签化处理的结果进行后期处理并输出社区结构检测的结果,其中,后期处理包括识别重叠节点和合并子集社区。
2.根据权利要求1所述的一种大规模复杂网络社区结构检测的方法,其特征在于:所述采用多线程并行滑动窗口模型,对抽象得到的图谱数据进行优化存储这一步骤,包括以下步骤:
将图谱数据划分为P个不相交的区间,其中,每个区间对应一个内存块,所述内存块用于存放以对应区间内节点为终点的入边信息和边属性信息;
根据起始节点序号对每个区间内的边按从小到大的顺序进行排序;
根据排序的结果,通过滑动P-1个窗口来获取每个区间内节点的出边信息,并将获取的出边信息存储至对应内存块;
根据节点的入边信息、边属性信息和出边信息,通过节点更新函数进行图谱数据挖掘。
3.根据权利要求1所述的一种大规模复杂网络社区结构检测的方法,其特征在于:所述采用多线程并行的自适应标签传播算法对存储的图谱数据进行标签化处理这一步骤,包括以下步骤:
对存储的图谱数据进行标签初始化处理;
根据标签初始化处理的结果,对存储的图谱数据进行标签更新处理。
4.根据权利要求3所述的一种大规模复杂网络社区结构检测的方法,其特征在于:所述对存储的图谱数据进行标签初始化处理这一步骤,包括以下步骤:
将节点的邻接节点存放于一个数组中,并以该节点命名数组;
将内存块中区间节点对应的标签号初始化为0;
从内存块中选取一个标签号为0的节点为当前节点i;
在当前节点i的邻接节点中查找标签号为0且影响力最大的节点j;
判断节点j的邻接节点中标签值为0且影响力最大的节点是否为当前节点i,若是,则将边(i,j)作为初始边,并将该邻接节点加入与当前节点i和节点j均相邻、标签号为0且影响力最大的节点h,得到极大完全图并执行下一步骤;反之,则从内存块中选取下一个标签号为0的节点为当前节点i,并返回在当前节点i的邻接节点中查找标签号为0且影响力最大的节点j这一步骤;
根据得到的极大完全图,将节点i和节点j中较大的节点编号作为该极大完全图中节点的标签号。
5.根据权利要求3所述的一种大规模复杂网络社区结构检测的方法,其特征在于:所述对存储的图谱数据进行标签更新处理这一步骤,包括以下步骤:
S1、根据标签初始化处理的结果,通过节点更新函数对节点的标签号和权重进行更新,所述节点更新函数的表达式为:
<mrow> <msub> <mi>b</mi> <mi>t</mi> </msub> <mrow> <mo>(</mo> <mi>c</mi> <mo>,</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>b</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>c</mi> <mo>,</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mrow> <msub> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>&amp;Element;</mo> <mi>N</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </msub> <msub> <mi>b</mi> <mrow> <mi>t</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mrow> <mo>(</mo> <mi>c</mi> <mo>,</mo> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mrow> <mo>|</mo> <mi>N</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow> </mfrac> <mo>,</mo> </mrow>
其中,bt(c,i)表示在第t轮迭代时标签c在节点i下的权重,t的初始值为1,N(i)表示节点i邻接节点的集合,|N(i)|表示节点i的影响力;
S2、判断是否存在节点的权重小于若是,则执行步骤S3;反之,则保留该节点对应的标签号和权重并执行步骤S4,其中,L表示节点i拥有的标签个数;
S3、判断是否该节点的所有标签对应的权重都小于若是,则保留该节点的最大权重对应的标签号及权重,并删除该节点的其余标签号和权重;反之,则保留该节点对应的标签号和权重;
S4、对保留的节点的权重进行归一化处理;
S5、判断是否存在节点的标签号为0,若是,则将t的值加1并返回步骤S1;反之,则终止标签更新处理过程。
6.根据权利要求1所述的一种大规模复杂网络社区结构检测的方法,其特征在于:所述根据标签化处理的结果进行后期处理并输出社区结构检测的结果这一步骤,包括以下步骤:
判断节点是否同时属于两个不同的社区,若是,则确定该节点为重叠节点;反之,则确定该节点不是重叠节点;
判断社区Ci和社区Cj是否满足若是,则删除社区Ci并保留社区Cj;反之,则不做处理;
输出复杂网络的社区检测结果。
7.一种大规模复杂网络社区结构检测的系统,其特征在于:包括:
图谱抽象模块,用于将待检测的大规模复杂网络抽象为图谱数据;
优化存储模块,用于采用多线程并行滑动窗口模型,对图谱抽象模块处理得到的图谱数据进行优化存储;
标签化处理模块,用于采用多线程并行的自适应标签传播算法对存储的图谱数据进行标签化处理;
后期处理模块,用于根据标签化处理模块的处理结果进行后期处理并输出社区结构检测的结果,其中,后期处理包括识别重叠节点和合并子集社区。
8.根据权利要求7所述的一种大规模复杂网络社区结构检测的系统,其特征在于:所述优化存储模块,包括:
区间划分单元,用于将图谱数据划分为P个不相交的区间,其中,每个区间对应一个内存块,所述内存块用于存放以对应区间内节点为终点的入边信息和边属性信息;
排序单元,用于根据起始节点序号对每个区间内的边按从小到大的顺序进行排序;
信息获取单元,用于根据排序单元的处理结果,通过滑动P-1个窗口来获取每个区间内节点的出边信息,并将获取的出边信息存储至对应内存块;
数据挖掘单元,用于根据节点的入边信息、边属性信息和出边信息,通过节点更新函数进行图谱数据挖掘。
9.根据权利要求7所述的一种大规模复杂网络社区结构检测的系统,其特征在于:所述标签化处理模块,包括:
标签初始化处理单元,用于对存储的图谱数据进行标签初始化处理;
标签更新处理单元,用于根据标签初始化处理单元的处理结果,对存储的图谱数据进行标签更新处理。
10.一种大规模复杂网络社区结构检测的装置,其特征在于:包括:
存储器,用于存储程序;
处理器,用于加载所述程序以执行如权利要求1-6任一项所述的大规模复杂网络社区结构检测的方法。
CN201711229558.7A 2017-11-29 2017-11-29 一种大规模复杂网络社区结构检测的方法、系统及装置 Pending CN108062360A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711229558.7A CN108062360A (zh) 2017-11-29 2017-11-29 一种大规模复杂网络社区结构检测的方法、系统及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711229558.7A CN108062360A (zh) 2017-11-29 2017-11-29 一种大规模复杂网络社区结构检测的方法、系统及装置

Publications (1)

Publication Number Publication Date
CN108062360A true CN108062360A (zh) 2018-05-22

Family

ID=62135281

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711229558.7A Pending CN108062360A (zh) 2017-11-29 2017-11-29 一种大规模复杂网络社区结构检测的方法、系统及装置

Country Status (1)

Country Link
CN (1) CN108062360A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108614536A (zh) * 2018-06-11 2018-10-02 云南中烟工业有限责任公司 一种卷烟制丝工艺关键因素的复杂网络构建方法
CN109067588A (zh) * 2018-08-21 2018-12-21 电子科技大学 一种基于局部标签信息的半监督非重叠社区发现方法
CN110442754A (zh) * 2019-08-05 2019-11-12 腾讯科技(深圳)有限公司 标签更新方法及装置、分布式存储系统
CN111047453A (zh) * 2019-12-04 2020-04-21 兰州交通大学 基于高阶张量分解大规模社交网络社区的检测方法及装置
CN111177474A (zh) * 2019-06-27 2020-05-19 腾讯科技(深圳)有限公司 一种图数据处理的方法及相关装置
CN111353046A (zh) * 2018-12-20 2020-06-30 杭州海康威视数字技术股份有限公司 图谱数据存储方法、装置、电子设备及可读存储介质
CN111491300A (zh) * 2020-03-11 2020-08-04 中移(杭州)信息技术有限公司 风险检测方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789261A (zh) * 2016-12-26 2017-05-31 广东技术师范学院 一种信息中心网络的局部内容流行度动态确定方法
CN107103053A (zh) * 2017-04-10 2017-08-29 南京信息工程大学 基于重叠节点的复杂网络社区发现方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106789261A (zh) * 2016-12-26 2017-05-31 广东技术师范学院 一种信息中心网络的局部内容流行度动态确定方法
CN107103053A (zh) * 2017-04-10 2017-08-29 南京信息工程大学 基于重叠节点的复杂网络社区发现方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KYROLA A,BLELLOCH G,GUESTRIN C: "Graphchi:Large-scale graph computation on just a pc", 《OSDI》 *
李春英,汤志康,汤庸,赵剑冬,黄泳航: "局部优先的社会网络社区结构检测算法", 《万方数据库》 *
袁培森,舒欣,沙朝锋,徐焕良: "基于内存计算的大规模图数据管理研究", 《华东师范大学学报(自然科学版)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108614536A (zh) * 2018-06-11 2018-10-02 云南中烟工业有限责任公司 一种卷烟制丝工艺关键因素的复杂网络构建方法
CN108614536B (zh) * 2018-06-11 2020-10-27 云南中烟工业有限责任公司 一种卷烟制丝工艺关键因素的复杂网络构建方法
CN109067588A (zh) * 2018-08-21 2018-12-21 电子科技大学 一种基于局部标签信息的半监督非重叠社区发现方法
CN111353046A (zh) * 2018-12-20 2020-06-30 杭州海康威视数字技术股份有限公司 图谱数据存储方法、装置、电子设备及可读存储介质
CN111353046B (zh) * 2018-12-20 2023-05-26 杭州海康威视数字技术股份有限公司 图谱数据存储方法、装置、电子设备及可读存储介质
CN111177474A (zh) * 2019-06-27 2020-05-19 腾讯科技(深圳)有限公司 一种图数据处理的方法及相关装置
CN111177474B (zh) * 2019-06-27 2022-12-02 腾讯科技(深圳)有限公司 一种图数据处理的方法及相关装置
CN110442754A (zh) * 2019-08-05 2019-11-12 腾讯科技(深圳)有限公司 标签更新方法及装置、分布式存储系统
CN111047453A (zh) * 2019-12-04 2020-04-21 兰州交通大学 基于高阶张量分解大规模社交网络社区的检测方法及装置
CN111491300A (zh) * 2020-03-11 2020-08-04 中移(杭州)信息技术有限公司 风险检测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108062360A (zh) 一种大规模复杂网络社区结构检测的方法、系统及装置
Kerschke et al. Leveraging TSP solver complementarity through machine learning
CN111444394B (zh) 获取实体间关系表达的方法、系统和设备、广告召回系统
US8843492B2 (en) Record linkage based on a trained blocking scheme
Wang et al. Effective lossless condensed representation and discovery of spatial co-location patterns
CN107220277A (zh) 基于手绘草图的图像检索算法
CN106156082B (zh) 一种本体对齐方法及装置
CN108038183A (zh) 结构化实体收录方法、装置、服务器和存储介质
CN107330115A (zh) 一种信息推荐方法及装置
CN110837602A (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
CN112613602A (zh) 基于知识感知超图神经网络的推荐方法及系统
CN106844407A (zh) 基于数据集相关性的标签网络产生方法和系统
CN109614499A (zh) 一种词典生成方法、新词发现方法、装置及电子设备
CN103957116B (zh) 一种云故障数据的决策方法及系统
CN102831129B (zh) 一种基于多示例学习的检索方法及系统
CN110175184A (zh) 一种数据维度的下钻方法、系统及电子设备
CN108989122A (zh) 虚拟网络请求映射方法、装置及实现装置
Jiang et al. Identifying K Primary Corridors from urban bicycle GPS trajectories on a road network
CN114065048A (zh) 基于多异构图图神经网络的物品推荐方法
CN111522886A (zh) 一种信息推荐方法、终端及存储介质
Carrabs et al. An adaptive heuristic approach to compute upper and lower bounds for the close-enough traveling salesman problem
CN107085594A (zh) 大图数据库中基于集合相似度的子图匹配方法
CN115659985A (zh) 电力知识图谱实体对齐方法、装置和计算机设备
Junttila Patterns in permuted binary matrices
Ma et al. Uncovering inter-specialty knowledge communication using author citation networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180522