CN102724219B - 网络数据的计算机处理方法及系统 - Google Patents
网络数据的计算机处理方法及系统 Download PDFInfo
- Publication number
- CN102724219B CN102724219B CN201110076719.XA CN201110076719A CN102724219B CN 102724219 B CN102724219 B CN 102724219B CN 201110076719 A CN201110076719 A CN 201110076719A CN 102724219 B CN102724219 B CN 102724219B
- Authority
- CN
- China
- Prior art keywords
- node
- grouping
- filtered
- degrees
- network data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0893—Assignment of logical groups to network elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种网络数据的计算机处理方法以及一种处理网络数据的计算机系统。其中该计算机处理方法包括:接收网络数据;过滤网络数据中度数高于预定阈值的节点;存储被过滤节点及其邻接关系;对过滤后的网络数据进行聚类以获得初步分组;以及基于所述被过滤节点及其邻接关系和所述初步分组获得最终分组。本发明提供的计算机处理方法和系统可以适用于大规模网络数据的处理,对于大规模网络数据的聚类处理时间将大大降低,本发明还能够很好地被并行化实施。
Description
技术领域
本发明总体上涉及信息处理技术领域,特别地,涉及一种网络数据的计算机处理方法及系统。
背景技术
目前,由于信息技术特别是互联网技术的发展,信息在各个信息节点之间传输,因此在网络上存在大量这种反映信息节点之间关联的网络数据。针对这些大量和大规模的网络数据,目前存在着大量技术分析需求,即如何找到这些信息节点之间的关联关系,比如检测出网络中异常行为的节点,或进行垃圾邮件过滤等。
然而在处理包含大量节点的大规模网络数据时,例如涉及处理的网络数据的节点达到105或者更大时,现有技术显得明显不足,甚至无能为力。图1示出了现在已成为技术热点的社群发现(community detection)方法(具体实现可参见参考文献【1】Y.Zhang,J.Wang,Y.Wang,L.Zhou.Parallel Community Detection on Large Networks with PropinquityDynamics.ACM SIGKDD′09(PP:997-1005))的性能评估,其处理的数据集是某电子公告牌(BBS)网站的3个月发文记录,其中用户之间的关系用回帖来建立。该方法实现和运行在Hadoop MapReduce平台,该平台共有6个X86集群机器节点构成,平均CPU双核1.66G,内存4G。从图1中可以发现,当用户数目增加到20万的时候,处理时间急剧增加到27小时多,而如果数据规模再增大的话,处理时间则呈指数增长,采用上述方法显然是无法处理的。
因此需要一种网络数据的计算机处理方法和系统。
发明内容
本发明一方面提供一种网络数据的计算机处理方法,包括:接收网络数据;过滤网络数据中度数高于预定阈值的节点;存储被过滤节点及其邻接关系;对过滤后的网络数据进行聚类以获得初步分组;以及基于所述被过滤节点及其邻接关系和所述初步分组获得最终分组。
本发明另一方面提供一种处理网络数据的计算机系统,包括:接收装置,被配置为接收网络数据;过滤装置,被配置为过滤网络数据中度数高于预定阈值的节点;存储装置,被配置为存储被过滤节点及其邻接关系;聚类装置,被配置为对过滤后的网络数据进行聚类以获得初步分组;以及最终分组装置,被配置为基于所述被过滤节点及其邻接关系和所述初步分组获得最终分组。
本发明提供的能够加速网络数据处理的计算机处理方法和系统可以以适用于大规模网络数据的处理,对于大规模网络数据的聚类处理时间将大大降低,本发明还能够很好地被并行化,利于其普遍的实施。
附图说明
为了对本发明实施例的特征和优点进行详细说明,将参照以下附图。如果可能的话,在附图和描述中使用相同或者类似的参考标号以指代相同或者类似的部分。其中:
图1示出了现有社区发现方法的性能评估;
图2示出了本发明用于网络数据的计算机处理方法的第一具体实施方式;
图3示出了基于所述被过滤节点及其邻接关系和所述初步分组获得最终分组的优选实施方式;
图4示出了本发明用于网络数据的计算机处理方法的第二具体实施方式;
图5示出了本发明的一个示例性的具体应用实例;
图6示出了本发明在云计算平台MapReduce上并行实现的方法;
图7示出了采用本发明的方法以及传统方法的效果比较;
图8示出了本发明用于处理网络数据的计算机系统结构示意图;
图9示出了可以实现根据本发明的实施例的计算设备的结构方框图
具体实施方式
现在将参考本发明的示例性实施例进行详细的描述,在附图中图解说明了所述实施例的示例,其中相同的参考数字始终指示相同的元件。应当理解,本发明并不限于所公开的示例实施例。还应当理解,并非所述方法和设备的每个特征对于实施任一权利要求所要求保护的本发明都是必要的。此外,在整个公开中,当显示或描述处理或方法时,方法的步骤可以以任何顺序或者同时执行,除非从上下文中能清楚一个步骤依赖于先执行的另一步骤。此外,步骤之间可以有显著的时间间隔。
一般而言,本领域技术人员将网络数据中的节点与节点之间的关联程度称为度数,示例性地,如果节点V1与其它5个节点有联系,则可以认为节点V1在该网络数据中的度数为5。如果将网络数据中的各个节点看做点,将存在联系的节点之间用线连接,则就形成了图。本发明对有向网络数据和无向网络数据都适用。本申请人在研究实践中特别注意到,在大规模的网络数据中,节点与节点之间的联系往往并不是均匀的,有部分节点与其它很多节点关联比较紧密,而大部分的节点则只是与少数的节点有关联。正是基于这种天然的不均匀性,本申请人另辟蹊径地提出了本发明。
图2示出了本发明的用于网络数据的计算机处理方法的第一具体实施方式。在步骤201中,接收网络数据。所述网络数据可以从多种途径获得,例如,移动的通话详单(Call Detail Record)中可以提取通话双方作为节点,通话与否作为边,构建网络数据。另外网页和网页之间的连接关系,也可以构成网络数据。又例如,社交网站(如Facebook)中申明的朋友关系可以构成网络数据。网络数据可以采用邻接表或者邻接矩阵表征。并且可以采用图的方式向用户呈现。
在步骤203中,过滤网络数据中度数高于预定阈值的节点。对于预定阈值的设立,可以由本领域技术人员根据具体的数据集,设置不同的预定阈值,该预定阈值可以为度数的绝对值。另外也可以考虑过滤一定比例的节点,具体做法是,统计所述网络数据中全部节点的度数分布,优选可以根据全部节点的度数进行升序排序或者降序排序。选择全部节点中具有高度数的一定百分比范围内的(优选前5.5%至1%)任一节点的度数作为预定阈值。
在步骤205中,存储被过滤节点及其邻接关系。在该步骤中,所述邻接关系由与所述被过滤节点相邻接的节点的集合来表征。比如,节点V16与V15、V18、V19、V17、V12相邻接,V16节点被过滤,则可以将节点V16和其邻接关系{V15,V18,V19,V17,V12}进行存储。存储的方式可以是在内存中进行存储,也可以在永久性存储介质中进行存储。
在步骤207中,对过滤后的网络数据进行聚类以获得初步分组。在该步骤中,可以对以节点以及边表示的网络数据进行聚类分组。本领域技术人员可以根据具体的数据而选择任合适的聚类算法以获得初步分组。比如对于社群发现,可以采用如参考文献【1】或者参考文献【2】Fábio Protti,Felipe M.G.Franca,Jayme Luiz Szwarcfiter,On Computing All Maximal CliquesDistributedly,Proceedings of the 4th International Symposium on SolvingIrregularly Structured Problems in Parallel,1997所提出的方法。
在步骤209中,基于所述被过滤节点及其邻接关系和所述初步分组获得最终分组。在该步骤中,通过被过滤节点的邻接关系,确定与所述被过滤节点相关联的初步分组,再进一步确定所述被过滤节点是否属于某个或某几个初步分组,并最后获得最终分组。
图3示出了基于所述被过滤节点及其邻接关系和所述初步分组获得最终分组的优选实施方式。在步骤301中,依据所存储的邻接关系,建立所述被过滤节点与所述初步分组之间的映射。其中,确定包括了其邻接关系中的至少一个节点的初步分组,将这些初步分组作为可能将所述被过滤节点归入的潜在分组。并且将所述被过滤节点与包括了所述邻接关系中的节点的初步分组进行关联。
在步骤303中,确定所述被过滤节点是否属于所述初步分组。优选地,计算所述初步分组中节点的平均度数,其中所述平均度数等于所述初步分组所有节点的度数之和除以所述初步分组所有节点的个数。并且计算所过滤述节点与所述初步分组内节点的实际关联度数,其中所述实际关联度数等于该被过滤节点与所述初步分组中的节点之间的边的个数总和。进一步判断所述实际度数是否大于所述平均度数,响应于确定所述实际度数大于所述平均度数,确定所述被过滤节点属于所述初步分组。当然本领域技术人员基于本申请,可以构思出其它的确定确定所述被过滤节点是否属于所述初步分组的实施方式。
在步骤305中,响应于确定所述被过滤节点属于所述初步分组,将所述被过滤节点归入所述初步分组。
在步骤307中,判断是否已经遍历所有的被过滤节点,如果还有被过滤节点没有处理,则重复执行步骤303至步骤305。
在步骤309中,响应于将所有的所述被过滤节点归入其对应的所述初步分组,将所述初步分组作为最终分组。
图4示出了本发明优选的用于大规模网络数据的处理方法的第二具体实施方式。在本实施例中,将网络数据表征为图,其中数据节点作为图的节点,数据节点之间的关联用图的边表示。在步骤401中,通过计算或者由用户输入用于过滤的度数预定阈值。在步骤403中,判断网络数据中的各个节点的度数是否是高于预定阈值。值得注意的是,虽然这样判断条件设定为大于预定阈值,但是应当理解,设定高于或者等于预定阈值等其它等同实施方式也应在本发明的保护范围内。在步骤405中,经过上述过滤步骤,就获得了所有度数小于或者等于预定阈值的节点形成的子图。在步骤405中,对子图执行图聚类算法,就可以得到聚类的分组。其中本领域技术人员可以根据实际数据的特点以及需要,选择各种传统的图聚类算法,比如基于modularity的聚类算法(具体参见参考文献【3】M.E.J.Newman and M.Girvan.Finding andevaluating community structure in networks.Physical Review E,69:026113,2004.)、基于谱的聚类算法(具体参见参考文献【4】M.E.J.Newman.Findingcommunity structure in networks using the eigenvectors of matrices.Phys Rev EStat Nonlin Soft Matter Phys,74(3),2006)。对于那些度数高于预定阈值的节点,则在步骤409中存储这些节点以及邻接关系,以利用后续步骤的使用。在步骤411中,则根据保存的被过滤节点及其邻接关系,求出被过滤节点潜在属于的分组。在步骤413中,对于每个被被过滤节点对应的潜在分组,判断该节点是否属于上述分组。由于求出潜在的分组和判断被过滤节点是否属于所述分组的具体方法已经在上面介绍,在此不再赘述。优选地,还可以在本实施方式中增加步骤415,其中用所有被过滤节点组成的子图,判断是否有额外的聚类分组,若有,则利用这些分组进一步聚合,聚合的方法也可以采用上面提到的各种图聚类方法,从而得到新的分组,将所述新的分组并入最终分组。并将所述新的分组并入最终分组,从而可以得到更加完备的分组信息。
图5示出了本发明的一个示例性的具体应用实例。如图5所示的无向无回路网络数据中,V代表用户节点,边代表用户节点之间有关联,该具体应用实例需要从所示网络数据中挖掘出社群关系(community)。以下详细说明该应用实例如何获得相关结果:
1)计算过滤的预定阈值,统计每个节点的度数并且排序,取前1%的作为过滤的预定阈值,该图的预定阈值为5;
2)发现图中节点V16的度数大于5(v16的度数=6),因此保存节点V16及其邻接关系{V15,V18,V19,V17,V12,V17};
3)对于除了V16的所有节点做社群发现,可采用如参考文献【2】所介绍的方法,其基本思路是每一轮迭代,判断在两跳之内的所有点两两之间的相似性,将相似但是没有边的两点之间连上边,将不相似但是连接了边的两点之间去掉边,网络拓扑的变化小于一定阈值时,迭代结束,否则继续下一轮节点。这里只是参考文献【2】的方法进行了简述,详情可具体参见参考文献本身。图5所示网络,在迭代结束后,会得到的3个初步分组G1{V5,V10,V11,V15}、G2{V1,V2,V3,V6,V7,V12,V17}、G3{V18,V19,V21};
4)利用在2)中存储的结果,根据V16的邻接关系,发现上述三个初步分组G1、G2、G3中都包含有其邻接的节点,因此V16可能属于三个初步分组G1、G2、G3;
5)分别计算G1、G2、G3中的平均度数。其中G1、G2、G3的平均度数分别为1.5、1.6、0.7,而V16与G1、G2、G3的实际关联度数分别为1、3、2,由于确定V16与G2、G3的实际关联度数大于G2、G3的平均度数,因此可以判断V16同时属于G2、G3,并将V16分别归入G2、G3,从而形成如图5所示的最终分组结果G1{V5,V10,V11,V15}、G2{V1,V2,V3,V6,V7,V12,V16,V17}、G3{V16,V18,V19,V21}。
本发明的各个具体实施方式可适用于各种实现平台,例如单机实现的网络数据聚类处理,基于MapReduce、MPI等并行计算平台实现的网络数据聚类处理。图6示例性示出了本发明在云计算平台Hadoop MapReduce上并行实现的方法。图6中的每一个带阴影的方框代表一个MapReduce作业(job),M代表Map任务,R代表Reduce任务,其中连通图计算器由若干个MapReduce作业组成,其他模块都是一个MapReduce作业。
为了实现社群发现,网络在MapReduce中的基本数据结构为“两跳邻接表”,即每行用节点作为键值(key),节点的邻接表以及邻接表中每个节点的邻接表,作为值(value),同时还要在value中存储该节点对于两跳邻接表中所有节点的相似度,并且预留一定的value字段用于标记等信息的存储。例如节点A的两跳邻接表是A-C(A,B,D),B(A,C),其中A的一跳邻居是B,C,一跳邻居B包括A,C,C包括A,B,D。这样的数据结构是为了方便实现参考文献【1】中所描述的主聚类方法。
在预处理阶段,通过一个MapReduce作业,把度数大于指定门限的节点标记(度数求解很容易用一个Map任务实现,因为每个节点存储了邻接表,度数就是邻接表中成员的个数),标记后的数据,同时作为“过滤器”和“大度数节点采集器”的输入。
在主算法阶段,接收过滤器的输出为小于制定门限节点的两跳邻接矩阵集合,根据参考文献【1】中主聚类方法,进行若干轮迭代以更新拓扑,每一轮迭代,通过相似性计算器得到节点之间的相似度,通过拓扑更新器更新拓扑结构,当拓扑变换小于指定门限的时候,迭代结束,参考文献【1】中所述主算法完成。
在后处理阶段,主算法完成后,调用连通图计算器(具体方法可参见Weakly Connected Component implemented in XRIME,http://xrime.sourceforge.net/),得到每个节点对应的社群。这时候,调用“组度数计算器”计算每个分组的平均度数。“组度数计算器”输入的key为节点,value为分组编号,输出key为分组,value为该分组平均度数和包括的节点集合。“组度数计算器”的输出(输出1)和“大度数节点采集器”的输出(输出2),被同时作为“分组选择器”的输入,“分组选择器”的输出为被过滤节点的潜在分组。在Map阶段,“分组选择器”根据被过滤节点的邻接表,向被过滤节点的每个邻居发送{分组,过滤的节点}键值对消息,例如,如果节点V有邻居v1,v2,v3,v4和v5,而v1和v2被分到组g1,v3,v4和v5被分到组g2,这时候“分组选择器”发送2条<g1,V>到g1为key的reducer,发送3条<g2,V>到g2为key的reducer,因此,每个分组中收到的V对应的消息条数,就表明了该节点在该分组中的邻居个数,记录这个个数作为标号L。进而,分组聚合器就可以通过标号L和先前计算的组平均度数,判断V是否真的属于这个分组,最后得到最终分组结果。
图7示出了采用本发明的方法与仅采用参考文献【1】或类似的传统方法的处理一个实例数据集的效果比较。这些方法都实现在Hadoop MapRuce平台,该平台的集群由6个1.66G的双核X86,4G内存的刀片构成。如图7可见,应用本发明后,社群发现的时间在该实施例部署环境中比传统方法在处理大于15万个节点规模的网络数据时节省了近92.3%的时间。传统的处理方法在大规模的网络数据的处理时间上呈指数增长。本发明的各个具体实施方式之所以能够比传统方法有如此出乎意料之外的技术效果,根本原因在于本申请人仔细分析了相关网络数据的分布特点,另辟蹊径地创造性提出了本发明的各个具体实施方式,通过过滤度数大的节点然后再与初步分组合并,从而避免了在初步分组聚类的过程中,大度数节点引入造成的若干浪费的计算开销。所得到的分组结果不会丧失原有的相关信息,却大大地提高了分组的效率,取得了显著的技术效果。
应当理解,本发明针对大规模网络数据提出上述各个实施方式,但本发明同样适用于一般规模的网络数据,同样会有相应的增益。如果本领域技术人员基于其具备的专业知识将本发明的方法扩展其它物理网络数据(例如传感器网等),并基于本领域的知识而适应性地修改本发明的各个具体实施方式,也是同样适用的。
图8则示出了本发明的处理网络数据的计算机系统800。该计算机系统800包括:接收装置801,其被配置为接收网络数据;过滤装置803,其被配置为过滤网络数据中度数高于预定阈值的节点;存储装置805,其被配置为存储被过滤节点及其邻接关系;聚类装置807,其被配置为对过滤后的网络数据进行聚类以获得初步分组;以及最终分组确定装置809,其被配置为基于所述被过滤节点及其邻接关系和所述初步分组获得最终分组。
优选地,所述最终分组确定装置809包括:映射装置,其被配置为依据所存储的邻接关系,建立所述被过滤节点与所述初步分组之间的映射;判断装置,被配置为确定所述被过滤节点是否属于所述初步分组;以及归入装置,被配置为响应于确定所述被过滤节点属于所述初步分组,将所述被过滤节点归入所述初步分组。
优选地,所述最终分组确定装置809还包括:最终分组确定装置,被配置为响应于将所有的所述被过滤节点归入其对应的所述初步分组,将所述初步分组作为最终分组。
优选地,所述计算机系统800还包括:新分组装置,被配置为对所述被过滤节点组成的子网络数据进行聚类,以形成新的分组;以及合并装置,被配置为将所述新的分组并入所述最终分组。
优选地,所述计算机系统800还包括:统计装置,被配置为统计所述网络数据中全部节点的度数分布;以及预定阈值确定装置,被配置为选择全部节点中具有高度数的前一定百分比范围内的(优选前5.5%-1%)任一节点的度数,作为预定阈值。
优选地,其中所述邻接关系由与所述被过滤节点相邻接的节点的集合来表征。
优选地,所述映射装置包括:初步分组确定装置,被配置为确定包括了所述被过滤节点的邻接关系中的至少一个节点的初步分组;以及关联装置,被配置为将所述被过滤节点与确定的初步分组进行关联。
优选地,其中所述判断装置包括:平均度数计算装置,被配置为计算所述初步分组中节点的平均度数;实际关联度数计算装置,被配置为计算所述被过滤节点与所述初步分组内节点的实际关联度数;比较装置,被配置为确定所述实际关联度数是否大于所述平均度数;以及确定装置,被配置为响应于确定所述实际关联度数大于所述平均度数,确定所述被过滤节点属于所述初步分组。
优选地,该计算机系统800部署在MapReduce计算平台。
图9则示意性示出了可以实现根据本发明的实施例的计算设备的结构方框图。图9中所示的计算机系统包括CPU(中央处理单元)901、RAM(随机存取存储器)902、ROM(只读存储器)903、系统总线904,硬盘控制器905、键盘控制器906、串行接口控制器907、并行接口控制器908、显示器控制器909、硬盘910、键盘911、串行外部设备912、并行外部设备913和显示器914。在这些部件中,与系统总线904相连的有CPU 901、RAM 902、ROM 903、硬盘控制器905、键盘控制器906,串行接口控制器907,并行接口控制器908和显示器控制器909。硬盘910与硬盘控制器905相连,键盘911与键盘控制器906相连,串行外部设备912与串行接口控制器907相连,并行外部设备913与并行接口控制器908相连,以及显示器914与显示器控制器909相连。
图9中每个部件的功能在本技术领域内都是众所周知的,并且图9所示的结构也是常规的。这种结构不仅用于个人计算机,而且用于手持设备,如Palm PC、PDA(个人数据助理)、移动电话等等。在不同的应用中,例如用于实现包含有根据本发明的客户端模块的用户终端或者包含有根据本发明的网络应用服务器的服务器主机时,可以向图9中所示的结构添加某些部件,或者图9中的某些部件可以被省略。图9中所示的整个系统由通常作为软件存储在硬盘910中、或者存储在EPROM或者其它非易失性存储器中的计算机可读指令控制。软件也可从网络(图中未示出)下载。或者存储在硬盘910中,或者从网络下载的软件可被加载到RAM 902中,并由CPU 901执行,以便完成由软件确定的功能。
尽管图9中描述的计算机系统能够支持根据本发明的提供的技术方案,但是该计算机系统只是计算机系统的一个例子。本领域的熟练技术人员可以理解,许多其它计算机系统设计也能实现本发明的实施例。
本发明还可以实现为例如由图9所示计算机系统所使用的计算机程序产品,其可以包含有用于实现根据本发明的提供的MMS传输方法的代码。在使用之前,可以把代码存储在其它计算机系统的存储器中,例如,存储在硬盘或诸如光盘或软盘的可移动的存储器中,或者经由因特网或其它计算机网络进行下载。
尽管参考本发明的优选实施例具体展示和描述了本发明,但是本领域一般技术人员应该明白,在不脱离所附权利要求限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种修改。
Claims (16)
1.一种网络数据的计算机处理方法,包括:
接收网络数据;
过滤网络数据中度数高于预定阈值的节点;
存储被过滤节点及其邻接关系;
对过滤后的网络数据进行聚类以获得初步分组;以及
基于所述被过滤节点及其邻接关系和所述初步分组获得最终分组。
2.如权利要求1所述的方法,所述基于所述被过滤节点及其邻接关系和所述初步分组获得最终分组包括:
依据所存储的邻接关系,建立所述被过滤节点与所述初步分组之间的映射;
确定所述被过滤节点是否属于所述初步分组;以及
响应于确定所述被过滤节点属于所述初步分组,将所述被过滤节点归入所述初步分组。
3.如权利要求2所述的方法,所述基于所述被过滤节点及其邻接关系和所述初步分组获得最终分组还包括:
响应于将所有的所述被过滤节点归入其对应的所述初步分组,将所述初步分组作为最终分组。
4.如权利要求1所述的方法,还包括:
对所述被过滤节点组成的子网络数据进行聚类,以形成新的分组;以及
将所述新的分组并入所述最终分组。
5.如权利要求1所述的方法,其中所述邻接关系由与所述被过滤节点相邻接的节点的集合来表征。
6.如权利要求2所述的方法,所述建立所述被过滤节点与所述初步分组之间的映射包括:
确定包括了所述被过滤节点的邻接关系中的至少一个节点的初步分组;以及
将所述被过滤节点与确定的初步分组进行关联。
7.如权利要求2所述的方法,其中所述确定所述被过滤节点是否属于所述初步分组包括:
计算所述初步分组中节点的平均度数;
计算所述被过滤节点与所述初步分组内节点的实际关联度数;
确定所述实际关联度数是否大于所述平均度数;以及
响应于确定所述实际关联度数大于所述平均度数,确定所述被过滤节点属于所述初步分组。
8.如权利要求1所述的方法,其中,该方法部署在MapReduce计算平台。
9.一种处理网络数据的计算机系统,包括:
接收装置,被配置为接收网络数据;
过滤装置,被配置为过滤网络数据中度数高于预定阈值的节点;
存储装置,被配置为存储被过滤节点及其邻接关系;
聚类装置,被配置为对过滤后的网络数据进行聚类以获得初步分组;以及
最终分组确定装置,被配置为基于所述被过滤节点及其邻接关系和所述初步分组获得最终分组。
10.如权利要求9所述的计算机系统,所述最终分组装置包括:
映射装置,被配置为依据所存储的邻接关系,建立所述被过滤节点与所述初步分组之间的映射;
判断装置,被配置为确定所述被过滤节点是否属于所述初步分组;以及
归入装置,被配置为响应于确定所述被过滤节点属于所述初步分组,将所述被过滤节点归入所述初步分组。
11.如权利要求10所述的计算机系统,所述最终分组装置还包括:
最终分组确定装置,被配置为响应于将所有的所述被过滤节点归入其对应的所述初步分组,将所述初步分组作为最终分组。
12.如权利要求9所述的计算机系统,还包括:
新分组装置,被配置为对所述被过滤节点组成的子网络数据进行聚类,以形成新的分组;以及
合并装置,被配置为将所述新的分组并入所述最终分组。
13.如权利要求9所述的计算机系统,其中所述邻接关系由与所述被过滤节点相邻接的节点的集合来表征。
14.如权利要求10所述的计算机系统,所述映射装置包括:
初步分组确定装置,被配置为确定包括了所述被过滤节点的邻接关系中的至少一个节点的初步分组;以及
关联装置,被配置为将所述被过滤节点与确定的初步分组进行关联。
15.如权利要求10所述的计算机系统,其中所述判断装置包括:
平均度数计算装置,被配置为计算所述初步分组中节点的平均度数;
实际关联度数计算装置,被配置为计算所述被过滤节点与所述初步分组内节点的实际关联度数;
比较装置,被配置为确定所述实际关联度数是否大于所述平均度数;以及
确定装置,被配置为响应于确定所述实际关联度数大于所述平均度数,确定所述被过滤节点属于所述初步分组。
16.如权利要求9所述的计算机系统,其中,该计算机系统部署在MapReduce计算平台。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110076719.XA CN102724219B (zh) | 2011-03-29 | 2011-03-29 | 网络数据的计算机处理方法及系统 |
US13/433,442 US10103942B2 (en) | 2011-03-29 | 2012-03-29 | Computer processing method and system for network data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110076719.XA CN102724219B (zh) | 2011-03-29 | 2011-03-29 | 网络数据的计算机处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102724219A CN102724219A (zh) | 2012-10-10 |
CN102724219B true CN102724219B (zh) | 2015-06-03 |
Family
ID=46949881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110076719.XA Active CN102724219B (zh) | 2011-03-29 | 2011-03-29 | 网络数据的计算机处理方法及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10103942B2 (zh) |
CN (1) | CN102724219B (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104011701B (zh) | 2011-12-14 | 2017-08-01 | 第三雷沃通讯有限责任公司 | 内容传送网络系统和能够在内容传送网络中操作的方法 |
US8856341B2 (en) * | 2012-05-31 | 2014-10-07 | Hewlett-Packard Development Company, L.P. | Balancing management duties in a cloud system |
US9705754B2 (en) | 2012-12-13 | 2017-07-11 | Level 3 Communications, Llc | Devices and methods supporting content delivery with rendezvous services |
US20140337472A1 (en) | 2012-12-13 | 2014-11-13 | Level 3 Communications, Llc | Beacon Services in a Content Delivery Framework |
US10701148B2 (en) | 2012-12-13 | 2020-06-30 | Level 3 Communications, Llc | Content delivery framework having storage services |
US10652087B2 (en) | 2012-12-13 | 2020-05-12 | Level 3 Communications, Llc | Content delivery framework having fill services |
US10791050B2 (en) | 2012-12-13 | 2020-09-29 | Level 3 Communications, Llc | Geographic location determination in a content delivery framework |
US9634918B2 (en) | 2012-12-13 | 2017-04-25 | Level 3 Communications, Llc | Invalidation sequencing in a content delivery framework |
US10701149B2 (en) | 2012-12-13 | 2020-06-30 | Level 3 Communications, Llc | Content delivery framework having origin services |
CN103051476B (zh) * | 2012-12-24 | 2015-04-22 | 浙江大学 | 基于拓扑分析的网络社区发现方法 |
US10083250B2 (en) * | 2013-05-22 | 2018-09-25 | International Business Machines Corporation | Simplification of large networks and graphs |
TWI484431B (zh) * | 2013-09-18 | 2015-05-11 | Chunghwa Telecom Co Ltd | Multi - source heterogeneous network data community analysis method |
TWI538441B (zh) * | 2013-11-05 | 2016-06-11 | 衛信科技有限公司 | 用以建構網路結構部署圖之處理系統及其方法與內儲網路結構部署分析程式之電腦程式產品 |
CN104268270A (zh) * | 2014-10-13 | 2015-01-07 | 北京建筑大学 | 基于MapReduce挖掘海量社交网络数据中三角形的方法 |
US9591047B1 (en) | 2016-04-11 | 2017-03-07 | Level 3 Communications, Llc | Invalidation in a content delivery network (CDN) |
CN108399151B (zh) * | 2017-02-06 | 2022-02-15 | 百度在线网络技术(北京)有限公司 | 数据比对系统和方法 |
US10496704B2 (en) * | 2017-03-16 | 2019-12-03 | Raytheon Company | Quantifying consistency of a system architecture by comparing analyses of property graph data models representing different versions of the system architecture |
US10430462B2 (en) | 2017-03-16 | 2019-10-01 | Raytheon Company | Systems and methods for generating a property graph data model representing a system architecture |
US10430463B2 (en) | 2017-03-16 | 2019-10-01 | Raytheon Company | Systems and methods for generating a weighted property graph data model representing a system architecture |
US10459929B2 (en) | 2017-03-16 | 2019-10-29 | Raytheon Company | Quantifying robustness of a system architecture by analyzing a property graph data model representing the system architecture |
US10826781B2 (en) * | 2017-08-01 | 2020-11-03 | Elsevier, Inc. | Systems and methods for extracting structure from large, dense, and noisy networks |
CN111241362A (zh) * | 2020-01-13 | 2020-06-05 | 广州工程技术职业学院 | 模糊数据聚类方法、装置、设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661482A (zh) * | 2008-08-27 | 2010-03-03 | 国际商业机器公司 | 在网络中识别相似子图的方法和设备 |
CN101944045A (zh) * | 2010-10-18 | 2011-01-12 | 中国人民解放军国防科学技术大学 | 基于社区特性的并行离散事件仿真对象分发方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7466663B2 (en) * | 2000-10-26 | 2008-12-16 | Inrotis Technology, Limited | Method and apparatus for identifying components of a network having high importance for network integrity |
US7885960B2 (en) * | 2003-07-22 | 2011-02-08 | Microsoft Corporation | Community mining based on core objects and affiliated objects |
US7818272B1 (en) | 2006-07-31 | 2010-10-19 | Hewlett-Packard Development Company, L.P. | Method for discovery of clusters of objects in an arbitrary undirected graph using a difference between a fraction of internal connections and maximum fraction of connections by an outside object |
US8395622B2 (en) | 2008-06-18 | 2013-03-12 | International Business Machines Corporation | Method for enumerating cliques |
US8497863B2 (en) * | 2009-06-04 | 2013-07-30 | Microsoft Corporation | Graph scalability |
US8321873B2 (en) * | 2009-06-09 | 2012-11-27 | Yahoo! Inc. | System and method for offline data generation for online system analysis |
US8510315B2 (en) * | 2010-12-06 | 2013-08-13 | Microsoft Corporation | Prioritizing travel itineraries |
-
2011
- 2011-03-29 CN CN201110076719.XA patent/CN102724219B/zh active Active
-
2012
- 2012-03-29 US US13/433,442 patent/US10103942B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661482A (zh) * | 2008-08-27 | 2010-03-03 | 国际商业机器公司 | 在网络中识别相似子图的方法和设备 |
CN101944045A (zh) * | 2010-10-18 | 2011-01-12 | 中国人民解放军国防科学技术大学 | 基于社区特性的并行离散事件仿真对象分发方法 |
Non-Patent Citations (1)
Title |
---|
复杂网络聚类方法;杨博 等;《软件学报》;20090115;第54-64页 * |
Also Published As
Publication number | Publication date |
---|---|
US20120284384A1 (en) | 2012-11-08 |
US10103942B2 (en) | 2018-10-16 |
CN102724219A (zh) | 2012-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102724219B (zh) | 网络数据的计算机处理方法及系统 | |
CN110210227B (zh) | 风险检测方法、装置、设备和存储介质 | |
CN105224606B (zh) | 一种用户标识的处理方法及装置 | |
CN105550583A (zh) | 基于随机森林分类方法的Android平台恶意应用检测方法 | |
CN106951925A (zh) | 数据处理方法、装置、服务器及系统 | |
CN113315742B (zh) | 攻击行为检测方法、装置及攻击检测设备 | |
KR20110131094A (ko) | 정보 네트워크 내의 커뮤니티를 식별하는 방법 및 시스템 | |
CN108038130A (zh) | 虚假用户的自动清理方法、装置、设备及存储介质 | |
CN106452858B (zh) | 一种识别网络用户的方法、装置和计算设备 | |
CN104408640B (zh) | 应用软件推荐方法及装置 | |
CN107368856A (zh) | 恶意软件的聚类方法及装置、计算机装置及可读存储介质 | |
CN105335368A (zh) | 一种产品聚类方法及装置 | |
CN104077280A (zh) | 社区发现并行化方法和系统、主节点和运算节点设备 | |
CN105281925A (zh) | 网络业务用户群组划分的方法和装置 | |
CN104506356A (zh) | 一种确定ip地址信誉度的方法和装置 | |
CN104615765A (zh) | 一种移动用户上网记录的数据处理方法及装置 | |
CN107645740A (zh) | 一种移动监测方法及终端 | |
CN105045790A (zh) | 图数据搜索系统、方法和设备 | |
CN102508640B (zh) | 基于任务分解的分布式rfid复杂事件检测方法 | |
CN111010387B (zh) | 一种物联网设备非法替换检测方法、装置、设备及介质 | |
Sun et al. | A parallel self-organizing overlapping community detection algorithm based on swarm intelligence for large scale complex networks | |
Su et al. | IncNSA: Detecting communities incrementally from time-evolving networks based on node similarity | |
CN106681803A (zh) | 一种任务调度方法及服务器 | |
CN113127730A (zh) | 一种基于重叠社区的社区检测方法、终端设备及存储介质 | |
CN106304084B (zh) | 信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |