CN111191080A - 一种数据处理的方法及装置 - Google Patents

一种数据处理的方法及装置 Download PDF

Info

Publication number
CN111191080A
CN111191080A CN201910782208.6A CN201910782208A CN111191080A CN 111191080 A CN111191080 A CN 111191080A CN 201910782208 A CN201910782208 A CN 201910782208A CN 111191080 A CN111191080 A CN 111191080A
Authority
CN
China
Prior art keywords
partition
node
graph
nodes
active
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910782208.6A
Other languages
English (en)
Other versions
CN111191080B (zh
Inventor
李永安
孙仕杰
于东海
魏万敬
高品
涂小刚
李本利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910782208.6A priority Critical patent/CN111191080B/zh
Publication of CN111191080A publication Critical patent/CN111191080A/zh
Application granted granted Critical
Publication of CN111191080B publication Critical patent/CN111191080B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出一种数据处理方法及装置,上述方法包括:将待处理图进行拆分,获得至少一个分区图,所述至少一个分区图包括第一分区图,所述第一分区图包括主节点和镜像节点,所述镜像节点为所述第一分区图之外的所述至少一个分区图中的主节点;选取所述第一分区图中度数小于或等于第一阈值的主节点,作为所述第一分区图中的活跃节点;接收第一活跃节点信息,将所述第一活跃节点信息所指定的镜像节点作为所述第一分区图中的活跃节点;删除所述第一分区图中的活跃节点。实施本申请,能够有效节省内存资源,显著提升数据处理的效率。

Description

一种数据处理的方法及装置
技术领域
本申请涉及计算机技术领域,具体涉及一种数据处理方式以及装置。
背景技术
图作为一种能够表示数据之间的几何关系和拓扑关系的数据结构,被人们广泛应用于各种场景。近年来,随着互联网的迅猛发展,图数据结构的数据量也越来越复杂。如何对海量图进行K-core高效求解,在分布式图计算领域具有重要意义。
目前,针对大规模网络K-core求解,即处理度数(邻居节点个数)很大的数据节点时,现有的实现方式需要消耗较多的计算资源,并且在计算资源有限的情况下,由于现有的实现方式的通信开销过大,使得对应的数据处理效率受到了限制。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种数据处理的方法及装置。
第一方面,本申请实施例提供了一种数据处理方法,上述方法包括:将待处理图进行拆分,获得至少一个分区图,上述至少一个分区图包括第一分区图,上述第一分区图包括主节点和镜像节点,上述镜像节点为上述第一分区图之外的上述至少一个分区图中的主节点;选取上述第一分区图中度数小于或等于第一阈值的主节点,作为上述第一分区图中的活跃节点;接收第一活跃节点信息,将上述第一活跃节点信息所指定的镜像节点作为上述第一分区图中的活跃节点;删除上述第一分区图中的活跃节点。
在一种可能的实现方式中,上述至少一个分区图还包括第二分区图,上述接收第一活跃节点信息之前,上述方法还包括:获得上述第一分区图和上述第二分区图中活跃节点的出度之和,以及上述第一分区图和上述第二分区图中主节点的总出度之和;若上述出度之和与上述总出度之和的比值小于第二阈值,发送第二活跃节点信息,并执行上述接收第一活跃节点信息的步骤,上述第二活跃节点信息用于指示将上述第二分区图中的指定的镜像节点设置为活跃节点。
在另一种可能的实现方式中,上述删除上述第一分区图中的活跃节点之前,上述方法还包括:若上述出度之和与上述总出度之和的比值小于第二阈值,更新与上述第一分区图中活跃节点的出边方向的邻居节点的度。
在又一种可能的实现方式中,上述至少一个分区图还包括第二分区图,上述接收第一活跃节点信息之前,上述方法还包括:获得上述第一分区图和上述第二分区图中活跃节点的出度之和,以及上述第一分区图和上述第二分区图中主节点的总出度之和;若上述出度之和与上述总出度之和的比值大于第二阈值,发送第一获取请求,上述第一获取请求用于请求获取上述第一活跃节点信息;确认接收到第二获取请求的情况下,发送第二活跃节点信息,并执行上述接收第一活跃节点信息的步骤,上述第二活跃节点信息用于指示将上述第二分区图中的指定的镜像节点设置为活跃节点。
在又一种可能的实现方式中,上述删除上述第一分区图中的活跃节点之前,上述方法还包括:若上述出度之和与上述总出度之和的比值大于第二阈值,更新与上述第一分区图中活跃节点的入边方向的邻居节点的度。
在又一种可能的实现方式中,上述选取上述第一分区图中度数小于或等于第一阈值的主节点,作为上述第一分区图中的活跃节点,包括:若上述第一阈值小于核心度,则将上述第一阈值加1,执行上述选取上述第一分区图中度数小于或等于第一阈值的主节点,作为上述第一分区图中的活跃节点,直到上述第一阈值等于上述核心度;上述核心度为目标子图中节点连接的节点个数的最小值;上述目标子图是上述第一分区图的剩余节点与上述第二分区图中剩余节点合并后得到的图;将上述第一分区图中剩余节点输出,作为第一子图。
在又一种可能的实现方式中,上述方法还包括:获取第二子图,上述第二子图由上述第二分区图中剩余节点构成;合并上述第一子图和上述第二子图,得到上述目标子图。
第二方面,本申请实施例提供了一种数据处理装置,包括:获得单元,用于将待处理图进行拆分,获得至少一个分区图,上述至少一个分区图包括第一分区图,上述第一分区图包括主节点和镜像节点,上述镜像节点为上述第一分区图之外的上述至少一个分区图中的主节点;选取单元,用于选取上述第一分区图中度数小于或等于第一阈值的主节点,作为上述第一分区图中的活跃节点;接收单元,用于接收第一活跃节点信息,将上述第一活跃节点信息所指定的镜像节点作为上述第一分区图中的活跃节点;删除单元,用于删除上述第一分区图中的活跃节点。
在一种可能的实现方式中,上述数据处理装置还包括:发送单元;上述获得单元还用于,获得上述第一分区图和上述第二分区图中活跃节点的出度之和,以及上述第一分区图和上述第二分区图中主节点的总出度之和;上述发送单元,用于若上述出度之和与上述总出度之和的比值小于第二阈值,发送第二活跃节点信息,并执行上述接收第一活跃节点信息的步骤,上述第二活跃节点信息用于指示将上述第二分区图中的指定的镜像节点设置为活跃节点。
在另一种可能的实现方式中,上述数据处理装置还包括:更新单元,用于若上述出度之和与上述总出度之和的比值小于第二阈值,更新与上述第一分区图中活跃节点的出边方向的邻居节点的度。
在又一种可能的实现方式中,上述发送单元还用于,若上述出度之和与上述总出度之和的比值大于第二阈值,发送第一获取请求,上述第一获取请求用于请求获取上述第一活跃节点信息;
上述发送单元还用于,确认接收到第二获取请求的情况下,发送第二活跃节点信息,并执行上述接收第一活跃节点信息的步骤,上述第二活跃节点信息用于指示将上述第二分区图中的指定的镜像节点设置为活跃节点。
在又一种可能的实现方式中,上述更新单元还用于,若上述出度之和与上述总出度之和的比值大于第二阈值,更新与上述第一分区图中活跃节点的入边方向的邻居节点的度。
在又一种可能的实现方式中,上述选取单元包括:
执行子单元,用于若上述第一阈值小于核心度,则将上述第一阈值加1,执行上述选取上述第一分区图中度数小于或等于第一阈值的主节点,作为上述第一分区图中的活跃节点,直到上述第一阈值等于上述核心度;上述核心度为目标子图中节点连接的节点个数的最小值;上述目标子图是上述第一分区图的剩余节点与上述第二分区图中剩余节点合并后得到的图;
输出子单元,用于将上述第一分区图中剩余节点输出,作为第一子图。
在又一种可能的实现方式中,上述选取单元还包括:获取子单元,用于获取第二子图,上述第二子图由上述第二分区图中剩余节点构成;合并子单元,用于合并上述第一子图和上述第二子图,得到上述目标子图。
第三方面,本申请实施例提供了一种数据处理装置,包括:处理器、输入装置、输出装置和存储器,其中,存储器用于存储支持服务器执行上述方法的计算机程序,计算机程序包括程序指令,处理器被配置用于调用程序指令,执行上述第一方面的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述各方面所述的方法。
第五方面,本申请实施例提供了一种包含程序指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如第一方面所示的方法。
实施本申请,由于根据当前待处理图的拓扑特征,动态地切换数据处理装置使用的更新方式,能够有效节省内存资源,显著提升数据处理的效率。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1a是本申请实施例提供的一种数据处理系统的架构图;
图1b是本申请实施例提供的另一种数据处理系统的架构图;
图2是本申请实施例提供的一种数据处理的流程图;
图3a是本申请实施例提供的一种待处理图的示意图;
图3b是本申请实施例提供的一种分区图的示意图;
图3c是本申请实施例提供的另一种分区图的示意图;
图4是本申请实施例提供的一种数据处理方法的流程示意图;
图5是本申请实施例提供的另一种数据处理方法的流程示意图;
图6是本申请实施例提供的又一种数据处理方法的流程示意图;
图7是本申请实施例提供的一种数据处理装置的结构示意图;
图8是本申请实施例提供的一种数据处理装置的实体装置结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例进行描述。
本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本申请中使用的术语“服务器”、“单元”、“系统”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。例如,服务器可以是但不限于,处理器,数据处理平台,计算设备,计算机,两个或更多个计算机等。
请参阅图1a,图1a是本申请实施例提供的数据处理系统架构图。如图1a所示,该数据处理系统包括多个数据处理装置,其中上述数据处理装置都能够与数据处理系统中的任一个数据处理装置进行通信连接。本申请实施例对于该数据处理系统的数据处理装置的通信连接方式和数量不作唯一性限定。
在本申请实施例中,上述多个数据处理装置将上述待处理图拆分为多个分区图。在上述多个分区图中,上述待处理图中的每个节点仅在一个分区图中以主节点的形式存在,处理该分区图的数据处理装置存储该节点的所有信息;上述待处理图中的每个节点在其他分区图中以镜像节点的形式存在,处理这些分区图的数据处理装置只对这些镜像节点的连接关系进行存储。
实施本申请实施例,由于多个数据处理装置只存储主节点对应的信息,保障记录待处理图中的信息的同时,节省了内存存储消耗。
请参阅图1b,图1b是本申请实施例提供的另一种数据处理系统架构图,由图1b所示,该数据处理系统中的数据处理装置为区块链节点设备,该区块链节点设备具有将数据上传至区块链网络存证和获取其他区块链节点设备存储数据的功能,本申请实施例对于该数据处理系统的区块链节点设备的通信连接方式和数量不作唯一性限定。
区块链节点网络中的任一个节点设备均可为数据处理装置,本申请实施例中可以对所有的区块链节点设备的身份进行验证,通过创建具有公信力的数据处理系统,并让数据提供方以及数据监控机构上链加入该数据处理系统形成区块链。数据提供方将待处理图对应的数据上传数据监控机构服务器,数据监控服务器对数据提供方提供的数据进行验证后,可以将其登记在区块链中进行全网广播。当某个区块链节点设备需要调用上述数据时,可以向上述数据监控机构发送相应的调用请求来调用相关数据,并根据调用请求作相应的其他操作。通过本发明实施例,可以通过区块链去中心化和不可更改的加密属性来记录上传的待处理图的数据,全国可以联网在线上查询待处理图的上传记录以及使用记录,保障信息使用过程中的安全性。
请参阅图2,图2是本申请实施例提供的一种数据处理的流程图,由图2所示的数据处理流程可知,数据处理装置获得由待处理图拆分而来的分区图后,将分区图中度数小于或等于第一阈值的主节点设置为活跃节点,将其他数据处理装置发送的活跃节点信息中指定的镜像节点设置为活跃节点。数据处理装置在删除分区图中这些活跃节点和活跃节点对应的边之前,需要判断当前分区图对应的度数更新方式。若活跃节点的出度之和与所有分区图中的节点的总出度之和的比值小于第二阈值,数据处理装置更新分区图中活跃节点出边方向的邻居节点的度;否则,数据处理装置更新分区图中活跃节点的入边方向的邻居节点的度。可选的,上述数据处理装置删除分区图中的活跃节点之后,根据活跃节点连接关系更新分区图中剩余节点的度数。可选的,上述数据处理装置可以先删除分区图中的活跃节点,再根据活跃节点对应的更新方式,对活跃节点指定方向的邻居节点进行优先更新。
由图2所示的数据处理流程可知,数据处理系统中的数据处理装置删除分区图中的活跃节点后,需要判断当前的第一阈值是否达到核心度,上述核心度为目标子图中节点连接的节点个数的最小值;上述目标子图是上述第一分区图的剩余节点与上述第二分区图中剩余节点合并后得到的图。若上述第一阈值小于上述核心度,数据处理装置将上述第一阈值的值加1,进一步删除分区图中度数不符合上述第一阈值的剩余节点。即上述数据处理装置重复上述删除活跃节点和更新节点度数的步骤,直到上述分区图中的节点的度均大于上述核心度,得到节点度数符合上述核心度的目标子图。
请参阅图4,图4是本申请实施例提供的一种数据处理方法的流程示意图,上述方法包括:
S101、将待处理图进行拆分,获得至少一个分区图,上述至少一个分区图包括第一分区图,上述第一分区图包括主节点和镜像节点,上述镜像节点为上述第一分区图之外的上述至少一个分区图中的主节点。
在一种可能的实现方式中,上述待处理图为无向图,即上述待处理图中的节点之间的边没有连接关系,可以指定数据处理装置先将上述无向图构建为有向图。
具体的,上述待处理图为如图3a所示的无向图时,上述数据处理装置将按照节点的连接关系,按照出边-入边-出边的方式,对节点的边方向进行限制,将上述待处理图构建为如图3a所示的有向图。
例如,节点0分别与节点1和节点2连接,对于节点0和节点1之间的边,将节点1设置为这条边的终点,将节点0设置为这条边的起点;对于节点0和节点2之间的边,将节点2设置为这条边的起点,将节点0设置为这条边的终点。
进一步的,上述数据处理装置对于已经设置了边方向的边不进行重复设置。
例如,对于节点1而言,与节点0、2、5之间均有连接关系,而节点1和节点0之间的边方向已经被设置过,数据处理装置继续按照出边-入边-出边的方式,对节点1与节点2之间的边方向,以及节点1与节点5之间的边方向进行设置。应理解,上述例子仅仅是用作说明,本申请实施例不对有向图构建方式进行限制。
在另一种可能的实现方式中,上述数据处理装置按照节点的顺序,选择如图3a所示的上述待处理图中的M个节点作为上述第一分区图的主节点,其他与上述主节点有连接关系的节点为上述第一分区图中的镜像节点,M为大于或等于1的整数。
如图3b所示,第一数据处理装置选择上述待处理图中的节点0~节点3作为上述第一分区图中的主节点(以实线圆圈表示),与节点1~节点3中的节点存在连接关系的节点4~节点7作为上述第一分区图中的镜像节点(以虚线圆圈表示)。对应的,第二数据处理装置选择上述待处理图中尚没有作为主节点的节点4~节点7作为上述第二分区图中的主节点(以实线圆圈表示),与节点4~节点7中的节点存在连接关系的节点1~节点3作为上述第二分区图中的镜像节点(以虚线圆圈表示)。上述第一数据处理装置和上述第二数据处理装置分别存储上述待处理图的部分节点的信息,节省了内存消耗。应理解,上述例子仅仅是用作说明,本申请实施例中不对数据处理装置具体是否重复存储节点的连接关系,以及重复存储节点连接关系的次数进行限制。
进一步的,上述第一数据处理装置和上述第二数据处理装置采用不同的数据结构存储第一分区图和第二分区图中的节点信息。
例如,可以采用多个位图(bitmap)对当前分区图中的剩余节点和删除节点进行标识,采用邻接矩阵对分区图中的节点的连接关系进行存储。应理解,上述例子仅仅用作说明,不对数据处理装置的具体存储方式进行限定。
S102、选取上述第一分区图中度数小于或等于第一阈值的主节点,作为上述第一分区图中的活跃节点。
具体的,若上述第一阈值小于核心度,则将上述第一阈值加1,执行上述选取上述第一分区图中度数小于或等于第一阈值的主节点,作为上述第一分区图中的活跃节点,直到上述第一阈值等于上述核心度;上述核心度为目标子图中节点连接的节点个数的最小值;上述目标子图是上述第一分区图的剩余节点与上述第二分区图中剩余节点合并后得到的图;将上述第一分区图中剩余节点输出,作为第一子图。
在一种可能的实现方式中,可以根据用户需求,通过设置不同的核心度,获取拥有不同联系紧密程度的节点。
例如,用户需要对同一个词语提供尽可能多的拓展的词语,在获取关键词的对应的语义子图时,通过设置数值较小的核心度,从而得到联系程度较少的语义子图。使得用户提交一个关键词进行查询时,为该用户提供与该关键词相关联的词语。由于词语之间的联系紧密程度较低,一个关键词会得到较多的查询结果。
又例如,当用户需要对词语进行精确查询时,通过设置数值较大的核心度,从而得到联系程度较紧密的语义子图。使得用户提交一个关键词进行查询时,得到该关键词的同义词。
在另一种可能的实现方式中,上述核心度随数据处理装置的迭代次数进行更新,上述数据处理装置获取上述待处理图中的最大核心度值,以及每个核心度对应的子图。
例如,上述待处理图为A城市用户的社交网络关系图,通过分析上述待处理图中的核心度,找到拥有最大核心度值的社交网络子图。当需要传播某些重要的城市信息(如大风红色预警)时,可以优先将该新闻投放至拥有最大核心度值的社交网络子图中的用户群体,使得该信息能够以最快的速度扩散给A城的所有用户。
又例如,上述待处理图为某次新闻的传播关系图,通过对上述核心度进行更新,可以获得上述传播新闻的传播源头,或者上述传播新闻的传播范围。
进一步的,若上述传播源头中的某个用户涉嫌传播违法信息,则和该用户处于同一传播源头或传播范围的用户同样传播该违法信息的可能性较大,所以可以优先查找这些用户的使用记录,从而判断这些用户是否涉嫌传播违法信息。
上述数据处理装置只对其负责的分区图进行计算,当上述第一分区图中和上述第二分区图中的节点的度均大于上述核心度时,处理上述第一分区图的数据处理装置向分布式文件系统中的任意一个存储节点输出上述第一子图,上述第一子图中的节点的度均大于上述核心度。相应的,处理上述第二分区图的数据处理装置向分布式文件系统中的任意一个存储节点输出上述第二子图,上述第二子图中的节点的度均大于上述核心度。
在又一种可能的实现方式中,处理上述第一分区图的数据处理装置也为分布式文件系统中的一个存储节点,上述数据处理装置在得到第一子图之后,获取第二子图;合并上述第一子图和上述第二子图,得到上述目标子图。上述目标子图的所有节点都至少与该目标子图中的30个其他节点(若核心度的值设置为30)相连。
具体的,可以指定由运算能力最强或负载较少的数据处理装置汇总多个数据处理装置的剩余节点。进一步的,首先输出分区图中剩余节点的数据处理装置可以向其他剩余节点发送获取请求,由该数据处理装置汇总其他数据处理装置的计算结果。
在又一种可能的实现方式中,用户可以根据数据处理装置输出的目标子图,在各种应用场景下进行应用。
例如,用户A对体育用品类的广告的接受程度较高,且用户A和用户B处于同一个目标子图中,用户B与用户A的喜好相似程度可能高于该目标子图以外的其他用户,可以向用户B也推送体育用品类的广告。
又例如,上述待处理图为A城市用户的社交网络关系图,通过上述目标子图,可以为用户甲推荐一些账号供用户甲进行选择,即向用户甲推荐在同一个朋友圈内,但还不是好友关系的用户。
进一步的,上述社交网络关系图包括A城市用户经常使用的社交应用m、社交应用n以及社交应用p对应的账号,例如用户甲和用户乙在社交应用m上为好友关系,在社交应用n和社交应用p上不是好友关系,当用户甲使用社交应用n和社交应用p时,向用户甲推荐用户乙在社交应用n和社交应用p上的账号。
在又一种可能的实现方式中,在上述数据处理装置选取度数小于或等于上述第一阈值的主节点之前,上述数据处理装置可以通过将上述第一阈值的初始值设置为1的方式,遍历上述第一分区图中的节点,从而获取上述第一分区图中所有主节点的度数。
进一步的,在上述数据处理装置获取上述分区图时,同时获知了分区图中对应主节点的度数,上述数据处理装置根据主节点的度数选取当前计算步骤对应的活跃节点。
例如,上述数据处理装置获知上述分区图中主节点的最小度数为5,则上述数据处理装置将上述第一阈值的初始值设置为5,将度数小于或等于5的节点设置为活跃节点。
又例如,上述数据处理装置获知上述分区图中主节点的最小度数为5,则上述数据处理装置将上述第一阈值的初始值设置为6,将度数小于或等于6的节点设置为活跃节点。
在又一种可能的实现方式中,当用户只需要获取上述待处理图中的信息源头数量,即上述数据处理装置不需要保障所有节点按照对应的处理顺序被处理,可以以损失某些重要程度较低节点的代价下,获取较快的处理速度。
具体的,上述数据处理装置根据待处理图的节点数量,在第一阈值范围内选取上述第一阈值,以加快上述数据处理装置的处理步骤。
例如,上述数据处理装置需要获取节点度数至少为1000的核心区域个数,即上述数据处理装置可以在1~5的第一阈值范围内,选择5作为上述第一阈值的初始值。上述数据处理装置在第一轮计算过程中,将度数小于或等于5的节点都设置为活跃节点。
在又一种可能的实现方式中,上述数据处理装置可以对分区图中的节点的度数进行统计,按照节点的度数对节点进行分级存储。按照上述分级结果,选取第一阈值的初始值。
例如,上述数据处理装置处理分区图时,经统计,度数1~5的级别存储了节点0和节点1,该级别对应的节点数量为2;度数5~10的级别存储了节点2至节点30,该级别对应的节点数量为29;度数11~30的级别存储了节点31至节点350,该级别对应的节点数量为320;度数31~50的级别存储了节点351至节点550,该级别对应的节点数量为200。由于度数5~10的级别的节点数量较少,所以数据处理装置可以将第一阈值设置为11,先将度数1~5和度数5~10对应的节点均设置为活跃节点。
进一步的,上述数据处理装置可以使用位图(bitmap),存储被选取为活跃节点的节点。
例如,当上述第一阈值取2时,将活跃节点的状态用“1”进行标识,其他节点用“0”进行标识。上述数据处理装置处理如图3b所示的分区图时,即处理上述第一分区图的第一数据处理装置使用“1”标识上述分区图中的节点0的状态;处理上述第二分区图的第二数据处理装置使用“1”标识上述分区图中的节点5的状态。
S103、接收第一活跃节点信息,将上述第一活跃节点信息所指定的镜像节点作为上述第一分区图中的活跃节点。
具体的,上述分区图中存储的镜像节点需要知晓自己对应的主节点在其他分区图中,是否被设置为活跃节点。上述数据处理装置根据接收到的上述第一活跃节点信息,将上述第一分区图中的指定的镜像节点作为上述第一分区图中的活跃节点。
例如,当上述数据处理装置处理如图3b所示的分区图时,上述第一数据处理装置将镜像节点4、5、6和7中包含在上述第一活跃信息中的镜像节点设置为活跃节点。
进一步的,当上述数据处理装置处理如图3b所示的分区图时,若处理上述第一分区图的第一数据处理装置接收到上述第二数据处理装置发送的将主节点5和主节点6标识为活跃节点的信息后,上述第一数据处理装置将上述第一分区图中的镜像节点5和镜像节点6均设置为活跃节点。
S104、删除上述第一分区图中的活跃节点。
具体的,上述第一分区图中活跃节点包括上述第一分区图中度数符合上述第一阈值要求的主节点,以及上述第二分区图中度数符合上述第一阈值要求的主节点而指定的镜像节点。
例如,上述第一数据处理装置将主节点0设置为活跃节点,根据上述第二数据处理装置发送的第一活跃节点信息,将镜像节点5和6设置为活跃节点,即上述第一数据处理装置需要删除主节点0、镜像节点5和镜像节点6。在删除上述节点之后,上述数据处理装置可以对删除节点对应的位图进行更新,将上述主节点0、镜像节点5和镜像节点6用“1”标识为已删除;相应的,上述数据处理装置对分区图中剩余的节点对应的位图进行更新,将上述主节点0、镜像节点5和镜像节点6用“0”进行标识。
在一种可能的实现方式中,上述数据处理装置删除活跃节点后,会使得活跃节点的邻居节点的度数发生变化。上述数据处理装置需要进行多次删除活跃节点的操作,才会使得分区图中的剩余节点的度数均大于上述第一阈值。
例如,当上述数据处理装置处理如图3b所示的分区图时,主节点0为活跃节点,上述第一阈值为2,当上述数据处理装置删除上述主节点0后,主节点1的度数减小至2。故本轮还需要将主节点1设置为活跃节点并删除。
本申请实施例中通过将待处理图进行合理划分,并使得数据处理装置只存储主节点对应的信息,保障记录待处理图中的信息的同时,节省了内存存储消耗。
请参阅图5,图5是本申请实施例提供的另一种数据处理方法的流程示意图,上述方法包括:
S201、将待处理图进行拆分,获得至少一个分区图,上述至少一个分区图包括第一分区图,上述第一分区图包括主节点和镜像节点,上述镜像节点为上述第一分区图之外的上述至少一个分区图中的主节点。
该步骤的具体实现可参考图4上述实施例的步骤S101,在此不再赘述。
S202、选取上述第一分区图中度数小于或等于第一阈值的主节点,作为上述第一分区图中的活跃节点。
该步骤的具体实现可参考图4上述实施例的步骤S102,在此不再赘述。
S203、获得上述第一分区图和上述第二分区图中活跃节点的出度之和,以及上述第一分区图和所述第二分区图中主节点的总出度之和。
具体的,上述数据处理装置通过统计活跃节点的出度之和以及主节点的总出度之和,判断当前计算步骤需要删除的节点数量规模,上述活跃节点的出度为以活跃节点为尾(活跃节点指向对应的邻居节点)的边的数目,上述主节点的总出度为主节点与其对应的邻居节点的所有边的数目之和。
例如,当上述数据处理装置处理如图3b所示的分区图,且上述第一阈值为2时,主节点0的出度为1(主节点0指向主节点1的边)、入度为1(主节点2指向主节点0的边),得出主节点0的度数为2,由于上述第一分区图和上述第二分区图中只有主节点0被设置为活跃节点,所以上述第一分区图和上述第二分区图中活跃节点的出度之和为1;上述第一分区图中:主节点0、1、2以及3的出度分别为1、1、3以及2,上述第二分区图中:主节点4、5、6以及7的出度分别为2、2、3以及1,所以上述第一分区图和所述第二分区图中主节点的总出度之和为15。
又例如,当上述数据处理装置处理如图3b所示的分区图,且上述第一阈值为1时,由于上述第一分区图和上述第二分区图中的度数均大于1,该阶段上述第一分区图和上述第二分区图中均不存在活跃节点,所以上述第一分区图和上述第二分区图中活跃节点的出度之和为0,上述第一分区图和所述第二分区图中主节点的总出度之和为15。进一步的,上述数据处理装置可以输出提示消息,用于提示更新上述第一阈值的值。
S204、若上述出度之和与上述总出度之和的比值小于第二阈值,发送第二活跃节点信息,并执行上述接收第一活跃节点信息的步骤,上述第二活跃节点信息用于指示将上述第二分区图中的指定的镜像节点设置为活跃节点。
在一种可能的实现方式中,在上述出度之和与上述总出度之和的比值小于第二阈值的情况下,上述活跃节点占据总节点的数量较小,即上述活跃节点影响的邻居节点可能也较少,上述数据处理装置将处理的分区图中对应的活跃节点信息主动发送给其他数据处理装置,便于其他数据处理装置将分区图中指定的镜像节点设置为活跃节点。
S205、接收第一活跃节点信息,将上述第一活跃节点信息所指定的镜像节点作为上述第一分区图中的活跃节点。
该步骤的具体实现可参考图4上述实施例的步骤S103,在此不再赘述。
S206、若上述出度之和与上述总出度之和的比值小于第二阈值,更新与上述第一分区图中活跃节点的出边方向的邻居节点的度。
例如,当上述数据处理装置处理如图3b所示的分区图时,主节点0为活跃节点,且主节点0出边方向的邻居节点为主节点1,即上述数据处理装置将主节点1的度数更新为2。
进一步的,若上述主节点1的度数为5,且上述主节点1为3个活跃节点出边方向的邻居节点,即上述数据处理装置将主节点1的度数更新为2。
在一种可能的实现方式中,在上述第二阈值的数值较小(如小于7)时,需要进行删除的节点数量可能较多,进而影响更多邻居节点。在上述分区图中持续选取度数小于同一个第一阈值(如6)的主节点,作为上述分区图中的活跃节点时,数据处理装置可以不进行上述出度之和与上述总出度之和的比值小于第二阈值的判断,直接更新与上述第一分区图中活跃节点的出边方向的邻居节点的度。
进一步的,数据处理装置设置第三阈值,在上述第二阈值小于上述第三阈值,且上述第二阈值的数值未发生变化时,上述数据处理装置更新活跃节点同一个方向的邻居节点;在上述第二阈值大于或等于上述第三阈值时,上述数据处理装置再次对上述第一分区图和上述第二分区图中活跃节点的出度之和,以及上述第一分区图和所述第二分区图中主节点的总出度之和进行统计。
S207、删除上述第一分区图中的活跃节点。
该步骤的具体实现可参考图4上述实施例的步骤S104,在此不再赘述。
本申请实施例中通过统计活跃节点的出度之和以及主节点的总出度之和,判断当前计算步骤需要删除的节点数量规模,可以实现动态切换待处理图的更新方式,有助于提高运算速度。
请参阅图6,图6是本申请实施例提供的又一种数据处理方法的流程示意图,上述方法包括:
S301、将待处理图进行拆分,获得至少一个分区图,上述至少一个分区图包括第一分区图,上述第一分区图包括主节点和镜像节点,上述镜像节点为上述第一分区图之外的上述至少一个分区图中的主节点。
该步骤的具体实现可参考图4上述实施例的步骤S101,在此不再赘述。
S302、选取上述第一分区图中度数小于或等于第一阈值的主节点,作为上述第一分区图中的活跃节点。
该步骤的具体实现可参考图4上述实施例的步骤S102,在此不再赘述。
S303、获得上述第一分区图和上述第二分区图中活跃节点的出度之和,以及上述第一分区图和所述第二分区图中主节点的总出度之和。
该步骤的具体实现可参考图5上述实施例的步骤S203,在此不再赘述。
S304、若上述出度之和与上述总出度之和的比值大于第二阈值,发送第一获取请求,上述第一获取请求用于请求获取上述第一活跃节点信息。
在一种可能的实现方式中,在上述出度之和与上述总出度之和的比值小于第二阈值的情况下,上述活跃节点占据总节点的数量较大,即上述活跃节点影响的邻居节点可能也较多。由于上述待处理图中节点可能在多个分区图中都存在进行标识占位的镜像节点,在上述数据处理装置确定上述第一分区图中存在镜像节点的情况下,上述数据处理装置主动向其他数据处理装置发送上述第一获取请求,用于确认上述第一分区图中需要被设置为活跃节点的镜像节点。
例如,当上述数据处理装置处理如图3c所示的分区图时,上述第一分区图中存在镜像节点4、5、6和7(以虚线圆圈表示),由于镜像节点4、5、6和7在上述第一分区图中只起到标识占位作用,处理上述第一分区图的数据处理装置并不知道上述镜像节点对应的主节点在其他分区图中的度,需要主动向其他数据处理装置发送上述第一获取请求,用于确认是否将镜像节点4、5、6和7设置为活跃节点,
S305、确认接收到第二获取请求的情况下,发送第二活跃节点信息,并执行上述接收第一活跃节点信息的步骤,上述第二活跃节点信息用于指示将上述第二分区图中的指定的镜像节点设置为活跃节点。
具体的,由于上述待处理图中节点可能在多个分区图中都存在镜像节点,对于处理上述第一分区图的数据处理装置而言,若接收到其他数据处理装置的获取请求时,需要向这些发送获取请求的数据处理装置提供上述第一分区图中活跃节点的情况。
例如,当上述数据处理装置处理如图3c所示的分区图时,处理上述第二分区图的数据处理装置需要确认上述第二分区图中的镜像节点1、2和3(以虚线圆圈表示)中,是否有节点需要被设置为活跃节点,所以向处理上述第一分区图的数据处理装置发送第二获取请求。处理上述第二分区图的数据处理装置可以根据接收到的第二活跃节点信息,将镜像节点1设置为活跃节点。
S306、接收第一活跃节点信息,将上述第一活跃节点信息所指定的镜像节点作为上述第一分区图中的活跃节点。
该步骤的具体实现可参考图4上述实施例的步骤S103,在此不再赘述。
S307、若上述出度之和与上述总出度之和的比值大于第二阈值,更新与上述第一分区图中活跃节点的入边方向的邻居节点的度。
例如,当上述数据处理装置处理如图3c所示的分区图时,主节点1(以实线圆圈表示)为活跃节点,且主节点1入边方向的邻居节点为主节点5(以实线圆圈表示),即上述数据处理装置将主节点5的度数更新为2。
在一种可能的实现方式中,在上述数据处理装置更新上述主节点5的度数后,上述主节点5的度数可能小于或等于上述第二阈值,需要被设置为活跃节点。上述数据处理装置可以不进行上述出度之和与上述总出度之和的比值是否大于上述第二阈值的判断,直接更新与上述第一分区图中活跃节点的入边方向的邻居节点的度。
进一步的,数据处理装置设置第三阈值,在上述第二阈值小于上述第三阈值,且上述第二阈值的数值未发生变化时,上述数据处理装置更新活跃节点同一个方向的邻居节点;在上述第二阈值大于或等于上述第三阈值时,上述数据处理装置再次对上述第一分区图和上述第二分区图中活跃节点的出度之和,以及上述第一分区图和所述第二分区图中主节点的总出度之和进行统计。
S308、删除上述第一分区图中的活跃节点。
该步骤的具体实现可参考图4上述实施例的步骤S104,在此不再赘述。
本申请实施例中通过统计活跃节点的出度之和以及主节点的总出度之和,判断当前计算步骤需要删除的节点数量规模,可以实现动态切换待处理图的更新方式,有助于提高运算速度。
请参阅图7,图7是本申请实施例提供的一种数据处理装置的结构示意图,如图7所示的数据处理装置,可包括:获得单元401、选取单元402、接收单元403及删除单元404;可选的,上述数据处理装置还包括:上述获得单元401及发送单元405;可选的,上述数据处理装置还包括:更新单元406及上述发送单元405。
获得单元401,用于将待处理图进行拆分,获得至少一个分区图,上述至少一个分区图包括第一分区图,上述第一分区图包括主节点和镜像节点,上述镜像节点为上述第一分区图之外的上述至少一个分区图中的主节点;
选取单元402,用于选取上述第一分区图中度数小于或等于第一阈值的主节点,作为上述第一分区图中的活跃节点;
接收单元403,用于接收第一活跃节点信息,将上述第一活跃节点信息所指定的镜像节点作为上述第一分区图中的活跃节点;
删除单元404,用于删除上述第一分区图中的活跃节点。
在一种可能的实现方式中,上述数据处理装置还包括:发送单元405;
上述获得单元401还用于,获得上述第一分区图和上述第二分区图中活跃节点的出度之和,以及上述第一分区图和上述第二分区图中主节点的总出度之和;
上述发送单元405,用于若上述出度之和与上述总出度之和的比值小于第二阈值,发送第二活跃节点信息,并执行上述接收第一活跃节点信息的步骤,上述第二活跃节点信息用于指示将上述第二分区图中的指定的镜像节点设置为活跃节点。
在另一种可能的实现方式中,上述数据处理装置还包括:
更新单元406,用于若上述出度之和与上述总出度之和的比值小于第二阈值,更新与上述第一分区图中活跃节点的出边方向的邻居节点的度。
在又一种可能的实现方式中,上述发送单元405还用于,若上述出度之和与上述总出度之和的比值大于第二阈值,发送第一获取请求,上述第一获取请求用于请求获取上述第一活跃节点信息;
上述发送单元405还用于,确认接收到第二获取请求的情况下,发送第二活跃节点信息,并执行上述接收第一活跃节点信息的步骤,上述第二活跃节点信息用于指示将上述第二分区图中的指定的镜像节点设置为活跃节点。
在又一种可能的实现方式中,上述更新单元406还用于,若上述出度之和与上述总出度之和的比值大于第二阈值,更新与上述第一分区图中活跃节点的入边方向的邻居节点的度。
在又一种可能的实现方式中,上述选取单元402包括:
执行子单元4021,用于若上述第一阈值小于核心度,则将上述第一阈值加1,执行上述选取上述第一分区图中度数小于或等于第一阈值的主节点,作为上述第一分区图中的活跃节点,直到上述第一阈值等于上述核心度;上述核心度为目标子图中节点连接的节点个数的最小值;上述目标子图是上述第一分区图的剩余节点与上述第二分区图中剩余节点合并后得到的图;
输出子单元4022,用于将上述第一分区图中剩余节点输出,作为第一子图。在又一种可能的实现方式中,上述选取单元402还包括:
获取子单元4023,用于获取第二子图,上述第二子图由上述第二分区图中剩余节点构成;
合并子单元4024,用于合并上述第一子图和上述第二子图,得到上述目标子图。
有关上述获得单元401、选取单元402、接收单元403、删除单元404、发送单元405、更新单元406更详细的描述可以直接参考上述图4、图5以及图6所述的方法实施例中数据处理方法的相关描述直接得到,这里不加赘述。
根据本申请实施例提供的一种数据处理装置,通过统计活跃节点的出度之和以及主节点的总出度之和,判断当前计算步骤需要删除的节点数量规模,可以实现动态切换待处理图的更新方式,有助于提高运算速度。
请参阅图8,图8是本申请实施例提供的一种数据处理装置的实体装置结构示意图。如图8所示的本实施例中的数据处理装置可以包括:处理器501、输入装置502、输出装置503及存储器504。上述处理器501、输入装置502、输出装置503及存储器504之间可以通过总线相互连接。
存储器包括但不限于是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器可以是独立存在,通过总线与处理器相连接。存储器也可以和处理器集成在一起。
处理器也可以称为处理组件,处理单元,处理单板,处理模块、处理装置等。处理器可以是中央处理器(central processing unit,CPU),网络处理器(network processor,NP)或者CPU和NP的组合。处理器可以包括是一个或多个处理器,例如包括一个或多个中央处理器,在处理器是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
存储器用于存储网络设备的程序代码和数据。
输入装置用于输入数据和/或信号,以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件,也可以是一个整体的器件。
处理器用于调用该存储器中的程序代码和数据,执行如下步骤:将待处理图进行拆分,获得至少一个分区图,上述至少一个分区图包括第一分区图,上述第一分区图包括主节点和镜像节点,上述镜像节点为上述第一分区图之外的上述至少一个分区图中的主节点;选取上述第一分区图中度数小于或等于第一阈值的主节点,作为上述第一分区图中的活跃节点;控制输入装置接收第一活跃节点信息,将上述第一活跃节点信息所指定的镜像节点作为上述第一分区图中的活跃节点;删除上述第一分区图中的活跃节点。
在一种可能的实现方式中,在上述处理器执行上述接收第一活跃节点信息的步骤之前,上述处理器还用于执行以下步骤:获得上述第一分区图和上述第二分区图中活跃节点的出度之和,以及上述第一分区图和上述第二分区图中主节点的总出度之和;若上述出度之和与上述总出度之和的比值小于第二阈值,控制输出装置发送第二活跃节点信息,并执行上述接收第一活跃节点信息的步骤,上述第二活跃节点信息用于指示将上述第二分区图中的指定的镜像节点设置为活跃节点。
在另一种可能的实现方式中,在上述处理器执行上述删除上述第一分区图中的活跃节点的步骤之前,上述处理器还用于执行以下步骤:若上述出度之和与上述总出度之和的比值小于第二阈值,更新与上述第一分区图中活跃节点的出边方向的邻居节点的度。
在又一种可能的实现方式中,在上述处理器执行上述控制输入装置接收第一活跃节点信息的步骤之前,上述处理器还用于执行以下步骤:获得上述第一分区图和上述第二分区图中活跃节点的出度之和,以及上述第一分区图和上述第二分区图中主节点的总出度之和;若上述出度之和与上述总出度之和的比值大于第二阈值,控制输出装置发送第一获取请求,上述第一获取请求用于请求获取上述第一活跃节点信息;确认接收到第二获取请求的情况下,控制输出装置发送第二活跃节点信息,并执行上述接收第一活跃节点信息的步骤,上述第二活跃节点信息用于指示将上述第二分区图中的指定的镜像节点设置为活跃节点。
在又一种可能的实现方式中,在上述处理器执行上述删除上述第一分区图中的活跃节点的步骤之前,上述处理器还用于执行以下步骤:若上述出度之和与上述总出度之和的比值大于第二阈值,更新与上述第一分区图中活跃节点的入边方向的邻居节点的度。
在又一种可能的实现方式中,上述处理器执行上述选取上述第一分区图中度数小于或等于第一阈值的主节点,作为上述第一分区图中的活跃节点的步骤,包括:若上述第一阈值小于核心度,则将上述第一阈值加1,执行上述选取上述第一分区图中度数小于或等于第一阈值的主节点,作为上述第一分区图中的活跃节点,直到上述第一阈值等于上述核心度;上述核心度为目标子图中节点连接的节点个数的最小值;上述目标子图是上述第一分区图的剩余节点与上述第二分区图中剩余节点合并后得到的图;控制输出装置将上述第一分区图中剩余节点输出,作为第一子图。
在又一种可能的实现方式中,上述处理器还用于执行以下步骤:获取第二子图,上述第二子图由上述第二分区图中剩余节点构成;合并上述第一子图和上述第二子图,得到上述目标子图。
可以理解的是,图8仅仅示出了数据处理装置的简化设计。在实际应用中,数据处理装置还可以分别包含必要的其他元件,包含但不限于任意数量的网络接口、输入装置、输出装置、处理器、存储器等,而所有可以实现本申请实施例的计算平台都在本申请的保护范围之内。
在本申请中,所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能组件可以集成在一个组件也可以是各个组件单独物理存在,也可以是两个或两个以上组件集成在一个组件中。上述集成的组件既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的组件如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个本申请实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。尽管在此结合各实施例对本申请进行了描述,然而,在实施例所要求保护的本申请过程中,本领域技术人员可理解并实现公开实施例的其他变化。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
将待处理图进行拆分,获得至少一个分区图,所述至少一个分区图包括第一分区图,所述第一分区图包括主节点和镜像节点,所述镜像节点为所述第一分区图之外的所述至少一个分区图中的主节点;
选取所述第一分区图中度数小于或等于第一阈值的主节点,作为所述第一分区图中的活跃节点;
接收第一活跃节点信息,将所述第一活跃节点信息所指定的镜像节点作为所述第一分区图中的活跃节点;
删除所述第一分区图中的活跃节点。
2.根据权利要求1所述的方法,其特征在于,所述至少一个分区图还包括第二分区图,所述接收第一活跃节点信息之前,所述方法还包括:
获得所述第一分区图和所述第二分区图中活跃节点的出度之和,以及所述第一分区图和所述第二分区图中主节点的总出度之和;
若所述出度之和与所述总出度之和的比值小于第二阈值,发送第二活跃节点信息,并执行所述接收第一活跃节点信息的步骤,所述第二活跃节点信息用于指示将所述第二分区图中的指定的镜像节点设置为活跃节点。
3.根据权利要求2所述的方法,其特征在于,所述删除所述第一分区图中的活跃节点之前,所述方法还包括:
若所述出度之和与所述总出度之和的比值小于所述第二阈值,更新与所述第一分区图中活跃节点的出边方向的邻居节点的度。
4.根据权利要求1所述的方法,其特征在于,所述至少一个分区图还包括第二分区图,所述接收第一活跃节点信息之前,所述方法还包括:
获得所述第一分区图和所述第二分区图中活跃节点的出度之和,以及所述第一分区图和所述第二分区图中主节点的总出度之和;
若所述出度之和与所述总出度之和的比值大于第二阈值,发送第一获取请求,所述第一获取请求用于请求获取所述第一活跃节点信息;
确认接收到第二获取请求的情况下,发送第二活跃节点信息,并执行所述接收第一活跃节点信息的步骤,所述第二活跃节点信息用于指示将所述第二分区图中的指定的镜像节点设置为活跃节点。
5.根据权利要求4所述的方法,其特征在于,所述删除所述第一分区图中的活跃节点之前,所述方法还包括:
若所述出度之和与所述总出度之和的比值大于所述第二阈值,更新与所述第一分区图中活跃节点的入边方向的邻居节点的度。
6.根据权利要求3或5所述的方法,其特征在于,所述选取所述第一分区图中度数小于或等于第一阈值的主节点,作为所述第一分区图中的活跃节点,包括:
若所述第一阈值小于核心度,则将所述第一阈值加1,执行所述选取所述第一分区图中度数小于或等于第一阈值的主节点,作为所述第一分区图中的活跃节点,直到所述第一阈值等于所述核心度;所述核心度为目标子图中节点连接的节点个数的最小值;所述目标子图是所述第一分区图的剩余节点与所述第二分区图中剩余节点合并后得到的图;
将所述第一分区图中剩余节点输出,作为第一子图。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取第二子图,所述第二子图由所述第二分区图中剩余节点构成;
合并所述第一子图和所述第二子图,得到所述目标子图。
8.一种数据处理装置,其特征在于,包括:
获得单元,用于将待处理图进行拆分,获得至少一个分区图,所述至少一个分区图包括第一分区图,所述第一分区图包括主节点和镜像节点,所述镜像节点为所述第一分区图之外的所述至少一个分区图中的主节点;
选取单元,用于选取所述第一分区图中度数小于或等于第一阈值的主节点,作为所述第一分区图中的活跃节点;
接收单元,用于接收第一活跃节点信息,将所述第一活跃节点信息所指定的镜像节点作为所述第一分区图中的活跃节点;
删除单元,用于删除所述第一分区图中的活跃节点。
9.一种数据处理装置,其特征在于,包括:处理器、输入装置、输出装置和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN201910782208.6A 2019-08-22 2019-08-22 一种数据处理的方法及装置 Active CN111191080B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910782208.6A CN111191080B (zh) 2019-08-22 2019-08-22 一种数据处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910782208.6A CN111191080B (zh) 2019-08-22 2019-08-22 一种数据处理的方法及装置

Publications (2)

Publication Number Publication Date
CN111191080A true CN111191080A (zh) 2020-05-22
CN111191080B CN111191080B (zh) 2021-04-30

Family

ID=70705731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910782208.6A Active CN111191080B (zh) 2019-08-22 2019-08-22 一种数据处理的方法及装置

Country Status (1)

Country Link
CN (1) CN111191080B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114239858A (zh) * 2022-02-25 2022-03-25 支付宝(杭州)信息技术有限公司 一种用于分布式图模型的图学习方法及设备
CN114363363A (zh) * 2021-12-31 2022-04-15 杭州趣链科技有限公司 基于多链的数据存储方法、装置、设备及介质
CN114880620A (zh) * 2022-04-15 2022-08-09 国家电投集团数字科技有限公司 一种有向树组的聚集生成方法
WO2023040468A1 (zh) * 2021-09-17 2023-03-23 支付宝(杭州)信息技术有限公司 分布式图学习架构的数据存取方法及装置

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101132342A (zh) * 2007-09-14 2008-02-27 福建星网锐捷网络有限公司 Ftn匹配管理方法
EP2102781A2 (en) * 2006-12-22 2009-09-23 Telefonaktiebolaget LM Ericsson (PUBL) Highly available cryptographic key storage (hacks)
CN102175253A (zh) * 2010-12-28 2011-09-07 清华大学 基于汽车状态转移的多假设地图匹配方法
CN105260465A (zh) * 2015-10-16 2016-01-20 晶赞广告(上海)有限公司 一种图数据处理服务的方法、装置
US20170337293A1 (en) * 2016-05-18 2017-11-23 Sisense Ltd. System and method of rendering multi-variant graphs
US20180060396A1 (en) * 2016-08-31 2018-03-01 At&T Intellectual Property, I, L.P. Database evaluation of anchored length-limited path expressions
CN107995062A (zh) * 2017-12-05 2018-05-04 公安部交通管理科学研究所 基于rpc的交管综合平台异地业务实时处理方法和系统
CN108090179A (zh) * 2017-12-15 2018-05-29 北京海致星图科技有限公司 一种Spark并发子图查询的方法
CN108711111A (zh) * 2018-05-16 2018-10-26 山东科技大学 一种基于K-shell分解的社交网络影响力最大化方法
CN108733832A (zh) * 2018-05-28 2018-11-02 北京阿可科技有限公司 有向无环图的分布式存储方法
CN108959601A (zh) * 2018-07-13 2018-12-07 北京所问数据科技有限公司 大数据环境下有向图的并行去环算法
CN108989064A (zh) * 2017-05-31 2018-12-11 腾讯科技(深圳)有限公司 拓扑数据抽样方法和装置、视化方法和系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2102781A2 (en) * 2006-12-22 2009-09-23 Telefonaktiebolaget LM Ericsson (PUBL) Highly available cryptographic key storage (hacks)
CN101132342A (zh) * 2007-09-14 2008-02-27 福建星网锐捷网络有限公司 Ftn匹配管理方法
CN102175253A (zh) * 2010-12-28 2011-09-07 清华大学 基于汽车状态转移的多假设地图匹配方法
CN105260465A (zh) * 2015-10-16 2016-01-20 晶赞广告(上海)有限公司 一种图数据处理服务的方法、装置
US20170337293A1 (en) * 2016-05-18 2017-11-23 Sisense Ltd. System and method of rendering multi-variant graphs
US20180060396A1 (en) * 2016-08-31 2018-03-01 At&T Intellectual Property, I, L.P. Database evaluation of anchored length-limited path expressions
CN108989064A (zh) * 2017-05-31 2018-12-11 腾讯科技(深圳)有限公司 拓扑数据抽样方法和装置、视化方法和系统
CN107995062A (zh) * 2017-12-05 2018-05-04 公安部交通管理科学研究所 基于rpc的交管综合平台异地业务实时处理方法和系统
CN108090179A (zh) * 2017-12-15 2018-05-29 北京海致星图科技有限公司 一种Spark并发子图查询的方法
CN108711111A (zh) * 2018-05-16 2018-10-26 山东科技大学 一种基于K-shell分解的社交网络影响力最大化方法
CN108733832A (zh) * 2018-05-28 2018-11-02 北京阿可科技有限公司 有向无环图的分布式存储方法
CN108959601A (zh) * 2018-07-13 2018-12-07 北京所问数据科技有限公司 大数据环境下有向图的并行去环算法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023040468A1 (zh) * 2021-09-17 2023-03-23 支付宝(杭州)信息技术有限公司 分布式图学习架构的数据存取方法及装置
CN114363363A (zh) * 2021-12-31 2022-04-15 杭州趣链科技有限公司 基于多链的数据存储方法、装置、设备及介质
CN114363363B (zh) * 2021-12-31 2024-03-22 杭州趣链科技有限公司 基于多链的数据存储方法、装置、设备及介质
CN114239858A (zh) * 2022-02-25 2022-03-25 支付宝(杭州)信息技术有限公司 一种用于分布式图模型的图学习方法及设备
CN114239858B (zh) * 2022-02-25 2022-06-10 支付宝(杭州)信息技术有限公司 一种用于分布式图模型的图学习方法及设备
CN114880620A (zh) * 2022-04-15 2022-08-09 国家电投集团数字科技有限公司 一种有向树组的聚集生成方法
CN114880620B (zh) * 2022-04-15 2024-05-24 国家电投集团数字科技有限公司 一种有向树组的聚集生成方法

Also Published As

Publication number Publication date
CN111191080B (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN111191080B (zh) 一种数据处理的方法及装置
EP3817333B1 (en) Method and system for processing requests in a consortium blockchain
CN110390493B (zh) 任务管理方法、装置、存储介质及电子设备
CN110601978A (zh) 流量分发控制方法和装置
CN112861346A (zh) 数据处理系统、方法及电子设备
CN112685175A (zh) 一种服务拓扑图的构建方法、装置和计算机可读存储介质
CN110019444B (zh) 一种操作请求处理方法、装置、设备及系统
CN115618010A (zh) 融合图谱的存储和处理方法及装置
CN111694639A (zh) 进程容器地址的更新方法、装置和电子设备
CN110781153A (zh) 基于区块链的跨应用信息共享方法及系统
CN114461247A (zh) 热更新方法、装置、电子设备和计算机可读介质
CN112559847A (zh) 网络图中节点搜索方法、装置、电子设备和存储介质
CN116233254A (zh) 业务切流方法、装置、计算机设备和存储介质
CN114814802A (zh) 一种定位的方法和装置
CN113888170A (zh) 地址溯源方法、装置及设备
CN109710633B (zh) 中间人信息的确定方法、装置及智能终端
CN104657507A (zh) 基于分布式系统的图数据的模式检测方法和装置
CN112558950A (zh) 系统接口生成方法及装置
CN112396151A (zh) 谣言事件的分析方法、装置、设备及计算机可读存储介质
US8825901B2 (en) Distributed parallel discovery
CN113840287A (zh) 攻击检测方法、装置及系统
CN116431523B (zh) 一种测试数据管理方法、装置、设备及存储介质
CN115600671B (zh) 深度学习框架的数据处理方法、装置、设备和存储介质
CN110895567A (zh) 一种实体嵌入方法及装置
CN115759233B (zh) 模型的训练方法、图数据处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant