CN113792170B - 图数据划分方法、装置和计算机设备 - Google Patents

图数据划分方法、装置和计算机设备 Download PDF

Info

Publication number
CN113792170B
CN113792170B CN202111345319.4A CN202111345319A CN113792170B CN 113792170 B CN113792170 B CN 113792170B CN 202111345319 A CN202111345319 A CN 202111345319A CN 113792170 B CN113792170 B CN 113792170B
Authority
CN
China
Prior art keywords
data
graph
graph data
data sets
vertices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111345319.4A
Other languages
English (en)
Other versions
CN113792170A (zh
Inventor
覃伟
于纪平
朱晓伟
陈文光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202111345319.4A priority Critical patent/CN113792170B/zh
Publication of CN113792170A publication Critical patent/CN113792170A/zh
Application granted granted Critical
Publication of CN113792170B publication Critical patent/CN113792170B/zh
Priority to PCT/CN2022/131042 priority patent/WO2023083241A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Abstract

本说明书实施例公开了一种图数据划分方法、装置和计算机设备。所述方法包括:将图数据中的顶点划分到多个数据集中;将图数据中的边划分到边的目标顶点所在的数据集中;其中,所述数据集用于供分布式集群中的节点进行图计算,所述多个数据集的计算量相近。本说明书实施例可以使分布式集群中节点之间的负载均衡,并且可以节省通信开销。

Description

图数据划分方法、装置和计算机设备
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种图数据划分方法、装置和客户端。
背景技术
图数据作为一种数据结构,具有强大的表达能力。在实际应用中,可以将具有关联关系的业务数据转换为图数据,并利用分布式集群对图数据进行计算。
为此,需要对图数据进行划分,以便将图数据分配到分布式集群的多个节点上。
发明内容
本说明书实施例提供一种图数据划分方法、装置和客户端,以对图数据进行划分。
本说明书实施例的第一方面,提供了一种图数据划分方法,包括:
将图数据中的顶点划分到多个数据集中;
将图数据中的边划分到边的目标顶点所在的数据集中;其中,所述数据集用于供分布式集群中的节点进行图计算,所述多个数据集的计算量相近。
本说明书实施例的第二方面,提供了一种图数据划分方法,包括:
获取图数据的局部性特征,所述局部性特征用于表示顶点间的接近程度;
根据局部性特征,将图数据中的顶点划分到多个数据集中;
将图数据中的边划分到所述多个数据集中;其中,所述数据集用于供分布式集群中的节点进行图计算,所述多个数据集的计算量相近。
本说明书实施例的第三方面,提供了一种图数据划分装置,包括:
第一划分单元,用于将图数据中的顶点划分到多个数据集中;
第二划分单元,用于将图数据中的边划分到边的目标顶点所在的数据集中;其中,所述数据集用于供分布式集群中的节点进行图计算,所述多个数据集的计算量相近。
本说明书实施例的第四方面,提供了一种图数据划分装置,包括:
获取单元,用于获取图数据的局部性特征,所述局部性特征用于表示顶点间的接近程度;
第一划分单元,用于根据局部性特征,将图数据中的顶点划分到多个数据集中;
第二划分单元,用于将图数据中的边划分到所述多个数据集中;其中,所述数据集用于供分布式集群中的节点进行图计算,所述多个数据集的计算量相近。
本说明书实施例的第五方面,提供了一种计算机设备,包括:
至少一个处理器;
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如第一方面或者第二方面所述方法的指令。
本说明书实施例提供的技术方案,所述多个数据集的计算量相近,从而可以使分布式集群中节点之间的负载均衡。另外,通过将图数据中的边划分到边的目标顶点所在的数据集,可以减少节点之间的通信次数,节省通信开销。另外,根据局部性特征,将图数据中的顶点划分到多个数据集中,也可以减少节点之间的通信次数,节省通信开销。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例中一种图数据的示意图;
图2为本说明书实施例中图数据划分方法的流程示意图;
图3为本说明书实施例中一种图数据示意图;
图4为本说明书实施例中图数据划分方法的流程示意图;
图5为本说明书实施例中图数据划分装置的结构示意图;
图6为本说明书实施例中图数据划分装置的结构示意图;
图7为本说明书实施例中计算机设备的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
图数据是一种数据结构。所述图数据可以包括顶点和边。所述图数据可以包括有向图数据和无向图数据。所述有向图数据的边为有向边,所述有向边的方向为从源顶点到目标顶点。所述无向图数据中的边为无向边。例如,图数据可以表示为G=(V,E)。所述V表示顶点集,所述顶点集可以包括图数据G中的顶点。所述E表示边集,所述边集可以包括图数据G中的边。所述边集中的边可以表示为e=(u,v),所述u为边e的源顶点,所述v为边e的目标顶点。
在实际应用中,可以将具有关联关系的业务数据转换为图数据。具体的,可以将业务实体转换为图数据中的顶点,可以将业务实体之间的关系转换为图数据中的边。例如,可以将网页转换为图数据中的顶点,可以将网页之间的链接关系转换为图数据中的边。另举一例,可以将账户转换为图数据中的顶点,可以将账户之间的资金转移关系转换为图数据中的边。
图计算是指针对图数据进行的计算。图计算可以广泛地应用在社交网络、推荐系统、网络安全、文本检索和生物医疗等领域。例如,可以将网页转换为图数据中的顶点,可以将网页之间的链接关系转换为图数据中的边。针对所述图数据,可以利用PageRank等算法进行图计算,得到网页的重要程度。在互联网搜索时可以将重要程度高的网页排在前面。
分布式集群可以包括多个节点,所述节点可以包括计算机设备。为了便于利用分布式集群对图数据进行图计算,可以对图数据进行划分。图数据划分是指将图数据划分为多个子图数据。所述多个子图数据可以分配到分布式集群的多个节点上进行计算。具体的,图数据划分可以考虑以下两个因素。(1)子图数据之间的规模相差不大。这样在将所述多个子图数据分配到分布式集群的多个节点上进行计算时,节点之间的计算量相近,节点之间的负载均衡。(2)子图数据之间相连的边数尽量少。这样在将所述多个子图数据分配到分布式集群的多个节点上进行计算时,节点之间的通信次数较少,节省通信开销,提高计算效率。
在相关技术中,一种图数据划分方法可以包括:将图数据中的顶点散列划分到多个数据集中;将图数据中的边划分到边的源顶点所在的数据集中。每个数据集可以理解为图数据的一个子图数据。然而,采用散列的方式对顶点进行划分,没有考虑到图数据中顶点之间的关系,使数据集之间相连的边数较多,增加节点之间的通信次数。另外,将图数据中的边划分到边的源顶点所在的数据集,也会增加节点之间的通信次数。例如,多条边可以对应一个源顶点和多个目标顶点。将图数据中的顶点散列划分到多个数据集中,有可能使所述源顶点位于一个节点(以下称为第一节点),所述多个目标顶点位于另外一个节点(以下称为第二节点)。在进行图计算时,是利用源顶点的信息,沿着边计算目标顶点的信息。由于边和源顶点位于第一节点,为了使第二节点知晓应当沿着哪些边计算哪些目标顶点的信息,使得,针对所述多条边中的每条边,第一节点均需要向第二节点发送源顶点的信息。这样第一节点需要多次向第二节点发送源顶点的信息,造成第一节点和第二节点之间的通信次数较多。
其中,所述顶点的信息可以包括顶点所对应业务实体的信息。例如,顶点所对应的业务实体可以为网页,顶点的信息可以包括网页被访问的概率。另举一例,顶点所对应的业务实体可以为账户,顶点的信息可以包括账户的资金余额。
例如,图1所示的图数据可以包括顶点A1、顶点B1、顶点C1、顶点D1、顶点E1、顶点F1、边e=(A1,B1)、边e=(A1,C1)、边e=(A1,D1)、边e=(A1,E1)、边e=(A1,F1)。所述分布式集群可以包括节点P0、节点P1和节点P2等3个节点。顶点A1、顶点B1、顶点C1、顶点D1、顶点E1、顶点F1的标识分别为0、1、2、3、4、5。其中,顶点A1的标识0和顶点D1的标识3除以3的余数为0,可以将顶点A1和顶点D1划分到节点P0对应的数据集S0。顶点B1的标识1和顶点E1的标识4除以3的余数为1,可以将顶点B1和顶点E1划分到节点P1对应的数据集S1。顶点C1的标识2和顶点F1的标识5除以3的余数为2,可以将顶点C1和顶点F1划分到节点P2对应的数据集S2。边e=(A1,B1)、边e=(A1,C1)、边e=(A1,D1)、边e=(A1,E1)、边e=(A1,F1)的源顶点为顶点A1,可以将边e=(A1,B1)、边e=(A1,C1)、边e=(A1,D1)、边e=(A1,E1)、边e=(A1,F1)划分到所述数据集S0中。
在进行图计算时,针对边e=(A1,B1),节点P0需要向节点P1发送顶点A1的信息;针对边e=(A1,C1),节点P0需要向节点P2发送顶点A1的信息;针对边e=(A1,E1),节点P0需要向节点P1发送顶点A1的信息;针对边e=(A1,F1),节点P0需要向节点P2发送顶点A1的信息。这样在进行图计算时,节点P0需要向节点P1发送2次顶点A1的信息,需要向节点P2发送2次顶点A1的信息。造成节点P0与节点P1和节点P2之间的通信次数较多。
本说明书实施例涉及的实施环境可以包括图数据处理系统。
在一些实施例中,所述图数据处理系统可以包括分布式集群。所述分布式集群可以用于对图数据进行划分,并且还可以用于对图数据进行计算。
所述分布式集群中的目标节点用于对图数据进行划分,得到多个数据集。每个数据集可以包括顶点和/或边,因而可以理解为一个子图数据。所述目标节点可以将所述多个数据集分配至分布式集群中的多个节点。所述分布式集群中的每个节点可以获得一个或者多个数据集。所述分布式集群中的每个节点可以直接根据数据集进行图计算。或者,所述分布式集群中的每个节点还可以将数据集划分为多个子集;可以根据所述多个子集采用并行的方式进行图计算。当然,所述目标节点也可以将每个数据集划分为多个子集;可以将所述多个子集分配至分布式集群中的一个节点,以便节点根据所述多个子集采用并行的方式进行图计算。
或者,所述分布式集群中的目标节点用于对图数据中的顶点进行划分,得到多个顶点集。所述顶点集可以包括一个或多个顶点。每个顶点集中的标识构成一个标识集。所述目标节点可以将多个标识集分配至分布式集群中的多个节点。所述分布式集群中的每个节点可以获得一个或者多个标识集;可以根据标识集从图数据中读取相应的顶点;可以从图数据中读取以该顶点为源顶点的边或者以该顶点为目标顶点的边;从而得到包括顶点和/或边的数据集。所述分布式集群中的每个节点可以直接根据数据集进行图计算。或者,所述分布式集群中的每个节点也可以将数据集划分为多个子集;可以根据所述多个子集采用并行的方式进行图计算。
所述目标节点可以从分布式集群中选取得到。例如,可以从分布式集群随机选取一个节点作为目标节点。另举一例,还可以从分布式集群选取计算能力最强的节点作为目标节点。
顶点的标识可以是预先设定的。或者,还可以获取图数据的局部性特征,所述局部性特征用于表示顶点间的接近程度;可以根据局部性特征,为图数据中的顶点分配标识。标识的编号顺序表示顶点间的接近程度。为图数据中的顶点分配标识的过程在后续会有详细介绍。
在一些实施例中,所述图数据处理系统可以包括划分服务器和分布式集群。
所述划分服务器用于对图数据进行划分,得到多个数据集。其中,每个数据集可以包括顶点和/或边,因而可以理解为一个子图数据。所述划分服务器可以将所述多个数据集分配至分布式集群中的多个节点。所述分布式集群中的每个节点可以获得一个或者多个数据集。所述分布式集群中的每个节点可以直接根据数据集进行图计算。或者,所述分布式集群中的每个节点还可以将数据集划分为多个子集;可以根据所述多个子集采用并行的方式进行图计算。当然,所述划分服务器也可以将每个数据集划分为多个子集;可以将所述多个子集分配至分布式集群中的一个节点,以便节点根据所述多个子集采用并行的方式进行图计算。
本说明书实施例提供一种图数据划分方法。
所述图数据划分方法可以应用于计算机设备。所述计算机设备可以包括划分服务器、分布式集群。请参阅图2,所述图数据划分方法可以包括以下步骤。
步骤S21:将图数据中的顶点划分到多个数据集中。
在一些实施例中,所述数据集的数量可以根据分布式集群中节点的数量确定。具体的,所述数据集的数量可以等于、大于或者小于分布式集群中节点的数量。例如,可以获取分布式集群中节点的数量,作为所述数据集的数量。使得,每个数据集可以对应分布式集群中的一个节点,用于供分布式集群中的一个节点进行图计算。另举一例,还可以获取分布式集群中节点的数量;可以将分布式集群中节点的数量乘以2作为所述数据集的数量。使得,每两个数据集可以对应分布式集群中的一个节点,用于供分布式集群中的一个节点进行图计算。
在一些实施例中,经过步骤S21,每个数据集可以包括一个或多个顶点。在实际应用中,可以采用随机的方式,将图数据中的顶点划分到多个数据集中。或者,也可以采用散列的方式,将图数据中的顶点划分到多个数据集中。例如,可以计算顶点的标识除以P的余数,可以将顶点划分到与所述余数相对应的数据集中,所述P为数据集的数量。或者,还可以获取图数据的局部性特征;可以根据局部性特征,将图数据中的顶点划分到多个数据集中。
可以采用图搜索算法对图数据进行分析,得到图数据的局部性特征。所述图搜索算法可以包括广度优先搜索算法(Breadth First Search,BFS)、深度优先搜索算法(DepthFirst Search, DFS)等。所述局部性特征用于表示顶点间的接近程度。所述局部性特征可以包括顶点之间是否为邻居顶点。具体的,若两个顶点之间有边连接,即,所述两个顶点为邻居顶点,则所述两个顶点的接近程度较近。若两个顶点之间没有边连接,即,所述两个顶点不是邻居顶点,则所述两个顶点的接近程度较远。或者,所述局部性特征还可以包括顶点之间的最短路径。具体的,若两个顶点之间的最短路径较短,则所述两个顶点的接近程度较近。若两个顶点之间的最短路径较长,则所述两个顶点的接近程度较远。根据局部性特征对图数据中的顶点进行划分,有利于减少数据集之间相连的边数,减少节点之间的通信次数,节省通信开销。
可以根据局部性特征,为图数据中的顶点分配标识;可以根据标识的编号顺序,将图数据中的顶点划分到多个数据集中。所述标识用于标识顶点,具体可以包括数字、字符、或者由数字和字符构成的字符串等。所述标识的编号顺序可以是连续的,或者,也可以是不连续的。所述标识的编号顺序能够表示顶点之间的接近程度。接近程度较近的顶点,其标识在编号顺序上较近;接近程度较远的顶点,其标识在编号顺序上也较远。可以按照标识的编号顺序,将图数据中的顶点连续地划分到所述多个数据集中。使得,数据集内部的顶点的接近程度较近,不同数据集之间的顶点的接近程度较远,从而减少数据集之间相连的边数。
例如,图3所示的图数据可以包括顶点A2、顶点B2、顶点C2、顶点D2、顶点E2、顶点F2、顶点G2、边e=(A2,B2)、边e=(B2,E2)、边e=(A2,C2)、边e=(A2,D2)、边e=(C2,F2)、边e=(C2,G2)。在图3所示的图数据中,顶点A2和顶点B2为邻居顶点,顶点A2和顶点C2为邻居顶点,顶点A2和顶点D2为邻居顶点,顶点B2和顶点E2为邻居顶点,顶点C2和顶点F2为邻居顶点,顶点C2和顶点G2为邻居顶点。因此,可以根据顶点之间是否为邻居顶点,分别为顶点A2、顶点B2、顶点C2、顶点D2、顶点E2、顶点F2、顶点G2分配标识0、1、2、3、4、5、6。其中,顶点A2、顶点B2、顶点C2、顶点D2、顶点E2、顶点F2、顶点G2的标识在编号顺序上是连续的。并且,顶点A2的标识0和顶点B2的标识1在编号顺序上较近,顶点A2的标识0和顶点C2的标识2在编号顺序上较近,顶点A2的标识0和顶点D2的标识3在编号顺序上较近。顶点B2的标识1和顶点E2的标识4在编号顺序上较近。顶点C2的标识2和顶点F2的标识5在编号顺序上较近,顶点C2的标识2和顶点G2的标识6在编号顺序上较近。
所述多个数据集可以包括数据集S0、数据集S1、数据集S2。可以按照标识的编号顺序,将顶点A2和顶点B2划分到数据集S0,将顶点C2和顶点D2划分到数据集S1,将顶点E2、顶点F2和顶点G2划分到数据集S2。从而减少数据集S0、数据集S1和数据集S1之间相连的边数。
当然,还可以直接根据局部性特征,将图数据中的顶点划分到多个数据集中。例如,可以直接根据顶点之间是否为邻居顶点,将图数据中的顶点划分到多个数据集中。另举一例,可以直接根据顶点之间的最短路径,将图数据中的顶点划分到多个数据集中。
在一些实施例中,为了使分布式集群中节点之间的负载均衡,所述多个数据集的计算量可以相近。其中,数据集的计算量可以理解为节点在对数据集进行图计算时的工作量。所述多个数据集的计算量相近可以包括:计算量相等、计算量的差值在预设范围内。
可以确定计算量参考值。在对顶点进行划分的过程中,可以确定各数据集的计算量,以使数据集的计算量与计算量参考值相近。数据集的计算量与计算量参考值相近可以包括:数据集的计算量与计算量参考值相等、数据集的计算量与计算量参考值的差值在预设范围内。
可以根据图数据中顶点的数量以及所述数据集的数量确定计算量参考值。例如,可以根据公式
Figure 430676DEST_PATH_IMAGE001
确定计算量参考值。其中,所述V表示图数据中顶点的数量,所述P表示所述数据集的数量。相应地,可以统计数据集中顶点的数量作为数据集的计算量。或者,顶点的边数可以包括顶点的入边数和/或出边数。顶点的入边可以包括以该顶点为目标顶点的边,顶点的出边可以包括以该顶点为源顶点的边。不同顶点的边数有可能相差较大。为了准确地评估数据集的计算量,提高负载均衡的效果,还可以根据图数据中顶点的数量、顶点的边数以及数据集的数量确定计算量参考值。例如,可以根据公式
Figure 754341DEST_PATH_IMAGE002
确定计算量参考值。其中,所述V表示图数据中顶点的数量,所述
Figure 737340DEST_PATH_IMAGE003
表示图数据中各顶点的入边数之和,所述
Figure 663708DEST_PATH_IMAGE004
表示图数据中各顶点的出边数之和,所述P表示所述数据集的数量。相应地,可以根据数据集中顶点的数量以及顶点的边数,确定数据集的计算量。例如,可以利用公式
Figure 212501DEST_PATH_IMAGE005
确定数据集的计算量。其中,所述N表示数据集中顶点的数量,所述
Figure 736761DEST_PATH_IMAGE006
表示数据集中各顶点的入边数之和,所述
Figure 144740DEST_PATH_IMAGE007
表示数据集中各顶点的出边数之和。
在实际应用中,针对所述多个数据集,可以采用串行的方式进行划分。具体的,可以将图数据中的顶点划分到一个数据集中,并计算该数据集的计算量,以使该数据集的计算量与所述计算量参考值相近。然后,可以将图数据中的顶点划分到另一个数据集中,并计算该数据集的计算量,以使该数据集的计算量与所述计算量参考值相近。如此不断地进行迭代。
当然,在对顶点进行划分的过程中,还可以确定各数据集的计算量,将各数据集的计算量进行比较,以使各数据集的计算量相近。在实际应用中,针对所述多个数据集,可以采用并行的方式进行划分。具体的,可以将图数据中的若干顶点划分到多个数据集中,并确定各数据集的计算量,将各数据集的计算量进行比较,以使各数据集的计算量相近。然后,再将图数据中的若干顶点划分到多个数据集中,并确定各数据集的计算量,将各数据集的计算量进行比较,以使各数据集的计算量相近。如此不断地进行迭代,实现对顶点的划分。
步骤S23:将图数据中的边划分到边的目标顶点所在的数据集中。
在一些实施例中,经过步骤S23,每个数据集可以包括顶点和/或边,因而每个数据集可以理解为一个子图数据。通过将图数据中的边划分到边的目标顶点所在的数据集。使得在进行图计算时,针对每个顶点,节点向分布式集群中的其它节点最多发送一次该顶点的信息,而无需发送多次该顶点的信息,减少了节点之间的通信次数,节省了通信开销。例如,多条边可以对应一个源顶点和多个目标顶点。将图数据中的顶点划分到多个数据集,有可能使所述源顶点位于一个节点(以下称为第一节点),所述多个目标顶点位于另外一个节点(以下称为第二节点)。在进行图计算时,是利用源顶点的信息,沿着边计算目标顶点的信息。由于边和目标顶点均位于第二节点,第一节点可以仅向第二节点发送一次源顶点的信息,第二节点便可以沿着多条边计算目标顶点的信息。减少了第一节点和第二节点之间的通信次数。
以图1所示的图数据为例,边e=(A1,B1)、边e=(A1,C1)、边e=(A1,D1)、边e=(A1,E1)、边e=(A1,F1)的目标顶点分别为顶点B1、顶点C1、顶点D1、顶点E1、顶点F1。因此,可以将边e=(A1,B1)和边e=(A1,E1)划分到数据集S1中,可以将边e=(A1,C1)和边e=(A1,F1)划分到数据集S2中,可以将边e=(A1,D1)划分到数据集S0中。
在进行图计算时,节点P0可以仅向节点P1发送一次顶点A1的信息,可以仅向节点P2发送一次顶点A1的信息,从而可以减少节点P0与节点P1和节点P2之间的通信次数。
在一些实施例中,针对图数据中的每条边,可以获取该边的目标顶点所在的数据集;可以将该边划分到目标顶点所在的数据集中。或者,为了提高边的划分效率,还可以构建表格,所述表格的每行和每列分别对应一个数据集;针对图数据中的每条边,根据该边的源顶点在表格中确定目标行,根据该边的目标顶点在表格中确定目标列,可以将该边划分到由目标行和目标列限定的单元格中;可以将每列单元格中的边,划分到该列所对应的数据集中。
其中,所述表格的行数和列数可以相等,可以等于数据集的数量。所述目标行可以为源顶点所在的数据集对应的行。所述目标列可以为目标顶点所在的数据集对应的列。所述目标行和所述目标列限定的单元格可以为,以目标行为行、并且以目标列为列的单元格。
以图3所示的图数据为例,可以构建如下表1所示的表格。
表1
Figure 546902DEST_PATH_IMAGE008
利用表1,可以将边e=(A2,B2)划分到数据集S0中;可以将边e=(A2,C2)、边e=(A2,D2)划分到数据集S1中;可以将边e=(B2,E2)、边e=(C2,F2)、边e=(C2,G2)划分到数据集S2中。
在一些实施例中,可以将数据集划分为多个子集,所述多个子集用于供分布式集群中的一个节点进行图计算。所述节点具体可以根据多个子集采用并行的方式进行计算。这样可以将针对数据集的随机读写限制到较小的子集内,降低大范围随机读写带来的资源开销。并且,通过步骤S21-步骤S23,实现了对图数据在节点间的划分;通过将数据集划分为多个子集,实现了对数据集在节点内的划分。这样通过节点间和节点内的两层划分,可以提高计算效率。
所述子集的数量可以根据数据集所对应节点的线程数量确定。所述子集的数量可以等于、大于或者小于所述线程数量。例如,可以利用公式2T1计算子集的数量,所述T1表示节点的线程数量。这样,所述节点可以根据所述多个子集采用多线程的方式进行图计算。或者,所述子集的数量还可以根据数据集所对应节点的进程数量确定。所述子集的数量可以等于、大于或者小于所述进程数量。例如,可以利用公式2T2计算所述子集的数量,所述T2表示节点的进程数量。这样,所述节点可以根据所述多个子集采用多进程的方式进行图计算。
可以采用与将图数据划分为多个数据集相类似的方式,将各个数据集划分为多个子集。所述多个子集的计算量相近,从而可以使线程之间或者进程之间的负载均衡。
在实际应用中,节点可以利用工作窃取算法(work stealing)进行图计算,以实现线程之间或者进程之间的负载均衡。当然,节点也可以利用其它算法进行图计算,在此不再赘述。
本说明书实施例的图数据划分方法,可以将图数据中的顶点划分到多个数据集中;可以将图数据中的边划分到边的目标顶点所在的数据集中。所述多个数据集的计算量相近,从而可以使分布式集群中节点之间的负载均衡。另外,通过将图数据中的边划分到边的目标顶点所在的数据集,也可以减少节点之间的通信次数,节省通信开销。
本说明书实施例提供一种图数据划分方法。
所述图数据划分方法可以应用于计算机设备。所述计算机设备可以包括划分服务器、分布式集群。请参阅图4,所述图数据划分方法可以包括以下步骤。
步骤S41:获取图数据的局部性特征,所述局部性特征用于表示顶点间的接近程度。
步骤S43:根据局部性特征,将图数据中的顶点划分到多个数据集中。
步骤S45:将图数据中的边划分到所述多个数据集中;其中,所述数据集用于供分布式集群中的节点进行图计算,所述多个数据集的计算量相近。
关于步骤S41-步骤S43的相关介绍可以参加图2对应的实施例,在此不再赘述。
在步骤S45中,可以将图数据中的边划分到边的源顶点所在的数据集中。或者,还可以将图数据中的边划分到边的源顶点所在的数据集中。本说明书实施例对此不做具体限定。
本说明书实施例提供的技术方案,可以获取图数据的局部性特征,所述局部性特征用于表示顶点间的接近程度;可以根据局部性特征,将图数据中的顶点划分到多个数据集中;可以将图数据中的边划分到所述多个数据集中;所述多个数据集的计算量相近,从而可以使分布式集群中节点之间的负载均衡。另外,根据局部性特征,将图数据中的顶点划分到多个数据集中,也可以减少节点之间的通信次数,节省通信开销。
本说明书实施例还提供一种图数据划分装置。所述图数据划分装置可以应用于划分服务器、分布式集群或者分布式集群中的节点。请参阅图5,所述图数据划分装置包括以下单元。
第一划分单元51,用于将图数据中的顶点划分到多个数据集中;
第二划分单元53,用于将图数据中的边划分到边的目标顶点所在的数据集中;其中,所述数据集用于供分布式集群中的节点进行图计算,所述多个数据集的计算量相近。
本说明书实施例还提供一种图数据划分装置。所述图数据划分装置可以应用于划分服务器、分布式集群或者分布式集群中的节点。请参阅图6,所述图数据划分装置包括以下单元。
获取单元61,用于获取图数据的局部性特征,所述局部性特征用于表示顶点间的接近程度;
第一划分单元63,用于根据局部性特征,将图数据中的顶点划分到多个数据集中;
第二划分单元65,用于将图数据中的边划分到所述多个数据集中;其中,所述数据集用于供分布式集群中的节点进行图计算,所述多个数据集的计算量相近。
下面介绍本说明书计算机设备的一个实施例。图7是该实施例中计算机设备的硬件结构示意图。如图7所示,该计算机设备可以包括一个或多个(图中仅示出一个)处理器、存储器和传输模块。当然,本领域普通技术人员可以理解,图7所示的硬件结构仅为示意,其并不对上述计算机设备的硬件结构造成限定。在实际中该计算机设备还可以包括比图7所示更多或者更少的组件单元;或者,具有与图7所示不同的配置。
所述存储器可以包括高速随机存储器;或者,还可以包括非易失性存储器,例如一个或者多个磁性存储装置、闪存或者其他非易失性固态存储器。当然,所述存储器还可以包括远程设置的网络存储器。所述存储器可以用于存储应用软件的程序指令或模块,例如本说明书图2或图4所对应实施例的程序指令或模块。
所述处理器可以按任何适当的方式实现。例如,所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific IntegratedCircuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以读取并执行所述存储器中的程序指令或模块。
所述传输模块可以用于经由网络进行数据传输,例如经由诸如互联网、企业内部网、局域网、移动通信网等网络进行数据传输。
本说明书还提供计算机存储介质的一个实施例。所述计算机存储介质包括但不限于随机存取存储器(Random Access Memory, RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard Disk Drive, HDD)、存储卡(Memory Card)等等。所述计算机存储介质存储有计算机程序指令。在所述计算机程序指令被执行时实现:本说明书图2或图4所对应实施例的程序指令或模块。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其它实施例的不同之处。尤其,对于装置实施例、计算机设备实施例、以及计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。另外,可以理解的是,本领域技术人员在阅读本说明书文件之后,可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合,这些组合也在本说明书公开和保护的范围内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD 上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language )与Verilog。本领域技术人员应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims (16)

1.一种图数据划分方法,包括:
将图数据中的顶点划分到多个数据集中;
在所述多个数据集中,获取图数据中各边的目标顶点所在的数据集,将边划分到边的目标顶点所在的数据集中;其中,所述边包括有向边,所述有向边的方向为从源顶点到目标顶点,所述数据集用于供分布式集群中的节点进行图计算,所述多个数据集的计算量相近,所述多个数据集的计算量相近包括以下至少之一:计算量相等、计算量的差值在预设范围内,数据集的计算量根据数据集中顶点的数量以及顶点的边数确定得到。
2.根据权利要求1所述的方法,所述将图数据中的顶点划分到多个数据集中,包括:
根据图数据和所述数据集的数量,确定计算量参考值;
将图数据中的顶点划分到多个数据集中;在划分的过程中,确定各数据集的计算量,以使数据集的计算量与所述计算量参考值相近。
3.根据权利要求2所述的方法,所述确定计算量参考值,包括:
根据图数据中顶点的数量、顶点的边数以及所述数据集的数量,确定计算量参考值。
4.根据权利要求1所述的方法,所述将图数据中的顶点划分到多个数据集中,包括:
获取图数据的局部性特征,所述局部性特征用于表示顶点之间的接近程度;
根据局部性特征,将图数据中的顶点划分到多个数据集中。
5.根据权利要求4所述的方法,所述将图数据中的顶点划分到多个数据集中,包括:
根据局部性特征,为图数据中的顶点分配标识,标识的编号顺序用于表示所述接近程度;
根据标识的编号顺序,将图数据中的顶点划分到多个数据集中。
6.根据权利要求1所述的方法,所述将边划分到边的目标顶点所在的数据集中,包括:
构建表格,所述表格的每行和每列分别对应一个数据集;
针对图数据中的每条边,根据该边的源顶点在表格中确定目标行,根据该边的目标顶点在表格中确定目标列,将该边划分到由目标行和目标列限定的单元格中;
将每列单元格中的边,划分到该列所对应的数据集中。
7.根据权利要求1所述的方法,所述方法还包括:
将数据集划分为多个子集,所述多个子集用于供分布式集群中的一个节点进行图计算。
8.根据权利要求7所述的方法,所述将数据集划分为多个子集,包括:
根据节点的线程数量或者进程数量,将数据集划分为多个子集。
9.一种图数据划分方法,包括:
获取图数据的局部性特征,所述局部性特征用于表示顶点之间的接近程度;
根据局部性特征,将图数据中的顶点划分到多个数据集中;其中,所述将图数据中的顶点划分到多个数据集中,包括:根据局部性特征,为图数据中的顶点分配标识,标识的编号顺序用于表示所述接近程度;根据标识的编号顺序,将图数据中的顶点划分到多个数据集中;
将图数据中的边划分到所述多个数据集中;其中,所述数据集用于供分布式集群中的节点进行图计算,所述多个数据集的计算量相近,所述多个数据集的计算量相近包括以下至少之一:计算量相等、计算量的差值在预设范围内。
10.根据权利要求9所述的方法,所述将图数据中的顶点划分到多个数据集中,包括:
根据图数据和所述数据集的数量,确定计算量参考值;
将图数据中的顶点划分到多个数据集中;在划分的过程中,确定各数据集的计算量,以使数据集的计算量与所述计算量参考值相近。
11.根据权利要求10所述的方法,所述确定计算量参考值,包括:
根据图数据中顶点的数量、顶点的边数以及所述数据集的数量,确定计算量参考值;
所述确定各数据集的计算量,包括:
根据数据集中顶点的数量以及顶点的边数,确定数据集的计算量。
12.根据权利要求9所述的方法,所述方法还包括:
将数据集划分为多个子集,所述多个子集用于供分布式集群中的一个节点进行图计算。
13.根据权利要求12所述的方法,所述将数据集划分为多个子集,包括:
根据节点的线程数量或者进程数量,将数据集划分为多个子集。
14.一种图数据划分装置,包括:
第一划分单元,用于将图数据中的顶点划分到多个数据集中;
第二划分单元,用于在所述多个数据集中,获取图数据中各边的目标顶点所在的数据集,将边划分到边的目标顶点所在的数据集中;其中,所述边包括有向边,所述有向边的方向为从源顶点到目标顶点,所述数据集用于供分布式集群中的节点进行图计算,所述多个数据集的计算量相近,所述多个数据集的计算量相近包括以下至少之一:计算量相等、计算量的差值在预设范围内,数据集的计算量根据数据集中顶点的数量以及顶点的边数确定得到。
15.一种图数据划分装置,包括:
获取单元,用于获取图数据的局部性特征,所述局部性特征用于表示顶点间的接近程度;
第一划分单元,用于根据局部性特征,将图数据中的顶点划分到多个数据集中;其中,所述将图数据中的顶点划分到多个数据集中,包括:根据局部性特征,为图数据中的顶点分配标识,标识的编号顺序用于表示所述接近程度;根据标识的编号顺序,将图数据中的顶点划分到多个数据集中;
第二划分单元,用于将图数据中的边划分到所述多个数据集中;其中,所述数据集用于供分布式集群中的节点进行图计算,所述多个数据集的计算量相近,所述多个数据集的计算量相近包括以下至少之一:计算量相等、计算量的差值在预设范围内。
16.一种计算机设备,包括:
至少一个处理器;
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如所述权利要求1-13中任一项方法的指令。
CN202111345319.4A 2021-11-15 2021-11-15 图数据划分方法、装置和计算机设备 Active CN113792170B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111345319.4A CN113792170B (zh) 2021-11-15 2021-11-15 图数据划分方法、装置和计算机设备
PCT/CN2022/131042 WO2023083241A1 (zh) 2021-11-15 2022-11-10 图数据划分

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111345319.4A CN113792170B (zh) 2021-11-15 2021-11-15 图数据划分方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN113792170A CN113792170A (zh) 2021-12-14
CN113792170B true CN113792170B (zh) 2022-03-15

Family

ID=78955179

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111345319.4A Active CN113792170B (zh) 2021-11-15 2021-11-15 图数据划分方法、装置和计算机设备

Country Status (2)

Country Link
CN (1) CN113792170B (zh)
WO (1) WO2023083241A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792170B (zh) * 2021-11-15 2022-03-15 支付宝(杭州)信息技术有限公司 图数据划分方法、装置和计算机设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104952032A (zh) * 2015-06-19 2015-09-30 清华大学 图的处理方法、装置以及栅格化表示及存储方法
CN105096297A (zh) * 2014-05-05 2015-11-25 中兴通讯股份有限公司 一种图数据分割的方法及装置
CN105787020A (zh) * 2016-02-24 2016-07-20 鄞州浙江清华长三角研究院创新中心 图数据划分方法及装置
CN107193896A (zh) * 2017-05-09 2017-09-22 华中科技大学 一种基于簇的图数据划分方法
CN108804226A (zh) * 2018-05-28 2018-11-13 中国人民解放军国防科技大学 一种用于分布式图计算的图分割划分方法
CN109165325A (zh) * 2018-08-27 2019-01-08 北京百度网讯科技有限公司 用于切分图数据的方法、装置、设备以及计算机可读存储介质
US20190012759A1 (en) * 2017-07-10 2019-01-10 National Cheng Kung University Image Data Analytics for Computation Accessibility and Configuration
US20200137661A1 (en) * 2017-07-20 2020-04-30 Nokia Solution And Networks Oy Partitioning method and apparatus for partitioning a plurality of wireless access points into management clusters
CN113010748A (zh) * 2021-04-01 2021-06-22 绍兴文理学院 一种基于亲和聚类的分布式大图划分方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198834B2 (en) * 2013-04-29 2019-02-05 Microsoft Technology Licensing, Llc Graph partitioning for massive scale graphs
US9275422B2 (en) * 2013-05-29 2016-03-01 International Business Machines Corporation Distributed k-core view materialization and maintenance for graphs
CN103699606B (zh) * 2013-12-16 2017-03-01 华中科技大学 一种基于顶点切割与社区聚集的大规模图划分方法
CN104915187A (zh) * 2014-03-13 2015-09-16 华为技术有限公司 一种图模型计算的方法及装置
CN114385350A (zh) * 2016-11-30 2022-04-22 华为技术有限公司 一种图数据处理的方法、装置及系统
CN113792170B (zh) * 2021-11-15 2022-03-15 支付宝(杭州)信息技术有限公司 图数据划分方法、装置和计算机设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105096297A (zh) * 2014-05-05 2015-11-25 中兴通讯股份有限公司 一种图数据分割的方法及装置
CN104952032A (zh) * 2015-06-19 2015-09-30 清华大学 图的处理方法、装置以及栅格化表示及存储方法
CN105787020A (zh) * 2016-02-24 2016-07-20 鄞州浙江清华长三角研究院创新中心 图数据划分方法及装置
CN107193896A (zh) * 2017-05-09 2017-09-22 华中科技大学 一种基于簇的图数据划分方法
US20190012759A1 (en) * 2017-07-10 2019-01-10 National Cheng Kung University Image Data Analytics for Computation Accessibility and Configuration
US20200137661A1 (en) * 2017-07-20 2020-04-30 Nokia Solution And Networks Oy Partitioning method and apparatus for partitioning a plurality of wireless access points into management clusters
CN108804226A (zh) * 2018-05-28 2018-11-13 中国人民解放军国防科技大学 一种用于分布式图计算的图分割划分方法
CN109165325A (zh) * 2018-08-27 2019-01-08 北京百度网讯科技有限公司 用于切分图数据的方法、装置、设备以及计算机可读存储介质
CN113010748A (zh) * 2021-04-01 2021-06-22 绍兴文理学院 一种基于亲和聚类的分布式大图划分方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Streaming graph partitioning: an experimental study;Zainab Abbas等;《Proceedings of the VLDB Endowment》;20180731;第11卷;第1590-1603页 *
分布式图计算中的图划分问题研究;李琪;《中国优秀博硕士学位论文全文数据库(博士)基础科学辑》;20201215(第12期);第1-9、24-32、86-104页 *

Also Published As

Publication number Publication date
WO2023083241A1 (zh) 2023-05-19
CN113792170A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
Dong et al. Learning space partitions for nearest neighbor search
US20200151395A1 (en) Cluster-based word vector processing method, device, and apparatus
CN111241353B (zh) 一种图数据的分区方法、装置以及设备
CN108363686A (zh) 一种字符串分词方法、装置、终端设备及存储介质
CN111400555B (zh) 图数据查询任务处理方法、装置、计算机设备和存储介质
CN113722520B (zh) 图数据的查询方法及装置
CN111310784B (zh) 资源数据的处理方法及装置
CN111241389A (zh) 基于矩阵的敏感词过滤方法、装置、电子设备、存储介质
CN110162637B (zh) 信息图谱构建方法、装置及设备
CN105677755A (zh) 一种处理图数据的方法及装置
CN113792170B (zh) 图数据划分方法、装置和计算机设备
CN113987152B (zh) 一种知识图谱抽取方法、系统、电子设备及介质
Safar et al. Optimized skyline queries on road networks using nearest neighbors
CN111597548A (zh) 实现隐私保护的数据处理方法及装置
US11361195B2 (en) Incremental update of a neighbor graph via an orthogonal transform based indexing
Wang et al. Dynamic skylines considering range queries
CN111475736A (zh) 社区挖掘的方法、装置和服务器
Driemel et al. Probabilistic embeddings of the Fréchet distance
US11709798B2 (en) Hash suppression
CN105205058A (zh) 数据处理系统和方法
CN114429644A (zh) 图像底库的更新方法、装置、设备及存储介质
CN113988277A (zh) 用于存算一体芯片的神经网络映射方法、装置、设备
US20240143657A1 (en) Graph data partitioning
Choi et al. Optimization of Dominance Testing in Skyline Queries Using Decision Trees
CN113704309B (zh) 图数据处理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant