CN114092073B

CN114092073B - 无向带权数据图至dag任务图的转换方法、系统及装置

Info

Publication number: CN114092073B
Application number: CN202210069107.6A
Authority: CN
Inventors: 胡克坤; 董刚; 赵雅倩; 李仁刚
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2022-04-22
Anticipated expiration: 2042-01-21
Also published as: CN114092073A

Abstract

本申请提供一种无向带权数据图至DAG任务图的转换方法，包括：获取无向带权数据图；按照预设顺序加载所述无向带权数据图，并将所述无向带权数据图中的数据顶点转换为任务顶点；将全部所述任务顶点按照顶点分配策略确定各自对应放置的处理节点，得到所述DAG任务图。本申请便于利用并行计算领域优秀的基于DAG的任务调度算法来提高图大数据并行处理的任务调度效率。本申请还提供一种无向带权数据图至DAG任务图的转换系统、计算机可读存储介质和电子设备，具有上述有益效果。

Description

无向带权数据图至DAG任务图的转换方法、系统及装置

技术领域

本申请涉及图计算领域，特别涉及一种无向带权数据图至DAG任务图的转换方法、系统及相关装置。

背景技术

随着移动互联网和智能终端等新兴信息技术的快速发展，涌现出大量的应用如社交网络、电子商务、Web、智慧城市、交通网络、电信网络，等等。这些数据规模庞大、关联关系复杂，常用图来建模，称之为图大数据，简称大图。需要设计图挖掘和分析算法对图大数据进行分析和分布式并行处理。而调度的好坏直接影响图大数据并行处理效率、系统资源利用率和吞吐率的高低。当前，图大数据处理系统中广泛应用的任务调度算法有批处理调度、增量式调度和优先级调度等。但均采用单一的任务粒度如顶点、连接边或子图实施任务调度，调度效果不理想。

发明内容

本申请的目的是提供一种无向带权数据图至DAG任务图的转换方法、转换系统、计算机可读存储介质和电子设备，能够将无向带权数据图转换为DAG任务图。

为解决上述技术问题，本申请提供一种DAG任务图的转换方法，具体技术方案如下：

获取无向带权数据图；

按照预设顺序加载所述无向带权数据图，并将所述无向带权数据图中的数据顶点转换为任务顶点；

将全部所述任务顶点按照顶点分配策略确定各自对应放置的处理节点，得到所述DAG任务图。

可选的，还包括：

确定各所述处理节点的性能参数；

根据所述处理节点的性能参数确定对应可放置任务顶点的所述个数期望值。

可选的，根据所述处理节点的性能参数确定对应可放置任务顶点的所述个数期望值包括：

确定各所述处理节点之间性能参数的比例关系；

根据所述比例关系确定各所述处理节点对应可放置任务顶点的个数期望值。

可选的，按照预设顺序加载所述无向带权数据图包括：

按照广度优先算法或者深度优先算法加载所述无向带权数据图。

可选的，将所述无向带权数据图中的数据顶点转换为任务顶点包括：

确定所述无向带权数据图中的待转换数据顶点；

若所述待转换数据顶点为第一个被加载的数据顶点，将所述待转换数据顶点的所有连接边均置为以所述待转换数据顶点为源顶点、相应邻居顶点为目的顶点的有向边，同时将所述待转换数据顶点的访问状态置为已访问；

若所述待转换数据顶点不为第一个被加载的数据顶点，将所述待转换数据顶点的以已访问顶点为邻居顶点的连接边置为以所述已访问顶点为源顶点、以所述待转换数据顶点为目的顶点的有向边；将所述待转换数据顶点的未访问顶点为邻居顶点的连接边置为以所述待转换数据顶点为源顶点、以所述未访问顶点为目的顶点的有向边，同时将所述待转换数据顶点的访问状态置为已访问。

可选的，将所述无向带权数据图中的数据顶点转换为任务顶点时，还包括：

根据单位数据的操作负载和数据顶点的权重确定所述任务顶点的计算负载；

根据单位数据通信负载和连接边的权重确定所述连接边的通信负载。

其中，所述顶点分配策略为将所述任务顶点放置至当前序号最小且当前已放置的任务顶点个数小于对应个数期望值的处理节点。

本申请还提供一种无向带权数据图至DAG任务图的转换系统，包括：

获取模块，用于获取无向带权数据图；

转换模块，按照预设顺序加载所述无向带权数据图，并将所述无向带权数据图中的数据顶点转换为任务顶点；

任务分配模块，用于将全部所述任务顶点按照顶点分配策略确定各自对应放置的处理节点，得到所述DAG任务图。

可选的，还包括：

期望值计算模块，用于确定各所述处理节点的性能参数；根据所述处理节点的性能参数确定对应可放置任务顶点的所述个数期望值。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本申请还提供一种电子设备，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如上所述的方法的步骤。

本申请提供一种无向带权数据图至DAG任务图的转换方法，包括：获取无向带权数据图；按照预设顺序加载所述无向带权数据图，并将所述无向带权数据图中的数据顶点转换为任务顶点；将全部所述任务顶点按照顶点分配策略确定各自对应放置的处理节点，得到所述DAG任务图。

本申请将每个顶点转换为一个子任务，并依据相应的负载预测技术估算顶点、连接边的权重，并指定连接边的方向，待数据加载完毕时即可得到便于并行处理的DAG任务图。本申请提供了一种将数据图转换为任务图的方式，实现了由数据处理变更为任务调度的处理方式，能够直接应用并行计算中大量优秀基于DAG任务图的任务调度算法，从而有助于提高图大数据处理过程中的任务调度效率。

本申请还提供一种无向带权数据图至DAG任务图的转换系统、计算机可读存储介质和电子设备，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种无向带权数据图至DAG任务图的转换方法的流程图；

图2为本申请实施例所提供的一种无向带权数据图的处理流程示意图；

图3为本申请实施例所提供的一种无向带权数据图至DAG任务图的转换系统结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参考图1，图1为本申请实施例所提供的一种DAG任务图的转换方法的流程图，该方法包括：

S101：获取无向带权数据图；

S102：按照预设顺序加载所述无向带权数据图，并将所述无向带权数据图中的数据顶点转换为任务顶点；

本步骤旨在加载无向带权数据图，从而将其中的数据顶点转换为DAG任务图中的任务顶点。在此对于如何加载无向带权数据图不作具体限定，而在执行分布处理之前，需要将无向带权数据图从大规模存储阵列加载至并行计算系统例如机群中。

同时在加载无向带权数据图时，可以先确定一个数据顶点作为初始加载顶点，可以随机选择，也可以按照设定规则确定，在此不作具体限定。此后，按照预设顺序加载该无向带权数据图，例如按照广度优先算法或者深度优先算法加载无向带权数据图均可，甚至还可以采用随机顺序加载无向带权数据图，从而执行后续的节点转换。

在执行节点转换时，针对每一个数据顶点，可以按照如下方式进行节点转换：

第一步、确定无向带权数据图中的待转换数据顶点；

第二步、若待转换数据顶点为第一个被加载的数据顶点，将待转换数据顶点的所有连接边均置为以待转换数据顶点为源顶点、相应邻居顶点为目的顶点的有向边，同时将待转换数据顶点的访问状态置为已访问；

第三步、若待转换数据顶点不为第一个被加载的数据顶点，将待转换数据顶点的以已访问顶点为邻居顶点的连接边置为以已访问顶点为源顶点、以待转换数据顶点为目的顶点的有向边；将待转换数据顶点的未访问顶点为邻居顶点的连接边置为以待转换数据顶点为源顶点、以未访问顶点为目的顶点的有向边，同时将待转换数据顶点的访问状态置为已访问。

上述过程中默认存在对于待转换数据顶点是否为第一个被加载的数据顶点的判断过程，此后根据是否为第一个被加载的数据顶点将连接边转换为有向边。具体的，若确为第一个被加载的数据顶点，可以直接将待转换数据顶点作为起始的源顶点，将待转换数据顶点的邻居顶点作为目的顶点，从而得到连接边对应的有向边，即从待转换数据顶点指向邻居顶点。且，需要将待转换数据顶点的访问状态置为已访问，此后不再对该数据顶点其连接边的转换，即待转换数据顶点已经转换完毕。

若待转换数据顶点不为第一个被加载的数据顶点，通常其作为已经转换完毕的某个数据顶点对应有向边的目的顶点。此时，将待转换数据顶点的未访问顶点为邻居顶点的连接边置为以待转换数据顶点为源顶点、以未访问顶点为目的顶点的有向边。

举例说明，若数据顶点A、数据顶点B和数据顶点C依次相连，若从数据顶点A开始加载，则以数据顶点A为源顶点、数据顶点B为目的顶点可得有向边，此后对于数据顶点B，其不为第一个被加载的数据顶点，则将自身作为源顶点，邻居顶点数据顶点C作为目的顶点，得到数据顶点B→数据顶点C的有向边。若并行处理时，其中一个线程从数据顶点B开始加载，而另一线程中数据顶点A已经处理完毕，则此时先得到以数据顶点A为源顶点，自身为目的顶点有向边，再按上文相同过程得到数据顶点B→数据顶点C的有向边。

作为更优选的实施方式，在执行本步骤时，还可以根据单位数据的操作负载和数据顶点的权重确定所述任务顶点的计算负载，以及根据单位数据通信负载和连接边的权重确定连接边的通信负载。单位数据的操作负载和单位数据通信负载均可以通过实际测量得到，在此不作具体限定。

S103：将全部所述任务顶点按照顶点分配策略确定各自对应放置的处理节点，得到所述DAG任务图。

本步骤旨在将已转换的任务顶点放置到对应的处理节点，从而得到DAG任务图。需要注意的是，本步骤可以与上一步骤并行执行，即每转换得到一个任务节点，即可以直接执行本步骤，将其放置到相应的处理节点上。而本步骤中的“全部任务顶点”指所有任务顶点均需要放置到处理节点上，而并不要求所有任务顶点需同时放置到处理节点上。

本实施例中，对该顶点分配策略的具体内容不作限定。一种优选的执行方式，顶点分配策略可以为将任务顶点放置至当前序号最小且当前已放置的任务顶点个数小于对应个数期望值的处理节点。在执行顶点分配策略时，可以对处理节点进行排序。在此对于具体的排序方式不作限定，通常可以按照处理节点的性能进行排序。且需要注意的是，每个处理节点的任务顶点个数期望值可以不尽相同，具体可以事先确定各处理节点的性能参数，再根据处理节点的性能参数确定对应可放置任务顶点的个数期望值。更具体的，不同处理节点的个数期望值之间可以根据性能参数呈一定比例，例如可以确定各处理节点之间的性能参数比例关系，从而根据比例关系确定各处理节点对应可放置任务顶点的个数期望值。

而在其他的实施例中，该顶点分配策略还可以为其他分配方案，例如按顺序放置，即实现将处理节点编号排序，每将一个数据顶点转换为任务顶点后，按照处理节点的编号顺序依次放置。还可以对任务顶点进行哈希函数计算，从而实现任务顶点的随机放置等等。本领域技术人员有能力在本实施例的基础上采用更多的顶点分配策略，在此不一一举例说明。

本申请实施例将每个顶点转换为一个子任务，并依据相应的负载预测技术估算顶点、连接边的权重，并指定连接边的方向，待数据加载完毕时即可得到便于并行处理的DAG任务图。本申请提供了一种将数据图转换为任务图的方式，实现了由数据处理变更为任务调度的处理方式，能够直接应用并行计算中大量优秀的基于DAG的任务调度算法，从而有助于提高图大数据处理过程中的任务调度效率。

参见图2，图2为本申请实施例所提供的一种无向带权数据图的处理流程示意图，应用本申请实施例，能够将无向带权数据图通过变换器转换为DAG任务，而本申请实施例正是应用于图2所示变换器中。

为了更清楚的描述本申请提供的一种DAG任务图的转换方法，下文以一种本申请的具体实施过程对上文进行更详细的说明：

设并行计算系统由k个处理节点p ₁, p ₂,…, p _k通过网络连接，它们的处理速度分别记为s ₁, s ₂,..., s _k, 且满足s ₁≤s ₂≤...≤s _k，且s可通过执行Graph500 基准测试程序得到。记这k个处理节点间的性能比例关系为

，且满足

。

设待并行分布处理的数据图DG=(DV, DE, DW, DC)是无向带权图。其中：

DV={dv _j |j=1, 2, 3, …, n}表示数据顶点集合，N(dv _j)表示dv _j邻居顶点的集合，由所有与dv _j有边相连的数据顶点组成。

DE={de _jk|j, k=1, 2, 3, …, n}表示数据顶点之间的连接边集合；

DW={dw _j |j=1, 2, 3, …, n}是数据顶点的权重集合；

DC={dc _j |j=1, 2, 3, …, n}是数据顶点间连接边上权重的集合；dw和dc可以为距离、PageRank等。

常见的图挖掘和分析算法有Dijkstra单源最短路径算法、PageRank算法、BFS（Breadth-first Search）和DFS（Deep-first Search）遍历算法等等。设DAG任务图TG=(TV,TE, TW, TC)。其中，TV={tv _j|j=1, 2, 3, …, l}是子任务顶点集合。

而TE={te _jk|j, k=1, 2, 3, …, l}是有向边的集合，te _jk表示该条有向边所连接的两个子任务t _j和t _k之间的通信和数据依赖关系，tv _k必须在收到tv _j执行结果之后才能开始执行。设Pred(tv _j)、Succ(tv _j)分别为tv _j的直接前驱、直接后继子任务集，若

，则称tv _j是入口子任务并记为“tv _entry”；若

，则称tv _j是出口子任务并记为“tv _exit”。 TW={tw _j |j=1, 2, 3, …, l}表示子任务计算负载的集合，tw _j对应tv _j的计算负载。TC={tc _jk|j, k=1, 2, 3, …, l}是子任务间的通信负载的集合，tc _jk对应边te _jk上的通信负载。

此后计算根据处理节点的性能参数确定对应可放置任务顶点的个数期望值，可参考如下公式：

上式中，Vertex _E(p _i)为个数期望值。

对于存储在大规模磁盘存储阵列中的无向带权数据图，以数据顶点为单位，随机选择一个数据顶点为初始顶点加载数据图。

对于任意一个数据顶点dv _j，转换器按照如下方法将数据顶点dv _j转换成任务顶点tv _j，并将转换后的tv _j传递给划分器：

首先需要确定有向边，可以由DG中顶点的加载顺序决定：

(a) 设

, 若它是第一个被加载的数据顶点，则将其所有连接边均置为以dv _j为源顶点、相应邻居顶点为目的顶点的有向边，即入射连接边集

, 出射连接边集

，并置dv _j的访问状态为已访问，即visited(dv _i)=true;

(b)若不是，则将dv _j的、以已访问顶点为邻居顶点的连接边置为以该已访问顶点为源顶点、以dv _j为目的顶点的有向边，即

将属于dv _j的、以未访问顶点为邻居顶点的连接边置为以dv _j为源顶点、以该未访问顶点为目的顶点的有向边，即

, 并置dv _j的访问状态为已访问。

此后可以计算计算负载和通信负载：

同样的，对于

, 设单位数据的操作负载为

；

则

, dv _j经de _jk传输单位数据的通信负载为

，且

和

均可通过实际测量得到。

可以得到dv _j的计算负载为

, 连接边de _jk上的通信负载

。

对于任意一个任务顶点dv _j，按照如下策略决定任务顶点dv _j对应处理节点的放置位置：将其放置到序号最小且当前已放置顶点个数小于该顶点个数期望值Vertex _E(p _i)的处理节点。

按照上述对无向带权数据图处理完毕后，即可得到DAG任务图。

下面对本申请实施例提供的DAG任务图的转换系统进行介绍，下文描述的DAG任务图的转换系统与上文描述的DAG任务图的转换方法可相互对应参照。

图3为本申请实施例所提供的一种DAG任务图的转换系统结构示意图，本申请还提供一种DAG任务图的转换系统，包括：

获取模块100，用于获取无向带权数据图；

转换模块200，按照预设顺序加载所述无向带权数据图，并将所述无向带权数据图中的数据顶点转换为任务顶点；

任务分配模块300，用于将全部所述任务顶点按照顶点分配策略确定各自对应放置的处理节点，得到所述DAG任务图。

基于上述实施例，作为优选的实施例，还包括：

基于上述实施例，作为优选的实施例，所述期望值计算模块包括：

比例确定单元，用于确定各所述处理节点之间性能参数的比例关系；

期望值计算单元，用于根据所述比例关系确定各所述处理节点对应可放置任务顶点的个数期望值。

基于上述实施例，作为优选的实施例，转换模块200包括：

加载单元，用于按照广度优先算法或者深度优先算法加载所述无向带权数据图。

基于上述实施例，作为优选的实施例，转换模块200包括：

转换模块，用于确定所述无向带权数据图中的待转换数据顶点；

若所述待转换数据顶点为第一个被加载的数据顶点，将所述待转换数据顶点的所有连接边均置为以所述待转换数据顶点为源顶点、相应邻居顶点为目的顶点的有向边，同时将所述待转换数据顶点的访问状态置为已访问；若所述待转换数据顶点不为第一个被加载的数据顶点，将所述待转换数据顶点的以已访问顶点为邻居顶点的连接边置为以所述已访问顶点为源顶点、以所述待转换数据顶点为目的顶点的有向边；将所述待转换数据顶点的未访问顶点为邻居顶点的连接边置为以所述待转换数据顶点为源顶点、以所述未访问顶点为目的顶点的有向边，同时将所述待转换数据顶点的访问状态置为已访问。

基于上述实施例，作为优选的实施例，还包括：

负载计算模块，用于根据单位数据的操作负载和数据顶点的权重确定所述任务顶点的计算负载；根据单位数据通信负载和连接边的权重确定所述连接边的通信负载。

本申请还提供了一种计算机可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器（Read-Only Memory ，ROM）、随机存取存储器（Random Access Memory ，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

本申请还提供了一种电子设备，可以包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种无向带权数据图至DAG任务图的转换方法，其特征在于，包括：

获取无向带权数据图；

将全部所述任务顶点按照顶点分配策略确定各自对应放置的处理节点，得到所述DAG任务图；

其中，将所述无向带权数据图中的数据顶点转换为任务顶点包括：

确定所述无向带权数据图中的待转换数据顶点；

2.根据权利要求1所述的转换方法，其特征在于，还包括：

确定各所述处理节点的性能参数；

根据所述处理节点的性能参数确定对应可放置任务顶点的个数期望值。

3.根据权利要求2所述的转换方法，其特征在于，根据所述处理节点的性能参数确定对应可放置任务顶点的所述个数期望值包括：

确定各所述处理节点之间性能参数的比例关系；

根据所述比例关系确定各所述处理节点对应可放置任务顶点的所述个数期望值。

4.根据权利要求1所述的转换方法，其特征在于，按照预设顺序加载所述无向带权数据图包括：

5.根据权利要求1所述的转换方法，其特征在于，将所述无向带权数据图中的数据顶点转换为任务顶点时，还包括：

6.根据权利要求1所述的转换方法，其特征在于，所述顶点分配策略为将所述任务顶点放置至当前序号最小且当前已放置的任务顶点个数小于对应个数期望值的处理节点。

7.一种无向带权数据图至DAG任务图的转换系统，其特征在于，包括：

获取模块，用于获取无向带权数据图；

任务分配模块，用于将全部所述任务顶点按照顶点分配策略确定各自对应放置的处理节点，得到所述DAG任务图；

其中，所述转换模块为用于执行如下步骤的模块；

确定所述无向带权数据图中的待转换数据顶点；若所述待转换数据顶点为第一个被加载的数据顶点，将所述待转换数据顶点的所有连接边均置为以所述待转换数据顶点为源顶点、相应邻居顶点为目的顶点的有向边，同时将所述待转换数据顶点的访问状态置为已访问；若所述待转换数据顶点不为第一个被加载的数据顶点，将所述待转换数据顶点的以已访问顶点为邻居顶点的连接边置为以所述已访问顶点为源顶点、以所述待转换数据顶点为目的顶点的有向边；将所述待转换数据顶点的未访问顶点为邻居顶点的连接边置为以所述待转换数据顶点为源顶点、以所述未访问顶点为目的顶点的有向边，同时将所述待转换数据顶点的访问状态置为已访问。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6任一项所述的DAG任务图的转换方法的步骤。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1-6任一项所述的DAG任务图的转换方法的步骤。