CN112486641A

CN112486641A - 一种基于图神经网络的任务调度方法

Info

Publication number: CN112486641A
Application number: CN202011296964.7A
Authority: CN
Inventors: 李清; 郭嘉伟; 江勇; 刘冀洵; 周建二
Original assignee: Southwest University of Science and Technology; Shenzhen International Graduate School of Tsinghua University; Peng Cheng Laboratory
Current assignee: Southwest University of Science and Technology; Shenzhen International Graduate School of Tsinghua University; Peng Cheng Laboratory
Priority date: 2020-11-18
Filing date: 2020-11-18
Publication date: 2021-03-12
Anticipated expiration: 2040-11-18
Also published as: CN112486641B

Abstract

本申请公开了一种基于图神经网络的任务调度方法，所述方法确定分布式计算平台内所有作业的图结构，并对图结构的特征进行处理添加出度和入度特征；在经过一个全连接的多层感知网络以及带自注意力机制的图神经网络进行节点的聚合，得到节点的节点特征向量；再将每个作业所有节点的节点特征向量加和得到作业向量；长短时记忆扫描所有作业的作业向量得到全局向量；最后通过强化学习智能体将各节点特征向量、各作业向量以及全局向量作为状态输入，通过一个策略梯度网络做出调度动作，以分配给可运行节点一定数量的空闲执行器，提高了调度效率。

Description

一种基于图神经网络的任务调度方法

技术领域

本申请涉及资源调度技术领域，特别涉及一种基于图神经网络的任务调度方法。

背景技术

近年来，随着互联网、大数据存储以及分布式计算的快速发展，计算规模的日益扩大成了很多互联网行业的严峻挑战，充分利用计算资源是互联网企业实际而又迫切的需求。目前分布式计算平台调度方法主要考虑通用性和实现简单性，而忽略作业结构(即作业内部依赖关系)和作业历史运行记录，从而现有调度方法无法使得各种工作负载均达到很好的调度效率。

发明内容

本申请要解决的技术问题在于，针对现有技术的不足，提供一种基于图神经网络的任务调度方法。

为了解决上述技术问题，本申请实施例第一方面提供了一种基于图神经网络的任务调度方法，所述方法包括：

基于分布式计算平台中的各作业数据确定各作业对应的图结构，其中，所述作业数据包括作业信息列表；

对于该图结构中的每个节点，基于该节点对应的子节点以及图神经网络，确定该节点对应的节点特征向量；

基于该作业对应的所有节点特征向量，确定该作业对应的作业向量；

基于获取到所有作业向量，确定所述分布式计算平台的全局向量；

基于各作业中的各节点的节点特征向量，各作业的作业向量以及分布式计算平台的全局向量确定调度动作。

所述基于图神经网络的任务调度方法，其中，所述基于分布式计算平台中的各作业数据确定各作业对应的图结构具体包括：

对于分布式计算平台中的每个作业，获取该作业对应的若干计算阶段；

以若干计算阶段中的每个计算节点作为节点，节点之间的输入输出关系作为边构建该作业对应的图结构。

所述基于图神经网络的任务调度方法，其中，所述基于分布式计算平台中的各作业数据确定各作业对应的图结构之后，所述方法还包括：

对于该作业对应的图结构，获取该图结构中的各节点各自对应的出度特征和/或入度特征，将所述出度特征和/或入度特征添加作业信息列表内。

所述基于图神经网络的任务调度方法，其中，所述子节点为该节点对应的图结构中的节点，并且该节点与所述子节点之间具有指向所述子节点的边。

所述基于图神经网络的任务调度方法，其中，所述图神经网络配置有多头自注意力机制；基于该节点对应的子节点以及图神经网络，确定该节点对应的节点特征向量具体包括：

对于该图结构中的每个节点，基于所述作业信息列表确定该节点对应的特征信息，其中，特征信息包括出度特征和/或入度特征；

基于该特征信息确定该节点对应的候选特征向量；

将该节点对应的候选特征向量以及该子节点对应的候选特征向量输入图神经网络；

通过所述图神经网络确定该节点对应的节点特征向量。

所述基于图神经网络的任务调度方法，其中，所述基于获取到所有作业向量，确定所述分布式计算平台的全局向量具体包括：

将获取到的所有作业向量输入长短记忆模型，通过所述长短记忆模型确定所述分布式计算平台的全局向量。

所述基于图神经网络的任务调度方法，其中，所述基于各作业中的各节点的节点特征向量，各作业的作业向量以及分布式计算平台的全局向量确定调度动作具体包括：

将各作业中的各节点的节点特征向量、各作业的作业向量以及分布式计算平台的全局向量输入预设的强化学习模块；

通过强化学习模块确定调度动作。

所述基于图神经网络的任务调度方法，其中，所述基于各作业中的各节点的节点特征向量，各作业的作业向量以及分布式计算平台的全局向量确定调度动作之后，所述方法还包括：

获取所述调度动作对应的调度时间；

基于该调度时间为奖励信号修正所述强化学习模型。

本申请实施例第二方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上任一所述的基于图神经网络的任务调度方法中的步骤。

本申请实施例第三方面提供了一种调度器，其包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如上任一所述的基于图神经网络的任务调度方法中的步骤。

有益效果：与现有技术相比，本申请提供了一种基于图神经网络的任务调度方法，所述方法包括基于分布式计算平台中的各作业数据确定各作业对应的图结构，基于图神经网络确定各作业中的各节点对应的节点特征向量，基于节点特征向量确定作业向量以及全局向量；并基于各作业中的各节点的节点特征向量，各作业的作业向量以及分布式计算平台的全局向量确定调度动作。本实施例基于作业数据的图结构以及图神经网络来确定调度工作，充分利用了作业内部依赖关系，对作业运行情况以及分布式计算平台全局情况进行预估，为各负载自动生成相应的调度策略以提高调度效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员而言，在不符创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请提供的基于图神经网络的任务调度方法的应用场景的示例图。

图2为本申请提供的基于图神经网络的任务调度方法中的流程图。

图3为本申请提供的基于图神经网络的任务调度方法中的流程示例图。

图4为本申请提供的基于图神经网络的任务调度方法中的节点的特征信息的示例图。

图5为本申请提供的基于图神经网络的任务调度方法中的长短记忆模型的示例图。

图6为本申请提供的基于图神经网络的任务调度方法中的强化学习模型的工作原理示例图。

图7为本申请提供的调度器的结构原理图。

具体实施方式

本申请提供一种基于图神经网络的任务调度方法，为使本申请的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本申请进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

应理解，本实施例中各步骤的序号和大小并不意味着执行顺序的先后，各过程的执行顺序以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

下面结合附图，通过对实施例的描述，对申请内容作进一步说明。

本实施例提供的基于图神经网络的任务调度方法可以应用于调度其，如图1所示，所述调度器与分布式计算平台以及执行器通讯，确定分布式计算平台中的所有作业的图结构，基于图结构确定调度动作，并基于调度动作调度执行器给分布式计算平台中的作业的计算阶段。

本实施提供的一种基于图神经网络的任务调度方法，如图2和图3所示，所述方法包括：

S10、基于分布式计算平台中的各作业数据确定各作业对应的图结构；

S20、对于该图结构中的每个节点，基于该节点对应的子节点以及图神经网络，确定该节点对应的节点特征向量；

S30、基于该作业的所有节点特征向量，确定该作业对应的作业向量；

S40、基于获取到所有作业向量，确定所述分布式计算平台的全局向量；

S50、基于各作业中的各节点的节点特征向量，各作业的作业向量以及分布式计算平台的全局向量确定调度动作。

本实施例基于分布式计算平台中的各作业数据确定各作业对应的图结构，基于图神经网络确定各作业中的各节点对应的节点特征向量，基于节点特征向量确定作业向量以及全局向量；并基于各作业中的各节点的节点特征向量，各作业的作业向量以及分布式计算平台的全局向量确定调度动作。本实施例基于作业数据的图结构以及图神经网络来确定调度工作，充分利用了作业内部依赖关系，对作业运行情况以及分布式计算平台全局情况进行预估，为各负载自动生成相应的调度策略以提高调度效率。

下面对本实施例中的各实现步骤做具体说明。

在所述步骤S10中，所述分布式计算平台为应用于该集群，例如，Spark集群，所述业务为Spark集群中的TPC-H作业，本实施例提供的基于图神经网络的任务调度方法应用于Spark集群中的TPC-H作业调度过程。所述作业数据包括作业信息列表，所述作业信息列表包括作业包括的各计算阶段的特征信息以及各计算阶段之间的输入输出关系，特征信息包括任务数量、已完成任务数量、历史平均完成时间以及绑定的执行器信息等。所述作业信息列表中的各计算节点对应的特征信息可以以特征矩阵形式存储。

所述图结构用于反映作业中各计算阶段的输入输出关系，其可以采用邻居矩阵的形式存储其中。所述图结构为有向无环图结构，所述图结构的节点为作业包括的计算阶段，边为基于各计算阶段之间的输入输出关系为边构建的，所述图结构中的各节点可以并行。相应的，所述基于分布式计算平台中的各作业数据确定各作业对应的图结构具体包括：

具体地，所述若干计算阶段为该作业包括的所有计算阶段，若干计算阶段中的每个计算节点作为图结构的节点；之后基于该作业对应的作业数据，确定若干计算阶段之间的输入输出关系，并对于两个具有输入输出的计算阶段A和计算阶段B，在计算阶段A和计算阶段B绘制有向边，其中，有向边的方向由计算阶段A和计算阶段B中的输出计算阶段指向计算阶段A和计算阶段B中输入计算阶段，输出计算阶段指的是该计算阶段的输出为输入计算阶段的输入；反之，输入计算阶段指的是该计算阶段的输入为输出计算阶段的输输出。例如，在计算阶段A和计算阶段B中，计算阶段A的输出结果为计算阶段B的输入项，那么计算阶段A为输出计算阶段，计算阶段B为输入计算阶段，有向边为由计算阶段A到计算阶段B的方向。在本实施例的一个实现方式中，如图4所示，所述对于分布式计算平台中的每个作业，确定该作业对应的图结构之后，所述方法还包括：

对于该作业对应的图结构，获取该图结构中的各节点各自对应的出度特征和/或入度特征，将所述出度特征和/或入度特征添加业务信息列表内。

具体地，所述出度特征和入度特征为基于图结构对应的邻居矩阵确定的，所述出度特征为在所有与该节点关联的边中，以该节点为起点的边的条数；所述入度特征为在所有与该节点关联的边中，以该节点为终点的边的条数。在获取到每个节点的出度特征和/或入度特征后，将获取到的出度特征和/或入度特征添加到该节点对应的特征信息内，以使得该特征信息可以包括该节点的出度特征和/或入度特征，以便于后续确定调度动作时可以获取到出度特征和/或入度特征，丰富调度策略所获取的信息资源，从而可以提高调度效率。

在所述步骤S20中，所述子节点为该节点对应的图结构中的节点，并且该节点与所述子节点之间具有指向所述子节点的边。换句话说，该节点的输出项为其对应的子节点的输入项。例如，节点1与节点2之间存在边，并且该边是由节点1指向节点2，那么节点2需要节点1的执行结果，即节点1的输出结果为节点2的输入，由此，节点1为节点2的父节点，节点2为节点1的子节点。

在本实施例的一个实现方式中，所述图神经网络配置有多头自注意力机制；基于该节点对应的子节点以及图神经网络，确定该节点对应的节点特征向量具体包括：

对于该图结构中的每个节点，基于所述业务信息列表确定该节点对应的特征信息，并基于该特征信息确定该节点对应的候选特征向量；

将该节点对应的候选特征向量以及该子节点对应的候选特征向量输入图神经网络，通过所述图神经网络确定该节点对应的节点特征向量。

具体地，所述特征信息为业务信息列表中该节点对应的计算节点的特征信息，并且所述特征信息中包括该节点的出度特征和/或入度特征。在本实施例中，所述特征信息包括该节点的出度特征和入度特征，在其他实现方式中，所述特征信息可以仅包括出度特征，或者仅包括入度特征等。在获取到所述特征信息后，将该特征信息输入预设的神经网络模型，通过该神经网络模型确定该节点对应的候选特征向量，其中，所述神经网络模型可以包括两个全连接层，所述特征信息为所述神经网络模型的输入项，所述候选特征向量为所述神经网络模型的输出项。在本实施例的一个实现方式中，所述候选特征向量表示所述特征信息中的各特征的非线性组合。

在本实施例的一个实现方式中，所述图神经网络配置有多头自注意力机制，通过所述多头自注意力机制学习各子节点对应的所述权重系数，其中，所述权重系数用于表示子节点对应该节点的重要程度；权重系数越大，说明子节点对于该节点的重要程度越高，反之，权重系数越小，说明子节点对于该节点的重要程度越低。在一个具体实现方式中，所述权重系数为0-1之间的数值，0-1之间包括0和1，例如，权重系数为0.7的子节点的重要程度高于权重系数为0.1的子节点的重要程度。

在本实施例的一个实现方式中，所述权重系数为根据该节点与子节点之间的向量内积确定。换换句话说，多头自注意机制确定节点与各子节点之间的向量内积，并在获取到各子节点各自对应的向量内积后，将各向量内积归一化以得到各子节点各自对应的权重系数。在确定各子节点各自对应的权重系数后，将各子节点与该节点进行加权以得到该节点对应的节点特征向量，其中，各子节点对应的加权系数为其对应的权重系数，该节点的加权系数为1。这样该节点的节点特征向量通过信息传递包含其对应的子节点的信息，例如，子节点的总任务数传递给该节点等。当然，在实际应用中，所述权重系数还可以是通过其他方式确定，多头自注意机制通过梯度下降的方式自适应学习得到的，或者是根据该节点对应的候选特征向量缺的等。

在所述步骤S30中，所述作业向量用于反映作业包括的所有计算节点的特征信息，例如，作业的负载，作业包括的任务数量等。在本实施例中，作业向量可以将各节点的节点特征向量相加得到，当然，在其他实现方式中，作业向量可以采用其他方式确定，例如，将各节点的节点特征向量加权得到，或者是，若干节点的节点特征向量中部分节点的节点特征向量相加得到的等。

在所述步骤S40中，所述基于获取到所有作业向量，确定所述系统的全局向量具体包括：

将获取到的所有作业向量输入长短记忆模型，通过所述长短记忆模型确定所述系统的全局向量。

具体地，所述长短记忆模型用于捕获分布式计算平台中的作业的隐式时间序列，例如，作业提交是某参数未知的随机过程等。例如，如图5所示，所述长短记忆模型包括若干结构相同的长短时记忆单元，若干长短时记忆单元依次级联，其中，X_t表示第t步的输入的时序数据，h_t表示第t步的输出的隐式状态信息，σ和tanh表示激活函数。

在所述步骤S50中，如图6所示，所述基于各作业中的各节点的节点特征向量，各作业的作业向量以及系统的全局向量确定调度动作具体包括：

将各作业中的各节点的节点特征向量、各作业的作业向量以及全局向量输入预设的强化学习模块；

通过强化学习模块确定调度动作。

具体地，各作业中的各节点的节点特征向量指的是分布式计算平台中的所有作业包括的所有节点的节点特征向量。所述各作业中的各节点的节点特征向量、各作业的作业向量以及全局向量输入预设的强化学习模块指的是将各作业中的各节点的节点特征向量、各作业的作业向量以及全局向量作为强化学习模块的输入状态信息，强化学习模块基于各作业中的各节点的节点特征向量、各作业的作业向量以及全局向量以及其自身配置的调度策略确定调度动作。换句话说，所述强化学习模块的输入项为各节点的节点特征向量、各作业的作业向量以及全局向量，所述强化学习模块的输出项为调度动作，所述强化学习模块中配置有调度策略，并且所述强化学习模块基于该调度策略以及输入的输入状态信息，来输出调度动作。

所述调度动作包括待分配执行器的目标节点以及该目标节点分配的执行器的数量。可以理解的是，基于该调度动作可以为可以被分配执行器的节点，以及该节点被分配的执行器的数量，其中，待分配执行器的目标节点可以为一个，也可以为多个，并且待分配执行器的目标节点可以包含于同一作业，也可以包含于不同作业，可以并行为各作业中的计算阶段分配执行器。此外，由于需要为作业分配执行器，从而在确定作业数据的时，还可以获取每个执行器占用情况(例如，是否空闲)并以布尔信号传递。

在本实施例的一个实现方式中，所述基于各作业中的各节点的节点特征向量，各作业的作业向量以及系统的全局向量确定调度动作之后，所述方法还包括：

获取所述调度动作对应的调度时间；

基于该调度时间为奖励信号修正所述强化学习模型。

具体地，强化学习模块以调度时间作为奖励信号，根据奖励信号改进自身调度策略，强化学习智能体通过不断与分布式计算平台交互，自动学习到了高效的调度策略。

综上所述，本实施例提供了一种基于图神经网络的任务调度方法，所述方法确定分布式计算平台内所有作业的图结构，并对图结构的特征进行处理添加出度和入度特征；在经过一个全连接的多层感知网络以及带自注意力机制的图神经网络进行节点的聚合，得到节点的节点特征向量；再将每个作业所有节点的节点特征向量加和得到作业向量；长短时记忆扫描所有作业的作业向量得到全局向量；最后通过强化学习智能体将各节点特征向量、各作业向量以及全局向量作为状态输入，通过一个策略梯度网络做出调度动作，以分配给可运行节点一定数量的空闲执行器；分布式计算平台执行该调度动作，返回这次调度的时间作为奖励信号，强化学习智能体根据奖励信号改进自身调度策略；强化学习智能体通过不断与分布式计算平台交互，自动学习到了高效的调度策略，从而可以提高调度效率。此外，本实施例通过添加出度特征和/或入度特征、多头自注意力机制和长短时记忆聚合，可以扩展图神经网络结构处理集群中任意数量的以DAG形式编码的作业，为作业的有向无环图编码生成表达能力强特征向量，从而可以为调度动作提供丰富的信息资源。

基于上述基于图神经网络的任务调度方法，本实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上述实施例所述的基于图神经网络的任务调度方法中的步骤。

基于上述基于图神经网络的任务调度方法，本申请还提供了一种调度器，如图7所示，其包括至少一个处理器(processor)20；显示屏21；以及存储器(memory)22，还可以包括通信接口(Communications Interface)23和总线24。其中，处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令，以执行上述实施例中的方法。

此外，上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

存储器22作为一种计算机可读存储介质，可设置为存储软件程序、计算机可执行程序，如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块，从而执行功能应用以及数据处理，即实现上述实施例中的方法。

存储器22可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据调度器的使用所创建的数据等。此外，存储器22可以包括高速随机存取存储器，还可以包括非易失性存储器。例如，U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等多种可以存储程序代码的介质，也可以是暂态存储介质。

此外，上述存储介质以及调度器中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明，在这里就不再一一陈述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于图神经网络的任务调度方法，其特征在于，所述方法包括：

2.根据权利要求1所述基于图神经网络的任务调度方法，其特征在于，所述基于分布式计算平台中的各作业数据确定各作业对应的图结构具体包括：

3.根据权利要求1或2所述基于图神经网络的任务调度方法，其特征在于，所述基于分布式计算平台中的各作业数据确定各作业对应的图结构之后，所述方法还包括：

对于该作业对应的图结构，获取该图结构中的各节点各自对应的出度特征和/或入度特征，将所述出度特征和/或入度特征添加至所述作业信息列表内。

4.根据权利要求1所述基于图神经网络的任务调度方法，其特征在于，所述子节点为该节点对应的图结构中的节点，并且该节点与所述子节点之间具有指向所述子节点的边。

5.根据权利要求4所述基于图神经网络的任务调度方法，其特征在于，所述图神经网络配置有多头自注意力机制；基于该节点对应的子节点以及图神经网络，确定该节点对应的节点特征向量具体包括：

基于该特征信息确定该节点对应的候选特征向量；

通过所述图神经网络确定该节点对应的节点特征向量。

6.根据权利要求1所述基于图神经网络的任务调度方法，其特征在于，所述基于获取到所有作业向量，确定所述分布式计算平台的全局向量具体包括：

7.根据权利要求1所述基于图神经网络的任务调度方法，其特征在于，所述基于各作业中的各节点的节点特征向量，各作业的作业向量以及分布式计算平台的全局向量确定调度动作具体包括：

通过强化学习模块确定调度动作。

8.根据权利要求7所述基于图神经网络的任务调度方法，其特征在于，所述基于各作业中的各节点的节点特征向量，各作业的作业向量以及分布式计算平台的全局向量确定调度动作之后，所述方法还包括：

获取所述调度动作对应的调度时间；

基于该调度时间为奖励信号修正所述强化学习模型。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如权利要求1～8任意一项所述的基于图神经网络的任务调度方法中的步骤。

10.一种调度器，其特征在于，包括：处理器、存储器及通信总线；所述存储器上存储有可被所述处理器执行的计算机可读程序；

所述通信总线实现处理器和存储器之间的连接通信；

所述处理器执行所述计算机可读程序时实现如权利要求1-8任意一项所述的基于图神经网络的任务调度方法中的步骤。