CN116755397B

CN116755397B - 一种基于图卷积策略梯度的多机协同任务调度方法

Info

Publication number: CN116755397B
Application number: CN202310607252.XA
Authority: CN
Inventors: 樊伟; 周健; 郑联语
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2024-01-23
Anticipated expiration: 2043-05-26
Also published as: CN116755397A

Abstract

本发明公开了一种基于图卷积策略梯度的多机协同任务调度方法，包括以下步骤：基于图结构表征任务和机器人属性及其相互之间的约束关系，获得任务和机器人的节点特征矩阵和节点邻接矩阵；搭建并联图卷积网络模型作为执行器，输出对机器人的任务分配结果，并为任务分配结果设置任务分配奖励；构建深度置信网络模型作为评判器，基于任务分配奖励的时序差分残差作为目标损失训练优化所述评判器，基于优化后的评判器对执行器进行优化；给定待加工任务集合、待分配机器人集合，基于优化后的执行器逐个分配任务，直至生成完整的任务规划序列。本发明基于深度确定性策略梯度算法训练优化任务调度模型中的执行器和评判器，具有较高的可靠性和效率。

Description

一种基于图卷积策略梯度的多机协同任务调度方法

技术领域

本发明属于加工任务调度领域，特别是涉及一种基于图卷积策略梯度的多机协同任务调度方法。

背景技术

多机器人系统的任务调度是最具有挑战性的问题。给定一组任务，一组机器人，将这些任务分配至各个有能力的机器人，给每个机器人确定工作时间表，机器人群按照设定的时间表在满足多种约束下有条不紊地完成所有的任务，那么如何分配才能最大化任务完成和资源利用的效率呢，这便是研究比较热的多机器人任务分配(MRTA)问题。多任务、多机器人各自特性及其相互之间的约束纷杂耦合，要想针对MRTA问题找到一个通用的方法是非常困难的。为此，MRTA又细分为单任务(ST)机器人和多任务(MT)机器人，这取决于机器人在同一时间只执行一个任务还是同时执行多个任务；单机器人(SR)任务和多机器人(MR)任务，这取决于任务是只需要一个机器人执行还是也考虑协同任务；瞬时分配(IA)问题和时间扩展分配(TA)问题，这取决于是静态分配还是考虑后续任务和机器人状态的动态调度。

在动态的经济环境和充满个性化的市场需求下，制造企业逐步转向多品种小批量的生产模式，企业试图依靠柔性的生产方式对日益变换的市场环境做出快速合理的响应。由于多机器人系统在提质增效、降本减耗上的突出效果，多机器人协同加工生产方式开始在现代工业生产中扮演非常重要的角色。通常，一个加工制造任务会被拆分为多个可以由单个机器人独立完成的子任务，多个异构机器人如测量、铣削、磨削、搬运机器人等待分配，当然存在一些加工任务需要由多个机器人同时完成，这可以通过配合施加并发约束来拆分。那么，在制造场景下MRTA是一个典型的ST-MR-TA问题。因此，亟需提出一种应用简单，可靠性高、可扩展性强，高效准确的任务调度方法。

发明内容

本发明的目的是提供一种基于图卷积策略梯度的多机协同任务调度方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种基于图卷积策略梯度的多机协同任务调度方法，包括以下步骤：

基于图结构表征任务和机器人属性及其相互之间的约束关系，获得任务和机器人的节点特征矩阵和节点邻接矩阵；

基于所述节点特征矩阵和节点邻接矩阵搭建并联图卷积网络模型作为执行器，输出对机器人的任务分配结果，并从激励、惩罚和目标奖励的维度为所述任务分配结果设置任务分配奖励；

构建深度置信网络模型作为评判器，基于所述任务分配奖励的时序差分残差作为目标损失训练优化所述评判器，基于优化后的评判器对所述执行器进行优化；

给定待加工任务集合、待分配机器人集合，基于优化后的执行器逐个分配任务，直至生成完整的任务规划序列。

可选地，基于图结构表征任务和机器人属性及其相互之间的约束关系的过程包括：基于节点特征向量表示任务节点和机器人节点的属性，基于节点邻接矩阵表示任务节点和机器人节点之间的约束关系；其中，任务节点属性包括任务量、质量要求和完成状态，机器人节点属性包括加工速度、服役状态和占用状态。

可选地，任务节点和机器人节点之间的约束关系包括：任务节点间的干涉约束、优先约束和并发约束，任务节点与机器人节点间的任务资源约束，以及机器人节点间的资源并发约束。

可选地，搭建并联图卷积网络模型的过程包括：将表征图结构数据的节点特征矩阵和节点邻接矩阵并行地输入到若干个图卷积网络层，经过聚合和非线性映射操作获得新的节点特征矩阵，并对获得的若干个新的节点特征矩阵进行合并，获得并联的图卷积网络模型。

可选地，所述任务分配结果包括：任务选择、指派机器人以及确定任务开始时间的分支；其中，所述任务选择分支的输出节点数等于任务总数，所述机器人指派分支的输出节点数等于机器人总数，所述开始加工时间确定分支的输出节点数等于整个调度过程离散化后的时间步数。

可选地，为所述任务分配结果设置任务分配奖励的过程包括：基于任务质量要求和机器人服役状态的匹配程度确定所述任务分配奖励的激励；基于所述任务分配结果对任务和机器人之间约束关系的符合程度确定所述任务分配奖励的惩罚；基于最小化任务完成时间和最大化资源利用率的完成程度确定所述任务分配奖励的目标奖励。

可选地，所述任务分配奖励的时序差分残差表示如下：

y_t＝r_t+γQ_ω-(x_t+1,μ_θ-(x_t))-Q_ω(x_t,a_t)

其中，x_t表示t时刻下的任务和机器人图结构，x_t+1表示t+1时刻下的任务和机器人图结构，a_t表示执行器确定的策略，r_t表示a_t对应的决策奖励，ω为评判器网络参数，θ为执行器网络参数，Q_ω表示评判器，Q_ω-表示目标评判器，μ_θ表示执行器，μ_θ-表示目标执行器，γ为当前奖励比重系数，y_t则表示t时刻下任务分配奖励的时序差分残差。

可选地，基于优化后的评判器对所述执行器进行优化的过程包括：基于链式法则计算优化后的评判器输出决策回报评估值对执行器网络参数的梯度，沿着增大梯度的方向优化执行器网络参数；其中，计算优化后的评判器输出决策回报评估值对执行器网络参数的梯度表示如下：

其中，式中N为样本数，表示对θ求偏微分，J是执行器损失，/>是对执行器策略求偏微分，Q_ω(x_i,a)表示评判器根据i时刻下的图结构x_i和策略a评估任务分配效果。

本发明的技术效果为：

1)本发明公开的一种基于图卷积策略梯度的多机协同任务调度方法，利用图结构对任务、机器人资源及其相互之间的约束进行表征，能有效兼顾多机协同任务调度问题所涉及的复杂条件和规则，为任务调度提供支持；

2)本发明提供的多机协同任务调度方法通过嵌入图卷积操作搭建图卷积网络模型，充分考虑了任务调度的相关约束和条件，能够准确生成满足条件的加工任务规划序列；

3)本发明基于深度确定性策略梯度算法训练优化任务调度模型中的执行器和评判器，具有较高的可靠性和效率。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的基于图卷积策略梯度的多机协同任务调度方法实现流程图；

图2为本发明实施例中的图结构示意图；

图3为本发明实施例中的图卷积执行器和评判器网络结构示意图；

图4为本发明实施例中的方法示意图；

图5为本发明实施例中的任务规划序列示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

如图1所示，本发明的一种基于图卷积策略梯度的多机协同任务调度方法，针对待加工任务集合、待分配机器人集合进行多机协同任务分配。利用图结构数据表征任务和机器人属性及其相互之间的约束关系，创建图卷积模型从图结构数据中提取、聚合相关特征以支持任务调度，基于深度确定性策略梯度算法训练优化图卷积模型以高效生成符合约束条件和调度规则的任务规划序列；具体步骤包括：

S1、利用图结构表征任务和机器人属性及其相互之间的约束关系，具体包括：利用节点表示任务和机器人，设定相关规则，利用节点特征向量表示任务和机器人的属性，并利用邻接矩阵表示任务和机器人之间的约束关系；

S2、应用图卷积操作搭建并联图卷积网络模型作为执行器，聚合图结构邻接节点的特征信息，输出三个分支分别选择任务、指派机器人以及确定任务开始时间；

S3、从激励、惩罚和目标奖励三个维度设置执行器的任务分配奖励；

S4、创建深度置信网络模型作为评判器，评估执行器的任务分配效果，利用任务分配奖励的时序差分残差作为目标损失训练优化评判器，根据链式法则计算评判器输出决策回报评估值对执行器网络参数的梯度，沿着增大梯度的方向优化执行器网络参数；

S5、训练完毕，给定待加工任务集合、待分配机器人集合，利用执行器逐个分配任务，直至生成完整的任务规划序列。

上述步骤S1中的图结构实例化如图2所示，节点特征向量为[标识符，类型，属性，状态信息]，其中标识符具有唯一性，类型则是用于区分任务节点和机器人节点，0表示任务节点，1表示机器人节点；对应于任务节点，属性包括任务量、质量要求；而对应于机器人节点，属性则包括加工速度、机器人服役状态，通过任务量和加工速度的匹配，配合上任务与机器人之间的约束关系，有效的任务规划可以创造出新的效率高度。实例化节点特征向量如表1所示。

表1

上述步骤S1中的邻接矩阵是反映边的状态，任意两节点之间的边由一个二元组表示，(0，0)表示无边、(1，1)表示无向边、(1，2)或(2，1)表示单向边、(2，2)表示双向边；对于两个任务节点，无边表示无约束、无向边表示干涉约束、单向边表示优先约束、双向边表示并发约束；对于任务和机器人节点之间的边，无向边表示任务资源约束；而对于机器人节点之间的边，双向边表示资源并发约束。根据图2所示的图结构，可得到如表2所示的邻接矩阵。

表2

所述任务节点之间的优先约束表示如下：

式中<t_p→t_q>表示任务t_p和t_q之间存在优先约束且t_p优先，表示任务t_p分配至机器人r_i后对应于其任务序列中的s_i,h，/>表示s_i,h的加工结束时间要早于s_j,l的加工开始时间。

所述任务节点之间的并发约束表示如下：

式中<t_p,t_q>表示任务t_p和t_q之间存在并发约束，两个任务的加工开始时间相同。

所述任务节点之间的干涉约束表示如下：

式中则表示任务t_p和t_q之间存在干涉约束，则要求两个任务的加工过程完全错开。

所述任务和机器人节点之间的任务资源约束表示如下：

式中<t_p,r_q>表示任务t_p和机器人r_q之间存在任务资源约束，即任务t_p一定属于机器人r_q的任务序列S_q。

所述机器人节点之间的资源并发约束表示如下：

式中<r_p,r_q>则表示机器人r_p和r_q之间存在并发约束，要求在任何时刻不能给两机器人同时安排任务，t(S_p,c)表示根据任务序列S_p在时刻c给机器人r_p安排的任务。

上述步骤S2中的图卷积执行器和评判器网络结构及其数据流如图3所示。执行器的输入是表征图结构数据的节点特征矩阵和邻接矩阵，输入数据首先会并行地进入多个图卷积网络层，经过聚合和非线性映射操作得到新的节点特征矩阵，然后将这些特征矩阵进行合并；采用这样并、串行相结合的网络结构，可以更加充分地从原始输入中挖掘多维度的信息，使得执行器能够更加全面地考虑节点状态和约束条件，进而做出准确的任务分配和调度。合并后的特征进入由多个全连接层搭建而成的分类模块，经过多次非线性映射，从特征中过滤提取到与任务分配相关的信息；执行器的输出为包括任务、资源、开始时间的三维元组，也即相关信息最终流向任务选择、机器人指派和开始加工时间确定三个分支。

上述任务选择分支的输出节点数等于任务总数，即任务选择网络层包含的神经元数同任务总数，激活函数选择tanh，直接输出确定性的策略。

上述机器人指派分支的输出节点数等于机器人总数，所述开始加工时间确定分支的输出节点数等于整个调度过程离散化后的时间步数，激活函数均选择tanh，值最高的节点即对应输出的策略。

上述聚合图结构邻接节点特征信息，设节点v_i的邻接节点集合为V(i)，邻接节点特征向量为x_j(j in N(i))，边权重为ω_i,j，对聚合后的信息进行线性变换，以得到新的特征向量y_i，如下表示：

式中σ为映射函数。

上述步骤S3中任务分配奖励的激励由任务质量要求和机器人服役状态的匹配程度确定，当两者匹配时/>取1，当机器人服役状态无法满足任务质量要求时取0，而当机器人服役状态超过了质量要求时取中间值，因为这种情况也不是最准确、经济的。

上述步骤S3中任务分配奖励的惩罚由任务分配结果对任务和机器人约束条件的符合程度确定，若任务选择、机器人指派和开始时间确定均满足当前的约束条件，/>取0；若均与约束条件冲突，则/>取-1；而若是只存在任务选择或机器人指派与约束条件的冲突，/>取中间值。

上述步骤S3中任务分配奖励的目标奖励则是根据行动目标即最小化任务完成时间和最大化资源利用率的完成程度来确定。

上述步骤S3中的任务分配奖励表示如下：

式中μ∈(0,1)，通过调整μ来平衡短期奖励即激励与惩罚和长期奖励对训练的影响。

上述步骤S4中任务分配奖励的时序差分残差表示如下：

y_t＝r_t+γQ_ω-(x_t+1,μ_θ-(x_t))-Q_ω(x_t,a_t)

上述步骤S4中计算评判器输出决策回报评估值对执行器网络参数的梯度表示如下：

其中，式中N为样本数，表示对θ求偏微分，J则是执行器损失，/>则是对执行器策略求偏微分，Q_ω(x_i,a)表示评判器根据i时刻下的图结构x_i和策略a评估任务分配效果。

上述步骤S5中所述的图卷积执行器生成任务规划序列的流程如图4所示。输入表征任务、机器人属性的特征矩阵和表示任务机器人约束关系的邻接矩阵，执行器可以给出任务规划序列。根据表1、表2所示的实例化输入，执行器输出了如图5所示的任务规划序列。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于图卷积策略梯度的多机协同任务调度方法，其特征在于，包括以下步骤：

构建深度置信网络模型作为评判器，将所述任务分配奖励的时序差分残差作为目标损失训练优化所述评判器，基于优化后的评判器对所述执行器进行优化；

2.根据权利要求1所述的基于图卷积策略梯度的多机协同任务调度方法，其特征在于，

任务节点属性包括任务量、质量要求和完成状态，机器人节点属性包括加工速度、服役状态和占用状态。

3.根据权利要求2所述的基于图卷积策略梯度的多机协同任务调度方法，其特征在于，

任务节点和机器人节点之间的约束关系包括：任务节点间的干涉约束、优先约束和并发约束，任务节点与机器人节点间的任务资源约束，以及机器人节点间的资源并发约束。

4.根据权利要求1所述的基于图卷积策略梯度的多机协同任务调度方法，其特征在于，

搭建并联图卷积网络模型的过程包括：将表征图结构数据的节点特征矩阵和节点邻接矩阵并行地输入到若干个图卷积网络层，经过聚合和非线性映射操作获得新的节点特征矩阵，并对获得的若干个新的节点特征矩阵进行合并，获得并联的图卷积网络模型。

5.根据权利要求1所述的基于图卷积策略梯度的多机协同任务调度方法，其特征在于，

所述任务分配结果包括：任务选择分支、机器人指派分支以及任务开始加工时间确定分支；其中，所述任务选择分支的输出节点数等于任务总数，所述机器人指派分支的输出节点数等于机器人总数，所述任务开始加工时间确定分支的输出节点数等于整个调度过程离散化后的时间步数。

6.根据权利要求2所述的基于图卷积策略梯度的多机协同任务调度方法，其特征在于，

为所述任务分配结果设置任务分配奖励的过程包括：基于任务质量要求和机器人服役状态的匹配程度确定所述任务分配奖励的激励；基于所述任务分配结果对任务和机器人之间约束关系的符合程度确定所述任务分配奖励的惩罚；基于最小化任务完成时间和最大化资源利用率的完成程度确定所述任务分配奖励的目标奖励。

7.根据权利要求1所述的基于图卷积策略梯度的多机协同任务调度方法，其特征在于，

所述任务分配奖励的时序差分残差表示如下：

其中，x_t表示t时刻下的任务和机器人图结构，x_t+1表示t+1时刻下的任务和机器人图结构，a_t表示执行器确定的策略，r_t表示a_t对应的决策奖励，ω为评判器网络参数，θ为执行器网络参数，Q_ω表示评判器，表示目标评判器，μ_θ表示执行器，/>表示目标执行器，γ为当前奖励比重系数，y_t则表示t时刻下任务分配奖励的时序差分残差。

8.根据权利要求1所述的基于图卷积策略梯度的多机协同任务调度方法，其特征在于，

基于优化后的评判器对所述执行器进行优化的过程包括：基于链式法则计算优化后的评判器输出决策回报评估值对执行器网络参数的梯度，沿着增大梯度的方向优化执行器网络参数；其中，计算优化后的评判器输出决策回报评估值对执行器网络参数的梯度表示如下：