CN114819273A

CN114819273A - 基于多Agent全局与局部优化结合的车间调度方法

Info

Publication number: CN114819273A
Application number: CN202210287855.1A
Authority: CN
Inventors: 袁乔; 李超; 张玉冰; 高峻岭
Original assignee: Shanghai Aerospace One Intelligent Technology Co ltd
Current assignee: Shanghai Aerospace One Intelligent Technology Co ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-07-29

Abstract

本发明涉及一种基于多Agent全局与局部优化结合的车间调度方法，包括：S1、通过多智能体方法对车间动态调度过程建模，得到多个智能体；S2、每一个智能体只依据本地执行任务的知识，根据强化学习中的Q学习，结合轮盘赌概率算法，进行独自学习和决策，并作为局部调度；S3、根据改进的差分进化算法对各智能体局部调度的学习结果进行全局寻优，采用递减的变异因子扩大搜索空间，同时采用随着迭代次数动态调整的交叉算子，获得全局优化的调度策略。与现有技术相比，本发明对具有小批量、多品种，工艺多变的柔性车间扰动进行动态调度，利用强化学习对Agent进行本地化的学习和决策，再采用IDE算法进行全局优化决策，提高调度模型的效率和有效性。

Description

基于多Agent全局与局部优化结合的车间调度方法

技术领域

本发明涉及一种车间调度方法，尤其是涉及一种基于多Agent全局与局部优化结合的车间调度方法。

背景技术

车间调度是生产控制的关键环节，调度的结果直接影响车间生产效率。随着小批量、多品种等生产模式的兴起，客户订单的随机性，生产任务带来的工艺多变性，以及生产现场机器故障、工人的缺勤，这些干扰使预定的计划低效甚至无效，生产计划无法顺利执行甚至导致加工过程阻塞。传统静态调度控制方式，或者以启发式搜索为主的调度方法，在一定程度上不能适应这种实时性强、动态性高的制造过程。现有技术中公开了一种实时动态调度机制与方法，该机制在多Agent制造系统基础上，提出基于事件触发的滚动窗口动态调度方法，该方法将制造系统动态事件分为基本事件和扰动事件，并对扰动事件进行重调度，在动态调度过程中利用合同网进行多Agent分布协调控制，生成调度序列。所述方法通过对事件触发的滚动窗口动态调度机制，以及Agent的协调控制和动态调度控制算法实现对动态车间环境下的调度。但对于工艺多变、动态性高的小批量多品种制造模式，由于合同网的分配方式约束较为单一，协议过程中不符合任务或工艺要求的Agent也会参与招标，并且任务分配后没有反馈评估，影响调度结果的可执行性以及后续重调度的效率。

发明内容

本发明的目的就是为了克服上述现有技术存在的车间调度方法对生产工艺多变、生产环境动态性高的车间调度可执行性差、重调度效率低的缺陷而提供一种基于多Agent全局与局部优化结合的车间调度方法。

本发明的目的可以通过以下技术方案来实现：

一种基于多Agent全局与局部优化结合的车间调度方法，具体包括以下步骤：

S1、通过多智能体(Agent)方法对车间动态调度过程建模，得到多个智能体；

S2、每一个智能体只依据本地执行任务的知识，根据强化学习中的Q学习，结合轮盘赌概率算法，进行独自学习和决策，并作为局部调度；

S3、根据改进的差分进化算法对各智能体局部调度的学习结果进行全局寻优，采用递减的变异因子扩大搜索空间，同时采用随着迭代次数动态调整的交叉算子，获得全局优化的调度策略。

所述步骤S1中对车间调度问题进行建模，将生产任务、设备等作为不同类型的Agent，那么，对于包含了n个Agent的车间调度过程多Agent系统，集合A：

Ag＝{Ag₁,Ag₂,...,Ag_n}

其中，A_i,1≤i≤n表示调度过程中包含的任意Agent；同样，车间内所包含的所有资源集合可以表示为集合R：

R＝{r_j|1≤j≤m_v}

其中，m_v为当前车间内所包含的资源数量，r_j为第j个生产资源，对应的数量、能力和状态分别为q_j，c_j和s_j；状态s_j＝{-1,0,1}，表示该资源分别为故障(或缺失)、空闲和占用状态；能力可表示为函数c_j(Ta_k)＝(Time,Cost,Quality)，表示该资源针对不同加工工序或加工任务Ta_k时的平均加工时间、加工成本和加工质量。

各个智能体具有不同的生产资源，通过用关联矩阵AR＝[Ar_ij]_|A|×|R|(Ar_ij∈{0,1})表示二者之间的映射关系，当Ar_ij＝0时表示智能体A_i不具有资源r_j，反之具有该资源。

所述步骤S1中还包括确定调度目标和约束条件。

所述调度目标的公式如下所示：

其中，time_jk为不同加工工序或加工任务Ta_k分配在生产资源或设备r_j下所需要的加工时间，n_Ta为加工工序的总数；同样co_jk为不同加工工序或加工任务Ta_k分配在生产资源或设备r_j下所需要的加工成本，ω为资源损耗系数。

对于任意工序加工时间集成本，分别由集合T与Co表示，具体如下：

T＝{time_jk|1≤j≤m_v,1≤k≤n_Ta}

Co＝{ω×co_jk|1≤j≤m_v,1≤k≤n_Ta}

所述步骤S2中每一个智能体根据强化学习中的Q学习进行独自学习，通过概率选择方式选择高Q值的智能体，获得每个智能体对应的局部调度优化模型，即通过各Agent历史执行的生产任务或工序，作为Agent与环境的交互学习值函数，从学到的值函数得到相应的调度形位策略。

进一步地，所述局部优化模型中包括计算每个智能体采取每一个动作对应的概率和动作回报值。

进一步地，所述局部优化模型中还包括根据动作回报值计算每一个智能体所对应的全部动作的Q值，建立Q值表。

所述智能体根据强化学习中的Q学习进行独自学习的公式如下所示：

AgentLP＝(S,A,P,R)

其中，S是一个有限状态集，A是一个有限动作集，P是环境的状态转移函数，R是环境奖励函数。Agent在状态s_t采用a动作使环境状态转移到s_t+1的概率记为P(s_t+1|s_t,a)，利用Q-learning使Agent选择的动作可以获得最大的累积奖励R。即得到Q值最大的行为Q*＝(s,a)和最优策略π*＝(s,a)。

由于每个Agent只学习与自己相关的任务执行情况，用Table(s,a)(s∈S,a∈A)表示Agent的某一行为的Q值表，Q_i,t(s,a)表示第i个Agent在t时刻的Q值，当完成一个周期的学习后，Agent将Q_i,t(s,a)写入Table(s,a)。Table_i,t(s,a)表示t时刻第i个Agent对应的Q值表中的Q(s,a)值，那么，多Agent系统中n个Agent在t时刻计算得到各自的Q(s,a)。

所述步骤S3中根据改进的差分进化算法对各智能体局部调度的学习结果进行全局寻优的过程包括将每个智能体Q学习结果作为局部决策，以此为依据分别对改进的差分进化算法进行优化。

进一步地，所述改进的差分进化算法进行的优化包括设置改进的差分进化算法的个体选择概率和目标函数。

进一步地，所述个体选择概率的优化过程具体包括计算经过Q学习后每个智能体的行为概率，采用当前行为概率占总体行为集概率的占比的形式计算个体选择概率。

进一步地，所述个体选择概率与后续进行变异和交叉操作的个体相对应，采用随余弦函数递减的变异因子进行变异操作。

进一步地，所述目标函数的优化过程包括将每个智能体所采取每一个动作的概率作为差分进化的初始种群，并令改进的差分进化算法中的目标函数为每个动作对应的Q值，根据调度目标选择Q值较大的试验个体作为新个体，各新个体对应的行为集合为最优调度策略。

采用改进的差分进化算法IDE对多Agent进行全局调度决策寻优，以每个Agent的所有的动作概率P(S_t+1|S_t,a)作为初始种群，计算对应的Q值表，并定义IDE算法里面的目标函数，在此基础上对当前种群进行变异和交叉操作，然后基于贪婪思想的选择对两个种群进行一对一选择，从而产生另一个新种群，重复以上过程直到满足终止条件输出最优调度策略，IDE算法的目标函数如下式：

其中，Q_i为第i此迭代时的Q值估计。

与现有技术相比，本发明具有以下有益效果：

本发明采用采用一种多Agent强化学习的动态调度方法，结合Q学习对每个Agent进行独自学习和决策，并将Q学习与轮盘赌中的概率思想结合，通过概率选择Q学习的下一个动作，避免早期收敛过快学不到好的本地调度策略，在一定程度保持Agent状态空间的本地化，获得各Agent局部优化决策结果；同时利用改进的差分进化算法IIDE，将各Agent局部状态空间对应的概率作为初始条件，以各Agent状态空间对应的Q值表为依据，设计为目标函数筛选初始种群，并采用动态的变异和交叉操作，扩大算法搜索空间的同时避免陷入局部最优。即针对对于多Agent系统的调度问题，使用Q学习与轮盘赌概率思想将每个Agent状态本地化，避免出现高维的联合系统状态，同时为了避免陷入局部最优，采用改进的IIDE算法进行全局搜索，保证最后的调度策略全局最优，进而提高了调度方法的计算效率和适用性。

附图说明

图1为本发明的流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

如图1所示，一种基于多Agent全局与局部优化结合的车间调度方法，具体包括以下步骤：

步骤S1中对车间调度问题进行建模，将生产任务、设备等作为不同类型的Agent，那么，对于包含了n个Agent的车间调度过程多Agent系统，集合A：

Ag＝{Ag₁,Ag₂,...,Ag_n}

R＝{r_j|1≤j≤m_v}

步骤S1中还包括确定调度目标和约束条件。

约束条件的公式具体如下所示：

其中。max()是求最大运算，E_ijk是任意Agent下第k个任务或工序分配到第j个机器或生产资源的加工结束时间，St_ijk是加工开始时间，T_t是t时刻任务分配总数，T是总体任务分配总数。约束条件表示在前一个过程加工完成之前，后续加工不能开始，且一个工序开始加工没有中断，每个机器或资源一次只能一个加工工序或任务，每个工序建议仅分配到一个加工资源或机器上。

调度目标的公式如下所示：

T＝{time_jk|1≤j≤m_v,1≤k≤n_Ta}

Co＝{ω×co_jk|1≤j≤m_v,1≤k≤n_Ta}

局部优化模型中包括计算每个智能体采取每一个动作对应的概率和动作回报值。

局部优化模型中还包括根据动作回报值计算每一个智能体所对应的全部动作的Q值，建立Q值表。

智能体根据强化学习中的Q学习进行独自学习的公式如下所示：

AgentLP＝(S,A,P,R)

具体实施时，每个Agent利用以往执行过的任务，在学习完后得到一个对应于采取行为a对应的值Q_t(s_t,a_t)，以此建立Q值表来存储每个Agent的Q值，具体公式如下所示：

其中，s’是Agent在状态s下选择动作a产生的心状态；a’为状态s’下Agent所选择的动作，P(s'|s,a)为处于状态s时选择动作a的概率。Agent根据所学习的历史加工知识，不断采取使Q(s,a)最大化的动作，即获得最大的Q*就会得到对应的最优策略π*。

步骤S3中根据改进的差分进化算法对各智能体局部调度的学习结果进行全局寻优的过程包括将每个智能体Q学习结果作为局部决策，以此为依据分别对改进的差分进化算法进行优化。

改进的差分进化算法进行的优化包括设置改进的差分进化算法的个体选择概率和目标函数。

个体选择概率的优化过程具体包括计算经过Q学习后每个智能体的行为概率，采用当前行为概率占总体行为集概率的占比的形式计算个体选择概率。

个体选择概率与后续进行变异和交叉操作的个体相对应，采用随余弦函数递减的变异因子进行变异操作。

目标函数的优化过程包括将每个智能体所采取每一个动作的概率作为差分进化的初始种群，并令改进的差分进化算法中的目标函数为每个动作对应的Q值，根据调度目标选择Q值较大的试验个体作为新个体，各新个体对应的行为集合为最优调度策略。

其中，Q_i为第i此迭代时的Q值估计。

具体实施时，以计算得到的各个Agent动作集所对应的概率作为改进的差分进化算法IDE的初始种群。对于第i个Agent来说，包含了l个动作的动作集

对应的概率为

IDE的初始种群可由下式给出：

其中，X⁰为初始种群，n为种群规模，与调度过程中包含的Agent数量一致；

为个体，对应的为第i个Agent所包含的动作概率，同样其调度过程求解的维数也为l。同时，所构造的Q值表直接由Q*(s,a)计算得到。

对当前种群进行变异操作，每一个在t时刻的个体

进行变异操作，得到与之对应的变异个体，具体公式如下所示：

其中，r1,r2,r3∈(1,2,..,l)互不相同且与i不同，

为父代基向量，

为父代差分向量，F为变异算子。接着生成的变异个体

进行交叉操作，生成试验个体如下式：

其中，rand(j)为[0,1]之间均匀分布的随机数，CR为[0,1]范围在之间的交叉算子，rnbr(i)为(1,2,…,l)之间的随机量。同过上述变异交叉操作，生成初始群体中每个个体所对应试验个体

CR的取值虽然有利于初期IDE的收敛，但后期容易陷入局部最优，为了跳出局部最优，采用如下动态调整的交叉算子：

其中，k和K分别为当前迭代次数与最大迭代次数。

初始种群中变异交叉的操作需要迭代，直到满足迭代次数或者获得最大的Q*以及得到对应的最优策略π*，为了加快迭代速度，在进行下一次的种群变异交叉操作之前，选择一些Q值较高的个体，利用下式选择概率较高的个体进行下一次的交叉变异操作，具体为：

其中，若初始群体中个体i的Q值为Q_i，对于个体i来说可选择的动作集包含l个动作，每个动作的回报值对应一个动作的Q值，则被选中的概率为p_i。

新种群的生成需要将上述试验个体

和初始种群中个体

的目标函数进行比较，由于调度目标是以最小化所有工件总的超期和总的成本之和，即调度策略求解是寻求目标函数的极大值，根据Q-learning学习算法特点，种群中每个调度策略的Q值越高，则说明该策略越好，对应的Q-learning学习中，累积奖励也越高，对应的目标函数如下所示：

其中，Q_i表示第i次迭代时的Q值的估计。

重复上述过程，直到满足设计的终止条件，一般可以按经验给定改进的差分进化算法的迭代次数，或者连续几代个体的目标函数差异小于某一个较小的阈值后，就停止运算。最后获得最大的Q*中对应的最优策略π*，以及经过若干次迭代的种群中各Agent个体对应的行为提取出来，即对于包含有n个Agent的调度问题来说，其最优的调度策略π*对应的每个Agent行为可表示为联合行为向量

每个Agent下的资源或设备以此策略进行调度。

此外，需要说明的是，本说明书中所描述的具体实施例，所取名称可以不同，本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等效变化或者简单变化，均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种基于多Agent全局与局部优化结合的车间调度方法，其特征在于，具体包括以下步骤：

S1、通过多智能体方法对车间动态调度过程建模，得到多个智能体；

2.根据权利要求1所述的一种基于多Agent全局与局部优化结合的车间调度方法，其特征在于，所述步骤S1中还包括确定调度目标和约束条件。

3.根据权利要求1所述的一种基于多Agent全局与局部优化结合的车间调度方法，其特征在于，所述步骤S2中每一个智能体根据强化学习中的Q学习进行独自学习，通过概率选择方式选择高Q值的智能体，获得每个智能体对应的局部调度优化模型。

4.根据权利要求3所述的一种基于多Agent全局与局部优化结合的车间调度方法，其特征在于，所述局部优化模型中包括计算每个智能体采取每一个动作对应的概率和动作回报值。

5.根据权利要求4所述的一种基于多Agent全局与局部优化结合的车间调度方法，其特征在于，所述局部优化模型中还包括根据动作回报值计算每一个智能体所对应的全部动作的Q值，建立Q值表。

6.根据权利要求1所述的一种基于多Agent全局与局部优化结合的车间调度方法，其特征在于，所述步骤S3中根据改进的差分进化算法对各智能体局部调度的学习结果进行全局寻优的过程包括将每个智能体Q学习结果作为局部决策，以此为依据分别对改进的差分进化算法进行优化。

7.根据权利要求6所述的一种基于多Agent全局与局部优化结合的车间调度方法，其特征在于，所述改进的差分进化算法进行的优化包括设置改进的差分进化算法的个体选择概率和目标函数。

8.根据权利要求7所述的一种基于多Agent全局与局部优化结合的车间调度方法，其特征在于，所述个体选择概率的优化过程具体包括计算经过Q学习后每个智能体的行为概率，采用当前行为概率占总体行为集概率的占比的形式计算个体选择概率。

9.根据权利要求8所述的一种基于多Agent全局与局部优化结合的车间调度方法，其特征在于，所述个体选择概率与后续进行变异和交叉操作的个体相对应，采用随余弦函数递减的变异因子进行变异操作。

10.根据权利要求7所述的一种基于多Agent全局与局部优化结合的车间调度方法，其特征在于，所述目标函数的优化过程包括将每个智能体所采取每一个动作的概率作为差分进化的初始种群，并令改进的差分进化算法中的目标函数为每个动作对应的Q值，根据调度目标选择Q值较大的试验个体作为新个体，各新个体对应的行为集合为最优调度策略。