CN110443412B

CN110443412B - 动态优化加工过程中物流调度及路径规划的强化学习方法

Info

Publication number: CN110443412B
Application number: CN201910651729.8A
Authority: CN
Inventors: 张云; 郭飞; 周华民; 黄志高; 李德群
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2021-11-02
Anticipated expiration: 2039-07-18
Also published as: CN110443412A

Abstract

本发明公开了一种动态优化加工过程中物流调度及路径规划的强化学习方法，属于智能制造领域。该方法包括：构建某时刻物流调度的总状态矩阵作为神经网络的输入，根据一次加工过程中所有作业单元等待物料的总时长及AGV小车的冲突次数总数构建奖惩值，并据此建立神经网络的损失函数，对神经网络进行训练，以使最终一次加工过程中得到的奖惩值最大化，获得强化学习决策模型；然后针对新的加工任务，实时建立当前时刻的总状态矩阵，并输入强化学习决策模型，获得当前时刻AGV小车应执行的动作。本发明能够实现AGV小车在加工过程中的自主最优路径规划，解决现有技术不能在加工过程中实时动态进行物流调度方案自动调整的技术问题。

Description

动态优化加工过程中物流调度及路径规划的强化学习方法

技术领域

本发明属于智能制造领域，更具体地，涉及一种动态优化加工过程中物流调度及路径规划的强化学习方法。

背景技术

在模具、锂电装备等加工密集型、离散性制造领域，其制造过程包含一些系列复杂、多工序、耦合的加工工艺，是定制化、小批量、大规模多品种的制造。在其加工过程中，物料、零部件、设备等资源多样化且具有广泛的动态特性。因此，加工过程中物料资源的管理和供应效率直接影响到制造过程的效率，具有不可忽视的重要性。

在物流调度过程中，AGV小车根据生产订单中的物料计划对加工过程中不同作业单元间进行送料取料的运输任务。小车输送效率会影响设备利用率，同时其路径规划的复杂度受作业单元布局的拓扑结构影响。当前的技术大多数是通过将物流调度及路径规划问题抽象为旅行商模型(TSP模型)，并采用遗传算法、模拟退火、蚁群算法等启发式搜索算法进行物流调度的最优路径规划。

但是，这类方法专注于优化静态模型，忽略了实际加工过程中的动态特性，如生产计划变更、运输中AGV小车路径冲突、作业单元的临时变化、停工等，因此在应用过程中鲁棒性不佳，目前并没有有效的方法对加工过程中物流调度及路径规划的动态优化。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种动态优化加工过程中物流调度及路径规划的强化学习方法，其目的在于，基于加工过程中AGV小车、作业单元、物料仓库的拓扑结构及动态特性，构建和训练强化学习决策模型，实现AGV小车在加工过程中的自主最优路径规划，由此解决现有技术中的调度模型忽略多工序加工过程中的动态特性，不能在加工过程中实时动态进行物流调度方案自动调整的技术问题。

为实现上述目的，按照本发明，提供了一种动态优化加工过程中物流调度及路径规划的强化学习方法，包括离线训练阶段和在线检测阶段，其中：

离线训练阶段包括：

(1)按照时间顺序对一次加工过程中的每个时刻构建相应的状态矩阵及关系矩阵，包括：

将每个作业单元的运行、缺物料和停止状态用一个3维向量表示，得到作业单元的状态矩阵s_M；

每辆AGV小车的就绪、运出、运回、停止状态用一个4维向量表示，得到AGV小车的状态矩阵s_A；其中，运出是指AGV小车从原材料仓储单元运往作业单元，运回是指小车从作业单元运回半成品仓储单元；某一AGV小车处于就绪状态时，对应的作业单元可以接受该AGV小车送达的原材料；

根据车间的原材料仓储单、半成品仓储单元和作业单元的位置，以及AGV小车可运行的路径，构建车间的二维拓扑结构关系矩阵；

(2)将步骤(1)中的任意时刻的状态矩阵和关系矩阵共同构建该时刻对应的总状态矩阵；

(3)建立奖惩机制，根据一次加工过程中所有作业单元等待物料的总时长及AGV小车的冲突次数总数构建奖惩值R；

(4)将步骤(2)的总状态矩阵作为输入，将AGV小车从当前状态运动到下一状态的动作a作为输出，利用步骤(3)的奖惩值构建损失函数，对神经网络进行训练，以使最终一次加工过程中得到的奖惩值R最大化，获得强化学习决策模型；

在线检测阶段包括：

(5)针对新的加工任务，实时按照步骤(1)～(2)建立当前时刻的总状态矩阵，并输入步骤(4)获得的强化学习决策模型，获得当前时刻AGV小车应执行的动作。

进一步地，步骤(1)中，定义车间加工过程的N个作业单元为集合M＝{m₁，m₂，...，m_N}，其中每个作业单元的状态用一个3维向量s_M表示：

s_M＝[I(运行)，I(缺物动，I(停止)]

其中I(*)为指示函数，表示作业单元是否处于括号中的状态，取值为0或者1，0表示否，1表示是；当作业单元处于缺物料状态时，可以接受AGV小车送达的原材料；任意时刻一个工作单元仅可能处于一种状态，因此状态向量s_M任意时刻的元素和为1；

定义车间加工过程的K辆AGV小车为集合A＝{c₁，c₂，....，c_K}，其中每辆小车的状态用一个4维向量s_A表示：

s_A＝[I(就绪)，I(运出)，I(运回)，I(停止)]

其中，运出是指小车从原材料仓储单元运往作业单元，运回是指小车从作业单元运回半成品仓储单元；某一AGV小车处于就绪状态时，对应的作业单元可以接受该AGV小车送达的原材料；任意时刻一辆AGV小车仅可能处于一个状态，因此状态向量s_A任意时刻的元素和为1；

步骤(4)中，小车的动作定义为一个4维向量a，表示小车的前进方向：

a＝[I(前)，I(后)，I(左)，I(右)]

任意时刻，给小车发出的动作指令仅可能处于一种状态，因此动作向量a任意时刻的元素和为1。

进一步地，步骤(1)中，将车间的二维拓扑结构转化为矩阵形式包括以下步骤：

(a1)以单个AGV小车为最小方形单元，矩阵的行数W和列数L分别代表以单个AGV小车为基准换算后的车间的宽度和长度；

(a2)在上述矩阵中，AGV小车可运行区域、AGV小车、作业单元区域、障碍区域用4个不同的数值进行表示。

进一步地，步骤(2)包括以下子步骤：

(b1)参与加工过程的N个作业单元任意时刻的状态构成一个N×3的二维矩阵，用N×(L-3)的零矩阵沿列方向扩展得到N×L的二维矩阵；

(b2)参与加工过程的K辆AGV小车任意时刻的状态构成一个K×4的二维矩阵，用K×(L-4)的零矩阵沿列方向扩展得到K×L的二维矩阵；

(b3)将上述扩展矩阵与车间拓扑关系矩阵沿行方向扩展，获得(N+K+W)×L的总状态矩阵。

进一步地，步骤(3)中，奖惩值R的计算包括加工过程中作业单元缺物料状态下等待时长的奖惩值，以及加工过程中AGV小车发生冲突的总次数；AGV小车每发生一次冲突则反馈一个负实值r_A作为惩罚值，则总奖惩值R的计算如下：

其中，w₁表示作业单元等待时间的权重系数，为经验值；r_Mi表示第i个作业单元的等待时间对应的奖惩值，若第i个作业单元的等待时间在可接受范围内，则赋予r_Mi正实值，反之则赋予r_Mi负实值；w₂表示AGV小车冲突次数的权重系数，C表示冲突次数总数。

为了实现上述目的，按照本发明的另一个方面，提供了一种动态优化加工过程中物流调度及路径规划的强化学习方法，包括离线训练阶段和在线检测阶段，其中：

离线训练阶段包括：

(3)建立奖惩机制，在一次加工过程中，对于任意当前时刻t，根据从加工开始至当前时刻t内的所有作业单元等待物料的总时长，以及从加工开始至当前时刻t内的AGV小车的冲突次数总数构建t时刻的奖惩值Rt；

(4)构建两个神经网络，分别作为决策代理网络和状态评价网络，将当前时刻t的总状态矩阵作为决策代理网络和状态评价网络的输入，将AGV小车从t时刻的状态运动到t+1时刻的状态的动作a_t作为决策代理网络的输出，将V_t作为状态评价网络的输出，利用步骤(3)的奖惩值Rt分别构建决策代理网络和状态评价网络的损失函数，对决策代理网络和状态评价网络进行训练，以使一次加工过程中最终得到的奖惩值最大化，训练完成后的决策代理网络作为强化学习决策模型；V_t表示t时刻时AGV小车从当前所有可选动作a_t分别执行至加工结束时，对应的最终的奖惩值的总期望；

在线检测阶段包括：

s_M＝[I(运行)，I(缺物料)，I(停止)]

定义车间加工过程的K辆AGV小车为集合A＝{c₁，c₂，...，c_K}，其中每辆小车的状态用一个4维向量s_A表示：

s_A＝[I(就绪)，I(运出)，I(运回)，I(停止)]

a＝[I(前)，I(后)，I(左)，I(右)]

进一步地，步骤(2)包括以下子步骤：

进一步地，步骤(3)中，奖惩值Rt的计算包括加工过程中作业单元缺物料状态下等待时长的奖惩值，以及加工过程中AGV小车发生冲突的总次数；AGV小车每发生一次冲突则反馈一个负实值r_A作为惩罚值，则从加工开始到当前时刻t内的奖惩值Rt的计算如下：

其中，w₁表示作业单元等待时间的权重系数，为经验值；

表示从加工开始到当前时刻t内第i个作业单元的等待时间对应的奖惩值，若第i个作业单元的等待时间在可接受范围内，则赋予

正实值，反之则赋予

负实值；w₂表示AGV小车冲突次数的权重系数，C_t表示从加工开始到当前时刻t内AGV小车冲突次数总数；

步骤(4)中，决策代理网络定义为a＝π(s)，状态评估网络定义为V＝V(s)，a为小车动作，s为状态，V为AGV小车在状态s下从所有可选动作a分别执行至加工结束后得到的奖惩值的总期望；

在加工过程中某时刻t，其对应的总状态矩阵为s_t，则决策代理网络给出的动作为a_t＝π(s_t)，状态评价网络给出的评价为V_t＝V(s_t)，按照给定的概率随机执行动作a_t，可以得到t时刻下奖惩值的增量r_t，状态发生改变至s_t+1，则有R_t+1＝R_t+r_t；

经过一次动作a_t后，决策网络的损失函数为：

Loss_π＝-a_t*(R_t+1-V_t)

评估网络的损失函数为：

Loss_V＝(R_t+1-V_t)

若(R_t-V_t)＞0，说明在s_t下执行的动作a_t获得了正反馈，需要提升在状态st下采用此动作的概率；反之，则调低在状态s_t下采用动作a_t的概率。

总体而言，本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

1、本发明通过抽象加工过程中参与物流调度的作业单元、运输单元以及车间拓扑结构，用二维矩阵方式表达任意时刻加工过程中的物流状态，该表达方式既具有直观性同时具备计算性，能够将复杂的加工过程抽象、简化为计算机可识别的数据，从而能够通过神经网络训练、运算实现智能实时调度；通过训练得到的强化学习决策模型不仅能够针对新加工任务进行从无到有的整体规划，还能够配合已有的任务规划使用，在已有的任务规划执行过程中针对生产计划变更、运输中AGV小车路径冲突、作业单元的临时变化、停工等突发事件即时进行响应和决策，保证物流调度的鲁棒性。

2、本发明建立强化学习决策模型，通过适当训练使模型中评价网络能够评估当前物流状态下的价值大小，借此进一步通过决策代理网络实现输入当前时刻的物流状态，输出下一时刻AGV小车应该采取的决策即运动路径，并以最小的作业单元缺物料等待时间为整体目标，进行有效物流调度及AGV小车路径动态优化。

3、本发明提供的强化学习方法整个过程高效、准确，并且可以减少甚至脱离加工过程中物流调度及路径规划的人工干预，实现车间物流智能化的有效参考。

附图说明

图1是本发明优选实施例的流程示意图；

图2是按照本发明优选实施例的方法在一个具体案例中所构建的加工过程中物流调度与路径规划示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1、图2所示，本发明优选实施例的一种动态优化加工过程中物流调度及路径规划的强化学习方法，包括如下步骤：

步骤1：搭建强化学习决策模型，所述决策模型接受任意时刻的总状态矩阵作为输入；

强化学习决策模型为多层神经网络模型，可以由使用者重新搭建，也可以采用工业中广泛应用的网络结构如AlexNet、ResNet为基础进行参数训练，通过训练，决策代理网络能够根据当前时刻的加工过程中的物流调度状态决定下一时刻小车的动作；

2)获取加工任务，确定加工过程中使用的作业单元及数量、确定用于调度的AGV小车数量；

确定参与加工任务的N个作业单元及K辆AGV小车，其中作业单元能够发送物料运输任务信号到控制台，小车能够接收控制台发出的物料运输任务信号；

3)根据步骤2)获取加工任务下作业单元以及小车的状态，构建车间拓扑结构关系矩阵，获得加工过程的总状态；具体地，包括如下子步骤：

优选地，将车间的二维拓扑结构转化为矩阵形式包括以下步骤：

(a1)以AGV小车为最小方形单元，矩阵的行数W和列数L分别代表以小车为基准换算后的车间的宽度和长度；

(a2)在上述矩阵中，小车可运行区域用值0表示，小车用值1表示，作业单元区域用值2表示，障碍区域用值3表示。

优选地，包括如下子步骤：

4)模型训练，包括：

(3)建立奖惩机制：

(c1)将步骤2)中的得到的总状态矩阵输入步骤1)中的强化学习决策模型得到所有AGV小车的运动指令；

(c2)获取小车执行运动指令后的新小车状态、作业单元状态以及拓扑结构关系，构建新的总状态矩阵；

(c3)重复步骤(c1)～(c2)直到加工任务完成，计算此次任务完成时的奖惩值；

任务的奖惩值计算包括加工过程中作业单元缺物料状态下等待的时长T以及小车运动路径发生冲突的次数C，总时长为N个作业单元分别花费的等待时间之合，若在可接受范围内，则反馈一个正实值(例如1)作为奖励值，反之则反馈一个负实值(例如-1)作为惩罚值，小车发生冲突反馈一个负实值(例如-1)作为惩罚值，故总奖惩值R的计算如下：

其中，w₁表示作业单元等待时间的权重系数，为经验值；r_Mi表示第i个作业单元的等待时间的奖惩值；w₂表示AGV小车冲突次数的权重系数，C表示冲突次数，r_A表示一次加工任务中AGV小车发生冲突的惩罚值总和。

(4)将步骤(c3)获得的奖惩值对步骤1)中的神经网络进行训练；

优选地，强化学习决策模型的训练过程为，采用强化学习算法Advantage Actor-Critic(A2C)以及梯度下降算法Adam进行代理决策网络和状态评价网络的参数更新，以得到较好的决策结果。重复训练直到强化学习决策模型收敛，得到训练好的强化学习决策模型；

5)在线检测阶段：

使用训练好的强化学习决策模型部署到管理控制台，实现车间加工过程中物流调度与路径规划的动态决策与优化。

下面介绍本发明的第二实施例，本发明的第二实施例具有两个神经网络，分别进行动作决策和每次动作后的状态评价，并根据评价结果修正选择动作的概率，从而加快算法收敛，更快获得性能更好的强化学习决策模型。其与优选实施例的区别主要在于步骤(3)～(4)：

(3)建立奖惩机制，在一次加工过程中，对于任意当前时刻t，根据从加工开始至当前时刻t内的所有作业单元等待物料的总时长，以及从加工开始至当前时刻t内的AGV小车的冲突次数总数构建t时刻的奖惩值R_t；

优选地，奖惩值Rt的计算包括加工过程中作业单元缺物料状态下等待时长的奖惩值，以及加工过程中AGV小车发生冲突的总次数；AGV小车每发生一次冲突则反馈一个负实值r_A作为惩罚值，则从加工开始到当前时刻t内的奖惩值R_t的计算如下：

其中，w₁表示作业单元等待时间的权重系数，为经验值；

正实值，反之则赋予

其中，小车的动作定义为一个4维向量a，表示小车的前进方向：

a＝[I(前)，I(后)，I(左)，I(右)]

优选地，决策代理网络定义为a＝π(s)，状态评估网络定义为V＝V(s)，a为小车动作，s为状态，V为AGV小车在状态s下从所有可选动作a分别执行至加工结束后得到的奖惩值的总期望；

对于加工过程中的某个时刻t，其对应的总状态矩阵为s_t，则决策代理网络给出的AGV小车动作为a_t＝π(s_t)，状态评价网络给出的评价为V_t＝V(s_t)，按照给定的概率随机执行动作a_t，可以得到t时刻下奖惩值的增量r_t，状态发生改变至s_t+1，则有R_t+1＝R_t+r_t；

经过一次动作a_t后，决策网络的损失函数为：

Loss_π＝-a_t*(R_t+1-V_t)

评估网络的损失函数为：

Loss_V＝(R_t+1-Vt)

若(R_t-Vt)＞0，说明在s_t下执行的动作a_t获得了正反馈，需要提升在状态st下采用此动作的概率；反之，则调低在状态st下采用动作at的概率。

本发明建立基于强化学习算法的决策模型，通过对加工过程中作业单元、小车状态与位置拓扑结构进行描述并转化为矩阵形式，实现了在加工过程中作业单元、小车不同状态下的决策过程，动态优化加工过程中的物流调度与路径规划，相比现有技术基于静态车间模型进行启发式搜索算法，更有效、适应性更强，是一种创新的方法。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种动态优化加工过程中物流调度及路径规划的强化学习方法，其特征在于，包括离线训练阶段和在线检测阶段，其中：

离线训练阶段包括：

在线检测阶段包括：

2.如权利要求1所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法，其特征在于，步骤(1)中，定义车间加工过程的N个作业单元为集合M＝{m₁，m₂，...，m_N}，其中每个作业单元的状态用一个3维向量s_M表示：

S_M＝[I(运行)，I(缺物料)，I(停止)]

s_A＝[I(就绪)，I(运出)，I(运回)，I(停止)]

a＝[I(前)，I(后)，I(左)，I(右)]

3.如权利要求2所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法，其特征在于，步骤(1)中，将车间的二维拓扑结构转化为矩阵形式包括以下步骤：

4.如权利要求3所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法，其特征在于，步骤(2)包括以下子步骤：

5.如权利要求1～4任意一项所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法，其特征在于，步骤(3)中，奖惩值R的计算包括加工过程中作业单元缺物料状态下等待时长的奖惩值，以及加工过程中AGV小车发生冲突的总次数；AGV小车每发生一次冲突则反馈一个负实值rA作为惩罚值，则总奖惩值R的计算如下：

6.如权利要求1所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法，其特征在于，包括离线训练阶段和在线检测阶段，其中：

离线训练阶段包括：

(4)构建两个神经网络，分别作为决策代理网络和状态评价网络，将当前时刻t的总状态矩阵作为决策代理网络和状态评价网络的输入，将AGV小车从t时刻的状态运动到t+1时刻的状态的动作a_t作为决策代理网络的输出，将V_t作为状态评价网络的输出，利用步骤(3)的奖惩值R_t分别构建决策代理网络和状态评价网络的损失函数，对决策代理网络和状态评价网络进行训练，以使一次加工过程中最终得到的奖惩值最大化，训练完成后的决策代理网络作为强化学习决策模型；V_t表示t时刻时AGV小车从当前所有可选动作a_t分别执行至加工结束时，对应的最终的奖惩值的总期望；

在线检测阶段包括：

7.如权利要求6所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法，其特征在于，步骤(1)中，定义车间加工过程的N个作业单元为集合M＝{m₁，m₂，...，m_N}，其中每个作业单元的状态用一个3维向量s_M表示：

s_M＝[I(运行)，I(缺物料)，I(停止)]

s_A＝[I(就绪)，I(运出)，I(运回)，I(停止)]

a＝[I(前)，I(后)，I(左)，I(右)]

8.如权利要求7所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法，其特征在于，步骤(1)中，将车间的二维拓扑结构转化为矩阵形式包括以下步骤：

9.如权利要求8所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法，其特征在于，步骤(2)包括以下子步骤：

10.如权利要求6～9任意一项所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法，其特征在于，步骤(3)中，奖惩值R_t的计算包括加工过程中作业单元缺物料状态下等待时长的奖惩值，以及加工过程中AGV小车发生冲突的总次数；AGV小车每发生一次冲突则反馈一个负实值r_A作为惩罚值，则从加工开始到当前时刻t内的奖惩值R_t的计算如下：

其中，w₁表示作业单元等待时间的权重系数，为经验值；

正实值，反之则赋予

经过一次动作a_t后，决策网络的损失函数为：

Loss_π＝-a_t*(R_t+1-V_t)

评估网络的损失函数为：

Loss_V＝(R_t+1-V_t)

若(R_t-V_t)＞0，说明在s_t下执行的动作a_t获得了正反馈，需要提升在状态s_t下采用此动作的概率；反之，则调低在状态s_t下采用动作a_t的概率。