CN110443412B - 动态优化加工过程中物流调度及路径规划的强化学习方法 - Google Patents
动态优化加工过程中物流调度及路径规划的强化学习方法 Download PDFInfo
- Publication number
- CN110443412B CN110443412B CN201910651729.8A CN201910651729A CN110443412B CN 110443412 B CN110443412 B CN 110443412B CN 201910651729 A CN201910651729 A CN 201910651729A CN 110443412 B CN110443412 B CN 110443412B
- Authority
- CN
- China
- Prior art keywords
- agv
- state
- matrix
- time
- operation unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 117
- 238000012545 processing Methods 0.000 title claims abstract description 107
- 230000008569 process Effects 0.000 title claims abstract description 80
- 238000005457 optimization Methods 0.000 title claims description 7
- 239000011159 matrix material Substances 0.000 claims abstract description 120
- 239000000463 material Substances 0.000 claims abstract description 39
- 230000009471 action Effects 0.000 claims abstract description 37
- 230000002787 reinforcement Effects 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims abstract description 16
- 238000004519 manufacturing process Methods 0.000 claims abstract description 12
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 238000003860 storage Methods 0.000 claims description 38
- 239000002994 raw material Substances 0.000 claims description 32
- 238000011156 evaluation Methods 0.000 claims description 31
- 239000003795 chemical substances by application Substances 0.000 claims description 27
- 239000011265 semifinished product Substances 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000003754 machining Methods 0.000 abstract description 7
- 230000008859 change Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 206010063385 Intellectualisation Diseases 0.000 description 1
- WHXSMMKQMYFTQS-UHFFFAOYSA-N Lithium Chemical compound [Li] WHXSMMKQMYFTQS-UHFFFAOYSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 229910052744 lithium Inorganic materials 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
- G06Q10/0835—Relationships between shipper or supplier and carriers
- G06Q10/08355—Routing methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Health & Medical Sciences (AREA)
- Manufacturing & Machinery (AREA)
- Game Theory and Decision Science (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- General Factory Administration (AREA)
Abstract
本发明公开了一种动态优化加工过程中物流调度及路径规划的强化学习方法,属于智能制造领域。该方法包括:构建某时刻物流调度的总状态矩阵作为神经网络的输入,根据一次加工过程中所有作业单元等待物料的总时长及AGV小车的冲突次数总数构建奖惩值,并据此建立神经网络的损失函数,对神经网络进行训练,以使最终一次加工过程中得到的奖惩值最大化,获得强化学习决策模型;然后针对新的加工任务,实时建立当前时刻的总状态矩阵,并输入强化学习决策模型,获得当前时刻AGV小车应执行的动作。本发明能够实现AGV小车在加工过程中的自主最优路径规划,解决现有技术不能在加工过程中实时动态进行物流调度方案自动调整的技术问题。
Description
技术领域
本发明属于智能制造领域,更具体地,涉及一种动态优化加工过程中物流调度及路径规划的强化学习方法。
背景技术
在模具、锂电装备等加工密集型、离散性制造领域,其制造过程包含一些系列复杂、多工序、耦合的加工工艺,是定制化、小批量、大规模多品种的制造。在其加工过程中,物料、零部件、设备等资源多样化且具有广泛的动态特性。因此,加工过程中物料资源的管理和供应效率直接影响到制造过程的效率,具有不可忽视的重要性。
在物流调度过程中,AGV小车根据生产订单中的物料计划对加工过程中不同作业单元间进行送料取料的运输任务。小车输送效率会影响设备利用率,同时其路径规划的复杂度受作业单元布局的拓扑结构影响。当前的技术大多数是通过将物流调度及路径规划问题抽象为旅行商模型(TSP模型),并采用遗传算法、模拟退火、蚁群算法等启发式搜索算法进行物流调度的最优路径规划。
但是,这类方法专注于优化静态模型,忽略了实际加工过程中的动态特性,如生产计划变更、运输中AGV小车路径冲突、作业单元的临时变化、停工等,因此在应用过程中鲁棒性不佳,目前并没有有效的方法对加工过程中物流调度及路径规划的动态优化。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种动态优化加工过程中物流调度及路径规划的强化学习方法,其目的在于,基于加工过程中AGV小车、作业单元、物料仓库的拓扑结构及动态特性,构建和训练强化学习决策模型,实现AGV小车在加工过程中的自主最优路径规划,由此解决现有技术中的调度模型忽略多工序加工过程中的动态特性,不能在加工过程中实时动态进行物流调度方案自动调整的技术问题。
为实现上述目的,按照本发明,提供了一种动态优化加工过程中物流调度及路径规划的强化学习方法,包括离线训练阶段和在线检测阶段,其中:
离线训练阶段包括:
(1)按照时间顺序对一次加工过程中的每个时刻构建相应的状态矩阵及关系矩阵,包括:
将每个作业单元的运行、缺物料和停止状态用一个3维向量表示,得到作业单元的状态矩阵sM;
每辆AGV小车的就绪、运出、运回、停止状态用一个4维向量表示,得到AGV小车的状态矩阵sA;其中,运出是指AGV小车从原材料仓储单元运往作业单元,运回是指小车从作业单元运回半成品仓储单元;某一AGV小车处于就绪状态时,对应的作业单元可以接受该AGV小车送达的原材料;
根据车间的原材料仓储单、半成品仓储单元和作业单元的位置,以及AGV小车可运行的路径,构建车间的二维拓扑结构关系矩阵;
(2)将步骤(1)中的任意时刻的状态矩阵和关系矩阵共同构建该时刻对应的总状态矩阵;
(3)建立奖惩机制,根据一次加工过程中所有作业单元等待物料的总时长及AGV小车的冲突次数总数构建奖惩值R;
(4)将步骤(2)的总状态矩阵作为输入,将AGV小车从当前状态运动到下一状态的动作a作为输出,利用步骤(3)的奖惩值构建损失函数,对神经网络进行训练,以使最终一次加工过程中得到的奖惩值R最大化,获得强化学习决策模型;
在线检测阶段包括:
(5)针对新的加工任务,实时按照步骤(1)~(2)建立当前时刻的总状态矩阵,并输入步骤(4)获得的强化学习决策模型,获得当前时刻AGV小车应执行的动作。
进一步地,步骤(1)中,定义车间加工过程的N个作业单元为集合M={m1,m2,...,mN},其中每个作业单元的状态用一个3维向量sM表示:
sM=[I(运行),I(缺物动,I(停止)]
其中I(*)为指示函数,表示作业单元是否处于括号中的状态,取值为0或者1,0表示否,1表示是;当作业单元处于缺物料状态时,可以接受AGV小车送达的原材料;任意时刻一个工作单元仅可能处于一种状态,因此状态向量sM任意时刻的元素和为1;
定义车间加工过程的K辆AGV小车为集合A={c1,c2,....,cK},其中每辆小车的状态用一个4维向量sA表示:
sA=[I(就绪),I(运出),I(运回),I(停止)]
其中,运出是指小车从原材料仓储单元运往作业单元,运回是指小车从作业单元运回半成品仓储单元;某一AGV小车处于就绪状态时,对应的作业单元可以接受该AGV小车送达的原材料;任意时刻一辆AGV小车仅可能处于一个状态,因此状态向量sA任意时刻的元素和为1;
步骤(4)中,小车的动作定义为一个4维向量a,表示小车的前进方向:
a=[I(前),I(后),I(左),I(右)]
任意时刻,给小车发出的动作指令仅可能处于一种状态,因此动作向量a任意时刻的元素和为1。
进一步地,步骤(1)中,将车间的二维拓扑结构转化为矩阵形式包括以下步骤:
(a1)以单个AGV小车为最小方形单元,矩阵的行数W和列数L分别代表以单个AGV小车为基准换算后的车间的宽度和长度;
(a2)在上述矩阵中,AGV小车可运行区域、AGV小车、作业单元区域、障碍区域用4个不同的数值进行表示。
进一步地,步骤(2)包括以下子步骤:
(b1)参与加工过程的N个作业单元任意时刻的状态构成一个N×3的二维矩阵,用N×(L-3)的零矩阵沿列方向扩展得到N×L的二维矩阵;
(b2)参与加工过程的K辆AGV小车任意时刻的状态构成一个K×4的二维矩阵,用K×(L-4)的零矩阵沿列方向扩展得到K×L的二维矩阵;
(b3)将上述扩展矩阵与车间拓扑关系矩阵沿行方向扩展,获得(N+K+W)×L的总状态矩阵。
进一步地,步骤(3)中,奖惩值R的计算包括加工过程中作业单元缺物料状态下等待时长的奖惩值,以及加工过程中AGV小车发生冲突的总次数;AGV小车每发生一次冲突则反馈一个负实值rA作为惩罚值,则总奖惩值R的计算如下:
其中,w1表示作业单元等待时间的权重系数,为经验值;rMi表示第i个作业单元的等待时间对应的奖惩值,若第i个作业单元的等待时间在可接受范围内,则赋予rMi正实值,反之则赋予rMi负实值;w2表示AGV小车冲突次数的权重系数,C表示冲突次数总数。
为了实现上述目的,按照本发明的另一个方面,提供了一种动态优化加工过程中物流调度及路径规划的强化学习方法,包括离线训练阶段和在线检测阶段,其中:
离线训练阶段包括:
(1)按照时间顺序对一次加工过程中的每个时刻构建相应的状态矩阵及关系矩阵,包括:
将每个作业单元的运行、缺物料和停止状态用一个3维向量表示,得到作业单元的状态矩阵sM;
每辆AGV小车的就绪、运出、运回、停止状态用一个4维向量表示,得到AGV小车的状态矩阵sA;其中,运出是指AGV小车从原材料仓储单元运往作业单元,运回是指小车从作业单元运回半成品仓储单元;某一AGV小车处于就绪状态时,对应的作业单元可以接受该AGV小车送达的原材料;
根据车间的原材料仓储单、半成品仓储单元和作业单元的位置,以及AGV小车可运行的路径,构建车间的二维拓扑结构关系矩阵;
(2)将步骤(1)中的任意时刻的状态矩阵和关系矩阵共同构建该时刻对应的总状态矩阵;
(3)建立奖惩机制,在一次加工过程中,对于任意当前时刻t,根据从加工开始至当前时刻t内的所有作业单元等待物料的总时长,以及从加工开始至当前时刻t内的AGV小车的冲突次数总数构建t时刻的奖惩值Rt;
(4)构建两个神经网络,分别作为决策代理网络和状态评价网络,将当前时刻t的总状态矩阵作为决策代理网络和状态评价网络的输入,将AGV小车从t时刻的状态运动到t+1时刻的状态的动作at作为决策代理网络的输出,将Vt作为状态评价网络的输出,利用步骤(3)的奖惩值Rt分别构建决策代理网络和状态评价网络的损失函数,对决策代理网络和状态评价网络进行训练,以使一次加工过程中最终得到的奖惩值最大化,训练完成后的决策代理网络作为强化学习决策模型;Vt表示t时刻时AGV小车从当前所有可选动作at分别执行至加工结束时,对应的最终的奖惩值的总期望;
在线检测阶段包括:
(5)针对新的加工任务,实时按照步骤(1)~(2)建立当前时刻的总状态矩阵,并输入步骤(4)获得的强化学习决策模型,获得当前时刻AGV小车应执行的动作。
进一步地,步骤(1)中,定义车间加工过程的N个作业单元为集合M={m1,m2,...,mN},其中每个作业单元的状态用一个3维向量sM表示:
sM=[I(运行),I(缺物料),I(停止)]
其中I(*)为指示函数,表示作业单元是否处于括号中的状态,取值为0或者1,0表示否,1表示是;当作业单元处于缺物料状态时,可以接受AGV小车送达的原材料;任意时刻一个工作单元仅可能处于一种状态,因此状态向量sM任意时刻的元素和为1;
定义车间加工过程的K辆AGV小车为集合A={c1,c2,...,cK},其中每辆小车的状态用一个4维向量sA表示:
sA=[I(就绪),I(运出),I(运回),I(停止)]
其中,运出是指小车从原材料仓储单元运往作业单元,运回是指小车从作业单元运回半成品仓储单元;某一AGV小车处于就绪状态时,对应的作业单元可以接受该AGV小车送达的原材料;任意时刻一辆AGV小车仅可能处于一个状态,因此状态向量sA任意时刻的元素和为1;
步骤(4)中,小车的动作定义为一个4维向量a,表示小车的前进方向:
a=[I(前),I(后),I(左),I(右)]
任意时刻,给小车发出的动作指令仅可能处于一种状态,因此动作向量a任意时刻的元素和为1。
进一步地,步骤(1)中,将车间的二维拓扑结构转化为矩阵形式包括以下步骤:
(a1)以单个AGV小车为最小方形单元,矩阵的行数W和列数L分别代表以单个AGV小车为基准换算后的车间的宽度和长度;
(a2)在上述矩阵中,AGV小车可运行区域、AGV小车、作业单元区域、障碍区域用4个不同的数值进行表示。
进一步地,步骤(2)包括以下子步骤:
(b1)参与加工过程的N个作业单元任意时刻的状态构成一个N×3的二维矩阵,用N×(L-3)的零矩阵沿列方向扩展得到N×L的二维矩阵;
(b2)参与加工过程的K辆AGV小车任意时刻的状态构成一个K×4的二维矩阵,用K×(L-4)的零矩阵沿列方向扩展得到K×L的二维矩阵;
(b3)将上述扩展矩阵与车间拓扑关系矩阵沿行方向扩展,获得(N+K+W)×L的总状态矩阵。
进一步地,步骤(3)中,奖惩值Rt的计算包括加工过程中作业单元缺物料状态下等待时长的奖惩值,以及加工过程中AGV小车发生冲突的总次数;AGV小车每发生一次冲突则反馈一个负实值rA作为惩罚值,则从加工开始到当前时刻t内的奖惩值Rt的计算如下:
其中,w1表示作业单元等待时间的权重系数,为经验值;表示从加工开始到当前时刻t内第i个作业单元的等待时间对应的奖惩值,若第i个作业单元的等待时间在可接受范围内,则赋予正实值,反之则赋予负实值;w2表示AGV小车冲突次数的权重系数,Ct表示从加工开始到当前时刻t内AGV小车冲突次数总数;
步骤(4)中,决策代理网络定义为a=π(s),状态评估网络定义为V=V(s),a为小车动作,s为状态,V为AGV小车在状态s下从所有可选动作a分别执行至加工结束后得到的奖惩值的总期望;
在加工过程中某时刻t,其对应的总状态矩阵为st,则决策代理网络给出的动作为at=π(st),状态评价网络给出的评价为Vt=V(st),按照给定的概率随机执行动作at,可以得到t时刻下奖惩值的增量rt,状态发生改变至st+1,则有Rt+1=Rt+rt;
经过一次动作at后,决策网络的损失函数为:
Lossπ=-at*(Rt+1-Vt)
评估网络的损失函数为:
LossV=(Rt+1-Vt)
若(Rt-Vt)>0,说明在st下执行的动作at获得了正反馈,需要提升在状态st下采用此动作的概率;反之,则调低在状态st下采用动作at的概率。
总体而言,本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、本发明通过抽象加工过程中参与物流调度的作业单元、运输单元以及车间拓扑结构,用二维矩阵方式表达任意时刻加工过程中的物流状态,该表达方式既具有直观性同时具备计算性,能够将复杂的加工过程抽象、简化为计算机可识别的数据,从而能够通过神经网络训练、运算实现智能实时调度;通过训练得到的强化学习决策模型不仅能够针对新加工任务进行从无到有的整体规划,还能够配合已有的任务规划使用,在已有的任务规划执行过程中针对生产计划变更、运输中AGV小车路径冲突、作业单元的临时变化、停工等突发事件即时进行响应和决策,保证物流调度的鲁棒性。
2、本发明建立强化学习决策模型,通过适当训练使模型中评价网络能够评估当前物流状态下的价值大小,借此进一步通过决策代理网络实现输入当前时刻的物流状态,输出下一时刻AGV小车应该采取的决策即运动路径,并以最小的作业单元缺物料等待时间为整体目标,进行有效物流调度及AGV小车路径动态优化。
3、本发明提供的强化学习方法整个过程高效、准确,并且可以减少甚至脱离加工过程中物流调度及路径规划的人工干预,实现车间物流智能化的有效参考。
附图说明
图1是本发明优选实施例的流程示意图;
图2是按照本发明优选实施例的方法在一个具体案例中所构建的加工过程中物流调度与路径规划示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1、图2所示,本发明优选实施例的一种动态优化加工过程中物流调度及路径规划的强化学习方法,包括如下步骤:
步骤1:搭建强化学习决策模型,所述决策模型接受任意时刻的总状态矩阵作为输入;
强化学习决策模型为多层神经网络模型,可以由使用者重新搭建,也可以采用工业中广泛应用的网络结构如AlexNet、ResNet为基础进行参数训练,通过训练,决策代理网络能够根据当前时刻的加工过程中的物流调度状态决定下一时刻小车的动作;
2)获取加工任务,确定加工过程中使用的作业单元及数量、确定用于调度的AGV小车数量;
确定参与加工任务的N个作业单元及K辆AGV小车,其中作业单元能够发送物料运输任务信号到控制台,小车能够接收控制台发出的物料运输任务信号;
3)根据步骤2)获取加工任务下作业单元以及小车的状态,构建车间拓扑结构关系矩阵,获得加工过程的总状态;具体地,包括如下子步骤:
(1)按照时间顺序对一次加工过程中的每个时刻构建相应的状态矩阵及关系矩阵,包括:
将每个作业单元的运行、缺物料和停止状态用一个3维向量表示,得到作业单元的状态矩阵sM;
每辆AGV小车的就绪、运出、运回、停止状态用一个4维向量表示,得到AGV小车的状态矩阵sA;其中,运出是指AGV小车从原材料仓储单元运往作业单元,运回是指小车从作业单元运回半成品仓储单元;某一AGV小车处于就绪状态时,对应的作业单元可以接受该AGV小车送达的原材料;
根据车间的原材料仓储单、半成品仓储单元和作业单元的位置,以及AGV小车可运行的路径,构建车间的二维拓扑结构关系矩阵;
优选地,将车间的二维拓扑结构转化为矩阵形式包括以下步骤:
(a1)以AGV小车为最小方形单元,矩阵的行数W和列数L分别代表以小车为基准换算后的车间的宽度和长度;
(a2)在上述矩阵中,小车可运行区域用值0表示,小车用值1表示,作业单元区域用值2表示,障碍区域用值3表示。
(2)将步骤(1)中的任意时刻的状态矩阵和关系矩阵共同构建该时刻对应的总状态矩阵;
优选地,包括如下子步骤:
(b1)参与加工过程的N个作业单元任意时刻的状态构成一个N×3的二维矩阵,用N×(L-3)的零矩阵沿列方向扩展得到N×L的二维矩阵;
(b2)参与加工过程的K辆AGV小车任意时刻的状态构成一个K×4的二维矩阵,用K×(L-4)的零矩阵沿列方向扩展得到K×L的二维矩阵;
(b3)将上述扩展矩阵与车间拓扑关系矩阵沿行方向扩展,获得(N+K+W)×L的总状态矩阵。
4)模型训练,包括:
(3)建立奖惩机制:
(c1)将步骤2)中的得到的总状态矩阵输入步骤1)中的强化学习决策模型得到所有AGV小车的运动指令;
(c2)获取小车执行运动指令后的新小车状态、作业单元状态以及拓扑结构关系,构建新的总状态矩阵;
(c3)重复步骤(c1)~(c2)直到加工任务完成,计算此次任务完成时的奖惩值;
任务的奖惩值计算包括加工过程中作业单元缺物料状态下等待的时长T以及小车运动路径发生冲突的次数C,总时长为N个作业单元分别花费的等待时间之合,若在可接受范围内,则反馈一个正实值(例如1)作为奖励值,反之则反馈一个负实值(例如-1)作为惩罚值,小车发生冲突反馈一个负实值(例如-1)作为惩罚值,故总奖惩值R的计算如下:
其中,w1表示作业单元等待时间的权重系数,为经验值;rMi表示第i个作业单元的等待时间的奖惩值;w2表示AGV小车冲突次数的权重系数,C表示冲突次数,rA表示一次加工任务中AGV小车发生冲突的惩罚值总和。
(4)将步骤(c3)获得的奖惩值对步骤1)中的神经网络进行训练;
优选地,强化学习决策模型的训练过程为,采用强化学习算法Advantage Actor-Critic(A2C)以及梯度下降算法Adam进行代理决策网络和状态评价网络的参数更新,以得到较好的决策结果。重复训练直到强化学习决策模型收敛,得到训练好的强化学习决策模型;
5)在线检测阶段:
使用训练好的强化学习决策模型部署到管理控制台,实现车间加工过程中物流调度与路径规划的动态决策与优化。
下面介绍本发明的第二实施例,本发明的第二实施例具有两个神经网络,分别进行动作决策和每次动作后的状态评价,并根据评价结果修正选择动作的概率,从而加快算法收敛,更快获得性能更好的强化学习决策模型。其与优选实施例的区别主要在于步骤(3)~(4):
(3)建立奖惩机制,在一次加工过程中,对于任意当前时刻t,根据从加工开始至当前时刻t内的所有作业单元等待物料的总时长,以及从加工开始至当前时刻t内的AGV小车的冲突次数总数构建t时刻的奖惩值Rt;
优选地,奖惩值Rt的计算包括加工过程中作业单元缺物料状态下等待时长的奖惩值,以及加工过程中AGV小车发生冲突的总次数;AGV小车每发生一次冲突则反馈一个负实值rA作为惩罚值,则从加工开始到当前时刻t内的奖惩值Rt的计算如下:
其中,w1表示作业单元等待时间的权重系数,为经验值;表示从加工开始到当前时刻t内第i个作业单元的等待时间对应的奖惩值,若第i个作业单元的等待时间在可接受范围内,则赋予正实值,反之则赋予负实值;w2表示AGV小车冲突次数的权重系数,Ct表示从加工开始到当前时刻t内AGV小车冲突次数总数;
(4)构建两个神经网络,分别作为决策代理网络和状态评价网络,将当前时刻t的总状态矩阵作为决策代理网络和状态评价网络的输入,将AGV小车从t时刻的状态运动到t+1时刻的状态的动作at作为决策代理网络的输出,将Vt作为状态评价网络的输出,利用步骤(3)的奖惩值Rt分别构建决策代理网络和状态评价网络的损失函数,对决策代理网络和状态评价网络进行训练,以使一次加工过程中最终得到的奖惩值最大化,训练完成后的决策代理网络作为强化学习决策模型;Vt表示t时刻时AGV小车从当前所有可选动作at分别执行至加工结束时,对应的最终的奖惩值的总期望;
其中,小车的动作定义为一个4维向量a,表示小车的前进方向:
a=[I(前),I(后),I(左),I(右)]
任意时刻,给小车发出的动作指令仅可能处于一种状态,因此动作向量a任意时刻的元素和为1。
优选地,决策代理网络定义为a=π(s),状态评估网络定义为V=V(s),a为小车动作,s为状态,V为AGV小车在状态s下从所有可选动作a分别执行至加工结束后得到的奖惩值的总期望;
对于加工过程中的某个时刻t,其对应的总状态矩阵为st,则决策代理网络给出的AGV小车动作为at=π(st),状态评价网络给出的评价为Vt=V(st),按照给定的概率随机执行动作at,可以得到t时刻下奖惩值的增量rt,状态发生改变至st+1,则有Rt+1=Rt+rt;
经过一次动作at后,决策网络的损失函数为:
Lossπ=-at*(Rt+1-Vt)
评估网络的损失函数为:
LossV=(Rt+1-Vt)
若(Rt-Vt)>0,说明在st下执行的动作at获得了正反馈,需要提升在状态st下采用此动作的概率;反之,则调低在状态st下采用动作at的概率。
本发明建立基于强化学习算法的决策模型,通过对加工过程中作业单元、小车状态与位置拓扑结构进行描述并转化为矩阵形式,实现了在加工过程中作业单元、小车不同状态下的决策过程,动态优化加工过程中的物流调度与路径规划,相比现有技术基于静态车间模型进行启发式搜索算法,更有效、适应性更强,是一种创新的方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种动态优化加工过程中物流调度及路径规划的强化学习方法,其特征在于,包括离线训练阶段和在线检测阶段,其中:
离线训练阶段包括:
(1)按照时间顺序对一次加工过程中的每个时刻构建相应的状态矩阵及关系矩阵,包括:
将每个作业单元的运行、缺物料和停止状态用一个3维向量表示,得到作业单元的状态矩阵sM;
每辆AGV小车的就绪、运出、运回、停止状态用一个4维向量表示,得到AGV小车的状态矩阵sA;其中,运出是指AGV小车从原材料仓储单元运往作业单元,运回是指小车从作业单元运回半成品仓储单元;某一AGV小车处于就绪状态时,对应的作业单元可以接受该AGV小车送达的原材料;
根据车间的原材料仓储单、半成品仓储单元和作业单元的位置,以及AGV小车可运行的路径,构建车间的二维拓扑结构关系矩阵;
(2)将步骤(1)中的任意时刻的状态矩阵和关系矩阵共同构建该时刻对应的总状态矩阵;
(3)建立奖惩机制,根据一次加工过程中所有作业单元等待物料的总时长及AGV小车的冲突次数总数构建奖惩值R;
(4)将步骤(2)的总状态矩阵作为输入,将AGV小车从当前状态运动到下一状态的动作a作为输出,利用步骤(3)的奖惩值构建损失函数,对神经网络进行训练,以使最终一次加工过程中得到的奖惩值R最大化,获得强化学习决策模型;
在线检测阶段包括:
(5)针对新的加工任务,实时按照步骤(1)~(2)建立当前时刻的总状态矩阵,并输入步骤(4)获得的强化学习决策模型,获得当前时刻AGV小车应执行的动作。
2.如权利要求1所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法,其特征在于,步骤(1)中,定义车间加工过程的N个作业单元为集合M={m1,m2,...,mN},其中每个作业单元的状态用一个3维向量sM表示:
SM=[I(运行),I(缺物料),I(停止)]
其中I(*)为指示函数,表示作业单元是否处于括号中的状态,取值为0或者1,0表示否,1表示是;当作业单元处于缺物料状态时,可以接受AGV小车送达的原材料;任意时刻一个工作单元仅可能处于一种状态,因此状态向量sM任意时刻的元素和为1;
定义车间加工过程的K辆AGV小车为集合A={c1,c2,...,cK},其中每辆小车的状态用一个4维向量sA表示:
sA=[I(就绪),I(运出),I(运回),I(停止)]
其中,运出是指小车从原材料仓储单元运往作业单元,运回是指小车从作业单元运回半成品仓储单元;某一AGV小车处于就绪状态时,对应的作业单元可以接受该AGV小车送达的原材料;任意时刻一辆AGV小车仅可能处于一个状态,因此状态向量sA任意时刻的元素和为1;
步骤(4)中,小车的动作定义为一个4维向量a,表示小车的前进方向:
a=[I(前),I(后),I(左),I(右)]
任意时刻,给小车发出的动作指令仅可能处于一种状态,因此动作向量a任意时刻的元素和为1。
3.如权利要求2所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法,其特征在于,步骤(1)中,将车间的二维拓扑结构转化为矩阵形式包括以下步骤:
(a1)以单个AGV小车为最小方形单元,矩阵的行数W和列数L分别代表以单个AGV小车为基准换算后的车间的宽度和长度;
(a2)在上述矩阵中,AGV小车可运行区域、AGV小车、作业单元区域、障碍区域用4个不同的数值进行表示。
4.如权利要求3所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法,其特征在于,步骤(2)包括以下子步骤:
(b1)参与加工过程的N个作业单元任意时刻的状态构成一个N×3的二维矩阵,用N×(L-3)的零矩阵沿列方向扩展得到N×L的二维矩阵;
(b2)参与加工过程的K辆AGV小车任意时刻的状态构成一个K×4的二维矩阵,用K×(L-4)的零矩阵沿列方向扩展得到K×L的二维矩阵;
(b3)将上述扩展矩阵与车间拓扑关系矩阵沿行方向扩展,获得(N+K+W)×L的总状态矩阵。
6.如权利要求1所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法,其特征在于,包括离线训练阶段和在线检测阶段,其中:
离线训练阶段包括:
(1)按照时间顺序对一次加工过程中的每个时刻构建相应的状态矩阵及关系矩阵,包括:
将每个作业单元的运行、缺物料和停止状态用一个3维向量表示,得到作业单元的状态矩阵sM;
每辆AGV小车的就绪、运出、运回、停止状态用一个4维向量表示,得到AGV小车的状态矩阵sA;其中,运出是指AGV小车从原材料仓储单元运往作业单元,运回是指小车从作业单元运回半成品仓储单元;某一AGV小车处于就绪状态时,对应的作业单元可以接受该AGV小车送达的原材料;
根据车间的原材料仓储单、半成品仓储单元和作业单元的位置,以及AGV小车可运行的路径,构建车间的二维拓扑结构关系矩阵;
(2)将步骤(1)中的任意时刻的状态矩阵和关系矩阵共同构建该时刻对应的总状态矩阵;
(3)建立奖惩机制,在一次加工过程中,对于任意当前时刻t,根据从加工开始至当前时刻t内的所有作业单元等待物料的总时长,以及从加工开始至当前时刻t内的AGV小车的冲突次数总数构建t时刻的奖惩值Rt;
(4)构建两个神经网络,分别作为决策代理网络和状态评价网络,将当前时刻t的总状态矩阵作为决策代理网络和状态评价网络的输入,将AGV小车从t时刻的状态运动到t+1时刻的状态的动作at作为决策代理网络的输出,将Vt作为状态评价网络的输出,利用步骤(3)的奖惩值Rt分别构建决策代理网络和状态评价网络的损失函数,对决策代理网络和状态评价网络进行训练,以使一次加工过程中最终得到的奖惩值最大化,训练完成后的决策代理网络作为强化学习决策模型;Vt表示t时刻时AGV小车从当前所有可选动作at分别执行至加工结束时,对应的最终的奖惩值的总期望;
在线检测阶段包括:
(5)针对新的加工任务,实时按照步骤(1)~(2)建立当前时刻的总状态矩阵,并输入步骤(4)获得的强化学习决策模型,获得当前时刻AGV小车应执行的动作。
7.如权利要求6所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法,其特征在于,步骤(1)中,定义车间加工过程的N个作业单元为集合M={m1,m2,...,mN},其中每个作业单元的状态用一个3维向量sM表示:
sM=[I(运行),I(缺物料),I(停止)]
其中I(*)为指示函数,表示作业单元是否处于括号中的状态,取值为0或者1,0表示否,1表示是;当作业单元处于缺物料状态时,可以接受AGV小车送达的原材料;任意时刻一个工作单元仅可能处于一种状态,因此状态向量sM任意时刻的元素和为1;
定义车间加工过程的K辆AGV小车为集合A={c1,c2,...,cK},其中每辆小车的状态用一个4维向量sA表示:
sA=[I(就绪),I(运出),I(运回),I(停止)]
其中,运出是指小车从原材料仓储单元运往作业单元,运回是指小车从作业单元运回半成品仓储单元;某一AGV小车处于就绪状态时,对应的作业单元可以接受该AGV小车送达的原材料;任意时刻一辆AGV小车仅可能处于一个状态,因此状态向量sA任意时刻的元素和为1;
步骤(4)中,小车的动作定义为一个4维向量a,表示小车的前进方向:
a=[I(前),I(后),I(左),I(右)]
任意时刻,给小车发出的动作指令仅可能处于一种状态,因此动作向量a任意时刻的元素和为1。
8.如权利要求7所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法,其特征在于,步骤(1)中,将车间的二维拓扑结构转化为矩阵形式包括以下步骤:
(a1)以单个AGV小车为最小方形单元,矩阵的行数W和列数L分别代表以单个AGV小车为基准换算后的车间的宽度和长度;
(a2)在上述矩阵中,AGV小车可运行区域、AGV小车、作业单元区域、障碍区域用4个不同的数值进行表示。
9.如权利要求8所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法,其特征在于,步骤(2)包括以下子步骤:
(b1)参与加工过程的N个作业单元任意时刻的状态构成一个N×3的二维矩阵,用N×(L-3)的零矩阵沿列方向扩展得到N×L的二维矩阵;
(b2)参与加工过程的K辆AGV小车任意时刻的状态构成一个K×4的二维矩阵,用K×(L-4)的零矩阵沿列方向扩展得到K×L的二维矩阵;
(b3)将上述扩展矩阵与车间拓扑关系矩阵沿行方向扩展,获得(N+K+W)×L的总状态矩阵。
10.如权利要求6~9任意一项所述的一种动态优化加工过程中物流调度及路径规划的强化学习方法,其特征在于,步骤(3)中,奖惩值Rt的计算包括加工过程中作业单元缺物料状态下等待时长的奖惩值,以及加工过程中AGV小车发生冲突的总次数;AGV小车每发生一次冲突则反馈一个负实值rA作为惩罚值,则从加工开始到当前时刻t内的奖惩值Rt的计算如下:
其中,w1表示作业单元等待时间的权重系数,为经验值;表示从加工开始到当前时刻t内第i个作业单元的等待时间对应的奖惩值,若第i个作业单元的等待时间在可接受范围内,则赋予正实值,反之则赋予负实值;w2表示AGV小车冲突次数的权重系数,Ct表示从加工开始到当前时刻t内AGV小车冲突次数总数;
步骤(4)中,决策代理网络定义为a=π(s),状态评估网络定义为V=V(s),a为小车动作,s为状态,V为AGV小车在状态s下从所有可选动作a分别执行至加工结束后得到的奖惩值的总期望;
在加工过程中某时刻t,其对应的总状态矩阵为st,则决策代理网络给出的动作为at=π(st),状态评价网络给出的评价为Vt=V(st),按照给定的概率随机执行动作at,可以得到t时刻下奖惩值的增量rt,状态发生改变至st+1,则有Rt+1=Rt+rt;
经过一次动作at后,决策网络的损失函数为:
Lossπ=-at*(Rt+1-Vt)
评估网络的损失函数为:
LossV=(Rt+1-Vt)
若(Rt-Vt)>0,说明在st下执行的动作at获得了正反馈,需要提升在状态st下采用此动作的概率;反之,则调低在状态st下采用动作at的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910651729.8A CN110443412B (zh) | 2019-07-18 | 2019-07-18 | 动态优化加工过程中物流调度及路径规划的强化学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910651729.8A CN110443412B (zh) | 2019-07-18 | 2019-07-18 | 动态优化加工过程中物流调度及路径规划的强化学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110443412A CN110443412A (zh) | 2019-11-12 |
CN110443412B true CN110443412B (zh) | 2021-11-02 |
Family
ID=68429753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910651729.8A Active CN110443412B (zh) | 2019-07-18 | 2019-07-18 | 动态优化加工过程中物流调度及路径规划的强化学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110443412B (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111296A (zh) * | 2019-12-24 | 2021-07-13 | 浙江吉利汽车研究院有限公司 | 一种车辆的路径规划方法、装置、电子设备及存储介质 |
CN111340286B (zh) * | 2020-02-24 | 2023-01-17 | 广东博智林机器人有限公司 | 机器人调度方法、装置、电子设备以及存储介质 |
CN111898310B (zh) * | 2020-06-15 | 2023-08-04 | 浙江师范大学 | 车辆调度方法、装置、计算机设备和计算机可读存储介质 |
CN111857054B (zh) * | 2020-07-15 | 2021-10-08 | 清华大学 | 一种基于神经网络的数控系统运动轨迹控制方法 |
CN112016811A (zh) * | 2020-08-04 | 2020-12-01 | 四叶草(苏州)智能科技有限公司 | 一种基于强化学习的agv智能调度系统及方法 |
CN112001646B (zh) * | 2020-08-27 | 2024-06-18 | 上海汽车集团股份有限公司 | 一种物料调度方法、装置、存储介质及电子设备 |
CN112185532B (zh) * | 2020-10-10 | 2023-09-19 | 中国联合网络通信集团有限公司 | 一种车辆部署方法及装置 |
CN112150088A (zh) * | 2020-11-26 | 2020-12-29 | 深圳市万邑通信息科技有限公司 | 一种吞吐柔性智能装配物流路径规划方法及系统 |
CN112835333B (zh) * | 2020-12-31 | 2022-03-15 | 北京工商大学 | 一种基于深度强化学习多agv避障与路径规划方法及系统 |
CN113762687B (zh) * | 2021-01-04 | 2024-03-01 | 北京京东振世信息技术有限公司 | 一种仓库内的人员排班调度方法和装置 |
CN112379607B (zh) * | 2021-01-18 | 2021-04-13 | 中联重科股份有限公司 | 模拟运行方法及装置、数量规划方法、装置及系统 |
CN112734286B (zh) * | 2021-01-22 | 2023-04-07 | 东华大学 | 一种基于多策略深度强化学习的车间调度方法 |
CN113128770B (zh) * | 2021-04-23 | 2022-08-09 | 新疆大学 | 基于dqn的不确定车间环境下物料配送实时优化方法 |
CN113393022B (zh) * | 2021-05-31 | 2022-05-31 | 武汉港迪智能技术有限公司 | 一种物料库区多行车协同作业方法 |
CN113793030A (zh) * | 2021-09-15 | 2021-12-14 | 无锡唯因特数据技术有限公司 | 物料调度方法、装置和存储介质 |
CN114296440B (zh) * | 2021-09-30 | 2024-04-09 | 中国航空工业集团公司北京长城航空测控技术研究所 | 一种融合在线学习的agv实时调度方法 |
CN114281050B (zh) * | 2021-12-30 | 2024-06-07 | 沈阳建筑大学 | 基于q学习的流程制造车间滚揉结扎工序段生产优化方法 |
CN114493465B (zh) * | 2022-02-21 | 2022-09-16 | 深圳佳利达供应链管理有限公司 | 一种多目标物流路径优化方法 |
CN114626794B (zh) * | 2022-05-17 | 2022-08-09 | 山东西曼克技术有限公司 | 基于物联网的仓储立库穿梭车路径规划方法及系统 |
CN116362652B (zh) * | 2023-06-01 | 2023-10-31 | 上海仙工智能科技有限公司 | 一种运输分拨任务调度方法及系统、存储介质 |
CN117689999B (zh) * | 2024-02-04 | 2024-05-07 | 宝鸡核力材料科技有限公司 | 一种用于实现tc4卷带工艺优化的方法及系统 |
CN118051035B (zh) * | 2024-04-15 | 2024-08-09 | 山东大学 | 一种基于局部距离视野强化学习的多agv调度方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10650920B2 (en) * | 2012-08-16 | 2020-05-12 | Ginger.io, Inc. | Method and system for improving care determination |
CN106970615B (zh) * | 2017-03-21 | 2019-10-22 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN107065881B (zh) * | 2017-05-17 | 2019-11-08 | 清华大学 | 一种基于深度强化学习的机器人全局路径规划方法 |
CN107767022B (zh) * | 2017-09-12 | 2021-07-06 | 重庆邮电大学 | 一种生产数据驱动的动态作业车间调度规则智能选择方法 |
CN109960578A (zh) * | 2017-12-22 | 2019-07-02 | 田文洪 | 一种基于深度强化学习的数据中心资源离线调度方法 |
CN109190751B (zh) * | 2018-07-19 | 2020-12-22 | 杭州电子科技大学 | 一种基于深度强化学习的机器自主决策方法 |
CN108776483B (zh) * | 2018-08-16 | 2021-06-29 | 圆通速递有限公司 | 基于蚁群算法和多智能体q学习的agv路径规划方法和系统 |
CN109489667A (zh) * | 2018-11-16 | 2019-03-19 | 楚天智能机器人(长沙)有限公司 | 一种基于权值矩阵的改进蚁群路径规划方法 |
CN109857534A (zh) * | 2019-02-12 | 2019-06-07 | 浙江方正印务有限公司 | 一种基于策略梯度强化学习的智能任务调度策略训练方法 |
-
2019
- 2019-07-18 CN CN201910651729.8A patent/CN110443412B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110443412A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110443412B (zh) | 动态优化加工过程中物流调度及路径规划的强化学习方法 | |
US11635749B2 (en) | Optimized factory schedule and layout generation | |
CN111882215B (zh) | 一种含有agv的个性化定制柔性作业车间调度方法 | |
CN103246969B (zh) | 一种物流调配的实现方法和装置 | |
CN112147960B (zh) | 一种柔性制造系统优化调度方法及装置 | |
Larsen et al. | Path planning of cooperating industrial robots using evolutionary algorithms | |
CN115481897A (zh) | 一种agv无人仓库设备优化配置方法 | |
CN114296440A (zh) | 一种融合在线学习的agv实时调度方法 | |
CN114936783B (zh) | 一种基于mmddpg算法的rgv小车调度方法及系统 | |
Wang et al. | Study on scheduling and path planning problems of multi-AGVs based on a heuristic algorithm in intelligent manufacturing workshop | |
Wang et al. | A neural network based multi-state scheduling algorithm for multi-AGV system in FMS | |
CN116400651A (zh) | 智慧工厂数字孪生平台的多agv协同调度方法及装置 | |
CN116523165A (zh) | 柔性作业车间amr路径规划与生产调度的协同优化方法 | |
CN114330830A (zh) | 一种多台agv协同搬运同一货物的作业方法及存储介质 | |
Takahashi et al. | Online optimization of AGV transport systems using deep reinforcement learning | |
CN116522801B (zh) | 一种用于物流系统的布局仿真方法及装置 | |
GAOa et al. | Machine learning and digital twin-sed path planning for AGVs at automated container terminals | |
Jungbluth et al. | Reinforcement Learning-based Scheduling of a Job-Shop Process with Distributedly Controlled Robotic Manipulators for Transport Operations | |
CN116703104A (zh) | 一种基于决策大模型的料箱机器人订单拣选方法及装置 | |
CN115870988A (zh) | 一种多智能体协同控制的机械臂自动装填运动规划方法 | |
Gu et al. | Dynamic scheduling mechanism for intelligent workshop with deep reinforcement learning method based on multi-agent system architecture | |
Iwamura et al. | A study on real-time scheduling for autonomous distributed manufacturing systems | |
Chen et al. | An Effective Hybrid Jellyfish Search Algorithm for Multi-AGVs Path Planning | |
Li et al. | Research on collaborative control method of manufacturing process based on distributed multi-agent cooperation | |
Zhang et al. | Integrated Scheduling of Flexible Job Shop and Energy-Efficient Automated Guided Vehicles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |