CN115373353A - 一种基于强化学习的改进数字孪生车间调度方法 - Google Patents

一种基于强化学习的改进数字孪生车间调度方法 Download PDF

Info

Publication number
CN115373353A
CN115373353A CN202210964618.4A CN202210964618A CN115373353A CN 115373353 A CN115373353 A CN 115373353A CN 202210964618 A CN202210964618 A CN 202210964618A CN 115373353 A CN115373353 A CN 115373353A
Authority
CN
China
Prior art keywords
model
workshop
reinforcement learning
digital twin
simulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210964618.4A
Other languages
English (en)
Inventor
易文超
邱洪斌
陈勇
裴植
王成
张文珠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210964618.4A priority Critical patent/CN115373353A/zh
Publication of CN115373353A publication Critical patent/CN115373353A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41865Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by job scheduling, process planning, material flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/30Nc systems
    • G05B2219/32Operator till task planning
    • G05B2219/32252Scheduling production, machining, job shop

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Manufacturing & Machinery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于强化学习的改进数字孪生车间调度方法,包括以下步骤:1)根据物理车间的组成拆解为多个子系统,将每个子系统抽象为智能体/智能体群,并建立参数化模型;2)搭建虚拟车间的数字孪生模型,实现从参数化模型到数字孪生模型的一一映射;3)训练强化学习策略模型;4)将训练完成的强化学习策略模型嵌入到数字孪生车间模型的底层调度算法中,构建仿真结果的实时可视化,最终打包成独立的车间调度系统。本发明基于强化学习算法,实现了数字孪生车间调度系统对车间的高效调度的同时有效地节约了设备运行的成本,实时的可视化界面方便车间管理者可以清楚查看车间的实时运行状况,起到良好的车间管理决策支持作用。

Description

一种基于强化学习的改进数字孪生车间调度方法
技术领域
本发明涉及信息技术领域,尤其涉及一种基于强化学习的改进数字孪生车间调度方法。
背景技术
数字孪生车间(Digital Twin Shop-floor,简称DTS),是指在新一代的信息技术和制造技术驱动下,通过物理车间与虚拟车间的双向真实映射与实时交互,实现物理车间、虚拟车间、车间服务系统的全要素、全流程、全业务数据的集成和融合。在车间孪生数据的驱动下,实现车间生产要素管理、生产活动计划、生产过程控制等在物理车间、虚拟车间、车间服务系统间的迭代运行,从而在满足特定的目标和约束的前提下,达到车间生产和管控最优的一种车间运行新模式。主要包括物理车间(physical shop-floor,简称PS)、虚拟车间(virtual shop-floor,简称VS)、车间服务系统(shop-floor service system,SSS)、车间孪生数据(shop-floor digital twin data,简称SDTD)、连接(connection,简称CN)。
DTS作为一种将信息空间和物理空间高度融合,并实现实时交互的技术,在制造业中具有极大的经济价值和发挥空间。通过DTS这项技术,可以将实际生产作业中的物理空间实时映射在虚拟空间中,主要是借助IoT设备等将物理车间内的实时数据与建立在仿真世界中的虚拟车间一一映射和实时交互。
但是,现有的仿真引擎大多是基于离散事件仿真理论开发的。这种仿真理论的最大特点是在底层算法上将entity作群体处理,这与现实逻辑不符,就导致了数字孪生的底层仿真引擎与现实物理世界之间必然存在不可逾越的gap。这也是当前DTS技术无法实现物理世界与虚拟世界在逻辑上无法做到完全的一一映射和实时交互的根本原因之一。
另外,当前的DTS技术主要侧重点在于全时空数据的收集、存储、融合和基于数据驱动的仿真渲染与仿真结果可视化,但对于仿真得到的二手数据的利用并不充分,即对数字孪生车间的数据的有效利用率过低导致该技术还没发挥出其真正的价值和作用。
发明内容
为了克服目前数字孪生车间存在的不匹配的仿真引擎和低效的数据利用率的弊端,本发明提供了一种基于强化学习的改进数字孪生车间调度方法,通过将基于代理人(Agent Based)和离散事件(Discrete Event)结合,基于混合建模仿真方法实现对数字孪生车间的改进。另外,又结合强化学习技术,基于数字孪生模型的可交互的特点和重复仿真的技术点实现基于仿真的强化学习(Simulation BasedReinforcement Learning),有效提高了数字孪生车间数据的利用效率,充分发挥了数字孪生车间技术辅助车间管理者运营实际物理车间的决策支持能力。
本发明解决其技术问题所采用的技术方案是:
一种基于强化学习的改进数字孪生车间调度方法,包括以下步骤:
1)按照企业生产的作业流程将复杂的物理车间系统拆解为多个子系统的集合,每个子系统均抽象为一个智能体(或智能体群),之后基于经验设置智能体(或智能体群)的相关参数,对每个单独的智能体(或智能体群)而言,所有相关参数组成的集合即为该智能体(或智能体群)的参数化模型,之后继续以集合的形式进行参数化建模直至得到整个复杂物理车间的完整参数化模型,从而建立由多个智能体(或智能体群)组成的虚拟车间的参数化模型;
2)基于建立好的参数化模型,借助混合建模仿真方法在仿真软件中搭建虚拟车间的数字孪生模型,实现从参数化模型到数字孪生模型的一一映射;
3)重复运行虚拟车间的数字孪生模型,得到充分表征车间中智能体与仿真环境交互信息的训练数据集,并利用该训练数据集训练强化学习策略模型;
4)通过仿真软件预留的JAVA接口,将训练好的强化学习策略模型嵌入到虚拟车间的数字孪生模型底层算法中,实现强化学习策略模型可以基于实时的仿真数据输出策略,从而驱动数字孪生模型的后续运行,数字孪生模型又基于强化学习策略模型输出的策略运行到下一时刻,如此迭代运行,得到具备自我进化机制的基于强化学习的改进数字孪生车间调度系统;并且将数据可视化插件集成到数字孪生模型中,实现仿真结果的实时可视化,并将其打包成独立的车间调度系统。
再进一步,步骤1)中将车间中的各个子系统抽象为智能体(智能体群)。在此步骤,先将物理车间视作一个存在内部交互的独立的复杂系统,将其内部的各个环节、流程和子系统抽象为各个智能体(智能体群)。
以一个常规的物理车间为例,将该复杂系统中的加工机器群抽象为智能体群A,物料抽象为智能体群B,产线抽象为智能体群C,物料搬运上下线的机械手抽象为智能体D,叉车AGV集群抽象为智能体群E,叉车AGV集群的搬运网络抽象为智能体F,负责物料加工的工人群体抽象为智能体群G等等。
在智能体群A中,具有如下参数需要进行设置:机器的数量Na、不同物料的加工所需时长
Figure BDA0003794301430000031
所有机器所处的空间坐标集合为
Figure BDA0003794301430000032
所有加工机器允许加工的物料种类集合为
Figure BDA0003794301430000033
在智能体群B中,需要考虑建模的参数有:物料的种类Nb、所有待加工物料的几何尺寸的集合为
Figure BDA0003794301430000034
在智能体群C中,需要设置的参数有:所有传送带的长度集合为
Figure BDA0003794301430000035
所有传送带的最大加/减速度集合为
Figure BDA0003794301430000036
所有传送带的最大速度集合为
Figure BDA0003794301430000037
机器的总数量为Nc、所有机器的坐标位置集合为
Figure BDA0003794301430000038
在智能体D中,需要建模的参数有:机械手搬运物料上下线的耗时长分布为
Figure BDA0003794301430000039
机械手的位置坐标为(x,y,z);
在智能体群E中,需要建模抽象的参数有:叉车集群的数量为Ne、所有叉车可承载的物料数量集合为
Figure BDA0003794301430000041
所有叉车的最大电量集合为
Figure BDA0003794301430000042
所有叉车的最大行驶速度集合为
Figure BDA0003794301430000043
所有叉车的最大加/减速度集合为
Figure BDA0003794301430000044
听有叉车在不同状态下的耗电速率集合为
Figure BDA0003794301430000045
所有叉车的充电速率集合为
Figure BDA0003794301430000046
在智能体F中,该网络的参数有:不同线路的长度集合为
Figure BDA0003794301430000047
搬运网络上的叉车AGV的最大运行速度为vmax
将负责物料加工的工人群体抽象为智能体群G,其中具有的参数有:工人集群的数量为Ng、所有工人的行走速度集合为
Figure BDA0003794301430000048
至此,完成了对虚拟车间的参数化模型的构建,其本质是代表多个智能体(智能体群)的参数集合又组成的新集合。表示如下:
Figure BDA0003794301430000049
进一步,所述步骤3)中,利用仿真的可重复运行性重复运行虚拟车间的数字孪生模型,得到充分可以表征出虚拟车间中智能体与仿真环境交互信息的训练数据集。之后在Pathmind云平台中,利用该训练数据集训练强化学习策略模型。
更进一步,步骤3)中具体过程如下:
基于步骤1)建立完成的参数化模型对虚拟车间的数字孪生模型作数学抽象,将数字孪生模型建立成强化学习模型,主要是以构建奖励函数、动作函数、状态函数为目标,得到基于参数化模型抽象建立的强化学习模型。按照强化学习模型的一般步骤,明确奖励函数为四个子目标函数的加权和:
Figure BDA00037943014300000410
其中,其中fi表示各个状态子函数,δi表示各个状态子函数对应的系数。
第一个子目标函数用于计算完成任务时传送带上剩余的物料库存数量的总和f1=∑nwait;第二个子目标函数用于计算所有物料等待加工的时长总和f2=∑twait;第三个子目标函数用于计算完成目标任务时所耗的总时长f3=∑ttotal;第四个子目标函数用于计算所有AGV的平均利用率
Figure BDA0003794301430000051
经过加权求和得到强化学习模型最终的奖励函数R。
对于动作函数,考虑到物理车间中负责搬运物料的AGV集群是连通传送带、加工设备等设备的中间系统,所以以AGV的调度作为强化学习模型中的动作函数,得到动作函数为ai={starti,finali}。starti表示每台AGV选择的前往的起点,finali表示每台AGV选择前往的终点。
对于状态函数,将车间内各个子系统的参数列表作为描述整体系统的状态,即得到状态函数为S={S1,S2,S3,S4,...}。其中,S1等表示各个子系统(智能体/智能体群)的状态子函数。比如,对于AGV集群所代表的智能体,由于其参数包含有机器的数量Na、不同物料的加工所需时长
Figure BDA0003794301430000052
所有机器所处的空间坐标集合
Figure BDA0003794301430000053
所有加工机器允许加工的物料种类集合
Figure BDA0003794301430000054
等,因此,其状态子函数为
Figure BDA0003794301430000055
Figure BDA0003794301430000056
同理,将其他抽象出的智能体/智能体群的参数集合作为强化学习模型中的状态子函数。最终得到的虚拟车间的状态函数即为经过二值化和布尔化处理的参数列表。状态函数表示为:
Figure BDA0003794301430000057
在将虚拟车间的数字孪生模型抽象为强化学习模型后,将数字孪生模型打包成单独的jar包(即数据包),上传到Pathmind云计算平台上,根据前面抽象的强化学习模型设定对应的函数参数,在云端进行强化学习模型的训练,最终得到训练完成的强化学习策略模型。
进一步,所述步骤4)中,通过仿真软件预留的JAVA接口,将训练好的强化学习策略模型通过PathmindHelper的API,嵌入到虚拟车间的数字孪生模型底层算法中,实现强化学习策略模型可以基于实时的仿真数据输出策略,并且数字孪生模型又基于强化学习策略模型输出的策略运行到下一时刻,如此迭代运行,得到具备自我进化机制的数字孪生车间调度系统。
更进一步,因为整个系统是完全基于Anylogic仿真软件进行的,因此步骤4)中构建的基于强化学习的改进数字孪生车间调度系统包括:
(1)实时数据库存储模块:基于Anylogic的数据库组件,将仿真模型的实时状态数据存储在相应的数据库表中,一方面用于强化学习策略模块的系统状态数据读取,另一方面用于数据可视化插件的状态数据读取和可视化。
(2)调度策略模块:基于PathmindHelper接口,将训练好的强化学习策略模块与仿真模型进行衔接,实现仿真模型可以基于强化学习模块输出的策略迭代运行。
(3)仿真数据实时可视化模块:通过该模块,将各类可视化插件与仿真模型进行连接,可以实现将仿真模型当前的运行状态以各种图表的形式实时地可视化展示。
进一步,:记录各个智能体/智能体群的参数列表值的底层动态数据库,完全基于Anylogic仿真软件中的数据库表插件实现,通过添加数据库表,设置参数列表及对应的取值和值的类型,在仿真模型中将创建的智能体/智能体群与对应的数据库表进行绑定,实现对仿真模型的状态数据的实时存储。
更进一步,仿真模型与强化学习策略模型通过PathmindHelper接口实现,借助该接口,实现强化学习策略模块可以实时读取仿真模型的状态数据并输出下一步的最优调度策略,而仿真模型的每一步运行均是基于强化学习策略模型输出的策略驱动运行。
再进一步,借助Anylogic仿真软件的仿真数据可视化插件,将仿真过程中的虚拟车间的状态数据与可视化插件进行连接,在运行仿真模型后,数据可视化插件可以基于实时的仿真数据以图表的形式可视化展示。
本发明的有益效果主要表现在:基于混合建模仿真理论,借助基于代理人的状态图建模方法和基于离散事件的流程图建模方法实现对数字孪生车间模型的改进,使作为底层支撑的仿真模型在底层仿真逻辑上可以更贴合实际;通过Anylogic仿真软件的PathmindHelper插件实现数字孪生车间模型中的虚拟车间模型(即仿真模型)可以由训练好的强化学习策略模型驱动运行,实现基于强化学习驱动运行的数字孪生车间调度系统。基于强化学习的改进的数字孪生车间调度系统可以有效提高数字孪生车间模型与现实车间的贴合程度,相比于传统的基于启发式的调度策略,基于强化学习的数字孪生车间调度系统可以有效提高数字孪生车间调度系统在解决柔性车间作业调度问题的调度能力,减少线上库存,在保证任务及时完成的同时有效降低AGV等物料搬运设备的能量损耗,节约成本。
附图说明
图1为本发明实施例公开的一种基于强化学习的改进数字孪生车间调度系统的流程示意图。
图2为本发明实施例公开的物理车间中的各个子系统抽象为智能体/智能体群的示意图。
图3为本发明实施例公开的步骤4中建立强化学习策略模型驱动的数字孪生车间调度系统的流程示意图。
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于强化学习的改进数字孪生车间调度系统,包括以下步骤:
步骤S1,将车间中的各个子系统抽象为智能体/智能体群,基于经验对智能体/智能体群做参数化建模,从而建立由多个智能体/智能体群组成的虚拟车间的参数化模型。
参考图2,在本实施例中,将车间中的各个子系统抽象为智能体(智能体群)。在此步骤,先将物理车间视作一个存在内部交互的独立的复杂系统,将其内部的各个环节、流程和子系统抽象为各个智能体(智能体群)。
以一个常规的物理车间为例,将该复杂系统中的加工机器群抽象为智能体群A,在这个智能体群中,其参数列表可以表示为:
Figure BDA0003794301430000081
其中,机器的数量为
Na
不同物料的加工所需时长为
Figure BDA0003794301430000082
不同机器所处的空间坐标集合:
Figure BDA0003794301430000083
不同加工机器允许加工的物料种类集合为:
Figure BDA0003794301430000084
将物料抽象为智能体群B,在这个智能体群中,需要考虑建模的参数有:物料的种类
Nb
所有待加工物料的几何尺寸的集合为:
Figure BDA0003794301430000085
将产线抽象为智能体群C,在该智能体群中,需要设置的参数有:所有传送带的长度集合为:
Figure BDA0003794301430000086
所有传送带的最大加/减速度集合为:
Figure BDA0003794301430000087
所有传送带的最大速度集合为:
Figure BDA0003794301430000091
机器的总数量为
Nc
所有机器的坐标位置集合为:
Figure BDA0003794301430000092
将物料搬运上下线的机械手抽象为智能体D,在该智能体中,需要建模的参数有:机械手搬运物料上下线的耗时长分布为
Figure BDA0003794301430000093
机械手的位置坐标为
(x,y,z)
将叉车AGV集群抽象为智能体群E,需要建模抽象的参数有:叉车集群的数量为
Ne
所有叉车可承载的物料数量集合为:
Figure BDA0003794301430000094
所有叉车的最大电量集合为:
Figure BDA0003794301430000095
所有叉车的最大行驶速度集合为:
Figure BDA0003794301430000096
所有叉车的最大加/减速度集合为:
Figure BDA0003794301430000097
所有叉车在不同状态下的耗电速率集合为:
Figure BDA0003794301430000098
所有叉车的充电速率集合为:
Figure BDA0003794301430000101
将叉车AGV集群的搬运网络抽象为智能体F,该网络的参数有:不同线路的长度集合为:
Figure BDA0003794301430000102
搬运网络上的叉车AGV的最大运行速度为
vmax
将负责物料加工的工人群体抽象为智能体群G,其中具有的参数有:工人集群的数量为
Ng
不同工人的行走速度集合为:
Figure BDA0003794301430000103
至此,完成了对虚拟车间的参数化模型的构建,其本质是代表多个智能体(智能体群)的参数集合又组成的新集合。表示如下:
Figure BDA0003794301430000104
步骤S2,基于建立好的参数化模型,借助混合建模仿真方法在仿真软件中搭建虚拟车间的数字孪生模型,实现从参数化模型到数字孪生模型的一一映射。
对前述的各个智能体及其参数列表,在Anylogic仿真软件中,先通过流程图和状态图建立各个智能体/智能体群的仿真逻辑。对机器的加工过程,可以抽象为一个加工流程,故使用流程图建立这个智能体群的仿真逻辑,之后根据参数列表设定这个智能体群中具有相同的仿真逻辑的智能体数量,以及每个智能体的参数。
对AGV集群而言,其在车间内充当的角色是搬运物料,主要关注其运行状态,故使用状态图的仿真方法对其进行建模仿真。并且根据其参数列表中的数量等重复建立出含同等数量规模的智能体群。
对于整个过程使用Process智能体,以连接生产原料的智能体群、AGV集群和负责加工半成品的智能体群。同样,也根据前述建立的参数化模型在仿真模型中做对应参数的设置。
步骤S3,利用仿真的可重复性重复运行虚拟车间的数字孪生模型,得到充分可以表征出虚拟车间中智能体与仿真环境之间的交互信息的训练数据集。之后在Pathmind云平台中,利用该训练数据集训练强化学习策略模型。由于这一环节完全基于Pathmind云计算平台,而该平台可以自行实现仿真模型的重复运行从而产生大量的用于强化学习训练的数据集。
更进一步,步骤S31,基于前面建立的参数化模型对虚拟车间的数字孪生模型作数学抽象,将数字孪生模型建立成强化学习模型,主要是以构建奖励函数、动作函数、状态函数为目标,得到基于参数化模型抽象建立的强化学习模型。明确奖励函数为四个子目标函数的加权和:
Figure BDA0003794301430000111
其中,第一个子目标函数用于计算完成任务时传送带上剩余的物料库存数量的总和
f1=∑nwait
第二个子目标函数用于计算所有物料等待加工的时长总和
f2=∑twait
第三个子目标函数用于计算完成目标任务时所耗的总时长
f3=∑ttotal
第四个子目标函数用于计算所有AGV的平均利用率
Figure BDA0003794301430000112
经过加权求和得到强化学习模型最终的奖励函数R。
对于动作函数,考虑到物理车间中负责搬运物料的AGV集群是连通传送带、加工设备等设备的中间系统,所以以AGV的调度作为强化学习模型中的动作函数,得到动作函数为
ai={starti,finali}
对于状态函数,将车间内各个子系统的参数列表作为描述整体系统的状态,即得到状态函数为
S={S1,S2,S3,S4,...}。
其中,S1等表示各个子系统(智能体/智能体群)的状态子函数。比如,对于AGV集群所代表的智能体,由于其参数包含有机器的数量Na、不同物料的加工所需时长
Figure BDA0003794301430000121
所有机器所处的空间坐标集合
Figure BDA0003794301430000122
所有加工机器允许加工的物料种类集合
Figure BDA0003794301430000123
因此,其状态子函数为
Figure BDA0003794301430000124
同理,将其他抽象出的智能体/智能体群的参数集合作为强化学习模型中的状态子函数。最终得到的虚拟车间的状态函数即为经过二值化和布尔化处理的参数列表,用集合表示为
Figure BDA0003794301430000125
步骤S32,在将虚拟车间的数字孪生模型抽象为强化学习模型后,将数字孪生模型打包成单独的jar包,上传到Pathmind云计算平台上,根据前面抽象的强化学习模型设定对应的函数参数,在云端进行强化学习模型的训练,最终得到训练完成的强化学习策略模型。
从训练数据集的产生到强化学习策略模型的训练,这一整个环节均由Pathmind云计算平台自动实现,我们只需要设置好强化学习模型的动作函数、状态函数和奖励函数,建立好仿真模型即可。
步骤S4,通过仿真软件预留的JAVA接口,将训练好的强化学习策略模型通过PathmindHelper的API,嵌入到虚拟车间的数字孪生模型底层算法中,实现强化学习策略模型可以基于实时的仿真数据输出策略,并且数字孪生模型又基于强化学习策略模型输出的策略运行到下一时刻,如此迭代运行,得到具备自我进化机制的数字孪生车间调度系统。使用混合建模方法,基于参数化模型搭建的改进的数字孪生车间模型的底层仿真模型重复运行,利用得到的训练数据集训练出强化学习策略模型,之后通过Anylogic软件的java接口将强化学习策略模型作为仿真模型的底层算法嵌入进去,得到由强化学习策略模型驱动的改进数字孪生车间调度系统。
主要包括以下步骤(步骤4中建立强化学习策略模型驱动的数字孪生车间调度系统的流程示意图如图3所示):
步骤S41,基于Anylogic的数据库组件,将仿真模型的实时状态数据存储在相应的数据库表中,一方面用于强化学习策略模块的系统状态数据读取,另一方面用于数据可视化插件的状态数据读取和可视化。建立描述Machines智能体群状态的数据库,数据库中刻画了当前Machine智能体群中各个智能体的坐标位置、加工时长、产出产品数量、加工的产品的类型等数据信息。
步骤S42,基于PathmindHelper接口,将训练好的强化学习策略模块与仿真模型进行衔接,在policy file处引入经过训练完成的强化学习策略模型的程序包,修改enabled和mode参数设置,使得强化学习策略模型作为该数字孪生车间调度系统的底层驱动算法。
步骤S43,通过仿真数据实时可视化模块,将各类可视化插件与仿真模型进行连接,可以实现将仿真模型当前的运行状态以各种图表的形式实时地可视化展示。利用饼状图插件将机器集群的实时加工完成的产品数量可视化,利用条形图将从各个输送带传送口运出的产品数量可视化,利用折线图将完成加工的成品数量可视化,利用柱形图将各个AGV的实时电量可视化,利用甘特图将AGV的实时状态可视化。在可视化界面中也额外设置了控件,以实现不同镜头视角的切换。
本实施例公开的基于强化学习的改进数字孪生车间调度系统完全基于Anylogic仿真软件和Pathmind云计算平台实现,过程中主要的步骤在于参数化建模实现仿真模型和强化学习策略模型驱动仿真模型运行的实现,对于强化学习模型的训练和PathmindHelper接口的实现均由该软件现成提供,本发明中不做过多赘述。本发明的主要作用是提出了一种基于强化学习的改进数字孪生车间调度系统,采用混合建模方法提供了数字孪生虚拟车间模型与物理车间在底层仿真逻辑上的拟合程度。基于强化学习的数字孪生车间调度系统可以有效提高车间调度的作业效果,减少不必要的浪费,卓越的调度策略可以有效节约AGV的电量,降低AGV的使用成本。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。

Claims (6)

1.一种基于强化学习的改进数字孪生车间调度方法,其特征在于,所述方法包括以下步骤:
1)按照企业生产的作业流程将复杂的物理车间系统拆解为多个子系统的集合,每个子系统均抽象为一个智能体或智能体群,之后基于经验设置智能体或智能体群的相关参数,对每个单独的智能体或智能体群而言,所有相关参数组成的集合即为该智能体或智能体群的参数化模型,之后继续以集合的形式进行参数化建模直至得到整个复杂物理车间的完整参数化模型,从而建立由多个智能体或智能体群组成的虚拟车间的参数化模型;
2)基于建立好的参数化模型,借助混合建模仿真方法在仿真软件中搭建虚拟车间的数字孪生模型,实现从参数化模型到数字孪生模型的一一映射;
3)重复运行虚拟车间的数字孪生模型,得到充分表征车间中智能体与仿真环境交互信息的训练数据集,并利用该训练数据集训练强化学习策略模型;
4)通过仿真软件预留的JAVA接口,将训练好的强化学习策略模型嵌入到虚拟车间的数字孪生模型底层算法中,实现强化学习策略模型可以基于实时的仿真数据输出策略,从而驱动数字孪生模型的后续运行,数字孪生模型又基于强化学习策略模型输出的策略运行到下一时刻,如此迭代运行,得到具备自我进化机制的基于强化学习的改进数字孪生车间调度系统;并且将数据可视化插件集成到数字孪生模型中,实现仿真结果的实时可视化,并将其打包成独立的车间调度系统软件。
2.如权利要求1所述的一种基于强化学习的改进数字孪生车间调度方法,其特征在于,步骤1)中整个复杂物理车间的完整参数化模型表示为以下集合:
Figure FDA0003794301420000021
其中,A表示加工机器集群所对应的智能体群中的相关参数集合;Na表示加工机器集群中机器的数量;
Figure FDA0003794301420000022
表示所有加工机器加工不同物料所需的时长;B表示待加工物料对应的智能体群中的相关参数集合;Nb表示待加工的物料的种类数;
Figure FDA0003794301420000024
表示所有待加工物料的几何尺寸的集合,几何尺寸以长、宽、高进行表示。
3.如权利要求1所述的一种基于强化学习的改进数字孪生车间调度方法,其特征在于,步骤2)中混合使用状态图和流程图两种仿真建模方法搭建仿真模型,对每个单独的智能体或智能体群而言,针对其状态性质的不同选择状态图和流程图中的其中一种方式建立这个智能体或智能体群的仿真逻辑,在搭建仿真模型的过程中基于步骤1)建立完成的参数化模型进行相关参数的设置,通过仿真软件中的参数插件实现参数化模型到仿真模型的一一映射。
4.如权利要求1所述的一种基于强化学习的改进数字孪生车间调度方法,其特征在于,步骤3)中具体过程为:
基于步骤1)建立完成的参数化模型对虚拟车间的数字孪生模型作数学抽象,将数字孪生模型建立成强化学习模型,主要是以构建奖励函数、动作函数、状态函数为目标,得到基于参数化模型抽象建立的强化学习模型;
其中,物理车间抽象的智能体群包括加工机器群、物料群以及叉车AGV集群,对AGV集群而言,其在车间内充当的角色是搬运物料;
奖励函数表示为:
Figure FDA0003794301420000023
其中fi表示各个状态子函数,δi表示各个状态子函数对应的系数;
动作函数表示为:
ai={starti,finali}
stari表示每台AGV选择的前往的起点,finali表示每台AGV选择前往的终点;
状态函数表示为:
Figure FDA0003794301420000031
其中,A表示加工机器集群所对应的智能体群中的相关参数集合;Na表示加工机器集群中机器的数量;
Figure FDA0003794301420000032
表示所有加工机器加工不同物料所需的时长;B表示待加工物料对应的智能体群中的相关参数集合;Nb表示待加工的物料的种类数;
Figure FDA0003794301420000033
表示所有待加工物料的几何尺寸的集合,几何尺寸以长、宽、高进行表示;
之后利用仿真模型的可重复性得到大量的可以表征虚拟车间中智能体或智能体群和仿真环境之间的交互信息的数据集,作为训练强化学习策略模型的训练数据集,最终得到经过训练完成的最优强化学习策略模型。
5.如权利要求1所述的一种基于强化学习的改进数字孪生车间调度方法,其特征在于,步骤4)中构建的基于强化学习的改进数字孪生车间调度系统,所述系统包括:
实时数据库存储模块:基于Anylogic的数据库组件,将仿真模型的实时状态数据存储在相应的数据库表中,一方面用于强化学习策略模块的系统状态数据读取,另一方面用于数据可视化插件的状态数据读取和可视化;
调度策略模块:基于PathmindHelper接口,将训练好的强化学习策略模块与仿真模型进行衔接,实现仿真模型可以基于强化学习模块输出的策略迭代运行;
仿真数据实时可视化模块:通过该模块,将各类可视化插件与仿真模型进行连接,可以实现将仿真模型当前的运行状态以各种图表的形式实时地可视化展示。
6.如权利要求5所述的一种基于强化学习的改进数字孪生车间调度方法,其特征在于,所述调度策略模块中,基于PathmindHelper接口,将训练好的强化学习策略模块与仿真模型进行衔接,在policy file处引入经过训练完成的强化学习策略模型的程序包,修改enabled和mode参数设置,使得强化学习策略模型作为该数字孪生车间调度系统的底层驱动算法。
CN202210964618.4A 2022-08-12 2022-08-12 一种基于强化学习的改进数字孪生车间调度方法 Pending CN115373353A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210964618.4A CN115373353A (zh) 2022-08-12 2022-08-12 一种基于强化学习的改进数字孪生车间调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210964618.4A CN115373353A (zh) 2022-08-12 2022-08-12 一种基于强化学习的改进数字孪生车间调度方法

Publications (1)

Publication Number Publication Date
CN115373353A true CN115373353A (zh) 2022-11-22

Family

ID=84065969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210964618.4A Pending CN115373353A (zh) 2022-08-12 2022-08-12 一种基于强化学习的改进数字孪生车间调度方法

Country Status (1)

Country Link
CN (1) CN115373353A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994458A (zh) * 2023-03-23 2023-04-21 华南理工大学 一种虚实集成的多智能体集群系统仿真方法
CN117555306A (zh) * 2024-01-11 2024-02-13 天津斯巴克斯机电有限公司 一种基于数字孪生的多生产线任务自适应调度方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994458A (zh) * 2023-03-23 2023-04-21 华南理工大学 一种虚实集成的多智能体集群系统仿真方法
CN117555306A (zh) * 2024-01-11 2024-02-13 天津斯巴克斯机电有限公司 一种基于数字孪生的多生产线任务自适应调度方法及系统
CN117555306B (zh) * 2024-01-11 2024-04-05 天津斯巴克斯机电有限公司 一种基于数字孪生的多生产线任务自适应调度方法及系统

Similar Documents

Publication Publication Date Title
CN115373353A (zh) 一种基于强化学习的改进数字孪生车间调度方法
CN111708332A (zh) 一种生产线数字孪生系统
Li et al. Digital twin-based job shop anomaly detection and dynamic scheduling
CN111061232A (zh) 基于数字孪生的生产线设计与优化方法
CN111882215B (zh) 一种含有agv的个性化定制柔性作业车间调度方法
Yang et al. Modelling and production configuration optimization for an assembly shop
He et al. A multiobjective evolutionary algorithm for achieving energy efficiency in production environments integrated with multiple automated guided vehicles
CN115544775A (zh) 一种数字孪生车间多维多层级模型构建与动态配置方法
Mejri et al. Energy efficient order picking routing for a pick support automated guided vehicle (Ps-AGV)
Shi et al. Research on intelligent assembly modes of aerospace products based on digital twin
Sun et al. Digital twin for energy-efficient integrated process planning and scheduling
An et al. An auxiliary model of intelligent logistics distribution management for manufacturing industry based on refined supply chain
CN116009419A (zh) 复杂装备制造过程虚拟重构与仿真运行方法及系统
Xiong et al. Collaborative scheduling of production and transportation in the shop-floor based on digital twin
CN115062936A (zh) 一种考虑区域责任制的汽车装配线动态周期性物料配送调度方法
Wang et al. Multi AGV simulation system of intelligent workshop based on Digital Twin
Amen et al. Matching Design Tasks to Knowledge-Based Software Tools: When Intuition Does Not Suffice
Chen et al. Multi-objective optimization for AGV energy efficient scheduling problem with customer satisfaction
Makarova et al. Intellectualization of the management processes at the enterprise of automotive industry
Pawlewski et al. Relational database template in the simulation modeling of manufacturing systems
Gu et al. Simulating a production system as an agent-based model: a case study of a gear reducer factory
Yuan et al. Flow shop scheduling with auxiliary time based on simulation optimization
Zhang Flexible flow shop scheduling problem with setup times and blocking constraint via genetic algorithm and simulation
Campos et al. Using discrete simulation to support internal logistics process design
He et al. A Real-time Logistics Scheduling Method of Digital Twin Workshop

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination