CN115373353A

CN115373353A - 一种基于强化学习的改进数字孪生车间调度方法

Info

Publication number: CN115373353A
Application number: CN202210964618.4A
Authority: CN
Inventors: 易文超; 邱洪斌; 陈勇; 裴植; 王成; 张文珠
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-11-22

Abstract

本发明公开了一种基于强化学习的改进数字孪生车间调度方法，包括以下步骤：1)根据物理车间的组成拆解为多个子系统，将每个子系统抽象为智能体/智能体群，并建立参数化模型；2)搭建虚拟车间的数字孪生模型，实现从参数化模型到数字孪生模型的一一映射；3)训练强化学习策略模型；4)将训练完成的强化学习策略模型嵌入到数字孪生车间模型的底层调度算法中，构建仿真结果的实时可视化，最终打包成独立的车间调度系统。本发明基于强化学习算法，实现了数字孪生车间调度系统对车间的高效调度的同时有效地节约了设备运行的成本，实时的可视化界面方便车间管理者可以清楚查看车间的实时运行状况，起到良好的车间管理决策支持作用。

Description

一种基于强化学习的改进数字孪生车间调度方法

技术领域

本发明涉及信息技术领域，尤其涉及一种基于强化学习的改进数字孪生车间调度方法。

背景技术

数字孪生车间(Digital Twin Shop-floor,简称DTS)，是指在新一代的信息技术和制造技术驱动下，通过物理车间与虚拟车间的双向真实映射与实时交互，实现物理车间、虚拟车间、车间服务系统的全要素、全流程、全业务数据的集成和融合。在车间孪生数据的驱动下，实现车间生产要素管理、生产活动计划、生产过程控制等在物理车间、虚拟车间、车间服务系统间的迭代运行，从而在满足特定的目标和约束的前提下，达到车间生产和管控最优的一种车间运行新模式。主要包括物理车间(physical shop-floor，简称PS)、虚拟车间(virtual shop-floor，简称VS)、车间服务系统(shop-floor service system，SSS)、车间孪生数据(shop-floor digital twin data，简称SDTD)、连接(connection，简称CN)。

DTS作为一种将信息空间和物理空间高度融合，并实现实时交互的技术，在制造业中具有极大的经济价值和发挥空间。通过DTS这项技术，可以将实际生产作业中的物理空间实时映射在虚拟空间中，主要是借助IoT设备等将物理车间内的实时数据与建立在仿真世界中的虚拟车间一一映射和实时交互。

但是，现有的仿真引擎大多是基于离散事件仿真理论开发的。这种仿真理论的最大特点是在底层算法上将entity作群体处理，这与现实逻辑不符，就导致了数字孪生的底层仿真引擎与现实物理世界之间必然存在不可逾越的gap。这也是当前DTS技术无法实现物理世界与虚拟世界在逻辑上无法做到完全的一一映射和实时交互的根本原因之一。

另外，当前的DTS技术主要侧重点在于全时空数据的收集、存储、融合和基于数据驱动的仿真渲染与仿真结果可视化，但对于仿真得到的二手数据的利用并不充分，即对数字孪生车间的数据的有效利用率过低导致该技术还没发挥出其真正的价值和作用。

发明内容

为了克服目前数字孪生车间存在的不匹配的仿真引擎和低效的数据利用率的弊端，本发明提供了一种基于强化学习的改进数字孪生车间调度方法，通过将基于代理人(Agent Based)和离散事件(Discrete Event)结合，基于混合建模仿真方法实现对数字孪生车间的改进。另外，又结合强化学习技术，基于数字孪生模型的可交互的特点和重复仿真的技术点实现基于仿真的强化学习(Simulation BasedReinforcement Learning)，有效提高了数字孪生车间数据的利用效率，充分发挥了数字孪生车间技术辅助车间管理者运营实际物理车间的决策支持能力。

本发明解决其技术问题所采用的技术方案是：

一种基于强化学习的改进数字孪生车间调度方法，包括以下步骤：

1)按照企业生产的作业流程将复杂的物理车间系统拆解为多个子系统的集合，每个子系统均抽象为一个智能体(或智能体群)，之后基于经验设置智能体(或智能体群)的相关参数，对每个单独的智能体(或智能体群)而言，所有相关参数组成的集合即为该智能体(或智能体群)的参数化模型，之后继续以集合的形式进行参数化建模直至得到整个复杂物理车间的完整参数化模型，从而建立由多个智能体(或智能体群)组成的虚拟车间的参数化模型；

2)基于建立好的参数化模型，借助混合建模仿真方法在仿真软件中搭建虚拟车间的数字孪生模型，实现从参数化模型到数字孪生模型的一一映射；

3)重复运行虚拟车间的数字孪生模型，得到充分表征车间中智能体与仿真环境交互信息的训练数据集，并利用该训练数据集训练强化学习策略模型；

4)通过仿真软件预留的JAVA接口，将训练好的强化学习策略模型嵌入到虚拟车间的数字孪生模型底层算法中，实现强化学习策略模型可以基于实时的仿真数据输出策略，从而驱动数字孪生模型的后续运行，数字孪生模型又基于强化学习策略模型输出的策略运行到下一时刻，如此迭代运行，得到具备自我进化机制的基于强化学习的改进数字孪生车间调度系统；并且将数据可视化插件集成到数字孪生模型中，实现仿真结果的实时可视化，并将其打包成独立的车间调度系统。

再进一步，步骤1)中将车间中的各个子系统抽象为智能体(智能体群)。在此步骤，先将物理车间视作一个存在内部交互的独立的复杂系统，将其内部的各个环节、流程和子系统抽象为各个智能体(智能体群)。

以一个常规的物理车间为例，将该复杂系统中的加工机器群抽象为智能体群A，物料抽象为智能体群B，产线抽象为智能体群C，物料搬运上下线的机械手抽象为智能体D，叉车AGV集群抽象为智能体群E，叉车AGV集群的搬运网络抽象为智能体F，负责物料加工的工人群体抽象为智能体群G等等。

在智能体群A中，具有如下参数需要进行设置：机器的数量N^a、不同物料的加工所需时长

所有机器所处的空间坐标集合为

所有加工机器允许加工的物料种类集合为

在智能体群B中，需要考虑建模的参数有：物料的种类N^b、所有待加工物料的几何尺寸的集合为

在智能体群C中，需要设置的参数有：所有传送带的长度集合为

所有传送带的最大加/减速度集合为

所有传送带的最大速度集合为

机器的总数量为N^c、所有机器的坐标位置集合为

在智能体D中，需要建模的参数有：机械手搬运物料上下线的耗时长分布为

机械手的位置坐标为(x，y，z)；

在智能体群E中，需要建模抽象的参数有：叉车集群的数量为N^e、所有叉车可承载的物料数量集合为

所有叉车的最大电量集合为

所有叉车的最大行驶速度集合为

所有叉车的最大加/减速度集合为

听有叉车在不同状态下的耗电速率集合为

所有叉车的充电速率集合为

在智能体F中，该网络的参数有：不同线路的长度集合为

搬运网络上的叉车AGV的最大运行速度为v_max；

将负责物料加工的工人群体抽象为智能体群G，其中具有的参数有：工人集群的数量为N^g、所有工人的行走速度集合为

至此，完成了对虚拟车间的参数化模型的构建，其本质是代表多个智能体(智能体群)的参数集合又组成的新集合。表示如下：

进一步，所述步骤3)中，利用仿真的可重复运行性重复运行虚拟车间的数字孪生模型，得到充分可以表征出虚拟车间中智能体与仿真环境交互信息的训练数据集。之后在Pathmind云平台中，利用该训练数据集训练强化学习策略模型。

更进一步，步骤3)中具体过程如下：

基于步骤1)建立完成的参数化模型对虚拟车间的数字孪生模型作数学抽象，将数字孪生模型建立成强化学习模型，主要是以构建奖励函数、动作函数、状态函数为目标，得到基于参数化模型抽象建立的强化学习模型。按照强化学习模型的一般步骤，明确奖励函数为四个子目标函数的加权和：

其中，其中f_i表示各个状态子函数，δ_i表示各个状态子函数对应的系数。

第一个子目标函数用于计算完成任务时传送带上剩余的物料库存数量的总和f₁＝∑n_wait；第二个子目标函数用于计算所有物料等待加工的时长总和f₂＝∑t_wait；第三个子目标函数用于计算完成目标任务时所耗的总时长f₃＝∑t_total；第四个子目标函数用于计算所有AGV的平均利用率

经过加权求和得到强化学习模型最终的奖励函数R。

对于动作函数，考虑到物理车间中负责搬运物料的AGV集群是连通传送带、加工设备等设备的中间系统，所以以AGV的调度作为强化学习模型中的动作函数，得到动作函数为a_i＝{start_i，final_i}。start_i表示每台AGV选择的前往的起点，final_i表示每台AGV选择前往的终点。

对于状态函数，将车间内各个子系统的参数列表作为描述整体系统的状态，即得到状态函数为S＝{S₁，S₂，S₃，S₄，...}。其中，S1等表示各个子系统(智能体/智能体群)的状态子函数。比如，对于AGV集群所代表的智能体，由于其参数包含有机器的数量N^a、不同物料的加工所需时长

所有机器所处的空间坐标集合

所有加工机器允许加工的物料种类集合

等，因此，其状态子函数为

同理，将其他抽象出的智能体/智能体群的参数集合作为强化学习模型中的状态子函数。最终得到的虚拟车间的状态函数即为经过二值化和布尔化处理的参数列表。状态函数表示为：

在将虚拟车间的数字孪生模型抽象为强化学习模型后，将数字孪生模型打包成单独的jar包(即数据包)，上传到Pathmind云计算平台上，根据前面抽象的强化学习模型设定对应的函数参数，在云端进行强化学习模型的训练，最终得到训练完成的强化学习策略模型。

进一步，所述步骤4)中，通过仿真软件预留的JAVA接口，将训练好的强化学习策略模型通过PathmindHelper的API，嵌入到虚拟车间的数字孪生模型底层算法中，实现强化学习策略模型可以基于实时的仿真数据输出策略，并且数字孪生模型又基于强化学习策略模型输出的策略运行到下一时刻，如此迭代运行，得到具备自我进化机制的数字孪生车间调度系统。

更进一步，因为整个系统是完全基于Anylogic仿真软件进行的，因此步骤4)中构建的基于强化学习的改进数字孪生车间调度系统包括：

(1)实时数据库存储模块：基于Anylogic的数据库组件，将仿真模型的实时状态数据存储在相应的数据库表中，一方面用于强化学习策略模块的系统状态数据读取，另一方面用于数据可视化插件的状态数据读取和可视化。

(2)调度策略模块：基于PathmindHelper接口，将训练好的强化学习策略模块与仿真模型进行衔接，实现仿真模型可以基于强化学习模块输出的策略迭代运行。

(3)仿真数据实时可视化模块：通过该模块，将各类可视化插件与仿真模型进行连接，可以实现将仿真模型当前的运行状态以各种图表的形式实时地可视化展示。

进一步，:记录各个智能体/智能体群的参数列表值的底层动态数据库，完全基于Anylogic仿真软件中的数据库表插件实现，通过添加数据库表，设置参数列表及对应的取值和值的类型，在仿真模型中将创建的智能体/智能体群与对应的数据库表进行绑定，实现对仿真模型的状态数据的实时存储。

更进一步，仿真模型与强化学习策略模型通过PathmindHelper接口实现，借助该接口，实现强化学习策略模块可以实时读取仿真模型的状态数据并输出下一步的最优调度策略，而仿真模型的每一步运行均是基于强化学习策略模型输出的策略驱动运行。

再进一步，借助Anylogic仿真软件的仿真数据可视化插件，将仿真过程中的虚拟车间的状态数据与可视化插件进行连接，在运行仿真模型后，数据可视化插件可以基于实时的仿真数据以图表的形式可视化展示。

本发明的有益效果主要表现在：基于混合建模仿真理论，借助基于代理人的状态图建模方法和基于离散事件的流程图建模方法实现对数字孪生车间模型的改进，使作为底层支撑的仿真模型在底层仿真逻辑上可以更贴合实际；通过Anylogic仿真软件的PathmindHelper插件实现数字孪生车间模型中的虚拟车间模型(即仿真模型)可以由训练好的强化学习策略模型驱动运行，实现基于强化学习驱动运行的数字孪生车间调度系统。基于强化学习的改进的数字孪生车间调度系统可以有效提高数字孪生车间模型与现实车间的贴合程度，相比于传统的基于启发式的调度策略，基于强化学习的数字孪生车间调度系统可以有效提高数字孪生车间调度系统在解决柔性车间作业调度问题的调度能力，减少线上库存，在保证任务及时完成的同时有效降低AGV等物料搬运设备的能量损耗，节约成本。

附图说明

图1为本发明实施例公开的一种基于强化学习的改进数字孪生车间调度系统的流程示意图。

图2为本发明实施例公开的物理车间中的各个子系统抽象为智能体/智能体群的示意图。

图3为本发明实施例公开的步骤4中建立强化学习策略模型驱动的数字孪生车间调度系统的流程示意图。

下面结合附图对本发明作进一步描述。

参照图1～图3，一种基于强化学习的改进数字孪生车间调度系统，包括以下步骤：

步骤S1，将车间中的各个子系统抽象为智能体/智能体群，基于经验对智能体/智能体群做参数化建模，从而建立由多个智能体/智能体群组成的虚拟车间的参数化模型。

参考图2，在本实施例中，将车间中的各个子系统抽象为智能体(智能体群)。在此步骤，先将物理车间视作一个存在内部交互的独立的复杂系统，将其内部的各个环节、流程和子系统抽象为各个智能体(智能体群)。

以一个常规的物理车间为例，将该复杂系统中的加工机器群抽象为智能体群A，在这个智能体群中，其参数列表可以表示为：

其中，机器的数量为

N^a

不同物料的加工所需时长为

不同机器所处的空间坐标集合：

不同加工机器允许加工的物料种类集合为：

将物料抽象为智能体群B，在这个智能体群中，需要考虑建模的参数有：物料的种类

N^b

所有待加工物料的几何尺寸的集合为：

将产线抽象为智能体群C，在该智能体群中，需要设置的参数有：所有传送带的长度集合为：

所有传送带的最大加/减速度集合为：

所有传送带的最大速度集合为：

机器的总数量为

N^c

所有机器的坐标位置集合为：

将物料搬运上下线的机械手抽象为智能体D，在该智能体中，需要建模的参数有：机械手搬运物料上下线的耗时长分布为

机械手的位置坐标为

(x，y，z)

将叉车AGV集群抽象为智能体群E，需要建模抽象的参数有：叉车集群的数量为

N^e

所有叉车可承载的物料数量集合为：

所有叉车的最大电量集合为：

所有叉车的最大行驶速度集合为：

所有叉车的最大加/减速度集合为：

所有叉车在不同状态下的耗电速率集合为：

所有叉车的充电速率集合为：

将叉车AGV集群的搬运网络抽象为智能体F，该网络的参数有：不同线路的长度集合为：

搬运网络上的叉车AGV的最大运行速度为

v_max

将负责物料加工的工人群体抽象为智能体群G，其中具有的参数有：工人集群的数量为

N^g

不同工人的行走速度集合为：

步骤S2，基于建立好的参数化模型，借助混合建模仿真方法在仿真软件中搭建虚拟车间的数字孪生模型，实现从参数化模型到数字孪生模型的一一映射。

对前述的各个智能体及其参数列表，在Anylogic仿真软件中，先通过流程图和状态图建立各个智能体/智能体群的仿真逻辑。对机器的加工过程，可以抽象为一个加工流程，故使用流程图建立这个智能体群的仿真逻辑，之后根据参数列表设定这个智能体群中具有相同的仿真逻辑的智能体数量，以及每个智能体的参数。

对AGV集群而言，其在车间内充当的角色是搬运物料，主要关注其运行状态，故使用状态图的仿真方法对其进行建模仿真。并且根据其参数列表中的数量等重复建立出含同等数量规模的智能体群。

对于整个过程使用Process智能体，以连接生产原料的智能体群、AGV集群和负责加工半成品的智能体群。同样，也根据前述建立的参数化模型在仿真模型中做对应参数的设置。

步骤S3，利用仿真的可重复性重复运行虚拟车间的数字孪生模型，得到充分可以表征出虚拟车间中智能体与仿真环境之间的交互信息的训练数据集。之后在Pathmind云平台中，利用该训练数据集训练强化学习策略模型。由于这一环节完全基于Pathmind云计算平台，而该平台可以自行实现仿真模型的重复运行从而产生大量的用于强化学习训练的数据集。

更进一步，步骤S31，基于前面建立的参数化模型对虚拟车间的数字孪生模型作数学抽象，将数字孪生模型建立成强化学习模型，主要是以构建奖励函数、动作函数、状态函数为目标，得到基于参数化模型抽象建立的强化学习模型。明确奖励函数为四个子目标函数的加权和：

其中，第一个子目标函数用于计算完成任务时传送带上剩余的物料库存数量的总和

f₁＝∑n_wait

第二个子目标函数用于计算所有物料等待加工的时长总和

f₂＝∑t_wait

第三个子目标函数用于计算完成目标任务时所耗的总时长

f₃＝∑t_total

第四个子目标函数用于计算所有AGV的平均利用率

经过加权求和得到强化学习模型最终的奖励函数R。

对于动作函数，考虑到物理车间中负责搬运物料的AGV集群是连通传送带、加工设备等设备的中间系统，所以以AGV的调度作为强化学习模型中的动作函数，得到动作函数为

a_i＝{start_i，final_i}

对于状态函数，将车间内各个子系统的参数列表作为描述整体系统的状态，即得到状态函数为

S＝{S₁，S₂，S₃，S₄，...}。

其中，S1等表示各个子系统(智能体/智能体群)的状态子函数。比如，对于AGV集群所代表的智能体，由于其参数包含有机器的数量N^a、不同物料的加工所需时长

所有机器所处的空间坐标集合

所有加工机器允许加工的物料种类集合

因此，其状态子函数为

同理，将其他抽象出的智能体/智能体群的参数集合作为强化学习模型中的状态子函数。最终得到的虚拟车间的状态函数即为经过二值化和布尔化处理的参数列表，用集合表示为

步骤S32，在将虚拟车间的数字孪生模型抽象为强化学习模型后，将数字孪生模型打包成单独的jar包，上传到Pathmind云计算平台上，根据前面抽象的强化学习模型设定对应的函数参数，在云端进行强化学习模型的训练，最终得到训练完成的强化学习策略模型。

从训练数据集的产生到强化学习策略模型的训练，这一整个环节均由Pathmind云计算平台自动实现，我们只需要设置好强化学习模型的动作函数、状态函数和奖励函数，建立好仿真模型即可。

步骤S4，通过仿真软件预留的JAVA接口，将训练好的强化学习策略模型通过PathmindHelper的API，嵌入到虚拟车间的数字孪生模型底层算法中，实现强化学习策略模型可以基于实时的仿真数据输出策略，并且数字孪生模型又基于强化学习策略模型输出的策略运行到下一时刻，如此迭代运行，得到具备自我进化机制的数字孪生车间调度系统。使用混合建模方法，基于参数化模型搭建的改进的数字孪生车间模型的底层仿真模型重复运行，利用得到的训练数据集训练出强化学习策略模型，之后通过Anylogic软件的java接口将强化学习策略模型作为仿真模型的底层算法嵌入进去，得到由强化学习策略模型驱动的改进数字孪生车间调度系统。

主要包括以下步骤(步骤4中建立强化学习策略模型驱动的数字孪生车间调度系统的流程示意图如图3所示)：

步骤S41，基于Anylogic的数据库组件，将仿真模型的实时状态数据存储在相应的数据库表中，一方面用于强化学习策略模块的系统状态数据读取，另一方面用于数据可视化插件的状态数据读取和可视化。建立描述Machines智能体群状态的数据库，数据库中刻画了当前Machine智能体群中各个智能体的坐标位置、加工时长、产出产品数量、加工的产品的类型等数据信息。

步骤S42，基于PathmindHelper接口，将训练好的强化学习策略模块与仿真模型进行衔接，在policy file处引入经过训练完成的强化学习策略模型的程序包，修改enabled和mode参数设置，使得强化学习策略模型作为该数字孪生车间调度系统的底层驱动算法。

步骤S43，通过仿真数据实时可视化模块，将各类可视化插件与仿真模型进行连接，可以实现将仿真模型当前的运行状态以各种图表的形式实时地可视化展示。利用饼状图插件将机器集群的实时加工完成的产品数量可视化，利用条形图将从各个输送带传送口运出的产品数量可视化，利用折线图将完成加工的成品数量可视化，利用柱形图将各个AGV的实时电量可视化，利用甘特图将AGV的实时状态可视化。在可视化界面中也额外设置了控件，以实现不同镜头视角的切换。

本实施例公开的基于强化学习的改进数字孪生车间调度系统完全基于Anylogic仿真软件和Pathmind云计算平台实现，过程中主要的步骤在于参数化建模实现仿真模型和强化学习策略模型驱动仿真模型运行的实现，对于强化学习模型的训练和PathmindHelper接口的实现均由该软件现成提供，本发明中不做过多赘述。本发明的主要作用是提出了一种基于强化学习的改进数字孪生车间调度系统，采用混合建模方法提供了数字孪生虚拟车间模型与物理车间在底层仿真逻辑上的拟合程度。基于强化学习的数字孪生车间调度系统可以有效提高车间调度的作业效果，减少不必要的浪费，卓越的调度策略可以有效节约AGV的电量，降低AGV的使用成本。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

总之，以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所作的均等变化与修饰，皆应属本发明专利的涵盖范围。

Claims

1.一种基于强化学习的改进数字孪生车间调度方法，其特征在于，所述方法包括以下步骤：

1)按照企业生产的作业流程将复杂的物理车间系统拆解为多个子系统的集合，每个子系统均抽象为一个智能体或智能体群，之后基于经验设置智能体或智能体群的相关参数，对每个单独的智能体或智能体群而言，所有相关参数组成的集合即为该智能体或智能体群的参数化模型，之后继续以集合的形式进行参数化建模直至得到整个复杂物理车间的完整参数化模型，从而建立由多个智能体或智能体群组成的虚拟车间的参数化模型；

4)通过仿真软件预留的JAVA接口，将训练好的强化学习策略模型嵌入到虚拟车间的数字孪生模型底层算法中，实现强化学习策略模型可以基于实时的仿真数据输出策略，从而驱动数字孪生模型的后续运行，数字孪生模型又基于强化学习策略模型输出的策略运行到下一时刻，如此迭代运行，得到具备自我进化机制的基于强化学习的改进数字孪生车间调度系统；并且将数据可视化插件集成到数字孪生模型中，实现仿真结果的实时可视化，并将其打包成独立的车间调度系统软件。

2.如权利要求1所述的一种基于强化学习的改进数字孪生车间调度方法，其特征在于，步骤1)中整个复杂物理车间的完整参数化模型表示为以下集合：

其中，A表示加工机器集群所对应的智能体群中的相关参数集合；N^a表示加工机器集群中机器的数量；

表示所有加工机器加工不同物料所需的时长；B表示待加工物料对应的智能体群中的相关参数集合；N^b表示待加工的物料的种类数；

表示所有待加工物料的几何尺寸的集合，几何尺寸以长、宽、高进行表示。

3.如权利要求1所述的一种基于强化学习的改进数字孪生车间调度方法，其特征在于，步骤2)中混合使用状态图和流程图两种仿真建模方法搭建仿真模型，对每个单独的智能体或智能体群而言，针对其状态性质的不同选择状态图和流程图中的其中一种方式建立这个智能体或智能体群的仿真逻辑，在搭建仿真模型的过程中基于步骤1)建立完成的参数化模型进行相关参数的设置，通过仿真软件中的参数插件实现参数化模型到仿真模型的一一映射。

4.如权利要求1所述的一种基于强化学习的改进数字孪生车间调度方法，其特征在于，步骤3)中具体过程为：

基于步骤1)建立完成的参数化模型对虚拟车间的数字孪生模型作数学抽象，将数字孪生模型建立成强化学习模型，主要是以构建奖励函数、动作函数、状态函数为目标，得到基于参数化模型抽象建立的强化学习模型；

其中，物理车间抽象的智能体群包括加工机器群、物料群以及叉车AGV集群，对AGV集群而言，其在车间内充当的角色是搬运物料；

奖励函数表示为：

其中f_i表示各个状态子函数，δ_i表示各个状态子函数对应的系数；

动作函数表示为：

a_i＝{start_i,final_i}

star_i表示每台AGV选择的前往的起点，final_i表示每台AGV选择前往的终点；

状态函数表示为：

表示所有待加工物料的几何尺寸的集合，几何尺寸以长、宽、高进行表示；

之后利用仿真模型的可重复性得到大量的可以表征虚拟车间中智能体或智能体群和仿真环境之间的交互信息的数据集，作为训练强化学习策略模型的训练数据集，最终得到经过训练完成的最优强化学习策略模型。

5.如权利要求1所述的一种基于强化学习的改进数字孪生车间调度方法，其特征在于，步骤4)中构建的基于强化学习的改进数字孪生车间调度系统，所述系统包括：

实时数据库存储模块：基于Anylogic的数据库组件，将仿真模型的实时状态数据存储在相应的数据库表中，一方面用于强化学习策略模块的系统状态数据读取，另一方面用于数据可视化插件的状态数据读取和可视化；

调度策略模块：基于PathmindHelper接口，将训练好的强化学习策略模块与仿真模型进行衔接，实现仿真模型可以基于强化学习模块输出的策略迭代运行；

仿真数据实时可视化模块：通过该模块，将各类可视化插件与仿真模型进行连接，可以实现将仿真模型当前的运行状态以各种图表的形式实时地可视化展示。

6.如权利要求5所述的一种基于强化学习的改进数字孪生车间调度方法，其特征在于，所述调度策略模块中，基于PathmindHelper接口，将训练好的强化学习策略模块与仿真模型进行衔接，在policy file处引入经过训练完成的强化学习策略模型的程序包，修改enabled和mode参数设置，使得强化学习策略模型作为该数字孪生车间调度系统的底层驱动算法。