CN114037341A

CN114037341A - 一种基于ddqn的智能车间动态自适应调度方法及系统

Info

Publication number: CN114037341A
Application number: CN202111410522.5A
Authority: CN
Inventors: 王美林; 陈晓航; 吴耿枫; 梁凯晴
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-02-11

Abstract

本发明提出一种基于DDQN的智能车间动态自适应调度方法及系统，涉及车间作业调度，首先以采集的车间生产作业数据作为历史大数据，构建基于数据状态的马尔科夫状态过程，设置训练数据样本，结合DDQN算法，基于样本训练当前目标Q网络得到训练好的深度目标Q网络，最大程度地贴合离散车间生产作业的实际情况。构建实时状态与深度目标Q网络交互自适应调度匹配执行机制，根据当下的实时数据状态进行匹配推演，生成调度策略对下一步作业进行指导，可快速响应车间的动态变化，进行“一步一推理”的自适用动态调度，高效地匹配合适的调度策略动作，极大地节约了时间成本的同时提高了生产的效率。

Description

一种基于DDQN的智能车间动态自适应调度方法及系统

技术领域

本发明涉及车间作业调度的技术领域，更具体地，涉及一种基于DDQN的智能车间动态自适应调度方法及系统。

背景技术

对制造业而言，车间作业调度问题一直是企业实际生产中至关重要的一环。如何提高车间调度效率，快速响应车间的动态变化，让调度更加智能化，是车间调度问题的研究重点。

目前，大部分调度问题是NP问题，传统的车间现场动态调度做法是采用反应式、预测反应式、前摄式或滚动式等方式重调度或修补调度。现阶段，多数解决车间调度问题的方案采用数学规划或启发式算法，通过对策略空间进行搜索，来获取调度策略优化，而针对动态自适应调度的生产车间，大多数启发式算法并不具备相当的稳定性，其性能取决于具体问题和设计者经验。此外，启发式算法不能从整体上去完全利用数据之间的价值，适应不了复杂的车间生产环境。对于稍大规模的调度问题，在车间实际生产中往往会有各种复杂的干扰元素，比如设备故障、增删订单等不确定的动态事件，导致生产过程无法按照预设基准计划进行，可解性差。

现有技术中公开了一种基于深度强化学习的流水车间调度方法，将每个工件作为节点并将其工序的处理时间作为节点信息进行聚合得到其嵌入表示，使用指针网络拟合策略网络，然后将最大完工时间作为奖励，对策略网络进行训练并保存参数，在实际问题中，将每个工件的嵌入表示作为策略网络的输入，并依次选择概率最高的工件，直到所有工件选择完毕得到完整的调度序列，该方案在小规模问题上可以获得近优解，在大规模问题上可以获得优于启发式算法和遗传算法的较优解，但是单纯的深度学习DQN算法可能会导致过度估计，使得调度结果偏差较大。

DDQN表示double DQN，是以深度强化学习为基础，实现“无偏估计”的一种被广泛应用的深度学习算法。在车间作业调度中，考虑调度过程中可能存在的动态不确定性情况，如何最大程度贴合实际车间生产作业，并且快速响应车间的动态变化，是实现有效率的车间动态调度，为企业制造生产带来巨大的实际价值的关键。

发明内容

为解决当前车间生产调度方法无法贴合车间实际生产作业情况，且无法快速响应车间状况动态变化的问题，本发明提出一种基于DDQN的智能车间动态自适应调度方法及系统，在实时状态下高效指导工业生产，实现车间生产的自适应调度，快速响应车间的动态变化，从而提高车间生产调度效率。

为了达到上述技术效果，本发明的技术方案如下：

一种基于DDQN的智能车间动态自适应调度方法，所述智能车间为搭建了物联网环境的离散制造车间，由工件加工工位、车间物流节点及工件缓存区的制造节点组成，所述方法包括以下步骤：

S1.采集车间生产作业数据；

S2.对车间生产作业数据进行预处理，然后构建制造节点的多维数据状态，按时间序列顺序形成制造节点的马尔科夫状态视图，完成数据状态建模；

S3.随机获取状态建模后的数据，每一条数据中存在表征离散制造车间的制造节点的当前数据状态S、基于当前数据状态S所采取的调度策略动作A、当前数据状态S执行调度策略动作A后的奖励R、制造节点的下一个数据状态S+1及车间生产作业过程的末状态D，然后一次选取k条数据作为样本；

S4.确定基于DDQN的当前目标Q网络，以马尔科夫状态视图中制造节点的各个数据状态S作为当前目标Q网络的输入，以执行各个调度策略动作A的动作评估值Q作为当前目标Q网络的输出，基于样本训练当前目标Q网络，得到训练好的深度目标Q网络；

S5.确定制造节点的实时数据状态S＇，将实时数据状态S＇作为训练好的深度目标Q网络的输入，得到基于当前实时数据状态S＇所预估的可选调度策略动作A＇以及实时数据状态S＇采用调度策略动作A＇进行调度作业所花费的时间T，并将时间T按照从小到大排序；

S6.若时间T均不相等，将时间T最小时对应的调度策略动作A＇选定为最优调度策略动作，作为下一步执行的调度动作；若存在多个相等的最小时间T，选取动作评估值Q最大的调度策略动作A＇作为最优调度策略动作；

S7.重复步骤S5～S6，动态更新调度策略，直至车间生产作业完成。

在本技术方案中，首先以采集的车间生产作业数据作为历史大数据，通过数据状态建模，构建基于数据状态的马尔科夫状态过程，设置训练数据样本中的当前数据状态S、调度策略动作A、奖励R、下一个数据状态S+1及车间生产作业过程的末状态D，确定基于DDQN的当前目标Q网络，利用历史数据中已形成的优化调度经验，引入基于深度强化学习的DDQN算法对历史大数据进行分析处理，然后基于样本训练当前目标Q网络得到训练好的深度目标Q网络，最大程度地贴合离散车间生产作业的实际情况，最后构建实时状态与深度目标Q网络交互自适应调度匹配执行机制，根据当下的实时数据状态进行匹配推演，生成调度策略对下一步作业进行指导，推演时间短，可以快速响应车间的动态变化，能根据车间作业的实时状态高效地匹配合适的调度策略动作，提高了车间生产的效率；可以适应物联网车间各类实时动态变化，无需像传统调度算法一样需要进行全局搜索和全局重新调度，而是进行“一步一推理”的自适用动态调度，极大地节约了时间成本的同时提高了生产的效率。同时，也解决传统调度算法中由于车间制造系统规模过大或者约束过多的条件下可解性差的问题。

优选地，步骤S1中，利用Agent模型采集车间生产作业数据，Agent模型由智能车间的主动采集对象设备和被动采集对象设备封装而成，主动采集对象设备包括自动RFID采集设备或条码采集终端、智能设备工控下位机、PLC控制器、数据采集终端及能共享部分数据的应用系统；被动采集对象设备的被动采集对象包括通过添加RFID/自动ID标签进行绑定标识的工件、配件、物料、生产设备、工具及操作工人，Agent模型利用主动采集对象设备实时采集车间作业的数据，被动采集对象在车间生产作业过程中流转，自身已绑定标识的数据信息被主动采集对象捕捉，被动采集对象设备配合主动采集对象设备采集车间作业数据，并进行上报。

优选地，步骤S1所述的采集的车间生产作业数据包括：车间操作工人的技术水平的数据、生产设备的工作状态的数据、待加工工件的信息数据、产品各种指标的精度和制造节点的上下游节点状态在内的“人、机、物、法、环”各种维度数据；

步骤S2所述的采集的车间生产作业数据进行预处理的过程包括：清洗车间生产作业数据，处理车间生产作业数据中的错误值和缺失值，根据数据错误或缺失的情况，按行或按列删除；对于缺失值，根据在车间制造实际情况下的数据自身属性，采用均值或中位数或众数作为中心度量值来填补缺失数据；

把有量纲的数据映射到无量纲的离散数据空间，即把车间生产作业过程中所得到的数据进行离散化处理；在不丢失所需要信息的前提下，把采集到的数据进行数字化、离散化、去单位化描述，构建无量纲的数据。

在此，采集的车间生产作业数据能反映出制造过程中的生产逻辑，针对车间制造的快速精准处理实时数据的需求，需要对车间生产作业数据预处理，其中，把有量纲的数据映射到无量纲的离散数据空间，即把车间生产作业过程中所得到的数据进行离散化处理可以减少系统状态空间，降低数据的复杂程度，增加有效匹配概率，有利于接下来的状态表达和计算处理。

优选地，步骤S2中所述的构建制造节点的多维数据状态，按时间序列顺序链接形成制造节点的马尔科夫状态视图的过程包括：

采集的车间生产作业数据为多源异构数据，将采集的车间生产作业数据根据车间作业生产逻辑进行链接集成，通过以下方式的状态集合：

单个制造节点状态<维度1状态，维度2状态，维度3状态，......，维度i状态>

对车间中制造节点的多维数据状态进行表达，构建出每个制造节点的多维数据状态，每一个维度状态包括或部分包括了人力维度、物料维度、生产设备维度，工艺维度和环境维度的采集数据；其中，人力维度包括当前制造节点的操作工人的技能熟练度、监控人员的管理水平，物料维度包括订单工件编号、工件数目、及类型，生产设备维度包括生产设备的工作状态、类型、维护时间和忙闲情况；工艺维度包括加工精度、作业规范及产品标准，环境维度包括车间的生成上下文及自然环境因素；

所有制造节点链接起来形成整个车间智能制造系统，将各个制造节点的多维数据状态映射到车间生产的所有制造节点中，从时间上截取车间制造过程中某一个瞬间的俯视全景数据视图，将各个制造节点基于某个瞬间的作业数据映射，把所有车间制造节点和各种“人、机、物、法、环”约束维度一一映射，对每一个制造节点进行编号，通过以下方式的状态集合：

智能制造系统状态<制造节点1的状态，制造节点2的状态，......，制造节点j的状态>

把包含所有制造节点整个智能制造系统的数据状态表示出来；将整个智能制造系统的数据状态视图根据车间生产作业过程的各个瞬间逐个表达出来，按照时间序列顺序连接，通过以下方式的时间序列顺序：

智能制造系统马尔科夫状态过程<系统的状态T1，系统的状态T2，......，系统的状态Tk>

将智能制造系统制造节点的各个维度状态数据信息串联起来，形成符合车间生产顺序的数据状态，得到完整车间生产过程中制造物联网映射的马尔科夫状态视图及其状态演变。

在此，通过对车间某个制造节点的多维数据进行准确表达，可以反映该节点上在智能制造中所蕴含的生产制造信息，制造节点的数据状态的表达是把车间采集系统采集到的多源异构的数据根据其生产逻辑进行链接和集成的。

优选地，离散制造车间的制造节点的当前数据状态S包括制造节点的忙闲状况、容量、忙时状态的节点正在操作的订单的数目以及订单编号；离散制造车间的制造节点的各个数据状态S按时间顺序串联成为完整的智能制造系统马尔科夫状态过程；调度策略动作A表达为<JOBID,MNID>，其中，JOBID表示某个订单编号的作业，MNID是某一个编号的节点，表达当前某一个作业JOBID在调度时选择在节点MNID上进行加工、流转或等待。

优选地，步骤S4所述的基于DDQN的当前目标Q网络包括负责动作获取的现实网络Current_Net和负责动作价值计算的目标网络Target_Net，现实网络Current_Net和目标网络Target_Net结构相同；以马尔科夫状态视图中制造节点的各个数据状态S作为当前目标Q网络的输入，以执行各个调度策略动作A的动作评估值Q作为当前目标Q网络的输出，各个调度策略动作A的动作评估值Q组成Q值表，某一调度策略动作A的动作评估值Q越大，调度策略动作的价值越大，合理性越高；

当前目标Q网络的训练过程为：

将样本i，i∈(1，k)中制造节点的下一个数据状态S+1分别输入现实网络Current_Net和目标网络Target_Net，得到Cur_Q值表和Tar_Q值表；

获取样本i，i∈(1，k)在Cur_Q值表中动作评估值Q最大的索引动作，再利用该索引动作检索Tar_Q值表，得到对应调度策略动作的Tar_Q值；

创建存储k条样本Q值数据的列表Q_batch，每条样本按照：

Q_i＝样本i的奖励R_i+GAMMA*样本i对应的Tar_Q值

分别计算对应的Q值并载入列表Q_batch中，用于损失函数计算；

将k条样本中的当前数据状态S输入现实网络Current_Net，得到当前状态<S,A>的现实Q值，同时将k条样本所得k个现实Q值存入Current_Net_Q列表，用于损失函数计算；

设损失函数Cost为：

Cost＝Q_batch-Current_Net_Q

利用优化器对损失函数进行优化计算，直至收敛；训练过程中，更新当前目标Q网络的频率为f，将现实网络Current_Net的参数每训练f步，更新一次目标网络Target_Net的参数，得到训练好的深度目标Q网络。

优选地，步骤S5中，将深度目标Q网络的输出表示为<S＇，A＇，Q，T>，构建JOB表(JOBID，MNID，Q，T)，JOB表(JOBID，MNID，Q，T)表征为一个按照时间T从小到大排序的矩阵，JOB表中的<JOBID，MNID>组合为调度策略动作A＇。

在此，以制造节点的实时数据状态S＇作为输入，在车间生产过程中发生突发事件或者不确定性因素等动态事件导致生产执行困难的时候，深度目标Q网络，深度目标Q网络根据当下的实时数据状态进行匹配推演，生成调度策略动作对接下来的作业进行指导，无论是外界故障干扰还是人为调节，或者是正常的生产过程，都是会根据当前的状态，作出及时影响，从而得到最符合当下状态的生产策略，无需像传统调度算法一样需要进行全局搜索和全局重新调度，而是进行“一步一推理”的自适用动态调度，极大地节约了时间成本的同时提高了生产的效率。

优选地，步骤S6中，在基于JOB表(JOBID，MNID，Q，T)的前提下，若JOB表(JOBID，MNID，Q，T)中时间T均不相等，将时间T最小时对应的调度策略动作A＇对应的<JOBID，MNID>选定为最优调度策略动作，作为下一步执行的调度动作；若存在多个相等的最小时间T，选取动作评估值Q最大的调度策略动作A＇对应的<JOBID，MNID>作为最优调度策略动作。

优选地，步骤S7中所述重复步骤S5～S6，动态更新调度策略时，在时间T最小时对应的调度策略动作A＇对应的<JOBID，MNID>被选定为最优调度策略动作，且已执行后，JOB表(JOBID，MNID，Q，T)中的对应行删除，从而刷新JOB表(JOBID，MNID，Q，T)，直至JOB表(JOBID，MNID，Q，T)为空，构成了可以实时指导车间生产作业的基本推理机制，根据此推理机制，基于当前数据状态逐个选取当前最优的动作，得到最优的匹配数据。

本发明还提出一种基于DDQN的智能车间动态自适应调度系统，所述系统用于实现基于DDQN的智能车间动态自适应调度方法，包括：

数据采集模块，用于采集车间生产作业数据，车间生产作业数据包括上报至数据预处理及状态建模模块为算法训练准备的车间生产作业历史数据，以及上报至数据预处理及状态建模模块的实时车间生产作业数据；

数据预处理及状态建模模块，用于对车间生产作业数据进行预处理，然后构建制造节点的多维数据状态，按时间序列顺序链接形成制造节点的马尔科夫状态视图，完成数据状态建模；

算法样本准备模块，用于随机获取状态建模后的数据，每一条数据中存在表征离散制造车间的制造节点的当前数据状态S、基于当前数据状态S所采取的调度策略动作A、当前数据状态S执行调度策略动作A后的奖励R、制造节点的下一个数据状态S+1及车间生产作业过程的末状态D，一次选取k条数据作为样本；

Q网络构建训练模块，用于确定基于DDQN的当前目标Q网络，以马尔科夫状态视图中制造节点的各个数据状态S作为当前目标Q网络的输入，以执行各个调度策略动作A的动作评估值Q作为当前目标Q网络的输出，基于样本训练当前目标Q网络，得到训练好的深度目标Q网络；

实时自适应调度准备模块，用于确定制造节点的实时数据状态S＇，将实时数据状态S＇作为训练好的深度目标Q网络的输入，得到基于当前实时数据状态S＇所预估的可选调度策略动作A＇以及实时数据状态S＇采用调度策略动作A＇进行调度作业所花费的时间T，将时间T按照从小到大排序；

动态自适应调度匹配模块，在时间T均不相等时，将时间T最小时对应的调度策略动作A＇选定为最优调度策略动作，作为下一步执行的调度动作；若存在多个相等的最小时间T时，选取动作评估值Q最大的调度策略动作A＇作为最优调度策略动作；且动态更新调度策略，直至车间生产作业完成。

在本技术方案中，数据采集模块从生产作业中实时获取数据，实现对系统当前制造信息的感知，当车间稳定生产时，采集系统会实时采集当前的数据；当车间作业过程中有意外事件产生扰动时，采集系统也能够快速响应，实时采集数据并及时上报到预处理平台。实时采集到的各种维度的数据反应了车间制造的当前整体的实时状态，当前系统制造节点的忙闲状况、容量、忙时状态的节点正在操作的订单的数目以及订单编号等”人机物法环”各维度信息，成为系统的当前实时数据状态S＇，也包括上报至数据预处理及状态建模模块为算法训练准备(Q网络构建训练模块中)的车间生产作业历史数据，当前实时数据状态S＇在实时自适应调度准备模块可能存在多个作业的调度策略动作A＇可以选择，这里的调度策略动作A＇是基于当前实时状态下所预估的可选动作，是还未执行的，进行“一步一推理”的自适用动态调度，满足了智能车间生产制造的需求，具有深远的实际应用价值。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出一种基于DDQN的智能车间动态自适应调度方法及系统，首先以采集的车间生产作业数据作为历史大数据，构建基于数据状态的马尔科夫状态过程，设置训练数据样本，结合DDQN算法，基于样本训练当前目标Q网络得到训练好的深度目标Q网络，最大程度地贴合离散车间生产作业的实际情况。构建实时状态与深度目标Q网络交互自适应调度匹配执行机制，根据当下的实时数据状态进行匹配推演，生成调度策略对下一步作业进行指导，可快速响应车间的动态变化，进行“一步一推理”的自适用动态调度，高效地匹配合适的调度策略动作，极大地节约了时间成本的同时提高了生产的效率。

附图说明

图1表示本发明实施例1中提出的基于DDQN的智能车间动态自适应调度方法的流程示意图；

图2表示本发明实施例3中提出的基于DDQN的智能车间动态自适应调度系统的结构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好地说明本实施例，附图某些部位会有省略、放大或缩小，并不代表实际尺寸；

对于本领域技术人员来说，附图中某些公知内容说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

为解决当前车间生产调度方法无法贴合车间实际生产作业情况，且无法快速响应车间状况动态变化的问题，本实施例中提出了一种基于DDQN的智能车间动态自适应调度方法，此处的智能车间为搭建了物联网环境的离散制造车间，由工件加工工位、车间物流节点及工件缓存区的制造节点组成，其中，工件加工工位是车间制造的主要组成,各种待加工工件经过车间不同工位进行层层加工操作之后，逐渐成为符合企业生产需求的产品，车间物流节点是车间生产中的连接单元，把完成了部分加工操作的工件转运至后续的生产制造节点，是物件的中转调度的转运渠道，工件缓存区是车间生产中的物件暂时存放的节点，这三种类别的制造节点共同构成整个离散车间智能制造系统。另外，所述的“物联网环境”是指搭载物联网技术，具有实时采集并处理包括车间操作工人的技术水平的数据、生产设备的工作状态的数据、待加工工件的信息数据、产品各种指标的精度和制造节点的上下游节点状态等在内的“人、机、物、法、环”各种维度数据的能力。

具体的，参见如图1所示的基于DDQN的智能车间动态自适应调度方法的流程图，本方法包括以下步骤：

S1.采集车间生产作业数据；

采集的车间生产作业数据包括：车间操作工人的技术水平的数据、生产设备的工作状态的数据、待加工工件的信息数据、产品各种指标的精度和制造节点的上下游节点状态在内的“人、机、物、法、环”各种维度数据；

人、机器、物料、工艺、环境等多源异构的状态信息和行为事件信息，进行链接构成的一种多维内联的数据状态，能反映出制造过程中的生产逻辑，针对车间制造的快速精准处理实时数据的需求，需要对车间生产作业数据预处理，因此，在本实施例中，步骤S2所述的采集的车间生产作业数据进行预处理的过程包括：清洗车间生产作业数据，处理车间生产作业数据中的错误值和缺失值，根据数据错误或缺失的情况，按行或按列删除；对于缺失值，根据在车间制造实际情况下的数据自身属性，采用均值或中位数或众数作为中心度量值来填补缺失数据；

其中，把有量纲的数据映射到无量纲的离散数据空间，即把车间生产作业过程中所得到的数据进行离散化处理可以减少系统状态空间，降低数据的复杂程度，增加有效匹配概率，有利于接下来的状态表达和计算处理。

在本实施例中，针对的车间作业生产系统属于离散制造系统，它是由一系列工件加工工位、车间物流节点和工件缓存区的制造节点构成。通过对车间制造中某个节点的多维数据进行准确表达，可以反映该节点上在智能制造中所蕴含的生产制造信息。

对车间中制造节点的多维数据状态进行表达，构建出每个制造节点的多维数据状态，每一个维度状态包括或部分包括了人力维度、物料维度、生产设备维度，工艺维度和环境维度的采集数据；其中，人力维度包括当前制造节点的操作工人的技能熟练度、监控人员的管理水平，物料维度包括订单工件编号、工件数目、及类型，生产设备维度包括生产设备的工作状态、类型、维护时间和忙闲情况；工艺维度包括加工精度、作业规范及产品标准，环境维度包括车间的生成上下文及自然环境因素，如温度、湿度和光照强度等；

所有制造节点链接起来形成整个车间智能制造系统，在把车间智能制造系统的每个制造节点的数据状态表达出来之后，进一步将各个车间制造节点的数据状态映射到车间生产的所有制造节点中，即把包含所有制造节点整个智能制造系统的数据状态表示出来。具体的，将各个制造节点的多维数据状态映射到车间生产的所有制造节点中，从时间上截取车间制造过程中某一个瞬间的俯视全景数据视图，将各个制造节点基于某个瞬间的作业数据映射，把所有车间制造节点和各种“人、机、物、法、环”约束维度一一映射，对每一个制造节点进行编号，通过以下方式的状态集合：

智能制造系统状态<制造节点1的状态，制造节点2的状态，......，制造节点j的状态>把包含所有制造节点整个智能制造系统的数据状态表示出来；

车间智能制造系统的实时状态数据蕴含各类关键生产逻辑，如果设定调度决策仅仅依据实时采集的当前系统状态，并且与过去的发展无关，这就使得以实时状态为决策的离散制造系统的自适应调度，具有一个马尔可夫决策过程(MDP)特征，基于车间离散制造系统的生产过程符合MDP的条件基础，将整个智能制造系统的数据状态视图根据车间生产作业过程的各个瞬间逐个表达出来，按照时间序列顺序连接，通过以下方式的时间序列顺序：

智能制造系统马尔科夫状态过程<系统的状态T1，系统的状态T2，......，系统的状态Tk>将智能制造系统制造节点的各个维度状态数据信息串联起来，形成符合车间生产顺序的数据状态，得到完整车间生产过程中制造物联网映射的马尔科夫状态视图及其状态演变。在实际实施时，会根据实际的收集到的数据，构建多个这种MDP状态过程的数据，以满足后期神经网络的训练需要。

为了充分利用制造数据中的价值，考虑强化学习中基于价值策略的思路来实现算法，通过神经网络训练，实现一个深度Q价值网络DQN作为深度知识来指导调度策略，首先进行神经网络训练样本数据的准备，随机获取状态建模后的数据，每一条数据中存在表征离散制造车间的制造节点的当前数据状态S、基于当前数据状态S所采取的调度策略动作A、当前数据状态S执行调度策略动作A后的奖励R、制造节点的下一个数据状态S+1及车间生产作业过程的末状态D，表示为<S,A,R,S+1,D>的格式，然后一次选取k条数据作为样本。

在本实施例中，离散制造车间的制造节点的当前数据状态S包括制造节点的忙闲状况、容量、忙时状态的节点正在操作的订单的数目以及订单编号；离散制造车间的制造节点的各个数据状态S按时间顺序串联成为完整的智能制造系统马尔科夫状态过程；调度策略动作A表达为<JOBID,MNID>，其中，JOBID表示某个订单编号的作业，MNID是某一个编号的节点，表达当前某一个作业JOBID在调度时选择在节点MNID上进行加工、流转或等待。R是当前的状态S执行了可选的某一个调度策略动作A之后，对这次动作的效果的一个评估值，它反映了系统对当前的状态去执行该动作的可取程度，可有正值或负值，其数值越大表示该动作越可取；D是一个固定的系统数据状态，也就是一个MDP过程结束的状态，此时所有的待加工的订单都已经完成。

在本实施例中，步骤S4所述的基于DDQN的当前目标Q网络包括负责动作获取的现实网络Current_Net和负责动作价值计算的目标网络Target_Net，现实网络Current_Net和目标网络Target_Net结构相同；以马尔科夫状态视图中制造节点的各个数据状态S作为当前目标Q网络的输入，以执行各个调度策略动作A的动作评估值Q作为当前目标Q网络的输出，各个调度策略动作A的动作评估值Q组成Q值表，某一调度策略动作A的动作评估值Q越大，调度策略动作的价值越大，合理性越高；

当前目标Q网络的训练过程为：

创建存储k条样本Q值数据的列表Q_batch，每条样本按照：

Q_i＝样本i的奖励R_i+GAMMA*样本i对应的Tar_Q值

正向传播过程：将k条样本中的当前数据状态S输入现实网络Current_Net，得到当前状态<S,A>的现实Q值，同时将k条样本所得k个现实Q值存入Current_Net_Q列表，用于损失函数计算；

反向传播过程：设损失函数Cost为：

Cost＝Q_batch-Current_Net_Q

利用优化器对损失函数进行优化计算，直至收敛；训练过程中，更新当前目标Q网络的频率为f，将现实网络Current_Net的参数每训练f步，更新一次目标网络Target_Net的参数，在本实施例中，f决定着DDQN算法训练的稳定性和快速性。相比DQN算法，引入目标Q网络可以增加算法的稳定性，考虑到车间制造的实际，如果车间的动态干扰性较弱，即车间的生产较少有加增订单或人员流动等情况，车间生产数据有相当的平稳性，那么可以考虑调小f，可以适当增加训练的算法的快速性；如果车间制造的动态性较强，时常有加增订单等突发事件，那么可以适当调大f，以使得训练算法具有更好的稳定性，得到训练好的深度目标Q网络。

在每次车间作业之前，基于历史数据和当前数据状态，按照以上的几个步骤训练若干次，一般至少训练上万次，以确保神经网络的有效性，训练完成深度目标Q网络作为自适应调度知识，用来指导车间的生产调度。

在本实施例中，将深度目标Q网络的输出表示为<S＇，A＇，Q，T>，构建JOB表(JOBID，MNID，Q，T)，JOB表(JOBID，MNID，Q，T)表征为一个按照时间T从小到大排序的矩阵，JOB表中的<JOBID，MNID>组合为调度策略动作A＇，具体的可参见表1。

表1

JOBID	MNID	Q	T
				5	8	25	1
4	9	10	2

其中，JOBID表示某个订单编号的作业，MNID是某一个编号的节点，<JOBID，MNID>表达当前某一个作业JOBID在调度时选择在节点MNID上进行加工、流转或等待。

在基于JOB表(JOBID，MNID，Q，T)的前提下，若JOB表(JOBID，MNID，Q，T)中时间T均不相等，将时间T最小时对应的调度策略动作A＇对应的<JOBID，MNID>选定为最优调度策略动作，作为下一步执行的调度动作，如果只有一个最小的时间T，那么说明该时间T对应的动作用时最小，最合适作为下一步执行的动作，无需用到Q值，可以直接执行，然后刷新JOB表；对应表1中，则选取时间T为1对应的<JOBID，MNID>，即<4，9>调度策略动作；若存在多个相等的最小时间T，选取动作评估值Q最大的调度策略动作A＇对应的<JOBID，MNID>作为最优调度策略动作。

重复步骤S5～S6，动态更新调度策略时，在时间T最小时对应的调度策略动作A＇对应的<JOBID，MNID>被选定为最优调度策略动作，且已执行后，JOB表(JOBID，MNID，Q，T)中的对应行删除，从而刷新JOB表(JOBID，MNID，Q，T)，直至JOB表(JOBID，MNID，Q，T)为空，构成了可以实时指导车间生产作业的基本推理机制，根据此推理机制，基于当前数据状态逐个选取当前最优的动作，得到最优的匹配数据。

如表2所示，JOB表(JOBID，MNID，Q，T)中前三行的时间T相等，表示当下的状态可以有多个调度策略动作可以执行，应当选择最有价值的动作，即根据最大Q值40对应的匹配动作<JOBID，MNID>，即<1，2>来执行。

表2

JOBID	MNID	Q	T
				0	1	15	0
1	2	40	0
				3	4	7	0
5	8	25	1
				4	9	10	2

然后刷新JOB表，即删去这一行数据；直到JOB表为空，表示存在0个匹配动作可以选择时，说明当下的系统已经生产完成。

综上，以制造节点的实时数据状态S＇作为输入，在车间生产过程中发生突发事件或者不确定性因素等动态事件导致生产执行困难的时候，深度目标Q网络，深度目标Q网络根据当下的实时数据状态进行匹配推演，生成调度策略动作对接下来的作业进行指导，无论是外界故障干扰还是人为调节，或者是正常的生产过程，都是会根据当前的状态，作出及时影响，从而得到最符合当下状态的生产策略，无需像传统调度算法一样需要进行全局搜索和全局重新调度，而是进行“一步一推理”的自适用动态调度，极大地节约了时间成本的同时提高了生产的效率。

实施例2

在本实施例中，对于实施例1中的车间生产作业数据，利用Agent模型采集，即配置采集车间生产作业数据信息的智能体Agent，对车间工业生产的流水线实时采集数据，Agent模型由智能车间的主动采集对象设备和被动采集对象设备封装而成，主动采集对象设备包括自动RFID采集设备或条码采集终端、智能设备工控下位机、PLC控制器、数据采集终端及能共享部分数据的应用系统；被动采集对象设备的被动采集对象包括通过添加RFID/自动ID标签进行绑定标识的工件、配件、物料、生产设备、工具及操作工人，Agent模型利用主动采集对象设备实时采集车间作业的数据，被动采集对象在车间生产作业过程中流转，自身已绑定标识的数据信息被主动采集对象捕捉，被动采集对象设备配合主动采集对象设备采集车间作业数据，并进行上报。

主动采集对象是指本具备了数据的采集、处理和传输的能力的节点，能够通过各类网络上报所采集的各种数据状态，共同构成车间制造数据主动抓取的采集渠道，这部分采集数据构建的智能对象能够根据车间作业生产的实际情况，实时采集车间作业的各种数据，并实时地主动上报并处理；各种不同类型的智能对象组成了车间制造系统的Multi-Agents系统，所有智能对象相互配合、协调、通信和服务，沟通完成对制造数据的采集工作。在此封装模型中，各类主动采集对象主要映射成为主动智能体Agent，实现对被动智能体进行读写和交互操作。工件、耗材等生产对象配备RFID标签，与生产工件、作业任务操作工人和监视员等进行绑定，这类被动采集的对象主要映射成为被动智能体Agent。在车间作业过程，被动智能体Agent在制造系统中流转时，与主动智能体Agent进行交互，实现车间制造物联网的数据实时采集管理平台；

主动采集对象和被动采集对象相互配合将车间制造计划与制造资源“人、机、物、法、环”的信息结合起来，进而对制造资源智能化标识、定位、跟踪、监控、管理和采集，从而满足了制造企业对车间调度指导等各种管理需要。

实施例3

如图2所示，本发明还提出一种基于DDQN的智能车间动态自适应调度系统，所述系统用于实现实施例1所示的基于DDQN的智能车间动态自适应调度方法，参见图2包括：

数据采集模块从生产作业中实时获取数据，实现对系统当前制造信息的感知，当车间稳定生产时，采集系统会实时采集当前的数据；当车间作业过程中有意外事件产生扰动时，采集系统也能够快速响应，实时采集数据并及时上报到预处理平台。实时采集到的各种维度的数据反应了车间制造的当前整体的实时状态，当前系统制造节点的忙闲状况、容量、忙时状态的节点正在操作的订单的数目以及订单编号等”人机物法环”各维度信息，成为系统的当前实时数据状态S＇，也包括上报至数据预处理及状态建模模块为算法训练准备(Q网络构建训练模块中)的车间生产作业历史数据，当前实时数据状态S＇在实时自适应调度准备模块可能存在多个作业的调度策略动作A＇可以选择，这里的调度策略动作A＇是基于当前实时状态下所预估的可选动作，是还未执行的，进行“一步一推理”的自适用动态调度，满足了智能车间生产制造的需求，具有深远的实际应用价值。

显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于DDQN的智能车间动态自适应调度方法，其特征在于，所述智能车间为搭建了物联网环境的离散制造车间，由工件加工工位、车间物流节点及工件缓存区的制造节点组成，所述方法包括以下步骤：

S1.采集车间生产作业数据；

S5.确定制造节点的实时数据状态S′，将实时数据状态S′作为训练好的深度目标Q网络的输入，得到基于当前实时数据状态S′所预估的可选调度策略动作A′以及实时数据状态S′采用调度策略动作A′进行调度作业所花费的时间T，并将时间T按照从小到大排序；

S6.若时间T均不相等，将时间T最小时对应的调度策略动作A′选定为最优调度策略动作，作为下一步执行的调度动作；若存在多个相等的最小时间T，选取动作评估值Q最大的调度策略动作A′作为最优调度策略动作；

2.根据权利要求1所述的基于DDQN的智能车间动态自适应调度方法，其特征在于，步骤S1中，利用Agent模型采集车间生产作业数据，Agent模型由智能车间的主动采集对象设备和被动采集对象设备封装而成，主动采集对象设备包括自动RFID采集设备或条码采集终端、智能设备工控下位机、PLC控制器、数据采集终端及能共享部分数据的应用系统；被动采集对象设备的被动采集对象包括通过添加RFID/自动ID标签进行绑定标识的工件、配件、物料、生产设备、工具及操作工人，Agent模型利用主动采集对象设备实时采集车间作业的数据，被动采集对象在车间生产作业过程中流转，自身己绑定标识的数据信息被主动采集对象捕捉，被动采集对象设备配合主动采集对象设备采集车间作业数据，并进行上报。

3.根据权利要求1所述的基于DDQN的智能车间动态自适应调度方法，其特征在于，步骤S1所述的采集的车间生产作业数据包括：车间操作工人的技术水平的数据、生产设备的工作状态的数据、待加工工件的信息数据、产品各种指标的精度和制造节点的上下游节点状态在内的“人、机、物、法、环”各种维度数据；

4.根据权利要求3所述的基于DDQN的智能车间动态自适应调度方法，其特征在于，步骤S2中所述的构建制造节点的多维数据状态，按时间序列顺序链接形成制造节点的马尔科夫状态视图的过程包括：

5.根据权利要求4所述的基于DDQN的智能车间动态自适应调度方法，其特征在于，离散制造车间的制造节点的当前数据状态S包括制造节点的忙闲状况、容量、忙时状态的节点正在操作的订单的数目以及订单编号；离散制造车间的制造节点的各个数据状态S按时间顺序串联成为完整的智能制造系统马尔科夫状态过程；调度策略动作A表达为<JOBID，MNID>，其中，JOBID表示某个订单编号的作业，MNID是某一个编号的节点，表达当前某一个作业JOBID在调度时选择在节点MNID上进行加工、流转或等待。

6.根据权利要求5所述的基于DDQN的智能车间动态自适应调度方法，其特征在于，步骤S4所述的基于DDQN的当前目标Q网络包括负责动作获取的现实网络Current_Net和负责动作价值计算的目标网络Target_Net，现实网络Current_Net和目标网络Target_Net结构相同；以马尔科夫状态视图中制造节点的各个数据状态S作为当前目标Q网络的输入，以执行各个调度策略动作A的动作评估值Q作为当前目标Q网络的输出，各个调度策略动作A的动作评估值Q组成Q值表，某一调度策略动作A的动作评估值Q越大，调度策略动作的价值越大，合理性越高；

当前目标Q网络的训练过程为：

创建存储k条样本Q值数据的列表Q_batch，每条样本按照：

Q_i＝样本i的奖励R_i+GAMMA*样本i对应的Tar_Q值

将k条样本中的当前数据状态S输入现实网络Current_Net，得到当前状态<S，A>的现实Q值，同时将k条样本所得k个现实Q值存入Current_Net_Q列表，用于损失函数计算；

设损失函数Cost为：

Cost＝Q_batch-Current_Net_Q

利用优化器对损失函数进行优化计算，直至收敛；训练过程中，更新当前目标Q网络的频率为乒将现实网络Current_Net的参数每训练f步，更新一次目标网络Target_Net的参数，得到训练好的深度目标Q网络。

7.根据权利要求6所述的基于DDQN的智能车间动态自适应调度方法，其特征在于，步骤S5中，将深度目标Q网络的输出表示为<S′，A′，Q，T>，构建JOB表(JOBID，MNID，Q，T)，JOB表(JOBID，MNID，Q，T)表征为一个按照时间T从小到大排序的矩阵，JOB表中的<JOBID，MNID>组合为调度策略动作A′。

8.根据权利要求7所述的基于DDQN的智能车间动态自适应调度方法，其特征在于，步骤S6中，在基于JOB表(JOBID，MNID，Q，T)的前提下，若JOB表(JOBID，MNID，Q，T)中时间T均不相等，将时间T最小时对应的调度策略动作A′对应的<JOBID，MNID>选定为最优调度策略动作，作为下一步执行的调度动作；若存在多个相等的最小时间T，选取动作评估值Q最大的调度策略动作A′对应的<JOBID，MNID>作为最优调度策略动作。

9.根据权利要求8所述的基于DDQN的智能车间动态自适应调度方法，其特征在于，步骤S7中所述重复步骤S5～S6，动态更新调度策略时，在时间T最小时对应的调度策略动作A′对应的<JOBID，MNID>被选定为最优调度策略动作，且己执行后，JOB表(JOBID，MNID，Q，T)中的对应行删除，从而刷新JOB表(JOBID，MNID，Q，T)，直至JOB表(JOBID，MNID，Q，T)为空。

10.一种基于DDQN的智能车间动态自适应调度系统，所述系统用于实现权利要求1所述的基于DDQN的智能车间动态自适应调度方法，其特征在于，包括：

实时自适应调度准备模块，用于确定制造节点的实时数据状态S′，将实时数据状态S′作为训练好的深度目标Q网络的输入，得到基于当前实时数据状态S′所预估的可选调度策略动作A′以及实时数据状态S′采用调度策略动作A′进行调度作业所花费的时间T，将时间T按照从小到大排序；

动态自适应调度匹配模块，在时间T均不相等时，将时间T最小时对应的调度策略动作A′选定为最优调度策略动作，作为下一步执行的调度动作；若存在多个相等的最小时间T时，选取动作评估值Q最大的调度策略动作A′作为最优调度策略动作；且动态更新调度策略，直至车间生产作业完成。