CN117314055A

CN117314055A - 基于强化学习的智能制造车间生产-运输联合调度方法

Info

Publication number: CN117314055A
Application number: CN202311157815.6A
Authority: CN
Inventors: 苑明海; 郑良; 毛柯夫; 裴凤雀; 顾文斌; 周凯文
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2023-09-08
Filing date: 2023-09-08
Publication date: 2023-12-29

Abstract

本发明公开了一种基于强化学习的智能制造车间生产‑运输联合调度方法，首先将状态空间扩展至包含了工件、机器和AGV的信息，能够全面地反映车间调度的实际情况；然后，改进了动作选择策略使其更专注于寻求最优解，同时设计了考虑AGV状态的三类调度规则，提高调度决策的有效性；综合考虑工件的运输时间对调度目标的影响以及车间加工“奖励罕见”的特性，提出两阶段奖惩机制，保证算法在训练过程中保持稳定性能；最后，通过仿真实验验证了该算法的可行性与有效性，将训练后的模型与单一调度规则对比，发现其在完工时间、运输时间与运输效率方面均占优。本发明解决了智能制造车间联合调度问题，证明了算法综合应用的合理性。

Description

基于强化学习的智能制造车间生产-运输联合调度方法

技术领域

本发明涉及一种基于强化学习的智能制造车间生产-运输联合调度方法，属于工业智能仿真技术领域。

背景技术

制造业是工业基础和国民经济的支柱。每一次的工业革命都推动人类生产方式发生根本性变革，而工业4.0则拉开了以智能制造为核心技术的新一轮工业革命的序幕。传统的车间调度问题研究中，许多学者未考虑零件在机器间的配送时间，这种假设与实际情况出入较大，特别是当零件在不同机器间的配送依赖于AGV(自动导向车)，并且配送时间与加工时间相当的情况下。因此需要重视零件在机器间的配送时间，特别是在AGV等智能设备的支持下，加工和物流的集成调度问题更加重要，需要通过综合考虑加工和配送任务的方式来优化车间调度，提高生产效率和减少成本。

随着产品组合的增加和产品生命周期的缩短，智能制造环境下车间中生产过程中不确定性和复杂性的急剧增加，约束条件复杂，现代制造业迫切需要决策时间短，抗干扰能力强的动态调度方法。与此同时国内外关于制造车间动态调度的研究也逐渐变多，以AGV作为智能制造车间中广泛应用的运输设备，对生产效率有着重要的影响，特别是工件在加工机器之间的运输时间，直接决定了车间的生产效率。为了更有效地完成物料运输和生产任务，许多学者致力于加工-运输联合调度问题。目前，在智能制造车间多资源调度方面，国内外的研究主要分为两个方面，即静态调度和动态调度。也有学者针对AGV在生产车间中存在的不同约束展开研究，如考虑了AGV的电量约束并设计了改进遗传算法进行求解；为了研究AGV充电问题与柔性制造单元的调度问题的关系，对机器、工件和AGV分别编码并改进遗传算法，模型经过验证可以减少充电的等待时间。

综上所述，不同学者在智能制造车间加工-运输联合调度研究方面展开了深入研究，但大多针对于静态车间环境，或以固定的运输时间为前提，未能紧密贴切实际生产状况。因此，如何提供一种动态适应性强、贴合实际生产的联合调度方法，是本领域技术人员急需要解决的技术问题。

发明内容

目的：为了克服现有技术中存在的不足，本发明提供一种基于强化学习的智能制造车间生产-运输联合调度方法，实现对智能制造车间生产-运输联合调度问题的建模、基于DDQN(双深度Q网络)的调度决策优化，为待加工工件选择合适的AGV进行运输以及合适的机器进行加工，以使得工件的最大完工时间最小化，充分提高智能制造车间的生产效率。

技术方案：为解决上述技术问题，本发明采用的技术方案为：

一种基于强化学习的智能制造车间生产-运输联合调度方法，包括以下步骤：

步骤1、构建智能制造车间调度环境模型，将智能制造车间调度优化问题转换为序列决策问题，以最小化最大完工时间为目标函数，建立马尔可夫决策过程(MDP)的强化学习模型{S_t,A,S_t+1,γ,R}，所述强化学习模型包括：主网络函数Q(s,a；ω)和目标价值函数

其中：S_t表示状态空间，A表示动作空间，S_t+1表示下一个状态空间，γ表示折扣因子，R表示奖励，s为状态，a为动作，ω为主网络函数Q卷积神经网参数的集合，ω'为目标价值函数卷积神经网络的参数集合。

步骤2、从智能制造车间调度环境模型中提取状态空间S，状态空间S包括：工件状态、设备状态、AGV状态。

步骤3、采用单一调度规则、复合调度规则以及自定义调度规则作为强化学习模型的动作空间A。

步骤4、使用改进ε-greedy策略在动作空间A中选择动作a。

步骤5、根据智能制造车间调度环境模型观测得到当前状态s，根据当前状态s和执行动作a得到车间的新状态s'，将当前状态s和新状态s'作为调度决策的结果。

步骤6、根据奖励函数R(t)对调度决策的结果进行评价，得到奖励r。

步骤7、将{s,a,r,s'}作为样本存入经验回放池D。

步骤8、从经验回放池D中随机采样得到训练样本{s_j,a_j,r_j,s_j′}。

步骤9、初始化Q(s,a；ω₀)、根据训练样本{s_j,a_j,r_j,s_j′}上计算TDtarget的值y_j。

步骤10、根据y_j计算损失函数的值L(ω)。

步骤11、使用随机梯度下降的方式更新主网络Q参数ω的值，使得损失函数L(ω)的值最小，输出主网络Q参数ω。

步骤12、每经过C次循环后使用主网络Q参数ω更新目标网络的参数ω'，ω'＝ω，得到训练好的强化学习模型。

步骤13、利用训练好的强化学习模型根据动作a进行车间生产和运输的分配。

作为优选方案，还包括：步骤14、更新步骤4中改进ε-greedy策略的参数ε。

作为优选方案，改进ε-greedy策略的计算公式如下：

其中：n_iter为迭代次数，M、N为常数，a′表示下一个动作，Q(a')表示下一个主网络Q值。

作为优选方案，奖励函数的计算公式如下：

其中，s表示当前状态，a表示选择动作，s'表示下一个状态，C(s)表示当前状态的完工时间，C(s')表示下一个状态的完工时间，C(best)为历史最优的完工时间，PLT表示任务的加工时间和运输时间之和，表示加工任务未完成，表示加工任务已完成，α、β为奖励系数，P_ijk为决策变量，表示工件i的第j道工序是否在机器k上加工，n、n_i、m、NO分别表示工件的数量、工件i的工序的数量、机器的数量、所有机器的总工序数量。

作为优选方案，y_j的计算公式如下：

其中，r_j表示第j个样本的奖励，γ表示折扣因子，a′表示下一个动作，φ(s'_j)表示第j个样本的下一个状态特征矩阵。

作为优选方案，L(ω)的计算公式如下：

其中，M为训练样本的数量，φ(s_j)表示第j个样本的状态特征矩阵。

作为优选方案，所述智能制造车间调度环境模型，包括：将智能制造车间描述为车间内会陆续到达若干加工任务，加工任务中存在n个工件，每个工件i由n_i个工序组成，车间内存在m台机器，w台运输能力相同的AGV，AGV将工件在机器之间运输，工件工序的实际加工时间、完工时间、机器状态信息通过信息智能采集系统获得。所有工件的所有工序都可被一台或多台机器加工，但不同的加工设备完成同样的加工工序的加工时间各不相同。工件可由任意一台AGV运输，不同AGV运输工件的时间各不相同。

作为优选方案，所述智能制造车间调度优化问题做出如下假设：

(1)、零时刻时，各个工件和设备处于就绪状态。

(2)、每个工件同时只能在一台设备上进行加工。

(3)、一个操作一旦开始就不允许被中断。

(4)、该工件所有工序加工时间总和应小于该工件的完工时间。

(5)、同一工件的工序之间有先后顺序约束。

(6)、完成所有之前工序的工件才能开始当前待加工工件的加工。

(7)、忽略工件在机器之间的安装时间。

(8)、每个机器的缓冲区足够大，可放置所有工件。

(9)、AGV会在达到电量警戒值时且空闲时返回充电区充电并等待新任务。

(10)、每台AGV一次只能接受一个任务。

(11)、AGV在完成当前任务之后才能执行下一个任务。

(12)、每台AGV低于电量阈值且空闲时直接返回充电区，不再接受任务。

(13)、搬运任务的起始节点与目标节点不能相同。

(14)、接受任务的AGV不能在同一时间、同一节点同时出发。

(15)、完成任务且电量充足的AGV于原地等待任务发布。

作为优选方案，所述智能制造车间调度环境模型的约束条件如下所示：

(1)、每台设备一次只能处理一个工件的工序。

(2)、工件i的第1个工序开始加工时刻大于到达系统时刻，第j个工序开始加工时刻大于到达设备k的时刻。

(3)、工件i的第j个工序的完工时刻大于其开始加工时刻与设备k加工此工序的加工时间，亦即工件一旦加工就不可被中断。

(4)、工件i只能在被分配到空闲的设备k时才能加工，否则需要等待该设备当前任务加工结束。

(5)、设备k的开始加工时刻不小于被加工工件i上一工序加工结束时刻与该设备上一操作的结束时刻。

(6)、工件i任意一道工序最多只由一台AGVa负责运输。

(7)、某一时刻一个AGV只能处理一个加工任务，工件i开始加工的时间大于等于AGV负载运行的结束时间。

(8)、一个AGV在某一时刻只能运送一个加工任务，空载的出发时间不早于该AGV上一任务的结束时间。

(9)、AGV的空载结束时间为空载的开始时间与运行时间之和。

(10)、AGV载开始的时间不早于空载到达的时间与工件i上一个工序结束加工时间中的较大值。

(11)、AGV负载结束的时间不早于开始的时间加从工件i的上一个工序加工位置到当前工序加工的位置所需的时间。

(12)、工件i₁某工序j₁的开工时间不早于AGV负载结束时刻和机器k加工工件i₂当前工序j₂的完工时间。

(13)、任意时刻车间地图内任意一个节点上最多存在一台AGV。

作为优选方案，所述状态空间S_t通过φ＝{f₁,f₂,f₃,f₄,f₅,f₆,f₇,f₈}向量表示。

其中，f₁表示工件平均完成率，f₂表示工件平均延误率，f₃表示工件总工序完成率，f₄表示设备平均利用率，f₅表示设备平均延误率，f₆表示AGV利用率，f₇表示AGV平均电量，f₈表示AGV任务延误率。

作为优选方案，所述单一调度规则，包括：优先加工剩余工序平均加工时间最短的工件、优先加工下一工序平均加工时间最短的工件、优先加工待加工工件处理时间短的工件和优先加工待加工工件等待时间短的工件。

所述复合调度规则，包括：优先加工当前工序与所有工序平均处理时间之比最短的工件、优先加工当前工序与剩余工序平均处理时间之比最短的工件和优先加工当前工序与下一工序平均处理时间之和最短的工件。

自定义调度规则，包括：选择最短加工时间的机器和运输时间的AGV、选择空闲的机器和AGV、选择利用率最低的机器和AGV和选择延迟最低的机器和AGV。

有益效果：本发明提供的一种基于强化学习的智能制造车间生产-运输联合调度方法，首先将状态空间扩展至包含了工件、机器和AGV的信息，能够全面地反映车间调度的实际情况；然后，改进了动作选择策略使其更专注于寻求最优解，同时设计了考虑AGV状态的三类调度规则，提高调度决策的有效性；综合考虑工件的运输时间对调度目标的影响以及车间加工“奖励罕见”的特性，提出两阶段奖惩机制，保证算法在训练过程中保持稳定性能；最后，通过仿真实验验证了该算法的可行性与有效性，将训练后的模型与单一调度规则对比，发现其在完工时间、运输时间与运输效率方面均占优。

本发明针对制造企业的智能生产线，基于工件、设备和AGV的状态数据，运用优化复合调度规则的DDQN算法解决了智能制造车间联合调度问题，证明了算法综合应用的合理性。

附图说明

图1为本发明中一种基于DDQN的智能制造车间生产-运输联合调度方法架构图；

图2为本发明中车间AGV执行运输任务流程图；

图3为本发明中一种基于DDQN的智能制造车间生产-运输联合调度模型训练效果图；

图4为本发明中一种基于DDQN的智能制造车间生产-运输联合调度方法的调度效果图；

具体实施方式

下面结合本发明实例中的附图，对本发明实例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

下面结合具体实施例对本发明作更进一步的说明。

在车间调度中完工时间是指每个工件最后一道工序完成的时间，其中最大的那个完工时间就是最大完工时间，本发明调度方法的目的就是使得最大完工时间最小化，从而提高生产效率。

为了实现上述目的，如图1所示，本发明提供一种基于强化学习的智能制造车间生产-运输联合调度方法，包括以下步骤：

步骤1、构建智能制造车间调度环境模型，将智能制造车间调度优化问题转换为序列决策问题，以最小化最大完工时间为目标函数，建立马尔可夫决策过程(MDP)的强化学习模型{S_t,A,S_t+1,γ,R}，所述强化学习模型包括：主网络函数Q(s,a,ω)和目标价值函数

步骤2、从智能制造车间调度环境模型中提取状态空间S，状态空间S包括：工件状态、设备状态、AGV状态，由三个状态8个通道的矩阵组成。

步骤3、采用4种单一调度规则、3种复合调度规则以及4种自定义调度规则作为强化学习模型的动作空间A。

步骤4、使用改进ε-greedy策略在动作空间A中选择动作a。

其中，

其中：n_iter为迭代次数，M、N为常数，模型收敛速度随M增大而增大，而N越大，模型大概率选择“探索”策略的时间段越长。

在不考虑AGV的车间调度问题求解过程中，经常会出现某一工件的工序在一台设备上加工完后，下一刻出现在另一台设备加工下一工序的现象，即忽略了工件的运输时间。此现象忽略了现实因素，但又是加工过程的最优情况，基于此，为了在非终止步骤对奖励进行间接的映射，设计了如下所示的奖励函数。

其中，s表示当前状态，a表示选择动作，s'表示下一个状态，C(s)表示当前状态的完工时间，C(s')表示下一个状态的完工时间，C(best)为历史最优的完工时间，PLT表示任务的加工时间和运输时间之和，表示加工任务未完成，表示加工任务已完成。C(s')-C(s)表示当前状态与下一个状态的完工时间之差，即任务剩余时间的减少量。α、β为奖励系数。P_ijk为决策变量，表示工件i的第j道工序是否在机器k上加工的状态，等于1时，为在机器k上加工。n、n_i、m、NO分别表示工件的数量、工件i的工序的数量、机器的数量、所有机器的总工序数量。

步骤7、将{s,a,r,s'}作为样本存入经验回放池D。

步骤10、计算损失函数的值L(ω)。

进一步的，还包括：步骤14、更新步骤4中改进ε-greedy策略的参数ε。

进一步地，如图2所示，所述智能制造车间调度环境模型，用于将智能制造车间描述为车间内会陆续到达若干加工任务，加工任务中存在n个工件，每个工件i由n_i个工序组成，车间内存在m台机器，w台运输能力相同的AGV，AGV将工件在机器之间运输，工件工序的实际加工时间、完工时间、机器状态信息通过信息智能采集系统获得。所有工件的所有工序都可被一台或多台机器加工，但不同的加工设备完成同样的加工工序的加工时间各不相同。工件可由任意一台AGV运输，不同AGV运输工件的时间各不相同。

进一步地，所述智能制造车间调度优化问题做出如下假设：

(1)、零时刻时，各个工件和设备处于就绪状态。

(2)、每个工件同时只能在一台设备上进行加工。

(3)、一个操作一旦开始就不允许被中断。

(5)、同一工件的工序之间有先后顺序约束。

(7)、忽略工件在机器之间的安装时间。

(8)、每个机器的缓冲区足够大，可放置所有工件。

(10)、每台AGV一次只能接受一个任务。

(11)、AGV在完成当前任务之后才能执行下一个任务。

(13)、搬运任务的起始节点与目标节点不能相同。

(14)、接受任务的AGV不能在同一时间、同一节点同时出发。

(15)、完成任务且电量充足的AGV于原地等待任务发布。

进一步地，所述步骤1中，目标函数为：

进一步地，所述步骤1中，所述智能制造车间调度环境模型的约束条件如下所示：

(1)、每台设备一次只能处理一个工件的工序。

(6)、工件i任意一道工序最多只由一台AGVa负责运输。

(9)、AGV的空载结束时间为空载的开始时间与运行时间之和。

(13)、任意时刻车间地图内任意一个节点上最多存在一台AGV。

进一步地，所述步骤2中，状态空间包括工件状态、设备状态以及AGV状态，由8个通道的矩阵组成，如表3所示，状态空间S_t通过φ＝{f₁,f₂,f₃,f₄,f₅,f₆,f₇,f₈}向量表示。

表3参数说明表

进一步地，所述步骤3中，4种单一调度规则和3种复合调度规则如表4所示。

表4调度规则说明表

进一步地，所述步骤3中，4种自定义调度规则：包括：自定义调度规则SPTT(选择最短加工时间的机器和运输时间的AGV)，自定义调度规则IMA(表示选择空闲的机器和AGV)，自定义调度规则LUMA(选择利用率最低的机器和AGV)，自定义调度规则LDMA(选择延迟最低的机器和AGV)。具体如表5、表6、表7和表8所示。

表5自定义调度规则SPTT

/>

表6自定义调度规则IMA

/>

表7自定义调度规则LUMA

/>

表8自定义调度规则LDMA

进一步地，所述步骤4中，所述改进的动作选择策略使用反余切函数改进了ε-贪婪选择策略，随着迭代次数的增加，agent选择探索策略的概率会按照y＝arccot(x)的曲线变化。

实施例1：

为了验证本文所提基于DDQN的车间联合调度模型，将十个案例集运用所提算法通过15000次的迭代训练，以使得智能体充分在环境中学习到知识和经验，并每隔5次提取一次奖励值后得到如图3所示的DDQN训练迭代图，为了便于观察变化趋势，图中黄色曲线为使用S-G滤波器拟合曲线后的结果。由图中可以看出，随着训练次数的增加，奖励值首先大幅震荡，在5000次之后震荡幅度降低。奖励值总体呈上升趋势，最终平均值稳定在110左右。由于深度强化学习环境的随机性，在训练后期仍然存在一些较小奖励值。在7500次训练之后，总体情况已经稳定下来，并产生了比开始时更好的结果。这表明智能体已经学会了在不断变化的车间状态中选择合适的调度规则，使模型学习过程稳定。

将训练后强化学习模型求解job set 5实例，得到如图4所示的本方法最优解甘特图。由图中可知该实例的最大完工时间为94s。

其中a1、a2为AGV任务调度，K1至K8为机器任务调度。AGV任务调度中蓝色为负载，框下代号为目标节点。机器调度中同颜色框属同一工件，框下代号为工序代号。工件加工的时间不存在重叠现象，且AGV不同任务的时间安排之间几乎没有空闲，说明智能体对该实例的任务安排合理。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于强化学习的智能制造车间生产-运输联合调度方法，其特征在于：包括以下步骤：

其中：S_t表示状态空间，A表示动作空间，S_t+1表示下一个状态空间，γ表示折扣因子，R表示奖励，s为状态，a为动作，ω为主网络函数Q卷积神经网参数的集合，ω'为目标价值函数卷积神经网络的参数集合；

步骤2、从智能制造车间调度环境模型中提取状态空间S，状态空间S包括：工件状态、设备状态、AGV状态；

步骤3、采用单一调度规则、复合调度规则以及自定义调度规则作为强化学习模型的动作空间A；

步骤4、使用改进ε-greedy策略在动作空间A中选择动作a；

步骤5、根据智能制造车间调度环境模型观测得到当前状态s，根据当前状态s和执行动作a得到车间的新状态s'，将当前状态s和新状态s'作为调度决策的结果；

步骤6、根据奖励函数R(t)对调度决策的结果进行评价，得到奖励r；

步骤7、将{s,a,r,s'}作为样本存入经验回放池D；

步骤8、从经验回放池D中随机采样得到训练样本{s_j,a_j,r_j,s_j′}；

步骤9、初始化Q(s,a；ω₀)、根据训练样本{s_j,a_j,r_j,s_j′}上计算TD target的值y_j；

步骤10、根据y_j计算损失函数的值L(ω)；

步骤11、使用随机梯度下降的方式更新主网络Q参数ω的值，使得损失函数L(ω)的值最小，输出主网络Q参数ω；

步骤12、每经过C次循环后使用主网络Q参数ω更新目标网络的参数ω'，ω'＝ω，得到训练好的强化学习模型；

2.根据权利要求1所述的一种基于强化学习的智能制造车间生产-运输联合调度方法，其特征在于：还包括：步骤14、更新步骤4中改进ε-greedy策略的参数ε。

3.根据权利要求1或2所述的一种基于强化学习的智能制造车间生产-运输联合调度方法，其特征在于：改进ε-greedy策略的计算公式如下：

4.根据权利要求1或2所述的一种基于强化学习的智能制造车间生产-运输联合调度方法，其特征在于：奖励函数的计算公式如下：

其中，s表示当前状态，a表示选择动作，s'表示下一个状态，C(s)表示当前状态的完工时间，C(s')表示下一个状态的完工时间，C(best)为历史最优的完工时间，PLT表示任务的加工时间和运输时间之和，表示加工任务未完成，/>表示加工任务已完成，α、β为奖励系数，P_ijk为决策变量，表示工件i的第j道工序是否在机器k上加工，n、n_i、m、NO分别表示工件的数量、工件i的工序的数量、机器的数量、所有机器的总工序数量。

5.根据权利要求1或2所述的一种基于强化学习的智能制造车间生产-运输联合调度方法，其特征在于：y_j的计算公式如下：

6.根据权利要求5所述的一种基于强化学习的智能制造车间生产-运输联合调度方法，其特征在于：L(ω)的计算公式如下：

7.根据权利要求1或2所述的一种基于强化学习的智能制造车间生产-运输联合调度方法，其特征在于：所述智能制造车间调度环境模型，包括：将智能制造车间描述为车间内会陆续到达若干加工任务，加工任务中存在n个工件，每个工件i由n_i个工序组成，车间内存在m台机器，w台运输能力相同的AGV，AGV将工件在机器之间运输，工件工序的实际加工时间、完工时间、机器状态信息通过信息智能采集系统获得；所有工件的所有工序都可被一台或多台机器加工，但不同的加工设备完成同样的加工工序的加工时间各不相同；工件可由任意一台AGV运输，不同AGV运输工件的时间各不相同。

8.根据权利要求7所述的一种基于强化学习的智能制造车间生产-运输联合调度方法，其特征在于：所述智能制造车间调度环境模型的约束条件，包括：

(1)、每台设备一次只能处理一个工件的工序；

(2)、工件i的第1个工序开始加工时刻大于到达系统时刻，第j个工序开始加工时刻大于到达设备k的时刻；

(3)、工件i的第j个工序的完工时刻大于其开始加工时刻与设备k加工此工序的加工时间，亦即工件一旦加工就不可被中断；

(4)、工件i只能在被分配到空闲的设备k时才能加工，否则需要等待该设备当前任务加工结束；

(5)、设备k的开始加工时刻不小于被加工工件i上一工序加工结束时刻与该设备上一操作的结束时刻；

(6)、工件i任意一道工序最多只由一台AGVa负责运输；

(7)、某一时刻一个AGV只能处理一个加工任务，工件i开始加工的时间大于等于AGV负载运行的结束时间；

(8)、一个AGV在某一时刻只能运送一个加工任务，空载的出发时间不早于该AGV上一任务的结束时间；

(9)、AGV的空载结束时间为空载的开始时间与运行时间之和；

(10)、AGV载开始的时间不早于空载到达的时间与工件i上一个工序结束加工时间中的较大值；

(11)、AGV负载结束的时间不早于开始的时间加从工件i的上一个工序加工位置到当前工序加工的位置所需的时间；

(12)、工件i₁某工序j₁的开工时间不早于AGV负载结束时刻和机器k加工工件i₂当前工序j₂的完工时间；

(13)、任意时刻车间地图内任意一个节点上最多存在一台AGV。

9.根据权利要求1或2所述的一种基于强化学习的智能制造车间生产-运输联合调度方法，其特征在于：所述状态空间S_t通过φ＝{f₁,f₂,f₃,f₄,f₅,f₆,f₇,f₈}向量表示。

10.根据权利要求1或2所述的一种基于强化学习的智能制造车间生产-运输联合调度方法，其特征在于：所述单一调度规则，包括：优先加工剩余工序平均加工时间最短的工件、优先加工下一工序平均加工时间最短的工件、优先加工待加工工件处理时间短的工件和优先加工待加工工件等待时间短的工件；

所述复合调度规则，包括：优先加工当前工序与所有工序平均处理时间之比最短的工件、优先加工当前工序与剩余工序平均处理时间之比最短的工件和优先加工当前工序与下一工序平均处理时间之和最短的工件；