CN112836974A

CN112836974A - 一种基于dqn和mcts的箱区间多场桥动态调度方法

Info

Publication number: CN112836974A
Application number: CN202110163011.1A
Authority: CN
Inventors: 沈磊; 朱瑾
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-05-25
Anticipated expiration: 2041-02-05
Also published as: CN112836974B

Abstract

本发明公开了一种基于DQN和MCTS的箱区间多场桥动态调度方法，采用DQN对多场桥动态调度模型进行训练，以得到具有在随机干扰下做出最优决策能力的深度Q网络，并利用深度Q网络引导MCTS进行堆场箱区间多场桥在线决策，给出场桥下一步的调度决策。本发明通过强化学习方法使多场桥动态调度模型自主探索堆场环境，生成大量学习样本，解决了场桥调度真实样本缺乏、难以获取的问题，同时将MCTS与DQN相结合求解箱区间多场桥动态调度问题，在线给出每一步最优调度决策，提高了决策方案在不确定干扰下的鲁棒性。

Description

一种基于DQN和MCTS的箱区间多场桥动态调度方法

技术领域

本发明涉及集装箱码头装卸设备调度领域，尤其涉及一种基于DQN和MCTS的箱区间多场桥动态调度方法。

背景技术

集装箱吞吐量逐年增长，集装箱船舶趋于大型化和高速化对码头的装卸效率提出了更高的挑战。目前港口运营的关键从岸边转向堆场，而场桥作为堆场的核心装卸设备，其调度效率的高低关系着港口的运营成本和作业周期，已经成为制约堆场生产的瓶颈环节。

堆场内场桥作业的主要内容包括集装箱任务的堆箱操作和卸箱操作。在给定堆场调度资源和集装箱任务信息下，根据调度目标确定计划期内场桥的最优运行路径和集装箱任务作业次序称为场桥调度问题。场桥调度问题的核心可以归结为两部分决策，即(1)每个集装箱任务被分配的场桥和被服务的顺序；(2)每个集装箱任务的开始被服务时间。箱区间多场桥调度问题在单箱区内场桥调度的基础上考虑多个场桥在箱区间的合理资源共享，涉及场桥间的非交叉穿越、安全距离、作业量平衡等复杂约束，属于NP-Hard问题。此外，由于场桥造价昂贵、惯性大，90度转场花费的成本较高，在考虑任务箱组作业周期的同时，场桥在箱区间的移动代价也是影响任务箱组开始处理时间和调度决策的重要因素。实际生产过程中，场桥作业还会受到例如船舶到港时间延迟，场桥故障，新任务箱组随机到达等诸多不确定性因素的影响，不确定性干扰会严重降低场桥作业的效率，甚至导致预先制定的调度方案不可行。

目前，国内外求解箱区间多场桥调度问题的方法中，精确算法只局限于小规模问题且对问题的具体模型有一定要求；启发式和元启发式算法因能在多项式时间内获得问题的近优解成为工程上求解箱区间多场桥调度问题的主流方法；然而箱区间多场桥调度决策过程具有多目标性和不确定性等特点，启发式和元启发式算法把箱区间多场桥调度过程看作确定条件下的整体来全局考虑，即便对于动态调度问题元启发式也是将动态问题转化为几个静态的子问题通过遗传算法、模拟退火算法等智能优化算法分别求解。这种方法计算时间较长，调度方案的生成具有一定的滞后性，面对高频的不确定干扰，调度效果不理想，系统的稳定性无法保证。调度规则作为实际码头堆场装卸操作的常用调度策略，根据既定的规则在每个决策时刻给场桥分配集装箱任务，虽然调度效果一般，但是能够对动态事件实时响应，从而实现最佳的时间效率。大量研究表明多种简单调度规则的线性或随机组合在处理大规模、不确定干扰下的动态调度问题中更有优势。

为了在每个决策点找到合适的调度规则，需要将箱区间多场桥调度问题建模为马尔可夫决策过程(Markov DecisionProcess，MDP)，对问题进行多阶段序贯决策，在每个决策阶段，根据当前系统的状态，进行实时分析，给出下一步的最优决策。近年来，蒙特卡洛树搜索(Monte-Carlo Tree Search，MCTS)和强化学习(Reinforcement Learning，RL)已成为应对MDP的有效方法。然而面对状态空间规模无限的情况，传统的强化学习方法如Q-learning存在维数灾难的问题，Q表无法维护。因此，在状态空间规模巨大的情况下如何根据不同决策阶段场桥的实时分配情况和不确定干扰，在线给出最优的调度规则组合显得尤为重要。

发明内容

针对现有技术中元启发式处理扰动耗时长、重调度后因频繁调整导致调度方案稳定性差，以及传统强化学习在面对大规模状态空间输入时的局限性问题，本发明提供了一种基于DQN和MCTS的箱区间多场桥动态调度方法。

所述一种基于DQN和MCTS的箱区间多场桥动态调度方法，包含以下步骤：

S1、利用马尔科夫决策过程建立多场桥动态调度模型，并确定模型的关键约束；

S2、将待处理任务箱的总延迟时间最小化作为多场桥动态调度模型的目标函数，并设计奖励函数；

S3、采用多组状态特征描述场桥调度系统状态，并选取调度规则确定当前时刻场桥调度系统状态的候选动作集；

S4、采用DQN并结合场桥调度系统的状态、候选动作集以及奖励函数，对多场桥动态调度模型进行训练，得到具有在随机干扰下做出最优决策能力的深度Q网络；

S5、利用深度Q网络引导MCTS进行堆场箱区间多场桥在线决策，给出场桥下一步的调度决策。

进一步地，所述多场桥动态调度模型的关键约束包含但不限于安全距离约束、作业量平衡约束以及场桥转场约束；

其中，安全距离约束的表达式为：

作业量平衡约束的表达式为：

场桥转场约束的表达式为：

式中，

表示t时刻场桥k的位置是否处于x贝位，当

时，表示t时刻场桥k位于x贝位处；否则

D_safe为同箱区内的任意两台场桥间相隔的最小安全贝位，给场桥运行预留缓冲，避免由于惯性发生碰撞和场桥间相互跨越的现象；

表示任务箱组i是否分配给场桥k；g为任意场桥间作业量差值的上限；t_ij表示场桥在两个任务箱组间的移动时间，α_ij表示场桥从任务箱组i的作业位置移动到任务箱组j的作业位置的过程中是否需要进行90度转场操作，当α_ij＝1时，任务箱组i和任务箱组j所在箱区位于不同行，场桥需要经过两次90度转场进行作业，当α_ij＝0时，两相邻任务箱组所处箱区位于同一行，场桥不需要经过90转场进行作业；V_h为场桥的水平移动速度，是一个常量；T_turn为场桥90度转场所需要的时间。

进一步地，步骤S2中奖励函数的公式为：

式中，δ_i为t时刻决策前各场桥分配作业任务箱组的实际完成时间；δ_j'为t时刻执行决策动作a_t后各场桥已完成作业任务箱组的实际完成时间；d_i为预约任务箱组i的预计完成时间，是已知常量；Φ_r表示从初始时刻到决策时刻t各场桥分配作业的任务箱组集合；n₁，n₂分别为决策前后各场桥分配作业的任务箱组数量。

进一步地，步骤S3中的所述多组状态特征包含：场桥已完成任务量与总任务量之比、待处理任务序列长度、场桥已完成任务箱组的平均延迟时间、场桥当前作业任务箱组的剩余处理时间、待处理任务序列中场桥作业的最短延迟时间以及待处理任务序列中场桥作业的最大移动距离，上述多组状态特征共同形成了某时刻下场桥调度系统的状态；

所述调度规则包含但不限于先到先服务规则、就近规则、最早预期完成时间规则、最短作业时间规则，以及就近规则与最早预期完成时间规则的组合规则。

进一步地，步骤S4中采用DQN对多场桥动态调度模型进行训练，包含以下步骤：

A：初始化经验回放记忆体、深度Q网络及其参数θ、目标网络

及其参数θ^-，设置目标网络更新步数、经验回放记忆体样本数量阈值、所有任务箱组决策完毕的终止时间以及最大训练迭代次数；

B：将场桥调度系统当前时刻的状态变量经卷积神经网络特征处理映射到高维状态空间，得到预处理后的场桥调度系统当前时刻的状态变量；

C：从候选动作集中选择一个调度规则执行场桥调度，并更新待处理任务箱组序列及场桥调度系统状态，同时将场桥调度系统的新状态映射到高维空间得到预处理后的新状态变量，并计算场桥调度系统状态转变所获得的及时奖励；

D：将上述步骤B、C产生的场桥调度系统预处理后当前时刻的状态变量、下一时刻的状态变量以及调度规则与及时奖励组成的样本储存到经验回放记忆体中，并判断经验回放记忆体中的样本数量是否大于其阈值；若是，则执行步骤E；否则，重复执行步骤B-C；

E：从经验回放记忆体中采样一定数量的样本计算目标网络的期望状态动作函数值；

F：以目标网络的期望状态动作函数值作为标签，深度Q网络输出当前预测的Q值，并根据平方目标偏差对深度Q网络参数进行梯度下降和反向传播求解；

G：深度Q网络每更新一定步数后，将深度Q网络的参数赋给目标网络

H：判断场桥调度系统中的任务箱组是否调度完毕，若是，则执行步骤I，否则，重复执行步骤B-H；

I：判断是否达到最大训练迭代次数，若是，则结束训练，输出深度Q网络参数；否则，重复执行步骤B-I。

进一步地，所述步骤C中，采用ε-贪心策略从候选动作集中选取一个当前最优调度规则，其计算公式为：

式中，a_t为最优调度规则，A为候选动作集，rand是一个范围在[0，1]的随机数；Q(φ(s_t),a；θ)为当前迭代步长下的状态动作Q网络，θ为网络参数，其蕴含当前迭代步长下所有状态的Q值更新结果。

进一步地，所述步骤S5具体包含以下步骤：

S5.1、MCTS中以子节点中的最大模拟结果加上根节点到当前叶节点所完成任务箱组的累计延迟时间作为节点评估值；

S5.2、采用子树修建技术对MCTS中的子节点进行扩展；

S5.3、深度Q网络根据当前扩展子节点状态信息进行快速估算，并选择最大状态动作值所对应的任务箱组延迟时间作为当前扩展子节点模拟结果；

S5.4，将扩展子节点的模拟结果反向回溯传播，直至传播至给根节点；

S5.5、重复执行步骤S5.1-S5.4，直至所有的任务箱组都被分配给对应的场桥进行作业完成一次迭代搜索，并结合多次并行迭代搜索的结果实时给出下一步的场桥调度决策。

进一步地，所述步骤S5.1中节点评估值的计算公式为：

式中，max(Q_i)表示节点i的所有模拟结果中最大的评估值Q，τ₁表示根节点状态到当前叶节点状态所完成任务箱组的累计延迟时间，τ₂表示子节点中的最大模拟结果，

表示评估值。

本发明具有以下优势:

本发明通过马尔可夫决策过程对箱区间多场桥调度问题进行建模，将其转化为多阶段实时决策问题，根据决策时刻调度系统的当前状态实时给出相应的最优调度方案，更加符合实际的生产情况。

本发明采用DQN对不同堆场状态下的最优调度策略进行训练，通过强化学习方法使agent自主探索堆场环境，生成大量学习样本，解决了场桥调度真实样本缺乏、难以获取的问题，为深度神经网络拟合状态动作价值函数提供了有利条件。

本发明利用调度规则对堆场任务和场桥状态的候选动作集进行分割，不仅能够缩小算法行为动作空间，提高算法学习效率，还能够对突发干扰进行及时响应，实时给出随机干扰下的场桥调度方案。

本发明将MCTS对大规模问题的强大搜索能力与DQN实时预测相结合用于求解箱区间多场桥动态调度问题，嵌入改进的上限置信区间算法选择策略，以最优模拟结果代替均值作为节点评估指标，充分利用优秀的历史经验，在线给出每一步最优调度决策，提高了决策方案在不确定干扰下的鲁棒性。

附图说明

图1为堆场多箱区的布局示意图；

图2为一种基于DQN和MCTS的箱区间多场桥动态调度方法的流程图；

图3为堆场箱区间多场桥调度DQN网络结构图；

图4为采用子树修剪技术对子节点进行扩展的原理图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比率，仅用以方便、明晰地辅助说明本发明实施例的目的。

本发明涉及转场操作的多箱区间多场桥调度问题，为减小计算复杂度，引入任务箱组的概念，将来自同一条船舶的集装箱任务或处于同一堆块相邻贝位间可以被集中装卸的一批集装箱任务定义为一个任务箱组，不考虑翻箱操作的问题，任务箱组作为场桥的最小作业单位。堆场所箱区的布局如图1所示。

如图2所示，本发明提出的一种基于DQN和MCTS的箱区间多场桥动态调度方法，包含以下步骤：

S1、利用马尔科夫决策过程建立多场桥动态调度模型，并确定模型的关键约束。

具体地，本发明利用马尔科夫决策过程建立堆场箱区间场桥调度系统的多场桥动态调度模型，将自动化码头堆场箱区间多场桥调度问题转化为强化学习框架下的多阶段序贯决策问题，根据决策时刻场桥调度系统当前时刻的状态实时给出相应的最优调度方案，更加符合实际的生产情况。

所述关键约束包含安全距离约束、作业量平衡约束以及场桥转场约束。

其中，安全距离约束的表达式为：

作业量平衡约束的表达式为：

场桥转场约束的表达式为：

式中，

表示t时刻场桥k的位置是否处于x贝位，当

时，表示t时刻场桥k位于x贝位处；否则

表示任务箱组i是否分配给场桥k；g为任意场桥间作业量差值的上限；t_ij表示场桥在两个任务箱组间的移动时间，α_ij表示场桥从任务箱组i的作业位置移动到任务箱组j的作业位置的过程中是否需要进行90度转场操作，当α_ij＝1时，任务箱组i和任务箱组j所在箱区位于不同行，场桥需要经过两次90度转场进行作业，当α_ij＝0时，两相邻任务箱组所处箱区位于同一行，场桥则不需要经过90转场进行作业；V_h为场桥的水平移动速度，是一个常量；T_turn为场桥90度转场所需要的时间。

S2、将待处理任务箱的总延迟时间最小化作为多场桥动态调度模型的目标函数，并设计奖励函数。

具体地，将待处理任务箱的总延迟时间最小化为多场桥动态调度模型的目标函数，并将执行动作a_t后堆场场桥调度系统状态从s_t转移到s_t+1所获得的及时奖励函数r_t设定为：决策前后场桥调度系统内已完成作业任务箱组的平均延迟时间偏差的相反数。奖励函数r_t的公式如下：

其中，δ_i为t时刻决策前各场桥分配作业任务箱组的实际完成时间；δ′_j为t时刻执行决策动作a_t后各场桥已完成作业任务箱组的实际完成时间；d_i为预约任务箱组i的预计完成时间，是已知常量；Φ_r表示从初始时刻到决策时刻t各场桥分配作业的任务箱组集合；n₁，n₂分别为决策前后各场桥分配作业的任务箱组数量。

S3、采用多组状态特征描述场桥调度系统状态，并选取调度规则确定当前时刻场桥调度系统状态的候选动作集。

本发明的基于DQN(Deep Q-learningNetwork，深度Q学习网络算法)和MCTS的箱区间多场桥动态调度方法中，为提高DQN性能和泛化能力，实现对未知生产环境的合理预测，输入状态特征需要准确反映不同时刻堆场箱区的场桥指派和任务信息。所述场桥指派表示当前时刻各个场桥在箱区间的分配情况和处理任务箱组信息，所述任务信息包含任务箱组到达时间、预计完成时间、任务箱组装卸贝位、任务箱组待处理量和待处理任务箱组序列等。

本发明中采用六种状态特征(分别记为：f₁、f₂、f₃、f₄、f₅、f₆)描述场桥调度系统各个时刻的场桥分配和任务信息，所述六种状态特征共同形成了某时刻下场桥调度系统状态。所述场桥调度系统的状态可采用S表示：

S＝{f₁,f₂,f₃,f₄,f₅,f₆}

其中，所述六种状态特征分别包含：

场桥已完成任务量与总任务量之比f₁：决策时刻场桥YC_i(i∈(1,Y))已完成作业的任务箱组量R_i(包括正在处理的任务箱组)与初始时刻预约的总任务箱组量N之比，该状态特征描述了各场桥的作业量分布，取值范围为[0，1]；

待处理任务序列长度f₂：初始时刻的待处理任务序列包含所有的预约任务箱组，随着调度决策的进行去除已完成的任务箱组和正在处理的任务箱组，剩余待处理任务箱组的数量即为决策时刻待处理任务序列长度；At时刻新任务箱组的到达会改变待处理任务序列的长度，待处理任务序列自动更新，存储新到达任务箱组的时间和贝位信息；

场桥已完成任务箱组的平均延迟时间f₃：决策时刻计算场桥YC_i已完成作业任务箱组的总延迟时间求均值；任务箱组延迟时间π_i,j等于场桥作业任务箱组的实际完成时间ε_i,j减去任务箱组的预计完成时间d_j，该状态特征描述了决策时刻各场桥的延迟时间负荷；

场桥当前作业任务箱组的剩余处理时间f₄：决策时刻，场桥YC_i正在处理的任务箱组的剩余处理时间，若场桥空闲，剩余处理时间为0；该状态特征表征了决策时刻场桥的忙闲状态；

待处理任务序列中场桥作业的最短延迟时间f₅：决策时刻，以待处理任务序列中的任务箱组作为场桥YC_i的下一作业任务，计算场桥YC_i处理的最短延迟时间；

待处理任务序列中场桥作业的最大移动距离f₆：决策时刻，以待处理任务序列中的任务箱组作为场桥YC_i的下一作业任务，计算场桥YC_i从当前任务箱组位置移动到下一任务箱组的最大移动距离。

将堆场箱区间场桥调度过程中的离散动作选择(场桥作业的任务指派)进行封装映射到独立的调度规则中，再选取常用的调度规则和组合规则作为当前场桥调度系统状态的候选动作集，可以大大减少场桥作业指派(下一个待处理任务选择)的动作空间，并对场桥调度问题的高维离散动作空间进行了有效降维。

本发明选取了五种常见的调度规则和组合规则，包含：先到先服务规则(FirstCome First Service，FCFS)、就近规则(Nearest Task First，NTF)、最早预期完成时间规则(Earliest Due Date，EDD)、最短作业时间规则(Shortest Processing Time，SPT)以及就近规则NTF与最早预期完成时间EDD规则的组合规则。上述五种调度规则和组合规则组成堆场箱区间场桥调度系统状态的候选动作集，为决策时刻的空闲场桥分配相应的待作业任务箱组。

S4、采用DQN并结合场桥调度系统的状态、候选动作集以及奖励函数，对多场桥动态调度模型进行训练，得到具有在随机干扰下做出最优决策能力的深度Q网络。

堆场箱区间多场桥调度DQN网络结构图如图3所示。由提前预约任务箱组的时间和贝位信息已知，随机新任务箱组的到达时刻服从泊松分布。随着调度决策的实施，待处理任务箱组序列Ω实时更新，保留尚未处理的任务箱组，同时导入新到达任务箱组信息以促进Agent对环境的不确定性特征的理解。所述Agent为一个智能体，所述环境是指决策时刻堆场的场桥分配和任务箱组的实际作业情况。在DQN训练过程中，堆场调度系统最优动作值(场桥作业任务指派)的实时决策点定义为任意任务箱组的作业完成时刻或每个新任务箱组的到达时刻。

采用DQN对多场桥动态调度模型进行训练，包含以下步骤：

A：初始化容量为N的经验回放记忆体D、深度Q网络及其参数θ、目标网络

及其参数θ^-，令θ^-＝θ，设置折扣因子γ、目标网络更新步数C、经验回放记忆体样本数量阈值M、所有任务箱组决策完毕的终止时间T以及最大训练迭代次数MAX_ITR。

所述DQN包含深度强化网络及目标网络，所述目标网络用于生成当前状态动作值函数的标签，所述深度Q网络用于拟合当前Q值。

B：将场桥调度系统当前时刻的状态变量经卷积神经网络特征处理映射到高维状态空间，得到预处理后的场桥调度系统当前时刻的状态变量。

由步骤S1中的多组状态特征可得到场桥调度系统当前时刻的状态，既可得到场桥调度系统的初始状态，也可得到场桥调度系统任何时刻下的状态。场桥调度系统初始状态下，任务箱组序列Ω包含所有预约的任务箱组。将场桥调度系统当前时刻的状态记为s_t，所述当前时刻的状态s_t经过卷积神经网络CNN特征处理映射到高维状态空间，得到预处理后的当前时刻的状态变量φ_t＝φ(s_t)。

C：从候选动作集中选择一个调度规则执行场桥调度，并更新待处理任务箱组序列及场桥调度系统状态，同时将场桥调度系统的新状态映射到高维空间得到预处理后的新状态变量，并计算场桥调度系统状态转变所获得的奖励。

具体地，场桥调度系统的任务箱组序列中，若有任务箱组完成调度或者有新的任务箱组到达，则从候选动作集中选择一个调度规则作为动作指令a_t对任务箱组序列中的任务箱组进行分配。

对于大规模堆场箱区间多场桥动态调度问题，无法通过遍历所有可能的场桥调度系统状态获取接近真实值的状态动作Q(s_t,a_t)函数，因此为平衡agent与环境交互过程中的时间代价和质量代价，采用ε-贪心策略对探索和利用进行折中。所述Agent与环境进行交互是指智能体感知当前环境的状态信息，根据当前的策略选择一个调度规则进行执行后，环境从一个状态转移到另一个状态同时反馈给智能体一个及时奖励的过程。本实施例中，以ε概率从候选动作集中随机选取一个调度规则作为动作指令a_t。以1-ε概率根据模型选择当前最优调度规则：

其中，A为候选动作集，包括上述步骤S1中的所有调度规则；rand是一个范围在[0，1]的随机数；Q(φ(s_t),a；θ)为当前迭代步长下的状态动作Q网络，网络参数θ蕴含当前迭代步长下所有状态的Q值更新结果。

ε贪心值可以随着迭代的进行人为的调整，在训练的前期进行更多的探索，以发现更优的调度规则选择，避免DQN陷入局部最优；在迭代的后期倾向Q值更大的动作，以获取更高的累积奖励。

根据选定的调度规则从待处理任务箱组序列Ω中提取相应的任务箱组分配给空闲的场桥进行作业，各场桥处理指派的任务箱组，并更新待处理任务箱组序列Ω，场桥调度系统的状态同时更新为下一时刻状态s_t+1，采用上述步骤S3的奖励函数的计算场桥状态转变后环境反馈给Agent的及时奖励r_t。场桥调度系统下一时刻的状态s_t+1同样经过卷积神经网络特征处理映射到高维状态空间，得到预处理后场桥调度系统下一时刻的状态变量φ_t+1＝φ(s_t+1)。

D：将上述步骤B、C产生的场桥调度系统预处理后当前时刻的状态变量、下一时刻的状态变量以及调度规则与及时奖励组成的样本储存到经验回放记忆体中，并判断经验回放记忆体中的样本数量是否大于其阈值；若是，则执行步骤E；否则，重复执行步骤B-C。

E：从经验回放记忆体中采样一定数量的样本计算目标网络的期望状态动作函数值。

具体地，从经验回放记忆体D中随机采样一定数量的小批量样本(φ_t,a_t,r_t,φ_t+1)，根据贝尔曼最优公式计算目标网络

的期望状态动作函数值y_i，计算公式如下：

其中，r_j表示场桥调度系统从当前时刻状态s_t采取调度规则a_t转移到下一时刻状态s_t+1时，agent所能获得的即时奖励；

表示在当前迭代步长下，依据目标网络得到的下一时刻状态s_t+1的最大状态动作函数值。

F：以目标网络的期望状态动作函数值作为标签，深度Q网络输出当前预测的Q值，并根据平方目标偏差对深度Q网络参数θ进行梯度下降和反向传播求解。

采用损失函数对深度Q网路进行迭代计算，所述损失函数L(θ)的公式如下：

G：深度Q网络每更新一定步数后，将深度Q网络的参数θ赋给目标网络

H：判断场桥调度系统中的任务箱组是否调度完毕，若是，则执行步骤I，否则，重复执行步骤B-H。

I：判断是否达到最大训练迭代次数，若是，则结束训练，输出深度Q网络参数；否则，重复执行步骤B-H。

由于执行DQN训练的样本考虑了随机干扰，所以训练后的深度Q网络具有随机干扰下做出最优决策的能力。

所述步骤S5具体包含以下步骤：

S5.1、MCTS中以子节点中的最大模拟结果加上根节点到当前叶节点所完成任务箱组的累计延迟时间作为节点评估值。

具体地，在基本MCTS中，搜索树子节点的选择是从根节点开始，以某一循环策略挑选树中每一层评估值较高的子节点，同时为兼顾选择过程中的探索与利用，那些评估值较低但访问次数较少的子节点也有更高的概率被选择，目的是为了找出最具搜索潜力的分支引导搜索树朝着更好的方向扩展。MCTS中应用最为广泛的子节点评价方法是上限置信区间算法(Upper Confidence Bounds forTrees，UCT)方法，公式如下：

其中，Q_i表示子节点i被访问n_i次的模拟指标值之和；n_i为子节点i被访问的次数；n为子节点i的父节点访问次数；C_p为一个大于0的常数，用于平衡探索与利用。

然而不同于双人零和博弈游戏，堆场箱区间多场桥调度问题是一个单机决策过程，搜索目的是为了找出使得调度指标最优的子节点序列，UCT方法中的均值评估方法往往不能给出较优的极值节点序列，极值节点可能位于平均值不高的方向。为避免劣质模拟结果对节点评估值的影响，本发明采用了一种改进的UCT选择策略，以子节点中的最大模拟结果加上根节点到当前叶节点所完成任务箱组的累计延迟时间作为节点评估值，公式如下：

其中，max(Q_i)表示节点i的所有模拟结果中最大的评估值Q，τ₁表示根节点状态到当前叶节点状态所完成任务箱组的累计延迟时间，τ₂表示子节点中的最大模拟结果，

表示评估值。由于本发明考虑的任务箱组延迟时间范围不固定，不同调度方案间的延迟时间之和差异较大，需要对评估值进行归一化处理，Q_i为统一量纲后的节点评估值。

S5.2、采用子树修建技术对MCTS中的子节点进行扩展。

将子树修建技术应用于MCTS，以增加MCTS的深度和广度。通过领域知识去除不满足多场桥动态调度模型的非交叉穿越、安全距离、作业量平衡等关键约束的子节点；同时对于子树中不同节点顺序代表相同调度方案的子树进行剪枝。子树修剪可以有效减少子节点数目，增加MCTS的深度和广度，如图4所示。剪枝后需要返回扩展步骤，重新进行子节点扩展，从其他候选可扩展子节点中选择新的场桥指派，并继续判别是否满足关键约束。

S5.3、深度Q网络根据当前扩展子节点状态信息进行快速估算，并选择最大状态动作值所对应的任务箱组延迟时间作为当前扩展子节点模拟结果。

蒙特卡洛搜索树中的节点代表决策时刻场桥调度系统所处状态，从当前节点到下一个节点的分支象征一个调度规则的选择。区别于基本MCTS中等概率随机采样的模拟方式，为提高算法模拟效率，降低劣质模拟结果对后续优秀子节点被选概率的影响，本发明结合DQN根据当前待扩展子节点状态对其后续剩余路径的最优模拟结果进行快速估算来提高蒙特卡洛树搜索的模拟质量和效率：将当前扩展子节点状态输入训练好的DQN的深度Q网络，输出各候选调度规则的状态动作Q值，输出Q值表示从当前扩展子节点状态开始到系统调度结束累计的任务箱组延迟时间，选择最大状态动作Q值所对应的任务箱组延迟时间作为当前扩展子节点模拟结果。

S5.4，将扩展子节点的模拟结果反向回溯传播，直至传播至给根节点。

模拟结束后，对于所有父节点的子节点，将其子节点中模拟效果最好的子节点信息反向传播一直到根节点。

重复执行步骤S5.1-S5.4，直到所有的任务箱组都被分配给对应的场桥进行作业为一次迭代搜索，进行多次迭代在蒙特卡洛搜索树中找到一条使得任务箱组总延迟时间最小的分支路径，以当前调度系统状态为根节点，该分支路径中下一个子节点所对应的场桥指派即为下一步的调度决策。每完成一步场桥调度决策后，更新搜索树的起始状态，以当前调度系统状态为起始进行新一轮的搜索，保留上一步搜索中生成的树节点及节点信息，以减少算法计算量。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于DQN和MCTS的箱区间多场桥动态调度方法，其特征在于，包含以下步骤：

2.如权利要求1所述的一种基于DQN和MCTS的箱区间多场桥动态调度方法，其特征在于，所述多场桥动态调度模型的关键约束包含但不限于安全距离约束、作业量平衡约束以及场桥转场约束；

其中，安全距离约束的表达式为：

作业量平衡约束的表达式为：

场桥转场约束的表达式为：

式中，

表示t时刻场桥k的位置是否处于x贝位，当

时，表示t时刻场桥k位于x贝位处；否则

表示任务箱组i是否分配给场桥k；g为任意场桥间作业量差值的上限；t_ij表示场桥在两个任务箱组间的移动时间；α_ij表示场桥从任务箱组i的作业位置移动到任务箱组j的作业位置的过程中是否需要进行90度转场操作，当α_ij＝1时，任务箱组i和任务箱组j所在箱区位于不同行，场桥需要经过两次90度转场进行作业，当α_ij＝0时，两相邻任务箱组所处箱区位于同一行，场桥不需要经过90转场进行作业；V_h为场桥的水平移动速度，是一个常量；T_turn为场桥90度转场所需要的时间。

3.如权利要求1所述的一种基于DQN和MCTS的箱区间多场桥动态调度方法，其特征在于，步骤S2中奖励函数的公式为：

式中，δ_i为t时刻决策前各场桥分配作业任务箱组的实际完成时间；δ′_j为t时刻执行决策动作a_t后各场桥已完成作业任务箱组的实际完成时间；d_i为预约任务箱组i的预计完成时间，是已知常量；Φ_r表示从初始时刻到决策时刻t各场桥分配作业的任务箱组集合；n₁，n₂分别为决策前后各场桥分配作业的任务箱组数量。

4.如权利要求1所述的一种基于DQN和MCTS的箱区间多场桥动态调度方法，其特征在于，步骤S3中的所述多组状态特征包含：场桥已完成任务量与总任务量之比、待处理任务序列长度、场桥已完成任务箱组的平均延迟时间、场桥当前作业任务箱组的剩余处理时间、待处理任务序列中场桥作业的最短延迟时间以及待处理任务序列中场桥作业的最大移动距离，上述多组状态特征共同形成了某时刻下场桥调度系统的状态；

5.如权利要求1所述的一种基于DQN和MCTS的箱区间多场桥动态调度方法，其特征在于，步骤S4中采用DQN对多场桥动态调度模型进行训练，包含以下步骤：

A：初始化经验回放记忆体、深度Q网络及其参数、目标网络及其参数，设置目标网络更新步数、经验回放记忆体样本数量阈值、所有任务箱组决策完毕的终止时间以及最大训练迭代次数；

G：深度Q网络每更新一定步数后，将深度Q网络的参数赋给目标网络。

6.如权利要求5所述的一种基于DQN和MCTS的箱区间多场桥动态调度方法，其特征在于，所述步骤C中，采用ε-贪心策略从候选动作集中选取一个当前最优调度规则，其计算公式为：

7.如权利要求1所述的一种基于DQN和MCTS的箱区间多场桥动态调度方法，其特征在于，所述步骤S5具体包含以下步骤：

S5.2、采用子树修建技术对MCTS中的子节点进行扩展；

8.如权利要求7所述的一种基于DQN和MCTS的箱区间多场桥动态调度方法，其特征在于，所述步骤S5.1中节点评估值的计算公式为：

表示评估值。