CN112434870B

CN112434870B - 一种集装箱区垂直布置的双自动化场桥动态调度方法

Info

Publication number: CN112434870B
Application number: CN202011382363.8A
Authority: CN
Inventors: 周鹏飞; 高雪峰
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2022-10-11
Anticipated expiration: 2040-12-01
Also published as: CN112434870A

Abstract

本发明公开了一种集装箱区垂直布置的双自动化场桥动态调度方法，将箱区垂直岸线布置的堆场双自动化场桥的作业调度问题转化为可执行新任务的场桥的任务指派问题，分别针对海、陆侧场桥构建基于深度强化学习的场桥调度智能体。场桥调度Agent的基本思路是：将强化学习与深度学习结合，利用深度学习的深度置信网络代替强化学习的状态‑动作的价值评估表，通过强化学习进行DBN网络的训练学习，将训练后的DBN用于场桥任务的指派。场桥调度Agent可以预先借助堆场作业环境进行交互试错的强化学习，训练后的Agent可根据场桥作业的动态环境状态信息实时生成场桥的任务指派指令，并根据环境反馈更新DBN参数，实现动态环境下的堆场自动化场桥的自适应实时调度。

Description

一种集装箱区垂直布置的双自动化场桥动态调度方法

技术领域

本发明涉及一种场桥调度方法，具体涉及一种集装箱区垂直布置的双自动化场桥动态调度方法。

背景技术

随着国际经济一体化进程的不断推进，各国之间的贸易往来变得愈来愈频繁，港口货物吞吐量也与日俱增。与此同时，为满足更大的货物承运需求，集装箱船舶不断向大型化方向发展，近年来已经有多艘2万标准箱以上的集装箱船舶投入使用。在海运货物吞吐量与日俱增以及船舶大型化的双重趋势下，提升港口码头的作业效率和服务水平以匹配各方需求已经成为了亟需解决的重要问题。堆场作为码头作业的核心区域，是提升码头整体作业效率重要的瓶颈环节。实现码头堆场作业设备的优化调度，对加速车船周转、降低运营成本、提升码头整体运营能力具有十分重要的作用。

自动化集装箱码头堆场可采用垂直岸线或平行岸线布置两种形式，其中垂直岸线布置形式具有水平运输车辆搬运箱距离短，容易实现自动化与非自动化作业区分离等优点，近年来被广泛采用。垂直布置的集装箱堆场箱区的海、陆两端分别设置海、陆侧集装箱交接点，堆场自身以物理隔离的形式将两侧的车辆分流。每个箱区内通常布置两台不可穿越的自动化龙门起重机，分别负责海陆两侧各自的作业任务。两台场桥需保证一定的安全作业距离。场桥作业过程中存在多种动态不确定性因素，比如车辆到达的动态不确定性等。如何适应场桥作业的动态不确定环境，对场桥进行动态优化调度，以提升堆场作业效率，是该领域的技术难点问题。

深度强化学习算法是一种新型的智能算法，解决了传统强化学习算法受状态动作维度限制而难以应对复杂环境的问题。它利用深度学习网络强大的非线性拟合能力逼近状态-动作价值函数，通过强化学习思想与动态环境的不断交互学习以实现优化决策，是解决大规模的动态决策问题的有效方式，目前已经在梯控管理、流水车间调度、微电网储能调度等诸多领域得到了成功应用。目前解决集装箱码头堆场箱区垂直岸线布置的自动化场桥调度问题主要通过以下三种方式：

(1)基于运筹学和智能算法的离线调度。该类方法通常假定作业任务的信息已知且通常是静态的，依据堆场实际作业过程的约束条件建立数学模型，并通过遗传算法、模拟退火算法、蚁群算法等进行数学模型的求解，得到固定任务序列的优化排序；该类方法针对静态问题的求解精度相对较高，但计算时间通常较长。该类方法属于离线调度范畴。

(2)基于启发式规则的在线调度。该类方法通常设定启发式规则进行动态的场桥调度，在场桥完成上一任务后，依据设定的启发式策略进行后续的任务选择。常见的调度策略有：最近策略、先到先服务策略、最短时间策略、最小翻箱量策略以及组合策略等。通过设定的启发式规则动态地确定场桥下一作业任务。该类方法属于在线调度范畴。

(3)基于贪婪算法和近似改进算法的滚动调度。该类方法通过拆分决策过程或引入滚动时间窗来缩小调度任务的搜索空间，借助贪婪性搜索算法或改进遗传算法等进行求解。该类方法能够在可接受的时间内获得调度解，并随着时间的推移，滚动更新后续时间窗内的作业调度解。该类方法可以依据动态环境变化进行多次重调度，能够在一定程度上适应场桥调度的动态不确定因素变化。

对于基于运筹学和诸多智能算法的离线调度方法，通常假设任务序列已知并在此基础上求解最优解或近似最优解，求解精度通常较高。但是，该类方法的求解是基于确定的任务序列等静态条件假设，而实际堆场作业中经常需要面对任务延误、车辆阻塞、外集卡随机抵达等不确定因素的干扰，具有显著的动态性，该类方法难于适应堆场调度的动态响应需求，实际应用受到很大限制。对于基于启发式规则的在线调度，通常计算量较小，调度系统可以针对实时信息，依据预先设定的规则选择动作，响应实时动态任务需求和环境变化。但是，该类方法需要基于先验的调度知识经验进行启发式规则和策略的设计，调度效果很大程度上取决于先验知识经验，人为因素影响大；并且由于堆场双场桥协同调度问题涉及任务次序、场桥协同作业等多种复杂因素，启发式规则设计难度大，该类方法调度精度通常较低。对于基于贪婪算法和近似改进算法的滚动调度，引入滚动调度的思想，可响应堆场双场桥作业的动态不确定调度环境，但是该方法属于局部近似最优调度，并且该方法每次滚动都需要舍弃上一滚动求解的非执行窗口部分方案，影响实际优化调度效果；此外，滚动周期也需要考虑计算消耗，不能过于频繁，不利于动态因素响应。

发明内容

为解决动态环境下垂直岸线式布局的码头堆场双自动化场桥的动态调度问题，本申请通过双自动化场桥动态调度的自适应学习方法实现智能调度，提高堆场自动化场桥的作业效率，减少作业任务等待时间。

为实现上述目的，本申请的技术方案为：一种集装箱区垂直布置的双自动化场桥动态调度方法，在训练学习阶段包括场桥调度Agent的深度置信神经网络DBN无监督学习步骤、场桥调度Agent的深度置信神经网络DBN有监督学习步骤；在自适应调度应用阶段包括场桥调度Agent的动作选择与自适应学习步骤。

所述场桥调度Agent的深度置信神经网络DBN无监督学习步骤，包括：

基于集装箱码头实际作业记录数据，获得无监督训练样本集J₁，所述样本集J₁由场桥调度Agent的环境状态向量<s>组成；

构建场桥调度Agent的深度置信神经网络DBN；

利用样本集J₁无监督训练DBN的第1层受限玻尔兹曼机RBM网络参数θ₁；

利用训练后的RBM网络生成下一层RBM网络训练样本集J_i+1，并对下一层RBM网络参数进行无监督训练，直至DBN所有隐含层RBM网络无监督训练完毕。

所述场桥调度Agent的深度置信神经网络DBN有监督学习步骤，包括：

将无监督训练后的DBN复制两份，分别称为动作DBN和目标DBN，其网络参数向量分别表示为θ和θ'；动作DBN用于训练场桥调度Agent动作的选择，其网络参数θ根据小批量训练样本进行学习更新；目标DBN用于存储之前的学习参数并生成动作DBN训练样本标签值，其网络参数θ'根据动作DBN的参数θ进行柔性更新；

DBN有监督学习初始时，其经验回放样本池为空，场桥调度Agent依据动作探索利用策略选择当前场桥作业环境状态s下的动作a⁺；

依据场桥执行动作a⁺后环境返回的立即回报r和下一环境状态s'计算获得样本标签值q_a，并构造有监督学习样本<s,a⁺,q_a>；

若有监督经验回放样本池中的样本量小于容量上限，则将学习样本<s,a⁺,q_a>加入样本池；否则，用学习样本<s,a⁺,q_a>随机替换样本池中的一个旧样本；重复进行有监督学习，直至满足动作DBN更新条件；

从经验回放样本池中随机选取小批量学习样本<s,a⁺,q_a>，依据损失函数计算小批量样本集的误差损失值，并利用梯度下降法反向更新动作DBN的网络参数θ；

用动作DBN的网络参数θ更新目标DBN网络参数θ'；重复进行上述DBN有监督学习，直至满足迭代次数要求。

所述场桥调度Agent动作选择与自适应学习步骤，包括：

经过训练的场桥调度Agent接收到环境发来的场桥动作指令请求，场桥调度Agent依据最优动作选择策略和当前场桥的环境状态s选择最优的场桥动作a^*；

依据执行场桥动作a^*后环境返回的立即回报r和场桥的下一环境状态s'计算获取q_a，并构造场桥调度Agent有监督学习样本<s,a^*,q_a>；

根据损失函数获取当前样本的误差损失值，并利用梯度下降算法反向更新场桥调度Agent的动作DBN的网络参数θ；

场桥调度Agent的动作DBN网络参数θ每更新一定次数后，利用所述动作DBN网络参数θ更新一次目标DBN网络参数θ'。

进一步的，环境状态特征变量包括：堆取箱任务相关和场桥相关的两类特征量；所述堆取箱任务相关的状态特征量包括：任务类型特征量x₁，任务到达时刻特征量x₂，堆取箱目标位置特征量x₃，关联翻箱特征量x₄；场桥相关的状态特征量包括：场桥当前位置特征量y₁，对侧场桥当前位置特征量y₂，对侧场桥目标位置特征量y₃；所述环境状态特征变量具体描述如下：

任务类型特征量x₁，表示任务类型，取箱时为0，堆箱时为1；

任务到达时刻特征量x₂，表示待装卸任务车辆到达堆场交接区，等待装卸的开始时刻特征；其取值公式为：

其中I^-和I⁺为度量参数，取5～10倍的场桥完成单作业任务的平均消耗时间；

堆取箱目标位置特征量x₃，表示场桥堆取目标箱所在的位置(贝位)，陆侧场桥Agent的特征量x₃的取值为目标箱所在贝位与陆侧交接区之间的贝位数比上箱区总的贝位数；海侧场桥Agent的特征量x₃的取值为目标箱所在贝位与海侧交接区之间的贝位数比上箱区总的贝位数；其取值范围为0～1。

关联翻箱特征量x₄，表示堆取箱任务执行所关联的翻箱量特征，指提取任务目标箱时所需要翻倒的阻碍箱的箱量，取值集合为{0,1/4,1/2,3/4,1}，其值依次表示：不需要翻箱、需要1个翻箱、2个翻箱、3个翻箱、4个及以上翻箱；

场桥当前位置特征量y₁，表示当前场桥自身所在位置(贝位)，陆侧场桥Agent的特征量y₁的取值为陆侧场桥所在贝位与陆侧交接区之间的贝位数比上箱区总的贝位数；海侧场桥Agent的特征量y₁的取值为海侧场桥所在贝位与海侧交接区之间的贝位数比上箱区总的贝位数；其取值范围为0～1。

对侧场桥当前位置特征量y₂，表示对侧场桥当前所在位置(贝位)，其中海侧场桥与陆侧场桥互为对侧场桥；特征量y₂与y₁的计算方法相同；其取值范围为0～1。

对侧场桥目标位置特征量y₃，表示对侧场桥当前执行任务的目标位置(贝位)，特征量y₃与y₁的计算方法相同；其取值范围为0～1。此外，当对侧场桥为空闲状态时，特征量y3取值也为0。

进一步的，所述场桥调度Agent的环境状态向量由4N_t+3个特征变量组成，其中N_t指所考虑任务的总数，即：(

考虑

y₁,y₂,y₃)；N_t的取值为5～15。场桥调度Agent的环境状态向量的可能状态用s表示，所有可能状态s组成状态集合S。

进一步的，所述立即回报r为：

φ_c为等待场桥作业的车辆任务集合，其中不包括场桥正在执行的任务；φ'_c为场桥执行当前动作堆取集装箱任务期间新到达的待作业车辆任务集合；t_a为场桥执行当前动作堆取集装箱任务所消耗的总时间，包括场桥移动、箱区内堆取箱和交接区装卸车辆时间，单位为分钟；t_i为到场桥执行完当前动作时为止，任务i的等待时间，单位为分钟；T_M为超长等待时间阈值，可根据码头的服务水平选定，单位为分钟；α为任务超长等待时间的附加惩罚权重值，根据码头的服务水平选定；max(·,·)为两者中取较大的值。

进一步的，所述深度置信神经网络DBN，包括输入层、隐含层和输出层，输入层有4N_t+3个节点，分别对应N_t个任务的4N_t个状态特征量和3个场桥状态特征量，其中N_t为所考虑任务的总数；输出层为正数节点，共7个，分别对应7个备选动作评价代表值输出。

更进一步的，网络参数θ'根据动作DBN的参数θ进行柔性更新，公式为：

θ'＝β×θ+(1-β)×θ' (2)

其中：β为柔性更新参数，取值为0.7～0.9。

更进一步的，损失函数为：

L(θ)＝E[(q_a-Q(s,a；θ))²] (3)

其中：Q(s,a；θ)为网络参数θ条件下输入状态s对应动作a的输出值；q_a为状态s对应动作a的样本标签值(备选动作a的评价代表值)。

更进一步的，所述备选动作包括：

a₁：待派场桥从备选任务中选择最早到达的任务执行；

a₂：待派场桥从备选任务中选择场桥行驶(空载+负载)距离最短的任务执行；若有多个，则从中选择到达最早的任务执行；

a₃：待派场桥从备选任务中选择场桥空驶距离最短的任务执行；若有多个，则从中选择到达最早的任务执行；

a₄：待派场桥从备选任务中选择目标位置距离本场桥交接区最远的任务执行；若有多个，则从中选择到达最早的任务执行；

a₅：待派场桥从备选任务中选择不跨越对侧场桥当前作业目标位置的任务执行；若有多个，则从中选择到达最早的任务执行；

a₆：待派场桥从备选任务中选择任务完成时间最短的任务执行，其中任务完成时间＝场桥行驶时间+堆取箱作业时间+关联翻箱时间；若有多个，则从中选择到达最早的任务执行；

a₇：待派场桥从备选任务中选择关联翻箱量最大的任务执行；若有多个，则从中选择到达最早的任务执行；

备选动作集合A由上述7个动作策略组成，即集合A＝{a₁,a₂,a₃,a₄,a₅,a₆,a₇}。

作为更进一步的，获取q_a具体方式为：

其中，r和s'分别为状态s下所选动作a执行之后的立即回报值和下一状态；θ'为目标DBN网络的参数；Q(s',a'；θ')为目标DBN网络参数θ'下输入状态s'对应动作a'的输出值；γ为折扣因子，优选取值为0.5～0.8。

作为更进一步的，所述动作探索利用策略在环境状态s下，选取动作a⁺的公式为：

其中，rand(a|s)表示当前状态s下的可行动作集合中随机选择的一个动作；a^*表示当前状态s下最优动作；k为0至1之间的随机数；ε为动作探索率；

状态s下最优动作a^*的公式为：

其中，Q(s,α；θ)为当前动作DBN网络参数θ下输入状态s对应动作a的输出值；

动作探索率的计算公式为：

其中，参数ε₀优选取0.5～1.0；参数N_ε优选取50～200；n_ε(s)为在训练学习过程中状态s所属的状态类

出现的次数，状态类

根据状态变量

y₁,y₂和y₃进行划分，其中每个状态变量以0.5为界分为两类。

本发明与已有的方法，在以下方面存在优势：将箱区垂直岸线布置的堆场双自动化场桥的作业调度问题转化为可执行新任务的场桥(空闲)的任务指派(选择)问题，分别针对海、陆侧场桥构建基于深度强化学习的场桥调度智能体(Agent)。场桥调度Agent的基本思路是：将强化学习与深度学习结合，利用深度学习的深度置信网络(简称DBN)代替强化学习的状态-动作的价值评估表，通过强化学习进行DBN网络的训练学习，将训练后的DBN用于场桥任务的指派(调度动作的选择)。场桥调度Agent可以预先借助堆场作业(物理或模拟)环境进行交互试错的强化学习，训练后的Agent可根据场桥作业的动态环境状态信息实时生成场桥的任务指派指令，实现动态环境下的堆场自动化场桥的实时调度。

根据集装箱堆场双场桥动态调度的特点，量化了已到达作业任务和即将到达作业任务的状态特征，还量化了本场桥和对侧场桥的作业状态特征，有助于Agent对双场桥协同调度策略的学习，并且提高调度精度减少任务等待。

根据集装箱堆场双场桥协同作业和调度规则特点，设计了7个组合启发式动作策略，组成备选动作集合，基于场桥执行当前动作造成的未执行任务等待时间和超长等待惩罚构造了动作执行的立即回报函数，反映了最小化作业任务等待的优化目标。

针对场桥调度Agent的环境特征向量和备选动作策略集，设计了深度置信网络DBN和双DBN的柔性更新学习机制，改进了DBN参数更新的稳定性。基于分类状态探索的Agent学习的动作探索利用策略和经验回放小批量学习策略，有效平衡了状态变量空间的探索，改进了DBN的探索学习效率。

通过目标DBN柔性更新参数、折扣因子、探索策略参数等，优化场桥调度Agent的训练学习效率和调度精度。

附图说明

图1为集装箱码头堆场平面布置示意图；

图2为双场桥调度作业示意图；

图3为深度置信网络结构示意图；

图4为Agent训练阶段的学习流程图；

图中序号说明：1.集装箱船舶；2.集装箱岸桥；3.码头内部集装箱车辆；4.码头堆场；5.场桥；6.码头外部集装箱车辆。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述：以此为例对本申请做进一步的描述说明。

堆场箱区垂直岸线布置是目前自动化集装箱码头最常采用的一种基本布局形式，如图1所示。其基本特点是：集装箱岸桥一侧为集装箱船舶，另一侧为堆场箱区，所述堆场箱区垂直于码头岸线布局，在每个箱区两端分别设置海侧和陆侧交接箱区，海侧交接箱区内有码头内部集装箱车辆，陆侧交接箱区内有码头外部集装箱车辆；箱区内配置双自动化场桥，分别负责海侧和陆侧的堆取作业任务，两台场桥不能相互穿越且需要保持一定的安全作业距离。双自动化场桥调度就是在满足安全作业要求的条件下，安排双场桥完成海、陆两侧堆取集装箱的作业任务，减少任务等待，加速装卸船和车辆在港周转。本申请将双自动化场桥实时动态调度问题转化为可执行任务(空闲)的场桥的任务指派(选择)问题，即：当两台场桥中的任一场桥完成上一指派任务，变成可执行新任务的场桥时，依据场桥当前作业状态，优化分配新任务给场桥(也就是确定场桥的下一动作)。

本实施例所公开的一种集装箱区垂直布置的双自动化场桥动态调度方法的优化目标为：最小化海、陆两侧车辆(堆取箱任务)的等待时间，提高堆场作业效率。将双自动化场桥实时动态调度问题转化为可执行新任务的场桥(空闲)的任务指派问题，场桥任务的实时指派所依据的动态信息包括：1)已经到达和即将到达堆场交接区的车辆(任务)的信息，包括车辆到达时间、执行该车辆的堆取箱任务类型(堆箱或取箱)，堆取箱任务在箱区的位置(取箱任务位置可根据提取箱的箱号查找确定，堆箱任务位置可根据码头箱位分配规则或算法提前确定)、执行该车辆任务所需的翻箱量(简称关联翻箱量)；2)两台场桥的信息，包括场桥状态(空闲或作业)、场桥当前所在位置和作业目标位置等。

如图2所示，针对海、陆侧场桥分别构建深度强化学习的智能体(简称场桥调度Agent)，进行训练学习和场桥动作选择(调度)，本申请所述场桥调度Agent的基本思路是：将强化学习与深度学习结合，利用深度学习的深度置信网络(简称DBN)代替强化学习的状态-动作的价值评估表，借助强化学习进行DBN网络的训练学习，将训练后的DBN用于场桥调度(动作选择)。所述场桥调度Agent关键技术包括：Agent环境状态特征的量化及其可能的状态集合S、备选动作a及其组成的动作集合A、立即回报函数r()、深度置信网络模型、学习样本集构建与学习策略、更新与动作探索策略。在训练学习阶段，场桥调度Agent通过与实际(或模拟)场桥作业环境的交互试错(try-and-error)进行强化学习，根据交互的立即回报不断更新状态-动作价值评估的DBN网络参数，直至达到要求。在(自适应)调度应用阶段，场桥调度Agent根据动态环境状态选择状态-动作价值评估最小(最优)的动作作为场桥的执行动作(任务)，并根据执行动作后的立即回报动态更新状态-动作价值评估的DBN网络参数，实现自适应性调度，具体实现方法如下：

一种集装箱区垂直布置的双自动化场桥动态调度方法，在训练学习阶段包括场桥调度Agent的深度置信神经网络DBN无监督学习步骤、场桥调度Agent的深度置信神经网络DBN有监督学习步骤；在自适应调度应用阶段包括场桥调度Agent的动作选择与自适应学习步骤。

步骤1.基于集装箱码头实际或模拟仿真作业记录数据，获得无监督训练样本集J₁，所述样本集J₁由场桥调度Agent的环境状态向量<s>组成；

具体的，环境状态特征变量包括：堆取箱任务相关和场桥相关的两类特征量；所述堆取箱任务相关的状态特征量包括：任务类型特征量x₁，任务到达时刻特征量x₂，堆取箱目标位置特征量x₃，关联翻箱特征量x₄；除考虑已到达的作业任务，还考虑即将到达的作业任务特征信息。场桥相关的状态特征量包括：场桥当前位置特征量y₁，对侧场桥当前位置特征量y₂，对侧场桥目标位置特征量y₃；所述环境状态特征变量具体描述如下：

对侧场桥目标位置特征量y₃，表示对侧场桥当前执行任务的目标位置(贝位)，特征量y₃与y₁的计算方法相同；其取值范围为0～1。此外，当对侧场桥为空闲状态时，特征量y₃取值也为0。

场桥调度Agent的环境状态向量由4N_t+3个特征变量组成，其中N_t指所考虑任务的总数，即：(

考虑

步骤2.构建场桥调度Agent的深度置信神经网络DBN；

具体的，场桥调度Agent的DBN网络的输入为4N_t+3维的环境状态向量，DBN网络有7个输出，为场桥调度Agent的备选动作评价代表值；

所述深度置信神经网络DBN，包括输入层、隐含层和输出层，其中输入层与隐含层、以及隐含层之间是受限玻尔兹曼机(RBM)网络，隐含层与输出层是全连接网络，如图3所示；输入层有4N_t+3个节点，分别对应N_t个任务的4N_t个状态特征量和3个场桥状态特征量，其中N_t为所考虑任务的总数；隐含层为0～1实数节点，优选3～10层，各层节点数优选逐层递减，例如：4隐含层的网络节点70×40×20×12。输入层和隐含层节点的激活函数为Sigmoid函数。输出层为正数节点，共7个，分别对应7个备选动作评价代表值输出，用q_i表示第i个备选动作的评价代表值，节点激活函数为Relu函数。DBN包括无监督和有监督两个学习阶段，先利用RBM对隐含层网络进行逐层无监督学习；再利用随机梯度下降法对网络进行反向有监督学习。

所述备选动作可表示为7个组合启发式动作策略，即：

a₁：待派场桥从备选任务中选择最早到达的任务执行；

步骤3.利用样本集J₁无监督训练DBN的第1层受限玻尔兹曼机RBM网络参数θ₁(网络连接权重和偏置量)，无监督训练采用对比散度算法；

步骤4.利用训练后的RBM网络生成下一层RBM网络训练样本集J_i+1，并对下一层RBM网络参数进行无监督训练，直至DBN所有隐含层无监督训练完毕。

步骤5.将无监督训练后的DBN复制两份，分别称为动作DBN和目标DBN，其网络参数向量分别表示为θ和θ'；动作DBN用于训练场桥调度Agent动作的选择，其网络参数θ根据小批量训练样本进行学习更新；目标DBN用于存储之前的学习参数并生成动作DBN训练样本标签值，其网络参数θ'根据动作DBN的参数θ进行柔性更新，参数更新公式为：

θ'＝β×θ+(1-β)×θ' (2)

其中：β为柔性更新参数，优选取值为0.7～0.9。

步骤6.DBN有监督学习初始时，其经验回放样本池为空，场桥调度Agent依据动作探索利用策略选择当前场桥作业环境状态s下的动作a⁺，具体为：

状态s下最优动作a^*的公式为：

其中，Q(s,a；θ)为当前动作DBN网络参数θ下输入状态s对应动作a的输出值；

动作探索率的计算公式为：

出现的次数，状态类

根据状态变量

步骤7.依据场桥执行动作a⁺后环境返回的立即回报r和下一环境状态s'计算获得q_a，并构造有监督学习样本<s,a⁺,q_a>；所述立即回报函数r为：

深度置信网络DBN的学习样本可表示为三元组<s,a,q_a>，其中，s为执行动作a之前的(4N_t+3)维环境状态特征向量；a为当前环境状态s下所选的动作；q_a为状态s对应动作a的样本标签值，可根据状态s下所选动作a执行之后实际(或模拟)环境反馈的立即回报r和下一状态s'进行计算：

步骤8.若有监督经验回放样本池中的样本量小于容量上限，则将学习样本<s,a⁺,q_a>加入样本池；否则，用学习样本<s,a⁺,q_a>随机替换样本池中的一个旧样本；重复步骤6～8，直至满足动作DBN更新条件；

具体的，设置样本池容量上限为N_s，当样本池内的样本数达到上限后，新增加的样本将随机替换样本池中的旧样本，保持样本池总容量大小。动作DBN每次有监督学习时，从样本池中随机选取N_c(小于50)个样本进行小批量学习，优选N_c取10～20。

步骤9.从经验回放样本池中随机选取小批量学习样本<s,a⁺,q_a>，依据损失函数计算小批量样本集的误差损失值，并利用梯度下降法反向更新动作DBN的网络参数θ；损失函数为：

L(θ)＝E[(q_a-Q(s,a；θ))²] (3)

步骤10.用动作DBN的网络参数θ更新目标DBN网络参数θ'，此处更新方式采用公式(2)；重复步骤6～10，直至满足迭代次数要求。

所述场桥调度Agent的动作选择与自适应学习步骤，包括：

步骤1.经过训练的场桥调度Agent接收到环境发来的场桥动作指令请求，场桥调度Agent依据最优动作选择策略和当前场桥的环境状态s选择最优的场桥动作a^*；所述最优动作选择策略采用公式(6)；

步骤2.依据执行场桥动作a^*后环境返回的立即回报r和场桥的下一环境状态s'计算获取q_a，并构造场桥调度Agent有监督学习样本<s,a^*,q_a>；所述获取q_a方式采用公式(4)；

步骤3.根据损失函数获取当前样本的误差损失值，并利用梯度下降算法反向更新场桥调度Agent的动作DBN的网络参数θ；所述损失函数计算方式采用公式(3)；

步骤4.场桥调度Agent的动作DBN网络参数θ每更新一定次数后，利用所述动作DBN网络参数θ更新一次目标DBN网络参数θ'，此处更新方式采用公式(2)。

本申请所公开的集装箱堆场双场桥动态调度方法的实施分为训练学习阶段和调度应用阶段。在训练学习阶段，场桥调度Agent根据交互试错过程中作业环境反馈的立即回报不断更新状态-动作价值评估的DBN网络参数，进行自主训练学习。在调度应用阶段，经过训练学习的调度Agent根据场桥作业实时环境状态选择最优动作作为场桥的执行动作(任务)，并根据执行动作后的立即回报动态更新状态-动作价值评估的DBN网络参数，实现自适应性学习和调度应用。

以北方某集装箱码头的堆场资料为背景数据设计了本专利的实验方案。车辆(任务)到达的时间间隔服从负指数分布，海陆两侧作业任务比例为1：1，实验主要参数如表1所示。任务集参数N_t取10，状态向量为43维，深度置信网络DBN结构为43×70×40×20×12×7(6层网络)，隐含层数L＝4。对比散度算法参数k取1，目标DBN的柔性更新公式参数β取0.8，样本标签值计算公式的折扣因子参数γ取0.6，动作探索率参数ε₀和N_ε分别取0.6和50，经验回放样本池容量上限N_s和小批量学习参数N_c分别取4000和15，动作DBN训练周期N_b和目标DBN更新周期N_d分别取5和10，交互训练迭代次数限值T’取10⁵。

表1实验参数

实验表明，本专利所提出的集装箱区垂直布置的双自动化场桥动态调度方法可以根据双场桥动态作业环境信息实时生成双场桥协同作业指令(时耗小于0.1s)，响应动态作业任务等变化。表2给出不同到达率下本专利方法与参考方法的车辆平均等待时间，其中参考方法为实际中经常采用的先到先服务调度方法。可以看出：本专利方法较常用的先到先服务调度方法车辆的平均等待时间减少30％，改善了自动化场桥作业效率和堆场服务水平。

表2不同到达率下车辆的平均等待时间

本申请中涉及的术语解释如下：

集装箱车辆：指搬运集装箱的码头内部车辆和外部车辆。常用码头内部集装箱搬运车辆如：自动导引车AGV、自举式导引车L-AGV、ALV、跨运车等；码头外部集装箱搬运设备主要是外部集装箱卡车(简称外集卡)。

自动化场桥：指自动化集装箱码头堆场箱区内负责堆放和提取集装箱的自动化设备，其具体形式主要采用轨道式龙门起重机。本申请所述自动化场桥采用同轨道布置，集装箱车辆停靠在箱区两端。

箱区：指集装箱码头堆场分区管理的基本单位，箱区内配置两个自动化场桥(简称双场桥)，双场桥布置在同一轨道上，两者不可互相穿越，场桥堆取集装箱的交接箱点设置在箱区端部。

场桥调度：指调度(指派)箱区内的场桥去执行(服务)集装箱车辆的堆箱或取箱任务，确定场桥的优先作业任务。

关联翻箱量：指场桥执行当前任务需要进行的翻箱量，也就是从堆场提取集装箱时，目标箱上方的集装箱阻碍了提取目标箱，需要将阻碍箱翻倒到附近堆栈的数量。翻箱落位位置可根据就近规则或位置选择算法确定，不属于本专利的发明内容。

DBN：指场桥调度Agent的深度置信神经网络。

RBM：指组成深度置信神经网络的受限玻尔兹曼机。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。

Claims

1.一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，在训练学习阶段包括场桥调度Agent的深度置信神经网络DBN无监督学习步骤、场桥调度Agent的深度置信神经网络DBN有监督学习步骤；在自适应调度应用阶段包括场桥调度Agent的动作选择与自适应学习步骤；

基于集装箱码头实际作业记录数据，获得无监督训练样本集J₁，所述样本集J₁包括场桥调度Agent的环境状态向量<s>；

构建场桥调度Agent的深度置信神经网络DBN；

利用训练后的RBM网络生成下一层RBM网络训练样本集J_i+1，并对下一层RBM网络参数进行无监督训练，直至DBN所有隐含层无监督训练完毕；

依据场桥执行动作a⁺后环境返回的立即回报r和下一环境状态s'计算获得q_a，并构造有监督学习样本<s,a⁺,q_a>；

用动作DBN的网络参数θ更新目标DBN网络参数θ'；重复进行有监督学习，直至满足迭代次数要求；

所述场桥调度Agent的动作选择与自适应学习步骤，包括：

根据损失函数获取当前样本的误差损失值，并利用梯度下降算法反向更新场桥调度Agent动作DBN的网络参数θ；

2.根据权利要求1所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，环境状态特征变量包括：堆取箱任务相关和场桥相关的两类特征量；所述堆取箱任务相关的状态特征量包括：任务类型特征量x₁，任务到达时刻特征量x₂，堆取箱目标位置特征量x₃，关联翻箱特征量x₄；场桥相关的状态特征量包括：场桥当前位置特征量y₁，对侧场桥当前位置特征量y₂，对侧场桥目标位置特征量y₃；所述环境状态特征变量具体描述如下：

其中I^-和I⁺为度量参数；

堆取箱目标位置特征量x₃，表示场桥堆取目标箱所在的位置，陆侧场桥Agent的特征量x₃的取值为目标箱所在贝位与陆侧交接区之间的贝位数比上箱区总的贝位数；海侧场桥Agent的特征量x₃的取值为目标箱所在贝位与海侧交接区之间的贝位数比上箱区总的贝位数；

场桥当前位置特征量y₁，表示当前场桥自身所在位置，陆侧场桥Agent的特征量y₁的取值为陆侧场桥所在贝位与陆侧交接区之间的贝位数比上箱区总的贝位数；海侧场桥Agent的特征量y₁的取值为海侧场桥所在贝位与海侧交接区之间的贝位数比上箱区总的贝位数；

对侧场桥当前位置特征量y₂，表示对侧场桥当前所在位置，其中海侧场桥与陆侧场桥互为对侧场桥；特征量y₂与y₁的计算方法相同；对侧场桥目标位置特征量y₃，表示对侧场桥当前执行任务的目标位置，特征量y₃与y₁的计算方法相同；当对侧场桥为空闲状态时，特征量y₃取值也为0。

3.根据权利要求2所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，所述场桥调度Agent的环境状态向量由4N_t+3个特征变量组成，其中N_t指所考虑任务的总数，即

场桥调度Agent的环境状态向量的可能状态用s表示，所有可能状态s组成状态集合S。

4.根据权利要求1所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，所述立即回报函数r为：

5.根据权利要求1所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，所述场桥调度Agent的深度置信神经网络DBN，包括输入层、隐含层和输出层，输入层有4N_t+3个节点，分别对应N_t个任务的4N_t个状态特征量和3个场桥状态特征量，其中N_t为所考虑任务的总数；输出层为正数节点，分别对应备选动作评价代表值输出。

6.根据权利要求1所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，网络参数θ'根据动作DBN的参数θ进行柔性更新，公式为：

θ'＝β×θ+(1-β)×θ' (2)

其中：β为柔性更新参数。

7.根据权利要求1所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，损失函数为：

L(θ)＝E[(q_a-Q(s,a；θ))²] (3)

其中：Q(s,a；θ)为网络参数θ条件下输入状态s对应动作a的输出值；q_a为状态s对应动作a的样本标签值。

8.根据权利要求5所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，所述备选动作包括：

a₁：待派场桥从备选任务中选择最早到达的任务执行；

a₂：待派场桥从备选任务中选择场桥行驶距离最短的任务执行；若有多个，则从中选择到达最早的任务执行；

a₇：待派场桥从备选任务中选择关联翻箱量最大的任务执行；若有多个，则从中选择到达最早的任务执行。

9.根据权利要求1所述一种集装箱区垂直布置的双自动化场桥动态调度方法，其特征在于，获取q_a具体方式为：