CN110363380A

CN110363380A - 一种集装箱堆场双场桥动态协同调度方法

Info

Publication number: CN110363380A
Application number: CN201910461435.9A
Authority: CN
Inventors: 周鹏飞; 张震
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2019-10-22
Anticipated expiration: 2039-05-30
Also published as: CN110363380B

Abstract

本发明公开了一种集装箱堆场双场桥动态协同调度方法，包括步骤1，利用集装箱堆场作业仿真对设计的Q值表进行模拟学习，获得模拟学习后的Q值表；步骤2，利用学习后的Q值表和动作选择策略动态生成场桥的动作指令，场桥根据动作指令选择任务进行作业，在场桥调度过程中根据箱区作业反馈自适应地更新Q值表。本方法提高堆场堆取箱作业效率，减少双场桥干扰和车辆等待时间。

Description

一种集装箱堆场双场桥动态协同调度方法

技术领域

本发明属于汽车及运输技术领域，具体说是一种集装箱堆场双场桥动态协同调度方法。

背景技术

随着经济的全球化和国际贸易的发展，集装箱货运量持续增长。集装箱船舶不断趋于大型化，近年来已有多艘2万标箱以上的集装箱船舶投入使用。集装箱吞吐量的增加和船舶的大型化要求集装箱码头和场站具有更大的吞吐能力和更高的作业效率。堆场是集装箱码头和场站的核心作业区，其主要装卸机械设备是集装箱堆场龙门桥式起重机(简称为场桥)。码头和场站的船舶车辆的装卸周转时间很大程度上取决于场桥的装卸堆取箱效率，其作业是堆场生产的重要瓶颈环节。场桥调度优化是堆场生产管理的重要问题，是减小集装箱堆场作业瓶颈，提高吞吐能力和作业效率的重要途径。

集装箱堆场分区(简称箱区)是堆场管理的基本区域，也是场桥配置的基本单位。在箱区内配置双场桥可有效提高瓶颈箱区的作业效率，是大中型箱区作业时采用的主要模式。箱区内配置双场桥，同时进行装卸堆取箱，容易产生作业干扰。并且，由于堆场装卸堆取箱任务与车辆到达次序、装卸船过程等多种动态因素有关，堆场装卸堆取箱作业序列具有明显的动态性。现有技术中场桥调度方法有以下几种：

(1)基于设定策略和启发式规则的场桥调度方法。该类方法采用的调度策略主要有：最近策略、先到先服务策略、横扫策略、最短时间策略、及其策略组合。最近策略指场桥优先选择距离自身最近的作业(装卸车辆)任务。先到先服务策略指场桥优先装卸先到达的车辆任务。横扫策略指场桥沿箱区纵向单方向移动横扫，依次完成横扫贝位内的车辆装卸任务，到达箱区边界后再反向横扫。最短时间策略指场桥优先选择完成作业时间最短的装卸任务。基于设定策略和启发式规则的场桥调度方法可根据堆取箱任务和作业条件实时指派场桥和装卸任务。这种方法通常计算量较小，可根据设定策略或启发式规则实时或动态地求解得到场桥调度指令。但该类方法通常需要根据先验经验知识提前设计调度策略或启发式规则，人为因素影响较大，算法精度通常较低，调度效果难以保证。当考虑双场桥干扰影响时，调度策略和启发式规则设计难度更大，通常采用人为的场桥作业任务划分原则，难以发挥双场桥协同作业效果。

(2)基于数学规划和智能算法的场桥调度方法。该类方法通常基于已知的场桥任务信息和作业条件进行问题假设和简化，构建数学规划模型，然后利用求解工具或智能算法(如遗传算法等)进行模型求解。求解目标如：场桥作业任务完成时间最短、场桥移动距离最少等。该调度方法通过时间滚动可实现场桥不间断的任务指派和调度。基于问题假设和简化构建严格的数学模型和算法，通常模型求解精度较高(小规模问题可获得精确解)。但该类方法通常求解时间较长，难以满足双场桥动态(在线)调度指令的要求，比较适用于堆场任务次序变化较小的静态环境。同时，繁忙的大中型堆场作业任务具有显著的动态性，采用基于数学规划和智能算法的场桥调度方法容易造成调度指令延迟和动态响应不足，使得该类方法在动态场桥调度问题中的实际应用效果大大降低。

发明内容

针对堆场的动态堆取箱任务需求和作业条件，优化协同调度双场桥作业，提高堆场堆取箱作业效率，减少双场桥干扰和车辆等待时间，本申请提供了一种集装箱堆场双场桥动态协同调度方法。

为实现上述目的，本申请的技术方案为：一种集装箱堆场双场桥动态协同调度方法，包括步骤1，利用集装箱堆场作业仿真对设计的Q值表进行模拟学习，获得模拟学习后的Q值表；步骤2，利用学习后的Q值表和动作选择策略动态生成场桥的动作指令，场桥根据动作指令选择任务进行作业，在场桥调度过程中根据箱区作业反馈自适应地更新Q值表。

进一步的，步骤1的具体实现步骤是：Q(s_t，a_t)为状态-动作对(s_t，a_t)的累计惩罚值，Q值表为所有可能的状态-动作对(s_t，a_t)及其Q值组成的表格；提出的双场桥动态协同调度方法的Q值训练学习可借助于堆场作业模拟环境进行预学习。Q值学习流程如图3所示，其中Q值模拟学习终止条件参数e_T建议取值小于0.01，参数N_e建议取值大于100；

步骤11：用0值初始化Q(s_t，a_t)值表，设置折扣因子γ、学习因子α、探索策略参数p_c，终止判断参数N_e和e_T；

步骤12：令参数n＝0，ES＝0，E＝0；

步骤13：接收集装箱堆场模拟系统的空闲场桥动作指令请求，请求中包括当前箱区任务和场桥状态信息(s_t)；

步骤14：利用学习阶段探索策略选择动作a_t，生成动作指令，传输给集装箱堆场模拟系统；令参数tmp＝Q(s_t,a_t)；

步骤15：接收集装箱堆场模拟系统执行动作a_t后的立即回报函数r和后续新状态s_t+1，利用Q值更新方程更新Q值表中的Q(s_t,a_t)项；

步骤16：令参数E＝E+|Q(s_t,a_t)-tmp|，参数ES＝ES+Q(s_t,a_t)；

步骤17：如果参数n<N_e，那么n＝n+1，转步骤12；否则，转步骤18；

步骤18：如果e_T<E/ES，转步骤12；否则，输出Q值表，结束。

进一步的，所述学习阶段探索策略具体实施步骤为：

步骤141：计算状态s的动作探索概率ε(s)；

其中，n(a|s)为学习过程中状态s选择执行动作a的总次数；p_c为探索策略参数，建议取值50～100；

步骤142：随机生成一个0～1之间的数k；

步骤143：在箱区状态s下，探索选择的动作为a*，其公式为：

其中，rand(a|s)为当前状态s下的可行动作集合中随机选择一个动作；为当前状态s下最小Q值对应的动作。

进一步的，执行动作后的立即回报函数r表示为：执行动作前后箱区内任务的平均等待时间之差，具体函数公式为：

其中：t₁为箱区场桥执行当前动作的开始时刻；t₂为箱区场桥执行当前动作的结束时刻；n₁为箱区场桥执行当前动作前箱区内的等待作业任务数；n₂为箱区场桥执行当前动作后箱区内的等待作业任务数；t_1i为箱区场桥执行当前动作前箱区内的等待作业任务的到达时间；t_2j为箱区场桥执行当前动作后箱区内的等待作业任务的到达时间。

进一步的，Q值更新方程具体为：

其中α为学习因子，建议取值0.05～0.15；γ为折扣因子，建议取值0.4～0.6；r(s_t，a_t)为在t时刻箱区状态s_t下，执行动作a_t后产生的立即回报；Q(s_t，a_t)为当前策略下状态-动作对(s_t，a_t)的累计惩罚值；min_a∈AQ(s_t+1，a)为在执行动作a_t后的状态s_t+1下，不同动作a的最小Q值。

进一步的，步骤2的具体实现步骤是：

步骤21：载入学习后的Q值表数据，设置折扣因子γ、学习因子α、动作探索概率ε(s)、特殊动作启动参数N_p；

步骤22：接收集装箱堆场作业控制系统的空闲场桥动作指令请求，请求中包括当前箱区任务和场桥状态信息(s_t)，等待和即将到达任务数n和n^*；

步骤23：如果n>N_p或者n^*>N_p，选择执行特殊动作a₀，生成动作指令，并传输给集装箱堆场作业控制系统，转步骤22；否则，转步骤24；

步骤24：利用应用阶段动作策略选择动作a_t，生成动作指令，传输给集装箱堆场作业控制系统；

步骤25：接收集装箱堆场作业控制系统动作a_t执行后立即回报函数r和新状态s_t+1，利用利用Q值更新方程更新Q值表中的Q(s_t,a_t)项，转步骤22，此处的立即回报函数r和Q值更新方程与模拟学习阶段的相同。

更进一步的，应用阶段动作策略具体实施步骤为：提前统一设定动作探索概率ε，建议取值小于0.05；

步骤241：随机生成一个0～1之间的数k；

步骤242：在箱区状态s下，选择的动作为a*，其公式为：

其变量含义与学习阶段探索策略中的变量含义相同。

更进一步的，所述状态包括箱区内当前时刻的任务和场桥状态，其状态向量包括以下变量：场桥忙闲变量x₁、等待作业任务数x₂、场桥最近任务的距离变量x₃、任务最长等待时间变量x₄、最长等待任务离场桥的距离x₅、即将达到的任务数量x₆。

作为更进一步的，动作策略由1+4个基本动作组成，即{a₀,a₁,a₂,a₃,a₄,}，其中基本动作a₀是一个特殊动作，不参与Q学习过程，在特定的状态条件下选择；a₀动作描述如下：

a₀：待派场桥在同侧分区(C1或C2)中沿其上一次大车纵向移动方向选择最近的作业任务，待派场桥到达分区(C1或C2)端部后，其大车再反向移动选择任务；该动作简称“纵向横扫”；

a₁：待派场桥选择其当前时刻可作业区域中距离待派场桥最近的作业任务；

a₂：待派场桥选择其当前时刻可作业区域中等待时间最长的作业任务；

a₃：待派场桥选择其当前时刻可作业区域中距离待派场桥最近的即将到达的作业任务；

a₄：待派场桥选择其当前时刻可作业区域中最早的即将到达的作业任务；

用n表示集装箱箱区当前时刻等待的作业任务(集卡)数量；用n^*表示在Δt时段内即将到达箱区的作业任务(集卡)数量。当n>N_p或者n^*>N_p时，场桥选择特殊动作a₀。其中N_p为特殊动作启动参数，建议取值8～12。

本发明由于采用以上技术方案，能够取得如下的技术效果：本方法提高了堆场堆取箱作业效率，减少双场桥干扰和车辆等待时间，可根据动态任务和作业条件变化实时生成场桥的调度指令；通过待派场桥的可作业区识别和动态调度指令可实现集装箱堆场双场桥协同调度；通过调度过程中的Q值学习可实现场桥任务等环境变化的场桥调度指令的自适应调整；提高了Q算法的学习收敛速度。

附图说明

图1为堆场箱区与场桥布置示意图；

图2为状态变量的区域划分示意图；

图3为Q值模拟学习流程图；

图4为Q值调度应用流程图；

图中序号说明：1、场桥。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细的描述：以此为例对本申请做进一步的描述说明。

实施例1

如图1-4所示，本实施例提供集装箱堆场箱区内双场桥动态协同调度方法，即：空闲场桥的下一作业任务动态选择方法，优化目标：最小化箱区内装卸集卡(堆取箱)任务的平均等待时间。优化调度的依据条件信息：1)已在箱区等待的装卸集卡(堆取箱)任务信息，包括车辆到达时间、目标贝位、任务执行所需时间；2)即将要到达箱区的装卸集卡(堆取箱)任务信息，包括车辆到达时间、目标贝位、任务执行所需时间；3)当前箱区内两个场桥所在的贝位。

基于强化学习中的Q学习思想提出的双场桥动态协同调度方法，其包括：状态s及其组成的集合S、动作a及其集合A、立即回报函数r、Q值更新方程、探索学习策略、动作选择策略等。双场桥动态协同调度方法的动作选择(即：空闲场桥的作业任务指派)过程：针对当前箱区场桥和作业任务状态s等条件，根据动作选择策略(状态-动作对的Q值)为当前空闲场桥选择动作a(即：指派空闲场桥的下一作业任务)。双场桥动态协同调度方法的动作选择策略的学习更新：根据状态s下执行动作a后，获得的立即回报r更新Q值表，实现动作选择策略的自适应性更新。双场桥动态协同调度方法应用前可利用堆场箱区场桥作业仿真对动作选择策略进行初始训练学习。

本申请提出的双场桥动态协同调度方法中的状态包括箱区内当前时刻的任务和场桥状态，其状态向量由以下变量组成：场桥忙闲变量x₁、等待作业任务数x₂、场桥最近任务的距离变量x₃、任务最长等待时间变量x₄、最长等待任务离场桥的距离x₅、即将达到的任务数量x₆。由6维的状态向量表示的所有可能状态构成双场桥动态协同调度方法的状态集合。当前空闲场桥指正在为其选择(指派)作业任务的空闲场桥，简称“待派场桥”。状态变量的区域划分示意如图2所示，其中状态分区为箱区平分的两部分，在场桥作业过程中不变，用于箱区状态表示；场桥当前时刻可作业任务区域指不干扰对侧场桥的可作业任务区域范围，与对侧场桥当前作业位置有关，在场桥作业过程中变化。

状态变量描述如下：

场桥忙闲变量x₁：当前时刻场桥(非待派场桥)的闲忙状态变量，取0表示场桥空闲；取1表示场桥正在作业。

等待作业任务数x₂：当前时刻状态分区内正在等待场桥作业的任务数(包括等待的取放箱作业任务等)。每个状态分区任务数有4个可能取值(0～3)，分别对应{0，1，2，>2}四种情况，状态分区C1和C2组合共16个可能取值。

场桥最近任务的距离变量x₃：待派场桥当前时刻可作业任务区中正在等待作业任务位置与待派场桥的最近距离。该变量有4个可能取值(0～3)，分别对应{0，(0，1～L/8]，(L/8～L/4]，>L/4}四种情况，其中L表示堆场长度，其单位为1个作业的集装箱(比如20英寸标准箱)的长度。

任务最长等待时间变量x₄：待派场桥当前时刻可作业任务区中等待作业任务的最长等待时间。该变量有4个可能取值(0～3)，分别对应{[0，1]，(1，3]，(3，6]，>6}四种情况，其单位可近似设置为任务的平均等待时间(比如1分钟)。

最长等待任务离场桥的距离x₅：待派场桥当前时刻可作业任务区中最长等待作业任务位置与待派场桥的距离：该变量有4个可能取值(0～3)，分别对应{0，(0，1～L/8]，(L/8～L/4]，>L/4}四种情况，其中L表示堆场长度，其单位为1个作业的集装箱(比如20英寸标准箱)的长度。

即将达到的任务数量x₆：在Δ_t时段内即将到达箱区的作业任务(集卡)数量。该变量有4个可能取值(0～3)，分别对应{0，1，2，>2}四种情况。其中Δt可根据提前获取箱区任务信息的时间设置(比如10分钟)。

本申请中Q(s_t，a_t)指状态-动作对(s_t，a_t)的累计惩罚值，Q值表为所有可能的状态-动作对(s_t，a_t)及其Q值组成的表格。在模拟学习阶段，Q值表通过与堆场作业仿真系统的动作指令与反馈交互，获取Q值学习的状态和立即回报信息，利用Q值更新方程不断学习更新，逐渐逼近稳定优值。在Q值调度应用阶段，Q值表通过与堆场实际作业系统的动作指令与反馈交互，获取Q值学习的状态和立即回报信息，利用Q值更新方程更新Q值表，适应堆场任务和作业环境变化。

实施例2

根据北方某集装箱码头堆场作业资料为背景，设计本发明的技术方案的实验，对其有益效果进行分析。实验中箱区任务(集卡)到达服从泊松分布(均值为λ)，单个任务的堆取箱时间服从[1.16,1.64]区间上的均匀分布(单位：min)，实验参数如表1所示。

表1 实验参数

参数项	参数值
		堆场长度L(bay)	40
任务到达率λ(辆/min)	0.3、0.5、0.7、0.75、0.8、0.85
		场桥纵向移动速度v(bay/min)	10
任务装卸时间均值μ(min)	1.4

实验表明：本专利提出的方法可根据动态任务和作业条件变化实时生成场桥的调度指令(时间消耗小于0.01s)；通过待派场桥的可作业区识别和动态调度指令可实现集装箱堆场双场桥协同调度；通过调度过程中的Q值学习可实现场桥任务等环境变化的场桥调度指令的自适应调整；提高了Q算法的学习收敛速度，Q值模拟预学习时间小于20min。实验定量效果分析以箱区任务(集卡)在箱区的平均等待时间为分析指标。表2～4为不同任务达到率下建议学习因子α，折扣因子γ和特殊动作启动参数N_p的实验指标结果。表5为对比技术方案1和2，以及本专利技术方案的实验指标结果和对比效果。上述实验指标为600个任务(集卡)在箱区的平均等待时间。从表5可以看出，本专利技术方案较常用的对比技术方案1改进27％～63％，平均改进37.14％；较对比方案2也改进19％～58％，平均改进31.35％。

表2 学习因子参数的实验指标结果

表3 折扣因子参数的实验指标结果

表4 特殊动作启动参数的实验指标结果

表5 不同技术方案的实验指标效果对比

(注：学习因子α取0.1，折扣因子γ取0.5，特殊动作启动参数N_p取10；比率计算的分母取方案1的值)

本申请中的词语解释如下：

集卡：集装箱卡车。

场桥：集装箱堆场龙门桥式起重机，包括轮胎式堆场龙门起重机和轨道式堆场龙门起重机。集装箱卡车车道可布设在场桥跨距内或横梁外伸臂下方。

箱区：集装箱堆场分区管理的基本区域，也是场桥配置的基本单位。箱区内的场桥横向跨越整个箱区，场桥可沿箱区纵向整体移动。场桥装卸车辆的作业区位于堆场的侧部(场桥跨距内或外伸臂下方)。如图1所示。

场桥调度：在箱区内指派场桥装卸集装箱卡车，确定场桥堆取箱任务的作业次序。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。

Claims

1.一种集装箱堆场双场桥动态协同调度方法，其特征在于包括步骤1，利用集装箱堆场作业仿真对设计的Q值表进行模拟学习，获得模拟学习后的Q值表；步骤2，利用学习后的Q值表和动作选择策略动态生成场桥的动作指令，场桥根据动作指令选择任务进行作业，在场桥调度过程中根据箱区作业反馈自适应地更新Q值表。

2.根据权利要求1所述一种集装箱堆场双场桥动态协同调度方法，其特征在于，步骤1的具体实现步骤是：

步骤12：令参数n＝0，ES＝0，E＝0；

步骤16：令参数E＝E+|Q(s_t,a_t)-tmp|，参数ES＝ES+Q(s_t,a_t)；

步骤18：如果e_T<E/ES，转步骤12；否则，输出Q值表，结束。

3.根据权利要求2所述一种集装箱堆场双场桥动态协同调度方法，其特征在于，所述学习阶段探索策略具体实施步骤为：

步骤141：计算状态s的动作探索概率ε(s)；

其中，n(a|s)为学习过程中状态s选择执行动作α的总次数；p_c为探索策略参数；

步骤142：随机生成一个0～1之间的数k；

步骤143：在箱区状态s下，探索选择的动作为a*，其公式为：

4.根据权利要求2所述一种集装箱堆场双场桥动态协同调度方法，其特征在于，执行动作后的立即回报函数r表示为：执行动作前后箱区内任务的平均等待时间之差，具体函数公式为：

5.根据权利要求2所述一种集装箱堆场双场桥动态协同调度方法，其特征在于，Q值更新方程具体为：

其中α为学习因子，γ为折扣因子，r(s_t，a_t)为在t时刻箱区状态s_t下，执行动作a_t后产生的立即回报；Q(s_t，a_t)为当前策略下状态-动作对(s_t，a_t)的累计惩罚值；min_a∈AQ(s_t+1，a)为在执行动作a_t后的状态s_t+1下，不同动作a的最小Q值。

6.根据权利要求1所述一种集装箱堆场双场桥动态协同调度方法，其特征在于，步骤2的具体实现步骤是：

步骤25：接收集装箱堆场作业控制系统动作a_t执行后立即回报函数r和新状态s_t+1，利用利用Q值更新方程更新Q值表中的Q(s_t,a_t)项，转步骤22。

7.根据权利要求6所述一种集装箱堆场双场桥动态协同调度方法，其特征在于，应用阶段动作策略具体实施步骤为：

步骤241：随机生成一个0～1之间的数k；

步骤242：在箱区状态s下，选择的动作为a*，其公式为：

8.根据权利要求2或6所述一种集装箱堆场双场桥动态协同调度方法，其特征在于，状态向量包括：场桥忙闲变量x₁、等待作业任务数x₂、场桥最近任务的距离变量x₃、任务最长等待时间变量x₄、最长等待任务离场桥的距离x₅、即将达到的任务数量x₆。

9.根据权利要求6所述一种集装箱堆场双场桥动态协同调度方法，其特征在于，动作策略由1+4个基本动作组成，即{a₀,a₁,a₂,a₃,a₄,}，其中a₀：待派场桥在同侧分区中沿其上一次大车纵向移动方向选择最近的作业任务，待派场桥到达分区端部后，其大车再反向移动选择任务；

a₄：待派场桥选择其当前时刻可作业区域中最早的即将到达的作业任务。