CN110203708B

CN110203708B - 一种不完全提箱信息下的集装箱堆场翻箱落位优选方法

Info

Publication number: CN110203708B
Application number: CN201910487079.8A
Authority: CN
Inventors: 周鹏飞; 叶倩倩
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2020-04-14
Anticipated expiration: 2039-06-05
Also published as: CN110203708A

Abstract

本发明公开了一种不完全提箱信息下的集装箱堆场翻箱落位优选方法，步骤1，利用集装箱堆场提箱作业仿真对设计的Q值表进行模拟学习，获得模拟学习后的Q值表；步骤2，利用学习后的Q值表和动作选择策略动态生成集装箱翻箱落位的动作指令，根据动作指令选择待翻箱的落箱箱位，在堆场提箱作业过程中根据动作指令的执行反馈来自适应地更新Q值表。本方法通过集装箱提箱过程中的Q值学习可实现堆场翻箱作业环境变化的翻箱落位优选指令的自适应调整；提高了Q算法的学习收敛速度，降低了多层堆放集装箱堆场的翻箱率和集装箱堆场二次翻箱率。

Description

一种不完全提箱信息下的集装箱堆场翻箱落位优选方法

技术领域

本发明属于汽车及运输技术领域，具体说是一种不完全提箱信息下的集装箱堆场翻箱落位优选方法。

背景技术

国际贸易90％的货运量是通过港口海运完成的。集装箱运输具有安全高效、便于实现自动化等优势，自上世纪50年代出现以来得到了快速的发展，已成为主要海运形式。随着经济国际贸易的发展和集装箱货运量持续增长，集装箱码头和场站要求具有更大的吞吐能力、更高的作业效率和更经济的作业成本。堆场翻箱率优化是集装箱码头和场站提高吞吐能力和作业效率，降低作业成本的关键之一。

堆场翻箱是提箱序列与堆箱序列不一致导致的。由于在堆场放箱时很难预知后续取箱次序，特别是客户从堆场提箱的次序，具有很强的动态随机性，容易造成翻箱。堆场进行翻箱作业时，不合理的翻箱落位将引发后续提箱过程中的二次翻箱。翻箱落位优化是降低集装箱堆场二次翻箱的主要途径，涉及不确定提箱次序等多种复杂因素，是该领域的NP-hard难点问题。

集装箱堆场翻箱落位优选指：在多层堆放的集装箱堆场内提取非上层的集装箱(待提取箱简称为“目标箱”)时，需要将目标箱上层的集装箱(称作“阻碍箱”或“待翻箱”)翻倒到其他堆栈，优选翻倒阻碍箱的落箱栈位。目前采用的主要技术方法有以下三类：

(1)基于设定策略的翻箱落位优选方法。该类方法采用的优选策略主要有：同贝(bay)最近堆栈策略、同贝最低堆栈策略、同贝最高堆栈策略、及其策略组合等。同贝最近堆栈策略指将阻碍箱翻倒到同一集装箱贝位内有空余箱位且最近的集装箱堆栈上层。同贝最低堆栈策略指将阻碍箱翻倒到同一集装箱贝位内有空余箱位且堆栈高度最低的堆栈上层。同贝最高堆栈策略指将阻碍箱翻倒到同一集装箱贝位内有空余箱位且堆栈高度最高的堆栈上层。基于设定策略的翻箱落位优选方法可根据堆取箱任务和堆场状态实时选择翻箱落箱位置。

(2)基于递归或分支定界的翻箱落位优选方法。该类方法通常基于已知的贝位内的集装箱提箱次序，利用递归或者分支定界的思想计算贝位所有可能的落箱位置上的总翻箱量，选取总翻箱量最小的落箱位置。该优选方法在贝位内的总箱量较小时可获得理论最优解，但该方法随着总箱量的增加其计算复杂度呈现指数增长趋势。

(3)基于启发式策略的翻箱落位优选方法。该类方法利用集装箱贝位内的箱分布信息和提箱次序信息，构造每个候选箱位的预期翻箱量(近似值)，基于预期翻箱量最小原则选择翻倒箱的落箱位置。该类方法计算耗时少，可根据堆取箱任务和堆场状态实时获取翻箱落箱优选位置。

上述方法分别存在如下缺点：

(1)基于设定策略的翻箱落位优选方法，直接利用设定的优选策略选择翻箱落箱位，可实时计算得到堆场设备翻箱落位指令。但该类方法通常需要根据先验经验知识提前设计优选策略，人为因素影响较大，算法精度通常较低，堆场二次翻箱率较高。

(2)基于递归或分支定界的翻箱落位优选方法，根据堆场集装箱的提箱次序进行严格的递归和分支定界计算，对小规模问题可获得精确解。但该类方法通常求解时间较长，当问题规模较大(比如超过30箱)时，该类方法难以满足堆场设备在线选择翻箱落位指令的要求。并且，该类方法需要堆场集装箱的提箱次序信息，实际问题很难满足，限制了该类方法应用范围。

(3)基于启发式策略的翻箱落位优选方法，根据候选箱位的近似预期翻箱量的启发式策略优选阻碍箱的落箱位置，是(1)和(2)类方法的折中，精度较高且可实现箱位在线优选。但该类方法通常也需要堆场贝位内集装箱的提箱次序信息，且算法精度有待提高。对于堆场作业系统来说，完全的集装箱提箱次序信息难以获得。

发明内容

为了解决不完全提箱信息条件下的集装箱翻箱落位优选问题、多层堆放集装箱堆场的高翻箱率问题和如何降低集装箱堆场二次翻箱率问题，本申请提供了一种不完全提箱信息下的集装箱堆场翻箱落位优选方法。

为实现上述目的，本申请的技术方案为：一种不完全提箱信息下的集装箱堆场翻箱落位优选方法：步骤1，利用集装箱堆场提箱作业仿真对设计的Q值表进行模拟学习，获得模拟学习后的Q值表；步骤2，利用学习后的Q值表和动作选择策略动态生成集装箱翻箱落位的动作指令，堆场设备根据动作指令选择待翻箱的落箱箱位，在堆场提箱作业过程中根据动作指令的执行反馈来自适应地更新Q值表；

进一步的，步骤1的具体实现步骤是：Q(s_t,a_t)为状态-动作对(s_t,a_t)的累计奖赏值，Q值表为所有可能的状态-动作对(s_t,a_t)及其Q值组成的表格。提出的集装箱堆场翻箱落位优选方法的Q值训练学习可借助集装箱堆场提箱作业模拟环境进行预学习。Q值学习流程如图3所示，其中Q值模拟学习终止条件参数e_T建议取值小于0.01，参数N_e建议取值大于100；

步骤11：用0值初始化Q(s_t,a_t)值表，设置折扣因子γ、参数α₀和p_α、探索策略参数ε₀和p_ε，终止判断参数N_e和e_T；

步骤12：令参数n＝0，ES＝0，E＝0；

步骤13：接收集装箱堆场提箱作业模拟系统的翻箱落位动作指令请求，请求中包括当前翻箱落位状态信息(s_t)；

步骤14：利用学习阶段探索策略选择动作a_t，生成翻箱落位动作指令，传输给集装箱堆场提箱作业模拟系统；令参数tmp＝Q(s_t,a_t)；

步骤15：接收集装箱堆场提箱作业模拟系统执行翻箱落位动作a_t后的立即回报函数r和后续新状态s_t+1，利用Q值更新方程更新Q值表中的Q(s_t,a_t)项；

步骤16：令参数E＝E+|Q(s_t,a_t)-tmp|，ES＝ES+Q(s_t,a_t)；

步骤17：如果n<N_e，那么n＝n+1，转步骤12；否则，转步骤18；

步骤18：如果e_T<E/ES，转步骤12；否则，输出Q值表，结束。

进一步的，学习阶段探索策略具体为：

步骤141：计算当前动态的动作探索概率ε_τ；

步骤142：随机生成一个0～1之间的数k；

步骤143：在翻箱落位优选状态s下，探索选择的动作为a^*，其动作公式：

其中，rand(a|s)：当前状态s下的可行动作集合A^*(s)中随机选择一个动作；

当前状态s下最大Q值对应的可行动作。

进一步的，针对模拟学习阶段的动作探索策略(称为改进ε-greedy探索策略)，引入动态的动作探索概率ε_τ，其计算公式为：

其中，ε₀和p_ε为动态的动作探索概率参数，ε₀建议取值0.3～0.5，p_ε建议取值小于10^-4，τ为Q值已学习更新的总次数。

进一步的，本申请中Q值也称为累计奖赏值。集装箱堆场翻箱落位优选方法的Q学习过程就是Q值函数更新过程，针对模拟学习阶段的Q值更新方程如下：

其中

α_τ为学习因子，

α₀和p_α为学习因子参数，α₀建议取值0.5～0.7，p_α建议取值小于10^-4，τ为Q值已学习更新的总次数；

γ为折扣因子，建议取值0.8～0.95；

r(s_t,a_t)为在t时刻翻箱落位优选状态s_t下，执行动作a_t后产生的立即回报；

Q(s_t,a_t)为当前策略下状态-动作对(s_t,a_t)的累计奖赏值；

为在执行动作a_t后的状态s_t+1下，不同动作a的最小Q值；

A^*(s+1)为翻箱落位优选状态s+1下的可执行动作集合。

进一步的，学习后Q值表可应用在堆场翻箱落位优选中，且可根据集装箱堆场提箱作业环境的变化自适应地学习更新Q值表。提出的集装箱堆场翻箱落位优选方法的Q值翻箱落位优选应用流程如图4所示。步骤2的具体实现步骤是：

步骤21：载入学习后的Q值表数据，设置折扣因子γ、学习因子α、动作探索概率参数ε；

步骤22：接收集装箱堆场提箱作业控制系统的翻箱落位动作指令请求，请求中包括当前翻箱落位优选状态信息(s_t)；

步骤23：利用翻箱落位优选应用阶段动作策略选择动作a_t，生成翻箱落位动作指令，传输给集装箱堆场提箱作业控制系统；

步骤24：接收集装箱堆场提箱作业控制系统动作a_t执行后立即回报函数r和新状态s_t+1，利用Q值更新方程更新Q值表中的Q(s_t,a_t)项，转步骤22。

更进一步的，所述应用阶段动作策略具体为：针对Q值应用阶段的动作策略采用统一设定的动作探索概率ε，提前设定，建议取值小于0.05。

步骤231：随机生成一个0～1之间的数k；

步骤232：在翻箱落位优选状态s下，选择的动作为a^*，其公式为：

当前状态s下最大Q值对应的可行动作。

进一步的，针对应用阶段的Q值更新方程如下：

其中

α为学习因子，建议取值0.05～0.10；

γ为折扣因子，建议取值0.8～0.95；

Q(s_t,a_t)为当前策略下状态-动作对(s_t,a_t)的累计奖赏值；

为在执行动作后的状态s_t+1下，不同动作a的最大Q值；

A^*(s+1)为翻箱落位优选状态s+1下的可执行动作集合。

更进一步的，模拟阶段和应用阶段中执行动作后的立即回报函数r表示为：执行动作后避免了翻箱的奖赏值或引发翻箱的负奖赏值；具体函数公式为：

更进一步的，分别用L和H表述待翻倒箱所在贝的额定堆栈数和额定堆高，根据堆栈中已堆存的集装箱数量将当前翻箱作业的翻箱候选栈分为H类，其中第1类候选栈没有堆存箱，第2类候选栈已堆存1个箱，以此类推，第H类候选栈已堆存H-1个箱；用I_i表示集装箱i的组次序数，用I^* _h表示集装箱堆栈h的所有集装箱中最小的箱组次序数(最早被提取箱的次序数)，本申请提出的集装箱堆场翻箱落位优选方法中的某类候选栈的代表栈集合Φ由满足以下条件的同类候选栈组成，第i类候选栈的代表栈集合表示为：

其中，I_c表示当前待翻箱的箱组次序数；

表示存在一个第i类候选栈h中集装箱的最小的箱组次序数大于当前待翻箱的箱组次序数，即当前待翻箱如果翻倒到该堆栈将不产生二次翻箱；若第i类候选栈集合为空集合，则其代表栈集合也为空集合。

本发明由于采用以上技术方案，能够取得如下的技术效果：本方法把不完整提箱信息条件下的集装箱堆场翻箱落位优选问题转化为分时段(或先后次序组)的提箱次序条件下的集装箱堆场贝内翻箱落位优选问题。根据不完全提箱信息条件实时生成集装箱堆场翻箱落位的优选指令；通过集装箱提箱过程中的Q值学习可实现堆场翻箱作业环境变化的翻箱落位优选指令的自适应调整；提高了Q算法的学习收敛速度，降低了多层堆放集装箱堆场的翻箱率和集装箱堆场二次翻箱率。

附图说明

图1为堆场箱区布置示意图；

图2为集装箱贝内提箱先后次序组示意图；

图3为Q值模拟学习流程图；

图4为Q值翻箱落位优选应用流程图。

图中序号说明：1、龙门吊。

具体实施方式

实施例1

本实施例所针对的集装箱堆场箱区布置示意如图1所示，每个箱区由多个贝(Bay)组成，每个集装箱贝由多个堆栈(Stack)组成，每个堆栈可堆放多个集装箱，沿高度方向称作集装箱层(Tie)，可堆放一个集装箱的位置称作一个箱位。堆场取箱(包括客户提箱和装船提箱)时，提箱次序与堆箱位置的不一致将导致翻箱作业，即：提取的目标箱在其他箱(简称“阻碍箱”或“待翻箱”)的下层，需要进行翻倒作业，将上层阻碍箱翻倒到其他集装箱堆栈。集装箱堆场翻箱落位优选问题指：在进行阻碍箱翻倒时，优选翻倒箱的落箱位置(即：翻倒放箱的堆栈)，减少后续取箱过程中待翻箱被再次翻倒(简称“二次翻箱”)。在实际堆场作业调度管理中，为了减少堆场设备(常为龙门吊)的大车移动时耗，通常将翻箱落位堆栈限定在同贝位内。在进行集装箱翻倒时，可以放置翻倒箱的堆栈是同贝中有空箱位的堆栈上层，这些堆栈称为翻箱候选栈(或简称为候选栈)。

翻箱落位优选问题的主要决策信息是同贝内的集装箱提箱次序。实际中集装箱提箱次序具有不确定性，完整的提箱次序在翻箱落位选择决策时很难获取，但利用集卡提箱预约或装船计划等可获取近似的提箱时段，进而可构建非完全的提箱次序信息，即分时段(或先后次序组)的提箱次序信息，同时段(或先后次序组)内的集装箱先后次序不确定，不同时段(或先后次序组)内的集装箱先后次序确定。图2为一个10×5集装箱贝(栈L×层高H)内提箱先后次序组信息示意图，其中0表示当前待提取的集装箱，数字表示箱组的次序数，从1开始排序，越小提箱越早。

本申请优化目标：最小化堆场二次翻箱，减少堆场翻箱率；主要优化信息条件：同贝内集装箱非完全的提箱次序信息，即分时段(或先后次序组)的提箱次序信息。基于强化学习中的Q学习思想提出的集装箱堆场翻箱落位优选方法，关键技术主要包括：候选代表栈集合Φ，状态s及其组成的集合S、动作a及其集合A、立即回报函数r、Q值更新方程、动作探索和选择策略等。集装箱堆场翻箱落位优选方法的动作选择(即：待翻箱的翻倒放箱位置选择)过程：针对当前贝内集装箱状态s等条件，根据动作选择策略(状态-动作对的Q值)为当前待翻箱选择动作a(即：待翻箱的放箱位置)。集装箱堆场翻箱落位优选方法的动作选择策略的学习更新：根据状态s下执行动作a后，获得的立即回报r更新Q值表，实现动作选择策略的自适应性更新。集装箱堆场翻箱落位优选方法应用前可利用集装箱堆场提箱作业仿真对动作选择策略进行初始训练学习。

本申请中状态s是根据待翻箱所在贝的动态集装箱分布及其提箱组次序来构建，表示翻箱落位优选的决策依据信息；其状态向量由以下变量组成：待翻箱所在贝内剩余箱的提箱次序分组的总数x₁、待翻箱的提箱组次序数x₂、第1类候选栈变量x₃、第2类候选栈变量x₄、......第H类候选栈变量x_H+2；由H+2维的状态向量表示的所有可能状态s构成集装箱堆场翻箱落位优选方法的状态集合S，其中H表述待翻倒箱所在贝的额定堆高。具体描述如下：

待翻箱所在贝剩余箱的提箱次序分组的总数x₁：当前待翻箱所在贝剩余集装箱的提箱次序分组的总组数。该变量有N个可能取值(1～N)，其中N表示堆场贝内设定的最大提箱次序分组(或提箱时段划分)数。

待翻箱的提箱组次序数x₂：当前待翻箱的提箱组次序数。该变量有x₁个可能取值(1～x₁)，取值越小表示待翻箱在后续提箱过程中越早被提走。

第1类候选栈变量x₃：第1类候选栈特征变量。该变量有2个可能取值(0或1)，其中0表示当前待翻箱所在贝中没有第1类候选栈；1表示当前待翻箱所在贝中至少有一个第1类候选栈。

第2类候选栈变量x₄：第2类候选栈的代表栈中集装箱箱组的提箱次序数的最小值，即：

其中Φ₂表示第2类候选栈的代表栈集合(当Φ₂为空集时，x₄取0)，Ψ_h表示代表栈h内的集装箱集合(第2类候选栈的箱集合由1箱组成)，I_i表示集装箱i的箱组次序数。该变量有x₁+1个可能取值(0～x₁)，取0表示当前没有第2类候选栈。

第3类候选栈变量x₅：第3类候选栈的代表栈中集装箱箱组的提箱次序数的最小平均数取整，即：

其中floor(·)表示下取整函数，Φ₃表示第3类候选栈的代表栈集合(当Φ₃为空集时，x₅取0)，Ψ_h表示代表栈h内的集装箱集合(第3类候选栈的箱集合由2箱组成)，I_i表示集装箱i的箱组次序数。该变量有x₁+1个可能取值(0～x₁)，取0表示当前没有第3类候选栈。

……

第H类候选栈变量x_H+2：第H类候选栈的代表栈中集装箱箱组的提箱次序数的最小平均数取整，即：

其中floor(·)表示下取整函数，Φ_H表示第H类候选栈的代表栈集合(当Φ_H为空集时，x_H+2取0)，Ψ_h表示代表栈h内的集装箱集合(第H类候选栈的箱集合由H-1箱组成)，I_i表示集装箱i的箱组次序数。该变量有x₁+1个可能取值(0～x₁)，取0表示当前没有第H类候选栈。

本申请中的动作集合A由H个基本动作组成，即{a₁,a₂,a₃,…,a_H,}。基本动作描述如下：

a₁：待翻箱的落箱位为第1类候选栈的代表栈上方，若第1类候选栈的代表栈集合由多个代表栈，则选择距离待翻箱最近的代表栈；

a₂：待翻箱的落箱位为第2类候选栈的代表栈上方，若第2类候选栈的代表栈集合由多个代表栈，则选择距离待翻箱最近的代表栈；

a₃：待翻箱的落箱位为第3类候选栈的代表栈上方，若第3类候选栈的代表栈集合由多个代表栈，则选择距离待翻箱最近的代表栈；

……

a_H：待翻箱的落箱位为第H类候选栈的代表栈上方，若第H类候选栈的代表栈集合由多个代表栈，则选择距离待翻箱最近的代表栈。

本申请提出的集装箱堆场翻箱落位优选方法中用A^*(s)表示当前翻箱落位优选状态s下的可执行动作集合。A^*(s)＝A–{状态s下不可执行的动作}，其中当状态s下的状态变量x_i+2＝0时，基本动作a_i为不可执行动作，i＝1,2,…,H。

本申请将集装箱堆场翻箱落位优选实际问题的关键决策条件(不完全提箱信息)构建成非完全的提箱次序，即分时段(或先后次序组)的提箱次序，同时段(或先后次序组)内的集装箱先后次序不确定，不同时段(或先后次序组)内的集装箱先后次序确定。把不完整提箱信息条件下的集装箱堆场翻箱落位优选问题转化为：分时段(或先后次序组)的提箱次序条件下的集装箱堆场贝内翻箱落位优选问题；模拟学习阶段，Q值表通过与堆场提箱作业仿真系统的动作指令与反馈交互，获取Q值学习的状态和立即回报信息，不断学习更新，逐渐逼近稳定优值。在Q值翻箱落位优选应用阶段，Q值表通过与堆场实际提箱作业系统的翻箱动作指令与反馈交互，获取Q值自适应性学习的状态和立即回报信息，更新Q值表，适应堆场翻箱落位作业环境变化。

实施例2

根据某集装箱码头堆场提箱作业资料为背景，设计本发明的技术方案的实验，对其有益效果进行分析。针对当前主要的集装箱堆场贝位规模，设计了5种贝位规模工况，参数如表1所示；集装箱的提箱时间划分了9个时段，各时段的分布概率相等；集装箱在贝位各堆栈的分布为均匀分布。每种工况模拟生成100个算例，统计分析其效果。

表1实验集装箱贝位参数

本申请技术方案效果分析对比：背景技术中的现有技术方法(3)中的两个技术方案(简称OH和IH)。需要说明的是，上述两种方案比本申请要求更完全的提箱次序信息。

实验表明：本申请提出的方法可根据不完全提箱信息条件实时生成集装箱堆场翻箱落位的优选指令(时间消耗小于0.01s)；通过集装箱提箱过程中的Q值学习可实现堆场翻箱作业环境变化的翻箱落位优选指令的自适应调整；提高了Q算法的学习收敛速度，Q值模拟预学习时间小于15min。

实验定量效果分析以贝位内集装箱提取完毕执行的总的翻箱量、二次翻箱量和堆场翻箱率为分析指标。表2为不同贝位规模下本申请与估算公式的总翻箱量对比实验指标结果，其中估算公式为：

式中，a为集装箱堆栈数，c为集装箱堆栈额定堆存高度；改进比率的分母取两者对比中较大的数值。表3为不同贝位规模下本申请与对比技术方案的二次翻箱量和翻箱率比较的结果。可以看出：本申请方法较估算公式计算的总翻箱量减少40％以上；本申请方法优于OH和IH方法10％以上；本申请可降低堆场总翻箱率2％以上。对于月均吞吐量10万自然箱的码头来说，翻箱率每降低2％，全年可节约翻箱作业成本120万元，节约额外机时1000小时(翻箱成本按50元，翻箱机时按2.5分钟测算)。

表2不同贝位规模下本申请与估算公式的总翻箱量对比

表3不同贝位规模下本申请与对比技术方案的二次翻箱量和翻箱率比较

本申请中的词语解释如下：

集装箱堆场翻箱：针对采用多层堆放的集装箱堆场，在提取集装箱时，如果提取的目标集装箱(简称“目标箱”)上方有其他集装箱(称作“阻碍箱”或“待翻箱”)，则需要将目标箱上的阻碍箱翻倒到其他箱位，然后再提取目标箱。翻倒一个阻碍箱称作一次翻箱。

集装箱堆场二次翻箱：在集装箱堆场提箱过程中，集装箱被翻倒一次后，再次被翻倒一次计一次二次翻箱。

集装箱堆场翻箱率：集装箱堆场的总翻箱次数与总进出箱量的比值。

翻箱落位优选问题：在翻倒阻碍箱时，为待翻箱选择落箱位置的优化问题，目标为减少堆场二次翻箱量。

翻箱候选栈：在进行集装箱翻倒时，可以放置翻倒箱的堆栈是同贝中有空箱位的堆栈，这些堆栈称为翻箱候选栈，或简称为候选栈。

箱组次序数：表示集装箱箱组的提箱次序，从1开始排序，越小提箱越早。同组箱具有相同的次序数，提箱先后次序不确定；不同箱组的集装箱提箱次序根据箱组次序数确定，越小提箱越早。

以上所述，仅为本发明创造较佳的具体实施方式，但本发明创造的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内，根据本发明创造的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明创造的保护范围之内。

Claims

1.一种不完全提箱信息下的集装箱堆场翻箱落位优选方法，其特征在于：步骤1，利用集装箱堆场提箱作业仿真对设计的Q值表进行模拟学习，获得模拟学习后的Q值表；步骤2，利用学习后的Q值表和动作选择策略动态生成集装箱翻箱落位的动作指令，根据动作指令选择待翻箱的落箱箱位，在堆场提箱作业过程中根据动作指令的执行反馈来自适应地更新Q值表；

步骤1的具体实现步骤是：

步骤11：用0值初始化Q(s_t，a_t)值表，设置折扣因子γ、参数α₀和p_α，探索策略参数ε₀和p_ε，终止判断参数N_e和e_T；

步骤12：令参数n＝0，ES＝0，E＝0；

步骤13：接收集装箱堆场提箱作业模拟系统的翻箱落位动作指令请求，请求中包括当前翻箱落位状态信息s_t；

步骤14：利用学习阶段探索策略选择动作a_t，生成翻箱落位动作指令，传输给集装箱堆场提箱作业模拟系统；令参数tmp＝Q(s_t，a_t)；

步骤15：接收集装箱堆场提箱作业模拟系统执行翻箱落位动作a_t后的立即回报函数r和后续新状态s_t+1，利用Q值更新方程更新Q值表中的Q(s_t，a_t)项；

步骤16：令参数E＝E+|Q(s_t，a_t)-tmp|，ES＝ES+Q(s_t，a_t)；

步骤17：如果n＜N_e，那么n＝n+1，转步骤12；否则，转步骤18；

步骤18：如果e_T＜E/ES，转步骤12；否则，输出Q值表，结束。

2.根据权利要求1所述一种不完全提箱信息下的集装箱堆场翻箱落位优选方法，其特征在于：学习阶段探索策略具体为：

步骤141：计算当前动态的动作探索概率ε_τ；

步骤142：随机生成一个0～1之间的数k；

当前状态s下最大Q值对应的可行动作；

动态的动作探索概率ε_τ，其计算公式为：

其中，ε₀和p_ε为动态的动作探索概率参数，τ为Q值已学习更新的总次数。

3.根据权利要求1所述一种不完全提箱信息下的集装箱堆场翻箱落位优选方法，其特征在于：针对模拟学习阶段的Q值更新方程如下：

其中

α_τ为学习因子，

α₀和p_α为学习因子参数，τ为Q值已学习更新的总次数；

γ为折扣因子；

r(s_t，a_t)为在t时刻翻箱落位优选状态s_t下，执行动作a_t后产生的立即回报；

Q(s_t，a_t)为当前策略下状态-动作对(s_t，a_t)的累计奖赏值；

为在执行动作a_t后的状态s_t+1下，不同动作a的最小Q值；

A^*(s+1)为翻箱落位优选状态s+1下的可执行动作集合。

4.根据权利要求1所述一种不完全提箱信息下的集装箱堆场翻箱落位优选方法，其特征在于：步骤2的具体实现步骤是：

步骤22：接收集装箱堆场提箱作业控制系统的翻箱落位动作指令请求，请求中包括当前翻箱落位优选状态信息s_t；

步骤24：接收集装箱堆场提箱作业控制系统动作a_t执行后立即回报函数r和新状态s_t+1，利用Q值更新方程更新Q值表中的Q(s_t，a_t)项，转步骤22。

5.根据权利要求4所述一种不完全提箱信息下的集装箱堆场翻箱落位优选方法，其特征在于：所述应用阶段动作策略具体为：

步骤231：随机生成一个0～1之间的数k；

当前状态s下最大Q值对应的可行动作；

针对应用阶段的Q值更新方程如下：

其中

α为学习因子；

γ为折扣因子；

Q(s_t，a_t)为当前策略下状态-动作对(s_t，a_t)的累计奖赏值；

为在执行动作后的状态s_t+1下，不同动作a的最大Q值；

A^*(s+1)为翻箱落位优选状态s+1下的可执行动作集合。

6.根据权利要求1所述一种不完全提箱信息下的集装箱堆场翻箱落位优选方法，其特征在于：模拟阶段和应用阶段中执行动作后的立即回报函数r表示为：执行动作后避免了翻箱的奖赏值或引发翻箱的负奖赏值；具体函数公式为：

7.根据权利要求1所述一种不完全提箱信息下的集装箱堆场翻箱落位优选方法，其特征在于：分别用L和H表述待翻倒箱所在贝的额定堆栈数和额定堆高，根据堆栈中已堆存的集装箱数量将当前翻箱作业的翻箱候选栈分为H类，其中第1类候选栈没有堆存箱，第2类候选栈已堆存1个箱，以此类推，第H类候选栈已堆存H-1个箱；用I_i表示集装箱i的组次序数，用I^* _h表示集装箱堆栈h的所有集装箱中最小的箱组次序数，某类候选栈的代表栈集合Φ由满足以下条件的同类候选栈组成，第i类候选栈的代表栈集合表示为：

其中，I_c表示当前待翻箱的箱组次序数；

8.根据权利要求2所述一种不完全提箱信息下的集装箱堆场翻箱落位优选方法，其特征在于：所述状态s是根据待翻箱所在贝的动态集装箱分布及其提箱组次序来构建，表示翻箱落位优选的决策依据信息；其状态向量由以下变量组成：待翻箱所在贝内剩余箱的提箱次序分组的总数x₁、待翻箱的提箱组次序数x₂、第1类候选栈变量x₃、第2类候选栈变量x4、......第H类候选栈变量x_H+2；由H+2维的状态向量表示的所有可能状态构成集装箱堆场翻箱落位优选方法的状态集合S，其中H表述待翻倒箱所在贝的额定堆高；具体描述如下：

待翻箱所在贝剩余箱的提箱次序分组的总数x₁：当前待翻箱所在贝剩余集装箱的提箱次序分组的总组数；该变量有N个可能取值，其中N表示堆场贝内设定的最大提箱次序分组数；

待翻箱的提箱组次序数x₂：当前待翻箱的提箱组次序数；该变量有x₁个可能取值，取值越小表示待翻箱在后续提箱过程中越早被提走；

第1类候选栈变量x₃：第1类候选栈特征变量；该变量有2个可能取值：0或1，其中0表示当前待翻箱所在贝中没有第1类候选栈；1表示当前待翻箱所在贝中至少有一个第1类候选栈；

其中Φ₂表示第2类候选栈的代表栈集合，当Φ₂为空集时，x₄取0；，Ψ_h表示代表栈h内的集装箱集合，I_i表示集装箱i的箱组次序数；该变量有x₁+1个可能取值，取0表示当前没有第2类候选栈；

其中floor(·)表示下取整函数，Φ₃表示第3类候选栈的代表栈集合，当Φ₃为空集时，x₅取0，Ψ_h表示代表栈h内的集装箱集合，I_i表示集装箱i的箱组次序数；该变量有x₁+1个可能取值，取0表示当前没有第3类候选栈；

......

其中floor(·)表示下取整函数，Φ_H表示第H类候选栈的代表栈集合，当Φ_H为空集时，x_H+2取0，Ψ_h表示代表栈h内的集装箱集合，I_i表示集装箱i的箱组次序数；该变量有x₁+1个可能取值(0～x₁)，取0表示当前没有第H类候选栈。

9.根据权利要求1所述一种不完全提箱信息下的集装箱堆场翻箱落位优选方法，其特征在于：动作集合A由H个基本动作组成，即{a₁，a₂，a₃，...，a_H，}；基本动作描述如下：

......

a_H：待翻箱的落箱位为第H类候选栈的代表栈上方，若第H类候选栈的代表栈集合由多个代表栈，则选择距离待翻箱最近的代表栈；

用A^*(s)表示当前翻箱落位优选状态s下的可执行动作集合；A^*(s)＝A-{状态s下不可执行的动作}，其中当状态s下的状态变量x_i+2＝0时，基本动作a_i为不可执行动作，i＝1，2，...，H。