CN115511151A

CN115511151A - 集装箱落位筛选方法、系统、存储介质和电子设备

Info

Publication number: CN115511151A
Application number: CN202210993739.1A
Authority: CN
Inventors: 叶增健; 郑克欧; 江坚; 李特; 马振华
Original assignee: Sinotrans South China Co ltd
Current assignee: Sinotrans South China Co ltd
Priority date: 2022-08-18
Filing date: 2022-08-18
Publication date: 2022-12-23

Abstract

本发明提供了一种集装箱落位筛选方法、系统、存储介质和电子设备，所述方法通过构建集装箱的3D堆场模型，结合所述3D堆场模型、所述深度学习模型进行迭代训练，而后接收待落位的集装箱的装卸指令，根据训练完成的所述深度学习模型确定当前待落位集装箱的最优落位以及操作路径，根据所述操作路径驱动作业机构将所述待落位集装箱移动至所述最优落位。本申请的集装箱落位筛选方法充分考虑了当前堆场内集装箱的堆放情况，并通过评估关键指标对于深度学习模型进行训练，能够使得确定的落位和操作路径根据准确，较实际翻箱率有较高的优化效果，具备实际生产应用的可行性。

Description

集装箱落位筛选方法、系统、存储介质和电子设备

技术领域

本发明涉及港口码头堆场管理技术领域，具体涉及一种集装箱落位筛选方法、系统、存储介质和电子设备。

背景技术

集装箱运输作为航海运输最为常见的运输方式，依赖于港口码头、场站和仓库等基建设施能够完成高效作业。近些年来，港口码头的吞吐量呈现爆发式增长，面对越来越大堆场管理压力，粗犷的装卸计划，缺乏数据支撑的调度决策带来的如作业效率低、作业成本高等问题愈发凸显，最具代表性的问题就是集装箱堆场的翻箱率居高不下，无论是对于堆场运营方还是参与作业的运输司机而言，都带来诸多不便和高额的成本。

翻箱问题的产生核心是集装箱堆场的堆存状态与实际提箱顺序不匹配导致的。由于在集装箱在入堆场时很难对后续的提箱顺序进行预测，因此堆场的计划调度人员仅能通过经验规则对集装箱进行堆放，不可避免的就会在提箱过程中产生翻箱，而在翻箱的过程中，如果选择不合理的阻碍箱落位，将会进一步导致后续的提箱产生二次或者二次以上的翻箱，因此，入堆及翻箱落位优选是降低集装箱堆场翻箱的重要途径之一，是该领域研究的难点问题。

目前求解该问题采用的主要技术方法有以下四类：

(1)基于设定策略的翻箱落位优选方法。该类方法策略的制定主要依据堆场的计划调度人员经验规则，优选策略主要有：同贝最近堆栈策略、同贝最低堆栈策略、同贝最高堆栈策略、同提单堆叠及其策略组合等。

(2)基于递归或分支定界的翻箱落位优选方法。该类方法通常基于已知的贝位内的集装箱提箱次序，利用递归或者分支定界的思想计算贝位所有可能的落箱位置上的总翻箱量，选取总翻箱量最小的落箱位置。

(3)基于启发式策略的翻箱落位优选方法。该类方法利用集装箱贝位内的箱分布信息和提箱次序信息，构造每个候选箱位的预期翻箱量(近似值)，基于预期翻箱量最小原则选择翻倒箱的落箱位置。

以上方法存在的缺点：

上述优选方法的问题规模均为单贝的问题规模，与实际生产作业的问题规模来说，缺乏一定的现实意义；绝大部分的方法均以设定提箱顺序确定的前提，且不考虑装卸过程中有集装箱入堆的情况，即不考虑入堆选位，与实际作业不符；由于问题规模仅考虑单贝，也没有将作业机构设备的运动距离纳入到优化目标中，仅考虑翻箱量不够严谨；大部分堆场的状态、集装箱的属性状态都被简化，如箱型均考虑标准箱，与实际堆场和集装箱的情况不符，缺乏实际应用场景。

发明内容

为此，需要提供一种集装箱落位筛选的技术方案，用以解决的集装箱落位筛选策略以设定提箱顺序确定为前提，导致落位的筛选不够精准，适用场景差等缺点。

为实现上述目的，在第一方面，本发明提供了一种基于深度学习的集装箱落位筛选方法，所述方法包括以下步骤：

S1：构建集装箱的3D堆场模型；

S2：获取集装箱堆场的历史堆场数据及历史作业数据，根据所述历史堆场数据及历史作业数据确定深度学习模型中的参数信息；

S3：结合所述3D堆场模型、所述深度学习模型进行迭代训练，将训练过程的评估指标与参考作业数据进行比对，当两者误差在预设误差范围内时，所述深度学习模型训练完成；

S4：接收待落位的集装箱的装卸指令，根据步骤S3训练完成的所述深度学习模型确定当前待落位集装箱的最优落位以及操作路径，根据所述操作路径驱动作业机构将所述待落位集装箱移动至所述最优落位。

进一步地，步骤S1包括：

S11：确定放置集装箱的箱区的规模大小；

S12：根据堆场的箱数据对当前堆场内堆放的各个集装箱进行渲染；所述箱数据包括堆位尺寸和集装箱的箱尺寸；

S13：根据集装箱的堆放规则要求，确定当前堆场内允许的入堆落位或翻箱落位集合；

S14：统计各堆场的关键指标并在3D堆场模型中显示；所述关键指标包括堆场利用率、当前出入堆集装箱个数、总翻箱量、单个柜的翻箱量、作业机构运动至堆位的距离中的任一项或多项。

进一步地，所述参数信息包括堆场状态特征、动作状态特征和奖励函数；

所述堆场状态特征根据堆场的属性特征和集装箱的属性特征确定；

所述动作状态特征为将当前集装箱置于堆场中的某一堆位需要进行的操作动作集合；

所述奖励函数用于计算奖励积分，所述奖励积分根据最小化翻箱量、二次翻箱量以及作业机械的运动距离确定。

进一步地，所述评估指标包括每次迭代的奖励积分总和、翻箱量、二次翻箱量、作业结构运动距离中的任一项或多项。

进一步地，步骤S3包括：

S31：初始化t₀时刻状态空间S，具体包括：设置当前集装箱堆场的状态以及即将作业的集装箱操作，并设置单步允许的最大错误操作数；

S32：根据t时刻环境状态s_t，选择动作空间A中的某个可选动作a_t，判断该动作是否满足业务校验规则，如不满足则存档当前状态，记录奖励r(s_t,a_t)，并将单步错误操作数加1，继续选择下一动作进行判断，直至单步错误数到达设置允许的最大错误操作数，结束当前迭代；如果当前所选择的动作匹配当前即将作业的集装箱状态且符合业务校验规则，记录奖励r(s_t,a_t)，进入t+1时刻并更新环境状态为S_t+1；

S33：通过设置不同的迭代次数或模型参数，对模型进行训练，统计训练过程中的关键，将所述关键评估指标与参考作业数据进行比对，当两者误差在预设误差范围内时，所述深度学习模型训练完成。

进一步地，所述方法还包括：

将步骤S3训练完成的深度学习模型置入码头操作系统的计划调度决策模块，所述计划调度决策模块用于接收待落位的集装箱的装卸指令，并通过所述训练完成的深度学习模型输出最优入堆和翻箱落位。

进一步地，所述方法还包括：

当判定本次翻箱率高于预设值时，对本次模型输出的最优入堆和翻箱落位进行记录，将记录的数据重新输入训练完成的模型进行优化迭代。

在第二方面，本发明还提供了一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被执行时实现如本发明第一方面所述的方法。

在第三方面，本发明还提供了一种服务器，包括：

存储介质，为本发明第二方面所述的存储介质；

处理器，与所述存储介质电连接，用于执行所述存储介质存储的计算机程序以实现如本发明第一方面所述的方法。

在第四方面，本发明提供了一种基于深度学习的集装箱落位筛选系统，包括：

电子设备，为如本发明第三方面所述的电子设备；

作业机构，用于接收所述电子设备的控制命令，根据所述控制命令将所述待落位集装箱移动至所述最优落位。

区别于现有技术，本发明具有以下特点：

本发明提供了一种基于深度强化学习的集装箱落位筛选方法、系统、存储介质和电子设备，所述方法通过构建集装箱的3D堆场模型，结合所述3D堆场模型、所述深度学习模型进行迭代训练，而后接收待落位的集装箱的装卸指令，根据训练完成的所述深度学习模型确定当前待落位集装箱的最优落位以及操作路径，根据所述操作路径驱动作业机构将所述待落位集装箱移动至所述最优落位。本申请的集装箱落位筛选方法充分考虑了当前堆场内集装箱的堆放情况，并通过评估关键指标对于深度学习模型进行训练，能够使得确定的落位和操作路径根据准确，较实际翻箱率有较高的优化效果，具备实际生产应用的可行性。

附图说明

图1为本发明第一种实施方式涉及的基于深度强化学习的集装箱落位筛选方法的流程图；

图2为本发明第二种实施方式涉及的基于深度强化学习的集装箱落位筛选方法的流程图；

图3为本发明第三种实施方式涉及的基于深度强化学习的集装箱落位筛选方法的流程图；

图4为入堆及翻箱落位优选马尔可夫决策过程示意图；

图5为状态空间示意图；

图6为集装箱堆场翻箱问题、可选落位示意图；

图7为模型训练迭代的流程图；

图8为本发明一实施例涉及的初始化贝内集装箱堆存状态图；

图9为本发明一实施例涉及的翻箱量随迭代下降的曲线图；

图10为本发明一实施例涉及的小车运动距离随迭代下降的曲线图；

图11为本发明另一实施例涉及的初始化箱区内集装箱堆存状态图；

图12为本发明另一实施例涉及的翻箱量随迭代下降的曲线图；

图13为本发明另一实施例涉及的二次翻箱量随迭代下降的曲线图；

图14为本发明另一实施例涉及的小车运动距离随迭代下降的曲线图；

图15为本发明另一实施例涉及的大车运动距离随迭代下降的曲线图；

图16为本发明一实施方式涉及的电子设备的示意图；

图17为本发明一实施方式涉及的基于深度强化学习的集装箱落位筛选系统的示意图。

具体实施方式

为详细说明本申请可能的应用场景，技术原理，可实施的具体方案，能实现目的与效果等，以下结合所列举的具体实施例并配合附图详予说明。本文所记载的实施例仅用于更加清楚地说明本申请的技术方案，因此只作为示例，而不能以此来限制本申请的保护范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中各个位置出现的“实施例”一词并不一定指代相同的实施例，亦不特别限定其与其它实施例之间的独立性或关联性。原则上，在本申请中，只要不存在技术矛盾或冲突，各实施例中所提到的各项技术特征均可以以任意方式进行组合，以形成相应的可实施的技术方案。

除非另有定义，本文所使用的技术术语的含义与本申请所属技术领域的技术人员通常理解的含义相同；本文中对相关术语的使用只是为了描述具体的实施例，而不是旨在限制本申请。

在本申请的描述中，用语“和/或”是一种用于描述对象之间逻辑关系的表述，表示可以存在三种关系，例如A和/或B，表示：存在A，存在B，以及同时存在A和B这三种情况。另外，本文中字符“/”一般表示前后关联对象是一种“或”的逻辑关系。

在本申请中，诸如“第一”和“第二”之类的用语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何实际的数量、主次或顺序等关系。

在没有更多限制的情况下，在本申请中，语句中所使用的“包括”、“包含”、“具有”或者其他类似的表述，意在涵盖非排他性的包含，这些表述并不排除在包括要素的过程、方法或者产品中还可以存在另外的要素，从而使得包括一系列要素的过程、方法或者产品中不仅可以包括那些限定的要素，而且还可以包括没有明确列出的其他要素，或者还包括为这种过程、方法或者产品所固有的要素。

与《审查指南》中的理解相同，在本申请中，“大于”、“小于”、“超过”等表述理解为不包括本数；“以上”、“以下”、“以内”等表述理解为包括本数。此外，在本申请实施例的描述中“多个”的含义是两个以上(包括两个)，与之类似的与“多”相关的表述亦做此类理解，例如“多组”、“多次”等，除非另有明确具体的限定。

为了便于后续说明，以下先对本发明涉及的一些名词进行定义：

深度学习：本申请涉及的深度学习优选是指深度强化学习，深度强化学习是将深度学习的感知能力和强化学习的决策能力相结合的一种人工智能方法，由智能体和训练环境组成，智能体通过从观察环境的状态进行动作，并获得奖励，智能体的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大；深度强化学习解决传统强化学习(如Q-learning)无法描述复杂状态空间、模型对新状态泛化能力较差问题。

翻箱：如图6所示，在提取某一集装箱时必须要先移走另一集装箱，则待提取的集装箱称为目标箱，必须要移走的集装箱称为阻碍箱，移走阻碍箱的操作叫做翻箱。

二次翻箱：因为翻箱操作已经产生过一次翻箱的阻碍箱，在后续又因为阻碍到其他目标箱的提取，又再进行了一次翻箱操作，记为一次二次翻箱。

翻箱率：如下公式所示，翻箱率为翻箱数与提箱数的比值。

其中R_r代表翻箱率，P_n提箱数，P_r代表翻箱次数。

集装箱堆场入堆及翻箱落位优选问题：入堆落位优选是在集装箱进入堆场时根据当前堆场状态优选集装箱落位的问题；翻箱落位优选是指在多层堆放的集装箱堆场内，提取非最表层的集装箱时，需要将该集装箱上层的阻碍箱移走到堆场的其他堆位，优选该阻碍箱落位的问题。

如图1所示，本发明提供了一种基于深度学习的集装箱落位筛选方法，所述方法包括以下步骤：

S1：构建集装箱的3D堆场模型；

上述方案在对集装箱的落位进行筛选时，充分考虑了当前堆场内集装箱的堆放情况，并通过评估关键指标对于深度学习模型进行训练，能够使得确定的落位和操作路径根据准确，较实际翻箱率有较高的优化效果，具备实际生产应用的可行性。

如图2所示，步骤S1包括：

S11：确定放置集装箱的箱区的规模大小；

S14：统计各堆场的关键指标并在3D堆场模型中显示。

在步骤S11中，假定箱区的规模大小15×16×4，则表示该箱区共15行、16个贝和4层的层高限制。

在步骤S13中，堆放规则包括重柜吉柜不能混放、堆场利用率低于80％不允许进出口柜混放、不同尺寸的集装箱不允许混放等，通过设置堆放规则，可以确定每次允许的入堆落位或翻箱落位集合。

再步骤S14中，所述关键指标包括堆场利用率、当前出入堆集装箱个数、总翻箱量、单个柜的翻箱量、作业机构运动至堆位的距离中的任一项或多项。

通过步骤S11-S14的方式，能够将当前堆场堆存集装箱的情况，以及各个堆位的属性特征通过模型进行展示，便于后续计算处理。

在某些实施例中，步骤S2还包括步骤：：确定集装箱翻箱落位优选问题的马尔可夫决策过程模型并收集集装箱堆场的历史堆场数据及历史作业数据，根据所述历史堆场数据及历史作业数据确定深度学习模型中的参数信息。

优选的，所述参数信息包括堆场状态特征、动作状态特征和奖励函数；所述堆场状态特征根据堆场的属性特征和集装箱的属性特征确定；所述动作状态特征为将当前集装箱置于堆场中的某一堆位需要进行的操作动作集合；所述奖励函数用于计算奖励积分，所述奖励积分根据最小化翻箱量、二次翻箱量以及作业机械的运动距离确定。

进一步的，步骤S2的具体实现方式如下：

S21：首先定义相关符号释义如下：

B，R，LT：分别代表堆场共多少贝、共多少行以及堆存限定的最高高度，例如对于4×4×4的堆场空间，则B＝4，R＝4，LT＝4；

C_i：代表第i个等待操作的集装箱，i＝{1，2，3，…，Nc}；

C_ij：代表第i个等待操作集装箱的操作类型，j＝{1，2，3}，其中j为1代表入堆操作，j为2代表离场操作，j为3代表同贝翻箱操作；

C_k：代表在堆场内的集装箱，k＝{1，2，3，…，R×B×LT}；

C_kb：代表第k个场内集装箱的贝位，1≤C_kb≤2×B-1，对于单贝问题，Ckb≡2；

C_kr：代表第k个场内集装箱的行数，1≤C_kr≤R；

C_kt：代表第k个场内集装箱的层高，1≤C_kr≤LT；

DL_Ci：代表第i个操作的集装箱作业完成后大车的移动距离；

DSCi：代表第i个操作的集装箱作业完成后小车的移动距离；

M_Ci：代表第i个等待操作的集装箱产生的翻箱量；

H_Ci：代表当前集装箱入堆操作压了几个柜，i＝{1，2，3}；

C_k：代表在堆场内的集装箱，k＝{1，2，3，…，R×B×LT}；

C_km：代表在堆场内的第k个集装箱当前已经被翻的次数，若Ckm大于1，则证明该箱产生了二次及以上次的翻箱量；

LD_Ci或LD_Ck：代表作业或场内集装箱距离预测堆存天数还剩多少天；

RD_Ci或RD_Ck：代表作业或场内集装箱距离当前堆存天数；

PD_Ci或PD_Ck：代表作业或场内集装箱预测堆存天数；

s₀，s_t，s_i：分别代表环境的初始状态、终止状态和当前状态，t≤Nc；

a₀，a_t，a_i：分别代表在初始状态、终止状态和当前状态所选择的动作，t≤Nc；

S22：根据马尔可夫特性的定义，当一个随机过程在给定现在状态及所有过去状态情况下，其未来状态的条件概率分布仅依赖于当前状态，而集装箱堆场的当前状态与过去状态(即该过程的历史路径)是条件独立的，因此可以认为集装箱堆场的作业过程具备有马尔可夫特性，该过程是一个马尔可夫决策(S，A，{Psa}，{Rsa}，V)过程，将其过程绘制马尔可夫决策过程示意图如附图4所示。

S23：深度强化学习状态空间特征(即堆场状态特征)、动作状态特征，状态空间特征的选择方面可以基于与集装箱提箱序列相关特征，例如基于某些集装箱提箱序列相关特征确定了如下表1、附图5所示的状态空间特征及表2所示动作空间特征：

表1堆场状态空间特征

动作空间特征内动作的确定主要由作业动作类型和堆场规格有关，如附图6展示了一个4×4×4的堆场空间，即4行(Row)、4贝(Bay)、限高4层(Tier)，在所有堆场栈层高都低于最高限制层高时，考虑上箱型，枚举一个集装箱的落位可以满足最大的可选项，即2×4×4＝32个落位可供选择，再考虑上作业动作类型，如入堆、移箱、离场等，总的可选动作可以达到3×32＝96个动作，动作空间特征选择具体如下：

集装箱相关特征	取值范围
		集装箱入堆所属的贝	[1,2×B-1]
集装箱入堆所属的栈	[1,R]
		操作类型	0,1,2,3

表2动作空间特征

在本实施例中，所述评估指标包括每次迭代的奖励积分总和、翻箱量、二次翻箱量、作业结构运动距离中的任一项或多项。因而步骤S23之后可以进入步骤S24：依据最小化翻箱量、二次翻箱量以及作业机械运动距离为目标，设计奖励函数。在处于状态s_t的情况下，选择动作a_t之后，环境反馈的奖励用r(s_t,a_t)表示，得分高低能够反馈出当前动作的好坏。

单步奖励为所有规则奖励reward之和：

r(s_t，a_t)＝∑reward

环境奖励获取规则如下所示，可以是下方九种规则的任一项或多项：

(1)根据大车运动的曼哈顿距离，分为两个阶段，以贝数的四分之一分界点计算奖惩分数，如公式(1)所示：

(2)根据小车运动的曼哈顿距离，分为两个阶段，以行数的二分之一分界点计算奖惩分数，如公式(2)所示：

(3)根据翻箱次数计算奖惩分数，故如公式(3)所示：

(4)根据压柜个数计算奖惩分数，如龙门吊机械作业，最高堆叠4层，因此最大压箱个数为3个，压得越少得分越高，故如公式(4)所示：

(5)根据距离预测堆存天数剩余天数计算奖惩分数，如公式(5)所示：

(6)根据被压柜实际堆存天数计算奖惩分数，如公式(6)所示：

(7)根据进出口、内外贸混放情况计算得分，如果没有混放加6分(不同应用场景可以设置不同数值)，否则扣6分(不同应用场景可以设置不同数值)。例如堆场中出现将内贸集装箱和外贸集装箱叠在同一栋的情况，奖励函数将会扣分。

(8)根据是否压到已经预约、绑定、办单、扣箱、查验、指定柜等状态的集装箱，如果没有加3分(不同应用场景可以设置不同数值)，否则扣3分(不同应用场景可以设置不同数值)。

(9)操作完成入堆和离场集装箱记录增加40分(不同应用场景可以设置不同数值)，完成所有操作记录增加1000分(不同应用场景可以设置不同数值)。对于完整箱区的问题规模而言，整个奖励是比较稀疏的，增加单步操作的奖励和完整操作的奖励能够避免agent陷入在局部最优解。

在某些实施例中，如图3所示，步骤S3包括：

在步骤S33的模型训练过程中，对于关键的奖励数据以及业务数据进行统计。所述关键的奖励数据包括单次迭代的奖励数据，所述业务数据包括翻箱量、大车距离、小车距离等具体的业务指标。对关键的奖励数据以及业务数据进行统计，便于后续奖励函数的绘制和业务指标曲线的绘制，

进一步地，将步骤S3训练完成的深度学习模型置入码头操作系统的计划调度决策模块，所述计划调度决策模块用于接收待落位的集装箱的装卸指令，并通过所述训练完成的深度学习模型输出最优入堆和翻箱落位。

优选的，所述方法还包括：当判定本次翻箱率高于预设值时，对本次模型输出的最优入堆和翻箱落位进行记录，将记录的数据重新输入训练完成的模型进行优化迭代。

通过本发明设计的技术方案，能够取得如下的技术效果：通过将集装箱堆场实际生产作业进行建模，考虑了完整箱区、有入堆出堆且涵盖如集装箱尺寸等各种因素，具有实施到实际生产作业的可能性；基于深度强化学习算法，解决了现有算法对于大规模问题求解的局限性；提出了结合翻箱和机械运动距离进行多目标优化，更具实际意义；通过对比实际生产作业决策，翻箱率有较大比例的优化。

在第三方面，如图16所示，本发明还提供了一种电子设备10，包括存储介质102和处理器101，存储介质102为如第二方面所述的存储介质；处理器101与所述存储介质102电连接，用于执行所述存储介质存储的计算机程序以实现如第一方面所述的方法。

在第四方面，如图17所示，本发明还提供了一种深度学习的集装箱落位筛选系统，包括电子设备10和作业机构20，作业机构20用于接收所述电子设备的控制命令，根据所述控制命令将所述待落位集装箱移动至所述最优落位。

优选的，电子设备可以为计算机设备，包括但不限于：个人计算机、服务器、通用计算机、专用计算机、网络设备、嵌入式设备、可编程设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等。存储介质包括但不限于：RAM、ROM、磁碟、磁带、光盘、闪存、U盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。处理器包括但不限于CPU(中央处理器)、GPU(图像处理器)、MCU(微处理器)等。

以下结合两个实施例，对于本申请深度强化学习中智能体的训练过程进行展开说明。

实施例1：单贝问题规模求解

通过本申请的技术方案，不仅可以求解完整箱区规模问题，同样适用于单贝(Bay)规模问题的求解，本实施例选取某沿海地区二类码头F仓码一周内的01箱区01贝实际入堆和离场的操作记录，共计68条，其中离场记录34条，入堆34条，二者数量分布为1：1，由于实际作业可以跨贝翻箱，而单贝(Bay)问题规模不允许将阻碍箱翻到贝外，因此该实例优化效果无法与实际生产数据相对比，可以通过与常用的总翻箱量预估公式(不考虑有集装箱入堆)进行对比：

在上述公式中，a为集装箱堆栈数，在单贝中等于堆场的行(Row)数，c为集装箱额定堆存高度，也就是限高层(Tier)数，针对01箱区01贝的规模15行(Row)×4层(Tier)，可以求解总翻箱量预估值为：

本实施例针对的集装箱堆场单贝初始化状态的3D模型如图8所示，是一个规模为15×4的贝，即15行(Row)、限高为4层(Tier)。右下角为当前需要决策的集装箱作业，图8当前所示的是一个集装箱离场的操作。

针对上述案例，下面采用基于深度强化学习的入堆及翻箱落位优选方法对该段时间内的作业决策指令进行优化，可以看到，随着迭代次数的增加，图9所示的曲线中的翻箱量和图10所示的作业机构(如小车)的运动距离的均值曲线均呈现下降趋势，翻箱量收敛在42个左右，小车运动距离收敛在900左右，较预测值有9％左右的优化，在考虑有集装箱入堆的情况下，对于堆场利用率接近80％的堆场而言已经是非常不错的优化。

实施例2：完整箱区问题规模求解

同样选取某沿海地区码头F仓码一周内箱区实际入堆和离场的操作记录，共计102条，其中离场记录59条，入堆43条，二者数量分布接近6：4，实际作业的翻箱量为33个，翻箱率约为56％，处于较高的水平。

本实施例针对的集装箱堆场箱区的3D模型如图11所示，是一个规模为15×16×4的箱区，即是一个15行(Row)、16贝(Bay)以及限高为4层(Tier)的箱区。右下角为当前需要决策的集装箱作业，图11所示是一个翻箱阻碍箱的移箱操作。

针对上述案例，下面采用基于深度强化学习的入堆及翻箱落位优选方法对该段时间内的作业决策指令进行优化，可以看到，图12所示的、图13所示的二次翻箱量、图14所示的作业机构(如大车)的运动距离、以及图15所示的作业机构(如小车)的运动距离的均值曲线均呈现下降趋势，翻箱量收敛在18个左右，二次翻箱量收敛在2.75个，大车运动距离收敛在470左右，小车运动距离收敛在875左右，翻箱量、翻箱率上较实际值有近45％的优化，对于月均吞吐量为10万TEU的码头而言，翻箱率每降低2％，全年可节约翻箱作业成本60万元，节约额外机时1000小时(翻箱成本按25元/TEU算，翻箱机时按2.5分钟/TEU算)，因此本申请技术方案可以为码头全年节省近1350万元的翻箱成本，22500小时的翻箱机时。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.一种基于深度学习的集装箱落位筛选方法，其特征在于，所述方法包括以下步骤：

S1：构建集装箱的3D堆场模型；

2.如权利要求1所述的基于深度学习的集装箱落位筛选方法，其特征在于，步骤S1包括：

S11：确定放置集装箱的箱区的规模大小；

3.如权利要求1所述的基于深度学习的集装箱落位筛选方法，其特征在于，所述参数信息包括堆场状态特征、动作状态特征和奖励函数；

4.如权利要求3所述的基于深度学习的集装箱落位筛选方法，其特征在于，所述评估指标包括每次迭代的奖励积分总和、翻箱量、二次翻箱量、作业结构运动距离中的任一项或多项。

5.如权利要求1所述的基于深度学习的集装箱落位筛选方法，其特征在于，步骤S3包括：

6.如权利要求1所述的基于深度学习的集装箱落位筛选方法，其特征在于，所述方法还包括：

7.如权利要求6所述的基于深度学习的集装箱落位筛选方法，其特征在于，所述方法还包括：

8.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序被执行时实现如权利要求1至7任一项所述的方法。

9.一种电子设备，其特征在于，包括：

存储介质，为如权利要求8所述的存储介质；

处理器，与所述存储介质电连接，用于执行所述存储介质存储的计算机程序以实现如权利要求1至7任一项所述的方法。

10.一种基于深度学习的集装箱落位筛选系统，其特征在于，包括：

电子设备，为如权利要求9所述的电子设备；