CN117151310B

CN117151310B - 堆场内集装箱堆放位置排布模型建立、排布方法及装置

Info

Publication number: CN117151310B
Application number: CN202311415683.2A
Authority: CN
Inventors: 栾垚; 贾庆山; 王腾飞; 李智宇
Original assignee: Tsinghua University; CRSC Research and Design Institute Group Co Ltd
Current assignee: Tsinghua University; CRSC Research and Design Institute Group Co Ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-02-13
Anticipated expiration: 2043-10-30
Also published as: CN117151310A

Abstract

本说明书涉及集装箱作业优化技术领域，提供了一种堆场内集装箱堆放位置排布模型建立、排布方法及装置。该方法包括：将堆场按照运输列车的车厢位置划分为若干分片，每个分片负责堆放运输车厢在此车厢位置的全部集装箱；为每个分片构建相应的RMAB模型，并将每个分片中的每个栈作为相应RMAB模型的一个臂；基于RMAB模型设置每个分片中的每个栈的状态；将每个分片中的每个栈的状态作为神经网络的输入，利用强化学习方法训练神经网络获得Whittle指标估计模型，用于估计每个集装箱放置在对应分片的每个栈中时的Whittle指标。通过本说明书实施例，可以解决现有技术中求解效率低以及缺少最优性保证的问题。

Description

堆场内集装箱堆放位置排布模型建立、排布方法及装置

技术领域

本说明书涉及集装箱作业优化技术领域，尤其是涉及一种堆场内集装箱堆放位置排布模型建立、排布方法及装置。

背景技术

港口是海铁联运中连接海洋运输和铁路运输的重要转运节点。堆场作为港口中货物中转的区域，是港口转运效率的重要瓶颈，货主需要支付的存放费用也与集装箱在堆场的存放时间相关，提高堆场转运效率有利于提高海铁联运运输效率、降低货主成本。堆场中集装箱的转运时间即场桥完成所有集装箱搬运所花费的总时间。集装箱存放位置的选择会直接影响场桥移动的总距离，同一栈中不合适的集装箱堆放顺序也会带来额外的翻箱时间。因此有必要对集装箱堆放位置排布方式进行深入研究。

现有的集装箱位置排布方法通常分为两类，一种是基于特征匹配和规则的方法，这类方法主要基于“聚类”的思想，通过预先划分区域，将“类别相近”的集装箱放到相近的位置，从而可以统一运出，减少翻箱。另一类方法是基于优化问题求解的方法，这部分方法会给出一种翻箱时间的估计方式，并以最小化总翻箱时间为目标，同时考虑对多个集装箱的位置进行决策，构建混合整数规划问题，使用近似求解方法求解。尽管基于特征匹配和规则的方法操作简单，易于实现，但实际的集装箱类别可能是不均衡的、随时间变化的，虽然堆场分区和集装箱的对应关系可以按照某种周期调整，但是集装箱可以在堆场中存放多个调整周期，部分集装箱可能因此被堆放到次优的位置。而基于优化问题求解的方法需要联合考虑所有将到达货物的位置排布问题，其解空间随货物数量指数增长，导致求解效率低，且该类方法参数估计误差大，缺少最优性保证。因此，如何保证堆场集装箱位置排布的最优性，以及提高排布效率是所属技术领域技术人员需要解决的技术问题。

发明内容

鉴于目前堆场集装箱位置排布的效率和最优性不能兼顾，提出了本方案以便克服上述问题或者至少部分地解决上述问题。

一方面，本说明书的一些实施例的目的在于提供一种堆场内集装箱堆放位置排布模型建立方法，所述方法包括：

将堆场按照运输列车的车厢位置划分为若干分片，每个所述分片负责堆放运输车厢在此车厢位置的全部集装箱；

为每个所述分片构建相应的RMAB模型，并将每个所述分片中的每个栈作为相应RMAB模型的一个臂；

基于所述RMAB模型设置每个所述分片中的每个栈的状态；

将每个所述分片中的每个栈的状态作为神经网络的输入，利用强化学习方法训练神经网络拟合Whittle指标，以获得Whittle指标估计模型；所述Whittle指标估计模型用于估计每个集装箱放置在对应分片的每个栈中时的Whittle指标。

进一步地，所述利用强化学习方法训练神经网络拟合Whittle指标，包括：

按照随机策略选择每个所述分片中的每个栈的动作，并计算选择相应动作时产生的单步代价；

根据每个所述分片中的每个栈的动作以及状态，使用强化学习算法优化对Whittle指标的估计；所述每个栈的状态随对应动作执行而发生状态转移。

进一步地，所述每个栈的动作，包括：

第一动作，将下一个到达的集装箱放置到栈的最上方；

第二动作，将下一个到达的集装箱不放置到栈的最上方。

进一步地，所述计算所述每个栈选择相应动作时产生的单步代价，包括：

当执行第一动作时，单步代价为所述每个栈中移入新集装箱导致的运输代价和栈中现有集装箱离开带来的翻箱代价之和；

当执行第二动作时，单步代价为所述翻箱代价。

进一步地，所述每个所述分片中的每个栈的状态，包括：

第一状态分量，用于表示栈中现有集装箱堆放位置特征；

第二状态分量，用于表示每个所述分片后续将要到达的固定数量的集装箱特征；

第三状态分量，用于表示此栈中的集装箱数量是否达到上限的指示位；其中第三状态分量随第一状态分量动态变化；

第四状态分量，用于表示栈所在分片的翻箱区位置、栈所在分片的集卡运货区位置以及栈在所在分片中的位置。

进一步地，所述每个栈状态的状态转移过程，包括：

主动状态转移，从所述第二状态分量中移除首个集装箱及其相关特征，然后将所述首个集装箱移入相应栈中，同时更新相应分片的第一状态分量和第二状态分量；

被动状态转移，在所述更新后的第一状态分量中，根据所述首个集装箱到达的时间，将分片中在所述时间之前离开的集装箱及特征移除；其中先执行主动状态转移，再执行被动状态转移。

另一方面，本说明书的一些实施例还提供一种堆场内集装箱堆放位置排布模型建立装置，所述装置包括：

区域划分模块，用于将堆场按照运输列车的车厢位置划分为若干分片，每个所述分片负责堆放运输车厢在此车厢位置的全部集装箱；

分片模型构建模块，用于为每个所述分片构建相应的RMAB模型，并将每个所述分片中的每个栈作为相应RMAB模型的一个臂；

状态设置模块，用于基于RMAB模型，设置每个所述分片中的每个栈的状态；

Whittle指标拟合模块，用于将每个所述分片中的每个栈的状态作为神经网络的输入，利用强化学习方法训练神经网络拟合Whittle指标，以获得Whittle指标估计模型，所述Whittle指标估计模型用于估计每个集装箱放置在所述分片的每个栈中时的Whittle指标。

基于同一发明构思，本说明书的一些实施例还提供一种堆场内集装箱堆放位置排布方法，所述方法包括：

在每个集装箱到达时，按照此集装箱预定的运输列车车厢位置，选定存储此集装箱的目标分片；

根据所述目标分片中每个栈的状态，利用Whittle指标估计模型估计此集装箱放置在所述目标分片的每个栈中时的Whittle指标；

将此集装箱放置在所述目标分片中的Whittle指标最小的栈中。

进一步地，所述利用Whittle指标估计模型估计此集装箱放置在所述目标分片的每个栈中时的Whittle指标，包括：

利用Whittle指标估计模型估计此集装箱放置在所述目标分片的每个未达到容量上限的栈中时的Whittle指标。

进一步地，所述利用Whittle指标估计模型估计此集装箱放置在所述目标分片的每个栈中时的Whittle指标后，进一步包括：

当栈的容量达到容量上限时，设定集装箱放置在此栈中的Whittle指标为无穷大或剔除该Whittle指标。

另一方面，本说明书的一些实施例还提供一种堆场内集装箱堆放位置排布装置，所述装置包括：

分片选定模块，用于在每个集装箱到达时，按照此集装箱预定的运出列车车厢位置，选定存储此集装箱的目标分片；

Whittle指标估计模块，用于根据目标分片中每个栈的当前状态，利用所述Whittle指标估计模型估计此集装箱放置在所述目标分片的每个栈中时的Whittle指标；

位置确定模块，用于将此集装箱放置在所述目标分片中的Whittle指标最小的栈中。

另一方面，本说明书的一些实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被所述处理器运行时，执行上述方法的指令。

另一方面，本说明书的一些实施例还提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被计算机设备的处理器运行时，执行上述方法的指令。

另一方面，本说明书的一些实施例还提供了一种计算机程序产品，所述计算机程序产品包括计算机程序，所述计算机程序被计算机设备的处理器运行时，执行上述方法的指令。

本说明书的一些实施例提供的一个或者多个技术方案，至少具有如下的技术效果：

本说明书的实施例将堆场按照运输列车的车厢位置划分为若干分片，每个分片负责堆放运输车厢在此车厢位置的全部集装箱，之后为每个分片构建相应的RMAB模型，并将每个分片中的每个栈作为相应RMAB模型的一个臂。通过为通过将堆场划分为若干分片的方式将堆场中全部集装箱的位置排布问题解耦为多个分片内集装箱的排布问题，大大缩减了集装箱排布问题的求解规模，提高了求解效率。随后对于每个分片，利用强化学习方法训练神经网络拟合Whittle指标，用于估计每个集装箱放置在分片的每个栈中时的Whittle指标，由此为每个集装箱选取合适的堆放位置。Whittle指标策略作为RMAB问题的一种经典的渐近最优策略，相较于基于特征匹配的启发式位置决策方法，能够更准确地计算出集装箱存放到各栈中的Whittle指标。此外，指标策略的估计过程在仿真中完成，翻箱时间通过仿真过程获得，不存在估计误差，相较于基于优化问题求解的方法，具有更准确的优化目标。

上述说明仅是本说明书的一些实施例技术方案的概述，为了能够更清楚了解本说明书的一些实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本说明书的一些实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本说明书的一些实施例的具体实施方式，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示出了本说明书一些实施例中一种堆场内集装箱堆放位置排布模型建立方法的流程图；

图2示出了本说明书一些实施例中利用深度强化学习来训练神经网络拟合Whittle指标的训练方法示意图；

图3示出了本说明书一些实施例中一个分片中其中一个栈的主动状态转移过程；

图4示出了本说明书一些实施例中一个分片中其中一个栈的被动状态转移过程；

图5示出了本说明书一些实施例中一种堆场内集装箱堆放位置排布方法的流程图；

图6示出了本说明书一些实施例中按照运输列车车厢位置将堆场划分为若干分片的示意图；

图7示出了本说明书一些实施例中示出了堆场内集装箱堆放位置排布的工作流程示意图；

图8示出了本说明书一些实施例中一种堆场内集装箱堆放位置排布模型建立装置的结构示意图；

图9示出了本说明书一些实施例中一种堆场内集装箱堆放位置排布装置的结构示意图；

图10示出了本说明书一些实施例中提供的计算机设备结构示意图。

附图符号说明：

801、区域划分模块；

802、分片模型构建模块；

803、状态设置模块；

804、Whittle指标拟合模块；

901、分片选定模块；

902、Whittle指标估计模块；

903、位置确定模块；

1002、计算机设备；

1004、处理器；

1006、存储器；

1008、驱动机构；

1010、输入/输出模块；

1012、输入设备；

1014、输出设备；

1016、呈现设备；

1018、图形用户接口；

1020、网络接口；

1022、通信链路；

1024、通信总线。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

需要说明的是，本说明书的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本说明书的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为解决上述问题，本说明书实施例提供了一种堆场内集装箱堆放位置排布方案，能够解决现有技术中求解效率低以及缺少最优性保证的问题。图1是本说明书实施例提供的一种堆场内集装箱堆放位置排布模型建立方法的流程图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或装置产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。具体的如图1所示，所述方法可以包括：

S101：将堆场按照运输列车的车厢位置划分为若干分片，每个所述分片负责堆放运输车厢在此车厢位置的全部集装箱。

可以理解的是，堆场中集装箱存放位置的选择直接关系到场桥移动的总距离，而同一栈中不合适的集装箱堆放顺序也会带来额外的翻箱时间。货主需要支付的存放费用也与集装箱在堆场的存放时间相关，提高堆场转运效率有利于提高海铁联运运输效率、降低货主成本。现有集装箱位置排布方法联合考虑所有将到达货物的位置排布问题，问题的解空间随货物数量的增加而增大，这使得问题求解效率低下，难以满足集装箱位置排布的实时性需求。本说明书的实施例为了提高问题的求解效率，充分利用各栈间存取集装箱过程的独立性。具体而言，首先将堆场按照运输列车的车厢位置划分为若干分片，每个分片负责存储所有运出车厢在此车厢位置的集装箱，然后对每个栈使用相同的Whittle指标估计模型，只需训练单个模型，利用了栈之间结构的相似性缩减模型规模，每个分片中集装箱的存取过程互不干扰，提高了排布效率。如图6所示，按照运输列车的车厢位置将堆场划分为若干分片，每个列车车厢位置对应一个分片，每个分片里包含若干栈，每个栈存储相应数量的集装箱。

S102：为每个所述分片构建相应的RMAB模型，并将每个所述分片中的每个栈作为相应RMAB模型的一个臂。

具体而言，集装箱位置排布问题是指在每个集装箱到达相应的堆场分片后，必须从给定的全部栈中选取一个，将这一集装箱放入此栈，此栈和其余栈的状态均发生状态转移。不安定多臂老虎机（Restless Multi Armed Bandit，RMAB）模型是一类特殊的马尔可夫决策过程模型，假设一个多臂老虎机共有N个臂，对于每个臂每一时刻可以选择动作，包括拉下和不拉下，拉下记为a _i=1，不拉下记为a _i=0，i为臂的序号，每一时刻必须总计拉下M个臂（M<=N）；每个臂具有状态S _i，每一时刻每个臂获得的奖励记为r _i (s _i ,a _i )，臂发生的状态转移记为s _i ^' =f _i (s _i ,a _i )。本说明书使用RMAB模型建模堆场栈中集装箱的存取过程，能对长期收益进行建模，从而实现长期优化。因此堆场的每个分片对应一个多臂老虎机，其中的每个栈对应一个多臂老虎机的臂，栈的动作包括第一动作和第二动作，第一动作对应于拉下臂，即将集装箱放入该栈，每个集装箱能且仅能放到一个栈中，即M=1。第二动作对应于不拉下臂，即不将集装箱放入该栈。

S103：基于所述RMAB模型设置每个所述分片中的每个栈的状态。

在每日决策开始时，根据当日货船、列车运输计划，获取每个集装箱的期望到达时间t _i、到达时间不确定度Δ _i、负责运离此集装箱的列车的预计到达时间d _i。若在当日不运出此批货物，将d _i估计为d _i =t _i +T，T表示货船、列车运输计划的确定周期，在本说明书实施例中设置为1天。基于RMAB模型，将每个所述分片中每个栈的状态设置为包括以下四个分量：

第一状态分量s1，用于表示栈中每个集装箱堆放位置的特征，以列表的形式存储这些特征，每个集装箱堆放位置的特征记为(t _i ,d _i ,Δ _i ,v _i)，其中v _i用于表示此位置在i时刻是否存在集装箱的指示位，取值为0或1，这些特征直接来源于此集装箱所属的货物批次；

第二状态分量s2，用于表示每个分片后续将要到达的固定数量的集装箱特征，以列表的形式存储这些特征，后续到达的集装箱的特征记为(t _i ,d _i ,Δ _i ,v _i ,y _i ^t )，其中y _i ^t表示将此集装箱运出的列车轨道位置，这些特征直接来源于此集装箱所属的货物批次；

第三状态分量s3，用于表示栈中的集装箱数量是否达到上限的指示位，取值为0或1；

第四状态分量s4，用于表示栈本身的特征，包括栈所在分片的翻箱区位置、栈所在分片的集卡运货区位置以及栈在所在分片中的位置。

S104：将每个所述分片中的每个栈的状态作为神经网络的输入，利用强化学习方法训练神经网络拟合Whittle指标，以获得Whittle指标估计模型；所述Whittle指标估计模型用于估计每个集装箱放置在对应分片的每个栈中时的Whittle指标。

具体而言，Whittle指标策略是RMAB问题中一种经典的渐近最优策略，在问题具有可指标化的性质且“臂”的数量趋近无穷时达到渐近最优。Whittle指标策略即：首先根据每个臂的状态计算Whittle指标，之后拉下Whittle指标最高的M个臂。Whittle指标通常记为W(s)，表示对于此臂，以状态s为初始状态时，第一步选择拉下此臂相较于第一步选择不拉下此臂更优时，可接受的最大额外单步代价。即J _i (s,1)≥J _i (s,0)，其中J _i (s,a)表示当前臂（序号为i）以状态s为初始状态，第一步选择动作a时的最优总折扣回报，可通过以下公式计算得到：

其中，s _i (t)表示序号为i的臂在时间t的状态，π为优化变量。

本说明书的实施例中，M=1，W(s)为对于此栈，以状态s为初始状态时，选择将下一个集装箱放入此栈相较于不将下一个集装箱放入此栈更优时，可接受的最小补偿。下一个集装箱应被放入此补偿最小的栈。这是由于传统RMAB模型中老虎机操作的收益总大于不操作的收益，而本说明书的模型中将集装箱放入栈总会使栈中集装箱停留的总时间延长，其收益恒为负，小于不操作的收益，因此本说明书中根据补偿而不是传统Whittle指标策略中的代价作为优选指标。Whittle指标是一个无法通过人工直接测量的指标，本说明书的实施例选择利用深度强化学习来训练神经网络拟合Whittle指标，候选的训练方法可以包括：

方法1：使用深度Q学习拟合马尔可夫决策过程的状态动作价值函数Q(s,a)，将W (s)=Q(s,0)-Q(s,1)作为Whittle指标的估计，训练过程中使用ε贪心策略，以ε的概率选择随机动作，以1-ε的概率选择基于W(s)选取的贪心动作；

方法2：类似于方法1，但考虑了不同臂之间模型可能不同的情形，为每个臂训练一个单独的W(s)估计模型；

方法3：根据Whittle指标定义，考虑具有单步激活代价W(s)的马尔可夫决策过程，采用双层优化方法，内层使用深度Q学习估计单步代价为W(s)时，状态动作价值函数Q ^λ (s, 0)，外层以Q ^λ (s,0)和Q ^λ (s,1)的均方差为损失函数，优化W(s)的估计；

方法4：训练过程中使用以下的随机策略：以概率σ(W(s)-λ)=(1+e ^-W(s)-λ ) ^-1选择第一动作，以概率1-σ(W(s)-λ)选择第二动作，此处λ是单步激活收益阈值，设为一段时间内经验回放池收集到的数据对应的W(s)的均值，然后使用策略梯度法优化对W(s)的估计。

通过对上述四种方法进行性能的对比，优选地，本说明书选择了方法4作为拟合Whittle指标的方法，参照附图2，具体的训练方法包括：

S201：按照随机策略选择每个分片中的每个栈的动作，并计算每个栈选择相应动作时产生的单步代价。

其中，随机策略为：以概率σ(W(s)-λ)=(1+e ^-W(s)-λ ) ^-1选择第一动作，以概率1-σ(W (s)-λ)选择第二动作，其中λ是单步激活收益阈值，设为一段时间内经验回放池收集到的数据对应的W(s)的均值。对于每个分片中的每个栈，选择相应动作时的单步代价确定方法可以包括：

执行主动状态转移时，确定下一个集装箱导致的运输代价c ₁为：此集装箱从集卡运入位置移动到堆场存放位置，再移动到列车输出位置的总时间；执行被动状态转移时，确定此栈中现有集装箱离开带来的总翻箱代价c ₂为：对于此栈中每个离开时间早于后续集装箱到达时间的集装箱，按照其离开时间的顺序，模拟其离开堆场的过程，如果其离开堆场时上方存在其他集装箱，则结算翻箱代价为将其上方每个集装箱移动到翻箱区再移回此栈的总时间；当执行第一动作时，单步代价为c ₁ +c ₂；当执行第二动作时，单步代价为c ₂。

S202：根据每个所述分片中的每个栈的动作以及状态，使用强化学习算法优化对Whittle指标的估计；所述每个栈的状态随对应动作执行而发生状态转移。

其中，状态转移包括主动状态转移和被动状态转移两阶段，首先执行主动状态转移，再执行被动状态转移。图3示出了一个分片中其中一个栈的主动状态转移过程，如图3所示，集装箱的到达时间（也就是集装箱所属货物批次到达堆场的时间）是一个随机变量，假设该变量服从均匀分布U(t ₁ ,Δ ₁ )，这里t ₁是集装箱到达时间的期望，Δ ₁是集装箱到达时间的不确定度（标准差），因此将这个随机变量的统计值记为t ₁ ±Δ ₁，也就是图中每个集装箱上标注的内容。对于s1，其中现有集装箱可以表示为{t ₅ ±Δ ₅ ,t ₆ ±Δ ₆ ,t ₇ ±Δ ₇}，而s2中集装箱可以表示为{t ₁ '±Δ ₁ ',t ₂ '±Δ ₂ ',t ₃ '±Δ ₃ '}。主动状态转移是首先将下一个到达的集装箱，即s2中的首个集装箱t ₁ '±Δ ₁ '移入第一状态分量s1，其次从第二状态分量s2中移除t ₁ '±Δ ₁ '及其相关特征，最后根据运输计划更新相应的分片的s2。图4示出了一个分片中其中一个栈的被动状态转移过程，如图4所示，主动状态转移后的s1表示为{t ₁ ^? ±Δ ₁ ^? ,t ₅ ± Δ ₅ ,t ₆ ±Δ ₆ ,t ₇ ±Δ ₇}，其中t ₁ ^? ±Δ ₁ ^?表示t ₁ '±Δ ₁ '不一定存放于s1中，这是由于主动状态转移可以选择将t ₁ '放置在此栈最上方，此时t ₁ ^? =t ₁ '；或不放置于此栈中，此时t ₁ ^?不存在。被动状态转移是在更新后的s1中，根据所述首个集装箱到达的时间，将分片中在此时间之前离开的集装箱t ₅ ±Δ ₅、t ₆ ±Δ ₆及其特征移除。

策略梯度法是强化学习中的一种经典的学习框架，其主要思想为首先构建一个期望收益对策略网络输出概率分布的梯度，然后利用这个梯度去产生一个纠正性质的标签，去指导网络更新参数。在一些实施例中，详细的训练步骤可以包括：

步骤a：收集环境参数，根据预先设定的货船到达时间分布、列车到达时间分布、货船数量分布以及集装箱数量分布，随机生成一组符合要求的货船到达时间表；

步骤b：初始化经验回放池为空；

步骤c：从前一阶段收集的环境参数数据集中采样一组数据，根据采样数据设置仿真环境中栈状态s；后续每当仿真环境终止，都重新运行此步骤以重置仿真环境。其中仿真环境终止的条件是记录的分片中后续所有将要到达的集装箱已全部从第二状态分量中移除；

步骤d：初始化单步激活收益阈值λ为0，循环以下步骤train_cycles次，其中train_cycles指神经网络训练的轮数，需要人为设置；

步骤e：重置经验回放池为空，使用上述随机策略选择动作，推进仿真过程，在经验回放池中依序记录当前状态、应用的动作、应用动作后转移到的状态、单步奖励、仿真是否在此步终止，直到经验回放池收集到预先设定数量的数据后进入下一步；

步骤f：为经验回放池中每一个记录计算累积折扣回报，按照以下式子倒序计算：

G _i (t)=γG _i (t+1)+r _i (t)

其中，γ是马尔可夫决策过程中的折扣因子，r _i (t)表示单步奖励。

若仿真在某步终止则该步G _i (t)设为0；

步骤g：每次从经验回放池中随机取出batch_size条数据，执行以下步骤，共需遍历经验回放池中数据minibatch_repeats次，其中batch_size是将训练数据分为若干批次，每个批次中数据的大小，minibatch_repeats是指遍历经验回放池中数据的轮数；

步骤h：以数据中“当前状态”作为神经网络的输入，更新单步激活收益阈值λ，按照如下公式计算执行激活动作的概率：

p(t)=σ(W(s(t))-λ)

然后根据数据中应用的动作求出对应的执行概率的对数值，记为log(p(t))；

步骤i：根据如下公式计算策略梯度对应的loss：

其中是此处batch_size条数据中所有G _i (t)的均值；

步骤j：使用Adam优化器对上述loss进行梯度反向传播，优化模型W(s)的参数。

在训练过程中，拟合W(s)的神经网络输入为栈的状态，包括以下5个分量：

1) 栈中每个集装箱箱位的状态f1，表示为一个4×Z大小的矩阵，Z为堆场分片中栈的最大高度，4为特征维数，每一维度的含义即每个集装箱堆放位置特征；

2) 每个分片接下来要到达的若干集装箱的状态f2，表示为一个4×K大小的矩阵，K为是一个超参数，决定模型要考虑接下来到达的几个集装箱，由人为预先设定；

3) 每个分片接下来要到达的若干集装箱的运出列车轨道位置向量f3，表示为一个长度为K的向量；

4) 栈本身的特征f4，表示为一个长度为3的向量，包括栈所在区域的翻箱区位置、栈所在区域的集卡运货区位置以及栈在所在区域中的位置；

5) 表示此栈中的集装箱数量是否达到上限的指示位f5，表示为一个长度为1的向量。

在一些实施例中，拟合W(s)的神经网络结构，可以包括：

f1经两层全连接层得到f6，f2经一层全连接层得到f7，f3、f4、f5拼接得到f8，f8经一层全连接层得到f9，f6、f7、f9拼接得到f10，f10经一层全连接层得到输出。其中所有全连接层后均增加了激活层，激活函数为tanh。

上述神经网络采用任意的神经网络均可，本说明书对此不作限定。

基于同一发明构思，参照附图5，在一些实施例中，所述堆场内集装箱堆放位置排布方法，可以包括：

S501：在每个集装箱到达时，按照此集装箱预定的运输列车车厢位置，选定存储此集装箱的目标分片。图6示出了按照运输列车车厢位置将堆场划分为若干分片的示意图，每个车厢位置对应一个分片，每个分片里包含若干栈，每个栈里存储了相应数量的集装箱。

S502：根据所述目标分片中每个栈的状态，利用Whittle指标估计模型估计此集装箱放置在所述目标分片的每个栈中时的Whittle指标。

在一些实施例中，利用Whittle指标估计模型估计此集装箱放置在所述目标分片的每个未达到容量上限的栈中时的Whittle指标，当栈的容量达到容量上限时，设定集装箱放置在此栈中的Whittle指标为无穷大或剔除该Whittle指标。

S503：将此集装箱放置在所述目标分片中的Whittle指标最小的栈中。图7示出了堆场内集装箱堆放位置排布的工作流程示意图。如图7所示，首先按照集装箱运输车厢位置将堆场划分为若干分片，其中x方向表示平行于列车轨道的方向，y方向表示垂直于列车轨道方向，z方向表示平行于堆场分片中栈的高度的方向。当每个集装箱到达时，根据该集装箱预定的运输列车，选定存储该集装箱的分片。对于选定的分片，假设其内部包含4个栈，分别表示为栈A、栈B、栈C和栈D，每个栈都存储了一定数量的集装箱，此时需要为新到达的集装箱选定存储的栈。其次，为每个栈构造状态，分别表示为s _A 、s _B 、s _C 、s _D，接着根据每个栈的状态，利用Whittle指标估计模型计算其对应的Whittle指标W(s _A )、W(s _B )、W(s _C )、W(s _D)。最后选择Whittle指标最小的栈存储该集装箱。

与上述的堆场内集装箱堆放位置排布模型建立方法对应，本说明书的一些实施例还提供了一种堆场内集装箱堆放位置排布模型建立装置，参考图8所示，在一些实施例中，所述装置可以包括：

区域划分模块801，用于将堆场按照运输列车的车厢位置划分为若干分片，每个所述分片负责堆放运输车厢在此车厢位置的全部集装箱；

分片模型构建模块802，用于为每个所述分片构建相应的RMAB模型，并将每个所述分片中的每个栈作为相应RMAB模型的一个臂；

状态设置模块803，用于基于RMAB模型，设置每个所述分片中的每个栈的状态；

Whittle指标拟合模块804，用于将每个所述分片中的每个栈的状态作为神经网络的输入，利用强化学习方法训练神经网络拟合Whittle指标，以获得Whittle指标估计模型，用于估计每个集装箱放置在所述分片的每个栈中时的Whittle指标。

基于同一发明构思，与上述的堆场内集装箱堆放位置排布方法对应，本说明书的一些实施例还提供了一种堆场内集装箱堆放位置排布装置，参考图9所示，在一些实施例中，所述装置可以包括：

分片选定模块901，用于在每个集装箱到达时，按照此集装箱预定的运出列车车厢位置，选定存储此集装箱的分片；

Whittle指标估计模块902，用于根据目标分片中每个栈的当前状态，利用所述Whittle指标估计模型估计此集装箱放置在所述每个栈中时的Whittle指标；

位置确定模块903，用于将此集装箱放置在所述目标分片中的Whittle指标最小的栈中。

本说明书的实施例将堆场按照运输列车的车厢位置划分为若干分片，每个所述分片负责堆放运输车厢在此车厢位置的全部集装箱，之后为每个所述分片构建相应的RMAB模型，并将每个所述分片中的每个栈作为相应RMAB模型的一个臂。通过为通过将堆场划分为若干分片的方式将堆场中全部集装箱的位置排布问题解耦为多个分片内集装箱的排布问题，大大缩减了集装箱排布问题的求解规模，提高了求解效率。随后对于每个分片，利用强化学习方法训练神经网络拟合Whittle指标，用于估计每个集装箱放置在所述分片的每个栈中时的Whittle指标，由此为每个集装箱选取合适的堆放位置。Whittle指标策略作为RMAB问题的一种经典的渐近最优策略，相较于基于特征匹配的启发式位置决策方法，具有更强的理论保证。此外，指标策略的估计过程在仿真中完成，翻箱时间通过仿真过程获得，不存在估计误差，相较于基于优化问题求解的方法，具有更准确的优化目标。

需要说明的是，本说明书的实施例中，所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本说明书的实施例还提供一种计算机设备。如图10所示，在本说明书一些实施例中，所述计算机设备1002可以包括一个或多个处理器1004，诸如一个或多个中央处理单元(CPU)，每个处理单元可以实现一个或多个硬件线程。计算机设备1002还可以包括任何存储器1006，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器1006可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备1002的固定或可移除部件。在一种情况下，当处理器1004执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备1002可以执行相关联指令的任一操作。计算机设备1002还包括用于与任何存储器交互的一个或多个驱动机构1008，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备1002还可以包括输入/输出模块1010（I/O），其用于接收各种输入(经由输入设备1012)和用于提供各种输出(经由输出设备1014)。一个具体输出机构可以包括呈现设备1016和相关联的图形用户接口(GUI)1018。在其他实施例中，还可以不包括输入/输出模块1010（I/O）、输入设备1012以及输出设备1014，仅作为网络中的一台计算机设备。计算机设备1002还可以包括一个或多个网络接口1020，其用于经由一个或多个通信链路1022与其他设备交换数据。一个或多个通信总线1024将上文所描述的部件耦合在一起。

通信链路1022可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路1022可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

对应于如图1至图7中的方法，本说明书实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

本说明书实施例还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行如图1至图7所示的方法。

本说明书实施例还提供一种计算机程序产品，包括至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如图1至图7所示的方法。

应理解，在本说明书的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本说明书实施例的实施过程构成任何限定。

还应理解，在本说明书实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本说明书中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本说明书中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本说明书的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本说明书所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本说明书实施例方案的目的。

另外，在本说明书各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本说明书各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中应用了具体实施例对本说明书的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本说明书的方法及其核心思想；同时，对于本领域的一般技术人员，依据本说明书的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本说明书的限制。

Claims

1.一种堆场内集装箱堆放位置排布模型建立方法，其特征在于，所述方法包括：

基于所述RMAB模型设置每个所述分片中的每个栈的状态；

2.根据权利要求1所述的方法，其特征在于，所述利用强化学习方法训练神经网络拟合Whittle指标，包括：

按照随机策略选择每个所述分片中的每个栈的动作，并计算所述每个栈选择相应动作时产生的单步代价；

3.根据权利要求2所述的方法，其特征在于，所述每个栈的动作，包括：

第一动作，将下一个到达的集装箱放置到栈的最上方；

第二动作，将下一个到达的集装箱不放置到栈的最上方。

4.根据权利要求2所述的方法，其特征在于，所述计算所述每个栈选择相应动作时产生的单步代价，包括：

当执行第二动作时，单步代价为所述翻箱代价。

5.根据权利要求1所述的方法，其特征在于，所述每个所述分片中的每个栈的状态，包括：

第一状态分量，用于表示栈中现有集装箱堆放位置特征；

第三状态分量，用于表示栈中的集装箱数量是否达到上限的指示位；其中第三状态分量随第一状态分量动态变化；

6.根据权利要求2所述的方法，其特征在于，所述每个栈状态的状态转移过程，包括：

主动状态转移，从第二状态分量中移除首个集装箱及其相关特征，然后将所述首个集装箱移入相应栈中，同时更新相应分片的第一状态分量和第二状态分量；

被动状态转移，在所述更新后的第一状态分量中，根据所述首个集装箱到达的时间，将分片中在所述时间之前离开的集装箱及特征移除；其中所述主动状态转移的执行优先级高于所述被动状态转移的执行优先级。

7.一种堆场内集装箱堆放位置排布方法，其特征在于，所述方法包括：

根据所述目标分片中每个栈的状态，利用Whittle指标估计模型估计此集装箱放置在所述目标分片的每个栈中时的Whittle指标，其中所述Whittle指标估计模型是利用如下方法预先构建的：

S1：将堆场按照运输列车的车厢位置划分为若干分片，每个所述分片负责堆放运输车厢在此车厢位置的全部集装箱；

S2：为每个所述分片构建相应的RMAB模型，并将每个所述分片中的每个栈作为相应RMAB模型的一个臂；

S3：基于所述RMAB模型设置每个所述分片中的每个栈的状态；

S4：将每个所述分片中的每个栈的状态作为神经网络的输入，利用强化学习方法训练神经网络拟合Whittle指标，以获得Whittle指标估计模型；所述Whittle指标估计模型用于估计每个集装箱放置在对应分片的每个栈中时的Whittle指标；

将此集装箱放置在所述目标分片中的Whittle指标最小的栈中。

8.根据权利要求7所述的方法，其特征在于，所述利用Whittle指标估计模型估计此集装箱放置在所述目标分片的每个栈中时的Whittle指标，包括：

9.根据权利要求7所述的方法，其特征在于，所述利用Whittle指标估计模型估计此集装箱放置在所述目标分片的每个栈中时的Whittle指标后，进一步包括：

10.一种堆场内集装箱堆放位置排布模型建立装置，其特征在于，包括：

11.一种堆场内集装箱堆放位置排布装置，其特征在于，包括：

分片选定模块，用于在每个集装箱到达时，按照此集装箱预定的运输列车车厢位置，选定存储此集装箱的目标分片；

Whittle指标估计模块，用于根据目标分片中每个栈的状态，利用所述Whittle指标估计模型估计此集装箱放置在所述目标分片的每个栈中时的Whittle指标，其中所述Whittle指标估计模型是利用如下方法预先构建的：

S3：基于所述RMAB模型设置每个所述分片中的每个栈的状态；

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9任意一项所述方法。

13.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被计算机设备的处理器执行时实现权利要求1至9任意一项所述方法。