CN115526557B

CN115526557B - 基于深度增强学习的智能堆场管控方法、系统及存储介质

Info

Publication number: CN115526557B
Application number: CN202210966592.7A
Authority: CN
Inventors: 赵宁; 杜学强; 王菲
Original assignee: Suzhou Juzhi Technology Co ltd
Current assignee: Suzhou Juzhi Technology Co ltd
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2023-11-03
Anticipated expiration: 2042-08-12
Also published as: CN115526557A

Abstract

本发明公开了基于深度增强学习的智能堆场管控方法、系统及存储介质，包括采用深度增强学习神经网络获得训练集；通过梯度下降的方法不断更新训练集的参数；建立智能收箱模型，使用预设选位约束对动作价值进行约束，生成预设数量的子目标，且对所有的子目标进行归一化处理，确定子目标比重，生成总选位目标函数，进而根据总选为目标函数计算回报值；根据回报值将当前进闸集装箱与预设场地位置进行配对，且判断进闸集装箱与预设场地位置是否特征匹配；若是，则将进闸集装箱堆存至预设场地位置，若否，则重新将所述闸集装箱进行配对。本发明能够实现传统集装箱码头堆场智能化管控转型，实现智能集装箱码头生产作业。

Description

基于深度增强学习的智能堆场管控方法、系统及存储介质

技术领域

本发明属于集装箱码头港口应用领域，特别涉及基于深度增强学习的智能堆场管控方法、系统、计算机存储介质及计算机。

背景技术

当前，以互联网、大数据、人工智能等为代表的现代信息技术日新月异，数字化成为港口变革的新动力，对港口生产运营、组织管理、服务模式等产生重大深远影响，互联网技术的发展带来了新的机遇，码头需抢抓数字经济发展机遇，推动港口发展动能由资源要素驱动为主向智慧创新驱动转变。

目前，集装箱码头智能化转型的主要包括两方面：硬件装备自动化和管理系统智能化，要实现管理系统智能化转型，首先要解决下述问题：智能算法模块和能够全真模拟集装箱码头生产过程的数字系统。

因此，目前亟需能够实现传统集装箱码头堆场智能化管控转型，实现智能状态下集装箱码头生产作业的智能化堆场管控方法。

发明内容

发明目的：为了克服以上不足，本发明的目的是提供基于深度增强学习的智能堆场管控方法、系统、计算机存储介质及计算机，其设计合理，能够通过智能模块对传统的人工堆场进行数字化改造，实现数字化、智能化的堆场流程管控。

为解决上述技术问题，本发明提供了基于深度增强学习的智能堆场管控方法，包括以下步骤：

采用深度增强学习神经网络获得训练集；

通过梯度下降的方法不断更新训练集的参数，包括：利用经验回放的方法，将每个时刻的学习经验存储至经验回放数据集中,且将众多选位过程汇集成回放经验，从数据集中随机抽取样本对动作价值进行更新，获得更新后的动作价值；

建立智能收箱模型，使用预设选位约束对动作价值进行约束，生成预设数量的子目标，且对所有的子目标进行归一化处理，确定子目标比重，生成总选位目标函数，进而根据总选为目标函数计算回报值；

根据回报值将当前进闸集装箱与预设场地位置进行配对，且判断进闸集装箱与预设场地位置是否特征匹配；

若是，则将进闸集装箱堆存至预设场地位置，若否，则重新将所述闸集装箱进行配对。

优选地，通过梯度下降的方法不断更新训练集的参数的方法为：

深度增强学习神经网络的输入为智能收箱问题设定的状态特征值,输出为每个状态下采取动作所得的动作价值，进而通过/>方法训练深度增强学习神经网络，的目标动作价值/>，其中，/>的输入为状态特征值，表示神经网络中的权重，/>为折扣因子，/>为动作，/>为在场集装箱，/>为选位；

利用经验回放的方法，将每一个时刻的学习经验存储至经验回放数据集/>中，且将众多选位过程汇集成回放经验，其中， />为集装箱层数；

从数据集中随机抽取样本，且运用随机梯度下降的方法更新深度增强学习神经网络中的参数。

优选地，判断进闸集装箱与预设场地位置是否特征匹配的方法为：

判断进闸集装箱与预设场地位置堆存的在场集装箱是否为同种箱型的集装箱；

若是，则判断进闸集装箱与预设场地位置堆存的在场集装箱是否为同尺寸的集装箱，若否，则重新将所述进闸集装箱进行配对；

若是，则计算进闸集装箱与预设场地位置匹配的箱位集装箱的吨差：

，

其中，表示当前进闸集装箱的重量，/>表示当前进闸集装箱所匹配到场地位置下方在场集装箱的重量，且若进闸集装箱箱的预设场地位置位于堆场箱位第一层时，为理论的最大值，/>表示两个箱子之间的吨差。

优选地，判断出进闸集装箱与预设场地位置堆存的在场集装箱为同尺寸的集装箱的方法为：

判断进闸集装箱与预设场地位置堆存的在场集装箱是否为同卸货港；

若是，则判断进闸集装箱与预设场地位置堆存的在场集装箱是否为同船；

若是，则计算贝内港口数：，若否，则重新将所述进闸集装箱进行配对，其中， />表示进闸集装箱匹配到的预设场地位置贝位内，加上进闸集装箱后，在场集装箱所属卸货港的数量；/>表示贝内可堆存位置数；

计算预设场地位置箱区场桥数量：，其中，/>表示对于箱区/>，当前提供服务的场桥数量；/>表示箱区最大提供服务的场桥数量；

计算预设场地位置的箱区排队作业数：，其中，/>表示当前/>箱区内排队等待作业的集装箱数量；

计算预设场地位置的箱区在场集装箱量：，其中，/>表示当前/>箱区内被占用的场地位置数量，/>表示当前/>箱区内最多可堆存的集装箱数量。

优选地，使用预设选位约束对动作价值进行约束的方法为：

使得进闸集装箱所选的位置不为悬空箱位，且选择当前有场桥服务的箱区；

单个集装箱只能占用单个箱位，且单个箱位只能放置一个集装箱；

使得贝内达到最大容量约束，且同港箱所占贝位集中分布；

使得堆放的集装箱同尺寸，且同空重，且同箱高，且同船。

优选地，生成预设数量的子目标的方法为：

最小化堆放集装箱之间的吨差，生成第一子目标

，其中，/>表示当前进闸集装箱箱的重量，/>表示在场集装箱/>的重量，/>表示进闸集装箱是否选位在场地内位置，/>表示在场集装箱/>是否在堆场内/>位置，/>表示堆场内箱区中，/>层是否直接压在/>层上；

使得堆场箱区的箱量均匀分布，生成第二子目标

，其中，/>表示当前进闸集装箱是否与在场集装箱/>属于同一条船，/>表示在场集装箱/>是否属于/>箱区；

最小化场地已有作业数量，且使得箱区作业排队最短，生成第三子目标

，其中，/>表示/>箱区内正在等待作业的集装箱数目；

最小化贝内港口数量，生成第四子目标

，其中，/>表示表示/>贝位内堆存的集装箱所属不同卸货港的港口数目；

使得进闸集装箱与所选箱位堆放的在场集装箱同港，生成第五子目标

，其中，/>表示当前进闸集装箱所选箱位堆放的在场集装箱是否为同卸货港出口箱。

优选地，生成总选位目标函数的方法为：

将第一子目标归一化处理：

；

将第二子目标归一化处理：

；

将第三子目标归一化处理：

；

将第四子目标归一化处理：

；

根据第一子目标、第二子目标、第三子目标、第四子目标、第五子目标计算总选为目标：

其中，参数分别表示子目标的权重。

本发明还提供基于深度增强学习的智能堆场管控系统，使用所述的基于深度增强学习的智能堆场管控方法进行进闸集装箱的堆场管控，包括：

深度学习模块，用于采用深度增强学习神经网络获得训练集，且通过梯度下降的方法不断更新训练集的参数，包括：以第一预设概率选择动作价值最大的动作，同时以第二预设概率选择随机探索，采用/>动作选择策略作为每个动作被选择的概率计算，获得更新后的动作价值；

收箱模型模块，用于建立智能收箱模型，使用预设选位约束对动作价值进行约束，生成预设数量的子目标，且对所有的子目标进行归一化处理，确定子目标比重，生成总选位目标函数，进而根据总选为目标函数计算回报值；

堆场管控模块，用于根据回报值将当前进闸集装箱与预设场地位置进行配对，且将进闸集装箱与预设场地位置的特征进行匹配，若匹配则将前进闸集装箱堆存至预设场地位置，若不匹配则重新将所述进闸集装箱进行配对。

本发明还提供一种计算机存储介质，所述计算机介质上存储有计算机程序，所述计算机程序被处理器执行实现根据所述的基于深度增强学习的智能堆场管控方法。

本发明还提供一种计算机，包括所述的一种计算机存储介质。

本发明的上述技术方案相比现有技术具有以下优点：

1、本发明所述的基于深度增强学习的智能堆场管控方法及系统，能够降低中转箱翻箱率、出口箱翻箱率、进口箱翻箱率，且降低单箱移机率；

2、能够降低失位箱率，提升有效场存率，且实现码头堆场管控由传统人工决策向系统自主决策为主导的智能化转型，提高作业效率；

3、有效降低人工安排场地计划、分港分吨、补充失位箱等工作强度，通过智能计算的方式将人工经验固化，且自动将各类数据通过机器学习算法动态调整参数，优化效果。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明。

图1是本发明的智能堆场管控方法的流程图。

图2是本发明的模型约束的流程图。

图3是本发明的特征匹配的第一流程图。

图4是本发明的特征匹配的第二流程图。

图5是本发明的子目标函数生成的流程图。

图6是本发明的损失函数训练神经网络的流程图。

图7是本发明的智能堆场管控系统的连接示意图。

图8是本发明的智能堆场作业流程的示意图。

图9是本发明的集装箱堆场箱区的示意图。

图10是本发明的第一子目标归一化函数的示意图。

图11是本发明的深度增强学习神经网络的示意图。

说明书附图标记说明：10、深度学习模块，11、收箱模型模块，12、堆场管控模块，13、智能收箱单元，14、智能卸船单元，15、智能中转单元。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，以使本领域的技术人员可以更好地理解本发明并能予以实施，但所举实施例不作为对本发明的限定。

在本发明的描述中，需要理解的是，术语“包括”意图在于覆盖不排他的包含，例如包含了一系列步骤或单元的过程、方法、系统、产品或设备，没有限定于已列出的步骤或单元而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

实施例一

参照图1-图5，图8-图11所示，本发明提供一种基于深度增强学习的智能堆场管控方法的实施例，包括以下步骤：

步骤S1：采用深度增强学习神经网络获得训练集；

在步骤S1中，所述深度增强学习神经网络采用传统的算法与深度神经网络相结合，且通过/>算法与深度神经网络消除二维数组。

步骤S2：通过梯度下降的方法不断更新训练集的参数，包括：利用经验回放的方法，将每个时刻的学习经验存储至经验回放数据集中，且将众多选位过程汇集成回放经验，从数据集中随机抽取样本对动作价值进行更新，获得更新后的动作价值；

在步骤S2中，所述深度增强学习神经网络的输入为状态特征值，输出为每个状态下采取动作所得的动作价值；通过/>算法中/>值的更新方程来更新/>值，以此不断更新训练集的参数，/>的目标动作价值/>：

其中，为选位，/>的输入为状态特征值，/>表示神经网络中的权重，/>为折扣因子， />为动作，/>为在场集装箱，神经网络的损失函数根据推导公式可以看出为目标/>值与网络输出/>值之间的平方差；

利用经验回放的方法，将每一个时刻的学习经验存储至经验回放数据集/>中，且将众多选位过程汇集成回放经验，其中，/>为集装箱层数；

从数据集中随机抽取样本对其进行更新，在学习过程中，智能体会根据选择执行动作，对于每个状态与动作的组合会得到一个值，并运用/>随机梯度下降的方法更新网络中的参数；

其中，所述学习过程为：

初始化历史经验回放数据集、初始化动作价值函数/>，并赋予随机权重/>、初始化目标动作价值函数/>，并赋予权重/>；

其中，是迭代中的目标值。

步骤S3：建立智能收箱模型，使用预设选位约束对动作价值进行约束，生成预设数量的子目标，且对所有的子目标进行归一化处理，确定子目标比重，生成总选位目标函数，进而根据总选为目标函数计算回报值。

在步骤S3中，智能收箱模型的选位约束包括：

步骤S30：使得进闸集装箱所选的位置不为悬空箱位：

其中，表示堆场内的箱区集合，/>表示堆场各个箱区内的贝位集合， />表示堆场某一贝位内列的集合，/>表示进闸集装箱是否选位在场地内/>位置，表示在场集装箱/>是否在堆场内/>位置，/>表示堆场内箱区中， />层是否直接压在/>层上， />表示堆场某一贝位内层数的集合； />表示堆场在场集装箱的集合；且，当/>时，表示当前进闸集装箱被选在堆场内第一层，其下方没有集装箱，当 />时，默认/>；

步骤S31：选择当前有场桥服务的箱区：

其中，表示当前/>箱区是否配有场地机械进行装卸作业；

步骤S32：单个集装箱只能占用一个箱位：

，且单个箱位只能放置一个集装箱：

其中，表示堆场某一贝位内层数的集合；

步骤S33：满足贝内最大容量约束：

其中，所述为留存的翻箱位数量，具体由作业人员根据实际码头操作需求设定；

步骤S34：同港箱所占贝位集中分布，但不超过预设数量的连续贝位数：

其中，所述预设数量具体由作业人员根据实际码头操作需求设定；表示当前进闸集装箱选位在贝位/>时，贝位/>左侧与当前进闸集装箱同港的集装箱所在贝位的连续贝位数； />表示当前进闸集装箱选位在贝位/>时，贝位/>右侧与当前进闸集装箱同港的集装箱所在贝位的连续贝位数；

步骤S35：使得堆放的集装箱同尺寸：

其中，表示当前进闸集装箱所选位置与其下层堆放的集装箱是否为同尺寸箱；

使得堆放的集装箱同空重：

其中，表示当前进闸集装箱所选位置与其下层堆放的集装箱是否同为空箱或同为重箱；选用同空重的集装箱避免空箱与重箱互压；

使得堆放的集装箱同箱高：

其中，表示当前进闸集装箱所选位置与其下层堆放的集装箱是否为同箱高的集装箱，同为普通箱或高箱；选用同箱高的集装箱避免不同尺寸的集装箱互压；

使得堆放的集装箱同船：

其中，表示当前进闸集装箱是否与在场集装箱/>属于同一条船；选用同船的集装箱避免在装船作业时需要翻箱操作。

步骤S4：根据回报值将当前进闸集装箱与预设场地位置进行配对，且判断进闸集装箱与预设场地位置是否特征匹配；

在步骤S4中，特征匹配包括：

步骤S40：判断进闸集装箱与预设场地位置堆存的在场集装箱是否为同种箱型的集装箱；

步骤S41：若是，则判断进闸集装箱与预设场地位置堆存的在场集装箱是否为同尺寸的集装箱，若否，则重新将所述进闸集装箱进行配对；

步骤S42：若是，则计算进闸集装箱与预设场地位置匹配的箱位集装箱的吨差：

,

其中，表示当前进闸集装箱的重量，/>表示当前进闸集装箱所匹配到场地位置下方在场集装箱的重量，且若进闸集装箱箱的预设场地位置位于堆场箱位第一层时，为理论的最大值，/>表示两个箱子之间的吨差；若吨差求得为正值，则表示堆存匹配。

优选地，在判断出进闸集装箱与预设场地位置堆存的在场集装箱为同尺寸的集装箱后；

步骤S43：继续判断进闸集装箱与预设场地位置堆存的在场集装箱是否为同卸货港；

步骤S44：若是，则判断进闸集装箱与预设场地位置堆存的在场集装箱是否为同船，若否，则重新将所述进闸集装箱进行配对；

步骤S45：若是，则计算贝内港口数：，若否，则重新将所述进闸集装箱进行配对，其中，/>表示进闸集装箱匹配到的预设场地位置贝位内，加上进闸集装箱后，在场集装箱所属卸货港的数量；/>表示贝内可堆存位置数；

步骤S46：计算预设场地位置箱区场桥数量：，其中，/>表示对于箱区/>，当前提供服务的场桥数量；/>表示箱区最大提供服务的场桥数量；

步骤S47：计算预设场地位置的箱区排队作业数：，其中，表示当前/>箱区内排队等待作业的集装箱数量；由于场桥服务速度有限，因此为了减少进场箱等待作业的时间，在选择箱区时尽量避免选择当前状态下排队作业数较多的箱区；

步骤S48：计算预设场地位置的箱区在场集装箱量：，其中，/>表示当前/>箱区内被占用的场地位置数量，/>表示当前/>箱区内最多可堆存的集装箱数量；为了实际作业中分布的较为均衡，在集装箱选位时，尽量在可选箱区范围内均匀堆存，减少对后续作业造成的影响。

步骤S5：若是，则将进闸集装箱堆存至预设场地位置，若否，则重新将所述进闸集装箱进行配对。

在步骤S5中，若与特征匹配，则将待堆存的进闸集装箱堆存至适配场地箱区的箱位内。

优选地，生成预设数量的子目标的方法为：

步骤S50：最小化位于上下层的集装箱之间的吨差：

其中，表示当前进闸集装箱箱的重量，/>表示在场集装箱/>的重量，/>表示进闸集装箱是否选位在场地内/>位置，/>表示在场集装箱/>是否在堆场内位置，/>表示堆场内箱区中，/>层是否直接压在/>层上；其中当/>时，表示当前进闸集装箱被选在堆场内第一层，则其下方没有集装箱；

步骤S51：优先选择与当前进闸集装箱同船的，且在场集装箱量少的箱区进行堆放：

其中，表示当前进闸集装箱是否与在场集装箱/>属于同一条船，/>表示在场集装箱是否属于/>箱区；能够使堆场内各个箱区的箱量处于均衡，装船时可以多条作业线路并行，能够使各个箱区的作业时长相近，提高整体作业效率；同时在高峰时有利于分散作业，避免堆场内出现某个箱区过度拥堵；

步骤S52：最小化场地已有作业数量，使箱区作业排队最短：

其中，代表第三子目标函数，/>表示/>箱区内正在等待作业的集装箱数目；优先考虑当前排队较短的箱区进行堆放，避免单个箱区排队作业数目过多；

步骤S53：最小化贝内港口数量：

其中，代表第四子目标函数，/>表示表示/>贝位内堆存的集装箱所属不同卸货港的港口数目；贝内集装箱所属卸货港的港口数量多，则更容易出现翻箱或移机操作，优先考虑在同贝内堆存所属同卸货港的集装箱；

步骤S54：使得进闸集装箱与所选箱位堆放的在场集装箱同港：

其中，代表第五子目标函数，/>表示当前进闸集装箱所选箱位堆放的在场集装箱是否为同卸货港出口箱。

优选地，生成总选位目标函数的方法为：

对依次进行归一化处理，使数量纲统一；

参考图10所示，的归一化函数/>：

其中，当吨差大于0时，吨差大小对于函数结果的影响被归一化于[0,1]范围内，当吨差小于0时，吨差大小被归一于[-1，0]范围内，进而将吨差小于0视为惩罚函数；

的归一化函数/>：

其中，通过计算每个箱区中与当前进闸集装箱同船的在场集装箱量与所有箱区范围内相应同船箱平均箱量的方差，来判断选位计算过程中各个箱区的同船箱堆存情况，进而选择箱量少的箱区进行堆放；

的归一化函数/>：

其中，引入线性递减函数作变换，当贝内港口数量为0时，对应归一范围内最大值1，当贝内港口数量为最大堆存时，此时堆存效果最差，对应归一范围内最小值0；表示最大堆存数量；

其中，作为目标函数中的惩罚函数，在出口箱选位作业中，要求尽量同港箱互压，否则将会造成翻箱，由于/>的计算结果非1即0，因此无需进行归一化处理；

进而通过计算总选位目标函数：

其中，参数分别表示子目标函数的权重，根据堆场情况由作业人员根据实际需求进行设定；然后根据总选为目标函数确认回报值，例如:对/>分别赋值、/>、/>、/>，则回报值/>：

。

实施例二

参照图6，图11所示，实施例二与实施例一基本相同，不同之处在于，通过损失函数来训练深度增强学习网络的方法为：

步骤S100：通过最小化在每次迭代过程中产生的损失函数训练深度增强学习网络，其中所述损失函数：

其中，表示权重参数，/>表示动作值，/>表示期望值，/>表示学习速率，表示迭代中的目标动作价值，/>表示动作价值；

步骤S101：通过梯度下降的方法来优化损失函数：

其中，表示折扣因子，/>表示从环境返回的立即返回值；即每次在经验回放时抽取样本来更新神经网络参数，对于样本量较大地训练集；参考图11所示，图中，/>代表当前节点/>向下一节点/>进行神经网络传递时的权重参数，/>表示当前层的各个节点输入的偏置量，表示在神经元中，输入的加权求和结果再加上偏置量的和，/>表示激活函数的输出值，/>为神经网络计算的实际/>值。

实施例三

参照图1-图7所示，本发明还提供一种基于深度增强学习的智能堆场管控系统，使用所述的基于深度增强学习的智能堆场管控方法进行进闸集装箱的堆场管控，包括：

深度学习模块10，用于采用深度增强学习神经网络获得训练集，且通过梯度下降的方法不断更新训练集的参数，包括：以第一预设概率选择动作价值最大的动作，同时以第二预设概率选择随机探索，采用/>动作选择策略作为每个动作被选择的概率计算，获得更新后的动作价值；

收箱模型模块11，用于建立智能收箱模型，使用预设选位约束对动作价值进行约束，生成预设数量的子目标，且对所有的子目标进行归一化处理，确定子目标比重，生成总选位目标函数，进而根据总选为目标函数计算回报值；

堆场管控模块12，用于根据回报值将当前进闸集装箱与预设场地位置进行配对，且将进闸集装箱与预设场地位置的特征进行匹配，若匹配则将前进闸集装箱堆存至预设场地位置，若不匹配则重新将所述进闸集装箱进行配对。

其中，所述智能堆场管控系统还包括：

智能收箱单元13，用于自动分港分吨、滚动添加主箱区，所述自动分港分吨即根据历史数据和实时收箱情况为每个航次自动划分港口、动态调整吨级，以提高场地利用率；所述滚动添加主箱区即对于任意航次的收箱过程，能根据历史数据、进箱情况以及实时箱区数据变化等信息动态判断是否需要为该航次新增主箱区，实现箱区资源动态集约化管理；

智能卸船单元14，用于随机选位、大票归垛，所述随机选位即根据实时场地设备情况及箱区繁忙程度等信息，动态选择有机械设备可以及时作业的贝位进行卸船箱落箱作业；所述大票归垛即通过动态计算场地位置实现按串大票归垛，即若干个同票箱归垛到一排集中堆放；

智能中转单元15，用于多船混堆、重进重出，所述多船混堆即将整个码头当前卸船作业统一考虑，实现多船混堆。针对相同二程船的还可以同贝混堆，以设备为导向，集约化控制场桥的作业任务密集度，提高场地机械作业效率；所述重进重出即实现堆场出口箱区的集卡重进重出，减少集卡的空回行驶路程。

实施例四

参照图1-图6所示，本发明还提供一种计算机存储介质，所述计算机介质上存储有计算机程序，所述计算机程序被处理器执行实现根据所述的基于深度增强学习的智能堆场管控方法。

发明还提供一种计算机，包括所述的一种计算机存储介质。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.基于深度增强学习的智能堆场管控方法，其特征在于，所述方法包括以下步骤：

采用深度增强学习神经网络获得训练集；

建立智能收箱模型，使用预设选位约束对动作价值进行约束，生成预设数量的子目标，且对所有的子目标进行归一化处理，确定子目标比重，生成总选位目标函数，进而根据总选位目标函数计算回报值；

若是，则将进闸集装箱堆存至预设场地位置，若否，则重新将所述闸集装箱进行配对；判断进闸集装箱与预设场地位置是否特征匹配的方法为：

,

其中，表示当前进闸集装箱的重量，/>表示当前进闸集装箱所匹配到场地位置下方在场集装箱的重量，且若进闸集装箱箱的预设场地位置位于堆场箱位第一层时，/>，表示两个箱子之间的吨差；若吨差求得为正值，则表示堆存匹配；

判断出进闸集装箱与预设场地位置堆存的在场集装箱为同尺寸的集装箱的方法为：

若是，则计算贝内港口数：，若否，则重新将所述进闸集装箱进行配对，其中，表示进闸集装箱匹配到的预设场地位置贝位内，加上进闸集装箱后，在场集装箱所属卸货港的数量；/>表示贝内可堆存位置数；

计算预设场地位置的箱区在场集装箱量：，其中，表示当前/>箱区内被占用的场地位置数量，/>表示当前/>箱区内最多可堆存的集装箱数量；

使用预设选位约束对动作价值进行约束的方法为：

使得贝内达到最大容量约束，且同港箱所占贝位集中分布；

使得堆放的集装箱同尺寸，且同空重，且同箱高，且同船；

生成预设数量的子目标的方法为：

最小化堆放集装箱之间的吨差，生成第一子目标

其中，表示当前进闸集装箱箱的重量，/>表示在场集装箱/>的重量，/>表示进闸集装箱是否选位在场地内/>位置，/>表示在场集装箱/>是否在堆场内/>位置，/>表示堆场内箱区中，/>层是否直接压在/>层上；

使得堆场箱区的箱量均匀分布，生成第二子目标

其中，表示当前进闸集装箱是否与在场集装箱/>属于同一条船，/>表示在场集装箱/>是否属于/>箱区；

其中，表示/>箱区内正在等待作业的集装箱数目；

最小化贝内港口数量，生成第四子目标

其中，表示表示/>贝位内堆存的集装箱所属不同卸货港的港口数目；

其中，表示当前进闸集装箱所选箱位堆放的在场集装箱是否为同卸货港出口箱。

2.根据权利要求1所述的基于深度增强学习的智能堆场管控方法，其特征在于，通过梯度下降的方法不断更新训练集的参数的方法为：

深度增强学习神经网络的输入为智能收箱问题设定的状态特征值,输出为每个状态下采取动作所得的动作价值，进而通过/>方法训练深度增强学习神经网络，的目标动作价值

其中，为选位，/>的输入为状态特征值，/>表示神经网络中的权重，/>为折扣因子，/>为动作，/>为在场集装箱；

利用经验回放的方法，将每一个时刻的学习经验存储至经验回放数据集/>中,且将众多选位过程汇集成回放经验，其中，/>为集装箱层数；

3.根据权利要求1所述的基于深度增强学习的智能堆场管控方法，其特征在于，生成总选位目标函数的方法为：

将第一子目标归一化处理：

将第二子目标归一化处理：

将第三子目标归一化处理：

将第四子目标归一化处理：

根据第一子目标、第二子目标、第三子目标、第四子目标、第五子目标计算总选位目标：

其中，参数分别表示子目标的权重。

4.基于深度增强学习的智能堆场管控系统，其特征在于，使用权利要求1-3任一项所述的基于深度增强学习的智能堆场管控方法进行进闸集装箱的堆场管控，包括：

深度学习模块（10），用于采用深度增强学习神经网络获得训练集，且通过梯度下降的方法不断更新训练集的参数，包括：以第一预设概率选择动作价值最大的动作，同时以第二预设概率选择随机探索，采用/>动作选择策略作为每个动作被选择的概率计算，获得更新后的动作价值；

收箱模型模块（11），用于建立智能收箱模型，使用预设选位约束对动作价值进行约束，生成预设数量的子目标，且对所有的子目标进行归一化处理，确定子目标比重，生成总选位目标函数，进而根据总选位目标函数计算回报值；

堆场管控模块（12），用于根据回报值将当前进闸集装箱与预设场地位置进行配对，且将进闸集装箱与预设场地位置的特征进行匹配，若匹配则将前进闸集装箱堆存至预设场地位置，若不匹配则重新将所述进闸集装箱进行配对。

5.一种计算机存储介质，其特征在于，所述计算机介质上存储有计算机程序，所述计算机程序被处理器执行实现根据权利要求1-4中任一项所述的基于深度增强学习的智能堆场管控方法。

6.一种计算机，其特征在于，包括根据权利要求5所述的一种计算机存储介质。