CN116629424A

CN116629424A - 新型集装箱堆场作业模式的自动化双场桥智能调度方法

Info

Publication number: CN116629424A
Application number: CN202310590061.7A
Authority: CN
Inventors: 周鹏飞; 张全昊
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-05-24
Filing date: 2023-05-24
Publication date: 2023-08-22

Abstract

本发明公开了新型集装箱堆场作业模式的自动化双场桥智能调度方法,涉及集装箱调度优化技术领域；包括：获取共享区域作业模式；将集装箱动态调度问题转化为具有马尔科夫性质的离散时间连续决策过程，海、陆侧场桥被定义为两个智能体，集装箱任务及运输车辆被定义为环境，同时分别定义状态空间、动作空间和立即回报；以最小化运输车辆的平均等待时间为优化目标，建立双场桥动态调度MDP模型；通过DANSQ和DADQN两种强化学习算法分别对所述双场桥动态调度MDP模型进行求解；设计增量学习与调度应用框架以提高动态调度精度。本方法提高场桥协同作业效率，以减少运输车辆的等待时间；实现了自动化双场桥的动态协同调度，提高了场桥优化调度精度。

Description

新型集装箱堆场作业模式的自动化双场桥智能调度方法

技术领域

本发明涉及集装箱调度优化技术领域，具体涉及新型集装箱堆场作业模式的自动化双场桥智能调度方法。

背景技术

海运是经济全球化和国际贸易的主力军，占全球和我国进出口货物的绝大部分。集装箱运输是海运的主要形式之一，集装箱码头是海上运输的重要枢纽。但传统码头存在效率低下、安全隐患和环境污染等问题，已成为全球供应网络的瓶颈。港口运营商需要提高效率和营运效益，以增强竞争力。自动化集装箱码头是一种采用自动化技术和前沿管理方式的码头，其主要特征体现在码头前沿、堆场和闸口三个环节实施自动化作业工艺。堆场作业是集装箱码头装卸效率的关键环节，堆场中场桥的作业效率直接影响岸桥和场桥的效率，因此提高堆场中场桥的作业效率是港口运营商提升服务水平、提高竞争力的重要保障。

集装箱码头堆场的布局主要有两种配置形式：欧洲布局和亚洲布局。与亚洲布局相比，欧洲布局的优势是可以有效的利用堆场空间、提高场桥和运输车辆的利用率、降低运输车辆的等待时间和行驶路程、降低能耗和排放等，但缺点是调度系统和控制策略更为复杂，因此需要对其进行更为深入的研究。欧洲布局中每个箱区两端分别设置海陆侧交接区，且每个箱区部署两台同轨道的双场桥，两台场桥不能互相穿越且为了安全必须保持最小安全距离。在实际堆场作业过程中，海侧场桥可能需要跨越整个箱区来完成海侧集装箱作业，为了避免两台场桥的相互干扰，陆侧场桥需要避让海侧场桥，甚至极端情况下会退出整个箱区，同理陆侧集装箱任务的作业过程亦是如此，这会导致场桥严重空载，进而影响堆场的装卸作业效率和运营成本。因此需要一种合适的集装箱堆存及双场桥协同合作策略来提高场桥的作业效率。

传统的调度优化方法通常针对特定时期、特定条件下的作业情况进行优化调度。然而，在实际作业中，由于集装箱船或运输车辆的到达时间可能会受到天气、交通等动态环境下不确定性因素的干扰，导致其到达时间难以预测。如何根据实时情况对双场桥进行动态调度优化，提高堆场的作业效率，是该领域面临的技术挑战。

欧洲布局下的集装箱码头堆场的双场桥动态调度优化问题，通常采用以下三种方法解决：

(1)常规调度方法：该类方法通常设定特定规则，在场桥完成上一任务后，依据设定的特定规则进行后续的任务选择。目前应用较多的常规调度策略有先到先服务、短作业优先和临近作业等，这些策略不涉及复杂的计算，应用效率较高，但调度效果不是很理想。

(2)数学规划方法：主要包括整数规划、混合整数规划、分支定界算法等，这类方法大多依赖于简单的假设，能够求得最优解，即最优的调度方案。双场桥调度问题是NP完全的，数学规划方法的求解难度与调度问题规模成正比，这使得数学规划方法在实际问题求解中缺乏实时性。而且，数学规划方法往往建立在理想化的假设上，不适合解决实际的调度问题。

(3)启发式方法：启发式方法是一种针对NP问题提出的求解方法。启发式方法与数学规划方法的区别在于，它不追求NP问题的最优解，而是在计算时间和计算精度(调度效果)之间寻找一种平衡，以较小的计算量得到最优解或近似最优解。常用的启发式算法有遗传算法、蚁群算法、粒子群算法等。由于这类方法计算成本小、精度高等，在静态调度问题中被广泛采用。但堆场作业的实际情况非常复杂，经常遇到任务延误、车辆阻塞、外集卡随机抵达等不确定因素。这些因素增加了堆场调度的动态性，使得该类方法难以满足堆场的动态响应需求，限制了其实际应用。

发明内容

本发明的目的在于，提出新型集装箱堆场作业模式的自动化双场桥智能调度方法，其设计了一种新型共享区域作业模式，建立了双场桥动态调度模型，并设计了两种智能调度算法对该模型进行优化求解，最后针对两种算法提出了相应的增量学习与调度应用框架，以提高双场桥的动态调度性能。

为实现上述目的，本申请提出的新型集装箱堆场作业模式的自动化双场桥智能调度方法，包括：

获取共享区域作业模式；

基于马尔科夫理论，将集装箱动态调度问题转化为具有马尔科夫性质的离散时间连续决策过程，海、陆侧场桥被定义为两个智能体，集装箱任务及运输车辆被定义为环境，同时分别定义状态空间、动作空间和立即回报；

以最小化运输车辆的平均等待时间为优化目标，建立双场桥动态调度MDP模型；

通过DANSQ和DADQN两种强化学习算法分别对所述双场桥动态调度MDP模型进行求解；

针对DANSQ和DADQN两种强化学习算法，设计增量学习与调度应用框架以提高动态调度精度。

进一步的，所述共享区域作业模式为：当共享区域容量充足时，陆侧场桥先将集装箱从陆侧交接区放置到共享区域的目标箱位，然后海侧场桥将集装箱从共享区域放置到海侧交接区；当共享区域容量达到某一上限前，采用两种处理方式：1)当目标侧区域容量充足时，目标侧场桥提前将共享区域的集装箱转移到目标侧区域；2)将目标箱位在共享区域的集装箱临时存放在初始侧区域进行过渡，当接收到提货请求或共享区域容量充足时，初始侧区域场桥再将其放置到共享区域，然后目标侧区域场桥将集装箱送至交接区完成取箱作业；当海陆两侧没有新任务到达时，场桥进行集装箱在箱区内不同区域间的转移作业；

在共享区域作业模式中，对于临时存放在目标侧区域的进、出口集装箱，依据PSCW原则确定临时存放箱位；而对于临时存放在初始侧区域的进、出口集装箱，按照翻箱量和转移距离最小化原则确定临时存放箱位，即选择翻箱量最少的贝位进行临时存放，若多个贝位的翻箱量最少且相等，则优先选择距离共享区域距离最近的贝位进行临时存放。

进一步的，环境状态特征包括场桥状态特征、箱区状态特征和任务状态特征；所述场桥状态特征通过一个四元组(LA,SA,RS,OI)来描述，其中LA表示陆侧场桥在箱区中的当前位置，SA表示海侧场桥在箱区中的当前位置，RS表示对立侧场桥的工作状态，OI表示对立侧场桥执行的任务信息，所述对立侧场桥执行的任务信息包括集装箱作业性质(存箱、取箱、装船、卸船)以及目标箱位；箱区状态特征通过一个五元组(B₁,B₂,B₃,B₄,B₅)来描述，其中B₁、B₂和B₃分别表示陆侧区域、共享区域和海侧区域的容量状态，其取值由式(1)表示，B₄和B₅为陆侧区域和海侧区域中需要转移到共享区域的集装箱数量；这样，场桥在进行任务决策时依据箱区状态特征进行集装箱在初始侧区域、目标侧区域和共享区域之间的转移：

其中n_c,i表示当前箱区内集装箱个数，n_limit,i表示当前箱区容量上限，ρ为箱区容量占比；

所述任务状态特征通过一个三元组(TA,JC,TP)来描述，其中TA表示每辆集卡到达时间排名，JC表示集装箱作业性质，TP表示集装箱的目标箱位；

则状态空间中的每个状态由下式表示：

s＝{LA,SA,RS,OI,B₁,B₂,B₃,B₄,B₅,TA₁,JC₁,TP₁,...,TA_c,JC_c,TP_c} (2)

其中c表示交接区的容量。

进一步的，环境动作表示为44个组合启发式动作策略和4个箱区内不同区域间的转移动作策略，其中44个组合启发式动作策略如表1和表2所示，4个箱区间的转移动作策略分别为：按照最早装船(海侧)或提箱(陆侧)原则将集装箱从初始侧区域转移至共享区域，用OTST表示此动作；按照最早装船(海侧)或提箱(陆侧)原则将集装箱从共享区域转移至目标侧区域，用STDT表示此动作；按照最少翻箱量原则将集装箱从初始侧区域转移至共享区域，用OTSH表示此动作；按照最少翻箱量原则将集装箱从共享区域转移至目标侧区域，用STDH表示此动作；因此动作空间表示为：

A＝{a₁＝1,a₂＝2,...,a₄₂＝42,a₄₃＝43,a₄₄＝44} (3)

表1子动作信息及符号

表2组合动作及编码

进一步的，立即回报函数为：

其中n_v为当前任务完成时当前侧(海侧或陆侧)交接区中等待的运输车辆的数量；Δ为一个较大的常正整数，用于保证立即回报为正值，使算法能够更快地找到最优动作。推荐Δ>(n_vt_max)²，其中t_max为当前任务序列中单个运输车辆的最长等待时间。

更进一步的，DANSQ强化学习算法为：

采用式(5)对状态空间进行压缩，即每β个连续位置(贝位、层或排)与该区间内的中间位置(贝位、层或排)建立映射关系：

其中s_p是近邻映射后的位置；N_p是真实的位置；β是近邻因子；[x]表示对x进行取整操作；

DANSQ强化学习算法通过增加一个临时变量来记录各个智能体之间的学习经验并考虑各个智能体间的相互影响，该临时变量称为经验共享Q值，由式(6)表示：

其中Q_s(s,a^*)为状态s下的经验共享Q值，m为智能体的个数，本文为双智能体问题，因此m＝2；故各个智能体间相互影响的第i个智能体Q值更新如式(7)所示：

其中ζ为经验共享因子，表示智能体在更新Q值时考虑自身Q值和另一个智能体Q值的比重，用于控制各个智能体之间Q值的平衡；ζ的取值范围为0到1。

更进一步的，DADQN强化学习算法为：

DADQN强化学习算法采用的网络包括输入层、隐含层、共享层和输出层；所述输入层有|s|个神经元，其中s的数学描述如式所示，输出层有|A|个神经元，其中A的数学描述如式所示，该层采用Linear激活函数，隐含层为全连接网络，隐藏层的神经元的数量取为64，该层采用ReLU激活函数，共享层分为价值流和优势流两部分，这两个流通过一个聚合层进行组合，以产生Q值的估计值；所述价值流表示在给定状态下采取任何动作的预期立即回报，即所有动作的平均立即回报；价值流仅与当前状态有关，而与采取的动作无关；所述优势流表示采取某个动作相对于采取其它动作的优势，仅与当前采取的动作有关，而与当前状态无关；Q值为当前状态价值V(s；θ)和动作优势价值A(s,a；θ)的和，用式(8)表示：

DADQN强化学习算法更新的误差函数如式(9)所示：

其中θ和θ′分别是Q值网络和目标网络的权重系数，α为学习率。

更进一步的，通过DANSQ和DADQN两种强化学习算法训练双场桥动态调度MDP模型学习阶段，采用式(10)对探索率及学习率进行衰减：

其中φ表示学习率或探索率；φ₀表示学习率或探索率的初值；φ_min表示衰减后学习率或探索率的最小值；B是衰减系数，决定衰减的快慢；N是当前训练轮数；N_max是训练的最大轮数；

其中DANSQ强化学习算法训练双场桥动态调度MDP模型学习阶段流程为：

第一步：对智能体1和智能体2的Q值表分别进行初始化，或分别加载已学习过的智能体1和智能体2的Q值表；

第二步：初始化参数，包括学习率α、探索率ε和折扣因子γ；

第三步：依据式(10)更新学习率和探索率；

第四步：智能体1依据ε-greedy策略，从智能体1的Q值表中选择当前状态下的相应动作，智能体2依据ε-greedy策略，从智能体2的Q值表中选择当前状态下的相应动作；

第五步：智能体1和智能体2各自执行相应的动作，并得到下一时刻状态和各自的立即回报；

第六步：依据式(6)得到经验共享Q值；

第七步：依据式(7)更新各自Q值表中的Q值；

第八步：若满足终止条件，则该轮学习终止；否则，返回到第三步；

双场桥动态调度仿真程序与DANSQ强化学习算法交互的过程为：其中陆侧场桥和海侧场桥分别用ASC_land和ASC_sea表示，陆侧Q值表和海侧Q值表分别用Q-table_land和Q-table_sea表示；

第一步：输入并初始化DANSQ强化学习算法的相关参数；

第二步：初始化仿真环境；

第三步：依据式(10)更新学习率和探索率；

第四步：仿真环境时间推进；

第五步：若ASC_sea能执行新的任务，则ASC_sea依据ε-greedy策略从Q-table_sea中选择相应的任务执行，否则ASC_sea空闲或继续执行当前未完成的任务，若ASC_land能执行新的任务，则ASC_land依据ε-greedy策略从Q-table_land中选择相应的任务执行，否则ASC_land空闲或继续执行当前未完成的任务；

第六步：判断陆侧或海侧是否有任务完成；若海侧有任务完成，则依据式(7)更新Q-table_sea，若陆侧有任务完成，则依据式(7)更新Q-table_land；

第七步：判断陆、海侧任务是否全部完成；若否，则返回第三步；

第八步：检测迭代是否满足终止条件；若不满足，返回第二步；若满足，则退出迭代；

其中DADQN强化学习算法训练双场桥动态调度MDP模型学习阶段流程为：

第一步：对智能体1和智能体2的神经网络(Q值网络和目标网络)分别进行初始化，或分别加载已学习过的智能体1和智能体2的神经网络；

第三步：依据式(10)更新学习率和探索率；

第四步：智能体1依据ε-greedy策略，从智能体1的Q值网络中选择动作，智能体2依据ε-greedy策略，从智能体2的Q值网络中选择动作；

第五步：智能体1和智能体2各自执行相应的动作，并得到下一时刻状态和各自的立即回报，储存到记忆样本池中；

第六步：从记忆样本池中随机抽样，使用梯度下降法最小化式(9)来更新网络参数；

第七步：若满足终止条件，则该轮学习终止；否则，返回到第三步；

双场桥动态调度仿真程序与DADQN强化学习算法交互的过程为：其中陆侧场桥和海侧场桥分别用ASC_land和ASC_sea表示，陆侧Q值网络和海侧Q值网络分别用Q-network_land和Q-network_sea表示：

第一步：输入并初始化DADQN强化学习算法的参数；

第三步：依据式(10)更新学习率和探索率；

第四步：仿真环境时间推进；

第五步：若ASC_sea能执行新的任务，则ASC_sea依据ε-greedy策略从Q-network_sea中选择相应的任务执行，否则ASC_sea空闲或继续执行当前未完成的任务，若ASC_land能执行新的任务，则ASC_land依据ε-greedy策略从Q-network_land中选择相应的任务执行，否则ASC_land空闲或继续执行当前未完成的任务；

第六步：判断陆侧或海侧是否有任务完成；若海侧有任务完成，则依据式(9)更新Q-network_sea，若陆侧有任务完成，则依据式(9)更新Q-network_land；

第八步：检测迭代是否满足终止条件；若不满足，返回第二步；若满足，则退出迭代。

作为更进一步的，每次DANSQ强化学习过程结束后，Q值表中可靠状态的数据作为训练样本来训练MPA网络，该网络用于预测Q值表中不可靠状态所对应的最佳动作；MPA网络输入层中神经元个数为|s|，隐藏层设置为多层，每个隐藏层采用ReLU激活函数；输出层的神经元个数为|A|，该层采用Softmax激活函数，输出所有动作被选择的概率p(a)，Q值越大，动作被选择的概率就越高；训练过程中使用二分类交叉熵函数作为损失函数；

针对DANSQ强化学习算法，设计增量学习与调度应用框架，步骤如下：

步骤1：场桥系统接收到环境发来的新任务请求，若当前状态可靠，则场桥依据贪婪策略从Q值表中选择当前状态下的最优动作a^*；若当前状态不可靠，则场桥依据MPA网络选择当前状态下的最优动作a^*；

步骤2：场桥依据最优动作a^*来执行任务；

步骤3：此次任务完成后环境返回立即回报R_sa和环境的下一个状态s'，并依据式(7)来更新此场桥的Q值表，并记录更新的状态及Q值；

步骤4：依据步骤3中记录的状态及Q值来对MPA网络进行训练。

作为更进一步的，针对DADQN强化学习算法，设计增量学习与调度应用框架，步骤如下：

步骤1：场桥系统接收到环境发来的新任务请求，场桥依据贪婪策略从Q值网络(Q-network)输出中选择当前状态下的最优动作a^*；

步骤2：场桥依据最优动作a^*来执行任务；

步骤3：此次任务完成后，环境返回立即回报R_sa和环境的下一个状态s'，并依据式(9)来更新此场桥的Q值网络(Q-network)权重参数。

本发明采用的以上技术方案，与现有技术相比，具有的优点是：

(1)本发明提出了一种新型共享区域作业模式，该模式将箱区分为陆侧区域、共享区域和海侧区域，共享区域设置在箱区的中间，用于堆存进、出口集装箱，海、陆侧区域设置在箱区的两侧，用于堆存转运集装箱和三个区域间需要进行转移的临时集装箱。还设计了共享区域与海、陆侧的集装箱转移、堆放及双场桥协同合作等策略，并将其作为决策变量，来提高堆场的作业效率。

(2)本发明根据欧洲布局的共享区域作业模式双场桥动态调度特点，设计了双场桥动态调度的环境变量特征，包括：场桥状态特征、箱区状态特征和任务状态特征。状态空间中每个状态可表示为：s＝{LA,SA,RS,OI,B₁,B₂,B₃,B₄,B₅,TA₁,JC₁,TP₁,…,TA_c,JC_c,TP_c}。该方式方法有助于双场桥协同调度策略的学习，并且提高调度精度以减少运输车辆的平均等待时间。

(3)本发明根据欧洲布局的共享区域作业模式双场桥动态调度特点，设计了40个组合启发式动作策略和4个箱区内不同区域间的转移动作策略，动作空间可表示为：A＝{a₁,a₂,…,a₄₄}。本发明基于运输车辆的平均等待时间为优化目标构造了动作执行的立即回报函数。

(4)本发明所公开的DANSQ强化学习算法分为学习阶段、增量学习与调度应用阶段。在学习阶段，双场桥通过与真实/模拟环境交互过程中环境反馈的立即回报不断更新Q值表中的Q值，进行自主训练学习。在调度应用阶段，根据经过训练学习的Q值表选择最优动作作为场桥的执行动作，并收集任务信息作为训练样本进行增量学习，实现自适应性学习和调度应用。

(5)本发明所公开的DADQN强化学习算法分为学习阶段、增量学习与调度应用阶段。在学习阶段，双场桥通过与真实/模拟环境交互过程中环境反馈的立即回报不断更新神经网络权重，进行自主训练学习。在调度应用阶段，根据经过训练学习的神经网络选择最优动作作为场桥的执行动作，并收集任务信息作为训练样本进行增量学习，实现自适应性学习和调度应用。

(6)本发明设计了DANSQ和DADQN强化学习算法训练学习阶段的探索率及学习率进行衰减策略，以提高算法的收敛效率及精度。

附图说明

图1为集装箱码头堆场平面布置示意图；

图2为双场桥作业模式示意图(出口集装箱为例)：其中(a)为接力区作业模式；(b)为共享区域作业模式；

图3为神经网络架构图；

图4为双场桥动态调度仿真程序与DANSQ强化学习算法交互的过程图；

图5为双场桥动态调度仿真程序与DADQN强化学习算法交互的过程图；

图6为MPA网络结构及训练示意图；

图7为DANSQ的增量学习与调度应用框架图；

图8为DADQN的增量学习与调度应用框架图；

图9为不同干扰度下的动态调度结果图。

具体实施方法

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请，即所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。

欧洲布局是目前自动化集装箱码头最常采用的一种堆场布局形式，如图1所示。箱区垂直于海岸线布置，交接区位于箱区的两端，分别处理海侧或陆侧的任务请求。通常AGVs在海侧交接区完成存取箱任务，AGVs或港外集卡在陆侧交接区完成存取箱任务。为了简化交通控制，运输车辆不能进入相邻的箱区之间。每个箱区部署两台同轨道的场桥。为保证安全，两台场桥不能互相穿越且必须保持最小安全距离。箱区内同时存在海、陆侧的出口集装箱任务、进口集装箱任务和转运集装箱任务。

为使场桥设备更能有效地进行装卸作业，本发明在调度决策中既考虑了堆场内已经抵达的任务信息，又考虑了未来一段时间内即将抵达的任务信息(可通过码头预约系统或闸口系统等方式获取)，如客户可提前通过码头预约系统将任务基本信息提前告知码头方，或运输车辆通过闸口时，闸口系统将任务基本信息实时传送至堆场系统中。

一般地，场桥根据确定的作业任务序列进行调度决策，但实际作业过程中可能出现天气、交通等不确定因素造成的任务延误抵达、随机抵达等情况，因此动态环境下的实时调度变得尤为重要。本发明针对上述描述的问题，提出一种新型双场桥协同作业模式，并优化动态环境下场桥的装卸作业顺序，缩短运输车辆的平均等待时间。

本实施例中运输车辆：指搬运集装箱的码头内部车辆和外部车辆。常用码头内部集装箱搬运车辆如：自动导引车AGV、自举式导引车L-AGV、ALV、跨运车等；码头外部集装箱搬运设备主要是港外集装箱卡车(简称外集卡)。场桥：指自动化集装箱码头堆场箱区内负责堆放和提取集装箱的自动化设备，其具体形式主要采用轨道式龙门起重机。本发明所述双场桥部署在相同轨道上，运输车辆停靠在箱区两端的交接区。箱区：指集装箱码头堆场分区管理的基本单位，箱区内配置两台同轨道场桥，两者不可互相穿越，场桥堆取集装箱的交接区设置在箱区端部。场桥调度：指调度(指派)箱区内的场桥去执行(服务)运输车辆的堆箱或取箱任务，确定场桥的任务作业顺序。交接区：场桥与运输车辆交接集装箱的区域。任务序列：是指某时间段内的一组任务，例如(T₁,T₂,T₃,...,T_m)，并根据到达时间先后进行排序，time(T₁)<time(T₂)<...<time(T_m)。

本实施例提供一种新型集装箱堆场作业模式的自动化双场桥智能调度方法，包括：

S1.获取共享区域作业模式；

具体的，在实际堆场作业过程中，海侧场桥可能需要跨越整个箱区来完成海侧集装箱作业，为了避免两台场桥的相互干扰(由于双场桥处在同轨道而不能同时处在同一贝位作业)，陆侧场桥需要避让海侧场桥，甚至极端情况下会退出整个箱区，同理陆侧集装箱任务的作业过程亦是如此，这会导致场桥严重空载，进而影响堆场的装卸作业效率和运营成本。为了避免上述情况，一般的处理方法是在箱区中间设置接力区(通常为1个贝位)，使双场桥协同完成装卸作业任务，如图2a所示。对于海侧进口集装箱作业，海侧场桥在接到指令后从当前位置移动到海侧交接区，提取集装箱后运送到箱区目标箱位来临时储存，当客户发出取箱指令后，海侧场桥先将其放到接力区临时存放，然后陆侧场桥从接力区提箱运送到陆侧交接区以完成海侧进口集装箱作业任务；同理，对于陆侧出口集装箱作业，陆侧场桥在接到指令后从当前位置移动到陆侧交接区，提取集装箱后运送到箱区目标箱位临时储存，当集装箱船到达需对其进行装船作业时，陆侧场桥先将其放到接力区临时存放，然后海侧场桥从接力区提箱运送到海侧交接区，并由AGVs和岸桥完成装船作业。但在接力区作业模式中，每个进/出口集装箱任务需要同时调动两台场桥协同完成作业，这会出现一侧场桥等待另一侧场桥的情况，进而会导致另一侧运输车辆的等待时间过长。因此，如何优化欧洲布局下的双场桥协作机制，以提高堆场的作业效率和客户的满意度，是亟需解决的问题。

针对接力区作业模式的不足，本发明公开了一种新型共享区域作业模式，如图1和图2b所示，其特点是将箱区中间原有的接力区扩展为共享区域，以堆存进、出口集装箱，海、陆侧区域设置在箱区的两侧，用于堆存转运集装箱和三个区域间需要进行转移的临时集装箱。值得注意的是，铁路货运或内河运输会出现转运集装箱的场景，且不同箱区间的集装箱也会通过AGVs在陆侧区域进行调配。陆侧转运集装箱的数量一般明显少于海侧转运集装箱的数量，因此陆侧区域面积一般小于海侧区域面积。而进、出口集装箱的数量会多于转运集装箱的数量，因此共享区面积一般大于海侧区域面积。海侧场桥只能在海侧区域和共享区域内工作，不能在陆侧区域内作业；同理，陆侧场桥只能在陆侧区域和共享区域内作业，不能在海侧区域内作业。图2b描述了共享区域堆存模式下的出口集装箱作业流程，当共享区域容量充足时，陆侧场桥先将集装箱从陆侧交接区放置到共享区域的目标箱位，然后海侧场桥将集装箱从共享区域放置到海侧交接区。当共享区域容量达到某一上限前，采用两种处理方法：1)当目标侧区域(若为出口集装箱，则目标侧区域为海侧区域；反之，则目标侧区域为陆侧区域)容量充足时，目标侧场桥可提前将共享区域的集装箱转移到目标侧区域，以尽可能保证共享区域容量充足；2)将目标箱位在共享区域的集装箱临时存放在初始侧区域(若为出口集装箱，则初始侧区域为陆侧区域；反之，则目标侧区域为海侧区域)进行过渡，当接收到提货请求或共享区域容量充足时，初始侧区域场桥再将其放置到共享区域，然后目标侧区域场桥将集装箱送至交接区完成取箱作业。当海陆两侧没有新任务到达时，场桥可进行集装箱在箱区内不同区域间的转移作业。

集装箱在箱区内的箱位分配通常遵循PSCW原则，即具有相同港口目的地(Port)、相同尺寸(Size)和相同类型(Category)的集装箱储存在同一箱区的同一贝位，并且按照集装箱重量(Weight)将放置在同一贝位的集装箱进行排列放置(轻的集装箱放置在下面，重的集装箱放置在上面，保证在装船时重的集装箱在下、轻的集装箱在上，有利于集装箱船的稳定性)以减少翻箱量。在共享区域作业模式中，对于临时存放在目标侧区域的进、出口集装箱，同样依据PSCW原则确定临时存放箱位；而对于临时存放在初始侧区域的进、出口集装箱，其转移时的作业效率主要受翻箱量(Reshuffle)和作业距离(Distance)的影响，因此按照翻箱量和转移距离最小化原则(RSD原则)确定临时存放箱位，即选择翻箱量最少的贝位进行临时存放，若多个贝位的翻箱量最少且相等，则优先选择距离共享区域距离最近的贝位进行临时存放。

S2.基于马尔科夫理论，将集装箱动态调度问题转化为具有马尔科夫性质的离散时间连续决策过程，海、陆侧场桥被定义为两个智能体，集装箱任务及运输车辆被定义为环境，同时分别定义状态空间、动作空间和立即回报；

具体的，环境状态特征包括场桥状态特征、箱区状态特征和任务状态特征。场桥状态特征通过一个四元组(LA,SA,RS,OI)来描述，其中LA表示陆侧场桥在箱区中的当前位置，SA表示海侧场桥在箱区中的当前位置，RS表示对立侧场桥的工作状态，OI表示对立侧场桥执行的任务信息，包括集装箱作业性质(存箱、取箱、装船、卸船)以及目标箱位。箱区状态特征通过一个五元组(B₁,B₂,B₃,B₄,B₅)来描述，其中B₁、B₂和B₃分别表示陆侧区域、共享区域和海侧区域的容量状态，其取值由式(1)表示，B₄和B₅为陆侧区域和海侧区域中需要转移到共享区域的集装箱数量。这样，场桥在进行任务决策时可依据箱区状态特征进行集装箱在初始侧区域、目标侧区域和共享区域之间的转移。

其中n_c,i表示当前箱区内集装箱个数，n_limit,i表示当前箱区容量上限，ρ为箱区容量占比。任务状态特征由一个三元组(TA,JC,TP)来描述，其中TA表示每辆集卡到达时间排名，JC表示集装箱作业性质，TP表示集装箱的目标箱位。

则状态空间中的每个状态可由下式表示：

其中c表示交接区的容量。可以看到，状态的维度随交接区的容量动态变化，交接区的容量越大，状态的维度就越大。

环境动作特征表示为40个组合启发式动作策略和4个箱区内不同区域间的转移动作策略，其中40个组合启发式动作策略如表1和表2所示，4个箱区间的转移动作策略分别为：按照最早装船(海侧)或提箱(陆侧)原则将集装箱从初始侧区域转移至共享区域，用OTST表示此动作,；按照最早装船(海侧)或提箱(陆侧)原则将集装箱从共享区域转移至目标侧区域，用STDT表示此动作；按照最少翻箱量原则将集装箱从初始侧区域转移至共享区域，用OTSH表示此动作；按照最少翻箱量原则将集装箱从共享区域转移至目标侧区域，用STDH表示此动作。因此动作空间可表示为式表示：

A＝{a₁＝1,a₂＝2,...,a₄₂＝42,a₄₃＝43,a₄₄＝44} (3)

表1子动作信息及符号

表2组合动作及编码

所述立即回报函数为：

S3.以最小化运输车辆的平均等待时间为优化目标，建立双场桥动态调度MDP模型；

S4.通过DANSQ和DADQN两种强化学习算法分别对所述双场桥动态调度MDP模型进行求解；

具体的，DANSQ算法采用式(5)对状态空间进行压缩，即每β个连续位置(贝位、层或排)可与该区间内的中间位置(贝位、层或排)建立映射关系，以适应复杂的问题。

其中s_p是近邻映射后的位置；N_p是真实的位置；β是近邻因子；[x]表示对x进行取整操作。

同时针对传统Q学习方法不能很好地适用于多智能体问题，本发明所述DANSQ算法中通过增加一个临时变量来记录各个智能体之间的学习经验并考虑各个智能体间的相互影响，该临时变量称为经验共享Q值，可由式(6)表示。

其中Q_s(s,a^*)为状态s下的经验共享Q值，m为智能体的个数，本发明为双智能体问题，因此m＝2。经验共享Q值的作用是将所有智能体的学习经验融合到一块，用于智能体Q值的更新；考虑各个智能体间相互影响的第i个智能体Q值更新如式(7)所示：

其中ζ为经验共享因子，表示智能体在更新Q值时考虑自身Q值和另一个智能体Q值的比重，用于控制各个智能体之间Q值的平衡。ζ的取值范围为0到1。

DADQN算法采用的网络包括输入层、隐含层、共享层和输出层，如图3所示。输入层有|s|个神经元，其中s的数学描述如式(2)所示，输出层有|A|个神经元，其中A的数学描述如式(3)所示，该层采用Linear激活函数，隐含层为全连接网络，隐藏层的神经元的数量取为64，该层采用ReLU激活函数，共享层分为价值流和优势流两部分，这两个流通过一个聚合层进行组合，以产生Q值的估计值。价值流表示在给定状态下采取任何动作的预期立即回报，即所有动作的平均立即回报。价值流仅与当前状态有关，而与采取的动作无关。优势流表示采取某个动作相对于采取其它动作的优势，仅与当前采取的动作有关，而与当前状态无关。Q值为当前状态价值V(s；θ)和动作优势价值A(s,a；θ)的和，可用式(8)表示，其中减去所有优势价值的平均值可以提高稳定性。

DADQN算法更新的误差函数如式(9)所示：

本发明所述方法的DANSQ和DADQN算法训练学习阶段，采用式(10)对探索率及学习率进行衰减。

其中φ表示学习率或探索率；φ₀表示学习率或探索率的初值；φ_min表示衰减后学习率或探索率的最小值；B是衰减系数，决定衰减的快慢；N是当前训练轮数；N_max是训练的最大轮数。

其中DANSQ算法训练学习算法流程为：

第二步：初始化参数，包括学习率α、探索率ε和折扣因子γ等；

第三步：依据式(10)更新学习率和探索率；

第六步：依据式(6)得到经验共享Q值；

第七步：依据式(7)更新各自Q值表中的Q值；

第八步：若满足终止条件，则该轮学习终止；否则，返回到第三步。

如图4所示，双场桥动态调度仿真程序与DANSQ强化学习算法交互的过程为：其中陆侧场桥和海侧场桥分别用ASC_land和ASC_sea表示，陆侧Q值表和海侧Q值表分别用Q-table_land和Q-table_sea表示。双场桥动态调度仿真程序与DANSQ算法交互的流程大致如下：

第一步：输入并初始化DANSQ算法的相关参数；

第二步：初始化仿真环境；

第三步：依据式(10)更新学习率和探索率；

第四步：仿真环境时间推进；

第五步：若ASC_sea可以执行新的任务，则ASC_sea依据ε-greedy策略从Q-table_sea中选择相应的任务执行，否则ASC_sea空闲或继续执行当前未完成的任务，若ASC_land可以执行新的任务，则ASC_land依据ε-greedy策略从Q-table_land中选择相应的任务执行，否则ASC_land空闲或继续执行当前未完成的任务；

第六步：判断陆侧或海侧是否有任务完成。若海侧有任务完成，则依据式(7)更新Q-table_sea，若陆侧有任务完成，则依据式(7)更新Q-table_land；

第七步：判断陆、海侧任务是否全部完成。若否，则返回第三步；

第八步：检测迭代是否满足终止条件。若不满足，返回第二步；若满足，则退出迭代。

其中，DADQN算法训练学习算法流程为：

第三步：依据式(10)更新学习率和探索率；

第七步：若满足终止条件，则该轮学习终止；否则，返回到第三步。

如图5所示，双场桥动态调度仿真程序与DADQN强化学习算法交互的过程为：其中陆侧场桥和海侧场桥分别用ASC_land和ASC_sea表示，陆侧Q值网络和海侧Q值网络分别用Q-network_land和Q-network_sea表示。双场桥动态调度仿真程序与DADQN算法交互学习流程如下：

第一步：输入并初始化DADQN算法的参数；

第三步：依据式(10)更新学习率和探索率；

第四步：仿真环境时间推进；

第五步：若ASC_sea可以执行新的任务，则ASC_sea依据ε-greedy策略从Q-network_sea中选择相应的任务执行，否则ASC_sea空闲或继续执行当前未完成的任务，若ASC_land可以执行新的任务，则ASC_land依据ε-greedy策略从Q-network_land中选择相应的任务执行，否则ASC_land空闲或继续执行当前未完成的任务；

第六步：判断陆侧或海侧是否有任务完成。若海侧有任务完成，则依据公式(9)更新Q-network_sea，若陆侧有任务完成，则依据公式(9)更新Q-network_land；

S5.针对DANSQ和DADQN两种强化学习算法，设计增量学习与调度应用框架；

具体的，当Q值表中的某一状态学习不充分时，容易引起决策偏差。本发明记录了DANSQ学习过程中每个状态的学习次数，当某一状态的学习次数大于5且该状态连续5次学习的最优动作Q值变化幅度不超过5％，认为该状态是可靠的(记为状态可靠)，动态应用中可直接依据该状态进行动作的选择；反之，认为状态不可靠。为此基于多分类预测理论构建神经网络模型。每次DANSQ学习过程结束后，Q值表中可靠状态的数据作为训练样本(状态作为输入特征，one-hot编码后的动作作为输出标签)来训练多分类预测神经网络(MPA网络)，该神经网络用于预测Q值表中不可靠状态所对应的最佳动作。MPA网络训练过程如图6所示。输入层中神经元个数为|s|，隐藏层设置为6层，每个隐藏层采用ReLU激活函数。输出层的神经元的个数为|A|，该层采用Softmax激活函数，输出所有动作被选择的概率p(a)，Q值越大，动作被选择的概率就越高。MPA网络训练过程中使用二分类交叉熵函数(categoricalcrossentropy)作为损失函数。

如图7所示，针对DANSQ强化学习算法，设计增量学习与调度应用框架，步骤如下：

步骤1：场桥系统接收到环境发来的新的任务请求，若当前状态可靠，则场桥依据贪婪策略从Q值表中选择当前状态下的最优动作a^*；若当前状态不可靠，则场桥依据MPA网络选择当前状态下的最优动作a^*；

步骤2：场桥依据最优动作a^*来执行任务；

步骤3：此次任务完成后环境返回立即回报R_sa式(4)和环境的下一个状态s'，并依据式(7)来更新此场桥的Q值表，并记录更新的状态及Q值；

步骤4：依据步骤3中记录的状态及Q值来对MPA网络进行训练。

如图8所示，针对DADQN强化学习算法，设计增量学习与调度应用框架，步骤如下：

步骤1：场桥系统接收到环境发来的新的任务请求，场桥依据贪婪策略从Q值网络(Q-network)输出中选择当前状态下的最优动作a^*；

步骤2：场桥依据最优动作a^*来执行任务；

步骤3：此次任务完成后，环境返回立即回报R_sa式(4)和环境的下一个状态s'，并依据式(9)来更新此场桥的Q值网络(Q-network)权重参数。

为验证本发明所提方法的有效性，基于我国北方某集装箱码头设计了数值实验方案。数值实验中，每个箱区共有30个贝位，陆侧、共享和海侧区域尺寸比值分别为1:1:1，交接区的最大容量设置为5。未来一段时间内(1min)即将到达的任务信息可通过闸门系统获取。任务到达率(λ，即平均每分钟到达λ个任务)的取值范围为0.2～2.0。运输车辆的到达时间服从泊松分布。集装箱目标位置随机产生，海陆两侧任务量的比例为1:1，堆取箱任务数量的比例也为1:1。数值实验环境相关参数如表3所示。

表3实验参数

引入干扰度来模拟运输车辆任务序列的干扰程度，其定义如式(11)所示。

其中n_η表示受干扰而不能正常抵达的任务数量，n表示任务序列中的任务总数量。当η＝0时表示已知的静态任务序列，η＝1时表示完全未知的动态任务序列。

图9给出了不同干扰度下的动态调度结果，其结果是以短作业优先策略下的运输车辆平均等待时间t_SJF为基准进行了无量纲处理，参考策略选用了目前主流的遗传算法(GA)的调度结果。可以看出：在运输车辆的平均等待时间上，本发明的DANSQ和DADQN方法较GA调度方法分别平均优化19.17％和30.42％，极大改善了动态环境下的自动化集装箱场桥作业效率和堆场服务水平。

综上，本发明提出一种新型共享区域作业模式，提高场桥协同作业效率，以减少运输车辆的等待时间；基于强化学习提出了集装箱堆场双场桥智能调度方法，解决动态环境下双场桥调度的难题，实现了自动化双场桥的动态协同调度，提高了场桥优化调度精度；通过集装箱堆场双场桥调度的智能体增量学习和调度应用方式，解决智能体学习效率问题，实现了自动化双场桥的调度智能体自适应学习和智能协同作业，提高了场桥动态调度的智能性和调度精度。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.新型集装箱堆场作业模式的自动化双场桥智能调度方法，其特征在于，包括：

获取共享区域作业模式；

针对DANSQ和DADQN两种强化学习算法，设计增量学习与调度应用框架。

2.根据权利要求1所述新型集装箱堆场作业模式的自动化双场桥智能调度方法，其特征在于，所述共享区域作业模式为：当共享区域容量充足时，陆侧场桥先将集装箱从陆侧交接区放置到共享区域的目标箱位，然后海侧场桥将集装箱从共享区域放置到海侧交接区；当共享区域容量达到某一上限前，采用两种处理方式：1)当目标侧区域容量充足时，目标侧场桥提前将共享区域的集装箱转移到目标侧区域；2)将目标箱位在共享区域的集装箱临时存放在初始侧区域进行过渡，当接收到提货请求或共享区域容量充足时，初始侧区域场桥再将其放置到共享区域，然后目标侧区域场桥将集装箱送至交接区完成取箱作业；当海陆两侧没有新任务到达时，场桥进行集装箱在箱区内不同区域间的转移作业；

3.根据权利要求1所述新型集装箱堆场作业模式的自动化双场桥智能调度方法，其特征在于，环境状态特征包括场桥状态特征、箱区状态特征和任务状态特征；所述场桥状态特征通过一个四元组(LA,SA,RS,OI)来描述，其中LA表示陆侧场桥在箱区中的当前位置，SA表示海侧场桥在箱区中的当前位置，RS表示对立侧场桥的工作状态，OI表示对立侧场桥执行的任务信息，所述对立侧场桥执行的任务信息包括集装箱作业性质以及目标箱位；箱区状态特征通过一个五元组(B₁,B₂,B₃,B₄,B₅)来描述，其中B₁、B₂和B₃分别表示陆侧区域、共享区域和海侧区域的容量状态，其取值由式(1)表示，B₄和B₅为陆侧区域和海侧区域中需要转移到共享区域的集装箱数量；这样，场桥在进行任务决策时依据箱区状态特征进行集装箱在初始侧区域、目标侧区域和共享区域之间的转移：

则状态空间中的每个状态由下式表示：

其中c表示交接区的容量。

4.根据权利要求1所述新型集装箱堆场作业模式的自动化双场桥智能调度方法，其特征在于，环境动作表示为40个组合启发式动作策略和4个箱区内不同区域间的转移动作策略，其中40个组合启发式动作策略如表1和表2所示，4个箱区间的转移动作策略分别为：按照最早装船(海侧)或提箱(陆侧)原则将集装箱从初始侧区域转移至共享区域，用OTST表示此动作；按照最早装船(海侧)或提箱(陆侧)原则将集装箱从共享区域转移至目标侧区域，用STDT表示此动作；按照最少翻箱量原则将集装箱从初始侧区域转移至共享区域，用OTSH表示此动作；按照最少翻箱量原则将集装箱从共享区域转移至目标侧区域，用STDH表示此动作；因此动作空间表示为：

A＝{a₁＝1,a₂＝2,...,a₄₂＝42,a₄₃＝43,a₄₄＝44} (3)

表1子动作信息及符号

表2组合动作及编码

5.根据权利要求1所述新型集装箱堆场作业模式的自动化双场桥智能调度方法，其特征在于，立即回报函数为：

其中n_v为当前任务完成时当前侧(海侧或陆侧)交接区中等待的运输车辆的数量；Δ为常正整数；其中t_max为当前任务序列中单个运输车辆的最长等待时间。

6.根据权利要求1所述新型集装箱堆场作业模式的自动化双场桥智能调度方法，其特征在于，DANSQ强化学习算法为：

采用式(5)对状态空间进行压缩，即每β个连续位置与该区间内的中间位置建立映射关系：

其中Q_s(s,a^*)为状态s下的经验共享Q值，m为智能体的个数，m＝2；故各个智能体间相互影响的第i个智能体Q值更新如式(7)所示：

7.根据权利要求1所述新型集装箱堆场作业模式的自动化双场桥智能调度方法，其特征在于，DADQN强化学习算法为：

DADQN强化学习算法采用的网络包括输入层、隐含层、共享层和输出层；所述输入层有|s|个神经元，其中s的数学描述如式(2)所示，输出层有|A|个神经元，其中A的数学描述如式(3)所示，该层采用Linear激活函数，隐含层为全连接网络，该层采用ReLU激活函数，共享层分为价值流和优势流两部分，这两个流通过一个聚合层进行组合，以产生Q值的估计值；所述价值流表示在给定状态下采取任何动作的预期立即回报，即所有动作的平均立即回报；价值流仅与当前状态有关，而与采取的动作无关；所述优势流表示采取某个动作相对于采取其它动作的优势，仅与当前采取的动作有关，而与当前状态无关；Q值为当前状态价值V(s；θ)和动作优势价值A(s,a；θ)的和，用式(8)表示：

DADQN强化学习算法更新的误差函数如式(9)所示：

8.根据权利要求1所述新型集装箱堆场作业模式的自动化双场桥智能调度方法，其特征在于，通过DANSQ和DADQN两种强化学习算法训练双场桥动态调度MDP模型学习阶段，采用式(10)对探索率及学习率进行衰减：

第三步：依据式(10)更新学习率和探索率；

第六步：依据式(6)得到经验共享Q值；

第七步：依据式(7)更新各自Q值表中的Q值；

第一步：输入并初始化DANSQ强化学习算法的相关参数；

第二步：初始化仿真环境；

第三步：依据式(10)更新学习率和探索率；

第四步：仿真环境时间推进；

第三步：依据式(10)更新学习率和探索率；

第一步：输入并初始化DADQN强化学习算法的参数；

第三步：依据式(10)更新学习率和探索率；

第四步：仿真环境时间推进；

第五步：若ASC_sea能执行新的任务，则ASC_sea桥依据ε-greedy策略从Q-network_sea中选择相应的任务执行，否则ASC_sea空闲或继续执行当前未完成的任务，若ASC_land能执行新的任务，则ASC_land依据ε-greedy策略从Q-network_land中选择相应的任务执行，否则ASC_land空闲或继续执行当前未完成的任务；

9.根据权利要求1所述新型集装箱堆场作业模式的自动化双场桥智能调度方法，其特征在于，每次DANSQ强化学习过程结束后，Q值表中可靠状态的数据作为训练样本来训练MPA网络，该网络用于预测Q值表中不可靠状态所对应的最佳动作；MPA网络输入层中神经元个数为|s|，隐藏层设置为多层，每个隐藏层采用ReLU激活函数；输出层的神经元个数为|A|，该层采用Softmax激活函数，输出所有动作被选择的概率p(a)，Q值越大，动作被选择的概率就越高；训练过程中使用二分类交叉熵函数作为损失函数；

步骤2：场桥依据最优动作a^*来执行任务；

步骤4：依据步骤3中记录的状态及Q值来对MPA网络进行训练。

10.根据权利要求1所述新型集装箱堆场作业模式的自动化双场桥智能调度方法，其特征在于，针对DADQN强化学习算法，设计增量学习与调度应用框架，步骤如下：

步骤1：场桥系统接收到环境发来的新任务请求，场桥依据贪婪策略从Q值网络输出中选择当前状态下的最优动作a^*；

步骤2：场桥依据最优动作a^*来执行任务；

步骤3：此次任务完成后，环境返回立即回报R_sa和环境的下一个状态s'，并依据式(9)来更新此场桥的Q值网络权重参数。