CN110363380A - 一种集装箱堆场双场桥动态协同调度方法 - Google Patents
一种集装箱堆场双场桥动态协同调度方法 Download PDFInfo
- Publication number
- CN110363380A CN110363380A CN201910461435.9A CN201910461435A CN110363380A CN 110363380 A CN110363380 A CN 110363380A CN 201910461435 A CN201910461435 A CN 201910461435A CN 110363380 A CN110363380 A CN 110363380A
- Authority
- CN
- China
- Prior art keywords
- bridge
- task
- action
- area
- field bridge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000009471 action Effects 0.000 claims abstract description 51
- 230000033001 locomotion Effects 0.000 claims abstract description 32
- 238000004088 simulation Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 13
- 238000013461 design Methods 0.000 claims abstract description 6
- 238000003860 storage Methods 0.000 claims description 9
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 239000000523 sample Substances 0.000 claims description 4
- 230000006870 function Effects 0.000 claims description 2
- 230000003447 ipsilateral effect Effects 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 5
- 235000015170 shellfish Nutrition 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 238000004806 packaging method and process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002508 compound effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010408 sweeping Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种集装箱堆场双场桥动态协同调度方法,包括步骤1,利用集装箱堆场作业仿真对设计的Q值表进行模拟学习,获得模拟学习后的Q值表;步骤2,利用学习后的Q值表和动作选择策略动态生成场桥的动作指令,场桥根据动作指令选择任务进行作业,在场桥调度过程中根据箱区作业反馈自适应地更新Q值表。本方法提高堆场堆取箱作业效率,减少双场桥干扰和车辆等待时间。
Description
技术领域
本发明属于汽车及运输技术领域,具体说是一种集装箱堆场双场桥动态协同调度方法。
背景技术
随着经济的全球化和国际贸易的发展,集装箱货运量持续增长。集装箱船舶不断趋于大型化,近年来已有多艘2万标箱以上的集装箱船舶投入使用。集装箱吞吐量的增加和船舶的大型化要求集装箱码头和场站具有更大的吞吐能力和更高的作业效率。堆场是集装箱码头和场站的核心作业区,其主要装卸机械设备是集装箱堆场龙门桥式起重机(简称为场桥)。码头和场站的船舶车辆的装卸周转时间很大程度上取决于场桥的装卸堆取箱效率,其作业是堆场生产的重要瓶颈环节。场桥调度优化是堆场生产管理的重要问题,是减小集装箱堆场作业瓶颈,提高吞吐能力和作业效率的重要途径。
集装箱堆场分区(简称箱区)是堆场管理的基本区域,也是场桥配置的基本单位。在箱区内配置双场桥可有效提高瓶颈箱区的作业效率,是大中型箱区作业时采用的主要模式。箱区内配置双场桥,同时进行装卸堆取箱,容易产生作业干扰。并且,由于堆场装卸堆取箱任务与车辆到达次序、装卸船过程等多种动态因素有关,堆场装卸堆取箱作业序列具有明显的动态性。现有技术中场桥调度方法有以下几种:
(1)基于设定策略和启发式规则的场桥调度方法。该类方法采用的调度策略主要有:最近策略、先到先服务策略、横扫策略、最短时间策略、及其策略组合。最近策略指场桥优先选择距离自身最近的作业(装卸车辆)任务。先到先服务策略指场桥优先装卸先到达的车辆任务。横扫策略指场桥沿箱区纵向单方向移动横扫,依次完成横扫贝位内的车辆装卸任务,到达箱区边界后再反向横扫。最短时间策略指场桥优先选择完成作业时间最短的装卸任务。基于设定策略和启发式规则的场桥调度方法可根据堆取箱任务和作业条件实时指派场桥和装卸任务。这种方法通常计算量较小,可根据设定策略或启发式规则实时或动态地求解得到场桥调度指令。但该类方法通常需要根据先验经验知识提前设计调度策略或启发式规则,人为因素影响较大,算法精度通常较低,调度效果难以保证。当考虑双场桥干扰影响时,调度策略和启发式规则设计难度更大,通常采用人为的场桥作业任务划分原则,难以发挥双场桥协同作业效果。
(2)基于数学规划和智能算法的场桥调度方法。该类方法通常基于已知的场桥任务信息和作业条件进行问题假设和简化,构建数学规划模型,然后利用求解工具或智能算法(如遗传算法等)进行模型求解。求解目标如:场桥作业任务完成时间最短、场桥移动距离最少等。该调度方法通过时间滚动可实现场桥不间断的任务指派和调度。基于问题假设和简化构建严格的数学模型和算法,通常模型求解精度较高(小规模问题可获得精确解)。但该类方法通常求解时间较长,难以满足双场桥动态(在线)调度指令的要求,比较适用于堆场任务次序变化较小的静态环境。同时,繁忙的大中型堆场作业任务具有显著的动态性,采用基于数学规划和智能算法的场桥调度方法容易造成调度指令延迟和动态响应不足,使得该类方法在动态场桥调度问题中的实际应用效果大大降低。
发明内容
针对堆场的动态堆取箱任务需求和作业条件,优化协同调度双场桥作业,提高堆场堆取箱作业效率,减少双场桥干扰和车辆等待时间,本申请提供了一种集装箱堆场双场桥动态协同调度方法。
为实现上述目的,本申请的技术方案为:一种集装箱堆场双场桥动态协同调度方法,包括步骤1,利用集装箱堆场作业仿真对设计的Q值表进行模拟学习,获得模拟学习后的Q值表;步骤2,利用学习后的Q值表和动作选择策略动态生成场桥的动作指令,场桥根据动作指令选择任务进行作业,在场桥调度过程中根据箱区作业反馈自适应地更新Q值表。
进一步的,步骤1的具体实现步骤是:Q(st,at)为状态-动作对(st,at)的累计惩罚值,Q值表为所有可能的状态-动作对(st,at)及其Q值组成的表格;提出的双场桥动态协同调度方法的Q值训练学习可借助于堆场作业模拟环境进行预学习。Q值学习流程如图3所示,其中Q值模拟学习终止条件参数eT建议取值小于0.01,参数Ne建议取值大于100;
步骤11:用0值初始化Q(st,at)值表,设置折扣因子γ、学习因子α、探索策略参数pc,终止判断参数Ne和eT;
步骤12:令参数n=0,ES=0,E=0;
步骤13:接收集装箱堆场模拟系统的空闲场桥动作指令请求,请求中包括当前箱区任务和场桥状态信息(st);
步骤14:利用学习阶段探索策略选择动作at,生成动作指令,传输给集装箱堆场模拟系统;令参数tmp=Q(st,at);
步骤15:接收集装箱堆场模拟系统执行动作at后的立即回报函数r和后续新状态st+1,利用Q值更新方程更新Q值表中的Q(st,at)项;
步骤16:令参数E=E+|Q(st,at)-tmp|,参数ES=ES+Q(st,at);
步骤17:如果参数n<Ne,那么n=n+1,转步骤12;否则,转步骤18;
步骤18:如果eT<E/ES,转步骤12;否则,输出Q值表,结束。
进一步的,所述学习阶段探索策略具体实施步骤为:
步骤141:计算状态s的动作探索概率ε(s);
其中,n(a|s)为学习过程中状态s选择执行动作a的总次数;pc为探索策略参数,建议取值50~100;
步骤142:随机生成一个0~1之间的数k;
步骤143:在箱区状态s下,探索选择的动作为a*,其公式为:
其中,rand(a|s)为当前状态s下的可行动作集合中随机选择一个动作;为当前状态s下最小Q值对应的动作。
进一步的,执行动作后的立即回报函数r表示为:执行动作前后箱区内任务的平均等待时间之差,具体函数公式为:
其中:t1为箱区场桥执行当前动作的开始时刻;t2为箱区场桥执行当前动作的结束时刻;n1为箱区场桥执行当前动作前箱区内的等待作业任务数;n2为箱区场桥执行当前动作后箱区内的等待作业任务数;t1i为箱区场桥执行当前动作前箱区内的等待作业任务的到达时间;t2j为箱区场桥执行当前动作后箱区内的等待作业任务的到达时间。
进一步的,Q值更新方程具体为:
其中α为学习因子,建议取值0.05~0.15;γ为折扣因子,建议取值0.4~0.6;r(st,at)为在t时刻箱区状态st下,执行动作at后产生的立即回报;Q(st,at)为当前策略下状态-动作对(st,at)的累计惩罚值;mina∈AQ(st+1,a)为在执行动作at后的状态st+1下,不同动作a的最小Q值。
进一步的,步骤2的具体实现步骤是:
步骤21:载入学习后的Q值表数据,设置折扣因子γ、学习因子α、动作探索概率ε(s)、特殊动作启动参数Np;
步骤22:接收集装箱堆场作业控制系统的空闲场桥动作指令请求,请求中包括当前箱区任务和场桥状态信息(st),等待和即将到达任务数n和n*;
步骤23:如果n>Np或者n*>Np,选择执行特殊动作a0,生成动作指令,并传输给集装箱堆场作业控制系统,转步骤22;否则,转步骤24;
步骤24:利用应用阶段动作策略选择动作at,生成动作指令,传输给集装箱堆场作业控制系统;
步骤25:接收集装箱堆场作业控制系统动作at执行后立即回报函数r和新状态st+1,利用利用Q值更新方程更新Q值表中的Q(st,at)项,转步骤22,此处的立即回报函数r和Q值更新方程与模拟学习阶段的相同。
更进一步的,应用阶段动作策略具体实施步骤为:提前统一设定动作探索概率ε,建议取值小于0.05;
步骤241:随机生成一个0~1之间的数k;
步骤242:在箱区状态s下,选择的动作为a*,其公式为:
其变量含义与学习阶段探索策略中的变量含义相同。
更进一步的,所述状态包括箱区内当前时刻的任务和场桥状态,其状态向量包括以下变量:场桥忙闲变量x1、等待作业任务数x2、场桥最近任务的距离变量x3、任务最长等待时间变量x4、最长等待任务离场桥的距离x5、即将达到的任务数量x6。
作为更进一步的,动作策略由1+4个基本动作组成,即{a0,a1,a2,a3,a4,},其中基本动作a0是一个特殊动作,不参与Q学习过程,在特定的状态条件下选择;a0动作描述如下:
a0:待派场桥在同侧分区(C1或C2)中沿其上一次大车纵向移动方向选择最近的作业任务,待派场桥到达分区(C1或C2)端部后,其大车再反向移动选择任务;该动作简称“纵向横扫”;
a1:待派场桥选择其当前时刻可作业区域中距离待派场桥最近的作业任务;
a2:待派场桥选择其当前时刻可作业区域中等待时间最长的作业任务;
a3:待派场桥选择其当前时刻可作业区域中距离待派场桥最近的即将到达的作业任务;
a4:待派场桥选择其当前时刻可作业区域中最早的即将到达的作业任务;
用n表示集装箱箱区当前时刻等待的作业任务(集卡)数量;用n*表示在Δt时段内即将到达箱区的作业任务(集卡)数量。当n>Np或者n*>Np时,场桥选择特殊动作a0。其中Np为特殊动作启动参数,建议取值8~12。
本发明由于采用以上技术方案,能够取得如下的技术效果:本方法提高了堆场堆取箱作业效率,减少双场桥干扰和车辆等待时间,可根据动态任务和作业条件变化实时生成场桥的调度指令;通过待派场桥的可作业区识别和动态调度指令可实现集装箱堆场双场桥协同调度;通过调度过程中的Q值学习可实现场桥任务等环境变化的场桥调度指令的自适应调整;提高了Q算法的学习收敛速度。
附图说明
图1为堆场箱区与场桥布置示意图;
图2为状态变量的区域划分示意图;
图3为Q值模拟学习流程图;
图4为Q值调度应用流程图;
图中序号说明:1、场桥。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述:以此为例对本申请做进一步的描述说明。
实施例1
如图1-4所示,本实施例提供集装箱堆场箱区内双场桥动态协同调度方法,即:空闲场桥的下一作业任务动态选择方法,优化目标:最小化箱区内装卸集卡(堆取箱)任务的平均等待时间。优化调度的依据条件信息:1)已在箱区等待的装卸集卡(堆取箱)任务信息,包括车辆到达时间、目标贝位、任务执行所需时间;2)即将要到达箱区的装卸集卡(堆取箱)任务信息,包括车辆到达时间、目标贝位、任务执行所需时间;3)当前箱区内两个场桥所在的贝位。
基于强化学习中的Q学习思想提出的双场桥动态协同调度方法,其包括:状态s及其组成的集合S、动作a及其集合A、立即回报函数r、Q值更新方程、探索学习策略、动作选择策略等。双场桥动态协同调度方法的动作选择(即:空闲场桥的作业任务指派)过程:针对当前箱区场桥和作业任务状态s等条件,根据动作选择策略(状态-动作对的Q值)为当前空闲场桥选择动作a(即:指派空闲场桥的下一作业任务)。双场桥动态协同调度方法的动作选择策略的学习更新:根据状态s下执行动作a后,获得的立即回报r更新Q值表,实现动作选择策略的自适应性更新。双场桥动态协同调度方法应用前可利用堆场箱区场桥作业仿真对动作选择策略进行初始训练学习。
本申请提出的双场桥动态协同调度方法中的状态包括箱区内当前时刻的任务和场桥状态,其状态向量由以下变量组成:场桥忙闲变量x1、等待作业任务数x2、场桥最近任务的距离变量x3、任务最长等待时间变量x4、最长等待任务离场桥的距离x5、即将达到的任务数量x6。由6维的状态向量表示的所有可能状态构成双场桥动态协同调度方法的状态集合。当前空闲场桥指正在为其选择(指派)作业任务的空闲场桥,简称“待派场桥”。状态变量的区域划分示意如图2所示,其中状态分区为箱区平分的两部分,在场桥作业过程中不变,用于箱区状态表示;场桥当前时刻可作业任务区域指不干扰对侧场桥的可作业任务区域范围,与对侧场桥当前作业位置有关,在场桥作业过程中变化。
状态变量描述如下:
场桥忙闲变量x1:当前时刻场桥(非待派场桥)的闲忙状态变量,取0表示场桥空闲;取1表示场桥正在作业。
等待作业任务数x2:当前时刻状态分区内正在等待场桥作业的任务数(包括等待的取放箱作业任务等)。每个状态分区任务数有4个可能取值(0~3),分别对应{0,1,2,>2}四种情况,状态分区C1和C2组合共16个可能取值。
场桥最近任务的距离变量x3:待派场桥当前时刻可作业任务区中正在等待作业任务位置与待派场桥的最近距离。该变量有4个可能取值(0~3),分别对应{0,(0,1~L/8],(L/8~L/4],>L/4}四种情况,其中L表示堆场长度,其单位为1个作业的集装箱(比如20英寸标准箱)的长度。
任务最长等待时间变量x4:待派场桥当前时刻可作业任务区中等待作业任务的最长等待时间。该变量有4个可能取值(0~3),分别对应{[0,1],(1,3],(3,6],>6}四种情况,其单位可近似设置为任务的平均等待时间(比如1分钟)。
最长等待任务离场桥的距离x5:待派场桥当前时刻可作业任务区中最长等待作业任务位置与待派场桥的距离:该变量有4个可能取值(0~3),分别对应{0,(0,1~L/8],(L/8~L/4],>L/4}四种情况,其中L表示堆场长度,其单位为1个作业的集装箱(比如20英寸标准箱)的长度。
即将达到的任务数量x6:在Δt时段内即将到达箱区的作业任务(集卡)数量。该变量有4个可能取值(0~3),分别对应{0,1,2,>2}四种情况。其中Δt可根据提前获取箱区任务信息的时间设置(比如10分钟)。
本申请中Q(st,at)指状态-动作对(st,at)的累计惩罚值,Q值表为所有可能的状态-动作对(st,at)及其Q值组成的表格。在模拟学习阶段,Q值表通过与堆场作业仿真系统的动作指令与反馈交互,获取Q值学习的状态和立即回报信息,利用Q值更新方程不断学习更新,逐渐逼近稳定优值。在Q值调度应用阶段,Q值表通过与堆场实际作业系统的动作指令与反馈交互,获取Q值学习的状态和立即回报信息,利用Q值更新方程更新Q值表,适应堆场任务和作业环境变化。
实施例2
根据北方某集装箱码头堆场作业资料为背景,设计本发明的技术方案的实验,对其有益效果进行分析。实验中箱区任务(集卡)到达服从泊松分布(均值为λ),单个任务的堆取箱时间服从[1.16,1.64]区间上的均匀分布(单位:min),实验参数如表1所示。
表1 实验参数
参数项 | 参数值 |
堆场长度L(bay) | 40 |
任务到达率λ(辆/min) | 0.3、0.5、0.7、0.75、0.8、0.85 |
场桥纵向移动速度v(bay/min) | 10 |
任务装卸时间均值μ(min) | 1.4 |
实验表明:本专利提出的方法可根据动态任务和作业条件变化实时生成场桥的调度指令(时间消耗小于0.01s);通过待派场桥的可作业区识别和动态调度指令可实现集装箱堆场双场桥协同调度;通过调度过程中的Q值学习可实现场桥任务等环境变化的场桥调度指令的自适应调整;提高了Q算法的学习收敛速度,Q值模拟预学习时间小于20min。实验定量效果分析以箱区任务(集卡)在箱区的平均等待时间为分析指标。表2~4为不同任务达到率下建议学习因子α,折扣因子γ和特殊动作启动参数Np的实验指标结果。表5为对比技术方案1和2,以及本专利技术方案的实验指标结果和对比效果。上述实验指标为600个任务(集卡)在箱区的平均等待时间。从表5可以看出,本专利技术方案较常用的对比技术方案1改进27%~63%,平均改进37.14%;较对比方案2也改进19%~58%,平均改进31.35%。
表2 学习因子参数的实验指标结果
表3 折扣因子参数的实验指标结果
表4 特殊动作启动参数的实验指标结果
表5 不同技术方案的实验指标效果对比
(注:学习因子α取0.1,折扣因子γ取0.5,特殊动作启动参数Np取10;比率计算的分母取方案1的值)
本申请中的词语解释如下:
集卡:集装箱卡车。
场桥:集装箱堆场龙门桥式起重机,包括轮胎式堆场龙门起重机和轨道式堆场龙门起重机。集装箱卡车车道可布设在场桥跨距内或横梁外伸臂下方。
箱区:集装箱堆场分区管理的基本区域,也是场桥配置的基本单位。箱区内的场桥横向跨越整个箱区,场桥可沿箱区纵向整体移动。场桥装卸车辆的作业区位于堆场的侧部(场桥跨距内或外伸臂下方)。如图1所示。
场桥调度:在箱区内指派场桥装卸集装箱卡车,确定场桥堆取箱任务的作业次序。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。
Claims (9)
1.一种集装箱堆场双场桥动态协同调度方法,其特征在于包括步骤1,利用集装箱堆场作业仿真对设计的Q值表进行模拟学习,获得模拟学习后的Q值表;步骤2,利用学习后的Q值表和动作选择策略动态生成场桥的动作指令,场桥根据动作指令选择任务进行作业,在场桥调度过程中根据箱区作业反馈自适应地更新Q值表。
2.根据权利要求1所述一种集装箱堆场双场桥动态协同调度方法,其特征在于,步骤1的具体实现步骤是:
步骤11:用0值初始化Q(st,at)值表,设置折扣因子γ、学习因子α、探索策略参数pc,终止判断参数Ne和eT;
步骤12:令参数n=0,ES=0,E=0;
步骤13:接收集装箱堆场模拟系统的空闲场桥动作指令请求,请求中包括当前箱区任务和场桥状态信息(st);
步骤14:利用学习阶段探索策略选择动作at,生成动作指令,传输给集装箱堆场模拟系统;令参数tmp=Q(st,at);
步骤15:接收集装箱堆场模拟系统执行动作at后的立即回报函数r和后续新状态st+1,利用Q值更新方程更新Q值表中的Q(st,at)项;
步骤16:令参数E=E+|Q(st,at)-tmp|,参数ES=ES+Q(st,at);
步骤17:如果参数n<Ne,那么n=n+1,转步骤12;否则,转步骤18;
步骤18:如果eT<E/ES,转步骤12;否则,输出Q值表,结束。
3.根据权利要求2所述一种集装箱堆场双场桥动态协同调度方法,其特征在于,所述学习阶段探索策略具体实施步骤为:
步骤141:计算状态s的动作探索概率ε(s);
其中,n(a|s)为学习过程中状态s选择执行动作α的总次数;pc为探索策略参数;
步骤142:随机生成一个0~1之间的数k;
步骤143:在箱区状态s下,探索选择的动作为a*,其公式为:
其中,rand(a|s)为当前状态s下的可行动作集合中随机选择一个动作;为当前状态s下最小Q值对应的动作。
4.根据权利要求2所述一种集装箱堆场双场桥动态协同调度方法,其特征在于,执行动作后的立即回报函数r表示为:执行动作前后箱区内任务的平均等待时间之差,具体函数公式为:
其中:t1为箱区场桥执行当前动作的开始时刻;t2为箱区场桥执行当前动作的结束时刻;n1为箱区场桥执行当前动作前箱区内的等待作业任务数;n2为箱区场桥执行当前动作后箱区内的等待作业任务数;t1i为箱区场桥执行当前动作前箱区内的等待作业任务的到达时间;t2j为箱区场桥执行当前动作后箱区内的等待作业任务的到达时间。
5.根据权利要求2所述一种集装箱堆场双场桥动态协同调度方法,其特征在于,Q值更新方程具体为:
其中α为学习因子,γ为折扣因子,r(st,at)为在t时刻箱区状态st下,执行动作at后产生的立即回报;Q(st,at)为当前策略下状态-动作对(st,at)的累计惩罚值;mina∈AQ(st+1,a)为在执行动作at后的状态st+1下,不同动作a的最小Q值。
6.根据权利要求1所述一种集装箱堆场双场桥动态协同调度方法,其特征在于,步骤2的具体实现步骤是:
步骤21:载入学习后的Q值表数据,设置折扣因子γ、学习因子α、动作探索概率ε(s)、特殊动作启动参数Np;
步骤22:接收集装箱堆场作业控制系统的空闲场桥动作指令请求,请求中包括当前箱区任务和场桥状态信息(st),等待和即将到达任务数n和n*;
步骤23:如果n>Np或者n*>Np,选择执行特殊动作a0,生成动作指令,并传输给集装箱堆场作业控制系统,转步骤22;否则,转步骤24;
步骤24:利用应用阶段动作策略选择动作at,生成动作指令,传输给集装箱堆场作业控制系统;
步骤25:接收集装箱堆场作业控制系统动作at执行后立即回报函数r和新状态st+1,利用利用Q值更新方程更新Q值表中的Q(st,at)项,转步骤22。
7.根据权利要求6所述一种集装箱堆场双场桥动态协同调度方法,其特征在于,应用阶段动作策略具体实施步骤为:
步骤241:随机生成一个0~1之间的数k;
步骤242:在箱区状态s下,选择的动作为a*,其公式为:
8.根据权利要求2或6所述一种集装箱堆场双场桥动态协同调度方法,其特征在于,状态向量包括:场桥忙闲变量x1、等待作业任务数x2、场桥最近任务的距离变量x3、任务最长等待时间变量x4、最长等待任务离场桥的距离x5、即将达到的任务数量x6。
9.根据权利要求6所述一种集装箱堆场双场桥动态协同调度方法,其特征在于,动作策略由1+4个基本动作组成,即{a0,a1,a2,a3,a4,},其中a0:待派场桥在同侧分区中沿其上一次大车纵向移动方向选择最近的作业任务,待派场桥到达分区端部后,其大车再反向移动选择任务;
a1:待派场桥选择其当前时刻可作业区域中距离待派场桥最近的作业任务;
a2:待派场桥选择其当前时刻可作业区域中等待时间最长的作业任务;
a3:待派场桥选择其当前时刻可作业区域中距离待派场桥最近的即将到达的作业任务;
a4:待派场桥选择其当前时刻可作业区域中最早的即将到达的作业任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910461435.9A CN110363380B (zh) | 2019-05-30 | 2019-05-30 | 一种集装箱堆场双场桥动态协同调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910461435.9A CN110363380B (zh) | 2019-05-30 | 2019-05-30 | 一种集装箱堆场双场桥动态协同调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110363380A true CN110363380A (zh) | 2019-10-22 |
CN110363380B CN110363380B (zh) | 2022-05-10 |
Family
ID=68214918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910461435.9A Active CN110363380B (zh) | 2019-05-30 | 2019-05-30 | 一种集装箱堆场双场桥动态协同调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110363380B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434870A (zh) * | 2020-12-01 | 2021-03-02 | 大连理工大学 | 一种集装箱区垂直布置的双自动化场桥动态调度方法 |
CN112836974A (zh) * | 2021-02-05 | 2021-05-25 | 上海海事大学 | 一种基于dqn和mcts的箱区间多场桥动态调度方法 |
CN113361804A (zh) * | 2021-06-28 | 2021-09-07 | 同济大学 | 缓冲堆场作业与码头间集卡运输协同调度系统及其方法 |
CN113689076A (zh) * | 2021-07-23 | 2021-11-23 | 天津港太平洋国际集装箱码头有限公司 | 基于核心作业线提升船舶装卸作业效率的方法 |
CN113780760A (zh) * | 2021-08-24 | 2021-12-10 | 天津港第二集装箱码头有限公司 | 集装箱码头art和有人集卡的智能协同组织方法 |
CN117196261A (zh) * | 2023-11-06 | 2023-12-08 | 江苏省港口集团信息科技有限公司 | 一种基于场桥作业范围的任务指令分配方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101216710A (zh) * | 2007-12-28 | 2008-07-09 | 东南大学 | 一种由计算机实现的自适应选择动态生产调度控制系统 |
CN103078806A (zh) * | 2013-01-11 | 2013-05-01 | 合肥寰景信息技术有限公司 | 一种基于q值法的负载均衡调度算法 |
CN104635772A (zh) * | 2014-12-08 | 2015-05-20 | 南京信息工程大学 | 一种制造系统自适应动态调度方法 |
US9754221B1 (en) * | 2017-03-09 | 2017-09-05 | Alphaics Corporation | Processor for implementing reinforcement learning operations |
CN107690176A (zh) * | 2017-09-30 | 2018-02-13 | 南京南瑞集团公司 | 一种基于q学习算法的网络选择方法 |
CN108256769A (zh) * | 2018-01-18 | 2018-07-06 | 山东科技大学 | 基于nsga-ii改进的场桥调度方法 |
-
2019
- 2019-05-30 CN CN201910461435.9A patent/CN110363380B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101216710A (zh) * | 2007-12-28 | 2008-07-09 | 东南大学 | 一种由计算机实现的自适应选择动态生产调度控制系统 |
CN103078806A (zh) * | 2013-01-11 | 2013-05-01 | 合肥寰景信息技术有限公司 | 一种基于q值法的负载均衡调度算法 |
CN104635772A (zh) * | 2014-12-08 | 2015-05-20 | 南京信息工程大学 | 一种制造系统自适应动态调度方法 |
US9754221B1 (en) * | 2017-03-09 | 2017-09-05 | Alphaics Corporation | Processor for implementing reinforcement learning operations |
CN107690176A (zh) * | 2017-09-30 | 2018-02-13 | 南京南瑞集团公司 | 一种基于q学习算法的网络选择方法 |
CN108256769A (zh) * | 2018-01-18 | 2018-07-06 | 山东科技大学 | 基于nsga-ii改进的场桥调度方法 |
Non-Patent Citations (4)
Title |
---|
曾庆成: "集装箱码头装卸作业集成调度模型与方法", 《中国博士学位论文全文数据库工程科技II 辑》 * |
曾庆成等: "集装箱码头集卡调度模型与Q学习算法", 《哈尔滨工程大学学报》 * |
范厚明等: "集装箱堆场箱位分配及多场桥调度协同优化问题", 《上海交通大学学报》 * |
马骋乾等: "强化学习研究综述", 《指挥控制与仿真》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434870A (zh) * | 2020-12-01 | 2021-03-02 | 大连理工大学 | 一种集装箱区垂直布置的双自动化场桥动态调度方法 |
CN112434870B (zh) * | 2020-12-01 | 2022-10-11 | 大连理工大学 | 一种集装箱区垂直布置的双自动化场桥动态调度方法 |
CN112836974A (zh) * | 2021-02-05 | 2021-05-25 | 上海海事大学 | 一种基于dqn和mcts的箱区间多场桥动态调度方法 |
CN112836974B (zh) * | 2021-02-05 | 2024-01-23 | 上海海事大学 | 一种基于dqn和mcts的箱区间多场桥动态调度方法 |
CN113361804A (zh) * | 2021-06-28 | 2021-09-07 | 同济大学 | 缓冲堆场作业与码头间集卡运输协同调度系统及其方法 |
CN113361804B (zh) * | 2021-06-28 | 2022-10-28 | 同济大学 | 缓冲堆场作业与码头间集卡运输协同调度系统及其方法 |
CN113689076A (zh) * | 2021-07-23 | 2021-11-23 | 天津港太平洋国际集装箱码头有限公司 | 基于核心作业线提升船舶装卸作业效率的方法 |
CN113689076B (zh) * | 2021-07-23 | 2023-11-14 | 天津港太平洋国际集装箱码头有限公司 | 基于核心作业线提升船舶装卸作业效率的方法 |
CN113780760A (zh) * | 2021-08-24 | 2021-12-10 | 天津港第二集装箱码头有限公司 | 集装箱码头art和有人集卡的智能协同组织方法 |
CN113780760B (zh) * | 2021-08-24 | 2024-05-28 | 天津港第二集装箱码头有限公司 | 集装箱码头art和有人集卡的智能协同组织方法 |
CN117196261A (zh) * | 2023-11-06 | 2023-12-08 | 江苏省港口集团信息科技有限公司 | 一种基于场桥作业范围的任务指令分配方法 |
CN117196261B (zh) * | 2023-11-06 | 2024-02-27 | 江苏省港口集团信息科技有限公司 | 一种基于场桥作业范围的任务指令分配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110363380B (zh) | 2022-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110363380A (zh) | 一种集装箱堆场双场桥动态协同调度方法 | |
Li et al. | Tasks assigning and sequencing of multiple AGVs based on an improved harmony search algorithm | |
CN109388484B (zh) | 一种基于Deep Q-network算法的多资源云作业调度方法 | |
CN109800904B (zh) | 带时间窗的装配式建筑预制件配送路径优化方法及系统 | |
Wang et al. | Application of reinforcement learning for agent-based production scheduling | |
CN106773686B (zh) | 同轨双车运行模式下堆垛机调度路径模型建立方法 | |
Şahman | A discrete spotted hyena optimizer for solving distributed job shop scheduling problems | |
CN106802553B (zh) | 一种基于强化学习的铁路机车运行操控系统混合任务调度方法 | |
CN105974891B (zh) | 一种基于动态看板的模具生产过程自适应控制方法 | |
CN112836974A (zh) | 一种基于dqn和mcts的箱区间多场桥动态调度方法 | |
CN114707881A (zh) | 一种基于深度强化学习的作业车间自适应调度方法 | |
Li et al. | The reliable design of one-piece flow production system using fuzzy ant colony optimization | |
Saqlain et al. | A Monte-Carlo tree search algorithm for the flexible job-shop scheduling in manufacturing systems | |
CN117196169A (zh) | 一种基于深度强化学习的机位调度方法 | |
CN114089755A (zh) | 一种基于一致性包算法的多机器人任务分配方法 | |
Shen et al. | A deep reinforcement learning algorithm for warehousing multi-agv path planning | |
CN117808246A (zh) | 柔性作业车间调度方法、装置及系统 | |
CN112836846B (zh) | 一种卷烟发货多库点多方向联运调度双层优化算法 | |
Wang et al. | A priority rule based heuristic for virtual cellular manufacturing system with energy consumption | |
Carneiro et al. | Optimization of the grapes reception process | |
Deng et al. | Battery management for automated warehouses via deep reinforcement learning | |
CN115454614B (zh) | 一种机器人集群能量补给智能调度方法 | |
US20240046204A1 (en) | Method for using reinforcement learning to optimize order fulfillment | |
Xue et al. | Optimisation strategy for multi-AGV multi-task assignment scheduling based on improved particle swarm genetic algorithm | |
Witkowski et al. | Hybrid method for solving flexible open shop scheduling problem with simulated annealing algorithm and multi-agent approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |