CN110555584A - 一种基于深度强化学习的自动化停车场调度方法 - Google Patents
一种基于深度强化学习的自动化停车场调度方法 Download PDFInfo
- Publication number
- CN110555584A CN110555584A CN201910647303.5A CN201910647303A CN110555584A CN 110555584 A CN110555584 A CN 110555584A CN 201910647303 A CN201910647303 A CN 201910647303A CN 110555584 A CN110555584 A CN 110555584A
- Authority
- CN
- China
- Prior art keywords
- parking
- value
- algorithm
- vehicle
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 230000009471 action Effects 0.000 claims abstract description 40
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000005265 energy consumption Methods 0.000 claims description 29
- 238000005070 sampling Methods 0.000 claims description 19
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 abstract description 6
- 244000183914 Dianthus superbus Species 0.000 description 2
- 235000013535 Dianthus superbus Nutrition 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Classifications
-
- E—FIXED CONSTRUCTIONS
- E04—BUILDING
- E04H—BUILDINGS OR LIKE STRUCTURES FOR PARTICULAR PURPOSES; SWIMMING OR SPLASH BATHS OR POOLS; MASTS; FENCING; TENTS OR CANOPIES, IN GENERAL
- E04H6/00—Buildings for parking cars, rolling-stock, aircraft, vessels or like vehicles, e.g. garages
- E04H6/42—Devices or arrangements peculiar to garages, not covered elsewhere, e.g. securing devices, safety devices, monitoring and operating schemes; centering devices
- E04H6/422—Automatically operated car-parks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Architecture (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Civil Engineering (AREA)
- Structural Engineering (AREA)
- Traffic Control Systems (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于深度强化学习的自动化停车场调度方法,包括:步骤1:建立自动化停车场的环境;步骤2:定义泊车机器人的运行代价;步骤3:建立环境、智能体模型及设定奖励值;步骤4:对DQN算法进行改进;步骤5:使用改进的DQN算法进行训练。本发明使用对DQN算法进行改进,相对于使用一般的DQN算法,训练效率更高;在样本数据结构方面,保存了状态信息及该状态下所有动作的价值,相对于传统的保存状态之间的转移形式,能在训练前期获得较为准确的价值估计,避免价值模型陷入局部最优解。
Description
技术领域
本发明涉及一种自动化停车场的调度方法。
背景技术
随着经济社会快速发展,城市道路交通问题越来越突出,除了交通拥堵外,停车供需矛盾已经成为城市发展中不容忽视的难点问题。传统的停车场表现出车辆停放效率和停车场面积利用率较低的缺点。目前一种新的自动化停车场应运而生,由泊车机器人完成车辆的停放工作。
陈广,瞿三清等人提出了一种面向自动化停车场的无人泊车搬运机器人的对位方法,通过单目相机和单线激光雷达实现目标车辆的精准对位,以保障机器人有效的搬运车辆(陈广,瞿三清等,面向自动化停车场的无人泊车搬运机器人的对位方法[P],CN109386155A,2019-02-26)。然而,该方法需要处理和计算大量的数据,效率不高。熊璐,严森炜等人提出了一种基于几何规划及强化学习的自动泊车方法及系统,通过几何规划确定泊车轨迹,再交由强化学习控制车辆入库的位姿(熊璐,严森炜等,一种基于几何规划及强化学习的自动泊车方法及系统[P],上海:CN109398349A,2019-03-01)。然而,该方法需要驾驶员主动驾驶车辆到库位周边,需要花费大量驾驶员的时间。余伶俐,严孝鑫等人提出了一种基于DQN的车辆自动泊车方法,通过训练好的DQN计算期望车辆前轮摆角,控制车辆转动并移动车辆进行停车(余伶俐,严孝鑫,周开军等,一种基于DQN的车辆自动泊车方法[P],湖南:CN108407805A,2018-08-07)。然而,此方法并没有考虑车库停放情况,能耗大小,车辆状态等问题。
鉴于以上问题,如何对泊车机器人进行合理的调度优化以增加停车效率并减少能耗成为自动化停车场的核心问题。调度优化策略需要根据停车场中库位的空间分布以及停放车辆的信息,安排合适的库位并且减少自动化停车场长时间运行产生的能耗。因此,设计合理的停车场调度策略对于自动化停车场的长期运行收益具有重要意义。
发明内容
本发明克服现有方法的缺点,提出一种基于深度强化学习的自动化停车调度方法。
本发明将自动化停车问题转化成为强化学习框架下的最优策略求解问题,定义自动化停车场运行过程中的状态、价值模型、动作奖励值,使用Deep Q Network(DQN)算法进行训练,并且利用神经网络拟合价值模型,获取动作价值,从而在决策时选择奖励值最大的动作。
基于深度强化学习的自动化停车场调度方法,将自动化停车问题转化为强化学习框架下的最优策略求解问题;定义自动化停车场运行过程中的状态、价值模型、动作的奖励值函数;将停放车辆信息的随机问题归结为环境的随机信息,利用Q-Learning算法解决该问题;再利用神经网络拟合价值模型,与环境交互并计算样本价值来不断逼近价值模型的真实值,获得每个动作的价值,从而在每个决策阶段做出奖励值最大的动作。本发明基于深度强化学习来解决停车调度问题,提高了训练效率;在样本数据结构方面,保存了状态信息及该状态下所有动作的价值,能在训练前期获得较为准确的价值估计,避免价值模型陷入局部最优解。
一种基于深度强化学习的自动化停车场调度方法,步骤如下:
步骤1:建立自动化停车场的环境;
自动化停车场包含一个入口,一个出口,一定数量的库位以及障碍物,并以栅格化的地图形式表示各个部分,其中白色栅格是库位,灰色区域是通行道路,黑色是障碍物,E表示入口,O表示出口;将自动化停车场的库位状态表示为P,其中包含的库位数量为M,则P={pk|k∈[1,M]},pk表示P中第k个库位,将库位pk与相应的入口和出口之间的距离之和定义为dk;泊车机器人R数量为L,则R={ri|i∈[1,L]};定义泊车机器人每次只能搬运一辆车,搬运车辆时保持匀速运动,且允许多个泊车机器人出现在同一个栅格中,忽略泊车机器人在空载时的能耗;负载时,其能耗与搬运车辆的质量和搬运距离成正比,记泊车机器人代价系数为a,则机器人总代价CR=a×L;
对于每辆已经申请停放的车辆ci,其申请入库时刻tin、质量mi、停放时间Ti以及申请出库时刻是可知的,则ci={tin,mi,Ti},定义停放车辆的质量和停放时间服从均匀分布且相互独立,表示为mi=U(mmin,mmax)、Ti=U(Tmin,Tmax),其中mmin和mmax分别是质量的最小和最大值,Tmin和Tmax是停放时间的最小和最大值;
步骤2:定义泊车机器人的运行代价;
本发明主要考虑泊车机器人搬运停放车辆产生的能耗问题,将泊车机器人搬运能耗表示为wi=ke×dk×mi,表示完成车辆ci停放任务产生的能耗,其中ke是能耗系数,记完成N辆车停放产生的总能耗为Z,则目标函数为:
wi=ke×dk×mi,i∈[1,N],k∈[1,M] (2)
mi=U(mmin,mmax) (3)
Ti=U(Tmin,Tmax) (4)
dk≤dk+1 (5)
步骤3:建立环境、智能体模型及设定奖励值;
在自动化停车场调度问题中,定义状态由停车场中各个库位上停放车辆的剩余停放时间ti,申请停放车辆的质量mi、停放时间Ti以及申请时刻tin组成,包含的环境信息越充分越能在决策时区分不同动作的价值偏差,状态的数据形式如下:
将搬运停放车辆的能耗设定为奖励值,DQN算法的目标是总奖励值最大化,因此相应的能耗应当为负值;为了增加神经网络的拟合效果,奖励值大小应当在0附近,保证总奖励值不至于过大或者过小,奖励值reward定义如下:
其中为车辆质量的平均值,为库位距离的平均值,由于车辆的质量分布和停车场库位的空间分布是可知的,baseline则为常数;
智能体模型包含Q-Learning算法以及价值估计模型,对于训练完成的价值模型而言,只需要在决策阶段选择价值最大的动作就能保证最优的运行结果,对于较为复杂的问题,难以通过遍历所有状态获取接近真实状态转移概率的价值模型,使用ε-greedy算法解决探索与利用的经典问题,其算法如下:
在前期使用该算法多进行探索,可以发现更好的动作,避免陷入局部最优,在后期则选择最优动作,能尽可能获得更多的奖励;
使用Q-Learning的更新公式计算获得的交互序列的状态-动作对的价值,并将其作为样本存储下来用于神经网络的训练,每个样本包含环境状态信息st,以及所有动作对应的价值,其数据格式定义为:
sample=[st qπ(st,a1)qπ(st,a2)…qπ(st,aM)] (9)
步骤4:对DQN算法进行改进;
本发明首先使用Double DQN对算法进行改进,主要使DQN中的两个神经网络的参数分别用于动作决策和价值估计,解决了模型价值估计过高的问题;其次使用PriorityReplay Buffer对算法中的采样环节进行改进,在以TD-Error为权重的采样和均匀采样之间进行插值,对于每个样本i的采样概率公式为:
其中α为TD-Error的权重,对原来的概率计算值增加权值β以修正价值模型拟合效果的偏差:
其中N表示存放的样本数量,再使用完全二叉树结构对Priority Replay Buffer中数据进行存储采样,极大提高了存储和采样效率;最后使用n-step算法调整DQN算法训练过程中的方差和偏差的平衡,并且对车辆进行模拟停放,当一辆车申请停放,选择库位时,在遍历该状态下所有动作的价值之后,再进行n次模拟整个停放的过程,并且取其中的最大值作为下一个状态的估计值;
步骤5:使用改进的DQN算法进行训练;
根据停车场中各个库位上停放车辆的剩余停放时间ti,申请停放车辆的质量mi、停放时间Ti以及申请时刻tin,将状态输入到神经网络中进行训练,计算当前状态下每一个动作的价值,并根据ε-greedy算法选择动作并执行,使泊车机器人能将车辆准确地搬入库位;
本发明的优点是:整合了Double DQN,Priority Replay Buffer,n-step等多种方法改进传统DQN算法,相对于一般的DQN算法,解决了过高估计的问题,并且训练效率更高;对车辆进行模拟停放,使停放过程中精度更高;在样本数据结构方面,保存了状态信息及该状态下所有动作的价值,相对于传统的保存状态之间的转移形式,能在训练前期获得较为准确的价值估计,避免价值模型陷入局部最优解。
附图说明
图1是本发明的基于深度强化学习的停车调度流程图。
图2是本发明的自动化停车场空间分布。
图3是本发明设定的进车速率。
图4基于深度强化学习方法停车场调度结果。
图5不同样本记录方式的算法结果。
具体实施方式
下面结合附图进一步说明本发明的技术方案。
基于深度强化学习的自动化停车场调度方法,将自动化停车问题转化为强化学习框架下的最优策略求解问题;定义自动化停车场运行过程中的状态、价值模型、动作的奖励值函数;将停放车辆信息的随机问题归结为环境的随机信息,利用Q-Learning算法解决该问题;再利用神经网络拟合价值模型,与环境交互并计算样本价值来不断逼近价值模型的真实值,获得每个动作的价值,从而在每个决策阶段选择奖励值最大的动作,车辆就可以停放致奖励值最大的库位。
一种基于深度强化学习的自动化停车场调度方法的流程图如图1所示,具体步骤如下:
步骤1:建立自动化停车场的环境,如图2所示;
自动化停车场包含一个入口,一个出口,一定数量的库位以及障碍物,并以栅格化的地图形式表示各个部分,其中白色栅格是库位,灰色区域是通行道路,黑色是障碍物,E表示入口,O表示出口;将自动化停车场的库位状态表示为P,其中包含的库位数量为M,则P={pk|k∈[1,M]},pk表示P中第k个库位,以库位pk与相应的入口和出口之间的距离之和dk作为库位指标,对pk做排序,满足dk≤dk+1;对于库位而言,库位距离的大小可以反映出当前库位的优劣性,因为对于相同的车辆,库位距离越大,搬运造成的能耗越多,以库位的距离做排序,当库位标号越小,库位的质量越好,便于调度算法的处理;泊车机器人R数量为L,则R={ri|i∈[1,L]};泊车机器人每次只能搬运一辆车,搬运车辆时保持匀速运动,且允许多个泊车机器人出现在同一个栅格中,泊车机器人在空载时的能耗忽略不计;负载时,其能耗与搬运车辆的质量和搬运距离成正比,记泊车机器人代价系数为a,则机器人总代价CR=a×L。
设定自动化停车场包含94个库位,车辆质量的取值范围[10,20]×100kg,停放时间的取值范围[1000,5000]s,车辆数为700,泊车机器人数量为20。为了模拟进车速率的波动性,设置了两档停车速率交替进行,周期为5000s,进车速率如图3。
对于每辆已经申请停放的车辆,其申请入库时刻tin、质量mi、停放时间Ti以及申请出库时刻是可知的,则ci={tin,mi,Ti},可以认为停放车辆的质量,停放时间,服从均匀分布且相互独立,表示为mi=U(1000,2000)、Ti=U(1000,5000)。
步骤2:定义泊车机器人的运行代价;
本发明主要考虑泊车机器人搬运停放车辆产生的能耗问题,将泊车机器人搬运能耗表示为wi=ke×dk×mi,表示完成车辆ci停放任务产生的能耗,其中ke是能耗系数,记完成N辆车停放产生的总能耗为Z,则目标函数为:
wi=ke×dk×mi,i∈[1,N],k∈[1,94] (2)
mi=U(1000,2000) (3)
Ti=U(1000,5000) (4)
dk≤dk+1 (5)
步骤3:建立环境、智能体模型及设定奖励值;
在自动化停车场调度问题中,状态由停车场中各个库位上停放车辆的剩余停放时间ti,申请停放车辆的质量mi、停放时间Ti以及申请时刻tin组成,包含的环境信息越充分越能在决策时区分不同动作的价值偏差,状态的数据形式如下:
其中M表示停车场中包含的库位数量。
强化学习的奖励值的取值范围一般为[-1,1],为此需要对质量和停放时间做归一化处理,用于计算奖励值。
则reward计算公式为:
使用ε-greedy算法解决探索与利用的经典问题,其算法如下:
其中ε的取值随着迭代次数的增加线性增长,最后的值为1。
步骤4:对DQN算法进行改进;
本发明首先使用Double DQN对算法进行改进,主要使DQN中的两个神经网络的参数分别用于动作决策和价值估计,解决了模型价值估计过高的问题;其次使用PriorityReplay Buffer对算法中的采样环节进行改进,在以TD-Error为权重的采样和均匀采样之间进行插值,对于每个样本i的采样概率公式为:
其中α可以控制TD-Error作为权重的程度,对原来的概率计算值增加权值β以修正价值模型拟合效果的偏差:
其中,N=8192为样本存储数量。当β=1时,Priority Replay Buffer将进行均匀采样,在停车调度问题中,将β初始化为0,随着迭代的进行使β趋向于1,以此来保证价值模型的训练结果是无偏的,使用完全二叉树结构对PriorityReplay Buffer中数据进行存储采样,构建了13层树结构,Buffer的容量为8192;最后使用n-step算法调整DQN算法训练过程中的方差和偏差的平衡,取n=3,对车辆进行3次模拟停放,并且取其中的最大值作为下一个状态的估计值。
步骤5:使用改进的DQN算法进行训练;
根据停车场中各个库位上停放车辆的剩余停放时间ti,申请停放车辆的质量mi、停放时间Ti以及申请时刻tin,将状态输入到神经网络中进行训练,计算当前状态下每一个动作的价值,并根据ε-greedy算法选择动作并执行,使泊车机器人能将车辆准确地搬入库位。
在神经网络的结构与训练方面:神经网络的输入为94+3,输出为94;replaceiteration times为3000;learning-rate为0.0001;γ=0.95;训练样本容量16;总迭代次数为400。
通过700车辆的数据集,测试了改进的DQN算法的迭代训练结果,算法的奖励值如图4。算法在迭代训练的前期,由于ε的值较小,探索力度较大,算法单次迭代结果波动性较大。在改进DQN算法中,ε随着迭代次数的增加保持线性增长,初始值为0,终值为1,随着交互、训练的进行,泊车机器人选择最优库位的概率逐渐增大。
本发明使用的样本记录方式与传统方法不同,对比以记录状态转移和记录所有动作价值的DQN算法。由于计算所有动作价值的算法在相同的迭代次数情况下,比记录状态转移的算法具有更大的计算量,为此,需要计算合理的迭代次数保证两种算法的计算结果具有对比性。对于记录状态转移的算法而言,其在神经网络训练时计算各个选中的状态-动作对的价值,计算数量为采样数。而记录所有动作价值的算法则在模拟停放的时候计算了当前状态下所有动作的价值,计算次数等于库位数。实验中采样数为16,库位数为94,因此,对于记录状态转移算法,其迭代次数为2400时在计算量上与记录所有动作价值的算法大致相同,并且将6个单次迭代结果的平均值作为对比数据,两种算法训练结果如图5所示。实验结果表明,本发明使用的样本记录方式能够获得更快的提升,并且最终求得更好的调度策略。
本发明设计的一种基于深度强化学习停车调度的方法,整合了Double DQN,Priority Replay Buffer,n-step等多种方法改进传统DQN算法,相对于一般的DQN算法,解决了过高估计的问题,并且训练效率更高;对车辆进行模拟停放,使停放过程中精度更高;在样本数据结构方面,保存了状态信息及该状态下所有动作的价值,相对于传统的保存状态之间的转移形式,能在训练前期获得较为准确的价值估计,避免价值模型陷入局部最优解。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (2)
1.一种基于深度强化学习的自动化停车场调度方法,包括如下步骤:
步骤1:建立自动化停车场的环境;
自动化停车场包含一个入口,一个出口,一定数量的库位以及障碍物,并以栅格化的地图形式表示各个部分,其中白色栅格是库位,灰色区域是通行道路,黑色是障碍物,E表示入口,O表示出口;将自动化停车场的库位状态表示为P,其中包含的库位数量为M,则P={pk|k∈[1,M]},pk表示P中第k个库位,将库位pk与相应的入口和出口之间的距离之和定义为dk;泊车机器人R数量为L,则R={ri|i∈[1,L]};定义泊车机器人每次只能搬运一辆车,搬运车辆时保持匀速运动,且允许多个泊车机器人出现在同一个栅格中,忽略泊车机器人在空载时的能耗;负载时,其能耗与搬运车辆的质量和搬运距离成正比,记泊车机器人代价系数为a,则机器人总代价CR=a×L;
对于每辆已经申请停放的车辆,其申请入库时刻tin、质量mi、停放时间Ti以及申请出库时刻是可知的,则ci={tin,mi,Ti},认为停放车辆的质量,停放时间,服从均匀分布且相互独立,表示为mi=U(mmin,mmax)、Ti=U(Tmin,Tmax),其中mmin和mmax分别是质量的最小和最大值,Tmin和Tmax是停放时间的最小和最大值;
步骤2:定义泊车机器人的运行代价;
考虑泊车机器人搬运停放车辆产生的能耗问题,将泊车机器人搬运能耗表示为wi=ke×dk×mi,表示完成车辆ci停放任务产生的能耗,其中ke是能耗系数,记完成N辆车停放产生的总能耗为Z,则目标函数为:
wi=ke×dk×mi,i∈[1,N],k∈[1,M] (2)
mi=U(mmin,mmax) (3)
Ti=U(Tmin,Tmax) (4)
dk≤dk+1 (5)
步骤3:建立环境、智能体模型及设定奖励值;
在自动化停车场调度问题中,定义状态由停车场中各个库位上停放车辆的剩余停放时间ti,申请停放车辆的质量mi、停放时间Ti以及申请时刻tin组成,包含的环境信息越充分越能在决策时区分不同动作的价值偏差,状态的数据形式如下:
将搬运停放车辆的能耗设定为奖励值,DQN算法的目标是总奖励值最大化,因此相应的能耗应当为负值;为了增加神经网络的拟合效果,奖励值大小应当在0附近,保证总奖励值不至于过大或者过小,奖励值reward定义如下:
其中为车辆质量的平均值,为库位距离的平均值,由于车辆的质量分布和停车场库位的空间分布是可知的,baseline则为常数;
智能体模型包含Q-Learning算法以及价值估计模型,对于训练完成的价值模型而言,只需要在决策阶段选择价值最大的动作就能保证最优的运行结果,对于较为复杂的问题,难以通过遍历所有状态获取接近真实状态转移概率的价值模型,使用ε-greedy算法解决探索与利用的经典问题,其算法如下:
在算法前期多进行探索,可以发现更好的动作,避免陷入局部最优,在算法后期则选择最优动作,能尽可能获得更多的奖励;
使用Q-Learning的更新公式计算获得的交互序列的状态-动作对的价值,并将其作为样本存储下来用于神经网络的训练,每个样本包含环境状态信息st,以及所有动作对应的价值,其数据格式定义为:
sample=[st qπ(st,a1) qπ(st,a2) … qπ(st,aM)] (9)
步骤4:对DQN算法进行改进;
首先使用Double DQN对算法进行改进,主要使DQN中的两个神经网络的参数分别用于动作决策和价值估计,解决了模型价值估计过高的问题;其次使用Priority ReplayBuffer对算法中的采样环节进行改进,在以TD-Error为权重的采样和均匀采样之间进行插值,对于每个样本i的采样概率公式为:
其中α为TD-Error的权重,对原来的概率计算值增加权值β以修正价值模型拟合效果的偏差:
其中N为存储的样本数量,再使用完全二叉树结构对Priority Replay Buffer中数据进行存储采样,极大提高了存储和采样效率;最后使用n-step算法调整DQN算法训练过程中的方差和偏差的平衡,并且对车辆进行模拟停放,当一辆车申请停放,选择库位时,在遍历该状态下所有动作的价值之后,再进行n次模拟整个停放的过程,并且取其中的最大值作为下一个状态的估计值;
步骤5:使用改进的DQN算法进行训练;
根据停车场中各个库位上停放车辆的剩余停放时间ti,申请停放车辆的质量mi、停放时间Ti以及申请时刻tin,将状态输入到神经网络中进行训练,计算当前状态下每一个动作的价值,并根据ε-greedy算法选择动作并执行,使泊车机器人能将车辆准确地搬入库位;
2.根据权利要求1的一种基于深度强化学习的自动化停车场调度方法,其特征在于:步骤4所述的对DQN进行改进的方法,其中Double DQN解决价值估计过高的问题;PriorityReplay Buffer提高存储和采样的效率;n-step使算法在训练前期获得较为准确的价值估计,避免陷入局部最优解。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910647303.5A CN110555584B (zh) | 2019-07-17 | 2019-07-17 | 一种基于深度强化学习的自动化停车场调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910647303.5A CN110555584B (zh) | 2019-07-17 | 2019-07-17 | 一种基于深度强化学习的自动化停车场调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110555584A true CN110555584A (zh) | 2019-12-10 |
CN110555584B CN110555584B (zh) | 2021-04-06 |
Family
ID=68736420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910647303.5A Active CN110555584B (zh) | 2019-07-17 | 2019-07-17 | 一种基于深度强化学习的自动化停车场调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110555584B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126598A (zh) * | 2019-12-19 | 2020-05-08 | 深圳南方德尔汽车电子有限公司 | 自动泊车方法、装置、计算机设备和存储介质 |
CN112068515A (zh) * | 2020-08-27 | 2020-12-11 | 宁波工程学院 | 一种基于深度强化学习的全自动停车场调度方法 |
CN112163720A (zh) * | 2020-10-22 | 2021-01-01 | 哈尔滨工程大学 | 基于车联网的多智能体无人驾驶电动汽车换电调度方法 |
CN112268909A (zh) * | 2020-10-20 | 2021-01-26 | 中国科学院合肥物质科学研究院 | 电池极片表面缺陷和均匀度检测的参数调控方法及系统 |
CN112598309A (zh) * | 2020-12-29 | 2021-04-02 | 浙江工业大学 | 基于Keras的作业车间调度方法 |
CN112712017A (zh) * | 2020-12-29 | 2021-04-27 | 上海智蕙林医疗科技有限公司 | 一种机器人和一种单目深度估计方法、系统及存储介质 |
CN112836974A (zh) * | 2021-02-05 | 2021-05-25 | 上海海事大学 | 一种基于dqn和mcts的箱区间多场桥动态调度方法 |
CN113660159A (zh) * | 2021-07-23 | 2021-11-16 | 成都壹唯视信息技术有限公司 | 一种基于强化学习的多径动态复用与分组传输方法 |
CN116533992A (zh) * | 2023-07-05 | 2023-08-04 | 南昌工程学院 | 基于深度强化学习算法的自动泊车路径规划方法及其系统 |
CN117933666A (zh) * | 2024-03-21 | 2024-04-26 | 壹号智能科技(南京)有限公司 | 一种密集仓储机器人调度方法、装置、介质、设备及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105955262A (zh) * | 2016-05-09 | 2016-09-21 | 哈尔滨理工大学 | 一种基于栅格地图的移动机器人实时分层路径规划方法 |
CN106557872A (zh) * | 2016-11-10 | 2017-04-05 | 浙江工业大学 | 多停车位智能三相充电群充电系统及方法 |
CN108803313A (zh) * | 2018-06-08 | 2018-11-13 | 哈尔滨工程大学 | 一种基于海流预测模型的路径规划方法 |
CN109637152A (zh) * | 2019-01-04 | 2019-04-16 | 浙江工业大学 | 一种基于调度理念的老旧小区行车路线的规划系统及方法 |
-
2019
- 2019-07-17 CN CN201910647303.5A patent/CN110555584B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105955262A (zh) * | 2016-05-09 | 2016-09-21 | 哈尔滨理工大学 | 一种基于栅格地图的移动机器人实时分层路径规划方法 |
CN106557872A (zh) * | 2016-11-10 | 2017-04-05 | 浙江工业大学 | 多停车位智能三相充电群充电系统及方法 |
CN108803313A (zh) * | 2018-06-08 | 2018-11-13 | 哈尔滨工程大学 | 一种基于海流预测模型的路径规划方法 |
CN109637152A (zh) * | 2019-01-04 | 2019-04-16 | 浙江工业大学 | 一种基于调度理念的老旧小区行车路线的规划系统及方法 |
Non-Patent Citations (2)
Title |
---|
YU XINYI ET AL: "《Dynamic Window with Virtual Goal(DW-VG):A New Reactive Obstacle Avoidance Approach Based on Motion Prediction》", 《ROBOTICA》 * |
禹鑫燚等: "《基于启发式动态规划的自动化停车场调度方法》", 《高技术通讯》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126598A (zh) * | 2019-12-19 | 2020-05-08 | 深圳南方德尔汽车电子有限公司 | 自动泊车方法、装置、计算机设备和存储介质 |
CN112068515A (zh) * | 2020-08-27 | 2020-12-11 | 宁波工程学院 | 一种基于深度强化学习的全自动停车场调度方法 |
CN112268909B (zh) * | 2020-10-20 | 2023-10-31 | 中国科学院合肥物质科学研究院 | 电池极片表面缺陷和均匀度检测的参数调控方法及系统 |
CN112268909A (zh) * | 2020-10-20 | 2021-01-26 | 中国科学院合肥物质科学研究院 | 电池极片表面缺陷和均匀度检测的参数调控方法及系统 |
CN112163720A (zh) * | 2020-10-22 | 2021-01-01 | 哈尔滨工程大学 | 基于车联网的多智能体无人驾驶电动汽车换电调度方法 |
CN112598309A (zh) * | 2020-12-29 | 2021-04-02 | 浙江工业大学 | 基于Keras的作业车间调度方法 |
CN112712017A (zh) * | 2020-12-29 | 2021-04-27 | 上海智蕙林医疗科技有限公司 | 一种机器人和一种单目深度估计方法、系统及存储介质 |
CN112836974A (zh) * | 2021-02-05 | 2021-05-25 | 上海海事大学 | 一种基于dqn和mcts的箱区间多场桥动态调度方法 |
CN112836974B (zh) * | 2021-02-05 | 2024-01-23 | 上海海事大学 | 一种基于dqn和mcts的箱区间多场桥动态调度方法 |
CN113660159A (zh) * | 2021-07-23 | 2021-11-16 | 成都壹唯视信息技术有限公司 | 一种基于强化学习的多径动态复用与分组传输方法 |
CN116533992A (zh) * | 2023-07-05 | 2023-08-04 | 南昌工程学院 | 基于深度强化学习算法的自动泊车路径规划方法及其系统 |
CN116533992B (zh) * | 2023-07-05 | 2023-09-22 | 南昌工程学院 | 基于深度强化学习算法的自动泊车路径规划方法及其系统 |
CN117933666A (zh) * | 2024-03-21 | 2024-04-26 | 壹号智能科技(南京)有限公司 | 一种密集仓储机器人调度方法、装置、介质、设备及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110555584B (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110555584B (zh) | 一种基于深度强化学习的自动化停车场调度方法 | |
CN110745136B (zh) | 一种驾驶自适应控制方法 | |
CN111267831B (zh) | 一种混合动力车辆智能变时域模型预测能量管理方法 | |
CN111696370B (zh) | 基于启发式深度q网络的交通灯控制方法 | |
CN111098852B (zh) | 一种基于强化学习的泊车路径规划方法 | |
CN112700664B (zh) | 一种基于深度强化学习的交通信号配时优化方法 | |
CN110750877A (zh) | 一种Apollo平台下的车辆跟驰行为预测方法 | |
CN112700663A (zh) | 基于深度强化学习策略的多智能体智能信号灯路网控制方法 | |
CN112819253A (zh) | 一种无人机避障和路径规划装置及方法 | |
CN109726676B (zh) | 自动驾驶系统的规划方法 | |
CN111783994A (zh) | 强化学习的训练方法和装置 | |
CN114162146B (zh) | 行驶策略模型训练方法以及自动驾驶的控制方法 | |
CN114859905A (zh) | 一种基于人工势场法和强化学习的局部路径规划方法 | |
Xie et al. | A DRL based cooperative approach for parking space allocation in an automated valet parking system | |
Jiang et al. | Path tracking control based on Deep reinforcement learning in Autonomous driving | |
CN116300977B (zh) | 一种依托强化学习的铰接车轨迹跟踪控制方法及装置 | |
CN116968721A (zh) | 一种混合动力汽车预测式能量管理方法、系统和存储介质 | |
CN117031961A (zh) | 基于模型预测控制的自动驾驶汽车交互性决策规划方法 | |
CN116817909A (zh) | 一种基于深度强化学习的无人机中继式导航方法 | |
CN115083149B (zh) | 一种实时监测的强化学习可变时长信号灯控制方法 | |
CN113469369B (zh) | 一种面向多任务强化学习的缓解灾难性遗忘的方法 | |
CN115091458A (zh) | 一种机械臂轨迹智能规划算法 | |
CN115691110B (zh) | 一种面向动态车流的基于强化学习的交叉口信号周期稳定配时方法 | |
CN113721655A (zh) | 一种控制周期自适应的强化学习无人机稳定飞行控制方法 | |
Jin et al. | WOA-AGA algorithm design for robot path planning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |