CN110555584A

CN110555584A - 一种基于深度强化学习的自动化停车场调度方法

Info

Publication number: CN110555584A
Application number: CN201910647303.5A
Authority: CN
Inventors: 禹鑫燚; 杜丹枫; 欧林林; 卢靓
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-07-17
Filing date: 2019-07-17
Publication date: 2019-12-10
Anticipated expiration: 2039-07-17
Also published as: CN110555584B

Abstract

一种基于深度强化学习的自动化停车场调度方法，包括：步骤1：建立自动化停车场的环境；步骤2：定义泊车机器人的运行代价；步骤3：建立环境、智能体模型及设定奖励值；步骤4：对DQN算法进行改进；步骤5：使用改进的DQN算法进行训练。本发明使用对DQN算法进行改进，相对于使用一般的DQN算法，训练效率更高；在样本数据结构方面，保存了状态信息及该状态下所有动作的价值，相对于传统的保存状态之间的转移形式，能在训练前期获得较为准确的价值估计，避免价值模型陷入局部最优解。

Description

一种基于深度强化学习的自动化停车场调度方法

技术领域

本发明涉及一种自动化停车场的调度方法。

背景技术

随着经济社会快速发展，城市道路交通问题越来越突出，除了交通拥堵外，停车供需矛盾已经成为城市发展中不容忽视的难点问题。传统的停车场表现出车辆停放效率和停车场面积利用率较低的缺点。目前一种新的自动化停车场应运而生，由泊车机器人完成车辆的停放工作。

陈广，瞿三清等人提出了一种面向自动化停车场的无人泊车搬运机器人的对位方法，通过单目相机和单线激光雷达实现目标车辆的精准对位，以保障机器人有效的搬运车辆(陈广，瞿三清等，面向自动化停车场的无人泊车搬运机器人的对位方法[P]，CN109386155A，2019-02-26)。然而，该方法需要处理和计算大量的数据，效率不高。熊璐，严森炜等人提出了一种基于几何规划及强化学习的自动泊车方法及系统，通过几何规划确定泊车轨迹，再交由强化学习控制车辆入库的位姿(熊璐，严森炜等，一种基于几何规划及强化学习的自动泊车方法及系统[P]，上海：CN109398349A，2019-03-01)。然而，该方法需要驾驶员主动驾驶车辆到库位周边，需要花费大量驾驶员的时间。余伶俐，严孝鑫等人提出了一种基于DQN的车辆自动泊车方法，通过训练好的DQN计算期望车辆前轮摆角，控制车辆转动并移动车辆进行停车(余伶俐，严孝鑫，周开军等，一种基于DQN的车辆自动泊车方法[P]，湖南：CN108407805A，2018-08-07)。然而，此方法并没有考虑车库停放情况，能耗大小，车辆状态等问题。

鉴于以上问题，如何对泊车机器人进行合理的调度优化以增加停车效率并减少能耗成为自动化停车场的核心问题。调度优化策略需要根据停车场中库位的空间分布以及停放车辆的信息，安排合适的库位并且减少自动化停车场长时间运行产生的能耗。因此，设计合理的停车场调度策略对于自动化停车场的长期运行收益具有重要意义。

发明内容

本发明克服现有方法的缺点，提出一种基于深度强化学习的自动化停车调度方法。

本发明将自动化停车问题转化成为强化学习框架下的最优策略求解问题，定义自动化停车场运行过程中的状态、价值模型、动作奖励值，使用Deep Q Network(DQN)算法进行训练，并且利用神经网络拟合价值模型，获取动作价值，从而在决策时选择奖励值最大的动作。

基于深度强化学习的自动化停车场调度方法，将自动化停车问题转化为强化学习框架下的最优策略求解问题；定义自动化停车场运行过程中的状态、价值模型、动作的奖励值函数；将停放车辆信息的随机问题归结为环境的随机信息，利用Q-Learning算法解决该问题；再利用神经网络拟合价值模型，与环境交互并计算样本价值来不断逼近价值模型的真实值，获得每个动作的价值，从而在每个决策阶段做出奖励值最大的动作。本发明基于深度强化学习来解决停车调度问题，提高了训练效率；在样本数据结构方面，保存了状态信息及该状态下所有动作的价值，能在训练前期获得较为准确的价值估计，避免价值模型陷入局部最优解。

一种基于深度强化学习的自动化停车场调度方法，步骤如下：

步骤1：建立自动化停车场的环境；

自动化停车场包含一个入口，一个出口，一定数量的库位以及障碍物，并以栅格化的地图形式表示各个部分，其中白色栅格是库位，灰色区域是通行道路，黑色是障碍物，E表示入口，O表示出口；将自动化停车场的库位状态表示为P，其中包含的库位数量为M，则P＝{p_k|k∈[1,M]}，p_k表示P中第k个库位，将库位p_k与相应的入口和出口之间的距离之和定义为d_k；泊车机器人R数量为L，则R＝{r_i|i∈[1,L]}；定义泊车机器人每次只能搬运一辆车，搬运车辆时保持匀速运动，且允许多个泊车机器人出现在同一个栅格中，忽略泊车机器人在空载时的能耗；负载时，其能耗与搬运车辆的质量和搬运距离成正比，记泊车机器人代价系数为a，则机器人总代价C_R＝a×L；

对于每辆已经申请停放的车辆c_i，其申请入库时刻t_in、质量m_i、停放时间T_i以及申请出库时刻是可知的，则c_i＝{t_in,m_i,T_i}，定义停放车辆的质量和停放时间服从均匀分布且相互独立，表示为m_i＝U(m_min,m_max)、T_i＝U(T_min,T_max)，其中m_min和m_max分别是质量的最小和最大值，T_min和T_max是停放时间的最小和最大值；

步骤2：定义泊车机器人的运行代价；

本发明主要考虑泊车机器人搬运停放车辆产生的能耗问题，将泊车机器人搬运能耗表示为w_i＝k_e×d_k×m_i，表示完成车辆c_i停放任务产生的能耗，其中k_e是能耗系数，记完成N辆车停放产生的总能耗为Z，则目标函数为：

w_i＝k_e×d_k×m_i，i∈[1,N]，k∈[1,M] (2)

m_i＝U(m_min,m_max) (3)

T_i＝U(T_min,T_max) (4)

d_k≤d_k+1 (5)

步骤3：建立环境、智能体模型及设定奖励值；

在自动化停车场调度问题中，定义状态由停车场中各个库位上停放车辆的剩余停放时间t_i，申请停放车辆的质量m_i、停放时间T_i以及申请时刻t_in组成，包含的环境信息越充分越能在决策时区分不同动作的价值偏差，状态的数据形式如下：

将搬运停放车辆的能耗设定为奖励值，DQN算法的目标是总奖励值最大化，因此相应的能耗应当为负值；为了增加神经网络的拟合效果，奖励值大小应当在0附近，保证总奖励值不至于过大或者过小，奖励值reward定义如下：

其中为车辆质量的平均值，为库位距离的平均值，由于车辆的质量分布和停车场库位的空间分布是可知的，baseline则为常数；

智能体模型包含Q-Learning算法以及价值估计模型，对于训练完成的价值模型而言，只需要在决策阶段选择价值最大的动作就能保证最优的运行结果，对于较为复杂的问题，难以通过遍历所有状态获取接近真实状态转移概率的价值模型，使用ε-greedy算法解决探索与利用的经典问题，其算法如下：

在前期使用该算法多进行探索，可以发现更好的动作，避免陷入局部最优，在后期则选择最优动作，能尽可能获得更多的奖励；

使用Q-Learning的更新公式计算获得的交互序列的状态-动作对的价值，并将其作为样本存储下来用于神经网络的训练，每个样本包含环境状态信息s_t，以及所有动作对应的价值，其数据格式定义为：

sample＝[s_t q_π(s_t,a₁)q_π(s_t,a₂)…q_π(s_t,a_M)] (9)

步骤4：对DQN算法进行改进；

本发明首先使用Double DQN对算法进行改进，主要使DQN中的两个神经网络的参数分别用于动作决策和价值估计，解决了模型价值估计过高的问题；其次使用PriorityReplay Buffer对算法中的采样环节进行改进，在以TD-Error为权重的采样和均匀采样之间进行插值，对于每个样本i的采样概率公式为：

其中α为TD-Error的权重，对原来的概率计算值增加权值β以修正价值模型拟合效果的偏差：

其中N表示存放的样本数量，再使用完全二叉树结构对Priority Replay Buffer中数据进行存储采样，极大提高了存储和采样效率；最后使用n-step算法调整DQN算法训练过程中的方差和偏差的平衡，并且对车辆进行模拟停放，当一辆车申请停放，选择库位时，在遍历该状态下所有动作的价值之后，再进行n次模拟整个停放的过程，并且取其中的最大值作为下一个状态的估计值；

步骤5：使用改进的DQN算法进行训练；

根据停车场中各个库位上停放车辆的剩余停放时间t_i，申请停放车辆的质量m_i、停放时间T_i以及申请时刻t_in，将状态输入到神经网络中进行训练，计算当前状态下每一个动作的价值，并根据ε-greedy算法选择动作并执行，使泊车机器人能将车辆准确地搬入库位；

本发明的优点是：整合了Double DQN,Priority Replay Buffer,n-step等多种方法改进传统DQN算法，相对于一般的DQN算法，解决了过高估计的问题，并且训练效率更高；对车辆进行模拟停放，使停放过程中精度更高；在样本数据结构方面，保存了状态信息及该状态下所有动作的价值，相对于传统的保存状态之间的转移形式，能在训练前期获得较为准确的价值估计，避免价值模型陷入局部最优解。

附图说明

图1是本发明的基于深度强化学习的停车调度流程图。

图2是本发明的自动化停车场空间分布。

图3是本发明设定的进车速率。

图4基于深度强化学习方法停车场调度结果。

图5不同样本记录方式的算法结果。

具体实施方式

下面结合附图进一步说明本发明的技术方案。

基于深度强化学习的自动化停车场调度方法，将自动化停车问题转化为强化学习框架下的最优策略求解问题；定义自动化停车场运行过程中的状态、价值模型、动作的奖励值函数；将停放车辆信息的随机问题归结为环境的随机信息，利用Q-Learning算法解决该问题；再利用神经网络拟合价值模型，与环境交互并计算样本价值来不断逼近价值模型的真实值，获得每个动作的价值，从而在每个决策阶段选择奖励值最大的动作，车辆就可以停放致奖励值最大的库位。

一种基于深度强化学习的自动化停车场调度方法的流程图如图1所示，具体步骤如下：

步骤1：建立自动化停车场的环境，如图2所示；

自动化停车场包含一个入口，一个出口，一定数量的库位以及障碍物，并以栅格化的地图形式表示各个部分，其中白色栅格是库位，灰色区域是通行道路，黑色是障碍物，E表示入口，O表示出口；将自动化停车场的库位状态表示为P，其中包含的库位数量为M，则P＝{p_k|k∈[1,M]}，p_k表示P中第k个库位，以库位p_k与相应的入口和出口之间的距离之和d_k作为库位指标，对p_k做排序，满足d_k≤d_k+1；对于库位而言，库位距离的大小可以反映出当前库位的优劣性，因为对于相同的车辆，库位距离越大，搬运造成的能耗越多，以库位的距离做排序，当库位标号越小，库位的质量越好，便于调度算法的处理；泊车机器人R数量为L，则R＝{r_i|i∈[1,L]}；泊车机器人每次只能搬运一辆车，搬运车辆时保持匀速运动，且允许多个泊车机器人出现在同一个栅格中，泊车机器人在空载时的能耗忽略不计；负载时，其能耗与搬运车辆的质量和搬运距离成正比，记泊车机器人代价系数为a，则机器人总代价C_R＝a×L。

设定自动化停车场包含94个库位，车辆质量的取值范围[10,20]×100kg，停放时间的取值范围[1000,5000]s，车辆数为700，泊车机器人数量为20。为了模拟进车速率的波动性，设置了两档停车速率交替进行，周期为5000s，进车速率如图3。

对于每辆已经申请停放的车辆，其申请入库时刻t_in、质量m_i、停放时间T_i以及申请出库时刻是可知的，则c_i＝{t_in,m_i,T_i}，可以认为停放车辆的质量，停放时间，服从均匀分布且相互独立，表示为m_i＝U(1000,2000)、T_i＝U(1000,5000)。

步骤2：定义泊车机器人的运行代价；

w_i＝k_e×d_k×m_i，i∈[1,N]，k∈[1,94] (2)

m_i＝U(1000,2000) (3)

T_i＝U(1000,5000) (4)

d_k≤d_k+1 (5)

步骤3：建立环境、智能体模型及设定奖励值；

在自动化停车场调度问题中，状态由停车场中各个库位上停放车辆的剩余停放时间t_i，申请停放车辆的质量m_i、停放时间T_i以及申请时刻t_in组成，包含的环境信息越充分越能在决策时区分不同动作的价值偏差，状态的数据形式如下：

其中M表示停车场中包含的库位数量。

强化学习的奖励值的取值范围一般为[-1,1]，为此需要对质量和停放时间做归一化处理，用于计算奖励值。

则reward计算公式为：

使用ε-greedy算法解决探索与利用的经典问题，其算法如下：

其中ε的取值随着迭代次数的增加线性增长，最后的值为1。

步骤4：对DQN算法进行改进；

其中α可以控制TD-Error作为权重的程度，对原来的概率计算值增加权值β以修正价值模型拟合效果的偏差：

其中，N＝8192为样本存储数量。当β＝1时，Priority Replay Buffer将进行均匀采样，在停车调度问题中，将β初始化为0，随着迭代的进行使β趋向于1，以此来保证价值模型的训练结果是无偏的，使用完全二叉树结构对PriorityReplay Buffer中数据进行存储采样，构建了13层树结构，Buffer的容量为8192；最后使用n-step算法调整DQN算法训练过程中的方差和偏差的平衡，取n＝3，对车辆进行3次模拟停放，并且取其中的最大值作为下一个状态的估计值。

步骤5：使用改进的DQN算法进行训练；

根据停车场中各个库位上停放车辆的剩余停放时间t_i，申请停放车辆的质量m_i、停放时间T_i以及申请时刻t_in，将状态输入到神经网络中进行训练，计算当前状态下每一个动作的价值，并根据ε-greedy算法选择动作并执行，使泊车机器人能将车辆准确地搬入库位。

在神经网络的结构与训练方面：神经网络的输入为94+3，输出为94；replaceiteration times为3000；learning-rate为0.0001；γ＝0.95；训练样本容量16；总迭代次数为400。

通过700车辆的数据集，测试了改进的DQN算法的迭代训练结果，算法的奖励值如图4。算法在迭代训练的前期，由于ε的值较小，探索力度较大，算法单次迭代结果波动性较大。在改进DQN算法中，ε随着迭代次数的增加保持线性增长，初始值为0，终值为1，随着交互、训练的进行，泊车机器人选择最优库位的概率逐渐增大。

本发明使用的样本记录方式与传统方法不同，对比以记录状态转移和记录所有动作价值的DQN算法。由于计算所有动作价值的算法在相同的迭代次数情况下，比记录状态转移的算法具有更大的计算量，为此，需要计算合理的迭代次数保证两种算法的计算结果具有对比性。对于记录状态转移的算法而言，其在神经网络训练时计算各个选中的状态-动作对的价值，计算数量为采样数。而记录所有动作价值的算法则在模拟停放的时候计算了当前状态下所有动作的价值，计算次数等于库位数。实验中采样数为16，库位数为94，因此，对于记录状态转移算法，其迭代次数为2400时在计算量上与记录所有动作价值的算法大致相同，并且将6个单次迭代结果的平均值作为对比数据，两种算法训练结果如图5所示。实验结果表明，本发明使用的样本记录方式能够获得更快的提升，并且最终求得更好的调度策略。

本发明设计的一种基于深度强化学习停车调度的方法，整合了Double DQN,Priority Replay Buffer,n-step等多种方法改进传统DQN算法，相对于一般的DQN算法，解决了过高估计的问题，并且训练效率更高；对车辆进行模拟停放，使停放过程中精度更高；在样本数据结构方面，保存了状态信息及该状态下所有动作的价值，相对于传统的保存状态之间的转移形式，能在训练前期获得较为准确的价值估计，避免价值模型陷入局部最优解。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.一种基于深度强化学习的自动化停车场调度方法，包括如下步骤：

步骤1：建立自动化停车场的环境；

对于每辆已经申请停放的车辆，其申请入库时刻t_in、质量m_i、停放时间T_i以及申请出库时刻是可知的，则c_i＝{t_in,m_i,T_i}，认为停放车辆的质量，停放时间，服从均匀分布且相互独立，表示为m_i＝U(m_min,m_max)、T_i＝U(T_min,T_max)，其中m_min和m_max分别是质量的最小和最大值，T_min和T_max是停放时间的最小和最大值；

步骤2：定义泊车机器人的运行代价；

考虑泊车机器人搬运停放车辆产生的能耗问题，将泊车机器人搬运能耗表示为w_i＝k_e×d_k×m_i，表示完成车辆c_i停放任务产生的能耗，其中k_e是能耗系数，记完成N辆车停放产生的总能耗为Z，则目标函数为：

w_i＝k_e×d_k×m_i，i∈[1,N]，k∈[1,M] (2)

m_i＝U(m_min,m_max) (3)

T_i＝U(T_min,T_max) (4)

d_k≤d_k+1 (5)

步骤3：建立环境、智能体模型及设定奖励值；

在算法前期多进行探索，可以发现更好的动作，避免陷入局部最优，在算法后期则选择最优动作，能尽可能获得更多的奖励；

sample＝[s_t q_π(s_t,a₁) q_π(s_t,a₂) … q_π(s_t,a_M)] (9)

步骤4：对DQN算法进行改进；

首先使用Double DQN对算法进行改进，主要使DQN中的两个神经网络的参数分别用于动作决策和价值估计，解决了模型价值估计过高的问题；其次使用Priority ReplayBuffer对算法中的采样环节进行改进，在以TD-Error为权重的采样和均匀采样之间进行插值，对于每个样本i的采样概率公式为：

其中N为存储的样本数量，再使用完全二叉树结构对Priority Replay Buffer中数据进行存储采样，极大提高了存储和采样效率；最后使用n-step算法调整DQN算法训练过程中的方差和偏差的平衡，并且对车辆进行模拟停放，当一辆车申请停放，选择库位时，在遍历该状态下所有动作的价值之后，再进行n次模拟整个停放的过程，并且取其中的最大值作为下一个状态的估计值；

步骤5：使用改进的DQN算法进行训练；

2.根据权利要求1的一种基于深度强化学习的自动化停车场调度方法，其特征在于：步骤4所述的对DQN进行改进的方法，其中Double DQN解决价值估计过高的问题；PriorityReplay Buffer提高存储和采样的效率；n-step使算法在训练前期获得较为准确的价值估计，避免陷入局部最优解。