CN112068515A - 一种基于深度强化学习的全自动停车场调度方法 - Google Patents

一种基于深度强化学习的全自动停车场调度方法 Download PDF

Info

Publication number
CN112068515A
CN112068515A CN202010877257.0A CN202010877257A CN112068515A CN 112068515 A CN112068515 A CN 112068515A CN 202010877257 A CN202010877257 A CN 202010877257A CN 112068515 A CN112068515 A CN 112068515A
Authority
CN
China
Prior art keywords
agent
model
parking lot
network
full
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010877257.0A
Other languages
English (en)
Inventor
孙洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo University of Technology
Original Assignee
Ningbo University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ningbo University of Technology filed Critical Ningbo University of Technology
Priority to CN202010877257.0A priority Critical patent/CN112068515A/zh
Publication of CN112068515A publication Critical patent/CN112068515A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/41865Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by job scheduling, process planning, material flow
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0968Systems involving transmission of navigation instructions to the vehicle
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/14Traffic control systems for road vehicles indicating individual free spaces in parking areas
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/166Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Manufacturing & Machinery (AREA)
  • Quality & Reliability (AREA)
  • Automation & Control Theory (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开一种基于深度强化学习的全自动停车场调度方法,将全自动停车场的调度问题视作多智能体协作下的全局最优协作问题。步骤包括:1.建立停车场环境的状态模型;2.建立智能体的模型,包括状态、动作和回报函数;3.初始化经验池;4.提出一种带全局模型的深度确定性策略梯度算法GDDPG(Global‑model based Deep Deterministic Policy Gradient),为每个智能体搭建网络模型并进行训练,直到模型精度达到预设阈值,得到多智能体协同路径规划的最优方案。本发明通过建立停车场的状态模型,形式化描述适用于全自动停车场的先验知识和约束;基于深度强化学习算法,训练GDDPG网络。二者结合,为每个智能体规划一条泊车路径,并满足全局最优化目标,实现了全自动停车场的智能性。

Description

一种基于深度强化学习的全自动停车场调度方法
技术领域
本发明涉及智能泊车技术领域,具体涉及一种基于深度强化学习的全自动停车场的调度方法。
背景技术
随着我国车辆的保有量不断增加,停车场所停放的车辆越来越多,对于车辆的停放需要更加智能化的管理,社会对全自动化无人停车场的需求应运而生,希望司机行驶至停车场入口后,由智能停车场将车运送至空闲车位;司机取车时,停车场将车运送至停车场司机所在出口。目前全自动停车场一般采用泊车机器人等自动化运送装置,将车辆从一位置转移至另一位置,实现自动化停车/取车。但在同一时间同一路线上大多只允许一辆车进行自动泊车,导致自动泊车的效率较低。如果多辆同时进行泊车的,在控制过程当中可能发送碰撞事故。因此如何高效而安全地解决自动泊车的调度问题,是目前全自动停车场需要首先解决的问题。
目前强化学习在机器人导航、智能交通等领域得到了广泛应用,可以将其应用到全自动停车场。多智能体协作系统有两种架构:集中式强化学习和分布式强化学习。集中式强化学习指由一个中央学习单元负责训练和学习,输入是所有智能体状态的拼接,输出是所有智能体的联合动作。这种方式中学习维数和计算量将随着智能体数量的增加而指数级增长,不适合大型停车场。分布式强化学习中,每个智能体独立进行训练,把其他智能体视为环境的一部分,而智能体之间的协作通过共享数据或者共享策略等通信手段来实现。这种方式中神经网络输入维度不会随着智能体数量增长而剧增,但是需要大量通信过程。
为此,本发明基于停车场的应用场景和特点,提出了一种带全局环境模型的分布式强化学习算法,既避免了维度增加,也不会增加智能体之间的通讯,同时在不增加训练复杂度的情况下,保证了智能体之间的信息共享和协作。
发明内容
本发明所要解决的技术问题是提供一种无人自动停车场的调度方法和系统,令一个泊车机器人定义为智能体(Agent),泊车行为定义为从车库入口到达空余车位的路径规划,提车行为定义为从当前车位到车库出口的路径规划,则全自动停车场内的调度方法转化为多智能体的协同导航问题。
为达到上述目的,本发明创造的技术方案是这样实现的:将自动无人停车场的调度问题视作多智能体协作下的全局最优协作问题。现假设系统环境中存在N个智能体,每个智能体到达一个目标车位时任务完成。则全局最优解定义为:1)为每个智能体输出一条路径,且所有路径不冲突; 2)每个智能体能够避开障碍物; 3)所有当前活动智能体到达目标点的距离总和尽可能的短。
为解决此最优化问题,本发明提出一种带全局环境模型的深度确定性策略梯度算法GDDPG(Global-model based Deep Deterministic Policy Gradient)。即加入环境空间模型,使得整个搜索空间减小,加快收敛速度,更快得到最优动作。该方法步骤如下:
步骤1:建立全自动停车场的环境模型。停车场的功能域包括出口、入口、车位、车道,以及特定功能区。对区域进行栅格化,其中,每个出口和入口占据一个栅格,每个车位一个栅格。车道按照车位大小划分为不同数量的栅格。白色栅格表示可行区域,黑色栅格表示障碍物。为了后面路径规划计算的简便性,从地图左上角栅格开始,依次对栅格进行编号。以N x N y 的地图为例,编号为i的栅格对应的行列坐标(x i ,y i )为:
Figure 154362DEST_PATH_IMAGE001
其中%表示取余运算,/表示求商运算,⌈∙⌉为向上取整运算。
为避免智能体之间的碰撞问题,保证系统运行稳定性,假设如下:(1)每个栅格在同一时刻仅允许通过或容纳一个智能体;(2)车道中只允许单向行驶,避免相向碰撞;(3)智能体移动速度为固定匀速v,避免追击碰撞。(4)智能体设定优先级,编号越大的智能体,优先级较高,以避免交叉碰撞。
障碍物分为静止障碍物和动态障碍物,静态障碍物为车辆不可接近区域,例如墙壁或者柱体,以及已被占据的车位;动态障碍物为除本车之外的其他在场内活动车辆。在调度算法运行过程中,对每个智能体而言,其余智能体所占据的栅格作为障碍物添加到地图中,从而获得一张实时的动态电子地图,各智能体再根据这张地图进行动态路径规划,如此往复实现多机协同的路径规划。
步骤2:建立智能体的模型,包括状态、动作和回报函数。
(1)状态(State):
时刻t的系统的状态定义为:
Figure 208906DEST_PATH_IMAGE002
.
其中
Figure 904330DEST_PATH_IMAGE003
为智能体i的状态,N是允许同时处于活动状态的智能体数量,即泊车和提车总数之和。
对智能体i,时刻t的状态定义为:
Figure 145955DEST_PATH_IMAGE004
其中
Figure 952237DEST_PATH_IMAGE005
为智能体i在时刻t的位置,即在栅格地图上的编号;
Figure 126867DEST_PATH_IMAGE006
为智能体i的目标点位置,即分配的目标车位在栅格地图上的编号。
Figure 727612DEST_PATH_IMAGE007
为智能体i在时刻t的线速度,归一化为[0,1]区间;
Figure 722113DEST_PATH_IMAGE008
即智能体i在时刻t的角速度,归一化为[-1,1]范围内。
(2)动作(Action):
为了令智能体向着目标点移动,允许执行的行为是前行、左转、右转、静止。则将智能体的动作定义为线速度和角速度的控制指令,即
Figure 332086DEST_PATH_IMAGE009
(3)回报函数(Reward)
智能体i在时刻t,状态X t 下,采取行为a t 的回报函数定义为:
Figure 95643DEST_PATH_IMAGE010
其中第一行是到达奖励,
Figure 867289DEST_PATH_IMAGE011
表示时刻t智能体i与其目标点的距离,如果这个距离小于阈值D arrive ,则视为到达目标点;第二行是碰撞惩罚,智能体与障碍物的距离小于安全阈值D collsion ,则视为即将碰撞;第三行是引导智能体向目标点行驶,每个智能体i衡量在时刻t-1与自己目标点的距离
Figure 349086DEST_PATH_IMAGE012
,以及在时刻t与自己目标点的距离
Figure 762750DEST_PATH_IMAGE011
。如果在时刻t与距离自己目标点更远了,则实施惩罚,否则给予奖励。d为奖励参数。
距离函数
Figure 383743DEST_PATH_IMAGE011
采用曼哈顿距离,其公式为:
Figure 591870DEST_PATH_IMAGE013
其中
Figure 560963DEST_PATH_IMAGE005
为智能体i在时刻t在栅格地图上的编号,
Figure 247160DEST_PATH_IMAGE006
为目标点在栅格地图上的编号,(x i , y i )为
Figure 985309DEST_PATH_IMAGE014
对应的栅格地图中的行列坐标,(x j , y j )为
Figure 364337DEST_PATH_IMAGE006
对应的栅格地图中的行列坐标,根据步骤一中公式计算可得。
步骤3:构建网络模型:
步骤3.1:为每个智能体构建四个神经网络:一个是评估网络Q;一个是策略网络μ,每个智能体i的网络参数分别记为
Figure 555147DEST_PATH_IMAGE015
Figure 45034DEST_PATH_IMAGE016
步骤3.2:构建两个结构完全相同的目标网络,记作Q'和μ' ,其网络参数分别记为
Figure 637690DEST_PATH_IMAGE017
Figure 453199DEST_PATH_IMAGE016
',初始化
Figure 131305DEST_PATH_IMAGE018
,
Figure 424883DEST_PATH_IMAGE019
步骤4: 初始化状态空间
Figure 872045DEST_PATH_IMAGE020
;初始化经验池(Experience Replay Buffer);
经验池用于存储训练样本,样本是(X t , A t , r t , X t ')的形式,其中
Figure 592876DEST_PATH_IMAGE002
是当前状态,表示N个智能体的观测值;
Figure 23858DEST_PATH_IMAGE021
N个智能体执行的行为,
Figure 855547DEST_PATH_IMAGE022
是相应的回报, X t ' 是执行动作后转移的新状态。
For t= 1 to T do
针对每个智能体ii=1 to N
选择行为
Figure 422795DEST_PATH_IMAGE023
获得回报函数r i
当前状态转为新状态X ';
将此状态(X,a, r, X ')存入经验池.
步骤5:初始化训练批次,精度阈值,开始训练。
从经验池取出S个样本用于训练:样本j记作
Figure 314528DEST_PATH_IMAGE024
;
步骤5.1更新智能体i的评估网络参数
Figure 967226DEST_PATH_IMAGE025
通过最小化目标函数来更新网络参数,目标函数为:
Figure 337027DEST_PATH_IMAGE026
其中,
Figure 24361DEST_PATH_IMAGE027
, γ为折扣因子;
步骤5.2更新智能体i的策略网络
Figure 86995DEST_PATH_IMAGE016
通过最小化目标函数来更新网络参数,目标函数为:
Figure 961410DEST_PATH_IMAGE028
步骤5.3 更新目标网络网络Q':
Figure 666060DEST_PATH_IMAGE029
其中τ为目标网络软更新参数;
步骤5.4更新目标网络网络μ':
Figure 945251DEST_PATH_IMAGE030
步骤6:模型收敛后,停止训练。
与现有技术相比,本申请提供的一种基于深度强化学习的全自动停车场调度方法的有益效果在于:1)通过建立停车场的状态模型,形式化描述适用于全自动停车场的先验知识和约束;基于深度强化学习算法,训练GDDPG网络。二者结合,生成全局最优协作,即为每个智能体规划一条连续无碰撞的泊车路径,并满足耗时最少等最优化目标,实现了全自动停车场的智能性。2)采用集中式训练,分布式执行的策略,在训练时采用集中式学习训练评估网络与策略网络,执行时只需通过当前智能体的状态,策略网络即可进行动作预测;不需要通过全局共享信息,或者多智能体通信才能输出下一步动作,减少了计算复杂性,使得该算法适用于大型全自动停车场中多智能体共同协作问题。3)利用离线训练策略,结合停车场全局模型,将其与强化学习网络相互结合,获取最优路径,更能满足不规则地形的停车场的复杂场景。
附图说明
图1为本发明实施例的方法架构图;
图2为本发明实施例的停车场平面图;
图3为本发明实施例的栅格地图;
图4为本发明实施例的策略网络架构图;
图5为本发明实施例的评估网络架构图。
具体实施方式
以下结合附图对本发明作进一步的详细描述。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明给公开的示例性实施方式。
图1为本发明实施例的方法架构图,将一个泊车机器人定义为智能体(Agent),泊车行为定义为从车库入口到达目标空余车位的路径规划,提车行为定义为从当前车位到车库出口的路径规划,则全自动停车场内的调度方法转化为多智能体的协同导航问题。
如图2所示,该全自动停车场共2个出入口,为不规则地形,分为若干区域,每个区域包括若干车位,区域之间由车道进行连接,车道为双向车道。
步骤1:建立全自动停车场的环境模型。如图3所示,该停车场的电子地图为栅格化地图,每个车位一个栅格,白色栅格表示空余车位。黑色栅格表示障碍物及被占用车位,障碍物分为静止障碍物和动态障碍物,静态障碍物为车辆不可接近区域,例如墙壁或者柱体;动态障碍物为被占据车位,随时可能更换为白色可行区域。灰色栅格表示车道。车道按照车位大小划分为不同数量的栅格,智能体在同一道路只能沿同一方向行驶,以避免对立智能体之间的迎面碰撞。从地图左上角栅格开始,依次对栅格进行编号。
步骤2:建立智能体的模型,包括状态、动作和回报函数。
步骤3:为每个智能体建立神经网络。
策略网络的结构如图4所示,具有一个输入层,两个隐藏层和一个输出层。网络输入为当前智能体i的状态,包括当前智能体位置、目标点位置、当前角速度和线速度。输入层和隐藏层均为全连接网络,具有64 个神经元,采用ReLU作为神经元的激活函数。输出层具有2个神经元,分别采用Tanh函数和Sigmoid函数,对应输出的角速度和线速度控制指令。
评估网络的结构如图5所示,具有一个输入层,两个隐藏层和一个输出层。网络输入为当前所有智能体的状态和动作,输出为对当前策略的Q值。
步骤4: 初始化状态空间X 0,设定智能体最大活动数量为10。
初始化经验池(Experience Replay Buffer),设定经验池最大值为10000,开始建立样本。
步骤5:训练智能体。
设定训练批次数量,设定每个训练批次回合最大步数=800,设定停止条件为智能体到达目标点;
设定折扣因子γ=0.95,目标网络软更新参数τ=0.01;
每一个训练批次中,根据策略网络输出的动作指令,计算其回报函数,并更新四个网络参数。
步骤6:训练结束时,各智能体状态-动作值函数时间差分值收敛于10-6数量级,智能体的动作选择趋于稳定,验证了GDDPG算法在全自动停车场调度问题中运用的有效性。

Claims (8)

1.一种基于深度强化学习的全自动停车场调度方法,称为带全局环境模型的深度确定性策略梯度算法GDDPG(Global-model based Deep Deterministic Policy Gradient),其特征在于:所述方法包括如下步骤:步骤1:建立全自动停车场的环境模型;步骤2:建立智能体的模型,包括状态、动作和回报函数;步骤3:为每个智能体搭建网络模型;步骤4:初始化经验池;步骤5:根据算法进行训练,直到模型精度达到预设阈值,得到多智能体协同路径规划的最优方案;步骤6:模型收敛后,停止训练。
2.根据权利要求1所述的全自动停车场的环境模型,其特征在于,包括以下步骤:将停车场的功能区域进行栅格化,其中,每个出口和入口占据一个栅格,每个车位一个栅格;车道按照车位大小划分为不同数量的栅格,白色栅格表示可行区域,黑色栅格表示障碍物;从地图左上角栅格开始,依次对栅格进行编号,以N x ×N y 的地图为例,编号为i的栅格对应的行列坐标(x i ,y i )为:
Figure 522903DEST_PATH_IMAGE001
,其中%表示取余运算,/表示求商运算,⌈∙⌉为向上取整运算。
3.根据权利要求1所述的智能体模型,其特征在于:智能体状态定义为:
Figure 508177DEST_PATH_IMAGE002
,其中
Figure 755618DEST_PATH_IMAGE003
为智能体i的状态,N是允许同时处于活动状态的智能体数量,即泊车和提车总数之和;智能体i,时刻t的状态定义为:
Figure 498446DEST_PATH_IMAGE004
,其中
Figure 551853DEST_PATH_IMAGE005
为智能体i在时刻t的位置,即在栅格地图上的编号;
Figure 329316DEST_PATH_IMAGE006
为智能体i的目标点位置,即分配的目标车位在栅格地图上的编号;
Figure 479150DEST_PATH_IMAGE007
为智能体i在时刻t的线速度,归一化为[0,1]区间;
Figure 974854DEST_PATH_IMAGE008
即智能体i在时刻t的角速度,归一化为[-1,1]范围内。
4.根据权利要求1所述的智能体模型,其特征在于:每个智能体可执行的动作定义为线速度和角速度的控制指令,即
Figure 566372DEST_PATH_IMAGE009
5.根据权利要求1所述的智能体模型,其特征在于:智能体i在时刻t,状态X t 下,采取行为a t 的回报函数定义为:
Figure 463921DEST_PATH_IMAGE010
,其中第一行是到达奖励,智能体与目标点的距离小于阈值D arrive 则视为到达目标点;第二行是碰撞惩罚,智能体与障碍物的距离小于安全阈值D collsion ,则视为即将碰撞;第三行是引导智能体向目标点行驶,每个智能体i衡量在时刻t-1与自己目标点的距离
Figure 53165DEST_PATH_IMAGE011
,以及在时刻t与自己目标点的距离
Figure 770585DEST_PATH_IMAGE012
,如果在时刻t与距离自己目标点更远了,则实施惩罚,否则给予奖励。
6.根据权利要求1所述的智能体的网络模型,其特征在于:包括以下步骤:
步骤3.1:为每个智能体构建两个神经网络:一个是评估网络Q,一个是策略网络μ,每个智能体i的网络参数分别记为
Figure 165795DEST_PATH_IMAGE013
Figure 917850DEST_PATH_IMAGE014
;
步骤3.2:构建两个结构完全相同的目标网络,记作Q'和μ' ,其网络参数分别记为
Figure 677996DEST_PATH_IMAGE015
Figure 885642DEST_PATH_IMAGE016
,初始化
Figure 84542DEST_PATH_IMAGE017
,
Figure 691104DEST_PATH_IMAGE018
7.根据权利要求1所述的初始化经验池,其特征在于:基于全局地图并以离线方式进行样本选择,样本采取( X t , A t , r t , X t ')的形式,其中
Figure 684467DEST_PATH_IMAGE019
是当前状态,表示N个智能体的观测值;
Figure 376480DEST_PATH_IMAGE020
N个智能体执行的行为,
Figure 379071DEST_PATH_IMAGE021
是相应的回报,X t '是执行动作后转移的新状态。
8.根据权利要求1所述的训练算法,其特征在于:包括以下步骤:
从经验池取出S个样本用于训练:样本j记作
Figure 840139DEST_PATH_IMAGE022
步骤5.1更新智能体i的评估网络参数
Figure 942088DEST_PATH_IMAGE023
通过最小化目标函数来更新网络参数,目标函数为:
Figure 183713DEST_PATH_IMAGE024
,其中,
Figure 662099DEST_PATH_IMAGE025
步骤5.2更新智能体i的策略网络参数
Figure 39991DEST_PATH_IMAGE026
通过最小化目标函数来更新网络参数,目标函数为:
Figure 578419DEST_PATH_IMAGE027
步骤5.3 更新目标网络网络Q':
Figure 41762DEST_PATH_IMAGE028
步骤5.4更新目标网络网络μ':
Figure 323838DEST_PATH_IMAGE029
CN202010877257.0A 2020-08-27 2020-08-27 一种基于深度强化学习的全自动停车场调度方法 Pending CN112068515A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010877257.0A CN112068515A (zh) 2020-08-27 2020-08-27 一种基于深度强化学习的全自动停车场调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010877257.0A CN112068515A (zh) 2020-08-27 2020-08-27 一种基于深度强化学习的全自动停车场调度方法

Publications (1)

Publication Number Publication Date
CN112068515A true CN112068515A (zh) 2020-12-11

Family

ID=73659495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010877257.0A Pending CN112068515A (zh) 2020-08-27 2020-08-27 一种基于深度强化学习的全自动停车场调度方法

Country Status (1)

Country Link
CN (1) CN112068515A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766591A (zh) * 2021-01-27 2021-05-07 同济大学 共享单车调度方法
CN112967516A (zh) * 2021-02-03 2021-06-15 芜湖泊啦图信息科技有限公司 快速停车场端关键参数与整车匹配全局动态路径规划方法
CN113033756A (zh) * 2021-03-25 2021-06-25 重庆大学 基于目标导向的聚集策略的多智能体控制方法
CN113326993A (zh) * 2021-04-20 2021-08-31 西南财经大学 一种基于深度强化学习的共享自行车调度方法
CN113554300A (zh) * 2021-07-19 2021-10-26 河海大学 一种基于深度强化学习的共享车位实时分配方法
CN115713130A (zh) * 2022-09-07 2023-02-24 华东交通大学 基于超参数网络权重分配深度强化学习的车辆调度方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492763A (zh) * 2018-09-17 2019-03-19 同济大学 一种基于强化学习网络训练的自动泊车方法
CN110027553A (zh) * 2019-04-10 2019-07-19 湖南大学 一种基于深度强化学习的防碰撞控制方法
EP3567539A1 (en) * 2018-05-09 2019-11-13 Volvo Car Corporation Method and system for orchestrating multi-party services using semi-cooperative nash equilibrium based on artificial intelligence, neural network models, reinforcement learning and finite-state automata
CN110555584A (zh) * 2019-07-17 2019-12-10 浙江工业大学 一种基于深度强化学习的自动化停车场调度方法
CN111098852A (zh) * 2019-12-02 2020-05-05 北京交通大学 一种基于强化学习的泊车路径规划方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3567539A1 (en) * 2018-05-09 2019-11-13 Volvo Car Corporation Method and system for orchestrating multi-party services using semi-cooperative nash equilibrium based on artificial intelligence, neural network models, reinforcement learning and finite-state automata
CN109492763A (zh) * 2018-09-17 2019-03-19 同济大学 一种基于强化学习网络训练的自动泊车方法
CN110027553A (zh) * 2019-04-10 2019-07-19 湖南大学 一种基于深度强化学习的防碰撞控制方法
CN110555584A (zh) * 2019-07-17 2019-12-10 浙江工业大学 一种基于深度强化学习的自动化停车场调度方法
CN111098852A (zh) * 2019-12-02 2020-05-05 北京交通大学 一种基于强化学习的泊车路径规划方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
EDUARDO BEJAR 等: "Reverse Parking a Car-Like Mobile Robot with Deep Reinforcement Learning and Preview Control", 《IEEE》 *
LIXINGJIAN 等: "Rebalancing the Car-Sharing System:A Reinforcement Learning Method", 《IEEE》 *
卢靓: "基于强化学习的自动化停车场调度方法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766591A (zh) * 2021-01-27 2021-05-07 同济大学 共享单车调度方法
CN112967516A (zh) * 2021-02-03 2021-06-15 芜湖泊啦图信息科技有限公司 快速停车场端关键参数与整车匹配全局动态路径规划方法
CN113033756A (zh) * 2021-03-25 2021-06-25 重庆大学 基于目标导向的聚集策略的多智能体控制方法
CN113033756B (zh) * 2021-03-25 2022-09-16 重庆大学 基于目标导向的聚集策略的多智能体控制方法
CN113326993A (zh) * 2021-04-20 2021-08-31 西南财经大学 一种基于深度强化学习的共享自行车调度方法
CN113326993B (zh) * 2021-04-20 2023-06-09 西南财经大学 一种基于深度强化学习的共享自行车调度方法
CN113554300A (zh) * 2021-07-19 2021-10-26 河海大学 一种基于深度强化学习的共享车位实时分配方法
CN115713130A (zh) * 2022-09-07 2023-02-24 华东交通大学 基于超参数网络权重分配深度强化学习的车辆调度方法
CN115713130B (zh) * 2022-09-07 2023-09-05 华东交通大学 基于超参数网络权重分配深度强化学习的车辆调度方法

Similar Documents

Publication Publication Date Title
CN112068515A (zh) 一种基于深度强化学习的全自动停车场调度方法
CN110136481B (zh) 一种基于深度强化学习的停车策略
CN108762268B (zh) 多agv无碰撞路径规划算法
Pisarov et al. Implementing New Mobility Concepts with Autonomous Self-Driving Robotic Cars
CN107203190A (zh) 一种基于复杂路径的惯性导航agv调度方法及系统
Naveed et al. Trajectory planning for autonomous vehicles using hierarchical reinforcement learning
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
JP7482985B2 (ja) 監督者による自律型駐車ロボット集団の管理方法
Siddique et al. Puzzle-based parking
CN105955252A (zh) 智能语音导游机器人及其路径寻优方法
Li et al. Task selection by autonomous mobile robots in a warehouse using deep reinforcement learning
CN113297783A (zh) 支持运输工具或机器人的机动动作规划的方法和设备
CN115469663A (zh) 面向自动驾驶的基于深度强化学习的端到端导航避障方法
Orzechowski et al. Decision-making for automated vehicles using a hierarchical behavior-based arbitration scheme
Spatharis et al. Multiagent reinforcement learning for autonomous driving in traffic zones with unsignalized intersections
Xie et al. A DRL based cooperative approach for parking space allocation in an automated valet parking system
CN111824182A (zh) 一种基于深度强化学习的三轴重型车自适应巡航控制算法
CN113064436B (zh) 一种agv系统中动态路径规划和去中心化避障方法
CN117109574A (zh) 一种农用运输机械覆盖路径规划方法
CN115092141B (zh) 应用于自动驾驶车辆变道超车的轨迹规划方法及设备
Kale et al. Intelligent Infrastructure Approach for Autonomous Parking Systems using V2I Communications
Xu et al. Multi-Vehicle Collaborative Trajectory Planning in Unstructured Conflict Areas Based on V-Hybrid A
CN110941277A (zh) 一种小车路线规划方法及系统
Elallid et al. Deep Reinforcement Learning for Autonomous Vehicle Intersection Navigation
CN110032190A (zh) 车辆控制方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20201211