CN112068515A - 一种基于深度强化学习的全自动停车场调度方法 - Google Patents
一种基于深度强化学习的全自动停车场调度方法 Download PDFInfo
- Publication number
- CN112068515A CN112068515A CN202010877257.0A CN202010877257A CN112068515A CN 112068515 A CN112068515 A CN 112068515A CN 202010877257 A CN202010877257 A CN 202010877257A CN 112068515 A CN112068515 A CN 112068515A
- Authority
- CN
- China
- Prior art keywords
- agent
- model
- parking lot
- network
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000002787 reinforcement Effects 0.000 title claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 22
- 230000006870 function Effects 0.000 claims abstract description 21
- 230000009471 action Effects 0.000 claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 claims 1
- 238000005457 optimization Methods 0.000 abstract description 3
- 239000003795 chemical substances by application Substances 0.000 description 63
- 230000006399 behavior Effects 0.000 description 5
- 230000006854 communication Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000032258 transport Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000013543 active substance Substances 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B19/00—Programme-control systems
- G05B19/02—Programme-control systems electric
- G05B19/418—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
- G05B19/41865—Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by job scheduling, process planning, material flow
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/09—Arrangements for giving variable traffic instructions
- G08G1/0962—Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
- G08G1/0968—Systems involving transmission of navigation instructions to the vehicle
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/14—Traffic control systems for road vehicles indicating individual free spaces in parking areas
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/16—Anti-collision systems
- G08G1/166—Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Manufacturing & Machinery (AREA)
- Quality & Reliability (AREA)
- Automation & Control Theory (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开一种基于深度强化学习的全自动停车场调度方法,将全自动停车场的调度问题视作多智能体协作下的全局最优协作问题。步骤包括:1.建立停车场环境的状态模型;2.建立智能体的模型,包括状态、动作和回报函数;3.初始化经验池;4.提出一种带全局模型的深度确定性策略梯度算法GDDPG(Global‑model based Deep Deterministic Policy Gradient),为每个智能体搭建网络模型并进行训练,直到模型精度达到预设阈值,得到多智能体协同路径规划的最优方案。本发明通过建立停车场的状态模型,形式化描述适用于全自动停车场的先验知识和约束;基于深度强化学习算法,训练GDDPG网络。二者结合,为每个智能体规划一条泊车路径,并满足全局最优化目标,实现了全自动停车场的智能性。
Description
技术领域
本发明涉及智能泊车技术领域,具体涉及一种基于深度强化学习的全自动停车场的调度方法。
背景技术
随着我国车辆的保有量不断增加,停车场所停放的车辆越来越多,对于车辆的停放需要更加智能化的管理,社会对全自动化无人停车场的需求应运而生,希望司机行驶至停车场入口后,由智能停车场将车运送至空闲车位;司机取车时,停车场将车运送至停车场司机所在出口。目前全自动停车场一般采用泊车机器人等自动化运送装置,将车辆从一位置转移至另一位置,实现自动化停车/取车。但在同一时间同一路线上大多只允许一辆车进行自动泊车,导致自动泊车的效率较低。如果多辆同时进行泊车的,在控制过程当中可能发送碰撞事故。因此如何高效而安全地解决自动泊车的调度问题,是目前全自动停车场需要首先解决的问题。
目前强化学习在机器人导航、智能交通等领域得到了广泛应用,可以将其应用到全自动停车场。多智能体协作系统有两种架构:集中式强化学习和分布式强化学习。集中式强化学习指由一个中央学习单元负责训练和学习,输入是所有智能体状态的拼接,输出是所有智能体的联合动作。这种方式中学习维数和计算量将随着智能体数量的增加而指数级增长,不适合大型停车场。分布式强化学习中,每个智能体独立进行训练,把其他智能体视为环境的一部分,而智能体之间的协作通过共享数据或者共享策略等通信手段来实现。这种方式中神经网络输入维度不会随着智能体数量增长而剧增,但是需要大量通信过程。
为此,本发明基于停车场的应用场景和特点,提出了一种带全局环境模型的分布式强化学习算法,既避免了维度增加,也不会增加智能体之间的通讯,同时在不增加训练复杂度的情况下,保证了智能体之间的信息共享和协作。
发明内容
本发明所要解决的技术问题是提供一种无人自动停车场的调度方法和系统,令一个泊车机器人定义为智能体(Agent),泊车行为定义为从车库入口到达空余车位的路径规划,提车行为定义为从当前车位到车库出口的路径规划,则全自动停车场内的调度方法转化为多智能体的协同导航问题。
为达到上述目的,本发明创造的技术方案是这样实现的:将自动无人停车场的调度问题视作多智能体协作下的全局最优协作问题。现假设系统环境中存在N个智能体,每个智能体到达一个目标车位时任务完成。则全局最优解定义为:1)为每个智能体输出一条路径,且所有路径不冲突; 2)每个智能体能够避开障碍物; 3)所有当前活动智能体到达目标点的距离总和尽可能的短。
为解决此最优化问题,本发明提出一种带全局环境模型的深度确定性策略梯度算法GDDPG(Global-model based Deep Deterministic Policy Gradient)。即加入环境空间模型,使得整个搜索空间减小,加快收敛速度,更快得到最优动作。该方法步骤如下:
步骤1:建立全自动停车场的环境模型。停车场的功能域包括出口、入口、车位、车道,以及特定功能区。对区域进行栅格化,其中,每个出口和入口占据一个栅格,每个车位一个栅格。车道按照车位大小划分为不同数量的栅格。白色栅格表示可行区域,黑色栅格表示障碍物。为了后面路径规划计算的简便性,从地图左上角栅格开始,依次对栅格进行编号。以N x ⅩN y 的地图为例,编号为i的栅格对应的行列坐标(x i ,y i )为:
其中%表示取余运算,/表示求商运算,⌈∙⌉为向上取整运算。
为避免智能体之间的碰撞问题,保证系统运行稳定性,假设如下:(1)每个栅格在同一时刻仅允许通过或容纳一个智能体;(2)车道中只允许单向行驶,避免相向碰撞;(3)智能体移动速度为固定匀速v,避免追击碰撞。(4)智能体设定优先级,编号越大的智能体,优先级较高,以避免交叉碰撞。
障碍物分为静止障碍物和动态障碍物,静态障碍物为车辆不可接近区域,例如墙壁或者柱体,以及已被占据的车位;动态障碍物为除本车之外的其他在场内活动车辆。在调度算法运行过程中,对每个智能体而言,其余智能体所占据的栅格作为障碍物添加到地图中,从而获得一张实时的动态电子地图,各智能体再根据这张地图进行动态路径规划,如此往复实现多机协同的路径规划。
步骤2:建立智能体的模型,包括状态、动作和回报函数。
(1)状态(State):
其中 为智能体i在时刻t的位置,即在栅格地图上的编号; 为智能体i的目标点位置,即分配的目标车位在栅格地图上的编号。为智能体i在时刻t的线速度,归一化为[0,1]区间;即智能体i在时刻t的角速度,归一化为[-1,1]范围内。
(2)动作(Action):
(3)回报函数(Reward)
智能体i在时刻t,状态X t 下,采取行为a t 的回报函数定义为:
其中第一行是到达奖励,表示时刻t智能体i与其目标点的距离,如果这个距离小于阈值D arrive ,则视为到达目标点;第二行是碰撞惩罚,智能体与障碍物的距离小于安全阈值D collsion ,则视为即将碰撞;第三行是引导智能体向目标点行驶,每个智能体i衡量在时刻t-1与自己目标点的距离 ,以及在时刻t与自己目标点的距离 。如果在时刻t与距离自己目标点更远了,则实施惩罚,否则给予奖励。d为奖励参数。
其中 为智能体i在时刻t在栅格地图上的编号,为目标点在栅格地图上的编号,(x i , y i )为对应的栅格地图中的行列坐标,(x j , y j )为 对应的栅格地图中的行列坐标,根据步骤一中公式计算可得。
步骤3:构建网络模型:
经验池用于存储训练样本,样本是(X t , A t , r t , X t ')的形式,其中 是当前状态,表示N个智能体的观测值;是N个智能体执行的行为,是相应的回报, X t ' 是执行动作后转移的新状态。
For t= 1 to T do
针对每个智能体i(i=1 to N)
获得回报函数r i ;
当前状态转为新状态X ';
将此状态(X,a, r, X ')存入经验池.
步骤5:初始化训练批次,精度阈值,开始训练。
通过最小化目标函数来更新网络参数,目标函数为:
通过最小化目标函数来更新网络参数,目标函数为:
步骤5.3 更新目标网络网络Q':
其中τ为目标网络软更新参数;
步骤5.4更新目标网络网络μ':
步骤6:模型收敛后,停止训练。
与现有技术相比,本申请提供的一种基于深度强化学习的全自动停车场调度方法的有益效果在于:1)通过建立停车场的状态模型,形式化描述适用于全自动停车场的先验知识和约束;基于深度强化学习算法,训练GDDPG网络。二者结合,生成全局最优协作,即为每个智能体规划一条连续无碰撞的泊车路径,并满足耗时最少等最优化目标,实现了全自动停车场的智能性。2)采用集中式训练,分布式执行的策略,在训练时采用集中式学习训练评估网络与策略网络,执行时只需通过当前智能体的状态,策略网络即可进行动作预测;不需要通过全局共享信息,或者多智能体通信才能输出下一步动作,减少了计算复杂性,使得该算法适用于大型全自动停车场中多智能体共同协作问题。3)利用离线训练策略,结合停车场全局模型,将其与强化学习网络相互结合,获取最优路径,更能满足不规则地形的停车场的复杂场景。
附图说明
图1为本发明实施例的方法架构图;
图2为本发明实施例的停车场平面图;
图3为本发明实施例的栅格地图;
图4为本发明实施例的策略网络架构图;
图5为本发明实施例的评估网络架构图。
具体实施方式
以下结合附图对本发明作进一步的详细描述。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明给公开的示例性实施方式。
图1为本发明实施例的方法架构图,将一个泊车机器人定义为智能体(Agent),泊车行为定义为从车库入口到达目标空余车位的路径规划,提车行为定义为从当前车位到车库出口的路径规划,则全自动停车场内的调度方法转化为多智能体的协同导航问题。
如图2所示,该全自动停车场共2个出入口,为不规则地形,分为若干区域,每个区域包括若干车位,区域之间由车道进行连接,车道为双向车道。
步骤1:建立全自动停车场的环境模型。如图3所示,该停车场的电子地图为栅格化地图,每个车位一个栅格,白色栅格表示空余车位。黑色栅格表示障碍物及被占用车位,障碍物分为静止障碍物和动态障碍物,静态障碍物为车辆不可接近区域,例如墙壁或者柱体;动态障碍物为被占据车位,随时可能更换为白色可行区域。灰色栅格表示车道。车道按照车位大小划分为不同数量的栅格,智能体在同一道路只能沿同一方向行驶,以避免对立智能体之间的迎面碰撞。从地图左上角栅格开始,依次对栅格进行编号。
步骤2:建立智能体的模型,包括状态、动作和回报函数。
步骤3:为每个智能体建立神经网络。
策略网络的结构如图4所示,具有一个输入层,两个隐藏层和一个输出层。网络输入为当前智能体i的状态,包括当前智能体位置、目标点位置、当前角速度和线速度。输入层和隐藏层均为全连接网络,具有64 个神经元,采用ReLU作为神经元的激活函数。输出层具有2个神经元,分别采用Tanh函数和Sigmoid函数,对应输出的角速度和线速度控制指令。
评估网络的结构如图5所示,具有一个输入层,两个隐藏层和一个输出层。网络输入为当前所有智能体的状态和动作,输出为对当前策略的Q值。
步骤4: 初始化状态空间X 0,设定智能体最大活动数量为10。
初始化经验池(Experience Replay Buffer),设定经验池最大值为10000,开始建立样本。
步骤5:训练智能体。
设定训练批次数量,设定每个训练批次回合最大步数=800,设定停止条件为智能体到达目标点;
设定折扣因子γ=0.95,目标网络软更新参数τ=0.01;
每一个训练批次中,根据策略网络输出的动作指令,计算其回报函数,并更新四个网络参数。
步骤6:训练结束时,各智能体状态-动作值函数时间差分值收敛于10-6数量级,智能体的动作选择趋于稳定,验证了GDDPG算法在全自动停车场调度问题中运用的有效性。
Claims (8)
1.一种基于深度强化学习的全自动停车场调度方法,称为带全局环境模型的深度确定性策略梯度算法GDDPG(Global-model based Deep Deterministic Policy Gradient),其特征在于:所述方法包括如下步骤:步骤1:建立全自动停车场的环境模型;步骤2:建立智能体的模型,包括状态、动作和回报函数;步骤3:为每个智能体搭建网络模型;步骤4:初始化经验池;步骤5:根据算法进行训练,直到模型精度达到预设阈值,得到多智能体协同路径规划的最优方案;步骤6:模型收敛后,停止训练。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010877257.0A CN112068515A (zh) | 2020-08-27 | 2020-08-27 | 一种基于深度强化学习的全自动停车场调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010877257.0A CN112068515A (zh) | 2020-08-27 | 2020-08-27 | 一种基于深度强化学习的全自动停车场调度方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112068515A true CN112068515A (zh) | 2020-12-11 |
Family
ID=73659495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010877257.0A Pending CN112068515A (zh) | 2020-08-27 | 2020-08-27 | 一种基于深度强化学习的全自动停车场调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112068515A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766591A (zh) * | 2021-01-27 | 2021-05-07 | 同济大学 | 共享单车调度方法 |
CN112967516A (zh) * | 2021-02-03 | 2021-06-15 | 芜湖泊啦图信息科技有限公司 | 快速停车场端关键参数与整车匹配全局动态路径规划方法 |
CN113033756A (zh) * | 2021-03-25 | 2021-06-25 | 重庆大学 | 基于目标导向的聚集策略的多智能体控制方法 |
CN113326993A (zh) * | 2021-04-20 | 2021-08-31 | 西南财经大学 | 一种基于深度强化学习的共享自行车调度方法 |
CN113554300A (zh) * | 2021-07-19 | 2021-10-26 | 河海大学 | 一种基于深度强化学习的共享车位实时分配方法 |
CN113936115A (zh) * | 2021-10-25 | 2022-01-14 | 北京大学 | 多智能体在物理空间中的成形方法 |
CN115713130A (zh) * | 2022-09-07 | 2023-02-24 | 华东交通大学 | 基于超参数网络权重分配深度强化学习的车辆调度方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109492763A (zh) * | 2018-09-17 | 2019-03-19 | 同济大学 | 一种基于强化学习网络训练的自动泊车方法 |
CN110027553A (zh) * | 2019-04-10 | 2019-07-19 | 湖南大学 | 一种基于深度强化学习的防碰撞控制方法 |
EP3567539A1 (en) * | 2018-05-09 | 2019-11-13 | Volvo Car Corporation | Method and system for orchestrating multi-party services using semi-cooperative nash equilibrium based on artificial intelligence, neural network models, reinforcement learning and finite-state automata |
CN110555584A (zh) * | 2019-07-17 | 2019-12-10 | 浙江工业大学 | 一种基于深度强化学习的自动化停车场调度方法 |
CN111098852A (zh) * | 2019-12-02 | 2020-05-05 | 北京交通大学 | 一种基于强化学习的泊车路径规划方法 |
-
2020
- 2020-08-27 CN CN202010877257.0A patent/CN112068515A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3567539A1 (en) * | 2018-05-09 | 2019-11-13 | Volvo Car Corporation | Method and system for orchestrating multi-party services using semi-cooperative nash equilibrium based on artificial intelligence, neural network models, reinforcement learning and finite-state automata |
CN109492763A (zh) * | 2018-09-17 | 2019-03-19 | 同济大学 | 一种基于强化学习网络训练的自动泊车方法 |
CN110027553A (zh) * | 2019-04-10 | 2019-07-19 | 湖南大学 | 一种基于深度强化学习的防碰撞控制方法 |
CN110555584A (zh) * | 2019-07-17 | 2019-12-10 | 浙江工业大学 | 一种基于深度强化学习的自动化停车场调度方法 |
CN111098852A (zh) * | 2019-12-02 | 2020-05-05 | 北京交通大学 | 一种基于强化学习的泊车路径规划方法 |
Non-Patent Citations (3)
Title |
---|
EDUARDO BEJAR 等: "Reverse Parking a Car-Like Mobile Robot with Deep Reinforcement Learning and Preview Control", 《IEEE》 * |
LIXINGJIAN 等: "Rebalancing the Car-Sharing System:A Reinforcement Learning Method", 《IEEE》 * |
卢靓: "基于强化学习的自动化停车场调度方法研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766591A (zh) * | 2021-01-27 | 2021-05-07 | 同济大学 | 共享单车调度方法 |
CN112967516A (zh) * | 2021-02-03 | 2021-06-15 | 芜湖泊啦图信息科技有限公司 | 快速停车场端关键参数与整车匹配全局动态路径规划方法 |
CN113033756A (zh) * | 2021-03-25 | 2021-06-25 | 重庆大学 | 基于目标导向的聚集策略的多智能体控制方法 |
CN113033756B (zh) * | 2021-03-25 | 2022-09-16 | 重庆大学 | 基于目标导向的聚集策略的多智能体控制方法 |
CN113326993A (zh) * | 2021-04-20 | 2021-08-31 | 西南财经大学 | 一种基于深度强化学习的共享自行车调度方法 |
CN113326993B (zh) * | 2021-04-20 | 2023-06-09 | 西南财经大学 | 一种基于深度强化学习的共享自行车调度方法 |
CN113554300A (zh) * | 2021-07-19 | 2021-10-26 | 河海大学 | 一种基于深度强化学习的共享车位实时分配方法 |
CN113936115A (zh) * | 2021-10-25 | 2022-01-14 | 北京大学 | 多智能体在物理空间中的成形方法 |
CN115713130A (zh) * | 2022-09-07 | 2023-02-24 | 华东交通大学 | 基于超参数网络权重分配深度强化学习的车辆调度方法 |
CN115713130B (zh) * | 2022-09-07 | 2023-09-05 | 华东交通大学 | 基于超参数网络权重分配深度强化学习的车辆调度方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112068515A (zh) | 一种基于深度强化学习的全自动停车场调度方法 | |
CN110136481B (zh) | 一种基于深度强化学习的停车策略 | |
Naveed et al. | Trajectory planning for autonomous vehicles using hierarchical reinforcement learning | |
Pisarov et al. | Implementing New Mobility Concepts with Autonomous Self-Driving Robotic Cars | |
CN107203190A (zh) | 一种基于复杂路径的惯性导航agv调度方法及系统 | |
CN112433525A (zh) | 基于模仿学习及深度强化学习的移动机器人导航方法 | |
CN111679660B (zh) | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 | |
JP7482985B2 (ja) | 監督者による自律型駐車ロボット集団の管理方法 | |
Li et al. | Task selection by autonomous mobile robots in a warehouse using deep reinforcement learning | |
Siddique et al. | Puzzle-based parking | |
Spatharis et al. | Multiagent reinforcement learning for autonomous driving in traffic zones with unsignalized intersections | |
CN111824182A (zh) | 一种基于深度强化学习的三轴重型车自适应巡航控制算法 | |
CN114254567A (zh) | 一种基于Muti-Agent与强化学习的机场融合仿真方法 | |
Xie et al. | A DRL based cooperative approach for parking space allocation in an automated valet parking system | |
CN115469663A (zh) | 面向自动驾驶的基于深度强化学习的端到端导航避障方法 | |
CN114326608A (zh) | 一种基于多智能体的agv群系统 | |
Hou et al. | Hybrid residual multiexpert reinforcement learning for spatial scheduling of high-density parking lots | |
CN113064436B (zh) | 一种agv系统中动态路径规划和去中心化避障方法 | |
CN112987713B (zh) | 自动驾驶设备的控制方法、装置及存储介质 | |
CN117371895A (zh) | 未知环境下多地面无人车路径规划方法、系统及介质 | |
CN117109574A (zh) | 一种农用运输机械覆盖路径规划方法 | |
Xu et al. | Multi-Vehicle Collaborative Trajectory Planning in Unstructured Conflict Areas Based on V-Hybrid A | |
US20220179434A1 (en) | A method for controlling vehicles repeating a cycle | |
Li | Task Assignment and Path Planning for Autonomous Mobile Robots in Stochastic Warehouse Systems | |
Chen et al. | Hierarchical Learning with Heuristic Guidance for Multi-task Assignment and Distributed Planning in Interactive Scenarios |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201211 |