CN113218400B - 一种基于深度强化学习的多智能体导航算法 - Google Patents
一种基于深度强化学习的多智能体导航算法 Download PDFInfo
- Publication number
- CN113218400B CN113218400B CN202110533403.2A CN202110533403A CN113218400B CN 113218400 B CN113218400 B CN 113218400B CN 202110533403 A CN202110533403 A CN 202110533403A CN 113218400 B CN113218400 B CN 113218400B
- Authority
- CN
- China
- Prior art keywords
- agent
- algorithm
- reward
- time
- speed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 10
- 230000006870 function Effects 0.000 claims abstract description 29
- 238000005070 sampling Methods 0.000 claims abstract description 14
- 230000009471 action Effects 0.000 claims abstract description 8
- 230000007613 environmental effect Effects 0.000 claims abstract description 4
- 238000009826 distribution Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000008901 benefit Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 abstract description 5
- 238000011156 evaluation Methods 0.000 abstract description 3
- 230000004927 fusion Effects 0.000 abstract description 3
- 230000005012 migration Effects 0.000 abstract description 3
- 238000013508 migration Methods 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000034 method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/20—Instruments for performing navigational calculations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
- G06Q10/047—Optimisation of routes or paths, e.g. travelling salesman problem
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Automation & Control Theory (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Feedback Control In General (AREA)
Abstract
本发明属于多智能体强化学习技术领域,具体技术方案为:一种基于深度强化学习的多智能体导航算法:一、建模:将智能体速度和角速度均进行限定,定义智能体当前时刻的速度信息、低维环境特征;二、重要性采样,确定最终目标函数;三、置入奖惩函数,通过奖惩函数指导智能体所选择行为好坏的评价标准;该算法将A*算法融合到PPO算法中,利用设计的奖惩函数实现两种算法的深度融合,智能体通过输入传感器原始图像数据,决策规划出最佳行动路径,到达目标点,本算法在不同场景中的成功率、耗时、距离和平均速度等方面均很优秀,并且通过改变场景、增加智能体数量等方式证明了该算法具有良好的迁移能力,通过迁移到更复杂的场景下满足不同的需求。
Description
技术领域
本发明属于多智能体强化学习技术领域,具体涉及一种基于深度强化学习的多智能体导航算法。
背景技术
随着科学技术的不断发展进步,多智能体在协同导航领域的应用范围越来越大。如在自动化分拣仓库中,通过多AGV调度与路径规划,不但可以使工作高效方便管理,而且可以节省人力节省成本。面对这种高强度重复性的工作,智能体可以利用它的优势,代替人类进行工作,而在多智能体系统中,每个智能体都是环境中的一部分,单个智能体相对于其他智能体既是协作伙伴,也是移动的障碍物,如何使多个智能体协同避障达到目标点成为当前需要解决的一个重要问题。当前的一些多智能体导航算法,随着智能体数量增加而造成更加凸显的维数灾难和更复杂的计算,且在成功率等方面并不理想。
发明内容
为解决现有技术存在的技术问题,本发明提供了一种多智能体导航算法,混合A*近端策略优化(A-Star Proximal Policy Optimization,ASPPO)算法,该算法将A*算法与近端策略优化(Proximal Policy Optimization,PPO)算法结合,使智能体解决端到端的未知环境下的导航问题。
为实现上述目的,本发明所采用的技术方案为:一种基于深度强化学习的多智能体导航算法:
一、建模
将智能体速度和角速度均进行限定,智能体当前时刻的速度信息vt定义为:
vt=f(ct,gt,vt-1) (1)
ct为环境信息,gt为目标信息,vt-1为上一时刻的速度;
将扫描仪得到的图像信息进行特征提取,通过卷积神经网络训练得到低维环境特征xt,xt定义为:
xt=g(ct) (2)
vt=f'(xt,gt,vt-1) (3)
二、重要性采样:
Ex~p[f(x)]代表从分布p中取样本x送入f(x)并求期望:
Varx~p[f(x)]=Ex~p[f(x)2]-(Ex~p[f(x)])2 (5)
目标函数为:
at为t时刻的动作,st为t时刻的状态,Aθ'为衡量在状态st下采取动作at回报的优势函数,θ'采集的样本输入到θ里面进行训练;
ASPPO期望奖励的最终目标函数为:
手动设置β值,KL为阈值;
三、加入奖惩函数
奖惩函数的具体定义为:
rt=rdecision+rcondition+rtime (9)
其中,
rtime<0 (12)
rt为总得分,rdecision为智能体主动选择算法得到的奖励分数,rcondition为碰撞分数,rtime为消耗时间扣除的分数,r0为选择A*算法得到的奖励分数,rnegative为智能体发生碰撞扣除的分数,rpositive为到达目标点得到的奖励分数。
奖惩函数是指导智能体所选择行为好坏的评价标准,代表智能体所使用策略的价值。奖惩函数设计的好坏会直接影响学习到的策略的优劣,本发明在ASPPO算法中设计了奖惩函数。
本发明解决了基于ASPPO算法的多智能体在未知环境下端到端导航问题,该算法将A*算法融合到PPO算法中,利用设计的奖惩函数实现两种算法的深度融合。智能体通过输入传感器原始图像数据,决策规划出最佳行动路径,到达目标点,并与MAPP-RL算法以及MRFQ算法在同样环境下进行对比,实验表明,本发明的ASPPO算法在不同场景中的成功率、耗时、距离和平均速度等方面均优于其他算法。并且通过改变场景、增加智能体数量和不改变算法参数等方式证明了该算法具有良好的迁移能力,可通过迁移到更复杂的场景下满足不同的需求。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合具体实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一种基于深度强化学习的多智能体导航算法,智能体通过接收环境信息和目标信息躲避障碍和避免彼此碰撞到达目标点,由于将智能体速度和角速度均限定在一定范围内,所以智能体当前时刻的速度信息vt可以用上一时刻的速度vt-1来表示,环境信息用ct表示,目标信息用gt表示,从而该任务可以定义为:
vt=f(ct,gt,vt-1) (1)
由于环境信息是由智能体通过激光扫描仪得到的三维RGB图像,涉及到巨大的维度问题,计算复杂,所以将扫描仪得到的图像信息进行特征提取,通过卷积神经网络(Convolutional Neural Networks,CNN)训练得到低维环境特征xt,从而该任务可以重新定义为:
xt=g(ct) (2)
vt=f'(xt,gt,vt-1) (3)
在该任务中,智能体通过传感器原始数据直接转化为决策行为,实现了多智能体无通信端到端的路径规划,该算法先用神经网络对输入特征进行提取,再使用强化学习寻找到达目标点的最佳无碰撞路线,无需知道环境信息与决策行为之间的具体映射关系,并降低了计算量。
具体算法:
策略梯度(Policy Gradient,PG)算法通过计算策略梯度估计,使用随机梯度上升算法,得到一个最优策略。近端策略优化(Proximal Policy Optimization,PPO)算法是一种新型的PG算法,PG算法对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的变化差异如果过大则不利于学习。ASPPO算法提出了新的目标函数可以在多个训练步骤实现小批量的更新,解决了PG算法中步长难以确定的问题。
ASPPO算法用πθ来表示参数为θ的学习策略,将总奖励的期望设为目标函数J(θ),ASPPO算法目标便是优化目标函数使得J(θ)取最大值。
传统的强化学习策略是on-policy的,即与环境交互的策略πθ和需要更新的策略πθ是同一个策略,当策略πθ更新后,之前采样得到的数据又要重新采样,这样采样效率低下,因此改进后出现另一个策略πθ'与环境发生交互,从而使πθ更新后,通过πθ'采样得到的数据可以又继续用于πθ,这样的策略称为off-policy策略。
重要性采样(Important Sampling):
其中,Ex~p[f(x)]代表从分布p中取样本x送入f(x)并求期望。
Varx~p[f(x)]=Ex~p[f(x)2]-(Ex~p[f(x)])2 (5)
目标函数为:
其中,at为t时刻的动作,st为t时刻的状态,Aθ'也叫优势函数,为衡量在状态st下采取动作at的回报。
上式便可实现将θ'采集的样本输入到θ里面进行训练,这样就可以更新很多次参数而只需采集一次样本。
KL散度(Kullback-Leibler Divergence)指p分布和q分布的相对熵,即使用不正确的q分布替代真实p分布时产生的额外代价。当且仅当两个分布一致时,KL散度才为0,否则总是大于0的。
ASPPO期望奖励的最终目标函数为:
其中,β和学习率类似需手动设置,KL为阈值,在实际中,我们会动态改变对θ和θ'分布差异的惩罚,如果KL散度值太大,我们增加这一部分惩罚,如果小到一定值,我们就减小这一部分的惩罚。
在ASPPO算法中,用KL散度来衡量πθ与πθ'的偏离程度,期望两者总是接近的。
奖惩函数:
奖惩函数是指导智能体所选择行为好坏的评价标准,代表智能体所使用策略的价值,奖惩函数设计的好坏会直接影响学习到的策略的优劣,本发明ASPPO算法中设计了奖惩函数:
rt=rdecision+rcondition+rtime (9)
其中,
rtime<0 (12)
其中,rt为总得分,rdecision为智能体主动选择算法得到的奖励分数,rcondition为碰撞分数,rtime为消耗时间扣除的分数,r0为选择A*算法得到的奖励分数,rnegative为智能体发生碰撞扣除的分数,rpositive为到达目标点得到的奖励分数。
在对环境的探索当中,当智能体距离目标点较近且周围环境较简单时,有一定概率选择使用A*算法较快搜索到目标点的最优路径,从而减少探索次数,此时,给智能体加一个正分数奖励rdecision,鼓励智能体在下次遇到相似情况下优先使用速度较快的A*算法。在多智能体路径规划中,智能体间彼此既合作又竞争,因此会发生彼此碰撞或者撞到障碍物,为了避免碰撞,当智能体发生碰撞时,给智能体减少一个比较大分数rnegative,对智能体进行惩罚,下次再遇到相似情况就会选择其他路径进行避让。同样,当智能体到达目标点时,给智能体增加一个比较大的分数rpositive,告诉智能体到达目标点是一个很重要的任务。由于需要寻找的路径为最优路径,浪费时间的绕路行为也是不被允许的,因此每一个时间步都会添加一个负分数惩罚rtime,耗费的时间越久,减少的分数越多,鼓励智能体以最短的时间到达目标点。
基于ASPPO算法的多智能体在未知环境下端到端导航问题,该算法将A*算法融合到PPO算法中,利用设计的奖惩函数实现两种算法的深度融合。所研究的智能体通过输入传感器原始图像数据,决策规划出最佳行动路径,到达目标点,并与MAPP-RL算法以及MRFQ算法在同样环境下进行对比,实验表明,本发明研究的ASPPO算法在不同场景中的成功率、耗时、距离和平均速度等方面均优于另外两种算法。并且通过改变场景、增加智能体数量和不改变算法参数等方式证明了该算法具有良好的迁移能力,可通过迁移到更复杂的场景下满足不同的需求。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包在本发明范围内。
Claims (1)
1.一种基于深度强化学习的多智能体导航算法,其特征在于:
一、建模
将智能体速度和角速度均进行限定,智能体当前时刻的速度信息vt定义为:
vt=f(ct,gt,vt-1) (1)
ct为环境信息,gt为目标信息,vt-1为上一时刻的速度;
将扫描仪得到的图像信息进行特征提取,通过卷积神经网络训练得到低维环境特征xt,xt定义为:
xt=g(ct) (2)
vt=f'(xt,gt,vt-1) (3)
二、重要性采样:
Ex~p[f(x)]代表从分布p中取样本x送入f(x)并求期望:
Varx~p[f(x)]=Ex~p[f(x)2]-(Ex~p[f(x)])2 (5)
目标函数为:
at为t时刻的动作,st为t时刻的状态,Aθ'为衡量在状态st下采取动作at回报的优势函数,θ'采集的样本输入到θ里面进行训练;
ASPPO期望奖励的最终目标函数为:
手动设置β值,KL为阈值;
三、加入奖惩函数
奖惩函数的具体定义为:
rt=rdecision+rcondition+rtime (9)
其中,
rtime<0 (12)
rt为总得分,rdecision为智能体主动选择算法得到的奖励分数,rcondition为碰撞分数,rtime为消耗时间扣除的分数,r0为选择A*算法得到的奖励分数,rnegative为智能体发生碰撞扣除的分数,rpositive为到达目标点得到的奖励分数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110533403.2A CN113218400B (zh) | 2021-05-17 | 2021-05-17 | 一种基于深度强化学习的多智能体导航算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110533403.2A CN113218400B (zh) | 2021-05-17 | 2021-05-17 | 一种基于深度强化学习的多智能体导航算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113218400A CN113218400A (zh) | 2021-08-06 |
CN113218400B true CN113218400B (zh) | 2022-04-19 |
Family
ID=77092276
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110533403.2A Active CN113218400B (zh) | 2021-05-17 | 2021-05-17 | 一种基于深度强化学习的多智能体导航算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113218400B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114052795B (zh) * | 2021-10-28 | 2023-11-07 | 南京航空航天大学 | 一种结合超声自主扫描的病灶成像及防误扎治疗系统 |
CN114596042A (zh) * | 2022-05-10 | 2022-06-07 | 卡奥斯工业智能研究院(青岛)有限公司 | 一种货物运输的方法、装置、电子设备及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104776852A (zh) * | 2015-03-10 | 2015-07-15 | 苏州天鸣信息科技有限公司 | 一种基于gsm数量获取导航路径所需时间的方法 |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN107917715A (zh) * | 2016-10-11 | 2018-04-17 | 北京嘀嘀无限科技发展有限公司 | 一种路线规划方法和装置 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN109540163A (zh) * | 2018-11-20 | 2019-03-29 | 太原科技大学 | 一种基于差分进化和模糊控制相结合的避障路径规划算法 |
CN110991972A (zh) * | 2019-12-14 | 2020-04-10 | 中国科学院深圳先进技术研究院 | 一种基于多智能体强化学习的货物运输系统 |
CN111142522A (zh) * | 2019-12-25 | 2020-05-12 | 北京航空航天大学杭州创新研究院 | 一种分层强化学习的智能体控制方法 |
CN111145145A (zh) * | 2019-12-10 | 2020-05-12 | 太原科技大学 | 一种基于MobileNets的图像表面缺陷检测方法 |
LU101606B1 (en) * | 2019-04-11 | 2020-05-27 | Univ Shandong | Path planning method and system based on combination of safety evacuation signs and reinforcement learning |
CN111780777A (zh) * | 2020-07-13 | 2020-10-16 | 江苏中科智能制造研究院有限公司 | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 |
CN112286203A (zh) * | 2020-11-11 | 2021-01-29 | 大连理工大学 | 一种基于蚁群算法的多智能体强化学习路径规划方法 |
CN112325897A (zh) * | 2020-11-19 | 2021-02-05 | 东北大学 | 基于启发式深度强化学习的路径规划方法 |
CN112700663A (zh) * | 2020-12-23 | 2021-04-23 | 大连理工大学 | 基于深度强化学习策略的多智能体智能信号灯路网控制方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3360083B1 (en) * | 2015-11-12 | 2023-10-25 | DeepMind Technologies Limited | Dueling deep neural networks |
US11474529B2 (en) * | 2018-09-20 | 2022-10-18 | Imagry (Israel) Ltd. | System and method for motion planning of an autonomous driving machine |
CA3060914A1 (en) * | 2018-11-05 | 2020-05-05 | Royal Bank Of Canada | Opponent modeling with asynchronous methods in deep rl |
-
2021
- 2021-05-17 CN CN202110533403.2A patent/CN113218400B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104776852A (zh) * | 2015-03-10 | 2015-07-15 | 苏州天鸣信息科技有限公司 | 一种基于gsm数量获取导航路径所需时间的方法 |
CN107917715A (zh) * | 2016-10-11 | 2018-04-17 | 北京嘀嘀无限科技发展有限公司 | 一种路线规划方法和装置 |
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN108600379A (zh) * | 2018-04-28 | 2018-09-28 | 中国科学院软件研究所 | 一种基于深度确定性策略梯度的异构多智能体协同决策方法 |
CN109540163A (zh) * | 2018-11-20 | 2019-03-29 | 太原科技大学 | 一种基于差分进化和模糊控制相结合的避障路径规划算法 |
LU101606B1 (en) * | 2019-04-11 | 2020-05-27 | Univ Shandong | Path planning method and system based on combination of safety evacuation signs and reinforcement learning |
CN111145145A (zh) * | 2019-12-10 | 2020-05-12 | 太原科技大学 | 一种基于MobileNets的图像表面缺陷检测方法 |
CN110991972A (zh) * | 2019-12-14 | 2020-04-10 | 中国科学院深圳先进技术研究院 | 一种基于多智能体强化学习的货物运输系统 |
CN111142522A (zh) * | 2019-12-25 | 2020-05-12 | 北京航空航天大学杭州创新研究院 | 一种分层强化学习的智能体控制方法 |
CN111780777A (zh) * | 2020-07-13 | 2020-10-16 | 江苏中科智能制造研究院有限公司 | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 |
CN112286203A (zh) * | 2020-11-11 | 2021-01-29 | 大连理工大学 | 一种基于蚁群算法的多智能体强化学习路径规划方法 |
CN112325897A (zh) * | 2020-11-19 | 2021-02-05 | 东北大学 | 基于启发式深度强化学习的路径规划方法 |
CN112700663A (zh) * | 2020-12-23 | 2021-04-23 | 大连理工大学 | 基于深度强化学习策略的多智能体智能信号灯路网控制方法 |
Non-Patent Citations (7)
Title |
---|
Federated Reinforcement Learning for Automatic Control in SDN-based IoT Environments;Hyun-Kyo Lim等;《2020 International Conference on Information and Communication Technology Convergence (ICTC)》;20201221;第1868-1873页 * |
Leader-Follower Optimal Bipartite Consensus Control for Multi-agent systems with Time-delay Using Reinforcement Learning Method;Jing Zhang等;《2020 Chinese Automation Congress (CAC)》;20210129;第1587-1592页 * |
Reinforcement Learning Based Outdoor Navigation System for Mobile Robots;Genci Capi等;《2020 IEEE 18th World Symposium on Applied Machine Intelligence and Informatics (SAMI)》;20200111;第219-224页 * |
基于ADAMS的3P_Delta并联机器人的PPO运动仿真;郭江东等;《专题技术》;20190301;第40页 * |
基于联合博弈的多Agent学习;黄付亮等;《计算机与数字工程》;20110620;第39卷(第6期);第21-24页 * |
强化学习算法与应用综述;李茹杨等;《计算机系统应用》;20201215;第29卷(第12期);第13-25页 * |
智能控制研究动态及展望;张春美等;《科技情报开发与经济》;20080115;第18卷(第2期);第121-123页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113218400A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112356830B (zh) | 一种基于模型强化学习的智能泊车方法 | |
CN113218400B (zh) | 一种基于深度强化学习的多智能体导航算法 | |
CN112799386B (zh) | 基于人工势场与强化学习的机器人路径规划方法 | |
CN114489059B (zh) | 基于d3qn-per移动机器人路径规划方法 | |
CN111260118B (zh) | 一种基于量子粒子群优化策略的车联网交通流量预测方法 | |
CN110442129B (zh) | 一种多智能体编队的控制方法和系统 | |
CN114815802A (zh) | 一种基于改进蚁群算法的无人天车路径规划方法和系统 | |
CN116804879B (zh) | 一种改进蜣螂算法融合dwa算法的机器人路径规划框架方法 | |
CN110883776A (zh) | 一种快速搜索机制下改进dqn的机器人路径规划算法 | |
CN112484732B (zh) | 一种基于ib-abc算法的无人机飞行路径规划方法 | |
CN114543831B (zh) | 基于驾驶风格的路径规划方法、装置、设备及存储介质 | |
CN116628448B (zh) | 扩展目标中基于深度强化学习的传感器管理方法 | |
CN116494247A (zh) | 基于深度确定性策略梯度的机械臂路径规划方法及系统 | |
CN117289691A (zh) | 用于导航场景下强化学习的路径规划智能体的训练方法 | |
CN113391633A (zh) | 一种面向城市环境的移动机器人融合路径规划方法 | |
CN115344046A (zh) | 一种基于改进深度q网络算法的移动机器人路径规划 | |
CN114077807A (zh) | 基于语义环境图控制移动机器人的计算机实现方法和设备 | |
CN114186112B (zh) | 一种基于贝叶斯优化多重信息增益探索策略的机器人导航方法 | |
Li et al. | Predictive hierarchical reinforcement learning for path-efficient mapless navigation with moving target | |
CN111858817B (zh) | 一种用于稀疏轨迹的BiLSTM-CRF路径推断方法 | |
CN117032247B (zh) | 海上救援搜索路径规划方法、装置及设备 | |
CN118259669A (zh) | 基于深度强化学习的自主移动机器人路径规划方法 | |
CN110779526B (zh) | 一种路径规划方法、装置及存储介质 | |
CN115454061B (zh) | 一种基于3d技术的机器人路径避障方法及系统 | |
US20240246563A1 (en) | Route deciding method, system and device, and medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |