CN113218400B - 一种基于深度强化学习的多智能体导航算法 - Google Patents

一种基于深度强化学习的多智能体导航算法 Download PDF

Info

Publication number
CN113218400B
CN113218400B CN202110533403.2A CN202110533403A CN113218400B CN 113218400 B CN113218400 B CN 113218400B CN 202110533403 A CN202110533403 A CN 202110533403A CN 113218400 B CN113218400 B CN 113218400B
Authority
CN
China
Prior art keywords
agent
algorithm
reward
time
speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110533403.2A
Other languages
English (en)
Other versions
CN113218400A (zh
Inventor
张春美
白维松
郭红戈
邵杨
郑康智
张京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiyuan University of Science and Technology
Original Assignee
Taiyuan University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiyuan University of Science and Technology filed Critical Taiyuan University of Science and Technology
Priority to CN202110533403.2A priority Critical patent/CN113218400B/zh
Publication of CN113218400A publication Critical patent/CN113218400A/zh
Application granted granted Critical
Publication of CN113218400B publication Critical patent/CN113218400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Automation & Control Theory (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明属于多智能体强化学习技术领域,具体技术方案为:一种基于深度强化学习的多智能体导航算法:一、建模:将智能体速度和角速度均进行限定,定义智能体当前时刻的速度信息、低维环境特征;二、重要性采样,确定最终目标函数;三、置入奖惩函数,通过奖惩函数指导智能体所选择行为好坏的评价标准;该算法将A*算法融合到PPO算法中,利用设计的奖惩函数实现两种算法的深度融合,智能体通过输入传感器原始图像数据,决策规划出最佳行动路径,到达目标点,本算法在不同场景中的成功率、耗时、距离和平均速度等方面均很优秀,并且通过改变场景、增加智能体数量等方式证明了该算法具有良好的迁移能力,通过迁移到更复杂的场景下满足不同的需求。

Description

一种基于深度强化学习的多智能体导航算法
技术领域
本发明属于多智能体强化学习技术领域,具体涉及一种基于深度强化学习的多智能体导航算法。
背景技术
随着科学技术的不断发展进步,多智能体在协同导航领域的应用范围越来越大。如在自动化分拣仓库中,通过多AGV调度与路径规划,不但可以使工作高效方便管理,而且可以节省人力节省成本。面对这种高强度重复性的工作,智能体可以利用它的优势,代替人类进行工作,而在多智能体系统中,每个智能体都是环境中的一部分,单个智能体相对于其他智能体既是协作伙伴,也是移动的障碍物,如何使多个智能体协同避障达到目标点成为当前需要解决的一个重要问题。当前的一些多智能体导航算法,随着智能体数量增加而造成更加凸显的维数灾难和更复杂的计算,且在成功率等方面并不理想。
发明内容
为解决现有技术存在的技术问题,本发明提供了一种多智能体导航算法,混合A*近端策略优化(A-Star Proximal Policy Optimization,ASPPO)算法,该算法将A*算法与近端策略优化(Proximal Policy Optimization,PPO)算法结合,使智能体解决端到端的未知环境下的导航问题。
为实现上述目的,本发明所采用的技术方案为:一种基于深度强化学习的多智能体导航算法:
一、建模
将智能体速度和角速度均进行限定,智能体当前时刻的速度信息vt定义为:
vt=f(ct,gt,vt-1) (1)
ct为环境信息,gt为目标信息,vt-1为上一时刻的速度;
将扫描仪得到的图像信息进行特征提取,通过卷积神经网络训练得到低维环境特征xt,xt定义为:
xt=g(ct) (2)
vt=f'(xt,gt,vt-1) (3)
二、重要性采样:
Figure BDA0003068331480000021
x~p时,
Figure BDA0003068331480000022
称为重要性权重,f(x)的数学期望看作
Figure BDA0003068331480000023
的数学期望,从p分布中采样数据变成从q分布中采样数据;
Ex~p[f(x)]代表从分布p中取样本x送入f(x)并求期望:
Varx~p[f(x)]=Ex~p[f(x)2]-(Ex~p[f(x)])2 (5)
Figure BDA0003068331480000024
目标函数为:
Figure BDA0003068331480000025
at为t时刻的动作,st为t时刻的状态,Aθ'为衡量在状态st下采取动作at回报的优势函数,θ'采集的样本输入到θ里面进行训练;
ASPPO期望奖励的最终目标函数为:
Figure BDA0003068331480000026
手动设置β值,KL为阈值;
三、加入奖惩函数
奖惩函数的具体定义为:
rt=rdecision+rcondition+rtime (9)
其中,
Figure BDA0003068331480000027
Figure BDA0003068331480000028
rtime<0 (12)
rt为总得分,rdecision为智能体主动选择算法得到的奖励分数,rcondition为碰撞分数,rtime为消耗时间扣除的分数,r0为选择A*算法得到的奖励分数,rnegative为智能体发生碰撞扣除的分数,rpositive为到达目标点得到的奖励分数。
奖惩函数是指导智能体所选择行为好坏的评价标准,代表智能体所使用策略的价值。奖惩函数设计的好坏会直接影响学习到的策略的优劣,本发明在ASPPO算法中设计了奖惩函数。
本发明解决了基于ASPPO算法的多智能体在未知环境下端到端导航问题,该算法将A*算法融合到PPO算法中,利用设计的奖惩函数实现两种算法的深度融合。智能体通过输入传感器原始图像数据,决策规划出最佳行动路径,到达目标点,并与MAPP-RL算法以及MRFQ算法在同样环境下进行对比,实验表明,本发明的ASPPO算法在不同场景中的成功率、耗时、距离和平均速度等方面均优于其他算法。并且通过改变场景、增加智能体数量和不改变算法参数等方式证明了该算法具有良好的迁移能力,可通过迁移到更复杂的场景下满足不同的需求。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合具体实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一种基于深度强化学习的多智能体导航算法,智能体通过接收环境信息和目标信息躲避障碍和避免彼此碰撞到达目标点,由于将智能体速度和角速度均限定在一定范围内,所以智能体当前时刻的速度信息vt可以用上一时刻的速度vt-1来表示,环境信息用ct表示,目标信息用gt表示,从而该任务可以定义为:
vt=f(ct,gt,vt-1) (1)
由于环境信息是由智能体通过激光扫描仪得到的三维RGB图像,涉及到巨大的维度问题,计算复杂,所以将扫描仪得到的图像信息进行特征提取,通过卷积神经网络(Convolutional Neural Networks,CNN)训练得到低维环境特征xt,从而该任务可以重新定义为:
xt=g(ct) (2)
vt=f'(xt,gt,vt-1) (3)
在该任务中,智能体通过传感器原始数据直接转化为决策行为,实现了多智能体无通信端到端的路径规划,该算法先用神经网络对输入特征进行提取,再使用强化学习寻找到达目标点的最佳无碰撞路线,无需知道环境信息与决策行为之间的具体映射关系,并降低了计算量。
具体算法:
策略梯度(Policy Gradient,PG)算法通过计算策略梯度估计,使用随机梯度上升算法,得到一个最优策略。近端策略优化(Proximal Policy Optimization,PPO)算法是一种新型的PG算法,PG算法对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的变化差异如果过大则不利于学习。ASPPO算法提出了新的目标函数可以在多个训练步骤实现小批量的更新,解决了PG算法中步长难以确定的问题。
ASPPO算法用πθ来表示参数为θ的学习策略,将总奖励的期望设为目标函数J(θ),ASPPO算法目标便是优化目标函数使得J(θ)取最大值。
传统的强化学习策略是on-policy的,即与环境交互的策略πθ和需要更新的策略πθ是同一个策略,当策略πθ更新后,之前采样得到的数据又要重新采样,这样采样效率低下,因此改进后出现另一个策略πθ'与环境发生交互,从而使πθ更新后,通过πθ'采样得到的数据可以又继续用于πθ,这样的策略称为off-policy策略。
重要性采样(Important Sampling):
Figure BDA0003068331480000041
即x~p时f(x)的数学期望可以看作x~q时
Figure BDA0003068331480000042
的数学期望,此时,从p分布中采样数据变成从q分布中采样数据只需要在后面乘一个权重
Figure BDA0003068331480000043
Figure BDA0003068331480000044
称为重要性权重(Important Weight)。
其中,Ex~p[f(x)]代表从分布p中取样本x送入f(x)并求期望。
Varx~p[f(x)]=Ex~p[f(x)2]-(Ex~p[f(x)])2 (5)
Figure BDA0003068331480000051
从公式4、5和6可以看出,虽然两者期望值一样,但是他们的方差却不同,两式的区别在于x~q时多了一项
Figure BDA0003068331480000052
所以在采样时必须保证p(x)和q(x)的分布相近,才能保证两者方差的差距不会太大。
目标函数为:
Figure BDA0003068331480000053
其中,at为t时刻的动作,st为t时刻的状态,Aθ'也叫优势函数,为衡量在状态st下采取动作at的回报。
上式便可实现将θ'采集的样本输入到θ里面进行训练,这样就可以更新很多次参数而只需采集一次样本。
KL散度(Kullback-Leibler Divergence)指p分布和q分布的相对熵,即使用不正确的q分布替代真实p分布时产生的额外代价。当且仅当两个分布一致时,KL散度才为0,否则总是大于0的。
ASPPO期望奖励的最终目标函数为:
Figure BDA0003068331480000054
其中,β和学习率类似需手动设置,KL为阈值,在实际中,我们会动态改变对θ和θ'分布差异的惩罚,如果KL散度值太大,我们增加这一部分惩罚,如果小到一定值,我们就减小这一部分的惩罚。
在ASPPO算法中,用KL散度来衡量πθ与πθ'的偏离程度,期望两者总是接近的。
奖惩函数:
奖惩函数是指导智能体所选择行为好坏的评价标准,代表智能体所使用策略的价值,奖惩函数设计的好坏会直接影响学习到的策略的优劣,本发明ASPPO算法中设计了奖惩函数:
rt=rdecision+rcondition+rtime (9)
其中,
Figure BDA0003068331480000061
Figure BDA0003068331480000062
rtime<0 (12)
其中,rt为总得分,rdecision为智能体主动选择算法得到的奖励分数,rcondition为碰撞分数,rtime为消耗时间扣除的分数,r0为选择A*算法得到的奖励分数,rnegative为智能体发生碰撞扣除的分数,rpositive为到达目标点得到的奖励分数。
在对环境的探索当中,当智能体距离目标点较近且周围环境较简单时,有一定概率选择使用A*算法较快搜索到目标点的最优路径,从而减少探索次数,此时,给智能体加一个正分数奖励rdecision,鼓励智能体在下次遇到相似情况下优先使用速度较快的A*算法。在多智能体路径规划中,智能体间彼此既合作又竞争,因此会发生彼此碰撞或者撞到障碍物,为了避免碰撞,当智能体发生碰撞时,给智能体减少一个比较大分数rnegative,对智能体进行惩罚,下次再遇到相似情况就会选择其他路径进行避让。同样,当智能体到达目标点时,给智能体增加一个比较大的分数rpositive,告诉智能体到达目标点是一个很重要的任务。由于需要寻找的路径为最优路径,浪费时间的绕路行为也是不被允许的,因此每一个时间步都会添加一个负分数惩罚rtime,耗费的时间越久,减少的分数越多,鼓励智能体以最短的时间到达目标点。
基于ASPPO算法的多智能体在未知环境下端到端导航问题,该算法将A*算法融合到PPO算法中,利用设计的奖惩函数实现两种算法的深度融合。所研究的智能体通过输入传感器原始图像数据,决策规划出最佳行动路径,到达目标点,并与MAPP-RL算法以及MRFQ算法在同样环境下进行对比,实验表明,本发明研究的ASPPO算法在不同场景中的成功率、耗时、距离和平均速度等方面均优于另外两种算法。并且通过改变场景、增加智能体数量和不改变算法参数等方式证明了该算法具有良好的迁移能力,可通过迁移到更复杂的场景下满足不同的需求。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包在本发明范围内。

Claims (1)

1.一种基于深度强化学习的多智能体导航算法,其特征在于:
一、建模
将智能体速度和角速度均进行限定,智能体当前时刻的速度信息vt定义为:
vt=f(ct,gt,vt-1) (1)
ct为环境信息,gt为目标信息,vt-1为上一时刻的速度;
将扫描仪得到的图像信息进行特征提取,通过卷积神经网络训练得到低维环境特征xt,xt定义为:
xt=g(ct) (2)
vt=f'(xt,gt,vt-1) (3)
二、重要性采样:
Figure FDA0003068331470000011
x~p时,
Figure FDA0003068331470000012
称为重要性权重,f(x)的数学期望看作
Figure FDA0003068331470000013
的数学期望,从p分布中采样数据变成从q分布中采样数据;
Ex~p[f(x)]代表从分布p中取样本x送入f(x)并求期望:
Varx~p[f(x)]=Ex~p[f(x)2]-(Ex~p[f(x)])2 (5)
Figure FDA0003068331470000014
目标函数为:
Figure FDA0003068331470000015
at为t时刻的动作,st为t时刻的状态,Aθ'为衡量在状态st下采取动作at回报的优势函数,θ'采集的样本输入到θ里面进行训练;
ASPPO期望奖励的最终目标函数为:
Figure FDA0003068331470000016
手动设置β值,KL为阈值;
三、加入奖惩函数
奖惩函数的具体定义为:
rt=rdecision+rcondition+rtime (9)
其中,
Figure FDA0003068331470000021
Figure FDA0003068331470000022
rtime<0 (12)
rt为总得分,rdecision为智能体主动选择算法得到的奖励分数,rcondition为碰撞分数,rtime为消耗时间扣除的分数,r0为选择A*算法得到的奖励分数,rnegative为智能体发生碰撞扣除的分数,rpositive为到达目标点得到的奖励分数。
CN202110533403.2A 2021-05-17 2021-05-17 一种基于深度强化学习的多智能体导航算法 Active CN113218400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110533403.2A CN113218400B (zh) 2021-05-17 2021-05-17 一种基于深度强化学习的多智能体导航算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110533403.2A CN113218400B (zh) 2021-05-17 2021-05-17 一种基于深度强化学习的多智能体导航算法

Publications (2)

Publication Number Publication Date
CN113218400A CN113218400A (zh) 2021-08-06
CN113218400B true CN113218400B (zh) 2022-04-19

Family

ID=77092276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110533403.2A Active CN113218400B (zh) 2021-05-17 2021-05-17 一种基于深度强化学习的多智能体导航算法

Country Status (1)

Country Link
CN (1) CN113218400B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114052795B (zh) * 2021-10-28 2023-11-07 南京航空航天大学 一种结合超声自主扫描的病灶成像及防误扎治疗系统
CN114596042A (zh) * 2022-05-10 2022-06-07 卡奥斯工业智能研究院(青岛)有限公司 一种货物运输的方法、装置、电子设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104776852A (zh) * 2015-03-10 2015-07-15 苏州天鸣信息科技有限公司 一种基于gsm数量获取导航路径所需时间的方法
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN107917715A (zh) * 2016-10-11 2018-04-17 北京嘀嘀无限科技发展有限公司 一种路线规划方法和装置
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN109540163A (zh) * 2018-11-20 2019-03-29 太原科技大学 一种基于差分进化和模糊控制相结合的避障路径规划算法
CN110991972A (zh) * 2019-12-14 2020-04-10 中国科学院深圳先进技术研究院 一种基于多智能体强化学习的货物运输系统
CN111142522A (zh) * 2019-12-25 2020-05-12 北京航空航天大学杭州创新研究院 一种分层强化学习的智能体控制方法
CN111145145A (zh) * 2019-12-10 2020-05-12 太原科技大学 一种基于MobileNets的图像表面缺陷检测方法
LU101606B1 (en) * 2019-04-11 2020-05-27 Univ Shandong Path planning method and system based on combination of safety evacuation signs and reinforcement learning
CN111780777A (zh) * 2020-07-13 2020-10-16 江苏中科智能制造研究院有限公司 一种基于改进a*算法和深度强化学习的无人车路径规划方法
CN112286203A (zh) * 2020-11-11 2021-01-29 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112325897A (zh) * 2020-11-19 2021-02-05 东北大学 基于启发式深度强化学习的路径规划方法
CN112700663A (zh) * 2020-12-23 2021-04-23 大连理工大学 基于深度强化学习策略的多智能体智能信号灯路网控制方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3360083B1 (en) * 2015-11-12 2023-10-25 DeepMind Technologies Limited Dueling deep neural networks
US11474529B2 (en) * 2018-09-20 2022-10-18 Imagry (Israel) Ltd. System and method for motion planning of an autonomous driving machine
CA3060914A1 (en) * 2018-11-05 2020-05-05 Royal Bank Of Canada Opponent modeling with asynchronous methods in deep rl

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104776852A (zh) * 2015-03-10 2015-07-15 苏州天鸣信息科技有限公司 一种基于gsm数量获取导航路径所需时间的方法
CN107917715A (zh) * 2016-10-11 2018-04-17 北京嘀嘀无限科技发展有限公司 一种路线规划方法和装置
CN106970615A (zh) * 2017-03-21 2017-07-21 西北工业大学 一种深度强化学习的实时在线路径规划方法
CN108600379A (zh) * 2018-04-28 2018-09-28 中国科学院软件研究所 一种基于深度确定性策略梯度的异构多智能体协同决策方法
CN109540163A (zh) * 2018-11-20 2019-03-29 太原科技大学 一种基于差分进化和模糊控制相结合的避障路径规划算法
LU101606B1 (en) * 2019-04-11 2020-05-27 Univ Shandong Path planning method and system based on combination of safety evacuation signs and reinforcement learning
CN111145145A (zh) * 2019-12-10 2020-05-12 太原科技大学 一种基于MobileNets的图像表面缺陷检测方法
CN110991972A (zh) * 2019-12-14 2020-04-10 中国科学院深圳先进技术研究院 一种基于多智能体强化学习的货物运输系统
CN111142522A (zh) * 2019-12-25 2020-05-12 北京航空航天大学杭州创新研究院 一种分层强化学习的智能体控制方法
CN111780777A (zh) * 2020-07-13 2020-10-16 江苏中科智能制造研究院有限公司 一种基于改进a*算法和深度强化学习的无人车路径规划方法
CN112286203A (zh) * 2020-11-11 2021-01-29 大连理工大学 一种基于蚁群算法的多智能体强化学习路径规划方法
CN112325897A (zh) * 2020-11-19 2021-02-05 东北大学 基于启发式深度强化学习的路径规划方法
CN112700663A (zh) * 2020-12-23 2021-04-23 大连理工大学 基于深度强化学习策略的多智能体智能信号灯路网控制方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
Federated Reinforcement Learning for Automatic Control in SDN-based IoT Environments;Hyun-Kyo Lim等;《2020 International Conference on Information and Communication Technology Convergence (ICTC)》;20201221;第1868-1873页 *
Leader-Follower Optimal Bipartite Consensus Control for Multi-agent systems with Time-delay Using Reinforcement Learning Method;Jing Zhang等;《2020 Chinese Automation Congress (CAC)》;20210129;第1587-1592页 *
Reinforcement Learning Based Outdoor Navigation System for Mobile Robots;Genci Capi等;《2020 IEEE 18th World Symposium on Applied Machine Intelligence and Informatics (SAMI)》;20200111;第219-224页 *
基于ADAMS的3P_Delta并联机器人的PPO运动仿真;郭江东等;《专题技术》;20190301;第40页 *
基于联合博弈的多Agent学习;黄付亮等;《计算机与数字工程》;20110620;第39卷(第6期);第21-24页 *
强化学习算法与应用综述;李茹杨等;《计算机系统应用》;20201215;第29卷(第12期);第13-25页 *
智能控制研究动态及展望;张春美等;《科技情报开发与经济》;20080115;第18卷(第2期);第121-123页 *

Also Published As

Publication number Publication date
CN113218400A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN112356830B (zh) 一种基于模型强化学习的智能泊车方法
CN113218400B (zh) 一种基于深度强化学习的多智能体导航算法
CN112799386B (zh) 基于人工势场与强化学习的机器人路径规划方法
CN114489059B (zh) 基于d3qn-per移动机器人路径规划方法
CN111260118B (zh) 一种基于量子粒子群优化策略的车联网交通流量预测方法
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN114815802A (zh) 一种基于改进蚁群算法的无人天车路径规划方法和系统
CN116804879B (zh) 一种改进蜣螂算法融合dwa算法的机器人路径规划框架方法
CN110883776A (zh) 一种快速搜索机制下改进dqn的机器人路径规划算法
CN112484732B (zh) 一种基于ib-abc算法的无人机飞行路径规划方法
CN114543831B (zh) 基于驾驶风格的路径规划方法、装置、设备及存储介质
CN116628448B (zh) 扩展目标中基于深度强化学习的传感器管理方法
CN116494247A (zh) 基于深度确定性策略梯度的机械臂路径规划方法及系统
CN117289691A (zh) 用于导航场景下强化学习的路径规划智能体的训练方法
CN113391633A (zh) 一种面向城市环境的移动机器人融合路径规划方法
CN115344046A (zh) 一种基于改进深度q网络算法的移动机器人路径规划
CN114077807A (zh) 基于语义环境图控制移动机器人的计算机实现方法和设备
CN114186112B (zh) 一种基于贝叶斯优化多重信息增益探索策略的机器人导航方法
Li et al. Predictive hierarchical reinforcement learning for path-efficient mapless navigation with moving target
CN111858817B (zh) 一种用于稀疏轨迹的BiLSTM-CRF路径推断方法
CN117032247B (zh) 海上救援搜索路径规划方法、装置及设备
CN118259669A (zh) 基于深度强化学习的自主移动机器人路径规划方法
CN110779526B (zh) 一种路径规划方法、装置及存储介质
CN115454061B (zh) 一种基于3d技术的机器人路径避障方法及系统
US20240246563A1 (en) Route deciding method, system and device, and medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant