CN112132263A - 一种基于强化学习的多智能体自主导航方法 - Google Patents

一种基于强化学习的多智能体自主导航方法 Download PDF

Info

Publication number
CN112132263A
CN112132263A CN202010950487.5A CN202010950487A CN112132263A CN 112132263 A CN112132263 A CN 112132263A CN 202010950487 A CN202010950487 A CN 202010950487A CN 112132263 A CN112132263 A CN 112132263A
Authority
CN
China
Prior art keywords
agent
network
representing
environment
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010950487.5A
Other languages
English (en)
Other versions
CN112132263B (zh
Inventor
刘婵娟
马原野
张强
魏小鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202010950487.5A priority Critical patent/CN112132263B/zh
Publication of CN112132263A publication Critical patent/CN112132263A/zh
Application granted granted Critical
Publication of CN112132263B publication Critical patent/CN112132263B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/20Instruments for performing navigational calculations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明提供了一种基于强化学习的多智能体自主导航方法,属于多智能体强化学习领域。本发明通过长短时记忆网络将环境历史状态编码为系统的隐状态特征向量,并将编码后的系统隐状态作为智能体的策略网络以及动作评价网络的输入,从而使得智能体的策略网络和动作评价网络都能基于环境全局的信息工作,使得智能体的策略更加鲁棒。

Description

一种基于强化学习的多智能体自主导航方法
技术领域
本发明属于多智能体强化学习领域,具体涉及一种对MADDPG算法改进的多智能体自主导航方法。
背景技术
智能体自主导航旨在让智能体像人一样具备安全高效的从起点移动到目标点、且不和其他障碍物发生碰撞的能力。该技术是移动机器人实现更多高级功能的基础,是人工智能领域研究的重点之一。传统的智能体导航算法主要基于采样路径搜索方法,通过在已知的地图空间进行路径规划完成导航。随着机器人应用场景的不断扩展,传统的智能体导航技术不能适应动态变化的场景,也无法在多智能体场景发挥作用,因此传统方法已经不能满足实际需要。
近年来人工智能技术快速发展,适用于序列决策问题的强化学习技术也在游戏AI和机器人控制领域取得瞩目成就。例如香港城市大学Tingxiang Fan等人,将多智能体系统中的智能体导航问题建模为深度强化学习模型,结合经典控制原理提出了去中心化的完全分布式多智能体避障导航算法,已经能够在人群密集的环境中实现良好的避障导航。香港科技大学的Lei Tai等人使用DDPG算法训练的智能体也已经可以在未知的地图中实现高效自主导航,并已经在实际场景实验成功;Google Brain的Aleksandra Faus等人提出了融合强化学习和概率路线图法的层次结构导航算法PRM-RL,该算法首先基于概率路线图方法进行静态地图路径规划,在规划出来的路径上采样若干个任务点,任务点和任务点之间由强化学习训练的避障导航算法驱动智能体运动,从而能够在地图范围比较大的场景比较出色的完成自主导航;类似的Google AI和新墨西哥大学合作的RL-RRT算法也采用相同的思路,快速扩展随机树方法负责规划路径,强化学习算法负责避障。
对于多智能体系统,可以将其他智能体都当做动态环境进行考虑,即对于当前智能体而言其他智能体都是会移动的障碍物,但是随着深度强化学习算法训练过程的进行,不同智能体的策略也在不断发生变化,会造成训练环境的不稳定,算法收敛速度慢甚至不收敛。近年来不少研究者尝试将博弈论领域的知识引入深度强化学习框架,比如OpenAI和加州大学伯克利分校合作提出的分散执行、集中训练的方法,在对智能体的状态进行评估的时候将矩阵博弈的状态空间用所有的智能体的观测以及状态代替;从而将不完全信息的博弈转换为了完全信息的博弈,降低了训练过程的不稳定性,在多智能体的合作或者竞争场景中都取得了不错的表现;同时英国牛津大学的团队也基于类似的思路提出了COMA算法,在星际争霸II的小规模战场环境也取得了很好的效果;Shihui Lid等人受对抗学习中在学习样本中增加噪声从而提高神经网络鲁棒性的启发,联合卡耐基梅隆大学、加州大学伯克利分校和清华大学合作,基于博弈论中的极大极小值原理将MADDPG进行改进提出了鲁棒性更强的M3DDPG,在多智能体对抗场景取得喜人成绩;Iqbal等人基于MADDPG算法引入注意力机制提出了MAAC算法,该算法首先通过注意力机制计算状态空间特征的相关性权重,之后使用该权重对状态特征进行加权,从而对状态特征进行了筛选,相较于MADDPG算法达到了更好的效果;清华大学的Jun Feng联合阿里巴巴的Heng Li等人,提出MA-RDPG算法,该算法通过一个LSTM编码的消息模块在多个智能体之间传递,从而改善了多智能体之间的协作,该算法成功应用于淘宝的商品排序推荐场景。
传统基于路径规划的导航技术不能适应环境的变化,不能很好地针对动态变化的环境做出合理的响应。越来越复杂的机器人应用场景,甚至多智能体系统等都对动态场景中智能体实现自主导航提出更多需求。近年来人工神经网络技术快速发展,以深度强化学习为代表的一系列方法在机器人方面取得显著进步,同时也为智能体自主导航问题提供了新思路。
发明内容
为了解决现有技术中的问题,本发明围绕智能体自主导航问题,利用深度强化学习技术提出一种改进的多智能体自主导航方法。
本发明的技术方案为:
一种基于强化学习的多智能体自主导航方法,该方法包括以下步骤:
步骤S1:初始化一个经验池,用以存储算法训练过程中产生的交互经验。所述的交互经验主要包括(s,A,r,s'),其中s表示当前时间步环境的状态,包含所有智能体通过传感器采集到的环境的观测;A表示智能体的联合动作;r表示智能体从环境中得到的及时奖励;s'表示下一时间步环境的状态。
步骤S2:针对每一个智能体初始化四个神经网络,所述四个神经网络为策略网络、目标策略网络、动作评价网络和目标动作评价网络。
步骤S3:将所有智能体从环境中采集到的信息传递给长短时间记忆网络进行编码,记编码后的特征向量为h,表示系统的隐状态。
步骤S4:将步骤S3中生成的h和智能体i(i表示第i个智能体,其中0<i≤n,n表示系统中智能体的数目)从环境中采集的信息oi传递给智能体i的策略网络,智能体i的策略网络输出智能体i的动作ai
步骤S5:智能体i执行步骤S4中策略网络输出的动作ai并和环境完成交互,并从环境中采集及时奖励
Figure BDA0002676696300000031
以及下一时刻的观测
Figure BDA0002676696300000032
所述及时奖励的计算方法如下:
Figure BDA0002676696300000033
其中,rg表示智能体趋近目标点的距离奖励,其计算方式如公式(2)所示;rc表示智能体发生碰撞时的惩罚值,其计算方式如公式(3)所示:
Figure BDA0002676696300000041
Figure BDA0002676696300000042
式(2)中,
Figure BDA0002676696300000043
表示第i个智能体在时间步t时的位置;gi表示第i个智能体的目标点的位置;R表示智能体的半径;ωg和rarrival都是常数,分别表示智能体趋近目标点时的奖励系数和到达目标点时的奖励。式(3)中,Bk表示环境中第k个障碍物的位置,rcollision表示智能体发生碰撞时的惩罚系数。
步骤S6:将智能体与环境交互产生的经验存进经验池中。
步骤S7:针对每一个智能体i,重复步骤S4-S6。
步骤S8:从经验池中随机采集一个批次的经验。
步骤S9:根据公式(4)计算动作评价网络的损失Loss:
Figure BDA0002676696300000044
Figure BDA0002676696300000045
其中,
Figure BDA0002676696300000046
表示系统隐状态为ht-1、所有智能体对环境的观测为ot时求误差的期望;ht-1表示t-1时刻系统的隐状态特征向量;ot表示t时刻系统中所有智能体的观测;ai表示智能体i的动作向量;yi表示智能体i的动作评价网络的目标值;
Figure BDA0002676696300000047
表示智能体i在时刻t时得到的及时奖励;γ是奖励折扣因子,γ∈[0,1],用以计算累计回报;表示未来的奖励对现在的影响,当γ=0时,完全不考虑未来可能得到的奖励,当γ≠0时按照一定的折扣得到未来可能得到的奖励;
Figure BDA0002676696300000048
表示时刻t+1时智能体i对环境的观测;
Figure BDA0002676696300000049
表示目标动作评价网络,πi′表示目标策略网络。
步骤S10:根据公式(6)计算策略网络的梯度:
Figure BDA0002676696300000051
式(6)中,θ表示神经网络的参数,
Figure BDA0002676696300000052
表示对参数求梯度;
Figure BDA0002676696300000053
表示策略梯度函数;
Figure BDA0002676696300000054
表示对动作a求梯度;πi表示智能体i的策略网络,
Figure BDA0002676696300000055
表示智能体i需要采取的动作。
步骤S11:根据公式(7)的方式分别更新策略网络和动作评价网络的参数:
θi′←τθi+(1-τ)θi′ (7)
式(7)中,θ表示神经网络的参数;θi′表示更新后的动作评价网络的参数;τ∈[0,1],表示神经网络参数的更新幅度,用于稳定训练过程中参数的变化。
步骤S12:针对每一个智能体i,重复步骤S9-S11。
本发明的有益效果:本发明通过长短时记忆网络将环境历史状态编码为系统的隐状态特征向量,并将编码后的系统隐状态作为智能体的策略网络以及动作评价网络的输入,从而使得智能体的策略网络和动作评价网络都能基于环境全局的信息工作,使得智能体的策略更加鲁棒。
附图说明
图1为本发明所述方法训练过程流程图。
图2为神经网络的参数更新流程图。
图3为本发明所述方法训练过程数据流向图。
图4为历史信息编码模块的结构图。
图5为策略网络的结构图。
图6为动作评价网络的结构图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
本发明训练流程图如图1所示,步骤描述如下:
第一步:初始化经验池,用于存储训练过程中智能体的学习经验。
第二步:针对每一个智能体初始化四个神经网络,所述四个神经网络为策略网络、目标策略网络、动作评价网络和目标动作评价网络。
第三步:智能体通过自身的传感器采集对环境状态的观测信息,主要采集智能体在环境中的位置和速度、以及智能体周围的障碍物距离自己的方位信息。
第四步:智能体将采集到的观测信息作为策略网络的输入,用于计算智能体当前应该采取的动作。
第五步:智能体在环境中执行第四步中策略网络输出的动作。
第六步:智能体采集新的观测以及环境对智能体的及时奖励。及时奖励的计算方法如公式(1),其中rg表示智能体趋近目标点的距离奖励,其计算方式如公式(2)所示;rc表示智能体发生碰撞时的惩罚值,其计算方式如公式(3)所示。
第七步:智能体将此次和环境的交互经验存进经验池中。
第八步:对策略网络和动作评价网络的参数进行更新。
第九步:如果训练过程没有完成,则重复第三步至第八步过程。
神经网络的参数更新流程如图2所示,具体步骤描述如下:
第1步:从经验池中随机抽样一个批次的交互经验,主要包括n条智能体与环境交互时产生的当前观测、当前所采取的动作、达到下一时刻的观测以及当前步所得到的及时奖励的序列。
第2步:根据公式(4)计算动作评价网络的损失,其中yi为公式(5)所表示的内容。
第3步:根据公式(6)计算策略网络的梯度。
第4步:根据公式(7)所表示的形式,用第二步和第三步中计算的梯度对神经网络的参数进行软更新。
第5步:如果没有训练没有完成,则重复第1步至第4步的过程。
本发明所述方法训练过程的数据流如图3所示,对于智能体i,策略网络以智能体i在时刻t时的观测以及系统隐状态作为输入,输出t时刻智能体应该执行的动作;动作评价网络以t时刻所有智能体的观测以及动作作为输入,输出t时刻策略网络输出动作的评价值。系统隐状态编码网络由长短时记忆网络构成,数据流程如图4所示,该网络以系统中所有智能体的观测和动作作为输入。每一个时间步都先收集所有智能体的状态,并由每个智能体自己的策略网络输出当前动作,后经由编码模块编码从而生成下一步计算所需的新的系统隐状态编码信息。
策略网络结构如图5所示,非输出层激活函数采用leaky_relu;由于策略网络输出的是智能体的动作,取值范围为[0,1]的动作采用sigmoid为激活函数,取值范围为[-1,1]的动作采用hardtanh为激活函数;最后将策略网络输出的动作合并为向量。动作评价网络的结构如图6所示,激活函数全部为leaky_relu。
以上所述仅为本发明的具体实施方式,本发明保护范围并不局限于此,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于强化学习的多智能体自主导航方法,其特征在于,该方法包括以下步骤:
步骤S1:初始化一个经验池,用以存储算法训练过程中产生的交互经验;所述的交互经验包括(s,A,r,s'),其中s表示当前时间步环境的状态,包含所有智能体通过传感器采集到的环境的观测;A表示智能体的联合动作;r表示智能体从环境中得到的及时奖励;s'表示下一时间步环境的状态;
步骤S2:针对每一个智能体初始化四个神经网络,所述四个神经网络为策略网络、目标策略网络、动作评价网络和目标动作评价网络;
步骤S3:将所有智能体从环境中采集到的信息传递给长短时间记忆网络进行编码,记编码后的特征向量为h,表示系统的隐状态;
步骤S4:将步骤S3中生成的h和智能体i从环境中采集的信息oi传递给智能体i的策略网络,智能体i的策略网络输出智能体i的动作ai;其中,0<i≤n,n表示系统中智能体的数目;
步骤S5:智能体i执行步骤S4中策略网络输出的动作ai并和环境完成交互,并从环境中采集及时奖励ri t以及下一时刻的观测
Figure FDA0002676696290000011
所述及时奖励的计算方法如下:
Figure FDA0002676696290000012
其中,rg表示智能体趋近目标点的距离奖励,其计算方式如公式(2)所示;rc表示智能体发生碰撞时的惩罚值,其计算方式如公式(3)所示:
Figure FDA0002676696290000013
Figure FDA0002676696290000014
式(2)中,
Figure FDA0002676696290000021
表示第i个智能体在时间步t时的位置;gi表示第i个智能体的目标点的位置;R表示智能体的半径;ωg和rarrival都是常数,分别表示智能体趋近目标点时的奖励系数和到达目标点时的奖励;式(3)中,Bk表示环境中第k个障碍物的位置,rcollision表示智能体发生碰撞时的惩罚系数;
步骤S6:将智能体与环境交互产生的经验存进经验池中;
步骤S7:针对每一个智能体i,重复步骤S4-S6;
步骤S8:从经验池中随机采集一个批次的经验;
步骤S9:根据公式(4)计算动作评价网络的损失Loss:
Figure FDA0002676696290000022
Figure FDA0002676696290000023
其中,
Figure FDA0002676696290000024
表示系统隐状态为ht-1、所有智能体对环境的观测为ot时求误差的期望;ht-1表示t-1时刻系统的隐状态特征向量;ot表示t时刻系统中所有智能体的观测;ai表示智能体i的动作向量;yi表示智能体i的动作评价网络的目标值;
Figure FDA0002676696290000025
表示智能体i在时刻t时得到的及时奖励;γ是奖励折扣因子,γ∈[0,1],用以计算累计回报;
Figure FDA0002676696290000026
表示时刻t+1时智能体i对环境的观测;
Figure FDA00026766962900000212
表示目标动作评价网络,πi′表示目标策略网络;
步骤S10:根据公式(6)计算策略网络的梯度:
Figure FDA0002676696290000027
式(6)中,θ表示神经网络的参数,
Figure FDA0002676696290000028
表示对参数求梯度;
Figure FDA0002676696290000029
表示策略梯度函数;
Figure FDA00026766962900000210
表示对动作a求梯度;πi表示智能体i的策略网络,
Figure FDA00026766962900000211
表示智能体i需要采取的动作;
步骤S11:根据公式(7)的方式分别更新策略网络和动作评价网络的参数:
θi′←τθi+(1-τ)θi′ (7)
式(7)中,θ表示神经网络的参数;θi′表示更新后的动作评价网络的参数;τ∈[0,1],表示神经网络参数的更新幅度,用于稳定训练过程中参数的变化;
步骤S12:针对每一个智能体i,重复步骤S9-S11。
CN202010950487.5A 2020-09-11 2020-09-11 一种基于强化学习的多智能体自主导航方法 Active CN112132263B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010950487.5A CN112132263B (zh) 2020-09-11 2020-09-11 一种基于强化学习的多智能体自主导航方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010950487.5A CN112132263B (zh) 2020-09-11 2020-09-11 一种基于强化学习的多智能体自主导航方法

Publications (2)

Publication Number Publication Date
CN112132263A true CN112132263A (zh) 2020-12-25
CN112132263B CN112132263B (zh) 2022-09-16

Family

ID=73845499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010950487.5A Active CN112132263B (zh) 2020-09-11 2020-09-11 一种基于强化学习的多智能体自主导航方法

Country Status (1)

Country Link
CN (1) CN112132263B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926729A (zh) * 2021-05-06 2021-06-08 中国科学院自动化研究所 人机对抗智能体策略制定方法
CN112947081A (zh) * 2021-02-05 2021-06-11 浙江大学 基于图像隐变量概率模型的分布式强化学习社交导航方法
CN113156979A (zh) * 2021-05-27 2021-07-23 浙江农林大学 基于改进的maddpg算法的护林员巡护路径规划方法和装置
CN113269297A (zh) * 2021-07-19 2021-08-17 东禾软件(江苏)有限责任公司 一种面向时间约束的多智能体的调度方法
CN113269329A (zh) * 2021-04-30 2021-08-17 北京控制工程研究所 一种多智能体分布式强化学习方法
CN113283597A (zh) * 2021-06-11 2021-08-20 浙江工业大学 一种基于信息瓶颈的深度强化学习模型鲁棒性增强方法
CN113313046A (zh) * 2021-06-11 2021-08-27 浙江工业大学 一种基于强化学习DQN算法的Deepfake检测方法
CN113313249A (zh) * 2021-05-08 2021-08-27 华南理工大学 一种基于强化学习系统实现的动态集成训练方法
CN113919485A (zh) * 2021-10-19 2022-01-11 西安交通大学 基于动态层级通信网络的多智能体强化学习方法及系统
CN116501086A (zh) * 2023-04-27 2023-07-28 天津大学 一种基于强化学习的飞行器自主规避决策方法
CN116713999A (zh) * 2023-08-07 2023-09-08 南京云创大数据科技股份有限公司 一种多机械臂多目标寻找的训练方法及训练装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109919319A (zh) * 2018-12-31 2019-06-21 中国科学院软件研究所 基于多个历史最佳q网络的深度强化学习方法及设备
CN110852448A (zh) * 2019-11-15 2020-02-28 中山大学 一种基于多智能体强化学习的合作型智能体的学习方法
CN111142522A (zh) * 2019-12-25 2020-05-12 北京航空航天大学杭州创新研究院 一种分层强化学习的智能体控制方法
CN111260027A (zh) * 2020-01-10 2020-06-09 电子科技大学 一种基于强化学习的智能体自动决策方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN109919319A (zh) * 2018-12-31 2019-06-21 中国科学院软件研究所 基于多个历史最佳q网络的深度强化学习方法及设备
CN110852448A (zh) * 2019-11-15 2020-02-28 中山大学 一种基于多智能体强化学习的合作型智能体的学习方法
CN111142522A (zh) * 2019-12-25 2020-05-12 北京航空航天大学杭州创新研究院 一种分层强化学习的智能体控制方法
CN111260027A (zh) * 2020-01-10 2020-06-09 电子科技大学 一种基于强化学习的智能体自动决策方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘强等: "基于深度强化学习的群体对抗策略研究", 《智能计算机与应用》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947081A (zh) * 2021-02-05 2021-06-11 浙江大学 基于图像隐变量概率模型的分布式强化学习社交导航方法
CN113269329A (zh) * 2021-04-30 2021-08-17 北京控制工程研究所 一种多智能体分布式强化学习方法
CN113269329B (zh) * 2021-04-30 2024-03-19 北京控制工程研究所 一种多智能体分布式强化学习方法
CN112926729B (zh) * 2021-05-06 2021-08-03 中国科学院自动化研究所 人机对抗智能体策略制定方法
CN112926729A (zh) * 2021-05-06 2021-06-08 中国科学院自动化研究所 人机对抗智能体策略制定方法
CN113313249B (zh) * 2021-05-08 2023-07-18 华南理工大学 一种基于强化学习系统实现的动态集成训练方法
CN113313249A (zh) * 2021-05-08 2021-08-27 华南理工大学 一种基于强化学习系统实现的动态集成训练方法
CN113156979A (zh) * 2021-05-27 2021-07-23 浙江农林大学 基于改进的maddpg算法的护林员巡护路径规划方法和装置
CN113156979B (zh) * 2021-05-27 2022-09-06 浙江农林大学 基于改进的maddpg算法的护林员巡护路径规划方法和装置
CN113283597A (zh) * 2021-06-11 2021-08-20 浙江工业大学 一种基于信息瓶颈的深度强化学习模型鲁棒性增强方法
CN113313046A (zh) * 2021-06-11 2021-08-27 浙江工业大学 一种基于强化学习DQN算法的Deepfake检测方法
CN113269297A (zh) * 2021-07-19 2021-08-17 东禾软件(江苏)有限责任公司 一种面向时间约束的多智能体的调度方法
CN113919485B (zh) * 2021-10-19 2024-03-15 西安交通大学 基于动态层级通信网络的多智能体强化学习方法及系统
CN113919485A (zh) * 2021-10-19 2022-01-11 西安交通大学 基于动态层级通信网络的多智能体强化学习方法及系统
CN116501086A (zh) * 2023-04-27 2023-07-28 天津大学 一种基于强化学习的飞行器自主规避决策方法
CN116501086B (zh) * 2023-04-27 2024-03-26 天津大学 一种基于强化学习的飞行器自主规避决策方法
CN116713999A (zh) * 2023-08-07 2023-09-08 南京云创大数据科技股份有限公司 一种多机械臂多目标寻找的训练方法及训练装置
CN116713999B (zh) * 2023-08-07 2023-10-20 南京云创大数据科技股份有限公司 一种多机械臂多目标寻找的训练方法及训练装置

Also Published As

Publication number Publication date
CN112132263B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN112132263B (zh) 一种基于强化学习的多智能体自主导航方法
CN113110592B (zh) 一种无人机避障与路径规划方法
CN109711529B (zh) 一种基于值迭代网络的跨领域联邦学习模型及方法
Xia et al. Neural inverse reinforcement learning in autonomous navigation
Xiaofei et al. Global path planning algorithm based on double DQN for multi-tasks amphibious unmanned surface vehicle
Ronecker et al. Deep Q-network based decision making for autonomous driving
Jiang et al. A brief survey: Deep reinforcement learning in mobile robot navigation
CN114839884B (zh) 一种基于深度强化学习的水下航行器底层控制方法及系统
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN116147627A (zh) 一种结合深度强化学习和内在动机的移动机器人自主导航方法
Yu et al. Hybrid attention-oriented experience replay for deep reinforcement learning and its application to a multi-robot cooperative hunting problem
CN114077258B (zh) 一种基于强化学习ppo2算法的无人艇位姿控制方法
Xin et al. DRL-based improvement for autonomous UAV motion path planning in unknown environments
Szőke et al. Driving on highway by using reinforcement learning with CNN and LSTM networks
CN114037048A (zh) 基于变分循环网络模型的信念一致多智能体强化学习方法
Wang et al. Autonomous target tracking of multi-UAV: A two-stage deep reinforcement learning approach with expert experience
CN115933712A (zh) 基于深度强化学习的仿生鱼领导者—跟随者编队控制方法
CN114396949B (zh) 一种基于ddpg的移动机器人无先验地图导航决策方法
CN116227622A (zh) 基于深度强化学习的多智能体地标覆盖方法及系统
CN116430891A (zh) 一种面向多智能体路径规划环境的深度强化学习方法
Huang et al. The USV path planning of Dueling DQN algorithm based on tree sampling mechanism
Tang et al. Reinforcement learning for robots path planning with rule-based shallow-trial
Zhang et al. Visual navigation of mobile robots in complex environments based on distributed deep reinforcement learning
CN114386620A (zh) 一种基于动作约束的离线多智能体强化学习方法
Han et al. Robot path planning in dynamic environments based on deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant