CN113741528A - 一种面向多无人机碰撞规避的深度强化学习训练加速方法 - Google Patents

一种面向多无人机碰撞规避的深度强化学习训练加速方法 Download PDF

Info

Publication number
CN113741528A
CN113741528A CN202111071287.3A CN202111071287A CN113741528A CN 113741528 A CN113741528 A CN 113741528A CN 202111071287 A CN202111071287 A CN 202111071287A CN 113741528 A CN113741528 A CN 113741528A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
reinforcement learning
training
deep reinforcement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111071287.3A
Other languages
English (en)
Other versions
CN113741528B (zh
Inventor
刘志宏
王祥科
王冠政
李�杰
相晓嘉
丛一睿
陈浩
周文宏
杨凌杰
胡新雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111071287.3A priority Critical patent/CN113741528B/zh
Publication of CN113741528A publication Critical patent/CN113741528A/zh
Application granted granted Critical
Publication of CN113741528B publication Critical patent/CN113741528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种面向多无人机碰撞规避的深度强化学习训练加速方法,其包括:步骤S1:基于马尔可夫决策过程对完全分布式的无人机集群避障问题进行形式化建模;步骤S2:构建深度神经网络构建观测输入‑动作输出的映射、网络更新方法;步骤S3:融合人类经验以加速训练。本发明具有原理简单、训练智能化程度高、可加速深度强化学习训练过程等优点。

Description

一种面向多无人机碰撞规避的深度强化学习训练加速方法
技术领域
本发明主要涉及到无人机技术领域,特指一种面向多无人机碰撞规避的深度强化学习训练加速方法。
背景技术
伴随着无人机应用领域的逐渐扩大,人们对于无人机自主执行任务的需求越来越高。自主定位、环境感知、路径规划和碰撞规避等是无人机自主执行任务的关键技术。与单无人机相比,多无人机能够携带更多的任务载荷、更大的探测范围以及执行各种任务等。
深度强化学习既具备深度学习对复杂高维数据的理解能力,又兼备强化学习通过试错机制进行自我学习的通用学习能力。但深度强化学习大多面临着采样率低,训练收敛难等问题。目前,针对这一问题的研究取得了一系列的进展,例如基于迁移学习的方法,基于分阶段学习的方法、基于人类指导的方法等。这些方法通过不同的训练机制来提高训练速度,但仍存在训练效率低,加速效果不明显,通用性不强等问题。
然而,上述现有的方法在通用性、自动化程度等方面仍存在很多难题,主要表现在:
(1)通用性不够强。目前在无人机自主避障中,较为常用的传感器为二位激光雷达和双目相机等。基于迁移学习的方法大多应用于视觉信息感知任务中,比如目标识别等,而对于激光雷达等传感器,已训练的网络模型和参数并不能直接迁移应用。
(2)自动化程度不高。深度强化学习很重要的一点优势是可以将传统方法中在线求解的问题,转移到大量的离线训练中。一般训练过程需要的时间较长,因此自动化的训练过程十分重要。分阶段的训练将某一任务分解成多个阶段的任务,依次进行训练,较为繁琐。而且,在分阶段的训练中,后续阶段的训练可能会导致先训阶段的策略遗忘。而现有的人类指导的训练,大多需要人作为教师参与训练过程,自动化程度低,需要消耗开发者大量的时间和精力。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种原理简单、训练智能化程度高、可加速深度强化学习训练过程的面向多无人机碰撞规避的深度强化学习训练加速方法。
为解决上述技术问题,本发明采用以下技术方案:
一种面向多无人机碰撞规避的深度强化学习训练加速方法,其包括:
步骤S1:基于马尔可夫决策过程对完全分布式的无人机集群避障问题进行形式化建模;
步骤S2:构建深度神经网络构建观测输入-动作输出的映射、网络更新方法;
步骤S3:融合人类经验以加速训练。
作为本发明的进一步改进:所述步骤S1中,进行形式化建模的流程包括:
将多无人机前往目标地点过程中的协同避障问题形式化为一个马尔可夫决策过程;所述马尔可夫决策过程用一个六元组来形式化描述,即
Figure BDA0003259318380000021
其中
Figure BDA0003259318380000022
指的是状态空间,
Figure BDA0003259318380000023
指的是动作空间,
Figure BDA0003259318380000024
指的是状态转移模型,
Figure BDA0003259318380000025
是回报函数,Ω是观测空间(o∈Ω),
Figure BDA0003259318380000026
是给出系统状态
Figure BDA0003259318380000027
的观测概率分布。
作为本发明的进一步改进:对于每架无人机来说,观测空间定义T时刻无人机的观测为ot,包含以下三个部分:二位激光测距仪的观测
Figure BDA0003259318380000028
无人机当前时刻相对于目标的位置
Figure BDA0003259318380000029
无人机当前的速度
Figure BDA00032593183800000210
无人机的动作空间就是其在连续空间内能够允许的速度集合,包括线速度和角速度两部分,即at=[vt,ωt];在无人机的真实飞行中对速度增加约束。
作为本发明的进一步改进:无人机的任务目标包括以下的一个或多个:
a.最小化无人机群到达目标的平均时间;
b.在前往目标过程中安全避障、避碰;
c.无人机的运动轨迹平滑。
作为本发明的进一步改进:构建深度强化学习的回报函数:
Figure BDA0003259318380000031
即无人机所获得的回报r包括gr,cr和ωr,其具体含义为:
a.由到目标位置的距离所决定的gr,当无人机到达目标点时给予奖励,若未到达目标点,则当离目标距离减小时给予奖励:
Figure BDA0003259318380000032
b.由是否碰撞决定的cr,当发生碰撞时,给予惩罚:
Figure BDA0003259318380000033
c.由轨迹是否平滑所决定的ωr,当角速度过大时,给予惩罚:
Figure BDA0003259318380000034
作为本发明的进一步改进:在步骤S2中,进行强化学习,采用近端策略优化算法作为基础,用于连续动作空间的场景。
作为本发明的进一步改进:所述近端策略优化算法的流程包括:
步骤S201:初始化策略参数;
步骤S202:循环迭代,在每次循环中执行:
a、使用策略θk来与环境交互并收集经验{ot,at,rt+1,ot+1},
b、计算优势函数
Figure BDA0003259318380000035
c、寻找使JPPO(θ)最优的参数θ:
Figure BDA0003259318380000036
Figure BDA0003259318380000037
d、如果KL(θ,θk)>KLmax,减小β,否则且KL(θ,θk)<KLmin,增加β。
作为本发明的进一步改进:所述在步骤S2中,包括设置网络架构,流程包括:观测空间到动作空间的映射由深度神经网络完成,其包含卷积层和全连接层;所述卷积层的用来对雷达数据进行预处理;在训练阶段,决策网络生成的动作会通过采样来增大智能体的探索空间。
作为本发明的进一步改进:在步骤S3中,采用基于HEBA的人类经验加速方法,包括将人类经验抽象成一个指导智能体动作的修正器,在训练过程中,对决策网络生成的动作进行修正。
作为本发明的进一步改进:所述步骤S3中包括集中式训练和分布式应用,使用HEBA来融合人类经验的基础。
与现有技术相比,本发明的优点就在于:
1、本发明的面向多无人机碰撞规避的深度强化学习训练加速方法,原理简单、操作简便,其可以通过端到端的训练来实现多无人机的碰撞感知规避。本发明所提出的基于HEBA(Human Experience Based Adviser)的人类经验加速方法是关键的创新点。通过对人类经验的抽象,本发明提出了注意力区域和注意力因子的概念,以及全新的训练流程,这可以大大加速训练过程,并得到更好的控制策略。
2、本发明的面向多无人机碰撞规避的深度强化学习训练加速方法,通过抽象人类经验,并将其融入到深度强化学习的训练过程中来加速多无人机碰撞规避策略的学习。深度强化学习具备深度学习对复杂高维数据的理解能力,而这也使得深度强化学习训练中的采样效率比较低。在碰撞规避这一问题上,本发明对人类经验进行了高度的抽象,以指导智能体的控制策略的学习。本发明在训练过程中,不需要人为参与,可以大大加速深度强化学习的训练过程,节约开发者的时间。
附图说明
图1是本发明方法的流程示意图。
图2是本发明在具体应用实例中决策网络架构的原理示意图。
图3是本发明在具体应用实例中基于HEBA的人类经验加速训练方法的示意图。
图4是本发明在具体应用实例中注意力区域示意图。
具体实施方式
以下将结合说明书附图和具体实施例对本发明做进一步详细说明。
如图1和图2所示,本发明的面向多无人机碰撞规避的深度强化学习训练加速方法,为基于人经验辅助的深度强化学习方法,其包括:
步骤S1:基于部分可观的马尔可夫决策过程对完全分布式的无人机集群避障问题进行形式化建模;
步骤S2:设计深度神经网络构建观测输入-动作输出的映射、网络更新算法;
步骤S3:设计融合人类经验以加速训练的方法。
在具体应用实例中,在步骤S1中,进行形式化建模的流程包括:
多无人机前往目标地点过程中的协同避障问题可以形式化为一个部分可观的马尔可夫决策过程(POMDP,Partially Observable Markov Decision Process)。
一般来说,部分可观的马尔可夫决策过程可以用一个六元组来形式化描述,即
Figure BDA0003259318380000051
其中
Figure BDA0003259318380000052
指的是状态空间,
Figure BDA0003259318380000053
指的是动作空间,
Figure BDA0003259318380000054
指的是状态转移模型,
Figure BDA0003259318380000055
是回报函数,Ω是观测空间(o∈Ω),
Figure BDA0003259318380000056
是给出系统状态
Figure BDA0003259318380000057
的观测概率分布。
在本发明中,二维激光雷达是感知环境的核心传感器。对于每架无人机来说,观测空间除激光雷达观测的数据外,本发明还需要其他的一些观测量,定义t时刻无人机的观测为ot,主要包含以下三个部分:
a.二位激光测距仪的观测
Figure BDA0003259318380000058
b.无人机当前时刻相对于目标的位置
Figure BDA0003259318380000059
c.无人机当前的速度
Figure BDA00032593183800000510
无人机的动作空间就是其在连续空间内能够允许的速度集合,主要包括线速度和角速度两部分,即at=[vt,ωt]。在无人机的真实飞行中,还需要对速度增加一定的约束,比如:v∈[0.0,1.0],ω∈[-1.0,1.0]等。
本发明中无人机的任务目标主要是:
a.最小化无人机群到达目标的平均时间;
b.在前往目标过程中安全避障、避碰;
c.无人机的运动轨迹尽可能平滑。
为实现上述目标,本发明将深度强化学习的回报函数设计为:
Figure BDA0003259318380000061
即无人机所获得的回报r由四部分构成,分别为gr,cr和ωr,其具体含义为:
a.由到目标位置的距离所决定的gr,当无人机到达目标点时给予奖励,若未到达目标点,则当离目标距离减小时给予奖励:
Figure BDA0003259318380000062
b.由是否碰撞决定的cr,当发生碰撞(包括无人机间和与环境障碍物)时,给予惩罚:
Figure BDA0003259318380000063
c.由轨迹是否平滑所决定的ωr,当角速度过大时,给予惩罚:
Figure BDA0003259318380000064
在具体应用实例中,在步骤S2中,强化学习算法的流程包括:
强化学习可以按照学习策略划分为基于值和基于策略的两大类,本发明选择近端策略优化算法(PP0,Proximal Policy Optimization)作为项目算法设计的基础,其属于基于策略的强化学习方法,适用于连续动作空间的场景。
PPO算法是一种新型的Policy Gradient(策略梯度)算法,Policy Gradient算法对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的变化差异如果过大则不利于学习。
为此,PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了Policy Gradient算法中步长难以确定的问题,其主要流程如下:
步骤S201:初始化策略参数;
步骤S202:循环迭代,在每次循环中执行:
a、使用策略(θk)来与环境交互并收集经验{ot,at,rt+1ot+1},
b、计算优势函数
Figure BDA0003259318380000071
c、寻找使JPPO(θ)最优的参数θ:
Figure BDA0003259318380000072
Figure BDA0003259318380000073
d、如果KL(θ,θk)>KLmax,减小β,否则且KL(θ,θk)<KLmin,增加β。
在具体应用实例中,在步骤S2中,设置网络架构的流程包括:
在本发明中,观测空间到动作空间的映射由深度神经网络完成,其主要包含卷积层和全连接层。卷积层的主要作用是对雷达数据进行预处理。在训练阶段,决策网络生成的动作会通过采样来增大智能体的探索空间。
在具体应用实例中,在步骤S3中,基于HEBA(Human Experience Based Adviser)的人类经验加速方法包括:采样效率低是阻碍深度强化学习应用的一个重要问题,其不仅表现训练时间长,甚至还会导致无法收敛到较好的控制策略。在本发明中,提出了一种基于HEBA的人类经验加速方法。HEBA将人类经验抽象成一个指导智能体动作的修正器,在训练过程中,能够对决策网络生成的动作进行修正,从而提高训练过程中的采样效率,训练流程如图3所示。
在复杂的路况环境中,人们往往会降低车速以更加安全的驾驶。基于此,本发明提出了注意力区域(Attention Region,AR)和注意力因子(Attention Factor,AF)的概念。如图4所示,无人机外270°的扇形指的是二位激光雷达的扫描范围,dl指的是雷达最大测量距离,de指的是无人机之间的安全距离,Head指的是无人机的机头方向。无人机机头方向的180°半圆阴影区域即为该无人机的注意力区域。注意力区域内的其他无人机是当前无人机需要进行碰撞规避的。
意力因子是用来刻画注意力区域内交通拥挤状况的,定义如下:
Figure BDA0003259318380000081
HEBA描述为:
vx=fa×vx,if vx>fa×vmax (8)
在本发明中,集中式训练和分布式应用(Centralized Training withDecentralized Execution,CTDE)的应用是使用HEBA来融合人类经验的基础。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (10)

1.一种面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,包括:
步骤S1:基于马尔可夫决策过程对完全分布式的无人机集群避障问题进行形式化建模;
步骤S2:构建深度神经网络构建观测输入-动作输出的映射、网络更新方法;
步骤S3:融合人类经验以加速训练。
2.根据权利要求1所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,所述步骤S1中,进行形式化建模的流程包括:
将多无人机前往目标地点过程中的协同避障问题形式化为一个马尔可夫决策过程;所述马尔可夫决策过程用一个六元组来形式化描述,即
Figure FDA0003259318370000011
其中
Figure FDA0003259318370000012
指的是状态空间,
Figure FDA0003259318370000013
指的是动作空间,
Figure FDA0003259318370000014
指的是状态转移模型,
Figure FDA0003259318370000015
是回报函数,Ω是观测空间(o∈Ω),
Figure FDA0003259318370000016
是给出系统状态
Figure FDA0003259318370000017
的观测概率分布。
3.根据权利要求2所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,对于每架无人机来说,观测空间定义t时刻无人机的观测为ot,包含以下三个部分:二位激光测距仪的观测
Figure FDA0003259318370000018
无人机当前时刻相对于目标的位置
Figure FDA0003259318370000019
无人机当前的速度
Figure FDA00032593183700000110
无人机的动作空间就是其在连续空间内能够允许的速度集合,包括线速度和角速度两部分,即at=[vt,ωt];在无人机的真实飞行中对速度增加约束。
4.根据权利要求1-3中任意一项所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,无人机的任务目标包括以下的一个或多个:
a.最小化无人机群到达目标的平均时间;
b.在前往目标过程中安全避障、避碰;
c.无人机的运动轨迹平滑。
5.根据权利要求4所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,构建深度强化学习的回报函数:
Figure FDA0003259318370000021
即无人机所获得的回报r包括gr,cr和ω,其具体含义为:
a.由到目标位置的距离所决定的gr,当无人机到达目标点时给予奖励,若未到达目标点,则当离目标距离减小时给予奖励:
Figure FDA0003259318370000022
b.由是否碰撞决定的cr,当发生碰撞时,给予惩罚:
Figure FDA0003259318370000023
c.由轨迹是否平滑所决定的ωr,当角速度过大时,给予惩罚:
Figure FDA0003259318370000024
6.根据权利要求1-3中任意一项所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,在步骤S2中,进行强化学习,采用近端策略优化算法作为基础,用于连续动作空间的场景。
7.根据权利要求6所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,所述近端策略优化算法的流程包括:
步骤S201:初始化策略参数;
步骤S202:循环迭代,在每次循环中执行:
a、使用策略θk来与环境交互并收集经验{ot,at,rt+1,ot+1},
b、计算优势函数
Figure FDA0003259318370000025
c、寻找使JPPO(θ)最优的参数θ:
Figure FDA0003259318370000026
Figure FDA0003259318370000027
d、如果KL(θ,θk)>KLmax,减小β,否则且KL(θ,θk)<KLmin,增加β。
8.根据权利要求6所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,所述在步骤S2中,包括设置网络架构,流程包括:观测空间到动作空间的映射由深度神经网络完成,其包含卷积层和全连接层;所述卷积层的用来对雷达数据进行预处理;在训练阶段,决策网络生成的动作会通过采样来增大智能体的探索空间。
9.根据权利要求1-3中任意一项所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,在步骤S3中,采用基于HEBA的人类经验加速方法,包括将人类经验抽象成一个指导智能体动作的修正器,在训练过程中,对决策网络生成的动作进行修正。
10.根据权利要求9所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,所述步骤S3中包括集中式训练和分布式应用,使用HEBA来融合人类经验的基础。
CN202111071287.3A 2021-09-13 2021-09-13 一种面向多无人机碰撞规避的深度强化学习训练加速方法 Active CN113741528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111071287.3A CN113741528B (zh) 2021-09-13 2021-09-13 一种面向多无人机碰撞规避的深度强化学习训练加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111071287.3A CN113741528B (zh) 2021-09-13 2021-09-13 一种面向多无人机碰撞规避的深度强化学习训练加速方法

Publications (2)

Publication Number Publication Date
CN113741528A true CN113741528A (zh) 2021-12-03
CN113741528B CN113741528B (zh) 2023-05-23

Family

ID=78738377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111071287.3A Active CN113741528B (zh) 2021-09-13 2021-09-13 一种面向多无人机碰撞规避的深度强化学习训练加速方法

Country Status (1)

Country Link
CN (1) CN113741528B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114428517A (zh) * 2022-01-26 2022-05-03 海南大学 一种无人机无人艇协同平台端对端自主降落控制方法
CN114722946A (zh) * 2022-04-12 2022-07-08 中国人民解放军国防科技大学 基于概率模型检测的无人机异步行动与协同策略合成方法
CN115860107A (zh) * 2023-01-30 2023-03-28 武汉大学 一种基于多智能体深度强化学习的多机探寻方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270664A1 (en) * 2016-03-21 2017-09-21 The Board Of Trustees Of The Leland Stanford Junior University Methods for characterizing features of interest in digital images and systems for practicing same
CN109635926A (zh) * 2018-11-30 2019-04-16 深圳市商汤科技有限公司 用于神经网络的注意力特征获取方法、装置及存储介质
CN110659796A (zh) * 2019-08-08 2020-01-07 北京理工大学 一种可充电群车智能中的数据采集方法
US20200103243A1 (en) * 2018-09-30 2020-04-02 Strong Force Intellectual Capital, Llc Intelligent transportation systems
US20210019642A1 (en) * 2019-07-17 2021-01-21 Wingman AI Agents Limited System for voice communication with ai agents in an environment
WO2021082864A1 (zh) * 2019-10-30 2021-05-06 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法
CN112966591A (zh) * 2021-03-03 2021-06-15 河北工业职业技术学院 面向机械臂抓取任务的知识图谱深度强化学习迁移系统
CN113033249A (zh) * 2019-12-09 2021-06-25 中兴通讯股份有限公司 文字识别方法、装置、终端及其计算机存储介质
CN113110592A (zh) * 2021-04-23 2021-07-13 南京大学 一种无人机避障与路径规划方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270664A1 (en) * 2016-03-21 2017-09-21 The Board Of Trustees Of The Leland Stanford Junior University Methods for characterizing features of interest in digital images and systems for practicing same
US20200103243A1 (en) * 2018-09-30 2020-04-02 Strong Force Intellectual Capital, Llc Intelligent transportation systems
CN109635926A (zh) * 2018-11-30 2019-04-16 深圳市商汤科技有限公司 用于神经网络的注意力特征获取方法、装置及存储介质
US20210019642A1 (en) * 2019-07-17 2021-01-21 Wingman AI Agents Limited System for voice communication with ai agents in an environment
CN110659796A (zh) * 2019-08-08 2020-01-07 北京理工大学 一种可充电群车智能中的数据采集方法
WO2021082864A1 (zh) * 2019-10-30 2021-05-06 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法
CN113033249A (zh) * 2019-12-09 2021-06-25 中兴通讯股份有限公司 文字识别方法、装置、终端及其计算机存储介质
CN112966591A (zh) * 2021-03-03 2021-06-15 河北工业职业技术学院 面向机械臂抓取任务的知识图谱深度强化学习迁移系统
CN113110592A (zh) * 2021-04-23 2021-07-13 南京大学 一种无人机避障与路径规划方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BRENNA D. ARGALL; BRETT BROWNING; MANUELA VELOSO: "Learning robot motion control with demonstration and advice-operators", 《2008 IEEE/RSJ INTERNATIONAL CONFERENCE ON INTELLIGENT ROBOTS AND SYSTEMS》 *
RONGLEI XIE; ZHIJUN MENG; LIFENG WANG; HAOCHEN LI; KAIPENG WANG: "Unmanned Aerial Vehicle Path Planning Algorithm Based on Deep Reinforcement Learning in Large-Scale and Dynamic Environments", 《IEEE ACCESS》 *
姜阳: "多旋翼无人机集群拓扑保持与协同避障算法设计与验证", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *
纪鹏: "移动侦测机器人的人机交互与局部自主关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114428517A (zh) * 2022-01-26 2022-05-03 海南大学 一种无人机无人艇协同平台端对端自主降落控制方法
CN114722946A (zh) * 2022-04-12 2022-07-08 中国人民解放军国防科技大学 基于概率模型检测的无人机异步行动与协同策略合成方法
CN114722946B (zh) * 2022-04-12 2022-12-20 中国人民解放军国防科技大学 基于概率模型检测的无人机异步行动与协同策略合成方法
CN115860107A (zh) * 2023-01-30 2023-03-28 武汉大学 一种基于多智能体深度强化学习的多机探寻方法及系统

Also Published As

Publication number Publication date
CN113741528B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN113741528A (zh) 一种面向多无人机碰撞规避的深度强化学习训练加速方法
CN113485380B (zh) 一种基于强化学习的agv路径规划方法及系统
Chen et al. Human-in-the-loop consensus tracking control for UAV systems via an improved prescribed performance approach
CN109871032B (zh) 一种基于模型预测控制的多无人机编队协同控制方法
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN112162564A (zh) 基于模仿学习和强化学习算法的无人机飞行控制方法
CN109976164B (zh) 一种多旋翼无人机能量优化视觉覆盖轨迹规划方法
CN113268081B (zh) 一种基于强化学习的小型无人机防控指挥决策方法及系统
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN116242364A (zh) 一种基于深度强化学习的多无人机智能导航方法
CN112631134A (zh) 一种基于模糊神经网络的智能小车避障方法
Chen et al. A review of autonomous obstacle avoidance technology for multi-rotor UAVs
CN115494849A (zh) 一种自动驾驶车辆导航控制方法及系统
Xi et al. MPC based motion control of car-like vehicle swarms
Li et al. UAV obstacle avoidance by human-in-the-loop reinforcement in arbitrary 3D environment
Abbas et al. Autonomous canal following by a micro-aerial vehicle using deep cnn
CN116385909A (zh) 一种基于深度强化学习的无人机目标跟踪方法
Kang et al. Fuzzy logic based behavior fusion for multi-AUV formation keeping in uncertain ocean environment
CN113848982A (zh) 一种四旋翼无人机栖停机动轨迹规划、跟踪控制方法
Xie et al. A distributed multi-agent formation control method based on deep Q learning
Wang et al. 3D autonomous navigation of UAVs: An energy-efficient and collision-free deep reinforcement learning approach
CN114756017A (zh) 一种无人机与无人艇结合的导航避障方法
Lin et al. Connectivity guaranteed multi-robot navigation via deep reinforcement learning
CN116165958A (zh) 一种两栖特种无人平台的自动驾驶系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant