CN113741528B - 一种面向多无人机碰撞规避的深度强化学习训练加速方法 - Google Patents

一种面向多无人机碰撞规避的深度强化学习训练加速方法 Download PDF

Info

Publication number
CN113741528B
CN113741528B CN202111071287.3A CN202111071287A CN113741528B CN 113741528 B CN113741528 B CN 113741528B CN 202111071287 A CN202111071287 A CN 202111071287A CN 113741528 B CN113741528 B CN 113741528B
Authority
CN
China
Prior art keywords
unmanned aerial
reinforcement learning
training
deep reinforcement
collision avoidance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111071287.3A
Other languages
English (en)
Other versions
CN113741528A (zh
Inventor
刘志宏
王祥科
王冠政
李�杰
相晓嘉
丛一睿
陈浩
周文宏
杨凌杰
胡新雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202111071287.3A priority Critical patent/CN113741528B/zh
Publication of CN113741528A publication Critical patent/CN113741528A/zh
Application granted granted Critical
Publication of CN113741528B publication Critical patent/CN113741528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种面向多无人机碰撞规避的深度强化学习训练加速方法,其包括:步骤S1:基于马尔可夫决策过程对完全分布式的无人机集群避障问题进行形式化建模;步骤S2:构建深度神经网络构建观测输入‑动作输出的映射、网络更新方法;步骤S3:融合人类经验以加速训练。本发明具有原理简单、训练智能化程度高、可加速深度强化学习训练过程等优点。

Description

一种面向多无人机碰撞规避的深度强化学习训练加速方法
技术领域
本发明主要涉及到无人机技术领域,特指一种面向多无人机碰撞规避的深度强化学习训练加速方法。
背景技术
伴随着无人机应用领域的逐渐扩大,人们对于无人机自主执行任务的需求越来越高。自主定位、环境感知、路径规划和碰撞规避等是无人机自主执行任务的关键技术。与单无人机相比,多无人机能够携带更多的任务载荷、更大的探测范围以及执行各种任务等。
深度强化学习既具备深度学习对复杂高维数据的理解能力,又兼备强化学习通过试错机制进行自我学习的通用学习能力。但深度强化学习大多面临着采样率低,训练收敛难等问题。目前,针对这一问题的研究取得了一系列的进展,例如基于迁移学习的方法,基于分阶段学习的方法、基于人类指导的方法等。这些方法通过不同的训练机制来提高训练速度,但仍存在训练效率低,加速效果不明显,通用性不强等问题。
然而,上述现有的方法在通用性、自动化程度等方面仍存在很多难题,主要表现在:
(1)通用性不够强。目前在无人机自主避障中,较为常用的传感器为二位激光雷达和双目相机等。基于迁移学习的方法大多应用于视觉信息感知任务中,比如目标识别等,而对于激光雷达等传感器,已训练的网络模型和参数并不能直接迁移应用。
(2)自动化程度不高。深度强化学习很重要的一点优势是可以将传统方法中在线求解的问题,转移到大量的离线训练中。一般训练过程需要的时间较长,因此自动化的训练过程十分重要。分阶段的训练将某一任务分解成多个阶段的任务,依次进行训练,较为繁琐。而且,在分阶段的训练中,后续阶段的训练可能会导致先训阶段的策略遗忘。而现有的人类指导的训练,大多需要人作为教师参与训练过程,自动化程度低,需要消耗开发者大量的时间和精力。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种原理简单、训练智能化程度高、可加速深度强化学习训练过程的面向多无人机碰撞规避的深度强化学习训练加速方法。
为解决上述技术问题,本发明采用以下技术方案:
一种面向多无人机碰撞规避的深度强化学习训练加速方法,其包括:
步骤S1:基于马尔可夫决策过程对完全分布式的无人机集群避障问题进行形式化建模;
步骤S2:构建深度神经网络构建观测输入-动作输出的映射、网络更新方法;
步骤S3:融合人类经验以加速训练。
作为本发明的进一步改进:所述步骤S1中,进行形式化建模的流程包括:
将多无人机前往目标地点过程中的协同避障问题形式化为一个马尔可夫决策过程;所述马尔可夫决策过程用一个六元组来形式化描述,即
Figure BDA0003259318380000021
其中/>
Figure BDA0003259318380000022
指的是状态空间,/>
Figure BDA0003259318380000023
指的是动作空间,/>
Figure BDA0003259318380000024
指的是状态转移模型,/>
Figure BDA0003259318380000025
是回报函数,Ω是观测空间(o∈Ω),/>
Figure BDA0003259318380000026
是给出系统状态/>
Figure BDA0003259318380000027
的观测概率分布。
作为本发明的进一步改进:对于每架无人机来说,观测空间定义T时刻无人机的观测为ot,包含以下三个部分:二位激光测距仪的观测
Figure BDA0003259318380000028
无人机当前时刻相对于目标的位置
Figure BDA0003259318380000029
无人机当前的速度/>
Figure BDA00032593183800000210
无人机的动作空间就是其在连续空间内能够允许的速度集合,包括线速度和角速度两部分,即at=[vt,ωt];在无人机的真实飞行中对速度增加约束。
作为本发明的进一步改进:无人机的任务目标包括以下的一个或多个:
a.最小化无人机群到达目标的平均时间;
b.在前往目标过程中安全避障、避碰;
c.无人机的运动轨迹平滑。
作为本发明的进一步改进:构建深度强化学习的回报函数:
Figure BDA0003259318380000031
即无人机所获得的回报r包括gr,cr和ωr,其具体含义为:
a.由到目标位置的距离所决定的gr,当无人机到达目标点时给予奖励,若未到达目标点,则当离目标距离减小时给予奖励:
Figure BDA0003259318380000032
b.由是否碰撞决定的cr,当发生碰撞时,给予惩罚:
Figure BDA0003259318380000033
c.由轨迹是否平滑所决定的ωr,当角速度过大时,给予惩罚:
Figure BDA0003259318380000034
作为本发明的进一步改进:在步骤S2中,进行强化学习,采用近端策略优化算法作为基础,用于连续动作空间的场景。
作为本发明的进一步改进:所述近端策略优化算法的流程包括:
步骤S201:初始化策略参数;
步骤S202:循环迭代,在每次循环中执行:
a、使用策略θk来与环境交互并收集经验{ot,at,rt+1,ot+1},
b、计算优势函数
Figure BDA0003259318380000035
c、寻找使JPPO(θ)最优的参数θ:
Figure BDA0003259318380000036
Figure BDA0003259318380000037
d、如果KL(θ,θk)>KLmax,减小β,否则且KL(θ,θk)<KLmin,增加β。
作为本发明的进一步改进:所述在步骤S2中,包括设置网络架构,流程包括:观测空间到动作空间的映射由深度神经网络完成,其包含卷积层和全连接层;所述卷积层的用来对雷达数据进行预处理;在训练阶段,决策网络生成的动作会通过采样来增大智能体的探索空间。
作为本发明的进一步改进:在步骤S3中,采用基于HEBA的人类经验加速方法,包括将人类经验抽象成一个指导智能体动作的修正器,在训练过程中,对决策网络生成的动作进行修正。
作为本发明的进一步改进:所述步骤S3中包括集中式训练和分布式应用,使用HEBA来融合人类经验的基础。
与现有技术相比,本发明的优点就在于:
1、本发明的面向多无人机碰撞规避的深度强化学习训练加速方法,原理简单、操作简便,其可以通过端到端的训练来实现多无人机的碰撞感知规避。本发明所提出的基于HEBA(Human Experience Based Adviser)的人类经验加速方法是关键的创新点。通过对人类经验的抽象,本发明提出了注意力区域和注意力因子的概念,以及全新的训练流程,这可以大大加速训练过程,并得到更好的控制策略。
2、本发明的面向多无人机碰撞规避的深度强化学习训练加速方法,通过抽象人类经验,并将其融入到深度强化学习的训练过程中来加速多无人机碰撞规避策略的学习。深度强化学习具备深度学习对复杂高维数据的理解能力,而这也使得深度强化学习训练中的采样效率比较低。在碰撞规避这一问题上,本发明对人类经验进行了高度的抽象,以指导智能体的控制策略的学习。本发明在训练过程中,不需要人为参与,可以大大加速深度强化学习的训练过程,节约开发者的时间。
附图说明
图1是本发明方法的流程示意图。
图2是本发明在具体应用实例中决策网络架构的原理示意图。
图3是本发明在具体应用实例中基于HEBA的人类经验加速训练方法的示意图。
图4是本发明在具体应用实例中注意力区域示意图。
具体实施方式
以下将结合说明书附图和具体实施例对本发明做进一步详细说明。
如图1和图2所示,本发明的面向多无人机碰撞规避的深度强化学习训练加速方法,为基于人经验辅助的深度强化学习方法,其包括:
步骤S1:基于部分可观的马尔可夫决策过程对完全分布式的无人机集群避障问题进行形式化建模;
步骤S2:设计深度神经网络构建观测输入-动作输出的映射、网络更新算法;
步骤S3:设计融合人类经验以加速训练的方法。
在具体应用实例中,在步骤S1中,进行形式化建模的流程包括:
多无人机前往目标地点过程中的协同避障问题可以形式化为一个部分可观的马尔可夫决策过程(POMDP,Partially Observable Markov Decision Process)。
一般来说,部分可观的马尔可夫决策过程可以用一个六元组来形式化描述,即
Figure BDA0003259318380000051
其中/>
Figure BDA0003259318380000052
指的是状态空间,/>
Figure BDA0003259318380000053
指的是动作空间,/>
Figure BDA0003259318380000054
指的是状态转移模型,/>
Figure BDA0003259318380000055
是回报函数,Ω是观测空间(o∈Ω),/>
Figure BDA0003259318380000056
是给出系统状态/>
Figure BDA0003259318380000057
的观测概率分布。
在本发明中,二维激光雷达是感知环境的核心传感器。对于每架无人机来说,观测空间除激光雷达观测的数据外,本发明还需要其他的一些观测量,定义t时刻无人机的观测为ot,主要包含以下三个部分:
a.二位激光测距仪的观测
Figure BDA0003259318380000058
b.无人机当前时刻相对于目标的位置
Figure BDA0003259318380000059
c.无人机当前的速度
Figure BDA00032593183800000510
无人机的动作空间就是其在连续空间内能够允许的速度集合,主要包括线速度和角速度两部分,即at=[vt,ωt]。在无人机的真实飞行中,还需要对速度增加一定的约束,比如:v∈[0.0,1.0],ω∈[-1.0,1.0]等。
本发明中无人机的任务目标主要是:
a.最小化无人机群到达目标的平均时间;
b.在前往目标过程中安全避障、避碰;
c.无人机的运动轨迹尽可能平滑。
为实现上述目标,本发明将深度强化学习的回报函数设计为:
Figure BDA0003259318380000061
即无人机所获得的回报r由四部分构成,分别为gr,cr和ωr,其具体含义为:
a.由到目标位置的距离所决定的gr,当无人机到达目标点时给予奖励,若未到达目标点,则当离目标距离减小时给予奖励:
Figure BDA0003259318380000062
b.由是否碰撞决定的cr,当发生碰撞(包括无人机间和与环境障碍物)时,给予惩罚:
Figure BDA0003259318380000063
c.由轨迹是否平滑所决定的ωr,当角速度过大时,给予惩罚:
Figure BDA0003259318380000064
在具体应用实例中,在步骤S2中,强化学习算法的流程包括:
强化学习可以按照学习策略划分为基于值和基于策略的两大类,本发明选择近端策略优化算法(PP0,Proximal Policy Optimization)作为项目算法设计的基础,其属于基于策略的强化学习方法,适用于连续动作空间的场景。
PPO算法是一种新型的Policy Gradient(策略梯度)算法,Policy Gradient算法对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的变化差异如果过大则不利于学习。
为此,PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了Policy Gradient算法中步长难以确定的问题,其主要流程如下:
步骤S201:初始化策略参数;
步骤S202:循环迭代,在每次循环中执行:
a、使用策略(θk)来与环境交互并收集经验{ot,at,rt+1ot+1},
b、计算优势函数
Figure BDA0003259318380000071
c、寻找使JPPO(θ)最优的参数θ:
Figure BDA0003259318380000072
Figure BDA0003259318380000073
d、如果KL(θ,θk)>KLmax,减小β,否则且KL(θ,θk)<KLmin,增加β。
在具体应用实例中,在步骤S2中,设置网络架构的流程包括:
在本发明中,观测空间到动作空间的映射由深度神经网络完成,其主要包含卷积层和全连接层。卷积层的主要作用是对雷达数据进行预处理。在训练阶段,决策网络生成的动作会通过采样来增大智能体的探索空间。
在具体应用实例中,在步骤S3中,基于HEBA(Human Experience Based Adviser)的人类经验加速方法包括:采样效率低是阻碍深度强化学习应用的一个重要问题,其不仅表现训练时间长,甚至还会导致无法收敛到较好的控制策略。在本发明中,提出了一种基于HEBA的人类经验加速方法。HEBA将人类经验抽象成一个指导智能体动作的修正器,在训练过程中,能够对决策网络生成的动作进行修正,从而提高训练过程中的采样效率,训练流程如图3所示。
在复杂的路况环境中,人们往往会降低车速以更加安全的驾驶。基于此,本发明提出了注意力区域(Attention Region,AR)和注意力因子(Attention Factor,AF)的概念。如图4所示,无人机外270°的扇形指的是二位激光雷达的扫描范围,dl指的是雷达最大测量距离,de指的是无人机之间的安全距离,Head指的是无人机的机头方向。无人机机头方向的180°半圆阴影区域即为该无人机的注意力区域。注意力区域内的其他无人机是当前无人机需要进行碰撞规避的。
意力因子是用来刻画注意力区域内交通拥挤状况的,定义如下:
Figure BDA0003259318380000081
HEBA描述为:
vx=fa×vx,if vx>fa×vmax (8)
在本发明中,集中式训练和分布式应用(Centralized Training withDecentralized Execution,CTDE)的应用是使用HEBA来融合人类经验的基础。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (9)

1.一种面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,包括:
步骤S1:基于马尔可夫决策过程对完全分布式的无人机集群避障问题进行形式化建模;
步骤S2:构建深度神经网络,构建观测输入-动作输出的映射、网络更新方法;
步骤S3:融合人类经验以加速训练;具体为,采用基于HEBA的人类经验加速方法,包括将人类经验抽象成一个指导智能体动作的修正器,在训练过程中,对决策网络生成的动作进行修正;注意力因子是用来刻画注意力区域内交通拥挤状况的,定义如下:
Figure QLYQS_1
HEBA描述为:
Figure QLYQS_2
2.根据权利要求1所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,所述步骤S1中,进行形式化建模的流程包括:
将多无人机前往目标地点过程中的协同避障问题形式化为一个马尔可夫决策过程;所述马尔可夫决策过程用一个六元组来形式化描述,即
Figure QLYQS_5
,其中/>
Figure QLYQS_6
指的是状态空间,/>
Figure QLYQS_10
指的是动作空间,/>
Figure QLYQS_4
指的是状态转移模型,/>
Figure QLYQS_8
是回报函数,/>
Figure QLYQS_9
是观测空间/>
Figure QLYQS_11
,/>
Figure QLYQS_3
是给出系统状态/>
Figure QLYQS_7
的观测概率分布。
3.根据权利要求2所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,对于每架无人机来说,观测空间定义
Figure QLYQS_12
时刻无人机的观测为/>
Figure QLYQS_13
,包含以下三个部分:二位激光测距仪的观测/>
Figure QLYQS_14
、无人机当前时刻相对于目标的位置/>
Figure QLYQS_15
、无人机当前的速度/>
Figure QLYQS_16
;无人机的动作空间就是其在连续空间内能够允许的速度集合,包括线速度和角速度两部分,即/>
Figure QLYQS_17
;在无人机的真实飞行中对速度增加约束。
4.根据权利要求1-3中任意一项所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,无人机的任务目标包括以下的一个或多个:
a.最小化无人机群到达目标的平均时间;
b.在前往目标过程中安全避障、避碰;
c.无人机的运动轨迹平滑。
5.根据权利要求4所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,构建深度强化学习的回报函数:
Figure QLYQS_18
即无人机所获得的回报
Figure QLYQS_19
包括/>
Figure QLYQS_20
和/>
Figure QLYQS_21
,其具体含义为:
a.由到目标位置的距离所决定的
Figure QLYQS_22
,当无人机到达目标点时给予奖励,若未到达目标点,则当离目标距离减小时给予奖励:
Figure QLYQS_23
/>
b.由是否碰撞决定的
Figure QLYQS_24
,当发生碰撞时,给予惩罚:
Figure QLYQS_25
c.由轨迹是否平滑所决定的
Figure QLYQS_26
,当角速度过大时,给予惩罚:
Figure QLYQS_27
6.根据权利要求1-3中任意一项所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,在步骤S2中,进行强化学习,采用近端策略优化算法作为基础,用于连续动作空间的场景。
7.根据权利要求6所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,所述近端策略优化算法的流程包括:
步骤S201:初始化策略参数;
步骤S202:循环迭代,在每次循环中执行:
a、使用策略
Figure QLYQS_28
来与环境交互并收集经验/>
Figure QLYQS_29
b、计算优势函数
Figure QLYQS_30
c、寻找使
Figure QLYQS_31
最优的参数/>
Figure QLYQS_32
Figure QLYQS_33
d、如果
Figure QLYQS_34
,减小/>
Figure QLYQS_35
,否则且/>
Figure QLYQS_36
,增加/>
Figure QLYQS_37
8.根据权利要求6所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,所述在步骤S2中,包括设置网络架构,流程包括:观测空间到动作空间的映射由深度神经网络完成,其包含卷积层和全连接层;所述卷积层的用来对雷达数据进行预处理;在训练阶段,决策网络生成的动作会通过采样来增大智能体的探索空间。
9.根据权利要求1所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,所述步骤S3中包括集中式训练和分布式应用,使用HEBA来融合人类经验的基础。
CN202111071287.3A 2021-09-13 2021-09-13 一种面向多无人机碰撞规避的深度强化学习训练加速方法 Active CN113741528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111071287.3A CN113741528B (zh) 2021-09-13 2021-09-13 一种面向多无人机碰撞规避的深度强化学习训练加速方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111071287.3A CN113741528B (zh) 2021-09-13 2021-09-13 一种面向多无人机碰撞规避的深度强化学习训练加速方法

Publications (2)

Publication Number Publication Date
CN113741528A CN113741528A (zh) 2021-12-03
CN113741528B true CN113741528B (zh) 2023-05-23

Family

ID=78738377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111071287.3A Active CN113741528B (zh) 2021-09-13 2021-09-13 一种面向多无人机碰撞规避的深度强化学习训练加速方法

Country Status (1)

Country Link
CN (1) CN113741528B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114428517B (zh) * 2022-01-26 2023-07-21 海南大学 一种无人机无人艇协同平台端对端自主降落控制方法
CN114722946B (zh) * 2022-04-12 2022-12-20 中国人民解放军国防科技大学 基于概率模型检测的无人机异步行动与协同策略合成方法
CN115860107B (zh) * 2023-01-30 2023-05-16 武汉大学 一种基于多智能体深度强化学习的多机探寻方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033249A (zh) * 2019-12-09 2021-06-25 中兴通讯股份有限公司 文字识别方法、装置、终端及其计算机存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10420523B2 (en) * 2016-03-21 2019-09-24 The Board Of Trustees Of The Leland Stanford Junior University Adaptive local window-based methods for characterizing features of interest in digital images and systems for practicing same
US11499837B2 (en) * 2018-09-30 2022-11-15 Strong Force Intellectual Capital, Llc Intelligent transportation systems
CN109635926B (zh) * 2018-11-30 2021-11-05 深圳市商汤科技有限公司 用于神经网络的注意力特征获取方法、装置及存储介质
US20210019642A1 (en) * 2019-07-17 2021-01-21 Wingman AI Agents Limited System for voice communication with ai agents in an environment
CN110659796B (zh) * 2019-08-08 2022-07-08 北京理工大学 一种可充电群车智能中的数据采集方法
CN110658829B (zh) * 2019-10-30 2021-03-30 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法
CN112966591B (zh) * 2021-03-03 2023-01-20 河北工业职业技术学院 面向机械臂抓取任务的知识图谱深度强化学习迁移系统
CN113110592B (zh) * 2021-04-23 2022-09-23 南京大学 一种无人机避障与路径规划方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113033249A (zh) * 2019-12-09 2021-06-25 中兴通讯股份有限公司 文字识别方法、装置、终端及其计算机存储介质

Also Published As

Publication number Publication date
CN113741528A (zh) 2021-12-03

Similar Documents

Publication Publication Date Title
CN113741528B (zh) 一种面向多无人机碰撞规避的深度强化学习训练加速方法
CN113485380B (zh) 一种基于强化学习的agv路径规划方法及系统
CN111780777A (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
CN114384920A (zh) 一种基于局部栅格地图实时构建的动态避障方法
CN112731925A (zh) 用于无人驾驶方程式赛车锥桶识别和路径规划及控制方法
CN115016534A (zh) 一种基于记忆增强学习的无人机自主避障导航方法
CN113848974A (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
CN116679719A (zh) 基于动态窗口法与近端策略的无人车自适应路径规划方法
CN112631134A (zh) 一种基于模糊神经网络的智能小车避障方法
Al-Sagban et al. Neural-based navigation of a differential-drive mobile robot
CN116242364A (zh) 一种基于深度强化学习的多无人机智能导航方法
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN116804879A (zh) 一种改进蜣螂算法融合dwa算法的机器人路径规划框架方法
Kaifang et al. A learning-based flexible autonomous motion control method for UAV in dynamic unknown environments
Liang et al. Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network
Farag Model-predictive-control complex-path tracking for self-driving cars
CN116795108B (zh) 基于多源感知信号的智能无人车配送方法
Li et al. UAV obstacle avoidance by human-in-the-loop reinforcement in arbitrary 3D environment
Alvarez et al. The software stack that won the formula student driverless competition
CN116385909A (zh) 一种基于深度强化学习的无人机目标跟踪方法
CN114756017A (zh) 一种无人机与无人艇结合的导航避障方法
Chen et al. Framework of active obstacle avoidance for autonomous vehicle based on hybrid soft actor-critic algorithm
Cui et al. AGV research based on inertial navigation and vision fusion
CN113848982A (zh) 一种四旋翼无人机栖停机动轨迹规划、跟踪控制方法
Wang et al. 3D Autonomous Navigation of UAVs: An Energy-Efficient and Collision-Free Deep Reinforcement Learning Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant