CN113741528B - 一种面向多无人机碰撞规避的深度强化学习训练加速方法 - Google Patents
一种面向多无人机碰撞规避的深度强化学习训练加速方法 Download PDFInfo
- Publication number
- CN113741528B CN113741528B CN202111071287.3A CN202111071287A CN113741528B CN 113741528 B CN113741528 B CN 113741528B CN 202111071287 A CN202111071287 A CN 202111071287A CN 113741528 B CN113741528 B CN 113741528B
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- reinforcement learning
- training
- deep reinforcement
- collision avoidance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000012549 training Methods 0.000 title claims abstract description 63
- 230000002787 reinforcement Effects 0.000 title claims abstract description 37
- 230000001133 acceleration Effects 0.000 title claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 230000009471 action Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 6
- 230000004888 barrier function Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000007423 decrease Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000006872 improvement Effects 0.000 description 9
- 238000011217 control strategy Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
- G05D1/104—Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种面向多无人机碰撞规避的深度强化学习训练加速方法,其包括:步骤S1:基于马尔可夫决策过程对完全分布式的无人机集群避障问题进行形式化建模;步骤S2:构建深度神经网络构建观测输入‑动作输出的映射、网络更新方法;步骤S3:融合人类经验以加速训练。本发明具有原理简单、训练智能化程度高、可加速深度强化学习训练过程等优点。
Description
技术领域
本发明主要涉及到无人机技术领域,特指一种面向多无人机碰撞规避的深度强化学习训练加速方法。
背景技术
伴随着无人机应用领域的逐渐扩大,人们对于无人机自主执行任务的需求越来越高。自主定位、环境感知、路径规划和碰撞规避等是无人机自主执行任务的关键技术。与单无人机相比,多无人机能够携带更多的任务载荷、更大的探测范围以及执行各种任务等。
深度强化学习既具备深度学习对复杂高维数据的理解能力,又兼备强化学习通过试错机制进行自我学习的通用学习能力。但深度强化学习大多面临着采样率低,训练收敛难等问题。目前,针对这一问题的研究取得了一系列的进展,例如基于迁移学习的方法,基于分阶段学习的方法、基于人类指导的方法等。这些方法通过不同的训练机制来提高训练速度,但仍存在训练效率低,加速效果不明显,通用性不强等问题。
然而,上述现有的方法在通用性、自动化程度等方面仍存在很多难题,主要表现在:
(1)通用性不够强。目前在无人机自主避障中,较为常用的传感器为二位激光雷达和双目相机等。基于迁移学习的方法大多应用于视觉信息感知任务中,比如目标识别等,而对于激光雷达等传感器,已训练的网络模型和参数并不能直接迁移应用。
(2)自动化程度不高。深度强化学习很重要的一点优势是可以将传统方法中在线求解的问题,转移到大量的离线训练中。一般训练过程需要的时间较长,因此自动化的训练过程十分重要。分阶段的训练将某一任务分解成多个阶段的任务,依次进行训练,较为繁琐。而且,在分阶段的训练中,后续阶段的训练可能会导致先训阶段的策略遗忘。而现有的人类指导的训练,大多需要人作为教师参与训练过程,自动化程度低,需要消耗开发者大量的时间和精力。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种原理简单、训练智能化程度高、可加速深度强化学习训练过程的面向多无人机碰撞规避的深度强化学习训练加速方法。
为解决上述技术问题,本发明采用以下技术方案:
一种面向多无人机碰撞规避的深度强化学习训练加速方法,其包括:
步骤S1:基于马尔可夫决策过程对完全分布式的无人机集群避障问题进行形式化建模;
步骤S2:构建深度神经网络构建观测输入-动作输出的映射、网络更新方法;
步骤S3:融合人类经验以加速训练。
作为本发明的进一步改进:所述步骤S1中,进行形式化建模的流程包括:
将多无人机前往目标地点过程中的协同避障问题形式化为一个马尔可夫决策过程;所述马尔可夫决策过程用一个六元组来形式化描述,即其中/>指的是状态空间,/>指的是动作空间,/>指的是状态转移模型,/>是回报函数,Ω是观测空间(o∈Ω),/>是给出系统状态/>的观测概率分布。
作为本发明的进一步改进:对于每架无人机来说,观测空间定义T时刻无人机的观测为ot,包含以下三个部分:二位激光测距仪的观测无人机当前时刻相对于目标的位置无人机当前的速度/>无人机的动作空间就是其在连续空间内能够允许的速度集合,包括线速度和角速度两部分,即at=[vt,ωt];在无人机的真实飞行中对速度增加约束。
作为本发明的进一步改进:无人机的任务目标包括以下的一个或多个:
a.最小化无人机群到达目标的平均时间;
b.在前往目标过程中安全避障、避碰;
c.无人机的运动轨迹平滑。
作为本发明的进一步改进:构建深度强化学习的回报函数:
即无人机所获得的回报r包括gr,cr和ωr,其具体含义为:
a.由到目标位置的距离所决定的gr,当无人机到达目标点时给予奖励,若未到达目标点,则当离目标距离减小时给予奖励:
b.由是否碰撞决定的cr,当发生碰撞时,给予惩罚:
c.由轨迹是否平滑所决定的ωr,当角速度过大时,给予惩罚:
作为本发明的进一步改进:在步骤S2中,进行强化学习,采用近端策略优化算法作为基础,用于连续动作空间的场景。
作为本发明的进一步改进:所述近端策略优化算法的流程包括:
步骤S201:初始化策略参数;
步骤S202:循环迭代,在每次循环中执行:
a、使用策略θk来与环境交互并收集经验{ot,at,rt+1,ot+1},
c、寻找使JPPO(θ)最优的参数θ:
d、如果KL(θ,θk)>KLmax,减小β,否则且KL(θ,θk)<KLmin,增加β。
作为本发明的进一步改进:所述在步骤S2中,包括设置网络架构,流程包括:观测空间到动作空间的映射由深度神经网络完成,其包含卷积层和全连接层;所述卷积层的用来对雷达数据进行预处理;在训练阶段,决策网络生成的动作会通过采样来增大智能体的探索空间。
作为本发明的进一步改进:在步骤S3中,采用基于HEBA的人类经验加速方法,包括将人类经验抽象成一个指导智能体动作的修正器,在训练过程中,对决策网络生成的动作进行修正。
作为本发明的进一步改进:所述步骤S3中包括集中式训练和分布式应用,使用HEBA来融合人类经验的基础。
与现有技术相比,本发明的优点就在于:
1、本发明的面向多无人机碰撞规避的深度强化学习训练加速方法,原理简单、操作简便,其可以通过端到端的训练来实现多无人机的碰撞感知规避。本发明所提出的基于HEBA(Human Experience Based Adviser)的人类经验加速方法是关键的创新点。通过对人类经验的抽象,本发明提出了注意力区域和注意力因子的概念,以及全新的训练流程,这可以大大加速训练过程,并得到更好的控制策略。
2、本发明的面向多无人机碰撞规避的深度强化学习训练加速方法,通过抽象人类经验,并将其融入到深度强化学习的训练过程中来加速多无人机碰撞规避策略的学习。深度强化学习具备深度学习对复杂高维数据的理解能力,而这也使得深度强化学习训练中的采样效率比较低。在碰撞规避这一问题上,本发明对人类经验进行了高度的抽象,以指导智能体的控制策略的学习。本发明在训练过程中,不需要人为参与,可以大大加速深度强化学习的训练过程,节约开发者的时间。
附图说明
图1是本发明方法的流程示意图。
图2是本发明在具体应用实例中决策网络架构的原理示意图。
图3是本发明在具体应用实例中基于HEBA的人类经验加速训练方法的示意图。
图4是本发明在具体应用实例中注意力区域示意图。
具体实施方式
以下将结合说明书附图和具体实施例对本发明做进一步详细说明。
如图1和图2所示,本发明的面向多无人机碰撞规避的深度强化学习训练加速方法,为基于人经验辅助的深度强化学习方法,其包括:
步骤S1:基于部分可观的马尔可夫决策过程对完全分布式的无人机集群避障问题进行形式化建模;
步骤S2:设计深度神经网络构建观测输入-动作输出的映射、网络更新算法;
步骤S3:设计融合人类经验以加速训练的方法。
在具体应用实例中,在步骤S1中,进行形式化建模的流程包括:
多无人机前往目标地点过程中的协同避障问题可以形式化为一个部分可观的马尔可夫决策过程(POMDP,Partially Observable Markov Decision Process)。
一般来说,部分可观的马尔可夫决策过程可以用一个六元组来形式化描述,即其中/>指的是状态空间,/>指的是动作空间,/>指的是状态转移模型,/>是回报函数,Ω是观测空间(o∈Ω),/>是给出系统状态/>的观测概率分布。
在本发明中,二维激光雷达是感知环境的核心传感器。对于每架无人机来说,观测空间除激光雷达观测的数据外,本发明还需要其他的一些观测量,定义t时刻无人机的观测为ot,主要包含以下三个部分:
无人机的动作空间就是其在连续空间内能够允许的速度集合,主要包括线速度和角速度两部分,即at=[vt,ωt]。在无人机的真实飞行中,还需要对速度增加一定的约束,比如:v∈[0.0,1.0],ω∈[-1.0,1.0]等。
本发明中无人机的任务目标主要是:
a.最小化无人机群到达目标的平均时间;
b.在前往目标过程中安全避障、避碰;
c.无人机的运动轨迹尽可能平滑。
为实现上述目标,本发明将深度强化学习的回报函数设计为:
即无人机所获得的回报r由四部分构成,分别为gr,cr和ωr,其具体含义为:
a.由到目标位置的距离所决定的gr,当无人机到达目标点时给予奖励,若未到达目标点,则当离目标距离减小时给予奖励:
b.由是否碰撞决定的cr,当发生碰撞(包括无人机间和与环境障碍物)时,给予惩罚:
c.由轨迹是否平滑所决定的ωr,当角速度过大时,给予惩罚:
在具体应用实例中,在步骤S2中,强化学习算法的流程包括:
强化学习可以按照学习策略划分为基于值和基于策略的两大类,本发明选择近端策略优化算法(PP0,Proximal Policy Optimization)作为项目算法设计的基础,其属于基于策略的强化学习方法,适用于连续动作空间的场景。
PPO算法是一种新型的Policy Gradient(策略梯度)算法,Policy Gradient算法对步长十分敏感,但是又难以选择合适的步长,在训练过程中新旧策略的变化差异如果过大则不利于学习。
为此,PPO提出了新的目标函数可以再多个训练步骤实现小批量的更新,解决了Policy Gradient算法中步长难以确定的问题,其主要流程如下:
步骤S201:初始化策略参数;
步骤S202:循环迭代,在每次循环中执行:
a、使用策略(θk)来与环境交互并收集经验{ot,at,rt+1ot+1},
c、寻找使JPPO(θ)最优的参数θ:
d、如果KL(θ,θk)>KLmax,减小β,否则且KL(θ,θk)<KLmin,增加β。
在具体应用实例中,在步骤S2中,设置网络架构的流程包括:
在本发明中,观测空间到动作空间的映射由深度神经网络完成,其主要包含卷积层和全连接层。卷积层的主要作用是对雷达数据进行预处理。在训练阶段,决策网络生成的动作会通过采样来增大智能体的探索空间。
在具体应用实例中,在步骤S3中,基于HEBA(Human Experience Based Adviser)的人类经验加速方法包括:采样效率低是阻碍深度强化学习应用的一个重要问题,其不仅表现训练时间长,甚至还会导致无法收敛到较好的控制策略。在本发明中,提出了一种基于HEBA的人类经验加速方法。HEBA将人类经验抽象成一个指导智能体动作的修正器,在训练过程中,能够对决策网络生成的动作进行修正,从而提高训练过程中的采样效率,训练流程如图3所示。
在复杂的路况环境中,人们往往会降低车速以更加安全的驾驶。基于此,本发明提出了注意力区域(Attention Region,AR)和注意力因子(Attention Factor,AF)的概念。如图4所示,无人机外270°的扇形指的是二位激光雷达的扫描范围,dl指的是雷达最大测量距离,de指的是无人机之间的安全距离,Head指的是无人机的机头方向。无人机机头方向的180°半圆阴影区域即为该无人机的注意力区域。注意力区域内的其他无人机是当前无人机需要进行碰撞规避的。
意力因子是用来刻画注意力区域内交通拥挤状况的,定义如下:
HEBA描述为:
vx=fa×vx,if vx>fa×vmax (8)
在本发明中,集中式训练和分布式应用(Centralized Training withDecentralized Execution,CTDE)的应用是使用HEBA来融合人类经验的基础。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (9)
4.根据权利要求1-3中任意一项所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,无人机的任务目标包括以下的一个或多个:
a.最小化无人机群到达目标的平均时间;
b.在前往目标过程中安全避障、避碰;
c.无人机的运动轨迹平滑。
6.根据权利要求1-3中任意一项所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,在步骤S2中,进行强化学习,采用近端策略优化算法作为基础,用于连续动作空间的场景。
8.根据权利要求6所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,所述在步骤S2中,包括设置网络架构,流程包括:观测空间到动作空间的映射由深度神经网络完成,其包含卷积层和全连接层;所述卷积层的用来对雷达数据进行预处理;在训练阶段,决策网络生成的动作会通过采样来增大智能体的探索空间。
9.根据权利要求1所述的面向多无人机碰撞规避的深度强化学习训练加速方法,其特征在于,所述步骤S3中包括集中式训练和分布式应用,使用HEBA来融合人类经验的基础。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111071287.3A CN113741528B (zh) | 2021-09-13 | 2021-09-13 | 一种面向多无人机碰撞规避的深度强化学习训练加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111071287.3A CN113741528B (zh) | 2021-09-13 | 2021-09-13 | 一种面向多无人机碰撞规避的深度强化学习训练加速方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113741528A CN113741528A (zh) | 2021-12-03 |
CN113741528B true CN113741528B (zh) | 2023-05-23 |
Family
ID=78738377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111071287.3A Active CN113741528B (zh) | 2021-09-13 | 2021-09-13 | 一种面向多无人机碰撞规避的深度强化学习训练加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113741528B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114428517B (zh) * | 2022-01-26 | 2023-07-21 | 海南大学 | 一种无人机无人艇协同平台端对端自主降落控制方法 |
CN114722946B (zh) * | 2022-04-12 | 2022-12-20 | 中国人民解放军国防科技大学 | 基于概率模型检测的无人机异步行动与协同策略合成方法 |
CN115860107B (zh) * | 2023-01-30 | 2023-05-16 | 武汉大学 | 一种基于多智能体深度强化学习的多机探寻方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033249A (zh) * | 2019-12-09 | 2021-06-25 | 中兴通讯股份有限公司 | 文字识别方法、装置、终端及其计算机存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10420523B2 (en) * | 2016-03-21 | 2019-09-24 | The Board Of Trustees Of The Leland Stanford Junior University | Adaptive local window-based methods for characterizing features of interest in digital images and systems for practicing same |
US11499837B2 (en) * | 2018-09-30 | 2022-11-15 | Strong Force Intellectual Capital, Llc | Intelligent transportation systems |
CN109635926B (zh) * | 2018-11-30 | 2021-11-05 | 深圳市商汤科技有限公司 | 用于神经网络的注意力特征获取方法、装置及存储介质 |
US20210019642A1 (en) * | 2019-07-17 | 2021-01-21 | Wingman AI Agents Limited | System for voice communication with ai agents in an environment |
CN110659796B (zh) * | 2019-08-08 | 2022-07-08 | 北京理工大学 | 一种可充电群车智能中的数据采集方法 |
CN110658829B (zh) * | 2019-10-30 | 2021-03-30 | 武汉理工大学 | 一种基于深度强化学习的群无人艇智能避碰方法 |
CN112966591B (zh) * | 2021-03-03 | 2023-01-20 | 河北工业职业技术学院 | 面向机械臂抓取任务的知识图谱深度强化学习迁移系统 |
CN113110592B (zh) * | 2021-04-23 | 2022-09-23 | 南京大学 | 一种无人机避障与路径规划方法 |
-
2021
- 2021-09-13 CN CN202111071287.3A patent/CN113741528B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033249A (zh) * | 2019-12-09 | 2021-06-25 | 中兴通讯股份有限公司 | 文字识别方法、装置、终端及其计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113741528A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113741528B (zh) | 一种面向多无人机碰撞规避的深度强化学习训练加速方法 | |
CN113485380B (zh) | 一种基于强化学习的agv路径规划方法及系统 | |
CN111780777A (zh) | 一种基于改进a*算法和深度强化学习的无人车路径规划方法 | |
CN114384920A (zh) | 一种基于局部栅格地图实时构建的动态避障方法 | |
CN112731925A (zh) | 用于无人驾驶方程式赛车锥桶识别和路径规划及控制方法 | |
CN115016534A (zh) | 一种基于记忆增强学习的无人机自主避障导航方法 | |
CN113848974A (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
CN116679719A (zh) | 基于动态窗口法与近端策略的无人车自适应路径规划方法 | |
CN112631134A (zh) | 一种基于模糊神经网络的智能小车避障方法 | |
Al-Sagban et al. | Neural-based navigation of a differential-drive mobile robot | |
CN116242364A (zh) | 一种基于深度强化学习的多无人机智能导航方法 | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
CN116804879A (zh) | 一种改进蜣螂算法融合dwa算法的机器人路径规划框架方法 | |
Kaifang et al. | A learning-based flexible autonomous motion control method for UAV in dynamic unknown environments | |
Liang et al. | Multi-UAV autonomous collision avoidance based on PPO-GIC algorithm with CNN–LSTM fusion network | |
Farag | Model-predictive-control complex-path tracking for self-driving cars | |
CN116795108B (zh) | 基于多源感知信号的智能无人车配送方法 | |
Li et al. | UAV obstacle avoidance by human-in-the-loop reinforcement in arbitrary 3D environment | |
Alvarez et al. | The software stack that won the formula student driverless competition | |
CN116385909A (zh) | 一种基于深度强化学习的无人机目标跟踪方法 | |
CN114756017A (zh) | 一种无人机与无人艇结合的导航避障方法 | |
Chen et al. | Framework of active obstacle avoidance for autonomous vehicle based on hybrid soft actor-critic algorithm | |
Cui et al. | AGV research based on inertial navigation and vision fusion | |
CN113848982A (zh) | 一种四旋翼无人机栖停机动轨迹规划、跟踪控制方法 | |
Wang et al. | 3D Autonomous Navigation of UAVs: An Energy-Efficient and Collision-Free Deep Reinforcement Learning Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |