CN113110546A - 一种基于离线强化学习的无人机自主飞行控制方法 - Google Patents

一种基于离线强化学习的无人机自主飞行控制方法 Download PDF

Info

Publication number
CN113110546A
CN113110546A CN202110422019.5A CN202110422019A CN113110546A CN 113110546 A CN113110546 A CN 113110546A CN 202110422019 A CN202110422019 A CN 202110422019A CN 113110546 A CN113110546 A CN 113110546A
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
flight
network
flight control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110422019.5A
Other languages
English (en)
Other versions
CN113110546B (zh
Inventor
俞扬
詹德川
周志华
高永青
秦熔均
陈雄辉
庞竟成
袁雷
管聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110422019.5A priority Critical patent/CN113110546B/zh
Publication of CN113110546A publication Critical patent/CN113110546A/zh
Application granted granted Critical
Publication of CN113110546B publication Critical patent/CN113110546B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开一种基于离线强化学习的无人机自主飞行控制方法,包含以下步骤:(1)人为控制无人机执行飞行任务,收集无人机在现实环境中的飞行数据,生成数据集。(2)基于数据集,根据飞行状态和动作设计奖赏函数。(3)基于离线强化学习算法,仅利用数据集训练自主飞行控制策略。(4)在现实环境中,使用自主飞行控制策略操控无人机执行飞行任务,无人机操作员实时监控,测试控制策略性能并收集飞行数据。(5)把收集的新飞行数据加入数据集。(6)迭代执行步骤(2)(3)(4)(5),直到自主飞行控制策略能够完成飞行任务。本发明能够以很低的成本训练出泛化性好、鲁棒的自主飞行控制策略,适用于复杂多变的现实环境。

Description

一种基于离线强化学习的无人机自主飞行控制方法
技术领域
本发明涉及一种基于离线强化学习的无人机自主飞行控制方法,属于无人机自主飞行控制技术领域。
背景技术
无人机由于其结构简单、灵活性和机动性强,已经得到了广泛应用,在航拍、测绘、物流和导航等领域中有着无可替代的地位。无人机系统控制技术近年来发展迅速,其中自主飞行技术是其核心技术之一。随着无人机在各种场景的大量应用,所面临的飞行环境也更加复杂多变,不确定性大量增加。传统的无人机自主飞行方法往往在一些简单环境下能够取得满意的效果,但难以应对高度动态环境下的飞行任务。
近年来,深度强化学习算法的发展引起了人们的广泛关注并取得了令人瞩目的成功。强化学习可以类比动物行为训练,训练员通过奖励与惩罚的方式让动物学会一种状态和行为之间的关联。强化学习一般包括智能体和环境两个要素,智能体在环境中不断探索和试错并获取奖励信息,以调整行动策略获得最大的累积奖励。强化学习广泛应用于求解动态环境下的连续决策问题,在围棋、游戏、生物医疗和推荐系统等领域取得了一系列应用成果,也为解决复杂环境下无人机自主飞行问题提供了新的方向。深度强化学习利用深度神经网络的强大拟合能力来逼近价值函数,增强了对高维状态和动作空间的处理能力,能够应用于复杂的现实环境中。
深度强化学习应用到无人机自主飞行的一大问题是难以在现实环境中进行真机训练。强化学习算法需要与环境进行上百万次的交互和试错,可能引发碰撞、坠机等飞行事故,代价较大,这在实际应用中往往无法接受。一种可行的方法是事先人为控制无人机收集大量的飞行数据作为数据集,然后仅利用这些数据学习,不与现实环境实时交互。一个比较直接的方法是把数据集当作一个大的经验池,使用异策略强化学习算法进行训练。在这种情况下,由于数据集容量有限不能反映现实环境的状态转移,同时数据分布与当前策略的采样分布不一致,由此导致外推误差,并对价值函数估计过高,从而误导策略函数的学习。
发明内容
发明目的:针对强化学习算法在现实环境中训练代价高的问题,本发明提供一种基于离线强化学习的无人机自主飞行控制方法,人为采集无人机飞行数据,训练过程中不要求与现实环境实时交互,利用离线强化学习算法,能够以很低的成本训练出泛化性好、鲁棒的自主飞行控制策略,适用于复杂多变的现实环境。
技术方案:一种基于离线强化学习的无人机自主飞行控制方法,包括:
(1)通过人为控制的方法操控无人机飞行,收集无人机飞行数据,存储飞行过程中无人机在各个时刻的环境观测、无人机自身状态、飞行控制指令和奖励等信息,生成飞行数据集。
环境观测包括:使用无人机搭载的摄像头获取的图像信息、使用无人机TOF传感器获取的与周围物体的距离信息。无人机自身状态包括飞行速度、加速度、飞行姿态、所在位置、和飞行目标的相对位置。飞行控制指令包含油门指令、俯仰指令、横滚指令和偏航指令。奖励由多种奖赏函数混合得到,
Figure BDA0003028190260000021
Figure BDA0003028190260000022
其中
Figure BDA0003028190260000023
是指示函数,当x为真,
Figure BDA0003028190260000024
否则
Figure BDA0003028190260000025
其中第一项为靠近飞行目标奖赏,ΔDg是到飞行目标的距离增量,C1为靠近奖赏系数;第二项为到达飞行目标奖赏,Dg和Tg分别是到飞行目标的距离和到达阈值,C2为到达奖赏系数;第三项为碰撞惩罚,Dob和Tob分别是到周围物体的距离和碰撞阈值,Cob为碰撞惩罚系数;第四项为坠落惩罚,H和Th分别是飞行高度和坠落阈值,Ch为坠落惩罚系数。
(2)利用飞行数据集,基于离线强化学习算法训练自主飞行控制策略,不需要与现实环境实时交互。
训练步骤如下:
步骤一:从飞行数据集
Figure BDA0003028190260000026
中随机采样N个样本对。每个样本对包含当前时刻观测(环境观测和自身状态)、当前时刻动作(飞行控制指令)、下一时刻观测和奖励四个信息。
步骤二:使用对比学习训练特征网络。对比学习使用数据本身提供监督信息,将数据分别与构造的正样本和负样本在特征空间进行对比,学习数据的特征表示。采用实例判别的方式,对观测s中的图像信息进行两次随机裁剪,得到两个新的观测sq和sp,分别输入特征网络Fω和目标特征网络
Figure BDA0003028190260000027
使用Adam优化器根据对比损失函数
Figure BDA0003028190260000028
优化特征网络。其中,
Figure BDA0003028190260000029
为对比损失函数,exp为自然指数函数,log为自然对数函数,τ为温度参数,∑为求和函数,sq和sp分别表示查询样本和正样本,
Figure BDA00030281902600000210
Figure BDA00030281902600000211
分别表示第k个查询样本和第k个正样本,N为样本数量。
步骤三:估计状态-动作价值函数。使用Adam优化器根据Q网络目标函数训练Q网络。Q网络的目标函数为:
Figure BDA00030281902600000212
Figure BDA0003028190260000031
其中,
Figure BDA0003028190260000032
表示Q网络目标函数,s是观测,a是动作,s是下一步观测,r是奖励,
Figure BDA0003028190260000033
为数据集,Qθ为Q网络,
Figure BDA0003028190260000034
为目标Q网络,α为权重,γ为折扣率,x~p表示随机变量x服从分布p,
Figure BDA0003028190260000035
表示随机变量x的期望,πφ表示策略网络。
目标函数包括两部分,后一项是使用时序差分方法来估计状态-动作价值函数。为了解决Q网络对价值函数估计过高问题,在目标函数中加入了前一项,这样Q网络的估计是价值函数的下界,使得对状态-动作价值函数估计比较保守,更有利于策略的学习。
步骤四:策略提升。使用Adam优化器根据策略网络目标函数
Figure BDA0003028190260000036
训练策略网络。其中,
Figure BDA0003028190260000037
表示策略网络目标函数。
步骤五:使用移动平均法分别更新目标特征网络和目标Q网络。
步骤六:重复步骤一至五,直到算法收敛或达到给定训练次数。
步骤七:输出特征网络和策略网络作为自主飞行控制策略。
(3)在现实环境中测试自主飞行策略。使用控制策略操控无人机执行飞行任务,无人机操作员监控飞行状态。收集无人机飞行数据,加入飞行数据集。
(4)迭代执行训练过程(2)和测试过程(3),直到测试过程中自主飞行策略可以完成飞行任务且不需要人为干预。
无人机自主飞行方法需要的硬件包括:
(1)单目摄像头:用于获得无人机前方环境的图像信息。
(2)TOF传感器:用于获得无人机到周围物体的距离信息。
(3)存储器:用于存储训练好的自主飞行控制策略,和保存其他相关数据。
(4)处理器:加载和运行自主飞行控制策略。
有益效果:与现有技术相比,本发明具有的益处有:
(1)本发明使用深度强化学习算法学习自主飞行控制方法,有更好的泛化性和鲁棒性,能够应对复杂多变的现实环境。
(2)本发明仅使用收集的飞行数据,训练时不与现实环境实时交互,避免了巨大的试错代价,训练成本很低。
(3)本发明采用对比学习方法,利用图像本身的信息作为监督信息,学习更加通用的图像特征,提高了模型的泛化性和鲁棒性,加快了训练速度。
(4)本发明基于CQL离线强化学习算法,解决了Q网络对价值函数的估计过高问题,提高了策略的稳定性和可靠性。
附图说明
图1为本发明的整体框架示意图;
图2为本发明所述的特征网络、Q网络和策略网络的示意图;
图3为本发明所述的控制策略的训练流程图;
图4为本发明所述的控制策略的执行流程图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明的整体框架示意图。首先人为控制无人机飞行,存储飞行状态和动作,生成飞行数据集。然后基于飞行数据集使用离线强化学习算法进行离线训练,接着在现实环境中测试控制策略(特征网络和策略网络),同时收集飞行数据加入飞行数据集。重复离线训练和测试过程,直到测试时控制策略能完成飞行任务。
如图2所示,是本发明所述的特征网络、Q网络和策略网络的示意图。输入的观测包括两部分,一是图像信息,二是距离信息和无人机自身状态组成的非图像信息。图像信息输入ResNet网络提取图像特征,图像特征和非图像信息拼接起来作为特征网络的输出。Q网络由三层全连接层组成,采用relu激活函数。策略网络由两个三层全连接网络组成,分别计算μ和σ两个参数,ε是从均值为0方差为1的高斯分布采样得到。μ、σ和ε都是四维向量,计算tanh(μ+σ·ε)得到一个四维向量,代表油门、俯仰、横滚和偏航四个飞行控制指令。
图3为本发明所述的控制策略的训练流程图。流程描述如下:
S2:初始化飞行数据集为空。
S3:人为控制无人机收集飞行数据,加入飞行数据集。
S4:读取飞行数据集,输入学习率、折扣率、权重、间隔等训练所需的超参数。
S5:使用离线强化学习算法训练自主飞行控制策略,训练过程如下:
(1)加载数据集
Figure BDA0003028190260000041
初始化折扣率γ,三种学习率λFQπ,两个权重α,β,温度参数τ,间隔C,总步长T。
(2)初始化神经网络参数,包括:特征网络Fω、目标特征网络
Figure BDA0003028190260000042
Q网络Qθ、目标Q网络
Figure BDA0003028190260000043
以及策略网络πφ
(3)令训练步长t为1,将特征网络参数赋值给目标特征网络,将Q网络参数赋值给目标Q网络:
Figure BDA0003028190260000051
其中,←表示赋值,下同。
(4)从数据集
Figure BDA0003028190260000052
中采样N个样本对(s,a,s′,r)。其中,s是观测,a是动作,s′是下一步观测,r是奖励。
(5)对观测s进行数据增强(比如随机裁剪),得到两个新的观测sq,sp。sq和sp分别表示查询样本和正样本。
(6)训练特征网络,
Figure BDA0003028190260000053
其中,
Figure BDA0003028190260000054
exp为自然指数函数,log为自然对数函数,
Figure BDA0003028190260000055
Figure BDA0003028190260000056
分别表示第k个查询样本和第k个正样本,∑为求和函数,
Figure BDA0003028190260000057
表示对参数求导,下同。
(7)训练Q网络,
Figure BDA0003028190260000058
其中,
Figure BDA0003028190260000059
Figure BDA00030281902600000510
x~p表示随机变量x服从分布p,
Figure BDA00030281902600000511
表示随机变量x的期望。
(8)训练策略网络,
Figure BDA00030281902600000512
其中,
Figure BDA00030281902600000513
(9)如果t可以整除C,那么使用移动平均法更新目标特征网络
Figure BDA00030281902600000514
同样更新目标Q网络
Figure BDA00030281902600000515
否则,执行步骤(10)。
(10)如果t小于T,t自增1,然后重复步骤(4)至(9)。否则,输出策略网络、特征网络和Q网络,训练结束。
S6:无人机系统加载特征网络和策略网络作为控制策略。
S7:测试控制策略,在现实环境中使用控制策略操控无人机,执行流程如图4所示。无人机操作员监控飞行状态,对应急情况进行干预。测试时收集飞行数据并加入数据集。
S8:如果控制策略能够完成飞行任务且不需要人为干预,执行S9。否则,执行S4。
S9:输出特征网络和策略网络。
图4所示的是本发明所述的控制策略的执行流程图。描述如下:
S2:无人机系统加载特征网络和策略网络。
S3:设定无人机的飞行目标。
S4:使用无人机搭载的摄像头获取图像信息,使用TOF传感器获取无人机与周围物体的距离信息,计算无人机自身状态信息。
S5:把图像信息、无人机与周围物体的距离信息和无人机自身状态信息组成观测,输入特征网络得到特征。
S6:策略网络接收特征,输出飞行控制指令。
S7:无人机执行飞行控制指令。
S8:如果已经到达飞行目标,执行步骤S9,否则执行步骤S4。
S9:如果设定新的飞行目标,执行步骤S3,否则结束。

Claims (7)

1.一种基于离线强化学习的无人机自主飞行控制方法,其特征在于,包括如下内容:
(1)通过人为控制的方法操控无人机飞行,收集无人机飞行数据,存储飞行过程中无人机在各个时刻的环境观测、无人机自身状态、飞行控制指令和奖励信息,生成飞行数据集;
(2)利用飞行数据集,基于离线强化学习算法训练自主飞行控制策略;
(3)在现实环境中测试自主飞行策略;使用控制策略操控无人机执行飞行任务,无人机操作员监控飞行状态;收集无人机飞行数据,加入飞行数据集;
(4)迭代执行训练过程(2)和测试过程(3),直到测试过程中自主飞行策略可以完成飞行任务。
2.根据权利要求1所述的基于离线强化学习的无人机自主飞行控制方法,其特征在于,所述环境观测信息包括:使用无人机搭载的摄像头获取的图像信息、使用无人机TOF传感器获取的与周围物体的距离信息。
3.根据权利要求1所述的基于离线强化学习的无人机自主飞行控制方法,其特征在于,所述无人机自身状态包括飞行速度、加速度、飞行姿态、所在位置、和飞行目标的相对位置;飞行控制指令包含油门指令、俯仰指令、横滚指令和偏航指令。
4.根据权利要求1所述的基于离线强化学习的无人机自主飞行控制方法,其特征在于,所述奖励由多种奖赏函数混合得到,R=C1*(-ΔDg)+C2*II(Dg≤Tg)-Cob*II(Dob≤Tob)-Ch*II(H≤Th),其中II(x)是指示函数,当x为真,II(x)=1;否则II(x)=0;其中第一项为靠近飞行目标奖赏,ΔDg是到飞行目标的距离增量,C1为靠近奖赏系数;第二项为到达飞行目标奖赏,Dg和Tg分别是到飞行目标的距离和到达阈值,C2为到达奖赏系数;第三项为碰撞惩罚,Dob和Tob分别是到周围物体的距离和碰撞阈值,Cob为碰撞惩罚系数;第四项为坠落惩罚,H和Th分别是飞行高度和坠落阈值,Ch为坠落惩罚系数。
5.根据权利要求1所述的基于离线强化学习的无人机自主飞行控制方法,其特征在于,基于离线强化学习算法训练自主飞行控制策略,训练步骤如下:
步骤一:从飞行数据集中采样一批样本对;每个样本对包含当前时刻观测、当前时刻动作、下一时刻观测和奖励四个信息;所述当前时刻观测信息是环境观测和自身状态;所述当前时刻动作是飞行控制指令;
步骤二:使用对比学习训练特征网络;对观测中的图像信息进行两次随机裁剪,得到两个新的观测,分别输入特征网络和目标特征网络,使用Adam优化器根据对比损失函数
Figure FDA0003028190250000011
优化特征网络;
步骤三:估计状态-动作价值函数;使用Adam优化器根据Q网络目标函数训练Q网络;Q网络的目标函数为:
Figure FDA0003028190250000021
目标函数包括两部分,后一项是使用时序差分方法来估计状态-动作价值函数;为了解决Q网络对价值函数估计过高问题,在目标函数中加入了前一项,这样Q网络的估计是价值函数的下界,使得对状态-动作价值函数估计比较保守;
步骤四:策略提升;使用Adam优化器根据策略网络目标函数
Figure FDA0003028190250000022
训练策略网络;
步骤五:使用移动平均法分别更新目标特征网络和目标Q网络;
步骤六:重复步骤一至五,直到算法收敛或达到给定训练次数;
步骤七:输出特征网络和策略网络作为自主飞行控制策略。
6.根据权利要求1所述的基于离线强化学习的无人机自主飞行控制方法,其特征在于,通过无人机传感器获取环境观测和无人机自身状态,输入特征网络和策略网络,策略网络输出相应的飞行控制指令,无人机执行指令。
7.根据权利要求1所述的基于离线强化学习的无人机自主飞行控制方法,其特征在于,无人机自主飞行控制方法需要的硬件包括:
(1)单目摄像头:用于获得无人机前方环境的图像信息;
(2)TOF传感器:用于获得无人机到周围物体的距离信息;
(3)存储器:用于存储训练好的自主飞行控制策略,和保存其他相关数据;
(4)处理器:加载和运行自主飞行控制策略。
CN202110422019.5A 2021-04-20 2021-04-20 一种基于离线强化学习的无人机自主飞行控制方法 Active CN113110546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110422019.5A CN113110546B (zh) 2021-04-20 2021-04-20 一种基于离线强化学习的无人机自主飞行控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110422019.5A CN113110546B (zh) 2021-04-20 2021-04-20 一种基于离线强化学习的无人机自主飞行控制方法

Publications (2)

Publication Number Publication Date
CN113110546A true CN113110546A (zh) 2021-07-13
CN113110546B CN113110546B (zh) 2022-09-23

Family

ID=76718535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110422019.5A Active CN113110546B (zh) 2021-04-20 2021-04-20 一种基于离线强化学习的无人机自主飞行控制方法

Country Status (1)

Country Link
CN (1) CN113110546B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113721655A (zh) * 2021-08-26 2021-11-30 南京大学 一种控制周期自适应的强化学习无人机稳定飞行控制方法
CN114578861A (zh) * 2022-04-29 2022-06-03 北京航空航天大学 一种利用阵风环境的无人机飞行控制策略设计方法
CN114660977A (zh) * 2022-05-24 2022-06-24 中国航空工业集团公司沈阳飞机设计研究所 一种飞机自动控制系统、方法、电子设备及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190005828A1 (en) * 2017-06-29 2019-01-03 The Boeing Company Method and system for autonomously operating an aircraft
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110531786A (zh) * 2019-09-10 2019-12-03 西北工业大学 基于dqn的无人机机动策略自主生成方法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN111963115A (zh) * 2020-08-14 2020-11-20 中国石油大学(北京) 一种基于强化学习的煤层气井排采参数智能优化系统和方法
CN112034887A (zh) * 2020-09-10 2020-12-04 南京大学 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN112034888A (zh) * 2020-09-10 2020-12-04 南京大学 一种固定翼无人机自主控制协作策略训练方法
CN112131661A (zh) * 2020-09-10 2020-12-25 南京大学 一种无人机自主跟拍运动目标的方法
CN112162564A (zh) * 2020-09-25 2021-01-01 南京大学 基于模仿学习和强化学习算法的无人机飞行控制方法
US10942923B1 (en) * 2018-12-14 2021-03-09 Teradata Us, Inc. Deep learning for optimizer cardinality estimation

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190005828A1 (en) * 2017-06-29 2019-01-03 The Boeing Company Method and system for autonomously operating an aircraft
US10942923B1 (en) * 2018-12-14 2021-03-09 Teradata Us, Inc. Deep learning for optimizer cardinality estimation
CN110488861A (zh) * 2019-07-30 2019-11-22 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110531786A (zh) * 2019-09-10 2019-12-03 西北工业大学 基于dqn的无人机机动策略自主生成方法
CN111123963A (zh) * 2019-12-19 2020-05-08 南京航空航天大学 基于强化学习的未知环境自主导航系统及方法
CN111963115A (zh) * 2020-08-14 2020-11-20 中国石油大学(北京) 一种基于强化学习的煤层气井排采参数智能优化系统和方法
CN112034887A (zh) * 2020-09-10 2020-12-04 南京大学 无人机躲避柱状障碍物到达目标点的最优路径训练方法
CN112034888A (zh) * 2020-09-10 2020-12-04 南京大学 一种固定翼无人机自主控制协作策略训练方法
CN112131661A (zh) * 2020-09-10 2020-12-25 南京大学 一种无人机自主跟拍运动目标的方法
CN112162564A (zh) * 2020-09-25 2021-01-01 南京大学 基于模仿学习和强化学习算法的无人机飞行控制方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
AVIRAL KUMAR 等: "《Conservative Q-Learning for Offline Reinforcement Learning》", 《ARXIV》 *
YANG YU 等: "《Stereo vision based obstacle avoidance strategy for quadcopter UAV》", 《2018 CHINESE CONTROL AND DECISION CONFERENCE (CCDC)》 *
YONG ZENG 等: "《Path Design for Cellular-Connected UAV with Reinforcement Learning》", 《2019 IEEE GLOBAL COMMUNICATIONS CONFERENCE (GLOBECOM)》 *
YUPENG YANG 等: "《Autonomous UAV Navigation in Dynamic Environments with Double Deep Q-Networks》", 《2020 AIAA/IEEE 39TH DIGITAL AVIONICS SYSTEMS CONFERENCE (DASC)》 *
全权 等: "《低空无人机交通管理概览与建议》", 《航空学报》 *
吴健发 等: "《无人机避障航路规划方法研究综述》", 《无人系统技术》 *
甄岩 等: "《深度强化学习方法在飞行器控制中的应用研究》", 《战术导弹技术》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113721655A (zh) * 2021-08-26 2021-11-30 南京大学 一种控制周期自适应的强化学习无人机稳定飞行控制方法
CN114578861A (zh) * 2022-04-29 2022-06-03 北京航空航天大学 一种利用阵风环境的无人机飞行控制策略设计方法
CN114578861B (zh) * 2022-04-29 2022-08-16 北京航空航天大学 一种利用阵风环境的无人机飞行控制策略设计方法
CN114660977A (zh) * 2022-05-24 2022-06-24 中国航空工业集团公司沈阳飞机设计研究所 一种飞机自动控制系统、方法、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN113110546B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN113110546B (zh) 一种基于离线强化学习的无人机自主飞行控制方法
CN111667513B (zh) 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN112256056B (zh) 基于多智能体深度强化学习的无人机控制方法及系统
CN111123963B (zh) 基于强化学习的未知环境自主导航系统及方法
CN112465151A (zh) 一种基于深度强化学习的多智能体联邦协作方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
CN110673620A (zh) 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
CN110442129B (zh) 一种多智能体编队的控制方法和系统
CN111240356B (zh) 一种基于深度强化学习的无人机集群会合方法
He et al. Deep reinforcement learning based local planner for UAV obstacle avoidance using demonstration data
CN111783994A (zh) 强化学习的训练方法和装置
CN112051863A (zh) 一种无人机自主反侦察及躲避敌方攻击的方法
CN117707207B (zh) 基于深度强化学习的无人机对地目标跟踪与避障规划方法
CN115033022A (zh) 面向移动平台基于专家经验的ddpg无人机降落方法
Park et al. Vision-based obstacle avoidance for UAVs via imitation learning with sequential neural networks
CN107703953B (zh) 一种无人机的姿态控制方法、装置、无人机及存储介质
Huang et al. Attitude control of fixed-wing UAV based on DDQN
CN109375642B (zh) 一种无人机节能控制方法
CN114967721A (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN117215197B (zh) 四旋翼飞行器在线轨迹规划方法、系统、电子设备及介质
CN115826621B (zh) 一种基于深度强化学习的无人机运动规划方法及系统
CN112131661A (zh) 一种无人机自主跟拍运动目标的方法
CN114815904B (zh) 基于注意力网络的无人集群对抗方法、装置及无人设备
CN114371729B (zh) 一种基于距离优先经验回放的无人机空战机动决策方法
CN111562740B (zh) 基于利用梯度的多目标强化学习算法的自动控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant