CN112162564B - 基于模仿学习和强化学习算法的无人机飞行控制方法 - Google Patents
基于模仿学习和强化学习算法的无人机飞行控制方法 Download PDFInfo
- Publication number
- CN112162564B CN112162564B CN202011020765.3A CN202011020765A CN112162564B CN 112162564 B CN112162564 B CN 112162564B CN 202011020765 A CN202011020765 A CN 202011020765A CN 112162564 B CN112162564 B CN 112162564B
- Authority
- CN
- China
- Prior art keywords
- flight
- action
- learning
- aerial vehicle
- unmanned aerial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000002787 reinforcement Effects 0.000 title claims abstract description 29
- 238000004088 simulation Methods 0.000 title claims abstract description 20
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 title claims abstract description 19
- 230000009471 action Effects 0.000 claims abstract description 80
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000013507 mapping Methods 0.000 claims abstract description 3
- 230000000694 effects Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 12
- 230000001276 controlling effect Effects 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 9
- 230000000875 corresponding effect Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000009194 climbing Effects 0.000 claims description 6
- 230000009189 diving Effects 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 claims description 2
- 239000003550 marker Substances 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000008901 benefit Effects 0.000 description 5
- 238000010367 cloning Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开一种基于模仿学习和强化学习算法的无人机飞行控制方法:创建无人机飞行仿真环境模拟器;定义飞行的基本动作集合;根据飞行基本动作将轨迹数据进行分类;对于每个飞行动作,利用模仿学习学出从飞行基本动作到原始动作的映射网络参数;统计每个基本动作的最小连续行动数量;构建上层的强化学习网络,并将最小连续行动数量作为飞机动作不一致性的惩罚p加入;在模拟器中,获取当前的观测信息和奖励,使用pDQN算法,选取对应飞行基本动作;将飞机自身的状态信息输入到飞行基本行动对应的模仿学习神经网络中,输出模拟器的原始行动;将得到的原始行动输入到模拟器中获取下个时刻的观测和奖励;使用pDQN算法进行训练,直到上层的策略网络收敛。
Description
技术领域
本发明涉及一种在复杂的、快速变化的环境下基于模仿学习和强化学习算法的无人机飞行控制方法,属于无人机控制技术领域。
背景技术
无人机在未知环境中的自主飞行问题一直是无人机自主飞行主要难点之一,传统的无人机飞行主要是采用基于规则的控制方法,先将环境可能带来的影响列举出来,再让相关领域专家去制定飞行规则。但是这方法一般只能在环境较为简单的情况下取得比较理想的效果。在复杂变化的环境下,由于受到的影响因素较多,周边的环境场景变化频繁,会出现大量的没有在训练数据中出现过的样本数据。飞行规则在这种情况下往往效果较差甚至无法工作。
近年来随着强化学习算法的发展,众多将其应用在围棋,Atari游戏等领域的研究取得一系列成果。一些无人机飞行领域的相关研究通过将使用强化学习算法,在构建了动力学仿真环境模拟器基础上,设计合理的奖赏函数,可以实现使无人机在复杂多变的情况下自主飞行控制取得较好的效果。由于训练采样丰富,使用强化学习得到的飞行控制策略,相比与规则控制无人机,在各种复杂变化情况下有着更加高效,灵活的优点。然而,在完整的一局飞行过程中,强化学习的探索学习空间过大,得到的奖励稀疏,效果严重依赖参数调优trick,训练困难。
对于该问题,一种改进方法是采用分层强化学习算法,将无人机自主飞行过程抽象分为两层,高层策略负责选择飞机的抽象的策略行动,底层策略负责探索该动作的最优飞行参数进行控制。该方法通过将飞行动作类型固定,缩小探索空间,降低学习难度。然而,在分层强化学习算法中,如何定义高层的抽象策略是一个较为困难的问题。常用的方法是基于当前模拟环境另外构建剥离了飞行细节的简化环境,在该环境中学习抽象策略。但当原始的仿真环境比较复杂时,往往难以构建简化的抽象环境。同时,如果底层的飞行控制参数直接在原始的动力学仿真环境模拟器中进行学习,最后学习出来的飞行动作连贯性、平稳性较差,与实际的飞行动作差别较大。
发明内容
发明目的:针对现有技术中无人机自主飞行问题,规则控制无法处理复杂变化环境,以及强化学习算法行动探索空间过大,奖励稀疏,学出的飞行策略不够平稳、波动较大等缺点,本发明提供一种基于模仿学习和强化学习算法的无人机飞行控制方法。
鉴于基于规则的专家系统具有能有效利用先验知识,简单高效,发展成熟等优点,同时也考虑到分层强化学习算法的优点和限制,本发明所采用的技术方案是基于分层强化学习算法思想,结合先验知识对其进行改进。先根据实际的完整飞行动作去定义高层的抽象动作空间,再通过底层的模仿学习去拟合对应的动作。本方法学习到的飞行控制方法动作连续流畅,与实际的飞行动作相似度较高。同时可以在后续在高层的抽象动作空间中加入新的飞行动作,可扩展性较强。
技术方案:一种基于模仿学习和强化学习算法的无人机飞行控制方法,包括如下内容:
(1)基于空气动力学构建无人机的环境模拟器;
(2)根据实际的飞行效果,定义19个机动动作;使用模仿学习,得到机动动作和模拟器中原始动作的映射网络,将定义机动动作的集合作为新的基本动作库;模拟器原始动作是模拟器中飞机的驾驶控杆指令:包括控制飞机飞行速度的油门控制指令,以及控制飞行的三个基本角度变化指令:俯仰指令、翻滚指令、偏航指令。
(3)通过使用强化学习算法,进行上层的策略选择。根据环境模拟器提供的观测信息,在新的基本动作库中选择飞行动作去规划无人机飞行,得到无人机自主飞行控制的智能体,将学习到的无人机自主飞行控制的智能体,迁移到真实环境中。
所述环境模拟器接受无人机的原始输入信息,并将部分环境信息和飞机自身状态信息作为观测值返还给无人机,这个过程定义为马尔可夫决策过程的元组形式(O,A,P,R),其中观测信息O由两部分组成,外部的环境信息E和无人机自身的状态信息S,其中S=<V,α,β,γ>,分别对应飞机当前的速度,相对于北偏东坐标系的三个角度。A是无人机的动作集合,P是模拟器中状态的转移概率,R是奖励函数。
所述的无人机原始输入信息,指的是无人机行动集合A,模拟真实飞行的驾驶杆控制操作,包括控制飞机飞行速度的油门控制指令,以及控制飞行的三个基本角度变化指令:俯仰指令、翻滚指令、偏航指令,其形式为a=<Δv,Δα,Δβ,Δγ>,空间大小为
所述的机动动作,是基于实际飞行员操作飞行指令,一共定义了19个机动动作,分别为:等速平飞、平飞加减速、最速爬升、等航迹角爬升、水平转弯、稳定转弯、俯冲、横切、半滚倒转、斜斤斗、偏置、转入、向下斜斤斗、中断、S形、拦射、快转、抛射、偏置俯冲。
对于每一个机动动作,采集飞行员在无人机飞行过程中执行的实际飞行操作序列(τ1,τ2,...,τm),并将操作序列转换为环境模拟器中的驾驶杆指令对于转换后的机动动作,结合机动动作的定义对于模拟器中的实际效果进行微调,使其效果符合定义的机动动作,并且对于数据样本量不够多的机动动作,在模拟器中直接输入指令,对样本进行扩充。对于扩充后的数据样本进行模仿学习。
所述的模仿学习为:对于每一个机动动作,把环境模拟器中的轨迹对应的所有「状态-动作对」抽取出来构造新的集合将状态作为特征(feature),驾驶杆指令作为标记(label)学习而得到最优策略模型,模型的训练目标是使模型生成的状态-动作轨迹分布和输入的轨迹分布相匹配。从而达到行为克隆(BehaviorCloning)的效果。
对于新定义的飞机机动动作结合,使用强化学习算法进行策略选择。根据环境模拟器提供的观测信息,在新的机动动作库中选择合适的飞行机动动作去规划无人机飞行。
目的是优化改函数,直至θ收敛。
其中,先从下层行动的网络集合中获取每个机动动作的最小连续数量集合S,s代表当策略选择算法所选择的机动动作的最小连续数量。m是当前机动动作已经连续执行的数量,如果一个机动动作持续的数量小于最小连续数量,说明该动作不够连贯,需要进行惩罚。策略网络在t时刻选择机动动作的惩罚为Pt。
有益效果:与现有技术相比,本发明提供的基于模仿学习和强化学习算法的无人机飞行控制方法,具有如下优点:
1、本发明采用分层强化学习算法(上层是强化学习,下层是模仿学习。)实现无人机控制,能有效解决强化学习算法在多步决策中面临的行动探索空间过大,奖励稀疏的缺陷;
2、本发明通过使用模仿学习的方法,将原始问题的行动空间转换成定义得到的新的行动空间。
3、本发明定义的行动空间是基于真实的飞行机动,最后学习出来的飞行效果较一般的强化学习算法飞行更加稳定,与飞行员真实的飞行轨迹相似度更高。
4、本发明定义的行动空间支持飞机机动集合的扩充,可扩展性更强,适合迁移。
附图说明
图1为本发明的整体训练框架图;
图2为本发明模仿学习训练的流程图;
图3为本发明策略选择的强化学习神经网络结构图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于模仿学习和强化学习算法的无人机飞行控制方法,根据实际的飞行资料定义不同的完整飞行动作,通过模仿学习对采集到的飞行轨迹进行学习,达到将原问题的行动空间化简的效果。之后在简化的空间里使用DQN算法的改进算法pDQN算法去学习策略。包括以下步骤:
步骤一:
首先构造出一个基于空气动力学的环境模拟器,其可视化部分基于unity3D引擎实现,该环境模拟器会用来进行无人机飞行选择策略的学习。环境模拟器中的环境能随机的生成各种复杂的障碍环境,并且会随着时间的变化而不断的变化。环境模拟器接受无人机的原始输入信息,并将部分环境信息和飞机自身状态信息作为观测值返还给无人机,这个过程定义为马尔可夫决策过程(MDP)的元组形式(O,A,P,R),其中观测信息O由两部分组成,外部的环境信息E和无人机自身的状态信息S,其中S=<V,α,β,γ>,分别对应飞机当前的速度,相对于北偏东坐标系的三个角度。行动空间a=<Δv,Δα,Δβ,Δγ>,为模拟真实飞行的驾驶杆控制操作,包括控制飞机飞行速度的油门控制指令,以及控制飞机飞行的三个基本角度变化指令:俯仰指令、翻滚指令、偏航指令。
步骤二:
基于实际飞行员操作飞行指令,定义机动动作,作为无人机基本动作。一共定义了19个机动动作,分别为:等速平飞、平飞加减速、最速爬升、等航迹角爬升、水平转弯、稳定转弯、俯冲、横切、半滚倒转、斜斤斗、偏置、转入、向下斜斤斗、中断、S形、拦射、快转、抛射、偏置俯冲。转换后得到的飞机基本动作(Marco Action)A空间大小为19。
对于每个机动动作,采集飞行员在无人机飞行过程中执行的实际飞行操作序列(τ1,τ2,...,τm),并将操作序列转换为环境模拟器中的驾驶杆指令轨迹其中表示第i条操作序列中无人机在n时刻的状态,表示无人机对于该状态所做出的动作。之后将模拟器中操作序列按照预定义的机动动作进行分类。对于分类后的机动动作,根据机动号的实际效果删除飞行不连贯或者飞行姿态有问题的数据样本。并且对于数据样本量不够充足的飞行机动动作(预设每种机动动作需要1000条操作序列),在模拟器中直接输入驾驶杆指令,对样本进行扩充。
步骤三
对于每一个机动动作,把环境模拟器中的驾驶杆指令轨迹对应的所有「状态-动作对」抽取出来构造新的集合将无人机自身的状态si作为特征(feature),驾驶杆指令行动ai作为标记(label)进行模仿学习。
模仿学习的神经网络是多层前馈神经网络,输入层是无人机自身的状态,输出是驾驶杆指令行动,激活函数是sigmoid函数。训练方法是使用BP算法,最小化训练集上的累计误差:
其中m是当前机动动作状态-动作对的数据样本中样本数量,k是当前第k个样本,表示对于当前第k个样本,该状态对应的行动ak的第j个属性,ak一共有四个属性,包括控制飞机飞行速度的油门控制指令,以及控制飞机飞行的三个基本角度变化指令:俯仰指令、翻滚指令、偏航指令。是模仿学习神经网络对应的输出。
通过迭代对网络参数进行更新,直至达到最大迭代次数或者收敛为止,得到无人机基本动作网络。
对于每一个机动动作,都建立一个模仿学习神经网络进行,将19个无人机基本动作(Marco Action)的网络全部训练完毕,用网络拟合的函数将得到的机动动作作为新的行动空间(新的基本动作库)去替换原始环境中的驾驶杆控制动作空间。
步骤四:
对于新的行动空间的策略选择训练所使用的算法是Deep-Q-Learning的方法。使用tensorflow搭建策略网络。最小化损失函数:
其中,先从下层行动的网络集合中获取每个机动动作的最小连续数量集合S,s代表当策略选择算法所选择的机动动作的最小连续数量。m是当前机动动作已经连续执行的数量,如果一个机动动作持续的数量小于最小连续数量,说明该动作不够连贯,需要进行惩罚。策略网络在t时刻选择机动动作的惩罚为Pt。
通过迭代对网络参数进行更新,直至达到最大迭代次数或者收敛为止,得到无人机自主飞行控制的智能体。
步骤五:
将学习到的无人机自主飞行控制的智能体,迁移到真实环境中。
Claims (7)
1.一种基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,包括如下内容:
(1)基于空气动力学构建无人机的环境模拟器;
(2)根据实际的飞行效果,定义机动动作;
模仿学习的神经网络是多层前馈神经网络,输入层是无人机自身的状态,输出是驾驶杆指令行动,激活函数是sigmoid函数;训练方法是使用BP算法,最小化训练集上的累计误差:
通过迭代对网络参数进行更新,直至达到最大迭代次数或者收敛为止,得到无人机基本动作网络,得到机动动作和模拟器中原始动作的映射网络,将定义的机动动作的集合作为新的基本动作库;
(3)通过使用强化学习算法,进行上层的策略选择,根据环境模拟器提供的观测信息,在新的基本动作库中选择飞行动作去规划无人机飞行,得到无人机自主飞行控制的智能体,将学习到的无人机自主飞行控制的智能体,迁移到真实环境中。
2.根据权利要求1所述的基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,所述环境模拟器接受无人机的原始输入信息,并将环境信息和飞机自身状态信息作为观测值返还给无人机,这个过程定义为马尔可夫决策过程的元组形式(O,A,P,R),其中观测信息O由两部分组成,外部的环境信息E和无人机自身的状态信息S,其中S=<V,α,β,γ>,分别对应飞机当前的速度,相对于北偏东坐标系的三个角度。
3.根据权利要求2所述的基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,所述的无人机原始输入信息,指的是无人机行动集合A,模拟真实飞行的驾驶杆控制操作,包括控制飞机飞行速度的油门控制指令,以及控制飞行的三个基本角度变化指令:俯仰指令、翻滚指令、偏航指令,其形式为a=<Δv,Δα,Δβ,Δγ>。
4.根据权利要求1所述的基于模仿学习和强化学习算法的无人机飞行控制方法,其特征在于,所述的机动动作,是基于实际飞行员操作飞行指令,一共定义了19个机动动作,分别为:等速平飞、平飞加减速、最速爬升、等航迹角爬升、水平转弯、稳定转弯、俯冲、横切、半滚倒转、斜斤斗、偏置、转入、向下斜斤斗、中断、S形、拦射、快转、抛射、偏置俯冲。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011020765.3A CN112162564B (zh) | 2020-09-25 | 2020-09-25 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011020765.3A CN112162564B (zh) | 2020-09-25 | 2020-09-25 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112162564A CN112162564A (zh) | 2021-01-01 |
CN112162564B true CN112162564B (zh) | 2021-09-28 |
Family
ID=73863785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011020765.3A Active CN112162564B (zh) | 2020-09-25 | 2020-09-25 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112162564B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766499A (zh) * | 2021-02-02 | 2021-05-07 | 电子科技大学 | 一种通过强化学习技术实现无人机自主飞行的方法 |
CN112879220B (zh) * | 2021-03-16 | 2022-11-01 | 上海电气风电集团股份有限公司 | 风机控制方法、系统和可读存储介质 |
CN113110546B (zh) * | 2021-04-20 | 2022-09-23 | 南京大学 | 一种基于离线强化学习的无人机自主飞行控制方法 |
CN113281999A (zh) * | 2021-04-23 | 2021-08-20 | 南京大学 | 一种基于强化学习和迁移学习的无人机自主飞行训练方法 |
CN113282061A (zh) * | 2021-04-25 | 2021-08-20 | 南京大学 | 一种基于课程学习的无人机空中博弈对抗的解决方法 |
CN113467515B (zh) * | 2021-07-22 | 2023-03-10 | 南京大学 | 基于虚拟环境模仿重构和强化学习的无人机飞行控制方法 |
CN113721645A (zh) * | 2021-08-07 | 2021-11-30 | 中国航空工业集团公司沈阳飞机设计研究所 | 一种基于分布式强化学习的无人机连续机动控制方法 |
CN113706197A (zh) * | 2021-08-26 | 2021-11-26 | 西安交通大学 | 基于强化和模仿学习的多微网电能交易的定价策略及系统 |
CN113741533A (zh) * | 2021-09-16 | 2021-12-03 | 中国电子科技集团公司第五十四研究所 | 一种基于模仿学习与强化学习的无人机智能决策系统 |
CN113885576A (zh) * | 2021-10-29 | 2022-01-04 | 南京航空航天大学 | 基于深度强化学习的无人机编队环境建立与控制方法 |
CN114841362A (zh) * | 2022-03-30 | 2022-08-02 | 山东大学 | 一种利用虚拟现实技术进行模仿学习数据收集的方法 |
CN116954156B (zh) * | 2023-09-19 | 2023-12-15 | 中科航迈数控软件(深圳)有限公司 | 数控加工的工艺路线规划方法、装置、设备及介质 |
CN117252111B (zh) * | 2023-11-15 | 2024-02-23 | 中国电建集团贵阳勘测设计研究院有限公司 | 一种堤坝隐患和险情区域主动监测方法 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109835375A (zh) * | 2019-01-29 | 2019-06-04 | 中国铁道科学研究院集团有限公司通信信号研究所 | 基于人工智能技术的高速铁路列车自动驾驶系统 |
CN109992000A (zh) * | 2019-04-04 | 2019-07-09 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
CN110333739A (zh) * | 2019-08-21 | 2019-10-15 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
CN110502034A (zh) * | 2019-09-04 | 2019-11-26 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的固定翼无人机群集控制方法 |
CN110502033A (zh) * | 2019-09-04 | 2019-11-26 | 中国人民解放军国防科技大学 | 一种基于强化学习的固定翼无人机群集控制方法 |
CN110989649A (zh) * | 2019-12-26 | 2020-04-10 | 中国航空工业集团公司沈阳飞机设计研究所 | 面向高机动固定翼无人机的飞行动作控制装置及训练方法 |
CN110991027A (zh) * | 2019-11-27 | 2020-04-10 | 华南理工大学 | 一种基于虚拟场景训练的机器人模仿学习方法 |
CN111144580A (zh) * | 2019-12-31 | 2020-05-12 | 中国电子科技集团公司信息科学研究院 | 一种基于模仿学习的层级强化学习训练方法和装置 |
CN111136659A (zh) * | 2020-01-15 | 2020-05-12 | 南京大学 | 基于第三人称模仿学习的机械臂动作学习方法及系统 |
CN111339690A (zh) * | 2019-04-26 | 2020-06-26 | 成都蓉奥科技有限公司 | 一种基于期望值函数的深度强化学习训练加速方法 |
CN111461325A (zh) * | 2020-03-30 | 2020-07-28 | 华南理工大学 | 一种用于稀疏奖励环境问题的多目标分层强化学习算法 |
WO2020154542A1 (en) * | 2019-01-23 | 2020-07-30 | Google Llc | Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11568207B2 (en) * | 2018-09-27 | 2023-01-31 | Deepmind Technologies Limited | Learning observation representations by predicting the future in latent space |
-
2020
- 2020-09-25 CN CN202011020765.3A patent/CN112162564B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020154542A1 (en) * | 2019-01-23 | 2020-07-30 | Google Llc | Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning |
CN109835375A (zh) * | 2019-01-29 | 2019-06-04 | 中国铁道科学研究院集团有限公司通信信号研究所 | 基于人工智能技术的高速铁路列车自动驾驶系统 |
CN109992000A (zh) * | 2019-04-04 | 2019-07-09 | 北京航空航天大学 | 一种基于分层强化学习的多无人机路径协同规划方法及装置 |
CN111339690A (zh) * | 2019-04-26 | 2020-06-26 | 成都蓉奥科技有限公司 | 一种基于期望值函数的深度强化学习训练加速方法 |
CN110333739A (zh) * | 2019-08-21 | 2019-10-15 | 哈尔滨工程大学 | 一种基于强化学习的auv行为规划及动作控制方法 |
CN110502034A (zh) * | 2019-09-04 | 2019-11-26 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的固定翼无人机群集控制方法 |
CN110502033A (zh) * | 2019-09-04 | 2019-11-26 | 中国人民解放军国防科技大学 | 一种基于强化学习的固定翼无人机群集控制方法 |
CN110991027A (zh) * | 2019-11-27 | 2020-04-10 | 华南理工大学 | 一种基于虚拟场景训练的机器人模仿学习方法 |
CN110989649A (zh) * | 2019-12-26 | 2020-04-10 | 中国航空工业集团公司沈阳飞机设计研究所 | 面向高机动固定翼无人机的飞行动作控制装置及训练方法 |
CN111144580A (zh) * | 2019-12-31 | 2020-05-12 | 中国电子科技集团公司信息科学研究院 | 一种基于模仿学习的层级强化学习训练方法和装置 |
CN111136659A (zh) * | 2020-01-15 | 2020-05-12 | 南京大学 | 基于第三人称模仿学习的机械臂动作学习方法及系统 |
CN111461325A (zh) * | 2020-03-30 | 2020-07-28 | 华南理工大学 | 一种用于稀疏奖励环境问题的多目标分层强化学习算法 |
Non-Patent Citations (4)
Title |
---|
Environment Reconstruction with Hidden Confounders for Reinforcement Learning based Recommendation;Shang, Wenjie,et al.;《 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD)》;20191231;全文 * |
Hierarchical Imitation and Reinforcement Learning;Hoang M.Le.et al.;《Proceedings of the 35th International Conference on Machine Learning,Stockholm,Sweden》;20181231;全文 * |
强化学习稀疏奖励算法研究——理论与实验;杨瑞;《智能系统学报》;20200921;第15卷(第5期);全文 * |
深度强化学习理论及其应用综述;万里鹏 等;《模式识别与人工智能》;20190131;第32卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112162564A (zh) | 2021-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112162564B (zh) | 基于模仿学习和强化学习算法的无人机飞行控制方法 | |
CN112034888B (zh) | 一种固定翼无人机自主控制协作策略训练方法 | |
CN110488859B (zh) | 一种基于改进Q-learning算法的无人机航路规划方法 | |
CN110531786B (zh) | 基于dqn的无人机机动策略自主生成方法 | |
Phillips et al. | Helicopter flight control with fuzzy logic and genetic algorithms | |
CN100591900C (zh) | 具有三个控制环设计的飞行控制系统 | |
Ferdaus et al. | Towards the use of fuzzy logic systems in rotary wing unmanned aerial vehicle: a review | |
Clarke et al. | Deep reinforcement learning control for aerobatic maneuvering of agile fixed-wing aircraft | |
Handelman et al. | Robotic skill acquisition based on biological principles | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
Zhen et al. | Deep reinforcement learning attitude control of fixed-wing UAVs | |
Juang et al. | Disturbance encountered landing system design based on sliding mode control with evolutionary computation and cerebellar model articulation controller | |
CN113485443A (zh) | 基于深度学习的无人机控制方法、存储介质及设备 | |
CN114237267A (zh) | 基于强化学习的飞行机动决策的辅助方法 | |
Li et al. | Basic flight maneuver generation of fixed-wing plane based on proximal policy optimization | |
CN113093568A (zh) | 基于长短时记忆网络的飞机自动驾驶操作模拟方法 | |
CN114237268A (zh) | 一种基于深度强化学习的无人机强鲁棒姿态控制方法 | |
Stewart et al. | Multi-objective evolutionary—fuzzy augmented flight control for an F16 aircraft | |
CN116339373A (zh) | 一种蒙特卡洛自适应动态规划无人机控制方法及系统 | |
Zhu et al. | Multi-constrained intelligent gliding guidance via optimal control and DQN | |
CN113778117B (zh) | 一种针对飞机纵向最优路径规划的初值智能选取多阶段伪谱法 | |
CN115289917A (zh) | 基于深度学习的火箭子级着陆实时最优制导方法及系统 | |
CN114489095A (zh) | 一种应用于变体飞行器的类脑脉冲神经网络控制方法 | |
CN114879490A (zh) | 一种无人机栖落机动的迭代优化与控制方法 | |
Jiang et al. | Safely Learn to Fly Aircraft From Human: An Offline-Online Reinforcement Learning Strategy and Its Application to Aircraft Stall Recovery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |