CN112766499A - 一种通过强化学习技术实现无人机自主飞行的方法 - Google Patents
一种通过强化学习技术实现无人机自主飞行的方法 Download PDFInfo
- Publication number
- CN112766499A CN112766499A CN202110145972.XA CN202110145972A CN112766499A CN 112766499 A CN112766499 A CN 112766499A CN 202110145972 A CN202110145972 A CN 202110145972A CN 112766499 A CN112766499 A CN 112766499A
- Authority
- CN
- China
- Prior art keywords
- neural network
- action
- autonomous flight
- reward
- aerial vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及信息处理领域,具体是一种通过强化学习技术实现无人机自主飞行的方法,包括如下步骤:步骤一、获取模拟数据集和真实数据集;步骤二、提取图像特征和动作特征;步骤三、使用Q‑learn ing训练一个深度神经网络Q‑funct ion;步骤四、构建现实世界策略学习网络,将深度神经网络Q‑funct ion训练好的参数迁移至现实世界策略学习网络中,训练行动条件奖励预测函数;步骤五、输入状态向量和H个未来计划行动向量的序列至行动条件奖励预测函数,通过一个长短期记忆循环神经网络整合之后,并在将来的每个时间点输出预测的奖励;步骤六、根据预测的奖励实现自主飞行;该方法能够使机器人仅使用单目摄像机就可以避免碰撞以实现自主飞行。
Description
技术领域
本发明涉及信息处理领域,具体是指一种通过强化学习技术实现无人机自主飞行的方法。
背景技术
深度强化学习算法提供了一种诱人的可能性,使机器人的感知和控制系统共同自动化,而所需的人工工程量却很少,而且通用性很高,例如,可以使用经过深度强化学习训练的卷积神经网络模型来避免碰撞,并且仅使用低成本,低功率的摄像头就能在建筑物内导航,从而使其非常适合SWaP(尺寸,重量和功率)受限的自主式飞行,但是,与所有基于学习的系统一样,所学习的策略能够推广到新情况的能力在很大程度上取决于可用于训练的数据的数量和种类,虽然从原理上说自动机器人可以直接在现实世界中收集自己的数据,但是泛化非常依赖于数据集的大小和多样性,以至于几乎总是可以通过添加更多经验来加以改进,特别是对于脆弱且对安全至关重要的系统(例如四旋翼无人机),可能难以收集大数据集,因此,将其他更丰富的数据源集成到训练过程中是非常有利的。
模拟渲染物理场景可以提供更大的数据集,但是这类数据本质上质量较低:许多使现实世界中的自主飞行问题具有挑战性的现象,例如气流等复杂的物理因素,都很难建模或根本没有建模,而且模拟与现实世界之间的系统差异通常无法消除,本发明通过将模拟环境和真实环境的数据结合在一个混合的深度强化学习算法中,通过使用真实环境的数据来了解系统的动态,并使用模拟环境的数据来学习一个可概括的感知系统,该框架能够使机器人仅使用单目摄像机就可以避免碰撞以实现自主飞行,本发明旨在设计一种转移学习算法,其中影响无人机的物理因素主要从真实世界的数据中学习,而模拟环境则提供了可推广到新环境的视觉感知系统,从本质上讲,真实世界的经验用于学习如何完成,而模拟经验则用于学习如何进行概括,我们不是使用实际数据对深度神经网络策略进行微调,而是将模型分为感知和控制子系统,感知子系统从模拟环境传递视觉特征,而控制子系统则通过实际数据进行训练,与其他技术相比,这使我们的方法能够将经验从仿真转移并更有效地推广到新的实际环境中。
发明内容
基于以上问题,本发明提供了一种通过强化学习技术实现无人机自主飞行的方法,通过将模拟环境和真实环境的数据结合在一个混合的深度强化学习算法中,通过使用真实环境的数据来了解系统的动态,并使用模拟环境的数据来学习一个可概括的感知系统,该方法能够使机器人仅使用单目摄像机就可以避免碰撞以实现自主飞行。
为解决以上技术问题,本发明采用的技术方案如下:
一种通过强化学习技术实现无人机自主飞行的方法,包括如下步骤:
步骤一、获取模拟数据集(st,at,rt)∈DSIM和真实数据集(st,at,rt)∈DRW,其中,st为输入状态向量,at为输入动作向量,rt为奖励;
步骤二、输入状态向量[st-3,st-2,st-1,st]至卷积神经网络提取图像特征,然后与输入的动作向量at进行整合,提取动作特征;
步骤三、使用Q-learning训练一个深度神经网络Q-function Qθ(st,at);
进一步,所述深度神经网络Q-function Qθ(st,at)中,通过使模拟数据集(st,at,r)∈DSIM中的所有状态,动作,奖励,下一状态元组的Bellman误差最小化来更新参数,公式如下:
其中,γ表示折扣因子。
进一步,所述深度神经网络Q-function Qθ(st,at)中,通过找到使深度神经网络Q-function Qθ(st,at)最大化的动作来选择最佳动作,公式如下:
与现有技术相比,本发明的有益效果是:
1、与传统的无人机的自主飞行模型方法相比,本发明通过大量的模拟数据与少量的实际经验相结合的方法,并通过深度强化学习来自动地训练真实世界的避免碰撞策略,更好地了解了无人机的物理特性及其在现实世界中的动力学特性,同时从模拟中学习视觉不变性和通过的图像提取与避障模式。
2、与传统的深度学习框架相比,本发明是将真实世界的经验用于学习如何完成,而模拟经验则用于学习如何进行概括,其中,不是使用实际数据对深度神经网络策略进行微调,而是将模型分为感知和控制子系统,感知子系统从模拟数据中学会传递视觉特征的方法,而控制子系统则使用实际数据进行训练,与传统技术相比,可以将知识从仿真环境转移并更有效地推广到新的实际环境中。
附图说明
图1为本实施例的流程图;
图2为本实施例的框架图。
具体实施方式
下面结合附图对本发明作进一步的说明。本发明的实施方式包括但不限于下列实施例。
如图1所示的一种通过强化学习技术实现无人机自主飞行的方法,包括如下步骤:
步骤一、获取模拟数据集(st,at,rt)∈DSIM和真实数据集(st,at,rt)∈DRW,其中,st为输入状态向量,at为输入动作向量,rt为奖励;
其中,从无人机平台或者使用无人机模拟环境获取模拟数据集(st,at,rt)∈DSIM,从无人机网站或者自己使用无人机从现实世界中收集小型数据集,得到真实数据集(st,at,rt)∈DRW,数据均分为三部分,输入状态向量st,输入动作向量at和奖励rt。
步骤二、输入状态向量[st-3,st-2,st-1,st]至卷积神经网络提取图像特征,然后与输入的动作向量at进行整合,提取动作特征;
其中,卷积神经网络如图2所示,使用8×8×64,步长为4的卷积层得到conv1,conv1使用4×4×32,步长为2的卷积层得到conv2,conv2使用3×3×32,步长为2的卷积层得到conv3,conv3使用3×3×32,步长为2的卷积层得到conv4,conv4通过256维的全连接层得到f1,f1通过128维的全连接层得到f2,后续还包括两个16维的全连接层与3个16维的全连接层。
步骤三、使用Q-learning训练一个深度神经网络Q-function Qθ(st,at);
其中,深度神经网络Q-function Qθ(st,at)表示无人机在状态st上执行at操作并在其后以最佳方式运行时将获得的预期未来期望总额,使用Q-learning算法可以在仿真中访问大量数据,这是进行深度用Q-learning的要求,并且用Q-learning可以学习长期的任务,有利于提升学习到的视觉特征,通过使模拟数据集(st,at,r)∈DSIM中的所有状态,动作,奖励,下一状态元组的Bellman误差最小化来更新参数,公式如下:
其中,γ表示折扣因子,且γ∈[0,1);
另外,通过找到使深度神经网络Q-function Qθ(st,at)最大化的动作来选择最佳动作,公式如下:
基于以上步骤,利用如下实施例对本申请进一步说明:
步骤一、从无人机网站或者自己使用无人机从现实世界中收集小型数据集,对数据进行预处理,主要是对每一个状态st下,采取动作at后,若发生碰撞则奖励rt=-1,否则奖励rt=0,数据补充完成之后,分为三部分,输入状态向量st,输入动作向量at与奖励rt,得到真实数据集(st,at,rt)∈DRW,从无人机平台或者使用无人机模拟环境获取模拟数据集(st,at,rt)∈DSIM,分为三部分,输入状态向量st,输入动作向量at与奖励rt;
步骤二、学习特定于任务的模型,通过利用在仿真中收集的数据与数量有限的实际数据结合来学习实际场景下的控制策略,在每个时间点t处,无人机在状态st∈S中在at∈A处选择一个动作,并根据未知的条件概率分布T(st+1|st,at)进入下一个状态st+1,并接收具体的任务奖励rt,无人机学习参数向量θ的策略分布πθ(at,st)的θ,使得带未来折扣的期望和最大化,其中折扣因子γ∈[0,1)决定无人机在遥远的将来关心收益的程度,在模拟环境下,我们输入状态向量[st-3,st-2,st-1,st]进入图2所示的卷积神经网络中提取图像特征,然后与输入的动作向量at进行整合,使用Q-learning训练一个深度神经网络Q-function Qθ(st,at)。
步骤三、使用步骤二提取到的图像特征和动作特征,使用Q-learning的方法训练一个深度神经网络Q-function Qθ(st,at),由于飞行是连续的动作,使用连续的四个状态作为输入,即输入状态向量[st-3,st-2,st-1,st],使用8×8×64,步长为4的卷积层得到conv1,conv1使用4×4×32,步长为2的卷积层得到conv2,conv2使用3×3×32,步长为2的卷积层得到conv3,conv3使用3×3×32,步长为2的卷积层得到conv4,conv4通过256维的全连接层得到f1,f1通过128维的全连接层得到f2,输入的动作向量at经过两个16维的全连接层后与f2整合后再经过3个16维的全连接层后即可得到当前状态下采取动作at后的Q值。
步骤五:训练步骤四的模型,输入状态向量[st-3,st-2,st-1,st]和H个未来计划行动向量的序列将通过两个16维的全连接层后与输入状态向量[st-3,st-2,st-1,st]整合在一起,再通过一个长短期记忆循环神经网络即LSTM之后通过三个16维的全连接层即可得到在状态[st-3,st-2,st-1,st]下采取H个未来计划行动后预测的奖励根据预测的奖励选择接下来的动作实现自主飞行。
如上即为本发明的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书及附图内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (4)
1.一种通过强化学习技术实现无人机自主飞行的方法,其特征在于,包括如下步骤:
步骤一、获取模拟数据集(st,at,rt)∈DSIM和真实数据集(st,at,rt)∈DRW,其中,st为输入状态向量,at为输入动作向量,rt为奖励;
步骤二、输入状态向量[st-3,st-2,st-1,st]至卷积神经网络提取图像特征,然后与输入的动作向量at进行整合,提取动作特征;
步骤三、使用Q-learning训练一个深度神经网络Q-function Qθ(st,at);
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110145972.XA CN112766499A (zh) | 2021-02-02 | 2021-02-02 | 一种通过强化学习技术实现无人机自主飞行的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110145972.XA CN112766499A (zh) | 2021-02-02 | 2021-02-02 | 一种通过强化学习技术实现无人机自主飞行的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112766499A true CN112766499A (zh) | 2021-05-07 |
Family
ID=75704707
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110145972.XA Pending CN112766499A (zh) | 2021-02-02 | 2021-02-02 | 一种通过强化学习技术实现无人机自主飞行的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112766499A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113156957A (zh) * | 2021-04-27 | 2021-07-23 | 东莞理工学院 | 基于对抗生成网络的自主移动机器人自监督学习及导航方法 |
CN113386133A (zh) * | 2021-06-10 | 2021-09-14 | 贵州恰到科技有限公司 | 一种强化学习机器人控制方法 |
CN113532461A (zh) * | 2021-07-08 | 2021-10-22 | 山东新一代信息产业技术研究院有限公司 | 一种机器人自主避障导航的方法、设备及存储介质 |
CN114326821A (zh) * | 2022-03-02 | 2022-04-12 | 中国人民解放军陆军指挥学院 | 基于深度强化学习的无人机自主避障系统及方法 |
CN114355980A (zh) * | 2022-01-06 | 2022-04-15 | 上海交通大学宁波人工智能研究院 | 基于深度强化学习的四旋翼无人机自主导航方法与系统 |
CN114626277A (zh) * | 2022-04-02 | 2022-06-14 | 浙江大学 | 一种基于强化学习的主动流动控制方法 |
CN116522802A (zh) * | 2023-06-29 | 2023-08-01 | 北京天航华创科技股份有限公司 | 一种基于气象数据的无人飞艇智能飞行规划方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN112051863A (zh) * | 2020-09-25 | 2020-12-08 | 南京大学 | 一种无人机自主反侦察及躲避敌方攻击的方法 |
CN112162564A (zh) * | 2020-09-25 | 2021-01-01 | 南京大学 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
-
2021
- 2021-02-02 CN CN202110145972.XA patent/CN112766499A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106970615A (zh) * | 2017-03-21 | 2017-07-21 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN112051863A (zh) * | 2020-09-25 | 2020-12-08 | 南京大学 | 一种无人机自主反侦察及躲避敌方攻击的方法 |
CN112162564A (zh) * | 2020-09-25 | 2021-01-01 | 南京大学 | 基于模仿学习和强化学习算法的无人机飞行控制方法 |
Non-Patent Citations (1)
Title |
---|
KATIE KANG ET AL.: "Generalization through Simulation: Integrating Simulated and Real Data into Deep Reinforcement Learning for Vision-Based Autonomous Flight", 《2019 INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA)》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113156957A (zh) * | 2021-04-27 | 2021-07-23 | 东莞理工学院 | 基于对抗生成网络的自主移动机器人自监督学习及导航方法 |
CN113386133A (zh) * | 2021-06-10 | 2021-09-14 | 贵州恰到科技有限公司 | 一种强化学习机器人控制方法 |
CN113532461A (zh) * | 2021-07-08 | 2021-10-22 | 山东新一代信息产业技术研究院有限公司 | 一种机器人自主避障导航的方法、设备及存储介质 |
CN113532461B (zh) * | 2021-07-08 | 2024-02-09 | 山东新一代信息产业技术研究院有限公司 | 一种机器人自主避障导航的方法、设备及存储介质 |
CN114355980A (zh) * | 2022-01-06 | 2022-04-15 | 上海交通大学宁波人工智能研究院 | 基于深度强化学习的四旋翼无人机自主导航方法与系统 |
CN114355980B (zh) * | 2022-01-06 | 2024-03-08 | 上海交通大学宁波人工智能研究院 | 基于深度强化学习的四旋翼无人机自主导航方法与系统 |
CN114326821A (zh) * | 2022-03-02 | 2022-04-12 | 中国人民解放军陆军指挥学院 | 基于深度强化学习的无人机自主避障系统及方法 |
CN114626277A (zh) * | 2022-04-02 | 2022-06-14 | 浙江大学 | 一种基于强化学习的主动流动控制方法 |
CN114626277B (zh) * | 2022-04-02 | 2023-08-25 | 浙江大学 | 一种基于强化学习的主动流动控制方法 |
CN116522802A (zh) * | 2023-06-29 | 2023-08-01 | 北京天航华创科技股份有限公司 | 一种基于气象数据的无人飞艇智能飞行规划方法 |
CN116522802B (zh) * | 2023-06-29 | 2023-09-19 | 北京天航华创科技股份有限公司 | 一种基于气象数据的无人飞艇智能飞行规划方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112766499A (zh) | 一种通过强化学习技术实现无人机自主飞行的方法 | |
WO2021190451A1 (zh) | 训练图像处理模型的方法和装置 | |
CN111061277B (zh) | 一种无人车全局路径规划方法和装置 | |
Kang et al. | Generalization through simulation: Integrating simulated and real data into deep reinforcement learning for vision-based autonomous flight | |
CN107833183B (zh) | 一种基于多任务深度神经网络的卫星图像同时超分辨和着色的方法 | |
Choi et al. | Unmanned aerial vehicles using machine learning for autonomous flight; state-of-the-art | |
AlMahamid et al. | Autonomous unmanned aerial vehicle navigation using reinforcement learning: A systematic review | |
CN109348707A (zh) | 针对基于深度神经网络的q学习修剪经验存储器的方法和装置 | |
CN112937564A (zh) | 换道决策模型生成方法和无人车换道决策方法及装置 | |
Akan et al. | Stretchbev: Stretching future instance prediction spatially and temporally | |
CN113821041B (zh) | 一种多机器人协同导航与避障的方法 | |
Yan et al. | Collision-avoiding flocking with multiple fixed-wing uavs in obstacle-cluttered environments: A task-specific curriculum-based madrl approach | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
CN114493013A (zh) | 基于强化学习的智能体路径规划方法、电子设备及介质 | |
Gao et al. | Autonomous driving based on modified sac algorithm through imitation learning pretraining | |
CN117359643A (zh) | 一种多模态元学习机器人自我定位系统及其方法 | |
CN110926470B (zh) | 一种agv导航控制方法及系统 | |
Hensel et al. | Object Detection and Mapping with Unmanned Aerial Vehicles Using Convolutional Neural Networks | |
CN114964268A (zh) | 一种无人机导航方法及装置 | |
CN115164890A (zh) | 一种基于模仿学习的群体无人机自主运动规划方法 | |
Boudjit et al. | ANN design and implementation for real-time object tracking using quadrotor AR. Drone 2.0 | |
Kabore et al. | Deep Learning Based Formation Control of Drones | |
Li et al. | RDDRL: a recurrent deduction deep reinforcement learning model for multimodal vision-robot navigation | |
CN114894191B (zh) | 一种适用于动态复杂环境的无人机导航方法 | |
Cody et al. | Applying Learning Systems Theory to Model Cognitive Unmanned Aerial Vehicles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210507 |