CN110231829B - 基于数据增融的强化学习小型无人旋翼机自主着陆方法 - Google Patents

基于数据增融的强化学习小型无人旋翼机自主着陆方法 Download PDF

Info

Publication number
CN110231829B
CN110231829B CN201910534415.XA CN201910534415A CN110231829B CN 110231829 B CN110231829 B CN 110231829B CN 201910534415 A CN201910534415 A CN 201910534415A CN 110231829 B CN110231829 B CN 110231829B
Authority
CN
China
Prior art keywords
strategy
aerial vehicle
unmanned aerial
network
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910534415.XA
Other languages
English (en)
Other versions
CN110231829A (zh
Inventor
袁泽峰
李恒宇
丁长权
谢少荣
罗均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN201910534415.XA priority Critical patent/CN110231829B/zh
Publication of CN110231829A publication Critical patent/CN110231829A/zh
Application granted granted Critical
Publication of CN110231829B publication Critical patent/CN110231829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于数据增融的强化学习小型无人旋翼机自主着陆方法。首先在着陆区域上空的不同环境条件下手动操作无人机以正确的姿态降落在着陆区域,在着陆的过程中,以30帧/秒的频率记录相机拍摄的图像、无人机飞行高度、每帧图像对应的无人机飞行控制量,即四旋翼四个无刷电机电调的占空比。训练一个策略网络,输入为记录的图像及飞行高度,输出为四个电机电调的占空比。采用监督学习的方法,利用记录的样本训练神经网络,直到网络收敛;不断迭代,知道网络能正确执行着陆任务。本发明控制方法简单,原理清晰,一旦策略网络训练收敛后,具有自适应强,稳定性高等特点。

Description

基于数据增融的强化学习小型无人旋翼机自主着陆方法
技术领域
本发明涉及一种基于数据增融的强化学习小型无人旋翼机自主着陆方法,属于无人机环境感知及控制领域。
背景技术
小型无人自旋翼机因其灵活性、稳定性、易控性近些年来被广泛应用于航拍、摄影、险情探测等方面,利用无人机搭载的相机,基于视觉算法,可以提供给予无人机更多的智能化与自主化。小型无人自旋翼机的自主着陆是其自主化的关键一环。强化学习近年来被广泛研究应用于自动驾驶,无人机操作,机器人控制上,其目的是训练一个最优策略,以使在某个状态下执行某个动作后获得的长期收益期望最大化,即训练出一个策略能根据当前环境的状态,决策出一个执行动作,不断连续决策直到动作周期结束即任务完成。训练出的最优策略能出色的完成该任务。
发明内容
本发明的目的是提供一种基于数据增融的强化学习小型无人旋翼机自主着陆方法。利用无人机上搭载的单目相机正视地面拍摄的着陆点地面场景图像,自主决策出无人机执行动作,直到无人机停落在着陆区域。
为达到上述目的,本发明采用如下技术方案:
一种基于数据增融的强化学习小型无人旋翼机自主着陆方法,具体步骤如下:
(1)收集训练策略网的样本集D:
在着陆区域上空的不同高度、不同方位,在不同光照条件下手动操作无人机以正确的姿态降落在着陆区域,在着陆的过程中,相机以30帧/秒的频率记录无人机的状态量Ot和动作量Ut,D={O1,U1,...,ON,UN};其中状态量Ot包括拍摄的图像Imaget、无人机飞行高度Ht,即Ot={Imaget,Ht};动作量Ut为每帧图像对应的无人机飞行控制量,即四旋翼四个无刷电机电调的占空比M1t,M2t,M3t,M4t,即Ut={M1t,M2t,M3t,M4t};
(2)用收集的数据进行有监督的训练策略网πθ={Ut|Ot}:
(2a)使用采集到的样本Ot={Imaget,Ht}及Ut={M1t,M2t,M3t,M4t},通过监督学习的方法训练一个策略网络πθ={Ut|Ot},即策略网络的输入层为记录的图像Imaget,其中图像被缩放到300×300大小,图像经过6个卷积操作,在第一个全连接层成1024个值的向量,在此层继续加入飞行高度Ht,共1025个值一起输入到下一个全连接层,经过如下公式的运算,输出4个控制量,输出为四个无刷电机电调的占空比Ut={M1t,M2t,M3t,M4t},训练要达到的目的是当无人机自主着陆的过程中,当无人机摄像头观测到某一着陆场景图像时,能自主输出四个电机的控制量,即策略网络从人为标记的数据集中学习出正确操纵无人机着陆的控制轨迹;
Zi=Wi*X+b
其中,X是全连接输出层上一层的网络输出矩阵,Wi是全连接层第i个输出单元的权值矩阵,b是全连接层的前置项,Zi指第i个输出单元的输出值。i从1~4一共4个值。分别代表四个无刷电机电调的占空比Ut={M1t,M2t,M3t,M4t};
(2b)训练直到在当前样本下策略网络收敛,收敛的条件是当前样本下,策略网络输出的欧式距离损失值不在下降,其计算公式如下:
Figure BDA0002100741120000021
其中N为输出值个数,为4,表示有4个控制量输出;
Figure BDA0002100741120000022
为第n个电机控制量的策略网络输出值;yn为第n个电机控制量的实际记录值。
(3)进行数据增融D←——D∪Dπ
利用学习到的策略控制无人机着陆,同前述步骤(1)一样,记录样本数据Dπ,观察当前策略,如果当前策略能很好的完成任务,则策略网路训练完成,否则,靠人工经验修正由当前策略控制下记录的每个状态下对应的控制量,接着用人工修正后的样本加上最初的样本D←——D∪Dπ,一起继续精调网络;
(4)重复以上步骤直到策略网络能很好的完成自主着陆任务。
与现有技术相比,本发明具有以下优点:
本发明方法利用数据增融的方法,用监督学习的方法训练出一个自适应强的策略网络,控制方法简单,原理清晰,一旦策略网络训练收敛后,具有自适应强,稳定性高等特点。
附图说明
图1为本发明方法的流程图。
图2为本发明方法采用的地面着陆区域示意图。
图3为本发明方法多重采样的采样轨迹示意图。
图4为本发明策略网络结构示意图。
具体实施方式
下面结合附图,对本发明的具体实施例做进一步的说明。
如图1所示,一种基于数据增融的强化学习小型无人旋翼机自主着陆方法,具体步骤如下:
步骤1,收集训练策略网的样本集D:
在如图2所示着陆区域上空的不同高度、不同方位,在不同光照条件下手动操作无人机以正确的姿态降落在着陆区域,在着陆的过程中,相机以30帧/秒的频率记录无人机的状态量Ot和动作量Ut,D={O1,U1,...,ON,UN};其中状态量Ot包括拍摄的图像Imaget、无人机飞行高度Ht,即Ot={Imaget,Ht};动作量Ut为每帧图像对应的无人机飞行控制量,即四旋翼四个无刷电机电调的占空比M1t,M2t,M3t,M4t,即Ut={M1t,M2t,M3t,M4t};
步骤2,用收集的数据进行有监督的训练策略网πθ={Ut|Ot}:
第1步,使用采集到的样本Ot={Imaget,Ht}及Ut={M1t,M2t,M3t,M4t},通过监督学习的方法训练一个如图4的策略网络πθ={Ut|Ot},即策略网络的输入层为记录的图像Imaget,其中图像被缩放到300×300大小,图像经过6个卷积操作,在第一个全连接层成1024个值的向量,在此层继续加入飞行高度Ht,共1025个值一起输入到下一个全连接层,经过如下公式的运算,输出4个控制量,输出为四个无刷电机电调的占空比Ut={M1t,M2t,M3t,M4t},训练要达到的目的是当无人机自主着陆的过程中,当无人机摄像头观测到某一着陆场景图像时,能自主输出四个电机的控制量,即策略网络从人为标记的数据集中学习出正确操纵无人机着陆的控制轨迹,如图3所示;
Zi=Wi*X+b
其中,X是全连接输出层上一层的网络输出矩阵,Wi是全连接层第i个输出单元的权值矩阵,b是全连接层的前置项,Zi指第i个输出单元的输出值。i从1~4一共4个值。分别代表四个无刷电机电调的占空比Ut={M1t,M2t,M3t,M4t};
第2步,训练直到在当前样本下策略网络收敛,收敛的条件是当前样本下,策略网络输出的欧式距离损失值不在下降,其计算公式如下:
Figure BDA0002100741120000041
其中N为输出值个数,为4,表示有4个控制量输出;
Figure BDA0002100741120000042
为第n个电机控制量的策略网络输出值;yn为第n个电机控制量的实际记录值。
步骤3,进行数据增融D←——D∪Dπ
利用学习到的策略控制无人机着陆,同前述步骤(1)一样,记录样本数据Dπ,观察当前策略,如果当前策略能很好的完成任务,则策略网路训练完成,否则,靠人工经验修正由当前策略控制下记录的每个状态下对应的控制量,接着用人工修正后的样本加上最初的样本D←——D∪Dπ,一起继续精调网络;
步骤4,重复以上步骤直到策略网络能很好的完成自主着陆任务。

Claims (1)

1.一种基于数据增融的强化学习小型无人旋翼机自主着陆方法,其特征在于,具体步骤如下:
(1)收集训练策略网的样本集D:
在着陆区域上空的不同高度、不同方位,在不同光照条件下手动操作无人机以正确的姿态降落在着陆区域,在着陆的过程中,相机以30帧/秒的频率记录无人机的状态量Ot和动作量Ut,D={O1,U1,...,ON,UN};其中状态量Ot包括拍摄的图像Imaget、无人机飞行高度Ht,即Ot={Imaget,Ht};动作量Ut为每帧图像对应的无人机飞行控制量,即四旋翼四个无刷电机电调的占空比M1t,M2t,M3t,M4t,即Ut={M1t,M2t,M3t,M4t};
(2)用收集的数据训练监督学习的策略网πθ={Ut|Ot}的步骤如下:
(2a)使用采集到的样本Ot={Imaget,Ht}及Ut={M1t,M2t,M3t,M4t},通过监督学习的方法训练一个策略网络πθ={Ut|Ot},即策略网络的输入层为记录的图像Imaget,其中图像被缩放到300×300大小,图像经过6个卷积操作,在第一个全连接层呈1024个值的向量,在此层继续加入飞行高度Ht,共1025个值一起输入到下一个全连接层,经过如下公式的运算,输出4个控制量,输出为四个无刷电机电调的占空比Ut={M1t,M2t,M3t,M4t},训练要达到的目的是当无人机自主着陆的过程中,无人机摄像头观测到某一着陆场景图像时,能自主输出四个电机的控制量,即策略网络从人为标记的数据集中学习出正确操纵无人机着陆的控制轨迹;
Zi=Wi*X+b
其中,X是全连接输出层上一层的网络输出矩阵,Wi是全连接层第i个输出单元的权值矩阵,b是全连接层的前置项,Zi指第i个输出单元的输出值,i为1~4一共4个值;分别代表四个无刷电机电调的占空比Ut={M1t,M2t,M3t,M4t};
(2b)训练直到在当前样本下策略网络收敛,收敛的条件是当前样本下,策略网络输出的欧式距离损失值不再下降,其计算公式如下:
Figure FDA0003292364950000011
其中N为输出值个数,为4,表示有4个控制量输出;
Figure FDA0003292364950000012
为第n个电机控制量的策略网络输出值;yn为第n个电机控制量的实际记录值;
(3)进行数据增融D←——D∪Dπ
利用学习到的策略控制无人机着陆,同前述步骤(1)一样,记录样本数据Dπ,观察当前策略,如果当前策略能很好的完成任务,则策略网络训练完成,否则,靠人工经验修正由当前策略控制下记录的每个状态下对应的控制量,接着用人工修正后的样本加上最初的样本D←——D∪Dπ,一起继续精调网络;
(4)重复以上步骤直到策略网络能很好的完成自主着陆任务。
CN201910534415.XA 2019-06-20 2019-06-20 基于数据增融的强化学习小型无人旋翼机自主着陆方法 Active CN110231829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910534415.XA CN110231829B (zh) 2019-06-20 2019-06-20 基于数据增融的强化学习小型无人旋翼机自主着陆方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910534415.XA CN110231829B (zh) 2019-06-20 2019-06-20 基于数据增融的强化学习小型无人旋翼机自主着陆方法

Publications (2)

Publication Number Publication Date
CN110231829A CN110231829A (zh) 2019-09-13
CN110231829B true CN110231829B (zh) 2022-01-07

Family

ID=67856928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910534415.XA Active CN110231829B (zh) 2019-06-20 2019-06-20 基于数据增融的强化学习小型无人旋翼机自主着陆方法

Country Status (1)

Country Link
CN (1) CN110231829B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111258333B (zh) * 2020-02-12 2021-03-23 上海大学 大长径比掠海飞行器复杂海况下的定高路径跟踪方法
CN111338375B (zh) * 2020-02-27 2024-02-23 中国科学院国家空间科学中心 基于混合策略的四旋翼无人机移动降落的控制方法及系统
CN113093568A (zh) * 2021-03-31 2021-07-09 西北工业大学 基于长短时记忆网络的飞机自动驾驶操作模拟方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692283A (zh) * 2009-10-15 2010-04-07 上海大学 无人旋翼机仿生着陆系统的摄像机外参数在线自标定方法
CN103587708A (zh) * 2013-11-14 2014-02-19 上海大学 超小型无人旋翼飞行器野外定点零盲区自主软着陆方法
CN105929837A (zh) * 2016-04-23 2016-09-07 上海大学 小型无人旋翼机自主着陆位姿估计方法
CN107016371A (zh) * 2017-04-09 2017-08-04 北京工业大学 基于改进的深度置信网络的无人机着陆地貌分类方法
CN107273929A (zh) * 2017-06-14 2017-10-20 电子科技大学 一种基于深度协同神经网络的无人机自主降落方法
CN107437050A (zh) * 2016-05-28 2017-12-05 上海大学 小型无人自旋翼机用单目可调焦液态镜头寻找安全着陆区域方法
CN107479368A (zh) * 2017-06-30 2017-12-15 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
CN109085851A (zh) * 2018-09-12 2018-12-25 哈尔滨工业大学(威海) 无人机定点降落方法
CN109292099A (zh) * 2018-08-10 2019-02-01 顺丰科技有限公司 一种无人机着陆判断方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10241520B2 (en) * 2016-12-22 2019-03-26 TCL Research America Inc. System and method for vision-based flight self-stabilization by deep gated recurrent Q-networks

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692283A (zh) * 2009-10-15 2010-04-07 上海大学 无人旋翼机仿生着陆系统的摄像机外参数在线自标定方法
CN103587708A (zh) * 2013-11-14 2014-02-19 上海大学 超小型无人旋翼飞行器野外定点零盲区自主软着陆方法
CN105929837A (zh) * 2016-04-23 2016-09-07 上海大学 小型无人旋翼机自主着陆位姿估计方法
CN107437050A (zh) * 2016-05-28 2017-12-05 上海大学 小型无人自旋翼机用单目可调焦液态镜头寻找安全着陆区域方法
CN107016371A (zh) * 2017-04-09 2017-08-04 北京工业大学 基于改进的深度置信网络的无人机着陆地貌分类方法
CN107273929A (zh) * 2017-06-14 2017-10-20 电子科技大学 一种基于深度协同神经网络的无人机自主降落方法
CN107479368A (zh) * 2017-06-30 2017-12-15 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及系统
CN109292099A (zh) * 2018-08-10 2019-02-01 顺丰科技有限公司 一种无人机着陆判断方法、装置、设备及存储介质
CN109085851A (zh) * 2018-09-12 2018-12-25 哈尔滨工业大学(威海) 无人机定点降落方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于仿生双目的无人旋翼机自主着陆方法;张丽薇等;《计算机工程》;20101031;第36卷(第19期);第192-194,197页 *
基于增强学习的小型无人直升机控制方法研究;蔡文澜;《中国优秀硕士学位论文全文数据库·工程科技Ⅱ辑》;20090731(第7期);第C031-37页 *
基于无人旋翼机自主着陆模型的摄像机外参数在线自标定;张丽薇等;《制造业自动化》;20091231;第31卷(第12期);第78-80页 *

Also Published As

Publication number Publication date
CN110231829A (zh) 2019-09-13

Similar Documents

Publication Publication Date Title
CN110231829B (zh) 基于数据增融的强化学习小型无人旋翼机自主着陆方法
CN111618847B (zh) 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN110471444B (zh) 基于自主学习的无人机智能避障方法
CN110502033B (zh) 一种基于强化学习的固定翼无人机群集控制方法
CN110806756B (zh) 基于ddpg的无人机自主引导控制方法
CN112256056B (zh) 基于多智能体深度强化学习的无人机控制方法及系统
CN110531786B (zh) 基于dqn的无人机机动策略自主生成方法
CN107065902B (zh) 基于非线性模型的无人机姿态模糊自适应预测控制方法及系统
CN111880567B (zh) 基于深度强化学习的固定翼无人机编队协调控制方法及装置
CN110928189A (zh) 一种基于强化学习和李雅普诺夫函数的鲁棒控制方法
CN111881772A (zh) 基于深度强化学习的多机械臂协同装配方法和系统
CN111273688B (zh) 基于事件触发的四旋翼无人机一致性编队控制方法
CN111942621B (zh) 一种基于多任务学习的在轨自主加注控制方法及系统
CN109143855B (zh) 一种基于模糊sarsa学习的旋翼无人机视觉伺服控制方法
CN104880945B (zh) 基于神经网络的旋翼无人机的自适应逆控制方法
CN114063609A (zh) 智能割草机器人的避障控制方法及控制系统
CN116242364A (zh) 一种基于深度强化学习的多无人机智能导航方法
CN113741528A (zh) 一种面向多无人机碰撞规避的深度强化学习训练加速方法
CN110543182B (zh) 一种小型无人旋翼机自主着陆控制方法及系统
Vargas et al. System identification of multi-rotor uavs using echo state networks
CN114879742B (zh) 基于多智能体深度强化学习的无人机集群动态覆盖方法
CN114326821B (zh) 基于深度强化学习的无人机自主避障系统及方法
Rojas-Perez et al. A temporal CNN-based approach for autonomous drone racing
CN115562322A (zh) 一种基于强化学习的无人机变阻抗飞行控制方法
CN108919833B (zh) 一种智能飞网网型保持控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant