CN113110550B - 一种基于强化学习与网络模型蒸馏的无人机飞行控制方法 - Google Patents

一种基于强化学习与网络模型蒸馏的无人机飞行控制方法 Download PDF

Info

Publication number
CN113110550B
CN113110550B CN202110442229.0A CN202110442229A CN113110550B CN 113110550 B CN113110550 B CN 113110550B CN 202110442229 A CN202110442229 A CN 202110442229A CN 113110550 B CN113110550 B CN 113110550B
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
network
reinforcement learning
current scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110442229.0A
Other languages
English (en)
Other versions
CN113110550A (zh
Inventor
俞扬
詹德川
周志华
刘亚文
管聪
秦熔均
庞竟成
张云天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110442229.0A priority Critical patent/CN113110550B/zh
Publication of CN113110550A publication Critical patent/CN113110550A/zh
Application granted granted Critical
Publication of CN113110550B publication Critical patent/CN113110550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/08Control of attitude, i.e. control of roll, pitch, or yaw
    • G05D1/0808Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于强化学习与网络模型蒸馏的无人机飞行控制方法,构建无人机环境模拟器;基于强化学习算法,在不同场景中进行大规模训练,得到最优控制策略,以此构建无人机飞行控制系统;基于网络模型蒸馏技术,通过教师网络和学生网络计算辅助控制信息,量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应能力,以此构建无人机辅助控制系统。本发明基于强化学习算法,通过在模拟器中大规模训练,使无人机自主学习控制策略,构建无人机控制系统;基于网络模型蒸馏技术,通过量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应程度,以此规避陌生场景,减少安全风险。

Description

一种基于强化学习与网络模型蒸馏的无人机飞行控制方法
技术领域
本发明涉及一种基于强化学习与网络模型蒸馏的无人机飞行控制方法,属于无人机飞行控制技术领域。
背景技术
随着科技进步及无人机技术水平的提升,无人机在日常生活中越发重要,广泛应用于日常运输、灾难救援、军事科技等领域。目前,传统的基于规则的控制方法,一般根据无人机当前的观测信息和无人机的自身状态,基于人为构造的规则做出判断,采取相应的动作。基于规则的控制方法可以快速部署,在简单稳定的环境中(如日常运输等)稳定运行;但是在复杂多变的场景中(如灾难救援、军事科技等),人为构造的规则无法覆盖所有可能出现的场景,无人机无法对规则未覆盖的场景做出正确判断,导致无法完成相应任务。
近年来深度强化学习技术取得了极大的进步,深度强化学习不同于传统的监督学习或者非监督学习,其以获取最大的累计奖励为目标,以试错的方式与环境进行大量的交互,最终可以学到最优或者接近最优的策略。目前深度强化学习在游戏、围棋、无人驾驶、电商推荐系统等领域都取得了较广泛的应用。然而强化学习策略在实际应用中,存在一定的安全隐患。由强化学习训练得到的无人机飞行策略,无法在与模拟器差异较大的场景中稳定工作,甚至可能导致安全事故。一些基于元学习的方法,可以将一个场景中训练的策略迁移到另一个类似场景中,可以一定程度提升策略的泛化性,但是仍然无法解决潜在的安全隐患。
发明内容
发明目的:为了解决基于规则控制方法的缺陷以及强化学习应用过程中的潜在风险,本发明提供一种基于强化学习与网络模型蒸馏的无人机飞行控制方法。本发明基于强化学习算法,通过模拟器中大规模训练,无人机能够自主学习最优的控制策略,适应更加复杂的场景;基于网络模型蒸馏技术,通过量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应程度,以此规避适应程度低的陌生场景,降低安全风险。
技术方案:一种基于强化学习与网络模型蒸馏的无人机飞行控制方法,包含以下步骤:
(1)模拟真实无人机的观测及飞行控制,构建无人机环境模拟器;(2)基于强化学习算法,在不同场景中进行训练,得到最优控制策略,以此构建无人机飞行控制系统;(3)基于网络模型蒸馏技术,通过教师网络和学生网络计算辅助控制信息,量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应能力,以此构建无人机辅助控制系统。
所述步骤(2)基于强化学习算法,构建无人机飞行控制系统。基于强化学习算法,设计神经网络结构,定义相关网络损失函数,并设置强化学习算法超参数。使用强化学习策略控制无人机,在多个场景中进行训练,无人机自主学得在不同场景下的最优策略。
所述步骤(3)基于网络模型蒸馏技术,构建无人机辅助控制系统,通过量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应程度,以此规避陌生场景,减少安全风险。构建教师网络和学生网络,两个网络的模型结构应相同或相似,即网络层数相差不超过一层、相同层的参数数量相差不超过16个,以使其学习能力相近;将无人机状态S输入两个网络,获取其输出值VT、VS;模型蒸馏阶段,通过均方误差损失函数Lmse(θ)=E[(VT-VS)2](其中Lmse表示损失函数,θ表示当前的网络参数,E表示期望,VT、VS分别表示教师网络输出值和学生网络输出值),随机更新学生网络中的一半参数,使得学生网络输出值与教师网络输出值的误差小于0.5,即使得学生网络逐渐学到教师网络蒸馏出的知识;应用阶段中,将|VT-VS|作为辅助控制信息,用于量化当前场景与训练场景的差异,展示控制策略对当前场景的适应能力:辅助控制信息|VT-VS|值小于阈值说明当前场景与训练场景接近,控制策略对当前场景适应能力强;辅助控制信息|VT-VS|值大于阈值说明当前场景与训练场景差异大,控制策略对当前场景适应能力差,应该停止使用强化学习策略,以此规避安全风险。
所述步骤(1)在物理引擎中,模拟真实世界的实体和场景,包括无人机、无人机起点、无人机终点、空中障碍物、敌机等;基于模拟器中的摄像头、雷达等传感器模拟真实无人机的观测状态;基于真实无人机的飞行操作设置无人机的动作。
附图说明
图1为本发明的算法流程图;
图2为本发明的整体框示意图;
图3为本发明无人机与环境交互示意图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
图1是本发明算法流程图,在具体实施时主要包括数据采集阶段和模型训练阶段,首先无人机使用强化学习控制策略在环境中采集一定数量的训练数据;然后使用训练数据更新网络模型;重复采集数据与训练模型两个步骤,直至模型收敛为止。
图2是本发明的整体框示意图。其中:
步骤1,基于物理引擎,如Unity3D,构建空气动力学的环境模拟器,创建相关实体和场景,包括:无人机、攻击目标、起点、终点等;
步骤2,基于强化学习算法和网络模型蒸馏技术,设计神经网络结构,定义相关网络损失函数,并设置算法超参数。如采用PPO强化学习算法,初始化PPO强化学习算法中的策略网络和价值评估网络,以及无人机辅助控制系统中的教师网络和学生网络;其中策略网络的损失函数为:LCLIP(θ)=E[min(rt(θ)At,clip(rt(θ),1-∈,1+∈)At)],价值评估网络的损失函数为:
Figure BDA0003035588160000031
其中LCLIP,LVF表示损失函数,θ表示当前的网络参数,E表示期望,min表示最小值函数,t表示当前时刻,rt表示新旧策略输出动作的概率的比值;At表示优势函数值,clip表示截断函数,∈用于限制新旧策略差异度,Vθ表示价值评估网络预测值,St表示t时刻的状态,
Figure BDA0003035588160000032
表示目标值;
步骤3,使用PPO强化学习策略控制无人机与环境进行交互,获取训练数据。将本机状态St(包括无人机速度信息、姿态信息、雷达信息等)分别输入PPO强化学习算法中的策略网络和价值评估网络,获取策略网络输出的动作At以及价值评估网络输出值Vt,无人机执行动作At,获取环境奖励Rt并转移到下一状态St+1
步骤4,使用无人机辅助控制系统获取辅助控制信息,将当前时刻t的状态St输入教师网络和学生网络,分别获取估计值VT和Vs,计算辅助控制信息|VT-VS|;
步骤5,将采集观测、动作、奖励、预估值数据<St,At,Rt,St+1,VT,VS>存入数据池;当数据池中的数据量达到阈值,使用数据池中的数据进行模型更新;
步骤6,更新PPO强化学习策略,使用数据池中的数据,基于梯度下降法,对价值评估网络、策略网络的参数进行更新;
步骤7,进行网络模型蒸馏,使用数据池中的数据,基于梯度下降法,随机更新学生网络中的一半参数,使得学生网络输出值与教师网络输出值的误差小于0.5,即使得学生网络逐渐学到教师网络蒸馏出的知识;
步骤8,不断重复步骤3至步骤7,直至达到最大迭代次数或者网络模型收敛为止;
在执行阶段,通过将无人机当前状态S输入策略网络、教师网络和学生网络,得到相应动作和辅助控制信息。
图3是本发明中无人机与环境交互示意图,无人机通过传感器收集状态信息S,将状态信息输入策略网络,生成并执行相应动作;将状态信息S输入教师网络和学生网络,得到相应辅助信息,用于判别当前场景是否继续使用强化学习策略控制无人机。

Claims (5)

1.一种基于强化学习与网络模型蒸馏的无人机飞行控制方法,其特征在于,包含以下步骤:
(1)模拟真实无人机的观测及飞行控制,构建无人机环境模拟器;
(2)基于强化学习算法,在不同场景中进行训练,得到最优控制策略,以此构建无人机飞行控制系统;
(3)基于网络模型蒸馏技术,通过教师网络和学生网络计算辅助控制信息,量化当前场景与训练场景的差异,构建无人机辅助控制系统;
所述步骤(3)基于网络模型蒸馏技术,构建无人机辅助控制系统,通过量化当前场景与训练场景的差异,展示强化学习控制策略对当前场景的适应程度;构建教师网络和学生网络,将无人机状态S输入两个网络,获取其输出值VT、VS;模型蒸馏阶段,通过均方误差损失函数Lmse(θ)=E[(VT-VS)2],随机更新学生网络中的一半参数,使得学生网络逐渐学到教师网络蒸馏出的知识;应用阶段中,将|VT-VS|作为辅助控制信息,用于量化当前场景与训练场景的差异,展示控制策略对当前场景的适应能力。
2.根据权利要求1所述的基于强化学习与网络模型蒸馏的无人机飞行控制方法,其特征在于,所述步骤(2)基于强化学习算法,构建无人机飞行控制系统;基于强化学习算法,设计神经网络结构,定义相关网络损失函数,并设置强化学习算法超参数;使用强化学习策略控制无人机,在多个场景中进行训练,无人机自主学得在不同场景下的最优策略。
3.根据权利要求1所述的基于强化学习与网络模型蒸馏的无人机飞行控制方法,其特征在于,所述辅助控制信息|VT-VS|值小于阈值说明控制策略对当前场景适应能力强;辅助控制信息|VT-VS|值大于阈值说明当前场景与训练场景差异大,控制策略对当前场景适应能力差,应该停止使用强化学习策略,以此规避安全风险。
4.根据权利要求1所述的基于强化学习与网络模型蒸馏的无人机飞行控制方法,其特征在于,所述教师网络和学生网络的模型结构应相同或相似,以使其学习能力相近;所述教师网络和学生网络的模型结构应相同或相似指的是两个网络的模型结构应相同或相似,即网络层数相差不超过一层、相同层的参数数量相差不超过16个。
5.根据权利要求1所述的基于强化学习与网络模型蒸馏的无人机飞行控制方法,其特征在于,所述步骤(1)在物理引擎中,模拟真实世界的实体和场景,无人机环境模拟器包括无人机、无人机起点、无人机终点、空中障碍物和敌机;基于模拟器中的摄像头、雷达传感器模拟真实无人机的观测状态;基于真实无人机的飞行操作设置无人机的动作。
CN202110442229.0A 2021-04-23 2021-04-23 一种基于强化学习与网络模型蒸馏的无人机飞行控制方法 Active CN113110550B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110442229.0A CN113110550B (zh) 2021-04-23 2021-04-23 一种基于强化学习与网络模型蒸馏的无人机飞行控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110442229.0A CN113110550B (zh) 2021-04-23 2021-04-23 一种基于强化学习与网络模型蒸馏的无人机飞行控制方法

Publications (2)

Publication Number Publication Date
CN113110550A CN113110550A (zh) 2021-07-13
CN113110550B true CN113110550B (zh) 2022-09-23

Family

ID=76719626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110442229.0A Active CN113110550B (zh) 2021-04-23 2021-04-23 一种基于强化学习与网络模型蒸馏的无人机飞行控制方法

Country Status (1)

Country Link
CN (1) CN113110550B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115057006B (zh) * 2022-06-15 2024-10-15 中国科学院软件研究所 一种基于强化学习的蒸馏策略评估的方法、装置及介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562287B2 (en) * 2017-10-27 2023-01-24 Salesforce.Com, Inc. Hierarchical and interpretable skill acquisition in multi-task reinforcement learning
CN110070183B (zh) * 2019-03-11 2021-08-20 中国科学院信息工程研究所 一种弱标注数据的神经网络模型训练方法及装置
EP3748545A1 (en) * 2019-06-07 2020-12-09 Tata Consultancy Services Limited Sparsity constraints and knowledge distillation based learning of sparser and compressed neural networks
CN110488861B (zh) * 2019-07-30 2020-08-28 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110472730A (zh) * 2019-08-07 2019-11-19 交叉信息核心技术研究院(西安)有限公司 一种卷积神经网络的自蒸馏训练方法和可伸缩动态预测方法
CN110880036B (zh) * 2019-11-20 2023-10-13 腾讯科技(深圳)有限公司 神经网络压缩方法、装置、计算机设备及存储介质
CN111580544B (zh) * 2020-03-25 2021-05-07 北京航空航天大学 一种基于强化学习ppo算法的无人机目标跟踪控制方法
CN111582479B (zh) * 2020-05-09 2023-10-27 北京百度网讯科技有限公司 神经网络模型的蒸馏方法和装置
CN112487899B (zh) * 2020-11-19 2023-04-07 武汉高德飞行器科技有限公司 基于无人机的目标识别方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
CN113110550A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
US11062617B2 (en) Training system for autonomous driving control policy
CN112162564B (zh) 基于模仿学习和强化学习算法的无人机飞行控制方法
CN113176776B (zh) 基于深度强化学习的无人艇天气自适应避障方法
CN112131660A (zh) 一种基于多智能体强化学习的无人机集群协同学习方法
CN113741533A (zh) 一种基于模仿学习与强化学习的无人机智能决策系统
CN112232490A (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN110631596A (zh) 一种基于迁移学习的装备车辆路径规划方法
CN110281949B (zh) 一种自动驾驶统一分层决策方法
CN111260026A (zh) 一种基于元强化学习的导航迁移方法
CN116110022B (zh) 基于响应知识蒸馏的轻量化交通标志检测方法及系统
CN113286275A (zh) 一种基于多智能体强化学习的无人机集群高效通信方法
CN114578860B (zh) 一种基于深度强化学习的大规模无人机集群飞行方法
CN113110550B (zh) 一种基于强化学习与网络模型蒸馏的无人机飞行控制方法
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN109375642B (zh) 一种无人机节能控制方法
CN115031753B (zh) 基于安全势场和dqn算法的行车工况局部路径规划方法
CN114755926A (zh) 一种基于强化学习的多智能体系统最优一致性的控制方法
CN117872800A (zh) 一种基于离散状态空间下强化学习的决策规划方法
CN113093568A (zh) 基于长短时记忆网络的飞机自动驾驶操作模拟方法
CN116080688B (zh) 一种类脑启发的智能驾驶视觉辅助方法、装置及存储介质
CN117032208A (zh) 融合人类反馈信息和深度强化学习的履带车自动驾驶方法
CN115906831A (zh) 基于距离感知的Transformer视觉语言导航算法
CN113589810B (zh) 智能体动态自主避障运动方法、装置、服务器及存储介质
CN116822659B (zh) 自动驾驶运动技能学习方法、系统、设备及计算机介质
CN114611669B (zh) 一种基于双经验池ddpg网络的兵棋推演智能决策方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant