CN113110550B

CN113110550B - 一种基于强化学习与网络模型蒸馏的无人机飞行控制方法

Info

Publication number: CN113110550B
Application number: CN202110442229.0A
Authority: CN
Inventors: 俞扬; 詹德川; 周志华; 刘亚文; 管聪; 秦熔均; 庞竟成; 张云天
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2022-09-23
Anticipated expiration: 2041-04-23
Also published as: CN113110550A

Abstract

本发明公开一种基于强化学习与网络模型蒸馏的无人机飞行控制方法，构建无人机环境模拟器；基于强化学习算法，在不同场景中进行大规模训练，得到最优控制策略，以此构建无人机飞行控制系统；基于网络模型蒸馏技术，通过教师网络和学生网络计算辅助控制信息，量化当前场景与训练场景的差异，展示强化学习控制策略对当前场景的适应能力，以此构建无人机辅助控制系统。本发明基于强化学习算法，通过在模拟器中大规模训练，使无人机自主学习控制策略，构建无人机控制系统；基于网络模型蒸馏技术，通过量化当前场景与训练场景的差异，展示强化学习控制策略对当前场景的适应程度，以此规避陌生场景，减少安全风险。

Description

一种基于强化学习与网络模型蒸馏的无人机飞行控制方法

技术领域

本发明涉及一种基于强化学习与网络模型蒸馏的无人机飞行控制方法，属于无人机飞行控制技术领域。

背景技术

随着科技进步及无人机技术水平的提升，无人机在日常生活中越发重要，广泛应用于日常运输、灾难救援、军事科技等领域。目前，传统的基于规则的控制方法，一般根据无人机当前的观测信息和无人机的自身状态，基于人为构造的规则做出判断，采取相应的动作。基于规则的控制方法可以快速部署，在简单稳定的环境中(如日常运输等)稳定运行；但是在复杂多变的场景中(如灾难救援、军事科技等)，人为构造的规则无法覆盖所有可能出现的场景，无人机无法对规则未覆盖的场景做出正确判断，导致无法完成相应任务。

近年来深度强化学习技术取得了极大的进步，深度强化学习不同于传统的监督学习或者非监督学习，其以获取最大的累计奖励为目标，以试错的方式与环境进行大量的交互，最终可以学到最优或者接近最优的策略。目前深度强化学习在游戏、围棋、无人驾驶、电商推荐系统等领域都取得了较广泛的应用。然而强化学习策略在实际应用中，存在一定的安全隐患。由强化学习训练得到的无人机飞行策略，无法在与模拟器差异较大的场景中稳定工作，甚至可能导致安全事故。一些基于元学习的方法，可以将一个场景中训练的策略迁移到另一个类似场景中，可以一定程度提升策略的泛化性，但是仍然无法解决潜在的安全隐患。

发明内容

发明目的：为了解决基于规则控制方法的缺陷以及强化学习应用过程中的潜在风险，本发明提供一种基于强化学习与网络模型蒸馏的无人机飞行控制方法。本发明基于强化学习算法，通过模拟器中大规模训练，无人机能够自主学习最优的控制策略，适应更加复杂的场景；基于网络模型蒸馏技术，通过量化当前场景与训练场景的差异，展示强化学习控制策略对当前场景的适应程度，以此规避适应程度低的陌生场景，降低安全风险。

技术方案：一种基于强化学习与网络模型蒸馏的无人机飞行控制方法，包含以下步骤：

(1)模拟真实无人机的观测及飞行控制，构建无人机环境模拟器；(2)基于强化学习算法，在不同场景中进行训练，得到最优控制策略，以此构建无人机飞行控制系统；(3)基于网络模型蒸馏技术，通过教师网络和学生网络计算辅助控制信息，量化当前场景与训练场景的差异，展示强化学习控制策略对当前场景的适应能力，以此构建无人机辅助控制系统。

所述步骤(2)基于强化学习算法，构建无人机飞行控制系统。基于强化学习算法，设计神经网络结构，定义相关网络损失函数，并设置强化学习算法超参数。使用强化学习策略控制无人机，在多个场景中进行训练，无人机自主学得在不同场景下的最优策略。

所述步骤(3)基于网络模型蒸馏技术，构建无人机辅助控制系统，通过量化当前场景与训练场景的差异，展示强化学习控制策略对当前场景的适应程度，以此规避陌生场景，减少安全风险。构建教师网络和学生网络，两个网络的模型结构应相同或相似，即网络层数相差不超过一层、相同层的参数数量相差不超过16个，以使其学习能力相近；将无人机状态S输入两个网络，获取其输出值V_T、V_S；模型蒸馏阶段，通过均方误差损失函数L^mse(θ)＝E[(V_T-V_S)²](其中L^mse表示损失函数，θ表示当前的网络参数，E表示期望，V_T、V_S分别表示教师网络输出值和学生网络输出值)，随机更新学生网络中的一半参数，使得学生网络输出值与教师网络输出值的误差小于0.5，即使得学生网络逐渐学到教师网络蒸馏出的知识；应用阶段中，将|V_T-V_S|作为辅助控制信息，用于量化当前场景与训练场景的差异，展示控制策略对当前场景的适应能力：辅助控制信息|V_T-V_S|值小于阈值说明当前场景与训练场景接近，控制策略对当前场景适应能力强；辅助控制信息|V_T-V_S|值大于阈值说明当前场景与训练场景差异大，控制策略对当前场景适应能力差，应该停止使用强化学习策略，以此规避安全风险。

所述步骤(1)在物理引擎中，模拟真实世界的实体和场景，包括无人机、无人机起点、无人机终点、空中障碍物、敌机等；基于模拟器中的摄像头、雷达等传感器模拟真实无人机的观测状态；基于真实无人机的飞行操作设置无人机的动作。

附图说明

图1为本发明的算法流程图；

图2为本发明的整体框示意图；

图3为本发明无人机与环境交互示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

图1是本发明算法流程图，在具体实施时主要包括数据采集阶段和模型训练阶段，首先无人机使用强化学习控制策略在环境中采集一定数量的训练数据；然后使用训练数据更新网络模型；重复采集数据与训练模型两个步骤，直至模型收敛为止。

图2是本发明的整体框示意图。其中：

步骤1，基于物理引擎，如Unity3D，构建空气动力学的环境模拟器，创建相关实体和场景，包括：无人机、攻击目标、起点、终点等；

步骤2，基于强化学习算法和网络模型蒸馏技术，设计神经网络结构，定义相关网络损失函数，并设置算法超参数。如采用PPO强化学习算法，初始化PPO强化学习算法中的策略网络和价值评估网络，以及无人机辅助控制系统中的教师网络和学生网络；其中策略网络的损失函数为：L^CLIP(θ)＝E[min(r_t(θ)A_t，clip(r_t(θ)，1-∈，1+∈)A_t)]，价值评估网络的损失函数为：

其中LCLIP，LVF表示损失函数，θ表示当前的网络参数，E表示期望，min表示最小值函数，t表示当前时刻，r_t表示新旧策略输出动作的概率的比值；A_t表示优势函数值，clip表示截断函数，∈用于限制新旧策略差异度，V_θ表示价值评估网络预测值，S_t表示t时刻的状态，

表示目标值；

步骤3，使用PPO强化学习策略控制无人机与环境进行交互，获取训练数据。将本机状态S_t(包括无人机速度信息、姿态信息、雷达信息等)分别输入PPO强化学习算法中的策略网络和价值评估网络，获取策略网络输出的动作A_t以及价值评估网络输出值V_t，无人机执行动作A_t，获取环境奖励R_t并转移到下一状态S_t+1；

步骤4，使用无人机辅助控制系统获取辅助控制信息，将当前时刻t的状态S_t输入教师网络和学生网络，分别获取估计值V_T和V_s，计算辅助控制信息|V_T-V_S|；

步骤5，将采集观测、动作、奖励、预估值数据＜S_t，A_t，R_t，S_t+1，V_T，V_S＞存入数据池；当数据池中的数据量达到阈值，使用数据池中的数据进行模型更新；

步骤6，更新PPO强化学习策略，使用数据池中的数据，基于梯度下降法，对价值评估网络、策略网络的参数进行更新；

步骤7，进行网络模型蒸馏，使用数据池中的数据，基于梯度下降法，随机更新学生网络中的一半参数，使得学生网络输出值与教师网络输出值的误差小于0.5，即使得学生网络逐渐学到教师网络蒸馏出的知识；

步骤8，不断重复步骤3至步骤7，直至达到最大迭代次数或者网络模型收敛为止；

在执行阶段，通过将无人机当前状态S输入策略网络、教师网络和学生网络，得到相应动作和辅助控制信息。

图3是本发明中无人机与环境交互示意图，无人机通过传感器收集状态信息S，将状态信息输入策略网络，生成并执行相应动作；将状态信息S输入教师网络和学生网络，得到相应辅助信息，用于判别当前场景是否继续使用强化学习策略控制无人机。

Claims

1.一种基于强化学习与网络模型蒸馏的无人机飞行控制方法，其特征在于，包含以下步骤：

(1)模拟真实无人机的观测及飞行控制，构建无人机环境模拟器；

(2)基于强化学习算法，在不同场景中进行训练，得到最优控制策略，以此构建无人机飞行控制系统；

(3)基于网络模型蒸馏技术，通过教师网络和学生网络计算辅助控制信息，量化当前场景与训练场景的差异，构建无人机辅助控制系统；

所述步骤(3)基于网络模型蒸馏技术，构建无人机辅助控制系统，通过量化当前场景与训练场景的差异，展示强化学习控制策略对当前场景的适应程度；构建教师网络和学生网络，将无人机状态S输入两个网络，获取其输出值V_T、V_S；模型蒸馏阶段，通过均方误差损失函数L^mse(θ)＝E[(V_T-V_S)²]，随机更新学生网络中的一半参数，使得学生网络逐渐学到教师网络蒸馏出的知识；应用阶段中，将|V_T-V_S|作为辅助控制信息，用于量化当前场景与训练场景的差异，展示控制策略对当前场景的适应能力。

2.根据权利要求1所述的基于强化学习与网络模型蒸馏的无人机飞行控制方法，其特征在于，所述步骤(2)基于强化学习算法，构建无人机飞行控制系统；基于强化学习算法，设计神经网络结构，定义相关网络损失函数，并设置强化学习算法超参数；使用强化学习策略控制无人机，在多个场景中进行训练，无人机自主学得在不同场景下的最优策略。

3.根据权利要求1所述的基于强化学习与网络模型蒸馏的无人机飞行控制方法，其特征在于，所述辅助控制信息|V_T-V_S|值小于阈值说明控制策略对当前场景适应能力强；辅助控制信息|V_T-V_S|值大于阈值说明当前场景与训练场景差异大，控制策略对当前场景适应能力差，应该停止使用强化学习策略，以此规避安全风险。

4.根据权利要求1所述的基于强化学习与网络模型蒸馏的无人机飞行控制方法，其特征在于，所述教师网络和学生网络的模型结构应相同或相似，以使其学习能力相近；所述教师网络和学生网络的模型结构应相同或相似指的是两个网络的模型结构应相同或相似，即网络层数相差不超过一层、相同层的参数数量相差不超过16个。

5.根据权利要求1所述的基于强化学习与网络模型蒸馏的无人机飞行控制方法，其特征在于，所述步骤(1)在物理引擎中，模拟真实世界的实体和场景，无人机环境模拟器包括无人机、无人机起点、无人机终点、空中障碍物和敌机；基于模拟器中的摄像头、雷达传感器模拟真实无人机的观测状态；基于真实无人机的飞行操作设置无人机的动作。