CN113467248A

CN113467248A - 基于强化学习的无人机传感器故障时容错控制方法

Info

Publication number: CN113467248A
Application number: CN202110828311.7A
Authority: CN
Inventors: 俞扬; 詹德川; 黎铭; 周志华; 李阔; 袁雷; 靳学坤; 贾乘兴; 叶志浩; 管聪
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-10-01

Abstract

本发明公开一种基于强化学习的无人机传感器故障时容错控制方法，测定无人机各项物理常数，搭建无人机环境模拟器，在训练时随机设置传感器故障干扰无人机控制并使用DDPG算法训练无人机控制策略模型，逐步增加无人机故障种类并将稳定表现的策略收集到容错控制策略候选池中，在仿真环境随机故障测试后，得到最优的容错控制策略；在推理阶段，对于训练好的策略模型，基于策略网络输出交给无人机执行。本发明在仿真环境中模拟无人机不同的传感器故障组合，在策略与环境交互时，保证固定比例的无故障样本数据的存在，使得强化学习可以同时学习到传感器故障时和非故障时的飞行策略，使得无人机传感器故障时的容错控制更加鲁棒，高效。

Description

基于强化学习的无人机传感器故障时容错控制方法

技术领域

本发明涉及一种基于强化学习算法的思想，实现了传感器故障时，对无人机容错控制的方法，属于无人机控制技术领域。

背景技术

由于现代传感器的进步和日益提升的计算能力，自主飞行器越来越广泛地应用到各个领域，现已成为商业、政府和消费应用地重要工具。随着无人机不断扩大的任务能力，它们暴露在网络和物理攻击的攻击面也相应增加。这对无人机保障稳定性和性能的控制系统构成了重大威胁。如果针对无人机的物理组件发起攻击或者传感器由于外部环境恶劣引发故障，例如GPS欺骗，或者使用声波使IMU传感器产生共振，则常规的无人机控制方法已经无法有效保护无人机，无人机会出现性能不佳甚至完全失控进而损毁的恶劣情况。因此，无人机控制系统非常需要飞行恢复策略和传感器故障的容错控制能力。传统控制算法在无人机传感器故障时很难设计出鲁棒的容错控制规则。

传统容错控制需要设计一个故障检测和控制恢复规则，多个传感器故障复合控制规则十分复杂，并且设计不周时，会导致无人机出现控制延迟或者假阳性传感器故障，进而严重影响无人机效率。

发明内容

发明目的：为了解决无人机传感器故障时的决策中模型不够稳定甚至导致无人机完全损毁的问题，本发明提出了一种基于强化学习的无人机传感器故障时容错控制方法。与传统的容错控制不同的是不需要额外设计一个故障检测和恢复规则，通过深度强化学习的方法将容错控制恢复策略与飞行策略直接融合。本发明在仿真环境中模拟无人机不同的传感器故障组合，同时，在强化学习策略与环境交互时，保证固定比例的无故障样本数据的存在，使得强化学习可以同时学习到传感器故障时和非故障时的飞行策略，使得无人机传感器故障时的容错控制更加鲁棒，高效。

技术方案：一种基于强化学习的无人机传感器故障时容错控制方法，测定无人机各项物理常数，搭建无人机环境模拟器，在训练时随机设置传感器故障干扰无人机控制并使用DDPG算法训练无人机控制策略模型，逐步增加无人机故障种类并将稳定表现的策略收集到容错控制策略候选池中，在仿真环境随机故障测试后，得到最优的容错控制策略；在推理阶段，对于训练好的策略模型，基于策略网络输出交给无人机执行。具体地，本发明包括以下步骤：

(1)对无人机的部件物理常数进行测量；

(2)基于所述测量的无人机的部件物理常数创建无人机仿真环境；

(3)使用强化学习策略网络的输出控制无人机与仿真环境交互，同时收集传感器故障和正常时的样本数据，并存储到经验池；

(4)使用经验池中的样本数据和DDPG算法对状态动作值函数网络以及策略网络进行更新；

(5)重复执行步骤(3)到步骤(4)直到策略网络和状态动作值函数网络收敛，将策略网络和状态动作值函数网络参数作为候选策略，保存策略网络和状态动作值函数网络参数至策略候选池；

(6)逐步增加环境中传感器故障类型，重复步骤(5)，直至达到预尝试次数阈值，得到最终策略网络候选池；

(7)进行仿真环境无人机传感器随机故障测试，取策略候选池中传感器故障时容错控制表现最佳的策略网络模型；

(8)在使用阶段，使用(7)中得到的策略网络的输出，来容错控制无人机的位置、速度、姿态。

所述(1)中，无人机的部件物理常量包括无人机螺旋桨推力、升力、阻力、质量、转动惯量矩阵、力矩系数，电机推力、阻力、转动惯量、响应时间、质量，以及机身质量，大小。

所述(2)中，所述创建无人机仿真环境包括：

(21)依据测量的无人机的部件物理常数建立无人机仿真模型；定义无人机的强化学习观测集合、动作集合、最大步长；设置无人机的起始点、目标点；传感器噪声类型共涉及2种物理量，分别为无人机位置信息和当前环境气压。设置无人机虚拟传感器噪声随机分布为标准正态分布，噪声添加的方式为在标准正态分布中采样后的值(无人机位置信息和当前环境气压)与上述2种物理量之和反馈给无人机传感器；传感器故障类型共涉及3种物理量，分别为电机转速、飞行姿态、陀螺仪角度。设置虚拟传感器故障随机分布为均匀分布，故障添加方式为上述三种物理量对应范围的均匀分布采样后得到的值反馈给无人机传感器。

(22)设置仿真环境中无人机的奖励函数为：

其中分母中各个λ为超参数，ω为机身角速度，R_θ为翻滚角，P_θ为俯仰角，Y_θ为偏摆角，d_tar为无人机距目标点距离，Δx表示无人机当前时刻与无人机稳定悬浮时物理量x的差值，∈_d和∈_θ表示一个较小的常量。当无人机稳定悬浮时，其奖励为

所述(3)中的收集样本数据包括：

(31)从策略候选池随机采样一个候选策略初始化状态动作值函数网络Q_θ(s_t，a_t)和策略网络μ_φ(s_t)，当策略候选池为空时直接随机初始化；初始化重放经验池D，目标状态值函数网络Q_θ′(s_t，a_t)＝Q_θ(s_t，a_t)和目标策略网络μ_φ′(s_t)＝μ_φ(s_t)，其中目标状态值函数网络和目标策略网络为无人机最终运行时的神经网络。

(32)在仿真环境中，设置仿真环境传感器随机故障模式，获得无人机观测到的初始状态s₀。

(33)对于每个时间步，基于无人机当前观测到的状态s_t，动作a_t可以由下式得到：

a_t＝clip(μ_φ(s_t)+∈，a_low，a_high)

其中∈服从于均值为0的正态分布，a_low为动作合法最小值，a_high为动作合法的最大值，无人机在环境中执行动作a_t，然后基于奖励函数获得奖励值r_t，并获得无人机在环境中的当前状态s_t+1，和状态终结信号d_t；

(34)将样本{s_t，a_t，r_t，s_t+1，d_t}加入经验池D；

(35)重复(33)～(34)直到经验池D大小为容量75％时，设置仿真环境为无故障模式，重复(33)～(34)直到经验池D填满。

所述(4)中，更新状态动作值函数网络和策略网络包括：

从重放经验池D采样N个样本(s_i，a_i，r_i，s_i+1，d_i)，基于梯度下降对状态动作值函数网络Q_θ(s_t，a_t)做如下更新：

其中，

y_i＝r_i+γ(1-d_i)Q_θ′(s_i+1，μ_φ′(s_i+1))

λ_Q是状态动作值函数网络的更新步长；γ是折扣系数，值越大表示短期回报的权重越大。

基于梯度下降对策略网络μ_φ(s_t)做如下更新：

使用状态动作值网络Q_θ(s_t，a_t)的参数θ和策略网络μ_φ(s_t)的参数φ分别对目标状态动作值函数网络Q_θ′(s_t，a_t)的参数θ′和目标策略网络μ_φ′(s_t)的参数φ′做软更新，

φ′＝τφ′+(1-τ)φ

θ′＝Tθ′+(1-τ)θ。

所述(6)中，逐步增加传感器故障类型直至得到最终策略候选池，包括：

(61)收敛后的目标策略网络和目标状态动作值函数网络参数作为候选策略存入策略网络候选池之中；

(62)增加传感器故障类型，从策略网络候选池采样得到候选策略，在此基础训练新的策略网络，若策略网络可以稳定收敛，则将其加入到策略候选池之中；

(63)在尝试(62)到事先指定最大次数后，停止训练，并得到最终策略候选池。

所述(7)中，取得策略候选池中传感器容错控制表现最佳的策略网络模型为：

在仿真环境中随机设置传感器故障，对策略候选池中所有候选策略进行测试，多次测试后取得平均奖励最高的候选策略作为无人机策略网络模型。

所述(4)中，更新完状态动作值函数网络、策略函数网络、目标策略函数网络和目标状态动作值函数网络以后，从重放经验池D中删除使用过的N个样本。对于每批含有N个样本的数据，重复执行(4)直到经验池为空或者剩余样本数不足N。

一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的基于强化学习的无人机传感器故障时容错控制方法。

一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述的基于强化学习的无人机传感器故障时容错控制方法的计算机程序。

与现有技术相比，本发明具有的益处有：

1)本发明使用了深度强化学习算法中确定性策略梯度对无人机进行容错控制，相比于未使用容错训练的无人机强化学习控制方法鲁棒性更高，泛化性更强；相比于传统主动式规则式容错检测控制粒度更加精细，控制方法更加稳定。

2)本发明使用容错控制策略候选池的训练方法，在保障策略在无人机传感器故障时稳定控制的同时避免从零开始训练，同时容易学习出对不同传感器复合故障的容错控制策略。

3)本发明使用仿真传感器随机故障训练方法，能有效降低无人机受到攻击或者部分传感器故障时完全失灵的风险，同时保障无人机应用到现代化物流体系中的鲁棒性。

附图说明

图1是本发明实施例的整体框架图；

图2是本发明实施例的使用阶段框架图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

基于强化学习的无人机传感器故障时容错控制方法，基于强化学习DDPG算法的思想，实现了在无人机传感器故障时，对无人机进行自主容错决策的训练。

首先，强化学习可以用一个马尔科夫决策过程(MDP)表述，它是由四元组＜S，A，p，r>所定义。其中，S表示状态空间，A表示动作空间，p表示未知的状态转移概率：S×S×A→[0，1]，表示从当前状态和动作转移到下一个状态的概率，r表示在当前状态s_t下执行动作a_t收到的环境回报值。可以用ρ_μ(s_t)和ρ_μ(s_t，a_t)分别表示状态以及状态动作对在遵循确定性策略μ(s_t)下生成轨迹的分布。

下面对深度确定性策略梯度(DDPG)算法做简单介绍。不同于随机性强化学习策略梯度方法，DDPG可以在最终策略部署时得到确定的动作输出，这在无人机这种物理动力系统基本确定的环境下，可以更好的进行决策控制。同时，DDPG是异策略强化学习方法，有更好的样本效率和探索效率。

基于上述知识点以及发明内容中的步骤，下面对本发明实施例的具体实施细节做详细介绍。

包括以下步骤：

步骤一：测定无人机螺旋桨推力、升力、阻力、质量、转动惯量矩阵、力矩系数，电机推力、阻力、转动惯量、响应时间、质量。机身质量，大小。

步骤二：依据测定无人机的物理常数建立无人机仿真环境；定义无人机的强化学习观测集合、动作集合和最大步长；设置无人机的起始点、目标点；传感器噪声类型共涉及2种物理量，分别为无人机位置信息和当前环境气压。设置无人机虚拟传感器噪声随机分布为标准正态分布，噪声添加的方式为在标准正态分布中采样后的值与上述2种物理量之和反馈给无人机传感器；传感器故障类型共涉及3种物理量，分别为电机转速、飞行姿态、陀螺仪角度。设置虚拟传感器故障随机分布为均匀分布，故障添加方式为上述三种物理量对应范围的均匀分布采样后得到的值反馈给无人机传感器。设置仿真环境飞机奖励函数为：

其中分母中各个λ为超参数，ω为机身角速度，R_θ为翻滚角，P_θ为俯仰角，Y_θ为偏摆角，d_tar为无人机距目标点距离，Δx表示无人机当前时刻与无人机稳定悬浮时物理量x的差值，∈_d和∈_θ表示一个较小的常量。

步骤三：从策略候选池随机采样一个候选策略初始化状态动作值函数网络Q_θ(s_t，a_t)、策略网络μ_φ(s_t)，当策略候选池为空时直接随机初始化；这里状态动作值函数网络使用隐层神经元个数为256，共计4层，策略网络隐层神经元个数为128，共计4层；初始化重放经验池D大小为10000，目标状态值函数网络Q_θ′(s_t，a_t)＝Q_θ(s_t，a_t)和目标策略网络μ_φ′(s_t)＝μ_φ(s_t)，其中目标状态值函数网络和目标策略网络为无人机最终运行时的神经网络；在仿真环境中，设置仿真环境传感器随机故障模式，获得无人机观测到的初始状态s₀；

步骤四：对于每个时间步，基于无人机当前观测到的状态s_t从策略网络输出和服从均值为0的正态分布的随机变量∈的和μ_φ(s_t)+∈获得动作a_t，无人机在环境中执行动作a_t，然后基于奖励机制获得奖励值r_t，并获得无人机在环境中的当前状态s_t+1，是否为终结状态信号d_t；

步骤五：将样本{(s_t，a_t，r_t，s_t+1，d_t)}加入经验池D；

步骤六：重复步骤四和步骤五直到经验池D大小为容量75％时，即传感器故障样本数为7500条时，此时设置仿真环境为无故障模式，重复步骤四和步骤五直到经验池D填满；

步骤七：从重放经验池D采样512条样本(s_i，a_i，r_i，s_i+1，d_i)，基于梯度下降对状态值函数网络Q_θ(s_t，a_t)做如下更新：

其中，

y_i＝r_i+γ(1-d_i)Q_θ′(s_i+1，μ_φ′(s_i+1))

λ_Q是状态值函数网络的更新步长，γ是折扣系数，值越大表示短期回报的权重越大。

基于梯度下降对策略网络μ_φ(s_t)做如下更新：

φ′＝τφ′+(1-τ)φ

θ′＝τθ′+(1-τ)θ

最后从缓冲区D中删除这512条样本；

步骤八：对于每个小批量样本，重复执行步骤七直到缓冲区为空或者剩余样本数不足512条；

步骤九：重复执行步骤三到步骤八直到目标状态动作值函数网络Q_θ′(s_t，a_t)和目标策略网络μ_φ′(s_t)收敛；将其加入到策略网络候选池之中；在扩充策略候选池过程中，增加传感器故障类型，重复步骤三到步骤八T次，得到最终策略候选池C_p；

步骤十：设置仿真环境传感器随机故障模式，对最终策略候选池C_p中的所有策略进行测试；

步骤十一：重复步骤十M次，得到平均奖励最大的容错控制策略；

步骤十二：使用训练好的策略网络μ_φ(s_t)对无人机做决策。对于当前观测到的状态s_t，有动作a_t＝μ_φ(s_t)，对无人机执行动作a_t，与环境交互。

显然，本领域的技术人员应该明白，上述的本发明实施例的基于强化学习的无人机传感器故障时容错控制方法各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明实施例不限制于任何特定的硬件和软件结合。

Claims

1.一种基于强化学习的无人机传感器故障时容错控制方法，其特征在于，包括以下步骤：

(1)对无人机的部件物理常数进行测量；

2.根据权利要求1所述的基于强化学习的无人机传感器故障时容错控制方法，其特征在于，所述(1)中，无人机的部件物理常量包括无人机螺旋桨推力、升力、阻力、质量、转动惯量矩阵、力矩系数，电机推力、阻力、转动惯量、响应时间、质量，以及机身质量，大小。

3.根据权利要求1所述的基于强化学习的无人机传感器故障时容错控制方法，其特征在于，所述(2)中，所述创建无人机仿真环境包括：

(21)依据测量的无人机的部件物理常数建立无人机仿真模型；定义无人机的强化学习观测集合、动作集合、最大步长；设置无人机的起始点、目标点；传感器噪声类型共涉及2种物理量，分别为无人机位置信息和当前环境气压；设置无人机虚拟传感器噪声随机分布为标准正态分布，噪声添加的方式为在标准正态分布中采样后的值与上述2种物理量之和反馈给无人机传感器；传感器故障类型共涉及3种物理量，分别为电机转速、飞行姿态、陀螺仪角度；设置虚拟传感器故障随机分布为均匀分布，故障添加方式为上述三种物理量对应范围的均匀分布采样后得到的值反馈给无人机传感器；

(22)设置仿真环境中无人机的奖励函数为：

其中分母中各个λ为超参数，ω为机身角速度，R_θ为翻滚角，P_θ为俯仰角，Y_θ为偏摆角，d_tar为无人机距目标点距离，Δx表示无人机当前时刻与无人机稳定悬浮时物理量x的差值，∈_d和∈_θ表示一个较小的常量；当无人机稳定悬浮时，其奖励为

4.根据权利要求1所述的基于强化学习的无人机传感器故障时容错控制方法，其特征在于，所述(3)中的收集样本数据包括：

(31)从策略候选池随机采样一个候选策略初始化状态动作值函数网络Q_θ(s_t，a_t)和策略网络μ_φ(s_t)，当策略候选池为空时直接随机初始化；初始化重放经验池D，目标状态值函数网络Q_θ′(s_t，a_t)＝Q_θ(s_t，a_t)和目标策略网络μ_φ′(s_t)＝μ_φ(s_t)，其中目标状态值函数网络和目标策略网络为无人机最终运行时的神经网络；

(32)在仿真环境中，设置仿真环境传感器随机故障模式，获得无人机观测到的初始状态s₀；

a_t＝clip(μ_φ(s_t)+∈，a_low，a_high)