CN113467248A - 基于强化学习的无人机传感器故障时容错控制方法 - Google Patents

基于强化学习的无人机传感器故障时容错控制方法 Download PDF

Info

Publication number
CN113467248A
CN113467248A CN202110828311.7A CN202110828311A CN113467248A CN 113467248 A CN113467248 A CN 113467248A CN 202110828311 A CN202110828311 A CN 202110828311A CN 113467248 A CN113467248 A CN 113467248A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
fault
strategy
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110828311.7A
Other languages
English (en)
Inventor
俞扬
詹德川
黎铭
周志华
李阔
袁雷
靳学坤
贾乘兴
叶志浩
管聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110828311.7A priority Critical patent/CN113467248A/zh
Publication of CN113467248A publication Critical patent/CN113467248A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开一种基于强化学习的无人机传感器故障时容错控制方法,测定无人机各项物理常数,搭建无人机环境模拟器,在训练时随机设置传感器故障干扰无人机控制并使用DDPG算法训练无人机控制策略模型,逐步增加无人机故障种类并将稳定表现的策略收集到容错控制策略候选池中,在仿真环境随机故障测试后,得到最优的容错控制策略;在推理阶段,对于训练好的策略模型,基于策略网络输出交给无人机执行。本发明在仿真环境中模拟无人机不同的传感器故障组合,在策略与环境交互时,保证固定比例的无故障样本数据的存在,使得强化学习可以同时学习到传感器故障时和非故障时的飞行策略,使得无人机传感器故障时的容错控制更加鲁棒,高效。

Description

基于强化学习的无人机传感器故障时容错控制方法
技术领域
本发明涉及一种基于强化学习算法的思想,实现了传感器故障时,对无人机容错控制的方法,属于无人机控制技术领域。
背景技术
由于现代传感器的进步和日益提升的计算能力,自主飞行器越来越广泛地应用到各个领域,现已成为商业、政府和消费应用地重要工具。随着无人机不断扩大的任务能力,它们暴露在网络和物理攻击的攻击面也相应增加。这对无人机保障稳定性和性能的控制系统构成了重大威胁。如果针对无人机的物理组件发起攻击或者传感器由于外部环境恶劣引发故障,例如GPS欺骗,或者使用声波使IMU传感器产生共振,则常规的无人机控制方法已经无法有效保护无人机,无人机会出现性能不佳甚至完全失控进而损毁的恶劣情况。因此,无人机控制系统非常需要飞行恢复策略和传感器故障的容错控制能力。传统控制算法在无人机传感器故障时很难设计出鲁棒的容错控制规则。
传统容错控制需要设计一个故障检测和控制恢复规则,多个传感器故障复合控制规则十分复杂,并且设计不周时,会导致无人机出现控制延迟或者假阳性传感器故障,进而严重影响无人机效率。
发明内容
发明目的:为了解决无人机传感器故障时的决策中模型不够稳定甚至导致无人机完全损毁的问题,本发明提出了一种基于强化学习的无人机传感器故障时容错控制方法。与传统的容错控制不同的是不需要额外设计一个故障检测和恢复规则,通过深度强化学习的方法将容错控制恢复策略与飞行策略直接融合。本发明在仿真环境中模拟无人机不同的传感器故障组合,同时,在强化学习策略与环境交互时,保证固定比例的无故障样本数据的存在,使得强化学习可以同时学习到传感器故障时和非故障时的飞行策略,使得无人机传感器故障时的容错控制更加鲁棒,高效。
技术方案:一种基于强化学习的无人机传感器故障时容错控制方法,测定无人机各项物理常数,搭建无人机环境模拟器,在训练时随机设置传感器故障干扰无人机控制并使用DDPG算法训练无人机控制策略模型,逐步增加无人机故障种类并将稳定表现的策略收集到容错控制策略候选池中,在仿真环境随机故障测试后,得到最优的容错控制策略;在推理阶段,对于训练好的策略模型,基于策略网络输出交给无人机执行。具体地,本发明包括以下步骤:
(1)对无人机的部件物理常数进行测量;
(2)基于所述测量的无人机的部件物理常数创建无人机仿真环境;
(3)使用强化学习策略网络的输出控制无人机与仿真环境交互,同时收集传感器故障和正常时的样本数据,并存储到经验池;
(4)使用经验池中的样本数据和DDPG算法对状态动作值函数网络以及策略网络进行更新;
(5)重复执行步骤(3)到步骤(4)直到策略网络和状态动作值函数网络收敛,将策略网络和状态动作值函数网络参数作为候选策略,保存策略网络和状态动作值函数网络参数至策略候选池;
(6)逐步增加环境中传感器故障类型,重复步骤(5),直至达到预尝试次数阈值,得到最终策略网络候选池;
(7)进行仿真环境无人机传感器随机故障测试,取策略候选池中传感器故障时容错控制表现最佳的策略网络模型;
(8)在使用阶段,使用(7)中得到的策略网络的输出,来容错控制无人机的位置、速度、姿态。
所述(1)中,无人机的部件物理常量包括无人机螺旋桨推力、升力、阻力、质量、转动惯量矩阵、力矩系数,电机推力、阻力、转动惯量、响应时间、质量,以及机身质量,大小。
所述(2)中,所述创建无人机仿真环境包括:
(21)依据测量的无人机的部件物理常数建立无人机仿真模型;定义无人机的强化学习观测集合、动作集合、最大步长;设置无人机的起始点、目标点;传感器噪声类型共涉及2种物理量,分别为无人机位置信息和当前环境气压。设置无人机虚拟传感器噪声随机分布为标准正态分布,噪声添加的方式为在标准正态分布中采样后的值(无人机位置信息和当前环境气压)与上述2种物理量之和反馈给无人机传感器;传感器故障类型共涉及3种物理量,分别为电机转速、飞行姿态、陀螺仪角度。设置虚拟传感器故障随机分布为均匀分布,故障添加方式为上述三种物理量对应范围的均匀分布采样后得到的值反馈给无人机传感器。
(22)设置仿真环境中无人机的奖励函数为:
Figure BDA0003174481480000021
其中分母中各个λ为超参数,ω为机身角速度,Rθ为翻滚角,Pθ为俯仰角,Yθ为偏摆角,dtar为无人机距目标点距离,Δx表示无人机当前时刻与无人机稳定悬浮时物理量x的差值,∈d和∈θ表示一个较小的常量。当无人机稳定悬浮时,其奖励为
Figure BDA0003174481480000022
所述(3)中的收集样本数据包括:
(31)从策略候选池随机采样一个候选策略初始化状态动作值函数网络Qθ(st,at)和策略网络μφ(st),当策略候选池为空时直接随机初始化;初始化重放经验池D,目标状态值函数网络Qθ′(st,at)=Qθ(st,at)和目标策略网络μφ′(st)=μφ(st),其中目标状态值函数网络和目标策略网络为无人机最终运行时的神经网络。
(32)在仿真环境中,设置仿真环境传感器随机故障模式,获得无人机观测到的初始状态s0
(33)对于每个时间步,基于无人机当前观测到的状态st,动作at可以由下式得到:
at=clip(μφ(st)+∈,alow,ahigh)
其中∈服从于均值为0的正态分布,alow为动作合法最小值,ahigh为动作合法的最大值,无人机在环境中执行动作at,然后基于奖励函数获得奖励值rt,并获得无人机在环境中的当前状态st+1,和状态终结信号dt
(34)将样本{st,at,rt,st+1,dt}加入经验池D;
(35)重复(33)~(34)直到经验池D大小为容量75%时,设置仿真环境为无故障模式,重复(33)~(34)直到经验池D填满。
所述(4)中,更新状态动作值函数网络和策略网络包括:
从重放经验池D采样N个样本(si,ai,ri,si+1,di),基于梯度下降对状态动作值函数网络Qθ(st,at)做如下更新:
Figure BDA0003174481480000031
其中,
Figure BDA0003174481480000032
yi=ri+γ(1-di)Qθ′(si+1,μφ′(si+1))
λQ是状态动作值函数网络的更新步长;γ是折扣系数,值越大表示短期回报的权重越大。
基于梯度下降对策略网络μφ(st)做如下更新:
Figure BDA0003174481480000033
使用状态动作值网络Qθ(st,at)的参数θ和策略网络μφ(st)的参数φ分别对目标状态动作值函数网络Qθ′(st,at)的参数θ′和目标策略网络μφ′(st)的参数φ′做软更新,
φ′=τφ′+(1-τ)φ
θ′=Tθ′+(1-τ)θ。
所述(6)中,逐步增加传感器故障类型直至得到最终策略候选池,包括:
(61)收敛后的目标策略网络和目标状态动作值函数网络参数作为候选策略存入策略网络候选池之中;
(62)增加传感器故障类型,从策略网络候选池采样得到候选策略,在此基础训练新的策略网络,若策略网络可以稳定收敛,则将其加入到策略候选池之中;
(63)在尝试(62)到事先指定最大次数后,停止训练,并得到最终策略候选池。
所述(7)中,取得策略候选池中传感器容错控制表现最佳的策略网络模型为:
在仿真环境中随机设置传感器故障,对策略候选池中所有候选策略进行测试,多次测试后取得平均奖励最高的候选策略作为无人机策略网络模型。
所述(4)中,更新完状态动作值函数网络、策略函数网络、目标策略函数网络和目标状态动作值函数网络以后,从重放经验池D中删除使用过的N个样本。对于每批含有N个样本的数据,重复执行(4)直到经验池为空或者剩余样本数不足N。
一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如上所述的基于强化学习的无人机传感器故障时容错控制方法。
一种计算机可读存储介质,该计算机可读存储介质存储有执行如上所述的基于强化学习的无人机传感器故障时容错控制方法的计算机程序。
与现有技术相比,本发明具有的益处有:
1)本发明使用了深度强化学习算法中确定性策略梯度对无人机进行容错控制,相比于未使用容错训练的无人机强化学习控制方法鲁棒性更高,泛化性更强;相比于传统主动式规则式容错检测控制粒度更加精细,控制方法更加稳定。
2)本发明使用容错控制策略候选池的训练方法,在保障策略在无人机传感器故障时稳定控制的同时避免从零开始训练,同时容易学习出对不同传感器复合故障的容错控制策略。
3)本发明使用仿真传感器随机故障训练方法,能有效降低无人机受到攻击或者部分传感器故障时完全失灵的风险,同时保障无人机应用到现代化物流体系中的鲁棒性。
附图说明
图1是本发明实施例的整体框架图;
图2是本发明实施例的使用阶段框架图。
具体实施方式
下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
基于强化学习的无人机传感器故障时容错控制方法,基于强化学习DDPG算法的思想,实现了在无人机传感器故障时,对无人机进行自主容错决策的训练。
首先,强化学习可以用一个马尔科夫决策过程(MDP)表述,它是由四元组<S,A,p,r>所定义。其中,S表示状态空间,A表示动作空间,p表示未知的状态转移概率:S×S×A→[0,1],表示从当前状态和动作转移到下一个状态的概率,r表示在当前状态st下执行动作at收到的环境回报值。可以用ρμ(st)和ρμ(st,at)分别表示状态以及状态动作对在遵循确定性策略μ(st)下生成轨迹的分布。
下面对深度确定性策略梯度(DDPG)算法做简单介绍。不同于随机性强化学习策略梯度方法,DDPG可以在最终策略部署时得到确定的动作输出,这在无人机这种物理动力系统基本确定的环境下,可以更好的进行决策控制。同时,DDPG是异策略强化学习方法,有更好的样本效率和探索效率。
基于上述知识点以及发明内容中的步骤,下面对本发明实施例的具体实施细节做详细介绍。
包括以下步骤:
步骤一:测定无人机螺旋桨推力、升力、阻力、质量、转动惯量矩阵、力矩系数,电机推力、阻力、转动惯量、响应时间、质量。机身质量,大小。
步骤二:依据测定无人机的物理常数建立无人机仿真环境;定义无人机的强化学习观测集合、动作集合和最大步长;设置无人机的起始点、目标点;传感器噪声类型共涉及2种物理量,分别为无人机位置信息和当前环境气压。设置无人机虚拟传感器噪声随机分布为标准正态分布,噪声添加的方式为在标准正态分布中采样后的值与上述2种物理量之和反馈给无人机传感器;传感器故障类型共涉及3种物理量,分别为电机转速、飞行姿态、陀螺仪角度。设置虚拟传感器故障随机分布为均匀分布,故障添加方式为上述三种物理量对应范围的均匀分布采样后得到的值反馈给无人机传感器。设置仿真环境飞机奖励函数为:
Figure BDA0003174481480000051
其中分母中各个λ为超参数,ω为机身角速度,Rθ为翻滚角,Pθ为俯仰角,Yθ为偏摆角,dtar为无人机距目标点距离,Δx表示无人机当前时刻与无人机稳定悬浮时物理量x的差值,∈d和∈θ表示一个较小的常量。
步骤三:从策略候选池随机采样一个候选策略初始化状态动作值函数网络Qθ(st,at)、策略网络μφ(st),当策略候选池为空时直接随机初始化;这里状态动作值函数网络使用隐层神经元个数为256,共计4层,策略网络隐层神经元个数为128,共计4层;初始化重放经验池D大小为10000,目标状态值函数网络Qθ′(st,at)=Qθ(st,at)和目标策略网络μφ′(st)=μφ(st),其中目标状态值函数网络和目标策略网络为无人机最终运行时的神经网络;在仿真环境中,设置仿真环境传感器随机故障模式,获得无人机观测到的初始状态s0
步骤四:对于每个时间步,基于无人机当前观测到的状态st从策略网络输出和服从均值为0的正态分布的随机变量∈的和μφ(st)+∈获得动作at,无人机在环境中执行动作at,然后基于奖励机制获得奖励值rt,并获得无人机在环境中的当前状态st+1,是否为终结状态信号dt
步骤五:将样本{(st,at,rt,st+1,dt)}加入经验池D;
步骤六:重复步骤四和步骤五直到经验池D大小为容量75%时,即传感器故障样本数为7500条时,此时设置仿真环境为无故障模式,重复步骤四和步骤五直到经验池D填满;
步骤七:从重放经验池D采样512条样本(si,ai,ri,si+1,di),基于梯度下降对状态值函数网络Qθ(st,at)做如下更新:
Figure BDA0003174481480000061
其中,
Figure BDA0003174481480000062
yi=ri+γ(1-di)Qθ′(si+1,μφ′(si+1))
λQ是状态值函数网络的更新步长,γ是折扣系数,值越大表示短期回报的权重越大。
基于梯度下降对策略网络μφ(st)做如下更新:
Figure BDA0003174481480000063
使用状态动作值网络Qθ(st,at)的参数θ和策略网络μφ(st)的参数φ分别对目标状态动作值函数网络Qθ′(st,at)的参数θ′和目标策略网络μφ′(st)的参数φ′做软更新,
φ′=τφ′+(1-τ)φ
θ′=τθ′+(1-τ)θ
最后从缓冲区D中删除这512条样本;
步骤八:对于每个小批量样本,重复执行步骤七直到缓冲区为空或者剩余样本数不足512条;
步骤九:重复执行步骤三到步骤八直到目标状态动作值函数网络Qθ′(st,at)和目标策略网络μφ′(st)收敛;将其加入到策略网络候选池之中;在扩充策略候选池过程中,增加传感器故障类型,重复步骤三到步骤八T次,得到最终策略候选池Cp
步骤十:设置仿真环境传感器随机故障模式,对最终策略候选池Cp中的所有策略进行测试;
步骤十一:重复步骤十M次,得到平均奖励最大的容错控制策略;
步骤十二:使用训练好的策略网络μφ(st)对无人机做决策。对于当前观测到的状态st,有动作at=μφ(st),对无人机执行动作at,与环境交互。
显然,本领域的技术人员应该明白,上述的本发明实施例的基于强化学习的无人机传感器故障时容错控制方法各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

Claims (10)

1.一种基于强化学习的无人机传感器故障时容错控制方法,其特征在于,包括以下步骤:
(1)对无人机的部件物理常数进行测量;
(2)基于所述测量的无人机的部件物理常数创建无人机仿真环境;
(3)使用强化学习策略网络的输出控制无人机与仿真环境交互,同时收集传感器故障和正常时的样本数据,并存储到经验池;
(4)使用经验池中的样本数据和DDPG算法对状态动作值函数网络以及策略网络进行更新;
(5)重复执行步骤(3)到步骤(4)直到策略网络和状态动作值函数网络收敛,将策略网络和状态动作值函数网络参数作为候选策略,保存策略网络和状态动作值函数网络参数至策略候选池;
(6)逐步增加环境中传感器故障类型,重复步骤(5),直至达到预尝试次数阈值,得到最终策略网络候选池;
(7)进行仿真环境无人机传感器随机故障测试,取策略候选池中传感器故障时容错控制表现最佳的策略网络模型;
(8)在使用阶段,使用(7)中得到的策略网络的输出,来容错控制无人机的位置、速度、姿态。
2.根据权利要求1所述的基于强化学习的无人机传感器故障时容错控制方法,其特征在于,所述(1)中,无人机的部件物理常量包括无人机螺旋桨推力、升力、阻力、质量、转动惯量矩阵、力矩系数,电机推力、阻力、转动惯量、响应时间、质量,以及机身质量,大小。
3.根据权利要求1所述的基于强化学习的无人机传感器故障时容错控制方法,其特征在于,所述(2)中,所述创建无人机仿真环境包括:
(21)依据测量的无人机的部件物理常数建立无人机仿真模型;定义无人机的强化学习观测集合、动作集合、最大步长;设置无人机的起始点、目标点;传感器噪声类型共涉及2种物理量,分别为无人机位置信息和当前环境气压;设置无人机虚拟传感器噪声随机分布为标准正态分布,噪声添加的方式为在标准正态分布中采样后的值与上述2种物理量之和反馈给无人机传感器;传感器故障类型共涉及3种物理量,分别为电机转速、飞行姿态、陀螺仪角度;设置虚拟传感器故障随机分布为均匀分布,故障添加方式为上述三种物理量对应范围的均匀分布采样后得到的值反馈给无人机传感器;
(22)设置仿真环境中无人机的奖励函数为:
Figure FDA0003174481470000011
其中分母中各个λ为超参数,ω为机身角速度,Rθ为翻滚角,Pθ为俯仰角,Yθ为偏摆角,dtar为无人机距目标点距离,Δx表示无人机当前时刻与无人机稳定悬浮时物理量x的差值,∈d和∈θ表示一个较小的常量;当无人机稳定悬浮时,其奖励为
Figure FDA0003174481470000021
4.根据权利要求1所述的基于强化学习的无人机传感器故障时容错控制方法,其特征在于,所述(3)中的收集样本数据包括:
(31)从策略候选池随机采样一个候选策略初始化状态动作值函数网络Qθ(st,at)和策略网络μφ(st),当策略候选池为空时直接随机初始化;初始化重放经验池D,目标状态值函数网络Qθ′(st,at)=Qθ(st,at)和目标策略网络μφ′(st)=μφ(st),其中目标状态值函数网络和目标策略网络为无人机最终运行时的神经网络;
(32)在仿真环境中,设置仿真环境传感器随机故障模式,获得无人机观测到的初始状态s0
(33)对于每个时间步,基于无人机当前观测到的状态st,动作at可以由下式得到:
at=clip(μφ(st)+∈,alow,ahigh)
其中∈服从于均值为0的正态分布,alow为动作合法最小值,ahigh为动作合法的最大值,无人机在环境中执行动作at,然后基于奖励函数获得奖励值rt,并获得无人机在环境中的当前状态st+1,和状态终结信号dt
(34)将样本{st,at,rt,st+1,dt}加入经验池D;
(35)重复(33)~(34)直到经验池D大小为容量75%时,设置仿真环境为无故障模式,重复(33)~(34)直到经验池D填满。
5.根据权利要求1所述的基于强化学习的无人机传感器故障时容错控制方法,其特征在于,所述(4)中,更新状态动作值函数网络和策略网络包括:
从重放经验池D采样N个样本(si,ai,ri,si+1,di),基于梯度下降对状态动作值函数网络Qθ(st,at)做如下更新:
Figure FDA0003174481470000022
其中,
Figure FDA0003174481470000023
yi=ri+γ(1-di)Qθ′(si+1,μφ′(si+1))
λQ是状态动作值函数网络的更新步长;γ是折扣系数,值越大表示短期回报的权重越大;
基于梯度下降对策略网络μφ(st)做如下更新:
Figure FDA0003174481470000031
对目标状态动作值函数网络和目标策略网络做软更新,
φ′=τφ′+(1-τ)φ
θ′=τθ′+(1-τ)θ。
6.根据权利要求1所述的基于强化学习的无人机传感器故障时容错控制方法,其特征在于,所述(6)中,逐步增加传感器故障类型直至得到最终策略候选池,包括:
(61)收敛后的目标策略网络和目标状态动作值函数网络参数作为候选策略存入策略网络候选池之中;
(62)增加传感器故障类型,从策略网络候选池采样得到候选策略,在此基础训练新的策略网络,若策略网络可以稳定收敛,则将其加入到策略候选池之中;
(63)在尝试(62)到事先指定最大次数后,停止训练,并得到最终策略候选池。
7.根据权利要求1所述的基于强化学习的无人机传感器故障时容错控制方法,其特征在于,所述(7)中,取得策略候选池中传感器容错控制表现最佳的策略网络模型为:
在仿真环境中随机设置传感器故障,对策略候选池中所有候选策略进行测试,多次测试后取得平均奖励最高的候选策略作为无人机策略网络模型。
8.根据权利要求1所述的基于强化学习的无人机传感器故障时容错控制方法,其特征在于,所述(4)中,更新完状态动作值函数网络、策略函数网络、目标策略函数网络和目标状态动作值函数网络以后,从重放经验池D中删除使用过的N个样本;对于每批含有N个样本的数据,重复执行(4)直到经验池为空或者剩余样本数不足N。
9.一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行上述计算机程序时实现如权利要求1-8中任一项所述的基于强化学习的无人机传感器故障时容错控制方法。
10.一种计算机可读存储介质,该计算机可读存储介质存储有执行如权利要求1-8中任一项所述的基于强化学习的无人机传感器故障时容错控制方法的计算机程序。
CN202110828311.7A 2021-07-22 2021-07-22 基于强化学习的无人机传感器故障时容错控制方法 Pending CN113467248A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110828311.7A CN113467248A (zh) 2021-07-22 2021-07-22 基于强化学习的无人机传感器故障时容错控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110828311.7A CN113467248A (zh) 2021-07-22 2021-07-22 基于强化学习的无人机传感器故障时容错控制方法

Publications (1)

Publication Number Publication Date
CN113467248A true CN113467248A (zh) 2021-10-01

Family

ID=77881656

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110828311.7A Pending CN113467248A (zh) 2021-07-22 2021-07-22 基于强化学习的无人机传感器故障时容错控制方法

Country Status (1)

Country Link
CN (1) CN113467248A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115061371A (zh) * 2022-06-20 2022-09-16 中国航空工业集团公司沈阳飞机设计研究所 一种防止策略抖动的无人机控制策略强化学习生成方法
CN117034020A (zh) * 2023-10-09 2023-11-10 贵州大学 一种基于cvae-gan模型的无人机传感器零样本故障检测方法
CN117492383B (zh) * 2024-01-03 2024-04-05 中南大学 一种基于半实物仿真的无人机自动化测试系统及方法

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9545995B1 (en) * 2015-07-14 2017-01-17 Qualcomm Incorporated Control normalization for unmanned autonomous systems
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
US20180095433A1 (en) * 2016-09-30 2018-04-05 Sony Interactive Entertainment Inc. Mechanical effects by way of software or real world engagement
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
US20190004518A1 (en) * 2017-06-30 2019-01-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and system for training unmanned aerial vehicle control model based on artificial intelligence
CN110531617A (zh) * 2019-07-30 2019-12-03 北京邮电大学 多无人机3d悬停位置联合优化方法、装置和无人机基站
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
GB201919198D0 (en) * 2019-12-23 2020-02-05 Univ Surrey Sensor fault prediction method and apparatus
WO2020056299A1 (en) * 2018-09-14 2020-03-19 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation
CN111045443A (zh) * 2018-10-11 2020-04-21 北京航空航天大学 移动控制方法、装置、设备及存储介质
CN111190429A (zh) * 2020-01-13 2020-05-22 南京航空航天大学 一种基于强化学习的无人机主动容错控制方法
WO2020134507A1 (zh) * 2018-12-28 2020-07-02 北京邮电大学 无人机网络路由构建方法、无人机及存储介质
CN111619806A (zh) * 2020-06-03 2020-09-04 深圳市道通智能航空技术有限公司 一种无人机故障检测方法、无人机及无人机系统
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN112131660A (zh) * 2020-09-10 2020-12-25 南京大学 一种基于多智能体强化学习的无人机集群协同学习方法
CN112749515A (zh) * 2021-01-29 2021-05-04 天津大学 融合生物启发和深度强化学习的损伤机器人步态自学习
WO2021082864A1 (zh) * 2019-10-30 2021-05-06 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法
AU2021101989A4 (en) * 2021-04-16 2021-06-03 Arularasu, S. MR Self-tuning controller and tracking method for autonomous aerial drone
US20210165405A1 (en) * 2019-12-03 2021-06-03 University-Industry Cooperation Group Of Kyung Hee University Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same
CN112947562A (zh) * 2021-02-10 2021-06-11 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
KR20210075647A (ko) * 2019-12-13 2021-06-23 한국전자통신연구원 깊이 카메라를 이용한 무인 비행체의 비행 제어를 위한 학습 방법 및 장치
CN113110592A (zh) * 2021-04-23 2021-07-13 南京大学 一种无人机避障与路径规划方法

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9545995B1 (en) * 2015-07-14 2017-01-17 Qualcomm Incorporated Control normalization for unmanned autonomous systems
WO2018053187A1 (en) * 2016-09-15 2018-03-22 Google Inc. Deep reinforcement learning for robotic manipulation
US20180095433A1 (en) * 2016-09-30 2018-04-05 Sony Interactive Entertainment Inc. Mechanical effects by way of software or real world engagement
US20190004518A1 (en) * 2017-06-30 2019-01-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and system for training unmanned aerial vehicle control model based on artificial intelligence
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
WO2020056299A1 (en) * 2018-09-14 2020-03-19 Google Llc Deep reinforcement learning-based techniques for end to end robot navigation
CN111045443A (zh) * 2018-10-11 2020-04-21 北京航空航天大学 移动控制方法、装置、设备及存储介质
WO2020134507A1 (zh) * 2018-12-28 2020-07-02 北京邮电大学 无人机网络路由构建方法、无人机及存储介质
CN110531617A (zh) * 2019-07-30 2019-12-03 北京邮电大学 多无人机3d悬停位置联合优化方法、装置和无人机基站
CN110673620A (zh) * 2019-10-22 2020-01-10 西北工业大学 一种基于深度强化学习的四旋翼无人机航线跟随控制方法
WO2021082864A1 (zh) * 2019-10-30 2021-05-06 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法
US20210165405A1 (en) * 2019-12-03 2021-06-03 University-Industry Cooperation Group Of Kyung Hee University Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same
KR20210075647A (ko) * 2019-12-13 2021-06-23 한국전자통신연구원 깊이 카메라를 이용한 무인 비행체의 비행 제어를 위한 학습 방법 및 장치
GB201919198D0 (en) * 2019-12-23 2020-02-05 Univ Surrey Sensor fault prediction method and apparatus
CN111190429A (zh) * 2020-01-13 2020-05-22 南京航空航天大学 一种基于强化学习的无人机主动容错控制方法
CN111667513A (zh) * 2020-06-01 2020-09-15 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN111619806A (zh) * 2020-06-03 2020-09-04 深圳市道通智能航空技术有限公司 一种无人机故障检测方法、无人机及无人机系统
CN112131660A (zh) * 2020-09-10 2020-12-25 南京大学 一种基于多智能体强化学习的无人机集群协同学习方法
CN112749515A (zh) * 2021-01-29 2021-05-04 天津大学 融合生物启发和深度强化学习的损伤机器人步态自学习
CN112947562A (zh) * 2021-02-10 2021-06-11 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
AU2021101989A4 (en) * 2021-04-16 2021-06-03 Arularasu, S. MR Self-tuning controller and tracking method for autonomous aerial drone
CN113110592A (zh) * 2021-04-23 2021-07-13 南京大学 一种无人机避障与路径规划方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
OMAR BOUHAMED等: "A DDPG-based Approach for Energy-aware UAV Navigation in Obstacle-constrained Environment", 《IEEE 6TH WORLD FORUM ON INTERNET OF THINGS (WF-IOT)》 *
SHU FU等: "Energy-Efficient UAV-Enabled Data Collection via Wireless Charging: A Reinforcement Learning Approach", 《IEEE INTERNET OF THINGS JOURNAL》 *
任坚: "基于机器学习的无人机飞控系统主动容错控制技术研究", 《工程科技Ⅱ辑》 *
孙辉辉等: "移动机器人运动规划中的深度强化学习方法", 《控制与决策》 *
许刚等: "无人机的神经网络观测器及多传感器故障诊断技术的研究", 《计算机与数字工程》 *
黄旭等: "深度确定性策略梯度算法用于无人飞行器控制", 《航空学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115061371A (zh) * 2022-06-20 2022-09-16 中国航空工业集团公司沈阳飞机设计研究所 一种防止策略抖动的无人机控制策略强化学习生成方法
CN115061371B (zh) * 2022-06-20 2023-08-04 中国航空工业集团公司沈阳飞机设计研究所 一种防止策略抖动的无人机控制策略强化学习生成方法
CN117034020A (zh) * 2023-10-09 2023-11-10 贵州大学 一种基于cvae-gan模型的无人机传感器零样本故障检测方法
CN117034020B (zh) * 2023-10-09 2024-01-09 贵州大学 一种基于cvae-gan模型的无人机传感器零样本故障检测方法
CN117492383B (zh) * 2024-01-03 2024-04-05 中南大学 一种基于半实物仿真的无人机自动化测试系统及方法

Similar Documents

Publication Publication Date Title
CN113467248A (zh) 基于强化学习的无人机传感器故障时容错控制方法
Wang et al. Multivariate regression-based fault detection and recovery of UAV flight data
US5751609A (en) Neural network based method for estimating helicopter low airspeed
Castaldi et al. Design of residual generators and adaptive filters for the FDI of aircraft model sensors
Lu et al. Selective-reinitialization multiple-model adaptive estimation for fault detection and diagnosis
Sushchenko et al. Fault-tolerant inertial measuring instrument with neural network
CN113825978B (zh) 用于定义路径的方法和设备、存储装置
Bai et al. Multi-innovation gradient iterative locally weighted learning identification for a nonlinear ship maneuvering system
Gao et al. An abnormal motion condition monitoring method based on the dynamic model and complex network for AUV
Grauer Real-time data-compatibility analysis using output-error parameter estimation
CN109375642B (zh) 一种无人机节能控制方法
CN113467244B (zh) 基于控制矩阵重分配的多旋翼无人机容错控制方法及装置
Battipede et al. Neural networks for air data estimation: test of neural network simulating real flight instruments
CN116756652A (zh) 基于孪生神经网络的高超声速飞行器执行机构故障诊断方法
CN113221719B (zh) 飞行器故障诊断方法、装置和电子设备
Pham et al. Aerodynamic sensing for hypersonics via scientific machine learning
CN115269571A (zh) 基于数据处理的数据质量评估方法
Zhang et al. Rocket image classification based on deep convolutional neural network
CN114859704A (zh) 一种针对四旋翼无人机姿态的强化学习优化控制方法
CN113625720A (zh) 一种无人艇自主航行控制算法仿真评估系统
Zou et al. Parallel crosschecking neural network based fault-tolerant flight parameter estimation and faulty sensor identification
CN108429728B (zh) 一种基于时间增益补偿的攻击路径预测方法
Niu et al. Fault diagnosis of carrier rocket actuator based on multiple-model method
Ren et al. Using quantifier elimination to enhance the safety assurance of deep neural networks
González-Etchemaite et al. Rotor Fault Detection and Identification in Multirotors Based on Supervised Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211001