CN110297423B

CN110297423B - 一种飞行器长期在轨多模智能集成系统

Info

Publication number: CN110297423B
Application number: CN201910447804.9A
Authority: CN
Inventors: 张英; 王世会; 赵雄波; 郭波涛; 李悦; 呼吁; 许琦; 王�琦; 韩利军; 杨广慧; 陈伟; 韦闽峰; 宋鹏飞; 王栋; 成锐; 张昕; 周辉; 秦东辉; 汪冬瑾; 江存胜
Original assignee: China Academy of Launch Vehicle Technology CALT; Beijing Aerospace Automatic Control Research Institute
Current assignee: China Academy of Launch Vehicle Technology CALT; Beijing Aerospace Automatic Control Research Institute
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2022-08-12
Anticipated expiration: 2039-05-27
Also published as: CN110297423A

Abstract

本发明公开了一种飞行器长期在轨多模智能集成系统，包括：传感器模块、控制模块和执行模块；其中，所述传感器模块用于向控所述制模块实时输入飞行器敏感的飞行数据，其中，该数据包括可供飞行器控制直接使用的具有历史相关性的多维结构化浮点数据和相对应的传感器模块的物理表征量；所述控制模块接收飞行器敏感的飞行数据，并根据飞行器敏感的飞行数据处理得到状态数据和动作数据，并将状态数据和动作数据传输给所述执行模块；所述执行模块根据状态数据和动作数据输出运行指令，实现飞行器控制。本发明通过对飞行器长期在轨多模式状态智能控制，可动态的采取相应措施，确保系统正常运行。

Description

一种飞行器长期在轨多模智能集成系统

技术领域

本发明属于宇航系统在线集成控制技术领域，尤其涉及一种飞行器长期在轨多模智能集成系统。

背景技术

目前，在研的飞行器控制系统，只能使用信息融合等传统方法在某一时间片内完成基于单传感器和单执行器控制，在多模式传感器和执行器的复杂使用环境下无法满足控制系统常年在轨的需求。

由于控制系统日趋复杂，现有技术很难全面了解系统长期在轨飞行的行为特征。

发明内容

本发明解决的技术问题是：克服现有技术的不足，提供了一种飞行器长期在轨多模智能集成系统，通过对飞行器长期在轨多模式状态智能控制，可动态的采取相应措施，确保系统正常运行。

本发明目的通过以下技术方案予以实现：一种飞行器长期在轨多模智能集成系统，包括：传感器模块、控制模块和执行模块；其中，所述传感器模块用于向控所述制模块实时输入飞行器敏感的飞行数据，其中，该数据包括可供飞行器控制直接使用的具有历史相关性的多维结构化浮点数据和相对应的传感器模块的物理表征量；所述控制模块接收飞行器敏感的飞行数据，并根据飞行器敏感的飞行数据处理得到状态数据和动作数据，并将状态数据和动作数据传输给所述执行模块；所述执行模块根据状态数据和动作数据输出运行指令，实现飞行器控制。

上述飞行器长期在轨多模智能集成系统中，所述传感器模块包括雷达集成模块、可见光集成模块、红外光集成模块、加表集成模块、陀螺集成模块和GPS集成模块；其中，所述雷达集成模块输出具有历史相关性的结构化雷达浮点数据和雷达回波数据，并将具有历史相关性的结构化雷达浮点数据输出给控制模块的第一输入层，将雷达回波数据输出给控制模块的第二输入层；可见光集成模块输出具有历史相关性的结构化可见光浮点数据和可见光像素数据，并将具有历史相关性的结构化可见光浮点数据输出给控制模块的第一输入层，将可见光的像素输出给控制模块的第二输入层；红外光集成模块输出具有历史相关性的结构化红外光浮点数据和红外光灰度数据，并将具有历史相关性的结构化红外光浮点数据输出给控制模块的第一输入层，将红外光的灰度输出给控制模块的第二输入层；加表集成模块输出具有历史相关性的结构化加表浮点数据和加速度，并将具有历史相关性的结构化加表浮点数据输出给控制模块的第一输入层，将加速度输出给控制模块的第二输入层；陀螺集成模块输出具有历史相关性的结构化陀螺浮点数据和陀螺角速度，并将具有历史相关性的结构化陀螺浮点数据输出给控制模块的第一输入层，将陀螺的角速度输出给控制模块的第二输入层；GPS集成模块输出具有历史相关性的结构化GPS浮点数据和GPS定位信息数据，并将具有历史相关性的结构化GPS浮点数据输出给控制模块的第一输入层，将GPS定位信息输出给控制模块的第二输入层。

上述飞行器长期在轨多模智能集成系统中，所述控制模块包括第一输入层、特征抽取层、第二输入层、第一全连接层和第二全连接层；其中，第一输入层接收具有历史相关性的结构化雷达浮点数据、具有历史相关性的结构化可见光浮点数据、具有历史相关性的结构化红外光浮点数据、具有历史相关性的结构化加表浮点数据、具有历史相关性的结构化陀螺浮点数据和具有历史相关性的结构化GPS浮点数据，经过卷积算法处理后得到第一输入层输出数据，将第一输入层输出数据发送给特征抽取层；特征抽取层接收第一输入层输出数据，该第一输入层输出数据具有状态数据和动作数据，其经过池化算法处理后得到特征抽取层输出数据，将特征抽取层输出数据发送给第二输入层；第二输入层接收特征抽取层输出数据，若雷达回波数据小于预设频率，将特征抽取层输出数据中表征雷达回波数据相关的数据置零；若可见光像素数据小于预设像素，将特征抽取层输出数据中表征可见光像素数据相关的数据置零；若红外灰度数据小于预设灰度，将特征抽取层输出数据中表征红外灰度数据相关的数据置零；若加表加速度数据小于预设加速度，将特征抽取层输出数据中表征加速度相关的数据置零；若陀螺角速度数据小于预设角速度，将特征抽取层输出数据中表征陀螺角速度数据相关的数据置零；若GPS定位信息数据小于预设定位信息数据，将特征抽取层输出数据中表征GPS定位信息数据相关的数据置零；特征抽取层输出数据与第二输入层的卷积核因子通过卷积算法处理后得到第二输入层输出数据；将第二输入层输出数据发送给第一全连接层；第一全连接层接收第二输入层输出数据，经过全连接算法处理后，将数据发送给第二全连接层；第二全连接层接收来自第一全连接层的数据，经过全连接算法处理后，得到更新后的状态数据和动作数据发送给驱动模块作为控制模块的整体输出；其中，状态数据包括电动舵机集成模块有效数据、电液伺服集成模块有效数据和柔性喷管集成模块有效数据。

上述飞行器长期在轨多模智能集成系统中，所述执行模块包括电动舵机集成模块、电液伺服集成模块和柔性喷管集成模块；其中，所述电动舵机集成模块接收到控制模块输出的电动舵机集成模块有效数据，输出启动高压电能块指令；电动驱动模块根据接收到控制模块输出的动作数据，输出舵控模块的运行指令，实现飞行器控制；所述电液伺服集成模块接收到控制模块输出的电液伺服集成模块有效数据，，输出启动油源及电能模块指令；电液驱动模块根据接收到控制模块输出的动作数据，输出伺服模块的运行指令，实现飞行器控制；所述柔性喷管集成模块接收到控制模块输出的柔性喷管驱动集成模块有效数据，输出启动低压电能模块指令；柔性喷管驱动模块根据接收到控制模块输出的动作数据，输出喷管模块的运行指令，实现飞行器控制。

上述飞行器长期在轨多模智能集成系统中，预设频率为5HZ。

上述飞行器长期在轨多模智能集成系统中，预设像素为50pixel。

上述飞行器长期在轨多模智能集成系统中，预设灰度为50bits。

上述飞行器长期在轨多模智能集成系统中，预设加速度为8m/s^2。

上述飞行器长期在轨多模智能集成系统中，预设角速度为20m/s。

上述飞行器长期在轨多模智能集成系统中，预设定位信息数据为3m。

本发明与现有技术相比具有如下有益效果：

(1)本发明解决了目前飞行器控制系统，只能使用信息融合等传统方法在某一时间片内完成基于单传感器和单执行器控制，本发明通过使用6路异构传感器模块、基于人工智能强化学习算法的控制模块和3路异构执行模块，完成了在多模式传感器和执行器的复杂使用环境下满足控制系统常年在轨的需求。使得日趋复杂的飞行器控制系统，可以在某个传感器模块故障发生后，实现飞行器长期在轨多模式控制，防止灾难性故障的发生；

(2)本发明解决了传统飞行器控制仅仅对优先错误进行设计，无法有效覆盖未知错误的问题，提出了基于多模式的强化学习控制模型。并且该模型可实现判别多模式的传感器模块和驱动模块的控制执行能力，输出多控制模块中较优控制量，使系统处于最优状态，有效提高飞行器控制系统整体性能；

(3)本发明的控制模块的输入可以表示是飞行器决策控制所有状态的集合，实现对飞行器所处状态的充分表现，供长期在轨飞行器控制模块做出正确多模式智能控制；其中，结构化传感浮点数据，因多模块的表现与输入的结构化传感浮点数据有关，可以根据浮点数据在不同的范围，进行多模块智能控制；使用具有相似表征物理量雷达的回波、可见光的像素等信息，比较该信息与预设门限值的关系，则控制模块的第二输入层将相应传感器集成模块数据处于工作状态或无效状态。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的飞行器长期在轨多模智能集成系统的框图；

图2是本发明实施例提供的控制模块基于Deep Q-Learning网络结构图；

图3是本发明实施例提供的控制模块基于Asynchronous Advantage Actor-Critic(A3C)的网络结构图；

图4是本发明实施例提供的控制切换模块示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

图1是本发明实施例提供的飞行器长期在轨多模智能集成系统的框图。如图1所示，该飞行器长期在轨多模智能集成系统包括传感器模块，控制模块和执行模块。

传感器模块用于向控制模块实时输入飞行器敏感的飞行数据，该数据分为可供飞行器控制直接使用的具有历史相关性的多维结构化浮点数据(包括具有历史相关性的结构化雷达浮点数据、具有历史相关性的结构化可见光浮点数据、具有历史相关性的结构化红外光浮点数据、具有历史相关性的结构化红外光浮点数据、具有历史相关性的结构化加表浮点数据、具有历史相关性的结构化陀螺浮点数据、具有历史相关性的结构化GPS浮点数据)，以及某特定传感器独有的物理表征量(包括雷达回波数据、可见光像素数据、红外光灰度数据、加速度、陀螺角速度、GPS定位信息数据)。

其中，传感器模块包括6个集成模块，分别为雷达集成模块、可见光集成模块、红外光集成模块、加表集成模块、陀螺集成模块和GPS集成模块。

雷达集成模块：雷达集成模块用于敏感雷达信号，其输出具有历史相关性的结构化雷达浮点数据和雷达回波数据，并将具有历史相关性的结构化雷达浮点数据输出给控制模块的第一输入层1，将雷达回波数据输出给控制模块的第二输入层2；根据雷达回波数据得到频率，如果这个频率大于预设频率(5HZ)，则控制模块的第二输入层2将雷达回波数据处于工作状态使得雷达回波数据应用于雷达回波信息的奖励函数；如果这个频率小于预设频率(5HZ)，则控制模块的第二输入层2将雷达回波数据处于无效状态，锁存上一时刻雷达回波信息的奖励函数；具有历史相关性的结构化雷达浮点数据具体为该浮点数据具有对其自身历史上的数据的相关性，且该数据是根据雷达传感器信息处理后得到的数据。

可见光集成模块：可见光集成模块用于敏感可见光信号，其输出具有历史相关性的结构化可见光浮点数据和可见光像素数据，并将具有历史相关性的结构化可见光浮点数据输出给控制模块的第一输入层1，将可见光的像素输出给控制模块的第二输入层2；如果可见光像素数据大于预设像素(50pixel)，则控制模块的第二输入层2将可见光像素数据处于工作状态，启动可见光像素信息的奖励函数；如果可见光像素数据小于预设像素(50pixel)，则控制模块的第二输入层2将可见光像素数据处于无效状态，锁存上一时刻可见光像素信息的奖励函数；具有历史相关性的结构化可见光浮点数据具体为该浮点数据具有对其自身历史上的数据的相关性，且该数据是根据可见光传感器信息处理后得到的数据。

红外光集成模块：红外光集成模块用于敏感红外光信号，其输出具有历史相关性的结构化红外光浮点数据和红外光灰度数据，并将具有历史相关性的结构化红外光浮点数据输出给控制模块的第一输入层1，将红外光的灰度输出给控制模块的第二输入层2；如果红外光灰度数据大于预设灰度(50bits)，则控制模块的第二输入层2将红外光灰度数据处于工作状态，启动红外光灰度信息的奖励函数；如果红外光灰度数据小于预设灰度(50bits)，则控制模块的第二输入层2将红外光灰度数据处于无效状态，锁存上一时刻红外光的灰度信息的奖励函数；具有历史相关性的结构化红外光浮点数据具体为该浮点数据具有对其自身历史上的数据的相关性，且该数据是根据红外光传感器信息处理后得到的数据。

加表集成模块：加表集成模块用于敏感加速度信号，其输出具有历史相关性的结构化加表浮点数据和加速度，并将具有历史相关性的结构化加表浮点数据输出给控制模块的第一输入层1，将加速度输出给控制模块的第二输入层2；根据加表得到的加速度，如果这个加速度的绝对值大于预设加速度(8m/s^2)，则控制模块的第二输入层2将加速度处于工作状态，启动加表信息的奖励函数；如果这个加速度的绝对值小于预设加速度(8m/s^2)，则控制模块的第二输入层2将加速度处于无效状态，锁存上一时刻加表信息的奖励函数；具有历史相关性的结构化加表浮点数据具体为该浮点数据具有对其自身历史上的数据的相关性，且该数据是根据加表传感器信息处理后得到的数据。

陀螺集成模块：陀螺集成模块用于敏感角速度信号，其输出具有历史相关性的结构化陀螺浮点数据和陀螺角速度，并将具有历史相关性的结构化陀螺浮点数据输出给控制模块的第一输入层1，将陀螺的角速度输出给控制模块的第二输入层2；根据陀螺的角速度，如果这个角速度大于预设角速度(20m/s)，则控制模块的第二输入层2将陀螺角速度处于工作状态，启动陀螺角速度信息的奖励函数；如果这个角速度小于预设角速度(20m/s)，则控制模块的第二输入层2将陀螺角速度处于无效状态，锁存上一时刻陀螺的角速度信息的奖励函数；具有历史相关性的结构化陀螺浮点数据具体为该浮点数据具有对其自身历史上的数据的相关性，且该数据是根据陀螺传感器信息处理后得到的数据。

GPS集成模块：GPS集成模块用于敏感定位信息，其输出具有历史相关性的结构化GPS浮点数据和GPS定位信息数据，并将具有历史相关性的结构化GPS浮点数据输出给控制模块的第一输入层1，将GPS定位信息输出给控制模块的第二输入层2；根据GPS定位信息数据，如果这个定位信息大于预设定位信息(3m)，则控制模块的第二输入层2将GPS定位信息数据处于工作状态，启动GPS定位信息的奖励函数；如果这个GPS定位信息数据小于预设定位信息(3m)，则控制模块的第二输入层2将GPS数据处于无效状态，锁存上一时刻GPS的定位信息的奖励函数；具有历史相关性的结构化GPS浮点数据具体为该浮点数据具有对其自身历史上的数据的相关性，且该数据是根据GPS传感器信息处理后得到的数据。

一种飞行器长期在轨多模智能集成系统的控制模块使用并行化实时决策机制，将雷达、可见光等6个集成模块输出的具有历史相关性的浮点数据并行传送至控制模块的第一输入层1，即第一输入层1并行处理维数为6的多维结构化浮点数据，同时还将具有相似表征物理量雷达的回波、可见光的像素和红外光的灰度组成第一组3维物理表征量输入上侧第二输入层2，将具有相似表征物理量的加表的加速度、陀螺的角速度和GPS的定位信息组成第二组3维物理表征量输入下侧第二输入层2。

其中，控制模块使用智能强化学习方法，包括第一输入层1、特征抽取层、第二输入层2、和全连接层1、全连接层2。

其中，控制模块使用智能强化学习方法，包括输入层1、特征抽取层、输入层2、和全连接层1、全连接层2。

(3.1)输入层1，接收具有历史相关性的结构化雷达浮点数据、具有历史相关性的结构化可见光浮点数据、具有历史相关性的结构化红外光浮点数据、具有历史相关性的结构化加表浮点数据、具有历史相关性的结构化陀螺浮点数据和具有历史相关性的结构化GPS浮点数据，经过卷积算法处理后得到第一输入层输出数据，将第一输入层输出数据发送给特征抽取层。

(3.2)特征抽取层，接收第一输入层输出数据，该第一输入层输出数据具有状态数据和动作数据，其经过池化算法处理后得到特征抽取层输出数据，将特征抽取层输出数据发送给第二输入层2。

(3.3)输入层2，接收特征抽取层输出数据，若雷达回波数据小于预设频率(5HZ)，将特征抽取层输出数据中表征雷达回波数据相关的数据置零；若可见光像素数据小于预设像素(50pixel)，将特征抽取层输出数据中表征可见光像素数据相关的数据置零；若红外灰度数据小于预设灰度(50bits)，将特征抽取层输出数据中表征红外灰度数据相关的数据置零；若加表加速度数据小于预设加速度(8m/s^2)，将特征抽取层输出数据中表征加速度相关的数据置零；若陀螺角速度数据小于预设角速度(20m/s)，将特征抽取层输出数据中表征陀螺角速度数据相关的数据置零；若GPS定位信息数据小于预设角速度(20m/s)，将特征抽取层输出数据中表征GPS定位信息数据相关的数据置零。

特征抽取层输出数据与第二输入层2的卷积核因子通过卷积算法处理后得到第二输入层输出数据；将第二输入层输出数据发送给第一全连接层1。

(3.4)全连接层1，接收来自输入层2的数据，经过智能强化学习的全连接算法处理后，将数据发送给全连接层2。

(3.5)全连接层2，接收来全连接层1的数据，经过智能强化学习的全连接算法处理后，得到更新后的状态数据和动作数据发送给驱动模块作为控制模块的整体输出。状态数据包括电动舵机集成模块有效数据、电液伺服集成模块有效数据、柔性喷管集成模块有效数据。

状态S和动作a的更新规则如下：

控制模块的强化学习模型系统状态中的Q值，直接逼近最优的动作值函数，而与正在遵循的策略无关。状态-动作对的基本更新规则可以如下式：

其中，a_t为智能体的学习率，γ表示折扣因子，S是状态，a为动作，r_t+1表示奖励函数。

其中，输出a动作就是指基于t时刻的状态选择了某个执行模块作为有效工作模块。因此动作空间为离散量，其包含的动作总个数为固定量，小于等于执行模块的输出范围。下面定义，在t时刻，飞行器执行的动作a_t值大小等于其选择的执行模块的驱动值。

其中，奖励函数由三部分组合而成。

r₁主要负责评价当前动作选择的冗余模块的输出y_output是否接近预期输出y_predict，具体形式采用了欧式距离的平方的倒数。r₂主要负责评价当前动作a_t所选择的冗余模块所对应的工作参数

是否在正常工作范围内，如果较正常工作范围差距超过一定阈值b₅，就会得到惩罚因子b₅。其中b₁～b₆为超参数。r₃为场景特定奖励函数，其中一项奖励因子为当前实际位置和期望位置的差值。需要更具具体应用场景进行单独设计。最终的奖励函数为三者相加。

r＝r₁+r₂+r₃

控制模块的输入数据使用了(a)结构化传感浮点数据，因多模块的表现与输入的结构化传感浮点数据有关，可以根据浮点数据在不同的范围，进行多模块智能控制。(b)使用具有相似表征物理量雷达的回波、可见光的像素等信息，比较该信息与预设门限值的关系，则控制模块的输入层2将相应传感器集成模块数据处于工作状态或休眠状态。即在t时刻，飞行器处于一个确定的状态s_t，包括t时刻的结构化传感浮点数据

及特有传感器独有的物理表征量

其中n表示输入层2的编号，上侧为1，下侧为2。控制模块可以分别采用如图2和图3所示的两种网络结构。

图2中，控制模块基于Deep Q-Learning网络结构，输入层1为

结构化传感浮点数据，在经过特征抽取层1进行特征抽取后，分别与

组合作为输入层2。之后在经过全连接层1和全连接层2进行特征降维处理后，得到最后的输出层。输出层的维度是2，分别表示选择具有两个的多控制模块这两种动作所对应的状态动作Q值。基于Deep Q-Learning的多控制模块决策机制采用了基于value的强化学习方法。其最大亮点在于其通过神经网络来映射状态和状态动作Q值函数之间的关系。由于多控制模块的输入都是同样的传感结构化浮点数，具有一定的对称性。

图3中，控制模块基于Asynchronous Advantage Actor-Critic(A3C)的网络结构跟图2类似，在输入层采取了对称式的结构。之后的全连接层1和全连接层2的网络分为两个部分。两个网络均接收来自输入层2的所有数据，但是两个网络的输出互相独立，没有共享参数。基于Asynchronous Advantage Actor-Critic(A3C)的方法。其优点是可以从Critic评判模块(采用深度神经网络居多)得到对动作的好坏评价，然后反馈给Actor让其更新自己的策略。解决了传统算法应用受限，如(a)难以应用到随机型策略(stochastic policy)和连续的动作空间。(b)奖励函数的微小变化会引起策略变化巨大，从而使训练无法收敛。(c)因每次梯度的估计不依赖以往的估计，系统无法充分利用历史信息。

执行模块，用于接收控制模块实时输出的驱动数据，该数据包括用于决策的状态最优值(为一个三值数据，分别对应电动舵机集成模块有效数据、电液伺服集成模块有效数据、柔性喷管集成模块有效数据)和用于评价的动作输出值(即动作数据)。系统根据用于决策的回报最优值决定使用哪些具体的执行模块，而某个被选定的具体执行模块的输出值取决于用于评价的动作输出值。

其中，执行模块包括电动舵机集成模块，电液伺服集成模块、柔性喷管集成模块。

(4.1)电动舵机集成模块：包括电动驱动模块、高压电能模块和舵控模块，电动驱动模块接收到控制模块输出的电动舵机集成模块有效数据，输出启动高压电能块指令；电动驱动模块根据接收到控制模块输出的动作数据，输出舵控模块的运行指令，实现飞行器控制。

(4.2)电液伺服集成模块：包括电液驱动模块、油源及电能模块和伺服模块，电液驱动模块接收到控制模块输出的电液伺服集成模块有效数据，，输出启动油源及电能模块指令；电液驱动模块根据接收到控制模块输出的动作数据，输出伺服模块的运行指令，实现飞行器控制。

(4.3)柔性喷管集成模块：包括柔性喷管驱动模块、低压电能模块和喷管模块，柔性喷管驱动模块接收到控制模块输出的柔性喷管驱动集成模块有效数据，，输出启动低压电能模块指令；柔性喷管驱动模块根据接收到控制模块输出的动作数据，输出喷管模块的运行指令，实现飞行器控制。

本实施例验证时使用MATLAB2018b、python3.6.1和Tensorflow1.3.0数学仿真平台，处理器为Intel i7 6850K主频3.6Ghz，内存为三星16G DDR4 RECC 2400*2总内存32G，主板为Asus X99-E WS/USB 3.1，显卡为华硕(ASUS)ROG STRIX-GeForce GTX1080TI-11G-GAMING 1480-1620MHz 11010MHz*2的硬件设备。模拟飞行器控制模型，搭建本发明涉及的全部模块，实际仿真验证了模型的优化、可靠性、容错性及实时性，通过对上百个不同期望轨迹仿真，对比原单一控制方法，达到小于1/3的参数容错误差。在人为干预使其中某一控制模块失效的情况下，模型能有效切换并保持飞行器无故障继续实时运行。例如在算法运行至15s时，令雷达传感器集成模块输出的雷达回波为2Hz，此时控制模块的第二输入层2将雷达回波数据处于无效状态，本文的控制模型很快速地将原来执行模块状态值0，即使用电液伺服执行模块，切换至执行模块状态值1，即使用柔性喷管集成模块，并且持续性的保持切换后状态，如图4。

在1080Ti显卡算力为22680GFLOPs，内存为32GB的条件下，通过实际运行检验，仅考虑单次前向传播耗时，强化学习的实际耗时区间为[0.009,0.021]s，由于飞行器跟踪算法的控制周期为0.01s，因此在不考虑控制延时的情况下，基本能满足实时在线的要求。

本实施例解决了目前飞行器控制系统，只能使用信息融合等传统方法在某一时间片内完成基于单传感器和单执行器控制，本发明通过使用6路异构传感器模块、基于人工智能强化学习算法的控制模块和3路异构执行模块，完成了在多模式传感器和执行器的复杂使用环境下满足控制系统常年在轨的需求。使得日趋复杂的飞行器控制系统，可以在某个传感器模块故障发生后，实现飞行器长期在轨多模式控制，防止灾难性故障的发生；

本实施例解决了传统飞行器控制仅仅对优先错误进行设计，无法有效覆盖未知错误的问题，提出了基于多模式的强化学习控制模型。并且该模型可实现判别多模式的传感器模块和驱动模块的控制执行能力，输出多控制模块中较优控制量，使系统处于最优状态，有效提高飞行器控制系统整体性能；

本实施例的控制模块的输入可以表示是飞行器决策控制所有状态的集合，实现对飞行器所处状态的充分表现，供长期在轨飞行器控制模块做出正确多模式智能控制；其中，结构化传感浮点数据，因多模块的表现与输入的结构化传感浮点数据有关，可以根据浮点数据在不同的范围，进行多模块智能控制；使用具有相似表征物理量雷达的回波、可见光的像素等信息，比较该信息与预设门限值的关系，则控制模块的第二输入层将相应传感器集成模块数据处于工作状态或无效状态。

本实施例的控制模块可准确实时判别多个模块健康度，提前选择更优模块执行控制操作。飞行器多控制模型其在不同场景下的控制效果不一样，因此控制模块的强化学习算法可以使飞行器通过与环境的不断交互试错，自主学习动作策略，在多控制模型的飞行器决策方法中选择较优模块，达到控制优化的决策目的。在控制器出现故障失效的情形下，强化学习也可根据当前的环境模型和状态空间感知出故障的发生，并且快速的做出决策。

本实施例的控制模块的强化学习模型选取上，基于Deep Q-Learning的多控制模块决策机制采用了基于value的强化学习方法。其最大亮点在于其通过神经网络来映射状态和状态动作Q值函数之间的关系。由于多控制模块的输入都是同样的传感结构化浮点数，具有一定的对称性。

本实施例的控制模块的强化学习模型选取上，基于Asynchronous AdvantageActor-Critic(A3C)的方法。其优点是可以从Critic评判模块(采用深度神经网络居多)得到对动作的好坏评价，然后反馈给Actor让其更新自己的策略。解决了传统算法应用受限，如(a)难以应用到随机型策略(stochastic policy)和连续的动作空间。(b)奖励函数的微小变化会引起策略变化巨大，从而使训练无法收敛。(c)因每次梯度的估计不依赖以往的估计，系统无法充分利用历史信息。

以上所述的实施例只是本发明较优选的具体实施方式，本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims

1.一种飞行器长期在轨多模智能集成系统，其特征在于包括：传感器模块、控制模块和执行模块；其中，

所述传感器模块用于向所述控制模块实时输入飞行器敏感的飞行数据，其中，该数据包括可供飞行器控制直接使用的具有历史相关性的多维结构化浮点数据和相对应的传感器模块的物理表征量；

所述控制模块接收飞行器敏感的飞行数据，并根据飞行器敏感的飞行数据处理得到状态数据和动作数据，并将状态数据和动作数据传输给所述执行模块；

所述执行模块根据状态数据和动作数据输出运行指令，实现飞行器控制；

所述传感器模块包括雷达集成模块、可见光集成模块、红外光集成模块、加表集成模块、陀螺集成模块和GPS集成模块；其中，

所述雷达集成模块输出具有历史相关性的结构化雷达浮点数据和雷达回波数据，并将具有历史相关性的结构化雷达浮点数据输出给控制模块的第一输入层，将雷达回波数据输出给控制模块的第二输入层；根据雷达回波数据得到频率，如果这个频率大于预设频率，则控制模块的第二输入层将雷达回波数据处于工作状态使得雷达回波数据应用于雷达回波信息的奖励函数；如果这个频率小于预设频率，则控制模块的第二输入层将雷达回波数据处于无效状态，锁存上一时刻雷达回波信息的奖励函数；

可见光集成模块输出具有历史相关性的结构化可见光浮点数据和可见光像素数据，并将具有历史相关性的结构化可见光浮点数据输出给控制模块的第一输入层，将可见光的像素输出给控制模块的第二输入层；如果可见光像素数据大于预设像素，则控制模块的第二输入层将可见光像素数据处于工作状态，启动可见光像素信息的奖励函数；如果可见光像素数据小于预设像素，则控制模块的第二输入层将可见光像素数据处于无效状态，锁存上一时刻可见光像素信息的奖励函数；

红外光集成模块输出具有历史相关性的结构化红外光浮点数据和红外光灰度数据，并将具有历史相关性的结构化红外光浮点数据输出给控制模块的第一输入层，将红外光的灰度输出给控制模块的第二输入层；如果红外光灰度数据大于预设灰度，则控制模块的第二输入层将红外光灰度数据处于工作状态，启动红外光灰度信息的奖励函数；如果红外光灰度数据小于预设灰度，则控制模块的第二输入层将红外光灰度数据处于无效状态，锁存上一时刻红外光的灰度信息的奖励函数；

加表集成模块输出具有历史相关性的结构化加表浮点数据和加速度，并将具有历史相关性的结构化加表浮点数据输出给控制模块的第一输入层，将加速度输出给控制模块的第二输入层；如果加速度的绝对值大于预设加速度，则控制模块的第二输入层将加速度处于工作状态，启动加表信息的奖励函数；如果加速度的绝对值小于预设加速度，则控制模块的第二输入层将加速度处于无效状态，锁存上一时刻加表信息的奖励函数；

陀螺集成模块输出具有历史相关性的结构化陀螺浮点数据和陀螺角速度，并将具有历史相关性的结构化陀螺浮点数据输出给控制模块的第一输入层，将陀螺的角速度输出给控制模块的第二输入层；如果陀螺角速度大于预设角速度，则控制模块的第二输入层将陀螺角速度处于工作状态，启动陀螺角速度信息的奖励函数；如果陀螺角速度小于预设角速度，则控制模块的第二输入层将陀螺角速度处于无效状态，锁存上一时刻陀螺的角速度信息的奖励函数；

GPS集成模块输出具有历史相关性的结构化GPS浮点数据和GPS定位信息数据，并将具有历史相关性的结构化GPS浮点数据输出给控制模块的第一输入层，将GPS定位信息输出给控制模块的第二输入层；如果GPS定位信息数据大于预设定位信息，则控制模块的第二输入层将GPS定位信息数据处于工作状态，启动GPS定位信息的奖励函数；如果GPS定位信息数据小于预设定位信息，则控制模块的第二输入层将GPS数据处于无效状态，锁存上一时刻GPS的定位信息的奖励函数。

2.根据权利要求1所述的飞行器长期在轨多模智能集成系统，其特征在于：所述控制模块包括第一输入层、特征抽取层、第二输入层、第一全连接层和第二全连接层；其中，

第一输入层接收具有历史相关性的结构化雷达浮点数据、具有历史相关性的结构化可见光浮点数据、具有历史相关性的结构化红外光浮点数据、具有历史相关性的结构化加表浮点数据、具有历史相关性的结构化陀螺浮点数据和具有历史相关性的结构化GPS浮点数据，经过卷积算法处理后得到第一输入层输出数据，将第一输入层输出数据发送给特征抽取层；

特征抽取层接收第一输入层输出数据，该第一输入层输出数据具有状态数据和动作数据，其经过池化算法处理后得到特征抽取层输出数据，将特征抽取层输出数据发送给第二输入层；

第二输入层接收特征抽取层输出数据，若雷达回波数据小于预设频率，将特征抽取层输出数据中表征雷达回波数据相关的数据置零；若可见光像素数据小于预设像素，将特征抽取层输出数据中表征可见光像素数据相关的数据置零；若红外灰度数据小于预设灰度，将特征抽取层输出数据中表征红外灰度数据相关的数据置零；若加表加速度数据小于预设加速度，将特征抽取层输出数据中表征加速度相关的数据置零；若陀螺角速度数据小于预设角速度，将特征抽取层输出数据中表征陀螺角速度数据相关的数据置零；若GPS定位信息数据小于预设定位信息数据，将特征抽取层输出数据中表征GPS定位信息数据相关的数据置零；特征抽取层输出数据与第二输入层的卷积核因子通过卷积算法处理后得到第二输入层输出数据；将第二输入层输出数据发送给第一全连接层；

第一全连接层接收第二输入层输出数据，经过全连接算法处理后，将数据发送给第二全连接层；

第二全连接层接收来自第一全连接层的数据，经过全连接算法处理后，得到更新后的状态数据和动作数据发送给驱动模块作为控制模块的整体输出；其中，状态数据包括电动舵机集成模块有效数据、电液伺服集成模块有效数据和柔性喷管集成模块有效数据。

3.根据权利要求2所述的飞行器长期在轨多模智能集成系统，其特征在于：所述执行模块包括电动舵机集成模块、电液伺服集成模块和柔性喷管集成模块；其中，

所述电动舵机集成模块接收到控制模块输出的电动舵机集成模块有效数据，输出启动高压电能块指令；电动驱动模块根据接收到控制模块输出的动作数据，输出舵控模块的运行指令，实现飞行器控制；

所述电液伺服集成模块接收到控制模块输出的电液伺服集成模块有效数据，输出启动油源及电能模块指令；电液驱动模块根据接收到控制模块输出的动作数据，输出伺服模块的运行指令，实现飞行器控制；

所述柔性喷管集成模块接收到控制模块输出的柔性喷管驱动集成模块有效数据，输出启动低压电能模块指令；柔性喷管驱动模块根据接收到控制模块输出的动作数据，输出喷管模块的运行指令，实现飞行器控制。

4.根据权利要求2所述的飞行器长期在轨多模智能集成系统，其特征在于：预设频率为5HZ。

5.根据权利要求2所述的飞行器长期在轨多模智能集成系统，其特征在于：预设像素为50pixel。

6.根据权利要求2所述的飞行器长期在轨多模智能集成系统，其特征在于：预设灰度为50bits。

7.根据权利要求2所述的飞行器长期在轨多模智能集成系统，其特征在于：预设加速度为8m/s^2。

8.根据权利要求2所述的飞行器长期在轨多模智能集成系统，其特征在于：预设角速度为20m/s。

9.根据权利要求2所述的飞行器长期在轨多模智能集成系统，其特征在于：预设定位信息数据为3m。