CN109597839B

CN109597839B - 一种基于航电作战态势的数据挖掘方法

Info

Publication number: CN109597839B
Application number: CN201811472289.1A
Authority: CN
Inventors: 曾议芝; 康敏旸; 郭航宇
Original assignee: China Aeronautical Radio Electronics Research Institute
Current assignee: China Aeronautical Radio Electronics Research Institute
Priority date: 2018-12-04
Filing date: 2018-12-04
Publication date: 2022-11-04
Anticipated expiration: 2038-12-04
Also published as: CN109597839A

Abstract

本发明属于航空电子领域，涉及一种基于航电作战态势的数据挖掘方法。本发明包括以下三方面的内容：建立多平台航电系统资源云平台；生成基于STK的火控打击训练数据；建立基于深度强化学习的火控打击航迹规划算法。本发明提出了充分表达航空电子系统运行状态数据内在规律的特征刻画和度量方法，提出了多机作战体系航空电子系统大数据的简约计算方法，实现了模型精简和算法快速收敛的简约计算。

Description

一种基于航电作战态势的数据挖掘方法

技术领域

本发明属于航空电子领域，涉及一种基于航电作战态势的数据挖掘方法。

背景技术

在航空电子领域，利用大数据挖掘技术和航空电子系统与现代作战需求相结合，将作战需求、飞机功能和控制决策与作战任务的组织、合成及优化相关联，是新一代综合化航空电子系统的设计目标。航空电子系统往往能产生大量的数据，如波音787飞机航行5000公里，其航空电子系统产生的数据量能够达到0.5TB之多，对航空电子系统产生的大量数据进行数据挖掘，提取有用信息已经成为了航空电子领域的研究热点。

因为受到飞机航空电子系统分布式、跨平台、碎片化和高实时性等特性影响，对飞机航空电子系统数据信息的整理和分析是一个代价极高的过程。尽管人们已经提出了一些分析方法，但是我们发现对于高维、多源、异构的航空电子系统状态数据，特别是在作战态势分析与推理等方面，现有的方法并不能根据原始的航空电子系统数据信息得到合理的作战态势分析与推理方面的知识。

现代战争的作战模式从以平台为中心转向赛博空间发展，赛博作战是将所有探测系统、通信系统、指控系统和武器系统组成一个信息网络体系，各级指战员可以全面了解战场态势、交换作战信息、设计与实施作战方案的作战方式。在航空兵参与的网络中心作战中，多种任务类型的飞机通常同时出动，依靠性能先进的数据链互联互通，在空中形成协同作战集群，以完成某项特定的作战任务，比如防空拦截。这样的作战任务分解到集群中的每架飞机上，形成各自的子任务。而每一架飞机承载的作战子任务又需机载航电系统的多个航电功能(应用程序)协调支持才能得以实现。

发明内容

本发明所要解决的技术问题是：基于航空电子作战态势的数据特点，构造一种针对战机火控打击任务下航迹规划应用的数据挖掘方法。

本发明的整体思路如下：如果仅仅将不同任务类型的飞机组合在一起，而不建立这些机载航电系统的交互作用关系，那么每个机载航电系统只能完成本机的作战子任务。一旦某架飞机被击毁或发生故障，那么其承载的子任务就将无法得以完成，或只能降级实现。因此，只有把这些分散的机载航电系统有机地组合在一起，建立彼此之间的交互作用关系，使之形成一个整体，构筑成一个大的集群航电系统，共享所有飞机的航电资源，实现航电功能乃至作战子任务在整个集群航电系统内的迁移，才能有效解决上述问题，从而继续维持原有集群飞机的航电功能，提高作战飞机集群的可靠性，增加完成作战任务的成功率，维持作战效能。

本发明的技术方案是：一种基于航电作战态势的数据挖掘方法，包括以下三方面的内容：建立多平台航电系统资源云平台；生成基于STK的火控打击训练数据；建立基于深度强化学习的火控打击航迹规划算法：

(1)建立多平台航电系统资源云平台

各飞机平台配备不同的系统功能和资源，各个飞机的航电系统通过数据链构成一个“赛博”航电系统，每架飞机的航电系统可被划分为多个综合应用功能区，各个平台航电系统可以根据不要的作战任务要求，动态地将不同平台上的不同应用功能区进行组合，并实现系统信息综合，构成面向任务的“逻辑航电系统”。所述多平台航电系统资源云平台为航电数据的生成及应用提供了平台支撑。

(2)生成基于STK的火控打击训练数据

采用STK工具进行复杂战场环境建模，以实现协同作战场景作战任务的想定；并通过STK工具实时调用火控程序，对飞机每次发射导弹的姿态和是否命中目标进行实时记录，积累训练数据，为基于航电作战态势的数据挖掘系统的数据挖掘部分做准备。

(3)建立基于深度强化学习的火控打击航迹规划算法

在获取战场态势数据基础上，训练深度强化学习神经网络，提取航路规划的数据特征；同时，在STK工具产生面向打击效果的飞行仿真数据基础上，建立基于深度强化学习的航路规划评估模型；在训练好的航路规划评估模型上，读取当前战场态势数据，利用深度强化学习神经网络实现航路规划并输出飞机的飞行状态参数。

进一步的，所述深度强化学习中，战机的操控离散成6个维度的向量，分别代表战机向前、向后、向左、向右、向上、向下飞行；深度强化学习算法的任务目标是使获取的奖赏值最大化，将战机是否击中目标作为奖赏，其中击中目标则奖赏值为1，未击中目标则奖赏值为0；每个时间片，Agent都是根据当前的观察来确定下一步的动作；每次的观察作为Agent的所处的状态State，状态State和动作Action存在映射关系。

本发明的有益效果是：本发明针对航空作战体系任务需求，主要解决了航空电子系统大数据分析面临的三个方面的问题：第一，数据内在复杂性导致的数据表达与度量问题；第二，数据计算复杂性导致的计算模型设计与优化问题；第三，系统复杂性导致的知识发现和预测等模型的构建问题。通过构建单飞行器与多飞行器的航空电子系统数据分析模型，将不同体系、结构和部件反映出来参数的时序特征、空间特征和数据特征映射到健康张量模型中，借助张量分解和互信息雷尼熵等降维及相似性度量方法实现特征的提取和聚类，构建深度强化学习模型，对特征进行更深层次的抽象和学习，通过不断的激励和参数优化，挖掘复杂数据之间的区别和联系，从而深度掌握航空电子系统在网络化作战体系下的运行规律，快速有效的实现航空作战体系知识发现。具体表现在：

(1)提出了充分表达航空电子系统运行状态数据内在规律的特征刻画和度量方法

本发明通过构建航空电子系统运行的精确信息流模型，提取多机作战环境下该系统的运行特征，包括不同程度作战态势的稳态特征和各程度作战态势之间迁移的变换特征。通过对特征参数空间的张量分解，深度挖掘作战状态迁移的潜在规律。同时，在时序空间构建态势特征图谱，利用互雷尼信息熵实现相似性度量。从数据分布、数据结构和表达尺度三方面出发，解决好数据内在复杂性问题，实现航空电子系统运行状态的特征刻画和度量。

(2)提出了多机作战体系航空电子系统大数据的简约计算方法

多机作战体系下的航空电子系统为作战态势知识发现提供了大规模、快变化和多模态的数据。传统的多项式时间算法显然无法满足态势快速知识发现的要求，因为全量处理这些高维、多源和异构的数据代价极大。本发明提出在作战环境下的航空电子系统大量数据的数据提取方法，有效解决特征稀疏和区分度计算等问题，实现模型精简和算法快速收敛的简约计算。

附图说明

图1为空中“资源云”逻辑航电系统；

图2为基于Hadoop的六机多平台航电系统架构实现；

图3为基于STK的仿真数据获取；

图4为获取的飞行数据；

图5为航路规划模块整体算法流程图；

图6为基于深度强化学习的火控打击航迹规划算法网络训练流程图。

具体实施方式

下面根据附图来阐述本发明的具体实施方式。

(1)多平台航电系统资源云平台的搭建

如图1、图2所示，由多架飞机组成一个多平台大航电系统，每架飞机都可以实时获得到其他飞机的关键航电信息。为了便于多平台内各节点实时高效地获取信息，将这些飞机的核心处理机组成一个空中云平台，将多平台内所有节点产生的航电信息进行实时记录，形成空中“资源云”。本发明构建了一套假想作战环境来模拟真实战场环境：通过一个能对大量数据进行分布式处理，并具备良好的可用性和容错性的框架(Hadoop)，实现针对航电信息数据的可靠、高效、可扩展的存储和处理。采用六台专用测试设备来模拟六个飞行节点，使用一台网络交换机来组建六机局域网以完成飞行节点之间的通信，模拟六机编队对一个移动目标进行打击的过程，这就构建了一个小型的模拟多平台航电系统。本发明是基于这个平台进行数据处理以及算法验证的。

(2)基于STK的火控打击训练数据的生成

如图3所示，使用STK(Satellite Tool Kits)工具建立仿真战场环境，其中蓝色线表示飞机飞行的轨迹，黄色线表示目标的移动轨迹，每40毫秒调用一次火控程序，模拟发射一枚导弹，同时对飞机每次发射导弹时的航电数据和是否命中目标进行实时记录，积累历史数据。通过上述仿真，共收集了420余万条历史数据并将其保存于left_right1-44.dat和top_bottom1-32.dat等共76个结果文件中，将其进行数据清洗等预处理后导入Hbase数据库中。在后续处理时，将每一行输入和它在结果文件中对应输出的RESULT组成一个样本，其中RESULT作为分类器的label，如表1所示。

表1训练数据集

label＝0	label＝1	sum
			4180664	316768	4497432

(3)基于深度强化学习的火控打击航迹规划算法

强化学习是通过agent和未知的周边环境交互以寻求获取最大化长期收益的一系列决策学习的模式。深度强化学习算法是由强化学习演变而来，将深度学习网络加入到强化学习中，从而形成更为强大的学习机制。深度学习效果是建立在大量标准的量化数据基础之上的，因此为了使飞行器能够应对不同的环境，需要解决仿真平台提供大量符合战场逻辑和战场态势的仿真数据问题。战场态势参数包括高维、多源、异构的非结构化飞行器状态参数、目标数据以及打击效果评估数据等。需要解决在干扰的前提下提取出与航路规划相关的特征参数问题。深度强化学习可以实时感知飞行器所处的环境，通过强化单元和未知的周边环境交互以寻求获取最大化收益的决策，规划飞行器的航路。

战场态势参数选取有两种情况，第一种是依据先验知识确认某一参数和航路规划有关(比如航程、敌方防空武器布局及危险系数)，或则该参数对于航路规划没有“影响”；第二类是那些对于航路规划无法确定的参数，需要用马尔科夫决策树的方法确定该参数对航路规划的“影响”程度。

在获取大量状态评估可量化的战场态势参数基础上，利用这些参数数据多批次、多周期的训练深度强化学习神经网络，提取航路规划的相关数据特征；即建立航路规划非线性时变的数学模型，推导出那些选取的战场态势参数的系数。同时，在仿真平台大量面向打击效果的飞行仿真数据基础上，建立基于深度强化学习的航路规划评估模型，并使用大量数据训练模型。深度强化学习通过对航电数据的分析结合学习到的“经验”，即可对控制飞行器的飞行姿态，实现飞行器的智能化飞行。

在训练好的航路规划模块上，读取目标位置、威胁区域、转弯点、航程等当前航路规划有用的战场态势数据，或者是利用模块调用接口连接战法仿真平台获取数据，利用DQN网络(深度强化学习神经网络)实现航路规划并输出飞机的飞行状态参数，如需要采用的动作(加速度)等。

如图4所示，根据STK获取的数据集，训练基于深度强化学习的火控打击航迹规划算法。航路规划模块操作流程是在仿真平台提供大量飞行仿真数据基础上，搭建好DQN网络，然后才可以对神经网络进行训练与使用。在训练神经网络时，设计的网络不一定满足应用需求，可以调整网络的结构(比如增加网络层数，加强数据的特征提取)，或则修改网络的部分参数。

航路规划是一个时变非线性的决策问题，其模型是一个时变的非线性的，因此DQN神经网络也是一个非线性网络，在神经网络的训练过程中存在不稳定等问题。在网络训练过程中为缓解非线性网络表示值函数时出现的不稳定等问题，本发明主要从经验回放机制、目标估值生成和回报阈值设置三方面改进传统DQN算法。

本发明将在多平台航电系统资源平台下，根据STK产生的火控数据，采用深度强化学习的方法生产基于深度强化学习的火控打击航路。在本发明中将战机的操控离散成6个维度的向量，分别代表战机向前、向后、向左、向右、向上、向下飞行；深度强化学习算法的任务目标是使获取的奖赏值最大化，在本发明中将战机是否击中目标作为奖赏；每个时间片，Agent都是根据当前的观察来确定下一步的动作。每次的观察就作为Agent的所处的状态State，状态State和动作Action存在映射关系，而深度强化学习就是需要学到这样的一个映射关系。本发明中将战机的位置姿态等信息作为状态state信息，战机的动作空间被离散化为一个六维空间。算法训练流程如图5、图6所示。

那么当前动作的reward函数为：

其中s_i表示Agent的第i个状态，a_i表示战机第i个动作，γ为折扣因子。

基于这样的状态函数及动作空间，我们的优化目标为：

为了使问题能够得到有效的解，在优化之前，引入Loss函数，使得优化转化成凸优化问题。

L_i(θ_i)＝E_s,a～ρ(.)[(y_i-Q(s,a；θ_i))²] (4)

其中y_i＝E_s'～ε[R(s_t,a_t)+γmax_a'Q(s',a'；θ_i-1)|s,a]为我们的优化目标，Loss值越小，优化效果就越好。那对整个过程的参数θ的更新为：

通过不断的迭代更新，使参数不断优化，从而使得战机的飞行路径越来越理想。

Claims

1.一种基于航电作战态势的数据挖掘方法，其特征为：所述方法包括以下三方面的内容：建立多平台航电系统资源云平台；生成基于STK的火控打击训练数据；建立基于深度强化学习的火控打击航迹规划算法；具体如下：

1.1)建立多平台航电系统资源云平台

各飞机平台配备不同的系统功能和资源，各个飞机的航电系统通过数据链构成一个“赛博”航电系统，每架飞机的航电系统可被划分为多个综合应用功能区，各个平台航电系统可以根据不要的作战任务要求，动态地将不同平台上的不同应用功能区进行组合，并实现系统信息综合，构成面向任务的“逻辑航电系统”；所述多平台航电系统资源云平台为航电数据的生成及应用提供了平台支撑；

1.2)生成基于STK的火控打击训练数据

采用STK工具进行复杂战场环境建模，以实现协同作战场景作战任务的想定；并通过STK工具实时调用火控程序，对飞机每次发射导弹的姿态和是否命中目标进行实时记录，积累训练数据，为基于航电作战态势的数据挖掘系统的数据挖掘部分做准备；

1.3)建立基于深度强化学习的火控打击航迹规划算法

2.根据权利要求1所述的数据挖掘方法，其特征为：所述深度强化学习中，战机的操控离散成6个维度的向量，分别代表战机向前、向后、向左、向右、向上、向下飞行。

3.根据权利要求2所述的数据挖掘方法，其特征为：所述深度强化学习中，算法的任务目标是使获取的奖赏值最大化，将战机是否击中目标作为奖赏，其中击中目标则奖赏值为1，未击中目标则奖赏值为0；每个时间片，Agent都是根据当前的观察来确定下一步的动作；每次的观察作为Agent的所处的状态State，状态State和动作Action存在映射关系。

4.根据权利要求1所述的数据挖掘方法，其特征为：在1.2)中，每40毫秒调用一次火控程序，模拟发射一枚导弹，同时对飞机每次发射导弹时的航电数据和是否命中目标进行实时记录，积累历史数据。