CN115454988B

CN115454988B - 基于随机森林网络的卫星电源系统缺失数据补全方法

Info

Publication number: CN115454988B
Application number: CN202211184190.8A
Authority: CN
Inventors: 刘明; 骆天依; 曹喜滨; 陈雪芹
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-05-23
Anticipated expiration: 2042-09-27
Also published as: CN115454988A

Abstract

基于随机森林网络的卫星电源系统缺失数据补全方法，属于航天器遥测数据处理技术领域，本发明为解决现有卫星在轨数据补全技术存在的问题。本发明方法包括以下步骤：S1、采集卫星电源系统的遥测数据并进行预处理；S2、预处理后全部遥测数据按日期保存为多个.csv文件，各.csv文件数据维度为L×M；S3、利用PCA算法从全部.csv文件中筛选出待补全遥测数据相关特征列N；S4、将步骤S3筛选出来的待补全遥测数据相关特征列N输入至训练好的神经随机森林NRF模型中，获取缺失段数据；S5、将神经随机森林NRF模型输出的缺失段数据与原始数据拼接在一起，获取完整遥测时序数据，完成缺失数据补全。

Description

基于随机森林网络的卫星电源系统缺失数据补全方法

技术领域

本发明涉及一种基于神经网络和机器学习相结合的卫星电源系统遥测数据缺失值补全方法，属于航天器遥测数据处理技术领域。

背景技术

卫星在轨运行期间，地面测控站希望能够实时获得卫星在轨数据来监测其运行状态。然而，遥测数据时间序列中存在大量的短时段缺失数据和少量的长时段缺失数据，难以达到全时段实时监测的效果，这对卫星管控任务来说是不利的。对于遥测数据时间序列中的短时段缺失数据来说，往往是由于受到传感器采集频率不同等因素的影响，可通过多种插值和拟合方法进行较高精度的补全；对于遥测数据时间序列中的长时段缺失数据来说，往往和卫星自身不存在境外数据存储能力或地面测控站数量限制有关，难以利用短时段缺失数据的补全方法获得良好的数据补全效果。鉴于此，卫星电源系统遥测数据长时段缺失值补全问题是研究重点。

目前，针对卫星遥测数据长时段缺失数据补全这一棘手问题，现有解决方案主要分为机器学习方法和神经网络方法两大类。其中机器学习方法以XGBoost为代表，通过将缺失值当做稀疏矩阵并分别计算左右子树损失来预测缺失值；神经网络方法以BP神经网络为代表，通过将待估计参数以外的其他参数数据作为网络输入，将待估计参数数据作为网络输出，利用BP神经网络反向传播的思想训练网络，获得的网络输出即为缺失值补全后的结果。

现有技术的主要缺点：

(1)机器学习模型可解释性较强但存在着学习能力不足的问题，这导致了机器学习方法有时候不能够很好的解决数据量大、复杂度高的缺失数据补全问题。

(2)神经网络模型学习能力较强但存在着可解释性不足的问题，这导致了神经网络方法可信度低，且存在需求硬件条件高、计算耗时长等问题。

基于上述两个缺点本发明将具有强学习能力的神经网络算法与机器学习算法融合在一起来提升长时段缺失数据预测模型的综合效果。

发明内容

针对现有卫星在轨数据补全技术存在的问题，本发明提供一种基于随机森林网络的卫星电源系统缺失数据补全方法。

本发明所述基于随机森林网络的卫星电源系统缺失数据补全方法，该方法包括以下步骤：

S1、采集卫星电源系统的遥测数据并进行预处理，所述遥测数据由m类传感器采集并构建为M维时序数据M＝{m₁,m₂,...,m_m}；

S2、预处理后全部遥测数据按日期保存为多个.csv文件，各.csv文件数据维度为L×M，其中L＝{l₁,l₂,...,l_n}代表记录时序数据的时间长度，M＝{m₁,m₂,...,m_m}代表遥测参数维度；

S3、利用PCA算法从全部.csv文件中筛选出待补全遥测数据相关特征列N＝{m₁,m₂,...,m_n}，N≤M；

S4、将步骤S3筛选出来的待补全遥测数据相关特征列N输入至训练好的神经随机森林NRF模型中，获取缺失段数据；

神经随机森林NRF模型的构建过程：

S41、将一颗回归树转化为树型神经网络；

S42、构造神经网络各层的激活函数；

S43、采用Bagging集成学习方式将多个S41构建的树型神经网络组合成神经随机森林模型NRF；

S44、采用贝叶斯优化参数搜索对神经随机森林模型NRF进行模型调参；

S5、将神经随机森林NRF模型输出的缺失段数据与原始数据拼接在一起，获取完整遥测时序数据，完成缺失数据补全。

优选地，S41将一颗回归树转化为树型神经网络的过程包括：

步骤(1)、构建一颗回归树，并用三层神经网络表示，分别为输入层、隐藏层和输出层，隐藏层包括第一隐藏层和第二隐藏层；

步骤(2)、在第一隐藏层进行超平面空间划分；

步骤(3)、在第二隐藏层进行叶节点位置的定位；

步骤(4)、在输出层进行加权求和，完成一颗回归树转化为树型神经网络的过程。

优选地，S42构造神经网络各层的激活函数的过程包括：

步骤(5)、采用改进的双曲正切激活函数k-tanh(τu)作为激活函数，激活函数k-tanh(τu)为：

k为终端节点，γ为激活系数，在输入层和第一隐藏层之间

采用/>

激活；在第一隐藏层和第二隐藏层之间γ＝k，采用tanh(ku)激活，u为第一隐藏层或第二隐藏层输入。

优选地，S43构建神经随机森林模型NRF的过程包括：

步骤(6)、采用Bagging集成学习方式，将多个小树型神经网络的预测结果进行加权平均，表示为：

其中，x表示待处理数据，M表示树型神经网络的个数，α_m代表第m个学习器的权重，有

表示第m个树型神经网络的预测结果，/>

表示不同树型神经网络的差异。

优选地，S44神经随机森林模型NRF的模型调参过程包括：

步骤(7)、采用贝叶斯优化参数搜索对神经随机森林模型NRF进行模型调参，具体为

首先构造一个黑盒目标函数，作为评判模型效果的标准，选取回归问题的常用评价指标R²；接下来给定各个需要调试的超参数的上界和下界，确定各自的搜索范围；最后实例化贝叶斯优化对象并确定迭代次数。

优选地，步骤(1)构建一颗回归树的过程为：

定义分类回归树是组成NRF的基本元素，数据特征维度集合X＝{x⁽¹⁾,x⁽²⁾,...,x^(d)}对应数据值Y＝{y⁽¹⁾,y⁽²⁾,...,y^(d)}，选取最小方差判据作为判断最优切分变量x⁽ⁱ⁾以及切分点s的标准：

其中D＝{X,Y}＝D₁∪D₂，D₁(i,s)＝{x|x⁽ⁱ⁾≤s}和D₂(i,s)＝{x|x⁽ⁱ⁾＞s}分别为切分点划分出的左右两部分训练集，c₁＝average(y⁽ⁱ⁾|x⁽ⁱ⁾∈D₁)和c₂＝average(y⁽ⁱ⁾|x⁽ⁱ⁾∈D₂)分别为D₁和D₂两部分训练数据的均值，j为切分点位置。

通过递归不断选择并保留当前最优切分变量x_j以及切分点s，直到回归树恰好包含k个终端节点时停止，能够生成一棵回归树T；

对于划分回归树T的超平面集合H＝{H₁,H₂,...,H_K-1}中的任意一个超平面H_k∈H，k＝1,2,…,K-1，存在H_k＝{x:h_k(x)＝0}，其中超平面方程

进行回归树分析的维度i_k＝1,2,...,d，偏置/>

为网络输入。

优选地，步骤(2)在第一隐藏层进行超平面空间划分的过程为：

网络输入

与第一隐藏层各个神经元一一对应连接，第一隐藏层的神经元对应的K-1个感知器被用来判断划分特征空间的超平面属性。它们的激活函数可以统一定义为：

其中threshold(x)＝±1为阈值型激活函数，且连接权值为1，偏置为

如果激活值大于零，那么神经元就会被激活；否则，该神经元处于抑制状态；

定义上式结果为+1时代表待查询叶子节点在超平面H_k的左侧，结果为-1时代表待查询叶子节点在超平面H_k的右侧；

则第一隐藏层的输出是由+1和-1组成的一个K-1维矢量U＝{u₁(x),u₂(x),...,u_K-1(x)}，其元素u_k(x),k＝1,2,...,K-1。

优选地，步骤(3)在第二隐藏层进行叶节点位置的定位过程为：

每个叶子节点对应一个神经元，因此第二隐藏层共有K个神经元，定义所有叶子节点L＝{L₁,L₂,...,L_K}，则第二隐藏层的激活函数定义为：

其中b_kk'＝±1表示第一隐藏层和第二隐藏层之间的连接权值，b_k'＝-l(k')+0.5表示偏置，l(k')是从根节点到叶子节点L_k'的路径长度；

定义上式结果为+1时代表唯一的和叶子节点L_k'有关的路径，结果为-1时代表和叶子节点L_k'无关的路径；则第二隐藏层的输出是由一个+1和K-1个-1组成的一个K维矢量V＝{υ₁(x),υ₂(x),...,υ_K(x)}，其元素v_k'(x),k'＝1,2,...,K。

优选地，步骤(4)在输出层进行加权求和的过程为：

对于第二隐藏层的输出中元素υ_k'(x)＝1的情况，输出层计算叶子节点L_k'所在的X_i对应的Y_i的平均值

表示为：

其中

t(x)为第二隐藏层的输出结果。

本发明的有益效果：本发明以卫星电源系统遥测数据为基础，设计了神经随机森林(Neural Random Forests,NRF)模型有效解决了卫星电源系统某些遥测参数因卫星自身不存在境外数据存储能力或地面测控站数量有限导致的长时段数据缺失问题。利用NRF模型进行卫星电源系统遥测数据长时段缺失数据补全，较现有回归模型、机器学习模型、集成学习模型具有更小的RMSE和更大的，能够获得更高的数据补全质量，为后续利用全时段卫星数据进行卫星健康管理系统的“建、管、控”提供了更加准确的依据。利用贝叶斯超参数搜索方法搜索NRF模型的参数，较传统网格搜索和随机搜索方法能够获得更高的搜索精度和搜索效率。

附图说明

图1是将一棵CART回归树转换为一个树型神经网络的原理图；

图2是神经随机森林模型架构图；

图3是本发明所述基于随机森林网络的卫星电源系统缺失数据补全方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

下面结合附图和具体实施例对本发明作进一步说明，但不作为本发明的限定。

具体实施方式一：下面结合图1至3说明本实施方式，本实施方式所述基于随机森林网络的卫星电源系统缺失数据补全方法，该方法包括以下步骤：

S1、采集卫星电源系统的遥测数据并进行预处理，所述遥测数据由m类传感器采集并构建为M维时序数据M＝{m₁,m₂,...,m_m}；m类传感器包括电流m₁、电压m₂、电感m₃……，具体类型数量与实际的系统有关。

S2、预处理后全部遥测数据按日期保存为多个.csv文件，各.csv文件数据维度为L×M，其中L＝{l₁,l₂,...,l_n}代表记录时序数据的时间长度，M＝{m₁,m₂,...,m_m}代表遥测参数维度；比如各类传感器遥测数据记录1个月时长存为一个.csv文件，统一进行处理。

S3、利用PCA算法从全部.csv文件中筛选出待补全遥测数据相关特征列N＝{m₁,m₂,...,m_n}，N≤M；本步骤为采用PCA算法降维的过程，提取出与缺失数据相关变量，PCA算法的原理是利用正交变换来对一系列可能相关的变量的观测值进行线性变换，从而投影为一系列线性不相关变量的值，以达到提取主成分的目的，是一种降低计算复杂度、减少模型训练耗时的常用降维算法。

S4、将步骤S3筛选出来的待补全遥测数据相关特征列N输入至训练好的神经随机森林NRF模型中，获取缺失段数据；本步骤的神经随机森林NRF模型是本申请重点设计的部分。获得待补全遥测时序数据X更多时刻的状态值，作为其缺失部分。

S5、将神经随机森林NRF模型输出的缺失段数据与原始数据拼接在一起，获取完整遥测时序数据X^*，完成缺失数据补全。补全前与补全后该遥测数据维度分别为S×1和(L-S)×1，其中S为待补全遥测时序数据的原始值的维度。

本发明以卫星电源系统遥测数据为基础，设计了神经随机森林(Neural RandomForests,NRF)模型有效解决了卫星电源系统某些遥测参数因卫星自身不存在境外数据存储能力或地面测控站数量有限导致的长时段数据缺失问题。NRF是一种将简单神经网络和随机森林相结合的回归模型，因此能够用于缺失数据的预测任务当中。通过单独训练每一个小的树型网络，得到由m个“小神经网络”组成的神经随机森林，进而可以利用该模型进行缺失数据预测。该模型的创新点在于将一棵回归树转化成一个具有特定连接权值的三层神经网络，接下来针对具体问题修改了神经网络各层的激活函数，最后采用集成学习的方法组合各个弱学习器。神经随机森林NRF模型的构建过程包括4个方面的实施步骤，S41：将一颗回归树转化为树型神经网络，对应(1)-(4)；S42：激活函数构造，对应(5)；S43：将多个树型神经网络组合成神经随机森林，对应(6)；S44：模型调参，对应(7)；S5：算法整体流程，对应(8)；S6：多算法对比实验分析，对应(9)。具体如下所述：

步骤(1)构建一颗回归树的过程为：

NRF模型首先需要将一颗分类回归树转换为三层神经网络的形式，这里给出NRF构建过程中需要用到的基本定义和知识。定义分类回归树(Classification And RegressionTree,CART)是组成NRF的基本元素，数据特征维度集合X＝{x⁽¹⁾,x⁽²⁾,...,x^(d)}对应数据值Y＝{y⁽¹⁾,y⁽²⁾,...,y^(d)}，选取最小方差判据作为判断最优切分变量x⁽ⁱ⁾以及切分点s的标准：

进行回归树分析的维度i_k＝1,2,...,d，偏置/>

为网络输入。

利用以上定义和基础知识，可以将CART树估计用图1形式的三层神经网络来表示。

步骤(2)、在第一隐藏层进行超平面空间划分；

网络输入

步骤(3)在第二隐藏层进行叶节点位置的定位过程为：

步骤(4)在输出层进行加权求和的过程为：

表示为：

其中

t(x)为第二隐藏层的输出结果。

图1给出了一个二维特征空间搜索的例子，特征空间被5个超平面划分成6个超矩形。因此第一隐藏层的输出U是一个5维矢量，第二隐藏层的输出V是一个6维矢量。根据本发明的定义规则，为了搜索到区域

，第一隐藏层和第二隐藏层的输出分别为：U＝{+1,+1,+1,-1,-1}，V＝{-1,+1,-1,-1,-1,-1}。其中U的每一维度依次对应第一隐藏层中的超平面0-4，V的每一维度依次对应第二隐藏层中的叶子节点5-10。

步骤(5)、构造神经网络各层的激活函数的过程包括：

考虑到基础网络模型中采用的阈值型激活函数threshold(x)不能够满足梯度反向传播过程中的求导条件，本发明采用改进的双曲正切激活函数k-tanh(τu)作为激活函数，激活函数k-tanh(τu)为：

上式对tanh激活函数根据激活位置的不同进行了适当修改。

k为终端节点，γ为激活系数，在输入层和第一隐藏层之间

采用/>

以上设计能够保证网络在短时间内快速收敛。

步骤(6)、构建神经随机森林模型NRF的过程包括：

本步骤将多个树型神经网络组合成神经随机森林。

传统的回归随机森林是由多棵CART回归树并行训练构成的大型预测器，整个森林的估计值是所有回归树预测结果的平均值：

其中M表示CART树的棵树，

表示第m棵CART树的预测结果，/>

表示不同CART树之间的差异。

本步骤采用Bagging集成学习方式，将多个小树型神经网络的预测结果进行加权平均，表示为：

表示第m个树型神经网络的预测结果，/>

表示不同树型神经网络的差异。

模型架构如图2所示。

步骤(7)、神经随机森林模型NRF的模型调参。

本发明所采用的NRF模型具有众多超参数，难以通过手动调参获得最理想的模型，因此利用参数搜索算法学习模型的最优参数组合。传统的网格搜索算法将所有可能的超参数组合进行遍历实验，不仅耗时长且对计算力要求极高；随机搜索方法较网格搜索减少了计算量，但其计算精度往往不高。故采用以上两种方法在NRF参数选择问题中都存在着一定的欠缺。

贝叶斯优化是一种新颖的基于概率模型的超参数优化方法，该方法在尝试每一组超参数之前，会综合考虑之前实验过的超参数的评估结果，能够节省大量时间并提升搜索效率。

本步骤采用贝叶斯优化参数搜索对神经随机森林模型NRF进行模型调参，具体为

表1给出了利用bayes_opt包实现基于高斯过程的贝叶斯优化过程中，待调试超参数各自的预设搜索范围和搜索过程的迭代次数，其中贝叶斯优化过程先利用5轮随机搜索缩小待确定超参的范围，再利用45轮贝叶斯优化提高搜索精度和效率。在算法迭代第28轮，能够寻找到最优的一组参数，本发明将其作为最终实验参数，此时R²为0.9609。

表1贝叶斯优化搜索范围和选取的迭代次数

步骤(8)NRF算法整体流程

算法1给出了利用NRF进行长时段缺失数据补全的基本流程。其中步骤1-4基于树型神经网络构造方法和改进的双曲正切激活函数k-tanh(γu)，构建M棵树型神经网络。步骤5根据Bagging集成学习思想，对每个树型神经网络预测结果加权求和，进行组合预测，能够得到最终的缺失值补全结果。

步骤(9)多算法对比实验分析

本发明选取卫星电源系统中的遥测参数X，利用NRF模型与几种常用的回归模型进行数据补全对比实验。事先对待补全遥测数据进行预处理工作，并设置训练集和测试集的比例为7:3。

选取回归问题常用的评价指标均方根误差RMSE和可决系数R²作为衡量算法效果的指标，其中RMSE作为评估模型的损失函数，用来测量误差的平均大小，其数值越接近0，模型的拟合效果越好；R²用来评判拟合程度的好坏，其数值越接近1，模型拟合效果越好。它们的计算方法如下：

其中m代表样本总数，y_i代表样本的真实值，

代表样本的预测值，/>

代表样本的平均值。

对于待补全数据的遥测参数X，利用PCA算法筛选出待补全遥测数据相关特征列N，输入至本发明改进后的NRF模型中进行缺失数据补全工作。与其它模型补全结果对比参见表2。

表2不同遥测参数的缺失数据补全结果

本项发明共包括9个具体步骤，可分为神经随机森林缺失数据补全模型设计、模型调参和多算法对比实验分析3个模块，缺一不可。并且任一步骤的缺失，都会影响数据补全效果甚至导致无法完成数据补全任务。具体实施流程如图3所示。

虽然在本文中参照了特定的实施方式来描述本发明，但是应该理解的是，这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是，可以对示例性的实施例进行许多修改，并且可以设计出其他的布置，只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是，可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是，结合单独实施例所描述的特征可以使用在其它所述实施例中。