CN115454988B - 基于随机森林网络的卫星电源系统缺失数据补全方法 - Google Patents

基于随机森林网络的卫星电源系统缺失数据补全方法 Download PDF

Info

Publication number
CN115454988B
CN115454988B CN202211184190.8A CN202211184190A CN115454988B CN 115454988 B CN115454988 B CN 115454988B CN 202211184190 A CN202211184190 A CN 202211184190A CN 115454988 B CN115454988 B CN 115454988B
Authority
CN
China
Prior art keywords
data
hidden layer
random forest
tree
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211184190.8A
Other languages
English (en)
Other versions
CN115454988A (zh
Inventor
刘明
骆天依
曹喜滨
陈雪芹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202211184190.8A priority Critical patent/CN115454988B/zh
Publication of CN115454988A publication Critical patent/CN115454988A/zh
Application granted granted Critical
Publication of CN115454988B publication Critical patent/CN115454988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

基于随机森林网络的卫星电源系统缺失数据补全方法,属于航天器遥测数据处理技术领域,本发明为解决现有卫星在轨数据补全技术存在的问题。本发明方法包括以下步骤:S1、采集卫星电源系统的遥测数据并进行预处理;S2、预处理后全部遥测数据按日期保存为多个.csv文件,各.csv文件数据维度为L×M;S3、利用PCA算法从全部.csv文件中筛选出待补全遥测数据相关特征列N;S4、将步骤S3筛选出来的待补全遥测数据相关特征列N输入至训练好的神经随机森林NRF模型中,获取缺失段数据;S5、将神经随机森林NRF模型输出的缺失段数据与原始数据拼接在一起,获取完整遥测时序数据,完成缺失数据补全。

Description

基于随机森林网络的卫星电源系统缺失数据补全方法
技术领域
本发明涉及一种基于神经网络和机器学习相结合的卫星电源系统遥测数据缺失值补全方法,属于航天器遥测数据处理技术领域。
背景技术
卫星在轨运行期间,地面测控站希望能够实时获得卫星在轨数据来监测其运行状态。然而,遥测数据时间序列中存在大量的短时段缺失数据和少量的长时段缺失数据,难以达到全时段实时监测的效果,这对卫星管控任务来说是不利的。对于遥测数据时间序列中的短时段缺失数据来说,往往是由于受到传感器采集频率不同等因素的影响,可通过多种插值和拟合方法进行较高精度的补全;对于遥测数据时间序列中的长时段缺失数据来说,往往和卫星自身不存在境外数据存储能力或地面测控站数量限制有关,难以利用短时段缺失数据的补全方法获得良好的数据补全效果。鉴于此,卫星电源系统遥测数据长时段缺失值补全问题是研究重点。
目前,针对卫星遥测数据长时段缺失数据补全这一棘手问题,现有解决方案主要分为机器学习方法和神经网络方法两大类。其中机器学习方法以XGBoost为代表,通过将缺失值当做稀疏矩阵并分别计算左右子树损失来预测缺失值;神经网络方法以BP神经网络为代表,通过将待估计参数以外的其他参数数据作为网络输入,将待估计参数数据作为网络输出,利用BP神经网络反向传播的思想训练网络,获得的网络输出即为缺失值补全后的结果。
现有技术的主要缺点:
(1)机器学习模型可解释性较强但存在着学习能力不足的问题,这导致了机器学习方法有时候不能够很好的解决数据量大、复杂度高的缺失数据补全问题。
(2)神经网络模型学习能力较强但存在着可解释性不足的问题,这导致了神经网络方法可信度低,且存在需求硬件条件高、计算耗时长等问题。
基于上述两个缺点本发明将具有强学习能力的神经网络算法与机器学习算法融合在一起来提升长时段缺失数据预测模型的综合效果。
发明内容
针对现有卫星在轨数据补全技术存在的问题,本发明提供一种基于随机森林网络的卫星电源系统缺失数据补全方法。
本发明所述基于随机森林网络的卫星电源系统缺失数据补全方法,该方法包括以下步骤:
S1、采集卫星电源系统的遥测数据并进行预处理,所述遥测数据由m类传感器采集并构建为M维时序数据M={m1,m2,...,mm};
S2、预处理后全部遥测数据按日期保存为多个.csv文件,各.csv文件数据维度为L×M,其中L={l1,l2,...,ln}代表记录时序数据的时间长度,M={m1,m2,...,mm}代表遥测参数维度;
S3、利用PCA算法从全部.csv文件中筛选出待补全遥测数据相关特征列N={m1,m2,...,mn},N≤M;
S4、将步骤S3筛选出来的待补全遥测数据相关特征列N输入至训练好的神经随机森林NRF模型中,获取缺失段数据;
神经随机森林NRF模型的构建过程:
S41、将一颗回归树转化为树型神经网络;
S42、构造神经网络各层的激活函数;
S43、采用Bagging集成学习方式将多个S41构建的树型神经网络组合成神经随机森林模型NRF;
S44、采用贝叶斯优化参数搜索对神经随机森林模型NRF进行模型调参;
S5、将神经随机森林NRF模型输出的缺失段数据与原始数据拼接在一起,获取完整遥测时序数据,完成缺失数据补全。
优选地,S41将一颗回归树转化为树型神经网络的过程包括:
步骤(1)、构建一颗回归树,并用三层神经网络表示,分别为输入层、隐藏层和输出层,隐藏层包括第一隐藏层和第二隐藏层;
步骤(2)、在第一隐藏层进行超平面空间划分;
步骤(3)、在第二隐藏层进行叶节点位置的定位;
步骤(4)、在输出层进行加权求和,完成一颗回归树转化为树型神经网络的过程。
优选地,S42构造神经网络各层的激活函数的过程包括:
步骤(5)、采用改进的双曲正切激活函数k-tanh(τu)作为激活函数,激活函数k-tanh(τu)为:
Figure BDA0003866641420000031
k为终端节点,γ为激活系数,在输入层和第一隐藏层之间
Figure BDA0003866641420000032
采用/>
Figure BDA0003866641420000033
激活;在第一隐藏层和第二隐藏层之间γ=k,采用tanh(ku)激活,u为第一隐藏层或第二隐藏层输入。
优选地,S43构建神经随机森林模型NRF的过程包括:
步骤(6)、采用Bagging集成学习方式,将多个小树型神经网络的预测结果进行加权平均,表示为:
Figure BDA0003866641420000034
其中,x表示待处理数据,M表示树型神经网络的个数,αm代表第m个学习器的权重,有
Figure BDA0003866641420000035
Figure BDA0003866641420000036
表示第m个树型神经网络的预测结果,/>
Figure BDA0003866641420000037
表示不同树型神经网络的差异。
优选地,S44神经随机森林模型NRF的模型调参过程包括:
步骤(7)、采用贝叶斯优化参数搜索对神经随机森林模型NRF进行模型调参,具体为
首先构造一个黑盒目标函数,作为评判模型效果的标准,选取回归问题的常用评价指标R2;接下来给定各个需要调试的超参数的上界和下界,确定各自的搜索范围;最后实例化贝叶斯优化对象并确定迭代次数。
优选地,步骤(1)构建一颗回归树的过程为:
定义分类回归树是组成NRF的基本元素,数据特征维度集合X={x(1),x(2),...,x(d)}对应数据值Y={y(1),y(2),...,y(d)},选取最小方差判据作为判断最优切分变量x(i)以及切分点s的标准:
Figure BDA0003866641420000041
其中D={X,Y}=D1∪D2,D1(i,s)={x|x(i)≤s}和D2(i,s)={x|x(i)>s}分别为切分点划分出的左右两部分训练集,c1=average(y(i)|x(i)∈D1)和c2=average(y(i)|x(i)∈D2)分别为D1和D2两部分训练数据的均值,j为切分点位置。
通过递归不断选择并保留当前最优切分变量xj以及切分点s,直到回归树恰好包含k个终端节点时停止,能够生成一棵回归树T;
对于划分回归树T的超平面集合H={H1,H2,...,HK-1}中的任意一个超平面Hk∈H,k=1,2,…,K-1,存在Hk={x:hk(x)=0},其中超平面方程
Figure BDA0003866641420000042
进行回归树分析的维度ik=1,2,...,d,偏置/>
Figure BDA0003866641420000043
Figure BDA0003866641420000044
为网络输入。
优选地,步骤(2)在第一隐藏层进行超平面空间划分的过程为:
网络输入
Figure BDA0003866641420000045
与第一隐藏层各个神经元一一对应连接,第一隐藏层的神经元对应的K-1个感知器被用来判断划分特征空间的超平面属性。它们的激活函数可以统一定义为:
Figure BDA0003866641420000046
其中threshold(x)=±1为阈值型激活函数,且连接权值为1,偏置为
Figure BDA0003866641420000047
如果激活值大于零,那么神经元就会被激活;否则,该神经元处于抑制状态;
定义上式结果为+1时代表待查询叶子节点在超平面Hk的左侧,结果为-1时代表待查询叶子节点在超平面Hk的右侧;
则第一隐藏层的输出是由+1和-1组成的一个K-1维矢量U={u1(x),u2(x),...,uK-1(x)},其元素uk(x),k=1,2,...,K-1。
优选地,步骤(3)在第二隐藏层进行叶节点位置的定位过程为:
每个叶子节点对应一个神经元,因此第二隐藏层共有K个神经元,定义所有叶子节点L={L1,L2,...,LK},则第二隐藏层的激活函数定义为:
Figure BDA0003866641420000048
其中bkk'=±1表示第一隐藏层和第二隐藏层之间的连接权值,bk'=-l(k')+0.5表示偏置,l(k')是从根节点到叶子节点Lk'的路径长度;
定义上式结果为+1时代表唯一的和叶子节点Lk'有关的路径,结果为-1时代表和叶子节点Lk'无关的路径;则第二隐藏层的输出是由一个+1和K-1个-1组成的一个K维矢量V={υ1(x),υ2(x),...,υK(x)},其元素vk'(x),k'=1,2,...,K。
优选地,步骤(4)在输出层进行加权求和的过程为:
对于第二隐藏层的输出中元素υk'(x)=1的情况,输出层计算叶子节点Lk'所在的Xi对应的Yi的平均值
Figure BDA0003866641420000051
表示为:
Figure BDA0003866641420000052
其中
Figure BDA0003866641420000053
t(x)为第二隐藏层的输出结果。
本发明的有益效果:本发明以卫星电源系统遥测数据为基础,设计了神经随机森林(Neural Random Forests,NRF)模型有效解决了卫星电源系统某些遥测参数因卫星自身不存在境外数据存储能力或地面测控站数量有限导致的长时段数据缺失问题。利用NRF模型进行卫星电源系统遥测数据长时段缺失数据补全,较现有回归模型、机器学习模型、集成学习模型具有更小的RMSE和更大的,能够获得更高的数据补全质量,为后续利用全时段卫星数据进行卫星健康管理系统的“建、管、控”提供了更加准确的依据。利用贝叶斯超参数搜索方法搜索NRF模型的参数,较传统网格搜索和随机搜索方法能够获得更高的搜索精度和搜索效率。
附图说明
图1是将一棵CART回归树转换为一个树型神经网络的原理图;
图2是神经随机森林模型架构图;
图3是本发明所述基于随机森林网络的卫星电源系统缺失数据补全方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
具体实施方式一:下面结合图1至3说明本实施方式,本实施方式所述基于随机森林网络的卫星电源系统缺失数据补全方法,该方法包括以下步骤:
S1、采集卫星电源系统的遥测数据并进行预处理,所述遥测数据由m类传感器采集并构建为M维时序数据M={m1,m2,...,mm};m类传感器包括电流m1、电压m2、电感m3……,具体类型数量与实际的系统有关。
S2、预处理后全部遥测数据按日期保存为多个.csv文件,各.csv文件数据维度为L×M,其中L={l1,l2,...,ln}代表记录时序数据的时间长度,M={m1,m2,...,mm}代表遥测参数维度;比如各类传感器遥测数据记录1个月时长存为一个.csv文件,统一进行处理。
S3、利用PCA算法从全部.csv文件中筛选出待补全遥测数据相关特征列N={m1,m2,...,mn},N≤M;本步骤为采用PCA算法降维的过程,提取出与缺失数据相关变量,PCA算法的原理是利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量的值,以达到提取主成分的目的,是一种降低计算复杂度、减少模型训练耗时的常用降维算法。
S4、将步骤S3筛选出来的待补全遥测数据相关特征列N输入至训练好的神经随机森林NRF模型中,获取缺失段数据;本步骤的神经随机森林NRF模型是本申请重点设计的部分。获得待补全遥测时序数据X更多时刻的状态值,作为其缺失部分。
S5、将神经随机森林NRF模型输出的缺失段数据与原始数据拼接在一起,获取完整遥测时序数据X*,完成缺失数据补全。补全前与补全后该遥测数据维度分别为S×1和(L-S)×1,其中S为待补全遥测时序数据的原始值的维度。
本发明以卫星电源系统遥测数据为基础,设计了神经随机森林(Neural RandomForests,NRF)模型有效解决了卫星电源系统某些遥测参数因卫星自身不存在境外数据存储能力或地面测控站数量有限导致的长时段数据缺失问题。NRF是一种将简单神经网络和随机森林相结合的回归模型,因此能够用于缺失数据的预测任务当中。通过单独训练每一个小的树型网络,得到由m个“小神经网络”组成的神经随机森林,进而可以利用该模型进行缺失数据预测。该模型的创新点在于将一棵回归树转化成一个具有特定连接权值的三层神经网络,接下来针对具体问题修改了神经网络各层的激活函数,最后采用集成学习的方法组合各个弱学习器。神经随机森林NRF模型的构建过程包括4个方面的实施步骤,S41:将一颗回归树转化为树型神经网络,对应(1)-(4);S42:激活函数构造,对应(5);S43:将多个树型神经网络组合成神经随机森林,对应(6);S44:模型调参,对应(7);S5:算法整体流程,对应(8);S6:多算法对比实验分析,对应(9)。具体如下所述:
步骤(1)构建一颗回归树的过程为:
NRF模型首先需要将一颗分类回归树转换为三层神经网络的形式,这里给出NRF构建过程中需要用到的基本定义和知识。定义分类回归树(Classification And RegressionTree,CART)是组成NRF的基本元素,数据特征维度集合X={x(1),x(2),...,x(d)}对应数据值Y={y(1),y(2),...,y(d)},选取最小方差判据作为判断最优切分变量x(i)以及切分点s的标准:
Figure BDA0003866641420000071
其中D={X,Y}=D1∪D2,D1(i,s)={x|x(i)≤s}和D2(i,s)={x|x(i)>s}分别为切分点划分出的左右两部分训练集,c1=average(y(i)|x(i)∈D1)和c2=average(y(i)|x(i)∈D2)分别为D1和D2两部分训练数据的均值,j为切分点位置。
通过递归不断选择并保留当前最优切分变量xj以及切分点s,直到回归树恰好包含k个终端节点时停止,能够生成一棵回归树T;
对于划分回归树T的超平面集合H={H1,H2,...,HK-1}中的任意一个超平面Hk∈H,k=1,2,…,K-1,存在Hk={x:hk(x)=0},其中超平面方程
Figure BDA0003866641420000072
进行回归树分析的维度ik=1,2,...,d,偏置/>
Figure BDA0003866641420000073
Figure BDA0003866641420000074
为网络输入。
利用以上定义和基础知识,可以将CART树估计用图1形式的三层神经网络来表示。
步骤(2)、在第一隐藏层进行超平面空间划分;
网络输入
Figure BDA0003866641420000075
与第一隐藏层各个神经元一一对应连接,第一隐藏层的神经元对应的K-1个感知器被用来判断划分特征空间的超平面属性。它们的激活函数可以统一定义为:
Figure BDA0003866641420000081
其中threshold(x)=±1为阈值型激活函数,且连接权值为1,偏置为
Figure BDA0003866641420000082
如果激活值大于零,那么神经元就会被激活;否则,该神经元处于抑制状态;
定义上式结果为+1时代表待查询叶子节点在超平面Hk的左侧,结果为-1时代表待查询叶子节点在超平面Hk的右侧;
则第一隐藏层的输出是由+1和-1组成的一个K-1维矢量U={u1(x),u2(x),...,uK-1(x)},其元素uk(x),k=1,2,...,K-1。
步骤(3)在第二隐藏层进行叶节点位置的定位过程为:
每个叶子节点对应一个神经元,因此第二隐藏层共有K个神经元,定义所有叶子节点L={L1,L2,...,LK},则第二隐藏层的激活函数定义为:
Figure BDA0003866641420000083
其中bkk'=±1表示第一隐藏层和第二隐藏层之间的连接权值,bk'=-l(k')+0.5表示偏置,l(k')是从根节点到叶子节点Lk'的路径长度;
定义上式结果为+1时代表唯一的和叶子节点Lk'有关的路径,结果为-1时代表和叶子节点Lk'无关的路径;则第二隐藏层的输出是由一个+1和K-1个-1组成的一个K维矢量V={υ1(x),υ2(x),...,υK(x)},其元素vk'(x),k'=1,2,...,K。
步骤(4)在输出层进行加权求和的过程为:
对于第二隐藏层的输出中元素υk'(x)=1的情况,输出层计算叶子节点Lk'所在的Xi对应的Yi的平均值
Figure BDA0003866641420000084
表示为:
Figure BDA0003866641420000085
其中
Figure BDA0003866641420000086
t(x)为第二隐藏层的输出结果。
图1给出了一个二维特征空间搜索的例子,特征空间被5个超平面划分成6个超矩形。因此第一隐藏层的输出U是一个5维矢量,第二隐藏层的输出V是一个6维矢量。根据本发明的定义规则,为了搜索到区域
Figure BDA0003866641420000094
,第一隐藏层和第二隐藏层的输出分别为:U={+1,+1,+1,-1,-1},V={-1,+1,-1,-1,-1,-1}。其中U的每一维度依次对应第一隐藏层中的超平面0-4,V的每一维度依次对应第二隐藏层中的叶子节点5-10。
步骤(5)、构造神经网络各层的激活函数的过程包括:
考虑到基础网络模型中采用的阈值型激活函数threshold(x)不能够满足梯度反向传播过程中的求导条件,本发明采用改进的双曲正切激活函数k-tanh(τu)作为激活函数,激活函数k-tanh(τu)为:
Figure BDA0003866641420000091
上式对tanh激活函数根据激活位置的不同进行了适当修改。
k为终端节点,γ为激活系数,在输入层和第一隐藏层之间
Figure BDA0003866641420000092
采用/>
Figure BDA0003866641420000093
激活;在第一隐藏层和第二隐藏层之间γ=k,采用tanh(ku)激活,u为第一隐藏层或第二隐藏层输入。
以上设计能够保证网络在短时间内快速收敛。
步骤(6)、构建神经随机森林模型NRF的过程包括:
本步骤将多个树型神经网络组合成神经随机森林。
传统的回归随机森林是由多棵CART回归树并行训练构成的大型预测器,整个森林的估计值是所有回归树预测结果的平均值:
Figure BDA0003866641420000101
其中M表示CART树的棵树,
Figure BDA0003866641420000107
表示第m棵CART树的预测结果,/>
Figure BDA0003866641420000102
表示不同CART树之间的差异。
本步骤采用Bagging集成学习方式,将多个小树型神经网络的预测结果进行加权平均,表示为:
Figure BDA0003866641420000103
其中,x表示待处理数据,M表示树型神经网络的个数,αm代表第m个学习器的权重,有
Figure BDA0003866641420000104
Figure BDA0003866641420000105
表示第m个树型神经网络的预测结果,/>
Figure BDA0003866641420000106
表示不同树型神经网络的差异。
模型架构如图2所示。
步骤(7)、神经随机森林模型NRF的模型调参。
本发明所采用的NRF模型具有众多超参数,难以通过手动调参获得最理想的模型,因此利用参数搜索算法学习模型的最优参数组合。传统的网格搜索算法将所有可能的超参数组合进行遍历实验,不仅耗时长且对计算力要求极高;随机搜索方法较网格搜索减少了计算量,但其计算精度往往不高。故采用以上两种方法在NRF参数选择问题中都存在着一定的欠缺。
贝叶斯优化是一种新颖的基于概率模型的超参数优化方法,该方法在尝试每一组超参数之前,会综合考虑之前实验过的超参数的评估结果,能够节省大量时间并提升搜索效率。
本步骤采用贝叶斯优化参数搜索对神经随机森林模型NRF进行模型调参,具体为
首先构造一个黑盒目标函数,作为评判模型效果的标准,选取回归问题的常用评价指标R2;接下来给定各个需要调试的超参数的上界和下界,确定各自的搜索范围;最后实例化贝叶斯优化对象并确定迭代次数。
表1给出了利用bayes_opt包实现基于高斯过程的贝叶斯优化过程中,待调试超参数各自的预设搜索范围和搜索过程的迭代次数,其中贝叶斯优化过程先利用5轮随机搜索缩小待确定超参的范围,再利用45轮贝叶斯优化提高搜索精度和效率。在算法迭代第28轮,能够寻找到最优的一组参数,本发明将其作为最终实验参数,此时R2为0.9609。
表1贝叶斯优化搜索范围和选取的迭代次数
Figure BDA0003866641420000111
步骤(8)NRF算法整体流程
算法1给出了利用NRF进行长时段缺失数据补全的基本流程。其中步骤1-4基于树型神经网络构造方法和改进的双曲正切激活函数k-tanh(γu),构建M棵树型神经网络。步骤5根据Bagging集成学习思想,对每个树型神经网络预测结果加权求和,进行组合预测,能够得到最终的缺失值补全结果。
Figure BDA0003866641420000112
步骤(9)多算法对比实验分析
本发明选取卫星电源系统中的遥测参数X,利用NRF模型与几种常用的回归模型进行数据补全对比实验。事先对待补全遥测数据进行预处理工作,并设置训练集和测试集的比例为7:3。
选取回归问题常用的评价指标均方根误差RMSE和可决系数R2作为衡量算法效果的指标,其中RMSE作为评估模型的损失函数,用来测量误差的平均大小,其数值越接近0,模型的拟合效果越好;R2用来评判拟合程度的好坏,其数值越接近1,模型拟合效果越好。它们的计算方法如下:
Figure BDA0003866641420000121
Figure BDA0003866641420000122
其中m代表样本总数,yi代表样本的真实值,
Figure BDA0003866641420000123
代表样本的预测值,/>
Figure BDA0003866641420000124
代表样本的平均值。
对于待补全数据的遥测参数X,利用PCA算法筛选出待补全遥测数据相关特征列N,输入至本发明改进后的NRF模型中进行缺失数据补全工作。与其它模型补全结果对比参见表2。
表2不同遥测参数的缺失数据补全结果
Figure BDA0003866641420000125
本项发明共包括9个具体步骤,可分为神经随机森林缺失数据补全模型设计、模型调参和多算法对比实验分析3个模块,缺一不可。并且任一步骤的缺失,都会影响数据补全效果甚至导致无法完成数据补全任务。具体实施流程如图3所示。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其它所述实施例中。

Claims (4)

1.基于随机森林网络的卫星电源系统缺失数据补全方法,其特征在于,该方法包括以下步骤:
S1、采集卫星电源系统的遥测数据并进行预处理,所述遥测数据由m类传感器采集并构建为M维时序数据M={m1,m2,...,mm};
S2、预处理后全部遥测数据按日期保存为多个.csv文件,各.csv文件数据维度为L×M,其中L={l1,l2,...,ln}代表记录时序数据的时间长度,M={m1,m2,...,mm}代表遥测参数维度;
S3、利用PCA算法从全部.csv文件中筛选出待补全遥测数据相关特征列N={m1,m2,...,mn},N≤M;
S4、将步骤S3筛选出来的待补全遥测数据相关特征列N输入至训练好的神经随机森林NRF模型中,获取缺失段数据;
神经随机森林NRF模型的构建过程:
S41、将一颗回归树转化为树型神经网络;
S42、构造神经网络各层的激活函数;
S43、采用Bagging集成学习方式将多个S41构建的树型神经网络组合成神经随机森林模型NRF;
S44、采用贝叶斯优化参数搜索对神经随机森林模型NRF进行模型调参;
S5、将神经随机森林NRF模型输出的缺失段数据与原始数据拼接在一起,获取完整遥测时序数据,完成缺失数据补全;
S41将一颗回归树转化为树型神经网络的过程包括:
步骤(1)、构建一颗回归树,并用三层神经网络表示,分别为输入层、隐藏层和输出层,隐藏层包括第一隐藏层和第二隐藏层;
步骤(2)、在第一隐藏层进行超平面空间划分;
步骤(3)、在第二隐藏层进行叶节点位置的定位;
步骤(4)、在输出层进行加权求和,完成一颗回归树转化为树型神经网络的过程;
具体的,
步骤(1)构建一颗回归树的过程为:
定义分类回归树是组成NRF的基本元素,数据特征维度集合X={x(1),x(2),...,x(d)}对应数据值Y={y(1),y(2),...,y(d)},选取最小方差判据作为判断最优切分变量x(i)以及切分点s的标准:
Figure QLYQS_1
其中D={X,Y}=D1∪D2,D1(i,s)={x|x(i)≤s}和D2(i,s)={x|x(i)>s}分别为切分点划分出的左右两部分训练集,c1=average(y(i)|x(i)∈D1)和c2=average(y(i)|x(i)∈D2)分别为D1和D2两部分训练数据的均值,j为切分点位置;
通过递归不断选择并保留当前最优切分变量xj以及切分点s,直到回归树恰好包含k个终端节点时停止,能够生成一棵回归树T;
对于划分回归树T的超平面集合H={H1,H2,...,HK-1}中的任意一个超平面Hk∈H,k=1,2,…,K-1,存在Hk={x:hk(x)=0},其中超平面方程
Figure QLYQS_2
进行回归树分析的维度ik=1,2,...,d,偏置/>
Figure QLYQS_3
Figure QLYQS_4
为网络输入;
步骤(2)在第一隐藏层进行超平面空间划分的过程为:
网络输入
Figure QLYQS_5
与第一隐藏层各个神经元一一对应连接,第一隐藏层的神经元对应的K-1个感知器被用来判断划分特征空间的超平面属性,它们的激活函数可以统一定义为:
Figure QLYQS_6
其中threshold(x)=±1为阈值型激活函数,且连接权值为1,偏置为
Figure QLYQS_7
如果激活值大于零,那么神经元就会被激活;否则,该神经元处于抑制状态;
定义上式结果为+1时代表待查询叶子节点在超平面Hk的左侧,结果为-1时代表待查询叶子节点在超平面Hk的右侧;
则第一隐藏层的输出是由+1和-1组成的一个K-1维矢量U={u1(x),u2(x),...,uK-1(x)},其元素uk(x),k=1,2,...,K-1;
步骤(3)在第二隐藏层进行叶节点位置的定位过程为:
每个叶子节点对应一个神经元,因此第二隐藏层共有K个神经元,定义所有叶子节点L={L1,L2,...,LK},则第二隐藏层的激活函数定义为:
Figure QLYQS_8
其中bkk'=±1表示第一隐藏层和第二隐藏层之间的连接权值,bk'=-l(k')+0.5表示偏置,l(k')是从根节点到叶子节点Lk'的路径长度;
定义上式结果为+1时代表唯一的和叶子节点Lk'有关的路径,结果为-1时代表和叶子节点Lk'无关的路径;则第二隐藏层的输出是由一个+1和K-1个-1组成的一个K维矢量V={υ1(x),υ2(x),...,υK(x)},其元素vk'(x),k'=1,2,...,K;
步骤(4)在输出层进行加权求和的过程为:
对于第二隐藏层的输出中元素υk'(x)=1的情况,输出层计算叶子节点Lk'所在的Xi对应的Yi的平均值
Figure QLYQS_9
表示为:
Figure QLYQS_10
其中
Figure QLYQS_11
t(x)为第二隐藏层的输出结果。
2.根据权利要求1所述基于随机森林网络的卫星电源系统缺失数据补全方法,其特征在于,S42构造神经网络各层的激活函数的过程包括:
步骤(5)、采用改进的双曲正切激活函数k-tanh(τu)作为激活函数,激活函数k-tanh(τu)为:
Figure QLYQS_12
k为终端节点,γ为激活系数,在输入层和第一隐藏层之间
Figure QLYQS_13
采用/>
Figure QLYQS_14
激活;在第一隐藏层和第二隐藏层之间γ=k,采用tanh(ku)激活,u为第一隐藏层或第二隐藏层输入。
3.根据权利要求2所述基于随机森林网络的卫星电源系统缺失数据补全方法,其特征在于,S43构建神经随机森林模型NRF的过程包括:
步骤(6)、采用Bagging集成学习方式,将多个树型神经网络的预测结果进行加权平均,表示为:
Figure QLYQS_15
其中,x表示待处理数据,M表示树型神经网络的个数,αm代表第m个学习器的权重,有
Figure QLYQS_16
表示第m个树型神经网络的预测结果,/>
Figure QLYQS_17
表示不同树型神经网络的差异。
4.根据权利要求3所述基于随机森林网络的卫星电源系统缺失数据补全方法,其特征在于,S44神经随机森林模型NRF的模型调参过程包括:
步骤(7)、采用贝叶斯优化参数搜索对神经随机森林模型NRF进行模型调参,具体为首先构造一个黑盒目标函数,作为评判模型效果的标准,选取回归问题的常用评价指标R2;接下来给定各个需要调试的超参数的上界和下界,确定各自的搜索范围;最后实例化贝叶斯优化对象并确定迭代次数。
CN202211184190.8A 2022-09-27 2022-09-27 基于随机森林网络的卫星电源系统缺失数据补全方法 Active CN115454988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211184190.8A CN115454988B (zh) 2022-09-27 2022-09-27 基于随机森林网络的卫星电源系统缺失数据补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211184190.8A CN115454988B (zh) 2022-09-27 2022-09-27 基于随机森林网络的卫星电源系统缺失数据补全方法

Publications (2)

Publication Number Publication Date
CN115454988A CN115454988A (zh) 2022-12-09
CN115454988B true CN115454988B (zh) 2023-05-23

Family

ID=84306256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211184190.8A Active CN115454988B (zh) 2022-09-27 2022-09-27 基于随机森林网络的卫星电源系统缺失数据补全方法

Country Status (1)

Country Link
CN (1) CN115454988B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535694A (zh) * 2021-06-18 2021-10-22 北方民族大学 一种基于Stacking框架的特征选择方法
CN115048464A (zh) * 2021-03-08 2022-09-13 中国移动通信集团江苏有限公司 用户操作行为数据的检测方法、装置及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738504A (zh) * 2020-06-19 2020-10-02 中国工商银行股份有限公司 企业财务指标资金量预测方法和装置、设备及存储介质
WO2021256078A1 (ja) * 2020-06-19 2021-12-23 富士フイルム株式会社 バイオマーカー特定方法及び細胞の製造方法
CN112633426B (zh) * 2021-03-11 2021-06-15 腾讯科技(深圳)有限公司 处理数据类别不均衡的方法、装置、电子设备及存储介质
CN113256066B (zh) * 2021-04-23 2022-05-06 新疆大学 基于PCA-XGBoost-IRF的作业车间实时调度方法
CN113807568B (zh) * 2021-08-11 2022-12-06 南方电网科学研究院有限责任公司 一种电力负荷预测方法、装置及终端设备
CN114881158A (zh) * 2022-05-17 2022-08-09 中国人民解放军国防科技大学 基于随机森林的缺失值填充方法、装置和计算机设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115048464A (zh) * 2021-03-08 2022-09-13 中国移动通信集团江苏有限公司 用户操作行为数据的检测方法、装置及电子设备
CN113535694A (zh) * 2021-06-18 2021-10-22 北方民族大学 一种基于Stacking框架的特征选择方法

Also Published As

Publication number Publication date
CN115454988A (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN111860982A (zh) 一种基于vmd-fcm-gru的风电场短期风电功率预测方法
CN106022954B (zh) 基于灰色关联度的多重bp神经网络负荷预测方法
CN112557034B (zh) 一种基于pca_cnns的轴承故障诊断方法
CN104156943B (zh) 基于非支配邻域免疫算法的多目标模糊聚类图像变化检测方法
CN111931983A (zh) 一种降水量预测方法及系统
CN114676822A (zh) 一种基于深度学习的多属性融合空气质量预报方法
Zanganeh et al. Applying adaptive neuro-fuzzy model for bankruptcy prediction
DE102023205594A1 (de) Verfahren und Systeme zum Trainieren eines Maschinenlernmodells mit während eines Herstellungsprozesses erfassten Messdaten
CN114881343A (zh) 基于特征选择的电力系统短期负荷预测方法及装置
Stathakis et al. Neuro-fuzzy modeling for crop yield prediction
CN110738363A (zh) 一种光伏发电功率预测模型及其构建方法和应用
Sánchez et al. Obtaining transparent models of chaotic systems with multi-objective simulated annealing algorithms
Nazarov et al. Optimization of prediction results based on ensemble methods of machine learning
CN115454988B (zh) 基于随机森林网络的卫星电源系统缺失数据补全方法
CN116186507A (zh) 一种特征子集的选取方法、装置及存储介质
CN115423091A (zh) 一种条件对抗神经网络训练方法、场景生成方法和系统
Chen et al. Exploiting data entropy for neural network compression
Maheswari et al. Analyzing the Performance of Diverse Deep Learning Architectures for Weather Prediction
KR102496501B1 (ko) 시뮬레이션 데이터를 이용한 자산 배분 정보 산출 방법 및 시뮬레이션 데이터를 이용한 자산 배분 정보 산출 장치
Moodi et al. Evaluation of feature selection performance for identification of best effective technical indicators on stock market price prediction
CN117494573B (zh) 一种风速预测方法、系统及电子设备
Cárdenas-Cárdenas et al. Colombian inflation forecast using long short-term memory approach
CN112633360B (zh) 一种基于大脑皮层学习模式的分类方法
Mallikarjuna et al. Application of ARIMA, ANN and hybrid models to forecast the SENSEX returns
Yüksek et al. Comparison of the effects of different dimensional reduction algorithms on the training performance of anfis (adaptive neuro-fuzzy inference system) model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant