CN113313194A - 一种基于线性插值偏差的推进剂制备数据缺失值填补方法 - Google Patents

一种基于线性插值偏差的推进剂制备数据缺失值填补方法 Download PDF

Info

Publication number
CN113313194A
CN113313194A CN202110669240.0A CN202110669240A CN113313194A CN 113313194 A CN113313194 A CN 113313194A CN 202110669240 A CN202110669240 A CN 202110669240A CN 113313194 A CN113313194 A CN 113313194A
Authority
CN
China
Prior art keywords
value
filling
data
deviation
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110669240.0A
Other languages
English (en)
Other versions
CN113313194B (zh
Inventor
张维
张浩晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110669240.0A priority Critical patent/CN113313194B/zh
Publication of CN113313194A publication Critical patent/CN113313194A/zh
Application granted granted Critical
Publication of CN113313194B publication Critical patent/CN113313194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Abstract

本发明公开了一种基于线性插值偏差的推进剂制备数据缺失值填补方法,首先对连续缺失值进行线性插值填补,然后对缺失值以及缺失值前后一个真实值进行线性插值和线性回归进行拟填补,再根据拟填补所得的两种结果计算偏差值Δ1,最后通过偏差拟合得到第一次线性插值所存在的偏差Δ2,最终通过弥补偏差得到最终的缺失值填补值,对后续的产品质量分类以及质量预测和控制提供完整有效的数据基础。本发明降低了测试样本的填补值和真实值的平均误差。

Description

一种基于线性插值偏差的推进剂制备数据缺失值填补方法
技术领域
本发明属于改性双基推进剂制备技术领域,具体涉及一种数据短时缺失值填补方法。
背景技术
目前,针对于缺失值的处理最为广泛的常用的方法包括忽略含缺失项的记录、将缺失值视为特殊值或者插补缺失值。采用删除含缺失项记录的方法能够最大程度保证数据的真实性和有效性,但是当数据样本量小时,删除含缺失项记录会大大影响数据的分布以及变化趋势,而采用填充的方法比简单删除记录更有利于后续数据的利用。从数据分析的角度看,缺失值的这种未知性掩盖了数据分布,干扰了属性相关性的发现,这使得统计分析结果大打折扣,影响最终决策。
在对缺失值进行填补处理时,目前所采用的例如线性插值和线性回归方法,对工业生产数据进行填补时都会导致填补的数据缺少工业数据分布所有的耦合性和时序性,尤其当工业生产数据样本量少且波动性不大时,每一项数据对整体的波动性都有极大的影响,且工业生产数大多具有耦合性,每一项工艺特征都与其他工艺特征具有线性或非线性的关心,同一项工艺中所有的不同特征参数也具有强相关性。因此,在对工业数据进行缺失项填补时,必须同时考虑到数据自身所具有的波动性特征,以及缺失数据所在特征与其他工艺特征所产生的相关性。
发明内容
为了克服现有技术的不足,本发明提供了一种基于线性插值偏差的推进剂制备数据缺失值填补方法,首先对连续缺失值进行线性插值填补,然后对缺失值以及缺失值前后一个真实值进行线性插值和线性回归进行拟填补,再根据拟填补所得的两种结果计算偏差值Δ1,最后通过偏差拟合得到第一次线性插值所存在的偏差Δ2,最终通过弥补偏差得到最终的缺失值填补值,对后续的产品质量分类以及质量预测和控制提供完整有效的数据基础。本发明降低了测试样本的填补值和真实值的平均误差。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:对改性双基推进剂制备质量数据中所有的2到4个连续缺失值进行线性插值;
步骤1-1:确定改性双基推进剂制备质量数据中连续缺失值的数据所在的特征列X;
步骤1-2:确定改性双基推进剂制备质量数据中连续缺失项的数据所在特征列X的位置Xp—Xp+n,1<n<5;
步骤1-3:按照公式(1)对改性双基推进剂制备质量数据中含有连续缺失值的特征列X直接进行第一次线性插值得到连续缺失项Xp—Xp+n的值,分别为Xp,1—Xp+n,1,公式(1)如下:
Figure BDA0003118391780000021
其中,ta与ya是待求数据点对应的时刻与估计值,te与ye是数据缺失时间段后首个有效记录点对应的时刻与实际值,ts与ys是数据缺失时间段前最近有效记录点对应的时刻与实际值;
步骤1-4:将步骤1-3中改性双基推进剂制备质量数据中连续缺失项的填补值Xp,1—Xp+n,1中的中间填补值Xp+1,1—Xp+n-1,1作为第一次直接线性插值后的待去除真实偏差的值YAp+1—YAp+n-1
步骤2:对改性双基推进剂制备质量数据中连续缺失项进行线性回归计算;
步骤2-1:确定与改性双基推进剂制备质量数据中缺失项所在特征列X具有相关性的特征列Z;
步骤2-2:将特征列Z中的部分数据集Z={Z1,Z2,…,Zp-2,Zp+n+2…,Zm}作为训练集Ztrain,将特征列X中的部分数据集X={X1,X2,…,Xp-2,Xp+n+2,…,Xp+n+1}作为训练集Xtrain
步骤2-3:将特征列Z中的部分数据集Z={Zp-1,Zp,…,Zp+n,Zp+n+1}作为测试集Zpred,将特征列X中的部分数据集X={Xp-1,Xp,…,Xp+n,Xp+n+1}作为测试集Xpred
步骤2-4:利用公式(2)对训练集Ztrain和Xtrain进行线性回归得到权重ωi和误差b0,公式(2)如下:
Y=∑ωiXi+b0 (2)
步骤2-5:利用步骤2-4得到的权重ωi和误差b0对测试集Zpred和Xpred进行线性回归计算,得到线性回归得到的拟填补值Xp-1,2—Xp+n+1,2
步骤2-6:将线性回归得到的拟填补值Xp+1,2—Xp+n-1,2作为待计算拟偏差的填YBp+1—YBp+n-1
步骤3:对改性双基推进剂制备质量数据在线性回归得到拟填补值的基础上进行第二次线性插值拟填补;
步骤3-1:将步骤2中得到的改性双基推进剂制备质量数据线性回归拟填补值Xp,2—Xp+n,2再次作为待填补值,填补方法为以Xp-1,2和Xp+n+1,2为基础值,利用公式(1)对待填补值进行第二次线性插值,得到拟填补值为Xp,3—Xp+n,3
步骤3-2:将通过对改性双基推进剂制备质量数据在线性回归得到拟填补值的基础上进行第二次线性插值拟填补Xp,3—Xp+n,,作为待计算拟偏差的值YCp+1—YCp+n-1
步骤4:计算改性双基推进剂制备质量数据中的拟偏差值Δ2与真实偏差值Δ1;
步骤4-1:根据待计算拟偏差的值YCp+1—YCp+n-1和YBp+1—YBp+n-1利用公式(3)计算拟偏差值Δ2:
Δ2=YCm-YBm(p+1<m<p+n-1) (3)
步骤4-2:根据拟偏差值Δ2以及待去除真实偏差的值YAp+1—YAp+n-1和待计算拟偏差的值YBp+1—YBp+n-1利用公式(4)得到真实偏差值Δ1:
Figure BDA0003118391780000031
步骤5:计算改性双基推进剂制备质量数据中连续缺失值的真正填补值;
通过公式(5)计算改性双基推进剂制备质量数据中缺失值的真正填补值Xp—Xp+n
Xi=YAi-Δ1i (5)
步骤6:对改性双基推进剂制备质量数据中缺失值填补的精准度RMSE进行比较;
步骤6-1:将对改性双基推进剂制备质量数据中连续缺失值进行直接线性差值所得到的数据集X={Xp,xian,Xp+1,xian,…,Xp+n,xian}(2<n<5)利用公式(6)进行精准度计算:
Figure BDA0003118391780000032
其中,RMSE1为对改性双基推进剂制备质量数据直接基于线性插值得到填补值的精准度,n为缺失值数量,Xpred为直接线性插值得到的数据集X={Xp,xian,Xp+1,xian,…,Xp+n,xian}(2<n<5),X(i)为缺失值的真实数据;
步骤6-2:对改性双基推进剂制备质量数据中连续缺失值填补值Xp—Xp+n同样利用公式(6)计算精准度,表示为RMSE2;
步骤6-3:算法结束,输出改性双基推进剂制备质量数据中连续缺失值的填补值X=Xp,Xp+1,…,Xp+n(2<n<5)以及精准度RMSE2。
本发明的有益效果如下:
(1)本发明利用线性插值和线性回归两种算法的结合,尽最大程度上保留了改性双基推进剂制备质量数据的自身时序性和其他特征之间的耦合性;
(2)本发明改进了传统单一的线性插值和线性回归算法,将两种算法进行拟偏差和真实偏差的计算,从而将缺失项的填补值针对于单一线性插值填补进行了偏差弥补;
(3)本发明降低了测试样本的填补值和真实值的平均误差。
附图说明
图1为本发明方法流程图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
针对于小样本的工业质量数据处理中,经常会遇到设备故障或人为操作原因导致出现连续缺失2-5个值的情况,同时工业质量数据由于其数据特征本身的分布与时间有关系且不同的数据特征间有着不同程度的相关性,因而大多数的数据特征都是呈耦合性和时序性,考虑到这类型的缺失值填补需要考虑到数据整体分布以及所缺失数据与其它特征数据的相关性,因而采用单纯的线性插值和线性回归方法无法对时序性和耦合性的数据进行有效填补。针对改性双基推进剂制备过程,为了更好的填补质量数据并最大程度保留数据特性,本发明提供了一种基于线性插值偏差的推进剂制备数据缺失值填补方法,包括如下步骤:
步骤1:对改性双基推进剂制备质量数据中所有的2到4个连续缺失值进行线性插值;
步骤1-1:确定改性双基推进剂制备质量数据中连续缺失值的数据所在的特征列X;
步骤1-2:确定改性双基推进剂制备质量数据中连续缺失项的数据所在特征列X的位置Xp—Xp+n,1<n<5;
步骤1-3:按照公式(1)对改性双基推进剂制备质量数据中含有连续缺失值的特征列X直接进行第一次线性插值得到连续缺失项Xp—Xp+n的值,分别为Xp,1—Xp+n,1,公式(1)如下:
Figure BDA0003118391780000051
其中,ta与ya是待求数据点对应的时刻与估计值,te与ye是数据缺失时间段后首个有效记录点对应的时刻与实际值,ts与ys是数据缺失时间段前最近有效记录点对应的时刻与实际值;
步骤1-4:将步骤1-3中改性双基推进剂制备质量数据中连续缺失项的填补值Xp,1—Xp+n,1中的中间填补值Xp+1,1—Xp+n-1,1作为第一次直接线性插值后的待去除真实偏差的值YAp+1—YAp+n-1
步骤2:对改性双基推进剂制备质量数据中连续缺失项进行线性回归计算;
步骤2-1:确定与改性双基推进剂制备质量数据中缺失项所在特征列X具有相关性的特征列Z;
步骤2-2:将特征列Z中的部分数据集Z={Z1,Z2,…,Zp-2,Zp+n+2…,Zm}作为训练集Ztrain,将特征列X中的部分数据集X={X1,X2,…,Xp-2,Xp+n+2,…,Xp+n+1}作为训练集Xtrain
步骤2-3:将特征列Z中的部分数据集Z={Zp-1,Zp,…,Zp+n,Zp+n+1}作为测试集Zpred,将特征列X中的部分数据集X={Xp-1,Xp,…,Xp+n,Xp+n+1}作为测试集Xpred
步骤2-4:利用公式(2)对训练集Ztrain和Xtrain进行线性回归得到权重ωi和误差b0,公式(2)如下:
Y=∑ωiXi+b0 (2)
步骤2-5:利用步骤2-4得到的权重ωi和误差b0对测试集Zpred和Xpred进行线性回归计算,得到线性回归得到的拟填补值Xp-1,2—Xp+n+1,2
步骤2-6:将线性回归得到的拟填补值Xp+1,2—Xp+n-1,2作为待计算拟偏差的填YBp+1—YBp+n-1
步骤3:对改性双基推进剂制备质量数据在线性回归得到拟填补值的基础上进行第二次线性插值拟填补;
步骤3-1:将步骤2中得到的改性双基推进剂制备质量数据线性回归拟填补值Xp,2—Xp+n,2再次作为待填补值,填补方法为以Xp-1,2和Xp+n+1,2为基础值,利用公式(1)对待填补值进行第二次线性插值,得到拟填补值为Xp,3—Xp+n,3
步骤3-2:将通过对改性双基推进剂制备质量数据在线性回归得到拟填补值的基础上进行第二次线性插值拟填补Xp,3—Xp+n,,作为待计算拟偏差的值YCp+1—YCp+n-1
步骤4:计算改性双基推进剂制备质量数据中的拟偏差值Δ2与真实偏差值Δ1;
步骤4-1:根据待计算拟偏差的值YCp+1—YCp+n-1和YBp+1—YBp+n-1利用公式(3)计算拟偏差值Δ2:
Δ2=YCm-YBm(p+1<m<p+n-1) (3)
步骤4-2:根据拟偏差值Δ2以及待去除真实偏差的值YAp+1—YAp+n-1和待计算拟偏差的值YBp+1—YBp+n-1利用公式(4)得到真实偏差值Δ1:
Figure BDA0003118391780000061
步骤5:计算改性双基推进剂制备质量数据中连续缺失值的真正填补值;
通过公式(5)计算改性双基推进剂制备质量数据中缺失值的真正填补值Xp—Xp+n
Xi=YAi-Δ1i (5)
步骤6:对改性双基推进剂制备质量数据中缺失值填补的精准度RMSE进行比较;
步骤6-1:将对改性双基推进剂制备质量数据中连续缺失值进行直接线性差值所得到的数据集X={Xp,xian,Xp+1,xian,…,Xp+n,xian}(2<n<5)利用公式(6)进行精准度计算:
Figure BDA0003118391780000062
其中,RMSE1为对改性双基推进剂制备质量数据直接基于线性插值得到填补值的精准度,n为缺失值数量,Xpred为直接线性插值得到的数据集X={Xp,xian,Xp+1,xian,…,Xp+n,xian}(2<n<5),X(i)为缺失值的真实数据;
步骤6-2:对改性双基推进剂制备质量数据中连续缺失值填补值Xp—Xp+n同样利用公式(6)计算精准度,表示为RMSE2;
步骤6-3:算法结束,输出改性双基推进剂制备质量数据中连续缺失值的填补值X=Xp,Xp+1,…,Xp+n(2<n<5)以及精准度RMSE2。
具体实施例:
为验证本发明的有效性,本实施例对改性双基推进剂制备质量数据集进行了采集并提取为带有短时缺失值的数据样本,该数据有21个特征,为了有效证明本发明的有效性,即只展示其中6项特征以及最终的成品质量是否达标,其中将“保温时间”和“保温温度”这两列特征作为需要进行短时缺失填补的主要对象,其中“保温温度”中含有三个连续缺失值,“保温温度”特征与“保温时间”特征具有强相关性,且“保温温度”特征具有时序性,其余特征因为工艺的不同而不具有相关性,两个特征在数据采集时都是在生产同一批改性双基推进剂时而同时隔一段时间进行同时采集。数据集展示如表1所示。
表1改性双基推进剂生产数据(部分展示)
Figure BDA0003118391780000071
具体实施步骤如下:
(1):先对改性双基推进剂制备质量数据中“保温温度”特征的2-4个连续缺失值进行线性插值;
Step1:确定改性双基推进剂制备质量数据“保温温度”特征中连续缺失值的数据位于所在的特征列X;
Step2:确定改性双基推进剂制备质量数据“保温温度”特征中连续缺失项的数据位于所在特征列X的位置X5—X7
Step3:按照公式(1)对改性双基推进剂制备质量数据“保温温度”特征中含有连续缺失值的特征列X直接进行第一次线性插值得到连续缺失项X5—X7的值,分别为X5,1=58.75,X6,1=58.90,X7,1=59.05,公式(1)如下:
Figure BDA0003118391780000072
其中,ta与ya是待求数据点对应的时刻与估计值,即X5—X7,te与ye是数据缺失时间段后首个有效记录点对应的时刻与实际值,即X4,ts与ys是数据缺失时间段前最近有效记录点对应的时刻与实际值,即X8
Step4:将Step3中改性双基推进剂制备质量数据“保温温度”特征中连续缺失项的填补值X5,1=58.75,X6,1=58.90,X7,1=59.05其中的中间填补值X6,1=58.90作为第一次直接线性插值后的待去除真实偏差的值YA6=58.90;
(2):对改性双基推进剂制备质量数据“保温温度”特征中连续缺失项进行线性回归计算;
Step5:确定与改性双基推进剂制备质量数据“保温温度”特征中缺失项所在特征列X具有相关性的特征列Z,即特征“保温时间”;
Step6:将特征列Z中的部分数据集Z={Z1,Z2,Z3,Z9…,Z28}作为训练集Ztrain,将特征列X中的部分数据集X={X1,X2,X3,X9,…,X28}作为训练集Xtrain
Step7:将特征列Z中的部分数据集Z={Z4,Z5,Z6,Z7,Z8}作为测试集Zpred,将特征列X中的部分数据集X={X4,X5,X6,X7,X8}作为测试集Xpred
Step8:利用公式(2)对训练集Ztrain和Xtrain进行线性回归得到权重ω=0.6749623和误差b=37.0492213,公式(2)如下:
Y=∑ωiXi+b0 (2)
Step9:利用Step8所得到的权重ω=0.6749623和误差b=37.0492213对测试集Zpred和Xpred进行线性回归计算,得到线性回归得到的拟填补值X4,2=58.18,X5,2=58.65,X6,2=58.38,X7,2=57.91,X8,2=58.11;
Step10:将线性回归得到的拟填补值X4,2,X5,2,X6,2,X7,2,X8,2作为待计算拟偏差的填YB6=58.38;
(3):对改性双基推进剂制备质量数据在线性回归得到拟填补值的基础上进行第二次线性插值拟填补;
Step11:将(2)中得到的改性双基推进剂制备质量数据线性回归拟填补值X4,2,X5,2,X6,2,X7,2,X8,2再次作为待填补值,填补方法为以X4,2和X8,2为基础值,利用公式(1)对待填补值进行第二次线性插值,得到拟填补值为X5,3—X7,3
Step12:将通过对改性双基推进剂制备质量数据在线性回归得到拟填补值的基础上进行第二次线性插值拟填补X5,3=58.14,X6,3=58.12,X7,3=59.24作为待计算拟偏差的值YC6=58.38;
(4):计算改性双基推进剂制备质量数据中的拟偏差值Δ2与真实偏差值Δ1;
Step13:根据待计算拟偏差的值YC6和YB6利用公式(3)来计算拟偏差值Δ2=-0.28:
Δ2=YCm-YBm(p+1<m<p+n-1) (3)
Step14:根据拟偏差值Δ2以及待去除真实偏差的值YA6和待计算拟偏差的值YB6利用公式(4)得到真实偏差值Δ1=-0.28:
Figure BDA0003118391780000091
(5):计算改性双基推进剂制备质量数据中连续缺失值的真正填补值;
Step13:通过公式(5)计算改性双基推进剂制备质量数据中缺失值的真正填补值X5=59.24,X6=59.14,X7=58.83:
Figure BDA0003118391780000092
(6):对改性双基推进剂制备质量数据中缺失值填补的精准度RMSE进行比较;
Step14:将对改性双基推进剂制备质量数据中连续缺失值进行直接线性差值所得到的数据集X={X5,xian=58.75,X6,xian=58.90,X7,xian=59.05}利用公式(6)进行精准度计算,得到RMSE1=0.3
Figure BDA0003118391780000093
其中,RMSE1为对改性双基推进剂制备质量数据直接基于线性插值得到填补值的精准度,n为缺失值数量,Xpred为直接线性插值得到的数据集X={X5,xian,X6,xian,X7,xian},X(i)为缺失值的真实数据;
Step15:对此算法得到的改性双基推进剂制备质量数据中连续缺失值填补值X5,X6,X7同样利用公式(6)计算精准度RMSE2=0.11;
Step16:算法结束,输出改性双基推进剂制备质量数据中连续缺失值的填补值X5=59.24,X5=59.14,X5=58.83以及精准度RMSE2=1.28;
在对改性双基推进剂制备质量数据样本的短时缺失值填补中,传统线性插值平均误差RMSE1=2.10;本发明改进传统线性插值方法填补短时缺失值,致使平均误差RMSE1=1.28,通过对比,可以看出填补准确度比传统线性插值算法有了明显的提高,填补效果良好。

Claims (1)

1.一种基于线性插值偏差的推进剂制备数据缺失值填补方法,其特征在于,包括以下步骤:
步骤1:对改性双基推进剂制备质量数据中所有的2到4个连续缺失值进行线性插值;
步骤1-1:确定改性双基推进剂制备质量数据中连续缺失值的数据所在的特征列X:
步骤1-2:确定改性双基推进剂制备质量数据中连续缺失项的数据所在特征列X的位置Xp-Xp+n,1<n<5;
步骤1-3:按照公式(1)对改性双基推进剂制备质量数据中含有连续缺失值的特征列X直接进行第一次线性插值得到连续缺失项Xp-Xp+n的值,分别为Xp,1-Xp+n,1,公式(1)如下:
Figure FDA0003118391770000011
其中,ta与ya是待求数据点对应的时刻与估计值,te与ye是数据缺失时间段后首个有效记录点对应的时刻与实际值,ts与ys是数据缺失时间段前最近有效记录点对应的时刻与实际值;
步骤1-4:将步骤1-3中改性双基推进剂制备质量数据中连续缺失项的填补值Xp,1-Xp+n,1中的中间填补值Xp+1,1-Xp+n-1,1作为第一次直接线性插值后的待去除真实偏差的值YAp+1-YAp+n-1
步骤2:对改性双基推进剂制备质量数据中连续缺失项进行线性回归计算;
步骤2-1:确定与改性双基推进剂制备质量数据中缺失项所在特征列X具有相关性的特征列Z;
步骤2-2:将特征列Z中的部分数据集Z={Z1,Z2,...,Zp-2,Zp+n+2…,Zm}作为训练集Ztrain,将特征列X中的部分数据集X={X1,X2,...,Xp-2,Xp+n+2,…,Xp+n+1}作为训练集Xtrain
步骤2-3:将特征列Z中的部分数据集Z={Zp-1,Zp,...,Zp+n,Zp+n+1}作为测试集Zpred,将特征列X中的部分数据集X={Xp-1,Xp,...,Xp+n,Xp+n+1}作为测试集Xpred
步骤2-4:利用公式(2)对训练集Ztrain和Xtrain进行线性回归得到权重ωi和误差b0,公式(2)如下:
Y=∑ωiXi+b0 (2)
步骤2-5:利用步骤2-4得到的权重ωi和误差b0对测试集Zpred和Xpred进行线性回归计算,得到线性回归得到的拟填补值Xp-1,2-Xp+n+1,2
步骤2-6:将线性回归得到的拟填补值Xp+1,2-Xp+n-1,2作为待计算拟偏差的填YBp+1-YBp+n-1
步骤3:对改性双基推进剂制备质量数据在线性回归得到拟填补值的基础上进行第二次线性插值拟填补;
步骤3-1:将步骤2中得到的改性双基推进剂制备质量数据线性回归拟填补值Xp,2-Xp+n,2再次作为待填补值,填补方法为以Xp-1,2和Xp+n+1,2为基础值,利用公式(1)对待填补值进行第二次线性插值,得到拟填补值为Xp,3-Xp+n,3
步骤3-2:将通过对改性双基推进剂制备质量数据在线性回归得到拟填补值的基础上进行第二次线性插值拟填补Xp,3-Xp+n,,作为待计算拟偏差的值YCp+1-YCp+n-1
步骤4:计算改性双基推进剂制备质量数据中的拟偏差值Δ2与真实偏差值Δ1;
步骤4-1:根据待计算拟偏差的值YCp+1-YCp+n-1和YBp+1-YBp+n-1利用公式(3)计算拟偏差值Δ2:
Δ2=YCm-YBn(p+1<m<p+n-1) (3)
步骤4-2:根据拟偏差值Δ2以及待去除真实偏差的值YAp+1-YAp+n-1和待计算拟偏差的值YBp+1-YBp+n-1利用公式(4)得到真实偏差值Δ1:
Figure FDA0003118391770000021
步骤5:计算改性双基推进剂制备质量数据中连续缺失值的真正填补值;
通过公式(5)计算改性双基推进剂制备质量数据中缺失值的真正填补值Xp-Xp+n
Xi=YAi-Δ1i (5)
步骤6:对改性双基推进剂制备质量数据中缺失值填补的精准度RMSE进行比较;
步骤6-1:将对改性双基推进剂制备质量数据中连续缺失值进行直接线性差值所得到的数据集X={Xp,xian,Xp+1,xian,…,Xp+n,xian}(2<n<5)利用公式(6)进行精准度计算:
Figure FDA0003118391770000022
其中,RMSE1为对改性双基推进剂制备质量数据直接基于线性插值得到填补值的精准度,n为缺失值数量,Xpred为直接线性插值得到的数据集X={Xp,xian,Xp+1,xian,…,Xp+n,xian}(2<n<5),X(i)为缺失值的真实数据;
步骤6-2:对改性双基推进剂制备质量数据中连续缺失值填补值Xp-Xp+n同样利用公式(6)计算精准度,表示为RMSE2;
步骤6-3:算法结束,输出改性双基推进剂制备质量数据中连续缺失值的填补值X=Xp,Xp+1,…,Xp+n(2<n<5)以及精准度RMSE2。
CN202110669240.0A 2021-06-17 2021-06-17 一种基于线性插值偏差的推进剂制备数据缺失值填补方法 Active CN113313194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110669240.0A CN113313194B (zh) 2021-06-17 2021-06-17 一种基于线性插值偏差的推进剂制备数据缺失值填补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110669240.0A CN113313194B (zh) 2021-06-17 2021-06-17 一种基于线性插值偏差的推进剂制备数据缺失值填补方法

Publications (2)

Publication Number Publication Date
CN113313194A true CN113313194A (zh) 2021-08-27
CN113313194B CN113313194B (zh) 2023-04-07

Family

ID=77379049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110669240.0A Active CN113313194B (zh) 2021-06-17 2021-06-17 一种基于线性插值偏差的推进剂制备数据缺失值填补方法

Country Status (1)

Country Link
CN (1) CN113313194B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521268A (zh) * 2011-11-22 2012-06-27 浪潮电子信息产业股份有限公司 一种缺失数据项自动填充的方法
CN103440283A (zh) * 2013-08-13 2013-12-11 江苏华大天益电力科技有限公司 一种测点数据的补缺系统及补缺方法
CN105447620A (zh) * 2015-11-10 2016-03-30 广西电网有限责任公司电力科学研究院 一种电能量缺失值自动处理的方法
CN108090558A (zh) * 2018-01-03 2018-05-29 华南理工大学 一种基于长短期记忆网络的时间序列缺失值自动填补方法
CN108197079A (zh) * 2016-12-08 2018-06-22 广东精点数据科技股份有限公司 一种改进的对缺失值插补的算法
CN108897719A (zh) * 2018-05-25 2018-11-27 西安电子科技大学 基于自适应遗传算法的气象数据缺失值填补方法
CN110147367A (zh) * 2019-05-14 2019-08-20 中国科学院深圳先进技术研究院 一种温度缺失数据填补方法、系统及电子设备
US20190303471A1 (en) * 2018-03-29 2019-10-03 International Business Machines Corporation Missing value imputation using adaptive ordering and clustering analysis
US20200218776A1 (en) * 2019-01-07 2020-07-09 Massachusetts Institute Of Technology Model Agnostic Time Series Analysis Via Matrix Estimation
CN111833990A (zh) * 2020-07-17 2020-10-27 电子科技大学 一种心理测评量表缺失项填充方法
CN112365029A (zh) * 2019-09-03 2021-02-12 深圳市得益节能科技股份有限公司 用于空调负荷预测的缺失值处理方法及空调负荷预测系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521268A (zh) * 2011-11-22 2012-06-27 浪潮电子信息产业股份有限公司 一种缺失数据项自动填充的方法
CN103440283A (zh) * 2013-08-13 2013-12-11 江苏华大天益电力科技有限公司 一种测点数据的补缺系统及补缺方法
CN105447620A (zh) * 2015-11-10 2016-03-30 广西电网有限责任公司电力科学研究院 一种电能量缺失值自动处理的方法
CN108197079A (zh) * 2016-12-08 2018-06-22 广东精点数据科技股份有限公司 一种改进的对缺失值插补的算法
CN108090558A (zh) * 2018-01-03 2018-05-29 华南理工大学 一种基于长短期记忆网络的时间序列缺失值自动填补方法
US20190303471A1 (en) * 2018-03-29 2019-10-03 International Business Machines Corporation Missing value imputation using adaptive ordering and clustering analysis
CN108897719A (zh) * 2018-05-25 2018-11-27 西安电子科技大学 基于自适应遗传算法的气象数据缺失值填补方法
US20200218776A1 (en) * 2019-01-07 2020-07-09 Massachusetts Institute Of Technology Model Agnostic Time Series Analysis Via Matrix Estimation
CN110147367A (zh) * 2019-05-14 2019-08-20 中国科学院深圳先进技术研究院 一种温度缺失数据填补方法、系统及电子设备
CN112365029A (zh) * 2019-09-03 2021-02-12 深圳市得益节能科技股份有限公司 用于空调负荷预测的缺失值处理方法及空调负荷预测系统
CN111833990A (zh) * 2020-07-17 2020-10-27 电子科技大学 一种心理测评量表缺失项填充方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZAHRIAH SAHRI 等: "FINNIM: Iterative Imputation of Missing Values in Dissolved Gas Analysis Dataset", 《IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS》 *
王燚烊 等: "大气PM2.5中多环芳烃浓度缺失值填补方法的研究", 《中国卫生统计》 *
苏思凡 等: "基于时空融合的缺失值填补算法", 《计算机工程与设计》 *

Also Published As

Publication number Publication date
CN113313194B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN108132964B (zh) 一种基于用户对项目类评分的协同过滤方法
CN111397755B (zh) 一种温度测量仪绝对误差的修正方法
CN104990893B (zh) 一种基于相似判别的汽油辛烷值检测方法
CN114757660B (zh) 一种基于应用分析的冷轧钢带制备方法及系统
CN114264865B (zh) 一种电流采集装置在线自校准方法
CN113313194A (zh) 一种基于线性插值偏差的推进剂制备数据缺失值填补方法
Morales et al. Improving nuclear mass predictions through the Garvey-Kelson relations
CN107966499B (zh) 一种由近红外光谱预测原油碳数分布的方法
CN113360983B (zh) 一种边坡可靠度分析与风险评估方法
JP2005516297A (ja) 工業的プロセスの調節方法
KR20210144862A (ko) 원유 블렌딩의 블렌딩 효과 파라미터의 계산 방법
CN105021533A (zh) 一种快速检测x70屈服强度、抗拉强度和表面硬度的方法
US11415568B2 (en) Systems and methods for implicit chemical resolution of vacuum gas oils and fit quality determination
CN115938496A (zh) 基于XGBoost算法的质量预估方法
CN111311083A (zh) 一种基于指数损失函数的隐性质量成本预估方法
Jang et al. Correlation of subjective and objective measures of on-center handling
CN113378368B (zh) 一种基于非线性退化轨迹模型的加速因子评估方法
CN111428190B (zh) 一种基于频域评价指标的实时混合模拟自适应拟补偿方法
CN110673470B (zh) 基于局部加权因子模型的工业非平稳过程软测量建模方法
CN116507887A (zh) 用于校准测量装置的方法
CN111125629A (zh) 一种域自适应的pls回归模型建模方法
CN113063813B (zh) 一种建立钢铁材料的连续冷却相变模型的方法
CN113822354B (zh) 基于贝叶斯反演算建模的微纳米探头动态特性补偿方法
JPH0566984B2 (zh)
CN116825229A (zh) 一种确定油品粘温模型的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant