CN113313194A

CN113313194A - 一种基于线性插值偏差的推进剂制备数据缺失值填补方法

Info

Publication number: CN113313194A
Application number: CN202110669240.0A
Authority: CN
Inventors: 张维; 张浩晨
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-08-27
Anticipated expiration: 2041-06-17
Also published as: CN113313194B

Abstract

本发明公开了一种基于线性插值偏差的推进剂制备数据缺失值填补方法，首先对连续缺失值进行线性插值填补，然后对缺失值以及缺失值前后一个真实值进行线性插值和线性回归进行拟填补，再根据拟填补所得的两种结果计算偏差值Δ1，最后通过偏差拟合得到第一次线性插值所存在的偏差Δ2，最终通过弥补偏差得到最终的缺失值填补值，对后续的产品质量分类以及质量预测和控制提供完整有效的数据基础。本发明降低了测试样本的填补值和真实值的平均误差。

Description

一种基于线性插值偏差的推进剂制备数据缺失值填补方法

技术领域

本发明属于改性双基推进剂制备技术领域，具体涉及一种数据短时缺失值填补方法。

背景技术

目前，针对于缺失值的处理最为广泛的常用的方法包括忽略含缺失项的记录、将缺失值视为特殊值或者插补缺失值。采用删除含缺失项记录的方法能够最大程度保证数据的真实性和有效性，但是当数据样本量小时，删除含缺失项记录会大大影响数据的分布以及变化趋势，而采用填充的方法比简单删除记录更有利于后续数据的利用。从数据分析的角度看，缺失值的这种未知性掩盖了数据分布，干扰了属性相关性的发现，这使得统计分析结果大打折扣，影响最终决策。

在对缺失值进行填补处理时，目前所采用的例如线性插值和线性回归方法，对工业生产数据进行填补时都会导致填补的数据缺少工业数据分布所有的耦合性和时序性，尤其当工业生产数据样本量少且波动性不大时，每一项数据对整体的波动性都有极大的影响，且工业生产数大多具有耦合性，每一项工艺特征都与其他工艺特征具有线性或非线性的关心，同一项工艺中所有的不同特征参数也具有强相关性。因此，在对工业数据进行缺失项填补时，必须同时考虑到数据自身所具有的波动性特征，以及缺失数据所在特征与其他工艺特征所产生的相关性。

发明内容

为了克服现有技术的不足，本发明提供了一种基于线性插值偏差的推进剂制备数据缺失值填补方法，首先对连续缺失值进行线性插值填补，然后对缺失值以及缺失值前后一个真实值进行线性插值和线性回归进行拟填补，再根据拟填补所得的两种结果计算偏差值Δ1，最后通过偏差拟合得到第一次线性插值所存在的偏差Δ2，最终通过弥补偏差得到最终的缺失值填补值，对后续的产品质量分类以及质量预测和控制提供完整有效的数据基础。本发明降低了测试样本的填补值和真实值的平均误差。

本发明解决其技术问题所采用的技术方案包括如下步骤：

步骤1：对改性双基推进剂制备质量数据中所有的2到4个连续缺失值进行线性插值；

步骤1-1：确定改性双基推进剂制备质量数据中连续缺失值的数据所在的特征列X；

步骤1-2：确定改性双基推进剂制备质量数据中连续缺失项的数据所在特征列X的位置X_p—X_p+n，1<n<5；

步骤1-3：按照公式(1)对改性双基推进剂制备质量数据中含有连续缺失值的特征列X直接进行第一次线性插值得到连续缺失项X_p—X_p+n的值，分别为X_p,1—X_p+n,1，公式(1)如下：

其中，t_a与y_a是待求数据点对应的时刻与估计值，t_e与y_e是数据缺失时间段后首个有效记录点对应的时刻与实际值，t_s与y_s是数据缺失时间段前最近有效记录点对应的时刻与实际值；

步骤1-4：将步骤1-3中改性双基推进剂制备质量数据中连续缺失项的填补值X_p,1—X_p+n,1中的中间填补值X_p+1,1—X_p+n-1,1作为第一次直接线性插值后的待去除真实偏差的值YA_p+1—YA_p+n-1；

步骤2：对改性双基推进剂制备质量数据中连续缺失项进行线性回归计算；

步骤2-1：确定与改性双基推进剂制备质量数据中缺失项所在特征列X具有相关性的特征列Z；

步骤2-2：将特征列Z中的部分数据集Z＝{Z₁,Z₂,…,Z_p-2，Z_p+n+2…,Z_m}作为训练集Z_train，将特征列X中的部分数据集X＝{X₁,X₂,…,X_p-2，X_p+n+2，…,X_p+n+1}作为训练集X_train；

步骤2-3：将特征列Z中的部分数据集Z＝{Z_p-1,Z_p,…,Z_p+n,Z_p+n+1}作为测试集Z_pred，将特征列X中的部分数据集X＝{X_p-1,X_p,…,X_p+n,X_p+n+1}作为测试集X_pred；

步骤2-4：利用公式(2)对训练集Z_train和X_train进行线性回归得到权重ω_i和误差b₀，公式(2)如下：

Y＝∑ω_iX_i+b₀ (2)

步骤2-5：利用步骤2-4得到的权重ω_i和误差b₀对测试集Z_pred和X_pred进行线性回归计算，得到线性回归得到的拟填补值X_p-1,2—X_p+n+1,2；

步骤2-6：将线性回归得到的拟填补值X_p+1,2—X_p+n-1,2作为待计算拟偏差的填YB_p+1—YB_p+n-1；

步骤3：对改性双基推进剂制备质量数据在线性回归得到拟填补值的基础上进行第二次线性插值拟填补；

步骤3-1：将步骤2中得到的改性双基推进剂制备质量数据线性回归拟填补值X_p,2—X_p+n,2再次作为待填补值，填补方法为以X_p-1,2和X_p+n+1,2为基础值，利用公式(1)对待填补值进行第二次线性插值，得到拟填补值为X_p,3—X_p+n,3；

步骤3-2：将通过对改性双基推进剂制备质量数据在线性回归得到拟填补值的基础上进行第二次线性插值拟填补X_p,3—X_p+n,,作为待计算拟偏差的值YC_p+1—YC_p+n-1；

步骤4：计算改性双基推进剂制备质量数据中的拟偏差值Δ2与真实偏差值Δ1；

步骤4-1：根据待计算拟偏差的值YC_p+1—YC_p+n-1和YB_p+1—YB_p+n-1利用公式(3)计算拟偏差值Δ2：

Δ2＝YC_m-YB_m(p+1<m<p+n-1) (3)

步骤4-2：根据拟偏差值Δ2以及待去除真实偏差的值YA_p+1—YA_p+n-1和待计算拟偏差的值YB_p+1—YB_p+n-1利用公式(4)得到真实偏差值Δ1：

步骤5：计算改性双基推进剂制备质量数据中连续缺失值的真正填补值；

通过公式(5)计算改性双基推进剂制备质量数据中缺失值的真正填补值X_p—X_p+n：

X_i＝YA_i-Δ1_i (5)

步骤6：对改性双基推进剂制备质量数据中缺失值填补的精准度RMSE进行比较；

步骤6-1：将对改性双基推进剂制备质量数据中连续缺失值进行直接线性差值所得到的数据集X＝{X_p，xian，X_p+1，xian，…，X_p+n，xian}(2<n<5)利用公式(6)进行精准度计算：

其中，RMSE1为对改性双基推进剂制备质量数据直接基于线性插值得到填补值的精准度，n为缺失值数量，X_pred为直接线性插值得到的数据集X＝{X_p，xian，X_p+1，xian，…，X_p+n，xian}(2<n<5)，X(i)为缺失值的真实数据；

步骤6-2：对改性双基推进剂制备质量数据中连续缺失值填补值X_p—X_p+n同样利用公式(6)计算精准度，表示为RMSE2；

步骤6-3：算法结束，输出改性双基推进剂制备质量数据中连续缺失值的填补值X＝X_p，X_p+1，…，X_p+n(2<n<5)以及精准度RMSE2。

本发明的有益效果如下：

(1)本发明利用线性插值和线性回归两种算法的结合，尽最大程度上保留了改性双基推进剂制备质量数据的自身时序性和其他特征之间的耦合性；

(2)本发明改进了传统单一的线性插值和线性回归算法，将两种算法进行拟偏差和真实偏差的计算，从而将缺失项的填补值针对于单一线性插值填补进行了偏差弥补；

(3)本发明降低了测试样本的填补值和真实值的平均误差。

附图说明

图1为本发明方法流程图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

针对于小样本的工业质量数据处理中，经常会遇到设备故障或人为操作原因导致出现连续缺失2-5个值的情况，同时工业质量数据由于其数据特征本身的分布与时间有关系且不同的数据特征间有着不同程度的相关性，因而大多数的数据特征都是呈耦合性和时序性，考虑到这类型的缺失值填补需要考虑到数据整体分布以及所缺失数据与其它特征数据的相关性，因而采用单纯的线性插值和线性回归方法无法对时序性和耦合性的数据进行有效填补。针对改性双基推进剂制备过程，为了更好的填补质量数据并最大程度保留数据特性，本发明提供了一种基于线性插值偏差的推进剂制备数据缺失值填补方法，包括如下步骤：

Y＝∑ω_iX_i+b₀ (2)

Δ2＝YC_m-YB_m(p+1<m<p+n-1) (3)

X_i＝YA_i-Δ1_i (5)

具体实施例：

为验证本发明的有效性，本实施例对改性双基推进剂制备质量数据集进行了采集并提取为带有短时缺失值的数据样本，该数据有21个特征，为了有效证明本发明的有效性，即只展示其中6项特征以及最终的成品质量是否达标，其中将“保温时间”和“保温温度”这两列特征作为需要进行短时缺失填补的主要对象，其中“保温温度”中含有三个连续缺失值，“保温温度”特征与“保温时间”特征具有强相关性，且“保温温度”特征具有时序性，其余特征因为工艺的不同而不具有相关性，两个特征在数据采集时都是在生产同一批改性双基推进剂时而同时隔一段时间进行同时采集。数据集展示如表1所示。

表1改性双基推进剂生产数据(部分展示)

具体实施步骤如下：

(1)：先对改性双基推进剂制备质量数据中“保温温度”特征的2-4个连续缺失值进行线性插值；

Step1：确定改性双基推进剂制备质量数据“保温温度”特征中连续缺失值的数据位于所在的特征列X；

Step2：确定改性双基推进剂制备质量数据“保温温度”特征中连续缺失项的数据位于所在特征列X的位置X₅—X₇；

Step3：按照公式(1)对改性双基推进剂制备质量数据“保温温度”特征中含有连续缺失值的特征列X直接进行第一次线性插值得到连续缺失项X₅—X₇的值，分别为X_5，1＝58.75，X_6，1＝58.90，X_7，1＝59.05，公式(1)如下：

其中，t_a与y_a是待求数据点对应的时刻与估计值，即X₅—X₇，t_e与y_e是数据缺失时间段后首个有效记录点对应的时刻与实际值，即X₄，t_s与y_s是数据缺失时间段前最近有效记录点对应的时刻与实际值，即X₈；

Step4：将Step3中改性双基推进剂制备质量数据“保温温度”特征中连续缺失项的填补值X_5，1＝58.75，X_6，1＝58.90，X_7，1＝59.05其中的中间填补值X_6，1＝58.90作为第一次直接线性插值后的待去除真实偏差的值YA₆＝58.90；

(2)：对改性双基推进剂制备质量数据“保温温度”特征中连续缺失项进行线性回归计算；

Step5：确定与改性双基推进剂制备质量数据“保温温度”特征中缺失项所在特征列X具有相关性的特征列Z，即特征“保温时间”；

Step6：将特征列Z中的部分数据集Z＝{Z₁,Z₂,Z₃，Z₉…,Z₂₈}作为训练集Z_train，将特征列X中的部分数据集X＝{X₁,X₂,X₃，X₉，…,X₂₈}作为训练集X_train；

Step7：将特征列Z中的部分数据集Z＝{Z₄,Z₅,Z₆,Z₇，Z₈}作为测试集Z_pred，将特征列X中的部分数据集X＝{X₄,X₅,X₆,X₇,X₈}作为测试集X_pred；

Step8：利用公式(2)对训练集Z_train和X_train进行线性回归得到权重ω＝0.6749623和误差b＝37.0492213，公式(2)如下：

Y＝∑ω_iX_i+b₀ (2)

Step9：利用Step8所得到的权重ω＝0.6749623和误差b＝37.0492213对测试集Z_pred和X_pred进行线性回归计算，得到线性回归得到的拟填补值X_4，2＝58.18,X_5，2＝58.65,X_6，2＝58.38,X_7，2＝57.91,X_8，2＝58.11；

Step10：将线性回归得到的拟填补值X_4，2,X_5，2,X_6，2,X_7，2,X_8，2作为待计算拟偏差的填YB₆＝58.38；

(3)：对改性双基推进剂制备质量数据在线性回归得到拟填补值的基础上进行第二次线性插值拟填补；

Step11：将(2)中得到的改性双基推进剂制备质量数据线性回归拟填补值X_4，2,X_5，2,X_6，2,X_7，2,X_8，2再次作为待填补值，填补方法为以X_4,2和X_8,2为基础值，利用公式(1)对待填补值进行第二次线性插值，得到拟填补值为X_5,3—X_7,3；

Step12：将通过对改性双基推进剂制备质量数据在线性回归得到拟填补值的基础上进行第二次线性插值拟填补X_5,3＝58.14，X_6,3＝58.12，X_7,3＝59.24作为待计算拟偏差的值YC₆＝58.38；

(4)：计算改性双基推进剂制备质量数据中的拟偏差值Δ2与真实偏差值Δ1；

Step13：根据待计算拟偏差的值YC₆和YB₆利用公式(3)来计算拟偏差值Δ2＝-0.28：

Δ2＝YC_m-YB_m(p+1<m<p+n-1) (3)

Step14：根据拟偏差值Δ2以及待去除真实偏差的值YA₆和待计算拟偏差的值YB₆利用公式(4)得到真实偏差值Δ1＝-0.28：

(5)：计算改性双基推进剂制备质量数据中连续缺失值的真正填补值；

Step13：通过公式(5)计算改性双基推进剂制备质量数据中缺失值的真正填补值X₅＝59.24，X₆＝59.14，X₇＝58.83：

(6)：对改性双基推进剂制备质量数据中缺失值填补的精准度RMSE进行比较；

Step14：将对改性双基推进剂制备质量数据中连续缺失值进行直接线性差值所得到的数据集X＝{X_5，xian＝58.75，X_6，xian＝58.90，X_7，xian＝59.05}利用公式(6)进行精准度计算，得到RMSE1＝0.3

其中，RMSE1为对改性双基推进剂制备质量数据直接基于线性插值得到填补值的精准度，n为缺失值数量，X_pred为直接线性插值得到的数据集X＝{X_5，xian，X_6，xian，X_7，xian}，X(i)为缺失值的真实数据；

Step15：对此算法得到的改性双基推进剂制备质量数据中连续缺失值填补值X₅,X₆,X₇同样利用公式(6)计算精准度RMSE2＝0.11；

Step16：算法结束，输出改性双基推进剂制备质量数据中连续缺失值的填补值X₅＝59.24，X₅＝59.14，X₅＝58.83以及精准度RMSE2＝1.28；

在对改性双基推进剂制备质量数据样本的短时缺失值填补中，传统线性插值平均误差RMSE1＝2.10；本发明改进传统线性插值方法填补短时缺失值，致使平均误差RMSE1＝1.28，通过对比，可以看出填补准确度比传统线性插值算法有了明显的提高，填补效果良好。

Claims

1.一种基于线性插值偏差的推进剂制备数据缺失值填补方法，其特征在于，包括以下步骤：

步骤1-1：确定改性双基推进剂制备质量数据中连续缺失值的数据所在的特征列X：

步骤1-2：确定改性双基推进剂制备质量数据中连续缺失项的数据所在特征列X的位置X_p-X_p+n，1＜n＜5；

步骤1-3：按照公式(1)对改性双基推进剂制备质量数据中含有连续缺失值的特征列X直接进行第一次线性插值得到连续缺失项X_p-X_p+n的值，分别为X_p，1-X_p+n，1，公式(1)如下：

步骤1-4：将步骤1-3中改性双基推进剂制备质量数据中连续缺失项的填补值X_p，1-X_p+n，1中的中间填补值X_p+1，1-X_p+n-1，1作为第一次直接线性插值后的待去除真实偏差的值YA_p+1-YA_p+n-1；

步骤2-2：将特征列Z中的部分数据集Z＝{Z₁，Z₂，...，Z_p-2，Z_p+n+2…，Z_m}作为训练集Z_train，将特征列X中的部分数据集X＝{X₁，X₂，...，X_p-2，X_p+n+2，…，X_p+n+1}作为训练集X_train；

步骤2-3：将特征列Z中的部分数据集Z＝{Z_p-1，Z_p，...，Z_p+n，Z_p+n+1}作为测试集Z_pred，将特征列X中的部分数据集X＝{X_p-1，X_p，...，X_p+n，X_p+n+1}作为测试集X_pred；

Y＝∑ω_iX_i+b₀ (2)

步骤2-5：利用步骤2-4得到的权重ω_i和误差b₀对测试集Z_pred和X_pred进行线性回归计算，得到线性回归得到的拟填补值X_p-1，2-X_p+n+1，2；

步骤2-6：将线性回归得到的拟填补值X_p+1，2-X_p+n-1，2作为待计算拟偏差的填YB_p+1-YB_p+n-1；

步骤3-1：将步骤2中得到的改性双基推进剂制备质量数据线性回归拟填补值X_p，2-X_p+n，2再次作为待填补值，填补方法为以X_p-1，2和X_p+n+1，2为基础值，利用公式(1)对待填补值进行第二次线性插值，得到拟填补值为X_p，3-X_p+n，3；

步骤3-2：将通过对改性双基推进剂制备质量数据在线性回归得到拟填补值的基础上进行第二次线性插值拟填补X_p，3-X_p+n，，作为待计算拟偏差的值YC_p+1-YC_p+n-1；

步骤4-1：根据待计算拟偏差的值YC_p+1-YC_p+n-1和YB_p+1-YB_p+n-1利用公式(3)计算拟偏差值Δ2：

Δ2＝YC_m-YB_n(p+1＜m＜p+n-1) (3)

步骤4-2：根据拟偏差值Δ2以及待去除真实偏差的值YA_p+1-YA_p+n-1和待计算拟偏差的值YB_p+1-YB_p+n-1利用公式(4)得到真实偏差值Δ1：

通过公式(5)计算改性双基推进剂制备质量数据中缺失值的真正填补值X_p-X_p+n：

X_i＝YA_i-Δ1_i (5)

步骤6-1：将对改性双基推进剂制备质量数据中连续缺失值进行直接线性差值所得到的数据集X＝{X_p，xian，X_p+1，xian，…，X_p+n，xian}(2＜n＜5)利用公式(6)进行精准度计算：

其中，RMSE1为对改性双基推进剂制备质量数据直接基于线性插值得到填补值的精准度，n为缺失值数量，X_pred为直接线性插值得到的数据集X＝{X_p，xian，X_p+1，xian，…，X_p+n，xian}(2＜n＜5)，X(i)为缺失值的真实数据；

步骤6-2：对改性双基推进剂制备质量数据中连续缺失值填补值X_p-X_p+n同样利用公式(6)计算精准度，表示为RMSE2；

步骤6-3：算法结束，输出改性双基推进剂制备质量数据中连续缺失值的填补值X＝X_p，X_p+1，…，X_p+n(2＜n＜5)以及精准度RMSE2。