CN115145903A

CN115145903A - 一种基于生产过程的数据插补方法

Info

Publication number: CN115145903A
Application number: CN202210785411.0A
Authority: CN
Inventors: 彭刚; 曾浩正; 阮景
Original assignee: Hubei Bohua Automation System Engineering Co ltd; Huazhong University of Science and Technology
Current assignee: Hubei Bohua Automation System Engineering Co ltd; Huazhong University of Science and Technology
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2022-10-04

Abstract

本发明涉及数据插补领域，具体为一种基于生产过程的数据插补方法，包括以下具体步骤：S1、获取工业生产过程中设备运行产生的数据；S2、判断数据缺失时间窗口大小；若数据缺失时间窗口小于设定值，则采用改进的MiceForest插补方法对生产过程数据进行短时缺失数据的数据插补；若数据缺失时间窗口大于设定值，则对生产过程中出现长时数据缺失的情况，采用特征工程建设以及一维多项式插值。本发明采用了MiceForest插补模型，提出了预剪枝、MiceForest决策树梯度提升和迭代增加的解决方案，提高了生产过程的数据缺失插补准确率。

Description

一种基于生产过程的数据插补方法

技术领域

本发明涉及数据插补领域，具体涉及一种基于生产过程的数据插补方法。

背景技术

工业生产过程中的各个设备随着运行时间的推移，发生各种故障的概率逐渐增加，数据集的缺失数据也变得越来越多。及时、准确地监测工业生产过程各种设备的状态，对于生产质量和设备健康评估具有重要意义。工业生产过程设备产生的数据具有非线性、高维和数据量大等特点。

目前生产质量和设备健康评估需要完整的数据集进行研究，而针对部分缺失的数据集研究则较少。数据缺失现象的发生可能有多种原因，如传感器故障、通讯故障以及数据采集软件故障等。拥有高质量数据对于工业过程系统中的健康评估是非常重要的。使用不完整的数据集进行健康评估通常会导致漏报或误报的情况发生，这种情况对于健康评估而言是非常严重的问题。数据集中各种样本的数量差异很大，数据类别分布不均匀的情况称为数据不平衡，很难获得高质量的分析结论。因此，解决数据缺失问题，进行有效的数据插补具有重要意义。

发明内容

本发明目的是针对背景技术中存在的问题，提出一种基于生产过程的数据插补方法。

本发明的技术方案：一种基于生产过程的数据插补方法，包括以下具体步骤：

S1、获取工业生产过程中设备运行产生的数据；

S2、判断数据缺失时间窗口大小；

若数据缺失时间窗口小于设定值，则采用改进的MiceForest插补方法对生产过程数据进行短时缺失数据的数据插补；

若数据缺失时间窗口大于设定值，则对生产过程中出现长时数据缺失的情况，采用特征工程建设以及一维多项式插值。

优选的，S2中采用改进的MiceForest插补方法对生产过程数据进行短时缺失数据的数据插补的方法为：

S21、针对MiceForest中随机森林中的决策树进行梯度提升，具体步骤为：

S211、初始化目标函数

的近似F(x)，使损失函数L(y_i,γ)最小化，并由一个常数函数F₀(x)组成，其公式如下：

当对最小化问题在最陡下降步骤时，下一个基本模型的参数γ是通过线搜索计算的，再对m＝1进行到M迭代；

S212、计算伪残差：

S213、定义一个新的基本模型来将h_m(x)映射到r_im，其中该模型的训练集为

S214、应用梯度下降法和最速下降法解决一维优化问题找到γ_m，公式如下：

S215、更新模型，并进入下一个迭代，公式如下：

F_m(x)＝F_m-1(x)+γ_mh_m(x)

S216、迭代后，输出的结果F_m(x)为最终的预测函数；在每一轮迭代中都会计算所有样本的负梯度，拟合计算出弱分类器的权重，最终使模型更新；

S22、针对MiceForest中随机森林中的决策树的预剪枝，具体步骤为：

S221、后修剪，决策树完全构建后，自下而上对决策树进行修剪；

S222、用子树中最常用的分支来替换子树；

S23、针对MiceForest模型的迭代增加，增加迭代次数到10次。

优选的，S2中生产过程中出现长时数据缺失的情况，采用特征工程建设以及一维多项式插值的方法为：

S31、对生产过程长时数据缺失进行一维多项式插值；

S32、对生产过程长时数据缺失进行特征工程建设；具体包括：

S321、时间序列折射；

S322、一维操作；

S323、功能组合。

与现有技术相比，本发明的上述技术方案具有如下有益的技术效果：

本发明提供的基于生产过程的数据插补方法能实现生产过程的数据缺失插补，采用了MiceForest插补模型，提出了预剪枝、MiceForest决策树梯度提升和迭代增加的解决方案，提高了插补准确率；另外，发明还提出了针对长时数据缺失的一维多项式插值的处理方法，对生产过程长时缺失数据进行特征工程建设。

附图说明

图1为本发明提出的一种实施例的流程图。

图2为原始MiceForest短时插补效果图。

图3为改进的MiceForest方法插补效果图。

具体实施方式

实施例一

如图1所示，本发明提出的一种基于生产过程的数据插补方法，包括以下具体步骤：

S1、获取工业生产过程中设备运行产生的数据；

S2、判断数据缺失时间窗口大小；

实施例二

本发明提出的一种基于生产过程的数据插补方法，相较于实施例一，本实施例S2中采用改进的MiceForest插补方法对生产过程数据进行短时缺失数据的数据插补的方法为：

S211、初始化目标函数

S212、计算伪残差：

S215、更新模型，并进入下一个迭代，公式如下：

F_m(x)＝F_m-1(x)+γ_mh_m(x)

S222、用子树中最常用的分支来替换子树；预修剪可能会过早地终止决策树的生长，而后修剪通常会产生更好的结果；另一方面，构建决策树的某些部分所消耗的计算精力被浪费在后修剪中；

S23、针对MiceForest模型的迭代增加，增加迭代次数到10次；

原始MiceForest插补一般作3至5次的迭代，而对于生产过程数据插补来说一般不太适用于小样本数据集的解法，所以在原有基础上进行迭代次数的增加，发现当对样本迭代次数增加到6次时，样本结果开始发生收敛，RMSE值效果开始变好，考虑到数据集数据条目数量级过大，所以增加迭代次数到10次。

具体例一

选择某水泥生产公司生产过程数据，按每5分钟取1条快照数据(采样频率：秒)，无异常情况的数据作为完整数据集。

通常，测试集与可观测体积的比值不超过15％，以确保有足够的数据点进行插值。由于数据时间序列的规律性，对完整数据集中每条样本随机抽取10％的非连续数据设为缺失值，生成短时数据缺失的数据集。采用原始MiceForest对健康设备运行缺失测试集进行短时插补得到原始MiceForest短时插补插补效果图，如图2所示；

从短时数据缺失插补效果图可以分析出：按照原始的MiceForest进行短时插补效果并不理想，其本质原因是原MiceForest插补针对的是具有一定的周期性变化的小样本数据集，数据属性与属性间关系比较紧密。而对于生产过程短时缺失数据而言只是将不同日期的数据划分为不同的列将数据进行分类预处理，列与列之间并没有明显的关系，且整个生产过程测试集并没有较明显的周期性变化；

所以需要对原始MiceForest插补法进行改进，本实施例采用改进的MiceForest进行短时数据缺失插补，可以得到更好的插补效果。通过对MiceForest中的决策树进行梯度提升后减少了方差和偏差的影响，使插补结果得到了显著提升；在进行预剪枝后，可以得出插补模型拟合效果增强；由于进行了梯度提升和预剪枝的改进，会发现需要进行一定的迭代增加，经过实验可以得出当迭代到八次后使实验结果更加准确，而原MiceForest模型经过5次迭代基本拟合，还是体现出改进前后插补模型的不同之处；如图3为改进的MiceForest方法插补效果图；

图3与图2相比可以从插补效果图看出改进后的MiceForest插补模型不论是数据上还是精度上都有显著的提升。具体提升模型评价标准的数值如表1，针对生产过程短时缺失数据的几种插补方法对比结果如表2；

表1原MiceForest与改进的MiceForest模型评价标准对比

在表1中列出了改进前后的MiceForest的回归精度指标，可知晓改进后的MiceForest模型对比原始MiceForest插补方法针对生产过程短时缺失数据在数据的精确程度相对较高，具有更加优秀的插补精度。同时证明了对于MiceForest模型来说有效增加迭代次数能使得插补效果得到一定的提升。

表2针对生产过程短时缺失数据的几种插补方法对比结果

表2列出了改进后的MiceForest与其他常用插补方法回归精度指标的对比，改进后的MiceForest模型对比其他常用的插补方法针对生产过程短时缺失数据在数据的精确程度相对较高，具有更加优秀的插补精度。同时从R²指标可以看出改进的MiceForest在针对生产过程缺失数据插补的模型拟合度上与几种常用的插补方法效果基本相同。

实施例三

本发明提出的一种基于生产过程的数据插补方法，相较于实施例一，本实施例S2中生产过程中出现长时数据缺失的情况，采用特征工程建设以及一维多项式插值的方法为：

S31、对生产过程长时数据缺失进行一维多项式插值，具体包括：

S311、使用基于单个变量内时间点之间的顺序关系的一维多项式插值方法；

S312、引入了先进的聚类算法，如K-means使用可观察这个为了分析时间序列数据的连续不断的生产，以预测剩余的不可观察的变量；基于不同变量之间的依赖性，聚类算法可以获得较高的计算精度，但它不能适应完全不可观测的数据集，这是需要第一阶段的可观测集的原因

S313、一维多项式插值方法是第一阶段的数学基础，它能够找到一条经过考虑所有数据样本的连续曲线，并利用拟合曲线预测相应时间点的缺失值。其核心思想是找到具有最高计算精度的多项式方程的最优度；

S32、对生产过程长时数据缺失进行特征工程建设，具体包括：

S321、时间序列折射，在一个公共的时间序列数据集中，每一行在一个时间点记录所有输入特征和目标变量的值；每一列代表一个特性，并随时记录它的所有值；在大多数监督学习算法中，目标值的预测仅基于当前时间点-行的输入值，这表明在数据挖掘过程中忽略了关于时间的重要信息，因为所有与时间相关的信息都被记录在列中；因此，需要对时间序列数据集进行重构，以使机器学习模型能够识别与时间相关的信息；

经过重构后，将前n个周期的信息包含在一个数据样本中，这适用于一些机器学习模型，如随机森林；跟踪返回步骤n是重构步骤的核心参数，它决定了从当前时间点追踪到多少个时间段；显然，追溯很长一段时间来考虑许多冗余的特性是不明智的；如果跟踪追溯的步长太小，则时间关系对于机器学习来说不够清楚。因此，这里可以使用交叉验证的方法来确定最优的跟踪后退步骤；

针对改进的MiceForest模型采取k折交叉验证的方法，由于数据集数据较大，取k＝5，以减少计算时间；其中训练数据和验证数据被随机分割；用不同的训练数据训练了5个具有相同超参数的模型；然后，根据五种模型对其自身验证数据的平均精度值，可以计算出当前超参数组合的预测性能；这种k折交叉验证技术使在训练阶段内比较模型性能成为可能，并可用于模型调优；

S322、一维操作，基于单一独立的特征构造新特征；所提到的时间序列重构也可以包含在这个概念中；一维操作主要有两个方向，即时间相关构造和纯数学构造；首先，利用重构结构可以构造其他与时间序列相关的新特征，如最后n个周期的平均值、最大值和最小值，这是时域上的一种数据离散化；此外，通过时间轴推导计算的变化率对于一些特征是有意义的；相反，可以实现一些特征的集成来实现特征构造；

例如，在水泥加工中，通过对温度，压强等数据变化分析，可以实时测量出在一定的时间段内系统的变化；

S323、功能组合，该组合的主要方法是基本的算术和微积分；加减法通常适用于具有相同单元的特征；例如，在连续生产中，一个处理参数有一个手动设定值和一个传感器采集的实际值，它们之间的减法只是控制误差，这是生产系统在线维护的一个重要因素；除法运算对于计算比率或其他无量纲特征是很有用的。

具体例二

选择某水泥生产过程连续10天的运行数据，按每5分钟取1条快照数据(采样频率：秒)作为完整数据集，对完整数据集中每条样本随机截取10％的连续数据设为缺失值，并将其作为长时数据缺失插补的测试集。

改进后的MiceForest插补方法与其他常用插补方法针对长时数据缺失的对比结果，如实表3所示。

表3改进后的MiceForest插补方法与其他常用插补方法针对长时数据缺失的对比结果

表3中从统计数据的角度评估改进后的MiceForest模型。RMSE指标证明了改进后的MiceForest模型对比其他常用的插补方法在生产过程长时缺失数据插补上的优势。同时从R²指标可以看出改进的MiceForest插补方法在针对生产过程缺失数据插补的模型拟合度上的优势。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于此，在所属技术领域的技术人员所具备的知识范围内，在不脱离本发明宗旨的前提下还可以作出各种变化。