CN115145903A - 一种基于生产过程的数据插补方法 - Google Patents

一种基于生产过程的数据插补方法 Download PDF

Info

Publication number
CN115145903A
CN115145903A CN202210785411.0A CN202210785411A CN115145903A CN 115145903 A CN115145903 A CN 115145903A CN 202210785411 A CN202210785411 A CN 202210785411A CN 115145903 A CN115145903 A CN 115145903A
Authority
CN
China
Prior art keywords
data
production process
interpolation
missing
miceforest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210785411.0A
Other languages
English (en)
Inventor
彭刚
曾浩正
阮景
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei Bohua Automation System Engineering Co ltd
Huazhong University of Science and Technology
Original Assignee
Hubei Bohua Automation System Engineering Co ltd
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Bohua Automation System Engineering Co ltd, Huazhong University of Science and Technology filed Critical Hubei Bohua Automation System Engineering Co ltd
Priority to CN202210785411.0A priority Critical patent/CN115145903A/zh
Publication of CN115145903A publication Critical patent/CN115145903A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Abstract

本发明涉及数据插补领域,具体为一种基于生产过程的数据插补方法,包括以下具体步骤:S1、获取工业生产过程中设备运行产生的数据;S2、判断数据缺失时间窗口大小;若数据缺失时间窗口小于设定值,则采用改进的MiceForest插补方法对生产过程数据进行短时缺失数据的数据插补;若数据缺失时间窗口大于设定值,则对生产过程中出现长时数据缺失的情况,采用特征工程建设以及一维多项式插值。本发明采用了MiceForest插补模型,提出了预剪枝、MiceForest决策树梯度提升和迭代增加的解决方案,提高了生产过程的数据缺失插补准确率。

Description

一种基于生产过程的数据插补方法
技术领域
本发明涉及数据插补领域,具体涉及一种基于生产过程的数据插补方法。
背景技术
工业生产过程中的各个设备随着运行时间的推移,发生各种故障的概率逐渐增加,数据集的缺失数据也变得越来越多。及时、准确地监测工业生产过程各种设备的状态,对于生产质量和设备健康评估具有重要意义。工业生产过程设备产生的数据具有非线性、高维和数据量大等特点。
目前生产质量和设备健康评估需要完整的数据集进行研究,而针对部分缺失的数据集研究则较少。数据缺失现象的发生可能有多种原因,如传感器故障、通讯故障以及数据采集软件故障等。拥有高质量数据对于工业过程系统中的健康评估是非常重要的。使用不完整的数据集进行健康评估通常会导致漏报或误报的情况发生,这种情况对于健康评估而言是非常严重的问题。数据集中各种样本的数量差异很大,数据类别分布不均匀的情况称为数据不平衡,很难获得高质量的分析结论。因此,解决数据缺失问题,进行有效的数据插补具有重要意义。
发明内容
本发明目的是针对背景技术中存在的问题,提出一种基于生产过程的数据插补方法。
本发明的技术方案:一种基于生产过程的数据插补方法,包括以下具体步骤:
S1、获取工业生产过程中设备运行产生的数据;
S2、判断数据缺失时间窗口大小;
若数据缺失时间窗口小于设定值,则采用改进的MiceForest插补方法对生产过程数据进行短时缺失数据的数据插补;
若数据缺失时间窗口大于设定值,则对生产过程中出现长时数据缺失的情况,采用特征工程建设以及一维多项式插值。
优选的,S2中采用改进的MiceForest插补方法对生产过程数据进行短时缺失数据的数据插补的方法为:
S21、针对MiceForest中随机森林中的决策树进行梯度提升,具体步骤为:
S211、初始化目标函数
Figure BDA0003725142730000021
的近似F(x),使损失函数L(yi,γ)最小化,并由一个常数函数F0(x)组成,其公式如下:
Figure BDA0003725142730000022
当对最小化问题在最陡下降步骤时,下一个基本模型的参数γ是通过线搜索计算的,再对m=1进行到M迭代;
S212、计算伪残差:
Figure BDA0003725142730000023
S213、定义一个新的基本模型来将hm(x)映射到rim,其中该模型的训练集为
Figure BDA0003725142730000024
S214、应用梯度下降法和最速下降法解决一维优化问题找到γm,公式如下:
Figure BDA0003725142730000025
S215、更新模型,并进入下一个迭代,公式如下:
Fm(x)=Fm-1(x)+γmhm(x)
S216、迭代后,输出的结果Fm(x)为最终的预测函数;在每一轮迭代中都会计算所有样本的负梯度,拟合计算出弱分类器的权重,最终使模型更新;
S22、针对MiceForest中随机森林中的决策树的预剪枝,具体步骤为:
S221、后修剪,决策树完全构建后,自下而上对决策树进行修剪;
S222、用子树中最常用的分支来替换子树;
S23、针对MiceForest模型的迭代增加,增加迭代次数到10次。
优选的,S2中生产过程中出现长时数据缺失的情况,采用特征工程建设以及一维多项式插值的方法为:
S31、对生产过程长时数据缺失进行一维多项式插值;
S32、对生产过程长时数据缺失进行特征工程建设;具体包括:
S321、时间序列折射;
S322、一维操作;
S323、功能组合。
与现有技术相比,本发明的上述技术方案具有如下有益的技术效果:
本发明提供的基于生产过程的数据插补方法能实现生产过程的数据缺失插补,采用了MiceForest插补模型,提出了预剪枝、MiceForest决策树梯度提升和迭代增加的解决方案,提高了插补准确率;另外,发明还提出了针对长时数据缺失的一维多项式插值的处理方法,对生产过程长时缺失数据进行特征工程建设。
附图说明
图1为本发明提出的一种实施例的流程图。
图2为原始MiceForest短时插补效果图。
图3为改进的MiceForest方法插补效果图。
具体实施方式
实施例一
如图1所示,本发明提出的一种基于生产过程的数据插补方法,包括以下具体步骤:
S1、获取工业生产过程中设备运行产生的数据;
S2、判断数据缺失时间窗口大小;
若数据缺失时间窗口小于设定值,则采用改进的MiceForest插补方法对生产过程数据进行短时缺失数据的数据插补;
若数据缺失时间窗口大于设定值,则对生产过程中出现长时数据缺失的情况,采用特征工程建设以及一维多项式插值。
实施例二
本发明提出的一种基于生产过程的数据插补方法,相较于实施例一,本实施例S2中采用改进的MiceForest插补方法对生产过程数据进行短时缺失数据的数据插补的方法为:
S21、针对MiceForest中随机森林中的决策树进行梯度提升,具体步骤为:
S211、初始化目标函数
Figure BDA0003725142730000041
的近似F(x),使损失函数L(yi,γ)最小化,并由一个常数函数F0(x)组成,其公式如下:
Figure BDA0003725142730000042
当对最小化问题在最陡下降步骤时,下一个基本模型的参数γ是通过线搜索计算的,再对m=1进行到M迭代;
S212、计算伪残差:
Figure BDA0003725142730000043
S213、定义一个新的基本模型来将hm(x)映射到rim,其中该模型的训练集为
Figure BDA0003725142730000051
S214、应用梯度下降法和最速下降法解决一维优化问题找到γm,公式如下:
Figure BDA0003725142730000052
S215、更新模型,并进入下一个迭代,公式如下:
Fm(x)=Fm-1(x)+γmhm(x)
S216、迭代后,输出的结果Fm(x)为最终的预测函数;在每一轮迭代中都会计算所有样本的负梯度,拟合计算出弱分类器的权重,最终使模型更新;
S22、针对MiceForest中随机森林中的决策树的预剪枝,具体步骤为:
S221、后修剪,决策树完全构建后,自下而上对决策树进行修剪;
S222、用子树中最常用的分支来替换子树;预修剪可能会过早地终止决策树的生长,而后修剪通常会产生更好的结果;另一方面,构建决策树的某些部分所消耗的计算精力被浪费在后修剪中;
S23、针对MiceForest模型的迭代增加,增加迭代次数到10次;
原始MiceForest插补一般作3至5次的迭代,而对于生产过程数据插补来说一般不太适用于小样本数据集的解法,所以在原有基础上进行迭代次数的增加,发现当对样本迭代次数增加到6次时,样本结果开始发生收敛,RMSE值效果开始变好,考虑到数据集数据条目数量级过大,所以增加迭代次数到10次。
具体例一
选择某水泥生产公司生产过程数据,按每5分钟取1条快照数据(采样频率:秒),无异常情况的数据作为完整数据集。
通常,测试集与可观测体积的比值不超过15%,以确保有足够的数据点进行插值。由于数据时间序列的规律性,对完整数据集中每条样本随机抽取10%的非连续数据设为缺失值,生成短时数据缺失的数据集。采用原始MiceForest对健康设备运行缺失测试集进行短时插补得到原始MiceForest短时插补插补效果图,如图2所示;
从短时数据缺失插补效果图可以分析出:按照原始的MiceForest进行短时插补效果并不理想,其本质原因是原MiceForest插补针对的是具有一定的周期性变化的小样本数据集,数据属性与属性间关系比较紧密。而对于生产过程短时缺失数据而言只是将不同日期的数据划分为不同的列将数据进行分类预处理,列与列之间并没有明显的关系,且整个生产过程测试集并没有较明显的周期性变化;
所以需要对原始MiceForest插补法进行改进,本实施例采用改进的MiceForest进行短时数据缺失插补,可以得到更好的插补效果。通过对MiceForest中的决策树进行梯度提升后减少了方差和偏差的影响,使插补结果得到了显著提升;在进行预剪枝后,可以得出插补模型拟合效果增强;由于进行了梯度提升和预剪枝的改进,会发现需要进行一定的迭代增加,经过实验可以得出当迭代到八次后使实验结果更加准确,而原MiceForest模型经过5次迭代基本拟合,还是体现出改进前后插补模型的不同之处;如图3为改进的MiceForest方法插补效果图;
图3与图2相比可以从插补效果图看出改进后的MiceForest插补模型不论是数据上还是精度上都有显著的提升。具体提升模型评价标准的数值如表1,针对生产过程短时缺失数据的几种插补方法对比结果如表2;
表1原MiceForest与改进的MiceForest模型评价标准对比
Figure BDA0003725142730000071
在表1中列出了改进前后的MiceForest的回归精度指标,可知晓改进后的MiceForest模型对比原始MiceForest插补方法针对生产过程短时缺失数据在数据的精确程度相对较高,具有更加优秀的插补精度。同时证明了对于MiceForest模型来说有效增加迭代次数能使得插补效果得到一定的提升。
表2针对生产过程短时缺失数据的几种插补方法对比结果
Figure BDA0003725142730000072
表2列出了改进后的MiceForest与其他常用插补方法回归精度指标的对比,改进后的MiceForest模型对比其他常用的插补方法针对生产过程短时缺失数据在数据的精确程度相对较高,具有更加优秀的插补精度。同时从R2指标可以看出改进的MiceForest在针对生产过程缺失数据插补的模型拟合度上与几种常用的插补方法效果基本相同。
实施例三
本发明提出的一种基于生产过程的数据插补方法,相较于实施例一,本实施例S2中生产过程中出现长时数据缺失的情况,采用特征工程建设以及一维多项式插值的方法为:
S31、对生产过程长时数据缺失进行一维多项式插值,具体包括:
S311、使用基于单个变量内时间点之间的顺序关系的一维多项式插值方法;
S312、引入了先进的聚类算法,如K-means使用可观察这个为了分析时间序列数据的连续不断的生产,以预测剩余的不可观察的变量;基于不同变量之间的依赖性,聚类算法可以获得较高的计算精度,但它不能适应完全不可观测的数据集,这是需要第一阶段的可观测集的原因
S313、一维多项式插值方法是第一阶段的数学基础,它能够找到一条经过考虑所有数据样本的连续曲线,并利用拟合曲线预测相应时间点的缺失值。其核心思想是找到具有最高计算精度的多项式方程的最优度;
S32、对生产过程长时数据缺失进行特征工程建设,具体包括:
S321、时间序列折射,在一个公共的时间序列数据集中,每一行在一个时间点记录所有输入特征和目标变量的值;每一列代表一个特性,并随时记录它的所有值;在大多数监督学习算法中,目标值的预测仅基于当前时间点-行的输入值,这表明在数据挖掘过程中忽略了关于时间的重要信息,因为所有与时间相关的信息都被记录在列中;因此,需要对时间序列数据集进行重构,以使机器学习模型能够识别与时间相关的信息;
经过重构后,将前n个周期的信息包含在一个数据样本中,这适用于一些机器学习模型,如随机森林;跟踪返回步骤n是重构步骤的核心参数,它决定了从当前时间点追踪到多少个时间段;显然,追溯很长一段时间来考虑许多冗余的特性是不明智的;如果跟踪追溯的步长太小,则时间关系对于机器学习来说不够清楚。因此,这里可以使用交叉验证的方法来确定最优的跟踪后退步骤;
针对改进的MiceForest模型采取k折交叉验证的方法,由于数据集数据较大,取k=5,以减少计算时间;其中训练数据和验证数据被随机分割;用不同的训练数据训练了5个具有相同超参数的模型;然后,根据五种模型对其自身验证数据的平均精度值,可以计算出当前超参数组合的预测性能;这种k折交叉验证技术使在训练阶段内比较模型性能成为可能,并可用于模型调优;
S322、一维操作,基于单一独立的特征构造新特征;所提到的时间序列重构也可以包含在这个概念中;一维操作主要有两个方向,即时间相关构造和纯数学构造;首先,利用重构结构可以构造其他与时间序列相关的新特征,如最后n个周期的平均值、最大值和最小值,这是时域上的一种数据离散化;此外,通过时间轴推导计算的变化率对于一些特征是有意义的;相反,可以实现一些特征的集成来实现特征构造;
例如,在水泥加工中,通过对温度,压强等数据变化分析,可以实时测量出在一定的时间段内系统的变化;
S323、功能组合,该组合的主要方法是基本的算术和微积分;加减法通常适用于具有相同单元的特征;例如,在连续生产中,一个处理参数有一个手动设定值和一个传感器采集的实际值,它们之间的减法只是控制误差,这是生产系统在线维护的一个重要因素;除法运算对于计算比率或其他无量纲特征是很有用的。
具体例二
选择某水泥生产过程连续10天的运行数据,按每5分钟取1条快照数据(采样频率:秒)作为完整数据集,对完整数据集中每条样本随机截取10%的连续数据设为缺失值,并将其作为长时数据缺失插补的测试集。
改进后的MiceForest插补方法与其他常用插补方法针对长时数据缺失的对比结果,如实表3所示。
表3改进后的MiceForest插补方法与其他常用插补方法针对长时数据缺失的对比结果
Figure BDA0003725142730000101
表3中从统计数据的角度评估改进后的MiceForest模型。RMSE指标证明了改进后的MiceForest模型对比其他常用的插补方法在生产过程长时缺失数据插补上的优势。同时从R2指标可以看出改进的MiceForest插补方法在针对生产过程缺失数据插补的模型拟合度上的优势。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于此,在所属技术领域的技术人员所具备的知识范围内,在不脱离本发明宗旨的前提下还可以作出各种变化。

Claims (3)

1.一种基于生产过程的数据插补方法,其特征在于,包括以下具体步骤:
S1、获取工业生产过程中设备运行产生的数据;
S2、判断数据缺失时间窗口大小;
若数据缺失时间窗口小于设定值,则采用改进的MiceForest插补方法对生产过程数据进行短时缺失数据的数据插补;
若数据缺失时间窗口大于设定值,则对生产过程中出现长时数据缺失的情况,采用特征工程建设以及一维多项式插值。
2.根据权利要求1所述的一种基于生产过程的数据插补方法,其特征在于,S2中采用改进的MiceForest插补方法对生产过程数据进行短时缺失数据的数据插补的方法为:
S21、针对MiceForest中随机森林中的决策树进行梯度提升,具体步骤为:
S211、初始化目标函数
Figure FDA0003725142720000011
的近似F(x),使损失函数L(yi,γ)最小化,并由一个常数函数F0(x)组成,其公式如下:
Figure FDA0003725142720000012
当对最小化问题在最陡下降步骤时,下一个基本模型的参数γ是通过线搜索计算的,再对m=1进行到M迭代;
S212、计算伪残差:
Figure FDA0003725142720000013
S213、定义一个新的基本模型来将hm(x)映射到rim,其中该模型的训练集为
Figure FDA0003725142720000014
S214、应用梯度下降法和最速下降法解决一维优化问题找到γm,公式如下:
Figure FDA0003725142720000021
S215、更新模型,并进入下一个迭代,公式如下:
Fm(x)=Fm-1(x)+γmhm(x)
S216、迭代后,输出的结果Fm(x)为最终的预测函数;在每一轮迭代中都会计算所有样本的负梯度,拟合计算出弱分类器的权重,最终使模型更新;
S22、针对MiceForest中随机森林中的决策树的预剪枝,具体步骤为:
S221、后修剪,决策树完全构建后,自下而上对决策树进行修剪;
S222、用子树中最常用的分支来替换子树;
S23、针对MiceForest模型的迭代增加,增加迭代次数到10次。
3.根据权利要求1所述的一种基于生产过程的数据插补方法,其特征在于,S2中生产过程中出现长时数据缺失的情况,采用特征工程建设以及一维多项式插值的方法为:
S31、对生产过程长时数据缺失进行一维多项式插值;
S32、对生产过程长时数据缺失进行特征工程建设。
CN202210785411.0A 2022-07-01 2022-07-01 一种基于生产过程的数据插补方法 Pending CN115145903A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210785411.0A CN115145903A (zh) 2022-07-01 2022-07-01 一种基于生产过程的数据插补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210785411.0A CN115145903A (zh) 2022-07-01 2022-07-01 一种基于生产过程的数据插补方法

Publications (1)

Publication Number Publication Date
CN115145903A true CN115145903A (zh) 2022-10-04

Family

ID=83410759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210785411.0A Pending CN115145903A (zh) 2022-07-01 2022-07-01 一种基于生产过程的数据插补方法

Country Status (1)

Country Link
CN (1) CN115145903A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116010833A (zh) * 2023-03-27 2023-04-25 中科航迈数控软件(深圳)有限公司 基于缺失数据补全的数控机床健康状态评估方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116010833A (zh) * 2023-03-27 2023-04-25 中科航迈数控软件(深圳)有限公司 基于缺失数据补全的数控机床健康状态评估方法及装置

Similar Documents

Publication Publication Date Title
CN109816221B (zh) 项目风险决策方法、装置、计算机设备和存储介质
US9047559B2 (en) Computer-implemented systems and methods for testing large scale automatic forecast combinations
CN112364975B (zh) 基于图神经网络的终端运行状态预测方法及系统
CN110717535B (zh) 一种基于数据分析处理系统的自动建模方法及系统
US20060173668A1 (en) Identifying data patterns
Mehr et al. Wavelet packet-genetic programming: A new model for meteorological drought hindcasting
CA3186873A1 (en) Activity level measurement using deep learning and machine learning
Samuel et al. Crop price prediction system using machine learning algorithms
CN115145903A (zh) 一种基于生产过程的数据插补方法
Patil et al. Rainfall prediction using linear approach & neural networks and crop recommendation based on decision tree
Horelu et al. Forecasting techniques for time series from sensor data
Tyass et al. Wind speed prediction based on statistical and deep learning models
Ratakonda et al. Seasonal trend analysis on multi-variate time series data
Wang et al. A Transformer-based multi-entity load forecasting method for integrated energy systems
JP7139625B2 (ja) 要因分析システム、要因分析方法およびプログラム
Alam et al. Remaining useful life estimation using event data
CN113569479A (zh) 石窟寺岩体裂隙发育长期多步控制方法、装置及存储介质
CN114065996A (zh) 基于变分自编码学习的交通流预测方法
Mondal et al. Multivariate Time Series Forecasting to Forecast Weight Dynamics
Islam et al. Machine Learning Models to Predict Soil Moisture for Irrigation Schedule
Bidyuk et al. Features of application of Monte Carlo method with Markov chain algorithms in Bayesian data analysis
Chen et al. An improved correlation-based just-in-time modeling method using dynamic partial least squares and adaptive local domain partition
US11769100B2 (en) Leading indicators and monitor business KPIs and metrics for preemptive action
CN114548535B (zh) 一种污水处理过程参数长窗预测方法
CN116719519B (zh) 银行领域的广义线性模型训练方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination