CN104267610B

CN104267610B - 高精度的高炉冶炼过程异常数据检测及修补方法

Info

Publication number: CN104267610B
Application number: CN201410435956.4A
Authority: CN
Inventors: 张勇; 赵哲; 刘丕亮; 孙采鹰; 崔桂梅
Original assignee: Inner Mongolia University of Science and Technology
Current assignee: Inner Mongolia University of Science and Technology
Priority date: 2014-08-29
Filing date: 2014-08-29
Publication date: 2017-05-17
Anticipated expiration: 2034-08-29
Also published as: CN104267610A

Abstract

本发明提供了一种高精度的高炉冶炼过程异常数据检测及修补方法。该方法首先通过全局统计获取相关指标，进而发现可能出现问题的数据的时间点，然后在相关时间点上具体分析数据的斜率变化情况，最终通过局部与全局的两种统计与分析对比达到对异常数据的准确认识。本发明针对高炉数据采用自回归时间序列模型对问题数据进行修补，在模型参数估计上选用收敛速度较快的广义多新息最小二乘算法，给出了样本数据长度、多新息量及模型阶次的选择方法。该发明解决了常规检测方法在高炉过程数据异常值检测时存在的误检，以及均值插补法在对高炉炉温异常数据修补时存在的精度低的问题。本发明还可应用于其他过程数据测检测及修补。

Description

高精度的高炉冶炼过程异常数据检测及修补方法

技术领域

本发明涉及一种高精度的过程记录数据的异常值检测和修补方法，涉及高炉冶炼生产记录数据中的异常值(“缺失值”是异常值的一个特殊情况，故本说明书将“缺失值”也做异常值处理)的检测及修补，同也可用于生物医学，通信，交通，勘探，造纸，化工，冶金等复杂工业过程，航空航天等多种领域的数据异常值的检测及修补。

背景技术

过程数据是系统建模、控制及优化的核心依据，受人为因素、环境及不可抗拒的突发事件等因素影响，过程记录数据存在数据缺失、异常现象。过程数据中异常值的检测及修补，是基于数据驱动的建模、优化及控制的前提，是一类广泛存在于各种工业过程中的普遍性问题。在复杂生产过程智能建模、控制与优化研究领域，针对过程数据中存在的异常值检测及修补问题，常用的方法为3σ检测和均值插补方法(桂卫华，阳春华.复杂有色冶金生产过程智能建模、控制与优化[M].科学出版社，2010:80；李静.基于数据挖掘的高炉铁水温度建模与预报[D].内蒙古科技大学硕士学位论文，2013)。在信息和数据时代，高炉数据的完备性及准确性对于高炉操作的影响是至关重要的，因此，要保障炉况稳定顺行，降低能耗，首先需要做的就是准确的分析和处理高炉数据。常规的检测方法易把重要的或者关键的数据误检甚至误剔除，如高炉在停炉、休风、检修、及开炉时，炉况波动较大，数据变化也大，常规的检测法易将反应高炉暂态变化的关键数据误剔除。常用的增长量推算法、发展速度推算法、平滑法和差值估算法等数据插补方法，对于单点数据的缺失有一定的估算效果，但对于连续数据的缺失，其修补精度往往无法满足建模、优化及控制的需要。自回归时间序列模型是建模时常用的一种方法，在数据修补上受参数训练等约束条件限制鲜有应用，考虑到自回归模型的简单、便捷及运算量小的特点，本发明专利在突破部分约束条件限制的情况下应用自回归时间序列模型对异常数据进行修补。

在复杂的高炉炼铁过程中，过程采集并记录的数据成千上万，其中炉温是最重要的一类数据，也是最具有代表性的一类数据。因此，本发明以高炉炉温为数据主要研究对象，针对常规异常数据的检测及修补方法存在的漏检或误检，修补精度低等问题，提出一种高精度的高炉冶炼过程异常数据检测及修补方法。本发明的提出对于高炉操作，高炉建模、优化及控制，以及更大限度的实现高炉冶炼过程的节能、减排以及性能指标优化具有十分重要的意义。

发明内容

本发明的目的是：针对3σ检测方法在高炉过程数据异常值检测时存在的误检，以及均值插补法在对高炉炉温异常数据修补时存在的精度低的问题，提出一种采用全局与局部相结合的异常数据检测新方法和基于自回归时间序列模型的数据修补新方法。

为了实现上述目的，本发明通过采用全局与局部相统一的思想对3σ检测方法进行改进；在异常数据修补时，采用自回归时间序列模型对异常数据修补，同时考虑到自回归模型在参数训练时存在完备数据稀少的可能性，本发明采用广义最小二乘方法对模型参数训练。

(1)3σ异常值检测新方法：

对于表征高炉炉温的变量，铁水温度[Thm]、铁水硅含量[Si]、铁水硫含量[S]、铁水钛含量[Ti]等高炉过程采样数据。以k表征高炉出铁铁次，L表征采集数据的长度，则样本数据{y(1)，y(2)，…y(k)，…y(L)}为表征炉温([Thm]、[Si]、[S]、[Ti]等)的时间序列。记μ为样本均值：σ²为样本偏差，3σ异常值检测的常规方法对于y(k)值不在μ±3σ区间内的即认为其为异常值，可找到其异常值位置并对其进行剔除。由于高炉在停炉，休风，检修及开炉时，炉况波动较大，数据变化也大，3σ异常值检测的常规方法会对正常数据造成误剔除。如表1，采用3σ异常值检测的常规方法会造成正常的853，854以及855批铁次所对应的铁水温度数据被误剔除。

表1正常的铁水温度数据

针对3σ异常值检测的常规方法对于高炉这种高度复杂过程的不合理性，结合高炉冶炼过程的大惯性和慢时变的特点，引入一种斜率变化与常规3σ准则相互结合来判断炉温超出μ±3σ范围是否由异常值引起的方法。异常值前后时间序列的斜率会发生突变，而正常值的斜率不会突变，或者仅有一方的斜率发生渐变。本发明先用粗尺度对整体数据共性进行认识，计算L组数据的均值μ及偏差σ，并记录可能得异常数据所对应的不同铁次x_i，然后在不同的铁次x_i附近再细尺度讨论数据斜率的变化特点，最终通过粗细两种尺度对比达到对异常数据的准确认识。

(2)自回归时间序列模型数据修补原理如下：

对于高炉炉温的过程采样异常数据，以x_i表征异常铁次，v(x_i)为随机白噪声时间序列，则异常数据y(x_i)值可由异常数据的前几个时刻数据并依据自回归时间序列模型修复：

y(x_i)＝a₁y(x_i-1)+a₂y(x_i-2)+v(x_i)，

考虑高炉数据特点，此处y(x_i)值可由异常数据的前两个时刻数据并依据二阶自回归模型修复，其中a_i(i＝1，2)为模型参数，由铁次x_i前的正常高炉炉温样本数据{y(1)，y(2)，…y(x_i-1)}训练可得。

本发明适用于高炉冶炼过程异常数据的检测与数据修补，同时本专利的思想可用于存在异常数据的生物医学，通信，勘探，化工过程，航空航天等多种领域的异常数据的检测与修补。

附图说明：

图1为针对表1中正常的铁水温度的记录数据，用本专利方法和常规3σ异常值检测法的对比图；

图2为针对表2的异常数据的检测及修补图；

图3为针对表3中存在人为干预下连续缺失值修补的对比图。

具体实施方式：

下面通过具体的实施对本发明的技术方案做进一步的描述。

具体步骤为：

1、检测L组高炉现场采集的样本数据{y(1)，y(2)，…y(k)，…y(L)}存在的缺失值数目m，缺失值所对应的铁次x_i，并记录由缺失值对应铁次所构成的向量M＝[x₁x₂…x_m]^T。

2、计算样本均值及偏差(缺失的数据不参与计算)，样本均值：样本偏差：

3、3σ法则对数据{y(1)，y(2)，…y(k)，…y(L)}全局检测，记录数据值在μ±3σ界外的铁次x_i,x_i即为可能出现异常数据的铁次；然后在x_i时刻作局部分析，分别计算|y(x_i)-y(x_i-1)|与|y(x_i+1)-y(x_i)|的数值，如果上述差值均大于3σ，但是|y(x_i+2)-y(x_i+1)|与|y(x_i+3)-y(x_i+2)|时刻的斜率发生渐变，则铁次x_i的记录数值y(x_i)仍为正常值，否则，铁次x_i的记录数值y(x_i)确定为异常值；如果其中一个差值在2σ范围内，则铁次x_i的记录数值y(x_i)仍为正常值。

4、以异常铁次x_i前的L_x组数据{y(x_i-L_x)，y(x_i-L_x-1)，…y(x_i-2)，y(x_i-1)}为训练样本。考虑到两高炉异常铁次可能出现的间隔，同时综合考虑计算量、参数估计和修补效果，本发明给出了模型训练数据长度L_x选择范围为50至300间的整数。在两异常铁次间的间隔允许的情况下，如果想取得更好的参数估计和修补效，则数组长度L_x应尽可能大。

5、由于模型训练数据长度L_x有可能接近50，因此本发明对自回归时间序列模型的参数用广义多新息递推最小二乘算法估计系统参数a₁，a₂:

P^-1(k)＝P^-1(K-1)+Φ(K)Φ^T(k)，

Y(k)＝[y(k)y(k-1)y(k-2)]^T，

其中为θ(k)参数向量(初始值为:)；为信息向量；P(0)＝10°I₂(I₂为单位矩阵)。

6、本专利给出的广义多新息递推最小二乘算法中多新息量维数为3，自回归模型阶次为2，综合计算量和估计效果提供多信息量的可选择范围为3到5间的整数，自回归时间序列模型的阶次为2到3间的整数。如果L_x不受限制，可以足够大，此时要获得更好的计算和估算速度，多新息量和自回归模型阶次应当尽可能接近低值；如果L_x受限制，不够大或者是接近下限，要获取较好的估算效果，多信息量和自回归模型阶次应当尽可能接近高值。

7、由异常值前两个时刻数据，通过回归模型y(x_i)＝a₁y(x_i-1)+a₂y(x_i-2)+v(x_i)计算异常或缺失数据，其中，v(x_i)为方差为3²的随机白噪声时间序列。如果异常值或缺失值是连续出现，可用回归模型滚动修补。

图1为针对表1中正常的铁水温度的记录数据，用本专利方法和常规3σ异常值检测法的对比图，其中三条虚线所界定的区间为μ±3σ的界限，实线为检测和处理后的曲线，*为原始的正常数据点。如图所示，上图为粗细两种尺度相结合的改进型3σ异常值检测法对正常数据的检测及处理，下图为用3σ异常值检测法对数据的检测及剔除，明显看出该专利技术与常规技术在正常数据处理上的不同之处。

表2存在记录失误的铁水温度数据

图2为针对表2的异常数据的检测及修补，其中上图为异常数据的检测及剔除，点画线为原始数据，实线为剔除后的数据曲线图，下图为采用自回归时间序列模型对铁次为536的单点铁水温度数据进行修补后的曲线。

图3为针对表3中存在人为干预下连续缺失值修补的对比图,用本专利提出的数据修复方法和均值修补做对比,虚线为原始正常值,上图的实线为均值修补得到的修补数据,下图实线为用本专利提出的数据修补方法获得的数据修补效果图,明显看出本专利技术能得到较好的数据修补效果。

表3人为干预部分正常铁水温度数据

Claims

1.一种高炉冶炼生产记录数据中异常值的检测及修补方法，其特征在于，所述方法包括以下两个步骤，1)通过对样本离线数据整体统计均值及方差，用常规检测方法发现可能出现问题数据的时间点，然后在具体时间点上局部分析数据的斜率变化，最终通过整体与局部两种统计与分析对比准确确定异常数据；该步骤具体为：针对高炉过程离线采集数据{y(1)，y(2)，…y(k)，…y(L)}的整体与局部统计分析相结合的异常值检测方法，其中k表征高炉出铁铁次，L表征采集数据的长度，具体为：首先，针对所采集的整体过程数据统计均值μ和方差σ²，并记录数据值在μ±3σ界外的铁次x_i，x_i为疑似出现异常值的时刻；然后在x_i时刻作局部分析，分别计算|y(x_i)-y(x_i-1)|与|y(x_i+1)-y(x_i)|的数值并记为局部差值，如果上述差值均大于3σ，并且y(x_i+2)与y(x_i-2)均在μ±3σ界内，则铁次x_i的记录数值y(x_i)确定为异常值；如果上述差值一方大于3σ，但是|y(x_i+2)-y(x_i+1)|与|y(x_i+3)-y(x_i+2)|时刻的斜率发生渐变，则铁次x_i的记录数值y(x_i)仍为正常值，否则，铁次x_i的记录数值y(x_i)确定为异常值；记μ为样本均值：σ为样本偏差，3σ异常值检测的常规方法对于y(k)值不在μ±3σ区间内的即认为其为异常值，可找到其异常值位置并对其进行剔除；

2)采用自回归时间序列模型对问题数据进行修补，并用广义多新息最小二乘方法训练模型参数。

2.根据权利要求1所述的检测及修补方法，其特征在于，采用所述自回归时间序列模型对问题数据进行修补的方法，具体为：首先根据实际情况选取异常数据点前面的L_x组数据,并用广义多新息最小二乘方法训练自回归模型y(x_i)＝a₁y(x_i-1)+a₂y(x_i-2)+v(x_i)，其中x_i表征异常铁次，v(x_i)为随机白噪声时间序列，y(x_i)为异常数据，然后再通过回归模型计算异常或缺失数据。

3.根据权利要求2所述的检测及修补方法，其特征在于，所述模型训练样本数据长度L_x的选择方法，应当考虑两高炉异常铁次可能出现的间隔，同时综合考虑计算量、参数估计和修补效果，最终确定样本数据长度L_x。

4.根据权利要求3所述的检测及修补方法，其特征在于，所述模型训练样本数据长度L_x为50至300间的整数，在两高炉异常铁次间的间隔允许的情况下，如果要获得较好的参数估计和修补效果，则数据长度L_x应尽可能大。

5.根据权利要求2所述的检测及修补方法，其特征在于，所述多新息量的可选择范围为3到5间的整数，自回归时间序列模型的阶次为2到3间的整数，如果L_x不受限制，可以足够大，此时要获得更好的计算和估算速度，多新息量和自回归模型阶次应当尽可能接近低值；如果L_x受限制，不够大或者是接近下限，要获取较好的估算效果，多新息量和自回归模型阶次应当尽可能接近高值。