CN112418270A

CN112418270A - 一种高炉综合状态预测方法及系统

Info

Publication number: CN112418270A
Application number: CN202011161469.5A
Authority: CN
Inventors: 刘小杰; 李宏扬; 李欣; 卜象平; 李红玮; 邓勇; 吕庆; 刘然
Original assignee: Tangshan Shuyu Technology Co ltd; North China University of Science and Technology
Current assignee: Tangshan Shuyu Technology Co ltd; North China University of Science and Technology
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-02-26

Abstract

本发明涉及一种高炉综合状态预测方法及系统，涉及复杂高炉炼铁过程中不可测关键参数量化与预测领域。本发明对样本数据进行适用性检测；利用因子分析法确定符合适用性预设标准的样本数据中的公因子；根据公因子确定样本高炉综合状态指标；根据样本高炉综合状态指标利用相关分析法和AdaBoost算法建立高炉综合状态指标预测模型；将待预测的高炉生产实时数据输入高炉综合状态指标预测模型得到预测的高炉综合状态指标；根据预测的高炉综合状态指标，通过高炉综合状态分类标准得到高炉综合状态，避免根据现场技术人员的生产经验判断高炉综合状态出现的主观偏差。

Description

一种高炉综合状态预测方法及系统

技术领域

本发明涉及复杂高炉炼铁过程中不可测关键参数量化与预测领域，特别是涉及一种高炉综合状态预测方法及系统。

背景技术

高炉炼铁工序是多部门联合作业，涉及到生产工艺的多个环节。高炉属于密闭的反应器，生产过程属于“黑箱”操作，并且内部直接数据无法获得，只能通过炉外监测设备的参数间接进行控制。高炉的现场生产条件复杂，现场数据又具有噪声大、滞后性强、单位尺度不一致的特点。同时，高炉生产的目标为“高产、低耗、优质、长寿”，其表征参数多达几十个，且对于不同的生产状态没有一致的特征规律，使得对其进行数据挖掘的难度增大。高炉的综合状态关系到高炉的生产稳定与顺序，对生产效率有极大影响，如何从众多参数中找出准确表征高炉综合状态的参数是急需解决的问题。依据高炉生产目标的原则，对高炉综合状态的评价从多个方面进行综合分析，对多种高炉生产指标进行整理和分析，从多个角度综合衡量高炉，因此需要提出一种全新的量化与预测分析方法进行高炉综合状态的科学分析。

目前，对于高炉综合状态的划分并未有统一的理论依据，高炉生产主要按照现场技术人员的生产经验判断高炉综合状态，由于人为主观因素的不确定性，同时高炉生产状态的复杂多变性，往往使得人为判断出现主观性偏差，不能精准地对高炉操作及时有效的进行指导，使得高炉综合状态出现不良现象。

发明内容

本发明的目的是提供一种高炉综合状态预测方法及系统，解决了现有高炉综合状态判断存在主观性偏差的问题。

为实现上述目的，本发明提供了如下方案：

一种高炉综合状态预测方法，包括：

获取高炉不同部位状态参数的历史数据；

对所述历史数据进行预处理，得到样本数据；

对所述样本数据进行适用性检测，得到适用性检测结果；

若所述适用性检测结果符合适用性预设标准，则根据所述样本数据，利用因子分析法确定所述样本数据中的公因子；

根据所述公因子和所述公因子的方差贡献率，确定样本高炉综合状态指标；

获取所述样本高炉综合状态指标对应的所述样本数据中的历史高炉生产实时数据；

根据所述样本高炉综合状态指标和所述历史高炉生产实时数据，利用相关分析法和AdaBoost算法建立得到高炉综合状态指标预测模型；

获取待预测的高炉生产实时数据；

将所述待预测的高炉生产实时数据输入所述高炉综合状态指标预测模型，得到预测的高炉综合状态指标；

获取高炉综合状态分类标准；

根据所述预测的高炉综合状态指标，通过所述高炉综合状态分类标准，得到高炉综合状态。

可选的，所述对所述历史数据进行预处理，得到样本数据，具体包括：

删除所述历史数据中高炉休风时间段的数据，得到第一数据；

对所述第一数据中不同部位的各种状态参数的频次通过升频或降频的方法进行统一，得到第二数据；

通过均值法对所述第二数据中各种状态参数的数据缺失值进行处理，得到第三数据；

根据所述第三数据利用箱型图删除所述第三数据中的异常值，得到第四数据；

利用z-score标准化法对所述第四数据进行标准化处理，得到样本数据。

可选的，所述对所述样本数据进行适用性检测，得到适用性检测结果，具体包括：

利用皮尔逊相关系数计算所述样本数据中两种状态参数的线性相关程度，得到所述样本数据中所有状态参数之间的线性相关系数；

根据所述线性相关系数，对所述样本数据进行KMO检验，得到KMO测度；

对所述样本数据进行巴特利特球形检验，得到球形检验值；所述适用性检测结果包括：所述样本数据中所有状态参数之间的线性相关系数、所述KMO测度和所述球形检验值。

可选的，所述若所述适用性检测结果符合适用性预设标准，则根据所述样本数据，利用因子分析法确定所述样本数据中的公因子，具体包括：

适用性预设标准包括：所述样本数据中所有状态参数之间的线性相关系数的绝对值大于0.5的数量大于或等于总数量的70％，KMO测度大于0.5，以及球形检验值小于0.05；

获取所述样本数据的协方差矩阵的特征值和单位正交特征向量；

根据所述特征值和所述单位正交特征向量，利用主成分法确定载荷矩阵；

利用四次方最大旋转法对所述载荷矩阵进行旋转，得到旋转因子矩阵；

根据所述旋转因子矩阵的载荷因子和所述样本数据的状态参数，确定公因子。

可选的，所述根据所述公因子和所述公因子的方差贡献率，确定样本高炉综合状态指标，具体包括：

根据所述公因子和所述公因子的方差贡献率，利用公式

确定样本高炉综合状态指标；式中，Y’表示样本高炉综合状态指标，

表示第d个公因子

的方差贡献率，

表示公因子。

可选的，所述根据所述样本高炉综合状态指标和所述历史高炉生产实时数据，利用相关分析法和AdaBoost算法建立得到高炉综合状态指标预测模型，具体包括：

根据所述样本高炉综合状态指标和所述历史高炉生产实时数据，利用MIC互信息系数法确定不同时间间隔下所述历史高炉生产实时数据与所述样本高炉综合状态指标之间的MIC相关系数；

比较所有的MIC相关系数，将最大的MIC相关系数对应的时间间隔作为高炉综合状态指标与高炉生产现场实时数据的最佳相关间隔时间；

以所述最佳相关间隔时间对应的历史高炉生产实时数据为输入，所述最佳相关间隔时间对应的历史高炉生产实时数据对应的样本高炉综合状态指标为输出，利用AdaBoost算法建立得到高炉综合状态指标预测模型。

可选的，所述获取高炉综合状态分类标准之前，还包括：

根据所述样本高炉综合状态指标，通过绘图法对高炉综合状态进行分类，得到高炉综合状态分类标准。

一种高炉综合状态预测系统，包括：

历史数据获取模块，用于获取高炉不同部位状态参数的历史数据；

预处理模块，用于对所述历史数据进行预处理，得到样本数据；

适用性检测模块，用于对所述样本数据进行适用性检测，得到适用性检测结果；

公因子确定模块，用于若所述适用性检测结果符合适用性预设标准，则根据所述样本数据，利用因子分析法确定所述样本数据中的公因子；

样本高炉综合状态指标确定模块，用于根据所述公因子和所述公因子的方差贡献率，确定样本高炉综合状态指标；

获取模块，用于获取所述样本高炉综合状态指标对应的所述样本数据中的历史高炉生产实时数据；

预测模型建立模块，用于根据所述样本高炉综合状态指标和所述历史高炉生产实时数据，利用相关分析法和AdaBoost算法建立得到高炉综合状态指标预测模型；

高炉生产实时数据获取模块，用于获取待预测的高炉生产实时数据；

高炉综合状态指标预测模块，用于将所述待预测的高炉生产实时数据输入所述高炉综合状态指标预测模型，得到预测的高炉综合状态指标；

分类标准获取模块，用于获取高炉综合状态分类标准；

高炉综合状态预测模块，用于根据所述预测的高炉综合状态指标，通过所述高炉综合状态分类标准，得到高炉综合状态。

可选的，所述预处理模块，具体包括：

删除休风数据单元，用于删除所述历史数据中高炉休风时间段的数据，得到第一数据；

统一频次单元，用于对所述第一数据中不同部位的各种状态参数的频次通过升频或降频的方法进行统一，得到第二数据；

缺失值处理单元，用于通过均值法对所述第二数据中各种状态参数的数据缺失值进行处理，得到第三数据；

异常值处理单元，用于根据所述第三数据利用箱型图删除所述第三数据中的异常值，得到第四数据；

标准化处理单元，用于利用z-score标准化法对所述第四数据进行标准化处理，得到样本数据。

可选的，所述样本高炉综合状态指标确定模块，具体包括：

样本高炉综合状态指标确定单元，用于根据所述公因子和所述公因子的方差贡献率，利用公式

表示第d个公因子

的方差贡献率，

表示公因子。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明提供了一种高炉综合状态预测方法及系统。该方法包括：获取高炉不同部位状态参数的历史数据；对历史数据进行预处理，得到样本数据；对样本数据进行适用性检测，得到适用性检测结果；若适用性检测结果符合适用性预设标准，则根据样本数据，利用因子分析法确定样本数据中的公因子；根据公因子和公因子的方差贡献率，确定样本高炉综合状态指标；获取样本高炉综合状态指标对应的样本数据中的历史高炉生产实时数据；根据样本高炉综合状态指标和历史高炉生产实时数据，利用相关分析法和AdaBoost算法建立得到高炉综合状态指标预测模型；获取待预测的高炉生产实时数据；将待预测的高炉生产实时数据输入高炉综合状态指标预测模型，得到预测的高炉综合状态指标；获取高炉综合状态分类标准；根据预测的高炉综合状态指标，通过高炉综合状态分类标准，得到高炉综合状态。本发明利用因子分析法确定样本数据中的公因子，根据公因子确定样本高炉综合状态指标，根据样本高炉综合状态指标和样本数据，利用相关分析法和AdaBoost算法建立得到高炉综合状态指标预测模型，利用高炉综合状态指标预测模型预测高炉综合状态指标，进而得到高炉综合状态，避免根据现场技术人员的生产经验判断高炉综合状态出现的主观偏差。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的高炉综合状态预测方法的流程图；

图2为本发明应用实例所提供的高炉综合状态预测方法的流程图；

图3为本发明应用实例所提供的高炉综合状态指标量化模型建立流程示意图；

图4为本发明应用实例所提供的皮尔逊相关性系数示意图；

图5为本发明应用实例所提供的高炉综合状态指标示意图；

图6为本发明应用实例所提供的高炉综合状态指标预测模型建立流程示意图；

图7为本发明应用实例所提供的预测模型的预测结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本实施例提供一种高炉综合状态预测方法，图1为本发明实施例所提供的高炉综合状态预测方法的流程图，参见图1，高炉综合状态预测方法包括：

步骤101，获取高炉不同部位状态参数的历史数据。

采集历史数据：即采集高炉不同部位状态参数的历史变量数据。

高炉生产的目标为“高产、低耗、优质、长寿”，对高炉综合状态的评价应从生产目标角度进行综合分析，选取不同部位的高炉综合状态评价参数，历史变量数据包括：理论铁、高炉利用系数、高炉焦比、煤比、小时焦炭消耗、小时煤粉消耗、熟料率、钒含量(V)、钛含量(Ti)、硅含量(Si)、硫含量(S)、全炉压差、富氧率、吨铁耗风量、鼓风动能、透气性指数、煤气利用率、热负荷、风量和铁水温度。

高炉的整个炉役周期较长，不同炉役阶段的评价指标存在一定差异，同一炉役阶段的不同时间段的生产状态也不尽相同，因此本实施例选取10个月的高炉生产参数进行分析。

步骤102，对历史数据进行预处理，得到样本数据。根据高炉操作的生产日志及冶金工艺技术，对获取的历史数据进行分析及处理，历史数据包括剔除休风数据、统一时间序列样本、缺失值处理、异常值处理和数据标准化。

步骤102具体包括：

删除历史数据中高炉休风时间段的数据，得到第一数据。剔除休风数据是指利用生产现场记录的生产日志及真实的高炉生产数据(即历史数据)将休风时间段的高炉生产数据进行剔除。在高炉正常生产活动中，需要进行必要的休风检修作业，休风时期的生产数据为异常值，故提前利用生产现场记录的生产日志及真实的高炉生产数据将休风时间段的高炉生产数据进行剔除，避免不正常参数对高炉评价指标产生不利的影响。

对第一数据中不同部位的各种状态参数的频次通过升频或降频的方法进行统一，得到第二数据。统一时间序列样本，即将高炉综合状态指标的更新频次定义为1小时，根据各项状态参数的产生特点，分别对不同频次参数采取升频或降频的方法将所有第一数据的频次转换为1小时。

铁量的产生时间点不可控，需将铁水罐储满后才能进行测量，导致相邻小时的实际铁量相差很大，故采取小时理论铁量替代真实铁量进行转换。高炉利用系数的定义为小时频次更新的高炉日产量与高炉有效容积的比值，以实现高炉利用系数的小时更新频率；本发明对高炉日产量的定义为以24h为周期的累计总铁量，即通过24h的小时理论铁量累加得到高炉日产量。由于生产条件及现有检测手段的限制，高炉铁水质量参数(如铁水温度、Si、Ti、V和S)采取产生新值后立即更新和无新值更新填充上次数据的原则。由于高炉生产的连续性，秒级产生的实时数据(如风量)及衍生量(如鼓风动能、热负荷、全炉压差、富氧率、透气性指数和煤气利用率)以1小时的时间间隔进行平均值化。对高炉生产过程中小时级的生产数据(如焦比、煤比、小时焦炭消耗、小时煤粉消耗、熟料率和吨铁耗风量)直接利用。

通过均值法对第二数据中各种状态参数的数据缺失值进行处理，得到第三数据。缺失值处理：删除缺失量大于5％的参数，利用均值法填补缺失量小于5％的参数。

对第二数据进行整体分析，若第二数据中某种状态参数的缺失值的总量小于历史数据中该状态参数总量的5％，则采用均值法对该状态参数中缺失的数据进行填充；若该状态参数的缺失值的总量大于该状态参数总量的5％，则说明该状态参数不足以支撑后续数据分析，删除该状态参数。

根据第三数据利用箱型图删除第三数据中的异常值，得到第四数据。利用箱型图，删除所有状态参数的数据中超出(Q1-1.5IQR,Q3+1.5IQR)区间的数据。利用箱型图通过统计数据分布得到上下四分位数和四分位距后，得到整体数据分布的上限(Q3+1.5IQR)和下限(Q1-1.5IQR)，其中Q1为数据下四分位数，Q3为上四分位数，IQR为四分位距，IQR＝Q3-Q1。在异常值处理过程中，需根据不同指标的具体物理含义进行区分，在正常条件下允许高炉的富氧率为0，因此不应将此情况算作异常数据。

利用z-score标准化法对第四数据进行标准化处理，得到样本数据。数据标准化是利用z-score标准化法对第四数据进行标准化处理得到样本数据。由于高炉各项状态参数的单位不一致，为了消除变量(状态参数中的样本)的量纲效应，使每个变量都具有同等的表现力，对第四数据进行z-score标准化(zero-mena normalization，0-均值标准化)处理得到样本数据，样本数据的矩阵形式为标准化矩阵X＝x_np(x_np为标准化矩阵中的元素，n为状态参数中样本的个数，p为样本数据中状态参数的种类)。z-score标准化法的公式如下：

式中，x’为标准化后的原始数据，x为原始数据，

为原始数据的均值，σ为原始数据的标准差。

步骤103，对样本数据进行适用性检测，得到适用性检测结果。适用性检测即利用皮尔逊相关性、KMO检测和Bartlett's球形检验验证样本数据的适用性，如果经皮尔逊相关性、KMO(Kaiser-Meyer-Olk)检测和Bartlett's球形检验验证样本数据不符合标准，则不使用样本数据。

步骤103具体包括：

利用皮尔逊相关系数计算样本数据中两种状态参数的线性相关程度，得到样本数据中所有状态参数之间的线性相关系数。皮尔逊相关系数是度量两个变量之间的线性相关程度，皮尔逊相关系数的计算公式为：

其中，r表示线性相关系数；x_i表示所有状态参数中状态参数x的第i个样本；

为状态参数x中样本的均值；y_i表示所有状态参数中状态参数y的第i个样本；

为状态参数y中样本的均值；n为状态参数的长度(单一原始参数的个数)。i是所计算样本的行数，即第i条数据；样本数据中的数据都是小时级的，每种状态参数的开始时间和结束时间都一样，所以每种状态参数的长度相等，若出现状态参数的数量不一致的情况以数量相对较少的状态参数的数量为准。

通过公式(2)计算样本数据中两种状态参数之间的线性相关系数r；r的取值在(-1，+1)之间，r的绝对值越大表示两种状态参数的相关性越强。

根据线性相关系数，对样本数据进行KMO检验，得到KMO测度。KMO检测用于检查变量间的相关性和偏相关性，KMO检测的计算公式如下：

其中，KMO表示测度，r_ij为第i个样本x_i和第j个样本x_j的皮尔逊相关系数，p_ij为除第i个样本x_i和第j个样本x_j之外其他样本不变时第i个样本x_i和第j个样本x_j的偏相关系数，x_i为状态参数x的第i个样本，x_j为状态参数x的第j个样本，i≠j。偏相关系数可以直接用spss或者python计算，KMO取值在0～1之间，KMO值越大表示变量的相关性越强，偏相关性越弱。KMO检验的结果可直接利用spss的kmo工具得出。

对样本数据进行巴特利特球形检验，得到球形检验值；适用性检测结果包括：样本数据中所有状态参数之间的线性相关系数、KMO测度和球形检验值。巴特利特球形检验(Bartlett’s球形检验)用于检验参数的分布及各种参数间的独立情况，检验结果可利用python的scipy.stats.bartlett工具得出。

三种验证的结果要同时满足以下条件(即适用性预设标准)：样本数据中70％以上的两种状态参数之间的皮尔逊相关系数的绝对值大于0.5；KMO测度的结果值＞0.5；Bartlett’s球形检验呈球形分布，球形检验值(检验sig值)＜0.05。

步骤104，若适用性检测结果符合适用性预设标准，则根据样本数据，利用因子分析法确定样本数据中的公因子。

步骤104具体包括：

适用性预设标准包括：样本数据中所有状态参数之间的线性相关系数的绝对值大于0.5的数量大于或等于总数量的70％，KMO测度大于0.5，以及球形检验值小于0.05。

获取样本数据的协方差矩阵的特征值和单位正交特征向量。样本数据的协方差矩阵R的特征值表示为λ₁≥λ₂≥...λ_p，协方差矩阵R相应的单位正交特征向量表示为U₁，U₂,...U_p，p表示特征值的数量，特征值的数量与单位正交特征向量的数量相等，特征值的数量与状态参数的种类数量相等。特征值和单位正交特征向量可由python的numpy库linalg模块计算得到。

根据特征值和单位正交特征向量，利用主成分法确定载荷矩阵。载荷矩阵(即公因子载荷矩阵)A表示为

其中，m表示需求的公因子数，m＜p。载荷矩阵A的元素为载荷因子a_bd，载荷因子a_bd表示为a_bd＝cov(x_b，f_d)，载荷因子a_bd是变量x_b在公因子f_d上的载荷，载荷因子a_bd是x_b和f_d的相关系数即协方差；b＝1,2,...,p，d＝1,2,...,m。

通过因子分析模型确定样本数据中所有的公因子，因子分析模型为：

x_b＝a_b1f₁+a_b2f₂+…+a_bmf_m，(b＝1,2,…,p)

式中，x_b为变量，a_bd为载荷因子，f_m为所有的公因子。

根据特征值和公因子贡献度确定公因子的个数。公因子贡献度反映了公因子f_d对变量所提供的方差贡献之和，是衡量每一个公因子相对重要性的度量。根据下式计算公因子贡献度

选择公因子个数m的方法需同时满足以下规则(即选择公因子个数的标准)为：特征值＞1的特征值数量，公因子的累计贡献率＞70％时对应的公因子数量。

利用四次方最大旋转法对载荷矩阵进行旋转，得到旋转因子矩阵。旋转载荷矩阵是以简化载荷矩阵为目的，通过旋转方法对载荷矩阵进行旋转得到旋转因子矩阵以达到每个公因子均能符合冶金含义解释的要求。建立因子分析模型的目的不仅要找到公因子，还需对每个公因子进行解读得到数据背后所隐含的真实含义。每个公因子都与不同的状态参数具有相关性，包含过多变量信息的公因子并不能在高炉生产中被很好的利用冶金含义进行解释，因此对载荷矩阵A进行旋转分析。

载荷矩阵A并不是唯一的，对载荷矩阵A作任何正交变换均不能改变原有的AA^T，利用这种不变性，通过旋转方法为四次方最大旋转法得到符合冶金工艺的旋转因子矩阵。四次方最大旋转法以简化载荷矩阵为目的，通过旋转载荷因子，使每个变量只在一个载荷因子上有较高的载荷，而在其他的载荷因子上有尽可能低的载荷，通过使载荷矩阵中每一行载荷因子的载荷平方的方差达到最大，以达到符合可解释要求的目的。利用spss的Quartimax方法得出四次方最大旋转法计算之后的旋转因子矩阵，四次方最大旋转法计算公式如下：

式中，Q表示旋转因子矩阵，

表示正交载荷因子，即a_bd和一个正交矩阵相乘。由于公因子载荷矩阵的不唯一性，将载荷因子a_bd与一个正交矩阵相乘得到

根据旋转因子矩阵的载荷因子和样本数据的状态参数，确定公因子。每个公因子与状态参数都具有线性关系，每个公因子均包含所有的状态参数，且可以表示为状态参数的线性组合。利用spss(Statistical Product and Service Solutions，“统计产品与服务解决方案”软件)的regression模块对regression回归法进行运算可以得到b_db的值，进而可以得到公因子表达式，通过公因子表达式确定最终的公因子，公因子表达式为：

式中，

为最终的公因子，b_db为旋转因子矩阵的载荷因子，x_b为状态参数。

根据旋转因子矩阵中载荷值大于0.5的状态参数的种类和高炉生产工艺经验，对每一个公因子进行冶金工艺的定义，具体为通过旋转因子载荷矩阵中每个因子中载荷值大于0.5的参数的冶金含义对该公因子进行定义，使公因子更具解释性。

步骤105，根据公因子和公因子的方差贡献率，确定样本高炉综合状态指标。对于同一时间的高炉综合状态，存在评判差异的多个公因子依然无法得出最适合高炉综合状态指标的具体数值，所以利用各公因子的方差贡献率将公因子进行整合，得到高炉综合状态指标。

步骤105具体包括：

根据公因子和公因子的方差贡献率，利用公式

表示第d个公因子

的方差贡献率，

表示公因子。

步骤106，获取样本高炉综合状态指标对应的样本数据中的历史高炉生产实时数据。采集历史高炉生产实时数据，利用MIC相关性分析法获得高炉综合状态指标与生产现场实时数据的最佳相关间隔时间，将最佳相关间隔时间确定为高炉综合状态指标预测模型的提前预测结果的时间；高炉生产实时数据指的是在高炉生产过程中可以秒级产生并存储的数据。历史高炉生产实时数据包括：风量、风压、风温、富氧流量、实际风速、软水总流量、CO、CO₂、下部压差、上部压差、顶温和顶压。

步骤107，根据样本高炉综合状态指标和历史高炉生产实时数据，利用相关分析法和AdaBoost算法建立得到高炉综合状态指标预测模型。

步骤107具体包括：

根据样本高炉综合状态指标和历史高炉生产实时数据，利用MIC互信息系数法确定不同时间间隔下历史高炉生产实时数据与样本高炉综合状态指标之间的MIC相关系数。最佳时间间隔根据高炉生产的滞后性特点，对实时数据与高炉综合状态指标进行相关性分析，得到实时数据中同一种类不同时间数据之间的最大相关系数对应的时间间隔作为预测时间。相关性分析即利用MIC互信息系数法得到不同时间间隔下历史高炉生产实时数据与高炉综合状态指标之间的非线性相关性。相关性分析结果，即MIC相关系数可由python的minepy库得到。

比较所有的MIC相关系数，将最大的MIC相关系数对应的时间间隔作为高炉综合状态指标与高炉生产现场实时数据的最佳相关间隔时间。

以最佳相关间隔时间对应的历史高炉生产实时数据为输入，最佳相关间隔时间对应的历史高炉生产实时数据对应的样本高炉综合状态指标为输出，利用AdaBoost算法建立得到高炉综合状态指标预测模型。选取MIC相关系数最大时对应的时间间隔为高炉生产实时数据与高炉综合状态指标的最佳时间间隔；选取高炉综合状态指标为目标参数；选取最佳时间间隔的高炉生产实时数据为相关特征参数；利用AdaBoost迭代算法和最佳时间间隔的高炉生产实时数据对高炉综合状态指标进行建模，得到高炉综合状态指标预测模型。

最佳相关间隔时间对应的历史高炉生产实时数据以及最佳相关间隔时间对应的历史高炉生产实时数据对应的样本高炉综合状态指标组成数据集，将数据集按照9:1的比例随机划分为训练集和测试集，以满足整个周期特征的捕捉。根据训练集利用AdaBoost迭代算法训练得到高炉综合状态指标预测初始模型，用测试集对训练好的高炉综合状态指标预测初始模型进行测试。

AdaBoost(Adaptive Boosting，自适应增强)迭代算法的步骤包括：

s1、初始化训练集中训练数据的权值分布，每一个训练数据最开始都被赋予相同的权值，表示为：

其中，D(k)表示权值，w_ke表示第e个训练数据在第k轮迭代时的样本权重，w_1e为k＝1时，即初始迭代时训练数据的初始权重，E表示训练数据的大小；

s2、开始迭代，通过不断地迭代，不断优化弱分类器的权重分布；s2具体包括：

a)使用第k轮迭代的权重D(k)得到第k轮迭代的弱分类器G_k(x)；

b)根据弱分类器G_k(x)，利用下式计算训练数据的最大误差：

E_k＝max|y_e-G_k(x_e)|e＝1,2,…,E

其中，E_k表示第k个弱分类器G_k(x)在训练集上的最大误差，y_e表示第e个训练数据的目标值，x_e表示第e个训练数据的输入参数。

c)计算每个训练数据的相对误差；

其中，e_ke表示第e个训练数据对应的第k个弱分类器的相对误差。

d)根据训练数据的样本权重，计算回归误差率；

其中，e_k表示第k个弱分类器的回归误差率，e_ke表示第e个训练数据对应的第k个弱分类器的相对误差。

e)根据回归误差率，利用下式计算弱分类器的权重系数a_k：

f)根据弱分类器的权重系数a_k和训练数据的样本权重，利用下式更新训练数据的样本权重：

其中，w_k+1,e表示更新后的训练数据的样本权重。

将更新后的训练数据的样本权重作为下一轮迭代时训练数据的样本权重，返回步骤a)。

s3、将每轮迭代得到的弱分类器按权重组合成强分类器。

其中，f(x)表示强分类器，K表示迭代总数。强分类器的输出结果即为高炉综合状态指标预测初始模型的预测结果。

为了提高预测精度，优选地，利用测试集对高炉综合状态指标预测初始模型进行测试，并利用拟合优度和均方根误差对高炉综合状态指标预测初始模型的参数进行调节(调节之后的预测初始模型为最终的预测模型)，从而提高模型预测精度，调节的参数包括最大迭代次数k和弱分类器的权重系数a_k。测试和调节过程具体包括：将测试集输入高炉综合状态指标预测初始模型，计算高炉综合状态指标预测初始模型的拟合优度和均方根误差，然后调节预测初始模型的最大迭代次数k和弱分类器的权重系数a_k，再次计算调节参数之后的预测初始模型的拟合优度和均方根误差，比较调节参数之前的拟合优度和均方根误差与调节参数之后的拟合优度和均方根误差，在调整模型参数过程中使得R²值极大，RMSE值极小。拟合优度R²即预测值和实际值的拟合程度，计算公式为：

式中，y_e'为测试集中第e’个测试数据对应的高炉综合状态指标的实际值，

为y_e'的均值，

为根据测试集中第e’个测试数据预测的高炉综合状态指标，即预测值，E’为测试集中测试数据的数量。

均方根误差RMSE即预测值和实际值之间的误差损失值，可准确评价预测模型的精准度，计算公式为：

式中：

为预测的高炉综合状态指标，y_e'为测试集中第e’个测试数据对应的高炉综合状态指标的实际值，E’为样本总量。

步骤108，获取待预测的高炉生产实时数据。采集高炉生产实时数据为采集高炉生产过程中实时产生的与高炉状态相关的实时点位数据。利用高炉生产过程中的实时数据对高炉综合状态指标进行预测，减少具有延迟性和人为操作性的数据(如检测数据)的干扰，高炉生产实时数据包括：风量、风压、风温、富氧流量、实际风速、软水总流量、CO、CO₂、下部压差、上部压差、顶温和顶压。

步骤109，将待预测的高炉生产实时数据输入高炉综合状态指标预测模型，得到预测的高炉综合状态指标。将高炉生产过程的实时数据作为输入参数，利用高炉综合状态指标预测模型可以实时预测高炉在最佳时间间隔之后的高炉综合状态指标，对高炉生产具有指标作用。

步骤110之前，还包括：

根据样本高炉综合状态指标，通过绘图法对高炉综合状态进行分类，得到高炉综合状态分类标准。高炉综合状态分类即根据样本高炉综合状态指标依据绘图法对样本高炉综合状态指标进行直观展示，综合考虑生产情况和高炉历史生产日志记录，实现对高炉综合状态的正确分类，得到高炉综合状态评价的分级评价，具体包括以下步骤：

1)、根据样本高炉综合状态指标，利用python的matplotlib模块绘制散点图；

2)、根据散点图中数据点的分布情况，结合工艺经验和生产日志，对高炉综合状态设定分类标准，获得分类标准--好、正常、差、警告。本实施例中，预设警告标准为-100，即当高炉综合状态指标Y小于-100时，发出警告；预设差标准为-50，即当高炉综合状态指标Y小于-50且大于或等于-100时，高炉综合状态(高炉的真实状态)为差；预设好标准为50，即当高炉综合状态指标Y大于或等于-50且小于50时，高炉综合状态为正常，当高炉综合状态指标Y大于或等于50时，高炉综合状态为好，具体高炉综合状态分类标准参见表1。

表1高炉综合状态分类标准

步骤110，获取高炉综合状态分类标准。

步骤111，根据预测的高炉综合状态指标，通过高炉综合状态分类标准，得到高炉综合状态。

本实施例还提供一种高炉综合状态预测系统，高炉综合状态预测系统包括：

历史数据获取模块，用于获取高炉不同部位状态参数的历史数据。

预处理模块，用于对历史数据进行预处理，得到样本数据。

预处理模块具体包括：

删除休风数据单元，用于删除历史数据中高炉休风时间段的数据，得到第一数据。

统一频次单元，用于对第一数据中不同部位的各种状态参数的频次通过升频或降频的方法进行统一，得到第二数据。

缺失值处理单元，用于通过均值法对第二数据中各种状态参数的数据缺失值进行处理，得到第三数据。

异常值处理单元，用于根据第三数据利用箱型图删除第三数据中的异常值，得到第四数据。

标准化处理单元，用于利用z-score标准化法对第四数据进行标准化处理，得到样本数据。

适用性检测模块，用于对样本数据进行适用性检测，得到适用性检测结果。

适用性检测模块具体包括：

线性相关系数计算单元，用于利用皮尔逊相关系数计算样本数据中两种状态参数的线性相关程度，得到样本数据中所有状态参数之间的线性相关系数。

KMO检验单元，用于根据线性相关系数，对样本数据进行KMO检验，得到KMO测度。

巴特利特球形检验单元，用于对样本数据进行巴特利特球形检验，得到球形检验值；适用性检测结果包括：样本数据中所有状态参数之间的线性相关系数、KMO测度和球形检验值。

公因子确定模块，用于若适用性检测结果符合适用性预设标准，则根据样本数据，利用因子分析法确定样本数据中的公因子。

公因子确定模块具体包括：

特征值获取单元，用于获取样本数据的协方差矩阵的特征值和单位正交特征向量。特征值和单位正交特征向量可由python的numpy库linalg模块计算得到。

载荷矩阵确定单元，用于根据特征值和单位正交特征向量，利用主成分法确定载荷矩阵。

公因子个数确定单元，用于根据特征值和公因子贡献度确定公因子的个数。

旋转单元，用于利用四次方最大旋转法对载荷矩阵进行旋转，得到旋转因子矩阵。

公因子确定单元，用于根据旋转因子矩阵的载荷因子和样本数据的状态参数，确定公因子。

公因子定义单元，用于根据旋转因子矩阵中载荷值大于0.5的状态参数的种类和高炉生产工艺经验，对每一个公因子进行冶金工艺的定义，具体为通过旋转因子载荷矩阵中每个因子中载荷值大于0.5的参数的冶金含义对该公因子进行定义，使公因子更具解释性。

样本高炉综合状态指标确定模块，用于根据公因子和公因子的方差贡献率，确定样本高炉综合状态指标。

样本高炉综合状态指标确定模块具体包括：

样本高炉综合状态指标确定单元，用于根据公因子和公因子的方差贡献率，利用公式

表示第d个公因子

的方差贡献率，

表示公因子。

获取模块，用于获取样本高炉综合状态指标对应的样本数据中的历史高炉生产实时数据。

预测模型建立模块，用于根据样本高炉综合状态指标和历史高炉生产实时数据，利用相关分析法和AdaBoost算法建立得到高炉综合状态指标预测模型。

预测模型建立模块具体包括：

MIC相关系数确定单元，用于根据样本高炉综合状态指标和历史高炉生产实时数据，利用MIC互信息系数法确定不同时间间隔下历史高炉生产实时数据与样本高炉综合状态指标之间的MIC相关系数。

最佳相关间隔时间确定单元，用于比较所有的MIC相关系数，将最大的MIC相关系数对应的时间间隔作为高炉综合状态指标与高炉生产现场实时数据的最佳相关间隔时间。

预测模型建立单元，用于以最佳相关间隔时间对应的历史高炉生产实时数据为输入，最佳相关间隔时间对应的历史高炉生产实时数据对应的样本高炉综合状态指标为输出，利用AdaBoost算法建立得到高炉综合状态指标预测模型。

预测模型建立单元具体包括：分集子单元，用于最佳相关间隔时间对应的历史高炉生产实时数据以及最佳相关间隔时间对应的历史高炉生产实时数据对应的样本高炉综合状态指标组成数据集，将数据集按照9:1的比例随机划分为训练集和测试集，以满足整个周期特征的捕捉。

训练子单元，用于根据训练集利用AdaBoost迭代算法训练得到高炉综合状态指标预测初始模型。

测试子单元，用于利用测试集对训练好的高炉综合状态指标预测初始模型进行测试，利用拟合优度和均方根误差对高炉综合状态指标预测初始模型的参数进行调节(调节之后的预测模型为最终的预测模型)，从而提高模型预测精度，调节的参数包括最大迭代次数k和弱分类器的权重系数a_k，在调整模型参数过程中使得R²值极大，RMSE值极小。

高炉生产实时数据获取模块，用于获取待预测的高炉生产实时数据。

高炉综合状态指标预测模块，用于将待预测的高炉生产实时数据输入高炉综合状态指标预测模型，得到预测的高炉综合状态指标。

高炉综合状态分类标准确定模块，用于根据样本高炉综合状态指标，通过绘图法对高炉综合状态进行分类，得到高炉综合状态分类标准。

分类标准获取模块，用于获取高炉综合状态分类标准。

高炉综合状态预测模块，用于根据预测的高炉综合状态指标，通过高炉综合状态分类标准，得到高炉综合状态。

本实施例还提供一种具体的应用实例：将本发明的高炉综合状态预测方法应用于某钢铁厂2500m³的冶炼钒钛磁铁矿高炉，参见图2，具体包括如下步骤：

1)采集历史数据。历史数据为高炉不同部位的状态参数，具体为高炉2018年3月-12月共10个月的生产数据，具体为2018年2月27日-12月2日。将钢铁厂的高炉生产数据存储在不同数据库中，实时数据存储于wonderware数据库，质量检测数据存储于Oracle数据库，高炉操作数据存储于SQL Server数据库，通过高炉的自动化系统的数据传输实现数据采集。所采集的数据包括：理论铁、利用系数、焦比、煤比、小时焦炭消耗、小时煤粉消耗、熟料率、铁水温度、V、Ti、Si、S、全炉压差、富氧率、吨铁耗风量、鼓风动能、透气性指数、煤气利用率、热负荷和风量。

2)数据预处理。对步骤1)采集的原始数据(历史数据)进行数据预处理。具体包括：

剔除休风数据，利用生产现场记录的生产日志及真实高炉生产数据查找出休风时间段并进行剔除。

统一时间序列样本，定义高炉综合状态指标的更新频次为1小时，采取小时理论铁量替代真实铁量，高炉铁水质量参数统一原则为产生新值后立即更新和无新值更新填充上次数据。以1小时为时间间隔对数据进行均值化，得到6953条原始数据时间序列样本。

缺失值处理，分析原始数据时间序列样本，若某一项参数的缺失值总量小于5％，采用均值法对缺失数据进行填充；若缺失值总量大于5％，删除此项参数。

异常值处理，采用箱型图删除异常数据。

数据标准化，采用z-score标准化法对经过缺失值和异常值处理后的原始数据时间序列样本进行标准化处理，得到标准化数据。

3)建立高炉综合状态指标量化模型，参见图3，具体步骤包括：

适用性检测，通过计算皮尔逊相关性、KMO检测和Bartlett's球形检验三种方法的检验结果判断利用标准化数据建立高炉综合状态指标量化模型的适用性。皮尔逊相关性系数如图4，从图4中可知，50.5％的相关系数大于0.3，说明变量间具有一定的相关性。

标准化数据的KMO和Bartlett's球形检验结果如表2所示，检验结果均落在正常范围，说明标准化数据符合适用性的要求。

表2 KMO和Bartlett's球形检验结果

提取公因子，利用python的numpy库linalg模块计算标准化数据的协方差矩阵的特征值和特征向量。提取公因子计算过程中的参数参见表3。表3中初始特征值列显示的是所有的公因子，被提取的载荷平方和列显示的是公因子个数确定后的公因子，旋转平方和列显示的是旋转矩阵后最终的公因子，合计列是特征值λ，方差的％列是单个公因子的方差贡献，累计％是累计公因子的方差贡献。

表3初始特征值、被提取的载荷平方和与旋转平方和结果

选择公因子个数，计算公因子贡献度，选取符合条件的公因子个数为6个。

旋转公因子，通过主成分方的载荷矩阵，第一个公因子的11个变量的载荷绝对值超过0.5，表示第一个公因子与这些变量具有很高的相关性。每个公因子都与不同的变量具有相关性，包含过多变量的第一个公因子并不能得到很好的冶金含义解释。对载荷矩阵利用四次方最大旋转法得到旋转因子矩阵，旋转因子矩阵的具体内容如表4所示，F1～F6为公因子。

表4旋转因子矩阵

命名公因子，第一个公因子F1在小时煤粉消耗、焦比、煤比、风量、鼓风动能、热负荷和煤气利用率的载荷绝对值均大于0.5，表明F1与这些指标的相关性较强，从冶金工艺的角度来看，上述的七个指标在高炉生产中均与能源利用相关，所以定义第一个公因子F1为能源指标。第二公因子F2在高炉产能关系密切的焦炭、富氧率、理论铁的指标上的载荷绝对值超过0.5，定义第二公因子F2为产能指标。第三公因子F3在Ti、Si、S、V这四个铁水成分指标的载荷绝对值超过0.5，且在其他指标方面均未超过0.2，说明F3与铁水成分密切相关，定义F3为铁水成分指标。在影响高炉稳定的压差、透气性指数指标方面，第四公因子F4的载荷绝对值超过0.8，定义F4为稳定指标。第五公因子F5在高炉生产强化生产程度指标吨铁耗风量、利用系数的载荷绝对值超过0.5，定义F5为强化指标。第六公因子F6在熟料率的载荷绝对值为0.905，定义F6为铁料配比指标。

计算高炉综合状态指标。利用公因子方差贡献率计算高炉综合状态指标，高炉综合状态指标如图5所示。

高炉综合状态分类，根据高炉综合状态指标绘制散点图，确定高炉综合状态分类标准。

4)建立高炉综合状态指标预测模型。参见图6，具体步骤包括：

采集历史数据，采集高炉历史生产中的实时数据作为预测模型的输入参数，包括：风量、风压、风温、富氧流量、实际风速、软水总流量、CO、CO₂、下部压差、上部压差、顶温和顶压。

判断最佳时间间隔，利用MIC互信息系数法，对不同时间间隔的历史实时数据和高炉综合状态指标进行相关性分析，发现两者之间最佳的时间间隔为3小时。

建立高炉综合状态指标预测模型，利用AdaBoost迭代算法建立高炉综合状态指标预测模型，包括：初始化训练集中训练数据的权值分布；优化弱分类器的权重；组合成强分类器；强分类器得出f(x)的值。

获取当前时刻的高炉实时数据，将当前时刻的高炉实时数据输入高炉综合状态指标预测模型预测得到3小时后的高炉综合状态指标，预测结果如图7所示。在整个高炉生产数据所处的时间区间范围内，高炉综合状态指标被高炉综合状态指标预测模型高效地预测出，AdaBoost迭代算法的具体参数和预测模型的评价指标如表5所示。

表5 AdaBoost算法的具体参数和预测模型的评价指标

5)评价预测模型，利用评价指标对预测模型进行评价。

6)当评价指标满足要求时显示预测的结果。

7)当评价指标不满足要求时，对预测模型的参数进行调节。要求为R²值极大，RMSE值极小。

本发明的高炉综合状态预测方法及系统，根据高炉生产现场的历史数据及操作日志的记录，选取高炉的各部分状态参数作为输入参数，利用因子分析方法对高炉生产指标中隐藏的公共因子进行提取与定义，得到高炉综合状态指标。利用高炉综合状态指标预测模型和高炉实时数据可预测未来最佳相关间隔时间的高炉综合状态。本发明依据高炉生产目标的原则，从多个方面对高炉状态进行综合分析，利用本发明所得到的高炉综合状态指标可量化高炉综合状态且实时显示当前高炉综合状态，利用预测模型不仅可以预报最佳相关间隔时间后的高炉综合状态，且可以提前得到高炉综合状态所属的分类情况(好、正常、差、警告)，预判高炉异常状态，对高炉工作者量化判断高炉状态，提前判断高炉异常状态，以及提前调剂高炉操作起到很好的指导作用。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。