CN112418522B

CN112418522B - 一种基于三支集成预测模型的工业加热炉钢温预测方法

Info

Publication number: CN112418522B
Application number: CN202011318973.1A
Authority: CN
Inventors: 于洪; 魏居明; 胡峰; 王国胤
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2022-10-11
Anticipated expiration: 2040-11-23
Also published as: CN112418522A

Abstract

本发明涉及轧钢温度控制技术领域，具体涉及一种基于三支集成预测模型的工业加热炉钢温预测方法，包括：实时采集加热炉数据，并将实时采集的加热炉数据输入至三支集成预测模型中，三支集成预测模型判断实时采集的加热炉数据是否处于不确定区域范围，若处于不确定区域范围，则使用协同决策方法得到并输出预测结果。本发明利用三支聚类算法将实际工业加热炉运行中存在的固有波动性进行分析处理，更加充分的利用原始数据中的有效数据，有效解决实际工业加热炉运行中固有特性对预测问题带来的负面影响。

Description

一种基于三支集成预测模型的工业加热炉钢温预测方法

技术领域

本发明涉及轧钢温度控制技术领域，具体涉及一种基于三支集成预测模型的工业加热炉钢温预测方法。

背景技术

钢铁工业对国民经济发展和社会稳定至关重要，为了钢铁工业的可持续发展，钢铁生产的各个环节都要致力于节能减排和绿色制造的措施和方法，如何能够提高钢坯加热炉的加热效率，降低能耗，提高成材率，是实现绿色钢铁制造的关键所在。在热轧生产线上，钢坯加热炉的能耗占比很大。钢坯加热炉为钢铁工业过程中的重要设备，钢坯首先经过加热炉加热后进入热轧机，钢坯的加热情况直接影响最终的钢材质量。因此，为了保证钢坯质量并实现节能环保，必须对钢坯的出口钢温进行准确控制。通常以出炉钢温作为加热过程效能的判断标准。

经典的支持向量回归模型(SVR)是一种基于支持向量机(SVM)的回归方法，通过搜索结构风险最小化来提高泛化能力。它尝试预测信息的分布并进行回归估计。现有的基于数据驱动的方法取得了一定的效果，但忽略了加热炉运行中固在的波动现象。然而现有技术忽略了工业加热炉实际运行过程中存在的固有的波动现象，运用现有的方法预测的出炉钢温会存在一定偏差。此外，加热炉中存在的固有波动现象使得产生的数据存在很大的波动性和不确定性，由于这种波动性会使得现有技术出现不可避免的负面影响，同时会降低预测模型的准确性。

发明内容

为了解决上述实际工业加热炉运行中固有特性对预测问题带来的负面影响，更加充分的利用原始数据中的有效数据，本发明提供一种基于三支集成预测模型的工业加热炉钢温预测方法。

一种基于三支集成预测模型的工业加热炉钢温预测方法，包括以下步骤：实时采集加热炉数据，并将实时采集的加热炉数据输入至三支集成预测模型中，三支集成预测模型判断实时采集的加热炉数据是否处于不确定区域范围，若处于不确定区域范围，则使用协同决策方法得到并输出预测结果；若不处于不确定区域范围，则使用所属类簇上的子预测模型得到并输出预测结果；

其中，三支集成预测模型的训练过程包括：

S1、获取原始数据，对原始数据预处理，得到特征集合数据；

S2、运用灰色关联分析方法计算特征集合中所有特征相对于预测变量的灰色关联系数，结合专家知识确定输入变量，即输入特征集合数据；

S3、使用三支聚类方法将输入变量进行划分，得到不同的类簇；

S4、根据各个类簇中的不确定性数据重要性，构建各个类簇相对应的子预测模型，最终得到三支集成预测模型。

进一步的，所述预处理包括：剔除无效数据，并将所有无效数据剔除之后的数据集连接合并在一起，得到特征集合数据；其中无效数据包括缺失/不完整数据剔除和故障样本数据剔除。

进一步的，三支集成预测模型判断实时采集的加热炉数据是否处于不确定区域范围，具体包括：根据样本的相似性度对实时采集的加热炉数据进行划分，得到多个类簇；判断：划分之后的类簇中是否存在类簇样本同时属于多个类簇的边缘域中，多个类簇的边缘域即多个类簇的重叠部分区域，如果存在部分类簇样本同时属于多个类簇的边缘域中，则判定该部分类簇样本处于不确定区域范围之内；如果类簇样本不存在同时属于多个类簇的边缘域中，则判定该类簇样本不处于不确定区域范围之内。

进一步的，步骤S3中使用三支聚类方法将输入变量进行划分，得到不同的类簇，具体包括：将输入特征集合数据进行类簇的三支表示：

C_i＝(Co(C_i),Fr(C_i))

Tr(C_i)＝U-Co(C_i)-Fr(C_i)

其中，Co(C_i)，Fr(C_i)，Tr(C_i)分别表示类簇的核心域、边缘域以及琐碎域，且

核心域中的数据对象确定属于该类簇，琐碎域中的数据对象确定不属于该类簇，边缘域中的数据对象可能属于也可能不属于该类簇。

进一步的，所述不确定性数据指的是步骤S3中进行类簇划分后，多个类簇之间的重叠部分，该重叠部分属于多个类簇，被视为不确定性数据。

进一步的，根据各个类簇中的不确定性数据重要性，构建各个类簇相对应的子预测模型，具体包括：根据不确定性数据的加入是否能够起到提升该类簇子预测模型的预测效果来选择该类簇的最优子预测模型，分别计算将不确定性数据加入该类簇中和不将不确定性数据加入该类簇中所得的预测子模型，比较两个子预测模型的预测精度，若将不确定性数据加入该类簇中所得的预测子模型预测精度更高，则选择加入不确定性数据后的子预测模型作为该类簇的最优子模型；反之，选择未加入不确定性数据的子预测模型作为该类簇的最优子模型。

进一步的，使用协同决策方法得到预测结果具体包括以下步骤：判定新样本是否属于重叠部分区域之后，对于不属于不确定区域范围之内的新样本，直接通过相对应类簇上建立的子预测模型预测结果；对于属于不确定区域范围之内的新样本，找到该新样本所属的多个类簇，选择该新样本所属的多个类簇共同建立的不同子预测模型中表现最优的子预测模型进行预测，最后模型给出预测的结果。

进一步的，运用灰色关联分析方法计算特征集合中所有特征相对于预测变量的灰色关联系数，结合专家知识确定输入变量包括以下步骤：

S21、首先对特征集合数据进行归一化，运用归一化公式进行计算，归一化公式如下所示：

其中，X^*表示归一化之后的数据，x表示归一化之前的数据，μ表示所有样本数据的均值，σ表示所有样本数据的标准差；

S22、从归一化处理后的特征集合中选择参考序列

和比较序列

其中，X₀是出炉温度，

表示第n个样本的出炉温度，

表示第i个特征的第n个样本，n表示数据样本数量，m表示特征集合数量，X_i是输入变量；

S23、基于参考序列和比较序列计算灰色关联系数，计算公式如下：

其中，ζ_i(k)是灰色关联系数，ρ是分辨系数，一般ρ∈[0,1)，X₀(k)表示参考序列的第k个数值，X_i(k)表示第i特征的第k个数值，k表示对应的第k个取值，Δmin和Δmax分别表示距离的全局最小值和全局最大值，Δmin和Δmax具体计算如下：

S24、计算灰色关联系数均值，将灰色关联系数均值作为不同特征的灰色关联系度，具体计算如下：

其中，γ(x₀,x_i)表示第i个特征对于参考序列的灰色关联度，n表示数据样本数量，ζ_i(k)表示灰色关联系数；

S25、求出特征集合中所有特征相对于参考序列的灰色关联系数后，根据专家知识，将灰色关联度大于0.9的特征集合数据作为输入变量，即输入特征集合数据。

本发明的有益效果：

1.本发明利用三支聚类算法将实际工业加热炉运行中存在的固有波动性进行分析处理，更加充分的利用原始数据中的有效数据，有效解决实际工业加热炉运行中固有特性对预测问题带来的负面影响。

2.本发明利用三支聚类的方法将具有波动性的数据划分为不同的类簇，通过对不同类簇的数据处理来建立并选取各个类簇的最优子预测模型，将最优的子预测器组合成最终的预测模型，这样会使得实时到来的数据能过在相对应的子预测模型上进行预测给出结果，从一定程度上降低了波动现象导致的数据波动性的负面影响，能够极好地处理数据中波动性带来的预测不准确问题；此外，提出划分-判定-协同-预测的方式来对新的样本进行预测，提高预测结果的精度。

附图说明

下面结合附图和具体实施方式对本发明做进一步详细的说明。

图1为本发明实施例的一种基于三支集成预测模型的工业加热炉钢温预测方法的流程框图；

图2为本发明实施例的一种基于三支集成预测模型的工业加热炉钢温预测方法的整体架构框图；

图3为在实际生产数据集上进行的对比实验验证结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，一种基于三支集成预测模型的工业加热炉钢温预测方法，包括但不限于如下实施过程：

三支集成预测模型的建立以及训练过程包括：

S1、获取原始数据，对原始数据预处理，得到特征集合数据。

工业加热炉实际运行过程中产生的原始数据会存入历史数据库中，从历史数据库中获取原始数据，由于测量仪器和现场故障等各种不确定事件，收集到的原始历史数据不能直接用于模型当中。历史数据库中的原始数据不能直接输入模型直接使用的情况包括缺失/不完整数据、故障样本数据等，这些数据称为无效数据，无效数据会对预测精度产生负面影响，因此必须先对原始数据进行预处理，原始数据中存在的无效数据类型以及预处理方法如下所示：

(1)缺失/不完整数据：由于测量仪器测量原因导致采集的数据集中缺失对应属性数据，从而导致原始数据中存在不完整的数据，这一部分缺失/不完整数据所对应的属性变量是没有数据的。对于缺失/不完整数据的预处理方法：将这一部分样本数据进行剔除。

(2)故障样本数据：由于现场故障运行的原因，导致存在加热炉停顿时间超过正常加热炉运行的时间，这一部分数据对于将要建立的预测模型不但没有利用价值，而且还会降低模型的精度。针对故障样本数据的预处理方法：将这一部分故障样本数据剔除。

将所有无效数据剔除之后的数据集连接合并在一起，得到特征集合数据。例如，现场得到的炉膛温度、加热时间等等一些特征集合数据。

S2、运用灰色关联分析方法并且结合专家知识确定输入变量的个数，即输入特征集合数据。具体包括以下步骤：

第一步：首先对特征集合数据进行归一化，运用归一化公式进行计算，归一化公式如下所示：

其中，X^*表示归一化之后的数据，x表示归一化之前的数据，μ表示所有样本数据的均值，σ表示所有样本数据的标准差。

通过归一化可以消除原本不同量纲的特征之间由于量纲的运算影响。比如炉膛温度通常超过1000摄氏度，而加热时间通常是小于300秒。

第二步：从归一化处理后的特征集合中选择得到参考序列

和比较序列

参考序列即我们需要预测的变量，比较序列即我们需要进行输入的变量。其中，X₀是出炉温度，

表示第n个样本的出炉温度，

表示第i个特征的第n个样本，n表示数据样本数量，m表示特征集合数量，X_i是输入变量。

第三步：基于参考序列和比较序列计算灰色关联系数，灰色关联系数计算公式如下：

其中，ζ_i(k)是灰色关联系数，ρ是分辨系数，一般ρ∈[0,1)，本实施例中将ρ设定为0.5，X₀(k)表示参考序列的第k个数值，X_i(k)表示第i特征的第k个数值，k表示对应的第k个取值，Δmin和Δmax分别表示距离的全局最小值和全局最大值，Δmin和Δmax具体计算如下：

第四步：计算灰色关联系数均值，将灰色关联系数均值作为不同特征的灰色关联系度，具体计算如下：

其中，γ(x₀,x_i)表示第i个特征对于参考序列的灰色关联度，n表示数据样本数量，ζ_i(k)表示灰色关联系数。

第五步：根据上述方法求出特征集合中所有特征相对于预测变量的灰色关联系数后，根据专家知识，将灰色关联度大于0.9的特征集合数据作为输入变量，即输入特征集合数据。

S3、使用三支聚类方法将输入变量进行划分，得到不同的类簇。具体包括以下步骤:

将输入特征集合数据进行类簇的三支表示：

C_i＝(Co(C_i),Fr(C_i))

Tr(C_i)＝U-Co(C_i)-Fr(C_i)

核心域中的数据对象确定属于该类簇，琐碎域中的数据对象确定不属于该类簇，边缘域中的数据对象可能属于也可能不属于该类簇。因此，含有K个类簇的三支聚类结果C可表示为：

C＝{(Co(C₁),Fr(C₁)),...,(Co(C_k),Fr(C_k)),...,(Co(C_K),Fr(C_K))

对输入变量进行类簇的三支表示可以将相似性更强的数据集合聚集在一起，使得类簇之间的表征更加接近，对于后续的处理将会是有利的。

S4、分析各个类簇中的不确定性数据重要性，构建各个类簇相对应的子预测模型，最终得到三支集成预测模型。具体包括以下步骤：

在存在波动现象的数据集中，在进行类簇划分后，存在着一部分数据既可能属于一个类簇中，也可能属于多个类簇中，如果一部分数据属于多个类簇，那么这几个类簇就会存在重叠部分，由于这一重叠部分数据的所属类簇不唯一，因此被视作不确定性数据，不确定性数据划分的所属类簇不同，使得整个类簇内部的数据也会相应的发生改变，由于各个类簇中相对应的子预测模型由类簇内部的数据决定，因此这一部分不确定性数据的不同归属划分会导致各个类簇最终构建的子预测模型不同，对整个模型的预测性能产生影响，因此需要判断拥有不确定性数据的类簇是否要保留该部分不确定性数据。不确定性数据的归属划分可能在建立子预测模型的时候起到不同的影响，可能是积极的也可能是消极的。因此需要判断这部分不确定性数据对所归属的类簇是否产生积极作用，若产生积极作用，则保留该不确定性数据，将不确定性数据(重叠部分)归属到该类簇中，若产生消极作用，则将该不确定性数据从该类簇中删除。具体实现方式包括：根据重叠部分(不确定性数据)的加入是否能够起到提升该类簇子预测模型的预测效果来选择该类簇的最优子预测模型，分别计算将不确定性数据加入该类簇中和不将不确定性数据加入该类簇中所得的预测子模型，比较两个子预测模型的预测精度，若将不确定性数据加入该类簇中所得的预测子模型预测精度更高，则选择加入不确定性数据后的子预测模型作为该类簇的最优子模型；反之，选择未加入不确定性数据的子预测模型作为该类簇的最优子模型。例如，类簇1和类簇2有一个重叠部分的数据，该重叠部分的数据即为不确定性数据，针对类簇1，分别计算加入重叠部分后的子预测模型1和不加重叠部分的子预测模型2，比较子预测模型1和子预测模型2的性能，若子预测模型1的预测性能更优，则将重叠部分归入类簇1中，并将子预测模型1作为类簇1的最优子预测模型；若子预测模型2的预测性能更优，则将重叠部分从类簇1中删除，并将子预测模型2作为类簇1的最优子预测模型。针对类簇2，分别计算加入重叠部分后的子预测模型3和不加重叠部分的子预测模型4，比较子预测模型3和子预测模型4的性能，若子预测模型3的预测性能更优，则将重叠部分归入类簇2中，并将子预测模型3作为类簇2的最优子预测模型；若子预测模型4的预测性能更优，则将重叠部分从类簇2中删除，并将子预测模型4作为类簇2的最优子预测模型。最优子预测模型选择的时候根据模型的评价指标来比较。各个类簇中子预测模型是根据不同类簇的数据生成的，所以每一个类簇的子预测模型将会是不一样的。针对不同类簇之间存在的相似性高的数据，根据不同类簇之间相似性高的数据训练子预测模型有助于提高模型的精准度。

三支集成预测模型训练完毕后，将实时采集的加热炉数据输入至三支集成预测模型中，三支集成预测模型判断实时采集的加热炉数据是否处于不确定区域范围，若是处于不确定区域范围，则使用协同决策方法得到预测结果，输出预测结果；若不处于不确定区域范围，则使用所属类簇相对应的子预测模型得到并输出预测结果。

进一步的，在一个实施例中，判断实时采集的加热炉数据是否处于不确定区域范围，具体包括：根据样本的相似性度量对实时采集的加热炉数据进行划分，判断划分之后的类簇样本是否同时属于多个类簇的边缘域(即多个类簇的重叠部分区域)中，如果符合同时属于多个类簇的边缘域中，那么该类簇样本处于不确定区域范围之内；如果不符合同时属于多个类簇的边缘域中，那么类簇样本(以下又称作“新样本”)就是不处于不确定区域范围之内。

进一步的，在一个实施例中，上述使用协同决策方法得到预测结果具体包括以下步骤：判定该新样本是否属于重叠部分区域之后，对于不属于重叠部分区域(不确定区域范围)之内的新样本，直接通过相对应类簇上建立的子预测模型预测结果；对于属于不确定区域范围之内的新样本，找到该新样本所属的多个类簇，选择该新样本所属的多个类簇共同建立的不同子预测模型中表现最优的子预测模型进行预测，最后模型给出预测的结果。

以下通过实际加热炉生产中采集的数据集对本发明进行进一步说明。本实施例在以本发明技术方案为前提下进行实施，给出了具体实验的实施结果对比和图2相应的操作过程。将现场采集的数据集中的输入变量输入到三支集成预测模型中；在预测阶段对样本通过图1中S5步操作判断新数据是否处于不确定区域范围；最后通过图1中S6步的操作得到预测结果。本次实例我们针对某公司现场实际加热炉生产中采集的数据集进行了实验，一个为经典的支持向量回归模型(SVR)，一个为经过本发明技术方案的模型。具体的实验结果如图3所示。通过实验结果可以看出，本发明技术方案的模型在不同的子预测模型的指标相比较与传统的SVR模型均有较好的结果，同时子预测模型的平均值也比传统的SVR模型有较好的结果。

需要说明的是，本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-0nly Memory，ROM)或随机存储记忆体(RandomAccess Memory，RAM)等。

以上所述仅是本申请的具体实施方式，应当指出，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于三支集成预测模型的工业加热炉钢温预测方法，其特征在于，包括以下步骤：实时采集加热炉数据，并将实时采集的加热炉数据输入至三支集成预测模型中，三支集成预测模型判断实时采集的加热炉数据是否处于不确定区域范围，若处于不确定区域范围，则使用协同决策方法得到并输出预测结果；若不处于不确定区域范围，则使用所属类簇上的子预测模型得到并输出预测结果；

使用协同决策方法得到预测结果具体包括以下步骤：判定新样本是否属于重叠部分区域之后，对于不属于不确定区域范围之内的新样本，直接通过相对应类簇上建立的子预测模型预测结果；对于属于不确定区域范围之内的新样本，找到该新样本所属的多个类簇，选择该新样本所属的多个类簇共同建立的不同子预测模型中表现最优的子预测模型进行预测，最后模型给出预测的结果；

其中，三支集成预测模型的训练过程包括：

S4、根据各个类簇中的不确定性数据重要性，构建各个类簇相对应的子预测模型，最终得到三支集成预测模型；

根据各个类簇中的不确定性数据重要性，构建各个类簇相对应的子预测模型，具体包括：根据不确定性数据的加入是否能够起到提升该类簇子预测模型的预测效果来选择该类簇的最优子预测模型，分别计算将不确定性数据加入该类簇中和不将不确定性数据加入该类簇中所得的预测子模型，比较两个子预测模型的预测精度，若将不确定性数据加入该类簇中所得的预测子模型预测精度更高，则选择加入不确定性数据后的子预测模型作为该类簇的最优子模型；反之，选择未加入不确定性数据的子预测模型作为该类簇的最优子模型。

2.根据权利要求1所述的一种基于三支集成预测模型的工业加热炉钢温预测方法，其特征在于，所述预处理包括：剔除无效数据，并将所有无效数据剔除之后的数据集连接合并在一起，得到特征集合数据；其中无效数据包括缺失/不完整数据剔除和故障样本数据剔除。

3.根据权利要求1所述的一种基于三支集成预测模型的工业加热炉钢温预测方法，其特征在于，三支集成预测模型判断实时采集的加热炉数据是否处于不确定区域范围，具体包括：根据样本的相似性度对实时采集的加热炉数据进行划分，得到多个类簇；判断：划分之后的类簇中是否存在类簇样本同时属于多个类簇的边缘域中，多个类簇的边缘域即多个类簇的重叠部分区域，如果存在部分类簇样本同时属于多个类簇的边缘域中，则判定该部分类簇样本处于不确定区域范围之内；如果类簇样本不存在同时属于多个类簇的边缘域中，则判定该类簇样本不处于不确定区域范围之内。

4.根据权利要求1所述的一种基于三支集成预测模型的工业加热炉钢温预测方法，其特征在于，步骤S3中使用三支聚类方法将输入变量进行划分，得到不同的类簇，具体包括：将输入特征集合数据进行类簇的三支表示：

C_i＝(Co(C_i),Fr(C_i))

Tr(C_i)＝U-Co(C_i)-Fr(C_i)