CN107463781A

CN107463781A - 一种用于高炉铁水硅含量预测模型的数据约简处理方法及装置

Info

Publication number: CN107463781A
Application number: CN201710680930.XA
Authority: CN
Inventors: 尹林子; 程攀; 许雪梅; 蒋朝辉; 丁家峰; 李乐; 李靖
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2017-08-10
Filing date: 2017-08-10
Publication date: 2017-12-12
Anticipated expiration: 2037-08-10
Also published as: CN107463781B

Abstract

本发明公开了一种用于高炉铁水硅含量预测模型的数据约简处理方法及装置，该方法通过引入高炉铁水冶炼的工艺特征，数据特征以及工作人员的实际经验，将其转化为属性优先级序列，利用必要集冲突检测的机制和递归的方法，保证求出的约简唯一且与应用最匹配；其中设置的必要集BS，保证了约简集R中属性的非冗余性，并用于判断核属性冲突；采用递归的方式求取最匹配约简，利用递归自带的现场保护，在遇到核属性冲突时，直接以最简单的方式逐一返回到上一个状态，而不用进行状态恢复；整个处理过程操作简单，计算结果准确，该方法具有较大的推广价值。

Description

一种用于高炉铁水硅含量预测模型的数据约简处理方法及装置

技术领域

本发明涉及一种用于高炉铁水硅含量预测模型的数据约简处理方法及装置。

背景技术

高炉铁水硅含量预测是高炉冶炼优化控制中的关键步骤。其预报结果对操作参数的调节具有决定性的影响作用，是实现提高铁水质量、产量、资源和能源利用率的必要途径。由于工艺机理复杂，基于数据建模的预测方法成为了硅含量预测的主流，然而，由于输入参数之间存在不同程度的耦合性，现有的基于相关性求解的模型输入参数集难以做到与预测模型的最佳匹配，会影响预测命中率。因此，需要采用合理的方法计算高炉冶炼硅含量预测的最佳输入集，例如基于粗糙集的数据约简定制处理方法等。

粗糙集理论作为一种数据分析处理理论，能有效地对数据进行分析推理，进而将不重要的、冗余的数据以及属性删除，从而获得一个包含完整信息的精简的新数据集，为基于数据的分析、建模、决策等方法提供优质的源数据。

然而，由于约简定义的限制，一个原始数据集存在多个约简结果，传统的约简算法往往只随机计算一个结果。但在高炉冶炼硅含量预测应用中，各属性即工艺参数具有强烈的应用特征和机理特征，无法相互替代，需要计算与预测模型最匹配的约简，因此，需要引入包含工艺特征与数据特征的背景知识，并以此约束约简算法，从而获得与预测模型最匹配的数据处理结果。

发明内容

本发明提供了一种用于高炉铁水硅含量预测模型的数据约简处理方法及装置，其目的在于，克服了传统启发式约简算法的缺陷，通过利用必要集冲突检测的机制和递归的方法，保证了求出的约简唯一且与应用最匹配。

一种用于高炉铁水硅含量预测模型的数据约简处理方法，包括以下步骤：

Step1，通过分析高炉冶炼过程的运行机理，计算所采集的高炉冶炼数据的相关性，并结合现场工人的实际操作经验制定高炉冶炼条件属性数据的优先级序列P；

所述高炉冶炼数据是指富氧率、标准风速、透气性指数、冷风流量、炉腹煤气量、炉腹煤气指数、理论燃烧温度、顶压、富氧压力、冷风压力、全压差、热风压力、实际风速、热风温度、鼓风动能以及硅含量，所述高炉冶炼数据中的硅含量为决策数据，其余数据为条件属性数据；

条件属性数据的优先级序列是依据高炉冶炼的运行机理，并依据所有数据之间的相关性，以及操作经验，对硅含量的影响程度由大到小的条件属性数据；

Step2，对历史高炉冶炼数据进行离散化处理，并构建可辨识矩阵M，M＝{m(i,j)}；

其中，x_i,x_j表示不同的为高炉冶炼样本数据，a(x_i)和a(x_j)表示高炉冶炼样本数据x_i,x_j中属性a的对应值，C表示所有条件属性数据的集合；

如果两个不同决策值样本的所有条件属性值都相同，则称两个决策值不同的样本为不一致样本；

Step3，对可辨识矩阵计算核属性core，删除可辨识矩阵M中包含核属性的元素，检查可辨识矩阵M是否为空，如果是，则输出约简集R＝core，结束约简处理过程；否则，删除优先级序列P中核属性对应的条件属性，转Step4；

如果可辨识矩阵中的某个元素只包含一个条件属性，则该条件属性为核属性；

Step4，初始化约简集必要集

Step5，对优先级序列P中的条件属性依次进行递归求解，输出约简集R；

Step6，将约简集R与所有核属性core的并集作为最终的约简集。

进一步地，对优先级序列中的条件属性依次进行递归求解的具体过程如下：

第一步，如果优先级序列中所有属性都已遍历完，即当前属性不存在，则返回顶层递归，输出约简R，递归结束，否则下一步；

第二步，判断优先级序列中正遍历的当前条件属性是否与必要集BS冲突，如果冲突，转第三步，否则，转第四步；

从必要集BS中删除包含当前条件属性的元素，若约简集R中的某一条件属性不存在于必要集BS中，则表示当前条件属性与必要集BS冲突，否则，不冲突；

第三步，利用可辨识矩阵中核属性的定义判断当前条件属性是否为核属性：

如果是核属性，递归返回到约简集R中最后一个不是核属性的条件属性所在的递归层，从约简集R和可辨识矩阵M中删除该条件属性，重新计算必要集BS，进行下一层递归，遍历优先级序列P中下一个条件属性；

如不是核属性，则从M中删除该条件属性，重新计算BS，进行下一层递归，判断P中下一个属性；

第四步，把当前条件属性加入约简集R中，利用更新的约简集R重新计算必要集BS，遍历优先级序列P中下一个条件属性，进行下一层递归；

必要集BS计算公式为：BS_R(M)＝{m(i,j)∈M||m(i,j)∩R|＝1}。

BS的计算公式的含义是，若可辨识矩阵中的元素与当前的约简集R有且只有一个相同的条件属性，则可辨识矩阵中的元素加入到必要集BS中；

进一步地，所述高炉冶炼条件属性数据的优先级序列P按照优先级从大到小排列如下：

上一炉铁水的硅含量，当前炉铁水的炉腹煤气指数、实际风速、透气性指数、鼓风动能、热风温度、热风压力、冷风压力，全压差、理论燃烧温度、炉腹煤气量、富氧率、顶压、标准风速、冷风流量、富氧压力。

一种用于高炉铁水硅含量预测模型的数据约简处理装置，包括：

高炉冶炼条件属性优先级序列获取单元，通过分析高炉冶炼过程的运行机理，计算所采集的高炉冶炼数据的相关性，并结合现场工人的实际操作经验制定高炉冶炼条件属性数据的优先级序列P；

可辨识矩阵M构建单元，通过对决策数据进行离散处理，如果任意两个样本x_i,x_j具有不同的决策值，且至少有一个样本不是不一致样本，则对它们的条件属性值进行比较，从而获得可辨识矩阵M的一个元素；核属性获取单元，在可辨识矩阵中寻找只包含一个条件属性的元素，以该条件属性作为核属性；

优先级序列P删减单元，通过删除可辨识矩阵M中包含核属性的元素，检查可辨识矩阵M是否为空，若不为空，则删除优先级序列P中核属性对应的条件属性；

约简集R求解单元，初始化约简集必要集对优先级序列P中的条件属性依次进行递归求解；

若删除可辨识矩阵M中包含核属性的元素，可辨识矩阵M为空，则约简集R为所有的核属性集合。

进一步地，所述约简集R求解单元包括：

对优先级序列中的条件属性依次进行递归求解的具体过程如下：

递归结束判断单元，判断当前属性是否存在，如果不存在，表明优先级序列中所有属性都已遍历完，则返回顶层递归，输出约简R，递归结束，否则跳转至当前条件属性与必要集BS冲突判断单元；

当前条件属性与必要集BS冲突判断单元，从必要集BS中删除当前条件属性后，若约简集R中的某一条件属性不存在于必要集BS中，则表示当前条件属性与必要集BS冲突，否则，不冲突；

若当前条件属性与必要集BS冲突，跳转至核属性判断单元，否则，跳转至约简集R与必要集BS更新单元；

核属性判断单元，利用可辨识矩阵中核属性的定义判断当前条件属性是否为核属性：

约简集R与必要集BS更新单元，把当前条件属性加入约简集R中，利用更新的约简集R重新计算必要集BS，遍历优先级序列P中下一个条件属性，进行下一层递归；

必要集BS计算公式为：BS_R(M)＝{m(i,j)∈M||m(i,j)∩R|＝1}。

现根据表1所述的高炉冶炼数据的采集格式，给出4个粗糙集的基本定义以及本发明的一个新定义：

表1

时间	富氧率	标准风速	……	铁水硅含量


					……

定义1：一个信息系统S可以定义为一个四元组：

S＝<U,At,Va,Ia>

其中，U为非空对象集，由样本组成，也称为样本集等等，At为非空有限属性集，Va为属性值集，Ia：U->Va为映射函数。如果At＝C∪D，C代表条件属性集，D代表决策属性集，则称该类信息系统为决策表。表1，高炉铁水硅含量相关信息数据表即为一个决策表，条件属性集C包括富氧率、标准风速等，决策属性集D包括铁水硅含量，Va为所有样本对应属性值的集合。

定义2：如果两个不同决策值样本的所有条件属性值都相同，则称其为不一致样本，包含不一致决策样本的决策表称为不一致决策表。

定义3：考虑决策表S＝<U,At,Va,Ia>，与其具有正域等价知识的可辨识矩阵M＝{m(i,j)}定义为：

其中，m(i,j)称为矩阵M的一个元素。

定义4：考虑任意子集称x，y关于B是不可辨识的当且仅当：记为xI(B)y。

将对象的不可辨识关系延伸到整个论域，可以获得信息系统关于属性子集B的不可辨识关系：IND(B)＝{(x,y)∈U×U|xI(B)y}；

给定决策表S，属性子集称为决策表的一个约简当且仅当：

(1)IND(R)＝IND(C

(2)对于有IND(P)≠IND(C

称一个决策表所有约简的集合为RED(S)。

决策表的核属性集为所有约简的交集，

Core(S)＝∩R,R∈RED(S)

定义5(本发明所定义)：可辨识矩阵M中与R的交集只有一个属性的所有元素的集合称为M中R的必要集BS。

BS_R(M)＝{m(i,j)∈M||m(i,j)∩R|＝1}

有益效果

本发明提供了一种用于高炉铁水硅含量预测模型的数据约简处理方法及装置，该方法通过引入高炉铁水冶炼的工艺特征，数据特征以及工作人员的实际经验，将其转化为属性优先级序列，利用必要集冲突检测的机制和递归的方法，保证了求出的约简唯一且与应用最匹配；其中设置的必要集BS，保证了约简集R中属性的非冗余性，并用于判断核属性冲突；采用递归的方式求取最匹配约简，利用递归自带的现场保护，在遇到核属性冲突时，直接以最简单的方式逐一返回到上一个状态，而不用进行状态恢复；整个处理过程操作简单，计算结果准确，该方法具有较大的推广价值。

附图说明

图1为本发明所述方法的流程图；

图2为本发明所述方法中递归求解过程流程图。

具体实施方式

下面将结合附图和实施例对本发明做进一步地说明。

如图1和图2所示，一种用于高炉铁水硅含量预测模型的数据约简处理方法，包括以下步骤：

Step4，初始化约简集必要集

Step6，将约简集R与所有核属性core的并集作为最终的约简集。

必要集BS计算公式为：BS_R(M)＝{m(i,j)∈M||m(i,j)∩R|＝1}。

可辨识矩阵M构建单元，通过对决策数据进行离散处理，如果任意两个样本x_i,x_j具有不同的决策值，且至少有一个样本不是不一致样本，则对它们的条件属性值进行比较，从而获得可辨识矩阵M的一个元素；；

核属性获取单元，在可辨识矩阵中寻找只包含一个条件属性的元素，以该条件属性作为核属性；

所述约简集R求解单元包括：

必要集BS计算公式为：BS_R(M)＝{m(i,j)∈M||m(i,j)∩R|＝1}。

所述高炉冶炼条件属性数据的优先级序列P按照优先级从大到小排列如下：

下面以一个具体实例对本发明作进一步的说明。

一个实际高炉铁水硅含量数据表如表2所示。

表2

时间	富氧率c1	透气性指数c2	标准风速c3	冷风流量c4	鼓风动能c5	……	Si含量d1
								23:40	1.938472	16.59161	252.9083	28.94907	128.5083	……	0.406
0:20	1.943707	16.85488	251.0251	28.73623	130.7197	……	0.597
								1:00	1.953777	17.58165	248.9372	28.49509	131.5314	……	0.396
1:40	1.888147	17.75196	250.1667	28.63752	131.7958	……	0.39
								2:20	1.840605	17.12156	248.6192	28.46348	130.0418	……	0.307
3:00	1.841886	17.47047	248.6527	28.46537	129.159	……	0.318
								……	……	……	……	……	……	……	……
23:00	2.291748	18.30673	253.9333	29.06386	144.1375	……	0.408

对表2中的数据应用本发明所述的一种用于高炉铁水硅含量预测模型的数据约简处理过程如下：

step1，通过对高炉冶炼过程进行机理分析，对决策表数据进行相关性分析，以及询问现场操作人员的建议，因上一炉铁水硅含量与当前铁水硅含量有非常大的相关性，所以将上一炉铁水硅含量(d1)作为条件属性加入决策表，拟定优先级序列为(按优先级从大到小排列)：上一炉铁水的硅含量d1，炉腹煤气指数c7，实际风速c14，透气性指数c2，鼓风动能c5，热风温度c15，热风压力c13，冷风压力c11，全压差c12，理论燃烧温度c8，炉腹煤气量c6，富氧率c1，顶压c9，标准风速c3，冷风流量c4，富氧压力c10；

step2，对决策表数据进行离散化处理，并构建可辨识矩阵，矩阵中的所有非零元素如表3所示，其中，表3中每一行代表M中的一个非零元素，1代表该元素中包含对应的条件属性，0则表示该元素中不包含对应的条件属性。

表3

d1	c1	c2	c3	c4	……	c15
							0	1	1	0	0	……	1
0	1	1	1	1	……	1
							0	0	1	1	1	……	1
0	0	1	1	1	……	1
							……	……	……	……	……	……	……
1	1	1	1	1	……	1

step3，对可辨识矩阵计算核属性，得到core＝{d1，c15}，删除M中与core相交不为空的元素，M不为空，删除P中的core，P＝{c7，c14，c2，c5，c13，c11，c12，c8，c6，c1，c9，c3，c4，c10}转step4；

step4，初始化约简集必要集

step5，递归约简：

第一层递归，c7是P中第一个元素，所以P并未遍历完，R、BS为空，所以不冲突，d1加入约简，计算BS，进入下一层递归，判断属性c2；

第二层递归，P并未遍历完，c14与BS不冲突，c2加入约简，计算BS，进入下一层递归，判断属性c2；

……

第十五层递归，P所有属性已遍历完，返回顶层，递归结束，输出r为c7，c14，c2，c5，c13，c11，c8，c6，c1，c3；

step6，输出约简R＝{d1，c15，c7，c14，c2，c5，c13，c11，c8，c6，c1，c3}，即属性约简为上一炉铁水硅含量，热风温度，炉腹煤气指数，实际风速，透气性指数，鼓风动能，热风压力，冷风压力，理论燃烧温度，炉腹煤气量，富氧率，标准风速。

算法对比测试如表4所示(数据集来源于UCI标准库，名称_n表示该数据集条件属性值按n段均匀离散)：

表4与传统算法计算结果的对比

对于数据集Zoo，Sonar_2，Sonar_4，Sonar_8，Wine_8，Iono_2，Iono_4，Iono_8，Iono_16，新约简算法均取得了比传统算法匹配度更高的约简结果。以Zoo数据集为例，本算法约简结果中包含最高优先级的条件属性C₁,而传统约简结果中不包含；Wine_8数据集中，本算法约简结果包含高优先级的条件属性C₄，而传统约简结果中不包含；对于数据集Wine_2，Wine_4，两种算法求出的结果相同。

由此可以看出，本发明所提出的基于递归的约简方法所求出的约简与优先级序列的匹配度只会等于或者高于传统算法，表明本发明的方法要优于传统算法。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种用于高炉铁水硅含量预测模型的数据约简处理方法，其特征在于，包括以下步骤：

Step4，初始化约简集必要集

Step6，将约简集R与所有核属性core的并集作为最终的约简集。

2.根据权利要求1所述的方法，其特征在于，对优先级序列中的条件属性依次进行递归求解的具体过程如下：

必要集BS计算公式为：BS_R(M)＝{m(i,j)∈M||m(i,j)∩R|＝1}。

3.根据权利要求1或2所述的方法，其特征在于，所述高炉冶炼条件属性数据的优先级序列P按照优先级从大到小排列如下：

4.一种用于高炉铁水硅含量预测模型的数据约简处理装置，其特征在于，包括：

可辨识矩阵M构建单元，通过对决策数据进行离散处理，如果任意两个样本x_i,x_j具有不同的决策值，且至少有一个样本不是不一致样本，则对它们的条件属性值进行比较，获得可辨识矩阵M的一个元素；

5.根据权利要求4所述的装置，其特征在于，所述约简集R求解单元包括：

必要集BS计算公式为：BS_R(M)＝{m(i,j)∈M||m(i,j)∩R|＝1}。

6.根据权利要求4或5所述的装置，其特征在于，所述高炉冶炼条件属性数据的优先级序列P按照优先级从大到小排列如下：