CN107844679A

CN107844679A - 一种分段式高炉铁水硅含量预测方法及装置

Info

Publication number: CN107844679A
Application number: CN201711091922.8A
Authority: CN
Inventors: 尹林子; 李乐; 蒋朝辉; 许雪梅; 丁家峰
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2018-03-27
Anticipated expiration: 2037-11-08
Also published as: CN107844679B

Abstract

本发明公开了一种分段式高炉铁水硅含量预测方法及装置，该方法包括：步骤1：获取历史高炉冶炼数据并作为样本数据，样本数据包括条件属性数据和决策值，决策值为硅含量；步骤2：建立包括常规决策表、高硅决策表以及低硅决策表的分段式决策表；步骤3：对分段式决策表进行属性约简得到包括常规知识库、高硅知识库以及低硅知识库的分段式知识库，并将各个知识库中决策值恢复为原始数据；步骤4：查找出与待测样本相匹配的知识库，并获取与待测样本相匹配的样本；步骤5：依据相匹配的知识库中与待测样本相匹配的样本的决策值计算出硅含量的预测值。本发明通过上述方法提高了硅含量预测值的准确度。

Description

一种分段式高炉铁水硅含量预测方法及装置

技术领域

本发明涉及一种分段式高炉铁水硅含量预测方法及装置。

背景技术

铁水硅含量为高炉冶炼过程中评定高炉炉况状态和生铁质量的关键指标之一，同时也是表征高炉热状态及其变化的重要标志，对保证高炉顺行具有重要的意义。然而，由于生产工艺限制，目前只能两小时左右检测一次硅含量，无法实时测量，因此，硅含量预测成为高炉冶炼优化控制中必不可少的环节之一。传统的硅含量预测方式是基于数据驱动的铁水硅含量预测方法，常利用相关系数确定输入参数集，并以此建立预测模型，实现硅含量的预测。然而，由于传统方式中只考虑单个参数与硅含量之间的相关性，因此传统的硅含量预测方式存在如下缺陷：(1)易出现输入集冗余，从而加大建模复杂度，影响预测精度(2)可能导致输入集选取不全，造成知识库有缺陷(3)炉况波动大时预测准确度低。

发明内容

本发明的目的是提供一种分段式高炉铁水硅含量预测方法及装置，解决了现有技术中预测模型输入集冗余或者选取不全以及炉况波动大时预测准确度低的问题，提高高炉铁水硅含量预测值的可靠性。

一方面，本发明提供一种分段式高炉铁水硅含量预测方法，包括如下步骤：

步骤1：获取历史高炉冶炼数据，并将获取的历史高炉冶炼数据作为样本数据；

其中，高炉冶炼数据包括条件属性数据和决策属性数据，所述决策属性数据的决策值为硅含量，所述条件属性数据包括富氧率、透气性指数、标准风速、冷风流量、鼓风动能、炉腹煤气量、炉腹煤气指数、理论燃烧温度、顶压、富氧压力、冷风压力、全压差、热风压力、实际风速、热风温度、上炉硅含量中的至少两类数据；

每个样本的数据包括一组条件属性数据和一个决策值；

步骤2：对步骤1中所述样本数据进行离散化处理，并基于离散化处理后的样本数据建立分段式决策表；

其中，分段式决策表包括常规决策表、高硅决策表以及低硅决策表；

所述常规决策表中每行表示离散化处理后的一个样本的数据；

将所述常规决策表的各个样本中大于第一临界值的决策值设置为1，剩余决策值设置为0得到所述高硅决策表；

将常规决策表中小于第二临界值的决策值设置为1，剩余决策值设置为0得到所述低硅决策表；

其中，所述第一临界值大于所述第二临界值；

步骤3：基于粗糙集理论对所述分段式决策表进行属性约简得到相对应的分段式知识库，并将各个知识库中决策值恢复为原始数据；

其中，所述分段式知识库包括与常规决策表、高硅决策表以及低硅决策表对应的常规知识库、高硅知识库以及低硅知识库；

步骤4：将待测样本按照预设匹配优先级与步骤3中的分段式知识库进行匹配直至查找出相匹配的知识库，并获取相匹配的知识库中与所述待测样本相匹配的样本；

其中，识别知识库与所述待测样本是否相匹配的方法为识别知识库中是否存在样本与所述待测样本相匹配；所述预设匹配优先级是分段式知识库中各个知识库与所述待测数据的匹配先后顺序；

步骤5：依据步骤4得到的相匹配的知识库中与所述待测样本相匹配的样本的决策值计算出硅含量的预测值。

优选得到样本数据如表1所示，每行表示一个样本，每列表示条件属性数据或者决策属性数据。

表1

时间	富氧率a₁	透气性指数a₂	标准风速a₃	冷风流量a₄	鼓风动能a₅	……	硅含量a₁₇
								23:40	1.938472	16.59161	252.9083	28.94907	128.5083	……	0.406
0:20	1.943707	16.85488	251.0251	28.73623	130.7197	……	0.597
								1:00	1.953777	17.58165	248.9372	28.49509	131.5314	……	0.396
1:40	1.888147	17.75196	250.1667	28.63752	131.7958	……	0.39
								2:20	1.840605	17.12156	248.6192	28.46348	130.0418	……	0.307
3:00	1.841886	17.47047	248.6527	28.46537	129.159	……	0.318
								……	……	……	……	……	……	……	……
23:00	2.291748	18.30673	253.9333	29.06386	144.1375	……	0.408

此外，若对表1所示样本数据离散化处理后，得到的分段式决策表中的常规决策表如下表2所示，其中常规决策表中每行表示离散化处理后的一个样本的条件属性数据和决策值；

表2

富氧率a₁	透气性指数a₂	标准风速a₃	冷风流量a₄	鼓风动能a₅	……	硅含量a₁₇
							6	3	6	6	5	……	3
6	4	5	5	6	……	6
							6	5	4	4	6	……	3
6	6	4	5	6	……	3
							5	4	4	4	5	……	1
5	5	4	4	5	……	2
							……	……	……	……	……	……	……
8	7	6	6	9	……	3

再按照常规决策表中硅含量与第一临界值、第二临界值的大小关系，将硅含量设置为1或者0得到高硅决策表和低硅决策表。

优选预设匹配优先级为最高为高硅知识库，其次是低硅知识库，最低为常规知识库，即步骤4中查找与所述待测样本相匹配的知识库时，先匹配高硅知识库，若高硅知识库不匹配，再匹配低硅知识库和常规知识库。其他时，预设匹配优先级还可以是最高是低硅知识库，其次是高硅知识库，最低为常规知识库。

优选地，所述步骤4包括如下步骤：

步骤41：按照所述匹配优先级计算待测样本与知识库中各个样本的距离D，并判断是否存在距离D等于0的样本；

若存在，存在距离D等于0的样本的知识库为与所述待测样本相匹配的知识库，所述相匹配的知识库中满足距离D等于0的样本为与所述待测样本相匹配的样本；

若所有的知识库均不存在距离D等于0的样本，执行下一步骤42；

其中，知识库中样本与所述待测样本的距离D等于0时表示所述待测样本的条件属性数据与所述知识库中样本的条件属性数据之间差异最小；

步骤42：获取所述待测样本与优先级最低的知识库中各个样本的距离D中的最小值D_min，所述优先级最低的知识库为所述待测样本相匹配的知识库，优先级最低的知识库中距离D为最小值D_min的样本为与所述待测样本相匹配的样本；

其中，优先级最低的知识库为常规知识库；

其中，所述待测样本与知识库中样本的距离D的计算公式如下：

其中，x_aj表示待测样本x_a中第j个条件属性对应的数据；x_ij”表示知识库中第i个样本中第j个条件属性对应的数据，待测样本x_a中第j个条件属性与知识库中第i个样本中第j个条件属性为同一条件属性，m为知识库中条件属性的个数，i为正整数，j为正整数。

若预设匹配优先级为高硅知识库最高，其次是低硅知识库，最低为常规知识库，则先计算待测样本与硅知识库中各个样本的距离D，并判断高硅知识库中是否存在样本与待测样本的距离D等于0，若存在，高硅知识库为与待测样本相匹配的知识库，高硅知识库中满足距离D等于0的样本为与待测样本相匹配的样本；

若高硅知识库内不存在样本与待测样本的距离D不等于0，那么按照匹配优先级计算待测样本与低硅知识库中各个样本的距离D，采用相同的方法判断低硅知识库与待测样本是否匹配，若不匹配，则采用相同的方法判断常规知识库与待测样本是否匹配。

若都不满足，则采取步骤42中所述的方法，获取待测样本与优先级最低的知识库中各个样本的距离D的最小值，优先级最低的知识库为与所述待测样本相匹配的知识库，优先级最低的知识库内距离D等于最小值的样本为与待测样本相匹配的样本，此时优先级最低的知识库为常规知识库。

优选地，步骤5中所述预测值为相匹配的知识库中与所述待测样本相匹配样本的决策值的平均值。

优选地，步骤3包括如下步骤：

步骤31：基于粗糙集理论获取所述分段式决策表对应的分段式约简集；

其中，所述分段式约简集包括与所述常规决策表、高硅决策表以及低硅决策表对应的常规约简集、高硅约简集和低硅约简集；

步骤32：删除所述分段式决策表中各个决策表内不包含对应约简集中条件属性的数据得到所述分段式知识库；

步骤33：将所述分段式知识库中常规知识库、高硅知识库以及低硅知识库中的决策值恢复为原始数据；

其中，步骤31中获取决策表对应的约简集的过程包括如下步骤：

步骤311：初始化约简集并获取条件属性集A＝{a₁,a₂,...,a_j,...,a_n}；

其中，a_j表示第j个条件属性，j＝1,2,...,n；

步骤312：计算条件属性集A中每一个条件属性a_j的属性重要度的增量△(a_j)；

步骤313：将步骤312中属性重要度的增量最大的条件属性加入约简集R，并在所述条件属性集A中删除所述增量最大的条件属性；

步骤314：重复步骤312，直至属性重要度的增量的最大值为0，得到约简集R＝{a′₁,a′₂,…,a′_M}；

其中，M表示步骤314得到的约简集R中条件属性的数量，M≤n，a′_M∈A；

步骤315：对步骤314中的约简集R中的条件属性逐个进行属性重要度变化测试，根据测量结果删除约简集R中对属性重要度没有影响的条件属性。

针对常规决策表、高硅决策表以及低硅决策表分别通过步骤311-315得到对应的常规约简集、高硅约简集和低硅约简集。

经过约简操作后得到的分段式知识库中各个知识库中条件属性的数量少于对应决策表中条件属性的数量。例如常规决策表中条件属性包括：富氧率、透气性指数、标准风速、冷风流量、鼓风动能、炉腹煤气量、炉腹煤气指数、理论燃烧温度、顶压、富氧压力、冷风压力、全压差、热风压力、实际风速、热风温度、上炉硅含量，一共16类，基于粗糙集理论得到的常规约简集为富氧率、透气性指数、冷风流量、鼓风动能、富氧压力、炉腹煤气量、全压差、热风温度、上炉硅含量，一共9类，那么将常规决策表中不包含该9类条件属性的数据删除得到了常规知识库，故可知，常规知识库中也包括该9类条件属性数据。

优选地，属性重要度的增量△(a_j)计算公式如下所示：

POS_R(U)＝{x||d([x]_R)|＝1)}

其中，表示决策表关于R+a_j的正域，POS_R(U)表示决策表关于R的正域；d([x]_R)表示样本集[x]_R的决策值集，|d([x]_R)|＝1表示样本集[x]_R的决策值集中只包含一个决策值，[x]_R表示关于属性集R完全相同的样本集合。

采用下述公式实现步骤315中对条件属性a′_j逐个进行属性重要度变化测试：

满足上述等式，则表示删除被测试的条件属性a′_j对属性重要度没有影响，则删除约简集R中该条件属性a′_j。

优选地，步骤2中按照如下公式对所述样本数据进行离散化处理：

其中，x_ij′表示第i个样本中第j个条件属性数据或者决策属性数据离散化处理后的值，N表示样本总数，n为条件属性的数量，j取值为1至n之间时，j对应条件属性，j取值为n+1时，j对应决策属性，floor表示向下取整函数，step表示步长，步长step的计算公式如下所示：

step＝A_j/k

其中，A_j表示在所有样本中第j个条件属性数据或者决策属性数据的变化范围，k为非零正整数，A_j的计算公式如下所示：

A_j＝x_jmax-x_jmin

其中，x_jmax表示在所有样本中第j个条件属性数据或者决策属性数据的最大值，x_jmin表示在所有样本中第j个条件属性数据或者决策属性数据的最小值。

如上述表1中的数据经过离散化处理后，变为表2中的整数。

优选地，步骤1中还执行对历史高炉冶炼数据进行剔除异常值以及补全数据的预处理操作；

其中，剔除异常值包括如下步骤：

首先，计算高炉冶炼数据中各个条件属性数据x_ij的残差V_ij；

然后，计算第j个条件属性a_j的标准差σ_j；

最后，依据拉依达准则法除去异常数据；

其中，若|V_ij|>3σ_j，表示数据x_ij为异常数据，残差V_ij和标准差σ_j的计算公式如下所示：

其中，V_ij表示第i个样本中第j个条件属性数据x_ij的残差，表示在所有的样本中条件属性a_j对应数据的平均值，a_j表示第j个条件属性，N表示样本总量，n表示条件属性的总数；

其中，补全数据的过程为利用被删除的异常数据x_ij的前一个非异常数据x_qj和后一个非异常数据x_pj进行补全；

其中，被删除的异常数据x_ij的补全值采用公式计算：

其中，x_qj表示第q个样本中第j个条件属性数据，x_pj表示第p个样本中第j个条件属性数据，p为被删除的异常数据x_ij的前一个非异常数据x_pj对应的样本位置,q被删除的异常数据x_ij的后一个非异常数据x_qj对应的样本位置。

另一方面，本发明还提供一种分段式高炉铁水硅含量预测装置，包括：

高炉冶炼数据获取单元，用于获取历史高炉冶炼数据，并将获取的历史高炉冶炼数据作为样本数据；

每个样本的数据包括一组条件属性数据和一个决策值

分段式决策表构建单元，用于对所述样本数据进行离散化处理，并基于离散化处理后的样本数据建立分段式决策表；

所述常规决策表中每行表示离散化处理后的一个样本的数据，所述分段式决策表构建单元将所述常规决策表的各个样本中大于第一临界值的决策值设置为1，剩余决策值设置为0得到所述高硅决策表；所述分段式决策表构建单元将常规决策表中小于第二临界值的决策值设置为1，剩余决策值设置为0得到所述低硅决策表；

其中，所述第一临界值大于所述第二临界值；

分段式知识库构建单元，用于基于粗糙集理论对所述分段式决策表进行属性约简得到相对应的分段式知识库，并将各个知识库中决策值恢复为原始数据；

硅含量的预测单元，用于将待测样本按照预设匹配优先级与分段式知识库进行匹配直至查找出相匹配的知识库，并获取相匹配的知识库中与所述待测样本相匹配的样本；以及用于依据相匹配的知识库中与所述待测样本相匹配的样本的决策值计算出硅含量的预测值；

其中，所述预设匹配优先级是各个知识库与所述待测数据的匹配先后顺序。

识别知识库与所述待测样本是否相匹配的方法为识别知识库中是否存在样本与所述待测样本相匹配。

优选地，所述硅含量的预测单元包括：

样本距离计算单元，用于按照所述匹配优先级计算待测样本与知识库中各个样本的距离D；

匹配单元，用于判断是否存在距离D等于0的样本的知识库，若存在，存在D等于0的样本的知识库为与所述待测样本相匹配的知识库，所述相匹配的知识库中满足距离D等于0的样本为与所述待测样本相匹配的样本；

样本最小距离计算单元，用于所述匹配单元得出所有的知识库均不存在距离D等于0的样本时，获取所述待测样本与优先级最低的知识库中各个样本的距离D中的最小值D_min；

其中，所述优先级最低的知识库为所述待测样本相匹配的知识库，优先级最低的知识库中距离D为最小值D_min的样本为与所述待测样本相匹配的样本；

其中，优先级最低的知识库为常规知识库；

所述待测样本与知识库中样本的距离D的计算公式为：

优选地，分段式知识库构建单元包括：

分段式约简集构建单元，用于基于粗糙集理论获取所述分段式决策表对应的分段式约简集；

分段式决策表删减单元，用于删除所述分段式决策表中各个决策表内不包含对应约简集中条件属性的数据得到所述分段式知识库；

决策值复原单元，用于将所述分段式知识库中常规知识库、高硅知识库以及低硅知识库中的决策值恢复为原始数据；

其中，分段式约简集构建单元包括：

约简集初始化单元，用于初始化约简集并获取条件属性集A＝{a₁,a₂,...,a_j,...,a_n}；

其中，a_j表示第j个条件属性，j＝1,2,...,n；

约简集处理单元，用于计算条件属性集A中每一个条件属性a_j的属性重要度的增量△(a_j)，并将属性重要度的增量最大的条件属性加入约简集R，并在所述条件属性集A中删除所述增量最大的条件属性，再重复计算删除条件属性后的条件属性集A中每一个条件属性a_j的属性重要度的增量和将属性重要度的增量最大的条件属性加入约简集R，以及重复在所述条件属性集A中删除所述增量最大的条件属性，直至属性重要度的增量的最大值为0，得到约简集R＝{a′₁,a′₂ ′,…,a′_M}；

其中，M表示最终得到的约简集R中条件属性的数量，M≤n，a′_M∈A；

所述约简集处理单元，用于对得到的约简集R中条件属性逐个进行属性重要度变化测试，根据测量结果删除约简集R中对属性重要度没有影响的条件属性。

有益效果

与现有预测方法相比，本发明的优点有：依据历史高炉冶炼数据作为样本数据，提高了数据来源的可靠性，并依据样本数据构建了分段式决策表，进而得到了分段式知识库，其中分段式决策表是依据决策值(硅含量)划分的，实现了高硅、低硅和常规下的划分，提高炉况波动(高硅波动、低硅波动)下的预测准确度，提高待测样本硅含量预测值的可靠性；此外，基于粗糙集理论对分段式决策表进行属性约简，在保留信息完整的前提下，获得了包含完整信息精简输入集，减小了多重相关数据对预测的危害，有效地提升了输入集质量，提高硅含量预测命中率。

本发明优选采用匹配优先级为高硅知识库、低硅知识库以及常规知识库的规则，对样本进行匹配，确保待测数据匹配到最合适的知识库，进而提高预测精度。

本发明获取到历史高炉冶炼数据后进行了剔除异常值以及补全数据的预处理操作，进而提高了样本数据的可靠度，提高硅含量预测值的准确度。

附图说明

图1是本发明提供的一种分段式高炉铁水硅含量预测方法的示意图；

图2是本发明提供的条件属性加入约简集后正域大小变化示意图。

具体实施方式

下面将结合实施例对本发明做进一步的说明。本实施例中以国内某钢铁厂2650m³高炉2015年1月1号至2015年6月1号采集的实际高炉生产数据为例说明。

如图1所示，本实施例中一种分段式高炉铁水硅含量预测方法，包括以下步骤：

本实施例中，高炉冶炼数据包括条件属性数据和决策属性数据，其中，决策属性数据的决策值为硅含量，条件属性数据包括富氧率、透气性指数、标准风速、冷风流量、鼓风动能、炉腹煤气量、炉腹煤气指数、理论燃烧温度、顶压、富氧压力、冷风压力、全压差、热风压力、实际风速、热风温度、上炉硅含量，一共16类数据。每个样本包括一组条件属性数据和一个决策值，如表格3所示，每行表示一个样本，每列表示条件属性数据或者决策属性数据，其中，x_i表示第i个样本，a_j表示第j个条件属性，a_n+1表示决策属性，n表示条件属性的数量，N表示样本数量，本实施例中n等于16，N等于1223，a₁₇表示决策属性的决策值。

表3

富氧率a₁

透气性指数a₂

……

实际风速a_j

……

上炉硅含量a_n

硅含量a_n+1

x₁

x₂

……

x_i

x_ij

……

x_N

本实施例中优选步骤1中执行对历史高炉冶炼数据进行剔除异常值以及补全数据的预处理操作。

其中，剔除异常值包括如下步骤：

首先，计算高炉冶炼数据中各个条件属性数据x_ij的残差V_ij；然后，计算第j个条件属性a_j的标准差σ_j；最后，依据拉依达准则法除去异常数据。

其中，补全数据的过程为利用被删除的异常数据x_ij的前一个非异常数据x_qj和后一个非异常数据x_pj进行补全；被删除的异常数据x_ij的补全值采用公式计算：

需要说明的是，仅对条件属性数据进行预处理，因此上述公式中j的取值为1～n，如果出现异常决策值，则直接将该样本删除。

步骤2：对步骤1中样本数据进行离散化处理，并基于离散化处理后的样本数据建立分段式决策表。

需要说明的是，一方面，对条件属性数据以及决策值均进行离散化处理，因此下述公式中j的取值为1～n+1。其中，按照如下公式对所述样本数据进行离散化处理：

step＝A_j/k

A_j＝x_jmax-x_jmin

其中，x_jmax表示在所有样本中第j个条件属性数据或者决策属性数据的最大值，x_jmin表示在所有样本中第j个条件属性数据或者决策属性数据的最小值。本实施中取k为10。

另一方面，基于离散化处理后的样本数据建立常规决策表T₁、高硅决策表T₂以及低硅决策表T₃。得到常规决策表T₁如上述表2所示，本实施例中常规决策表T₁包含了16类条件属性数据以及决策属性数据，其中各个数据为正整数。在常规决策表T₁的基础上，将各个样本中大于第一临界值c_th1的决策值设置为1，剩余决策值设置为0得到高硅决策表T₂；在常规决策表T₁的基础上，将各个样本中小于第二临界值c_th2的决策值设置为1，剩余决策值设置为0得到低硅决策表T₃，其中，第一临界值c_th1大于第二临界值c_th2，其中，第一临界值c_th1的范围是(0.50,0.78)，第二临界值c_th2的范围是(0.10,0.34)，本实施例c_th1＝0.57，c_th2＝0.25。

本实施例中样本总数N为1223，随机从中选取1000条样本作为训练样本，剩余223条样本为待测样本，用于验证本发明的可靠性。其中，对于训练样本，将离散化的条件属性数据以及离散化的决策值组成规则为1000×17的常规决策表T₁；在对常规决策表T₁中的决策值进行变化得到1000×17高硅决策表T₂以及1000×17低硅决策表T₃。

步骤3：基于粗糙集理论对分段式决策表进行属性约简得到相对应的分段式知识库，并将各个知识库中决策值恢复为原始数据。

优选地，步骤3包括如下步骤31-步骤33：

步骤31：基于粗糙集理论获取分段式决策表对应的分段式约简集。具体的，分段式约简集包括与常规决策表T₁、高硅决策表T₂以及低硅决策表T₃对应的常规约简集R₁、高硅约简集R₂和低硅约简集R₃；

其中，获取决策表对应的约简集的过程包括如下步骤311-步骤315：

步骤311：初始化约简集并获取条件属性集A＝{a₁,a₂,...,a_j,...,a_n}，a_j表示第j个条件属性，j＝1,2,...,n；

POS_R(U)＝{x||d([x]_R)|＝1)}

步骤313：将步骤312中属性重要度的增量最大的条件属性加入约简集R，并在条件属性集A中删除所述增量最大的条件属性；

步骤314：重复步骤312，直至属性重要度的增量的最大值为0，得到约简集R＝{a′₁,a′₂,…,a′_M}，M表示步骤314得到的约简集R中条件属性的数量，M≤n，a′_M∈A；

步骤315：对步骤314中的约简集R中的条件属性逐个进行属性重要度变化测试，根据测量结果删除约简集R中对属性重要度没有影响的条件属性。其中，对条件属性a′_j进行属性重要度变化测试满足时，表示删除被测试的条件属性a′_j对属性重要度没有影响，则删除约简集R中该条件属性a′_j。如图2所示为逐个条件属性加入约简集后正域大小变化示意图。

针对常规决策表T₁、高硅决策表T₂以及低硅决策表T₃分别通过步骤311-315得到对应的常规约简集R₁、高硅约简集R₂和低硅约简集R₃。

例如，本实施例中得到的常规约简集R₁：富氧率、透气性指数、冷风流量、鼓风动能、富氧压力、炉腹煤气量、全压差、热风温度、上炉硅含量；

高硅约简集R₂：透气性指数、标准风速、理论燃烧温度、富氧压力、实际风速、上炉硅含量；

低硅约简集R₃：富氧率、标准风速、富氧压力、冷风压力、实际风速、上炉硅含量。

步骤32：删除分段式决策表中各个决策表内不包含对应约简集中条件属性的数据得到分段式知识库。

具体的，删除常规决策表T₁不包含常规约简集R₁的数据得到常规知识库Rule₁，删除高硅决策表T₂不包含高硅约简集R₂的数据得到高硅知识库Rule₂，删除低硅决策表T₃不包含低硅约简集R₃的数据得到低硅知识库Rule₃。

步骤33：将分段式知识库中常规知识库、高硅知识库以及低硅知识库中的决策值恢复为原始数据。

将离散化后的决策值替换为原来的真实硅含量。例如，本实施例中得到常规约简集R₁：富氧率、透气性指数、冷风流量、鼓风动能、富氧压力、炉腹煤气量、全压差、热风温度、上炉硅含量时，对应得到决策值恢复为原始数据的常规知识库Rule₁如表4所示：

表4

富氧率a₁	透气性指数a₂	冷风流量a₄	鼓风动能a₅	…	上炉硅含量a₁₆	硅含量a₁₇
							6	3	6	5	…	3	0.406
6	4	5	6	…	3	0.597
							……	……	……	……	…	……	……
6	6	5	6	…	3	0.39

步骤4：将待测样本按照预设匹配优先级与步骤3中的分段式知识库进行匹配直至查找出相匹配的知识库，并获取相匹配的知识库中与待测样本相匹配的样本。

其中，步骤4包括如下步骤：

步骤41：按照匹配优先级计算待测样本与知识库中各个样本的距离D，并判断是否存在距离D等于0的样本。本实施例中优选匹配高硅知识库，其次是低硅知识库，最后是常规知识库。

若存在，存在距离D等于0的样本的知识库为与待测样本相匹配的知识库，相匹配的知识库中满足距离D等于0的样本为与待测样本相匹配的样本；若所有的知识库均不存在距离D等于0的样本，执行下一步骤42；

步骤42：获取待测样本与优先级最低的知识库中各个样本的距离D中的最小值D_min，优先级最低的知识库为待测样本相匹配的知识库，优先级最低的知识库中满足距离D为最小值D_min的样本为与待测样本相匹配的样本。

其中，待测样本x_a＝(x_a1,x_a2,...,x_aj,...,x_am)与知识库中样本的距离D的计算公式如下：

其中，x_aj表示待测样本x_a中第j个条件属性对应的数据；x_ij”表示知识库中第i个样本中第j个条件属性对应的数据，待测样本x_a中第j个条件属性与知识库中第i个样本中第j个条件属性为同一条件属性，m为知识库中条件属性的个数，经过约简后，知识库内的条件属性的个数m应当小于对应决策表中条件属性的个数n，i为正整数，j为正整数。

步骤5：依据步骤4得到的相匹配的知识库中与待测样本相匹配的样本的决策值计算出硅含量的预测值。具体的，本实施例优选预测值为相匹配的知识库中与待测样本相匹配样本的决策值的平均值。

基于上述一种分段式高炉铁水硅含量预测方法，本发明提供的一种分段式高炉铁水硅含量预测装置，包括：

高炉冶炼数据获取单元，用于获取历史高炉冶炼数据，并将获取的历史高炉冶炼数据作为样本数据；其中，优选高炉冶炼数据获取单元还用于对历史高炉冶炼数据进行预处理。

分段式决策表构建单元，用于对样本数据进行离散化处理，并基于离散化处理后的样本数据建立分段式决策表，其中，分段式决策表包括常规决策表、高硅决策表以及低硅决策表。

分段式决策表构建单元将常规决策表的各个样本中大于第一临界值的决策值设置为1，剩余决策值设置为0得到高硅决策表；分段式决策表构建单元将常规决策表中小于第二临界值的决策值设置为1，剩余决策值设置为0得到低硅决策表。

分段式知识库构建单元，用于基于粗糙集理论对分段式决策表进行属性约简得到相对应的分段式知识库，并将各个知识库中决策值恢复为原始数据，分段式知识库包括与常规决策表、高硅决策表以及低硅决策表对应的常规知识库、高硅知识库以及低硅知识库。

硅含量的预测单元，用于将待测样本按照预设匹配优先级与分段式知识库进行匹配直至查找出相匹配的知识库，并获取相匹配的知识库中与待测样本相匹配的样本；以及用于依据相匹配的知识库中与待测样本相匹配的样本的决策值计算出硅含量的预测值。

其中，硅含量的预测单元包括：

样本距离计算单元，用于按照匹配优先级计算待测样本与知识库中各个样本的距离D；

匹配单元，用于判断是否存在距离D等于0的样本的知识库，若存在，存在D等于0的样本的知识库为与待测样本相匹配的知识库，相匹配的知识库中满足距离D等于0的样本为与待测样本相匹配的样本；

样本最小距离计算单元，用于匹配单元得出所有的知识库均不存在距离D等于0的样本时，获取待测样本与优先级最低的知识库中各个样本的距离D中的最小值D_min，其中，优先级最低的知识库为待测样本相匹配的知识库，优先级最低的知识库中满足距离D为最小值D_min的样本为与待测样本相匹配的样本。

待测样本与知识库中样本的距离D请参照上述相关描述，再此不赘述。

优选地，分段式知识库构建单元包括：

分段式约简集构建单元，用于基于粗糙集理论获取分段式决策表对应的分段式约简集；

分段式决策表删减单元，用于删除分段式决策表中各个决策表内不包含对应约简集中条件属性的数据得到分段式知识库；

决策值复原单元，用于将分段式知识库中常规知识库、高硅知识库以及低硅知识库中的决策值恢复为原始数据；

其中，分段式约简集构建单元包括：

约简集处理单元，用于计算条件属性集A中每一个条件属性a_j的属性重要度的增量△(a_j)，并将属性重要度的增量最大的条件属性加入约简集R，并在条件属性集A中删除增量最大的条件属性，再重复计算删除条件属性后的条件属性集A中每一个条件属性a_j的属性重要度的增量和将属性重要度的增量最大的条件属性加入约简集R，以及重复在条件属性集A中删除增量最大的条件属性，直至属性重要度的增量的最大值为0，得到约简集R＝{a′₁,a′₂,…,a′_M}；

约简集处理单元，用于对得到的约简集R中条件属性逐个进行属性重要度变化测试，根据测量结果删除约简集R中对属性重要度没有影响的条件属性。

属性重要度的增量△(a_j)计算公式、属性重要度变化测试公式，离散化处理公式及预处理操作的公式可参照上述相关描述，在此不再赘述。

需要强调的是，本发明所述的实例是说明性的，而不是限定性的，因此本发明不限于具体实施方式中所述的实例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，不脱离本发明宗旨和范围的，不论是修改还是替换，同样属于本发明的保护范围。

Claims

1.一种分段式高炉铁水硅含量预测方法，其特征在于：包括如下步骤：

每个样本的数据包括一组条件属性数据和一个决策值；

其中，所述第一临界值大于所述第二临界值；

其中，识别知识库与所述待测样本是否相匹配的方法为识别知识库中是否存在样本与所述待测样本相匹配；

所述预设匹配优先级是分段式知识库中各个知识库与所述待测数据的匹配先后顺序；

2.根据权利要求1所述的方法，其特征在于：所述步骤4包括如下步骤：

其中，优先级最低的知识库为常规知识库；

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>D</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mrow> <mo>|</mo> <mrow> <msub> <mi>x</mi> <mrow> <mi>a</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msup> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <mo>&prime;</mo> <mo>&prime;</mo> </mrow> </msup> </mrow> <mo>|</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>...</mn> <mo>,</mo> <mi>m</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>

3.根据权利要求1所述的方法，其特征在于：步骤5中所述预测值为相匹配的知识库中与所述待测样本相匹配样本的决策值的平均值。

4.根据权利要求1所述的方法，其特征在于：步骤3包括如下步骤：

其中，a_j表示第j个条件属性，j＝1,2,...,n；

步骤314：重复步骤312，直至属性重要度的增量的最大值为0，得到约简集R＝{a₁′,a₂′,…,a′_M}；

5.根据权利要求4所述的方法，其特征在于：属性重要度的增量△(a_j)计算公式如下所示：

<mrow> <mi>&Delta;</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mo>|</mo> <msub> <mi>POS</mi> <mrow> <mo>{</mo> <mi>R</mi> <mo>+</mo> <msub> <mi>a</mi> <mi>j</mi> </msub> <mo>}</mo> </mrow> </msub> <mrow> <mo>(</mo> <mi>U</mi> <mo>)</mo> </mrow> <mo>|</mo> <mo>-</mo> <mo>|</mo> <msub> <mi>POS</mi> <mi>R</mi> </msub> <mrow> <mo>(</mo> <mi>U</mi> <mo>)</mo> </mrow> <mo>|</mo> </mrow>

POS_R(U)＝{x||d([x]_R)|＝1)}

<mrow> <msub> <mrow> <mo>&lsqb;</mo> <mi>x</mi> <mo>&rsqb;</mo> </mrow> <mi>R</mi> </msub> <mo>=</mo> <mo>{</mo> <mi>y</mi> <mo>&Element;</mo> <mi>U</mi> <mo>|</mo> <mi>a</mi> <mrow> <mo>(</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>a</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>,</mo> <mo>&ForAll;</mo> <mi>a</mi> <mo>&Element;</mo> <mi>R</mi> <mo>}</mo> </mrow>

6.根据权利要求1所述的方法，其特征在于：步骤2中按照如下公式对所述样本数据进行离散化处理：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msup> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&prime;</mo> </msup> <mo>=</mo> <mfrac> <mrow> <mi>f</mi> <mi>l</mi> <mi>o</mi> <mi>o</mi> <mi>r</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>s</mi> <mi>t</mi> <mi>e</mi> <mi>p</mi> </mrow> </mfrac> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>N</mi> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> </mfenced>

其中，x_ij′表示第i个样本中第j个条件属性数据或者决策属性数据离散化处理后的值，N表示样本总数，n为条件属性的数量，j取值为1至n之间时，j对应条件属性；j取值为n+1时，j对应决策属性，floor表示向下取整函数，step表示步长，步长step的计算公式如下所示：

step＝A_j/k

A_j＝x_jmax-x_jmin

7.根据权利要求1所述的方法，其特征在于：步骤1中还执行对历史高炉冶炼数据进行剔除异常值以及补全数据的预处理操作；

其中，剔除异常值包括如下步骤：

然后，计算第j个条件属性a_j的标准差σ_j；

最后，依据拉依达准则法除去异常数据；

<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>V</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>a</mi> <mi>j</mi> </msub> <mo>&OverBar;</mo> </mover> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>N</mi> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> </mrow> </mtd> </mtr> </mtable> <mo>;</mo> </mrow>

<mrow> <msub> <mi>&sigma;</mi> <mi>j</mi> </msub> <mo>=</mo> <msqrt> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msup> <msub> <mi>V</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mn>2</mn> </msup> <mo>)</mo> <mo>/</mo> <mo>(</mo> <mi>N</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </msqrt> </mrow>

其中，V_ij表示第i个样本中第j个条件属性数据x_ij的残差，表示在所有的样本中条件属性a_j对应数据的平均值，N表示样本总量，n表示条件属性的总数；

其中，被删除的异常数据x_ij的补全值采用公式计算：

8.一种分段式高炉铁水硅含量预测装置，其特征在于：包括：

每个样本的数据包括一组条件属性数据和一个决策值；

其中，所述第一临界值大于所述第二临界值；

分段式知识库构建单元，基于粗糙集理论对所述分段式决策表进行属性约简得到相对应的分段式知识库，并将各个知识库中决策值恢复为原始数据；

其中，所述预设匹配优先级是分段式知识库中各个知识库与所述待测数据的匹配先后顺序。

9.根据权利要求8所述的装置，其特征在于：所述硅含量的预测单元包括：

其中，优先级最低的知识库为常规知识库；

所述待测样本与知识库中样本的距离D的计算公式为：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>D</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mrow> <mo>|</mo> <mrow> <msub> <mi>x</mi> <mrow> <mi>a</mi> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msup> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mrow> <mo>&prime;</mo> <mo>&prime;</mo> </mrow> </msup> </mrow> <mo>|</mo> </mrow> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>m</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>

10.根据权利要求8所述的装置，其特征在于：分段式知识库构建单元包括：

其中，分段式约简集构建单元包括：

其中，a_j表示第j个条件属性，j＝1,2,...,n；

约简集处理单元，用于计算条件属性集A中每一个条件属性a_j的属性重要度的增量△(a_j)，并将属性重要度的增量最大的条件属性加入约简集R，并在所述条件属性集A中删除所述增量最大的条件属性，再重复计算删除条件属性后的条件属性集A中每一个条件属性a_j的属性重要度的增量和将属性重要度的增量最大的条件属性加入约简集R，以及重复在所述条件属性集A中删除所述增量最大的条件属性，直至属性重要度的增量的最大值为0，得到约简集R＝{a₁′,a₂′,…,a′_M}；