CN101545026A

CN101545026A - 一种转炉炼钢吹氧量影响因素的权重确定方法

Info

Publication number: CN101545026A
Application number: CN200910011482A
Authority: CN
Inventors: 韩敏; 张俊杰
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2009-05-08
Filing date: 2009-05-08
Publication date: 2009-09-30

Abstract

本发明属于自动化控制技术领域，涉及一种转炉炼钢生产过程中吹氧量影响因素的权重计算方法。选取影响转炉炼钢吹氧量的因素作为条件属性，并以吹氧量作为决策属性，首先采用模糊c均值(FCM)聚类算法对转炉炼钢连续的属性数据离散化，然后对传统的贝叶斯粗糙集进行改进，在此基础上定义一个γ依赖度函数，并证明出该函数具有随着条件属性的增加而单调递增的性质，最终利用γ依赖度函数的单调特性确定影响吹氧量的各属性权重。本发明完全依赖于数据，避免主观因素的引入，确定合理的吹氧量影响因素的权重，可以更精确地计算吹氧量，对于生产出合格的钢水至关重要。

Description

一种转炉炼钢吹氧量影响因素的权重确定方法

技术领域

本发明属于自动化控制技术领域，涉及转炉炼钢生产静态模型的建立，特别涉及一种转炉炼钢生产过程中吹氧量影响因素的权重计算方法。

背景技术

转炉炼钢生产是将铁水降碳、升温、降低磷硫等杂质元素含量，获得合格钢水的工业过程。通过顶吹氧气将铁水中的杂质元素氧化，加入造渣材料将杂质从钢水中脱除。供氧制度是转炉炼钢生产中重要的工艺制度之一，供氧的好坏直接影响着终点钢水的质量。转炉中的反应复杂，影响吹氧量的因素很多，并且各因素的影响程度又不相同，给吹氧量的确定带来了很大困难。建立合理的吹氧量计算模型首先需要确定吹氧量各影响因素的权重，然而在实际中，属性权重往往通过专家经验确定，引入了过多的主观因素，影响了模型的精度。因此确定合理的吹氧量影响因素的权重，可以更精确地计算吹氧量，对于生产出合格的钢水至关重要。

转炉炼钢吹氧量影响因素的权重计算是一种确定属性权重的方法。目前，确定属性权重方法主要有：

基于粗糙集理论确定属性的权重(刘盾，胡培，蒋朝哲.一种基于粗集理论的属性权重构造方法[J].系统工程与电子技术，2008，30(8)：1481-1484)；

将模糊理论和粗糙集理论相结合确定属性的权重(柳炳祥，李海林.基于模糊粗糙集的因素权重分配方法[J].控制与决策，2007，22(12)：1437-1440)。

上述两种方法都是基于传统的粗糙集理论确定属性权重，仅利用数据本身提供的信息，无需任何先验的专家知识，避免了主观因素的引入。但传统的粗糙集理论在处理集合间关系时过于严格，容易将有用的信息也剔出掉，不利于决策分析。

发明内容

本发明要解决的技术问题是提供一种转炉炼钢吹氧量影响因素的权重确定方法。

本发明的技术方案为：首先采用模糊c均值(FCM)聚类算法对转炉炼钢连续的属性数据离散化，然后对传统的贝叶斯粗糙集进行改进，在此基础上定义一个γ依赖度函数，并证明出该函数具有随着条件属性的增加而单调递增的性质，最终利用这个性质确定影响吹氧量的属性权重。

具体步骤如下：

步骤1：选取影响转炉炼钢吹氧量的因素作为条件属性，如铁水碳含量、铁水硅含量、钢种等，以吹氧量作为决策属性，采用模糊c均值(Fuzzy C-Means，FCM)聚类算法对连续的属性数据离散化。

FCM聚类算法是基于目标函数的聚类算法，目标函数如下式：

J_{m} = Σ_{i = 1}^{c} Σ_{k = 1}^{n} {(u_{ik})}^{m} {(d_{ik})}^{2} - - - (1)

其中，c为分类个数，m为加权指数，n为样本个数，u_ik为第k个样本对于第i类的隶属度，d_ik为第k个样本与第i类的典型样本之间的失真度，通常用两个矢量间的距离来衡量。最后使目标函数达到最小值，作为最终的分类结果。

(1)初步选择聚类个数的范围，在每个聚类数的情况下，分别采用模糊c均值聚类算法对连续属性数据聚类；FCM算法步骤具体如下：

A：确定聚类类别数c，2≤c<n，n是数据个数，设定迭代停止阈值ε，初始化聚类原型模式P⁽⁰⁾，设置迭代计数器b＝0。

B：计算出新的隶属度矩阵U^(b+1)，矩阵中各元素可以通过下式求出，

u_{ik}^{(b + 1)} = \frac{1}{Σ_{j = 1}^{c} {(\frac{d_{ik}^{(b)}}{d_{jk}^{(b)}})}^{\frac{2}{m - 1}}} - - - (2)

如果存在i，k，使得

d_{ik}^{(b)} = 0,

则

u_{ik}^{(b + 1)} = 1,

且对l≠k，

u_{il}^{(b + 1)} = 0 .

并且可以证明各元素对应于各分类的隶属度之和为1。

C：更新聚类原型模式P^(b+1)，矩阵中各分类的新聚类中心可通过下式计算出来

p_{i}^{(b + 1)} = \frac{Σ_{k = 1}^{n} {(u_{ik}^{(b + 1)})}^{m} {gx}_{k}}{Σ_{k = 1}^{n} {(u_{ik}^{(b + 1)})}^{m}} - - - (3)

式中x_k为第k条样本数据。

D：如果‖P^(b)-P^(b+1)‖<ε，则算法停止，否则令b＝b+1，转向步骤二继续执行。

(2)将取各聚类数时的聚类结果代入到由Xie和Beni在1991年提出的有效性评价函数中，以使该函数值最小的聚类数作为最佳的聚类数。有效性评价函数具体形式如下；

V_{XB} = \frac{Σ_{i = 1}^{c} Σ_{j = 1}^{N} μ_{ij}^{2} {| | x_{j} - v_{i} | |}^{2}}{n (\min_{i &NotEqual; k} {| | v_{i} - v_{k} | |}^{2})} - - - (4)

其中c为聚类个数，N为数据个数，x_j为第j条数据，v_i为第i个聚类中心，u_ij为第j条数据对应第i类的隶属度。最后将各条数据划分到其隶属度最大的那个聚类中。

步骤2：计算吹氧量D对影响吹氧量的条件属性集C的依赖度γ(D|C)，以及缺失某一条件属性c_i的依赖度γ(D|C-{c_i})；

步骤3：计算各条件属性c_i的重要度SIG(c_i)，具体可以通过下式进行计算；

SIG(c_i)＝γ(D|C)-γ(D|C-{c_i})

步骤4：对各属性重要度进行归一化处理，得到各条件属性的权重w(c_i)，如下式；

w (c_{i}) = \frac{SIG (c_{i})}{Σ_{j = 1}^{s} SIG (c_{j})}

其中步骤2—步骤4是通过改进传统贝叶斯粗糙集模型，提出γ依赖度函数，并证明该函数具有随着条件属性的增加而单调递增的性质。

粗糙集理论(rough set theory，RST)是由波兰学者Pawlak在1982年提出的，仅利用数据本身提供的信息，无需任何先验的专家知识，因此已被广泛应用到实际的决策中。经典的Pawlak粗糙集理论在处理分类关系时过于严格，容易将有用的信息也剔出掉，不利于决策分析。Ziarko等人将概率理论和粗糙集理论相结合提出了变精度粗糙集和贝叶斯粗糙集，在判断集合间隶属关系时，引入了一个不确定度，能够更好的描述集合间的依赖关系，弥补了经典粗糙集的不足，如附图所示。但Ziarko等人提出的理论是只能处理决策属性是二分类的情况，而对决策属性是多分类的情况无能为力，限制了应用范围。

本发明对传统的贝叶斯粗糙集进行改进，将应用范围由二决策类扩展到多决策类，提出了一个衡量属性间依赖程度的γ函数，并证明γ依赖度函数具有随着属性的增加单调递增的性质，进而利用这个性质计算属性权重。设U为有限论域，R是U上的一个等价关系。U按等价关系R进行不可分辨划分U/IND(R)，得到R的基本集E＝U/IND(R)＝{E₁，E₂，...，E_n}，其中E_i是按IND(R)划分得到的等价类，对任意i≠j满足E_iI E_j＝φ，并且

U = U_{i = 1}^{n} E_{i} .

P为定义在U的子集类构成的σ代数上的概率测度，对U的任意非空子集

X &Subset; U

都满足0<P(X)<1。设X和Y是U上非空子集，P(X|Y)表示Y发生的条件下X发生的概率，可以反映Y对X的影响程度。

传统的贝叶斯粗糙集模型对于目标集

X &Subset; U

的正域POS^*(X)、负域NEG^*(X)和边界域BNR^*(X)的定义为：

POS^*(X)＝U{E_i∈E：P(X|E_i)>P(X)} (5)

NEG^*(X)＝U{E_i∈E：P(X|E_i)<P(X)} (6)

BNR^*(X)＝U{E_i∈E：P(X|E_i)＝P(X)} (7)

传统的贝叶斯粗糙集可以处理二决策的情况，但不能处理多决策类的情况。设S＝(U，R)为一个决策表，其中U为非空的有限论域，是所有样本的集合，R＝CUD，且CI D＝φ，是非空的等价关系有限集，这里指所有属性的集合，C＝{c₁，c₂，...，c_s}为条件属性集，D＝{d}为决策属性。在决策属性是二分类

U / IND (D) = {X, &Not; X},

即有两个目标集的情况下，根据Ziarko提出的传统贝叶斯粗糙集，当E_i∈POS^*(X)时，

P (&Not; X | E_{i}) = 1 - P (X | E_{i}) < 1 - P (X) = P (&Not; X),

则

E_{i} &NotElement; {POS}^{*} (&Not; X) .

因此任何E_i都不会同时划分到POS^*(X)和中。而在决策属性是多分类U/IND(D)＝{X_j|j＝1，2...，m}，即有多个目标集的情况下，其中m为按决策属性划分的类别数，X_j为第j个决策类，如果还是按传统贝叶斯粗糙集划分各区域，可能会产生同一个E_i划分到不同决策类的正域中的情况，也就是说在同一个条件下，却产生了多个决策，这与经典Pawlak粗糙集理论相违背。

为了弥补以上的不足，本发明对原始贝叶斯粗糙集进行改进。引入一个评价函数

g (X | Y) = \frac{P (X | Y) - P (X)}{P (X)} - - - (8)

用该函数来衡量Y对X的影响程度。各决策类X_j的正域POS^M(X_j)、负域NEG^M(X_j)和边界域BNR^M(X_j)定义为：

POS^M(X_j)＝U{E_i∈E：g(X_j|E_i)＝max(g(X₁|E_i)，...，g(X_m|E_i))>0} (9)

NEG^M(X_j)＝U{E_i∈E：g(X_j|E_i)＝min(g(X₁|E_i)，..，g(X_m|E_i))<0} (10)

BNR^M(X_j)＝U{E_i∈E：min(g(X₁|E_i)，...，g(X_m|E_i))≤g(X_j|E_i) (11)

≤max(g(X₁|E_i)，...，g(X_m|E_i))}

并定义一个决策D的全局边界域GBNR^M(D)为

GBNR^M(D)＝U{E_i∈E：g(X₁|E_i)＝g(X₂|E_i)＝…＝g(X_m|E_i)＝0} (12)

全局边界域是一种特殊的区域，对于某些决策表可能不存在。

根据改进后的贝叶斯粗糙集的定义，可以得到以下的命题。

证明：因为

Σ_{j = 1}^{m} (P (X_{j} | E_{i}) - P (X_{j})) = Σ_{j = 1}^{m} P (X_{j} | E_{i}) - Σ_{j = 1}^{m} P (X_{j}) = 1 - 1 = 0 .

命题2：

&Exists; E_{i} &Element; {GBNR}^{M} (D)

，则E_i同时属于每个决策类X_j的边界域BNR^M(X_j)。

命题3：

&ForAll; E_{i} &NotElement; {GBNR}^{M} (D)

，都划分到某个决策类的正域中，并且同一个E_i不会划分到多个决策类的正域中；

&ForAll; E_{i} &Element; {GBNR}^{M} (D),

不会划分到任何一个决策类的正域中。

证明：根据命题1可得，对

&ForAll; E_{i} &NotElement; {GBNR}^{M} (D),

为了衡量条件属性集C对决策属性D的影响程度，将C对每个决策类X_j的影响程度求和，定义为D对C依赖度γ(D|C)，如(13)式所示

γ (D | C) = Σ_{j = 1}^{m} \underset{E_{i} &Element; {POS}^{M} (X_{j})}{Σ} P (E_{i}) g (X_{j} | E_{i}) - - - (13)

命题4：γ(D|C)可以改写为如下形式：

γ (D | C) = Σ_{i = 1}^{n} \max (P (E_{i} | X_{1}), . . ., P (E_{i} | X_{m})) - 1 - - - (14)

证明：由贝叶斯定理可得

P (E_{i}) g (X_{j} | E_{i}) = P (E_{i}) \frac{\frac{P (E_{i} | X_{j}) P (X_{j})}{P (E_{i})} - P (X_{j})}{P (X_{j})} = P (E_{i} | X_{j}) - P (E_{i})

对于

&ForAll; E_{i} &Element; {GBNR}^{M} (D)

满足max(g(X₁|E_i)，...，g(X_m|E_i))＝0，则

γ (D | C) = Σ_{j = 1}^{m} \underset{E_{i} &Element; {POS}^{M} (X_{j})}{Σ} P (E_{i}) g (X_{j} | E_{i}) + \underset{E_{i} &Element; {GBNR}^{M} (D)}{Σ} P (E_{i}) \max (g (X_{1} | E_{i}), . . ., g (X_{m} | E_{i}))

再根据(9)式定义可得

γ (D | C) = Σ_{j = 1}^{m} \underset{E_{i} &Element; {POS}^{M} (X_{j})}{Σ} P (E_{i}) \max (g (X_{1} | E_{i}), . . ., g (X_{m} | E_{i}))

+ \underset{E_{i} &Element; {GBNR}^{M} (D)}{Σ} P (E_{i}) \max (g (X_{1} | E_{i}), . . ., g (X_{m} | E_{i}))

由命题3可知，对于

&ForAll; E_{i} &Element; E,

不是唯一的划分到某个决策类的正域中，就是划分到GBNR^M(D)中，由此可得

γ (D | C) = \underset{E_{i} &NotElement; {GBNR}^{M} (D)}{Σ} P (E_{i}) \max (g (X_{1} | E_{i}), . . ., g (X_{m} | E_{i}))

+ \underset{E_{i} &Element; {GBNR}^{M} (D)}{Σ} P (E_{i}) \max (g (X_{1} | E_{i}), . . ., g (X_{m} | E_{i}))

= Σ_{i = 1}^{n} P (E_{i}) \max (g (X_{1} | E_{i}), . . ., g (X_{m} | E_{i}))

= Σ_{i = 1}^{n} \max ((P (E_{i} | X_{1}) - P (E_{i})), . . ., (P (E_{i} | X_{m}) - P (E_{j}))

= Σ_{i = 1}^{n} \max (P (E_{i} | X_{1}), . . ., P (E_{i} | X_{m})) - 1

命题5：对于

&ForAll; B &SubsetEqual; C

满足如下关系：

γ(D|B)≤γ(D|C) (15)

等号成立的条件是任意决策类X_j满足

{POS}_{C}^{M} (X_{j}) &SubsetEqual; {POS}_{B}^{M} (X_{j})

证明：设U/IND(B)＝{F₁，F₂，..，F_k}，并且可以看出每个F₁都是由一些E_i组成，即

F_{j} = U_{i = 1}^{n} {E_{i} : E_{i} &SubsetEqual; F_{j}} .

要证明命题5，只要证明下面不等式成立，

\max (P (F_{j} | X_{1}), . . ., P (F_{j} | X_{m})) \leq \underset{E_{i} &SubsetEqual; F_{i}}{Σ} \max (P (E_{i} | X_{1}), . . ., P (E_{i} | X_{m}))

设

P (F_{j} | X_{r}) = \max (P (F_{j} | X_{1}), . . ., P (F_{j} | X_{m}))

= \underset{E_{i} &SubsetEqual; F_{i}}{Σ} P (E_{i} | X_{r})

\leq \underset{E_{i} &SubsetEqual; F_{j}}{Σ} \max (P (E_{i} | X_{1}), . . ., P (E_{i} | X_{m}))

因此γ(D|B)≤γ(D|C)成立。也就是说，γ依赖度函数随着条件属性的增加是单调递增的。当

&ForAll; E_{i} &SubsetEqual; F_{j},

{POS}_{C}^{M} (X_{j}) &SubsetEqual; {POS}_{B}^{M} (X_{j})

利用命题5可以进行属性约简，确定属性权重等，下面具体介绍一下属性权重的确定过程。

本发明的有益效果是本发明完全依赖于数据，避免主观因素的引入，确定合理的吹氧量影响因素的权重，可以更精确地计算吹氧量，对于生产出合格的钢水至关重要。

附图说明

附图是贝叶斯粗糙集与经典Pawlak粗糙集的正域对比图。

具体实施方式

以下结合技术方案和附图详细叙述本发明的实施例。

表1为某钢厂150吨转炉实际生产数据，吹氧量是被控制的量，是连续属性，铁水碳含量、铁水硅含量和目标钢种是影响吹氧量的三个因素，其中铁水碳含量和铁水硅含量是连续属性，目标钢种是离散属性。设条件属性集C＝{c₁，c₂，c₃}分别代表铁水碳含量、铁水硅含量和钢种，决策属性D为吹氧量。

表1 转炉生产数据

采用模糊c均值聚类算法分别对连续条件属性c₁、c₂和决策属性D进行离散化，分类数选取范围为2～4类，根据(4)式的有效性评价函数确定的最佳分类数分别为3，3，4。对于离散属性c₃标记Q235B为1，标记DC01为2。离散化后的结果如表2所示。

表2 离散化后的决策表

按决策属性D进行划分，可得

U/IND(D)＝{{1，3，10，12，18，20}，{2，11，13，14，16}，{4，8，17，19}，{5，6，7，9，15}}。

按所有条件属性C进行划分，可得

U/IND(C)＝{{1，20}，{2}，{3，9}，{4，6，13，15，17}，{5，7}，{8}，{10}，{11，19}，{12.18}，{14}，{16}}

删除条件属性c₁后进行划分，可得

U/IND(C-{c₁})＝{{1，20}，{2，16}，{3，4，6，9，13，14，15，17}，{5，7，11，12，18，19}，{8}，{10}}

删除条件属性c2后进行划分，可得

U/IND(C-{c₂})＝{{1，4，6，10，13，15，17，20}，{2，11，19}，{3，9}，{5，7，8，16}，{12，18}，{14}}

删除条件属性c3后进行划分，可得

U/IND(C-{c₃})＝{{1，8，20}，{2，14}，{3，9}，{4，6，13，15，16，17}，{5，7，10}，{11，19}，{12，18}}

根据(13)式计算决策属性D对各条件属性集的依赖度为

γ(D|C)＝2.033

γ(D|(C-{c₁}))＝1.150

γ(D|(C-{c₂}))＝1.033

γ(D|(C-{c₃}))＝1.417

进而求得各条件属性的重要度为

SIG(c₁)＝0.883　　SIG(c₂)＝1.000　　SIG(c₂)＝0.616

归一化得到各条件属性的权重为w₁＝0.353，w₂＝0.400，w₃＝0.247。结果表明铁水硅含量对吹氧量的影响最大，铁水碳含量次之，钢种影响最小。

Claims

1.一种转炉炼钢吹氧量影响因素的权重确定方法，其特征在于包括如下步骤：

步骤1：选择吹氧量的影响因素，对连属性数据离散化：选取影响转炉炼钢吹氧量的因素作为条件属性，以吹氧量作为决策属性；

(1)初步选择聚类个数的范围，在每个聚类数的情况下，分别采用模糊c均值聚类算法对连续属性数据聚类；

(2)将取各聚类数时的聚类结果代入到由Xie和Beni在1991年提出的有效性评价函数中，以使该函数值最小的聚类数作为最佳的聚类数；有效性评价函数具体形式如下；

V_{XB} = \frac{Σ_{i = 1}^{c} Σ_{j = 1}^{N} μ_{ij}^{2} {| | x_{j} - v_{i} | |}^{2}}{n (\min_{i &NotEqual; k} {| | v_{i} - v_{k} | |}^{2})}

其中c为聚类个数，N为数据个数，x_j为第j条数据，vi为第i个聚类中心，u_ij为第j条数据对应第i类的隶属度；最后将各条数据划分到其隶属度最大的那个聚类中；

SIG(c_i)＝γ(D|C)-γ(D|C-{c_i})

w (c_{i}) = \frac{SIG (c_{i})}{Σ_{j = 1}^{s} SIG (c_{j})}

2.根据权利要求1所述的一种转炉炼钢吹氧量影响因素的权重确定方法，其特征在于：选取铁水碳含量、铁水硅含量、钢种作为条件属性。