CN109992587B - 基于大数据的高炉铁水硅含量预报关键属性判决方法 - Google Patents

基于大数据的高炉铁水硅含量预报关键属性判决方法 Download PDF

Info

Publication number
CN109992587B
CN109992587B CN201910281393.0A CN201910281393A CN109992587B CN 109992587 B CN109992587 B CN 109992587B CN 201910281393 A CN201910281393 A CN 201910281393A CN 109992587 B CN109992587 B CN 109992587B
Authority
CN
China
Prior art keywords
attribute
key
value
decision
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910281393.0A
Other languages
English (en)
Other versions
CN109992587A (zh
Inventor
尹林子
李靖
蒋昭辉
许雪梅
丁家峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN201910281393.0A priority Critical patent/CN109992587B/zh
Publication of CN109992587A publication Critical patent/CN109992587A/zh
Application granted granted Critical
Publication of CN109992587B publication Critical patent/CN109992587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的高炉铁水硅含量预报关键属性判决方法,包括以下步骤:将铁水硅含量及其相关属性数据表示为一个决策表,表中的每一行表示一个样本所有条件属性和决策属性的值,每一列表示某一条件属性或决策属性在所有样本中的取值;挑选需要识别是否为关键属性的条件属性作为候选属性,并将其在决策表中对应的列数据置于决策表倒数第二列,决策表倒数第一列为高炉铁水硅含量数据;对调整后的决策表进行整体排序;通过比较排序后的决策表中的相邻样本,判断候选属性是否为关键属性;如果存在相邻两个样本除候选属性以外的其他条件属性值都相同,而决策属性值不同,则该候选属性为关键属性。本发明计算效率高。

Description

基于大数据的高炉铁水硅含量预报关键属性判决方法
技术领域
本发明涉及一种基于大数据的高炉铁水硅含量预报关键属性判决方法。
背景技术
在高炉冶炼过程中,铁水硅含量预报是表征炉内温度,评估高炉冶炼状态以及优化控制的关键因素,吸引了大量研究者的注意。然而,现有的铁水硅含量预报模型都比较依赖于良好的输入集。由于机理复杂,数据噪声严重、数据量巨大等因素影响,高炉铁水硅含量预报的关键属性判断困难重重,已有的方法多采用人为经验或相关性判断进行关键属性判断,存在着计算复杂、难以适应大数据计算、以及存在人为主观性因素等缺点。
针对多属性的高炉铁水硅含量数据集,传统的关键属性判决方法常利用属性的相关性来进行辨别。通常采用多元线性回归的方法计算各属性与铁水硅含量的相关系数,设某一属性值和铁水硅含量值为x,y,采用多项式回归的方法进行变量间的相关性分析,回归方程如下:
Figure BDA0002021780640000014
式中a0,a1,...,am为待求参数。
若令上式中t1=x,t2=x2,...,tm=xm,则多项式回归方程可化为多元线性回归方程:
Figure BDA0002021780640000013
上式对应的复相关系数为Rxy
Figure BDA0002021780640000011
其中,
Figure BDA0002021780640000012
是硅含量测量值的平均值。
计算所有属性与铁水硅含量的相关系数,并构建一个列表,然后人为地挑选部分相关度高的属性作为关键属性。
然而,这种传统的基于相关性的关键属性判决方法存在不足:1,算法效率问题。互相关性计算本身是一个较为复杂的运算,算法的时间复杂度较高。2,难以应对大规模数据集。当样本数量达到千万甚至亿级别之后,需要基于大数据平台进行处理,此时,过于复杂的传统算法性能很难得到效率层面的支撑。3,相关性分析只提供了一个重要度参考,在实际处理过程中,还需要人为判定是否为关键属性,存在人为干扰。
因此,有必要设计一种效率高、能适用于大规模数据集,并且准确客观的关键属性判决方法。
发明内容
本发明的目的在于,针对传统基于相关性判决方法在计算效率、难以适应大数据处理以及存在人为因素干扰等方面存在的缺陷,提供一种基于大数据的高炉铁水硅含量预报关键属性判决方法,计算效率高,且能很好地移植到大数据平台上。
本发明所提供的技术方案为:
一种基于大数据的高炉铁水硅含量预报关键属性判决方法,包括以下步骤:
Step1、基于粗糙集理论,将铁水硅含量及其相关属性数据表示为一个决策表:
S=<U,At>
其中,U是所有样本的集合,At=C∪D,C={c1,c2,…,cn}称为条件属性集,c1,c2,…,cn为n个条件属性,D={d}称为决策属性集;表中的每一行表示一个样本所有条件属性和决策属性的值,每一列表示某一条件属性或决策属性在所有样本中的取值;本发明中条件属性为与高炉铁水硅含量相关的属性,决策属性只有一个,为高炉铁水硅含量;
Step2、对决策表中的数据进行预处理,包括修正不一致样本和删除重复样本;其中不一致样本是指条件属性值相同而决策属性值不同的样本;
Step3、挑选需要识别是否为关键属性的条件属性作为候选属性,并将其在决策表中对应的列数据置于决策表倒数第二列,决策表倒数第一列为铁水硅含量数据d;
Step4、对Step3调整后的决策表进行整体排序;
Step5、通过比较Step4排序后的决策表中的相邻样本,判断候选属性是否为关键属性;判断的依据是,如果Step4排序后的决策表中存在相邻两行样本xi,xi+1满足条件:Bn-1(xi)=Bn-1(xi+1),d(xi)≠d(xi),Bn-1={c1,c2,…,cn-1},即样本xi和xi+1除候选属性以外的其他条件属性值都相同,而决策属性值不同,则该候选属性cn为属性集C中的关键属性。
进一步地,所述Step2中,数据集预处理需要删除重复的样本,同时,如果数据集是不一致的,则需要基于粗糙集知识分类方法进行处理。本发明设计了精简的排序和去重复处理计算方法,具体策略为:将所有的不一致样本的决策属性值(铁水硅含量)变更为一个全新的值。具体地,所述Step1采用Hadoop平台的MapReduce计算框架实现,过程为:首先,在map阶段,将决策表中每个样本的所有条件属性值设置为一个key,每个样本的决策属性值设置为一个value,形成key-value对进行输出;然后,在shuffle阶段,对map阶段的输出按key值进行排序,再把key值相同的项进行连接,放在一起,生成该key值对应的value-list;最后,在reduce阶段,分别针对每个key值,判断其对应的value-list是否包含多个元素,如果是,则对多个元素进行判断,若存在相同元素,说明存在重复的样本,则去除重复元素(去除重复样本),若存在不同元素,说明存在不一致的样本,则将这些不同的元素修改为一个全新的值d0,d0可以是任意的未出现在决策表决策属性值里的数,简便起见使用如下公式计算:d0=max(d(x))+1,即令d0比决策表中已有的最大决策属性值大1,最终输出key-value’对,value’为对key值对应的value-list进行上述处理后得到的唯一的元素值value’。
进一步地,所述Step4和Step5可以直接利用一个基于Hadoop的job(一个MapReduce作业在Hadoop中称为Job)实现。具体过程为:在map阶段,将调整后的决策表中每个样本除候选属性之外的所有条件属性值设置为一个key,每个样本的决策属性值设置为一个value,形成key-value对进行输出;然后,在shuffle阶段,对map阶段的输出按key值进行排序,再把key值相同的项进行连接,放在一起,生成该key值对应的value-list;最后,在reduce阶段,依次针对每个key值进行检测,若某一key值对应的value-list中包含不同元素,则说明该候选属性为关键属性,否则该候选属性为非关键属性。
进一步地,所述条件属性包括风速、热风压力、富氧率和燃烧温度。
本发明基于Hadoop的job利用Hadoop自带的shuffle阶段来实现、高效排序,在map函数输出后,Hadoop平台会自动运行shuffle过程,对map的结果进行分区、排序、分割,然后将属于同一划分(分区)的输出合并在一起并写在磁盘上,最终得到一个分区有序的文件,分区有序的含义是map输出的键值对按分区进行排列,具有相同partition值的键值对存储在一起,每个分区里面的键值对又按key值进行升序排列(默认),由此,自动实现数据集的整体排序。总体过程如图1所示。
数据集的排序工作避免了样本矩阵的整体遍历,取而代之的是比较相邻两个样本,总体的样本比较次数由n(n-1)|C|/2缩减为(n-1)|C|,很大程度地缩短了运行时间。
有益效果:
本发明提供了一种基于大数据平台的高炉铁水硅含量预报关键属性判决方法,该方法是一种全新的判决方法,基于粗糙集理论以及Hadoop大数据平台计算框架中MapReduce的运行机制,简洁高效,为工业大数据背景下海量数据分析与建模提供输入集优选方面的理论支持与实现方法。其结构十分精简,计算快速,核心步骤只有排序和比较两个阶段,并且可移植性强。本发明的优点在于:
1,关键属性识别方法简单,只包含排序和比较操作;
2,能很好地移植到大数据平台上,能处理大规模数据集;
3,与Hadoop平台契合度高,充分利用了该平台中MapReduce计算框架的shuffle机制完成数据自动化排序,具有计算效率高,代码简洁等优点;
4,基于粗糙理论实现关键属性判断,能够在无先验知识的情况下处理数据,不受人为因素干扰,客观性较好;
基于标准UCI数据集(Mushroom,KDDCUP99)以及两个人工数据集(Synthetic1,Synthetic2)的测试表明,本发明算法单个属性判决的平均时间很短。
附图说明
图1shuffle机制细节
图2为本发明关键属性判决算法流程图
具体实施方式
实施例1:
一次完整关键属性判决过程如下:
假设原始铁水硅含量数据集如表1所示。其中c1、c2、c3和c4分别表示风速、热风压力、富氧率和燃烧温度,d为硅含量;c1、c2、c3和c4为条件属性,d为决策属性。
表1原始铁水硅含量数据集
Figure BDA0002021780640000041
详细计算步骤如下:
将数据集按照升序排序,然后检查相邻样本,将重复数据删除,并修改不一致样本将不一致决策表转化为一致决策表(如表1中第一行和第三行样本为不一致样本,存在不一致样本的数据集为不一致数据集),具体地,采用Hadoop平台的MapReduce计算框架实现上述目的,首先,在map阶段,将决策表中每个样本的所有条件属性值设置为一个key,每个样本的决策属性值设置为一个value,形成key-value对进行输出;然后,在shuffle阶段,对map阶段的输出按key值进行排序,再把key值相同的项进行连接,放在一起,生成该key值对应的value-list;最后,在reduce阶段,分别针对每个key值,判断其对应的value-list是否包含多个元素,如果是,则对多个元素进行判断,若存在相同元素,说明存在重复的样本,则去除重复元素(去除重复样本),若存在不同元素,说明存在不一致的样本,则将这些不同的元素修改为一个全新的值d0,d0可以是任意的未出现在决策表决策属性值里的数,简便起见使用如下公式计算:d0=max(d(x))+1,即令d0比决策表中已有的最大决策属性值大1,本实施例中d0=4,即将所有的不一致样本的决策属性值(也就是最后一列的值)全部改为4,最终输出key-value’对,value’为对key值对应的value-list进行上述处理后得到的唯一的元素值value’。经过上述处理,获得新的数据集如表2所示。
表2预处理之后的数据集
Figure BDA0002021780640000051
假设需要识别条件属性c4是否为关键属性。具体方法如下:先比较第一个和第二个样本,它们c2,c3的值不同;然后比较第二个和第三个样本,它们c1,c3的值不同;然后比较第三个和第四个样本,它们c2,c3的值不同;以此类推,最后发现,没有两个相邻样本满足方案中的条件,因此,属性c4不是关键属性;
进一步地,所述Step4和Step5可以直接利用一个基于Hadoop的job(一个MapReduce作业在Hadoop中称为Job)实现。具体过程为:在map阶段,将预处理之后的数据集中每个样本除c4之外的所有条件属性值设置为一个key,每个样本的决策属性值d设置为一个value,形成key-value对进行输出;然后,在shuffle阶段,对map阶段的输出按key值进行排序,再把key值相同的项进行连接,放在一起,生成该key值对应的value-list;最后,在reduce阶段,进行如下处理:
a)设置全局变量result=0;
b)判断是否有下一个key;若有,转步骤c),若没有,转步骤f);
c)将该key对应的value-list存储迭代器i;
d)判断迭代器中的当前元素d(xi)是否存在下一元素d(xi+1)(i.hasNEXT()?);若存在,转步骤e),若不存在,转步骤b);
e)比较当前元素d(xi)与下一元素d(xi+1)是否相等,若不相等,则令result=1,并转步骤b);若相等,则转步骤d)继续对迭代器中的下一元素进行上述判断;
f)输出result的值,是1表示某一个或某几个key满足了条件(对应的value-list是否包含多个元素,且存在不同元素),该候选属性为关键属性;是0表示没有一个key可以满足条件,则该候选属性为非关键属性。
假设需要识别c3是否为关键属性,具体方法如下:先将c4对应的那一列数据删除(因为之前c4已经判定为非关键属性,所以c4对应的列数据可以删除,若之前c4是判定为关键属性,则不能删除c4对应的列数据,直接将c3对应的列数据置于决策表倒数第二列),得到表3,然后按照上述方法:在比较第四个样本与第五个样本时,发现它们的c1,c2属性值相同(均为2和3),c3属性值不同(分别为1和2),对应的决策值也不同(分别为3和0),因此属性c3是关键属性。以此类推依次判断余下每一个属性,直至所有的属性都判决完。
表3排序之后的数据集(判断c3)
Figure BDA0002021780640000061
采用一个主节点,三个子节点(Intel(R)Core(TM)i5-4440 CPU@3.10GHZ)进行本发明中关键属性的判决,软件平台为Hadoop。运行时间如表4所示,表4中显示的数据表明,本发明方法计算速度非常快。
表4算法速度
Figure BDA0002021780640000071

Claims (4)

1.一种基于大数据的高炉铁水硅含量预报关键属性判决方法,其特征在于,包括以下步骤:
Step1、将铁水硅含量及其相关属性数据表示为一个决策表,表中的每一行表示一个样本所有条件属性和决策属性的值,每一列表示某一条件属性或决策属性在所有样本中的取值;其中条件属性为与高炉铁水硅含量相关的属性,决策属性为高炉铁水硅含量;
Step2、对决策表中的数据进行预处理,包括修正不一致样本和删除重复样本;其中不一致样本是指条件属性值相同而决策属性值不同的样本;
Step3、挑选需要识别是否为关键属性的条件属性作为候选属性,并将其在决策表中对应的列数据置于决策表倒数第二列,决策表倒数第一列为高炉铁水硅含量数据;
Step4、对Step3调整后的决策表进行整体排序;
Step5、通过比较Step4排序后的决策表中的相邻样本,判断候选属性是否为关键属性;判断的依据是,如果Step4排序后的决策表中存在相邻两个样本xi和xi+1满足:除候选属性以外的其他条件属性值都相同,而决策属性值不同,则该候选属性为关键属性;
所述Step4和Step5直接利用一个基于Hadoop的job,即一个MapReduce作业实现,具体过程为:在map阶段,将调整后的决策表中每个样本除候选属性之外的所有条件属性值设置为一个key,每个样本的决策属性值设置为一个value,形成key-value对进行输出;然后,在shuffle阶段,对map阶段的输出按key值进行排序,再把key值相同的项进行连接,放在一起,生成该key值对应的value-list;最后,在reduce阶段,依次针对每个key值进行检测,若某一key值对应的value-list中包含不同元素,则说明该候选属性为关键属性,否则该候选属性为非关键属性。
2.根据权利要求1所述的基于大数据的高炉铁水硅含量预报关键属性判决方法,其特征在于,所述Step2采用Hadoop平台的MapReduce计算框架实现,过程为:首先,在map阶段,将决策表中每个样本的所有条件属性值设置为一个key,每个样本的决策属性值设置为一个value,形成key-value对进行输出;然后,在shuffle阶段,对map阶段的输出按key值进行排序,再把key值相同的项进行连接,放在一起,生成该key值对应的value-list;最后,在reduce阶段,分别针对每个key值,判断其对应的value-list是否包含多个元素,如果是,则对多个元素进行判断,若存在相同元素,说明存在重复的样本,则去除重复元素,若存在不同元素,说明存在不一致的样本,则将这些不同的元素修改为任意一个未出现在决策表决策属性值里的数d0,最终输出key-value’对,即一个新的决策表,其中value’为对key值对应的value-list进行上述处理后得到的唯一的元素值value’。
3.根据权利要求2所述的基于大数据的高炉铁水硅含量预报关键属性判决方法,其特征在于,令d0等于决策表中的最大决策属性值加1。
4.根据权利要求1所述的基于大数据的高炉铁水硅含量预报关键属性判决方法,其特征在于,所述条件属性包括风速、热风压力、富氧率和燃烧温度。
CN201910281393.0A 2019-04-09 2019-04-09 基于大数据的高炉铁水硅含量预报关键属性判决方法 Active CN109992587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910281393.0A CN109992587B (zh) 2019-04-09 2019-04-09 基于大数据的高炉铁水硅含量预报关键属性判决方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910281393.0A CN109992587B (zh) 2019-04-09 2019-04-09 基于大数据的高炉铁水硅含量预报关键属性判决方法

Publications (2)

Publication Number Publication Date
CN109992587A CN109992587A (zh) 2019-07-09
CN109992587B true CN109992587B (zh) 2021-04-13

Family

ID=67132714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910281393.0A Active CN109992587B (zh) 2019-04-09 2019-04-09 基于大数据的高炉铁水硅含量预报关键属性判决方法

Country Status (1)

Country Link
CN (1) CN109992587B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063230A (zh) * 2014-07-09 2014-09-24 中国科学院重庆绿色智能技术研究院 基于MapReduce的粗糙集并行约简方法、装置及系统
CN106599049A (zh) * 2016-11-09 2017-04-26 中南大学 一种决策表数据约简方法
CN107490964A (zh) * 2017-08-17 2017-12-19 杭州电子科技大学 一种基于特征证据离散化的旋转机械故障特征约简方法
CN107844679A (zh) * 2017-11-08 2018-03-27 中南大学 一种分段式高炉铁水硅含量预测方法及装置
CN108537259A (zh) * 2018-03-27 2018-09-14 北京交通大学 基于粗糙集-神经网络模型的列控车载设备故障分类与识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8762246B2 (en) * 2011-01-31 2014-06-24 The Bank Of New York Mellon System and method for optimizing collateral management
US9477927B2 (en) * 2012-10-20 2016-10-25 Sourcepulse Llc Automatic test generation for decision table based rules
CN103426123A (zh) * 2013-07-24 2013-12-04 国家电网公司 基于粗糙集理论的配电网故障风险评估方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063230A (zh) * 2014-07-09 2014-09-24 中国科学院重庆绿色智能技术研究院 基于MapReduce的粗糙集并行约简方法、装置及系统
CN106599049A (zh) * 2016-11-09 2017-04-26 中南大学 一种决策表数据约简方法
CN107490964A (zh) * 2017-08-17 2017-12-19 杭州电子科技大学 一种基于特征证据离散化的旋转机械故障特征约简方法
CN107844679A (zh) * 2017-11-08 2018-03-27 中南大学 一种分段式高炉铁水硅含量预测方法及装置
CN108537259A (zh) * 2018-03-27 2018-09-14 北京交通大学 基于粗糙集-神经网络模型的列控车载设备故障分类与识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
粗糙集理论分割海量电子病历的研究与应用;周威光等;《工业控制计算机》;20170131;第30卷(第1期);第100-102页 *

Also Published As

Publication number Publication date
CN109992587A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN107506865B (zh) 一种基于lssvm优化的负荷预测方法及系统
CN112966954A (zh) 一种基于时间卷积网络的防洪调度方案优选方法
CN111950854A (zh) 一种基于多层神经网络的焦炭质量指标预测方法
CN109215740A (zh) 基于Xgboost的全基因组RNA二级结构预测方法
CN111259933B (zh) 基于分布式并行决策树的高维特征数据分类方法及系统
CN111461286B (zh) 基于进化神经网络的Spark参数自动优化系统和方法
CN114169434A (zh) 一种负荷预测方法
CN111639111A (zh) 面向调水工程的多源监测数据深度挖掘和智能分析方法
CN113032367A (zh) 面向动态负载场景的大数据系统跨层配置参数协同调优方法和系统
CN112801388A (zh) 一种基于非线性时间序列算法的电力负荷预测方法及系统
CN111639821A (zh) 一种水泥炉窑生产能耗预测方法及系统
CN117236278A (zh) 一种基于数字孪生技术的芯片生产仿真方法及系统
CN113554213A (zh) 一种天然气需求预测方法、系统、存储介质及设备
CN112289392A (zh) 一种铝电解电容器用阳极铝箔性能预测方法
CN111985845A (zh) 一种异构Spark集群的节点优先级调优方法
CN115146929A (zh) 包含非期望产出的三阶段DEA-Tobit港口能源系统效率评价方法
CN109992587B (zh) 基于大数据的高炉铁水硅含量预报关键属性判决方法
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
CN110276478B (zh) 基于分段蚁群算法优化svm的短期风电功率预测方法
CN117454765A (zh) 基于ipso-bp神经网络铜熔炼炉喷枪寿命预测方法
CN111144569A (zh) 一种基于遗传算法的良率提升适用模型的优化方法
CN116341929A (zh) 一种基于聚类和自适应梯度提升决策树的预测方法
CN115935196A (zh) 工艺与生产线的匹配度计算方法、优化方法和装置
CN111445079B (zh) 一种应用于车间计划投产的多保真仿真优化方法及设备
CN110245400B (zh) 一种锅炉燃烧系统氧量对象模型的辨识方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant