CN108469180A

CN108469180A - 基于大数据和机器学习的烧结终点预测系统的建立方法

Info

Publication number: CN108469180A
Application number: CN201810311140.9A
Authority: CN
Inventors: 刘小杰; 刘颂; 吕庆; 孙艳芹; 石泉; 陈超; 刘月明; 王新蕊
Original assignee: North China University of Science and Technology
Current assignee: North China University of Science and Technology
Priority date: 2018-04-09
Filing date: 2018-04-09
Publication date: 2018-08-31
Anticipated expiration: 2038-04-09
Also published as: CN108469180B

Abstract

本发明公开了一种基于大数据和机器学习的烧结终点预测系统的建立方法，属于烧结工艺过程控制领域。所述模型的建立方法包括采集历史数据；进行数据预处理；确定模型输入变量和输出变量；依据绘图法对所述输出样本进行直观展示，综合考虑数据分布特点和设备控制精度，结合工艺经验确定烧结终点位置分类；利用GBDT建立烧结终点趋势变化状态的预报模型。利用本发明所建立的模型可以得到趋势变化的幅度大小，即可以提前得到目前点火烧结混合料的烧结终点位置是欠烧+++、欠烧++、欠烧+、欠烧、正常、过烧的六分类趋势变化情况。这对烧结工序操作者提前判断烧结终点，并采取小调、早调等措施具有很好的指导。

Description

基于大数据和机器学习的烧结终点预测系统的建立方法

技术领域

本发明涉及一种基于大数据和机器学习的烧结终点预测系统的建立方法和应用，属于烧结工艺过程控制领域。

背景技术

在烧结生产中，烧结终点是一个重要的生产操作指标，烧结终点的稳定与否是控制烧结矿产量、质量与降低成本的关键所在。烧结终点提前，烧结机的生产能力不能得到充分利用，造成烧结矿产量降低；烧结终点滞后，混合料没有完全烧透就运行到机尾卸料端被卸下，导致合格率下降，烧结机产量和质量下降，成本上升。此外，未烧透的烧结矿万一进入高炉，也会给高炉操作带来不良的影响。

烧结终点位置与混合料粒度、料层厚度、燃料配比、水分及透气性、布料装置、点火温度、烧结机机速、烧结机风箱负压、风箱风门开度等多种因素有关。获取烧结终点位置需要对多种相关参数进行检测，但由于烧结生产具有大滞后性和动态时变性，无论是通过风箱废气温度法、负压法和废气成分判断法估算终点位置；还是在机尾观测红层，定性判断终点状态，在时间上都是滞后的，必然影响烧结终点乃至整个烧结过程的稳定控制。烧结生产过程环境恶劣，高温、高湿、高粉尘、强干扰，目前尚无直接检测烧结终点的仪器设备。因此，研究如何实时预报烧结终点及其变化趋势，将其控制在工艺要求位置上，使烧结机产量和烧结矿质量达到最佳值，对提高烧结生产率、降低返矿、防止设备损坏具有重要意义。

目前，一般利用超前于烧结终点的状态指标，建立基于数据驱动的预测模型实现对烧结终点的预报，常用模型包括：神经网络预测模型、模糊控制模型、支持向量机预测模型等。上述模型对实际生产虽然起了一定的指导作用，但仍存在自身局限性，大多数模型由于数据库信息量有限，且输入参数偏于局部，其泛化能力和预报准确度仍有很大提升空间。而且，上述的数据驱动模型主要集中在烧结终点的数值预测上，很少关注趋势的变化。例如，在正常的烧结生产过程中，烧结终点状态会因为原料和设备控制精度等因素发生小范围波动，这种情况下构建稳定的烧结终点状态预报模型比数值预测模型更为直观。

中国专利申请公布号CN104913639A，申请公布日20150916，公开了基于数据融合的烧结终点控制系统及控制方法。该方法所述系统和方法通过融合各种参数数据，分析当前烧结状态，调节烧结终点位置，达到烧结过程的优化控制。其中，所述Xj代表烧结终点从欠烧到过烧的状态，以0-1之间的连续或离散数值表示，这不利于现场操作者对烧结终点状态的准确掌控；而且所述烧结终点位置yN需要根据当前烧结状态求出，并结合人为设定的经验系数，这更不利于烧结终点位置的准确预报。

中国专利申请公布号CN103759536A，申请公布日20140430，公开了一种烧结系统及其烧结终点控制方法。该方法根据所述多个依次相邻的烧结风箱与所述烧结头的距离以及所述温度值建立烧结温度函数；根据所述烧结温度函数确定最高温度转折点从而判定烧结终点是否正常。所述控制方法对烧结终点判断起到了一定的指导作用，但由于系统不能实现提前预报，当烧结终点偏离正常范围时，会导致烧结终点控制严重滞后，不利于指导烧结实际生产。

中国专利申请公布号CN103017530A，申请公布日2013.03.03，公开了一种烧结终点预测方法及系统，该方法根据检测得到的烟气成分计算每个风箱的有效风率；计算每个风箱的有效风量；确定每个风箱位置料层的垂直烧结速度；获取烧结机台车的台车速度、风箱长度和料层厚度；利用所述台车速度、风箱长度和垂直烧结速度确定烧结终点的位置。但实际烧结生产中，影响因素众多，垂直烧结速度很难计算得到，所以在现场应用此方法很难得到准确的烧结终点信息。

综上所述，现有的各种预测烧结终点的方法，或严重滞后，或无法实际准确预报，而且对于烧结终点状态预报的模型较少。

发明内容

本发明提出了一种基于大数据和机器学习的烧结终点预测系统的建立方法及应用，根据现场与烧结终点位置相关的全部变量的历史数据，利用梯度提升决策树(GradientBoosting Decision Tree，GBDT)建立多类别趋势预报模型，优选并采用网格搜索和交叉验证的方法优化模型参数，进而利用所建模型来预报测试集烧结终点的变化趋势。利用本发明所建立的模型不仅可以预报烧结终点位置的变化趋势，而且预报精度达到99％以上，即可以提前20分钟预报得到烧结终点的位置状态是欠烧+++、欠烧++、欠烧+、欠烧、正常、过烧的多分类趋势情况。这对烧结操作者提前判断烧结终点，并采取早调、微调等措施有很好的指导作用。

本发明通过以下技术方案实现，一种基于大数据和机器学习的烧结终点预测系统的建立方法，包括：采集烧结现场历史数据；进行数据预处理，确定模型输入变量和输出变量；优选结合变量重要性排序、相关性分析、向后选择法以及专家经验确定模型输入变量；依据绘图法对烧结终点位置分布状态进行直观展示，综合考虑数据分布特点和设备控制精度，实现对数据集进行正确的分类，获取模型输出变量——烧结终点位置的六类变化区间的划分标准，即欠烧+++、欠烧++、欠烧+、欠烧、正常、过烧的评判指标；利用GBDT建立多类趋势预报模型；优选采用网格搜索和交叉验证的方法优化模型参数。

具体地，所述烧结终点位置分类趋势预报模型的建立方法，包括以下步骤：

S1、采集历史数据

所述采集历史数据为采集整个烧结工序中影响烧结终点变化的全部变量数据。

由于烧结是一个复杂的物理化学反应过程，且间接影响烧结终点变化的变量有很多，包括：原料的性质：含铁原料性质及其配比、熔剂和燃料配比；操作参数：混合料水分、圆辊速度、九辊速度、料层厚度、点火温度、助燃风压力、助燃风流量、煤气压力、煤气流量、烧结机速度；状态参数：主管道负压、各风箱负压、各风箱废弃温度等。

S2、数据预处理

所述数据预处理根据对烧结现场工艺了解，对可采集到的历史数据进行分析，获得时间点对应的时间序列样本，补充缺失数据，剔除异常、重复数据，确定模型输入变量(即与烧结终点相关性强的变量)和输出变量、数据标准化处理。具体包括以下步骤：

S21、获得时间点对应的时间序列样本；

采集历史数据时发现，不同变量采集频次差别很大，因此需要对数据进行重新组织。以某个变量的采集频次为参照，依据时间点对应关系对所有变量进行匹配，最终得到所需时间序列样本。本发明采用一种以最长的采集周期1h为参照，通过时间点对应对所有变量进行匹配，最终提取时间序列样本。

S22、补充缺失数据；

数据整理过程中发现，当数据采用1h为参照的时间序列进行变量匹配时，部分数据存在缺失。比如某钢铁厂烧结工序实际生产情况：混合矿成分检测(如：TFe，CaO，V₂O₅，SiO₂)的采集周期大概为2h，混合料水分的采集周期为4h，混合料碱度采样周期为8h，而一些控制变量(圆辊速度、九辊速度、料层厚度、点火温度、风门开度等)和状态变量(各风箱负压、各风箱废气温度)的采集周期为1分钟，自动化系统每小时计算一次平均值。本发明采用对采集频次低的变量进行成倍扩增，从而实现以1h为时间点对应各个变量值，得到模型的输入样本。

S23、剔除异常数据；

在采样过程中，受到高温高粉尘等环境影响或者料仓悬料、台车跑偏等非正常状况，数据存在异常值。这些异常数据在一定程度上会改变数据的变化趋势，影响模型建立的准确性，因此需要对异常数据进行剔除。

本发明通过采用箱型图进行异常值处理，剔除异常数据。箱形图识别异常值的一个标准：异常值被定义为小于Q1－1.5IQR或大于Q3+1.5IQR的值。对所有变量使用该方法剔除异常数据，直至没有异常数据为止。

其中：

UpperLimit＝Q3+1.5IQR＝75％分位数+1.5*(75％分位数-25％分位数) (1)

LowerLimit＝Q1－1.5IQR＝25％分位数-1.5*(75％分位数-25％分位数) (2)

上式中，Q1表示下四分位数，即25％分位数；Q3为上四分位数，即75％分位数；IQR表示上下四分位差，系数1.5是一种经过大量分析和经验积累起来的标准，一般情况下不做调整。

S24、确定模型输入变量和输出变量；

对所有采集得到的影响烧结终点位置的变量之间进行相关性分析。以与烧结终点位置的变化相关性强的变量，作为本发明所述模型的输入变量；以烧结终点位置分类作为输出变量。烧结终点的变化与原料的性质：含铁原料性质及其配比、熔剂和燃料配比；操作参数：混合料水分、圆辊速度、九辊速度、料层厚度、点火温度、助燃风压力、助燃风流量、煤气压力、煤气流量、烧结机速度；状态参数：主管道负压、各风箱负压、各风箱废弃温度等参数的变化有密切的关系。表1列出了15个待选变量。本发明在一种具体实施方式中，应用python软件，通过调用Scikit-learn库中的梯度提升决策树(GBDT)算法，实现对变量的重要性排序，计算了所有待选变量与烧结终点位置的相关系数，结果如表1所示。

表1输入变量与烧结终点位置相关性系数

采用前后选择法确定与烧结终点位置相关性强的变量，作为本发明所述模型的输入变量；过高的变量维度会引入噪音并降低模型的预测性，保证进入模型变量的信息最大化和噪音最小化，以及变量数量合适为佳，优选地，以模型预报精度相对较高对应的模型输入变量集作为本发明所述输入变量数据样本集。

具体地，所述S24确定模型输入变量数据样本集包括以下步骤：

S121、计算每个变量与烧结终点位置的相关系数。

S122、将所述变量按相关系数大小进行排序，采用前后选择法选取与烧结终点位置相关性强且数量合适的输入变量数据样本集。

S123、对输入样本集中的变量，结合专家经验对每个变量与烧结终点间的关系进行具体分析，确定是否符合实际生产情况。

所述相关系数即特征j的全局重要度通过特征j在单颗树中的重要度的平均值来衡量，其计算公式如下：

其中，M是树的数量。特征j在单颗树中的重要度的如下：

其中，L为树的叶子节点数量，L-1即为树的非叶子节点数量(构建的树都是具有左右孩子的二叉树)，vt是和节点t相关联的特征，是节点t分裂之后平方损失的减少值。

综上，在本发明的一种具体实施方式中，结合变量重要性排序、相关性分析、向后选择法以及专家经验得到一种优选的方案是选取混合料水分、助燃风压力，风箱开度，全铁含量，烧结机机速，圆辊速度、九辊速度和主管道负压绝对值共8个变量作为模型的输入变量。

S25、数据标准化处理；

即将各输入变量分别进行标准化处理。数据的标准化是将数据按比例缩放，使之落入一个小的特定区间。数据标准化处理使得不同度量之间的特征具有可比性，而且不改变原始数据的分布。最常见的标准化方法就通过求z-score的方法，将样本的特征值转换到同一量纲下。方法如下：

其中xi，yi分别为第i个变量标准化前、后的取值，μ，σ分别为原始数据的均值(mean)和标准差(standard deviation)。

S3、烧结终点位置分类

所述烧结终点位置分类即将所述输出样本依据绘图法对烧结终点位置分布状态进行直观展示，综合考虑数据分布特点和设备控制精度，实现对数据集进行正确的分类，具体包括以下步骤：

S31、利用python的matplotlib模块对所述输出样本绘制散点图；

S32、根据所述散点图中数据样本的分布情况，综合考虑数据分布特点和设备控制精度，对连续分布的输出样本进行离散化分类：

S33、结合工艺经验，对上述离散化的烧结终点位置分类设定分类标准。

以下以本发明采用的输出样本为例，对烧结终点位置分类进行描述：

所述输出样本绘制散点图如图1所示，综合考虑数据分布特点和设备控制精度即结合工艺经验和实际烧结终点位置的数据分布情况，确定所述输烧结终点位置分类标准。此钢铁厂烧结工序采用废气温度法，要求看火工凭借生产经验将烧结终点稳定控制在21号风箱附近；而实际烧结终点位置被控制在20.5到21号风箱之间。优选地，在正常烧结终点位置及其左右各0.5个风箱区间间隔划分分类区间为[20,20.5]，[20.5,21]，[21,21.5]，分别代表欠烧、正常和过烧三类，以远离正常烧结终点位置大于0.5个区间间隔的烧结终点状态，分别以1个风箱区间间隔划分分类区间为[17,18]，[18,19]，[19,20]，分别代表“欠烧+++”、“欠烧++”、“欠烧+”，“+”越多代表偏离正常烧结终点位置越远。根据如上所述本发明烧结终点位置变化趋势被划分为6类，分别为：欠烧+++、欠烧++、欠烧+、欠烧、正常、过烧。

S4、建立预报模型

即依据所述步骤S3对所述输出样本的区间划分标准，将所述输出样本进行数字编码；然后结合所述输入样本利用GBDT建立预报模型。所述建立预报模型具体包括以下步骤：

S41、编码；

即依据所述步骤S3对所述输出样本的区间划分标准，将所述输出样本进行数字编码。所述输出样本的区间划分标准为：[17,18]，[18,19]，[19,20]，[20,20.5]，[20.5,21]，[21,21.5]，这六类区间依次代表六类变化趋势：欠烧+++、欠烧++、欠烧+、欠烧、正常、过烧。也就是说，对所有样本(xj,tj)的输出tj进行数字编码。xj指输入变量；tj指输出变量(即烧结终点位置)。本发明中的六分类问题，输出编码如下表2所示：

表2六分类编码

通过如上编码，将所有输出样本tj(烧结终点位置)按编码的不同依次划分在各自的类中。

S42、利用梯度提升决策树(GBDT)建立预报模型

具体过程包括：输入训练数据集为T＝{(x1,t1)，(x2,t2)，…，(xn,tn)}，其中xj＝[x1,x2,…,xn]T∈Rn,tj＝[1,2,3,4,5,6]T，j＝1,2,…,N，输出回归树为fM(x)

1)首先进行初始化，获得使得损失函数最小的常数估计值，作为树的一个根节点；

2)计算损失函数的负梯度在当前模型的值，将其作为残差估计；

其中，m＝1,2,…M，i＝1,2,…N

3)对rmi拟合一颗回归树，得到第m棵树的叶结点区域Rmj,j＝1,2,...J，即一棵由J个叶子节点组成的树。

4)利用线性搜索估计回归树叶结点区域的值，使损失函数最小化

5)更新回归树

6)获得输出的最终模型

GBDT网络结构如图2所示。

优选地，所述建立预报模型还包括训练和测试的步骤；

所述测试样本就是用来检测模型准确性的样本。也就是说，首先使用大量历史数据(称为训练样本，包含输入变量和输出变量，都是已知的)对上述建立好的预报模型进行训练，用另一批数据(称为测试样本，也包含输入变量和输出变量)对所训练好的所述模型进行测试。测试的时候只需将输入变量带入所述模型，该模型会得到相应的输出，然后用该模型得到的输出与实际的输出进行比较，进而得到模型的预报精确度。如果精确度高，说明所建模型好，可以用于现场对烧结终点位置状态进行预测，如果不理想，可以对模型参数进行修正。

依据上述描述得到如下GBDT分类过程：

Step1：编码过程，依据数字编码对训练集和测试集的输出类别Ytrain、Ytest进行编码；

Step2：训练过程，输入：训练集Xtrain，Ytrain；即完成图3中的①部分；

Step3：测试过程，输入测试集Xtest，基于模型的默认参数，获得预报结果的输出Ytest，即图2中的③部分；

上述预报模型基于模型默认网络参数而建立，由于GBDT算法涉及参数较多，且容易发生过拟合，为了使得预报模型在实际应用中更稳定、精确度更高，优选地，本发明利用网格搜索和交叉验证的方法优化GBDT算法中的关键参数，且调参过程中将所有输入样本和输出样本放入到模型中进行测试。具体流程如下：

Step1：首先从步长(learning rate)和迭代次数(n_estimators)入手。优选地，开始选择一个较小的步长来网格搜索最好的迭代次数。本发明将步长初始值设置为0.1，对于迭代次数进行网格搜索；

Step2：找到了一个合适的迭代次数，然后对决策树进行调参。首先对决策树最大深度max_depth和内部节点再划分所需最小样本数min_samples_split进行网格搜索；

Step3：确定合理决策树深度的值后，再对内部节点再划分所需最小样本数min_samples_split和叶子节点最少样本数min_samples_leaf一起调参；

Step4：确定合理的内部节点再划分所需最小样本数min_samples_split和叶子节点最少样本数min_samples_leaf后，再对最大特征数max_features进行网格搜索；

Step5：确定合理的最大特征数max_features后，再对子采样的比例进行网格搜索；

Step6：得到上述调优的参数结果后。进行减半步长，最大迭代次数加倍再次拟合模型，来增加模型的泛化能力。但如果由于步长太小，导致拟合效果反而变差，则选取Step5的结果为最优参数。

本发明还包括按上述方法所建立的预报模型在烧结终点位置趋势预报方面的应用。

进一步，本发明还提供一种烧结终点位置趋势预报方法，包括按上述方法建立烧结终点位置趋势预报模型，选取一组变量数据作为输入变量，输入到所述预报模型，得到烧结终点位置趋势预报结果；优选地，选取的输入到所述预报模型的输入变量与建立所述预报模型时采用的输入变量相同；所述变量相同是指变量名称相同，并非指变量数据相同；例如，建立所述预报模型时选取的变量为混合料水分、助燃风压力，风箱开度，全铁含量，烧结机机速，圆辊速度、九辊速度和主管道负压绝对值共8个变量，那么在利用所述模型进行实际预报时也选取这8个变量，将其具体数据输入所述模进行预报，即可得到烧结机终点位置趋势的状态。

本发明所述烧结终点位置趋势分类是指欠烧+++、欠烧++、欠烧+、欠烧、正常、过烧。

本发明的关键点

1、本发明通过对烧结工艺过程的不断分析以及对现场工序的深入实践，获取了影响烧结终点位置的各种变量在较长时间跨度内的数据，这些变量包括原料的性质、操作参数、烧结机状态参数等变量。对采集频次低的变量进行成倍扩增，通过时间点对应选取所需样本，依据箱型图方法进行异常值处理，通过python软件分析采集到的各变量与烧结终点位置分类的相关性系数，得到与烧结终点位置分类有强相关性的变量作为所建模型的输入变量。

2、本发明采用绘图法对烧结终点位置分布状态进行直观展示，综合考虑数据分布特点和设备控制精度，结合工艺经验最终确定了模型输出样本变化趋势的区间划分依据。

3.本发明采用数字代码对上述分类进行编码，用编码区分不同的类，更容易建立模型，也更容易识别输出的类别。

4、采用GBDT算法对样本集进行建模，将经过异常值处理后的样本划分为训练集和测试集。为了避免GBDT算法在参数选取上的随机性，进而造成结果的不稳定，本发明通过网格搜索和交叉验证的方法优化GBDT算法的模型参数。通过训练集对模型进行训练，获得烧结终点位置状态分布的分类器。再通过测试集进行烧结终点位置六分类状态的准确性验证。

本发明的有益效果是：

本发明基于现场采样数据以及烧结工艺的特点，以烧结过程参数(即操作参数和状态参数)的小时平均值数据为周期，通过时间点对应的方式选取数据样本，采用python选取模型输入变量，并采用绘图法对模型输出变量的分布状态进行直观展示，综合考虑数据分布特点和设备控制精度实现正确的分类。通过GBDT建模方法实现烧结终点位置分类趋势预测的目的，本发明充分利用烧结可检测到的影响烧结终点位置的变量，使得烧结终点位置的趋势预测结果精确度更高，对烧结操作现场有更好的指导作用。

附图说明

图1为本发明烧结终点位置分类。

图2为本发明GBDT网络结构图。

图3为本发明GBDT趋势预测流程图。

图4为本发明实施例2样本烧结终点位置变化趋势图。

图4中：纵轴“1”“2”“3”“4”“5”“6”分别代表欠烧+++、欠烧++、欠烧+、欠烧、正常、过烧；横轴代表样本尺寸。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例1

本实施例1在某钢铁厂360m²烧结机进行试验测试。

一种基于大数据和机器学习的烧结终点预报模型的建立方法，具体包括如下步骤：

1)采集历史数据。通过自动化系统的组态软件实现烧结过程控制及数据采集。所述的自动化系统包括生产过程数据、设备状态数据、检化验数据等组成。其中来自烧结生产过程数据包含：混合料水分、圆辊速度、九辊速度、料层厚度、点火温度、助燃风压力、助燃风流量、煤气压力、煤气流量、烧结机速度等相关数据；来自于设备状态数据包含：主管道负压、各风箱负压、各风箱废弃温度等相关数据；来自于检化验数据数据包含：含铁原料性质及其配比、熔剂和燃料配比，烧结矿产质量指标等相关数据。

2)数据预处理。将上述采集到的数据进行数据预处理。具体包括：

①获得时间点对应的时间序列样本，即通过时间点对应选取样本。以多数采集周期为1h的变量为参照，通过时间点对应对所有采集到的变量，提取时间序列样本，本实例最终提取15588个时间序列样本。

②采用对采集频次低的变量进行成倍扩增，从而得到以1h为采集周期的各个变量值。

③利用箱型图法删除异常数据。

④确定模型输入变量和输出变量。本实施例通过python选取的模型输入变量为：混合料水分、助燃风压力，风箱开度，全铁含量，烧结机机速，圆辊速度、九辊速度和主管道负压绝对值共8个变量作为模型的输入变量。

⑤标准化处理。

3)绘图法得到烧结终点位置分布状态区间。通过绘图法对输出样本进行直观展示，最终确定六个分布状态区间为：[17,18]，[18,19]，[19,20]，[20,20.5]，[20.5,21]，[21,21.5]，这六个区间分别对应趋势变化为：欠烧+++、欠烧++、欠烧+、欠烧、正常、过烧。

4)建立预报模型

①编码：对数据预处理之后的输出样本进行数字编码。

②建立预报模型。利用集成思想的决策树模型GBDT算法建立烧结终点预报模型。将数据预处理后的15588组样本划分为训练样本和测试样本，随机选取12471组作为训练样本，用来训练模型参数，剩余3117组作为测试样本，用来验证模型准确性。通过不断修正模型参数，得到最优的预报模型。

实施例2

本实施例2涉及一种利用实施例1所建立的预报模型对烧结终点位置的分类趋势进行预报的方法，具体为选取一组变量数据作为输入变量，输入到所述预报模型，得到烧结终点位置的分布情况。具体而言，选取了从2014年12月30号17:00到2017年4月20号16:00总共1588组数据利用实施例1所述数据处理方法进行处理。其中随机选取的3117组测试样本被输入模型，截取了分布于总数据样本5000到6000组之间的测试样本进行展示，由图4可知，变化趋势大多都落在正常烧结终点的区间内，但仍有一部分样本落在非正常烧结终点的区间内，且越偏离正常烧结终点位置分布的样本数量越少，这也较符合现场实际情况。通过图4观察得出，预测值与测试数据样本分布情况基本一致，说明模型应用效果较好。

最后应说明的是：以上仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据和机器学习的烧结终点预测系统的建立方法，包括以下步骤：

S1、采集历史数据：即采集整个烧结工序中影响烧结终点变化的全部变量数据；

S2、数据预处理：对可采集到的历史数据进行分析，获得时间点对应的时间序列样本，补充缺失数据，剔除异常、重复数据，确定模型输入变量和输出变量、数据标准化处理；

S3、烧结终点位置分类：即将所述输出样本依据绘图法对烧结终点位置分布状态进行直观展示，综合考虑数据分布特点和设备控制精度，实现对数据集进行正确的分类；

S4、建立预报模型：即依据步骤S3对输出样本的六类区间划分标准，将输出样本进行数字编码；然后结合输入样本利用GBDT建立预报模型。

2.根据权利要求1的建立方法，其特征在于，步骤S2中，获得时间点对应的时间序列样本是指以大多数变量的采集时间间隔为参照，依据时间点对应对所有变量进行匹配，最终得到所需时间序列样本。

3.根据权利要求1的建立方法，其特征在于，步骤S2确定模型输入变量的方法为通过相关性分析，以与烧结终点位置的变化相关性强的变量，作为本发明模型的输入变量。

4.根据权利要求1的建立方法，其特征在于，步骤S3对烧结终点位置分类具体包括以下步骤：

S31、利用python的matplotlib模块对输出样本绘制散点图；

S32、根据散点图中数据样本的分布情况，综合考虑数据分布特点和设备控制精度，对连续分布的输出样本进行离散化分类：

5.根据权利要求4的建立方法，其特征在于，对上述离散化的烧结终点位置分类设定分类标准，即综合考虑数据分布特点和设备控制精度即结合工艺经验和实际烧结终点位置的数据分布情况，确定输烧结终点位置分类标准。

6.根据权利要求1的建立方法，其特征在于，依据步骤S4对输出样本进行数字编码，即对所有样本(xj,tj)的输出tj进行数字编码；xj指输入变量；tj指输出变量。

7.根据权利要求1的建立方法，其特征在于，利用梯度提升决策树建立预报模型，具体过程包括：

输入训练数据集为T＝{(x₁,t₁)，(x₂,t₂)，…，(x_n,t_n)}，其中x_j＝[x₁,x₂,…,x_n]^T∈Rⁿ,t_j＝[1,2,3,4,5,6]^T，j＝1,2,…,N，输出回归树为f_M(x)

其中，m＝1,2,…M，i＝1,2,…N

3)对r_mi拟合一颗回归树，得到第m棵树的叶结点区域R_mj,j＝1,2,...J，即一棵由J个叶子节点组成的树；

5)更新回归树

6)获得输出的最终模型

8.根据权利要求1-7任一项的建立方法，其特征在于，利用网格搜索和交叉验证的方法优化GBDT算法中的关键参数，优化具体流程如下：

Step1：首先从步长和迭代次数入手；

Step2：找到了一个合适的迭代次数，然后对决策树进行调参；

Step3：确定合理决策树深度的值后，再对内部节点再划分所需最小样本数和叶子节点最少样本数一起调参；

Step4：确定合理的内部节点再划分所需最小样本数和叶子节点最少样本数后，再对最大特征数进行网格搜索；

Step5：确定合理的最大特征数后，再对子采样的比例进行网格搜索；

Step6：得到上述调优的参数结果后，进行减半步长，最大迭代次数加倍再次拟合模型，来增加模型的泛化能力；如果由于步长太小，导致拟合效果反而变差，则选取Step5的结果为最优参数。

9.一种基于大数据和机器学习的烧结终点预测及系统的建立方法，包括按权利要求1-8任一项方法建立烧结终点位置分类预报模型，其特征在于，选取一组变量数据作为输入变量，输入到预报模型，得到烧结终点位置趋势预报结果。

10.根据权利要求9所述的一种基于大数据和机器学习的烧结终点预测及系统的建立方法，其特征在于，选取的输入到预报模型的输入变量与建立预报模型时采用的输入变量相同。