CN116739135A

CN116739135A - 一种模拟成焦机理的焦炭质量串行预测方法及装置

Info

Publication number: CN116739135A
Application number: CN202310385886.5A
Authority: CN
Inventors: 王越; 庞克亮; 吴昊天; 谷致远; 万超然
Original assignee: Ansteel Beijing Research Institute
Current assignee: Ansteel Beijing Research Institute
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-09-12

Abstract

一种模拟成焦机理的焦炭质量串行预测方法及装置，从炼焦工业生产数据出发，采用数据挖掘技术模拟成焦机理，组合每种成焦机理的优点，建立可解释性强的焦炭质量预测方法，提高焦炭质量预测的精度和速度，对炼焦配煤提供有效指导。包括：1：数据采集；2：数据匹配；3：数据转换；4：数据清洗；5：特征分析；6：数据归一化；7：数据挖掘模型构建，每个学习器分别从不同的角度模拟成焦过程，采用串联的方式将将训练好的学习器组合起来，每个学习器均有独立的输出，使最终的结果能够取长补短，优势互补，学习出一个稳定的、在各个方面表现都较好的模型，通过组合输出最终结果产生更强大的模型，实现模型精度以及泛化能力的大幅提升。

Description

一种模拟成焦机理的焦炭质量串行预测方法及装置

技术领域

本发明涉及炼焦工艺技术领域，尤其涉及一种模拟成焦机理的焦炭质量串行预测方法及装置。

背景技术

在焦化企业的炼焦生产过程中，配煤工程师需要结合实际炼焦生产情况，根据焦炭质量要求、炼焦煤资源情况以及其他相关约束条件，制定和完善炼焦配煤方案。但是，这种配煤流程存在以下问题：

(1)炼焦煤来源复杂、性质复杂以及混煤的存在，导致炼焦煤的质量波动大，炼焦煤的性质的表征极为复杂。

(2)炼焦煤表征指标多，指标的加和性差，对焦炭质量指标不全是线性响应，导致焦炭质量预测模型的精度低，常需要借助小焦炉实验进行验证，才能指导工业生产。

(3)由于炼焦配煤涉及的因素和约束条件多，炼焦配煤计算复杂，工作量大，传统配煤方法调控焦炭质量困难，无法做到整体最优，配煤成本较高，对稀缺的焦肥煤资源造成一定的浪费。

(4)配煤流程的验证周期长、配煤效率低，而且容易导致焦炭质量不稳定、指标波动大等问题，难以满足大型高炉对焦炭的质量要求。此外，煤源供应剧变和质量波动，导致配煤方案改变频繁，配煤响应生产慢。

在工业配煤实践过程中，基于炼焦配煤的成焦理论，快速且准确地预测出焦炭质量，优选适宜的配煤方案，不仅能够大大提高工作效率，而且能够实现稳定焦炭质量的目的。炼焦配煤理论建立在煤化学、炼焦学、煤岩学、物理化学的基础上，在长期的生产实践中，形成了塑性成焦、表面结合成焦和中间相成焦3种成焦机理。这3种成焦机理分别从不同的维度表征炼焦煤的成焦过程。

计算机技术和算法的蓬勃发展，为配煤优化和焦炭质量精准预测提供了新的思路。数据挖掘配煤是计算机技术、人工智能、统计学和现代焦化技术结合的产物。将炼焦配煤机理、配煤专家经验与炼焦生产大数据和人工智能技术相结合。通过数据挖掘的方式来优化配煤，利用计算机的存储能力、数据处理以及先进算法计算出最优配煤方案。在保证焦炭质量的前提下，合理地利用煤炭资源，节约高价值的炼焦煤，扩大炼焦煤资源，将有利于焦化企业节约生产成本、提高生产效率，实现焦炭生产的保质降本，是优化配煤技术的发展方向。

公开号为CN114692986A的中国专利公开了一种基于入历史配煤数据及相应焦炭检测结果的神经网络模型智能配煤系统。该发明主要针对神经网络模型在炼焦配煤中的使用。

公开号为CN 111950854 B的中国专利公开了一种基于多层神经网络的焦炭质量指标预测方法，采用工业实际生产数据，首先对数据进行清洗，采用梯度增强树对影响焦炭质量指标的因素进行相关性分析，选择出与灰分、硫分、M10、M40、CRI和CSR等变量，构建训练样本，建立多层神经网络预测模型预测焦炭质量指标，并采用智能优化算法对模型中的变量进行优化，给出最终的焦炭质量指标预测结果。该发明利用梯度增强树进行特征分析，建立多层神经网络预测焦炭质量，并未涉及成焦机理的应用。

公开号为CN112861359B的中国专利公开了一种全要素智能配煤系统，系统包括：单种煤成焦预测模块，用于预测单种煤独立炼焦下焦炭的热强度；煤源性价比排序模块，用于在设定目标质量的前提下，将拟进行排序的所有煤源在一定的质量互补、价格支撑下，选出目前条件下的性价比最优方案，并根据方案比例确定其性价比排名；焦炭质量正向预测模块，用于针对不同炉型、不同工艺，对给定配煤比例进行计算，准确预测焦炭冷强度和焦炭热强度；配煤优化模块，用于依据给定的焦炭冷强度和焦炭热强度优化出最低入炉煤成本的配比；产品产率预测模块，用于预测产品的吨焦单位产率以及焦炭粒度分级比例。该发明主要针对单种煤的成焦特性、煤源性价比、采用具体的公式预测焦炭的M40、CSR等质量指标，并未涉及数据挖掘方法的使用。

发明内容

为了解决背景技术中的技术问题，本发明提供了一种模拟成焦机理的焦炭质量串行预测方法及装置，从炼焦工业生产数据出发，采用数据挖掘技术模拟成焦机理，组合每种成焦机理的优点，建立可解释性强的焦炭质量预测方法，提高焦炭质量预测的精度和速度，对炼焦配煤提供有效指导。

为了达到上述目的，本发明采用以下技术方案实现：

一种模拟成焦机理的焦炭质量串行预测方法，包括如下步骤：

步骤1：数据采集

针对炼焦配煤的特点以及焦化生产数据，采集焦化企业实际炼焦生产数据，从焦化企业的质量报表与生产工艺报表中分析、提取影响焦炭质量的炼焦生产过程数据，包括单种煤、配合煤、焦炭以及焦炉热工数据。

步骤2：数据匹配，构建初始煤焦数据集

基于炼焦生产时序关系对单种煤煤质特征、配合煤煤质特征、配煤比、焦炭质量指标以及焦炉热工数据进行数据匹配，构建初始煤焦数据集。

步骤3：数据转换

煤炭和焦炭的各种检测数据的分析基准不同，将煤焦检测数据转换为相对稳定的分析基准，包括：全水分以收到基表示，灰分和硫分以干基表示，挥发分产率以干燥无灰基表示。

步骤4：数据清洗：

基于焦炭质量预测对数据质量的需求，分析工业生产数据类别及数据特点，建立数据清洗规则和数据清洗方案；对原始数据进行全面检测，检测缺失数据、无关/冗余数据、异常/错误数据，确认问题数据的性质及位置，获取全面的数据质量信息；修正数据：填补缺失数据、合并重复数据、剔除冗余数据、检测异常/错误数据。

步骤5：特征分析

特征分析剔除不必要或冗余的特征，选择最贴合建模问题的特征，降低模型尺寸，防止过拟合；特征分析方法包括逐步回归、序列特征选择、正则化和近邻元分析。

步骤6：数据归一化

部分基于偏差的机器学习算法，对异常值比较敏感，灰分、硫分、挥发分、G值、Y值、焦炭质量指标存在维数高、范围较大的特点，为了消除不同特征间的量纲影响，保证数据的可比性，采用归一化进行特征变换。

步骤7：数据挖掘模型构建

建立满足数据挖掘要求的高质量煤焦数据集，采用规则采样-构建学习器-模型组合的方式建立模拟成焦机理的焦炭质量预测模型；包括如下：

7.1规则采样

将处理后的数据采用k折交叉验证法k-fold CV将数据集分成k个大小相等的样本组，其中k-1份作为训练集、1份作为测试集，其中k为不小于2的自然数。

7.2构建学习器

构建i个相互独立的学习器base learner，分别以h₁、h₂……h_i表示，分别模拟i个炼焦机理，对于给定输入x，每一个学习器h_i都尝试近似原始数据y的分布，并得到局部输出h_i(y|x；θ_i)；其中，θ_i是第i个学习器h_i的参数。

分别为每个学习器生成训练集和测试集，利用训练集样本进行训练，并对测试集进行预测；每个学习器采用一个或多个学习算法，使用第t个学习器的学习算法在第j次执行对应的训练集D_j上训练得出学习器；对于第j次执行的测试集D_(-j)中的每一个样本x_i，设z_it为学习器/>在x_i上的输出结果。

将所述学习器在整个训练集上进行训练；每个学习器的初始化训练参数不同；每个子集各自训练学习器，在每个数据集上学习出一个模型；改变分布相似样本的权重，每个学习器分别在每个数据集上学习最优模型。

7.3模型组合

每个学习器分别从不同的角度模拟成焦过程，采用串联的方式将将训练好的学习器组合起来，每个学习器均有独立的输出，使最终的结果能够取长补短，优势互补，学习出一个稳定的、在各个方面表现都较好的模型，通过组合输出最终的结果，产生更强大的模型，实现模型精度以及泛化能力的大幅提升。

学习器串联的模型组合方式为：学习器以塑性成焦学习器、表面结合成焦学习器和中间相成焦学习器串联排列。

进一步地，所述的步骤4中，修正数据包括检测异常/错误数据，具体如下：

利用统计方法、基于距离的方法、机器学习模型来查找位于绝大多数数据所在范围之外的异常数据，确定异常值为错误数据或者离群数据。

炼焦配煤生产数据中的离群值对模型的构建产生影响，需要甄别离群值属于数据异常还是煤质异常，炼焦配煤生产数据中的离群值分析方法分物理和统计2类准则；物理准则剔除原始数据中不符合准则的异常数据；统计准则剔除统计意义上不正常的数据。

①统计准则剔除

当炼焦工艺操作条件固定时，生产数据一般服从正态分布；根据肖维勒准则处理异常数据，即剔除偏差大于σ的数据，σ为该生产数据的标准差；σ的计算公式见式(1)；

②物理准则剔除

一般焦化企业焦炭中的挥发分V_d≤1.5％，配合煤的挥发分V_daf一般控制在23％～29％；则成焦率K的计算公式见式(2)：

式中：a为成焦率K的修正系数，与煤挥发分、炉体结构、操作制度有关，通常为1.5％；

正常生产条件下，不出现生焦，成焦率K介于73.2％～79.3％之间，以K≤α作为煤焦数据的剔除准则，α介于74％-80％之间，对数据进行剔除处理。

进一步地，所述的步骤5中，特征分析具体包括如下：

采用皮尔逊相关系数选择出对焦炭质量指标相关性较大，数据独立性好的特征；根据皮尔逊相关性计算公式，两个连续变量j与X之间的相关性P_j,X为：

其中，P_j,X为皮尔逊相关性系数，σ_j，σ_X分别为配合煤的特征变量j和焦炭质量X的标准差，μ_j，μ_K分别为j和X的期望值，cov(j,X)为j和X的协方差。

皮尔逊相关系数P的取值范围为(-1,1)，P＞0表示正相关，P＜0表示负相关，P＝0表示零相关；P的绝对值越大表示相关程度越高，|P|＝0.8-1.0为极强相关，0.6-0.8为强相关，0.4-0.6中等程度相关，0.2-0.4弱相关，0.0-0.2为极弱相关或无相关。

进一步地，所述的步骤6具体为：将数据归一化至[0,1]之间，利用式(4)对变量进行归一化。

式中：V为数据的特征值，V_max和V_min分别为每组样本中的每个特征最大值和最小值，表示归一化后的特征值。

进一步地，所述的步骤7还包括如下：

开始训练时对每一个训练例赋相等的权重，然后用学习算法在每个学习器的训练集上迭代训练t轮；每次训练后，计算真实值与预测值之间的偏差，然后对偏差大的训练例赋以较大的权重重新迭代训练；每次训练后均计算偏差，并与上一次的计算的偏差进行对比，沿偏差梯度减小的方法建立模型；后一学习器学习减少上一学习器的偏差，在保证偏差的基础上将每一个学习器简化使得偏差更小；

每个学习器的权重值不是恒定的，而是随样本的类别和偏差而变化；初始化样本权重，每个样本初始权重方法如下式：

在初始化样本权重后开始进行迭代训练：记第k轮迭代得到的权重为W_k，W_k＝(w_k1,w_k2,...,w_ki,...,w_kn)，w_ki为第k轮迭代中第i个样本的权重，i＝1,2,…,n，k＝1,2,…,K，n为样本数量，K为最大迭代次数；在第k轮迭代中，使用带权重w_k的样本X训练第k轮迭代中的学习器模型O_k，则Ok(x)为该学习器对样本x的预测结果；

根据第k轮的学习器模型O_k对样本的预测结果计算第k轮迭代中的偏差为e_k，计算Ok的权重系数αk的计算公式如式(6)所示；

更新k+1轮迭代中的样本权重，使偏差大的样本权重增加，而偏差小的权重减少；

如果某一个学习器不能充分识别煤焦之间的定量关系，则对其预测结果赋予更大的权重，让算法在每次学习以后更注意偏差大的样本；

达到最大迭代次数后，基于优化模型求解得到的各个学习器的权重系数，将每个学习器进行结合，得到组合模型的预测结果。

进一步地，所述的步骤7还包括如下：

学习器的输入指标分别为单种煤的煤质特征、配合煤的煤质特征以及焦炉的热工数据，输出指标为焦炭的质量指标；

单种煤的煤质特征包括灰分、硫分、挥发分、黏结指数、胶质层最大厚度(Y值)、胶质层最大收缩度即X值、吉式最大流动度、塑性区间、开始流动温度、最大流动温度、最后流动温度、固化温度、奥亚最大膨胀度即b值、奥亚最大收缩度即a值、固软区间、煤灰成分：SiO₂、Al₂O₃、Fe₂O₃、TiO₂、CaO、MgO、K₂O、Na₂O、SO₃、MnO₂、P₂O₅、镜质组反射率、反射率标准差s、镜质体反射率区间V3-V21、活性组分含量、惰性组分含量以及其他涉及的指标；

配合煤的煤质特征包括灰分、硫分、挥发分、黏结指数、胶质层指数以及其他涉及的指标；

焦炉的热工数据包括成焦温度、结焦时间指标；

焦炭的质量指标即输出指标为焦炭的灰分A_d、全硫S_t,d、抗碎强度M₄₀、耐磨强度M₁₀、热反应性CRI和热反应后强度CSR。

进一步地，所述的步骤7还包括如下：

所述学习器训练中采用的数据挖掘算法包括最小二乘线性回归、岭回归、LASSO回归、支持向量机SVR、随机森林RF、决策树：ID3、C4.5、C5.0和CART、Logistic回归、神经网络等模型中的一个或者多个；

每个学习器中的数据挖掘算法完全相同或者完全不同；机器学习算法的学习率η介于0.01-0.5之间、最大深度μ介于3-10之间，惩罚函数参数γ介于0-0.4之间、循环迭代训练次数r介于100-5000之间，正则化惩罚系数λ介于0-5之间；到达最大迭代周期后自动终止训练过程并固化各个学习器的模型参数。

进一步地，还包括：

步骤8：模型评价

采用分层采样法划分验证集，保持验证集和训练集具有相似的类别比例；

模型评价参数采用相关系数R²、均方误差MSE、平均绝对误差MAE、平均绝对百分比误差MAPE等参数，分别如式(7)-式(10)所示；

其中，y为实际值，为预测值。

本发明还提供一种用于实现所述一种模拟成焦机理的焦炭质量串行预测方法的装置，包括处理器以及与其连接的存储器；其中，所述处理器配置为执行所述一种模拟成焦机理的焦炭质量串行预测方法；所述存储器用于存储所述处理器的可执行指令。

本发明还提供一种计算机的可存储介质，其上存储有计算机程序，所述计算机程序被处理器执行，实现所述的一种模拟成焦机理的焦炭质量串行预测方法。

与现有技术相比，本发明的有益效果是：

本发明可以更好的利用煤焦专业知识，对炼焦工业生产中产生的单种煤质量、配合煤质量、焦炭质量、炼焦工艺参数等历史数据，建立一个稳定性和精准度都较高的焦炭质量预测模型，可以用于长周期工业生产时焦炭质量在线预测和配煤监控，对焦化企业的数字化转型具有重要意义。

附图说明

图1为基于数据挖掘技术模拟成焦机理的焦炭质量预测的技术流程图；

图2为数据清洗的具体流程框架图；

图3为学习器之间的组合方式；

图4为模型评价的技术流程图；

图5为模拟成焦机理的焦炭质量预测系统图；

图6为基于炼焦生产时序关系的数据匹配图；

图7为物理准则剔除焦炭抗碎强度(M40)示意图；

图8为配合煤数据的相关性热力图；

图9为5折交叉验证示意图；

图10为模型准确率随迭代次数的变化趋势图；

图11为模型准确率随样本数量的变化趋势图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

如图1所示，本发明的一种模拟成焦机理的焦炭质量串行预测方法，包括如下步骤：

1数据采集

针对炼焦配煤的特点以及焦化生产数据，采集焦化企业实际炼焦生产数据，从焦化企业的质量报表与生产工艺报表中分析、提取影响焦炭质量的炼焦生产过程数据，包括单种煤、配合煤、焦炭以及焦炉热工数据等。

2数据匹配

3数据转换

煤炭和焦炭的各种检测数据的分析基准不同，将煤焦检测数据转换为相对稳定的分析基准，如全水分以收到基表示，灰分和硫分以干基表示，挥发分产率以干燥无灰基表示。

4数据清洗

如图2所示，数据清洗的主要流程如下：

4.1分析数据：基于焦炭质量预测对数据质量的需求，分析工业生产数据类别及数据特点，建立数据清洗规则和数据清洗方案。

4.2检测数据：对原始数据进行全面检测，检测缺失数据、无关/冗余数据、异常/错误数据，确认问题数据的性质及位置，获取全面的数据质量信息。

4.3修正数据：填补缺失数据、合并重复数据、剔除冗余数据、检测异常/错误数据。

1)填补缺失数据

采用插补法或建模法对缺失数据进行合理填充。

插补法包括却不限于均值插补法、中位数插补法、随机插补法、多重插补法、拉格朗日插值法和牛顿插值法等。

建模法包括却不限于回归、贝叶斯、决策树、概率统计建模及深度学习方法等。

2)合并重复数据

采用匹配与合并的方式处理重复数据。将数据集中的记录按一定的规则排序，比较邻近记录是否相似来检测记录是否重复，对重复的数据进行合并处理。

3)删除冗余数据

对冗余数据直接进行删除。

4)检测异常/错误数据

基于统计的检测方法包括却不限于基于正态分布、多元高斯分布，对需要识别的数据设置置信度，利用置信度判断是否异常。

基于距离的检测方法包括却不限于基于马氏距离、欧式距离、标准化欧氏距离、曼哈顿距离、切比雪夫距离、杰卡德距离、信息熵、相关距离、夹角余弦等。

基于机器学习算法的检测方法包括却不限于决策树、PCA聚类、随机森林等，从特征集合中随机选择特征，在特征的最大值和最小值之间选择生成路径最短的分割值。

炼焦配煤生产数据中的离群值对模型的构建产生影响，需要甄别离群值属于数据异常还是煤质异常，炼焦配煤生产数据中的离群值分析方法分物理和统计2类准则。物理准则剔除原始数据中不符合准则的异常数据(数据异常)。统计准则剔除统计意义上不正常的数据。

③统计准则剔除

当炼焦工艺操作条件固定时，生产数据一般服从正态分布。根据肖维勒准则(Chauvenet Criterion)处理异常数据，即剔除偏差大于σ的数据，σ为该生产数据的标准差。σ的计算公式见式(1)。

④物理准则剔除

一般焦化企业焦炭中的挥发分(V_d)≤1.5％，配合煤的挥发分(V_daf)一般控制在23％～29％。则成焦率(K)的计算公式见式(2)。

式中：a为成焦率K的修正系数，与煤挥发分、炉体结构、操作制度有关，通常为1.5％。

正常生产条件下(不出现生焦)，成焦率(K)介于73.2％～79.3％之间，以K≤α(α介于74％-80％之间)作为煤焦数据的剔除准则，对数据进行剔除处理。

4.4验证数据

对修正后的数据进行验证。如果验证结果和任务目标不相符，则需做进一步的修正。

5特征分析

特征分析可以剔除不必要或冗余的特征，选择最贴合建模问题的特征，降低模型尺寸，防止过拟合。

特征分析方法包括却不限于逐步回归、序列特征选择、正则化和近邻元分析等。如采用皮尔逊相关系数(Pearson correlation coefficients,PCCs)选择出对焦炭质量指标相关性较大，数据独立性好的特征。根据皮尔逊相关性计算公式，两个连续变量j与X之间的相关性P_j,X为：

皮尔逊相关系数P的取值范围为(-1,1)，P＞0表示正相关，P＜0表示负相关，P＝0表示零相关。P的绝对值越大表示相关程度越高，|P|＝0.8-1.0为极强相关，0.6-0.8为强相关，0.4-0.6中等程度相关，0.2-0.4弱相关，0.0-0.2为极弱相关或无相关。

6数据归一化

部分基于偏差的机器学习算法，对异常值比较敏感。灰分、硫分、挥发分、G值、Y值、焦炭质量等指标存在维数高、范围较大的特点，为了消除不同特征间的量纲影响，保证数据的可比性，采用归一化进行特征变换，将数据归一化至[0,1]之间，利用式(4)对变量进行归一化。

7数据挖掘模型构建

在对初始煤焦数据集进行数据转换、数据清洗、特征分析、归一化等操作后，建立满足数据挖掘要求的高质量煤焦数据集。采用规则采样-构建学习器-模型组合的方式建立模拟成焦机理的焦炭质量预测模型。

7.1规则采样

将处理后的数据采用k折交叉验证法(k-fold CV)将数据集分成k个大小相等的样本组，其中(k-1)份作为训练集、1份作为测试集，其中k为不小于2的自然数。

7.2构建学习器

构建i个相互独立的学习器(base learner)，分别以h₁、h₂……h_i表示，分别模拟炼焦机理。对于给定输入x，每一个学习器h_i都尝试近似原始数据y的分布，并得到局部输出h_i(y|x；θ_i)。其中，θ_i是第i个学习器h_i的参数。

分别为每个学习器生成训练集和测试集，利用训练集样本进行训练，并对测试集进行预测；每个学习器采用一个或多个学习算法，使用第i个学习器的学习算法在第j次执行对应的训练集D_j上训练得出学习器h_t ^j；对于第j次执行的测试集D_(-j)中的每一个样本x_i，设z_it为学习器h_t ^j在x_i上的输出结果。

将所述学习器在整个训练集上进行训练。每个学习器的初始化训练参数不同。每个子集各自训练学习器(在每个数据集上学习出一个模型)。改变分布相似样本的权重，每个学习器分别在每个数据集上学习最优模型。

7.3模型组合

图4为学习器串联的模型组合方式。学习器以塑性成焦学习器、表面结合成焦学习器和中间相成焦学习器串联排列。

开始训练时对每一个训练例赋相等的权重，然后用该算法在每个学习器的训练集上迭代训练t轮；每次训练后，计算真实值与预测值之间的偏差，然后对偏差大的训练例赋以较大的权重重新迭代训练。每次训练后均计算偏差，并与上一次的计算的偏差进行对比，沿偏差梯度减小的方法建立模型。后一学习器学习减少上一学习器的偏差，在保证偏差的基础上将每一个学习器简化使得偏差更小。

损失函数可以使用指数型损失函数、对数型损失函数、累积二项式损失函数、模拟布朗运动过程的损失函数。

每个学习器的权重值不是恒定的，而是随样本的类别和偏差而变化。初始化样本权重，每个样本初始权重方法如式(5)。

在初始化样本权重后开始进行迭代训练：记第k轮迭代得到的权重为W_k，W_k＝(w_k1,w_k2,...,w_ki,...,w_kn)，w_ki为第k轮迭代中第i个样本的权重，i＝1,2,…,n，k＝1,2,…,K，n为样本数量，K为最大迭代次数。在第k轮迭代中，使用带权重w_k的样本X训练第k轮迭代中的学习器模型O_k，则Ok(x)为该学习器对样本x的预测结果。

根据第k轮的学习器(O_k)对样本的预测结果计算第k轮迭代中的偏差为e_k，计算Ok的权重系数αk的计算公式如式(6)所示。

更新k+1轮迭代中的样本权重，使偏差大的样本权重增加，而偏差小的权重减少。

如果某一个学习器不能充分识别煤焦之间的定量关系，则对其预测结果赋予更大的权重，让算法在每次学习以后更注意偏差大的样本。

学习器的输入指标分别为单种煤的煤质特征、配合煤的煤质特征以及焦炉的热工数据，输出指标为焦炭的质量指标。

单种煤的煤质特征包括却不限于灰分、硫分、挥发分、黏结指数、胶质层最大厚度(Y值)、胶质层最大收缩度(X值)、吉式最大流动度、塑性区间、开始流动温度、最大流动温度、最后流动温度、固化温度、奥亚最大膨胀度(b值)、奥亚最大收缩度(a值)、固软区间、煤灰成分(SiO₂、Al₂O₃、Fe₂O₃、TiO₂、CaO、MgO、K₂O、Na₂O、SO₃、MnO₂、P₂O₅)、镜质组反射率()、反射率标准差(s)、镜质体反射率区间(V3-V21)、活性组分含量、惰性组分含量以及其他涉及的指标。

配合煤的煤质特征包括却不限于灰分、硫分、挥发分、黏结指数、胶质层指数以及其他涉及的指标。

焦炉的热工数据包括却不限于成焦温度、结焦时间等指标。

焦炭的质量指标(输出指标)为焦炭的灰分(A_d)、全硫(S_t,d)、抗碎强度(M₄₀)、耐磨强度(M₁₀)、热反应性(CRI)和热反应后强度(CSR)。

所述学习器训练中采用的数据挖掘算法包括却不限于最小二乘线性回归、岭回归、LASSO回归、支持向量机(SVR)、随机森林(RF)、决策树(ID3、C4.5、C5.0和CART)、Logistic回归、神经网络等模型中的一个或者多个。

每个学习器中的数据挖掘算法可以完全相同或者完全不同。机器学习算法的学习率(η)介于0.01-0.5之间、最大深度(μ)介于3-10之间，惩罚函数参数(γ)介于0-0.4之间、循环迭代训练次数(r)介于100-5000之间，正则化惩罚系数(λ)介于0-5之间。到达最大迭代周期后自动终止训练过程并固化各个学习器的模型参数。

8模型评价

模型评价的技术流程图如图5所示，采用分层采样法划分验证集，保持验证集和训练集具有相似的类别比例。

模型评价参数采用相关系数(R²)、均方误差(MSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)等参数，分别如式(7)-式(10)所示。

其中，y为实际值，为预测值。

9模拟成焦机理的焦炭质量预测系统

模拟成焦机理的焦炭质量预测系统包括数据采集层、数据处理层、模型构建层、模型求解层和模型输出层，如图6所示。将训练好的模型部署到生产系统中。

具体实施过程如下：

1数据采集

在焦化企业炼焦生产过程中，由化验室按日期和班组采集单种煤、配合煤及焦炭样品进行化验分析，并以质量报表的形式呈现。

单种煤的煤质特征包括水分、灰分、挥发分、硫分、G值、Y值、吉式流动度、奥亚膨胀度、镜质体反射率及分布、活惰比、矿物催化指数、单种煤实验焦炉的焦炭指标(A_d、S_t,d、M₄₀、M₁₀、CRI、CSR)。每日夜班、白班和中班均检测单种煤的水分、灰分、挥发分、硫分、G值、Y值。镜质体反射率及分布、实验焦炉(A_d、S_t,d、M₄₀、M₁₀、CRI、CSR)仅在入厂时检测。吉式流动度、奥亚膨胀度、活惰比、矿物催化指数等仅在需要时才进行检测。

配合煤的煤质特征包括水分、灰分、挥发分产率、硫分、细度及配合料粒度组成。每日夜班、白班和中班均检测配合煤的水分、灰分、挥发分产率、硫分及细度，配合煤的黏结指数(G_R.I)、胶质层最大厚度(Y值)仅在配煤方案改变时才检测。镜质体反射率及分布、活惰比、矿物催化指数等不定期检测。

焦炭的质量指标包括水分、灰分、挥发分产率、硫分、抗碎强度(M₄₀)、耐磨强度(M₁₀)、焦炭热反应性(CRI)、焦炭热反应后强度(CSR)及焦炭粒度组成。每日夜班、白班和中班均检测焦炭的水分、灰分、挥发分产率、硫分、抗碎强度(M₄₀)、耐磨强度(M₁₀)及焦炭粒度组成，仅白班检测焦炭的热反应性(CRI)和热反应后强度(CSR)。

配煤方案包括配煤日期、煤种和配比等信息。

炼焦生产的工况相对稳定，焦炉的热工数据包括成焦温度、结焦时间等。

为保证数据的均齐性，将每日白班、中班和晚班相应的生产数据进行加权平均处理。

表1焦化企业工业生产煤焦数据检测频率

2数据匹配

配煤方案制定日期与配合煤、焦炭的质量检测日期并不一致。炼焦生产过程中备煤工序、配煤工序、炼焦工序的生产时序及数据信息如图7所示。

根据炼焦生产时序关系，将单种煤质量、配合煤质量、配煤方案(配比)、焦炭质量等数据进行匹配，规整成一套完整的生产数据。

3数据转换

将单种煤、配合煤和焦炭检测数据转换为相对稳定的分析基准，全水分转换为收到基(M_t)，灰分和硫分分别转换为干基(A_d、S_t,d)，挥发分产率转换为干燥无灰基(V_daf)。转化后的特征可以很好地描述数据的分布及相互关系，从而构建更适合数据的模型。

4数据清洗

对原始数据进行全面检测，基于焦炭质量预测对数据质量的需求，分析工业生产数据类别及数据特点，建立数据清洗规则和数据清洗方案。进行填补缺失数据、合并重复数据、剔除冗余数据等操作，获得高质量的数据用于模型构建，使数据预测结果满足工业生产的实际要求。

(1)统计准则剔除

以焦炭的抗碎强度(M₄₀)为例，该指标的检测波动范围为±3％。根据统计准则剔除原则，对生产数据中焦炭抗碎强度(M₄₀)指标做散点图，查找波动范围以外的点，如图8所示。对异常数据偏离的原因进行深入分析，追溯其配煤方案，分析该异常点的形成是配煤方案引起还是数据测试错误。如果是数据测试错误，需要将改组数据剔除。

其他指标同样处理。

(2)物理准则剔除

根据公式(2)计算某企业正常生产条件下(不出现生焦)的成焦率(K)在75％左右，很难高于80％。因此，以K≤80％作为灰分数据的剔除准则，对数据进行剔除处理。

其他指标同样处理。

5特征分析

采用皮尔逊相关系数获取焦炭质量指标与配合煤煤质指标之间的相关系数见表2。配合煤灰分、挥发分、硫分、黏结指数和胶质层指数之间的独立性强，因而选择作为模型的输入。

表2焦炭质量指标与配合煤煤质指标之间的皮尔逊相关系数

对焦炭的抗碎强度(M₄₀)、耐磨强度(M₁₀)、热反应性(CRI)、热反应后强度(CSR)以及配合煤的灰分(A_d)、硫分(S_t,d)、挥发分产率(V_daf)、黏结指数(G_R.I)、胶质层最大厚度(Y)原始数据进行相关性分析，相关性热力图结果如图9所示。

6数据归一化

根据公式(4)将数据归一化至[0,1]之间，消除不同特征间的量纲影响，保证数据间的可比性。

7数据挖掘模型的构建

将初始煤焦数据集采用k折交叉验证法(k-fold CV)将数据集分成3个大小相等的样本组，其中2份作为训练集、1份作为测试集。构建3个相互独立的学习器(base learner)，分别以learner A、learner B和learner C表示，分别模拟塑性成焦机理、表面结合成焦机理和中间相成焦机理3种成焦机理。每个学习器分别对训练集样本进行训练和预测。每个学习器的初始化训练参数不同。目前应用最多的为塑性成焦机理配煤法，其次为表面结合成焦机理配煤法、中间相成焦机理配煤法。因而，依次对其串行排列。

每个子集各自训练学习器(在每个数据集上学习出一个模型)。改变分布相似样本的权重，学习器分别在每个数据集上学习最优模型。

3个学习器均有独立的输出，采用串联的方式将将3个训练好的学习器组合起来，图3为学习器的模型加权组合方式。3个学习器分别使用不同的算法和目标函数训练，分别独立输出完全不同的模型，因而不会在测试集上产生完全相同的误差。

基于3个学习器输出的置信度(精度)特征进行迭代计算，得到的各个学习器的权重系数，建立预测偏差最小化优化模型，构建得到基于数据挖掘模拟炼焦机理的焦炭质量预测方法。

采用5折交叉验证，将数据集随机划分为5个等大小的子集，每次保留1个子集作为验证集，经过5次交叉验证来构建模型，如图9所示。

具体实施例：

采集某焦化企业7米顶装焦炉2018年1月-2022年6月共1200组工业生产数据进行焦炭质量预测。在进行数据匹配、数据转换、数据清洗、特征分析、相关性分析、归一化处理后，在基于python的scikit-learn机器学习框架上，以决策树(C5.0)随机森林模型作为学习器算法建立串联式模型，逐一对训练集进行学习。通过不断迭代使模型的损失函数沿梯度方向下降。迭代过程中每一轮预测值和实际值有残差，下一轮根据残差再进行预测。根据scikit-learn库中该轮学习器的predict_score函数计算并获取当前各样本的预测精度，使其参与下一轮样本权重更新，得到组合模型。

分别采用传统的随机森林(RF)算法、梯度提升树(GBDT)算法以及本发明算法(串联式)进行焦炭质量(CSR)预测，模型准确率随迭代次数的变化趋势如图10所示，模型准确率随样本数量的变化趋势如图11所示。

由图10和图11可知，本发明算法相较传统的RF算法和GBDT算法的优势比较明显。本发明算法稳定性较强，较传统的RF算法和GBDT算法的精度有明显的优势。本发明所提模型每次迭代训练都会选择样本权重较高的样本，学习效果较好，有助于模型准确率提升。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种模拟成焦机理的焦炭质量串行预测方法，其特征在于，包括如下步骤：

步骤1：数据采集

针对炼焦配煤的特点以及焦化生产数据，采集焦化企业实际炼焦生产数据，从焦化企业的质量报表与生产工艺报表中分析、提取影响焦炭质量的炼焦生产过程数据，包括单种煤、配合煤、焦炭以及焦炉热工数据；

步骤2：数据匹配，构建初始煤焦数据集

基于炼焦生产时序关系对单种煤煤质特征、配合煤煤质特征、配煤比、焦炭质量指标以及焦炉热工数据进行数据匹配，构建初始煤焦数据集；

步骤3：数据转换

煤炭和焦炭的各种检测数据的分析基准不同，将煤焦检测数据转换为相对稳定的分析基准，包括：全水分以收到基表示，灰分和硫分以干基表示，挥发分产率以干燥无灰基表示；

步骤4：数据清洗

基于焦炭质量预测对数据质量的需求，分析工业生产数据类别及数据特点，建立数据清洗规则和数据清洗方案；对原始数据进行全面检测，检测缺失数据、无关/冗余数据、异常/错误数据，确认问题数据的性质及位置，获取全面的数据质量信息；修正数据：填补缺失数据、合并重复数据、剔除冗余数据、检测异常/错误数据；

步骤5：特征分析

特征分析剔除不必要或冗余的特征，选择最贴合建模问题的特征，降低模型尺寸，防止过拟合；特征分析方法包括逐步回归、序列特征选择、正则化和近邻元分析；

步骤6：数据归一化

部分基于偏差的机器学习算法，对异常值比较敏感，灰分、硫分、挥发分、G值、Y值、焦炭质量指标存在维数高、范围较大的特点，为了消除不同特征间的量纲影响，保证数据的可比性，采用归一化进行特征变换；

步骤7：数据挖掘模型构建

7.1规则采样

将处理后的数据采用k折交叉验证法k-foldCV将数据集分成k个大小相等的样本组，其中k-1份作为训练集、1份作为测试集，其中k为不小于2的自然数；

7.2构建学习器

构建i个相互独立的学习器baselearner，分别以h₁、h₂……h_i表示，分别模拟i个炼焦机理，对于给定输入x，每一个学习器h_i都尝试近似原始数据y的分布，并得到局部输出h_i(y|x；θ_i)；其中，θ_i是第i个学习器h_i的参数；

分别为每个学习器生成训练集和测试集，利用训练集样本进行训练，并对测试集进行预测；每个学习器采用一个或多个学习算法，使用第t个学习器的学习算法在第j次执行对应的训练集D_j上训练得出学习器h_t ^j；对于第j次执行的测试集D_(-j)中的每一个样本x_i，设z_it为学习器h_t ^j在x_i上的输出结果；

将所述学习器在整个训练集上进行训练；每个学习器的初始化训练参数不同；每个子集各自训练学习器，在每个数据集上学习出一个模型；改变分布相似样本的权重，每个学习器分别在每个数据集上学习最优模型；

7.3模型组合

2.根据权利要求1所述的一种模拟成焦机理的焦炭质量串行预测方法，其特征在于，所述的步骤4中，修正数据包括检测异常/错误数据，具体如下：

利用统计方法、基于距离的方法、机器学习模型来查找位于绝大多数数据所在范围之外的异常数据，确定异常值为错误数据或者离群数据；

炼焦配煤生产数据中的离群值对模型的构建产生影响，需要甄别离群值属于数据异常还是煤质异常，炼焦配煤生产数据中的离群值分析方法分物理和统计2类准则；物理准则剔除原始数据中不符合准则的异常数据；统计准则剔除统计意义上不正常的数据；

1统计准则剔除

2物理准则剔除

3.根据权利要求1所述的一种模拟成焦机理的焦炭质量串行预测方法，其特征在于，所述的步骤5中，特征分析具体包括如下：

其中，P_j,X为皮尔逊相关性系数，σ_j，σ_X分别为配合煤的特征变量j和焦炭质量X的标准差，μ_j，μ_K分别为j和X的期望值，cov(j,X)为j和X的协方差；

皮尔逊相关系数P的取值范围为(-1,1)，P>0表示正相关，P<0表示负相关，P＝0表示零相关；P的绝对值越大表示相关程度越高，|P|＝0.8-1.0为极强相关，0.6-0.8为强相关，0.4-0.6中等程度相关，0.2-0.4弱相关，0.0-0.2为极弱相关或无相关。

4.根据权利要求1所述的一种模拟成焦机理的焦炭质量串行预测方法，其特征在于，所述的步骤6具体为：将数据归一化至[0,1]之间，利用式(4)对变量进行归一化：

5.根据权利要求1所述的一种模拟成焦机理的焦炭质量串行预测方法，其特征在于，所述的步骤7还包括如下：

6.根据权利要求1所述的一种模拟成焦机理的焦炭质量串行预测方法，其特征在于，所述的步骤7还包括如下：

单种煤的煤质特征包括灰分、硫分、挥发分、黏结指数、胶质层最大厚度(Y值)、胶质层最大收缩度即X值、吉式最大流动度、塑性区间、开始流动温度、最大流动温度、最后流动温度、固化温度、奥亚最大膨胀度即b值、奥亚最大收缩度即a值、固软区间、煤灰成分：SiO₂、Al₂O₃、Fe₂O₃、TiO₂、CaO、MgO、K₂O、Na₂O、SO₃、MnO₂、P₂O₅、镜质组反射率反射率标准差s、镜质体反射率区间V3-V21、活性组分含量、惰性组分含量以及其他涉及的指标；

焦炉的热工数据包括成焦温度、结焦时间指标；

7.根据权利要求1所述的一种模拟成焦机理的焦炭质量串行预测方法，其特征在于，所述的步骤7还包括如下：

8.根据权利要求1所述的一种模拟成焦机理的焦炭质量串行预测方法，其特征在于，还包括：

步骤8：模型评价

其中，y为实际值，为预测值。

9.一种用于实现权利要求1～7中任意一项所述一种模拟成焦机理的焦炭质量串行预测方法的装置，其特征在于，包括处理器以及与其连接的存储器；

其中，所述处理器配置为执行所述权利要求1～7中任意一项所述一种模拟成焦机理的焦炭质量串行预测方法；

所述存储器用于存储所述处理器的可执行指令。

10.一种计算机的可存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行，实现权利要求1～7中任意一项所述的一种模拟成焦机理的焦炭质量串行预测方法。