CN112560930B

CN112560930B - 基于生产数据的汽油辛烷值预测方法

Info

Publication number: CN112560930B
Application number: CN202011450056.9A
Authority: CN
Inventors: 李�真; 宋安军; 刘慧�; 李中耀
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2024-01-19
Anticipated expiration: 2040-12-09
Also published as: CN112560930A

Abstract

本发明提供一种基于生产数据的汽油辛烷值预测方法。预先采集汽油脱硫装置的数据，并对该数据进行预处理。根据预处理后的生产数据特征集，通过使用Boruta算法进行特征选择，并在创建阴影特征时按照比例P对阴影特征进行随机重排，并通过多次循环标记得到最优子特征，最后使用XGboost模型，对汽油辛烷值进行预测。基于生产数据的汽油辛烷值预测方法将机器学习算法模型应用于化工生产领域，通过改进的Boruta算法来提取特征，在提高了运行效率的同时，提取出了所有重要的特征且保留特征的独立性，在特征提取的基础上使用XGboost模型准确预测汽油辛烷值。

Description

基于生产数据的汽油辛烷值预测方法

技术领域

本发明涉及汽油生产的化工技术领域，特别涉及基于生产数据的汽油辛烷值预测方法。

背景技术

随着我国对汽油的需要日益增加，对于汽油质量也有了更高的要求，而我国原油超过70％来自国外，且大部分是来自中东地区的含硫和高硫原油。原油中的重油通常占比40-60％，这部分重油(以硫为代表的杂质含量也高)难以直接利用。为了有效利用重油资源，我国大力发展了以催化裂化为核心的重油轻质化工艺技术，将重油转化为汽油、柴油和低碳烯烃，超过70％的汽油是由催化裂化生产得到，因此成品汽油中95％以上的硫和烯烃来自催化裂化汽油。故必须对催化裂化汽油进行精制处理，以满足对汽油质量要求。

但是，现有技术在对催化裂化汽油进行脱硫和降烯烃过程中，难以精确控制汽油辛烷值，普遍降低了汽油辛烷值，造成了经济效益的巨大损失。

其次，由于炼油工艺过程的复杂性以及设备的多样性，它们的生产操作变量之间有高度非线性和相互强耦联的关系，而且传统的数据关联模型中变量相对较少、机理建模对原料的分析要求较高，对过程优化的响应不及时，所以效果并不理想。

发明内容

本发明的目的在于提供一种基于生产数据的汽油辛烷值预测方法，以解决高维非线性数据建模的问题。

为了解决上述技术问题，本发明的技术方案是：提供一种基于生产数据的汽油辛烷值预测方法，包括以下步骤：

步骤一、通过催化裂化汽油精制脱硫装置采集数据；

步骤二、对采集到的数据进行预处理；

步骤三、基于改进的Boruta算法进行特征选择，并将特征子集划分训练集和测试集；

步骤四、通过训练集确定XGboost模型的参数；

步骤五、对XGboost模型预测结果进行评估。

进一步地，步骤一中的数据包括多个样本，每个所述样本包括原料数据和运行变量数据。

进一步地，所述样本的数量为325个样本，每个所述样本包括的原料数据具有11个特征，以及包括的运行变量数据具有354个特征。

进一步地，步骤二中的预处理包括删除超出变量范围的异常数据，删除缺失值大于百分之30的字段，缺失值小于百分之30的字段使用平均值填充，根据拉伊达准则去除异常值。

进一步地，在步骤三中，通过多次循环标记得到最优特征子集，将原料数据和运行变量数据的最优特征子集合并，然后将该数据集划分为训练集和测试集。

进一步地，在步骤四中，通过对模型中的9个参数进行网格搜索法选取最优参数。

进一步地，使用拟合优度R2、均方误差MSE和平均绝对误差MAE作为评估指标，选取最优参数，

式中：m是样本的个数，代表预测数据，y_i代表真实数据，/>代表真实数据的平均值。

进一步地，在步骤五中，采用训练好的XGboost模型对测试集进行辛烷值的预测，将预测数据同真实数据进行误差计算，误差计算采用拟合优度R²、均方误差MSE和平均绝对误差MAE作为评估指标，输出结果并保存模型。

本发明提供的基于生产数据的汽油辛烷值预测方法，解决了传统方法难以解决的高维非线性的数据的建模问题，Boruta算法能够筛选出最直接影响辛烷值的生产变量，最后将筛选出生产变量的特征子集和原料数据作为XGboost的输入参数，辛烷值作为其输出，通过训练模型和参数调优，使之得到可靠而普适的辛烷值模型，为提高原油利用率意义重大。本发明提供的基于生产数据的汽油辛烷值预测方法将机器学习算法模型应用于化工生产领域，通过改进的Boruta算法来提取特征，不仅提高了运行效率，而且提取出了所有重要的特征并保留特征的独立性，在特征提取的基础上使用XGboost模型能够准确预测汽油辛烷值。

附图说明

下面结合附图对发明作进一步说明：

图1为本发明实施例提供的基于生产数据的汽油辛烷值预测方法步骤流程示意图；

图2为本发明实施例提供的应用基于改进的Boruta特征提取算法提取辛烷值特征子集算法流程示意图；

图3为本发明实施例中测试集中预测数据和真实数据对比示意图。

具体实施方式

以下结合附图和具体实施例对本发明提出的基于生产数据的汽油辛烷值预测方法作进一步详细说明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比率，仅用以方便、明晰地辅助说明本发明实施例的目的。

本发明的核心思想在于，本发明提供的基于生产数据的汽油辛烷值预测方法，解决了传统方法难以解决的高维非线性的数据的建模问题，Boruta算法能够筛选出最直接影响辛烷值的生产变量，最后将筛选出生产变量的特征子集和原料数据作为XGboost的输入参数，辛烷值作为其输出，通过训练模型和参数调优，使之得到可靠而普适的辛烷值模型，为提高原油利用率意义重大。本发明提供的基于生产数据的汽油辛烷值预测方法将机器学习算法模型应用于化工生产领域，通过改进的Boruta算法来提取特征，不仅提高了运行效率，而且提取出了所有重要的特征并保留特征的独立性，在特征提取的基础上使用XGboost模型能够准确预测汽油辛烷值。

图1为本发明实施例提供的基于生产数据的汽油辛烷值预测方法步骤流程示意图。参照图1，本发明提供一种基于生产数据的汽油辛烷值预测方法，包括以下步骤：

S11、通过催化裂化汽油精制脱硫装置采集数据；

S12、对采集到的数据进行预处理，得到生产变量数据集；

S13、通过改进的Boruta算法进行特征选择，并将特征子集划分训练集和测试集；

S14、通过训练集确定XGboost模型的参数；

S15、对XGboost模型预测结果进行评估。

步骤一中的数据包括多个样本，每个所述样本包括原料数据和运行变量数据。在本发明实施例中，所述样本的数量为325个样本，每个所述样本包括的原料数据具有11个特征，以及包括的运行变量数据具有354个特征。

步骤二，采集到的数据经常是含有噪声的、不完整的和不一致的，预处理包括删除超出变量范围的异常数据，删除缺失值大于百分之30的字段，缺失值小于百分之30的字段使用平均值填充，空缺值用其前后两个小时数据的平均值代替，删除异常范围的字段，根据拉伊达准则(3σ准则)去除异常值，并用均值代替。

3σ准则：设对被测量变量进行等精度测量，得到x₁，x₂，……，x_n，算出其算术平均值x及剩余误差v_i＝x_i-x(i＝1,2,...,n)，并按贝塞尔公式算出标准误差σ，若某个测量值x_b的剩余误差v_b(1<＝b<＝n)，满足|v_b|＝|x_b-x|>3σ，则认为x_b是含有粗大误差值，使用均值代替。贝塞尔公式如下：

在步骤三中，通过多次循环标记得到最优特征子集，将原料数据和运行变量数据的最优特征子集合并，然后将该数据集划分为训练集和测试集。

图2为本发明实施例提供的应用基于改进的Boruta特征提取算法提取辛烷值特征子集算法流程示意图。参照图2，包括步骤：

1、假设样本数据X为m行n列，既有m个样本，n个特征，其中m>1，n>1；

2、首先将原始特征样本X复制，得到复制特征样本X₁；

3、将复制特征样本X₁按照P(0<＝P<1)提取出(m*p)*n组样本，m*p若非整数可进行取整，记为[m*p],当p＝1时即为原算法，对n列数据中每一列都进行数据混洗随机打乱，再放回原特征样本X₁中，得到现在的特征样本X₁，依旧是m*n组数据，但与原始算法相比，混合打乱的[m*p]*n组数据；

4、将特征样本X₁进行行变换，随机打乱行序，得到阴影特征样本D；

5、将原始样本X与特征样本D合并，得到最终的混合样本；

6、在混合样本上运行随机森林回归模型，并计算每个变量不再模型中的平均减少精度MeanImp；

7、将影子特征中最大的MeanImp定义为MaxImp。

8、依据原输入特征的MeanImp，将大于MaxImp的特征变量标记为“重要”特征，其他标记为“暂定”；

9、删除所有阴影特征；

10、重复2-9步骤，直到所有特征重要性标记完成；

11、将原料数据和生产变量数据的最优特征子集合并；

12、使用sklearn库中的train_test_split方法划分训练集(0.8)和测试集(0.2)。

最终特征如表1所示。

表1

在步骤四中，根据训练集训练Xgboost，通过网络搜索法对Xgboost模型进行参数优化，即通过对模型中的9个参数进行网格搜索法选取最优参数，得到的模型参数如表2所示。

表2

在步骤五中，采用训练好的XGboost模型对测试集进行辛烷值的预测，将预测数据同真实数据进行误差计算，误差计算采用拟合优度(R²)、均方误差(MSE)和平均绝对误差(MAE)作为评估指标，输出结果并保存模型：

其中：m是样本的个数，代表预测数据，y_i代表真实数据，/>代表真实数据的平均值。

评估结果如表3所示。

表3

图3为本发明实施例中测试集中预测数据和真实数据对比示意图。参照图3，在降低数据维度的同时，提高了辛烷值的预测精度。

显然，本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于生产数据的汽油辛烷值预测方法，其特征在于，包括以下步骤：

步骤一、通过催化裂化汽油精制脱硫装置采集数据，所述数据包括多个样本，每个所述样本包括原料数据和运行变量数据，所述样本的数量为325个样本，每个所述样本包括的原料数据具有11个特征，以及包括的运行变量数据具有354个特征；

步骤二、对采集到的数据进行预处理，所述预处理包括删除超出变量范围的异常数据，删除缺失值大于百分之30的字段，缺失值小于百分之30的字段使用平均值填充，根据拉伊达准则去除异常值；

步骤三、通过改进的Boruta算法进行特征选择，并将特征子集划分训练集和测试集，通过多次循环标记得到最优特征子集，将原料数据和运行变量数据的最优特征子集合并，然后将该数据集划分为训练集和测试集；

步骤四、通过训练集确定XGboost模型的参数；

步骤五、对XGboost模型预测结果进行评估，采用训练好的XGboost模型对测试集进行辛烷值的预测，将预测数据同真实数据进行误差计算，误差计算采用拟合优度R²、均方误差MSE和平均绝对误差MAE作为评估指标，输出结果并保存模型。

2.如权利要求1所述的基于生产数据的汽油辛烷值预测方法，其特征在于，在步骤四中，通过对模型中的9个参数进行网格搜索法选取最优参数。

3.如权利要求2所述的基于生产数据的汽油辛烷值预测方法，其特征在于，使用拟合优度R2、均方误差MSE和平均绝对误差MAE作为评估指标，选取最优参数，