CN112560930B - 基于生产数据的汽油辛烷值预测方法 - Google Patents

基于生产数据的汽油辛烷值预测方法 Download PDF

Info

Publication number
CN112560930B
CN112560930B CN202011450056.9A CN202011450056A CN112560930B CN 112560930 B CN112560930 B CN 112560930B CN 202011450056 A CN202011450056 A CN 202011450056A CN 112560930 B CN112560930 B CN 112560930B
Authority
CN
China
Prior art keywords
data
octane number
gasoline
model
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011450056.9A
Other languages
English (en)
Other versions
CN112560930A (zh
Inventor
李�真
宋安军
刘慧�
李中耀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202011450056.9A priority Critical patent/CN112560930B/zh
Publication of CN112560930A publication Critical patent/CN112560930A/zh
Application granted granted Critical
Publication of CN112560930B publication Critical patent/CN112560930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Production Of Liquid Hydrocarbon Mixture For Refining Petroleum (AREA)

Abstract

本发明提供一种基于生产数据的汽油辛烷值预测方法。预先采集汽油脱硫装置的数据,并对该数据进行预处理。根据预处理后的生产数据特征集,通过使用Boruta算法进行特征选择,并在创建阴影特征时按照比例P对阴影特征进行随机重排,并通过多次循环标记得到最优子特征,最后使用XGboost模型,对汽油辛烷值进行预测。基于生产数据的汽油辛烷值预测方法将机器学习算法模型应用于化工生产领域,通过改进的Boruta算法来提取特征,在提高了运行效率的同时,提取出了所有重要的特征且保留特征的独立性,在特征提取的基础上使用XGboost模型准确预测汽油辛烷值。

Description

基于生产数据的汽油辛烷值预测方法
技术领域
本发明涉及汽油生产的化工技术领域,特别涉及基于生产数据的汽油辛烷值预测方法。
背景技术
随着我国对汽油的需要日益增加,对于汽油质量也有了更高的要求,而我国原油超过70%来自国外,且大部分是来自中东地区的含硫和高硫原油。原油中的重油通常占比40-60%,这部分重油(以硫为代表的杂质含量也高)难以直接利用。为了有效利用重油资源,我国大力发展了以催化裂化为核心的重油轻质化工艺技术,将重油转化为汽油、柴油和低碳烯烃,超过70%的汽油是由催化裂化生产得到,因此成品汽油中95%以上的硫和烯烃来自催化裂化汽油。故必须对催化裂化汽油进行精制处理,以满足对汽油质量要求。
但是,现有技术在对催化裂化汽油进行脱硫和降烯烃过程中,难以精确控制汽油辛烷值,普遍降低了汽油辛烷值,造成了经济效益的巨大损失。
其次,由于炼油工艺过程的复杂性以及设备的多样性,它们的生产操作变量之间有高度非线性和相互强耦联的关系,而且传统的数据关联模型中变量相对较少、机理建模对原料的分析要求较高,对过程优化的响应不及时,所以效果并不理想。
发明内容
本发明的目的在于提供一种基于生产数据的汽油辛烷值预测方法,以解决高维非线性数据建模的问题。
为了解决上述技术问题,本发明的技术方案是:提供一种基于生产数据的汽油辛烷值预测方法,包括以下步骤:
步骤一、通过催化裂化汽油精制脱硫装置采集数据;
步骤二、对采集到的数据进行预处理;
步骤三、基于改进的Boruta算法进行特征选择,并将特征子集划分训练集和测试集;
步骤四、通过训练集确定XGboost模型的参数;
步骤五、对XGboost模型预测结果进行评估。
进一步地,步骤一中的数据包括多个样本,每个所述样本包括原料数据和运行变量数据。
进一步地,所述样本的数量为325个样本,每个所述样本包括的原料数据具有11个特征,以及包括的运行变量数据具有354个特征。
进一步地,步骤二中的预处理包括删除超出变量范围的异常数据,删除缺失值大于百分之30的字段,缺失值小于百分之30的字段使用平均值填充,根据拉伊达准则去除异常值。
进一步地,在步骤三中,通过多次循环标记得到最优特征子集,将原料数据和运行变量数据的最优特征子集合并,然后将该数据集划分为训练集和测试集。
进一步地,在步骤四中,通过对模型中的9个参数进行网格搜索法选取最优参数。
进一步地,使用拟合优度R2、均方误差MSE和平均绝对误差MAE作为评估指标,选取最优参数,
式中:m是样本的个数,代表预测数据,yi代表真实数据,/>代表真实数据的平均值。
进一步地,在步骤五中,采用训练好的XGboost模型对测试集进行辛烷值的预测,将预测数据同真实数据进行误差计算,误差计算采用拟合优度R2、均方误差MSE和平均绝对误差MAE作为评估指标,输出结果并保存模型。
本发明提供的基于生产数据的汽油辛烷值预测方法,解决了传统方法难以解决的高维非线性的数据的建模问题,Boruta算法能够筛选出最直接影响辛烷值的生产变量,最后将筛选出生产变量的特征子集和原料数据作为XGboost的输入参数,辛烷值作为其输出,通过训练模型和参数调优,使之得到可靠而普适的辛烷值模型,为提高原油利用率意义重大。本发明提供的基于生产数据的汽油辛烷值预测方法将机器学习算法模型应用于化工生产领域,通过改进的Boruta算法来提取特征,不仅提高了运行效率,而且提取出了所有重要的特征并保留特征的独立性,在特征提取的基础上使用XGboost模型能够准确预测汽油辛烷值。
附图说明
下面结合附图对发明作进一步说明:
图1为本发明实施例提供的基于生产数据的汽油辛烷值预测方法步骤流程示意图;
图2为本发明实施例提供的应用基于改进的Boruta特征提取算法提取辛烷值特征子集算法流程示意图;
图3为本发明实施例中测试集中预测数据和真实数据对比示意图。
具体实施方式
以下结合附图和具体实施例对本发明提出的基于生产数据的汽油辛烷值预测方法作进一步详细说明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比率,仅用以方便、明晰地辅助说明本发明实施例的目的。
本发明的核心思想在于,本发明提供的基于生产数据的汽油辛烷值预测方法,解决了传统方法难以解决的高维非线性的数据的建模问题,Boruta算法能够筛选出最直接影响辛烷值的生产变量,最后将筛选出生产变量的特征子集和原料数据作为XGboost的输入参数,辛烷值作为其输出,通过训练模型和参数调优,使之得到可靠而普适的辛烷值模型,为提高原油利用率意义重大。本发明提供的基于生产数据的汽油辛烷值预测方法将机器学习算法模型应用于化工生产领域,通过改进的Boruta算法来提取特征,不仅提高了运行效率,而且提取出了所有重要的特征并保留特征的独立性,在特征提取的基础上使用XGboost模型能够准确预测汽油辛烷值。
图1为本发明实施例提供的基于生产数据的汽油辛烷值预测方法步骤流程示意图。参照图1,本发明提供一种基于生产数据的汽油辛烷值预测方法,包括以下步骤:
S11、通过催化裂化汽油精制脱硫装置采集数据;
S12、对采集到的数据进行预处理,得到生产变量数据集;
S13、通过改进的Boruta算法进行特征选择,并将特征子集划分训练集和测试集;
S14、通过训练集确定XGboost模型的参数;
S15、对XGboost模型预测结果进行评估。
步骤一中的数据包括多个样本,每个所述样本包括原料数据和运行变量数据。在本发明实施例中,所述样本的数量为325个样本,每个所述样本包括的原料数据具有11个特征,以及包括的运行变量数据具有354个特征。
步骤二,采集到的数据经常是含有噪声的、不完整的和不一致的,预处理包括删除超出变量范围的异常数据,删除缺失值大于百分之30的字段,缺失值小于百分之30的字段使用平均值填充,空缺值用其前后两个小时数据的平均值代替,删除异常范围的字段,根据拉伊达准则(3σ准则)去除异常值,并用均值代替。
3σ准则:设对被测量变量进行等精度测量,得到x1,x2,……,xn,算出其算术平均值x及剩余误差vi=xi-x(i=1,2,...,n),并按贝塞尔公式算出标准误差σ,若某个测量值xb的剩余误差vb(1<=b<=n),满足|vb|=|xb-x|>3σ,则认为xb是含有粗大误差值,使用均值代替。贝塞尔公式如下:
在步骤三中,通过多次循环标记得到最优特征子集,将原料数据和运行变量数据的最优特征子集合并,然后将该数据集划分为训练集和测试集。
图2为本发明实施例提供的应用基于改进的Boruta特征提取算法提取辛烷值特征子集算法流程示意图。参照图2,包括步骤:
1、假设样本数据X为m行n列,既有m个样本,n个特征,其中m>1,n>1;
2、首先将原始特征样本X复制,得到复制特征样本X1
3、将复制特征样本X1按照P(0<=P<1)提取出(m*p)*n组样本,m*p若非整数可进行取整,记为[m*p],当p=1时即为原算法,对n列数据中每一列都进行数据混洗随机打乱,再放回原特征样本X1中,得到现在的特征样本X1,依旧是m*n组数据,但与原始算法相比,混合打乱的[m*p]*n组数据;
4、将特征样本X1进行行变换,随机打乱行序,得到阴影特征样本D;
5、将原始样本X与特征样本D合并,得到最终的混合样本;
6、在混合样本上运行随机森林回归模型,并计算每个变量不再模型中的平均减少精度MeanImp;
7、将影子特征中最大的MeanImp定义为MaxImp。
8、依据原输入特征的MeanImp,将大于MaxImp的特征变量标记为“重要”特征,其他标记为“暂定”;
9、删除所有阴影特征;
10、重复2-9步骤,直到所有特征重要性标记完成;
11、将原料数据和生产变量数据的最优特征子集合并;
12、使用sklearn库中的train_test_split方法划分训练集(0.8)和测试集(0.2)。
最终特征如表1所示。
表1
在步骤四中,根据训练集训练Xgboost,通过网络搜索法对Xgboost模型进行参数优化,即通过对模型中的9个参数进行网格搜索法选取最优参数,得到的模型参数如表2所示。
表2
在步骤五中,采用训练好的XGboost模型对测试集进行辛烷值的预测,将预测数据同真实数据进行误差计算,误差计算采用拟合优度(R2)、均方误差(MSE)和平均绝对误差(MAE)作为评估指标,输出结果并保存模型:
其中:m是样本的个数,代表预测数据,yi代表真实数据,/>代表真实数据的平均值。
评估结果如表3所示。
表3
图3为本发明实施例中测试集中预测数据和真实数据对比示意图。参照图3,在降低数据维度的同时,提高了辛烷值的预测精度。
显然,本领域的技术人员可以对本发明进行各种改动和变形而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (3)

1.一种基于生产数据的汽油辛烷值预测方法,其特征在于,包括以下步骤:
步骤一、通过催化裂化汽油精制脱硫装置采集数据,所述数据包括多个样本,每个所述样本包括原料数据和运行变量数据,所述样本的数量为325个样本,每个所述样本包括的原料数据具有11个特征,以及包括的运行变量数据具有354个特征;
步骤二、对采集到的数据进行预处理,所述预处理包括删除超出变量范围的异常数据,删除缺失值大于百分之30的字段,缺失值小于百分之30的字段使用平均值填充,根据拉伊达准则去除异常值;
步骤三、通过改进的Boruta算法进行特征选择,并将特征子集划分训练集和测试集,通过多次循环标记得到最优特征子集,将原料数据和运行变量数据的最优特征子集合并,然后将该数据集划分为训练集和测试集;
步骤四、通过训练集确定XGboost模型的参数;
步骤五、对XGboost模型预测结果进行评估,采用训练好的XGboost模型对测试集进行辛烷值的预测,将预测数据同真实数据进行误差计算,误差计算采用拟合优度R2、均方误差MSE和平均绝对误差MAE作为评估指标,输出结果并保存模型。
2.如权利要求1所述的基于生产数据的汽油辛烷值预测方法,其特征在于,在步骤四中,通过对模型中的9个参数进行网格搜索法选取最优参数。
3.如权利要求2所述的基于生产数据的汽油辛烷值预测方法,其特征在于,使用拟合优度R2、均方误差MSE和平均绝对误差MAE作为评估指标,选取最优参数,
式中:m是样本的个数,代表预测数据,yi代表真实数据,/>代表真实数据的平均值。
CN202011450056.9A 2020-12-09 2020-12-09 基于生产数据的汽油辛烷值预测方法 Active CN112560930B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011450056.9A CN112560930B (zh) 2020-12-09 2020-12-09 基于生产数据的汽油辛烷值预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011450056.9A CN112560930B (zh) 2020-12-09 2020-12-09 基于生产数据的汽油辛烷值预测方法

Publications (2)

Publication Number Publication Date
CN112560930A CN112560930A (zh) 2021-03-26
CN112560930B true CN112560930B (zh) 2024-01-19

Family

ID=75061435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011450056.9A Active CN112560930B (zh) 2020-12-09 2020-12-09 基于生产数据的汽油辛烷值预测方法

Country Status (1)

Country Link
CN (1) CN112560930B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468822A (zh) * 2021-07-23 2021-10-01 中海石油(中国)有限公司 一种钻速预测方法及系统
CN113539385A (zh) * 2021-08-02 2021-10-22 内蒙古工业大学 一种基于t-SNE-MNR的汽油辛烷损失值预测方法
CN113705021B (zh) * 2021-09-15 2024-06-14 西南石油大学 一种汽油辛烷值的预测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4251870A (en) * 1980-01-31 1981-02-17 Mobil Oil Corporation Control of gasoline manufacture
CN103729650A (zh) * 2014-01-17 2014-04-16 华东理工大学 近红外光谱建模样本的选择方法
CN111833969A (zh) * 2020-04-21 2020-10-27 汉谷云智(武汉)科技有限公司 一种成品油辛烷值预测方法、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11436395B2 (en) * 2018-06-27 2022-09-06 Dalian University Of Technology Method for prediction of key performance parameter of an aero-engine transition state acceleration process based on space reconstruction

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4251870A (en) * 1980-01-31 1981-02-17 Mobil Oil Corporation Control of gasoline manufacture
CN103729650A (zh) * 2014-01-17 2014-04-16 华东理工大学 近红外光谱建模样本的选择方法
CN111833969A (zh) * 2020-04-21 2020-10-27 汉谷云智(武汉)科技有限公司 一种成品油辛烷值预测方法、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王伟 ; 汪坤 ; 杨帆 ; 戴超男 ; 金继民 ; 金宝宝 ; .基于GBDT和新型P-GBDT算法的催化裂化装置汽油收率寻优模型的构建与应用.石油学报(石油加工).2020,(01),全文. *
高世博 ; 张运陶 ; 刘金迪 ; 白春艳 ; 郑伟 ; .微粒群算法优化样本集在汽油调合设计中的应用.计算机与应用化学.2007,(10),全文. *

Also Published As

Publication number Publication date
CN112560930A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN112560930B (zh) 基于生产数据的汽油辛烷值预测方法
CN110674604B (zh) 基于多维时序帧卷积lstm的变压器dga数据预测方法
CN104318482A (zh) 一套智能配电网综合评估体系和方法
CN102567807B (zh) 加油卡客户流失预测方法
CN106372181B (zh) 一种基于工业过程的大数据压缩方法
DE112021005167T5 (de) Chancenerkennung in echtzeit zur produktivitätssteigerung
CN110197222A (zh) 一种基于多分类支持向量机变压器故障诊断的方法
CN112966435B (zh) 一种桥梁变形实时预测方法
CN112231971B (zh) 基于相对整体趋势扩散故障样本生成的高炉故障诊断方法
CN113506121A (zh) 价格影响因素的分析方法及装置
CN115187127B (zh) 基于空间分析的详细规划分级管理智能检测方法
CN114372693A (zh) 一种基于云模型和改进ds证据理论的变压器故障诊断方法
CN114416707A (zh) 工业时序数据的自动化特征工程方法和装置
CN114662793A (zh) 基于可解释分层模型的业务流程剩余时间预测方法与系统
CN114048682A (zh) 一种基于优选小波基与多维深度特征融合的滚动轴承声发射智能诊断方法
CN113990409B (zh) 一种基于混合特征选择的辛烷值损失预测方法
CN106281431B (zh) 一种加氢裂化装置反应深度的实时预测方法及装置
CN112016032A (zh) 基于热解参数图版式的烃源岩排烃效率计算方法及系统
CN102184210A (zh) 一种层叠决策树构建方法
CN114971302A (zh) 一种基于层次分析法的虚拟手术培训系统评价方法
CN111626508B (zh) 基于xgboost模型的轨道交通车载数据预测方法
CN113782112A (zh) 一种石油馏分组成模型确定方法及装置
CN115115102A (zh) 一种基于bp神经网络和条件生成对抗网络的汽油辛烷值损失预测及优化方法
CN108537417B (zh) 一种基于协同克里金法的地面气温质量控制方法
CN110245872A (zh) 使用改进灰色聚类评价模型确定公路工程安全生产信用等级的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant