CN113408187A - 基于随机森林的降低汽油辛烷值损失的优化方法 - Google Patents

基于随机森林的降低汽油辛烷值损失的优化方法 Download PDF

Info

Publication number
CN113408187A
CN113408187A CN202110530864.4A CN202110530864A CN113408187A CN 113408187 A CN113408187 A CN 113408187A CN 202110530864 A CN202110530864 A CN 202110530864A CN 113408187 A CN113408187 A CN 113408187A
Authority
CN
China
Prior art keywords
octane number
random forest
data
variables
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110530864.4A
Other languages
English (en)
Inventor
卢学飞
董凤娟
杨艺芳
薛佳男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Shiyou University
Original Assignee
Xian Shiyou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Shiyou University filed Critical Xian Shiyou University
Priority to CN202110530864.4A priority Critical patent/CN113408187A/zh
Publication of CN113408187A publication Critical patent/CN113408187A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/245Classification techniques relating to the decision surface
    • G06F18/2451Classification techniques relating to the decision surface linear, e.g. hyperplane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Production Of Liquid Hydrocarbon Mixture For Refining Petroleum (AREA)

Abstract

本发明公开了一种基于随机森林的降低汽油辛烷值损失的优化方法,该方法包括:步骤1:采集汽油精炼原始样本数据,并对数据进行预处理,剔除异常数据和无效数据;步骤2:通过降维的方法从获取到的原始样本数据中筛选出关键变量;步骤3:基于步骤1中预处理后的数据和步骤2选出的关键变量,利用随机森林模型来建立产品辛烷值损失预测模型,并进行模型验证;步骤4:利用步骤2中筛选出的关键变量使用SVR模型和随机森林模型,对产品硫含量和辛烷值损失进行预测,以硫含量作为约束条件,对样本的操作变量进行调优,得出不同情境下的降低辛烷值损失的优化方案;步骤5:提取原始样本数据的关键变量的变化范围和步幅,利用Python进行绘图,展示单操作变量调整时预测值的变化。

Description

基于随机森林的降低汽油辛烷值损失的优化方法
技术领域
本发明属于汽油精炼技术领域,具体涉及一种基于随机森林的降低汽油辛烷值损失的优化方法。
背景技术
汽油作为小型车辆的主要燃料,其燃烧产生的尾气排放会影响空气质量,随着汽油需求量不断提升,其不完全燃烧造成的环境问题日趋严重。
汽油燃烧性能最直观的指标是辛烷值,并作为汽油的商品牌号 (例如89#、92#、95#),但是现代催化裂化汽油进行脱硫和降烯烃时又会降低汽油辛烷值。然而辛烷值的降低会为企业带来极大的经济损失,辛烷值每降低1个单位,相当于损失约150元/吨。以一个100万吨/年催化裂化汽油精制装置为例,若能降低RON损失0.3 个单位,其经济效益将达到四千五百万元。
所以汽油清洁化的重点是降低汽油中的硫、烯烃含量,同时尽量保持其辛烷值。然而现有技术中的化工过程的建模一般是通过数据关联或机理建模的方法来实现的,它们操作变量之间呈线性关系,而且传统的数据关联模型中变量相对较少、机理建模对原料的分析要求较高,对过程优化的响应不及时,所以效果并不理想。因此,如何建立汽油精制过程中的辛烷值损失模型并进行操作优化是目前亟待解决的问题。
发明内容
针对上述问题,本发明提供了一种基于随机森林的降低汽油辛烷值损失的优化方法。
实现本发明目的的技术解决方案为:
一种基于随机森林的降低汽油辛烷值损失的优化方法,其特征在于,包括以下步骤:
步骤1:采集汽油精炼原始样本数据,并对数据进行预处理,剔除异常数据和无效数据;
步骤2:通过降维的方法从获取到的原始样本数据中筛选出关键变量;
步骤3:基于步骤1中预处理后的数据和步骤2选出的关键变量,利用随机森林模型来建立产品辛烷值损失预测模型,并进行模型验证;
步骤4:利用步骤2中筛选出的关键变量使用SVR模型和随机森林模型,对产品硫含量和辛烷值损失进行预测,以硫含量作为约束条件,对样本的操作变量进行调优,得出不同情境下的降低辛烷值损失的优化方案;
步骤5:提取原始样本数据的关键变量的变化范围和步幅,利用 Python进行绘图,展示单操作变量调整时预测值的变化。
进一步地,步骤1所述的数据预处理的具体操作步骤为:
步骤11:将采集到的样本导入excel表中,对每列变量最值的限幅方法进行筛选,剔除不在此范围的样本;
步骤12:使用拉依达准则去除异常值;
步骤13:将值为0的单元格替换为NA,并删除缺失值NA超过 50%的列;
步骤14:用两小时内均值填充NA值。
进一步地,步骤2的具体操作步骤包括:
步骤21:根据步骤13和步骤14对缺失数据进行处理;
步骤22:低方差滤波筛选:先将步骤1中的原始样本数据进行归一化处理,再将方差小于0.1的列删除;
步骤23:计算处理后的样本数据集中的特征之间的皮尔森相关系数,生成相关度矩阵,只保留相关度大于0.9的变量,得到初步筛选的特征变量;
步骤24:当步骤23中筛选出的特征数量超过300维时,利用随机森林方法来进行特征筛选,且使用基尼指数Gini作为评价贡献度的评价指标,得到变量的重要性评分,将重要性评分归一化处理后得到重要性的评分计算公式为:
Figure RE-GDA0003171931480000021
其中,
Figure RE-GDA0003171931480000022
表示第j个特征在随机森林所有决策树中节点分裂不纯度平均改变量的Gini指数;VIMj表示第j个特征在随机森林所有决策树中节点分裂不纯度的平均改变量;c表示决策树中的c个特征;
步骤25:将得到的随机森林变量重要性进行排序,最终筛选出多个关键变量。
进一步地,步骤3的具体操作步骤包括:
步骤31:为所述的多个关键变量,生成与其对应的决策树模型,进而生成随机森林模型,最终得到产品辛烷值损失预测模型,通过随机森林中的决策树进行判断并输出结果;
步骤32:选取均方误差、R方值、平均绝对误差和均方根误差来预测产品辛烷值和真实值之间的偏差,从而对建立的模型进行验证。
进一步地,步骤4所述的具体操作步骤包括:
步骤41:设定硫含量最大值以及辛烷值损失降幅最小值;
步骤42:对每个样本的主要操作变量进行参数调优并以设定的硫含量最大值和辛烷值损失降幅作为约束条件,在该约束条件下,筛选出满足约束条件的样本及其各个操作条件。
本方法与现有技术相比,具有以下有益效果:
第一,本发明构建了汽油精制过程中的降低辛烷值损失模型并提出操作变量的优化方法,预测产品辛烷值和硫含量。在限制硫含量的基础上,针对不同场景下的适用模型,给出了相应操作变量优化后的操作条件,从而通过优化操作变量以降低辛烷值损失。
第二,由于炼油工艺过程的复杂性以及设备的多样性,本发明采用具有高度非线性和相互强耦联的关系的随机森林模型,操作变量较多,且能够从统计角度对变量进行筛选,发现关键操作变量,并且能够在生产过程中对新的数据及时响应优化,效果明显优于现有技术。
附图说明
图1为SVM示意图;
图2为随机森林变量随机森林模型拟合图;
图3为还原器温度对预测值的影响轨迹示意图;
图4为氢油比对预测值的影响轨迹示意图;
图5为D121去稳定塔流量对预测值的影响轨迹示意图;
图6为E-101A壳程出口管温度对预测值的影响轨迹示意图;
图7为再生器底部与再生接收器压差对预测值的影响轨迹示意图;
图8为EH-102加热元件/B束温度对预测值的影响轨迹示意图;
图9为低压热氮气压力对预测值的影响轨迹示意图;
图10为D-125液位对预测值的影响轨迹示意图;
图11为2#催化汽油进装置流量对预测值的影响轨迹示意图;
图12为稳定塔顶压力对预测值的影响轨迹示意图;
图13为K-101A左排气温度对预测值的影响轨迹示意图;
图14为原料汽油硫含量对预测值的影响轨迹示意图;
图15为混氢点氢气流量对预测值的影响轨迹示意图;
图16为D-107下部松动风流量对预测值的影响轨迹示意图;
图17为稳定塔底出口温度对预测值的影响轨迹示意图;
图18为再生器温度对预测值的影响轨迹示意图;
图19为R-102底滑阀对预测值的影响轨迹示意图;
图20为S-ZORB.PT_1501.PV对预测值的影响轨迹示意图。
具体实施方式
为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。
为解决上述问题,本发明提出一种基于随机森林的降低汽油辛烷值损失的优化方法,其包括如下步骤:
步骤1:数据选择和预处理:采集汽油精炼原始样本数据,并对数据进行预处理,剔除异常数据和无效数据;
优选地,本发明采集的原始样本数据为某石化企业的催化裂化汽油精制脱硫装置运行4年的工业数据中随机选取的两个具有代表性的样本:285号和313号样本;并使用Excel和Python软件按照现有技术中的样本确定方法对325个样本数据进行了处理。
步骤2:寻找建模主要变量:通过降维的方法从获取到的原始样本数据中筛选出关键变量;
优选地,建立降低辛烷值损失模型需要涉及7个原料性质、2个待生吸附剂性质、2个再生吸附剂性质、2个产品性质等变量以及另外354个操作变量。因此,根据提供的325个样本数据,通过降维的方法从367个操作变量中筛选出建模主要变量,使之尽可能具有代表性、独立性。
步骤3:建立辛烷值(RON)损失预测模型:基于步骤1中预处理后的数据和步骤2选出的关键变量,结合现有的数据挖掘技术从数据中提取有效关键变量,并利用随机森林模型来建立产品辛烷值损失预测模型,并进行模型验证;
步骤4:主要变量操作方案的优化:在保证产品硫含量不大于5 μg/g的前提下,利用步骤3建立的随机森林模型获得数据样本中辛烷值(RON)损失降幅大于30%的样本对应的主要变量优化后的操作变量,从而得到相应的操作方案,且其中优化过程中原料、待生吸附剂、再生吸附剂的性质保持不变。
步骤5:模型的可视化展示:以图形展示其主要操作变量优化调整过程中对应的汽油辛烷值和硫含量的变化轨迹;
工业装置为了平稳生产,优化后的步骤2中的关键变量往往只能逐步调整到位。
下面通过实施例进一步说明本发明的方案和效果,但并不因此限制本发明。
实施例
本实施例依据上述步骤,建立辛烷值损失模型,并通过该模型调整参数,得出降低汽油辛烷值损失的方案:
1、步骤1:数据选择和处理:
由于采集到的原始数据中,大部分变量数据正常,但是每套装置的数据有些部分位点存在问题,部分变量只包含部分时间段的数据,部分变量的数据全部为空值或部分数据为空值,数据的质量会直接影响研究结果,所以要对样本原始数据和样本数据进行处理后再使用,处理过程如下:
(1)建立Excel表1用于存储325个样本数据,对该Excel表1 的表头进行处理,将二维索引转换为一维索引,各类性质命名规则为: xx性质_xx,例如:原料性质_硫含量,产品性质_辛烷值RON,再生吸附剂_焦炭,wt%等,附件一中列名既有英文名又有中文名,由于中文名存在缺失,统一采用英文名;
(2)建立Excel表2用于存储285号和313号样本原始数据,在Excel表2中新建sheet表命名为样本性质,将Excel表1中的表头拷贝至此sheet中,保留源格式。将Excel表2中的原料、产品、待生吸附剂、再生吸附剂中数据拷贝到样本性质表相应位置上。将操作变量表拆分为样本285和样本313两个sheet表,新的两个表的表头为操作变量表第二行(时间|S-ZORB.CAL_H2. PV|S-ZORB.PDI_2102.PV|…)接着使用Python进行数据处理;
(3)导入样本285和样本313数据,用Excel表1中每列变量最值的限幅方法进行筛选,剔除一部分不在此范围的样本。0为缺失数据,替换为NA,删除全为NA值的列。用两小时内均值填充缺失值,由于数据都在两小时内,故直接采用均值填充将处理后的数据与附件一合并;
(4)使用拉依达准则(3σ准则)去除异常值,3σ准则是指:设对被测量变量进行等精度测量,得到x1,x2,…,xn算出其算术平均值 x及剩余误差vi=xi-x(i=1,2,…,n),并按贝塞尔公式算出标准误差σ,若某个测量值xb的剩余误差vb(1≤b≤n)满足|vb|=|xb-x|>3σ,则认为xb是含有粗大误差值的坏值,应予剔除,且贝塞尔公式为:
Figure RE-GDA0003171931480000061
2、步骤2:寻找建模的主要变量:
本发明使用先降维后建模的方法,这有利于忽略次要因素,发现并分析影响模型的主要变量与因素,其过程分为:缺失数据的处理、低方差滤波处理、相关性分析、主成分分析,随机森林特征筛选五个过程。
(1)缺失数据的处理
经过数据分析可以知道,样本数据值是属于随机缺失。故需要降维筛选操作变量,按照处理后得出的数据进行缺失数据的处理。处理方法通常有三种:删除数据、数据插补和不处理。数据插补只是将未知值补充主观估计值,常用的插补方法有均值插补、数据插补、利用同类均值插补、极大似然估计以及多重插补。本发明将缺失值超过 50%的列删除,剩余缺失的数据利用均值插补的方式进行插补处理。
(2)低方差滤波筛选
低方差滤波与缺失值删除方法类似,该方法假设数据列变化非常小的列包含的信息量少,因此,所有数据列方差小的列被移除,需要注意的是使用该方法之前需要将数据归一化处理,因为方差与数据范围相关。本发明将数据进行归一化,再将数据方差小于0.1的列删除。
(3)相关性分析数据筛选
相关性分析主要研究变量之间相互依存关系的方向和密切程度。首先计算359个特征之间的皮尔森相关系数,生成相关度矩阵,相关度大于0.9的变量只保留一个,筛选出的变量数为153,由于缺失数据处理和低方差滤波筛选存在重复筛选,重复筛选变量数为5,剩余变量数为177:367(总变量数)-8(缺失值筛选)-34(低方差滤波)-153(相关性)+5(重复)=177。
(4)随机森林特征筛选
当数据集的特征数量超过300维,需要选取对结果影响较大的特征来进行建模,本发明采用随机森林筛选来进行特征筛选。
随机森林对特征进行重要性评估的方式是:考虑每个特征在随机森林中的每棵树上所做的贡献,对其取平均值,最后对不同特征的贡献大小进行对比,贡献度的评价指标包括:基尼指数(Gini)、袋外数据(OOB)错误率等;
随机森林使用Gini值作为切分节点的标准,在加权随机森林 (WRF)中,权重的作用有2个,第1点是用于切分点选择加权计算 Gini值,表达式如下:
Figure RE-GDA0003171931480000071
Δi=i(NL)-i(NR) (3)
其中,N表示未分离的节点,NL和NR分别表示分离后的左、右侧节点,Wi为c类样本的类权重,ni表示节点内各类样本的数量,Δi是不纯度减少量,该值越大表明分离点的分离效果越好;第2点是在终节点中类权重用来决定其类标签,表达式如下:
nodeclass=argmaxi(niWi)(i=1.2,...,C) (4) ,
本文使用Gini值作为评价贡献度的评价指标,将变量的重要性评分用VIM来表示,Gini值用GI表示,假设有m个特征X1,X2,..., Xm计算出每个特征的Gini指数评分VIMj(第j个特征在随机森林所有决策树中节点分裂不纯度的平均改变量),gini指数的计算公式如下表示:
Figure RE-GDA0003171931480000081
其中,k表示有k个类别,pmk表示节点m(计算特征m逐个对节点Gini值变化量)中类别k所占的比例;
特征Xj在节点m的重要性,即节点m分枝前后的Gini指数变化量为:
Figure RE-GDA0003171931480000082
其中GIl和GIr分别表示分枝后两个新节点的Gini指数。
如果特征Xj在决策树i中出现的节点在集合M中,那么Xj在第 i棵树的重要性为:
Figure RE-GDA0003171931480000083
假设随机森林共有n棵树,那么:
Figure RE-GDA0003171931480000084
将重要性评分归一化处理得到重要性的评分:
Figure RE-GDA0003171931480000085
通过Sklearn中的随机森林返回特征的重要性:
表1随机森林操作变量特征重要性
Figure RE-GDA0003171931480000091
表2随机森林操作变量特征重要性
Figure RE-GDA0003171931480000092
通过随机森林变量重要性排序如表1所示,筛选出18个关键变量,且变量符合工业需求,贴近传统产品辛烷值预测公式中所需变量,具有理论和实际支持。
3、步骤3:辛烷值损失预测模型的建立:
降低辛烷值损失预测的模型的建立,是在原始数据经过处理后以及对数据进行降维筛选提取完成的基础上,运用支持向量机回归和随机森林两种模型进行预测,得出最终预测模型结果并对比。由于辛烷值损失等于原料辛烷值减去产品辛烷值,因此预测产品辛烷值后间接计算辛烷值更为准确。利用随机森林重要性筛选出的变量和两种模型结合,对比得到最佳的变量和模型组合方式。因此,模型的选择对最终建立辛烷值损失预测模型起着决定性作用。通过两种模型的结果对比,最后得出随机森林模型建模得到的结果更好。
(1)支持向量机回归模型(SVR)
SVM称为支持向量机主要应用于模式识别、分类以及回归分析。如图1所示,红色和蓝色的二维数据点显然是可以被一条直线分开的,在模式识别领域称为线性可分问题;其中黑色实线为分界线,也称为“决策面”,每个决策面对应了一个线性分类器。SVM可表示为:
Figure RE-GDA0003171931480000101
用支持向量机做回归,即SVR模型,其基本情况是:根据给定训练样本
Figure RE-GDA0003171931480000104
其中xi∈X=Rn,yi∈Y=Rn, i=1,...,n,寻找Rn上的一个决策函数。
f(x)=wx+b (11),
其中,w、b是待确定模型参数,可以用f(x)与y的数据拟合得到。
为了求解ω和b,将上述问题转化成一个优化问题:
Figure RE-GDA0003171931480000102
约束条件为:
Figure RE-GDA0003171931480000103
通常并不直接求解式(11),而是引入它的对偶问题:
Figure RE-GDA0003171931480000111
约束条件为:
Figure RE-GDA0003171931480000112
在得到αi后,若0<αi<C,则必有ξi=0,进而有:
Figure RE-GDA0003171931480000113
最终,f(x)可表示为:
Figure RE-GDA0003171931480000114
式中,k(x,xi)为核函数,本发明采用4种核函数:
线性核函数公式为:
Figure RE-GDA0003171931480000115
多项式核函数公式为:
Figure RE-GDA0003171931480000116
高斯核函数公式为:
Figure RE-GDA0003171931480000117
Sigmoid核函数公式为:
Figure RE-GDA0003171931480000118
(2)随机森林模型
决策树+Bagging=随机森林,随机森林是一种比较新的机器学习模型集成学习方法,也叫非线性基于树的模型。随机森林采用随机的方式建立一个森林,是集群分类模型中的一种。组成随机森林的决策树之间相互没有任何的关联。
当随机森林模型构建好后,将新样本输入构建好的模型中由一颗颗决策树分别进行判断。随机森林应用于分类问题时使用投票法,即最多票数类别决定模型输出;对于回归问题则使用简单平均法,对多个弱学习器的回归结果算术平均从而得到最终模型输出。随机森林模型的优点在于:
a.在数据集上表现良好,随机性的引入使随机森林不容易陷入过拟合。
b.引入随机性使得随机森林具有很好的抗噪声能力。
c.能处理多特征集数据,对离散型或连续型均可处理,数据集适应能力强。
d.训练速度快,能够检测到特征间的互相影响,得到变量重要性排序。
e.并行化处理,极大提升大样本训练速度。
f.实现比较简单。
通过选取以下几种不同的误差,作为回归算法评价指标,来预测产品辛烷值和真实值之间的偏差,选取的误差分别为:
a.MSE(均方误差):用来衡量产品辛烷值和真实值之间的偏差。 MSE越接近0,代表模型的预测能力越好;反之,则代表模型的预测能力越差。其计算公式为:
Figure RE-GDA0003171931480000121
b.R2_score(R方值):其区间为[0,1],R2_score=1,表示模型的预测能力达到最大值,反之代表模型的预测能力越差。R2_score计算公式为:
Figure RE-GDA0003171931480000122
Figure RE-GDA0003171931480000131
c.MAE(平均绝对误差):是绝对误差的平均值,可以更好地反映预测值误差的实际情况,计算公式为:
Figure RE-GDA0003171931480000132
d.RMSE(均方根误差):MSE的平方根,计算公式为:
Figure RE-GDA0003171931480000133
(3)模型结果对比和分析
将预测辛烷值的损失问题转化为产品辛烷值预测问题,其中辛烷值的损失=原料辛烷值-产品辛烷值。根据上述的表1和表2中的指标分别建立以下2个模型:基于随机森林RF和SVR的产品辛烷值预测模型和基于随机森林的产品辛烷值预测模型。
各模型的各项指标对比如表3-4所示。
表3 SVR+RF模型评分
Figure RE-GDA0003171931480000134
表4随机森林模型评分
Figure RE-GDA0003171931480000141
通过表3和表4可知,随机森林的各项评价指标均处于前列。 SVR+RF的R2和MSE相比起随机森林表现并不优秀。且通过随机森林变量和随机森林模型拟合图,如附图2可看出,随机森林变量更符合工业需求,且贴近传统辛烷值预测公式中所需变量,因此最终选取利用随机森林筛选出的变量建立随机森林模型进行辛烷值 (RON)损失预测,预测值与实际值之间的误差较小。
4、步骤4:主要操作变量的优化:
(1)操作变化优化分析
根据操作变量优化的工业需求条件,即对降低辛烷值损失比较重要的变量,利用步骤二中随机森林筛选出的操作变量,使用SVR模型和随机森林模型,对产品硫含量和辛烷值损失进行预测。以硫含量作为约束条件,在硫含量不大于5μg/g的前提下,对每个样本的操作变量进行调优,筛选出辛烷值损失降幅大于30%的样本的操作条件优化方式。
(2)主要操作方案的优化(通过两种模型对比,得出随机森林模型得到的结果更符合工业需求)
首先,支持向量机回归(SVR)模型对操作方案的优化;
由于SVR模型采用线性核函数对产品辛烷值进行预测,其操作变量与产品辛烷值为线性关系,因此可以利用相关度矩阵对操作变量进行调优。操作变量与产品辛烷值损失正相关则操作变量选取区间最大值,负相关则选择最小值。区间表如表5所示。
表5操作变量选取区间
Figure RE-GDA0003171931480000142
Figure RE-GDA0003171931480000151
经过调优后,有45个样本在满足硫含量不大于5μg/g的前提下,辛烷值(RON)损失降幅大于30%,操作变量调优后取值如表6所示。
表6 SVR模型操作变量优化后取值
Figure RE-GDA0003171931480000161
结合表5和表6可以看出,为使得辛烷损失降幅最优,应提高还原器温度、E-101A壳程出口管温度、再生器底部与再生接收器压差、 EH-102加热元件/B束温度、低压热氮气压力、2#催化汽油进装置流量、原料汽油硫含量和R-102底滑阀,降低氢油比、D121去稳定塔流量、D-125液位、稳定塔顶压力、K-101A左排气温度、混氢点氢气流量、D-107下部松动风流量、稳定塔底出口温度、再生器温度和 PT_1501.PV。
其次,随机森林模型对操作方案的优化;
随机森林为树模型,是非线性模型。随机森林模型下操作变量的优化是一个非线性优化问题。每个变量选择对产品辛烷值优化程度最好的取值作为最终取值,使产品辛烷值损失降幅达到局部最优解。并选取前60个样本进行操作变量调优,得到16个符合条件的样本,各样本操作变量取值如表7所示。
表7随机森林模型操作变量优化后取值
Figure RE-GDA0003171931480000171
结合表5和表7可以看出,各样本操作变量优化条件都不相同,无法给出统一的优化方法,针对不同样本原料和吸附剂特性采用不同的操作条件优化方式。
最后,对两种方案进行比较,结果如表8所示。
表8方案对比表
Figure RE-GDA0003171931480000181
可以从表8看出,非线性的随机森林模型针对每个样本进行优化,优化样本数占比是SVR模型的近一倍,相较SVR模型具有更好针对性和更好的优化程度。故而可以得出,在实际问题中可以针对不同情境选用不同方案,在大样本量下采用SVR模型快速优化,而为了保证辛烷值降幅最小,在小样本量下采用随机森林模型进行针对性优化更符合工业需求。
5、步骤5:随机森林模型的可视化展示;
根据工业要求,可以针对前述所采集到的325个样本数据(133 号样本)进行关键变量调整优化时汽油辛烷值和硫含量的变化进行可视化展示。提取133号样本各操作变量变化范围和步幅,利用Python 进行绘图,展示单操作变量调整时预测值的变化。模型采用随机森林模型,变量采用随机森林重要性筛选法选出的变量。
(1)模型可视化展示
表9操作变量取值范围
Figure RE-GDA0003171931480000191
从附图3可以看出,随着还原器温度升高硫含量和汽油辛烷值呈上升趋势,还原器温度与硫含量和汽油辛烷值为正相关,线性关系。
从附图4可以看出,随着氢油比升高硫含量和汽油辛烷值呈下降趋势,氢油比与硫含量和汽油辛烷值为负相关,线性关系。
从附图5可以看出,随着D121去稳定塔流量升高硫含量呈升高后下降再升高趋势,汽油辛烷值呈先下降后升高趋势。D121去稳定塔流量与硫含量和汽油辛烷值为非线性关系。
从附图6可以看出,随着E-101A壳程出口管温度升高硫含量呈升高趋势,汽油辛烷值呈先下降后升高趋势。E-101A壳程出口管温度与硫含量为正相关线性关系,和汽油辛烷值为非线性关系。
从附图7可以看出,随着再生器底部与再生接收器压差升高硫含量呈先下降再升高趋势,汽油辛烷值呈先升高后下降趋势。再生器底部与再生接收器压差与硫含量和汽油辛烷值为非线性关系。
从附图8可以看出,随着EH-102加热元件/B束温度升高硫含量呈阶梯升高趋势,汽油辛烷值呈先升高后平稳趋势。EH-102加热元件/B束温度与硫含量和汽油辛烷值为非线性关系。
从附图9可以看出,随着低压热氮气压力升高硫含量呈升高趋势,汽油辛烷值呈下降趋势。低压热氮气压力与硫含量和汽油辛烷值为线性关系,与硫含量正相关,与汽油辛烷值负相关。
从附图10可以看出,随着D-125液位升高硫含量呈下降后平稳再上升趋势,汽油辛烷值呈下降趋势。D-125液位与硫含量为非线性关系,与汽油辛烷值为负相关线性关系。
从附图11可以看出,随着2#催化汽油进装置流量升高硫含量呈下降后上升趋势,汽油辛烷值呈平稳后上升再平稳趋势。2#催化汽油进装置流量与硫含量和汽油辛烷值为非线性关系。
从附图12可以看出,随着稳定塔顶压力升高硫含量呈下降趋势,汽油辛烷值呈下降趋势。稳定塔顶压力与硫含量和汽油辛烷值为线性关系,负相关。
从附图13可以看出,随着K-101A左排气温度升高硫含量呈下降后平稳再上升趋势,汽油辛烷值呈下降后上升再下降最后平稳趋势。K-101A左排气温度与硫含量和汽油辛烷值为非线性关系。
从附图14可以看出,随着原料汽油硫含量升高硫含量呈上升趋势,汽油辛烷值呈上升后下降再平稳趋势。原料汽油硫含量与硫含量正相关,和汽油辛烷值为非线性关系。
从附图15可以看出,随着混氢点氢气流量升高硫含量呈阶梯下降后上升趋势,汽油辛烷值呈波动下降趋势。混氢点氢气流量与硫含量和汽油辛烷值为非线性关系。
从附图16可以看出,随着D-107下部松动风流量升高硫含量呈阶梯下降后平稳趋势,汽油辛烷值呈波动下降趋势。D-107下部松动风流量与硫含量和汽油辛烷值为非线性关系。
从附图17可以看出,随着稳定塔底出口温度升高硫含量呈平稳后下降再平稳趋势,汽油辛烷值呈平稳后下降再平稳趋势。稳定塔底出口温度与硫含量和汽油辛烷值为非线性关系。
从附图18可以看出,随着再生器温度升高硫含量呈平稳后下降再平稳再上升趋势,汽油辛烷值呈平稳上升趋势。再生器温度与硫含量和汽油辛烷值为非线性关系。
从附图19可以看出,随着R-102底滑阀升高硫含量呈下降后平稳再上升趋势,汽油辛烷值呈阶梯上升趋势。R-102底滑阀与硫含量和汽油辛烷值为非线性关系。
从附图20可以看出,随着S-ZORB.PT_1501.PV升高硫含量呈平稳下降后上升趋势,汽油辛烷值呈阶梯下降趋势。 S-ZORB.PT_1501.PV与硫含量和汽油辛烷值为非线性关系。
通过附图3—附图20,共18张优化调整过程中对应的汽油辛烷值和硫含量的变化轨迹图。用随机森林模型对处理过的数据进行输出,分别对18个变量设定取值区间及步长,利用训练的随机森林模型进行预测并输出18个变量对产品辛烷值损失的影响。通过附图3—附图20,以看出结果体现了随机森林模型非线性特征,同时也符合工业实际中变量对结果影响的非线性特征。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管参照前述实施例对本发明专利进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.基于随机森林的降低汽油辛烷值损失的优化方法,其特征在于,包括以下步骤:
步骤1:采集汽油精炼原始样本数据,并对数据进行预处理,剔除异常数据和无效数据;
步骤2:通过降维的方法从获取到的原始样本数据中筛选出关键变量;
步骤3:基于步骤1中预处理后的数据和步骤2选出的关键变量,利用随机森林模型来建立产品辛烷值损失预测模型,并进行模型验证;
步骤4:利用步骤2中筛选出的关键变量使用SVR模型和随机森林模型,对产品硫含量和辛烷值损失进行预测,以硫含量作为约束条件,对样本的操作变量进行调优,得出不同情境下的降低辛烷值损失的优化方案;
步骤5:提取原始样本数据的关键变量的变化范围和步幅,利用Python进行绘图,展示单操作变量调整时预测值的变化。
2.根据权利要求1所述的基于随机森林的降低汽油辛烷值损失的优化方法,其特征在于,步骤1所述的数据预处理的具体操作步骤为:
步骤11:将采集到的样本导入excel表中,对每列变量最值的限幅方法进行筛选,剔除不在此范围的样本;
步骤12:使用拉依达准则去除异常值;
步骤13:将值为0的单元格替换为NA,并删除缺失值NA超过50%的列;
步骤14:用两小时内均值填充NA值。
3.根据权利要求2所述的基于随机森林的降低汽油辛烷值损失的优化方法,其特征在于,步骤2的具体操作步骤包括:
步骤21:根据步骤13和步骤14对缺失数据进行处理;
步骤22:低方差滤波筛选:先将步骤1中的原始样本数据进行归一化处理,再将方差小于0.1的列删除;
步骤23:计算处理后的样本数据集中的特征之间的皮尔森相关系数,生成相关度矩阵,只保留相关度大于0.9的变量,得到初步筛选的特征变量;
步骤24:当步骤23中筛选出的特征数量超过300维时,利用随机森林方法来进行特征筛选,且使用基尼指数Gini作为评价贡献度的评价指标,得到变量的重要性评分,将重要性评分归一化处理后得到重要性的评分计算公式为:
Figure FDA0003067754510000021
其中,
Figure FDA0003067754510000022
表示第j个特征在随机森林所有决策树中节点分裂不纯度平均改变量的Gini指数;VIMj表示第j个特征在随机森林所有决策树中节点分裂不纯度的平均改变量;c表示决策树中的c个特征;
步骤25:将得到的随机森林变量重要性进行排序,最终筛选出多个关键变量。
4.根据权利要求1所述的基于随机森林的降低汽油辛烷值损失的优化方法,其特征在于,步骤3的具体操作步骤包括:
步骤31:为所述的多个关键变量,生成与其对应的决策树模型,进而生成随机森林模型,最终得到产品辛烷值损失预测模型,通过随机森林中的决策树进行判断并输出结果;
步骤32:选取均方误差、R方值、平均绝对误差和均方根误差来预测产品辛烷值和真实值之间的偏差,从而对建立的模型进行验证。
5.根据权利要求1所述的基于随机森林的降低汽油辛烷值损失的优化方法,其特征在于,步骤4所述的具体操作步骤包括:
步骤41:设定硫含量最大值以及辛烷值损失降幅最小值;
步骤42:对每个样本的主要操作变量进行参数调优并以设定的硫含量最大值和辛烷值损失降幅作为约束条件,在该约束条件下,筛选出满足约束条件的样本及其各个操作条件。
CN202110530864.4A 2021-05-15 2021-05-15 基于随机森林的降低汽油辛烷值损失的优化方法 Pending CN113408187A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110530864.4A CN113408187A (zh) 2021-05-15 2021-05-15 基于随机森林的降低汽油辛烷值损失的优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110530864.4A CN113408187A (zh) 2021-05-15 2021-05-15 基于随机森林的降低汽油辛烷值损失的优化方法

Publications (1)

Publication Number Publication Date
CN113408187A true CN113408187A (zh) 2021-09-17

Family

ID=77678664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110530864.4A Pending CN113408187A (zh) 2021-05-15 2021-05-15 基于随机森林的降低汽油辛烷值损失的优化方法

Country Status (1)

Country Link
CN (1) CN113408187A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114021463A (zh) * 2021-11-09 2022-02-08 南通大学 一种汽油精制过程中的路径优化模型

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489733A (zh) * 2020-12-14 2021-03-12 郑州轻工业大学 基于粒子群算法和神经网络的辛烷值损失预测方法
CN112686296A (zh) * 2020-12-29 2021-04-20 昆明理工大学 一种基于粒子群优化随机森林参数的辛烷损失值预测方法
CN112687349A (zh) * 2020-12-25 2021-04-20 广东海洋大学 一种降低辛烷值损失模型的构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112489733A (zh) * 2020-12-14 2021-03-12 郑州轻工业大学 基于粒子群算法和神经网络的辛烷值损失预测方法
CN112687349A (zh) * 2020-12-25 2021-04-20 广东海洋大学 一种降低辛烷值损失模型的构建方法
CN112686296A (zh) * 2020-12-29 2021-04-20 昆明理工大学 一种基于粒子群优化随机森林参数的辛烷损失值预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LU XUEFEI等: "The Optimization Model for Reducing RON Loss in Gasoline Refining Process", 《GEOFLUIDS》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114021463A (zh) * 2021-11-09 2022-02-08 南通大学 一种汽油精制过程中的路径优化模型
CN114021463B (zh) * 2021-11-09 2023-04-07 南通大学 一种汽油精制过程中的路径优化模型

Similar Documents

Publication Publication Date Title
CN109814513B (zh) 一种基于数据模型的催化裂化装置优化方法
CN112489733B (zh) 基于粒子群算法和神经网络的辛烷值损失预测方法
CN106845796B (zh) 一种加氢裂化流程产品质量在线预测方法
CN109597968B (zh) 基于smt大数据的锡膏印刷性能影响因素分析方法
CN111208793B (zh) 基于慢特征分析的非平稳工业过程的状态监测方法
CN112687349A (zh) 一种降低辛烷值损失模型的构建方法
CN112686296B (zh) 一种基于粒子群优化随机森林参数的辛烷损失值预测方法
CN112749849A (zh) 连续催化重整工艺过程关键参数的集成学习在线预测方法
CN111339478A (zh) 基于改进模糊层次分析法的气象数据质量评估方法
CN111338950A (zh) 一种基于谱聚类的软件缺陷特征选择方法
CN113408187A (zh) 基于随机森林的降低汽油辛烷值损失的优化方法
KR20220090360A (ko) 하이퍼파라미터를 조정하는 빅데이터 분석 시각화 장치 및 방법
CN112949162A (zh) 基于数据驱动的箱板纸机干燥部能量系统运行优化方法
Siddharth et al. Real-time quality monitoring in debutanizer column with regression tree and ANFIS
CN112749763A (zh) 用于玻璃质量影响因素的时间序列分类分析方法及系统
Niño-Adan et al. Influence of statistical feature normalisation methods on K-Nearest Neighbours and K-Means in the context of industry 4.0
US11557376B2 (en) Rapid assessment of crude oil fouling propensity to prevent refinery fouling
CN114781520A (zh) 基于改进lof模型的天然气行为异常检测方法及系统
CN115327081A (zh) 一种改进樽海鞘群优化支持向量机的变压器故障诊断方法
CN115034310A (zh) 乙烯裂解炉热效率的多模型预测方法及装置
CN115935160A (zh) 一种基于邻域粗糙集属性约简的空气质量数据处理方法
CN115201394A (zh) 一种多组分变压器油色谱在线监测方法及相关装置
CN115129503A (zh) 一种设备故障数据清洗方法及系统
CN113125377A (zh) 一种基于近红外光谱检测柴油性质的方法及装置
Zhu et al. Multiple input self-organizing-map ResNet model for optimization of petroleum refinery conversion units

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210917

RJ01 Rejection of invention patent application after publication