CN114841468A

CN114841468A - 一种汽油质量指标预测及致因解析方法

Info

Publication number: CN114841468A
Application number: CN202210634546.7A
Authority: CN
Inventors: 李炜; 郑明杰; 李亚洁; 王亚丽
Original assignee: Lanzhou University of Technology
Current assignee: Lanzhou University of Technology
Priority date: 2022-06-06
Filing date: 2022-06-06
Publication date: 2022-08-02

Abstract

本发明公开了一种汽油质量指标预测及致因解析方法，首先利用汽油历史生产数据构建LightGBM模型，采用加入正交变异、双点变异算子及蜂王竞争机制的IGA算法对LightGBM模型的超参数进行寻优；然后在线依据成品汽油配方和质量指标数据，将GA_LightGBM模型用于配方质量预测，得到配方质量指标；最后采用SHAP对通过此模型获得的质量指标预测值进行致因分析，得到每个样本特征对预测结果的影响程度以及影响方向。通过本发明中IGA算法对LightGBM模型进行优化，能够摒弃人工经验和迭代试错选参的不便，简化模型参数的调整过程；同时SHAP能全局及局部解释模型对质量指标预测理由，增强模型预测结果可信度，同时为成品汽油配方组分优化提供依据，从而提升企业生产效能。

Description

一种汽油质量指标预测及致因解析方法

技术领域

本发明涉及油品指标预测技术领域，更具体的说是涉及一种汽油质量指标预测及致因解析方法。

背景技术

成品汽油的生产过程中，油品质量是油品生产的关键，油品质量的优劣直接影响生产效益的高低，保证油品的质量达标又能实现调和效益最优化是企业不断改进成品汽油调和配方的根本原因，

但目前，在实际企业的生产过程中，由于部分不可解释性的数据驱动模型生成的油品调和配方存在生产损失的担忧，企业往往依据经验丰富的油品调和专家人工添加调和组分，再进行已调和的成品汽油质量指标的离线化验，为了防止油品质量指标不合格导致二次重调，人工经验配比调和往往质量过剩，严重影响企业的经济效益，而且油品调和质量指标的离线化验导致生产停滞。

针对以上问题，亟需对调和配方在生产之前进行可靠的成品汽油在线质量指标分析，考虑到轻量级梯度提升树(LightGBM)在实际工程应用中表现出的优良模型性能，将其用于成品汽油质量指标预测模型的建立，但由于其超参数较多，采取单一参数试错、网格搜索寻参或随机搜索寻参并不能一定寻找到全局最优参数，虽然在其他预测领域，已有应用遗传算法(GA)对轻量级梯度提升树的网络参数进行优化的先例，但传统的GA算法容易未成熟收敛而导致无法寻到最优解，以及算法不能及时利用网络中的反馈信息，而导致算法搜索速度较慢，并且即使在一定程度使得寻优参数趋于轻量级梯度提升树的最优解，但是搜索时间无疑会增加，

因此，如何对遗传算法(GA)进行改进，并基于改进的遗传算法(GA)建立优化后LightGBM网络及带有可解释性的成品汽油质量指标预测模型是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种汽油质量指标预测及致因解析方法，考虑轻量级梯度提升树算法(LightGBM)在训练速度和非线性处理方面的优势，将其应用于成品汽油质量指标的预测建模，并应用可解释机器学习框架SHAP解释指标预测致因，同时，针对梯度提升树网络(GBDT)训练过程中存在的参数选取困难问题，应用改进的遗传算法(IGA)对相关参数进行优选，摒弃了人工经验和迭代试错选参的不便，极大简化了模型的参数调整过程。

为了实现上述目的，本发明采用如下技术方案：

一种汽油质量指标预测及致因解析方法，其特征在于，包括如下步骤：

S1、利用汽油历史生产数据离线构建LightGBM模型；

S2、通过引入正交变异、双点变异算子以及蜂王竞争机制的IGA算法对所述LightGBM模型的超参数进行优化；

S3、获取成品汽油配方组分和质量指标数据，划分为训练集和测试集，对优化后的所述LightGBM模型进行训练，得到训练后的LightGBM模型；

S4、采用SHAP学习框架对通过所述训练后LightGBM模型获得的预测结果进行分析，得到每个样本特征对所述预测结果的影响程度以及影响方向。

优选的，S2中，所述通过IGA算法对LightGBM模型的超参数进行优化的步骤包括：

S21：确定寻优参数，对其进行二进制编码，所述二进制编码随机生成个体，初始化种群；

S22：构建适应度函数，所述适应度函数为：

式中，i为样本个体，n为样本总数，

表示仿真预测值，y_i表示实际值；

S23：根据所述适应度函数计算所述初始化种群的适应度，并引入蜂王竞争机制；

S24：种群进化，采用轮盘赌方式选择参数组，依交叉率进行双点交叉，利用变异率结合迭代次数选择正交变异或双点变异，迭代产生新种群，

比较当前种群参数组最优适应度值与新种群参数组最优适应度值大小，引入蜂王竞争机制使种群寻优收敛，产生新的种群，满足终止条件时结束优化。

优选的，S3中，所述划分训练集和测试集前先根据拉依达准则去除异常值，所述拉依达准则是对被测量变量的精度测量，得到X₁、X₂...X_n，再计算其算数平均值X，

根据所述算术平均值X，按如下公式计算标准误差σ；

判断所述被测变量是否满足如下公式，

|v_i|＝|x_i-x|＞3σ

若符合，认为x_i含有粗大误差，为不合格数据，剔除。

优选的，S3中，所述划分训练集和测试集前还包括对数据进行归一化处理，所述归一化处理采用min-max标准化方法，将S3中获取的所述成品汽油配方组分和质量指标数据转换为[0,1]区间内的数值，

所述标准化转换函数为：

式中，f为实际测量值，f_min作为样本数据最小值，f_max为样本数据最大值。

优选的，S3中，采用自助法对获取的所述成品汽油配方组分和质量指标数据进行划分，

当样本总数为n，所述自助法为有放回地抽样n次，得到n的数据，剔除已重复数据后，得到m个数据，所述m个数据为训练集数据，其余n-m个数据为测试集数据。

优选的，S3中，采用单边采样算法和互斥特征捆绑算法对优化后的所述LightGBM模型进行训练，并使用leaf-wise叶子生长策略，限定分裂深度。

优选的，采用SHAP学习框架对通过所述训练后LightGBM模型获得的预测结果进行分析，得到SHAP概要图、特征交互SHAP图和特征SHAP依赖图，所述特征交互SHAP图按照SHAP值由大到小排序，用于衡量特征对模型预测值的贡献度和影响；

优选的，S3中对所述LightGBM模型训练完成后，采用常用性能指标对所述训练完的LightGBM模型性能进行评价，所述常用性能指标包括均方误差MSE、平均绝对误差MAE和决定系数R²，计算公式如下：

式中N为测试集样本数量，

表示参数预测值，y_i表示实际值，

表示均值。

优选的，还采用预测误差分布PED对所述训练完的LightGBM模型性能进行评价，所述预测误差分布PED通过如下公式获得：

式中，num(υ≤δ)表示预测误差在误差δ范围之内的个数，num(N)表示预测数值总数，υ表示预测值与真实值误差集合，δ根据国Ⅵ汽油下限标准和企业上限标准确定。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种汽油质量指标预测及致因解析方法，引用正交变异及蜂王竞争机制，保证了种群多样性，加快了算法收敛速度，使其更快更容易地优化LightGBM模型的关键超参数，摒弃了人工选参以及迭代试错选参的不便，极大地简化了模型参数的调整过程；同时，引入SHAP分析框架解释LightGBM预测模型中特征对油品质量指标全局及交互影响，从全局和个体角度解释了模型对油品指标预测理由，增强了LightGBM模型预测结果的可信度，同时为成品汽油调和组分优化策略提供分析依据，为企业生产的提质增效奠定基础。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的采用IGA对LightGBM模型进行优化的整体研究路线；

图2附图为本发明提供的对LightGBM模型的训练流程；

图3附图为本发明提供的SHAP学习框架图；

图4附图为本发明提供的传统遗传算法(GA)与改进遗传算法(IGA)的优参曲线；

图5附图为本发明提供的基于不同模型的辛烷值预测结果；

图6附图为本发明提供的不同模型对质量指标预测的性能对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本实施例受成品汽油调和过程中对质量指标准确预测的需求驱动，引用了一种改进的GA用于优化LightGBM网络的新方法，该方法主要引进GA改进的正交变异以及蜂王竞争机制快速收敛选择出最优参数组，最后将最优的模型参数组用于LightGBM模型质量指标预测，并应用可解释机器学习框架SHAP分析模型输入的特征组分对调和油重要质量指标的耦合影响，基于工业数据驱动与可解释机器学习方法相结合的方法，为优化成品汽油调和组分、提升调和油质量指标提供了借鉴。

具体的，本发明实施例公开的汽油质量指标预测及致因解析方法，通过如下步骤实现：

S1、利用汽油历史生产数据离线构建LightGBM模型；

LightGBM模型是基于梯度提升决策树框架GBDT改进的开源集成算法，针对GBDT在迭代的过程中需要遍历多次数据集，导致训练速度慢，内存消耗占用大等缺点，提出利用直方图算法(Histogram algorithm)构建决策树模型，使得梯度提升决策树算法的执行节省约一半时间，

S2、通过引入正交变异、双点变异算子以及蜂王竞争机制的IGA算法对LightGBM模型的超参数进行优化，

传统的遗传算法中，遗传编码中某些基因值过早丢失，导致未趋于最优解就收敛，即未成熟就收敛，或收敛速度过慢，即使在一定程度使得寻优参数趋于轻量级梯度提升树的最优解，但是搜索时间无疑会增加，这是标准遗传算法的最大问题；为防止种群个体陷入同一极值停止进化以及保证种群多样性，本发明采用改进的遗传算法IGA，该算法通过引入正交变异、双点变异算子以及蜂王竞争机制使得种群保持多样性并提高收敛速度。

在一个实施例中，选取直接关系模型精度以及训练速度的7个超参数进行优化，分别是n_estimators、Learning_rate、max_depth、min_data_in_leaf、min_child_weight、L1_alpha、L2_lambda，进行优化的整体研究路线如图1所示；整体训练流程如图2所示；

且优化步骤为：

S22：依据目标函数构造适应度函数，所述目标函数为：

式中，i为样本个体，n为样本总数，

表示仿真预测值，y_i表示实际值；

种群进化过程为：

a、对所述个体译码，并计算所述个体的适应度值，保留最优解个体，记为O；

b、采用轮盘赌方式选择操作；

c、对父代个体双点交叉，产生新个体；

d、算法迭代前期采用正交变异算子产生新子代个体，进化后期采用双点变异产生新子代个体；

e、计算新子代适应值，找出最优解个体，记为N；

f、引入蜂王竞争机制，比较当前种群最优解个体O与新子代最优解个体N大小，如O<N，用N替代O保留；反之，继续保留O；

g、重复(b-f)，直到满足终止条件，结束优化。

在模型训练时为减少异常数据误差，方便对数据进行系统化的分析与处理，需在划分训练集和测试集前对数据进行如下处理：

1)根据拉依达准则，即3σ准则，去除异常值；在数据采集测量时，考虑采集测量设备以及人工测量误差导致部分错误以及缺失数据，需结合国Ⅵ车用汽油标准利用3σ准则删除不合格以及缺失数据。

3σ准则，即对被测量变量的精度测量，得到X₁、X₂...X_n，再计算其算数平均值X，

根据所述算术平均值X，按如下公式计算标准误差σ；

判断所述被测变量是否满足如下公式，

|v_i|＝|x_i-x|＞3σ

若符合，认为x_i含有粗大误差，为不合格数据，应当剔除。

2)对数据进行归一化处理，为了避免不同特征数据取值因量纲的差异性带来预测结果误差，造成模型性能退化，本发明采用min-max标准化方法，将S3中所述获取的数据转换为[0,1]区间内的数值，

所述标准化转换函数为：

在模型建立完成之后，需要对建立模型的性能进行测试分析，采用自助法对所述获取的成品汽油配方组分和质量指标数据进行划分，

当样本总数为n，所述自助法为有放回地抽样n次，得到n的数据，剔除已重复数据后，得到m个数据，所述m个数据为训练集数据，其余n-m个数据为测试集数据；

然后采用单边采样算法和互斥特征捆绑算法对所述LightGBM模型进行训练，该算法能够在不损失预测准确率的前提下，大幅度提高模型的训练速度，同时降低内存的消耗，并且针对传统的同一层叶子分裂增益低的生长策略，LightGBM使用leaf-wise叶子生长策略，使得当前分裂增益最大的叶子进行分裂，不断循环，提高训练效率，为了防止过拟合，设定了最大深度限制。

训练完成后，为了对成品汽油调和配方质量指标预测模型性能进行评价，采用回归模型常用的性能评价指标以及定义预测误差分布来评价指标预测模型的性能：

1)常用性能指标，常用性能指标包括均方误差MSE、平均绝对误差MAE和决定系数R²，计算公式分别如下：

式中N为测试集样本数量，

表示参数预测值，y_i表示实际值，

表示均值。

2)预测误差分布PED，在实际工程应用中，允许生产存在一定的误差带，而且由于回归模型的预测值与实际值存在一定微小程度的偏差，考虑以上两点，本文对预测数值引入误差范围，从实际应用角度衡量模型的预测精准度。即在指标预测数值基础上，考虑指标下限国Ⅵ汽油标准以及上限为企业标准，定义误差范围δ，以误差小于等于δ的个数占预测总数的比例来评价预测准确性，在误差范围δ的数值越多，说明模型预测性能更好。

所述预测误差分布PED通过如下公式获得：

SHAP学习框架具体包括SHAP概要图、特征交互SHAP图和特征SHAP依赖图，所述特征交互SHAP图按照SHAP值由大到小排序，用于衡量特征对模型预测值的贡献度和影响。所述SHAP值为正表明特征值有助于提高预测值，为负表明特征对预测结果提升有反向作用。

在一种实施例中，SHAP概要图、特征交互SHAP图和特征SHAP依赖图分别如图3中(a)、(b)、(c)所示；

由SHAP概要图和模型输入特征交互SHAP图可以得出影响辛烷值预测结果的最主要特征是生成油，生成油特征值过大对辛烷值预测结果的提升有反向作用，醚化汽油特征值过大也存在对辛烷值预测结果提升的抑制作用；而汽油重芳烃、乙苯、二甲苯、MTBE等特征值较大时对辛烷值预测结果的提升有正向促进作用；生成油与乙苯的依赖图表明在生成油特征值较小，乙苯特征值较大时对辛烷值的预测结果提升有正向作用。

由于抗爆值与辛烷值性质相似,抗爆值预测SHAP分析结果与辛烷值一致，限于篇幅，仿真结果不予展示。

为了验证改进遗传算法IGA的优势，分别采用随机搜索、传统遗传算法(GA)对LightGBM模型进行超参数寻优，并与之进行比较。

首先依据人工经验以及结合模型预测的实际问题，经过多次模型参数迭代试错，选定了直接影响LightGBM模型训练速度以及精度的7个超参数寻优范围。

因为寻优超参数众多，采用随机搜索寻参可以提高寻参速度，但是依赖于迭代次数，对最优参数组合的搜索具有随机性，在超参数给定的搜索范围下，不放回抽样21次，最后选取均方根误差最小的参数组合如表1所示。

表1

因为遗传算法的参数选择没有定性的规定，结合多次实验对比，本文将遗传算法运用于LightGBM模型参数寻优时，选择种群规模为50，最大进化代数为80代，正交变异代数8代，交叉概率P_c＝0.6，变异概率P_m＝0.1。传统遗传算法(GA)与改进遗传算法(IGA)优参的寻参时间、适应度曲线如表2、图4所示：

表2

由图4可知，传统遗传算法(GA)用于成品汽油质量指标LightGBM模型参数寻优在约47代时才收敛到最优解，而本发明引入改进遗传算法(IGA)优参在约23代时便收敛到最优解，并且根据寻参时间对比可见，LightGBM模型采用改进遗传算法(IGA)对参数寻优的收敛速度更快。

为了验证本文提出的改进遗传算法优参的LightGBM模型在质量指标预测建模中的优越性，将其与K邻近回归算法、支持向量机、随机森林、随机搜索结合人工经验寻参的LightGBM模型、传统遗传算法优参的LightGBM模型进行预测结果对比，图5为基于不同模型的辛烷值预测结果，即a、b、c、d、e、f分别为基于SVM模型、KNN模型、RF模型、LGBM模型、GA_LGBM模型以及IGA_LGBM模型的辛烷值预测值与真实值对比，由图可以直观看出基于LightGBM模型、遗传算法优参的LightGBM模型以及基于改进的遗传算法优参的LightGBM模型仅有个别样本与真实样本未重合，且重合度较高；而经过优选的RF、KNN、SVM依次表现出预测值与真实样本出现多个未重合，且重合度依次降低(其他5种质量指标也表现出类似结果)。由此可知，本文考虑的基于LightGBM模型应用于成品汽油质量指标的预测是优于其它大部分机器学习模型的。

表3

表3为不同模型质量指标预测的性能定量比较，图6为不同模型对质量指标预测的性能对比，

从表3、图6可知，相比较其他方法，本文提出的基于LightGBM模型的MSE、MAE数值均最小，在误差为0.15的范围内本文模型也展现了良好的预测准确性，并且R²数值整体最接近于1，表明此模型对质量指标预测具有更好的精确性和泛化能力。

表4

表4为几种优参方法经过5次实验的质量指标预测平均误差对比，由表4可知，可以看出基于IGA_LightGBM模型在成品汽油质量指标预测中有更小的预测误差且预测精准，鉴于此，基于本文联合IGA_LightGBM模型预测性能优良，可用于成品汽油质量指标建模。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种汽油质量指标预测及致因解析方法，其特征在于，包括如下步骤：

S1、利用汽油历史生产数据离线构建LightGBM模型；

S3、获取成品汽油配方组分和质量指标数据，划分训练集和测试集，对优化后的所述LightGBM模型进行训练，得到训练后的LightGBM模型；

2.根据权利要求1所述的一种汽油质量指标预测及致因解析方法，其特征在于，S2中，所述通过IGA算法对所述LightGBM模型的超参数进行优化的步骤包括：

S22：构建适应度函数，所述适应度函数为：

式中，i为样本个体，n为样本总数，

表示仿真预测值，y_i表示实际值；

3.根据权利要求1所述的一种汽油质量指标预测及致因解析方法，其特征在于，S3中，所述划分训练集和测试集前先根据拉依达准则去除异常值，所述拉依达准则是对被测量变量的精度测量，得到X₁、X₂...X_n，再计算其算数平均值X，

根据所述算术平均值X，按如下公式计算标准误差σ；

判断所述被测变量是否满足如下公式，

|v_i|＝|x_i-x|＞3σ

若符合，认为x_i含有粗大误差，为不合格数据，剔除。

4.根据权利要求3所述的一种汽油质量指标预测及致因解析方法，其特征在于，S3中，所述划分训练集和测试集前还包括对数据进行归一化处理，所述归一化处理采用min-max标准化方法，将S3中获取的所述成品汽油配方组分和质量指标数据转换为[0,1]区间内的数值，

所述标准化转换函数为：

5.根据权利要求1所述的一种汽油质量指标预测及致因解析方法，其特征在于，S3中，采用自助法对获取的所述成品汽油配方组分和质量指标数据进行划分，

6.根据权利要求1所述的一种汽油质量指标预测及致因解析方法，其特征在于，S3中，采用单边采样算法和互斥特征捆绑算法对优化后的所述LightGBM模型进行训练，并使用leaf-wise叶子生长策略，限定分裂深度。

7.根据权利要求1所述的一种汽油质量指标预测及致因解析方法，其特征在于，采用SHAP学习框架对通过所述训练后LightGBM模型获得的预测结果进行分析，得到SHAP概要图、特征交互SHAP图和特征SHAP依赖图，所述特征交互SHAP图按照SHAP值由大到小排序，用于衡量特征对模型预测值的贡献度和影响。

8.根据权利要求1所述的一种汽油质量指标预测及致因解析方法，其特征在于，S3中对所述LightGBM模型训练完成后，采用常用性能指标对所述训练完的LightGBM模型性能进行评价，所述常用性能指标包括均方误差MSE、平均绝对误差MAE和决定系数R²，计算公式如下：

式中，N为测试集样本数量，

表示参数预测值，y_i表示实际值，

表示均值。

9.根据权利要求8所述的一种汽油质量指标预测及致因解析方法，其特征在于，还采用预测误差分布PED对所述训练完的LightGBM模型性能进行评价，所述预测误差分布PED通过如下公式获得：