CN112687349A

CN112687349A - 一种降低辛烷值损失模型的构建方法

Info

Publication number: CN112687349A
Application number: CN202011561470.7A
Authority: CN
Inventors: 杨佳丽; 李升�; 陈宝琴; 杨培浩
Original assignee: Guangdong Ocean University
Current assignee: Guangdong Ocean University
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-20

Abstract

本发明公开了一种降低辛烷值损失模型的构建方法，涉及能源材料技术领域，能够在保证汽油产品脱硫效果的前提下，降低汽油中辛烷值的损失，从而使汽油中的辛烷值含量增加，这不仅可以使汽油机的动力性更好，还可以获得更高的经济性，具体方案为：包括以下步骤：S1：获取原始数据；S2：对数据进行预处理，包括缺失值处理、数据插补和异常值处理；S3：对预处理后的数据进行分析和特征提取；S4：建立模型；S2过程中，对数据值为0的位点作为缺失数据进行数据的预处理；对缺失数据作删除处理。本发明构建的模型具有更高的精确性，能够有效得生产相应的模型。

Description

一种降低辛烷值损失模型的构建方法

技术领域

本发明涉及能源材料技术领域，更具体地说，它涉及一种降低辛烷值损失模型的构建方法。

背景技术

汽油是一种从石油裏分馏或裂化、裂解出来的具有挥发性、可燃性的烃类混合物液体，主要用作汽车发动机的燃料。随着中国经济的持续发展，汽车的保有量持续增长，截至2019年底，全国汽车保有量达2.6亿辆，与2018年底相比，增加2122万辆，增长率高达8.83％。 2019年的BP世界能源统计年鉴中提到，2018年的全球石油消耗量为4662.1百万吨，全球石油的消耗量每年以1％-2％的速度持续增长。

随着一次性能源的紧缺以及其消耗量的快速增加，提高汽油机的热效率，可以有效的改善汽油使用的经济性。在提高汽油机的热效率中，提高汽油机的压缩比是一种有效提高其热效率的途径，但与此同时对汽油的抗爆震性有了更高的要求。因为汽油机的热功效率与其压缩比有直接关系，但是压缩比受汽油燃料抗爆性的制约，如果汽油的辛烷值过低，汽油机在运转过程中会产生震爆现象，这不仅会影响汽油机的热工效率还会引起缸头、活塞、缸体的损坏。如果汽油燃料具有很好的抗爆性，可以有效的提高经济效益。

辛烷值是衡量汽油在气缸内抗爆震燃烧能力的一种数字表示，其值越高表示抗爆性越好，是汽油最重要的控制指标，所以汽油中的辛烷值要相应的提高。在标准试验条件下，汽油辛烷值的测定是以异辛烷和正庚烷为标准燃料，调节标准燃料组成的比例，使标准燃料产生的爆震强度与试样相同，此时标准燃料中异辛烷所占的体积百分数就是试样的辛烷值。然而对于汽油的清洁化主要依靠对汽油的掺混原料进行脱硫以及降烯烃处理，目前的脱硫工艺流程会导致脱硫后的汽油中的辛烷值降低。

发明内容

为解决上述技术问题，本发明提供一种降低辛烷值损失模型的构建方法，能够在保证汽油产品脱硫效果的前提下，降低汽油中辛烷值的损失，从而使汽油中的辛烷值含量增加，这不仅可以使汽油机的动力性更好，还可以获得更高的经济性。

本发明通过以下技术方案得以实现的：

一种降低辛烷值损失模型的构建方法，包括以下步骤：

S1：获取原始数据；

S2：对数据进行预处理，包括缺失值处理、数据插补和异常值处理；

S3：对预处理后的数据进行分析和特征提取；

S4：建立模型；

S2过程中，对数据值为0的位点作为缺失数据进行数据的预处理；对缺失数据作删除处理；对缺失数据采用均值替换法处理；异常值的判别方法包括简单统计分析法、拉依达准则和箱型图分析；异常值的处理方法包括删除异常值和将异常值视为缺失值。

作为一种优选方案，均值替换法中，缺失数据使用前后两个小时数据的平均值替换。

作为一种优选方案，异常数据处理具体判定方法和处理方法包括如下步骤：将所有数值由小到大排列并分成四等分；其中，处理三个分割点位置的数值为四分位数，较小四分位数为数据的25％分位点所对应的值Q₁，中位数为数据的50％分位点所对应的值Q₂，较大四分位数为数据的75％分位点所对应的值Q₃；上须的计算公式为 Q₃+1.5(Q₃-Q₁)；下须的计算公式为Q1-1.5(Q₃-Q₁)；其中， Q₃-Q₁为四分位差；采用箱线图进行异常数据识别，当变量的数据值大于箱线图的上须或者小于箱线图的下须时，判定该数据点为异常数据；对异常数据进行删除处理。

作为一种优选方案，异常数据还包括普通异常数据和极端异常数据，其中：

数据满足x>Q₃+1.5(Q₃-Q₁)或者x<Q1-1.5(Q₃-Q₁)为普通异常数据；

数据满足x>Q₃+3(Q₃-Q₁)或者x<Q1-3(Q₃-Q₁)为极端异常数据；

对普通异常数据保留，对极端异常数据作删除处理。

作为一种优选方案，对极端异常数据作删除处理后，再使用拉依达准则进行异常值处理，具体包括以下步骤：假定一组检测数据只含有随机误差，对该组检测进行计算处理得到标准偏差，按一定概率确定一个区间，处于(μ-3σ，u+3σ)区间内的样本数据可以视为正常值，反之为异常值；对异常值作删除和替换处理。

作为一种优选方案，S3过程具体包括以下步骤：对S2处理后的数据进行标准化和归一化处理，并进行相关性分析，然后通过随机森林和最大信息系数进行特征提取。

作为一种优选方案，数据标准化处理具体包括以下步骤：

假定训练数据集有n条网络连接记录，每个记录中有354个属性向量记作X_ij(1≤i≤n，1≤j≤354)；

标准化计算具体包括以下步骤：

其中，AVG_j为平均值，STAD_j为平均绝对偏差，比标准差

对于孤立点具有更好的鲁棒性；

公式(1)和(2)计算时，如果AVG_j等于0，则X_ij＝0；如果STAD_j等于0，则X_ij＝0。

作为一种优选方案，数值归一化处理具体包括以下步骤：

假定X″_ij为X′_ij归一化后的值：

其中下标变量1≤i≤n，1≤j≤m，X_max＝max{X_ij′}为最大值，X_min＝min{X_ij′}为最小值。

作为一种优选方案，相关性分析具体包括Pearson相关性分析、 Spearman相关性分析和随机森林权重分析；

Pearson相关性分析计算具体包括以下步骤：

其中，取值范围为-1到+1，-1表示完全的负相关，+1表示完全的正相关，0表示没有线性相关；

Spearman相关性分析计算具体包括以下步骤：

由排行差分集合计算得出：

由排行集合x、y计算而得：

随机森林权重分析具体包括降维和聚类；

降维具体包括以下步骤：对Pearson相关性分析和Spearman相关性分析提出不相关数据后，对剩余特征进行降维，具体计算方法包括以下步骤：

T1：利用随机邻接嵌入算法将数据点之间的欧几里得距离转化为条件概率来表达点与点之间的相似度；假设给定的高维空间数据点集合为X＝{x₁，x₂，…，x_n}，以数据点x_i为中心，用高斯分布选择x_j作为近邻点的条件概率p_j|i，

其中σ_i是以数据点x_i为均值的高斯分布标准差；

T2：假设维空间数据点集合X＝{x₁，x₂，…，x_n}在低维空间中对应映射的数据点集合为Y＝{y₁，y₂，…，y_n}，以数据点y_i为中心，用高斯分布选择y_j作为近邻点的条件概率；

T3：使用t分布随机邻域嵌入算法(t-SNE)减轻SNE的拥挤问题，使得同一簇内的点聚合的更紧密，不同簇之间的点更加疏远；

T4：定义条件概率矩阵的困惑度:

其中H(p_i)为p_i的香农熵:

H(p_i)＝-∑_jp_j|ilog₂p_j|i (10)

聚类具体包括以下步骤：

Q1：计算数据间相似度，获取数据的相似度矩阵S,再选取参考度P值；其中，P值取S中值；

Q2：设置一个最大迭代次数，迭代过程开始后，计算每一次的R 值和A值，根据R(k，k)+A(k，k)来判定是否为聚类中心，当迭代次数超过最大值或者当聚类中心连续多少次迭代不发生改变时终止运算；

Q3：根据求出聚类中心，进行数据分类，得到六大类。

作为一种优选方案，随机森林特征提取步骤包括随机选择样本、随机选择特征、构建决策树和随机森林投票，判断每个特征在随机森林中的每棵树上做出的贡献，然后取平均值，最后比较特征之间的贡献大小，具体计算方法包括以下步骤：

W1：对每一颗决策树，选择相应的袋外数据(OOB)，计算袋外数据误差，记为errOOB₁，然后随机对袋外数据OOB所有样本的特征X加入噪声干扰，再次计算袋外数据误差，记为errOOB₂，假设森林中有N棵树，则特征X的重要性由式(11)给出

计算出每个特征的重要性后，按降序排序；

W2:确定要剔除的比例，从当前的特征变量中剔除相应比例不重要的指标，得到一个新的特征集；

W3:用新的特征集重复上述过程，直到剩下m个特征；

W4:根据上述过程中得到的各个特征集和特征集对应的袋外误差率，选择袋外误差率最低的特征集。

作为一种优选方案，S4过程包括对筛选后的样本数据的信息进行处理和分析，构建辛烷值损失预测模型；

信息处理包括数据的归一化处理，使得实际值映射到[0,1]区间内，具体计算方法包括以下步骤：

其中，Y为单测点X的归一化值，X_min为X的最小值，X_max为 X的最大值；

然后保留个测点分布参数X_min和X_max用于对实际运行状态数据进行归一化；

构建模型具体包括LSTM神经网络和BP神经网络；

LSTM神经网络的训练过程具体包括以下步骤：

E1：将神经网络中的权值矩阵W和偏置向量b进行初始化处理，确定输入数据集x；

E2：输入门用于控制当前输入数据x_t流入记忆单元的多少，即在时间步t时，有多少可以保存到记忆单元c_t，其值可以由式(13)表示：

i_t＝σ(W_xix_t+W_hih_t-1+b_i) (13)

其中，x_t和h_t分别表示LSTM的隐藏层的输入和输出向量，激活函数选取sigmoid函数，即

E3：遗忘门控制自连接单元，决定要从单元状态中丢弃哪些信息, 即上一时刻记忆单元c_t-1中的信息对当前记忆单元c_t的影响,计算公式由式(14)和式(15)给出:

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f) (14)

c_t＝f_t⊙c_t-1+i⊙tanh(W_xcx_t+W_hch_t-1+b_c) (15)

E4:输出门控制记忆单元c_t对当前输出值h_t的影响，即记忆单元中的哪一部分会在时间步t输出；输出门的值由式(16)给出，LSTM单元的在t时刻的输出h_t可以通过式(17)得到:

o_t＝σ(W_xox_t+W_hoh_t-1+b_o) (16)

h_t＝o_t⊙tanh(c_t) (17)

BP神经网络模型的训练过程如下：

R1:将神经网络各层之间的参数和权值进行初始化处理，确定输入数据集x和输出数据集y，输入层层数n，隐含层层数q，输出层层数m，确定BP神经网络的学习速率与神经元的激励函数；

R2:计算BP神经网络模型隐含层输出H_j如式(18)所示，根据输入层的数据集与连接权值w_ij得到输出值:

其中，函数f为隐含层激励函数，激励函数的选择取决于模型的构建方式，BP神经网络模型的激活函数选择sigmoid函数；

R3：输入层计算,根据步骤R2得到的隐含层输出H_j，将其输入到隐含层与输出层网络中，计算神经网络模型的预测输出，其计算公式由式(19)给出：

R4：误差反向传播，重新调整连接层之间的权值，用BP神经网络模型的预测输出y_p与真实输出Y作比较，将y_p与Y作差取绝对值，得到网络模型的误差e；以预测误差e为标准，采用函数求导方式，使得输出结果达到收敛为止，最终完成对权值的迭代替换，更新权值的计算公式由式(20)给出：

其中，η为学习率e_p＝y_p-Y_p；

R5:更新隐含层和输出层的阈值，利用(20)计算得到的预测误差 e_p，来更新替换模型的阈值a和b；计算公式由式(21)给出：

根据以上步骤来更新调整各参数值，如果已经达到预期误差精度，则跳出循环直接输出结果；否则跳到step2重新计算新一轮的结果，直到达到精度要求。

综上所述，本发明具有以下有益效果：

本发明构建的模型具有更高的精确性，能够有效得生产相应的模型。

附图说明

图1是本发明实施例的模型构建的结构示意图；

图2是本发明实施例中的pearson前5个特征与RON损失比热图；

图3是本发明实施例中的LSTM的结构示意图；

图4是本发明实施例中的BP神经网络结构示意图。

具体实施方式

本说明书及权利要求并不以名称的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包括”为一开放式用语，故应解释成“包括但不限定于”。“大致”是指在可接收的误差范围内，本领域技术人员能够在一定误差范围内解决所述技术问题，基本达到所述技术效果。

本说明书及权利要求的上下左右等方位名词，是结合附图以便于进一步说明，使得本申请更加方便理解，并不对本申请做出限定，在不同的场景中，上下、左右、里外均是相对而言。

以下结合附图对本发明作进一步详细说明。

表1 为符号说明图：

表1

问题一分析

采集到的原始数据无法直接使用，大部分变量的数据正常，但是每套装置的数据均有部分位点存在问题。原始数据在采集过程中部分变量只含有部分时间段的数据，部分变量的数据全部为空值或者部分为空值。数据异常、数据缺失等问题会导致数据质量下降，低质量的数据会导致数据挖掘的结果出现偏差，因此要对原始数据进行预处理。

数据预处理

缺失数据处理

将数据值为0的数据作为缺失数据来进行数据的预处理。在数据处理中，缺失值的处理方法通常有三类：删除记录、数据插补、不处理。常用的数据插补方法有个案剔除法、均值替换法、热卡填充法、回归替换法、多重替代法。数据插补只是将我们主观的估计值去填补未知的缺失值，也会带来一定的误差。

(1)删除数据处理

将位点中数据值全为0的位点进行删除处理。

(2)数据插补处理

均值替换法也是一种简便、快速的缺失数据处理方法。使用均值替换法插补缺失数据，对该变量的均值估计不会产生影响。本申请对于数据的插补采用了均值替换法和前均值替换法。根据缺失值前后两小时数据的平均值进行代替。

异常数据处理

异常值的判别方法通常有三种：简单统计分析法、拉依达准则、箱型图分析。异常值的处理方法通常有四种：删除异常值、将异常值视为缺失值，根据缺失值的处理方法来处理、用平均值修正、不处理。

(1)利用四分位数的异常数据处理

利用四分位数(Quartile)进行最大最小界限剔除异常值，四分位数是统计学中分位数的一种，即把所有数值由小到大排列并分成四等份，处于三个分割点位置的数值就是四分位数。较小四分位数指的是数据的25％分位点所对应的值(Q₁)；中位数即为数据的50％分位点所对应的值(Q₂)；较大四分位数则为数据的75％分位点所对应的值 (Q₃)；上须的计算公式为Q₃+1.5(Q₃-Q₁)；下须的计算公式为 Q1-1.5(Q₃-Q₁)。其中，Q₃-Q₁表示四分位差。如果采用箱线图识别异常值，其判断标准是，当变量的数据值大于箱线图的上须或者小于箱线图的下须时，就可以认为这样的数据点为异常点。可以定义某个数值型变量中的异常点和极端异常点，它们的判断表达式如下表 2所示。

表2 异常点的判断标准

(2)基于拉依达准则的异常数据处理

提供的样本数据持续时间长，积累的数据量大，适用于拉依达准则来进行数据的后期处理及分析。拉依达准则是指先假设一组检测数据只含有随机误差，对其进行计算处理得到标准偏差，按一定概率确定一个区间，认为凡超过这个区间的误差，就不属于随机误差而是粗大误差，属于粗大误差的数据应予以剔除。这种判别处理原理及方法适用于正态或近似正态分布的样本数据处理，根据拉依达准则处于 (μ-3σ，u+3σ)区间内的样本数据可以视为正常值，反之为异常值。

问题二分析

经过对数据的缺失值和异常值处理后，发现本案例属性较多，因此需要进行主要变量的筛选。在筛选过程中发现线性、非连续型特征属性，各属性的度量方法不一样，为了避免对度量单位选择的依赖，首先需要对属性值进行标准化、归一化处理；然后利用Pearson和 Spearman进行相关性分析；最后利用随机森林和最大信息系数进行主要变量选择。

数据变换

设训练数据集有n条网络连接记录，每个记录中有354个属性向量记作X_ij(1≤i≤n，1≤j≤354)。对X_ij数据预处理分两步：数值标准化和数值归一化。

数值标准化

数据的标准化(normalization)是将数据按比例缩放，使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。

原料性质、产品性质、待生吸附剂性质、再生吸附剂性质均不属于操作变量，所以我们只需对RON损失值特征以及其后354的特征进行数据变化，标准化公式由式(5.1)和式(5.2)给出。

其中AVG_j为平均值，STAD_j为平均绝对偏差，比标准差

对于孤立点具有更好的鲁棒性。

在上述计算时需做如下判断：

(1)如果AVG_j等于0，则X_ij＝0；

(2)如果STAD_j等于0，则X_ij＝0。

数值归一化

数据归一化是为了数据处理方便提出来的，把数据映射到0～1 范围之内处理，更加便捷快速，设X″_ij为X′_ij归一化后的值，由式(5.3) 给出：

其中下标变量1≤i≤n，1≤j≤m，X_max＝max{X_ij′}为最大值， X_min＝min{X_ij′}为最小值。

特征提取

特征提取是从原始数据中选择对于预测属于而言最好的特征的过程。更正式地说，给定n个特征，我们搜索其中包括k(k<n)个特征的子集来改善机器学习流水线的性能。在这针对对特征提取我们选择了4种方法进行了分析比较，最终利用随机森林计算属性权重和最大互信息分析(MIC)来提取特征，特征提取方法如下。

Pearson相关性分析

皮尔森相关系数(Pearson Correlation Coefficient)是一种最简单的，能帮助理解特征和响应变量之间关系的方法，该方法衡量的是变量之间的线性相关性，取值范围为-1到+1，-1表示完全的负相关， +1表示完全的正相关，0表示没有线性相关。由式(5.4)给出。

Spearman相关性分析

斯皮尔曼等级相关系数(spearman)它是衡量两个变量的依赖性的非参数指标。它利用单调方程评价两个统计变量的相关性。如果数据中没有重复值，并且当两个变量完全单调相关时，斯皮尔曼相关系数则为+1或-1，其计算方式如下。

由排行差分集合d计算得出，由式(5.5)给出。

由排行集合x、y计算而得(斯皮尔曼等级相关系数同时也被认为是经过排行的两个随即变量的皮尔逊相关系数，以下实际是计算x、 y的皮尔逊相关系数)，由式(5.6)给出。

通过利用Pearson和Spearman相关性算法，将RON损失和354 个属性做相关性比较，提取出相关性大的前29个属性。

随机森林权重分析

(1)降维

由于原料性质、产品性质、待生吸附剂性质、再生吸附剂性质均不属于操作变量，我们需要对剩余已经标准化的特征进行降维，然后通过python中的pandas库合并RON损失。

t-SNE是由Laurens van der Maaten和Geoffrey Hinton在08年提出来一种t分布随机邻域嵌入算法，主要用于高维数据的非线性降维。 t-SNE算法将高维空间的数据映射到二维空间，并且最小化所有数据点在分布间的差距，由于t分布具有较长的尾部，这会使数据点更均匀的分布在二维空间中。

具体计算步骤如下：

Step1：利用随机邻接嵌入(SNE)算法将数据点之间的欧几里得距离转化为条件概率来表达点与点之间的相似度。假设给定的高维空间数据点集合为X＝{x₁，x₂，…，x_n}，以数据点x_i为中心，用高斯分布选择x_j作为近邻点的条件概率p_j|i，由式(5.7)给出。

其中σ_i是以数据点x_i为均值的高斯分布标准差。

Step2：假设维空间数据点集合X＝{x₁，x₂，…，x_n}在低维空间中对应映射的数据点集合为Y＝{y₁，y₂，…，y_n}，以数据点y_i为中心，用高斯分布选择y_j作为近邻点的条件概率q_j|i，由式(5.8)给出。

Step3：使用t分布随机邻域嵌入算法(t-SNE)减轻SNE的拥挤问题，使得同一簇内的点聚合的更紧密，不同簇之间的点更加疏远。 Step4：定义条件概率矩阵的困惑度，由式(5.9)给出。

其中H(p_i)为p_i的香农熵，表达式由式(5.10)给出。

H(p_i)＝-∑_jp_j|ilog₂p_j|i (5.10)

(2)聚类

对以上降维的数据进行聚类，聚成来六大类，其聚类方法我采用了AP聚类。

AP算法是在2007年提出的一种新的聚类算法。它的基本思想是将全部数据节点都看作潜在的聚类中心，然后通过数据节点两两之间连接构成一个网络，在通过网络中的各条边的消息传递计算出样本最终的聚类中心。在聚类的过程中，AP算法通过迭代不断更新每一个数据节点的吸引度(responsibility)和归属度(availability)的值,直到产生质心(exemplar)。AP算法在初始时不需要设置聚类中心的个数，这样符合找出合适聚类的需求；而且AP算法允许数据呈非对称，使得数据的适用范围特别大；它对数据的初始值不敏感，省去了进行随机初始值选取的步骤，但是AP算法的复杂度较高，计算耗时较久。

AP算法的流程：

Step1：计算数据间相似度，获取数据的相似度矩阵S。再选取参考度P值(一般取S的中值)

Step2：设置一个最大迭代次数，迭代过程开始后，计算每一次的 R值和A值，根据R(k，k)+A(k，k)来判定是否为聚类中心，当迭代次数超过最大值或者当聚类中心连续多少次迭代不发生改变时终止运算。

Step3：根据求出聚类中心，进行数据分类。分为六大类。

(3)随机森林特征提取

在机器学习中，随机森林主要包括4个部分：随机选择样本、随机选择特征、构建决策树、随机森林投票分类。随机森林中进行特征重要性的评估思想为：判断每个特征在随机森林中的每颗树上做了多大的贡献，然后取个平均值，最后比一比特征之间的贡献大小。其中关于贡献的计算方式可以是基尼指数或袋外数据错误率。

随机森林特征选取的具体步骤：

Step1：对每一颗决策树，选择相应的袋外数据(OOB)计算袋外数据误差，记为errOOB₁，然后随机对袋外数据OOB所有样本的特征X加入噪声干扰，再次计算袋外数据误差，记为errOOB₂，假设森林中有N棵树，则特征X的重要性由式(5.11)给出

计算出每个特征的重要性后，按降序排序。

Step2:确定要剔除的比例，从当前的特征变量中剔除相应比例不重要的指标，得到一个新的特征集

Step3:用新的特征集重复上述过程，直到剩下m个特征

Step4:根据上述过程中得到的各个特征集和特征集对应的袋外误差率，选择袋外误差率最低的特征集。

本申请将以上分成六大类的数据标签合并到原始的354个属性中，对每一特征进行权重排比，只提取了前29的特征与权重值，其中在 354个属性中前29的特征权重占比34％。

最大互信息分析(MIC)

MIC(Maximal Information Coefficient)即最大信息系数，属于 MaximalInformation-based Nonparametric Exploration(MINE)最大的基于信息的非参数性探索，用于衡量两个变量X和Y之间的关联程度，线性或非线性的强度，常用于机器学习的特征选择。根据MIC的性质，其具有普适性、公平性和对称性。

比较分析特征提取的四种方法，本申请选择了随机森林和MIC共同影响RON损失的特征，以及随机森林权重较高和MIC相关性较大的特征。

通过查阅辛烷值的专业背景，以及在“2020年中国研究生数学建模竞赛B题”的材料中，选取了属于原料性质、产品性质、待生吸附剂性质、再生吸附剂特征中的原料硫含量,μg/g、原料辛烷值RON、烯烃,v％、芳烃,v％、产品硫含量,μg/g、产品辛烷值RON、RON损失 7个属性，总共21个特征。

问题三：建模与分析

问题三分析

通过对问题二的求解，用于建模的主要变量已经从预处理后的采集数据中筛选出来，接下来就是对样本数据的信息进行处理和分析，构建辛烷值(RON)损失预测模型，并进行模型的验证与分析。

模型的建立与求解

数据的归一化

本申请利用问题二中选取的28个主要特征进行建模，来预测 RON损失值，建模之前需要进行数据归一化处理，为了保证模型中非线性运算符能正确衡量不同测点的欧氏距离，需要进行数据归一化处理消除测点的量纲不同，使实际值映射到[0,1]区间内，测点X的归一化公式可由式(6.1)表示：

其中Y为单测点X的归一化值，X_min为X的最小值，X_max为X 的最大值。最后需要保留各测点分布参数(X_min和X_max)用于对实际运行状态数据进行归一化。

进行数据进行归一化处理后，本申请对325个样本数据进行训练集和测试集划分，训练集和测试集划的划分比为8：2，选取265个样本进行训练集训练预测和60个样本进行测试集验证预测。通过 LSTM模型和BP神经网络模型的原理了解，这两个模型对于数值型数据进行预测的效果较好。本申请分别利用LSTM模型和BP神经网络模型对325*28维数据量进行模型构建。

LSTM神经网络

长短期记忆模型(long-short term memory)由Hochreiter& Schmidhuber(1997)提出，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM中引入了3 个门，即输入门(input gate)、遗忘门(forget gate)和输出门(output gate),以及与隐藏状态形状相同的记忆细胞，从而记录额外的信息。 LSTM的结构图如图3所示。

LSTM神经网络模型的训练过程如下：

Step1：将神经网络中的权值矩阵W和偏置向量b进行初始化处理，确定输入数据集x；

Step2：输入门用于控制当前输入数据x_t流入记忆单元的多少，即在时间步t时，有多少可以保存到记忆单元c_t，其值可以由式(6.2) 表示：

i_t＝σ(W_xix_t+W_hih_t-1+b_i) (6.2)

Step3：遗忘门控制自连接单元，可以决定要从单元状态中丢弃哪些信息。即上一时刻记忆单元c_t-1中的信息对当前记忆单元c_t的影响。计算公式由式(6.3)和式(6.4)给出。

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f) (6.3)

c_t＝f_t⊙c_t-1+i⊙tanh(W_xcx_t+W_hch_t-1+b_c) (6.4)

Step4:输出门控制记忆单元c_t对当前输出值h_t的影响，即记忆单元中的哪一部分会在时间步t输出。输出门的值由式(6.5)给出， LSTM单元的在t时刻的输出h_t可以通过式(6.6)得到。

o_t＝σ(W_xox_t+W_hoh_t-1+b_o) (6.5)

h_t＝o_t⊙tanh(c_t) (6.6)

本申请使用LSTM模型进行15000次训练后，分别对训练集和测试集进行预测。

为了对该模型进一步有效进行评估，利用MAE、MSE、MAPE 预测评价指标和预测准确性对LSTM模型进行预测有效性分析，如表3所示，发现该模型预测效果较好。

表3 LSTM模型预测评价结果

BP神经网络

BP神经网络，又称反向传播(Backpropagation，BP)网络模型，于1986年由Rumelhant和Hinton等人首次提出，这在神经网络的研究史上是个重大的里程碑。BP神经网络的提出，给非线性系统的研究提供了一个新的解决方法。现如今，BP神经网络已经应用于各个领域。

BP神经网络的原理是逆学习多层网络，虽然该模型的每一层都是通过单向连接的，但是并不影响它双向传输信息的特征。它通过预先设定的算法(通常为梯度下降算法)不断调整各层输入信号的比重以及神经元的阈值，从而反复迭代更新。BP神经网络在应用中主要包括：要对预测前的数据样本进行预处理，包括数据归一化及逆归一化处理等；其次，将数据输入至神经网络中，使其输出结果在训练过程中不断达到收敛。

BP神经网络结构如图4所示，其中x₁，x₂，...，x_n为输入， y₁，...，y_j，...，y_m为输出。设w_ij为输入层至隐含层的网络权值，w_jp为隐含层至输入层的连接权值。BP神经网络模型的本质是非线性函数，当存在n个输入，m个输出时，既表达了从n个输入至m个输出的非线性映射关系。

BP神经网络模型的训练过程如下：

Step1:将神经网络各层之间的参数和权值进行初始化处理，确定输入数据集x和输出数据集y，输入层层数n，隐含层层数q，输出层层数m，确定BP神经网络的学习速率与神经元的激励函数。

Step2:计算BP神经网络模型隐含层输出H_j如式(6.7)所示，根据输入层的数据集与连接权值w_ij得到输出值。

其中，函数f为隐含层激励函数，激励函数的选择取决于模型的构建方式，其中常见的激活函数如下表4所示，在数据样本不是大量规模的情况下，我们不需要考虑过拟合问题，所以BP神经网络模型的激活函数通常选择sigmoid函数。

表4 常见的激活函数

Step3：输入层计算。根据步骤2得到的隐含层输出H_j，将他输入到隐含层与输出层网络中，来计算神经网络模型的预测输出，其计算公式由式(6.8)给出。

Step4：误差反向传播，就是重新调整连接层之间的权值，用BP 神经网络模型的预测输出y_p与真实输出Y作比较，将y_p与Y作差取绝对值，得到网络模型的误差e。以预测误差e为标准，采用函数求导方式，使得输出结果达到收敛为止，最终完成对权值的迭代替换，更新权值的计算公式由式(6.9)给出：

其中，η为学习率e_p＝y_p-Y_p。

Step5:更新隐含层和输出层的阈值，利用上试计算得到的预测误差e_p，来更新替换模型的阈值a和b。计算公式由式(6.10)给出：

根据以上steps来更新调整各参数值，如果已经达到预期误差精度，则可以跳出循环直接输出结果；否则跳到step2重新计算新一轮的结果，直到达到精度要求。

本申请使用BP神经网络模型进行15000次训练后，模型的训练和验证的损失值也无限接近于0，且趋于平稳。

同样为了对该模型进一步有效进行评估，利用MAE、MSE、MAPE预测评价指标和预测准确性对BP神经网络模型进行预测有效性分析，如表5所示，发现该模型预测准确性达到83％。

表5 BP神经网络模型预测评价结果

结论：虽然LSTM模型和BP神经网络模型对汽油辛烷损失值的预测效果都比较好，但对照两者的预测评价指标和预测准确性，BP 神经网络模型的效果相对较好，因此选择BP神经网络模型作为该数据训练构建的模型。LSTM模型主要是针对时间序列的数据，本申请数据的类型虽然有时间点，但不是连续时间序列，对于LSTM模型建模的效果较差于BP神经网络。

本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.一种降低辛烷值损失模型的构建方法，其特征在于，包括以下步骤：

S1：获取原始数据；

S3：对预处理后的数据进行分析和特征提取；

S4：建立模型；

S2过程中，对数据值为0的位点作为缺失数据进行数据的预处理；对缺失数据作删除处理；对缺失数据采用均值替换法处理；异常值的判别方法包括简单统计分析法、拉依达准则和箱型图分析；异常值的处理方法包括删除异常值和将异常值视为缺失值；均值替换法中，缺失数据使用前后两个小时数据的平均值替换。

2.根据权利要求1所述的降低辛烷值损失模型的构建方法，其特征在于，所述异常数据处理具体判定方法和处理方法包括如下步骤：将所有数值由小到大排列并分成四等分；其中，处理三个分割点位置的数值为四分位数，较小四分位数为数据的25％分位点所对应的值Q₁，中位数为数据的50％分位点所对应的值Q₂，较大四分位数为数据的75％分位点所对应的值Q₃；上须的计算公式为Q₃+1.5(Q₃-Q₁)；下须的计算公式为Q1-1.5(Q₃-Q₁)；其中，Q₃-Q₁为四分位差；采用箱线图进行异常数据识别，当变量的数据值大于箱线图的上须或者小于箱线图的下须时，判定该数据点为异常数据；对异常数据进行删除处理。

3.根据权利要求2所述的降低辛烷值损失模型的构建方法，其特征在于，所述异常数据还包括普通异常数据和极端异常数据，其中：数据满足x＞Q₃+1.5(Q₃-Q₁)或者x＜Q1-1.5(Q₃-Q₁)为普通异常数据；

数据满足x＞Q₃+3(Q₃-Q₁)或者x＜Q1-3(Q₃-Q₁)为极端异常数据；

对普通异常数据保留，对极端异常数据作删除处理。

4.根据权利要求3所述的降低辛烷值损失模型的构建方法，其特征在于，对极端异常数据作删除处理后，再使用拉依达准则进行异常值处理，具体包括以下步骤：假定一组检测数据只含有随机误差，对该组检测进行计算处理得到标准偏差，按一定概率确定一个区间，处于(μ-3σ，u+3σ)区间内的样本数据可以视为正常值，反之为异常值；对异常值作删除和替换处理。

5.根据权利要求1所述的降低辛烷值损失模型的构建方法，其特征在于，所述S3过程具体包括以下步骤：对S2处理后的数据进行标准化和归一化处理，并进行相关性分析，然后通过随机森林和最大信息系数进行特征提取。

6.根据权利要求5所述的降低辛烷值损失模型的构建方法，其特征在于，数据标准化处理具体包括以下步骤：

标准化计算具体包括以下步骤：