CN116029434A

CN116029434A - 一种原料油及重馏分油中氢含量的预测方法及其系统

Info

Publication number: CN116029434A
Application number: CN202310005398.7A
Authority: CN
Inventors: 颜学峰; 林茂强; 杨建东; 林宸雨
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-04-28

Abstract

本发明提供了一种原料油及重馏分油中氢含量的预测方法及其系统，仅依靠理化性质的常规化验报告的D86蒸馏曲线和密度计算原料油及重馏分油氢含量的方法。该系统分为四个模块：分别是(1)选出建模特征变量的特征选择模块；(2)将数据标准化为能直接进行建模的数据标准化模块；(3)建立基于栈式自编码器和神经网络的氢含量预测模型的模型训练模块；(4)进行模型结构、参数优化和模型检验的模型评价模块。

Description

一种原料油及重馏分油中氢含量的预测方法及其系统

技术领域

本发明涉及石油加工技术领域，具体涉及一种原料油及重馏分油中氢含量的预测方法及系统。

背景技术

原油和重质馏分油是各种复杂有机化合物的混合物，包括由碳和氢组成的烃类化合物和由碳和氢气以及其他元素组成的非烃类化合物。这些烃类化合物和非烃类化合物的结构和含量决定了重质馏分油及其产品的性质。石油加工过程主要是原油中碳、氢和其他元素的再平衡过程，包括脱碳和加氢，则相应的技术路线为脱碳技术路线和加氢技术路线。

装置氢平衡计算分析可以评价石油加工装置产物分布合理性、氢利用效率等。在实际生产中，有关液化气、干气的成分分析已在工业生产中广泛进行，炼油企业都有运用相关仪器设备进行气态烃的全组成分析，它们的氢含量也可以根据组成计算得到。然而，大多数炼油企业都未有专门配备测定液相油品中氢含量的设备，需要将相关油品样本送至专业机构进行检测，时效性差。此外，相关研究人员提供的液相油品经验测算公式所需要的油品性质参数不全是炼油企业的常规分析项目，若要使用相关经验公式计算液相油品的氢含量，需要专门测定某些特定的理化性能参数，因而经验公式的使用不够便捷。

综上，如何解决现有技术的限制，提供一种适用于原料油及重馏分油中氢含量的便捷计算方法，用于分析评价装置产品分布、操作运行合理性，即为本领域技术人员的研究方向所在。

发明内容

针对现有技术中的缺陷，本发明提出一种原料油及重馏分油中氢含量的预测方法，与现有技术手段相比，本发明仅需通过炼油厂常规理化性质分析数据，就能实现氢含量的精确计算，避免了化学分析反馈周期长、成本高的不足。本发明提出的原料油及重馏分油中氢含量的预测方法和系统可以快速计算原料油及重馏分油的氢含量，起到对生产的启发和指导作用。

本发明的具体技术方案是：一种原料油及重馏分油中氢含量的预测方法，包括如下步骤：

步骤一，基于皮尔逊相关分析的模型特征变量选择方法。通过对样本数据氢含量和常规理化性质进行相关性分析，确定建立机器学习模型的特征变量。所述的常规理化性质包括：密度(x₁)、D86蒸馏曲线的初馏点(x₂)、10％馏出温度(x₃)、20％馏出温度(x₄)、30％馏出温度(x₅)、40％馏出温度(x₆)、50％馏出温度(x₇)、60％馏出温度(x₈)、70％馏出温度(x₉)、80％馏出温度(x₁₀)、90％馏出温度(x₁₁)、终馏点(x₁₂)。根据算出的皮尔逊相关系数的值，并通过设定的临界值λ(λ的取值范围为[0,1])，可以确定建立模型所需的常规理化性质。

下面介绍皮尔逊特征选择的原理：

皮尔逊相关系数是一种衡量特征变量和目标变量之间关系的方法，该方法衡量的是变量之间的线性相关性。变量x_i(第i个常规理化性质)和变量y(设为氢含量分析值)的皮尔逊相关系数就是用x_i,y的协方差除以x_i和y的标准差，可以看成一种剔除了两个变量量纲影响、标准化之后的特殊协方差。协方差是度量各个维度偏离其均值的程度，协方差的值为正值说明两者是正相关的，否则是负相关的。变量x_i,y的皮尔逊相关系数的计算公式如下：

结果的取值区间是[-1,1]，-1表示完全负相关，1表示完全正相关，0表示没有线性相关，绝对值的大小表示相关性的强弱。

若第i个变量被挑选为模型输入变量。

通过使用基于皮尔逊相关性分析的特征选择模块，可以去除与目标变量无关的冗余变量，能有效提高预测模型的预测精度。

步骤二，构建原料油及重馏分油氢含量预测模型样本的数据标准化处理方法，能够将样本数据进行标准化处理后成为适合建立机器学习模型的数据。

数据标准化使用最大最小标准化方法。数据标准化是数据挖掘的一项基础工作，在现实生活中，一个目标变量可以认为是由多个特征变量影响和控制的，而这些特征变量的量纲和数值的量级可能不同，若不进行处理可能会影响数据分析的结果，为了消除指标之间的量纲和取值范围差异而采取的数据处理措施就叫数据标准化。

最大最小标准化也叫离差标准化，是对原始数据的线性变换，将数据值映射到[0,1]之间。转换公式如下：

最大最小标准化保留了原来数据中存在的关系，是消除量纲和数据取值范围影响的最简单方法。

步骤三，构建原料油及重馏分油氢含量模型训练及预测模块的方法，可以利用石化企业提供的常规理化报告(即密度和D86蒸馏曲线)及对应氢含量的样本，建立基于栈式自编码器的机器学习预测模型。

下面介绍栈式自编码器的原理及模型结构：

自编码器(AE)是一种无监督的数据维度压缩和数据特征表达方式，自编码器是一种包含三层神经元的前向神经网络，经过训练后能将输入复制到输出，自编码器由编码器和解码器组成。编码器部分的作用是将原始输入投影到特征空间，可以将编码器用于降维，解码器部分的作用是从特征空间中重构原始输入。自编码器的数学原理如下：

对于一个m维的输入样本x，自编码器的编码器部分f₁(·和解码器部分f₂(·)的表达式如下：

f₁(·):z＝δ₁(W₁x+b₁)

其中，z是编码器部分输出的特征空间的向量，是最终的预测输出。δ₁(·)表示神经网络中的激活函数，包括Sigmoid函数、正切函数、线性整流单元函数等。W₁、W₂是网络层之间的权重，b₁、b₂是对应层的偏置值。

自编码的目标是使输入与重构的输出尽可能相同，即假设训练集输入x包含n个样本，故自编码器的目标函数如下：

其中，表示误差函数，一般使用均方误差，即

由于普通的自编码器只有一层隐藏层作为变换，因此可以通过增加神经网络的层数与神经元的个数来增强模型编码和解码能力，于是引入了栈式自编码器(SAE)的概念。栈式自编码器是将多个自编码器堆叠在一起，前一个自编码器的编码部分的输出作为后续编码器的输入，栈式自编码的神经网络结构通常是关于中间隐藏层对称的。栈式自编码器除结构与自编码不同，其计算的数学原理和目标函数都与自编码器相同。

本发明所提出的一种原料油及重馏分油中氢含量预测方法和系统的模型基于栈式自编码器。首先使用油品挑选出的理化性质以及对应的氢含量组合成的输入空间[x|y]训练一个栈式自编码器，则栈式自编码器的输出中包含所需的氢含量的预测值。由于氢含量是需要预测的目标变量，故在进行实际预测时不能将氢含量作为输入，因此，将栈式自编码器的中间隐藏层输出z作为目标变量，油品的理化性质x为输入空间，训练一个神经网络模型，神经网格模型的结构与栈式自编码器模型的编码器部分结构相似，最后把神经网格模型的输出作为栈式自编码器模型解码器部分的输入，就可以实现利用油品的理化性质预测氢含量。本发明所述的训练模型结构如图2所示。

步骤四，本发明提供一种模型参数寻优和模型评价模块的方法，可以确定栈式自编码器模型和神经网络模型的网络结构以及进行相应的超参数选择，并且可以根据模型在验证集上的表现评价模型的预测能力。

首先对于栈式自编码器的网络结构的确定，采用的是逐层驱动的训练方式，即先使用输入空间训练一个自编码器作为栈式自编码器的第一层，得到对应的神经元个数，然后把第一个自编码器的中间隐藏层输出作为第二个自编码器的输入，训练出第二个自编码器作为栈式自编码器的第二层，按照这个方式继续下去，就可以得到栈式自编码器的网络结构。神经网络模型的网络结构与栈式自编码器的编码器部分网络结构相似。

在确定好栈式自编码器模型和神经网络模型的网络结构后，还需要确定网络的超参数，利用交叉验证和网格搜索策略，确定模型的最优超参数。

为了评价所建立的氢含量预测模型的预测性能，主要采取了以下的模型评价指标：

均方根误差：

平均绝对误差：

决定系数：其中

由上述的技术方案可知，本发明提出的一种原料油及重馏分油中氢含量的预测方法和系统拥有以下优点：能快速预测原料油及重馏分油的氢含量，可以对实际生产起到故障排查和生产指导作用；不依赖复杂的元素分析等技术，仅依靠容易测得的常规理化性质(密度，D86蒸馏曲线)，就可以快速计算油品的氢含量，降低了在实际生产中取样分析的成本。

附图说明

为了更加清晰地说明本发明实施例或现有技术中的技术方案，下面是实施例或现有技术描述中所需要使用的附图，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明原料油及重馏分油中氢含量的预测方法流程图。

图2是训练模型结构图。

图3是本发明皮尔逊相关系数分析图。

图4是建模结果示意图。

具体实施方式

以下内容仅为本申请的实施例，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

实施例：基于某大型石化企业某炼化厂的实施案例

1.基于皮尔逊相关性分析的特征选择模块的实现

实施案例中，厂方提供了各个装置的产品的理化性质常规化验报告以及对应的氢含量(y)样本数据。所述的理化性质常规报告包括：密度(x₁)、D86蒸馏曲线的初馏点(x₂)、10％馏出温度(x₃)、20％馏出温度(x₄)、30％馏出温度(x₅)、40％馏出温度(x₆)、50％馏出温度(x₇)、60％馏出温度(x₈)、70％馏出温度(x₉)、80％馏出温度(x₁₀)、90％馏出温度(x₁₁)、终馏点(x₁₂)。

使用皮尔逊相关分析方法计算各理化性质与氢含量的皮尔逊相关系数值，若某变量与氢含量的皮尔逊相关系数的绝对值大于临界值λ(在实施例中λ＝0.38)，则该变量为挑选出的建模特征变量。绘制相关系数绝对值的柱状图如图3所示，本次特征选择模块挑选出来的特征变量为x₁，x₂，x₃，x₄，x₉，即密度、初馏点、10％馏出温度、20％馏出温度、70％馏出温度。

2.数据标准化模块的实现

在建模之前通常需要对数据进行标准化处理，从而消除量纲的影响。本次建模的输入包括油品的密度和D86蒸馏曲线各馏点的馏出温度，在数值上有较大差别，若不进行标准化处理，可能会导致模型对数值大的变量学习过多，对数值小的变量训练不够充分，进而影响模型性能。本发明的数据标准化模块采用的是最大最小标准化方法，利用数据列中的最大值和最小值进行标准化处理，将数值映射到[0,1]之间。具体做法是在特征选择模块挑选出特征变量并划分好训练集和测试集后，分别在输入的训练集和测试集上进行最大最小标准化处理，从而得到用于建立机器学习模型的数据。

3.基于栈式自编码器的氢含量预测模型训练模块的实现

实施例中的模型包括一个栈式自编码器和一个神经网络模型，栈式自编码器模型的输入和输出都是经过标准化处理的理化性质变量和对应的氢含量组成的训练样本数据。神经网络模型的输入是经过标准化处理的理化性质变量，输出是栈式自编码模型的编码器部分的输出。模型的最终输出是把神经网络模型的输出作为栈式自编码模型解码器部分的输入得到的结果。栈式自编码器模型的初始化网络结构是10-20-3-20-10，其他重要参数的初始化设置如下：random_state＝1,activation＝'relu',max_iter＝2000,solver＝'adam'。神经网络模型的初始化网络结构是10-20，其他重要参数的初始化设置如下：random_state＝1,activation＝'relu',max_iter＝2000,solver＝'adam'。综上，一种原料油及重馏分油中氢含量的预测方法和系统的预测模型训练完成。

4.模型结构参数寻优及评价模块的建立

栈式自编码器的网络结构使用逐层驱动的策略确定，首先使用数据预处理后的理化性质和对应氢含量作为输入，建立一个自编码器模型，以平均绝对误差(MSE)作为目标函数，由此确定栈式自编码器第一层的神经元个数。然后再把第一个自编码器的编码器部分的输出作为第二个自编码器的输入再训练一个自编码由此得到栈式自编码器第二层的神经元个数，依次下去就可以得到栈式自编码器的完整网络结构。神经网络模型的网络结构与栈式自编码器的编码器部分的网络结构相同。至此，本发明提出的一种原料油及重馏分油中氢含量预测方法和系统的训练模型的结构就已经确定好了，根据实际结果，调整后的栈式自编码器网络结构为10-15-3-15-10，神经网络模型网络结构为10-15.

确定好模型网络的结构后，采用交叉验证和网格搜索策略对模型的超参数进行调整，根据实际计算结果，调整后的栈式自编码器模型的参数如下：random_state＝1,activation＝'relu',max_iter＝2000,solver＝'lbfgs'。神经网络模型的参数如下：random_state＝1,activation＝'relu',max_iter＝2000,solver＝'lbfgs'。

实施例中的模型结构参数寻优及评价模块的第二部分是对建立的原料油及重馏分油氢含量预测模型进行评价，评价指标选择平均绝对误差(MSE)和决定系数R²，设定预测模型的评价指标的阈值为MSE≤0.007，R²≥0.9.只要达到要求的模型才会被接受，若模型不能满足要求的评价指标，则返回上一步重新设定模型的网络结构和进行参数寻优，直到得到满足要求的模型。最终的建模结果如图4所示。

综上，应用于该厂的一种原料油及重馏分油中氢含量的预测方法和系统建立完成。

Claims

1.一种原料油及重馏分油中氢含量的预测系统，其特征在于包含以下四个模块：

该系统分为四个模块：

第一模块是特征选择模块；该模块基于皮尔逊相关性分析方法，分析各输入变量与输出变量的相关程度，挑选出与氢含量相关性较大的输入变量作为特征变量；

第二模块是数据标准化模块；该模块能消除输入变量之间量纲不同对模型结果的影响，获得可直接进行机器学习建模的数据，标准化方法使用的是最大最小标准化方法；

第三模块是模型训练模块；模型是基于栈式自编码器模型和神经网络模型的组合模型，将标准化后的特征变量作为模型输入，氢含量作为模型输出，建立基于数据驱动的原料油及重馏分油氢含量预测模型；

第四模块是模型参数寻优和模型评价模块；该模块使用逐层驱动的策略确定模型网络结构，利用交叉验证方法结合网格搜索策略进行参数寻优，同时选用均方根误差、平均绝对误差、决定系数的模型评价方法评价模型的预测能力。

2.根据权利要求1所述的原料油及重馏分油中氢含量的预测系统，其特征在于，所述特征选择模块，选自原料油及重馏分油常规理化性质取密度、D86蒸馏曲线初馏点、10％馏出温度、20％馏出温度、30％馏出温度、40％馏出温度、50％馏出温度、60％馏出温度、70％馏出温度、80％馏出温度、90％馏出温度、终馏点，常规理化性质和对应的氢含量组成一组样本数据；基于收集的样本数据，使用皮尔逊相关分析方法，分析各常规理化性质与氢含量的皮尔逊相关系数值；若某一常规理化性质与氢含量的皮尔逊相关系数绝对值大于临界值λ(λ的取值范围为[0,1])，则挑选为建模的特征变量。

3.根据权利要求1所述的原料油及重馏分油中氢含量的预测系统，其特征在于，所述数据标准化模块，使用最大最小标准化的方法，将挑选的建模特征变量组成的样本数据进行标准化处理，使其成为可直接进行机器学习建模的数据。

4.根据权利要求1所述的原料油及重馏分油中氢含量的预测系统，其特征在于，所述的模型训练模块，建立一个栈式自编码器和一个神经网络模型，将二者组合起来，实现通过油品的常规理化性质预测相应的氢含量。

5.根据权利要求1所述的原料油及重馏分油中氢含量的预测系统，其特征在于，所述的模型训练模块，栈式自编码器和神经网络模型组合方法为：将由特征变量和对应的氢含量组成的样本数据标准化处理后同时作为输入和输出训练一个栈式自编码器；然后将栈式自编码器的中间隐藏层的输出作为目标变量，将栈式自编码器的训练样本数据去掉氢含量后作为输入，训练一个神经网络模型，该神经网络模型的结构与栈式自编码器模型编码器部分结构相似，最后把神经网络模型的输出作为栈式自编码器模型解码器部分的输入，就可以获得氢含量的预测值。

6.根据权利要求5所述的原料油及重馏分油中氢含量的预测系统，其特征在于，模型的预测流程为，将标准化后的建模特征变量组成的样本数据输入到训练好的神经网络模型中，再把神经网络模型的输出输入到训练好的栈式自编码器的解码器部分进行解码，就可以仅通过常规理化性质预测原料油及重馏分油的氢含量。

7.根据权利要求1所述的原料油及重馏分油中氢含量的预测系统，其特征在于，使用逐层驱动的策略，通过逐层训练自编码器得到栈式自编码器模型的网络结构，神经网络模型的网络结构参考栈式自编码器中编码器部分的网络结构；模型的超参数使用交叉验证结合网格搜索策略进行选择。

8.一种原料油及重馏分油中氢含量的预测方法，包括如下步骤：

步骤一，基于皮尔逊相关分析的模型特征变量选择方法；通过对样本数据氢含量和常规理化性质进行相关性分析，确定建立机器学习模型的特征变量；所述的常规理化性质包括：密度(x₁)、D86蒸馏曲线的初馏点(x₂)、10％馏出温度(x₃)、20％馏出温度(x₄)、30％馏出温度(x₅)、40％馏出温度(x₆)、50％馏出温度(x₇)、60％馏出温度(x₈)、70％馏出温度(x₉)、80％馏出温度(x₁₀)、90％馏出温度(x₁₁)、终馏点(x₁₂)；根据算出的皮尔逊相关系数的值，并通过设定的临界值λ(λ的取值范围为[0,1])，确定建立模型所需的常规理化性质；

所述皮尔逊相关系数是一种衡量特征变量和目标变量之间关系的方法，该方法衡量的是变量之间的线性相关性；变量x_i(第i个常规理化性质)和变量y(设为氢含量分析值)的皮尔逊相关系数就是用x_i,y的协方差除以x_i和y的标准差，是剔除了两个变量量纲影响、标准化之后的特殊协方差；协方差是度量各个维度偏离其均值的程度，协方差的值为正值说明两者是正相关的，否则是负相关的；变量x_i,y的皮尔逊相关系数的计算公式如下：

结果的取值区间是[-1,1]，-1表示完全负相关，1表示完全正相关，0表示没有线性相关，绝对值的大小表示相关性的强弱；

若

第i个变量被挑选为模型输入变量；

步骤二，构建原料油及重馏分油氢含量预测模型样本的数据标准化处理方法，将样本数据进行标准化处理后成为适合建立机器学习模型的数据；

数据标准化使用最大最小标准化方法；是对原始数据的线性变换，将数据值映射到[0,1]之间；转换公式如下：

最大最小标准化保留了原来数据中存在的关系；

步骤三，构建原料油及重馏分油氢含量模型训练及预测模块的方法，根据常规理化报告(即密度和D86蒸馏曲线)及对应氢含量的样本，建立基于栈式自编码器的机器学习预测模型；

所述栈式自编码器的原理及模型结构：

对于一个m维的输入样本x，自编码器的编码器部分f₁(·)和解码器部分f₂(·)的表达式如下：

f₁(·):z＝δ₁(W₁x+b₁)

f₂(·):

其中，z是编码器部分输出的特征空间的向量，

是最终的预测输出；δ₁(·)表示神经网络中的激活函数，包括Sigmoid函数、正切函数、线性整流单元函数等；W₁、W₂是网络层之间的权重，b₁、b₂是对应层的偏置值；

自编码的目标是使输入与重构的输出尽可能相同，即

假设训练集输入x包含n个样本，故自编码器的目标函数如下：

其中，

表示误差函数，一般使用均方误差，即

使用油品挑选出的理化性质以及对应的氢含量组合成的输入空间[x|y]训练一个栈式自编码器，则栈式自编码器的输出中包含所需的氢含量的预测值；将栈式自编码器的中间隐藏层输出z作为目标变量，油品的理化性质x为输入空间，训练一个神经网络模型，神经网格模型的结构与栈式自编码器模型的编码器部分结构相似，最后把神经网格模型的输出作为栈式自编码器模型解码器部分的输入，就可以实现利用油品的理化性质预测氢含量；

步骤四，确定栈式自编码器模型和神经网络模型的网络结构以及进行相应的超参数选择，根据模型在验证集上的表现评价模型的预测能力；

对于栈式自编码器的网络结构的确定，采用的是逐层驱动的训练方式，即先使用输入空间训练一个自编码器作为栈式自编码器的第一层，得到对应的神经元个数，然后把第一个自编码器的中间隐藏层输出作为第二个自编码器的输入，训练出第二个自编码器作为栈式自编码器的第二层，按照这个方式继续下去，就可以得到栈式自编码器的网络结构；神经网络模型的网络结构与栈式自编码器的编码器部分网络结构相似；

在确定好栈式自编码器模型和神经网络模型的网络结构后，还需要确定网络的超参数，利用交叉验证和网格搜索策略，确定模型的最优超参数；

评价所建立的氢含量预测模型的预测性能，采取了以下的模型评价指标：

均方根误差：

平均绝对误差：

决定系数：

其中