CN109920489A - 一种基于Lasso-CCF-CNN的加氢裂化模型及建立方法 - Google Patents

一种基于Lasso-CCF-CNN的加氢裂化模型及建立方法 Download PDF

Info

Publication number
CN109920489A
CN109920489A CN201910039551.1A CN201910039551A CN109920489A CN 109920489 A CN109920489 A CN 109920489A CN 201910039551 A CN201910039551 A CN 201910039551A CN 109920489 A CN109920489 A CN 109920489A
Authority
CN
China
Prior art keywords
model
lasso
ccf
cnn
hydrocracked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910039551.1A
Other languages
English (en)
Inventor
卢建刚
孙国庆
陈金水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910039551.1A priority Critical patent/CN109920489A/zh
Publication of CN109920489A publication Critical patent/CN109920489A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明提供一种基于Lasso‑CCF‑CNN的加氢裂化模型及建立方法,包括:利用三倍标准差检验法剔除原始数据中的异常值及使用minmax标准化对数据进行归一化处理以消除不同量纲带来的影响;使用Lasso法建立回归模型筛选出最重要的变量;利用CCF对已筛选出的变量计算其时滞及相关系数;按CCF计算出的相关系数对数据进行重新排列,并且以时滞大小作为时间窗长度,将一个时间窗内的数据当成一组输入数据;用以上处理好的输入数据训练卷积神经网络,加入批标准化层和dropout方法进行优化训练,获得最终的基于Lasso‑CCF‑CNN的加氢裂化模型。本发明所提供的建立方法能够高效地选出最重要的变量,克服变量选择的主观性问题,尽可能多地提取变量间的时序信息,显著地提高模型的精度与鲁棒性。

Description

一种基于Lasso-CCF-CNN的加氢裂化模型及建立方法
技术领域
本发明涉及加氢裂化技术领域,尤其是涉及一种基于Lasso-CCF-CNN的加氢裂化模型及建立方法。
背景技术
加氢裂化装置是石油炼化一体化企业中承上启下的核心装置,也是产品油品质量升级的核心装置,重质馏分油深度加工的重要工艺。氢气是加氢裂化反应过程中的重要原料,而且加氢裂化装置氢气的消耗也是所有加氢装置中最多的,因此对加氢裂化装置建立其动态模型对氢气管网的氢气调度,供氢装置的调节以及产氢装置的调节具有重大的指导意义。
目前,关于加氢裂化装置建模方法的研究,主要的建模方法有:基于机理的集总模型、多元线性回归、BP人工神经网络和循环神经网络等。集总模型的局限性在于其机理分析总是基于简化和假设,使得建立的模型与实际存在一定误差。多元线性回归由多个自变量的最优组合来共同预测因变量,但作为一种线性建模方法,其建立的模型存在一定的非线性误差;BP人工神经是近年来研究最多、发展最快、应用范围最为广泛的一种模型化技术,但是该方法容易过拟合,模型的鲁棒性低;循环神经网络作为一种常用的处理时间序列数据的方法,但是其包含的结构参数数量多,且容易发生梯度消失问题难以训练。上述现有方法的局限性,影响了模型的精度和鲁棒性。
发明内容
本发明的第一个目的在于,针对现有技术中存在的不足,提供一种基于Lasso-CCF-CNN的加氢裂化模型的建立方法,以提高加氢裂化装置内新氢流量预测建模的精度和鲁棒性。
为此,本发明的上述目的通过以下技术方案来实现:
一种基于Lasso-CCF-CNN的加氢裂化模型的建立方法,所述基于Lasso-CCF-CNN的加氢裂化模型的建立方法包括:利用三倍标准差检验法剔除原始数据中的异常值及使用minmax标准化对数据进行归一化处理以消除不同量纲带来的影响;使用Lasso法建立回归模型筛选出最重要的变量;利用CCF对已筛选出的变量计算其时滞及相关系数;按CCF计算出的相关系数对数据进行重新排列,并且以时滞大小作为时间窗长度,将一个时间窗内的数据当成一组输入数据;用以上处理好的输入数据训练卷积神经网络,加入批标准化层和dropout方法进行优化训练,获得最终的基于Lasso-CCF-CNN的加氢裂化模型,具体包括以下步骤:
步骤(1),对于样本个数为m、自变量个数为s、响应变量个数为1的样本集,将样本集表示为{输入矩阵X(m×s),输出矩阵Y(m×1)};定义全部变量集合为{x_1,x_2,…,x_s};定义λ为Lasso法的惩罚系数;设定相关系数的阈值为H,设定时滞的修正系数为k,设定CNN模型的卷积核尺寸为n×n,设定dropout的概率为p,设定CNN模型迭代训练次数为T,设定建模过程中批处理样本数为K;
步骤(2),对步骤(1)所述的样本集进行计算得到其均值为μ及标准差为σ,然后剔除样本集中所有不在区间[μ-3σ,μ+3σ]的样本;同时,将样本集划分为训练集及测试集;
步骤(3),基于步骤(2)中划分的训练集和测试集选用min-max标准化的方法分别对其进行归一化处理;
步骤(4),对归一化后的训练集建立Lasso回归模型,并且使用10折交叉验证的方法来选出模型最小均方根误差对应的最优惩罚系数λbest
步骤(5),以找出的最优惩罚系数λbest建立的Lasso回归模型作为基础,通过回归模型的系数来判断每个变量对建立模型的重要程度,系数为0的变量对模型的回归预测几乎没有作用,将这些变量全部剔除,得到最终保留的变量集合{x_1,x_2,…,x_q},其中:q≤s;
步骤(6),对最终筛选出的变量集合{x_1,x_2,…,x_q}进行CCF计算,得到每个变量相对于响应变量Y的时滞及相关系数,找出相关系数大于设定的相关系数阈值H的变量,并以这些变量的最大时滞作为整体的时滞,再乘以修正系数k得到最终时滞t;
步骤(7),选定步骤(6)计算得到的时滞t作为时间窗长度WL,考虑利用卷积神经网络算法对局部特征提取的特性,将时间窗长度WL范围内的所有样本进行补零处理作为一个输入样本,得到新样本集{X_new,Y_new};
步骤(8),将步骤(7)中所得新输入矩阵X_new作为输入变量,对应的输出矩阵Y_new作为目标变量,选定卷积核尺寸,确立网络结构,在网络中的所有卷积层后加入批标准化层,最后在全连接层使用dropout方法;
步骤(9),将K个样本作为模型批处理的训练样本进行网络训练,迭代训练共T次后得到最终的基于Lasso-CCF-CNN的加氢裂化模型。
在采用上述技术方案的同时,本发明还可以采用或者组合采用以下进一步的技术方案:
优选地,所述步骤(6)中的相关系数阈值H的取值范围优选0.1到0.5之间。
优选地,所述步骤(6)中的修正系数k的取值范围优选1.1到1.3之间。
优选地,所述步骤(8)中的CNN的卷积核尺寸n×n的取值范围优选2×2到5×5之间。
优选地,所述步骤(9)中的批处理样本数K取值范围优选100到200之间。
优选地,所述步骤(9)中的迭代训练次数T取值范围优选500到2000之间。
本发明的第二个目的在于,针对现有技术中存在的不足,提供提供一种基于Lasso-CCF-CNN的加氢裂化模型,以提高加氢裂化装置内新氢流量预测建模的精度和鲁棒性。
为此,本发明的上述目的通过以下技术方案来实现:
一种基于Lasso-CCF-CNN的加氢裂化模型,所述基于Lasso-CCF-CNN的加氢裂化模型由前文所述的基于Lasso-CCF-CNN的加氢裂化模型的建立方法所建立。
本发明提供一种基于Lasso-CCF-CNN的加氢裂化模型及建立方法,具有如下优点:
(1)采用三倍标准差甄别法来剔除异常值样本,减小噪声对所建立的基于Lasso-CCF-CNN的加氢裂化模型的影响;
(2)选择minmax标准化对数据进行归一化处理,能够消除不同量纲带来的影响;
(3)采用Lasso法来筛选变量,能够最大化地甄别出重要变量;
(4)对经过Lasso法所筛选出的变量进行CCF计算,能够实现时序匹配,减少因时滞所造成的模型误差;
(5)选择卷积神经网络算法作为建模方法,能够最大化地利用变量间隐含的时序信息;
(6)本发明所提供的建立方法能够高效地选出最重要的变量,克服变量选择的主观性问题,尽可能多地提取变量间的时序信息,显著地提高模型的精度与鲁棒性。
附图说明
图1为加氢裂化装置内Lasso-CCF-CNN的加氢裂化模型以新氢流量作为输入的预测值与真实值的比较图。
图2为加氢裂化装置内Lasso-CCF-CNN的加氢裂化模型以新氢流量作为输入的预测误差百分比图。
具体实施方式
参照附图和具体实施例对本发明作进一步详细地描述。
在本实施例中,采用加氢裂化装置的生产数据样本来验证本发明。所采集的生产数据样本包含1297条测量数据,采样间隔为10分钟一次,包含50个关联变量及要预测的新氢流量。
针对加氢裂化装置的生产数据样本,实施本发明提出的基于Lasso-CCF-CNN的加氢裂化模型的建立方法,包括如下步骤:
步骤(1),对于样本个数为1297、变量个数为50、响应变量个数为1的加氢裂化装置生产数据样本集,将样本集表示为{输入矩阵X(1297×50),输出矩阵Y(1297×1)};定义全部变量集合为{x_1,x_2,…,x_50};定义Lasso法的惩罚系数为λ;相关系数的阈值H决定着选择的变量与目标变量间的相关性大小,其取值范围为0.2到0.5之间,在本实施例中设定H=0.2;时滞的修正系数k取值范围优选在1到1.5之间,k太大则可能导致时滞估计的修正过度,太小则可能无法补全时滞估计的遗漏信息,在本实施例中设定k=1.1;CNN模型的卷积核尺寸决定着CNN对于局部信息的采集窗口大小,尺寸过大则参数数目较多,提取的特征更为抽象,尺寸过小则需要更多的非线性层,在本实施例中设定n×n=2×2;dropout的概率p取值范围在0到1之间,它决定了神经元节点消失的比例,在本实施例中设定p=0.5;此外,在本实施例中,设定模型迭代训练次数T=1000,设定建模过程中批处理样本数K=100;
步骤(2),对步骤(1)所述的样本集进行计算得到其均值为μ及标准差为σ,然后剔除样本集中所有不在区间[μ-3σ,μ+3σ]的样本;同时,将原始的加氢裂化装置的生产数据样本集划分为包含900条训练集样本及397条测试集样本;
步骤(3),基于步骤(2)中划分的训练集和测试集选用min-max标准化的方法分别对其进行归一化处理,该方法的数学表达式如下;
其中x*表示标准化后的样本数据,max表示样本数据中的最大值,min表示样本数据中的最小值。
步骤(4),对归一化后的训练集建立Lasso回归模型,Lasso回归模型的具体定义如下:
其中xij是标准化后的观察数据中的第i个样本的第j个特征向量值,yi表示的是第个样本的待预测响应变量的真实值,βj表示第j个特征向量的回归系数,λ表示的是惩罚系数。
接下来使用10折交叉验证的方法来选出模型最小均方根误差对应的最优惩罚系数λbest=0.486;
步骤(5),以找出的最优惩罚系数λbest建立的Lasso回归模型作为基础,通过回归模型的系数来判断每个变量对建立模型的重要程度,系数为0的变量对模型的回归预测几乎没有作用,将这些变量全部剔除,得到最终保留的变量集合{x_1,x_2,…,x_6};
步骤(6),对最终筛选出的变量集合{x_1,x_2,…,x_6}进行CCF计算,CCF的数学表达式如下:
式中,表示的是时滞为k时x和y之间的相关系数,x和y分别是具有n个观测值的特征变量和响应变量,μx和μy为其对应的期望,σx和σy为其对应方差。
然后可以得到每个变量对应相应变量Y的时滞大小及相关系数,找出相关系数大于设定的相关系数阈值H的变量,并以这些变量的最大时滞为23作为整体的时滞,再乘以修正系数k得到最终时滞t=25;
步骤(7),选定步骤(6)计算得到的时滞t作为时间窗长度WL,考虑利用卷积神经网络对局部特征提取的特性,将时间窗长度WL范围内的所有样本进行补零处理作为一个输入样本,得到新样本集{X_new,Y_new};
步骤(8),将步骤(7)中所得新输入矩阵X_new作为输入变量,对应的输出矩阵Y_new作为目标变量,选定卷积核尺寸,确立网络结构,在网络中的所有卷积层后加入批标准化层,最后在全连接层使用dropout方法。
步骤(9),将100个样本作为模型批处理的训练样本进行网络训练,迭代训练共1000次后得到最终的基于Lasso-CCF-CNN的加氢裂化模型。
结果验证:采用上述基于Lasso-CCF-CNN的加氢裂化模型建立新氢流量预测模型。图1为预测模型的预测值与真实值关系,图2为预测模型的误差百分比图。从图中及下面计算的评价指标可知Lasso-CCF-CNN模型对新氢流量的预测精度较高,鲁棒性较佳。
表1中比较了本发明所提供的模型与多元线性回归模型(MLR)、BP人工神经网络模型(BPNN)、循环神经网络模型(RNN)等常用模型,结果表明:本发明所提供的模型采用了较少的变量个数,并获得了均方根误差(RMSE)和平均绝对百分比误差(MAPE)均为最小的理想结果。
表1的结果充分说明:本发明所提供的模型能够高效地选出最重要的变量,提取变量间的时序信息,显著地提高模型的精度与鲁棒性。
表1
本发明在上述具体实施方式中所涉及的装置为加氢裂化装置,仅为优选实施例,具体实施时,本发明所提供的基于Lasso-CCF-CNN的加氢裂化模型也可以用于化工生产、经济市场等时序数据的预测建模。
上述具体实施方式用来解释说明本发明,仅为本发明的优选实施例而已,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改、等同替换、改进等,都落入本发明的保护范围。

Claims (7)

1.一种基于Lasso-CCF-CNN的加氢裂化模型的建立方法,其特征在于,所述基于Lasso-CCF-CNN的加氢裂化模型的建立方法包括:利用三倍标准差检验法剔除原始数据中的异常值及使用minmax标准化对数据进行归一化处理以消除不同量纲带来的影响;使用Lasso法建立回归模型筛选出最重要的变量;利用CCF对已筛选出的变量计算其时滞及相关系数;按CCF计算出的相关系数对数据进行重新排列,并且以时滞大小作为时间窗长度,将一个时间窗内的数据当成一组输入数据;用以上处理好的输入数据训练卷积神经网络,加入批标准化层和dropout方法进行优化训练,获得最终的基于Lasso-CCF-CNN的加氢裂化模型,具体包括以下步骤:
步骤(1),对于样本个数为m、自变量个数为s、响应变量个数为1的样本集,将样本集表示为{输入矩阵X(m×s),输出矩阵Y(m×1)};定义全部变量集合为{x_1,x_2,…,x_s};定义λ为Lasso法的惩罚系数;设定相关系数的阈值为H,设定时滞的修正系数为k,设定CNN模型的卷积核尺寸为n×n,设定dropout的概率为p,设定CNN模型迭代训练次数为T,设定建模过程中批处理样本数为K;
步骤(2),对步骤(1)所述的样本集进行计算得到其均值为μ及标准差为σ,然后剔除样本集中所有不在区间[μ-3σ,μ+3σ]的样本;同时,将样本集划分为训练集及测试集;
步骤(3),基于步骤(2)中划分的训练集和测试集选用min-max标准化的方法分别对其进行归一化处理;
步骤(4),对归一化后的训练集建立Lasso回归模型,并且使用10折交叉验证的方法来选出模型最小均方根误差对应的最优惩罚系数λbest
步骤(5),以找出的最优惩罚系数λbest建立的Lasso回归模型作为基础,通过回归模型的系数来判断每个变量对建立模型的重要程度,系数为0的变量对模型的回归预测几乎没有作用,将这些变量全部剔除,得到最终保留的变量集合{x_1,x_2,…,x_q},其中:q≤s;
步骤(6),对最终筛选出的变量集合{x_1,x_2,…,x_q}进行CCF计算,得到每个变量相对于响应变量Y的时滞及相关系数,找出相关系数大于设定的相关系数阈值H的变量,并以这些变量的最大时滞作为整体的时滞,再乘以修正系数k得到最终时滞t;
步骤(7),选定步骤(6)计算得到的时滞t作为时间窗长度WL,考虑利用卷积神经网络算法对局部特征提取的特性,将时间窗长度WL范围内的所有样本进行补零处理作为一个输入样本,得到新样本集{X_new,Y_new};
步骤(8),将步骤(7)中所得新输入矩阵X_new作为输入变量,对应的输出矩阵Y_new作为目标变量,选定卷积核尺寸,确立网络结构,在网络中的所有卷积层后加入批标准化层,最后在全连接层使用dropout方法;
步骤(9),将K个样本作为模型批处理的训练样本进行网络训练,迭代训练共T次后得到最终的基于Lasso-CCF-CNN的加氢裂化模型。
2.根据权利要求1所述的基于Lasso-CCF-CNN的加氢裂化模型的建立方法,其特征在于,所述步骤(6)中的相关系数阈值H的取值范围优选0.1到0.5之间。
3.根据权利要求1所述的基于Lasso-CCF-CNN的加氢裂化模型的建立方法,其特征在于,所述步骤(6)中的修正系数k的取值范围优选1.1到1.3之间。
4.根据权利要求1所述的基于Lasso-CCF-CNN的加氢裂化模型的建立方法,其特征在于,所述步骤(8)中的CNN的卷积核尺寸n×n的取值范围优选2×2到5×5之间。
5.根据权利要求1所述的基于Lasso-CCF-CNN的加氢裂化模型的建立方法,其特征在于,所述步骤(9)中的批处理样本数K取值范围优选100到200之间。
6.根据权利要求1所述的基于Lasso-CCF-CNN的加氢裂化模型的建立方法,其特征在于,所述步骤(9)中的迭代训练次数T取值范围优选500到2000之间。
7.一种基于Lasso-CCF-CNN的加氢裂化模型,其特征在于,所述基于Lasso-CCF-CNN的加氢裂化模型由权利要求1-6中任意一项所述的基于Lasso-CCF-CNN的加氢裂化模型的建立方法所建立。
CN201910039551.1A 2019-01-16 2019-01-16 一种基于Lasso-CCF-CNN的加氢裂化模型及建立方法 Pending CN109920489A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910039551.1A CN109920489A (zh) 2019-01-16 2019-01-16 一种基于Lasso-CCF-CNN的加氢裂化模型及建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910039551.1A CN109920489A (zh) 2019-01-16 2019-01-16 一种基于Lasso-CCF-CNN的加氢裂化模型及建立方法

Publications (1)

Publication Number Publication Date
CN109920489A true CN109920489A (zh) 2019-06-21

Family

ID=66960369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910039551.1A Pending CN109920489A (zh) 2019-01-16 2019-01-16 一种基于Lasso-CCF-CNN的加氢裂化模型及建立方法

Country Status (1)

Country Link
CN (1) CN109920489A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027193A (zh) * 2019-12-02 2020-04-17 浙江工业大学 一种基于回归模型的短期水位预测方法
CN111429980A (zh) * 2020-04-14 2020-07-17 北京迈高材云科技有限公司 一种材料晶体结构特征的自动化获取方法
CN112596391A (zh) * 2020-12-24 2021-04-02 中国兵器装备集团自动化研究所 一种基于数据驱动的深度神经网络大时滞系统动态建模方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027193A (zh) * 2019-12-02 2020-04-17 浙江工业大学 一种基于回归模型的短期水位预测方法
CN111429980A (zh) * 2020-04-14 2020-07-17 北京迈高材云科技有限公司 一种材料晶体结构特征的自动化获取方法
CN112596391A (zh) * 2020-12-24 2021-04-02 中国兵器装备集团自动化研究所 一种基于数据驱动的深度神经网络大时滞系统动态建模方法
CN112596391B (zh) * 2020-12-24 2022-08-02 中国兵器装备集团自动化研究所 一种基于数据驱动的深度神经网络大时滞系统动态建模方法

Similar Documents

Publication Publication Date Title
CN110070713B (zh) 一种基于双向嵌套lstm神经网络的交通流预测方法
CN112101480B (zh) 一种多变量聚类与融合的时间序列组合预测方法
CN109242140A (zh) 一种基于LSTM_Attention网络的交通流预测方法
CN110543616B (zh) 基于工业大数据的smt锡膏印刷体积预测方法
CN108399248A (zh) 一种时序数据预测方法、装置及设备
CN106886846A (zh) 一种基于长短期记忆循环神经网络的银行网点备付金预测方法
CN107832897A (zh) 一种基于深度学习的股票市场预测方法
CN110739031B (zh) 一种冶金烧结过程的有监督预测方法、装置及存储介质
CN109920489A (zh) 一种基于Lasso-CCF-CNN的加氢裂化模型及建立方法
CN112232561B (zh) 基于约束并行lstm分位数回归的电力负荷概率预测方法
CN113901977A (zh) 一种基于深度学习的电力用户窃电识别方法及系统
CN107463993A (zh) 基于互信息‑核主成分分析‑Elman网络的中长期径流预报方法
CN113393057A (zh) 一种基于深度融合机器学习模型的小麦产量集成预测方法
CN105868164A (zh) 一种基于有监督的线性动态系统模型的软测量建模方法
CN111191823A (zh) 一种基于深度学习的生产物流预测方法
CN114015825A (zh) 基于注意力机制的高炉热负荷异常状态监测方法
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及系统
CN114548494B (zh) 一种可视化造价数据预测智能分析系统
CN115482877A (zh) 一种基于时序图网络的发酵过程软测量建模方法
CN115096357A (zh) 一种基于ceemdan-pca-lstm的室内环境质量预测方法
CN105354644A (zh) 一种基于集成经验模态分解和1-范数支持向量机分位数回归的金融时间序列预测方法
CN117592856A (zh) 基于石化企业产出量预测的算法流程
CN116826745A (zh) 一种电力系统背景下的分层分区短期负荷预测方法及系统
CN109886316B (zh) 基于云系相似度权重分配的变压器状态参量组合预测方法
Müller et al. Prediction of the load-displacement and local buckling behavior of hollow structural sections using Deep Neural Networks (DNN)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190621

RJ01 Rejection of invention patent application after publication