CN112989635B - 基于自编码器多样性生成机制的集成学习软测量建模方法 - Google Patents

基于自编码器多样性生成机制的集成学习软测量建模方法 Download PDF

Info

Publication number
CN112989635B
CN112989635B CN202110436544.2A CN202110436544A CN112989635B CN 112989635 B CN112989635 B CN 112989635B CN 202110436544 A CN202110436544 A CN 202110436544A CN 112989635 B CN112989635 B CN 112989635B
Authority
CN
China
Prior art keywords
model
encoder
self
gpr
diversity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110436544.2A
Other languages
English (en)
Other versions
CN112989635A (zh
Inventor
金怀平
王建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110436544.2A priority Critical patent/CN112989635B/zh
Publication of CN112989635A publication Critical patent/CN112989635A/zh
Application granted granted Critical
Publication of CN112989635B publication Critical patent/CN112989635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于自编码器多样性生成机制的集成学习软测量建模方法。本发明针对流程工业过程数据的辅助变量与主导变量之间的存在的非线性特性、难以提取样本的隐藏结构表达以及常规软测量方法采用单一模型导致模型准确性不高且泛化性难以保证的问题,本发明以多样性的自编码器作为关键特征提取技术,对工业过程建模数据进行预处理,以获得原始数据的隐变量信息;并采用高斯过程回归(GPR)作为子模型,构建多样性的子模型;然后基于阈值筛选和进化优化算法的双重修剪技术,选出准确性高、多样性充分的子模型;最终引入Stacking集成策略对子模型进行融合,实现高性能集成模型的构建和关键质量参数的实时预测。

Description

基于自编码器多样性生成机制的集成学习软测量建模方法
技术领域
本发明涉及工业过程控制领域,尤其涉及基于自编码器多样性生成机制的集成学习软测量建模方法。
背景技术
随着各种先进的监测、控制和优化等快速发展和成熟的技术被化工、石油、炼钢、医药、有色金属加工等过程工业领域广泛采用,保证了生产的正常运行、优化了资源利用效率、减轻了环境污染压力。然而,受限于缺乏可用的硬传感器、传感器可靠性低、测量延迟大、以及造价成本和购买成本昂贵等原因,产品质量的在线测量往往是困难的。因此,软测量技术作为物理分析仪的有效替代品,通过建立主导变量与辅助变量的过程变量之间的数学模型,可以提供高性能的软测量模型实现对主导变量的预测估计。
此外,近20年来,随着深度学习的高速发展,深度学习逐渐被引入到了软测量领域中。在过程工业应用中,由于特性监测和数据采集时采用的技术手段存在的局限性,造成数据样本的辅助变量和关键质量变量之间存在很强的非线性问题。因此,鉴于自编码深度网络能够提取原始输入数据非线性特征的隐层特征,自编码器将成为解决上述问题的关键技术手段。与此同时,广泛存在于流程工业当中的非线性、多时段、多模式、时变性、动态特性的特点,采用常规的单一建模方法会导致模型预测性能不佳,而构建符合多样性条件的子模型并引入合适的集成策略成为了有效可行的方案。本方法通过构建满足多样性条件的自编码器,获取原始数据的隐层特征,并构建一组基模型,最终采用集成策略进行模型融合,以降低问题的复杂度,提高模型鲁棒性、可解释性和预测精度。
然而,构建多样性自编码器的过程中,鉴于网络训练过程中缺乏有标签信息的反馈监督,不可避免的会造成特征信息冗余或缺失。因此,所构建基模型的预测性能恐会恶化,为了规避这些问题,本发明通过预先设定验证阈值和引入一种自适应、随机、全局搜索的启发式算法如进化多目标优化算法,为选择出一组满足多样性准则和预测精度高的基模型提供了充足的技术支持。
发明内容
本发明旨在解决在软测量建模在过程工业应用中,辅助变量和关键质量变量之间存在的非线性,数据样本的隐层特征难以提取,以及采用单一模型导致预测性能不佳等问题,提出了一种基于自编码器多样性生成机制的集成学习软测量建模方法。该方法能充分利用原始样本的有益信息,建立集成软测量模型,有效改善上述问题,实现工业过程中关键质量变量的在线估计。
为解决上述建模过程中的技术问题,本发明的技术方案如下:一种基于自编码器多样性生成机制的集成学习软测量建模方法,主要步骤如下:
步骤(1)利用集散控制系统或离线检测的方法,收集工业过程数据,并确定关键质量变量y和辅助变量x,x=[x1,x2,...,xd]∈Rd,xd代表样本的第d个变量,x为d个辅助变量构成的向量;
步骤(2)基于Z-Score归一化方法,对数据集进行归一化预处理,得到均值为0,方差为1的数据集,并划分为训练集Dtrn、测试集Dtest和验证集Dval
步骤(3)构建多样性的自编码器(Auto-encoder,AE),通过设置不同层次结构和参数的组合神经网络,构建一组符合多样性条件的自编码深度网络,提取原始数据的隐层特征;
步骤(4)针对工业过程中呈现出的非线性和时变性,选择高斯过程回归(GaussianProcess Regression,GPR)模型作为基模型,结合(3)中生成的多样性自编码器构成AE-GPR子模型;
步骤(5)利用验证样本,验证步骤(4)中生成的AE-GPR子模型的性能,基于新生成AE-GPR子模型较之在GPR模型上的验证性能不能恶化的假设,设定防止模型恶化阈值,选出一组兼顾模型复杂度和预测精度的基模型;
步骤(6)采用多目标进化优化算法,对步骤(5)中验证集Dval的预测结果进行优化估计,即对第一次集成修剪选择的子模型进行二次选择,最终获得Sselect个多样性充分、预测精度高的AE-GPR基模型;
步骤(7)采用集成策略将获得的Sselect个基模型进行融合,最终实现对工业过程中关键质量变量的进行监测。
进一步地,上述步骤(3)自编码器多样性生成机制的实现步骤为:
通过设置隐层节点数、稀疏性参数、稀疏惩罚项以及堆栈的自编码器个数等不同的参数组合,生成多样性的自编码器。
1)其中,自编码器(AE)是一种无监督的单隐层神经网络,它的输出层设为与输入层神经网络节点相等。AE的目的是在输出层尽可能准确地重建原始输入。假设x=[x1,x2,...,xd]T∈Rd和h=[x1,x2,...,xh]T∈Rh分别表示AE的原始输入和隐层,d和h分别为输入和输出的维度;
Figure BDA0003033302920000021
是输出层的重构输入变量向量;利用编码器,x通过非线性激活函数f转换为隐藏特征h:
h=f(Wx+b) (1)
其中,W∈Rh×d和b∈Rh分别为输入层和隐含层间权重矩阵和偏置项,然后,输入向量
Figure BDA0003033302920000031
通过解码器的输出层对隐变量向量h进行重构获得:
Figure BDA0003033302920000032
Figure BDA0003033302920000033
Figure BDA0003033302920000034
分别为隐藏层和输出层之间的权重矩阵和偏置向量,给定N个训练样本,有样本矩阵X={x1,x2,...,xN},对应的隐层特征矩阵是H∈{h1,h2,...,hN},输入数据重构矩阵是
Figure BDA0003033302920000035
对于第i个样本xi=[x1,x2,...,xd]T∈Rd,通过反向传递算法优化最小化其重构误差,误差函数如下:
Figure BDA0003033302920000036
2)堆栈自编码器(StackAuto-encoder,SAE),是由AE堆叠的深度学习网络。本发明采用的是两个AE进行叠加,第一个AE获得的隐层特征将作为第二个自编码器的输入,第一层自编码器的实现方式同上1)。假设h1=[x1,x2,...,xh1]T∈Rh1为样本通过第一个自编码器的提取的隐变量,对于第二个自编码器,以h1作为输入向量通过非线性激活函数f转换为隐藏特征h2=[x1,x2,...,xh2]T∈Rh2,根据式(1)有:
h2=f(W2f(W1x+b1)+b2) (4)
其中,W1∈Rh1×d和b1∈Rd分别为第一个自编码器输入层和隐含层间的权重矩阵和偏置项,W2∈Rh2×h1和b2∈Rh1分别为第二个自编码器输入层和隐含层间的权重矩阵和偏置项。然后,输入向量
Figure BDA0003033302920000037
通过解码器的输出层对隐变量向量h2进行重构获得:
Figure BDA0003033302920000038
Figure BDA0003033302920000039
Figure BDA00030333029200000310
分别为第二个自编码器的隐藏层和输出层之间的权重矩阵和偏置向量。给定N个训练样本,有样本矩阵X={x1,x2,...,xN},对应第一层的隐层特征矩阵为H1={h1,1,h1,2,...,h1,N},第二层的隐层特征矩阵为H2={h2,1,h2,2,...,h2,N},输入数据的重构矩阵是
Figure BDA00030333029200000311
对于第i个样本xi=[x1,x2,...,xd]T∈Rd,SAE通过反向传递算法优化最小化其重构误差,误差函数如下:
Figure BDA00030333029200000312
根据以上1)、2)两个步骤,将利用生成的自编码器以提取原始数据的多组隐变量数据集。
进一步地,上述步骤(4)中选择高斯过程回归模型GPR作为基模型并构建AE-GPR基模型的实现步骤为:
假设有原始数据集为
Figure BDA0003033302920000041
经过步骤(3)的多样性自编码器数据预处理,将获得M个隐变量数据集,并由每个数据集训练和构建M个AE-GPR子模型,
Figure BDA0003033302920000042
Figure BDA0003033302920000043
Dm表示训练第m个AE-GPR模型的隐变量数据集,N表示数据集的样本个数,xm,i表示第m个训练集的第i个样本,yi为对应的真实标签值,对于数据集Dm中的每个样本xm,i在高斯过程回归模型中的预测输出
Figure BDA0003033302920000044
服从高斯分布:
Figure BDA0003033302920000045
式(7)中,E(.)和Var(.)分别表示均值和方差算子;
所述高斯过程回归模型可描述为:
Figure BDA0003033302920000046
式(8)中,km,i=[C(xi,xm,1),…,C(xi,xm,N))]T,C是一个由X中每个样本彼此之前作协方差组成的NⅹN阶对称正定矩阵,
Figure BDA0003033302920000047
Figure BDA0003033302920000048
分别为第m个AE-GPR模型的预测均值与方差。
进一步地,上述步骤(5)根据验证集样本Dval通过一级集成模型修剪获得预测性能无恶化的基模型的实现步骤为:
1)首先,设置模型提升阈值Rimprove=0,基于新生成学习器的验证性能较之在高斯过程回归模型上的验证性能不能恶化,否则其在测试样本上预测性能也较差的假设;
2)其次,利用原始训练数据集Dtrn训练GPR基模型,验证集Dval进行验证,Dval={Xval,yval},yval对应的预测结果为
Figure BDA0003033302920000049
验证误差为RMSEval
Figure BDA00030333029200000410
Figure BDA00030333029200000411
为第i个验证样本的预测值,yi为真实值;
3)再次,根据上述步骤(3)、(4)构建的多样性AE-GPR基模型,利用训练集和验证集训练和验证每个模型,获得验证误差
Figure BDA00030333029200000412
Figure BDA00030333029200000413
4)根据2)、3)计算模型的性能提升率如下;
Figure BDA00030333029200000414
5)对于第m个AE-GPR基模型,根据模型性能提升率,如果
Figure BDA00030333029200000415
这表示该模型被选中,则保留模型,经过一级集成模型修剪,将获得S个预测性能较高的集成基模型。
进一步地,上述步骤(6)进行二级集成修剪的实现步骤为:
1)基于一级集成修剪的基础上,采用多目标进化优化算法(遗传算法),据步骤(5)获得的验证集的预测输出
Figure BDA0003033302920000051
即将N个预测输出作为待优化的决策变量,令
Figure BDA0003033302920000052
目标优化函数f1及优化约束函数如下:
Figure BDA0003033302920000053
Figure BDA0003033302920000054
式(12)中
Figure BDA0003033302920000055
为待优化的精度目标函数,yi为待优化的决策变量,lb和ub分别为变量y的约束下限和约束上限。精度目标函数定义为基于验证数据的平均预测误差:
Figure BDA0003033302920000056
其中,RNSEs,val为验证样本集在第s个模型上的预测均方根误差;
2)目标函数f2定义为基于验证数据的任意一个模型与任意一个模型相关系数和的平均值,即可将多样性目标函数f2的定义为如下:
Figure BDA0003033302920000057
其中,Sselect为最终选择的基模型数,(14)式中第α个AE-GPR模型和第β个AE-GPR模型的相关系数为r(eα,eβ):
Figure BDA0003033302920000058
任意两个误差之间的协方差由Cov(*,*)、方差由Var(*)表示。所以目标函数设定为(14)、(15)式。根据目标函数最小化,模型精度和多样性最高,可将优化问题转化为如下:
min[f1,f2]=min[RMSEavg,val,ravg,val] (16)
3)选择合适的种群数、迭代次数等参数,进行迭代、优化、选择、并解码Pareto最优解集,获得二次修剪的Sselect个AE-GPR集成基模型。
与现有技术相比,本发明的有益效果是:本发明所提出的基于自编码器多样性生成机制的集成学习软测量建模方法,考虑了难以获取与关键质量相关的数据的深层特征表示即隐变量以及数据采样过程造成的非线性问题,引入自编码器多样性生成机制提取隐变量,结合传统的建模方法作为基模型,并设置模型提升率阈值和引入进化优化算法对基模型组进行双重集成修剪,既有效保证了基模型的预测性能和多样性也降级了集成模型复杂度。最终构建的高性能集成模型为过程检测提供了有效地途径。
附图说明
图1是本发明中基于自编码器多样性生成机制的集成学习软测量建模方法的流程图;
图2是传统监督高斯过程回归方法的预测值与真实值的曲线图;
图3是本发明中基于自编码器多样性生成机制的集成学习软测量建模方法在脱丁烷塔工业过程应用案例中预测值与真实值的曲线图。
具体实施方式
下面将依附技术方案流程图对本发明的实施例作详细说明,且本发明的保护范围不局限于本方案涉及案例。
实施例1
第一步:利用集散控制系统或离线检测的方法,收集工业过程数据,并确定关键质量变量y和辅助变量x,x=[x1,x2,…,xd]∈Rd,xd代表样本的第d个特征,x的维度为d维。
第二步:基于Z-Score归一化方法,对数据集进行归一化预处理,得到均值为0,方差为1的数据集,并划分为训练集Dtrn、测试集Dtest和验证集Dval
第三步:根据设置不同的隐层节点数、稀疏性参数、稀疏惩罚项以及堆栈的自编码器个数等不同参数的组合,生成多样性的自编码器以提取原始数据的隐变量。
1)其中,自编码器(AE)是一种无监督的单隐层神经网络,它的输出层设为与输入层神经网络节点相等。AE的目的是在输出层尽可能准确地重建原始输入。假设样本x=[x1,x2,...,xd]T∈Rd和h=[x1,x2,...,xh]T∈Rh分别表示AE的原始输入和隐层,d和h分别为输入和输出的维度;
Figure BDA0003033302920000061
是输出层的重构输入变量向量;利用编码器,x通过非线性激活函数f转换为隐藏特征h:
h=f(Wx+b) (1)
其中,W∈Rh×d和b∈Rh分别为输入层和隐含层间权重矩阵和偏置项,然后,输入向量
Figure BDA0003033302920000062
通过解码器的输出层对隐变量向量h进行重构获得:
Figure BDA0003033302920000063
Figure BDA0003033302920000064
Figure BDA0003033302920000065
分别为隐藏层和输出层之间的权重矩阵和偏置向量,给定N个训练样本,有样本矩阵X={x1,x2,...,xN},对应的隐层特征矩阵是H∈{h1,h2,...,hN},输入数据重构矩阵是
Figure BDA0003033302920000066
对于第i个样本xi=[x1,x2,...,xd]T∈Rd,通过反向传递算法优化最小化其重构误差,误差函数如下:
Figure BDA0003033302920000067
2)堆栈自编码器(Stack Auto-encoder,SAE),是由AE堆叠的深度学习网络。本发明采用的是两个AE进行叠加,第一个AE获得的隐层特征将作为第二个自编码器的输入,第一层自编码器的实现方式同上1)。假设h1=[x1,x2,...,xh1]T∈Rh1为样本通过第一个自编码器的提取的隐变量,对于第二个自编码器,以h1作为输入向量通过非线性激活函数f转换为隐藏特征h2=[x1,x2,...,xh2]T∈Rh2,根据式(1)有:
h2=f(W2f(W1x+b1)+b2) (4)
其中,W1∈Rh1×d和b1∈Rd分别为第一个自编码器输入层和隐含层间的权重矩阵和偏置项,W2∈Rh2×h1和b2∈Rh1分别为第二个自编码器输入层和隐含层间的权重矩阵和偏置项。然后,输入向量
Figure BDA0003033302920000071
通过解码器的输出层对隐变量向量h2进行重构获得:
Figure BDA0003033302920000072
Figure BDA0003033302920000073
Figure BDA0003033302920000074
分别为第二个自编码器的隐藏层和输出层之间的权重矩阵和偏置向量。给定N个训练样本,有样本矩阵X={x1,x2,...,xN},对应第一层的隐层特征矩阵为H1={h1,1,h1,2,...,h1,N},第二层的隐层特征矩阵为H2={h2,1,h2,2,...,h2,N},输入数据的重构矩阵是
Figure BDA0003033302920000075
对于第i个样本xi=[x1,x2,...,xd]T∈Rd,SAE通过反向传递算法优化最小化其重构误差,误差函数如下:
Figure BDA0003033302920000076
根据以上1)、2)两个步骤,将利用自编码器以提取原始数据的多组隐变量。
第四步:假设有原始数据集为
Figure BDA0003033302920000077
经过步骤(3)的多样性自编码器数据预处理,将获得M个隐变量数据集,并由每个数据集训练和构建M个AE-GPR子模型,
Figure BDA0003033302920000078
Dm表示训练第m个AE-GPR模型的隐变量数据集,N表示数据集的样本个数,xm,i表示第m个训练集的第i个样本,yi为对应的真实标签值,对于数据集Dm中的每个样本xm,i在高斯过程回归模型中的预测输出
Figure BDA0003033302920000079
服从高斯分布:
Figure BDA00030333029200000710
式(7)中,E(.)和Var(.)分别表示均值和方差算子;
所述高斯过程回归模型可描述为:
Figure BDA00030333029200000711
式(8)中,km,i=[C(xi,xm,1),…,C(xi,xm,N))]T,C是一个由X中每个样本彼此之前作协方差组成的NⅹN阶对称正定矩阵,
Figure BDA00030333029200000712
Figure BDA00030333029200000713
分别为第m个AE-GPR模型的预测均值与方差。
第五步:通过一级模型修剪获得在验证集Dval上无性能恶化的基模型:
1)首先,设置模型提升率阈值Rimprove=0,基于新生成学习器的验证性能较之在高斯过程回归模型上的验证性能不能恶化,否则其在测试样本上预测性能也较差的假设;
2)其次,利用原始训练数据集Dtrn训练GPR基模型,验证集Dval进行验证,Dval={Xval,yval},yval对应的预测结果为
Figure BDA0003033302920000081
验证误差为RMSEval
Figure BDA0003033302920000082
Figure BDA0003033302920000083
为第i个验证样本的预测值,yi为真实值;
3)再次,根据上述第三步、第四步骤构建的多样性AE-GPR基模型,利用训练集和验证集训练和验证每个模型,获得验证误差
Figure BDA0003033302920000084
Figure BDA0003033302920000085
4)根据2)、3)计算模型的性能提升率如下;
Figure BDA0003033302920000086
5)对于第m个AE-GPR基模型,根据模型性能提升率,若
Figure BDA0003033302920000087
表示该模型被选中,则保留该模型,通过一级模型修剪,将获得S个预测性能较高的集成基模型。
第六步,基于进化多目标优化算法进行二级修剪:
1)第六步将引入进化多目标优化算法,进一步对基学习器进行筛选。据第五步所获得的基模型,预测验证集的输出
Figure BDA0003033302920000088
并将N个预测输出作为待优化的决策变量,令
Figure BDA0003033302920000089
目标优化函数f1及优化约束函数如下:
Figure BDA00030333029200000810
Figure BDA00030333029200000811
式(12)中
Figure BDA00030333029200000812
为待优化的精度目标函数,
Figure BDA00030333029200000813
为待优化的决策变量,lb和ub分别为变量y的约束下限和约束上限。精度目标函数定义为基于验证数据的平均预测误差:
Figure BDA00030333029200000814
其中,RMSEs,val为验证样本集在第s个模型上的预测均方根误差;
2)目标函数f2定义为基于验证数据的任意一个模型与任意一个模型相关系数和的平均值,即可将多样性目标函数f2的定义为如下:
Figure BDA00030333029200000815
其中,Sselect为最终选择的基模型数,式(14)中第α个和第β个AE-GPR模型的相关系数为r(eα,eβ):
Figure BDA0003033302920000091
任意两个误差之间的协方差由Cov(*,*)、方差由Var(*)表示。所以目标函数设定为式(14)、(15)。根据目标函数最小化,模型精度和多样性最高,可将优化问题转化为如下:
min[f1,f2]=min[RMSEavg,val,ravg,val] (16)
3)设置的种群数、迭代次数和Pareto解个数范围分别为[100-300]、[50-100]和[5-20]。本实施例发现种群数、迭代次数和Pareto解个数分别为100、50和10,实验效果较好,通过迭代、优化、选择、并解码Pareto解集,获得二次修剪的Sselect个AE-GPR集成基模型。
第七步,采用GPRStacking集成策略将最终获得的Sselect个模型进行融合并测试,最终实现对工业过程中关键质量参数的监测。
1)利用测试集在第四步中的多样性AE-GPR模型得到测试样本的预测输出
Figure BDA0003033302920000092
2)将第六步中选择的Sselect个基模型对应的验证样本的预测值向量
Figure BDA0003033302920000093
和测试样本的预测值向量
Figure BDA0003033302920000094
并以被选中的Sselect个验证样本的预测值向量作为新的训练样本,测试样本的预测值向量
Figure BDA0003033302920000095
作为新的测试输入,原始的验证样本真实标签作为新的训练样本的标签,训练传统的AE-GPR模型,最终获得测试样本的预测结果并反归一化,即为最终的集成预测输出
Figure BDA0003033302920000096
上方方法适合多种工业过程质量变量参数的监测,本实施例结合脱丁烷塔工业过程案例的实施验证本发明的有效性。脱丁烷塔是石油提炼行业的重要单元,旨在分离丙烷和丁烷。该过程主要由六个装置组成:塔顶冷凝器,热交换器,塔顶回流泵,底部再沸器,回流蓄能器和液化石油气分离器的进料泵。为了进行工艺控制和产品质量监控,必须将底部产品中丁烷的含量降至最低,因此有必要及时测量丁烷的含量。
表1给出了针对关键质量变量丁烷浓度所选择的7个辅助变量。
表1辅助变量说明
Figure BDA0003033302920000097
Figure BDA0003033302920000101
针对该过程,除了考虑过程数据的非线性特性,还考虑到其数据动态特性。因此,为了有效解决动态问题,对于每个时刻的样本,方案将其前六个时刻的变量作为当前时刻的延迟变量加入训练集中,最终构造出总计49个输入变量的训练样本。本发明案例样本总数为2094个,数据划分阶段,从第一个样本开始每隔2个样本选取,总计1194个样本作为训练集;从第二个样本开始,每隔4个样本选取,总计597个样本作为验证集;从第四个样本开始,每隔4个样本选取,总计597个样本作为测试集。
本发明实施案例采用均方根误差RMSE和决定系数R2作为集成模型预测性能的评价指标,如下所示:
Figure BDA0003033302920000102
Figure BDA0003033302920000103
式中Ntest
Figure BDA0003033302920000104
ytest
Figure BDA0003033302920000105
分别表示测试样本个数、测试样本预测值、测试样本真实值、测试样本真实值的均值,RMSE值越小且R2值越大,说明模型预测性能越好。
表2不同方法在脱丁烷塔化工过程中的预测性能评价对比
Figure BDA0003033302920000106
根据表2可以看出,本发明提出的建模方法对比传统的高斯过程回归建模方法,本发明提出的EAE-GPR软测量建模方法预测性能更佳,不但利用自编码器获得了输入变量的隐层特征信息,还解决了关键质量变量和辅助变量间的非线性特性,结合双重集成修剪策略,有效地降低了模型集成复杂度,同时兼顾了模型的多样性和预测精度,本发明充分体现出了自身的优势。
上述案例用来解释说明本发明的有效性和可行性,本发明的重点在于利用自编码器提取隐变量数据,并训练一组多样且预测精确的基学习器,引入模型修剪和集成策略是为了解决工业过程数据中存在的非线性、过程动态特性及常规的单一模型预测性能不佳的问题,而非针对某一个数值案例,更不是对本发明进行限制,在本发明的精神和权利要求保护范围内,未对本发明做出的任何修改或改进,都将受到本发明的保护范围限制。

Claims (5)

1.一种基于自编码器多样性生成机制的集成学习软测量建模方法,其特征在于,包括以下步骤:
步骤(1)利用集散控制系统或离线检测的方法,收集工业过程数据,并确定关键质量变量y和辅助变量x,x=[x1,x2,...,xd]∈Rd,xd代表样本的第d个特征,x为d个辅助变量构成的向量;
步骤(2)基于Z-Score归一化方法,对数据集进行归一化预处理,得到均值为0,方差为1的数据集,并划分为训练集Dtrn、测试集Dtest和验证集Dval
步骤(3)构建多样性的自编码器AE,通过对神经网络设置不同层次结构和参数的组合,构建一组多样的深度自编码网络,用于提取原始数据的隐层特征表示;
所述步骤(3)中多样性自编码器生成机制的建立过程为:
通过设置隐层节点数、稀疏性参数、稀疏惩罚项以及堆栈的自编码器个数等不同的参数组合,生成多样性的自编码器,以提取原始数据的隐变量;
1)对于自编码器AE,假设x=[x1,x2,...,xd]T∈Rd和h=[x1,x2,...,xh]T∈Rh分别表示AE的原始输入和隐层,d和h分别为输入和输出的维度;
Figure FDA0003508160720000011
是输出层的重构输入变量向量;利用编码器,x通过非线性激活函数f转换为隐藏特征h:
h=f(Wx+b) (1)
其中,W∈Rh×d和b∈Rh分别为输入层和隐含层间权重矩阵和偏置项,然后,输入向量
Figure FDA0003508160720000012
通过解码器的输出层对隐变量向量h进行重构获得:
Figure FDA0003508160720000013
Figure FDA0003508160720000014
Figure FDA0003508160720000015
分别为隐藏层和输出层之间的权重矩阵和偏置向量,给定N个训练样本,有样本矩阵X={x1,x2,...,xN},对应的隐层特征矩阵是H∈{h1,h2,...,hN},输入数据重构矩阵是
Figure FDA0003508160720000016
对于第i个样本xi=[x1,x2,...,xd]T∈Rd,通过反向传递算法优化最小化其重构误差,误差函数如下:
Figure FDA0003508160720000017
2)堆栈自编码器SAE,采用的是两个AE进行叠加,第一个AE获得的隐层特征将作为第二个自编码器的输入,第一层自编码器的实现方式同上1),假设h1=[x1,x2,...,xh1]T∈Rh1为样本通过第一个自编码器的提取的隐变量,对于第二个自编码器,以h1作为输入向量通过非线性激活函数f转换为隐藏特征h2=[x1,x2,...,xh2]T∈Rh2,根据式(1)有:
h2=f(W2f(W1x+b1)+b2) (4)
其中,W1∈Rh1×d和b1∈Rd分别为第一个自编码器输入层和隐含层间的权重矩阵和偏置项,W2∈Rh2×h1和b2∈Rh1分别为第二个自编码器输入层和隐含层间的权重矩阵和偏置项,然后,输入向量
Figure FDA0003508160720000021
通过解码器的输出层对隐变量向量h2进行重构获得:
Figure FDA0003508160720000022
Figure FDA0003508160720000023
Figure FDA0003508160720000024
分别为第二个自编码器的隐藏层和输出层之间的权重矩阵和偏置向量,给定N个训练样本,有样本矩阵X={x1,x2,...,xN},对应第一层的隐层特征矩阵为H1={h1,1,h1,2,...,h1,N},第二层的隐层特征矩阵为H2={h2,1,h2,2,...,h2,N},输入数据的重构矩阵是
Figure FDA0003508160720000025
对于第i个样本xi=[x1,x2,...,xd]T∈Rd,SAE通过反向传递算法优化最小化其重构误差,误差函数如下:
Figure FDA0003508160720000026
根据以上1)、2)两个步骤,将利用多样性条件的自编码器提取原始数据的多组隐变量特征集;
步骤(4)针对工业过程中呈现出的非线性和时变性,选择高斯过程回归GPR模型作为基模型,结合步骤(3)中生成的多样性自编码器构成AE-GPR子模型;
步骤(5)利用验证集Dval,验证步骤(4)中生成的AE-GPR子模型的性能,基于新生成AE-GPR子模型较之在GPR模型上的验证性能不能恶化的假设,设定防止模型恶化阈值,选出一组兼顾模型复杂度和预测精度的基模型;
步骤(6)采用多目标进化优化算法,对步骤(5)中验证集Dval的预测结果进行优化估计,即对第一次集成模型修剪保留下来的基模型进行二次选择,最终获得Sselect个多样性充分、预测精度高的软测量AE-GPR模型;
步骤(7)引入集成策略将获得的Sselect个AE-GPR基模型进行融合,并利用测试样本进行测试,最终实现对关键质量变量的离线估计。
2.根据权利要求1所述的基于自编码器多样性生成机制的集成学习软测量建模方法,其特征在于,所述步骤(4)多样性AE-GPR模型建立过程如下:
假设有原始数据集为
Figure FDA0003508160720000027
经过步骤(3)的多样性自编码器数据预处理,将获得M个隐变量数据集,并由每个数据集训练和构建M个AE-GPR子模型,
Figure FDA0003508160720000028
Figure FDA0003508160720000029
Dm表示训练第m个AE-GPR模型的隐变量数据集,N表示数据集的样本个数,xm,i表示第m个训练集的第i个样本,yi为对应的真实标签值,对于数据集Dm中的每个样本xm,i在高斯过程回归模型中的预测输出
Figure FDA00035081607200000210
服从高斯分布:
Figure FDA0003508160720000031
式(7)中,E(.)和Var(.)分别表示均值和方差算子;
所述高斯过程回归模型可描述为:
Figure FDA0003508160720000032
式(8)中,km,i=[C(xi,xm,1),…,C(xi,xm,N))]T,C是一个由X中每个样本彼此之前作协方差组成的N×N阶对称正定矩阵,
Figure FDA0003508160720000033
Figure FDA0003508160720000034
分别为第m个AE-GPR模型的预测均值与方差。
3.根据权利要求2所述的基于自编码器多样性生成机制的集成学习软测量建模方法,其特征在于,所述步骤(5)通过一级模型修剪获得验证预测性能无恶化基模型的实现过程如下:
1)首先,基于新生成的AE-GPR子模型较之在高斯过程回归模型上的验证性能不能恶化,否则其在测试样本上预测性能也将恶化的假设,设置模型提升率阈值Rimprove=0;
2)其次,利用原始训练数据集Dtrn训练GPR基模型,验证集Dval进行验证,Dval={Xval,yval},验证集标签矩阵yval对应的预测结果为
Figure FDA0003508160720000035
验证误差为RMSEval
Figure FDA0003508160720000036
Figure FDA0003508160720000037
为第i个验证样本的预测值,yi为真实值;
3)再次,根据所述步骤(3)、(4)构建的多样性AE-GPR子模型,利用训练集和验证集训练和验证每个模型,获得验证误差
Figure FDA0003508160720000038
Figure FDA0003508160720000039
4)根据2)、3)计算模型的性能提升率如下;
Figure FDA00035081607200000310
5)对于第m个AE-GPR基模型,根据模型性能提升率,若
Figure FDA00035081607200000311
则表示模型鲁棒性高,则保留模型,通过一级模型修剪,将获得S个兼顾多样性和稳定性的基模型。
4.根据权利要求3所述的基于自编码器多样性生成机制的集成学习 软测量建模方法,其特征在于,所述步骤(6)基于进化优化算法的二级集成修剪建立过程如下:
1)在一级集成修剪的基础上,采用进化多目标优化算法,据步骤(5)获得的验证集的预测输出
Figure FDA00035081607200000312
将这N个预测输出作为待优化的决策变量,令
Figure FDA00035081607200000313
Figure FDA00035081607200000314
目标优化函数f1及优化约束函数如下:
Figure FDA00035081607200000315
Figure FDA0003508160720000041
式(12)中
Figure FDA0003508160720000042
为待优化的精度目标函数,
Figure FDA0003508160720000043
为待优化的决策变量,lb和ub分别为变量y的约束下限和约束上限,精度目标函数定义为基于验证数据的平均预测误差:
Figure FDA0003508160720000044
其中,RMSEs,val为验证样本集在第s个模型上的预测均方根误差;
2)目标函数f2定义为基于验证数据的任意一个模型与任意一个模型相关系数和的平均值,即可将多样性目标函数f2的定义为如下:
Figure FDA0003508160720000045
Sselect为最终选择的基模型数,式(14)中第α个AE-GPR模型和第β个AE-GPR模型的相关系数为r(eα,eβ):
Figure FDA0003508160720000046
任意两个误差之间的协方差由Cov(*,*)、方差由Var(*)表示,所以目标函数设定为式(14)和(15),根据目标函数最小化,模型精度和多样性最高,可将优化问题转化为如下:
min[f1,f2]=min[RMSEavg,val,ravg,val] (16)
3)设置的种群数、迭代次数和Pareto解个数范围分别为100-300、50-100和5-20,通过迭代、优化、选择、并解码Pareto最优解集,获得二次修剪的Sselect个AE-GPR集成基模型。
5.根据权利要求4所述的基于自编码器多样性生成机制的集成学习软测量建模方法,其特征在于,所述步骤(7)采用GPRStacking集成策略将最终获得的Sselect个模型进行融合,最终实现对工业过程中关键质量变量的监测:
1)利用测试集通过步骤(4)构建的多样性AE-GPR模型得到测试样本的预测输出
Figure FDA0003508160720000047
2)根据GPRStacking集成的思想,通过步骤(6)选择的Sselect个子模型,获得每个验证样本对应的Sselect个预测值
Figure FDA0003508160720000048
和Sselect个测试样本的预测值
Figure FDA0003508160720000049
并将每个验证样本的Sselect预测值组合为一个新向量
Figure FDA00035081607200000410
作为新的训练样本,每个测试样本的Sselect个预测值
Figure FDA00035081607200000411
作为新的测试输入
Figure FDA00035081607200000412
验证样本的真实标签作为新训练样本集的真实标签,以此训练并测试AE-GPR模型,获得最终的集成预测输出
Figure FDA00035081607200000413
CN202110436544.2A 2021-04-22 2021-04-22 基于自编码器多样性生成机制的集成学习软测量建模方法 Active CN112989635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110436544.2A CN112989635B (zh) 2021-04-22 2021-04-22 基于自编码器多样性生成机制的集成学习软测量建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110436544.2A CN112989635B (zh) 2021-04-22 2021-04-22 基于自编码器多样性生成机制的集成学习软测量建模方法

Publications (2)

Publication Number Publication Date
CN112989635A CN112989635A (zh) 2021-06-18
CN112989635B true CN112989635B (zh) 2022-05-06

Family

ID=76339830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110436544.2A Active CN112989635B (zh) 2021-04-22 2021-04-22 基于自编码器多样性生成机制的集成学习软测量建模方法

Country Status (1)

Country Link
CN (1) CN112989635B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505477B (zh) * 2021-06-29 2022-05-20 西北师范大学 基于svae-wgan的过程工业软测量数据补充方法
CN113485261B (zh) * 2021-06-29 2022-06-28 西北师范大学 一种基于CAEs-ACNN的软测量建模方法
CN113468740B (zh) * 2021-06-29 2022-06-28 西北师范大学 一种基于协同分摊噪声的软测量建模方法
CN113610214B (zh) * 2021-07-08 2023-11-28 中南民族大学 基于异步自编码器的软测量方法、装置、设备及存储介质
CN113609766B (zh) * 2021-07-29 2024-05-17 浙江科技学院 一种基于深度概率潜隐模型的软测量方法
CN113641907B (zh) * 2021-08-17 2023-11-28 中国科学院重庆绿色智能技术研究院 一种基于进化算法的超参数自适应深度推荐方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096810A (zh) * 2019-05-05 2019-08-06 中南大学 一种基于逐层数据扩充深度学习的工业过程软测量方法
CN110119447A (zh) * 2019-04-26 2019-08-13 平安科技(深圳)有限公司 自编码神经网络处理方法、装置、计算机设备及存储介质
CN110162857A (zh) * 2019-05-14 2019-08-23 北京工业大学 一种面向复杂工业过程难测参数的软测量方法
CN111144017A (zh) * 2019-12-30 2020-05-12 北京化工大学 一种基于ff-rvm的多时段间歇过程软测量建模方法
CN111914492A (zh) * 2020-04-28 2020-11-10 昆明理工大学 一种基于进化优化的半监督学习工业过程软测量建模方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7348181B2 (en) * 1997-10-06 2008-03-25 Trustees Of Tufts College Self-encoding sensor with microspheres
CN108416439B (zh) * 2018-02-09 2020-01-03 中南大学 基于变量加权深度学习的炼油过程产品预测方法和系统
CN109002686B (zh) * 2018-04-26 2022-04-08 浙江工业大学 一种自动生成样本的多牌号化工过程软测量建模方法
CN109840362B (zh) * 2019-01-16 2022-06-14 昆明理工大学 一种基于多目标优化的集成即时学习工业过程软测量建模方法
CN110046378B (zh) * 2019-02-28 2022-09-13 昆明理工大学 一种基于进化多目标优化的选择性分层集成高斯过程回归软测量建模方法
CN111914477B (zh) * 2020-06-23 2022-04-19 宁波大学 一种基于sae的脱丁烷塔底部产品丁烷浓度实时监测方法
CN112149355B (zh) * 2020-09-27 2023-08-22 浙江科技学院 基于半监督动态反馈堆栈降噪自编码器模型的软测量方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119447A (zh) * 2019-04-26 2019-08-13 平安科技(深圳)有限公司 自编码神经网络处理方法、装置、计算机设备及存储介质
CN110096810A (zh) * 2019-05-05 2019-08-06 中南大学 一种基于逐层数据扩充深度学习的工业过程软测量方法
CN110162857A (zh) * 2019-05-14 2019-08-23 北京工业大学 一种面向复杂工业过程难测参数的软测量方法
CN111144017A (zh) * 2019-12-30 2020-05-12 北京化工大学 一种基于ff-rvm的多时段间歇过程软测量建模方法
CN111914492A (zh) * 2020-04-28 2020-11-10 昆明理工大学 一种基于进化优化的半监督学习工业过程软测量建模方法

Also Published As

Publication number Publication date
CN112989635A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112989635B (zh) 基于自编码器多样性生成机制的集成学习软测量建模方法
CN109754113B (zh) 基于动态时间规整与长短时间记忆的负荷预测方法
Yu et al. A dynamic all parameters adaptive BP neural networks model and its application on oil reservoir prediction
Yan et al. Deep relevant representation learning for soft sensing
CN107957946B (zh) 基于邻域嵌入保护算法支持向量机的软件缺陷预测方法
CN109685653A (zh) 一种融合深度信念网络和孤立森林算法的信贷风险监测的方法
Kim Performance evaluation for classification methods: A comparative simulation study
Zhao et al. Feature selection for support vector regression in the application of building energy prediction
CN104503420A (zh) 一种基于新型fde-elm和时延efsm的非线性过程工业故障预测方法
CN112669173A (zh) 一种基于多粒度特征和XGBoost模型的短期负荷预测方法
CN108416439A (zh) 基于变量加权深度学习的炼油过程产品预测方法和系统
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN104732067A (zh) 一种面向流程对象的工业过程建模预测方法
CN112257942A (zh) 一种应力腐蚀开裂预测方法及系统
CN110782083B (zh) 基于深度Croston方法的航空发动机备用需求预测方法
CN113887694A (zh) 一种注意力机制下基于特征表征的点击率预估模型
Abdelaziz et al. Convolutional Neural Network With Genetic Algorithm for Predicting Energy Consumption in Public Buildings
Goo et al. The hybrid systems for credit rating
Giusto et al. Nowcasting us business cycle turning points with vector quantization
CN114330485A (zh) 基于pls-svm-ga算法的电网投资能力预测方法
Liemberger et al. Reduced model describing efficient extraction of hydrogen transported as co-stream in the natural gas grid
Li et al. Quality prediction of strip in finishing rolling process based on GBDBN-ELM
Liu et al. China stock market regimes prediction with artificial neural network and markov regime switching
Zhang et al. Intelligent Fusion Method for College Students’ Psychological Education Score Data Based on Improved Bp Algorithm
Valenca et al. Hybrid systems to select variables for time series forecasting using mlp and search algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 650500 No. 727 Jingming South Road, Chenggong District, Kunming City, Yunnan Province

Applicant after: Kunming University of Science and Technology

Address before: No.72, Jingming South Road, Chenggong District, Kunming, Yunnan 650500

Applicant before: Kunming University of Science and Technology

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant