CN114117919B

CN114117919B - 基于样本协同表示的即时学习的软测量建模方法

Info

Publication number: CN114117919B
Application number: CN202111432914.1A
Authority: CN
Inventors: 王平; 白玮; 吴昂山; 尹贻超
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-08-23
Anticipated expiration: 2041-11-29
Also published as: CN114117919A

Abstract

本发明涉及一种基于样本协同表示的即时学习的软测量建模方法，该方法通过协同表示算法获得历史样本的权重矩阵，并通过加权岭回归算法建立加权岭回归模型，将两种算法进行融合，形成统一的优化目标。对于采集的查询数据，首先计算查询数据与训练样本的加权欧式距离，并将加权欧式距离融合到协同表示的正则项中，计算协同表示系数及各历史样本的权重矩阵，然后根据各样本的权重矩阵建立加权岭回归模型计算查询数据对应的输出值。本发明不仅能够很好地处理工业过程的非线性、时变性及多重共线性问题，还将相似样本选择和局部模型的构建融合到一个优化函数中，实现利用局部模型的信息指导相似样本的选择，提高相似样本的可靠性及局部模型的预测精度。

Description

基于样本协同表示的即时学习的软测量建模方法

技术领域

本发明属于工业过程检测技术领域，涉及工业过程软测量技术，具体地说，涉及了一种基于样本协同表示的即时学习的软测量建模方法。

背景技术

在现代工业生产过程中，许多重要质量变量(例如：油品黏度、组分等)难以实时测量，给化工过程控制与优化带来很大影响。因为化工生产过程存在样品现场取样困难、分析仪器成本高以及分析时间滞后等问题，在实际生产过程中，往往难以使用在线分析仪表和离线化验等方式对质量变量进行实时测量，无法对质量变量形成闭环控制。因此，质量变量如何实时获取成为过程控制首先要解决的问题。由此，软测量进入了过程工业控制领域的研究视线。

常用的数据驱动软测量建模方法包括主元回归(Principal ComponentRegression，简称：PCR)、偏最小二乘回归(Partial Least Square Regression，简称：PLSR)以及人工神经网络(简称：ANN)。上述软测量算法建立的模型属于离线模型，模型建立后不会随着生成过程的改变而自适应调整，无法跟踪生产状态的变化，从而导致预测精度逐渐下降。因此，软测量模型的自动维护成为了算法研究与改进的重点。因此，为了适应现代化工生产过程表现出的多模态特性和时变特性，各种在线建模算法已经被广泛应用于生产过程的监控与质量变量预测。

目前，主流的在线软测量建模算法包括：滑动窗算法、递归算法、时间差分算法以及即时学习算法。其中，前三种都是根据时间相关性更新模型，属于时间自适应算法；即时学习算法是基于空间相关性对模型进行更新和维护，属于空间自适应算法。相比其他算法，即时学习算法的优势在于可以更好的适应生产过程中的突变现象，并且由于该算法对每个样本都建立局部模型，因此，也可以很好的描述过程变量之间的非线性关系。

相似样本的选择或者样本权重的计算是即时学习算法的核心步骤，会在很大程度上影响算法的预测精度。对于传统即时学习算法，一方面，相似样本的选择仅仅考虑了查询样本与历史样本输入变量的相似度，并没有考虑输出变量之间的相关性；另一方面，算法中一些可调参数的选择往往是一件非常困难的事，例如LWPLS算法中的核宽度参数以及LWLS算法中的相似样本的数目，这些参数的选择并没有明确的理论经验指导，并且会对模型的性能产生较大影响。由上可知，采用传统即时学习算法建立的模型存在预测精度差的问题。

发明内容

本发明针对现有技术存在的预测精度差等上述问题，提供一种基于样本协同表示的即时学习的软测量建模方法，能够提高样本权重的合理性与可靠性，无需选择相似样本个数以及高斯核函数的宽度等参数，提高了模型优化效率与预测精度。

为了达到上述目的，本发明提供了一种基于样本协同表示的即时学习的软测量建模方法，其具体步骤为：

S1、实时采集与存储工业过程中与质量相关的辅助变量的数据X＝[x₁，x₂，…x_n]^T，

n为样本数量，m为样本的维度；通过实验室化验分析采集的数据，得到各个样本对应的真实质量变量值

S2、将已采集到的数据作为初始训练数据集

对初始训练数据集

按照公式(1)进行标准化处理，使其均值为0、方差为1，得到训练数据集

X_L为数据X标准化处理后得到的数据，

为经标准化处理后得到的变量值，公式(1)表示为：

式中，函数mean(·)表示计算矩阵各行的均值，函数std(·)表示计算矩阵各行的标准差；

S3、利用训练数据集

建立离线岭回归模型，并且通过模型的回归系数计算得到各输入变量的权重矩阵

S4、对于新采集的查询数据

按照公式(1)进行标准化处理；

S5、根据权重矩阵W_var计算查询数据x_q与数据X_L中所有样本的加权欧式距离；将加权欧式距离融合到协同表示的正则项中；计算数据X_L与查询数据x_q的协同表示系数，利用该协同表示系数得出训练数据集

中各历史样本的权重矩阵

S6、根据训练数据集

以及各样本的权重矩阵W_sample，建立加权岭回归模型，利用加权岭回归模型计算查询数据x_q的输出值

S7、当查询数据x_q所对应的真实输出值y_q可以由实验室化验分析得到时，将样本[x_q,y_q]加入到训练数据集

中，以扩充训练数据集

中所包含的工作区间；否则，维持训练数据集

中所包含空间不变。

优选的，步骤S3中，利用训练数据集

建立离线岭回归模型，并且通过模型的回归系数计算得到各输入变量的权重

的具体步骤为：

利用训练数据集

建立离线岭回归模型，优化目标为：

式中，

为离线岭回归模型的岭回归系数，λ₀为离线岭回归模型的正则项系数；

求解优化目标，得出离线岭回归模型的岭回归系数W₀的解析表达式为：

W₀＝(X_LX_L ^T+λ₀×I)^-1X_LY_L (3)

式中，X_L ^T为数据X_L的转置，I为单位矩阵；

根据离线岭回归模型的岭回归系数W₀通过公式(4)计算出各输入变量的权重矩阵，公式(4)表示为：

式中，W₀(1)为岭回归系数W₀的第一个元素，W₀(m)为岭回归系数W₀的第m个元素。

优选的，步骤S5中，得出训练数据集

中各历史样本的权重矩阵

的具体步骤为：

根据权重矩阵W_var通过公式(5)和公式(6)计算查询数据x_q与数据X_L中所有样本的加权欧式距离d；公式(5)和公式(6)的表达式为：

Dx_q＝W_var(x_q×1-X_L) (5)

式中，

为对角矩阵D_i，i＝d_i，i＝1，2，…，n，

且元素全为1，符号

表示两个矩阵的对应元素相乘，函数sum(.)表示将矩阵各行相加；

建立查询数据x_q与训练数据集

的协同表示模型，并融合权重矩阵和加权欧式距离，优化目标为：

式中，

为协同表示系数，λ₁为正则项系数；

通过公式(8)计算数据X_L与查询数据x_q的协同表示系数，公式(8)表示为：

b＝(X_L ^TW_varX_L+λ₁D)^-1X_L ^TW_varx_q (8)

利用协同表示系数通过公式(9)得出训练数据集

中各历史样本的权重矩阵

公式(9)表示为：

式中，b₁为向量b的第一个元素，b_n为向量b的第n个元素。

优选的，步骤S6中，利用加权岭回归模型计算查询数据x_q的输出值

的具体步骤为：

根据训练数据集

与权重矩阵W_sample建立加权岭回归模型，优化目标为：

式中，

为加权岭回归模型系数，λ₂为岭回归正则项系数；

通过公式(11)计算出加权岭回归模型系数w，公式(11)表示为：

利用加权岭回归模型系数w通过公式(12)计算查询数据x_q的输出值

公式(12)表示为：

与现有技术相比，本发明的优点和积极效果在于：

本发明提供的基于样本协同表示的即时学习的软测量建模方法，将数据自表示算法引入即时学习中，并且针对即时学习的应用背景，对自表示算法进行改进，具体地，一方面，通过自表示算法计算样本权重的同时考虑到了输入变量的权重；另一方面，通过计算查询样本与历史样本之间的加权欧式距离，并且将其作为算法的正则项，从而融合了数据的局部空间距离信息。相比现有其他算法，本发明将相似样本的选择或者样本权重的计算转化为优化问题，提高了样本权重的合理性与可靠性。另外，相比传统算法中通过欧式距离计算样本权重的方式，本发明中无需选择相似样本个数以及高斯核函数的宽度等参数，提高了模型优化效率与预测精度。

附图说明

图1为本发明实施例所述脱丁烷塔(简称：DCP)的过程原理图；

图2为本发明实施例所述脱丁烷塔过程数据的真实输出曲线图；

图3为本发明所述基于样本协同表示的即时学习的软测量建模方法对脱丁烷塔数据的预测偏差示意图；

图4为现有局部加权偏最小二乘算法对脱丁烷塔数据的预测偏差示意图。

具体实施方式

下面，通过示例性的实施方式对本发明进行具体描述。然而应当理解，在没有进一步叙述的情况下，一个实施方式中的元件、结构和特征也可以有益地结合到其他实施方式中。

本发明针对工业过程中的时变、多模态特性，以及工业数据中普遍存在多重共线性问题，提供了一种基于样本协同表示的即时学习的软测量建模方法，通过即时学习算法建立软测量模型，克服了时变以及多模态问题；通过岭回归算法建立局部模型(即离线岭回归模型和加权岭回归模型)，解决过程数据的多重共线性问题，并且具有较高的计算效率。另外，本发明中提出的基于表示的样本选择算法减少了算法中的可调参数，优化了建模过程，提高了样本权重的可靠性以及软测量模型的预测精度。以下对本发明所述基于样本协同表示的即时学习的软测量建模方法进行详细说明。

本发明实施例提供了一种基于样本协同表示的即时学习的软测量建模方法，其具体步骤为：

具体地，通过现场传感器以及存储设备实时采集与存储工业过程中与质量相关的辅助变量的数据。

S2、将已采集到的数据作为初始训练数据集

对初始训练数据集

X_L为数据X标准化处理后得到的数据，

为经标准化处理后得到的变量值，公式(1)表示为：

式中，函数mean(·)表示计算矩阵各行的均值，函数std(·)表示计算矩阵各行的标准差。

S3、利用训练数据集

其具体步骤为：

利用训练数据集

建立离线岭回归模型，优化目标为：

式中，

W₀＝(X_LX_L ^T+λ₀×I)^-1X_LY_L (3)

式中，X_L ^T为数据X_L的转置，I为单位矩阵；

S4、对于新采集的查询数据

按照公式(1)进行标准化处理。

中各历史样本的权重矩阵

具体地，得出训练数据集

中各历史样本的权重矩阵

的具体步骤为：

Dx_q＝W_var(x_q×1-X_L) (5)

式中，

为对角矩阵D_i，i＝d_i，i＝1，2，…，n，

且元素全为1，符号

表示两个矩阵的对应元素相乘，函数sum(·)表示将矩阵各行相加；

建立查询数据x_q与训练数据集

式中，

为协同表示系数，λ₁为正则项系数；

b＝(X_L ^TW_varX_L+λ₁D)^-1X_L ^TW_varx_q (8)

利用协同表示系数通过公式(9)得出训练数据集

中各历史样本的权重矩阵

公式(9)表示为：

式中，b₁为向量b的第一个元素，b_n为向量b的第n个元素。

S6、根据训练数据集

S7、当查询数据x_q所对应的真实输出值y_q可以由实验室化验分析得到时，将样本[x_q，y_q]加入到训练数据集

中，以扩充训练数据集

中所包含的工作区间；否则，维持训练数据集

中所包含空间不变。

具体地，利用加权岭回归模型计算查询数据x_q的输出值

的具体步骤为：

根据训练数据集

与权重矩阵W_sample建立加权岭回归模型，优化目标为：

式中，即

为加权岭回归模型系数，λ₂为岭回归正则项系数；

通过公式(11)计算出加权岭回归模型系数w，公式(11)表示为：

公式(12)表示为：

本发明实施例上述方法，通过协同表示算法获得历史样本的权重矩阵，并通过加权岭回归算法建立加权岭回归模型，将两种算法进行融合，形成统一的优化目标。对于新采集的查询数据，首先计算查询数据与训练样本的加权欧式距离，并将加权欧式距离融合到协同表示的正则项中，计算协同表示系数及各历史样本的权重矩阵，根据各样本的权重矩阵建立加权岭回归模型计算查询数据对应的输出值。本发明实施例所述方法，不仅能够很好地处理工业过程的非线性、时变性及多重共线性问题，还将相似样本选择和局部模型的构建融合到一个优化函数中，实现利用局部模型的信息指导相似样本的选择，提高相似样本的可靠性及局部模型的预测精度。

为了说明本发明上述基于样本协同表示的即时学习的软测量建模方法的效果，以下结合具体实施例对本发明做出进一步说明。

实施例：以脱丁烷塔的过程数据为例进行说明。

脱丁烷塔(以下简称：DCP)是脱硫和石脑油分裂工厂的一部分，其任务是尽可能地减少塔底丁烷的浓度。某DCP的原理如图1所示。通常塔底丁烷浓度是由安装在塔顶的一块气相色谱分析仪在线测量的，由于塔底丁烷蒸汽到达塔顶需要一定的时间，气相色谱仪的分析过程亦需要一定的时间，因此，对塔底丁烷浓度的在线测量存在较大的滞后，从而需要建立软测量模型，以在线实时估计塔底丁烷浓度。在建立塔底丁烷浓度的软测量模型时，选择安装在脱丁烷塔上的七个传感器采集的过程变量(参见图1)作为辅助变量，表1给出了这七个辅助变量的解释。数据集来自实际工业生产过程，样本数量为2382，按采样时间排列，实际的输出曲线如图2所示。

表1

辅助变量	变量描述
		X<sub>1</sub>	塔顶温度
X<sub>2</sub>	塔底压力
		X<sub>3</sub>	回流量
X<sub>4</sub>	流向下一过程流量
		X<sub>5</sub>	第6层塔板温度
X<sub>6</sub>	塔底温度1
		X<sub>7</sub>	塔底温度2

接下来结合脱丁烷塔生产过程对本发明的具体步骤进行阐述：

1、将已采集到的数据作为训练数据集，并且进行预处理。

首先，对所有样本进行预处理，删除其中的异常样本；然后，考虑到过程的动态特性，对所有样本按照下式进行维度扩展，扩展后的样本维度为30；最后，进行标准化处理得到最终训练数据集

则：

式中，

表示软测量模型对塔底丁烷浓度的预测值，f_DCP(·)代表丁烷浓度与x₁～x₇的潜在关系。

进而得到：

2、利用训练数据集建立离线岭回归模型，并且计算出各输入变量的权重矩阵。

根据训练数据集

建立离线岭回归模型，并且根据模型的岭回归系数

计算出各输入变量的权重矩阵

3、采集新数据进行标准化处理。

对于新采集到的查询数据

按照训练数据集的标准化方式对该数据进行标准化。

4、根据基于表示的相似样本选择(简称RSS)算法计算训练数据集

关于

的样本权重矩阵W_sample。

首先，计算采集到的查询数据x_q与训练样本之间的加权欧式距离

然后，将d融合到协同表示的正则项中，计算关于训练样本关于查询数据的协同表示系数

最后，通过表示系数b计算训练样本的样本权重矩阵

5、根据样本权重矩阵建立在线加权岭回归模型，并且预测查询数据的输出值。

根据样本权重矩阵

建立在线岭回归模型，并且根据岭回归系数

以及查询数据x_q计算查询数据的预测输出值

当获得输出变量的真实值y_q时，将样本[x_q；y_q]添加到训练数据集

本发明所述方法(简称：RSS-JITL)与传统局部加权偏最小二乘(简称：LWPLS)算法对脱丁烷塔数据输出变量的预测偏差值如图3、图4所示。由图3、图4可以看出，本发明所述方法与传统方法相比，具有更高的预测精度。

上述实施例用来解释本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改和改变，都落入本发明的保护范围。