CN114169459A

CN114169459A - 基于半监督贝叶斯正则化混合Student’s t模型的鲁棒软测量方法

Info

Publication number: CN114169459A
Application number: CN202111522291.7A
Authority: CN
Inventors: 文成林; 李德阳; 宋执环
Original assignee: Guangdong University of Petrochemical Technology
Current assignee: Guangdong University of Petrochemical Technology
Priority date: 2021-12-13
Filing date: 2021-12-13
Publication date: 2022-03-11

Abstract

本发明公开了一种基于半监督贝叶斯正则化混合Student’s t模型的鲁棒软测量方法，属于工业过程预测和控制技术领域。该方法在有监督混合Student’s t模型的基础上，设计了半监督的混合Student’s t模型结构，并将质量变量和辅助变量之间的回归系数贝叶斯化，通过变分贝叶斯期望最大化算法来更新模型参数，进而实现软测量模型的建立。本发明不仅能够有效的解决有标签样本稀少导致的软测量建模不准的问题，还能够在一定程度上缓解了过拟合，提高了模型的预测精度。

Description

基于半监督贝叶斯正则化混合Student’s t模型的鲁棒软测量方法

技术领域

本发明属于工业过程预测和控制技术领域，尤其是涉及一种基于半监督贝叶斯正则化混合Student’s t模型的鲁棒软测量方法。

背景技术

在许多工业过程中，存在着一类由于技术缺陷或经济成本而难以测量的关键质量变量。然而，实时监测这些质量变量在工业过程中起着重要的作用，例如化学反应的平稳运行或反应产物的纯度。软测量本质上是质量变量和辅助变量(易于测量的变量)的数学描述，通过使用辅助变量提供质量变量的估计值，是解决质量变量实时测量的有效方法。由于无延迟和易于维护等优点，软测量在过去几十年中得到了广泛的研究和应用。

工业数据通常呈现出许多难以处理的特征，包括非线性，非高斯性，多模态特性，离群点等。非线性、非高斯性和多模态特性通常来源于复杂的过程机理、多种产品等级或运行阶段引起的多种工况/阶段、负载变化等。离群点主要是由于硬件传感器获得的一些工业过程变量的测量值不可避免地被错误地观察、记录或导入数据库。针对这些数据特性，有监督混合Student’s t模型被提出并应用到工业过程的鲁棒软测量建模。在软测量应用中，由于质量变量采样率较低，有标签数据(输入和输出都是已知的)通常是稀缺的；而无标签数据(只有输入是已知的)由于高采样率而大量存在。现有的有监督混合Student’s t模型在软测量开发时仅仅只利用了有标签数据，这极大地限制了软测量模型的预测精度。此外有监督混合Student’s t模型也会遇到过拟合问题。

因此，为了解决上述分析中基于有监督混合Student’s t模型软测量模型的不足，本发明方法在有监督混合Student’s t模型的基础上，拓展了半监督的模型结构来充分利用大量存在的无标签数据，同时将质量变量和辅助变量之间的回归系数贝叶斯化来提高模型的抗过拟合能力，以达到更好的预测效果。

发明内容

本发明的目的是提供一种基于半监督贝叶斯正则化混合Student’s t模型的鲁棒软测量方法，解决工业过程中有标签数据稀少带来的模型预测精度低以及过拟合问题。

为实现上述目的，本发明提供了一种基于半监督贝叶斯正则化混合Student’s t模型的鲁棒软测量方法，包括以下步骤：

S1、收集历史工业过程中的有标签数据和无标签数据组成训练样本；x∈R^d和y∈R分别表示d维输入变量和一维输出变量，

和

分别表示有标签数据集和无标签数据集，其中N₁和N₂分别表示有标签样本和无标签样本的个数；

S2、将步骤S1收集到的数据集进行标准化处理，得到均值为0，方差为1的标准化数据集，记为

表示有标签数据标准化后的输入变量，

表示有标签数据标准化后的输出变量，

表示无标签数据标准化后的输入变量；

S3、初始化模型参数

α_k表示第k个组分的混合系数，μ_k，Λ_k，υ_k分别表示第k个组分中输入变量对应的均值向量、精度矩阵和自由度参数，β_k，

分别表示第k个组分中输出变量与输入变量之间的回归系数和方差，λ_k表示回归系数先验分布的精度；回归系数及其先验分布精度贝叶斯化，

a₀，b₀是λ的先验分布的超参数；

S4、采用变分贝叶斯期望最大化VBEM算法以迭代的方式进行参数学习；

S5、利用学习到的模型参数

实现对质量变量的预测。

优选的，所述步骤S4包括以下步骤：

S41、VBE-step:根据当前的模型参数，求解类别隐变量和中间隐变量的变分后验分布，以及回归系数和回归系数先验分布精度的后验分布，

有标签样本和无标签样本的类别隐变量分别记为

和

其后验分布如下式

其中，

有标签样本和无标签样本的中间隐变量分别记为

和

其后验分布如下式

基于类别隐变量和中间隐变量的变分后验分布，可以计算得到数学期望如下式

其中，E[·]表示数学期望，ψ(·)表示digamma函数；

对于回归系数和回归系数先验分布精度，其后验分布如下式

其中，

a_k＝a₀+(d+1)/2，

基于β和λ的后验分布，计算得到数学期望如下式

E[λ_k]＝a_k/b_k

E[lnλ_k]＝ψ(a_k)-ln b_k

S41、VBM-step：根据VBE-step求解得到的数学期望，计算变分下界ELBO，进而执行最大化ELBO操作得到模型参数的更新公式；

假设所有数据样本服从独立同分布假设，变分下界ELBO为：

执行最大化ELBO操作得到模型参数的更新公式如下：

对于自由度参数，通过求解非线性方程得到，如下式

最后根据VBM-step的更新参数计算变分下界ELBO，当Q(Θ)收敛时，此时参数为最终模型参数；当Q(Θ)不收敛则重复VBE-step和VBM-step步骤，直至对数似然函数Q(Θ)收敛为止。

优选的，所述步骤S5中，

首先，计算待测样本

对应的类别隐变量z_q＝{z_q1，z_q2，...，z_qK}的后验概率，如下式

然后，计算待测样本的输出

关于

的条件概率分布为

其中，

最终，得到待测样本的预测值

为

本发明所述的基于半监督贝叶斯正则化混合Student’s t模型的鲁棒软测量方法，在有监督混合Student’s t模型的基础上，拓展了半监督的模型结构来充分利用大量存在的无标签数据，同时将质量变量和辅助变量之间的回归系数贝叶斯化来提高模型的抗过拟合能力，以达到更好的预测效果。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1是本发明基于半监督贝叶斯正则化混合Student’s t模型的鲁棒软测量方法流程图；

图2是本发明基于半监督贝叶斯正则化混合Student’s t模型的鲁棒软测量方法的概率图模型。

具体实施方式

以下通过附图和实施例对本发明的技术方案作进一步说明。

实施例

图1是本发明基于半监督贝叶斯正则化混合Student’s t模型的鲁棒软测量方法流程图，图2是本发明基于半监督贝叶斯正则化混合Student’s t模型的鲁棒软测量方法的概率图模型。如图所示，一种基于半监督贝叶斯正则化混合Student’s t模型的鲁棒软测量方法，包括以下步骤：

和

分别表示有标签数据集和无标签数据集，其中N₁和N₂分别表示有标签样本和无标签样本的个数。

表示有标签数据标准化后的输入变量，

表示有标签数据标准化后的输出变量，

表示无标签数据标准化后的输入变量。

S3、有标签样本和无标签样本的类别隐变量分别记为

和

那么对于

和

的概率密度函数(PDF)分别为：

其中，

z_i＝(z_i1，z_i2，...，z_iK)表示第i个有标签样本对应的类别隐变量，z_j＝(z_j1，z_j2，...，z_jK)表示第j个无标签样本对应的类别隐变量，a_k表示第k个组分的混合系数，μ_k，Λ_k，υ_k分别表示第k个组分中输入变量对应的均值向量，精度矩阵和自由度参数，β_k，

分别表示第k个组分中输出变量与输入变量之间的回归系数和方差，λ_k表示回归系数先验分布的精度，

表示高斯分布的概率密度函数，St(·)表示Student’s t分布的概率密度函数。

回归系数及其先验分布精度贝叶斯化，

a₀，b₀是λ的先验分布的超参数。

S4、采用变分贝叶斯期望最大化VBEM(Variational Bayesian ExpectationMaximization)算法以迭代的方式学习模型参数

包括以下步骤：

S41、VBE-step：根据当前的模型参数，求解类别隐变量和中间隐变量的变分后验分布，以及回归系数和回归系数先验分布精度的后验分布，

有标签样本和无标签样本的类别隐变量分别记为

和

其后验分布如下式

其中，

有标签样本和无标签样本的中间隐变量分别记为

和

其后验分布如下式

其中，E[·]表示数学期望，ψ(·)表示digamma函数；

对于回归系数和回归系数先验分布精度，其后验分布如下式

其中，

a_k＝a₀+(d+1)/2，

基于β和λ的后验分布，计算得到数学期望如下式

E[λ_k]＝a_k/b_k

E[lnλ_k]＝ψ(a_k)-ln b_k。

S41、VBM-step：根据VBE-step求解得到的数学期望，计算变分下界ELBO(EvidenceLower Bound)，进而执行最大化ELBO操作得到模型参数的更新公式；

假设所有数据样本服从独立同分布假设，变分下界ELBO为：

其中，

执行最大化ELBO操作得到模型参数的更新公式如下：

对于自由度参数，通过求解非线性方程得到，如下式

S5、利用学习到的模型参数

实现对质量变量的预测。

首先，计算待测样本

对应的类别隐变量

的后验概率，如下式

然后，计算待测样本的输出

关于

的条件概率分布为

其中，

最终，得到待测样本的预测值

为

因此，本发明基于半监督贝叶斯正则化混合Student’s t模型的鲁棒软测量方法，能够解决工业过程中有标签数据稀少带来的模型预测精度低以及过拟合问题。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。