CN104778298B

CN104778298B - 基于egmm的高斯过程回归软测量建模方法

Info

Publication number: CN104778298B
Application number: CN201510038931.5A
Authority: CN
Inventors: 熊伟丽; 张伟; 薛明晨; 姚乐
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2015-01-26
Filing date: 2015-01-26
Publication date: 2017-09-19
Anticipated expiration: 2035-01-26
Also published as: CN104778298A

Abstract

本发明公开了一种基于EGMM的高斯过程回归软测量建模方法。用于复杂多变、噪声非高斯性的化工过程。工业过程建立的软测量预测模型往往会产生预测误差，然而模型预测误差常常包含了丰富的有用信息，因此可以从这些预测误差中提取信息用于对模型的输出进行补偿，从而改进所建立的软测量模型。首先，选择合适的变量组成误差数据，优化得到合适的高斯成分的个数；然后用EGMM对误差数据进行拟合；当新的数据到来时，用建立的GPR模型进行预测输出，并通过EGMM模型求得条件误差均值，对输出进行补偿得到更加精确的结果。能够对关键变量进行更加精确的预测，从而提高产品质量，降低生产成本。

Description

基于EGMM的高斯过程回归软测量建模方法

技术领域

本发明涉及基于EGMM的高斯过程回归软测量建模方法，属于复杂工业过程的建模和软测量领域。

背景技术

现代工业过程中，基于数据驱动的软测量建模方法得到了越来越多的关注。一些常用的软测量建模方法如偏最小二乘(partial least squares，PLS)、主成分分析(principal component analysis，PCA)等能够很好地处理输入变量和输出变量之间的线性关系。人工神经网络(artificial neural networks，ANN)、支持向量机machine，SVM)、最小二乘支持向量机(least(support vector squares support vector machine，LS-SVM)能够有效地处理过程的非线性关系。

近年来，高斯过程回归(Gaussian process regression，GPR)作为一种非参数概率模型，不仅可以给出预测值，还可以得到预测值对模型的信任值。本发明选择GPR模型作为基本的软测量模型。这些建模方法虽可以有效地处理过程高度的非线性和输入输出之间高维的映射关系，但是这些数据模型往往都是假设建模误差符合高斯分布所建立的。事实上，工业过程中常常包含了不同的随机分布、多样的测量散射和非测量输入(隐藏输入)，建模往往非常复杂。因此，一般认为误差分布符合高斯分布是一种比较严苛的假设，所建立的往往是局部优化的预测模型。

为了提高建模精度，用一种基于高斯混合模型(Gaussian mixture model,GMM)的建模策略提取隐含在预测误差中的信息。只要GMM模型包含足够多的高斯成分，就能够逼近任意连续的概率密度函数。因此，可以用GMM描述复杂的非高斯的模型误差特征，通过加入训练数据的输出误差构建误差数据集，建立误差高斯混合模型(error Gaussian mixturemodel,EGMM)，通过对从EGMM提取出来的信息进行检验假设或者数据模型改进，从而能提高建模的精度。

因此，需要用合适的相关变量构建一个概率EGMM模型，从而使隐含在预测误差中的复杂的概率特征能够被提取出来，以达到提高模型精度的目的。通过EGMM模型，对于一个新的输入，可以计算得到误差的概率密度函数、误差均值和误差方差。误差方差可用来评估模型预测输出值的可靠性，用来决定当前模型是否需要更新，从而根据当前过程的动态产生一个自适应的软测量模型。误差均值可以用来对这个新的输入的预测输出值进行补偿，提高模型预测输出的精度。

发明内容

本化工过程呈现的非线性、不同的动态特性和噪声的非高斯性对所建立的软测量模型的预测精度会产生很大的影响，为了提高产品的质量，本发明提供一种基于EGMM的高斯过程回归软测量建模方法。首先，选择合适的变量组成误差数据，优化得到合适的高斯成分的个数；然后用EGMM对误差数据进行拟合；当新的数据到来时，用建立的GPR模型进行预测输出，并通过EGMM模型求得条件误差均值，对输出进行补偿得到更加精确的结果。从而提高产量，降低生产成本。

本发明是通过以下技术方案实现的：

基于EGMM的高斯过程回归软测量建模方法，所述方法包括以下过程：首先，基于PCA选择合适的变量组成误差数据；然后，采用BIC准则优化得到合适的高斯成分的个数；最后，构建误差高斯混合模型；当新的数据到来时，用建立的GPR模型进行预测输出，并通过EGMM模型求得条件误差均值，对输出进行补偿得到更加精确的结果。从而提高产量，降低生产成本。

附图说明

图1是基于EGMM的高斯过程回归软测量建模方法流程图；

图2硫回收装置示意图；

图3PCA模型主成分显示解释比例；

图4BIC值与K之间的关系；

图5是H₂S的浓度预测结果图。

具体实施方式

下面结合图1所示，对本发明做进一步详述：

以实际化工过程为例，硫回收装置(Sulfur Recovery Unit,SRU)用于含硫气体(主要含有H₂S,SO₂)排入大气前硫的回收，以防止对环境造成污染，其装置见图2。

SRU装置主要处理两种酸性气体：一种是富含H₂S的气体(也称MEA气体)；另一种是来自于含硫污水汽提设备(SWS)的含H₂S、NH₃的气体，也称为SWS气体。主要燃烧室用于处理MEA气体，在有着充足空气(AIR_MEA)的情况下，可以充分燃烧；另一个燃烧室用于处理SWS气体，其进入的空气流量可写为AIR_SWS。

5个过程变量和2个主导变量的描述见表1所示。实验数据来自实际工业过程，对H₂S的含量进行预测。

步骤1：收集输入输出数据组成历史训练数据库

步骤2：对输入和输出数据进行标准化处理，并用PCA进行信息提取得到得分矩阵,由图3所示，从PCA模型中提取出三个主成分,PCA算法为：

给定训练数据X∈R^n×m，m是过程变量的维数,n是训练数据的数目,PCA是在X的协方差矩阵基础上实现的,通过奇异值分解(singular value decomposition，SVD)的方法建模PCA模型,假设PCA模型有q个主成分，将X分解为如下形式：

式中,T∈R^n×q和分别是主成分子空间和残差子空间的得分矩阵，P∈R^m ^×q和是主成分子空间和残差子空间相应的载荷矩阵，E是残差矩阵,

建立得分矩阵和输出数据之间的GPR模型，然后用已经建立的GPR模型对训练数据集的得分矩阵进行预测得到预测值，最后得到输出误差,建立的GPR模型为：

给定训练样本集X∈R^D×N和y∈R^N，其中X＝{x_i∈R^D}_i＝1...N，y＝{y_i∈R}_i＝1...N分别代表D维的输入和输出数据,输入和输出之间的关系由公式(2)产生：

y＝f(x)+ε (2)

其中f是未知的函数形式，ε是均值为0，方差为的高斯噪声,对于一个新的输入x^*，相应的概率预测输出y^*也满足高斯分布，其均值和方差如式(3)和(4)所示：

y^*(x^*)＝c^T(x^*)C^-1y (3)

式中c(x^*)＝[c(x^*,x₁),…,c(x^*,x_n)]^T是训练数据和测试数据之间的协方差矩阵,是训练数据之间的协方差矩阵，I是N×N维的单位矩阵,c(x^*,x^*)是测试数据的自协方差；

GPR通过协方差函数c(x_i,x_j)产生协方差矩阵Σ，只要选择的协方差函数能保证产生的协方差矩阵满足非负正定的关系，选择高斯协方差函数：

式中v控制协方差的量度，ω_d代表每个成分x^d的相对重要性；

对式(5)中的未知参数v,ω₁,…,ω_D和高斯噪声方差的估计,通过极大似然估计得到参数

为了求得参数θ的值，首先将参数θ设置为一个合理范围内的随机值，然后用共轭梯度法得到优化的参数，获得最优参数θ后，对于测试样本x^*，用式(3)和(4)来估计GPR模型的输出值；

基于EGMM的GPR软测量建模方法，首先需要确定合适的误差数据和高斯成分的数目K，一般误差数据是由GPR模型的输入变量和模型的输出误差组成，给定训练样本集X∈R^D ^×N和y∈R^N，其中X＝{x_i∈R^D}_i＝_1...N，y＝{y_i∈R}_i＝_1...N分别代表D维的输入和输出数据，在用PCA对输入变量进行降维处理之前需要对数据进行标准化处理，得到标准化数据集用于建立PCA模型，然后得到得分矩阵T＝{t_i∈R^a}_i＝_1...N，a＜D表示所选择的主成分的数目，基于得分矩阵T和输出向量y＝{y_i∈R}_i＝1...N建立GPR模型，式(7)中输出向量满足均值为0，协方差矩阵为C的高斯(Gaussian Process,GP)分布，即GP(0,C)：

因此误差数据矩阵表示成：

X_e＝[T,e] (8)

式中表示GPR模型关于训练集的预测输出误差向量；

由于任意一个样本数据x_e∈R^a+1服从非高斯分布，一个单独的高斯分布不能有效的描述其概率特征，选择合适数目的高斯成分，根据GMM算法的建模步骤，关于x_e的概率密度函数表示为：

式(9)中，π_k为第k个高斯成分所占的权重，满足通过建立EGMM模型可以计算得到相应的条件误差概率密度函数和相关的均值和方差：

式中的t是输入得分向量，x_e＝[t^T,e]^T，P(x_e)表示EGMM的联合概率密度函数，

由于式(10)～(12)很难直接计算得到，选择数值解析法对此求解，对每个高斯成分k，其均值向量μ_k和方差矩阵Σ_k表示为：

μ_t,k是第k个高斯成分的输入得分向量均值，μ_e,k是第k个高斯成分的误差均值，估计得到每个高斯成分的条件误差均值μ_e|t,k和条件误差方差Σ_tt,k为第k个高斯成分得分向量间的协方差矩阵，Σ_te,k是第k个高斯成分的预测误差向量与得分向量的协方差矩阵，Σ_et,k表示第k个高斯成分的得分向量与预测误差向量的协方差矩阵，是第k个高斯成分的误差方差：

基于公式(15)和(16)，根据一定的权值β_k进行融合，可估计得到K个混合高斯成分的条件误差均值μ_e|t和条件误差方差

然而EGMM模型的建立需要选择合适数目的高斯成分，选择如式(20)所示的BIC作为性能标准决定最优化的高斯成分的个数K，结果针对于本实施例，优化得到7个高斯成分，其迭代过程如图4所示。

BIC＝-2L+n_p log(n) (20)

式中的表示对数似然函数，n_p表示K个高斯成分所具有的自由参数的个数，n表示训练数据集中数据的个数，λ_k为第k个成分的权重，

条件误差方差可用来对GPR模型的预测表现性能进行评估，条件误差均值μ_e|t表明任意特定的输出是否有偏差，因此，用μ_e|t对预测输出进行校正从而提高预测精度，软测量模型最终校正的预测输出为：

式中的表示GPR模型的预测值，表示由公式(17)计算得到的新查询样本对应的条件误差均值。即表示H₂S的预测浓度。

图5表示没有用EGMM进行补偿和用EGMM进行补偿后的预测结果。由图可知，用EGMM进行补偿后，预测结果更加的精确。因此所提软测量建模方法能够有效地提高预测精度，更加准确的预测H₂S的浓度。

表1SRU装置的输入和输出变量的描述

Claims

1.基于EGMM的高斯过程回归软测量建模方法，其特征在于，该方法步骤为：

步骤1：收集输入输出数据组成历史训练数据库

步骤2：对输入和输出数据进行标准化处理，并用PCA进行信息提取得到得分矩阵，PCA算法为：

给定训练数据X∈R^n×m，m是过程变量的维数，n是训练数据的数目，PCA是在X的协方差矩阵基础上实现的，通过奇异值分解(singular value decomposition，SVD)的方法建模PCA模型，假设PCA模型有q个主成分，将X分解为如下形式：

式中,T∈R^n×q和分别是主成分子空间和残差子空间的得分矩阵，P∈R^m×q和是主成分子空间和残差子空间相应的载荷矩阵，E是残差矩阵，

步骤3：建立得分矩阵和输出数据之间的GPR模型，然后用已经建立的GPR模型对训练数据集的得分矩阵进行预测得到预测值，最后得到输出误差，建立的GPR模型为：

给定训练样本集X∈R^D×N和y∈R^N，其中X＝{x_i∈R^D}_i＝1…N，y＝{y_i∈R}_i＝1…N分别代表D维的输入和输出数据，输入和输出之间的关系由公式(2)产生：

y＝f(x)+ε (2)

其中f是未知的函数形式，ε是均值为0，方差为的高斯噪声，对于一个新的输入x^*，相应的概率预测输出y^*也满足高斯分布，其均值和方差如式(3)和(4)所示：

y^*(x^*)＝c^T(x^*)C^-1y (3)

<mrow> <msubsup> <mi>&sigma;</mi> <msup> <mi>y</mi> <mo>*</mo> </msup> <mn>2</mn> </msubsup> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mo>*</mo> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mi>c</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mo>*</mo> </msup> <mo>,</mo> <msup> <mi>x</mi> <mo>*</mo> </msup> <mo>)</mo> </mrow> <mo>-</mo> <msup> <mi>c</mi> <mi>T</mi> </msup> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mo>*</mo> </msup> <mo>)</mo> </mrow> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mi>c</mi> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mo>*</mo> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

式中c(x^*)＝[c(x^*,x₁),…,c(x^*,x_n)]^T是训练数据和测试数据之间的协方差矩阵，是训练数据之间的协方差矩阵，I是N×N维的单位矩阵，c(x^*,x^*)是测试数据的自协方差；

<mrow> <mi>c</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>x</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>v</mi> <mi> </mi> <mi>exp</mi> <mo>&lsqb;</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>d</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>D</mi> </munderover> <msub> <mi>&omega;</mi> <mi>d</mi> </msub> <msup> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mi>d</mi> </msubsup> <mo>-</mo> <msubsup> <mi>x</mi> <mi>j</mi> <mi>d</mi> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

对式(5)中的未知参数v,ω₁,…,ω_D和高斯噪声方差的估计，通过极大似然估计得到参数

<mrow> <mi>L</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mi>det</mi> <mo>(</mo> <mi>C</mi> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msup> <mi>y</mi> <mi>T</mi> </msup> <msup> <mi>C</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <mi>y</mi> <mo>-</mo> <mfrac> <mi>N</mi> <mn>2</mn> </mfrac> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>2</mn> <mi>&pi;</mi> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

步骤4：基于输出误差和输入得分矩阵组成的误差数据集建立EGMM模型，然后计算得到条件误差均值和方差的表达式，建立EGMM模型的步骤如下所示：

建立EGMM模型，首先需要确定合适的误差数据和高斯成分的数目K，一般误差数据是由GPR模型的输入变量和模型的输出误差组成，给定训练样本集X∈R^D×N和y∈R^N，其中X＝{x_i∈R^D}_i＝1…N，y＝{y_i∈R}_i＝1…N分别代表D维的输入和输出数据，在用PCA对输入变量进行降维处理之前需要对数据进行标准化处理，得到标准化数据集用于建立PCA模型，然后得到得分矩阵T＝{t_i∈R^a}_i＝1...N，a＜D表示所选择的主成分的数目，基于得分矩阵T和输出数据y＝{y_i∈R}_i＝1…N建立GPR模型，式(7)中输出向量满足均值为0，协方差矩阵为C的高斯(Gaussian Process,GP)分布，即GP(0,C)

因此误差数据矩阵表示成：

X_e＝[T,e] (8)

式中表示GPR模型关于训练集的预测输出误差向量；

<mrow> <mi>p</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>e</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>&pi;</mi> <mi>k</mi> </msub> <mi>N</mi> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mi>e</mi> </msub> <mo>|</mo> <msub> <mi>&mu;</mi> <mi>k</mi> </msub> <mo>,</mo> <msubsup> <mi>&sigma;</mi> <mi>k</mi> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

式(9)中，π_k为第k个高斯成分所占的权重，满足通过建立EGMM模型计算得到相应的条件误差概率密度函数和相关的均值和方差：

<mrow> <msub> <mi>&mu;</mi> <mrow> <mi>e</mi> <mo>|</mo> <mi>t</mi> </mrow> </msub> <mo>=</mo> <msub> <mo>&Integral;</mo> <msub> <mi>&Omega;</mi> <mi>e</mi> </msub> </msub> <mi>e</mi> <mi>P</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>|</mo> <mi>t</mi> <mo>)</mo> </mrow> <mi>d</mi> <mi>e</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>&sigma;</mi> <mrow> <mi>e</mi> <mo>|</mo> <mi>t</mi> </mrow> <mn>2</mn> </msubsup> <mo>=</mo> <msub> <mo>&Integral;</mo> <msub> <mi>&Omega;</mi> <mi>e</mi> </msub> </msub> <msup> <mrow> <mo>(</mo> <mi>e</mi> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mi>e</mi> <mo>|</mo> <mi>t</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mi>P</mi> <mrow> <mo>(</mo> <mi>e</mi> <mo>|</mo> <mi>t</mi> <mo>)</mo> </mrow> <mi>d</mi> <mi>e</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

式中的t是输入得分向量，x_e＝[t^T,e]^T，P(x_e)表示EGMM的联合概率密度函数，由于式(10)～(12)很难直接计算得到，选择数值解析法对此求解，对每个高斯成分k，其均值向量μ_k和方差矩阵Σ_k表示为：

<mrow> <msub> <mi>&Sigma;</mi> <mi>k</mi> </msub> <mo>=</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msub> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mi>t</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> </mtd> <mtd> <msub> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mi>e</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> </mtd> </mtr> <mtr> <mtd> <msub> <mi>&Sigma;</mi> <mrow> <mi>e</mi> <mi>t</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> </mtd> <mtd> <msubsup> <mi>&sigma;</mi> <mrow> <mi>e</mi> <mo>,</mo> <mi>k</mi> </mrow> <mn>2</mn> </msubsup> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>14</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&mu;</mi> <mrow> <mi>e</mi> <mo>|</mo> <mi>t</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>&mu;</mi> <mrow> <mi>e</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>&Sigma;</mi> <mrow> <mi>e</mi> <mi>t</mi> </mrow> </msub> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mi>t</mi> <mo>,</mo> <mi>k</mi> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>t</mi> <mo>-</mo> <msub> <mi>&mu;</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>15</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>&sigma;</mi> <mrow> <mi>e</mi> <mo>|</mo> <mi>t</mi> <mo>,</mo> <mi>k</mi> </mrow> <mn>2</mn> </msubsup> <mo>=</mo> <msubsup> <mi>&sigma;</mi> <mrow> <mi>e</mi> <mo>,</mo> <mi>k</mi> </mrow> <mn>2</mn> </msubsup> <mo>+</mo> <msub> <mi>&Sigma;</mi> <mrow> <mi>e</mi> <mi>t</mi> </mrow> </msub> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mi>t</mi> <mo>,</mo> <mi>k</mi> </mrow> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msubsup> <msub> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mi>e</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>16</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&mu;</mi> <mrow> <mi>e</mi> <mo>|</mo> <mi>t</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>&beta;</mi> <mi>k</mi> </msub> <msub> <mover> <mi>&mu;</mi> <mo>^</mo> </mover> <mrow> <mi>e</mi> <mo>|</mo> <mi>t</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>17</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msubsup> <mi>&sigma;</mi> <mrow> <mi>e</mi> <mo>|</mo> <mi>t</mi> </mrow> <mn>2</mn> </msubsup> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>&beta;</mi> <mi>k</mi> </msub> <msubsup> <mi>&sigma;</mi> <mrow> <mi>e</mi> <mo>|</mo> <mi>t</mi> <mo>,</mo> <mi>k</mi> </mrow> <mn>2</mn> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>18</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&beta;</mi> <mi>k</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&pi;</mi> <mi>k</mi> </msub> <mi>N</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>|</mo> <msub> <mi>&mu;</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mi>t</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>&pi;</mi> <mi>k</mi> </msub> <mi>N</mi> <mrow> <mo>(</mo> <mi>t</mi> <mo>|</mo> <msub> <mi>&mu;</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>,</mo> <msub> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mi>t</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>19</mn> <mo>)</mo> </mrow> </mrow>

然而EGMM模型的建立需要选择合适数目的高斯成分，采用如式(20)所示的贝叶斯信息准则(Bayesian information criterion,BIC)对GMM模型进行优化；

BIC＝-2L+n_plog(n) (20)

式中的表示对数似然函数，n_p表示K个高斯成分所具有的自由参数的个数，λ_k为第k个成分的权重，

式中的表示GPR模型的预测值，表示由公式(17)计算得到的新查询样本对应的条件误差均值。

2.根据权利要求1所述的基于EGMM的高斯过程回归软测量建模方法，其特征在于，从预测误差中提取条件误差均值，对输出进行补偿得到更加精确的预测结果。