CN105913078A

CN105913078A - 改进自适应仿射传播聚类的多模型软测量方法

Info

Publication number: CN105913078A
Application number: CN201610214742.3A
Authority: CN
Inventors: 熊伟丽; 葛祥振; 李妍君
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2016-04-07
Filing date: 2016-04-07
Publication date: 2016-08-31

Abstract

本发明公开了一种改进自适应仿射传播聚类的多模型软测量方法。用于具有多工况特征的化工生产过程。该方法利用差分进化算法对自适应仿射传播聚类算法进行改进，对偏置参数和阻尼系数进行局部范围内寻优，划分得到更优的子数据集，并建立各个高斯过程回归子模型。当新的数据到来时，利用基于子模型预测性能的贝叶斯融合方法自适应地计算出当前数据隶属于各个子模型的后验概率，并对各子模型的预测值进行融合得到最终输出，实现对生产过程中关键变量的精确预测，从而降低生产成本，提高产品质量。

Description

改进自适应仿射传播聚类的多模型软测量方法

技术领域

本发明涉及的改进自适应仿射传播聚类的多模型软测量方法，属于复杂工业过程建模和软测量领域。

背景技术

工业生产过程的复杂程度正在日益增加，往往伴随着多工况、非线性和时变等过程特征，其相应的计算机控制系统也在不断地升级和完善，同时推动了基于数据驱动理论的软测量建模方法的发展。常见的建模方法如偏最小二乘法(Partial Least Squares，PLS)、人工神经网络(Artificial Neural Networks，ANN)、最小二乘支持向量机(LeastSquares Support Vector Machine，LSSVM)等都可以得到良好的预测效果。

高斯过程回归(Gaussian Process Regression，GPR)鉴于其具有预测精度高、输出具有概率意义的优点，近几年被广泛应用于软测量建模。

对于实际的工业生产过程，一般的单模型软测量方法无法对复杂工况进行比较全面的描述，模型的预测效果也往往不理想。多模型建模方法通过对复杂系统进行工况划分并建立相应的子模型，能对主导变量进行比较准确的预测，有效地提高了模型的预测精度和泛化性能。

在多模型建模过程中，将建模数据进行准确聚类是保证所建模型预测性能的前提，对具有多工况特征的生产过程建模具有重要意义。传统的聚类算法，如模糊C均值、k-means等对初始聚类中心的选取较敏感，并不能保证聚类的质量。仿射传播(AffinityPropagation，AP)聚类是一种新型的聚类算法，聚类初始时将所有数据点作为潜在的聚类中心，聚类过程中各数据点迭代竞争聚类中心，得到的聚类结果与数据的真实特性更加吻合。但在传统的AP算法中，偏置参数的确定缺乏理论依据，在没有先验知识的情况下，偏置参数一般取相似度矩阵的中值或最小值。因此，偏置参数的确定成为研究AP算法的重要问题。

在预测最终输出时，组合各个局部模型输出的方式对模型预测结果也具有重要影响。目前，组合方式主要分为两种：“开关切换”方式和“加权融合”方式。前者只选择可能性最大的局部模型预测最终输出，很难对操作阶段过渡过程的动态特性进行有效描述；此外，相对“加权融合”方式，可以认为“开关切换”方式是一种使小概率模型权重为0的特殊情况。因此，在实际建模过程中，“加权融合”方式得到了越来越广泛的关注和应用。

发明内容

针对具有多工况特征的工业生产过程，为提高产品的质量，对生产过程进行监控，本文提供了一种可对生产过程中难测得参数进行准确预测的多模型软测量建模方法。

利用改进自适应AP算法对训练样本进行聚类，划分得到具有较好结构的子数据集并建立各GPR子模型，对于新来的样本，利用贝叶斯方法对各子模型的预测值进行融合，实现对工业生产过程中难测变量的准确预测，降低成本，提高产品质量。

本发明是通过以下技术方案实现的：

利用自适应AP算法确定偏置参数近似值，并基于此近似值，将BWP指标作为目标函数，利用差分进化算法对偏置参数和阻尼系数进行局部范围内寻优，将所求参数代入AP算法对训练样本进行聚类，划分得到更优的子数据集，并建立各个GPR子模型；

对于新来的样本，利用基于子模型预测性能的贝叶斯方法自适应地计算出当前样本隶属于各子模型的后验概率，并对各子模型进行融合，得到最终的全局预测模型，从而可以实现一些工业过程关键变量的软测量。

附图说明

图1是改进自适应AP聚类的多模型软测量流程图；

图2是训练样本的类别归属情况；

图3是Ns不同取值时两种建模方法的均方根误差；

图4是青霉素浓度预测输出结果；

图5是几种建模方法的预测误差；

图6是测试样本隶属于各个操作阶段的后验概率；

具体实施方式

青霉素发酵是典型的微生物发酵过程，其发酵过程受多种因素影响，而且具有明显的阶段性和高度的非线性等特征，建立精确的软测量模型对优化该生化发酵过程具有重要的意义。选取溶解氧浓度、生物量浓度、基质浓度、二氧化碳浓度、PH值、空气流量6个参数作为输入变量，以发酵过程中青霉素的浓度作为输出变量。

下面结合图1所示，对本发明做进一步详述：

步骤1：收集输入输出数据，组成训练样本数据库。

步骤2：利用改进的自适应仿射传播聚类算法(Affinity Propagation，AP)确定偏置参数和阻尼系数值，并将所求参数代入AP算法，对训练样本进行聚类，得到具有较好结构的子数据集，图2为两种聚类方法对训练样本划分所得的结果。所述改进自适应AP算法为：

AP是一种基于样本相似度矩阵S进行聚类的算法。给定训练样本集D＝{(x_i,y_i)},i＝1,2,...,n，定义任意两个样本x_i和x_k之间的相似度为欧式距离平方的负值，即S(i,k)＝-||xx-x_k||²。相似度矩阵主对角线上的元素S(k,k)称作偏置参数。同时，AP算法引入了两个证据参数，证据R(i,k)描述点k作为点i的聚类中心的适合程度，证据A(i,k)描述点i对点k作为其聚类中心的适合程度。迭代更新公式分别为：

R (i, k) = S (i, k) - \underset{j : j &NotEqual; k}{m a x} {A (i, j) + S (i, j)} - - - (1)

A (i, k) = m i n {0, R (k, k) + \underset{j : j &NotElement; {i, k}}{Σ} \max {0, R (j, k)}} - - - (2)

为避免在迭代过程中发生震荡，在更新过程中引入阻尼系数λ，更新公式如下：

R^new(i,k)＝(1-λ)R(i,k)+λR^old(i,k) (3)

A^new(i,k)＝(1-λ)A(i,k)+λA^old(i,k) (4)

式中，R^new(i,k)和A^new(i,k)为当前迭代的值，R^old(i,k)和A^old(i,k)分别为前一次迭代的值。

Step1：针对训练样本聚类数目已知的情况，利用自适应AP算法，通过建立偏置参数p和指定聚类数目K的关系，求得偏置参数的近似值。

Step2：将BWP指标作为目标函数，用差分进化算法对偏置参数和阻尼系数进行局部范围内寻优，从而得到更好的聚类结果。优化问题可表述为：

\begin{matrix} \max & B W P (X), X = {X_{1}, X_{2}, ..., X_{K}} \\ s . t . & p_{α} + {βp}_{α} < p < p_{α} - {βp}_{α}; 0.5 < λ < 0.9 \end{matrix} - - - (5)

式中，X₁,X₂,...,X_K为聚类所得的K个子数据集，p_α为Step1中求得的偏置参数值，β为缩放因子，可根据不同应用进行调整。

上述BWP指标是一种新的聚类评价指标，可对聚类划分所得数据集的类内紧密性和类间可分性进行综合分析与评价，计算公式为：

B W P = \frac{1}{n} Σ_{j = 1}^{K} Σ_{i = 1}^{n_{j}} \frac{{bd}_{i}^{j} - {wd}_{i}^{j}}{{bd}_{i}^{j} + {wd}_{i}^{j}} - - - (6)

式中，n为数据总数，K为聚类数目，n_j为第j类的数据个数；为第j类的第i个数据到其他每个类中数据平均距离的最小值；为第j类的第i个数据到第j类中其他所有数据的平均距离。

Step3：将Step2中求得的偏置参数和阻尼系数值代入AP算法，对数据集进行聚类，即可得到具有较好聚类结构的子数据集。

步骤3：根据步骤2划分得到的子数据集，建立各个高斯过程回归(GaussianProcess Regression，GPR)子模型。

给定训练样本集D＝{(x_i,y_i)},i＝1,2,...,n_，其中x_i∈R^D,y_i∈R,i＝1,2,...,n，分别代表D维输入和1维输出数据，n为训练样本个数。

对于一个新来数据x^*，可以得到预测输出的均值和方差，分别为：

y^*(x^*)＝k^*TC^-1y (7)

σ_{y^{*}}^{2} (x^{*}) = k - k^{* T} C^{- 1} k^{*} - - - (8)

式中，k^*＝[k(x^*,x₁),...,k(x^*,x_n)]^T是训练样本和测试输入之间的n×1维协方差矩阵，是训练样本之间的n×n维协方差矩阵，表示噪声方差，k是测试输入和自身的协方差。

k (x_{i}, x_{j}) = v \exp [- \frac{1}{2} Σ_{d = 1}^{D} ω_{d} {(x_{i}^{d} - x_{j}^{d})}^{2}] - - - (9)

式中，v表示先验知识的总体度量，ω_d代表每个成分x^d的相关性程度。

上述协方差函数确定后，需要对未知参数进行估计，一般通过极大似然估计求解：

L (θ) = - \frac{1}{2} l o g (\det (C)) - \frac{1}{2} y^{T} C^{- 1} y - \frac{n}{2} l o g (2 π) - - - (10)

可先将θ设为一个合理范围内的随机值，然后用共轭梯度法来搜索参数的最优值。求得参数后，对于新来的样本x^*，通过公式(7)(8)即可得到相应的输出值。

步骤4：利用基于子模型预测性能的贝叶斯融合算法自适应地计算出各子模型的权重。

对于新来的样本x_new，基于贝叶斯定理，最终的预测结果可以表示为：

{\hat{y}}_{n e w} = Σ_{k = 1}^{K} P ({SM}_{k} | x_{n e w}) {\hat{y}}_{n e w, k} - - - (11)

式中，为最终的预测输出，P(SM_k|x_new)为x_new隶属于第k个子模型的后验概率，为第k个子模型对x_new的预测输出。

由贝叶斯定理知，后验概率可用下式计算：

P ({SM}_{k} | x_{n e w}) = \frac{P ({SM}_{k}) P (x_{n e w} | {SM}_{k})}{Σ_{i = 1}^{K} P ({SM}_{i}) P (x_{n e w} | {SM}_{i})} - - - (12)

式中_，P(SM_k)为第k个子模型的先验概率，P(x_new|SM_k)为x_new隶属于第k个子模型的条件概率。

对于新来的样本，通过欧式距离和角度相结合的准则，在训练样本中查询与之相似度最大的N_s个样本构成相似样本集[X_s,Y_s]，并计算出该样本集在各个子模型中的均方根误差，分别为：

{RMSE}_{k} = \sqrt{\frac{1}{N_{s}} Σ_{i = 1}^{N_{s}} {({\hat{y}}_{k, i} - y_{s, i})}^{2}}, k = 1, ..., K - - - (13)

式中，和y_s,i分别为相似样本集中的第i个样本在第k个子模型中的预测值和样本真值。由上述计算过程可知，N_s的取值会对当前样本隶属于各个子模型后验概率的计算产生影响。图3为N_s在不同取值情况下两种建模方法的均方根误差。

P (N_{n e w} | {SM}_{k}) = \frac{ω_{k}}{Σ_{i = 1}^{K} ω_{i}} - - - (14)

式中，

ω_{k} = \frac{1}{{RMSE}_{k}^{2}} - - - (15)

同时_，定义P(SM_k)为：

P ({SM}_{k}) = \frac{N_{s, k}}{N_{s}} - - - (16)

式中，N_s,k为第k个子数据集中的相似样本个数。

步骤5：对步骤3建立的各个阶段的子模型利用式(12)所求的测试样本隶属于各个操作阶段的后验概率(如图6所示)进行融合得到全局预测模型，即式(11)，全局预测模型的输出即为发酵过程中青霉素浓度的预测结果。

为进一步研究本文所提建模方法的预测性能，将几种不同的建模方法与多模型融合方式进行组合，并对仿真结果进行对比与分析。方法一为自适应AP-GPR-切换方式建模方法(“切换方式”，即对于新来的测试样本，基于距离和角度相结合的准则计算其与各聚类中心的相似度，选择相似度最大的聚类中心对应的子模型对当前样本进行预测)，方法二为自适应AP-GPR-Bayes方法，方法三为改进自适应AP-GPR-Bayes方法。

图4为N_s取值为5时几种建模方法所得青霉素浓度预测值和真值的对比曲线，可见，几种建模方法均具有较好的预测效果。图5为几种建模方法预测误差的对比，由图可知，基于改进自适应仿射传播聚类的多模型软测量方法能对发酵过程中青霉素的浓度进行准确预测。

Claims

1.改进自适应仿射传播聚类的多模型软测量方法，其特征在于，该方法步骤为：

步骤1：收集输入输出数据，组成训练样本数据库。

步骤2：利用改进的自适应仿射传播聚类算法(Affinity Propagation，AP)确定偏置参数和阻尼系数值，并将所求参数代入AP算法，对训练样本进行聚类，得到具有较好结构的子数据集。所述改进自适应AP算法为：

AP是一种基于样本相似度矩阵S进行聚类的算法。给定训练样本集D＝{(x_i,y_i)},i＝1,2,...,n，定义任意两个样本x_i和x_k之间的相似度为欧式距离平方的负值，即S(i,k)＝-||x_i-x_k||²。相似度矩阵主对角线上的元素S(k,k)称作偏置参数。同时，AP算法引入了两个证据参数，证据R(i,k)描述点k作为点i的聚类中心的适合程度，证据A(i,k)描述点i对点k作为其聚类中心的适合程度。迭代更新公式分别为：

R (i, k) = S (i, k) - \underset{j : j &NotEqual; k}{m a x} {A (i, j) + S (i, j)} - - - (1)

A (i, k) = m i n {0, R (k, k) + \underset{j : j &NotElement; {i, k}}{Σ} m a x {0, R (j, k)}} - - - (2)

R^new(i,k)＝(1-λ)R(i,k)+λR^old(i,k) (3)

A^new(i,k)＝(1-λ)A(i,k)+λA^old(i,k) (4)

\begin{matrix} \max & B W P (X), X = {X_{1}, X_{2}, ..., X_{K}} \\ s . t . & p_{α} + {βp}_{α} < p < p_{α} - {βp}_{α}; 05 < λ < 0.9 \end{matrix} - - - (5)

B W P = \frac{1}{n} Σ_{j = 1}^{K} Σ_{i = 1}^{n_{j}} \frac{{bd}_{i}^{j} - {wd}_{i}^{j}}{{bd}_{i}^{j} + {wd}_{i}^{j}} - - - (6)

步骤3：根据步骤2划分得到的子数据集，建立各个高斯过程回归(Gaussian ProcessRegression，GPR)子模型。

给定训练样本集D＝{(x_i,y_i)},i＝1,2,...,n，其中x_i∈R^D,y_i∈R,i＝1,2,...,n，分别代表D维输入和1维输出数据，n为训练样本个数。

y^*(x^*)＝k*^TC-¹y (7)

σ_{y^{*}}^{2} (x^{*}) = k - k^{* T} C^{- 1} k^{*} - - - (8)

式中，k*＝[k(x*,x₁),...,k(x*,x_n)]^T是训练样本和测试输入之间的n×1维协方差矩阵，是训练样本之间的n×n维协方差矩阵，表示噪声方差，k是测试输入和自身的协方差。

k (x_{i}, x_{j}) = v \exp [- \frac{1}{2} Σ_{d = 1}^{D} ω_{d} {(x_{i}^{d} - x_{j}^{d})}^{2}] - - - (9)

L (θ) = - \frac{1}{2} l o g (\det (C)) - \frac{1}{2} y^{T} C^{- 1} y - \frac{n}{2} l o g (2 π) - - - (10)

{\hat{y}}_{n e w} = Σ_{k = 1}^{K} P ({SM}_{k} | x_{n e w}) {\hat{y}}_{n e w, k} - - - (11)

由贝叶斯定理知，后验概率可用下式计算：

P ({SM}_{k} | x_{n e w}) = \frac{P ({SM}_{k}) P (x_{n e w} | {SM}_{k})}{Σ_{i = 1}^{K} P ({SM}_{i}) P (x_{n e w} | {SM}_{i})} - - - (12)

式中_，P(SM_k)为第k个子模型的先验概率_，P(x_new|SM_k)为x_new隶属于第k个子模型的条件概率_。对于新来的样本，通过欧式距离和角度相结合的准则，在训练样本中查询与之相似度最大的N_s个样本构成相似样本集[X_s,Y_s]，并计算出该样本集在各个子模型中的均方根误差，分别为：

{RMSE}_{k} = \sqrt{\frac{1}{N_{s}} Σ_{i = 1}^{N_{s}} {({\hat{y}}_{k, i} - y_{s, i})}^{2}}, k = 1, ..., K - - - (13)

式中，和y_s,i分别为相似样本集中的第i个样本在第k个子模型中的预测值和样本真值。

P (x_{n e w} | {SM}_{k}) = \frac{ω_{k}}{Σ_{i = 1}^{K} ω_{i}} - - - (14)

式中，

ω_{k} = \frac{1}{{RMSE}_{k}^{2}} - - - (15)

同时_，定义P(SM_k)为_：

P ({SM}_{k}) = \frac{N_{s, k}}{N_{s}} - - - (16)

式中，N_s,k为第k个子数据集中的相似样本个数。

步骤5：对步骤3所得的预测值和步骤4所得的后验概率利用式(11)进行融合即可得到最终的预测输出。

2.根据权利要求1所述的改进自适应仿射传播聚类的多模型软测量方法，其特征在于，基于BWP指标，利用差分进化算法对自适应仿射传播聚类算法进行改进，使算法可以自适应地确定偏置参数和阻尼系数值，划分得到具有较优聚类结构的子数据集。