CN105913078A - 改进自适应仿射传播聚类的多模型软测量方法 - Google Patents
改进自适应仿射传播聚类的多模型软测量方法 Download PDFInfo
- Publication number
- CN105913078A CN105913078A CN201610214742.3A CN201610214742A CN105913078A CN 105913078 A CN105913078 A CN 105913078A CN 201610214742 A CN201610214742 A CN 201610214742A CN 105913078 A CN105913078 A CN 105913078A
- Authority
- CN
- China
- Prior art keywords
- formula
- new
- algorithm
- sample
- submodel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Abstract
本发明公开了一种改进自适应仿射传播聚类的多模型软测量方法。用于具有多工况特征的化工生产过程。该方法利用差分进化算法对自适应仿射传播聚类算法进行改进,对偏置参数和阻尼系数进行局部范围内寻优,划分得到更优的子数据集,并建立各个高斯过程回归子模型。当新的数据到来时,利用基于子模型预测性能的贝叶斯融合方法自适应地计算出当前数据隶属于各个子模型的后验概率,并对各子模型的预测值进行融合得到最终输出,实现对生产过程中关键变量的精确预测,从而降低生产成本,提高产品质量。
Description
技术领域
本发明涉及的改进自适应仿射传播聚类的多模型软测量方法,属于复杂工业过程建模和软测量领域。
背景技术
工业生产过程的复杂程度正在日益增加,往往伴随着多工况、非线性和时变等过程特征,其相应的计算机控制系统也在不断地升级和完善,同时推动了基于数据驱动理论的软测量建模方法的发展。常见的建模方法如偏最小二乘法(Partial Least Squares,PLS)、人工神经网络(Artificial Neural Networks,ANN)、最小二乘支持向量机(LeastSquares Support Vector Machine,LSSVM)等都可以得到良好的预测效果。
高斯过程回归(Gaussian Process Regression,GPR)鉴于其具有预测精度高、输出具有概率意义的优点,近几年被广泛应用于软测量建模。
对于实际的工业生产过程,一般的单模型软测量方法无法对复杂工况进行比较全面的描述,模型的预测效果也往往不理想。多模型建模方法通过对复杂系统进行工况划分并建立相应的子模型,能对主导变量进行比较准确的预测,有效地提高了模型的预测精度和泛化性能。
在多模型建模过程中,将建模数据进行准确聚类是保证所建模型预测性能的前提,对具有多工况特征的生产过程建模具有重要意义。传统的聚类算法,如模糊C均值、k-means等对初始聚类中心的选取较敏感,并不能保证聚类的质量。仿射传播(AffinityPropagation,AP)聚类是一种新型的聚类算法,聚类初始时将所有数据点作为潜在的聚类中心,聚类过程中各数据点迭代竞争聚类中心,得到的聚类结果与数据的真实特性更加吻合。但在传统的AP算法中,偏置参数的确定缺乏理论依据,在没有先验知识的情况下,偏置参数一般取相似度矩阵的中值或最小值。因此,偏置参数的确定成为研究AP算法的重要问题。
在预测最终输出时,组合各个局部模型输出的方式对模型预测结果也具有重要影响。目前,组合方式主要分为两种:“开关切换”方式和“加权融合”方式。前者只选择可能性最大的局部模型预测最终输出,很难对操作阶段过渡过程的动态特性进行有效描述;此外,相对“加权融合”方式,可以认为“开关切换”方式是一种使小概率模型权重为0的特殊情况。因此,在实际建模过程中,“加权融合”方式得到了越来越广泛的关注和应用。
发明内容
针对具有多工况特征的工业生产过程,为提高产品的质量,对生产过程进行监控,本文提供了一种可对生产过程中难测得参数进行准确预测的多模型软测量建模方法。
利用改进自适应AP算法对训练样本进行聚类,划分得到具有较好结构的子数据集并建立各GPR子模型,对于新来的样本,利用贝叶斯方法对各子模型的预测值进行融合,实现对工业生产过程中难测变量的准确预测,降低成本,提高产品质量。
本发明是通过以下技术方案实现的:
利用自适应AP算法确定偏置参数近似值,并基于此近似值,将BWP指标作为目标函数,利用差分进化算法对偏置参数和阻尼系数进行局部范围内寻优,将所求参数代入AP算法对训练样本进行聚类,划分得到更优的子数据集,并建立各个GPR子模型;
对于新来的样本,利用基于子模型预测性能的贝叶斯方法自适应地计算出当前样本隶属于各子模型的后验概率,并对各子模型进行融合,得到最终的全局预测模型,从而可以实现一些工业过程关键变量的软测量。
附图说明
图1是改进自适应AP聚类的多模型软测量流程图;
图2是训练样本的类别归属情况;
图3是Ns不同取值时两种建模方法的均方根误差;
图4是青霉素浓度预测输出结果;
图5是几种建模方法的预测误差;
图6是测试样本隶属于各个操作阶段的后验概率;
具体实施方式
青霉素发酵是典型的微生物发酵过程,其发酵过程受多种因素影响,而且具有明显的阶段性和高度的非线性等特征,建立精确的软测量模型对优化该生化发酵过程具有重要的意义。选取溶解氧浓度、生物量浓度、基质浓度、二氧化碳浓度、PH值、空气流量6个参数作为输入变量,以发酵过程中青霉素的浓度作为输出变量。
下面结合图1所示,对本发明做进一步详述:
步骤1:收集输入输出数据,组成训练样本数据库。
步骤2:利用改进的自适应仿射传播聚类算法(Affinity Propagation,AP)确定偏置参数和阻尼系数值,并将所求参数代入AP算法,对训练样本进行聚类,得到具有较好结构的子数据集,图2为两种聚类方法对训练样本划分所得的结果。所述改进自适应AP算法为:
AP是一种基于样本相似度矩阵S进行聚类的算法。给定训练样本集D={(xi,yi)},i=1,2,...,n,定义任意两个样本xi和xk之间的相似度为欧式距离平方的负值,即S(i,k)=-||xx-xk||2。相似度矩阵主对角线上的元素S(k,k)称作偏置参数。同时,AP算法引入了两个证据参数,证据R(i,k)描述点k作为点i的聚类中心的适合程度,证据A(i,k)描述点i对点k作为其聚类中心的适合程度。迭代更新公式分别为:
为避免在迭代过程中发生震荡,在更新过程中引入阻尼系数λ,更新公式如下:
Rnew(i,k)=(1-λ)R(i,k)+λRold(i,k) (3)
Anew(i,k)=(1-λ)A(i,k)+λAold(i,k) (4)
式中,Rnew(i,k)和Anew(i,k)为当前迭代的值,Rold(i,k)和Aold(i,k)分别为前一次迭代的值。
Step1:针对训练样本聚类数目已知的情况,利用自适应AP算法,通过建立偏置参数p和指定聚类数目K的关系,求得偏置参数的近似值。
Step2:将BWP指标作为目标函数,用差分进化算法对偏置参数和阻尼系数进行局部范围内寻优,从而得到更好的聚类结果。优化问题可表述为:
式中,X1,X2,...,XK为聚类所得的K个子数据集,pα为Step1中求得的偏置参数值,β为缩放因子,可根据不同应用进行调整。
上述BWP指标是一种新的聚类评价指标,可对聚类划分所得数据集的类内紧密性和类间可分性进行综合分析与评价,计算公式为:
式中,n为数据总数,K为聚类数目,nj为第j类的数据个数;为第j类的第i个数据到其他每个类中数据平均距离的最小值;为第j类的第i个数据到第j类中其他所有数据的平均距离。
Step3:将Step2中求得的偏置参数和阻尼系数值代入AP算法,对数据集进行聚类,即可得到具有较好聚类结构的子数据集。
步骤3:根据步骤2划分得到的子数据集,建立各个高斯过程回归(GaussianProcess Regression,GPR)子模型。
给定训练样本集D={(xi,yi)},i=1,2,...,n,其中xi∈RD,yi∈R,i=1,2,...,n,分别代表D维输入和1维输出数据,n为训练样本个数。
对于一个新来数据x*,可以得到预测输出的均值和方差,分别为:
y*(x*)=k*TC-1y (7)
式中,k*=[k(x*,x1),...,k(x*,xn)]T是训练样本和测试输入之间的n×1维协方差矩阵,是训练样本之间的n×n维协方差矩阵,表示噪声方差,k是测试输入和自身的协方差。
式中,v表示先验知识的总体度量,ωd代表每个成分xd的相关性程度。
上述协方差函数确定后,需要对未知参数进行估计,一般通过极大似然估计求解:
可先将θ设为一个合理范围内的随机值,然后用共轭梯度法来搜索参数的最优值。求得参数后,对于新来的样本x*,通过公式(7)(8)即可得到相应的输出值。
步骤4:利用基于子模型预测性能的贝叶斯融合算法自适应地计算出各子模型的权重。
对于新来的样本xnew,基于贝叶斯定理,最终的预测结果可以表示为:
式中,为最终的预测输出,P(SMk|xnew)为xnew隶属于第k个子模型的后验概率,为第k个子模型对xnew的预测输出。
由贝叶斯定理知,后验概率可用下式计算:
式中,P(SMk)为第k个子模型的先验概率,P(xnew|SMk)为xnew隶属于第k个子模型的条件概率。
对于新来的样本,通过欧式距离和角度相结合的准则,在训练样本中查询与之相似度最大的Ns个样本构成相似样本集[Xs,Ys],并计算出该样本集在各个子模型中的均方根误差,分别为:
式中,和ys,i分别为相似样本集中的第i个样本在第k个子模型中的预测值和样本真值。由上述计算过程可知,Ns的取值会对当前样本隶属于各个子模型后验概率的计算产生影响。图3为Ns在不同取值情况下两种建模方法的均方根误差。
式中,
同时,定义P(SMk)为:
式中,Ns,k为第k个子数据集中的相似样本个数。
步骤5:对步骤3建立的各个阶段的子模型利用式(12)所求的测试样本隶属于各个操作阶段的后验概率(如图6所示)进行融合得到全局预测模型,即式(11),全局预测模型的输出即为发酵过程中青霉素浓度的预测结果。
为进一步研究本文所提建模方法的预测性能,将几种不同的建模方法与多模型融合方式进行组合,并对仿真结果进行对比与分析。方法一为自适应AP-GPR-切换方式建模方法(“切换方式”,即对于新来的测试样本,基于距离和角度相结合的准则计算其与各聚类中心的相似度,选择相似度最大的聚类中心对应的子模型对当前样本进行预测),方法二为自适应AP-GPR-Bayes方法,方法三为改进自适应AP-GPR-Bayes方法。
图4为Ns取值为5时几种建模方法所得青霉素浓度预测值和真值的对比曲线,可见,几种建模方法均具有较好的预测效果。图5为几种建模方法预测误差的对比,由图可知,基于改进自适应仿射传播聚类的多模型软测量方法能对发酵过程中青霉素的浓度进行准确预测。
Claims (2)
1.改进自适应仿射传播聚类的多模型软测量方法,其特征在于,该方法步骤为:
步骤1:收集输入输出数据,组成训练样本数据库。
步骤2:利用改进的自适应仿射传播聚类算法(Affinity Propagation,AP)确定偏置参数和阻尼系数值,并将所求参数代入AP算法,对训练样本进行聚类,得到具有较好结构的子数据集。所述改进自适应AP算法为:
AP是一种基于样本相似度矩阵S进行聚类的算法。给定训练样本集D={(xi,yi)},i=1,2,...,n,定义任意两个样本xi和xk之间的相似度为欧式距离平方的负值,即S(i,k)=-||xi-xk||2。相似度矩阵主对角线上的元素S(k,k)称作偏置参数。同时,AP算法引入了两个证据参数,证据R(i,k)描述点k作为点i的聚类中心的适合程度,证据A(i,k)描述点i对点k作为其聚类中心的适合程度。迭代更新公式分别为:
为避免在迭代过程中发生震荡,在更新过程中引入阻尼系数λ,更新公式如下:
Rnew(i,k)=(1-λ)R(i,k)+λRold(i,k) (3)
Anew(i,k)=(1-λ)A(i,k)+λAold(i,k) (4)
式中,Rnew(i,k)和Anew(i,k)为当前迭代的值,Rold(i,k)和Aold(i,k)分别为前一次迭代的值。
Step1:针对训练样本聚类数目已知的情况,利用自适应AP算法,通过建立偏置参数p和指定聚类数目K的关系,求得偏置参数的近似值。
Step2:将BWP指标作为目标函数,用差分进化算法对偏置参数和阻尼系数进行局部范围内寻优,从而得到更好的聚类结果。优化问题可表述为:
式中,X1,X2,...,XK为聚类所得的K个子数据集,pα为Step1中求得的偏置参数值,β为缩放因子,可根据不同应用进行调整。
上述BWP指标是一种新的聚类评价指标,可对聚类划分所得数据集的类内紧密性和类间可分性进行综合分析与评价,计算公式为:
式中,n为数据总数,K为聚类数目,nj为第j类的数据个数;为第j类的第i个数据到其他每个类中数据平均距离的最小值;为第j类的第i个数据到第j类中其他所有数据的平均距离。
Step3:将Step2中求得的偏置参数和阻尼系数值代入AP算法,对数据集进行聚类,即可得到具有较好聚类结构的子数据集。
步骤3:根据步骤2划分得到的子数据集,建立各个高斯过程回归(Gaussian ProcessRegression,GPR)子模型。
给定训练样本集D={(xi,yi)},i=1,2,...,n,其中xi∈RD,yi∈R,i=1,2,...,n,分别代表D维输入和1维输出数据,n为训练样本个数。
对于一个新来数据x*,可以得到预测输出的均值和方差,分别为:
y*(x*)=k*TC-1y (7)
式中,k*=[k(x*,x1),...,k(x*,xn)]T是训练样本和测试输入之间的n×1维协方差矩阵,是训练样本之间的n×n维协方差矩阵,表示噪声方差,k是测试输入和自身的协方差。
式中,v表示先验知识的总体度量,ωd代表每个成分xd的相关性程度。
上述协方差函数确定后,需要对未知参数进行估计,一般通过极大似然估计求解:
可先将θ设为一个合理范围内的随机值,然后用共轭梯度法来搜索参数的最优值。求得参数后,对于新来的样本x*,通过公式(7)(8)即可得到相应的输出值。
步骤4:利用基于子模型预测性能的贝叶斯融合算法自适应地计算出各子模型的权重。
对于新来的样本xnew,基于贝叶斯定理,最终的预测结果可以表示为:
式中,为最终的预测输出,P(SMk|xnew)为xnew隶属于第k个子模型的后验概率,为第k个子模型对xnew的预测输出。
由贝叶斯定理知,后验概率可用下式计算:
式中,P(SMk)为第k个子模型的先验概率,P(xnew|SMk)为xnew隶属于第k个子模型的条件概率。对于新来的样本,通过欧式距离和角度相结合的准则,在训练样本中查询与之相似度最大的Ns个样本构成相似样本集[Xs,Ys],并计算出该样本集在各个子模型中的均方根误差,分别为:
式中,和ys,i分别为相似样本集中的第i个样本在第k个子模型中的预测值和样本真值。
式中,
同时,定义P(SMk)为:
式中,Ns,k为第k个子数据集中的相似样本个数。
步骤5:对步骤3所得的预测值和步骤4所得的后验概率利用式(11)进行融合即可得到最终的预测输出。
2.根据权利要求1所述的改进自适应仿射传播聚类的多模型软测量方法,其特征在于,基于BWP指标,利用差分进化算法对自适应仿射传播聚类算法进行改进,使算法可以自适应地确定偏置参数和阻尼系数值,划分得到具有较优聚类结构的子数据集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610214742.3A CN105913078A (zh) | 2016-04-07 | 2016-04-07 | 改进自适应仿射传播聚类的多模型软测量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610214742.3A CN105913078A (zh) | 2016-04-07 | 2016-04-07 | 改进自适应仿射传播聚类的多模型软测量方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105913078A true CN105913078A (zh) | 2016-08-31 |
Family
ID=56745724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610214742.3A Pending CN105913078A (zh) | 2016-04-07 | 2016-04-07 | 改进自适应仿射传播聚类的多模型软测量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105913078A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649202A (zh) * | 2016-12-07 | 2017-05-10 | 宁波大学 | 基于多样性变量加权plsr模型的工业过程软测量方法 |
CN108376302A (zh) * | 2018-05-23 | 2018-08-07 | 贵州大学 | 基于ap聚类的elm复杂石化行业生产能力的预测模型 |
CN108446582A (zh) * | 2018-01-25 | 2018-08-24 | 西安电子科技大学 | 基于纹理特征和仿射传播聚类算法的高光谱图像分类方法 |
CN108549757A (zh) * | 2018-04-03 | 2018-09-18 | 浙江工业大学 | 一种模型自选择的往复式混输泵排出流率预测方法 |
CN108595518A (zh) * | 2018-03-26 | 2018-09-28 | 中南大学 | 一种氧化铝生产蒸发过程在线数据协调方法及系统 |
CN112562797A (zh) * | 2020-11-30 | 2021-03-26 | 中南大学 | 沉铁过程出口离子预测方法及系统 |
-
2016
- 2016-04-07 CN CN201610214742.3A patent/CN105913078A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649202A (zh) * | 2016-12-07 | 2017-05-10 | 宁波大学 | 基于多样性变量加权plsr模型的工业过程软测量方法 |
CN106649202B (zh) * | 2016-12-07 | 2019-04-09 | 宁波大学 | 基于多样性变量加权plsr模型的工业过程软测量方法 |
CN108446582A (zh) * | 2018-01-25 | 2018-08-24 | 西安电子科技大学 | 基于纹理特征和仿射传播聚类算法的高光谱图像分类方法 |
CN108595518A (zh) * | 2018-03-26 | 2018-09-28 | 中南大学 | 一种氧化铝生产蒸发过程在线数据协调方法及系统 |
CN108549757A (zh) * | 2018-04-03 | 2018-09-18 | 浙江工业大学 | 一种模型自选择的往复式混输泵排出流率预测方法 |
CN108549757B (zh) * | 2018-04-03 | 2021-10-26 | 浙江工业大学 | 一种模型自选择的往复式混输泵排出流率预测方法 |
CN108376302A (zh) * | 2018-05-23 | 2018-08-07 | 贵州大学 | 基于ap聚类的elm复杂石化行业生产能力的预测模型 |
CN112562797A (zh) * | 2020-11-30 | 2021-03-26 | 中南大学 | 沉铁过程出口离子预测方法及系统 |
CN112562797B (zh) * | 2020-11-30 | 2024-01-26 | 中南大学 | 沉铁过程出口离子预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105913078A (zh) | 改进自适应仿射传播聚类的多模型软测量方法 | |
Li et al. | Periodogram estimation based on LSSVR-CCPSO compensation for forecasting ship motion | |
CN106600059B (zh) | 基于改进rbf神经网络的智能电网短期负荷预测方法 | |
CN110084610B (zh) | 一种基于孪生神经网络的网络交易欺诈检测系统 | |
CN111860982A (zh) | 一种基于vmd-fcm-gru的风电场短期风电功率预测方法 | |
CN106056127A (zh) | 一种带模型更新的gpr在线软测量方法 | |
CN108304316B (zh) | 一种基于协同迁移的软件缺陷预测方法 | |
CN106022954B (zh) | 基于灰色关联度的多重bp神经网络负荷预测方法 | |
CN112101684B (zh) | 一种插电式混合动力车辆实时能量管理方法和系统 | |
CN104899135A (zh) | 软件缺陷预测方法和系统 | |
CN106568445B (zh) | 基于双向循环神经网络的室内轨迹预测方法 | |
CN105740984A (zh) | 一种基于性能预测的产品概念性能评价方法 | |
CN113012766B (zh) | 一种基于在线选择性集成的自适应软测量建模方法 | |
CN113887643B (zh) | 一种基于伪标签自训练和源域再训练的新对话意图识别方法 | |
CN110349597A (zh) | 一种语音检测方法及装置 | |
CN101799888A (zh) | 基于仿生智能蚁群算法的工业软测量方法 | |
CN105335619A (zh) | 适用于高计算代价数值计算模型参数反分析的协同优化法 | |
CN106296434B (zh) | 一种基于pso-lssvm算法的粮食产量预测方法 | |
CN112818608A (zh) | 一种基于改进的粒子群优化算法与支持向量机的中长期径流预报方法 | |
CN105046323A (zh) | 一种正则化rbf网络多标签分类方法 | |
Yoon et al. | Quantifying the multi-objective cost of uncertainty | |
CN113807040B (zh) | 一种面向微波电路的优化设计方法 | |
CN112884222B (zh) | 一种面向时间段的lstm交通流密度预测方法 | |
CN108734207B (zh) | 一种基于双优选半监督回归算法的模型对脱丁烷塔底丁烷浓度进行预测的方法 | |
CN114564787A (zh) | 用于目标相关翼型设计的贝叶斯优化方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160831 |