CN113012766A - 一种基于在线选择性集成的自适应软测量建模方法 - Google Patents

一种基于在线选择性集成的自适应软测量建模方法 Download PDF

Info

Publication number
CN113012766A
CN113012766A CN202110459338.3A CN202110459338A CN113012766A CN 113012766 A CN113012766 A CN 113012766A CN 202110459338 A CN202110459338 A CN 202110459338A CN 113012766 A CN113012766 A CN 113012766A
Authority
CN
China
Prior art keywords
local
new
model
redundancy
integration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110459338.3A
Other languages
English (en)
Other versions
CN113012766B (zh
Inventor
金怀平
黄成�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110459338.3A priority Critical patent/CN113012766B/zh
Publication of CN113012766A publication Critical patent/CN113012766A/zh
Application granted granted Critical
Publication of CN113012766B publication Critical patent/CN113012766B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C10/00Computational theoretical chemistry, i.e. ICT specially adapted for theoretical aspects of quantum chemistry, molecular mechanics, molecular dynamics or the like

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于在线选择性集成的自适应软测量建模方法,属于工业过程软测量建模领域。本发明针对过程数据呈现时变性、非线性、多模式、多时段等特性导致常规软测量建模方法不佳的问题,引入局部建模方法构建多样性的子模型,实现对复杂过程特征的精准描述,采用选择性集成思想对子模型进行自适应融合,从而实现对关键性能指标的准确估计。首先,结合K‑means和KNN的优势构建多样性的局部区域,同时建立相应的局部模型,随后采用概率分析剔除冗余区域和对应的局部模型。此外,在在线预测阶段,采用最近获得的历史样本作为验证集选择最佳候选局部模型,并确定模型集成权重,然后实现局部预测结果的自适应融合。

Description

一种基于在线选择性集成的自适应软测量建模方法
技术领域
本发明涉及工业过程控制领域,尤其涉及一种基于在线选择性集成的自适应软测量建模方法。
背景技术
工业过程的实时在线监测与控制已经成为提高企业生产效率和保障生产安全的重要手段,这很大程度取决于过程关键产品质量指标的测定。在许多情况下,由于恶劣的测量环境、昂贵的测量仪器及测量滞后性等因素,不能及时对关键产品质量参数进行在线检测。为此,软测量技术通过建立难测主导变量与易测辅助变量之间的数学模型,来实现对主导变量的预测估计。
对于现代工业生产中涉及复杂的操作条件,传统的单一软测量模型不再适用,多模式建模成了必然选择。对于具有单个全局模型的非线性建模,一种众所周知的替代方法是采用多个局部模型,它们也能够捕获过程状态的非线性。多个局部建模的本质是将模型输入空间划分为多个区域,每个区域都由一个局部模型覆盖。通过足够精细的分区,可以使用简单的线性模型准确地对每个局部区域中的过程特征进行建模。其中一种典型的在线局部区域建模是即时学习,它通过在线选择查询点的相似样本构建局部模型,完成预测后抛弃模型,然后等待下一次预测的到来。另外一种局部区域的构建是在离线阶段完成所有局部模型的构建,然后在线预测时根据具体需求选择一个、多个或全部局部模型参与预测,最后将预测值融合预测输出。后者的离线局部学习建模方法也可称为集成学习,这种方法在工业过程的软感建模中被广泛使用,也可以进一步提高模型的非线性处理能力。
由上述背景可知集成学习对于处理过程数据十分重要,其首要任务是划分多个局部区域。但是在工业过程中,不同时段操作模式之间通常难以确定明确的界限,传统的划分方法难以处理过程的过渡特征,所以本发明结合K-means和KNN的优势构建多样性的局部区域。随后,局部模型的融合也十分重要。较为常见的集成方法是简单平均,但研究发现加权平均更为有效。加权集成又可分为非自适应集成和自适应集成。非自适集成方法中,可使用线性回归确定权值,或者使用非线性回归模型来描述局部输出值与集成输出值之间的关系。非自适应集成方法倾向于赋予训练性能高的模型更大的权重,这可能导致过拟合,从而降低泛化性能。而且由于过程的时变特性,非自适应加权方法也变得不合时宜。
此外,选择合理的基模型集成方法也是至关重要的。在产生大量的基模型之后,难免会存在部分基模型相关性强、性能不佳的现象。如果将所有基模型用于集成,会造成集成建模复杂度提升,甚至恶化预测性能。所以本发明在线预测阶段,采用最近获得的历史样本作为验证集选择最佳候选局部模型,并确定模型集成权重,来实现局部预测结果的自适应融合。
发明内容
本发明为了解决软测量建模在工业过程应用中由于过程特征变化造成的模型性能逐步退化等问题,提出一种基于在线选择性集成的自适应软测量建模方法,该方法融合了JIT学习、移动窗口、选择性集成学习和自适应更新机理,有效处理过程的时变特征,遏制模型性能的恶化,实现工业过程中关键参数的在线估计。
本发明针对过程数据呈现时变性、非线性、多模式、多时段等特性导致常规软测量建模方法不佳的问题,引入局部建模方法构建多样性的子模型,实现对复杂过程特征的精准描述,采用选择性集成思想对子模型进行自适应融合,从而实现对关键性能指标的准确估计。首先,结合K-means和KNN的优势构建多样性的局部区域,同时建立相应的局部模型,随后采用概率分析剔除冗余区域和对应的局部模型。此外,在在线预测阶段,采用最近获得的历史样本作为验证集选择最佳候选局部模型,并确定模型集成权重,然后实现局部预测结果的自适应融合。
为解决上述技术问题,本发明的技术方案如下:一种基于在线选择性集成的自适应软测量建模方法,包括以下步骤:
步骤(1)利用集散控制系统或离线检测的方法,收集工业过程数据D∈RN×Q,组成用于软测量建模的数据库,通过对工业过程的机理分析,确定与预测变量y∈RN×L相关的辅助变量x∈RN×M,辅助变量x即输入变量,x={x1,x2,...,xn}∈RN×M,N和M分别表示样本个数和过程变量个数;将不容易测量的质量变量作为输出,即y={y1,y2,...,yn}∈Rn×1
步骤(2)对数据库中的所有样本进行归一化处理,并将其分为训练集Dtrain∈RJ×Q和测试集Dtest∈RT×Q,其中训练集用于模型的训练,测试集用于模型性能的评估;J和T分别表示训练集和测试集样本个数;
步骤(3)利用K-means在训练集Dtrain上训练得到最终的聚类中心;
步骤(4)使用步骤(3)中得到的聚类中心依托于KNN建立局部区域,并基于概率分析方法将得到的局部区域进行冗余检测,移除相应的冗余区域,最终得到M个局部区域由此构建一组高斯过程回归基模型{GPR1,…,GPRm};
步骤(5)对查询点进行归一化处理,基于JIT即时学习思想,从距离查询点最近的数据库中搜索出查询点最为相似的历史样本作为验证集评估局部模型的预测性能,并根据查询点的相似样本的预测性能进行排序,来确定高斯过程回归基模型的集成权值;
步骤(6)对步骤(4)中所得的M个GPR模型进行选择集成,选择预测精度较高的Mselect个GPR模型通过贝叶斯原理进行自适应加权集成预测输出,最终得到测试样本点xnew的预测输出,此外,xnew基于移动窗口的方式更新验证集数据库;
步骤(7)将步骤(6)中的集成结果反归一化作为最终预测结果,并根据预测结果最终实现对工业过程数据的在线测量,当新的在线数据到来时重复步骤(5)至步骤(7)。
进一步地,所步骤(3)中K-means在训练集Dtrain上确定聚类中心具体过程为:
(a)随机选取k个中心,记为
Figure BDA0003041671390000031
(b)定义损失函数:
Figure BDA0003041671390000032
令t=0,1,2,...为迭代步数,重复如下过程直到J收敛:
①对于每一个样本,将其分配到距离最近的中心
Figure BDA0003041671390000033
②对于每一个类中心k,重新计算该类的中心
Figure BDA0003041671390000034
最终确定并获得k个聚类中心点。
进一步地,所述步骤(4)具体过程为:
(a)建立局部区域:基于步骤(3)中的k个聚类中心点使用KNN构建局部区域,按照距离中心点最小的原则,将所有的历史数据分到各中心点的类中以此划分局部区域,其中相似度或称距离用欧式距离来度量:
disted(x,y)=||x-y||2 (4)
(b)去除冗余:对于基于KNN构建的局部区域,假设其中m个局部区域LDm(m<K)之间没有冗余问题,接着判断LDnew是否与旧有局部区域是否冗余,这里不需要判断
Figure BDA0003041671390000035
中的所有局部区域,而需要注意p(LDm|xnew)最大的一个;冗余判定阈值是由新的局部区域数据属于LDnew的后验概率决定的,选择一个新的中心点作为查询点xnew基于KNN局部化策略建立一个新的局部区LDnew,随后根据设定的冗余度判定阈值检测比较新的中心点在新旧局部区域上的后验概率来判定LDnew是否与
Figure BDA0003041671390000036
中的局部区域冗余;
其中去除冗余问题的具体过程如下:
①将局部区域LDm的输入数据集Xm视为服从多元高斯分布,因此可将本地局部区域数据的概率密度函数定义为一个概率数据描述模型(PDD):
Figure BDA0003041671390000041
其中,μm是一个d维均值向量,∑m是d×d阶协方差矩阵,|∑m|表示∑m的行列式,μm和∑m由Xm估计获得,用于确定PDDm模型;
②xnew属于不同局部区域的后验概率可根据贝叶斯推理策略进行如下推测:
Figure BDA0003041671390000042
③p(LDm)和p(xnew|LDm)分别为先验概率和条件概率,p(xnew|LDm)由式(5)计算,
由于缺乏理论指导,假设每个局部区域的先验概率相等:
Figure BDA0003041671390000043
另外,新建的局部区域数据xi∈Xnew属于LDnew的后验概率可以如下计算:
Figure BDA0003041671390000044
④根据上述得到的后验概率值,将新旧本地区之间的冗余性指标Jnew和冗余性判断阈值定义为以下:
Figure BDA0003041671390000045
Figure BDA0003041671390000046
其中,median{·}表示中值算子;γ用于调节两个局部区域之间的容许冗余度,γ越大冗余识别阈值越高,创建新的局部区域的可能性越高;如果
Figure BDA0003041671390000047
则将LDnew保存为LDM;否则将放弃LDnew
重复上述步骤,直至在所有的聚类中心上依次建立新的局部区域并执行冗余判别,最终得到较小冗余度的M个局部建模区域{LD1,…LDk,…LDm},并将第k个数据集表示为
Figure BDA0003041671390000048
(c)建立高斯过程回归基模型{GPR1,…,GPRm}:
对Dk中的样本x*,第k个基GPRk模型的局部预测输出
Figure BDA0003041671390000049
服从高斯分布:
Figure BDA0003041671390000051
所述GPRk模型可描述为:
Figure BDA0003041671390000052
其中,kk,*=[C(x*,xk,1),…,C(x*,xk,n)]T
Figure BDA0003041671390000053
Figure BDA0003041671390000054
分别为基模型GPRk的预测均值和方差。
进一步地,所述步骤(5)具体过程为:
①从距离查询点最近的验证集数据库中选择xnew的相似样本,在JIT学习中有很多
相似度指标,在此仅选用传统的欧氏距离相似度:
disted(x,y)=||x-y||2 (13)
②评估局部模型对相似样本集的预测精度,选择一个相似样本集Zsim=[Xsim,ysim],局部模型对相似样本的预测RMSE可计算为:
Figure BDA0003041671390000055
其中,
Figure BDA0003041671390000056
和ysim,i分别表示来自相似样本集的预测值和实际值;RMSEm表示第m个局部模型对Zsim的预测精度。
进一步地,所述步骤(6)具体过程为:
选择了Mc∈[1,M]个最相关的局部模型用于贝叶斯集成学习,模型索引为{q1,q2,…,qc},则集成公式写为:
Figure BDA0003041671390000057
更新验证集数据库:通过应用MW更新策略,往数据库中添加一个新样本的同时从中移除最旧的样本,以此保持数据库样本数不变;
在时刻t的输入数据矩阵为:
Figure BDA0003041671390000058
在t+1时刻对X(t)执行MW更新操作后,新的局部区域数据矩为:
Figure BDA0003041671390000059
与现有技术相比,本发明具有以下有益效果:由于工业过程中非线性、时变性、多模式/多时段性等多种特征共存的现象普遍存在,本发明所提出的基于一种在线选择性集成的自适应软测量建模方法,从局部学习的角度出发,基于k-means和KNN构建局部区域并通过概率分析策略去除较大冗余的局部区域,并在构建好的局部区域建立对应的局部模型。然后借鉴即时学习思想估计局部模型对查询点相似样本的预测结合贝叶斯推理策略对部分最佳的局部模型进行自适应集成。以此达到有效处理过程的时变特征,提升模型性能,实现工业过程中关键参数的在线估计的目的,预测精度高。
附图说明
图1为OSEGPR软测量建模流程图;
图2为金霉素化工过程中基于全局GPR方法的金霉素成分底物浓度预测趋势曲线图;
图3为金霉素化工过程中基于全局PLS方法的金霉素成分底物浓度预测趋势曲线图;
图4为金霉素化工过程中基于FMGPR方法的金霉素成分底物浓度预测趋势曲线图;
图5为金霉素化工过程中基于OSEGPR方法的金霉素成分底物浓度预测趋势曲线图;
表1为金霉素发酵过程输入变量描述;
具体实施方式
以下结合附图和具体实施例对本发明的技术方案作进一步详细说明。
实施例1:在本实施例中,以金霉素发酵过程为例,针对关键预测变量金霉素基质浓度选择9个辅助变量作为原始输入,金霉素基质浓度作为软测量模型的输出,具体的辅助输入变量如表1所示。针对金霉素数据收集了50个批次的训练数据共计1177个;另外测试集收集了32个批次共计804个,在线数据采样间隔为5min,离线化验间隔为4h。
表1金霉素发酵过程输入变量描述
Figure BDA0003041671390000061
步骤1:采集输入输出样本,构建数据库并确定以上的变量作为输入变量和输出变量。
步骤2:对数据库中的所有样本进行归一化处理,并将其分为训练集和测试集,其中训练集用于模型的训练,测试集用于模型性能的评估;
步骤3:利用K-means在训练集Dtrain上确定聚类中心;
确定聚类中心具体过程如下:
(a)随机选取K个中心,记为
Figure BDA0003041671390000071
(b)定义损失函数:
Figure BDA0003041671390000072
令t=0,1,2,...为迭代步数,重复如下过程直到J收敛:
①对于每一个样本,将其分配到距离最近的中心
Figure BDA0003041671390000073
②对于每一个类中心k,重新计算该类的中心
Figure BDA0003041671390000074
最终获得确定的K个中心点;
步骤4:根据步骤(3)中得到的聚类中心依次使用KNN建立局部区域,并基于概率分析方法将得到的局部区域进行冗余检测和移除相应的冗余局部区域,最终在得到的M个局部区域上构建一组高斯过程回归基模型{GPR1,…,GPRm}:
具体过程如下:
(a)建立局部区域:基于步骤(3)中的K个聚类中心点依次使用KNN构建局部区域,按照距离中心点最小的原则,将所有的历史数据分到各中心点的类中以此划分局部区域,
其中相似度(或称距离)用欧式距离来度量:
disted(x,y)=||x-y||2 (4)
(b)去除冗余:对于基于KNN构建的局部区域,假设其中m个局部区域LDm(m<K)之间没有冗余问题。接着判断LDnew是否与旧有局部区域是否冗余?这里不需要判断
Figure BDA0003041671390000075
中的所有局部区域,而需要注意p(LDm|xnew)最大的一个。冗余判定阈值是由新的局部区域数据属于LDnew的后验概率决定的,选择一个新的中心点作为查询点xnew基于KNN局部化策略建立一个新的局部区LDnew,随后根据设定的冗余度判定阈值检测比较新的中心点在新旧局部区域上的后验概率来判定LDnew是否与
Figure BDA0003041671390000076
中的局部区域冗余。
其中去除冗余问题的具体过程如下:
①对于局部区域LDm中的输入数据集Xm认为服从多元高斯分布,因此用一个概率数据描述模型(PDD)来描述局部区域数据的概率密度函数:
Figure BDA0003041671390000081
其中,μm是一个d维均值向量,∑m是d×d阶协方差矩阵,|∑m|表示∑m的行列式。μm和∑m由Xm估计获得,用于确定PDDm模型。
②xnew属于不同局部区域的后验概率可通过贝叶斯推理进行如下推测:
Figure BDA0003041671390000082
③p(LDm)和p(xnew|LDm)分别为先验概率和条件概率,p(xnew|LDm)由式(5)计算。
由于缺乏理论支撑,假设每个局部区域的先验概率相等:
Figure BDA0003041671390000083
另外,新建的局部区域数据xi∈Xnew属于LDnew的后验概率可以如下计算:
Figure BDA0003041671390000084
④根据上述得到的后验概率值,将新旧本地区之间的冗余性指标Jnew和冗余性判断阈值定义为以下:
Figure BDA0003041671390000085
Figure BDA0003041671390000086
其中,median{·}表示中值算子;γ用于调节两个局部区域之间的容许冗余度,γ越大冗余识别阈值越高,创建新的局部区域的可能性越高。如果
Figure BDA0003041671390000087
则将LDnew保存为LDM;否则将放弃LDnew
重复上述步骤,直至在所有的聚类中心上依次建立新的局部区域并执行冗余判别,最终得到较小冗余度的M个局部建模区域{LD1,…LDk,…LDm},并将第k个数据集表示为
Figure BDA0003041671390000088
(c)建立高斯过程回归基模型{GPR1,…,GPRm}:
对Dk中的样本x*,第k个基GPRk模型的局部预测输出
Figure BDA0003041671390000089
服从高斯分布:
Figure BDA00030416713900000810
所述GPRk模型可描述为:
Figure BDA00030416713900000811
其中,
Figure BDA0003041671390000091
Figure BDA0003041671390000092
分别为基模型GPRk的预测均值和方差。
步骤5:对查询点(待判别点)进行归一化处理,从验证集数据库中搜索出查询点最相似的历史样本,然后根据对这些样本的预测对局部模型进行评估,并根据查对询点相似样本集的预测性能进行排序,以此确定后面模型集成权值。具体过程如下:
(a)从验证集数据库中选择xnew的相似样本。在此仅选用传统的欧氏距离相似度:
sim(xi,xj)=exp(-||xi-xj||2) (13)
(b)评估局部模型对相似样本集的预测精度,假设选择了一个相似样本集Zsim=[Xsim,ysim],则局部模型对相似样本的预测RMSE可计算为:
Figure BDA0003041671390000093
其中,
Figure BDA0003041671390000094
和ysim,i分别表示来自相似样本集的预测值和实际值;RMSEm表示第m个局部模型对Zsim的预测精度。
步骤6:对步骤(5)中所得的M个GPR模型进行选择集成,选择预测精度较高的Mselect个GPR模型通过贝叶斯原理进行自适应加权集成测试样本点xnew的预测输出。此外,xnew基于移动窗口的方式更新数据库。具体过程如下:
选择了Mc∈[1,M]个最相关的局部模型用于贝叶斯集成学习,模型索引为{q1,q2,…,qc},则集成公式写为:
Figure BDA0003041671390000095
更新验证集数据库:新样本点xnew通过应用MW更新策略,往验证集中添加一个新样本的同时从中移除最旧的样本,以此保持验证集数据库的最新性。
在时刻t的输入数据矩阵为:
Figure BDA0003041671390000096
在t+1时刻对X(t)执行MW更新操作后,新的数据库数据矩为:
Figure BDA0003041671390000097
步骤7:将步骤(6)中的集成结果反归一化作为预测输出,以此达到对工业过程数据的在线测量,当新的在线数据到来时重复步骤(5)至步骤(7)。
本发明实施案例采用均方根误差RMSE和决定系数R2对预测效果进行验证,计算公
式如下:
Figure BDA0003041671390000101
Figure BDA0003041671390000102
其中,Ntest为测试样本的数目,
Figure BDA0003041671390000103
ytest
Figure BDA0003041671390000104
分别为估计值、实际值和实际输出的均值。本案例比较了如下方法:(1)GPR全局模型;(2)PLS全局模型;(3)基于高斯过程回归的有限混合(FMGPR)模型。实验结果如表2和图2-图5所示。
表2不同软测量方法在CTC化工过程中的预测误差
Figure BDA0003041671390000105
表1对比了不同建模方法的预测效果,可以看出,OSEGPR模型预测效果明显优于GPR、PLS和FMGPR模型。相比于GPR和PLS,选择性集成策略的引入使得OSEGPR模型具有良好的预测性能,并且减小了集成复杂度。此外,K-means和KNN构建局部区域的方式使得OSEGPRR充分利用了过程特征和建模样本的信息,增强了基模型的多样性,同时集成模型也具有良好的稳定性。图5是本申请方法在CTC化工过程中对金霉素底物浓度成分的预测曲线图,由图可知,该方法具有较好的预测性能。
上述实例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。

Claims (5)

1.一种基于在线选择性集成的自适应软测量建模方法,其特征在于,包括以下步骤:
步骤(1)利用集散控制系统或离线检测的方法,收集工业过程数据D∈RN×Q,组成用于软测量建模的数据库,通过对工业过程的机理分析,确定与预测变量y∈RN×L相关的辅助变量x∈RN×M,辅助变量x即输入变量,x={x1,x2,...,xn}∈RN×M,将不容易测量的质量变量作为输出,即y={y1,y2,...,yn}∈Rn×1;其中,N和M分别表示样本个数和辅助变量个数,L为预测变量个数,Q为过程数据总的变量个数;
步骤(2)对数据库中的所有样本进行归一化处理,并将其分为训练集Dtrain∈RJ×Q和测试集Dtest∈RT×Q,其中训练集用于模型的训练,测试集用于模型性能的评估;J和T分别表示训练集和测试集样本个数;
步骤(3)利用K-means在训练集Dtrain上训练得到最终的聚类中心;
步骤(4)使用步骤(3)中得到的聚类中心基于KNN建立对应的局部区域,随后根据概率分析方法将得到的局部区域进行冗余检测,移除冗余区域,最终得到M个局部区域由此构建一组高斯过程回归基模型{GPR1,…,GPRm};
步骤(5)对查询点进行归一化处理,基于JIT即时学习思想,从距离查询点最近的数据库中搜索出查询点最为相似的样本作为验证集评估局部模型的预测性能,并根据对相似样本的预测性能进行排序,为后面挑选高斯过程回归基模型集成做准备;
步骤(6)对步骤(4)中所得的M个GPR模型进行挑选参与后面的集成,根据步骤(5)选择预测精度较高的Mselect个GPR模型通过贝叶斯原理进行自适应加权集成预测输出,最终得到测试样本点xnew的预测输出,此外,xnew基于移动窗口的方式更新验证集数据库;
步骤(7)将步骤(6)中的集成结果反归一化作为最终预测结果,并根据预测结果最终实现对工业过程数据的在线测量,当新的在线数据到来时重复步骤(5)至步骤(7)。
2.根据权利要求1所述的基于在线选择性集成的自适应软测量建模方法,其特征在于,所述步骤(3)中K-means在训练集Dtrain上确定聚类中心具体过程为:
(a)随机选取k个中心,记为
Figure FDA0003041671380000011
(b)定义损失函数:
Figure FDA0003041671380000012
令t=0,1,2,...为迭代步数,重复如下过程直到J收敛:
①对于每一个样本,将其分配到距离最近的中心
Figure FDA0003041671380000013
②对于每一个类中心k,重新计算该类的中心
Figure FDA0003041671380000021
最终确定并获得k个聚类中心点。
3.根据权利要求1所述的基于在线选择性集成的自适应软测量建模方法,其特征在于,所述步骤(4)具体过程为:
(a)建立局部区域:基于步骤(3)中的k个聚类中心点使用KNN构建局部区域,按照距离中心点最小的原则,将所有的历史数据分到各中心点的类中以此划分局部区域,其中相似度或称距离用欧式距离来度量:
disted(x,y)=||x-y||2 (4)
(b)去除冗余:对于基于KNN构建的局部区域,假设其中m个局部区域LDm(m<K)之间没有冗余问题,接着判断LDnew是否与旧有局部区域是否冗余,这里不需要判断
Figure FDA0003041671380000022
中的所有局部区域,而需要注意p(LDm|xnew)最大的一个;冗余判定阈值是由新的局部区域数据属于LDnew的后验概率决定的,选择一个新的中心点作为查询点xnew基于KNN局部化策略建立一个新的局部区LDnew,随后根据设定的冗余度判定阈值检测比较新的中心点在新旧局部区域上的后验概率来判定LDnew是否与
Figure FDA0003041671380000023
中的局部区域冗余;
其中去除冗余问题的具体过程如下:
①将局部区域LDm的输入数据集Xm视为服从多元高斯分布,因此可将本地局部区域数据的概率密度函数定义为一个概率数据描述模型PDD:
Figure FDA0003041671380000024
其中,μm是一个d维均值向量,∑m是d×d阶协方差矩阵,|∑m|表示∑m的行列式,μm和∑m由Xm估计获得,用于确定PDDm模型;
②xnew属于不同局部区域的后验概率可根据贝叶斯推理策略进行如下推测:
Figure FDA0003041671380000025
③p(LDm)和p(xnew|LDm)分别为先验概率和条件概率,p(xnew|LDm)由式(5)计算,
由于缺乏理论指导,假设每个局部区域的先验概率相等:
Figure FDA0003041671380000031
另外,新建的局部区域数据xi∈Xnew属于LDnew的后验概率可以如下计算:
Figure FDA0003041671380000032
④根据上述得到的后验概率值,将新旧本地区之间的冗余性指标Jnew和冗余性判断阈值定义为以下:
Figure FDA0003041671380000033
Figure FDA00030416713800000311
其中,median{·}表示中值算子;γ用于调节两个局部区域之间的容许冗余度,γ越大冗余识别阈值越高,创建新的局部区域的可能性越高;如果
Figure FDA0003041671380000034
则将LDnew保存为LDM;否则将放弃LDnew
重复上述步骤,直至在所有的聚类中心上依次建立新的局部区域并执行冗余判别,最终得到较小冗余度的M个局部建模区域{LD1,…LDk,…LDm},并将第k个数据集表示为
Figure FDA0003041671380000035
(c)建立高斯过程回归基模型{GPR1,…,GPRm}:
对Dk中的样本x*,第k个基GPRk模型的局部预测输出
Figure FDA0003041671380000036
服从高斯分布:
Figure FDA0003041671380000037
所述GPRk模型可描述为:
Figure FDA0003041671380000038
其中,kk,*=[C(x*,xk,1),…,C(x*,xk,n)]T
Figure FDA0003041671380000039
Figure FDA00030416713800000310
分别为基模型GPRk的预测均值和方差。
4.根据权利要求1所述的基于在线选择性集成的自适应软测量建模方法,其特征在于,所述步骤(5)具体过程为:
①从距离查询点最近的验证集数据库中选择xnew的相似样本,在JIT学习中有很多相似度指标,在此仅选用传统的欧氏距离相似度:
disted(x,y)=||x-y||2 (13)
②评估局部模型对相似样本集的预测精度,选择一个相似样本集Zsim=[Xsim,ysim],局部模型对相似样本的预测RMSE可计算为:
Figure FDA0003041671380000041
其中,
Figure FDA0003041671380000042
和ysim,i分别表示来自相似样本集的预测值和实际值;RMSEm表示第m个局部模型对Zsim的预测精度。
5.根据权利要求1所述的基于在线选择性集成的自适应软测量建模方法,其特征在于,所述步骤(6)具体过程为:
选择了Mc∈[1,M]个最相关的局部模型用于贝叶斯集成学习,模型索引为{q1,q2,…,qc},则集成公式写为:
Figure FDA0003041671380000043
更新验证集数据库:通过应用MW更新策略,往数据库中添加一个新样本的同时从中移除最旧的样本,以此保持数据库样本数不变;
在时刻t的输入数据矩阵为:
Figure FDA0003041671380000044
在t+1时刻对X(t)执行MW更新操作后,新的局部区域数据矩为:
Figure FDA0003041671380000045
CN202110459338.3A 2021-04-27 2021-04-27 一种基于在线选择性集成的自适应软测量建模方法 Active CN113012766B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110459338.3A CN113012766B (zh) 2021-04-27 2021-04-27 一种基于在线选择性集成的自适应软测量建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110459338.3A CN113012766B (zh) 2021-04-27 2021-04-27 一种基于在线选择性集成的自适应软测量建模方法

Publications (2)

Publication Number Publication Date
CN113012766A true CN113012766A (zh) 2021-06-22
CN113012766B CN113012766B (zh) 2022-07-19

Family

ID=76380711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110459338.3A Active CN113012766B (zh) 2021-04-27 2021-04-27 一种基于在线选择性集成的自适应软测量建模方法

Country Status (1)

Country Link
CN (1) CN113012766B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113467434A (zh) * 2021-08-24 2021-10-01 北京工业大学 基于双层k近邻标准化的CCA发酵过程KPI相关故障监测方法
CN114219157A (zh) * 2021-12-17 2022-03-22 西南石油大学 一种基于最优决策和动态分析的烷烃气体红外光谱测量方法
CN114239400A (zh) * 2021-12-16 2022-03-25 浙江大学 基于局部双加权概率隐变量回归模型的多工况过程自适应软测量建模方法
CN115017671A (zh) * 2021-12-31 2022-09-06 昆明理工大学 基于数据流在线聚类分析的工业过程软测量建模方法、系统
CN115099038A (zh) * 2022-06-29 2022-09-23 重庆大学 基于自适应局部学习实现长时和多元时变特性的加工温度监测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455635A (zh) * 2013-09-24 2013-12-18 华北电力大学 基于最小二乘支持向量机集成的热工过程软测量建模方法
CN106094786A (zh) * 2016-05-30 2016-11-09 宁波大学 基于集成型独立元回归模型的工业过程软测量方法
US20190048306A1 (en) * 2017-08-11 2019-02-14 Bioelectron Technology Corporation Redox-related context adjustments to a bioprocess monitored by learning systems and methods based on redox indicators
CN110046378A (zh) * 2019-02-28 2019-07-23 昆明理工大学 一种基于进化多目标优化的选择性分层集成高斯过程回归软测量建模方法
CN110263488A (zh) * 2019-07-03 2019-09-20 昆明理工大学 一种基于集成即时学习的工业混炼胶门尼粘度软测量方法
WO2019213860A1 (en) * 2018-05-09 2019-11-14 Jiangnan University Advanced ensemble learning strategy based semi-supervised soft sensing method
CN110472689A (zh) * 2019-08-19 2019-11-19 东北大学 基于集成高斯过程回归的有杆泵抽油井动液面软测量方法
CN111582567A (zh) * 2020-04-28 2020-08-25 昆明理工大学 一种基于递阶集成的风电功率概率预测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455635A (zh) * 2013-09-24 2013-12-18 华北电力大学 基于最小二乘支持向量机集成的热工过程软测量建模方法
CN106094786A (zh) * 2016-05-30 2016-11-09 宁波大学 基于集成型独立元回归模型的工业过程软测量方法
US20190048306A1 (en) * 2017-08-11 2019-02-14 Bioelectron Technology Corporation Redox-related context adjustments to a bioprocess monitored by learning systems and methods based on redox indicators
WO2019213860A1 (en) * 2018-05-09 2019-11-14 Jiangnan University Advanced ensemble learning strategy based semi-supervised soft sensing method
CN110046378A (zh) * 2019-02-28 2019-07-23 昆明理工大学 一种基于进化多目标优化的选择性分层集成高斯过程回归软测量建模方法
CN110263488A (zh) * 2019-07-03 2019-09-20 昆明理工大学 一种基于集成即时学习的工业混炼胶门尼粘度软测量方法
CN110472689A (zh) * 2019-08-19 2019-11-19 东北大学 基于集成高斯过程回归的有杆泵抽油井动液面软测量方法
CN111582567A (zh) * 2020-04-28 2020-08-25 昆明理工大学 一种基于递阶集成的风电功率概率预测方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
HUAIPING JIN等: "Ensemble Just-In-Time Learning-Based Soft Sensor for Mooney Viscosity Prediction in an Industrial Rubber Mixing Process", 《ADVANCES IN POLYMER TECHNOLOGY》 *
YUELI SONG等: "A Novel Just-in-Time Learning Strategy for Soft Sensing with Improved Similarity Measure Based on Mutual Information and PLS", 《SENSORS (BASEL)》 *
杨鑫等: "即时学习法在过程工业中的应用研究进展", 《计算机与应用化学》 *
郑蓉建: "谷氨酸发酵过程的软测量建模研究", 《中国博士学位论文全文数据库_工程科技Ⅰ辑》 *
金怀平等: "基于多相似度局部状态辨识的集成学习自适应软测量方法", 《计算机集成制造系统》 *
金怀平等: "基于进化多目标优化的选择性集成学习软测量建模", 《高校化学工程学报》 *
陈瑶: "即时学习软测量建模方法及其在发酵过程中应用", 《中国优秀硕士学位论文全文数据库_工程科技Ⅰ辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113467434A (zh) * 2021-08-24 2021-10-01 北京工业大学 基于双层k近邻标准化的CCA发酵过程KPI相关故障监测方法
CN113467434B (zh) * 2021-08-24 2024-02-06 北京工业大学 基于双层k近邻标准化的CCA发酵过程KPI相关故障监测方法
CN114239400A (zh) * 2021-12-16 2022-03-25 浙江大学 基于局部双加权概率隐变量回归模型的多工况过程自适应软测量建模方法
CN114219157A (zh) * 2021-12-17 2022-03-22 西南石油大学 一种基于最优决策和动态分析的烷烃气体红外光谱测量方法
CN114219157B (zh) * 2021-12-17 2023-10-17 西南石油大学 一种基于最优决策和动态分析的烷烃气体红外光谱测量方法
CN115017671A (zh) * 2021-12-31 2022-09-06 昆明理工大学 基于数据流在线聚类分析的工业过程软测量建模方法、系统
CN115099038A (zh) * 2022-06-29 2022-09-23 重庆大学 基于自适应局部学习实现长时和多元时变特性的加工温度监测方法

Also Published As

Publication number Publication date
CN113012766B (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
CN113012766B (zh) 一种基于在线选择性集成的自适应软测量建模方法
CN107451101B (zh) 一种分层集成的高斯过程回归软测量建模对脱丁烷塔底丁烷浓度进行预测的方法
CN111079836B (zh) 基于伪标签方法和弱监督学习的过程数据故障分类方法
CN110046378B (zh) 一种基于进化多目标优化的选择性分层集成高斯过程回归软测量建模方法
CN106056127A (zh) 一种带模型更新的gpr在线软测量方法
CN111638707B (zh) 基于som聚类和mpca的间歇过程故障监测方法
CN114678080B (zh) 转炉终点磷含量预测模型及构建方法、磷含量预测方法
CN107403196B (zh) 基于谱聚类分析的即时学习建模对脱丁烷塔底丁烷浓度进行预测的方法
CN110083065B (zh) 一种基于流式变分贝叶斯有监督因子分析的自适应软测量方法
CN105913078A (zh) 改进自适应仿射传播聚类的多模型软测量方法
CN113031553B (zh) 一种基于自动聚类结合偏最小二乘的间歇过程质量预测方法
CN110046377B (zh) 一种基于异构相似度的选择性集成即时学习软测量建模方法
CN113011102B (zh) 基于多元时间序列的Attention-LSTM的青霉素发酵过程故障预测方法
CN114239400A (zh) 基于局部双加权概率隐变量回归模型的多工况过程自适应软测量建模方法
CN112686372A (zh) 基于深度残差gru神经网络的产品性能预测方法
CN115906638A (zh) 建立火控系统故障预测模型、故障预测方法及相关装置
JPH06337852A (ja) ニューラルネットワークによる時系列予測方法
CN111104950A (zh) 基于神经网络的k-NN算法中k值预测方法及装置
CN111160464B (zh) 基于多隐层加权动态模型的工业高阶动态过程软测量方法
CN110673470B (zh) 基于局部加权因子模型的工业非平稳过程软测量建模方法
CN111797574A (zh) 聚合物分子量分布的集成高斯过程回归模型方法
CN115017671B (zh) 基于数据流在线聚类分析的工业过程软测量建模方法、系统
Prochaska et al. Improved active output selection strategy for noisy environments
CN111291020A (zh) 基于局部加权线性动态系统的动态过程软测量建模方法
CN110674883A (zh) 一种基于k近邻和概率选择主动学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 650500 No. 727 Jingming South Road, Chenggong District, Kunming City, Yunnan Province

Applicant after: Kunming University of Science and Technology

Address before: No.72, Jingming South Road, Chenggong District, Kunming, Yunnan 650500

Applicant before: Kunming University of Science and Technology

GR01 Patent grant
GR01 Patent grant