CN111914492A - 一种基于进化优化的半监督学习工业过程软测量建模方法 - Google Patents

一种基于进化优化的半监督学习工业过程软测量建模方法 Download PDF

Info

Publication number
CN111914492A
CN111914492A CN202011014614.7A CN202011014614A CN111914492A CN 111914492 A CN111914492 A CN 111914492A CN 202011014614 A CN202011014614 A CN 202011014614A CN 111914492 A CN111914492 A CN 111914492A
Authority
CN
China
Prior art keywords
data
prediction
optimization
sample
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011014614.7A
Other languages
English (en)
Other versions
CN111914492B (zh
Inventor
金怀平
李拯
胡保林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Publication of CN111914492A publication Critical patent/CN111914492A/zh
Application granted granted Critical
Publication of CN111914492B publication Critical patent/CN111914492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/06Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/10Numerical modelling
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Physiology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于进化优化的半监督学习工业过程软测量建模方法。所述方法用于解决工业过程中有标签数据获取较少、无标签数据丰富导致传统软测量模型预测性能精度不高的问题。本发明采用进化优化的方式对无标签数据中随机选取的样本进行伪标签估计,将获得的伪标签数据加入到有标签数据中通过高斯过程回归进行混合建模,有效的提升了传统软测量模型的性能。此外,对无标签数据进行小批量随机选取优化将带来多样性的伪标签数据优化结果,通过融合集成学习的思想,能够进一步提升模型的预测准确性和稳定性,从而使得工业过程的控制和监测更加安全可靠。

Description

一种基于进化优化的半监督学习工业过程软测量建模方法
技术领域
本发明涉及工业过程控制领域,尤其涉及一种基于进化优化的半监督学习工业过程软测量建模方法。
背景技术
随着现代信息技术的迅猛突破,化工、石油、医药和冶金等过程工业领域已向规模扩大化、工艺复杂化和节能环保化方向快速发展,受限于技术或经济方面的因素,诸如仪表检测和离线分析等常规的检测手段已经无法实现对关键过程变量的在线测量来满足生产的需求。软测量技术作为一种重要的间接测量手段,近年来,以构建辅助变量和主导变量之间数学关系模型为核心的软测量技术已经成为各种先进自动化技术成功实施的基础和关键。
传统的软测量模型的构建需要的过程数据应同时包含输入输出的有标签数据,但在实际过程工业中,相对于容易获取的无标签数据,有标签数据往往难以获取,十分稀少,这就导致了大量包含过程有益信息的无标签数据被浪费,以及传统软测量模型性能不佳的问题。于是,能够用利用这些丰富的无标签数据来提升软测量模型性能的半监督学习软测量建模方法在工业过程中日益受到关注和重视。
然而,如自训练、协同训练等现存的半监督软测量模型存在着伪标签估计严重依赖初始模型性能、难以对伪标签数据的置信度有效评估、迭代学习易带来误差累积和较大的计算负担等问题。为了避免这些问题,充分挖掘无标签数据中的过程有益信息,进化优化作为一种自适应、随机、全局搜索的启发式算法,为找到更准确的伪标签提供了极大可能。
发明内容
本发明为了解决传统软测量建模在工业过程应用中的模型性能受限于稀少的有标签数据,提出了一种基于进化优化的半监督学习工业过程软测量建模方法,该方法能充分利用有标签数据和无标签数据的有益信息,有效改善上述问题,实现工业过程中关键参数的在线估计。
为解决上述技术问题,本发明的技术方案如下:一种基于进化优化的半监督学习工业过程软测量建模方法,包括以下步骤:
步骤(1)利用集散控制系统或离线检测的方法,收集工业过程数据构建软测量模型所用的数据库;所收集数据包括同时包含辅助变量和预测变量的有标签数据集L∈RN×Q,也包括只含有辅助变量的无标签数据集U∈RK×J,其中,N和Q分别表示有标签数据的样本个数和过程变量个数,K和J分别表示无标签数据的样本个数和辅助变量个数;
步骤(2)对数据库中的样本进行归一化处理,获得新的数据集
Figure BDA0002698615770000022
Figure BDA0002698615770000021
其中,M和D分别为有标签样本和无标签样本的变量个数;
步骤(3)针对工业过程中呈现出的非线性特性,选择高斯过程回归模型作为基学习器;
步骤(4)采用进化优化的方法对随机抽取的无标签数据进行预测变量的优化估计,获得带有估计输出的无标签数据,即伪标签数据,得到的伪标记数据将尽可能逼近原始工业过程数据的分布;
步骤(5)将获得的伪标记数据加入到有标签数据库中得到混合训练数据建立高斯过程回归软测量模型;
步骤(6)重复步骤(2)至(4),直到达到预设次数Z时终止,获得Z个混合不同伪标记数据建立的高斯过程回归软测量模型;
步骤(7)收集新的工业过程在线测量数据,并进行归一化处理;
步骤(8)将归一化处理后的测量数据直接输入到步骤(6)中建立好的Z个高斯过程回归软测量模型中得到Z个预测输出,将获得的Z个预测输出进行集成的结果反归一化后作为最终预测结果,并根据预测结果最终实现对工业过程的监测和控制。
进一步地,所述步骤(3)中高斯过程回归模型GPR的建立过程为:
假设有数据集
Figure BDA0002698615770000031
对数据集D中的每个样本x*在高斯过程回归模型中的预测输出
Figure BDA0002698615770000032
服从高斯分布:
Figure BDA0002698615770000033
式(1)中,E(.)和Var(.)分别表示均值和方差算子。
所述高斯过程回归模型可描述为:
Figure BDA0002698615770000034
式(2)中,k*=[C(x*,x1),…,C(x*,xn))]T,C是一个由X中每个样本彼此之前作协方差组成的nxn阶对称正定矩阵,
Figure BDA0002698615770000035
Figure BDA0002698615770000036
分别为高斯过程回归模型的预测均值与方差。
进一步地,所述步骤(4)获得伪标签数据的具体过程为:
1)从无标签数据集
Figure BDA0002698615770000037
中随机抽取S个样本得到待优化无标签样本集u∈RS×D,采用进化优化算法(遗传算法)对u={xu1,...,xuS}进行伪标签优化估计,目标优化问题描述如下:
Figure BDA0002698615770000038
式(3)中f(x)为待优化的目标函数;x为待优化的决策变量;lb和ub分别为变量x的下限和上限约束;
2)利用数据集
Figure BDA0002698615770000039
建立高斯过程回归模型GPR,利用该模型对无标签样本集{xu,1,…,xu,S}进行预测得到估计输出yu={yu,1,...,yu,S}和预测方差σ2={σ2 u,1,…,σ2 u,S},x的上限为ub=yu+3σ2,下限为lb=yu-3σ2
3)确定目标函数f(x),在所提方法中f(x)由三个部分组成,分别为训练误差RMSEu、预测可靠度STDu和邻近偏差errordiff;其中,训练误差为优化得到的伪标签样本对训练样本的预测变量进行预测的均方根误差,预测可靠度为GPR模型预测时得到的预测方差所获得,邻近偏差为无标签样本的优化输出与其最近邻标签样本输出的偏差,因此目标函数表示为:
f(x)=λ*RMSEu+(1-λ)STDu+C*errordiff(4)
式(3)中,0≤λ≤1为训练误差和预测方差的平衡系数,C≥0为惩罚参数。
更进一步地,所述训练误差RMSEu、预测可靠度STDu和邻近偏差errordiff的计算过程如下:
①训练误差RMSEu为优化得到的伪标签样本对训练样本的预测变量进行预测的均方根误差,预测可靠度为GPR模型预测时得到的预测方差计算得到,其表示如下:
Figure BDA0002698615770000041
Figure BDA0002698615770000042
式(5)和式(6)中,Ntrn为训练集
Figure BDA00026986157700000412
的样本个数,ytrn,i
Figure BDA0002698615770000043
和预测变量的真实值,
Figure BDA0002698615770000044
和σtrn,i分别为通过混合优化得到的伪标签数据和数据集
Figure BDA0002698615770000045
建立GPR模型计算得到的预测值和预测方差;
②邻近偏差errordiff为无标签样本的优化输出与其最近邻标签样本输出的偏差,其计算步骤如下:
a、将有标签数据集
Figure BDA0002698615770000046
随机打乱两次获得新的数据集
Figure BDA0002698615770000047
Figure BDA0002698615770000048
对数据集
Figure BDA0002698615770000049
Figure BDA00026986157700000410
中的每个样本按顺序对应求取差值获得差分数据集ΔL1,将ΔL1存入用于构建差分模型的数据库;
b、重复a中所述过程T次,剔除差分模型数据库中重复的样本获得新的差分数据集ΔL,利用ΔL建立高斯过程回归模型GPRdiff
c、根据相似度测量方法为{u,yu}中的每个样本(xu,j,yu,j),(j=1,…,S)在数据集
Figure BDA00026986157700000411
上选择一个最相似的样本,计算该样本与其最相似样本的差值得到差分变量(Δxu,j,Δyu,j),(j=1,…,S),其中,相似度测量采用欧式距离相似度,其定义为:
Figure BDA0002698615770000051
Figure BDA0002698615770000052
式(7)和式(8)中,dn表示伪标记样本xu与训练样本xn之间的加权欧氏距离,σn
Figure BDA0002698615770000053
的标准差,
Figure BDA0002698615770000054
是局部化参数,ωn为dn标准化后得到的欧氏距离相似度;
d、调用模型数据库中的GPRdiff模型,将Δxu,j直接输入到GPRdiff模型中得到预测输出
Figure BDA0002698615770000055
求Δyu,j
Figure BDA0002698615770000056
之间的偏差,并进行标准化得Δdj,(j=1,...,S),进一步计算Δyu,j
Figure BDA0002698615770000057
之间的误差errordiff
Figure BDA0002698615770000058
式(9)中,c为选择变量,c=1时errordiff为均方误差,c=2时errordiff为均方根误差;
4)设定初始化种群的数目和种群代数,然后随机产生一个初始种群作为起始解进行优化,当到达最大代数优化停止,选出使目标函数最小化的种群作为伪标记样本优化结果。
作为优选,步骤(4)从
Figure BDA0002698615770000059
中随机抽取S个样本,S不超过有标签样本个数N。
进一步地,所述步骤(8)具体为:对于Z个不同的高斯过程回归预测模型所得的预测输出,采用简单平均的集成方式进行集成来获得测量数据最终的预测结果。
本发明用于解决工业过程中有标签数据获取较少、无标签数据丰富导致传统软测量模型预测性能精度不高的问题,采用进化优化的方式对无标签数据中随机选取的样本进行伪标签估计,将获得的伪标签数据加入到有标签数据中通过高斯过程回归进行混合建模,有效的提升了传统软测量模型的性能。本发明对无标签数据进行小批量随机选取优化将带来多样性的伪标签数据优化结果,通过融合集成学习的思想,能够进一步提升模型的预测准确性和稳定性,从而使得工业过程的控制和监测更加安全可靠。
与现有技术相比,本发明具有以下有益效果:本发明通过对工业过程关键参数测量而构建的基于进化优化的半监督软测量模型,不仅利用了珍贵的有标签数据,同时也利用了容易获取的无标签数据,解决了传统软测量建模方法无法利用大量包含有益信息的无标签数据导致模型性能降低的问题,在有标签数据数量相同的情况下,模型能够取得比传统监督软测量模型更好的预测效果,这为过程工业的监测和控制提供了十分有利的条件。
附图说明
图1是本发明中基于进化优化的半监督软测量方法的流程图;
图2是传统监督高斯过程回归方法的预测值与真实值的曲线图;
图3是本发明中的方法在工业金霉素发酵过程中基质浓度的预测值与真实值的曲线图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
第一步:利用集散控制系统或离线检测的方法,收集工业过程数据构建软测量模型所用的数据库。对于所收集数据既包括了同时包含辅助变量和预测变量的有标签数据L∈RN×Q,也包括只含有辅助变量的无标签数据集U∈RK×J,其中,N和Q分别表示有标签数据的样本个数和过程变量个数,K和J分别表示无标签数据的样本个数和辅助变量个数。
第二步:对数据库中的样本进行z-score归一化处理,得到新的数据集
Figure BDA0002698615770000061
Figure BDA0002698615770000062
其中,M和D分别为有标签样本和无标签样本的保留的变量个数。
第三步:根据对工业过程中存在的非线性特性分析,选择高斯过程回归模型(GPR)作为贯穿本方法的基模型,所述GPR模型的建模过程为:
假设有数据集
Figure BDA0002698615770000063
对数据集D中的每个样本x*在高斯过程回归模型中的预测输出
Figure BDA0002698615770000071
眼从高斯分布:
Figure BDA0002698615770000072
式(1)中,E(.)和Var(.)分别表示均值和方差算子。
所述高斯过程回归模型可描述为:
Figure BDA0002698615770000073
式(2)中,k*=[C(x*,x1),…,C(x*,xn))]T,C是一个由X中每个样本彼此之前作协方差组成的nxn阶对称正定矩阵,
Figure BDA0002698615770000074
Figure BDA0002698615770000075
分别为高斯过程回归模型的预测均值与方差。
第四步:构建差分模型,所述差分模型的建立过程具体如下:
①将有标签数据集
Figure BDA0002698615770000076
随机打乱两次获得新的数据集
Figure BDA0002698615770000077
Figure BDA0002698615770000078
Figure BDA0002698615770000079
Figure BDA00026986157700000710
中的每个样本按顺序对应求取差值获得差分数据集ΔL1,将ΔL1存入用于构建差分模型的数据库;
②重复①中所述过程直至达到预设次数T,剔除差分模型数据库中重复的样本获得新的差分数据集ΔL;
③利用ΔL建立差分模型GPRdiff,将GPRdiff模型存入模型数据库以备之后在优化中使用。
第五步:利用数据集
Figure BDA00026986157700000711
建立初始的高斯过程回归模型GPRorig,并将GPRorig模型及其参数存入模型数据库,其中,本实施例所使用高斯过程回归模型的协方差函数统一为平方指数协方差函数、线性协方差函数和噪声项的组合。
第六步:从
Figure BDA00026986157700000712
中随机抽取S个样本得到待优化无标签样本集u∈RS×D,采用进化优化算法(遗传算法)对u={xu1,...,xuS}进行伪标签优化估计,目标优化问题描述如下:
Figure BDA00026986157700000713
其中,f(x)为待优化的目标函数;x为待优化的决策变量;lb和ub分别为变量x的下限和上限约束。优化估计的过程具体如下:
①设定初始化种群数目P和种群代数M;
②从模型数据库中调取GPRorig模型对无标签样本集{xu,1,…,xu,S}进行预测得到估计输出yu={yu,1,…,yu,S}和预测方差σ2={σ2 u,1,…,σ2 u,S};
③使用二进制编码对yu和σ2进行编码,x的上限设置为ub=yu+3σ2,下限为lb=yu-3σ2,在界限内随机产生一个种群作为初始解;
④对于每个种群Pp=(yu)p,(i=1,…,P),将其对应于u的输出,得到{u,yu}作为训练集并调用GPRorig模型的参数构建高斯过程回归模型GPRnew,计算GPRnew
Figure BDA0002698615770000081
上的均方根误差RMSEu以及预测方差STDu
Figure BDA0002698615770000082
Figure BDA0002698615770000083
其中,Ntrn为训练集
Figure BDA0002698615770000084
的样本个数,ytrn,i
Figure BDA0002698615770000085
中预测变量的真实值,
Figure BDA0002698615770000086
和σtrn,i分别为通过混合优化得到的伪标签数据和数据集
Figure BDA0002698615770000087
建立GPR模型计算得到的预测值和预测方差;
⑤根据相似度测量方法为{u,yu}中的每个样本(xu,j,yu,j),(j=1,…,S)在训练集
Figure BDA0002698615770000088
上选择一个最相似的样本,计算该样本与其最相似样本的差值得到差分变量(Δxu,j,Δyu,j),(j=1,…,S),其中,相似度测量采用欧式距离相似度,其定义为:
Figure BDA0002698615770000089
Figure BDA00026986157700000810
其中,dn表示伪标记样本xu与训练样本xn之间的加权欧氏距离,σn
Figure BDA00026986157700000811
的标准差,
Figure BDA00026986157700000812
是局部化参数,ωn为dn标准化后得到的欧氏距离相似度。
⑥调用模型数据库中的GPRdiff模型将Δxu,j直接输入到GPRdiff模型中得到预测变量
Figure BDA00026986157700000813
求Δyu,j
Figure BDA0002698615770000091
之间的偏差,并进行标准化得Δdj’(j=1,...,S),进一步计算Δyu,j
Figure BDA0002698615770000092
之间的误差errordiff
Figure BDA0002698615770000093
其中,c为选择变量,c=1时errordiff为均方误差,c=2时errordiff为均方根误差;
⑦RMSEu、STDu和errordiff同时组成目标函数f(x),其表示为:
f(x)=λ*RMSEu+(1-λ)STDu+C*errordiff(4)
其中,0≤λ≤1为均方根误差和预测可靠度的平衡系数,C≥0为近邻偏差的惩罚系数,在实际过程中根据经验调试λ一般取0.5至1,C取0至1为佳。
⑧当达到预设种群代数时,选出最小化目标函数f(x)的种群,获得最终的伪标签样本集
Figure BDA0002698615770000094
第七步:混合有标签样本集
Figure BDA0002698615770000097
和伪标签样本集
Figure BDA0002698615770000095
作为训练集构建GPR模型;
第八步:重复第五至第六步Z次,获得Z个GPR模型{GPR1,…,GPRZ};
第九步:收集新的工业过程在线测量数据,并数据预处理,将预处理后的测量数据直接输入到第七步中建立好的Z个GPR模型中得到Z个预测输出
Figure BDA0002698615770000096
将Z个预测输出进行简单平均的结果反归一化后作为预测结果,并根据预测结果最终实现对工业过程的监测和控制。
以下结合一个具体的金霉素发酵过程的工业实例来验证本发明方法的性能。在金霉素发酵过程中,金霉素基质浓度是反馈发酵控制过程中的一个十分重要的关键指标,但是目前金霉素基质浓度尚无法在线检测,为了改善金霉素发酵控制水平需要对金霉素基质浓度进行软测量建模。
表1给出了针对关键预测变量金霉素基质浓度所选择的9个辅助变量。
表1辅助变量说明
输入变量 变量描述(单位)
x<sub>1</sub> 发酵时间(min)
x<sub>2</sub> 补料速率(L/h)
x<sub>3</sub> 氨水消耗量(L)
x<sub>4</sub> 基质消耗量(L)
x<sub>5</sub> 空气消耗量(m<sup>3</sup>)
x<sub>6</sub> 温度(℃)
x<sub>7</sub> 发酵体积(m<sup>3</sup>)
x<sub>8</sub> DO浓度(%)
x<sub>9</sub> 空气流量(m<sup>3</sup>/h)
针对该过程,收集了5个发酵批次的过程数据进行训练,其中所有的有标签数据共124个样本用做训练数据,其余的都是预测变量缺失的数据,按时间间隔从中采取960个用作无标签数据,另外收集了9个批次的有标签数据共227个样本作为测试数据,重复步骤三T=20次获得2280个差分样本用于建立差分模型,步骤五中λ和C在所述范围内分别取0.8和0.5,从无标签数据集中随机取S=80个样本进行优化估计,重复Z=10次进行实验,遗传算法的种群数P和种群代数M均设为30,对于公式(9),取c=2,即用均方根误差作为惩罚项。
本实例使用均方根误差RMSE来对预测效果进行检验,RMSE越小代表预测误差越小,预测效果越好,它的计算公式如下式:
Figure BDA0002698615770000101
其中,N表示测试样本的个数,yn
Figure BDA0002698615770000102
分别表示第n个测试样本的真实值和预测值。
为了体现本发明中基于进化优化的半监督软测量方法的优越性,本实例做了传统监督高斯过程软测量(GPR)与本发明所述方法(EASSL-GPR)的对比实验,实验结果如表2所示。
表2不同方法在金霉素发酵过程中的均方根误差
方法 RMSE
高斯过程软测量(GPR) 0.5347
实施例1基于进化优化的半监督软测量方法(EASSL-GPR) 0.3983
通过表2可知,本发明所述方法较好的提升了传统监督软测量模型的预测精度。
通过图2-图3可以看出本发明所述基于进化优化的半监督学习软测量方法的预测精度要优于传统监督学习软测量方法。
应当理解的是,本发明核心发明点在于针对过程工业存在的″有标签样本少,无标签样本丰富″的问题所提出的方法,而不是仅限于保护实施于某个案例,案例只是举例用于验证本方法的有效性,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (6)

1.一种基于进化优化的半监督学习工业过程软测量建模方法,其特征在于,包括以下步骤:
步骤(1)利用集散控制系统或离线检测的方法,收集工业过程数据构建软测量模型所用的数据库;所收集数据包括同时包含辅助变量和预测变量的有标签数据集L∈RN×Q,也包括只含有辅助变量的无标签数据集U∈RK×J,其中,N和Q分别表示有标签数据的样本个数和过程变量个数,K和J分别表示无标签数据的样本个数和辅助变量个数;
步骤(2)对数据库中的样本进行归一化处理,获得新的数据集
Figure FDA0002698615760000011
Figure FDA0002698615760000012
其中,M和D分别为有标签样本和无标签样本的变量个数;
步骤(3)针对工业过程中呈现出的非线性特性,选择高斯过程回归模型作为基学习器;
步骤(4)采用进化优化的方法对随机抽取的无标签数据进行预测变量的优化估计,获得带有估计输出的无标签数据,即伪标签数据,得到的伪标记数据将尽可能逼近原始工业过程数据的分布;
步骤(5)将获得的伪标记数据加入到有标签数据库中得到混合训练数据建立高斯过程回归软测量模型;
步骤(6)重复步骤(2)至(4),直到达到预设次数Z时终止,获得Z个混合不同伪标记数据建立的高斯过程回归软测量模型;
步骤(7)收集新的工业过程在线测量数据,并进行归一化处理;
步骤(8)将归一化处理后的测量数据直接输入到步骤(6)中建立好的Z个高斯过程回归软测量模型中得到Z个预测输出,将获得的Z个预测输出进行集成的结果反归一化后作为最终预测结果,并根据预测结果最终实现对工业过程的监测和控制。
2.根据权利要求1所述的基于进化优化的半监督学习工业过程软测量建模方法,其特征在于,所述步骤(3)中高斯过程回归模型GPR的建立过程为:
假设有数据集
Figure FDA0002698615760000021
对数据集D中的每个样本x*在高斯过程回归模型中的预测输出
Figure FDA0002698615760000022
服从高斯分布:
Figure FDA0002698615760000023
式(1)中,E(.)和Var(.)分别表示均值和方差算子;
所述高斯过程回归模型可描述为:
Figure FDA0002698615760000024
式(2)中,k*=[C(x*,x1),…,C(x*,xn))]T,C是一个由X中每个样本彼此之前作协方差组成的nxn阶对称正定矩阵,
Figure FDA0002698615760000025
Figure FDA0002698615760000026
分别为高斯过程回归模型的预测均值与方差。
3.根据权利要求1所述的基于进化优化的半监督学习工业过程软测量建模方法,其特征在于,所述步骤(4)获得伪标签数据的具体过程为:
1)从无标签数据集
Figure FDA0002698615760000027
中随机抽取S个样本得到待优化无标签样本集u∈RS×D,采用进化优化算法对u={xu1,...,xuS}进行伪标签优化估计,目标优化问题描述如下:
Figure FDA0002698615760000028
式(2)中f(x)为待优化的目标函数;x为待优化的决策变量;lb和ub分别为变量x的下限和上限约束;
2)利用数据集
Figure FDA0002698615760000029
建立高斯过程回归模型GPR,利用该模型对无标签样本集{xu,1,…,xu,S}进行预测得到估计输出yu={yu,1,...,yu,S}和预测方差σ2={σ2 u,1,…,σ2 u,S},x的上限为ub=yu+3σ2,下限为lb=yu-3σ2
3)确定目标函数f(x),在所述方法中f(x)由三个部分组成,分别为训练误差RMSEu、预测可靠度STDu和邻近偏差errordiff;其中,训练误差为优化得到的伪标签样本对训练样本的预测变量进行预测的均方根误差,预测可靠度为GPR模型预测时得到的预测方差所获得,邻近偏差为无标签样本的优化输出与其最近邻标签样本输出的偏差,因此目标函数f(x)表示为:
f(x)=λ*RMSEu+(1-λ)STDu+C*errordiff (4)
式(4)中,0≤λ≤1为训练误差和预测方差的平衡系数,C≥0为惩罚参数。
4.根据权利要求3所述的基于进化优化的半监督学习工业过程软测量建模方法,其特征在于,所述训练误差RMSEu、预测可靠度STDu和邻近偏差errordiff的计算过程如下:
①训练误差RMSEu为优化得到的伪标签样本对训练样本的预测变量进行预测的均方根误差,预测可靠度为GPR模型预测时得到的预测方差计算得到,其表示如下:
Figure FDA0002698615760000031
Figure FDA0002698615760000032
式(5)和式(6)中,Ntrn为训练集
Figure FDA00026986157600000310
的样本个数,ytrn,i
Figure FDA0002698615760000033
中第i个预测变量的真实值,
Figure FDA0002698615760000034
和σtrn,i分别为利用优化得到的伪标签数据集建立的GPR模型对
Figure FDA0002698615760000035
中第i个预测变量进行预测得到的预测值和预测方差;
②邻近偏差errordiff为无标签样本的优化输出与其最近邻标签样本输出的偏差,其计算步骤如下:
a、将有标签数据集
Figure FDA00026986157600000311
随机打乱两次获得新的数据集
Figure FDA0002698615760000036
Figure FDA0002698615760000037
对数据集
Figure FDA0002698615760000038
Figure FDA0002698615760000039
中的每个样本按顺序对应求取差值获得差分数据集ΔL1,将ΔL1存入用于构建差分模型的数据库;
b、重复a中所述过程T次,剔除差分模型数据库中重复的样本获得新的差分数据集ΔL,利用ΔL建立高斯过程回归模型GPRdiff
c、根据相似度测量方法为{u,yu}中的每个样本(xu,j,yu,j),(j=1,...,S)在数据集L上选择一个最相似的样本,计算该样本与其最相似样本的差值得到差分变量(Δxu,j,Δyu,j),(j=1,...,S),其中,相似度测量采用欧式距离相似度,其定义为:
Figure FDA0002698615760000041
Figure FDA0002698615760000042
式(7)和式(8)中,dn表示伪标记样本xu与训练样本xn之间的加权欧氏距离,σn
Figure FDA0002698615760000043
的标准差,
Figure FDA0002698615760000044
是局部化参数,ωn为dn标准化后得到的欧氏距离相似度;
d、调用模型数据库中的GPRdiff模型,将Δxu,j直接输入到GPRdiff模型中得到预测变量
Figure FDA0002698615760000045
求Δyu,j
Figure FDA0002698615760000046
之间的偏差,并进行标准化得Δdj,(j=1,...,S),进一步计算Δyu,j
Figure FDA0002698615760000047
之间的误差errordiff
Figure FDA0002698615760000048
式(9)中,c为选择变量,c=1时errordiff为均方误差,c=2时errordiff为均方根误差;
4)设定初始化种群的数目和种群代数,然后随机产生一个初始种群作为起始解进行优化,当到达最大代数优化停止,选出使目标函数最小化的种群作为伪标记样本优化结果。
5.根据权利要求1所述的基于进化优化的半监督学习工业过程软测量建模方法,其特征在于,步骤(4)从
Figure FDA0002698615760000049
中随机抽取S个样本,S不超过有标签样本个数N。
6.根据权利要求1~5任一所述的基于进化优化的半监督学习工业过程软测量建模方法,其特征在于,所述步骤(8)具体为:对于Z个不同的高斯过程回归预测模型所得的预测输出,采用简单平均的集成方式进行集成来获得测量数据最终的预测结果。
CN202011014614.7A 2020-04-28 2020-09-24 一种基于进化优化的半监督学习工业过程软测量建模方法 Active CN111914492B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010348269 2020-04-28
CN2020103482694 2020-04-28

Publications (2)

Publication Number Publication Date
CN111914492A true CN111914492A (zh) 2020-11-10
CN111914492B CN111914492B (zh) 2022-09-13

Family

ID=73265292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011014614.7A Active CN111914492B (zh) 2020-04-28 2020-09-24 一种基于进化优化的半监督学习工业过程软测量建模方法

Country Status (1)

Country Link
CN (1) CN111914492B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989635A (zh) * 2021-04-22 2021-06-18 昆明理工大学 基于自编码器多样性生成机制的集成学习软测量建模方法
CN112990578A (zh) * 2021-03-16 2021-06-18 北京航空航天大学 一种工业低质高噪数据建模及产品质量预测方法
CN113158473A (zh) * 2021-04-27 2021-07-23 昆明理工大学 一种半监督集成即时学习工业混炼胶门尼粘度软测量方法
CN113761748A (zh) * 2021-09-09 2021-12-07 中国矿业大学 一种基于联邦增量随机配置网络的工业过程软测量方法
CN115314412A (zh) * 2022-06-22 2022-11-08 北京邮电大学 一种面向运维的类型自适应的指标预测预警方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096627A (zh) * 2016-05-31 2016-11-09 河海大学 顾及特征优化的极化sar图像半监督分类方法
US20180101529A1 (en) * 2016-10-10 2018-04-12 Proekspert AS Data science versioning and intelligence systems and methods
CN108520111A (zh) * 2018-03-06 2018-09-11 宁波大学 一种基于正交成分最优选择与最优回归的软测量方法
CN108764295A (zh) * 2018-04-28 2018-11-06 江南大学 一种基于半监督集成学习的软测量建模方法
CN109840362A (zh) * 2019-01-16 2019-06-04 昆明理工大学 一种基于多目标优化的集成即时学习工业过程软测量建模方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096627A (zh) * 2016-05-31 2016-11-09 河海大学 顾及特征优化的极化sar图像半监督分类方法
US20180101529A1 (en) * 2016-10-10 2018-04-12 Proekspert AS Data science versioning and intelligence systems and methods
CN108520111A (zh) * 2018-03-06 2018-09-11 宁波大学 一种基于正交成分最优选择与最优回归的软测量方法
CN108764295A (zh) * 2018-04-28 2018-11-06 江南大学 一种基于半监督集成学习的软测量建模方法
CN109840362A (zh) * 2019-01-16 2019-06-04 昆明理工大学 一种基于多目标优化的集成即时学习工业过程软测量建模方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ISAAC TRIGUERO等: ""Self-labeled techniques for semi-supervised learning:taxonomy, software and empirical study"", 《KNOWL INF SYST》 *
WEIMING SHAO等: ""Semi-supervised Selective Ensemble Learning Based On Distance to Model for Nonlinear Soft Sensor Development"", 《NEUROCOMPUTING》 *
章军等: "基于SVM的苯酚浓度半监督软测量方法", 《计算机与应用化学》 *
马蕾: "粒子群算法支持向量机的半监督回归", 《电子科技》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990578A (zh) * 2021-03-16 2021-06-18 北京航空航天大学 一种工业低质高噪数据建模及产品质量预测方法
CN112989635A (zh) * 2021-04-22 2021-06-18 昆明理工大学 基于自编码器多样性生成机制的集成学习软测量建模方法
CN112989635B (zh) * 2021-04-22 2022-05-06 昆明理工大学 基于自编码器多样性生成机制的集成学习软测量建模方法
CN113158473A (zh) * 2021-04-27 2021-07-23 昆明理工大学 一种半监督集成即时学习工业混炼胶门尼粘度软测量方法
CN113761748A (zh) * 2021-09-09 2021-12-07 中国矿业大学 一种基于联邦增量随机配置网络的工业过程软测量方法
CN113761748B (zh) * 2021-09-09 2023-09-15 中国矿业大学 一种基于联邦增量随机配置网络的工业过程软测量方法
CN115314412A (zh) * 2022-06-22 2022-11-08 北京邮电大学 一种面向运维的类型自适应的指标预测预警方法及装置
CN115314412B (zh) * 2022-06-22 2023-09-05 北京邮电大学 一种面向运维的类型自适应的指标预测预警方法及装置

Also Published As

Publication number Publication date
CN111914492B (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
CN111914492B (zh) 一种基于进化优化的半监督学习工业过程软测量建模方法
Qiao et al. A deep belief network with PLSR for nonlinear system modeling
CN104699894A (zh) 基于实时学习的高斯过程回归多模型融合建模方法
CN107797989A (zh) 企业名称识别方法、电子设备及计算机可读存储介质
CN108197743A (zh) 一种基于深度学习的预测模型软测量方法
CN106843172A (zh) 基于jy‑kpls的复杂工业过程在线质量预测方法
CN108334943A (zh) 基于主动学习神经网络模型的工业过程半监督软测量建模方法
CN112989711B (zh) 基于半监督集成学习的金霉素发酵过程软测量建模方法
CN111079856B (zh) 一种基于csjitl-rvm的多时段间歇过程软测量建模方法
CN110045613B (zh) 基于量子退火的混合整数最优控制数值求解方法
Li et al. A soft sensing scheme of gas utilization ratio prediction for blast furnace via improved extreme learning machine
CN110046377B (zh) 一种基于异构相似度的选择性集成即时学习软测量建模方法
CN105425583A (zh) 基于协同训练lwpls的青霉素生产过程的控制方法
CN104504288A (zh) 基于多向支持向量聚类的非线性多阶段间歇过程软测量方法
CN111785326B (zh) 基于生成对抗网络的药物作用后基因表达谱预测方法
Hu et al. Weighted kernel fuzzy C-means-based broad learning model for time-series prediction of carbon efficiency in iron ore sintering process
CN116169670A (zh) 一种基于改进神经网络的短期非居民负荷预测方法及系统
CN116579447A (zh) 一种基于分解机制和注意力机制的时间序列预测方法
CN109408896B (zh) 一种污水厌氧处理产气量多元智能实时监控方法
CN109033524A (zh) 一种基于鲁棒混合模型的化工过程浓度变量在线估计方法
CN116303786B (zh) 一种基于多维数据融合算法的区块链金融大数据管理系统
CN112766548A (zh) 基于gasa-bp神经网络的订单完工时间预测方法
CN100370453C (zh) 稀土串级萃取分离组分含量软测量方法
CN114871000B (zh) 一种浮选加药自适应调控方法
Tian et al. A new incremental learning modeling method based on multiple models for temperature prediction of molten steel in LF

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant