CN111914492B - 一种基于进化优化的半监督学习工业过程软测量建模方法 - Google Patents

一种基于进化优化的半监督学习工业过程软测量建模方法 Download PDF

Info

Publication number
CN111914492B
CN111914492B CN202011014614.7A CN202011014614A CN111914492B CN 111914492 B CN111914492 B CN 111914492B CN 202011014614 A CN202011014614 A CN 202011014614A CN 111914492 B CN111914492 B CN 111914492B
Authority
CN
China
Prior art keywords
data
prediction
sample
model
optimization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011014614.7A
Other languages
English (en)
Other versions
CN111914492A (zh
Inventor
金怀平
李拯
胡保林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Publication of CN111914492A publication Critical patent/CN111914492A/zh
Application granted granted Critical
Publication of CN111914492B publication Critical patent/CN111914492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/06Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/10Numerical modelling
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Abstract

本发明公开了一种基于进化优化的半监督学习工业过程软测量建模方法。所述方法用于解决工业过程中有标签数据获取较少、无标签数据丰富导致传统软测量模型预测性能精度不高的问题。本发明采用进化优化的方式对无标签数据中随机选取的样本进行伪标签估计,将获得的伪标签数据加入到有标签数据中通过高斯过程回归进行混合建模,有效的提升了传统软测量模型的性能。此外,对无标签数据进行小批量随机选取优化将带来多样性的伪标签数据优化结果,通过融合集成学习的思想,能够进一步提升模型的预测准确性和稳定性,从而使得工业过程的控制和监测更加安全可靠。

Description

一种基于进化优化的半监督学习工业过程软测量建模方法
技术领域
本发明涉及工业过程控制领域,尤其涉及一种基于进化优化的半监督学习工业过程软测量建模方法。
背景技术
随着现代信息技术的迅猛突破,化工、石油、医药和冶金等过程工业领域已向规模扩大化、工艺复杂化和节能环保化方向快速发展,受限于技术或经济方面的因素,诸如仪表检测和离线分析等常规的检测手段已经无法实现对关键过程变量的在线测量来满足生产的需求。软测量技术作为一种重要的间接测量手段,近年来,以构建辅助变量和主导变量之间数学关系模型为核心的软测量技术已经成为各种先进自动化技术成功实施的基础和关键。
传统的软测量模型的构建需要的过程数据应同时包含输入输出的有标签数据,但在实际过程工业中,相对于容易获取的无标签数据,有标签数据往往难以获取,十分稀少,这就导致了大量包含过程有益信息的无标签数据被浪费,以及传统软测量模型性能不佳的问题。于是,能够用利用这些丰富的无标签数据来提升软测量模型性能的半监督学习软测量建模方法在工业过程中日益受到关注和重视。
然而,如自训练、协同训练等现存的半监督软测量模型存在着伪标签估计严重依赖初始模型性能、难以对伪标签数据的置信度有效评估、迭代学习易带来误差累积和较大的计算负担等问题。为了避免这些问题,充分挖掘无标签数据中的过程有益信息,进化优化作为一种自适应、随机、全局搜索的启发式算法,为找到更准确的伪标签提供了极大可能。
发明内容
本发明为了解决传统软测量建模在工业过程应用中的模型性能受限于稀少的有标签数据,提出了一种基于进化优化的半监督学习工业过程软测量建模方法,该方法能充分利用有标签数据和无标签数据的有益信息,有效改善上述问题,实现工业过程中关键参数的在线估计。
为解决上述技术问题,本发明的技术方案如下:一种基于进化优化的半监督学习工业过程软测量建模方法,包括以下步骤:
步骤(1)利用集散控制系统或离线检测的方法,收集工业过程数据构建软测量模型所用的数据库;所收集数据包括同时包含辅助变量和预测变量的有标签数据集L∈RN×Q,也包括只含有辅助变量的无标签数据集U∈RK×J,其中,N和Q分别表示有标签数据的样本个数和过程变量个数,K和J分别表示无标签数据的样本个数和辅助变量个数;
步骤(2)对数据库中的样本进行归一化处理,获得新的数据集
Figure GDA0003785914010000022
Figure GDA0003785914010000021
其中,M和D分别为有标签样本和无标签样本的变量个数;
步骤(3)针对工业过程中呈现出的非线性特性,选择高斯过程回归模型作为基学习器;
步骤(4)采用进化优化的方法对随机抽取的无标签数据进行预测变量的优化估计,获得带有估计输出的无标签数据,即伪标签数据,得到的伪标记数据将尽可能逼近原始工业过程数据的分布;
步骤(5)将获得的伪标记数据加入到有标签数据库中得到混合训练数据建立高斯过程回归软测量模型;
步骤(6)重复步骤(2)至(4),直到达到预设次数Z时终止,获得Z个混合不同伪标记数据建立的高斯过程回归软测量模型;
步骤(7)收集新的工业过程在线测量数据,并进行归一化处理;
步骤(8)将归一化处理后的测量数据直接输入到步骤(6)中建立好的Z个高斯过程回归软测量模型中得到Z个预测输出,将获得的Z个预测输出进行集成的结果反归一化后作为最终预测结果,并根据预测结果最终实现对工业过程的监测和控制。
进一步地,所述步骤(3)中高斯过程回归模型GPR的建立过程为:
假设有数据集
Figure GDA0003785914010000031
对数据集D1中的每个样本x*在高斯过程回归模型中的预测输出
Figure GDA0003785914010000032
服从高斯分布:
Figure GDA0003785914010000033
式(1)中,E(.)和Var(.)分别表示均值和方差算子。
所述高斯过程回归模型可描述为:
Figure GDA0003785914010000034
式(2)中,k*=[C(x*,x1),…,C(x*,xn)]T,C是一个由X中每个样本彼此之间作协方差组成的nxn阶对称正定矩阵,
Figure GDA0003785914010000035
Figure GDA0003785914010000036
分别为高斯过程回归模型的预测均值与方差。
进一步地,所述步骤(4)获得伪标签数据的具体过程为:
1)从无标签数据集
Figure GDA0003785914010000037
中随机抽取S个样本得到待优化无标签样本集u∈RS×D,采用进化优化算法(遗传算法)对u={xu,1,...,xu,S}进行伪标签优化估计,目标优化问题描述如下:
Figure GDA0003785914010000038
式(3)中f(x)为待优化的目标函数;x为待优化的决策变量;lb和ub分别为变量x的下限和上限约束;
2)利用数据集
Figure GDA0003785914010000039
建立高斯过程回归模型GPR,利用该模型对无标签样本集{xu,1,...,xu,S}进行预测得到估计输出yu={yu,1,...,yu,s}和预测方差σ2={σ2 u,1,...,σ2 u,S},x的上限为 ub=yu+3σ2,下限为lb=yu-3σ2
3)确定目标函数f(x),在所提方法中f(x)由三个部分组成,分别为训练误差RMSEu、预测可靠度STDu和邻近偏差errordiff;其中,训练误差为优化得到的伪标签样本对训练样本的预测变量进行预测的均方根误差,预测可靠度为GPR模型预测时得到的预测方差所获得,邻近偏差为无标签样本的优化输出与其最近邻标签样本输出的偏差,因此目标函数表示为:
f(x)=λ*RMSEu+(1-λ)STDu+C*errordiff (4)
式(3)中,0≤λ≤1为训练误差和预测方差的平衡系数,C≥0为惩罚参数。
更进一步地,所述训练误差RMSEu、预测可靠度STDu和邻近偏差errordiff的计算过程如下:
①训练误差RMSEu为优化得到的伪标签样本对训练样本的预测变量进行预测的均方根误差,预测可靠度为GPR模型预测时得到的预测方差计算得到,其表示如下:
Figure GDA0003785914010000041
Figure GDA0003785914010000042
式(5)和式(6)中,Ntrn为训练集
Figure GDA0003785914010000043
的样本个数,ytrn,i
Figure GDA0003785914010000044
中预测变量的真实值,
Figure GDA0003785914010000045
和σtrn,i分别为通过混合优化得到的伪标签数据和数据集
Figure GDA0003785914010000046
建立GPR模型计算得到的预测值和预测方差;
②邻近偏差errordiff为无标签样本的优化输出与其最近邻标签样本输出的偏差,其计算步骤如下:
a、将有标签数据集
Figure GDA0003785914010000047
随机打乱两次获得新的数据集
Figure GDA0003785914010000048
Figure GDA0003785914010000049
对数据集
Figure GDA00037859140100000410
Figure GDA00037859140100000411
中的每个样本按顺序对应求取差值获得差分数据集ΔL1,将ΔL1存入用于构建差分模型的数据库;
b、重复a中所述过程T次,剔除差分模型数据库中重复的样本获得新的差分数据集ΔL,利用ΔL建立高斯过程回归模型GPRdiff
c、根据相似度测量方法为{u,yu}中的每个样本(xu,j,yu,j),j=1,...,S,在数据集L上选择一个最相似的样本,计算该样本与其最相似样本的差值得到差分变量(Δxu,j,Δyu,j),j=1,...,S,其中,相似度测量采用欧式距离相似度,其定义为:
Figure GDA0003785914010000051
Figure GDA0003785914010000052
式(7)和式(8)中,dn表示伪标记样本xu与训练样本xn之间的加权欧氏距离,σn
Figure GDA0003785914010000053
的标准差,
Figure GDA0003785914010000054
是局部化参数,ωn为dn标准化后得到的欧氏距离相似度;
d、调用模型数据库中的GPRdiff模型,将Δxu,j直接输入到GPRdiff模型中得到预测输出
Figure GDA0003785914010000055
求Δyu,j
Figure GDA0003785914010000056
之间的偏差,并进行标准化得Δdj,j=1,...,S,进一步计算Δyu,j
Figure GDA0003785914010000057
之间的误差errordiff
Figure GDA0003785914010000058
式(9)中,c为选择变量,c=1时errordiff为均方误差,c=2时errordiff为均方根误差;
4)设定初始化种群的数目和种群代数,然后随机产生一个初始种群作为起始解进行优化,当到达最大代数优化停止,选出使目标函数最小化的种群作为伪标记样本优化结果。
作为优选,步骤(4)从
Figure GDA0003785914010000059
中随机抽取S个样本,S不超过有标签样本个数N。
进一步地,所述步骤(8)具体为:对于Z个不同的高斯过程回归预测模型所得的预测输出,采用简单平均的集成方式进行集成来获得测量数据最终的预测结果。
本发明用于解决工业过程中有标签数据获取较少、无标签数据丰富导致传统软测量模型预测性能精度不高的问题,采用进化优化的方式对无标签数据中随机选取的样本进行伪标签估计,将获得的伪标签数据加入到有标签数据中通过高斯过程回归进行混合建模,有效的提升了传统软测量模型的性能。本发明对无标签数据进行小批量随机选取优化将带来多样性的伪标签数据优化结果,通过融合集成学习的思想,能够进一步提升模型的预测准确性和稳定性,从而使得工业过程的控制和监测更加安全可靠。
与现有技术相比,本发明具有以下有益效果:本发明通过对工业过程关键参数测量而构建的基于进化优化的半监督软测量模型,不仅利用了珍贵的有标签数据,同时也利用了容易获取的无标签数据,解决了传统软测量建模方法无法利用大量包含有益信息的无标签数据导致模型性能降低的问题,在有标签数据数量相同的情况下,模型能够取得比传统监督软测量模型更好的预测效果,这为过程工业的监测和控制提供了十分有利的条件。
附图说明
图1是本发明中基于进化优化的半监督软测量方法的流程图;
图2是传统监督高斯过程回归方法的预测值与真实值的曲线图;
图3是本发明中的方法在工业金霉素发酵过程中基质浓度的预测值与真实值的曲线图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案作进一步详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
第一步:利用集散控制系统或离线检测的方法,收集工业过程数据构建软测量模型所用的数据库。对于所收集数据既包括了同时包含辅助变量和预测变量的有标签数据L∈RN×Q,也包括只含有辅助变量的无标签数据集U∈RK×J,其中,N和Q分别表示有标签数据的样本个数和过程变量个数,K和J分别表示无标签数据的样本个数和辅助变量个数。
第二步:对数据库中的样本进行z-score归一化处理,得到新的数据集
Figure GDA0003785914010000061
Figure GDA0003785914010000062
其中,M和D分别为有标签样本和无标签样本的保留的变量个数。
第三步:根据对工业过程中存在的非线性特性分析,选择高斯过程回归模型(GPR)作为贯穿本方法的基模型,所述GPR模型的建模过程为:
假设有数据集
Figure GDA0003785914010000063
对数据集D1中的每个样本x*在高斯过程回归模型中的预测输出
Figure GDA0003785914010000064
服从高斯分布:
Figure GDA0003785914010000071
式(1)中,E(.)和Var(.)分别表示均值和方差算子。
所述高斯过程回归模型可描述为:
Figure GDA0003785914010000072
式(2)中,k*=[C(x*,x1),…,C(x*,xn))]T,C是一个由X中每个样本彼此之间作协方差组成的nxn阶对称正定矩阵,
Figure GDA0003785914010000073
Figure GDA0003785914010000074
分别为高斯过程回归模型的预测均值与方差。
第四步:构建差分模型,所述差分模型的建立过程具体如下:
①将有标签数据集
Figure GDA0003785914010000075
随机打乱两次获得新的数据集
Figure GDA0003785914010000076
Figure GDA0003785914010000077
Figure GDA0003785914010000078
Figure GDA0003785914010000079
中的每个样本按顺序对应求取差值获得差分数据集ΔL1,将ΔL1存入用于构建差分模型的数据库;
②重复①中所述过程直至达到预设次数T,剔除差分模型数据库中重复的样本获得新的差分数据集ΔL;
③利用ΔL建立差分模型GPRdiff,将GPRdiff模型存入模型数据库以备之后在优化中使用。
第五步:利用数据集
Figure GDA00037859140100000710
建立初始的高斯过程回归模型GPRorig,并将GPRorig模型及其参数存入模型数据库,其中,本实施例所使用高斯过程回归模型的协方差函数统一为平方指数协方差函数、线性协方差函数和噪声项的组合。
第六步:从
Figure GDA00037859140100000711
中随机抽取S个样本得到待优化无标签样本集u∈RS×D,采用进化优化算法 (遗传算法)对u={xu,1,...,xu,S}进行伪标签优化估计,目标优化问题描述如下:
Figure GDA00037859140100000712
其中,f(x)为待优化的目标函数;x为待优化的决策变量;lb和ub分别为变量x的下限和上限约束。优化估计的过程具体如下:
①设定初始化种群数目P和种群代数M;
②从模型数据库中调取GPRorig模型对无标签样本集{xu,1,...,xu,S}进行预测得到估计输出 yu={yu,1,...,yu,S}和预测方差σ2={σ2 u,1,...,σ2 u,S};
③使用二进制编码对yu和σ2进行编码,x的上限设置为ub=yu+3σ2,下限为 lb=yu-3σ2,在界限内随机产生一个种群作为初始解;
④对于每个种群Pp=(yu)p,(i=1,...,P),将其对应于u的输出,得到{u,yu}作为训练集并调用GPRorig模型的参数构建高斯过程回归模型GPRnew,计算GPRnew
Figure GDA0003785914010000081
上的均方根误差 RMSEu以及预测方差STDu
Figure GDA0003785914010000082
Figure GDA0003785914010000083
其中,Ntrn为训练集
Figure GDA0003785914010000084
的样本个数,ytrn,i
Figure GDA0003785914010000085
中预测变量的真实值,
Figure GDA0003785914010000086
和σtrn,i分别为通过混合优化得到的伪标签数据和数据集
Figure GDA0003785914010000087
建立GPR模型计算得到的预测值和预测方差;
⑤根据相似度测量方法为{u,yu}中的每个样本(xu,j,yu,j),j=1,...,S,在训练集
Figure GDA00037859140100000710
上选择一个最相似的样本,计算该样本与其最相似样本的差值得到差分变量(Δxu,j,Δyu,j),j=1,...,S,其中,相似度测量采用欧式距离相似度,其定义为:
Figure GDA0003785914010000088
Figure GDA0003785914010000089
其中,dn表示伪标记样本xu与训练样本xn之间的加权欧氏距离,σn
Figure GDA00037859140100000810
的标准差,
Figure GDA00037859140100000811
是局部化参数,ωn为dn标准化后得到的欧氏距离相似度。
⑥调用模型数据库中的GPRdiff模型,将Δxu,j直接输入到GPRdiff模型中得到预测变量
Figure GDA00037859140100000812
求Δyu,j
Figure GDA00037859140100000813
之间的偏差,并进行标准化得Δdj,j=1,...,S,进一步计算Δyu,j
Figure GDA00037859140100000814
之间的误差errordiff
Figure GDA0003785914010000091
其中,c为选择变量,c=1时errordiff为均方误差,c=2时errordiff为均方根误差;
⑦RMSEu、STDu和errordiff同时组成目标函数f(x),其表示为:
f(x)=λ*RMSEu+(1-λ)STDu+C*errordiff (4)
其中,0≤λ≤1为均方根误差和预测可靠度的平衡系数,C≥0为近邻偏差的惩罚系数,在实际过程中根据经验调试λ一般取0.5至1,C取0至1为佳。
⑧当达到预设种群代数时,选出最小化目标函数f(x)的种群,获得最终的伪标签样本集
Figure GDA0003785914010000092
第七步:混合有标签样本集
Figure GDA0003785914010000093
和伪标签样本集
Figure GDA0003785914010000094
作为训练集构建GPR模型;
第八步:重复第五至第六步Z次,获得Z个GPR模型{GPR1,...,GPRZ};
第九步:收集新的工业过程在线测量数据,并数据预处理,将预处理后的测量数据直接输入到第七步中建立好的Z个GPR模型中得到Z个预测输出
Figure GDA0003785914010000095
将Z个预测输出进行简单平均的结果反归一化后作为预测结果,并根据预测结果最终实现对工业过程的监测和控制。
以下结合一个具体的金霉素发酵过程的工业实例来验证本发明方法的性能。在金霉素发酵过程中,金霉素基质浓度是反馈发酵控制过程中的一个十分重要的关键指标,但是目前金霉素基质浓度尚无法在线检测,为了改善金霉素发酵控制水平需要对金霉素基质浓度进行软测量建模。
表1给出了针对关键预测变量金霉素基质浓度所选择的9个辅助变量。
表1辅助变量说明
输入变量 变量描述(单位)
x<sub>1</sub> 发酵时间(min)
x<sub>2</sub> 补料速率(L/h)
x<sub>3</sub> 氨水消耗量(L)
x<sub>4</sub> 基质消耗量(L)
x<sub>5</sub> 空气消耗量(m<sup>3</sup>)
x<sub>6</sub> 温度(℃)
x<sub>7</sub> 发酵体积(m<sup>3</sup>)
x<sub>8</sub> DO浓度(%)
x9 空气流量(m<sup>3</sup>/h)
针对该过程,收集了5个发酵批次的过程数据进行训练,其中所有的有标签数据共124 个样本用做训练数据,其余的都是预测变量缺失的数据,按时间间隔从中采取960个用作无标签数据,另外收集了9个批次的有标签数据共227个样本作为测试数据,重复步骤三T=20 次获得2280个差分样本用于建立差分模型,步骤五中λ和C在所述范围内分别取0.8和0.5,从无标签数据集中随机取S=80个样本进行优化估计,重复Z=10次进行实验,遗传算法的种群数P和种群代数M均设为30,对于公式(9),取c=2,即用均方根误差作为惩罚项。
本实例使用均方根误差RMSE来对预测效果进行检验,RMSE越小代表预测误差越小,预测效果越好,它的计算公式如下式:
Figure GDA0003785914010000101
其中,N表示测试样本的个数,yn
Figure GDA0003785914010000102
分别表示第n个测试样本的真实值和预测值。
为了体现本发明中基于进化优化的半监督软测量方法的优越性,本实例做了传统监督高斯过程软测量(GPR)与本发明所述方法(EASSL-GPR)的对比实验,实验结果如表2所示。
表2不同方法在金霉素发酵过程中的均方根误差
方法 RMSE
高斯过程软测量(GPR) 0.5347
实施例1基于进化优化的半监督软测量方法(EASSL-GPR) 0.3983
通过表2可知,本发明所述方法较好的提升了传统监督软测量模型的预测精度。
通过图2-图3可以看出本发明所述基于进化优化的半监督学习软测量方法的预测精度要优于传统监督学习软测量方法。
应当理解的是,本发明核心发明点在于针对过程工业存在的″有标签样本少,无标签样本丰富″的问题所提出的方法,而不是仅限于保护实施于某个案例,案例只是举例用于验证本方法的有效性,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (5)

1.一种基于进化优化的半监督学习工业过程软测量建模方法,其特征在于,所述方法应用于金霉素基质浓度预测,针对关键预测变量金霉素基质浓度所选择的9个辅助变量为:发酵时间、补料速率、氨水消耗量、基质消耗量、空气消耗量、温度、发酵体积、DO浓度和空气流量;具体包括以下步骤:
步骤(1)利用集散控制系统或离线检测的方法,收集工业过程数据构建软测量模型所用的数据库;所收集数据包括同时包含辅助变量和预测变量的有标签数据集L∈RN×Q,也包括只含有辅助变量的无标签数据集U∈RK×J,其中,N和Q分别表示有标签数据的样本个数和过程变量个数,K和J分别表示无标签数据的样本个数和辅助变量个数;
步骤(2)对数据库中的样本进行归一化处理,获得新的数据集
Figure FDA0003785913000000011
Figure FDA0003785913000000012
其中,M和D分别为有标签样本和无标签样本的变量个数;
步骤(3)针对工业过程中呈现出的非线性特性,选择高斯过程回归模型作为基学习器;
步骤(4)采用进化优化的方法对随机抽取的无标签数据进行预测变量的优化估计,获得带有估计输出的无标签数据,即伪标签数据,得到的伪标记数据将逼近原始工业过程数据的分布;
所述步骤(4)获得伪标签数据的具体过程为:
1)从无标签数据集
Figure FDA0003785913000000013
中随机抽取S个样本得到待优化无标签样本集u∈RS×D,采用进化优化算法对u={xu,1,...,xu,S}进行伪标签优化估计,目标优化问题描述如下:
Figure FDA0003785913000000014
式(3)中f(x)为待优化的目标函数;x为待优化的决策变量;lb和ub分别为变量x的下限和上限约束;
2)利用数据集
Figure FDA0003785913000000015
建立高斯过程回归模型GPR,利用该模型对无标签样本集{xu,1,...,xu,S}进行预测得到估计输出yu={yu,1,...,yu,S}和预测方差σ2={σ2 u,1,...,σ2 u,S},x的上限为ub=yu+3σ2,下限为lb=yu-3σ2
3)确定目标函数f(x),在所述方法中f(x)由三个部分组成,分别为训练误差RMSEu、预测可靠度STDu和邻近偏差errordiff;其中,训练误差为优化得到的伪标签样本对训练样本的预测变量进行预测的均方根误差,预测可靠度为GPR模型预测时得到的预测方差所获得,邻近偏差为无标签样本的优化输出与其最近邻标签样本输出的偏差,因此目标函数f(x)表示为:
f(x)=λ*RMSEu+(1-λ)STDu+C*errordiff (4)
式(4)中,0≤λ≤1为训练误差和预测方差的平衡系数,C≥0为惩罚参数;
步骤(5)将获得的伪标记数据加入到有标签数据库中得到混合训练数据建立高斯过程回归软测量模型;
步骤(6)重复步骤(2)至(4),直到达到预设次数Z时终止,获得Z个混合不同伪标记数据建立的高斯过程回归软测量模型;
步骤(7)收集新的工业过程在线测量数据,并进行归一化处理;
步骤(8)将归一化处理后的测量数据直接输入到步骤(6)中建立好的Z个高斯过程回归软测量模型中得到Z个预测输出,将获得的Z个预测输出进行集成的结果反归一化后作为最终预测结果,并根据预测结果最终实现对工业过程的监测和控制。
2.根据权利要求1所述的基于进化优化的半监督学习工业过程软测量建模方法,其特征在于,所述步骤(3)中高斯过程回归模型GPR的建立过程为:
假设有数据集
Figure FDA0003785913000000021
对数据集D1中的每个样本x*在高斯过程回归模型中的预测输出
Figure FDA0003785913000000022
服从高斯分布:
Figure FDA0003785913000000023
式(1)中,E(.)和Var(.)分别表示均值和方差算子;
所述高斯过程回归模型可描述为:
Figure FDA0003785913000000031
式(2)中,k*=[C(x*,x1),...,C(x*,xn)]T,C是一个由X中每个样本彼此之间作协方差组成的n×n阶对称正定矩阵,
Figure FDA0003785913000000032
Figure FDA0003785913000000033
分别为高斯过程回归模型的预测均值与方差。
3.根据权利要求1所述的基于进化优化的半监督学习工业过程软测量建模方法,其特征在于,所述训练误差RMSEu、预测可靠度STDu和邻近偏差errordiff的计算过程如下:
①训练误差RMSEu为优化得到的伪标签样本对训练样本的预测变量进行预测的均方根误差,预测可靠度为GPR模型预测时得到的预测方差计算得到,其表示如下:
Figure FDA0003785913000000034
Figure FDA0003785913000000035
式(5)和式(6)中,Ntrn为训练集
Figure FDA0003785913000000036
的样本个数,ytrn,i
Figure FDA0003785913000000037
中第i个预测变量的真实值,
Figure FDA0003785913000000038
和σtrn,i分别为利用优化得到的伪标签数据集建立的GPR模型对
Figure FDA0003785913000000039
中第i个预测变量进行预测得到的预测值和预测方差;
②邻近偏差errordiff为无标签样本的优化输出与其最近邻标签样本输出的偏差,其计算步骤如下:
a、将有标签数据集
Figure FDA00037859130000000310
随机打乱两次获得新的数据集
Figure FDA00037859130000000311
Figure FDA00037859130000000312
对数据集
Figure FDA00037859130000000313
Figure FDA00037859130000000314
中的每个样本按顺序对应求取差值获得差分数据集ΔL1,将ΔL1存入用于构建差分模型的数据库;
b、重复a中所述过程T次,剔除差分模型数据库中重复的样本获得新的差分数据集ΔL,利用ΔL建立高斯过程回归模型GPRdiff
c、根据相似度测量方法为{u,yu}中的每个样本(xu,j,yu,j),j=1,...,S,在数据集
Figure FDA00037859130000000315
上选择一个最相似的样本,计算该样本与其最相似样本的差值得到差分变量(Δxu,j,Δyu,j),j=1,...,S,其中,相似度测量采用欧式距离相似度,其定义为:
Figure FDA0003785913000000041
Figure FDA0003785913000000042
式(7)和式(8)中,dn表示伪标记样本xu与训练样本xn之间的加权欧氏距离,σn
Figure FDA0003785913000000043
的标准差,
Figure FDA0003785913000000044
是局部化参数,ωn为dn标准化后得到的欧氏距离相似度;
d、调用模型数据库中的GPRdiff模型,将Δxu,j直接输入到GPRdiff模型中得到预测变量
Figure FDA0003785913000000045
求Δyu,j
Figure FDA0003785913000000046
之间的偏差,并进行标准化得Δdj,j=1,...,S,进一步计算Δyu,j
Figure FDA0003785913000000047
之间的误差errordiff
Figure FDA0003785913000000048
式(9)中,c为选择变量,c=1时errordiff为均方误差,c=2时errordiff为均方根误差;
4)设定初始化种群的数目和种群代数,然后随机产生一个初始种群作为起始解进行优化,当到达最大代数优化停止,选出使目标函数最小化的种群作为伪标记样本优化结果。
4.根据权利要求1所述的基于进化优化的半监督学习工业过程软测量建模方法,其特征在于,步骤(4)从
Figure FDA0003785913000000049
中随机抽取S个样本,S不超过有标签样本个数N。
5.根据权利要求1~3任一所述的基于进化优化的半监督学习工业过程软测量建模方法,其特征在于,所述步骤(8)具体为:对于Z个不同的高斯过程回归预测模型所得的预测输出,采用简单平均的集成方式进行集成来获得测量数据最终的预测结果。
CN202011014614.7A 2020-04-28 2020-09-24 一种基于进化优化的半监督学习工业过程软测量建模方法 Active CN111914492B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010348269 2020-04-28
CN2020103482694 2020-04-28

Publications (2)

Publication Number Publication Date
CN111914492A CN111914492A (zh) 2020-11-10
CN111914492B true CN111914492B (zh) 2022-09-13

Family

ID=73265292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011014614.7A Active CN111914492B (zh) 2020-04-28 2020-09-24 一种基于进化优化的半监督学习工业过程软测量建模方法

Country Status (1)

Country Link
CN (1) CN111914492B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990578A (zh) * 2021-03-16 2021-06-18 北京航空航天大学 一种工业低质高噪数据建模及产品质量预测方法
CN112989635B (zh) * 2021-04-22 2022-05-06 昆明理工大学 基于自编码器多样性生成机制的集成学习软测量建模方法
CN113158473B (zh) * 2021-04-27 2022-03-15 昆明理工大学 一种半监督集成即时学习工业混炼胶门尼粘度软测量方法
CN113761748B (zh) * 2021-09-09 2023-09-15 中国矿业大学 一种基于联邦增量随机配置网络的工业过程软测量方法
CN115314412B (zh) * 2022-06-22 2023-09-05 北京邮电大学 一种面向运维的类型自适应的指标预测预警方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764295A (zh) * 2018-04-28 2018-11-06 江南大学 一种基于半监督集成学习的软测量建模方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096627A (zh) * 2016-05-31 2016-11-09 河海大学 顾及特征优化的极化sar图像半监督分类方法
WO2018069260A1 (en) * 2016-10-10 2018-04-19 Proekspert AS Data science versioning and intelligence systems and methods
CN108520111B (zh) * 2018-03-06 2021-11-30 宁波大学 一种基于正交成分最优选择与最优回归的软测量方法
CN109840362B (zh) * 2019-01-16 2022-06-14 昆明理工大学 一种基于多目标优化的集成即时学习工业过程软测量建模方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764295A (zh) * 2018-04-28 2018-11-06 江南大学 一种基于半监督集成学习的软测量建模方法

Also Published As

Publication number Publication date
CN111914492A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN111914492B (zh) 一种基于进化优化的半监督学习工业过程软测量建模方法
Schrider et al. Supervised machine learning for population genetics: a new paradigm
Qiao et al. A deep belief network with PLSR for nonlinear system modeling
Angelov et al. Identification of evolving fuzzy rule-based models
Li et al. Vessel traffic flow forecasting by RSVR with chaotic cloud simulated annealing genetic algorithm and KPCA
CN104699894A (zh) 基于实时学习的高斯过程回归多模型融合建模方法
CN104574220A (zh) 基于最小二乘支持向量机的电力客户信用评估方法
CN112989711B (zh) 基于半监督集成学习的金霉素发酵过程软测量建模方法
CN108334943A (zh) 基于主动学习神经网络模型的工业过程半监督软测量建模方法
CN111079856B (zh) 一种基于csjitl-rvm的多时段间歇过程软测量建模方法
CN110046377B (zh) 一种基于异构相似度的选择性集成即时学习软测量建模方法
CN116169670A (zh) 一种基于改进神经网络的短期非居民负荷预测方法及系统
CN116579447A (zh) 一种基于分解机制和注意力机制的时间序列预测方法
Das et al. Deep recurrent architecture with attention for remaining useful life estimation
CN109408896B (zh) 一种污水厌氧处理产气量多元智能实时监控方法
CN109033524A (zh) 一种基于鲁棒混合模型的化工过程浓度变量在线估计方法
CN112766548A (zh) 基于gasa-bp神经网络的订单完工时间预测方法
CN116303786A (zh) 一种基于多维数据融合算法的区块链金融大数据管理系统
CN114871000B (zh) 一种浮选加药自适应调控方法
Correa et al. Forecasting copper electrorefining cathode rejection by means of recurrent neural networks with attention mechanism
CN116703644A (zh) 一种基于Attention-RNN的短期电力负荷预测方法
Ky et al. A Markov-fuzzy combination model for stock market forecasting
CN110956528B (zh) 一种电商平台的推荐方法及系统
CN115083511A (zh) 基于图表示学习与注意力的外围基因调控特征提取方法
CN114330485A (zh) 基于pls-svm-ga算法的电网投资能力预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant