CN112989711B - 基于半监督集成学习的金霉素发酵过程软测量建模方法 - Google Patents

基于半监督集成学习的金霉素发酵过程软测量建模方法 Download PDF

Info

Publication number
CN112989711B
CN112989711B CN202110447724.0A CN202110447724A CN112989711B CN 112989711 B CN112989711 B CN 112989711B CN 202110447724 A CN202110447724 A CN 202110447724A CN 112989711 B CN112989711 B CN 112989711B
Authority
CN
China
Prior art keywords
eelm
sample
model
samples
pseudo
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110447724.0A
Other languages
English (en)
Other versions
CN112989711A (zh
Inventor
金怀平
李友维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110447724.0A priority Critical patent/CN112989711B/zh
Publication of CN112989711A publication Critical patent/CN112989711A/zh
Application granted granted Critical
Publication of CN112989711B publication Critical patent/CN112989711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/06Multi-objective optimisation, e.g. Pareto optimisation using simulated annealing [SA], ant colony algorithms or genetic algorithms [GA]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Physiology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于半监督集成学习的工业过程软测量建模方法。该方法针对工业过程数据普遍存在的有标记数据缺乏但未标记数据充裕导致的传统软测量模型性能不佳及常规软测量方法采用单一模型导致的模型准确性、稳定性难以保证的问题,采用进化优化的方式对未标记数据进行伪标记估计,从而充分利用未标记数据携带的信息,扩充有标记训练集,提升了软测量模型的性能。同时,采用集成学习策略,通过利用扩充后的有标记训练集,构建具有多样性的基模型,从而进一步提升模型的准确性与稳定性,最终提升了工业过程软测量建模的性能。

Description

基于半监督集成学习的金霉素发酵过程软测量建模方法
技术领域
本发明涉及工业过程控制领域,具体涉及基于半监督集成学习的金霉素发酵过程软测量建模方法。
背景技术
流程工业过程中的许多质量参数由于传感器硬件成本较高、离线分析延迟较大等原因难以在线测量,尤其是其中与产品质量相关的关键质量参数,若不能对其进行及时、准确地测量,就无法对工业过程进行有效的控制、优化操作,导致产品质量难以得到保障。为解决这一问题,软测量技术被提出,通过寻找易测参数与难测关键质量参数之间的数学关系,从而完成对关键质量参数的间接在线测量。
由于关键质量参数获取困难,且滞后性较大,导致有标记样本的获取困难,数量有限,而传统软测量方法大多只考虑有限的有标记样本,忽略了工业过程中更易获取且同样带有过程信息的大量未标记样本,未标记样本中包含的信息未能得到有效利用,模型性能难以得到进一步提升。此外,常规软测量模型大都只考虑单一模型,存在模型准确性、稳定性不易得到保证的问题。
申请号为202011014614.7的中国专利申请公开了一种基于进化优化的半监督学习工业过程软测量建模方法,该申请采用进化优化的方式对无标签数据中随机选取的样本进行伪标签估计,将获得的伪标签数据加入到有标签数据中通过高斯过程回归进行混合建模,有效的提升了传统软测量模型的性能。此外,还对无标签数据进行小批量随机选取优化将带来多样性的伪标签数据优化结果。但该申请仅适用于小批量无标签数据的伪标签优化,面对数目较大的无标签数据时则会导致其性能恶化,而本申请则能有效同时处理大批量无标签数据,能够利用大批量未标签数据所包含的有益信息,并取得较好的性能。
因此,为提升软测量模型性能,引入半监督集成学习,半监督学习用以解决有标记样本缺乏的问题,充分利用未标记数据携带的信息,通过伪标记的方式扩充有标记训练集,提升模型准确性。同时,集成学习通过利用扩充后的有标记训练集,构建具有多样性的基模型,从而进一步提升模型准确性与稳定性。
发明内容
本发明所要解决的主要问题是:针对常规软测量模型在以上两个方面存在的不足,本发明提供一种基于半监督集成学习的工业过程软测量建模方法,所提方法在利用有标记样本的基础上,进一步有效利用未标记数据中包含的有用信息,并通过集成的方式进一步提高模型性能,能够有效改善上述问题,从而完成软测量模型的构建。
本发明的技术方案如下:一种基于半监督集成学习的工业过程软测量建模方法,包括以下步骤:
(1)收集工业过程数据D,构建用于软测量建模的数据库,通过对工业过程的机理分析,确定与预测变量y相关的辅助变量X,辅助变量X即输入变量,X={x1,x2,...,xM};所收集数据包括有标签数据集与无标签数据集,有标签数据集为同时包含预测变量与输入变量的数据集,而无标签数据集即为仅包含输入变量的数据集;
(2)基于Z-Score方法对样本集D进行归一化处理,进而得到有标签数据集L∈RN×Q、无标签数据集U∈RK×J,其中,N和Q分别表示有标签数据的样本个数和过程变量个数,K和J分别表示无标签数据的样本个数和辅助变量个数,同时,将有标签数据集L划分成为训练集Ltrain、验证集Lvalidate及测试集Ltest
(3)考虑到工业过程的强非线性,选择集成极限学习机作为基模型,由于其属于参数模型,参数不同,对应模型也有所差异,其隐层权重参数由随机初始化产生,因此可由同一训练集Ltrain构建出M个具有多样性的初始模型,分别记为EELM1,EELM2,···,EELMM
(4)将未标记的伪标记估计转换为一个优化问题,将所有未标记样本的伪标记作为决策变量,并采用进化优化算法对其进行优化求解,而获得优化完毕的伪标记样本;
(5)将步骤(4)中优化完毕的伪标记样本用于训练样本集的扩充,并将进行等量划分,分别送入不同的基模型中,并进行训练,进一步提升基模型准确性与多样性;
(6)将基模型进行集成,在Stacking集成框架下,采用PLS融合局部预测输出,最终获得半监督集成学习软测量模型,并对新样本进行预测并输出预测结果;
(7)收集新的工业过程在线测量数据,并进行归一化处理;
(8)将归一化处理后的测量数据直接输入到步骤(6)中建立完毕的半监督集成软测量模型中预测输出,并将结果反归一化后作为最终预测结果,根据预测结果最终实现对工业过程的监测和控制。
进一步地,所述步骤(3)中集成极限学习机EELM的建立过程为:
给定有标签数据集
Figure GDA0003522629770000021
单个包含Nhidden个隐藏层节点的极限学习机ELM能够表示为:
Figure GDA0003522629770000031
其中,
Figure GDA0003522629770000032
表示输入节点与第i个隐层节点间的权重;βi表示第i个隐层节点与输出节点间的权重,bi为第i个隐层节点的误差偏置,oj为模型对有标签数据的输出预测值;
假设ELM对给定的N个有标记样本的预测误差为0:
Figure GDA0003522629770000033
即存在βi,wi和bi,使:
Figure GDA0003522629770000034
则ELM可表示为:
Hβ=y (4)
Figure GDA0003522629770000035
Figure GDA0003522629770000036
其中,H表示ELM的隐层输出矩阵,β表示输出权重,y表示输出向量;
通常采用上述线性系统的最小二乘解来估计β:
Figure GDA0003522629770000037
其中,
Figure GDA0003522629770000038
为H的广义逆,若HTH的逆存在,则
Figure GDA0003522629770000039
的计算公式如下:
Figure GDA00035226297700000310
Figure GDA00035226297700000311
的表达式为:
Figure GDA00035226297700000312
由于极限学习机属于参数模型,而其主要参数输入权重及隐层节点的偏置是通过随机初始化产生的,即初始化不同,输入权重及隐层节点的偏置则不同,进而能产生多个具有差异性的极限学习机模型,并通过简单平均的方式进行集成,产生集成极限学习机EELM,通过集成的方式,能够提高模型稳定性与准确性,具体方式如下:
假设EELMi由S个ELM通过简单平均的方式集成得到,分别记为ELM1,ELM2,···,ELMs,且ELM1,ELM2,···,ELMs对于有标签数据集D中第i个样本的预测输出分别为
Figure GDA00035226297700000313
则EELMi对有标签数据集D中第i个样本的预测输出
Figure GDA00035226297700000314
可表示为:
Figure GDA0003522629770000041
进一步地,所述步骤(4)获得基于进化优化的伪标签数据的具体过程为:
1)将无标记数据集U中的样本进行随机排序,并将其划分为M个样本子集,分别记为U1,U2,···UM,利用进化优化算法对数据集U={xu,1,···,xu,K}进行伪标记优化,优化目标描述如下:
Figure GDA0003522629770000042
其中,f(x)为待优化问题的目标函数;x为待优化的决策变量;ub和lb分别为变量x的上限约束和下限约束;
2)利用训练集Ltrain建立高斯过程回归模型GPR,利用该模型对无标记数据集U={xu,1,···,xu,K}进行预测进而得到对数据集U的估计输出yu={yu,1,···,yu,K}和预测方差σ2={σ2 u,1,···,σ2 u,K},x的上限为ub=yu+3σ,下限为lb=yu-3σ;
3)将步骤(3)中建立的M个集成极限学习机EELM模型作为初始基模型;
4)确定目标函数f(x),所提方法中f(x)由四个部分组成,分别为单模型精度RMSEindividual、集成模型精度RMSEensemble、训练误差RMSEindividual2、平滑度SMOOTH;其中,单模型精度为有标记数据集L分别加上优化得到的伪标记样本子集U1,U2,···UM后分别训练出的EELM1,EELM2,···,EELMM各自对有标记样本的预测变量进行预测的均方根误差之和,集成模型精度为EELM1,EELM2,···,EELMM各自对有标记样本的预测变量进行预测后得到的预测值再进行简单平均后对有标记样本的预测变量的均方根误差,训练误差为仅用优化得到的伪标记样本子集U1,U2,···UM分别训练出的EELM1,EELM2,···,EELMM各自对有标记样本的预测变量进行预测的均方根误差之和,平滑度为图拉普拉斯正则项,因此优化目标可表示为:
f(x)=RMSEindividual11*RMSEensemble2*RMSEindividual23*SMOOTH (12)
其中,0≤λ123≤1分别为集成模型精度、训练误差、平滑度的平衡系数。
更进一步地,所述单模型精度、集成模型精度、训练误差、平滑度的计算过程如下:
①单模型精度RMSEindividual1与训练误差RMSEindividual2分别是由不同训练数据,单模型精度RMSEindividual1为有标记数据集L分别加上优化得到的伪标记样本子集U1,U2,···UM,训练误差RMSEindividual2仅为优化得到的伪标记样本子集U1,U2,···UM)分别训练出的EELM1,EELM2,···,EELMM各自对有标记样本的预测变量进行预测的均方根误差之和,而集成模型精度则是在单模型精度的基础上将每个EELM的预测值进行简单平均后对有标记样本的预测变量的均方根误差,总体都是均方根误差的计算,其计算方式分别为:
Figure GDA0003522629770000051
Figure GDA0003522629770000052
Figure GDA0003522629770000053
其中,NL为有标记训练样本的数目,
Figure GDA0003522629770000054
为由有标记数据集L加上优化得到的伪标记样本子集Ui共同训练出的EELMi对第j个有标记训练样本的预测值,yL,j为第j个有标记训练样本的预测变量的实际值,
Figure GDA0003522629770000055
为由有标记数据集L分别加上优化得到的伪标记样本子集U1,U2,···UM分别训练出的EELM1,EELM2,···,EELMM分别对第j个有标记训练样本的预测值的简单平均得到的值,
Figure GDA0003522629770000056
为仅由优化得到的伪标记样本子集Ui训练出的EELMi对第j个有标记训练样本的预测值;
②平滑度定义为图拉普拉斯正则项,构造有标记样本L与无标记样本U混合之后的数据的图模型,用wij表示图模型中两个节点之间的连接权重,平滑度的具体计算方式为:
SMOOTH=fTLf (16)
其中,f表示有标记样本与伪标记样本的输出标记部分,表示为f=[y1,y2,···,yN,yu,1,yu,2,···,yu,K],L表示图拉普拉斯矩阵,其计算方式为L=D-W,D为一个对角矩阵,其主对角线上的元素为:
Figure GDA0003522629770000057
其中,W为一个矩阵,其中的各元素表示为:
Figure GDA0003522629770000058
其中,N、K分别为有标记样本数、伪标记样本数,L、D及W的矩阵维度均为(N+K)*(N+K);
5)设定初始化种群的数目和种群代数,然后随机产生一个初始种群作为初始解进行优化,当到达最大代数优化停止,选出使目标函数最小化的种群作为伪标记样本优化结果。
进一步地,所述步骤(5)具体操作为:
按照步骤(4)中无标记样本集U的划分方式不变,得到与步骤(4)相同的M个样本子集,分别记为U1,U2,···UM,而该M个样本子集经过步骤(4)后对应的优化完毕的伪标记样本子集记为
Figure GDA0003522629770000061
之后将原始有标记样本L分别加入到伪标记样本子集记
Figure GDA0003522629770000062
中,扩充有标记训练样本集,再分别对应送入步骤(3)中建立的M个集成极限学习机EELM模型中进行重新训练,进而得到最终基模型,完成样本划分。
与现有技术相比,本发明具有以下有益效果:本发明所提出的基于半监督集成学习的工业过程软测量建模方法,与常规软测量方法相比,以伪标记扩充训练样本集的方式,充分利用了大量未标记数据中所包含的信息,为模型的精度、多样性提供了有效保证。同时,引入集成学习策略,产生多样性基模型,进一步提高了模型的准确性,同时也提升了模型整体的稳定性。
附图说明
图1是本发明中基于半监督集成学习的工业过程软测量建模方法的流程图;
图2是传统监督式集成EELM方法的预测值与真实值的曲线图;
图3是基于进化优化的半监督软测量方法(EASSL-GPR)在工业金霉素发酵过程中基质浓度的预测值与真实值的曲线图;
图4是本发明中的方法在工业金霉素发酵过程中基质浓度的预测值与真实值的曲线图;
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
第一步:收集工业过程数据D,构建用于软测量建模的数据库,通过对工业过程的机理分析,确定与预测变量y相关的辅助变量X,辅助变量X即输入变量,X={x1,x2,...,xM};所收集数据包括有标签数据集与无标签数据集,有标签数据集为同时包含预测变量与输入变量的数据集,而无标签数据集即为仅包含输入变量的数据集;
第二步:基于Z-Score方法对样本集D进行归一化操作,进而得到有标签数据集L∈RN×Q、无标签数据集U∈RK×J,其中,N和Q分别表示有标签数据的样本个数和过程变量个数,K和J分别表示无标签数据的样本个数和辅助变量个数。同时,将有标签数据集L划分成为训练集Ltrain、验证集Lvalidate及测试集Ltest
第三步:由于工业过程存在的非线性的特点,选择集成极限学习机(EELM)作为基模型,利用Ltrain作为训练数据,根据不同的初始权重,构建出M个具有多样性的初始模型,分别记为EELM1,EELM2,···,EELMM,每个EELM均用Ltrain作为训练数据,单个ELM的具体建立过程在发明内容部分已详细描述,本部分不再描述。而在单个ELM的基础上,集成极限学习机EELM的建立方式可描述为:
假设EELMi由S个ELM通过简单平均的方式集成得到,分别记为ELM1,ELM2,···,ELMs,且ELM1,ELM2,···,ELMs对于训练数据Ltrain中第i个样本的预测输出分别为
Figure GDA0003522629770000071
则EELMi对训练数据Ltrain中第i个样本的预测输出
Figure GDA0003522629770000072
表示为:
Figure GDA0003522629770000073
第四步:将第三步中所建立的M个EELM模型及其相应参数保存到模型数据库中,其中,保存的参数为每个EELM的隐层权重。
第五步:将无标记数据集U中的样本进行随机排序,并将其划分为M个样本子集,分别记为U1,U2,···UM∈RK×J。将随机排序后的无标记数据集U={xu,1,···,xu,K}的伪标记yu,1,yu,2,···,yu,K作为决策变量,利用遗传算法进行伪标记优化,优化目标描述如下:
Figure GDA0003522629770000074
其中,f(x)为待优化的目标函数;x为待优化的决策变量;ub和lb分别为变量x的上限约束和下限约束。具体伪标记优化估计的过程如下:
①设定初始化种群规模T和最大进化迭代次数E;
②利用训练集Ltrain建立高斯过程回归模型GPR,利用该模型对无标记数据集U={xu,1,···,xu,K}进行预测进而得到对数据集U的估计输出yu={yu,1,···,yu,K}及预测方差σ2={σ2 u,1,···,σ2 u,K};
③对决策变量x进行实数编码,并使x的上限为ub=yu+3σ,下限为lb=yu-3σ,同时在上下界范围内随机产生出种群中每个个体的初始值,作为初始种群;
④将种群中的每个个体ti=[yu,1,yu,2,···,yu,K]与对应无标记样本集U分别组合成为伪标记样本集,记为pi。将中每个pi分别划分为M个样本子集,分别记为pi,1,pi,2,···pi,M。对于每个伪标记样本集pi,将其伪标记样本子集pi,1,pi,2,···pi,M分别加上有标记数据集L作为训练集,训练出模型EELM1,EELM2,···,EELMM,分别计算EELM1,EELM2,···,EELMM在Ltrain上的均方根误差,并将所得的所有均方根误差求和,从而求得单模型精度RMSEi,individual1
Figure GDA0003522629770000081
其中,NL为有标记训练样本的数目,
Figure GDA0003522629770000082
为由有标记数据集L加上优化得到的伪标记样本子集pi共同训练出的EELMi对第j个有标记训练样本的预测值,yL,j为第j个有标记训练样本的预测变量的实际值;
⑤对于每个伪标记样本集pi,将其伪标记样本子集pi,1,pi,2,···pi,M分别加上有标记数据集L作为训练集,训练出模型EELM1,EELM2,···,EELMM,分别计算EELM1,EELM2,···,EELMM对Ltrain的预测变量的预测值,将所得值全部相加,取平均值,再计算其对Ltrain,的均方根误差,从而求得集成模型精度RMSEi,ensemble
Figure GDA0003522629770000083
其中,
Figure GDA0003522629770000084
为由有标记数据集L分别加上优化得到的伪标记样本子集pi,1,pi,2,···pi,M分别训练出的EELM1,EELM2,···,EELMM分别对第j个有标记训练样本的预测值的简单平均得到的值;
⑥对于每个伪标记样本集pi,将其伪标记样本子集pi,1,pi,2,···pi,M作为训练集,训练出模型EELM1,EELM2,···,EELMM,分别计算EELM1,EELM2,···,EELMM在Ltrain上的均方根误差,并将所得的所有均方根误差求和,从而求得单模型精度RMSEi,individual2
Figure GDA0003522629770000085
其中,
Figure GDA0003522629770000086
为仅由优化得到的伪标记样本子集pi训练出的EELMi对第j个有标记训练样本的预测值;
⑦构造有标记样本L与无标记样本U混合之后的数据的图模型,用wij表示图模型中两个节点之间的连接权重,表示样本xi与样本xj之间的相似度,其计算方式为:
Figure GDA0003522629770000087
其中,N、K分别为有标记样本数、伪标记样本数。
进一步地,平滑度的具体计算方式为:
SMOOTH=fTLf (7)
其中,f表示有标记样本与伪标记样本的输出标记部分,表示为f=[y1,y2,···,yN,yu,1,yu,2,···,yu,K],L表示图拉普拉斯矩阵,其计算方式为L=D-W,D为一个对角矩阵,其主对角线上的元素为:
Figure GDA0003522629770000091
其中,L、D及W的矩阵维度均为(N+K)*(N+K)。
⑧目标函数f(x)由单模型精度RMSEindividual、集成模型精度RMSEensemble、训练误差RMSEindividual2、平滑度SMOOTH共同构成,其表示为:
f(x)=RMSEindividual11*RMSEensemble2*RMSEindividual23*SMOOTH (9)
其中,0≤λ123≤1分别为集成模型精度、训练误差、平滑度的平衡系数,λ123的具体取值由经验调试取得,一般取0.5至1。
⑨当迭代次数达到最大进化迭代次数时,将种群中最小化目标函数f(x)的个体作为最终的伪标签样本集P=(xu,i,yu,i),(i=1,2,···,K)。
第六步:将第五步中优化完毕的伪标记样本P与有标记样本L混合,用于训练样本集的扩充,按照第五步中无标记样本集U的划分方式不变,得到与第五步相同的M个样本子集,分别记为U1,U2,···UM,而该M个样本子集经过步骤(4)后对应的优化完毕的伪标记样本子集记为
Figure GDA0003522629770000092
之后将原始有标记样本L分别加入到伪标记样本子集记
Figure GDA0003522629770000093
中,扩充有标记训练样本集,分别对应送入第四步中保存的模型数据库中的M个集成极限学习机EELM模型中进行重新训练,进而得到最终基模型。
第七步:将得到的M个基模型进行集成,在Stacking集成框架下,采用PLS融合局部预测输出,从而获得最终的半监督集成学习软测量模型;
第八步:收集新的工业过程在线测量数据,并对其进行数据预处理,将预处理完毕的数据输入到第七步中建立完成的半监督集成学习软测量模型中,完成对新样本的预测并输出预测结果,得并根据预测结果进一步实现对工业过程的监测和控制。
以下结合金霉素发酵过程的工业实例来说明本发明中所提方法的性能。在金霉素发酵过程中,金霉素基质浓度是反馈发酵控制过程中的一个关键性指标,但目前金霉素基质浓度尚无法在线检测,且其过程中积累了大量未标记样本,常规方法未能将其有效利用,为了改善金霉素发酵控制水平需要对金霉素基质浓度进行半监督集成软测量建模。
针对关键预测变量金霉素基质浓度所选择的9个辅助变量分别如下:发酵时间(min)、补料速率(L/h)、氨水消耗量(L)、基质消耗量(L)、空气消耗量(m3)、温度(℃)、发酵体积(m3)、DO浓度(%)、空气流量(m3/h),具体如表1所示。
表1辅助变量说明
输入变量 变量描述(单位)
x<sub>1</sub> 发酵时间(min)
x<sub>2</sub> 补料速率(L/h)
x<sub>3</sub> 氨水消耗量(L)
x<sub>4</sub> 基质消耗量(L)
x<sub>5</sub> 空气消耗量(m<sup>3</sup>)
x<sub>6</sub> 温度(℃)
x<sub>7</sub> 发酵体积(m<sup>3</sup>)
x<sub>8</sub> DO浓度(%)
x<sub>9</sub> 空气流量(m<sup>3</sup>/h)
针对该金霉素发酵过程,共采集14个发酵批次的过程数据,其中,前5个批次共计有标记样本124个,将其作为训练数据,剩余9个批次共有227个有标记样本,取其前25个样本作为验证样本,剩余202个作为测试样本。在14个发酵批次中,除作为训练集、验证集、测试集的351个有标记样本之外,剩余的都是预测变量缺失的数据,即共有6366个未标记样本,对其进行伪标记估计,用于有标记样本的扩充。按照具体实施方式中的步骤,建立半监督集成学习软测量模型。
本实例对预测效果进行检验的性能指标为均方根误差RMSE和决定系数R2,RMSE的值越小,表示预测误差越小,模型的预测效果越好。R2越大,模型预测性能越好。具体计算公式如下:
Figure GDA0003522629770000101
Figure GDA0003522629770000102
其中,N表示测试样本的个数,yn
Figure GDA0003522629770000103
分别表示第n个测试样本的真实值和模型对该测试样本的预测值,
Figure GDA0003522629770000111
表示n个测试样本真实输出的均值。
本实例将集成EELM(Ensemble EELM,EnEELM)软测量模型、申请号为202011014614.7的中国专利申请中提出的基于进化优化的半监督软测量方法(EASSL-GPR)以及本发明所述的基于半监督集成学习的软测量方法(Semi-Supervised Ensemble EELM,SSEnEELM)在上述的同一数据集下进行对比实验,实验结果如表2所示,其中EnEELM的集成方式与SSEnEELM一致,区别在于SSEnEELM的训练集为扩充伪标记的数据集。
表2不同方法在金霉素发酵过程中的RMSE及R2
Figure GDA0003522629770000112
由表2可知,本发明提出的基于半监督集成学习的软测量方法(SSEELM)提升了传统EnEELM监督软测量模型的预测精度。此外,相比于EASSL-GPR,SSEnEELM取得更好的效果,可知,本发明提出的方法对于较大规模的未标记的处理及利用有更好的效果。
应当理解的是,本发明核心发明点在于针对过程工业存在的“有标签样本少,无标签样本丰富”的问题所提出的方法,而不是仅限于保护实施于某个案例,案例只是举例用于验证本方法的有效性,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (3)

1.一种基于半监督集成学习的金霉素发酵过程软测量建模方法,其特征在于,包括以下步骤:
(1)收集金霉素发酵过程数据D,构建用于软测量建模的数据库,通过对金霉素发酵过程的机理分析,确定与预测变量y相关的辅助变量X,辅助变量X即输入量,X={x1,x2,...,xM};所收集数据包括有标签数据集与无标签数据集,有标签数据集为同时包含预测变量与输入变量的数据集,而无标签数据集即为仅包含输入变量的数据集;
(2)基于Z-Score方法对样本集D进行归一化处理,进而得到有标签数据集L∈RN×Q、无标签数据集U∈RK×J,其中,N和Q分别表示有标签数据的样本个数和过程变量个数,K和J分别表示无标签数据的样本个数和辅助变量个数,同时,将有标签数据集L划分成为训练集Ltrain、验证集Lvalidate及测试集Ltest
(3)考虑到金霉素发酵过程的强非线性,选择集成极限学习机作为基模型,由于其属于参数模型,参数不同,对应模型也有所差异,其隐层权重参数由随机初始化产生,因此可由同一训练集Ltrain构建出M个具有多样性的初始模型,分别记为EELM1,EELM2,···,EELMM
(4)将未标记的伪标记估计转换为一个优化问题,将所有未标记样本的伪标记作为决策变量,并采用进化优化算法对其进行优化求解,而获得优化完毕的伪标记样本;
(5)将步骤(4)中优化完毕的伪标记样本用于训练样本集的扩充,并将进行等量划分,分别送入不同的基模型中,并进行训练,进一步提升基模型准确性与多样性;
(6)将基模型进行集成,在Stacking集成框架下,采用PLS融合局部预测输出,最终获得半监督集成学习软测量模型,并对新样本进行预测并输出预测结果;
(7)收集新的金霉素发酵过程在线测量数据,并进行归一化处理;
(8)将归一化处理后的测量数据直接输入到步骤(6)中建立完毕的半监督集成软测量模型中预测输出,并将结果反归一化后作为最终预测结果,根据预测结果最终实现对金霉素发酵过程的监测和控制;
所述步骤(4)获得基于进化优化的伪标签数据的具体过程为:
1)将无标记数据集U中的样本进行随机排序,并将其划分为M个样本子集,分别记为U1,U2,···UM,利用进化优化算法对数据集U={xu,1,···,xu,K}进行伪标记优化,优化目标描述如下:
min[f(x)]
Figure FDA0003522629760000021
其中,f(x)为待优化问题的目标函数;x为待优化的决策变量;ub和lb分别为变量x的上限约束和下限约束;
2)利用训练集Ltrain建立高斯过程回归模型GPR,利用该模型对无标记数据集U={xu,1,···,xu,K}进行预测进而得到对数据集U的估计输出yu={yu,1,···,yu,K}和预测方差σ2={σ2 u,1,···,σ2 u,K},x的上限为ub=yu+3σ,下限为lb=yu-3σ;
3)将步骤(3)中建立的M个集成极限学习机EELM模型作为初始基模型;
4)确定目标函数f(x),所提方法中f(x)由四个部分组成,分别为单模型精度RMSEindividual、集成模型精度RMSEensemble、训练误差RMSEindividual2、平滑度SMOOTH;其中,单模型精度为有标记数据集L分别加上优化得到的伪标记样本子集U1,U2,···UM后分别训练出的EELM1,EELM2,···,EELMM各自对有标记样本的预测变量进行预测的均方根误差之和,集成模型精度为EELM1,EELM2,···,EELMM各自对有标记样本的预测变量进行预测后得到的预测值再进行简单平均后对有标记样本的预测变量的均方根误差,训练误差为仅用优化得到的伪标记样本子集U1,U2,···UM分别训练出的EELM1,EELM2,···,EELMM各自对有标记样本的预测变量进行预测的均方根误差之和,平滑度为图拉普拉斯正则项,因此优化目标可表示为:
f(x)=RMSEindividual11*RMSEensemble2*RMSEindividual23*SMOOTH (12)
其中,0≤λ123≤1分别为集成模型精度、训练误差、平滑度的平衡系数;
所述单模型精度、集成模型精度、训练误差、平滑度的计算过程如下:
①单模型精度RMSEindividual1与训练误差RMSEindividual2分别是由不同训练数据,单模型精度RMSEindividual1为有标记数据集L分别加上优化得到的伪标记样本子集U1,U2,···UM,训练误差RMSEindividual2仅为优化得到的伪标记样本子集U1,U2,···UM分别训练出的EELM1,EELM2,···,EELMM各自对有标记样本的预测变量进行预测的均方根误差之和,而集成模型精度则是在单模型精度的基础上将每个EELM的预测值进行简单平均后对有标记样本的预测变量的均方根误差,总体都是均方根误差的计算,其计算方式分别为:
Figure FDA0003522629760000022
Figure FDA0003522629760000031
Figure FDA0003522629760000032
其中,NL为有标记训练样本的数目,
Figure FDA0003522629760000033
为由有标记数据集L加上优化得到的伪标记样本子集Ui共同训练出的EELMi对第j个有标记训练样本的预测值,yL,j为第j个有标记训练样本的预测变量的实际值,
Figure FDA0003522629760000034
为由有标记数据集L分别加上优化得到的伪标记样本子集U1,U2,···UM分别训练出的EELM1,EELM2,···,EELMM分别对第j个有标记训练样本的预测值的简单平均得到的值,
Figure FDA0003522629760000035
为仅由优化得到的伪标记样本子集Ui训练出的EELMi对第j个有标记训练样本的预测值;
②平滑度定义为图拉普拉斯正则项,构造有标记样本L与无标记样本U混合之后的数据的图模型,用wij表示图模型中两个节点之间的连接权重,平滑度的具体计算方式为:
SMOOTH=fTLf (16)
其中,f表示有标记样本与伪标记样本的输出标记部分,表示为f=[y1,y2,···,yN,yu,1,yu,2,···,yu,K],L表示图拉普拉斯矩阵,其计算方式为L=D-W,D为一个对角矩阵,其主对角线上的元素为:
Figure FDA0003522629760000036
其中,W为一个矩阵,其中的各元素表示为:
Figure FDA0003522629760000037
其中,N、K分别为有标记样本数、伪标记样本数,L、D及W的矩阵维度均为(N+K)*(N+K);
5)设定初始化种群的数目和种群代数,然后随机产生一个初始种群作为初始解进行优化,当到达最大代数优化停止,选出使目标函数最小化的种群作为伪标记样本优化结果。
2.根据权利要求1所述的基于半监督集成学习的金霉素发酵过程软测量建模方法,其特征在于,所述步骤(3)中集成极限学习机EELM的建立过程为:
给定有标签数据集
Figure FDA0003522629760000038
单个包含Nhidden个隐藏层节点的极限学习机ELM能够表示为:
Figure FDA0003522629760000039
其中,
Figure FDA0003522629760000041
wi=[wi1,wi2,···,wiM]T表示输入节点与第i个隐层节点间的权重;βi表示第i个隐层节点与输出节点间的权重,bi为第i个隐层节点的误差偏置,oj为模型对有标签数据的输出预测值;
假设ELM对给定的N个有标记样本的预测误差为0:
Figure FDA0003522629760000042
即存在βi,wi和bi,使:
Figure FDA0003522629760000043
则ELM可表示为:
Hβ=y (4)
Figure FDA0003522629760000044
Figure FDA0003522629760000045
其中,H表示ELM的隐层输出矩阵,β表示输出权重,y表示输出向量;
通常采用上述线性系统的最小二乘解来估计β:
Figure FDA0003522629760000046
其中,
Figure FDA0003522629760000047
为H的广义逆,若HTH的逆存在,则
Figure FDA0003522629760000048
的计算公式如下:
Figure FDA0003522629760000049
Figure FDA00035226297600000410
的表达式为:
Figure FDA00035226297600000411
由于极限学习机属于参数模型,而其参数输入权重及隐层节点的偏置是通过随机初始化产生的,即初始化不同,输入权重及隐层节点的偏置则不同,进而能产生多个具有差异性的极限学习机模型,并通过简单平均的方式进行集成,产生集成极限学习机EELM,通过集成的方式,能够提高模型稳定性与准确性,具体方式如下:
假设EELMi由S个ELM通过简单平均的方式集成得到,分别记为ELM1,ELM2,···,ELMs,且ELM1,ELM2,···,ELMs对于有标签数据集D中第i个样本的预测输出分别为
Figure FDA00035226297600000412
则EELMi对有标签数据集D中第i个样本的预测输出
Figure FDA00035226297600000413
可表示为:
Figure FDA00035226297600000414
3.根据权利要求1所述的基于半监督集成学习的金霉素发酵过程软测量建模方法,其特征在于,所述步骤(5)具体操作为:
按照步骤(4)中无标记样本集U的划分方式不变,得到与步骤(4)相同的M个样本子集,分别记为U1,U2,···UM,而该M个样本子集经过步骤(4)后对应的优化完毕的伪标记样本子集记为
Figure FDA0003522629760000051
之后将原始有标记样本L分别加入到伪标记样本子集记
Figure FDA0003522629760000052
中,扩充有标记训练样本集,再分别对应送入步骤(3)中建立的M个集成极限学习机EELM模型中进行重新训练,进而得到最终基模型,完成样本划分。
CN202110447724.0A 2021-04-25 2021-04-25 基于半监督集成学习的金霉素发酵过程软测量建模方法 Active CN112989711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110447724.0A CN112989711B (zh) 2021-04-25 2021-04-25 基于半监督集成学习的金霉素发酵过程软测量建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110447724.0A CN112989711B (zh) 2021-04-25 2021-04-25 基于半监督集成学习的金霉素发酵过程软测量建模方法

Publications (2)

Publication Number Publication Date
CN112989711A CN112989711A (zh) 2021-06-18
CN112989711B true CN112989711B (zh) 2022-05-20

Family

ID=76340084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110447724.0A Active CN112989711B (zh) 2021-04-25 2021-04-25 基于半监督集成学习的金霉素发酵过程软测量建模方法

Country Status (1)

Country Link
CN (1) CN112989711B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113420815B (zh) * 2021-06-24 2024-04-30 江苏师范大学 半监督rsdae的非线性pls间歇过程监测方法
CN113761748B (zh) * 2021-09-09 2023-09-15 中国矿业大学 一种基于联邦增量随机配置网络的工业过程软测量方法
CN114626304B (zh) * 2022-03-21 2024-02-27 齐鲁工业大学 一种矿浆铜品位在线预测软测量建模方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019213860A1 (en) * 2018-05-09 2019-11-14 Jiangnan University Advanced ensemble learning strategy based semi-supervised soft sensing method
CN110046378B (zh) * 2019-02-28 2022-09-13 昆明理工大学 一种基于进化多目标优化的选择性分层集成高斯过程回归软测量建模方法
CN112381221A (zh) * 2020-10-28 2021-02-19 华南理工大学 一种基于半监督学习的污水监测的多输出软测量方法

Also Published As

Publication number Publication date
CN112989711A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112989711B (zh) 基于半监督集成学习的金霉素发酵过程软测量建模方法
CN111079836B (zh) 基于伪标签方法和弱监督学习的过程数据故障分类方法
CN111461453B (zh) 一种基于多模型组合的中长期径流集合预报方法
CN107463993B (zh) 基于互信息-核主成分分析-Elman网络的中长期径流预报方法
CN111914492B (zh) 一种基于进化优化的半监督学习工业过程软测量建模方法
CN105740984A (zh) 一种基于性能预测的产品概念性能评价方法
Li et al. Development of semi-supervised multiple-output soft-sensors with Co-training and tri-training MPLS and MRVM
Hocalar et al. Comparison of different estimation techniques for biomass concentration in large scale yeast fermentation
CN113268883A (zh) 一种基于pca-abc-svm模型的海底原油管道腐蚀速率预测方法
CN110807490A (zh) 一种基于单基塔的输电线路工程造价智能预测方法
CN114239397A (zh) 基于动态特征提取与局部加权深度学习的软测量建模方法
CN113203953B (zh) 基于改进型极限学习机的锂电池剩余使用寿命预测方法
CN112464567B (zh) 基于变分同化框架的智能资料同化方法
CN115952685B (zh) 基于集成深度学习的污水处理过程软测量建模方法
Wu et al. A forecasting model based support vector machine and particle swarm optimization
CN115688588B (zh) 一种基于改进xgb方法的海表面温度日变化振幅预测方法
CN110909492A (zh) 一种基于极端梯度提升算法的污水处理过程软测量方法
CN116703644A (zh) 一种基于Attention-RNN的短期电力负荷预测方法
CN115035962A (zh) 基于变分自编码器和生成对抗网络的虚拟样本生成及软测量建模方法
CN115631804A (zh) 基于数据协调的蒸发过程铝酸钠溶液出口浓度预测方法
CN114595890A (zh) 基于bp-svr组合模型的船舶备件需求预测方法及系统
CN113377075A (zh) 一种稀土萃取过程实时优化的方法、装置及计算机可读存储介质
CN114330485A (zh) 基于pls-svm-ga算法的电网投资能力预测方法
CN111650894A (zh) 一种基于隐变量的贝叶斯网络复杂工业过程软测量方法
CN112651168B (zh) 基于改进神经网络算法的建设用地面积预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 650500 No. 727 Jingming South Road, Chenggong District, Kunming City, Yunnan Province

Applicant after: Kunming University of Science and Technology

Address before: No.72, Jingming South Road, Chenggong District, Kunming, Yunnan 650500

Applicant before: Kunming University of Science and Technology

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant