CN112989711B

CN112989711B - 基于半监督集成学习的金霉素发酵过程软测量建模方法

Info

Publication number: CN112989711B
Application number: CN202110447724.0A
Authority: CN
Inventors: 金怀平; 李友维
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2022-05-20
Anticipated expiration: 2041-04-25
Also published as: CN112989711A

Abstract

本发明公开了一种基于半监督集成学习的工业过程软测量建模方法。该方法针对工业过程数据普遍存在的有标记数据缺乏但未标记数据充裕导致的传统软测量模型性能不佳及常规软测量方法采用单一模型导致的模型准确性、稳定性难以保证的问题，采用进化优化的方式对未标记数据进行伪标记估计，从而充分利用未标记数据携带的信息，扩充有标记训练集，提升了软测量模型的性能。同时，采用集成学习策略，通过利用扩充后的有标记训练集，构建具有多样性的基模型，从而进一步提升模型的准确性与稳定性，最终提升了工业过程软测量建模的性能。

Description

基于半监督集成学习的金霉素发酵过程软测量建模方法

技术领域

本发明涉及工业过程控制领域，具体涉及基于半监督集成学习的金霉素发酵过程软测量建模方法。

背景技术

流程工业过程中的许多质量参数由于传感器硬件成本较高、离线分析延迟较大等原因难以在线测量，尤其是其中与产品质量相关的关键质量参数，若不能对其进行及时、准确地测量，就无法对工业过程进行有效的控制、优化操作，导致产品质量难以得到保障。为解决这一问题，软测量技术被提出，通过寻找易测参数与难测关键质量参数之间的数学关系，从而完成对关键质量参数的间接在线测量。

由于关键质量参数获取困难，且滞后性较大，导致有标记样本的获取困难，数量有限，而传统软测量方法大多只考虑有限的有标记样本，忽略了工业过程中更易获取且同样带有过程信息的大量未标记样本，未标记样本中包含的信息未能得到有效利用，模型性能难以得到进一步提升。此外，常规软测量模型大都只考虑单一模型，存在模型准确性、稳定性不易得到保证的问题。

申请号为202011014614.7的中国专利申请公开了一种基于进化优化的半监督学习工业过程软测量建模方法，该申请采用进化优化的方式对无标签数据中随机选取的样本进行伪标签估计，将获得的伪标签数据加入到有标签数据中通过高斯过程回归进行混合建模，有效的提升了传统软测量模型的性能。此外，还对无标签数据进行小批量随机选取优化将带来多样性的伪标签数据优化结果。但该申请仅适用于小批量无标签数据的伪标签优化，面对数目较大的无标签数据时则会导致其性能恶化，而本申请则能有效同时处理大批量无标签数据，能够利用大批量未标签数据所包含的有益信息，并取得较好的性能。

因此，为提升软测量模型性能，引入半监督集成学习，半监督学习用以解决有标记样本缺乏的问题，充分利用未标记数据携带的信息，通过伪标记的方式扩充有标记训练集，提升模型准确性。同时，集成学习通过利用扩充后的有标记训练集，构建具有多样性的基模型，从而进一步提升模型准确性与稳定性。

发明内容

本发明所要解决的主要问题是：针对常规软测量模型在以上两个方面存在的不足，本发明提供一种基于半监督集成学习的工业过程软测量建模方法，所提方法在利用有标记样本的基础上，进一步有效利用未标记数据中包含的有用信息，并通过集成的方式进一步提高模型性能，能够有效改善上述问题，从而完成软测量模型的构建。

本发明的技术方案如下：一种基于半监督集成学习的工业过程软测量建模方法，包括以下步骤：

(1)收集工业过程数据D，构建用于软测量建模的数据库，通过对工业过程的机理分析，确定与预测变量y相关的辅助变量X，辅助变量X即输入变量，X＝{x₁,x₂,...,x_M}；所收集数据包括有标签数据集与无标签数据集，有标签数据集为同时包含预测变量与输入变量的数据集，而无标签数据集即为仅包含输入变量的数据集；

(2)基于Z-Score方法对样本集D进行归一化处理，进而得到有标签数据集L∈R^N×Q、无标签数据集U∈R^K×J，其中，N和Q分别表示有标签数据的样本个数和过程变量个数，K和J分别表示无标签数据的样本个数和辅助变量个数，同时，将有标签数据集L划分成为训练集L_train、验证集L_validate及测试集L_test；

(3)考虑到工业过程的强非线性，选择集成极限学习机作为基模型，由于其属于参数模型，参数不同，对应模型也有所差异，其隐层权重参数由随机初始化产生，因此可由同一训练集L_train构建出M个具有多样性的初始模型，分别记为EELM₁,EELM₂,···,EELM_M；

(4)将未标记的伪标记估计转换为一个优化问题，将所有未标记样本的伪标记作为决策变量，并采用进化优化算法对其进行优化求解，而获得优化完毕的伪标记样本；

(5)将步骤(4)中优化完毕的伪标记样本用于训练样本集的扩充，并将进行等量划分，分别送入不同的基模型中，并进行训练，进一步提升基模型准确性与多样性；

(6)将基模型进行集成，在Stacking集成框架下，采用PLS融合局部预测输出，最终获得半监督集成学习软测量模型，并对新样本进行预测并输出预测结果；

(7)收集新的工业过程在线测量数据，并进行归一化处理；

(8)将归一化处理后的测量数据直接输入到步骤(6)中建立完毕的半监督集成软测量模型中预测输出，并将结果反归一化后作为最终预测结果，根据预测结果最终实现对工业过程的监测和控制。

进一步地，所述步骤(3)中集成极限学习机EELM的建立过程为：

给定有标签数据集

单个包含N_hidden个隐藏层节点的极限学习机ELM能够表示为：

其中，

表示输入节点与第i个隐层节点间的权重；β_i表示第i个隐层节点与输出节点间的权重，b_i为第i个隐层节点的误差偏置，o_j为模型对有标签数据的输出预测值；

假设ELM对给定的N个有标记样本的预测误差为0：

即存在β_i，w_i和b_i，使：

则ELM可表示为：

Hβ＝y (4)

其中，H表示ELM的隐层输出矩阵，β表示输出权重，y表示输出向量；

通常采用上述线性系统的最小二乘解来估计β:

其中，

为H的广义逆，若H^TH的逆存在，则

的计算公式如下：

则

的表达式为：

由于极限学习机属于参数模型，而其主要参数输入权重及隐层节点的偏置是通过随机初始化产生的，即初始化不同，输入权重及隐层节点的偏置则不同，进而能产生多个具有差异性的极限学习机模型，并通过简单平均的方式进行集成，产生集成极限学习机EELM，通过集成的方式，能够提高模型稳定性与准确性，具体方式如下：

假设EELM_i由S个ELM通过简单平均的方式集成得到，分别记为ELM₁,ELM₂,···,ELM_s，且ELM₁,ELM₂,···,ELM_s对于有标签数据集D中第i个样本的预测输出分别为

则EELM_i对有标签数据集D中第i个样本的预测输出

可表示为：

进一步地，所述步骤(4)获得基于进化优化的伪标签数据的具体过程为：

1)将无标记数据集U中的样本进行随机排序，并将其划分为M个样本子集，分别记为U₁,U₂,···U_M，利用进化优化算法对数据集U＝{x_u,1,···,x_u,K}进行伪标记优化，优化目标描述如下：

其中，f(x)为待优化问题的目标函数；x为待优化的决策变量；ub和lb分别为变量x的上限约束和下限约束；

2)利用训练集L_train建立高斯过程回归模型GPR，利用该模型对无标记数据集U＝{x_u,1,···,x_u,K}进行预测进而得到对数据集U的估计输出y_u＝{y_u,1,···,y_u,K}和预测方差σ²＝{σ² _u,1,···,σ² _u,K}，x的上限为ub＝y_u+3σ，下限为lb＝y_u-3σ；

3)将步骤(3)中建立的M个集成极限学习机EELM模型作为初始基模型；

4)确定目标函数f(x)，所提方法中f(x)由四个部分组成，分别为单模型精度RMSE_individual、集成模型精度RMSE_ensemble、训练误差RMSE_individual2、平滑度SMOOTH；其中，单模型精度为有标记数据集L分别加上优化得到的伪标记样本子集U₁,U₂,···U_M后分别训练出的EELM₁,EELM₂,···,EELM_M各自对有标记样本的预测变量进行预测的均方根误差之和，集成模型精度为EELM₁,EELM₂,···,EELM_M各自对有标记样本的预测变量进行预测后得到的预测值再进行简单平均后对有标记样本的预测变量的均方根误差，训练误差为仅用优化得到的伪标记样本子集U₁,U₂,···U_M分别训练出的EELM₁,EELM₂,···,EELM_M各自对有标记样本的预测变量进行预测的均方根误差之和，平滑度为图拉普拉斯正则项，因此优化目标可表示为：

f(x)＝RMSE_individual1+λ₁*RMSE_ensemble+λ₂*RMSE_individual2+λ₃*SMOOTH (12)

其中，0≤λ₁,λ₂,λ₃≤1分别为集成模型精度、训练误差、平滑度的平衡系数。

更进一步地，所述单模型精度、集成模型精度、训练误差、平滑度的计算过程如下：

①单模型精度RMSE_individual1与训练误差RMSE_individual2分别是由不同训练数据，单模型精度RMSE_individual1为有标记数据集L分别加上优化得到的伪标记样本子集U₁,U₂,···U_M，训练误差RMSE_individual2仅为优化得到的伪标记样本子集U₁,U₂,···U_M)分别训练出的EELM₁,EELM₂,···,EELM_M各自对有标记样本的预测变量进行预测的均方根误差之和，而集成模型精度则是在单模型精度的基础上将每个EELM的预测值进行简单平均后对有标记样本的预测变量的均方根误差，总体都是均方根误差的计算，其计算方式分别为：

其中，N_L为有标记训练样本的数目，

为由有标记数据集L加上优化得到的伪标记样本子集U_i共同训练出的EELM_i对第j个有标记训练样本的预测值，y_L,j为第j个有标记训练样本的预测变量的实际值，

为由有标记数据集L分别加上优化得到的伪标记样本子集U₁,U₂,···U_M分别训练出的EELM₁,EELM₂,···,EELM_M分别对第j个有标记训练样本的预测值的简单平均得到的值，

为仅由优化得到的伪标记样本子集U_i训练出的EELM_i对第j个有标记训练样本的预测值；

②平滑度定义为图拉普拉斯正则项，构造有标记样本L与无标记样本U混合之后的数据的图模型，用w_ij表示图模型中两个节点之间的连接权重，平滑度的具体计算方式为：

SMOOTH＝f^TLf (16)

其中，f表示有标记样本与伪标记样本的输出标记部分，表示为f＝[y₁,y₂,···,y_N,y_u,1,y_u,2,···,y_u,K]，L表示图拉普拉斯矩阵，其计算方式为L＝D-W，D为一个对角矩阵，其主对角线上的元素为:

其中，W为一个矩阵，其中的各元素表示为:

其中，N、K分别为有标记样本数、伪标记样本数，L、D及W的矩阵维度均为(N+K)*(N+K)；

5)设定初始化种群的数目和种群代数，然后随机产生一个初始种群作为初始解进行优化，当到达最大代数优化停止，选出使目标函数最小化的种群作为伪标记样本优化结果。

进一步地，所述步骤(5)具体操作为：

按照步骤(4)中无标记样本集U的划分方式不变，得到与步骤(4)相同的M个样本子集，分别记为U₁,U₂,···U_M，而该M个样本子集经过步骤(4)后对应的优化完毕的伪标记样本子集记为

之后将原始有标记样本L分别加入到伪标记样本子集记

中，扩充有标记训练样本集，再分别对应送入步骤(3)中建立的M个集成极限学习机EELM模型中进行重新训练，进而得到最终基模型，完成样本划分。

与现有技术相比，本发明具有以下有益效果：本发明所提出的基于半监督集成学习的工业过程软测量建模方法，与常规软测量方法相比，以伪标记扩充训练样本集的方式，充分利用了大量未标记数据中所包含的信息，为模型的精度、多样性提供了有效保证。同时，引入集成学习策略，产生多样性基模型，进一步提高了模型的准确性，同时也提升了模型整体的稳定性。

附图说明

图1是本发明中基于半监督集成学习的工业过程软测量建模方法的流程图；

图2是传统监督式集成EELM方法的预测值与真实值的曲线图；

图3是基于进化优化的半监督软测量方法(EASSL-GPR)在工业金霉素发酵过程中基质浓度的预测值与真实值的曲线图；

图4是本发明中的方法在工业金霉素发酵过程中基质浓度的预测值与真实值的曲线图；

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

第一步：收集工业过程数据D，构建用于软测量建模的数据库，通过对工业过程的机理分析，确定与预测变量y相关的辅助变量X，辅助变量X即输入变量，X＝{x₁,x₂,...,x_M}；所收集数据包括有标签数据集与无标签数据集，有标签数据集为同时包含预测变量与输入变量的数据集，而无标签数据集即为仅包含输入变量的数据集；

第二步：基于Z-Score方法对样本集D进行归一化操作，进而得到有标签数据集L∈R^N×Q、无标签数据集U∈R^K×J，其中，N和Q分别表示有标签数据的样本个数和过程变量个数，K和J分别表示无标签数据的样本个数和辅助变量个数。同时，将有标签数据集L划分成为训练集L_train、验证集L_validate及测试集L_test。

第三步：由于工业过程存在的非线性的特点，选择集成极限学习机(EELM)作为基模型，利用L_train作为训练数据，根据不同的初始权重，构建出M个具有多样性的初始模型，分别记为EELM₁,EELM₂,···,EELM_M，每个EELM均用L_train作为训练数据，单个ELM的具体建立过程在发明内容部分已详细描述，本部分不再描述。而在单个ELM的基础上，集成极限学习机EELM的建立方式可描述为：

假设EELM_i由S个ELM通过简单平均的方式集成得到，分别记为ELM₁,ELM₂,···,ELM_s，且ELM₁,ELM₂,···,ELM_s对于训练数据L_train中第i个样本的预测输出分别为

则EELM_i对训练数据L_train中第i个样本的预测输出

表示为：

第四步：将第三步中所建立的M个EELM模型及其相应参数保存到模型数据库中，其中，保存的参数为每个EELM的隐层权重。

第五步：将无标记数据集U中的样本进行随机排序，并将其划分为M个样本子集，分别记为U₁,U₂,···U_M∈R^K×J。将随机排序后的无标记数据集U＝{x_u,1,···,x_u,K}的伪标记y_u,1,y_u,2,···,y_u,K作为决策变量，利用遗传算法进行伪标记优化，优化目标描述如下：

其中，f(x)为待优化的目标函数；x为待优化的决策变量；ub和lb分别为变量x的上限约束和下限约束。具体伪标记优化估计的过程如下：

①设定初始化种群规模T和最大进化迭代次数E；

②利用训练集L_train建立高斯过程回归模型GPR，利用该模型对无标记数据集U＝{x_u,1,···,x_u,K}进行预测进而得到对数据集U的估计输出y_u＝{y_u,1,···,y_u,K}及预测方差σ²＝{σ² _u,1,···,σ² _u,K}；

③对决策变量x进行实数编码，并使x的上限为ub＝y_u+3σ，下限为lb＝y_u-3σ，同时在上下界范围内随机产生出种群中每个个体的初始值，作为初始种群；

④将种群中的每个个体t_i＝[y_u,1,y_u,2,···,y_u,K]与对应无标记样本集U分别组合成为伪标记样本集，记为p_i。将中每个p_i分别划分为M个样本子集，分别记为p_i,1,p_i,2,···p_i,M。对于每个伪标记样本集p_i，将其伪标记样本子集p_i,1,p_i,2,···p_i,M分别加上有标记数据集L作为训练集，训练出模型EELM₁,EELM₂,···,EELM_M，分别计算EELM₁,EELM₂,···,EELM_M在L_train上的均方根误差，并将所得的所有均方根误差求和，从而求得单模型精度RMSE_{i,individual1}：

其中，N_L为有标记训练样本的数目，

为由有标记数据集L加上优化得到的伪标记样本子集p_i共同训练出的EELM_i对第j个有标记训练样本的预测值，y_L,j为第j个有标记训练样本的预测变量的实际值；

⑤对于每个伪标记样本集p_i，将其伪标记样本子集p_i,1,p_i,2,···p_i,M分别加上有标记数据集L作为训练集，训练出模型EELM₁,EELM₂,···,EELM_M，分别计算EELM₁,EELM₂,···,EELM_M对L_train的预测变量的预测值，将所得值全部相加，取平均值，再计算其对L_train，的均方根误差，从而求得集成模型精度RMSE_i,ensemble：

其中，

为由有标记数据集L分别加上优化得到的伪标记样本子集p_i,1,p_i,2,···p_i,M分别训练出的EELM₁,EELM₂,···,EELM_M分别对第j个有标记训练样本的预测值的简单平均得到的值；

⑥对于每个伪标记样本集p_i，将其伪标记样本子集p_i,1,p_i,2,···p_i,M作为训练集，训练出模型EELM₁,EELM₂,···,EELM_M，分别计算EELM₁,EELM₂,···,EELM_M在L_train上的均方根误差，并将所得的所有均方根误差求和，从而求得单模型精度RMSE_{i,individual2}：

其中，

为仅由优化得到的伪标记样本子集p_i训练出的EELM_i对第j个有标记训练样本的预测值；

⑦构造有标记样本L与无标记样本U混合之后的数据的图模型，用w_ij表示图模型中两个节点之间的连接权重，表示样本x_i与样本x_j之间的相似度，其计算方式为：

其中，N、K分别为有标记样本数、伪标记样本数。

进一步地，平滑度的具体计算方式为：

SMOOTH＝f^TLf (7)

其中，L、D及W的矩阵维度均为(N+K)*(N+K)。

⑧目标函数f(x)由单模型精度RMSE_individual、集成模型精度RMSE_ensemble、训练误差RMSE_individual2、平滑度SMOOTH共同构成，其表示为：

f(x)＝RMSE_individual1+λ₁*RMSE_ensemble+λ₂*RMSE_individual2+λ₃*SMOOTH (9)

其中，0≤λ₁,λ₂,λ₃≤1分别为集成模型精度、训练误差、平滑度的平衡系数，λ₁,λ₂,λ₃的具体取值由经验调试取得，一般取0.5至1。

⑨当迭代次数达到最大进化迭代次数时，将种群中最小化目标函数f(x)的个体作为最终的伪标签样本集P＝(x_u,i,y_u,i),(i＝1,2,···,K)。

第六步：将第五步中优化完毕的伪标记样本P与有标记样本L混合，用于训练样本集的扩充，按照第五步中无标记样本集U的划分方式不变，得到与第五步相同的M个样本子集，分别记为U₁,U₂,···U_M，而该M个样本子集经过步骤(4)后对应的优化完毕的伪标记样本子集记为

之后将原始有标记样本L分别加入到伪标记样本子集记

中，扩充有标记训练样本集，分别对应送入第四步中保存的模型数据库中的M个集成极限学习机EELM模型中进行重新训练，进而得到最终基模型。

第七步：将得到的M个基模型进行集成，在Stacking集成框架下，采用PLS融合局部预测输出，从而获得最终的半监督集成学习软测量模型；

第八步：收集新的工业过程在线测量数据，并对其进行数据预处理，将预处理完毕的数据输入到第七步中建立完成的半监督集成学习软测量模型中，完成对新样本的预测并输出预测结果，得并根据预测结果进一步实现对工业过程的监测和控制。

以下结合金霉素发酵过程的工业实例来说明本发明中所提方法的性能。在金霉素发酵过程中，金霉素基质浓度是反馈发酵控制过程中的一个关键性指标，但目前金霉素基质浓度尚无法在线检测，且其过程中积累了大量未标记样本，常规方法未能将其有效利用，为了改善金霉素发酵控制水平需要对金霉素基质浓度进行半监督集成软测量建模。

针对关键预测变量金霉素基质浓度所选择的9个辅助变量分别如下：发酵时间(min)、补料速率(L/h)、氨水消耗量(L)、基质消耗量(L)、空气消耗量(m³)、温度(℃)、发酵体积(m³)、DO浓度(％)、空气流量(m³/h)，具体如表1所示。

表1辅助变量说明

输入变量	变量描述(单位)
		x<sub>1</sub>	发酵时间(min)
x<sub>2</sub>	补料速率(L/h)
		x<sub>3</sub>	氨水消耗量(L)
x<sub>4</sub>	基质消耗量(L)
		x<sub>5</sub>	空气消耗量(m<sup>3</sup>)
x<sub>6</sub>	温度(℃)
		x<sub>7</sub>	发酵体积(m<sup>3</sup>)
x<sub>8</sub>	DO浓度(％)
		x<sub>9</sub>	空气流量(m<sup>3</sup>/h)

针对该金霉素发酵过程，共采集14个发酵批次的过程数据，其中，前5个批次共计有标记样本124个，将其作为训练数据，剩余9个批次共有227个有标记样本，取其前25个样本作为验证样本，剩余202个作为测试样本。在14个发酵批次中，除作为训练集、验证集、测试集的351个有标记样本之外，剩余的都是预测变量缺失的数据，即共有6366个未标记样本，对其进行伪标记估计，用于有标记样本的扩充。按照具体实施方式中的步骤，建立半监督集成学习软测量模型。

本实例对预测效果进行检验的性能指标为均方根误差RMSE和决定系数R²，RMSE的值越小，表示预测误差越小，模型的预测效果越好。R²越大，模型预测性能越好。具体计算公式如下：

其中，N表示测试样本的个数，y_n和

分别表示第n个测试样本的真实值和模型对该测试样本的预测值，

表示n个测试样本真实输出的均值。

本实例将集成EELM(Ensemble EELM,EnEELM)软测量模型、申请号为202011014614.7的中国专利申请中提出的基于进化优化的半监督软测量方法(EASSL-GPR)以及本发明所述的基于半监督集成学习的软测量方法(Semi-Supervised Ensemble EELM,SSEnEELM)在上述的同一数据集下进行对比实验，实验结果如表2所示,其中EnEELM的集成方式与SSEnEELM一致，区别在于SSEnEELM的训练集为扩充伪标记的数据集。

表2不同方法在金霉素发酵过程中的RMSE及R²

由表2可知，本发明提出的基于半监督集成学习的软测量方法(SSEELM)提升了传统EnEELM监督软测量模型的预测精度。此外，相比于EASSL-GPR，SSEnEELM取得更好的效果，可知，本发明提出的方法对于较大规模的未标记的处理及利用有更好的效果。

应当理解的是，本发明核心发明点在于针对过程工业存在的“有标签样本少，无标签样本丰富”的问题所提出的方法，而不是仅限于保护实施于某个案例，案例只是举例用于验证本方法的有效性，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于半监督集成学习的金霉素发酵过程软测量建模方法，其特征在于，包括以下步骤：

(1)收集金霉素发酵过程数据D，构建用于软测量建模的数据库，通过对金霉素发酵过程的机理分析，确定与预测变量y相关的辅助变量X，辅助变量X即输入量，X＝{x₁,x₂,...,x_M}；所收集数据包括有标签数据集与无标签数据集，有标签数据集为同时包含预测变量与输入变量的数据集，而无标签数据集即为仅包含输入变量的数据集；

(3)考虑到金霉素发酵过程的强非线性，选择集成极限学习机作为基模型，由于其属于参数模型，参数不同，对应模型也有所差异，其隐层权重参数由随机初始化产生，因此可由同一训练集L_train构建出M个具有多样性的初始模型，分别记为EELM₁,EELM₂,···,EELM_M；

(7)收集新的金霉素发酵过程在线测量数据，并进行归一化处理；

(8)将归一化处理后的测量数据直接输入到步骤(6)中建立完毕的半监督集成软测量模型中预测输出，并将结果反归一化后作为最终预测结果，根据预测结果最终实现对金霉素发酵过程的监测和控制；

所述步骤(4)获得基于进化优化的伪标签数据的具体过程为：

min[f(x)]

其中，0≤λ₁,λ₂,λ₃≤1分别为集成模型精度、训练误差、平滑度的平衡系数；

所述单模型精度、集成模型精度、训练误差、平滑度的计算过程如下：

①单模型精度RMSE_individual1与训练误差RMSE_individual2分别是由不同训练数据，单模型精度RMSE_individual1为有标记数据集L分别加上优化得到的伪标记样本子集U₁,U₂,···U_M，训练误差RMSE_individual2仅为优化得到的伪标记样本子集U₁,U₂,···U_M分别训练出的EELM₁,EELM₂,···,EELM_M各自对有标记样本的预测变量进行预测的均方根误差之和，而集成模型精度则是在单模型精度的基础上将每个EELM的预测值进行简单平均后对有标记样本的预测变量的均方根误差，总体都是均方根误差的计算，其计算方式分别为：