CN105425583B

CN105425583B - 基于协同训练lwpls的青霉素生产过程的控制方法

Info

Publication number: CN105425583B
Application number: CN201510745832.0A
Authority: CN
Inventors: 葛志强; 包亮
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-11-05
Filing date: 2015-11-05
Publication date: 2017-12-12
Anticipated expiration: 2035-11-05
Also published as: CN105425583A

Abstract

本发明公开了基于协同训练LWPLS的青霉素生产过程的控制方法，用于在建模数据较少条件下的软测量建模并实现对于青霉素生产过程产品信息的预测。本发明利用基于协同训练的局部加权偏最小二乘学习方法，建立了一个有效的非线性预测模型，并克服了青霉素生产过程采样数据过少的情况下模型精度不高的问题，提高了针对该过程建立的模型预测准确率和性能，从而使得青霉素生产过程更加可靠，产品质量更加稳定。

Description

基于协同训练LWPLS的青霉素生产过程的控制方法

技术领域

本发明属于青霉素生产过程预测与控制领域，尤其涉及一种基于少量样本情况下利用协同训练算法与局部加权偏最小二乘算法的软测量建模方法。

背景技术

在青霉素生产过程中，青霉素产品浓度的检测与控制有着至关重要的意义。由于检测设备成本以及成分检测难度、时间滞后等因素的影响，青霉素生产过程中多采用软测量方法来预测青霉素浓度信息。在工业过程中，类似于青霉素浓度这种具有重要作用的变量我们称之为主导变量，其他的一些易于测量的变量我们称之为辅助变量。软测量指的是通过建立工业过程变量之间的数学模型，实现利用辅助变量预测主导变量信息的技术方法。

传统的软测量建模方法除了基于机理模型的方法以外，大多数采用多元统计分析和机器学习的方法，例如主元回归PCR和偏最小二乘PLS等，在机理模型难以获取的情况下，基于数据驱动的多元统计分析方法已经成为工业过程软测量的主流方法。但是，传统的多元统计方法在训练样本数目较少的情况下，所建立起的模型往往不能够达到有效的预测精度；此外，传统多元统计学习方法建模时，得到利用的往往都是那些既包括辅助变量又包括对应主导变量信息的数据，亦即我们所说的有标签数据，而没有对应主导变量仅包含辅助变量信息的数据，也就是我们所说的无标签数据往往被忽视了。利用已有的有标签数据建立起来的模型往往精度不够，而有着一定有用信息的无标签数据又被浪费掉了，传统方法的这一弊端大大限制了它们的预测效果。

发明内容

本发明的目的在于针对青霉素生产过程中现有技术的不足，提供一种基于协同训练LWPLS的青霉素生产过程的控制方法，本发明是针对青霉素生产过程中训练数据较少情况下的软测量建模问题。该方法首先利用集散控制系统收集有标签与无标签数据，利用有标签数据建立初始的具有一定差异性的两个模型，然后在初始模型的基础上，通过不断的迭代循环，逐步的将置信度最高的无标签数据转换为有标签数据并加入到训练集中来，逐渐扩大训练集的样本数目，最终达到提高模型精度的效果。本发明不仅提高了青霉素生产过程的软测量模型预测效果，增强了过程操作员对过程状态的掌握，使工业生产更加安全，产品质量更加稳定；而且很大程度上改善了软测量建模方法对过程知识的依赖性，更加有利于工业过程的自动化实施。

本发明的目的是通过以下技术方案实现的：一种基于协同训练LWPLS的青霉素生产过程的控制方法，包括以下步骤：

(1)利用集散控制系统以及离线检测方法，收集工业生产过程的数据，所述数据包括主导变量数据和辅助变量数据,所述主导变量数据为青霉素浓度,组成建模用的训练样本集。对于收集到的训练样本集，一部分为既包含主导变量数据也包含辅助变量数据的有标签样本,组成有标签样本集D∈R^K×J，其中，K为有标签样本集中采样数据点的个数，J为有标签样本集中的变量个数，R为实数集；另一部分为只包含辅助变量数据的无标签样本,组成无标签样本集U∈R^N×M，其中，N为无标签样本集中采样数据点的个数，M为无标签样本集中的变量个数，将这些数据存入历史数据库。

(2)将有标签样本集D按照生产批次进行分类,针对同一个生产批次中的有标签样本，沿着时间点方向对每一个样本进行排列，得到新的数据矩阵，并对其进行预处理和归一化，即使得各个过程变量的均值为零，方差为1，得到新的二维数据矩阵

(3)将步骤2得到的二维数据矩阵分割为自变量矩阵与因变量矩阵其中组成因变量矩阵的因变量数据为主导变量数据,即青霉素浓度；由此,该二维数据矩阵可以重新描述为：

(4)利用步骤3得到的自变量矩阵与因变量矩阵并采用不同的距离度量方式来构造两个不同的初始模型。假设样本之间的距离为d，则相似度ω＝fun(d)分别表示为：

ω¹＝e^-d/10 (1)

ω²＝3^-d/10 (2)

由此我们可以获得两个不同的初始局部加权偏最小二乘模型LWPLS1和LWPLS2。

(5)首先，利用初始的模型LWPLS1(ω¹＝e^-d/10)对所有无标签样本进行预测，从无标签样本中选取一个置信度最高的样本，与其预测值一起组成一个新的有标签数据，将其加入到LWPLS2的训练集中，再训练出新的模型LWPLS2，再利用LWPLS2选取置信度最高的无标签样本，与其预测值一起组成一个新的有标签数据，添加到LWPLS1的训练集中更新LWPLS1，如此不断迭代使用无标签数据更新模型训练数据，当达到终止条件时，终止迭代。

(6)将建模数据和各个模型参数存入历史数据库和实时数据库中备用。

(7)收集新的过程数据，并对其进行预处理和归一化。

(8)采用基于协同训练算法的局部加权偏最小二乘方法对工业过程的变量进行预测，根据得到的预测值，对工业过程中的辅助变量数据进行调节，实现工业过程的控制。

进一步地，所述步骤4具体为：

对于其第n(n＝1,2,3…K)个样本点表述为：x_n＝[x_n1,x_n2,…x_nM]^T,y_n。并利用样本点的自变量之间的距离来计算它们的相似度。设样本点S_q和S_n之间的相似度为ω，则ω的计算方法为：

ω_n＝fun(d_n) (3)

其中,x_ni表示第n个样本点中第_i个自变量，x_qi表示第q个样本点中第i个自变量；对于测试样本S_q:x_q，通过计算每个训练样本与其之间的相似度ω，并选取相似度最高的前k个训练样本构造模型对测试样本的对应输出进行预测，构造及预测的步骤如下：

(1)确定隐变量个数R，并设其在算法中的初值r＝1。

(2)计算每个训练样本与测试样本之间的相似度ω，并取ω值最大的k个样本，相应的将它们的ω值组成相似度矩阵Ω＝diag(ω₁,ω₂,…,ω_k)，并计算中间变量X_r,Y_r以及x_q,r：

其中，1_k∈R^k为一个元素全为1的向量。

(3)计算X的第r个隐变量：

t_r＝X_rw_r (10)

其中，w_r为的最大特征值对应的特征向量。

(4)计算X的第r个负载向量和回归系数向量：

(5)计算第q个样本点x_q的第r个隐变量：

(6)当r＝R，则计算相应的预测值完成迭代，否则令

x_q,r+1＝x_q,r-t_q,rp_r (16)

然后令r＝r+1，将上述三式代入第(3)步，继续进行迭代计算。

进一步地，所述步骤5具体为：

首先，利用初始的模型LWPLS1对所有无标签样本进行预测，在无标签数据集中，对于每个样本点建立训练样本关于样本点的局部加权模型Model，根据此模型得到该样本点的预测值y_i，并计算此模型在前k-1个有标签样本点上的均方误差值RMSE_i；接下来，将该无标签样本X_i ^M及其预测值y_i作为一个新的有标签样本加入到原有的训练集中去，并重新建立新的训练集对于此样本的模型Model'。计算Model'在后k-1样本点上的均方误差值RMSE_i'，并计算二者的差值RMSE_dif,i＝RMSE_i-RMSE_i'。按照此方法计算每个无标签样本的RMSE_dif,i,i＝1,2…N。若所有RMSE_dif均小于0，则认为已经达到终止条件，停止迭代，否则，取使得RMSE_dif最大的新加标签样本作为置信度最高的样本，亦即作为新的有标签样本添加到LWPLS2的训练集中去以更新该训练集，并从无标签数据集中剔除样本点

从无标签样本中选取一个置信度最高的样本，与其预测值一起组成一个新的有标签数据，将其加入到LWPLS2的训练集中，再训练出新的模型LWPLS2，再利用LWPLS2选取置信度最高的无标签样本，与其预测值一起组成一个新的有标签数据，添加到LWPLS1的训练集中更新LWPLS1，如此不断迭代使用无标签数据更新模型训练数据，当满足终止条件时，终止迭代。

本发明的有益效果是：本发明通过对于青霉素生产过程数据建立起的软测量模型，不但利用了传统软测量方法建模所利用的有标签数据，也利用了传统软测量建模方法所不能利用的无标签数据，在训练样本完全相同的情况下，能够建立起比传统软测量模型精度更高的预测模型。相比目前的其他软测量建模方法，本发明不仅可以大大提高训练样本数目极少的情况下模型的预测效果，而且在很大程度上改善了软测量建模方法对过程知识的依赖性，增强了过程操作员对过程的理解能力和操作信心，更加有利于工业过程的自动化实施。

附图说明

图1是青霉素生产过程的示意图；

图2是本发明方法和传统局部加权偏最小二乘方法、自训练局部加权偏最小二乘方法、协同训练偏最小二乘方法以及偏最小二乘方法对在不同有标签样本比例下建模预测结果的RMSE对比图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

本发明一种基于协同训练算法的局部加权偏最小二乘软测量建模方法，该方法针对青霉素生产过程的软测量建模问题，首先利用集散控制系统以及离线检测方法收集包含主导变量信息与辅助变量信息的有标签数据和仅包含辅助变量的无标签数据，然后利用有标签数据建立两个具有相当差异性的初始模型，然后再初始模型的基础上利用无标签数据对两个模型及其训练集进行迭代更新，当达到一定的迭代次数或是终止条件之后，停止对于模型的更新，并利用最终的训练数据建立新的模型，实现对于青霉素生产过程的软测量建模。把模型参数存入数据库中备用。

本发明采用的技术方案的主要步骤如下：

第一步，利用集散控制系统以及离线检测方法，按生产批次收集青霉素生产过程的数据组成建模用的训练样本集，对于青霉素浓度信息，则在离线进行测量后将测量后的变量信息与其对应的辅助变量信一起存储到数据集中。在这样的条件下，对于同一个批次的训练样本集，一部分为既包含主导变量数据也包含辅助变量信息的样本集D∈R^K×J，其中，D为有标签数据集，K为采样数据点个数，J为变量个数；另一部分为只包含辅助变量数据的样本集U∈R^N×M，其中，U为无标签数据集，N为采样数据点数，M为变量个数，将这些数据存入历史数据库。

第二步，对于每个生产批次采集到的过程数据进行预处理，剔除野值点和明显的粗糙误差数据。得到新的数据矩阵集为D∈R^K×J。

第三步，基于得到的二维数据矩阵D∈R^K×J，按照主导变量和辅助变量分类标准，选取其中的青霉素浓度信息作为预测目标因变量集选取其中的辅助变量作为自变量集则该二维数据矩阵可以重新描述为：

第四步，对于有标签样本集其第n(n＝1,2,3…K)个样本点表述为：x_n＝[x_n1,x_n2,…x_nM]^T,y_n。并利用样本点的自变量之间的距离来计算它们的相似度。设样本点S_q和S_n之间的相似度为ω，则ω的计算方法为：

ω_n＝fun(d_n) (3)

对于测试样本S_q:x_q，通过计算每个训练样本与其之间的相似度ω，并选取相似度最高的前k个训练样本构造模型对测试样本的对应输出进行预测，构造及预测的步骤如下：

(1)确定隐变量个数R，并设其在算法中的初值r＝1。

其中，1_k∈R^k为一个元素全为1的向量。

(3)计算X的第r个隐变量：

t_r＝X_rw_r (10)

其中，w_r为的最大特征值对应的特征向量。

(4)计算X的第r个负载向量和回归系数向量：

(5)计算x_q的第r个隐变量：

(6)当r＝R，则计算相应的预测值完成迭代，否则令

x_q,r+1＝x_q,r-t_q,rp_r (16)

然后令r＝r+1，将上述三式代入第(3)步，继续进行迭代计算。

第五步，从第四步不难看出，最终预测结果的计算与相似度矩阵Ω有着非常紧密的联系，对于同一组数据样本而言，如果计算得到的Ω不同，那么所得到的局部加权偏最小二乘模型也必将有所不同。根据协同训练的思想，如果我们能够在同一组数据上获取两个具有一定差异性的模型，那么就可以使得协同训练的方法取得效果。因此，如果我们采用如式1和2所示的不同的相似度计算方法，相应的就可以得到两个不同的局部加权偏最小二乘模型LWPLS1和LWPLS2。

记LWPLS1模型在原有的训练集上的均方误差为RMSE_orig。

在无标签数据集中，对于每个样本点计算训练样本中每个样本与它的相似度ω_j,(j＝1,2,3…K),并选取与其相似度最大的k个样本SS_nearest:S_i1,S_i2…S_ik，按照步骤四中的方法，建立训练样本关于样本点的局部加权模型Model，根据此模型得到该样本点的预测值y_i，并计算此模型在前k-1个有标签样本点上的均方误差值RMSE_i；接下来，将该无标签样本X_i ^M及其预测值y_i作为一个新的有标签样本加入到原有的训练集中去，并重新建立新的训练集对于此样本的模型Model'。不难发现，该样本在新训练集中最近的k个样本点SS'_nearest:S_i1',S_i2'…S_ik'与SS_nearest:S_i1,S_i2…S_ik的具有如下关系：S_ij'＝S_i(j-1),j＝2,3…k，故在此我们只计算Model'在后k-1样本点上的均方误差值RMSE_i'，并计算二者的差值RMSE_dif,i＝RMSE_i-RMSE_i'。对于所有的无标签样本点，我们都按照此方法计算每个样本的RMSE_dif,i,i＝1,2…N。若所有RMSE_dif均小于0，则认为已经达到终止条件，停止迭代，否则，取使得RMSE_dif最大的新加标签样本作为置信度最高的样本，亦即作为新的有标签样本添加到LWPLS2的训练集中去以更新该训练集，并从无标签数据集中剔除样本点

采用式2的相似度计算方法，利用新的LWPLS2训练集建立LWPLS2模型，对剩下的无标签数据继续添加标签，并将所得的置信度最高的新加标签样本添加到LWPLS1的训练集中去，再训练出新的LWPLS1模型选取置信度最高的样本添加到LWPLS2的训练集中去，如此迭代循环；

当达到循环停止条件后，亦即达到一定的循环次数或无法找到新的满足条件的无标签样本，此时可以获取两组新的有标签数据集，利用这两组有标签数据训练得到最终的LWPLS1和LWPLS2，将这两个模型的预测结果进行加权，得到最终的预测结果。

第六步：将建模数据和各个模型参数存入历史数据库和实时数据库中备用。

第七步：收集新的过程数据，并对其进行预处理和归一化。

对于过程中新收集到的数据样本，除了对其进行预处理之外，还有采用建模时的模型参数对该数据点进行归一化，即减去建模均值和除以建模标准差。

第八步：采用基于协同训练算法的偏最小二乘方法对工业过程的变量进行预测，并根据预测结果实行对于工业过程的控制。

以下结合一个具体的青霉素生产过程例子来说明本发明的有效性。该过程的流程示意图如图1所示，过程的监测变量如表1所示。为了建立基于核学习的非线性过程监测模型，在过程的正常操作工况下一共收集青霉素生产过程数据组成建模用的数据样本。其中，该数据中共包含有1000个建模样本。在建模之前，我们首先将该数据沿着时间方向展开为一个1000*11的二维数据矩阵。然后，利用协同训练局部加权偏最小二乘方法对该二维数据矩阵进行建模，并对青霉素浓度信息进行预测。接下来结合该具体过程对本发明的实施步骤进行详细地阐述：

1.采集表1中的11个辅助变量数据以及其对应的主导变量青霉素浓度数据，将该部分数据作为有标签数据集；对于没有青霉素浓度数据的辅助变量数据，也一并采集作为无标签数据集；

2.利用协同训练局部加权偏最小二乘方法建立软测量模型，并将所有的模型和参数存入数据库中备用。由于青霉素过程一般由两个操作阶段组成，在这里，我们忽略青霉素浓度为0阶段的数据，而仅使用青霉素浓度不为0阶段的数据作为训练集与测试集，进行软测量建模。

3.为了测试新模型的预测精度，我们分别对比了协同训练局部加权偏最小二乘算法、局部加权偏最小二乘算法、自训练局部加权偏最小二乘算法、协同训练偏最小二乘算法以及偏最小二乘算法在相同训练样本条件下的模型预测效果对比，该对比分为预测曲线和均方误差RMSE两个方面。图2显示了6种方法在青霉素数据上的均方误差值对比。结果表明，协同训练局部加权偏最小二乘模型具有较为明显的优势。在相同的建模样本条件下，相对于它可以借助传统建模方法无法利用的无标签数据提升自身的模型精度，相对于协同训练偏最小二乘模型，它消除了自变量需要具有多视图的限制，在基本模型方面也更加具有优越性。

表1：监测变量说明

序号	变量	序号	变量
				1	通风速率(l/h)	7	生物量浓度(g/l)
2	搅拌功率(W)	8	培养体积(l)
				3	补料速率(l/h)	9	二氧化碳浓度(g/l)
4	补料温度(K)	10	pH值
				5	补料浓度(g/l)	11	反应温度(K)
6	溶解氧浓度(g/l)

上述实施例用来解释说明本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明作出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种基于协同训练LWPLS的青霉素生产过程的控制方法，其特征在于，包括以下步骤：

步骤1：利用集散控制系统以及离线检测方法，收集工业生产过程的数据，所述数据包括主导变量数据和辅助变量数据,所述主导变量数据为青霉素浓度,组成建模用的训练样本集；对于收集到的训练样本集，一部分为既包含主导变量数据也包含辅助变量数据的有标签样本,组成有标签样本集D∈R^K×J，其中，K为有标签样本集中采样数据点的个数，J为有标签样本集中的变量个数，R为实数集；另一部分为只包含辅助变量数据的无标签样本,组成无标签样本集U∈R^N×M，其中，N为无标签样本集中采样数据点的个数，M为无标签样本集中的变量个数，将这些数据存入历史数据库；

步骤2：将有标签样本集D按照生产批次进行分类,针对同一个生产批次中的有标签样本，沿着时间点方向对每一个样本进行排列，得到新的数据矩阵，并对其进行预处理和归一化，即使得各个过程变量的均值为零，方差为1，得到新的二维数据矩阵

步骤3：将步骤2得到的二维数据矩阵分割为自变量矩阵与因变量矩阵其中组成因变量矩阵的因变量数据为主导变量数据,即青霉素浓度；由此,该二维数据矩阵可以重新描述为：

步骤4：利用步骤3得到的自变量矩阵与因变量矩阵并采用不同的距离度量方式来构造两个不同的初始模型；假设样本之间的距离为d，则相似度ω＝fun(d)分别表示为：

ω¹＝e^-d/10 (1)

ω²＝3^-d/10 (2)

由此我们可以获得两个不同的初始局部加权偏最小二乘模型LWPLS1和LWPLS2；

步骤5：首先，利用初始的模型LWPLS1对所有无标签样本进行预测，从无标签样本中选取一个置信度最高的样本，与其预测值一起组成一个新的有标签数据，将其加入到LWPLS2的训练集中，再训练出新的模型LWPLS2，再利用LWPLS2选取置信度最高的无标签样本，与其预测值一起组成一个新的有标签数据，添加到LWPLS1的训练集中更新LWPLS1，如此不断迭代使用无标签数据更新模型训练数据，当达到终止条件时，终止迭代；

步骤6：将建模数据和各个模型参数存入历史数据库和实时数据库中备用；

步骤7：收集新的过程数据，并对其进行预处理和归一化；

步骤8：采用基于协同训练算法的局部加权偏最小二乘方法对工业过程的变量进行预测，根据得到的预测值，对工业过程中的辅助变量数据进行调节，实现工业过程的控制。

2.根据权利要求1所述的方法，其特征在于，所述步骤4具体为：

对于其第n个样本点表述为：x_n＝[x_n1,x_n2,…x_nM]^T,y_n，n＝1,2,3…K，并利用样本点的自变量之间的距离来计算它们的相似度；设样本点S_q和S_n之间的相似度为ω，则ω的计算方法为：

ω_n＝fun(d_n) (3)

<mrow> <msub> <mi>d</mi> <mi>n</mi> </msub> <mo>=</mo> <msup> <mrow> <mo>(</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>M</mi> </munderover> <msup> <mrow> <mo>(</mo> <mrow> <msub> <mi>x</mi> <mrow> <mi>n</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>x</mi> <mrow> <mi>q</mi> <mi>i</mi> </mrow> </msub> </mrow> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>)</mo> </mrow> <mrow> <mn>1</mn> <mo>/</mo> <mn>2</mn> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中,x_ni表示第n个样本点中第i个自变量，x_qi表示第q个样本点中第i个自变量；对于测试样本S_q:x_q，通过计算每个训练样本与其之间的相似度ω，并选取相似度最高的前k个训练样本构造模型对测试样本的对应输出进行预测，构造及预测的步骤如下：

(1)确定隐变量个数R，并设其在算法中的初值r＝1；

<mrow> <msub> <mi>X</mi> <mi>r</mi> </msub> <mo>=</mo> <mi>X</mi> <mo>-</mo> <msub> <mn>1</mn> <mi>k</mi> </msub> <mo>&lsqb;</mo> <msub> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mn>1</mn> </msub> <mo>,</mo> <msub> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mn>2</mn> </msub> <mo>,</mo> <mo>...</mo> <msub> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mi>M</mi> </msub> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>Y</mi> <mi>r</mi> </msub> <mo>=</mo> <mi>Y</mi> <mo>-</mo> <msub> <mn>1</mn> <mi>k</mi> </msub> <mover> <mi>y</mi> <mo>&OverBar;</mo> </mover> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>x</mi> <mrow> <mi>q</mi> <mo>,</mo> <mi>r</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>x</mi> <mi>q</mi> </msub> <mo>-</mo> <msup> <mrow> <mo>&lsqb;</mo> <msub> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mn>1</mn> </msub> <mo>,</mo> <msub> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mn>2</mn> </msub> <mo>...</mo> <msub> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mi>M</mi> </msub> <mo>&rsqb;</mo> </mrow> <mi>T</mi> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

其中，1_k∈R^k为一个元素全为1的向量，且

<mrow> <msub> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mi>m</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>&omega;</mi> <mi>n</mi> </msub> <msub> <mi>x</mi> <mrow> <mi>n</mi> <mi>m</mi> </mrow> </msub> <mo>/</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>&omega;</mi> <mi>n</mi> </msub> <mo>,</mo> <mi>m</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>...</mo> <mi>M</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mover> <mi>y</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>&omega;</mi> <mi>n</mi> </msub> <msub> <mi>y</mi> <mi>n</mi> </msub> <mo>/</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </munderover> <msub> <mi>&omega;</mi> <mi>n</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

(3)计算X的第r个隐变量：

t_r＝X_rw_r (10)

其中，w_r为的最大特征值对应的特征向量；

(4)计算X的第r个负载向量和回归系数向量：

<mrow> <msub> <mi>p</mi> <mi>r</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>X</mi> <mi>r</mi> <mi>T</mi> </msubsup> <msub> <mi>&Omega;t</mi> <mi>r</mi> </msub> </mrow> <mrow> <msubsup> <mi>t</mi> <mi>r</mi> <mi>T</mi> </msubsup> <msub> <mi>&Omega;t</mi> <mi>r</mi> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>q</mi> <mi>r</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>Y</mi> <mi>r</mi> <mi>T</mi> </msubsup> <msub> <mi>&Omega;t</mi> <mi>r</mi> </msub> </mrow> <mrow> <msubsup> <mi>t</mi> <mi>r</mi> <mi>T</mi> </msubsup> <msub> <mi>&Omega;t</mi> <mi>r</mi> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

(5)计算第q个样本点x_q的第r个隐变量：

(6)当r＝R，则计算相应的预测值完成迭代，否则令

x_q,r+1＝x_q,r-t_q,rp_r (16)

然后令r＝r+1，将上述三式代入第(3)步，继续进行迭代计算。

3.根据权利要求1所述的方法，其特征在于，所述步骤5具体为：

首先，利用初始的模型LWPLS1对所有无标签样本进行预测，在无标签数据集中，对于每个样本点建立训练样本关于样本点的局部加权模型Model，根据此模型得到该样本点的预测值y_i，并计算此模型在前k-1个有标签样本点上的均方误差值RMSE_i；接下来，将该无标签样本X_i ^M及其预测值y_i作为一个新的有标签样本加入到原有的训练集中去，并重新建立新的训练集对于此样本的模型Model'；计算Model'在后k-1样本点上的均方误差值RMSE_i'，并计算二者的差值RMSE_dif,i＝RMSE_i-RMSE_i'；按照此方法计算每个无标签样本的RMSE_dif,i,i＝1,2…N；若所有RMSE_dif均小于0，则认为已经达到终止条件，停止迭代，否则，取使得RMSE_dif最大的新加标签样本作为置信度最高的样本，亦即作为新的有标签样本添加到LWPLS2的训练集中去以更新该训练集，并从无标签数据集中剔除样本点