CN113673574B

CN113673574B - 一种用于出水变量预测的软测量方法、装置及介质

Info

Publication number: CN113673574B
Application number: CN202110843484.6A
Authority: CN
Inventors: 刘乙奇; 李东; 黄道平; 许翀
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2023-12-05
Anticipated expiration: 2041-07-26
Also published as: CN113673574A

Abstract

本发明公开了一种用于出水变量预测的软测量方法、装置及介质，其中方法包括：污水处理数据划分为标记数据集和未标记数据集；计算标记数据集中任两组数据之间的差异性距离，根据差异性距离计算标记数据集中每组数据的结构熵；根据结构熵对标记数据集进行聚类处理，获得m个标记数据子集；根据差异性距离将未标记数据集中每一个未标记数据划分到对应的标记数据子集，根据标记数据子集获取未标记数据对应的出变量；根据新的标记数据更新标记数据子集；根据新的标记数据子集构建预测模型；获取测试数据，根据测试数据获取对应的预测模型进行预测，获得预测值。本发明通过结构熵聚类的处理，提高了预测精度和效率，可应用于污水处理技术领域。

Description

一种用于出水变量预测的软测量方法、装置及介质

技术领域

本发明涉及污水处理技术领域，尤其涉及一种用于出水变量预测的软测量方法、装置及介质。

背景技术

在污水处理过程中，软测量方法被广泛地应用于重要但却不易测量的出水变量，如总氮(Total Nitrogen)、总磷(Total Phosphorus)、生物需氧量(Biochemical OxygenDemand)、化学需氧量(Chemical Oxygen Demand)等的预测问题。随着工业技术的发展，污水处理的过程日趋复杂，我们对于这些重要出水变量的预测要求也在不断地提高。然而，传统软测量方法对具有强烈波动和非线性的出水变量的预测结果并不理想。此外，由于恶劣的工作环境、高昂的运行和维护成本，导致收集的数据不完整，输入和输出变量存在严重的不平衡。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种用于出水变量预测的软测量方法、装置及介质。

本发明所采用的技术方案是：

一种用于出水变量预测的软测量方法，包括以下步骤：

获取污水处理数据，将污水处理数据划分为标记数据集L和未标记数据集U；

计算标记数据集L中任两组数据之间的差异性距离，根据差异性距离计算标记数据集L中每组数据的结构熵E_i；

根据结构熵E_i对标记数据集L进行聚类处理，获得m个标记数据子集L₁,L₂,…L_m；

根据差异性距离将未标记数据集U中每一个未标记数据x_u划分到对应的标记数据子集L_i，根据标记数据子集L_i获取未标记数据x_u对应的出变量获得新的标记数据/>

根据新的标记数据更新标记数据子集L_i，获得新的标记数据子集L′₁,L′₂,…,L′_m；

根据新的标记数据子集构建预测模型f_i；

获取测试数据x_t，根据测试数据x_t获取对应的预测模型进行预测，获得预测值

进一步地，在获取污水处理数据的步骤后，还包括以下步骤：

对污水处理数据进行归一化处理；

其中，归一化处理的公式如下：

x_min和x_max分别代表这组数据中的最小值和最大值，x和分别表示原始数据和归一化处理后的数据。

进一步地，差异性距离通过以下公式计算获得：

d(x_i,x_j)＝(l-s(x_i,x_j))/l

d(x_i,x_j)表示x_i和x_j两个数据的差异性距离，s是x_i和x_j的相似度，l是输入变量的维度；

θ(x_ip,x_jp)表示数据x_i和x_j在第p维度上的相似性：

其中，r表示相似性的限度；

结构熵E_i通过以下公式计算获得：

E_i表示数据x_i的结构熵；

其中，D_ij表示x_i和x_j的差异性距离，是整个标记数据集L的平均差异性距离。

进一步地，所述根据结构熵E_i对标记数据集L进行聚类处理，获得m个标记数据子集L₁,L₂,…L_m，包括：

将标记数据集L中每组数据的结构熵E_i进行升序排列，获取前m个结构熵E_i对应的数据作为m个聚类中心l_i；

根据差异性距离将标记数据集L中每组数据划分到对应的聚类中心，聚类获得标记数据子集L₁,L₂,…L_m。

进一步地，所述根据差异性距离将未标记数据集U中每一个未标记数据x_u划分到对应的标记数据子集L_i，包括：

计算未标记数据x_u和每一个聚类中心的差异性距离，获取差异性距离最小的聚类中心对应的标记数据子集L_i，将未标记数据x_u划分到所述标记数据子集L_i；

所述根据标记数据子集L_i获取未标记数据x_u对应的出变量获得新的标记数据包括：

计算未标记数据x_u与标记数据子集L_i中各组数据的差异性距离，获取差异性距离小于预设阈值的若干个标记数据，计算若干个标记数据的平均值作为未标记数据x_u对应的出变量获得新的标记数据/>

进一步地，所述根据新的标记数据更新标记数据子集L_i，获得新的标记数据子集L′₁,L′₂,…,L′_m，包括：

将新的标记数据对标记数据子集L_i进行扩充，获得新的标记数据子集L′₁,L′₂,…,L′_m；

其中，

。

进一步地，所述根据新的标记数据子集构建预测模型f_i，包括：

根据新的标记数据子集L′₁,L′₂,…,L′_m，利用偏最小二乘算法建立预测模型f₁,f₂,…,f_m；

其中，

f_i＝PLS(L′_i)i＝1,2,…,m

进一步地，所述获取测试数据x_t，根据测试数据x_t获取对应的预测模型进行预测，获得预测值包括：

计算测试数据x_t和每一个聚类中心的差异性距离，获取差异性距离最小的聚类中心对应的标记数据子集L′_i；

获取标记数据子集L′_i对应的偏最小二乘预测模型f_i，对测试数据x_t进行预测，获得预测值

本发明所采用的另一技术方案是：

一种用于出水变量预测的软测量装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明通过结构熵聚类的处理，能够充分地分析数据间的结构信息，快速地确定聚类中心，避免了反复迭代计算的过程，提高了聚类效率；另外，将原本复杂的非线性预测问题转化为简单的线性预测问题，利于后续的建模和预测。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中一种用于出水变量预测的软测量方法的流程示意图；

图2是本发明实施例中活性污泥污水处理厂的结构简图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

如图1所示，本实施例提供一种用于出水变量预测的软测量方法，包括以下步骤：

S1、获取污水处理数据，将污水处理数据划分为标记数据集L和未标记数据集U。

对污水处理过程中现有传感器收集的数据(即污水处理数据)，并将其分类：标记数据集L和未标记数据集U。在本实施例中，同时包含输入和输出变量的数据集合被记为标记数据集L＝(x_l,y_l)，其中x_l是输入变量，y_l是输出变量；仅包含输入变量的数据集合被记为未标记数据集U＝x_u，其中x_u是输入变量。

在一些可选的实施例中，为了提高数据的处理效率，可采用matlab中的mapminmax函数将数据归一化处理：

这里，x_min和x_max分别代表这组数据中的最小值和最大值，x和分别表示原始数据和归一化处理后的数据。

S2、计算标记数据集L中任两组数据之间的差异性距离，根据差异性距离计算标记数据集L中每组数据的结构熵E_i。

在本实施例中，预先定义一种差异性度量方法，用来计算高维度数据之间的差异性距离d。根据差异性距离d计算标记数据集L中每组数据的结构熵E_i。

其中，定义的差异性度量：

d(x_i,x_j)＝(l-s(x_i,x_j))/l

其中d(x_i,x_j)表示x_i和x_j两个数据的差异性距离，s是x_i和x_j的相似度，l是输入变量的维度。

其中，θ(x_ip,x_jp)表示数据x_i和x_j在第p维度上的相似性：

其中，r表示相似性的限度。

计算标记数据集L中每组数据的结构熵：

其中，E_i表示数据x_i的结构熵。

S3、根据结构熵E_i对标记数据集L进行聚类处理，获得m个标记数据子集L₁,L₂,…L_m。

应用结构熵聚类方法对标记数据集聚类处理：首先，将标记数据集L中每组数据的结构熵E_i降序排列，寻找熵值最小的样本点作为聚类中心l_i。根据高斯分布的假设，聚类中心的个数m为数据总数的5‰。然后，根据差异性距离判断标记数据集L中每组数据属于哪一组聚类中心，并聚类得到标记数据子集:L₁,L₂,…L_m。

需要注意的是：根据结构熵的性质，熵值最小的样本点不一定适合作为聚类中心。实际上，我们设置一个限度Q，当结构熵聚类处理完成时，如果标记数据子集L_i的样本数未能超过Q，则表示该点不适合作为聚类中心，将其剔除并添加一个新的聚类中心重新对标记数据集L进行聚类处理。

S4、根据差异性距离将未标记数据集U中每一个未标记数据x_u划分到对应的标记数据子集L_i，根据标记数据子集L_i获取未标记数据x_u对应的出变量获得新的标记数据/>

计算未标记数据x_u和每一个聚类中心的差异性距离，并取距离最小的聚类中心l_i，则_u属于标记数据子集L_i。然后，计算x_u与L_i中各组数据的差异性距离，并设置距离上限ω。当距离小于等于ω时，说明x_u与该组数据具有极高的相似性；当距离大于ω时，说明x_u与该组数据相似性较差。因此，未标记数据x_u的输出变量y_u可以由这些相似性较高的标记数据的平均值计算得到，并记为

需要注意的是：如果x_u与L_i中各组数据的距离均大于上限ω，则说明现有的标记数据中没有与x_u相似性较高的数据组。因此，x_u的输出变量y_u只能通过模型估计得到。同样地，记为

S5、根据新的标记数据更新标记数据子集L_i，获得新的标记数据子集L′₁,L′₂,…,L′_m。

将新得到的标记数据用来扩充原有的标记数据子集L₁,L₂,…L_m，得到新的标记数据子集L′₁,L′₂,…,L′_m：

S6、根据新的标记数据子集构建预测模型f_i。

对最终的标记数据子集L′₁,L′₂,…,L′_m利用偏最小二乘算法建立预测模型f₁,f₂,…,f_m：

f_i＝PLS(L′_i)i＝1,2,…,m

S7、获取测试数据x_t，根据测试数据x_t获取对应的预测模型进行预测，获得预测值

首先计算测试数据x_t和每一个聚类中心的差异性距离，并取距离最小的聚类中心l_i，则x_t属于标记数据子集L′_i；然后用由该子集L′_i建立的偏最小二乘预测模型f_i计算预测值

以下结合具体实施例对上述方法进行详细的解释说明。

本实施例以一个简单的活性污泥污水处理厂为例，有机物和营养物可以得到有效地去除，具体的工艺流程图如图2所示。活性污泥污水处理系统由预处理池、初始反应池、曝气池和二沉池四个部分组成。该污水处理厂每天的污水处理量为3.5×10³m³，其过程包含了38个变量，数据的采样率为1天，共收集了400天的污水处理数据。其中，前200天的数据集记为标记数据，用于建立模型；后200天的数据记为未标记数据，用来训练和验证模型。在38个变量中，出水过程中的生物需氧量(BOD)是污水排放时的重要指标，难以测量。在本实施例中，将生物需氧量作为输出变量，其余变量作为输入变量，使用本实施例提出的基于结构熵聚类的半监督软测量方法，实现对活性污泥污水处理厂重要出水指标生物需氧量的有效预测。具体的实施步骤如下：

步骤1：对污水处理过程中现有传感器收集的数据，并将其分类：标记数据集L和未标记数据集U。

在一些可选的实施例中，为了提高数据的处理效率，采用matlab中的mapminmax函数将数据归一化处理。

在本实施例中，将同时包含输入和输出变量的数据集合记为标记数据集L＝(x_l,y_l)；仅包含输入变量的数据集合记为未标记数据集U＝x_u。其中，标记数据集L∈R^200×38,x_l∈R^200×37,y_l∈R^200×1，未标记数据集U∈R^200×37,x_u∈R^200×37。

步骤2：定义一种差异性度量方法，用来计算高维度数据之间的差异性距离d：

d(x_i,x_j)＝(l-s(x_i,x_j))/l

其中d(x_i,x_j)表示x_i和x_j两个数据的差异性度量距离，s是x_i和x_j的相似度，输入变量的维度l＝37。

其中，θ(x_ip,x_jp)表示数据x_i和x_j在第p维度上的相似性：

其中，相似性的限度r＝0.01。

步骤3：计算标记数据集L中每组数据的结构熵E_i：

其中，E_i表示数据x_i的结构熵。

其中，D_ij表示x_i和x_j的差异性度量距离，整个标记数据集L的平均差异性度量距离/>

步骤4：应用结构熵聚类方法对标记数据集聚类处理，将其分为m个标记数据子集L₁,L₂,…L_m。

其中，步骤4具体包括步骤A1-A2：

A1、将标记数据集L中每组数据的结构熵E_i降序排列，寻找熵值最小的样本点作为聚类中心l_i。根据高斯分布的假设，聚类中心的个数m为数据总数的5‰。m＝2，标记数据子集应为L₁,L₂。

A2、根据差异性度量距离判断标记数据集L中每组数据属于哪一组聚类中心，并聚类得到标记数据子集:L₁,L₂。

需要注意的是：根据结构熵的性质，熵值最小的样本点不一定适合作为聚类中心。实际上，设置一个限度Q＝50，当结构熵聚类处理完成时，如果标记数据子集L_i的样本数为超过Q，将其剔除并添加一个新的聚类中心重新对标记数据集L进行聚类处理。

步骤5：判断每一个未标记数据x_u属于哪一个标记数据子集L_i，并应用混合的半监督标记方法对未标记数据补充输出变量

计算未标记数据x_u和每一个聚类中心的距离d₁,d₂，并取距离最小的标记中心l_i对应的标记数据子集L_i，x_u属于标记数据子集L_i。然后，计算x_u与L_i中各组数据的距离，并设置距离上限ω＝0.1。当距离小于等于ω时，说明x_u与该组数据具有极高的相似性；当距离大于ω时，说明x_u与该组数据相似性较差。因此，未标记数据x_u的输出变量y_u可以由这些相似性较高的标记数据的平均值计算得到，并记为

步骤6：将新得到的标记数据用来扩充原有的标记数据子集L₁,L₂，得到新的标记数据子集L′₁,′₂：

步骤7：直到所有的未标记数据都被用来扩充原有的标记数据子集后，对最终的标记数据子集L′₁,L′₂，利用偏最小二乘算法建立预测模型f₁,f₂：

f_i＝PLS(L′_i),i＝1,2

步骤8：判断测试数据x_t属于哪一个标记数据子集L′_i，并用由该子集建立偏最小二乘预测模型f_i计算预测值

其中，步骤8包括步骤B1-B2：

B1、计算测试数据x_t和每一个聚类中心的距离，并取距离最小的聚类中心对应的标记数据子集L′_i，x_t属于标记数据子集L′_i；

B2、用由该子集L′_i建立的偏最小二乘预测模型f_i计算预测值

综上所述，本实施例方法相对于现有技术，具有如下有益效果：

(1)本实施例通过差异性度量方法，能够对高纬度数据通过分析同一维度中各数据间的差异性得到更合理的距离，减少离群值的负面影响。

(2)本实施例通过结构熵聚类方法，能够充分地分析数据间的结构信息，快速地确定聚类中心，避免了反复迭代计算的过程，提高了聚类效率。

(3)本实施例通过结构熵聚类的处理，将原本复杂的非线性预测问题转化为简单的线性预测问题，利于后续的建模和预测；实现了污水厂出水变量的有效预测，值得推广。

(4)本实施例应用混合的半监督标记方法，对未标记数据补充输出变量，充分考虑了标记数据的影响，极大地提升了未标记数据的利用精度和利用率。

本实施例还提供了一种用于出水变量预测的软测量装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现图1所示方法。

本实施例的一种用于出水变量预测的软测量装置，可执行本发明方法实施例所提供的一种用于出水变量预测的软测量方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种用于出水变量预测的软测量方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种用于出水变量预测的软测量方法，其特征在于，包括以下步骤：

根据差异性距离将未标记数据集U中每一个未标记数据x_u划分到对应的标记数据子集L_i，根据标记数据子集L_i获取未标记数据x_u对应的出水变量获得新的标记数据/>

根据新的标记数据子集构建预测模型f_i；

差异性距离通过以下公式计算获得：

d(x_i,x_j)＝l-s(x_i,x_j))/l

d(x_i,x_j)表示x_i和x_j两个数据的差异性距离，s(x_i,x_j)表示x_i和x_j的相似度，l是输入变量的维度；

θ(x_ip,x_jp)表示数据x_i和x_j在第p维度上的相似性：

其中，r表示相似性的限度；

结构熵E_i通过以下公式计算获得：

E_i表示数据x_i的结构熵；

其中，d_ij表示d(x_i,x_j)，是整个标记数据集L的平均差异性距离。

2.根据权利要求1所述的一种用于出水变量预测的软测量方法，其特征在于，在获取污水处理数据的步骤后，还包括以下步骤：

对污水处理数据进行归一化处理；

其中，归一化处理的公式如下：

3.根据权利要求1所述的一种用于出水变量预测的软测量方法，其特征在于，所述根据结构熵E_i对标记数据集L进行聚类处理，获得m个标记数据子集L₁,L₂,…L_m，包括：

4.根据权利要求1所述的一种用于出水变量预测的软测量方法，其特征在于，所述根据差异性距离将未标记数据集U中每一个未标记数据x_u划分到对应的标记数据子集L_i，包括：

所述根据标记数据子集L_i获取未标记数据x_u对应的出水变量获得新的标记数据包括：

计算未标记数据x_u与标记数据子集L_i中各组数据的差异性距离，获取差异性距离小于预设阈值的若干个标记数据，计算若干个标记数据的平均值作为未标记数据x_u对应的出水变量获得新的标记数据/>

5.根据权利要求1所述的一种用于出水变量预测的软测量方法，其特征在于，所述根据新的标记数据更新标记数据子集L_i，获得新的标记数据子集L′₁,L′₂,…,L′_m，包括：

将新的标记数据对标记数据子集L_i进行扩充，获得新的标记数据子集L′₁,L′₂,…,L′_m；其中，

。

6.根据权利要求1所述的一种用于出水变量预测的软测量方法，其特征在于，所述根据新的标记数据子集构建预测模型f_i，包括：

其中，

f_i＝PLS(L′_i)i＝1,2,…,m。

7.根据权利要求1所述的一种用于出水变量预测的软测量方法，其特征在于，所述获取测试数据x_t，根据测试数据x_t获取对应的预测模型进行预测，获得预测值包括：

8.一种用于出水变量预测的软测量装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-7任一项所述方法。

9.一种存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述方法。