CN108596224A

CN108596224A - 基于半监督学习的孪生超限学习机分类的数据处理方法

Info

Publication number: CN108596224A
Application number: CN201810324030.6A
Authority: CN
Inventors: 宋士吉; 万义和; 岳凡
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2018-09-28

Abstract

本发明涉及一种基于半监督学习的孪生超限学习机分类的数据处理方法，属于数据挖掘与处理技术领域。本发明在基于随机特征映射机制的基础上采用两个非平行分类面进行分类的半监督学习算法，将流行正则化、随机特征映射和两个非平行分类面的技术组合起来，解决单分类面在交叉数据等问题上缺陷，并在有奇异点的情况下保证有较强的鲁棒性，同时克服了之前算法在少量有标签样本上无法同时满足泛化能力与计算效率要求的问题。本发明方法，可以在有标签数据较少的情况下，充分挖掘无标签数据所蕴含的信息，非常适用于在高铁、风机等新兴高技术领域的故障诊断中，计算速度快，基本上可做到实时判断，且分类的准确率高。

Description

基于半监督学习的孪生超限学习机分类的数据处理方法

技术领域

本发明涉及一种基于半监督学习的孪生超限学习机分类的数据处理方法，属于数据挖掘与处理技术领域。

背景技术

近年来随着信息采集技术和计算机存储技术提升，企业为达到信息化、智能化管理和运作的目标，在企业运行的各个阶段积累了大量的数据信息，例如高铁、风机运行中的状态信息、故障信息等，这些信息都可以作为机器学习的样本，其中有标注的称为有标签数据，而这些有标签数据采用机器学习算法进行学习，就可以发现故障现象与机器状态信息间的对应关系或相关规律，然而在整个高铁或风机系统的故障诊断中，有标签数据需要人工进行标注，不仅费时间且费钱，所以积累较少，并随着运行不断地产生海量的无标签数据，这些数据也蕴含着大量的有用信息，因此，研究基于少量的有标签数据和大量的无标签数据的机器学习算法具有非常重要的现实意义。基于半监督学习的孪生超限学习机分类的数据处理的目的就是学习有标签数据中的规律，并发现无标签数据中蕴含的有用信息，从而快速、准确地找出故障发生的原因，为智能化的故障诊断、快速检修提供基础。

以往研究主要集中于有标签数据的数据积累较多的领域，利用机器学习的方法学习规律或建立预测模型，根据这些规律或模型对新的数据进行分类判断。而在实际应用场景中，经常出现有标签数据积累较少的情况，如新兴行业和领域、新设备、新机器等，数据收集比较困难，或者收集成本很大，此时，我们既缺乏足够的有标签数据进行分析，也缺乏具有实际工作经验的工作人员，因此更加需要先进的基于少量有标签数据的机器学习方法，从无标签数据中挖掘出有效信息，来达到有标签数据量充足时的机器学习效果。

半监督学习(Semi-supervised learning,SSL)正是凭借其通过少量有标签数据挖掘大量有用信息的能力引起了学者们的关注。现在的有的比较流行的半监督学习方法如直推式支持向量机、联合训练、基于图的方法等。它假设有标签数据和无标签数据是根据同一个概率分布生成的，且所有的数据位于一个低维度的流形中。基于图的半监督学习方法是整个半监督学习方法中一个非常重要的研究领域。在这类方法中，图中的每个顶点都代表一个输入数据，边的权重则反映两个数据之间的相似程度。如果两个数据之间的权重比较大，两个数据的标签就比较相似，反之亦然。通过这种方式，图能反映所有数据之间的相似程度，有标签样本也利用这种方式传播它的信息。基于这种思路提出了许多算法，如半监督超限学习机、拉普拉斯支持向量机，拉普拉斯正则最小二乘等。然而这些算法均为单分类面算法，在对交叉数据分类时存在缺陷，也无法对奇异点进行有效分类。

发明内容

本发明的目的是提出一种基于半监督学习的孪生超限学习机分类的数据处理方法，一种在基于随机特征映射机制的基础上采用两个非平行分类面进行分类的半监督学习算法。该算法将流行正则化、随机特征映射和两个非平行分类面的技术组合起来，解决单分类面在交叉数据等问题上缺陷，并能在有奇异点的情况下保证有较强的鲁棒性，同时克服已有算法在少量有标签样本上无法同时满足泛化能力与计算效率要求的问题。

本发明提出的基于半监督学习的孪生超限学习机分类的数据处理方法，该方法包括以下步骤：

(1)对数据集合进行分解：

令x_i表示数据集中的一个数据，i＝1,2,…,n，n表示数据集中所包含数据的个数，设数据x_i具有d个特征，则x_i由一个1×d维的行向量表示，即x_i＝(x_i1,x_i2,…,x_ij,…,x_id),x_ij表示数据x_i的第j个特征，j＝1,2,…,d；

将数据集中所有数据按照行向量的方式自上而下记入一个矩阵X中：

将数据集中的所有数据分成两个子集，即有标签数据子集和无标签数据子集，并分别记入矩阵X_l和X_u，其中：

X_l——表示有标签数据组成的矩阵，l表示有标签数据的个数；

X_u——表示无标签数据组成的矩阵，u表示无标签数据的个数；

将有标签数据集合分为两个子集，即标签为+1的数据集合和标签为+1的数据集合，并分别记入矩阵A和B，其中：

A——表示标签为+1的数据组成的矩阵，m₁表示该类数据的个数；

B——表示标签为-1的数据组成的矩阵，m₂表示该类数据的个数；

(2)对矩阵A和B中的数据，分别构建两个单隐含层前向反馈网络，对两类有标签数据进行学习，包括以下步骤：

(2-1)构建单隐含层前向反馈网络的结构：

设置单隐含层前向反馈网络的输入层节点数量为每个数据的特征个数，即输入层有d个输入节点，设单隐含层前向反馈网络的隐含层节点数量为n_h，n_h为任意正整数，设单隐含层前向反馈网络的输出层的节点为1，一个数据点x_i在隐含层的输出用h(x_i)表示；

(2-2)选择一个激活函数G(x)，如Sigmoid函数

G(x)＝1/(1+e^-x)，

其中：x是一个变量。

(2-3)构建一个拉普拉斯矩阵L：

设数据x_i和x_j为近邻关系，数据点x_i为离数据x_j最近的k个数据之一，或数据x_j为离数据x_i最近的k个数据之一，k的取值范围为[5,50]；

采用高斯函数，计算两个数据x_i和x_j之间的权重P_ij如下：

根据上述权重P_ij，构建一个对角矩阵D，令对角矩阵D角上的元素为则拉普拉斯矩阵为L＝D-P，其中矩阵P是p_ij元素的集合，σ为任意正整数，一般为数据的方差，在取值上根据数据集的不同而不同；

(2-4)根据上述函数G(x)的线性特性，构建单隐含层前向反馈网络的隐含层输出矩阵：

(2-4-1)当函数G(x)为线性函数时：

计算数据标签为+1的矩阵A中的隐含层的输出矩阵，矩阵A中包含m₁个数据的特征，隐含层输出矩阵为以下的m₁×d维矩阵U：

其中，k＝1,…,n_h，i＝1,…,m₁，表示数据x_i在隐含层第k个节点上的输出，其中G(x)函数中

计算数据标签为-1的矩阵B中的隐含层的输出矩阵，矩阵B中包含m₂个数据的特征，隐含层输出矩阵为以下的m₂×d维矩阵V：

其中，k＝1,…,n_h，i＝1,…,m₂，表示数据x_i在隐含层第k个节点上的输出；

其中：

w_ik——表示w_ik表示连接输入节点与隐含层节点之间的权重，该向量中的元素根据均匀概率分布在区间[-1,+1]上随机生成；

b_k——表示第k个隐含层节点的偏差，该偏差向量中的元素根据均匀概率分布在区间[-1,+1]上随机生成；

(2-4-2)当上述当函数G(x)为非线性函数时：

当函数G(x_i)为非线性函数时，定义一个孪生超限学习机核函数：

令是核矩阵，其中上标T表示矩阵或向量的转置；

当k＝1,…,n_h，i＝1,…,m₁时，计算矩阵A中的隐含层的输出矩阵，由于矩阵A中包含m₁个数据的特征，所以隐含层输出矩阵为以下的m₁×n_h维矩阵：

R＝K_ELM(A,X^T)

当k＝1,…,n_h，i＝1,…,m₂时，计算矩阵B中的隐含层的输出矩阵，由于矩阵B中包含m₂个数据的特征，所以隐含层输出矩阵为以下的m₂×n_h维矩阵：

S＝K_ELM(B,X^T)

(3)求解一个二次规划问题，得到拉格朗日乘子向量，具体步骤如下：

(3-1)建立一个二次规划问题的模型(P1)：

(P1)满足0≤α_i≤c，i＝1,…,m

针对标签为+1的数据，求解步骤(1)中矩阵A的拉格朗日乘子α，其中c表示一个正的常数，根据需要设定取值范围为0至10¹⁰；

建立一个二次规划问题的模型(P2)：

(P2)满足0≤λ_i≤c，i＝1,…,m

针对标签为-1的数据，求解步骤(1)中矩阵B中的拉格朗日乘子λ，其中c表示一个正的常数，根据需要设定取值范围为0至10¹⁰；

(3-2)采用逐次超松弛迭代方法求解上述(3-1)的二次规划问题的模型(P1)，求解过程如下：

(3-2-1)确定模型中的Q矩阵；

当函数G(x)为线性函数时，模型(P1)中的Q是m×m维矩阵，Q＝V(U^TU+c₁F^TLF+εI)^- ¹V^T；模型(P2)中的Q是m×m维矩阵，Q＝U(V^TV+c₁F^TLF+εI)^-1U^T，其中：

U——表示当G(x)为线性函数时，矩阵A的隐含层输出，

V——表示当G(x)为线性函数时，矩阵B的隐含层输出，

F——表示矩阵X隐含层的输出矩阵，由矩阵U和V组合而成，是一个(l+u)×n_h的二维矩阵，

L——表示步骤(2-3)中构建一个拉普拉斯矩阵，

T——表示矩阵或向量的转置，

ε——表示一个任意小的正标量，

I——表示相应维度的单位矩阵，

c₁——表示一个正的常数，

当函数G(x)为非线性函数时，模型(P1)中的Q是m×m维矩阵，Q＝S(R^TR+c₁KLK+εI)^-1S^T，模型(P2)中的Q是m×m维矩阵，Q＝R(S^TS+c₁KLK+εI)^-1R^T，其中：

R——表示当G(x)为非线性函数时，矩阵A的隐含层输出，

S——表示当G(x)为非线性函数时，矩阵B的隐含层输出，

K——表示超限学习机的核矩阵，

(3-2-2)以求解模型(P1)为例，设定初始值，t为区间(0,2)一个任意选择的实数，令α⁰为随机生成一个1×m维的实数向量；

(3-2-3)迭代更新，计算αⁱ⁺¹

αⁱ⁺¹＝(αⁱ-tE^-1(Qαⁱ-e+L(αⁱ⁺¹-αⁱ)))

其中e为相应维度的单位向量，L是m×m维度的二维矩阵，是严格的下三角矩阵，其中l_ij＝q_ij,i>j，E是m×m维度的二维矩阵，是对角矩阵，e_ij＝q_ij,i＝j，q_ij为Q的元素，

(3-2-4)计算||αⁱ⁺¹-αⁱ||，若||αⁱ⁺¹-αⁱ||的值小于规定的阈值或许可值，则输出α，若||αⁱ⁺¹-αⁱ||的值大于或等于规定的阈值或许可值，则返回(3-2-3)；

利用与上述(3-2-2)和步骤(3-2-3)的方法，求解上述模型(P2)，得到拉格朗日乘子λ；

(4)计算+1类数据和-1类数据的两个分类面，用于对无标签数据进行分类：

利用矩阵X_l中的有标签数据x_i，i＝1,…,l，分别学习出+1类和-1类两个分类面：

(4-1)对于函数G(x)为线性函数的情况：

令β₁＝-(U^TU+c₁F^TLF+εI)^-1V^Tα，则+1类数据的分类面为：

h(x_i)β₁＝-h(x_i)(U^TU+c₁F^TLF+εI)^-1V^Tα＝0；

令β₂＝-(V^TV+c₁F^TLF+εI)^-1U^Tλ，则-1类数据的分类面为：

h(x_i)β₂＝-h(x_i)(V^TV+c₁F^TLF+εI)^-1U^Tλ＝0；

其中，ε表示任意小的正标量，I为相应维度的单位矩阵；

(4-2)对于函数G(x)为非线性函数的情况：

令μ₁＝-(R^TR+c₁KLK+εI)^-1S^Tα，则+1类数据的分类面为：

h(x_i)μ₁＝-h(x_i)(R^TR+c₁KLK+εI)^-1S^Tα＝0；

令则-1类数据的分类面为：

(5)对数据集中的无标签数据进行分类：

根据矩阵X_u中的无标签数据x_i与两个分类超平面的距离，计算得到无标签数据x_i的分类：

当函数G(x)为线性函数时，计算f(x_i)＝argmin_r＝1,2|h(x_i)β_r|

当函数G(x)为非线性函数时，计算f(x_i)＝argmin_r＝1,2|h(x_i)μ_r|

其中，f(x_i)表示数据分类结果，为+1或-1；h(x_i)表示数据x_i经过隐含层的输出；|·|表示x_i到分类面的垂直距离。

本发明提出的基于半监督学习的孪生超限学习机分类的数据处理方法，其优点是：

本发明方法采用随机特征映射机制，输入权重随机指定，对权重不需要进行反复迭代。本发明方法的模型中采用两个非平行分类面，不仅改善了分类性能，而且能够提高模型的鲁棒性。本发明方法的模型能充分挖掘无标签样本所蕴含的几何结构信息，并引入流形正则项。本发明方法允许有一个小的可接受的训练误差，能够改善过度拟合。本发明方法只需计算两个较小的二次规划问题，因此有较好的计算效率。本发明提出的基于半监督学习的孪生超限学习机分类的数据处理方法，可以在有标签数据较少的情况下，充分挖掘无标签数据所蕴含的信息，非常适用于在高铁、风机等新兴高技术领域的故障诊断中，计算速度快，基本上可做到实时判断，且分类的准确率高。

附图说明

图1是本发明方法中的待处理数据的分类与标签方法示意图。

图2是本发明方法中单隐含层前向反馈网络的示意图。

图3(a)是双直线数据集，图3(b)是双月亮数据集。

图4不同算法在有标签样本的数量变化下获得的分类准确率。

具体实施方式

本发明提出的基于半监督学习的孪生超限学习机分类的数据处理方法，用于在少量有标签数据中学习规律，并对大量无标签数据进行二分类处理，下面结合具体实例对方法进行说明，该方法包括以下步骤：

(1)对数据集合进行分解：

将有标签数据集合分为两个子集，即标签为+1的数据集合和标签为+1的数据集合，并分别记入矩阵A和B，如图1所示，其中：

本发明中的数据分类方法的原理是通过对矩阵X_l中有标签的数据进行学习，计算产生+1类数据和-1类数据的两个分类面，然后计算每个无标签数据距这两个分类面的距离，距离哪个分类面较近，则该数据属于这个类别。步骤(2)、(3)、(4)说明了两个分类面的构建方法。

(2)对矩阵A和B中的数据，分别构建两个单隐含层前向反馈网络，如图2所示，对两类有标签数据进行学习，包括以下步骤：

(2-1)构建单隐含层前向反馈网络的结构：

设置单隐含层前向反馈网络的输入层节点数量为每个数据的特征个数，即输入层有d个输入节点，设单隐含层前向反馈网络的隐含层节点数量为n_h，n_h为任意正整数，设单隐含层前向反馈网络的输出层的节点为1，输出函数用h(x_i)表示；

(2-2)选择一个激活函数G(x)；

G(x)可以根据实际使用效果选择任意的无限可微的函数，如径向基函数、Sigmoid函数、Sine函数、Cosine函数和指数函数等，本发明中选择采用了径向基函数G(x)＝exp(-‖x-μ‖²/2σ²)，其中μ是数据的均值，σ是数据的方差，与Sigmoid函数G(x)＝1/(1+e^-x)

其中：

w_ik——表示连接输入节点与隐含层节点之间的权重，该向量中的元素根据均匀概率分布在区间[-1,+1]上随机生成；

(2-3)构建一个拉普拉斯矩阵L：

设数据x_i和x_j为近邻关系，数据点x_i为离数据x_j最近的k个数据之一，或数据x_j为离数据x_i最近的k个数据之一，k的取值范围为[5,10]；

采用高斯函数，计算两个数据x_i和x_j之间的权重P_ij如下：

根据上述权重P_ij，构建一个对角矩阵D，令对角矩阵D角上的元素为则拉普拉斯矩阵为L＝D-P，其中矩阵P是p_ij元素的集合，σ为任意正整数；

(2-4-1)当函数G(x)为线性函数时：

其中，k＝1,…,n_h，i＝1,…,m₁，表示数据x_i在隐含层第k个节点上的输出；

(2-4-2)当上述当函数G(x)为非线性函数时：

当函数G(x)为非线性函数时，定义一个孪生超限学习机核函数：

令是核矩阵，其中上标T表示矩阵或向量的转置；

R＝K_ELM(A,X^T)

S＝K_ELM(B,X^T)

(3-1)建立一个二次规划问题的模型(P1)：

(P1)满足0≤α_i≤c，i＝1,…,m

建立一个二次规划问题的模型(P2)：

(P2)满足0≤λ_i≤c，i＝1,…,m

(3-2)采用逐次超松弛迭代(Successive Over Relaxation，SOR)方法求解上述(3-1)的二次规划问题的模型(P1)，求解过程如下：

(3-2-1)确定模型中的Q矩阵；

U——表示当G(x)为线性函数时，矩阵A的隐含层输出；

V——表示当G(x)为线性函数时，矩阵B的隐含层输出；

F——表示矩阵X隐含层的输出矩阵，由矩阵U和V组合而成，是一个(l+u)×n_h的二维矩阵；

L——表示步骤(2-3)中构建一个拉普拉斯矩阵；

T——表示矩阵或向量的转置；

ε——表示一个任意小的正标量，(本例中的取值10^-5)；

I——表示相应维度的单位矩阵；

c₁——表示一个正的常数(取值范围为0至10¹⁰)；

当函数G(x)为非线性函数时，模型(P1)中的Q是m×m维矩阵，Q＝S(R^TR+c₁KLK+εI)^-1S^T；模型(P2)中的Q是m×m维矩阵，Q＝R(S^TS+c₁KLK+εI)^-1R^T，其中：

R——表示当G(x)为非线性函数时，矩阵A的隐含层输出；

S——表示当G(x)为非线性函数时，矩阵B的隐含层输出；

k——表示超限学习机的核矩阵；

(3-2-3)迭代更新，计算αⁱ⁺¹

αⁱ⁺¹＝(αⁱ-tE^-1(Qαⁱ-e+L(αⁱ⁺¹-αⁱ)))

(4-1)对于函数G(x)为线性函数的情况：

令β₁＝-(U^TU+c₁F^TLF+εI)^-1V^Tα，则+1类数据的分类面为：

h(x_i)β₁＝-h(x_i)(U^TU+c₁F^TLF+εI)^-1V^Tα＝0；

令β₂＝-(V^TV+c₁F^TLF+εI)^-1U^Tλ，则-1类数据的分类面为：

h(x_i)β₂＝-h(x_i)(V^TV+c₁F^TLF+εI)^-1U^Tλ＝0；

其中，ε表示任意小的正标量，I为相应维度的单位矩阵；

(4-2)对于函数G(x)为非线性函数的情况：

令μ₁＝-(R^TR+c₁KLK+εI)^-1S^Tα，则+1类数据的分类面为：

h(x_i)μ₁＝-h(x_i)(R^TR+c₁KLK+εI)^-1S^Tα＝0；

令则-1类数据的分类面为：

(5)对数据集中的无标签数据进行分类：

根据矩阵X_u中的无标签数据x_i与两个分类超平面的距离，计算得到无标签数据x_i的分类：即距离哪个平面更近就归为哪一类。

当函数G(x)为线性函数时，计算f(x_i)＝argmin_r＝1,2|h(x_i)β_r|

当函数G(x)为非线性函数时，计算f(x_i)＝argmin_r＝1,2|h(x_i)μ_r|

以下对本发明提出的基于半监督学习的孪生超限学习机分类的数据处理方法的性能分析如下：

(1)c₁值大小的影响分析

首先构建两个人工数据集如图3，一个是如图3(a)所示的双直线数据集，一个是如图3(b)所示的双月亮数据集，每个数据集包括300个样本点，每类各150个样本，其中有标签的数据为2个，无标签的数据为148个。

表1展示了算法在两个人工数据集上采用不同的c₁值下的分类准确率。从表中，可以看到随着c₁值的增大，分类准确率是在逐步提高。从在双月亮数据集上获得的分类准确率的平均值，可以看到分类准确率提高了3.57％,在双直线数据集上提高了1.46％，也可以看出算法是可以挖掘无标签数据的结构信息来提高分类准确率。

表1算法在不同c₁的值下的分类准确率

(2)比较不同的算法在标准数据集上的分类准确率：

与超限学习机(ELM)、孪生超限学习机(TELM)、半监督超限学习机(SSELM)、拉普拉斯正则最小二乘(LapRLS)、拉普拉斯支持向量机(LapSVM)这些算法进行了比较。这些算法获得的分类准确率如表2。在几个标准的半监督数据集上进行了实验，实验结果包括在无标签数据集、验证集和测试集上的结果。实验结果表明提出的数据处理方法(LapTELM)在4个数据集上获得了最好的结果。

表2算法在标准半监督数据集上的分类准确率

(3)比较了不同的算法在有标签数据变化情况下的分类准确率

表3显示了不同的算法在有标签数据变化情况下的分类准确率。实验采用的数据集是著名的手写阿拉伯数字的数据集USPS的一个子集。测试集、无标签数据集和验证集的大小分别为1600，2000和2000。实验结果表明，有标签数据增加时，算法的分类准确率在提高，但提高的幅度不大。

表3算法在不同数量的有标签样本上的分类准确率

在另外一个数据集上有标签样本从比较少变化到比较多的情况下，不同算法获得的分类准确率，如图4所示。实验结果表明提出的方法在有标签样本比较少的情况与其它算法比有较大的优势。

Claims

1.一种基于半监督学习的孪生超限学习机分类的数据处理方法，其特征在于该方法包括以下步骤：

(1)对数据集合进行分解：

(2-1)构建单隐含层前向反馈网络的结构：

(2-2)选择一个激活函数G(x)，如Sigmoid函数

G(x)＝1/(1+e^-x)，

(2-3)构建一个拉普拉斯矩阵L：

采用高斯函数，计算两个数据x_i和x_j之间的权重P_ij如下：

(2-4-1)当函数G(x)为线性函数时：

(2-4-2)当上述当函数G(x)为非线性函数时：

令是核矩阵，其中上标T表示矩阵或向量的转置；

R＝K_ELM(A,X^T)

S＝K_ELM(B,X^T)

(3-1)建立一个二次规划问题的模型(P1)：

(P1)满足0≤α_i≤c，i＝1,…,m

建立一个二次规划问题的模型(P2)：

(P2)满足0≤λ_i≤c，i＝1,…,m

(3-2-1)确定模型中的Q矩阵；

当函数G(x)为线性函数时，模型(P1)中的Q是m×m维矩阵，Q＝V(U^TU+c₁F^TLF+εI)^-1V^T；模型(P2)中的Q是m×m维矩阵，Q＝U(V^TV+c₁F^TLF+εI)^-1U^T，其中：

U——表示当G(x)为线性函数时，矩阵A的隐含层输出，

V——表示当G(x)为线性函数时，矩阵B的隐含层输出，

L——表示步骤(2-3)中构建一个拉普拉斯矩阵，

T——表示矩阵或向量的转置，

ε——表示一个任意小的正标量，

I——表示相应维度的单位矩阵，

c₁——表示一个正的常数，

R——表示当G(x)为非线性函数时，矩阵A的隐含层输出，

S——表示当G(x)为非线性函数时，矩阵B的隐含层输出，

K——表示超限学习机的核矩阵，

(3-2-3)迭代更新，计算αⁱ⁺¹

αⁱ⁺¹＝(αⁱ-tE^-1(Qαⁱ-e+L(αⁱ⁺¹-αⁱ)))

(4-1)对于函数G(x)为线性函数的情况：

令β₁＝-(U^TU+c₁F^TLF+εI)^-1V^Tα，则+1类数据的分类面为：

h(x_i)β₁＝-h(x_i)(U^TU+c₁F^TLF+εI)^-1V^Tα＝0；

令β₂＝-(V^TV+c₁F^TLF+εI)^-1U^Tλ，则-1类数据的分类面为：

h(x_i)β₂＝-h(x_i)(V^TV+c₁F^TLF+εI)^-1U^Tλ＝0；

其中，ε表示任意小的正标量，I为相应维度的单位矩阵；

(4-2)对于函数G(x)为非线性函数的情况：

令μ₁＝-(R^TR+c₁KLK+εI)^-1S^Tα，则+1类数据的分类面为：

h(x_i)μ₁＝-h(x_i)(R^TR+c₁KLK+εI)^-1S^Tα＝0；

令则-1类数据的分类面为：

(5)对数据集中的无标签数据进行分类：

当函数G(x)为线性函数时，计算f(x_i)＝argmin_r＝1,2|h(x_i)β_r|

当函数G(x)为非线性函数时，计算f(x_i)＝argmin_r＝1,2|h(x_i)μ_r|