CN112766400A

CN112766400A - 高维数据基于多个数据变换空间的半监督分类集成方法

Info

Publication number: CN112766400A
Application number: CN202110117823.2A
Authority: CN
Inventors: 余姗姗; 余志文; 陈俊龙
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2021-05-07

Abstract

本发明公开了一种高维数据基于多个数据变换空间的半监督分类集成方法，包括步骤：1)输入原始训练数据集；2)产生多个数据变换空间；3)得到半监督分类器集合；4)对测试样本进行分类集成。本发明基于不同的数据变换空间进行训练，提升了集成成员之间的多样性，使用随机子空间解决了高维数据难处理的问题，并充分利用无标签和有标签的信息来优化子空间的分类器，提高半监督分类器的泛化能力。

Description

高维数据基于多个数据变换空间的半监督分类集成方法

技术领域

本发明涉及计算机人工智能的技术领域，尤其是指一种高维数据基于多个数据变换空间的半监督分类集成方法。

背景技术

随着信息技术的快速发展，各个行业收集到的数据越来越多，如何有效地从这些数据中挖掘出有帮助作用的信息，可以极大地促进这些行业的发展。传统的机器学习主要针对监督式学习问题，要求训练样本的标记齐全，处理的数据维度一般不高。然而在现实场景中，有标记的样本极少，传统的机器学习方法难以在这些样本上进行有效地学习，急需能够综合利用大量无标记样本和少量有标记样本的机器学习模式。半监督学习能够综合利用有标记样本和无标记样本来提高学习器的泛化能力，近年来成为机器学习领域的热点方向之一。

尽管半监督学习方法在许多领域已经表现出了卓越的能力，但是，传统的半监督学习方法仍存在一些问题。第一，单个半监督分类器在处理高维数据集时常常十分耗时；第二，单个半监督模型得到的结果常常不够稳定和鲁棒。

因此，在半监督方法中引入集成框架成为了解决以上局限的重要手段之一。在集成学习中，集成成员的精确度和集成成员之间的多样性是影响集成效果的两个重要指标。现有的研究常常忽略了多样性对集成的重要，事实上多样性对集成结果起着重要的影响，常用的一种提升多样性的方法是基于原始数据运用数据变换生成多个不同的训练数据集，然而这种处理可能会破坏了原始的数据结构。

发明内容

本发明的目的在于克服现有技术的缺点与不足，以提高半监督学习的精度为目标，以集成学习为基本手段，对半监督分类集成学习展开深入研究，提出了一种高维数据基于多个数据变换空间的半监督分类集成方法，基于不同的数据变换空间进行训练，提升了集成成员之间的多样性，使用随机子空间解决了高维数据难处理的问题，并充分利用无标签和有标签的信息来优化子空间的分类器，提高半监督分类器的泛化能力。

为实现上述目的，本发明所提供的技术方案为：高维数据基于多个数据变换空间的半监督分类集成方法，包括以下步骤：

1)输入原始训练数据集；

2)产生多个数据变换空间，其过程如下：

2.1)获取输入的原始训练数据集的特征总数D，构造该数据集的特征标识数组[0,…,D]，将特征标识数组随机分成K个不相交的集合，每个集合代表一个特征子集，保证K个特征子集的并集包含了数据集的所有特征；

2.2)将原始训练数据集分别投影至步骤2.1)获得的K个特征子集中，得到K个映射后的训练子空间；

2.3)对每个训练子空间采用半监督特征提取获得当前训练子空间所有特征对应的特征向量；

2.4)按照原始特征空间中特征的排列顺序将提取出的特征向量进行重排列，得到一个数据变换矩阵；

2.5)基于数据变换矩阵将原始训练数据集进行投影，得到基于原始训练数据集的一个数据变换空间；

2.6)对步骤2.1)至2.5)进行B次循环迭代，得到B个数据变换空间；

3)得到半监督分类器集合，其过程如下：

3.1)对步骤2)的数据变换空间中数据随机采取属性列，能够重复采取，重复此步骤直至生成P个随机子空间；

3.2)基于每个随机子空间训练半监督分类器LapRLS，每个数据变换空间将得到P个半监督分类器；

3.3)对每个数据变换空间分别执行步骤3.1)、3.2)，直到结束，得到半监督分类器集合；

4)对测试样本进行分类集成，具体过程如下：

4.1)输入测试样本集T_test；

4.2)取出一个测试样本x_t进行分类；

4.3)将T_i根据投影矩阵投影至B个数据变换空间中；

4.4)在每个数据变换空间中，使用对应的随机子空间的分类器对相应的样本进行分类，每个子空间得到相对应的结果；

4.5)集成每个子空间得到的分类结果，采用多数投票方法将被预测最多的分类结果作为最终分类结果。

在步骤2.3)中，半监督特征提取的方法是：寻找一个投影矩阵使得投影后的数据空间能够尽可能地保存原始数据结构，基于Fisher线性判别分析，计算投影空间的类内散度Q_c和类间散度Q_s；除此之外，考虑到大量无标签样本的信息没有被利用上，引入一个无标签指标，即平滑项Q_u，该项计算了所有互为k近邻的样本在投影空间的距离和，描述了所有样本的平滑程度，如果两个样本点之间在原始特征空间下是相近的，那么在进行映射之后也要使这两个样本之间尽可能近；

类内散度Q_c的公式如下：

式中，l表示训练样本中有标签样本数量，u表示训练样本中无标签样本数量，i,j表示样本在数据集中的序号，即x_i,x_j分别表示第i和第j个样本，A表示目标投影矩阵，A^T表示目标投影矩阵的转置，tr表示矩阵的迹，X表示进行特征提取的数据集，X^T表示进行特征提取的数据集的转置，D^c是类内散度Q_c对应的度矩阵，是一个对角矩阵，其第i行第i列的对角元素

L^c是类内散度Q_c对应的图的拉普拉斯矩阵,矩阵W^c中第i行第j列的元素

的定义如下：

类间散度Q_u的公式如下：

式中，D^u是类间散度Q_u对应的度矩阵，是一个对角矩阵，其第i行第i列的对角元素

L^u是类间散度Q_u对应的图的拉普拉斯矩阵，矩阵W^u中第i行第j列的元素

的定义如下：

平滑项Q_s的公式如下：

式中，D^s是平滑项Q_s对应的度矩阵，是一个对角矩阵，其第i行第i列的对角元素

L^s是平滑项Q_s对应的图的拉普拉斯矩阵,矩阵W^s中第i行第j列的元素

的定义如下：

在目标函数中，需要寻找的投影矩阵能够最小化同类样本的类内距离，最大化不同类样本的类间距离，同时，最小化近邻样本的距离；基于以上目标函数的构造如下：

式中，J(A)表示目标函数，η表示平衡各项重要程度的系数。

在步骤2.5)中，获得数据变换空间的方法是：首先，对于每个训练子空间，将特征提取中获得的所有特征向量都保留，以此有效地保存了特征所有信息；其次，将各个子空间通过半监督特征提取得到的特征向量按原始空间的特征顺序进行排列，得到的投影空间与原始数据的特征顺序是一一对应的；由于每次对特征进行随机分割得到各个子集，随机产生的不同的特征组合提取出的特征向量也是不同的，所以将得到有差异性的多个投影矩阵；将原始数据集T投影到第b个数据变换空间的公式如下：

T_b＝TA_b

式中，原始数据T∈R_m×n，R_m×n表示m行n列的实数矩阵，投影矩阵A_b∈R_n×m，R_n×m表示m行n列的实数矩阵，经过映射得到的数据变换空间T_b∈R_m×n，数据变换空间的维度和原始数据的维度一致。

在步骤3.1)中，构造随机子空间的方法的是：首先，设初始数据集的特征总数为D，令随机子空间的维度为

其次，构造该数据集的特征标识数组[0,…,D]，然后从该数组中随机有放回地挑选d个属性，将挑选出的d个特征组成当前的一个随机子空间，重复以上过程直到P个随机子空间构造完成。

在步骤3.2)中，训练半监督分类器LapRLS的方法是：用训练数据集对半监督分类器LapRLS进行训练，找到预测函数f(x)中最优的参数，LapRLS的目标函数为：

f(x)＝W^Tx+b

其中，l表示训练样本中有标签样本数量，i表示遍历所有样本，x_i表示将第i个样本投影至当前随机子空间后的数据，对于多分类问题，x_i的标签需要用一个向量Z_i表示，而不是一个标量；假设该多分类问题共有c类，有标签样本x_i属于第k类，则x_i的对应的标签向量Z_i中的第k个元素Z_ik＝0，对于无标签样本x_j，x_j的对应的标签向量Z_j中所有的元素都是零，即有Z_jk＝0，1≤k≤C；f(x)中一次项系数W∈R_m×c，R_m×c表示m行c列的实数矩阵，常数项b∈R_c,f(x)∈R_c,R_c表示维度为c的实数向量，ψ(x_i,Z_i,f_i)是损失函数项，其中f_i是f_i(x_i)的简写，f_i(x_i)为分类器对样本x_i的预测值；目标函数中第二项为f_l ²为平滑项，计算了近邻样本的距离和，目的是减小样本间局部流形结构的差异；最后一项

正则项用来预防过拟合的现象，控制模型的复杂度；α和β分别是平衡

和

对模型重要程度的系数；为了最小化目标函数H(W,b)，求解W和b，使用梯度下降法，迭代更新使得目标函数对W,b导数为0。

在步骤4.5)中，集成分类结果的方法是：对一个测试样本，集成在B个数据变换空间的半监督分类器，每个空间的半监督分类器数量为P，最终将集成B×P个分类器的结果，对于一个测试样本x_t的标签y_t能够通过下式获得：

式中，C表示多分类问题的类别总数，argmax是求使得函数取得最大值所对应的变量点，y_ij＝z表示在第i个数据变换空间中第j个半监督分类器对样本的预测类别。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明与传统的单一半监督分类算法相比之下，准确性、稳定性和鲁棒性都有着非常大的优势。

2、与传统的半监督集成分类算法相比，本发明技术有如下创新点：第一，基于半监督学习构造多个数据变换矩阵，将原始训练数据集投影到不同的数据空间上，提升集成多样性；第二，设计基于半监督的变换矩阵构造方法，在保存数据原始结构的同时，产生新的变换数据集；第三，在变换产生的不同的新的训练数据集上构造随机子空间和半监督分类器，运用集成框架获得更加鲁棒稳定的结果。

附图说明

图1为本发明逻辑流程示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例所提供的高维数据基于多个数据变换空间的半监督分类集成方法，包括以下步骤：

步骤1，输入训练数据集。

输入一个待分类处理的高维数据集T，行向量对应样本维，列向量对应属性维，对训练数据进行分割，有标签样本和无标签样本各占总训练样本数的10％和90％。

步骤2，产生多个数据变换空间。

首先，将原始特征空间随机分成K个不相交的特征子集；

其次，在每个特征子集中，为寻找一个投影矩阵使得投影后的数据空间能够尽可能地保存原始数据结构，需要计算三个指标：类内散度Q_c,类间散度Q_u和平滑项T_i。

类内散度Q_c的公式如下：

的定义如下：

类间散度Q_u的公式如下：

的定义如下：

平滑项Q_s的公式如下

的定义如下：

在目标函数中，我们需要寻找的投影矩阵能够最小化同类样本的类内距离，最大化不同类样本的类间距离，同时，最小化近邻样本的距离。基于以上目标函数的构造如下：

式中，J(A)表示目标函数，η表示平衡各项重要程度的系数。

接着，对于每个训练子空间，不同于之前的特征降维方法会丢弃掉那些低特征值对应的特征向量，在我们的方法中将特征提取中获得的所有特征向量都保留，以此有效地保存了特征所有信息；

最后，我们将各个子空间通过半监督特征提取得到的特征向量按原始空间的特征顺序进行排列，得到的投影空间与原始数据的特征顺序是一一对应的。由于每次对特征进行随机分割得到各个子集，随机产生的不同的特征组合提取出的特征向量也是不同的，所以我们将得到有差异性的多个投影矩阵。将原始数据集T投影到第b个数据变换空间的公式如下:

T_b＝TA_b

步骤3，训练半监督分类分类器。

首先，设初始数据集的特征总数为D，令随机子空间的维度为

其次，构造该数据集的特征标识数组[0,…,D]，然后从该数组中随机有放回地挑选d个属性，将挑选出的d个特征组成当前的一个随机子空间，重复以上步骤直到P个随机子空间构造完成。

接着，训练半监督分类器LapRLS，用训练数据集对半监督分类器LapRLS进行训练，找到预测函数f(x)中最优的参数，LapRLS的目标函数为：

f(x)＝W^Tx+b

和

步骤4，得到分类结果。

首先，输入测试样本集T_test；

接着，取出一个测试样本x_t进行分类；

其次，将T_i根据投影矩阵投影至B个数据变换空间中，并在每个数据变换空间中，使用对应的随机子空间的分类器对相对应的样本进行分类，每个子空间得到相对应的结果；

最后，集成每个子空间得到的分类结果，采用多数投票方法将被预测最多的分类结果作为最终分类结果，我们集成在B个变换空间的分类器，每个空间的半监督分类器数量为P，最终我们将集成B×P个分类器的结果，对于一个测试样本x_t的标签y_t可以通过下式获得：

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.高维数据基于多个数据变换空间的半监督分类集成方法，其特征在于，包括以下步骤：

1)输入原始训练数据集；

2)产生多个数据变换空间，其过程如下：

3)得到半监督分类器集合，其过程如下：

4)对测试样本进行分类集成，具体过程如下：

4.1)输入测试样本集T_test；

4.2)取出一个测试样本x_t进行分类；

4.3)将T_i根据投影矩阵投影至B个数据变换空间中；

2.根据权利要求1所述的高维数据基于多个数据变换空间的半监督分类集成方法，其特征在于，在步骤2.3)中，半监督特征提取的方法是：寻找一个投影矩阵使得投影后的数据空间能够尽可能地保存原始数据结构，基于Fisher线性判别分析，计算投影空间的类内散度Q_c和类间散度Q_s；除此之外，考虑到大量无标签样本的信息没有被利用上，引入一个无标签指标，即平滑项Q_u，该项计算了所有互为k近邻的样本在投影空间的距离和，描述了所有样本的平滑程度，如果两个样本点之间在原始特征空间下是相近的，那么在进行映射之后也要使这两个样本之间尽可能近；

类内散度Q_c的公式如下：

的定义如下：

类间散度Q_u的公式如下：

的定义如下：

平滑项Q_s的公式如下：

L^s＝D^s-W^s，L^s是平滑项Q_s对应的图的拉普拉斯矩阵,矩阵W^s中第i行第j列的元素

的定义如下：

式中，J(A)表示目标函数，η表示平衡各项重要程度的系数。

3.根据权利要求1所述的高维数据基于多个数据变换空间的半监督分类集成方法，其特征在于，在步骤2.5)中，获得数据变换空间的方法是：首先，对于每个训练子空间，将特征提取中获得的所有特征向量都保留，以此有效地保存了特征所有信息；其次，将各个子空间通过半监督特征提取得到的特征向量按原始空间的特征顺序进行排列，得到的投影空间与原始数据的特征顺序是一一对应的；由于每次对特征进行随机分割得到各个子集，随机产生的不同的特征组合提取出的特征向量也是不同的，所以将得到有差异性的多个投影矩阵；将原始数据集T投影到第b个数据变换空间的公式如下：

T_b＝TA_b

4.根据权利要求1所述的高维数据基于多个数据变换空间的半监督分类集成方法，其特征在于，在步骤3.1)中，构造随机子空间的方法的是：首先，设初始数据集的特征总数为D，令随机子空间的维度为

5.根据权利要求1所述的高维数据基于多个数据变换空间的半监督分类集成方法，其特征在于，在步骤3.2)中，训练半监督分类器LapRLS的方法是：用训练数据集对半监督分类器LapRLS进行训练，找到预测函数f(x)中最优的参数，LapRLS的目标函数为：

f(x)＝W^Tx+b

正则项用来预防过拟合的现象，控制模型的复杂度；α和β分别是平衡f_l ²和

6.根据权利要求1所述的高维数据基于多个数据变换空间的半监督分类集成方法，其特征在于，在步骤4.5)中，集成分类结果的方法是：对一个测试样本，集成在B个数据变换空间的半监督分类器，每个空间的半监督分类器数量为P，最终将集成B×P个分类器的结果，对于一个测试样本x_t的标签y_t能够通过下式获得：