CN112766400A - 高维数据基于多个数据变换空间的半监督分类集成方法 - Google Patents

高维数据基于多个数据变换空间的半监督分类集成方法 Download PDF

Info

Publication number
CN112766400A
CN112766400A CN202110117823.2A CN202110117823A CN112766400A CN 112766400 A CN112766400 A CN 112766400A CN 202110117823 A CN202110117823 A CN 202110117823A CN 112766400 A CN112766400 A CN 112766400A
Authority
CN
China
Prior art keywords
semi
matrix
data
samples
supervised
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110117823.2A
Other languages
English (en)
Inventor
余姗姗
余志文
陈俊龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202110117823.2A priority Critical patent/CN112766400A/zh
Publication of CN112766400A publication Critical patent/CN112766400A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明公开了一种高维数据基于多个数据变换空间的半监督分类集成方法,包括步骤:1)输入原始训练数据集;2)产生多个数据变换空间;3)得到半监督分类器集合;4)对测试样本进行分类集成。本发明基于不同的数据变换空间进行训练,提升了集成成员之间的多样性,使用随机子空间解决了高维数据难处理的问题,并充分利用无标签和有标签的信息来优化子空间的分类器,提高半监督分类器的泛化能力。

Description

高维数据基于多个数据变换空间的半监督分类集成方法
技术领域
本发明涉及计算机人工智能的技术领域,尤其是指一种高维数据基于多个数据变换空间的半监督分类集成方法。
背景技术
随着信息技术的快速发展,各个行业收集到的数据越来越多,如何有效地从这些数据中挖掘出有帮助作用的信息,可以极大地促进这些行业的发展。传统的机器学习主要针对监督式学习问题,要求训练样本的标记齐全,处理的数据维度一般不高。然而在现实场景中,有标记的样本极少,传统的机器学习方法难以在这些样本上进行有效地学习,急需能够综合利用大量无标记样本和少量有标记样本的机器学习模式。半监督学习能够综合利用有标记样本和无标记样本来提高学习器的泛化能力,近年来成为机器学习领域的热点方向之一。
尽管半监督学习方法在许多领域已经表现出了卓越的能力,但是,传统的半监督学习方法仍存在一些问题。第一,单个半监督分类器在处理高维数据集时常常十分耗时;第二,单个半监督模型得到的结果常常不够稳定和鲁棒。
因此,在半监督方法中引入集成框架成为了解决以上局限的重要手段之一。在集成学习中,集成成员的精确度和集成成员之间的多样性是影响集成效果的两个重要指标。现有的研究常常忽略了多样性对集成的重要,事实上多样性对集成结果起着重要的影响,常用的一种提升多样性的方法是基于原始数据运用数据变换生成多个不同的训练数据集,然而这种处理可能会破坏了原始的数据结构。
发明内容
本发明的目的在于克服现有技术的缺点与不足,以提高半监督学习的精度为目标,以集成学习为基本手段,对半监督分类集成学习展开深入研究,提出了一种高维数据基于多个数据变换空间的半监督分类集成方法,基于不同的数据变换空间进行训练,提升了集成成员之间的多样性,使用随机子空间解决了高维数据难处理的问题,并充分利用无标签和有标签的信息来优化子空间的分类器,提高半监督分类器的泛化能力。
为实现上述目的,本发明所提供的技术方案为:高维数据基于多个数据变换空间的半监督分类集成方法,包括以下步骤:
1)输入原始训练数据集;
2)产生多个数据变换空间,其过程如下:
2.1)获取输入的原始训练数据集的特征总数D,构造该数据集的特征标识数组[0,…,D],将特征标识数组随机分成K个不相交的集合,每个集合代表一个特征子集,保证K个特征子集的并集包含了数据集的所有特征;
2.2)将原始训练数据集分别投影至步骤2.1)获得的K个特征子集中,得到K个映射后的训练子空间;
2.3)对每个训练子空间采用半监督特征提取获得当前训练子空间所有特征对应的特征向量;
2.4)按照原始特征空间中特征的排列顺序将提取出的特征向量进行重排列,得到一个数据变换矩阵;
2.5)基于数据变换矩阵将原始训练数据集进行投影,得到基于原始训练数据集的一个数据变换空间;
2.6)对步骤2.1)至2.5)进行B次循环迭代,得到B个数据变换空间;
3)得到半监督分类器集合,其过程如下:
3.1)对步骤2)的数据变换空间中数据随机采取属性列,能够重复采取,重复此步骤直至生成P个随机子空间;
3.2)基于每个随机子空间训练半监督分类器LapRLS,每个数据变换空间将得到P个半监督分类器;
3.3)对每个数据变换空间分别执行步骤3.1)、3.2),直到结束,得到半监督分类器集合;
4)对测试样本进行分类集成,具体过程如下:
4.1)输入测试样本集T_test;
4.2)取出一个测试样本xt进行分类;
4.3)将Ti根据投影矩阵投影至B个数据变换空间中;
4.4)在每个数据变换空间中,使用对应的随机子空间的分类器对相应的样本进行分类,每个子空间得到相对应的结果;
4.5)集成每个子空间得到的分类结果,采用多数投票方法将被预测最多的分类结果作为最终分类结果。
在步骤2.3)中,半监督特征提取的方法是:寻找一个投影矩阵使得投影后的数据空间能够尽可能地保存原始数据结构,基于Fisher线性判别分析,计算投影空间的类内散度Qc和类间散度Qs;除此之外,考虑到大量无标签样本的信息没有被利用上,引入一个无标签指标,即平滑项Qu,该项计算了所有互为k近邻的样本在投影空间的距离和,描述了所有样本的平滑程度,如果两个样本点之间在原始特征空间下是相近的,那么在进行映射之后也要使这两个样本之间尽可能近;
类内散度Qc的公式如下:
Figure BDA0002920989680000031
式中,l表示训练样本中有标签样本数量,u表示训练样本中无标签样本数量,i,j表示样本在数据集中的序号,即xi,xj分别表示第i和第j个样本,A表示目标投影矩阵,AT表示目标投影矩阵的转置,tr表示矩阵的迹,X表示进行特征提取的数据集,XT表示进行特征提取的数据集的转置,Dc是类内散度Qc对应的度矩阵,是一个对角矩阵,其第i行第i列的对角元素
Figure BDA0002920989680000041
Lc是类内散度Qc对应的图的拉普拉斯矩阵,矩阵Wc中第i行第j列的元素
Figure BDA0002920989680000042
的定义如下:
Figure BDA0002920989680000043
类间散度Qu的公式如下:
Figure BDA0002920989680000044
式中,Du是类间散度Qu对应的度矩阵,是一个对角矩阵,其第i行第i列的对角元素
Figure BDA0002920989680000045
Lu是类间散度Qu对应的图的拉普拉斯矩阵,矩阵Wu中第i行第j列的元素
Figure BDA0002920989680000046
的定义如下:
Figure BDA0002920989680000047
平滑项Qs的公式如下:
Figure BDA0002920989680000048
式中,Ds是平滑项Qs对应的度矩阵,是一个对角矩阵,其第i行第i列的对角元素
Figure BDA0002920989680000049
Ls是平滑项Qs对应的图的拉普拉斯矩阵,矩阵Ws中第i行第j列的元素
Figure BDA00029209896800000410
的定义如下:
Figure BDA0002920989680000051
在目标函数中,需要寻找的投影矩阵能够最小化同类样本的类内距离,最大化不同类样本的类间距离,同时,最小化近邻样本的距离;基于以上目标函数的构造如下:
Figure BDA0002920989680000052
式中,J(A)表示目标函数,η表示平衡各项重要程度的系数。
在步骤2.5)中,获得数据变换空间的方法是:首先,对于每个训练子空间,将特征提取中获得的所有特征向量都保留,以此有效地保存了特征所有信息;其次,将各个子空间通过半监督特征提取得到的特征向量按原始空间的特征顺序进行排列,得到的投影空间与原始数据的特征顺序是一一对应的;由于每次对特征进行随机分割得到各个子集,随机产生的不同的特征组合提取出的特征向量也是不同的,所以将得到有差异性的多个投影矩阵;将原始数据集T投影到第b个数据变换空间的公式如下:
Tb=TAb
式中,原始数据T∈Rm×n,Rm×n表示m行n列的实数矩阵,投影矩阵Ab∈Rn×m,Rn×m表示m行n列的实数矩阵,经过映射得到的数据变换空间Tb∈Rm×n,数据变换空间的维度和原始数据的维度一致。
在步骤3.1)中,构造随机子空间的方法的是:首先,设初始数据集的特征总数为D,令随机子空间的维度为
Figure BDA0002920989680000053
其次,构造该数据集的特征标识数组[0,…,D],然后从该数组中随机有放回地挑选d个属性,将挑选出的d个特征组成当前的一个随机子空间,重复以上过程直到P个随机子空间构造完成。
在步骤3.2)中,训练半监督分类器LapRLS的方法是:用训练数据集对半监督分类器LapRLS进行训练,找到预测函数f(x)中最优的参数,LapRLS的目标函数为:
f(x)=WTx+b
Figure BDA0002920989680000061
其中,l表示训练样本中有标签样本数量,i表示遍历所有样本,xi表示将第i个样本投影至当前随机子空间后的数据,对于多分类问题,xi的标签需要用一个向量Zi表示,而不是一个标量;假设该多分类问题共有c类,有标签样本xi属于第k类,则xi的对应的标签向量Zi中的第k个元素Zik=0,对于无标签样本xj,xj的对应的标签向量Zj中所有的元素都是零,即有Zjk=0,1≤k≤C;f(x)中一次项系数W∈Rm×c,Rm×c表示m行c列的实数矩阵,常数项b∈Rc,f(x)∈Rc,Rc表示维度为c的实数向量,ψ(xi,Zi,fi)是损失函数项,其中fi是fi(xi)的简写,fi(xi)为分类器对样本xi的预测值;目标函数中第二项为fl 2为平滑项,计算了近邻样本的距离和,目的是减小样本间局部流形结构的差异;最后一项
Figure BDA0002920989680000062
正则项用来预防过拟合的现象,控制模型的复杂度;α和β分别是平衡
Figure BDA0002920989680000063
Figure BDA0002920989680000064
对模型重要程度的系数;为了最小化目标函数H(W,b),求解W和b,使用梯度下降法,迭代更新使得目标函数对W,b导数为0。
在步骤4.5)中,集成分类结果的方法是:对一个测试样本,集成在B个数据变换空间的半监督分类器,每个空间的半监督分类器数量为P,最终将集成B×P个分类器的结果,对于一个测试样本xt的标签yt能够通过下式获得:
Figure BDA0002920989680000065
式中,C表示多分类问题的类别总数,argmax是求使得函数取得最大值所对应的变量点,yij=z表示在第i个数据变换空间中第j个半监督分类器对样本的预测类别。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明与传统的单一半监督分类算法相比之下,准确性、稳定性和鲁棒性都有着非常大的优势。
2、与传统的半监督集成分类算法相比,本发明技术有如下创新点:第一,基于半监督学习构造多个数据变换矩阵,将原始训练数据集投影到不同的数据空间上,提升集成多样性;第二,设计基于半监督的变换矩阵构造方法,在保存数据原始结构的同时,产生新的变换数据集;第三,在变换产生的不同的新的训练数据集上构造随机子空间和半监督分类器,运用集成框架获得更加鲁棒稳定的结果。
附图说明
图1为本发明逻辑流程示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例所提供的高维数据基于多个数据变换空间的半监督分类集成方法,包括以下步骤:
步骤1,输入训练数据集。
输入一个待分类处理的高维数据集T,行向量对应样本维,列向量对应属性维,对训练数据进行分割,有标签样本和无标签样本各占总训练样本数的10%和90%。
步骤2,产生多个数据变换空间。
首先,将原始特征空间随机分成K个不相交的特征子集;
其次,在每个特征子集中,为寻找一个投影矩阵使得投影后的数据空间能够尽可能地保存原始数据结构,需要计算三个指标:类内散度Qc,类间散度Qu和平滑项Ti
类内散度Qc的公式如下:
Figure BDA0002920989680000081
式中,l表示训练样本中有标签样本数量,u表示训练样本中无标签样本数量,i,j表示样本在数据集中的序号,即xi,xj分别表示第i和第j个样本,A表示目标投影矩阵,AT表示目标投影矩阵的转置,tr表示矩阵的迹,X表示进行特征提取的数据集,XT表示进行特征提取的数据集的转置,Dc是类内散度Qc对应的度矩阵,是一个对角矩阵,其第i行第i列的对角元素
Figure BDA0002920989680000082
Lc是类内散度Qc对应的图的拉普拉斯矩阵,矩阵Wc中第i行第j列的元素
Figure BDA0002920989680000088
的定义如下:
Figure BDA0002920989680000083
类间散度Qu的公式如下:
Figure BDA0002920989680000084
式中,Du是类间散度Qu对应的度矩阵,是一个对角矩阵,其第i行第i列的对角元素
Figure BDA0002920989680000085
Lu是类间散度Qu对应的图的拉普拉斯矩阵,矩阵Wu中第i行第j列的元素
Figure BDA0002920989680000086
的定义如下:
Figure BDA0002920989680000087
平滑项Qs的公式如下
Figure BDA0002920989680000091
式中,Ds是平滑项Qs对应的度矩阵,是一个对角矩阵,其第i行第i列的对角元素
Figure BDA0002920989680000092
Ls是平滑项Qs对应的图的拉普拉斯矩阵,矩阵Ws中第i行第j列的元素
Figure BDA0002920989680000093
的定义如下:
Figure BDA0002920989680000094
在目标函数中,我们需要寻找的投影矩阵能够最小化同类样本的类内距离,最大化不同类样本的类间距离,同时,最小化近邻样本的距离。基于以上目标函数的构造如下:
Figure BDA0002920989680000095
式中,J(A)表示目标函数,η表示平衡各项重要程度的系数。
接着,对于每个训练子空间,不同于之前的特征降维方法会丢弃掉那些低特征值对应的特征向量,在我们的方法中将特征提取中获得的所有特征向量都保留,以此有效地保存了特征所有信息;
最后,我们将各个子空间通过半监督特征提取得到的特征向量按原始空间的特征顺序进行排列,得到的投影空间与原始数据的特征顺序是一一对应的。由于每次对特征进行随机分割得到各个子集,随机产生的不同的特征组合提取出的特征向量也是不同的,所以我们将得到有差异性的多个投影矩阵。将原始数据集T投影到第b个数据变换空间的公式如下:
Tb=TAb
式中,原始数据T∈Rm×n,Rm×n表示m行n列的实数矩阵,投影矩阵Ab∈Rn×m,Rn×m表示m行n列的实数矩阵,经过映射得到的数据变换空间Tb∈Rm×n,数据变换空间的维度和原始数据的维度一致。
步骤3,训练半监督分类分类器。
首先,设初始数据集的特征总数为D,令随机子空间的维度为
Figure BDA0002920989680000105
其次,构造该数据集的特征标识数组[0,…,D],然后从该数组中随机有放回地挑选d个属性,将挑选出的d个特征组成当前的一个随机子空间,重复以上步骤直到P个随机子空间构造完成。
接着,训练半监督分类器LapRLS,用训练数据集对半监督分类器LapRLS进行训练,找到预测函数f(x)中最优的参数,LapRLS的目标函数为:
f(x)=WTx+b
Figure BDA0002920989680000101
其中,l表示训练样本中有标签样本数量,i表示遍历所有样本,xi表示将第i个样本投影至当前随机子空间后的数据,对于多分类问题,xi的标签需要用一个向量Zi表示,而不是一个标量;假设该多分类问题共有c类,有标签样本xi属于第k类,则xi的对应的标签向量Zi中的第k个元素Zik=0,对于无标签样本xj,xj的对应的标签向量Zj中所有的元素都是零,即有Zjk=0,1≤k≤C;f(x)中一次项系数W∈Rm×c,Rm×c表示m行c列的实数矩阵,常数项b∈Rc,f(x)∈Rc,Rc表示维度为c的实数向量,ψ(xi,Zi,fi)是损失函数项,其中fi是fi(xi)的简写,fi(xi)为分类器对样本xi的预测值;目标函数中第二项为fl 2为平滑项,计算了近邻样本的距离和,目的是减小样本间局部流形结构的差异;最后一项
Figure BDA0002920989680000102
正则项用来预防过拟合的现象,控制模型的复杂度;α和β分别是平衡
Figure BDA0002920989680000103
Figure BDA0002920989680000104
对模型重要程度的系数;为了最小化目标函数H(W,b),求解W和b,使用梯度下降法,迭代更新使得目标函数对W,b导数为0。
步骤4,得到分类结果。
首先,输入测试样本集T_test;
接着,取出一个测试样本xt进行分类;
其次,将Ti根据投影矩阵投影至B个数据变换空间中,并在每个数据变换空间中,使用对应的随机子空间的分类器对相对应的样本进行分类,每个子空间得到相对应的结果;
最后,集成每个子空间得到的分类结果,采用多数投票方法将被预测最多的分类结果作为最终分类结果,我们集成在B个变换空间的分类器,每个空间的半监督分类器数量为P,最终我们将集成B×P个分类器的结果,对于一个测试样本xt的标签yt可以通过下式获得:
Figure BDA0002920989680000111
式中,C表示多分类问题的类别总数,argmax是求使得函数取得最大值所对应的变量点,yij=z表示在第i个数据变换空间中第j个半监督分类器对样本的预测类别。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.高维数据基于多个数据变换空间的半监督分类集成方法,其特征在于,包括以下步骤:
1)输入原始训练数据集;
2)产生多个数据变换空间,其过程如下:
2.1)获取输入的原始训练数据集的特征总数D,构造该数据集的特征标识数组[0,…,D],将特征标识数组随机分成K个不相交的集合,每个集合代表一个特征子集,保证K个特征子集的并集包含了数据集的所有特征;
2.2)将原始训练数据集分别投影至步骤2.1)获得的K个特征子集中,得到K个映射后的训练子空间;
2.3)对每个训练子空间采用半监督特征提取获得当前训练子空间所有特征对应的特征向量;
2.4)按照原始特征空间中特征的排列顺序将提取出的特征向量进行重排列,得到一个数据变换矩阵;
2.5)基于数据变换矩阵将原始训练数据集进行投影,得到基于原始训练数据集的一个数据变换空间;
2.6)对步骤2.1)至2.5)进行B次循环迭代,得到B个数据变换空间;
3)得到半监督分类器集合,其过程如下:
3.1)对步骤2)的数据变换空间中数据随机采取属性列,能够重复采取,重复此步骤直至生成P个随机子空间;
3.2)基于每个随机子空间训练半监督分类器LapRLS,每个数据变换空间将得到P个半监督分类器;
3.3)对每个数据变换空间分别执行步骤3.1)、3.2),直到结束,得到半监督分类器集合;
4)对测试样本进行分类集成,具体过程如下:
4.1)输入测试样本集T_test;
4.2)取出一个测试样本xt进行分类;
4.3)将Ti根据投影矩阵投影至B个数据变换空间中;
4.4)在每个数据变换空间中,使用对应的随机子空间的分类器对相应的样本进行分类,每个子空间得到相对应的结果;
4.5)集成每个子空间得到的分类结果,采用多数投票方法将被预测最多的分类结果作为最终分类结果。
2.根据权利要求1所述的高维数据基于多个数据变换空间的半监督分类集成方法,其特征在于,在步骤2.3)中,半监督特征提取的方法是:寻找一个投影矩阵使得投影后的数据空间能够尽可能地保存原始数据结构,基于Fisher线性判别分析,计算投影空间的类内散度Qc和类间散度Qs;除此之外,考虑到大量无标签样本的信息没有被利用上,引入一个无标签指标,即平滑项Qu,该项计算了所有互为k近邻的样本在投影空间的距离和,描述了所有样本的平滑程度,如果两个样本点之间在原始特征空间下是相近的,那么在进行映射之后也要使这两个样本之间尽可能近;
类内散度Qc的公式如下:
Figure FDA0002920989670000021
式中,l表示训练样本中有标签样本数量,u表示训练样本中无标签样本数量,i,j表示样本在数据集中的序号,即xi,xj分别表示第i和第j个样本,A表示目标投影矩阵,AT表示目标投影矩阵的转置,tr表示矩阵的迹,X表示进行特征提取的数据集,XT表示进行特征提取的数据集的转置,Dc是类内散度Qc对应的度矩阵,是一个对角矩阵,其第i行第i列的对角元素
Figure FDA0002920989670000031
Lc是类内散度Qc对应的图的拉普拉斯矩阵,矩阵Wc中第i行第j列的元素
Figure FDA0002920989670000032
的定义如下:
Figure FDA0002920989670000033
类间散度Qu的公式如下:
Figure FDA0002920989670000034
式中,Du是类间散度Qu对应的度矩阵,是一个对角矩阵,其第i行第i列的对角元素
Figure FDA0002920989670000035
Lu是类间散度Qu对应的图的拉普拉斯矩阵,矩阵Wu中第i行第j列的元素
Figure FDA0002920989670000036
的定义如下:
Figure FDA0002920989670000037
平滑项Qs的公式如下:
Figure FDA0002920989670000038
式中,Ds是平滑项Qs对应的度矩阵,是一个对角矩阵,其第i行第i列的对角元素
Figure FDA0002920989670000039
Ls=Ds-Ws,Ls是平滑项Qs对应的图的拉普拉斯矩阵,矩阵Ws中第i行第j列的元素
Figure FDA00029209896700000310
的定义如下:
Figure FDA00029209896700000311
在目标函数中,需要寻找的投影矩阵能够最小化同类样本的类内距离,最大化不同类样本的类间距离,同时,最小化近邻样本的距离;基于以上目标函数的构造如下:
Figure FDA0002920989670000041
式中,J(A)表示目标函数,η表示平衡各项重要程度的系数。
3.根据权利要求1所述的高维数据基于多个数据变换空间的半监督分类集成方法,其特征在于,在步骤2.5)中,获得数据变换空间的方法是:首先,对于每个训练子空间,将特征提取中获得的所有特征向量都保留,以此有效地保存了特征所有信息;其次,将各个子空间通过半监督特征提取得到的特征向量按原始空间的特征顺序进行排列,得到的投影空间与原始数据的特征顺序是一一对应的;由于每次对特征进行随机分割得到各个子集,随机产生的不同的特征组合提取出的特征向量也是不同的,所以将得到有差异性的多个投影矩阵;将原始数据集T投影到第b个数据变换空间的公式如下:
Tb=TAb
式中,原始数据T∈Rm×n,Rm×n表示m行n列的实数矩阵,投影矩阵Ab∈Rn×m,Rn×m表示m行n列的实数矩阵,经过映射得到的数据变换空间Tb∈Rm×n,数据变换空间的维度和原始数据的维度一致。
4.根据权利要求1所述的高维数据基于多个数据变换空间的半监督分类集成方法,其特征在于,在步骤3.1)中,构造随机子空间的方法的是:首先,设初始数据集的特征总数为D,令随机子空间的维度为
Figure FDA0002920989670000042
其次,构造该数据集的特征标识数组[0,…,D],然后从该数组中随机有放回地挑选d个属性,将挑选出的d个特征组成当前的一个随机子空间,重复以上过程直到P个随机子空间构造完成。
5.根据权利要求1所述的高维数据基于多个数据变换空间的半监督分类集成方法,其特征在于,在步骤3.2)中,训练半监督分类器LapRLS的方法是:用训练数据集对半监督分类器LapRLS进行训练,找到预测函数f(x)中最优的参数,LapRLS的目标函数为:
f(x)=WTx+b
Figure FDA0002920989670000051
其中,l表示训练样本中有标签样本数量,i表示遍历所有样本,xi表示将第i个样本投影至当前随机子空间后的数据,对于多分类问题,xi的标签需要用一个向量Zi表示,而不是一个标量;假设该多分类问题共有C类,有标签样本xi属于第k类,则xi的对应的标签向量Zi中的第k个元素Zik=0,对于无标签样本xj,xj的对应的标签向量Zj中所有的元素都是零,即有Zjk=0,1≤k≤C;f(x)中一次项系数W∈Rm×c,Rm×c表示m行c列的实数矩阵,常数项b∈Rc,f(x)∈Rc,Rc表示维度为c的实数向量,ψ(xi,Zi,fi)是损失函数项,其中fi是fi(xi)的简写,fi(xi)为分类器对样本xi的预测值;目标函数中第二项为fl 2为平滑项,计算了近邻样本的距离和,目的是减小样本间局部流形结构的差异;最后一项
Figure FDA0002920989670000052
正则项用来预防过拟合的现象,控制模型的复杂度;α和β分别是平衡fl 2
Figure FDA0002920989670000053
对模型重要程度的系数;为了最小化目标函数H(W,b),求解W和b,使用梯度下降法,迭代更新使得目标函数对W,b导数为0。
6.根据权利要求1所述的高维数据基于多个数据变换空间的半监督分类集成方法,其特征在于,在步骤4.5)中,集成分类结果的方法是:对一个测试样本,集成在B个数据变换空间的半监督分类器,每个空间的半监督分类器数量为P,最终将集成B×P个分类器的结果,对于一个测试样本xt的标签yt能够通过下式获得:
Figure FDA0002920989670000061
式中,C表示多分类问题的类别总数,argmax是求使得函数取得最大值所对应的变量点,yij=z表示在第i个数据变换空间中第j个半监督分类器对样本的预测类别。
CN202110117823.2A 2021-01-28 2021-01-28 高维数据基于多个数据变换空间的半监督分类集成方法 Pending CN112766400A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110117823.2A CN112766400A (zh) 2021-01-28 2021-01-28 高维数据基于多个数据变换空间的半监督分类集成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110117823.2A CN112766400A (zh) 2021-01-28 2021-01-28 高维数据基于多个数据变换空间的半监督分类集成方法

Publications (1)

Publication Number Publication Date
CN112766400A true CN112766400A (zh) 2021-05-07

Family

ID=75706411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110117823.2A Pending CN112766400A (zh) 2021-01-28 2021-01-28 高维数据基于多个数据变换空间的半监督分类集成方法

Country Status (1)

Country Link
CN (1) CN112766400A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408606A (zh) * 2021-06-16 2021-09-17 中国石油大学(华东) 基于图协同训练的半监督小样本图像分类方法
CN114841214A (zh) * 2022-05-18 2022-08-02 杭州电子科技大学 基于半监督判别投影的脉搏数据分类方法及装置
CN116226744A (zh) * 2023-03-16 2023-06-06 中金同盛数字科技有限公司 一种用户分类的方法、装置及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408606A (zh) * 2021-06-16 2021-09-17 中国石油大学(华东) 基于图协同训练的半监督小样本图像分类方法
CN114841214A (zh) * 2022-05-18 2022-08-02 杭州电子科技大学 基于半监督判别投影的脉搏数据分类方法及装置
CN116226744A (zh) * 2023-03-16 2023-06-06 中金同盛数字科技有限公司 一种用户分类的方法、装置及设备

Similar Documents

Publication Publication Date Title
Sudholt et al. Phocnet: A deep convolutional neural network for word spotting in handwritten documents
Roy et al. Metric-learning-based deep hashing network for content-based retrieval of remote sensing images
Liao et al. Learning deep parsimonious representations
Vo et al. Toward unsupervised, multi-object discovery in large-scale image collections
Minaei-Bidgoli et al. Ensembles of partitions via data resampling
Patra et al. A spectral-spatial multicriteria active learning technique for hyperspectral image classification
CN112766400A (zh) 高维数据基于多个数据变换空间的半监督分类集成方法
CN109977994B (zh) 一种基于多示例主动学习的代表性图像选取方法
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
SG171858A1 (en) A method for updating a 2 dimensional linear discriminant analysis (2dlda) classifier engine
Sicre et al. Unsupervised part learning for visual recognition
Bawa et al. Emotional sentiment analysis for a group of people based on transfer learning with a multi-modal system
Babenko et al. Similarity metrics for categorization: from monolithic to category specific
CN107220656A (zh) 一种基于自适应特征降维的多标记数据分类方法
CN111027636B (zh) 基于多标签学习的无监督特征选择方法及系统
Abir et al. Bangla handwritten character recognition with multilayer convolutional neural network
Weber et al. Automated labeling of electron microscopy images using deep learning
White et al. Digital fingerprinting of microstructures
Ge et al. A semisupervised framework for automatic image annotation based on graph embedding and multiview nonnegative matrix factorization
CN111488923A (zh) 增强的锚点图半监督分类方法
Liu et al. Automatic labeling of large amounts of handwritten characters with gate-guided dynamic deep learning
Salman et al. Gene expression analysis via spatial clustering and evaluation indexing
Plasencia-Calana et al. Towards scalable prototype selection by genetic algorithms with fast criteria
Chuntama et al. Classification of astronomical objects in the galaxy m81 using machine learning techniques ii. an application of clustering in data pre-processing
Huang et al. Multi-view representative and informative induced active learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210507

RJ01 Rejection of invention patent application after publication