CN106778832B - 基于多目标优化的高维数据半监督集成分类方法 - Google Patents

基于多目标优化的高维数据半监督集成分类方法 Download PDF

Info

Publication number
CN106778832B
CN106778832B CN201611064898.4A CN201611064898A CN106778832B CN 106778832 B CN106778832 B CN 106778832B CN 201611064898 A CN201611064898 A CN 201611064898A CN 106778832 B CN106778832 B CN 106778832B
Authority
CN
China
Prior art keywords
subspace
sample
feature
sub
spaces
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611064898.4A
Other languages
English (en)
Other versions
CN106778832A (zh
Inventor
余志文
张乙东
陈洁彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201611064898.4A priority Critical patent/CN106778832B/zh
Publication of CN106778832A publication Critical patent/CN106778832A/zh
Application granted granted Critical
Publication of CN106778832B publication Critical patent/CN106778832B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多目标优化的高维数据半监督集成分类方法,涉及人工智能集成学习领域,主要解决现有技术中对子空间优化和选择以及半监督信息利用的问题。该高维数据半监督集成分类方法包括下列步骤:S1、输入训练数据集;S2、对输入的上述训练数据集进行数据归一化;S3、产生随机子空间集合;S4、多目标优化选取子空间集合;S5、寻找特征子空间中最优半监督分类器;S6、对测试样本进行分类;S7、计算分类准确率。本发明利用随机子空间解决了高维数据难处理的问题;利用多目标优化的解决方法,充分优化子空间的选择来提高子空间的鲁棒性;并充分利用无标签和有标签的信息来优化子空间的分类器,提高分类器的泛化能力。

Description

基于多目标优化的高维数据半监督集成分类方法
技术领域
本发明涉及涉及计算机人工智能领域,具体涉及一种基于多目标优化的高维数据半监督集成分类方法。
背景技术
有标签的数据的获得因为需要耗费大量的人力和物力,但是无标签的数据往往比较容易被收集到。举个例子,在文本挖掘中存在大量的无标记的网页信息,如果通过人工来一个个对网页信息作出标记则花费的时间和其他支出是难以想象的。由于有监督的学习若在在训练样本数量不足的时候训练出的学习模型分类效果会比较差,而为了解决这种问题,越来越多的研究者将其注意力放到了怎么利用无标签和有标签数据的半监督分类领域中,比如在视频标注、图像标注、自然语言处理、蛋白质功能预测、文本分类、基因信息处理等等的应用。
但是单一的半监督分类方法却普遍存在对参数值敏感以及由于受到无标签数据限制而使得学习器功能泛化能力不够好这两个问题。近年来,为了解决单一半监督分类方法带来的问题,Yu等人提出了基于随机子空间下利用属性采样来学习高维数据,并且在图像处理方面得到了比较好的应用。Li等人提出了基于协同训练理论以及随机森林算法的协同森林算法。
目前的半监督分类集成也有其局限性。
第一,大多数分类集成框架并不能很好的处理高位数据集。第二,传统的半监督分类集成都是考虑如何将无标签数据进行标签处理并以此只是利用置信度较高的数据来进行训练。第三,一些使用随机子空间的方法仅仅只是将属性进行简单的采样,并没有对每一个子空间进行优化和选择。第四,在集成学习方法中最后一般要对每个子空间的结果进行结合来得到最终结果,但是现如今的方法仅仅是进行简单的投票方法,并不能对每个被选择出来的子空间在分类过程做出相应的评价。
发明内容
本发明的目的是为了解决现有技术中的上述缺陷,提供一种基于多目标优化的高维数据半监督集成分类方法。
本发明的目的可以通过采取如下技术方案达到:
一种基于多目标优化的高维数据半监督集成分类方法,所述方法包括下列步骤:
S1、输入训练数据集,将一个待分类处理的高维数据集X,行向量对应样本维,列向量对应属性维,然后利用训练数据的类标签来将数据划分为无标签数据和有标签数据;
S2、对输入的上述训练数据集进行数据归一化,获取第d列数据相对应的最大值W(d)max和最小值W(d)min,将第d列数据根据如下的公式进行转换:
其中,为第d列第i个数据,为更新之后的数据,n为数据集中样本总的数量,D为数据集对应的维度数,i∈{1,2,.....,n},d∈{1,2,.....,D};
S3、产生随机子空间集合;
S31、获取高维数据集的属性维度数,产生子空间的属性维度数;
S32、对原始数据集包括无标签和有标签数据重复随机采取属性列;
S33、重复步骤S31和步骤S32,直到产生S个随机子空间;
S4、多目标优化选取子空间集合;
S41、将每个子空间的数据进行三个目标函数的计算,得到相对应目标函数的值;
S42、根据每个子空间的多目标优化函数的值确定其初始的优先排序rank,找出非支配子空间集合P,即目标函数都优于其他子空间;
S43、将非支配子空间集合P根据standard DE计算方式再初始化含有P/2个子空间的子空间集合Q;
S44、通过基于Jaccard系数的近邻函数来求解P中分别与Q在特征上的相似性和差异性;
S45、将步骤S44得到函数用于模糊成员函数中来得到P中各自子空间的在Q中各自k个近邻子空间;
S46、将步骤S45得到的相邻子空间通过聚集成员函数来随机得到P中各自子空间的最近邻的子空间;
S47、将P中各自子空间与相对应的最近邻子空间通过线性聚合函数得到一个新对应集合W;
S48、通过快速非支配算法计算步骤S47中P与Q以及W中相对应的子空间,得到最优的子空间,更新P中的子空间;
S49、通过特征间交叉变换操作和变异变换操作产生新的子空间集合Pt,得到新的子空间集合P=P∪Pt
S410、对特征集合P进行非支配排序算法操作,通过排挤和精英保留策略选出S个子空间,组成新的特征集合P;
S411、对步骤S41到步骤S410进行t次循环迭代;
S5、寻找特征子空间中最优半监督分类器;
S51、对步骤S4得到的子空间集合进行属性采样处理;
S52、输入样本采样操作的次数n;
S53、对步骤S51得到的属性维采样后的数据集根据样本是否有标签分别进行采样操作,设置采样率,其中有标签样本中没有被采集到的样本作为测试样本X_test,被选择到的有标签样本和无标签样本为训练样本X_train;
S54、用X_train对LapRLS分类器进行训练并对X_test进行测试,得到准确率;
S55、返回步骤S53,直到采样的次数达到n;
S56、对n个在属性和样本采样下训练好的LapRLS分类器根据其分类准确率进行排序,选择准确率最高的作为该子空间的最优分类器;
S57、对每个子空间分别执行步骤S51到步骤56,直到结束;
S6、对测试样本进行分类;
S61、输入测试样本集T;
S62、取出一个测试样本T进行分类;
S63、将测试样本T按各自子空间的属性采样维进行采样得到各个子空间适配的样本;
S64、使用每个子空间的最优分类器对相对应的样本进行分类,每个子空间得到相对应的结果;
S65、综合每个子空间得到的分类结果,将被预测最多的分类结果作为最终分类结果;
S66、循环步骤S62到步骤S65,将测试样本集T中的样本都进行分类预测结果集Lt
S7、计算分类准确率;
S71、输入测试样本集的标签集L;
S72、对比L与Lt,计算得到分类准确率。
进一步地,所述步骤S31、获取高维数据集的属性维度数,产生子空间的属性维度数具体为:
获取高维数据集的属性总维度数为D,产生子空间初始的属性维度数为
所述步骤S32、对原始数据集包括无标签和有标签数据重复随机采取属性列具体为:
构造一个[0,…,D]的特征标识数组,然后随机在特征标识数组中随机挑选d个属性。
进一步地,所述步骤S41中三个目标函数分别为f1(R),f2(R),f3(R),其中,f1(R)代表特征与类别的相关性,f2(R)代表特征之间的冗余性,f3(R)代表数据集间的结构误差,所述步骤S41具体过程如下:
整体的多目标优化函数为:
其中,R为子空间的特征集合,
目标函数f1(R)为
其中(xi,xj)∈ΩML为属于相同类别的样本对,(xi,xj)∈ΩCL为属于不同类别的样本对,r为R特征集合中对应的第r个特征,fri代表样本i的第r个特征相对应的数据集,d为子空间中特征集合的数量;
目标函数
其中,
p(fr,fc)是皮尔逊相关系数,其中是对应的fr和fc相对应的特征数据矩阵的平均值,然后通过互信息即I(fr,fc)来衡量两个特征之间的相似性,所以f2(R)求解的是子空间中各个特征之间相似性的平均值;
目标函数f3(R)为
其中
fi R是在子空间R下相对应的特征样本矩阵,通过求解样本与样本之间的KNN矩阵来确定两个样本之间的关系,运用有标签样本的信息来构造样本关系矩阵W。
进一步地,所述步骤S42具体过程为:
将求出的子空间的多目标优化函数值进行非支配排序,即寻找子空间的Pareto解,这是一个循环的适应值分级过程,即先找出子空间集合中的非支配解集,记为第一层非支配层F,将其所有的子空间赋予非支配序irank=1,其中irank是个体i的非支配序值,并从子空间集合中除去,然后继续找出余下子空间中的非支配解集,记为第二非支配层F2,子空间被赋予非支配序irank=2,依照这样的循环,直到整个子空间集合被分层,并且同一分层内的个体具有相同的非支配序irank
进一步地,所述步骤S48具体过程为:
子空间集合P中各个子空间之间的关系主要是先产生大小为子空间集合P一半的新子空间集合Q,其中Q是通过如下公式产生:
Qi=Pi1+δ(Pi2-Pi3)
其中i是Q中第i个子空间,并且i∈[0,|P|/2],i1,i2,i3∈[0,|P|],Pi2-Pi3代表Pi2与Pi3两个子空间中不同时存在的特征,δ∈(0,1),代表只取Pi2与Pi3得特征差集的一部分,Pi1+δ(Pi2-Pi3)代表取特征集合的交集;
在得到新子空间集合Q之后,求解子空间P中每个子空间与Q中的子空间之间的关系是否存在近邻关系,通过下列公式来得到:
其中,χ(Pi,Qi′)为来处理仅包含非对称的二元属性的对象的Jaccard系数,即将选中的特征标为1,没选中的特征标为0,进行两个特征集的对比来得到相似系数,选将计算得到的Jaccard系数进行转置,上述公式中k为Pi的k个近邻值;
随后计算k个近邻值得总值,即
根据CM来计算第i'个子空间的间隔值域,即MIi'=[CMi'-1,CMi']
其中,CMi'=CMi'-1+m(Pi,Qi')
CM0=0
通过产生一个在[0,CM]之间的值来确定Pi相对应的近邻子空间;
依据每个子空间Pi对应的近邻子空间Qi来线性并差集产生一个结合出来的子空间Wi,随后对这三个子空间进行目标值的对比来得到最优的子空间,以此来成为新的Pi,相对应的公式如下:
Wi=Pd+α|τ|(Pd-Pnd);
其中|τ|是通过高斯分布随机得到的系数,即
其中t为迭代循环到达的次数,T总的迭代循环的次数。
进一步地,所述步骤S410具体过程为:
通过特征的交叉变换操作以及变异操作来产生新的子空间集合Pt来增加子空间的多样性,而交叉变换操作和变异操作是通过一个随机值来确定的,首先假设旧的两个子空间为:
通过特征的交叉变换操作会产生新的两个子空间为:
r1和r2是两个交叉变换的点,有r1<r2,r1∈{1,...,m'},r2∈{1,...,n'},m'和n'可不相同,因为随着子空间的变化,两者由初始的相等会慢慢变成不等;
而通过变异操作得到的新的子空间为:
其中,r3是一个变异点,r3∈{1,...,m'};
经过交叉变换操作和变异操作之后产生新的子空间集合P=P∪Pt
最后,再对特征子空间集合进行非支配排序操作,并通过排挤和精英保留策略来选出被优化过的只含有S个子空间的新的子空间集合P。
进一步地,所述步骤S53具体过程为:
首先根据各个子空间进行相对应的特征采样,然后将其分为有标签的样本和无标签的样本,并且输入样本采样操作的次数n,其中属性采样得到样本的函数为X′i=XPi
X′i是第i个子空间得到的样本,X是输入的高维数据集矩阵,Pi第i个子空间的D×D的特征标识对角矩阵,对角线上0表示该特征没被选中,1代表该特征被选中;
接着根据得到的属性维采样后的数据集根据样本是否有标签分别进行样本维的采样操作,设置采样率,其中有标签样本中没有被采集到的样本作为测试样本X_test,被选择到的有标签样本和无标签样本为训练样本X_train。
进一步地,所述步骤S54具体过程为:
用X_train对LapRLS半监督分类器进行训练,LapRLS的目标函数为:
f(x)=WTx+b
其中Zij代表假设yi是xi标签,并且c是类别的数量,对于多类别的情况,可以把yi用向量表示,即Xj是属于第j的类的子集,用Z=[Z1,Z2,...,Zn]表示一个c×n的标签矩阵,Zi是向量xi的标签,其中,对于一个未标记样本xj,所有的Zj元素都是零,W∈Rm×c,b∈Rc并且f(x)∈Rc,最后训练得到参数W和参数b,ψ(xi,Zi,fi)≥0是预先定义的损耗函数并且fi代表着f(xi),第二个变量是为了减小样本间局部流形结构的差异,最后一个变量用来控制f(xi)的复杂度并且避免过度拟合,α和β是平衡为的标量系数,目标是使H(W,b)最小;
对用训练得到的分类器对X_test进行测试,即对于一个测试样本xi,其被预测到的标签是:
接着计算X_test被预测准确的样本的数量,得到的分类准确率作为该次样本采样后分类器的表现。
进一步地,所述步骤S64具体过程为:
对每个样本根据子空间的属性采样进行相对应的操作,然后利用子空间的最优分类器进行分类,得到各个子空间的分类结果,最后,对每一个测试样本数据,通过学习器投票法整合每一个子空间的预测结果lb(rb)来得到最终预测结果lB,循环所有测试样本之后得到测试样本经过半监督分类器分类后的样本标签集Lt,其中,最终预测结果lB的计算公式如下:
进一步地,所述步骤S72具体过程为:
根据输入测试样本集的标签集L,对比L与Lt,计算出最后的分类准确率,即其中TP是分类准确的样本数,FP是分类错误的样本数。
与传统的半监督集成分类算法相比,本发明技术有如下创新点:
第一,不仅仅通过采样随机子空间的方法来使得发明能更好的处理高位数据集并提高了子空间的多样性,还考虑了子空间中特征对分类效果的好坏,运用了多目标的方法来求解最优的子空间集合;
第二,传统的不管是分类还是半监督分类集成算法中很少能考虑子空间之间的关系,但是本发明中充分考虑子空间之间的关系,使得整体的框架能更好的集合起来,增加算法的稳定性;
第三,本发明充分利用了无标签数据在流型理论上的应用,并很好的将有标签数据利用到优化子空间分类器中,通过采样的方法来优化子空间的分类器;
第四,利用分别采样无标签和有标签数据来得到最优化分类器,通过在样本上的采样来提高框架整体的泛化能力。
附图说明
图1是本发明公开的基于多目标优化的高维数据半监督集成分类方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
附图1是本发明公开的基于多目标优化的高维数据半监督集成分类方法的流程图,下面结合附图1对本发明的步骤做进一步描述。
步骤S1、输入训练数据集;
输入一个待分类处理的高维数据集X,行向量对应样本维,列向量对应属性维,然后训练数据的类标签来将数据划分为占比为90%的无标签数据和占比为10%的有标签数据。
步骤S2、数据归一化;
对输入的上述训练数据集进行数据归一化,具体过程如下:
获取第d列数据相对应的最大值W(d)max和最小值W(d)min,将第d列数据根据如下的公式进行转换:
其中,为第d列第i个数据,为更新之后的数据,n为数据集中样本总的数量,D为数据集对应的维度数,i∈{1,2,.....,n},d∈{1,2,.....,D}。
步骤S3、产生随机子空间集合;
S31、获取高维数据集的属性维度数,产生子空间的属性维度数;
在具体的实施方式中,该步骤如下:
获取高维数据集的属性总维度数为D,产生子空间初始的属性维度数为
S32、对原始数据集包括无标签和有标签数据随机采取属性列,可重复采取;
在具体的实施方式中,该步骤如下:
构造一个[0,…,D]的特征标识数组,然后随机在特征标识数组中随机挑选d个属性;
S33、重复步骤S31和步骤S32,直到产生S个随机子空间;
步骤S4、多目标优化选取子空间集合;
S41、将每个子空间的数据进行三个目标函数的计算,得到相对应目标函数的值;
S42、根据每个子空间的多目标优化函数的值确定其初始的优先排序rank,找出非支配子空间集合P,即目标函数都优于其他子空间;
S43、将非支配子空间集合P根据standard DE计算方式再初始化含有P/2个子空间的子空间集合Q;
S44、通过基于Jaccard系数的近邻函数来求解P中分别与Q在特征上的相似性和差异性;
S45、将步骤S44得到函数用于模糊成员函数中来得到P中各自子空间的在Q中各自k个近邻子空间;
S46、将步骤S45得到的相邻子空间通过聚集成员函数来随机得到P中各自子空间的最近邻的子空间;
S47、将P中各自子空间与相对应的最近邻子空间通过线性聚合函数得到一个新对应集合W;
S48、通过快速非支配算法计算步骤S47中P与Q以及W中相对应的子空间,得到最优的子空间,更新P中的子空间;
S49、通过特征间交叉变换操作和变异变换操作产生新的子空间集合Pt,得到新的子空间集合P=P∪Pt
S410、对特征集合P进行非支配排序算法操作,通过排挤和精英保留策略选出S个子空间,组成新的特征集合P;
S411、对步骤S41到步骤S410进行t次循环迭代。
在具体实施方式中,首先,将步骤S3得到的子空间集合作为优化初始值,然后计算每个子空间相对应的目标函数的值,其中,涉及的三个目标函数为特征与类别的相关性,特征之间的冗余性,数据集间的结构误差。特征与类别的相关性通过计算相对应子空间特征构造出来的样本在相同类之间的关系以及不同类之间的关系,所以计算这一目标函数需要先计算出该高维数据集中的同类样本对和异类样本对,随后计算出该子空间特征与类别相关性的大小。特征之间的冗余性是通过计算特征之间的皮尔逊系数以此来确定互信息来得到子空间特征冗余性的大小。数据集间(样本间)的结构误差指的是子空间在相对应特征选择后之间的差异性。
整体的多目标优化函数为:
其中,R为子空间的特征集合,f1(R),f2(R),f3(R)分别为三个子目标函数。
目标函数f1(R)为
其中(xi,xj)∈ΩML为属于相同类别的样本对,(xi,xj)∈ΩCL为属于不同类别的样本对,r为R特征集合中对应的第r个特征,fri代表样本i的第r个特征相对应的数据集,d为子空间中特征集合的数量。
目标函数f2(R)为
其中,
p(fr,fc)是皮尔逊相关系数,其中是对应的fr和fc相对应的特征数据矩阵的平均值。然后通过互信息即I(fr,fc)来衡量两个特征之间的相似性。所以f2(R)求解的是子空间中各个特征之间相似性的平均值,该值越小越好。
目标函数f3(R)为
其中
fi R是在子空间R下相对应的特征样本矩阵,f3(R)这个目标函数主要考虑的是在不同特征组合的情况下,如果两个样本点之间在原始特征下是相近的,那么好的特征组合应该在相应选择之后也要使得这两个样本之间是近。而保留原始特征下样本之间的关系是通过W矩阵的,即通过求解样本与样本之间的KNN矩阵来确定两个样本之间的关系,当然这个过程也会运用到有标签样本的信息来构造这个样本关系矩阵W。
将求出的子空间的多目标优化函数值进行非支配排序,即寻找子空间的Pareto解。这是一个循环的适应值分级过程,即先找出子空间集合中的非支配解集,记为第一层非支配层F,将其所有的子空间赋予非支配序irank=1(其中irank是个体i的非支配序值),并从子空间集合中除去,然后继续找出余下子空间中的非支配解集,记为第二非支配层F2,子空间被赋予非支配序irank=2,依照这样的循环,直到整个子空间集合被分层,并且同一分层内的个体具有相同的非支配序irank
考虑子空间集合P中各个子空间之间的关系主要是先产生大小为子空间集合P一半的新子空间集合Q,其中Q是通过如下公式产生:
Qi=Pi1+δ(Pi2-Pi3)
其中i是Q中第i个子空间,并且i∈[0,|P|/2],i1,i2,i3∈[0,|P|],但三个随机数并不相同。Pi2-Pi3代表Pi2与Pi3两个子空间中不同时存在的特征,δ∈(0,1),代表只取Pi2与Pi3得特征差集的一部分,Pi1+δ(Pi2-Pi3)代表取特征集合的交集。
在得到新子空间集合Q之后,求解子空间P中每个子空间与Q中的子空间之间的关系是否存在近邻关系,通过下列公式来得到:
其中χ(Pi,Qi′)为来处理仅包含非对称的二元属性的对象的Jaccard系数,即将选中的特征标为1,没选中的特征标为0进行两个特征集的对比来得到相似系数,其中一般的Jaccard系数越大代表越相关,反之越不相关,但为了配合m(Pi,Qi'),选将计算得到的Jaccard系数进行转置来得到系数越大越不相关的效果。公式中k为Pi的k个近邻值,在发明中取k=2,是模糊指数,在发明中取q=2。
随后计算k个近邻值得总值,即
根据CM来计算第i'个子空间的间隔值域,即MIi'=[CMi'-1,CMi'];
其中,CMi'=CMi'-1+m(Pi,Qi')
CM0=0
通过产生一个在[0,CM]之间的值来确定Pi相对应的近邻子空间,本发明是从k=2个子空间中挑选一个。
依据每个子空间Pi对应的近邻子空间Qi来线性并差集产生一个结合出来的子空间Wi,随后对这三个子空间进行目标值的对比来得到最优的子空间,以此来成为新的Pi。相对应的公式如下:
Wi=Pd+α|τ|(Pd-Pnd);
其中|τ|是通过高斯分布随机得到的系数,即
在本发明中,μ1=0,γ1=4,γ2=2,t为迭代循环到达的次数,T总的迭代循环的次数,所以随着t的递增可以控制η1的值也相对应地递减。
在分析以及得到新的子空间P集合后,通过特征的交叉变换操作以及变异操作来产生新的子空间集合Pt来增加子空间的多样性。而交叉变换操作和变异操作是通过一个随机值来确定的。
首先假设旧的两个子空间为
通过特征的交叉变换操作会产生新的两个子空间为
r1和r2是两个交叉变换的点,有r1<r2,r1∈{1,...,m'},r2∈{1,...,n'},m'和n'可不相同,因为随着子空间的变化,两者由初始的相等会慢慢变成不等。
而通过变异操作得到的新的子空间为
r3是一个变异点,有r3∈{1,...,m'}。
经过交叉变换操作和变异操作之后产生新的子空间集合P=P∪Pt
最后,再对特征子空间集合进行非支配排序操作,并通过排挤和精英保留策略来选出被优化过的只含有S个子空间的新的子空间集合P。
对以上操作进行T次迭代直到结束,得到最终的子空间集合Pend
步骤S5、寻找特征子空间中最优半监督分类器;
S51、对步骤S4得到的子空间集合进行属性采样处理;
S52、输入样本采样操作的次数n;
S53、对步骤S51得到的属性维采样后的数据集根据样本是否有标签分别进行采样操作,设置采样率为0.7,其中有标签样本中没有被采集到的样本作为测试样本X_test,被选择到的有标签样本和无标签样本为训练样本X_train;
S54、用X_train对LapRLS分类器进行训练并对X_test进行测试,得到准确率;
S55、返回步骤S53,直到采样的次数达到n;
S56、对n个在属性和样本采样下训练好的LapRLS分类器根据其分类准确率进行排序,选择准确率最高的作为该子空间的最优分类器;
S57、对每个子空间分别执行步骤S51到步骤56,直到结束。
在具体实施方式中,将步骤S4中的子空间集合对样本根据各个子空间进行相对应的特征采样,然后将其分为有标签的样本和无标签的样本,并且输入样本采样操作的次数n。其中属性采样得到样本的函数为
X'i=XPi
X′i是第i个子空间得到的样本,X是输入的高维数据集矩阵,Pi第i个子空间的D×D的特征标识对角矩阵,对角线上0表示该特征没被选中,1代表该特征被选中。
然后根据得到的属性维采样后的数据集根据样本是否有标签分别进行样本维的采样操作,设置采样率为0.7,其中有标签样本中没有被采集到的样本作为测试样本X_test,被选择到的有标签样本和无标签样本为训练样本X_train。
用X_train对LapRLS半监督分类器进行训练,LapRLS的目标函数为
f(x)=WTx+b
其中Zij代表假设yi是xi标签,并且c是类别的数量。对于多类别的情况,可以把yi用向量表示,即Xj是属于第j的类的子集,用Z=[Z1,Z2,...,Zn]表示一个c×n的标签矩阵;Zi是向量xi的标签。其中,对于一个未标记样本xj,所有的Zj元素都是零。W∈Rm×c,b∈Rc并且f(x)∈Rc,最后训练得到参数W和参数b,ψ(xi,Zi,fi)≥0是预先定义的损耗函数并且fi代表着f(xi)。第二个变量是为了减小样本间局部流形结构的差异。最后一个变量用来控制f(xi)的复杂度并且避免过度拟合。α和β是平衡为的标量系数。我们的目标是使H(W,b)最小。
对用训练得到的分类器对X_test进行测试,即对于一个测试样本xi,它被预测到的标签将会是:
紧接着计算X_test被预测准确的样本的数量,得到的分类准确率作为该次样本采样后分类器的表现。
最后对该子空间进行n次样本采样来得到分类准确率最好的一次采样,作为该子空间最后分类的分类器,如上所述,计算所有子空间的最优分类器,这个步骤可以通过多线程并发来计算。
步骤S6、对测试样本进行分类;
S61、输入测试样本集T;
S62、取出一个测试样本T进行分类;
S63、将T按各自子空间的属性采样维进行采样得到各个子空间适配的样本;
S64、使用每个子空间的最优分类器对相对应的样本进行分类,每个子空间得到相对应的结果;
S65、综合每个子空间得到的分类结果,将被预测最多的分类结果作为最终分类结果;
S66、循环步骤S62到步骤S65,将测试样本集T中的样本都进行分类预测结果集Lt
在具体实施方式中,对一开始划分出来没被训练的样本进行测试,对每个样本根据子空间的属性采样进行相对应的操作,然后利用子空间的最优分类器进行分类,得到各个子空间的分类结果,最后,对每一个测试样本数据,通过学习器“投票法”整合每一个子空间的预测结果lb(rb)来得到最终预测结果lB,循环所有测试样本之后得到测试样本经过半监督分类器分类后的样本标签集Lt。其中,最终预测结果lB的计算公式如下:
步骤S7、计算得到分类准确率;
S71、输入测试样本集的标签集L;
S72、对比L与Lt,计算出最后的分类准确率。
在具体实施方式中,输入测试样本集的标签集L,对比L与Lt,计算出最后的分类准确率,即
其中TP是分类准确的样本数,FP是分类错误的样本数,由于使用的高位数据集不存在不平衡数据集,所以只采用了分类准确率来评判我们的发明的效果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种基于多目标优化的高维数据半监督集成分类方法,其特征在于,所述方法包括下列步骤:
S1、输入训练数据集,将一个待分类处理的高维数据集X,行向量对应样本维,列向量对应属性维,然后利用训练数据的类标签来将数据划分为无标签数据和有标签数据;
S2、对输入的上述训练数据集进行数据归一化,获取第d列数据相对应的最大值W(d)max和最小值W(d)min,将第d列数据根据如下的公式进行转换:
其中,为第d列第i个数据,为更新之后的数据,n为数据集中样本总的数量,D为数据集对应的维度数,i∈{1,2,.....,n},d∈{1,2,.....,D};
S3、产生随机子空间集合;
S31、获取高维数据集的属性维度数,产生子空间的属性维度数;
S32、对原始数据集包括无标签和有标签数据重复随机采取属性列;
S33、重复步骤S31和步骤S32,直到产生S个随机子空间;
S4、多目标优化选取子空间集合;
S41、将每个子空间的数据进行三个目标函数的计算,得到相对应目标函数的值;
S42、根据每个子空间的多目标优化函数的值确定其初始的优先排序rank,找出非支配子空间集合P,即目标函数都优于其他子空间;
S43、将非支配子空间集合P根据standard DE计算方式再初始化含有P/2个子空间的子空间集合Q;
S44、通过基于Jaccard系数的近邻函数来求解P中分别与Q在特征上的相似性和差异性;
S45、将步骤S44得到函数用于模糊成员函数中来得到P中各自子空间的在Q中各自k个近邻子空间;
S46、将步骤S45得到的相邻子空间通过聚集成员函数来随机得到P中各自子空间的最近邻的子空间;
S47、将P中各自子空间与相对应的最近邻子空间通过线性聚合函数得到一个新对应集合W;
S48、通过快速非支配算法计算步骤S47中P与Q以及W中相对应的子空间,得到最优的子空间,更新P中的子空间;
S49、通过特征间交叉变换操作和变异变换操作产生新的子空间集合Pt,得到新的子空间集合P=P∪Pt
S410、对特征集合P进行非支配排序算法操作,通过排挤和精英保留策略选出S个子空间,组成新的特征集合P;
S411、对步骤S41到步骤S410进行t次循环迭代;
S5、寻找特征子空间中最优半监督分类器;
S51、对步骤S4得到的子空间集合进行属性采样处理;
S52、输入样本采样操作的次数n;
S53、对步骤S51得到的属性维采样后的数据集根据样本是否有标签分别进行采样操作,设置采样率,其中有标签样本中没有被采集到的样本作为测试样本X_test,被选择到的有标签样本和无标签样本为训练样本X_train;
S54、用X_train对LapRLS分类器进行训练并对X_test进行测试,得到准确率;
S55、返回步骤S53,直到采样的次数达到n;
S56、对n个在属性和样本采样下训练好的LapRLS分类器根据其分类准确率进行排序,选择准确率最高的作为该子空间的最优分类器;
S57、对每个子空间分别执行步骤S51到步骤56,直到结束;
S6、对测试样本进行分类;
S61、输入测试样本集T;
S62、取出一个测试样本T进行分类;
S63、将测试样本T按各自子空间的属性采样维进行采样得到各个子空间适配的样本;
S64、使用每个子空间的最优分类器对相对应的样本进行分类,每个子空间得到相对应的结果;
S65、综合每个子空间得到的分类结果,将被预测最多的分类结果作为最终分类结果;
S66、循环步骤S62到步骤S65,将测试样本集T中的样本都进行分类预测结果集Lt
S7、计算分类准确率;
S71、输入测试样本集的标签集L;
S72、对比L与Lt,计算得到分类准确率。
2.根据权利要求1所述的基于多目标优化的高维数据半监督集成分类方法,其特征在于,
所述步骤S31、获取高维数据集的属性维度数,产生子空间的属性维度数具体为:
获取高维数据集的属性总维度数为D,产生子空间初始的属性维度数为
所述步骤S32、对原始数据集包括无标签和有标签数据重复随机采取属性列具体为:
构造一个[0,…,D]的特征标识数组,然后随机在特征标识数组中随机挑选d个属性。
3.根据权利要求1所述的基于多目标优化的高维数据半监督集成分类方法,其特征在于,
所述步骤S41中三个目标函数分别为f1(R),f2(R),f3(R),其中,f1(R)代表特征与类别的相关性,f2(R)代表特征之间的冗余性,f3(R)代表数据集间的结构误差,所述步骤S41具体过程如下:
整体的多目标优化函数为:
其中,R为子空间的特征集合,
目标函数f1(R)为
其中(xi,xj)∈ΩML为属于相同类别的样本对,(xi,xj)∈ΩCL为属于不同类别的样本对,r为R特征集合中对应的第r个特征,fri代表样本i的第r个特征相对应的数据集,d为子空间中特征集合的数量;
目标函数f2(R)为
其中,
p(fr,fc)是皮尔逊相关系数,其中是对应的fr和fc相对应的特征数据矩阵的平均值,然后通过互信息即I(fr,fc)来衡量两个特征之间的相似性,所以f2(R)求解的是子空间中各个特征之间相似性的平均值;
目标函数f3(R)为
其中
fi R是在子空间R下相对应的特征样本矩阵,通过求解样本与样本之间的KNN矩阵来确定两个样本之间的关系,运用有标签样本的信息来构造样本关系矩阵W。
4.根据权利要求3所述的基于多目标优化的高维数据半监督集成分类方法,其特征在于,所述步骤S42具体过程为:
将求出的子空间的多目标优化函数值进行非支配排序,即寻找子空间的Pareto解,这是一个循环的适应值分级过程,即先找出子空间集合中的非支配解集,记为第一层非支配层F,将其所有的子空间赋予非支配序irank=1,其中irank是个体i的非支配序值,并从子空间集合中除去,然后继续找出余下子空间中的非支配解集,记为第二非支配层F2,子空间被赋予非支配序irank=2,依照这样的循环,直到整个子空间集合被分层,并且同一分层内的个体具有相同的非支配序irank
5.根据权利要求4所述的基于多目标优化的高维数据半监督集成分类方法,其特征在于,所述步骤S48具体过程为:
子空间集合P中各个子空间之间的关系主要是先产生大小为子空间集合P一半的新子空间集合Q,其中Q是通过如下公式产生:
Qi=Pi1+δ(Pi2-Pi3)
其中i是Q中第i个子空间,并且i∈[0,|P|/2],i1,i2,i3∈[0,|P|],Pi2-Pi3代表Pi2与Pi3两个子空间中不同时存在的特征,δ∈(0,1),代表只取Pi2与Pi3得特征差集的一部分,Pi1+δ(Pi2-Pi3)代表取特征集合的交集;
在得到新子空间集合Q之后,求解子空间P中每个子空间与Q中的子空间之间的关系是否存在近邻关系,通过下列公式来得到:
其中,为来处理仅包含非对称的二元属性的对象的Jaccard系数,即将选中的特征标为1,没选中的特征标为0,进行两个特征集的对比来得到相似系数,选将计算得到的Jaccard系数进行转置,上述公式中k为Pi的k个近邻值;
随后计算k个近邻值得总值,即
根据CM来计算第i'个子空间的间隔值域,即MIi′=[CMi′-1,CMi′],
其中,CMi'=CMi'-1+m(Pi,Qi')
CM0=0
通过产生一个在[0,CM]之间的值来确定Pi相对应的近邻子空间;
依据每个子空间Pi对应的近邻子空间Qi来线性并差集产生一个结合出来的子空间Wi,随后对这三个子空间进行目标值的对比来得到最优的子空间,以此来成为新的Pi,相对应的公式如下:
Wi=Pd+α|τ|(Pd-Pnd);
其中|τ|是通过高斯分布随机得到的系数,即
其中t为迭代循环到达的次数,T总的迭代循环的次数。
6.根据权利要求5所述的基于多目标优化的高维数据半监督集成分类方法,其特征在于,所述步骤S410具体过程为:
通过特征的交叉变换操作以及变异操作来产生新的子空间集合Pt来增加子空间的多样性,而交叉变换操作和变异操作是通过一个随机值来确定的,首先假设旧的两个子空间为:
通过特征的交叉变换操作会产生新的两个子空间为:
r1和r2是两个交叉变换的点,有r1<r2,r1∈{1,...,m'},r2∈{1,...,n'},m'和n'可不相同,因为随着子空间的变化,两者由初始的相等会慢慢变成不等;
而通过变异操作得到的新的子空间为:
其中,r3是一个变异点,r3∈{1,...,m'};
经过交叉变换操作和变异操作之后产生新的子空间集合P=P∪Pt
最后,再对特征子空间集合进行非支配排序操作,并通过排挤和精英保留策略来选出被优化过的只含有S个子空间的新的子空间集合P。
7.根据权利要求6所述的基于多目标优化的高维数据半监督集成分类方法,其特征在于,所述步骤S53具体过程为:
首先根据各个子空间进行相对应的特征采样,然后将其分为有标签的样本和无标签的样本,并且输入样本采样操作的次数n,其中属性采样得到样本的函数为Xi'=XPi
Xi'是第i个子空间得到的样本,X是输入的高维数据集矩阵,Pi第i个子空间的D×D的特征标识对角矩阵,对角线上0表示该特征没被选中,1代表该特征被选中;
接着根据得到的属性维采样后的数据集根据样本是否有标签分别进行样本维的采样操作,设置采样率,其中有标签样本中没有被采集到的样本作为测试样本X_test,被选择到的有标签样本和无标签样本为训练样本X_train。
8.根据权利要求7所述的基于多目标优化的高维数据半监督集成分类方法,其特征在于,所述步骤S54具体过程为:
用X_train对LapRLS半监督分类器进行训练,LapRLS的目标函数为:
f(x)=WTx+b
其中Zij代表假设yi是xi标签,并且c是类别的数量,对于多类别的情况,可以把yi用向量表示,即Xj是属于第j的类的子集,用z=[z1,z2,...,zn]表示一个c×n的标签矩阵,Zi是向量xi的标签,其中,对于一个未标记样本xj,所有的Zj元素都是零,W∈Rm×c,b∈Rc并且f(x)∈Rc,最后训练得到参数W和参数b,ψ(xi,Zi,fi)≥0是预先定义的损耗函数并且fi代表着f(xi),第二个变量是为了减小样本间局部流形结构的差异,最后一个变量用来控制f(xi)的复杂度并且避免过度拟合,α和β是平衡为的标量系数,目标是使H(W,b)最小;
对用训练得到的分类器对X_test进行测试,即对于一个测试样本xi,其被预测到的标签是:
接着计算X_test被预测准确的样本的数量,得到的分类准确率作为该次样本采样后分类器的表现。
9.根据权利要求8所述的基于多目标优化的高维数据半监督集成分类方法,其特征在于,所述步骤S64具体过程为:
对每个样本根据子空间的属性采样进行相对应的操作,然后利用子空间的最优分类器进行分类,得到各个子空间的分类结果,最后,对每一个测试样本数据,通过学习器投票法整合每一个子空间的预测结果lb(rb)来得到最终预测结果lB,循环所有测试样本之后得到测试样本经过半监督分类器分类后的样本标签集Lt,其中,最终预测结果lB的计算公式如下:
10.根据权利要求9所述的基于多目标优化的高维数据半监督集成分类方法,其特征在于,所述步骤S72具体过程为:
根据输入测试样本集的标签集L,对比L与Lt,计算出最后的分类准确率,即
其中TP是分类准确的样本数,FP是分类错误的样本数。
CN201611064898.4A 2016-11-28 2016-11-28 基于多目标优化的高维数据半监督集成分类方法 Active CN106778832B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611064898.4A CN106778832B (zh) 2016-11-28 2016-11-28 基于多目标优化的高维数据半监督集成分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611064898.4A CN106778832B (zh) 2016-11-28 2016-11-28 基于多目标优化的高维数据半监督集成分类方法

Publications (2)

Publication Number Publication Date
CN106778832A CN106778832A (zh) 2017-05-31
CN106778832B true CN106778832B (zh) 2019-10-18

Family

ID=58902020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611064898.4A Active CN106778832B (zh) 2016-11-28 2016-11-28 基于多目标优化的高维数据半监督集成分类方法

Country Status (1)

Country Link
CN (1) CN106778832B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107644235A (zh) * 2017-10-24 2018-01-30 广西师范大学 基于半监督学习的图像自动标注方法
CN109615421B (zh) * 2018-11-28 2022-12-06 安徽大学 一种基于多目标进化算法的个性化商品推荐方法
CN110059181B (zh) * 2019-03-18 2021-06-25 中国科学院自动化研究所 面向大规模分类体系的短文本标签方法、系统、装置
CN110689064B (zh) * 2019-09-23 2023-06-09 云南电网有限责任公司电力科学研究院 一种图像半监督分类方法、装置及计算机可读存储介质
CN110782949A (zh) * 2019-10-22 2020-02-11 王文婷 一种基于最大最小化序列搜索的多层基因加权分组方法
CN112825269B (zh) * 2019-11-20 2022-11-04 天津大学 一种气化工艺设计方法、装置、设备及存储介质
CN111553071B (zh) * 2020-04-26 2022-10-14 大连理工大学 一种基于随机嵌入辅助模型的高维多目标演化优化方法
CN111667466B (zh) * 2020-05-26 2023-04-18 湖北工业大学 一种带钢表面质量缺陷多分类的多目标优化特征选择方法
CN111753215B (zh) * 2020-06-28 2021-11-02 海南大学 一种多目标推荐优化方法及可读介质
CN112085619A (zh) * 2020-08-10 2020-12-15 国网上海市电力公司 一种用于配电网数据优化的特征选择方法
CN113033641B (zh) * 2021-03-17 2022-12-16 华南理工大学 一种高维数据半监督分类方法
CN113326252B (zh) * 2021-08-02 2021-11-12 云和恩墨(北京)信息技术有限公司 数据库的参数调整方法及参数调整装置、电子设备
CN116226744A (zh) * 2023-03-16 2023-06-06 中金同盛数字科技有限公司 一种用户分类的方法、装置及设备
CN117079059B (zh) * 2023-10-13 2023-12-19 云南师范大学 一种基于多源卫星图像的树种自动分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706876A (zh) * 2009-11-13 2010-05-12 西安电子科技大学 基于混合子空间学习选择性集成的微钙化簇检测方法
CN104598813A (zh) * 2014-12-09 2015-05-06 西安电子科技大学 一种基于集成学习和半监督svm的计算机入侵检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9218365B2 (en) * 2011-12-15 2015-12-22 Yeda Research And Development Co. Ltd. Device, system, and method of visual inference by collaborative composition

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706876A (zh) * 2009-11-13 2010-05-12 西安电子科技大学 基于混合子空间学习选择性集成的微钙化簇检测方法
CN104598813A (zh) * 2014-12-09 2015-05-06 西安电子科技大学 一种基于集成学习和半监督svm的计算机入侵检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Incremental Semi-Supervised Clustering Ensemble for High Dimensional Data Clustering;Zhiwen Yu 等;《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》;20160331;第28卷(第3期);第701-714页 *
Semi-supervised Domain Adaptation with Subspace Learning for Visual Recognition;Ting Yao 等;《2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20151015;第1-9页 *
一种子空间聚类算法在多标签文本分类中应用;于海鹏 等;《计算机应用与软件》;20140831;第31卷(第8期);第288-291,303页 *

Also Published As

Publication number Publication date
CN106778832A (zh) 2017-05-31

Similar Documents

Publication Publication Date Title
CN106778832B (zh) 基于多目标优化的高维数据半监督集成分类方法
Hady et al. Semi-supervised learning
Khetan et al. Learning from noisy singly-labeled data
CN106779087B (zh) 一种通用机器学习数据分析平台
Azadi et al. Auxiliary image regularization for deep cnns with noisy labels
Krawczyk et al. On the usefulness of one-class classifier ensembles for decomposition of multi-class problems
Bifet et al. Accurate ensembles for data streams: Combining restricted Hoeffding trees using stacking
Jing et al. Yarn-dyed fabric defect classification based on convolutional neural network
CN108364016A (zh) 基于多分类器的渐进式半监督分类方法
CN107943856A (zh) 一种基于扩充标记样本的文本分类方法及系统
Shi et al. Multi-label ensemble learning
CN109492075B (zh) 一种基于循环生成对抗网络的迁移学习排序方法
Wang et al. Model selection by linear programming
CN116051479A (zh) 融合跨域迁移和异常检测的纺织品缺陷识别方法
JP5754310B2 (ja) 識別情報付与プログラム及び識別情報付与装置
CN110414626A (zh) 一种猪只品种识别方法、装置和计算机可读存储介质
Fadhil et al. A framework for predicting airfare prices using machine learning
Hsieh et al. Adaptive structural co-regularization for unsupervised multi-view feature selection
CN105160358B (zh) 一种图像分类方法及系统
Karanjgaokar et al. Comparison of classification methodologies for predicting the stages of diabetic retinopathy
Chefrour et al. Unsupervised deep learning: Taxonomy and algorithms
Wesołowski et al. Time series classification based on fuzzy cognitive maps and multi-class decomposition with ensembling
Haddad BagStack Classification for Data Imbalance Problems with Application to Defect Detection and Labeling in Semiconductor Units
He Continual Learning: Towards Image Classification From Sequential Data
Impedovo et al. A novel technique for handwritten digit classification using genetic clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant