CN109165672A - 一种基于渐进式学习的集成分类方法 - Google Patents
一种基于渐进式学习的集成分类方法 Download PDFInfo
- Publication number
- CN109165672A CN109165672A CN201810774888.2A CN201810774888A CN109165672A CN 109165672 A CN109165672 A CN 109165672A CN 201810774888 A CN201810774888 A CN 201810774888A CN 109165672 A CN109165672 A CN 109165672A
- Authority
- CN
- China
- Prior art keywords
- classifier
- sample
- branch
- weight
- integrated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于渐进式学习的集成分类方法,同时对带噪音标签的高维数据的样本维和属性维进行数据挖掘,并结合渐进式学习原理,解决了学习训练中加入新数据后原数据信息丢失的问题;具体步骤为:(1)输入样本数据集;(2)产生训练样本的bootstrap分支集合;(3)生成分类器;(4)对样本进行分类;(5)选择第一个分类器;(6)选择渐进式分类器;(7)得到预测结果和分类准确率。本发明对高维数据样本维度和属性维度同时挖掘,构建一个强大的集成分类器;利用带有线性判别分析算法的渐进式集成学习算法提高对带噪音数据的分类能力;并将集成学习与渐进式学习相结合,提高了集成分类方法的准确性、稳定性和鲁棒性。
Description
技术领域
本发明涉及计算机人工智能领域,具体涉及对带噪音标签的高维数据的样本维和属性维进行深度数据挖掘的渐进式集成分类方法。
背景技术
集成学习作为机器学习的一个重要分支,应用于数据挖掘、智能交通系统、生物信息学、模式识别等领域,获得了越来越多研究者的关注。相对于单一分类器,集成学习方法可以集成不同情况下的多个分类器,成为一个统一的分类器。这类集成分类器具有稳定性、鲁棒性和高准确率的特点。总而言之,集成分类器由于出色的表现,已经成功地运用在不用的领域中。
但是,传统的集成学习方法主要是把样本维和属性维分开来进行研究,并没有对其进行整体的研究。例如,Bagging算法只对样本维进行研究,而random subspace算法只对属性维进行研究。这种只考虑样本维度或者只考虑属性维度的方法,不足以构建一个强大的集成分类器,并对带噪音的样本进行处理。例如,在某些数据集中,具有特征的样式存在某些属性维中,但对于其他数据集,同样的特征样式不能起到相同的效果。另一方面,在机器学习中,对于模式识别分类器,比较有效的方法是使用大量训练集来提高分类器的鲁棒性和准确率。在这个思想下,任务的结果非常依赖于训练样本的质量。但是在很多的实际任务中,获取大量的、高质量的样本是非常困难的。因此,对于该类不常见的样本,一段时间可能只可以获取部分的数据。在这种情况下,当新每获得新的训练样本时,非常需要在不改变原来的分类器的基础上加入新的训练样本,从而在不费劲的情况下提高系统的有效性。从知识管理(Knowledge Managemen,KM)角度来看,在不修改之前模型的基础上加入新的数据进行运算,会出现常见的鲁棒性与可塑性的悖论:当使用新数据覆盖原来数据进行训练时,新的数据可能会缺失原有的一些模式。该理论指出了一个完全稳定的分类器会保持着现有的特性,但并不适用于新信息;一个完全可塑动态的系统会一直学习新的数据,但是丢失了之前原有的信息量。
比较常见的方法是把原来的训练数据和新数据组成新的训练集,重新训练新的分类器,去掉原来的旧的分类器。比较常见的算法有:Kohonen Networks、Wavelet Networks、Radial Basis Function networks和Multilayer Perceptron。这种方法的优点是能够较好的提高系统的稳定性,但去掉了系统之前已获得的知识。该问题在学术界上称之为灾难性失忆(catastrophic forgetting)。进一步说,该方法在很多场景下并不适用。
发明内容
本发明的目的是针对传统集成学习在分类器训练和集成方面的不足,提出了一种基于渐进式学习的集成分类方法,对高维数据的样本维和属性维同时进行深入挖掘,并科学应用了渐进式分类器选择算法和权值优化算法,大大地提高了算法的有效性,在实际的分类任务中获得了更好的分类准确率。
本发明实现上述目的的基本思路是:首先,将高维数据集分为训练集和测试集,将该数据集平均分成5份,使用5倍交叉验证(5-folds cross-validation)来进行实验,通过改变训练集和测试集来验证模型对于不同数据集的泛化能力;然后,对训练集使用bootstrap方法进行样本维采样,得到B个bootstrap分支,并使用LDA线性判别分析方法对B个bootstrap分支训练分类器,生成各自的分类器;紧接着,新建一个集成分类器集合Γ(P),初始化为空,并从所生成的分类器中选取准确率最高的分支分类器作为第一个被选择的分类器,加入到Γ(P)中,在剩下的分类器中逐步选取后续加入后未使分类准确率降低的分支分类器加入到Γ(P)中,直到选取的分支数目达到预先设定的集成分类器集合的分支数目G,停止选择,同时输出选择好的集成分类器集合及各分类器分支对应的权重;最后,利用集成分类器集合及各分类器分支对应的加权投票结果对测试样本进行分类,得出最后的预测结果和分类准确率。
本发明的目的可以具体通过如下技术方案实现:
一种基于渐进式学习的集成分类方法,所述方法包括以下步骤:
(1)输入样本数据集
1a)输入一个待分类的带噪音标签的数据集X;
1b)将该数据集平均分成5份;
1c)将其中一份作为测试数据集Pe,剩下4份作为训练数据集Pr;
(2)产生训练样本的bootstrap分支集合
2a)确定统一化随机变量,在固定采样率下对原始训练数据集Pr随机采取样本下标;
2b)使用有放回的采样,直至采样值大于样本下标值;
2c)使用不同的采样率重复步骤2a)和步骤2b),挑选B次,得到B个bootstrap分支集合;
(3)生成分类器
3a)依次选取采样后的bootstrap分支集合,提取其中的训练样本数据;
3b)确定所选分支分类器的线性判别分析目标函数,重复B次,得到B个bootstrap分支分类器;
(4)对样本进行分类
4a)选择其中一个bootstrap分支分类器;
4b)在相应分支训练数据集中选取标签预测样本;
4c)通过步骤3b)的目标函数,计算所选样本的最小风险值;
4d)根据最小风险值对所选样本进行分类;
4e)循环步骤4b)到4d),将所选bootstrap分支集中的所有训练样本都进行分类,得到该分支训练样本的预测结果集Lt,并计算其相应的分类准确率;
4f)对每个bootstrap分支分类器依次执行步骤4a)到4e),得到B个分类器的预测结果集;
(5)选择第一个分类器
5a)新建一个集成分类器集合Γ(P),初始化为空;
5b)初始化所有样本的权重,令其中表示样本的权重,i=1、2......l,l表示样本的数量;
5c)根据每个bootstrap分支分类器的分类准确率,选取准确率最高的分支分类器作为第一个被选择的分类器;
5d)计算第一个被选择分类器的权重;
5e)将第一个被选择的分类器加入到集成分类器集合Γ(P)中;
5f)更新所有训练样本的权重;
(6)选择渐进式分类器
6a)根据分类器损失函数,计算未被选入Γ(P)的集成分类器分支的损失函数值;
6b)对未被选入Γ(P)的分类器按损失函数值由小到大进行排序;
6c)依次选取排序好的分支分类器加入到集成分类器集合Γ(P)中,直到所加入新的分类器后集成分类器集合的损失函数值不大于原集成分类器集合的损失函数值,取该分类器作为步骤6f)中加入集成分类器集合Γ(P)的分类器;
6d)计算新的集成分类器每个分支的误分类样本的带权重总和误差;
6e)更新当前新增的分类器权重;
6f)把最新的分类器加入到已选择的分类器集合中,生成最新的集成分类器集合;
6g)在新的集成分类器集合的基础上更新已选择分类器的权重;
6h)重复步骤6a)到6g)直到选取的分分类器支数目达到预先设定的分支数目G,停止迭代;
6i)输出选择好的集成分类器集合ΓG及对应的权重;
(7)得到预测结果和分类准确率
7a)将步骤1c)中分割出来的1份测试数据集Pe作为该分类器的输入数据的属性维;
7b)选择其中一个输入测试数据xi进行标签类别预测;
7c)使用各分支分类器对xi进行分类,得出每个分支对样本的预测标签;
7d)对步骤7c)得到的各分支标签类别预测进行带权重的投票,获得最后的预测结果;
7e)依次对测试集中的每个数据进行步骤7b)到7d)的标签类别预测,得到集成分类器集合对测试数据集的分类结果,即集成分类器集合的预测标签集Lensemble;
7f)将集成分类器集合的预测标签集Lensemble与测试数据真实标签集Ltrue进行比较,计算相应的分类准确率。
进一步地,步骤2a)所描述的随机采取样本下标步骤是,每一轮bootstrap分支集合采样使用有放回的采样,共进行B次,每次挑选出个训练样本,其中采样率为有:
τ1∈[0,1]为统一化随机变量,该方法根据训练样本pi下标来进行随机的一个一个样本抽取,具体的采样下标为:
其中m为挑选出来的训练样本的下标,τ2∈[0,1]为统一化随机变量,l表示样本的数量。
进一步地,步骤3b)所描述的确定分支分类器的线性判别分析目标函数的步骤是,把步骤3a)中选择的每个bootstrap分支单独作为一个训练集,使用线性判别分析算法,通过寻找一个子空间,使得类内距离最小化,类间距离最大化,尽可能地保存标签信息,从而生成独立的分类器线性判别分析的目标函数为:
Ξb表示目标函数,K表示标签的数目总和,Λ(k|pb)表示在bootstrap分支Ob中的样本pb的标签k的先验概率函数,Υ(yb|k)为样本分类结果的损失函数,其中k为真实标签,yb为预测标签,并当样本被正确分类时,有Υ(yb|k)=0,否则Υ(yb|k)=1;目标函数中Λ(k|pb)的计算方式为:
其中,
上式中的和∑k分别为bootstrap分支Ob中每个标签k的均值与协方差矩阵,|∑k|与为∑k的行列式与逆矩阵,Λ(pb)为一个标准化的常数,Λ(k)为第k类训练样本数目与Ob分支中所有样本数目的比值。
进一步地,步骤5d)计算第一个被选择分类器的权重的步骤是,根据每个样本的初始权重和错误函数值,计算样本的带权重总和误差,并以此为依据确定第一个被选择的分类器χ1及其对应的权重θ1;样本的错误函数定义为:
其中,i∈{1,...,l},χ(pi)代表分类器χ对于样本pi的分类结果,为1或者-1;第一个被选择分类器的误分类样本的带权重总和误差计算方法如下:
由此计算第一个被选择分类器χ1对应的权重为:
其中,∈1表示第一个被选择分类器的误分类样本的带权重总和误差。
进一步地,步骤5f)更新所有训练样本的权重的步骤是,以样本的初始权重和第一个被选择分类器的权重为依据,同时考虑分类器对样本的分类结果,对所有训练样本的权重进行赋值,保证分类错误的样本得到一个较高的权重,新的权重的更新公式如下:
其中,θ1为第一个被选择的分类器χ1对应的权重,x1(pi)代表分类器χ1对于样本pi的分类结果,为1或者-1;yi表示样本pi的实际类别标签,yi=c表示样本pi属于c类,c∈{0,1,...,k-1}为具体的类标号,k为总类别数;
该权重已经进行归一化,因此有:
进一步地,步骤6a)求解分类器损失函数值的方法的步骤是,综合考虑样本权重调节后,准备要加入的分支与已经选出来的分支集合的相关性,根据一定的逻辑计算每个分支即去掉被选入Γ(P)的剩下的分支的集成损失函数其定义为:
其中的ξj为样本权重调节后的分支对应的分类器准确率,分类器距离函数φ(Oj,Oh)代表bootstrapOj与Oh的相似性,φ(Oj,Oh)函数用来计算准备要加入的分支与已选分支集合的相关性;Oj为第j个分类器对应的bootstrap分支,Oh为前一步迭代中获得的分类器集合对应的bootstrap分支集合;β1和β2表示两者的权重的配比,并有β1+β2=1;
具体的:BootstrapOj与Oh能够看成两个高斯混合分布,分别记为Ωj与Ωh,对于两个高斯混合模型:对应的权重为与
对应的权重为K1与K2分别为高斯混合模型Ωj与Ωh对应的组份的个数,φ(Oj,Oh)函数定义如下:
其中,
式中代表两个高斯分布与的巴氏距离,分别代表高斯分布与的均值向量与协方差矩阵。
进一步地,步骤6c)选择新加入分类器的方法的步骤是,先计算剩余的未加入集成分类器的每个分支的分类器损失函数的值并对其进行排序,从分类器损失函数最大的分支开始,逐个加入到分类器集合Γ(P)中进行集成分类器损失函数值计算,通过加入分支分类器前后损失函数值的对比,考察加入后未使集成分类器损失函数值变大的分支分类器,即:
成立时,选择该分类器为下一个加入集成分类器集合Γ(P)的分类器,集成分类器损失函数定义为:
上式中,
其中,c∈{-1,1}为样本标签即真实标签的集合,χh为已获得的集成分类器集合Γg-1(P)中的第h个线性判别分析分类器。
进一步地,步骤6d)和6e)计算新的集成分类器每个分支的误分类样本的带权重总和误差和更新当前新增的分类器权重的方法的步骤是,计算集成分类器各分支中样本的现权重和分类误差的累加和,得到每个分支的误分类样本带权重总和误差,并根据该总和误差值更新新增的分类器权重,各分支的误分类样本的带权重总和误差∈g的计算方法如下:
其中的g∈{1,...,G}为当前迭代序号,代表目标集合Γ(P)的分支数目;以此为依据更新当前新增分类器的权重为:
进一步地,步骤6g)在新的集成分类器的基础上更新已选择分类器权重的方法的步骤是,先把最新的分类器加入到上一步已选择的集合中,生成最新的集成分类器集合,方法是:
然后在新的集成分类器的基础上,更新样本的权重,计算方法如下:
其中,为第g个分类器χg的第j各样本对应的权重,代表该分类器对于样本pi的分类结果,为1或者-1;更新后的归一化权重有
进一步地,步骤7d)对步骤7c)得到的各分支标签类别预测进行带权重投票的方法的步骤是,通过集成分类器中各分支分类器对数据进行预测,对各分类器的预测结果和分类器权重的乘积进行累加,确定累加和最大的分类结果为输入数据的预测标签,记为集成分类器集合中第g个分类器χg对所有样本的预测标签,为第i个样本fi的预测标签,c∈{0,1,...,k-1}为具体的类标号,k为总类别数;根据下式进行带权重投票,获得最后的预测结果y*:
其中,
在上式中,B代表bootstrap的分支数目,y*代表该算法对样本的预测标签,θb代表分支b对应的权重;
步骤7f)计算相应的分类准确率的方法的步骤是,根据集成分类器标出的结果,与原始的测试数据集样本的真实标签结果进行对比,从而得到对应的集成分类器分类准确率AC:
其中,Pe表示测试数据集,|Pe|表示在测试数据集Pe中的测试样本数目,对于样本pi,为基于带噪音标签数据的渐进式集成分类方法的预测标签,为该样本的真实标签。
本发明与现有技术相比,具有如下优点和有益效果:
本发明提供的基于渐进式学习的集成分类方法,与传统的集成学习分类算法相比之下,准确性、稳定性和鲁棒性都有着非常大的优势。与传统的集成分类算法相比,本发明技术有如下创新点:第一,同时考虑高维数据样本维度和属性维度的深度数据挖掘,构建一个强大的集成分类器;第二,带有线性判别分析算法的渐进式集成学习算法具有较好的带噪音数据的分类能力;第三,本发明将集成学习与渐进式学习相结合,解决了分类器训练过程中使用新数据导致的原始数据信息丢失问题,在不改变原来模型的基础上,加入新的数据或者模型,组成了一个更为有效的系统。
附图说明
图1为本发明实施例基于渐进式学习集成分类方法的流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
本实施例提供了一种基于渐进式学习的集成分类方法,流程图如图1所示,包括以下步骤:
步骤1,输入样本数据集
输入一个待分类的带噪音标签的高维数据集X,行向量对应样本维,列向量对应属性维,将该数据集平均分成5份,并把其中一份作为测试数据集Pe,剩下4份作为训练数据集Pr;
步骤2,产生训练样本的bootstrap分支集合
针对选取处理的训练数据集Pr,每一轮bootstrap分支样本集合采样使用有放回的采样,共进行B次,每次挑选出l个训练样本,得到B个bootstrap分支集合。其中采样率为有:
τ1∈[0,1]为统一化随机变量。该方法根据训练样本pi下标来进行随机的一个一个样本抽取。具体的采样下标为:
其中的m为挑选出来的样本的下标,τ2∈[0,1]为统一化随机变量。
步骤3,生成分类器
把每个bootstrap分支单独作为一个训练集,使用线性判分析算法,通过寻找一个子空间,使得类内距离最小化,类间距离最大化,尽可能地保存标签信息,从而生成独立的分类器最后得到B个分支分类器。线性判别分析的目标函数为:
Ξb表示目标函数,K表示标签的数目总和,Λ(k|pb)表示在bootstrap分支Ob中的样本pb的标签k的先验概率函数,Υ(yb|k)为样本分类结果的损失函数,其中k为真实标签,yb为预测标签,并当样本被正确分类时,有Υ(yb|k)=0,否则Υ(yb|k)=1。目标函数中Λ(k|pb)的计算方式为:
其中,
上式中的和∑k为bootstrap分支Ob中每个标签k的均值与协方差矩阵,|∑k|与为∑k的行列式与逆矩阵,Λ(pb)为一个标准化的常数,Λ(k)为第k类训练样本数目与Ob分支中所有样本数目的比值。
步骤4,对样本进行分类
对每一个bootstrap分支数据集中的训练样本进行分类,分类的方法是通过步骤3所建立的分类器目标函数,计算所选样本的最小风险值,实现最小风险所对应的类为样本的预测分类。对所选bootstrap分支集中的每个训练样本都进行分类,得到该分支训练样本的预测结果集Lt,并计算其相应的分类准确率;对每个bootstrap分支数据集依次执行上述操作,得到B个分类器的预测结果集。
步骤5,选择第一个分类器
首先初始化所有样本的权重,令根据每个样本的初始权重和错误函数值,计算每个分支数据集中样本分类的带权重总和误差,并以此为依据,将带权重总和误差值最小的分支分类器确定为第一个被选择的分类器χ1。样本的错误函数定义为:
Θ(χ(P),y,i)=e-yiχ(pi)
其中,i∈{1,...,l},χ(pi)代表分类器χ对于样本pi的分类结果,为1或者-1。第一个被选择分类器的误分类样本的带权重总和误差计算方法如下:
由此计算第一个被选择分类器χ1对应的权重为:
确定第一个被选择的分支分类器以后,以样本的初始权重和第一个被选择分类器的权重为依据,同时考虑分类器对样本的分类结果,对所有训练样本的权重进行重新赋值,保证分类错误的样本得到一个较高的权重。新的权重的更新公式如下:
其中,θ1为第一个被选择的分类器χ1对应的权重,χ1(pi)代表分类器χ1对于样本pi的分类结果,为1或者-1。
该权重已经进行归一化,因此有:
步骤6,选择渐进式分类器
后续的分类器选择是渐进式的。首先,根据分类器样本权重调节后,准备要加入的分支与已经选出来的分支集合具有一定的相关性,按一定的逻辑计算每个分支(去掉被选入Γ(P)的剩下的分支)的分类器损失函数并根据分类器损失函数值的大小,初步确定所选分支分类器性能的优劣,分类器损失函数定义为:
其中的ξj为样本权重调节后的分支对应的分类器准确率,分类器距离函数φ(Oj,Oh)代表bootstrapOj与Oh的相似性,φ(Oj,Oh)函数主要是用来计算准备要加入的分支与已选分支集合的相关性。Oj为第j个分类器对应的bootstrap分支,Oh为前一步迭代中获得的分类器集合对应的bootstrap分支集合。β1和β2表示两者的权重的配比,并有β1+β2=1。
具体的:BootstrapOj与Oh可以看成两个高斯混合分布(Gaussian mixturemodels,GMMs),分别记为Ωj与Ωh,对于两个高斯混合模型:对应的权重为与对应的权重为K1与K2分别为高斯混合模型Ωj与Ωh对应的组份的个数。φ(Oj,Oh)函数定义如下:
其中,
式中代表着两个高斯分布与的巴氏距离(BhattacharyyaDistance),分别代表着高斯分布与的均值向量与协方差矩阵。
在计算完所有未加入集成分类器的每个分支的分类器损失函数的值后,对其进行排序,从分类器损失函数最大的分支开始,逐个加入到分类器集合Γ(P)中进行集成分类器损失函数值计算,通过加入分支分类器前后损失函数值得对比,考察加入后未使集成分类器损失函数值变大的分支分类器,即:
成立时,选择该分类器为下一个加入集成分类器集合Γ(P)的分类器,即:
集成分类器损失函数定义为:
上式中,
其中,c∈{-1,1}为样本标签(真实标签)的集合,xh为已获得的集成分类器集合Γg-1(P)中的第h个线性判别分析分类器。
紧接着,在每选择一个分支分类器加入集成分类器集合后,需要计算集成分类器各分支中样本的现权重和分类误差的累加和,得到每个分支的误分类样本带权重总和误差,并根据该总和误差值更新新增的分类器权重,各分支的误分类样本的带权重总和误差∈g的计算方法如下:
其中的g∈{1,...,G}为当前迭代序号,代表目标集合Γ(P)的分支数目。以此为依据更新当前新增分类器的权重为:
最后在新的集成分类器的基础上,更新最新样本的权重,计算方法如下:
其中,为第g个分类器χg的第j各样本对应的权重,代表该分类器对于样本pi的分类结果,为1或者-1。更新后的归一化权重有:
重复上述工作,直到选取的分支数目达到预先设定的分支数目G为止,输出选择好的集成分类器集合ΓG及对应的权重;
步骤7,得到预测结果和分类准确率
通过集成分类器中各分支分类器对数据进行预测,对各分类器的预测结果和分类器权重的乘积进行累加,确定累加和最大的分类结果为输入数据的预测标签,并根据分类结果计算集成分类器集合的分类准确率。记为集成分类器集合中第g个分类器xg对所有样本的预测标签,为第i个样本fi的预测标签,c∈{0,1,...,k-1}为具体的类标号,k为总类别数。根据下式进行带权重投票,获得最后的预测结果y*:
其中,
在上式中,B代表bootstrap的分支数目,y*代表该算法对样本的预测标签。
根据集成分类器标出的结果,与原始的测试数据集样本的真实标签结果进行对比,从而得到对应的集成分类器分类准确率(classification Accuracy,AC):
其中,PS表示测试集,|PS|表示在测试集PS中的测试样本数目。对于样本pi,为基于带噪音标签数据的渐进式集成分类方法的预测标签,为该样本的真实标签。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明专利构思加以等同替换或改变,都属于本发明专利的保护范围。
Claims (10)
1.一种基于渐进式学习的集成分类方法,其特征在于,所述方法包括以下步骤:
(1)输入样本数据集
1a)输入一个待分类的带噪音标签的数据集X;
1b)将该数据集平均分成5份;
1c)将其中一份作为测试数据集Pe,剩下4份作为训练数据集Pr;
(2)产生训练样本的bootstrap分支集合
2a)确定统一化随机变量,在固定采样率下对原始训练数据集Pr随机采取样本下标;
2b)使用有放回的采样,直至采样值大于样本下标值;
2c)使用不同的采样率重复步骤2a)和步骤2b),挑选B次,得到B个bootstrap分支集合;
(3)生成分类器
3a)依次选取采样后的bootstrap分支集合,提取其中的训练样本数据;
3b)确定所选分支分类器的线性判别分析目标函数,重复B次,得到B个bootstrap分支分类器;
(4)对样本进行分类
4a)选择其中一个bootstrap分支分类器;
4b)在相应分支训练数据集中选取标签预测样本;
4c)通过步骤3b)的目标函数,计算所选样本的最小风险值;
4d)根据最小风险值对所选样本进行分类;
4e)循环步骤4b)到4d),将所选bootstrap分支集中的所有训练样本都进行分类,得到该分支训练样本的预测结果集Lt,并计算其相应的分类准确率;
4f)对每个bootstrap分支分类器依次执行步骤4a)到4e),得到B个分类器的预测结果集;
(5)选择第一个分类器
5a)新建一个集成分类器集合Γ(P),初始化为空;
5b)初始化所有样本的权重,令其中表示样本的权重,i=1、2......l,l表示样本的数量;
5c)根据每个bootstrap分支分类器的分类准确率,选取准确率最高的分支分类器作为第一个被选择的分类器;
5d)计算第一个被选择分类器的权重;
5e)将第一个被选择的分类器加入到集成分类器集合Γ(P)中;
5f)更新所有训练样本的权重;
(6)选择渐进式分类器
6a)根据分类器损失函数,计算未被选入Γ(P)的集成分类器分支的损失函数值;
6b)对未被选入Γ(P)的分类器按损失函数值由小到大进行排序;
6c)依次选取排序好的分支分类器加入到集成分类器集合Γ(P)中,直到所加入新的分类器后集成分类器集合的损失函数值不大于原集成分类器集合的损失函数值,取该分类器作为步骤6f)中加入集成分类器集合Γ(P)的分类器;
6d)计算新的集成分类器每个分支的误分类样本的带权重总和误差;
6e)更新当前新增的分类器权重;
6f)把最新的分类器加入到已选择的分类器集合中,生成最新的集成分类器集合;
6g)在新的集成分类器集合的基础上更新已选择分类器的权重;
6h)重复步骤6a)到6g)直到选取的分分类器支数目达到预先设定的分支数目G,停止迭代;
6i)输出选择好的集成分类器集合Γc及对应的权重;
(7)得到预测结果和分类准确率
7a)将步骤1c)中分割出来的1份测试数据集Pe作为该分类器的输入数据的属性维;
7b)选择其中一个输入测试数据xi进行标签类别预测;
7c)使用各分支分类器对xi进行分类,得出每个分支对样本的预测标签;
7d)对步骤7c)得到的各分支标签类别预测进行带权重的投票,获得最后的预测结果;
7e)依次对测试集中的每个数据进行步骤7b)到7d)的标签类别预测,得到集成分类器集合对测试数据集的分类结果,即集成分类器集合的预测标签集Lensemble;
7f)将集成分类器集合的预测标签集Lensemble与测试数据真实标签集Ltrue进行比较,计算相应的分类准确率。
2.根据权利要求1所述的基于渐进式学习的集成分类方法,其特征在于,步骤2a)所描述的随机采取样本下标步骤是,每一轮bootstrap分支集合采样使用有放回的采样,共进行B次,每次挑选出个训练样本,其中采样率为有:
τ1∈[0,1]为统一化随机变量,该方法根据训练样本pi下标来进行随机的一个一个样本抽取,具体的采样下标为:
m=[1+τ2l]
其中m为挑选出来的训练样本的下标,τ2∈[0,1]为统一化随机变量,l表示样本的数量。
3.根据权利要求1所述的基于渐进式学习的集成分类方法,其特征在于,步骤3b)所描述的确定分支分类器的线性判别分析目标函数的步骤是,把步骤3a)中选择的每个bootstrap分支单独作为一个训练集,使用线性判别分析算法,通过寻找一个子空间,使得类内距离最小化,类间距离最大化,尽可能地保存标签信息,从而生成独立的分类器线性判别分析的目标函数为:
Ξb表示目标函数,K表示标签的数目总和,Λ(k|pb)表示在bootstrap分支Ob中的样本pb的标签k的先验概率函数,γ(yb|k)为样本分类结果的损失函数,其中k为真实标签,yb为预测标签,并当样本被正确分类时,有γ(yb|k)=0,否则γ(yb|k)=1;目标函数中Λ(k|pb)的计算方式为:
其中,
上式中的和∑k分别为bootstrap分支Ob中每个标签k的均值与协方差矩阵,|∑k|与为∑k的行列式与逆矩阵,Λ(pb)为一个标准化的常数,Λ(k)为第k类训练样本数目与Ob分支中所有样本数目的比值。
4.根据权利要求1所述的基于渐进式学习的集成分类方法,其特征在于,步骤5d)计算第一个被选择分类器的权重的步骤是,根据每个样本的初始权重和错误函数值,计算样本的带权重总和误差,并以此为依据确定第一个被选择的分类器χ1及其对应的权重θ1;样本的错误函数定义为:
其中,i∈{1,...,l},yi表示样本pi的实际类别标签,yi=c表示样本pi属于c类,c∈{0,1,...,k-1}为具体的类标号,k为总类别数;χ(pi)代表分类器χ对于样本pi的分类结果,为1或者-1;第一个被选择分类器的误分类样本的带权重总和误差计算方法如下:
以此计算第一个被选择分类器χ1对应的权重为:
其中,∈1为第一个被选择分类器的误分类样本的带权重总和误差。
5.根据权利要求4所述的基于渐进式学习的集成分类方法,其特征在于,步骤5f)更新所有训练样本的权重的步骤是,以样本的初始权重和第一个被选择分类器的权重为依据,同时考虑分类器对样本的分类结果,对所有训练样本的权重进行赋值,保证分类错误的样本得到一个较高的权重,新的权重的更新公式如下:
其中,θ1为第一个被选择的分类器χ1对应的权重,χ1(pi)代表分类器χ1对于样本pi的分类结果,为1或者-1;yi表示样本pi的实际类别标签,yi=c表示样本pi属于c类,c∈{0,1,...,k-1}为具体的类标号,k为总类别数;
该权重已经进行归一化,因此有:
6.根据权利要求1所述的基于渐进式学习的集成分类方法,其特征在于,步骤6a)求解分类器损失函数值的方法的步骤是,综合考虑样本权重调节后,准备要加入的分支与已经选出来的分支集合的相关性,根据一定的逻辑计算每个分支即去掉被选入Γ(P)的剩下的分支的集成损失函数其定义为:
其中的ξj为样本权重调节后的分支对应的分类器准确率,分类器距离函数φ(Oj,Oh)代表bootstrap Oj与Oh的相似性,φ(Oj,Oh)函数用来计算准备要加入的分支与已选分支集合的相关性;Oj为第j个分类器对应的bootstrap分支,Oh为前一步迭代中获得的分类器集合对应的bootstrap分支集合;β1和β2表示两者的权重的配比,并有β1+β2=1;
具体的:Bootstrap Oj与Oh能够看成两个高斯混合分布,分别记为Ωj与Ωh,对于两个高斯混合模型:对应的权重为与 对应的权重为K1与K2分别为高斯混合模型Ωj与Ωh对应的组份的个数,φ(Oj,Oh)函数定义如下:
其中,
式中代表两个高斯分布与的巴氏距离,分别代表高斯分布与的均值向量与协方差矩阵。
7.根据权利要求6所述的基于渐进式学习的集成分类方法,其特征在于:步骤6c)选择新加入分类器的方法的步骤是,先计算剩余的未加入集成分类器的每个分支的分类器损失函数的值并对其进行排序,从分类器损失函数最大的分支开始,逐个加入到分类器集合Γ(P)中进行集成分类器损失函数值计算,通过加入分支分类器前后损失函数值的对比,考察加入后未使集成分类器损失函数值变大的分支分类器,即:
成立时,选择该分类器为下一个加入集成分类器集合Γ(P)的分类器,集成分类器损失函数定义为:
上式中,
其中,c∈{-1,1}为样本标签即真实标签的集合,χh为已获得的集成分类器集合Γg-1(P)中的第h个线性判别分析分类器。
8.根据权利要求7所述的基于渐进式学习的集成分类方法,其特征在于:步骤6d)和6e)计算新的集成分类器每个分支的误分类样本的带权重总和误差和更新当前新增的分类器权重的方法的步骤是,计算集成分类器各分支中样本的现权重和分类误差的累加和,得到每个分支的误分类样本带权重总和误差,并根据该总和误差值更新新增的分类器权重,各分支的误分类样本的带权重总和误差∈g的计算方法如下:
其中的g∈{1,...,G}为当前迭代序号,代表目标集合Γ(P)的分支数目;以此为依据更新当前新增分类器的权重为:
9.根据权利要求8所述的基于渐进式学习的集成分类方法,其特征在于,步骤6g)在新的集成分类器的基础上更新已选择分类器权重的方法的步骤是,先把最新的分类器加入到上一步已选择的集合中,生成最新的集成分类器集合,方法是:
然后在新的集成分类器的基础上,更新样本的权重,计算方法如下:
其中,为第g个分类器χg的第j各样本对应的权重,代表该分类器对于样本pi的分类结果,为1或者-1;更新后的归一化权重有
10.根据权利要求1所述的基于渐进式学习的集成分类方法,其特征在于,步骤7d)对步骤7c)得到的各分支标签类别预测进行带权重投票的方法的步骤是,通过集成分类器中各分支分类器对数据进行预测,对各分类器的预测结果和分类器权重的乘积进行累加,确定累加和最大的分类结果为输入数据的预测标签,记为集成分类器集合中第g个分类器χg对所有样本的预测标签,为第i个样本fi的预测标签,c∈{0,1,...,k-1}为具体的类标号,k为总类别数;根据下式进行带权重投票,获得最后的预测结果y*:
其中,
在上式中,B代表bootstrap的分支数目,y*代表该算法对样本的预测标签,θb代表分支b对应的权重;
步骤7f)计算相应的分类准确率的方法的步骤是,根据集成分类器标出的结果,与原始的测试数据集样本的真实标签结果进行对比,从而得到对应的集成分类器分类准确率AC:
其中,Pe表示测试数据集,|Pe|表示在测试数据集Pe中的测试样本数目,对于样本pi,为基于带噪音标签数据的渐进式集成分类方法的预测标签,为该样本的真实标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810774888.2A CN109165672A (zh) | 2018-07-16 | 2018-07-16 | 一种基于渐进式学习的集成分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810774888.2A CN109165672A (zh) | 2018-07-16 | 2018-07-16 | 一种基于渐进式学习的集成分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109165672A true CN109165672A (zh) | 2019-01-08 |
Family
ID=64897913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810774888.2A Pending CN109165672A (zh) | 2018-07-16 | 2018-07-16 | 一种基于渐进式学习的集成分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109165672A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919299A (zh) * | 2019-02-19 | 2019-06-21 | 西安交通大学 | 一种基于元学习器逐步梯度校正的元学习算法 |
CN111626340A (zh) * | 2020-05-11 | 2020-09-04 | Oppo广东移动通信有限公司 | 一种分类方法、装置、终端及计算机存储介质 |
CN111709488A (zh) * | 2020-06-22 | 2020-09-25 | 电子科技大学 | 一种动态标签深度学习算法 |
CN113111950A (zh) * | 2021-04-19 | 2021-07-13 | 中国农业科学院农业资源与农业区划研究所 | 一种基于集成学习的小麦锈病分类方法 |
CN113139143A (zh) * | 2021-03-31 | 2021-07-20 | 杭州电子科技大学 | 面向智慧校园的网页表数据与关系型数据库数据集成方法 |
CN113688861A (zh) * | 2021-07-06 | 2021-11-23 | 清华大学 | 基于机器学习的低维特征小样本多分类方法和装置 |
CN113762304A (zh) * | 2020-11-26 | 2021-12-07 | 北京京东乾石科技有限公司 | 图像处理方法、图像处理装置和电子设备 |
CN113872904A (zh) * | 2021-09-18 | 2021-12-31 | 北京航空航天大学 | 一种基于集成学习的多分类通信信号自动调制识别方法 |
-
2018
- 2018-07-16 CN CN201810774888.2A patent/CN109165672A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109919299A (zh) * | 2019-02-19 | 2019-06-21 | 西安交通大学 | 一种基于元学习器逐步梯度校正的元学习算法 |
CN111626340A (zh) * | 2020-05-11 | 2020-09-04 | Oppo广东移动通信有限公司 | 一种分类方法、装置、终端及计算机存储介质 |
CN111626340B (zh) * | 2020-05-11 | 2024-05-28 | Oppo广东移动通信有限公司 | 一种分类方法、装置、终端及计算机存储介质 |
CN111709488A (zh) * | 2020-06-22 | 2020-09-25 | 电子科技大学 | 一种动态标签深度学习算法 |
CN113762304A (zh) * | 2020-11-26 | 2021-12-07 | 北京京东乾石科技有限公司 | 图像处理方法、图像处理装置和电子设备 |
CN113762304B (zh) * | 2020-11-26 | 2024-02-06 | 北京京东乾石科技有限公司 | 图像处理方法、图像处理装置和电子设备 |
CN113139143A (zh) * | 2021-03-31 | 2021-07-20 | 杭州电子科技大学 | 面向智慧校园的网页表数据与关系型数据库数据集成方法 |
CN113139143B (zh) * | 2021-03-31 | 2022-07-12 | 杭州电子科技大学 | 面向智慧校园的网页表数据与关系型数据库数据集成方法 |
CN113111950A (zh) * | 2021-04-19 | 2021-07-13 | 中国农业科学院农业资源与农业区划研究所 | 一种基于集成学习的小麦锈病分类方法 |
CN113688861A (zh) * | 2021-07-06 | 2021-11-23 | 清华大学 | 基于机器学习的低维特征小样本多分类方法和装置 |
CN113872904A (zh) * | 2021-09-18 | 2021-12-31 | 北京航空航天大学 | 一种基于集成学习的多分类通信信号自动调制识别方法 |
CN113872904B (zh) * | 2021-09-18 | 2023-07-21 | 北京航空航天大学 | 一种基于集成学习的多分类通信信号自动调制识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165672A (zh) | 一种基于渐进式学习的集成分类方法 | |
CN113378632B (zh) | 一种基于伪标签优化的无监督域适应行人重识别方法 | |
CN108846259B (zh) | 一种基于聚类和随机森林算法的基因分类方法及系统 | |
Das et al. | Automatic clustering using an improved differential evolution algorithm | |
CN102324038B (zh) | 一种基于数字图像的植物种类识别方法 | |
CN103955702A (zh) | 基于深度rbf网络的sar图像地物分类方法 | |
CN111931505A (zh) | 一种基于子图嵌入的跨语言实体对齐方法 | |
CN103324954A (zh) | 一种基于树结构的图像分类方法及其系统 | |
CN109492589A (zh) | 通过二进制特征与联合层叠结构融合的人脸识别工作方法以及智能芯片 | |
CN104298999A (zh) | 基于递归自动编码的高光谱特征学习方法 | |
AL-Allaf et al. | Pattern recognition neural network for improving the performance of iris recognition system | |
CN107016377A (zh) | 基于sgasen算法的人脸识别优化方法 | |
CN109409644A (zh) | 一种基于改进的c4.5算法的学生成绩分析方法 | |
CN113378998B (zh) | 一种基于机器学习的地层岩性随钻识别方法 | |
CN107194468A (zh) | 面向情报大数据的决策树增量学习方法 | |
Ullah et al. | Adaptive data balancing method using stacking ensemble model and its application to non-technical loss detection in smart grids | |
Bureva et al. | Hierarchical generalized net model of the process of selecting a method for clustering | |
Parvin et al. | A metric to evaluate a cluster by eliminating effect of complement cluster | |
CN106530109A (zh) | 一种基于信息价值的油田开发评价井决策方法 | |
Patidar et al. | Decision tree C4. 5 algorithm and its enhanced approach for educational data mining | |
CN110502669A (zh) | 基于n边dfs子图的轻量级无监督图表示学习方法及装置 | |
Yazdi et al. | Hierarchical tree clustering of fuzzy number | |
CN104166873A (zh) | 一种数据质量模糊表示下多目标微粒群特征选择方法 | |
Hamadeh et al. | Predicting forest fire hazards using data mining techniques: decision tree and neural networks | |
Chatterjee et al. | Judgment analysis based on crowdsourced opinions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190108 |
|
RJ01 | Rejection of invention patent application after publication |