CN102324046A

CN102324046A - 结合主动学习的四分类器协同训练方法

Info

Publication number: CN102324046A
Application number: CN201110257571A
Authority: CN
Inventors: 杨利英; 王轶初; 韩玉想; 盛立杰
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2011-09-01
Filing date: 2011-09-01
Publication date: 2012-01-18

Abstract

本发明公开了一种结合主动学习的四分类器协同训练方法，涉及结合主动学习的协同训练，属于机器学习技术领域。本发明在实现过程中使用了四个分类器，及主动学习，对协同训练方法作了进一步的改进。本发明由于采用四个分类器进行协同训练，将三个分类器的判决都一致的样本直接添加到训练集中，可以保证在提高未标记样本置信度的同时，避免引入过多噪声；本发明由于针对难分样本进行主动学习，提高了学习的效果，同时对这类样本的妥善处理有助于修正各分类器的识别函数；本发明由于将三个分类器的判决都不一致的样本作为难分样本，使得进行主动学习的条件要求较高，且实现简单。本发明适用于诸如网页分类、图象处理、人脸识别、入侵监测等应用领域。

Description

结合主动学习的四分类器协同训练方法

技术领域

本发明属于机器学习技术领域，涉及结合主动学习的协同训练，具体是一种结合主动学习的四分类器协同训练方法，可用于提高半监督学习中未标记样本的利用率，进一步提高半监督学习的学习性能。所提出的方法适用于诸如网页分类、图象处理、人脸识别、入侵监测等应用领域。

背景技术

标准协同训练方法是Blum和Mitchell在1998年提出的。他们提出了标准协同训练方法基于如下三个基本假设：(1)属性集可以被划分为两个集合；(2)每一个属性集的子集合都足以训练一个分类器；(3)在给定类标记的情况下，这两个属性集是相互独立的。其中每个属性集构成一个视图，满足上述假设的视图称为充分冗余的视图。然后分别对已标记的样本在这两个属性集上训练分类器，这样得到两个分类器，将这两个分类器应用到未标记样本上，然后选择每个分类器对分类结果置信度高的未标记样本以及该样本的预测标记加入到另一个分类器已标记样本集中进行下一轮的训练，如此迭代。

标准协同训练方法的前提条件比较苛刻，在真实的问题中，满足充分冗余的要求往往很难达到。就Blum和Mitchell所述的网页分类而言，因为网页本身的信息这一视图与超链接上的信息这一视图很难满足条件独立性，而且大多数问题不具有足够大的属性集，因此很难满足该方法有效的前提条件。很多研究人员就尝试放松这三个假设。也有学者提出了使用不同的分类器在整个属性集上训练的方法，训练时，首先利用已标记样本对两个不同的分类器在整个属性集上进行训练，再用这两个分类器互相将自己在未标记样本上置信度较高的标记加入到对方的训练集中去再训练。此后又将集成学习的思想加入到以前的方法中去提高算法性能，基于整个属性集训练一组分类器，利用投票机制对未标记样本进行标记，加入到已标记样本集中再训练，最后的分类结果由一种改进的加权投票机制决定。但是由于上述的方法挑选未标记示例进行标记的过程中以及选择分类器对未见示例进行预测的过程中频繁地使用10倍交叉验证，使得其计算开销很大，因此Z.H.Zhou和M.Li在2005年提出了tri-training的方法，使用三个分类器，如果两个分类器分类结果一致，那么就将该未标记样本加入到已标记样本中去，这样的做法避免了频繁地计算10倍交叉验证，节省了计算开销，同时他们的方法不需要基于冗余的视图。并且他们基于噪音学习理论分析出以较高概率确保这一做法有效的条件，在引入大量未标记样本的情况下，噪声所带来的负面影响可以被抵消。

Tri-Training方法的步骤如下：

输入：未标记数据集D_u，已标记数据集(初始训练集)D₁，测试集T，某种学习算法L。

输出：分类的错误率。

Step1：随即抽样D₁，抽取三次，得到样本数等于|D₁|的三个训练集S_i，S_i，S₃，用L训练出分类器C₁，C₂，C₃。

Step2：对于任一个由算法L训练出的分类器C_i(i＝1，2，3)，维护其独自的训练集S_i(i＝1，2，3)，将满足{x|x∈D_u，且C_j(x)＝C_k(x)，j，k≠i}的无标记样本x加入到S_i中。遍历完D_u后，得到更新后的S_i’。

Step3：对于每个C_i(i＝1，2，3)，若|S_i′|＞|S_i|，则对C_i利用训练集S_i’重新训练，得到分类器C_i’。

Step4：对于每个C_i，若C_i′≠C_i，则转Step2，直到3个分类器都不再更新为止。

Step5：最终的判决结果由这3个分类器的判决结果组合而成。

通过上面的步骤可以看出来，标准的Tri-Training方法，使用的是3个同构的分类器，通过在D₁上随机抽取样本大小为|D₁|的数据来训练出不同的分类器，训练出三个分类器C₁，C₂，C₃都维护着各自的训练集。遍历未标记数据集D_u，对于每一个样本，由其中两个分类器协同对其类别进行判断，如果分类一致就加入到第三个分类器的训练集中，遍历完后在更新后的训练集上使用学习算法重新训练分类器，重复此过程直到分类器都不再更新为止。

在协同训练方法中，扩充训练集的前提是对未标记样本进行标记，该标记的置信度非常重要，如果置信度很低，那会引入很多“噪声”，训练出的分类器性能会降低，用两个分类器对一个未标记样本做判断，判断一致的概率很高，考虑一种极端情况，待标记样本只有两种可能的类别，即使分类器是对样本随机分类的，依然有50％的概率分类一致，因此引入更多的分类器对未标记样本的类别做出判定可以提高被标记样本的置信度，若多个分类器对一个样本的标记一致，则该标记的置信度会更高。另一方面，对于两个分类器判定不一致的未标记样本，传统协同训练方法的做法是舍弃该样本，这样会对未标记样本造成一定程度的浪费，尤其是当两个分类器误识率比较高，数据集的类别比较多时，对于未标记样本类别的判定不一致的可能性会增大。

发明内容

本发明的目的在于克服现有协同训练方法的不足，提出一种结合主动学习的四分类器协同训练方法，避免了在学习过程中引入过多噪声，提高了对标记样本的利用率，实现简单，能够得到更高的识别率。

本发明是一种结合主动学习的四分类器协同训练方法，即CTA(CollaborativeTraining with Active Learning)。为了实现发明目的，本发明的技术方案是：采用四个分类器进行协同训练并结合主动学习技术提高半监督学习性能，操作步骤包括：

(1)选取对数据集敏感的学习算法L；

(2)针对给定的未标记数据集D_u、已标记数据集(初始训练集)D₁、测试集T及学习算法L，对D₁运用Bootstrap技术抽取四次，得到样本数等于|D₁|的四个训练集S₁，S₂，S₃，S₄，用L训练出分类器C₁，C₂，C₃，C₄；

(3)对于任一个由算法L训练出的分类器C_i(i＝1，2，3，4)，维护其独自的训练集S_i(i＝1，2，3，4)，将满足{x|x∈D_u，且C_j(x)＝C_k(x)＝C_m(x)，j，k，m≠i}的无标记样本x加入到S_i中，将满足{x|x∈D_u，且C_j(x)≠C_k(x)≠C_m(x)，j，k，m≠i}的无标记样本x，由主动学习对其类别进行标记后也加入到S_i中，遍历完D_u后，得到更新后的S_i’；

(4)对于每个C_i(i＝1，2，3，4)，若|S_i′|＞|S_i|，则对C_i利用训练集S_i’重新训练，得到分类器C_i’；

(5)对于每个C_i，若C_i’≠C_i，则转(3)，直到四个分类器都不再更新为止；

(6)最终的判决结果由四个分类器的判决结果组合而成，输出分类的错误率。

现有的使用三个分器的Tri-Training技术中，在更新每一个分类器的训练集时，对于每一个未标记样本，另外两个分类器判决结果一致的可能性很大，使未标记样本的置信度不够高，会引入许多噪音；在本发明中，使用了四个分类器，提高了未标记样本的置信度，从而避免了引入噪音。

在传统的协同训练方法中，对于两个分类器分类不一致的标记样本，在操作中会舍弃这个样本，在一定程度上造成了对未标记样本的浪费；本发明中采取了对训练集敏感的学习算法，在分类器对未标记样本分类都不一致时，利用主动学习对这样的未标记样本进行标记并加以利用，从而更有效的利用了未标记样本并且有助于修正各分类器的分类函数。

本发明的实现还在于：步骤(3)所述的主动学习对无标记样本x进行标记时，是在实验验证中通过查看原始数据集获取真实类别实现的；这样做可以更有效的利用未标记样本，通过这样的处理有助于修正各分类器的分类函数。

本发明的实现还在于：步骤(3)所述的步骤中使用了四个分类器；根据未标记样本数量和分类器的识别率来选择更合适的分类器数目；使用多个分类器，可以提高未标记样本的置信度，避免引入噪音，以得到更好的分类效果。

本发明的实现还在于：步骤(6)所述的四个分类器的判决结果组合，采用多数投票规则；尽量提高了分类的正确率。

本发明的实现使用了四个分类器，在对每一个分类器的训练集更新的过程中，其它三个分类器的判决结果不一致的情况下，使用了主动学习，有效利用了未标记样本，提高了分类的正确率。与现有技术相比，本发明的有益效果有：

一、本发明由于采用四个基分类器进行协同训练，将三个分类器的判决都一致的样本直接添加到训练集中，可以保证在提高未标记样本置信度的同时，避免引入过多噪声；

二、本发明由于针对难分样本进行主动学习，提高了半监督学习的效果，其本质上就是专家会诊，具有重要的现实意义，同时对这类样本的妥善处理有助于修正各分类器的识别函数；

三、本发明由于将三个分类器的判决都不一致的样本作为难分样本，使得进行主动学习的条件要求较高，且实现简单。

附图说明

图1是本发明的流程框图；

图2是三种半监督学习算法训练出的集成分类器识别率的对比；

图3是本发明的结构框图；

具体实施方式

实施例1：

本发明是一种结合主动学习的四分类器协同训练方法，即CTA方法，以i ris为例，给出CTA方法的实施过程如下：

输入：包含96个样本的未标记数据集D_u，包含24个样本的已标记数据集D₁，包含30个样本的测试集T。

输出：测试集T上的分类错误率。

①选取对数据集敏感的朴素贝叶斯算法L；

②针对取出的包含96个样本的未标记数据集D_u、包含24个样本的已标记数据集(初始训练集)D₁、包含30个样本的测试集T及朴素贝叶斯算法L，结合图1对D₁运用Bootstrap技术抽取四次，得到样本数等于|D₁|的四个训练集S₁，S₂，S₃，S₄，用算法L训练出分类器C₁，C₂，C₃，C₄；

由于选取了对训练集敏感的朴素贝叶斯学习算法L，这四个分类器的差异性足够大，提高了分类的效果。

③结合图1对于任一个由算法L训练出的分类器Ci(i＝1，2，3，4)，维护其独自的训练集Si(i＝1，2，3，4)，将满足{x|x∈D_u，且C_j(x)＝C_k(x)＝C_m(x)，j，k，m≠i}的未标记样本x加入到Si中，将满足{x|x∈D_u，且C_j(x)≠C_k(x)≠C_m(x)，j，k，m≠i}的无标记样本x，由主动学习对未标记样本x进行标记后也加入到S_i中，遍历完Du后，得到更新后的Si’。

在这个步骤中使用了四个分类器；在未标记样本数量U一定的情况下，分类器越多，能够有效利用(若干个分类器对无标记样本的分类一致时，这个样本就是叫有效利用)的样本数越少；一方面更多的分类器对一个样本类别标记一致时，该标记的置信度更高，另一方面能够有效利用的样本数越多，训练的分类器识别率越高；根据未标记样本数量和分类器的识别率来选择更合适的分类器数目。

在主动学习对无标记样本x进行标记时，是在实验验证中通过查看原始数据集获取真实类别实现的。

实验中，还统计了在10次实验中CTA方法通过主动学习标记类别的平均次数；iris的未标记样本数目为96，通过主动学习标记类别的平均次数为1.9；可见通过主动学习标记类别的次数是很少的；

④对于每个C_i(i＝1，2，3，4)，若|S_i′|＞|S_i|，则对C_i利用训练集S_i’重新训练，得到分类器C_i’；

⑤对于每个C_i，若C_i’≠C_i，则转(3)，直到四个分类器都不再更新为止；

⑥最终的判决结果由四个分类器的判决结果组合而成，输出分类的错误率。

通过使用三种半监督学习算法训练出的集成分类器识别率的对比，如图2所示，CTA方法优于Co-Training方法和Tri-Training方法，学习效果很好，且主动学习的次数很少，表明该方法使用尽可能少的查询获得了强泛化能力，是一种效果良好的半监督学习方法。

实施例2：

结合主动学习的四分类器协同训练方法同实施例1，以thyroid为例，参见图3，具体流程如下：

取出552个数据放入已标记数据集，取出138个数据放入未标记数据集，剩下的数据放放入测试集。在已标记数据集的基础上，用Boostrap方法取出四个大小为552个的训练样本集。用已选取的学习算法对这四个训练样本集分别训练，得出四个分类器。用这四个分类器去判定未标记数据集中的数据，对于一个分类器C来说，如果其他三个分类器的判决结果是相同的，那这个数据被标记为分类器的判决结果，然后加入到分类器C相对应的训练样本集里，如果其他三个分类器的判决结果彼此都不相同，那么用主动学习将这个数据标记后加入到C相对应的训练样本集中。如果分类器对应的训练集有更新，就用新的数据集去重新训练相对应的分类器，然后验证，直到分类器无更新为止。用训练好的四个分类器对测试集的数据进行分类，最后的判决结果以四个分类器的判决结果组合而成。

具体实施方式如例1，通过实验验证，如图2所示，相对于Co-Training方法和Tri-Training方法，CTA方法的学习效果很好；在CTA的10次实验中，未标记样本数为138，主动学习的次数为2.5次，表明本发明使用尽可能少的查询获得了强泛化能力，是一种避免引入噪声，识别率更高，效果良好的半监督学习方法。

实施例3：

结合主动学习的四分类器协同训练方法同实施例1-2，以wine为例，具体实施方式如例1，通过实验验证，如图2所示的wine数据集的结果，CTA方法的学习效果优于Co-Training方法和Tri-Training方法；在CTA的10实验中，未标记样本数为114，主动学习的平均次数为1.7次，表明本发明使用尽可能少的查询获得了强泛化能力，是一种实现简单，识别率更高，效果良好的半监督学习方法。

实施例4：

结合主动学习的四分类器协同训练方法同实施例1-3以heart为例，具体实施方式如例1，通过实验验证，如图2所示的heart数据集的，CTA方法的学习效果优于Co-Training方法和Tri-Training方法；在CTA的10次实验中，未标记样本数为173，由于heart是二分类数据，所以没有使用主动学习，但效果要好于Co-Training方法和Tri-Training方法，表明本发明是一种强泛化性，效果良好的半监督学习方法。

本发明公开了一种结合主动学习的四分类器协同训练方法，涉及结合主动学习的协同训练，属于机器学习技术领域。本发明在实现过程中使用了四个分类器，并且使用了主动学习，对协同训练方法进一步的改进。本发明由于采用四个基分类器进行协同训练，将三个分类器的判决都一致的样本直接添加到训练集中，可以保证在提高未标记样本置信度的同时，避免引入过多噪声；本发明由于针对难分样本进行主动学习，提高了半监督学习的效果，同时对这类样本的妥善处理有助于修正各分类器的识别函数；本发明由于将三个分类器的判决都不一致的样本作为难分样本，使得进行主动学习的条件要求较高，且实现简单。本发明适用于诸如网页分类、图象处理、人脸识别、入侵监测等应用领域。

Claims

1.结合主动学习的四分类器协同训练方法，其特征在于：采用四个分类器进行协同训练并结合主动学习技术提高半监督学习性能，操作步骤包括：

(1)选取对数据集敏感的学习算法L；

(2)针对给定的未标记数据集D_u、已标记数据集(初始训练集)D₁、测试集T及学习算法L，对D₁运用Bootstrap技术抽取四次，得到样本数等于|D₁|的四个训练集S₁，S₂，S₃，S₄，用算法L对四个训练集分别训练出分类器C₁，C₂，C₃，C₄；

(3)对于任一个由算法L训练出的分类器C_i(i＝1，2，3，4)，维护其独自的训练集S_i(i＝1，2，3，4)，将满足{x|x∈D_u，且C_j(x)＝C_k(x)＝C_m(x)，j，k，m≠i}的无标记样本x加入到S_i中，将满足{x|x∈D_u，且C_j(x)≠C_k(x)≠C_m(x)，j，k，m≠i}的无标记样本x，由主动学习对无标记样本x进行标记后也加入到S_i中，遍历完D_u后，得到更新后的S_i’；

(4)对于每个分类器C_i(i＝1，2，3，4)，若|S_i′|＞|S_i|，则对C_i利用训练集S_i’重新训练，得到分类器C_i’；

(5)对于每个分类器C_i，若C_i’≠C_i，则转步骤(3)，直到四个分类器都不再更新为止；

2.根据权利要求1所述的结合主动学习的四分类器协同训练方法，其特征在于，步骤(3)所述的主动学习对无标记样本x进行标记时，是在实验验证中通过查看原始数据集获取真实类别实现的。

3.根据权利要求1所述的结合主动学习的四分类器协同训练方法，其特征在于，步骤(3)所述的步骤中使用了四个分类器；根据未标记样本数量和分类器的识别率来选择更合适的分类器数目。

4.根据权利要求1所述的结合主动学习的四分类器协同训练方法，其特征在于，步骤(6)所述的四个分类器的判决结果组合，采用多数投票规则。