CN103793510B

CN103793510B - 一种基于主动学习的分类器构建方法

Info

Publication number: CN103793510B
Application number: CN201410042498.8A
Authority: CN
Inventors: 吴健; 张宇; 徐在俊
Original assignee: SUZHOU RONGXI INFORMATION TECHNOLOGY Co Ltd
Current assignee: Suzhou Feiyu Mutual Entertainment Information Technology Co.,Ltd.
Priority date: 2014-01-29
Filing date: 2014-01-29
Publication date: 2017-10-03
Anticipated expiration: 2034-01-29
Also published as: CN103793510A

Abstract

本发明公开了一种基于主动学习的分类器构建方法，充分考虑未标注样本的当前价值和预期价值，挑选高价值的样本。首先利用样本的最优和次优类别信息计算样本的当前价值，根据样本的当前价值的高低选出一部分价值高的样本组成候选样本集，然后计算候选样本集中样本的预期价值，结合样本的当前价值，得到样本的总价值，最后根据样本的总价值，挑选高价值的未标注样本进行标注，添加到训练样本集中，更新分类器。根据不同数据集上的实验结果表明，本发明的方法能够在选择相同数量样本的条件下，得到较高分类正确率的分类器。

Description

一种基于主动学习的分类器构建方法

技术领域

本发明涉及一种采用计算机进行数据分类的方法，具体涉及基于主动学习方法从大量样本中选择生成训练样本集，并构建经过训练的数据分类器的方法。

背景技术

数据的自动分类是计算机自动处理中的一项重要技术，广泛应用于数据挖掘、医学诊断、交通管理、人体特征识别等领域。计算机处理中的数据分类方法，通常包括构建分类器模型并采用训练样本集对分类器模型进行训练，获得经过训练的数据分类器。

数据分类方法中训练分类器模型是关键的难点，主要是原因是由于分类器模型需要用户标注大量的数据训练样本，而标注大量的数据样本需要花费大量的人力和时间。且在实际的应用中，有大量的图像标注工作比较困难，需要专家进行标注。

为了解决标注大量样本困难的问题，主动学习算法已经在机器学习和模式识别领域收到广大研究学者的广泛关注和深入研究。在主动学习算法中，不是被动地接受训练样本，而是利用一定的准则主动选择有价值的样本去训练学习器。因此，主动学习算法主要通过选择少量高价值的训练样本来提高学习器的分类性能，减少人工标注的工作量，提高效率。

主动学习算法主要包括学习和采样两部分。学习即是利用得到的训练样本学习得到相应的学习器。采样策略就是从大量的未标注样本中挑选出少量的有价值的样本，降低分类算法的标记代价，利用少量的训练样本得到高性能的学习器。所以，采样策略是主动学习算法的关键部分。

现有技术中，提出了基于样本最优次优类别（Best vs Second Best，BvSB）的主动学习算法，该算法仅考虑对样本的不确定性影响较大的部分类别，较好地改进了信息熵的不足。但是，BvSB算法仅考虑对于当前分类器不确定的样本，实际使用中，当样本添加到训练样本集后，添加的样本的不确定性对于更新之后的分类器会产生影响，导致训练结果不能达到预期目标。因此，采用BvSB算法构建的分类器存在一定的缺陷。

发明内容

本发明的发明目的是提供一种基于主动学习生成训练样本集并构建数据分类器的方法，以解决现有技术中训练样本集生成中存在的缺陷，获得高价值的样本，提高数据分类器的分类性能。

为达到上述发明目的，本发明采用的技术方案是：一种基于主动学习的分类器构建方法，根据未标注样本和数据特征生成训练样本集并训练分类器，包括下列步骤：

(1) 从未标注样本集中随机选择20~50个样本进行人工标注，构建初始训练样本集，然后根据初始训练样本集的数据特征构建初始分类器H⁽⁰⁾；

(2)采用上一步获得的分类器H^(t)计算每一个未标注样本的BvSB值，BvSB值的计算方法是：

，

其中，x是未标注样本集U中的样本，是样本属于最优类别的后验概率，是样本属于次优类别的后验概率，t是步骤(2)至(6)的循环次数；

(3)根据步骤(2)选择h个BvSB值最小的未标注样本组成候选样本集，其中，h为步骤(5)中选择的样本个数的2～5倍；

(4)计算候选样本集中每个未标注样本的总价值，方法是：

[4-1] 取候选样本集中的一个未标注样本，用该样本分别结合其最优类别和次优类别标签更新分类器H^(t)，得到临时分类器和，其中是最优类别标签，是次优类别标签；

[4-2] 利用得到的两个临时分类器计算该未标注样本的两个BvSB值，在这两个BvSB值中较大的BvSB值作为该未标注样本的期望价值，表达为；

[4-3] 基于分类器H^(t)得到该未标注样本的BvSB值，表达为，利用以下公式计算该未标注样本的总价值；

；

重复步骤[4-1]至[4-3]，获得候选样本集中所有未标注样本的总价值；

(5)在候选样本集中选择2～10个Opt值最小的未标注样本进行人工标注，添加到训练样本集中，获得当前训练样本集；

(6) 利用当前训练样本集对分类器H^(t)进行训练更新；

(7) 重复步骤(2)至(6)，直至满足分类器训练的停止条件。

上述技术方案中，总样本数（即初始的未标注样本数）根据待分类的数据而定，通常为数千至数十万。初始分类器的构建为现有技术，可以采用现有的任一种分类器构建方法构建，例如，贝叶斯分类器、BP神经网络分类器、支持向量机，等等。

优选的技术方案，步骤(3)中，h为步骤(5)中选择的样本个数的2～3倍。候选样本集过大，会导致速度变慢，因此，上述选择能有效加快训练速度。

优选的技术方案，步骤(5)中，在候选样本集中选择2～5个Opt值最小的未标注样本进行人工标注。从而在保证分类器训练速度的同时，有效减少样本冗余。

上述技术方案中，步骤(7)中，分类器训练的停止条件是，分类正确率≥95%，或者训练样本集中的样本数≥总样本数×70%。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

1.本发明在计算未标注样本的价值时，综合考虑样本的当前价值和预期价值，充分考虑了未标注样本对新分类器的价值。

2.与基于熵的主动算法相比，本发明利用样本的最优和次优类别信息计算样本的价值，减少样本的其他类别信息对样本价值的影响。

3.与BvSB主动算法相比，本发明考虑样本的预期价值，结合当前价值和预期价值，得到未标注样本的总价值，能够优化样本价值的计算方法。

4.与BvSB+EER主动算法相比，本发明有较低的时间复杂度。

5.实验结果表明，本发明的方法能够在选择较少样本的情况下获得较高分类性能的分类器。

附图说明

图1是本发明实施例中基于最大分类优化主动学习算法框架图。

图2是实施例中各种方法在人工数据集上实验结果比较图；

图3是实施例中各种方法在UCI标准数据集上Letter数据集的实验结果比较图；

图4是实施例中各种方法在UCI标准数据集上Pen-Digits数据集的实验结果比较图；

图5是实施例中各种方法在高维数据集上的实验结果比较图。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：参见图1所示，一种基于主动学习的分类器构建方法，根据未标注样本和数据特征生成训练样本集并训练分类器，包括下列步骤：

，

(4)计算候选样本集中每个未标注样本的总价值，方法是：

；

(6) 利用当前训练样本集对分类器H^(t)进行训练更新；

(7) 重复步骤(2)至(6)，直至满足分类器训练的停止条件。

采用上述方法对具体数据进行分类实验，如下：

首先随机选择26个样本训练初始分类器，然后根据样本价值的计算方法计算各个样本的总价值。未标注样本集大小是9974，数据的维数是16，数据的类别是26，候选样本集的大小设定是，每轮选择的样本数是5。

上文中，候选样本集的大小，和每轮选择的样本数可以根据情况设定，但是每轮选择的样本数应该小于等于候选样本集大小的一半。根据数据样本的维数和数量大小，本领域技术人员可以适当调整候选样本集和所选样本数大小。为方便说明步骤，这里仅说明19轮结束后，第20轮的选择步骤。

[1]利用当前分类器，计算未标注样本集中所有样本的BvSB值，由于样本数量较多，这里只给出BvSB值最小的10个样本的值。

这10个样本的最优次优类别标签如下：

[2]分别利用样本的最优次优类别临时更新分类器，得到的BvSB值：

[3]该10个样本的预期BvSB值和对应的类别标签分别是：

[4]该10个样本的总价值（表中值越小，价值越大）是：

[5]根据样本的总价值大小，所选的样本是：

[6]利用上面选出的5个样本继续更新分类器，直至达到设定的阈值。

为了说明本发明的效果，将本实施例的方法与其它三种方法进行了比较，其它三种方法分别是：Entropy方法，BvSB方法，BvSB+EER方法，图中，本实施例的方法用MCO表示。

参见附图所示，附图2是在人工数据集上实验结果图，附图3、4是分别在UCI标注数据集上Letter和Pen-Digits数据集的实验结果图，附图5是高维数据集上的实验结果图。由图可以看出，本发明的方法准确率高，只有在样本数较少的情况下，BvSB+EER的方法准确率略高，但是，从下表1可以看出，本发明与BvSB+EER主动算法相比，有较低的时间复杂度。

因此，本发明的方法能够在选择较少样本的情况下获得较高分类性能的分类器。

表1

。

Claims

1.一种基于主动学习的分类器构建方法，根据未标注样本和数据特征生成训练样本集并训练分类器，包括下列步骤：

，

(4)计算候选样本集中每个未标注样本的总价值，方法是：

；

(6) 利用当前训练样本集对分类器H^(t)进行训练更新；

(7) 重复步骤(2)至(6)，直至满足分类器训练的停止条件。

2.根据权利要求1所述的基于主动学习的分类器构建方法，其特征在于：步骤(3)中，h为步骤(5)中选择的样本个数的2～3倍。

3.根据权利要求1所述的基于主动学习的分类器构建方法，其特征在于：步骤(5)中，在候选样本集中选择2～5个Opt值最小的未标注样本进行人工标注。

4.根据权利要求1所述的基于主动学习的分类器构建方法，其特征在于：步骤(7)中，分类器训练的停止条件是，分类正确率≥95%，或者训练样本集中的样本数≥总样本数×70%。