CN102270192A

CN102270192A - 一种基于svm主动学习的多标签分类控制方法

Info

Publication number: CN102270192A
Application number: CN2011102117849A
Authority: CN
Inventors: 刘端阳; 邱卫杰; 何熊熊
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2011-07-27
Filing date: 2011-07-27
Publication date: 2011-12-07

Abstract

一种基于SVM主动学习的多标签分类控制方法，包括以下步骤：1)选择样本，过程如下：首先确定两条边界线之间的距离，对每个未知样本计算其决策值，计算每个样本所对应的后验概率值，包括正类的概率和负类的概率；根据期望间隔公式计算期望间隔的大小；对某个特定的未知样本，计算其期望间隔；确定好样本选择标准后，使用如下公式来选择最有价值的样本：

2)确定样本后进行分类，未带类别标注的候选样本集U；带类别标注的测试集L；每次从U中选取固定的样本数；主动学习循环的次数。本发明计算速度快、模型合理、主动学习效果较好。

Description

一种基于SVM主动学习的多标签分类控制方法

技术领域

本发明涉及一种多标签分类方法。

背景技术

信息时代的到来，使得大量信息开始以计算机可读的形式存在，并且数量急剧增加。但是这些信息鱼龙混杂，很多有意义的数据都被大量的垃圾信息所淹没，如何从这些信息中自动分类出有用的信息将是一个重要的课题。

在传统的分类问题中，都是假定一个样本只属于一个类标签。但是由于客观事物本身的复杂性，一个样本可以同时拥有多个标签。在所有的多标签学习框架中，每个样本与一个标签集合相关联，多标签学习的任务就是要为未知样本预测其标签集，且标签集的大小是未知的。

监督的学习方法在分类领域得到了广泛的应用，但要想在这种方法下得到一个比较满意的分类模型则需要大量的训练数据。而构造多标签训练样本集则需要耗费领域专家巨大的工作量。同时，训练样本过多将使得学习过程变慢，甚至变得难以接受，而主动学习能有效的克服这两个瓶颈。它根据现有的分类模型，采用某种样本选择策略，迭代的选择一些最有价值的样本进行标记，能最快的改进现有模型的分类性能。支持向量机(SVM：Support Vector Machine)是在上世纪90年代以来逐渐被人们广泛应用的一种统计学习方法，是一种基于统计学习理论的新型的分类技术。支持向量机最突出的优点在于它强大的推广能力，在解决小样本、非线性和高维等模式识别问题中表现出许多特有的优势，是一种可以进行累积学习的学习模型。

目前，关于SVM主动学习的多标签分类技术还比较少，主要关注点还停留在单标签的主动学习上。据了解，国内最新且最有价值的关于多标签的研究就是杨碧姗的文章，先估计样本在每个标签上的后验概率并排序，接着利用逻辑回归预测标签的数目，然后近似的确定样本标签，据此来构造损失函数并作为样本的选择策略。而国内其他文章几乎都是针对多类的研究。比如袁勋等利用每个类别的后验概率构造样本置信度，以此作为样本选择依据，宋鑫颖等通过减少非支持向量来保证训练速度。国外最早使用SVM方法来解决多标签主动学习的是Xuchun Li，他利用在相邻两个循环中期望损失下降的程度作为分类器改进的标志。使用了最大平均损失值和最大损失值两种计算方法。Brinker利用的选择策略是依据所有二分类支持向量机的输出绝对值的最小值，以期能够最大限度的约简版本空间。由于不同的分类器间输出的值不具有直接可比性，所以Mohan Singh等提出了一种利用后验概率来选择样本的方法。

发明内容

为了克服已有的多标签分类方法的计算速度较慢、主动学习效果较差的不足，本发明提供一种计算速度快、模型合理、主动学习效果较好的基于SVM主动学习的多标签分类控制方法。

本发明解决其技术问题所采用的技术方案是：

一种基于SVM主动学习的多标签分类控制方法，所述多标签分类控制方法包括以下步骤：

1)选择样本，过程如下：

1.1)首先确定两条边界线之间的距离：在高维空间中的分类间隔；

1.2)对每个未知样本计算其决策值：将未知样本代入分类器，计算在高维空间中离分隔线间的距离；

1.3)计算每个样本所对应的后验概率值，包括正类的概率和负类的概率，分别表示为P(y＝1|x)和P(y＝-1|x)；

1.4)根据期望间隔公式计算期望间隔的大小，若样本估计为正类时，则对应的间隔为：

{M \arg in}^{+} \approx \frac{M \arg in}{2} + f (x),

若样本估计为负类的时候，则对应的间隔为

{M \arg in}^{-} \approx \frac{M \arg in}{2} - f (x);

1.5)对某个特定的未知样本，其对应的期望间隔由下述公式计算得到E_M＝Margin⁺*P(y＝1|x)+Margin^-*P(y＝-1|x)；

1.6)确定好样本选择标准后，使用如下公式来选择最有价值的样本：

\min_{i = 1, . . ., l} (\min_{j = 1, . . ., n (n - 1) / 2} E_{M}) - - - (1);

2)确定样本后，设定未带类别标注的候选样本集U、带类别标注的测试集L、每次从U中选取固定的样本数和主动学习循环的次数，分类过程如下：

2.1)从候选样本集U中选择n个样本并正确标注其类标号，构造初始训练样本集T，保证T中每个类别各有一个样本；

2.2)根据训练集T，构造SVM分类器f；

2.3)对U中所有样本使用当前分类器f进行计算，求得其决策值；

2.4)依据f值和sigmoid函数求得样本属于正类和负类的后验概率值；

2.5)根据后验概率和决策值，利用期望间隔公式求得期望间隔的大小；

2.6)依据公式(1)的标准从样本集U中选择额定数目的样本；

2.7)将步骤2.6)所选择的样本集正确标注后加入到训练集T中，同时从U中舍去此样本集；

2.8)若检测循环达到预定次数时，分类终止，并返回分类器f，否则重复步骤2.2)。

本发明的技术构思为：基于SVM分类器的构建就是寻求最大化分类间隔，因此在样本较少的情况下自然会使得样本间的间隔扩大化了，而且会远远大于实际间隔，从而导致了分类器在预测过程中会做出错误的判断。我们需要找到某种方法来尽快的缩减样本间的间隔大小。为此本发明提出了一种基于期望间隔大小选择策略的主动学习方法，依据当前样本集，能够迅速的缩小分类间隔，以求尽快的提高分类性能。根据图1，我们对本发明的原理进行阐述：当所选择的未知样本为正类的时候(图中空心圆)，超平面将会向负类方向移动，由原支持向量所确定的分类间隔的正边界线可以由图1中的f(x)＝1近似为到f′(x)＝1，超平面也由S1近似成S2，而负边线的位置却不会有太大的改变，由此分类间隔可近似为(M argin为上一次分类间隔的大小)。反之，当样本为负类的时候，近似的原理也类似，故而不做重复的分析。对于任意一个未标记的样本，我们可以先估计它分别属于正类和负类的后验概率值，从而可以得到估计的分类间隔。

本发明的有益效果主要表现在：操作简单；计算速度快，特别是对于多标签情况；学习速度快；不依赖于径向基核函数。

附图说明

图1是期望间隔原理图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1，一种基于SVM主动学习的多标签分类控制方法，所述多标签分类控制方法包括以下步骤：

1)选择样本，过程如下：

{M \arg in}^{+} \approx \frac{M \arg in}{2} + f (x),

若样本估计为负类的时候，则对应的间隔为

{M \arg in}^{-} \approx \frac{M \arg in}{2} - f (x);

\min_{i = 1, . . ., l} (\min_{j = 1, . . ., n (n - 1) / 2} E_{M}) - - - (1);

2.2)根据训练集T，构造SVM分类器f；

2.6)依据公式(1)的标准从样本集U中选择额定数目的样本；

本实施例中，使用的SVM训练程序、后验概率的计算方法、数据集等均来自台湾大学林智仁教授等的成果，其中训练集、测试集为scene数据集。

1.首先把多标签的样本转变成单标签的样本。比如0、4标签集转换成0号标签，0、5标签集转换成1号标签。通过转换之后有14个不同的标签代表每个标签集合。

2.再从训练集每个标签类中选择第一个样本，作为起始训练样本集，并得到91个分类器。

3.用分类器对训练集的剩余标签计算每个样本的分类价值。如对scene训练集中的第一个样本进行相应计算，由于采用的是1-versus-1方法，需要对任意两个标签进行比较，可以得到以下数据。当是0标签和1标签比较的时候，对应的决策值为0.0250505，属于第0类标签的概率为49.5659％。因此该标签为正类时候的样本的间隔Margin＝1.0250505，负类时候的间隔为Margin＝0.9749495，则期望间隔的大小可以近似为1.0250505*49.5659％+0.9749495*0.504341＝0.999782512。当时0标签和2标签比较的时候，同样可得，对应的决策值为0.0446003，属于第0类标签的概率为0.492272，则对应的期望间隔大小为0.999311。本例中，我们没有考虑软间隔问题，同时我们假定当决策值大于1的时候，认为未知样本对分类器分类性能的改进没有帮助，也就不计算该样本的期望间隔，不参与后期的最小期望间隔的比较。接下去需要对剩余的89组分类器计算期望间隔大小。再接着从91个间隔数据中挑选出最小的期望的间隔大小作为该样本的期望间隔大小，本例中该样本的分类价值为0.996563，再参与所有样本中的大小比较，选择间隔最小的20个样本作为最有价值的样本，再加入训练样本组，重新得到分类器。循环迭代，直到满足设定的停止条件。

4.对本方法的性能做初步的实验对比。每次循环选择20个样本，共循环10次，采用scene数据集中的测试样本集。若利用最小期望间隔方法，可以得到每次循环时，每组分类器能正确分类测试集的样本个数为：165，246，354，439，563，514，449，536，548，528，531。与此对比的最小决策值的方法能正确预测样本个数为：132，195，197，323，330，348，363，383，398，374，403。可以得到，基于期望间隔的方法性能远远好于基于最小决策值的主动学习方法。

Claims

1.一种基于SVM主动学习的多标签分类控制方法，其特征在于：所述多标签分类控制方法包括以下步骤：

1)选择样本，过程如下：

{M \arg in}^{+} \approx \frac{M \arg in}{2} + f (x),

若样本估计为负类的时候，则对应的间隔为

{M \arg in}^{-} \approx \frac{M \arg in}{2} - f (x);

\min_{i = 1, . . ., l} (\min_{j = 1, . . ., n (n - 1) / 2} E_{M}) - - - (1);

2.2)根据训练集T，构造SVM分类器f；

2.6)依据公式(1)的标准从样本集U中选择额定数目的样本；