CN103198052A

CN103198052A - 一种基于支持向量机的主动学习方法

Info

Publication number: CN103198052A
Application number: CN2013101222442A
Authority: CN
Inventors: 冷严; 徐新艳
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2013-04-09
Filing date: 2013-04-09
Publication date: 2013-07-10
Anticipated expiration: 2033-04-09
Also published as: CN103198052B

Abstract

本发明具体公开了一种基于支持向量机的主动学习方法。该方法在主动学习的每轮迭代过程中，从距离支持向量机分类器的分类面较近的样本中进一步挖掘样本的信息量，进而挑选信息含量更大的样本进行人工标注，以达到提高分类器的分类性能，减少人工标注工作量的目的。考虑到支持向量机边界（margin）内的样本距离分类面较近，本发明实施例将支持向量机边界内的样本作为信息含量较大的候选样本。在这些候选样本中，本发明实施例进一步选择那些处在两类边界概率较大的样本作为信息含量更大的样本交由专家进行人工标注。

Description

一种基于支持向量机的主动学习方法

技术领域

本发明涉及机器学习领域，特别是一种基于支持向量机的主动学习方法。

背景技术

在机器学习领域，训练一个具有良好分类性能的分类器需要大量已经标注好的样本参与训练。然而标注样本并不是越多越好，过多的标注样本可能会产生冗余，增加计算的工作量；而且，大量的已标注样本中并不是每个样本都是对分类器的训练有用的。那些信息含量大的样本，由于其对提高分类器性能的贡献大，因而是有用的样本，是值得我们标注的样本。因此，在进行样本标注时，除了要保证一定的数量以外，还应该保证标注样本的质量，这样不但能提高分类器的分类性能，而且可以减少人工标注的工作量。挑选最有用的样本进行人工标注，这正是主动学习技术的核心所在。

主动学习是当前机器学习领域的一个研究热点。所有的主动学习方法都需要对未标注样本的信息量大小进行评价，以挑选信息量大的样本交由专家标注。根据评价策略的不同，主动学习方法主要分为以下几类：

（1）基于不确定性采样的主动学习；

（2）基于委员会的主动学习；

（3）基于预期误差缩减的主动学习；

本发明是基于支持向量机的主动学习方法，属于基于不确定性采样的主动学习范畴。

支持向量机(support vector machines,SVM)是一个二值分类器。Tong&Koller在对称版本空间的假设下证明了距离SVM的分类面最近的样本其信息含量最大，因为此样本能迅速缩减版本空间。但是herbrich指出，现实中许多情况都难以很好地满足对称版本空间这一假设，因此距离分类面最近的样本的信息含量并没有我们预期的那么大。有鉴于此，本发明在样本与分类面距离的基础上进一步挖掘样本的信息量，以找到信息量更大的样本交由专家标注。

发明内容

为了在样本与分类面距离的基础上进一步挖掘样本的信息量，以采样信息量更大的样本，本发明具体公开了一种基于支持向量机的主动学习方法。

本发明采用的技术方案如下：

一种基于支持向量机的主动学习方法，包括以下步骤：

步骤1用初始已标注样本集L训练初始SVM分类器；

步骤2用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本，组成候选样本集S；

步骤3从候选样本集S中挑选信息含量最大的样本交给专家标注；

步骤4将专家标注后的样本放入已标注样本集L中；

步骤5用更新的已标注样本集L重新训练SVM分类器；

步骤6根据停止准则判断是退出循环还是继续迭代。

所述的步骤2中，用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本，组成候选样本集S的方法如下：以SVM分类器边界（margin）内的样本作为候选样本，组成候选样本集S，即：

S＝{x_i|x_i∈U,且|f(x_i)|＜1}

放入候选样本集S中的样本应同时从未标注样本集U中移除。

所述步骤3中，从候选样本集S中挑选信息含量最大的样本的方法如下：首先对候选样本集S中的每个样本x_i，从已标注样本集L中寻找其K个最近邻样本，记作

假设这K个最近邻样本中，正类样本的数目为kⁱ ₊,负类样本的数目为kⁱ _-，求两者中的最小值，即：

k^{i} = \min {k_{+}^{i}, k_{-}^{i}}

最后，从候选样本集S中寻找kⁱ值最大的那个未标注样本作为信息含量最大的样本，并将其交由专家进行人工标注，而对于候选样本集S中其余的样本，应当将其从候选样本集S中移除，并重新放回未标注样本集U中。

所述步骤6中，停止准则的设定方法如下：采用最大迭代次数作为停止准则，即设定迭代次数的最大值，当迭代次数达到此最大值时则停止迭代。最大迭代次数的取值可以根据标注专家对标注工作量的接受程度来定，即，如果标注专家在主动学习的迭代过程中最多愿意标注I个样本，则最大迭代次数的取值即设定为I。

本发明的有益效果：

1）本发明实施例提出的基于支持向量机的主动学习方法在用于支持向量机分类器的训练时能大幅度减少人工标注的工作量；

2）和单纯的基于样本与分类面的距离来选择人工标注样本的方法相比，本发明实施例提出的方法能选择到信息量更大的样本，因而能加快SVM分类器的收敛，提高SVM分类器的分类性能。

附图说明

图1是本发明实施例提出的基于支持向量机的主动学习方法的流程图；

图2是从未标注样本集U中挑选信息含量相对较大的候选样本，进而组成候选样本集S的流程图；

图3是从候选样本集S中挑选信息含量最大的样本的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提出的基于支持向量机的主动学习方法的流程图，具体包括如下6个步骤：（1）用初始已标注样本训练初始SVM分类器；（2）用SVM分类器从未标注样本集U中寻找信息含量相对较大的候选样本，组成候选样本集S；（3）从S中挑选信息含量最大的样本交给专家标注；（4）将标注后的样本放入已标注样本集L中；(5)用更新的已标注样本集L重新训练SVM分类器；（6）根据停止准则判断是退出循环还是继续迭代。下面首先介绍一下支持向量机的原理，然后再详细阐述以上6部分内容。

支持向量机（Support Vector Machines，SVM）原理：

SVM是一种判别式两类分类器，其决策函数可以表达为：

f(x)＝w^Tφ(x)+b （1）

w和b分别表示权值向量和偏斜量。φ(·)是非线性映射函数，用于将低维空间线性不可分的样本映射到高维空间，使得样本在高维空间中线性可分。f(x)＝w^Tφ(x)+b＝0所表示的超平面即为SVM的分类面。f(x)＝w^Tφ(x)+b＝±1所表示的超平面称为SVM分类器的边界（margin）。

对于两类分类问题，设在d维空间中有一组训练样本x_i∈R^di＝1,...,N，样本的类别标签为y_i∈{+1,-1}。SVM就是要寻找一个最优分类面，使得该分类面既能最大化分类间隔

又能正确分类训练样本x_i∈R^di＝1,...,N。具体可以表述为：

\min_{ω, b, ξ} \frac{1}{2} ω^{T} ω + C Σ_{i = 1}^{N} ξ_{i} - - - (2)

subject to y_i(ω^Tφ(x_i)+b)≥1-ξ_i,ξ_i≥0,i＝1,...,N

其中，ξ_i代表松弛变量。C是惩罚因子，用来控制对松弛变量ξ_i的惩罚程度。通过拉格朗日乘子法求解公式(2)中的优化问题可得：

ω = Σ_{i = 1}^{N} α_{i} y_{i} φ (x_{i}) - - - (3)

其中，α_i是拉格朗日乘子。公式（3）中有相当多的α_i值会等于0，而那些α_i值不等于0的样本被称之为支持向量。将（3）式代入（1）式后可将SVM的决策函数重写为：

f (x) = ω^{T} φ (x) + b = Σ_{i = 1}^{M} α_{i} y_{i} φ {(x_{i})}^{T} φ (x) + b - - - (4)

其中，M表示支持向量的个数。φ(x_i)^Tφ(x)的值可以通过核函数k(x_i,x)＝φ(x_i)^Tφ(x)求得，而不需知道映射函数φ(·)的显式表达式。本实施例中的核函数采用的是径向基核函数，即：

k(x_i,x)＝exp(-γ||x_i-x||²) (5)

对于任一测试样本x,将其代入SVM分类器，则样本的分类标签y可由下式得到：

y＝sgn(f(x)) （6）

即，f(x)＞0，则样本x属于+1类；f(x)＜0，则样本x属于-1类。

（1）用初始已标注样本训练初始SVM分类器

主动学习是一个循环迭代的过程，在迭代开始之前首先需要标注少量样本，然后用这些初始的已标注样本训练一个初始SVM分类器。本实施例假设已经有一个初始已标注样本集，然后用其训练了一个初始SVM分类器。初始已标注样本放入已标注样本集L中，形成了L的初始值。其余未标注的样本组成了未标注样本集，用U表示。

（2）用SVM分类器从未标注样本集U中寻找信息含量相对较大的候选样本，组成候选样本集S

附图2给出了从未标注样本集U中挑选信息含量相对较大的候选样本，进而组成候选样本集S的流程图。距离SVM分类器的分类面相对较近的样本，由于其能近似平分版本空间，因此其信息含量相对较大。SVM分类器边界（margin）内的样本由于距离分类面相对较近，所以其信息含量相对较大。因此本实施例以边界（margin）内的样本作为候选样本，组成候选样本集S，即：

S＝{x_i|x_i∈U,且|f(x_i)|＜1} （7）

放入候选样本集S中的样本应同时从未标注样本集U中移除。

（3）从S中挑选信息含量最大的样本交给专家标注

附图3给出了从候选样本集S中挑选信息含量最大的样本的结构框图。首先对S中的每个样本x_i，从已标注样本集L中寻找其K个最近邻样本，记作

假设这K个最近邻样本中，正类样本的数目为kⁱ ₊，负类样本的数目为kⁱ _-，求两者中的最小值，即：

k^{i} = \min {k_{+}^{i}, k_{-}^{i}} - - - (8)

最后，从S中寻找kⁱ值最大的那个未标注样本作为信息含量最大的样本，并将其交由专家进行人工标注，而对于S中其余的样本，应当将其从S中移除，并重新放回未标注样本集U中。

kⁱ值越大的未标注样本，其周围分布的正类样本和负类样本越均匀，这代表该未标注样本处在两类边界的概率越大，而类边界上的样本能帮助SVM分类器迅速找到真正的分类面，因而其信息含量也就越大。S中kⁱ值最大的样本，一方面其离SVM分类面的距离较近，这在一定程度上能保证其信息量相对较大；另一方面，其kⁱ值大，这从边界样本的角度进一步保证了其具有大的信息量。将这种样本进行标注后加入训练集中必将能较明显地提高分类器的分类性能。

（4）将标注后的样本放入已标注样本集L中

（5）用更新的已标注样本集L重新训练SVM分类器

（6）根据停止准则判断是退出循环还是继续迭代

本实施例采用最大迭代次数作为停止准则，即设定迭代次数的最大值，当迭代次数达到此最大值时则停止迭代。最大迭代次数的取值可以根据标注专家对标注工作量的接受程度来定，即，如果标注专家在主动学习的迭代过程中最多愿意标注I个样本，则最大迭代次数的取值即设定为I。

判断当前主动学习的循环迭代是否满足以上停止准则，满足则退出循环，输出训练好的SVM分类器，否则转入步骤（2），进入下一轮迭代。

Claims

1.一种基于支持向量机的主动学习方法，其特征在于，包括以下步骤：

步骤1用初始已标注样本集L训练初始SVM分类器；

步骤4将专家标注后的样本放入已标注样本集L中；

步骤5用更新的已标注样本集L重新训练SVM分类器；

步骤6根据停止准则判断是退出循环还是继续迭代。

2.如权利要求1所述的一种基于支持向量机的主动学习方法，其特征在于，用SVM分类器从未标注样本集U中寻找落在其边界内的候选样本，组成候选样本集S的方法如下：以SVM分类器边界内的样本作为候选样本，组成候选样本集S，即：

S＝{x_i|x_i∈U,且|f(x_i)|＜1}

放入候选样本集S中的样本应同时从未标注样本集U中移除。

3.如权利要求1所述的一种基于支持向量机的主动学习方法，其特征在于，所述步骤3中，从候选样本集S中挑选信息含量最大的样本的方法如下：首先对候选样本集S中的每个样本xi，从已标注样本集L中寻找其K个最近邻样本，记作

k^{i} = \min {k_{+}^{i}, k_{-}^{i}}

4.如权利要求1所述的一种基于支持向量机的主动学习方法，其特征在于，所述步骤6中，停止准则的设定方法如下：采用最大迭代次数作为停止准则，即设定迭代次数的最大值，当迭代次数达到此最大值时则停止迭代；最大迭代次数的取值可以根据标注专家对标注工作量的接受程度来定，即，如果标注专家在主动学习的迭代过程中最多愿意标注I个样本，则最大迭代次数的取值即设定为I。