CN103927394A

CN103927394A - 一种基于svm的多标签主动学习分类方法及系统

Info

Publication number: CN103927394A
Application number: CN201410184086.8A
Authority: CN
Inventors: 赵朋朋; 焦阳; 鲜学丰; 吴健; 崔志明
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2014-05-04
Filing date: 2014-05-04
Publication date: 2014-07-16
Anticipated expiration: 2034-05-04
Also published as: CN103927394B

Abstract

本申请公开了一种基于SVM的多标签主动学习分类方法及系统，所述方法包括：构建候选样本集；确定所述候选样本集内各样本所属的标签集；响应用户操作，将所述候选样本集及候选样本集内各样本所属的标签集进行标注，得到标注的样本；将所述标注的样本加入训练样本集进行训练，更新分类器；利用所述分类器对获取的待分类样本进行分类。所述基于SVM的多标签主动学习分类方法，通过初步确定样本所属的标签集，从而在很大程度上节约了人力成本以及人工标注的时间，从而在节省人力的基础上，还解决了多标签样本的学习分类问题。

Description

一种基于SVM的多标签主动学习分类方法及系统

技术领域

本申请涉及机器学习技术领域，更具体地说，涉及一种基于SVM的多标签主动学习分类方法及系统。

背景技术

信息时代的到来，使得大量的信息开始以计算机可读的形式存在，并且数量急剧增加。但是，这些信息鱼龙混杂，很多有意义的数据都被大量的垃圾信息所淹没，如何从这些信息中自动分类出有用的信息将是一个重要的课题。

现有的分类问题中，都是假定一个样本只属于一个类标签，然后通过监督的学习方法，利用支持向量机来对样本进行分类。支持向量机(SVM，Support Vector Machine)是在上世纪90年代以来逐渐被人们广泛应用的一种统计学习方法，是一种基于统计学习理论的新型的分类技术。但是，由于客观事物本身的复杂性，一个样本可以同时拥有多个标签，传统的单标签学习分类方法将不再适用于多标签的样本。因此，针对多标签的样本，研究一种学习分类方案是非常有意义的。

发明内容

有鉴于此，本申请提供了一种基于SVM的多标签主动学习分类方法及系统，用于解决现有的主动学习分类方法不适用于多标签样本的问题。

为了实现上述目的，现提出的方案如下：

一种基于SVM的多标签主动学习分类方法，包括：

构建候选样本集；

确定所述候选样本集内各样本所属的标签集；

响应用户操作，将所述候选样本集及候选样本集内各样本所属的标签集进行标注，得到标注的样本；

将所述标注的样本加入训练样本集进行训练，更新分类器；

利用所述分类器对获取的待分类样本进行分类。

优选的，所述候选样本集具体为采用基于Max-Margin uncertainty采样策略选择的样本的集合。

优选的，所述候选样本集的构建具体包括：

对部分训练样本进行训练得到多标签SVM分类器F＝[f₁,…,f_k]；

利用所述多标签SVM分类器得到样本x_i的预测标签向量

根据所述预测标签向量计算出所述样本x_i的不确定性度量值u(x_i)，具体计算公式为：

sep_m \arg in (x_{i}) \begin{matrix} = \min_{k &Element; {\hat{y}}_{i}^{+}} f_{k} (x_{i}) - \max_{s &Element; {\hat{y}}_{i}^{-}} f_{s} (x_{i}) \\ = \min_{k &Element; {\hat{y}}_{i}^{+}} | f_{k} (x_{i}) | + \min_{s &Element; {\hat{y}}_{i}^{-}} | f_{s} (x_{i}) | \end{matrix},

u (x_{i}) = \frac{1}{sep_m \arg in (x_{i})},

其中，和分别代表预测的正例和负例标签集；

选取所述不确定性度量值大于预设不确定性度量值的样本构建所述候选样本集。

优选的，所述标签集具体为利用直推学习的方法确定的。

优选的，所述标签集的确定具体包括：

定义样本x_i的标签集组成结构为α_i＝(α_i1,α_i2,…,α_ik)^Τ，其中，α_ij代表样本x_i具有第j个标签的分数；

利用所有样本构造一个k临近图，并应用kd-tree对每个样本的k个近邻样本进行搜索；

计算各个所述近邻样本之间的相似性度量值；

将所述相似性度量值进行优化得到每个样本的最优α值；

将所述α值降序排列得到候选标签集，并结合预先估计的每个样本的标签数目确定各样本所属的标签集。

一种基于SVM的多标签主动学习分类系统，包括：构建单元、确定单元、标注单元、更新单元以及分类单元，其中：

所述构建单元，用于构建候选样本集；

与所述构建单元相连的确定单元，用于确定所述候选样本集内各样本所属的标签集；

分别与所述构建单元、确定单元相连的标注单元，用于响应用户操作，将所述候选样本集及候选样本集内各样本所属的标签集进行标注，得到标注的样本；

与所述标注单元相连的更新单元，用于将所述标注的样本加入训练样本集进行训练，更新分类器；

与所述更新单元相连的分类单元，用于利用所述分类器对获取的待分类样本进行分类。

优选的，所述构建单元具体采用基于Max-Margin uncertainty采样策略选择的样本构建候选样本集。

优选的，所述构建单元具体包括：多标签SVM分类器单元、预测标签向量单元、不确定性度量单元以及样本选择单元，其中：

所述多标签SVM分类器单元，用于对部分训练样本{进行训练得到多标签SVM分类器F＝[f₁,…,f_k]；

与所述多标签SVM分类器单元相连的预测标签向量单元，用于利用所述多标签SVM分类器得到样本x_i的预测标签向量

与所述预测标签向量单元相连的不确定性度量单元，用于根据所述预测标签向量计算出所述样本x_i的不确定性度量值u(x_i)，具体计算公式为：

sep_m \arg in (x_{i}) \begin{matrix} = \min_{k &Element; {\hat{y}}_{i}^{+}} f_{k} (x_{i}) - \max_{s &Element; {\hat{y}}_{i}^{-}} f_{s} (x_{i}) \\ = \min_{k &Element; {\hat{y}}_{i}^{+}} | f_{k} (x_{i}) | + \min_{s &Element; {\hat{y}}_{i}^{-}} | f_{s} (x_{i}) | \end{matrix},

u (x_{i}) = \frac{1}{sep_m \arg in (x_{i})},

其中，和分别代表预测的正例和负例标签集；

与所述不确定性度量单元相连的样本选择单元，用于选取所述不确定性度量值大于预设不确定性度量值的样本构建所述候选样本集。

优选的，所述确定单元具体为利用直推学习的方法确定所述候选样本集内各样本所属的标签集。

优选的，所述确定单元具体包括：定义单元、搜索单元、相似性计算单元、优化单元以及标签集选择单元，其中：

所述定义单元，用于定义样本x_i的标签集组成结构为α_i＝(α_i1,α_i2,…,α_ik)^Τ，其中，α_ij代表样本x_i具有第j个标签的分数；

与所述定义单元相连的搜索单元，用于利用所有样本构造一个k临近图，并应用kd-tree对每个样本的k个近邻样本进行搜索；

与所述的搜索单元相连的相似性计算单元，用于计算各个所述近邻样本之间的相似性度量值；

与所述相似性计算单元相连的优化单元，用于将所述相似性度量值进行优化得到每个样本的最优α值；

与所述优化单元相连的标签集选择单元，用于将所述α值降序排列得到候选标签集，并结合预先估计的每个样本的标签数目确定各样本所属的标签集。

从上述的技术方案可以看出，与现有技术相比，本发明公开了一种基于SVM的多标签主动学习分类方法及系统，该方法通过构建候选样本集，并初步确定候选样本集内各样本所属的标签集，从而在很大程度上节约了人工的判断，随后响应用户操作，将候选样本集及候选样本集内各样本所属的标签集进行标注，得到标注的样本，然后将标注的样本加入训练样本集进行训练，更新分类器，最后利用分类器对获取的待分类样本进行分类。通过该方法，在节省人力的基础上，还解决了多标签样本的学习分类问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例一公开的一种基于SVM的多标签主动学习分类方法流程图；

图2为本发明实施例一公开的一种构建候选样本集的流程图；

图3为本发明实施例一公开的一种确定标签集的流程图；

图4为本发明实施例二公开的一种基于SVM的多标签主动学习分类系统结构示意图；

图5为本发明实施例二公开的一种构建单元的结构示意图；

图6为本发明实施例二公开的一种确定单元的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

为了克服现有技术中，传统的单标签学习分类方法将不再适用于多标签的样本这样的现有技术问题，本发明提供了以下技术方案。

实施例一

本发明实施例一公开了一种基于SVM的多标签主动学习分类方法，参见图1所示，图1为本发明实施例一公开的一种基于SVM的多标签主动学习分类方法流程图。该方法包括：

S101：构建候选样本集。

在本步骤中，候选样本集具体为采用基于Max-Margin uncertainty采样策略选择的样本的集合，其中，Max-Margin uncertainty是基于不确定性的一种采样策略，不确定性采样策略，即为利用训练得到的分类器，对样本进行分类，通过某一选择标准，选择那些不确定性高的样本。

如图2所示，图2为本发明实施例一公开的一种构建候选样本集的流程图。包括：

S201：对部分训练样本进行训练得到多标签SVM分类器。

具体的，对部分训练样本进行训练得到多标签SVM分类器F＝[f₁,…,f_k]。

F是由k个分类器组成的，k为样本的所有标签数。其中，f_i的取值范围为(-1,1)，当f_i小于取值范围内的某一预设值时，表示样本x_i不具有第i个标签，当f_i大于取值范围内的某一预设值时，表示样本x_i具有第i个标签。例如，当该预设值为0时，若f_i∈(-1,0)，则样本x_i不带第i个标签，若f_i∈(0,1)，则样本x_i带第i个标签。需要说明的是，此处预设值不限定为0，也可以为(-1,1)之间的任意实数，根据具体情况进行选择。

S202：利用多标签SVM分类器得到每个样本对应的预测标签向量。

本步骤中，利用训练得到的多标签SVM分类器得到样本x_i的预测标签向量具体的，通过F中每个分类器对样本进行分类，其中第i个分类器得到样本是否具有第i个标签的结果，最后将结果合并得到样本x_i的预测标签向量包括和和分别代表预测的正例和负例标签集，表示(向量)中出现1的部分，即表示该样本具有相应的标签，同理，表示(向量)中出现0的部分，即表示该样本不具有相应的标签。

S203：根据预测标签向量计算样本的不确定性度量值。

根据每个样本对应的预测标签向量计算出样本x_i的不确定性度量值u(x_i)，具体计算公式为：

sep_m \arg in (x_{i}) \begin{matrix} = \min_{k &Element; {\hat{y}}_{i}^{+}} f_{k} (x_{i}) - \max_{s &Element; {\hat{y}}_{i}^{-}} f_{s} (x_{i}) \\ = \min_{k &Element; {\hat{y}}_{i}^{+}} | f_{k} (x_{i}) | + \min_{s &Element; {\hat{y}}_{i}^{-}} | f_{s} (x_{i}) | \end{matrix},

u (x_{i}) = \frac{1}{sep_m \arg in (x_{i})},

其中，和分别代表预测的正例和负例标签集。

S204：选取不确定性度量值大于预设不确定性度量值的样本构建候选样本集。

根据实际需要，设定预设不确定度量值为标准，当计算出的不确定性度量值u(x_i)大于预设不确定度量值时，选取出该样本用于构建候选样本集。

S102：确定候选样本集内各样本所属的标签集。

由于每个样本对应多个标签，在确定候选样本集之后，考虑到样本的标签数目比较多，因此，需要对每个候选样本挑选出合适的标签集，进一步减少进行标注的代价。

在本步骤中，我们利用直推学习(Transductive Learning)结合已标注和未标注样本的信息来估计样本标签集的结构，进一步通过优化手段，估计标签的数目得到相应的标签集。

具体的，如图3所示，图3为本发明实施例一公开的一种确定标签集的流程图。具体包括：

S301：定义每个样本标签集的组成结构。

定义样本x_i的标签集组成结构为α_i＝(α_i1,α_i2,…,α_ik)^Τ，其中，α_i为权重因数，α_ij代表样本x_i具有第j个标签的分数，且假设α_ij≥0、

对于已经标注的样本，在标签集中所有的标签域具有相同的权重。

S302：利用所有样本构造一个k临近图，并对每个样本的k个近邻样本进行搜索。

为了刻画相似样本之间的关系，用所有样本构造了一个有权重的k近邻图。为了衡量相似样本间的关系，将样本看作图中的节点，通过图中节点间边的关系将相似样本联系起来。具体来说，将样本映射到图中，将样本间的关系映射为图中节点间的边，之后寻找每个节点的k个邻居。

同时，为了降低kNN(K-Nearest Neighbor，K最邻近)图搜索的计算量，我们使用了kd-tree对每个样本的k个近邻进行搜索。Kd-trees(k-dimensional树的简称)是一种分割k维数据空间的数据结构，主要应用于多维空间关键数据的搜索，如范围搜索和最近邻搜索，算法是输入数据点集和其所在空间，输出Kd-tree，Kd-tree将数据点所在空间进行了划分，相当于建立了索引，这样在搜索的时候效率就提高了。

S303：计算各个近邻样本之间的相似性度量值。

在kNN搜索之后，我们定义一个W矩阵来表示近邻样本之间的相似性度量值W_iz，具体计算公式为：

W_{iz} = \{\begin{matrix} \frac{1}{Z_{i}} \exp (- \frac{{| | x_{i} - x_{z} | |}^{2}}{2 σ^{2}}), & if z &Element; N_{i} \\ 0, & otherwise . \end{matrix}\}

Z_{i} = Σ_{z &Element; N_{i}} \exp (- \frac{{| | x_{i} - x_{z} | |}^{2}}{2 σ^{2}})

其中，Ν_i表示第i个样本的k近邻集的索引，||·||表示欧氏距离，参数σ表示样本之间的平均距离。

S304：将相似性度量值进行优化得到每个样本的最优α值。

基于之前的假设，即假设α_ij≥0、，我们使用优化框架来估计每个样本的最优alpha值，即样本的每个标签重要性度量，其中，α_ij值大则代表第i个样本具有第j个标签的可能性大。

其中，优化框架为：

\min_{α_{nl + 1}, . . ., α_{n}} \underset{i &Element; U}{Σ} Σ_{j = 1}^{k} {(α_{ij} - \underset{z &Element; N_{i}}{Σ} W_{iz} α_{ij})}^{2}

s . t . \begin{matrix} \begin{matrix} α_{ij} &GreaterEqual; 0, Σ_{j = 1}^{k} α_{ij} = 1 \\ α_{ij} = {\overset{&OverBar;}{α}}_{ij} (&ForAll; i &Element; L) \end{matrix} \end{matrix}

S305：将α值降序排列得到候选标签集，并结合预先估计的每个样本的标签数目确定各样本所属的标签集。

利用得到的最优alpha值，我们用直推学习的方法估计样本标签集的构成，直推学习主要旨在挖掘未标注样本的信息来提高学习效率和精度，这里利用直推学习主要为了利用从未标注和已标注的样本中挖掘的信息确定被挑选样本的标签集。

先根据样本标签集的alpha值降序排列得到候选标签集，然后利用已标注和未标注样本的信息估计每个样本的标签数目，具体使用公式：

\min_{θ_{1}, . . ., θ_{n}} \underset{i &Element; U}{Σ} {(θ_{i} - \underset{z &Element; N_{i}}{Σ} W_{iz} θ_{z})}^{2} s . t . θ_{i} = | Y_{i} | (&ForAll; i &Element; L),

根据得到的候选标签集以及每个样本的标签数目，确定各样本所属的标签集。

样本标签集的确定是通过优化问题，在优化过程中需要利用未标注样本的信息。

S103：响应用户操作，将候选样本集及候选样本集内各样本所属的标签集进行标注，得到标注的样本。

响应用户操作，将步骤S101中得到的不确定性样本集与步骤S102得到的候选样本集内各样本对应标签集进行标注。这里假设用户操作是准确无误的。

具体的，用户可以根据自身知识和经验，判断样本x_i是否具有集合中的标签，并进行相应的操作，将样本x_i与其相应的标签集进行标注，直接从集合判断该样本是否具有某一标签，即只需判断是或否，而无需再去寻找该样本有哪些标签，在很大程度上节省了用户的使用成本。

S104：将标注的样本加入训练样本集进行训练，更新分类器。

将标注完的样本加入训练样本集，重新训练分类器，训练的过程即为分类器根据训练样本集学习得到一个分类函数。

需要说明的是，根据实际需要，步骤S101、S102、S103、S104可以重复迭代一定的次数，直到达到某些终止条件，如标注数目达到一定的阈值或者精度达到某一阈值等。

S105：利用分类器对获取的待分类样本进行分类。

通过分类器根据训练样本集学习得到的分类函数，分类器对其未见过的样本进行标签的预测(即分类)。

由以上技术方案可知，与现有技术相比，本发明实施例一公开了一种基于SVM的多标签主动学习分类方法，通过构建候选样本集，并初步确定候选样本集内各样本所属的标签集，从而在很大程度上节约了人工的判断，随后响应用户操作，将候选样本集及候选样本集内各样本所属的标签集进行标注，得到标注的样本，然后将标注的样本加入训练样本集进行训练，更新分类器，最后利用分类器对获取的待分类样本进行分类。通过该基于SVM的多标签主动学习分类方法，在节省人力的基础上，还解决了多标签样本的学习分类问题。

实施例二

本发明实施例二公开了一种基于SVM的多标签主动学习分类系统，参见图4所示，图4为本发明实施例二公开的一种基于SVM的多标签主动学习分类系统结构示意图。该系统包括：构建单元401、确定单元402、标注单元403、更新单元404以及分类单元405，其中：

构建单元401，用于构建候选样本集。

需要说明的是，构建单元401具体采用基于Max-Margin uncertainty采样策略选择的样本构建候选样本集。其中，Max-Margin uncertainty是基于不确定性的一种采样策略，不确定性采样策略，即为利用训练得到的分类器，对样本进行分类，通过某一选择标准，选择那些不确定性高的样本。

如图5所示，图5为本发明实施例二公开的一种构建单元的结构示意图。构建单元401具体包括：多标签SVM分类器单元501、预测标签向量单元502、不确定性度量单元503以及样本选择单元504，其中：

多标签SVM分类器单元501，用于对部分训练样本进行训练得到多标签SVM分类器F＝[f₁,…,f_k]。

与多标签SVM分类器单元501相连的预测标签向量单元502，用于利用多标签SVM分类器得到样本x_i的预测标签向量

具体的，通过F中每个分类器对样本进行分类，其中第i个分类器得到样本是否具有第i个标签的结果，最后将结果合并得到样本x_i的预测标签向量其中，包括和和分别代表预测的正例和负例标签集，表示(向量)中出现1的部分，即表示该样本具有相应的标签，同理，表示(向量)中出现0的部分，即表示该样本不具有相应的标签。

与预测标签向量单元502相连的不确定性度量单元503，用于根据预测标签向量计算出样本x_i的不确定性度量值u(x_i)，具体计算公式为：

sep_m \arg in (x_{i}) \begin{matrix} = \min_{k &Element; {\hat{y}}_{i}^{+}} f_{k} (x_{i}) - \max_{s &Element; {\hat{y}}_{i}^{-}} f_{s} (x_{i}) \\ = \min_{k &Element; {\hat{y}}_{i}^{+}} | f_{k} (x_{i}) | + \min_{s &Element; {\hat{y}}_{i}^{-}} | f_{s} (x_{i}) | \end{matrix},

u (x_{i}) = \frac{1}{sep_m \arg in (x_{i})},

其中，和分别代表预测的正例和负例标签集。

与不确定性度量单元503相连的样本选择单元504，用于选取不确定性度量值大于预设不确定性度量值的样本构建所述候选样本集。

与构建单元401相连的确定单元402，用于确定候选样本集内各样本所属的标签集。

由于每个样本对应多个标签，在构建单元401构建候选样本集之后，考虑到样本的标签数目比较多，因此，需要对每个候选样本挑选出合适的标签集，进一步减少进行标注的代价。

确定单元402具体为利用直推学习的方法确定候选样本集内各样本所属的标签集。

具体的，如图6所示，图6为本发明实施例二公开的一种确定单元的结构示意图。确定单元402具体包括：定义单元601、搜索单元602、相似性计算单元603、优化单元604以及标签集选择单元605，其中：

定义单元601，用于定义样本x_i的标签集组成结构为α_i＝(α_i1,α_i2,…,α_ik)^Τ，其中，α_i为权重因数，α_ij代表样本x_i具有第j个标签的分数，且假设α_ij≥0、

{α_{j}}^{T} 1 = 1 (&ForAll; i) .

与定义单元601相连的搜索单元602，用于利用所有样本构造一个k临近图，并应用kd-tree对每个样本的k个近邻样本进行搜索。

同时，为了降低kNN(K-Nearest Neighbor，K最邻近)图搜索的计算量，使用kd-tree对每个样本的k个近邻进行搜索。Kd-trees(k-dimensional树的简称)是一种分割k维数据空间的数据结构，主要应用于多维空间关键数据的搜索，如范围搜索和最近邻搜索，算法是输入数据点集和其所在空间，输出Kd-tree，Kd-tree将数据点所在空间进行了划分，相当于建立了索引，这样在搜索的时候效率就提高了。

与搜索单元602相连的相似性计算单元603，用于计算各个近邻样本之间的相似性度量值W_iz。

具体计算公式为：

W_{iz} = \{\begin{matrix} \frac{1}{Z_{i}} \exp (- \frac{{| | x_{i} - x_{z} | |}^{2}}{2 σ^{2}}), & if z &Element; N_{i} \\ 0, & otherwise . \end{matrix}\}

Z_{i} = Σ_{z &Element; N_{i}} \exp (- \frac{{| | x_{i} - x_{z} | |}^{2}}{2 σ^{2}}),

与相似性计算单元603相连的优化单元604，用于将相似性度量值W_iz利用优化框架进行优化得到每个样本的最优α值。

其中，所述优化框架为：

\min_{α_{nl + 1}, . . ., α_{n}} \underset{i &Element; U}{Σ} Σ_{j = 1}^{k} {(α_{ij} - \underset{z &Element; N_{i}}{Σ} W_{iz} α_{ij})}^{2}

s . t . \begin{matrix} \begin{matrix} α_{ij} &GreaterEqual; 0, Σ_{j = 1}^{k} α_{ij} = 1 \\ α_{ij} = {\overset{&OverBar;}{α}}_{ij} (&ForAll; i &Element; L) \end{matrix} \end{matrix}

与优化单元604相连的标签集选择单元605，用于将α值降序排列得到候选标签集，并结合预先估计的每个样本的标签数目确定各样本所属的标签集。

利用得到的最优alpha值，用直推学习的方法估计样本标签集的构成，直推学习主要旨在挖掘未标注样本的信息来提高学习效率和精度，这里利用直推学习主要为了利用从未标注和已标注的样本中挖掘的信息确定被挑选样本的标签集。

\min_{θ_{1}, . . ., θ_{n}} \underset{i &Element; U}{Σ} {(θ_{i} - \underset{z &Element; N_{i}}{Σ} W_{iz} θ_{z})}^{2} s . t . θ_{i} = | Y_{i} | (&ForAll; i &Element; L),

然后标签集选择单元605根据得到的候选标签集以及每个样本的标签数目，确定各样本所属的标签集。

分别与构建单元401、确定单元402相连的标注单元403，用于响应用户操作，将候选样本集及候选样本集内各样本所属的标签集进行标注，得到标注的样本。

响应用户操作，将构建单元401构建的不确定性样本集与确定单元402确定的候选样本集内各样本对应标签集进行标注。这里假设用户操作是准确无误的。

与标注单元403相连的更新单元404，用于将标注的样本加入训练样本集进行训练，更新分类器。

与更新单元404相连的分类单元405，用于利用分类器对获取的待分类样本进行分类。

更新单元404更新得到的分类器根据训练样本集学习得到分类函数，分类单元405利用分类函数对其未见过的样本进行标签的预测(即分类)。

由以上技术方案可知，与现有技术相比，本发明实施例二公开了一种基于SVM的多标签主动学习分类系统，通过构建单元构建候选样本集，并使用确定单元初步确定候选样本集内各样本所属的标签集，从而在很大程度上节约了人工的判断，随后标注单元响应用户操作，将候选样本集及候选样本集内各样本所属的标签集进行标注，得到标注的样本，然后更新单元通过将标注的样本加入训练样本集进行训练，更新分类器，最后分类单元利用分类器对获取的待分类样本进行分类。通过该基于SVM的多标签主动学习分类系统，在节省人力的基础上，还解决了多标签样本的学习分类问题。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于SVM的多标签主动学习分类方法，其特征在于，包括：

构建候选样本集；

确定所述候选样本集内各样本所属的标签集；

将所述标注的样本加入训练样本集进行训练，更新分类器；

利用所述分类器对获取的待分类样本进行分类。

2.根据权利要求1所述的多标签主动学习分类方法，其特征在于，所述候选样本集具体为采用基于Max-Margin uncertainty采样策略选择的样本的集合。

3.根据权利要求2所述的多标签主动学习分类方法，其特征在于，所述候选样本集的构建具体包括：

利用所述多标签SVM分类器得到样本x_i的预测标签向量

sep_m \arg in (x_{i}) \begin{matrix} = \min_{k &Element; {\hat{y}}_{i}^{+}} f_{k} (x_{i}) - \max_{s &Element; {\hat{y}}_{i}^{-}} f_{s} (x_{i}) \\ = \min_{k &Element; {\hat{y}}_{i}^{+}} | f_{k} (x_{i}) | + \min_{s &Element; {\hat{y}}_{i}^{-}} | f_{s} (x_{i}) | \end{matrix},

u (x_{i}) = \frac{1}{sep_m \arg in (x_{i})},

其中，和分别代表预测的正例和负例标签集；

4.根据权利要求1所述的多标签主动学习分类方法，其特征在于，所述标签集具体为利用直推学习的方法确定的。

5.根据权利要求4所述的多标签主动学习分类方法，其特征在于，所述标签集的确定具体包括：

定义样本x_i的标签集组成结构为α_i＝(α_i1,α_i2,…,α_ik)Τ，其中，α_i为权重因数，α_ij代表样本x_i具有第j个标签的分数；

计算各个所述近邻样本之间的相似性度量值；

将所述相似性度量值进行优化得到每个样本的最优α值；

6.一种基于SVM的多标签主动学习分类系统，其特征在于，包括：构建单元、确定单元、标注单元、更新单元以及分类单元，其中：

所述构建单元，用于构建候选样本集；

7.根据权利要求6所述的多标签主动学习分类系统，其特征在于，所述构建单元具体采用基于Max-Margin uncertainty采样策略选择的样本构建候选样本集。

8.根据权利要求7所述的多标签主动学习分类系统，其特征在于，所述构建单元具体包括：多标签SVM分类器单元、预测标签向量单元、不确定性度量单元以及样本选择单元，其中：

所述多标签SVM分类器单元，用于对部分训练样本进行训练得到多标签SVM分类器F＝[f₁,…,f_k]；

与所述多标签SVM分类器单元相连的预测标签向量单元，用于利用所述多标签SVM分类器得到样本x_i的预测标签向量；

sep_m \arg in (x_{i}) \begin{matrix} = \min_{k &Element; {\hat{y}}_{i}^{+}} f_{k} (x_{i}) - \max_{s &Element; {\hat{y}}_{i}^{-}} f_{s} (x_{i}) \\ = \min_{k &Element; {\hat{y}}_{i}^{+}} | f_{k} (x_{i}) | + \min_{s &Element; {\hat{y}}_{i}^{-}} | f_{s} (x_{i}) | \end{matrix},

u (x_{i}) = \frac{1}{sep_m \arg in (x_{i})},

其中，和分别代表预测的正例和负例标签集；

9.根据权利要求6所述的多标签主动学习分类系统，其特征在于，所述确定单元具体为利用直推学习的方法确定所述候选样本集内各样本所属的标签集。

10.根据权利要求9所述的多标签主动学习分类系统，其特征在于，所述确定单元具体包括：定义单元、搜索单元、相似性计算单元、优化单元以及标签集选择单元，其中：

所述定义单元，用于定义样本x_i的标签集组成结构为α_i＝(α_i1,α_i2,…,α_ik)^Τ，其中，α_i为权重因数，α_ij代表样本x_i具有第j个标签的分数；