CN103927394A - 一种基于svm的多标签主动学习分类方法及系统 - Google Patents

一种基于svm的多标签主动学习分类方法及系统 Download PDF

Info

Publication number
CN103927394A
CN103927394A CN201410184086.8A CN201410184086A CN103927394A CN 103927394 A CN103927394 A CN 103927394A CN 201410184086 A CN201410184086 A CN 201410184086A CN 103927394 A CN103927394 A CN 103927394A
Authority
CN
China
Prior art keywords
sample
unit
tally set
many labels
candidate samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410184086.8A
Other languages
English (en)
Other versions
CN103927394B (zh
Inventor
赵朋朋
焦阳
鲜学丰
吴健
崔志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201410184086.8A priority Critical patent/CN103927394B/zh
Publication of CN103927394A publication Critical patent/CN103927394A/zh
Application granted granted Critical
Publication of CN103927394B publication Critical patent/CN103927394B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于SVM的多标签主动学习分类方法及系统,所述方法包括:构建候选样本集;确定所述候选样本集内各样本所属的标签集;响应用户操作,将所述候选样本集及候选样本集内各样本所属的标签集进行标注,得到标注的样本;将所述标注的样本加入训练样本集进行训练,更新分类器;利用所述分类器对获取的待分类样本进行分类。所述基于SVM的多标签主动学习分类方法,通过初步确定样本所属的标签集,从而在很大程度上节约了人力成本以及人工标注的时间,从而在节省人力的基础上,还解决了多标签样本的学习分类问题。

Description

一种基于SVM的多标签主动学习分类方法及系统
技术领域
本申请涉及机器学习技术领域,更具体地说,涉及一种基于SVM的多标签主动学习分类方法及系统。
背景技术
信息时代的到来,使得大量的信息开始以计算机可读的形式存在,并且数量急剧增加。但是,这些信息鱼龙混杂,很多有意义的数据都被大量的垃圾信息所淹没,如何从这些信息中自动分类出有用的信息将是一个重要的课题。
现有的分类问题中,都是假定一个样本只属于一个类标签,然后通过监督的学习方法,利用支持向量机来对样本进行分类。支持向量机(SVM,Support Vector Machine)是在上世纪90年代以来逐渐被人们广泛应用的一种统计学习方法,是一种基于统计学习理论的新型的分类技术。但是,由于客观事物本身的复杂性,一个样本可以同时拥有多个标签,传统的单标签学习分类方法将不再适用于多标签的样本。因此,针对多标签的样本,研究一种学习分类方案是非常有意义的。
发明内容
有鉴于此,本申请提供了一种基于SVM的多标签主动学习分类方法及系统,用于解决现有的主动学习分类方法不适用于多标签样本的问题。
为了实现上述目的,现提出的方案如下:
一种基于SVM的多标签主动学习分类方法,包括:
构建候选样本集;
确定所述候选样本集内各样本所属的标签集;
响应用户操作,将所述候选样本集及候选样本集内各样本所属的标签集进行标注,得到标注的样本;
将所述标注的样本加入训练样本集进行训练,更新分类器;
利用所述分类器对获取的待分类样本进行分类。
优选的,所述候选样本集具体为采用基于Max-Margin uncertainty采样策略选择的样本的集合。
优选的,所述候选样本集的构建具体包括:
对部分训练样本进行训练得到多标签SVM分类器F=[f1,…,fk];
利用所述多标签SVM分类器得到样本xi的预测标签向量
根据所述预测标签向量计算出所述样本xi的不确定性度量值u(xi),具体计算公式为:
sep _ m arg in ( x i ) = min k ∈ y ^ i + f k ( x i ) - max s ∈ y ^ i - f s ( x i ) = min k ∈ y ^ i + | f k ( x i ) | + min s ∈ y ^ i - | f s ( x i ) | ,
u ( x i ) = 1 sep _ m arg in ( x i ) ,
其中,分别代表预测的正例和负例标签集;
选取所述不确定性度量值大于预设不确定性度量值的样本构建所述候选样本集。
优选的,所述标签集具体为利用直推学习的方法确定的。
优选的,所述标签集的确定具体包括:
定义样本xi的标签集组成结构为αi=(αi1i2,…,αik)Τ,其中,αij代表样本xi具有第j个标签的分数;
利用所有样本构造一个k临近图,并应用kd-tree对每个样本的k个近邻样本进行搜索;
计算各个所述近邻样本之间的相似性度量值;
将所述相似性度量值进行优化得到每个样本的最优α值;
将所述α值降序排列得到候选标签集,并结合预先估计的每个样本的标签数目确定各样本所属的标签集。
一种基于SVM的多标签主动学习分类系统,包括:构建单元、确定单元、标注单元、更新单元以及分类单元,其中:
所述构建单元,用于构建候选样本集;
与所述构建单元相连的确定单元,用于确定所述候选样本集内各样本所属的标签集;
分别与所述构建单元、确定单元相连的标注单元,用于响应用户操作,将所述候选样本集及候选样本集内各样本所属的标签集进行标注,得到标注的样本;
与所述标注单元相连的更新单元,用于将所述标注的样本加入训练样本集进行训练,更新分类器;
与所述更新单元相连的分类单元,用于利用所述分类器对获取的待分类样本进行分类。
优选的,所述构建单元具体采用基于Max-Margin uncertainty采样策略选择的样本构建候选样本集。
优选的,所述构建单元具体包括:多标签SVM分类器单元、预测标签向量单元、不确定性度量单元以及样本选择单元,其中:
所述多标签SVM分类器单元,用于对部分训练样本{进行训练得到多标签SVM分类器F=[f1,…,fk];
与所述多标签SVM分类器单元相连的预测标签向量单元,用于利用所述多标签SVM分类器得到样本xi的预测标签向量
与所述预测标签向量单元相连的不确定性度量单元,用于根据所述预测标签向量计算出所述样本xi的不确定性度量值u(xi),具体计算公式为:
sep _ m arg in ( x i ) = min k ∈ y ^ i + f k ( x i ) - max s ∈ y ^ i - f s ( x i ) = min k ∈ y ^ i + | f k ( x i ) | + min s ∈ y ^ i - | f s ( x i ) | ,
u ( x i ) = 1 sep _ m arg in ( x i ) ,
其中,分别代表预测的正例和负例标签集;
与所述不确定性度量单元相连的样本选择单元,用于选取所述不确定性度量值大于预设不确定性度量值的样本构建所述候选样本集。
优选的,所述确定单元具体为利用直推学习的方法确定所述候选样本集内各样本所属的标签集。
优选的,所述确定单元具体包括:定义单元、搜索单元、相似性计算单元、优化单元以及标签集选择单元,其中:
所述定义单元,用于定义样本xi的标签集组成结构为αi=(αi1i2,…,αik)Τ,其中,αij代表样本xi具有第j个标签的分数;
与所述定义单元相连的搜索单元,用于利用所有样本构造一个k临近图,并应用kd-tree对每个样本的k个近邻样本进行搜索;
与所述的搜索单元相连的相似性计算单元,用于计算各个所述近邻样本之间的相似性度量值;
与所述相似性计算单元相连的优化单元,用于将所述相似性度量值进行优化得到每个样本的最优α值;
与所述优化单元相连的标签集选择单元,用于将所述α值降序排列得到候选标签集,并结合预先估计的每个样本的标签数目确定各样本所属的标签集。
从上述的技术方案可以看出,与现有技术相比,本发明公开了一种基于SVM的多标签主动学习分类方法及系统,该方法通过构建候选样本集,并初步确定候选样本集内各样本所属的标签集,从而在很大程度上节约了人工的判断,随后响应用户操作,将候选样本集及候选样本集内各样本所属的标签集进行标注,得到标注的样本,然后将标注的样本加入训练样本集进行训练,更新分类器,最后利用分类器对获取的待分类样本进行分类。通过该方法,在节省人力的基础上,还解决了多标签样本的学习分类问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例一公开的一种基于SVM的多标签主动学习分类方法流程图;
图2为本发明实施例一公开的一种构建候选样本集的流程图;
图3为本发明实施例一公开的一种确定标签集的流程图;
图4为本发明实施例二公开的一种基于SVM的多标签主动学习分类系统结构示意图;
图5为本发明实施例二公开的一种构建单元的结构示意图;
图6为本发明实施例二公开的一种确定单元的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
为了克服现有技术中,传统的单标签学习分类方法将不再适用于多标签的样本这样的现有技术问题,本发明提供了以下技术方案。
实施例一
本发明实施例一公开了一种基于SVM的多标签主动学习分类方法,参见图1所示,图1为本发明实施例一公开的一种基于SVM的多标签主动学习分类方法流程图。该方法包括:
S101:构建候选样本集。
在本步骤中,候选样本集具体为采用基于Max-Margin uncertainty采样策略选择的样本的集合,其中,Max-Margin uncertainty是基于不确定性的一种采样策略,不确定性采样策略,即为利用训练得到的分类器,对样本进行分类,通过某一选择标准,选择那些不确定性高的样本。
如图2所示,图2为本发明实施例一公开的一种构建候选样本集的流程图。包括:
S201:对部分训练样本进行训练得到多标签SVM分类器。
具体的,对部分训练样本进行训练得到多标签SVM分类器F=[f1,…,fk]。
F是由k个分类器组成的,k为样本的所有标签数。其中,fi的取值范围为(-1,1),当fi小于取值范围内的某一预设值时,表示样本xi不具有第i个标签,当fi大于取值范围内的某一预设值时,表示样本xi具有第i个标签。例如,当该预设值为0时,若fi∈(-1,0),则样本xi不带第i个标签,若fi∈(0,1),则样本xi带第i个标签。需要说明的是,此处预设值不限定为0,也可以为(-1,1)之间的任意实数,根据具体情况进行选择。
S202:利用多标签SVM分类器得到每个样本对应的预测标签向量。
本步骤中,利用训练得到的多标签SVM分类器得到样本xi的预测标签向量具体的,通过F中每个分类器对样本进行分类,其中第i个分类器得到样本是否具有第i个标签的结果,最后将结果合并得到样本xi的预测标签向量包括分别代表预测的正例和负例标签集,表示(向量)中出现1的部分,即表示该样本具有相应的标签,同理,表示(向量)中出现0的部分,即表示该样本不具有相应的标签。
S203:根据预测标签向量计算样本的不确定性度量值。
根据每个样本对应的预测标签向量计算出样本xi的不确定性度量值u(xi),具体计算公式为:
sep _ m arg in ( x i ) = min k ∈ y ^ i + f k ( x i ) - max s ∈ y ^ i - f s ( x i ) = min k ∈ y ^ i + | f k ( x i ) | + min s ∈ y ^ i - | f s ( x i ) | ,
u ( x i ) = 1 sep _ m arg in ( x i ) ,
其中,分别代表预测的正例和负例标签集。
S204:选取不确定性度量值大于预设不确定性度量值的样本构建候选样本集。
根据实际需要,设定预设不确定度量值为标准,当计算出的不确定性度量值u(xi)大于预设不确定度量值时,选取出该样本用于构建候选样本集。
S102:确定候选样本集内各样本所属的标签集。
由于每个样本对应多个标签,在确定候选样本集之后,考虑到样本的标签数目比较多,因此,需要对每个候选样本挑选出合适的标签集,进一步减少进行标注的代价。
在本步骤中,我们利用直推学习(Transductive Learning)结合已标注和未标注样本的信息来估计样本标签集的结构,进一步通过优化手段,估计标签的数目得到相应的标签集。
具体的,如图3所示,图3为本发明实施例一公开的一种确定标签集的流程图。具体包括:
S301:定义每个样本标签集的组成结构。
定义样本xi的标签集组成结构为αi=(αi1i2,…,αik)Τ,其中,αi为权重因数,αij代表样本xi具有第j个标签的分数,且假设αij≥0、
对于已经标注的样本,在标签集中所有的标签域具有相同的权重。
S302:利用所有样本构造一个k临近图,并对每个样本的k个近邻样本进行搜索。
为了刻画相似样本之间的关系,用所有样本构造了一个有权重的k近邻图。为了衡量相似样本间的关系,将样本看作图中的节点,通过图中节点间边的关系将相似样本联系起来。具体来说,将样本映射到图中,将样本间的关系映射为图中节点间的边,之后寻找每个节点的k个邻居。
同时,为了降低kNN(K-Nearest Neighbor,K最邻近)图搜索的计算量,我们使用了kd-tree对每个样本的k个近邻进行搜索。Kd-trees(k-dimensional树的简称)是一种分割k维数据空间的数据结构,主要应用于多维空间关键数据的搜索,如范围搜索和最近邻搜索,算法是输入数据点集和其所在空间,输出Kd-tree,Kd-tree将数据点所在空间进行了划分,相当于建立了索引,这样在搜索的时候效率就提高了。
S303:计算各个近邻样本之间的相似性度量值。
在kNN搜索之后,我们定义一个W矩阵来表示近邻样本之间的相似性度量值Wiz,具体计算公式为:
W iz = 1 Z i exp ( - | | x i - x z | | 2 2 σ 2 ) , if z ∈ N i 0 , otherwise . Z i = Σ z ∈ N i exp ( - | | x i - x z | | 2 2 σ 2 )
其中,Νi表示第i个样本的k近邻集的索引,||·||表示欧氏距离,参数σ表示样本之间的平均距离。
S304:将相似性度量值进行优化得到每个样本的最优α值。
基于之前的假设,即假设αij≥0、,我们使用优化框架来估计每个样本的最优alpha值,即样本的每个标签重要性度量,其中,αij值大则代表第i个样本具有第j个标签的可能性大。
其中,优化框架为:
min α nl + 1 , . . . , α n Σ i ∈ U Σ j = 1 k ( α ij - Σ z ∈ N i W iz α ij ) 2
s . t . α ij ≥ 0 , Σ j = 1 k α ij = 1 α ij = α ‾ ij ( ∀ i ∈ L )
S305:将α值降序排列得到候选标签集,并结合预先估计的每个样本的标签数目确定各样本所属的标签集。
利用得到的最优alpha值,我们用直推学习的方法估计样本标签集的构成,直推学习主要旨在挖掘未标注样本的信息来提高学习效率和精度,这里利用直推学习主要为了利用从未标注和已标注的样本中挖掘的信息确定被挑选样本的标签集。
先根据样本标签集的alpha值降序排列得到候选标签集,然后利用已标注和未标注样本的信息估计每个样本的标签数目,具体使用公式:
min θ 1 , . . . , θ n Σ i ∈ U ( θ i - Σ z ∈ N i W iz θ z ) 2 s . t . θ i = | Y i | ( ∀ i ∈ L ) ,
根据得到的候选标签集以及每个样本的标签数目,确定各样本所属的标签集。
样本标签集的确定是通过优化问题,在优化过程中需要利用未标注样本的信息。
S103:响应用户操作,将候选样本集及候选样本集内各样本所属的标签集进行标注,得到标注的样本。
响应用户操作,将步骤S101中得到的不确定性样本集与步骤S102得到的候选样本集内各样本对应标签集进行标注。这里假设用户操作是准确无误的。
具体的,用户可以根据自身知识和经验,判断样本xi是否具有集合中的标签,并进行相应的操作,将样本xi与其相应的标签集进行标注,直接从集合判断该样本是否具有某一标签,即只需判断是或否,而无需再去寻找该样本有哪些标签,在很大程度上节省了用户的使用成本。
S104:将标注的样本加入训练样本集进行训练,更新分类器。
将标注完的样本加入训练样本集,重新训练分类器,训练的过程即为分类器根据训练样本集学习得到一个分类函数。
需要说明的是,根据实际需要,步骤S101、S102、S103、S104可以重复迭代一定的次数,直到达到某些终止条件,如标注数目达到一定的阈值或者精度达到某一阈值等。
S105:利用分类器对获取的待分类样本进行分类。
通过分类器根据训练样本集学习得到的分类函数,分类器对其未见过的样本进行标签的预测(即分类)。
由以上技术方案可知,与现有技术相比,本发明实施例一公开了一种基于SVM的多标签主动学习分类方法,通过构建候选样本集,并初步确定候选样本集内各样本所属的标签集,从而在很大程度上节约了人工的判断,随后响应用户操作,将候选样本集及候选样本集内各样本所属的标签集进行标注,得到标注的样本,然后将标注的样本加入训练样本集进行训练,更新分类器,最后利用分类器对获取的待分类样本进行分类。通过该基于SVM的多标签主动学习分类方法,在节省人力的基础上,还解决了多标签样本的学习分类问题。
实施例二
本发明实施例二公开了一种基于SVM的多标签主动学习分类系统,参见图4所示,图4为本发明实施例二公开的一种基于SVM的多标签主动学习分类系统结构示意图。该系统包括:构建单元401、确定单元402、标注单元403、更新单元404以及分类单元405,其中:
构建单元401,用于构建候选样本集。
需要说明的是,构建单元401具体采用基于Max-Margin uncertainty采样策略选择的样本构建候选样本集。其中,Max-Margin uncertainty是基于不确定性的一种采样策略,不确定性采样策略,即为利用训练得到的分类器,对样本进行分类,通过某一选择标准,选择那些不确定性高的样本。
如图5所示,图5为本发明实施例二公开的一种构建单元的结构示意图。构建单元401具体包括:多标签SVM分类器单元501、预测标签向量单元502、不确定性度量单元503以及样本选择单元504,其中:
多标签SVM分类器单元501,用于对部分训练样本进行训练得到多标签SVM分类器F=[f1,…,fk]。
F是由k个分类器组成的,k为样本的所有标签数。其中,fi的取值范围为(-1,1),当fi小于取值范围内的某一预设值时,表示样本xi不具有第i个标签,当fi大于取值范围内的某一预设值时,表示样本xi具有第i个标签。例如,当该预设值为0时,若fi∈(-1,0),则样本xi不带第i个标签,若fi∈(0,1),则样本xi带第i个标签。需要说明的是,此处预设值不限定为0,也可以为(-1,1)之间的任意实数,根据具体情况进行选择。
与多标签SVM分类器单元501相连的预测标签向量单元502,用于利用多标签SVM分类器得到样本xi的预测标签向量
具体的,通过F中每个分类器对样本进行分类,其中第i个分类器得到样本是否具有第i个标签的结果,最后将结果合并得到样本xi的预测标签向量其中,包括分别代表预测的正例和负例标签集,表示(向量)中出现1的部分,即表示该样本具有相应的标签,同理,表示(向量)中出现0的部分,即表示该样本不具有相应的标签。
与预测标签向量单元502相连的不确定性度量单元503,用于根据预测标签向量计算出样本xi的不确定性度量值u(xi),具体计算公式为:
sep _ m arg in ( x i ) = min k ∈ y ^ i + f k ( x i ) - max s ∈ y ^ i - f s ( x i ) = min k ∈ y ^ i + | f k ( x i ) | + min s ∈ y ^ i - | f s ( x i ) | ,
u ( x i ) = 1 sep _ m arg in ( x i ) ,
其中,分别代表预测的正例和负例标签集。
与不确定性度量单元503相连的样本选择单元504,用于选取不确定性度量值大于预设不确定性度量值的样本构建所述候选样本集。
根据实际需要,设定预设不确定度量值为标准,当计算出的不确定性度量值u(xi)大于预设不确定度量值时,选取出该样本用于构建候选样本集。
与构建单元401相连的确定单元402,用于确定候选样本集内各样本所属的标签集。
由于每个样本对应多个标签,在构建单元401构建候选样本集之后,考虑到样本的标签数目比较多,因此,需要对每个候选样本挑选出合适的标签集,进一步减少进行标注的代价。
确定单元402具体为利用直推学习的方法确定候选样本集内各样本所属的标签集。
具体的,如图6所示,图6为本发明实施例二公开的一种确定单元的结构示意图。确定单元402具体包括:定义单元601、搜索单元602、相似性计算单元603、优化单元604以及标签集选择单元605,其中:
定义单元601,用于定义样本xi的标签集组成结构为αi=(αi1i2,…,αik)Τ,其中,αi为权重因数,αij代表样本xi具有第j个标签的分数,且假设αij≥0、 α j T 1 = 1 ( ∀ i ) .
对于已经标注的样本,在标签集中所有的标签域具有相同的权重。
与定义单元601相连的搜索单元602,用于利用所有样本构造一个k临近图,并应用kd-tree对每个样本的k个近邻样本进行搜索。
为了刻画相似样本之间的关系,用所有样本构造了一个有权重的k近邻图。为了衡量相似样本间的关系,将样本看作图中的节点,通过图中节点间边的关系将相似样本联系起来。具体来说,将样本映射到图中,将样本间的关系映射为图中节点间的边,之后寻找每个节点的k个邻居。
同时,为了降低kNN(K-Nearest Neighbor,K最邻近)图搜索的计算量,使用kd-tree对每个样本的k个近邻进行搜索。Kd-trees(k-dimensional树的简称)是一种分割k维数据空间的数据结构,主要应用于多维空间关键数据的搜索,如范围搜索和最近邻搜索,算法是输入数据点集和其所在空间,输出Kd-tree,Kd-tree将数据点所在空间进行了划分,相当于建立了索引,这样在搜索的时候效率就提高了。
与搜索单元602相连的相似性计算单元603,用于计算各个近邻样本之间的相似性度量值Wiz
具体计算公式为:
W iz = 1 Z i exp ( - | | x i - x z | | 2 2 σ 2 ) , if z ∈ N i 0 , otherwise . Z i = Σ z ∈ N i exp ( - | | x i - x z | | 2 2 σ 2 ) ,
其中,Νi表示第i个样本的k近邻集的索引,||·||表示欧氏距离,参数σ表示样本之间的平均距离。
与相似性计算单元603相连的优化单元604,用于将相似性度量值Wiz利用优化框架进行优化得到每个样本的最优α值。
其中,所述优化框架为:
min α nl + 1 , . . . , α n Σ i ∈ U Σ j = 1 k ( α ij - Σ z ∈ N i W iz α ij ) 2
s . t . α ij ≥ 0 , Σ j = 1 k α ij = 1 α ij = α ‾ ij ( ∀ i ∈ L )
与优化单元604相连的标签集选择单元605,用于将α值降序排列得到候选标签集,并结合预先估计的每个样本的标签数目确定各样本所属的标签集。
利用得到的最优alpha值,用直推学习的方法估计样本标签集的构成,直推学习主要旨在挖掘未标注样本的信息来提高学习效率和精度,这里利用直推学习主要为了利用从未标注和已标注的样本中挖掘的信息确定被挑选样本的标签集。
先根据样本标签集的alpha值降序排列得到候选标签集,然后利用已标注和未标注样本的信息估计每个样本的标签数目,具体使用公式:
min θ 1 , . . . , θ n Σ i ∈ U ( θ i - Σ z ∈ N i W iz θ z ) 2 s . t . θ i = | Y i | ( ∀ i ∈ L ) ,
然后标签集选择单元605根据得到的候选标签集以及每个样本的标签数目,确定各样本所属的标签集。
样本标签集的确定是通过优化问题,在优化过程中需要利用未标注样本的信息。
分别与构建单元401、确定单元402相连的标注单元403,用于响应用户操作,将候选样本集及候选样本集内各样本所属的标签集进行标注,得到标注的样本。
响应用户操作,将构建单元401构建的不确定性样本集与确定单元402确定的候选样本集内各样本对应标签集进行标注。这里假设用户操作是准确无误的。
具体的,用户可以根据自身知识和经验,判断样本xi是否具有集合中的标签,并进行相应的操作,将样本xi与其相应的标签集进行标注,直接从集合判断该样本是否具有某一标签,即只需判断是或否,而无需再去寻找该样本有哪些标签,在很大程度上节省了用户的使用成本。
与标注单元403相连的更新单元404,用于将标注的样本加入训练样本集进行训练,更新分类器。
将标注完的样本加入训练样本集,重新训练分类器,训练的过程即为分类器根据训练样本集学习得到一个分类函数。
与更新单元404相连的分类单元405,用于利用分类器对获取的待分类样本进行分类。
更新单元404更新得到的分类器根据训练样本集学习得到分类函数,分类单元405利用分类函数对其未见过的样本进行标签的预测(即分类)。
由以上技术方案可知,与现有技术相比,本发明实施例二公开了一种基于SVM的多标签主动学习分类系统,通过构建单元构建候选样本集,并使用确定单元初步确定候选样本集内各样本所属的标签集,从而在很大程度上节约了人工的判断,随后标注单元响应用户操作,将候选样本集及候选样本集内各样本所属的标签集进行标注,得到标注的样本,然后更新单元通过将标注的样本加入训练样本集进行训练,更新分类器,最后分类单元利用分类器对获取的待分类样本进行分类。通过该基于SVM的多标签主动学习分类系统,在节省人力的基础上,还解决了多标签样本的学习分类问题。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于SVM的多标签主动学习分类方法,其特征在于,包括:
构建候选样本集;
确定所述候选样本集内各样本所属的标签集;
响应用户操作,将所述候选样本集及候选样本集内各样本所属的标签集进行标注,得到标注的样本;
将所述标注的样本加入训练样本集进行训练,更新分类器;
利用所述分类器对获取的待分类样本进行分类。
2.根据权利要求1所述的多标签主动学习分类方法,其特征在于,所述候选样本集具体为采用基于Max-Margin uncertainty采样策略选择的样本的集合。
3.根据权利要求2所述的多标签主动学习分类方法,其特征在于,所述候选样本集的构建具体包括:
对部分训练样本进行训练得到多标签SVM分类器F=[f1,…,fk];
利用所述多标签SVM分类器得到样本xi的预测标签向量
根据所述预测标签向量计算出所述样本xi的不确定性度量值u(xi),具体计算公式为:
sep _ m arg in ( x i ) = min k ∈ y ^ i + f k ( x i ) - max s ∈ y ^ i - f s ( x i ) = min k ∈ y ^ i + | f k ( x i ) | + min s ∈ y ^ i - | f s ( x i ) | ,
u ( x i ) = 1 sep _ m arg in ( x i ) ,
其中,分别代表预测的正例和负例标签集;
选取所述不确定性度量值大于预设不确定性度量值的样本构建所述候选样本集。
4.根据权利要求1所述的多标签主动学习分类方法,其特征在于,所述标签集具体为利用直推学习的方法确定的。
5.根据权利要求4所述的多标签主动学习分类方法,其特征在于,所述标签集的确定具体包括:
定义样本xi的标签集组成结构为αi=(αi1i2,…,αik)Τ,其中,αi为权重因数,αij代表样本xi具有第j个标签的分数;
利用所有样本构造一个k临近图,并应用kd-tree对每个样本的k个近邻样本进行搜索;
计算各个所述近邻样本之间的相似性度量值;
将所述相似性度量值进行优化得到每个样本的最优α值;
将所述α值降序排列得到候选标签集,并结合预先估计的每个样本的标签数目确定各样本所属的标签集。
6.一种基于SVM的多标签主动学习分类系统,其特征在于,包括:构建单元、确定单元、标注单元、更新单元以及分类单元,其中:
所述构建单元,用于构建候选样本集;
与所述构建单元相连的确定单元,用于确定所述候选样本集内各样本所属的标签集;
分别与所述构建单元、确定单元相连的标注单元,用于响应用户操作,将所述候选样本集及候选样本集内各样本所属的标签集进行标注,得到标注的样本;
与所述标注单元相连的更新单元,用于将所述标注的样本加入训练样本集进行训练,更新分类器;
与所述更新单元相连的分类单元,用于利用所述分类器对获取的待分类样本进行分类。
7.根据权利要求6所述的多标签主动学习分类系统,其特征在于,所述构建单元具体采用基于Max-Margin uncertainty采样策略选择的样本构建候选样本集。
8.根据权利要求7所述的多标签主动学习分类系统,其特征在于,所述构建单元具体包括:多标签SVM分类器单元、预测标签向量单元、不确定性度量单元以及样本选择单元,其中:
所述多标签SVM分类器单元,用于对部分训练样本进行训练得到多标签SVM分类器F=[f1,…,fk];
与所述多标签SVM分类器单元相连的预测标签向量单元,用于利用所述多标签SVM分类器得到样本xi的预测标签向量
与所述预测标签向量单元相连的不确定性度量单元,用于根据所述预测标签向量计算出所述样本xi的不确定性度量值u(xi),具体计算公式为:
sep _ m arg in ( x i ) = min k ∈ y ^ i + f k ( x i ) - max s ∈ y ^ i - f s ( x i ) = min k ∈ y ^ i + | f k ( x i ) | + min s ∈ y ^ i - | f s ( x i ) | ,
u ( x i ) = 1 sep _ m arg in ( x i ) ,
其中,分别代表预测的正例和负例标签集;
与所述不确定性度量单元相连的样本选择单元,用于选取所述不确定性度量值大于预设不确定性度量值的样本构建所述候选样本集。
9.根据权利要求6所述的多标签主动学习分类系统,其特征在于,所述确定单元具体为利用直推学习的方法确定所述候选样本集内各样本所属的标签集。
10.根据权利要求9所述的多标签主动学习分类系统,其特征在于,所述确定单元具体包括:定义单元、搜索单元、相似性计算单元、优化单元以及标签集选择单元,其中:
所述定义单元,用于定义样本xi的标签集组成结构为αi=(αi1i2,…,αik)Τ,其中,αi为权重因数,αij代表样本xi具有第j个标签的分数;
与所述定义单元相连的搜索单元,用于利用所有样本构造一个k临近图,并应用kd-tree对每个样本的k个近邻样本进行搜索;
与所述的搜索单元相连的相似性计算单元,用于计算各个所述近邻样本之间的相似性度量值;
与所述相似性计算单元相连的优化单元,用于将所述相似性度量值进行优化得到每个样本的最优α值;
与所述优化单元相连的标签集选择单元,用于将所述α值降序排列得到候选标签集,并结合预先估计的每个样本的标签数目确定各样本所属的标签集。
CN201410184086.8A 2014-05-04 2014-05-04 一种基于svm的多标签主动学习分类方法及系统 Expired - Fee Related CN103927394B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410184086.8A CN103927394B (zh) 2014-05-04 2014-05-04 一种基于svm的多标签主动学习分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410184086.8A CN103927394B (zh) 2014-05-04 2014-05-04 一种基于svm的多标签主动学习分类方法及系统

Publications (2)

Publication Number Publication Date
CN103927394A true CN103927394A (zh) 2014-07-16
CN103927394B CN103927394B (zh) 2017-06-16

Family

ID=51145613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410184086.8A Expired - Fee Related CN103927394B (zh) 2014-05-04 2014-05-04 一种基于svm的多标签主动学习分类方法及系统

Country Status (1)

Country Link
CN (1) CN103927394B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166706A (zh) * 2014-08-08 2014-11-26 苏州大学 基于代价敏感主动学习的多标签分类器构建方法
CN104462614A (zh) * 2015-01-14 2015-03-25 苏州大学 一种基于网络数据的主动学习方法及装置
CN104794339A (zh) * 2015-04-17 2015-07-22 南京大学 基于多标签模型的帕金森病证型的辅助预测方法
CN104899596A (zh) * 2015-03-16 2015-09-09 景德镇陶瓷学院 一种多标签分类方法及其装置
CN105046673A (zh) * 2015-07-13 2015-11-11 哈尔滨工业大学 基于自学习的高光谱图像和可见光图像融合分类方法
CN105069129A (zh) * 2015-06-24 2015-11-18 合肥工业大学 自适应多标签预测方法
CN105447523A (zh) * 2015-11-26 2016-03-30 国网北京市电力公司 图片源相机型号的检测方法和装置
CN106874279A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 生成应用类别标签的方法及装置
CN108964951A (zh) * 2017-05-19 2018-12-07 腾讯科技(深圳)有限公司 一种告警信息获取的方法以及服务器
CN109816009A (zh) * 2019-01-18 2019-05-28 南京旷云科技有限公司 基于图卷积的多标签图像分类方法、装置及设备
CN109920501A (zh) * 2019-01-24 2019-06-21 西安交通大学 基于卷积神经网络和主动学习的电子病历分类方法及系统
CN110363282A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 一种基于图卷积网络的网络节点标签主动学习方法和系统
CN110443257A (zh) * 2019-07-08 2019-11-12 大连理工大学 一种基于主动学习的显著性检测方法
CN111582366A (zh) * 2020-05-07 2020-08-25 清华大学 图像处理方法、装置及设备
CN112348043A (zh) * 2019-08-09 2021-02-09 杭州海康机器人技术有限公司 机器学习中的特征筛选方法和装置
CN112363465A (zh) * 2020-10-21 2021-02-12 北京工业大数据创新中心有限公司 一种专家规则集训练方法、训练器和工业设备预警系统
CN113027696A (zh) * 2019-12-24 2021-06-25 新疆金风科技股份有限公司 液压变桨系统的故障诊断方法和装置
US11379758B2 (en) 2019-12-06 2022-07-05 International Business Machines Corporation Automatic multilabel classification using machine learning

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN102270192A (zh) * 2011-07-27 2011-12-07 浙江工业大学 一种基于svm主动学习的多标签分类控制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN102270192A (zh) * 2011-07-27 2011-12-07 浙江工业大学 一种基于svm主动学习的多标签分类控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XUCHUN LI等: "Multilabel SVM active learning for image classification", 《2004 INTERNATIONAL CONFERENCE ON IMAGE PROCESSING》 *
刘端阳等: "基于加权SVM主动学习的多标签分类", 《计算机工程》 *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104166706B (zh) * 2014-08-08 2017-11-03 苏州大学 基于代价敏感主动学习的多标签分类器构建方法
CN104166706A (zh) * 2014-08-08 2014-11-26 苏州大学 基于代价敏感主动学习的多标签分类器构建方法
CN104462614A (zh) * 2015-01-14 2015-03-25 苏州大学 一种基于网络数据的主动学习方法及装置
CN104899596A (zh) * 2015-03-16 2015-09-09 景德镇陶瓷学院 一种多标签分类方法及其装置
CN104899596B (zh) * 2015-03-16 2018-09-14 景德镇陶瓷大学 一种多标签分类方法及其装置
CN104794339A (zh) * 2015-04-17 2015-07-22 南京大学 基于多标签模型的帕金森病证型的辅助预测方法
CN105069129A (zh) * 2015-06-24 2015-11-18 合肥工业大学 自适应多标签预测方法
CN105069129B (zh) * 2015-06-24 2018-05-18 合肥工业大学 自适应多标签预测方法
CN105046673A (zh) * 2015-07-13 2015-11-11 哈尔滨工业大学 基于自学习的高光谱图像和可见光图像融合分类方法
CN105046673B (zh) * 2015-07-13 2017-11-03 哈尔滨工业大学 基于自学习的高光谱图像和可见光图像融合分类方法
CN105447523A (zh) * 2015-11-26 2016-03-30 国网北京市电力公司 图片源相机型号的检测方法和装置
CN106874279A (zh) * 2015-12-11 2017-06-20 腾讯科技(深圳)有限公司 生成应用类别标签的方法及装置
CN106874279B (zh) * 2015-12-11 2021-01-15 腾讯科技(深圳)有限公司 生成应用类别标签的方法及装置
CN108964951A (zh) * 2017-05-19 2018-12-07 腾讯科技(深圳)有限公司 一种告警信息获取的方法以及服务器
CN108964951B (zh) * 2017-05-19 2020-12-29 腾讯科技(深圳)有限公司 一种告警信息获取的方法以及服务器
CN109816009A (zh) * 2019-01-18 2019-05-28 南京旷云科技有限公司 基于图卷积的多标签图像分类方法、装置及设备
CN109920501A (zh) * 2019-01-24 2019-06-21 西安交通大学 基于卷积神经网络和主动学习的电子病历分类方法及系统
CN109920501B (zh) * 2019-01-24 2021-04-20 西安交通大学 基于卷积神经网络和主动学习的电子病历分类方法及系统
CN110363282A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 一种基于图卷积网络的网络节点标签主动学习方法和系统
CN110363282B (zh) * 2019-06-06 2021-10-26 中国科学院信息工程研究所 一种基于图卷积网络的网络节点标签主动学习方法和系统
CN110443257A (zh) * 2019-07-08 2019-11-12 大连理工大学 一种基于主动学习的显著性检测方法
CN110443257B (zh) * 2019-07-08 2022-04-12 大连理工大学 一种基于主动学习的显著性检测方法
CN112348043A (zh) * 2019-08-09 2021-02-09 杭州海康机器人技术有限公司 机器学习中的特征筛选方法和装置
CN112348043B (zh) * 2019-08-09 2024-04-02 杭州海康机器人股份有限公司 机器学习中的特征筛选方法和装置
US11379758B2 (en) 2019-12-06 2022-07-05 International Business Machines Corporation Automatic multilabel classification using machine learning
CN113027696A (zh) * 2019-12-24 2021-06-25 新疆金风科技股份有限公司 液压变桨系统的故障诊断方法和装置
CN111582366A (zh) * 2020-05-07 2020-08-25 清华大学 图像处理方法、装置及设备
CN111582366B (zh) * 2020-05-07 2023-10-31 清华大学 图像处理方法、装置及设备
CN112363465A (zh) * 2020-10-21 2021-02-12 北京工业大数据创新中心有限公司 一种专家规则集训练方法、训练器和工业设备预警系统

Also Published As

Publication number Publication date
CN103927394B (zh) 2017-06-16

Similar Documents

Publication Publication Date Title
CN103927394A (zh) 一种基于svm的多标签主动学习分类方法及系统
Yao et al. Sensing spatial distribution of urban land use by integrating points-of-interest and Google Word2Vec model
CN106407352B (zh) 基于深度学习的交通图像检索方法
CN105069173A (zh) 基于有监督的拓扑保持哈希的快速图像检索方法
CN104881689A (zh) 一种多标签主动学习分类方法及系统
CN105117429A (zh) 基于主动学习和多标签多示例学习的场景图像标注方法
CN109145171A (zh) 一种多尺度地图数据更新方法
CN103903441B (zh) 一种基于半监督学习的道路交通状态判别方法
CN103412888A (zh) 一种兴趣点识别方法和装置
CN104966105A (zh) 一种鲁棒机器错误检索方法与系统
CN103324954A (zh) 一种基于树结构的图像分类方法及其系统
CN102571431B (zh) 针对复杂网络的基于群思想改进的Fast-Newman聚类方法
CN104715021A (zh) 一种基于哈希方法的多标记学习的设计方法
CN104298778A (zh) 一种基于关联规则树的轧钢产品质量的预测方法及系统
CN104881735A (zh) 用于支撑智慧城市运行管理的智能电网大数据挖掘系统及方法
CN103020321B (zh) 近邻搜索方法与系统
CN105260746B (zh) 一种可扩展的多层集成多标记学习系统
CN102270192A (zh) 一种基于svm主动学习的多标签分类控制方法
CN104036497A (zh) 基于方差局部系数的图切交互式图像分割方法
CN102867192B (zh) 一种基于监督测地线传播的场景语义迁移方法
CN106600046A (zh) 基于多分类器融合的土地闲置预测方法及装置
CN111553509B (zh) 针对地质环境风险的轨道交通选线评估及成本优化方法
CN102024153B (zh) 高光谱图像监督分类方法
CN105894038A (zh) 一种基于信号传递和链接模式的信用卡欺诈预测方法
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170616