CN104794500A - 一种tri-training半监督学习方法及装置 - Google Patents

一种tri-training半监督学习方法及装置 Download PDF

Info

Publication number
CN104794500A
CN104794500A CN201510236589.XA CN201510236589A CN104794500A CN 104794500 A CN104794500 A CN 104794500A CN 201510236589 A CN201510236589 A CN 201510236589A CN 104794500 A CN104794500 A CN 104794500A
Authority
CN
China
Prior art keywords
sample
base sorter
base
sorter
marked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510236589.XA
Other languages
English (en)
Inventor
李寿山
张栋
周国栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201510236589.XA priority Critical patent/CN104794500A/zh
Publication of CN104794500A publication Critical patent/CN104794500A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种tri-training半监督学习方法及装置,包括:分别在第一标注样本上训练第一基分类器、第二基分类器和第三基分类器;分别采用第一基分类器、第二基分类器和第三基分类器获取与之相对应的第二待标注样本的类别标签;当第一基分类器、第二基分类器和第三基分类器中的至少两个基分类器确定的第二待标注样本的类别标签相同时,则确定第二待标注样本的类别标签为第二待标注样本最终标注的类别标签;将最终标注完成的第二待标注样本添加到第一标注样本中,以获取第三标注样本,并在第三标注样本上训练第四基分类器,有效的降低了对第二待标注样本的误标注率,提高了标注集的质量,进而获得了更好的半监督学习的效果。

Description

一种tri-training半监督学习方法及装置
技术领域
本发明涉及自然语言处理技术领域以及模式识别技术领域,更具体地说,涉及一种tri-training半监督学习方法及装置。
背景技术
半监督学习方法(Semi-supervised Learning)是模式识别和机器学习领域研究的重点问题,是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。
目前,半监督学习方法是情感分类中的常用方法,其主要是基于单个基分类器而言的,即,在标注样本上训练基分类器,在利用基分类器对待标注样本进行标注,进而在所有的标注样本上训练最终的分类器,但现有的半监督分类方法在对未标注样本进行标注时的误码率较高,进而影响了最终的分类效果。
综上所述,如何提供一种标注误码率低、分类效果更好的半监督分类方法,是目前本领域技术人员亟待解决的问题。
发明内容
有鉴于此,本发明的目的是提供一种tri-training半监督学习方法及装置,用以尽可能的降低对未标注样本的误标注率,提高标注集的质量,进而获得更好的分类效果。
为了实现上述目的,本发明提供如下技术方案:
一方面,本发明提供了一种tri-training半监督学习方法,包括:
分别在第一标注样本上训练第一基分类器、第二基分类器和第三基分类器;
分别采用所述第一基分类器、所述第二基分类器和所述第三基分类器获取与之相对应的第二待标注样本的类别标签;
当所述第一基分类器、所述第二基分类器和所述第三基分类器中的至少两个基分类器确定的所述第二待标注样本的类别标签相同时,则确定所述第二待标注样本的类别标签为所述第二待标注样本最终标注的类别标签;
将最终标注完成的所述第二待标注样本添加到所述第一标注样本中,以获取第三标注样本,并在所述第三标注样本上训练第四基分类器。
优选的,分别在第一标注样本上训练第一基分类器、第二基分类器和第三基分类器包括:
采用机器学习分类方法分别在所述第一标注样本上训练所述第一基分类器、所述第二基分类器和所述第三基分类器。
优选的,所述采用机器学习分类方法在第一标注样本上训练第一基分类器包括:
采用最大熵机器学习方法在所述第一标注样本上训练第一基分类器。
优选的,所述采用机器学习分类方法在第一标注样本上训练第二基分类器包括:
采用贝叶斯机器学习方法在所述第一标注样本上训练第二基分类器。
优选的,所述采用机器学习分类方法在第一标注样本上训练第三基分类器包括:
采用支持向量机机器学习方法在所述第一标注样本上训练第三基分类器。
另一方面,本发明还提供了一种tri-training半监督学习装置,包括:
训练模块,用于分别在第一标注样本上训练第一基分类器、第二基分类器和第三基分类器;所述第一标注样本为标注集中已经标注完成的标注样本;
获取模块,用于分别采用所述第一基分类器、所述第二基分类器和所述第三基分类器获取与之相对应的第二待标注样本的类别标签;
确定模块,用于当所述第一基分类器、所述第二基分类器和所述第三基分类器中的至少两个基分类器确定的所述第二待标注样本的类别标签相同时,则确定所述第二待标注样本的类别标签为所述第二待标注样本最终标注的类别标签;
第二获取模块,用于将最终标注完成的所述第二待标注样本添加到所述第一标注样本中,以获取第三标注样本,并在所述第三标注样本上训练第四基分类器。
优选的,训练模块包括:
训练单元,用于采用机器学习分类方法分别在所述第一标注样本上训练所述第一基分类器、所述第二基分类器和所述第三基分类器。
优选的,所述训练单元包括:
第一训练单元,用于采用最大熵机器学习方法在所述第一标注样本上训练第一基分类器;
第二训练单元,用于采用贝叶斯机器学习方法在所述第一标注样本上训练第二基分类器;
第三训练单元,用于采用支持向量机机器学习方法在所述第一标注样本上训练第三基分类器。
与现有技术相比,本发明的优点如下:
本发明提供了一种tri-training半监督学习方法及装置,分别在第一标注样本上训练第一基分类器、第二基分类器和第三基分类器,并分别采用第一基分类器、第二基分类器和第三基分类器获取与之相对应的第二待标注样本的类别标签;当第一基分类器、第二基分类器和第三基分类器中的至少两个基分类器确定的第二待标注样本的类别标签相同时,则确定第二待标注样本的类别标签为第二待标注样本最终标注的类别标签;同时将最终标注完成的第二待标注样本添加到第一标注样本中,以获取第三标注样本,并在第三标注样本上训练第四基分类器,即最终的分类器,与现有的半监督学习方法及装置相比,本发明提供的一种tri-training半监督学习方法及装置,分别采用三个基分类器对第二待标注样本进行标注,有效的降低了对第二待标注样本的误标注率,提高了标注集的质量,进而获得了更好的半监督学习的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种tri-training半监督学习方法的一种流程图;
图2为本发明实施例提供的一种tri-training半监督学习方法的另一种流程图;
图3为本发明实施例提供的一种支持向量机机器学习方法的原理图;
图4为本发明实施例提供的一种tri-training半监督学习装置的一种结构示意图;
图5为本发明实施例提供的一种tri-training半监督学习装置的另一种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着互联网的迅猛发展,人们越来越习惯与在网络上表达自己的观点,从而使网络上涌现出大量带情感的文本。这些倾向性文本往往以商品评论、论坛评论和博客的形式存在。这些文本往往是关键文本,或者是用户感兴趣的文本,具有很强的应用价值。例如,用户可以根据商品的评论了解商品的信息,选择合适的品牌;商家可以根据用户的评论改进商品的品质,争取更大的市场;追踪社会舆论趋势,发展社会热点问题等。情感分析就是针对这些应用问题提出的一个新兴的研究课题。
情感分类是情感分析中的一个基本任务。该任务旨在将文本按照情感倾向进行褒贬分类。与传统基于主题的文本分类相比,情感分类被认为更具有挑战性。该任务具体是指将文本分为正面文本或者负面文本的任务。例如,“我很喜欢这部电影”,通过情感分类,这句话将被分为正面文本,而“这个电影很差劲”,被分类为负面文本。
目前,主流的情感分类方法大致可以分为三种:第一种分类方法是基于情感词表的非监督学习方法,这种方法主要是基于词计数的方法。利用情感词表去统计样本中正面情感词和负面情感词的数目,如果正面词的数目多于负面词的数目,则判断样本为正面样本,否则为负面样本。该方法的实现非常简单,执行效率高,适合任何领域,但是分类效果与实际需求仍存在较大差距。第二种是基于机器学习的监督分类方法,该方法分为两个过程:训练过程和分类过程。其中,在训练过程中,需要人工标注一定规模的正负样本。这种方法的分类准确率比较高,但是标注大规模的样本是非常费时费力的。第三种则是半监督分类方法,该类方法通常用在具有小规模标注样本及大规模未标注样本的情况下,充分利用未标注样本提升分类性能。
请参考图1,其示出了本发明实施例提供的一种tri-training半监督学习方法的一种流程图,可以包括以下步骤:
步骤101:分别在第一标注样本上训练第一基分类器、第二基分类器和第三基分类器。
需要说明的是,第一标注样本为已经标注完成的样本。
步骤102:分别采用第一基分类器、第二基分类器和第三基分类器获取与之相对应的第二待标注样本的类别标签。
分别通过第一基分类器、第二基分类器和第三基分类器对样本中未标注的第二待标注样本进行标注,但第二待标注样本的最终标注结果是由第一基分类器、第二基分类器和第三基分类器共同决定的。
步骤103:当第一基分类器、第二基分类器和第三基分类器中的至少两个基分类器确定的第二待标注样本的类别标签相同时,则确定第二待标注样本的类别标签为第二待标注样本最终标注的类别标签。
分别确定各个基分类器对第二待标注样本标注的类别标签,进而判断所有基分类器中标定的类别标签中是否存在相同的类别标签,当三个基分类器中至少两个基分类器确定的第二待标注样本的类别标签相同时,则确定该相同的类别标签为第二待标注样本最终标注的类别标签。
步骤104:将最终标注完成的第二待标注样本添加到第一标注样本中,以获取第三标注样本,并在第三标注样本上训练第四基分类器。
需要说明的是,第四基分类器的训练可以采用多种训练方式,如最大熵、贝叶斯以及支持向量机。
本发明实施例提供了一种tri-training半监督学习方法,分别在第一标注样本上训练第一基分类器、第二基分类器和第三基分类器,并分别采用第一基分类器、第二基分类器和第三基分类器获取与之相对应的第二待标注样本的类别标签;当第一基分类器、第二基分类器和第三基分类器中的至少两个基分类器确定的第二待标注样本的类别标签相同时,则确定第二待标注样本的类别标签为第二待标注样本最终标注的类别标签;同时将最终标注完成的第二待标注样本添加到第一标注样本中,以获取第三标注样本,并在第三标注样本上训练第四基分类器,即最终的分类器,与现有的半监督学习方法及装置相比,本发明实施例提供的一种tri-training半监督学习方法,分别采用三个基分类器对第二待标注样本进行标注,有效的降低了对第二待标注样本的误标注率,提高了标注集的质量,进而获得了更好的半监督学习的效果。
请参考图2,其示出了本发明实施例提供的一种tri-training半监督学习方法的另一种流程图,可以包括以下步骤:
步骤201:采用机器学习分类方法分别在第一标注样本上训练第一基分类器、第二基分类器和第三基分类器。
其中,采用机器分类学习方法分别在第一标注样本上训练第一基分类器、第二基分类器和第三基分类器可以通过如下方式实现:
(1)采用最大熵机器学习方法在第一标注样本上训练第一基分类器。
(2)采用贝叶斯机器学习方法在第一标注样本上训练第二基分类器。
(3)采用支持向量机机器学习方法在第一标注样本上训练第三基分类器。
步骤202:分别采用第一基分类器、第二基分类器和第三基分类器获取与之相对应的第二待标注样本的类别标签。
下面分别依次对三类机器分类学习方法进行简单介绍。
(1)最大熵机器学习方法
其中,最大熵模型(Maximum entropy model)是最大熵分类器的理论基础,其基本思想是为所有已知的因素建立模型,而把所有未知的因素排除在外。即建模时尽量符合已知信息,对未知部分,使得熵最大,即不确定性最大。对待已知事物和未知事物的原则为:
(1)承认已知事物(知识);
(2)对未知事物不做任何假设,没有任何偏见。
近年来,最大熵模型被广泛地应用于分词、词性标注、词义排歧、文本分类等自然语言处理领域中。最大熵模型以其广泛的适应性、包容性为情感分类提供了一种新的途径。
许多自然语言处理问题都可以归结为分类问题,其任务是估计目标概念类Y在受上下文分析的影响下的条件概率。已知与y有关的所有上下文信息组成的集合为X,则模型的目标是:给定上下文x∈X,计算输出为y∈Y的条件概率p(y/x)。最大熵模型有两个基本的任务:特征选择和模型选择。特征选择即选择一个能表达随机过程的统计特征集合。模型选择即模型估计或参数估计,就是为每个入选的特征估计权重。其中常见的特征选择方法有增量式特征选择算法,基本算法和近似算法,基于频数阀值的特征选择算法等。
最大熵模型的建模推导过程为:
模型输入:训练样本标注集D={(x1,y1),(x2,y2),...,(xn,yn))},(xi,yi)表示在语料库中出现yi时,其上下文信息为xi。n为整个样本空间D的大小。
模型输出:随机变量x和y的联合经验概率分布
从训练样例中得到经验概率分布:
p ~ ( x , y ) = 1 N × Count ( x , y ) - - - ( 1 )
其中是Count(x,y)是语料中x和y共现的次数,N为总词数。
特征f是指x与y之间存在的某种特定关系,用二值函数表示为:
特征f的经验概率的期望值是所有满足特征要求的经验概率之和,即:
p ~ ( f ) = Σ x , y p ~ ( x , y ) f ( x , y ) - - - ( 3 )
特征f的期望概率是特征在所学习的随机事件中的真实分布为:
p ( f ) = Σ x , y p ~ ( x ) p ( y | x ) f ( x , y ) - - - ( 4 )
其中:是指x出现的情况下,y的经验概率。p(y/x)是指x出现的情况下,y的真实概率。特征的经验概率与期望概率应该一致,即:
p ( f ) = p ~ ( f ) - - - ( 5 )
可以表示为:
Σ x , y p ~ ( x ) p ( y | x ) f ( x , y ) = Σ x , y p ~ ( x , y ) f ( x , y ) - - - ( 6 )
上面的式子即为约束等式。
设存在k个特征fi(i=1,2,...,k),由多个约束等式构成的集合称之为约束集,可表示为:
C = { p ∈ P | p ( f ) = p ~ ( f ) } , i ∈ { i = 1,2 , . . . , k } - - - ( 7 )
最大熵模型就是满足约束条件的所有模型中熵最大的模型,即要求得在满足C的所有模型中,H(p)取最大值的概率分布p*
p*=arg max H(p)     (8)
其中,H(p)为条件熵,公式为:
H ( p ) = - Σ x , y p ~ ( x ) p ( y | x ) log p ( y | x ) - - - ( 9 )
则最大熵模型所对应的最优化问题为:
p*=arg max H(p)
C = { p ∈ P | p ( f ) = p ~ ( f ) } , i ∈ { i = 1,2 , . . . , k } - - - ( 10 )
我们可用拉格朗日乘法来解决这个最优化问题,将特征fi的权重用相对应的参数λi表示,则满足最大熵模型的条件概率分布p(y|x)可用指数的形式表示为:
p λ ( y | x ) = 1 Z λ ( x ) exp ( Σ i λ i f i ( x , y ) ) - - - ( 11 )
其中:
Z λ ( x ) = Σ y exp ( Σ λ i f i ( x , y ) ) - - - ( 12 )
常用的最大熵模型的求解方法有GIS(generalized iterative scaling)算法,IIS(improved iterative scaling)算法,SCGIS(Sequential Conditional GeneralizedIterative Scaling)算法。
GIS算法是一种称为通用迭代算法,算法的原理大致可以概括为以下几个步骤:
1)假定第零次迭代的初始模型为等概率的均匀分布;
2)用第N次迭代得到的模型来估算每种信息特征在训练数据中的分布,对照训练数据中的实际分布,如果超出实际分布值,则把相应的模型参数值减小;否则,将它们增大;
3)重复步骤2直到模型收敛。
由于GIS算法迭代的时间过长,需要迭代多次才能收敛,而且存在不太稳定性。因此,该算法只是作为最大熵模型训练的原型参考方法,很少在实际应用中真正使用。
后来,Della Pietra对GIS算法进行了两方面的改进,提出了改进迭代算法IIS。这使得最大熵模型的训练时间缩短了一到两个数量级。这样最大熵模型才有可能变得实用。
(2)贝叶斯机器学习方法
朴素贝叶斯分类器(Bayes)是基于贝叶斯原理的一种分类方法,它的模型简单,运算速度快,是使用最广泛的机器学习方法之一。该方法有一个假设前提,在给定的文档中,文档的特征项是相互独立的。
根据贝叶斯公式,文档dj属于类别ci的概率为:
p ( c i | d j ) = p ( d j | c i ) p ( c i ) p ( d j ) - - - ( 13 )
其中,p(ci|dj)表示文档dj属于类别ci的概率,p(dj|ci)表示在给定类别ci的情况下,文本dj发生的概率,p(ci)表示类别ci的先验概率,p(dj)表示文档dj发生的概率。
在进行贝叶斯分类时,判断文本dj的类别,就是要求公式(13)的最大后验条件概率。因为p(dj)可视为常量忽略不计,故公式(13)可以简化为:
p(ci|dj)∝p(di|ci)p(ci)     (14)
其中,p(ci)的计算公式为:
p ( c i ) = | D i | | D | - - - ( 15 )
其中,|Di|表示属于ci类的总文档数,|D|表示总文档数。
由于朴素贝叶斯假设文档中的各个特征项是相互独立的,故p(dj|ci)估计为:
p ( d j | c i ) = Π k p ( t kj | c i ) - - - ( 16 )
其中tkj表示文档dj的特征项,p(tkj|ci)是ci类文档中特征项tkj出现的条件概率的拉普拉斯估计:
p ( t kj | c i ) = 1 + Σ d j ∈ c i tf kj | T | + Σ i Σ d j ∈ c i tf kj - - - ( 17 )
其中表示类ci文档中特征项tkj出现的总频度,表示整个文档集中特征项tkj出现的总频度,|T|为特征项的数目。
(3)支持向量机机器学习方法
支持向量机(Support Vector Machines,SVMs)是由Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。
其主要思想是寻找一个超平面作为决策曲面,使得正例和负例之间的隔离边缘被最大化,因而SVM分类器在本质上是二元分类器。如图3所示的二维平面中,分别代表两类样本,H为分类线,H1,H2分别代表各类中距离分类线最近且平行于分类线H的直线的样本,它们之间的距离称为分类间隔(margin)。所谓最优分类线就是要求分类线能将两类正确分开且分类间隔最大。同理,在高维的欧几里德空间中假定训练数据可以被一个超平面分开,如果这个向量集合能被超平面准确地分开,并且离超平面最近的向量与超平面之间的距离最大,则称该平面为最优分类面。请参考图3,其示出了本发明实施例中提供的支持向量机机器学习方法的原理图。
设有n个样本集xi及其所属类别yi表示为:xi∈R,yi∈{-1,1},i=1,2…,n,超平面wTx+b=0方程能将两类样本分开,即:
yi[(wTxi)+b]-1≥0 i=1,...,n    (18)
分类间隔等于H1、H2上的训练样本点就称作支持向量。利用Lagrange优化方法得到最优分类函数是:
f ( x ) = sgn { Σ i = 1 n a i * y i ( x i x ) + b * } - - - ( 19 )
当f(x)>0时,该向量所对应的实例预测为正例;当f(x)<0时,该向量所对应的实例预测为反例。(xix)称为两个向量之间的内积,它从一个角度表明了在高维空间中两个向量之间的相似度。同样,也可以使用其它的相似度计算方法来代替内积,这就是所谓的核函数(Kernel functions)。常用的函数有多项式函数、径向基函数(Radial Basis Function,RBF)、Sigmoid函数等,不同的核函数对分类结果也有所影响。
步骤203:当第一基分类器、第二基分类器和第三基分类器中的至少两个基分类器确定的第二待标注样本的类别标签相同时,则确定第二待标注样本的类别标签为第二待标注样本最终标注的类别标签;
当利用上述各基分类器对第二待标注样本进行类别标注时,其类别标签的判定是通过后验概率Pl(c+|D)和Pl(c-|D)来决定,具体判定规则如下:
如果Pl(c+|D)大于Pl(c-|D),则第二待标注样本属于褒义,否则第二待标注样本属于贬义。
同时第二待标注样本最终标注的类别标签是通过第二待标注样本的最大后验概率确定的,其中:
第二待标注样本的最大后验概率是对后验概率Pl(c+|D)和Pl(c-|D)进行比较获得的,最大后验概率判定过程如下:
如果Pl(c+|D)大于Pl(c-|D),则最大后验概率为Pl(c+|D),否则最大后验概率为Pl(c-|D)。
需要说明的是,c+表示正类样本,c-表示负类样本,D表示样本集(测试语料),1表示类别标签。
步骤204:将最终标注完成的第二待标注样本添加到第一标注样本中,以获取第三标注样本,并在第三标注样本上训练第四基分类器。
同时,本发明实施例中采用了测试语料对第四基分类器进行了实验测试,其中,实验中使用的语料是多领域产品的评论语料,其中共有5个领域的数据,分别为书籍(books)、DVD、电子(electronics)、厨房(kitchen)、电影(movie)每个领域各有褒义和贬义评论1000篇,其中,200篇为正面评论,200篇为负面评论作为测试语料,100篇正面评论和100篇负面评论作为第一标注样本,余下的为第二待标注样本。
需要说明的是,正面评论即为表1中的正类样本,负面评论即为表1中的负类样本。
表1中的数据用了评估分类结果,其中,TP和TN代表了被正确分类的正类样本和负类样本,FP和FN代表了被错误分类的正类样本和负类样本。在情感分类问题中,通常使用准确率(A-ccuracy,Acc.)衡量分类效果。
Acc . = TP + TN TP + FP + TN + FN
表1 两类问题的混淆矩阵
如表2所示,本发明的半监督学习方法tri-training的结果比三个监督学习方法最大熵(base_max),贝叶斯(base_Bays),支持向量机(base_SVM)都有所提升,因此本发明实施例提出的tri-training在情感分类领域是一个有效的半监督学习方法。
表2 分类准确率比较结果
base_max base_Bays base_SVM tri-training
books 0.715 0.685 0.715 0.735
dvd 0.705 0.705 0.645 0.740
electronics 0.640 0.780 0.650 0.785
kitchen 0.760 0.795 0.660 0.805
movie 0.735 0.740 0.685 0.760
与上述方法的实施例相对应,本发明实施例还提供了一种tri-training半监督学习装置,请参考图4,其示出了本发明实施例提供的一种tri-training半监督学习装置的一种结构示意图,可以包括:训练模块11、获取模块12、确定模块13和第二获取模块14,其中:
训练模块11,用于分别在第一标注样本上训练第一基分类器、第二基分类器和第三基分类器。
其中,第一标注样本为标注集中已经标注完成的标注样本。
优选的,训练模块11可以包括:训练单元21,其中:
训练单元21,用于采用机器学习分类方法分别在第一标注样本上训练第一基分类器、第二基分类器和第三基分类器。
其中,请参考图5,其示出了本发明实施例提供的一种tri-training半监督学习装置的一种子结构示意图,其中,训练单元21还可以包括:第一训练单元31、第二训练单元32和第三训练单元33,其中:
第一训练单元31,用于采用最大熵机器学习方法在第一标注样本上训练第一基分类器;
第二训练单元32,用于采用贝叶斯机器学习方法在第一标注样本上训练第二基分类器;
第三训练单元33,用于采用支持向量机机器学习方法在第一标注样本上训练第三基分类器。
获取模块12,用于分别采用第一基分类器、第二基分类器和第三基分类器获取与之相对应的第二待标注样本的类别标签;
确定模块13,用于当第一基分类器、第二基分类器和第三基分类器中的至少两个基分类器确定的第二待标注样本的类别标签相同时,则确定第二待标注样本的类别标签为第二待标注样本最终标注的类别标签;
第二获取模块14,用于将最终标注完成的第二待标注样本添加到第一标注样本中,以获取第三标注样本,并在第三标注样本上训练第四基分类器。
本发明实施例提供了一种tri-training半监督学习装置,分别在第一标注样本上训练第一基分类器、第二基分类器和第三基分类器,并分别采用第一基分类器、第二基分类器和第三基分类器获取与之相对应的第二待标注样本的类别标签;当第一基分类器、第二基分类器和第三基分类器中的至少两个基分类器确定的第二待标注样本的类别标签相同时,则确定第二待标注样本的类别标签为第二待标注样本最终标注的类别标签;同时将最终标注完成的第二待标注样本添加到第一标注样本中,以获取第三标注样本,并在第三标注样本上训练第四基分类器,即最终的分类器,与现有的半监督学习装置相比,本发明实施例提供的一种tri-training半监督学习装置,分别采用三个基分类器对第二待标注样本进行标注,有效的降低了对第二待标注样本的误标注率,提高了标注集的质量,进而获得了更好的半监督学习的效果。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种tri-training半监督学习方法,其特征在于,包括:
分别在第一标注样本上训练第一基分类器、第二基分类器和第三基分类器;
分别采用所述第一基分类器、所述第二基分类器和所述第三基分类器获取与之相对应的第二待标注样本的类别标签;
当所述第一基分类器、所述第二基分类器和所述第三基分类器中的至少两个基分类器确定的所述第二待标注样本的类别标签相同时,则确定所述第二待标注样本的类别标签为所述第二待标注样本最终标注的类别标签;
将最终标注完成的所述第二待标注样本添加到所述第一标注样本中,以获取第三标注样本,并在所述第三标注样本上训练第四基分类器。
2.根据权利要求1所述的方法,其特征在于,分别在第一标注样本上训练第一基分类器、第二基分类器和第三基分类器包括:
采用机器学习分类方法分别在所述第一标注样本上训练所述第一基分类器、所述第二基分类器和所述第三基分类器。
3.根据权利要求2所述的方法,其特征在于,所述采用机器学习分类方法在第一标注样本上训练第一基分类器包括:
采用最大熵机器学习方法在所述第一标注样本上训练第一基分类器。
4.根据权利要求3所述的方法,其特征在于,所述采用机器学习分类方法在第一标注样本上训练第二基分类器包括:
采用贝叶斯机器学习方法在所述第一标注样本上训练第二基分类器。
5.根据权利要求4所述的方法,其特征在于,所述采用机器学习分类方法在第一标注样本上训练第三基分类器包括:
采用支持向量机机器学习方法在所述第一标注样本上训练第三基分类器。
6.一种tri-training半监督学习装置,其特征在于,包括:
训练模块,用于分别在第一标注样本上训练第一基分类器、第二基分类器和第三基分类器;所述第一标注样本为标注集中已经标注完成的标注样本;
获取模块,用于分别采用所述第一基分类器、所述第二基分类器和所述第三基分类器获取与之相对应的第二待标注样本的类别标签;
确定模块,用于当所述第一基分类器、所述第二基分类器和所述第三基分类器中的至少两个基分类器确定的所述第二待标注样本的类别标签相同时,则确定所述第二待标注样本的类别标签为所述第二待标注样本最终标注的类别标签;
第二获取模块,用于将最终标注完成的所述第二待标注样本添加到所述第一标注样本中,以获取第三标注样本,并在所述第三标注样本上训练第四基分类器。
7.根据权利要求6所述的装置,其特征在于,训练模块包括:
训练单元,用于采用机器学习分类方法分别在所述第一标注样本上训练所述第一基分类器、所述第二基分类器和所述第三基分类器。
8.根据权利要求7所述的装置,其特征在于,所述训练单元包括:
第一训练单元,用于采用最大熵机器学习方法在所述第一标注样本上训练第一基分类器;
第二训练单元,用于采用贝叶斯机器学习方法在所述第一标注样本上训练第二基分类器;
第三训练单元,用于采用支持向量机机器学习方法在所述第一标注样本上训练第三基分类器。
CN201510236589.XA 2015-05-11 2015-05-11 一种tri-training半监督学习方法及装置 Pending CN104794500A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510236589.XA CN104794500A (zh) 2015-05-11 2015-05-11 一种tri-training半监督学习方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510236589.XA CN104794500A (zh) 2015-05-11 2015-05-11 一种tri-training半监督学习方法及装置

Publications (1)

Publication Number Publication Date
CN104794500A true CN104794500A (zh) 2015-07-22

Family

ID=53559287

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510236589.XA Pending CN104794500A (zh) 2015-05-11 2015-05-11 一种tri-training半监督学习方法及装置

Country Status (1)

Country Link
CN (1) CN104794500A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类系统
CN106228980A (zh) * 2016-07-21 2016-12-14 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN106776560A (zh) * 2016-12-15 2017-05-31 昆明理工大学 一种柬埔寨语组织机构名识别方法
CN106789888A (zh) * 2016-11-18 2017-05-31 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
CN107679084A (zh) * 2017-08-31 2018-02-09 平安科技(深圳)有限公司 聚类标签生成方法、电子设备及计算机可读存储介质
CN109064206A (zh) * 2018-06-25 2018-12-21 阿里巴巴集团控股有限公司 业务流失预测方法、装置、服务器及可读存储介质
CN109242013A (zh) * 2018-08-28 2019-01-18 北京九狐时代智能科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN109726290A (zh) * 2018-12-29 2019-05-07 咪咕数字传媒有限公司 投诉分类模型的确定方法及装置、计算机可读存储介质
CN111126603A (zh) * 2019-12-25 2020-05-08 江苏远望仪器集团有限公司 基于神经网络模型的设备故障预测方法、装置及设备
CN111222570A (zh) * 2020-01-06 2020-06-02 广西师范大学 基于差分隐私的集成学习分类方法
CN111594197A (zh) * 2020-04-30 2020-08-28 东北大学 一种基于tbm岩机信息的隧洞断层段超前智能感知方法
CN113344258A (zh) * 2021-05-25 2021-09-03 同济大学 一种基于分歧的半监督学习的地震岩性预测方法
CN113780314A (zh) * 2020-05-20 2021-12-10 阿里巴巴集团控股有限公司 一种分类模型训练方法、装置和系统
US11526802B2 (en) 2019-06-25 2022-12-13 International Business Machines Corporation Model training using a teacher-student learning paradigm
CN115687334A (zh) * 2023-01-05 2023-02-03 粤港澳大湾区数字经济研究院(福田) 数据质检方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324046A (zh) * 2011-09-01 2012-01-18 西安电子科技大学 结合主动学习的四分类器协同训练方法
CN103336779A (zh) * 2013-05-29 2013-10-02 苏州市职业大学 基于半指导策略的汉语多词表达语料构建方法
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324046A (zh) * 2011-09-01 2012-01-18 西安电子科技大学 结合主动学习的四分类器协同训练方法
CN103336779A (zh) * 2013-05-29 2013-10-02 苏州市职业大学 基于半指导策略的汉语多词表达语料构建方法
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
张雁 等: "基于Tri-Training 半监督分类算法的研究", 《计算机技术与发展》 *
张雁 等: "基于Tri-training的主动学习算法", 《计算机工程》 *
李昆仑 等: "基于Tri-training 的半监督SVM", 《计算机工程与应用》 *
王轶初: "基于集成学习的半监督学习算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类系统
CN106228980A (zh) * 2016-07-21 2016-12-14 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN106228980B (zh) * 2016-07-21 2019-07-05 百度在线网络技术(北京)有限公司 数据处理方法和装置
CN106789888A (zh) * 2016-11-18 2017-05-31 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
CN106789888B (zh) * 2016-11-18 2020-08-04 重庆邮电大学 一种多特征融合的钓鱼网页检测方法
CN106776560A (zh) * 2016-12-15 2017-05-31 昆明理工大学 一种柬埔寨语组织机构名识别方法
CN107679084A (zh) * 2017-08-31 2018-02-09 平安科技(深圳)有限公司 聚类标签生成方法、电子设备及计算机可读存储介质
CN107679084B (zh) * 2017-08-31 2021-09-28 平安科技(深圳)有限公司 聚类标签生成方法、电子设备及计算机可读存储介质
CN109064206A (zh) * 2018-06-25 2018-12-21 阿里巴巴集团控股有限公司 业务流失预测方法、装置、服务器及可读存储介质
CN109242013A (zh) * 2018-08-28 2019-01-18 北京九狐时代智能科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN109242013B (zh) * 2018-08-28 2021-06-08 北京九狐时代智能科技有限公司 一种数据标注方法、装置、电子设备及存储介质
CN109726290A (zh) * 2018-12-29 2019-05-07 咪咕数字传媒有限公司 投诉分类模型的确定方法及装置、计算机可读存储介质
CN109726290B (zh) * 2018-12-29 2020-12-22 咪咕数字传媒有限公司 投诉分类模型的确定方法及装置、计算机可读存储介质
US11526802B2 (en) 2019-06-25 2022-12-13 International Business Machines Corporation Model training using a teacher-student learning paradigm
CN111126603A (zh) * 2019-12-25 2020-05-08 江苏远望仪器集团有限公司 基于神经网络模型的设备故障预测方法、装置及设备
CN111222570A (zh) * 2020-01-06 2020-06-02 广西师范大学 基于差分隐私的集成学习分类方法
CN111222570B (zh) * 2020-01-06 2022-08-26 广西师范大学 基于差分隐私的集成学习分类方法
CN111594197A (zh) * 2020-04-30 2020-08-28 东北大学 一种基于tbm岩机信息的隧洞断层段超前智能感知方法
CN113780314A (zh) * 2020-05-20 2021-12-10 阿里巴巴集团控股有限公司 一种分类模型训练方法、装置和系统
CN113344258A (zh) * 2021-05-25 2021-09-03 同济大学 一种基于分歧的半监督学习的地震岩性预测方法
CN115687334A (zh) * 2023-01-05 2023-02-03 粤港澳大湾区数字经济研究院(福田) 数据质检方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN104794500A (zh) 一种tri-training半监督学习方法及装置
CN108399158B (zh) 基于依存树和注意力机制的属性情感分类方法
CN106528642B (zh) 一种基于tf-idf特征提取的短文本分类方法
CN105183833A (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
Mishu et al. Performance analysis of supervised machine learning algorithms for text classification
CN101714135B (zh) 一种跨领域文本情感倾向性分析方法
Waila et al. Evaluating machine learning and unsupervised semantic orientation approaches for sentiment analysis of textual reviews
CN104199845B (zh) 基于主体模型的网上评论情感分类方法
Lavanya et al. Twitter sentiment analysis using multi-class SVM
CN106202481A (zh) 一种感知数据的评价方法和系统
Chen et al. Differential topic models
Shuai et al. Sentiment analysis on Chinese hotel reviews with Doc2Vec and classifiers
CN101882136A (zh) 文本情感倾向性分析方法
Aliane et al. A genetic algorithm feature selection based approach for Arabic sentiment classification
Jayashree et al. An analysis of sentence level text classification for the Kannada language
Jotheeswaran et al. Feature reduction using principal component analysis for opinion mining
Pang et al. SBTM: topic modeling over short texts
Li et al. Research on the application of Naive Bayes and Support Vector Machine algorithm on exercises Classification
Jayakody et al. Sentiment analysis on product reviews on twitter using Machine Learning Approaches
Wu et al. Topic mover's distance based document classification
Mahadevan et al. Review rating prediction using combined latent topics and associated sentiments: an empirical review
CN104572623A (zh) 一种在线lda模型的高效数据总结分析方法
Spichakova et al. Application of Machine Learning for Assessment of HS Code Correctness.
Wang et al. Financial numeral classification model based on BERT
Abudalfa et al. Semi-supervised target-dependent sentiment classification for micro-blogs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150722

RJ01 Rejection of invention patent application after publication