CN105930411A

CN105930411A - 一种分类器训练方法、分类器和情感分类系统

Info

Publication number: CN105930411A
Application number: CN201610239552.7A
Authority: CN
Inventors: 李寿山; 张栋; 周国栋; 贡正仙
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-04-18
Filing date: 2016-04-18
Publication date: 2016-09-07

Abstract

本申请提供一种分类器训练方法、分类器和情感分类系统，上述方法包括：获取主题集合中至少一个主题的已标注的评论文本，作为训练样本；获取主题集合中至少一个主题的未标注的评论文本，作为未标注样本；采用标签传播算法预测所述未标注样本；采用预测后的所述未标注样本和所述训练样本训练分类器。本方案除了通过利用已经标注过的评论文本对分类器进行训练之外，还利用未标注的评论文本对所述分类器进行训练，并且采用所述未标注的评论文本对所述分类器进行训练后，显著提高了所述分类器的分类精度。在不明显提高用户工作量的基础上，有效的提高了分类器的精准度。

Description

一种分类器训练方法、分类器和情感分类系统

技术领域

本发明涉及自然语言处理及模式识别技术领域，具体涉及一种分类器训练方法、分类器和情感分类系统。

背景技术

随着网络在用户生活中的地位等级不断提高，通过网络进行购物、阅读新闻、阅读书籍、观看影视信息等已经成为用户网络生活中最重要的组成部分之一，同时还会通过采用文本的方式对浏览内容进行主观评论，这些评论文本存在正面的评论当然也存在负面的评论文本，其他用户可以通过这些评论文本内容，确定这些评论文本对应的浏览内容的可浏览性，例如这些评论文本中正面评论居多，则可认为浏览内容的可浏览性较高，如果负面评论文本居多，则可认为浏览内容的可浏览性较低。

在评论文本中往往带有评论用户的情感色彩或主观意识，通过这些带有用户感情色彩或主观意识的内容，可对这些评论文本所表达的情感进行挖掘。现阶段中，通常采用分类器的方式对这些评论文本进行分类，在训练所述分类器时，通常只采用大量的已标注过的评论文本对所述分类器进行训练，因为获得这些标记可能需要耗费大量的人力物力，如果要获得精度较高的分类器，在训练过程中用到的所述已标注的评论文本的数量需要大幅度增加，从而大幅度的增加了用户的工作量，因此，如何在不大幅度增加用户工作量的前提下，提高分类器的精准度，成为本领域技术人员亟待解决的技术问题之一。

发明内容

有鉴于此，本发明实施例提供一种分类器训练方法、分类器和情感分类系统，以实现在不显著增加用户工作量的前提下提高分类器的精准度。

为实现上述目的，本发明实施例提供如下技术方案：

一种分类器训练方法，包括：

获取主题集合中至少一个主题的已标注的评论文本，作为训练样本；

获取主题集合中至少一个主题的未标注的评论文本，作为未标注样本；

采用标签传播算法预测所述未标注样本；

采用预测后的所述未标注样本和所述训练样本训练分类器。

优选的，上述分类器训练方法中，所述获取主题集合中至少一个主题的已标注的评论文本，包括：

获取主题集合中各个主题在第一预设时间之前已标注的正评论文本和负评论文本。

优选的，上述分类器训练方法中，所述获取主题集合中至少一个主题的未标注的评论文本，包括：

获取主题集合中各个主题在第二预设时间之后的未标注的正评论文本和负评论文本。

优选的，上述分类器训练方法中，所述主题集合至少包括所述目标主题。

一种分类器训练系统，包括：

训练样本采集单元，用于获取主题集合中各个主题的已标注的评论文本，作为训练样本；

未标注样本采集单元，用于获取主题集合中各个主题的未标注的评论文本，作为未标注样本；

预测单元，用于采用标签传播预测所述未标注样本；

训练单元，用于采用预测后的所述未标注样本和所述训练样本训练分类器。

优选的，上述分类器训练系统中，所述训练样本采集单元，具体用于：

获取主题集合中至少一个主题在第一预设时间之前已标注的正评论文本和负评论文本。

优选的，上述分类器训练系统中，所述未标注样本采集单元，具体用于：

获取主题集合中至少一个主题在第二预设时间之后的未标注的正评论文本和负评论文本。

优选的，上述分类器训练系统中，所述主题集合至少包括所述目标主题。

一种情感分类系统，包括：采用上述任意一项公开的分类器训练系统训练得到的分类器；

与所述分类器相连的用于获取目标主题下的目标样本的样本采集器。

优选的，上述情感分类系统中，所述分类器具体用于在最大熵模型下，预测条件概率P(c|D)，

其中

F_{k, c} (D, c^{'}) = \{\begin{matrix} 1, & n_{k} (d) > 0 a n d c^{'} = c \\ 0, & o t h e r w i s e \end{matrix}

所述λ_k,c表示最大熵模型中各个特征函数F_k,c的参数向量，Z(D)为归一化因子，n_k(d)表示特征词典D中的词d在一条评论文本中出现的次数，c’表示当前预测的词c的上下文词。

基于上述技术方案，本发明实施例提供的上述方案，除了通过利用已经标注过的评论文本对分类器进行训练之外，还利用未标注的评论文本对所述分类器进行训练，并且采用所述未标注的评论文本对所述分类器进行训练后，显著提高了所述分类器的分类精度。在不明显提高用户工作量的基础上，有效的提高了分类器的精准度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种分类器训练方法的方法流程示意图；

图2为本申请实施例公开的一种分类器训练系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于叙述，先将本发明涉及的常用的术语与标记介绍如下：

目前情感分析的研究基本借鉴文本分类等机器学习的方法，还没有根据自身的特点形成一套独立的研究方法，当然在某种程度上也可以把情感分析看出一种特殊的文本分类。比较成熟的方法是基于监督学习的机器学习方法，半监督学习和无监督学习目前的研究不是很多，单纯的基于规则的情感分析这两年已很少研究了。所述半监督学习(Semi-Supervised Learning，SSL)：是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。主要分为半监督分类，半监督回归，半监督聚类和半监督降维算法。既然目前很多情感分析的研究基于机器学习，那么特征选择就是一个很重要的问题，N元语法等句法特征是使用最多的一类特征，而语义特征(语义计算)和结构特征(树核函数)从文本分类的角度看效果远没有句法特征效果好，所以目前的研究不是很多的。

由于基于监督学习情感分析的研究已经很成熟了，而且在真实世界中由于测试集的数量要远远多于训练集的数量，并且测试集的领域也不像在监督学习中被限制为和训练集一致，也就是说目前情感分析所应用的归纳偏置假设在真实世界中显得太强的，为了和真实世界相一致，基于半监督学习或弱指导学习的情感分析和跨领域的情感分析势必是将来的研究趋势之一。

在情感分析的最初阶段基于语义和基于规则的情感分析曾获得了比较大的重视，但是由于本身实现的复杂性以及文本分类和机器学习方法在情感分析应用上获得的成功，目前关于这方面的研究以及很少了，但是事实上，语义的相关性和上下文的相关性正是情感分析和文本分类最大的不同之处，所以将基于语义和规则的情感分析与基于机器学习的情感分析相结合也将是未来的研究趋势之一。

以下将分别对情感分析的起源，目前基于监督学习，无监督学习，基于规则和跨领域的情感分析的一些研究工作进行简单的介绍。目前，主流的主题分类方法是基于机器学习的监督分类方法，该方法分为两个过程：训练过程和分类过程。其中，在训练过程中，需要人工标注一定数目的问题(本申请抓取的就是至少一个主题的语料，故可省去此步骤)，然后使用这些样本和机器学习分类方法(例如：最大熵分类方法)去训练主题分类器；在分类过程中，使用训练获得的分类器对未知样本进行分类获得主题类别。所述机器学习分类方法(Classification Methods Based on Machine Learning)：为用于构建分类器的统计学习方法，输入是表示样本的向量，输出是样本的类别标签。根据学习算法的不同，常见的分类方法有朴素贝叶斯、最大熵分类方法、支持向量机等分类方法，本发明一实施例中就是采用的最大熵分类方法。

虽然之前也有一些相关工作，但目前公认的情感分析比较系统的研究工作开始于(Pang et al.,2002)基于监督学习(supervised learning)方法对电影评论文本进行情感倾向性分类和(Turney,2002)基于无监督学习(unsupervised learning)对文本情感倾向性分类的研究。(Pang et al.,2002)基于文本的N元语法(ngram)和词类(POS)等特征分别使用朴素贝叶斯(Naive Bayes)，最大熵(Maximum Entropy)和支持向量机(Support VectorMachine，SVM)将文本情感倾向性分为正向和负向两类，将文本的情感进行二元划分的做法也一直沿用至今。同时他们在实验中使用电影评论数据集目前已成为广泛使用的情感分析的测试集。(Turney,2002)基于点互信息(Pointwise Mutual Information，PMI)计算文本中抽取的关键词和种子词(excellent,poor)的相似度来对文本的情感倾向性进行判别(SO-PMI算法)。

在此之后的大部分都是基于(Pang et al.,2002)的研究。而相对来说，(Turney et al.,2002)提出的无监督学习的方法虽然在实现上更加简单，但是由于单词之间的情感相似度难以准确的计算和种子词的难以确定，继续在无监督学习方向的研究并不是很多的，但是利用SO-PMI算法计算文本情感倾向性的思想却被很多研究者所继承了。

目前，基于监督学习的情感分析仍然是主流，除了(Li et al.,2009)基于非负矩阵三分解(Non-negative Matrix Tri-factorization)，(Abbasiet al.,2008)基于遗传算法(Genetic Algorithm)的情感分析之外，使用的最多的监督学习算法是朴素贝叶斯，k最近邻(k-Nearest Neighbor，k-NN)，最大熵和支持向量机的。而对于算法的改进主要在对文本的预处理阶段。

情感分析和文本分类一个不同地方就是情感分析需要提取文本的真正表达情感的句子。(Pang et al.,2004)基于文本中的主观句的选择和(Wilsonel al.,2009)基于文本中的中性实例(neutral instances)的分析，都是为了能够尽量获得文本中真正表达情感的句子。(Abbasi et al.,2008)提出通过信息增益(Information Gain，IG)的方法来选择大量特征集中对于情感分析有益的特征。

而对于特征选择，除了N元语法和词类特征之外，(Wilson el al.,2009)提出混合单词特征，否定词特征，情感修饰特征，情感转移特征等各类句法特征的情感分析，(Abbasi et al.,2008)提出混合句子的句法(N元语法，词类，标点)和结构特征(单词的长度，词类中单词的个数，文本的结构特征等)的情感分析。

为了提升时间适应性情感分类(是指文本的情感极性，就是将提供的文本分类到正确的情感类别中，一般来说，分类正面评价和负面评价)的性能，本申请公开了一种基于半监督的时间适应性情感分类方法和系统，所述时间适应性是指在考察现在所产生的评论文本的情感极性时，由于没有已标注好的评论文本，此时利用以前已标注好的同领域评论文本作为训练样本，预测现在的评论文本情感。

参见图1，所述分类器训练方法包括：

步骤S101：获取训练样本；

在本步骤中，获取主题集合中至少一个主题下的已标注的评论文本，将所述已标注的评论文本作为训练样本；其中，所述主题集合包括用户预设的若干个主题，例如主题集合中的元素可以包括：electronic、kitchen、movies、video等。

步骤S102：获取未标注样本；

在本步骤中，获取主题集合中至少一个主题下的未标注的评论文本，将这些未标注的评论文本作为未标注样本，对这些评论文本进行处理后对所述分类器进行训练；

其中，本申请并不对所述步骤S101和步骤S102之间的执行顺序进行限定，可以先执行所述步骤S101后执行步骤S102，当然也可以先执行步骤S102，后执行步骤S101，当然两者也可以同时执行；

步骤S103：采用标签传播算法预测所述未标注样本；

步骤S104：采用预测后的所述未标注样本和所述训练样本训练分类器。

参见本申请上述实施例公开的方法中，在分类器的训练过程中，除了通过利用已经标注过的评论文本(在训练所述分类器之前，已经标注过的评论文本)对分类器进行训练之外，还利用未标注的评论文本对所述分类器进行训练，并且采用所述未标注的评论文本对所述分类器进行训练后，显著提高了所述分类器的分类精度。随着信息技术的飞速发展，收集大量未标记的(unlabeled)评论文本已相当容易，用户只需要花费很小的工作量就可得到大量的未标注的评论文本，本申请公开的训练方法对分类器进行训练的过程中，用到的已标注的评论文本的数量较少，并且在不明显提高用户工作量的基础上，有效的提高了分类器的精准度。

为了方便用户更加清楚的了解本申请公开的技术方案，下面详细说明本发明方法所涉及的各个细节问题。

数据抽取

数据抽取(Data Extraction)指的是抽取在原本杂乱的数据中，分布在各个类别，不同的时间段的数据，比如本发明所需要的实验数据可以是相隔时间较长的数据，因此可选择时间节点在第一预设时间之前的数据和时间节点在第二预设时间之后的数据作为我们的训练数据。这就需要在本申请上述实施例公开的分类器的训练过程之前还需要过滤掉不需要的数据，选择时间节点在第一预设时间之前的数据和时间节点在第二预设时间之后的数据的有用的数据作为本申请上述实施例公开的方法中用到的数据。

在训练分类器的训练过程中，采用分类器对每个测试样本进行预测，将预测结果和所述测试样本有原本被标注的类别进行比较，如果两者相同，则所述分类器对该训练样本的分类正确，如果两者不同，则所述分类器分类错误，当测试出现错误以后对所述分类器进行调整。

可以理解的是，为了提高分类器的分类结果的正确率，在本申请上述实施例公开的分类器训练过程中，可以采用基于时间适应性的方式对所述分类器进行训练，即，本申请上述实施例公开的上述分类器训练过程中，所述获取主题集合中至少一个主题的已标注的评论文本，具体可以包括：

获取主题集合中各个主题在第一预设时间之前已标注的评论文本，当然为了进一步提高分类器的分类能力，所述已标注的评论文本可以包括数量相等的正评论文本和负评论文本。

所述获取主题集合中至少一个主题的未标注的评论文本，具体可以包括：获取主题集合中各个主题在第二预设时间之后的未标注的评论文本，为了进一步提高分类器的分类能力，所述未标注的评论文本可以包括数量相等的正评论文本和负评论文本。

为了方便用户进一步了解本申请实施例公开的分类器的训练过程，本申请还以一具体的实施例对所述分类器的训练过程进行了具体介绍，在本实施例中，所述主题集合中的主题包括：electronic、kitchen、movies、video，分类器的训练过程包括：

步骤1、获取每个主题(electronic、kitchen、movies、video)下2002年以前(第一预设时间)的已标注评论文本4000条(包括2000条正评论和2000条负评论)，将这些评论文本作为训练样本；

步骤2、获取2012年(第二预设时间)以后产生的未标注的评论文本3200条(包括1600条正评论和1600条负评论)，将这些评论文本作为未标注样本，相当于每个主题获取7200条评论文本，四个主题共28800条评论文本；

步骤3、采用标签传播算法训练所述未标注样本；

步骤4、采用标签传播算法预测所述未标注样本；

步骤5、采用预测后的所述未标注样本和所述训练样本训练分类器。

在本申请上述实施例公开的技术方案中，对分类器进行训练时，除了利用已标注样本之外，还利用了未标注样本信息，采用标签传播算法对分类器进行训练，明显提高了预测精度。

为了更加直观的显示本申请实施例公开的分类方法与传统的分类方法的分类结果的对比，本申请还采用了各个主题2012年(第二预设时间)以后产生的未标注的800条评论文本(包括400条正评论和400条负评论)作为测试样本，对传统的分类器的分类精度和采用本申请实施例公开的训练方法训练得到的分类器的训练精度进行测试，在这里指的所述传统的分类器是采用4000条已标注的评论文本训练得到的分类器，测试结果请参见表1。

类别	传统分类器测试精度	本发明分类器测试精度
			electronic	0.709	0.779
kitchen	0.678	0.718
			movie	0.638	0.718
video	0.580	0.619

表1

通过表1可见，在未利用未标注样本对分类器进行训练的情况下，传统的分类准确率都不高；本申请在利用未标注样本的信息之后，四组实验中，每一组分类准确率都提升有4个百分点，最高提升9个百分点，明显可见，采用本申请实施例公开的分类方法明显提高了分类的准确率。

与上述分类器训练方法对应，本申请还公开了一种分类器训练系统，参见图2，包括：训练样本采集单元100，用于获取主题集合中各个主题的已标注的评论文本，作为训练样本；

未标注样本采集单元200，用于获取主题集合中各个主题的未标注的评论文本，作为未标注样本；

预测单元300，用于采用标签传播预测所述未标注样本；

训练单元400，用于采用预测后的所述未标注样本和所述训练样本训练分类器。

上述分类器训练系统，除了通过利用已经标注过的评论文本(在训练所述分类器之前，已经标注过的评论文本)对分类器进行训练之外，还利用未标注的评论文本对所述分类器进行训练，经试验论证得到，在具有同样的分类精度的前提下，采用本申请公开的训练系统训练得到的分类器，用到的评论文本的数量较少，且用到的已标注的评论文本的数量也相对较少，因此，降低了用户工作量，提高了分类器的训练效率。

与上述训练方法相对应，所述训练样本采集单元100，具体用于：获取主题集合中至少一个主题在第一预设时间之前已标注的正评论文本和负评论文本。所述未标注样本采集单元200，具体用于：获取主题集合中至少一个主题在第二预设时间之后的未标注的正评论文本和负评论文本。

针对于上述分类器训练方法和分类器，本申请还公开了一种情感分类系统，具体的，该分类系统为基于半监督的时间适应性情感分类系统，该系统具体可以包括：采用本申请上述任意一项实施例公开的分类器训练方法和分类器训练系统训练得到的分类器，以及与所述分类器相连的用于获取目标主题下的目标样本的样本采集器。在对目标样本进行分类时，所述样本采集器将获取到的评论文本作为目标样本，让后将所述目标样本发送至所述分类器，采用所述分类器对所述目标样本进行分类。

本发明公开的方法的基本思想是使用多个分类方法参与分类器的分类，从而提高基分类器之间的差异性，进一步提高融合后的分类效果。

例如，本发明中的所述分类器可以可采用TF(TF表示关键字在本影视中出现的频率)向量表示法作为分类器的计算机学习分类方法，即文档向量的分量为相应的单词在该文档中出现的频率。文本的向量作为机器学习分类方法实现的分类器的输入。具体的，本申请上述实施例中的所述分类器可以采用最大熵分类方法作为其机器学习分类方法。该分类方法是基于最大熵信息理论，其基本思想是为所有已知的因素建立模型，而把所有未知的因素排除在外。其宗旨是一种概率分布，该概率分布能够满足所有已知的事实，但是让未知的因素最随机化。相对于朴素贝叶斯方法，该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此，该方法适合融合各种不一样的特征，而无需考虑它们之间的影响。

当本申请上述实施例公开的技术方案中的分类器采用最大熵分类方法作为其机器学习分类方法时，所述分类器用于采用在最大熵模型下，预测条件概率P(c|D)；

其中

F_{k, c} (D, c^{'}) = \{\begin{matrix} 1, & n_{k} (d) > 0 a n d c^{'} = c \\ 0, & o t h e r w i s e \end{matrix};

本发明的有益效果：传统的机器学习算法需要利用大量有标记的样本进行学习。随着信息技术的飞速发展，收集大量未标记的(unlabeled)样本已相当容易，而获取大量的有标记的示例则相对较为困难，因为获得这些标记可能需要耗费大量的人力物力。如何利用大量的未标记样本改善学习性能成为当前机器学习研究中备受关注的问题。通过上述论述可见，本申请可充分利用大量的未标记样本来改善学习机的性能，提高了分类器的分类精准度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置或方法而言，由于其与实施例公开的方法或装置相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种分类器训练方法，其特征在于，包括：

采用标签传播算法预测所述未标注样本；

采用预测后的所述未标注样本和所述训练样本训练分类器。

2.根据权利要求1所述的分类器训练方法，其特征在于，所述获取主题集合中至少一个主题的已标注的评论文本，包括：

3.根据权利要求1所述的分类器训练方法，其特征在于，所述获取主题集合中至少一个主题的未标注的评论文本，包括：

4.根据权利要求1所述的分类器训练方法，其特征在于，所述主题集合至少包括所述目标主题。

5.一种分类器训练系统，其特征在于，包括：

预测单元，用于采用标签传播预测所述未标注样本；

6.根据权利要求5所述的分类器训练系统，其特征在于，所述训练样本采集单元，具体用于：

7.根据权利要求5所述的分类器训练系统，其特征在于，所述未标注样本采集单元，具体用于：

8.根据权利要求5所述的分类器训练系统，其特征在于，所述主题集合至少包括所述目标主题。

9.一种情感分类系统，其特征在于，包括：采用权利要求5-8任意一项公开的分类器训练系统训练得到的分类器；

10.根据权利要求9所述的情感分类系统，其特征在于，所述分类器具体用于在最大熵模型下，预测条件概率P(c|D)，

其中

F_{k, c} (D, c^{'}) = \{\begin{matrix} 1, & n_{k} (d) > 0 a n d c^{'} = c \\ 0, & o t h e r w i s e \end{matrix}