CN102298646B

CN102298646B - 一种主观文本和客观文本分类方法及装置

Info

Publication number: CN102298646B
Application number: CN201110281938.1A
Authority: CN
Inventors: 李寿山; 孔芳; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2011-09-21
Filing date: 2011-09-21
Publication date: 2014-04-09
Anticipated expiration: 2031-09-21
Also published as: CN102298646A

Abstract

本发明实施例公开了一种主观文本和客观文本分类方法及装置，该发明对不平衡训练样本进行多次欠采样，并对欠采样后的训练集进行训练，从而构建出多个基分类器，进而利用基分类器对待分样本进行分类，最后将所有分类结果进行统计得到最终的分类结果。本发明实施例采用多次欠采样能够充分利用样本，训练欠采样训练集时使用不同的机器学习方法，构建出差异性大的基分类器。解决了样本不平衡给机器学习分类方法带来的不利影响，提高了分类效果。

Description

一种主观文本和客观文本分类方法及装置

技术领域

本发明涉及自然语言处理技术领域及模式识别领域，尤其涉及一种主观文本和客观文本分类方法及装置。

背景技术

主客观分类是将文本分为主观性文本或者客观性文本的任务。所谓主观性文本是指对于非事实进行描述的文本。在文本中会带有发表者的个人情感倾向。所谓客观性文本是指作者对于事件、对象等进行基于事实的描述，不带有个人的好恶和偏见。例如：“我今天买了一台笔记本，机子超级漂亮，我非常喜欢”，这句话中的前半句“我今天买了一台笔记本”为一客观句而后半句“机子超级漂亮，我非常喜欢”为主观句。主客观分类任务就是要将文本分成主观和客观部分。该任务是自然语言处理技术中的一个基础任务，实现文本的主客观计算机自动分类能够更好的帮助我们分析目前的浩瀚文本信息中的主观信息，并能帮助其他进一步的情感分析任务，例如情感倾向性分类。同时，主客观分类方法涉及到模式识别中的很多基本问题，例如分类器设计问题，高维特征问题等等。因此，主客观分类技术的研究具有重要的实用价值和理论意义。

目前，主流的主客观分类方法是基于机器学习的监督分类方法，该方法分为两个过程：训练过程和分类过程。其中，在训练过程中，需要人工标注一定数目的主观性文章和客观性文章，然后使用这些标注样本和机器学习分类方法，如最大熵分类方法去训练出主客观分类器；在分类过程中，使用获得的分类器对未知样本进行分类获得主客观类别。

但是，目前的方法一个重要的假设是训练数据是平衡的，即主观性文章和客观性文章数目相当。但是实际应用中，主客观文本的分布往往会非常不平衡。例如，观察豆瓣网上的大量的电影评论后，发现电影评论中客观的文本远远超过主观的文本，平均一篇文章包含10句左右的客观句和2句左右的主观句。由于传统的机器学习方法在样本不平衡的情况下，会将样本严重倾向地分为数量多的那个类别，从而严重影响分类的整体效果。

发明内容

本发明实施例提供了一种主观文本和客观文本分类方法及装置，能够有效解决主客观分类中的数据不平衡分布问题，改善分类效果。

一种主观文本和客观文本分类方法，包括：

对不平衡训练样本进行多次欠采样，每次得到对应的一组欠采样训练集；对每一组所述欠采样训练集任意选择一种机器学习分类方法进行训练，从而为每一组所述欠采样训练集构建一个对应的基分类器；使用每个所述基分类器对待分样本进行分类，分别得到对应的分类结果；将所有所述的分类结果进行统计，得到统计结果；使用所述统计结果判断待分样本的主客观类别。

一种主观文本和客观文本分类装置，包括：

欠采样单元，用于对不平衡训练样本进行多次欠采样，从而得到每次对应的一组欠采样训练集；训练单元，用于对每一组所述欠采样训练集任意选择一种机器学习分类方法进行训练，从而为每一组所述欠采样训练集构建一个对应的基分类器；分类单元，用于使用每个所述基分类器对待分样本进行分类，从而分别得到对应的分类结果；统计单元，用于将所有的分类结果进行统计，得到统计结果；判断单元，用于使用所述统计结果判断待分样本的主客观类别。

从以上技术方案可以看出，本发明实施例具有以下优点：本发明实施例提供了一种主观文本和客观文本分类方法及装置，该发明对不平衡训练样本进行多次欠采样，并对欠采样后的训练集进行训练，从而构建出多个基分类器，进而利用基分类器对待分样本进行分类，最后将所有分类结果进行统计得到最终的主客观分类结果。本发明实施例多次欠采样能够充分利用样本，训练欠采样训练集时使用不同的机器学习方法，构建出差异性大的基分类器。解决了样本不平衡给机器学习分类方法带来的不利影响，提高了分类效果，有效解决主观文本和客观文本分类中的数据不平衡分布问题。

附图说明

图1为本发明实施例提供的一种主观文本和客观文本分类方法的流程图；

图2为本发明实施例提供的一种主观文本和客观文本分类装置的基本逻辑结构图；

图3为本发明实施例提供的另一种主观文本和客观文本分类装置的结构示意图。

具体实施方式

下面将结合附图说明对本发明实施例进行详细描述。本发明实施例提供了一种主观文本和客观文本分类方法及装置，用于解决主客观分类中的数据不平衡分布问题，改善分类效果。该发明实施例将一定的主观和客观不平衡文本作为训练样本，然后对不平衡训练样本进行多次欠采样，并对欠采样训练集进行训练，从而构建多个基分类器，进而用于对待分样本进行分类，最后将所有分类结果进行统计从而得到最终的分类结果。本发明实施例能够充分利用不平衡训练样本，解决了样本不平衡给机器学习分类方法带来的不利影响。在构建基分类器时，随机使用三种不同的方法，使得构建出来的基分类器的差异性大，有利于改善分类效果。

本发明实施例的主观文本和客观文本分类方法的基本流程可参考图1，图1为本发明实施例提供的一种主观文本和客观文本分类方法的流程图，该方法主要包括以下步骤：

101、对不平衡训练样本多次欠采样，每次得到一组欠采样训练集。

由于欠采样是从多数类样本中选取一定数目的样本，所以会丢失掉一些信息，因此多次欠采样能够达到充分利用多数类样本的效果，使分类结果更为准确。

这其中，首先要对所选用的测试语料中的不平衡训练样本进行人工标注，分成客观句子一类和主观句子一类，比较不平衡训练样本中包含主观类句子的数量和客观类句子的数量的多少，将包含句子数量多的类别作为多数类样本，将包含句子数量少的类别作为少数类样本。然后计算多数类样本数量和少数类样本数量的比例，确定欠采样的次数。最后按照确定的欠采样次数，重复多次从多数类样本中抽取出部分多数类样本。需要指出的是，每一次从多数类样本中抽取出的部分多数类样本的数量与少数类样本的数量相同。需要特别说明的是，由于在实际中，在实行用不平衡训练样本来进行欠采样这一步骤时，所选用的语料里的多数类样本的数量与少数类样本的数量的比例不一定恰好是整数比，所以计算出的欠采样次数也不是整数，此时我们应该将计算出的欠采样次数取整数，取整后的次数应该是比原来计算出来的次数要大，同时是与原来计算出来的次数最为接近的整数。多次欠采样有利于提高分类效果。

欠采样时，每一次均从多数类样本中抽取出与少数类样本数量相同的部分多数类样本，该部分多数类样本和少数类样本共同组成一个欠采样训练集，即每欠采样一次就得到一组欠采样训练集，由欠采样的次数决定欠采样训练集的组数。

为了便于理解，下面以一具体的应用场景对上述实施例中描述的对不平衡训练样本多次欠采样方法进行详细的描述，具体的：

1、使用的训练样本包含4000个句子，其中，包含客观类句子3000个，包含主观类句子1000个。即多数类样本为客观类句子3000个，少数类样本为主观类句子1000个。计算得出的欠采样次数为3000/1000＝3次。则进行欠采样时，每次均从多数类样本中抽取出1000个句子，即每次从客观类3000个句子中抽取出1000个句子，每一次均与主观类句子的1000句组成一个欠采样训练集。显然，欠采样完成后会得到3组欠采样训练集。

2、使用的训练样本包含4000个句子，其中，包含客观类句子2500个，包含主观类句子1500个。即多数类样本为客观类句子2500个，少数类样本为主观类句子1500个。计算得出的欠采样次数为2500/1500≈1.7次。则实际进行欠采样时，次数应该取2次。即在欠采样时，每次从多数类样本中抽取出1500个句子，即从客观类句子2500个中抽取出1500个句子，每一次均与主观类句子的1500句组成一个欠采样训练集。显然，欠采样完成后会得到2组欠采样训练集。

102、对每一组欠采样训练集任意选择一种机器学习分类方法进行训练，从而为每一组欠采样训练集构建一个对应的基分类器。

这其中，本发明实施例选用的机器学习方法有三种，包括：朴素贝叶斯分类、最大熵分类和支持向量机分类。

下面对这三种方法进行详述：

1、朴素贝叶斯分类方法

计算文档D属于c_i类的概率为：

P (c_{i} | D) = \frac{P (c_{i}) Π_{t} P {(t | c_{i})}^{TF (t, D)}}{Σ_{m} P (c_{m}) Π_{t &Element; V} P {(t | c_{m})}^{TF (t, D)}}

P (t | c_{i}) = \frac{1 + TF (t, c_{i})}{| V | + Σ_{i} TF (t, c_{i})}

其中P(c_i)为一个文档属于c_i类的概率，P(t|c_i)是对在c_i类文档中特征t出现的条件概率的拉普拉斯概率估计，TF(t，c_i)是c_i类文档中特征t出现的频度，|V|为所有文档中包含的不同特征的总数目，TF(t，D)是在文档D中特征t出现的频度。

2、最大熵分类方法

最大熵分类方法是基于最大熵信息理论，其基本思想是为所有已知的因素建立模型，而把所有未知的因素排除在外。即要找到一种概率分布，满足所有已知的事实，但是让未知的因素最随机化。相对于朴素贝叶斯方法，该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此，该方法适合统计各种不一样的特征，而无需考虑它们之间的影响。

在最大熵模型下，预测条件概率P(c|D)的公式如下：

P (c_{i} | D) = \frac{1}{Z (D)} \exp (\underset{k}{Σ} λ_{k, c} F_{k, c} (D, c_{i}))

其中Z(D)是归一化因子。F_k，c是特征函数，定义为：

F_{k, c} (D, c^{'}) = \{\begin{matrix} 1, & n_{k} (d) > 0 and c^{'} = c \\ 0, & otherwise \end{matrix}

3、支持向量机分类方法

支持向量机分类方法(SVM，Support Vector Machine)是在统计理论基础上发展起来的一种新的通用学习方法，它在结构风险最小化原理的近似实现，因为它同时是最小化经验风险和VC维的界。在主客观分类任务中，这种分类方法得到了很大的应用，相关的研究工作非常多。

这其中，由于每对一组欠采样训练集进行训练，就得到一组对应的基分类器，所以显而易见地，欠采样训练集的组数与基分类器的组数相同。由于每次对样本进行欠采样训练时，所使用的机器学习方法为三种不同的学习分类方法之中的任意一种，从而使得构建出来的基分类器的差异性大，在步骤103，对待分样本进行分类时，就是使用这些构建出来的基分类器对待分样本进行分类，因此基分类器之间差异性大有利于提高分类的效果，分类结果更为准确。

103、使用每个基分类器对待分样本进行分类，得到对应的分类结果。

这其中，分类结果表示为每个基分类器给出的待分样本属于主观类的后验概率和属于客观类的后验概率。

104、将全部分类结果进行统计，得出统计结果。

此步骤使用贝叶斯统计规则统计所有基分类器的结果，得到统计后最终的分类结果。即将步骤103中得到的每个基分类器给出的待分样本属于主观类的后验概率和属于客观类的后验概率进行统计，得出统计后的主观类的后验概率和客观类的后验概率，即最终的统计结果。

为了便于理解，下面给出使用贝叶斯公式统计后的主观后验概率和客观的后验概率：

每个基分类器都给待分样本一个分类结果，用Pl(c_subjective|D)表示第1个基分类器给出的属于主观的后验概率，P_l(c_objective|D)表示第1个基分类器给出的属于客观的后验概率。贝叶斯统计规则具体是指假设每个分类器给出的结果是相互独立，这样，样本属于主观的后验概率P(c_subjective|D)和属于客观的后验概率P(c_objective|D)可以通过贝叶斯公式表示为：

P (c_{subjective} | D) = P (c_{subjective}) Π_{l = 1}^{N} P_{l} (c_{subjective} | D)

P (c_{objective} | D) = P (c_{objective}) Π_{l = 1}^{N} P_{l} (c_{objective} | D)

其中，P(c_subjective)表示统计后属于主观的先验概率，P(c_objective)表示统计后属于客观的先验概率。本发明中忽略先验概率的影响，都设置为0.5。N表示基分类器的数目。

105、使用统计结果判断待分样本的主客观类别。

由统计后的后验概率大的类别作为分类结果。

样本属于主观或者客观类别的判定通过后验概率P(c_subjective|D)和P(c_objective|D)来决定，具体判定规则如下：

如果P(c_subjective|D)＞P(c_objective|D)，则样本属于主观，否则样本属于客观。

为了将本发明的方法和传统的使用所有样本和单一欠采样的方法比较，本实施例使用一定的训练语料和测试语料分别对这三种分类方法进行训练和测试。实验中使用的语料是在豆瓣网搜集的关于电影方面的中文评论，将文档分成句子。语料一共包括5597个句子。我们对这些句子进行了主客观的人工标注，标注完成之后，客观句子共有4592个，主观句子共有1005个，比例为4.6∶1。实验过程中，我们选用400个句子作为测试语料，其中包括200个主观句子，200个客观句子。其余剩下5197句子中包含客观句子4392个和主观句子805个作为训练样本。

实验选用的评价标准是客观句子的召回率R_Objective、主观句子的召回率R_Subjective以及几何均值G-mean，其中

G-mean一般是评价不平衡分类问题的综合评价标准。

表1为采用三种不同方法进行分类之后的测试效果对比表格，如表1所示，其中参与比较的分类方法包括：

全部数据分类，代表使用所有主客观训练样本训练，需要指出的是，这个时候参与训练的主观和客观的样本是不平衡的，客观句要远远多于主观句；

欠采样，代表仅使用一次欠采样，选择与主观句同样数目的客观句与所有主观句一起训练一个基分类器，用于后续分类测试样本；

本发明方法，代表本发明的主观文本和客观文本的分类方法。

表1

从表1所示的对比数据，可以看出，本发明的方法要远远好于使用全部数据训练的结果，提高的幅度超过15个百分点，这个结果显示本发明方法能够很好的处理主客观分类中的不平衡问题。本发明方法同样要优于单次欠采样的方法，说明本发明方法中使用多次欠采样能够充分利用多数类样本，并且在统计不同的基分类器时提高了分类效果。特别在主观句的召回率方面，要比单次采样的方法好8个左右的百分点。对于主客观分类，主观文本的识别往往显得更重要，所以本发明的方法更适合实际需要。

下面对本发明提供的主观文本和客观文本分类装置进行说明，其基本逻辑结构示意图参考图2，主要包括：

欠采样单元201，用于对训练样本进行多次欠采样，每次得到对应的一组欠采样训练集；

所述欠采样单元还用于：按照所述确定的欠采样次数，从所述多数类样本中重复抽取出部分多数类样本，且每一次抽取出的部分多数类样本的数量与所述少数类样本的数量相同。

所述欠采样单元用于对归类为多数类样本的不平衡训练样本进行多次欠采样。

训练单元202，用于对每一组所述欠采样训练集任意选择一种机器学习分类方法进行训练，从而为每一组所述欠采样训练集构建一个对应的基分类器；

这其中，所述机器学习分类方法为朴素贝叶斯分类、最大熵分类和支持向量机分类中的任意一种。

分类单元203，用于使用每个基分类器对待分样本进行分类，从而分别得到对应的分类结果；

这其中，分类结果为每个基分类器给出的待分样本属于主观类的后验概率和属于客观类的后验概率。

统计单元204，用于将所有分类结果进行统计，得到统计结果；

其中，依据以下贝叶斯公式将所有所述的分类结果进行统计，得到统计结果：

P (c_{subjective} | D) = P (c_{subjective}) Π_{l = 1}^{N} P_{l} (c_{subjective} | D)

P (c_{objective} | D) = P (c_{objective}) Π_{l = 1}^{N} P_{l} (c_{objective} | D)

所述样本属于主观的后验概率P(c_subjective|D)和属于客观的后验概率P(c_objective|D)可以通过贝叶斯公式表示。P(c_subjective)表示样本统计后属于主观的先验概率，P(c_objective)表示样本统计后属于客观的先验概率；本发明中忽略先验概率的影响，都设置为0.5。N表示基分器数目。

所述统计结果包括主观后验概率P(c_subjective|D)和客观后验概率P(c_objective|D)。

判断单元205，用于使用统计结果判断待分样本的主客观类别。

该装置具体用于判断主观文本和客观文本统计后的后验概率的大小，将较大的主观或者客观的类别作为最终的分类结果。

其中，样本属于主观或者客观类别的判定通过后验概率P(c_subjective|D)和P(c_objective|D)来决定，具体判定规则如下：

请参考图3，图3为本发明实施例提供的另一种主观文本和客观文本分类装置的结构示意图。

本实施例的主观文本和客观文本分类装置还可以进一步包括：

样本采集单元206，用于采集由人工标注方法分成为主观类句子和客观类句子的不平衡训练样本；

比较单元207，用于比较所述不平衡训练样本包含主观类句子和客观类句子的数量的多少；

归类单元208，用于将句子数量多的一类归类为多数类样本，将句子数量少的一类归类为少数类样本；

计算单元209，用于计算多数类样本的数量和少数类样本的数量的比例以确定欠采样的次数；

组合单元210，用于将每一次所述抽取出的部分多数类样本与所述少数类样本组合成一组欠采样训练集。

本发明实施例提供的主观文本和客观文本分类装置用于对不平衡训练样本进行多次欠采样，对欠采样训练集进行训练，构建多个基分类器，进而用于对待分样本进行分类，最后该装置还用于将所有分类结果进行统计从而得到最终的分类结果。本实施例中的装置能够充分利用不平衡训练样本，解决了样本不平衡给机器学习分类方法带来的不利影响。使用了三种不同的方法构建基分类器，使得各个基分类器的差异性大，有利于改善分类效果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种主观文本和客观文本分类方法及装置进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种主观文本和客观文本分类方法，其特征在于，包括：

对不平衡训练样本进行多次欠采样，每次得到对应的一组欠采样训练集；

对每一组所述欠采样训练集任意选择一种机器学习分类方法进行训练，从而为每一组所述欠采样训练集构建一个对应的基分类器；所述机器学习分类方法包括：朴素贝叶斯分类、最大熵分类和支持向量机分类中的任意一种；

使用每个所述基分类器对待分样本进行分类，分别得到对应的分类结果；所述分类结果为每个基分类器给出的所述待分样本属于主观类的后验概率和属于客观类的后验概率；

将所有所述的分类结果进行统计，得到统计结果；

将统计结果中的后验概率大的主观类或客观类作为待分样本的主客观类别最终的分类结果；

其中，所述对不平衡训练样本进行多次欠采样之前包括步骤：

将所述不平衡训练样本通过人工标注的方法分成主观类句子和客观类句子；比较所述不平衡训练样本包含主观类句子和客观类句子的数量的多少，将句子数量多的一类归类作为多数类样本，将句子数量少的一类归类作为少数类样本；对不平衡训练样本进行多次欠采样的不平衡训练样本归类为多数类样本的不平衡训练样本。

2.根据权利要求1所述的主观文本和客观文本分类方法，其特征在于，所述将句子数量多的一类作为多数类样本，将句子数量少的一类作为少数类样本之后进一步包括：

通过计算多数类样本的数量和少数类样本的数量的比例确定欠采样的次数。

3.根据权利要求1或2中所述的主观文本和客观文本分类方法，其特征在于，所述对不平衡训练样本进行多次欠采样包括：

按照所述确定的欠采样次数，从所述多数类样本中重复抽取出部分多数类样本，每一次抽取出的部分多数类样本的数量与所述少数类样本的数量相同。

4.根据权利要求3所述的主观文本和客观文本分类方法，其特征在于，所述每次得到对应的一组欠采样训练集包括：

将每一次抽取出的所述部分多数类样本与所述少数类样本组合成一组欠采样训练集。

5.根据权利要求1或2所述的主观文本和客观文本分类方法，其特征在于，将所有所述的分类结果进行统计，得到统计结果，包括：

依据以下公式将所有所述的分类结果进行统计，得到统计结果：

P (c_{subjective} | D) = P (c_{subjective}) Π_{l = 1}^{N} P_{l} (c_{subjective} | D)

P (c_{objective} | D) = P (c_{objective}) Π_{l = 1}^{N} P_{l} (c_{objective} | D)

其中，所述样本属于主观的后验概率P(c_subjective|D)和属于客观的后验概率P(c_objective|D)可以通过贝叶斯公式表示，P(c_subjective)表示样本统计后属于主观的先验概率，P(c_objective)表示样本统计后属于客观的先验概率；N表示基分器数目；

所述统计结果同时包括主观后验概率P(c_subjective|D)和客观后验概率P(c_objective|D)。

6.一种主观文本和客观文本分类装置，其特征在于，包括:

欠采样单元，用于对不平衡训练样本进行多次欠采样，从而每次得到对应的一组欠采样训练集；

训练单元，用于对每一组所述欠采样训练集任意选择一种机器学习分类方法进行训练，从而为每一组所述欠采样训练集构建一个对应的基分类器；所述机器学习分类方法包括：朴素贝叶斯分类、最大熵分类和支持向量机分类中的任意一种；

分类单元，用于使用每个所述基分类器对待分样本进行分类，从而分别得到对应的分类结果；所述分类结果为每个基分类器给出的所述待分样本属于主观类的后验概率和属于客观类的后验概率；

统计单元，用于将所有所述的分类结果进行统计，得到统计结果；

判断单元，用于将统计结果中的后验概率大的主观类或客观类作为待分样本的主客观类别最终的分类结果；

所述装置还包括：

样本采集单元，用于采集由人工标注方法分成为主观类句子和客观类句子的不平衡训练样本；

比较单元，用于比较所述不平衡训练样本包含主观类句子和客观类句子的数量的多少；

归类单元，用于将句子数量多的一类归类为多数类样本，将句子数量少的一类归类为少数类样本；

7.根据权利要求6所述的主观文本和客观文本的分类装置，其特征在于，还包括：

计算单元，用于计算多数类样本的数量和少数类样本的数量的比例以确定欠采样的次数。

8.根据权利要求6或7所述的主观文本和客观文本的分类装置，其特征在于，所述欠采样单元还用于：

按照所述确定的欠采样次数，从所述多数类样本中重复抽取出部分多数类样本，且每一次抽取出的部分多数类样本的数量与所述少数类样本的数量相同。

9.根据权利要求8所述的主观文本和客观文本的分类装置，其特征在于，还包括：

组合单元，用于将每一次所述抽取出的部分多数类样本与所述少数类样本组合成一组欠采样训练集。