CN106202243A

CN106202243A - 一种句子级文本情绪分类方法和装置

Info

Publication number: CN106202243A
Application number: CN201610496564.8A
Authority: CN
Inventors: 李寿山; 汪蓉; 周国栋; 李军辉
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2016-06-29
Filing date: 2016-06-29
Publication date: 2016-12-07

Abstract

本发明公开了一种句子级文本情绪分类方法和装置。该方法获取已进行情绪标注的句子级分类作为训练样本，并获取未标注的句子级文本作为测试样本。进而，基于训练样本中相邻句子级文本作为训练特征对分类器进行训练，并利用训练后的分类器对测试样本进行分类，得到分类结果。由于句子级文本中，前后句的情绪有着明显的联系，因而在本发明中采用相邻句子级文本对分类器进行训练，与现有技术相比可基于分类器实现对测试样本的情绪分类，提高了句子级文本的情绪分类效率。

Description

一种句子级文本情绪分类方法和装置

技术领域

本发明涉及自然语言处理技术领域，更具体的说，是涉及一种句子级文本情绪分类方法和装置。

背景技术

随着互联网的快速发展，人们越来越倾向于在社交网站上发表自己的情感，从微薄中短小的一句话，到长篇的博客，这些大量的文本总蕴含着大量的情绪信息。所谓的情绪分类是指对用户发出的主观性文本进行分析和挖掘，判断文本中所包含的情绪信息。当前对文本进行情绪分类时主要依靠人工标注，文本分类效率低。

发明内容

有鉴于此，本申请提供一种句子级文本情绪分类方法和装置，以提高句子级文本的情绪分类效率。

为了实现上述目的，现提出的方案如下：

一种句子级文本情绪分类方法，包括：

获取已进行情绪标注的句子级文本，作为训练样本；

获取未进行情绪标注的句子级，作为测试样本；

确定所述训练样本中相邻句子级文本；

将所述相邻句子级文本作为训练特征，对分类器进行训练；

利用训练后的所述分离器对所述测试样本进行情绪分类。

优选的，所述获取已进行情绪标注的句子级文本之前，还包括：

对所有原始文档进行预处理；

其中，所述对所有原始文档进行预处理，包括：

遍历所有原始文档，对每个文档进行编号，以确定每个文档的文档级编号；

遍历所有已编号的文档，对所述文档中的每个句子级文本进行编号，以确定每个句子级文本的句子级编号。

优选的，所述确定所述训练样本中相邻句子级文本，包括：

根据所述文档级编号和所述句子级编号，确定所述相邻句子级文本。

优选的，所述分类器为最大熵分类器。

一种句子级文本情绪分类装置，包括：

训练样本采集单元，用于获取已进行情绪标注的文档，作为训练样本；

测试样本采集单元，用于获取未进行情绪标注的文档，作为测试样本；

相邻句子级文本确定单元，用于确定所述训练样本中相邻句子级文本；

训练单元，用于将所述相邻句子级文本作为训练特征，对分类器进行训练；

分类单元，用于利用训练后的所述分离器对所述测试样本进行情绪分类。

优选的，还包括：文档预处理单元，用于对所有原始文档进行预处理；

其中所述文档预处理单元包括：

第一编号模块，用于遍历所有原始的文档，对每个文档进行编号，以确定每个文档的文档级编号；

第二标号模块，用于遍历所有已编号的文档，对所述文档中的每个句子级文本进行编号，以确定每个句子级文本的句子级编号。

优选的，所述相邻句子级文本确定单元，具体用于根据所述文档级编号和所述句子级编号，确定所述相邻句子级文本。

经由上述技术方案可知，本发明公开了一种句子级文本情绪分类方法和装置。该方法获取已进行情绪标注的句子级分类作为训练样本，并获取未标注的句子级文本作为测试样本。进而，基于训练样本中相邻句子级文本作为训练特征对分类器进行训练，并利用训练后的分类器对测试样本进行分类，得到分类结果。由于句子级文本中，前后句的情绪有着明显的联系，因而在本发明中采用相邻句子级文本对分类器进行训练，与现有技术相比可基于分类器实现对测试样本的情绪分类，提高了句子级文本的情绪分类效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本发明一个实施例公开的一种句子级情绪分类方法的流程示意图；

图2示出了本发明另一个实施例公开的一种句子级情绪分类装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1示出了本发明一个实施例公开的一种句子级情绪分类方法的流程示意图。

由图1可知，该方法包括：

S101：获取已进行情绪标注的句子级文本，作为训练样本。

在本申请中对于不同的句子级文本根据句子级文本所蕴含的情绪采用不同的情绪标签进行标注。在本申请中包括8种情绪标签，分别为：joy,hate,love,sorrow,anxiety,surprise,anger,expect。

S201：获取未进行情绪标注的句子级，作为测试样本。

S203：确定所述训练样本中相邻句子级文本。

可选的，在本身中可通过预先设置的文档级编号以及句子级编号确定训练样本中的相邻句子级文本。

如，遍历语料库中所有原始文档，对每个文档进行编号，以确定每个文档的文档级编号。

进而，遍历所有已编号的文档，对所述文档中的每个句子级文本进行编号，以确定每个句子级文本的句子级编号。

当两个句子级文档的文档级编号相同，且句子局编号相邻时，则确定这两个句子级文档为相邻句子级文档。

S204：将所述相邻句子级文本作为训练特征，对分类器进行训练。

通过对语料进行分析可知，在句子级的文本中，前后句的情绪有着很明显的联系，因而在本申请中将相邻句子级文本作为训练特征对分类器进行训练。

可选的，在本申请中该分类器可采用最大熵分类器。

最大熵分类方法是基于最大熵信息理论，其基本思想是在满足系统当前提供的所有条件下寻求分别最均匀的模型，将已知事实作为制约条件，求的可使熵最大化的概率分布作为正确的概率分布。该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此，该方法适合融合各种不一样的特征，而无需考虑它们之间的影响。

在最大熵模型中，通常用二值特征函数表示特征函数，定义如下：

f_{i} (a, b) = \{\begin{matrix} 1, & i f b &Element; a \\ 0, & o t h e r s \end{matrix}

在最大熵模型下，预测条件概率p^*(a|b)的公式如下：

p^{*} (a | b) = \frac{1}{π (b)} \exp (Σ_{i = 1}^{k} λ_{i} f_{i} (a, b))

其中，π(b)是归一化因子，λ_i是参数，可以通过GIS算法求出。

S205：利用训练后的所述分离器对所述测试样本进行情绪分类。

为了证明本发明的方法对句子级情绪分类的有效性，本申请公开了使用了一定数目的语料进行测试的测试结果。

我们所使用任福继语料中，已标注的训练语料2500句，测试语料450句。实验用的评价标准是准确率(Accuracy)以及F1值。

	baseline	本发明
			accuracy	0.378	0.443
F1值	0.261	0.292

由以上实施例可知，本发明公开了一种句子级文本情绪分类方法。该方法获取已进行情绪标注的句子级分类作为训练样本，并获取未标注的句子级文本作为测试样本。进而，基于训练样本中相邻句子级文本作为训练特征对分类器进行训练，并利用训练后的分类器对测试样本进行分类，得到分类结果。由于句子级文本中，前后句的情绪有着明显的联系，因而在本发明中采用相邻句子级文本对分类器进行训练，与现有技术相比可基于分类器实现对测试样本的情绪分类，提高了句子级文本的情绪分类效率。

参见图2示出了本发明另一个实施例公开的一种句子级情绪分类装置的结构示意图。

由图2可知，该装置包括：训练样本采集单元1、测试样本采集单元2、相邻句子级文本确定单元3、训练单元4以及分类单元5。

其中，训练样本采集单元1，用于获取已进行情绪标注的文档，作为训练样本。可选的，情绪标签包分别为：joy,hate,love,sorrow,anxiety,surprise,anger,expect。

测试样本采集单元2，用于获取未进行情绪标注的文档，作为测试样本。

相邻句子级文本确定单元3与训练样本采集单元1相连，用于确定所述训练样本中相邻句子级文本。

优选的，可通过句子级文本的句子级编号以及句子级文本所在文档的文档级编号确定两个句子是否为相邻句子级文本。

当两个句子级文本的文档级编号相同，且句子级编号相连时，则确定两个句子级文本为相邻句子级文本。

训练单元4，用于将所述相邻句子级文本作为训练特征，对分类器进行训练。

分类单元5，用于利用训练后的所述分离器对所述测试样本进行情绪分类。

可选的，在本发明公开的其他实施例中，该装置还包括文档预处理单元6，用于对所有文档进行编号处理。

具体的，所述文档预处理单元包括：第一编号模块61和第二编号模块62。

第一编号模块61，用于遍历所有原始的文档，对每个文档进行编号，以确定每个文档的文档级编号；

第二标号模块62，用于遍历所有已编号的文档，对所述文档中的每个句子级文本进行编号，以确定每个句子级文本的句子级编号。

需要说明的是该装置实施例与方法实施例相对应，其执行过程和执行原理相同，在此不作赘述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种句子级文本情绪分类方法，其特征在于，包括：

获取已进行情绪标注的句子级文本，作为训练样本；

获取未进行情绪标注的句子级，作为测试样本；

确定所述训练样本中相邻句子级文本；

将所述相邻句子级文本作为训练特征，对分类器进行训练；

利用训练后的所述分离器对所述测试样本进行情绪分类。

2.根据权利要求1所述的方法，其特征在于，所述获取已进行情绪标注的句子级文本之前，还包括：

对所有原始文档进行预处理；

其中，所述对所有原始文档进行预处理，包括：

3.根据权利要求2所述的方法，其特征在于，所述确定所述训练样本中相邻句子级文本，包括：

4.根据权利要求1所述的方法，其特征在于，所述分类器为最大熵分类器。

5.一种句子级文本情绪分类装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，还包括：文档预处理单元，用于对所有原始文档进行预处理；

其中所述文档预处理单元包括：

7.根据权利要求6所述的装置，其特征在于，所述相邻句子级文本确定单元，具体用于根据所述文档级编号和所述句子级编号，确定所述相邻句子级文本。