CN104536953B

CN104536953B - 一种文本情绪极性的识别方法及装置

Info

Publication number: CN104536953B
Application number: CN201510032757.3A
Authority: CN
Inventors: 李寿山; 汪蓉; 周国栋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-01-22
Filing date: 2015-01-22
Publication date: 2017-12-26
Anticipated expiration: 2035-01-22
Also published as: CN104536953A

Abstract

本申请提供了一种文本情绪极性的识别方法及装置，该方法包括：利用预先构建的分类器，可以确定出待识别文本在不同情绪极性类别中的极性概率值，将最大极性概率值对应的情绪极性确定为待识别文本的情绪极性，从而确定出了待识别文本的情绪极性。并且，预先构建分类器时使用的训练集中包含的语料是从一种语言翻译后的另一种语言，实现了跨语言的训练集的构建，可以有效解决在某种语言场景中已标注语料不足无法构建训练集的问题。进一步地，训练集中还可以加入已确定出情绪极性的文本，扩展了训练集中已标注语料的数量，构建的分类器分类准确率更高。

Description

一种文本情绪极性的识别方法及装置

技术领域

本申请涉及自然语言分析技术领域，尤其是一种文本情绪极性的识别方法及装置。

背景技术

随着互联网的快速发展，网络中出现了大量对于人物、事件、产品等内容进行的评论，一些数据监测系统需要收集评论信息，并需要对评论信息进行情绪极性的分析，从而了解评论者对于被评论对象的观点或态度。

其中，情绪极性指的是评论者通过文本表达出的情绪类型，如褒义情绪(正极性情绪)或贬义情绪(正极性情绪)。例如，评论内容为“听到昨晚发生的上海外滩踩踏事件，我感到非常悲痛”，该评论文本的情绪极性为贬义情绪。又如，评论内容为“我非常期待这次产品发布会，因为在会上将发布运用了最新定位技术的导航仪”，该评论文本的情绪极性为褒义情绪。

为了实现数据监测系统对网络文本的监测，需要对网络文本的情绪极性进行识别。

发明内容

有鉴于此，本申请提供了一种文本情绪识别方法及装置，用以实现对文本表达情绪极性的识别。为实现所述目的，本发明提供的技术方案如下：

一种文本情绪极性的识别方法，包括：

获取多条待识别文本；

利用预先构建的分类器，分别确定每条所述待识别文本各自的多个极性概率值；

将各自的多个极性概率值中的最大值对应的情绪极性确定为每条所述待识别文本各自的情绪极性。

可选地，上述的文本情绪极性的识别方法中，所述分类器的构建方法包括：

获取已标注的第一语言类型的语料，并将所述第一语言类型的语料翻译为第二语言类型的语料；其中，所述已标注的第一语言类型的语料具有情绪极性标签；

当存在已确定出情绪极性的文本时，将所述第二语言类型的语料及所述文本确定为训练集；

当不存在已确定出情绪极性的文本时，将所述第二语言类型的语料确定为训练集；

利用预设训练算法，对所述训练集进行训练，获得分类器。

可选地，上述的文本情绪极性的识别方法中，所述第一语言类型的语料为英文语料，所述第二语言类型的语料为中文语料。

可选地，上述的文本情绪极性的识别方法中，所述利用预先构建的分类器，分别确定每条所述待识别文本各自的多个极性概率值包括：

利用预先构建的最大熵分类器，分别确定每条所述待识别文本各自的多个极性概率值。

本申请还提供了一种文本情绪极性的识别装置，包括：

待识别文本获取单元，用于获取多条待识别文本；

分类器分类单元，用于利用预先构建的分类器，分别确定每条所述待识别文本各自的多个极性概率值；

情绪极性确定单元，用于将各自的多个极性概率值中的最大值对应的情绪极性确定为每条所述待识别文本各自的情绪极性。

可选地，上述的文本情绪极性的识别装置中，包括分类器构建单元，用于构建分类器；其中，所述分类器构建单元包括：

第二语料获取子单元，用于获取已标注的第一语言类型的语料，并将所述第一语言类型的语料翻译为第二语言类型的语料；其中，所述已标注的第一语言类型的语料具有情绪极性标签；

第一训练集确定子单元，用于当存在已确定出情绪极性的文本时，将所述第二语言类型的语料及所述文本确定为训练集；

第二训练集确定子单元，用于当不存在已确定出情绪极性的文本时，将所述第二语言类型的语料确定为训练集；

分类器构建子单元，用于利用预设训练算法，对所述训练集进行训练，获得分类器。

可选地，上述的文本情绪极性的识别装置中，所述第二语料获取子单元获取到的第一语言类型的语料为英文语料，所述第二语料获取子单元翻译为的第二语言类型的语料为中文语料。

可选地，上述的文本情绪极性的识别装置中，所述分类器分类单元包括：

最大熵分类器分类子单元，用于利用预先构建的最大熵分类器，分别确定每条所述待识别文本各自的多个极性概率值。

与现有技术相比，本发明具有以下有益效果：

由以上可知，本发明提供的文本情绪极性的识别方法，利用预先构建的分类器，可以确定出待识别文本在不同情绪极性类别中的极性概率值，将最大极性概率值对应的情绪极性确定为待识别文本的情绪极性，从而确定出了待识别文本的情绪极性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的文本情绪极性的识别方法的流程图；

图2为本申请提供的构建分类器的流程图；

图3为本申请提供的文本情绪极性的识别装置的结构示意图；

图4为本申请提供的文本情绪极性的识别装置的另一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

见图1，其示出了本发明实施例提供的文本情绪极性的识别方法的流程，具体包括以下步骤：

步骤S101：获取多条待识别文本。

其中，待识别文本为从网络中抓取到的文本，如微博、论坛、贴吧等，当然，本实施并不局限于网络文本，还可以是其他各种载体中的信息文本，如报刊、杂志等。

需要说明的是，待识别文本可以理解为一条语句，如“听到昨晚发生的人群踩踏事件，我感到非常悲痛”，也就是说，本步骤中获取到多条语句。

步骤S102：利用预先构建的分类器，分别确定每条所述待识别文本各自的多个极性概率值。

其中，分类器是利用训练方法对训练集进行学习训练生成的分类模型，可以对输入的待识别文本进行分类。分类器自身可以识别出多个情绪类别，情绪类别也就是情绪极性，如正极性情绪、中极性情绪以及负极性情绪。本步骤中，计算待识别文本在每种情绪类别中的概率值，从而获得多个极性概率值。可见，极性概率值表征的是待识别文本分别属于各个不同情绪类别的概率。

需要说明的是，针对每个待识别文本，均计算在每种情绪类别中的概率值。从而，每个待识别文本具有各自的多个极性概率值。例如，待识别文本分别为文本1及文本2，其中，文本1的多个极性概率值为P11、P12及P13，文本2的多个极性概率值为P21、P22及P23。

步骤S103：将各自的多个极性概率值中的最大值对应的情绪极性确定为每条所述待识别文本各自的情绪极性。

其中，针对每个待识别文本，确定各自的多个极性概率值中的最大值，并确定出每个最大值分别对应的情绪极性，进而，将各个情绪极性分别确定为各自的待识别文本的情绪极性。需要说明的是，分类器计算出的极性概率值具有情绪极性标签，利用情绪极性标签，可以确定出极性概率值对应的情绪极性。

例如，文本1的多个极性概率值为P11、P12及P13，最大值为P11，且最大值P11的情绪极性标签为正情绪极性，进而将正情绪极性确定为文本1的情绪极性。

由以上的技术方案可知，本实施例提供的文本情绪极性的识别方法，利用预先构建的分类器，可以确定出待识别文本在不同情绪极性类别中的极性概率值，将最大极性概率值对应的情绪极性确定为待识别文本的情绪极性，从而确定出了待识别文本的情绪极性。

需要说明的是，上述实施例中的各个步骤并非局限于先后顺序执行，还可以是同时进行，即步骤S101在获取下一条待识别文本的同时，步骤S102在计算当前条的极性概率值及步骤S103在确定前一条的情绪极性。

另外，步骤S101并非局限于一次性获取到多条待识别文本，当然，还可以是获取到单条的待识别文本，对于获取到的单条文本同样按照上述方法确定情绪极性。

分类器可以识别的情绪极性类别，与训练集内语料的标注相关。具体地，训练集中有多条语料，语料具有预先标注的情绪极性标签，情绪极性标签的种类决定分类器可以识别的情绪极性类别，例如，语料的情绪极性标签分为三种，即正极性情绪(褒义的情绪)、中性情绪、负极性情绪(贬义的情绪)，则利用这些语料训练得到的分类器可以识别的情绪极性即上述三种。

下面结合图2具体说明分类器的构建方法。见图2，其示出了分类器的构建流程，具体包括以下步骤：

步骤S201：获取已标注的第一语言类型的语料，并将所述第一语言类型的语料翻译为第二语言类型的语料；其中，所述已标注的第一语言类型的语料具有情绪极性标签。

其中，已标注的语料指的是语料的情绪极性已经预先标注，将第一语言类型的语料翻译为第二语言类型的语料，可选地，该第一语言类型的语料为英文语料，如从“万小军”语料库获取到的已标注英文语料，第二语言类型的语料为中文语料，也就是说，将已标注的英文语料翻译为中文语料。可见，本发明实现了语料的跨语言使用，从而解决了第二语言类型的已标注语料不足的问题。尤其地，在需要对中文文本进行识别的应用场景时，中文已标注语料资源比较缺乏，本发明可以利用已标注的英文语料，英文语料资源比较丰富且内容更新比较快，从而本发明实现了中文文本的识别，且保证了一定的时效性。

步骤S202：判断是否存在已确定出情绪极性的文本，若存在，执行步骤S203，若不存在，执行步骤S204。

其中，上述实施例提供的情绪极性识别过程可以是重复进行的，若首次对待识别文本识别，则不存在已确定出情绪极性的文本，若非首次识别，则存在已确定出情绪极性的文本。因此，本步骤的判断可以认为是判断是否为首次识别。

步骤S203：将所述第二语言类型的语料及所述文本确定为训练集。

其中，当存在已确定出情绪极性的文本时，在构建训练集时可以加入该文本。需要说明的是，确定文本情绪极性的方法可以是利用上述实施例提供的识别方法。

更具体地，上一步骤中的判断可以是判断是否存在已确定出的多条文本，若存在多条文本，可以将该多条文本全部加入训练集，还可以是在将多条文本中选择部分加入到训练集。选择的方法可以是机器随机选择，还可以是人工选择，或者是机器随机选择后人工进行再次挑选。

步骤S204：将所述第二语言类型的语料确定为训练集。

其中，当不存在已确定出情绪极性的文本时，仅将翻译后的第二语言类型的语料确定为训练集。

步骤S205：利用预设训练算法，对所述训练集进行训练，获得分类器。

其中，该训练算法可以是最大熵训练方法，从而获得分类器为最大熵问类器，从而利用预先构建的最大熵分类器，分别确定每条所述待识别文本各自的多个极性概率值。当然，该训练算法并不局限于此，还可以是现有技术中任意一种机器学习训练方法，如支持向量机(SVM)训练方法、条件随机场(CRF)训练方法等。具体地，本步骤利用已有的训练工具，将训练集输入至该训练工具中，从而获得分类器。

需要说明的是，上述实施例提供的情绪极性识别方法，需要利用预先构建的分类器进行识别。识别过程可以是重复进行的，不同识别过程中使用的分类器可以相同，也可以不同。其中，分类器不同是因为，首次识别时(对首条待识别文本识别时)，利用的分类器可以是仅仅将上述第二语言类型的语料作为训练集进行训练获得的分类器，而非首次识别时，可以结合第二语言类型的语料以及已经确定出情绪极性的文本共同构建训练集，对该训练集训练获得分类器。可见，该种分类器的构建方式可以利用到已确定出情绪极性的文本，扩展了训练集中语料的数量，构建的分类器的识别准确率更好。

下面利用最大熵分类器对分类过程进行说明。

最大熵分类器对应的分类模型为：

其中，概率p^*(a|b)为样本属于某种类别的概率值，具体到本发明各个实施例中，指的是待识别文本b属于某种情绪极性a(如正极性情绪、中性情绪或负极性情绪)的概率，需要说明的是，待识别文本在每种情绪极性类型下的概率均使用该分类模型进行计算；π(b)为归一化因子；λ_i为调节参数；f_i(a,b)为特征函数。其中，π(b)、λ_i及f_i(a,b)可以在训练过程中求解出来。具体地：

归一化因子π(b)的定义如下：

其中，a指的是分类器可以识别的类别；k指的是样本包含的分词特征个数。具体到本发明各个实施例中，利用分类器进行分类是将待识别文本输入至已构建的分类器中，从而输出该待识别文本的情绪极性类别标签。具体地，输入的是每条待识别文本的向量，向量中是将待识别文本进行分词后获得的分词特征。也就是说，在输入前，需要对待识别文本进行分词，分词可以是利用现有技术中任意一种分词方法，此处并不做赘述。因此，k指的是待识别文本包含的分词特征的个数。

特征函数f_i(a,b)的定义如下：

可见，特征函数为二值函数，b∈a表示待识别文本b属于a类别，此时特征函数取值为1；others表示待识别文本b不属于a类别，此时特征函数取值为0。

为了证明本发明各个实施例对文本连接词的识别准确率，提供以下实验数据进行佐证。

首先，仅利用已标注的英文语料构建分类器，利用该分类器进行识别。具体地，选取已标注的正、负极性情绪英文语料各1000条，并且选取中文测试语料886条，中文测试语料为已经人工标注好的语料，用该语料对分类器的识别准确性进行判断，其中，中文测试语料中的正极性情绪的语料为451条、负极性情绪的语料为435条。

将2000条英文语料进行翻译后加入训练集，对该训练集进行训练从而获得分类器，利用该分类器对886条中文测试语料进行分类，分类结果是：451条正极性情绪的文本中有355条被正确识别为正极性情绪、435条负极性情绪的文本中有244条被正确识别为负极性情绪。

本发明中使用准确率Accuracy对实验结果进行统计，其中：Accuracy＝(P+N)/A，其中，P为正类中分类正确的样本数，N为负类中分类正确的样本数，A为总的样本数。利用上述的分类结果，计算本次分类的准确率Accuracy＝(355+244)/886＝0.676。

然后，利用上述构建的分类器，对1720条中文未标注的文本进行分类，从而确定出各条文本的情绪极性。

第一次从已确定出情绪极性的1720条文本中选取400条加入训练集，训练后获得分类器，利用重新构建的分类器对上述886条中文测试语料进行分类，分类结果是：451条正极性情绪的文本中有380条被正确识别为正极性情绪、435条负极性情绪的文本中有288条被正确识别为负极性情绪。利用该分类结果，计算本次分类的准确率为：Accuracy＝(380+288)/886＝0.754。

第二次从已确定出情绪极性的剩余1320(1720-400)条文本中选取400条加入训练集，训练后获得分类器，利用重新构建的分类器对上述886条中文测试语料进行分类，分类结果是：451条正极性情绪的文本中有407条被正确识别为正极性情绪、435条负极性情绪的文本中有312条被正确识别为负极性情绪。利用该分类结果，计算本次分类的准确率为：Accuracy＝(407+312)/886＝0.812。

第三次从已确定出情绪极性的剩余920(1320-400)条文本中选取400条加入训练集，训练后获得分类器，利用重新构建的分类器对上述886条中文测试语料进行分类，分类结果是：451条正极性情绪的文本中有418条被正确识别为正极性情绪、435条负极性情绪的文本中有332条被正确识别为负极性情绪。利用该分类结果，计算本次分类的准确率为：Accuracy＝(418+332)/886＝0.847。

为了便于直观地观看实验结果，将上述的各次分类获得的各个准确率综合生成下表。从表1中可以看出，若直接利用英文语料构建分类器，获得的准确率为0.676。从最后一列的数值均大于0.676可以得出，将分类后的文本加入训练集构建分类器后，获得的准确率更高。并且，从最后一列的数值依次变大可以得出，随着加入训练集的文本数量的增加，准确率也逐渐提高。

表1

下面对本发明实施例提供的文本情绪极性的识别装置进行介绍，需要说明的是，下文有关文本情绪极性的识别装置的说明可以参照上文有关文本情绪极性的识别方法的说明，以下并不做赘述。

参见图3，其示出了本发明实施例提供的文本情绪极性的识别装置的结构，具体包括：待识别文本获取单元100、分类器分类单元200及情绪极性确定单元300，其中：

待识别文本获取单元100，用于获取多条待识别文本；

分类器分类单元200，用于利用预先构建的分类器，分别确定每条所述待识别文本各自的多个极性概率值；

情绪极性确定单元300，用于将各自的多个极性概率值中的最大值对应的情绪极性确定为每条所述待识别文本各自的情绪极性。

由以上的技术方案可知，本发明实施例提供的文本情绪极性的确定装置，利用分类器分类单元200对待识别文本获取单元100获取到的多条待识别文本进行分类，从而获得多个极性概率值，需要说明的是，多个极性概率值与分类器可以识别的情绪极性的种类相关，也就是说，分类器可以识别多少种情绪极性，则可以确定待识别文本多少个极性概率值，进而情绪极性确定单元300可以将每个待识别文本的最大极性概率值对应的情绪极性确定为每个待识别文本各自的情绪极性，从而实现了对待识别文本情绪极性的确定。

需要说明的是，待识别文本获取单元100与分类器分类单元200及情绪极性确定单元300并非局限于串行工作，还可以是并行工作，也就是说，在待识别文本获取单元100获取下一条待识别文本时，分类器分类单元200可以对当前条进行分类，而情绪极性确定单元300可以是在确定上一条的情绪极性。

见图4所示，上述文本情绪极性识别装置中包括分类器构建单元400，用于构建分类器。该分类器构建单元400可以具体包括：第二语料获取子单元401、第一训练集确定子单元402、第二训练集确定子单元403及分类器构建子单元404；其中：

第二语料获取子单元401，用于获取已标注的第一语言类型的语料，并将所述第一语言类型的语料翻译为第二语言类型的语料；其中，所述已标注的第一语言类型的语料具有情绪极性标签；

第一训练集确定子单元402，用于当存在已确定出情绪极性的文本时，将所述第二语言类型的语料及所述文本确定为训练集；

第二训练集确定子单元403，用于当不存在已确定出情绪极性的文本时，将所述第二语言类型的语料确定为训练集；

分类器构建子单元404，用于利用预设训练算法，对所述训练集进行训练，获得分类器。

其中，可以利用上述的文本情绪极性识别装置重复确定文本的情绪极性，当然，除了首次识别外，以后的识别过程开始前，都会存在已确定出情绪极性的文本。因此，在每次重复识别前，可以利用已存在的情绪极性文本重新构建分类器。需要说明的是，在将已确定出情绪极性的文本加入训练集时，可以是将以往确定出的情绪文本全部加入训练集，还可以是随机选择部分加入训练集。

综合来看，分类器构建单元400可以是仅仅利用翻译为的第二语言类型的语料作为训练集构建分类器，还可以是综合利用第二语言类型的语料及已确定出情绪极性的文本共同作为训练集构建分类器。后者的构建方式扩展了训练集中语料的数量，构建的分类器识别准确率更高。

另外，分类器构建单元400可以将第一语言类型的语料翻译为第二语言类型的语料，从而有效解决了第二语言类型语料缺乏情况下导致的无法构建准确的分类器的技术问题。在面对中文文本识别场景时，第二语料获取子单元获取到的第一语言类型的语料为英文语料，翻译为的第二语言类型的语料为中文语料，从而利用更新速度快且资源丰富的英文语料，实现了对中文文本的识别，解决了中文已标注语料缺乏的问题。

可选地，分类器分类单元200可以具体为：最大熵分类器分类子单元，用于利用预先构建的最大熵分类器，分别确定每条所述待识别文本各自的多个极性概率值。需要说明，最大熵分类器的构建过程及利用最大熵分类器进行识别的过程可以参见上文方法提供的实施例。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本情绪极性的识别方法，其特征在于，包括：

获取多条待识别文本；

将各自的多个极性概率值中的最大值对应的情绪极性确定为每条所述待识别文本各自的情绪极性；

其中，所述分类器的构建方法包括：

当存在已确定出情绪极性的文本时，将所述第二语言类型的语料及所述已确定出情绪极性的文本确定为训练集；

利用预设训练算法，对所述训练集进行训练，获得分类器。

2.根据权利要求1所述的文本情绪极性的识别方法，其特征在于，所述第一语言类型的语料为英文语料，所述第二语言类型的语料为中文语料。

3.根据权利要求1所述的文本情绪极性的识别方法，其特征在于，所述利用预先构建的分类器，分别确定每条所述待识别文本各自的多个极性概率值包括：

4.一种文本情绪极性的识别装置，其特征在于，包括：

待识别文本获取单元，用于获取多条待识别文本；

情绪极性确定单元，用于将各自的多个极性概率值中的最大值对应的情绪极性确定为每条所述待识别文本各自的情绪极性；

分类器构建单元，用于构建分类器；

其中，所述分类器构建单元包括：

第一训练集确定子单元，用于当存在已确定出情绪极性的文本时，将所述第二语言类型的语料及所述已确定出情绪极性的文本确定为训练集；

5.根据权利要求4所述的文本情绪极性的识别装置，其特征在于，所述第二语料获取子单元获取到的第一语言类型的语料为英文语料，所述第二语料获取子单元翻译为的第二语言类型的语料为中文语料。

6.根据权利要求4所述的文本情绪极性的识别装置，其特征在于，所述分类器分类单元包括：