CN107423408A

CN107423408A - 一种微博文本跨领域情感分析方法及系统

Info

Publication number: CN107423408A
Application number: CN201710627632.4A
Authority: CN
Inventors: 徐波
Original assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Multi Benefit Network Co Ltd; Guangzhou Duoyi Network Co Ltd
Current assignee: GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD; Multi Benefit Network Co Ltd; Guangzhou Duoyi Network Co Ltd
Priority date: 2017-07-28
Filing date: 2017-07-28
Publication date: 2017-12-01
Anticipated expiration: 2037-07-28
Also published as: CN107423408B

Abstract

本发明提供一种微博文本跨领域情感分析方法，包括以下步骤：S1：使用微博特定集合的微博表情进行自动标注，具体包括：S11：将带有表情的微博数据集A进行分类，具体为：根据基准表情进行分类和通过待挑选表情的进行分类；S12：通过信息增益算法，获得基准表情在待挑选表情下信息增益值value；S13：根据设定的阈值进行判断，对该待挑选的表情进行筛选。S2：进行跨领域情感分析。相比于现有技术，本发明实现了标记表情的自动识别，提高标记表情获取的科学性和可行性，同时使用自动标记方法，标记大量数据，节约了人工成本。

Description

一种微博文本跨领域情感分析方法及系统

技术领域

本发明涉及文本情感分析方法，特别是一种微博文本跨领域情感分析方法及系统。

背景技术

情感分析，指的是从文本中自动识别和提取具有倾向性的态度、意见和情感。其近年来，主观性文本(意见)挖掘研究十分活跃，主要特点是分析文本中包含的主观观点并计算其语义极性。

而微博由于其巨大影响力，已经成为越来越多的用户发表观点及情感的第一选择，比如对某些名人的喜欢或憎恶、对某些电影的评论、对某些品牌的评价及建议、对某些时事的看法等。对微博进行有效的情感分析研究可广泛应用于舆情监测、品牌建设、广告营销、信息过滤、意见反馈、民意调查等。

而由于微博文本中所涉及的领域较多，需要进行跨领域的情感分析预测。跨领域情感分析在情感分析中是一个新兴的领域，目前在这方面的研究不是很多，主要原因是目前的研究还没有很好的解决如何寻找两个领域之间的一种映射关系，或者说如何寻找两个领域之间特征权值之间的平衡关系。

目前针对文本进行情感分析，需要进行两个方面的工作：对文本进行数据标注和跨领域情感分析。

其中，现有的技术中，在所述数据标注为：训练数据往往需要人工标注，然后再使用机器学习算法进行训练。

而对于跨领域情感分析方法，主要包括以下方法：

方法1：针对每个特定的领域，使用对应的数据，领域本体及其常用的正负向情感词词典，通过句法分析，抽取核心词，预定义句子模版以及通过基于监督或半监督的数据挖掘等方法来判定待分析句子的情感倾向性。

方法2：找出两个领域之间的映射关系；或者说如何寻找两个领域之间特征权值之间的平衡关系。如Structural Correspondence Learning(SCL)，是一种应用范围很广的跨领域文本分析算法，SCL的目的是将训练集上的特征尽量对应到测试集中。Tan et al.于2009将SCL引入了中文跨领域情感分析中。

然而，针对微博平台，其内容在数据量上多，如果进行人工标注，其人工成本大；其次，在类别上包罗万象，从微博用户发表的对特定产品等特定实体的评论，到针对人物、事件等各方面的意见，因此如果要对不同的实体进行区分对待。对每个不同的实体评论进行建模，实体种类多，建模成本高。而在寻找映射关系方面，其关系或者很难寻找，或者需要相当强的数学证明。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供了一种微博文本跨领域情感分析方法及系统。

本发明通过以下的方案实现：一种微博文本跨领域情感分析方法，包括以下步骤：

S1：使用微博特定集合的微博表情进行自动标注，具体包括：

S11：将带有表情的微博数据集A进行分类，具体为：根据基准表情进行分类，将包含所述基准表情的微博分类为B₁，将不包含基准表情的微博分类为B₀；将包含待挑选表情的微博分类为C₁，将不包含待挑选表情的微博分类为C₀；

S12：通过信息增益算法，获得基准表情在待挑选表情下信息增益值value；

S13：根据设定的阈值进行判断，若该信息增益值value大于所述阈值，则将该待挑选表情加入指向表情集；若该信息增益值value小于所述阈值，则剔除该表情；

S2：进行跨领域情感分析，具体包括步骤：

S21：使用多领域数据，并根据表情自动标注形成数据集A₀；

S22：剔除数据集A₀中含有的标记表情，得到数据集A₁；

S23：使用卷积神经网络算法对数据集A₁进行训练，获得第一分类器；

S24：获取微博文本B₃，对微博文本B₃进行情感分析。

相比于现有技术，本发明实现了标记表情的自动识别，提高标记表情获取的科学性和可行性，同时使用自动标记方法，标记大量数据，节约了人工成本。

作为本发明的进一步改进，所述步骤S11中，若待挑选表情在数据集A中出现的次数小于设定的数量时，直接将该待挑选表情进行剔除，从而提高检验速度，同时也剔除了该表情对应数据少带来的干扰。

作为本发明的进一步改进，所述步骤S24中具体包括以下步骤：

S241：对该微博文本B₃进行分类，将能够进行表情自动标记分类为B₄数据集，将不能使用标记表情进行标记的分类为B₅数据集；

S242：将所述第一分类器中加入B₄数据集进行增量训练，并获得第二分类器；

S243：通过第二分类器对数据集B₅进行分类，获得B₅的类别标签；

S244：将第二分类器替换原有的第一分类器。

进一步，对于跨领域学习和预测方面，提出在增量训练模型的基础上，不断增强跨领域分类算法的鲁棒性，从而增强该分类器使用领域广度，提高其跨领域预测能力。

本发明还提供了一种微博文本跨领域情感分析系统，其包括：自动标注模块和跨领域情感分析模块；

所述自动标注模块，用于使用微博特定集合的微博表情进行自动标注；所述自动标注模块具体包括：

第一分类模块，用于将带有表情的微博数据集A进行分类，具体为：根据基准表情进行分类，将包含所述基准表情的微博分类为B1，将不包含基准表情的微博分类为B0；将包含待挑选表情的微博分类为C1，将不包含待挑选表情的微博分类为C0；

信息增益值计算模块，用于通过信息增益算法，获得基准表情在待挑选表情下信息增益值value；

判断模块，用于根据设定的阈值进行判断，若该信息增益值value大于所述阈值，则将该待挑选表情加入指向表情集；若该信息增益值value小于所述阈值，则剔除该表情；

所述跨领域情感分析模块具体包括：

数据集获取模块，用于使用多领域数据，并根据表情自动标注形成数据集A0；

剔除模块，用于剔除数据集A0中含有的标记表情，得到数据集A1；

第一分类器获取模块，用于使用卷积神经网络算法对数据集A1进行训练，获得第一分类器；

情感分析模块，用于获取某个关键词下的微博文本B3，对微博文本B3进行情感分析。

作为本发明的进一步改进，所述第一分类模块中，若待挑选表情在数据集A中出现的次数小于设定的数量时，直接将该待挑选表情进行剔除。

作为本发明的进一步改进，所述情感分析模块包括：

第二分类模块，对该微博文本B3进行分类，将能够进行表情自动标记分类为B4数据集，将不能使用标记表情进行标记的分类为B5数据集；

第二分类器获取模块，用于将所述第一分类器中加入B4数据集进行增量训练，并获得第二分类器；

类别标签获取模块，用于通过第二分类器对数据集B5进行分类，获得B5的类别标签；

替换模块，用于将第二分类器替换原有的第一分类器。

综上，相比于现有技术，本发明实现了标记表情的自动识别，提高标记表情获取的科学性和可行性，同时使用自动标记方法，标记大量数据，节约了人工成本。对于跨领域学习和预测方面，提出在增量训练模型的基础上，不断增强跨领域分类算法的鲁棒性，从而增强该分类器使用领域广度，提高其跨领域预测能力。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1是为本发明步骤S1的基本流程图。

图2是本发明步骤S2的基本流程图。

图3是本发明的数据标注的流程图。

图4是本发明的情感分析的流程图。

图5是本发明的微博文本跨领域情感分析系统的连接框图。

具体实施方式

以下结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明为了解决现有技术的缺陷，提供了一种微博文本跨领域情感分析方法和系统。具体通过以下实施例进行介绍：

本发明的微博文本跨领域情感分析方法，其具体包括以下步骤：

S1：使用微博特定集合的微博表情进行自动标注。请参阅图1，其为本发明步骤S1的基本流程图。在本步骤S1中，其具体包括：

S11：将带有表情的微博数据集A进行分类，具体为：根据基准表情进行分类，将包含所述基准表情的微博分类为B1，将不包含基准表情的微博分类为B0；将包含待挑选表情的微博分类为C1，将不包含待挑选表情的微博分类为C0。

进一步，所述步骤S11中，若待挑选表情在数据集A中出现的次数小于设定的数量时，直接将该待挑选表情进行剔除。

S12：通过信息增益算法，获得基准表情在待挑选表情下信息增益值value。

S13：根据设定的阈值进行判断，若该信息增益值value大于所述阈值，则将该待挑选表情加入指向表情集；若该信息增益值value小于所述阈值，则剔除该表情。

S2：进行跨领域情感分析。请参阅图2，其为本发明步骤S2的基本流程图。在本步骤S2中，具体包括步骤：

S21：使用多领域数据，并根据表情自动标注形成数据集A₀。

S22：剔除数据集A₀中含有的标记表情，得到数据集A₁。

S23：使用卷积神经网络算法对数据集A₁进行训练，获得第一分类器。

S24：获取微博文本B₃，对微博文本B₃进行情感分析。所述步骤S24中具体包括以下步骤：

S241：对该微博文本B₃进行分类，将能够进行表情自动标记分类为B₄数据集，将不能使用标记表情进行标记的分类为B₅数据集。

S244：将第二分类器替换原有的第一分类器。

以下通过结合具体的例子，介绍本发明的微博跨领域情感分析方法的原理和应用方式：

本发明的情感分析方法主要包括两部分：数据自动标注和情感分析。

首先，针对数据自动标注，本发明中使用微博特定集合的微博表情进行自动标注。微博表情中，有些表情可以代表该文本的情感倾向。例如：表情[大怒]，很明显，表达了消极情绪。通过使用信息增益方法，挑选出唯一指定该文本倾向的表情，对微博文本进行标注。具体的，请参阅附图3，其为本发明的数据标注的流程图。

⑴根据基准表情进行分类，这里以[大怒]表情为例：

使用[大怒]表情对带有表情的数据集A划分为两类B₀(不包含[大怒]表情的文本)，B₁(包含[大怒]表情的文本)。其中，含有表情数据集A的量和领域类别需要足够多，同时该方法还结合其他指向性明显的表情一起判断，如[暴怒]。

⑵对于每个待判断的表情[XX]，进行以下步骤：

①根据表情[XX]划分数据集A，得到C₀(不包含[XX]表情的文本)，C₁(包含[XX]表情的文本)。如果表情[XX]在数据集A中出现的次数少于一定数量，直接从待挑选表情剔除该表情，从而提高检验速度，同时也剔除了该表情对应数据少带来的干扰。

②利用信息增益算法，得到[大怒]表情在[XX]表情下信息增益值value，信息增益是期望信息或者信息熵的有效减少量，信息增益越大说明该特征对于减少样本的不确定性程度的能力越大，也就代表这个特征越好，在此我们正是使用[XX]表情这个特征来判定其对B₀和B₁两个不同类别的数据辨别能力；计算过程中，将B₀和B₁看成不同的两个类，计算各个类别的样本数，同时计算C₁在B₀和B₁中数据重叠的个数，得到信息增益值value。

③根据阈值判断value能指向微博文本的情感极性，从而加入指向表情集或在待挑选表情中剔除该表情。

接着，需要针对微博文本进行情感分析，通过大规模获取不同领域的数据集，在进行自动标注的基础上，使用卷积神经网络算法训练分类器，所谓卷积神经网络，就是会自动的对于一张图片学习出最好的卷积核以及这些卷积核的组合方式，也就是对于一张图片的任务来说，求出最好的图片对于本任务的特征的表达，然后来进行判断。训练后得到第一分类器base_classification，对于待分析领域的微博文本，使用标记表情自动标注方法，在标注好的数据中，剔除1)中得到的标记表情，最后加入分类器第一base_classification中进行增量训练，得到第二分类器classification。对于该领域未被表情标注的文本，使用增量训练得到的第二分类器classification进行预测。具体的流程请参阅图4，其为本发明的情感分析的流程图，具体的分析步骤如下：

⑴使用多领域数据，并使用所述数据自动标注的步骤得到的标记表情标记得到数据集A₀；数据集A₀中的数据集量需要足够多，一个是数量上多，另一个是领域类别多。

⑵剔除A₀中含有的标记表情，得到数据集A₁；剔除所使用的标记表情，是为了使训练得到的分类器，尽可能地拟合微博文本特征，而不是表情特征。(注：经测试，如果不剔除标记表情，训练得到的base_classification在含有标记表情的准确率达到100％，经分析可知，base_classification过度拟合了标记表情)。

⑶使用卷积神经网络算法对数据集A₁进行训练，得到第一分类器base_classification。

⑷对于每个关键词(领域)下的微博B₃，进行如下步骤：

①使用表情自动标记得到的标记表情，对文本B₃进行分类，得到B₄(能标记出来的数据，同时剔除了所使用的标记表情)，B₅(不能使用标记表情标记的数据)；对于B₄数据集，加入第一分类器base_classification进行训练，是因为考虑到不同领域有不同的语言、语法特征，增量训练能使分类器进一步适应该领域下的文本特点。

②在第三步中得到第一分类器base_classification的基础上，加入B₄数据进行增量训练，从而得到新的第二分类器classification。

③对于数据集B₅，使用第二分类器classification进行分类，得到B₅的类别标签。

④将原有的第一分类器base_classification替换成增量训练后得到的第二分类器classification。该步骤实现了使用第一base_classification越多，其领域囊括率越高。

同时，请参阅图5，其为本发明的微博文本跨领域情感分析系统的连接框图。本发明还提供了一种微博文本跨领域情感分析系统，其包括：自动标注模块1和跨领域情感分析模块2。

所述自动标注模块1，用于使用微博特定集合的微博表情进行自动标注；所述自动标注模块具体包括：第一分类模块11、信息增益值计算模块12和判断模块13。

所述第一分类模块11，用于将带有表情的微博数据集A进行分类，具体为：根据基准表情进行分类，将包含所述基准表情的微博分类为B₁，将不包含基准表情的微博分类为B₀。将包含待挑选表情的微博分类为C₁，将不包含待挑选表情的微博分类为C₀。所述第一分类模块中，若待挑选表情在数据集A中出现的次数小于设定的数量时，直接将该待挑选表情进行剔除。

所述信息增益值计算模块12，用于通过信息增益算法，获得基准表情在待挑选表情下信息增益值value。

所述判断模块13，用于根据设定的阈值进行判断，若该信息增益值value大于所述阈值，则将该待挑选表情加入指向表情集；若该信息增益值value小于所述阈值，则剔除该表情。

所述跨领域情感分析模块2具体包括：数据集获取模块21、剔除模块22、第一分类器获取模块23和情感分析模块24。

所述数据集获取模块21，用于使用多领域数据，并根据表情自动标注形成数据集A₀。

所述剔除模块22，用于剔除数据集A0中含有的标记表情，得到数据集A₁。

所述第一分类器获取模块23，用于使用卷积神经网络算法对数据集A₁进行训练，获得第一分类器。

所述情感分析模块24，用于获取某个关键词下的微博文本B₃，对微博文本B₃进行情感分析。所述情感分析模块24包括：第二分类模块241、第二分类器获取模块242、类别标签获取模块243和替换模块244。

所述第二分类模块241，对该微博文本B₃进行分类，将能够进行表情自动标记分类为B₄数据集，将不能使用标记表情进行标记的分类为B₅数据集。

所述第二分类器获取模块242，用于将所述第一分类器中加入B₄数据集进行增量训练，并获得第二分类器。

所述类别标签获取模块243，用于通过第二分类器对数据集B₅进行分类，获得B₅的类别标签。

所述替换模块244，用于将第二分类器替换原有的第一分类器。

相比于现有技术，本发明实现了标记表情的自动识别，提高标记表情获取的科学性和可行性，同时使用自动标记方法，标记大量数据，节约了人工成本。对于跨领域学习和预测方面，提出在增量训练模型的基础上，不断增强跨领域分类算法的鲁棒性，从而增强该分类器使用领域广度，提高其跨领域预测能力。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种微博文本跨领域情感分析方法，其特征在于：包括以下步骤：

S1：使用微博特定集合的微博表情进行自动标注；具体包括：

S2：进行跨领域情感分析，具体包括步骤：

S21：使用多领域数据，并根据表情自动标注形成数据集A₀；

S22：剔除数据集A₀中含有的标记表情，得到数据集A₁；

S24：获取微博文本B₃，对微博文本B₃进行情感分析。

2.根据权利要求1所述微博文本跨领域情感分析方法，其特征在于：所述步骤S11中，若待挑选表情在数据集A中出现的次数小于设定的数量时，直接将该待挑选表情进行剔除。

3.根据权利要求1所述微博文本跨领域情感分析方法，其特征在于：所述步骤S24中具体包括以下步骤：

S244：将第二分类器替换原有的第一分类器。

4.一种微博文本跨领域情感分析系统，其特征在于：包括：自动标注模块和跨领域情感分析模块；

第一分类模块，用于将带有表情的微博数据集A进行分类，具体为：根据基准表情进行分类，将包含所述基准表情的微博分类为B₁，将不包含基准表情的微博分类为B₀；将包含待挑选表情的微博分类为C₁，将不包含待挑选表情的微博分类为C₀；

所述跨领域情感分析模块具体包括：

数据集获取模块，用于使用多领域数据，并根据表情自动标注形成数据集A₀；

剔除模块，用于剔除数据集A₀中含有的标记表情，得到数据集A₁；

第一分类器获取模块，用于使用卷积神经网络算法对数据集A₁进行训练，获得第一分类器；

情感分析模块，用于获取某个关键词下的微博文本B₃，对微博文本B₃进行情感分析。

5.根据权利要求4所述微博文本跨领域情感分析系统，其特征在于：所述第一分类模块中，若待挑选表情在数据集A中出现的次数小于设定的数量时，直接将该待挑选表情进行剔除。

6.根据权利要求4所述微博文本跨领域情感分析系统，其特征在于：所述情感分析模块包括：

第二分类模块，对该微博文本B₃进行分类，将能够进行表情自动标记分类为B₄数据集，将不能使用标记表情进行标记的分类为B₅数据集；

第二分类器获取模块，用于将所述第一分类器中加入B₄数据集进行增量训练，并获得第二分类器；

类别标签获取模块，用于通过第二分类器对数据集B₅进行分类，获得B₅的类别标签；

替换模块，用于将第二分类器替换原有的第一分类器。