CN110362819A

CN110362819A - 基于卷积神经网络的文本情感分析方法

Info

Publication number: CN110362819A
Application number: CN201910514145.6A
Authority: CN
Inventors: 李保印; 刘涛; 张宝玉; 王坤
Original assignee: China Telecom Wanwei Information Technology Co Ltd
Current assignee: China Telecom Wanwei Information Technology Co Ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2019-10-22
Anticipated expiration: 2039-06-14
Also published as: CN110362819B

Abstract

本发明涉及信息系统领域，特别涉及一种基于卷积神经网络的文本情感分析方法。特别适用于社交网络发布的微博、朋友圈等文本情感分析。包括如下步骤：中科院ICTCLAS分词系统将文本句子分成不同的词；通过Word2vec工具将词进行向量化；通过Hownet情感词集合对词性标注为积极情感词、消极情感词、否定词、程度副词；利用词向量和词性标注组合拼接作为卷积神经网络的输入识别文本情感。本发明的有益效果在于：本发明的情感分析更加简单可实施。能突出句子的核心情感，降低算法复杂度，提高效率同时更有利于情感分析，最终识别负面情绪。

Description

基于卷积神经网络的文本情感分析方法

技术领域

本发明涉及信息系统领域，特别涉及一种基于卷积神经网络的文本情感分析方法。特别适用于社交网络发布的微博、朋友圈等文本情感分析。

背景技术

随着微博、微信等社交网络的兴起，网络不仅成为了人们获取信息的重要来源，同时也成为人们表达自己观点的平台。通过在微博等网络社区来评论热点事件、抒写影评观点、描述产品体验等，产生了大量带有情感倾向的文本信息，而通过对这些文本信息进行情感分析，可以更好地理解用户行为，发现用户对产品的倾向性、对热点事件的关注程度等。随着信息规模的急剧增大，仅仅依靠人工进行处理已经无法完成这一任务，这就促进了自然语言处理领域的一个研究热点，即微博文本情感分析技术的发展。

发明内容

本发明的目的在于解决现有分析方法的不足，提供一种利用词向量和词性标注组合的基于卷积神经网络的文本情感分析方法。

本发明解决其技术问题所采用的技术方案为：

基于卷积神经网络的文本情感分析方法，包括如下步骤：

A、中科院ICTCLAS分词系统将文本句子分成不同的词；

B、通过Word2vec工具将词进行向量化；

C、通过Hownet情感词集合对词性标注为积极情感词、消极情感词、否定词、程度副词；

D、利用词向量和词性标注组合拼接作为卷积神经网络的输入识别文本情感。

所述步骤D中卷积神经网络识别：采用测试数据训练卷积神经网络，当卷积神经网络的学习正确率达到90%时作为后期文本情感分析的识别网络；测试数据为COAE2014数据集中6000条带有极性的数据，其中正面情绪2864条、负面情绪3136条。

所述步骤C中将词性映射为多维向量，将句子的词向量和词性标注组合拼接作为卷积神经网络的输入；Hownet情感词集合中对50220个汉语的进行了描述，采用0和1代码表示的一个多维的连续值向量， 2的16次方为65536，大于Hownet情感词集合里面的词集合个数，从而每个词的向量维度m为16，多维向量上限是16维向量。

所述步骤A中设立一个分词有效库Effective_participle，通过COAE2014数据集中6000条文本为样本，将文本分别采用中科院ICTCLAS分词系统进行分词，每个分词组合形成分词有效库Effective_participle，分词有效库Effective_participle的集合作为词性库Libray，所有分词Effective_participle出现的个数的总和为分词总数SUM。

所述步骤C中统计文本中的每个分词有效库Effective_participle在COAE2014数据集中6000条文本分词总数SUM里面占的比例；当占比大于10%时没有实际情感分析的作用。

所述步骤C中当待情感分析的文本中的分词不属于分词有效库Effective_participle的分词，在对该条文本进行情感分析时，把不属于分词库里面的分词一并归纳到分词有效库Effective_participle里。

所述步骤C中通过对分析有效库Effective_participle里面的分词进行词向量转换；将每一个分词映射为一个多维的连续值向量，得到整个数据集词集合的词向量矩阵,其中ｍ为每个词的向量维度，数据集的词条集合大小；对于长度为n的句子ｓ＝｛w1，w2，…，wn｝，句子中每一个词语wi可以映射为一个ｍ维向量，即；文本通过Word2vec工具以词为单位来表示句子将词转换为向量化。

所述步骤C中词向量进行为积极情感词、消极情感词、否定词、程度副词在情感分析中保留，对于其他词性的词直接进行删除处理；积极情感词记为Pos、消极情感词记为Neg、程度副词记为Adv、否定词记为Inver；

对于不同的词性标注通过向量化，将每一种词性标注映射为一个多维的连续值向量，其中为第i个词性向量，k为词性向量维度；鉴于文本只关注积极情感词、消极情感词、否定词、程度副词，在情感识别的时候，先选取分词有效库Effective_participle里面的分词进行词性标注向量，再选择词性向量为积极情感词、消极情感词、否定词、程度副词的分词作为最终输入分词Input_word；Pos表示为 [0 0]、Neg表示为 [01]、Adv表示为 [1 0]、否定词表示为 [1 1]。

本发明的有益效果在于：本发明的情感分析更加简单可实施。能突出句子的核心情感，降低算法复杂度，提高效率同时更有利于情感分析，最终识别负面情绪。

附图说明

图1为本发明的网络文本情感分析系统模型结构示意图；

图2为本发明的网络文本情感分析系统识别流程图。

具体实施方式

基于卷积神经网络的文本情感分析方法，包括如下步骤：

A、中科院ICTCLAS分词系统将文本句子分成不同的词；

B、通过Word2vec工具将词进行向量化；

本发明的文本情感分析具体说明如下：

（一）卷积神经网络识别流程

首先，采用测试数据为COAE2014数据集，COAE2014数据集中6000条带有极性的数据，其中正面情绪2864条、负面情绪3136条，训练卷积神经网络，当卷积神经网络的学习的正确率达到90%时，将这个学习后的卷积神经网络作为后期微博文本情感分析的识别网络。

1.网络的输入

验证词性映射为多维向量方法的有效性，中对50220个汉语的进行了描述，且词向量采用的是用0,1代码表示的一个多维的连续值向量，且2的16次方为65536，大于“Hownet情感词集合”里面的词集合个数，从而每个词的向量维度m为16，多维向量上限是16维向量将输入句子的词性向量和句子内容层面的词向量结合作为卷积神经网络的输入。

（1）分词

采用通过中科院ICTCLAS分词系统将句子分成不同的词，例如"李明欢迎我"，经过ICTCLAS分词系统，会分解成“李明/欢迎/我/”。

之后在对分词进行选择。现代汉语的词可以分为12类。实词：名词、动词、形容词、数词、量词和代词。虚词：副词、介词、连词、助词、拟声词和叹词。关于情感分析，最主要的就是了解能标明情感的词语，对于其他的词语在用章中的作用不是很大。首先设立一个分词有效库Effective_participle，通过COAE2014数据集中6000条微博为样本，将这些微博分别采用中科院ICTCLAS分词系统进行分词，每个分词为Participle，所以Participle的集合作为词性库Libray，所有分词Participle出现的个数的总和为分词总数SUM。

依次统计文本中的每个分词Participle在这6000条微博分词总数SUM里面占的比例。理论依据：我们经常在说话的时候，用的最多的一些词，其实是没有实际情感意见的，比如“的”、“我”、“我们”等等，这类词在句字里面经常用，但实际情感分析的时候没有实质性帮助。

当每个分词在测试数据中的6000条微博分词总数SUM占比高于10%就没有实际意义了，并不一定是最优的阈值。比如 “的”这个分词，在6000条文本总数中SUM占比为17%，所以就认定“的”字没有作为情感分析的实质性帮助。当其比例越大，我们认定这个分词越没有实际情感分析的作用，确认分词在6000条样本微博中出现的概率Participle_Probability低于10%时，这个词利于情感分析，将这些词作为分词有效库Effective_participle里面的分词。若现实文本中的分词，存在不属于分词库里面的分词，在对该条微博进行情感分析时，把不属于分词库里面的分词，也归纳到分词有效库Effective_participle里面。

（2）词向量

自然语言情感的识别的问题要转化为机器学习的问题，第一步肯定是要找一种方法把这些符号数学化。通过对分析有效库Effective_participle里面的分词进行词向量转换。

将每一个分词映射为一个多维的连续值向量，得到整个数据集词集合的词向量矩阵 ,其中ｍ为每个词的向量维度，数据集的词条集合大小；对于长度为n的句子ｓ＝｛w1，w2，…，wn｝，句子中每一个词语wi可以映射为一个ｍ维向量，即；文本通过Word2vec工具以词为单位来表示句子将词转换为向量化。

鉴于“Hownet情感词集合”中对50220个汉语的进行了描述，且词向量采用的是用0,1代码表示的一个多维的连续值向量，且2的16次方为65536，大于“Hownet情感词集合”里面的词集合个数，从而每个词的向量维度m为16。

例如：向量长度为词典的大小N，每个向量只有一个维度为1，其余维度全部为0，为1的位置表示该词语在词典的位置，经word2vec工具向量化后，假设word2vec工具中只有“李明”、“欢迎”和“我”三个分词，但由于“李明”不属于Libray中的词，所以加入到分析有效库Effective_participle里面，且“我”属于Participle_Probability大于10%的词，所以不纳入分析有效库Effective_participle里面:

“李明”表示为 [1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

“欢迎”表示为 [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

（3）词性标注向量

今年来，有关自然语言、人工智能、信息检索、数据挖掘等领域的发展，对词、短信、搭配等语言单元的倾向性识别进行了大量的研究，通过“Hownet情感词集合” 对词重新进行词性标注。“Hownet情感词集合”在中文自然语言处理方面，对50220个汉语的进行了描述，本发明设定只有积极情感词、消极情感词、否定词、程度副词在情感分析里面有作用，对于其他词性的词直接进行删除处理。

表1 Tag标签

对于不同的词性标注，通过向量化操作，将每一种词性标注映射为一个多维的连续值向量，其中为第i个词性向量，k为词性向量维度。

鉴于发明只关注积极情感词、消极情感词、否定词、程度副词，所以在情感识别的时候，先选取分词有效库Effective_participle里面的分词进行词性标注向量，再选择词性向量为积极情感词、消极情感词、否定词、程度副词的分词作为最终输入分词Input_word。

例如：“李明”和“欢迎”经“Hownet情感词集合”确认后，因为有“欢迎”为积极情感词,则输入分词Input_word只有“欢迎”。

“Pos”表示为 [0 0]

“Neg”表示为 [0 1]

“Adv”表示为 [1 0]

“否定词”表示为 [1 1]

则“欢迎”的词性标注为Pos，词性标注向量化后为[0 0]。

（4）分词位置

研发发现，积极情感词、消极情感词、否定词、程度副词的位置对于情感分析有很大的影响，例如转折句。基于此，本次在进行情感分析时，对输入分词Input_word中每一个分词在输入分词中的排序作为卷积神经网络输入矩阵的排序。

2.卷积神经网络

（1）网络结构

为了验证本文提出的将词性映射为多维向量方法的有效性，将输入句子中的输入分词的词性标注向量和句子内容层面的词向量结合作为卷积神经网络的输入，网络模型主要由输入层、卷积层、池化层和全连接层组成。输入层接收输入句子的特征矩阵；卷积层利用卷积核对输入的基本单位进行卷积操作提取特征；池化层对卷积层提取到的特征做采样处理，以过滤的形式保留重要的特征；全连接层通过提取到的特征信息输出待分类句子的分类结果。

（2）算法流程

以词为单位对句子进行卷积操作，对于长度为ｎ的句子，其特征表示为

其中，e为词向量，tag为词性特征。为了简化网络模型结构，使用简单拼接操作形成特征矩阵，作为卷积神经网络的输入：

其中，为拼接操作。通过把特定情感词映射为多维的词性特征，这可以使网络在训练过程中通过调整词性特征分量来优化分类模型。实验中，对句子的输入设定一个最大长度maxlen，对于长度小于maxlen的句子用０向量补全。

例如："李明欢迎我"，经过算法对分词的预处理后，从而对应的

卷积层可以通过不同的卷积核对输入矩阵进行丰富的局部特征提取，对于长度为ｈ的卷积核，可以把句子分为，然后对每一个分量进行卷积操作，得到卷积特征图：

其中，是对分量进行卷积操作后提取得到的信息。

其中，为卷积核权重，为偏置。

上述为一个卷积核采样得到的结果，对于d个卷积核采样得到的特征信息可以表示为

在卷积神经网络模型中，把池化层采样得到的特征信息作为全连接层的输入，得到分类结果：

其中，为偏置，为全连接层权重，y为输出结果。

卷积神经网络学习采用传统的卷积神经网络的反向传播。

（二）微博文本识别

采用2014 年中文观点倾向性分析评测COAE2014语料中的任务４数据集进行对比实验，来对本文提出方法的性能进行评估。从COAE2014数据集中标注6000条带有极性的数据，其中正面情绪2864条、负面情绪3136条。当卷积神经网络的学习的正确率达到90%时，即用该学习后的卷积神经网络作为后期微博文本情感识别的识别网络。

首先通过分词和分词选择，将不重要的分词去掉，再通过只关注积极情感词、消极情感词、否定词、程度副词的作用，又去掉了部分无用的分词，从而最大限度的精简了卷积神经网络的输入，并且以输入分词Input_word中每一个分词在输入分词中的排序作为卷积神经网络输入矩阵的排序，从而充分考虑了分词在句子中的位置对情感的影响，而且以词向量和词性向量的拼接作为最终的卷积神经网络输入矩阵，更加充分的提取了句子里面的特征向量。

实施例1

“李明欢迎我，我太高兴了！”，从字面上，我们知道这个一条正面情绪的语句。根据本文的方法，分词为“李明/欢迎/我/我/太/高兴/了/”,根据本文分词选择，则分词有效库Effective_participle里面只有“李明/欢迎/太/高兴/”。而且由于本文只积极情感词、消极情感词、否定词、程度副词的作用，从而输入分词Input_word只有“欢迎/太/高兴/”，不同于传统的情感分析，需要将“李明/欢迎/我/我/太/高兴/了/”都进行考虑，减少了计算量，而且更能突出情感内容。

根据本文方法建立输入矩阵的时候，假设

“欢迎”= [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

“太”= [0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0]

“高兴”= [0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0]

由于根据“Hownet情感词集合”的反馈，“欢迎”和“高兴”属于都是积极情感词，“太”属于程度副词，且根据输入分词Input_word的排序，则最终的卷积神经网络的输入为

在传统的卷积神经网络中，如果：

“李明”= [1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

“欢迎”= [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

“我”= [1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1]

“太”= [0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0]

“高兴”= [0 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0]

“了”= [1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1]

则传统的卷积神经网络的输入为

便于卷积神经网络的输入，更能突出句子的核心情感，降低算法复杂度，更有利于情感分析，最终识别正面情绪。

实施例2

“李明在门口欢迎我，但我见到李明就讨厌！”，从字面上，我们知道这个一条负面情绪的语句。根据本文的方法，分词为“李明/在/门口/欢迎/我/但/我/见到/李明/就/讨厌”,根据本文分词选择，则分词有效库Effective_participle里面只有“李明/欢迎/但/李明/就/讨厌/”。而且由于本文只积极情感词、消极情感词、否定词、程度副词的作用，从而输入分词Input_word只有“欢迎/但/讨厌/”，不同于传统的情感分析，需要将“李明/在/门口/欢迎/我/但/我/见到/李明/就/讨厌”都进行考虑，减少了计算量，而且更能突出情感内容。

根据本文方法建立输入矩阵的时候，假设

“欢迎”= [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

“但”= [0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1]

“讨厌”= [1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0]

由于根据“Hownet情感词集合”的反馈，“欢迎”是积极情感词，“但”属于否定词，“讨厌”是消极情感词，且根据输入分词Input_word的排序，则最终的卷积神经网络的输入为

在传统的卷积神经网络中，如果：

“李明”= [1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

“在”= [1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0]

“门口”= [1 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0]

“欢迎”= [0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0]

“我”= [1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1]

“但”= [0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 1]

“见到”= [0 1 1 0 1 0 0 0 1 0 0 0 0 0 0 0]

“就”= [0 1 1 1 0 0 0 0 1 0 0 0 0 0 0 0]

“讨厌”= [1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0]

则传统的卷积神经网络的输入为

明显本文卷积神经网络的输入，更能突出句子的核心情感，而且算法复杂度更底，更有利于情感分析，最终识别负面情绪。

实施例3

“门前一条河，游过一群鸭”，这个一条没有正、负面情绪的语句。根据本文的方法，分词为“门前/一条/河/游过/一群/鸭”,根据本文分词选择，则分词有效库Effective_participle里面只有“门前/一条/游过/一群/鸭”。而且由于本文只积极情感词、消极情感词、否定词、程度副词的作用，从而输入分词Input_word中没有可用的输入，则即可判断句子没有反应正、负情绪。传统的情感分析，需要将“门前/一条/河/游过/一群/鸭”都进行考虑，从而可以证明，本文算法计算量简单明显优于传统的算法。

Claims

1.基于卷积神经网络的文本情感分析方法，其他特征在于包括如下步骤：

A、中科院ICTCLAS分词系统将文本句子分成不同的词；

B、通过Word2vec工具将词进行向量化；

2.根据权利要求1所述的基于卷积神经网络的文本情感分析方法，其特征在于所述步骤D中卷积神经网络识别：采用测试数据训练卷积神经网络，当卷积神经网络的学习正确率达到90%时作为后期文本情感分析的识别网络；测试数据为COAE2014数据集中6000条带有极性的数据，其中正面情绪2864条、负面情绪3136条。

3.根据权利要求1所述的基于卷积神经网络的文本情感分析方法，其特征在于所述步骤C中将词性映射为多维向量，将句子的词向量和词性标注组合拼接作为卷积神经网络的输入；Hownet情感词集合中对50220个汉语的进行了描述，采用0和1代码表示的一个多维的连续值向量，多维向量上限是16维向量。

4.根据权利要求1所述的基于卷积神经网络的文本情感分析方法，其特征在于所述步骤A中设立一个分词有效库Effective_participle，通过COAE2014数据集中6000条文本为样本，将文本分别采用中科院ICTCLAS分词系统进行分词，每个分词组合形成分词有效库Effective_participle，分词有效库Effective_participle的集合作为词性库Libray，所有分词Effective_participle出现的个数的总和为分词总数SUM。

5.根据权利要求4所述的基于卷积神经网络的文本情感分析方法，其特征在于所述步骤C中统计文本中的每个分词有效库Effective_participle在COAE2014数据集中6000条文本分词总数SUM里面占的比例；当占比大于10%时没有实际情感分析的作用。

6.根据权利要求4所述的基于卷积神经网络的文本情感分析方法，其特征在于所述步骤C中当待情感分析的文本中的分词不属于分词有效库Effective_participle的分词，在对该条文本进行情感分析时，把不属于分词库里面的分词一并归纳到分词有效库Effective_participle里。

7.根据权利要求6所述的基于卷积神经网络的文本情感分析方法，其特征在于所述步骤C中通过对分析有效库Effective_participle里面的分词进行词向量转换；将每一个分词映射为一个多维的连续值向量，可以得到整个数据集词集合的词向量矩阵,其中ｍ为每个词的向量维度，数据集的词条集合大小；对于长度为n的句子ｓ＝｛w1，w2，…，wn｝，句子中每一个词语wi可以映射为一个ｍ维向量，即；文本通过Word2vec工具以词为单位来表示句子将词转换为向量化。

8.根据权利要求6所述的基于卷积神经网络的文本情感分析方法，其特征在于所述步骤C中词向量进行为积极情感词、消极情感词、否定词、程度副词在情感分析中保留，对于其他词性的词直接进行删除处理；积极情感词记为Pos、消极情感词记为Neg、程度副词记为Adv、否定词记为Inver；

对于不同的词性标注通过向量化，将每一种词性标注映射为一个多维的连续值向量，其中为第i个词性向量，k为词性向量维度；鉴于文本只关注积极情感词、消极情感词、否定词、程度副词，在情感识别的时候，先选取分词有效库Effective_participle里面的分词进行词性标注向量，再选择词性向量为积极情感词、消极情感词、否定词、程度副词的分词作为最终输入分词Input_word； Pos表示为 [0 0]、Neg表示为 [01]、Adv表示为 [1 0]、否定词表示为 [1 1]。