CN108446271A

CN108446271A - 基于汉字部件特征的卷积神经网络的文本情感分析方法

Info

Publication number: CN108446271A
Application number: CN201810187041.4A
Authority: CN
Inventors: 熊绘; 龙冬阳; 余跃; 甘加升
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2018-03-07
Filing date: 2018-03-07
Publication date: 2018-08-24
Anticipated expiration: 2038-03-07
Also published as: CN108446271B

Abstract

本发明提供一种基于汉字部件特征的卷积神经网络的文本情感分析方法，该方法首先考虑情感词的情感强烈程度，结合Attention优化情感词典中词的权重；同时在特征提取方面采用了更细粒度的特征，由于中文的基本语素是汉字部件，其携带语音和语义等丰富信息，不同于英文的26个字母，最终提出了一种基于汉字组成部件与情感词典的双通道词嵌入的卷积神经网络的中文文本情感分类方法，在多个公开数据集上实验证明，该模型可以显著提高文本的情感分类效果。

Description

基于汉字部件特征的卷积神经网络的文本情感分析方法

技术领域

本发明涉及计算机技术人工智能方向自然语言领域，更具体地，涉及一种基于汉字部件特征的卷积神经网络的文本情感分析方法。

背景技术

当今社会，互联网用户交互信息爆炸，电商购物、娱乐、餐饮、交通和文化等多个产业的交互平台都产生了大量的短文本(Short Text)，这些文本数据的情感倾向性是双方重要的沟通桥梁。例如，电影发行方和影迷都更倾向放映和观看公众好评的新电影；商家和潜在顾客都密切关注买家对新买商品的满意度，这些都是生活中短文本情感分析的典型使用场景。因此挖掘短文本的情感信息，一直是近年来众多学者的研究方向。

现有的中文文本情感分析技术主要分为两大类：基于知识的方法和基于机器学习的方法。前者一般指结合语法规则和情感词典识别有情感极性的词语来计算文本的情感倾向，然而由于依赖情感词典的大小和质量，不仅需要大量的人工预处理，而且泛化性差，特别是运用于跨域文本时；后者又分为两个阶段，第一个阶段主要是采用传统的机器学习技术，如支持向量机(SVM)、朴素贝叶斯(NB)和随机森林(RF)等分类算法，主要存在的问题是需要人工构建特征，而中文情感特征不同于英文，中文没有字与字间的空格，中文的词语通常由不止一个汉字组成，因而基于词语提取特征就需要先分词；所以通常提取特征不仅费时费力，而且分类结果过于依赖提取的特征；第二个阶段出现了深度学习技术，主要指应用多种深度神经网络CNN、RNN等来实现分类，这种方式不需要人工标注的情感词典，也不需要人工构建特征，完全依靠自我学习来提取特征，但特征提取粒度不够细，而且往往需要大量标注好的语料，这一点在中文情感分析领域是稀缺的。

发明内容

本发明提供一种细化特征提取的粒度的基于汉字部件特征的卷积神经网络的文本情感分析方法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于汉字部件特征的卷积神经网络的文本情感分析方法，包括以下步骤：

S1：获取汉字和汉字组成部件的信息：从HTTPCN网站爬取所有汉字的组成部件和部首的数据，以列表形式保存所有基本部件，以字典形式保存所有汉字和其对应的部件序列，最后生成部件级别的词嵌入；

S2：得到第一个输入通道表达：对情感分类语料的所有中文文本以汉字为单位，基于汉字组成部件的字典和部件级的词嵌入生成汉字级别的部件嵌入表达，即第一个通道的输入；

S3：得到第二个输入通道表达：对情感分类语料的所有中文文本进行分词和词性标注，结合词性匹配情感词典，对情感词的情感强度结合Attention机制优化权重，获得第二个通道的输入；

S4：第一个CNN：第一个输入通道作为char-cnn的输入，连接卷积核大小为[2,3,4,5]、卷积核数目为256的卷积层，通过1-max池化层选取最显著的特征，再接入全连接层和softmax层，得到情感类别；

S5：第二个CNN：第二个输入通道作为cnn的输入，连接卷积核大小为[2,3,4]、卷积核数目为256的卷积层，通过1-max池化层选取最显著的特征，再接入全连接层和softmax层，得到情感类别；

S6：融合两个CNN：两个输入通道分别得到一个情感类别输出，作为一个新的DNN的输入，接入全连接层，通过分类器最终得到目标情感倾向。

进一步地，所述步骤S1中获取汉字和汉字组成部件的信息过程包括以下步骤：

S11：爬取HTTPCN网站，得到所有汉字及其对应的汉字组成部件序列的对应关系，保存为：汉字以空格隔开的汉字组成部件序列\n格式的txt文件char2comp.txt；

S12：读取char2comp.txt获取所有基本部件的集合并保存为comp.txt；

S13：以comp.txt作为输入，生成部件级别的embedding：comp_embedding。

进一步地，所述步骤S2中得到第一个输入通道表达的过程包括以下步骤：

S21：将中文训练语料整理成仅包括汉字、数字和小写英文字母的集合char_list，即统一字母为小写，去除标点等无情感表达的符号的干扰；

S22：输入文本中的每个字先分解为多个部件组成的序列，每个部件再依次从训练好的部件向量矩阵中找到对应的component embedding，然后“横向累加”并取平均.即形成字级别的汉字部件组成表达，再通过“纵向累加”的方式形成句子级别的文本表达，作为适合CNN处理的二维特征矩阵，这里用X1表示。

进一步地，所述步骤S3中得到第二个输入通道表达的过程包括以下步骤：

S31：将中文训练语料通过jieba进行分词和词性标注；

S32：整合两个经典的情感词典：Hownet和NTUSD，形成新的情感词典；

S33：分词后，以词语为单位，匹配情感字典，得到情感词的序列，结合情感词的词性特征：是否动词、是否形容词、是否副词、是否标点符号等，先形成单词级别的情感特征向量，通过word attention优化特征向量表达，同样作为CNN的二维特征矩阵输入，这里用X2表示。

进一步地，所述步骤S4和S5中，两个CNN的结构，具体包括4层：

卷积层：在这一层，对每个文本，每个大小的卷积核的数目为m，每个句子的文本输入长度为h，则特征c_i提取过程如下公式所示：

其中，c_i是第i个特征值，X_i:i+h代表第i行到第i+h-1行组合成的局部特征向量矩阵，表示数组元素依次相乘，F是卷积核的权重矩阵，b是第f个卷积核的偏置，每个卷积核的维度是d，和句子矩阵的维度一致，m个卷积核生成了多个feature map，最终聚合成一个大的feature map C；

最大池化层：这一层，主要用来降维，提取最显著的特征，池化后的特征集合矩阵如下所示：

全连接层：计算变化值，公式如下：x＝Re LU(W*C_pool+b),其中，W是权重矩阵，b是偏置，本层的输出x代表每个文本的句子嵌入表达；

Softmax层：完成情感的映射，返回一个最大可能性的情感类别值，公式如下：

其中，w_j是情感类别j的权重向量，a_j是情感类别j的偏置。

与现有技术相比，本发明技术方案的有益效果是：

本发明首先，考虑情感词的情感强烈程度，结合Attention优化情感词典中词的权重；同时在特征提取方面采用了更细粒度的特征，由于中文的基本语素是汉字部件，其携带语音和语义等丰富信息，不同于英文的26个字母，最终提出了一种基于汉字组成部件与情感词典的双通道词嵌入的卷积神经网络的中文文本情感分类方法，在多个公开数据集上实验证明，该模型可以显著提高文本的情感分类效果。

附图说明

图1为本发明第一个输入通道的组合方式示意图；

图2为本发明第二个输入通道的组合方式示意图；

图3为本发明提出的模型的整体结构示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1-3所示，一种基于汉字部件特征的卷积神经网络的文本情感分析方法，包括以下步骤：

S31：将中文训练语料通过jieba进行分词和词性标注；

其中，w_j是情感类别j的权重向量，a_j是情感类别j的偏置。

本发明基于汉字部件特征的卷积神经网络的文本情感分析方法的分类效果实验：

1、实验数据集：谭松波公布的酒店评论数据集Chn2000(共2个情感类别)

2、实验环境：tensorflow-gpu 1.2.0、sklearn和python3.5；

3、实验工具集：jieba、fasttext和numpy开源库；

4、实验方法：对于Chn2000酒店评论数据集，正负评价各2000条，共4000条短文本，按照8:1:1的比例来训练、验证、测试，采用逻辑回归、朴素贝叶斯、fasttext、已发表论文中的模型CNN+Hsemantic和本发明提出的模型测试分类结果；

5、评价标准：

分类问题中，通常以关注的类为正类，其他类为负类，分类器在测试数据集上的预测或正确或不正确，四种情况出现的总数分别记作：

TP：将正类预测为正类数(True Positive)

FN：将正类预测为负类数(False Negative)

FP：将负类预测为正类

TN：将负类预测为负类数

(1)精确率：预测为正的样本中有多少预测对，其公式如下所示：

(2)召回率：真实标签为正的样本有多少预测对，其公式如下所示：

(3)F1值：精确率和召回率的调和均值，其公式如下所示：

6、实验结果：如表1所示，表中表示在数据集Chn2000上，分别使用逻辑回归、朴素贝叶斯、fasttext、已发表论文中的模型CNN+Hsemantic和本发明提出的模型进行训练之后预测测试集情感倾向结果的精确率、召回率和F1值。实验结果表明，本发明提出的模型取得较好的分类效果，与现有的方法比较，具有显著性的进步。

表1-Chn2000测试集结果

模型	P/％	R/％	F1/％
				LogisticRegression	78.87	74.74	74.96
NaiveBayesian	72.25	71.25	71.34
				Fasttext	82.75	82.75	82.73
CNN+Hsemantic	87.45	86.71	87.02
				本专利提出的模型	91.26	91	90.99

从表1中可以得到用本专利提出的方法得到了最好的情感分类效果。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于汉字部件特征的卷积神经网络的文本情感分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于汉字部件特征的卷积神经网络的文本情感分析方法，其特征在于，所述步骤S1中获取汉字和汉字组成部件的信息过程包括以下步骤：

3.根据权利要求2所述的基于汉字部件特征的卷积神经网络的文本情感分析方法，其特征在于，所述步骤S2中得到第一个输入通道表达的过程包括以下步骤：

4.根据权利要求3所述的基于汉字部件特征的卷积神经网络的文本情感分析方法，其特征在于，所述步骤S3中得到第二个输入通道表达的过程包括以下步骤：

S31：将中文训练语料通过jieba进行分词和词性标注；

5.根据权利要求4所述的基于汉字部件特征的卷积神经网络的文本情感分析方法，其特征在于，所述步骤S4和S5中，两个CNN的结构，具体包括4层：

其中，w_j是情感类别j的权重向量，a_j是情感类别j的偏置。