CN107025284B

CN107025284B - 网络评论文本情感倾向的识别方法及卷积神经网络模型

Info

Publication number: CN107025284B
Application number: CN201710220777.2A
Authority: CN
Inventors: 郑瑾; 田星; 张祖平; 宋冬云; 李俊
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2017-04-06
Filing date: 2017-04-06
Publication date: 2020-10-27
Anticipated expiration: 2037-04-06
Also published as: CN107025284A

Abstract

本发明公开了一种网络评论文本的情感倾向的识别方法及卷积神经网络模型，该方法包括步骤：将抓取的网络评论文本构成数据集；分词并进行文本预处理；对文本预处理后的所有词语进行训练，得到所有词语的词向量表示；构建卷积神经网络模型在取自所述数据集的训练集上进行训练，通过后向传播算法更新网络参数；训练的每一步，在输入层的词向量上添加噪声构建对抗样本，进行对抗式训练，通过随机梯度下降算法更新网络参数；多次迭代得到分类模型识别网络评论文本的情感倾向。所述卷积神经网络模型为用于上述方法的模型，包括输入层、卷积层、池化层和分类层。本发明对于对抗样本可以正确分类，提升了识别的准确度。

Description

网络评论文本情感倾向的识别方法及卷积神经网络模型

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种网络评论文本的情感倾向的识别方法及卷积神经网络模型。

背景技术

随着互联网的快速发展，网络用户在各种网络平台上发布了丰富的文本信息，如服务评价和商品评论等。挖掘网络用户评论性文本中的情感特征，识别这些文本的情感倾向，在市场分析、舆情分析和信息预测等方面具有重要的应用意义。文本情感倾向识别又称为文本情感分析，是指对带有情感特征的主观性文本进行分析、处理、归纳和推理的过程，其主要目的是将评论文本划分为“肯定”和“否定”两类。目前的文本情感倾向识别主要存在以下三类方法：

第一类是基于规则和词典的方法。此类方法借助人工构建的情感词典，以及语言学专家提取的规则来识别文本的情感倾向。常用的情感词典有FrameNet、SentiWordNet、主观性线索词典、褒贬义词典等。基于规则和词典的方法过于依赖所使用情感词典的质量，对于网络新词和表情符号的识别度不高。

第二类是基于机器学习的方法。此类方法需要使用机器学习分类器，通过人工选择的语言学特征在训练集上进行训练，然后将训练好的分类器用来识别文本的情感倾向。常用的分类器有朴素贝叶斯算法、最大熵模型、支持向量机，常用的语言学特征有词袋模型、词性特征、否定词特征等。基于机器学习的方法需要人工提取的语言学特征，需要相关语言学专家的领域内知识，人工成本较高。

以上第一类和第二类方法对于网络评论文本的情感倾向识别准确度较低，而且系统的泛化性不高，迁移性较差。

第三类是基于深度学习的方法。此类方法需要使用一个多层的神经网络模型，通过在训练集上的训练自动学习出用于分类的情感特征，然后将训练好的神经网络模型用来识别文本的情感倾向。常用的神经网络模型有卷积神经网络、递归神经网络、循环神经网络、长短时记忆网络等。基于深度学习的方法识别准确度较高，但受到神经网络性质的影响，对于对抗样本会造成错误分类，而且由于使用词向量作为输入，最终的分类效果受到词向量质量的影响。

发明内容

本发明目的在于提供一种网络评论文本的情感倾向的识别方法及卷积神经网络模型，以解决现有方法中对对抗样本误分类的技术问题。

为实现上述目的，本发明提供了一种网络评论文本的情感倾向的识别方法，包括以下步骤：

S1：将抓取的网络评论文本中的一星评价和二星评价标注为“否定”倾向样本，四星评价和五星评价标注为“肯定”倾向样本；“否定”倾向样本和“肯定”倾向样本构成数据集；

S2：使用分词工具对数据集中的所有网络评论文本进行分词，并进行文本预处理；

S3：对文本预处理后的所有词语进行训练，得到所有词语的词向量表示；

S4：构建卷积神经网络模型在取自数据集的训练集上进行训练，通过后向传播算法更新网络参数；网络参数为神经网络模型中每个神经元的权值向量和偏置项；

S5：在训练的每一步，在输入层的词向量上添加噪声构建对抗样本，进行对抗式训练，通过随机梯度下降算法更新网络参数；

S6：经过多次迭代步骤S4-S5，得到分类模型；使用分类模型识别网络评论文本的情感倾向。

优选地，步骤S1中，舍弃三星评价。

优选地，文本预处理为：分词、去停用词、去低频词和\或纠正拼写错误。

优选地，在步骤S4中，训练集的选取方法包括：将数据集随机洗牌，从中选取70％作为训练集；其余30％作为测试集。

优选地，在步骤S6中，得到分类模型后，用测试集验证模型的分类效果。

作为一个总的发明构思，本发明还提供了一种卷积神经网络模型，包括输入层、卷积层、池化层和分类层：

输入层被设置为：

给定一段文本S，其长度为|s|，

为句中第i个词的d维词向量，则文本S为：

其中，

为连接操作；

卷积层被设置为：

将输入的多个词向量进行卷积，一个卷积操作可以理解为一个

的卷积滤波器与m个词向量进行点乘操作获取新的特征值，如下式：

c_j＝f(F^Tv_j-m+1：j+b)

其中m为卷积滤波器的滑动窗口大小，v_j-m+1：j表示文本中第j-m+1个词到第j个词所对应的词向量，b为偏置项，f为修正线性单元函数(Rectified linear unit,ReLU函数)；

池化层用于进行降采样；

分类层被设置为：

将池化层得到的特征输入，按如下公式预测分类结果：

优选地，卷积神经网络模型，降采样采用分段最大池化法进行：按照每3个一段的方式把从卷积层提取的特征向量分为k段，分别取这k段中的最大值组合为最终的特征向量。

本发明具有以下有益效果：

1、本发明的网络评论文本的情感倾向的识别方法，将对抗式训练应用到文本处理领域，结合卷积神经网络，通过给词向量加噪声的方式进行对抗式训练，在更新神经网络参数的同时更新词向量，不仅能够正确分类训练集中的正常样本，而且也提高了在处理对抗样本时的鲁棒性。同时，在此过程中，词向量也得到了更新，词向量的质量更好，其表意能力相比于原始词向量更强。相比于现有的基于深度学习的文本情感倾向识别方法，本发明既提高了词向量的质量，也提升了分类的效果。

2、本发明的卷积神经网络模型，在池化层采用了分段取最大值的池化方法，最大程度上保留了原文本的词序位置等信息，不仅收敛速度更快，而且分类效果更好。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照附图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明优选实施例的网络评论文本的情感倾向的识别方法的流程示意图；

图2是本发明优选实施例的卷积神经网络模型的结构示意图；

图3是本发明优选实施例的卷积神经网络模型收敛速度示意图。

具体实施方式

以下结合附图对本发明的实施例进行详细说明，但是本发明可以由权利要求限定和覆盖的多种不同方式实施。

以下为本实施例中使用的部分名词释义：

词向量：

在自然语言处理领域中，传统的词汇表示使用的是one-hot表示法，这种方法把每个词都表示为一个高维稀疏向量，向量维度为整个词表的大小，其中除了代表该词汇的元素为1外，其余元素均为0。比如，“计算机”和“电脑”两个词汇，其表示如下：

计算机：[0,0,0,1,0,0,…]

电脑：[0,1,0,0,0,0,…]

这种方式的缺点在于，不仅浪费了大量的存储空间，而且存在“词汇鸿沟”现象，即使“计算机”和“电脑”这样含义如此接近的词语，从它们的向量表示中也看不出任何关系。

词向量是词汇的分布式表示，解决了one-hot表示法的这两个问题。它将每个词汇都表示成固定维度的实值向量，该维度大小一般为100或200，远小于动辄上万的词表大小，而且，通过计算词向量的余弦相似度就可以近似得出词汇的语义相近程度。

但是，词向量也有缺点。由于在训练过程中受到文本句法结构的影响，造成某些含义相反的词语，因为上下文的相似性，它们的词向量表示也具有较高的相似度，比如“good(好)”和“bad(坏)”，含义相反，但是它们的词向量相似度很高，被判定为同义词。

对抗样本和对抗式训练：

2014年，Google公司的研究人员在研究神经网络的性质时发现，对于一个已经训练好的分类模型，将训练集中的样本数据做一些微小的改变，会导致模型给出一个完全错误的分类结果，即使这些改动小到人眼都无法识别。这种相对于原样本数据改变很小，却会造成分类器误分类的样本称为对抗样本(Adversarial examples)。他们利用这些样本提出了对抗式训练方法，分类器(分类模型)既训练正常的样本，也训练加入噪声人工构造的对抗样本，从而提高模型的泛化能力。

对抗式训练可以在图像处理领域得到应用，其中一个重要的原因是，在研究图片的神经网络模型中，通常将图片的颜色值矩阵作为输入，其中的数据都是连续实值。而在文本领域，传统的one-hot向量维度太高且为离散数据，无法添加随机噪声。

参见图1，本发明的一种网络评论文本的情感倾向的识别方法，包括以下步骤：

S1：将抓取的网络评论文本中的一星评价和二星评价标注为“否定”倾向样本，四星评价和五星评价标注为“肯定”倾向样本；舍弃三星评价。“否定”倾向样本和“肯定”倾向样本构成数据集。

一般在实验中把数据集随机洗牌，然后选取70％做训练集，30％做测试集(这里的训练集和测试集都是对卷积神经网络而言)。划分测试集的目的是为了验证模型的效果。如果不需要测试集，则可直接把所有数据集都作为训练集。

S2：使用分词工具对数据集中的所有网络评论文本进行分词，并进行文本预处理。预处理一般有以下步骤：分词、去停用词、去低频词和纠正拼写错误等。分别为处理不同问题的预处理方式。情感分析时一般无需去低频词，而是保留低频词。此外，中文数据集无需检查拼写错误，英文数据集无需分词。

S3：对文本预处理后的所有词语进行训练，得到所有词语的词向量表示。

词向量的训练与神经网络模型的训练，可以使用不同的训练集，词向量的训练甚至可以放在第一步。如有两个数据集，A为S1中抓取的评论数据集，B为任意一个文本数据集(如新闻语料、twitter语料等)。B一般规模较大，那么词向量可以在B上进行训练，每个词语都得到一个词向量表示，这份词向量文件记为C。然后在A预处理之后，从C中查表就可以找到需要词语所对应的词向量。但词向量直接在A上训练也可，在情感分析任务上反而效果更好。故本发明词向量预处理之后直接在A上进行训练。

S4：构建卷积神经网络模型在取自数据集的训练集上进行训练，通过后向传播算法更新网络参数。

后向传播算法是神经网络模型更新参数的通用算法。神经网络模型里包含两个步骤，前向传播和后向传播，前向传播用于将输入的x层层处理传递到分类层，得到一个预测标签y’，y’和真正的标签y之间有一个误差。通过训练，更改网络参数使得这个误差最小。训练算法常采用梯度下降法，但在神经网络中，y没有和x直接相连，中间相隔若干层，后向传播的目的是为了将梯度往前传递到x，并逐层更新网络参数。

网络参数是指神经网络模型中每个神经元的权值向量和偏置项。例如：若输入x，输出y，则一维线性情况下，y＝kx+b，其中k为斜率，b为截距。类似的，在神经网络模型中，x是一个向量，因此这个式子变成了y＝wx+b，其中w是这个神经元的权值向量，b是它的偏置项。而在神经网络模型中，每一层都有多个神经元，一般为了计算上的方便，都是采用矩阵的形式直接更新层与层之间的参数W和b(此处均为矩阵)。更新网络参数就是以矩阵更新的形式更新W和b。

S5：在训练的每一步，在输入层的词向量上添加噪声构建对抗样本，进行对抗式训练，通过随机梯度下降算法更新网络参数。

一般地，将训练集中的所有样本在神经网络模型上跑一遍叫做一次迭代，即训练的一步。当训练集过大时，可选500个或100个一批，也可称为一次迭代或者一步，批次大小可以根据实际情况自由选取。

一步结束后，按照构建对抗样本的方法，针对当前的神经网络模型构造对抗样本，噪声直接加到词向量上，然后按照对抗式训练方式更新网络参数。

对抗样本的构建过程如下：

给定一个分类标签为y，输入为x，参数为θ的文本分类器，对其输入添加噪声r_adv，进行对抗式训练，相当于在其代价函数中添加下式所示项：

-logp(y|x+r_adv；θ)

其中：

其中r为添加的噪声，∈为一微小常量，用来保证每次添加的噪声都是相对于原样本的微小改动，

为神经网络模型的一个常值参数集，为对抗式训练所用的参数，使用

是为了与神经网络通过后向传播算法更新的参数θ区别开。

由于上式在神经网络模型上较难求解，因此通过线性近似和L2范数约束对其进行变换，结果如下：

r_adv＝-∈g/||g||₂

这样，由于加入噪声，对抗式训练在大小为N的训练集上的代价函数如下式所示：

通过随机梯度下降(stochastic gradient descent，SGD)算法进行训练，即可提高模型对对抗样本的分类能力。然而，如果不对此过程加任何限制，在训练过程中，为了达到加入噪声之后对分类结果影响不显著的训练目的，该模型会把原有词向量的数值无限扩大，以弱化噪声带来的影响，这就失去了对抗样本的意义。为了防止这一问题的出现，在每一步训练之后对词向量进行标准化，如下式所示：

其中，f_i为训练集中词汇v_i出现的频率。

至此，词向量得到了更新，对抗样本构造完成。

S6：经过多次迭代步骤S4-S5，得到分类模型(此时可以用测试集验证模型的分类效果)；然后使用分类模型识别网络评论文本的情感倾向。

迭代的终止条件是神经网络的损失函数的值小于一定值(这个常数是人为约定的)，理论上说：到达了局部最小点(收敛)。而对于机器学习或者深度学习模型，都有一个函数来表示预测结果与真实结果之间的误差，这个函数可以叫做代价函数、损失函数或误差函数，训练的目的就是通过调整参数让这个误差最小。迭代次数也并非固定，当损失函数(代价函数或误差函数等)基本不变了就终止迭代。迭代次数几十次到上千次不等。

参见图2，上述方法中使用的卷积神经网络模型，包括输入层、卷积层、池化层和分类层：

输入层被设置为：

给定一段文本S，其长度为|s|，

为句中第i个词的d维词向量，则文本S为：

其中，

为连接操作。

卷积层被设置为：

c_j＝f(FTv_j-m+1：j+b)

其中m为卷积滤波器的滑动窗口大小，v_j-m+1：j表示文本中第j-m+1个词到第j个词所对应的词向量，b为偏置项，f为ReLu函数。

池化层用于进行降采样；卷积神经网络模型，降采样使用为平均池化法进行，如下式：

或者，使用分段最大池化法进行降采样。该方法的思想为，按照每3个一段的方式把从卷积层提取的特征向量分为k段，分别取这k段中的最大值组合为最终的特征向量，这样可以最大程度保留原文本中词序位置等信息。实验发现，使用分段最大池化法可以有效提升最终的分类准确率。

表1池化法与分类准确率对照表

分类层被设置为：

将池化层得到的特征输入，按如下公式预测分类结果：

本发明采用了对抗式训练及分段最大池化法之后，CNN模型(卷积神经网络模型)的收敛速度更快了，图3中SST-1为五分类数据集，SST-2为二分类数据集，其中加“'”的是原CNN模型收敛曲线图。原CNN模型在两个数据集上，需要70-80次左右的迭代，而本发明提出的卷积神经网络模型只需要进行50-60次迭代即可收敛，而且效果更好。

综上可知，本发明通过用于文本情感倾向识别的神经网络模型对于对抗样本可以正确分类，从而提升了识别的准确度，解决了现有方法中对对抗样本误分类的问题。在训练神经网络模型时，对词向量也进行了更新，使得词向量的表意能力更强，解决了在现有方法使用的词向量表示下，某些反义词被误判为同义词的问题。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。