CN113191138B

CN113191138B - 一种基于am-cnn算法的自动文本情感分析方法

Info

Publication number: CN113191138B
Application number: CN202110526320.0A
Authority: CN
Inventors: 孙祥娥; 王文松
Original assignee: Yangtze University
Current assignee: Yangtze University
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2023-10-31
Anticipated expiration: 2041-05-14
Also published as: CN113191138A

Abstract

本发明公开了一种基于AM‑CNN算法的自动文本情感分析方法，步骤如下：一、爬取课程评价信息保存到MySQL数据库，并把数据导出到csv文件中；二、利用pandas库函数读取csv文件数据，并进行预处理和词向量转化；三、将转化后的词向量分为训练集一和测试集，将训练集一通过注意力机制生成训练集二；四、把各种训练集二分别送入到卷积神经网络，对各个注意力机制下的数据进行特征提取，池化层对数据矩阵的重要信息进行提取；五、合并层对池化后的数据进行整合，送入全连接层和输出层处理。本发明利用注意力机制处理数据集，然后利用CNN模型进行识别和数据融合，得到更好的文本识别结果，可以广泛应用于文本的情感分析领域。

Description

一种基于AM-CNN算法的自动文本情感分析方法

技术领域

本发明涉及文本的情感分析方面的研究，特别是涉及一种基于AM-CNN算法的自动文本情感分析方法。

背景技术

随着互联网技术的发展，在线教育已经成为学生们在课余时间充实自己的重要途径。而在学习过程中学生情绪的变化是授课者需要时刻关注的，通过该变化可以实时改善教学方式。

那么如何来把握学生的情绪变化呢？常用的方式是通过分析学生对课程评价的文本来获取相关信息。目前，对于文本分析的方法主要包括支持向量机、朴素贝叶斯、Kmeans聚类和神经网络等。但是，这些传统方法得到的数据形式存在高维度稀疏化、表征能力不强、特征间相互影响等问题，因此容易导致模型的收敛时间过长和文本分析效果较差。

发明内容

本发明的目的是为了克服上述背景技术的不足，提供一种基于AM-CNN算法的自动文本情感分析方法，使其利用多种不同角度的注意力机制对数据集进行处理，然后利用CNN模型进行识别和数据融合，最终得到更好的文本识别结果。

本发明提供的一种基于AM-CNN算法的自动文本情感分析方法，包括如下步骤：步骤一、利用scrapy框架爬取课程评价信息并保存到MySQL数据库中，并把数据库中的数据导出到csv文件中；步骤二、利用pandas库函数读取csv文件数据，并对csv文件数据进行预处理和词向量转化；步骤三、将转化后形成的词向量分为训练集一和测试集，将训练集一分别通过各种注意力机制生成相应的训练集二；步骤四、把各种训练集二分别送入到卷积神经网络，经过卷积层对各个注意力机制下的数据进行特征提取，再经过池化层对数据矩阵的重要信息进行提取；步骤五、添加合并层对各种训练集池化后的数据进行整合，将整合后的数据送入全连接层和输出层进行处理。

在上述技术方案中，所述步骤三中，包括三种注意力机制：全局注意力机制、位置注意力机制和词性注意力机制，三种注意力机制生成相应的训练集二，x_Set1、x_Set2和x_Set3。

在上述技术方案中，所述步骤四中，卷积层对三种注意力机制下的数据进行特征提取的过程分别如下：1、在全局注意力机制中，先初始化三个参数矩阵W^Q、W^K、W^V，将词向量矩阵分别与三个参数矩阵做卷积得到Q,K,V的值，然后利用公式(1)得到注意力机制转化后的全局向量矩阵，其中Q，K，V分别代表“查询”、“键”和“值”；d_k是缩放因子，数值等于K的维度；2、在位置注意力模型中，句子分词后，选定词语的附近词的权重由公式(2)进行计算得到，将文本向量与相应词的权重进行卷积得到位置向量矩阵，/>其中D_i表示前后词对该词的影响值，l_i表示前后词相对于当前词的位置，n表示一条文本中词的个数；3、在词性注意力模型中，利用SnowNLP中的情感词典对文本信息进行处理，得到情感词的得分，然后利用词向量与情感词之间的相似度得到词向量的权重矩阵，最后和原始词向量矩阵卷积操作得到词性向量矩阵。

在上述技术方案中，其特征在于：所述步骤二中，所述预处理具体过程如下：1、将句子文本进行分词处理；2、将特殊的字符与相关的停用词进行去除，删除的内容参考中文停用词表；3、将经过处理后的数据通过Word2Vec进行词向量转化；4、根据评价文本的评分标准进行标签处理，规定大于三星的评价文本情感为积极、等于三星的评价文本情感为中性和小于三星的评价文本情感为消极，其中在处理标签中的表示：0为消极、1为中性和2为积极。

在上述技术方案中，所述步骤二中，预处理过后的每条信息文本都以二元组的形式进行保存，其格式为：<文本数据矩阵，情感标签>。

在上述技术方案中，还包括步骤六、得到算法收敛后的模型，输入测试集进行测试，利用自定义文本进行识别。

在上述技术方案中，所述步骤六中，通过测试集数据进行验证算法收敛后模型的准确率、精确率、召回率与F1测度值的衡量指标，测试集数据在模型下采用二分类混淆矩阵形式，TP与TN分别表示真实样本为0的情况下，预测为0和1的样本个数，FP与FN分别真实样本为1的情况下，预测为0和1的样本个数，所述模型准确率的计算公式如式(3)所示，所述模型精确率的计算公式如式(4)所示、召回率的计算公式如式(5)所示、F1测度值计算公式如式(6)所示，具体公式如下：

在上述技术方案中，所述步骤四中，卷积层激活函数使用的是relu函数；所述步骤五中，全连接层对文本信息进行情感分析处理，最终在输出层输出三种情感状态的概率值，其中输出层选取的激活函数为softmax函数。

在上述技术方案中，所述步骤二的小节1中，采用Jieba分词将句子文本进行分词处理。

本发明基于AM-CNN算法的自动文本情感分析方法，具有以下有益效果：本发明对在线教育问题，提出了一种具有多特征融合的文本分析模型AM-CNN，该模型是利用多种注意力机制对原始数据进行预处理再经过CNN进行特征提取并融合，使得分析出结果更加完善。本发明验证了该模型在英文数据集下的实用性，并与传统的方法进行对比。通过实验的验证，很好的发现注意力机制可以改善CNN对全局信息处理不足的问题，不论集中中文还是英文数据都取得了较好的效果，对于研究文本信息处理又提供了一种有效的思路。

附图说明

图1为本发明基于AM-CNN算法的自动文本情感分析方法的流程示意图；

图2为本发明基于AM-CNN算法的自动文本情感分析方法中位置注意力模型实施例的单词位置关系示意图；

图3为本发明基于AM-CNN算法的自动文本情感分析方法中各个模块的结构框架示意图；

图4为本发明基于AM-CNN算法的自动文本情感分析方法中实施例的部分csv文件原始数据形式示意图；

图5为本发明基于AM-CNN算法的自动文本情感分析方法中实施例的二分类混淆矩阵模型示意图；

图6为本发明基于AM-CNN算法的自动文本情感分析方法的算法模型及其参数的演进示意图；

图7为本发明基于AM-CNN算法的自动文本情感分析方法中测试集的混淆矩阵示意图。

具体实施方式

下面结合附图及实施例对本发明作进一步的详细描述，但该实施例不应理解为对本发明的限制。

参见图1，本发明基于AM-CNN算法的自动文本情感分析方法，包括如下步骤：

S1、利用scrapy框架爬取课程评价信息并保存到MySQL数据库中；

S2、把数据库中的数据导出到csv文件中；

S3、利用pandas库函数对csv文件进行读取数据；

S4、对数据进行预处理、词向量转化；

S5、将转化后形成的词向量分为训练集和测试集；

S6、将训练集分别通过三种注意力机制生成相应的训练集，x_Set1、x_Set2和x_Set3；

S7、把三种训练集分别送入到卷积神经网络，经过卷积层对不同注意力机制下的数据进行特征提取，再经过池化层对数据矩阵的重要信息进行提取；

S8、添加合并层对三种训练集池化后的数据进行整合；

S9、将整合后的数据送入全连接层和输出层进行处理；

S10、得到算法收敛后的模型，输入测试集进行测试，利用自定义文本进行识别。

注意力机制从整体上来说又分为全局注意力和局部注意力两种方式。深度学习中的注意力机制模型从本质上来说和人类选择性注意力类似，核心原理都是从众多信息中找出所要关注的信息。

卷积层对三种注意力机制下的数据进行特征提取的过程分别如下：

1、句子可以看做由许多词组合而成，在全局注意力模型中，如果想要得到句子中词向量经过注意力转化后的形式，需要初始化三个参数矩阵W^Q、W^K、W^V，将词向量矩阵分别与三个参数矩阵做卷积得到Q,K,V的值，然后利用公式(1)可以得到注意力机制转化后的全局向量矩阵：

其中Q,K,V分别代表“查询”、“键”和“值”；d_k是缩放因子，数值等于K的维度，由于较大的d_k值会让分式值极小导致梯度消失，为了弥补这种影响，采用了的形式。

2、在位置注意力模型中，句子分词后的形式如图2所示。对于“仔细”分析得到，离该词较近的词对它的影响较大，所以附近词的权重可以由公式(2)进行计算得到，将文本向量与相应词的权重进行卷积可以得到位置向量矩阵：

其中D_i表示前后词对该词的影响值，l_i表示前后词相对于当前词的位置，n表示一条文本中词的个数。

3、在词性注意力模型中，利用SnowNLP中的情感词典对文本信息进行处理，得到情感词的得分，然后利用词向量与情感词之间的相似度得到词向量的权重矩阵，最后和原始词向量矩阵卷积操作得到词性向量矩阵。

参见图3，本文中的AM-CNN算法模型是将注意力机制与卷积神经网络相结合，构建文本信息的自动识别系统。并利用以下三种注意力机制对词向量进行处理，分别为：全局注意力机制、位置注意力机制与词性注意力机制。将初始文本向量分别通过三种注意力机制生成相应的训练集，x_Set1、x_Set2和x_Set3；把三种训练集分别送入到卷积神经网络，经过卷积层对不同注意力机制下的数据进行特征提取，再经过池化层对数据矩阵进行降维处理；添加合并层对三种训练集池化后的数据进行整合；将整合后的数据送入全连接层和输出层进行处理，最后得到分类结果。

本次实验的过程是在Windows操作系统下进行的，利用TensorFlow2.0框架进行构建网络模型，其中电脑内存大小为8G，python的版本使用的是Python3.7，集成开发环境是在Pycharm2019.1.1上进行的。

本实验测试中的原始数据是利用Scrapy框架爬取自中国大学MOOC网上的《大数据技术原理与应用》课程评价信息文本和对文本的评分，Scrapy是适用于Python的一个快速的Web抓取框架，通过对Web页面的解析来提取网页上的数据信息。将抓取的数据保存到csv文件中，留作备用，其数据形式如图4所示。原始数据需要经过预处理操作，其步骤为：将句子文本进行分词处理，本文的实验中分词技术是采用Jieba分词；将特殊的字符与相关的停用词进行去除，删除的内容具体可参考中文停用词表；将经过处理后的数据通过Word2Vec进行词向量转化；根据评价文本的评分标准进行标签处理，规定大于三星的评价文本情感为积极、等于三星的评价文本情感为中性和小于三星的评价文本情感为消极，其中在程序中的表示：0为消极、1为中性和2为积极。预处理过后的每条信息文本都以二元组的形式进行保存，其格式为：<文本数据矩阵，情感标签>。通过整理和修改得到可用数据集有10000条，其中数据集中相应标签的比例为0:1:2＝10％:75％:15％。

将词向量转化后的数据分为测试集和训练集，并按照标签的比例进行等比例拆分。将训练集送入AM-CNN模型中进行训练，直到模型收敛，训练结束。通过测试集数据进行验证该模型的准确率、精确率、召回率与F1测度值等衡量指标。测试集数据在模型下的二分类混淆矩阵形式如图5所示，主对角线中表示正确分类下预测为正确的情况，其他都是为预测错误的情况。

TP与TN分别表示真实样本为0的情况下，预测为0和1的样本个数，FP与FN分别真实样本为1的情况下，预测为0和1的样本个数。，其准确率的计算公式如式(3)所示、精确率的计算公式如式(4)所示、召回率的计算公式如式(5)所示、F1测度值计算公式如式(6)所示：

本算法模型建模过程主要基于TensorFlow2.0的深度学习框架，对于分词后的词向量矩阵进行注意力机制操作，实现对词向量的再次处理，生成三种特征的训练集，分别为：x_Set1、x_Set2和x_Set3。算法模型的代码实现过程中，包括了对词向量的处理、池化窗的设置、词向量的合并等操作，图6为该算法模型的图例，该模块的操作是对注意力机制处理后的词向量进行卷积和池化操作，其中卷积层激活函数使用的是relu函数；对三种训练词向量在合并层进行特征融合；最后经过全连接层进行对文本信息的情感分析处理，最终在输出层输出三种情感状态的概率值，其中在输出层选取的激活函数为softmax函数。

本实例中采用数据是爬取自中国大学MOOC网上的课程评价信息，通过数据预处理、分词与词向量转化变化模型可接受的矩阵向量，把训练集数据送入以上AM-CNN模型中进行训练，直到模型收敛。通过测试数据集对收敛模型进行验证，其相关衡量指标的结果如下表1所示，对于课程评价文本信息的预测结果的混淆矩阵如图7所示。从该模型的混淆矩阵中可以了解到，对于评价信息的中性文本识别率较高，这是由于模型在训练的过程中中性文本数据较多，可以很好的抽取相关特征，而其他两种数据较少，识别率较低。

表1AM-CNN模型在测试集中的指标

为了验证该模型是否可用，自定义文本信息通过模型进行预测文本的标签，与人为想法是否相同进行验证，文本信息分别为：

1、这个课程太啰嗦。

2、这个老师讲了好多无用的东西。

3、讲的还可以吧，能接受

4、一节一节的课程，收获挺多

5、这个老师讲的思路很清晰，我能很快的理解。

对于以上5条文本信息通过模型进行预测，得到的结果如表2所示。

表2自定义文本预测结果表

从以上结果图可以看出，对于5条自定义文本来说，其效果是明显的，结果也比较符合人们的预期。为了验证了AM-CNN模型的有效性，利用三种注意力机制相互组合与CNN结合对评价文本数据集做分析，同时将该课程评价文本数据集在SVM、CNN、LSTM、TextCNN和Self-Att上的训练和测试，其结果如下表3所示。

通过以上实例模型的搭建及表2结果分析可知，对于评价文本信息的情感分析识别问题，本文中所提出的模型的效果是比较明显的。基于卷积神经网络与注意力机制相结合的模型优于传统的机器学习算法SVM、常规的卷积神经网络、改进后的循环神经网络LSTM、TextCNN和自注意力机制实现的网络。对于网络慕课数据集来说，AM-CNN模型的整体精确率达到了86.14％，相比于Self-Att模型的准确率提高了1.75％、召回率提高了0.13％和F1测度值提高了1.53％。

为了验证该模型是否在公开的数据集有效，选择SemEval数据集作为对比要素，所述SemEval数据集是2017年一次语义评测的比赛数据集，语种类别为英文，共有20632条数据，其中包括了三种情感状态，分别为：positive(7059条)、negative(3231条)、neutral(10342条)。将该数据集利用同表3中所用的模型进行训练和测试，其结果如下表4所示。

从表3可知，本文提出AM-CNN模型在SemEval数据集上在精确率、召回率和F1测度上都取得较好的效果，相比于TextCNN在精确率上提高2.24％、召回率提高2.78％和F1测度提高了2.51％；相比Self-Att在精确率上提高0.92％、召回率提高1.06％和F1测度提高了0.99％。同时对比发现英文数据比中文数据更容易进行文本分析，这是由于英文的分词的处理易实现、歧义性较小，同时句子中的符号比较规范。

本文是针对在线教育问题展开研究，提出了一种多特征下融合的文本分析模型AM-CNN，该模型是利用多种注意力机制对原始数据进行预处理再经过CNN进行特征提取并融合，使得分析出结果更加完善。本次实验同时也验证了该模型在英文数据集下的实用性，并与传统的方法进行对比。通过实验的验证，很好的发现注意力机制可以改善CNN对全局信息处理不足的问题，不论中文还是英文数据集中都取得了较好的效果，对于研究文本信息处理又提供了一种有效的处理方式。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于AM-CNN算法的自动文本情感分析方法，其特征在于：包括如下步骤：

步骤一、利用scrapy框架爬取课程评价信息并保存到MySQL数据库中，并把数据库中的数据导出到csv文件中；

步骤二、利用pandas库函数读取csv文件数据，并对csv文件数据进行预处理和词向量转化；

步骤三、将转化后形成的词向量分为训练集一和测试集，将训练集一分别通过各种注意力机制生成相应的训练集二；

步骤四、把各种训练集二分别送入到卷积神经网络，经过卷积层对各个注意力机制下的数据进行特征提取，再经过池化层对数据矩阵的重要信息进行提取；

步骤五、添加合并层对各种训练集池化后的数据进行整合，将整合后的数据送入全连接层和输出层进行处理；

所述步骤三中，包括三种注意力机制：全局注意力机制、位置注意力机制和词性注意力机制，三种注意力机制生成相应的训练集二，x_Set1、x_Set2和x_Set3；

所述步骤四中，卷积层对三种注意力机制下的数据进行特征提取的过程分别如下：

在全局注意力机制中，先初始化三个参数矩阵，将词向量矩阵分别与三个参数矩阵做卷积得到/>的值，然后利用公式（1）得到注意力机制转化后的全局向量矩阵，

（1），

其中Q，K，V分别代表“查询”、“键”和“值”；是缩放因子，数值等于K的维度；

在位置注意力模型中，句子分词后，选定词语的附近词的权重由公式（2）进行计算得到，将文本向量与相应词的权重进行卷积得到位置向量矩阵，

（2），

其中表示前后词对当前词的影响值，/>表示前后词相对于当前词的位置，n表示一条文本中词的个数；

在词性注意力模型中，利用SnowNLP中的情感词典对文本信息进行处理，得到情感词的得分，然后利用词向量与情感词之间的相似度得到词向量的权重矩阵，最后和原始词向量矩阵卷积操作得到词性向量矩阵；

所述步骤二中，所述预处理具体过程如下：

将句子文本进行分词处理；

将特殊的字符与相关的停用词进行去除，删除的内容参考中文停用词表；

将经过处理后的数据通过Word2Vec进行词向量转化；

根据评价文本的评分标准进行标签处理，规定大于三星的评价文本情感为积极、等于三星的评价文本情感为中性和小于三星的评价文本情感为消极，其中在处理标签中的表示：0为消极、1为中性和2为积极；

所述步骤二中，预处理过后的每条信息文本都以二元组的形式进行保存，其格式为：<文本数据矩阵，情感标签>；

还包括步骤六、得到算法收敛后的模型，输入测试集进行测试，利用自定义文本进行识别；

所述步骤六中，通过测试集数据进行验证算法收敛后模型的准确率、精确率、召回率与F1测度值的衡量指标，测试集数据在模型下采用二分类混淆矩阵形式，

TP与TN分别表示真实样本为0的情况下，预测为0和1的样本个数，FP与FN分别表示真实样本为1的情况下，预测为0和1的样本个数，所述模型准确率的计算公式如式（3）所示，所述模型精确率的计算公式如式（4）所示、召回率的计算公式如式（5）所示、F1测度值计算公式如式（6）所示，具体公式如下：

（3），

（4），

（5），

（6）。

2.根据权利要求1所述的基于AM-CNN算法的自动文本情感分析方法，其特征在于：所述步骤四中，卷积层激活函数使用relu函数；所述步骤五中，全连接层对文本信息进行情感分析处理，最终在输出层输出三种情感状态的概率值，其中输出层选取的激活函数为softmax函数。

3.根据权利要求2所述的基于AM-CNN算法的自动文本情感分析方法，其特征在于：所述步骤二中，采用Jieba分词将句子文本进行分词处理。