CN110489523B

CN110489523B - 一种基于网购评价的细粒度情感分析方法

Info

Publication number: CN110489523B
Application number: CN201910702075.7A
Authority: CN
Inventors: 缪亚林; 张阳; 程文芳; 刘学敏; 姬怡纯; 孔艳龙
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2021-12-17
Anticipated expiration: 2039-07-31
Also published as: CN110489523A

Abstract

本发明公开的一种基于网购评价的细粒度情感分析方法，其特征在于，包括以下步骤：步骤1：网购评价数据集的采集；步骤2：网购评价数据的预处理；步骤3：确定最终的实验数据并划分数据集；步骤4：采用字向量进行文本的训练；步骤5：建立BiLSTM‑CRF改进模型，输入字向量和词语位置结合的特征；步骤6：训练BiLSTM‑CRF改进模型并进行情感分析。本发明的目的在于提供一种基于网购评价的细粒度情感分析方法，提升了情感分析的准确率，方便了用户对产品属性的直观、快速和准确判断。

Description

一种基于网购评价的细粒度情感分析方法

技术领域

本发明属于文本情感分析技术领域，具体涉及一种基于网购评价的细粒度情感分析方法。

背景技术

目前，网络购物已经成为人们的主要购物方式之一，对用户的网购评论进行分析具有学术价值和商业价值。各大电商平台的网购评价存在两大问题：一方面，电商平台的网购评价是按照消费者自主选择的“好评”、“中评”和“差评”，或者“一星”到“五星”进行分类，但这并不能满足消费者和商家的需求；另一方面，伴随着网购用户的增加，网购评价呈现爆炸式增长趋势，消费者不可能一条一条去阅读网购评价获取信息，这样浪费时间且效率低，商家也不可能花费大量的人力去整理分析海量的网购评价。

情感分析主要分为两类：一类是粗粒度情感分析，也就是判断篇章或句子的整体情感，例如电商网站评价的“好评”、“中评”和“差评”标签；另一类是细粒度情感分析，侧重于属性级或者词语的角度判断其情感态度，例如“手机外观很漂亮，电池不耐用”这句评论。

粗粒度情感分析只给出一整句话的情感极性是没有参考价值的，甚至还可能会误导消费者，而对网购评价采用细粒度情感分析，获取产品各属性对应的情感极性，不仅能为消费者进行商品购买决策时提供支持，而且对商家收集产品建议有很大帮助。通过对网购评价数据进行细粒度情感分析，研究产品评价中属性词与情感词的联合抽取模型。该模型不仅提高了属性词与情感词抽取的准确率，而且为产品属性分析提供了便利，具有重要的研究意义和实用价值。

发明内容

本发明的目的在于提供一种基于网购评价的细粒度情感分析方法，提升了情感分析的准确率，方便了用户对产品属性的直观、快速和准确判断。

本发明所采用的技术方案是：一种基于网购评价的细粒度情感分析方法，包括以下步骤：

步骤1：网购评价数据集的采集；

步骤2：网购评价数据的预处理；

步骤3：确定最终的实验数据并划分数据集；

步骤4：采用字向量进行文本的训练；

步骤5：建立BiLSTM-CRF改进模型，输入字向量和词语位置结合的特征；

步骤6：训练BiLSTM-CRF改进模型并进行情感分析。

本发明的特点还在于，

步骤1使用Python语言从网购平台网页HTML标签抓取数据，具体包括：

步骤1.1：打开网购平台网站需要爬取的网页文件，分析页面结构，获取url参数，找到url参数数值大小变化的规律；

步骤1.2：打开对应的网页获取到网络地址url，找到网页源代码中的评论数据，然后采用requests的get方法发送网页访问请求，接收到的Response里包含了网页数据，采用BeautifulSoup解析数据，获得只包含评论数据的数据包；

步骤1.3：采用python的正则表达式模块：re模块的findall方法对网页数据进行筛选，获得需要的数据；

步骤1.4：存储数据为txt文本。

步骤2具体包括：

步骤2.1：语料库的构建

结合产品评价属性级别情感分析的需求，制定四要素标注体系，定义如下：

Model＝{Sentence,Aspect,Emotion,Polarity} (1)

式(1)中：Sentence表示原始的评论句子；Aspect表示句子中的属性词，若有多个属性词用英文的分号隔开；Emotion表示句子中的情感词；Polarity表示是情感词的极性判断，分为正面、中立和负面，取值为(1,0,-1)；

步骤2.2：实验数据处理

步骤2.2.1：使用{B,I,O}方式进行序列标注，其中B表示目标词汇的开始，I表示目标词汇的剩余部分，O表示不属于目标词汇的其它词汇；具体的标注定义如下表1所示：

表1实验数据标注定义

步骤2.2.2：对评论语料的句子进行停用词处理，包括去除标点符号、英文字符和数字等其它非中文符号；

步骤2.2.3：分别判断句子中的每个字属于属性词还是情感词，如果是属性词，继续判断改字是否属于属性词的第一个字，如果成立，则将改字标注为B-ASP；如果是情感词再根据“sentiment_anls-情感正负面”列的数据，将情感词直接标定为对应的极性标签。

步骤3中通过去重和无关评论筛选，确定最终的实验数据，并按照6:2:2的比例进行训练集、验证集和测试集的划分。

步骤4具体包括：

步骤4.1：采用维基百科和手机领域的评价数据作为训练语料；

步骤4.2：将训练语料中的所有字建立一个查找表，查找表是一个数字序列，每个字对应一个序列编号；

步骤4.3：采用Gensim里的CBOW模型进行训练，训练参数如下表2所示；

表2字向量训练参数

步骤4.4：将训练好的向量初始化查找表。

步骤5的BiLSTM-CRF改进模型第一层是输入层，第二层是双向LSTM层，第三层是CRF层，具体步骤为：

步骤5.1：首先将步骤2.2.1中标签信息总结定义为如式(2)所示，然后将式(2)标签信息采用数字的形式进行标识，如式(3)所示；再将文本序列进行分词后，提取词语的位置信息；最后将向量、标签信息标识、词语位置信息共同输入BiLSTM-CRF改进模型；

{O,B-ASP,I-ASP,B-POS,I-POS,B-NEG,I-NEG,B-ZER,I-ZER} (2)

步骤5.2：自动提取句子特征，向量序(x₁,x₂,…,x_n)列是双向LSTM的输入，将正向LSTM的输出序列

与反向LSTM的输出序列

按位置进行拼接

得到完整的序列，再设置dropout后，接入一个线性层，将序列进行维度转换后为提取的句子特征，记作矩阵P＝(p₁,p₂,…,p_n)，p_i中的每一维p_ij代表将字x_i分类到第j个标签的非归一化概率；

步骤5.3：进行句子级的序列标注，CRF层存在一个转移矩阵A，A_ij代表标签i转移到标签j的转移概率，对于一个输入序列x＝(x₁,x₂,…,x_n)对应的预测标签序列y＝(y₁,y₂,…,y_n)，预测得分的计算如下：

由式(4)可知整个序列的预测得分等于各个位置的得分之和，并且由双向LSTM层的输出矩阵和CRF的转移矩阵决定，对其进行归一化后的概率：

模型训练时通过最大似然估计得到最优标注序列，公式如(6)所示：

模型在预测过程使用动态的Viterbi算法求解最优路径如式(7)所示：

步骤6具体包括：采用Adam算法使模型收敛和对参数进行更新，同时在训练网络的每个节点引入Dropout；训练过程中使用Adma优化算法进行网络参数的优化，其中β₁＝0.9，利用Adam算法对参数进行更新，通过不断地参数调节，将模型的学习率设置为lr＝0.001，批处理的样本数设置为batch_siz＝20.0，随机抽取训练节点占总节点的数目设置为dropout_keep＝0.5，使用预训练向量设置为pre_emb＝false；根据迭代次数遍历整个训练样本集，保存训练好的网络模型的结构及参数；此后如步骤5.2向每个节点引入Dropout。

本发明的有益效果是：本发明一种基于网购评价的细粒度情感分析方法，针对目前没有中文细粒度情感分析语料库的问题，构建了一个高质量的网购评价细粒度情感分析语料库。并把BiLSTM-CRF模型的从字向量或者词向量输入转变为采用字向量与词语位置特征结合的方式输入，使输入层含有更丰富的语义信息。

附图说明

图1是本发明一种基于网购评价的细粒度情感分析方法的序列标注数据处理算法图；

图2是本发明一种基于网购评价的细粒度情感分析方法中字向量与词语位置信息的BiLSTM-CRF序列标注模型图。

具体实施方式

下面结合附图以及具体实施方式对本发明进行详细说明。

本发明提供了一种基于网购评价的细粒度情感分析方法，如图1和图2所示，包括以下步骤：

1、网购评价数据集的采集

本发明使用Python语言从京东商城网页HTML标签抓取数据，主要包括：

(1)打开京东商城网站需要爬取的网页文件，分析页面结构，获取url参数，找到url中参数数值大小变化的规律。

(2)打开对应的网页获取到网络地址(url)，找到网页源代码中的评论数据，然后采用requests的get方法发送网页访问请求，接收到的Response里包含了网页数据，采用BeautifulSoup解析数据，获得只包含评论数据的数据包。

(3)采用python的正则表达式模块：re模块的findall方法对网页数据进行筛选，获得需要的数据。

(4)存储数据为txt文本。

2、网购评价数据的预处理

(1)语料库的构建：本发明结合了产品评价属性级别情感分析的需求，制定了四要素标注体系，定义如下：

Model＝{Sentence,Aspect,Emotion,Polarity} (1)

等式(1)：Sentence表示原始的评论句子；Aspect表示句子中的属性词，若有多个属性词用英文的分号隔开；Emotion表示句子中的情感词；Polarity表示是情感词的极性判断，分为正面、中立和负面，取值为(1,0,-1)。

(2)实验数据处理

本发明使用{B,I,O}方式进行序列标注。其中B表示目标词汇的开始，I表示目标词汇的剩余部分，O表示不属于目标词汇的其它词汇。具体的标注定义如表1所示。数据处理过程是先对评论语料的句子进行停用词处理，包括去除标点符号、英文字符和数字等其它非中文符号，再分别判断句子中的每个字属于属性词还是情感词。如果是属性词，继续判断改字是否属于属性词的第一个字，如果成立，则将改字标注为B-ASP。如果是情感词再根据“sentiment_anls-情感正负面”列的数据，将情感词直接标定为对应的极性标签。数据处理算法流程如图1。

表1实验数据标注定义

3、数据集的划分

网购评价存在刷评论和一些对产品评论无关的言论，通过去重和无关评论筛选，确定最终的实验数据。按照6:2:2的比例进行训练集、验证集和测试集的划分。

4、字向量训练

(1)采用维基百科和手机领域的评价数据作为训练语料。

(2)将训练语料中的所有字建立一个查找表，查找表是一个数字序列，每个字对应一个序列编号

(3)采用Gensim里的CBOW模型进行训练，训练参数如表2所示。

(4)将训练好的向量初始化查找表。

表2字向量训练参数

5、模型的建立

本发明以字向量和词语位置特征结合的方式作为模型的第一层即输入层，第二层是双向LSTM层，第三层是CRF层。

由于模型无法直接处理文字序列，所有的输入都需要处理成对应的标识。本发明的训练数据由汉字和对应的标签信息两部分组成，因此不仅需要将汉字转化为向量，同时也要将标签信息转化为特定的标识；然后再将文本序列进行分词后，提取词语的位置信息；最后将向量、标签信息标识、词语位置信息作为共同的输入。

汉字到向量的转化采用4中的方法将字转换为字向量，标签信息根据表1的实验数据标注定义总结如下：

{O,B-ASP,I-ASP,B-POS,I-POS,B-NEG,I-NEG,B-ZER,I-ZER} (2)

将式(1)的标签信息采用数字的形式进行标识，定义如下：

词语位置特征通过将句子进行分词后，判断分词后每个部分的长度。如果长度为1，则该部分为单个字，将其用数字“0”进行标识；如果长度大于1，则该部分是词语，将词语的第一个字用数字“1”标识，最后一个字用数字“3”标识，其余部分用数字“2”标识。

模型的第二层是双向LSTM层，自动提取句子特征。向量序(x₁,x₂,…,x_n)列是双向LSTM的输入，将正向LSTM的输出序列

与反向LSTM的输出序列

按位置进行拼接

得到完整的序列，再设置dropout后，接入一个线性层，将序列进行维度转换后为提取的句子特征，记作矩阵P＝(p₁,p₂,…,p_n)，p_i中的每一维p_ij代表将字x_i分类到第j个标签的非归一化概率。

模型的第三层是CRF层，进行句子级的序列标注。CRF层存在一个转移矩阵A，A_ij代表标签i转移到标签j的转移概率。对于一个输入序列x＝(x₁,x₂,…,x_n)对应的预测标签序列y＝(y₁,y₂,…,y_n)，预测得分的计算如下：

由等式(4)可知整个序列的预测得分等于各个位置的得分之和，并且由双向LSTM层的输出矩阵和CRF的转移矩阵决定，对其进行归一化后的概率：

模型训练时通过最大似然估计得到最优标注序列，公式如下：

模型在预测过程使用动态的Viterbi算法求解最优路径如等式(7)所示：

6、模型训练

本发明采用Adam算法使模型收敛和对参数进行更新。利用Adam算法对参数进行更新，通过不断地参数调节，将模型的学习率设置为lr＝0.001，批处理的样本数设置为batch_siz＝20.0，随机抽取训练节点占总节点的数目设置为dropout_keep＝0.5，使用预训练向量设置为pre_emb＝false。根据迭代次数遍历整个训练样本集，保存训练好的网络模型的结构及参数。同时为了防止过拟合，在训练网络的每个节点引入Dropout，即在每个训练批次的前向传播过程中，通过随机让一定概率的隐藏层节点的权重不工作，工作的隐藏层节点进行参数的更新，不工作的节点的权重暂时不更新，下一个训练批次时这些不工作节点可能又工作了，而其他的工作的节点可能进入到不工作的状态，这种方法使模型不会太依赖某些局部的特征，以防模型在训练数据上预测准确率较高，而在测试数据预测准确率较低的情况，提高模型的泛化能力。

结果分析

实验一：字向量维度的实验。为了验证向量维度对细粒度情感分析结果的影响，本实验在改进后的BiLSTM-CRF模型的基础上，将输入的字向量维度分别从100维、150维和200维进行实验，实验结果如表3所示：

表3不同维度的字向量实验结果

由表3的实验结果可知，当字向量的维度从100维增加到200维时，模型的精确率、召回率和F值呈小幅度的下降趋势，其中精确率下降1.29％，召回率下降3.11％，F值下降2.21％。其下降的原因可能是网购评价语料里的评论语句长度的问题。

实验二：改进前的BiLSTM-CRF模型与改进后的BiLSTM-CRF模型对比实验。改进前的BiLSTM-CRF模型的输入是100维的字向量，改进后的BiLSTM-CRF模型的输入是100维字向量与词语位置特征结合，两个模型的实验结果如下：

表4模型改进前后对比实验结果

由表4可知，改进后的BiLSTM-CRF模型比改进前的BiLSTM-CRF模型在精确率、召回率和F值上分别提高了1.28％、0.24％和0.75％。改进后的模型比改进前的模型的输入增加了一个词语位置特征，词语位置特征不仅解决了词向量存在的未登录词问题，而且增加了字向量的词语语义特性，相较于单独的字向量具有一定的优势。

实验三：不同模型的对比实验。将相同的数据分别在CRF模型、BiLSTM模型和改进后的BiLSTM-CRF模型进行实验，实验结果如表5所示：

表5不同模型的实验结果

表5里的ASP、POS、NEG、ZER和ALL分别代表属性词、极性为正的情感词、极性为负的情感词、极性中立的情感词和上述四类词语的整体抽取情况。对于属性词抽取，改进后的BiLSTM-CRF比BiLSTM、CRF模型F值分别提高了6.7％、10.54％；对于极性为正的情感词抽取，改进后的BiLSTM-CRF比BiLSTM、CRF模型F值分别提高了5.63％、14.07％；对于极性为负的情感词抽取，改进后的BiLSTM-CRF比BiLSTM、CRF模型F值分别提高了13.26％、34.73％；对于极性中立的情感词抽取，改进后的BiLSTM-CRF比BiLSTM、CRF模型F值分别提高了8.15％、49.98％。

Claims

1.一种基于网购评价的细粒度情感分析方法，其特征在于，包括以下步骤：

步骤1：网购评价数据集的采集；

步骤2：网购评价数据的预处理；

步骤3：确定最终的实验数据并划分数据集；

步骤4：采用字向量进行文本的训练；

步骤6：训练BiLSTM-CRF改进模型并进行情感分析；

步骤1.4：存储数据为txt文本；

步骤2具体包括：

步骤2.1：语料库的构建

Model＝{Sentence,Aspect,Emotion,Polarity} (1)

步骤2.2：实验数据处理

步骤2.2.1：使用{B,I,O}方式进行序列标注，其中B表示目标词汇的开始，I表示目标词汇的剩余部分，O表示不属于目标词汇的其它词汇；具体的标注定义如所示，标注类型及其具体含义分别为：B-ASP为属性词的第一个字、I-ASP为剩余的属性词、B-POS为极性为正的情感词的第一个字、I-POS为剩余的正面情感词、B-NEG为极性为负的情感词的第一个字、I-NEG为剩余的负面情感词、B-ZER为极性为中立的情感词的第一个字、I-ZER为剩余的中立情感词、O为不属于上述任何情况的字；

步骤2.2.2：对评论语料的句子进行停用词处理，包括去除标点符号、英文字符和数字及其它非中文符号；

步骤2.2.3：分别判断句子中的每个字属于属性词还是情感词，如果是属性词，继续判断该字是否属于属性词的第一个字，如果成立，则将该字标注为B-ASP；如果是情感词再根据“sentiment_anls-情感正负面”列的数据，将情感词直接标定为对应的极性标签；

步骤3中通过去重和无关评论筛选，确定最终的实验数据，并按照6:2:2的比例进行训练集、验证集和测试集的划分；

步骤4具体包括：

步骤4.3：采用Gensim里的CBOW模型进行训练，训练参数如下所示，训练参数及其取值和相应的意义分别为：size-100-向量维度、window-5-窗口大小、sg-0-CBOW模型、min_count-5-词频低于该值丢弃、batch_words-10000-每一批的单词数量；

步骤4.4：将训练好的向量初始化查找表；

步骤5.1：首先将步骤2.2.1中标注信息总结定义为如式(2)所示，然后将式(2)标注信息采用数字的形式进行标识，如式(3)所示；再将文本序列进行分词后，提取词语的位置信息；最后将字向量、标注信息标识、词语位置信息共同输入BiLSTM-CRF改进模型；

{O,B-ASP,I-ASP,B-POS,I-POS,B-NEG,I-NEG,B-ZER,I-ZER} (2)