CN107544957A

CN107544957A - 一种面向商品目标词的情感倾向分析方法

Info

Publication number: CN107544957A
Application number: CN201710543480.XA
Authority: CN
Inventors: 何慧; 冷永才; 胡然; 焦润海; 张莹
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2017-07-05
Filing date: 2017-07-05
Publication date: 2018-01-05

Abstract

本发明公开了属于网购商品评论的分析处理领域的一种面向商品目标词的情感倾向分析方法。包括四个步骤，1，语料预处理，将数据集进行分词，把类别标签按照类别个数转换成向量形式；2，词向量训练，把分词后评论数据通过CBOW模型训练得到词向量；3，神经网络结构，使用LSTM网络模型结构使网络注重整句内容；4，评论句情感分类，将神经网络输出作为Softmax函数的输入，得到最后结果。本发明在语义空间中语义刻画更准确；通过使用神经网络来训练数据优化神经网络中的权重和偏置参数，经过不断的迭代之后训练的参数使得损失值达到最小，此时使用这些训练后的参数来对测试集进行预测，这样能够得到更高的准确率。

Description

一种面向商品目标词的情感倾向分析方法

技术领域

本发明属于网购商品评论的分析处理领域，特别涉及一种面向商品目标词的情感倾向分析方法。

背景技术

随着互联网的不断发展及电子商务的普及，越来越多的消费者开始在电子商务相关网站上发表自己对相关商品的评论，并且消费者们也开始习惯在购买商品前查看电子商务上他人的对该商品的评论。但由于用户的个人喜好以及个人关注点的不同，其评论往往有很大的差别，而且用户经常在一条评论中表达出对产品多个属性的观点，另外商品评论一般都是大量出现的，想要人工从这些评论中找到自己关注的内容费时费力。互联网快捷、方便的特性，以及强大的交互能力，为人们交流思想、阐明观点、发表意见提供了新的平台。

消费者们在购买前往往会参考网络上的评论信息，这些评论信息具有多种行业、多属性、多方位评价等特点。多行业是指目前在互联网电商经营的商品种类是多种多样的，如家电、手机、汽车、生活用品、餐饮、教育等等。多属性指对于每个商品都包含多方面的属性，以手机为例包括屏幕、电池、尺寸、颜色、价格等。多方位评价指对于同一种含义有多种表达方式，如对于“手机外观漂亮”的说法有“外观漂亮”、“外观大气”、“外观不错”、“外形高大上”等等。

可以参考：(1)申请号CN201310198515.2，名称为网购评论的分析处理方法；(2)申请号CN201610323743.1，名称为一种购物评论情感分析中基于词性标注的词典构建方法的中国专利；商品评论的情感倾向性主要是依据该评论句中出现该商品的某些属性，这些属性的表达对该商品的情感分类起到重要的因素，我们将这些属性看作是目标词。目前，对于商品评论的情感分类的方法主要是抽取评论句中的某些观点词和特征词，然后通过某种分类算法对商品评论的情感倾向进行判断。针对商品评论数据，按照上述的方法处理，存在着不足之处，对于商品评论的数据来说，一般不会太长，上述方法仅利用评论中的观点词和特征词。例如以手机评论：“这款手机样式挺新颖，分辨率高，我很满意，就是容易死机很讨厌”，此句评论中出现的的观点词正面的有三个，而负面的有一个，按照观点词的数量就会把该评论句分为“正面”，但是在我们人脑读取这句话的时候就会把侧重点放在最后一个观点词“死机很讨厌”，就可能会分到“负面”的类别中，因此语序、前后词之间的关系对情感分类具有非常重要的作用。因此，这些方法不能很好的对商品评论的进行情感倾向性分析。

发明内容

本发明的目的是提出一种面向商品目标词的情感倾向分析方法，其特征在于，包括步骤如下：

步骤1，语料预处理，将数据集进行分词，将每个句子分割成两个句子，把类别标签按照类别个数转换成向量形式；

步骤2，词向量训练，把分词后评论数据通过CBOW模型训练得到词向量；

步骤3，神经网络结构，使用LSTM网络模型结构使网络注重整句内容，上下文之间语义；

步骤4，评论句情感分类，将神经网络输出作为Softmax函数的输入，得到最后结果，

所述步骤1语料预处理，在数据集中每个完整的数据由三行组成，第一行是评论数据，其中每个评论数据中都有一个“$”符号，该符号代表此句的目标词，第二行是该评论的目标词(target words)，该目标词可以是一个或者多个词，第三行是评论的类别标签，即0、1、2分别代表负面、中立、正面。把第一行评论中的“$”换成第二行的评论目标词，然后将每个完整的评论句准确切割为一个个词或者词语，即分词：按照目标词的最后一个词在评论句中的位置把句子分成两个部分，即目标词之前的句子，目标词之后的句子，在神经网络中将分别处理这两个句子；对于每个类别标签需要转换成三维的向量，即0转换为[1 0 0],1转换为[0 1 0]，2转换为[0 0 1]；在此转换成向量的目的是为了通过训练后得到每个句子的标签具有相同结构，然后进行对比得到误差，即可计算准确率。

所述步骤2词向量训练，利用CBOW(Continuous Bag-of-Words Model)对文本评论语料分词后得到的词语训练，得到每个词所对应的向量，该向量的维度可根据需要进行设置；使用CBOW模型训练的词向量是稠密、实值向量，CBOW模型使用大量无标注数据得到的词语在语义空间中语义刻画更准确，即语义空间上相近的词语逻辑结构中也相近，同时，可避免传统的读热表示的稀疏、维度灾难的不足；

所述步骤2词向量训练中向量的维度可根据需要进行设置其基本思想和步骤如下：语言模型形式的描述就是给定一个T个词的字符串S，看它是自然语言的概率P(w₁,w₂,w₃,…,w_T),w₁到w_T依次表示这句话中的各个词，即以下推理P(s)＝P(w₁,w₂,…,w_T)＝P(w₁)P(w₂|w₁)P(w₃|w₁,w₂)…P(w_T|w₁,w₂,w₃,…,w_T-1)

与此同时可以分别求出每个概率；将上式简化为：

当Context_i为空时，就是它自己P(w)。

对于词典中的任意词w，Huffman树中比存在一条从根节点到词w对应节点的路径p^w(且这条路径是唯一的)。路径p^w上存在l^w-1个分支，将每个分支看做一次二分类，没一次分类就产生一个概率，将这些概率乘起来就是所需要的P(w|Context(w))。

条件概率P(w|Context(w))一般公式写成：

其中：

根据上式整理合并可得：

基于神经网络的语言模型的目标函数通常取为如下对数似然函数：

将P(w|Context(w))代入Γ对数似然函数可得：

为了方便梯度推导，将上式双重求和括号里面的内容记作Γ(w,j)即：

此时上式Γ则是CBOW模型的目标函数，接下来就是对目标函数进行优化，对于word2vec采用的是随机梯度上升法，即求目标函数的最大化。

随机梯度上升法的思想是：每取一个样本(Context(w),w)就对目标函数中的所有参数做一次刷新，在此先给出Γ(w,j)关于这些向量的梯度。

首先给出Γ(w，j)关于的梯度计算，即对进行求导：

于是，对的更新公式可写为：

其中，η表示学习率。

其次计算Γ(w,j)关于X_w的梯度，仔细观察Γ(w,j)可得与X_w是对称的，所以求导同上：

最终的目的是要求词典中的每个词的词向量，而这里的X_w表示Context(w)中各个词向量的累加，则利用来对进行更新：

即贡献到Context(w)中的每一个词向量上，在此采用的是平价贡献，所以既而可以求出所需要的每个词的词向量。

所述步骤3神经网络结构，使用长短时记忆LSTM(Long Short Time Memory)

将带有情感标签的语料作为训练集，经过步骤1处理后，得到由一个商品评论句子根据句中的目标词，将评论句分割成两个短句子，即目标词之前句子和目标词之后句子，对于目标词之前句子来说，从最后一个目标词的位子开始到第一个词，然后再从第一个词到目标词的最后一个词连接重新组合成一个新的句子，这样对于目标词之前的句子来说其长度变成原来的2倍，对于目标词之后句子来说，从目标词的第一个词开始到最后一个词，然后再从最后一个词到目标词的第一个词连接重新组合成一个新的句子，这样对于目标词之后的句子变成原来的2倍；经过步骤2处理后，得到数据集中每个词所对应的N维向量，对于上述得到两个新的目标之前句子和目标之后句子，每个词在词向量中都有对应词向量作为长短时记忆(LSTM)模型的输入，最后一个词通过LSTM得到的h_t作为该句的最终输出结果，既而将两个句子的输出经过连接成一个，作为神经网络结构的输出；这样的网络结构能够让商品评论依据整句的内容及前后词的关系更好、更准确的判断其情感倾向；

LSTM内部结构运算公式如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i[h_t-1,x_t]+b_i)

o_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(C_t)

其中，f_t是遗忘门层，W_f，b_f分别是遗忘门层的权重和偏置，i_t是输入门层，W_i,b_i分别是输入门层的权重和偏置，是待更新细胞状态，W_C，b_C分别是待更新细胞状态的权重和偏置，o_t是输出门层，W_o，b_o分别是输出门层的权重和偏置。h_t是模型的输出值。σ是sigmoid激活函数，公式为tanh激活函数公式为

所述步骤4，Softmax处理，通过步骤3处理后得到网络结构的输出值，然后将该输出值作为Softmax的输入；Softmax函数是满足概率分布，即对于k个类别的Softmax值之和为1，Softmax函数定义为：其中i表示k个类别中的任何一个标签，是第i类别的值，是k个类别的值之和；

通过对于得到每个类别的概率值进行比较得到最大的概率值将作为该商品评论的情感倾向。然后将得到的预测标签与真实的标签进行比较进而可以得到其损失值；通过使用神经网络来训练数据优化神经网络中的参数(权重和偏置)，经过不断的迭代之后训练的参数使得损失值达到最小，此时使用这些训练后的参数来对测试集进行预测，这样能够得到更高的准确率。

本发明的有益效果是：

(1)使用CBOW模型训练的词向量是稠密、实值向量，CBOW模型使用大量无标注数据得到的词语在语义空间中语义刻画更准确，即语义空间上相近的词语逻辑结构中也相近，同时，可避免传统的读热表示的稀疏、维度灾难的不足；

(2)从网络模型结构上依据每句中的目标词的位置将每个评论句分割成两个句子，使用LSTM对词序列进行建模，得到两个LSTM的输出，再合并输出，此模型的目的可以更好的根据上下文之间的序列关系，从而得到的评论更准确的预测；通过使用神经网络来训练数据优化神经网络中的参数(权重和偏置)，经过不断的迭代之后训练的参数使得损失值达到最小，此时使用这些训练后的参数来对测试集进行预测，这样能够得到更高的准确率，

(3)由于每评论句中的词语增加，对于训练的时间也相应的增加，因此我们可以借助GPU加速神经网络的训练过程，这样不仅提高商品评论情感分类的准确率，而且对于大规模语料的训练速度得到大幅度的提升。

附图说明

图1为商品目标词的情感倾向分析流程图。

图2为神经网络模型结构示意图。

图3为LSTM模型结构图。

具体实施方式

本发明提出一种面向商品目标词的情感倾向分析方法，下面结合附图予以进一步说明。

图1所示为商品目标词的情感倾向分析流程图。包括步骤如下：

步骤1，语料预处理，将数据集进行分词，将每个句子分割成两个句子，把类别标签按照类别个数转换成向量形式；其语料预处理是在数据集中每个完整的数据由三行组成，第一行是评论数据，其中每个评论数据中都有一个“$”符号，该符号代表此句的目标词，第二行是该评论的目标词(target words)，该目标词可以是一个或者多个词，第三行是评论的类别标签，即0、1、2分别代表负面、中立、正面。把第一行评论中的“$”换成第二行的评论目标词，然后将每个完整的评论句准确切割为一个个词或者词语，即分词：按照目标词的最后一个词在评论句中的位置把句子分成两个部分，即目标词之前的句子，目标词之后的句子，在神经网络中将分别处理这两个句子；对于每个类别标签需要转换成三维的向量，即0转换为[1 0 0],1转换为[0 1 0]，2转换为[0 0 1]；在此转换成向量的目的是为了通过训练后得到每个句子的标签具有相同结构，然后进行对比得到误差，即可计算准确率。

步骤2，词向量训练，把分词后评论数据通过CBOW模型训练得到词向量；利用CBOW(Continuous Bag-of-Words Model)对文本评论语料分词后得到的词语训练，得到每个词所对应的向量，该向量的维度可根据需要进行设置；使用CBOW模型训练的词向量是稠密、实值向量，CBOW模型使用大量无标注数据得到的词语在语义空间中语义刻画更准确，即语义空间上相近的词语逻辑结构中也相近，同时，可避免传统的读热表示的稀疏、维度灾难的不足；

与此同时可以分别求出每个概率；将上式简化为：

当Context_i为空时，就是它自己P(w)。

条件概率P(w|Context(w))一般公式写成：

其中：

根据上式整理合并可得：

例如，一个商品评论句子为：w₁,w₂,w₃,w₄,w₅,w₆,w₇,w₈,w₉,w₁₀，一共有十个词，其中w₅,w₆作为目标词，目标词之前的句子是w₁,w₂,w₃,w₄,w₅,w₆，目标词之后的句子是w₅,w₆,w₇,w₈,w₉,w₁₀，那么对于以上目标词之前句子操作所得到的新的目标词之前的句子是w₆,w₅,w₄,w₃,w₂,w₁,w₁,w₂,w₃,w₄,w₅,w₆。那么对于以上目标词之后句子操作所得到新的目标词之后的句子是w₅,w₆,w₇,w₈,w₉,w₁₀,w₁₀,w₉,w₈,w₇,w₆,w₅。

即第一个词确定后，看后面的词在前面的词出现的情况下出现的概率。如：“大家喜欢吃苹果”，通过分词后得到四个词,“大家”、“喜欢”、“吃”、“苹果”，这句话的自然语言的概率是：P(大家，喜欢，吃，苹果)＝P(大家)*P(喜欢|大家)*P(吃|大家，喜欢)*P(苹果|大家，喜欢，吃)

CBOW模型核心就是关于梯度计算。其关键技术就是Hierarchical Softmax,在此需要使用Huffman树相关的知识，将词典中每个词作为Huffman树的叶子节点。对于Huffman树中的某个叶子节点，假设在词典中对应的是词w。为了以下方便计算引入若干符号。

1.p^w:从根节点出发到w对应叶子节点的路径。

2.l^w:路径p^w中包含节点的个数。

3.路径p^w中的l^w个节点，表示词w对应的节点。

4.词w的Huffman树编码，表示路径p^w中第j个节点对应的编码。

5.路径p^w中非叶子节点对应的向量，表示路径p^w中第j个非叶子节点对应的向量。

步骤3，神经网络结构，如图2所示，使用LSTM网络模型结构(Long Short TimeMemory)使网络注重整句内容，上下文之间语义；

将P(w|Context(w))代入Γ对数似然函数可得：

首先给出Γ(w,j)关于的梯度计算，即对进行求导：

于是，对的更新公式可写为：

其中，η表示学习率。

即贡献到Context(w)中的每一个词向量上，在此采用的是平价贡献，所以可以求出每个词的词向量。

所述步骤3神经网络结构，使用长短时记忆LSTM

将带有情感标签的语料作为训练集，经过步骤1处理后，得到由一个商品评论句子根据句中的目标词，将评论句分割成两个短句子，即目标词之前句子和目标词之后句子，对于目标词之前句子来说，从最后一个目标词的位子开始到第一个词，然后再从第一个词到目标词的最后一个词连接重新组合成一个新的句子，这样对于目标词之前的句子来说其长度变成原来的2倍，对于目标词之后句子来说，从目标词的第一个词开始到最后一个词，然后再从最后一个词到目标词的第一个词连接重新组合成一个新的句子，这样对于目标词之后的句子变成原来的2倍；

经过步骤2处理后，得到数据集中每个词所对应的N维向量，对于上述得到两个新的目标之前句子和目标之后句子，每个词在词向量中都有对应词向量作为长短时记忆(LSTM)模型的输入，最后一个词通过LSTM得到的h_t作为该句的最终输出结果，既而将两个句子的输出经过连接成一个，作为神经网络结构的输出；这样的网络结构能够让商品评论依据整句的内容及前后词的关系更好、更准确的判断其情感倾向。

如图3所示的LSTM模型结构图：主要是每个LSTM结构都是由t时刻输入x_t和t-1时刻的输出h_t-1，将t-1时刻的更新状态作为t时刻的状态输入，通过LSTM内部结构运算即可得到t时刻的细胞更新状态C_t和输出h_t。

LSTM内部结构运算公式如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i[h_t-1,x_t]+b_i)

o_t＝σ(W_o[h_t-1,x_t」+b_o)

h_t＝o_t*tanh(C_t)

步骤4，评论句情感分类，将神经网络输出作为Softmax函数的输入，得到最后结果，具体是Softmax通过步骤3处理后得到网络结构的输出值，然后将该输出值作为Softmax的输入；Softmax函数是满足概率分布，即对于k个类别的Softmax值之和为1，Softmax函数定义为：其中i表示k个类别中的任何一个标签，是第i类别的值，是k个类别的值之和；

Claims

1.一种面向商品目标词的情感倾向分析方法，其特征在于，包括步骤如下：

步骤4，评论句情感分类，将神经网络输出作为Softmax函数的输入，得到最后结果。

2.根据权利要求1所述一种面向商品目标词的情感倾向分析方法，其特征在于，所述步骤1语料预处理，在数据集中每个完整的数据由三行组成，第一行是评论数据，其中每个评论数据中都有一个“$”符号，该符号代表此句的目标词，第二行是该评论的目标词，该目标词是一个或者多个词，第三行是评论的类别标签，即0、1、2分别代表负面、中立、正面；把第一行评论中的“$”换成第二行的评论目标词，然后将每个完整的评论句准确切割为一个个词或者词语，即分词：按照目标词的最后一个词在评论句中的位置把句子分成两个部分，即目标词之前的句子，目标词之后的句子，在神经网络中将分别处理这两个句子；对于每个类别标签需要转换成三维的向量，即0转换为[1 0 0],1转换为[0 1 0]，2转换为[0 0 1]；在此转换成向量的目的是为了通过训练后得到每个句子的标签具有相同结构，然后进行对比得到误差，即可计算准确率。

3.根据权利要求1所述一种面向商品目标词的情感倾向分析方法，其特征在于，所述步骤2词向量训练，利用CBOW模型对文本评论语料分词后得到的词语训练，得到每个词所对应的向量，该向量的维度可根据需要进行设置；使用CBOW模型训练的词向量是稠密、实值向量，CBOW模型使用大量无标注数据得到的词语在语义空间中语义刻画更准确，即语义空间上相近的词语逻辑结构中也相近，同时，可避免传统的读热表示的稀疏、维度灾难的不足。

4.根据权利要求2所述一种面向商品目标词的情感倾向分析方法，其特征在于，所述步骤2词向量训练中向量的维度可根据需要进行设置其基本思想和步骤如下：语言模型形式的描述就是给定一个T个词的字符串S，看它是自然语言的概率P(w₁,w₂,w₃,…,w_T),w₁到w_T依次表示这句话中的各个词，即以下推理P(s)＝P(w₁,w₂,…,w_T)＝P(w₁)P(w₂|w₁)P(w₃|w₁,w₂)…P(w_T|w₁,w₂,w₃,…,w_T-1)

与此同时可以分别求出每个概率；将上式简化为：

当Context_i为空时，就是它自己P(w)。

条件概率P(w|Context(w))一般公式写成：

其中：

根据上式整理合并可得：

将P(w|Context(w))代入Γ对数似然函数可得：

首先给出Γ(w,j)关于的梯度计算，即对进行求导：

于是，对的更新公式可写为：

其中，η表示学习率。

5.根据权利要求1所述一种面向商品目标词的情感倾向分析方法，其特征在于，所述步骤3神经网络结构，使用长短时记忆LSTM(Long Short Time Memory)

LSTM内部结构运算公式如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i[h_t-1,x_t]+b_i)

h_t＝o_t*tanh(C_t)

6.根据权利要求1所述一种面向商品目标词的情感倾向分析方法，其特征在于，所述步骤4，Softmax处理，通过步骤3处理后得到网络结构的输出值，然后将该输出值作为Softmax的输入；Softmax函数是满足概率分布，即对于k个类别的Softmax值之和为1，Softmax函数定义为：其中i表示k个类别中的任何一个标签，是第i类别的值，是k个类别的值之和；