CN107544957A - 一种面向商品目标词的情感倾向分析方法 - Google Patents

一种面向商品目标词的情感倾向分析方法 Download PDF

Info

Publication number
CN107544957A
CN107544957A CN201710543480.XA CN201710543480A CN107544957A CN 107544957 A CN107544957 A CN 107544957A CN 201710543480 A CN201710543480 A CN 201710543480A CN 107544957 A CN107544957 A CN 107544957A
Authority
CN
China
Prior art keywords
word
sentence
target word
comment
term vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710543480.XA
Other languages
English (en)
Inventor
何慧
冷永才
胡然
焦润海
张莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Electric Power University
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN201710543480.XA priority Critical patent/CN107544957A/zh
Publication of CN107544957A publication Critical patent/CN107544957A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了属于网购商品评论的分析处理领域的一种面向商品目标词的情感倾向分析方法。包括四个步骤,1,语料预处理,将数据集进行分词,把类别标签按照类别个数转换成向量形式;2,词向量训练,把分词后评论数据通过CBOW模型训练得到词向量;3,神经网络结构,使用LSTM网络模型结构使网络注重整句内容;4,评论句情感分类,将神经网络输出作为Softmax函数的输入,得到最后结果。本发明在语义空间中语义刻画更准确;通过使用神经网络来训练数据优化神经网络中的权重和偏置参数,经过不断的迭代之后训练的参数使得损失值达到最小,此时使用这些训练后的参数来对测试集进行预测,这样能够得到更高的准确率。

Description

一种面向商品目标词的情感倾向分析方法
技术领域
本发明属于网购商品评论的分析处理领域,特别涉及一种面向商品目标词的情感倾向分析方法。
背景技术
随着互联网的不断发展及电子商务的普及,越来越多的消费者开始在电子商务相关网站上发表自己对相关商品的评论,并且消费者们也开始习惯在购买商品前查看电子商务上他人的对该商品的评论。但由于用户的个人喜好以及个人关注点的不同,其评论往往有很大的差别,而且用户经常在一条评论中表达出对产品多个属性的观点,另外商品评论一般都是大量出现的,想要人工从这些评论中找到自己关注的内容费时费力。互联网快捷、方便的特性,以及强大的交互能力,为人们交流思想、阐明观点、发表意见提供了新的平台。
消费者们在购买前往往会参考网络上的评论信息,这些评论信息具有多种行业、多属性、多方位评价等特点。多行业是指目前在互联网电商经营的商品种类是多种多样的,如家电、手机、汽车、生活用品、餐饮、教育等等。多属性指对于每个商品都包含多方面的属性,以手机为例包括屏幕、电池、尺寸、颜色、价格等。多方位评价指对于同一种含义有多种表达方式,如对于“手机外观漂亮”的说法有“外观漂亮”、“外观大气”、“外观不错”、“外形高大上”等等。
可以参考:(1)申请号CN201310198515.2,名称为网购评论的分析处理方法;(2)申请号CN201610323743.1,名称为一种购物评论情感分析中基于词性标注的词典构建方法的中国专利;商品评论的情感倾向性主要是依据该评论句中出现该商品的某些属性,这些属性的表达对该商品的情感分类起到重要的因素,我们将这些属性看作是目标词。目前,对于商品评论的情感分类的方法主要是抽取评论句中的某些观点词和特征词,然后通过某种分类算法对商品评论的情感倾向进行判断。针对商品评论数据,按照上述的方法处理,存在着不足之处,对于商品评论的数据来说,一般不会太长,上述方法仅利用评论中的观点词和特征词。例如以手机评论:“这款手机样式挺新颖,分辨率高,我很满意,就是容易死机很讨厌”,此句评论中出现的的观点词正面的有三个,而负面的有一个,按照观点词的数量就会把该评论句分为“正面”,但是在我们人脑读取这句话的时候就会把侧重点放在最后一个观点词“死机很讨厌”,就可能会分到“负面”的类别中,因此语序、前后词之间的关系对情感分类具有非常重要的作用。因此,这些方法不能很好的对商品评论的进行情感倾向性分析。
发明内容
本发明的目的是提出一种面向商品目标词的情感倾向分析方法,其特征在于,包括步骤如下:
步骤1,语料预处理,将数据集进行分词,将每个句子分割成两个句子,把类别标签按照类别个数转换成向量形式;
步骤2,词向量训练,把分词后评论数据通过CBOW模型训练得到词向量;
步骤3,神经网络结构,使用LSTM网络模型结构使网络注重整句内容,上下文之间语义;
步骤4,评论句情感分类,将神经网络输出作为Softmax函数的输入,得到最后结果,
所述步骤1语料预处理,在数据集中每个完整的数据由三行组成,第一行是评论数据,其中每个评论数据中都有一个“$”符号,该符号代表此句的目标词,第二行是该评论的目标词(target words),该目标词可以是一个或者多个词,第三行是评论的类别标签,即0、1、2分别代表负面、中立、正面。把第一行评论中的“$”换成第二行的评论目标词,然后将每个完整的评论句准确切割为一个个词或者词语,即分词:按照目标词的最后一个词在评论句中的位置把句子分成两个部分,即目标词之前的句子,目标词之后的句子,在神经网络中将分别处理这两个句子;对于每个类别标签需要转换成三维的向量,即0转换为[1 0 0],1转换为[0 1 0],2转换为[0 0 1];在此转换成向量的目的是为了通过训练后得到每个句子的标签具有相同结构,然后进行对比得到误差,即可计算准确率。
所述步骤2词向量训练,利用CBOW(Continuous Bag-of-Words Model)对文本评论语料分词后得到的词语训练,得到每个词所对应的向量,该向量的维度可根据需要进行设置;使用CBOW模型训练的词向量是稠密、实值向量,CBOW模型使用大量无标注数据得到的词语在语义空间中语义刻画更准确,即语义空间上相近的词语逻辑结构中也相近,同时,可避免传统的读热表示的稀疏、维度灾难的不足;
所述步骤2词向量训练中向量的维度可根据需要进行设置其基本思想和步骤如下:语言模型形式的描述就是给定一个T个词的字符串S,看它是自然语言的概率P(w1,w2,w3,…,wT),w1到wT依次表示这句话中的各个词,即以下推理P(s)=P(w1,w2,…,wT)=P(w1)P(w2|w1)P(w3|w1,w2)…P(wT|w1,w2,w3,…,wT-1)
与此同时可以分别求出每个概率;将上式简化为:
当Contexti为空时,就是它自己P(w)。
对于词典中的任意词w,Huffman树中比存在一条从根节点到词w对应节点的路径pw(且这条路径是唯一的)。路径pw上存在lw-1个分支,将每个分支看做一次二分类,没一次分类就产生一个概率,将这些概率乘起来就是所需要的P(w|Context(w))。
条件概率P(w|Context(w))一般公式写成:
其中:
根据上式整理合并可得:
基于神经网络的语言模型的目标函数通常取为如下对数似然函数:
将P(w|Context(w))代入Γ对数似然函数可得:
为了方便梯度推导,将上式双重求和括号里面的内容记作Γ(w,j)即:
此时上式Γ则是CBOW模型的目标函数,接下来就是对目标函数进行优化,对于word2vec采用的是随机梯度上升法,即求目标函数的最大化。
随机梯度上升法的思想是:每取一个样本(Context(w),w)就对目标函数中的所有参数做一次刷新,在此先给出Γ(w,j)关于这些向量的梯度。
首先给出Γ(w,j)关于的梯度计算,即对进行求导:
于是,对的更新公式可写为:
其中,η表示学习率。
其次计算Γ(w,j)关于Xw的梯度,仔细观察Γ(w,j)可得与Xw是对称的,所以求导同上:
最终的目的是要求词典中的每个词的词向量,而这里的Xw表示Context(w)中各个词向量的累加,则利用来对 进行更新:
贡献到Context(w)中的每一个词向量上,在此采用的是平价贡献,所以既而可以求出所需要的每个词的词向量。
所述步骤3神经网络结构,使用长短时记忆LSTM(Long Short Time Memory)
将带有情感标签的语料作为训练集,经过步骤1处理后,得到由一个商品评论句子根据句中的目标词,将评论句分割成两个短句子,即目标词之前句子和目标词之后句子,对于目标词之前句子来说,从最后一个目标词的位子开始到第一个词,然后再从第一个词到目标词的最后一个词连接重新组合成一个新的句子,这样对于目标词之前的句子来说其长度变成原来的2倍,对于目标词之后句子来说,从目标词的第一个词开始到最后一个词,然后再从最后一个词到目标词的第一个词连接重新组合成一个新的句子,这样对于目标词之后的句子变成原来的2倍;经过步骤2处理后,得到数据集中每个词所对应的N维向量,对于上述得到两个新的目标之前句子和目标之后句子,每个词在词向量中都有对应词向量作为长短时记忆(LSTM)模型的输入,最后一个词通过LSTM得到的ht作为该句的最终输出结果,既而将两个句子的输出经过连接成一个,作为神经网络结构的输出;这样的网络结构能够让商品评论依据整句的内容及前后词的关系更好、更准确的判断其情感倾向;
LSTM内部结构运算公式如下:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct)
其中,ft是遗忘门层,Wf,bf分别是遗忘门层的权重和偏置,it是输入门层,Wi,bi分别是输入门层的权重和偏置,是待更新细胞状态,WC,bC分别是待更新细胞状态的权重和偏置,ot是输出门层,Wo,bo分别是输出门层的权重和偏置。ht是模型的输出值。σ是sigmoid激活函数,公式为tanh激活函数公式为
所述步骤4,Softmax处理,通过步骤3处理后得到网络结构的输出值,然后将该输出值作为Softmax的输入;Softmax函数是满足概率分布,即对于k个类别的Softmax值之和为1,Softmax函数定义为:其中i表示k个类别中的任何一个标签,是第i类别的值,是k个类别的值之和;
通过对于得到每个类别的概率值进行比较得到最大的概率值将作为该商品评论的情感倾向。然后将得到的预测标签与真实的标签进行比较进而可以得到其损失值;通过使用神经网络来训练数据优化神经网络中的参数(权重和偏置),经过不断的迭代之后训练的参数使得损失值达到最小,此时使用这些训练后的参数来对测试集进行预测,这样能够得到更高的准确率。
本发明的有益效果是:
(1)使用CBOW模型训练的词向量是稠密、实值向量,CBOW模型使用大量无标注数据得到的词语在语义空间中语义刻画更准确,即语义空间上相近的词语逻辑结构中也相近,同时,可避免传统的读热表示的稀疏、维度灾难的不足;
(2)从网络模型结构上依据每句中的目标词的位置将每个评论句分割成两个句子,使用LSTM对词序列进行建模,得到两个LSTM的输出,再合并输出,此模型的目的可以更好的根据上下文之间的序列关系,从而得到的评论更准确的预测;通过使用神经网络来训练数据优化神经网络中的参数(权重和偏置),经过不断的迭代之后训练的参数使得损失值达到最小,此时使用这些训练后的参数来对测试集进行预测,这样能够得到更高的准确率,
(3)由于每评论句中的词语增加,对于训练的时间也相应的增加,因此我们可以借助GPU加速神经网络的训练过程,这样不仅提高商品评论情感分类的准确率,而且对于大规模语料的训练速度得到大幅度的提升。
附图说明
图1为商品目标词的情感倾向分析流程图。
图2为神经网络模型结构示意图。
图3为LSTM模型结构图。
具体实施方式
本发明提出一种面向商品目标词的情感倾向分析方法,下面结合附图予以进一步说明。
图1所示为商品目标词的情感倾向分析流程图。包括步骤如下:
步骤1,语料预处理,将数据集进行分词,将每个句子分割成两个句子,把类别标签按照类别个数转换成向量形式;其语料预处理是在数据集中每个完整的数据由三行组成,第一行是评论数据,其中每个评论数据中都有一个“$”符号,该符号代表此句的目标词,第二行是该评论的目标词(target words),该目标词可以是一个或者多个词,第三行是评论的类别标签,即0、1、2分别代表负面、中立、正面。把第一行评论中的“$”换成第二行的评论目标词,然后将每个完整的评论句准确切割为一个个词或者词语,即分词:按照目标词的最后一个词在评论句中的位置把句子分成两个部分,即目标词之前的句子,目标词之后的句子,在神经网络中将分别处理这两个句子;对于每个类别标签需要转换成三维的向量,即0转换为[1 0 0],1转换为[0 1 0],2转换为[0 0 1];在此转换成向量的目的是为了通过训练后得到每个句子的标签具有相同结构,然后进行对比得到误差,即可计算准确率。
步骤2,词向量训练,把分词后评论数据通过CBOW模型训练得到词向量;利用CBOW(Continuous Bag-of-Words Model)对文本评论语料分词后得到的词语训练,得到每个词所对应的向量,该向量的维度可根据需要进行设置;使用CBOW模型训练的词向量是稠密、实值向量,CBOW模型使用大量无标注数据得到的词语在语义空间中语义刻画更准确,即语义空间上相近的词语逻辑结构中也相近,同时,可避免传统的读热表示的稀疏、维度灾难的不足;
所述步骤2词向量训练中向量的维度可根据需要进行设置其基本思想和步骤如下:语言模型形式的描述就是给定一个T个词的字符串S,看它是自然语言的概率P(w1,w2,w3,…,wT),w1到wT依次表示这句话中的各个词,即以下推理P(s)=P(w1,w2,…,wT)=P(w1)P(w2|w1)P(w3|w1,w2)…P(wT|w1,w2,w3,…,wT-1)
与此同时可以分别求出每个概率;将上式简化为:
当Contexti为空时,就是它自己P(w)。
对于词典中的任意词w,Huffman树中比存在一条从根节点到词w对应节点的路径pw(且这条路径是唯一的)。路径pw上存在lw-1个分支,将每个分支看做一次二分类,没一次分类就产生一个概率,将这些概率乘起来就是所需要的P(w|Context(w))。
条件概率P(w|Context(w))一般公式写成:
其中:
根据上式整理合并可得:
例如,一个商品评论句子为:w1,w2,w3,w4,w5,w6,w7,w8,w9,w10,一共有十个词,其中w5,w6作为目标词,目标词之前的句子是w1,w2,w3,w4,w5,w6,目标词之后的句子是w5,w6,w7,w8,w9,w10,那么对于以上目标词之前句子操作所得到的新的目标词之前的句子是w6,w5,w4,w3,w2,w1,w1,w2,w3,w4,w5,w6。那么对于以上目标词之后句子操作所得到新的目标词之后的句子是w5,w6,w7,w8,w9,w10,w10,w9,w8,w7,w6,w5
即第一个词确定后,看后面的词在前面的词出现的情况下出现的概率。如:“大家喜欢吃苹果”,通过分词后得到四个词,“大家”、“喜欢”、“吃”、“苹果”,这句话的自然语言的概率是:P(大家,喜欢,吃,苹果)=P(大家)*P(喜欢|大家)*P(吃|大家,喜欢)*P(苹果|大家,喜欢,吃)
CBOW模型核心就是关于梯度计算。其关键技术就是Hierarchical Softmax,在此需要使用Huffman树相关的知识,将词典中每个词作为Huffman树的叶子节点。对于Huffman树中的某个叶子节点,假设在词典中对应的是词w。为了以下方便计算引入若干符号。
1.pw:从根节点出发到w对应叶子节点的路径。
2.lw:路径pw中包含节点的个数。
3.路径pw中的lw个节点,表示词w对应的节点。
4.词w的Huffman树编码,表示路径pw中第j个节点对应的编码。
5.路径pw中非叶子节点对应的向量,表示路径pw中第j个非叶子节点对应的向量。
步骤3,神经网络结构,如图2所示,使用LSTM网络模型结构(Long Short TimeMemory)使网络注重整句内容,上下文之间语义;
基于神经网络的语言模型的目标函数通常取为如下对数似然函数:
将P(w|Context(w))代入Γ对数似然函数可得:
为了方便梯度推导,将上式双重求和括号里面的内容记作Γ(w,j)即:
此时上式Γ则是CBOW模型的目标函数,接下来就是对目标函数进行优化,对于word2vec采用的是随机梯度上升法,即求目标函数的最大化。
随机梯度上升法的思想是:每取一个样本(Context(w),w)就对目标函数中的所有参数做一次刷新,在此先给出Γ(w,j)关于这些向量的梯度。
首先给出Γ(w,j)关于的梯度计算,即对进行求导:
于是,对的更新公式可写为:
其中,η表示学习率。
其次计算Γ(w,j)关于Xw的梯度,仔细观察Γ(w,j)可得与Xw是对称的,所以求导同上:
最终的目的是要求词典中的每个词的词向量,而这里的Xw表示Context(w)中各个词向量的累加,则利用来对 进行更新:
贡献到Context(w)中的每一个词向量上,在此采用的是平价贡献,所以可以求出每个词的词向量。
所述步骤3神经网络结构,使用长短时记忆LSTM
将带有情感标签的语料作为训练集,经过步骤1处理后,得到由一个商品评论句子根据句中的目标词,将评论句分割成两个短句子,即目标词之前句子和目标词之后句子,对于目标词之前句子来说,从最后一个目标词的位子开始到第一个词,然后再从第一个词到目标词的最后一个词连接重新组合成一个新的句子,这样对于目标词之前的句子来说其长度变成原来的2倍,对于目标词之后句子来说,从目标词的第一个词开始到最后一个词,然后再从最后一个词到目标词的第一个词连接重新组合成一个新的句子,这样对于目标词之后的句子变成原来的2倍;
经过步骤2处理后,得到数据集中每个词所对应的N维向量,对于上述得到两个新的目标之前句子和目标之后句子,每个词在词向量中都有对应词向量作为长短时记忆(LSTM)模型的输入,最后一个词通过LSTM得到的ht作为该句的最终输出结果,既而将两个句子的输出经过连接成一个,作为神经网络结构的输出;这样的网络结构能够让商品评论依据整句的内容及前后词的关系更好、更准确的判断其情感倾向。
如图3所示的LSTM模型结构图:主要是每个LSTM结构都是由t时刻输入xt和t-1时刻的输出ht-1,将t-1时刻的更新状态作为t时刻的状态输入,通过LSTM内部结构运算即可得到t时刻的细胞更新状态Ct和输出ht
LSTM内部结构运算公式如下:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
ot=σ(Wo[ht-1,xt」+bo)
ht=ot*tanh(Ct)
其中,ft是遗忘门层,Wf,bf分别是遗忘门层的权重和偏置,it是输入门层,Wi,bi分别是输入门层的权重和偏置,是待更新细胞状态,WC,bC分别是待更新细胞状态的权重和偏置,ot是输出门层,Wo,bo分别是输出门层的权重和偏置。ht是模型的输出值。σ是sigmoid激活函数,公式为tanh激活函数公式为
步骤4,评论句情感分类,将神经网络输出作为Softmax函数的输入,得到最后结果,具体是Softmax通过步骤3处理后得到网络结构的输出值,然后将该输出值作为Softmax的输入;Softmax函数是满足概率分布,即对于k个类别的Softmax值之和为1,Softmax函数定义为:其中i表示k个类别中的任何一个标签,是第i类别的值,是k个类别的值之和;
通过对于得到每个类别的概率值进行比较得到最大的概率值将作为该商品评论的情感倾向。然后将得到的预测标签与真实的标签进行比较进而可以得到其损失值;通过使用神经网络来训练数据优化神经网络中的参数(权重和偏置),经过不断的迭代之后训练的参数使得损失值达到最小,此时使用这些训练后的参数来对测试集进行预测,这样能够得到更高的准确率。

Claims (6)

1.一种面向商品目标词的情感倾向分析方法,其特征在于,包括步骤如下:
步骤1,语料预处理,将数据集进行分词,将每个句子分割成两个句子,把类别标签按照类别个数转换成向量形式;
步骤2,词向量训练,把分词后评论数据通过CBOW模型训练得到词向量;
步骤3,神经网络结构,使用LSTM网络模型结构使网络注重整句内容,上下文之间语义;
步骤4,评论句情感分类,将神经网络输出作为Softmax函数的输入,得到最后结果。
2.根据权利要求1所述一种面向商品目标词的情感倾向分析方法,其特征在于,所述步骤1语料预处理,在数据集中每个完整的数据由三行组成,第一行是评论数据,其中每个评论数据中都有一个“$”符号,该符号代表此句的目标词,第二行是该评论的目标词,该目标词是一个或者多个词,第三行是评论的类别标签,即0、1、2分别代表负面、中立、正面;把第一行评论中的“$”换成第二行的评论目标词,然后将每个完整的评论句准确切割为一个个词或者词语,即分词:按照目标词的最后一个词在评论句中的位置把句子分成两个部分,即目标词之前的句子,目标词之后的句子,在神经网络中将分别处理这两个句子;对于每个类别标签需要转换成三维的向量,即0转换为[1 0 0],1转换为[0 1 0],2转换为[0 0 1];在此转换成向量的目的是为了通过训练后得到每个句子的标签具有相同结构,然后进行对比得到误差,即可计算准确率。
3.根据权利要求1所述一种面向商品目标词的情感倾向分析方法,其特征在于,所述步骤2词向量训练,利用CBOW模型对文本评论语料分词后得到的词语训练,得到每个词所对应的向量,该向量的维度可根据需要进行设置;使用CBOW模型训练的词向量是稠密、实值向量,CBOW模型使用大量无标注数据得到的词语在语义空间中语义刻画更准确,即语义空间上相近的词语逻辑结构中也相近,同时,可避免传统的读热表示的稀疏、维度灾难的不足。
4.根据权利要求2所述一种面向商品目标词的情感倾向分析方法,其特征在于,所述步骤2词向量训练中向量的维度可根据需要进行设置其基本思想和步骤如下:语言模型形式的描述就是给定一个T个词的字符串S,看它是自然语言的概率P(w1,w2,w3,…,wT),w1到wT依次表示这句话中的各个词,即以下推理P(s)=P(w1,w2,…,wT)=P(w1)P(w2|w1)P(w3|w1,w2)…P(wT|w1,w2,w3,…,wT-1)
与此同时可以分别求出每个概率;将上式简化为:
当Contexti为空时,就是它自己P(w)。
对于词典中的任意词w,Huffman树中比存在一条从根节点到词w对应节点的路径pw(且这条路径是唯一的)。路径pw上存在lw-1个分支,将每个分支看做一次二分类,没一次分类就产生一个概率,将这些概率乘起来就是所需要的P(w|Context(w))。
条件概率P(w|Context(w))一般公式写成:
其中:
根据上式整理合并可得:
基于神经网络的语言模型的目标函数通常取为如下对数似然函数:
将P(w|Context(w))代入Γ对数似然函数可得:
为了方便梯度推导,将上式双重求和括号里面的内容记作Γ(w,j)即:
此时上式Γ则是CBOW模型的目标函数,接下来就是对目标函数进行优化,对于word2vec采用的是随机梯度上升法,即求目标函数的最大化。
随机梯度上升法的思想是:每取一个样本(Context(w),w)就对目标函数中的所有参数做一次刷新,在此先给出Γ(w,j)关于这些向量的梯度。
首先给出Γ(w,j)关于的梯度计算,即对进行求导:
于是,对的更新公式可写为:
其中,η表示学习率。
其次计算Γ(w,j)关于Xw的梯度,仔细观察Γ(w,j)可得与Xw是对称的,所以求导同上:
最终的目的是要求词典中的每个词的词向量,而这里的Xw表示Context(w)中各个词向量的累加,则利用来对 进行更新:
贡献到Context(w)中的每一个词向量上,在此采用的是平价贡献,所以既而可以求出所需要的每个词的词向量。
5.根据权利要求1所述一种面向商品目标词的情感倾向分析方法,其特征在于,所述步骤3神经网络结构,使用长短时记忆LSTM(Long Short Time Memory)
将带有情感标签的语料作为训练集,经过步骤1处理后,得到由一个商品评论句子根据句中的目标词,将评论句分割成两个短句子,即目标词之前句子和目标词之后句子,对于目标词之前句子来说,从最后一个目标词的位子开始到第一个词,然后再从第一个词到目标词的最后一个词连接重新组合成一个新的句子,这样对于目标词之前的句子来说其长度变成原来的2倍,对于目标词之后句子来说,从目标词的第一个词开始到最后一个词,然后再从最后一个词到目标词的第一个词连接重新组合成一个新的句子,这样对于目标词之后的句子变成原来的2倍;经过步骤2处理后,得到数据集中每个词所对应的N维向量,对于上述得到两个新的目标之前句子和目标之后句子,每个词在词向量中都有对应词向量作为长短时记忆(LSTM)模型的输入,最后一个词通过LSTM得到的ht作为该句的最终输出结果,既而将两个句子的输出经过连接成一个,作为神经网络结构的输出;这样的网络结构能够让商品评论依据整句的内容及前后词的关系更好、更准确的判断其情感倾向;
LSTM内部结构运算公式如下:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
ht=ot*tanh(Ct)
其中,ft是遗忘门层,Wf,bf分别是遗忘门层的权重和偏置,it是输入门层,Wi,bi分别是输入门层的权重和偏置,是待更新细胞状态,WC,bC分别是待更新细胞状态的权重和偏置,ot是输出门层,Wo,bo分别是输出门层的权重和偏置。ht是模型的输出值。σ是sigmoid激活函数,公式为tanh激活函数公式为
6.根据权利要求1所述一种面向商品目标词的情感倾向分析方法,其特征在于,所述步骤4,Softmax处理,通过步骤3处理后得到网络结构的输出值,然后将该输出值作为Softmax的输入;Softmax函数是满足概率分布,即对于k个类别的Softmax值之和为1,Softmax函数定义为:其中i表示k个类别中的任何一个标签,是第i类别的值,是k个类别的值之和;
通过对于得到每个类别的概率值进行比较得到最大的概率值将作为该商品评论的情感倾向。然后将得到的预测标签与真实的标签进行比较进而可以得到其损失值;通过使用神经网络来训练数据优化神经网络中的参数(权重和偏置),经过不断的迭代之后训练的参数使得损失值达到最小,此时使用这些训练后的参数来对测试集进行预测,这样能够得到更高的准确率。
CN201710543480.XA 2017-07-05 2017-07-05 一种面向商品目标词的情感倾向分析方法 Pending CN107544957A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710543480.XA CN107544957A (zh) 2017-07-05 2017-07-05 一种面向商品目标词的情感倾向分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710543480.XA CN107544957A (zh) 2017-07-05 2017-07-05 一种面向商品目标词的情感倾向分析方法

Publications (1)

Publication Number Publication Date
CN107544957A true CN107544957A (zh) 2018-01-05

Family

ID=60970376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710543480.XA Pending CN107544957A (zh) 2017-07-05 2017-07-05 一种面向商品目标词的情感倾向分析方法

Country Status (1)

Country Link
CN (1) CN107544957A (zh)

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268449A (zh) * 2018-02-10 2018-07-10 北京工业大学 一种基于词项聚类的文本语义标签抽取方法
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108536784A (zh) * 2018-03-29 2018-09-14 广州优视网络科技有限公司 评论信息情感分析方法、装置、计算机存储介质和服务器
CN108573411A (zh) * 2018-04-17 2018-09-25 重庆理工大学 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN108665339A (zh) * 2018-03-27 2018-10-16 北京航空航天大学 一种基于主观情感测度的电商产品可靠性指标及其实现方法
CN108763189A (zh) * 2018-04-12 2018-11-06 武汉斗鱼网络科技有限公司 一种直播间内容标签权重计算方法、装置及电子设备
CN108845986A (zh) * 2018-05-30 2018-11-20 中兴通讯股份有限公司 一种情感分析方法、设备及系统、计算机可读存储介质
CN108984775A (zh) * 2018-07-24 2018-12-11 南京新贝金服科技有限公司 一种基于商品评论的舆情监控方法及系统
CN109086393A (zh) * 2018-07-27 2018-12-25 贵州中科恒运软件科技有限公司 一种舆情分析系统及方法
CN109145068A (zh) * 2018-07-12 2019-01-04 百度在线网络技术(北京)有限公司 地图更新方法及装置
CN109241529A (zh) * 2018-08-29 2019-01-18 中国联合网络通信集团有限公司 观点标签的确定方法和装置
CN109523082A (zh) * 2018-11-20 2019-03-26 广东机场白云信息科技有限公司 一种基于cnn-lstm航班正常放行率预测的方法
CN109597997A (zh) * 2018-12-07 2019-04-09 上海宏原信息科技有限公司 基于评论实体、方面级情感分类方法和装置及其模型训练
CN109858013A (zh) * 2018-06-01 2019-06-07 安徽省泰岳祥升软件有限公司 一种有监督的词向量训练方法及装置
CN109902168A (zh) * 2019-01-25 2019-06-18 北京创新者信息技术有限公司 一种专利评价方法和系统
CN110110137A (zh) * 2019-03-19 2019-08-09 咪咕音乐有限公司 一种确定音乐特征的方法、装置、电子设备及存储介质
CN110263134A (zh) * 2019-05-09 2019-09-20 平安科技(深圳)有限公司 智能化情感问答方法、装置及计算机可读存储介质
CN110362676A (zh) * 2018-04-08 2019-10-22 彩数(上海)商务咨询有限公司 一种cdrnn神经网络自然语义分析系统及方法
CN110390097A (zh) * 2019-06-05 2019-10-29 北京大学(天津滨海)新一代信息技术研究院 一种基于应用内实时数据的情感分析方法和系统
CN110413993A (zh) * 2019-06-26 2019-11-05 重庆兆光科技股份有限公司 一种基于稀疏权值神经网络的语义分类方法、系统和介质
CN110427458A (zh) * 2019-07-03 2019-11-08 南京理工大学 基于双门lstm的社交网络双语的五分类情感分析方法
CN110609899A (zh) * 2019-08-29 2019-12-24 成都信息工程大学 一种基于改进bert模型的特定目标情感分类方法
CN110705303A (zh) * 2019-07-23 2020-01-17 广东数鼎科技有限公司 一种基于大数据的产品形象效果评估系统
CN110717325A (zh) * 2019-09-04 2020-01-21 北京三快在线科技有限公司 文本的情感分析方法、装置、电子设备及存储介质
CN110929034A (zh) * 2019-11-26 2020-03-27 北京工商大学 一种基于改进lstm的商品评论细粒度情感分类方法
CN111400494A (zh) * 2020-03-16 2020-07-10 江南大学 一种基于GCN-Attention的情感分析方法
CN111651981A (zh) * 2019-02-19 2020-09-11 阿里巴巴集团控股有限公司 数据的审核方法、装置及设备
CN111651652A (zh) * 2020-04-30 2020-09-11 中国平安财产保险股份有限公司 基于人工智能的情感倾向识别方法、装置、设备及介质
CN111881676A (zh) * 2020-07-03 2020-11-03 南京航空航天大学 一种基于词向量和情感词性的情感分类方法
CN112950019A (zh) * 2021-03-01 2021-06-11 昆明电力交易中心有限责任公司 一种基于联合注意力机制的售电公司评价情感分类方法
CN113035193A (zh) * 2021-03-01 2021-06-25 上海匠芯知音信息科技有限公司 一种员工管理系统及应用
US20210390473A1 (en) * 2018-09-30 2021-12-16 Inno Management Consultation (Beijing) Ltd. Evaluation method and system of enterprise competition barriers

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160180838A1 (en) * 2014-12-22 2016-06-23 Google Inc. User specified keyword spotting using long short term memory neural network feature extractor
CN106294684A (zh) * 2016-08-06 2017-01-04 上海高欣计算机系统有限公司 词向量的文本分类方法及终端设备
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN106776581A (zh) * 2017-02-21 2017-05-31 浙江工商大学 基于深度学习的主观性文本情感分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160180838A1 (en) * 2014-12-22 2016-06-23 Google Inc. User specified keyword spotting using long short term memory neural network feature extractor
CN106294684A (zh) * 2016-08-06 2017-01-04 上海高欣计算机系统有限公司 词向量的文本分类方法及终端设备
CN106599933A (zh) * 2016-12-26 2017-04-26 哈尔滨工业大学 一种基于联合深度学习模型的文本情感分类方法
CN106776581A (zh) * 2017-02-21 2017-05-31 浙江工商大学 基于深度学习的主观性文本情感分析方法

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108363753B (zh) * 2018-01-30 2020-05-19 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108268449A (zh) * 2018-02-10 2018-07-10 北京工业大学 一种基于词项聚类的文本语义标签抽取方法
CN108665339A (zh) * 2018-03-27 2018-10-16 北京航空航天大学 一种基于主观情感测度的电商产品可靠性指标及其实现方法
CN108536784A (zh) * 2018-03-29 2018-09-14 广州优视网络科技有限公司 评论信息情感分析方法、装置、计算机存储介质和服务器
CN108536784B (zh) * 2018-03-29 2021-08-24 阿里巴巴(中国)有限公司 评论信息情感分析方法、装置、计算机存储介质和服务器
CN110362676A (zh) * 2018-04-08 2019-10-22 彩数(上海)商务咨询有限公司 一种cdrnn神经网络自然语义分析系统及方法
CN108763189B (zh) * 2018-04-12 2022-03-25 武汉斗鱼网络科技有限公司 一种直播间内容标签权重计算方法、装置及电子设备
CN108763189A (zh) * 2018-04-12 2018-11-06 武汉斗鱼网络科技有限公司 一种直播间内容标签权重计算方法、装置及电子设备
CN108573411A (zh) * 2018-04-17 2018-09-25 重庆理工大学 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN108573411B (zh) * 2018-04-17 2021-09-21 重庆理工大学 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN108845986A (zh) * 2018-05-30 2018-11-20 中兴通讯股份有限公司 一种情感分析方法、设备及系统、计算机可读存储介质
CN109858013B (zh) * 2018-06-01 2022-12-16 安徽省泰岳祥升软件有限公司 一种有监督的词向量训练方法及装置
CN109858013A (zh) * 2018-06-01 2019-06-07 安徽省泰岳祥升软件有限公司 一种有监督的词向量训练方法及装置
CN109145068A (zh) * 2018-07-12 2019-01-04 百度在线网络技术(北京)有限公司 地图更新方法及装置
CN109145068B (zh) * 2018-07-12 2021-06-04 百度在线网络技术(北京)有限公司 地图更新方法及装置
CN108984775A (zh) * 2018-07-24 2018-12-11 南京新贝金服科技有限公司 一种基于商品评论的舆情监控方法及系统
CN109086393A (zh) * 2018-07-27 2018-12-25 贵州中科恒运软件科技有限公司 一种舆情分析系统及方法
CN109241529B (zh) * 2018-08-29 2023-05-02 中国联合网络通信集团有限公司 观点标签的确定方法和装置
CN109241529A (zh) * 2018-08-29 2019-01-18 中国联合网络通信集团有限公司 观点标签的确定方法和装置
US20210390473A1 (en) * 2018-09-30 2021-12-16 Inno Management Consultation (Beijing) Ltd. Evaluation method and system of enterprise competition barriers
CN109523082A (zh) * 2018-11-20 2019-03-26 广东机场白云信息科技有限公司 一种基于cnn-lstm航班正常放行率预测的方法
CN109523082B (zh) * 2018-11-20 2023-12-22 广东机场白云信息科技股份有限公司 一种基于cnn-lstm航班正常放行率预测的方法
CN109597997B (zh) * 2018-12-07 2023-05-02 上海宏原信息科技有限公司 基于评论实体、方面级情感分类方法和装置及其模型训练
CN109597997A (zh) * 2018-12-07 2019-04-09 上海宏原信息科技有限公司 基于评论实体、方面级情感分类方法和装置及其模型训练
US11847152B2 (en) 2019-01-25 2023-12-19 Beijing Innovator Information Technology Co., Ltd. Patent evaluation method and system that aggregate patents based on technical clustering
CN109902168A (zh) * 2019-01-25 2019-06-18 北京创新者信息技术有限公司 一种专利评价方法和系统
CN111651981A (zh) * 2019-02-19 2020-09-11 阿里巴巴集团控股有限公司 数据的审核方法、装置及设备
CN111651981B (zh) * 2019-02-19 2023-04-21 阿里巴巴集团控股有限公司 数据的审核方法、装置及设备
CN110110137A (zh) * 2019-03-19 2019-08-09 咪咕音乐有限公司 一种确定音乐特征的方法、装置、电子设备及存储介质
CN110263134B (zh) * 2019-05-09 2023-06-27 平安科技(深圳)有限公司 智能化情感问答方法、装置及计算机可读存储介质
CN110263134A (zh) * 2019-05-09 2019-09-20 平安科技(深圳)有限公司 智能化情感问答方法、装置及计算机可读存储介质
CN110390097A (zh) * 2019-06-05 2019-10-29 北京大学(天津滨海)新一代信息技术研究院 一种基于应用内实时数据的情感分析方法和系统
CN110413993A (zh) * 2019-06-26 2019-11-05 重庆兆光科技股份有限公司 一种基于稀疏权值神经网络的语义分类方法、系统和介质
CN110427458A (zh) * 2019-07-03 2019-11-08 南京理工大学 基于双门lstm的社交网络双语的五分类情感分析方法
CN110427458B (zh) * 2019-07-03 2022-10-14 南京理工大学 基于双门lstm的社交网络双语的五分类情感分析方法
CN110705303A (zh) * 2019-07-23 2020-01-17 广东数鼎科技有限公司 一种基于大数据的产品形象效果评估系统
CN110609899A (zh) * 2019-08-29 2019-12-24 成都信息工程大学 一种基于改进bert模型的特定目标情感分类方法
CN110609899B (zh) * 2019-08-29 2022-04-19 成都信息工程大学 一种基于改进bert模型的特定目标情感分类方法
CN110717325A (zh) * 2019-09-04 2020-01-21 北京三快在线科技有限公司 文本的情感分析方法、装置、电子设备及存储介质
CN110929034A (zh) * 2019-11-26 2020-03-27 北京工商大学 一种基于改进lstm的商品评论细粒度情感分类方法
CN111400494A (zh) * 2020-03-16 2020-07-10 江南大学 一种基于GCN-Attention的情感分析方法
CN111400494B (zh) * 2020-03-16 2023-07-07 江南大学 一种基于GCN-Attention的情感分析方法
CN111651652A (zh) * 2020-04-30 2020-09-11 中国平安财产保险股份有限公司 基于人工智能的情感倾向识别方法、装置、设备及介质
CN111651652B (zh) * 2020-04-30 2023-11-10 中国平安财产保险股份有限公司 基于人工智能的情感倾向识别方法、装置、设备及介质
CN111881676A (zh) * 2020-07-03 2020-11-03 南京航空航天大学 一种基于词向量和情感词性的情感分类方法
CN111881676B (zh) * 2020-07-03 2024-03-15 南京航空航天大学 一种基于词向量和情感词性的情感分类方法
CN112950019A (zh) * 2021-03-01 2021-06-11 昆明电力交易中心有限责任公司 一种基于联合注意力机制的售电公司评价情感分类方法
CN113035193A (zh) * 2021-03-01 2021-06-25 上海匠芯知音信息科技有限公司 一种员工管理系统及应用
CN112950019B (zh) * 2021-03-01 2024-03-29 昆明电力交易中心有限责任公司 一种基于联合注意力机制的售电公司评价情感分类方法
CN113035193B (zh) * 2021-03-01 2024-04-12 上海匠芯知音信息科技有限公司 一种员工管理系统及应用

Similar Documents

Publication Publication Date Title
CN107544957A (zh) 一种面向商品目标词的情感倾向分析方法
CN106372058B (zh) 一种基于深度学习的短文本情感要素抽取方法及装置
CN110008338B (zh) 一种融合gan和迁移学习的电商评价情感分析方法
CN110287320B (zh) 一种结合注意力机制的深度学习多分类情感分析模型
Wang et al. Coupled multi-layer attentions for co-extraction of aspect and opinion terms
CN107133224B (zh) 一种基于主题词的语言生成方法
Gallant et al. Representing objects, relations, and sequences
CN108363695B (zh) 一种基于双向依赖语法树表征的用户评论属性抽取方法
CN109284506A (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN110728541A (zh) 信息流媒体广告创意推荐方法及装置
Wen et al. Dynamic interactive multiview memory network for emotion recognition in conversation
CN107729309A (zh) 一种基于深度学习的中文语义分析的方法及装置
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN107357793A (zh) 信息推荐方法和装置
CN110502626A (zh) 一种基于卷积神经网络的方面级情感分析方法
CN108475264A (zh) 机器翻译方法和装置
Wen et al. Recurrent convolutional neural network with attention for twitter and yelp sentiment classification: ARC model for sentiment classification
Ma et al. Deformable self-attention for text classification
Wang et al. Learning outfit compatibility with graph attention network and visual-semantic embedding
Wang et al. Sentiment analysis of commodity reviews based on ALBERT-LSTM
Xiong et al. Multi-task sentiment classification model based on DistilBert and multi-scale CNN
Liu et al. Learning local and global multi-context representations for document classification
Qian et al. A self-attentive convolutional neural networks for emotion classification on user-generated contents
CN114443846A (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
Zhao et al. Fusion with GCN and SE-ResNeXt network for aspect based multimodal sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180105