CN109190118A - 基于流水线式神经网络的短语层次情感强度预测方法 - Google Patents
基于流水线式神经网络的短语层次情感强度预测方法 Download PDFInfo
- Publication number
- CN109190118A CN109190118A CN201810936283.9A CN201810936283A CN109190118A CN 109190118 A CN109190118 A CN 109190118A CN 201810936283 A CN201810936283 A CN 201810936283A CN 109190118 A CN109190118 A CN 109190118A
- Authority
- CN
- China
- Prior art keywords
- neural network
- emotion
- modifier
- intensity
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 129
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 105
- 230000002996 emotional effect Effects 0.000 title claims abstract description 92
- 230000008451 emotion Effects 0.000 claims abstract description 193
- 238000012549 training Methods 0.000 claims abstract description 84
- 230000008569 process Effects 0.000 claims abstract description 37
- 239000003607 modifier Substances 0.000 claims description 124
- 239000013598 vector Substances 0.000 claims description 39
- 238000012986 modification Methods 0.000 claims description 33
- 230000004048 modification Effects 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000000051 modifying effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000009827 uniform distribution Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 7
- 230000001976 improved effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000011426 transformation method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 241000201976 Polycarpon Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 208000020016 psychiatric disease Diseases 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于流水线式神经网络的短语层次情感强度预测方法,来预测单个词汇的情感强度,其预测方法包括训练过程和预测过程,所述的训练过程包括预测情感实词情感强度的神经网络的训练,预测情感实词情感强度的神经网络的训练包括如下步骤:(a1)建立种子词汇训练库;(a2)构建神经网络;(a3)使用步骤(a1)的种子词汇训练库对步骤(a2)的神经网络进行预测情感实词情感强度的神经网络的训练。本发明还提供一种基于流水线式神经网络的短语层次情感强度预测方法,来预测修饰词短语和多词汇构成的短语的情感强度,本发明有效地学习修饰词的权重并且在短语层次的情感强度预测中达到更精确的结果。
Description
技术领域
本发明涉及一种文本情感分析,更具体地说涉及一种基于流水线式神经网络的短语层次情感强度预测方法。
背景技术
目前,情感分析技术被广泛地应用于各个领域,例如用户评价分析、观点挖掘等等。有相同倾向(同为积极或消极)的情感表达时,若能用一个实数值来表达情感的强度,就可以让我们对情感的表达有着更精确的分析。例如,同为褒义的“绝佳”和“好”两个词,他们表达的情感强度确是不一样的(“绝佳”在情感表达上比“好”更强)。情感强度预测能够提供更细致的情感分析,这对许多应用都有益处。例如,在线评论系统中,一些来自于某些用户针对某产品情绪表达强烈的评论使另一些用户购买该产品的销量增大。基于此,情感强度分析不仅考虑了情感的极性,更关注了情感的强度,促使了评论排名算法的发展。一个研究报告表明,在不同类别群众的评论社区内,抑郁社区中的人群比照正常社区中的人群,他们会表现出更多的负面情绪,因此情感强度能帮助识别出有精神疾病的高危险群体,情感强度同时也是热点探测和预测、问答系统、股票消息分类和社交文本分析的关键技术。
修饰词短语通常包含一个情感实词和若干修饰词,例如“有点不开心”中,“有点”和“不”为修饰词,“开心”为情感实词。其中,修饰词又分为否定词(如“不”、“绝不”)、强调词(如“非常”、“轻微的”)和情态动词(如“可能”、“也许”)等等。这些修饰语能够改变或者反转它们所修饰情感实词的情感强度值,因此它们在文本情感强度识别时扮演着非常重要的角色。例如,否定词能改变情感的极性(“好”和“不好”),但有时,否定词也不总是产生极性反转的作用,它可能只是把词汇向词汇极性相反的方向改变一定的强度,以“并非绝佳”为例,“并非”仅仅是把“绝佳”的情感强度减弱了一点,但是并没有反转“绝佳”的情感极性。同样,强调词和情态动词也对它们所修饰的词的情感强度有着不同的转化。一个优越的模型是能够把这些修饰词的作用准确地应用到文本中以提升情感强度预测的性能。因此,这个发明一方面要预测情感实词的情感强度,另一方面也要预测修饰词的权重,并最终实现对短语层次的情感强度预测。目前,许多种子词汇训练库都提供了使用连续实数值来表示词汇或句子的情感强度值,这些种子词汇训练库不仅能让许多应用获益于其细粒度化的情感强度,而且也作为种子种子词汇训练库帮助预测其他词汇的情感强度。现有的两种方法能够生成词汇的情感,分别是基于回归的方法和网页排名(PageRank)算法。两种方法步骤相似,首先是相似度计算,利用已经标记好的词汇情感强度作为种子种子词汇训练库,计算其他未标定的词汇与预料库中词汇的相似度,然后通过计算模型预测出词汇的情感强度。
1)基于回归的方法
Wei et at.利用英文的ANEW(Affective Norms for English Words英语词汇的情感规范)的种子词汇训练库对中文进行情感强度值的预测。
Malandrakis et al.提出了一种使用核函数把词汇相似度引入到线性回归模型中的方法,对未标定情感强度的词汇进行情感强度预测。
Amir et al.使用支持向量回归(SVR)直接对词嵌入的词向量进行训练,从而实现了对Twitter中积极性质的词汇进行情感强度预测。
2)PageRank算法
PageRank算法是一个计算图结点的重要性算法,Esuli et al.提出使用PageRank算法进行词汇的的排序分数计算,该排序分数也可以作为情感强度值的预测结果。
(2)对于短语情感强度预测的技术
对于短语层次(例如:“不坏”、“可能不是很好”等)的情感强度预测,目前主流的方法有基于启发式和基于学习式的方法。
1)基于启发式规则的方法
修饰短语分析目前主要采用基于启发式规则的方法,即为每种修饰词指定一个固定的权重,决定其对于实词的情感强度增加或减少的数值。根据修饰作用的不同又可分为:反转法和增减法。反转法一般用于处理否定词,包括“不”、“不是”、“没”和“没有”等。早期研究工作认为否定词会造成情感实词的极性(polarity)反转,即若给定“好”的情感强度为2,通过反转法的处理,“不好”转化为-2。
增减法专用于处理增强词、减弱词和情态动词,该方法又可分为:固定值增减法和百分比增减法。固定值增减法通常在实词的情感强度上增减一个值,例如Senti-strength算法的研究中通过人工的方式指定每个修饰词一个增减值,若给定实词“好”的情感强度是+2,并指派增强词“非常”的修饰权重为固定增加情感强度为+1,因此,“非常好”最终的情感强度为2+1=3。需要注意的是,对于负向实词,增强词“非常”的修饰权重为减少情感强度。因此与“好”一样,若“坏”的情感强度是-2,那“非常坏”最终的情感强度为-2-1=-3。也有一些研究通过统计的方法,计算得到每个修饰词的固定增减值。例如在Vader情绪分析中,所有增强词的修饰权重通过统计后,选取为增强词固定增加0.293,而减弱词的修饰权重为固定减少0.293。
百分比增减法通常以一个百分比增减实词的情感值,例如在Taboada et al.在“Lexicon-based methods for sentiment analysis(基于词典的情感分析方法)”中提出的So-Cal方法,其通过人工指定了“困难”的情感强度为-2,“有点”的修饰权重为减少30%,由此,“有点困难”的情感强度为-2*(100%-30%)=-1.4。基于上述规则,目前一些研究也使用一些联合模型进行修饰短语的情感强度预测工作,并提出一些修饰权重的自动获取方法。
2)基于学习的方法
基于学习的方法在短语层次情感分析中,根据分析的粒度可以划分为极性(polarity)、序数(ordinal)、强度(intensity)三个级别。对于极性级别,修饰语通常被编码为二类特征(例如积极的或消极的),以便修饰词和他们所修饰的词汇之间的关系能够被分类器捕获以预测短语的极性标签。对于序数级别,Yessenalina and Cardie提出了一中基于矩阵的方法,它们通过一个矩阵来表示一个单词,然后使用迭代矩阵乘法将多个单词组合成为短语的序数标签(非常消极、消极、中立、积极或非常积极等)。对于强度级别,Wanget al.将短语强度预测视为排名问题,他们使用学习排序和成对策略来预测词汇和短语的情感强度,并结合了多种语言和情感特征作为输入,提升了模型的性能。
Lence et al.使用高斯过程回归模型结合多类特征集进行情感分析,多类特征包括情感强度种子词汇训练库、词嵌入向量和修饰词特征。修饰词特征中,否定词使用开关模型,强调词(增强词和减弱词)则采用百分比移位模型进行处理。
Htait et al.使用了一种名为PMI(pointwise mutual information)的无监督方法,模型通过搜索引擎获得的积极性质的词和消极的词,利用它们的同现频率来计算单词和短语的情感强度。
以上实现的方法都没有准确的调整出修饰词在文章中应该有的权重,其中大部分方法还是通过分类器训练矩阵计算或成对排序等隐式的方法模拟修饰词的效果,以至于没能充分发挥修饰词的真实作用。而且,大部分基于学习的方法都没有充分发挥基于启发式方法思想的优越性。
发明内容
为解决上述技术方案中存在的不足,本发明提供一种基于流水线式神经网络的短语层次情感强度预测方法,来预测单个词汇的情感强度,其预测方法包括训练过程和预测过程,所述的训练过程包括预测情感实词情感强度的神经网络的训练,
预测情感实词情感强度的神经网络的训练包括如下步骤:
(a1)建立种子词汇训练库,所述的种子词汇为已经标记情感强度的情感实词;
(a2)构建神经网络,所述的神经网络采用依次连接的输入层、隐含层、输出层的结构;
(a3)使用步骤(a1)的种子词汇训练库对步骤(a2)的神经网络进行预测情感实词情感强度的神经网络的训练;
所述的预测过程包括如下步骤:
(d1)将待预测的单个词汇输入步骤(a3)训练好的预测情感实词情感强度的神经网络,输出待预测的单个词汇的情感强度。
其进一步的技术方案为:步骤(d1)中,待预测的单个词汇的情感强度可由以下公式计算得出:Int(w)=hw,b(Sw,X),其中,w为待预测的单个词汇,Int(w)为w的情感强度值,Int(w)用0到1之间的实数表示,h为我们所设定的非线性假设函数,表示w和种子词汇训练库中的种子词汇集合之间的相似度,Sw通过word2vec训练的词嵌入向量之间余弦距离计算而得,表示种子词汇的情感强度值,n表示种子词汇的个数。
其进一步的技术方案为:步骤(d1)中,步骤(a3)训练好的预测情感实词情感强度的神经网络,
其输入层:输入待预测的词汇和种子词汇的相似度Sw和种子词汇的的情感强度值X;
其隐含层:将输入层中待预测的词汇和种子词汇的相似度Sw重新赋予权重得到Aw:
Aw=g(W(1)Sw+b(1))
g为sigmoid函数,把输出的结果截断在0到1之间;
其输出层:通过种子词汇的情感强度值X和重新赋权重的相似度Aw预测单个词汇的情感强度值Int(w):
Int(w)=W(2)(AWX)+b(2);
其中W和b,分别表示向量的权重和偏量,其中(W,b)=(W(1),,b(1),,W(2),,b(2)),W1和b1分别表示第1层的向量权重和偏量,W2和b2分别表示第2层的向量权重和偏量;
预测过程步骤(d1)预测单个词汇的情感强度值如下:
利用平方误差作为损失函数,用U(-0.01,0.01)的均匀分布初始化参数W和b,使用批量随机梯度下降的反向传播算法最小化损失函数,每次迭代,都更新权重W和偏量b,隐含层被重新赋权值的Aw就会把对待预测的单个词汇贡献度大的种子词汇分配更高的权重,迭代多次后输出待预测的单个词汇的情感强度。
本发明还公开了一种基于流水线式神经网络的短语层次情感强度预测方法,可以预测修饰词短语的情感强度,待预测的修饰词短语由被修饰词和修饰词构成,其预测方法包括训练过程和预测过程,所述的训练过程包括预测情感实词情感强度的神经网络的训练和修饰词权重的学习,
预测情感实词情感强度的神经网络的训练包括如下步骤:
(b1)建立种子词汇训练库,所述的种子词汇为已经标记情感强度的情感实词;
(b2)构建神经网络,所述的神经网络采用依次连接的输入层、隐含层、输出层的结构;
(b3)使用步骤(b1)的种子词汇训练库对步骤(b2)的神经网络进行预测情感实词情感强度的神经网络的训练;
修饰词权重的学习包括如下步骤:
(c1)建立修饰词短语训练库,所述的修饰词短语为已经标记情感强度的修饰词短语数据集;
(c2)构建神经网络,所述的神经网络采用依次连接的输入层、隐含层、输出层的结构;
(c3)步骤(c2)的神经网络使用步骤(c1)的修饰词短语训练库学习修饰词修饰权重得到预测修饰词修饰权重的神经网络;
所述的预测过程包括如下步骤:
(d2)将其被修饰词输入步骤(b3)训练好的预测情感实词情感强度的神经网络,输出被修饰词的情感强度;其修饰词输入步骤(c3)学习好的预测修饰词修饰权重的神经网络,输出修饰词修饰权重;输出的修饰词修饰权重和输出的被修饰词的情感值重新作为输入,输出待预测的修饰词短语的情感强度。
其进一步的技术方案为:步骤(d2)中,待预测的修饰词短语的情感强度值可由以下公式计算得出:
Int(modw)=hw,b(Int(w),vec(mod))
其中,mod w为待预测的修饰词短语,Int(mod w)为待预测的修饰词短语情感强度值,Int(mod w)用0到1之间的实数表示,h为我们所设定的非线性假设函数,Int(w)和分别为被修饰词w的情感强度值和修饰词mod的词嵌入向量,d表示词向量的维度。
其进一步的技术方案为:步骤(d2)中,步骤(b3)训练好的预测情感实词情感强度的神经网络和步骤(c3)学习好的预测修饰词修饰权重的神经网络构成的流水线式神经网络,
其输入层:输入被修饰词w的情感强度值Int(w)和修饰词mod的词嵌入向量
其隐含层:修饰词mod的向量权重更新为:
C(mod)=g(W(1)·vec(mod)+b(1))
g为sigmoid函数,把输出的结果截断在0到1之间;
其输出层:利用更新权重后的修饰词向量C(mod)和被修饰词的情感强度Int(w)预测短语的情感强度值Int(mod w),计算公式如下:
其中其中,W和b分别表示向量的权重和偏量,其中(W,b)=(W(1),b(1),W(2),b(2)),W(l)和b(l)分别表示第l层的向量权重和偏量,
预测过程步骤(d2)预测修饰词短语的过程如下:
利用平方误差作为损失函数,用U(-0.01,0.01)的均匀分布初始化参数W和b,使用批量随机梯度下降的反向传播算法最小化损失函数,每次迭代,都更新权重W和偏量b,迭代多次后,输出修饰词短语的情感强度。
本发明还公开了一个基于流水线式神经网络的短语层次情感强度预测方法,可以预测多修饰词的短语情感强度,该流水线式神经网络递归地结合被修饰词和其相近地修饰词的权重计算多修饰词的短语的情感值,其计算公式如下:
其中,表示一个有n个修饰词的短语(n≥1)。。
与现有技术相比,本发明的优点在于:
(1)有效地学习修饰词的权重并且在短语层次的情感强度预测中达到更精确的结果;
(2)能够提升基于启发式方法在情感强度预测中的性能。
附图说明
图1是本发明的流水线式神经网络的流程框架图;
图2是本发明的流水线式神经网络对单个词汇情感强度预测的框架图;
图3是本发明的流水线式神经网络对修饰词短语情感强度预测的框架图;
图4是一个多修饰词短语的情感强度预测过程图。
具体实施方式
以下结合说明书附图和具体实施例对本发明作进一步描述。
实施例
如图1所示,流水线式神经网络,由预测情感实词w情感强度Int(w)的神经网络、预测修饰词mod修饰权重C(mod)的神经网络构成,预测情感实词w情感强度Int(w)的神经网络使用已经标记情感强度的情感实词作为种子词汇训练库进行训练获得Int(w),预测修饰词mod修饰权重C(mod)的神经网络使用已经标记情感强度的修饰词短语数据集学习修饰词的权重获得C(mod),然后进行短语情感强度预测获得Int(modw)。
该流水线式神经网络模型能预测单个词汇、修饰词短语和多词汇构成的短语的情感强度。
(1)单个词汇的情感强度预测
目前的情感强度种子词汇训练库并没有包含所有的词汇,因此,预测情感实词情感强度的神经网络能利用种子词汇训练库中的种子词汇来预测未标定的词汇,如图2所示,图2展示了流水线式神经网络对单个词汇的情感强度预测,该流水线式神经网络包括依次连接的三层:输入层(L1)、隐含层(L2)和输出层(L3)。
假设w为未标定的词汇,那么w的情感强度值可表示为Int(w),情感强度用0到1之间的实数表示,定义为:
Int(w)=hw,b(Sw,X)
其中,h为我们所设定的非线性假设函数,表示w和种子词汇训练库中的种子词汇之间的相似度,表示种子词汇的情感强度值,n表示种子词汇的个数,Sw通过word2vec训练的词嵌入向量之间余弦距离计算而得。
输入层(L1):输入层中,Sw和X作为输入层的输入。
隐含层(L2):隐含层通过如下公式进行计算:Aw=g(W(1)Sw+b(1)),利用一个非线性转换方法,将输入层中Sw重新赋予权重,得到Aw。
输出层(L3):输出层通过如下公式进行计算:Int(w)=W(2)(AWX)+b(2),通过结合种子词汇的情感强度值X和重新赋权的相似度Aw预测未标定词汇的情感强度值。
预测情感实词情感强度的神经网络的三个层中,都包含两个参数,分别是W和b,分别表示向量的权重和偏量,其中(W,b)=(W(1),b(1),W(2),b(2)),W(l)和b(l)分别表示第l层的向量权重和偏量。
单个词汇的情感强度预测方法包括训练过程和预测过程,所述的训练过程包括预测情感实词情感强度的神经网络的训练,
预测情感实词情感强度的神经网络的训练包括如下步骤:
(a1)建立种子词汇训练库,所述的种子词汇为已经标记情感强度的情感实词;
(a2)构建神经网络;
(a3)使用步骤(a1)的种子词汇训练库对步骤(a2)的预测情感实词情感强度的神经网络进行训练,
所述的预测过程包括如下步骤:
(d1)将待预测的单个词汇输入步骤(a3)训练好的预测情感实词情感强度的神经网络,输出待预测的单个词汇的情感强度。
上述(d1)步骤具体方法如下:利用平方误差作为损失函数,用U(-0.01,0.01)的均匀分布初始化参数W和b,使用批量随机梯度下降的反向传播算法最小化损失函数,每次迭代,都更新权重W和偏量b,迭代多次后,得到本次训练的预测情感实词情感强度的神经网络。例如,每次更新W(l)和b(l)时,隐含层被重新赋权值的Aw就会把对未标定的词汇贡献度大的种子词汇分配更高的权重,这样就能保证预测的结果更加准确。
在隐含层中能选择最合适的一类词汇作为种子词汇来预测未标定词汇,这类种子词汇和未标定词汇的语义相似度最大,因而能够取得更好的预测结果。
(2)修饰词短语情感强度预测
修饰词短语modw由一个修饰词mod和被修饰词(情感实词)w构成,修饰词短语modw情感强度Int(modw)由基于学习的修饰词mod权重和被修饰词(情感实词)w的情感值所预测。
修饰词短语情感强度预测方法包括训练过程和预测过程,所述的训练过程包括预测情感实词情感强度的神经网络的训练和修饰词权重的学习,
预测情感实词情感强度的神经网络的训练包括如下步骤:
(b1)建立种子词汇训练库,所述的种子词汇为已经标记情感强度的情感实词;
(b2)构建神经网络,所述的神经网络采用依次连接的输入层、隐含层、输出层的结构;
(b3)使用步骤(b1)的种子词汇训练库对步骤(b2)的神经网络进行预测情感实词情感强度的神经网络的训练;
不同的修饰词对被修饰词有着不一样的修饰效果,同为否定词、强调词或情态动词都有着不一样的作用。对修饰词权重的学习能有效地发挥修饰词在短语中的作用,从而对短语情感强度的预测有更精确的结果。
修饰词权重的学习包括如下步骤:
(c1)建立修饰词短语训练库,所述的修饰词短语为已经标记情感强度的修饰词短语数据集;
(c2)构建神经网络;
(c3)学习修饰词修饰权重:步骤(c2)的神经网络使用步骤(c1)的修饰词短语训练库学习修饰词修饰权重,得到预测修饰词修饰权重的神经网络;
可见,预测修饰词修饰权重的神经网络其修饰词权重的学习和上述预测情感实词情感强度的神经网络的训练过程类似;
所述的预测过程包括如下步骤:
(d2)将其被修饰词输入步骤(b3)训练好的预测情感实词情感强度的神经网络,输出被修饰词的情感强度;其修饰词输入步骤(c3)学习好的预测修饰词修饰权重的神经网络,输出修饰词修饰权重;输出的修饰词修饰权重和输出的被修饰词的情感值重新作为输入,输出待预测的修饰词短语的情感强度。
如图3所示,图3为流水线式神经网络对修饰词短语情感强度预测的框架图。假设h为预测修饰词修饰权重的神经网络的非线性假设函数,modw为需要预测情感强度的修饰词短语,Int(mod w)表示该修饰词短语的情感强度值,输出层通过如下公式进行计算而得:
Int(mod w)=hW,b(Int(w),vec(mod))
其中,Int(mod w)∈[0,1]表示修饰词短语mod w情感强度值,Int(w)和分别为情感实词w的情感强度值和修饰词mod的词嵌入向量,d表示词向量的维度。
具体地,流水线式神经网络,
其输入层(L1):输入Int(w)和Int(w)和分别为情感实词w的情感强度值和修饰词mod的词嵌入向量。
其隐含层(L2):在隐含层中,修饰词mod的向量权重更新为:
C(mod)=g(W(1)·vec(mod)+b(1))
g为sigmoid函数,把输出的结果截断在0到1之间。
其输出层(L3):输出层利用更新权重后的修饰词向量C(mod)和被修饰词的情感强度Int(w)预测短语的情感强度值Int(mod w),计算公式如下:
其中
该流水线式神经网络模型预测修饰词短语的情感强度值的过程和预测上述单个词汇情感值的过程类似。
其预测过程步骤(d2)预测修饰词短语的过程如下:
利用平方误差作为损失函数,用U(-0.01,0.01)的均匀分布初始化参数W和b,使用批量随机梯度下降的反向传播算法最小化损失函数,每次迭代,都更新权重W和偏量b,迭代多次后,输出修饰词短语的情感强度。
(3)多修饰词的短语情感强度预测
对于短语存在多个修饰词的情形,流水线式的神经网络模型递归地结合被修饰词和其相近地修饰词的权重计算短语的情感强度,如下:
其中表示一个有n个修饰(n=1,2,3,...)词的短语。图4为一个多修饰词短语的情感强度预测流程图。以“可能不是非常好”为例,首先,被修饰词为“好”,离它最近的修饰词为“非常”,先把“非常”的权重运用到“好”上,然后把“非常好”作为一个被修饰词,再把“不是”的权重运用到“非常好”上面,以此迭代,当修饰词都运用后,短语情感强度值预测完毕。
为检验本发明的技术效果,我们对单个词汇和对修饰词短语进行了预测,并对结果进行了评估,同时与以上现有技术提到的方法进行比较,验证本发明的优越性。
(I)实验数据的采集
模型使用如技术解决方案里面提到的ANEW和SST作为训练集,其中AENW种子词汇训练库包括1340个词汇,它们使用范围1到9的实数值表示它们的情感强度,我们将其情感强度转换到0到1之间的实数值来匹配我们的实验;SST包含8544个训练文本,2210个测试文本和1101个验证文本,每个文本的数值标定在0至1之间,我们只采用了其中的两个词组成的短语(共1875个)作为模型的训练集,加上SemEval-2016Task 7(general Englishsubtask)提供的短语训练集和去除和测试集重复的短语,训练集共有2130个短语作为训练集。测试集我们采用的是SemEval提供的测试集,该测试集包含2799个样例(其中,1330个词汇和1469个短语),每个样例都标记了0到1的实数值作为其情感强度值,同时,SemEval还提供了验证集,帮助我们进行模型参数的优化。Google News word2vec skip-gram模型训练的300维词向量作为模型词嵌入的预训练词向量。
(II)评价指标
在整个实验过程中,官方提供两个评价指标,分别是:
1)肯达尔相关系数(τ).
2)斯皮尔曼相关系数(ρ).
(III)词汇情感强度预测实验
本次实验使用八种方法就单个词汇的情感强度预测结果进行了评估,这些方法分别是,1)基于回归的方法,包括:线性回归模型(后面统一以Liner-Reg表达)、支持向量机回归模型(后面统一以SVM-Reg表达)、核方法回归模型(后面统一以kernel_Reg表达)和高斯过程回归模型(后面统一以GP-Reg表达);2)基于排名的方法,包括:网页排名算法(后面统一以PageRank表达)和学习排序(英文全称Learning to Rank,后面统一以L2R表达);3)无监督方法,有PMI(英文全称pointwise mutual information)和4)本发明的流水线式的神经网络方法(后面统一以NNword表达)。表1为八种不同方法对单个词汇情感强度预测结果的评估与对比。
表1词汇情感强度预测的对比结果
从表1中,我们可以看出,本发明的流水线式的神经网络模型达到了最好的效果。这是因为我们的模型实现了一种非线性转换方法,在隐含层中,该方法能够调节待预测(未标定)词汇与种子词汇相似度的权重,把对预测词汇贡献度高的种子词汇向量分配更加合适的权重,而不是直接使用它们原始的相似度权重对词汇进行预测。其中,ECNU、UWB和LSIS分别表示三位参赛者在SemEval-2016Task 7中分别使用L2R、GP-Reg和PMI模型构建的系统,它们可直接使用并作为我们的对照实验。和我们模型相似的使用相似度对词汇进行预测的方法,比如PageRank、SVM-Reg、和Linear-Reg,它们没有考虑到干扰词汇对待测词汇的影响,因此我们的模型更胜一筹。GP-Reg模型,考虑到并使用词嵌入向量特征,然而有些干扰词汇有相似的词嵌入向量特征,因此也没避免这个问题。Kernel-Reg模型使用了核方法对相似度权重进行了转化,不管是线性的核方法还是非线性的核方法,它们都是单调函数,这就导致了原来权重较大的向量在经过转化后仍然有较大的权重,换句话说,这个模型不会像我们提供的模型那样削弱干扰词汇的权重,增强有用词汇的权重。我们还发现,如果把我们提供的模型隐含层中非线性转化方法改成核方法,那我们的模型将和kernel-Reg模型类似,以此为基础,可从表格中NNword和kernel-Reg表现的性能看出,我们提供的模型隐含层中非线性转换的方法能够在ρ和τ性能上提高19%和10%。
(IV)短语层次的情感强度预测实验
本次实验用我们提供的模型NNword+NNmod与前文提到的基于启发式和学习式的方法就多词汇短语情感强度预测的结果进行评估与比较。基于启发式学习的方法中,我们使用SentiStrength(Senti)、SoCal和Vader三种方法作为我们的对照实验,因为它们的模型公开易得,SentiStrength(Senti)是一个算法十分简便的情感分析工具,Vader是公开的情感词典。同时SemEval竞赛中的L2R(ECNU)、GP-Reg(UWB)和PMI(LSIS)三种现成的系统方法也作为我们的比较对象。我们的模型结合NNword(预测词汇的情感强度模型)和NNmod(学习修饰词权重的模型)来预测短语的情感强度值。表2为不同方法对多词构成的短语情感强度预测结果的评估与对比。
表2短语情感强度预测的对比结果
通过表2中数据我们可以看出基于学习式的方法要比基于启发式和无监督的方法在短语情感强度预测的效果上要好,这也说明了修饰词权重的学习对短语的情感强度预测效果有着很大的提升。我们提出的模型NNword+NNmod取得了最好的效果,因为该模型考虑了组权重和个体权重来捕获修饰词的各种作用。对比表1和表2中的NN、L2R(ECNU)、GP-Reg(UWB)和PMI(LSIS)对词汇和短语的情感强度预测结果,除了GP-Reg(UWB)方法外,短语的预测性能都比词汇的预测性能低,在τ和ρ性能上,NN模型在短语预测上比词汇预测上降低了3%和1%,L2R(ECNU)降低了7%和3%,PMI(LSIS)各降低了23%,这可能因为(LSIS)没能有效获得可靠的多词短语的同现频率来计算它们的PMI值。
基于启发式的方法因为人工构建种子词汇训练库,这就导致很多不在种子词汇训练库里的词汇的情感强度无法获取而带来困扰。但这类问题可以通过自动预测未标定词汇的情感强度来解决,因此,我们使用NNword来预测种子词汇训练库没有包含的词汇的情感强度值来解决基于启发式方法中存在的问题。我们把NNword模型添加到各类基于启发式方法的模型中,表示为Vaderword+NN、SoCalword+NN和Sentiword+NN。实验结果如表3所示。
表3结合神经网络的启发式学习方法的实验结果
原始Vader、SoCal和Senti的语料词汇覆盖度分别为75%、82%和41%。在引入NNword模型后,它们的性能在τ上分别提高了4%、2%和12%,在ρ提高了5%、3%和13%。这些性能的提升主要是因为NNword模型的运用给未标定的词汇进行了情感强度预测,拓展了种子词汇训练库词汇的覆盖面。同时,我们使用基于启发式标定的种子词汇训练库结合我们提供的学习修饰词向量权重的方法,来提高基于启发式方法的性能。从表中我们也可已看出,此方法在原有性能提升的基础上有了进一步的提升,Vader、SoCal和Senti三种模型在τ性能上又提升了17%、28%和36%,在ρ又提高了15%、22%和42%。提升的效果表明,合适的修饰词的权重在解决单个词汇和多词短语情感强度预测任务中起着关键作用,同时也说明了我们的神经网络对于提升启发式方法的性能有着可观的效果。
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本领域技术人员可以在本发明的保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (7)
1.一种基于流水线式神经网络的短语层次情感强度预测方法,其特征在于:可以预测单个词汇的情感强度,其预测方法包括训练过程和预测过程,所述的训练过程包括预测情感实词情感强度的神经网络的训练,
预测情感实词情感强度的神经网络的训练包括如下步骤:
(a1)建立种子词汇训练库,所述的种子词汇为已经标记情感强度的情感实词;
(a2)构建神经网络,所述的神经网络采用依次连接的输入层、隐含层、输出层的结构;
(a3)使用步骤(a1)的种子词汇训练库对步骤(a2)的神经网络进行预测情感实词情感强度的神经网络的训练;
所述的预测过程包括如下步骤:
(d1)将待预测的单个词汇输入步骤(a3)训练好的预测情感实词情感强度的神经网络,输出待预测的单个词汇的情感强度。
2.如权利要求1所述的一种基于流水线式神经网络的短语层次情感强度预测方法,其特征在于:步骤(d1)中,待预测的单个词汇的情感强度可由以下公式计算得出:Int(w)=hw,b(Sw,X),其中,w为待预测的单个词汇,Int(w)为w的情感强度值,Int(w)用0到1之间的实数表示,h为我们所设定的非线性假设函数,表示w和种子词汇训练库中的种子词汇集合之间的相似度,Sw通过word2vec训练的词嵌入向量之间余弦距离计算而得,表示种子词汇的情感强度值,n表示种子词汇的个数。
3.如权利要求2所述的一种基于流水线式神经网络的短语层次情感强度预测方法,其特征在于:步骤(d1)中,步骤(a3)训练好的预测情感实词情感强度的神经网络,
其输入层:输入待预测的词汇和种子词汇的相似度Sw和种子词汇的的情感强度值X;
其隐含层:将输入层中待预测的词汇和种子词汇的相似度Sw重新赋予权重得到Aw:
Aw=g(W(1)Sw+b(1))
g为sigmoid函数,把输出的结果截断在0到1之间;
其输出层:通过种子词汇的情感强度值X和重新赋权重的相似度Aw预测单个词汇的情感强度值Int(w):
Int(w)=W(2)(AWX)+b(2);
其中W和b,分别表示向量的权重和偏量,其中(W,b)=(W(1),b(1),W(2),b(2)),W1和b1分别表示第1层的向量权重和偏量,W2和b2分别表示第2层的向量权重和偏量;
预测过程步骤(d1)预测单个词汇的情感强度值如下:
利用平方误差作为损失函数,用U(-0.01,0.01)的均匀分布初始化参数W和b,使用批量随机梯度下降的反向传播算法最小化损失函数,每次迭代,都更新权重W和偏量b,隐含层被重新赋权值的Aw就会把对待预测的单个词汇贡献度大的种子词汇分配更高的权重,迭代多次后输出待预测的单个词汇的情感强度。
4.一种基于流水线式神经网络的短语层次情感强度预测方法,其特征在于:可以预测修饰词短语的情感强度,待预测的修饰词短语由被修饰词和修饰词构成,其预测方法包括训练过程和预测过程,所述的训练过程包括预测情感实词情感强度的神经网络的训练和修饰词权重的学习,
预测情感实词情感强度的神经网络的训练包括如下步骤:
(b1)建立种子词汇训练库,所述的种子词汇为已经标记情感强度的情感实词;
(b2)构建神经网络,所述的神经网络采用依次连接的输入层、隐含层、输出层的结构;
(b3)使用步骤(b1)的种子词汇训练库对步骤(b2)的神经网络进行预测情感实词情感强度的神经网络的训练;
修饰词权重的学习包括如下步骤:
(c1)建立修饰词短语训练库,所述的修饰词短语为已经标记情感强度的修饰词短语数据集;
(c2)构建神经网络,所述的神经网络采用依次连接的输入层、隐含层、输出层的结构;
(c3)步骤(c2)的神经网络使用步骤(c1)的修饰词短语训练库学习修饰词修饰权重,得到预测修饰词修饰权重的神经网络;
所述的预测过程包括如下步骤:
(d2)将其被修饰词输入步骤(b3)训练好的预测情感实词情感强度的神经网络,输出被修饰词的情感强度;其修饰词输入步骤(c3)学习好的预测修饰词修饰权重的神经网络,输出修饰词修饰权重;输出的修饰词修饰权重和输出的被修饰词的情感值重新作为输入,输出待预测的修饰词短语的情感强度。
5.如权利要求4所述的一种基于流水线式神经网络的短语层次情感强度预测方法,其特征在于:步骤(d2)中,待预测的修饰词短语的情感强度值可由以下公式计算得出:
Int(modw)=hw,b(Int(w),vec(mod))
其中,mod w为待预测的修饰词短语,Int(mod w)为待预测的修饰词短语情感强度值,Int(mod w)用0到1之间的实数表示,h为我们所设定的非线性假设函数,Int(w)和分别为被修饰词w的情感强度值和修饰词mod的词嵌入向量,d表示词向量的维度。
6.如权利要求5所述的一种基于流水线式神经网络的短语层次情感强度预测方法,其特征在于:步骤(d2)中,步骤(b3)训练好的预测情感实词情感强度的神经网络和步骤(c3)学习好的预测修饰词修饰权重的神经网络构成的流水线式神经网络,
其输入层:输入被修饰词w的情感强度值Int(w)和修饰词mod的词嵌入向量
其隐含层:修饰词mod的向量权重更新为:
C(mod)=g(W(1)·vec(mod)+b(1))
g为sigmoid函数,把输出的结果截断在0到1之间;
其输出层:利用更新权重后的修饰词向量C(mod)和被修饰词的情感强度Int(w)预测短语的情感强度值Int(mod w),计算公式如下:
其中其中,W和b分别表示向量的权重和偏量,其中(W,b)=(W(1),b(1),W(2),b(2)),W(l)和b(l)分别表示第l层的向量权重和偏量,
预测过程步骤(d2)预测修饰词短语的过程如下:
利用平方误差作为损失函数,用U(-0.01,0.01)的均匀分布初始化参数W和b,使用批量随机梯度下降的反向传播算法最小化损失函数,每次迭代,都更新权重W和偏量b,迭代多次后,输出修饰词短语的情感强度。
7.根据权利要求5-6任一所述的基于流水线式神经网络的短语层次情感强度预测方法,其特征在于:可以预测多修饰词的短语情感强度,该流水线式神经网络递归地结合被修饰词和其相近地修饰词的权重计算多修饰词的短语的情感值,其计算公式如下:
其中,表示一个有n个修饰词的短语(n≥1)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810936283.9A CN109190118A (zh) | 2018-08-16 | 2018-08-16 | 基于流水线式神经网络的短语层次情感强度预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810936283.9A CN109190118A (zh) | 2018-08-16 | 2018-08-16 | 基于流水线式神经网络的短语层次情感强度预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109190118A true CN109190118A (zh) | 2019-01-11 |
Family
ID=64918454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810936283.9A Pending CN109190118A (zh) | 2018-08-16 | 2018-08-16 | 基于流水线式神经网络的短语层次情感强度预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190118A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718543A (zh) * | 2016-01-18 | 2016-06-29 | 腾讯科技(深圳)有限公司 | 语句的展示方法和装置 |
CN106776566A (zh) * | 2016-12-22 | 2017-05-31 | 东软集团股份有限公司 | 情感词汇的识别方法及装置 |
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
CN107025284A (zh) * | 2017-04-06 | 2017-08-08 | 中南大学 | 网络评论文本情感倾向的识别方法及卷积神经网络模型 |
CN107229610A (zh) * | 2017-03-17 | 2017-10-03 | 咪咕数字传媒有限公司 | 一种情感数据的分析方法及装置 |
-
2018
- 2018-08-16 CN CN201810936283.9A patent/CN109190118A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105718543A (zh) * | 2016-01-18 | 2016-06-29 | 腾讯科技(深圳)有限公司 | 语句的展示方法和装置 |
CN106776566A (zh) * | 2016-12-22 | 2017-05-31 | 东软集团股份有限公司 | 情感词汇的识别方法及装置 |
CN106776581A (zh) * | 2017-02-21 | 2017-05-31 | 浙江工商大学 | 基于深度学习的主观性文本情感分析方法 |
CN107229610A (zh) * | 2017-03-17 | 2017-10-03 | 咪咕数字传媒有限公司 | 一种情感数据的分析方法及装置 |
CN107025284A (zh) * | 2017-04-06 | 2017-08-08 | 中南大学 | 网络评论文本情感倾向的识别方法及卷积神经网络模型 |
Non-Patent Citations (1)
Title |
---|
LIANG-CHIH YU 等: "Pipelined Neural Networks for Phrase-level Sentiment Intensity Prediction", 《IEEE TRANSACTIONS ON AFFECTIVE COMPUTING》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109753566B (zh) | 基于卷积神经网络的跨领域情感分析的模型训练方法 | |
CN111444709B (zh) | 文本分类方法、装置、存储介质及设备 | |
CN110083705B (zh) | 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端 | |
Dos Santos et al. | Deep convolutional neural networks for sentiment analysis of short texts | |
Paulus et al. | Global belief recursive neural networks | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN109766557A (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
Tripathy et al. | Comprehensive analysis of embeddings and pre-training in NLP | |
Mehndiratta et al. | Identification of sarcasm in textual data: A comparative study | |
Li et al. | Phrase embedding learning from internal and external information based on autoencoder | |
Xiaoyan et al. | BiLSTM model with attention mechanism for sentiment classification on Chinese mixed text comments | |
Orhan et al. | A novel embedding approach to learn word vectors by weighting semantic relations: SemSpace | |
CN109948163B (zh) | 序列动态阅读的自然语言语义匹配方法 | |
Hicham et al. | Enhancing Arabic Sentiment Analysis in E-Commerce Reviews on Social Media Through a Stacked Ensemble Deep Learning Approach. | |
Hicham et al. | Enhancing arabic e-commerce review sentiment analysis using a hybrid deep learning model and fasttext word embedding | |
Zhang et al. | Survey of transformers and towards ensemble learning using transformers for natural language processing | |
Chan et al. | Optimization of language models by word computing | |
CN111914084A (zh) | 一种基于深度学习的带有情感标签文本生成及评估系统 | |
Fadel et al. | A comparative study for supervised learning algorithms to analyze sentiment tweets | |
Gudakahriz et al. | An experimental study on performance of text representation models for sentiment analysis | |
Ling | Coronavirus public sentiment analysis with BERT deep learning | |
Li et al. | Emotion analysis for the upcoming response in open-domain human-computer conversation | |
CN109190118A (zh) | 基于流水线式神经网络的短语层次情感强度预测方法 | |
Zhang | Review of text emotion detection | |
Al Katat et al. | Natural Language Processing for Arabic Sentiment Analysis: A Systematic Literature Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190111 |