CN108875021A - 一种基于区域cnn-lstm的情感分析方法 - Google Patents
一种基于区域cnn-lstm的情感分析方法 Download PDFInfo
- Publication number
- CN108875021A CN108875021A CN201810637072.5A CN201810637072A CN108875021A CN 108875021 A CN108875021 A CN 108875021A CN 201810637072 A CN201810637072 A CN 201810637072A CN 108875021 A CN108875021 A CN 108875021A
- Authority
- CN
- China
- Prior art keywords
- text
- region
- lstm
- emotion
- cnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 77
- 239000011159 matrix material Substances 0.000 claims abstract description 32
- 230000037007 arousal Effects 0.000 claims abstract description 13
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 5
- 230000005284 excitation Effects 0.000 claims abstract description 3
- 230000008451 emotion Effects 0.000 claims description 112
- 238000000034 method Methods 0.000 claims description 50
- 238000013527 convolutional neural network Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 14
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 230000008901 benefit Effects 0.000 claims description 5
- 238000012952 Resampling Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000006855 networking Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 102000002274 Matrix Metalloproteinases Human genes 0.000 claims 1
- 108010000684 Matrix Metalloproteinases Proteins 0.000 claims 1
- 230000002996 emotional effect Effects 0.000 abstract description 8
- 230000000694 effects Effects 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 8
- 230000014509 gene expression Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000012417 linear regression Methods 0.000 description 4
- 230000000052 comparative effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 241001539473 Euphoria Species 0.000 description 1
- 206010015535 Euphoric mood Diseases 0.000 description 1
- 206010026749 Mania Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
一种基于区域CNN‑LSTM的情感分析方法,包括如下步骤:建立区域CNN‑LSTM模型;文本中单词的词向量构建,将文本用一个词向量的序列来表示;然后根据文本中的句子或是句子中的短语进行区域模块分解;将上一步分解后的区域模块作为CNN的输入基元,将每一块区域的文本词向量矩阵经过卷积层和最大池化层后得到结果再作为LSTM层的输入向量;将上一步得到的各个区域模块的信息根据该区域模块在文本中的出现顺序输入LSTM层中,以此获取整个文本的文本向量;将上一步所获得的文本向量输入线性解码器,进行情感值Valence和激励值Arousal的预测,以此获得VA情感值结果。
Description
技术领域
本发明涉及文本情感分析领域,特别涉及一种基于区域CNN-LSTM的情感分析方法。
背景技术
情感分析技术目前被广泛地用于在线翻译,用户评价分析和观点挖掘等互联网应用中。尤其是对于目前新兴的各种网络社交平台和购物网站来说,快速的获取用户评论的情感倾向可以为商家在为广告投放和热点话题推送等方面提供很大的便利。从目前的市场需求和技术的发展水平来看,对情感分析技术进行研究和革新具有很大的价值和提升空间。
目前对情感的划分和表示主要有两种方法:一种是类别型的情感表示,使用明确的类别来区分情感,最基本的便有二分类表示法——将情感简单的划分为“积极的”和“消极的”两个对立的类别;更复杂的有Ekman的六元基础情感表示方法,该方法将人类情感划分为“愤怒”、“愉快”、“恐惧”、“悲伤”、“厌恶”和“惊讶”六中基本元素,并使用这些基础情感元素来表示和识别文本中包含的情感。
上述两个类别型的情感表示的方法都是使用离散的分类来表示情感,离散的分类确实可以将文本要表达的情感明确地划分到某一类别中,然而对于一些表达出复杂或是模糊的情感的文本,这一种方法的局限性便显露无疑。例如:“欣喜”和“狂喜”这两个表示不同程度的“愉快”情感的形容词,若使用离散的分类情感标识方法,便只能将两个词归为同一类情感,而忽略了这两个词在情感强烈程度上差别,这样一来就不能准确的捕捉到用户的倾向和偏好。
针对这一缺陷,另一种情感划分方法:使用连续的数值的维度型情感表示方法便成为了一个更为理想的选择。这一类方法的代表有Russell等科学家提出的Valence-Arousal(VA)情感空间——使用连续数值在二维空间中标识情感。其中Valence值代表情绪值,取值范围一般在1-9之间,表示该文本的情感是“积极的”还是“消极的”,数值越接近9表示积极的程度越深,反之则表示越消极;Arousal值代表期望值,表示文本情感的强烈程度,数值越接近9表示情感越强烈,“狂喜”的Arousal值就应大于“欣喜”的Arousal值。这样一来,每一个单词都可以通过一个VA二维空间中的某一个坐标点来唯一的表示其情感值。这样便可解决上文中提到的诸如“欣喜”和“狂喜”这一类情感的类别相同而情感的强烈程度不同的词语在离散的类别型情感表示方法中无法得到准确划分的问题。划分的越准确就意味着服务提供商可以获得更多的有效信息,从而能为用户提供更精确而合理的服务。
基于VA二维情感空间的情感分析主要是针对单词层级(Wei et al.,2011;Malandrakis et al.,2011;Yu et al.,2015)和句子或文本层级(Paltoglouet al.,2013;Malandrakis et al.,2013)进行VA值的自动标定和预测。相关技术将于下一部分中描述。
大部分的语言中,单词都是包含有情感的基础元素,因此对单词进行情感值标定,创建情感词典便成为了文本情感分析研究的基础。目前认可度较高的情感词典都是通过人工标定的方式来创建的,一个词的情感值就需要综合大量的情感值标定人员给出的结果进行一定的数学处理后才能得出一个相对来说公允的数值。显而易见,通过人工的方法来标定情感值需要大量的人力物力和时间。因此,在现有已标定好的情感词库的基础上通过机器学习的方法来自动地标定情感值便具有十分重要的意义及研究价值。
单词层级的文本情感分析技术:
(1)Wei et al.(2011)使用线性回归的方法将英文单词的已经标定好的VA情感值转换为对应中文单词的VA情感值。这一方法是在当时尚无较好的中文VA情感词库的背景条件下提出的,用以创建中文情感词典。这样近似于将英文单词直译成中文单词的方法存在极大的局限性,效果也不太理想。因此,创建中文VA情感词库对于中文情感分析研究来说就显得十分有必要。
(2)Malandrakis et al.(2011)提出了一个新的方法来自动地创建情感词库,在线性回归的基础上加入了核函数,结合单词与单词之间意思的的相似程度来计算预测相似单词的情感值。该方法效果不错,但是仍然存在不足,毕竟这个算法的核心仍旧是线性回归,简单的线性回归模型不足以完美地体现复杂的人类情感。
句子层级的文本情感分析技术:
(1)Paltoglou et al.(2013)提出了一个基于词典序的方法,首先通过建立好的情感词典查找到句子中单词的对应的情感值,之后通过计算这些单词情感值的加权平均或几何平均来标定句子的情感值。
(2)Malandrakis et al.(2013)提出了一种基于回归的方法来标定句子的情感值。该方法将句子中的n-gram作为标定一个句子或文本的情感值的基础特征,通过这些标定好情感值的n-gram使用回归的方法来标定整个句子或文本的情感值。
然而,上述技术大部分都是使用简单的回归模型来根据已标定好情感值的单词来预测未标定单词的情感值,这些方法在效果上显得不是那么的理想。而且,这些方法在根据单词的情感值来对句子和文本进行情感值标定时往往无法“捕捉”到句子中词与词之间,文本中句与句之间丰富的关联,尚有许多有用的特征遗漏。
然而,如果是借鉴在处理离散的类别型文本情感分类中使用的神经网络的方法,又会存在一些不足之处。卷积神经网络(Convolutional Neural Network;CNN)可以很好的提取输入的词向量包含的特征信息,然而CNN却不能有效的“考虑”一个句子或是文本整体所包含的特征信息。长短记忆神经网络(Long-Short Term Memory;LSTM)则可以通过顺序地对句子或文本进行建模来解决这个问题,但是它又不具备CNN的优点。因此,将词向量和CNN以及LSTM神经网络结合在一起运用在维度型情感分析上便具有很高的研究价值。
发明内容
为解决上述现有技术存在的问题,本发明的目的在于提供一种基于区域CNN-LSTM的情感分析方法,针对一个文本(如一篇短文,一个用户评论等)进行情感分析,探明该文本要表达的情感是积极的还是消极的,这个情感的强烈程度是多少。我们希望能将这些情感表现和程度通过具体数值表现出来,让读者能够一目了然的获取这些信息,从而辅助读者阅读,提高效率。本发明将深度学习的方法结合词向量运用到对文本的维度型连续情感值的预测上,探索深度学习中的神经网络模型在文本情感分析上的应用效果。
为达到上述目的,本发明的技术方案为:
一种基于区域CNN-LSTM的情感分析方法,包括如下步骤:
步骤一、建立区域CNN-LSTM模型,该模型由两个主要部分组成,分别是:区域卷积神经网络层regional CNN和长短记忆神经网络层LSTM,通过将这两部分合理的组合在一起来实现预测文本情感值的功能;
步骤二、文本中单词的词向量构建,将文本用一个词向量的序列来表示;然后根据文本中的句子或是句子中的短语进行区域模块分解;
步骤三、将步骤二分解后的区域模块作为CNN的输入,这和传统的CNN将整个文本作为输入基元不同,这样做的好处是为了方便为之后的LSTM层提供输入,而且这样也能获取到更多区域模块之间的情感信息,这些信息的还可以根据各自区域模块对整个文本情感的影响程度来衡量权值;
步骤四、将每一块区域的文本词向量矩阵经过卷积层和最大池化层后得到结果再作为LSTM层的输入向量;
步骤五、将上一步得到的各个区域模块的信息根据该区域模块在文本中的出现顺序输入LSTM层中,以此获取整个文本的文本向量
步骤六、将步骤五中所获得的文本向量输入线性解码器,线性解码器利用线性变换计算获得情感值Valence和激励值Arousal的预测,以此获得VA情感值结果。
进一步的,所述步骤二中,文本区域模块分解的具体操作为:
首先将文本信息处理为实数矩阵后才作为模型的输入基元,对于一个文本,区域CNN模型将文本中的一个完整的句子作为一个“区域”,从而将文本划分为了R块区域,分别记为r1,...,ri,rj,rk,...,rR,R为句子总数;每块区域由若干个单词组成,模型的输入便是这些区域模块中单词的词向量组成的矩阵;使用Word2Vec工具进行训练来获取单词词向量,再根据模块中的单词查找对应的词向量来组成矩阵。
进一步的,所述步骤一中,卷积神经网络层的构建方式具体为:
在每一个区域内,卷积层首先用来提取句子的n-gram特征;区域内的所有单词的向量组成一个矩阵其中|V|是该区域内含有的单词总数,d是向量的维度;区域堆叠为矩阵在每一个区域内,我们使用L个过滤器来提取句子内的n-gram特征信息;假设区域内的一个窗口覆盖ω个词,该窗口组成的矩阵为xn:n+ω-1,则过滤器Fl(1<l<L)根据[1]生成特征映射
公式1中的“o”是某种卷积操作,和b分别是权重矩阵和偏置量,f是修正线性单元(ReLU);当过滤器依次从x1:ω-1至xN+ω-1:N滑过,过滤器Fl计算出相应的特征映射:由于句子长度不可能完全相同,这就导致了yl可能有不同的维度,因此,规定CNN层的最大输入矩阵维度为N,对于单词数少于N的句子,我们使用随机数值填充的向量将其补足。
进一步的,所述步骤三中,文本信息指:购物网站上的用户评论或是社交网站上用户发表的微博或是推文类文本信息。
进一步的,所述步骤四中,最大池化层建立的具体操作为:
最大池化层对卷积层的输出进行再采样工作即进行取最大值操作,最大池化层通过取最大值操作来“抛弃”非最大值,减少下一层的计算量;同时提取各个区域内部的相依信息。
进一步的,所述步骤五中,顺序层建立的具体操作为:本层的目的是为了获取较长文本内句子与句子之间的区域信息;在这一层,各个区域模块的向量被顺序的整合为一个文本向量;在LSTM存储器单元顺序遍历所有区域之后,顺序层的最后一个隐藏状态便是对文本VA情感值预测的代表。
进一步的,所述步骤五中,线性解码的具体操作为:
对LSTM最终输出的向量进行回归操作——输出的向量经过一个线性解码器Linear Decoder后转化为对应的数值作为最终的输出;线性解码器的定义为:
y=Wdxt+bd [2]
其中,
xt是顺序层输出的文本向量,y是最终输出的Valence或Arousal的数值,Wd和bd分别是权值和偏置量;
区域CNN-LSTM模型通过最小化预测值与真实值之间的来进行训练;首先给定一个训练集文本,该文本的矩阵为
X={x(1),x(2),...,x(m)},对应的真实的VA情感值集合为
Y={y(1),y(2),...,y(m)},损失函数的定义如:
模型的各项系数通过使用随机梯度下降的反向传播算法训练获得。
进一步的,本系统的运行步骤是:每一块区域的文本词向量矩阵经过卷积层和最大池化层后得到结果再作为输入向量根据该区域模块在文本中的出现顺序依次进入LSTM层;LSTM层的输出结果经线性解码器解码后便可得到最终的情感预值。
进一步的,本发明使用两个情感词库,分别是:(1)Stanford SentimentTreebank(SST),包含8544个训练文本,2210个测试文本和1101个验证文本,每一个文本都只是标注了Valence值,数值的范围在0至1之间;(2)Chinese Valence-Arousal Texts(CVAT),包含2009个同时标注了Valence和Arousal值的文本,数值范围在0至9之间;在训练词向量时,使用Google News和Chinese wiki dumps两个语料库来分别训练英文和中文词向量,这些词向量的维度同一设定为300为。
相对于现有技术,本发明的有益效果为:
本发明是一种评估文本的情感倾向的方法,主要是针对一个文本(如一篇短文,一个用户评论等)进行情感分析,希望能将这些情感表现和程度通过具体数值表现出来,让读者能够一目了然的获取这些信息,从而辅助读者阅读,提高效率。本发明将深度学习的方法结合词向量运用到对文本的维度型连续情感值的预测上,探索深度学习中的神经网络模型在文本情感分析上的应用效果。本发明使用了词向量来表示文本,从而为后续使用神经网络来进行运算提供了可能。本发明通过将CNN与LSTM结合,本模型可以很好的将句子内部的特征信息和句子之间的信息结合,综合考虑之后对整个文本的情感值进行预测。
附图说明
图1:区域CNN-LSTM模型结构图。
具体实施方式
下面结合附图和具体实施方式对本发明技术方案做进一步详细描述:
如图1所示,一种基于区域CNN-LSTM的情感分析方法,包括如下步骤:
本发明主要是提出了一个区域CNN-LSTM模型,该模型由两个主要部分组成,分别是:区域卷积神经网络层(regional CNN)和长短记忆神经网络层(LSTM)。通过将这两部分合理的组合在一起来实现预测文本情感值的功能。
首先,我们进行文本中单词的词向量的构建工作,将文本用一个词向量的序列来表示。然后根据文本中的句子或是句子中的短语进行区域模块分解。
接着,将分解后的区域模块作为CNN的输入,这和传统的CNN将整个文本作为输入不同,这样做的好处是为了方便为之后的LSTM层提供输入,而且这样也能获取到更多区域模块之间的情感信息,这些信息的还可以根据各自区域模块对整个文本情感的影响程度来衡量权值。
最后将上一步得到的各个区域模块的信息按顺序输入LSTM层中,以此来预测VA情感值。通过将CNN与LSTM结合,本模型可以很好的将句子内部的特征信息和句子之间的信息结合,综合考虑之后对整个文本的情感值进行预测。整个系统的示意图如图1所示,之后的内容将详细介绍本模型的各个部分和系统的运行步骤。
文本区域划分:
我们预想的模型的输入是类似各类购物网站上的用户评论或是社交网站上用户发表的微博或是推文等文本信息。对于本模型而言,这一类信息首先需要处理为实数矩阵后才能作为模型的输入。对于一个文本,区域CNN模型将文本中的一个完整的句子作为一个“区域”,这样一来便将文本划分为了R(句子总数)块区域,分别记为r1,...,ri,rj,rk,...,rR。每块区域由若干个单词组成,模型的输入便是这些区域模块中单词的词向量组成的矩阵。单词的词向量我们使用目前比较流行的Word2Vec工具进行训练来获取词向量,再根据模块中的单词查找对应的词向量来组成矩阵。词向量的具体训练细节将在实验过程中详细介绍。
卷积层:
在每一个区域内,卷积层首先用来提取句子的n-gram特征。区域内的所有单词的向量组成一个矩阵其中|V|是该区域内含有的单词总数,d是向量的维度。区域堆叠为矩阵xri。在每一个区域内,我们使用L个过滤器来提取句子内的n-gram特征信息。假设区域内的一个窗口覆盖ω个词,该窗口组成的矩阵为xn:n+ω-1,则过滤器Fl(1<l<L)根据[1]生成特征映射
公式中的“°”是某种卷积操作,和b分别是权重矩阵和偏置量,f是修正线性单元(ReLU)。当过滤器依次从x1:ω-1至xN+ω-1:N滑过,过滤器Fl计算出相应的特征映射:由于句子长度不可能完全相同,这就导致了yl可能有不同的维度,因此,我们规定CNN层的最大输入矩阵维度为N,对于单词数少于N的句子,我们使用随机数值填充的向量将其补足。
最大池化层:
最大池化层对卷积层的输出进行再采样工作,通常的做法是进行取最大值操作。这样做的益处有如下两点:(1)最大池化层通过取最大值操作来“抛弃”一些数值(非最大值),这样便可减少下一层的计算量;(2)这样做还可以提取各个区域内部的相互“依赖”信息,以此来保证最显著的信息得以体现。
顺序层:
本层的目的是为了获取较长文本内句子与句子之间的区域信息而设的。在这一层,各个区域模块的向量被顺序的整合为一个文本向量。在LSTM存储器单元顺序遍历所有区域之后,顺序层的最后一个隐藏状态便是对文本VA情感值预测的代表。
线性解码器:
因为Valence和Arousal值都是连续数值,因此对于文本VA情感值预测这一任务来说,使用一个回归的方法来进行预测是十分必要的。和离散的类别型情感分析不同,在这里我们对LSTM最终输出的向量进行回归操作——输出的向量经过一个线性解码器(LinearDecoder)或称为线性激活函数后转化为对应的数值作为最终的输出。线性解码器的定义如[2]所示。
y=Wdxt+bd [2]
xt是顺序层输出的文本向量,y是最终输出的Valence或Arousal的数值,Wd和bd分别是权值和偏置量。
区域CNN-LSTM模型通过最小化预测值与真实值之间的来进行训练。首先给定一个训练集文本,该文本的矩阵为
X={x(1),x(2),...,x(m)},对应的真实的VA情感值集合为
Y={y(1),y(2),...,y(m)},损失函数的定义如[3]。模型的各项系数通过使用随机梯度下降的反向传播算法训练获得。
综上所述,本系统的运行步骤是:每一块区域的文本词向量矩阵经过卷积层和最大池化层后得到结果再作为输入向量根据该区域模块在文本中的出现顺序依次进入LSTM层。LSTM层的输出结果经线性解码器解码后便可得到最终的情感预值。
4.3技术效果
为了检验本模型的效果,我们分别使用了已创建好的英文和中文情感词典作为数据集进行了实验,并且与上文中提到的几个方法在同样的数据集下进行了对比实验,具体结果和分析如下:
实验所用数据集:
实验时使用了两个情感词库,分别是:(1)Stanford Sentiment Treebank(SST),包含8544个训练文本,2210个测试文本和1101个验证文本,每一个文本都只是标注了Valence值,数值的范围在0至1之间;(2)Chinese Valence-Arousal Texts(CVAT),包含2009个同时标注了Valence和Arousal值的文本,数值范围在0至9之间。在训练词向量时,我们使用了Google News和Chinese wiki dumps两个语料库来分别训练英文和中文词向量,这些词向量的维度同一设定为300维。
实验例:
我们设置了几组对比实验,将它们的结果与本模型结果进行对比。第一组对比实验是两种基于字典索引的方法,分别是加权算数平均值(wMA)和加权几何平均值(wGM)。第二组是两种使用回归的方法,分别是均值回归(AVG)和最大值回归(MVR)。同时,我们也将分别单独使用CNN,RNN和LSTM训练和预测,并将结果与本模型的结果作对比。
评价指标:
对于不同方法的性能主要通过以下三个指标来衡量
均方误差(RMSE):
平均绝对误差(MAE):
皮尔森相关系数(r):
其中,Ai表示真实值,Pi表示预测值,和分别表示真实值和预测值的平均值,σ表示标准误差。某方法的均方误差(RMSE)和平均绝对误差值(MAE)越低。皮尔森相关系数(r)值越高表示该方法的表现越好。几种方法的结果如表1和表2所示:
表1:不同方法的英文Valence值的预测结果对比
表2:不同方法的中文Valence和Arousal值的预测结果对比
实验结果分析:
根据表1和表2的显示的结果,对于字典索引的方法,wGM的表现要优于wAM;基于回归的方法不仅仅只顾及文本中的单词自身的情感表现,同时也将单词在文本中的关系信息也考虑在内,因此获得了更好的表现;在引入深度学习以后,除了RNN之外的基于神经网络的方法在效果上有了明显的提高,同时,我们提出的区域CNN-LSTM模型要比其他几个模型表现的更好。
结论:
1)本发明使用了词向量来表示文本,从而为后续使用神经网络来进行运算提供了可能。
结合文本的实际情况,本发明将CNN与LSTM合理的结合在一起,并且合理地使用了两个神经网络的特点,使本发明在实验中取得了优异的表现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书所限定的保护范围为准。
Claims (9)
1.一种基于区域CNN-LSTM的情感分析方法,其特征在于,包括如下步骤:
步骤一、建立区域CNN-LSTM模型,该模型由两个主要部分组成,分别是:区域卷积神经网络层regional CNN和长短记忆神经网络层LSTM,通过将这两部分合理的组合在一起来实现预测文本情感值的功能;
步骤二、文本中单词的词向量构建,将文本用一个词向量的序列来表示;然后根据文本中的句子或是句子中的短语进行区域模块分解;
步骤三、将步骤二分解后的区域模块作为CNN的输入基元,这和传统的CNN将整个文本中单词作为输入基元不同,这样做的好处是为了方便为之后的LSTM层提供输入向量,而且这样也能获取到更多区域模块之间的情感信息,这些信息的还可以根据各自区域模块对整个文本情感的影响程度来衡量权值;
步骤四、将每一块区域的文本词向量矩阵经过卷积层和最大池化层后得到结果再作为LSTM层的输入向量;
步骤五、将上一步得到的各个区域模块的信息根据该区域模块在文本中的出现顺序输入LSTM层中,以此获取整个文本的文本向量;
步骤六、将步骤五中所获得的文本向量输入线性解码器,进行情感值Valence和激励值Arousal的预测,以此获得VA情感值结果。
2.根据权利要求1所述的一种基于区域CNN-LSTM的情感分析方法,其特征在于,所述步骤二中,文本区域模块分解的具体操作为:
首先将文本信息处理为实数矩阵后才作为模型的输入基元,对于一个文本,区域CNN模型将文本中的一个完整的句子作为一个“区域”,从而将文本划分为了R块区域,分别记为r1,...,ri,rj,rk,...,rR,R为句子总数;每块区域由若干个单词组成,模型的输入便是这些区域模块中单词的词向量组成的矩阵;使用Word2Vec工具进行训练来获取单词词向量,再根据模块中的单词查找对应的词向量来组成矩阵。
3.根据权利要求2所述的一种基于区域CNN-LSTM的情感分析方法,其特征在于,所述步骤一中,卷积神经网络层的构建方式具体为:
在每一个区域内,卷积层首先用来提取句子的n-gram特征;区域内的所有单词的向量组成一个矩阵其中|V|是该区域内含有的单词总数,d是向量的维度;区域堆叠为矩阵在每一个区域内,我们使用L个过滤器来提取句子内的n-gram特征信息;假设区域内的一个窗口覆盖ω个词,该窗口组成的矩阵为xn:n+ω-1,则过滤器Fl(1<l<L)根据生成特征映射
公式1中的是两个矩阵间的卷积操作,和b分别是权重矩阵和偏置量,f是修正线性单元(ReLU);当过滤器依次从x1:ω-1至xN+ω-1:N滑过,过滤器Fl计算出相应的特征映射:由于句子长度不可能完全相同,这就导致了yl可能有不同的维度,因此,规定CNN层的最大输入矩阵维度为N,对于单词数少于N的句子,我们使用随机数值填充的向量将其补足。
4.根据权利要求2所述的一种基于区域CNN-LSTM的情感分析方法,其特征在于,所述步骤三中,文本信息指:购物网站上的用户评论或是社交网站上用户发表的微博或是推文类文本信息。
5.根据权利要求1所述的一种基于区域CNN-LSTM的情感分析方法,其特征在于,所述步骤四中,最大池化层建立的具体操作为:
最大池化层对卷积层的输出进行再采样工作即进行取最大值操作,最大池化层通过取最大值操作来“抛弃”非最大值,减少下一层的计算量;同时提取各个区域内部的局部语义信息。
6.根据权利要求1所述的一种基于区域CNN-LSTM的情感分析方法,其特征在于,所述步骤五中,顺序层建立的具体操作为:获取较长文本内句子与句子之间的区域信息;在这一层,各个区域模块的向量被顺序的整合为一个文本向量;在LSTM存储器单元顺序遍历所有区域之后,顺序层的最后一个隐藏状态便是对文本VA情感值预测的代表。
7.根据权利要求1所述的一种基于区域CNN-LSTM的情感分析方法,其特征在于,所述步骤五中,线性解码器进行线性解码的具体操作为:
对LSTM最终输出的向量进行回归操作——输出的向量经过一个线性解码器LinearDecoder后转化为对应的数值作为最终的输出;线性解码器的定义为:
y=Wdxt+bd [2]
其中,
xt是顺序层输出的文本向量,y是最终输出的Valence或Arousal的数值,Wd和bd分别是权值和偏置量;
区域CNN-LSTM模型通过最小化预测值与真实值之间的来进行训练;首先给定一个训练集文本,该文本的矩阵为X={x(1),x(2),...,x(m)},对应的真实的VA情感值集合为Y={y(1),y(2),...,y(m)},损失函数的定义如:
模型的各项系数通过使用随机梯度下降的反向传播算法训练获得。
8.根据权利要求1所述的一种基于区域CNN-LSTM的情感分析方法,其特征在于,一种基于区域CNN-LSTM的情感分析方法的运行步骤为:每一块区域的文本词向量矩阵经过卷积层和最大池化层后得到结果再作为输入向量根据该区域模块在文本中的出现顺序依次进入LSTM层;LSTM层的输出结果经线性解码器解码后便可得到最终的情感预值。
9.根据权利要求1所述的一种基于区域CNN-LSTM的情感分析方法,其特征在于,本方法使用两个情感词库,分别是:(1)Stanford SentimentTreebank(SST),包含8544个训练文本,2210个测试文本和1101个验证文本,每一个文本都只是标注了Valence值,数值的范围在0至1之间;(2)Chinese Valence-Arousal Texts(CVAT),包含2009个同时标注了Valence和Arousal值的文本,数值范围在0至9之间;在训练词向量时,使用Google News和Chinesewiki dumps两个语料库来分别训练英文和中文词向量,这些词向量的维度同一设定为300为。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711107818 | 2017-11-10 | ||
CN2017111078183 | 2017-11-10 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108875021A true CN108875021A (zh) | 2018-11-23 |
Family
ID=64340673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810637072.5A Pending CN108875021A (zh) | 2017-11-10 | 2018-06-20 | 一种基于区域cnn-lstm的情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108875021A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582794A (zh) * | 2018-11-29 | 2019-04-05 | 南京信息工程大学 | 基于深度学习的长文分类方法 |
CN109800804A (zh) * | 2019-01-10 | 2019-05-24 | 华南理工大学 | 一种实现图像多情感自主转换的方法及系统 |
CN109933795A (zh) * | 2019-03-19 | 2019-06-25 | 上海交通大学 | 基于上下文-情感词向量的文本情感分析系统 |
CN110046353A (zh) * | 2019-04-22 | 2019-07-23 | 重庆理工大学 | 一种基于多语言层次机制的方面级情感分析方法 |
CN110209824A (zh) * | 2019-06-13 | 2019-09-06 | 中国科学院自动化研究所 | 基于组合模型的文本情感分析方法、系统、装置 |
CN110287483A (zh) * | 2019-06-06 | 2019-09-27 | 广东技术师范大学 | 一种利用五笔字根深度学习的未登录词识别方法及系统 |
CN113377901A (zh) * | 2021-05-17 | 2021-09-10 | 内蒙古工业大学 | 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法 |
-
2018
- 2018-06-20 CN CN201810637072.5A patent/CN108875021A/zh active Pending
Non-Patent Citations (2)
Title |
---|
JIN WANG 等: "Dimensional sentiment analysis using a regional CNN-LSTM model", 《PROCEEDINGS OF THE 54TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS 》 * |
王津: "基于Valence-Arousal空间的中文文本情感分析方法研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582794A (zh) * | 2018-11-29 | 2019-04-05 | 南京信息工程大学 | 基于深度学习的长文分类方法 |
CN109800804A (zh) * | 2019-01-10 | 2019-05-24 | 华南理工大学 | 一种实现图像多情感自主转换的方法及系统 |
CN109933795A (zh) * | 2019-03-19 | 2019-06-25 | 上海交通大学 | 基于上下文-情感词向量的文本情感分析系统 |
CN109933795B (zh) * | 2019-03-19 | 2023-07-28 | 上海交通大学 | 基于上下文-情感词向量的文本情感分析系统 |
CN110046353A (zh) * | 2019-04-22 | 2019-07-23 | 重庆理工大学 | 一种基于多语言层次机制的方面级情感分析方法 |
CN110046353B (zh) * | 2019-04-22 | 2022-05-13 | 重庆理工大学 | 一种基于多语言层次机制的方面级情感分析方法 |
CN110287483A (zh) * | 2019-06-06 | 2019-09-27 | 广东技术师范大学 | 一种利用五笔字根深度学习的未登录词识别方法及系统 |
CN110287483B (zh) * | 2019-06-06 | 2023-12-05 | 广东技术师范大学 | 一种利用五笔字根深度学习的未登录词识别方法及系统 |
CN110209824A (zh) * | 2019-06-13 | 2019-09-06 | 中国科学院自动化研究所 | 基于组合模型的文本情感分析方法、系统、装置 |
CN110209824B (zh) * | 2019-06-13 | 2021-06-22 | 中国科学院自动化研究所 | 基于组合模型的文本情感分析方法、系统、装置 |
CN113377901A (zh) * | 2021-05-17 | 2021-09-10 | 内蒙古工业大学 | 一种基于多尺寸cnn和lstm模型的蒙古语文本情感分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Laurer et al. | Less annotating, more classifying: Addressing the data scarcity issue of supervised machine learning with deep transfer learning and BERT-NLI | |
CN108875021A (zh) | 一种基于区域cnn-lstm的情感分析方法 | |
CN111767741B (zh) | 一种基于深度学习和tfidf算法的文本情感分析方法 | |
CN112329474B (zh) | 融合注意力的方面级用户评论文本情感分析方法及系统 | |
CN106844368B (zh) | 用于人机对话的方法、神经网络系统和用户设备 | |
Nurrohmat et al. | Sentiment analysis of novel review using long short-term memory method | |
Zhao et al. | ZYJ123@ DravidianLangTech-EACL2021: Offensive language identification based on XLM-RoBERTa with DPCNN | |
CN111639258B (zh) | 一种基于神经网络的新闻推荐方法 | |
Zhou et al. | Sentiment analysis of text based on CNN and bi-directional LSTM model | |
Braz et al. | Document classification using a Bi-LSTM to unclog Brazil's supreme court | |
CN113312480A (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
Dobbrick et al. | Enhancing theory-informed dictionary approaches with “glass-box” machine learning: The case of integrative complexity in social media comments | |
Majeed et al. | Deep-EmoRU: mining emotions from roman urdu text using deep learning ensemble | |
CN114416969B (zh) | 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统 | |
CN106446117A (zh) | 基于泊松‑伽玛置信网络主题模型的文本分析方法 | |
CN114443846A (zh) | 一种基于多层级文本异构图的分类方法、装置及电子设备 | |
Kanev et al. | Sentiment analysis of multilingual texts using machine learning methods | |
Rajani Shree et al. | POS tagger model for Kannada text with CRF++ and deep learning approaches | |
CN111859955A (zh) | 一种基于深度学习的舆情数据分析模型 | |
Aurnhammer et al. | Manual Annotation of Unsupervised Models: Close and Distant Reading of Politics on Reddit. | |
Sun et al. | Entity disambiguation with decomposable neural networks | |
Marques-Lucena et al. | Framework for customers’ sentiment analysis | |
Li et al. | SCX-SD: semi-supervised method for contextual sarcasm detection | |
Bilal | A linguistic system for predicting sentiment in arabic tweets | |
Kang et al. | Hierarchical attention networks for user profile inference in social media systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181123 |