CN112131886A - 一种文本的方面级别情感分析方法 - Google Patents
一种文本的方面级别情感分析方法 Download PDFInfo
- Publication number
- CN112131886A CN112131886A CN202010786017.XA CN202010786017A CN112131886A CN 112131886 A CN112131886 A CN 112131886A CN 202010786017 A CN202010786017 A CN 202010786017A CN 112131886 A CN112131886 A CN 112131886A
- Authority
- CN
- China
- Prior art keywords
- text
- emotion
- vector
- word
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
一种文本的方面级别情感分析方法,包括以下步骤:1)获取将文本信息以及方面信息输入至预设的截断门控单元网络所得的句子级别的文本语义表示矩阵,以及所述文本语义表示向量;2)依据句子级别的文本语义表示矩阵、方面信息和预设的Attention模型,获取文本信息中各单词与方面信息对应的注意力值,得到每个单词的注意力权重;3)依据句子级别的文本语义表达矩阵和注意力权重,构建文本信息对应的文本方面情感表示向量;4)将新的文本方面情感表示向量映射到情感分类器,采用softmax函数对文本方面情感表示向量进行情感评估,得到各预设的情感极性的预测概率。本发明高效、准确地预测评论文本的方面级别情感倾向。
Description
技术领域
本发明涉及情感分析领域、深度学习技术,具体来讲提出一种基于截断循环神经网络(DGRU)和注意力机制的方面级别情感分类网络模型(ATT-DGRU)。
背景技术
情感分析是自然语言处理领域的一项备受关注的研究任务,文本情感分析的主要目的是从原始文本中提取出文本发表者的主观情绪。如今互联网各平台上存在大量用户关于产品和服务的评论信息,这些评论往往以短文本的形式出现,涉及产品的一个或者多个方面意见。方面级别的情感挖掘传统评论挖掘通常粗糙地对一篇文档或者一段句子进行情感分析,只能得到一个情感值的表达,而不能提供高情感值指向的对象的信息,因此方面级别的观点挖掘是对情感分析更深层次的研究。
深度学习通过提供强大的策略来提取传统方法难以控制的抽象非线性特征,从而彻底改变了各个领域。循环神经网络(RNN)是一类以序列数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络 (RNN),擅长对整个句子进行建模,捕捉长距离依赖信息。门控循环单元(GRU) 是一种RNN的特殊类型,计算过程更为简洁。然而,研究表明,RNN对整个句子建模有时会成为一种负担,使模型忽略了关键的短语信息。卷积神经网络(CNN) 是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeural Networks),是深度学习(deep learning)的代表算法之一。用来处理文本的CNN 模型更擅长抽取局部的位置不变特征,而不擅长捕捉长距离依赖信息。而方面级别情感分析需要重点提取方面词向量邻近语义信息的同时更不能丢失文本的长距离语义信息。
针对以上,可采用结合循环神经网络(RNN)和卷积神经网络(CNN)的截断式循环神经网络(DRNN)为基础构建模型,以克服单纯的循环神经网络模型无法准确捕捉局部语义的缺陷、以及标准卷积神经网络无法拟合文本语义序列的上下文关联的缺点。
一条复杂语句中可能包含多个方面词,句中的每个词和方面词之间的联系能传达出关于关于该方面词的情感极性信息。神经语言模型中若使用注意力机制,能够从复杂语句中捕捉到与方面词关联较大的单词,降低对次要信息的关注度,甚至无视无关的信息。
鉴于此,提出了一种方面级别情感分类模型,基于截断门控单元网络与注意力机制的网络模型(ATT-DGRU)。
发明内容
为了克服现有技术的不足,本发明所关注的技术问题为:如何利用神经网络模型高效、准确地预测评论文本的方面级别情感倾向;利用注意力机制,设计产生一个文本各单词对给定方面情感的影响权重向量,基于截断门控单元网络与注意力机制的评论文本方面级别情感分析模型,首先使用DGRU网络对输入的单词文本与方面词进行编码,得到文本语义表达,接着使用注意力机制对文本语义表达提取情感权重系数,结合文本语义表达与情感权重表达得到给定方面情感表示向量。
为解决上述技术问题,本发明提供如下的技术方案:
一种文本的方面级别情感分析方法,所述方法包括以下步骤:
1)获取将文本信息以及方面信息输入至预设的截断门控单元网络DGRU所得的句子级别的文本语义表示矩阵,以及所述文本语义表示向量;
2)依据所述句子级别的文本语义表示矩阵、方面信息和预设的Attention模型,获取所述文本信息中各单词与方面信息对应的注意力值,得到每个单词的注意力权重;
3)依据所述句子级别的文本语义表达矩阵和注意力权重,构建所述文本信息对应的文本方面情感表示向量;
4)将所述的新的文本方面情感表示向量映射到情感分类器,采用softmax 函数对文本方面情感表示向量进行情感评估,得到各预设的情感极性的预测概率。
进一步,获取句子级别的文本语义表示矩阵H的过程为:
其中ht为GRU计算单元在t时刻的输出,可视为第t个单词词向量与邻近 k-1单词对应的语义表达,表示为:
ht=GRU(xt,xt-1,xt-2,...,xt-k+1)
再进一步,获得第t个单词语义表达向量ht的GRU函数计算单元的过程为:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
优选地,文本语义表示向量hp为所述本语义表示矩阵进行最大池化操作而来,过程为:
hp=maxpooling(H)
优选地,获取所述文本信息中各单词与方面信息对应的注意力值的过程为:
将所述文本语义表示矩阵H输入到带有修正线性单元(Tanh)激活的注意力多层感知机MLP中,将MLP的输出发送到一个softmax函数中,得到一个注意力权重向量a∈RN×1,为:
a=soft max(wTM)
优选地,文本方面情感表示向量h*的获取计算如下式所示:
r=HaT
h*=tanh(Wrr+Wxhp)
其中H为所述文本语义表示矩阵,a为所述注意力权重向量,r为文本情感权重表达隐状态r∈Rd×1,hp为文本语义表示向量。
优选地,对文本方面情感表示向量进行情感评估的分类器的过程为:
将h*送入Softmax分类器,得到情感分类的概率分布向量y∈R|c|×1,分类器具体计算如下式所示:
y=softmax(Wsh*+bs)
其中Ws、bs为softmax分类器的参数矩阵和偏置项。
优选地,在得到最终的情感分析结果之后,所述方法还包括以下步骤:
5)根据情感分析结果与实际结果的偏差信息,使用Adam算法动态调整每个参数的学习率,使用交叉熵损失函数更新卷积神经网络中每个神经元的权重。
总体而言,本发明方法与现有技术方案相比,能够取得下列有益效果:
(1)本发明所使用的语义获取模块中,DGRU能在捕捉上下文长距离依赖过程中保留位置不变性信息,因此能有效提升针对复杂语句的方面级别情感分类有效性。
(2)本发明使用注意力机制对文本语义表达提取情感权重系数,进一步定位给定方面信息的情感来源,因此结合文本语义表达与情感权重表达能得到更有效的给定方面情感表达。
附图说明
图1是截断门控循环单元的网络结构图;
图2是门控循环单元内部结构;
图3是基于截断门控单元网络与注意力机制的分类模型结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明实施的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
参照图1~图3,一种文本的方面级别情感分析方法,文本信息,如酒店评论,具有口语化、语法多变和文本较长、描述方面多远等特点,降低了现有文本挖掘方法的预估准确性。基于此,本发明提供了一种文本方面级别情感分析方法,该方法使用DGRU捕获文本语义局部不变性特征、Attention机制获取上下文长距离依赖的情感来源,从而能够更加深入的理解文本含义。
本实施例中可以按照下述步骤对文本进行方面级别情感分析,包括以下步骤:
1),获取将文本信息以及方面信息输入至预设的截断门控单元网络DGRU所得的句子级别的文本语义表示矩阵,以及所述文本语义表示向量;
2),依据所述句子级别的文本语义表示矩阵、方面信息和预设的Attention 模型,获取所述文本信息中各单词与方面信息对应的注意力值,得到每个单词的注意力权重;
3),依据所述句子级别的文本语义表达矩阵和注意力权重,构建所述文本信息对应的文本方面情感表示向量;
4),将所述的新的文本方面情感表示向量映射到情感分类器,采用softmax 函数对文本方面情感表示向量进行情感评估,得到各预设的情感极性的预测概率。
所述步骤1)中,所述文本信息为X={X∈R2d×N|(x1,x2,x3...xt...xN-1,xN)}, 其中N为文本序列的长度,d为词向量长度,wt为文本序列的词向量, a为该样本所给定方面词向量,两向量长度均为d,具体地,本实例所使用的词向量均采用自Glove词向量集。
ht=GRU(xt,xt-1,xt-2,...,xt-k+1)
进一步地,参阅附图2,获得第t个单词语义表达向量ht的GRU函数计算单元计算过程为:
rt=σ(Wr·[ht-1,xt])
zt=σ(Wz·[ht-1,xt])
进一步地,文本语义表示向量hp为所述本语义表示矩阵进行最大池化操作而来,过程为:
hp=maxpooling(H)
进一步地,所述步骤3)中,使用注意力机制获取所述文本信息中各单词与方面信息对应的注意力值,具体方法可参阅附图3,过程为:
将所述文本语义表示矩阵H输入到带有修正线性单元(Tanh)激活的注意力多层感知机MLP中,将MLP的输出发送到一个softmax函数中,得到一个注意力权重向量a∈RN×1,具体为:
a=softmax(wTM)
进一步地,文本方面情感表示向量h*的获取计算如下式所示:
r=HaT
h*=tanh(Wrr+Wxhp)
其中H为所述文本语义表示矩阵,a为所述注意力权重向量,r为文本情感权重表达隐状态r∈Rd×1,hp为文本语义表示向量。
进一步地,所述步骤4)中,对文本方面情感表示向量进行情感评估的分类器过程为:
将h*送入Softmax分类器,得到情感分类的概率分布向量y∈R|c|×1,分类器具体计算如下式所示:
y=softmax(Wsh*+bs)
其中Ws、bs为softmax分类器的参数矩阵和偏置项。
具体地,本实施例中预设的情感分类类型指的是预设类型的情感极性,例如情感极性可以包括负、中性、和正共三种类型的情感极性,也可以仅包括正和负这两种类型的情感极性。
优选地,在所述得到最终的情感分析结果之后,所述方法还包括以下:
5)根据情感分析结果与实际结果的偏差信息,使用Adam算法动态调整每个参数的学习率,使用交叉熵损失函数更新卷积神经网络中每个神经元的权重。
本实施例所使用的语义获取模块中,DGRU能在捕捉上下文长距离依赖过程中保留位置不变性信息,因此能有效提升针对复杂语句的方面级别情感分类有效性。使用注意力机制对文本语义表达提取情感权重系数,进一步定位给定方面信息的情感来源,因此结合文本语义表达与情感权重表达能得到更有效的给定方面情感表达。
Claims (8)
1.一种文本的方面级别情感分析方法,其特征在于,所述方法包括以下步骤:
1)获取将文本信息以及方面信息输入至预设的截断门控单元网络DGRU所得的句子级别的文本语义表示矩阵,以及所述文本语义表示向量;
2)依据所述句子级别的文本语义表示矩阵、方面信息和预设的Attention模型,获取所述文本信息中各单词与方面信息对应的注意力值,得到每个单词的注意力权重;
3)依据所述句子级别的文本语义表达矩阵和注意力权重,构建所述文本信息对应的文本方面情感表示向量;
4)将所述的新的文本方面情感表示向量映射到情感分类器,采用softmax函数对文本方面情感表示向量进行情感评估,得到各预设的情感极性的预测概率。
4.根据权利要求3所述的方法,其特征在于,所述文本语义表示向量hp为所述本语义表示矩阵进行最大池化操作而来,过程为:
hp=maxpooling(H)。
6.根据权利要求5所述的方法,其特征在于,文本方面情感表示向量h*的获取计算如下式所示:
r=HaT
h*=tanh(Wrr+Wxhp)
其中H为所述文本语义表示矩阵,a为所述注意力权重向量,r为文本情感权重表达隐状态r∈Rd×1,hp为文本语义表示向量。
7.根据权利要求6所述方法,其特征在于,对文本方面情感表示向量进行情感评估的分类器的过程为:
将h*送入Softmax分类器,得到情感分类的概率分布向量y∈R|c|×1,分类器具体计算如下式所示:
y=softmax(Wsh*+bs)
其中Ws、bs为softmax分类器的参数矩阵和偏置项。
8.根据权利要求书1~7之一所述的方法,其特征在于,在最终的情感分析结果之后,所述方法还包括以下步骤:
5)根据情感分析结果与实际结果的偏差信息,使用Adam算法动态调整每个参数的学习率,使用交叉熵损失函数更新卷积神经网络中每个神经元的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010786017.XA CN112131886A (zh) | 2020-08-05 | 2020-08-05 | 一种文本的方面级别情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010786017.XA CN112131886A (zh) | 2020-08-05 | 2020-08-05 | 一种文本的方面级别情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112131886A true CN112131886A (zh) | 2020-12-25 |
Family
ID=73851576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010786017.XA Pending CN112131886A (zh) | 2020-08-05 | 2020-08-05 | 一种文本的方面级别情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131886A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860894A (zh) * | 2021-02-10 | 2021-05-28 | 北京百度网讯科技有限公司 | 情感分析模型的训练方法、情感分析方法、装置和设备 |
CN113032570A (zh) * | 2021-04-12 | 2021-06-25 | 武汉工程大学 | 一种基于ATAE-BiGRU的文本方面情感分类方法及系统 |
CN113221537A (zh) * | 2021-04-12 | 2021-08-06 | 湘潭大学 | 一种基于截断循环神经网络和临近加权卷积的方面级情感分析方法 |
CN113255366A (zh) * | 2021-05-28 | 2021-08-13 | 西安交通大学 | 一种基于异构图神经网络的方面级文本情感分析方法 |
CN113254637A (zh) * | 2021-05-07 | 2021-08-13 | 山东师范大学 | 一种融合语法的方面级文本情感分类方法及系统 |
CN113705201A (zh) * | 2021-10-28 | 2021-11-26 | 湖南华菱电子商务有限公司 | 基于文本的事件概率预测评估算法、电子设备及存储介质 |
CN115618884A (zh) * | 2022-11-16 | 2023-01-17 | 华南师范大学 | 基于多任务学习的言论分析方法、装置以及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110569963A (zh) * | 2019-08-13 | 2019-12-13 | 哈尔滨工程大学 | 一种防止数据信息丢失的dgru神经网络及其预测方法 |
CN110717334A (zh) * | 2019-09-10 | 2020-01-21 | 上海理工大学 | 基于bert模型和双通道注意力的文本情感分析方法 |
CN111353040A (zh) * | 2019-05-29 | 2020-06-30 | 北京工业大学 | 基于gru的属性级别情感分析方法 |
-
2020
- 2020-08-05 CN CN202010786017.XA patent/CN112131886A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353040A (zh) * | 2019-05-29 | 2020-06-30 | 北京工业大学 | 基于gru的属性级别情感分析方法 |
CN110569963A (zh) * | 2019-08-13 | 2019-12-13 | 哈尔滨工程大学 | 一种防止数据信息丢失的dgru神经网络及其预测方法 |
CN110717334A (zh) * | 2019-09-10 | 2020-01-21 | 上海理工大学 | 基于bert模型和双通道注意力的文本情感分析方法 |
Non-Patent Citations (1)
Title |
---|
KAI SHUANG等: "AELA-DLSTMs:Attention-Enabled and Location-Aware Double LSTMs for aspect-level sentiment classification", 《NEUROCOMPUTING》, vol. 334, pages 113 - 34 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112860894A (zh) * | 2021-02-10 | 2021-05-28 | 北京百度网讯科技有限公司 | 情感分析模型的训练方法、情感分析方法、装置和设备 |
CN112860894B (zh) * | 2021-02-10 | 2023-06-27 | 北京百度网讯科技有限公司 | 情感分析模型的训练方法、情感分析方法、装置和设备 |
CN113032570A (zh) * | 2021-04-12 | 2021-06-25 | 武汉工程大学 | 一种基于ATAE-BiGRU的文本方面情感分类方法及系统 |
CN113221537A (zh) * | 2021-04-12 | 2021-08-06 | 湘潭大学 | 一种基于截断循环神经网络和临近加权卷积的方面级情感分析方法 |
CN113254637A (zh) * | 2021-05-07 | 2021-08-13 | 山东师范大学 | 一种融合语法的方面级文本情感分类方法及系统 |
CN113254637B (zh) * | 2021-05-07 | 2023-04-07 | 山东师范大学 | 一种融合语法的方面级文本情感分类方法及系统 |
CN113255366A (zh) * | 2021-05-28 | 2021-08-13 | 西安交通大学 | 一种基于异构图神经网络的方面级文本情感分析方法 |
CN113705201A (zh) * | 2021-10-28 | 2021-11-26 | 湖南华菱电子商务有限公司 | 基于文本的事件概率预测评估算法、电子设备及存储介质 |
CN113705201B (zh) * | 2021-10-28 | 2022-01-11 | 湖南华菱电子商务有限公司 | 基于文本的事件概率预测评估算法、电子设备及存储介质 |
CN115618884A (zh) * | 2022-11-16 | 2023-01-17 | 华南师范大学 | 基于多任务学习的言论分析方法、装置以及设备 |
CN115618884B (zh) * | 2022-11-16 | 2023-03-10 | 华南师范大学 | 基于多任务学习的言论分析方法、装置以及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112131886A (zh) | 一种文本的方面级别情感分析方法 | |
CN110929030B (zh) | 一种文本摘要和情感分类联合训练方法 | |
CN108363695B (zh) | 一种基于双向依赖语法树表征的用户评论属性抽取方法 | |
CN111368086A (zh) | 一种基于CNN-BiLSTM+attention模型的涉案新闻观点句情感分类方法 | |
CN116415654A (zh) | 一种数据处理方法及相关设备 | |
CN107818084B (zh) | 一种融合点评配图的情感分析方法 | |
CN110046353B (zh) | 一种基于多语言层次机制的方面级情感分析方法 | |
Nagaraj et al. | Kannada to English Machine Translation Using Deep Neural Network. | |
CN110781686B (zh) | 一种语句相似度计算方法、装置及计算机设备 | |
CN113065344A (zh) | 一种基于迁移学习和注意力机制的跨语料库情感识别方法 | |
Jha et al. | A novel approach on visual question answering by parameter prediction using faster region based convolutional neural network | |
CN111382568B (zh) | 分词模型的训练方法和装置、存储介质和电子设备 | |
CN115688752A (zh) | 一种基于多语义特征的知识抽取方法 | |
Shijia et al. | Aspect-based Financial Sentiment Analysis with Deep Neural Networks. | |
CN114417851A (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN113887836B (zh) | 一种融合事件环境信息的叙述性事件预测方法 | |
CN112560440B (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
Amrouche et al. | Long short-term memory neural network equilibria computation and analysis | |
Chien et al. | Markov recurrent neural network language model | |
CN114239575B (zh) | 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备 | |
CN113505226B (zh) | 融合图卷积神经网络的文本情感分类系统 | |
Li et al. | Dual-channel attention model for text sentiment analysis | |
CN114357166A (zh) | 一种基于深度学习的文本分类方法 | |
Li et al. | Biologically-inspired pulse signal processing for intelligence at the edge | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |