CN111737581A - 一种针对特定方面的情感分析的半监督多任务学习模型 - Google Patents
一种针对特定方面的情感分析的半监督多任务学习模型 Download PDFInfo
- Publication number
- CN111737581A CN111737581A CN202010720783.6A CN202010720783A CN111737581A CN 111737581 A CN111737581 A CN 111737581A CN 202010720783 A CN202010720783 A CN 202010720783A CN 111737581 A CN111737581 A CN 111737581A
- Authority
- CN
- China
- Prior art keywords
- word
- bimagru
- layer
- prediction module
- gate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 22
- 238000004458 analytical method Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 230000000007 visual effect Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 21
- 230000004913 activation Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000001902 propagating effect Effects 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 6
- 238000013136 deep learning model Methods 0.000 abstract description 4
- 238000013461 design Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 3
- 230000014509 gene expression Effects 0.000 abstract description 2
- 101100190227 Drosophila melanogaster PGRP-SA gene Proteins 0.000 description 11
- 238000012552 review Methods 0.000 description 11
- 238000013135 deep learning Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 240000007185 Albizia julibrissin Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种针对特定方面的情感分析的半监督多任务学习模型,该模型是一个端到端的统一多任务模型,可以在一个统一的框架内完成所有子任务,每个子任务共享同样的表示空间和中间计算,大大节省了计算资源,并且多个子任务间可以交流中间信息,相互提升最终预测精度。本发明利用交叉视角训练方法实现了半监督学习,大大减少了对人工标注的依赖,只需要很少人工标注评论,再加上大量的同一领域未标注评论,就可以达到比已有传统全监督深度学习模型更好的效果。另外,本发明利用深度循环神经网络和基于移动窗口注意力机制的门控循环单元,构建了更好的表示学习方法,并设计了多个具有针对性的主要和辅助预测模块,从而达到了更好的分析准确度。
Description
技术领域
本发明涉及半监督多任务学习技术领域,具体涉及一种针对特定方面的情感分析的半监督多任务学习模型。
背景技术
现今越来越多的用户在各种互联网平台(例如社交网络、在线购物网站等)发表自己对商品或服务的评论,与之相对应的是,互联网上的评论也在影响着消费者的判断,人们越来越倾向于参考他人的反馈信息来做出消费决定。因此,真实的用户反馈对于相关企业有着相当高的利用价值,通过分析这些评论并挖掘出用户不满意的方面,能及时对产品或服务做出改善。
但是,以往对用户评论的分析处理模式,通常更关心文档级别或者是句子级别的总体评价,比如判断一个评论总体而言是偏向正面情感还是负面情感。然而,用户的反馈时常体现出复杂性,甚至是矛盾性,里面除了对商品的总体评价以外,也可能包含多个对具体细节的不同感受。比如某位用户发表了对某笔记本电脑的评论:“我喜欢这个系统,除了它的一些预装软件”。用户在这个评论中针对笔记本电脑的系统方面给出了正面评价,但是针对预装软件却给出了负面评价。
基于特定方面的情感分析(Aspect-Based Sentiment Analysis,以下简称ABSA)可以针对不同的方面挖掘出用户更细腻更具体的情感表述。但是由于评论越积越多,信息过载,用户和企业都很难在海量的评论中快速定位针对特定方面的评价,所以如何更高效地针对大量评论做出ABSA已经成为亟待解决的难题,而通过解决这个难题,可以为用户和企业带来巨大的增益。对于用户来说,ABSA可以将评论归类于商品或服务不同的方面,使得用户不再需要一篇一篇的阅读评论,而是直接定位自己感兴趣的方面的相关评论。对于企业来说,ABSA可以自动分析评论,让企业可以快速获取产品或服务更细腻更具体的反馈。
通常来说,ABSA包含两个子任务,分别为方面挖掘(Aspect Mining,以下简称AM)和方面情感判别(Aspect Sentiment Classification,以下简称ASC)。其中AM子任务负责挖掘评论中提到的具体方面,而ASC子任务负责判断该具体方面的情感极性(如负面、正面、或者中性评价)。传统技术通常只关注其中一个子任务,通过将该子任务抽象为序列标注问题,应用传统机器学习方法训练全监督模型来完成该子任务。针对AM子任务,通常使用{B,I,O}标签,其中B表示方面词的开始,I表示方面词的继续,O则表示非方面词;针对ASC子任务,通常使用{POS,NEG,NEU,O}标签,其中POS表示正面评价,NEG表示负面评价,NEU表示中性评价,O则表示其他词。如表1所示,通过使用人工标注好的评论数据训练全监督模型,示例评论中的特定方面及其对应评价被标注出来。
表1:ABSA中的AM和ASC子任务标注示例
我 | 喜 | 欢 | 这 | 个 | 系 | 统 | 除 | 了 | 它 | 的 | 一 | 些 | 预 | 装 | 软 | 件 |
O | O | O | O | O | B | I | O | O | O | O | O | O | B | I | I | I |
O | O | O | O | O | POS | POS | O | O | O | O | O | O | NEG | NEG | NEG | NEG |
不过由于现有方案通常只能处理单个子任务(AM或ASC),如果想要进行完整的ABSA,则需要先后流水线式应用两种针对不同子任务的方案,并组合两组标注以得到最后结果。近年来,深度学习已在该领域取得了令人瞩目的成功,但是大部分现有深度学习方案仍然只能处理其中一个子任务,并且训练这些深度学习模型需要更庞大的人工标注数据,这需要付出巨大的经济和时间成本。
如上所述,目前完成完整的ABSA需要用到两个不同的模型,并且需要大量的人工标注数据用以训练深度学习模型。具体来说,现有方法包含以下两个严重缺陷:
(1)模型缺乏统一性:由于当前方法把两个子任务(AM和ASC)分开处理,每个模型的表示空间和中间计算无法共用,造成运算浪费。已有研究表明,对于高度相关的任务,统一模型比流水线模型效果更好。所以针对两个任务进行统一建模不但节省计算资源,最终的分析结果也会更好。
(2)巨大的标注投入:虽然当前方法(尤其是深度学习方法)在各子任务上取得了相对以前更好的成绩,但是这些方法依赖更多的针对该任务的标注数据。而通常不同的商品或是服务有着不同的方面空间,因此,一个实体的标注数据无法直接应用于另一个实体。这意味着每个不同的实体都需要人工标注大量评论来训练模型,以保证模型的效果,这显然实现起来并不容易。
发明内容
针对现有技术的不足,本发明旨在提供一种针对特定方面的情感分析的半监督多任务学习模型。
为了实现上述目的,本发明采用如下技术方案:
一种针对特定方面的情感分析的半监督多任务学习模型,包括:三层堆叠的BiMAGRU层、主预测模块、辅助预测模块和训练模块;
BiMAGRU层:BiMAGRU表示双向的基于移动窗口注意力机制的门控循环单元MAGRU,每一层BiMAGRU层均由前向传播的MAGRU和后向传播的MAGRU合并而成;上层BiMAGRU层使用来自下层BiMAGRU层的隐含状态输出作为输入;
所述MAGRU包含三个门控,分别为重置门r、更新门z和注意门a;重置门r由以下公式计算得到:
rt=σ(Urxt+Wrht-1);
其中,rt为当前位置t的重置门,ht-1为前一个位置t-1的表示,xt为当前位置t的输入单词,Ur和Wr为模型参数,σ为sigmoid激活函数;更新门z由以下公式计算得到:
zt=σ(Uzxt+Wzht-1);
Uh和Wh为模型参数;由于注意门a只关注当前输入在移动窗口中的最近N个表示状态,因此首先为每一个位置在窗口中的表示hi(i=t-N,…,t-1)计算一个重要性分值:
每一层BiMAGRU层输出的隐含状态可以如下计算:
其中,所述表示前向传播的MAGRU,表示后向传播的MAGRU,表示第一层BiMAGRU层中位置t上学习到的隐含状态,表示第二层BiMAGRU层中位置t上学习到的隐含状态,表示第三层BiMAGRU层的输出中位置t上学习到的隐含状态;代表连接操作;
主预测模块:
辅预测模块:
主预测模块和辅预测模块共享第一层BiMAGRU层;
在每个子任务AM或ASC的框架中,均有四个不同的辅预测模块ppast、pfwd、pbwd和pfuture,每个不同的辅预测模块都通过不同的视角来选取输入数据;对于当前单词的预测,辅预测模块ppast只能查看位于当前单词左侧的单词;辅预测模块pfwd可以查看当前单词及其左侧的单词;pbwd关注当前单词及其右侧的单词;pfuture只能查看位于当前单词右侧的单词;将这四个辅预测模块定义如下:
其中k∈{A,S},表示AM或ASC;nnpast、nnfwd、nnbwd、nnfuture则代表着与主预测模块相同的神经网络结构;表示第一层BiMAGRU层前向传播中位置t-1(即当前位置的左侧)上学习到的隐含状态,表示第一层BiMAGRU层前向传播中当前位置t上学习到的隐含状态,表示第一层BiMAGRU层后向传播中当前位置t上学习到的隐含状态,表示第一层BiMAGRU层后向传播中位置t+1(即当前位置的右侧)上学习到的隐含状态;
训练模块:用于对主预测模块和辅预测模块采用半监督多任务学习方法进行训练。
进一步地,所述训练模块使用多任务交叉视角训练方法进行主预测模块和辅预测模块的训练,具体过程如下:
进一步地,针对特定方面的情感分析的半监督多任务学习模型还包括有单词转换模块,所述单词转换模块用于将评论中的各个单词在输入之前,转换为词嵌入向量。
进一步地,单词转换模块通过比照各个单词在情感词典中的极性分值来判断该单词是正面词还是负面词,并通过该极性分值将相似极性的单词重新排序,再将单词转换为词嵌入向量。
更进一步地,对于现有的词嵌入向量没有包含的词汇,单词转换模块使用字符特征向量(Char-Features)来辅助表示。
本发明的有益效果在于:
(1)统一的多任务模型:本发明提出的针对特定方面的情感分析的半监督多任务学习模型是一个端到端的统一多任务模型。相较于传统流水线式模型将ABSA的两个子任务(AM和ASC)分割开来独自处理,SEML可以在一个统一的框架内完成所有子任务。每个子任务共享同样的表示空间和中间计算,大大节省了计算资源。并且多个子任务间可以交流中间信息,相互提升最终预测精度。
(2)更少的人工标注依赖:本发明虽然基于深度学习,但是却利用交叉视角训练方法实现了半监督学习,大大减少了对人工标注的依赖,只需要很少的人工标注评论,再加上大量的同一领域未标注评论,就可以达到比已有传统全监督深度学习模型更好的效果。
(3)更高的分析准确度:本发明利用深度循环神经网络和基于移动窗口注意力机制的门控循环单元,构建了更好的表示学习方法,并设计了多个具有针对性的主要和辅助预测模块,从而达到了更好的分析准确度。
附图说明
图1为本发明实施例中针对特定方面的情感分析的半监督多任务学习模型的总体结构示意图;
图2为本发明实施例中基于移动窗口注意力机制的门控循环单元的结构示意图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
本实施例提供一种针对特定方面的情感分析的半监督多任务学习模型(SEML)。该模型有三个关键特性。
(1)SEML采用交叉视角训练(Cross-View Training,以下简称CVT),在统一的端到端体系结构中,对来自同一领域的已标注评论和未标注评论进行半监督序列学习;
(2)SEML同时解决了两个子任务(AM和ASC),它使用三层堆叠的双向循环神经网络来学习评论表示,其中来自不同层的表示分别被输入到CVT、AM和ASC中;
(3)SEML为该循环神经网络开发了一个基于移动窗口注意力机制的门控循环单元(Moving-window Attentive Gated Recurrent Unit,以下简称MAGRU),以提高表示学习和预测精度,因为在评论中某个词的邻近上下文可以为ABSA中的预测任务提供重要的语义信息。
下文将详细介绍SEML模型的各个组成部分,如图1所示。
1、基于移动窗口注意力机制的门控循环单元(MAGRU):
本实施例中,使用深度双向循环神经网络来构建表示学习空间。但是,在ABSA中,邻近单词为预测新的单词标签提供了有用的线索,例如方面标签“I”不能跟随“O”、已提取的方面可以帮助找到并列出现的方面等等。因此,本实施例设计了MAGRU(如图2所示),利用注意力机制建模重要的上下文语义关系,强化表示学习。
具体而言,如图2所示,所述MAGRU包含三个门控,分别为重置门(Reset Gater)、更新门(Update Gatez)和注意门(Attention Gate a)。重置门r由以下公式计算得到:
rt=σ(Urxt+Wrht-1);
其中,rt为当前位置t的重置门,ht-1为前一个位置的表示,xt为当前位置t的输入单词,Ur和Wr为模型参数,σ为sigmoid激活函数;
更新门z由以下公式计算得到:
zt=σ(Uzxt+Wzht-1);
zt为当前位置t的重置门,Uz和Wz为模型参数。
Uh和Wh为模型参数。
由于注意门a只关注当前输入在移动窗口中的最近N个表示状态,因此首先为每一个位置在窗口中的表示hi(i=t-N,…,t-1)计算一个重要性分值:
再使用ReLU激活函数和计算得到的重要性分值计算注意门a:
at表示当前位置的注意门。
由此,基于移动窗口注意力机制的门控循环单元中,使用重置门控制组合前一个位置的表示和当前输入,使用更新门控制多大程度保留前一个位置的表示,使用注意力门给出移动窗口中各个表示的重要性分数。
2.表示学习(Representation Learning)
如图1所示,本实施例提出的SEML模型使用词嵌入向量(Word Embedding)作为输入数据,词嵌入向量可以将文字转化为多维数字向量以利于计算。现有的通用词嵌入向量通常会将完全相反极性的情感词映射到相近的向量空间上,而空间更相近的向量意味着更大的相似性,这对情感分析的准确性带来很大影响。
因此,本实施例中,通过比照各个单词在情感词典(如SentiWordNet、E-ANEW等)中的极性分值来判断该单词是正面词还是负面词,并通过该极性分值将相似极性的单词重新排序,再将单词转换为词嵌入向量,使得相似极性的单词能重新聚合在相近的向量空间中。
另外,由于用户经常会在评论中使用错误的拼写或其他稀有词汇,而现有的词嵌入向量可能没有包含这些词汇。对于这些词汇,本实施例使用字符特征向量(Char-Features)来辅助表示。
通过词嵌入向量转换和字符特征向量转换,最终将评论中的每个单词都转换为词嵌入和字符特征的组合向量,表示为V={v1,...,vT},并将其输入到深度双向循环神经网络中进行表示学习。
SEML模型使用三个堆叠的双向MAGRU(BiMAGRU)层来为AM和ASC子任务构建共享的表示学习空间,每个上层网络使用来自下层的隐含状态(Hidden States)作为输入。具体来说,将两个前向和后向传播的MAGRU合并为一个BiMAGRU层,因为前向和后向的信息对于预测当前位置都很重要。每一层输出的隐含状态可以如下计算:
其中,所述表示前向传播的MAGRU,表示后向传播的MAGRU,表示第一层BiMAGRU层中位置t上学习到的隐含状态,表示第二层BiMAGRU层中位置t上学习到的隐含状态,表示第三层BiMAGRU层的输出中位置t上学习到的隐含状态;代表连接操作。
3.预测模块(Prediction Modules)
SEML能利用已标注评论和未标注评论来同时完成两个子任务(AM和ASC)。针对已标注的评论,本实施例设计了两个主预测模块(Primary Prediction Modules)分别对应AM和ASC子任务。同时,分别设计了四个辅预测模块(Auxiliary Prediction Modules)来处理未标注的评论。
(1)主预测模块:
(2)辅预测模块:
主预测模块和辅预测模块共享第一层BiMAGRU层。
在每个子任务(AM或ASC)的框架中,均有四个不同的辅预测模块ppast、pfwd、pbwd和pfuture,每个不同的辅预测模块都通过不同的视角来选取输入数据。对于当前单词的预测,辅预测模块ppast只能查看位于当前单词左侧的单词;辅预测模块pfwd可以查看当前单词及其左侧的单词;pbwd关注当前单词及其右侧的单词;pfuture只能查看位于当前单词右侧的单词,如图1所示。BiMAGRU可以很容易地提供这些受限的视角,而不需要进行额外的计算,因此,可以将这四个辅预测模块定义如下:
其中k∈{A,S},表示AM或ASC;nnpast、nnfwd、nnbwd、nnfuture则代表着与主预测模块相同的神经网络结构;表示第一层BiMAGRU层前向传播中位置t-1(即当前位置的左侧)上学习到的隐含状态,表示第一层BiMAGRU层前向传播中当前位置t上学习到的隐含状态,表示第一层BiMAGRU层后向传播中当前位置t上学习到的隐含状态,表示第一层BiMAGRU层后向传播中位置t+1(即当前位置的右侧)上学习到的隐含状态。
由于第二层和第三层BiMAGRU层已经包含了所有单词的信息,所以只能将第一层BiMAGRU层输入到辅预测模块,以便限制它们的视角。
4.多任务交叉视角训练(Multi-Task Cross-View Training,MCVT)
由于同时使用了已标注评论和未标注评论来训练模型,因此本实施例在SEML模块中采用多任务交叉视角训练方法(CVT)来达到半监督学习的目标。CVT的核心思想是使用来自相同领域的未标记的评论来增强表示学习,并在小批量的已标注评论或未标注评论上交替学习主预测模块和辅预测模块。
而针对未标注评论Du,SEML模型首先基于AM和ASC的主预测模块推导出和(xi∈Du),然后利用Kullback-Leibler(KL)散度函数作为损失函数,来训练辅预测模块以匹配和接近两个主预测模块:
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。
Claims (5)
1.一种针对特定方面的情感分析的半监督多任务学习模型,其特征在于,包括:三层堆叠的BiMAGRU层、主预测模块、辅助预测模块和训练模块;
BiMAGRU层:BiMAGRU表示双向的基于移动窗口注意力机制的门控循环单元MAGRU,每一层BiMAGRU层均由前向传播的MAGRU和后向传播的MAGRU合并而成;上层BiMAGRU层使用来自下层BiMAGRU层的隐含状态输出作为输入;
所述MAGRU包含三个门控,分别为重置门r、更新门z和注意门a;重置门r由以下公式计算得到:
rt=σ(Urxt+Wrht-1);
其中,rt为当前位置t的重置门,ht-1为前一个位置t-1的表示,xt为当前位置t的输入单词,Ur和Wr为模型参数,σ为sigmoid激活函数;更新门z由以下公式计算得到:
zt=σ(Uzxt+Wzht-1);
Uh和Wh为模型参数;由于注意门a只关注当前输入在移动窗口中的最近N个表示状态,因此首先为每一个位置在窗口中的表示h(i=t-N,…,t-1)计算一个重要性分值:
每一层BiMAGRU层输出的隐含状态可以如下计算:
其中,所述表示前向传播的MAGRU,表示后向传播的MAGRU,表示第一层BiMAGRU层中位置t上学习到的隐含状态,表示第二层BiMAGRU层中位置t上学习到的隐含状态,表示第三层BiMAGRU层的输出中位置t上学习到的隐含状态;⊕代表连接操作;
主预测模块:
辅预测模块:
主预测模块和辅预测模块共享第一层BiMAGRU层;
在每个子任务AM或ASC的框架中,均有四个不同的辅预测模块ppast、pfwd、pbwd和pfuture,每个不同的辅预测模块都通过不同的视角来选取输入数据;对于当前单词的预测,辅预测模块ppast只能查看位于当前单词左侧的单词;辅预测模块pfwd可以查看当前单词及其左侧的单词;pbwd关注当前单词及其右侧的单词;pfuture只能查看位于当前单词右侧的单词;将这四个辅预测模块定义如下:
其中k∈{A,S},表示AM或ASC;nnpast、nnfwd、nnbwd、nnfuture则代表着与主预测模块相同的神经网络结构;表示第一层BiMAGRU层前向传播中位置t-1上学习到的隐含状态,表示第一层BiMAGRU层前向传播中当前位置t上学习到的隐含状态,表示第一层BiMAGRU层后向传播中当前位置t上学习到的隐含状态,表示第一层BiMAGRU层后向传播中位置t+1上学习到的隐含状态;
训练模块:用于对主预测模块和辅预测模块采用半监督多任务学习方法进行训练。
3.根据权利要求1所述的针对特定方面的情感分析的半监督多任务学习模型,其特征在于,还包括有单词转换模块,所述单词转换模块用于将评论中的各个单词在输入之前,转换为词嵌入向量。
4.根据权利要求3所述的针对特定方面的情感分析的半监督多任务学习模型,其特征在于,单词转换模块通过比照各个单词在情感词典中的极性分值来判断该单词是正面词还是负面词,并通过该极性分值将相似极性的单词重新排序,再将单词转换为词嵌入向量。
5.根据权利要求3所述的针对特定方面的情感分析的半监督多任务学习模型,其特征在于,对于现有的词嵌入向量没有包含的词汇,单词转换模块使用字符特征向量来辅助表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010720783.6A CN111737581A (zh) | 2020-07-24 | 2020-07-24 | 一种针对特定方面的情感分析的半监督多任务学习模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010720783.6A CN111737581A (zh) | 2020-07-24 | 2020-07-24 | 一种针对特定方面的情感分析的半监督多任务学习模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111737581A true CN111737581A (zh) | 2020-10-02 |
Family
ID=72657531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010720783.6A Pending CN111737581A (zh) | 2020-07-24 | 2020-07-24 | 一种针对特定方面的情感分析的半监督多任务学习模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737581A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733539A (zh) * | 2020-12-30 | 2021-04-30 | 平安科技(深圳)有限公司 | 面试实体识别模型训练、面试信息实体提取方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670039A (zh) * | 2018-11-20 | 2019-04-23 | 华南师范大学 | 基于三部图和聚类分析的半监督电商评论情感分析方法 |
CN109871444A (zh) * | 2019-01-16 | 2019-06-11 | 北京邮电大学 | 一种文本分类方法及系统 |
CN109992668A (zh) * | 2019-04-04 | 2019-07-09 | 上海冰鉴信息科技有限公司 | 一种基于自注意力的企业舆情分析方法和装置 |
CN110097089A (zh) * | 2019-04-05 | 2019-08-06 | 华南理工大学 | 一种基于注意力组合神经网络的文档级别的情感分类方法 |
CN110263165A (zh) * | 2019-06-14 | 2019-09-20 | 中山大学 | 一种基于半监督学习的用户评论情感分析方法 |
CN110472052A (zh) * | 2019-07-31 | 2019-11-19 | 西安理工大学 | 一种基于深度学习的中文社交平台情感分析方法 |
CN111428004A (zh) * | 2020-03-26 | 2020-07-17 | 辽宁工程技术大学 | 一种融合辅助信息与层级自注意力循环神经网络方面的情感分析方法 |
-
2020
- 2020-07-24 CN CN202010720783.6A patent/CN111737581A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670039A (zh) * | 2018-11-20 | 2019-04-23 | 华南师范大学 | 基于三部图和聚类分析的半监督电商评论情感分析方法 |
CN109871444A (zh) * | 2019-01-16 | 2019-06-11 | 北京邮电大学 | 一种文本分类方法及系统 |
CN109992668A (zh) * | 2019-04-04 | 2019-07-09 | 上海冰鉴信息科技有限公司 | 一种基于自注意力的企业舆情分析方法和装置 |
CN110097089A (zh) * | 2019-04-05 | 2019-08-06 | 华南理工大学 | 一种基于注意力组合神经网络的文档级别的情感分类方法 |
CN110263165A (zh) * | 2019-06-14 | 2019-09-20 | 中山大学 | 一种基于半监督学习的用户评论情感分析方法 |
CN110472052A (zh) * | 2019-07-31 | 2019-11-19 | 西安理工大学 | 一种基于深度学习的中文社交平台情感分析方法 |
CN111428004A (zh) * | 2020-03-26 | 2020-07-17 | 辽宁工程技术大学 | 一种融合辅助信息与层级自注意力循环神经网络方面的情感分析方法 |
Non-Patent Citations (2)
Title |
---|
李丽双等: "基于动态注意力GRU的特定目标情感分类", 《中国科学:信息科学》, vol. 49, no. 8, pages 1019 - 1030 * |
李凌浩;李欣晔;张承强;周雄图;张永爱;: "基于Bi-GRU和双层注意力机制的商品评论情感分析", 广播电视网络, no. 02, pages 104 - 109 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733539A (zh) * | 2020-12-30 | 2021-04-30 | 平安科技(深圳)有限公司 | 面试实体识别模型训练、面试信息实体提取方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pfeiffer et al. | Adapterfusion: Non-destructive task composition for transfer learning | |
Koncel-Kedziorski et al. | Text generation from knowledge graphs with graph transformers | |
Tang et al. | Aspect level sentiment classification with deep memory network | |
Gan et al. | Sparse attention based separable dilated convolutional neural network for targeted sentiment analysis | |
Zhang et al. | Convolutional multi-head self-attention on memory for aspect sentiment classification | |
CN111259127B (zh) | 一种基于迁移学习句向量的长文本答案选择方法 | |
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
Guo et al. | Implicit discourse relation recognition using neural tensor network with interactive attention and sparse learning | |
CN112131366A (zh) | 训练文本分类模型及文本分类的方法、装置及存储介质 | |
Li et al. | Dual-CNN: A Convolutional language decoder for paragraph image captioning | |
Xue et al. | Multi-level attention map network for multimodal sentiment analysis | |
CN112883193A (zh) | 一种文本分类模型的训练方法、装置、设备以及可读介质 | |
CN112800292A (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
Peng et al. | Multilevel hierarchical network with multiscale sampling for video question answering | |
CN113326374B (zh) | 基于特征增强的短文本情感分类方法及系统 | |
CN114239574A (zh) | 一种基于实体和关系联合学习的矿工违规行为知识抽取方法 | |
CN112949758A (zh) | 应答模型的训练方法、应答方法、装置、设备及存储介质 | |
Kasai et al. | End-to-end graph-based TAG parsing with neural networks | |
Ma et al. | Xtqa: Span-level explanations for textbook question answering | |
Li et al. | Knowledge-enriched attention network with group-wise semantic for visual storytelling | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN111737581A (zh) | 一种针对特定方面的情感分析的半监督多任务学习模型 | |
Zhou | Research on the application of deep learning in text generation | |
Feng et al. | Pre-trained language embedding-based contextual summary and multi-scale transmission network for aspect extraction | |
Al-Tameemi et al. | Multi-model fusion framework using deep learning for visual-textual sentiment classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |