CN111737581A - 一种针对特定方面的情感分析的半监督多任务学习模型 - Google Patents

一种针对特定方面的情感分析的半监督多任务学习模型 Download PDF

Info

Publication number
CN111737581A
CN111737581A CN202010720783.6A CN202010720783A CN111737581A CN 111737581 A CN111737581 A CN 111737581A CN 202010720783 A CN202010720783 A CN 202010720783A CN 111737581 A CN111737581 A CN 111737581A
Authority
CN
China
Prior art keywords
word
bimagru
layer
prediction module
gate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010720783.6A
Other languages
English (en)
Inventor
李宁
周志贤
张家栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Network Analysis Research And Technology Co ltd
Original Assignee
Network Analysis Research And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Network Analysis Research And Technology Co ltd filed Critical Network Analysis Research And Technology Co ltd
Priority to CN202010720783.6A priority Critical patent/CN111737581A/zh
Publication of CN111737581A publication Critical patent/CN111737581A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种针对特定方面的情感分析的半监督多任务学习模型,该模型是一个端到端的统一多任务模型,可以在一个统一的框架内完成所有子任务,每个子任务共享同样的表示空间和中间计算,大大节省了计算资源,并且多个子任务间可以交流中间信息,相互提升最终预测精度。本发明利用交叉视角训练方法实现了半监督学习,大大减少了对人工标注的依赖,只需要很少人工标注评论,再加上大量的同一领域未标注评论,就可以达到比已有传统全监督深度学习模型更好的效果。另外,本发明利用深度循环神经网络和基于移动窗口注意力机制的门控循环单元,构建了更好的表示学习方法,并设计了多个具有针对性的主要和辅助预测模块,从而达到了更好的分析准确度。

Description

一种针对特定方面的情感分析的半监督多任务学习模型
技术领域
本发明涉及半监督多任务学习技术领域,具体涉及一种针对特定方面的情感分析的半监督多任务学习模型。
背景技术
现今越来越多的用户在各种互联网平台(例如社交网络、在线购物网站等)发表自己对商品或服务的评论,与之相对应的是,互联网上的评论也在影响着消费者的判断,人们越来越倾向于参考他人的反馈信息来做出消费决定。因此,真实的用户反馈对于相关企业有着相当高的利用价值,通过分析这些评论并挖掘出用户不满意的方面,能及时对产品或服务做出改善。
但是,以往对用户评论的分析处理模式,通常更关心文档级别或者是句子级别的总体评价,比如判断一个评论总体而言是偏向正面情感还是负面情感。然而,用户的反馈时常体现出复杂性,甚至是矛盾性,里面除了对商品的总体评价以外,也可能包含多个对具体细节的不同感受。比如某位用户发表了对某笔记本电脑的评论:“我喜欢这个系统,除了它的一些预装软件”。用户在这个评论中针对笔记本电脑的系统方面给出了正面评价,但是针对预装软件却给出了负面评价。
基于特定方面的情感分析(Aspect-Based Sentiment Analysis,以下简称ABSA)可以针对不同的方面挖掘出用户更细腻更具体的情感表述。但是由于评论越积越多,信息过载,用户和企业都很难在海量的评论中快速定位针对特定方面的评价,所以如何更高效地针对大量评论做出ABSA已经成为亟待解决的难题,而通过解决这个难题,可以为用户和企业带来巨大的增益。对于用户来说,ABSA可以将评论归类于商品或服务不同的方面,使得用户不再需要一篇一篇的阅读评论,而是直接定位自己感兴趣的方面的相关评论。对于企业来说,ABSA可以自动分析评论,让企业可以快速获取产品或服务更细腻更具体的反馈。
通常来说,ABSA包含两个子任务,分别为方面挖掘(Aspect Mining,以下简称AM)和方面情感判别(Aspect Sentiment Classification,以下简称ASC)。其中AM子任务负责挖掘评论中提到的具体方面,而ASC子任务负责判断该具体方面的情感极性(如负面、正面、或者中性评价)。传统技术通常只关注其中一个子任务,通过将该子任务抽象为序列标注问题,应用传统机器学习方法训练全监督模型来完成该子任务。针对AM子任务,通常使用{B,I,O}标签,其中B表示方面词的开始,I表示方面词的继续,O则表示非方面词;针对ASC子任务,通常使用{POS,NEG,NEU,O}标签,其中POS表示正面评价,NEG表示负面评价,NEU表示中性评价,O则表示其他词。如表1所示,通过使用人工标注好的评论数据训练全监督模型,示例评论中的特定方面及其对应评价被标注出来。
表1:ABSA中的AM和ASC子任务标注示例
O O O O O B I O O O O O O B I I I
O O O O O POS POS O O O O O O NEG NEG NEG NEG
不过由于现有方案通常只能处理单个子任务(AM或ASC),如果想要进行完整的ABSA,则需要先后流水线式应用两种针对不同子任务的方案,并组合两组标注以得到最后结果。近年来,深度学习已在该领域取得了令人瞩目的成功,但是大部分现有深度学习方案仍然只能处理其中一个子任务,并且训练这些深度学习模型需要更庞大的人工标注数据,这需要付出巨大的经济和时间成本。
如上所述,目前完成完整的ABSA需要用到两个不同的模型,并且需要大量的人工标注数据用以训练深度学习模型。具体来说,现有方法包含以下两个严重缺陷:
(1)模型缺乏统一性:由于当前方法把两个子任务(AM和ASC)分开处理,每个模型的表示空间和中间计算无法共用,造成运算浪费。已有研究表明,对于高度相关的任务,统一模型比流水线模型效果更好。所以针对两个任务进行统一建模不但节省计算资源,最终的分析结果也会更好。
(2)巨大的标注投入:虽然当前方法(尤其是深度学习方法)在各子任务上取得了相对以前更好的成绩,但是这些方法依赖更多的针对该任务的标注数据。而通常不同的商品或是服务有着不同的方面空间,因此,一个实体的标注数据无法直接应用于另一个实体。这意味着每个不同的实体都需要人工标注大量评论来训练模型,以保证模型的效果,这显然实现起来并不容易。
发明内容
针对现有技术的不足,本发明旨在提供一种针对特定方面的情感分析的半监督多任务学习模型。
为了实现上述目的,本发明采用如下技术方案:
一种针对特定方面的情感分析的半监督多任务学习模型,包括:三层堆叠的BiMAGRU层、主预测模块、辅助预测模块和训练模块;
BiMAGRU层:BiMAGRU表示双向的基于移动窗口注意力机制的门控循环单元MAGRU,每一层BiMAGRU层均由前向传播的MAGRU和后向传播的MAGRU合并而成;上层BiMAGRU层使用来自下层BiMAGRU层的隐含状态输出作为输入;
所述MAGRU包含三个门控,分别为重置门r、更新门z和注意门a;重置门r由以下公式计算得到:
rt=σ(Urxt+Wrht-1);
其中,rt为当前位置t的重置门,ht-1为前一个位置t-1的表示,xt为当前位置t的输入单词,Ur和Wr为模型参数,σ为sigmoid激活函数;更新门z由以下公式计算得到:
zt=σ(Uzxt+Wzht-1);
zt为当前位置t的重置门,Uz和Wz为模型参数;当前候选表示
Figure BDA0002599918240000041
利用tanh激活函数计算得到:
Figure BDA0002599918240000042
Uh和Wh为模型参数;由于注意门a只关注当前输入在移动窗口中的最近N个表示状态,因此首先为每一个位置在窗口中的表示hi(i=t-N,…,t-1)计算一个重要性分值:
Figure BDA0002599918240000051
Ua
Figure BDA0002599918240000052
均为模型参数;再使用ReLU激活函数和计算得到的重要性分值计算注意门a:
Figure BDA0002599918240000053
at表示当前位置的注意门;根据前一个位置表示ht-1和当前候选表
Figure BDA0002599918240000054
并通过三个门控重置门r、更新门z和注意门a,计算得到当前位置的表示ht
Figure BDA0002599918240000055
每一层BiMAGRU层输出的隐含状态可以如下计算:
Figure BDA0002599918240000056
Figure BDA0002599918240000057
Figure BDA0002599918240000058
其中,所述
Figure BDA0002599918240000059
表示前向传播的MAGRU,
Figure BDA00025999182400000510
表示后向传播的MAGRU,
Figure BDA00025999182400000511
表示第一层BiMAGRU层中位置t上学习到的隐含状态,
Figure BDA00025999182400000512
表示第二层BiMAGRU层中位置t上学习到的隐含状态,
Figure BDA00025999182400000513
表示第三层BiMAGRU层的输出中位置t上学习到的隐含状态;
Figure BDA00025999182400000514
代表连接操作;
主预测模块:
Figure BDA00025999182400000515
是输入单词xt的方面标签,针对AM子任务的主预测模块会通过结合第一层BiMAGRU层和第二层BiMAGRU层输出的隐含状态,并使用神经网络来计算
Figure BDA00025999182400000516
的概率分布
Figure BDA00025999182400000517
Figure BDA00025999182400000518
其中
Figure BDA0002599918240000061
bA都是模型参数;
Figure BDA0002599918240000062
是输入单词xt的情感极性标签;针对ASC子任务的主预测模块则结合所有的三层BiMAGRU层输出的隐含状态,并通过神经网络计算概率分布:
Figure BDA0002599918240000063
Figure BDA0002599918240000064
bS都是模型参数;
辅预测模块:
主预测模块和辅预测模块共享第一层BiMAGRU层;
在每个子任务AM或ASC的框架中,均有四个不同的辅预测模块ppast、pfwd、pbwd和pfuture,每个不同的辅预测模块都通过不同的视角来选取输入数据;对于当前单词的预测,辅预测模块ppast只能查看位于当前单词左侧的单词;辅预测模块pfwd可以查看当前单词及其左侧的单词;pbwd关注当前单词及其右侧的单词;pfuture只能查看位于当前单词右侧的单词;将这四个辅预测模块定义如下:
Figure BDA0002599918240000065
Figure BDA0002599918240000066
Figure BDA0002599918240000067
Figure BDA0002599918240000068
其中k∈{A,S},表示AM或ASC;nnpast、nnfwd、nnbwd、nnfuture则代表着与主预测模块相同的神经网络结构;
Figure BDA0002599918240000069
表示第一层BiMAGRU层前向传播中位置t-1(即当前位置的左侧)上学习到的隐含状态,
Figure BDA00025999182400000610
表示第一层BiMAGRU层前向传播中当前位置t上学习到的隐含状态,
Figure BDA0002599918240000071
表示第一层BiMAGRU层后向传播中当前位置t上学习到的隐含状态,
Figure BDA0002599918240000072
表示第一层BiMAGRU层后向传播中位置t+1(即当前位置的右侧)上学习到的隐含状态;
训练模块:用于对主预测模块和辅预测模块采用半监督多任务学习方法进行训练。
进一步地,所述训练模块使用多任务交叉视角训练方法进行主预测模块和辅预测模块的训练,具体过程如下:
首先随机选择一个子任务AM或ASC,利用对应的已标注评论
Figure BDA0002599918240000073
并使用交叉熵CE损失函数来训练相应的主预测模块:
Figure BDA0002599918240000074
而针对未标注评论Du,首先基于AM和ASC的主预测模块推导出
Figure BDA0002599918240000075
Figure BDA0002599918240000076
(xi∈Du),然后利用Kullback-Leibler KL散度函数作为损失函数,来训练辅预测模块以匹配和接近两个主预测模块:
Figure BDA0002599918240000077
最后,将三个损失函数合并
Figure BDA0002599918240000078
并通过随机梯度下降算法训练模型。
进一步地,针对特定方面的情感分析的半监督多任务学习模型还包括有单词转换模块,所述单词转换模块用于将评论中的各个单词在输入之前,转换为词嵌入向量。
进一步地,单词转换模块通过比照各个单词在情感词典中的极性分值来判断该单词是正面词还是负面词,并通过该极性分值将相似极性的单词重新排序,再将单词转换为词嵌入向量。
更进一步地,对于现有的词嵌入向量没有包含的词汇,单词转换模块使用字符特征向量(Char-Features)来辅助表示。
本发明的有益效果在于:
(1)统一的多任务模型:本发明提出的针对特定方面的情感分析的半监督多任务学习模型是一个端到端的统一多任务模型。相较于传统流水线式模型将ABSA的两个子任务(AM和ASC)分割开来独自处理,SEML可以在一个统一的框架内完成所有子任务。每个子任务共享同样的表示空间和中间计算,大大节省了计算资源。并且多个子任务间可以交流中间信息,相互提升最终预测精度。
(2)更少的人工标注依赖:本发明虽然基于深度学习,但是却利用交叉视角训练方法实现了半监督学习,大大减少了对人工标注的依赖,只需要很少的人工标注评论,再加上大量的同一领域未标注评论,就可以达到比已有传统全监督深度学习模型更好的效果。
(3)更高的分析准确度:本发明利用深度循环神经网络和基于移动窗口注意力机制的门控循环单元,构建了更好的表示学习方法,并设计了多个具有针对性的主要和辅助预测模块,从而达到了更好的分析准确度。
附图说明
图1为本发明实施例中针对特定方面的情感分析的半监督多任务学习模型的总体结构示意图;
图2为本发明实施例中基于移动窗口注意力机制的门控循环单元的结构示意图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
本实施例提供一种针对特定方面的情感分析的半监督多任务学习模型(SEML)。该模型有三个关键特性。
(1)SEML采用交叉视角训练(Cross-View Training,以下简称CVT),在统一的端到端体系结构中,对来自同一领域的已标注评论和未标注评论进行半监督序列学习;
(2)SEML同时解决了两个子任务(AM和ASC),它使用三层堆叠的双向循环神经网络来学习评论表示,其中来自不同层的表示分别被输入到CVT、AM和ASC中;
(3)SEML为该循环神经网络开发了一个基于移动窗口注意力机制的门控循环单元(Moving-window Attentive Gated Recurrent Unit,以下简称MAGRU),以提高表示学习和预测精度,因为在评论中某个词的邻近上下文可以为ABSA中的预测任务提供重要的语义信息。
下文将详细介绍SEML模型的各个组成部分,如图1所示。
1、基于移动窗口注意力机制的门控循环单元(MAGRU):
本实施例中,使用深度双向循环神经网络来构建表示学习空间。但是,在ABSA中,邻近单词为预测新的单词标签提供了有用的线索,例如方面标签“I”不能跟随“O”、已提取的方面可以帮助找到并列出现的方面等等。因此,本实施例设计了MAGRU(如图2所示),利用注意力机制建模重要的上下文语义关系,强化表示学习。
具体而言,如图2所示,所述MAGRU包含三个门控,分别为重置门(Reset Gater)、更新门(Update Gatez)和注意门(Attention Gate a)。重置门r由以下公式计算得到:
rt=σ(Urxt+Wrht-1);
其中,rt为当前位置t的重置门,ht-1为前一个位置的表示,xt为当前位置t的输入单词,Ur和Wr为模型参数,σ为sigmoid激活函数;
更新门z由以下公式计算得到:
zt=σ(Uzxt+Wzht-1);
zt为当前位置t的重置门,Uz和Wz为模型参数。
当前候选表示
Figure BDA0002599918240000101
可以利用tanh激活函数计算得到:
Figure BDA0002599918240000102
Uh和Wh为模型参数。
由于注意门a只关注当前输入在移动窗口中的最近N个表示状态,因此首先为每一个位置在窗口中的表示hi(i=t-N,…,t-1)计算一个重要性分值:
Figure BDA0002599918240000103
Ua
Figure BDA0002599918240000104
均为模型参数。
再使用ReLU激活函数和计算得到的重要性分值计算注意门a:
Figure BDA0002599918240000111
at表示当前位置的注意门。
最后,根据前一个位置的表示ht-1和当前候选表示
Figure BDA0002599918240000112
并通过三个门控重置门r、更新门z和注意门a,计算当前位置的表示ht
Figure BDA0002599918240000113
由此,基于移动窗口注意力机制的门控循环单元中,使用重置门控制组合前一个位置的表示和当前输入,使用更新门控制多大程度保留前一个位置的表示,使用注意力门给出移动窗口中各个表示的重要性分数。
2.表示学习(Representation Learning)
如图1所示,本实施例提出的SEML模型使用词嵌入向量(Word Embedding)作为输入数据,词嵌入向量可以将文字转化为多维数字向量以利于计算。现有的通用词嵌入向量通常会将完全相反极性的情感词映射到相近的向量空间上,而空间更相近的向量意味着更大的相似性,这对情感分析的准确性带来很大影响。
因此,本实施例中,通过比照各个单词在情感词典(如SentiWordNet、E-ANEW等)中的极性分值来判断该单词是正面词还是负面词,并通过该极性分值将相似极性的单词重新排序,再将单词转换为词嵌入向量,使得相似极性的单词能重新聚合在相近的向量空间中。
另外,由于用户经常会在评论中使用错误的拼写或其他稀有词汇,而现有的词嵌入向量可能没有包含这些词汇。对于这些词汇,本实施例使用字符特征向量(Char-Features)来辅助表示。
通过词嵌入向量转换和字符特征向量转换,最终将评论中的每个单词都转换为词嵌入和字符特征的组合向量,表示为V={v1,...,vT},并将其输入到深度双向循环神经网络中进行表示学习。
SEML模型使用三个堆叠的双向MAGRU(BiMAGRU)层来为AM和ASC子任务构建共享的表示学习空间,每个上层网络使用来自下层的隐含状态(Hidden States)作为输入。具体来说,将两个前向和后向传播的MAGRU合并为一个BiMAGRU层,因为前向和后向的信息对于预测当前位置都很重要。每一层输出的隐含状态可以如下计算:
Figure BDA0002599918240000121
Figure BDA0002599918240000122
Figure BDA0002599918240000123
其中,所述
Figure BDA0002599918240000124
表示前向传播的MAGRU,
Figure BDA0002599918240000125
表示后向传播的MAGRU,
Figure BDA0002599918240000126
表示第一层BiMAGRU层中位置t上学习到的隐含状态,
Figure BDA0002599918240000127
表示第二层BiMAGRU层中位置t上学习到的隐含状态,
Figure BDA0002599918240000128
表示第三层BiMAGRU层的输出中位置t上学习到的隐含状态;
Figure BDA0002599918240000129
代表连接操作。
3.预测模块(Prediction Modules)
SEML能利用已标注评论和未标注评论来同时完成两个子任务(AM和ASC)。针对已标注的评论,本实施例设计了两个主预测模块(Primary Prediction Modules)分别对应AM和ASC子任务。同时,分别设计了四个辅预测模块(Auxiliary Prediction Modules)来处理未标注的评论。
(1)主预测模块:
Figure BDA0002599918240000131
是输入单词xt的方面标签,针对AM子任务的主预测模块会通过结合第一层BiMAGRU和第二层BiMAGRU输出的隐含状态,并使用神经网络(nn)来计算
Figure BDA0002599918240000132
的概率分布
Figure BDA0002599918240000133
Figure BDA0002599918240000134
其中
Figure BDA0002599918240000135
bA都是模型参数。
Figure BDA0002599918240000136
是输入单词xt的情感极性标签,针对ASC子任务的主预测模块则结合所有的三层BiMAGRU输出的隐含状态,并通过神经网络(nn)计算概率分布:
Figure BDA0002599918240000137
Figure BDA0002599918240000138
bS都是模型参数。
(2)辅预测模块:
主预测模块和辅预测模块共享第一层BiMAGRU层。
在每个子任务(AM或ASC)的框架中,均有四个不同的辅预测模块ppast、pfwd、pbwd和pfuture,每个不同的辅预测模块都通过不同的视角来选取输入数据。对于当前单词的预测,辅预测模块ppast只能查看位于当前单词左侧的单词;辅预测模块pfwd可以查看当前单词及其左侧的单词;pbwd关注当前单词及其右侧的单词;pfuture只能查看位于当前单词右侧的单词,如图1所示。BiMAGRU可以很容易地提供这些受限的视角,而不需要进行额外的计算,因此,可以将这四个辅预测模块定义如下:
Figure BDA0002599918240000141
Figure BDA0002599918240000142
Figure BDA0002599918240000143
Figure BDA0002599918240000144
其中k∈{A,S},表示AM或ASC;nnpast、nnfwd、nnbwd、nnfuture则代表着与主预测模块相同的神经网络结构;
Figure BDA0002599918240000145
表示第一层BiMAGRU层前向传播中位置t-1(即当前位置的左侧)上学习到的隐含状态,
Figure BDA0002599918240000146
表示第一层BiMAGRU层前向传播中当前位置t上学习到的隐含状态,
Figure BDA0002599918240000147
表示第一层BiMAGRU层后向传播中当前位置t上学习到的隐含状态,
Figure BDA0002599918240000148
表示第一层BiMAGRU层后向传播中位置t+1(即当前位置的右侧)上学习到的隐含状态。
由于第二层和第三层BiMAGRU层已经包含了所有单词的信息,所以只能将第一层BiMAGRU层输入到辅预测模块,以便限制它们的视角。
4.多任务交叉视角训练(Multi-Task Cross-View Training,MCVT)
由于同时使用了已标注评论和未标注评论来训练模型,因此本实施例在SEML模块中采用多任务交叉视角训练方法(CVT)来达到半监督学习的目标。CVT的核心思想是使用来自相同领域的未标记的评论来增强表示学习,并在小批量的已标注评论或未标注评论上交替学习主预测模块和辅预测模块。
为了进行多任务学习,本实施例中,首先随机选择一个子任务(AM或ASC),利用对应的已标注评论
Figure BDA0002599918240000149
并使用交叉熵(Cross-Entropy,CE)损失函数来训练相应的主预测模块:
Figure BDA0002599918240000151
而针对未标注评论Du,SEML模型首先基于AM和ASC的主预测模块推导出
Figure BDA0002599918240000152
Figure BDA0002599918240000153
(xi∈Du),然后利用Kullback-Leibler(KL)散度函数作为损失函数,来训练辅预测模块以匹配和接近两个主预测模块:
Figure BDA0002599918240000154
最后,将三个损失函数合并
Figure BDA0002599918240000155
并通过随机梯度下降算法训练模型。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。

Claims (5)

1.一种针对特定方面的情感分析的半监督多任务学习模型,其特征在于,包括:三层堆叠的BiMAGRU层、主预测模块、辅助预测模块和训练模块;
BiMAGRU层:BiMAGRU表示双向的基于移动窗口注意力机制的门控循环单元MAGRU,每一层BiMAGRU层均由前向传播的MAGRU和后向传播的MAGRU合并而成;上层BiMAGRU层使用来自下层BiMAGRU层的隐含状态输出作为输入;
所述MAGRU包含三个门控,分别为重置门r、更新门z和注意门a;重置门r由以下公式计算得到:
rt=σ(Urxt+Wrht-1);
其中,rt为当前位置t的重置门,ht-1为前一个位置t-1的表示,xt为当前位置t的输入单词,Ur和Wr为模型参数,σ为sigmoid激活函数;更新门z由以下公式计算得到:
zt=σ(Uzxt+Wzht-1);
zt为当前位置t的重置门,Uz和Wz为模型参数;当前候选表示
Figure FDA0002599918230000014
利用tanh激活函数计算得到:
Figure FDA0002599918230000011
Uh和Wh为模型参数;由于注意门a只关注当前输入在移动窗口中的最近N个表示状态,因此首先为每一个位置在窗口中的表示h(i=t-N,…,t-1)计算一个重要性分值:
Figure FDA0002599918230000012
Ua
Figure FDA0002599918230000013
均为模型参数;再使用ReLU激活函数和计算得到的重要性分值计算注意门a:
Figure FDA0002599918230000021
at表示当前位置的注意门;根据前一个位置表示ht-1和当前候选表
Figure FDA0002599918230000022
并通过三个门控重置门r、更新门z和注意门a,计算得到当前位置的表示ht
Figure FDA0002599918230000023
每一层BiMAGRU层输出的隐含状态可以如下计算:
Figure FDA0002599918230000024
Figure FDA0002599918230000025
Figure FDA0002599918230000026
其中,所述
Figure FDA0002599918230000027
表示前向传播的MAGRU,
Figure FDA0002599918230000028
表示后向传播的MAGRU,
Figure FDA0002599918230000029
表示第一层BiMAGRU层中位置t上学习到的隐含状态,
Figure FDA00025999182300000210
表示第二层BiMAGRU层中位置t上学习到的隐含状态,
Figure FDA00025999182300000211
表示第三层BiMAGRU层的输出中位置t上学习到的隐含状态;⊕代表连接操作;
主预测模块:
Figure FDA00025999182300000212
是输入单词xt的方面标签,针对AM子任务的主预测模块会通过结合第一层BiMAGRU层和第二层BiMAGRU层输出的隐含状态,并使用神经网络来计算
Figure FDA00025999182300000213
的概率分布
Figure FDA00025999182300000214
Figure FDA00025999182300000215
其中
Figure FDA00025999182300000216
bA都是模型参数;
Figure FDA00025999182300000217
是输入单词xt的情感极性标签;针对ASC子任务的主预测模块则结合所有的三层BiMAGRU层输出的隐含状态,并通过神经网络计算概率分布:
Figure FDA0002599918230000031
Figure FDA0002599918230000032
bS都是模型参数;
辅预测模块:
主预测模块和辅预测模块共享第一层BiMAGRU层;
在每个子任务AM或ASC的框架中,均有四个不同的辅预测模块ppast、pfwd、pbwd和pfuture,每个不同的辅预测模块都通过不同的视角来选取输入数据;对于当前单词的预测,辅预测模块ppast只能查看位于当前单词左侧的单词;辅预测模块pfwd可以查看当前单词及其左侧的单词;pbwd关注当前单词及其右侧的单词;pfuture只能查看位于当前单词右侧的单词;将这四个辅预测模块定义如下:
Figure FDA0002599918230000033
Figure FDA0002599918230000034
Figure FDA0002599918230000035
Figure FDA0002599918230000036
其中k∈{A,S},表示AM或ASC;nnpast、nnfwd、nnbwd、nnfuture则代表着与主预测模块相同的神经网络结构;
Figure FDA0002599918230000037
表示第一层BiMAGRU层前向传播中位置t-1上学习到的隐含状态,
Figure FDA0002599918230000038
表示第一层BiMAGRU层前向传播中当前位置t上学习到的隐含状态,
Figure FDA0002599918230000039
表示第一层BiMAGRU层后向传播中当前位置t上学习到的隐含状态,
Figure FDA00025999182300000310
表示第一层BiMAGRU层后向传播中位置t+1上学习到的隐含状态;
训练模块:用于对主预测模块和辅预测模块采用半监督多任务学习方法进行训练。
2.根据权利要求1所述的针对特定方面的情感分析的半监督多任务学习模型,其特征在于,所述训练模块使用多任务交叉视角训练方法进行主预测模块和辅预测模块的训练,具体过程如下:
首先随机选择一个子任务AM或ASC,利用对应的已标注评论
Figure FDA0002599918230000041
并使用交叉熵CE损失函数来训练相应的主预测模块:
Figure FDA0002599918230000042
而针对未标注评论Du,首先基于AM和ASC的主预测模块推导出
Figure FDA0002599918230000043
Figure FDA0002599918230000044
然后利用Kullback-Leibler KL散度函数作为损失函数,来训练辅预测模块以匹配和接近两个主预测模块:
Figure FDA0002599918230000045
最后,将三个损失函数合并
Figure FDA0002599918230000046
并通过随机梯度下降算法训练模型。
3.根据权利要求1所述的针对特定方面的情感分析的半监督多任务学习模型,其特征在于,还包括有单词转换模块,所述单词转换模块用于将评论中的各个单词在输入之前,转换为词嵌入向量。
4.根据权利要求3所述的针对特定方面的情感分析的半监督多任务学习模型,其特征在于,单词转换模块通过比照各个单词在情感词典中的极性分值来判断该单词是正面词还是负面词,并通过该极性分值将相似极性的单词重新排序,再将单词转换为词嵌入向量。
5.根据权利要求3所述的针对特定方面的情感分析的半监督多任务学习模型,其特征在于,对于现有的词嵌入向量没有包含的词汇,单词转换模块使用字符特征向量来辅助表示。
CN202010720783.6A 2020-07-24 2020-07-24 一种针对特定方面的情感分析的半监督多任务学习模型 Pending CN111737581A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010720783.6A CN111737581A (zh) 2020-07-24 2020-07-24 一种针对特定方面的情感分析的半监督多任务学习模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010720783.6A CN111737581A (zh) 2020-07-24 2020-07-24 一种针对特定方面的情感分析的半监督多任务学习模型

Publications (1)

Publication Number Publication Date
CN111737581A true CN111737581A (zh) 2020-10-02

Family

ID=72657531

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010720783.6A Pending CN111737581A (zh) 2020-07-24 2020-07-24 一种针对特定方面的情感分析的半监督多任务学习模型

Country Status (1)

Country Link
CN (1) CN111737581A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733539A (zh) * 2020-12-30 2021-04-30 平安科技(深圳)有限公司 面试实体识别模型训练、面试信息实体提取方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670039A (zh) * 2018-11-20 2019-04-23 华南师范大学 基于三部图和聚类分析的半监督电商评论情感分析方法
CN109871444A (zh) * 2019-01-16 2019-06-11 北京邮电大学 一种文本分类方法及系统
CN109992668A (zh) * 2019-04-04 2019-07-09 上海冰鉴信息科技有限公司 一种基于自注意力的企业舆情分析方法和装置
CN110097089A (zh) * 2019-04-05 2019-08-06 华南理工大学 一种基于注意力组合神经网络的文档级别的情感分类方法
CN110263165A (zh) * 2019-06-14 2019-09-20 中山大学 一种基于半监督学习的用户评论情感分析方法
CN110472052A (zh) * 2019-07-31 2019-11-19 西安理工大学 一种基于深度学习的中文社交平台情感分析方法
CN111428004A (zh) * 2020-03-26 2020-07-17 辽宁工程技术大学 一种融合辅助信息与层级自注意力循环神经网络方面的情感分析方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109670039A (zh) * 2018-11-20 2019-04-23 华南师范大学 基于三部图和聚类分析的半监督电商评论情感分析方法
CN109871444A (zh) * 2019-01-16 2019-06-11 北京邮电大学 一种文本分类方法及系统
CN109992668A (zh) * 2019-04-04 2019-07-09 上海冰鉴信息科技有限公司 一种基于自注意力的企业舆情分析方法和装置
CN110097089A (zh) * 2019-04-05 2019-08-06 华南理工大学 一种基于注意力组合神经网络的文档级别的情感分类方法
CN110263165A (zh) * 2019-06-14 2019-09-20 中山大学 一种基于半监督学习的用户评论情感分析方法
CN110472052A (zh) * 2019-07-31 2019-11-19 西安理工大学 一种基于深度学习的中文社交平台情感分析方法
CN111428004A (zh) * 2020-03-26 2020-07-17 辽宁工程技术大学 一种融合辅助信息与层级自注意力循环神经网络方面的情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李丽双等: "基于动态注意力GRU的特定目标情感分类", 《中国科学:信息科学》, vol. 49, no. 8, pages 1019 - 1030 *
李凌浩;李欣晔;张承强;周雄图;张永爱;: "基于Bi-GRU和双层注意力机制的商品评论情感分析", 广播电视网络, no. 02, pages 104 - 109 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733539A (zh) * 2020-12-30 2021-04-30 平安科技(深圳)有限公司 面试实体识别模型训练、面试信息实体提取方法及装置

Similar Documents

Publication Publication Date Title
Pfeiffer et al. Adapterfusion: Non-destructive task composition for transfer learning
Koncel-Kedziorski et al. Text generation from knowledge graphs with graph transformers
Tang et al. Aspect level sentiment classification with deep memory network
Gan et al. Sparse attention based separable dilated convolutional neural network for targeted sentiment analysis
Zhang et al. Convolutional multi-head self-attention on memory for aspect sentiment classification
CN111259127B (zh) 一种基于迁移学习句向量的长文本答案选择方法
CN111382565B (zh) 基于多标签的情绪-原因对抽取方法及系统
Guo et al. Implicit discourse relation recognition using neural tensor network with interactive attention and sparse learning
CN112131366A (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
Li et al. Dual-CNN: A Convolutional language decoder for paragraph image captioning
Xue et al. Multi-level attention map network for multimodal sentiment analysis
CN112883193A (zh) 一种文本分类模型的训练方法、装置、设备以及可读介质
CN112800292A (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
Peng et al. Multilevel hierarchical network with multiscale sampling for video question answering
CN113326374B (zh) 基于特征增强的短文本情感分类方法及系统
CN114239574A (zh) 一种基于实体和关系联合学习的矿工违规行为知识抽取方法
CN112949758A (zh) 应答模型的训练方法、应答方法、装置、设备及存储介质
Kasai et al. End-to-end graph-based TAG parsing with neural networks
Ma et al. Xtqa: Span-level explanations for textbook question answering
Li et al. Knowledge-enriched attention network with group-wise semantic for visual storytelling
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN111737581A (zh) 一种针对特定方面的情感分析的半监督多任务学习模型
Zhou Research on the application of deep learning in text generation
Feng et al. Pre-trained language embedding-based contextual summary and multi-scale transmission network for aspect extraction
Al-Tameemi et al. Multi-model fusion framework using deep learning for visual-textual sentiment classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination