CN112784532A - 用于短文本情感分类的多头注意力记忆网络 - Google Patents

用于短文本情感分类的多头注意力记忆网络 Download PDF

Info

Publication number
CN112784532A
CN112784532A CN202110126510.3A CN202110126510A CN112784532A CN 112784532 A CN112784532 A CN 112784532A CN 202110126510 A CN202110126510 A CN 202110126510A CN 112784532 A CN112784532 A CN 112784532A
Authority
CN
China
Prior art keywords
network
layer
memory
attention
head attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110126510.3A
Other languages
English (en)
Other versions
CN112784532B (zh
Inventor
李晓瑜
邓钰
彭宇
何子睿
雷航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110126510.3A priority Critical patent/CN112784532B/zh
Publication of CN112784532A publication Critical patent/CN112784532A/zh
Application granted granted Critical
Publication of CN112784532B publication Critical patent/CN112784532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了用于短文本情感分类的多头注意力记忆网络,包括多跳记忆子网络,多跳记忆子网络包括多个顺次连接的独立计算模块,独立计算模块包括顺次连接的第一多头注意力编码层、第一线性层和输出层。本发明多跳记忆子网络中每个多头注意力编码层的输入包括原始记忆以及历史信息记忆,通过足够跳数的独立计算模块堆叠转换,使多头注意力记忆网络学习到文本内部蕴含更加复杂、抽象的非线性特征,对文本中的情感语义结构进行有效地编码。进一步地,输入多跳记忆子网络的原始记忆由多头注意力编码层的递归计算过程充分交互,使得文本特征间的远程依赖关系得到更成分的建模,进而挖掘出更高层次的上下文情感语义关系,以此提升模型的分类性能。

Description

用于短文本情感分类的多头注意力记忆网络
技术领域
本发明涉及自然语言处理技术领域,尤其涉及用于短文本情感分类的多头注意力记忆网络。
背景技术
随着互联网技术的飞速发展,社交网络和电子商务平台已变成最重要的公共信息集散地,利用其中庞大的数据对人们的情感和观点进行分析,有着重要的社会价值和科研价值。情感分析是人们对产品、服务、组织、个人、问题、事件、话题及其属性的观点、情感、情绪、评价和态度的计算研究,属于文本分类的子任务。不同于普通文本分类,情感分析要求更高层的语义抽取,技术上更具挑战性。如何利用自然语言处理(natural languageprocessing,NLP)技术对主观意见文本进行情感分析正被越来越多的研究人员关注。
早期情感分析任务大多采用传统机器学习方法处理,依赖特征工程,需要花费大量时间对背景知识进行收集、整理和抽象。深度学习方法出现以后,迅速取代了机器学习成为NLP领域的主流。作为近年来人工智能领域发展最快的研究方向,深度学习模型在各种NLP任务中被广泛应用。相对于传统的机器学习算法,深度学习不依赖人工构建特征,具有特征的自学习能力,非常适合非结构化文本数据的抽象、高维、复杂等特点。目前,很多研究人员将长短记忆网络(long short-term memory,LSTM)与卷积神经网络(convolutionneural network,CNN)等深度学习模型用于解决文本情感分类问题,并取得了不错的效果。在结合注意力机制后,深度学习模型在NLP任务中可以抽象更高层次的特征信息和获得更有效的语义表示,基于注意力的深度学习模型不仅有效而且还具有很好的可解释性。
注意力机制(attention mechanism)最早由图像识别领域提出,可以让模型有效关注局部特定信息,挖掘更深的特征信息。随后,在自然语言处理领域,注意力机制被验证使得特征提取更加高效。现有技术中通过将注意力机制与循环神经网络结合,在编码-解码模型上计算输入序列与输出序列的对齐概率矩阵,有效解决机器翻译问题。同时,现有技术提出在卷积神经网络中使用注意力机制的有效方法,以完成机器阅读理解任务。目前,很多研究人员将注意力机制应用于情感分类领域,取得了很好的效果,如在LSTM网络中将目标内容与序列相应中间状态进行拼接,并计算注意力加权输出,有效解决了上下文对不同目标的情感极性问题。现有技术还通过基于LSTM网络提出了两种注意力实现方法,一种方法是将目标词向量拼接到用于注意权重计算的句子隐藏表示中,另一种方法是将目标词向量与输入词向量中拼接。现有技术还提出一种基于注意机制的交互式注意网络(IAN)模型,利用与目标相关的注意机制从上下文中获取重要信息,同时利用上下文的交互信息来监督目标的建模,以提高情感极性预测精度。
为了进一步提高情感分类任务的分类精度,部分研究人员将注意力机制与记忆网络(memory network)结构结合,并取得了很好的效果。现有技术通过借鉴深度记忆网络,提出多跳注意力模型,计算基于内容和位置的注意力值,利用外部存储单元保存上下文对于目标的权值信息,并通过叠加计算获取更深层次的情感语义信息。现有技术还通过利用双向LSTM网络构建memory单元,以对多跳注意力网络进行改进,同时对memory内容进行位置加权,捕获情感特征的同时消除噪声干扰。同时,现有技术还提出一种结合多跳注意力机制和卷积神经网的深度模型,利用记忆网络中多个相同的计算模块,获取更深层次的情感特征信息。
为了使注意力机制对NLP任务的性能改进更加有效,并且让模型的可解释性更强,创新的结构被不断提出,如提出了一种Transformer模型框架,用来代替CNN和RNN体系结构,并在机器翻译任务中取得了最好的结果。Transformer结构中首次提出自注意力机制和多头注意力,它完全使用attention机制来建模输入和输出的全局依赖关系,以生成与语义更相关的文本表示,允许模型在不同的表示子空间中学习相关信息。现有技术通过分析自注意力网络的模型特点,提出了多头注意力与自注意力结合的两种方式,并探讨了其用于情感分析的有效性。如通过基于自注意力网络,提出了一种灵活、可解释的文本分类模型,可以有效提高情感分类精度。或者通过将多头自注意力运用于面向目标的情感分析,提出一种注意编码网络(AEN),来获取每个词与上下文之间的交互关系和语义信息。
在情感分析领域,虽然目前已经有许多研究工作取得了很好的效果,尽管多头注意力机制可以有效挖掘上下文关联信息,但很难进一步获取更深层次的内联关系,分类性能有待进一步提升;另一方面,多跳结构中的记忆力单元只包含原始输入,这种不加处理的浅层特征数据,即使通过线性叠加也很难对短文本中的情感语义结构进行有效地编码。
发明内容
本发明的目的在于克服现有技术中难以挖掘短文本更深层次的内联关系、难以对短文本中的情感语义结构进行有效编码的问题,提供用于短文本情感分类的多头注意力记忆网络。
本发明的目的是通过以下技术方案来实现的:一种用于短文本情感分类的多头注意力记忆网络,所述网络包括多跳记忆子网络,所述多跳记忆子网络包括多个顺次连接的独立计算模块,独立计算模块包括顺次连接的第一多头注意力编码层、第一线性层和输出层;第一多头注意力编码层根据输入的历史信息记忆与原始记忆进行学习,第一线性层对第一多头注意力编码层的输出进行线性化处理,输出层将第一线性层的输出与历史信息记忆进行叠加处理得到更高级别的抽象数据表示。
作为一选项,所述网络还包括顺次连接的词嵌入层、特征提取层和有序神经元长短时记忆子网络;词嵌入层用于获取文本的词向量矩阵;特征提取层用于将词向量矩阵转换为n-gram特征并产生新的N-gram特征矩阵,且n-gram特征作为文本的原始记忆输入第一多头注意力编码层;有序神经元长短时记忆子网络根据N-gram特征矩阵对文本各词组的依赖关系进行建模并挖掘其隐藏含义,得到输入文本的高层特征表示。
作为一选项,所述特征提取层具体为卷积神经网络。
作为一选项,所述网络还包括深度多头注意力编码层,与特征提取层、有序神经元长短时记忆子网络输出端连接,用于对n-gram特征序列进行抽象转换得到文本的高层特征表示。
作为一选项,所述深度多头注意力编码层对n-gram特征序列进行抽象转换得到文本的高层特征表示的具体计算过程为:
DMHSAtt(G)=MHAtt(G,H,H)
H=ON-LSTM(G)
Og=DMHSAtt(G)
其中,G表示N-gram特征矩阵,H表示有序神经元长短时记忆子网络得到的N-gram特征矩阵的隐藏状态,
Figure BDA0002923689460000051
是深度自注意力模型的输出。
作为一选项,所述深度多头注意力编码层连接有第二线性层,第二线性层将深度多头注意力编码层的输出进行线性变化处理得到历史信息记忆。
作为一选项,所述独立计算模块的具体计算方式为:
Figure BDA0002923689460000052
Figure BDA0002923689460000053
其中,
Figure BDA0002923689460000054
为多跳记忆结构中第i个独立计算模块的输出,M表示历史信息记忆。
作为一选项,所述网络还包括预测输出层,特征提取层、多跳记忆子网络输出端均与预测输出层连接。
作为一选项,所述预测输出层包括顺次连接的第二多头注意力编码层、池化层、第三线性层和分类层,特征提取层、多跳记忆子网络输出端与第二多头注意力编码层连接。
作为一选项,所述网络还包括训练模块,所述训练模块采用交叉熵损失函数优化网络,交叉熵损失函数的计算公式为:
Figure BDA0002923689460000055
其中,D为训练数据集大小;C为类别数;P(i,j)是模型预测样本i为类别j的概率;Q(i,j)为1或0,表示网络分类结果是否正确;λ||θ||2为正则项。
需要进一步说明的是,上述各选项对应的技术特征可以相互组合或替换构成新的技术方案。
与现有技术相比,本发明有益效果是:
(1)本发明多跳记忆子网络包括多个顺次连接的独立计算模块,独立计算模块包括顺次连接的第一多头注意力编码层、第一线性层和输出层,且每个第一多头注意力编码层的输入包括原始记忆以及历史信息记忆,通过足够跳数的独立计算模块堆叠转换,可以使本发明多头注意力记忆网络学习到文本内部蕴含更加复杂、抽象的非线性特征,对文本中的情感语义结构进行有效地编码。进一步地,输入多跳记忆子网络的原始记忆由多头注意力编码层的递归计算过程充分交互,使得文本特征间的远程依赖关系得到更成分的建模,进而挖掘出更高层次的上下文情感语义关系,以此提升模型的分类性能。
(2)本发明通过词嵌入层、特征提取层、ON-LSTM网络(有序神经元长短时记忆子网络)对多头自注意力机制进行改进,能够提取文本上下文内联关系的更深层次的表示,使多头注意力记忆网络能够获得更丰富的文本特征信息。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的说明,此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1中网络结构图;
图2为本发明实施例1中ON-LSTM流程图;
图3为本发明实施例1中MAMN模型数据处理体系结构示意图;
图4为本发明实施例1中不同跳数下模型应用于MR数据集的分类性能示意图;
图5为本发明实施例1中不同跳数下模型应用于SST-1数据集的分类性能示意图;
图6为本发明实施例1中不同跳数下模型应用于SST-2数据集的分类性能示意图。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,属于“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,属于“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明一种用于短文本情感分类的多头注意力记忆网络用于情感分类,模型(多头注意力记忆网络,memory network based on multi-head attention for short textsentiment classification,MAMN)从输入词编码序列窗口提取N-gram特征,并利用改进的多头注意力机制和多跳记忆力网络对短文本上下文内部关联进行有效建模,并充分挖掘高层情感语义特征。最后,在两个公开用户评论数据集上对模型进行评估,实验证明了MAMN在情感分类任务中的有效性,其分类性能优于本任务中其他最新的相关模型。
实施例1
如图1所示,在实施例1中,一种用于短文本情感分类的多头注意力记忆网络,网络包括多跳记忆子网络,多跳记忆子网络包括多个顺次连接的独立计算模块,本实施例中具体包括两个顺次连接的独立计算模块(hop),独立计算模块包括顺次连接的第一多头注意力编码层、第一线性层和输出层;第一多头注意力编码层根据输入的历史信息记忆与原始记忆进行学习,第一线性层对第一多头注意力编码层的输出进行线性化处理,输出层将第一线性层的输出与历史信息记忆进行叠加处理得到更高级别的抽象数据表示。其中,原始记忆具体为文本的低维特征,历史信息记忆具体为文本的高层特征,本实施例中的原始记忆具体为文本的N-gram特征。
具体地,多头注意力编码层中的多头注意力机制可以简单有效的对上下文依赖关系进行抽象,并捕获句法和语义特征。具体说,输入矩阵Q、K、V对应attention的三个重要组件,分别为query,key和value,其中
Figure BDA0002923689460000081
一般框架下的标准attention计算过程如下:
attention(Q,K,V)=soft max(fatt(Q,K))V
其中fatt表示概率对齐函数,本发明采用Scaled Dot Product:
Figure BDA0002923689460000082
在多头注意力机制中,输入特征通过不同的权值矩阵被线性映射到不同的信息子空间,并在每个子空间完成相同的attention计算,以对文本潜在的结构和语义进行充分学习,其中第i头注意力计算过程如下:
Figure BDA0002923689460000091
其中
Figure BDA0002923689460000092
最后将各个head进行合并,产生多头注意力输出:
MHAtt(Q,K,V)=concat(O1,O2,O3,…ON)
自注意力是在序列内部进行attention计算,寻找序列内部的联系。假设输入序列是X,其多头自注意力计算过程如下:
MHSAtt(X)=MHAtt(X,X,X)
本发明MAMN模型将多头注意力机制和外部记忆单元结合构造独立计算模块(hop),并将计算模块叠加,形成多跳(hops)深度记忆网络。这种多跳注意力递归深度记忆结构,相对于普通链式深度网络可以在更短路径上获得长距离依赖,并且相比浅层模型可以学习到更高级别的抽象数据表示。由于每个计算层(hop)的运算都有外部原始记忆单元内容参与,可以使模型一直关注历史信息,通过足够跳数的计算层堆叠转换,可以使模型学习到文本内部蕴含更加复杂、抽象的非线性特征。因为所有的输入N-gram特征借由注意力的递归计算过程充分交互,也使得文本特征间的远程依赖关系得到更成分的建模。由于每一个计算层作为独立模块,拥有相同的处理流程,我们用第i个计算层来说明计算过程:
Figure BDA0002923689460000093
其中,
Figure BDA0002923689460000094
为多跳记忆结构中第i个计算层的输出,并且:
Figure BDA0002923689460000095
其中,M表示历史信息记忆。
进一步地,网络还包括顺次连接的词嵌入层、特征提取层和有序神经元长短时记忆子网络;词嵌入层用于获取文本的词向量矩阵;特征提取层用于将词向量矩阵转换为n-gram特征并产生新的N-gram特征矩阵,且n-gram特征作为文本的原始记忆输入第一多头注意力编码层;有序神经元长短时记忆子网络根据N-gram特征矩阵对文本各词组的依赖关系进行建模并挖掘其隐藏含义,得到输入文本的高层特征表示。本发明通过词嵌入层、特征提取层、ON-LSTM网络(有序神经元长短时记忆子网络)对多头自注意力机制进行改进,能够提取文本上下文内联关系的更深层次的表示,使多头注意力记忆网络能够获得更丰富的文本特征信息。
进一步地,词嵌入层用于将非结构化的文本首先被转换成结构化的低维数值向量(词向量)。在典型的自然语言处理任务预处理阶段,文本中的词汇首先使用word2vec、Glove等算法进行预训练,转换为词向量(word embedding)。在词嵌入层中,一个包含n个词的上下文序列可以转换为S={v1,v2,…,vn},其中
Figure BDA0002923689460000101
是第i个词的d维向量表示,
Figure BDA0002923689460000102
代表句子的输入词向量矩阵,即context embedding。
进一步地,特征提取层具体为卷积神经网络,主要用于对输入特征(词向量矩阵)做进一步抽象和加工。在自然语言处理任务中,通常使用由语料产生的词库作为模型输入,然而这种浅层的直观特征对于隐含关系的表达并不充分,而简单依靠增加输入特征的数目,并不能有效突破模型的极限预测性能。采用n元语法模型(n-gram model),引入词组特征,将模型输入从浅层特征转换为深层特征,便拥有了更多的语义信息,以挖掘上下文更多的深层交互特性。通过卷积神经网络生成n-gram特征,可以在有效处理文本词汇局部相关性的同时,避免n-gram中对于特征权重的大量概率统计计算,相对循环神经网络具有更小的训练时间开销。该层将多个卷积运算应用于句子的输入词向量矩阵(contextembedding),以提取相应的n-gram特征,产生新的特征向量矩阵G={g1,g2,…,gn-k+1},其中
Figure BDA0002923689460000111
k为一维卷积窗口大小,dp为卷积核个数。
进一步地,有序神经元长短时记忆子网络应用于得到的N-gram特征矩阵,以对短文本中各词组的依赖关系进行建模,并挖掘其隐含语义。ON-LSTM有序神经元长短时记忆子网络(ON-LSTM)由传统的LSTM网络演化而来。传统的LSTM网络通过设计遗忘门、输入门和输出门,可以有效解决文本处理中因上下文的长距离依赖而产生的梯度消失和梯度爆炸问题。在此基础上,ON-LSTM模型引入基础向量中各神经元的序信息对传统LSTM网络进行改进,使得内部的神经元可以经过特定排序,从而能够表达出更丰富的语义信息。通过有序神经元的设计,ON-LSTM将树状的层级结构整合到LSTM中,从而使其能自动学习到文本的层级结构信息,除了能提高模型的语义抽象能力外,还可以端到端的训练中让让模型无监督地学习到句子的句法结构。ON-LSTM中通过主遗忘门(master forget gate)和主输入门(master input gate)对神经元进行排序,利用不同的位置顺序来判断信息层级的高低。在这种层级结构中信息被分组进行更新,其中高层信息能够保留相当长的距离即不容易被遗忘门过滤,而低层信息可能随着每一步输入而被更改(低层级的信息意味着它在对应的区间更容易被遗忘)。如图2所示,有序神经元长短时记忆子网络通过对ct的更新实现对历史隐层信息ht-1以及输入信息xt的记忆与忘记,具体更新方式为:
ft=σ(Wfxt+Ufht-1+bf)
it=σ(Wixt+Uiht-1+bi)
ot=σ(Woxt+Uoht-1+bo)
Figure BDA0002923689460000112
Figure BDA0002923689460000113
Figure BDA0002923689460000114
Figure BDA0002923689460000115
Figure BDA0002923689460000116
cumax函数的具体定义为:
Figure BDA0002923689460000121
Figure BDA0002923689460000122
Figure BDA0002923689460000123
其中,σ表示sigmoid函数,tanh表示双曲正切函数,
Figure BDA0002923689460000124
表示向量对应逐位相乘运算。本发明采用ON-LSTM网络得到的隐藏状态H={h1,h2,…,hn-k+1}作为输入文本的高层特征表示,其
Figure BDA0002923689460000125
dq为ON-LSTM网络隐藏层维度。
进一步地,网络还包括深度多头注意力编码层,与特征提取层、有序神经元长短时记忆子网络输出端连接,用于对n-gram特征序列进行抽象转换,将得到的高层特征表示加入多头注意力记忆网络以对标准自注意力机制进行扩展。
进一步地,标准的多头注意力模型中,以上下文序列中的单个词作为基本处理单元,这使得句子隐含的语义和结构信息被忽视。实际应用中,单纯依靠增加头部数量,也很难提高多头注意力模型的性能,表明其在多维信息空间中的提取和学习能力并没有得到充分发挥。本发明将n-gram特征与多头自注意力模型结合,提出深度自注意力机制。引入相邻词汇组合形成的语义特征,使多头注意力机制能在多维特征空间中学习更多隐藏信息,以更好地预测目标情感极性。在深度自注意力编码层具体计算过程如下:
DMHSAtt(G)=MHAtt(G,H,H)
H=ON-LSTM(G)
Og=DMHSAtt(G)
其中,
Figure BDA0002923689460000128
是深度自注意力模型的输出。
进一步地,深度多头注意力编码层连接有第二线性层,第二线性层将深度多头注意力编码层的输出进行线性变化处理得到历史信息记忆
Figure BDA0002923689460000127
M=tanh(WmOg+bm)。
进一步地,网络还包括预测输出层,特征提取层、多跳记忆子网络输出端均与预测输出层连接。预测输出层作为本发明MAMN模型的最后一层,负责将多跳记忆结构的输出进行再加工,最后通过分类函数计算各类的概率输出。
更进一步地,预测输出层包括顺次连接的第二多头注意力编码层、池化层、第三线性层和分类层,特征提取层、多跳记忆子网络输出端与第二多头注意力编码层连接。本发明具体采用SoftMax函数计算各类概率。具体地,将多跳记忆结构的最后输出
Figure BDA0002923689460000135
与N-gram特征矩阵再进行多头注意力计算,进一步抽象全局语义表示,然后采用全局最大池化对多头注意力输出在水平方向进行压缩,使得多头注意力特征在各子空间内聚合,最后在进行SoftMax操作之前做一次线性变换,预测输出层多头注意力计算、池化吃力、线性处理、分类处理的具体计算公式依次如下所示:
Figure BDA0002923689460000131
Figure BDA0002923689460000132
Figure BDA0002923689460000133
Figure BDA0002923689460000134
更进一步地,为了能够充分对短文本上下文序列蕴含的句子结构以及语义信息进行建模,如图3所示,MAMN模型采用了多种粒度的词汇组合(2-gram,3-gram和4-gram),以扩展多头注意力信息子空间规模,丰富语义表达。
进一步地,由于在情感分类任务中,情感极性通常被定为“正面”、“负面”和“中性”等,属于典型的文本多分类任务,于是MAMN模型还包括训练模块,训练模块的损失函数选择交叉熵,并通过对其最小化来优化模型,交叉熵损失函数的计算公式为:
Figure BDA0002923689460000141
其中,D为训练数据集大小;C为类别数;P(i,j)是模型预测样本i为类别j的概率;Q(i,j)为1或0,表示网络分类结果是否正确;λ||θ||2为正则项。
为进一步说明本发明的分类性能,在两个基准数据集上开展实验,即电影评论集(Movie Review,MR)和斯坦福情感树数据集(Stanford Sentiment Treebank,SST)。MR数据集数据抓取自专业英文电影评论网站,包含“积极”和“消极”两类情感倾向的电影评论短文本,各5331条,测试一般采用随机分割,十折交叉检验;SST-1数据集是对MR的进一步扩展,是一个具有完全标记的解析树的语料库。它拥有11855条电影评论,但是数据按照“非常消极”、“消极”、“中性”、“积极”和“非常积极”分为了五类;SST-2数据集为SST的二进制标记版本,其中,“中性”评论被删除,“非常积极”和“积极”的评论被标记为“积极”,“非常消极”和“消极”的评论被标记为消极,总共包含9613条评论,其中1821条用于模型测试。MR和SST都被广泛应用于短文本情感分类任务评估,这使得我们能够将MAMN与已发表的同类任务模型进行性能比较,其具体细节统计如表1。
表1实验数据统计
Figure BDA0002923689460000142
更为具体地,在本实验中,MAMN模型的词嵌入层使用Glove预训练模型,词向量在训练过程中固定不变,维度设置为300,学习率设置为1e-3,模型最后运行于NVIDIA RTX2080Ti GPU,采用accuracy值来对其性能进行评价,其他通用超参设置如表2所示。
表2模型超参设置
Hyperparameter value
Dropout 0.1
批处理大小 32
序列最大长度 200
L2正则项 1e-4
隐藏层维度 300
多头注意力头数 8
卷积窗口大小 2,3,4
优化器 Adam
更为具体地,为评价MAMN模型在三个数据集上的性能,引入多种典型模型进行实验对比,其中包括一些性能基线方法和最新研究成果。以下详细描述了所有比较模型:
1)RAE:该模型基于递归自动编码器构造,可对复杂构词短语的空间向量表示进行学习,以对的句子情感极性标签的所属概率进行预测。
2)MV-RNN:该模型是一种递归神经网络,可以学习任意句法类型和长度的短语,获得句子的组合向量表示。模型为解析树中的每一个节点分配一个向量和一个矩阵,以抽象不能相邻词语的组合情感语义。
3)RNTN:该模型是一个基于情感语义解析数结构的递归深层神经网络,利用张量特征对解析数上不同维度的子节点之间的相关性进行建模,抽象组合情感语义。
4)CNN-non-static:模型将一个预训练的word2vec词向量模型与卷积神经网络相结合,并在每个任务的训练过程中对词向量进行微调。
5)CNN-multichannel[25]:该模型同时采用两个词向量集,每一组向量都被视为一个“通道”,并将每个滤波器同时对两个通道进行卷积操作。模型能动态微调一组向量,同时保持另一组向量为静态。
6)RNN-Capsule:该模型将RNN网络与胶囊网络相结合,并在胶囊网络中采用注意力机制,利用概率模块对输出胶囊进行重构以抽象更高层次的情感语义表达。
7)Capsule-CNN:该模型将卷积神经网络和胶囊网络相结合,实现了一种多级胶囊的通用文本分类处理架构,并针对特定的文本分类任务对胶囊网络中的动态路由算法进行了优化。
8)BiLSTM-CRF:该模型将序列结构和卷积神经网络结合,提出一种用于文本情感分类的流水处理框架。首先将文本按照所包含的情感目标数分为不同类型,然后采用一维卷积操作分别对每类文本进行情感特征检测。
本发明用分类精度作为评测指标,各模型分类实验结果如表3所示。
表3各模型在数据集上的分类精度
Figure BDA0002923689460000161
由表3可以看出,MAMN模型在三个基准数据集上都有良好表现,特别是在MR数据集上的类性能显著提高。在基线模型中,RAE、MV-RNN和RNTN都采用了简单的深度学习算法,整体分类性能偏低。其中RAE模型只简单使用了空间向量特征和自编码器,分类精度最低;MV-RNN在空间向量的基础上,利用相邻词汇的组合特征对情感分类进行改善;而RNTN通过融入情感语义解析特征,进一步改善性能,尤其在SST两个数据集上性能提高明显。从实验结果上看,采用RNN和CNN结构的复杂深度学习模型在所有数据集上的表现都显著且持续地优于简单的深度学习算法。除了模型结构复杂度增加,预训练词向量的使用也是性能改进的关键原因。其中,CNN-non-static和CNN-multichannel都采用了CNN结构,但在不同数据集上互有优劣,可见,靠单纯增加不同词向量集并不能对模型性能有效改善,而对词向量进行微调可以充分挖掘潜在语义特征;RNN-Capsule和Capsule-CNN都采用了胶囊网络与普通深度模型相结合的架构,以对高层情感语义特征进行抽象,其中RNN-Capsule在MR和SST-1上都有优异表现,说明注意力机制的引入,可以让模型有更好的内部关联挖掘的能力,能在二分类和多分类任务中更有优势;BiLSTM-CRF模型利用LSTM和CNN相结合,设计了多级流水结构将模型的深度继续加深,以提高特征的表征能力,并在SST-2数据集上取得参考模型的最好分值。
本发明MAMN模型在MR、SST-1和SST-2这三个数据集上比参考模型的最好分值分别提高了0.4%、0.3%和0.4%。可见多头注意力机制的采用、记忆模块的参与以及多跳结构对模型深度的加深,都对分类性能提升起到了重要作用。模型在二分类和多分类任务中都表现出分类的有效性和性能的稳定性。
更进一步地,为进一步验证MAMN模型多跳记忆结构对性能改善的有效性,同时考察模块跳数设置对分类精度的影响程度,在三个数据集上对模型记忆结构跳数取不同值进行一系列对比实验,以评价不同数据集上的最优跳数设置。在实验中,将跳数预设范围定为1至7,对应着记忆结构模块不断增加。另外,整个实验过程模型的超参数集合均保持不变,实验结果如图4-6所示。从实验的结果数据可以看出,其中MR数据集最优跳数取值为4,对应分类精度为0.842;SST-1数据集最优跳数取值为3,对应分类精度为0.491;SST-2数据集最优跳数取值为5,对应分类精度为0.887。从实验中很容易发现,模型在三个数据集上都表现出同样的规律,既随着跳数取值的增加,分类精度不断升高,并在堆叠特定数量的记忆模块时达到最优,随后性能明显下降。这表明,多跳结构的设计可以使模型深度得到扩展,让情感语义信息的提取层次更高、更加有效,从而直接改善模型的分类性能。并且记忆结构的设计也大大增强了模型的扩展性,因为模块具有相同的代码和接口,使得工程实施变得简单。需要注意的是,记忆模块的过度叠加,也会给模型带来过拟合的风险,导致性能下降。
本发明针对短文本情感分类问题,提出一种多头注意力记忆网络。模型利用卷积神经网络从输入序列中提取N-gram信息,结合改进的多头自注意力机制对上下文内部关联进行有效挖掘;另一方面引入多跳记忆结构,对模型深度进一步拓展,同时通过对记忆模块内容的递归操作,也使得模型可以挖掘更高层次的上下文情感语义关系。最后,我们在MR、SST-1和SST-2这三个数据集上对模型进行评估,实验表明MAMN与流行的基线模型和最新的任务相关模型相比,分类性能都显著优于对方,充分证明其在短文本情感分类任务中的有效性。另外结构性能分析实验也验证了多跳结构对于模型分类性能提升的重要作用。
实施例2
本实施例与实施例1具有相同的发明构思,在实施例1的基础上,提供了一种基于多头注意力记忆网络的短文本情感分类方法,该方法具体包括:
S01:获取短文本的词向量矩阵,并将该词向量矩阵转换为n-gram特征并产生新的N-gram特征矩阵,对N-gram特征矩阵进行建模,挖掘文本各词组的依赖关系及其隐藏含义,得到输入文本的高层特征表示;
S02:将n-gram特征序列进行抽象转换,并将高层特征表示进行多头注意力计算,最后进行线性化处理得到历史信息记忆;
S03:将历史信息记忆与N-gram特征作多头注意力计算并经线性处理后进行叠加,并重复该步骤实现足够条数的堆叠转换,得到更高级别的抽象数据表示;
S04:将N-gram特征矩阵、更高级别的抽象数据表示进行多头注意力计算,并依次进行全局最大池化处理、线性处理以及分类处理,进而实现文本的情感分类。
进一步地,步骤S01中,通过词嵌入层获取短文本的词向量矩阵;通过卷积神经网络将词向量矩阵转换为n-gram特征并产生新的N-gram特征矩阵;通过有序神经元长短时记忆子网络根据N-gram特征矩阵对文本各词组的依赖关系进行建模并挖掘其隐藏含义,得到输入文本的高层特征表示。
进一步地,在步骤S02中,通过深度多头注意力编码层将n-gram特征序列进行抽象转换,并将高层特征表示加入MAMN模型以对标准自注意力机制进行扩展。
进一步地,步骤S03中,通过多跳记忆子网络将历史信息记忆与N-gram特征进行堆叠转换,学习到文本内部蕴含更加复杂、抽象的非线性特征。更为具体地,多跳记忆子网络包括两个顺次连接的独立计算模块,独立计算模块包括顺次连接的第一多头注意力编码层、第一线性层和输出层;第一多头注意力编码层根据输入的历史信息记忆与原始记忆进行学习,第一线性层对第一多头注意力编码层的输出进行线性化处理,输出层将第一线性层的输出与历史信息记忆进行叠加处理得到更高级别的抽象数据表示。
进一步地,步骤S04中,通过预测输出层实现文本的情感分类,具体包括顺次连接的第二多头注意力编码层、池化层、第三线性层和分类层,具体采用SoftMax函数计算各类概率。
本发明多跳记忆子网络中的每个多头注意力编码层的输入均包括原始记忆以及历史信息记忆,通过足够跳数的独立计算模块堆叠转换,可以使本发明多头注意力记忆网络学习到文本内部蕴含更加复杂、抽象的非线性特征,对文本中的情感语义结构进行有效地编码。进一步地,输入多跳记忆子网络的原始记忆由多头注意力编码层的递归计算过程充分交互,使得文本特征间的远程依赖关系得到更成分的建模,进而挖掘出更高层次的上下文情感语义关系,以此提升模型的分类性能。
实施例3
本实施例提供了一种存储介质,与实施例2具有相同的发明构思,其上存储有计算机指令,计算机指令运行时执行实施例2中的用于短文本情感分类的多头注意力记忆网络的步骤。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
实施例4
本实施例还提供一种终端,与实施例2具有相同的发明构思,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行实施例2中的用于短文本情感分类的多头注意力记忆网络的步骤。处理器可以是单核或者多核中央处理单元或者特定的集成电路,或者配置成实施本发明的一个或者多个集成电路。
在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。

Claims (10)

1.一种用于短文本情感分类的多头注意力记忆网络,其特征在于:所述网络包括多跳记忆子网络,所述多跳记忆子网络包括多个顺次连接的独立计算模块,独立计算模块包括顺次连接的第一多头注意力编码层、第一线性层和输出层;
第一多头注意力编码层根据输入的历史信息记忆与原始记忆进行学习,第一线性层对第一多头注意力编码层的输出进行线性化处理,输出层将第一线性层的输出与历史信息记忆进行叠加处理得到更高级别的抽象数据表示。
2.根据权利要求1所述的用于短文本情感分类的多头注意力记忆网络,其特征在于:所述网络还包括顺次连接的词嵌入层、特征提取层和有序神经元长短时记忆子网络;
词嵌入层用于获取文本的词向量矩阵;特征提取层用于将词向量矩阵转换为n-gram特征并产生新的N-gram特征矩阵,且n-gram特征作为文本的原始记忆输入第一多头注意力编码层;有序神经元长短时记忆子网络根据N-gram特征矩阵对文本各词组的依赖关系进行建模并挖掘其隐藏含义,得到输入文本的高层特征表示。
3.根据权利要求2所述的用于短文本情感分类的多头注意力记忆网络,其特征在于:所述特征提取层具体为卷积神经网络。
4.根据权利要求2所述的用于短文本情感分类的多头注意力记忆网络,其特征在于:所述网络还包括深度多头注意力编码层,与特征提取层、有序神经元长短时记忆子网络输出端连接,用于对n-gram特征序列进行抽象转换得到的高层特征表示。
5.根据权利要求4所述的用于短文本情感分类的多头注意力记忆网络,其特征在于:所述深度多头注意力编码层对n-gram特征序列进行抽象转换得到文本的高层特征表示的具体计算过程为:
DMHSAtt(G)=MHAtt(G,H,H)
H=ON-LSTM(G)
Og=DMHSAtt(G)
其中,G表示N-gram特征矩阵,H表示有序神经元长短时记忆子网络得到的N-gram特征矩阵的隐藏状态,
Figure FDA0002923689450000021
是深度自注意力模型的输出。
6.根据权利要求4所述的用于短文本情感分类的多头注意力记忆网络,其特征在于:所述深度多头注意力编码层连接有第二线性层,第二线性层将深度多头注意力编码层的输出进行线性变化处理得到历史信息记忆。
7.根据权利要求6所述的用于短文本情感分类的多头注意力记忆网络,其特征在于:所述独立计算模块的具体计算方式为:
Figure FDA0002923689450000022
Figure FDA0002923689450000023
其中,
Figure FDA0002923689450000024
为多跳记忆结构中第i个独立计算模块的输出,M表示历史信息记忆。
8.根据权利要求6所述的用于短文本情感分类的多头注意力记忆网络,其特征在于:所述网络还包括预测输出层,特征提取层、多跳记忆子网络输出端均与预测输出层连接。
9.根据权利要求8所述的用于短文本情感分类的多头注意力记忆网络,其特征在于:所述预测输出层包括顺次连接的第二多头注意力编码层、池化层、第三线性层和分类层,特征提取层、多跳记忆子网络输出端与第二多头注意力编码层连接。
10.根据权利要求1所述的用于短文本情感分类的多头注意力记忆网络,其特征在于:所述网络还包括训练模块,所述训练模块采用交叉熵损失函数优化网络,交叉熵损失函数的计算公式为:
Figure FDA0002923689450000031
其中,D为训练数据集大小;C为类别数;P(i,j)是模型预测样本i为类别j的概率;Q(i,j)为1或0,表示网络分类结果是否正确;λ||θ||2为正则项。
CN202110126510.3A 2021-01-29 2021-01-29 用于短文本情感分类的多头注意力记忆系统 Active CN112784532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110126510.3A CN112784532B (zh) 2021-01-29 2021-01-29 用于短文本情感分类的多头注意力记忆系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110126510.3A CN112784532B (zh) 2021-01-29 2021-01-29 用于短文本情感分类的多头注意力记忆系统

Publications (2)

Publication Number Publication Date
CN112784532A true CN112784532A (zh) 2021-05-11
CN112784532B CN112784532B (zh) 2022-09-02

Family

ID=75759817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110126510.3A Active CN112784532B (zh) 2021-01-29 2021-01-29 用于短文本情感分类的多头注意力记忆系统

Country Status (1)

Country Link
CN (1) CN112784532B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313177A (zh) * 2021-06-03 2021-08-27 紫东信息科技(苏州)有限公司 消化道内窥镜图片多标签分类系统
CN113688204A (zh) * 2021-08-16 2021-11-23 南京信息工程大学 一种利用相似场景及混合注意力的多人会话情感预测方法
CN113901210A (zh) * 2021-09-15 2022-01-07 昆明理工大学 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法
CN114036823A (zh) * 2021-10-26 2022-02-11 天津大学 基于编解码和记忆机制的电力变压器负载控制方法及装置
WO2023043481A1 (en) * 2021-09-17 2023-03-23 Rakuten Mobile, Inc. Sentiment analysis
CN114036823B (zh) * 2021-10-26 2024-05-10 天津大学 基于编解码和记忆机制的电力变压器负载控制方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543039A (zh) * 2018-11-23 2019-03-29 中山大学 一种基于深度网络的自然语言情感分析方法
CN109800327A (zh) * 2018-12-04 2019-05-24 天津大学 一种基于多跳注意力的视频摘要方法
CN110188167A (zh) * 2019-05-17 2019-08-30 北京邮电大学 一种融入外部知识的端到端对话方法及系统
CN110580287A (zh) * 2019-08-20 2019-12-17 北京亚鸿世纪科技发展有限公司 基于迁移学习和on-lstm的情感分类方法
CN111079409A (zh) * 2019-12-16 2020-04-28 东北大学秦皇岛分校 一种利用上下文和方面记忆信息的情感分类方法
CN111462750A (zh) * 2020-03-20 2020-07-28 北京邮电大学 语义与知识增强的端到端任务型对话系统及方法
CN111563146A (zh) * 2020-04-02 2020-08-21 华南理工大学 一种基于推理的难度可控问题生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543039A (zh) * 2018-11-23 2019-03-29 中山大学 一种基于深度网络的自然语言情感分析方法
CN109800327A (zh) * 2018-12-04 2019-05-24 天津大学 一种基于多跳注意力的视频摘要方法
CN110188167A (zh) * 2019-05-17 2019-08-30 北京邮电大学 一种融入外部知识的端到端对话方法及系统
CN110580287A (zh) * 2019-08-20 2019-12-17 北京亚鸿世纪科技发展有限公司 基于迁移学习和on-lstm的情感分类方法
CN111079409A (zh) * 2019-12-16 2020-04-28 东北大学秦皇岛分校 一种利用上下文和方面记忆信息的情感分类方法
CN111462750A (zh) * 2020-03-20 2020-07-28 北京邮电大学 语义与知识增强的端到端任务型对话系统及方法
CN111563146A (zh) * 2020-04-02 2020-08-21 华南理工大学 一种基于推理的难度可控问题生成方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YAOJIE ZHANG 等: "Convolutional Multi-Head Self-Attention on Memory for Aspect Sentiment Classification", 《CAA JOURNAL OF AUTOMATICA SINICA》 *
张忠林 等: "ON-LSTM和自注意力机制的方面情感分析", 《小型微型计算机系统》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313177A (zh) * 2021-06-03 2021-08-27 紫东信息科技(苏州)有限公司 消化道内窥镜图片多标签分类系统
CN113688204A (zh) * 2021-08-16 2021-11-23 南京信息工程大学 一种利用相似场景及混合注意力的多人会话情感预测方法
CN113688204B (zh) * 2021-08-16 2023-04-25 南京信息工程大学 一种利用相似场景及混合注意力的多人会话情感预测方法
CN113901210A (zh) * 2021-09-15 2022-01-07 昆明理工大学 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法
WO2023043481A1 (en) * 2021-09-17 2023-03-23 Rakuten Mobile, Inc. Sentiment analysis
CN114036823A (zh) * 2021-10-26 2022-02-11 天津大学 基于编解码和记忆机制的电力变压器负载控制方法及装置
CN114036823B (zh) * 2021-10-26 2024-05-10 天津大学 基于编解码和记忆机制的电力变压器负载控制方法及装置

Also Published As

Publication number Publication date
CN112784532B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN111368996B (zh) 可传递自然语言表示的重新训练投影网络
CN110209806B (zh) 文本分类方法、文本分类装置及计算机可读存储介质
CN112784532B (zh) 用于短文本情感分类的多头注意力记忆系统
KR102008845B1 (ko) 비정형 데이터의 카테고리 자동분류 방법
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN112232087B (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN111241807A (zh) 一种基于知识引导注意力的机器阅读理解方法
CN112925918A (zh) 一种基于疾病领域知识图谱的问答匹配系统
Zulqarnain et al. An efficient two-state GRU based on feature attention mechanism for sentiment analysis
Ullah et al. A deep neural network-based approach for sentiment analysis of movie reviews
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN114742069A (zh) 一种代码相似度检测方法及装置
Göker et al. Neural text normalization for turkish social media
CN111767388B (zh) 一种候选池生成方法
CN115062602A (zh) 对比学习的样本构造方法、装置、计算机设备及存储介质
Raviya et al. DEEP CNN WITH SVM-HYBRID MODEL FOR SENTENCE-BASED DOCUMENT LEVEL SENTIMENT ANALYSIS USING SUBJECTIVITY DETECTION.
Manshani et al. Sentiment Analysis: A comparative study of Deep Learning and Machine Learning
Lin Deep neural networks for natural language processing and its acceleration
Zidan et al. Textual emotion detection approaches: A survey
Karga et al. Deep Learning-Based Sentiment Analysis on Education During the COVID-19 Pandemic
Achlatis Structured pruning for deep learning language models
Kardakis Machine Learning Techniques for Sentiment Analysis and Emotion Recognition in Natural Language
Sauter Domain transfer across country, time and modality in multiclass-classification of political texts
Kalchbrenner Encoder-decoder neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant