CN113326378A - 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法 - Google Patents
一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法 Download PDFInfo
- Publication number
- CN113326378A CN113326378A CN202110667720.3A CN202110667720A CN113326378A CN 113326378 A CN113326378 A CN 113326378A CN 202110667720 A CN202110667720 A CN 202110667720A CN 113326378 A CN113326378 A CN 113326378A
- Authority
- CN
- China
- Prior art keywords
- attention
- domain
- network
- sentence
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明针对跨领域文本情感分类任务提出了一种基于参数迁移和注意力共享机制方法与系统。特别地,本发明体系结构包括源领域网络和目标领域网络。首先,在训练数据上构建具有预训练语言模型的分层注意力网络,预训练语言模型包含用于单词表示的全局矢量和双向编码器语言模型。其次,在模型迁移中,本发明引入了单词和句子级别参数迁移机制,采用参数迁移和微调技术将网络参数从源领域网络迁移到目标领域网络。最后,情感注意力可以充当连接不同领域的情感传递的桥梁,本发明引入单词和句子级别的注意力机制,并从这两个级别共享跨领域情感注意力。实验表明,本发明提出的方法在亚马逊跨领域情感分类数据集上达到了最优的结果。
Description
技术领域
本发明涉及自然语言处理文本情感分析领域,提出了一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法。
背景技术
传统的文本情感分类方法假定用于训练和测试之间的领域是独立同分布的。但是,在实际条件下,不同的领域之间具有分布差异。跨领域文本情感分类采用源领域数据资源来实现目标领域中的情感分类任务。为了有效解决特定领域中数据标记不足的问题,跨领域情感分类扩展了基于文本的社交媒体中迁移学习的应用,可以提高数据源不足的文本情感分类任务的分类效果。此外,它可以促进基于文本的情感分析相关的应用和行业的快速发展。
深度学习方法在文本情感分类任务上取得了出色的成绩,但它需要大量的带标签训练数据。然而,标注特定领域的数据是一项非常费时费力的任务。情感的分布在不同的领域有所不同。在不同的领域,用户倾向于用不同的情感词表达情感。因此,情感的表达具有领域依赖性。在不同领域训练的分类器很难应用到其他领域,需要执行特定的情感迁移策略。跨领域的情感迁移的核心是找到领域不变性作为实现跨领域迁移的桥梁。
社交媒体中的文本具有三个层次的语义结构,分别是单词、句子和文档。在文档的构成中,单词的情感决定句子的情感,而句子的情感决定文档的整体情感。容易注意到不同的单词和句子对文档整体情感表达的贡献不同。注意力机制可以通过执行加权变换有效地提升序列模型的效果。直觉表明,从源领域训练中获得的单词级和句子级注意权重可以指导目标领域注意权重的训练。通过注意力机制,可以找到对于情感决策中最重要的单词和句子。
在跨领域文本情感分类任务中,需要解决两个问题:(1)如何迁移不同领域深层神经网络的结构和参数?(2)如何在不同领域训练的神经网络模型中共享注意力机制?首先,可以采用模型迁移机制来迁移模型的结构和参数。同时,在深度迁移学习中使用微调策略是模型迁移的关键科学问题。其次,情感注意力机制可以用作连接不同领域的桥梁,单词和句子级别的注意力机制可以跨领域相互指导和训练。
跨领域文本情感分类任务中基于模型或参数迁移的方法假定相关任务的模型共享参数的先验分布。现有方法主要解决两个问题:(1)确定模型中可以共享哪些参数?(2)如何共享模型参数?即使用哪种方法来实现模型参数的迁移。在这些方法中,深度迁移学习是解决跨领域情感迁移问题的一种新方法。通常,深度迁移学习方法主要分为两个步骤:首先,选择合适的深度情感语义组合方法,然后选择合适的学习算法来迁移相关的情感知识。
现有方法侧重于使用深度学习方法来提取特征,并使用模型迁移或参数迁移方法来迁移跨领域不变情感特征。例如,Li等人提出了用于跨领域文本情感分类任务的端到端对抗记忆网络框架(End-to-end adversarial memory network for cross-domainsentiment classification,in:Proceedings of the 26th International JointConference on Artificial Intelligence,550 IJCAI-17,Melbourne,Australia,2017,pp.2237–2243)。为了解决情感分类的领域适应问题,Bach等人采用了特征学习和特征子空间映射的通用方法,并将词嵌入和典型相关分析应用于跨领域情感分类任务(Cross-domain sentiment classification with word embeddings and canonicalcorrelation analysis,in:Proceedings of the 7th Symposium on Information andCommunication Technology,SoICT’16,Association for Computing Machinery,NewYork,NY,USA,2016,pp.159–166)。Yu和Jiang利用结构一致学习策略,采用了深度学习架构来解决跨领域情感分类,并采用了两个辅助任务来改善句子嵌入(J.Yu,J.Jiang,Learningsentence embeddings with auxiliary tasks for cross-domain sentimentclassification,in:Proceedings of the 2016 Conference on Empirical Methods inNatural Language Processing,Association for Computational Linguistics,Austin,Texas,2016,pp.236–246)。Zhao等人提出了一个两阶段双向长短期记忆和参数迁移框架,用于短文本跨领域情感分类任务(C.Zhao,S.Wang,D.Li,Deep transfer learning forsocial media cross-domain sentiment classification,in:Proceedings of the2017Chinese National Conference on Social Media Processing,Springer,SpringerSingapore,Singapore,2017,pp.232–243);另外,Zhao使用来自多个源域的数据和模型迁移方法来实现多源域适应分类任务(C.Zhao,S.Wang,D.Li,Multi-source domainadaptation with joint learning for cross-domain sentiment classification,Knowledge-Based Systems(2019)105254)。
BERT(Bidirectional encoder representations from transformers)预训练模型是Google公司提出的一种基于双向迁移的语言模型(A.Vaswani,N.Shazeer,N.Parmar,J.Uszkoreit,L.Jones,A.N.Gomez,u.Kaiser,I.Polosukhin,Attention is all youneed,in:Proceedings of the 31st International Conference on NeuralInformation Processing Systems,NIPS’17,Curran Associates Inc.,Red Hook,NY,USA,2017,pp.6000–6010)。随着在诸如BERT等大型语料库上训练的预训练模型的兴起,许多学者将预训练模型添加到领域适应模型中以解决跨领域情感分类任务。两种典型的方法是基于Wasserstein距离的迁移网络模型(WTN)(Y.Du,M.He,L.Wang,H.Zhang,Wassersteinbased transfer network for cross-domain sentiment classification,Knowledge-Based Systems 204(2020)106162)和对抗领域感知的BERT(BERT-DAAT)用于跨领域情感分析(C.Du,H.Sun,J.Wang,Q.Qi,J.Liao,Adversarial and domain-aware BERT for cross-domain sentiment analysis,in:Proceedings of the 58th Annual Meeting of theAssociation for Computational Linguistics,Association for ComputationalLinguistics,Online,2020,pp.4019–4028)。WTN由Du等人提出,它使用了BERT预训练文本的丰富语义信息和Wasserstein距离来度量跨领域表示的距离。Du等人提出了BERT-DAAT方法,它通过自训练和对抗学习方法将目标领域知识添加到BERT模型中。
注意力机制在情感分析任务中被广泛使用。注意力机制通过自上而下的信息选择机制过滤掉了不相关的信息,通过循环神经网络引入额外的外部存储器,在情感分类任务上得到了了更好的结果。当前的研究趋势是将注意力机制引入传统的深度神经网络。它可以将注意力集中在对情感分类有用的特征上,从而可以有效地提高粗粒度和细粒度文本情感分类的准确性。
在此发明中,注意力机制被视为一组映射,选择对最终情感决定最重要的单词和句子。同时将情感注意力作为不同领域的桥梁,并提出了情感注意力共享方法。具体来说,注意机制被用于训练分层注意力网络,采用迁移学习中的分层网络迁移方法来迁移模型参数。采用相互指导的策略,源领域和目标领域的情感注意力可以相互指导和增强。发明提出的方法的独特之处在于它专注于情感分类中的情感注意力共享。
在本发明中,提出了一种基于参数迁移和注意力共享机制(Parametertransferring and attention sharing mechanism,PTASM)的跨领域文本情感分类方法。首先,通过分层注意力网络(Hierarchical attentional network,HAN)对文本中重要单词和句子的情感信息进行建模,并学习文档级别的分布式表示。用预训练语言模型(单词表示的全局矢量(Global vectors for word representation,Glove)和双向编码器语言模型(Bidirectional encoder representations from transformers,BERT))作为分层注意力网络的输入。本发明设计了两个分层注意力网络:源领域网络(Source domain network,SDN)和目标领域网络(Target domain network,TDN)。本发明还考虑了跨领域句子级别和单词级别的注意力对应关系,并设计了一种有效的跨领域注意力共享机制。实验表明,本发明提出的方法不仅具有较高的跨领域分类精度,而且可以自动获得情感特征之间的对应程度。
发明内容
本发明旨在利用源领域的大量带标签数据和目标领域少量带标签数据,实现目标领域不带标签的跨领域文本情感分类任务。
为达到上述目的,本发明有效利用源领域情感知识和跨领域情感注意力,提出了一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法,具体包括以下步骤:
S1,基于分层注意力机制的可迁移神经网络的体系(Parameter transferringand attention sharing mechanism,PTASM)),具体包括源领域网络(Source domainnetwork)和目标领域网络(Target domain network)。源领域网络和目标领域网络具有相似的网络结构。它们包括单词序列层和编码层、单词注意力层、句子序列层和编码层、句子注意力层以及情感分类层;
S2,分层注意力网络(Hierarchical attentional network,HAN)重视文档中的局部语义,并采用双向门控循环单元(Gated recurrent neural networks,GRU)学习单词和句子的表示形式。文档x由数个句子s组成,s由数个单词w组成,并且词w表示为固定维度的单词向量。通过文档级分布式表示可以有效地捕捉情感语义特征;
S4,将情感注意力视为一组映射,对分层注意力网络输入最重要的单词或句子经过编码以确定其最终输出。使用源领域带标签数据DS和目标领域带标签数据获取与文档中的情感类别相关的位置信息,将此类信息视为情感注意力,并通过编码和解码过程在DS和上共享它们。采用注意力共享机制,将情感注意力信息共享到未标记的目标领域数据
根据本发明的一个实施例,所述步骤S1包括:
S11,对源领域带标签数据DS和目标领域带标签数据进行预处理,然后执行单词向量化。随后,构建分层注意力网络(Hierarchical attentional network,HAN)模型,然后分别在源领域带标签数据DS和目标领域带标签数据上进行特征提取,以获得文本数据的分布式表示形式;
S12,词级匹配网络包括正向和反向门控循环单元层(Gated recurrent neuralnetwork,GRU),这些层旨在获得句子的情感语义表示。同样,句子级网络包含正向和反向的门控循环单元层,可以通过引入句子级注意力来提供文档的最终表示。网络输出是积极或消极的文本情感倾向;
S13,在模型迁移方面,将源领域网络中双向门控循环单元层的参数迁移到目标领域网络。源领域网络和目标领域网络的分层的注意机制在训练过程中互相指导。源领域词级注意力和目标领域词级注意力可以共享;源领域句子级注意力和目标领域句子级注意力也可以共享。注意力共享机制在学习过程中不断减小不同领域中注意力向量之间的距离。
根据本发明的一个实施例,步骤S2还包括:
S21,单词序列和编码层。在第i个句子si中,
xit=Ewit,t∈[1,...,N]
其中N是si中的单词数;
S22,单词注意力层。此发明引入注意机制来提取这些重要单词的表示并将其编码为句子向量表示。
uit=tan h(Wwhit+bw)
其中uit是注意力得分,它衡量与si的情感极性的相关性。归一化的重要性权重αit是通过Softmax函数获得的。单词上下文向量uw在训练过程中被随机初始化并共同学习;
S23,句子序列和编码层。si是通过单词向量的注意力加权总和获得的表示。
si=∑tαithit
向前和向后的GRU层是
S24,句子注意力层。引入句子级上下文向量us来衡量句子的重要性:
ui=tan h(Wshi+bs)
其中ui是句子的注意力得分,它衡量句子对文本总体情感极性的贡献程度;
S25,情感分类层。
其中d是文档向量,它是通过加权所有句子表示向量的平均值获得的。
Softmax函数用于情感分类输出层。引入Dropout机制以防止过拟合。
其中Wc和bc是Softmax层的参数。
交叉熵损失函数定义如下:
根据本发明的一个实施例,步骤S3还包括:
S31,源领域神经网络参数Ws的训练过程为
其中γs是渐变的步长;
其中γT是渐变的步长。
根据本发明的一个实施例,步骤S4还包括:
根据本发明的一个实施例,步骤S5还包括:
S51,一种基于参数迁移和注意力共享机制的跨领域文本情感分类模型的总损失函数为
其中,Lsen-source是在源领域带标签数据集DS的情感分类损失,Lsen-target是目标领域带标签数据集的情感分类损失,β是词级相似度Lword-attention的权重,γ是句子相似度Lsen-attention的权重,且β,γ∈[0,1]。是广义Frobenius范数,而λ1和λ2分别是DS和的参数集范数的权重;
S52,源领域中带标签数据训练仅更新模型的左半部分,源领域网络最佳参数Ws直接迁移到目标领域DT;
S53,源领域单词级和句子级注意力可以指导目标领域中分层注意力的学习,源领域注意力权重αS可以计算目标领域注意力权重αT。目标领域训练数据可以更新目标领域网络的参数。此外,使用基于目标领域注意力权重αT来计算源领域注意力权重αS。
与现有技术相比,本发明具有以下有益效果:
(1)本发明提出了一种基于参数迁移和注意力共享机制的跨领域情感分类方法,该方法可以通过模型迁移方法有效地迁移情感知识,并有效避免过度拟合。同时,注意力共享机制被用作连接不同领域的桥梁;
(2)采用模型迁移的策略有效迁移源领域网络参数到目标领域网络。对于情感注意力共享机制,不同特征空间的注意力权重可以相互指导;
(3)在亚马逊评论数据集中验证了本发明提出的方法,并通过实验进行了参数选择。实验验证了本发明提出的方法较基础方法相比提高了情感分类准确性。
附图说明
附图作为本发明的一部分,可以进一步帮助理解本发明的意图和发明步骤。
图1是一种基于参数迁移和注意力共享机制的跨领域文本情感分类发明流程图。
图2是“Kitchen”和“Electronic”领域中用于评论的句子级和单词级注意力可视化示例。
图3是基于单词和句子的分层注意力机制的可迁移神经网络的架构图。
图4是损失函数中注意力权重跨领域准确率的影响。
图5是训练Epoch数量对于跨领域准确率的影响。
图6是在Book→DVD任务中使用PTASM-Glove和PTASM-BERT模型可视化句子样本中的情感注意力。
具体实施方式
下面结合附图1-图6来进一步描述本发明。
如图1所示,本发明框架主要分为以下五个步骤,需要逐步实施最终实现目标领域不带标签数据情感分类任务。实施过程主要包括以下步骤:
下面首先给出本发明的基本符号标记和定义:
在本发明关注于归纳式情感迁移任务,其中目标领域中存在少量标记的样本。将跨领域情感分类任务定义为将源领域DS的情感信息迁移到目标领域DT,并使用从源领域DS的标记数据中学到的精确情感分类器f(·)实现目标领域不带标签数据集的情感极性分类任务。
S1,基于分层注意力机制的可迁移神经网络的体系(Parameter transferringand attention sharing mechanism,PTASM)),具体包括源领域网络(Source domainnetwork)和目标领域网络(Target domain network)。源领域网络和目标领域网络具有相似的网络结构。它们包括单词序列层和编码层、单词注意力层、句子序列层和编码层、句子注意力层以及情感分类层;
步骤S1包括:
S11,对源领域带标签数据DS和目标领域带标签数据进行预处理,然后执行单词向量化。随后,构建分层注意力网络(Hierarchical attentional network,HAN)模型,然后分别在源领域带标签数据DS和目标领域带标签数据上进行特征提取,以获得文本数据的分布式表示形式;
S12,词级匹配网络包括正向和反向门控循环单元层(Gated recurrent neuralnetwork,GRU),这些层旨在获得句子的情感语义表示。同样,句子级网络包含正向和反向的门控循环单元层,可以通过引入句子级注意力来提供文档的最终表示。网络输出是积极或消极的文本情感倾向;
S13,在模型迁移方面,将源领域网络中双向门控循环单元层的参数迁移到目标领域网络。源领域网络和目标领域网络的分层的注意机制在训练过程中互相指导。源领域词级注意力和目标领域词级注意力可以共享;源领域句子级注意力和目标领域句子级注意力也可以共享。注意力共享机制在学习过程中不断减小不同领域中注意力向量之间的距离。
S2,分层注意力网络(Hierarchical attentional network,HAN)重视文档中的局部语义,并采用双向门控循环单元(Gated recurrent neural networks,GRU)学习单词和句子的表示形式。文档x由数个句子s组成,s由数个单词w组成,并且词w表示为固定维度的单词向量。通过文档级分布式表示可以有效地捕捉情感语义特征。
步骤S2包括:
S21,单词序列和编码层。在第i个句子si中,
xit=Ewit,t∈[1,...,N]
其中N是si中的单词数;
S22,单词关注层。此发明引入注意机制来提取这些重要单词的表示并将其编码为句子向量表示。
uit=tanh(Wwhit+bw)
其中uit是注意力得分,它衡量与si的情感极性的相关性。归一化的重要性权重αit是通过Softmax函数获得的。单词上下文向量uw在训练过程中被随机初始化并共同学习;
S23,句子序列和编码层。si是通过单词向量的注意力加权总和获得的表示。
si=∑tαithit
向前和向后的GRU层是
S24,句子注意层。引入句子级上下文向量us来衡量句子的重要性:
ui=tan h(Wshi+bs)
其中ui是句子的注意力得分,它衡量句子对文本总体情感极性的贡献程度;
S25,情感分类层。
其中d是文档向量,它是通过加权所有句子表示向量的平均值获得的。
Softmax函数用于情感分类输出层。引入断脱机理以防止过拟合。
其中Wc和bc是Softmax层的参数。
交叉熵损失函数定义如下:
步骤S3包括:
S31,源领域神经网络参数Ws的训练过程为
其中γs是渐变的步长;
其中γT是渐变的步长。
S4,将情感注意力视为一组映射,对分层注意力网络输入最重要的单词或句子经过编码以确定其最终输出。使用源领域带标签数据DS和目标领域带标签数据获取与文档中的情感类别相关的位置信息,将此类信息视为情感注意力,并通过编码和解码过程在DS和上共享它们。采用注意力共享机制,将情感注意力信息共享到未标记的目标领域数据
步骤S4包括:
步骤S5包括:
S51,一种基于参数迁移和注意力共享机制的跨领域文本情感分类模型的总损失函数为
其中,Lsen-source是在源领域带标签数据集DS的情感分类损失,Lsen-target是目标领域带标签数据集的情感分类损失,β是词级相似度Lword-attention的权重,γ是句子相似度Lsen-attention的权重,且β,γ∈[0,1]。是广义Frobenius范数,而λ1和λ2分别是DS和的参数集范数的权重;
S52,源领域中带标签数据训练仅更新模型的左半部分,源领域网络最佳参数Ws直接迁移到目标领域DT;
S53,源领域单词级和句子级注意力可以指导目标领域中分层注意力的学习,源领域注意力权重αS可以计算目标领域注意力权重αT。目标领域训练数据可以更新目标领域网络的参数。此外,使用基于目标领域注意力权重αT来计算源领域注意力权重αS。
下面介绍本发明的模型参数设置及实验结果:
数据集:本发明在Amazon四个领域的英文数据集进行了实验。这些数据集被广泛用于跨领域文本情感分类研究。具体统计如表1所示,在四个领域中有两个类别(正面和负面),并且是平衡的;也就是说,每个类别有1000个样本。DVD领域中的词汇量最高,领域中的评论平均单词和句子数量最高。DVD领域中的大多数评论都是关于电影的评论。考虑到句子的平均长度,“Books”领域中的句子最长。
表1:Amazon数据集的基本情况。“Vocabulary”表示出现在领域中的词汇数。“Avg-len of
doc”表示领域中评论的平均单词数。“Sentences”代表评论中平均句子数。“Avg-len of sen”表示句子中平均单词数
参数设置:本发明模型的实验参数设置如下:英语预训练词向量具有400,000个词汇,单词向量的维数设置为300。BERTbase模型包括12层、768个隐藏单元、12个自注意头和110M参数。在训练过程中使用梯度下降训练方法和自适应学习率方法Adam。初始学习率设置为0.001。根据实验参数的调整,将权重β设置为0.6,γ设置为0.4。对于参数集规范的权重,λ1设置为0.5,λ2设置为0.8。Dropout率设置为0.5,训练Epoch设置为20。本研究中的所有模型均在PyTorch框架中实现。模型实验是在以下环境中完成的:Intel Xeon CPU E3-12303.4GHz,RAM 64.0GB和NVIDIA GeForce GTX 1080 8.0GB。
比较方法:(1)Non-transfer方法。非迁移法不应用任何情感迁移策略。具体来说,此方法在源领域带标签数据集DS上训练分层注意力网络,并使用目标领域带标签数据集作为开发集,目标领域不带标签数据集用作测试集。
(2)DTL方法。DTL方法采用模型迁移模型来处理短文本跨领域文本情感分类任务。源域训练数据可以为目标域网络提供初始参数,目标域中的训练数据可以有效地微调网络。(C.Zhao,S.Wang,D.Li,Deep transfer learning for social media cross-domainsentiment classification,in:Proceedings of the 2017 Chinese NationalConference on Social Media Processing,Springer,Springer Singapore,Singapore,2017,pp.232-243.)
(3)CCA方法。典型相关分析(CCA)将不同领域的特征映射到公共特征空间。特征学习可以有效地学习词嵌入,特征子空间映射可以学习独立于域的单词与目标独立于领域的单词之间的关联。(N.X.Bach,V.T.Hai,T.M.Phuong,Cross-domain sentimentclassification with word embeddings and canonical correlation analysis.in:Proceedings of the 7th Symposium on Information and Communication Technology,SoICT’16,Association for Computing Machinery,New York,NY,USA,2016,pp.159-166.)
(4)GAdaBEL方法。分组AdaBoost集成学习(GAdaBEL)通过融合标记的数据来提高目标领域数据的标记效果,并实现跨领域文本情感分类。(C.Zhao,S.Wang,D.Li,et al.,Cross-domain text sentiment classification based on grouping-adagoostensemble,Journal of Computer Research and Development 52(2015)629-638.)
(5)IATN方法。Zhang等人提出的交互式注意力迁移网络(IATN)用于跨领域文本情感分类任务。IATN结合了句子和方面注意学习机制,以查找跨领域的共享功能。(K.Zhang,H.Zhang,Q.Liu,H.Zhao,H.Zhu,E.Chen,Interactive attention transfer network forcross-domain sentiment classification,in:Proceedings of the AAAI Conferenceon Artificial Intelligence,volume 33,2019,pp.5773-5780)
(6)HATN方法。Li等人提出了分层注意力迁移网络(HATN)用于跨领域文本情感分类任务。HATN提供了一种分层的注意力迁移机制,该机制可以通过自动捕获中心和非中心特征来跨领域迁移情感注意力。(Z.Li,Y.Wei,Y.Zhang,Q.Yang,Hierarchical attentiontransfer network for cross-domain sentiment classification,in:Proceedings of22nd AAAI Conference on Artificial Intelligence,2018,pp.5852-5859.)
(7)CapsuleDAR方法。此方法将领域自适应机制和语义规则集成到胶囊网络中,以有效地提取和迁移域之间的共有知识。(B.Zhang,X.Xu,M.Yang,X.Chen,Y.Ye,Cross-domain sentiment classification by capsule network with semantic rules,IEEEAccess 6(2018)58284-58294.)
(8)WTN方法。Du等人提出了基于Wasserstein距离的迁移网络,WTN通过最小化Wasserstein距离使特征提取器可以在领域中获得共有特征。在编码时使用BERT来获取单词的上下文嵌入。(Y.Du,M.He,L.Wang,H.Zhang,Wasserstein based transfer networkfor cross-domain sentiment classification,Knowledge-Based Systems 204(2020)106162.)
(9)BERT-DAAT方法。Du等人介绍了用于跨域情感分析的对抗和领域感知BERT。它使用BERT后训练有效地利用了目标领域知识。(C.Du,H.Sun,J.Wang,Q.Qi,J.Liao,Adversarial and domain-aware BERT for cross-domain sentiment analysis,in:Proceedings of the 58th Annual Meeting of the Association for ComputationalLinguistics,Association for Computational Linguistics,Online,2020,pp.4019-4028.)
(10)PTASM-GloVe方法。基于参数迁移和注意力共享机制的跨领域文本情感方法(Parameter transferring and attention sharing mechanism,PTASM),使用GloVe词嵌入作为模型输入。
(11)PTASM-BERT方法。基于参数迁移和注意力共享机制的跨领域文本情感方法,使用带有预训练深度双向表示BERT的PTASM方法。
评价指标:本发明使用准确率用作评估比较方法和本发明提出的方法。
基于参数迁移和注意力共享机制的跨领域文本情感方法(Parametertransferring andattention sharing mechanism,PTASM)的有效性比较结果:
表2:比较方法与PTASM方法跨领域情感分类的准确率结果
表2中显示了比较方法与本发明提出的PTASM方法之间跨领域文本情感分类准确率的比较结果。由表2可以发现,实施情感迁移策略的效果总是比应用非迁移策略的效果更好。适当的情感迁移策略可提高跨领域情感分类的准确率,并且几乎不会对目标领域产生负面影响。例如,与非迁移Non-transfer方法相比,情感迁移方法(DTL、CCA、GAdaBEL、IATN、HATN、CapsuleDAR、PTASM-Glove和PTASM-BERT)将跨领域的平均准确率分别提高了0.015、0.037、0.052、0.118、0.125、0.145、0.136和0.170。
在同一目标领域下,不同的源领域通常会导致不同的迁移分类效果。在不同的领域相似性下,领域越相似,跨领域迁移的效果越好。例如,对于相似的Electronics和Kitchen领域,不同的迁移方法在E→K和K→E任务上取得了良好的效果。例如,PTASM-BERT方法在E→K和K→E任务上分别达到0.917和0.919的准确率。
与CCA、GAdaBEL和ITAN方法相比,PTASM-BERT方法分别将平均准确率提高了0.133、0.118和0.052。与使用特征子空间映射的CCA方法相比,PTASM方法探索了不同级别的神经网络之间迁移效果的差异。与实例迁移GAdaBEL方法相比,PTASM-BERT方法使用网络分层迁移策略,可以有效地迁移网络参数。与ITAN方法相比,PTASM方法采用了相互指导的策略。注意到ITAN方法有5000个源领域训练样本和1000个目标领域测试样本。PTASM-BERT方法引入注意力共享以进一步将情感表达的位置信息共享给目标领域。
与HATN和CapsuleDAR方法相比,PTASM-BERT方法在平均准确度提高了0.045和0.025。在PTASM中,参数迁移和情感注意共享可以更有效地迁移情感信息。参数迁移可以有效避免跨领域问题中数据标注不足和过度拟合的问题,注意力共享可以共享不同领域中情感表达的位置信息。
BERT迁移的比较:PTASM-BERT、WTN和BERT-DAAT方法结合了预训练模型和下游任务模型,并具有较大规模的无监督语料库和更深层次的结构。如表3所示,这三种方法结合了大规模预训练模型和模型迁移方法的优点,并且在亚马逊的跨领域数据集上获得了0.911、0.904和0.901的结果。PTASM-BERT在三种BERT预训练方法中均获得了最佳的平均准确度,这表明我们的方法具有较高的跨领域情感迁移效率。
三种使用BERT方法的迁移的准确性都高于PTASM-Glove方法,但是需要足够的硬件资源来支持模型。与上述模型相比,本发明提出的PTASM-Glove方法是一种轻量级模型,在资源匮乏的情况下仍具有优势。例如,有限的内存,更长的待处理文本数据以及更快的推理时间。
表3:使用PTASM和BERT方法在跨领域情感分类中的准确率结果。
迁移层次(词层面和句子层面)的影响:为了测试不同迁移层次的影响,本发明比较了在单词级别(Word-level)和句子级别(Sentence-level)对参数迁移和注意力共享的影响。表4列出了不同层次和不同任务下的跨领域情感分类实验结果。如表4所示,单词层面迁移方法比句子层面迁移方法准确率高0.011,可以发现较低级别的迁移更有利。与单词和句子级方法相比,PTASM-BERT方法分别将平均准确度提高了0.020和0.031。这表明,通过同时迁移单词和句子级别的参数和注意力,可以达到最佳效果。
表4:不同层次和不同任务下的跨领域情感分类结果
损失函数中注意力权重对于跨领域准确率的影响:损失函数中注意力权重在不同级别上的影响如图4所示。词级别注意相似度β的权重设置为[0.2:0.8],句子级注意相似度的权重为γ设置为[0.2:0.8]。由图4可以观察到精度最高的最佳参数设置是(β=0.6,γ=0.4),(β=0.6,γ=0.6),(β=0.8,γ=0.6)和(β=0.6,β=0.4)。可以发现,不同的注意力权重在不同的数据集上的表现非常相似。同时,PTASM-BERT倾向于选择更高的单词级别注意权重。这表明更高的词级注意力可以提高PTASM-BERT的性能,并且单词级注意力更为重要。
训练Epoch数量对于跨领域准确率的影响:图5示出了具有不同任务和不同Epoch数量下跨领域情感分类准确率的变化。Epoch数量从5变为30,间隔值为5。如图5所示,在四个数据集中,不同Epoch数量下的准确率变化曲线相似。根据分类性能结果,分类精度随着Epoch数量的增加而增加。当超过最佳值时,精度的提高并不明显,这表明足够的训练样本可以提高模型鲁棒性。
案例研究和可视化:本发明提供了案例研究以定性评估所提出的方法。如图6所示,本发明展示了不同的注意力迁移方法PTASM-Glove和PTASM-BERT在Book领域迁移到DVD领域时情感注意力可视化,正面和负面的例子均来自DVD领域。可以发现,基于参数迁移和注意力机制共享机制可以很好地关注目标领域的情感关注。两种方法都可以很好地专注于DVD领域中的关键情感词,例如“excellent”、“love”和“cheat”。另外,通过对句子注意力的可视化表示,PTASM方法还可以很好地注意到句子的情感注意力。
综上所述,本发明针对跨领域文本情感分类任务提出了一种基于参数迁移和注意力共享机制的跨领域文本情感方法,该方法可实现跨领域的有效情感迁移。参数迁移可以迁移分层注意力网络的模型参数,注意力共享可以共享跨领域位置信息。对公开亚马逊产品评论数据集的实验表明,该方法可以有效地用于情感迁移,从而说明了在文本的特定领域情感分类任务中引入迁移学习的必要性。对于不同的预训练语言模型,本发明设计并比较了两种模型,即PTASM-Glove和PTASM-BERT。与大规模无监督语料库和更深层次的结构相比,PTASM-Glove是一种轻量级方法,可以更快地实现跨领域情感迁移。使用大规模预训练模型的PTASM-BERT方法可以实现更高的跨领域情感分类精度。通过案例研究,本发明提出的方法可以更好地专注于目标领域中的情感注意力。来自多个源领域的数据可以提供更丰富的训练数据,以训练更健壮的模型。本发明计划在多个源领域条件下研究情感迁移,以进一步提高有效性和鲁棒性。同时,目标领域中可能有大量未标记的数据。充分利用这些数据可以提高模型的鲁棒性,并提高跨域分类的准确性。
本文结合说明书附图和具体实施例进行阐述只是用于帮助理解本发明的方法和核心思想。本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员依据本发明的方法和思想得出的其它实施方式,同样属于本发明的技术创新范围。本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法,其特征在于,包括以下步骤:
S1,基于参数迁移和注意力共享机制(Parameter transferring and attentionsharing mechanism,PTASM)的可迁移神经网络体系,具体包括源领域网络(Source domainnetwork)和目标领域网络(Target domain network)。源领域网络和目标领域网络具有相似的网络结构。它们包括单词序列层和编码层、单词注意力层、句子序列层和编码层、句子注意力层以及情感分类层;
S2,分层注意力网络(Hierarchical attentional network,HAN)重视文档中的局部语义,并采用双向门控循环单元(Gated recurrent neural networks,GRU)学习单词和句子的表示形式。文档x由数个句子s组成,s由数个单词w组成,并且词w表示为固定维度的单词向量。通过文档级分布式表示可以有效地捕捉情感语义特征;
S4,将情感注意力视为一组映射,对分层注意力网络输入最重要的单词或句子经过编码以确定其最终输出。使用源领域带标签数据DS和目标领域带标签数据获取与文档中的情感类别相关的位置信息,将此类信息视为情感注意力,并通过编码和解码过程在DS和上共享它们。采用注意力共享机制,将情感注意力信息共享到未标记的目标领域数据
2.根据权利要求1所述的一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法,其特征在于,所述步骤S1包括:
S11,对源领域带标签数据DS和目标领域带标签数据进行预处理,然后执行单词向量化。随后,构建分层注意力网络(Hierarchical attentional network,HAN)模型,然后分别在源领域带标签数据DS和目标领域带标签数据上进行特征提取,以获得文本数据的分布式表示形式;
S12,词级匹配网络包括正向和反向门控循环单元层(Gated recurrent neuralnetwork,GRU),这些层旨在获得句子的情感语义表示。同样,句子级网络包含正向和反向的门控循环单元层,可以通过引入句子级注意力来提供文档的最终表示。网络输出是积极或消极的文本情感倾向;
3.根据权利要求1所述的一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法,其特征在于,所述步骤S2包括:
S21,单词序列和编码层。在第i个句子si中,
xit=Ewit,t∈[1,...,N]
其中N是si中的单词数;
S22,单词注意力层。此发明引入注意机制来提取这些重要单词的表示并将其编码为句子向量表示。
uit=tan h(Wwhit+bw)
其中uit是注意力得分,它衡量与si的情感极性的相关性。归一化的重要性权重αit是通过Softmax函数获得的。单词上下文向量uw在训练过程中被随机初始化并共同学习;
S23,句子序列和编码层。si是通过单词向量的注意力加权总和获得的表示。
si=∑tαithit
向前和向后的GRU层是
S24,句子注意力层。引入句子级上下文向量us来衡量句子的重要性:
ui==tanh(Wshi+bS)
其中ui是句子的注意力得分,它衡量句子对文本总体情感极性的贡献程度;
S25,情感分类层。
其中d是文档向量,它是通过加权所有句子表示向量的平均值获得的。
Softmax函数用于情感分类输出层。引入Dropout机制以防止过拟合。
其中Wc和bc是Softmax层的参数。
交叉熵损失函数定义如下:
6.根据权利要求1所述的一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法,其特征在于,步骤S5还包括:
S51,一种基于参数迁移和注意力共享机制的跨领域文本情感分类模型的总损失函数为
其中,Lsen-source是在源领域带标签数据集DS的情感分类损失,Lsen-targrt是目标领域带标签数据集的情感分类损失,β是词级相似度Lword-attention的权重,γ是句子相似度Lsen-attention的权重,且β,γ∈[0,1]。是广义Frobenius范数,而λ1和λ2分别是DS和的参数集范数的权重;
S52,源领域中带标签数据训练仅更新模型的左半部分,源领域网络最佳参数WS直接迁移到目标领域DT;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110667720.3A CN113326378B (zh) | 2021-06-16 | 2021-06-16 | 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110667720.3A CN113326378B (zh) | 2021-06-16 | 2021-06-16 | 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113326378A true CN113326378A (zh) | 2021-08-31 |
CN113326378B CN113326378B (zh) | 2022-09-06 |
Family
ID=77423251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110667720.3A Active CN113326378B (zh) | 2021-06-16 | 2021-06-16 | 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113326378B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118273A (zh) * | 2021-11-24 | 2022-03-01 | 南开大学 | 一种基于标签和文本块注意力机制的极限多标签分类数据增强方法 |
CN114359629A (zh) * | 2021-12-20 | 2022-04-15 | 桂林理工大学 | 一种基于深度迁移学习的肺炎x胸片分类识别方法 |
CN114647724A (zh) * | 2022-02-22 | 2022-06-21 | 广东外语外贸大学 | 一种基于MPNet、Bi-LSTM和宽度学习的多源跨领域情绪分类方法 |
CN114757183A (zh) * | 2022-04-11 | 2022-07-15 | 北京理工大学 | 一种基于对比对齐网络的跨领域情感分类方法 |
CN115495572A (zh) * | 2022-08-01 | 2022-12-20 | 广州大学 | 一种基于复合情绪分析的抑郁情绪辅助管理方法 |
CN117150024A (zh) * | 2023-10-27 | 2023-12-01 | 北京电子科技学院 | 一种跨领域细粒度情感分析方法、系统、设备和存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133038A (zh) * | 2018-01-10 | 2018-06-08 | 重庆邮电大学 | 一种基于动态记忆网络的实体级别情感分类系统及方法 |
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN109753566A (zh) * | 2019-01-09 | 2019-05-14 | 大连民族大学 | 基于卷积神经网络的跨领域情感分析的模型训练方法 |
CN109993774A (zh) * | 2019-03-29 | 2019-07-09 | 大连理工大学 | 基于深度交叉相似匹配的在线视频目标跟踪方法 |
CN110851601A (zh) * | 2019-11-08 | 2020-02-28 | 福州大学 | 基于分层注意力机制的跨领域情感分类系统及方法 |
CN111428039A (zh) * | 2020-03-31 | 2020-07-17 | 中国科学技术大学 | 一种方面级别的跨领域情感分类方法及系统 |
CN111651576A (zh) * | 2020-05-29 | 2020-09-11 | 浙江大学 | 一种基于迁移学习的多轮阅读理解方法 |
CA3076424A1 (en) * | 2019-03-22 | 2020-09-22 | Royal Bank Of Canada | System and method for knowledge distillation between neural networks |
CN112446423A (zh) * | 2020-11-12 | 2021-03-05 | 昆明理工大学 | 一种基于迁移学习的快速混合高阶注意力域对抗网络的方法 |
CN112926324A (zh) * | 2021-02-05 | 2021-06-08 | 昆明理工大学 | 融合词典与对抗迁移的越南语事件实体识别方法 |
CN112927753A (zh) * | 2021-02-22 | 2021-06-08 | 中南大学 | 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法 |
-
2021
- 2021-06-16 CN CN202110667720.3A patent/CN113326378B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
CN108133038A (zh) * | 2018-01-10 | 2018-06-08 | 重庆邮电大学 | 一种基于动态记忆网络的实体级别情感分类系统及方法 |
CN109753566A (zh) * | 2019-01-09 | 2019-05-14 | 大连民族大学 | 基于卷积神经网络的跨领域情感分析的模型训练方法 |
CA3076424A1 (en) * | 2019-03-22 | 2020-09-22 | Royal Bank Of Canada | System and method for knowledge distillation between neural networks |
CN109993774A (zh) * | 2019-03-29 | 2019-07-09 | 大连理工大学 | 基于深度交叉相似匹配的在线视频目标跟踪方法 |
CN110851601A (zh) * | 2019-11-08 | 2020-02-28 | 福州大学 | 基于分层注意力机制的跨领域情感分类系统及方法 |
CN111428039A (zh) * | 2020-03-31 | 2020-07-17 | 中国科学技术大学 | 一种方面级别的跨领域情感分类方法及系统 |
CN111651576A (zh) * | 2020-05-29 | 2020-09-11 | 浙江大学 | 一种基于迁移学习的多轮阅读理解方法 |
CN112446423A (zh) * | 2020-11-12 | 2021-03-05 | 昆明理工大学 | 一种基于迁移学习的快速混合高阶注意力域对抗网络的方法 |
CN112926324A (zh) * | 2021-02-05 | 2021-06-08 | 昆明理工大学 | 融合词典与对抗迁移的越南语事件实体识别方法 |
CN112927753A (zh) * | 2021-02-22 | 2021-06-08 | 中南大学 | 一种基于迁移学习识别蛋白质和rna复合物界面热点残基的方法 |
Non-Patent Citations (1)
Title |
---|
柴玉梅 等: "基于双注意力机制和迁移学习的跨领域推荐模型", 《计算机学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114118273A (zh) * | 2021-11-24 | 2022-03-01 | 南开大学 | 一种基于标签和文本块注意力机制的极限多标签分类数据增强方法 |
CN114118273B (zh) * | 2021-11-24 | 2024-04-26 | 南开大学 | 一种基于标签和文本块注意力机制的极限多标签分类数据增强方法 |
CN114359629A (zh) * | 2021-12-20 | 2022-04-15 | 桂林理工大学 | 一种基于深度迁移学习的肺炎x胸片分类识别方法 |
CN114359629B (zh) * | 2021-12-20 | 2024-04-16 | 桂林理工大学 | 一种基于深度迁移学习的肺炎x胸片分类识别方法 |
CN114647724A (zh) * | 2022-02-22 | 2022-06-21 | 广东外语外贸大学 | 一种基于MPNet、Bi-LSTM和宽度学习的多源跨领域情绪分类方法 |
CN114757183A (zh) * | 2022-04-11 | 2022-07-15 | 北京理工大学 | 一种基于对比对齐网络的跨领域情感分类方法 |
CN114757183B (zh) * | 2022-04-11 | 2024-05-10 | 北京理工大学 | 一种基于对比对齐网络的跨领域情感分类方法 |
CN115495572A (zh) * | 2022-08-01 | 2022-12-20 | 广州大学 | 一种基于复合情绪分析的抑郁情绪辅助管理方法 |
CN115495572B (zh) * | 2022-08-01 | 2023-05-26 | 广州大学 | 一种基于复合情绪分析的抑郁情绪辅助管理方法 |
CN117150024A (zh) * | 2023-10-27 | 2023-12-01 | 北京电子科技学院 | 一种跨领域细粒度情感分析方法、系统、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113326378B (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | A survey of sentiment analysis based on transfer learning | |
CN113326378B (zh) | 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法 | |
Liu et al. | Attention-based BiGRU-CNN for Chinese question classification | |
CN109753566A (zh) | 基于卷积神经网络的跨领域情感分析的模型训练方法 | |
Zhang et al. | Cross-media retrieval with collective deep semantic learning | |
Huang et al. | Siamese network-based supervised topic modeling | |
Zhao et al. | Cross-domain sentiment classification via parameter transferring and attention sharing mechanism | |
Huang et al. | Dafd: Domain adaptation framework for fake news detection | |
Chen et al. | A survey of multi-label text classification based on deep learning | |
Lakizadeh et al. | Text sentiment classification based on separate embedding of aspect and context | |
Yang et al. | Text classification based on convolutional neural network and attention model | |
Wei et al. | A method for topic classification of web pages using LDA-SVM model | |
Meng et al. | Regional bullying text recognition based on two-branch parallel neural networks | |
Fang et al. | Multi-layer adversarial domain adaptation with feature joint distribution constraint | |
Asgarnezhad et al. | NSE: An effective model for investigating the role of pre-processing using ensembles in sentiment classification | |
Li et al. | Multi-model Fusion Attention Network for News Text Classification | |
Yun et al. | Combining vector space features and convolution neural network for text sentiment analysis | |
Sharma et al. | Emotion quantification and classification using the neutrosophic approach to deep learning | |
Zeng et al. | Weighted N-grams CNN for Text Classification | |
Sun et al. | Learning stance classification with recurrent neural capsule network | |
Moukafih et al. | Simscl: A simple fully-supervised contrastive learning framework for text representation | |
Zhang et al. | Revealing the power of BERT for text sentiment classification | |
Voerman et al. | Evaluation of neural network classification systems on document stream | |
Xu et al. | Multimodal fusion with global and local features for text classification | |
Sun et al. | Support vector machine equipped with deep convolutional features for product reviews classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |