CN114997175A - 一种基于领域对抗训练的情感分析方法 - Google Patents

一种基于领域对抗训练的情感分析方法 Download PDF

Info

Publication number
CN114997175A
CN114997175A CN202210529801.1A CN202210529801A CN114997175A CN 114997175 A CN114997175 A CN 114997175A CN 202210529801 A CN202210529801 A CN 202210529801A CN 114997175 A CN114997175 A CN 114997175A
Authority
CN
China
Prior art keywords
sequence
word
network
domain data
input character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210529801.1A
Other languages
English (en)
Inventor
刘欣刚
潘多
贺川圳
庄晓淦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210529801.1A priority Critical patent/CN114997175A/zh
Publication of CN114997175A publication Critical patent/CN114997175A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于领域对抗训练的情感分析方法,属于自然语言处理技术领域。本发明所述方法主要包括以下步骤:数据预处理与文本表示,构建对抗训练网络,设定对抗网络的初始参数并迭代更新,利用完成训练的网络对目标域数据中的所有输入文字序列进行序列标注。本发明所述方法利用领域对抗训练达到了模型跨域学习的目标,采用半监督的学习方式,通过为目标域无标记数据设置伪标签,使得教师网络与学生网络的学习能力趋于一致,从而提高模型对共享特征的提取能力。本发明所述方法利用语义距离动态加权和注意力机制相结合的方式,提高模型对领域特有特征的提取能力,最终使得模型在跨域场景下能达到良好的细粒度情感分类效果。

Description

一种基于领域对抗训练的情感分析方法
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于领域对抗训练的情感分析方法。
背景技术
随着互联网进程的推进,社交软件和线上媒体成为了重要的信息承载平台,积累了大量文本数据。充分挖掘和分析文本数据背后的情感倾向在舆情监督、电子商务、行为判别等多种领域发挥着至关重要的作用,能为决策提供指导性意见。随着信息技术的发展和应用场景的多元化,各种交叉复合型领域层出不穷。然而,新兴领域往往伴随着数据匮乏的问题,缺乏足够的标记数据使得深度学习模型无法发挥出最大效能。人工标注数据的方法不仅浪费大量的人力资源和时间成本,而且需要各环节的紧密配合,显得不够灵活和便捷。因此,利用现有领域的标注数据实现资源的最大化利用显得尤为关键。
根据分析对象的层级,情感分析方法可分为粗粒度情感分析方法和细粒度情感分析方法。粗粒度情感分析方法旨在根据篇章级别的文本信息判定整个文本的情感极性,分析不够细致且资源浪费率较高。细粒度情感分析方法则是根据输入文本中具体涉及的方面词判定对应的情感极性,因此会得到更为全面的分析结果。但是,由于粗粒度情感分析方法中可供参考的资源更为丰富,现有大多数跨领域情感分析方法是基于粗粒度完成的,对于基于细粒度的跨域情感分析的研究不足。领域对抗训练是一种迁移学习思想,基于对抗训练的神经网络一般包含特征提取器、领域分类器和任务分类器三个部分,特征提取器和领域分类器因为目标相反而导致整体网络会进行最小-最大化(min-max)博弈,由此提取出领域共享特征,实现知识迁移。然而,由于只将目标域的未标记数据用于领域分类,造成了一定程度的资源浪费,因此急需新方法解决上述问题。
发明内容
本发明的目的是针对现有技术对语义特征提取不充分和未对目标域数据进行最大化利用的技术问题,提供一种基于领域对抗训练的情感分析方法。
本发明所提出的技术问题是这样解决的:
一种基于领域对抗训练的情感分析方法,包括以下步骤:
S1:数据预处理与文本表示
源域数据和目标域数据分别作为输入文字序列集合,将输入文字序列集合中的每个输入文字序列拆分为上文部分、方面词部分和下文部分,对每个部分执行分词操作和词嵌入操作,获取词向量表示;
S2:构建对抗训练网络
构建对抗训练网络,对抗训练网络包括教师网络、学生网络和领域分类器;教师网络和学生网络的结构相同,均为依次连接的特征提取器和序列标注器,分别对输入数据进行特征提取和序列标注;领域分类器对输入数据进行领域鉴别;
S3:设定教师网络的初始参数
Figure BDA0003645722500000021
和学生网络的初始参数
Figure BDA0003645722500000022
令当前迭代次数Iter=1;
S4:将源域数据及进行预处理后的词向量表示输入至学生网络的特征提取器,获取源域数据的特征;将源域数据的特征输入至学生网络的序列标注器,获取源域数据中各词对应的序列分类概率分布和标注符号;将源域数据的特征输入至领域分类器,获取源域数据的领域类别标签;
将目标域数据及进行预处理后的词向量表示输入至学生网络的特征提取器,获取学生网络提取的目标域数据的特征,并输入至学生网络的序列标注器,获取学生网络预测的目标域数据中各词对应的序列分类概率分布和标注符号;将目标域数据的特征输入至领域分类器,获取目标域数据的领域类别标签;
将目标域数据及进行预处理后的词向量表示输入至教师网络的特征提取器,获取教师网络提取的目标域数据的特征,并输入至教师网络的序列标注器,获取教师网络预测的目标域数据中各词对应的序列分类概率分布和标注符号,教师网络预测的目标域数据中各词对应的标注符号作为伪标签;
S5:根据教师网络输出的序列分类概率分布设定掩码矩阵Mpq进行过滤;
S6:计算学生网络的序列标注损失函数Llabel、领域分类器的交叉熵损失函数Ldom和基于伪标签修正的一致性损失函数Lmse
S7:通过优化Llabel和Lmse更新学生网络中序列标注器的参数,通过优化Ldom更新领域分类器的参数,通过最小化三者之和L更新学生网络中特征提取器的参数;更新后的学生网络参数
Figure BDA0003645722500000023
为更新后学生网络中序列标注器的参数与更新后学生网络中特征提取器的参数的组合;
S8:利用学生网络参数
Figure BDA0003645722500000024
的指数移动均值更新教师网络参数
Figure BDA0003645722500000025
S9:判断两次迭代之间的L值的差值是否小于设定精度阈值,若否,令当前迭代次数Iter=Iter+1,返回执行S4,若是,完成训练,记录当前教师网络参数;
S10:利用完成训练的教师网络对目标域数据中的所有输入文字序列进行序列标注。
进一步的,S1的具体过程为:
S1.1:对于每个输入文字序列,根据方面词的位置将输入文字序列拆分为上文部分、方面词部分和下文部分,上文部分为位于方面词左边的部分序列,下文部分为位于方面词右边的部分序列;
S1.2:分别对上文部分、方面词部分和下文部分进行分词,得到各部分对应的词元;
S1.3:对各部分对应的词元分别进行词嵌入操作,生成各部分对应的词向量表示。
进一步的,对抗训练网络中,特征提取器包含依次连接的语义动态加权层、BiLSTM网络和注意力层;特征提取器对输入文字序列及预处理后的词向量表示进行处理的具体过程为:
步骤1:语义动态加权层解析输入文字序列对应的依存句法树,计算上文部分和下文部分在依存句法树中对应的节点与方面词节点间的语义相对距离:
Figure BDA0003645722500000031
其中,SRDi表示第i个节点与方面词节点间的语义相对距离,pa表示依存句法树中方面词节点的中心位置,m表示方面词的序列长度,| |表示取绝对值,
Figure BDA0003645722500000032
表示向下取整;
步骤2:语义动态加权层根据语义相对距离生成不同的权重来表示上文部分和下文部分中各词对于情感判别的重要程度,第i个节点对应词的权重wi为:
Figure BDA0003645722500000033
其中,I表示全为1的向量,维度与第i个节点对应词的词向量维度相同;α为设定的语义相对距离阈值,N表示输入文字序列的序列长度;
语义动态加权层使用权重wi对上文部分和下文部分的词向量表示进行动态加权;
步骤3:将动态加权后的上文部分的词向量表示、方面词的词向量表示和动态加权后的下文部分的词向量分别输入BiLSTM网络中,获取上文部分、方面词部分和下文部分的语义相关性特征;
步骤4:注意力层首先将上文部分、方面词部分和下文部分的语义相关性特征两两组合,得到三个组合,然后对于每个组合执行以下步骤:
构造当前组合中两者的相关性矩阵M:
M=σ(H1H2 T)
其中,σ表示激活函数,H1和H2分别表示当前组合中的两部分的语义相关性特征,上标T表示转置;
对M分别按列和行执行softmax操作,得到H2相对于H1中各个词的相关性权重ω1和H1相对于H2中各个词的相关性权重ω2,使用ω1和ω2分别对H1H2 T和H2H1 T加权,得到H2相对于H1的相关性表示V1和H1相对于H2的相关性表示V2
对V1和V2再次执行softmax操作,得到H1和H2对应的注意力权重a1和a2,使用a1和a2分别对H1和H2加权,得到融合注意力的特征;
将三个组合对应的融合注意力的特征进行拼接,得到输入文字序列对应的特征。
进一步的,对抗训练网络中,序列标注器为第一分类网络,分类网络由全连接层和softmax函数构成;输入文字序列对应的特征输入至第一分类网络,得到输入文字序列的标注符号;
输入文字序列对应的特征输入至第一分类网络,得到序列分类概率分布:
yj=softmax(WyXj+by)
其中,yj表示输入文字序列中第j个词的序列分类概率,Wy和by分别表示第一分类网络中全连接层的权重矩阵和偏置项;softmax表示softmax函数,Xj表示输入文字序列中第j个词对应的特征;
通过序列分类概率确定输入文字序列中各词对应的标注符号,标注符号将同时指示当前词是否为方面词以及方面词的情感极性。
进一步的,对抗训练网络中,领域分类器为依次连接的梯度反转层和第二分类网络,输入文字序列对应的特征输入至领域分类器,得到领域类别标签:
Figure BDA0003645722500000041
其中,
Figure BDA0003645722500000042
表示当前输入文字序列对应的预测领域类别标签,Wdc和bdc分别表示第二分类网络中全连接层的权重矩阵和偏置项,Rλ表示梯度反转层函数,X表示输入文字序列对应的特征。
进一步的,S5中,掩码矩阵Mpq为:
Figure BDA0003645722500000043
其中,max表示取最大值,
Figure BDA0003645722500000044
代表教师网络中的序列标注器计算出目标域数据中第p个输入文字序列中的第q个词的序列分类概率分布;
Figure BDA0003645722500000045
则表示目标域数据中第p个输入文字序列中的第q个词的伪标签;将伪标签集合按照伪标签是否指示为方面词分为两个伪标签子集,αl'表示伪标签子集yl'的置信度阈值,l'=1,2。
进一步的,S6中,学生网络的序列标注损失函数Llabel、领域分类器的交叉熵损失函数Ldom和基于伪标签修正的一致性损失函数Lmse分别为:
Figure BDA0003645722500000051
Figure BDA0003645722500000052
Figure BDA0003645722500000053
其中,1≤n≤Ns,Ns为源域数据中输入文字序列数目;1≤p≤Nt,Nt为目标域数据的输入文字序列数目;TWn表示源域数据中第n个输入文字序列的词总数;lnk为源域数据中第n个输入文字序列第k个词对应的标注符号;
Figure BDA0003645722500000054
为学生网络中的序列标注器计算出源域数据中第n个输入文字序列第k个词的概率分布;1≤l≤Ns+Nt
Figure BDA0003645722500000055
表示领域分类器预测的源域数据和目标域数据中第l个输入文字序列的预测领域类别标签,dl表示源域数据和目标域数据中第l个输入文字序列的真实领域类别标签;1≤q≤TWp,TWp表示目标域数据中第p个输入文字序列中的词总数;
Figure BDA0003645722500000056
表示学生网络中的序列标注器计算出目标域数据中第p个输入文字序列中的第q个词的概率分布;|| ||2表示求二范数平方。
进一步的,S7中,三者之和L表示为:
L=LlabeldomLdommseLmse
其中,λdom和λmse是控制Ldom和Lmse相对平衡的超参数。
进一步的,S8中,利用学生网络参数
Figure BDA0003645722500000057
的指数移动均值更新教师网络参数
Figure BDA0003645722500000058
Figure BDA0003645722500000059
其中,μ为调整系数。
本发明的有益效果是:
本发明所述方法利用领域对抗训练达到了模型跨域学习的目标,采用半监督的学习方式,通过为目标域无标记数据设置伪标签,使得教师网络与学生网络的学习能力趋于一致,从而提高模型对共享特征的提取能力。此外,本发明所述方法利用语义距离动态加权和注意力机制相结合的方式,提高模型对领域特有特征的提取能力,最终使得模型在跨域场景下能达到良好的细粒度情感分类效果。
附图说明
图1为本发明所述方法中对抗训练网络的结构示意图;
图2为本发明所述方法中特征提取器的结构示意图;
图3为本发明所述方法中领域分类器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明进行进一步的说明。
本实施例提供一种基于领域对抗训练的情感分析方法,包括以下步骤:
S1:数据预处理与文本表示
源域数据和目标域数据分别作为输入文字序列集合,源域数据为带有标注符号的数据,目标域数据不带有标注符号;
将输入文字序列集合中的每个输入文字序列拆分为上文部分、方面词部分和下文部分,针对每个部分执行分词操作和词嵌入操作,获取词向量表示;
S1的具体过程为:
S1.1:对于每个输入文字序列,根据方面词的位置将输入文字序列拆分为上文部分、方面词部分和下文部分,上文部分为位于方面词左边的部分序列,下文部分为位于方面词右边的部分序列;
S1.2:分别对上文部分、方面词部分和下文部分进行分词,得到各部分对应的词元;
S1.3:对各部分对应的词元分别进行词嵌入操作,生成各部分对应的词向量表示。
S2:构建对抗训练网络
构建对抗训练网络,其结构示意图如图1所示,对抗训练网络包括教师网络、学生网络和领域分类器;教师网络和学生网络的结构相同,均为依次连接的特征提取器和序列标注器,分别对输入数据进行特征提取和序列标注;领域分类器对输入数据进行领域鉴别;
对抗训练网络中,特征提取器的结构示意图如图2所示,包含依次连接的语义动态加权层、BiLSTM网络和注意力层;基于语义相对距离对上下文部分进行动态加权,使用BiLSTM网络提取加权后各部分的语义信息,结合注意力机制提取词级别的交互信息;
特征提取器对输入文字序列及预处理后的词向量表示进行处理的具体过程为:
步骤1:语义动态加权层解析输入文字序列对应的依存句法树,衡量依存句法树中各个节点之间的语义相关性,计算上文部分和下文部分在依存句法树中对应的节点与方面词节点间的语义相对距离:
Figure BDA0003645722500000071
其中,SRDi表示第i个节点与方面词节点间的语义相对距离,pa表示依存句法树中方面词节点的中心位置,m表示方面词的序列长度,| |表示取绝对值,
Figure BDA0003645722500000072
表示向下取整;
步骤2:为了削弱与情感判别无关的词带来的负面影响,语义动态加权层需要对上文部分和下文部分进行处理,即根据语义相对距离生成不同的权重来表示上文部分和下文部分中各词对于情感判别的重要程度,第i个节点对应词的权重wi为:
Figure BDA0003645722500000073
其中,I表示全为1的向量,维度与第i个节点对应词的词向量维度相同;α为设定的语义相对距离阈值,N表示输入文字序列的序列长度;
语义动态加权层使用权重wi对上文部分和下文部分的词向量表示进行动态加权;
步骤3:为了同时获取输入文字序列的前向信息和后向信息,融合更丰富的语义特征,将动态加权后的上文部分的词向量表示、方面词的词向量表示和动态加权后的下文部分的词向量分别输入BiLSTM网络中,获取上文部分、方面词部分和下文部分的语义相关性特征;
步骤4:注意力层首先将上文部分、方面词部分和下文部分的语义相关性特征两两组合,得到三个组合,然后对于每个组合执行以下步骤:
构造当前组合中两者的相关性矩阵M:
M=σ(H1H2 T)
其中,σ表示激活函数,H1和H2分别表示当前组合中的两部分的语义相关性特征,上标T表示转置;
对M分别按列和行执行softmax操作,得到H2相对于H1中各个词的相关性权重ω1和H1相对于H2中各个词的相关性权重ω2,使用ω1和ω2分别对H1H2 T和H2H1 T加权,得到H2相对于H1的相关性表示V1和H1相对于H2的相关性表示V2
对V1和V2再次执行softmax操作,得到H1和H2对应的注意力权重a1和a2,使用a1和a2分别对H1和H2加权,得到融合注意力的特征;
将三个组合对应的融合注意力的特征进行拼接,得到输入文字序列对应的特征。
对抗训练网络中,序列标注器为第一分类网络,分类网络由全连接层和softmax函数构成;输入文字序列对应的特征输入至第一分类网络,得到输入文字序列的标注符号;
输入文字序列对应的特征输入至第一分类网络,得到序列分类概率分布:
yj=softmax(WyXj+by)
其中,yj表示输入文字序列中第j个词的序列分类概率,Wy和by分别表示第一分类网络中全连接层的权重矩阵和偏置项;softmax表示softmax函数,Xj表示输入文字序列中第j个词对应的特征;
通过序列分类概率确定输入文字序列中各词对应的标注符号,标注符号将同时指示当前词是否为方面词以及方面词的情感极性(若当前词为方面词)。
对抗训练网络中,领域分类器的结构示意图如图3所示,为依次连接的梯度反转层和第二分类网络,输入文字序列对应的特征输入至领域分类器,对输入文字序列进行领域鉴别;
输入文字序列对应的特征输入至领域分类器,得到领域类别标签:
Figure BDA0003645722500000081
其中,
Figure BDA0003645722500000082
表示当前输入文字序列对应的预测领域类别标签,Wdc和bdc分别表示第二分类网络中全连接层的权重矩阵和偏置项,Rλ表示梯度反转层函数,X表示输入文字序列对应的特征。
S3:设定教师网络的初始参数
Figure BDA0003645722500000083
和学生网络的初始参数
Figure BDA0003645722500000084
令当前迭代次数Iter=1,开始迭代;
S4:将源域数据及进行预处理后的词向量表示输入至学生网络的特征提取器,获取源域数据的特征;将源域数据的特征输入至学生网络的序列标注器,获取源域数据中各词对应的标注符号;将源域数据的特征输入至领域分类器,获取源域数据的领域类别标签;
将目标域数据及进行预处理后的词向量表示输入至学生网络的特征提取器,获取学生网络提取的目标域数据的特征,并输入至学生网络的序列标注器,获取学生网络预测的目标域数据中各词对应的标注符号;将目标域数据的特征输入至领域分类器,获取目标域数据的领域类别标签;
将目标域数据及进行预处理后的词向量表示输入至教师网络的特征提取器,获取教师网络提取的目标域数据的特征,并输入至教师网络的序列标注器,获取教师网络预测的目标域数据中各词对应的标注符号作为伪标签;
S5:根据教师网络输出的序列分类概率分布与置信度阈值的比较结果设计掩码矩阵Mpq进行过滤:
Figure BDA0003645722500000085
其中,max表示取最大值,
Figure BDA0003645722500000091
代表教师网络中的序列标注器计算出目标域数据中第p个输入文字序列中的第q个词的序列分类概率分布;
Figure BDA0003645722500000092
则表示目标域数据中第p个输入文字序列中的第q个词的伪标签;将伪标签集合按照伪标签是否指示为方面词分为两个伪标签子集,αl'表示伪标签子集yl'的置信度阈值,l'=1,2。
为了合理地设置伪标签,避免标注符号分布不均衡导致模型偏向于预测占比大的标注符号,可从解决数据分布不平衡的角度出发,根据教师网络输出的序列分类概率分布对教师网络生成的伪标签集进行子集划分。
S6:在前向传播阶段,计算学生网络的序列标注损失函数Llabel、领域分类器的交叉熵损失函数Ldom和基于伪标签修正的一致性损失函数Lmse
Figure BDA0003645722500000093
Figure BDA0003645722500000094
Figure BDA0003645722500000095
其中,1≤n≤Ns,Ns为源域数据中输入文字序列数目;1≤p≤Nt,Nt为目标域数据的输入文字序列数目;TWn表示源域数据中第n个输入文字序列的词总数;lnk为源域数据中第n个输入文字序列第k个词对应的标注符号;
Figure BDA0003645722500000096
为学生网络中的序列标注器计算出源域数据中第n个输入文字序列第k个词的概率分布;1≤l≤Ns+Nt
Figure BDA0003645722500000097
表示领域分类器预测的源域数据和目标域数据中第l个输入文字序列的预测领域类别标签,dl表示源域数据和目标域数据中第l个输入文字序列的真实领域类别标签;1≤q≤TWp,TWp表示目标域数据中第p个输入文字序列中的词总数;
Figure BDA0003645722500000098
表示学生网络中的序列标注器计算出目标域数据中第p个输入文字序列中的第q个词的概率分布;|| ||2表示求二范数平方。
S7:在反向传播阶段,通过优化Llabel和Lmse更新学生网络中序列标注器的参数,通过优化Ldom更新领域分类器的参数,通过最小化三者之和L更新学生网络中特征提取器的参数:
L=LlabeldomLdommseLmse
其中,λdom和λmse是控制Ldom和Lmse相对平衡的超参数;
更新后的学生网络参数
Figure BDA0003645722500000101
为更新后学生网络中序列标注器的参数与更新后学生网络中特征提取器的参数的组合;
S8:利用学生网络参数
Figure BDA0003645722500000102
的指数移动均值更新教师网络参数
Figure BDA0003645722500000103
Figure BDA0003645722500000104
其中,μ为调整系数;
S9:判断两次迭代之间的L值的差值是否小于设定精度阈值,若否,令当前迭代次数Iter=Iter+1,返回执行S4,若是,完成训练,记录当前教师网络参数。
S10:利用完成训练的教师网络对目标域数据中的所有输入文字序列进行序列标注。
表1不同模型在基准数据集上的跨域细粒度情感分析性能(%)
Figure BDA0003645722500000105
本实施例中,在被广泛用于评测模型跨域细粒度情感分类效果的包含Restaurant(R)、Laptop(L)、Device(D)和Service(S)四个领域的公开数据集上进行测试,共构建10组迁移对以表示10个迁移任务。训练过程中,本方法所提模型DATM(Domain-AdversarialTraining based Model)使用Adam算法进行优化,学习率设置为1e-3。所有权重矩阵和偏置项从均匀分布U(-0.01,0.01)中随机抽样以初始化。其他参数手动调整以获得最佳性能。本发明所提方法与其他基线方法的对比试验结果如表1所示。最终结果显示,本方法在大多数迁移对上均拥有最优效果,平均微F1分数相较于目前最先进基线方法之一的AD-SAL取得了0.64%的增益效果,相较于先进基线方法Hier-Joint和RNSCN取得了11.56%和9.36%的增益效果,超出传统基线方法TCRF约20%。综上所述,本发明方法可在由细粒度情感分析数据集构成的迁移任务中,实现更好的跨域分析效果,并且可以扩展至资源更丰富的粗粒度情感分析任务,具有良好的应用前景。

Claims (9)

1.一种基于领域对抗训练的情感分析方法,其特征在于,包括以下步骤:
S1:数据预处理与文本表示
源域数据和目标域数据分别作为输入文字序列集合,将输入文字序列集合中的每个输入文字序列拆分为上文部分、方面词部分和下文部分,对每个部分执行分词操作和词嵌入操作,获取词向量表示;
S2:构建对抗训练网络
构建对抗训练网络,对抗训练网络包括教师网络、学生网络和领域分类器;教师网络和学生网络的结构相同,均为依次连接的特征提取器和序列标注器,分别对输入数据进行特征提取和序列标注;领域分类器对输入数据进行领域鉴别;
S3:设定教师网络的初始参数
Figure FDA0003645722490000011
和学生网络的初始参数
Figure FDA0003645722490000012
令当前迭代次数Iter=1;
S4:将源域数据及进行预处理后的词向量表示输入至学生网络的特征提取器,获取源域数据的特征;将源域数据的特征输入至学生网络的序列标注器,获取源域数据中各词对应的序列分类概率分布和标注符号;将源域数据的特征输入至领域分类器,获取源域数据的领域类别标签;
将目标域数据及进行预处理后的词向量表示输入至学生网络的特征提取器,获取学生网络提取的目标域数据的特征,并输入至学生网络的序列标注器,获取学生网络预测的目标域数据中各词对应的序列分类概率分布和标注符号;将目标域数据的特征输入至领域分类器,获取目标域数据的领域类别标签;
将目标域数据及进行预处理后的词向量表示输入至教师网络的特征提取器,获取教师网络提取的目标域数据的特征,并输入至教师网络的序列标注器,获取教师网络预测的目标域数据中各词对应的序列分类概率分布和标注符号,教师网络预测的目标域数据中各词对应的标注符号作为伪标签;
S5:根据教师网络输出的序列分类概率分布设定掩码矩阵Mpq进行过滤;
S6:计算学生网络的序列标注损失函数Llabel、领域分类器的交叉熵损失函数Ldom和基于伪标签修正的一致性损失函数Lmse
S7:通过优化Llabel和Lmse更新学生网络中序列标注器的参数,通过优化Ldom更新领域分类器的参数,通过最小化三者之和L更新学生网络中特征提取器的参数;更新后的学生网络参数
Figure FDA0003645722490000013
为更新后学生网络中序列标注器的参数与更新后学生网络中特征提取器的参数的组合;
S8:利用学生网络参数
Figure FDA0003645722490000021
的指数移动均值更新教师网络参数
Figure FDA0003645722490000022
S9:判断两次迭代之间的L值的差值是否小于设定精度阈值,若否,令当前迭代次数Iter=Iter+1,返回执行S4,若是,完成训练,记录当前教师网络参数;
S10:利用完成训练的教师网络对目标域数据中的所有输入文字序列进行序列标注。
2.根据权利要求1所述的基于领域对抗训练的情感分析方法,其特征在于,S1的具体过程为:
S1.1:对于每个输入文字序列,根据方面词的位置将输入文字序列拆分为上文部分、方面词部分和下文部分,上文部分为位于方面词左边的部分序列,下文部分为位于方面词右边的部分序列;
S1.2:分别对上文部分、方面词部分和下文部分进行分词,得到各部分对应的词元;
S1.3:对各部分对应的词元分别进行词嵌入操作,生成各部分对应的词向量表示。
3.根据权利要求2所述的基于领域对抗训练的情感分析方法,其特征在于,对抗训练网络中,特征提取器包含依次连接的语义动态加权层、BiLSTM网络和注意力层;特征提取器对输入文字序列及预处理后的词向量表示进行处理的具体过程为:
步骤1:语义动态加权层解析输入文字序列对应的依存句法树,计算上文部分和下文部分在依存句法树中对应的节点与方面词节点间的语义相对距离:
Figure FDA0003645722490000023
其中,SRDi表示第i个节点与方面词节点间的语义相对距离,pa表示依存句法树中方面词节点的中心位置,m表示方面词的序列长度,| |表示取绝对值,
Figure FDA0003645722490000024
表示向下取整;
步骤2:语义动态加权层根据语义相对距离生成不同的权重来表示上文部分和下文部分中各词对于情感判别的重要程度,第i个节点对应词的权重wi为:
Figure FDA0003645722490000025
其中,I表示全为1的向量,维度与第i个节点对应词的词向量维度相同;α为设定的语义相对距离阈值,N表示输入文字序列的序列长度;
语义动态加权层使用权重wi对上文部分和下文部分的词向量表示进行动态加权;
步骤3:将动态加权后的上文部分的词向量表示、方面词的词向量表示和动态加权后的下文部分的词向量分别输入BiLSTM网络中,获取上文部分、方面词部分和下文部分的语义相关性特征;
步骤4:注意力层首先将上文部分、方面词部分和下文部分的语义相关性特征两两组合,得到三个组合,然后对于每个组合执行以下步骤:
构造当前组合中两者的相关性矩阵M:
M=σ(H1H2 T)
其中,σ表示激活函数,H1和H2分别表示当前组合中的两部分的语义相关性特征,上标T表示转置;
对M分别按列和行执行softmax操作,得到H2相对于H1中各个词的相关性权重ω1和H1相对于H2中各个词的相关性权重ω2,使用ω1和ω2分别对H1H2 T和H2H1 T加权,得到H2相对于H1的相关性表示V1和H1相对于H2的相关性表示V2
对V1和V2再次执行softmax操作,得到H1和H2对应的注意力权重a1和a2,使用a1和a2分别对H1和H2加权,得到融合注意力的特征;
将三个组合对应的融合注意力的特征进行拼接,得到输入文字序列对应的特征。
4.根据权利要求3所述的基于领域对抗训练的情感分析方法,其特征在于,对抗训练网络中,序列标注器为第一分类网络,分类网络由全连接层和softmax函数构成;输入文字序列对应的特征输入至第一分类网络,得到输入文字序列的标注符号;
输入文字序列对应的特征输入至第一分类网络,得到序列分类概率分布:
yj=softmax(WyXj+by)
其中,yj表示输入文字序列中第j个词的序列分类概率,Wy和by分别表示第一分类网络中全连接层的权重矩阵和偏置项;softmax表示softmax函数,Xj表示输入文字序列中第j个词对应的特征;
通过序列分类概率确定输入文字序列中各词对应的标注符号,标注符号将同时指示当前词是否为方面词以及方面词的情感极性。
5.根据权利要求4所述的基于领域对抗训练的情感分析方法,其特征在于,对抗训练网络中,领域分类器为依次连接的梯度反转层和第二分类网络,输入文字序列对应的特征输入至领域分类器,得到领域类别标签:
Figure FDA0003645722490000031
其中,
Figure FDA0003645722490000032
表示当前输入文字序列对应的预测领域类别标签,Wdc和bdc分别表示第二分类网络中全连接层的权重矩阵和偏置项,Rλ表示梯度反转层函数,X表示输入文字序列对应的特征。
6.根据权利要求5所述的基于领域对抗训练的情感分析方法,其特征在于,S5中,掩码矩阵Mpq为:
Figure FDA0003645722490000041
其中,max表示取最大值,
Figure FDA0003645722490000042
代表教师网络中的序列标注器计算出目标域数据中第p个输入文字序列中的第q个词的序列分类概率分布;
Figure FDA0003645722490000043
则表示目标域数据中第p个输入文字序列中的第q个词的伪标签;将伪标签集合按照伪标签是否指示为方面词分为两个伪标签子集,αl′表示伪标签子集yl′的置信度阈值,l′=1,2。
7.根据权利要求6所述的基于领域对抗训练的情感分析方法,其特征在于,S6中,学生网络的序列标注损失函数Llabel、领域分类器的交叉熵损失函数Ldom和基于伪标签修正的一致性损失函数Lmse分别为:
Figure FDA0003645722490000044
Figure FDA0003645722490000045
Figure FDA0003645722490000046
其中,1≤n≤Ns,Ns为源域数据中输入文字序列数目;1≤p≤Nt,Nt为目标域数据的输入文字序列数目;TWn表示源域数据中第n个输入文字序列的词总数;lnk为源域数据中第n个输入文字序列第k个词对应的标注符号;
Figure FDA0003645722490000047
为学生网络中的序列标注器计算出源域数据中第n个输入文字序列第k个词的概率分布;1≤l≤Ns+Nt
Figure FDA0003645722490000048
表示领域分类器预测的源域数据和目标域数据中第l个输入文字序列的预测领域类别标签,dl表示源域数据和目标域数据中第l个输入文字序列的真实领域类别标签;1≤q≤TWp,TWp表示目标域数据中第p个输入文字序列中的词总数;
Figure FDA0003645722490000049
表示学生网络中的序列标注器计算出目标域数据中第p个输入文字序列中的第q个词的概率分布;|| ||2表示求二范数平方。
8.根据权利要求7所述的基于领域对抗训练的情感分析方法,其特征在于,S7中,三者之和L表示为:
L=LlabeldomLdommseLmse
其中,λdom和λmse是控制Ldom和Lmse相对平衡的超参数。
9.根据权利要求8所述的基于领域对抗训练的情感分析方法,其特征在于,S8中,利用学生网络参数
Figure FDA0003645722490000051
的指数移动均值更新教师网络参数
Figure FDA0003645722490000052
Figure FDA0003645722490000053
其中,μ为调整系数。
CN202210529801.1A 2022-05-16 2022-05-16 一种基于领域对抗训练的情感分析方法 Pending CN114997175A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210529801.1A CN114997175A (zh) 2022-05-16 2022-05-16 一种基于领域对抗训练的情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210529801.1A CN114997175A (zh) 2022-05-16 2022-05-16 一种基于领域对抗训练的情感分析方法

Publications (1)

Publication Number Publication Date
CN114997175A true CN114997175A (zh) 2022-09-02

Family

ID=83028113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210529801.1A Pending CN114997175A (zh) 2022-05-16 2022-05-16 一种基于领域对抗训练的情感分析方法

Country Status (1)

Country Link
CN (1) CN114997175A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935188A (zh) * 2023-09-15 2023-10-24 腾讯科技(深圳)有限公司 模型训练方法、图像识别方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116935188A (zh) * 2023-09-15 2023-10-24 腾讯科技(深圳)有限公司 模型训练方法、图像识别方法、装置、设备及介质
CN116935188B (zh) * 2023-09-15 2023-12-26 腾讯科技(深圳)有限公司 模型训练方法、图像识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN112528676B (zh) 文档级别的事件论元抽取方法
CN111414461B (zh) 一种融合知识库与用户建模的智能问答方法及系统
CN108446271B (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN112800229B (zh) 基于知识图嵌入的涉案领域的半监督方面级情感分析方法
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN113392209A (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN114722805B (zh) 基于大小导师知识蒸馏的少样本情感分类方法
CN113988079A (zh) 一种面向低数据的动态增强多跳文本阅读识别处理方法
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN112364743A (zh) 一种基于半监督学习和弹幕分析的视频分类方法
CN115270797A (zh) 一种基于自训练半监督学习的文本实体抽取方法及系统
CN109670169B (zh) 一种基于特征提取的深度学习情感分类方法
CN114997175A (zh) 一种基于领域对抗训练的情感分析方法
CN110222737A (zh) 一种基于长短时记忆网络的搜索引擎用户满意度评估方法
CN109409529A (zh) 一种事件认知分析方法、系统及存储介质
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Pavitra et al. Weakly supervised sentiment analysis using joint sentiment topic detection with bigrams
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
CN115658885A (zh) 文本智能标注方法、系统、智能终端及存储介质
CN115600595A (zh) 一种实体关系抽取方法、系统、设备及可读存储介质
CN114881172A (zh) 一种基于加权词向量和神经网络的软件漏洞自动分类方法
Chen et al. Hierarchical sequence representation with graph network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination