CN114997175A

CN114997175A - 一种基于领域对抗训练的情感分析方法

Info

Publication number: CN114997175A
Application number: CN202210529801.1A
Authority: CN
Inventors: 刘欣刚; 潘多; 贺川圳; 庄晓淦
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-09-02

Abstract

本发明公开了一种基于领域对抗训练的情感分析方法，属于自然语言处理技术领域。本发明所述方法主要包括以下步骤：数据预处理与文本表示，构建对抗训练网络，设定对抗网络的初始参数并迭代更新，利用完成训练的网络对目标域数据中的所有输入文字序列进行序列标注。本发明所述方法利用领域对抗训练达到了模型跨域学习的目标，采用半监督的学习方式，通过为目标域无标记数据设置伪标签，使得教师网络与学生网络的学习能力趋于一致，从而提高模型对共享特征的提取能力。本发明所述方法利用语义距离动态加权和注意力机制相结合的方式，提高模型对领域特有特征的提取能力，最终使得模型在跨域场景下能达到良好的细粒度情感分类效果。

Description

一种基于领域对抗训练的情感分析方法

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于领域对抗训练的情感分析方法。

背景技术

随着互联网进程的推进，社交软件和线上媒体成为了重要的信息承载平台，积累了大量文本数据。充分挖掘和分析文本数据背后的情感倾向在舆情监督、电子商务、行为判别等多种领域发挥着至关重要的作用，能为决策提供指导性意见。随着信息技术的发展和应用场景的多元化，各种交叉复合型领域层出不穷。然而，新兴领域往往伴随着数据匮乏的问题，缺乏足够的标记数据使得深度学习模型无法发挥出最大效能。人工标注数据的方法不仅浪费大量的人力资源和时间成本，而且需要各环节的紧密配合，显得不够灵活和便捷。因此，利用现有领域的标注数据实现资源的最大化利用显得尤为关键。

根据分析对象的层级，情感分析方法可分为粗粒度情感分析方法和细粒度情感分析方法。粗粒度情感分析方法旨在根据篇章级别的文本信息判定整个文本的情感极性，分析不够细致且资源浪费率较高。细粒度情感分析方法则是根据输入文本中具体涉及的方面词判定对应的情感极性，因此会得到更为全面的分析结果。但是，由于粗粒度情感分析方法中可供参考的资源更为丰富，现有大多数跨领域情感分析方法是基于粗粒度完成的，对于基于细粒度的跨域情感分析的研究不足。领域对抗训练是一种迁移学习思想，基于对抗训练的神经网络一般包含特征提取器、领域分类器和任务分类器三个部分，特征提取器和领域分类器因为目标相反而导致整体网络会进行最小-最大化(min-max)博弈，由此提取出领域共享特征，实现知识迁移。然而，由于只将目标域的未标记数据用于领域分类，造成了一定程度的资源浪费，因此急需新方法解决上述问题。

发明内容

本发明的目的是针对现有技术对语义特征提取不充分和未对目标域数据进行最大化利用的技术问题，提供一种基于领域对抗训练的情感分析方法。

本发明所提出的技术问题是这样解决的：

一种基于领域对抗训练的情感分析方法，包括以下步骤：

S1：数据预处理与文本表示

源域数据和目标域数据分别作为输入文字序列集合，将输入文字序列集合中的每个输入文字序列拆分为上文部分、方面词部分和下文部分，对每个部分执行分词操作和词嵌入操作，获取词向量表示；

S2：构建对抗训练网络

构建对抗训练网络，对抗训练网络包括教师网络、学生网络和领域分类器；教师网络和学生网络的结构相同，均为依次连接的特征提取器和序列标注器，分别对输入数据进行特征提取和序列标注；领域分类器对输入数据进行领域鉴别；

S3：设定教师网络的初始参数

和学生网络的初始参数

令当前迭代次数Iter＝1；

S4：将源域数据及进行预处理后的词向量表示输入至学生网络的特征提取器，获取源域数据的特征；将源域数据的特征输入至学生网络的序列标注器，获取源域数据中各词对应的序列分类概率分布和标注符号；将源域数据的特征输入至领域分类器，获取源域数据的领域类别标签；

将目标域数据及进行预处理后的词向量表示输入至学生网络的特征提取器，获取学生网络提取的目标域数据的特征，并输入至学生网络的序列标注器，获取学生网络预测的目标域数据中各词对应的序列分类概率分布和标注符号；将目标域数据的特征输入至领域分类器，获取目标域数据的领域类别标签；

将目标域数据及进行预处理后的词向量表示输入至教师网络的特征提取器，获取教师网络提取的目标域数据的特征，并输入至教师网络的序列标注器，获取教师网络预测的目标域数据中各词对应的序列分类概率分布和标注符号，教师网络预测的目标域数据中各词对应的标注符号作为伪标签；

S5：根据教师网络输出的序列分类概率分布设定掩码矩阵M_pq进行过滤；

S6：计算学生网络的序列标注损失函数L_label、领域分类器的交叉熵损失函数L_dom和基于伪标签修正的一致性损失函数L_mse；

S7：通过优化L_label和L_mse更新学生网络中序列标注器的参数，通过优化L_dom更新领域分类器的参数，通过最小化三者之和L更新学生网络中特征提取器的参数；更新后的学生网络参数

为更新后学生网络中序列标注器的参数与更新后学生网络中特征提取器的参数的组合；

S8：利用学生网络参数

的指数移动均值更新教师网络参数

S9：判断两次迭代之间的L值的差值是否小于设定精度阈值，若否，令当前迭代次数Iter＝Iter+1，返回执行S4，若是，完成训练，记录当前教师网络参数；

S10：利用完成训练的教师网络对目标域数据中的所有输入文字序列进行序列标注。

进一步的，S1的具体过程为：

S1.1：对于每个输入文字序列，根据方面词的位置将输入文字序列拆分为上文部分、方面词部分和下文部分，上文部分为位于方面词左边的部分序列，下文部分为位于方面词右边的部分序列；

S1.2：分别对上文部分、方面词部分和下文部分进行分词，得到各部分对应的词元；

S1.3：对各部分对应的词元分别进行词嵌入操作，生成各部分对应的词向量表示。

进一步的，对抗训练网络中，特征提取器包含依次连接的语义动态加权层、BiLSTM网络和注意力层；特征提取器对输入文字序列及预处理后的词向量表示进行处理的具体过程为：

步骤1：语义动态加权层解析输入文字序列对应的依存句法树，计算上文部分和下文部分在依存句法树中对应的节点与方面词节点间的语义相对距离：

其中，SRD_i表示第i个节点与方面词节点间的语义相对距离，p_a表示依存句法树中方面词节点的中心位置，m表示方面词的序列长度，| |表示取绝对值，

表示向下取整；

步骤2：语义动态加权层根据语义相对距离生成不同的权重来表示上文部分和下文部分中各词对于情感判别的重要程度，第i个节点对应词的权重w_i为：

其中，I表示全为1的向量，维度与第i个节点对应词的词向量维度相同；α为设定的语义相对距离阈值，N表示输入文字序列的序列长度；

语义动态加权层使用权重w_i对上文部分和下文部分的词向量表示进行动态加权；

步骤3：将动态加权后的上文部分的词向量表示、方面词的词向量表示和动态加权后的下文部分的词向量分别输入BiLSTM网络中，获取上文部分、方面词部分和下文部分的语义相关性特征；

步骤4：注意力层首先将上文部分、方面词部分和下文部分的语义相关性特征两两组合，得到三个组合，然后对于每个组合执行以下步骤：

构造当前组合中两者的相关性矩阵M：

M＝σ(H₁H₂ ^T)

其中，σ表示激活函数，H₁和H₂分别表示当前组合中的两部分的语义相关性特征，上标T表示转置；

对M分别按列和行执行softmax操作，得到H₂相对于H₁中各个词的相关性权重ω₁和H₁相对于H₂中各个词的相关性权重ω₂，使用ω₁和ω₂分别对H₁H₂ ^T和H₂H₁ ^T加权，得到H₂相对于H₁的相关性表示V₁和H₁相对于H₂的相关性表示V₂；

对V₁和V₂再次执行softmax操作，得到H₁和H₂对应的注意力权重a₁和a₂，使用a₁和a₂分别对H₁和H₂加权，得到融合注意力的特征；

将三个组合对应的融合注意力的特征进行拼接，得到输入文字序列对应的特征。

进一步的，对抗训练网络中，序列标注器为第一分类网络，分类网络由全连接层和softmax函数构成；输入文字序列对应的特征输入至第一分类网络，得到输入文字序列的标注符号；

输入文字序列对应的特征输入至第一分类网络，得到序列分类概率分布：

y_j＝softmax(W_yX_j+b_y)

其中，y_j表示输入文字序列中第j个词的序列分类概率，W_y和b_y分别表示第一分类网络中全连接层的权重矩阵和偏置项；softmax表示softmax函数，X_j表示输入文字序列中第j个词对应的特征；

通过序列分类概率确定输入文字序列中各词对应的标注符号，标注符号将同时指示当前词是否为方面词以及方面词的情感极性。

进一步的，对抗训练网络中，领域分类器为依次连接的梯度反转层和第二分类网络，输入文字序列对应的特征输入至领域分类器，得到领域类别标签：

其中，

表示当前输入文字序列对应的预测领域类别标签，W_dc和b_dc分别表示第二分类网络中全连接层的权重矩阵和偏置项，R_λ表示梯度反转层函数，X表示输入文字序列对应的特征。

进一步的，S5中，掩码矩阵M_pq为：

其中，max表示取最大值，

代表教师网络中的序列标注器计算出目标域数据中第p个输入文字序列中的第q个词的序列分类概率分布；

则表示目标域数据中第p个输入文字序列中的第q个词的伪标签；将伪标签集合按照伪标签是否指示为方面词分为两个伪标签子集，α_l'表示伪标签子集y_l'的置信度阈值，l'＝1,2。

进一步的，S6中，学生网络的序列标注损失函数L_label、领域分类器的交叉熵损失函数L_dom和基于伪标签修正的一致性损失函数L_mse分别为：

其中，1≤n≤N_s，N_s为源域数据中输入文字序列数目；1≤p≤N_t，N_t为目标域数据的输入文字序列数目；TW_n表示源域数据中第n个输入文字序列的词总数；l_nk为源域数据中第n个输入文字序列第k个词对应的标注符号；

为学生网络中的序列标注器计算出源域数据中第n个输入文字序列第k个词的概率分布；1≤l≤N_s+N_t，

表示领域分类器预测的源域数据和目标域数据中第l个输入文字序列的预测领域类别标签，d_l表示源域数据和目标域数据中第l个输入文字序列的真实领域类别标签；1≤q≤TW_p，TW_p表示目标域数据中第p个输入文字序列中的词总数；

表示学生网络中的序列标注器计算出目标域数据中第p个输入文字序列中的第q个词的概率分布；|| ||²表示求二范数平方。

进一步的，S7中，三者之和L表示为：

L＝L_label+λ_domL_dom+λ_mseL_mse

其中，λ_dom和λ_mse是控制L_dom和L_mse相对平衡的超参数。

进一步的，S8中，利用学生网络参数

的指数移动均值更新教师网络参数

其中，μ为调整系数。

本发明的有益效果是：

本发明所述方法利用领域对抗训练达到了模型跨域学习的目标，采用半监督的学习方式，通过为目标域无标记数据设置伪标签，使得教师网络与学生网络的学习能力趋于一致，从而提高模型对共享特征的提取能力。此外，本发明所述方法利用语义距离动态加权和注意力机制相结合的方式，提高模型对领域特有特征的提取能力，最终使得模型在跨域场景下能达到良好的细粒度情感分类效果。

附图说明

图1为本发明所述方法中对抗训练网络的结构示意图；

图2为本发明所述方法中特征提取器的结构示意图；

图3为本发明所述方法中领域分类器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明进行进一步的说明。

本实施例提供一种基于领域对抗训练的情感分析方法，包括以下步骤：

S1：数据预处理与文本表示

源域数据和目标域数据分别作为输入文字序列集合，源域数据为带有标注符号的数据，目标域数据不带有标注符号；

将输入文字序列集合中的每个输入文字序列拆分为上文部分、方面词部分和下文部分，针对每个部分执行分词操作和词嵌入操作，获取词向量表示；

S1的具体过程为：

S2：构建对抗训练网络

构建对抗训练网络，其结构示意图如图1所示，对抗训练网络包括教师网络、学生网络和领域分类器；教师网络和学生网络的结构相同，均为依次连接的特征提取器和序列标注器，分别对输入数据进行特征提取和序列标注；领域分类器对输入数据进行领域鉴别；

对抗训练网络中，特征提取器的结构示意图如图2所示，包含依次连接的语义动态加权层、BiLSTM网络和注意力层；基于语义相对距离对上下文部分进行动态加权，使用BiLSTM网络提取加权后各部分的语义信息，结合注意力机制提取词级别的交互信息；

特征提取器对输入文字序列及预处理后的词向量表示进行处理的具体过程为：

步骤1：语义动态加权层解析输入文字序列对应的依存句法树，衡量依存句法树中各个节点之间的语义相关性，计算上文部分和下文部分在依存句法树中对应的节点与方面词节点间的语义相对距离：

表示向下取整；

步骤2：为了削弱与情感判别无关的词带来的负面影响，语义动态加权层需要对上文部分和下文部分进行处理，即根据语义相对距离生成不同的权重来表示上文部分和下文部分中各词对于情感判别的重要程度，第i个节点对应词的权重w_i为：

步骤3：为了同时获取输入文字序列的前向信息和后向信息，融合更丰富的语义特征，将动态加权后的上文部分的词向量表示、方面词的词向量表示和动态加权后的下文部分的词向量分别输入BiLSTM网络中，获取上文部分、方面词部分和下文部分的语义相关性特征；

构造当前组合中两者的相关性矩阵M：

M＝σ(H₁H₂ ^T)

对抗训练网络中，序列标注器为第一分类网络，分类网络由全连接层和softmax函数构成；输入文字序列对应的特征输入至第一分类网络，得到输入文字序列的标注符号；

y_j＝softmax(W_yX_j+b_y)

通过序列分类概率确定输入文字序列中各词对应的标注符号，标注符号将同时指示当前词是否为方面词以及方面词的情感极性(若当前词为方面词)。

对抗训练网络中，领域分类器的结构示意图如图3所示，为依次连接的梯度反转层和第二分类网络，输入文字序列对应的特征输入至领域分类器，对输入文字序列进行领域鉴别；

输入文字序列对应的特征输入至领域分类器，得到领域类别标签：

其中，

S3：设定教师网络的初始参数

和学生网络的初始参数

令当前迭代次数Iter＝1，开始迭代；

S4：将源域数据及进行预处理后的词向量表示输入至学生网络的特征提取器，获取源域数据的特征；将源域数据的特征输入至学生网络的序列标注器，获取源域数据中各词对应的标注符号；将源域数据的特征输入至领域分类器，获取源域数据的领域类别标签；

将目标域数据及进行预处理后的词向量表示输入至学生网络的特征提取器，获取学生网络提取的目标域数据的特征，并输入至学生网络的序列标注器，获取学生网络预测的目标域数据中各词对应的标注符号；将目标域数据的特征输入至领域分类器，获取目标域数据的领域类别标签；

将目标域数据及进行预处理后的词向量表示输入至教师网络的特征提取器，获取教师网络提取的目标域数据的特征，并输入至教师网络的序列标注器，获取教师网络预测的目标域数据中各词对应的标注符号作为伪标签；

S5：根据教师网络输出的序列分类概率分布与置信度阈值的比较结果设计掩码矩阵M_pq进行过滤：

其中，max表示取最大值，

为了合理地设置伪标签，避免标注符号分布不均衡导致模型偏向于预测占比大的标注符号，可从解决数据分布不平衡的角度出发，根据教师网络输出的序列分类概率分布对教师网络生成的伪标签集进行子集划分。

S6：在前向传播阶段，计算学生网络的序列标注损失函数L_label、领域分类器的交叉熵损失函数L_dom和基于伪标签修正的一致性损失函数L_mse：

S7：在反向传播阶段，通过优化L_label和L_mse更新学生网络中序列标注器的参数，通过优化L_dom更新领域分类器的参数，通过最小化三者之和L更新学生网络中特征提取器的参数：

L＝L_label+λ_domL_dom+λ_mseL_mse

其中，λ_dom和λ_mse是控制L_dom和L_mse相对平衡的超参数；

更新后的学生网络参数

S8：利用学生网络参数

的指数移动均值更新教师网络参数

其中，μ为调整系数；

S9：判断两次迭代之间的L值的差值是否小于设定精度阈值，若否，令当前迭代次数Iter＝Iter+1，返回执行S4，若是，完成训练，记录当前教师网络参数。

表1不同模型在基准数据集上的跨域细粒度情感分析性能(％)

本实施例中，在被广泛用于评测模型跨域细粒度情感分类效果的包含Restaurant(R)、Laptop(L)、Device(D)和Service(S)四个领域的公开数据集上进行测试，共构建10组迁移对以表示10个迁移任务。训练过程中，本方法所提模型DATM(Domain-AdversarialTraining based Model)使用Adam算法进行优化，学习率设置为1e-3。所有权重矩阵和偏置项从均匀分布U(-0.01,0.01)中随机抽样以初始化。其他参数手动调整以获得最佳性能。本发明所提方法与其他基线方法的对比试验结果如表1所示。最终结果显示，本方法在大多数迁移对上均拥有最优效果，平均微F1分数相较于目前最先进基线方法之一的AD-SAL取得了0.64％的增益效果，相较于先进基线方法Hier-Joint和RNSCN取得了11.56％和9.36％的增益效果，超出传统基线方法TCRF约20％。综上所述，本发明方法可在由细粒度情感分析数据集构成的迁移任务中，实现更好的跨域分析效果，并且可以扩展至资源更丰富的粗粒度情感分析任务，具有良好的应用前景。