CN110852060B

CN110852060B - 一种基于外部知识的情感迁移方法

Info

Publication number: CN110852060B
Application number: CN201810818632.7A
Authority: CN
Inventors: 颜永红; 涂曼姝
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2021-05-18
Anticipated expiration: 2038-07-24
Also published as: CN110852060A

Abstract

本发明公开了一种基于外部知识的情感迁移方法，所述方法包括：步骤1)构建和训练基于情感词典D的词典匹配卷积神经网络；步骤2)对于测试集的每一个句子T，取其不重复的所有词组成T_set，将T、T_set和情感词典D输入训练好的词典匹配卷积神经网络；得到最终的分类结果。相对于手动选择转换词，本发明的方法将外部知识增加至网络中，可以避免人为制定规则带来的干扰；在使用少量的源域标注数据的情况下，本发明的方法能够得到与最好结果相似的正确率。

Description

一种基于外部知识的情感迁移方法

技术领域

本发明涉及情感分析领域，特别涉及一种基于外部知识的情感迁移方法。

背景技术

随着深度学习的蓬勃发展，情感分类作为自然语言处理的一个基础任务，许多模型在其公开数据集上的正确率已经可以达到90％以上，但是有效的神经网络往往需要大量的标注数据来训练，而标注有效的数据会消耗大量的人力和时间。因此从少量已标注数据中学习知识，迁移至相似领域的未标注数据中进行分类是目前情感分类的主要解决思路。

情感分析的迁移学习属于领域自适应。领域自适应指源域和目标域源域数据在分布上不同，但其目标相同，目标域完全不参与训练的任务。目前情感分类领域自适应问题的一个解决思路是找到源域和目标域中相同的情感词并将其作为转换词(pivots)来辅助得到目标域的情感分类。

传统的方法需要手动的选择转换词，例如结构对应学习(StructuralCorrespondence Learning，SCL)，通过假设转换词是在源域和目标域出现频率较高且对源域的情感的分类有重要作用的词来手动选择转换词。或者通过复杂的带有注意力机制的对抗网络使网络自动捕捉情感词，例如对抗存储网络(Adversarial Memory Network，AMN)。以上两种方法代表了目前的两种普遍的解决思路，但是手动选择转换词的规则会带来很大的人为干扰，而基于注意力机制的对抗网络很难训练，网络状态也不稳定。

发明内容

本发明的目的在于克服上述技术缺陷，通过增加外部知识来代替复杂网络寻找源域和目标与之间的转换词；提出了一种基于外部知识的情感迁移方法，该方法使用外部知识和简单的卷积神经网络相结合的方式，使目标域能自动捕捉情感，同时采用简单的网络，使得网络更加好训练，使得目标域的情感分类更加准确。源域与目标域数据在与外部知识做匹配后，与经过三层卷积神经网络的特征表示进行拼接得到新的特征表示，最后使用分类器其进行情感二分类(正向或负向)。

为了实现上述目的，本发明提出了一种基于外部知识的情感迁移方法，所述方法包括：

步骤1)构建和训练基于情感词典D的词典匹配卷积神经网络；

步骤2)对于测试集的每一个句子T，取其不重复的所有词组成T_set，将T、T_set和情感词典D输入训练好的词典匹配卷积神经网络；得到最终的分类结果。

作为上述方法的一种改进，所述步骤1)具体包括：

步骤1-1)对于训练样本中的每一个句子S＝{W₁,…,W_N}，W_i,1≤i≤N是句子中的每一个词，句子S经过处理取其不重复的所有词组成S_set＝{M₁,…,M_n}，外部知识是情感词典D＝{d₁,…,d_m}，d_i,1≤i≤m代表情感词典中的每一个情感词；

步骤1-2)S、S_set和D经过词矢量编码后，分别得到三个句子矩阵S_e，S_set_e和D_e，

步骤1-3)句子矩阵S_e输入第一卷积神经网络和CNN Block之后，对输出进行平均得到句子的第一特征；

步骤1-4)计算句子矩阵S_set_e中每个词对应情感词典D中每个词的余弦相似度，得到相似度矩阵M，取前k个最大余弦距离所对应的句子中的词W的矢量编码矩阵，输入第二卷积神经网络后，对输出进行平均后得到情感字典的第二特征；

余弦相似度cosin为：

其中，w_{i_e}为矩阵S_set_e的第i行表示其第i个词M_i的词矢量编码结果，d_{j_e}为矩阵D_e的第j行表示其第j个情感词d_j的词矢量编码结果；

步骤1-5)将第一特征与第二特征拼接后，输入全连接层得到分类结果；

步骤1-6)利用分类结果和训练的标签对词典匹配卷积神经网络的参数不断进行反馈迭代，得到训练好的词典匹配卷积神经网络。

作为上述方法的一种改进，所述步骤1-3)的CNN Block由两个CNN层和Batch_normal层组成，两个CNN层使用的卷积方式为宽度为3的卷积核，卷积核个数分别为16，64和128；所述Batch_normal层用于减小由于不同batch的数据差异而带来的误差。

作为上述方法的一种改进，所述步骤1-5)的全连接层由三个线性层组成，用于对拼接的第一特征和第二特征进行映射，最终映射成二元组，分别为预测成负向或者正向的概率值。

作为上述方法的一种改进，所述步骤2)具体包括：

步骤2-1)对于测试集中的每一个句子T＝{U₁,…,U_N}，W_i,1≤i≤N是句子中的每一个词，句子T经过处理取其不重复的所有词组成T_set＝{P₁,…,P_n}，

步骤2-2)T和T_set经过词矢量编码后，得到句子矩阵T_e和T_set_e；

步骤2-3)句子矩阵T_e输入第一卷积神经网络和CNN Block之后，对输出进行平均得到句子的第一特征；

步骤2-4)计算句子矩阵T_set_e中每个词对应情感词典D中每个词的余弦相似度，得到相似度矩阵M，取前k个最大余弦距离所对应的句子中的词W的矢量编码矩阵，输入第二卷积神经网络后，对输出进行平均后得到情感字典的第二特征；

步骤2-5)将第一特征与第二特征拼接后，输入全连接层得到分类结果。

本发明的优点在于：

1、相对于手动选择转换词，本发明的方法将外部知识增加至网络中，可以避免人为制定规则带来的干扰；

2、相对于对抗网络，本发明的方法构建的网络更加稳定；

3、在使用少量的源域标注数据的情况下，本发明的方法能够得到与最好结果相似的正确率。

附图说明

图1为本发明的字典匹配卷积神经网络的结构图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细的说明。

本发明提出了一种基于外部知识的情感迁移方法，所述方法包括：

步骤1)构建和训练基于情感词典的词典匹配卷积神经网络；

步骤1-2)S、S_set和D经过词矢量编码(Embedding)后，分别得到三个句子矩阵S_e，S_set_e和D_e，

步骤1-3)句子矩阵S_e经过第一CNN和CNN Block之后进行Average pooling得到句子的特征表示feature1；

CNN Block的结构由两个CNN层和Batch_normal层组成，该结构可以有效的避免随着网络深度增加造成的梯度消失的问题，在该网络中所有CNN使用的卷积方式都为是都是宽度为3的卷积核，卷积核个数分别为16，64和128。Batch_normal的作用是减小由于不同batch的数据差异而带来的误差，使得优化更加平稳。

Average pooling是pooling的一种，方法是对pooling的窗口大小中的值进行平均，得到的值就是average pooling的值。

步骤1-4)计算句子矩阵S_set_e中每个词对应情感词典D中每个词的余弦相似度(cosin)，得到相似度矩阵即图中对应的色块矩阵M(其中的颜色表示余弦距离的大小，颜色越深其余弦值越大，表示两个词越相似)，取最大k个余弦距离所对应的句子中的词W的embedding矩阵，经过CNN和Average pooling后得到所需外部知识的特征表示feature2；

余弦相似度cosin为：

步骤1-5)将feature1与feature2拼接后，经过全连接层(Fully connectedlayer)得到最终的分类结果。

Fully connect layer由三个线性层组成，其作用是将拼接得到的特征做更高维度的映射，最终映射成二元组，分别为预测成0(负向)或者1(正向)的概率值。

步骤1-6)利用分类结果和训练的标签对字典匹配卷积神经网络的参数不断进行反馈迭代，得到训练好的字典匹配卷积神经网络。

步骤2)对于测试集的每一个句子T，句子T经过处理取其不重复的所有词组成T_set，将T、T_set和D输入训练好的字典匹配卷积神经网络；得到最终的分类结果，具体包括：

源域数据在训练时会影响外部知识的词矢量，从而当没有参与训练的目标域数据进入网络后，外部知识会增强目标域的情感知识，引导网络做出正确的情感判断。

本发明在亚马逊数据集上进行了验证，亚马逊数据集由四种商品评论组成，将四种商品分别做为源域和目标与数据，产生12种迁移对，以书本评论迁移至dvd评论为例，书本和dvd的评论含有1600条数据，正负分布均匀，以书本的评论为训练语料我们在目标域获得了81.54％的正确率与目前最优的AMN网络相比，在比其少用将近10000条数据的情况下，与其正确率仅相差0.4％。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于外部知识的情感迁移方法，所述方法包括：

步骤1)构建和训练基于情感词典D的词典匹配卷积神经网络；

步骤2)对于测试集的每一个句子T，取其不重复的所有词组成T_set，将T、T_set和情感词典D输入训练好的词典匹配卷积神经网络；得到最终的分类结果；

所述步骤1)具体包括：

步骤1-1)对于训练样本中的每一个句子S＝{W₁,…,W_N}，W_h,1≤h≤N是句子中的第h个词，句子S经过处理取其不重复的所有词组成S_set＝{M₁,…,M_n}，M_i,1≤i≤n是第i个词组；外部知识是情感词典D＝{d₁,…,d_m}，d_j,1≤j≤m代表情感词典中的第j个情感词；

余弦相似度cosin为：

其中，w_{i_e}为矩阵S_set_e的第i行，表示其第i个词组M_i的词矢量编码结果，d_{j_e}为矩阵D_e的第j行，表示其第j个情感词d_j的词矢量编码结果；

2.根据权利要求1所述的基于外部知识的情感迁移方法，其特征在于，所述步骤1-3)的CNN Block由两个CNN层和Batch_normal层组成，两个CNN层使用的卷积方式为宽度为3的卷积核，卷积核个数分别为16，64和128；所述Batch_normal层用于减小由于不同batch的数据差异而带来的误差。

3.根据权利要求1所述的基于外部知识的情感迁移方法，其特征在于，所述步骤1-5)的全连接层由三个线性层组成，用于对拼接的第一特征和第二特征进行映射，最终映射成二元组，分别为预测成负向或者正向的概率值。

4.根据权利要求1-3之一所述的基于外部知识的情感迁移方法，其特征在于，所述步骤2)具体包括：

步骤2-1)对于测试集中的每一个句子T＝{U₁,…,U_N}，U_i,1≤i≤N是句子中的每一个词，句子T经过处理取其不重复的所有词组成T_set＝{P₁,…,P_n}，