CN110334187A

CN110334187A - 基于迁移学习的缅语情感分析方法及装置

Info

Publication number: CN110334187A
Application number: CN201910613176.7A
Authority: CN
Inventors: 毛存礼; 吴霞; 余正涛; 林颂凯; 高盛祥; 王振晗
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-10-15

Abstract

本发明涉及基于迁移学习的缅语情感分析方法及装置，属于自然语言处理技术领域。本发明首先对缅语词汇进行跨语言word embeddings表示，实现缅语文本到英语文本语义空间的映射；基于CNN和注意力机制的网络预训练英语情感分类模型；通过共享英语情感分类模型的神经网络层参数来学习跨语言情感特征，并迁移到缅语情感分类模型中来实现缅语情感分类；用有标记的缅语数据进行模型调优，最终实现缅语情感分类。并根据上述步骤功能模块化制成基于迁移学习的缅语情感分析装置，本发明对缅语句子实现了有效的情感分析，解决了缅语情感标记数据缺乏造成性能不佳的问题。

Description

基于迁移学习的缅语情感分析方法及装置

技术领域

本发明涉及基于迁移学习的缅语情感分析方法及装置，属于自然语言处理技术领域。

背景技术

利用资源丰富语言来实现低资源语言情感分类是当前自然语言处理的一个研究热点。深度神经网络在英语的情感分类上取得了很好的效果，主要原因是在英语中有大量的情感标注语料库，但对于资源稀缺的缅语，标记数据稀缺，通过对语料的收集、人工标注，仅能得到小规模的缅语标注数据集，训练数据过小，必然会影响缅语情感分类的效果。利用情感标记丰富的英语语料中标记数据辅助识别缅语情感极性，能有效解决资源稀缺的缅语的情感分类问题。

发明内容

本发明提供了基于迁移学习的缅语情感分析方法及装置，以用于解决缅语情感标记数据稀缺，小规模训练数据，缅语情感分类的效果差等问题，解决依靠标记数据训练的模型效果差的问题。

本发明的技术方案是：基于迁移学习的缅语情感分析方法，所述基于迁移学习的缅语情感分析方法的具体步骤如下：

Step1、首先对缅语词汇进行跨语言word embeddings表示，实现缅语文本到英语文本语义空间的映射；

Step2、基于CNN和注意力机制的网络预训练英语情感分类模型；

Step3、通过共享英语情感分类模型的神经网络层参数来学习跨语言情感特征，并迁移到缅语情感分类模型中来实现缅语情感分类；

Step4、用有标记的缅语数据进行模型调优，最终实现缅语情感分类。

进一步地，所述步骤Step1的具体步骤为：

Step1.1、将缅语句子中的词表征为缅语词向量；

Step1.2、将缅语词向量映射到英语语义空间中通过最小化双语词典中互译词空间距离的方式，建立缅语到英语的语义空间映射关系；

Step1.3、通过迭代算法反复更新词典，得到最优的映射关系。

进一步地，所述步骤Step1.1的具体步骤如下：

将缅语句子通过的昆明理工大学研发的东南亚小语种语言信息处理平台(222.197.219.24：8099)进行分词处理；

将分好的缅语词，通过卷积神经网络和门结构网络对缅语词进行特征抽取，得到更加有效的缅语特征，将抽取的特征输入到LSTM神经网络语言模型中，训练缅语词向量。

进一步地，所述步骤Step1.2的具体步骤如下：

将英语、缅语两种语言在各自语料中进行训练得到各自的单语词向量；

通过最小化双语词典中互译词之间的空间最小距离，学习双语词典中互译词的映射关系，训练得到W空间映射矩阵。

进一步地，所述Step2的具体步骤为：

Step2.1、通过词向量转换工具word2vec将英语表示为词向量的形式，建立起对应卷积神经网络输入的向量形式，通过卷积神经网络将句子的特征进行抽取得到有效的特征表示；

Step2.2、将卷积神经网络抽取的特征，经过maxpooling得到特征中最有价值的部分；

Step2.3、卷积过后，使用注意力机制，以获取不同重要的特征信息；

Step2.4、将卷积得到的特征g与注意力文本全连接输入到softmax中来预测其标签信息，输出最大概率的情感分类，并保存英语情感分类模型参数。

进一步地，所述Step3的具体步骤为：

Step3.1、对双语进行向量化表示，通过建立英缅双语词向量映射，得到英缅双语的句子映射，通过这样的映射建立了英缅双语句子之间的关系；

Step3.2、使用和英语情感分类模型中卷积操作相同的滤波器参数，通过卷积层对缅语句子抽取特征；

Step3.3、将卷积得到的特征与注意力文本全连接输入到softmax中来得到一个缅语句子在该模型下情感分类；

Step3.4、使用CrossEntropy作为损失函数，根据误差，反向更新模型的参数。

一种基于迁移学习的缅语情感分析装置，包括：缅语预处理模块，用于对缅语句子进行分词处理，并将分词后的缅语词语表征为词向量；

双语词向量表征模块，用于对缅语词汇进行跨语言word embeddings表示，实现缅语文本到英语文本语义空间的映射；

英语情感分析模块，用于对英语句子进行情感分类，并保存英语情感分类模型参数；

迁移学习模块：用于共享英语情感分析模型的神经网络层参数来学习跨语言情感特征，并迁移到缅语情感分类模型中来实现缅语情感分类：

调优模块：用于使用有标记的缅语数据进行调优，最终实现缅语情感分类。

本发明的有益效果是：本发明提出的基于迁移学习的缅语情感分析方法及装置，对缅语句子实现了有效的情感分析，解决了缅语情感标记数据缺乏造成性能不佳的问题。

附图说明

图1为本发明中的具体详细流程框架图；

图2为本发明基于迁移学习的缅语情感分析装置示意图；

图3为本发明的流程图。

具体实施方式

实施例1：基于迁移学习的缅语情感分析方法，图3提供了基于迁移学习的缅语情感分析方法流程图。该方法中包括以下步骤：A步骤：该方法首先对缅语词汇进行跨语言word embeddings表示，实现缅语文本到英语文本语义空间的映射；B步骤：基于CNN和注意力机制的网络预训练英语情感分类模型；C步骤：通过共享英语情感分析模型的神经网络层参数来学习跨语言情感特征，并迁移到缅语情感分类模型中来实现缅语情感分类：D步骤：用有标记的缅语数据进行模型调优，最终实现缅语情感分类。

在A步骤中，将缅语句子中的词转为缅语词向量，利用空间映射的方式，将缅语词向量映射到英语语义空间中，得到英缅双语词向量表征。将缅语词向量和英语词向量通过最小化双语词典中互译词空间距离的方式，建立缅语到英语的语义空间映射关系，通过迭代算法反复更新词典，得到最优的映射关系。

在B步骤中，包含以下步骤：B01步骤：通过词向量转换工具word2vec将英语表示为词向量的形式，建立起对应卷积神经网络输入的向量形式，通过卷积神经网络将句子的特征进行抽取得到有效的特征表示；B02步骤：将卷积神经网络抽取的特征，经过maxpooling得到特征中最有价值的部分；B03步骤：卷积过后，使用注意力机制，以获取不同重要程序的特征信息；B04步骤：将卷积得到的特征g与注意力文本全连接输入到softmax中来预测其标签信息，输出最大概率的情感分类，并保存英语情感分类模型参数。

在B01步骤中，在英语句子预训练网络中，输入一个英语句子X，将句子X表征为由句子的词向量组成的句子向量矩阵[CW1，CW2，....，C Wn]，其中矩阵中的每一行表示一个英语词向量CW，n表示句子中词的个数。向量的表示方法可以通过在一个窗口中的组合来获得音节的上下文信息，组合成新的英语句子。卷积操作包括一个滤波器W，滤波器使n个词向量CW产生一个新的特征Z：

Z＝W_jX_i

其中X_i为第i个输入矩阵也就是第i个实例。W_j为卷积操作的第j个滤波器，是一个线性变换矩阵。

在B02步骤中，为了获取特征向量Z中最有用的信息，我们对Z进行max-pooling 操作，即：

m_S＝max(Z_S),0≤s≤j

英语句子特征向量m自动合成线性向量，为了学习更复杂的特征，我们设计了一个非线性层并选择的修正线性函数(rectified linear function)ReLU作为激活函数。使用ReLU激活函数可以有效避免权值过大或过小对网络训练的影响。激活函数可以写为：

g＝max(0,W_yT)

为线性转换方程，将向量T映射到隐层上，使用ReLU激活函数得到g，这里g 表示更高层次的英语特征。

在B03步骤中，在经过卷积之后，使用了注意力机制，以获取不同重要程序的特征信息，从而提高分类的准确率.此时的注意力文本用a_i表示：

s_i＝fun(x_ij,U_i)

其中:x_i表示一个句子，U_i表示此句子所对应的标签；fun表示含一个隐层的前向网络；s_i与a_i表示文本中每个词的重要度信息。

在B04步骤中，为了推算每个输入英语句子向量矩阵X的情感分类，将得到的特征g与注意力文本a_i连接输入到softmax中来预测其标签信息，softmax的预测输出为：

W_p为线性转换方程，将向量g和注意力文本a_i全连接后映射到输出层，表示全连接操作。每一个输出o为输入英语句子向量矩阵X情感的“得分”，(也就是0 和1，分别代表)，o的预测种类有2种分别为：0和1，如果得分为0时，就是英语句子的情感为消极情感，如果得分为1，那么英语句子的情感为积极情感。

最后通过Softmax得到正向与负项的概率，取最大的概率作为缅语情感分类的标签：

根据概率的大小，得到最终的标签U_英，如果积极情感大于消极情感，U_英为积极情感，反之，则为消极情感。使用CrossEntropy作为损失函数：

其中U_汉为模型softmax判断的情感分类，而为该句子的标记。通过求出模型的损失，通过模型损失反向更新模型中的所有参数，使参数更贴近英语情感分析数据。单使用CrossEntropy作为损失函数，在更新的过程中，也许会因为数据的原因，导致参数过大或过小的更新，因此，通过增加L2正则项约束来约束模型的参数更新，模型中的参数包括：输入到模型中的英语句子向量x，权重矩阵W_j,W_y,W_p，英语情感分类损失变为：

通过随机梯度下降算法对模型进行求解，求出该情感分类模型在英语中最小的损失，使模型在英语情感分析中，有最大的正确率。当模型收敛后，得到该模型在英语情感分析下的模型参数，W_j,W_y,W_p，并将其固定，得到W_英j,W_英y,W_英p，并在缅语情感分类模型中，继续使用该参数，达到共享参数的目的。

在C步骤中，包含以下步骤：C01步骤：双语向量化表示；C02步骤：通过卷积层对缅语句子抽取特征；C03步骤：将卷积得到的特征与注意力文本全连接输入到softmax中来得到一个缅语句子在该模型下情感分类；C04步骤：通过缅语情感分类误差更新模型参数。

在C01步骤中，通过建立英缅双语词向量映射，得到英缅双语的句子映射，通过这样的映射建立了英缅双语句子之间的关系，这样不仅能减少两种语言的差异性，解决在特征迁移中带来的性能下降问题。通过映射，对缅语在情感分类中没有出现的信息进行补充，对于输入到模型的缅语句子X_缅，该句子由n个词组成，每个缅语词的词向量为M_W，，由X_缅组成的目标矩阵为[M_W_缅1,M_W_缅2,......,M_W_缅n]，其中每一行的都是映射到英语语义空间中的缅语词向量M_W_缅组成。

在C02步骤中,使用和英语一样的模型，利用相同参数的卷积网络的滤波器W_英对缅语句子向量进行卷积，抽取特征，产生一个新的向量Z_缅：

Z_缅＝W_汉jX_缅i

其中，X_缅i就是第i个输入到模型中缅语句子，W_英j通过在英语预训练模型中，训练好的参数，通过同样的参数，对缅语的句子向量进行卷积操作抽取特征。同在英语中用的参数相同，其中1≤j≤30。在经过滤波器W_英之后，就会得到在一个相应的特征输出Z_缅。为了获取特征向量Z_缅中最有用的信息，我们同样对Z_缅进行和英语同样的max-pooling操作，即：

m_缅S＝max(Z_缅S),0≤s≤j

对抽取的最有价值的信息m_缅-英s，使用在英语中相同的激活函数ReLU作为激活函数，则激活后为：

g_缅＝max(0,W_汉yT)

W_英y为线性转换方程，将向量T映射到隐层上，使用ReL激活函数得到g，这里 g表示更高层次的缅语句子的特征，在第一次训练中同样适用在英语中训练好的参数。

在C03步骤中，在经过卷积之后，同样使用了注意力机制，以获取不同重要的特征信息，从而提高分类的准确率.此时的注意力文本用a_i表示：

s_i＝fun(x_ij,U_i)

抽取的缅语句子通过softmax函数，得到一个在缅语在该模型下每个分类的得分：

最后通过Softmax得到正向与负项的概率，取最大的概率作为缅语情感分类的标签，

在C04步骤中，根据概率的大小，得到最终的标签U，如果积极情感大于消极情感，则U为积极情感，反之，则为消极。同英语情感分析相同，使用CrossEntropy 作为损失函数。

在缅语的训练过程中，在英语空间中训练好的参数W_英j，W_英y，W_英p作为缅语训练的初始参数，根据误差，反向更新缅语在本模型的误差，使模型适用于缅语的情感分析。

在D步骤中，缅语映射到英语后，虽然会具有英语的语义特征，但是也会有偏差，因此用小规模的缅语训练模型，得到缅语情感分类损失后，也通过最小化loss 的方式，求解模型范数，在缅语情感分类更新参数W_缅j,W_缅y,W_缅p，通过公式约束模型在拟合缅语情感分析特征时，模型不能无限的贴近缅语特征，在缅语的标注集只是一小部分，所以要进行约束，避免过拟合。而通过映射将缅语句子映射到英语中，具有了英语的语义特征，但和英语有细微的差异，模型通过学习这种差异，来使模型在缅语的情感分类上表现的更好。

(W_缅j-W_汉j)²+(W_缅y-W_汉y)²+(W_缅p-W_汉p)²

最后缅语情感分类损失变为：

从人工构建的1.5万条英缅双语的平行语料中通过双语情感映射的方法得到的具有情感标签的数据集，分为训练集和测试集，大小分别为训练集1万，测试集2000，这样为了测试模型的正确率；

正确率是评价一个模型被正确情感分类句子数与所有分类总句数的比值，可以用来衡量模型的好坏；本发明采用准确率作为对基于迁移学习的缅语情感分析方法的分类模型的测评标准，定义如下：

为了弄清楚传统机器学习的方法和常用神经网络模型在缅语情感分析上的效果，我们将两种机器学习方法，4种常用神经网络模型和基于迁移学习的模型进行比较，如表1所示。

表1：6种常用模型和本发明在缅语情感分析上准确率对比

编号	模型	准确率
			1	SVM	0.5214
2	LR	0.5476
			3	Fasttext	0.5633
4	CNN	0.6411
			5	LSTM	0.6445
6	BILSTM	0.6744
			7	Att-CNN-Trans	0.7278

从表1可以看出，使用BILSTM神经网络比仅使用单层LSTM更准确，表明使用上下文信息和考虑时间序列可以更好地解决文本情感分类问题。当应用于文本情感分析时，CNN神经网络模型不如LSTM神经网络模型有效。通过对比结果，我们可以知道CNN不仅可以应用于图像处理领域，还可以成功有效地分析文本信息。 Fasttext的精度最低，但模型简单，训练速度非常快。

为了弄清楚注意力机制对缅语情感分析模型效果，我们将模型是否加注意力机制的准确率进行比较，如表2所示。

表2：是否加注意力机制在缅语情感分析上准确率对比

编号	模型	准确率
			1	CNN-Trans	0.6805
2	Att-CNN-Trans	0.7278

从表2可以看出，对于本发明的模型(Att-CNN-Trans)，使用了注意机制与未使用注意机制的(CNN-Trans)模型相比，准确性也得到了提高，因为注意机制可以针对文本特征中的情感特征进行有针对性的提取，使得关注机制模型比验证集和测试集上的CNN-Trans分类模型实现更好的分类性能。

为了弄清楚迁移学习对缅语这种资源稀缺语言情感分析模型效果，我们将模型是否使用迁移学习将情感标记资源丰富的英语情感特征迁移到缅语上模型准确率进行比较，如表3所示。

表3：是否使用迁移学习方法对缅语情感分析上准确率对比

编号	模型	准确率
			1	Att-CNN	0.7072
2	Att-CNN-Trans	0.7278

从表3可以看出，对于本文的模型(Att-CNN-Trans)，将转移学习引入基于卷积神经网络的注意机制与(Att-CNN)模型相比较，该模型没有使用英语标记集来预训练模型并且没有将缅甸语句子映射到英语，准确性也有所提高，因为缅甸语情绪分类缺乏标记语料库。对于迁移学习，通过共享英语情感分析模型的神经网络层参数来学习跨语言情感特征，可以辅助缅语情绪分析。

根据本发明的构思，本发明还提供了一种基于迁移学习的缅语情感分析装置，如图2所示，包括：缅语预处理模块，用于对缅语句子进行分词处理，并将分词后的缅语词语表征为词向量；

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于迁移学习的缅语情感分析方法，其特征在于：所述基于迁移学习的缅语情感分析方法的具体步骤如下：

2.根据权利要求1所述的基于迁移学习的缅语情感分析方法，其特征在于：所述步骤Step1的具体步骤为：

Step1.1、将缅语句子中的词表征为缅语词向量；

Step1.3、通过迭代算法反复更新词典，得到最优的映射关系。

3.根据权利要求1所述的基于迁移学习的缅语情感分析方法，其特征在于：

所述步骤Step1.1的具体步骤如下：

将缅语句子进行分词处理；

4.根据权利要求1所述的基于迁移学习的缅语情感分析方法，其特征在于：

所述步骤Step1.2的具体步骤如下：

5.根据权利要求1所述的基于迁移学习的缅语情感分析方法，其特征在于：所述Step2的具体步骤为：

6.根据权利要求1所述的基于迁移学习的缅语情感分析方法，其特征在于：所述Step3的具体步骤为：

7.一种基于迁移学习的缅语情感分析装置，其特征在于：包括：

缅语预处理模块，用于对缅语句子进行分词处理，并将分词后的缅语词语表征为词向量；