CN110134962A

CN110134962A - 一种基于内部注意力的跨语言纯文本反讽识别方法

Info

Publication number: CN110134962A
Application number: CN201910412774.8A
Authority: CN
Inventors: 林小拉; 冯昭凯
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-08-16

Abstract

本发明提供一种基于内部注意力的跨语言纯文本反讽识别方法，该方法采用了内部注意力机制，内部注意力机制使得句子关注词汇两两之间的关系权值，可以有效的表明反讽分类与词汇对权重的关系，此模型显著的提升了反讽识别的效果；利用丰富语料的英语反讽标注数据作为训练数据，把反讽知识迁移到汉语特征空间上，该方法可以显著提高反讽识别的效果。

Description

一种基于内部注意力的跨语言纯文本反讽识别方法

技术领域

本发明涉及自然语言处理领域，更具体地，涉及一种基于内部注意力的跨语言纯文本反讽识别方法。

背景技术

由于人类评论和对话中经常使用反讽(反语和讽刺)，反讽与表层的词语字面意思关联较小，与句子深层语义关联较大。只有准确的抽取句子的深层语义模型，才能准确地进行反讽识别，而深入理解句子的语义模型会推动自然语言处理领域中的情感分析和机器对话生成领域的发展，因为这些领域进一步发展都需要理解隐喻性的语义。从全局上来说，反讽识别和反讽对话的生成等也是人类计算机交互的基础，所以反讽识别研究对自然语言处理领域的大多数领域都具有重大的意义。

在过去近十年的纯文本的反讽研究算法中，通常依赖于大量的标注好的训练集。但是世界上除了英语以外的其他语言的反讽数据集是极度匮乏的。例如汉语语料公开数据集中仅有一个由Tang制作的繁体汉语反语语料库。由于其他语言极度缺乏已标注的数据集，直接对此语言进行反讽识别研究需要人工标注大量的数据，这个方案并没有可实施性。为了解决其他语言特定数据集匮乏的情况，构建语言之间的知识联系和资源共享是解决资源匮乏的一种重要手段，而这种技术称之为跨语言文本分析技术。

发明内容

本发明提供一种反讽识别效果较好的基于内部注意力的跨语言纯文本反讽识别方法。

为了达到上述技术效果，本发明的技术方案如下：

一种基于内部注意力的跨语言纯文本反讽识别方法，包括以下步骤：

S1：把源语言的带标签的反讽文本数据集翻译成目标语言的反讽文本数据集；

S2：分别对步骤S1中的源语言带标签的反讽文本和其目标语言反讽文本进行注意力向量提取，得到源语言注意力向量和目标语言意力向量；

S3：分别对步骤S1中的源语言带标签的反讽文本和其目标语言反讽文本进行LSTM的隐向量表达，得到源语言隐藏向量和目标语言隐藏向量，将源语言注意力向量和源语言隐藏向量进行拼接得到源语言带注意力的隐藏向量，将目标语言注意力向量和目标语言隐藏向量进行拼接得到目标语言带注意力的隐藏向量；

S4：将源语言带注意力的隐藏向量和目标语言带注意力的隐藏向量通过各自的ReLU网络得到源语言文本表示向量和目标语言文本表示向量；

S5：将源语言文本和目标语言通过线性分类器，得到源语言文本预测标签和目标语言文本预测标签；

S6：通过源语言文本所带的标签和其预测标签得到源语言文本的反讽识别的标签误差损失函数，通过目标语言文本所带的标签和其预测标签得到目标语言文本的反讽识别的标签误差损失函数，将两者加起来得到总的误差损失函数；

S7：对S4步骤得到的源语言文本和目标语言文本进行距离约束的得到距离损失函数；

S8：结合S6的总误差损失函数和S7得到的距离损失函数得到总的损失函数；

S9：将步骤S1中的源语言带标签的反讽文本和其目标语言反讽文本进行步骤S2-S8的多次迭代，得到最终模型；

其中，反讽文本数据集表示具有反语和讽刺修辞手法的文本。

进一步地，所述步骤S1的具体过程是：

利用百度翻译或者Google Translate机器翻译工具把带标签的源语言反讽文本数据集S翻译成带标签的目标语言反讽数据集T_s，翻译后对于每一条文本数据x∈{S,T_s}，都有一个反讽标签y∈{0,1}。

进一步地，所述步骤S2的具体过程是：

首先步骤S1中源语言的带标签的反讽文本数据集和其目标语言的反讽文本数据集组合成反讽文本对 N表示标注反讽数据集的数目，分别采用双语词向量bi-skipgram进行文本表达，假设翻译对长度都是L，其中，不足L长度的采用零填充，超出L截断句子， w为词汇对应的双语词向量表达，不存在的词汇进行随机初始化，此词向量的作用是可以让不同语言相同意思的词向量有相近的向量表示，接下来的步骤，两种语言提取反讽特征的过程一致；

以带标签的源语言的带标签的反讽文本数据集y∈{0,1}说明，文本通过双语词向量表达后为，接着让词汇之间进行两两组合得到(w_i,w_j)，计算反讽文本的词汇对(w_i,w_j)的分数f_ij＝W_a([w_i；w_j])+b_a，其中i,j∈L且i≠j，b_a为偏置项，[；]是向量连接符。因此词汇与词汇之间得到一个L×L的关联矩阵：其中要忽略排除词汇与词汇自身关联的干扰，即然后对矩阵W_f逐行取最大值得到注意力的权值最后结合源语言文本表达得到源语言注意力向量翻译对目标语言反讽文本同时采用这种方法得到目标语言意力向量

进一步地，所述步骤S3的具体过程是：

S31：源语言带标签的反讽文本数据集中一条反讽文本 w_i表示句子中的词汇的双语词向量表达，L表示句子的长度，带标签的源语言的带标注反讽文本采用了长短时记忆网络LSTM对进行编码，其中隐藏单元输出维度为d，在时刻i时的隐向量输出：

S32：使用LSTM编码器的最后一个隐藏状态h_L表示源语言带标签的反讽文本的上下文向量即有:即源语言隐藏向量为

S33：将步骤S2得到的源语言注意力向量与源语言隐藏向量拼接得到源语言带注意力的隐藏向量

S34：同理目标语言得注意力向量与目标语言隐藏向量得到目标语言带注意力的隐藏向量

进一步地，步骤S4中，源语言带注意力的隐藏向量通过源语言的ReLU网络得到源语言文本，目标语言带注意力的隐藏向量也通过ReLU网络得到目标语言文本，源语言的文本表示向量：r^S＝ReLU(W_z1v^S+b_z1)，其中W_z1表示网络的权值矩阵，b_z2表示网络偏置项，ReLU表示激活函数；同理得到目标语言的文本表示向量为：r^T＝ReLU(W_z2v^T+b_z2)。

进一步地，所述步骤S5的具体过程是：

源语言文本通过一个线性分类器，得到其预测标签为：

W_o1为线性分类器权值，b_o1为偏置项；

目标语言文本通过线性分类器，得到预测标签为：

W_o2为线性分类器权值，b_o2为偏置项；

文本词向量通过长短时记忆网络LSTM网络层生成文本的隐藏层表示，通过词汇对的分数选择，分别形成两种语言文本表示。

进一步地，所述步骤S6的具体过程是：

源语言的标签预测的损失函数采用交叉熵损失函数，得到源语言的反讽标签预测的损失函数为：

同理目标语言的反讽标签预测的损失函数为：

结合源语言和目标语言总的损失函数为：

其中S表示源语言，T表示目标语言。

进一步地，所述步骤S7的具体过程是：

根据源语言文本和目标语言文本欧式距离的约束，最小化源语言和目标语言文本表示r^S和r^T的距离，记为损失函数J₂，则有：

进一步地，结合S6的总误差损失函数和S7得到的距离损失函数得到总的损失函数：

J＝J₁+αJ₂，α表示的是一个超参数。

与现有技术相比，本发明技术方案的有益效果是：

(1)本发明采用了内部注意力机制，内部注意力机制使得句子关注词汇两两之间的关系权值，可以有效的表明反讽分类与词汇对权重的关系，此模型显著的提升了反讽识别的效果；

(2)本发明提出利用丰富语料的英语反讽标注数据作为训练数据，把反讽知识迁移到汉语特征空间上，该方法可以显著提高反讽识别的效果。

附图说明

图1为本发明方法流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，一种基于内部注意力的跨语言纯文本反讽识别方法，包括以下步骤：

步骤S1的具体过程是：

步骤S2的具体过程是：

步骤S3的具体过程是：

步骤S4中，源语言带注意力的隐藏向量通过源语言的ReLU网络得到源语言文本，目标语言带注意力的隐藏向量也通过ReLU网络得到目标语言文本，源语言的文本表示向量：r^S＝ReLU(W_z1v^S+b_z1)，其中W_z1表示网络的权值矩阵，b_z2表示网络偏置项，ReLU表示激活函数；同理得到目标语言的文本表示向量为：r^T＝ReLU(W_z2v^T+b_z2)。

步骤S5的具体过程是：

源语言文本通过一个线性分类器，得到其预测标签为：

W_o1为线性分类器权值，b_o1为偏置项；

目标语言文本通过线性分类器，得到预测标签为：

W_o2为线性分类器权值，b_o2为偏置项；

步骤S6的具体过程是：

同理目标语言的反讽标签预测的损失函数为：

结合源语言和目标语言总的损失函数为：

其中S表示源语言，T表示目标语言。

步骤S7的具体过程是：

J＝J₁+αJ₂，α表示的是一个超参数。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于内部注意力的跨语言纯文本反讽识别方法，其特征在于，包括以下步骤：

2.根据权利要去1所述的基于内部注意力的跨语言纯文本反讽识别方法，其特征在于，所述步骤S1的具体过程是：

3.根据权利要去2所述的基于内部注意力的跨语言纯文本反讽识别方法，其特征在于，所述步骤S2的具体过程是：

首先步骤S1中源语言的带标签的反讽文本数据集和其目标语言的反讽文本数据集组合成反讽文本对N表示标注反讽数据集的数目，分别采用双语词向量bi-skipgram进行文本表达，假设翻译对长度都是L，其中，不足L长度的采用零填充，超出L截断句子， w为词汇对应的双语词向量表达，不存在的词汇进行随机初始化，此词向量的作用是可以让不同语言相同意思的词向量有相近的向量表示，接下来的步骤，两种语言提取反讽特征的过程一致；

4.根据权利要去3所述的基于内部注意力的跨语言纯文本反讽识别方法，其特征在于，所述步骤S3的具体过程是：

5.根据权利要去4所述的基于内部注意力的跨语言纯文本反讽识别方法，其特征在于，步骤S4中，源语言带注意力的隐藏向量通过源语言的ReLU网络得到源语言文本，目标语言带注意力的隐藏向量也通过ReLU网络得到目标语言文本，源语言的文本表示向量：r^S＝ReLU(W_z1v^S+b_z1)，其中W_z1表示网络的权值矩阵，b_z2表示网络偏置项，ReLU表示激活函数；同理得到目标语言的文本表示向量为：r^T＝ReLU(W_z2v^T+b_z2)。

6.根据权利要去5所述的基于内部注意力的跨语言纯文本反讽识别方法，其特征在于，所述步骤S5的具体过程是：

源语言文本通过一个线性分类器，得到其预测标签为：

W_o1为线性分类器权值，b_o1为偏置项；

目标语言文本通过线性分类器，得到预测标签为：

W_o2为线性分类器权值，b_o2为偏置项；

7.根据权利要去6所述的基于内部注意力的跨语言纯文本反讽识别方法，其特征在于，所述步骤S6的具体过程是：

同理目标语言的反讽标签预测的损失函数为：

结合源语言和目标语言总的损失函数为：

其中S表示源语言，T表示目标语言。

8.根据权利要去7所述的基于内部注意力的跨语言纯文本反讽识别方法，其特征在于，所述步骤S7的具体过程是：

9.根据权利要去8所述的基于内部注意力的跨语言纯文本反讽识别方法，其特征在于，结合S6的总误差损失函数和S7得到的距离损失函数得到总的损失函数：

J＝J₁+αJ₂，α表示的是一个超参数。