CN110162625A

CN110162625A - 基于句内词对关系和上下文用户特征的反讽检测方法

Info

Publication number: CN110162625A
Application number: CN201910315886.1A
Authority: CN
Inventors: 姜明; 张雯; 张旻; 汤景凡; 戚铖杰; 腾海滨
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2019-08-23
Anticipated expiration: 2039-04-19
Also published as: CN110162625B

Abstract

本发明公开了一种基于句内词对关系和上下文用户特征的反讽检测方法。本发明用自注意力机制(也称内部注意力机制)去分析文本中情感极性矛盾的词对。通过学习并融合用户的书写风格特征和性格特征得到用户嵌入(user embeddings)，作为反讽检测的上下文信息。同时结合LSTM网络编码文本的序列信息。这种方法能够更好的检测反讽表达，在反讽表达明显或者隐晦的情况下都可以取得不错的准确率。其中具体发明的基于句内词对关系和上下文用户特征的反讽检测模型。本发明为反讽检测提供判别依据，有利于判别没有明显矛盾词对的反讽文本。从这两个角度提高了反讽检测的准确率。

Description

基于句内词对关系和上下文用户特征的反讽检测方法

技术领域

本发明涉及情感分类领域，具体涉及一种基于句内词对关系和上下文用户特征的反讽检测方法。

背景技术

反语(Irony)和讽刺(Sarcasm)是社会媒体中常用的修辞方法。反语是指运用跟本意相反的词语来表达此意，却含有否定、讽刺以及嘲弄的意思。讽刺则是用比喻、夸张等手法对人或事进行揭露、批评或嘲笑。关于反语和讽刺的关系，可以认为讽刺是包含情绪(比如攻击性情绪)的一种反语。本文将反语和讽刺统称为“反讽”，不再对反语和讽刺进行区分。反讽的比喻性质对情感分析任务提出了巨大的挑战。

目前，反讽检测研究主要存在以下难点：(1)单纯的文本信息，缺乏说话人的性格以及说话人的写作风格等信息，难以判断是否是反讽；(2)由于社交媒体或者会话中，以短文本多见，文本长度制约了反讽检测模型对上下文信息的获取；(3)反讽类型的表达方式与字面意思无关，需要获取深层的语义信息，才能准确的检测反讽；

现有方案大部分依赖LSTM或GRU等文本序列模型。首先，这类序列建模的方法无法有效挖掘句子内部词与词之间的矛盾不协调，不能捕获长距离依赖。其次，在句中不存在情感极性明显相反的词对的情况下，LSTM无法从上下文中学习到重要的用户背景等语境信息。

发明内容

本发明的目的是针对现有反讽检测技术的不足，提供一种新的对网络文本进行反讽检测的方法。提出了基于句内词对关系和上下文用户特征的反讽检测方法。首先，用自注意力机制捕获句子内部的词对关系，找出句子中存在矛盾的词对。既解决LSTM序列建模无法捕获长距离依赖的问题，又可以突出句子内部的不协调性。然后，用CNN预训练模型判断用户的性格类型，同时，用Paragraph Vector将用户发布的历史评论已文本向量的形式表示，代表用户的书写风格。接着，将两者融合后得到用户特征(user embedding)，作为反讽检测的外部信息。最后，用LSTM编码句子的成分信息，结合句内词对关系和用户特征来判断目标句是否属于讽刺。

本发明解决其技术问题所采用的的技术方案如下：

步骤1、对需要进行反讽检测的评论文本进行预处理；

步骤2、用自注意力机制对每个单词进行关联建模，获得句内注意力表示；

步骤3、用Paragraph Vector将每个用户的评论以文档向量的形式表示，为每个用户生成书写风格特征向量；

步骤4、根据用户发布的文本，通过预训练的性格检测CNN模型判断用户的性格特征；

步骤5、用典型相关分析算法对用书写风格特征和用户个性特征进行特征融合，获取融合特征；

步骤6、用LSTM对每个文本评论进行序列化建模，得到句子表示特征；

步骤7、连接步骤4、5、6中学习到的特征，对句子是否反讽进行判断。

本发明的优点及有益效果如下：

本发明主要为了解决对网络文本进行反讽检测的任务。现有的方法依靠一般的LSTM对文本进行序列建模，得到的结果准确率较低。本发明采用的技术方案是，用自注意力机制计算文本中词与词之间的相似性，找到文本中存在的矛盾的、不协调的关系，还解决了LSTM不能捕获远距离依赖的问题。同时，学习用户的书写习惯特征和个性特征，将两者融合后得到的用户嵌入(user embeddings)。用户嵌入包含的用户信息作为文本的上下文语境信息，为反讽检测提供判别依据，有利于判别没有明显矛盾词对的反讽文本。从这两个角度提高了反讽检测的准确率。

附图说明

图1是本发明所述方法的流程框图。

图2是本发明所述模型方法的架构图。

图3是本发明所述模型中自注意力机制的架构图。

图4是学习用户书写特征的架构图。

图5是检测用户性格特征的架构图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1、图2、图3、图4和图5，基于句内词对关系和上下文用户特征的反讽检测方法，包括以下步骤：

步骤1、对需要进行反讽检测的评论文本进行预处理：

1.1.将在整个语料库中仅出现一次的单词删除并使用UNK标记进行替换；

1.2.删除少于5个单词的评论；

1.3.用W2V词向量模型将每一条评论表示为词向量形式列n_i是句子长度。

步骤2、用自注意力机制对每个单词进行关联建模，获得句内注意力表示：

2.1对输入序列中的每个单词对关系(词与词之间)进行建模：其中，是需要通过训练学习的参数。表示拼接操作。s_xy表示单词对中的两个单词之间的近似度分值，s是个对称矩阵。

2.2在矩阵s上逐行执行最大池化操作，计算得到注意力向量a＝softmax(max s)，是表示自注意力权重的向量。

2.3使用向量a来学习的加权表示：是输入序列的内部表示，且

步骤3、用Paragraph Vector将每个用户的评论以文档向量的形式表示，为每个用户生成书写风格特征向量：

3.1每条评论文本后添加特殊分隔符<END>。

3.2收集每个用户的所有文本，创建成一个文档。

3.3将每个用户所发表的评论作为输入，u_i表示第i个用户，共N_u个用户。

3.4通过Paragraph Vector得到每个用户对应的评论特征d_i，3.5把所有用户的评论都映射到矩阵中，评论中的单词都被映射到矩阵d_s是词向量维度。

3.6给定用户u_i的评论文档共n_i个单词，在窗口大小为k的滑动窗口内对文档向量和词向量计算平均对数概率：

3.7分别对滑动窗口内相邻的上下文词向量和文档向量d_i求平是softmax的参数，n是单词个数，h(·)由文档向量D中的d_i和评论单词矩阵W中的词向量w_t-k，...，w_t+k求平均所得。

3.8矩阵D学习到用户的文档表示向量。该文档表示向量可以代表用户的书写风格。

步骤4、根据用户发布的文本，通过预训练的性格检测CNN模型判断用户的性格特征：

4.1对于用户u_i，遍历u_i所有的v_i条评论将它们作为预训练性格检测CNN模型的输入。

4.2激活CNN最后的隐藏层向量，获得性格特征向量

4.3计算该用户发表的所有评论对应的性格特征的期望，得到该用户的整体性格特征表示

步骤5、用典型相关分析算法对用书写风格特征和用户个性特征进行特征融合：

采用典型相关分析算法对3.8中的用户书写风格特征d_i和4.3中的用户个性特征p_i进行特征融合，得到最终的用户特征 A₁和A₂是训练参数。把记作

步骤6、用LSTM对每个文本评论进行序列化建模，得到句子表示：

6.1用一个初始的LSTM模型对固定长度的句子输入进行编码，如果句子编码后的向量长度不够，则末尾用数字0进行补齐；

6.2 LSTM隐藏层的输出是隐藏层特征矩阵[h₁，h₂，...，h_N]，表示句子级别特征；隐藏层特征h_i，i∈[1，n_i]与词向量w_i是一一对应的关系。

6.3将LSTM序列建模后得到的最后一个隐藏层表示记作

步骤7、连接步骤4、5、6中学习到的特征，对句子是否反讽进行判断：

7.1利用非线性投影ReLU来学习用户特征自注意力层的输出结果和LSTM的隐藏层输出的连接表示：其中，

7.2把v_i传入softmax层进行分类：是需要训练的参数。是基于句内词对关系和上下文用户特征的反讽模型的输出结果。

Claims

1.基于句内词对关系和上下文用户特征的反讽检测方法，其特征在于包括如下步骤：

步骤1、对需要进行反讽检测的评论文本进行预处理；

2.根据权利要求1所述的基于句内词对关系和上下文用户特征的反讽检测方法，其特征在于步骤1具体实现如下：

1.2.删除少于5个单词的评论；

1.3.用W2V词向量模型将每一条评论表示为词向量形式输入序列n_i是句子长度；

步骤2具体实现如下：

2.1.对输入序列中的每个单词对关系(词与词之间)进行建模：其中，是需要通过训练学习的参数；表示拼接操作；s_xy表示单词对中的两个单词之间的近似度分值，s是个对称矩阵；

2.2.在对称矩阵s上逐行执行最大池化操作，计算得到注意力向量a＝softmax(maxs)，是表示自注意力权重的向量；

2.3.使用向量a来学习输入序列的加权表示：是输入序列的内部表示，且

3.根据权利要求2所述的基于句内词对关系和上下文用户特征的反讽检测方法，其特征在于步骤3具体实现如下：

3.1.每条评论文本后添加特殊分隔符<END>；

3.2.收集每个用户的所有文本，创建成一个文档；

3.3.将每个用户所发表的评论作为输入，u_i表示第i个用户，共N_u个用户；

3.4.通过Paragraph Vector得到每个用户对应的评论特征d_i；

3.5.把所有用户的评论都映射到矩阵中，评论中的单词都被映射到矩阵d_s是词向量维度；

3.6.给定用户u_i的评论文档共n_i个单词，在窗口大小为k的滑动窗口内对文档向量和词向量计算平均对数概率：

3.7.分别对滑动窗口内相邻的上下文词向量和文档向量d_i求平均，再应用softmax操作得到其中，和是softmax的参数，n是单词个数，h(·)由文档向量D中的d_i和评论单词矩阵W中的词向量w_t-k，...，w_t+k求平均所得；

3.8.矩阵D学习到用户的文档表示向量；该文档表示向量可以代表用户书写风格特征d_i。

4.根据权利要求3所述的基于句内词对关系和上下文用户特征的反讽检测方法，其特征在于步骤4具体实现如下：

4.1.对于用户u_i，遍历u_i所有的v_i条评论将它们作为预训练性格检测CNN模型的输入；

4.2.激活CNN最后的隐藏层向量，获得性格特征向量

4.3.计算该用户发表的所有评论对应的性格特征的期望，得到该用户的整体性格特征表示

5.根据权利要求4所述的基于句内词对关系和上下文用户特征的反讽检测方法，其特征在于步骤5具体实现如下：

5.1.采用典型相关分析算法对步骤3.8中的用户书写风格特征d_i和步骤4.3中的用户个性特征p_i进行特征融合，得到最终的用户特征A₁和A₂是训练参数；把记作

6.根据权利要求5所述的基于句内词对关系和上下文用户特征的反讽检测方法，其特征在于步骤6具体实现如下：

6.1.用一个初始的LSTM模型对固定长度的句子输入进行编码，如果句子编码后的向量长度不够，则末尾用数字0进行补齐；

6.2.LSTM隐藏层的输出是隐藏层特征矩阵[h₁，h₂，...，h_N]，表示句子级别特征；隐藏层特征h_i，i∈[1，n_i]与词向量w_i是一一对应的关系；

6.3.将LSTM序列建模后得到的最后一个隐藏层表示记作

7.根据权利要求6所述的基于句内词对关系和上下文用户特征的反讽检测方法，其特征在于步骤7具体实现如下：

7.1.利用非线性投影ReLU来学习用户特征自注意力层的输出结果和LSTM的隐藏层输出的连接表示：其中，

7.2.把v_i传入softmax层进行分类：是需要训练的参数；是基于句内词对关系和上下文用户特征的反讽模型的输出结果。