CN111159405B

CN111159405B - 基于背景知识的讽刺检测方法

Info

Publication number: CN111159405B
Application number: CN201911387640.1A
Authority: CN
Inventors: 杜宇; 李童; 杨震
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2023-09-12
Anticipated expiration: 2039-12-27
Also published as: CN111159405A

Abstract

本发明公开了一种基于背景知识的讽刺检测方法，该方法步骤如下：步骤(1)获取讽刺文本数据集SARC；步骤(2)数据预处理；步骤(3)提取目标文本中的实体并构建实体列表；步骤(4)构建背景知识并获取背景知识的句向量；步骤(5)训练讽刺检测模型；步骤(6)预测讽刺文本。本方法利用百科搜索引擎构建与数据集文本相关的背景知识，通过加入相关的背景知识来解决文本是否为讽刺的二分类问题。采用深度学习方法对文本进行分类。实验结果表明，加入相关的背景知识对文本的讽刺检测性能有明显的提升。

Description

基于背景知识的讽刺检测方法

技术领域

本发明涉及深度学习的情感分析方法，属于互联网自然语言处理领域。

背景技术

讽刺作为社交媒体中常用到的表达修辞手法，说话者通过讽刺来表达实际的不同于文字字面内容的隐式情感，这种情感多是否定、嘲笑、批评等意思。讽刺的出现也对社交媒体情感分析与舆论分析带来了巨大的困难。

语言学中，句子中出现的情感词、标点符号都被作为讽刺的标志。讽刺检测之前的工作多是基于文本内容本身来分析，通过句子中出现的情感词及句子表达的情感、情绪等特征来判断是否含有讽刺。但是在社交媒体中，用户发表的内容多为口语化的短文本，有些句子中根本没有上述提到的讽刺标志。如果仅通过句子本身内容，很难进行识别。然而通过文本中的背景知识有助于分析句子实际要表达的语义信息。

发明内容

本发明的目的在于提出了一种基于背景知识的讽刺检测方法，本方法在基于文本本身进行讽刺检测的基础上，利用百科搜索引擎为文本添加涉及到的背景知识的特征信息来解决文本是否含有讽刺的分类问题。

为实现上述目的，本发明采用的技术方法为基于背景知识的讽刺检测方法，该方法的实现步骤如下：

步骤(1)获取讽刺文本数据集SARC

获取Reddit英文论坛用户评论的讽刺文本英文数据集SARC，该数据集包括每条评论的发表用户名称和所属话题类别，话题包括政治、科技、教育、电影等。数据集中讽刺标签为1，非讽刺标签为0。

步骤(2)数据预处理

通过去除停用词、英文单词词形还原和去除特殊符号对数据集进行预处理。步骤(3)提取数据集中的实体并构建实体列表

通过自然语言处理工具包Stanford和NLTK对数据集进行命名实体识别，识别的实体类别根据具体领域来设定。如果涉及到的是政治领域，则可以识别出包含人名、宗教或政治团体、地名、机构、战争、法律的实体。通过百科搜索引擎对实体进行搜索，取网页中的锚文本作为数据集中提取出的实体的拓展，一起构建出一个针对数据集的实体列表E。

步骤(4)构建背景知识并获取背景知识的句向量

步骤(4.1)构建背景知识

1)实体列表E＝{e₁,e₂,.....e_N}，N为实体列表中的实体个数。

2)使用Wikipedia API分别对实体列表E中的实体进行搜索，将搜索到的页面文本作为目标文本的背景知识。

步骤(4.2)获取背景知识的句向量

1)数据集的一条背景知识序列为w₁,w₂,w₃,......w_T，T为这条背景知识的单词总数；将每一条背景知识中的每个单词映射到一个唯一的向量，由矩阵X中的一列表示；X为随机初始化生成的，一条背景知识的单词向量序列为x₁,x₂,x₃,......x_T，x_q为这条背景知识中第q个单词的单词向量；

2)根据单词w_t计算单词w_t的平均log可能性，t∈(1,T)。滑动窗口为k，取w_t两侧k个单词的向量作为算法的输入。d_i为数据集中第i条背景知识映射成的一个唯一向量。单词w_t的平均log可能性即为目标函数，计算公式如下：

其中w_t的条件概率通过Softmax函数进行计算，计算公式如下：

上述公式中的y_iq为第i条背景知识中第q个单词的概率，q∈(t-k,t+k)，为第i条背景知识中单词w_t的概率。其中，y表示单词的概率计算如下：

y＝U_dh(d_i,x_t-k,....,x_t+k；D,X)+b

U_d和b为Softmax的参数。每一条背景知识都被映射成一个唯一的向量d_i，由矩阵D的一列表示。每一条背景知识的每个单词都被映射到一个唯一的向量，由矩阵X中的一列表示。h(d_i,x_t-k,....,x_t+k；D,X)是由X和D级联或平均构成。D和X首先进行随机初始化，然后通过目标函数的优化方法不断优化后得到拟合数据集的向量矩阵D、X。优化方法采用的是随机梯度下降进行训练，梯度由反向传播获取。整个算法当目标函数取得最大值时，得到的d_i即为数据集中第i条背景知识的句向量。

步骤(5)训练讽刺检测模型

步骤(5.1)卷积神经网络模型提取数据集文本特征

数据集中第i条文本通过卷积神经网络模型得到特征向量c_i

步骤(5.2)将文本特征向量与文本对应背景知识向量拼接

将第i条文本的特征向量c_i，和第i条文本对应的背景知识句向量d_i连接起来，形成了一个统一的向量表示为向量拼接操作符；

步骤(5.3)对拼接后的向量v_i进行训练

通过Softmax计算第i条文本预测为j类别的概率p_j，计算如下：

p_i,j＝softmax(w_cv_i+b_c)

上述公式中的w_c和b_c为随机初始化的向量，讽刺检测为二分类问题，分别计算讽刺和非讽刺两个类别的概率，概率大的为该序列最后预测的类别。

其中，损失函数为

其中N为数据集训练集文本个数，p_i为第i条文本真实值的one-hot向量，j为第i条文本的标签，p_i,j为第i条文本模型的预测为j类的概率，使用随机梯度下降进行训练，使损失函数值不断减小，梯度由反向传播获取，当损失函数取最小值时，则模型训练完成，得到讽刺模型参数w_c和b_c。

步骤(6)预测讽刺文本

将未经标签标注的测试集文本输入模型中，预测文本结果是否为讽刺，预测标签为1为讽刺，预测标签为0则为非讽刺。

有益效果

本方法采用命名实体识别抽取出文本中重要的实体关键词，通过Wikipedia和实体关键词构建了文本相关的背景知识，采用深度学习方法进行了模型的训练与未标注文本预测。通过对数据集中的测试集进行测试，获取到的实验结果表明，加入背景知识对讽刺检测性能有明显提升(如图3所示)。

附图说明

图1：实验步骤流程图

图2：实验系统架构图

图3：实验性能对比图

具体实施方式

步骤(1)获取讽刺文本数据集SARC

获取讽刺文本数据集SARC，该数据集包括每条评论的发表用户名称和所属话题类别，话题包括政治、科技、教育、电影等。数据集中讽刺标签为1，非讽刺标签为0。选取数据集中政治主题下的评论8000条作为训练集，2000条作为测试集。其中讽刺类别与非讽刺类别占比为1：1。

步骤(2)数据预处理

通过去除停用词、英文单词词形还原和去除特殊符号对数据集进行预处理。步骤(3)提取目标文本中的实体并构建实体列表

通过自然语言处理工具包Stanford和NLTK对数据集进行命名实体识别，识别的实体类型包括人名、宗教或政治团体、地名、机构、战争、法律的实体。通过百科搜索引擎对实体进行搜索，取网页中的锚文本作为数据集中提取出的实体的拓展。

步骤(4)构建背景知识并获取背景知识的句向量

步骤(4.1)构建背景知识

1)实体列表E＝{e₁,e₂,.....e_N}，N为实体列表中的实体个数。

步骤(4.2)获取背景知识的句向量

其中w_t的条件概率通过Softmax函数进行计算，计算公式如下：

y＝U_dh(d_i,x_t-k,....,x_t+k；D,X)+b

步骤(5)训练讽刺检测模型

步骤(5.1)卷积神经网络模型提取数据集文本特征

数据集中第i条文本通过卷积神经网络模型得到特征向量c_i

步骤(5.2)将文本特征向量与文本对应背景知识向量拼接

步骤(5.3)对拼接后的向量vi进行训练

通过Softmax计算i^th文本预测为j类别的概率p_j，计算如下：

p_i,j＝softmax(w_cv_i+b_c)

其中，损失函数为

步骤(6)预测讽刺文本

本方法采用命名实体识别抽取出文本中重要的实体关键词，通过Wikipedia和实体关键词构建了文本相关的背景知识，采用深度学习方法进行了模型的训练与未标注文本的预测。通过对数据集中的测试集进行测试，获取到的实验结果表明，加入背景知识对讽刺检测性能有明显提升(如图3所示)。

Claims

1.基于背景知识的讽刺检测方法，其特征在于：该方法的步骤如下，

步骤(1)获取讽刺文本数据集；

步骤(2)数据预处理；

步骤(3)提取数据集中的实体并构建实体列表；

对数据集进行命名实体识别，识别的实体类型包括人名、宗教或政治团体、地名、机构、战争、法律的实体，通过百科搜索引擎对实体进行搜索，取网页中的锚文本作为数据集中提取出的实体的拓展，一起构建出一个针对数据集的实体列表；

步骤(4)构建背景知识并获取背景知识的句向量；

分别对构建的实体列表中的实体在百科搜索引擎中检索其相关文本信息，并且将相关文本信息作为数据集的背景知识，通过doc2vec模型训练获取背景知识的句向量；

步骤(5)训练讽刺检测模型；

步骤(6)预测讽刺文本；

使用数据集中的训练集对模型进行训练调参后，得到讽刺检测模型参数，使用模型对测试集文本进行预测测试，预测文本的类别，类别包含讽刺与非讽刺两类；

其中，步骤(5)的实施过程如下：

步骤(5.1)卷积神经网络模型提取数据集文本特征；

数据集中第i条文本通过卷积神经网络模型得到文本特征向量c_i；

步骤(5.2)将文本特征向量与文本对应的背景知识句向量拼接；

将第i条文本的特征向量c_i，和第i条文本对应的背景知识句向量d_i连接起来，形成了一个统一的向量表示⊕为向量拼接操作符；

步骤(5.3)对拼接后的向量v_i进行训练；

通过Softmax计算第i条文本预测为j类别的概率p_j，计算如下：

p_i,j＝softmax(w_cv_i+b_c)

上述公式中的w_c和b_c为随机初始化的向量，讽刺检测为二分类问题，分别计算讽刺和非讽刺两个类别的概率，概率大的为该向量最后预测的类别；

其中，损失函数为：

2.根据权利要求1所述的基于背景知识的讽刺检测方法，其特征在于：步骤1中所述的数据集为Reddit英文论坛用户评论的讽刺文本英文数据集SARC，该数据集包括每条评论的发表用户名称和所属话题类别，话题包括政治、科技、教育、电影；数据集中讽刺类别标签为1，非讽刺类别标签为0。

3.根据权利要求1所述的基于背景知识的讽刺检测方法，其特征在于：步骤2所述的预处理包括去除停用词、英文单词词形还原和去除特殊符号。

4.根据权利要求1所述的基于背景知识的讽刺检测方法，其特征在于：步骤3中所述的命名实体识别通过自然语言处理工具包Stanford和NLTK实现。

5.根据权利要求1所述的基于背景知识的讽刺检测方法，其特征在于：获取背景知识句向量的算法描述如下：

1)数据集的一条背景知识序列为w₁,w₂,w₃,……w_T，T为这条背景知识的单词总数；将每一条背景知识中的每个单词映射到一个唯一的向量，由矩阵X中的一列表示；X为随机初始化生成的，一条背景知识的单词向量序列为x₁,x₂,x₃,……x_T，x_q为这条背景知识中第q个单词的单词向量；

2)根据单词w_t计算单词w_t的平均log可能性，t∈(1,T)：滑动窗口为k，取w_t两侧k个单词的向量作为算法的输入；d_i为数据集中第i条背景知识映射成的一个唯一向量，单词w_t的平均log可能性即为目标函数，计算公式如下：

其中w_t的条件概率通过Softmax函数进行计算，计算公式如下：

上述公式中的y_iq为第i条背景知识中第q个单词的概率，q∈(t-k,t+k)，为第i条背景知识中单词w_t的概率，其中，y表示单词的概率，计算公式如下：

y＝U_dh(d_i,x_t-k,....,x_t+k；D,X)+b

U_d和b为Softmax的参数，每一条背景知识都被映射成一个唯一的向量d_i，由矩阵D的一列表示，每一条背景知识的每个单词都被映射到一个唯一的向量，由矩阵X中的一列表示，h(d_i,x_t-k,....,x_t+k；D,X)是由X和D级联或平均构成；D和X首先进行随机初始化，然后通过目标函数的优化方法不断优化后得到拟合数据集的向量矩阵D、X；优化方法采用的是随机梯度下降进行训练，梯度由反向传播获取，整个算法当目标函数取得最大值时，得到的d_i即为数据集中第i条背景知识的句向量。