CN111159405B - 基于背景知识的讽刺检测方法 - Google Patents

基于背景知识的讽刺检测方法 Download PDF

Info

Publication number
CN111159405B
CN111159405B CN201911387640.1A CN201911387640A CN111159405B CN 111159405 B CN111159405 B CN 111159405B CN 201911387640 A CN201911387640 A CN 201911387640A CN 111159405 B CN111159405 B CN 111159405B
Authority
CN
China
Prior art keywords
text
background knowledge
vector
ironic
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911387640.1A
Other languages
English (en)
Other versions
CN111159405A (zh
Inventor
杜宇
李童
杨震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201911387640.1A priority Critical patent/CN111159405B/zh
Publication of CN111159405A publication Critical patent/CN111159405A/zh
Application granted granted Critical
Publication of CN111159405B publication Critical patent/CN111159405B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于背景知识的讽刺检测方法,该方法步骤如下:步骤(1)获取讽刺文本数据集SARC;步骤(2)数据预处理;步骤(3)提取目标文本中的实体并构建实体列表;步骤(4)构建背景知识并获取背景知识的句向量;步骤(5)训练讽刺检测模型;步骤(6)预测讽刺文本。本方法利用百科搜索引擎构建与数据集文本相关的背景知识,通过加入相关的背景知识来解决文本是否为讽刺的二分类问题。采用深度学习方法对文本进行分类。实验结果表明,加入相关的背景知识对文本的讽刺检测性能有明显的提升。

Description

基于背景知识的讽刺检测方法
技术领域
本发明涉及深度学习的情感分析方法,属于互联网自然语言处理领域。
背景技术
讽刺作为社交媒体中常用到的表达修辞手法,说话者通过讽刺来表达实际的不同于文字字面内容的隐式情感,这种情感多是否定、嘲笑、批评等意思。讽刺的出现也对社交媒体情感分析与舆论分析带来了巨大的困难。
语言学中,句子中出现的情感词、标点符号都被作为讽刺的标志。讽刺检测之前的工作多是基于文本内容本身来分析,通过句子中出现的情感词及句子表达的情感、情绪等特征来判断是否含有讽刺。但是在社交媒体中,用户发表的内容多为口语化的短文本,有些句子中根本没有上述提到的讽刺标志。如果仅通过句子本身内容,很难进行识别。然而通过文本中的背景知识有助于分析句子实际要表达的语义信息。
发明内容
本发明的目的在于提出了一种基于背景知识的讽刺检测方法,本方法在基于文本本身进行讽刺检测的基础上,利用百科搜索引擎为文本添加涉及到的背景知识的特征信息来解决文本是否含有讽刺的分类问题。
为实现上述目的,本发明采用的技术方法为基于背景知识的讽刺检测方法,该方法的实现步骤如下:
步骤(1)获取讽刺文本数据集SARC
获取Reddit英文论坛用户评论的讽刺文本英文数据集SARC,该数据集包括每条评论的发表用户名称和所属话题类别,话题包括政治、科技、教育、电影等。数据集中讽刺标签为1,非讽刺标签为0。
步骤(2)数据预处理
通过去除停用词、英文单词词形还原和去除特殊符号对数据集进行预处理。步骤(3)提取数据集中的实体并构建实体列表
通过自然语言处理工具包Stanford和NLTK对数据集进行命名实体识别,识别的实体类别根据具体领域来设定。如果涉及到的是政治领域,则可以识别出包含人名、宗教或政治团体、地名、机构、战争、法律的实体。通过百科搜索引擎对实体进行搜索,取网页中的锚文本作为数据集中提取出的实体的拓展,一起构建出一个针对数据集的实体列表E。
步骤(4)构建背景知识并获取背景知识的句向量
步骤(4.1)构建背景知识
1)实体列表E={e1,e2,.....eN},N为实体列表中的实体个数。
2)使用Wikipedia API分别对实体列表E中的实体进行搜索,将搜索到的页面文本作为目标文本的背景知识。
步骤(4.2)获取背景知识的句向量
1)数据集的一条背景知识序列为w1,w2,w3,......wT,T为这条背景知识的单词总数;将每一条背景知识中的每个单词映射到一个唯一的向量,由矩阵X中的一列表示;X为随机初始化生成的,一条背景知识的单词向量序列为x1,x2,x3,......xT,xq为这条背景知识中第q个单词的单词向量;
2)根据单词wt计算单词wt的平均log可能性,t∈(1,T)。滑动窗口为k,取wt两侧k个单词的向量作为算法的输入。di为数据集中第i条背景知识映射成的一个唯一向量。单词wt的平均log可能性即为目标函数,计算公式如下:
其中wt的条件概率通过Softmax函数进行计算,计算公式如下:
上述公式中的yiq为第i条背景知识中第q个单词的概率,q∈(t-k,t+k),为第i条背景知识中单词wt的概率。其中,y表示单词的概率计算如下:
y=Udh(di,xt-k,....,xt+k;D,X)+b
Ud和b为Softmax的参数。每一条背景知识都被映射成一个唯一的向量di,由矩阵D的一列表示。每一条背景知识的每个单词都被映射到一个唯一的向量,由矩阵X中的一列表示。h(di,xt-k,....,xt+k;D,X)是由X和D级联或平均构成。D和X首先进行随机初始化,然后通过目标函数的优化方法不断优化后得到拟合数据集的向量矩阵D、X。优化方法采用的是随机梯度下降进行训练,梯度由反向传播获取。整个算法当目标函数取得最大值时,得到的di即为数据集中第i条背景知识的句向量。
步骤(5)训练讽刺检测模型
步骤(5.1)卷积神经网络模型提取数据集文本特征
数据集中第i条文本通过卷积神经网络模型得到特征向量ci
步骤(5.2)将文本特征向量与文本对应背景知识向量拼接
将第i条文本的特征向量ci,和第i条文本对应的背景知识句向量di连接起来,形成了一个统一的向量表示 为向量拼接操作符;
步骤(5.3)对拼接后的向量vi进行训练
通过Softmax计算第i条文本预测为j类别的概率pj,计算如下:
pi,j=softmax(wcvi+bc)
上述公式中的wc和bc为随机初始化的向量,讽刺检测为二分类问题,分别计算讽刺和非讽刺两个类别的概率,概率大的为该序列最后预测的类别。
其中,损失函数为
其中N为数据集训练集文本个数,pi为第i条文本真实值的one-hot向量,j为第i条文本的标签,pi,j为第i条文本模型的预测为j类的概率,使用随机梯度下降进行训练,使损失函数值不断减小,梯度由反向传播获取,当损失函数取最小值时,则模型训练完成,得到讽刺模型参数wc和bc
步骤(6)预测讽刺文本
将未经标签标注的测试集文本输入模型中,预测文本结果是否为讽刺,预测标签为1为讽刺,预测标签为0则为非讽刺。
有益效果
本方法采用命名实体识别抽取出文本中重要的实体关键词,通过Wikipedia和实体关键词构建了文本相关的背景知识,采用深度学习方法进行了模型的训练与未标注文本预测。通过对数据集中的测试集进行测试,获取到的实验结果表明,加入背景知识对讽刺检测性能有明显提升(如图3所示)。
附图说明
图1:实验步骤流程图
图2:实验系统架构图
图3:实验性能对比图
具体实施方式
为实现上述目的,本发明采用的技术方法为基于背景知识的讽刺检测方法,该方法的实现步骤如下:
步骤(1)获取讽刺文本数据集SARC
获取讽刺文本数据集SARC,该数据集包括每条评论的发表用户名称和所属话题类别,话题包括政治、科技、教育、电影等。数据集中讽刺标签为1,非讽刺标签为0。选取数据集中政治主题下的评论8000条作为训练集,2000条作为测试集。其中讽刺类别与非讽刺类别占比为1:1。
步骤(2)数据预处理
通过去除停用词、英文单词词形还原和去除特殊符号对数据集进行预处理。步骤(3)提取目标文本中的实体并构建实体列表
通过自然语言处理工具包Stanford和NLTK对数据集进行命名实体识别,识别的实体类型包括人名、宗教或政治团体、地名、机构、战争、法律的实体。通过百科搜索引擎对实体进行搜索,取网页中的锚文本作为数据集中提取出的实体的拓展。
步骤(4)构建背景知识并获取背景知识的句向量
步骤(4.1)构建背景知识
1)实体列表E={e1,e2,.....eN},N为实体列表中的实体个数。
2)使用Wikipedia API分别对实体列表E中的实体进行搜索,将搜索到的页面文本作为目标文本的背景知识。
步骤(4.2)获取背景知识的句向量
1)数据集的一条背景知识序列为w1,w2,w3,......wT,T为这条背景知识的单词总数;将每一条背景知识中的每个单词映射到一个唯一的向量,由矩阵X中的一列表示;X为随机初始化生成的,一条背景知识的单词向量序列为x1,x2,x3,......xT,xq为这条背景知识中第q个单词的单词向量;
2)根据单词wt计算单词wt的平均log可能性,t∈(1,T)。滑动窗口为k,取wt两侧k个单词的向量作为算法的输入。di为数据集中第i条背景知识映射成的一个唯一向量。单词wt的平均log可能性即为目标函数,计算公式如下:
其中wt的条件概率通过Softmax函数进行计算,计算公式如下:
上述公式中的yiq为第i条背景知识中第q个单词的概率,q∈(t-k,t+k),为第i条背景知识中单词wt的概率。其中,y表示单词的概率计算如下:
y=Udh(di,xt-k,....,xt+k;D,X)+b
Ud和b为Softmax的参数。每一条背景知识都被映射成一个唯一的向量di,由矩阵D的一列表示。每一条背景知识的每个单词都被映射到一个唯一的向量,由矩阵X中的一列表示。h(di,xt-k,....,xt+k;D,X)是由X和D级联或平均构成。D和X首先进行随机初始化,然后通过目标函数的优化方法不断优化后得到拟合数据集的向量矩阵D、X。优化方法采用的是随机梯度下降进行训练,梯度由反向传播获取。整个算法当目标函数取得最大值时,得到的di即为数据集中第i条背景知识的句向量。
步骤(5)训练讽刺检测模型
步骤(5.1)卷积神经网络模型提取数据集文本特征
数据集中第i条文本通过卷积神经网络模型得到特征向量ci
步骤(5.2)将文本特征向量与文本对应背景知识向量拼接
将第i条文本的特征向量ci,和第i条文本对应的背景知识句向量di连接起来,形成了一个统一的向量表示 为向量拼接操作符;
步骤(5.3)对拼接后的向量vi进行训练
通过Softmax计算ith文本预测为j类别的概率pj,计算如下:
pi,j=softmax(wcvi+bc)
上述公式中的wc和bc为随机初始化的向量,讽刺检测为二分类问题,分别计算讽刺和非讽刺两个类别的概率,概率大的为该序列最后预测的类别。
其中,损失函数为
其中N为数据集训练集文本个数,pi为第i条文本真实值的one-hot向量,j为第i条文本的标签,pi,j为第i条文本模型的预测为j类的概率,使用随机梯度下降进行训练,使损失函数值不断减小,梯度由反向传播获取,当损失函数取最小值时,则模型训练完成,得到讽刺模型参数wc和bc
步骤(6)预测讽刺文本
将未经标签标注的测试集文本输入模型中,预测文本结果是否为讽刺,预测标签为1为讽刺,预测标签为0则为非讽刺。
本方法采用命名实体识别抽取出文本中重要的实体关键词,通过Wikipedia和实体关键词构建了文本相关的背景知识,采用深度学习方法进行了模型的训练与未标注文本的预测。通过对数据集中的测试集进行测试,获取到的实验结果表明,加入背景知识对讽刺检测性能有明显提升(如图3所示)。

Claims (5)

1.基于背景知识的讽刺检测方法,其特征在于:该方法的步骤如下,
步骤(1)获取讽刺文本数据集;
步骤(2)数据预处理;
步骤(3)提取数据集中的实体并构建实体列表;
对数据集进行命名实体识别,识别的实体类型包括人名、宗教或政治团体、地名、机构、战争、法律的实体,通过百科搜索引擎对实体进行搜索,取网页中的锚文本作为数据集中提取出的实体的拓展,一起构建出一个针对数据集的实体列表;
步骤(4)构建背景知识并获取背景知识的句向量;
分别对构建的实体列表中的实体在百科搜索引擎中检索其相关文本信息,并且将相关文本信息作为数据集的背景知识,通过doc2vec模型训练获取背景知识的句向量;
步骤(5)训练讽刺检测模型;
步骤(6)预测讽刺文本;
使用数据集中的训练集对模型进行训练调参后,得到讽刺检测模型参数,使用模型对测试集文本进行预测测试,预测文本的类别,类别包含讽刺与非讽刺两类;
其中,步骤(5)的实施过程如下:
步骤(5.1)卷积神经网络模型提取数据集文本特征;
数据集中第i条文本通过卷积神经网络模型得到文本特征向量ci
步骤(5.2)将文本特征向量与文本对应的背景知识句向量拼接;
将第i条文本的特征向量ci,和第i条文本对应的背景知识句向量di连接起来,形成了一个统一的向量表示⊕为向量拼接操作符;
步骤(5.3)对拼接后的向量vi进行训练;
通过Softmax计算第i条文本预测为j类别的概率pj,计算如下:
pi,j=softmax(wcvi+bc)
上述公式中的wc和bc为随机初始化的向量,讽刺检测为二分类问题,分别计算讽刺和非讽刺两个类别的概率,概率大的为该向量最后预测的类别;
其中,损失函数为:
其中N为数据集训练集文本个数,pi为第i条文本真实值的one-hot向量,j为第i条文本的标签,pi,j为第i条文本模型的预测为j类的概率,使用随机梯度下降进行训练,使损失函数值不断减小,梯度由反向传播获取,当损失函数取最小值时,则模型训练完成,得到讽刺模型参数wc和bc
2.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:步骤1中所述的数据集为Reddit英文论坛用户评论的讽刺文本英文数据集SARC,该数据集包括每条评论的发表用户名称和所属话题类别,话题包括政治、科技、教育、电影;数据集中讽刺类别标签为1,非讽刺类别标签为0。
3.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:步骤2所述的预处理包括去除停用词、英文单词词形还原和去除特殊符号。
4.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:步骤3中所述的命名实体识别通过自然语言处理工具包Stanford和NLTK实现。
5.根据权利要求1所述的基于背景知识的讽刺检测方法,其特征在于:获取背景知识句向量的算法描述如下:
1)数据集的一条背景知识序列为w1,w2,w3,……wT,T为这条背景知识的单词总数;将每一条背景知识中的每个单词映射到一个唯一的向量,由矩阵X中的一列表示;X为随机初始化生成的,一条背景知识的单词向量序列为x1,x2,x3,……xT,xq为这条背景知识中第q个单词的单词向量;
2)根据单词wt计算单词wt的平均log可能性,t∈(1,T):滑动窗口为k,取wt两侧k个单词的向量作为算法的输入;di为数据集中第i条背景知识映射成的一个唯一向量,单词wt的平均log可能性即为目标函数,计算公式如下:
其中wt的条件概率通过Softmax函数进行计算,计算公式如下:
上述公式中的yiq为第i条背景知识中第q个单词的概率,q∈(t-k,t+k),为第i条背景知识中单词wt的概率,其中,y表示单词的概率,计算公式如下:
y=Udh(di,xt-k,....,xt+k;D,X)+b
Ud和b为Softmax的参数,每一条背景知识都被映射成一个唯一的向量di,由矩阵D的一列表示,每一条背景知识的每个单词都被映射到一个唯一的向量,由矩阵X中的一列表示,h(di,xt-k,....,xt+k;D,X)是由X和D级联或平均构成;D和X首先进行随机初始化,然后通过目标函数的优化方法不断优化后得到拟合数据集的向量矩阵D、X;优化方法采用的是随机梯度下降进行训练,梯度由反向传播获取,整个算法当目标函数取得最大值时,得到的di即为数据集中第i条背景知识的句向量。
CN201911387640.1A 2019-12-27 2019-12-27 基于背景知识的讽刺检测方法 Active CN111159405B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911387640.1A CN111159405B (zh) 2019-12-27 2019-12-27 基于背景知识的讽刺检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911387640.1A CN111159405B (zh) 2019-12-27 2019-12-27 基于背景知识的讽刺检测方法

Publications (2)

Publication Number Publication Date
CN111159405A CN111159405A (zh) 2020-05-15
CN111159405B true CN111159405B (zh) 2023-09-12

Family

ID=70558990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911387640.1A Active CN111159405B (zh) 2019-12-27 2019-12-27 基于背景知识的讽刺检测方法

Country Status (1)

Country Link
CN (1) CN111159405B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112287197B (zh) * 2020-09-23 2022-07-19 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN113806542B (zh) * 2021-09-18 2024-05-17 上海幻电信息科技有限公司 文本分析方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018182501A1 (en) * 2017-03-30 2018-10-04 Agency For Science, Technology And Research Method and system of intelligent semtiment and emotion sensing with adaptive learning
CN109766435A (zh) * 2018-11-06 2019-05-17 武汉斗鱼网络科技有限公司 弹幕类别识别方法、装置、设备及存储介质
CN110134962A (zh) * 2019-05-17 2019-08-16 中山大学 一种基于内部注意力的跨语言纯文本反讽识别方法
CN110162625A (zh) * 2019-04-19 2019-08-23 杭州电子科技大学 基于句内词对关系和上下文用户特征的反讽检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018182501A1 (en) * 2017-03-30 2018-10-04 Agency For Science, Technology And Research Method and system of intelligent semtiment and emotion sensing with adaptive learning
CN109766435A (zh) * 2018-11-06 2019-05-17 武汉斗鱼网络科技有限公司 弹幕类别识别方法、装置、设备及存储介质
CN110162625A (zh) * 2019-04-19 2019-08-23 杭州电子科技大学 基于句内词对关系和上下文用户特征的反讽检测方法
CN110134962A (zh) * 2019-05-17 2019-08-16 中山大学 一种基于内部注意力的跨语言纯文本反讽识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Kumar Ravi 等.Irony Detection Using Neural Network Language Model, Psycholinguistic Features and Text Mining.Proc. 2018 IEEE 17th Int’l Conf. on Cognitive Informatics & Cognitive Computing (ICCI*CC’18).2018,全文. *

Also Published As

Publication number Publication date
CN111159405A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
Arora et al. Character level embedding with deep convolutional neural network for text normalization of unstructured data for Twitter sentiment analysis
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN108255805B (zh) 舆情分析方法及装置、存储介质、电子设备
CN108319666B (zh) 一种基于多模态舆情分析的供电服务评估方法
WO2019153737A1 (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN108446271B (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
Dashtipour et al. Exploiting deep learning for Persian sentiment analysis
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN104471568A (zh) 对自然语言问题的基于学习的处理
KR102041621B1 (ko) 인공지능 음성인식 기반 기계학습의 대규모 말뭉치 구축을 위한 대화형 말뭉치 분석 서비스 제공 시스템 및 구축 방법
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
KR20200105057A (ko) 질의 문장 분석을 위한 질의 자질 추출 장치 및 방법
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
Prabowo et al. Hierarchical multi-label classification to identify hate speech and abusive language on Indonesian twitter
CN111444704A (zh) 基于深度神经网络的网络安全关键词抽取方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
Wu et al. Inferring users' emotions for human-mobile voice dialogue applications
CN111815426B (zh) 一种涉及金融投研的数据处理方法及终端
Ajees et al. A named entity recognition system for Malayalam using neural networks
CN115878847B (zh) 基于自然语言的视频引导方法、系统、设备及存储介质
Suman et al. Gender Age and Dialect Recognition using Tweets in a Deep Learning Framework-Notebook for FIRE 2019.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant