CN110162625A - 基于句内词对关系和上下文用户特征的反讽检测方法 - Google Patents

基于句内词对关系和上下文用户特征的反讽检测方法 Download PDF

Info

Publication number
CN110162625A
CN110162625A CN201910315886.1A CN201910315886A CN110162625A CN 110162625 A CN110162625 A CN 110162625A CN 201910315886 A CN201910315886 A CN 201910315886A CN 110162625 A CN110162625 A CN 110162625A
Authority
CN
China
Prior art keywords
user
vector
sentence
word
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910315886.1A
Other languages
English (en)
Other versions
CN110162625B (zh
Inventor
姜明
张雯
张旻
汤景凡
戚铖杰
腾海滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910315886.1A priority Critical patent/CN110162625B/zh
Publication of CN110162625A publication Critical patent/CN110162625A/zh
Application granted granted Critical
Publication of CN110162625B publication Critical patent/CN110162625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于句内词对关系和上下文用户特征的反讽检测方法。本发明用自注意力机制(也称内部注意力机制)去分析文本中情感极性矛盾的词对。通过学习并融合用户的书写风格特征和性格特征得到用户嵌入(user embeddings),作为反讽检测的上下文信息。同时结合LSTM网络编码文本的序列信息。这种方法能够更好的检测反讽表达,在反讽表达明显或者隐晦的情况下都可以取得不错的准确率。其中具体发明的基于句内词对关系和上下文用户特征的反讽检测模型。本发明为反讽检测提供判别依据,有利于判别没有明显矛盾词对的反讽文本。从这两个角度提高了反讽检测的准确率。

Description

基于句内词对关系和上下文用户特征的反讽检测方法
技术领域
本发明涉及情感分类领域,具体涉及一种基于句内词对关系和上下文用户特征的反讽检测方法。
背景技术
反语(Irony)和讽刺(Sarcasm)是社会媒体中常用的修辞方法。反语是指运用跟本意相反的词语来表达此意,却含有否定、讽刺以及嘲弄的意思。讽刺则是用比喻、夸张等手法对人或事进行揭露、批评或嘲笑。关于反语和讽刺的关系,可以认为讽刺是包含情绪(比如攻击性情绪)的一种反语。本文将反语和讽刺统称为“反讽”,不再对反语和讽刺进行区分。反讽的比喻性质对情感分析任务提出了巨大的挑战。
目前,反讽检测研究主要存在以下难点:(1)单纯的文本信息,缺乏说话人的性格以及说话人的写作风格等信息,难以判断是否是反讽;(2)由于社交媒体或者会话中,以短文本多见,文本长度制约了反讽检测模型对上下文信息的获取;(3)反讽类型的表达方式与字面意思无关,需要获取深层的语义信息,才能准确的检测反讽;
现有方案大部分依赖LSTM或GRU等文本序列模型。首先,这类序列建模的方法无法有效挖掘句子内部词与词之间的矛盾不协调,不能捕获长距离依赖。其次,在句中不存在情感极性明显相反的词对的情况下,LSTM无法从上下文中学习到重要的用户背景等语境信息。
发明内容
本发明的目的是针对现有反讽检测技术的不足,提供一种新的对网络文本进行反讽检测的方法。提出了基于句内词对关系和上下文用户特征的反讽检测方法。首先,用自注意力机制捕获句子内部的词对关系,找出句子中存在矛盾的词对。既解决LSTM序列建模无法捕获长距离依赖的问题,又可以突出句子内部的不协调性。然后,用CNN预训练模型判断用户的性格类型,同时,用Paragraph Vector将用户发布的历史评论已文本向量的形式表示,代表用户的书写风格。接着,将两者融合后得到用户特征(user embedding),作为反讽检测的外部信息。最后,用LSTM编码句子的成分信息,结合句内词对关系和用户特征来判断目标句是否属于讽刺。
本发明解决其技术问题所采用的的技术方案如下:
步骤1、对需要进行反讽检测的评论文本进行预处理;
步骤2、用自注意力机制对每个单词进行关联建模,获得句内注意力表示;
步骤3、用Paragraph Vector将每个用户的评论以文档向量的形式表示,为每个用户生成书写风格特征向量;
步骤4、根据用户发布的文本,通过预训练的性格检测CNN模型判断用户的性格特征;
步骤5、用典型相关分析算法对用书写风格特征和用户个性特征进行特征融合,获取融合特征;
步骤6、用LSTM对每个文本评论进行序列化建模,得到句子表示特征;
步骤7、连接步骤4、5、6中学习到的特征,对句子是否反讽进行判断。
本发明的优点及有益效果如下:
本发明主要为了解决对网络文本进行反讽检测的任务。现有的方法依靠一般的LSTM对文本进行序列建模,得到的结果准确率较低。本发明采用的技术方案是,用自注意力机制计算文本中词与词之间的相似性,找到文本中存在的矛盾的、不协调的关系,还解决了LSTM不能捕获远距离依赖的问题。同时,学习用户的书写习惯特征和个性特征,将两者融合后得到的用户嵌入(user embeddings)。用户嵌入包含的用户信息作为文本的上下文语境信息,为反讽检测提供判别依据,有利于判别没有明显矛盾词对的反讽文本。从这两个角度提高了反讽检测的准确率。
附图说明
图1是本发明所述方法的流程框图。
图2是本发明所述模型方法的架构图。
图3是本发明所述模型中自注意力机制的架构图。
图4是学习用户书写特征的架构图。
图5是检测用户性格特征的架构图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1、图2、图3、图4和图5,基于句内词对关系和上下文用户特征的反讽检测方法,包括以下步骤:
步骤1、对需要进行反讽检测的评论文本进行预处理:
1.1.将在整个语料库中仅出现一次的单词删除并使用UNK标记进行替换;
1.2.删除少于5个单词的评论;
1.3.用W2V词向量模型将每一条评论表示为词向量形式列ni是句子长度。
步骤2、用自注意力机制对每个单词进行关联建模,获得句内注意力表示:
2.1对输入序列中的每个单词对关系(词与词之间)进行建模:其中, 是需要通过训练学习的参数。表示拼接操作。sxy表示单词对中的两个单词之间的近似度分值,s是个对称矩阵。
2.2在矩阵s上逐行执行最大池化操作,计算得到注意力向量a=softmax(max s),是表示自注意力权重的向量。
2.3使用向量a来学习的加权表示: 是输入序列的内部表示,且
步骤3、用Paragraph Vector将每个用户的评论以文档向量的形式表示,为每个用户生成书写风格特征向量:
3.1每条评论文本后添加特殊分隔符<END>。
3.2收集每个用户的所有文本,创建成一个文档。
3.3将每个用户所发表的评论作为输入,ui表示第i个用户,共Nu个用户。
3.4通过Paragraph Vector得到每个用户对应的评论特征di,3.5把所有用户的评论都映射到矩阵中,评论中的单词都被映射到矩阵ds是词向量维度。
3.6给定用户ui的评论文档共ni个单词,在窗口大小为k的滑动窗口内对文档向量和词向量计算平均对数概率:
3.7分别对滑动窗口内相邻的上下文词向量和文档向量di求平 是softmax的参数,n是单词个数,h(·)由文档向量D中的di和评论单词矩阵W中的词向量wt-k,...,wt+k求平均所得。
3.8矩阵D学习到用户的文档表示向量。该文档表示向量可以代表用户的书写风格。
步骤4、根据用户发布的文本,通过预训练的性格检测CNN模型判断用户的性格特征:
4.1对于用户ui,遍历ui所有的vi条评论将它们作为预训练性格检测CNN模型的输入。
4.2激活CNN最后的隐藏层向量,获得性格特征向量
4.3计算该用户发表的所有评论对应的性格特征的期望,得到该用户的整体性格特征表示
步骤5、用典型相关分析算法对用书写风格特征和用户个性特征进行特征融合:
采用典型相关分析算法对3.8中的用户书写风格特征di和4.3中的用户个性特征pi进行特征融合,得到最终的用户特征 A1和A2是训练参数。把记作
步骤6、用LSTM对每个文本评论进行序列化建模,得到句子表示:
6.1用一个初始的LSTM模型对固定长度的句子输入进行编码,如果句子编码后的向量长度不够,则末尾用数字0进行补齐;
6.2 LSTM隐藏层的输出是隐藏层特征矩阵[h1,h2,...,hN],表示句子级别特征;隐藏层特征hi,i∈[1,ni]与词向量wi是一一对应的关系。
6.3将LSTM序列建模后得到的最后一个隐藏层表示记作
步骤7、连接步骤4、5、6中学习到的特征,对句子是否反讽进行判断:
7.1利用非线性投影ReLU来学习用户特征自注意力层的输出结果和LSTM的隐藏层输出的连接表示:其中,
7.2把vi传入softmax层进行分类: 是需要训练的参数。是基于句内词对关系和上下文用户特征的反讽模型的输出结果。

Claims (7)

1.基于句内词对关系和上下文用户特征的反讽检测方法,其特征在于包括如下步骤:
步骤1、对需要进行反讽检测的评论文本进行预处理;
步骤2、用自注意力机制对每个单词进行关联建模,获得句内注意力表示;
步骤3、用Paragraph Vector将每个用户的评论以文档向量的形式表示,为每个用户生成书写风格特征向量;
步骤4、根据用户发布的文本,通过预训练的性格检测CNN模型判断用户的性格特征;
步骤5、用典型相关分析算法对用书写风格特征和用户个性特征进行特征融合,获取融合特征;
步骤6、用LSTM对每个文本评论进行序列化建模,得到句子表示特征;
步骤7、连接步骤4、5、6中学习到的特征,对句子是否反讽进行判断。
2.根据权利要求1所述的基于句内词对关系和上下文用户特征的反讽检测方法,其特征在于步骤1具体实现如下:
1.1.将在整个语料库中仅出现一次的单词删除并使用UNK标记进行替换;
1.2.删除少于5个单词的评论;
1.3.用W2V词向量模型将每一条评论表示为词向量形式输入序列ni是句子长度;
步骤2具体实现如下:
2.1.对输入序列中的每个单词对关系(词与词之间)进行建模:其中,是需要通过训练学习的参数;表示拼接操作;sxy表示单词对中的两个单词之间的近似度分值,s是个对称矩阵;
2.2.在对称矩阵s上逐行执行最大池化操作,计算得到注意力向量a=softmax(maxs),是表示自注意力权重的向量;
2.3.使用向量a来学习输入序列的加权表示: 是输入序列的内部表示,且
3.根据权利要求2所述的基于句内词对关系和上下文用户特征的反讽检测方法,其特征在于步骤3具体实现如下:
3.1.每条评论文本后添加特殊分隔符<END>;
3.2.收集每个用户的所有文本,创建成一个文档;
3.3.将每个用户所发表的评论作为输入,ui表示第i个用户,共Nu个用户;
3.4.通过Paragraph Vector得到每个用户对应的评论特征di
3.5.把所有用户的评论都映射到矩阵中,评论中的单词都被映射到矩阵ds是词向量维度;
3.6.给定用户ui的评论文档共ni个单词,在窗口大小为k的滑动窗口内对文档向量和词向量计算平均对数概率:
3.7.分别对滑动窗口内相邻的上下文词向量和文档向量di求平均,再应用softmax操作得到其中,是softmax的参数,n是单词个数,h(·)由文档向量D中的di和评论单词矩阵W中的词向量wt-k,...,wt+k求平均所得;
3.8.矩阵D学习到用户的文档表示向量;该文档表示向量可以代表用户书写风格特征di
4.根据权利要求3所述的基于句内词对关系和上下文用户特征的反讽检测方法,其特征在于步骤4具体实现如下:
4.1.对于用户ui,遍历ui所有的vi条评论将它们作为预训练性格检测CNN模型的输入;
4.2.激活CNN最后的隐藏层向量,获得性格特征向量
4.3.计算该用户发表的所有评论对应的性格特征的期望,得到该用户的整体性格特征表示
5.根据权利要求4所述的基于句内词对关系和上下文用户特征的反讽检测方法,其特征在于步骤5具体实现如下:
5.1.采用典型相关分析算法对步骤3.8中的用户书写风格特征di和步骤4.3中的用户个性特征pi进行特征融合,得到最终的用户特征A1和A2是训练参数;把记作
6.根据权利要求5所述的基于句内词对关系和上下文用户特征的反讽检测方法,其特征在于步骤6具体实现如下:
6.1.用一个初始的LSTM模型对固定长度的句子输入进行编码,如果句子编码后的向量长度不够,则末尾用数字0进行补齐;
6.2.LSTM隐藏层的输出是隐藏层特征矩阵[h1,h2,...,hN],表示句子级别特征;隐藏层特征hi,i∈[1,ni]与词向量wi是一一对应的关系;
6.3.将LSTM序列建模后得到的最后一个隐藏层表示记作
7.根据权利要求6所述的基于句内词对关系和上下文用户特征的反讽检测方法,其特征在于步骤7具体实现如下:
7.1.利用非线性投影ReLU来学习用户特征自注意力层的输出结果和LSTM的隐藏层输出的连接表示:其中,
7.2.把vi传入softmax层进行分类: 是需要训练的参数;是基于句内词对关系和上下文用户特征的反讽模型的输出结果。
CN201910315886.1A 2019-04-19 2019-04-19 基于句内词对关系和上下文用户特征的反讽检测方法 Active CN110162625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910315886.1A CN110162625B (zh) 2019-04-19 2019-04-19 基于句内词对关系和上下文用户特征的反讽检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910315886.1A CN110162625B (zh) 2019-04-19 2019-04-19 基于句内词对关系和上下文用户特征的反讽检测方法

Publications (2)

Publication Number Publication Date
CN110162625A true CN110162625A (zh) 2019-08-23
CN110162625B CN110162625B (zh) 2020-01-14

Family

ID=67639697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910315886.1A Active CN110162625B (zh) 2019-04-19 2019-04-19 基于句内词对关系和上下文用户特征的反讽检测方法

Country Status (1)

Country Link
CN (1) CN110162625B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991190A (zh) * 2019-11-29 2020-04-10 华中科技大学 文档主题增强的自注意力网络、文本情绪预测系统和方法
CN111159405A (zh) * 2019-12-27 2020-05-15 北京工业大学 基于背景知识的讽刺检测方法
CN112287197A (zh) * 2020-09-23 2021-01-29 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN112487795A (zh) * 2020-10-28 2021-03-12 中国科学院信息工程研究所 上下文讽刺检测方法、装置、电子设备及存储介质
CN113657115A (zh) * 2021-07-21 2021-11-16 内蒙古工业大学 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
WO2021238289A1 (zh) * 2020-05-26 2021-12-02 华为技术有限公司 序列处理的方法与装置
CN114330334A (zh) * 2021-12-30 2022-04-12 杭州电子科技大学 一种基于知识图谱和跨模态注意力的多模态反讽检测方法
CN116882415A (zh) * 2023-09-07 2023-10-13 湖南中周至尚信息技术有限公司 一种基于自然语言处理的文本情感分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080096533A1 (en) * 2006-10-24 2008-04-24 Kallideas Spa Virtual Assistant With Real-Time Emotions
US20160099010A1 (en) * 2014-10-03 2016-04-07 Google Inc. Convolutional, long short-term memory, fully connected deep neural networks
CN106104521A (zh) * 2014-01-10 2016-11-09 克鲁伊普公司 用于自动检测文本中的情感的系统、设备和方法
CN108242074A (zh) * 2018-01-02 2018-07-03 中国科学技术大学 一种基于单张讽刺肖像画的三维夸张人脸生成方法
CN109299267A (zh) * 2018-10-16 2019-02-01 山西大学 一种文本对话的情绪识别与预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080096533A1 (en) * 2006-10-24 2008-04-24 Kallideas Spa Virtual Assistant With Real-Time Emotions
CN106104521A (zh) * 2014-01-10 2016-11-09 克鲁伊普公司 用于自动检测文本中的情感的系统、设备和方法
US20160099010A1 (en) * 2014-10-03 2016-04-07 Google Inc. Convolutional, long short-term memory, fully connected deep neural networks
CN108242074A (zh) * 2018-01-02 2018-07-03 中国科学技术大学 一种基于单张讽刺肖像画的三维夸张人脸生成方法
CN109299267A (zh) * 2018-10-16 2019-02-01 山西大学 一种文本对话的情绪识别与预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CYNTHIA HEE ET AL.: "Exploring the fine-grained analysis and automatic detection of irony on Twitter", 《LANGUAGE RESOURCE AND EVALUATION》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991190A (zh) * 2019-11-29 2020-04-10 华中科技大学 文档主题增强的自注意力网络、文本情绪预测系统和方法
CN111159405A (zh) * 2019-12-27 2020-05-15 北京工业大学 基于背景知识的讽刺检测方法
CN111159405B (zh) * 2019-12-27 2023-09-12 北京工业大学 基于背景知识的讽刺检测方法
WO2021238289A1 (zh) * 2020-05-26 2021-12-02 华为技术有限公司 序列处理的方法与装置
CN112287197A (zh) * 2020-09-23 2021-01-29 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN112287197B (zh) * 2020-09-23 2022-07-19 昆明理工大学 动态记忆案件描述的涉案微博评论讽刺句检测方法
CN112487795A (zh) * 2020-10-28 2021-03-12 中国科学院信息工程研究所 上下文讽刺检测方法、装置、电子设备及存储介质
CN113657115A (zh) * 2021-07-21 2021-11-16 内蒙古工业大学 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN113657115B (zh) * 2021-07-21 2023-06-30 内蒙古工业大学 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN114330334A (zh) * 2021-12-30 2022-04-12 杭州电子科技大学 一种基于知识图谱和跨模态注意力的多模态反讽检测方法
CN116882415A (zh) * 2023-09-07 2023-10-13 湖南中周至尚信息技术有限公司 一种基于自然语言处理的文本情感分析方法及系统
CN116882415B (zh) * 2023-09-07 2023-11-24 湖南中周至尚信息技术有限公司 一种基于自然语言处理的文本情感分析方法及系统

Also Published As

Publication number Publication date
CN110162625B (zh) 2020-01-14

Similar Documents

Publication Publication Date Title
CN110162625B (zh) 基于句内词对关系和上下文用户特征的反讽检测方法
CN110162636B (zh) 基于d-lstm的情绪原因识别方法
CN110083833B (zh) 中文字词向量和方面词向量联合嵌入情感分析方法
WO2021031480A1 (zh) 文本生成方法和装置
CN111144131B (zh) 一种基于预训练语言模型的网络谣言检测方法
WO2019085779A1 (zh) 机器处理及文本纠错方法和装置、计算设备以及存储介质
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN110717332B (zh) 基于非对称孪生网络的新闻与案件相似度计算方法
CN110069778B (zh) 中文融入嵌入词位置感知的商品情感分析方法
CN110569508A (zh) 融合词性和自注意力机制的情感倾向性分类方法及系统
CN111061843A (zh) 一种知识图谱引导的假新闻检测方法
CN107315737A (zh) 一种语义逻辑处理方法及系统
CN104268160A (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN111368142A (zh) 一种基于生成对抗网络的视频密集事件描述方法
CN113221571B (zh) 基于实体相关注意力机制的实体关系联合抽取方法
CN109918652A (zh) 一种语句相似度判断方法及判断系统
CN111428481A (zh) 一种基于深度学习的实体关系抽取方法
CN112561718A (zh) 基于BiLSTM权重共享的案件微博评价对象情感倾向性分析方法
CN114020906A (zh) 基于孪生神经网络的中文医疗文本信息匹配方法及系统
CN117746078B (zh) 一种基于用户自定义类别的物体检测方法及系统
CN112287687A (zh) 基于案件属性感知的案件倾向性抽取式摘要方法
CN111428104A (zh) 基于观点型阅读理解的癫痫病辅助医疗智能问答方法
CN117765981A (zh) 一种基于语音文本跨模态融合的情感识别方法及系统
CN114764566B (zh) 用于航空领域的知识元抽取方法
CN113255360A (zh) 基于层次化自注意力网络的文档评级方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant