CN108804608B - 一种基于层次attention的微博谣言立场检测方法 - Google Patents

一种基于层次attention的微博谣言立场检测方法 Download PDF

Info

Publication number
CN108804608B
CN108804608B CN201810537591.4A CN201810537591A CN108804608B CN 108804608 B CN108804608 B CN 108804608B CN 201810537591 A CN201810537591 A CN 201810537591A CN 108804608 B CN108804608 B CN 108804608B
Authority
CN
China
Prior art keywords
text
rumor
sequence
microblog
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810537591.4A
Other languages
English (en)
Other versions
CN108804608A (zh
Inventor
夏睿
李银波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Firehome Putian Information Technology Co ltd
Original Assignee
Wuhan Firehome Putian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Firehome Putian Information Technology Co ltd filed Critical Wuhan Firehome Putian Information Technology Co ltd
Priority to CN201810537591.4A priority Critical patent/CN108804608B/zh
Publication of CN108804608A publication Critical patent/CN108804608A/zh
Application granted granted Critical
Publication of CN108804608B publication Critical patent/CN108804608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于层次attention的微博谣言立场检测方法,包括以下步骤:步骤一、对微博谣言数据进行预处理;步骤二、根据微博谣言数据的回复与评论的结构特点,将预处理后的微博谣言数据抽象为树结构;步骤三、从树结构对话中抽取根节点到父节点的文本序列作为目标文本的上下文;步骤四、构建基于层次attention的LSTM模型,将序列文本进行向量表示并通过LSTM模型进行分类;本发明通过引入上下文以及原始谣言的信息,构建基于层次attention的谣言立场检测模型,利用双向LSTM对文本进行编码表示,抽取对话序列,在序列上利用句子级attention学习上下文信息,最终达到分类目的,克服了传统方法没有充分利用社交媒体谣言语料特性以及没有利用上下文的缺陷。

Description

一种基于层次attention的微博谣言立场检测方法
技术领域
本发明涉及自然语言处理应用技术领域,具体的说是一种基于层次attention 的微博谣言立场检测方法。
背景技术
随着社交网络的不断发展,借助社交媒体进行传播的谣言信息的威胁也越来越大。谣言信息具有传播速度快、传播范围广和难以抑制等特点,其传播难以通过人工手段进行有效的控制。
谣言立场识别是在谣言数据上做立场分析的研究,涉及到社交媒体的数据处理、文本分类技术、文本情感分析等。传统的立场检测方法中,对于谣言立场的识别研究多是在特征模板上做文章,一般是挖掘不同角度的特征,然后利用分类器的集成,单纯将该问题视为文本分类任务来处理,忽视了社交媒体语料本身结构上的特点和谣言本身对于立场分析所起的作用。
基于此,针对上述现状中存在的问题,相较于传统的谣言立场检测方法,本发明提出一种旨在解决传统方法没有充分利用社交媒体谣言语料特性以及没有利用上下文的缺陷的基于层次attention的谣言立场检测方法。
发明内容
为了解决上述现有技术的问题,本发明提供一种旨在解决传统方法没有充分利用社交媒体谣言语料特性以及没有利用上下文的缺陷的基于层次attention 的谣言立场检测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于层次attention的微博谣言立场检测方法,包括以下步骤:
步骤一、对微博谣言数据进行预处理;
步骤二、根据微博谣言数据的回复与评论的结构特点,将预处理后的微博谣言数据抽象为树结构;
步骤三、从树结构对话中抽取根节点到父节点的文本序列作为目标文本的上下文;
步骤四、构建基于层次attention的LSTM模型,将序列文本进行向量表示并通过LSTM模型进行分类。
进一步地,所述微博谣言数据为中文文本或者英文文本。
更进一步地,所述微博谣言数据为中文文本时,依次按照分词、去除停用词、去除标点、文本的向量表示的步骤对文本进行预处理。
更进一步地,所述微博谣言数据为英文文本时,对文本进行预处理的依次为:将单词与标点分隔开、单词词干化、大写转小写、文本的向量表示。
更进一步地,英文文本的向量表示采用在Google News数据集上预训练好的词嵌入的方法进行向量表示。
进一步地,预处理步骤还包括:从三个角度挖掘社交媒体的特征,与词嵌入进行拼接,三个角度分别为内容、用户和传播。
进一步地,所述步骤四中,构建基于层次attention的LSTM模型的具体内容为:
A、利用单词级别的attention机制作用于文本的编码表示,通过双向LSTM 模型实现;
B、利用句子级别的attention机制作用于文本序列编码表示上,通过双向 LSTM模型实现;
C、将基于序列上attention的文本表示,经过softmax分类,得到类别概率;
D、将步骤三构造的序列送入步骤四的模型当中,得到目标文本的立场概率分布。
更进一步地,对于步骤A,设定文本t由单词组成,用{w1,w2,...,wT}来表示,将向量表示的文本初始化,初始为0向量,送入双向LSTM,通过正向层获取隐藏状态
Figure RE-RE-GDA0001715656390000031
通过反向层获取隐藏状态
Figure RE-RE-GDA0001715656390000032
拼接得到编码后的隐藏状态
Figure RE-RE-GDA0001715656390000033
通过以下公式:
ut=tanh(W·ht+b);
Figure RE-RE-GDA0001715656390000034
Figure RE-RE-GDA0001715656390000035
得到相应的权重αt与获得的每个文本x,其中,u表示上下文向量,ut表示每个t时刻的词隐层,将步骤三挖掘的特征做向量特征化处理之后与文本表示x进行拼接。
更进一步地,对于步骤C,设定文本Tn,{T1,T2,...,Tn-1}为Tn的对话序列,对每条文本进行文本编码表示之后,在对话序列上应用句子级attention机制来学习对话序列中不同的文本对于立场分类的作用,得到带有谣言上下文信息的目标文本表示rt,最后送入全连接层进行分类,得到立场分布
Figure RE-RE-GDA0001715656390000036
与现有技术相比,本发明的有益效果是:
本发明通过引入上下文以及原始谣言的信息,构建基于层次attention的谣言立场检测模型,利用双向LSTM对文本进行编码表示,抽取对话序列,在序列上利用句子级attention学习上下文信息,最终达到分类目的,克服了传统方法没有充分利用社交媒体谣言语料特性以及没有利用上下文的缺陷。
附图说明
图1为本发明的流程示意图;
图2为本发明示例中谣言数据的结构特点的示意图;
图3为本发明中的文本序列抽取的示意图;
图4为本发明中得到目标文本的立场概率分布的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例及附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明提供了一种基于层次attention的微博谣言立场检测方法,包括以下步骤:
步骤一、对微博谣言数据进行预处理;
步骤二、根据微博谣言数据的回复与评论的结构特点,将预处理后的微博谣言数据抽象为树结构;
步骤三、从树结构对话中抽取根节点到父节点的文本序列作为目标文本的上下文;
步骤四、构建基于层次attention的LSTM模型,将序列文本进行向量表示并通过LSTM模型进行分类。
在上述技术方案中,在具体实施时,文本序列的抽取具体为:
对于谣言数据,如图2所示,根据其回复与评论的结构特点,将其抽象为树结构,如图3所示,对于目标文本,抽取从根节点到目标节点的父节点的序列作为对话序列,也就是目标文本的上下文,与目标文本一起作为一个样本数据。
具体实施时,所述微博谣言数据为中文文本或者英文文本。
具体实施时,所述微博谣言数据为中文文本时,依次按照分词、去除停用词、去除标点、文本的向量表示的步骤对文本进行预处理。
在上述技术方案中,分词工具可以采用结巴分词、NLPIR分词、斯坦福分词工具,停用词指去除之后对可使用网络开源的词表资源。
具体实施时,所述微博谣言数据为英文文本时,对文本进行预处理的依次为:将单词与标点分隔开、单词词干化、大写转小写、文本的向量表示。
在上述技术方案中,对英文文本进行单词词干化、大写转小写操作,可利用开源工具NLTK实现。
具体实施时,英文文本的向量表示采用在Google News数据集上预训练好的词嵌入的方法进行向量表示,其中,词嵌入的维度是300维。
具体实施时,预处理步骤还包括:从三个角度挖掘社交媒体的特征,与词嵌入进行拼接,三个角度分别为内容、用户和传播。
如表1、表2和表3所示,表1为基于内容的特征,表2为基于用户的特征,表3为基于传播的特征:
表1
Figure RE-RE-GDA0001715656390000051
Figure RE-RE-GDA0001715656390000061
表2
Figure RE-RE-GDA0001715656390000062
表3
Figure RE-RE-GDA0001715656390000063
具体实施时,所述步骤四中,构建基于层次attention的LSTM模型的具体内容为:
A、利用单词级别的attention机制作用于文本的编码表示,通过双向LSTM 模型实现;
B、利用句子级别的attention机制作用于文本序列编码表示上,通过双向 LSTM模型实现;
C、将基于序列上attention的文本表示,经过softmax分类,得到类别概率;
D、将步骤三构造的序列送入步骤四的模型当中,得到目标文本的立场概率分布,如图4所示。
具体实施时,对于步骤A,设定文本t由单词组成,用{w1,w2,...,wT}来表示,将向量表示的文本初始化,初始为0向量,送入双向LSTM,通过正向层获取隐藏状态
Figure RE-RE-GDA0001715656390000071
通过反向层获取隐藏状态
Figure RE-RE-GDA0001715656390000072
拼接得到编码后的隐藏状态
Figure RE-RE-GDA0001715656390000073
通过以下公式:
ut=tanh(W·ht+b);
Figure RE-RE-GDA0001715656390000074
Figure RE-RE-GDA0001715656390000075
得到相应的权重αt与获得的每个文本x,其中,u表示上下文向量,ut表示每个t时刻的词隐层,将步骤三挖掘的特征做向量特征化处理之后与文本表示x进行拼接。
具体实施时,对于步骤C,设定文本Tn,{T1,T2,...,Tn-1}为Tn的对话序列,对每条文本进行文本编码表示之后,在对话序列上应用句子级attention机制来学习对话序列中不同的文本对于立场分类的作用,得到带有谣言上下文信息的目标文本表示rt,最后送入全连接层进行分类,得到立场分布
Figure RE-RE-GDA0001715656390000076
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种基于层次attention的微博谣言立场检测方法,其特征在于,包括以下步骤:
步骤一、对微博谣言数据进行预处理;
步骤二、根据微博谣言数据的回复与评论的结构特点,将预处理后的微博谣言数据抽象为树结构;
步骤三、从树结构对话中抽取根节点到父节点的文本序列作为目标文本的上下文;
步骤四、构建基于层次attention的LSTM模型,将序列文本进行向量表示并通过LSTM模型进行分类;
所述步骤四中,构建基于层次attention的LSTM模型的具体内容为:
A、利用单词级别的attention机制作用于文本的编码表示,通过双向LSTM模型实现;
B、利用句子级别的attention机制作用于文本序列编码表示上,通过双向LSTM模型实现;
C、将基于序列上attention的文本表示,经过softmax分类,得到类别概率;
D、将步骤三构造的序列送入步骤四的模型当中,得到目标文本的立场概率分布;
对于步骤A,设定文本t由单词组成,用{w1,w2,...,wT}来表示,将向量表示的文本初始化,初始为0向量,送入双向LSTM,通过正向层获取隐藏状态
Figure FDA0003129127640000011
通过反向层获取隐藏状态
Figure FDA0003129127640000012
拼接得到编码后的隐藏状态
Figure FDA0003129127640000013
通过以下公式:
ut=tanh(W·ht+b);
Figure FDA0003129127640000014
Figure FDA0003129127640000021
得到相应的权重αt与获得的每个文本x,其中,u表示上下文向量,ut表示每个t时刻的词隐层,将步骤三挖掘的特征做向量特征化处理之后与文本表示x进行拼接。
2.根据权利要求1所述的一种基于层次attention的微博谣言立场检测方法,其特征在于:所述微博谣言数据为中文文本或者英文文本。
3.根据权利要求2所述的一种基于层次attention的微博谣言立场检测方法,其特征在于,所述微博谣言数据为中文文本时,依次按照分词、去除停用词、去除标点、文本的向量表示的步骤对文本进行预处理。
4.根据权利要求2所述的一种基于层次attention的微博谣言立场检测方法,其特征在于,所述微博谣言数据为英文文本时,对文本进行预处理的依次为:将单词与标点分隔开、单词词干化、大写转小写、文本的向量表示。
5.根据权利要求4所述的一种基于层次attention的微博谣言立场检测方法,其特征在于:英文文本的向量表示采用在Google News数据集上预训练好的词嵌入的方法进行向量表示。
6.根据权利要求3或4所述的一种基于层次attention的微博谣言立场检测方法,其特征在于,预处理步骤还包括:从三个角度挖掘社交媒体的特征,与词嵌入进行拼接,三个角度分别为内容、用户和传播。
7.根据权利要求1所述的一种基于层次attention的微博谣言立场检测方法,其特征在于,对于步骤C,设定文本Tn,{T1,T2,...,Tn-1}为Tn的对话序列,对每条文本进行文本编码表示之后,在对话序列上应用句子级attention机制来学习对话序列中不同的文本对于立场分类的作用,得到带有谣言上下文信息的目标文本表示rt,最后送入全连接层进行分类,得到立场分布
Figure FDA0003129127640000022
CN201810537591.4A 2018-05-30 2018-05-30 一种基于层次attention的微博谣言立场检测方法 Active CN108804608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810537591.4A CN108804608B (zh) 2018-05-30 2018-05-30 一种基于层次attention的微博谣言立场检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810537591.4A CN108804608B (zh) 2018-05-30 2018-05-30 一种基于层次attention的微博谣言立场检测方法

Publications (2)

Publication Number Publication Date
CN108804608A CN108804608A (zh) 2018-11-13
CN108804608B true CN108804608B (zh) 2021-08-27

Family

ID=64089303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810537591.4A Active CN108804608B (zh) 2018-05-30 2018-05-30 一种基于层次attention的微博谣言立场检测方法

Country Status (1)

Country Link
CN (1) CN108804608B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109598002A (zh) * 2018-11-15 2019-04-09 重庆邮电大学 基于双向循环神经网络的神经机器翻译方法和系统
CN111221941B (zh) * 2020-01-10 2023-12-26 复旦大学 基于文本内容和行文风格的社交媒体谣言鉴别算法
CN111460144B (zh) * 2020-03-12 2022-11-22 南京理工大学 基于时序切分与融合的谣言早期检测算法
CN112528015B (zh) * 2020-10-26 2022-11-18 复旦大学 在消息交互传播中进行谣言判别的方法及装置
CN112199606B (zh) * 2020-10-30 2022-06-03 福州大学 一种基于层次用户表示的面向社交媒体的谣言检测系统
CN112949318B (zh) * 2021-03-03 2022-03-25 电子科技大学 基于文本和用户表示学习的文本立场检测方法
CN112685541B (zh) * 2021-03-11 2021-05-25 中南大学 一种基于多任务学习的社交媒体谣言检测方法
CN112800233B (zh) * 2021-04-13 2021-06-18 成都数联铭品科技有限公司 一种文本立场检测方法
CN113434684B (zh) * 2021-07-01 2022-03-08 北京中科研究院 自监督学习的谣言检测方法、系统、设备及存储介质
CN113254652B (zh) * 2021-07-01 2021-09-17 中南大学 一种基于超图注意力网络的社交媒体贴文真实性检测方法
CN115048514B (zh) * 2022-06-09 2023-06-16 安徽大学 基于人格的社交网络谣言检测与立场分类方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731770A (zh) * 2015-03-23 2015-06-24 中国科学技术大学苏州研究院 基于规则和统计模型的中文微博情感分析方法
CN105354305A (zh) * 2015-11-05 2016-02-24 北京邮电大学 一种网络谣言的识别方法及装置
CN107832353A (zh) * 2017-10-23 2018-03-23 同济大学 一种社交媒体平台虚假信息识别方法
CN108038240A (zh) * 2017-12-26 2018-05-15 武汉大学 基于内容、用户多因素分析的社交网络谣言检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10324598B2 (en) * 2009-12-18 2019-06-18 Graphika, Inc. System and method for a search engine content filter
US10417334B2 (en) * 2010-04-19 2019-09-17 Oath, Inc. Systems and methods for providing a microdocument framework for storage, retrieval, and aggregation
US9959365B2 (en) * 2015-01-16 2018-05-01 The Trustees Of The Stevens Institute Of Technology Method and apparatus to identify the source of information or misinformation in large-scale social media networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731770A (zh) * 2015-03-23 2015-06-24 中国科学技术大学苏州研究院 基于规则和统计模型的中文微博情感分析方法
CN105354305A (zh) * 2015-11-05 2016-02-24 北京邮电大学 一种网络谣言的识别方法及装置
CN107832353A (zh) * 2017-10-23 2018-03-23 同济大学 一种社交媒体平台虚假信息识别方法
CN108038240A (zh) * 2017-12-26 2018-05-15 武汉大学 基于内容、用户多因素分析的社交网络谣言检测方法

Also Published As

Publication number Publication date
CN108804608A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108804608B (zh) 一种基于层次attention的微博谣言立场检测方法
CN111144131B (zh) 一种基于预训练语言模型的网络谣言检测方法
JP7253848B2 (ja) 言語間遷移を支援する細粒度感情解析方法
CN109033307B (zh) 基于crp聚类的词语多原型向量表示及词义消歧方法
Al-Amin et al. Sentiment analysis of Bengali comments with Word2Vec and sentiment information of words
CN109446404B (zh) 一种网络舆情的情感极性分析方法和装置
CN107169079B (zh) 一种基于Deepdive的领域文本知识抽取方法
CN110362819B (zh) 基于卷积神经网络的文本情感分析方法
CN109446333A (zh) 一种实现中文文本分类的方法及相关设备
CN112256861B (zh) 一种基于搜索引擎返回结果的谣言检测方法及电子装置
CN111581967B (zh) 一种联合LW2V与Triplet网络的新闻主题事件检测方法
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN110321434A (zh) 一种基于词义消歧卷积神经网络的文本分类方法
CN111159405A (zh) 基于背景知识的讽刺检测方法
CN112528653A (zh) 短文本实体识别方法和系统
Nikhila et al. Text imbalance handling and classification for cross-platform cyber-crime detection using deep learning
Renjit et al. Cusatnlp@ hasoc-dravidian-codemix-fire2020: identifying offensive language from manglishtweets
CN114491062A (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN114065749A (zh) 一种面向文本的粤语识别模型及系统的训练、识别方法
CN111368532B (zh) 一种基于lda的主题词嵌入消歧方法及系统
Pyingkodi et al. Hate speech analysis using supervised machine learning techniques
Harsha et al. Lexical ambiguity in natural language processing applications
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN113626553A (zh) 一种基于预训练模型的级联二进制中文实体关系提取方法
Vardag et al. Contextual Urdu text emotion detection corpus and experiments using deep learning approaches

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant