CN108804608B

CN108804608B - 一种基于层次attention的微博谣言立场检测方法

Info

Publication number: CN108804608B
Application number: CN201810537591.4A
Authority: CN
Inventors: 夏睿; 李银波
Original assignee: Wuhan Firehome Putian Information Technology Co ltd
Current assignee: Wuhan Firehome Putian Information Technology Co ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2021-08-27
Anticipated expiration: 2038-05-30
Also published as: CN108804608A

Abstract

本发明公开了一种基于层次attention的微博谣言立场检测方法，包括以下步骤：步骤一、对微博谣言数据进行预处理；步骤二、根据微博谣言数据的回复与评论的结构特点，将预处理后的微博谣言数据抽象为树结构；步骤三、从树结构对话中抽取根节点到父节点的文本序列作为目标文本的上下文；步骤四、构建基于层次attention的LSTM模型，将序列文本进行向量表示并通过LSTM模型进行分类；本发明通过引入上下文以及原始谣言的信息，构建基于层次attention的谣言立场检测模型，利用双向LSTM对文本进行编码表示，抽取对话序列，在序列上利用句子级attention学习上下文信息，最终达到分类目的，克服了传统方法没有充分利用社交媒体谣言语料特性以及没有利用上下文的缺陷。

Description

一种基于层次attention的微博谣言立场检测方法

技术领域

本发明涉及自然语言处理应用技术领域，具体的说是一种基于层次attention 的微博谣言立场检测方法。

背景技术

随着社交网络的不断发展，借助社交媒体进行传播的谣言信息的威胁也越来越大。谣言信息具有传播速度快、传播范围广和难以抑制等特点，其传播难以通过人工手段进行有效的控制。

谣言立场识别是在谣言数据上做立场分析的研究，涉及到社交媒体的数据处理、文本分类技术、文本情感分析等。传统的立场检测方法中，对于谣言立场的识别研究多是在特征模板上做文章，一般是挖掘不同角度的特征，然后利用分类器的集成，单纯将该问题视为文本分类任务来处理，忽视了社交媒体语料本身结构上的特点和谣言本身对于立场分析所起的作用。

基于此，针对上述现状中存在的问题，相较于传统的谣言立场检测方法，本发明提出一种旨在解决传统方法没有充分利用社交媒体谣言语料特性以及没有利用上下文的缺陷的基于层次attention的谣言立场检测方法。

发明内容

为了解决上述现有技术的问题，本发明提供一种旨在解决传统方法没有充分利用社交媒体谣言语料特性以及没有利用上下文的缺陷的基于层次attention 的谣言立场检测方法。

本发明解决其技术问题所采用的技术方案是：

一种基于层次attention的微博谣言立场检测方法，包括以下步骤：

步骤一、对微博谣言数据进行预处理；

步骤二、根据微博谣言数据的回复与评论的结构特点，将预处理后的微博谣言数据抽象为树结构；

步骤三、从树结构对话中抽取根节点到父节点的文本序列作为目标文本的上下文；

步骤四、构建基于层次attention的LSTM模型，将序列文本进行向量表示并通过LSTM模型进行分类。

进一步地，所述微博谣言数据为中文文本或者英文文本。

更进一步地，所述微博谣言数据为中文文本时，依次按照分词、去除停用词、去除标点、文本的向量表示的步骤对文本进行预处理。

更进一步地，所述微博谣言数据为英文文本时，对文本进行预处理的依次为：将单词与标点分隔开、单词词干化、大写转小写、文本的向量表示。

更进一步地，英文文本的向量表示采用在Google News数据集上预训练好的词嵌入的方法进行向量表示。

进一步地，预处理步骤还包括：从三个角度挖掘社交媒体的特征，与词嵌入进行拼接，三个角度分别为内容、用户和传播。

进一步地，所述步骤四中，构建基于层次attention的LSTM模型的具体内容为：

A、利用单词级别的attention机制作用于文本的编码表示，通过双向LSTM 模型实现；

B、利用句子级别的attention机制作用于文本序列编码表示上，通过双向 LSTM模型实现；

C、将基于序列上attention的文本表示，经过softmax分类，得到类别概率；

D、将步骤三构造的序列送入步骤四的模型当中，得到目标文本的立场概率分布。

更进一步地，对于步骤A，设定文本t由单词组成，用{w₁，w₂，...，w_T}来表示，将向量表示的文本初始化，初始为0向量，送入双向LSTM，通过正向层获取隐藏状态

通过反向层获取隐藏状态

拼接得到编码后的隐藏状态

通过以下公式：

u_t＝tanh(W·h_t+b)；

得到相应的权重α_t与获得的每个文本x，其中，u表示上下文向量，u_t表示每个t时刻的词隐层，将步骤三挖掘的特征做向量特征化处理之后与文本表示x进行拼接。

更进一步地，对于步骤C，设定文本T_n，{T₁，T₂，...，T_n-1}为T_n的对话序列，对每条文本进行文本编码表示之后，在对话序列上应用句子级attention机制来学习对话序列中不同的文本对于立场分类的作用，得到带有谣言上下文信息的目标文本表示r^t，最后送入全连接层进行分类，得到立场分布

与现有技术相比，本发明的有益效果是：

本发明通过引入上下文以及原始谣言的信息，构建基于层次attention的谣言立场检测模型，利用双向LSTM对文本进行编码表示，抽取对话序列，在序列上利用句子级attention学习上下文信息，最终达到分类目的，克服了传统方法没有充分利用社交媒体谣言语料特性以及没有利用上下文的缺陷。

附图说明

图1为本发明的流程示意图；

图2为本发明示例中谣言数据的结构特点的示意图；

图3为本发明中的文本序列抽取的示意图；

图4为本发明中得到目标文本的立场概率分布的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例及附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明提供了一种基于层次attention的微博谣言立场检测方法，包括以下步骤：

步骤一、对微博谣言数据进行预处理；

在上述技术方案中，在具体实施时，文本序列的抽取具体为：

对于谣言数据，如图2所示，根据其回复与评论的结构特点，将其抽象为树结构，如图3所示，对于目标文本，抽取从根节点到目标节点的父节点的序列作为对话序列，也就是目标文本的上下文，与目标文本一起作为一个样本数据。

具体实施时，所述微博谣言数据为中文文本或者英文文本。

具体实施时，所述微博谣言数据为中文文本时，依次按照分词、去除停用词、去除标点、文本的向量表示的步骤对文本进行预处理。

在上述技术方案中，分词工具可以采用结巴分词、NLPIR分词、斯坦福分词工具，停用词指去除之后对可使用网络开源的词表资源。

具体实施时，所述微博谣言数据为英文文本时，对文本进行预处理的依次为：将单词与标点分隔开、单词词干化、大写转小写、文本的向量表示。

在上述技术方案中，对英文文本进行单词词干化、大写转小写操作，可利用开源工具NLTK实现。

具体实施时，英文文本的向量表示采用在Google News数据集上预训练好的词嵌入的方法进行向量表示，其中，词嵌入的维度是300维。

具体实施时，预处理步骤还包括：从三个角度挖掘社交媒体的特征，与词嵌入进行拼接，三个角度分别为内容、用户和传播。

如表1、表2和表3所示，表1为基于内容的特征，表2为基于用户的特征，表3为基于传播的特征：

表1

表2

表3

具体实施时，所述步骤四中，构建基于层次attention的LSTM模型的具体内容为：

D、将步骤三构造的序列送入步骤四的模型当中，得到目标文本的立场概率分布，如图4所示。

具体实施时，对于步骤A，设定文本t由单词组成，用{w₁，w₂，...，w_T}来表示，将向量表示的文本初始化，初始为0向量，送入双向LSTM，通过正向层获取隐藏状态

通过反向层获取隐藏状态

拼接得到编码后的隐藏状态

通过以下公式：

u_t＝tanh(W·h_t+b)；

具体实施时，对于步骤C，设定文本T_n，{T₁，T₂，...，T_n-1}为T_n的对话序列，对每条文本进行文本编码表示之后，在对话序列上应用句子级attention机制来学习对话序列中不同的文本对于立场分类的作用，得到带有谣言上下文信息的目标文本表示r^t，最后送入全连接层进行分类，得到立场分布

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于层次attention的微博谣言立场检测方法，其特征在于，包括以下步骤：

步骤一、对微博谣言数据进行预处理；

步骤四、构建基于层次attention的LSTM模型，将序列文本进行向量表示并通过LSTM模型进行分类；

所述步骤四中，构建基于层次attention的LSTM模型的具体内容为：

A、利用单词级别的attention机制作用于文本的编码表示，通过双向LSTM模型实现；

B、利用句子级别的attention机制作用于文本序列编码表示上，通过双向LSTM模型实现；

D、将步骤三构造的序列送入步骤四的模型当中，得到目标文本的立场概率分布；

对于步骤A，设定文本t由单词组成，用{w₁，w₂，...，w_T}来表示，将向量表示的文本初始化，初始为0向量，送入双向LSTM，通过正向层获取隐藏状态

通过反向层获取隐藏状态

拼接得到编码后的隐藏状态

通过以下公式：

u_t＝tanh(W·h_t+b)；

2.根据权利要求1所述的一种基于层次attention的微博谣言立场检测方法，其特征在于：所述微博谣言数据为中文文本或者英文文本。

3.根据权利要求2所述的一种基于层次attention的微博谣言立场检测方法，其特征在于，所述微博谣言数据为中文文本时，依次按照分词、去除停用词、去除标点、文本的向量表示的步骤对文本进行预处理。

4.根据权利要求2所述的一种基于层次attention的微博谣言立场检测方法，其特征在于，所述微博谣言数据为英文文本时，对文本进行预处理的依次为：将单词与标点分隔开、单词词干化、大写转小写、文本的向量表示。

5.根据权利要求4所述的一种基于层次attention的微博谣言立场检测方法，其特征在于：英文文本的向量表示采用在Google News数据集上预训练好的词嵌入的方法进行向量表示。

6.根据权利要求3或4所述的一种基于层次attention的微博谣言立场检测方法，其特征在于，预处理步骤还包括：从三个角度挖掘社交媒体的特征，与词嵌入进行拼接，三个角度分别为内容、用户和传播。

7.根据权利要求1所述的一种基于层次attention的微博谣言立场检测方法，其特征在于，对于步骤C，设定文本T_n，{T₁，T₂，...，T_n-1}为T_n的对话序列，对每条文本进行文本编码表示之后，在对话序列上应用句子级attention机制来学习对话序列中不同的文本对于立场分类的作用，得到带有谣言上下文信息的目标文本表示r^t，最后送入全连接层进行分类，得到立场分布