CN112560495B

CN112560495B - 一种基于情感分析的微博谣言检测方法

Info

Publication number: CN112560495B
Application number: CN202011426891.9A
Authority: CN
Inventors: 冯茹嘉; 张海军
Original assignee: Xinjiang Normal University
Current assignee: Xinjiang Normal University
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2024-03-15
Anticipated expiration: 2040-12-09
Also published as: CN112560495A

Abstract

本发明涉及自然语言处理领域，公开了一种基于情感分析的微博谣言检测方法，包括采集微博数据集，对微博数据集进行降噪处理；利用中文分词工具对降噪处理后的微博数据集进行分词，通过XLNet预训练方法训练词向量数据集；利用Transformer解码器模型提取关于微博正文内容的语义特征；利用BiLSTM+Attention网络提取关于微博评论的情感特征；通过至少一层全连接神经网络将语义特征及情感特征进行特征融合，最后一层全连接层连接分类器，分类器输出微博事件谣言检测的分类结果。本发明构造了基于情感分析的微博谣言检测模型，实现了包含评论情感信息的微博谣言自动识别，加入了微博评论的情感特征，提高了微博谣言检测自动识别效果。

Description

一种基于情感分析的微博谣言检测方法

技术领域

本发明涉及自然语言处理领域，具体地涉及一种基于情感分析的微博谣言检测方法。

背景技术

目前，微博谣言检测多侧重于挖掘微博内容的语义特征，利用机器学习的方法对已标注的特征构建分类器，或利用深度学习模型自动学习有效的特征来识别谣言。但基于机器学习的谣言检测模型依赖于人工提取特征，非常耗时耗力；手工设计的特征往往存在特定的局限性，泛化性能较差。手工制作的特征常会缺乏从谣言文本内容中提取的深层次表征。传统的序列化深度学习模型由于只考虑到从前往后或从后往前单方向挖掘文本，无法实现同时双向挖掘；且循环神经网络存在梯度消失和不容易平行化的问题。LSTM和GRU虽然可以缓解梯度消失的问题，但不能彻底解决梯度消失和不容易平行化的问题。另外，基于卷积神经网络的谣言检测模型更侧重于提取局部特征，虽然充分考虑了微博的句义，但是微博事件中的微博在时间上存在着先后顺序，因此存在序列相关特征，而该模型无法学习序列相关特征。同时，微博用户的页面结构不仅有微博正文还包括大量的微博评论信息，评论中包含评论者对微博事件的态度、观点和用户隐藏其中的情感宣泄。但现有技术中常忽略掉这一重要特征，使得微博谣言检测自动识别效果差。

发明内容

本发明提供一种基于情感分析的微博谣言检测方法，从而解决现有技术的上述问题。

一种基于情感分析的微博谣言检测方法，包括以下步骤：

S1)采集微博数据集，对所述微博数据集进行降噪处理，获得降噪处理后的微博数据集；所述微博数据集包括若干个微博事件，所述微博事件包括微博正文内容和微博评论；

S2)利用中文分词工具对所述降噪处理后的微博数据集进行分词，获得词向量数据集，通过XLNet预训练方法训练所述词向量数据集，获得若干个微博事件的嵌入矩阵；

S3)建立Transformer解码器模型，利用所述Transformer解码器模型分别提取所述若干个微博事件的嵌入矩阵中关于微博正文内容的语义特征；建立BiLSTM+Attention网络，利用所述BiLSTM+Attention网络分别提取所述若干个微博事件的嵌入矩阵中关于微博评论的情感特征；

S4)通过至少一层全连接神经网络将与每一个微博事件相对应的关于微博正文内容的语义特征以及与每一个微博事件相对应的关于微博评论的情感特征进行特征融合，最后一层全连接层连接分类器，所述分类器输出微博事件谣言检测的分类结果。

进一步的，微博正文内容和微博评论分别包括微博文本数据和/或微博非文本数据，所述非文本数据包括超链接、标签、图片应用、停用词和/或标点符号。

进一步的，在步骤S2)中，利用中文分词工具对所述降噪处理后的微博数据集进行分词，获得词向量数据集，包括将任意一个微博事件的微博文本表示为w＝{w₁,w₂,...,w_i,...,w_n}，n表示微博文本的长度，w_i为微博文本w中的第i个词，利用中文分词工具对所述降噪处理后的微博数据集进行分词处理后得到词向量为x＝{x₁,x₂,...,x_i,...,x_n}，x_i为微博文本x中的第i个词向量；所述微博文本x为微博正文文本或微博评论文本。

进一步的，在步骤S2)中，通过XLNet预训练方法训练所述词向量数据集，获得若干个微博事件的嵌入矩阵，通过XLNet预训练方法对所述词向量数据集中每一个词向量分别进行排列操作，所述排列操作用于对词向量中的所有单词随机生成不同顺序，词向量的长度为T，对于词向量中的任一单词x_i,出现在所述单词x_i后面的词{x_i+1,…,x_n}通过所述排列操作能出现在所述单词x_i前面，将长度为T的词向量的所有排列组合集合为Z_T，设zt为词向量中的第t个元素，z<t表示z∈Z_T的第1个元素到第t-1个元素，通过XLNet预训练方法训练所述词向量数据集的最终优化目标，所述最终优化目标表示为θ为待训练的模型参数。

进一步的，在步骤S3)中，建立Transformer解码器模型，所述Transformer解码器模型包括6个相同的层，每一层包括两个子层，所述两个子层包括多头注意力机制层和前馈神经网络层，利用Transformer解码器模型分别提取所述若干个微博事件的嵌入矩阵中关于微博正文内容的语义特征，包括以下步骤：

S31)每一个微博事件的嵌入矩阵包括关于微博正文的词向量和关于微博评论的词向量，将关于微博正文的词向量输入多头注意力机制层中，随机初始化多头注意力机制层中的权重矩阵W⁰以及各头注意力分别所对应的第一矩阵第二矩阵/>第三矩阵j∈{1、...、h}，h为多头注意力机制层中头的数量；

S32)将所述关于微博正文的词向量分别进行单词嵌入操作、段落嵌入操作和位置嵌入操作，获得单词嵌入词向量、段落嵌入词向量和位置嵌入词向量；将所述单词嵌入词向量、所述段落嵌入词向量和所述位置嵌入词向量分别与所述第一矩阵所述第二矩阵和所述第三矩阵/>对应相乘，获得各头注意力的查询矩阵Q_j、键矩阵K_j和值矩阵V_j，获得关于微博正文的词向量分别对应各头注意力的输出/>获得多头注意力输出结果Multihead＝Concat(head₁,head₂,...,head_h)W⁰；Concat(·)表示Concatenate函数；

S33)将所述多头注意力输出结果作为前馈神经网络层的输入，前馈神经网络层包括两层神经网络，第一层神经网络的激活函数是ReLU函数，第二层神经网络的激活函数是线性激活函数，获得前馈神经网络层输出结果H_Multihead＝max(0，Multihead*W₁+b₁)W₂+b₂，W₁、W₂分别为前馈神经网络的权重矩阵，b₁、b₂分别为前馈神经网络的偏置项，获得关于微博正文内容的语义特征。

进一步的，在步骤S3)中，建立BiLSTM+Attention网络，利用所述BiLSTM+Attention网络分别提取所述若干个微博事件的嵌入矩阵中关于微博评论的情感特征，包括以下步骤：

S301)构建双向长短时记忆网络BiLSTM，获取关于微博评论的词向量并输入双向长短时记忆网络BiLSTM进行上下文特征提取，获得t时刻前向隐层向量和t时刻后向隐层向量/>根据t时刻前向隐层向量和t时刻后向隐层向量获得t时刻最终隐层向量/>x_it表示t时刻输入双向长短时记忆网络BiLSTM的关于微博评论的词向量；

S302)在双向长短时记忆网络BiLSTM加入注意力机制Attention，通过注意力机制Attention对微博评论中的句子中不同情感特征分配权重，获得关于微博评论的情感特征，所述微博评论的情感特征为H_i＝∑_tα_ith_it；α_it表示t时刻最终隐层向量的分配权重。

进一步的，在步骤S4)中，通过至少一层全连接神经网络将与每一个微博事件相对应的关于微博正文内容的语义特征以及与每一个微博事件相对应的关于微博评论的情感特征进行特征融合，获得每一个微博事件的融合特征H＝(H_Multihead⊕H_i)，⊕表示将关于微博正文内容的语义特征和关于微博评论的情感特征进行拼接。

进一步的，分类器为Softmax函数。

本发明的有益效果是：本发明在基于深度学习识别微博谣言的基础上，使用Transformer解码器模型提取微博正文内容的语义特征，并结合BiLSTM+Attention网络实现微博评论的情感特征的提取，构造了基于情感分析的微博谣言检测模型，实现包含评论情感信息的微博谣言自动识别。本发明使用Transformer编码器模型提取微博正文语义特征，优于循环神经网络和卷积神经网络。Transformer模型突破了循环神经网络不能并行计算的限制，相比卷积神经网络计算两个位置之间的关联所需的操作次数不随距离增长，且自注意力可以产生更具可解释性的模型，可以从模型中检查注意力分布，多头注意力可以学会执行不同的任务。另外，本发明加入了微博评论的情感特征，与单纯使用语义信息的模型相比，情感特征的融入提高了整个框架的性能，在模型使用情感特征嵌入后，本发明整体性能提升，优于只关注微博正文的模型，本发明提高了微博谣言检测自动识别效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例一提供的基于情感分析的微博谣言检测方法结构示意图。

图2为本实施例一提供的基于情感分析的微博谣言检测方法评价指标结果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不用于限定本发明。需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用来区别类似的对象，而不必用于描述特定的顺序或先后次序，应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本发明的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。

实施例一，一种基于情感分析的微博谣言检测方法，如图1所示，包括以下步骤：

微博正文内容和微博评论分别包括微博文本数据和/或微博非文本数据，所述非文本数据包括超链接、标签、图片应用、停用词和/或标点符号。

在步骤S2)中，利用中文分词工具对所述降噪处理后的微博数据集进行分词，获得词向量数据集，包括将任意一个微博事件的微博文本表示为w＝{w₁,w₂,...,w_i,...,w_n}，n表示微博文本的长度，w_i为微博文本w中的第i个词，利用中文分词工具对所述降噪处理后的微博数据集进行分词处理后得到词向量为x＝{x₁,x₂,...,x_i,...,x_n}，x_i为微博文本x中的第i个词向量；所述微博文本x为微博正文文本或微博评论文本。

在步骤S2)中，通过XLNet预训练方法训练所述词向量数据集，获得若干个微博事件的嵌入矩阵，通过XLNet预训练方法对所述词向量数据集中每一个词向量分别进行排列操作，所述排列操作用于对词向量中的所有单词随机生成不同顺序，词向量的长度为T，对于词向量中的任一单词x_i,出现在所述单词x_i后面的词{x_i+1,…,x_n}通过所述排列操作能出现在所述单词x_i前面，将长度为T的词向量的所有排列组合集合为Z_T，设zt为词向量中的第t个元素，z<t表示z∈Z_T的第1个元素到第t-1个元素，通过XLNet预训练方法训练所述词向量数据集的最终优化目标，所述最终优化目标表示为θ为待训练的模型参数。

在步骤S3)中，建立Transformer解码器模型，所述Transformer解码器模型包括6个相同的层，每一层包括两个子层，所述两个子层包括多头注意力机制层和前馈神经网络层，利用所述Transformer解码器模型分别提取所述若干个微博事件的嵌入矩阵中关于微博正文内容的语义特征，包括以下步骤：

在步骤S3)中，建立BiLSTM+Attention网络，利用所述BiLSTM+Attention网络分别提取所述若干个微博事件的嵌入矩阵中关于微博评论的情感特征，包括以下步骤：

在步骤S4)中，通过至少一层全连接神经网络将与每一个微博事件相对应的关于微博正文内容的语义特征以及与每一个微博事件相对应的关于微博评论的情感特征进行特征融合，获得每一个微博事件的融合特征H＝(H_Multihead⊕H_i)，⊕表示将关于微博正文内容的语义特征和关于微博评论的情感特征进行拼接。

分类器为Softmax函数。

本发明实施例检验谣言检测效果的评价指标是准确率、精确率、召回率和F1值，图2为本发明实施例基于情感分析的微博谣言检测方法评价指标结果图，从图2可看出，本发明在谣言识别的准确率达到94.8％、精确率达到95.2％、召回率达到95.2％和F1值达到94.8％，效果非常显著。本发明谣言检测效果高于目前基准方法的结果，与当前基准方法相比，本发明准确率提高了1.5％，精确率提高了3.1％，召回率提高了3.1％，F1值提高了1.6％。

通过采用本发明公开的上述技术方案，得到了如下有益的效果：

本发明在基于深度学习识别微博谣言的基础上，使用Transformer解码器模型提取微博正文内容的语义特征，并结合BiLSTM+Attention网络实现微博评论的情感特征的提取，构造了基于情感分析的微博谣言检测模型，实现包含评论情感信息的微博谣言自动识别。本发明使用Transformer编码器模型提取微博正文语义特征，优于循环神经网络和卷积神经网络。Transformer模型突破了循环神经网络不能并行计算的限制，相比卷积神经网络计算两个位置之间的关联所需的操作次数不随距离增长，且自注意力可以产生更具可解释性的模型，可以从模型中检查注意力分布，多头注意力可以学会执行不同的任务。另外，本发明加入了微博评论的情感特征，与单纯使用语义信息的模型相比，情感特征的融入提高了整个框架的性能，在模型使用情感特征嵌入后，本发明整体性能提升，优于只关注微博正文的模型，本发明提高了微博谣言检测自动识别效果。

以上仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种基于情感分析的微博谣言检测方法，其特征在于，包括以下步骤：

S3)建立Transformer解码器模型，利用所述Transformer解码器模型分别提取所述若干个微博事件的嵌入矩阵中关于微博正文内容的语义特征；建立BiLSTM+Attention网络，利用所述BiLSTM+Attention网络分别提取所述若干个微博事件的嵌入矩阵中关于微博评论的情感特征；在步骤S3)中，建立Transformer解码器模型，所述Transformer解码器模型包括6个相同的层，每一层包括两个子层，所述两个子层包括多头注意力机制层和前馈神经网络层，利用所述Transformer解码器模型分别提取所述若干个微博事件的嵌入矩阵中关于微博正文内容的语义特征，包括以下步骤：

S31)每一个微博事件的嵌入矩阵包括关于微博正文的词向量和关于微博评论的词向量，将关于微博正文的词向量输入多头注意力机制层中，随机初始化多头注意力机制层中的权重矩阵W⁰以及各头注意力分别所对应的第一矩阵第二矩阵/>第三矩阵h为多头注意力机制层中头的数量；

S32)将所述关于微博正文的词向量分别进行单词嵌入操作、段落嵌入操作和位置嵌入操作，获得单词嵌入词向量、段落嵌入词向量和位置嵌入词向量；将所述单词嵌入词向量、所述段落嵌入词向量和所述位置嵌入词向量分别与所述第一矩阵所述第二矩阵/>和所述第三矩阵/>对应相乘，获得各头注意力的查询矩阵Q_j、键矩阵K_j和值矩阵V_j，获得关于微博正文的词向量分别对应各头注意力的输出/>获得多头注意力输出结果Multihead＝Concat(head₁,head₂,...,head_h)W⁰；Concat(●)表示Concatenate函数；

S33)将所述多头注意力输出结果作为前馈神经网络层的输入，前馈神经网络层包括两层神经网络，第一层神经网络的激活函数是ReLU函数，第二层神经网络的激活函数是线性激活函数，获得前馈神经网络层输出结果H_Multihead＝max(0，Multihead*W₁+b₁)W₂+b₂，W₁、W₂分别为前馈神经网络的权重矩阵，b₁、b₂分别为前馈神经网络的偏置项，获得关于微博正文内容的语义特征；

2.根据权利要求1所述的基于情感分析的微博谣言检测方法，其特征在于，所述微博正文内容和微博评论分别包括微博文本数据和/或微博非文本数据，所述非文本数据包括超链接、标签、图片应用、停用词和/或标点符号。

3.根据权利要求1或2所述的基于情感分析的微博谣言检测方法，其特征在于，在步骤S2)中，利用中文分词工具对所述降噪处理后的微博数据集进行分词，获得词向量数据集，包括将任意一个微博事件的微博文本表示为w＝{w₁,w₂,...w,_i,...w,_n}，n表示微博文本的长度，w_i为微博文本w中的第i个词，利用中文分词工具对所述降噪处理后的微博数据集进行分词处理后得到词向量为x＝{x₁,x₂,...,x_i,...,x_n}，x_i为微博文本x中的第i个词向量；所述微博文本x为微博正文文本或微博评论文本。

4.根据权利要求3所述的基于情感分析的微博谣言检测方法，其特征在于，在步骤S2)中，通过XLNet预训练方法训练所述词向量数据集，获得若干个微博事件的嵌入矩阵，通过XLNet预训练方法对所述词向量数据集中每一个词向量分别进行排列操作，所述排列操作用于对词向量中的所有单词随机生成不同顺序，词向量的长度为T，对于词向量中的任一单词x_i,出现在所述单词x_i后面的词{x_i+1,…,x_n}通过所述排列操作能出现在所述单词x_i前面，将长度为T的词向量的所有排列组合集合为Z_T，设zt为词向量中的第t个元素，z<t表示z∈Z_T的第1个元素到第t-1个元素，通过XLNet预训练方法训练所述词向量数据集的最终优化目标，所述最终优化目标表示为θ为待训练的模型参数。

5.根据权利要求1所述的基于情感分析的微博谣言检测方法，其特征在于，在步骤S3)中，建立BiLSTM+Attention网络，利用所述BiLSTM+Attention网络分别提取所述若干个微博事件的嵌入矩阵中关于微博评论的情感特征，包括以下步骤：

6.根据权利要求5所述的基于情感分析的微博谣言检测方法，其特征在于，在步骤S4)中，通过至少一层全连接神经网络将与每一个微博事件相对应的关于微博正文内容的语义特征以及与每一个微博事件相对应的关于微博评论的情感特征进行特征融合，获得每一个微博事件的融合特征表示将关于微博正文内容的语义特征和关于微博评论的情感特征进行拼接。

7.根据权利要求1所述的基于情感分析的微博谣言检测方法，其特征在于，所述分类器为Softmax函数。