CN111221941A

CN111221941A - 基于文本内容和行文风格的社交媒体谣言鉴别算法

Info

Publication number: CN111221941A
Application number: CN202010025107.7A
Authority: CN
Inventors: 周孟莹; 陈阳; 何东
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2020-06-02
Anticipated expiration: 2040-01-10
Also published as: CN111221941B

Abstract

本发明属于大数据挖掘技术领域，具体为基于文本内容和行文风格的社交媒体谣言鉴别算法。本发明算法包括：运用语言学统计词表，得到不同类别的词汇在谣言的与非谣言在文本上的代表性特征；通过GloVe算法训练得到文档向量特征，利用社会心理学词典和维基词典进行词汇分析，得到文本中谣言内容的倾向和行文风格特征；将得到的文档向量特征输入到一个双向长短期记忆网络中，文本内容倾向和行文风格特征输入到一个反向传播神经网络中，作为子网络处理词汇统计特征向量；将两者的输出向量相连接，作为最终反向传播神经网络的输入，得到是否为谣言的最终鉴别结果。本发明算法鉴别准确率高、计算耗时省。

Description

基于文本内容和行文风格的社交媒体谣言鉴别算法

技术领域

本发明属于大数据挖掘技术领域，具体涉及一种基于文本内容和行文风格的社交媒体谣言鉴别算法。

背景技术

近年来，社交媒体发展迅速，被人们越来越广泛地使用，以国外的Facebook、Twitter 以及国内的新浪微博为代表的社交媒体已经在全球范围内吸引了数十亿的用户。截止2018 年9 月，Facebook 已经拥有了22.7 亿的月度活跃用户，接近世界人口的30%。但在信息的传播方面，社交媒体则是是一把“双刃剑”。一方面，它有着访问容易、成本低廉和信息传播迅速的特性，使人们能够便捷地阅读和分享信息；另方面，它可能传播恶意用户蓄谋发布的谣言，比如恶意用户故意散布的虚假信息的谣言。因为有着广泛的覆盖面和分享这些信息的速度，国内的新浪微博，和国外的 Twitter 和 Facebook 等流行的社交媒体平台已被证明是传播伪造信息、虚假声明和捏造“标题党”的故事的重要渠道。随着社交媒体上出现的谣言越来越多，谣言的检测成为学术界、工业界和政府机关面临的一个重要问题。

谣言可以被简单定义为欺骗或者误导读者的文本信息，但谣言的形式却多种多样。现实世界中有很多种类的谣言，例如哄骗类、宣传类、讽刺类等等，这就导致了谣言的检测较为复杂。

学术界已经有许多关于谣言的研究，研究的重心主要在特征提取与模型构建方面。特征提取的研究主要包括语言特征、视觉特征、用户特征、推文特征和网络特征等方向。模型构建的研究主要包括基于知识的模型、基于风格的模型、和基于立场的模型等等。近年来随着深度学习的发展，应用深度神经网络进行谣言检测的研究也逐渐涌现。

发明人在进行社交媒体的谣言检测研究时发现，现有利用深度神经网络的方法对于谣言风格特征的获取还不够全面，导致现有方法在新产生的谣言上的识别准确度难以达到预期水平。

发明内容

鉴于以上情况，本发明的目的在于提供一种准确率高、计算量小的基于文本内容和行文风格的社交媒体谣言的鉴别算法。

本发明提出的基于文本内容和行文风格的社交媒体谣言的鉴别算法，其整体流程如图1所示，包括：运用语言学统计词表，得到不同类别的词汇在谣言的与非谣言在文本上的代表性特征；通过GloVe算法训练得到文档向量特征，利用社会心理学词典和维基词典进行词汇分析，得到文本中谣言内容的倾向和行文风格特征；将得到的文档向量特征输入到一个双向长短期记忆网络中，文本内容倾向和行文风格特征输入到一个反向传播神经网络中，作为子网络处理词汇统计特征向量；将两者的输出向量相连接，作为最终反向传播神经网络的输入，得到是否为谣言的最终鉴别结果。具体步骤为：

步骤1：对待鉴别的社交媒体文本进行数据清洗；

步骤2：对于已经清洗完毕的文本，通过GloVe算法[1]训练，得到文档向量特征；对于已经清洗完毕的文本，利用社会心理学词典[4]和维基词典(https://www.wiktionary.org/)进行词汇分析，得到文本中内容的倾向和行文风格特征；

步骤3：将步骤2中得到的文档向量特征输入到一个双向长短期记忆网络[2]中，将步骤2中得到的文本内容倾向和行文风格特征输入到一个反向传播神经网络[3]中，作为子网络处理词汇统计特征向量，将两者的输出向量相连接，作为最终反向传播神经网络的输入，得到是否为谣言的最终鉴别结果。

本发明中，步骤1具体包括：

步骤1-1：所述数据清洗，包括：清除所有非字母的字符，删除所有的无用词，删除所有缺失的行；

步骤1-2：根据数据的人为标定标签进行分类，分为谣言和非谣言两类。

本发明中，步骤2具体包括：

步骤2-1：对于已经清洗完毕的社交媒体文本，选择使用GloVe算法对文本进行向量化表示；

步骤2-2：对于已经清洗完毕的社交媒体文本，利用预先设计好的社会心理学词典和维基词典进行词汇分析，得到谣言文本中内容的倾向和行文风格特征。

本发明中，步骤3具体包括：

步骤3-1：将步骤2中得到的文档向量特征输入到一个双向长短期记忆网络中；

步骤3-2：将步骤2中得到的文本内容倾向和行文风格特征输入到一个反向传播神经网络中，作为子网络处理词汇统计特征向量；

步骤3-3：把双向长短期记忆网络和反向神经网络两者的输出向量相连接，并作为最终反向传播神经网络的输入，它将融合双向长短期记忆网络从整篇文章提取出的信息以及由词汇统计子网络从词汇统计特征中提取出的信息，对输入的文本作出是否为谣言的判断，该最终反向传播神经网络的输出即为输入文本是否为谣言的最终鉴别结果。

本发明的创新点在于：本发明对谣言和非谣言进行了词汇统计分析，并用量化的统计指标描述谣言与非谣言的差异，根据这些差异特点提取出检测谣言的有效词汇统计特征，并提出一种融合词汇统计特征的基于深度学习的方法来检测谣言，该发明可以准确的识别出来自社交媒体的谣言。

附图说明

图1为本发明基于文本内容和行文风格的社交媒体谣言鉴别算法的整体流程图。

图2为本发明基于文本内容和行文风格的社交媒体谣言鉴别算法中模型结构图。

具体实施方式

为了使本方面的上述目的和创新点能够更加容易理解，下面结合附图和具体实施方式对本发明作进一步详细的说明。

步骤1：对待鉴别的社交媒体谣言进行数据清洗：

步骤1-1：文本内容清洗，包括清除所有非字母的字符、删除所有的无用词和删除所有缺失的行；

步骤2：对于已经清洗完毕的社交媒体文本，构建文本向量化表达、内容倾向和行文风格特征：

步骤2-1：对于已经清洗完毕的社交媒体文本，选择使用GloVe算法[1]对文本进行向量化表。GloVe算法是一种基于全局词频统计的单词表算法。它的核心思想是通过对“词-词”共现矩阵进行降维从而得到词表示的方法；

步骤2-2：对于已经清洗完毕的社交媒体文本，利用预先设计好的社会心理学词典和维基词典进行词汇分析，得到文本中内容的倾向和行文风格特征。为了更准确的鉴别虚假谣言，本发明对于文本进行统计性的词汇分析：

（1）本发明选择使用LIWC[4]词典来做词汇分析，这是一种在社会科学和自然语言处理中被广泛使用的词汇分析方法。LIWC 是一个能够分析 80 种在社会心理学上有意义的词类的程序，拥有着巨大的词汇库。LIWC 所分析出来的各类词汇在谣言中的出现情况可以反映谣言中内容的倾向和行文风格，比如，较为主观的词语可用于戏剧化或者编造耸人听闻的故事。本发明考虑十五类词汇：赞同类、确切类、否定类、非流行、咒骂类、补白类、性描述类、工作类、金钱类、第一人称词汇、第三人称词汇、网络用语类、非正式类、消化类、不定代词类在每则文本中的出现频率，作为文本中内容的倾向和行文风格特征，并最终在训练模型时将其融入；

（2）基于谣言会尝试使文本更加生动来吸引读者的假设，本发明进一步引入了针对有强化意义词汇的分析来补充基于 LIWC 的词汇分析，本发明从维基词典中提取五类有强化意义的词汇：形容词比较级、形容词最高级、动作副词、方式副词以及语气副词的词汇，本发明考虑这五类词汇在文本中出现频率，作为文本中内容的倾向和行文风格特征的一部分。

步骤3：将步骤2中得到的文档向量特征输入到一个双向长短期记忆网络中，将步骤2中得到的文本内容倾向和行文风格特征输入到一个反向传播神经网络中，作为子网络处理词汇统计特征向量，将两者的输出向量相连接，作为最终反向传播神经网络的输入，得到是否为谣言的最终鉴别结果。如图2基于文本内容和行文风格的社交媒体谣言鉴别算法中模型结构图所示：

步骤3-1：将步骤2中得到的文档向量特征输入到一个双向长短期记忆网络中。长短期记忆网络是一种能够捕获长序列前后依赖的序列神经网络。对于 LSTM 的每一个时间步，它的输入为文本中一个单词用GloVe算法进行向量化的词语向量特征。同时考虑到前后文呼应或者矛盾也是虚假谣言的一项特征，本发明采用了双向长短期记忆网络，该网络包含了前向和后向的两个平行的 LSTM 网络，时间序列中的每个元素会考虑其之前和之后序列中的完整信息进行对其建模；

步骤3-2：将步骤2中得到的文本内容倾向和行文风格特征输入到一个反向传播神经网络中，作为子网络处理词汇统计特征向量。本发明选择使用一个反向传播神经网络作为子网络来处理词汇统计特征，网络中的激活函数均为 sigmoid 函数；

步骤3-3：把双向长短期记忆网络和反向神经网络两者的输出向量相连接，并作为最终反向传播神经网络的输入，它将融合双向长短期记忆网络从整篇文章提取出的信息以及由词汇统计子网络从词汇统计特征中提取出的信息，对输入的文本作出是否为谣言的判断，该最终反向传播神经网络的输出即为输入文本是否为谣言的最终鉴别结果。在模型进行训练的过程中，本发明以二值交叉熵作为训练的损失函数，具体公式如下：

其中，x =（x₁,x₂,…x_n)，x∈Rⁿ，代表输入最终反向传播神经网络的特征，即双向长短期记忆网络和反向神经网络两者的输出向量相连接后的结果；y=（y₁,y₂,…y_n)，y∈{0,1}，代表此社交媒体是否为谣言的人为标定结果，0代表为谣言，1代表为非谣言；f(x,θ)为模型函数，代表在给定x时，输出y为谣言的概率；θ为模型参数。

本发明以公开数据集为实验对象，利用本发明算法进行评估。本发明使用不同来源、不同类别、不同谣言程度的谣言和非谣言数据集来进行评估实验，数据集分别来自数万篇公开谣言报道[5]、普利策事实网站（https://www.politifact.com/）以及Kaggle比赛公开数据集（https://www.kaggle.com/c/fake-news/data）。数据集最终被分为两大类，一类为谣言，标记为0，一类为非谣言，标记为1。数据集的统计如下表1：

表1

实验采用的机器配置如下表2：

表2

设定的训练轮数为15轮，优化器为Adam[6]，每次批大小为256。将80%的数据作为训练集，将其余20%作为测试集。采用的评估标准是准确度，计算公式如下：

其中， TP，TN，FP，FN 分别代表真正例数量、真负例数量、假正例数量和假负例数量。最终实验结果如下表3：

表3

参考文献：

[1] Jeffrey Pennington, Richard Socher, and Christopher D. Manning.Glove: Global Vectors for Word Representation. Proc. of EMNLP, 2014.

[2] Alex Graves, and Jürgen Schmidhuber. Framewise phoneme classificationwith bidirectional LSTM and other neural network architectures. NeuralNetworks, 2005, 18(5-6): 602-610.

[3] David E. Rumelhart, Geoffrey E. Hinton, and Ronald J. Williams.Learning representations by back-propagating errors. Nature, 1986, 323.6088:533-536.

[4] James W. Pennebaker, Roger J Booth, and Martha E. Francis. Linguisticinquiry and word count: LIWC 2001. Mahway: Lawrence Erlbaum Associates, 2001,71.2001.

[5] Hannah Rashkin, Eunsol Choi, Jin Yea Jang, Svitlana Volkova, andYejin Choi. Truth of varying shades: Analyzing language in fake news andpolitical fact-checking. Proc. of EMNLP, 2017.

[6] Diederik P. Kingma and Jimmy Lei Ba. Adam: A method for stochasticoptimization. Proc. of ICLR, 2015.。

Claims

1.基于文本内容和行文风格的社交媒体谣言鉴别算法，其特征在于，具体步骤如下：

步骤1：对待鉴别的社交媒体文本进行数据清洗；

步骤2：对于已经清洗完毕的文本，通过GloVe算法训练，得到文档向量特征；对于已经清洗完毕的文本，利用社会心理学词典和维基词典进行词汇分析，得到文本中内容的倾向和行文风格特征；

步骤3：将步骤2中得到的文档向量特征输入到一个双向长短期记忆网络中，将步骤2中得到的文本内容倾向和行文风格特征输入到一个反向传播神经网络中，作为子网络处理词汇统计特征向量，将两者的输出向量相连接，作为最终反向传播神经网络的输入，得到是否为谣言的最终鉴别结果。

2.根据权利要求1所述的基于文本内容和行文风格的社交媒体谣言鉴别算法，其特征在于，步骤1具体包括：

3.根据权利要求1所述的基于文本内容和行文风格的社交媒体谣言鉴别算法，其特征在于，步骤2具体包括：

步骤2-1：对于已经清洗完毕的社交媒体文本，选择使用GloVe算法[1]对文本进行向量化表示；

4.根据权利要求1所述的基于文本内容和行文风格的社交媒体谣言鉴别算法，其特征在于，步骤3具体包括：

步骤3-3：把双向长短期记忆网络和反向神经网络两者的输出向量相连接，并作为最终反向传播神经网络的输入，它将融合双向长短期记忆网络从整篇文章提取出的信息以及由词汇统计子网络从词汇统计特征中提取出的信息，对输入的文本作出是否为谣言的判断，该最终反向传播神经网络的输出即为输入谣言是否为谣言的结果，最终得到是否为谣言的鉴别结果。

5.根据权利要求1所述的基于文本内容和行文风格的社交媒体谣言鉴别算法，其特征在于，步骤2-2中，所述对于已经清洗完毕的社交媒体文本，利用预先设计好的社会心理学词典和维基词典进行词汇分析，具体为：

①使用LIWC词典做词汇分析，分析如下十五类词汇：赞同类、确切类、否定类、非流行、咒骂类、补白类、性描述类、工作类、金钱类、第一人称词汇、第三人称词汇、网络用语类、非正式类、消化类、不定代词类，在每则文本中的出现频率，作为文本中内容的倾向和行文风格特征，并最终在训练模型时将其融入；

②基于谣言会尝试使文本更加生动来吸引读者的假设，引入针对有强化意义词汇的分析来补充基于LIWC的词汇分析，具体是从维基词典中提取五类有强化意义的词汇：形容词比较级、形容词最高级、动作副词、方式副词以及语气副词的词汇，分析这五类词汇在文本中出现频率，作为文本中内容的倾向和行文风格特征的一部分。