CN114547293A

CN114547293A - 一种跨平台虚假新闻检测方法及系统

Info

Publication number: CN114547293A
Application number: CN202210036532.5A
Authority: CN
Inventors: 敬静; 吴泓辰; 孙杰; 房晓畅; 张化祥
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2022-01-13
Filing date: 2022-01-13
Publication date: 2022-05-27

Abstract

本发明涉及机器学习技术领域，公开了一种跨平台虚假新闻检测方法及系统。所述方法包括：获取待检测新闻，全网搜索该条新闻的推文，对于每条推文，均提取其评论信息；对这些评论信息，分别分析情感分布特征和发布时间分布特征；对所述新闻的标题和正文内容进行一致性分析，得到文本一致性特征；根据所述新闻发布时间和推文发布时间，获取设定时间范围内的传播次数，得到传播特征；根据所述评论情感分布特征、评论时间分布特征、文本一致性特征和传播特征，得到所述新闻的虚假程度评测结果。本发明基于情感、时间、文本和传播特征，实现了对虚假新闻的检测。

Description

一种跨平台虚假新闻检测方法及系统

技术领域

本发明属于机器学习技术领域，尤其涉及一种跨平台虚假新闻检测方法及系统。

背景技术

近年来，随着移动互联网的快速发展，网络已成为虚假信息传播的主要渠道。类似于微博、推特等几乎人手一个账号的社交媒体在对新闻的传播起了很大的作用。虚假信息在一个平台中发源、传播到其他平台，即使源平台的虚假被遏制，也会因为其他平台的回溯效果再次传导回源平台，造成此消彼长的潮汐现象。

近年来，对虚假新闻检测的研究主要集中于新闻的各个特征，包括用户分析数据、文本内容和新闻传播方式。有些研究基于用户的特征和时间特征进行分析，有些研究人员利用文章的语言特征对新闻的真伪性进行判断，如写作风格，词汇和语法分析等。然而，这些利于特征提取的方法不仅耗时耗力，而且还不能充分利用新闻所包含的信息。

发明内容

为克服上述现有技术的不足，本发明提供了一种跨平台虚假新闻检测方法，基于情感、时间、文本和传播特征，实现了对虚假新闻的检测。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种跨平台虚假新闻检测方法，包括以下步骤：

获取待检测新闻，全网搜索该条新闻的推文，对于每条推文，均提取其评论信息；

对这些评论信息，分别分析情感分布特征和发布时间分布特征；

对所述新闻的标题和正文内容进行一致性分析，得到文本一致性特征；

根据所述新闻发布时间和推文发布时间，获取设定时间范围内的传播次数，得到传播特征；

根据所述评论情感分布特征、评论时间分布特征、文本一致性特征和传播特征，得到所述新闻的虚假程度评测结果。

进一步地，分析情感分布特征包括：

对每条评论信息依次进行情感分析，得到每条评论的情感值，所述情感值为-1，0或1；

根据这些评论信息的情感值，采用情感值为0的评论占比用来衡量两极分化程度，作为情感分布特征。

进一步地，所述情感分析包括：

将待分析评论信息输入词嵌入模型，获取所述评论各个词语对应的特征向量，拼接得到所述评论的特征向量；

将所述特征向量输入预训练好的情感分析模型中，得到每个评论的情感预测值，其中，所述情感分析模型采用Transformer模型训练得到。

进一步地，分析发布时间分布特征包括：

对每条评论信息的发布时间进行时间戳提取，并进行排序；

将相邻时间戳之间的差值进行累加，累加值作为发布时间分布特征。

进一步地，对所述新闻的标题和正文内容进行一致性分析包括：

对所述新闻的标题和正文内容，分别进行词嵌入，得到文本特征向量；

基于标题和正文内容的文本特征向量，进行相似性分析，得到文本一致性特征。

进一步地，得到传播特征包括：获取所述新闻发布之后设定时间范围内的推文个数，即传播次数；根据传播次数计算传播特征。

进一步地，所述新闻的虚假程度评测结果为所述评论情感分布特征、评论时间分布特征、文本一致性特征和传播特征的累加和。

一个或多个实施例提供了一种跨平台虚假新闻检测系统，包括：

评论信息获取模块，用于获取待检测新闻，全网搜索该条新闻的推文，对于每条推文，均提取其评论信息；

评论特征分析模块，用于对这些评论信息，分别分析情感分布特征和发布时间分布特征；

新闻文本分析模块，用于对所述新闻的标题和正文内容进行一致性分析，得到文本一致性特征；

传播特征分析模块，用于根据所述新闻发布时间和推文发布时间，获取设定时间范围内的传播次数，得到传播特征；

虚假新闻检测模块，用于根据所述评论情感分布特征、评论时间分布特征、文本一致性特征和传播特征，得到所述新闻的虚假程度评测结果。

一个或多个实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述跨平台虚假新闻检测方法。

一个或多个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述跨平台虚假新闻检测方法。

以上一个或多个技术方案存在以下有益效果：

本发明对于新闻所包含的时间、情感、文本等信息进行了充分利用，有利于提高虚假新闻检测的准确性；

并且，提供了更为简便的时间分布、文本相似性等计算方法，计算效率更高，提高了虚假新闻检测的效率，有利于虚假新闻的早期检测，从而尽早对传播进行干预。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明一个或多个实施例中的跨平台虚假新闻检测方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

通过对流行于各个社交媒体上的虚假新闻集进行统计分析，得到在跨平台上泛滥传播的虚假新闻主要有以下特征：

情感特征：在社交媒体上，人们在接受社交网络推送的新闻时，可以根据自己的主观意向对该新闻进行评分，一般来说，因为虚假新闻的具有耸人听闻、博人眼球，缺乏一定的客观公正性，所以虚假新闻中的评论中言语情感有强烈的两极分化趋势，一般以满分评级和最低评级为主导。

时间特征：一般来说，虚假评论比真实评论更“突发”，虚假信息提供者发起连续评论的时间间隔更短，因此可以依靠早期新闻评论的时间特征来判断新闻的真伪。

文本特征：随着社交媒体的兴起，没有社会道德的自媒体在发布文本中包含的信息和读者真正想知道的信息之间创造一定的差距，即标题党新闻，这类新闻的标题往往包含着耸人听闻，博得读者的眼球的文本字眼，激发人们产生点击的欲望，但实际上包含的文本与题目大相径庭。

传播特征：当用户在微博上就某个话题发布超乎寻常的断言时，人们就会对此说法感兴趣，从而引起该谣言在社交网络上的爆发，而其他对此话题感兴趣的人则会转发该谣言，虚假新闻的传播传播的更快、更广，可以利用新闻的传播特征对早期的虚假新闻进行检测。

基于虚假新闻的以上特征，依次分析其评论数据、文本数据和传播数据，以提高虚假新闻的检测准确度。本实施例公开了一种跨平台虚假新闻检测方法，包括以下步骤：

步骤1：获取待检测新闻，全网搜索该条新闻的推文，对于每条推文，提取其评论信息；

步骤2：对所述评论信息依次进行情感分析，得到评论情感分布特征；

对于评论数据，我们首先分析评论的情感特征，评判评论是否两极分化情况严重，具体分析如下：

给定一个新闻N，相应的我们得到关于该新闻的推文P，对于P中的每条推文p_i，我们提取其评论信息[r_i1,r_i2,......,r_im]，m表示回复推文p_i的用户数目。

对于每一条评论信息，将所述评论信息输入词嵌入模型，获取所述评论各个词语对应的特征向量，拼接得到所述评论的特征向量。具体地，所述词嵌入模型可以采用BERT(Bidirectional Encoder Representation from Transformers)模型。然后将此特征向量输入到预训练好的情感分析模型中，得到每个评论的情感预测值，情感分化程度分类依靠情感分析模型完成。其中，所述情感分析模型采用Transformer模型训练得到。

所述情感分析模型输出值可以为-1，0或1。若用户持肯定态度则为1，若用户持否定态度则为1，其他为0。根据这些评论信息的情感值，采用情感值为0的评论占比用来衡量两极分化程度，作为情感分布特征S₁。S₁越小，虚假程度越高。

步骤3：根据所述评论信息的发布时间，得到评论时间分布特征；

我们对新闻评论中的评论时间戳进行提取，计算相邻评论之间时间戳的差值。表示为：t₁，t₂，......，t_n。并将时间差值进行累加得到差值的累积和S₂：

S₂＝t₁+t₂+......+t_n

从时间特征上看，S₂越小，虚假程度越高。

步骤4：对所述新闻的标题和正文内容进行一致性分析，得到文本一致性特征；

我们提取该新闻的文本数据，我们对文本数据中的标题和文本内容分别进行处理。将标题文本中的每个字映射到向量空间中的一个具体的实值向量中，得到X₁＝{X₁₁、X₁₂,......,X_1m}，其中X_1i∈R^d。我们就可以在文本中获得丰富的语义和语法信息。然后，将位置信息添加到每个句子的语义表示中得到：

X'₁＝PositionEmbedding(X₁) X₁,X'₁∈R^m*d

同样的，我们可以得到文本内容的表示：

X₂＝{x₂₁,x₂₂,x₂₃,x_2n} x_2j∈R^d

X'₂＝PositionEmbedding(X₂) X₂,X'₂∈R^n*d

利用transformer得到标题和内容的最终表示：

P₁ ^(k)＝Trans(S₁ ^(k-1))

P₂ ^(k)＝Trans(S₂ ^(k-1))

最后，利用相似性计算模块来计算标题与目标内容之间的相似性：

Sim_sent＝Cos(P₁,P₂)

Sim_token＝Mean(Matrix_similarity)

Sim＝Concat(Sim_sent,Sim_token)

其中，Matrix_similarity∈R^m*n是相似性特征的矩阵。

利用新闻的标题和文本内容之间的相似度计算，得到相似度S₃，S₃越小，虚假程度越高。

步骤5：根据所述新闻发布时间和推文时间，获取设定时间范围内的传播次数，得到传播特征；

我们对该新闻传播图上的五分钟内的传播次数进行了累计得到累计次数M，其中S₄＝1-M。根据新闻的传播特征，S₄越小，虚假程度越高。

步骤6：根据情感分布特征、时间分布特征、文本一致性特征和传播特征，得到所述新闻的虚假程度评测结果。

具体地，将各个特征检测出来的虚假程度值进行累加，得到最终对该新闻虚假程度的评测值S。

为了评估所提出的跨平台虚假新闻检测框架的有效性，我们在微博上构建了一个真实数据集并进行了全面的实验，该数据集包括新闻文章、文章的评论(带时间)以及新闻发布后五分钟内的传播次数。我们采用人工标记的方式对数据进行了标记，每条新闻非真既假。经实验得出我们的方法相对于基线方法取得了更好的效果。

实施例二

本实施例的目的是提供一种跨平台虚假新闻检测系统。包括：

实施例三

本实施例的目的是提供一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如实施例一中所述跨平台虚假新闻检测方法。

实施例四

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例一中所述跨平台虚假新闻检测方法。

以上实施例二至四中涉及的各步骤与方法实施例一相对应，具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质；还应当被理解为包括任何介质，所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种跨平台虚假新闻检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的虚假新闻检测方法，其特征在于，分析情感分布特征包括：

3.如权利要求2所述的虚假新闻检测方法，其特征在于，所述情感分析包括：

4.如权利要求1所述的虚假新闻检测方法，其特征在于，分析发布时间分布特征包括：

对每条评论信息的发布时间进行时间戳提取，并进行排序；

5.如权利要求1所述的虚假新闻检测方法，其特征在于，对所述新闻的标题和正文内容进行一致性分析包括：

6.如权利要求1所述的虚假新闻检测方法，其特征在于，得到传播特征包括：获取所述新闻发布之后设定时间范围内的推文个数，即传播次数；根据传播次数计算传播特征。

7.如权利要求1-6任一项所述的虚假新闻检测方法，其特征在于，所述新闻的虚假程度评测结果为所述评论情感分布特征、评论时间分布特征、文本一致性特征和传播特征的累加和。

8.一种跨平台虚假新闻检测系统，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述跨平台虚假新闻检测方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述跨平台虚假新闻检测方法。