CN114840771A

CN114840771A - 基于新闻环境信息建模的虚假新闻检测方法

Info

Publication number: CN114840771A
Application number: CN202210214207.3A
Authority: CN
Inventors: 曹娟; 盛强; 张雪遥; 李润东; 汪旦丁; 朱勇椿; 谢添
Original assignee: Beijing Zhongke Ruijian Technology Co ltd
Current assignee: Beijing Zhongke Ruijian Technology Co ltd
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-08-02
Anticipated expiration: 2042-03-04
Also published as: CN114840771B

Abstract

本发明涉及一种基于新闻环境信息建模的虚假新闻检测方法，其特征在于：基于待检测新闻获取其发布前若干天内的新闻消息集合，将其作为宏观新闻环境；从新闻消息集合中提取与待检测新闻相似度最高的若干条新闻，将其作为微观新闻环境；基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算宏观环境感知向量；基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元素向量的相似度计算微观环境感知向量，其中微观环境中心向量为微观新闻环境所有新闻元素向量的均值；获取虚假新闻检测器的对待检测新闻的新闻表示向量，将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融合，并基于融合结合判断该待检测新闻的真假。

Description

基于新闻环境信息建模的虚假新闻检测方法

技术领域

本发明涉及一种基于新闻环境信息建模的虚假新闻检测方法。适用于社交媒体数据挖掘和互联网内容安全领域。

背景技术

社交媒体上的虚假新闻问题已经在政治、经济、民生等方面对现实世界构成了威胁。为了实现对虚假新闻的高效检测，已有许多研究着眼于开发自动虚假新闻检测系统。按照关注点不同，国内外自动检测虚假新闻内容的方法大致可分为两种：

第一类是仅仅基于消息内容的检测方法，这类方法关注于虚假新闻本身是 “如何写”的，即不同虚假新闻之间共享的模式信息(如风格、情感、语言运用偏好等)。例如利用了虚假新闻中的情感、态度、情绪等信息。

第二类是基于事实证据的方法，这类方法主要通过检索外部证据库以判断给定新闻中描述的事件是否为真，并根据这些证据本身的可信度和其对给定新闻的支持、反对或中立立场，判断给定新闻所描述事件的真实性。例如引入了维基百科作为外部证据库，直接使用搜索引擎得到相关证据，针对“旧谣新传” 现象，以辟谣文章库中的辟谣文作为证据。

发明内容

本发明要解决的技术问题是：提供一种基于新闻环境信息建模的虚假新闻检测方法。

本发明所采用的技术方案是：一种基于新闻环境信息建模的虚假新闻检测方法，其特征在于：

基于待检测新闻获取其发布前若干天内的新闻消息集合，将该新闻消息集合作为宏观新闻环境；

从新闻消息集合中提取与待检测新闻相似度最高的若干条新闻，将该若干条新闻作为微观新闻环境；

基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算宏观环境感知向量；

基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元素向量的相似度计算微观环境感知向量，其中微观环境中心向量为微观新闻环境所有新闻元素向量的均值；

获取虚假新闻检测器的对待检测新闻的新闻表示向量，将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融合，并基于融合结合判断该待检测新闻的真假。

所述基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算宏观环境感知向量，包括：

使用C个高斯核对各个相似度数值按不同区间进行池化；

将所有C个高斯核的输出拼接，得到宏观环境核池化向量；

将宏观环境核池化向量、待检测新闻向量及宏观环境中心向量拼接后送入多层感知机网络，得到宏观环境感知向量；

所述宏观环境中心向量为宏观新闻环境所有新闻元素向量的均值。

所述使用C个高斯核对各个相似度数值按不同区间进行池化，包括：

第j个高斯核的输出为

其中，μ_j和σ_j分别是第j个高斯核的中心和宽度。

所述基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元素向量的相似度计算微观环境感知向量，包括：

使用C个高斯核对各个相似度数值按不同区间进行池化；

将所有C个高斯核的输出拼接，分别得到新闻-微观环境核池化向量和中心 -微观环境核池化向量；

使用多层感知机网络计算待检测新闻向量和微观环境中心向量的语义交互向量；

使用多层感知机网络计算新闻-微观环境核池化向量和中心-微观环境核池化向量的相似度交互向量；

将语义交互向量和相似度交互向量拼接后送入多层感知机网络，得到微观环境感知向量。

所述使用多层感知机网络计算新闻-微观环境核池化向量和中心-微观环境核池化向量的相似度交互向量，包括：

u^sim＝MLP3(g(K(p,ε^mic),K(m(ε^mic),ε^mic)))

其中，u^sim为相似度交互向量；K(p,ε^mic)为新闻-微观环境核池化向量； K(m(ε^mic),ε^mic)为中心-微观环境核池化向量；g(x，y)＝(x⊙y)⊕(x-y)，⊙ 表示哈达玛积。

所述将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融合，并基于融合结合判断该待检测新闻的真假，包括：

将新闻表示向量与宏观环境感知向量拼接融合得到融合门向量；

使用融合门向量作为权重融合宏观环境感知向量和微观环境感知向量，得到环境感知向量；

将新闻表示向量和环境感知向量拼接，经过多层感知机网络和sigmoid函数得到预测概率值；

将预测概率值与预先设定的阈值进行比对，得到新闻真假的预测结果。

所述将新闻表示向量与宏观环境感知向量拼接融合得到融合门向量，包括：

将新闻表示向量与宏观环境感知向量拼接，并通过线性层和sigmoid函数得到融合门向量。

一种基于新闻环境信息建模的虚假新闻检测装置，其特征在于：

新闻获取模块，用于基于待检测新闻获取其发布前若干天内的新闻消息集合，将该新闻消息集合作为宏观新闻环境；

新闻提取模块，用于从新闻消息集合中提取与待检测新闻相似度最高的若干条新闻，将该若干条新闻作为微观新闻环境；

宏观感知计算模块，用于基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算宏观环境感知向量；

微观感知计算模块，基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元素向量的相似度计算微观环境感知向量，其中微观环境中心向量为微观新闻环境所有新闻元素向量的均值；

融合判断模块，用于获取虚假新闻检测器的对待检测新闻的新闻表示向量，将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融合，并基于融合结合判断该待检测新闻的真假。

一种存储介质，其上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述基于新闻环境信息建模的虚假新闻检测方法的步骤。

一种虚假新闻检测电子设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述基于新闻环境信息建模的虚假新闻检测方法的步骤。

本发明的有益效果是：本发明根据待检测新闻调取其发布前若干天的主流新闻集合，构成宏观新闻环境，之后检索主题相关消息构建微观新闻环境，在宏观新闻环境和微观新闻环境中，分别计算待检测新闻与环境新闻之间的语义相似度，并使用高斯核池化技术实现“软计数”，聚合得到宏观/微观环境感知向量。

本发明使用融合门机制实现新闻环境引导的虚假新闻检测，即将已有虚假新闻检测器的新闻表示向量与环境感知向量拼接融合得到融合门向量，再使用融合门向量作为权重融合宏观/微观环境感知向量，用于最终预测待检测新闻是真或假。

本发明通过对新闻环境的“宏观-微观”两层建模，有效捕捉了给定消息的流行度和新颖度，实现了对已有虚假新闻检测方法的有效信息补充，提高了虚假新闻检测的性能。

本发明主要依赖已经成熟固定的相似度计算模块和无参的高斯核池化技术，在已有的虚假新闻检测器基础上，引入参数量较少，即便面对大量的新闻环境数据，也可以实现快速计算，拥有良好的运算效率。

已有方案均试图学习并记忆静态、恒定的知识用于虚假新闻检测，而本发明引入了消息发布当时的新闻环境，可以实现对外部信息变化的快速适应，实现动态决策，从而拥有更强的泛化能力。

附图说明

图1为实施例的流程图。

图2为实施例中的新闻采集流程图。

具体实施方式

为了达到在互联网上(尤其是社交媒体上)广泛传播的目的，一条假新闻必须要在大量主流新闻声音中吸引到足够多的注意力，从而引发病毒式传播。这意味着，炮制假新闻的造谣者在创作过程中，会仔细考虑该假新闻面对的新闻环境因素，并据此挑选自己的造谣重点。

数据分析显示，一条“优秀的”假新闻应当具有两方面优势：(1)流行度高，即假新闻相关话题最好已经有一定热度。(2)新颖度高，假新闻需要在热点新闻的众多已知信息之外，找到新颖点，从而迅速抓住读者眼球，引发关注。

承接上例，大部分相关新闻都关注赛程、赛果，而假消息为了吸引眼球，可能造谣。而上述的流行度和新颖度，是消息本身和事实证据库难以提供的，需要利用新闻发布之时的新闻环境信息。

如图1所示，本实施例提供一种基于新闻环境信息建模的虚假新闻检测方法，具体包括以下步骤：

S1、基于待检测新闻P获取其发布前若干天内的新闻消息集合，将该新闻消息集合作为宏观新闻环境。

本实施例维护了一个主流新闻消息库，其通过数据采集器针对性获取给定主流媒体列表中的媒体发布的所有新闻消息ε，作为新闻环境构建的基本元素，如图2所示。为了使构建的宏观新闻环境(ε^mac)可以反映待检测新闻相关话题发布之时的流行度，本实施例定义宏观新闻环境为新闻消息库中发布时间在待检测新闻发布前T天内的所有新闻组成的新闻消息集合：

ε^mac＝{e：e∈ε,0≤t_p-t_e≤T}

其中，t_p为待检测新闻P的发布时间；t_e为媒体发布新闻e的时间。

S2、从新闻消息集合中提取与待检测新闻相似度最高的若干条新闻，将该若干条新闻作为微观新闻环境。

为了使构建的微观新闻环境(ε^mic)可以反映待检测新闻P在其所在话题中的新颖度高低，本实施例定义微观新闻环境为宏观新闻环境与P相似度最高前 r％条新闻(向上取整)：

ε^mic＝{e：e∈Topk(P,ε^mac)}

其中，

r∈(0,100)；相似度函数Topk可以返回前k条相似新闻，具体方法可以是基于文本的(如词频-逆文档频率，TF-IDF)，也可以是基于语义的(如SentenceBERT)。

本实施例使用预训练语言模型

(如BERT)将待检测新闻P和宏观/微观新闻环境中的所有新闻元素(例如e)转化实值语义向量，维度为d：

S3、基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算宏观环境感知向量。

S30、首先基于待检测新闻P和宏观新闻环境新闻元素的语义向量计算待检测新闻P与所有宏观新闻环境元素e_i∈ε^mac(i＝1,…,|ε^mac|)的余弦相似度：

S31、由于相似度列表

的长度受宏观新闻环境新闻元素数量影响，本实施例使用高斯核池化对各个相似度数值按不同区间进行了“软计数”。假设使用C个高斯核，第j个高斯核的输出为

其中，μ_j和σ_j分别是第j个高斯核的中心(分布均值)和宽度(分布标准差)，所有中心都位于区间[-1,1]内(与余弦相似度函数的值域一致)，其分布可根据实际需求，选择均匀分布或其它自定义分布。

S32、将所有C个高斯核输出拼接(⊕)，即得到新闻-宏观环境核池化向量：

S33、将新闻-宏观环境核池化向量、待检测新闻向量以及宏观环境中心向量 m(ε^mac)(即宏观环境所有新闻元素向量的均值)进行拼接送入多层感知机网络 (MLP，为便于区分，此处为MLP1)，得到宏观环境感知向量：

v^p，mac＝MLP1(p⊕m(ε^mac)⊕K(p，ε^mac))

S4、基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元素向量的相似度计算微观环境感知向量，其中微观环境中心向量为微观新闻环境所有新闻元素向量的均值。

S40、由于新颖度的体现不仅需要对待检测新闻与微观新闻环境关系的刻画，还需要对微观新闻环境本身的分布进行表示，本实施例利用步骤S3中核池化向量中的计算公式，分别对待检测新闻向量和微观环境中心向量m(ε^mic)(即微观环境所有新闻元素向量的均值)分别与所有微观环境元素进行了相似度计算和核池化，得到新闻-微观环境核池化向量K(p,ε^mic)和中心-微观环境核池化向量 K(m(ε^mic)，ε^mic)。

S41、使用多层感知机网络(MLP2)计算待检测新闻向量和微观环境中心向量的语义交互向量。

u^sem＝MLP2(p⊕m(ε^mic))

S42、使用多层感知机网络(MLP3)计算新闻-微观环境核池化向量K(p,ε^mic) 和中心-微观环境核池化向量K(m(ε^mic),ε^mic)的相似度交互向量。

u^sim＝MLP3(g(K(p,ε^mic),K(m(ε^mic),ε^mic)))

其中，g(x，y)＝(x⊙y)⊕(x-y)，⊙表示哈达玛积。

S43、最后将语义交互向量和相似度交互向量拼接送入多层感知机网络 (MLP4)，得到微观环境感知向量：

v^p，mic＝MLP4(u^sem⊕u^sim)

S5、获取虚假新闻检测器的对待检测新闻的新闻表示向量，将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融合，并基于融合结合判断该待检测新闻的真假。

本实施例旨在利用新闻环境信息提高虚假新闻的检测性能，而不是单独利用新闻环境信息进行判别，因此需要给出与已有虚假新闻检测器的整合方案。

S50、给定虚假新闻检测器，假设o是其对待检测新闻的新闻表示向量，本实施例基于融合门机制实现新闻环境感知信息和新闻语义表示信息的融合。具体地，将o和宏观环境感知向量v^p,max拼接，并通过线性层(Linear)和sigmoid 函数得到融合门向量：

g＝sigmoid(Linear(o⊕v^p，mac))

S51、使用融合门向量作为重要性指标，加权融合宏观和微观环境感知向量，得到环境感知向量：

v^p＝g⊙v^p，max+(1-g)⊙v^p，mic

S52、将新闻表示向量o和融合后的环境感知向量v^p拼接，经过多层感知机网络(MLP5)和sigmoid层，即可得到预测概率值

S53、根据预先设定的阈值thr(一般设为0.5)，可以得到最终的预测结果：

本实施例还提供一种基于新闻环境信息建模的虚假新闻检测装置，包括新闻获取模块、新闻提取模块、宏观感知计算模块、微观感知计算模块和融合判断模块。

本例中新闻获取模块用于基于待检测新闻获取其发布前若干天内的新闻消息集合，将该新闻消息集合作为宏观新闻环境；新闻提取模块用于从新闻消息集合中提取与待检测新闻相似度最高的若干条新闻，将该若干条新闻作为微观新闻环境；宏观感知计算模块用于基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算宏观环境感知向量；微观感知计算模块基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元素向量的相似度计算微观环境感知向量，其中微观环境中心向量为微观新闻环境所有新闻元素向量的均值；融合判断模块用于获取虚假新闻检测器的对待检测新闻的新闻表示向量，将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融合，并基于融合结合判断该待检测新闻的真假。

本实施例还提供一种存储介质，其上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本例中基于新闻环境信息建模的虚假新闻检测方法的步骤。

本实施例还提供一种虚假新闻检测电子设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本例中基于新闻环境信息建模的虚假新闻检测方法的步骤。

Claims

1.一种基于新闻环境信息建模的虚假新闻检测方法，其特征在于：

2.根据权利要求1所述的基于新闻环境信息建模的虚假新闻检测方法，其特征在于，所述基于待检测新闻向量与宏观新闻环境所有新闻元素向量的相似度计算宏观环境感知向量，包括：

使用C个高斯核对各个相似度数值按不同区间进行池化；

将所有C个高斯核的输出拼接，得到宏观环境核池化向量；

3.根据权利要求2所述的基于新闻环境信息建模的虚假新闻检测方法，其特征在于，所述使用C个高斯核对各个相似度数值按不同区间进行池化，包括：

第j个高斯核的输出为

其中，μ_j和σ_j分别是第j个高斯核的中心和宽度。

4.根据权利要求1所述的基于新闻环境信息建模的虚假新闻检测方法，其特征在于，所述基于待检测新闻向量和微观环境中心向量与微观新闻环境所有新闻元素向量的相似度计算微观环境感知向量，包括：

使用C个高斯核对各个相似度数值按不同区间进行池化；

将所有C个高斯核的输出拼接，分别得到新闻-微观环境核池化向量和中心-微观环境核池化向量；

5.根据权利要求4所述的基于新闻环境信息建模的虚假新闻检测方法，其特征在于，所述使用多层感知机网络计算新闻-微观环境核池化向量和中心-微观环境核池化向量的相似度交互向量，包括：

u^sim＝MLP3(g(K(p,ε^mic),K(m(ε^mic),ε^mic)))

其中，u^sim为相似度交互向量；K(p,ε^mic)为新闻-微观环境核池化向量；K(m(ε^mic),ε^mic)为中心-微观环境核池化向量；g(x,y)＝(x⊙y)⊕(x-y)，⊙表示哈达玛积。

6.根据权利要求1所述的基于新闻环境信息建模的虚假新闻检测方法，其特征在于，所述将新闻表示向量与所述宏观环境感知向量和所述微观环境感知向量融合，并基于融合结合判断该待检测新闻的真假，包括：

将新闻表示向量和环境感知向量拼接，经过多层感知机网络和sigmod函数得到预测概率值；

7.根据权利要求6所述的基于新闻环境信息建模的虚假新闻检测方法，其特征在于，所述将新闻表示向量与宏观环境感知向量拼接融合得到融合门向量，包括：

将新闻表示向量与宏观环境感知向量拼接，并通过线性层和sigmod函数得到融合门向量。

8.一种基于新闻环境信息建模的虚假新闻检测装置，其特征在于：

9.一种存储介质，其上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现权利要求1～7任意一项所述基于新闻环境信息建模的虚假新闻检测方法的步骤。

10.一种虚假新闻检测电子设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现权利要求1～7任意一项所述基于新闻环境信息建模的虚假新闻检测方法的步骤。