CN113934882A

CN113934882A - 细粒度的多模态虚假新闻检测方法

Info

Publication number: CN113934882A
Application number: CN202111152971.4A
Authority: CN
Inventors: 曹娟; 亓鹏; 何覃; 谢添
Original assignee: Beijing Zhongke Ruijian Technology Co ltd
Current assignee: Beijing Zhongke Ruijian Technology Co ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2022-01-14

Abstract

本发明涉及一种细粒度的多模态虚假新闻检测方法，为：获取待检测多模态新闻的新闻文本和新闻图片；从新闻文本中提取人物类型、地点类型和事件类型的文本实体；从新闻图片中提取图片文本，人物类型、地点类型和事件类型的视觉实体，以及新闻图片的视觉CNN特征；将新闻文本与图片文本拼接后输入BERT模型，获得文本特征；使用BERT模型获取人物类型、地点类型和事件类型视觉实体的视觉实体特征；融合上述特征，获得文本表示、视觉CNN表示和视觉实体表示；基于特征向量计算跨模态的人物相似度、地点相似度和事件相似度；基于上述信息计算所述多模态新闻的多模态表示；基于多模态新闻的多模态表示判断该多模态新闻的真实性。

Description

细粒度的多模态虚假新闻检测方法

技术领域

本发明涉及一种细粒度的多模态虚假新闻检测方法。适用于新闻可信度认证领域。

背景技术

近年来社交媒体已成为重要的新闻信息来源，人们逐渐习惯在社交媒体上获取最新的新闻并自由地发表自己的观点。然而，社交媒体的便利性和开放性也为虚假新闻的传播提供了极大的便利，造成了很多消极的社会影响。因此，能否利用技术手段对虚假新闻进行自动检测已经成为自媒体时代亟待解决的问题。文本作为新闻事件的主要描述载体，是传统虚假新闻检测方法的关注重点。最近，假新闻从传统的基于文本的新闻形式逐步向基于多模态内容的新闻形式演变。因此，基于多模态内容(本专利中指文本和图像模态)的检测方法，即多模态虚假新闻检测，成为当前的研究热点。

目前多模态虚假新闻检测任务中最常用的多模态融合框架是：利用预训练的VGG19模型提取通用的视觉特征，然后将其与文本特征进行简单拼接用于分类。基于这个框架，Wang等人引入事件分类作为假新闻分类的辅助任务，以指导模型学习事件不变的多模态特征，从而获得更好的泛化效果；Wang等人提出了一种元神经过程的方法来检测突发事件中的假新闻；Dhruv等人将此框架修改为多模态变分自动编码器，以学习多模态内容的共享表示用于分类；Singhal等人首次将预训练语言模型(文中指BERT)引入该框架。

尽管这些方法在多模态虚假新闻检测任务上取得了显著进展，他们在建模多模态表达上仍存在不足。现有方法往往利用通用的多模态特征表达进行分类，忽略了如何针对虚假新闻检测的具体任务建模有效的多模态表达，从而限制了多模态内容在检测中的有效性。具体地，1)利用在ImageNet上预训练的VGG19 模型提取图片的全局视觉特征，忽略了图片局部展现的高层语义。这种对图片内容的粗粒度建模导致他们无法充分建模图片中的有效线索，进而很难实现有效的多模态推理；2)通过简单的拼接等方式进行粗粒度的多模态特征融合，忽略了虚假新闻中图文交互的复杂性，进而无法充分捕捉潜在的多模态线索。

发明内容

本发明要解决的技术问题是：针对上述存在的问题，提供一种细粒度的多模态虚假新闻检测方法。

本发明所采用的技术方案是：一种细粒度的多模态虚假新闻检测方法，其特征在于：

获取待检测多模态新闻的新闻文本和新闻图片；

从新闻文本中提取人物类型、地点类型和事件类型的文本实体；

从新闻图片中提取图片文本，人物类型、地点类型和事件类型的视觉实体，以及新闻图片的视觉CNN特征，其中新闻图片的视觉CNN特征包括分区域从该新闻图片中提取出的视觉特征；

将新闻文本与图片文本拼接后输入BERT模型，获得文本特征；

使用BERT模型获取人物类型、地点类型和事件类型视觉实体的视觉实体特征；

利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征，获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示；

基于文本实体和视觉实体的特征向量计算跨模态的人物相似度、地点相似度和事件相似度；

基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN表示和文本增强的视觉实体表示，以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示；

基于多模态新闻的多模态表示判断该多模态新闻的真实性。

所述利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征，获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示，包括：

将文本特征和视觉实体特征输入文本视觉实体协同注意力Transformer模型，获得由视觉实体增强的文本表示和由文本增强的视觉实体表示；

将视觉实体增强的文本表示和视觉CNN特征输入文本视觉特征协同注意力Transformer模型，获得由视觉实体和视觉CNN特征增强的文本表示和由文本增强的视觉CNN表示。

所述从新闻图片中提取新闻图片的视觉CNN特征，包括：

将新闻图片输入VGG19模型，将原始图片分割为m*m的区域，从VGG19 模型的最后一层提取图片的视觉CNN特征，视觉CNN特征包括该新闻图片m*m 个图片区域的视觉特征。

所述从新闻图片中提取人物类型、地点类型和事件类型的视觉实体，包括：

利用名人检测模型识别图片中的名人，作为人物类型的视觉实体；

利用预训练的地标检测模型识别图片中的地标，作为地点类型的视觉实体；

通过特殊符号及服饰检测模型识别图片中的组织机构名，通过预训练的图像识别模型识别有冲击力的视觉概念及通用的目标及场景标签，作为事件类型的视觉实体。

基于文本实体和视觉实体的特征向量计算跨模态的人物相似度，包括：

其中，

为跨模态的人物相似度；t和v分别为文本实体和视觉实体的特征向量；T_p为多模态新闻中文本人物实体集合；V_p为多模态新闻中视觉人物实体集合；(表示新闻图片包含视觉人物实体v的概率。

所述基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN 表示和文本增强的视觉实体表示，以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示，包括：

x_m＝concat(x_t,x_ve,x_v,x_s).

其中，x_s为跨模态实体不一致性特征；

为跨模态的人物相似度；

为跨模态的地点相似度；

为跨模态的事件相似度；x_m为多模态新闻的多模态表达；x_t为文本的最终表示，对视觉实体和视觉CNN特征增强的文本表示进行平均操作后获得；x_ve为视觉实体的最终表示，对文本增强的视觉实体表示进行平均操作后获得；x_v图片的最终表示，对文本增强的视觉CNN表示进行平均操作后获得。

所述基于多模态新闻的多模态表示判断该多模态新闻的真实性，包括：

使用具有softmax激活的全连接层将多模态新闻的多模态表示x_m投影到两类目标空间：真实新闻和虚假新闻，并获得概率分布：

p＝softmax(Wx_m+b),

其中，p＝[p₀,p₁]是预测的概率向量，p₀和p₁分别表示真新闻及假新闻的预测概率；W表示权重矩阵，b表示偏置。

一种细粒度的多模态虚假新闻检测装置，其特征在于：

待检测新闻获取模块，用于获取待检测多模态新闻的新闻文本和新闻图片；

文本内容提取模块，用于从新闻文本中提取人物类型、地点类型和事件类型的文本实体；

图片内容提取模块，用于从新闻图片中提取图片文本，人物类型、地点类型和事件类型的视觉实体，以及新闻图片的视觉CNN特征，其中新闻图片的视觉CNN特征包括分区域从该新闻图片中提取出的视觉特征；

文本特征获取模块，用于将新闻文本与图片文本拼接后输入BERT模型，获得文本特征；

视觉实体特征获取模块，用于使用BERT模型获取人物类型、地点类型和事件类型视觉实体的视觉实体特征；

多模态特征融合模块，用于利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征，获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示；

相似度计算模块，用于基于文本实体和视觉实体的特征向量计算跨模态的人物相似度、地点相似度和事件相似度；

多模态表示计算模块，用于基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN表示和文本增强的视觉实体表示，以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示；

真实性判断模块，用于基于多模态新闻的多模态表示判断该多模态新闻的真实性。

一种存储介质，其上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述细粒度的多模态虚假新闻检测方法的步骤。

一种计算机设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现所述细粒度的多模态虚假新闻检测方法的步骤。

本发明的有益效果是：本发明通过对新闻图片中嵌入的图片文本和视觉实体进行细粒度的建模，从而更好地理解新闻图片的高层语义；通过细粒度的建模文本互补、实体不一致及相互增强三种多模态交互关系，为假新闻检测提供重要线索。

本发明通过词向量计算人物、地点以及事件这三种类型的文本实体与视觉实体的相似度，有效捕捉虚闻图片及新闻文本的不一致性。本发明通过显式提取新闻图片中的图片文字，将其与新闻文本通过[SEP]分隔后拼接，输入到BERT 模型中获得文本特征，以充分利用新闻文本以及图片文本的信息并建模其交互。本发明利用多模态协同注意力Transformer，建模文本特征与视觉实体特征以及视觉特征的交互，从而捕捉图文在不同语义层次上的交互。

附图说明

图1为实施例的流程图。

图2为实施例中多模态协同注意力Transformer模型的框图。

具体实施方式

如图1所述，本实施例为一种细粒度的多模态虚假新闻检测方法，目标是利用输入多模态新闻的新闻文本T和新闻图片，I判断该条新闻为真新闻或假新闻，即利用多模态内容对新闻是否属于虚假新闻进行二分类，具体包括以下步骤：

S1、新闻获取：获取待检测多模态新闻的新闻文本T和新闻图片I。

S2、多模态特征提取。

S21、文本内容提取：从新闻文本中提取人物类型、地点类型和事件类型的文本实体。

利用命名实体识别(named entity recognition，NER)技术从新闻文本中提取人物类型以及地点类型的文本实体P_T和L_T，采用词性标注(part-of-speech tagging，POS)技术从新闻文本中提取所有的名词作为事件类型的文本实体C_T。

S22、图片内容提取：从新闻图片中提取图片文本，人物类型、地点类型和事件类型的视觉实体，以及新闻图片的视觉CNN特征，其中新闻图片的视觉 CNN特征包括分区域从该新闻图片中提取出的视觉特征。

图片文本：利用光学字符识别(Optical Character Recognition，OCR)技术新闻图片中提取图片中嵌入的图片文本O。

视觉CNN特征：在虚假新闻图片数据集上对VGG19模型进行微调，将原始图片分割为7*7的区域，从VGG19模型的最后一层提取图片的视觉CNN特征H_V＝[r₁,r₂,…r_n],n＝49，其中r_i表示第i个图片区域的视觉特征。

视觉实体：利用预训练的目标检测模型提取新闻图片中的视觉实体VE，具体包括：

1)利用名人检测模型识别图片中的名人作为人物类型的视觉实体P_V；

2)利用预训练的地标检测模型识别图片中的地标作为地点类型的视觉实体L_V；

3)通过特殊符号及服饰检测模型识别图片中的组织机构名，通过预训练的图像识别模型识别有冲击力的视觉概念(如暴力、血腥、灾难等)以及通用的目标及场景标签，作为事件类型的视觉实体C_V。

S23、视觉实体特征获取：在获得视觉实体VE＝[P_V,L_V,C_V]后，使用经训练的BERT模型获取人物类型、地点类型和事件类型视觉实体VE的表示向量，视觉实体特征H_VE。

S3、多模态特征融合。

S31、文本互补。将原始输入的新闻文本T以及从新闻图片中提取的图片文本O通过[SEP]分隔后拼接，输入到BERT模型：

H_T＝BERT([CLS]T[SEP]O[SEP])

获得文本特征

H_T＝[w₁,…w_n],

其中，w_i表示第i个单词的特征表示，n为组合文本的长度。

S32、相互增强：利用多模态协同注意力Transformer模型融合文本特征H_T、视觉CNN特征H_V和视觉实体特征H_VE，获得由视觉实体和视觉CNN特征增强的文本表示H_T←(VE,V)、由文本增强的视觉CNN表示H_V←T和由文本增强的视觉实体表示H_VE←T。

如图2所示，本实施例中多模态协同注意力Transformer模型采用双流Transformer同时处理文本和视觉信息，并将标准的query-key-value的注意力结构修改为多模态的协同注意力结构。在每一个Transformer层，给定文本和视觉的表达作为文本流以及视觉流的输入，在每个流中分别计算得到对应的查询矩阵Q、键矩阵K和值矩阵V，然后将查询矩阵Q传到另一个流的多头注意力模块，由此可在文本流中得到视觉增强的文本特征以及在视觉流中得到文本增强的视觉特征。本例中多模态协同注意力Transformer模块的剩余结构和标准的 Transformer模块保持一致，包括残差链接，层归一化，以及位置敏感的前馈网络。

本实施中文本特征H_T和视觉实体特征H_VE在相似的BERT构造的特征空间中进行融合，缓解多模态特征异构的问题。对齐的字词和视觉实体通常能够反映新闻的关键要素，因此本例使用多模态协同注意力Transformer来融合这些特征。本例将文本特征H_T和视觉实体特征H_VE输入文本视觉实体协同注意力 Transformer模型，获得由视觉实体增强的文本表示H_T←VE和文本增强的视觉实体表示H_VE←T。

视觉实体关注图像的局部高级语义，忽略了全局的低层视觉特征，作为补充，本实施例使用多模态协同注意力Transformer来建模文本特征和视觉CNN 特征之间的相关性。本实施例将由视觉实体增强的文本表示H_T←VE和视觉CNN 特征H_V输入文本视觉特征协同注意力Transformer模型，获得由视觉实体和视觉CNN特征增强的文本表示H_T←(VE,V)和文本增强的视觉CNN特征H_V←T。

S33、实体不一致性横梁：基于文本实体和视觉实体的特征向量计算跨模态的人物相似度、地点相似度和事件相似度，并利用跨模态的人物相似度、地点相似度和事件相似度确定跨模态实体不一致特征。

多模态实体不一致性是多模态假新闻潜在的重要线索，因此本例衡量人物、地点以及更一般的事件这三种实体类型的的多模态不一致性。以人物实体为例，将多模态人物相似性定义为所有文本和视觉人物实体对之间的最大相似性。由于神经网络在检测视觉实体时存在不可避免的误差，因此本实施例在计算相似度时考虑了视觉实体的可信度。本实施例将t和v分别定义为文本实体和视觉实体的特征向量，对于一条包含文本人物实体集合T_p和视觉人物实体集合V_p的新闻，计算跨模态的人物相似度为

其中ρ(v)表示新闻图片包含视觉人物实体v的概率。对于没有文本实体或视觉实体的新闻，将多模态相似度设为1，表示没有多模态不一致性的线索。

类似地，采用上述公式结合相应集合计算跨模态的地点相似度

和事件相似度

然后将它们拼接起来，得到跨模态实体不一致特征

S34、基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN 表示和文本增强的视觉实体表示，以及跨模态实体不一致特征计算所述多模态新闻的多模态表示。

对文本增强的视觉实体表示H_VE←T进行平均操作后获得视觉实体的最终表示x_ve，对由视觉实体和视觉CNN特征增强的文本表示H_T←(VE,V)和文本增强的视觉CNN特征H_V←T进行平均操作后获得文本和图片的最终表示x_t和x_v。

将文本的最终表示x_t、视觉实体的最终表示x_ve、图片的最终表示x_v和跨模态实体不一致性特征x_s拼接起来，得到待检测多模态新闻最终的多模态表示：

x_m＝concat(x_t,x_ve,x_v,x_s).

S4、分类：基于多模态新闻的多模态表示x_m新闻是否属于虚假新闻进行二分类。

本实施例使用具有softmax激活的全连接层将多模态新闻的多模态表示x_m投影到两类目标空间：真实新闻和虚假新闻，并获得概率分布：

p＝softmax(Wx_m+b),

其中，p＝[p₀,p₁]是预测的概率向量，p₀和p₁分别表示真新闻及假新闻的预测概率；W表示权重矩阵；b表示偏置。对于每一条新闻，分类模型的目标是最小化二分类交叉熵损失函数，

其中，y∈{0,1}表示了真实标签。

本实施例还提供一种细粒度的多模态虚假新闻检测装置，具有待检测新闻获取模块、文本内容提取模块、图片内容提取模块、视觉实体特征获取模块、文本特征获取模块、多模态特征融合模块、相似度计算模块、多模态表示计算模块和真实性判断模块。

本例中待检测新闻获取模块用于获取待检测多模态新闻的新闻文本和新闻图片；文本内容提取模块用于从新闻文本中提取人物类型、地点类型和事件类型的文本实体；图片内容提取模块用于从新闻图片中提取图片文本，人物类型、地点类型和事件类型的视觉实体，以及新闻图片的视觉CNN特征，其中新闻图片的视觉CNN特征包括分区域从该新闻图片中提取出的视觉特征；视觉实体特征获取模块用于使用BERT模型获取人物类型、地点类型和事件类型视觉实体的视觉实体特征；文本特征获取模块用于将新闻文本与图片文本拼接后输入 BERT模型，获得文本特征；多模态特征融合模块用于利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征，获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示；相似度计算模块用于基于文本实体和视觉实体的特征向量计算跨模态的人物相似度、地点相似度和事件相似度；多模态表示计算模块用于基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN表示和文本增强的视觉实体表示，以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示；真实性判断模块用于基于多模态新闻的多模态表示判断该多模态新闻的真实性。

本实施例还提供一种存储介质，其上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本实施例中细粒度的多模态虚假新闻检测方法的步骤。

本实施例还提供一种计算机设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，该计算机程序被执行时实现本实施例中细粒度的多模态虚假新闻检测方法的步骤。

Claims

1.一种细粒度的多模态虚假新闻检测方法，其特征在于：

获取待检测多模态新闻的新闻文本和新闻图片；

将新闻文本与图片文本拼接后输入BERT模型，获得文本特征；

基于多模态新闻的多模态表示判断该多模态新闻的真实性。

2.根据权利要求1所述的细粒度的多模态虚假新闻检测方法，其特征在于，所述利用多模态协同注意力Transformer模型融合文本特征、视觉CNN特征和视觉实体特征，获得由视觉实体和视觉CNN特征增强的文本表示、由文本增强的视觉CNN表示和由文本增强的视觉实体表示，包括：

3.根据权利要求1所述的细粒度的多模态虚假新闻检测方法，其特征在于，所述从新闻图片中提取新闻图片的视觉CNN特征，包括：

将新闻图片输入VGG19模型，将原始图片分割为m*m的区域，从VGG19模型的最后一层提取图片的视觉CNN特征，视觉CNN特征包括该新闻图片m*m个图片区域的视觉特征。

4.根据权利要求1所述的细粒度的多模态虚假新闻检测方法，其特征在于，所述从新闻图片中提取人物类型、地点类型和事件类型的视觉实体，包括：

5.根据权利要求1所述的细粒度的多模态虚假新闻检测方法，其特征在于，基于文本实体和视觉实体的特征向量计算跨模态的人物相似度，包括：

其中，

为跨模态的人物相似度；t和v分别为文本实体和视觉实体的特征向量；T_p为多模态新闻中文本人物实体集合；V_p为多模态新闻中视觉人物实体集合；ρ(v)表示新闻图片包含视觉人物实体v的概率。

6.根据权利要求1所述的细粒度的多模态虚假新闻检测方法，其特征在于，所述基于视觉实体和视觉CNN特征增强的文本表示、文本增强的视觉CNN表示和文本增强的视觉实体表示，以及跨模态的人物相似度、地点相似度和事件相似度计算所述多模态新闻的多模态表示，包括：

x_m＝concat(x_t，x_ve，x_v，x_s).

其中，x_s为跨模态实体不一致性特征；

为跨模态的人物相似度；

为跨模态的地点相似度；

7.根据权利要求1所述的细粒度的多模态虚假新闻检测方法，其特征在于，所述基于多模态新闻的多模态表示判断该多模态新闻的真实性，包括：

p＝softmax(Wx_m+b)，

其中，p＝[p₀，p₁]是预测的概率向量，p₀和p₁分别表示真新闻及假新闻的预测概率；W表示权重矩阵，b表示偏置。

8.一种细粒度的多模态虚假新闻检测装置，其特征在于：

9.一种存储介质，其上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现权利要求1～7任意一项所述细粒度的多模态虚假新闻检测方法的步骤。

10.一种计算机设备，具有存储器和处理器，存储器上存储有能被处理器执行的计算机程序，其特征在于：所述计算机程序被执行时实现权利要求1～7任意一项所述细粒度的多模态虚假新闻检测方法的步骤。