CN114579876A

CN114579876A - 虚假信息检测方法、装置、设备及介质

Info

Publication number: CN114579876A
Application number: CN202210229080.2A
Authority: CN
Inventors: 李晓宇; 黄飞; 金力; 孙显; 马豪伟; 张雅楠
Original assignee: Aerospace Information Research Institute of CAS
Current assignee: Aerospace Information Research Institute of CAS
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-03

Abstract

本公开提供了一种虚假信息检测方法，包括：获取待检测的社交媒体信息，其中，待检测的社交媒体信息包括待检测图像和第一待检测文本；在待检测图像中包含第二待检测文本的情况下，从第一待检测文本和第二待检测文本中提取待检测文本特征向量；结合空间域中的语义特征和频域中的物理特征，从待检测图像中提取待检测图像特征向量；将待检测文本特征向量和待检测图像特征向量融合，得到待检测融合特征向量；以及将待检测融合特征向量输入预先训练好的分类模型，输出检测结果。本公开还提供了一种虚假信息检测装置、设备、存储介质和程序产品。

Description

虚假信息检测方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域，更具体地涉及一种虚假信息检测方法、装置、设备、介质和产品。

背景技术

随着各类社交媒体的日益普及，社交媒体的各类信息(如文字、图片、视频、音频等)以其传播速度快、获取渠道多、产生门槛低等特点迅速成为大众信息消费的热点。然而，社交媒体的这些特点也使虚假新闻信息肆意泛滥。由于信息的不对称性，虚假消息可以通过社交媒体传播来误导不明真相的人群，造成不可估量的负面影响，甚至操纵社会舆论。虚假消息已经严重的影响社会安定，因此，对虚假消息进行快速、高效检测是一项迫切需要解决的技术问题。

发明内容

鉴于上述问题，本公开提供了一种虚假信息检测方法、装置、设备、介质和程序产品。

根据本公开的第一个方面，提供了一种虚假信息检测方法，包括：

获取待检测的社交媒体信息，其中，待检测的社交媒体信息包括待检测图像和第一待检测文本；

在待检测图像中包含第二待检测文本的情况下，从第一待检测文本和第二待检测文本中提取待检测文本特征向量；

结合空间域中的语义特征和频域中的物理特征，从待检测图像中提取待检测图像特征向量；

将待检测文本特征向量和待检测图像特征向量融合，得到待检测融合特征向量；以及

将待检测融合特征向量输入预先训练好的分类模型，输出检测结果。

根据本公开的实施例，在待检测图像中包含第二待检测文本的情况下，从第一待检测文本和第二待检测文本中提取待检测文本特征向量包括：

对第一待检测文本编码，以便添加待检测文本标识，其中，待检测文本标识包括：第一待检测文本的句子、第一待检测文本中句子分隔符、待检测特征向量；

提取待检测特征向量，得到第一待检测文本的信息；

在待检测图像中包含第二待检测文本的情况下，从待检测图像中提取关于第二待检测文本的信息；

利用文本分隔符，将第二待检测文本的信息与第一待检测文本的信息进行拼接，得到拼接信息；

从拼接信息中提取待检测文本特征向量。

根据本公开的实施例，结合空间域中的语义特征和频域中的物理特征，从待检测图像中提取待检测图像特征向量包括：

将待检测图像输入卷积神经网络，输出频域中的物理特征的矩阵；

基于频域中的物理特征的矩阵，利用长短期记忆模型提取空间域中的语义特征，得到权重矩阵；

基于频域中的物理特征的矩阵与权重矩阵，得到待检测图像特征向量。

根据本公开的实施例，预先训练好的分类模型通过预先训练的方法得到，预先训练的方法包括：

获取在预设时间区间内产生的目标社交媒体信息，其中，目标社交媒体信息包括虚假信息、真实信息以及信息标签，虚假信息和真实信息均包括图像和第一文本；

在图像中包含第二文本的情况下，从第一文本和第二文本中提取文本特征向量；

结合空间域中的语义特征和频域中的物理特征，从图像中提取图像特征向量；

将文本特征向量和图像特征向量融合，得到融合特征向量；

将融合特征向量输入分类模型，得到分类结果；以及

基于分类结果和信息标签调整分类模型的参数，将调参后的分类模型作为预先训练好的分类模型。

根据本公开的实施例，获取在预设时间区间内产生的目标社交媒体信息包括：

获取在预设时间区间内产生的原始社交媒体信息；

将原始社交媒体信息进行预处理，得到预处理后的社交媒体信息；

对预处理后的社交媒体信息进行聚类，得到真实信息簇和虚假信息簇；

分别从真实信息簇和虚假信息簇中筛选，得到目标社交媒体信息。

根据本公开的实施例，将原始社交媒体信息进行预处理，得到预处理后的社交媒体信息包括：

从原始社交媒体信息中筛选包括图像和第一文本的社交媒体信息，得到第一处理后的社交媒体信息；

在第一处理后的社交媒体信息包括多个图像的情况下，筛选一个代表图像作为图像，得到预处理后的社交媒体信息；

和/或

根据预设像素阈值，从第一处理后的社交媒体信息中筛选，得到预处理后的社交媒体信息。

本公开的第二方面提供了一种虚假信息检测装置，包括：

获取模块，用于获取待检测的社交媒体信息，其中，待检测的社交媒体信息包括待检测图像和第一待检测文本；

第一提取模块，用于在待检测图像中包含第二待检测文本的情况下，从第一待检测文本和第二待检测文本中提取待检测文本特征向量；

第二提取模块，用于结合空间域中的语义特征和频域中的物理特征，从待检测图像中提取待检测图像特征向量；

融合模块，用于将待检测文本特征向量和待检测图像特征向量融合，得到待检测融合特征向量；以及

检测模块，用于将所述待检测融合特征向量输入预先训练好的分类模型，输出检测结果。

本公开的第三方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行上述虚假信息检测方法。

本公开的第四方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述虚假信息检测方法。

本公开的第五方面还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述虚假信息检测方法。

根据本公开的实施例，通过分别提取待检测文本和待检测图像的特征向量，其中待检测文本特征向量的提取引入了图片中的文本信息，待检测图像特征向量的提取引入了空间域语义特征与频域中物理特征。然后将特征向量融合后通过预先训练好的分类模型，得到检测结果，共同解决了信息检测过程中信息表示不全，文本语义丢失的问题。实现检测速度快而且检测精准度高，有利于对社交媒体信息进行快速、高效检测。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的虚假信息检测方法、装置、设备、介质和程序产品的应用场景图；

图2示意性示出了根据本公开实施例的虚假信息检测方法的流程图；

图3示意性示出了根据本公开实施例的在待检测图像中包含第二待检测文本的情况下，从第一待检测文本和第二待检测文本中提取待检测文本特征向量的方法流程图；

图4示意性示出了根据本公开实施例的结合空间域中的语义特征和频域中的物理特征，从待检测图像中提取待检测图像特征向量的方法流程图；

图5示意性示出了根据本公开实施例的带有注意力机制CNN-LSTM网络结构图；

图6示意性示出了根据本公开另一实施例的虚假信息检测方法的流程图；

图7示意性示出了根据本公开实施例的预先训练好的分类模型通过预先训练的方法流程图；

图8示意性示出了根据本公开实施例的GBDT分类模型的训练图；

图9示意性示出了根据本公开实施例的虚假信息检测装置的结构框图；以及

图10示意性示出了根据本公开实施例的适于实现虚假信息检测方法的电子设备的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

在本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。

针对虚假信息检测，主要通过人工抽取文本特征、用户特征、传播特征及其他潜在属性特征，构造分类器进行，这种基于特征提取的方法可以充分地利用专家总结的经验和知识，但也存在一定的问题，此过程需要人工提取特征，而且虚假信息生成的技术、手段和形式在不断更新，而专家知识和经验存在一定的滞后性，很难做到与时俱进来应对新出现的虚假信息形式。社交媒体内容载体多样、信息较为分散，并不存在一种统一的形式有效整合这些高度关联的信息。

由于深度学习模型可以自动学习数据集中蕴含的特征，摒弃了繁琐的特征构造过程，深层神经网络能够比传统的手工提取更准确地学习图像和句子的特征表示。研究基于不同的深度学习模型，提取不同模态数据的特征，并将它们深度融合，以解决单模态新闻存在的信息表示不足的问题，并在多模态的虚假信息检测中取得了一定的成果。例如，一种提取图片、文本和社交背景特征的虚假新闻检测模型attRNN，通过注意机制将文本和图片两者进行融合，最后进行分类。在此基础上还建立了一种基于对抗神经网络的虚假新闻检测模型EANN学习事件的共性特征，从而提高了检测的准确率。多模态变分自动编码器MVAE，其旨在发现各模态间的相关性，从而得到更好的多模态特征融合表示用于检测的任务。一个更简单的框架SpotFake，直接采用预训练模型将提取的文本和图片特征简单融合后做分类。但是，这些模型在检测模块只能对多模态特征向量进行简单拼接融合，而后直接采用softmax等作为简单的分类器，这样做融合的特征中可能存在多余无效的特征或者缺失重要特征，其结果导致泛化性不强，准确率不高。

基于此，本公开的实施例提供了一种虚假信息检测方法，包括：获取待检测的社交媒体信息，其中，待检测的社交媒体信息包括待检测图像和第一待检测文本；在待检测图像中包含第二待检测文本的情况下，从第一待检测文本和第二待检测文本中提取待检测文本特征向量；结合空间域中的语义特征和频域中的物理特征，从待检测图像中提取待检测图像特征向量；将待检测文本特征向量和待检测图像特征向量融合，得到待检测融合特征向量；以及将待检测融合特征向量输入预先训练好的分类模型，输出检测结果。

图1示意性示出了根据本公开实施例的虚假信息检测方法、装置、设备、介质和程序产品的应用场景图。

如图1所示，根据该实施例的应用场景100可以包括终端设备101、102、103、网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如金融产品类应用、购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的虚假信息检测方法一般可以由服务器105执行。相应地，本公开实施例所提供的虚假信息检测装置一般可以设置于服务器105中。本公开实施例所提供的虚假信息检测方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的虚假信息检测装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

本公开实施例所提供的虚假信息检测方法也可以由终端设备101、102、103执行。相应地，本公开实施例所提供的虚假信息检测装置一般也可以设置于终端设备101、102、103中。本公开实施例所提供的虚假信息检测方法也可以由不同于终端设备101、102、103的其他终端执行。相应地，本公开实施例所提供的虚假信息检测装置也可以设置于不同于终端设备101、102、103的其他终端中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

以下将基于图1描述的场景，通过图2～图8对本公开实施例的虚假信息检测方法进行详细描述。

图2示意性示出了根据本公开实施例的虚假信息检测方法的流程图。

如图2所示，该实施例的虚假信息检测方法200包括操作S201～操作S206。

如图2所示，该实施例的虚假信息检测方法200包括操作S201～操作S205。

在操作S201，获取待检测的社交媒体信息，其中，待检测的社交媒体信息包括待检测图像和第一待检测文本。

根据本公开实施例，待检测的社交媒体信息可以包括微博平台信息、Twitter平台信息、Facebook平台信息、知乎平台信息以及其他APP公开的信息等。

在操作S202，在待检测图像中包含第二待检测文本的情况下，从第一待检测文本和第二待检测文本中提取待检测文本特征向量。

根据本公开实施例，可以在检测软件检测到待检测图像中包含第二待检测文本的情况下，通过文本特征向量提取器从第一待检测文本和第二待检测文本中提取待检测文本特征向量。

在操作S203，结合空间域中的语义特征和频域中的物理特征，从待检测图像中提取待检测图像特征向量。

根据本公开的实施例，由于虚假信息和真实信息在物理和语义级别上都有不同的特征：在物理水平上，虚假信息中图像的像素可能很低，可以在频域中清楚地反映出来，具体使用频域中的物理特征表示，例如频率段上的周期性特征；在语义级别水平上，虚假信息中图像在像素域(也称为空间域)中也表现出一些明显的特征，例如虚假信息发布者倾向于利用图像刺激性色彩来吸引和误导读者以进行快速传播，通常会显示夸张的视觉效果和情感挑衅，具体使用空间域中的语义特征表示，例如色彩特征。

根据本公开的实施例，可以通过空间域构建出空间域中的语义特征权重矩阵，然后在频域中捕获待检测图像特征向量。

在操作S204，将待检测文本特征向量和待检测图像特征向量融合，得到待检测融合特征向量。

根据本公开的实施例，可以为了有效的合并待检测文本特征向量和待检测图像特征向量这两种特征，保证特征的一致性，可以选用线性连接，进行融合。

例如，得到的待检测融合特征向量C可以表示为如式(1)所示：

其中，A表示待检测文本特征向量，B表示待检测图像特征向量，符号

表示将待检测文本特征向量和待检测图像特征向量进行连接的操作。

在操作S205，将待检测融合特征向量输入预先训练好的分类模型，输出检测结果。

根据本公开的实施例，检测结果可以是真实信息或者虚假信息。

根据本公开实施例，通过分别提取待检测文本和待检测图像的特征向量，其中待检测文本特征向量的提取引入了图片中的文本信息，待检测图像特征向量的提取引入了空间域语义特征与频域中物理特征。然后将特征向量融合后通过预先训练好的分类模型，得到检测结果，共同解决了信息检测过程中信息表示不全，文本语义丢失的问题。实现检测速度快而且检测精准度高，有利于对社交媒体信息进行快速、高效检测。

图3示意性示出了根据本公开实施例的在待检测图像中包含第二待检测文本的情况下，从第一待检测文本和第二待检测文本中提取待检测文本特征向量的方法流程图。

如图3所示，该实施例的在待检测图像中包含第二待检测文本的情况下，从第一待检测文本和第二待检测文本中提取待检测文本特征向量的方法300包括操作S301～操作S305。

在操作S301，对第一待检测文本编码，以便添加待检测文本标识，其中，待检测文本标识包括：第一待检测文本的句子、第一待检测文本中句子分隔符、待检测特征向量。

根据本公开的实施例，第一待检测文本可以表示为如式(2)所示：

T＝[w₁,w₂,…,w_n](2)

其中，w_n表示第一待检测文本中的第n个词。

对第一待检测文本T进行编码，然后添加第一待检测文本的句子[MASK]、第一待检测文本中句子分隔符[SEP]、待检测特征向量[CLS]等标识。

在操作S302，提取待检测特征向量，得到第一待检测文本的信息。

根据本公开的实施例，通过提取待检测特征向量[CLS]，将其作为第一待检测文本的信息。例如，可以使用知识整合的增强表示模型(ERNIE)进行编码、标记后提取，可以提取[CLS]对应的768维的待检测特征向量作为第一待检测文本的信息表示x_t，如式(3)所示：

x_t＝ERNIE(T)，x_t∈R⁷⁶⁸ (3)

在操作S303，在待检测图像中包含第二待检测文本的情况下，从待检测图像中提取关于第二待检测文本的信息。

根据本公开的实施例，可以通过百度预训练的OCR文字检测模型提取图片中的第二待检测文本的信息。经过数据预处理后，例如可以将待检测图片中识别到的第二待检测文本表示为词序列O，如式(4)所示：

O＝[m₁，m₂，...，m_n] (4)

其中，m_n表示第二待检测文本中的第n个词。

在操作S304，利用文本分隔符，将第二待检测文本的信息与第一待检测文本的信息进行拼接，得到拼接信息。

根据本公开的实施例，可以通过将第一待检测文本和第二待检测文本的语义交互，用文本分隔符进行分隔，拼接成一个序列，得到拼接信息，例如可以表示为T[SEP]O。

在操作S305，从拼接信息中提取待检测文本特征向量。

根据本公开的实施例，从拼接信息中提取待检测文本特征向量可以将拼接信息T[SEP]O输入ERNIE网络中，提取获得待检测文本特征向量x_to，如式(5)所示：

x_to＝ERNIE(T[SEP]O) (5)

根据本公开的实施例，可以基于ERNIE(enhanced representation fromknowledge integration)模型提取待检测文本特征向量。ERNIE为一种知识增强的语义表示模型。ERNIE的结构与BERT类似，都是利用多层的Transformer作为基本的编码器，通过self-attention机制实现对上下文信息的建模。与BERT不同的是，ERNIE对词、实体等语义单元进行掩码，并扩展了一些知识类的中文语料进行预训练，能够更好地建模实体概念等先验语义知识，从而进一步提升模型的语义表示能力。ERNIE不仅能够作为上下文编码器产生句子的表达，还可以作为知识存储器，在产生句子表达的时候隐式地利用模型中存储的大量事实知识。因此，使用ERNIE作为待检测文本特征向量提取器，能够同时建模待检测文本在表现层及语义层的特点。

根据本公开的实施例，通过将待检测社交媒体信息中的文本信息与待检测图像中的文本信息的语义进行交互，得到待检测文本语义特征，解决了信息检测模型中信息表示不全，语义丢失的问题。

图5示意性示出了根据本公开实施例的带有注意力机制CNN-LSTM网络结构图。

如图4所示，该实施例的结合空间域中的语义特征和频域中的物理特征，从待检测图像中提取待检测图像特征向量的方法400包括操作S401～操作S403。

在操作S401，将待检测图像输入卷积神经网络，输出频域中的物理特征的矩阵。

根据本公开实施例，在待检测图像输入卷积神经网络之前还可以对待检测图像进行预处理，例如可以将待检测图像进行尺寸统一，使其自动适应输入窗口大小。

根据本公开实施例，频域中的物理特征可以包括频率段上的周期性特征。

在操作S402，基于频域中的物理特征的矩阵，利用长短期记忆模型提取空间域中的语义特征，得到权重矩阵。

根据本公开实施例，可以将卷积神经网络输出的频域中的物理特征的矩阵输入长短期记忆模型提取空间域中的语义特征，得到权重矩阵。其中，空间域中的语义特征可以包括色彩特征。

在操作S403，基于频域中的物理特征的矩阵与权重矩阵，得到待检测图像特征向量。

根据本公开实施例，可以将频域中的物理特征的矩阵与权重矩阵进行相乘，执行重构操作后得到权重分配后的待检测图像特征向量。

根据本公开实施例，可以将待检测图像输入如图5所示的带有注意力机制CNN-LSTM网络结构中，通过卷积神经网络输出频域中的物理特征的矩阵。将卷积神经网络输出频域中的物理特征的矩阵输入到LSTM中，LSTM进行空间域中的语义特征提取并生成权重矩阵。将CNN输出的频域中的物理特征的矩阵与权重矩阵进行相乘，执行重构操作后得到权重分配后的待检测图像特征向量。基于CNN-LSTM模型提取待检测图像模态特征，能够有效结合待检测图片像素域中语义级别特征和频域中的物理级别特征，构建带有注意力机制的CNN-LSTM网络。

根据本公开实施例，利用像素域(空间域)构建出权重矩阵以便在频域中带有目的性的捕获待检测图像特征，可以有效提取待检测图像特征向量，有利于信息检测模型中图像中虚假信息与真实信息的表示，提升了模型的精确度。

图6示意性示出了根据本公开另一实施例的虚假信息检测方法的流程图。

如图6所示，该实施例的虚假信息检测方法600包括操作S601～操作S609。

在操作S601，获取待检测的社交媒体信息，其中，待检测的社交媒体信息包括待检测图像和第一待检测文本。

在操作S602，对待检测的社交媒体信息中的第一待检测文本以及在待检测图像中包含第二待检测文本的情况下，对待检测的社交媒体信息中的第二待检测文本编码。

根据本公开实施例，可以在检测软件检测到待检测图像中包含第二待检测文本的情况下，通过文本特征向量编码器对第一待检测文本和第二待检测文本编码。

在操作S603，获得文本矢量。

在操作S604，将文本矢量输入ERNIE模型从中提取待检测文本特征向量。

在操作S605，对待检测的社交媒体信息中的图像编码。

在操作S606，获得图像矢量。

在操作S607，将图像矢量输入CNN-LSTM模型从中提取待检测图像特征向量。

根据本公开实施例，在提取待检测图像特征向量时引入了空间域语义特征与频域中物理特征。

在操作S608，将待检测文本特征向量和待检测图像特征向量融合，得到待检测融合向量。

在操作S609，将待检测融合向量输入训练好的GBDT分类器，输出分类结果，也即检测结果。

图7示意性示出了根据本公开实施例的预先训练好的分类模型通过预先训练的方法流程图。

如图7所示，该实施例的预先训练好的分类模型通过预先训练的方法700包括操作S701～操作S706。

在操作S701，获取在预设时间区间内产生的目标社交媒体信息，其中，目标社交媒体信息包括虚假信息、真实信息以及信息标签，虚假信息和真实信息均包括图像和第一文本。

根据本公开的实施例，预设时间区间可以为过去一段时间。社交媒体信息可以包括微博平台信息、微信平台信息、QQ平台信息、知乎平台信息等。可以通过网上数据获取软件获取在预设时间区间内产生的社交媒体信息。通过将社交媒体信息经过处理后，得到目标社交媒体信息。信息标签可以通过官方认证获取。

例如，过去一段时间可以为过去一个月，如2021.05.01～2021.05.31、过去六个月，如2021.03.01～2021.08.31、过去一年，如2021.01.01～2021.12.31等。可以通过网上数据获取软件获取在2021.01.01～2021.12.31内产生的官方认证的虚假信息和真实信息。通过保留同时含有图像和第一文本等预处理后，得到目标社交媒体信息。

在操作S702，在图像中包含第二文本的情况下，从第一文本和第二文本中提取文本特征向量。

根据本公开的实施例，可以分别通过文本提取模型对图像中的第二文本和目标社交媒体信息中的第一文本进行提取，获得文本特征向量。

例如，可以将从目标社交媒体信息中的第一文本中提取到的句子编码后获取第一文本的文本特征向量。可以利用从图像中提取文本的模型直接对图像中的第二文本提取，得到第二文本的文本特征向量。

在操作S703，结合空间域中的语义特征和频域中的物理特征，从图像中提取图像特征向量。

在操作S704，将文本特征向量和图像特征向量融合，得到融合特征向量。

在操作S705，将融合特征向量输入分类模型，得到分类结果。

根据本公开的实施例，分类模型可以是GBDT分类模型，也可以是其他二分类模型。分类结果可以是真实信息或者虚假信息。

在操作S706，基于分类结果和信息标签调整分类模型的参数，将调参后的分类模型作为预先训练好的分类模型。

根据本公开的实施例，可以根据分类结果和信息标签计算模型的误差值，如果误差值较大，不满足预设阈值，则调整模型参数，重新训练，直到误差值满足预设阈值，得到训练后的分类模型，将训练后的分类模型作为预先训练好的分类模型。其中，预设阈值可以根据实际训练模型的精度确定。也可以根据计算损失函数，直至模型收敛，得到训练后的分类模型。

根据本公开的实施例，通过分别提取文本和图像的特征向量，其中文本特征向量的提取引入了图片中的文本信息，图像特征向量的提取引入了空间域语义特征与频域中物理特征。共同解决了预先训练好的分类模型信息表示不全，文本语义丢失的问题。通过将文本和图像的特征融合后输入分类模型，提升了训练分类模型的精度。

获取在预设时间区间内产生的原始社交媒体信息；

其中，可以基于中文新浪微博平台构建的虚假新闻数据集得到原始社交媒体信息。该数据集包含微博官方谣言举报平台上从2012.05-2016.01所有官方认证为假的新闻消息，以及从新华社的热点新闻发现系统采集的同时期的真实新闻的微博消息。对该原始社交媒体信息进行预处理，如删除图像像素不合格的新闻帖子、删除仅包含文字或图片的新闻帖子、带有多个插图的新闻帖子仅保存一个代表性图片等。

根据本公开的实施例，对预处理后的社交媒体信息进行聚类，得到真实信息簇和虚假信息簇。其中，聚类可以分别以虚假信息和真实信息为聚类中心进行聚类。分别从真实信息簇和虚假信息簇中筛选，得到目标社交媒体信息。可以按照一定比例分别对聚类后的真实信息簇和虚假信息簇进行比例划分，得到训练集、验证集以及测试集。这样避免了因训练数据、验证数据以及测试数据可能包含同一中信息，导致的模型过拟合的问题。将该训练集筛选作为目标社交媒体信息。

需要说明的是，进行聚类后筛选可以提升模型的泛化能力。

例如，一定比例为3:1:1时，最终的训练集、验证集和测试集的相关数据指标如下表1所示。

表1

从原始社交媒体信息中筛选包括图像和第一文本的社交媒体信息，得到第一处理后的社交媒体信息；在第一处理后的社交媒体信息包括多个图像的情况下，筛选一个代表图像作为图像，得到预处理后的社交媒体信息；

和/或

根据预设像素阈值，从第一处理后的社交媒体信息中筛选，得到预处理后的社交媒体信息，其中，预设像素阈值可以根据实际特征提取模型的性能而确定。

例如，可以删除仅包含第一文本或图像的社交媒体信息。社交媒体信息可以包括新闻帖子。在既包含第一文本和图像的情况下，可以删除图像像素不合格的新闻帖子。如果在既包含第一文本和图像的情况下，且图像带有多个插图的情况下，可以将带有多个插图的新闻帖子仅保存一个代表性图片。

图8示意性示出了根据本公开实施例的GBDT分类模型的训练图。

根据本公开的实施例，如图8所示，分类模型可以是GBDT分类模型。

针对GBDT分类模型，可以选择将融合特征向量和信息标签的训练数据D作为GBDT分类模型的特征输入，以此来构建树模型，迭代训练形成强学习器，通过计算输出，得到训练结果，即真实信息或者虚假信息。

例如，可以将获取的融合特征向量样本和信息标签形成训练数据集表示为式(6)：

D＝{(x₁，y₁)，(x₂，y₂)，(x₃，y₃)，...，(x_i，y_i)...，(x_n，y_n)} (6)

其中，x_n表示输入的第n个融合特征向量；y_n为第n个融合特征向量对应的信息标签。

以此构建树模型，迭代训练形成强学习器F，最终训练结果的概率由F(x_i)输出得到，即式(7)所示：

其中，损失函数可以采用对数似然损失函数，如式(8)所示：

根据本公开实施例，通过将融合特征向量输入到GBDT中进行训练，由GBDT对所输入的特征进行组合，进行计算概率，并输出真假信息的分类结果。可以将真实和虚假信息分类的阈值确定为50％，若计算概率大于此阈值则为虚假信息，小于此阈值则为真实信息。

根据本公开实施例，分类模型对输入特征向量进行组合，实现检测准确度的提升和泛化性的加强，能更好完成对信息的真实性的鉴别。而直接采用softmax作为分类器，会存在着特征语义丢失，泛化性不高的问题，从而导致模型的鉴别能力受制。

根据本公开实施例，还可以对训练后的分类模型进行评价。例如可以采用准确率、精确率、召回率和F₁值这四个指标对训练后的分类模型产生的结果进行有效的评估。可以将结果分为四类，分别为TP(True Positives)、TN(True Negatives)、FP(FalsePositives)和FN(False Negatives)，其中，TP表示在信息标签中为正类，实际也被分为正类。TN表示在信息标签中为负类，实际也被分为负类。FP表示在信息标签中为负类，但在实际分类中被分为正类。FN表示在信息标签中为正类，但在实际分类中被分为负类。基于这四类，对训练后的分类模型产生的结果进行有效的评估的四个指标准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F₁值的计算方法分别如下式(9)～式(12)：

表2

需要说明的是，在完成本公开的实施例时对硬件环境要求较高，例如可以在如表2所示的实验环境中完成。

根据本公开实施例，还可以对虚假信息检测方法中可能用到的模型进行对比评价。

例如，(1)基于单文本模态模型：

TextCNN：基于卷积神经网络进行文本分类。使用了3种不同大小的卷积核，高度分别为3，4，5。每一种卷积核的数目均设定为100。

BERT：预训练语言模型。采用在本公开训练集上文本数据微调后的BERT模型作为对比。预训练的BERT模型bert-base-chinese来自GitHub开源项目Trans-former。

ERNIE：采用在本公开训练集上文本数据微调后的ERNIE模型作为对比。预训练的ERNIE模型nghuyong/ernie-1.0来自GitHub开源项目Trans-former。

(2)基于单视觉模态模型：

VGG19：被广泛用作视觉特征提取器。采用ImageNet数据集上预训练的VGG19模型在本公开训练集上图像数据上进行微调。

ResNet152：将在ImageNet数据集上预训练的ResNet152模型在本公开训练集上图像数据上进行微调。

CNN-LSTM：将在ImageNet数据集上预训练的CNN-LSTM模型在本公开训练集上图像数据上进行微调。

(3)基于多模态的模型

attRNN：一种基于注意力机制的循环神经网络，用于融合文本、视觉及社交上下文3种模态的特征。其中，文本部分采用LSTM进行建模，图片部分采用预训练的VGG19进行特征提取。为了对比的公平性，在具体实现时，移除了处理社交特征的部分。

EANN：一种基于事件对抗机制的神经网络。通过引入事件分类器作为辅助任务，引导模型学习到与事件无关的多模态特征。该模型分别采用TextCNN和预训练的VGG19进行文本及视觉模态特征提取，并将2种模态特征进行拼接，作为虚假新闻的多模态特征表达，输入到虚假新闻分类器及新闻事件分类器中。

KMGCN：一种知识引导的多模态图卷积网络。从外部的百科知识图谱中提取文本中出现的命名实体所对应的概念作为外部知识。对每条输入的多模态新闻都会构建一个图，图的节点包括文本中的单词、文本实体所对应的概念以及图片中识别到的物体名称，节点通过预训练的Word2Vec词向量进行初始化，边的权重设置为2个单词的PMI值。通过2层图卷积网络及最大池化得到图表达用于虚假新闻分类。

基于上述模型，可以得到如表3所示的实验结果。

基于上述实验结果，可以看出本公开使用ERNIE+CNN-LSTM多模态模型进行特征提取，在分类准确率上明显超过其他对比方法，说明本公开提出的这种基于深度特征融合与语义理解的虚假信息检测方法确实能够有效提升信息检测的性能。特别是在信息的召回率上，本公开提出的方法超出其他方法7个百分点以上，说明通过本公开实施例提供的虚假信息检测方法可以通过充分挖掘多模态语义线索，检测到被遗漏的信息。

表3

在基于多模态的方法中，KMGCN显著低于其他对比方法。主要的原因可能是GCN对于社交媒体信息如微博这类短文本的建模能力较差，在此基础上无法很好地体现外部知识的作用。另外，KMGCN仅提取了图片中的物体标签信息，对于图片语义建模不充分。

基于单文本模态的方法要优于基于单视觉模态的方法，说明虚假信息检测主要依靠文本线索。基于多模态的方法要优于具有相同子网络结构的单模态方法，说明文本和图片模态能够为虚假信息检测任务提供互补的线索。其中，本公开使用ERNIE+CNN-LSTM多模态模型与ERNIE相比，准确率提升了4.3个百分点，进一步证明了图片语义特征的重要性。

在基于单文本模态的方法中，预训练语言模型要优于CNN，RNN等传统的文本建模方法。这种提升一方面来源于Transformer更强大的建模能力，另一方面受益于预训练语言模型从大量预训练语料中学习到的语言学知识。ERNIE的效果要优于BERT，这说明增加实体概念知识可以增强对新闻的语义理解，进而提升信息的检测效果。

基于上述虚假信息检测方法，本公开还提供了一种虚假信息检测装置。以下将结合图9对该装置进行详细描述。

图9示意性示出了根据本公开实施例的虚假信息检测装置的结构框图。

如图9所示，该实施例的虚假信息检测装置900包括获取模块910、第一提取模块920、第二提取模块930、融合模块940和检测模块950。

获取模块910用于获取待检测的社交媒体信息，其中，待检测的社交媒体信息包括待检测图像和第一待检测文本。在一实施例中，获取模块910可以用于执行前文描述的操作S201，在此不再赘述。

第一提取模块920用于在待检测图像中包含第二待检测文本的情况下，从第一待检测文本和第二待检测文本中提取待检测文本特征向量。在一实施例中，第一提取模块920可以用于执行前文描述的操作S202，在此不再赘述。

第二提取模块930用于结合空间域中的语义特征和频域中的物理特征，从待检测图像中提取待检测图像特征向量。在一实施例中，第二提取模块930可以用于执行前文描述的操作S203，在此不再赘述。

融合模块940用于将待检测文本特征向量和待检测图像特征向量融合，得到待检测融合特征向量。在一实施例中，融合模块940可以用于执行前文描述的操作S204，在此不再赘述。

检测模块950用于将待检测融合特征向量输入预先训练好的分类模型，输出检测结果。在一实施例中，检测模块950可以用于执行前文描述的操作S205，在此不再赘述。

根据本公开的实施例，获取模块910、第一提取模块920、第二提取模块930、融合模块940和检测模块950中的任意多个模块可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，获取模块910、第一提取模块920、第二提取模块930、融合模块940和检测模块950中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块910、第一提取模块920、第二提取模块930、融合模块940和检测模块950中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图10示意性示出了根据本公开实施例的适于实现信息检测模型训练方法和信息检测方法的电子设备的方框图。

如图10所示，根据本公开实施例的电子设备1000包括处理器1001，其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1009加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。处理器1001例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))等等。处理器1001还可以包括用于缓存用途的板载存储器。处理器1001可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1003中，存储有电子设备1000操作所需的各种程序和数据。处理器1001、ROM 1002以及RAM 1003通过总线1004彼此相连。处理器1001通过执行ROM 1002和/或RAM1003中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM 1002和RAM 1003以外的一个或多个存储器中。处理器1001也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备1000还可以包括输入/输出(I/O)接口1005，输入/输出(I/O)接口1005也连接至总线1004。电子设备1000还可以包括连接至I/O接口1005的以下部件中的一项或多项：包括键盘、鼠标等的输入部分1006；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1008；包括硬盘等的存储部分1009；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1010上，以便于从其上读出的计算机程序根据需要被安装入存储部分1009。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 1002和/或RAM 1003和/或ROM 1002和RAM 1003以外的一个或多个存储器。

本公开的实施例还包括一种计算机程序产品，其包括计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时，该程序代码用于使计算机系统实现本公开实施例所提供的方法。

在该计算机程序被处理器1001执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例，上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。

在一种实施例中，该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中，该计算机程序也可以在网络介质上以信号的形式进行传输、分发，并通过通信部分1009被下载和安装，和/或从可拆卸介质1011被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

在这样的实施例中，该计算机程序可以通过通信部分1009从网络上被下载和安装，和/或从可拆卸介质1011被安装。在该计算机程序被处理器1001执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本公开的实施例，可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码，具体地，可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java，C++，python，“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种虚假信息检测方法，包括：

获取待检测的社交媒体信息，其中，所述待检测的社交媒体信息包括待检测图像和第一待检测文本；

在所述待检测图像中包含第二待检测文本的情况下，从所述第一待检测文本和所述第二待检测文本中提取待检测文本特征向量；

结合空间域中的语义特征和频域中的物理特征，从所述待检测图像中提取待检测图像特征向量；

将所述待检测文本特征向量和所述待检测图像特征向量融合，得到待检测融合特征向量；以及

将所述待检测融合特征向量输入预先训练好的分类模型，输出检测结果。

2.根据权利要求1中所述的方法，其中，所述在所述待检测图像中包含第二待检测文本的情况下，从所述第一待检测文本和所述第二待检测文本中提取待检测文本特征向量包括：

利用知识整合的增强表示模型对所述第一待检测文本编码，以便添加待检测文本标识，其中，所述待检测文本标识包括：第一待检测文本的句子、第一待检测文本中句子分隔符、待检测特征向量；

提取所述待检测特征向量，得到第一待检测文本的信息；

在所述待检测图像中包含所述第二待检测文本的情况下，从所述待检测图像中提取关于所述第二待检测文本的信息；

利用文本分隔符，将所述第二待检测文本的信息与所述第一待检测文本的信息进行拼接，得到拼接信息；

从所述拼接信息中提取所述待检测文本特征向量。

3.根据权利要求1中所述的方法，其中，所述结合空间域中的语义特征和频域中的物理特征，从所述待检测图像中提取待检测图像特征向量包括：

将所述待检测图像输入卷积神经网络，输出所述频域中的物理特征的矩阵；

基于所述频域中的物理特征的矩阵，利用长短期记忆模型提取所述空间域中的语义特征，得到权重矩阵；

基于所述频域中的物理特征的矩阵与所述权重矩阵，得到所述待检测图像特征向量。

4.根据权利要求1中所述的方法，其中，所述预先训练好的分类模型通过预先训练的方法得到，所述预先训练的方法包括：

获取在预设时间区间内产生的目标社交媒体信息，其中，所述目标社交媒体信息包括虚假信息、真实信息以及信息标签，所述虚假信息和所述真实信息均包括图像和第一文本；

在所述图像中包含第二文本的情况下，从所述第一文本和所述第二文本中提取文本特征向量；

结合所述空间域中的语义特征和所述频域中的物理特征，从所述图像中提取图像特征向量；

将所述文本特征向量和所述图像特征向量融合，得到融合特征向量；

将所述融合特征向量输入分类模型，得到分类结果；以及

基于所述分类结果和所述信息标签调整所述分类模型的参数，将调参后的分类模型作为所述预先训练好的分类模型。

5.根据权利要求4中所述的方法，其中，所述获取在预设时间区间内产生的目标社交媒体信息包括：

获取在预设时间区间内产生的原始社交媒体信息；

将所述原始社交媒体信息进行预处理，得到预处理后的社交媒体信息；

对所述预处理后的社交媒体信息进行聚类，得到真实信息簇和虚假信息簇；

分别从所述真实信息簇和所述虚假信息簇中筛选，得到所述目标社交媒体信息。

6.根据权利要求5中所述的方法，其中，所述将所述原始社交媒体信息进行预处理，得到预处理后的社交媒体信息包括：

从所述原始社交媒体信息中筛选包括所述图像和所述第一文本的社交媒体信息，得到第一处理后的社交媒体信息；

在所述第一处理后的社交媒体信息包括多个图像的情况下，筛选一个代表图像作为所述图像，得到所述预处理后的社交媒体信息；

和/或

根据预设像素阈值，从所述第一处理后的社交媒体信息中筛选，得到所述预处理后的社交媒体信息。

7.一种虚假信息检测装置，包括：

获取模块，用于获取待检测的社交媒体信息，其中，所述待检测的社交媒体信息包括待检测图像和第一待检测文本；

第一提取模块，用于在所述待检测图像中包含第二待检测文本的情况下，从所述第一待检测文本和所述第二待检测文本中提取待检测文本特征向量；

第二提取模块，用于结合空间域中的语义特征和频域中的物理特征，从所述待检测图像中提取待检测图像特征向量；

融合模块，用于将所述待检测文本特征向量和所述待检测图像特征向量融合，得到待检测融合特征向量；以及

8.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～6中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～6中任一项所述的方法。

10.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现根据权利要求1～6中任一项所述的方法。