CN111797326B

CN111797326B - 一种融合多尺度视觉信息的虚假新闻检测方法及系统

Info

Publication number: CN111797326B
Application number: CN202010459132.6A
Authority: CN
Inventors: 曹娟; 亓鹏; 谢添; 刘浩远; 郭俊波
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2023-05-12
Anticipated expiration: 2040-05-27
Also published as: CN111797326A

Abstract

本发明提出一种融合多尺度视觉信息的虚假新闻检测方法，包括：频域特征获取步骤，以卷积神经网络构建频域子网络模型，通过该频域子网络模型获得输入图像的频域特征表示；语义特征获取步骤，以卷积神经网络构建像素域子网络模型，通过该像素域子网络模型获得该输入图像的语义特征表示；图像检测步骤，将该频域特征表示与该语义特征表示进行融合，得到该输入图像的图像表示，并根据该图像表示获得该输入图像为虚假新闻图片的预测概率。本发明还提出一种融合多尺度视觉信息的虚假新闻检测系统，以及一种计算机可读存储介质和包括该计算机可读存储介质的数据处理装置。

Description

一种融合多尺度视觉信息的虚假新闻检测方法及系统

技术领域

本发明涉及新闻可信度认证研究范畴，特别涉及一种融合多尺度视觉信息的虚假新闻检测方法。

背景技术

近年来社交媒体凭借时效性强、成本低廉、互动性强、准入门槛低等优势，已成为重要的新闻信息平台，人们逐渐习惯在社交媒体上获取最新的新闻并自由的发表自己的观点。然而，社交媒体的便利性和开放性也为虚假新闻的传播提供了极大的便利，造成了很多消极的社会影响。如，在某大型投票活动中的前一个月，平均每个参与者阅读过1-3条知名媒体发布的假新闻。这些假新闻不可避免的对投票者进行了误导，甚至很可能影响投票结果。因此，能否利用技术手段对虚假新闻进行自动检测已经成为自媒体时代亟待解决的问题。

多媒体技术的发展促进了自媒体新闻从传统的基于文本的新闻形式向基于多媒体内容的新闻形式转变。与单纯的文本内容相比，多媒体内容能够更好的描述新闻事件，可信度更高且更容易吸引读者的注意。然而，这一趋势也给虚假新闻创造了新的契机。虚假新闻经常利用极具误导性的甚至篡改的图片去吸引和误导读者，从而促进虚假新闻的快速传播。据统计，微博数据集上超过40％的虚假新闻都包含配图。因此，视觉内容已经变成了虚假新闻不可忽视的一部分。

现有的虚假新闻检测方法主要关注于文本内容及社交上下文。随着多媒体内容的流行，研究人员开始结合视觉信息来检测虚假新闻。这些基于视觉信息的工作可以被分为三类：基于视觉统计特征、视觉取证特征，以及视觉语义特征的工作。

基于视觉统计特征的工作使用对新闻中图片的统计特征帮助甄别虚假新闻，如配图的数目，图片流行度，及图片类型等。但是这些统计特征过于基本，无法刻画虚假新闻复杂的视觉模式。

视觉取证特征通常被用于检测图片篡改。为了验证新闻配图的真实性，一些工作利用视觉取证特征，如块状效应等，来辅助虚假新闻的检测。如，MediaEval在2015和2016年举办的多媒体认证任务，提供了7种视觉取证特征来帮助检测多媒体内容的篡改和误用。基于这些取证特征，L.Wu等人设计了更高层的取证特征，并结合文本特征及用户特征来解决新闻认证问题。然而，大部分的取证特征都是为了检测某种特定的篡改痕迹人工设计的，不能检测虚假新闻图片中未经篡改的真实图片。另外，这些手工特征需要经过专家设计，耗费人力，而且不能捕捉到复杂的模式。这些限制导致视觉取证特征在实际的虚假新闻检测任务中表现较差。

随着卷积神经网络的流行，大部分基于多媒体内容的工作使用预训练的深度卷积神经网络获得通用的视觉表达，并和文本信息进行融合用于检测虚假新闻。Z.Jin等第一次通过深度神经网络的方法融合多模态的内容来解决虚假新闻检测问题；Y.Wang等人提出了一种事件对抗的神经网络，利用多模态的特征检测新出现的虚假新闻事件；K.Dhruv等人提出了一种基于自编码的方法来学习多模态信息的共享表达，用于进行虚假新闻检测。然而，这些工作更加专注于如何融合不同模态的信息，忽略了对视觉内容这一模态的有效建模。由于缺乏任务相关的信息，这些工作所采取的通用的视觉表达不能反映虚假新闻图片的本质特征，削弱了视觉内容在虚假新闻检测任务中的表现。

发明内容

针对上述问题，本发明提出一种融合多尺度视觉信息的虚假新闻检测方法，包括：频域特征获取步骤，以卷积神经网络构建频域子网络模型，通过该频域子网络模型获得输入图像的频域特征表示；语义特征获取步骤，以卷积神经网络构建像素域子网络模型，通过该像素域子网络模型获得该输入图像的语义特征表示；图像检测步骤，将该频域特征表示与该语义特征表示进行融合，得到该输入图像的图像表示，并根据该图像表示获得该输入图像为虚假新闻图片的预测概率。

本发明所述的虚假新闻检测方法，其中该频域特征获取步骤具体包括：以卷积神经网络构建该频域子网络模型的大尺度网络；对该输入图像进行分块的离散余弦变换，以获得该输入图像在多个频率上对应的大尺度直方图；对该大尺度直方图进行采样以得到多个大尺度多维向量；通过该大尺度网络将该多个大尺度多维向量进行融合，得到该输入图像的大尺度频域特征表示l_large；以卷积神经网络构建该频域子网络模型的小尺度网络；将该输入图像划分为多个相同大小的图像块，对该图像块进行分块的离散余弦变换，以获得该图像块在多个频率上对应的小尺度直方图；选取多个处于高频段的该小尺度直方图进行采样以得到多个小尺度多维向量；通过该小尺度网络将该多个小尺度多维向量进行融合，得到该输入图像的小尺度频域特征表示l_small；将l_large和l_small进行拼接融合，得到该输入图像的频域特征表示l_F。

本发明所述的虚假新闻检测方法，其中该语义特征获取步骤具体包括：以卷积神经网络构建循环融合网络；获取该循环融合网络的输入在多个尺度上的第一特征图，对该第一特征图进行向上采样得到相同大小的第二特征图，将该第二特征图进行通道拼接，获得全局上下文知识表示作为该循环融合网络的输出；以本轮循环融合网络的输出作为下一轮循环融合网络的输入，将多个该循环融合网络串接为该像素域子网络模型；将该输入图像作为该像素域子网络模型的输入，以经过预设轮次迭代后获得的全局上下文知识表示作为该输入图像的语义特征表示l_p。

本发明所述的虚假新闻检测方法，其中该图像检测步骤具体包括：以该频域特征表示l_F和该语义特征表示l_P，获得该图像表示u，u＝αl_F+(1-α)l_P；以全连接层将该图像表示u分别投影到虚假新闻图片目标空间和真实新闻图片目标空间，获得该预测概率p，并以预测概率p和真实值y之间的交叉熵误差L为损失函数，p＝softmax(W_cu+b_c)，L＝-∑[ylogp+(1-y)log(1-p)]；其中，α为归一化权重，

F(l_F)＝v^Ttanh(W_Fl_F+b_F)，F(l_P)＝v^Ttanh(W_Fl_P+b_F)，W_c和W_F为权重矩阵，b_c和b_F为偏置，v^T为转置后的权重向量，softmax及tanh为激活函数。

本发明还提出一种融合多尺度视觉信息的虚假新闻检测系统，包括：频域特征获取模块，用于以卷积神经网络构建频域子网络模型，通过该频域子网络模型获得输入图像的频域特征表示；语义特征获取模块，用于以卷积神经网络构建像素域子网络模型，通过该像素域子网络模型获得该输入图像的语义特征表示；图像检测模块，用于将该频域特征表示与该语义特征表示进行融合，得到该输入图像的图像表示，并根据该图像表示获得该输入图像为虚假新闻图片的预测概率。

本发明所述的虚假新闻检测系统，其该频域特征获取模块具体包括：大尺度频域特征表示获取模块，用于获取该输入图像的大尺度频域特征表示；以卷积神经网络构建该频域子网络模型的大尺度网络；对该输入图像进行分块的离散余弦变换，以获得该输入图像在多个频率上对应的大尺度直方图；对该大尺度直方图进行采样以得到多个大尺度多维向量；通过该大尺度网络将该多个大尺度多维向量进行融合，得到该输入图像的大尺度频域特征表示l_large；小尺度频域特征表示获取模块，用于获取该输入图像的小尺度频域特征表示；以卷积神经网络构建该频域子网络模型的小尺度网络；将该输入图像划分为多个相同大小的图像块，对该图像块进行分块的离散余弦变换，以获得该图像块在多个频率上对应的小尺度直方图；选取多个处于高频段的该小尺度直方图进行采样以得到多个小尺度多维向量；通过该小尺度网络将该多个小尺度多维向量进行融合，得到该输入图像的小尺度频域特征表示l_small；拼接融合模块，用于将l_large和l_small进行拼接融合，得到该输入图像的频域特征表示l_F。

本发明所述的虚假新闻检测系统，其中该语义特征获取模块具体包括：循环融合网络构建模块，用于以卷积神经网络构建循环融合网络；获取该循环融合网络的输入在多个尺度上的第一特征图，对该第一特征图进行向上采样得到相同大小的第二特征图，将该第二特征图进行通道拼接，获得全局上下文知识表示作为该循环融合网络的输出；循环融合网络串接模块，用于以本轮循环融合网络的输出作为下一轮循环融合网络的输入，将多个该循环融合网络串接为该像素域子网络模型；语义特征获取模块，用于将该输入图像作为该像素域子网络模型的输入，以经过预设轮次迭代后获得的全局上下文知识表示作为该输入图像的语义特征表示l_p。

本发明所述的虚假新闻检测系统，其中该图像检测模块具体包括：图像表示获取模块，用于以该频域特征表示l_F和该语义特征表示l_P，获得该图像表示u，u＝αl_F+(1-α)l_P；预测概率获取模块，用于以全连接层将该图像表示u分别投影到虚假新闻图片目标空间和真实新闻图片目标空间，获得该预测概率p，并以预测概率p和真实值y之间的交叉熵误差L为损失函数，p＝softmax(W_cu+b_c)，L＝-∑[ylogp+(1-y)log(1-p)]；其中，α为归一化权重，

本发明还提出一种计算机可读存储介质，存储有计算机可执行指令，该计算机可执行指令用于执行如前所述的融合多尺度视觉信息的虚假新闻检测。

本发明还提出一种数据处理装置，包括如前所述的计算机可读存储介质，该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令，以进行融合多尺度视觉信息的虚假新闻检测。

附图说明

图1是本发明的虚假新闻检测方法流程图。

图2是本发明的虚假信息检测模型示意图。

图3是本发明的数据处理装置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明提出的融合多尺度视觉信息的虚假新闻检测方法和系统进一步详细说明。应当理解，此处所描述的具体实施方法仅仅用以解释本发明，并不用于限定本发明。

发明人在对虚假新闻的视觉模态(即虚假新闻的配图)进行研究时，发现虚假新闻图片不仅包含被恶意篡改的虚假图片，也包含被错误的用来表示不相关事件的真实图片。现有的技术只适合建模某一类型的虚假新闻图片，无法捕捉到虚假新闻图片的本质特征。发明人经过研究发现，虚假新闻图片在物理及语义层面均存在显著的特点，分别在频域及像素域上具有明显的表现。因此，本发明针对虚假新闻图片的特征设计相应的深度学习模型，深入挖掘图片在频域及像素域上潜在的视觉模式并进行高效表达和融合，提高利用视觉内容进行虚假新闻自动甄别的效果。

本发明的目的是对虚假新闻进行有效的自动检测，主要解决的技术问题为如何基于新闻的视觉内容，建立有效的深度学习模型进行虚假新闻检测。

本发明主要的关键点在于设计了一个深度学习模型，能够充分捕捉并融合图片在频率域以及像素域上多尺度的视觉信息，从而实现利用视觉内容对虚假新闻的自动检测。具体包括对虚假新闻图片物理特征的建模以及对虚假新闻图片语义特征的建模两个关键点的设计：

1)设计针对频域信息的多尺度卷积神经网络(CNN)，用于捕捉虚假新闻图片不同层次的物理特征。

虚假新闻图片在物理层面呈现出低质量的特点，如具有多重压缩痕迹及篡改痕迹等，在频域上往往呈现出一定的周期性，因此可利用CNN进行建模。对于篡改图片这一类典型的虚假新闻图片来说，图片的篡改区域往往比未篡改区域经历过更多的压缩次数，这导致篡改图片的不同部分呈现出不同的压缩特性。因此，为综合考虑图片的整体特性以及局部的异常特性，本发明设计了一个针对频域信息的多尺度CNN网络，用于捕捉虚假新闻图片不同层次的物理特征。

2)设计了一个针对像素域信息的循环融合网络，用于有效提取并融合虚假新闻图片在不同语义层次上的特点。

虚假新闻图片在语义层面呈现出视觉冲击及情感煽动的风格特点，这些风格特点可以体现在不同层次的视觉特征上，因此，为更好的建模虚假新闻图片的语义特点，应该综合考虑多尺度的视觉特征。CNN模型的不同层可以学到不同抽象级别的多尺度特征，但是CNN模型在逐层学习多尺度视觉特征时，由于感受野受限导致上下文信息缺乏，所学到特征的表示能力有限。因此本发明设计了一个循环融合网络，利用全局的上下文知识引导CNN的特征学习，并将多尺度的CNN特征进行融合，从而实现有效的提取和融合虚假新闻图片在不同语义层次上的特点。

下面结合附图和具体实施方式对本发明加以说明。

本发明的主要目标之一是利用视觉内容对用户发布的新闻消息进行虚假信息的自动甄别，因此可以将具体任务定义为根据视觉内容对新闻是否属于虚假新闻进行二分类。

虚假新闻图片在频域及像素域上具有明显的特点。因此，为了充分建模虚假新闻图片的视觉特征，本发明设计了一个深度学习模型，深入挖掘图片在频域及像素域上潜在的视觉模式并进行高效表达和融合，提高利用视觉内容进行虚假新闻自动甄别的效果。

图1是本发明的虚假新闻检测方法流程图。如图1所示，本发明的虚假新闻检测方法包括：

步骤S1，以卷积神经网络构建频域子网络模型，通过该频域子网络模型获得输入图像的频域特征表示；频域子网络模型由两个结构类似的CNN模型构成，用于提取输入图像不同尺度的物理特征；

频域子网络模型由两个相似的CNN网络：小尺度网络和大尺度网络组成。本发明将完整的输入图像用于大尺度网络的训练，并将输入图像分割成的128(像素)×128(像素)的图像块用于小尺度网络的训练。这两个单尺度子网络具有类似的模型架构。以大尺度网络为例，对于输入图像，首先对其采取分块的离散余弦变换(DCT)，以获得该图片在64个频率上对应的DCT系数直方图。具体的，本发明对这些直方图进行一维傅立叶变换，以增强CNN的效果。考虑到CNN需要一个固定大小的输入，对这些直方图进行采样，得到64个250维向量，表示为{H₀,H₁,…,H₆₃}。经过预处理后，每个输入向量Hi被送入共享权重的大尺度CNN网络，得到相应的特征表示w_i。CNN网络由三个卷积块和一个全连接层组成，每个卷积块由一个一维卷积层和一个最大池化层组成。为了加速模型的收敛，将卷积层中滤波器的数目设置为递增的。把64个频域的特征向量{w₀,w₁,…,w₆₃}进行拼接融合，得到输入图像大尺度的频域特征表示l_large。在小尺度网络中，对每个128×128大小的图像块采用分块DCT；为降低参数在64个频率中选择前9个高频项进行DCT系数直方图的绘制。将所有128×128的图片块输入小尺度CNN网络中，并将得到的特征向量进行拼接融合，进一步得到输入图像小尺度的频域特征表示l_small。最后，将l_large和l_small进行拼接融合，得到输入图像频域的最终特征表示l_F，进一步作为融合子网络的输入。

步骤S2，以卷积神经网络构建像素域子网络模型，通过该像素域子网络模型获得该输入图像的语义特征表示；像素域子网络由一个循环融合网络构成，该网络包含GCK(global contextual knowledge,GCK,全局上下文知识)引导的特征提取和多尺度特征融合两个阶段，分别用于提取和融合输入图像不同语义层次的特征图；

像素域子网络模型由一个循环融合网络构成。循环融合网络的主体结构为一个简单的CNN网络，在此基础上通过融合多尺度特征构建一个全局上下文知识(GCK)的表示，并构建GCK和CNN不同层之间的循环连接。假设基本的CNN主体结构由L层组成，每层得到一个特征图X。X^l是第l层CNN的输出，可以写成

X^l＝f^l(W^l*X^l-1)，l∈[1,L]

其中，*表示卷积运算；W^l是第l个卷积层的权重(包括偏差项)，在训练过程中随机初始化并进行优化；f^l(·)是激活以及池化等多个特定函数的组合函数。这里X⁰和X^L表示CNN的输入和最终输出。从L层中选择4层，利用循环融合网络进行融合。该网络包括多尺度特征融合和GCK引导的特征提取两个阶段。假设S＝{r_m,m∈[1,4]}表示所选层的集合，并令r_m∈[1,L]标注所选层。在多尺度特征融合阶段，首先得到全局上下文知识的表示GCK。具体地，输入图像经过CNN后得到一组多尺度的特征图{X^r,r∈S}。本发明采用1×1卷积来减少这些特征图的通道数，并将不同尺度的特征图向上采样到相同的大小。然后，将所有放大后的特征图{F^r,r∈S}进行通道拼接，采用1×1卷积运算来促进通道间的信息融合和降低特征维数，最终得到GCK。GCK的形式化定义如下：

其中Cat是通道拼接操作，*表示卷积运算，W是权重矩阵，σ是激活函数。在GCK引导的特征提取阶段，构建GCK和每个选择的CNN层之间的循环连接。通过引入循环连接，每一个选中的CNN层的输入包括前一层的输出和GCK两部分。t表示循环网络时间步的数目(即循环的次数)，则X^L(l∈S)可以重写为

其中，X^l(t)和GCK(t)分别表示在时间步t处的第l层CNN的输出和GCK，*表示卷积运算，W^l和f^l是用于将第(l-1)层的特征图传递到l层的权重矩阵和组合函数(包括激活函数及池化操作等)，U^l和g^l是用于获得第l层的GCK的权重矩阵及组合函数，V^l是第l层的1*1卷积层的权重矩阵，σ是激活函数，Cat是通道拼接操作。多个时间步的模型参数是共享的。经过t次迭代后，即获得了最后一个时间步的全局上下文知识表示GCK(t)作为像素域子网络最终的语义特征表示l_p，进一步作为融合子网络的输入。

步骤S3，将该频域特征表示与该语义特征表示进行融合，得到该输入图像的图像表示，并根据该图像表示获得该输入图像为虚假新闻图片的预测概率；融合子网络利用注意力(attention)机制动态融合从频域和像素域子网络获取的特征向量，将输入图像分类为虚假新闻图片或真实新闻图片；

图片的物理和语义特征在检测虚假新闻时是互补的，因此本发明提出了融合子网络来融合这些特征，即利用频域子网络的输出l_F和像素域子网络的输出l_P对输入图片是否属于虚假新闻图片进行预测。直观地说，并不是所有的特征都对假新闻的检测起到同样的作用，这意味着一些视觉特征在评价一个给定的图片是虚假新闻图片还是真实新闻图片中起着更重要的作用。例如，对于一些具有明显篡改痕迹的篡改图片，物理特征比语义特征在检测虚假新闻上表现得更好；对于一些没有经历过严重重压缩的误导性图像，语义特征更为有效。因此，本发明通过注意力机制来突出这些有价值的特征，增强后的图像表示u计算如下：

F(l_F)＝v^Ttanh(W_Fl_F+b_F)

F(l_P)＝v^Ttanh(W_Fl_P+b_F)

u＝αl_F+(1-α)l_P

其中，W_F表示权重矩阵，b_F表示偏置，v^T表示转置后的权重向量，tanh是激活函数，F(·)是衡量每个特征向量重要性的得分函数。然后，通过一个softmax激活函数得到特征向量l_F和l_p对应的归一化权重α和1-α，并计算不同特征向量的加权和作为图像的高级表示u。向量v在训练过程中被随机初始化，并在网络训练的过程中进行优化。

然后，使用具有Softmax激活的全连接层将该特征向量u投影到两类目标空间：虚假新闻图片和真实新闻图片，并获得概率分布：

p＝softmax(W_cu+b_c)，

其中，W_c表示权重矩阵，b_c表示偏置。并将损失函数定义为预测概率分布和真实值之间的交叉熵误差：

L＝-∑[ylogp+(1-y)log(1-p)]

其中y为输入图像的真实值，1代表虚假新闻图片，0代表真实新闻图片，p代表虚假新闻图片的预测概率。

本发明还提出一种虚假新闻检测系统，系统的整体框架如图2所示，主要由三部分组成：频域子网络、像素域子网络和融合子网络。频域子网络由两个结构类似的CNN模型构成，用于提取输入图像不同尺度的物理特征；像素域子网络由一个循环融合网络构成，该网络包含GCK(global contextual knowledge,GCK,全局上下文知识)引导的特征提取和多尺度特征融合两个阶段，分别用于提取和融合输入图像不同语义层次的特征图。融合子网络利用注意力(attention)机制动态融合从频域和像素域子网络获取的特征向量，将输入图像分类为虚假新闻图片或真实新闻图片。

一、频域子网络模型

频域子网络的模型细节如图2上半部分所示，该模型由两个相似的CNN网络：小尺度网络和大尺度网络组成。本发明将完整的输入图像用于大尺度网络的训练，并将输入图像分割成的128(像素)×128(像素)的图像块用于小尺度网络的训练。这两个单尺度子网络具有类似的模型架构。以大尺度网络为例，对于输入图像，首先对其采取分块的离散余弦变换(DCT)，以获得该图片在64个频率上对应的DCT系数直方图。具体的，本发明对这些直方图进行一维傅立叶变换，以增强CNN的效果。考虑到CNN需要一个固定大小的输入，对这些直方图进行采样，得到64个250维向量，表示为{H₀,H₁,…,H₆₃}。经过预处理后，每个输入向量Hi被送入共享权重的大尺度CNN网络，得到相应的特征表示w_i。CNN网络由三个卷积块和一个全连接层组成，每个卷积块由一个一维卷积层和一个最大池化层组成。为了加速模型的收敛，将卷积层中滤波器的数目设置为递增的。把64个频域的特征向量{w₀,w₁,…,w₆₃}进行拼接融合，得到输入图像大尺度的频域特征表示l_large。在小尺度网络中，对每个128×128大小的图像块采用分块DCT；为降低参数在64个频率中选择前9个高频项进行DCT系数直方图的绘制。将所有128×128的图片块输入小尺度CNN网络中，并将得到的特征向量进行拼接融合，进一步得到输入图像小尺度的频域特征表示l_small。最后，将l_large和l_small进行拼接融合，得到输入图像频域的最终特征表示l_F，进一步作为融合子网络的输入。

二、像素域子网络模型

像素域子网络的模型细节如图2下半部分所示，主要由一个循环融合网络构成。该网络的主体结构为一个简单的CNN网络，在此基础上通过融合多尺度特征构建一个全局上下文知识(GCK)的表示，并构建GCK和CNN不同层之间的循环连接。假设基本的CNN主体结构由L层组成，每层得到一个特征图X。X^l是第l层CNN的输出，可以写成

X^l＝f^l(W^l*X^l-1)，l∈[1,L]

三、融合子网络模型

F(l_F)＝v^Ttanh(W_Fl_F+b_F)

F(l_P)＝v^Ttanh(W_Fl_P+b_F)

u＝αl_F+(1-α)l_P

其中，W_F表示权重矩阵，b_F表示偏置，tanh是激活函数，v^T表示转置后的权重向量，F(·)是衡量每个特征向量重要性的得分函数。然后，通过一个softmax激活函数得到特征向量l_F和l_p对应的归一化权重α和1-α，并计算不同特征向量的加权和作为图像的高级表示u。向量v在训练过程中被随机初始化，并在网络训练的过程中进行优化。

然后，使用具有Softmax激活函数的全连接层将该特征向量u投影到两类目标空间：虚假新闻图片和真实新闻图片，并获得概率分布：

p＝softmax(W_cu+b_c)，

L＝-∑[ylogp+(1-y)log(1-p)]

图3是本发明的数据处理装置示意图。如图3所示，本发明实施例还提供一种计算机可读存储介质，以及一种数据处理装置。本发明的计算机可读存储介质存储有计算机可执行指令，计算机可执行指令被数据处理装置的处理器执行时，实现上述融合多尺度视觉信息的虚假新闻检测方法。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器、FPGA、ASIC等)完成，所述程序可以存储于可读存储介质中，如只读存储器、磁盘或光盘等。上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块可以采用硬件的形式实现，例如通过集成电路来实现其相应功能，也可以采用软件功能模块的形式实现，例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能。本发明实施例不限制于任何特定形式的硬件和软件的结合。

本发明主要基于新闻消息的视觉内容实现虚假新闻的有效甄别，与现有技术相比，本发明在不增加额外数据的前提下，与现有技术相比实现了性能的大幅提升。具体来说，针对利用视觉内容检测虚假新闻的任务上，本发明与现有技术相比，在业内公开的数据集上实现了至少11.8个百分点的准确度提升。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变形，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种融合多尺度视觉信息的虚假新闻检测方法，其特征在于，包括：

频域特征获取步骤，以卷积神经网络构建频域子网络模型的大尺度网络；对输入图像进行分块的离散余弦变换，以获得该输入图像在多个频率上对应的大尺度直方图；对该大尺度直方图进行采样以得到多个大尺度多维向量；通过该大尺度网络将该多个大尺度多维向量进行融合，得到该输入图像的大尺度频域特征表示；以卷积神经网络构建该频域子网络模型的小尺度网络；将该输入图像划分为多个相同大小的图像块，对该图像块进行分块的离散余弦变换，以获得该图像块在多个频率上对应的小尺度直方图；选取多个处于高频段的该小尺度直方图进行采样以得到多个小尺度多维向量；通过该小尺度网络将该多个小尺度多维向量进行融合，得到该输入图像的小尺度频域特征表示；将该大尺度频域特征表示和该小尺度频域特征表示进行拼接融合，得到该输入图像的频域特征表示；

语义特征获取步骤，以卷积神经网络构建像素域子网络模型，通过该像素域子网络模型获得该输入图像的语义特征表示；

图像检测步骤，将该频域特征表示与该语义特征表示进行融合，得到该输入图像的图像表示，并根据该图像表示获得该输入图像为虚假新闻图片的预测概率。

2.如权利要求1所述的虚假新闻检测方法，其特征在于，该语义特征获取步骤具体包括：

以卷积神经网络构建循环融合网络；获取该循环融合网络的输入在多个尺度上的第一特征图，对该第一特征图进行向上采样得到相同大小的第二特征图，将该第二特征图进行通道拼接，获得全局上下文知识表示作为该循环融合网络的输出；

以本轮循环融合网络的输出作为下一轮循环融合网络的输入，将多个该循环融合网络串接为该像素域子网络模型；

将该输入图像作为该像素域子网络模型的输入，以经过预设轮次迭代后获得的全局上下文知识表示作为该输入图像的语义特征表示l_p。

3.如权利要求1所述的虚假新闻检测方法，其特征在于，该图像检测步骤具体包括：

以该频域特征表示l_F和该语义特征表示l_P，获得该图像表示u，u＝αl_F+(1-α)l_P；

以全连接层将该图像表示u分别投影到虚假新闻图片目标空间和真实新闻图片目标空间，获得该预测概率p，并以预测概率p和真实值y之间的交叉熵误差L为损失函数，p＝softmax(W_cu+b_c)，L＝-∑[ylogp+(1-y)log(1-p)]；

其中，α为归一化权重，

4.一种融合多尺度视觉信息的虚假新闻检测系统，其特征在于，包括：

频域特征获取模块，用于以卷积神经网络构建频域子网络模型，通过该频域子网络模型获得输入图像的频域特征表示；包括大尺度频域特征表示获取模块、小尺度频域特征表示获取模块和拼接融合模块，其中：

该大尺度频域特征表示获取模块，用于获取该输入图像的大尺度频域特征表示；以卷积神经网络构建该频域子网络模型的大尺度网络；对该输入图像进行分块的离散余弦变换，以获得该输入图像在多个频率上对应的大尺度直方图；对该大尺度直方图进行采样以得到多个大尺度多维向量；通过该大尺度网络将该多个大尺度多维向量进行融合，得到该输入图像的大尺度频域特征表示；

该小尺度频域特征表示获取模块，用于获取该输入图像的小尺度频域特征表示；以卷积神经网络构建该频域子网络模型的小尺度网络；将该输入图像划分为多个相同大小的图像块，对该图像块进行分块的离散余弦变换，以获得该图像块在多个频率上对应的小尺度直方图；选取多个处于高频段的该小尺度直方图进行采样以得到多个小尺度多维向量；通过该小尺度网络将该多个小尺度多维向量进行融合，得到该输入图像的小尺度频域特征表示；

该拼接融合模块，用于将该大尺度频域特征表示和该小尺度频域特征表示进行拼接融合，得到该输入图像的频域特征表示；

语义特征获取模块，用于以卷积神经网络构建像素域子网络模型，通过该像素域子网络模型获得该输入图像的语义特征表示；

图像检测模块，用于将该频域特征表示与该语义特征表示进行融合，得到该输入图像的图像表示，并根据该图像表示获得该输入图像为虚假新闻图片的预测概率。

5.如权利要求4所述的虚假新闻检测系统，其特征在于，该语义特征获取模块具体包括：

循环融合网络构建模块，用于以卷积神经网络构建循环融合网络；获取该循环融合网络的输入在多个尺度上的第一特征图，对该第一特征图进行向上采样得到相同大小的第二特征图，将该第二特征图进行通道拼接，获得全局上下文知识表示作为该循环融合网络的输出；

循环融合网络串接模块，用于以本轮循环融合网络的输出作为下一轮循环融合网络的输入，将多个该循环融合网络串接为该像素域子网络模型；

语义特征获取模块，用于将该输入图像作为该像素域子网络模型的输入，以经过预设轮次迭代后获得的全局上下文知识表示作为该输入图像的语义特征表示l_p。

6.如权利要求4所述的虚假新闻检测系统，其特征在于，该图像检测模块具体包括：

图像表示获取模块，用于以该频域特征表示l_F和该语义特征表示l_P，获得该图像表示u，u＝αl_F+(1-α)l_P；

预测概率获取模块，用于以全连接层将该图像表示u分别投影到虚假新闻图片目标空间和真实新闻图片目标空间，获得该预测概率p，并以预测概率p和真实值y之间的交叉熵误差L为损失函数，p＝softmax(W_cu+b_c)，L＝-∑[ylogp+(1-y)log(1-p)]；

其中，α为归一化权重，

7.一种计算机可读存储介质，存储有计算机可执行指令，该计算机可执行指令用于执行如权利要求1～3任一项所述的融合多尺度视觉信息的虚假新闻检测。

8.一种数据处理装置，包括如权利要求7所述的计算机可读存储介质，该数据处理装置的处理器调取并执行该计算机可读存储介质中的计算机可执行指令，以进行融合多尺度视觉信息的虚假新闻检测。