CN111311563B

CN111311563B - 一种基于多域特征融合的图像篡改检测方法

Info

Publication number: CN111311563B
Application number: CN202010085638.5A
Authority: CN
Inventors: 李帅伯; 马伟; 宗秋
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-02-10
Filing date: 2020-02-10
Publication date: 2023-06-09
Anticipated expiration: 2040-02-10
Also published as: CN111311563A

Abstract

本发明涉及一种基于多域特征融合的数字图像篡改检测方法。本方法使用目标检测流程进行图像篡改检测，首先通过卷积神经网络提取图像空间域和噪声域的篡改遗留特征，将这些特征输入到区域建议网络得到候选检测框。之后，将空间域特征及得到的检测框作为输入信息进行注意力区域识别，识别出图像中具备篡改判别力的篡改可疑区域，在这一过程中，提取图像的重采样特征，引入图像的频域信息。然后将全图空间域特征和可疑区域特征级联，并与噪声域特征通过双线性池化进行融合，应用融合后的特征进行分类和检测框的回归计算，得到篡改类型以及篡改区域的位置。与现有方法相比，本发明能够检测多种类型篡改并准确定位篡改区域，具有更高的检测准确率。

Description

一种基于多域特征融合的图像篡改检测方法

技术领域

本发明属于数字图像处理、计算机视觉、信息安全、数字图像取证等交叉领域，涉及一种基于多域特征融合的深度学习图像篡改检测方法。

背景技术

随着信息化、电子化技术的发展，数字图像在新闻、司法、文艺等各个领域大量使用，成为最主要的信息载体。数字图像的广泛使用极大促进了数字图像编辑工具的开发与应用，例如：Adobe Photoshop、CorelDRAW、美图秀秀等。利用这些工具修改后的图像在观感上与真实图像无异，极难辨别。一些不法篡改者，在未经授权的情况下对图像内容进行操作并发布，如违规编辑、扭曲图片内容、合成虚假图像等。这导致篡改图像在媒体报道、社会生活中泛滥成灾，甚至影响司法鉴定领域，危害极其严重。因此，如何判断数字图像内容的真实性、原始性，成为近年来信息内容安全领域的一项重要研究课题。

无需其他辅助信息的数字图像篡改盲取证技术是当前判断图像真伪的核心技术。此类篡改检测技术可分为两类。第一类通过区分图像中所有区域是否来自同一拍摄设备实现篡改检测，如Ferrara等人在“Image forgery localization via fine-grainedanalysis of cfa artifacts”中使用CFA特征来识别相机模式，通过检测图像不同区域拍摄相机的型号来进行篡改检测，这种方法使用人为设定的CFA模型，而当前图像采集设备种类繁多，难以建立全面的模型特征，同时这种方法只针对未压缩的图像有效，因为压缩过程混入的噪声会破坏图像遗留的相机模式信息，局限性较大。第二类通过寻找图像编辑的痕迹实现篡改检测，如Krawetz等人在“A picture’s worth”中根据真实图像与篡改图像不同的JPEG压缩痕迹进行篡改检测，这种方法存在格式限制，并且不能抵抗中值滤波、高斯模糊等消除痕迹的后处理操作，同时不能对篡改区域进行定位。而Mahdiand等人在“Usingnoise inconsistencies for blind image forensics”中使用局部模式噪声的不一致性来定位篡改，这种方法不能检测复制-粘贴操作，因为篡改区域与真实区域来自同一张图像，具有相似的噪声模式。另外，该方法同样不能抵抗痕迹消除操作且区域定位较为模糊。

无论哪种方式，都是从图像中提取特征进行分析，而无论是来源信息还是篡改痕迹信息都是视觉上不可见的、极其微小或隐匿性较高的，这对于特征的构建和提取提出了较高的要求。而另一方面，如今图像获取容易，篡改素材来源广泛，篡改者在进行图像修改伪造的过程中，常使用几何变换、锐化、对比度调整、图像拼接、克隆等操作处理。这些操作往往叠加使用，而篡改者为了去除某些篡改操作过程中引入的标志性特征，又会进一步处理以隐藏篡改痕迹，如进行中值滤波操作等，极大提高综合性篡改检测的难度。上述情况为图像篡改带来极大挑战，现有图像篡改检测算法尚有诸多局限：(1)所提取特征较为单一且细粒度不够，对于篡改信息的标示性不足，检测准确率较低。(2)能够检测的篡改类型较为单一，不能同时进行拼接、复制粘贴、消除等多种混合类型的篡改。(3)难以准确定位篡改区域在图像中的位置。

近几年深度学习的发展成果丰硕，也为图像篡改检测领域带来了新的研究思路，但多数方法将卷积神经网络作为特征提取器，依照传统方法的思路，用深度网络的特征替代人为设计的特征进行篡改检测，效果有一定的提升，但使用的网络结构大多应用于图像分类或目标检测等经典机器视觉问题，并未对图像篡改进行充分优化，所提取特征的细粒程度较低，这也是目前篡改检测未能解决的问题。本发明针对以上问题，在参考现有基于深度学习的图像篡改检测方法的基础上，提出融合多域多类特征的图像篡改综合检测方法。

发明内容

基于以上问题，本发明提出一种基于注意力机制的可以融合多域特征的图像篡改检测网络结构，该结构能够综合性检测出图像中的多种内容篡改，如拼接、复制-粘贴、移除等，同时能够准确给出图像中篡改区域的位置。本发明网络将图像篡改检测作为目标检测问题，使用Faster R-CNN目标检测框架，提取待检测图像空间域、频域和噪声域上的篡改遗留痕迹，并将这些丰富的篡改表示特征进行融合以显著提高检测结果的准确性。在噪声域上，设计训练了特殊的卷积结构以提取多类操作痕迹，如中值滤波、高斯模糊、加性高斯白噪声等，进一步提高网络提取特征的丰富性及网络检测性能。

同时，本发明将整图检测和特殊区域检测相结合，通过使用具备更大感受野的LSTM网络学习图像的上下文关联特征，而另一方面寻找局部“特殊区域”。这种区域的确定是通过引入注意力机制来实现的，本发明构建了应用于图像篡改检测的注意力网络，这一网络的作用是寻找到待检测图像中“更具判别力的特殊区域”，所谓更具判别力是指该区域包含更多的篡改痕迹信息，更能表示图像是否被篡改。从这种区域中提取的局部判别性特征加入到检测分类中能显著提升准确性。注意力网络能够在大量数据的监督下通过自身权重学习，自动选择出其感兴趣区域，聚焦于具有篡改判别力的区域，而这一过程与人眼分辨篡改图像的过程是相似的。

一种基于多域特征融合的图像篡改检测方法包括以下模块和步骤：

模块一：特征提取模块。输入一幅待检测图像，提取其空间域和频域的篡改遗留信息。

模块二：注意力模块。检测输入图像中具有篡改判别力的区域，在本发明中，注意力模块的输入是待检测图像和RPN网络提出的检测框位置，该模块对每个检测框对应的部分图像进行检测，输出的是当前检测框中关注区域，即判别力区域的局部特征。

模块三：特征融合模块。对来自两个分支的特征进行融合，采取的操作是双线性融合。该模块的输入是来自两支网络输出的检测框区域不同种类的特征，输出是用于当前区域分类的融合特征。

有益效果

与现有技术相比，本发明具有以下优点：1)提取待检测图像多个特征域的篡改遗留信息，并分层次表达融合以进行充分利用。能够检测拼接、复制粘贴、消除等多种类型的篡改，具有更高的检测准确率。2)能够准确定位篡改的区域。

附图说明

图1为本发明的框架图；

图2为本发明中特征提取网络的结构图；

图3为本发明中注意力模块的网络结构图；

图4为本发明自定义卷积核示意图；

图5为本发明使用的希尔伯特曲线原理图；

图6为本发明应用实例实验结果：(a1)、(b1)、(c1)表示的是真实图像，(a2)、(b2)、(c2)表示的是篡改图像，(a3)、(b3)、(c3)表示的是图像真值，(a4)、(b4)、(c4)表示的本发明方法的检测结果。a、b、c三组图像分为对应拼接、复制-粘贴和消除三种篡改类型的检测。

图7为本发明噪声域特征提取模块网络结构

图8为本发明应用实例实验结果：本发明检篡改测算法与其他三种方法在NIST16、Columbia、COVER、CASIA四个数据集上的检测准确率(F1分数)对比。其他三种方法分别为：Krawetz等人、Mahdian等人及Ferrara等人的方法。

具体实施方式

下面结合附图和具体实施方式对本发明的各个模块，网络的训练方式和本发明的使用方法做进一步说明。

本发明的模块组成和流程图如附图1所示，具体包括以下模块：

模块一，特征提取模块。

特征提取模块分为两部分，第一部分是空间域RGB特征提取模块，是一个ResNet101网络，能够提取输入的RGB图像学习特征，这些特征往往可以表示图像中出现的对比度强烈变化的区域和不自然的篡改结构痕迹，但是这种RGB篡改特征更具有全局性，这些高层次特征忽略了图像中的局部和细节信息。

特征提取模块的第二部分是噪声域特征提取模块，在传统篡改检测方法中使用SRM滤波器来检测图像篡改，SRM滤波器能够提取图像中的低维局部噪声，原本应用于图像隐写分析领域，但将其应用在图像篡改检测领域起到显著的效果，很多在空间域中难以得到的篡改痕迹信息，在噪声域中得以凸显，本发明使用与B.Bayar等人“A deep learningapproach to universal image manipulation detection using a new convolutionallayer”相似的思路和结构，构建噪声域特征提取模块。该模块是一个深度卷积神经网络，依次由一层自定义的特殊卷积层和两层常规的卷积层组成，如附图2。其中，特殊卷积层具备非常规的卷积操作以使得该网络能够检测多种图像篡改痕迹信息，通过在每次迭代(无论训练还是预测提取)后对卷积核的权值进行限制，使得该卷积层能够在训练过程中学习到局部像素特征而非图像内容特征。而在后两层常规卷积层中，加入了BN层和ReLU激活层以提升网络的稳定性。第一层卷积层的卷积核大小为7×7,步长为2,第二层卷积层的卷积核大小为5×5，步长为1。并且在两层常规卷积层后都设置了最大池化层以减少参数量，提升模型性能。

本发明先使用NIST16数据集中的图像对该网络进行预训练，将这些图像按照5:1的比例划分为训练集D_T和测试集D_E。提取训练集D_T中图像的绿色通道，作为一组未被篡改的图像。对这些图像分别进行核函数大小为5×5的中值滤波，核函数大小为5×5、标准偏差为1.1的高斯模糊，标准偏差为2的加性高斯白噪声，缩放因子为1.5、采用双线性插值算法的重采样，生成四组篡改图像。分别将五组图像从中心向四个顶点切割为若干个256×256大小的图像块，并进一步裁切每个256×256大小的图像块中心的227×227大小的图像块。

设定网络的学习率为0.001、动量0.9、批次大小为16，使用He等人的方法初始化卷积核的权值、选择动量优化器(Momentum Optimizer)更新网络参数。对于特殊卷积层(其中卷积核结构如附图4)，定义了特殊的初始化和更新方式：

其中

表示特殊卷积层中第k个卷积核。除了卷积核中心权值为-1外，其余权值均为归一化的随机值，且和为1。在训练过程中，自定义的特殊积层需要在经历随机梯度下降算法和反向传播后进行权值更新，并在下一次进行卷积操作时重新初始化。

将经过筛选的数据集用于网络训练，经历15个epoch共26000余次迭代后网络逐渐拟合，完成预训练。

模块二，注意力模块。

本模块的作用是对图像进行分析，寻找到图像中具有篡改判别力的区域，所谓更具判别力是指该区域包含更多的篡改痕迹信息，更能表示图像是否被篡改。从这种区域中提取的局部判别性特征加入到检测分类中能显著提升准确性。添加这一模块的思路来源于细粒度图像分类领域，细粒度图像分类是区域某一类别图像下的细粒度子类，比如在“狗”类图片下将“哈士奇”和“爱斯基摩犬”的图像分辨开来。同类别物种的不同子类往往仅在耳朵形状、毛色等细微处存在差异，这使得细粒度图像间的差异对于人为肉眼区分是很难的，这与图像篡改检测问题具有一定的相似性。而解决这一问题的方法主要是在图像中寻找到具备分类判别力的区域，比如针对于鸟类数据集，将关注点放在头部，因为头部区域的一些特征更能表达鸟的种类，将这一区域的特征与图像的全局特征进行级联作为整图的表达会极大提高分类的准确率。

本模块整个网络结构可以分为四部分，使用重采样特征的LSTM网络，编码网络，解码网络以及后处理模块。使用重采样特征是因为这些具有判别力的区域大多处于图像的边界，具有强烈的对比度变化，这些痕迹往往是在上采样、下采样、压缩等操作中留下的，而这些区域的特征在频域中能够很好的获取到。因此，本发明从图像块中提取重采样特征，将这些重采样特征作为LSTM网络的输入，用于学习不同图像块之间的相关性。同时使用一个编码网络来理解空间域下的图像信息。在解码网络之前，对频域和空间域的信息进行融合，之后使用解码网络上采样得到判别力区域的定位图。最后经过后处理得到该区域的特征，输出该特征与RGB特征进行级联以作为整体图片的特征表示。

将待检测的图像同时输入到编码网络和使用重采样特征的LSTM网络。在编码网络中，本发明使用4个卷积单元，每个单元依次由卷积层、残差单元以及最大池化层构成，通过编码网络生成了图像的全局空间特征。而在使用重采样特征的LSTM网络中，首先将待检测图像分块，从每个图像块中提取重采样特征。对于提取出来的重采样特征，使用Hilbert曲线确定图像块输入LSTM单元的顺序，使用LSTM单元学习频域下图像块间的联系，之后将LSTM单元输出的特征与由编码网络得到的全局空间特征进行组合。最后将组合后的特征输入到解码网络中。解码网络由两个解码单元组成，每个解码单元中都依次包括上采样操作和卷积操作。通过解码器，将高维度的特征解码为具体的具有篡改判别力的区域位置，并通过后处理模块输出注意力区域的局部特征。本发明中后处理模块使用的是VGG 16网络结构。

该模块中最主要的部分就是使用重采样特征的LSTM网络。对于给定的图像，先将图像分为64(8×8)大小的图像块，例如输入图像的大小为256×256×3，那么经过处理的图像块尺寸为32×32×3，然后使用3×3的拉普拉斯滤波器来计算每个图像块的线性预测误差，由于图像重采样特征的线性预测误差具有周期性，所以本发明使用Radon变换对不同投射角度的误差进行累积，在实际操作的过程中，通过对10个角度的误差进行累积，最后应用快速傅里叶变换计算出信号的周期。图3中所述的预处理模块即指以上方法，通过上述方法提取出的重采样特征可以表征多种操作中遗留的重采样信息，如JPEG质量的调整、上采样、下采样、顺时针旋转、逆时针旋转和裁切等。为了降低计算复杂度，本发明使用重采样特征对于图像块进行分类以进一步寻找具备篡改判别力的区域。在选择图像块的大小时，通过实验发现使用更大的尺寸对于检测效果更好，重采样特征包含更多重复的周期，但是较大的图像块对于较小的篡改可疑区域的定位准确性会较差。通过实验，本发明选择32×32的图像块尺寸兼顾重采样信息量的大小和区域定位的准确性。

长短期记忆网络(LSTM)通常应用于存在时序信息的任务中，而LSTM的性能高度依赖于输出的数据块的顺序，常见的水平和垂直方向的信息输入不能较好地获取信息间的联系，当使用水平方向上的信息迭代，那么垂直相邻的信息块将被分割，这将导致长时间的信息滞后，LSTM则无法在这些信息块的序列中学习到各信息间的联系，而当按照垂直方向上进行迭代也会面临同样地问题。为了更好地保留信息块间的空间相关性，本发明使用了空间填充曲线，空间填充曲线能够将多维空间的问题转换到一维空间，而希尔伯特曲线在保持空间相关性方面的性能要优于其他的曲线。附图5展示了希尔伯特曲线的工作原理，其中(a)展示了一阶希尔伯特曲线填充2×2的空间，(b)使用二阶希尔伯特曲线填充四个象限，而每个象限内的填充与一阶相同，(c)中三阶进一步将空间分成四象限，并在每个部分中重复一阶和二阶的操作。由于将输入图像分为64(8×8)个图像块，因此需要对平面进行三次递归分割，所以本发明选择三阶希尔伯特曲线，在使用希尔伯特曲线对图像块进行排序后，将其输入到LSTM网络中，利用LSTM网络学习图像块间的相关性。

模块三，特征融合模块。

特征融合模块将注意力模块输出的级联特征和噪声分支的特征进行融合，在融合过程中，采用双线性池化操作，双线性池化的输出是

其中f_RGB表示的是RGB分支的RoI特征，而f_N是噪声流RoI特征，融合后的特征用于分类，同时在输入到全连接层之前对融合输出进行开平方操作和L2标准化。为了提高特征融合的效率，本发明中使用紧凑型双线性池化。通过特征融合模块，得到了具备较强篡改判别力的高维特征，本发明将该特征用于篡改检测的分类，得到具体的篡改类别判定。同时使用RGB分支的输出特征进行检测框的回归预测，得到准确的篡改区域的位置并以矩形框表示。

训练阶段。

本发明模型的整体网络结构是具有两个分支的Faster R-CNN网络，网络的训练过程包括特征提取模块中两个分支的预训练、注意力网络的训练以及整体检测网络的训练。下面主要对注意力网络的训练及整体检测网络的训练进行介绍。

在训练注意力模块的过程中，本发明使用CASIA 1.0数据集和IEEE ForensicsChllenge数据集作为训练集。在网络的末端接入softmax层用以得到判别力区域的像素级表示。使用softmax分类器的P(y_k)表示不同类别的概率分布，通过在k类别中最大化P(y_k)来预测标签，根据检测问题的二分类特性，设定k＝2，预测的标签通过

进行计算。训练过程中通过反向传播(back-propagation)计算损失来学习参数，本发明中使用交叉熵损失函数来得到网络的最佳参数集，设θ为所求参数向量，交叉熵损失的计算为：

其中M和N表示图像像素的总数和类的数量。y表示输入像素。

是一个指标函数，如果m＝n则取值为1，否则其取值为0。在实际的实验测试中，可以观察到使用加权交叉熵损失能够得到更好的效果，这是因为注意力模块所得到的具备篡改判别力的区域像素数量与其他区域的数量间的差距较大，给予其他区域更高的权重能够取得更好的训练效果。同时，训练过程中使用自适应矩估计(Adaptive Moment Estimation，Adam)来调节权重，并通过归一化使权重取值为0到1之间。

对于整体网络的训练，本发明基于Microsoft COCO数据集构建了约为40K张的篡改及真实图像对并用作训练集。整体网络的损失计算主要分为三部分，区域建议网络(RPN)的损失计算、分类计算和检测框回归计算。整体网络中的RPN网络使用特征提取模块提取出的空间域特征和噪声域特征为后续的检测框回归提出RoI，RPN网络的损失被定义为：

其中g_i便是锚点i作为候选篡改区域的概率，

表示锚点i的真值标签为正值。f_i和f_i ^*分别是锚点和真值的检测框坐标。L_cls表示RPN网络的交叉熵损失，L_reg表示针对于所提出检测框回归过程的L1损失，N_cls表示RPN网络中批组的大小，N_reg则是锚点位置的数量。λ是平衡这两个损失计算的超参数，取值为10。本发明中对于RPN的训练与传统的Faster R-CNN不同，传统RPN网络会搜索到图像中可能成为对象目标的区域，而这些目标是具有语义的物体，本发明的RPN网络根据空间域和噪声域特征寻找的是可能被篡改过的区域，这些区域并不一定是具有语义的物体目标，例如检测到的应用去除操作的篡改区域。

本发明在进行篡改分类时使用交叉熵损失，在进行检测框回归时使用平滑L1损失：

训练过程总的损失函数为：

L_total＝L_RPN+L_tamper(f_RGB,f_N)+L_bbox(f_RGB)

其中L_total表示总损失，L_RPN表示区域建议网络中的RPN损失，L_tamper表示交叉熵分类损失，而这一部分的损失计算基于RGB分支和噪声分支的融合特征。L_bbox表示边界框回归损失。f_RGB和f_N是来自RGB分支和噪声分支的RoI特征。而这些项的组合构成总的训练损失函数。

使用阶段。

给定一张待检测图像，按照前述方法网络进行检测。将待检测图像输入到附图1中的已经训练好的整体网络中，输出为标明篡改区域、篡改类型及篡改可能性的检测结果图像。

方法测试

本实验中使用三种不同类型的篡改图像进行测试，分别检测并定位拼接、复制-粘贴及消除的篡改区域。除此之外，本发明对比了其他三种方法，分别为Krawetz等人、Mahdian等人、Ferrara等人的方法。

测试一，多类型篡改检测效果测试。

测试本发明对不同类型篡改的检测及定位效果，本发明选取了拼接、复制-粘贴、消除等不同类型的篡改类型图像进行测试，实验结果如附图6所示。

从附图6可以看出，本发明可以对多种类型的篡改进行检测，并且能够对于篡改区域进行准确定位。

测试二，检测准确率测试。

测试方法在大规模数据集上的检测准确率，反应出方法的整体检测性能。本发明选取了三种方法在NIST16、Columbia、COVER、CASIA等四个数据集上进行对比，实验结果如图8所示。

从图8可以看出，由于本发明融合了多域篡改遗留特征进行检测，同时引入了注意力机制，识别出图像中具有篡改判别力的区域，使得检测更为准确，在四个数据集上均具有更高的检测准确率。

Claims

1.一种基于多域特征融合的图像篡改检测方法，其特征在于包括以下模块和步骤：

模块一：特征提取模块：输入一幅待检测图像，提取其空间域和频域的篡改遗留信息，形成RGB分支和噪声流分支；

模块二：注意力模块：针对RGB分支，检测输入图像中具有篡改判别力的区域，本模块将待检测图像的RGB图像学习特征，以及经RPN网络提出的待检测图像的RGB图像学习特征的区域特征进行级联，作为输入图像的表达；

模块三：特征融合模块：对来自两个分支的特征进行融合，采取的操作是双线性融合，融合后的特征用于分类；同时使用RGB分支的输出特征进行检测框的回归预测，得到准确的篡改区域的位置并以矩形框表示；

特征提取模块分为两部分，第一部分是空间域RGB特征提取模块，是一个ResNet101网络，第二部分是噪声域特征提取模块，该模块是一个深度卷积神经网络，依次由一层自定义的特殊卷积层和两层常规的卷积层组成，其中，特殊卷积层用于检测多种图像篡改痕迹信息；后面两层常规卷积层中，加入了BN层和ReLU激活层以提升网络的稳定性；

所述的特殊卷积层定义了特殊的初始化和每次迭代后的更新方式，具体如下：

其中，

表示特殊卷积层中第k个卷积核，除了卷积核中心权值/>

为-1外，其余权值均为归一化的随机值，且和为1；

噪声域特征提取模块第一层常规卷积层的卷积核大小为7×7,步长为2,第二层卷积层的卷积核大小为5×5，步长为1，并且在两层常规卷积层后都设置了最大池化层以减少参数量，提升模型性能；

注意力模块分为四部分，即使用重采样特征的LSTM网络，编码网络，解码网络以及后处理模块；将从输入图像中提取的重采样特征作为LSTM网络的输入，用于学习不同图像块之间的相关性；同时将输入图像输入编码网络提取全局空间特征；将LSTM单元输出的特征与由编码网络得到的全局空间特征进行组合，最后将组合后的特征输入到解码网络中，之后使用解码网络上采样得到判别力区域的定位图；最后经过后处理得到该区域的特征，输出该特征与RGB特征进行级联以作为整体图片的特征表示。

2.根据权利要求1所述的一种基于多域特征融合的图像篡改检测方法，其特征在于：所述的编码网络使用4个卷积单元，每个单元依次由卷积层、残差单元以及最大池化层构成。

3.根据权利要求1所述的一种基于多域特征融合的图像篡改检测方法，其特征在于：所述输入LSTM网络的重采样特征的提取过程为：首先将输入图像分块，从每个图像块中提取重采样特征，对于提取出来的重采样特征，使用Hilbert曲线确定图像块输入LSTM单元的顺序。

4.根据权利要求1所述的一种基于多域特征融合的图像篡改检测方法，其特征在于：解码网络由两个解码单元组成，每个解码单元中都依次包括上采样操作和卷积操作；后处理模块使用的是VGG 16网络结构。

5.根据权利要求1所述的一种基于多域特征融合的图像篡改检测方法，其特征在于：双线性池化的输出是

其中f_RGB表示的是RGB分支级联特征的RoI特征，f_N是噪声流RoI特征，融合后的特征用于分类。/>