CN113570540A

CN113570540A - 一种基于检测-分割架构的图像篡改盲取证方法

Info

Publication number: CN113570540A
Application number: CN202010350900.4A
Authority: CN
Inventors: 周大可; 张志伟; 吴子涵
Original assignee: Shanghai Shuntong Technology Co ltd
Current assignee: Shanghai Shuntong Technology Co ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2021-10-29

Abstract

本发明公开了一种基于检测‑分割架构的图像篡改盲取证方法，属于深度学习及计算机视觉领域。该方法从语义分割的角度来处理图像的篡改检测问题，采用改进的Mask R‑CNN网络进行篡改区域检测与区域分割。在数据预处理阶段，对原始图片进行数据增强，增强样本丰富性。在特征提取阶段，新增一条自下而上的路径实现多级特征信息的融合，进一步获得充足的上下文语义信息。在RPN训练阶段，采用Focal Loss以解决正负样本不平衡问题，使网络更容易收敛。在后处理阶段，采用Soft‑NMS算法，以解决重叠检测框所造成的误检、漏检的情况，提高检测召回率。本发明方法实现了在复杂场景下对多种篡改(方式)图像进行盲取证，有效地提高了篡改区域的检测与定位精度。

Description

一种基于检测-分割架构的图像篡改盲取证方法

技术领域

本发明涉及数字图像取证、计算机视觉以及数字图像处理等领域，具体是一种在没有任何先验信息的情况下对数字图像进行真实性、完整性检测的方法。

背景技术

数字图像盲取证技术凭借其不依赖于任何先验信息、直接对图像内容进行取证而成为数字图像取证领域的一个研究重点。随着计算机技术和信息技术的发展，图像篡改变得越来越普及，篡改内容越来越多样，篡改手段越来越复杂，造成了对篡改图像进行盲取证的难度也日益加大。因此，需要研究强有力的盲取证算法，能够精确地对篡改图像进行真实性、完整性检测。

传统的图像篡改盲取证方法主要是采用“手工设计特征+分类器”的思路进行图像的真伪性检测。这类方法一定程度上解决了图像是否被篡改问题，能够以较为准确地分类篡改图像和真实图像，但对于更高阶的任务——篡改区域的定位与分割等任务研究甚少。近年来，随着深度学习技术的兴起，目前已提出多种基于深度学习的图像篡改盲取证算法，这些方法依靠深度神经网络强大的数据拟合和学习能力，自动地提取图像特征来检测与定位篡改区域。但由于篡改内容的多样性以及篡改方式的复杂性，这些方法通常难以精确地定位图像中的篡改区域。例如，基于经典的Faster R-CNN网络，Adobe公司在2018年提出了当前性能最好的篡改区域检测方法，但方法只能给出篡改区域的概略位置，并且对于大尺度的区域篡改，经常会发生漏检或误检。此外，基于深度学习的方法大多采用图像块训练，检测方式固化。

本专利从语义分割的角度来处理篡改区域检测问题，提出基于检测-分割架构的图像篡改盲取证算法，采用Mask R-CNN网络结构，同时执行篡改区域检测与篡改区域分割，以提高篡改区域的定位精度。

发明内容

本发明的目的，在于针对现有的基于深度学习图像篡改盲取证算法所存在的篡改区域定位不精确、检测方式固化等问题，提出基于检测-分割架构的图像篡改盲取证算法。算法从篡改区域分割的角度出发，在Mask R-CNN基础上，改进特征提取网络以获得多尺度的信息融合，使用focal loss损失函数处理样本不平衡问题，引入改进的非极大值抑制算法来提高检测召回率，从而改善网络对于篡改区域的检测与定位精度。

为了达成上述目的，本发明所采用的技术方案是：

一种基于检测-分割架构的图像篡改盲取证方法，包括如下具体步骤：

步骤1：图像数据预处理，即对篡改图像数据集CASIA和Columbia数据集中的图像进行增强预处理，并标注图像得到篡改区域二值模板，划分训练集、验证集和测试集；

步骤2：设计检测-分割网络，即在Mask R-CNN基础上，针对篡改区域特性，新增一条自下而上、侧向连接的路径以获得多尺度的信息融合，更好捕捉篡改区域位置；

步骤3：计算网络的损失函数，即在网络的RPN阶段选用Focal loss损失函数以处理样本类别不平衡问题，为整体网络设计损失函数以满足检测-分割任务的需要；

步骤4：训练网络，即选择优化器以及设置超参数，利用训练集和验证集对步骤2和步骤3中所设计的检测-分割网络进行训练。

步骤5：网络输出后处理，即将测试集中待检测图片输入训练好的检测-分割网络，采用非极大值抑制法去除重叠程度较高的预测框，进而得到最终篡改区域分割结果。

进一步的，所述步骤1中的数据预处理包括：随机旋转、随机裁剪、随机亮度、饱和度和对比度变化以及随机水平翻转等操作，所述的训练集、验证集和测试集按照6:2:2划分。

进一步的，所述的步骤2中的Mask R-CNN结构生成多种尺度特征图{C2，C3，C4，C5}，并采用特征金字塔结构生成特征表示{P2，P3，P4，P5}。而本发明在特征金字塔基础上新增一条自下而上的路径，并进行侧向连接，生成一组新的特征表示{N2，N3，N4，N5}，以实现多级尺度信息的进一步融合。

进一步的，所述步骤3中的损失函数为Focal Loss形式为：

FL(g_i)＝-α(1-g_i)^γlog(g_i)

其中，α为权重因子，γ为聚焦参数，g_i代表anchor i为篡改区域的概率。

进一步的，所述步骤4中所述的优化器为SGD优化器，所述的超参数包括学习率、batch_size、学习率衰减。

进一步的，所属的非极大值抑制算法为Enhanced-NMS算法，Enhanced-NMS算法采用基于高斯加权的置信得分重置函数，定义为：

式中，σ是高斯函数的标准差，置于0.5。此外，Enhanced-NMS算法每一步的计算复杂度为O(N)，N为图片中检测框的数量。

有益效果

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1.本发明通过新增一条自下而上、侧向连接的路径，可以充分融合多级尺度特征信息，达到局部信息与上下文语义信息融合的目的，更好地定位篡改区域。

2.本发明在RPN网络的训练阶段，采用Focal Loss损失函数，可以有效处理正负样本不平衡问题。

3.本发明采用新的非极大值抑制算法，通过在检测框置信得分中设置合适衰减函数，有效处理检测框重叠以及漏检问题，进一步提高检测召回率和篡改区域定位精度。

附图说明

为了更清楚地说明本发明的技术方案，下面将对技术方案描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的整体流程图

图2是本发明的改进的特征金字塔结构示意图

图3是本发明的侧向连接示意图

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

如图1所示，是本发明算法的基本流程，具体步骤如下：

如图1所示，一种基于检测-分割架构的图像篡改盲取证方法，具体步骤如下：

步骤1：图形数据预处理，本实施例的数据图像使用CASIA2和Columbia公开分割数据集的5303张图片，使用标图软件Labelme标出其篡改区域Mask。原始图像和Mask图像尺寸固定为1024*1024，对图片进行随机缩放、翻转、裁剪、抖动等数据增强的方法提高样本的丰富性，并做归一化处理以加快卷积网络的收敛速度。将数据集按照6:2:2划分训练集、验证集与测试集。其中3183张图片为训练集、1060张验证集和1060张图片为测试集。

步骤2：设计检测-分割网络，本实施例的检测-分割网络采用Mask R-CNN的基本架构，并使用resnet101结构，生成多种尺度特征图{C2，C3，C4，C5}。{C2，C3，C4，C5}的尺寸分别为输入图像进行2，4，8，16倍下采样。在特征融合阶段，原有的FPN特征级别{P2，P3，P4，P5}为{C2，C3，C4，C5}层进行自上而下实现特征融合。{P2，P3，P4，P5}仅实现了高层特征信息的融合，缺乏低层特征信息，因此我们改进原有的特征金字塔结构，新增一条自下而上的路径，进一步实现低层与高层信息融合。改进的特征金字塔结构如图2所示。

我们的路径增强从P2开始，到P5逐层进行以2为倍数的下采样并横向连接。我们使用{N2，N3，N4，N5}表示与{P2，P3，P4，P5}相对应的新的特征级别，值得注意的是N2就是P2，未加任何处理机制。正如在图3中所展示的那样，每一层特征映射Ni首先经过3*3卷积层，分辨率降为原来的1/2，然后通过横向连接特征图Pi+1，与每一个下采样像素点叠加，然后在对融合的特征图进行3*3卷积处理，生成新的特征图Ni+1，用于后续网络。整个特征图生成是一个迭代的过程，持续到P5截止。在构建过程中，我们始终使用256通道的feature map，所有的卷积层后面都有一个Relu激活函数。最终，所有的提案都从新生成的特征集合{N2，N3，N4，N5}中选取。

改进的特征金字塔结构将提取特征输入至区域提取网络(Region Proposal Net，RPN)和候选区域对准层(ROIAlign)。RPN网络生成候选区域ROI(Region of Interest)并映射到特征图上，候选区域对准层根据RPN网络得到的ROI生成固定尺寸特征图(featuremap)。全连接层(Full Connected Layer)对固定尺寸的feature map进行分类、边界框回归；全卷积(Fully Convolutional Net,FCN)网络对ROI的进行像素级预测。

步骤3：计算网路的损失函数，为了解决正负样本不平衡问题，本发明在RPN网络阶段训练阶段，采用Focal Loss损失函数以替代原有交叉熵分类损失。其形式为：

FL(g_i)＝-α(1-g_i)^γlog(g_i)

在公式中，α为权重因子，γ为聚焦参数，(1-gi)γ为调制因子。这里有两个重要的特性：(1)当一个样本被错误分类，gi很小，调制因子(1-gi)γ趋于1，也就是说，与原始损失函数相比，没有显著变化；当gi趋向于1(分类正确且样本易于分类)时，调制因子(1-gi)γ趋向于0，这意味着对总损耗的贡献很小。(2)另一个重要的性质是，当γ＝0时，Focal Loss就是CE损失，当γ增大时，调制因子(1-gi)γ增大。

我们定义损失函数分为两个部分：RPN网络损失和每一个ROI输出的损失。RPN网络中，利用特征提取层提取的特征，生成候选框并采用非极大值抑制算法对候选框进行筛选。形式上，RPN网络的损失定义为：

其中，gi代表anchor i在mini batch中是潜在篡改区域的概率，gi*代表anchor i在ground-truth中是正样本，fi，fi*分别是anchor i和ground-truth中的四维坐标，LFL代表RPN网络的分类Focal Loss损失；Lreg代表边界框回归的平滑L1损失，Ncls代表mini-batch大小，Nreg代表anchor的数量，λ为超参数。在本专利中，超参数λ设为10。，RPN搜索的是可能出现拼接篡改对象的区域。

网络的总损失，定义为：

L_mrcnn＝L_cls+L_bbox+L_mask

其中，Lcls代表分类交叉熵损失，Lbbox代表真实类别的回归损失，Lmask代表Mask分支的分割损失。

步骤4：训练并获得优化的网络模型，本实施例训练时的超参数都采用如下相同设置：batch_size设定为4，训练优化方法采用随机梯度下降法，采用五种尺度(8*8，32*32，128*128，256*256，512*512)以及三种比例(1:2，1:1，2:1)的锚点anchor。ROI对准层输出尺寸固定到7*7*1024，掩码Mask分支输出的mask分辨率为28*28。设置IOU(Intersectionover Union)阈值为0.7，表示锚点为正样本(潜在的篡改区域)，0.3为负样本(真实的图像区域)。训练采用先训练分类层、回归层和掩码层组成的头部框架，再整体微调的策略，缩短网络收敛的时间。头部训练200epoch，整体网络微调50epoch，初始学习率设为0.001，200epoch后降为0.0001。

步骤5：本实施例在测试阶段，采用新的非极大值抑制算法Enhanced-NMS，以提高检测召回率。传统的NMS算法可以通过以下的置信得分重置函数表达：

本发明对传统的NMS算法置信得分重置函数进行改进，考虑到越是与检测框M高度重叠的框，越有可能出现假阳性结果，它们的分数衰减应该越厉害。因此，提出基于高斯加权的置信得分重置函数，表达式如下：

式中，σ是高斯函数的标准差，在本章中置于0.5。此外，Enhanced-NMS算法每一步的计算复杂度为O(N)，N为图片中检测框的数量。对于N个检测框，Soft-NMS复杂度为O(N2)，与传统的NMS算法相同，并不增加计算量。

在训练完成后，我们使用Enhanced-NMS算法，从测试集中任选一张测试图片输入到语义分割网络模型中，加载步骤1-4中训练好的模型权重进行分割，网络输出端得到篡改区域位置、置信得分以及篡改Mask。

以上实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种基于检测-分割架构的图像篡改盲取证方法，包括如下具体步骤：

2.根据权利要求1所述基于检测-分割网络的图像篡改盲取证方法，其特征在于，所述步骤1中的数据预处理包括：随机旋转、随机裁剪、随机亮度、饱和度和对比度变化以及随机水平翻转等操作，所述的训练集、验证集和测试集按照6:2:2划分。

3.根据权利要求1所述基于检测-分割网络的图像篡改盲取证方法，其特征在于，所述的步骤2中的Mask R-CNN结构生成多种尺度特征图{C2，C3，C4，C5}，并采用特征金字塔结构生成特征表示{P2，P3，P4，P5}。而本发明在特征金字塔基础上新增一条自下而上的路径，并进行侧向连接，生成一组新的特征表示{N2，N3，N4，N5}，以实现多级尺度信息的进一步融合。

4.根据权利要求1所述基于检测-分割网络的图像篡改盲取证方法，其特征在于，所述步骤3中的损失函数为FocalLoss形式为：

FL(g_i)＝-α(1-g_i)^γlog(g_i)

5.根据权利要求1所述基于检测-分割网络的图像篡改盲取证方法，其特征在于，所述步骤4中所述的优化器为SGD优化器，所述的超参数包括学习率、batch_size、学习率衰减。

6.根据权利要求1所述基于检测-分割网络的图像篡改盲取证方法，其特征在于，所属的非极大值抑制算法为Enhanced-NMS算法，Enhanced-NMS算法采用基于高斯加权的置信得分重置函数，定义为：