CN115063373A

CN115063373A - 基于多尺度特征智能感知的社交网络图像篡改定位方法

Info

Publication number: CN115063373A
Application number: CN202210730860.5A
Authority: CN
Inventors: 高赞; 陈圣灏; 李华刚; 张蕊; 谭文; 马述杰; 聂礼强
Original assignee: Shandong University; Qingdao Haier Smart Technology R&D Co Ltd; Taihua Wisdom Industry Group Co Ltd; Shandong Institute of Artificial Intelligence
Current assignee: Shandong University; Qingdao Haier Smart Technology R&D Co Ltd; Taihua Wisdom Industry Group Co Ltd; Shandong Institute of Artificial Intelligence
Priority date: 2022-06-24
Filing date: 2022-06-24
Publication date: 2022-09-16
Anticipated expiration: 2042-06-24
Also published as: CN115063373B

Abstract

本发明公开了一种基于多尺度特征智能感知的社交网络的图像篡改定位方法，实现了基于对所有的图像篡改定位数据集的高效篡改定位；方法的具体步骤如下：对篡改图像预处理，提取边缘Groundtrhth图像，利用由sobel算子引导提取边缘特征然后采用多尺度边缘导向的注意力机制，在边缘伪影不一致的基础上挖掘篡改的粗略定位信息；构建多尺度上下文感知融合模块，利用此模块在不同的由边缘监督的尺度上进行局部和全局的搜寻，突出篡改和非篡改之间的差异；进行篡改信息的融合，输出的特征图通过样本不平衡损失来实现篡改区域的定位。本发明基于已知数据集可对其他数据集进行高效的篡改定位，能够有效地在不同篡改数据集上获得改善，并且获得极高的精度。

Description

基于多尺度特征智能感知的社交网络图像篡改定位方法

技术领域

本发明属于计算机视觉和模式识别技术领域，涉及一种基于多尺度特征智能感知的社交网络图像篡改定位方法。

背景技术

随着人们生活水平的提高，多媒体已经渗透到各个领域，数字图像已经成为媒体传播的重要载体。然而，随着越来越多的图像编辑工具的出现，操纵图像也变得越来越容易。图像编辑会导致原始信息被曲解，容易造成恐慌、干扰等问题。图1显示了处理图像和地面真实掩模的几个示例。在图1中，伪造的图像不会引起人们明显的注意。不同寻常的是，这类信息的广泛传播会对社会造成极大的危害，因此找到伪造区域是图像取证中必不可少的任务。目前，与篡改检测相关的方法正在逐渐出现。到目前为止，传统的定位方法主要采用YCRCB特征、双JPEG压缩特征、CFA噪声域特征等手工制作的特征。但这些方法精度低，通用性差。其中许多只能作为单一篡改类型的检测方法。在实际情况下，这种影响并不显著。随着深度学习的发展，越来越多的学者将深度学习技术应用到篡改检测中，利用卷积神经网络(CNN)从RGB域自动学习篡改特征。同时，他们可以得到比传统检测性能更好的算法。然而，随着篡改技术的发展，篡改检测变得越来越困难，很难在图像中找到更明显的痕迹。CNN在识别图像时，通过大量的数据集先验知识对其进行训练，获取语义信息进行识别，但图像被篡改的区域可能在任何地方被篡改。

在篡改操作中，拼接、复制-移动和修复是三种常用的方法，但它们都有这些不同的特点。拼接图像是将图像上选定的区域复制到不同的图像上，复制-移动图像是将相同的图像复制粘贴到一起，修复是通过计算机技术从图像中去除一系列的内容。同时，在一些真实感和伪造性的图片中，会对不一致的区域进行模糊处理等后处理方法。这给篡改检测带来了很大的麻烦。目前，有许多解决方案着重于单一类型的篡改，通用的篡改检测仍然还是巨大的挑战。

发明内容

本发明提供了一种基于多尺度特征智能感知的社交网络的篡改定位方法；能够有效地在不同篡改数据集上获得改善，并且获得极高的精度。

该方法具体包含以下步骤：

步骤1对篡改图像预处理，采用Imagenet对图像预训练，同时在篡改数据集中采用图像增强方法增强篡改区域的识别，

将图像以及GroundTruth双线性插值成512×512大小的尺寸作为输入，提取边缘Groundtrhth图像；

步骤2将resnet50深度神经网络作为特征提取器，利用由sobel算子引导提取边缘特征然后采用多尺度边缘导向的注意力机制，在边缘伪影不一致的基础上挖掘篡改的粗略定位信息；

步骤3构建多尺度上下文感知融合模块，利用此模块在不同的由边缘监督的尺度上进行局部和全局的搜寻，突出篡改和非篡改之间的差异；

步骤4进行篡改信息的融合，输出的特征图通过样本不平衡损失来实现篡改区域的定位。

2、根据权利要求1所述的基于多尺度特征智能感知的社交网络图像篡改定位方法；其特征在于，所述多尺度边缘导向的注意力机制包括两个部分，边缘提取和边缘融合，具体步骤如下：

2-1)resnet各自不同残差块的特征通过sobel层进行增强后，得到相关的边缘特征，并通过3×3卷积将通道统一为256，再经过1×1卷积和Sigmoid后得到生成的边缘预测图e_i,并与通过GroundTruth生成的mask进行监督，其中每一尺度r_i特征操作如下：

2-2)求取最终融合边缘能力的特征；将有着边缘监督感知的特征拼接后，通过1×1卷积得到B，主体特征分别通过1×1卷积得到A1和A2，使用一个边缘感知注意力的方式来增强特征主体的边缘，聚合边缘方面的上下文信息，其中公式如下所示：

其中其中F是边界篡改感知的注意力图；主体特征上每个位置j都受到边缘特征位置i的影响,确保更正确的定位篡改的区域；

2-3)将此注意力图F乘到原来的特征通过另外1×1卷积得到的特征A2，改变形状然后与主体特征进行相加，得到最终融合边缘能力粗略定位篡改区域的特征。

优选的，所述多尺度上下文感知融合模块，包含上下文感知与融合过程，具体如下：

3-1)上下文感知具体由四个多尺度探索分支组合而成，上下文感知需要在每级特征上进行操作，每个分支都首先包含了一个3×3卷积得到r_i′

3-2)采取用于局部特征提取的3个卷积进行卷积，分别是非对称卷积1×k_i,k_i×1和对称卷积k_i×k_i，再将特征进行相加来增强非语义信息的提取能力，表示如下：

k_i表示第i个分支的卷积核大小，Relu表示非线性操作，BN表示批次正则化处理，最终输出第i层的特征s_i；

3-3)最后通过空洞率r_i的3×3卷积进行输出，将k_i的i∈{1,2,3,4}设置为1,3,5,7，在空洞率上r_i的i属于{1,2,3,4}四个分支设置为{1,2,4,8}，每个卷积过后经过批处理归一化层和relu线性操作，得到局部和全局的特征；

3-4)将每一分支出来的特征与下一分支的相加寻找全局特征，得到的4个分支特征{s1，s2，s3，s4}通过拼接得到经过局部和全局搜寻后的特征，表示如下：

3-5)将多尺度边缘导向特征通过残差学习将并没有注意到的多尺度细节特征进行添加，逐步细化特征输出，得到最终预测图。

优选的，所述步骤3-5具体步骤如下：

3-5-1)从最深处多尺度边缘导向的粗糙特征开始，将多尺度中已经预测好的粗篡改区域删除，然后引导网络依次发现不同尺度上补充的目标区域和细节，进行相加，第i个补充分支的反向注意权重Ai是通过减去i+1分支的上采样预测图获得，具体表示如下：

3-5-2)将反向注意权重和分支上充分搜寻的特征进行相乘的操作，在浅层特征中将粗预测图上篡改显著注意的区域进行移除，再将上一级分支的特征加回到粗特征上；

3-5-3)使用残差学习来弥补预测的篡改图和地面真实之间的误差，

具体来说，对每一个补充分支进行上采样得到原图大小，然后进行深度监督来学习残差特征，其中深度监督可表示为：

式中：G为GroundTruth。

优选的，所述多尺度边缘导向的注意力机制和多尺度上下文感知融合模块，都通过如下损失函数约束，通过最小化损失函数，从而确定最优的网络参数；

式中：λ₁为0.2，λ₂为0.8，

为预测图，p_t是篡改像素预测的概率，e为边缘的GroundTruth，

为边缘的与预测图。

本发明的优点和有益效果：

本发明提供了一种基于多尺度特征智能感知的社交网络的篡改定位方法用于一般的图像处理定位任务，将RGB流和边界伪影流中的多尺度特征结合在一个统一的框架中进行研究。可以同时检测拼接、复制-移动和修复等篡改操作，基于不同尺度的边缘信息，设计了一种多尺度边缘引导注意模块，自适应挖掘不一致篡改信息。本发明还通过多尺度上下文感知融合模块来感知融合主流上篡改缺失的信息，实现从粗到细的过程，在逐渐细化的同时，对RGB、边界伪影和搜索细化模块的参数进行联合优化，充分挖掘它们之间的潜在关系。

附图说明

图1为本发明的结构图；

图2为模型性能展示，前两行为拼接图像，中间两行为复制粘贴图像，后两行是修复图像。

图3为在高斯模糊以及JPEG压缩攻击下的测试，其中，(a)高斯模糊的攻击测试，(b)JPEG压缩下的攻击测试。

具体实施方式

下面结合附图对本发明作进一步的描述；

实施例

如图1所示，基于多尺度边缘导向的搜寻注意网络的篡改定位方法的操作流程图，该方法的操作步骤包括：

步骤1对篡改图像预处理

由于篡改数据集样本数较少，我们采用Imagenet预训练，同时在篡改数据集中我们采用随机翻转增强对比度亮度等图像增强方法来增强篡改区域的识别，最后将图像以及GroundTruth双线性插值成512×512大小的尺寸作为输入，同时由于边缘检测的原因，我们使用opencv等工具通过canny算法等方法来实现边缘Groundtrhth图像的有效提取，canny算法总共有4个步骤，

第一步，图像降噪。我们知道梯度算子可以用于增强图像，本质上是通过增强边缘轮廓来实现的，也就是说是可以检测到边缘的。但是，它们受噪声的影响都很大。那么，我们第一步就是想到要先去除噪声，因为噪声就是灰度变化很大的地方，所以容易被识别为伪边缘。

第二步，计算图像梯度，得到可能边缘，计算图像梯度能够得到图像的边缘，因为梯度是灰度变化明显的地方，而边缘也是灰度变化明显的地方。当然这一步只能得到可能的边缘。因为灰度变化的地方可能是边缘，也可能不是边缘。这一步就有了所有可能是边缘的集合。

第三步，非极大值抑制。通常灰度变化的地方都比较集中，将局部范围内的梯度方向上，灰度变化最大的保留下来，其它的不保留，这样可以剔除掉一大部分的点。将有多个像素宽的边缘变成一个单像素宽的边缘。即“胖边缘”变成“瘦边缘”。

第四步，双阈值筛选。通过非极大值抑制后，仍然有很多的可能边缘点，进一步的设置一个双阈值，即低阈值(low)，高阈值(high)。灰度变化大于high的，设置为强边缘像素，低于low的，剔除。在low和high之间的设置为弱边缘。进一步判断，如果其领域内有强边缘像素，保留，如果没有，剔除。

这样做的目的是只保留强边缘轮廓的话，有些边缘可能不闭合，需要从满足low和high之间的点进行补充，使得边缘尽可能的闭合。

同时为了在进行验证时可以将图像转换为原图大小，我们同时记录了每张图像的原本的尺寸参数输入到网络，因此通过数据处理我们模型的输入为固定大小512×512的图像以及GroundTruth。

在步骤1的基础上将篡改图像作为模型输入；选择基于多尺度边缘导向的网络的原因是篡改图像在篡改的过程中会出现明显的边缘伪影，因此边缘伪影是非常重要的篡改线索，为了让网络关注篡改的非语义信息，我们需要边缘的线索来定位篡改的区域部分，同时在不同尺度上边缘线索也会呈现不同的变化，我们将不同尺度通过sobel算子来提取边缘信息，之后我们将不同尺度上的边缘线索进行融合，通过边缘注意机制来引导篡改区域的修正。这样可以充分引导和挖掘篡改信息的提取。

网络选择：将resnet50深度神经网络作为特征提取器，因为resnet50是拥有残差特性的卷积网络，即对输入图像执行多个残差卷积运算操作，由于层次化的结构，使得我们可以选择性获得对我们更有帮助的的图像信息，选择resnet50主要由于参数量小，收敛速度更快，处理这些运算并结合所有结果将获得更好的图像表示，且在低维度上就可进行上述聚合，不会损失表示能力；而且在高维中，更容易处理局部信息；计算资源消耗少，训练速度快；通过多尺度边缘导向模块引导篡改区域的发现，通过多尺度感知融合专注于篡改区域的搜索，最后通过细化来完善图像的细节特征，详细的模型框图如图1所示；

多尺度边缘导向的注意力机制：在篡改中，边缘部分为篡改区域的定位提供了重要的篡改线索，在之前的很多方法中都采取了边缘监督的策略，这些方法中，在提取方面大部分都是将简单的低级特征通过简单卷积进行提取，在与主干融合方面采用了普通的相加或者concat等操作，这些行为忽略了不同尺度特征的边缘挖掘作用，而且都没有充分体现边缘特征的潜在的定位能力，因此，在这项工作中，我们开发了一个由sobel算子引导提取边缘特征然后采用多尺度边缘导向的注意力机制，以更好在边缘伪影不一致的基础上挖掘篡改的粗略定位信息，我们的方法包括两个部分，边缘提取和边缘融合，在边缘提取上，不同于以外采用卷积提取的边缘，我们采用了sobel算子同时进行多尺度的特征提取，具体来说，resnet各自不同残差块的特征通过sobel层进行增强后，得到相关的边缘特征，为了借用不同类型的信息在网络上流动，充分利用多级的特征，我们通过3×3卷积将通道统一为256，之后在采取1×1卷积和Sigmoid后得到e_i,并通过GroundTruth生成的mask进行监督，其中每一尺度r_i特征操作如下：

其中F是边界篡改感知的注意力图，其中主干特征上每个位置j都受到边缘特征位置i的影响。将此注意力图与主干网络通过另一个1×1卷积得到的特征进行相乘，最后再将通过卷积最后和最终的特征进行相加，得到最终融合边缘能力的特征。其中F是边界篡改感知的注意力图，计算过程如下：

其中r4特征上每个位置j都受到边缘特征位置i的影响,来确保更正确的定位篡改的区域，最后我们将此注意力图乘到原来的特征通过另外1×1卷积得到的特征后，改变形状然后与原特征进行相加，得到最终融合边缘能力粗略定位篡改区域的特征。

多尺度上下文感知融合模块：虽然通过多尺度边缘导向的注意力会更加有效的定位篡改的区域，但是只能依靠篡改信息来进行粗略的定位，对内部细节的地方改善性不强，缺少浅层多尺度特征所隐藏的篡改信息，因此基于此，我们需要对细节的地方，即在明显定位以外继续寻找特征进行改善，因此为了寻找遗漏的特征，同时为了充分利用多尺度特征，我们增加了一个多尺度上下文感知融合模块，这个模块在不同的由边缘监督的尺度上进行局部和全局的搜寻，更加明显突出篡改和非篡改之间的差异，然后进行篡改信息的融合，这种效果对我们的篡改定位的补充是非常有利的。这个模块总体包含了两个方面：上下文感知与融合过程，其中上下文感知在每级特征上进行操作的，上下文感知具体由四个多尺度探索分支组合而成，每个分支包括用于信道缩减的3×3卷积，一个用于特征寻找的搜寻模块，以及最后用于感知的3×3卷积，具体来说，每个分支都首先包含了一个3×3卷积，接下来为了更进一步防止特征的遗漏，以及为了增强骨干特征的能力，我们分别采取用于局部特征提取的3个卷积，分别是1×k_i,k_i×1和k_i×k_i进行卷积，相对对纵向以及横向的特征进行增强更加注重非语义的特征，然后再将特征进行相加表示如下：

最后在通过空洞率r_i的3×3卷积进行输出，我们将k_i的i设置为1,3,5,7，在空洞率上r_i的i属于{1,2,3,4}四个分支设置为{1,2,4,8},每个卷积过后都是批处理归一化层和relu线性操作，最后充分得到局部和全局的特征，同时我们将每一分支出来的特征与下一分支的相加来更有效的在细节基础上去寻找全局特征，最后我们将得到的4个分支特征{s1，s2，s3，s4}通过拼接得到最终经过局部和全局搜寻后的特征，表示如下：

接下来我们需要将已经经过详细搜寻的多尺度信息来融合主流特征来进行补充从而改善模型，但是与浅层特征的简单相加会降低深层特征预测的可信度，我们将多尺度边缘导向特征通过残差学习将并没有注意到的多尺度细节特征进行添加，达到一个互补的作用，从而逐步细化特征输出，具体来说，我们从最深处多尺度边缘导向的粗糙特征开始，先将多尺度中高端已经预测好的粗篡改区域删除，然后引导网络依次发现不同尺度上补充的目标区域和细节，进行相加，这种自顶向下的擦除方式可以将粗篡改区域进行细化，慢慢的包含细节的完整以及高分辨率的显著图，如图1所示,第i个分支的反向注意weight是通过减去i+1分支的上采样预测图获得，具体表示如下：

我们将此反向注意权重和分支上充分搜寻的特征进行相乘的操作，在浅层特征中将粗预测图上篡改显著注意的区域进行移除，最后我们再将此特征加回到粗特征上，进行遗漏特征的补充。之后我们需要使用残差学习来弥补预测的篡改图和地面真实之间的误差，具体来说，我们对每一个补充分支进行上采样得到原图大小，然后进行深度监督来学习残差特征，其中深度监督可表示为：

特别的，所述多尺度边缘导向的注意力机制和多尺度上下文感知融合模块，都通过如下损失函数约束，通过最小化损失函数，从而确定最优的网络参数；

网络模型要实现的功能有两个，一是网络中实现边缘图的定位监督，通过边缘图的监督后，使模型的多尺度分支可以有寻找到边缘的信息，篡改图像在篡改的过程中会出现明显的边缘伪影，因此边缘伪影是非常重要的篡改线索，我们在将边缘进行监督可以非常有效的定位篡改区域，在优化过程中，我们采用集合相似度度量函数损失(DICE LOSS)来优化使得它们越来越相似，公式如下：

原因是因为篡改的边缘区域甚至篡改区域与非篡改区域是不平衡的，使用交叉熵LOSS会使得模型更偏向于预测非篡改像素，而这对于我们的任务来说是致命的，因此我们需要DICE LOSS来更有效的学习边缘的特征。

第二个功能是篡改区域的定位，尽管通过边缘的监督可以使得所学的特征专注于边缘的位置，但是我们还是需要篡改区域定位的显示，虽然在边缘监督带领下有效的发现篡改的区域，但是由于边缘注意是为了减少计算量而在低分辨率的图像上进行的，因此在细节方面的显示上其实并不完整，这次同时采用DICE LOSS和类别加权的FOCAL LOSS(对每个样本，根据其所属类别，进行类别再加权，这样一来，类别层面和样本层面都在考量之内，效果一般会更好。)来解决样本的不平衡问题，其中focal loss表示如下：

L_focal(p_t)＝-α_t(1-p_t)^γlog(p_t) (7)

其中按经验所得，pt为图像每个像素是篡改的概率，α设为0.25，y设为2，我们在补充细节的同时进行篡改区域监督得到最终的篡改定位结果。

在该网络的目标函数中，首先，边缘损失有效提取边缘篡改的特征，篡改区域损失使得所学特征具有更好的区分性，这两个损失函数在样本不平衡的优化上作了巨大的贡献，共同指导该网络参数的学习和优化，并通过最小化这些损失函数，从而确定最优的网络参数，总损失如下：

按经验所得，λ₁为0.2，λ₂为0.8，G为GroundTruth，

为预测图，p_t是篡改像素预测的概率，e为边缘的GroundTruth，

为边缘的与预测图。

为了验证本发明的有效性，在六个数据集上进行了评测，具体实验设置为：将CASIA2.0作为训练数据集，剩余的所有数据集作为测试数据集，分别进行预测图的F1分数评估。

数据集的定位情况如图2所示；经典图像篡改定位算法与本发明的性能比较如图3所示，图3的实验设置为：将CASIA2.0进行训练，其他数据集进行测试，实验设置60个epoch,采用优化方法Adam，默认学习率是1e-4，该优化方法会在训练时进行阶段式的学习率衰减；损失函数超参数设置为λ₁为0.2，λ₂为0.8；为了增强模型对目标域数据的拟合能力，我们采取了随机对比度增强，光照增强，饱和度增强和翻转操作；将训练好的模型测试时按照MVSS-Net的定位方法进行测试。

经典图像篡改定位算法与本发明的健壮性情况如图3所示，我们在casia2.0训练好的模型在defacto12k进行JPEG压缩和高斯模糊的健壮性测试，可以发现我们的模型健壮性的表现良好。表1为经典图像篡改算法与本发明在不同数据集上性能的比较。

从图2可以看出，我们模型的定位明显好于其他方法；从图3可以看出，本发明提出的基于多尺度边缘导向和上下文感知网络在不同的数据集上都具有较好的识别性能。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制；尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行修改或者等同替换，都不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多尺度特征智能感知的社交网络图像篡改定位方法；其特征在于，该方法具体包含以下步骤：

2.根据权利要求1所述的基于多尺度特征智能感知的社交网络图像篡改定位方法；其特征在于，所述多尺度边缘导向的注意力机制包括两个部分，边缘提取和边缘融合，具体步骤如下：

2-2)求取最终融合边缘能力的特征；将有着边缘监督感知的特征拼接后，通过1×1卷积得到B1，主体特征分别通过1×1卷积得到A1和A2，使用一个边缘感知注意力的方式来增强特征主体的边缘，聚合边缘方面的上下文信息，其中公式如下所示：

其中F是边界篡改感知的注意力图，B_1i表示B1的第i个位置，T表示转置，N表示所有的像素；主体特征上每个位置j都受到边缘特征位置i的影响,确保更正确的定位篡改的区域；

3.根据权利要求1所述的基于多尺度特征智能感知的社交网络图像篡改定位方法；其特征在于，所述多尺度上下文感知融合模块，包含上下文感知与融合过程，具体如下：

4.根据权利要求3所述的基于多尺度特征智能感知的社交网络图像篡改定位方法；其特征在于，所述步骤3-5具体步骤如下：

式中：G为GroundTruth。

5.根据权利要求1所述的基于多尺度特征智能感知的社交网络图像篡改定位方法；其特征在于，所述多尺度边缘导向的注意力机制和多尺度上下文感知融合模块，都通过如下损失函数约束，通过最小化损失函数，从而确定最优的网络参数；

式中：λ₁为0.2，λ₂为0.8，

为预测图，p_t是篡改像素预测的概率，e为边缘的GroundTruth，

为边缘的与预测图。