CN115578626A

CN115578626A - 基于混合注意力机制的多尺度图像篡改检测方法

Info

Publication number: CN115578626A
Application number: CN202210793450.5A
Authority: CN
Inventors: 刘文犀; 张皓; 李琦; 林心代; 于元隆
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2023-01-06

Abstract

本发明涉及一种基于混合注意力机制的多尺度图像篡改检测方法，包括以下步骤：步骤S1：获取篡改数据集并划分为训练集和测试集，然后对训练集中的篡改图像和标签进行数据预处理；步骤S2：构建融合通道注意力和空间注意力的混合注意力模块，增强篡改图像的语义信息，得到篡改区域的初始预测图；步骤S3：构建融合上下文信息的细化模块，使用多尺度特征对篡改区域的初始预测图进行细化；步骤S4：构建并训练基于混合注意力机制的多尺度图像篡改检测模型；步骤S5：将篡改图像输入到训练好的基于混合注意力机制的多尺度图像篡改检测模型中，输出对应的篡改区域掩码图。本发明有效地提高了篡改区域定位的准确性。

Description

基于混合注意力机制的多尺度图像篡改检测方法

技术领域

本发明涉及图像处理以及计算机视觉领域，具体涉及一种基于混合注意力机制的多尺度图像篡改检测方法。

背景技术

随着数字化技术的迅猛发展，数字图像凭借直观性和生动性的特点，在人们获取和传递信息的过程中承担着重要的载体作用，已然渗透在社会生活中的方方面面。然而，随着图像处理技术的不断更新与发展，出现了诸如Adobe Photoshop、美图秀秀等一系列功能强大的图像编辑软件。这使得一些未经专业图像处理技术培训的用户，也可以根据自己的需求轻松地对图像进行美化和娱乐，达到以假乱真的地步。

图像篡改，是指使用图像编辑软件处理原始图像，以改变图像的语义信息。常见的图像篡改包括三类：(1)复制-移动篡改：指将原图像中的某个区域裁剪后，移动到同一张图像的另一个区域；(2)拼接篡改：将一张图像上的某个区域复制并粘贴到另一张图像上；(3)移除篡改：将某张图像上某些的区域删除并使用与背景相同的区域来替换。为了篡改区域不易被察觉到，增强篡改图像的真实性，篡改图像往往会经过一系列旋转、压缩、边界处理、亮度调整等后处理操作，使得人眼难以识别出篡改区域。图像篡改检测的目标就是检测出不同篡改类型，并在像素级别精准地定位图像中的篡改区域。

随着图像篡改方式的多样化，篡改图像经过“精心”处理后，凭借肉眼观察往往难以识别篡改图像。早期研究人员使用传统方法对篡改图像进行特征提取，通过特征对比的分析方法实现图像篡改检测，或是通过在原始图像上嵌入秘密信息后提取水印或数字签名来判断图像是否被篡改过。然而现实生活中，我们无法事先预知图像的篡改类型，且这些传统方法具有较大的局限性，往往只针对某一种特定的图像属性，难以根据这些特征对多种或未知的篡改方式进行检测并精准地定位出被篡改的区域。因此，实现一种通用有效的图像篡改检测技术具有重要的现实意义和实用价值。

随着深度学习在语义分割、目标检测等领域中都取得了优异的成效，许多研究者也将深度学习技术应用到图像篡改检测中。图像篡改检测和语义分割任务有所不同，图像篡改检测对图像中的篡改区域进行识别。不同的篡改操作使得图像特征存在很大的差异，且篡改区域往往不规则，可能是多个语义级别目标的组合，又或是一个已经被移除的区域。因此，正确地分割篡改区域更多地取决于提取篡改特征，而不是语义内容。如何利用篡改区域和非篡改区域之间颜色、强度、和噪声分布存在差异的特点，设计和训练一个网络，使其能够对篡改区域实现精准定位具有一定的挑战性和研究意义。

发明内容

有鉴于此，本发明的目的在于提供一种基于混合注意力机制的多尺度图像篡改检测方法，有效地提高了对篡改区域定位的准确性。

为实现上述目的，本发明采用如下技术方案：

一种基于混合注意力机制的多尺度图像篡改检测方法，包括以下步骤：

步骤S1：获取篡改数据集并划分为训练集和测试集，然后对训练集中的篡改图像和标签进行数据预处理；

步骤S2：构建融合通道注意力和空间注意力的混合注意力模块，增强篡改图像的语义信息，得到篡改区域的初始预测图；

步骤S3：构建融合上下文信息的细化模块，使用多尺度特征对篡改区域的初始预测图进行细化；

步骤S4：构建并训练基于混合注意力机制的多尺度图像篡改检测模型；

步骤S5：将篡改图像输入到训练好的基于混合注意力机制的多尺度图像篡改检测模型中，输出对应的篡改区域掩码图。

进一步的，所述步骤S1具体为：

步骤S11:获取篡改数据集并按预设比例划分为训练集和测试集；

步骤S12:对训练集中的图像及标签进行数据增强来增加数据集中的样本数量；

步骤S13：对数据增强后的图像及标签进行预处理，包括大小缩放至固定大小，归一化操作，将数据转化为标准正态分布。

进一步的，所述步骤S2具体为：

步骤S21：将来自前序模块中维度为C×H×W的特征图F₄作为通道注意力模块的输入，其中C、H和W分别代表特征图的通道数、高度和宽度；通过改变特征图F₄的维度得到查询Q、键K、值V，Q、K、V的维度均为C×N，其中 N＝H×W表示图像的像素个数；

步骤S22：通过对Q和K的转置矩阵执行矩阵乘法计算相似度得到注意力权重，并采用Softmax层对权重进行归一化，得到通道注意力权重矩阵X，具体的表达式为：

其中，

表示矩阵乘法，Softmax(·)表示Softmax激活函数；X的维度为 C×C，其中每个元素x_ij代表第j个通道对第i个通道的影响；

然后，将得到的通道注意力权重矩阵X与值V相乘，并将其维度调整为C× H×W；通过残差结构将得到的结果和输入特征图F₄进行连接，以增强语义特征，获得通道注意力特征图F_c，具体的表达式为：

其中，γ为可学习的比例参数，初始化为1，F_c的维度为C×H×W；

步骤S23：将维度为C×H×W通道注意力特征图F_c作为空间注意力模块的输入，首先对输入的特征F_c分别应用三个1×1卷积层改变其通道数，并改变其维度得到三个新的查询Q′、键K′和值V′，其中Q′，K′的维度为C/8×N，V′的维度为C×N；具体的表达式为：

Q′＝w₁(F_c)+b₁

K′＝w₂(F_c)+b₂

V′＝w₃(F_c)+b₃

其中，w₁和b₁、w₂和b₂、w₃和b₃分别为三个不同1×1卷积层的权重和偏置；

步骤S24：通过对Q′的转置Q′^T和K′执行矩阵乘法计算相似度得到注意力权重，并采用Softmax层对权重进行归一化，得到空间注意力权重矩阵X′，具体的表达式为：

其中，

表示矩阵乘法，Softmax(·)表示Softmax激活函数。X′的维度为 N×N，其中每个元素x′_ij代表第j个像素点对第i个像素点的影响；

然后将得到的空间注意力权重矩阵X′的转置X′^T与值V′进行矩阵乘法，并将其维度调整为C×H×W。通过残差结构将得到的结果和通道注意力特征图F_c进行连接，以增强语义特征，获得空间注意力特征图F_p，具体的表达式为：

其中，γ′为可学习的比例参数，初始化为1，F_p的维度为C×H×W；

步骤S25：将S22步骤中得到的通道注意力图F_c和S24步骤中得到的空间注意力图F_p与输入的特征图F₄进行拼接，拼接后的特征图维度为3C×H×W，进而通过一个1×1卷积层改变其维度为C×H×W，具体的表达式为：

F′＝Concat(F₄，F_p，F_c)

F_m＝w₃(F′)+b₃

其中，Concat(·)表示特征在新的维度上进行拼接，w₃，b₃是1×1卷积层的权重和偏置，F_m为经过混合注意力模块后语义增强的特征图；

最后对F_m应用卷积核大小为7×7、填充为3的卷积层来得到篡改区域的初始预测图

进一步的，所述步骤S3具体为：

步骤S31：融合上下文信息的细化模块一共有三个输入，包括上一级别的特征图F_h、当前级别的特征图F_l、上一级别预测图

将上一级别预测图

上采样使其分辨率大小与当前级别的特征图F_l的大小一致，并使用Sigmoid层对其进行归一化；

然后将归一化后的结果及其取反后的结果与当前级别的特征图F_l逐元素相乘，分别生成前景注意力特征图F_fa和背景注意力特征图F_ba，计算公式如下：

F_fa＝F_l×y_up

F_ba＝F_l×(1-y_up)

其中U代表双线性上采样，Sigmoid(·)表示Sigmoid激活函数，×表示逐元素相乘；

步骤S32：融合上下文信息的细化模块包含两个上下文推理模块，将步骤 S31中得到的前景注意力特征图F_fa和背景注意力特征图F_ba以并行的方式送入上述的上下文推理模块，分别得到假阳性干扰F_fpd和假阴性干扰F_fnd；

步骤S33：调整上一级别的特征图F_h的维度与当前级别的特征图F_l的维度一致，对步骤S32得到的假阳性干扰F_fpd和假阴性干扰F_fnd进行逐元素相减来消除假阳性干扰、逐元素相加来消除假阴性干扰，从而修正上一级别的特征图F_h，得到更加细化的特征图F_r，其计算公式为：

F_up＝U(CBR(F_h))

F_r＝BR(F_up-αF_Fpd)

F_r＝BR(F_r+βF_fnd)

其中α和β为可学习的比例参数，初始化为1，CBR表示卷积、批归一化层和 ReLU激活函数的组合，BR表示批归一化层和ReLU函数的组合，U代表双线性上采样；

最后对F_r应用卷积核大小为7×7、填充为3的卷积层来得到细化后的预测图。

进一步的，所述上下文推理模块由四个上下文推理分支组成，每个分支将输入的特征图E依次经过一个3×3卷积层使其通道数缩减至原来的1/4，一个K_i×K_i卷积层进行局部特征提取，一个卷积核大小为3×3、扩张率为r_i的空洞卷积融合上下文信息，其中第i(i＝1，2，3，4)个分支的K_i和r_i分别为{1，3，5，7}和{1，2，4，8}；第 i(i＝1，2，3)个分支的输出都会被送入i+1个分支，使得特征图在更大的感受野下进一步被处理；最后在通道维度上对四个上下文推理分支的输出结果进行拼接，并经过一个3×3卷积进行特征融合得到干扰图E′，其计算公式为：

E_{i_1}＝w_{i_1}(E)+b_{i_1}

E_{i_3}＝w_{i_3}(E_{i_2})+b_{i_3}

E′＝w₄(Concat(E_{1_3}，E_{2_3}，E_{3_3}，E_{4_3}))+b₄

其中，E_{i_1}表示经过第i个分支中用于通道缩减的3×3卷积层后输出的特征， w_{i_1}和b_{i_1}对应其权重和偏置；E_{i_2}表示经过第i个分支中用于局部特征提取的 K_i×K_i卷积层后输出的特征，w_{i_2}和b_{i_2}对应其权重和偏置；E_{i_3}表示经过第i个分支中用于融合上下文信息的空洞卷积后输出的特征，w_{i_3}和b_{i_3}对应其权重和偏置；Concat(·)表示特征在新的维度上进行拼接，w₄和b₄对应于用于特征融合的卷积层的权重和偏置，E′表示得到的干扰图。

进一步的，所述步骤S4具体为：

步骤S41：以ResNet50作为基础网络架构，使用其特征提取网络对步骤S1 预处理之后的篡改图像进行特征提取，得到四个通道数不同的特征图X₁、X₂、X₃、 X₄；通过卷积层、批量归一化层、ReLU层将四个级别特征图的通道数缩减至原来的1/4得到多尺度特征图F₁、F₂、F₃、F₄；将特征图F₄作为混合注意力模块的输入，得到语义增强后的特征图F_m及篡改区域的初始预测图

将语义增强后的特征图F_m和多尺度特征图F₁、F₂、F₃以自顶向上的方式输入三个细化模块，分别得到三个细化后的特征图F_r ¹、F_r ²、F_r ³以及篡改区域预测图

选取第三个细化模块输出的预测图

作为最终的预测结果；

步骤S42：混合注意力模块的损失函数Loss_m通过将其输出的预测图

与对应的标签值y计算逐元素二值交叉熵损失函数loss_bce和逐元素交并比损失函数 loss_iou得到；

步骤S43：细化模块的损失函数Loss_f通过将其输出的预测图

与对应的标签值y计算加权的二值交叉熵损失函数loss_wbce和加权交并比损失函数loss_wiou得到；

步骤S44：基于混合注意力机制的多尺度图像篡改检测网络模型的总损失函数Loss_all公式如下：

其中，Loss_m表示混合注意力模块输出的损失，

表示第i个细化模块输出的损失；

根据基于混合注意力机制的多尺度图像篡改检测网络模型的总损失函数，利用反向传播方法计算图像篡改检测网络模型中各参数的梯度；

步骤S45：以批次为单位重复上述步骤S41至步骤S44，直至步骤S44中计算得到的总损失值收敛并趋于稳定，保存网络参数，完成基于混合注意力机制的多尺度图像篡改检测网络模型的训练过程。

进一步的，所述混合注意力模块的损失函数Loss_m如下：

Loss_m＝loss_bce+loss_iou

细化模块的损失函数Loss_f如下：

Loss_f＝loss_wbce+loss_wiou

其中

代表第k个细化模块输出的预测图，α_ij∈[0，1]表示每个像素被赋予的权重，A_ij表示像素点(i，j)周围的像素点。

进一步的，所述步骤S5具体为：将测试集中的图像输入到训练好的基于混合注意力机制的多尺度图像篡改检测模型中，并将其大小调整为原始篡改图像的尺寸，即可得到对应的篡改区域掩码图。

本发明与现有技术相比具有以下有益效果：

本发明利用混合注意力机制对图像特征进行语义信息的增强，定位出初始篡改区域，进而以自顶向上的方法对不同级别特征图进行细化，不断消除假阳性和假阴性干扰，有效地提高了对篡改区域定位的准确性。

附图说明

图1是本发明方法流程图；

图2是本发明一实施例中网络模型结构图；

图3是本发明一实施例中混合注意力模块结构图；

图4是本发明一实施例中细化模块结构图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

请参照图1-4，本发明提供一种基于混合注意力机制的多尺度图像篡改检测方法，包括以下步骤：

在本实施例中，所述步骤S1具体包括以下步骤：

步骤S11：采用篡改数据集CASIA，使用CASIAv2作为训练集，CASIAv1 作为测试集：训练集包括5123张图片，测试集包括921张图片；

步骤S12：对训练集中的图像及标签进行数据增强来增加数据集的样本数量，其中包括随机水平翻转和颜色抖动；

步骤S13：将步骤S12数据增强后的图像进行预处理，转化为图像篡改检测网络的输入。首先将图像的大小缩放至512×512像素，进而对数据进行归一化操作，将数据转化为标准正态分布；为了保证标签中篡改区域的大小及位置同篡改图像相对应，在每一步数据增强和图像预处理的同时也对标签进行同样的操作。

在本实施例中，所述步骤S2具体包括以下步骤：

步骤S21：将来自前序模块中维度为C×H×W的特征图F₄作为通道注意力模块的输入，其中C、H和W分别代表特征图的通道数、高度和宽度。通过改变特征图F₄的维度得到查询Q、键K、值V，Q、K、V的维度均为C×N，其中 N＝H×W表示图像的像素个数；

步骤S22：通过对Q和K的转置矩阵执行矩阵乘法计算相似度得到注意力权重，并采用Softmax层对权重进行归一化，得到通道注意力权重矩阵X。具体的表达式为：

其中，

表示矩阵乘法，Softmax(·)表示Softmax激活函数。X的维度为 C×C，其中每个元素x_ij代表第j个通道对第i个通道的影响；

然后，将得到的通道注意力权重矩阵X与值V相乘，并将其维度调整为C× H×W。通过残差结构将得到的结果和输入特征图F₄进行连接，以增强语义特征，获得通道注意力特征图F_c，具体的表达式为：

Q′＝w₁(F_c)+b₁

K′＝w₂(F_c)+b₂

V′＝w₃(F_c)+b₃

其中，

F′＝Concat(F₄，F_p，F_c)

F_m＝w₃(F′)+b₃

在本实施例中，所述步骤S3具体包括以下步骤：

将上一级别预测图

F_fa＝F_l×y_up

F_ba＝F_l×(1-y_up)

F_up＝U(CBR(F_h))

F_r＝BR(F_up-αF_fpd)

F_r＝BR(F_r+βF_fnd)

E_{i_1}＝w_{i_1}(E)+b_{i_1}

E_{i_3}＝w_{i_3}(E_{i_2})+b_{i_3}

E′＝w₄(Concat(E_{1_3}，E_{2_3}，E_{3_3}，E_{4_3}))+b₄

在本实施例中，所述步骤S4具体包括以下步骤：

步骤S41：以ResNet50作为基础网络架构，使用其特征提取网络对步骤S1 预处理之后的篡改图像进行特征提取，得到四个通道数分别为2048、1024、512、 256维的特征图X₁、X₂、X₃、X₄。通过卷积层、批量归一化层、ReLU层将四个级别特征图的通道数缩减至原来的1/4得到多尺度特征图F₁、F₂、F₃、F₄，其通道数分别为512、256、128、64维。将特征图F₄作为混合注意力模块的输入，得到语义增强后的特征图F_m及篡改区域的初始预测图

将语义增强后的特征图 F_m和多尺度特征图F₁、F₂、F₃以自顶向上的方式输入三个细化模块，分别得到三个细化后的特征图F_r ¹、F_r ²、F_r ³以及篡改区域预测图

选取第三个细化模块输出的预测图

作为最终的预测结果；

步骤S43：细化模块的损失函数Loss_f通过将其输出的预测图

其中，Loss_m表示混合注意力模块输出的损失，

表示第i个细化模块输出的损失；

根据基于混合注意力机制的多尺度图像篡改检测网络模型的总损失函数，利用反向传播方法计算图像篡改检测网络模型中各参数的梯度，并利用Adam优化算法更新参数；

步骤S45：以批次为单位重复上述步骤S41至步骤S44，直至步骤S44中计算得到的总损失值收敛并趋于稳定，一共训练了60个epoch。保存网络参数，完成基于混合注意力机制的多尺度图像篡改检测网络模型的训练过程。

进一步的，所述混合注意力模块的损失函数Loss_m如下：

Loss_m＝loss_bce+loss_iou

细化模块的损失函数Loss_f如下：

Loss_f＝loss_wbce+loss_wiou

其中

在本实施例中，所述步骤S5具体包括以下步骤：

步骤S51：将测试集中的图像输入到训练好的基于混合注意力机制的多尺度图像篡改检测模型中，并将其大小调整为原始篡改图像的尺寸，即可得到对应的篡改区域掩码图。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于混合注意力机制的多尺度图像篡改检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于混合注意力机制的多尺度图像篡改检测方法，其特征在于，所述步骤S1具体为：

步骤S13:对数据增强后的图像及标签进行预处理，包括大小缩放至固定大小，归一化操作，将数据转化为标准正态分布。

3.根据权利要求1所述的基于混合注意力机制的多尺度图像篡改检测方法，其特征在于，所述步骤S2具体为：

步骤S21：将来自前序模块中维度为C×H×W的特征图F₄作为通道注意力模块的输入，其中C、H和W分别代表特征图的通道数、高度和宽度；通过改变特征图F₄的维度得到查询Q、键K、值V，Q、K、V的维度均为C×N，其中N＝H×W表示图像的像素个数；

其中，

表示矩阵乘法，Softmax(·)表示Softmax激活函数；X的维度为C×C，其中每个元素x_ij代表第j个通道对第i个通道的影响；

然后，将得到的通道注意力权重矩阵X与值V相乘，并将其维度调整为C×H×W；通过残差结构将得到的结果和输入特征图F₄进行连接，以增强语义特征，获得通道注意力特征图F_c，具体的表达式为：

其中，γ为可学习的比例参数，F_c的维度为C×H×W；

Q′＝w₁(F_c)+b₁

K′＝w₂(F_c)+b₂

V′＝w₃(F_c)+b₃

其中，

表示矩阵乘法，Softmax(·)表示Softmax激活函数。X′的维度为N×N，其中每个元素x′_ij代表第j个像素点对第i个像素点的影响；

F′＝Concat(F₄，F_p，F_c)

F_m＝w₃(F′)+b₃

4.根据权利要求1所述的基于混合注意力机制的多尺度图像篡改检测方法，其特征在于，所述步骤S3具体为：

将上一级别预测图

F_fa＝F_l×y_up

F_ba＝F_l×(1-y_up)

步骤S32：融合上下文信息的细化模块包含两个上下文推理模块，将步骤S31中得到的前景注意力特征图F_fa和背景注意力特征图F_ba以并行的方式送入上述的上下文推理模块，分别得到假阳性干扰F_fpd和假阴性干扰F_fnd；

F_up＝U(CBR(F_h))

F_r＝BR(F_up-αF_fpd)

F_r＝BR(F_r+βF_fnd)

其中α和β为可学习的比例参数，初始化为1，CBR表示卷积、批归一化层和ReLU激活函数的组合，BR表示批归一化层和ReLU函数的组合，U代表双线性上采样；

5.根据权利要求4所述的基于混合注意力机制的多尺度图像篡改检测方法，其特征在于，所述上下文推理模块由四个上下文推理分支组成，每个分支将输入的特征图E依次经过一个3×3卷积层使其通道数缩减至原来的1/4，一个K_i×K_i卷积层进行局部特征提取，一个卷积核大小为3×3、扩张率为r_i的空洞卷积融合上下文信息，其中第i(i＝1，2，3，4)个分支的K_i和r_i分别为{1，3，5，7}和{1，2，4，8}；第i(i＝1，2，3)个分支的输出都会被送入i+1个分支，使得特征图在更大的感受野下进一步被处理；最后在通道维度上对四个上下文推理分支的输出结果进行拼接，并经过一个3×3卷积进行特征融合得到干扰图E′，其计算公式为：

E_{i_1}＝w_{i_1}(E)+b_{i_1}

E_{i_3}＝w_{i_3}(E_{i_2})+b_{i_3}

E′＝w₄(Concat(E_{1_3}，E_{2_3}，E_{3_3}，E_{4_3}))+b₄

其中，E_{i_1}表示经过第i个分支中用于通道缩减的3×3卷积层后输出的特征，w_{i_1}和b_{i_1}对应其权重和偏置；E_{i_2}表示经过第i个分支中用于局部特征提取的K_i×K_i卷积层后输出的特征，w_{i_2}和b_{i_2}对应其权重和偏置；E_{i_3}表示经过第i个分支中用于融合上下文信息的空洞卷积后输出的特征，w_{i_3}和b_{i_3}对应其权重和偏置；Concat(·)表示特征在新的维度上进行拼接，w₄和b₄对应于用于特征融合的卷积层的权重和偏置，E′表示得到的干扰图。

6.根据权利要求1所述的基于混合注意力机制的多尺度图像篡改检测方法，其特征在于，所述步骤S4具体为：

步骤S41：以ResNet50作为基础网络架构，使用其特征提取网络对步骤S1预处理之后的篡改图像进行特征提取，得到四个通道数不同的特征图X₁、X₂、X₃、X₄；通过卷积层、批量归一化层、ReLU层将四个级别特征图的通道数缩减至原来的1/4得到多尺度特征图F₁、F₂、F₃、F₄；将特征图F₄作为混合注意力模块的输入，得到语义增强后的特征图F_m及篡改区域的初始预测图