CN115578626A - 基于混合注意力机制的多尺度图像篡改检测方法 - Google Patents

基于混合注意力机制的多尺度图像篡改检测方法 Download PDF

Info

Publication number
CN115578626A
CN115578626A CN202210793450.5A CN202210793450A CN115578626A CN 115578626 A CN115578626 A CN 115578626A CN 202210793450 A CN202210793450 A CN 202210793450A CN 115578626 A CN115578626 A CN 115578626A
Authority
CN
China
Prior art keywords
attention
tampered
feature map
loss
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210793450.5A
Other languages
English (en)
Inventor
刘文犀
张皓
李琦
林心代
于元隆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN202210793450.5A priority Critical patent/CN115578626A/zh
Publication of CN115578626A publication Critical patent/CN115578626A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/95Pattern authentication; Markers therefor; Forgery detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于混合注意力机制的多尺度图像篡改检测方法,包括以下步骤:步骤S1:获取篡改数据集并划分为训练集和测试集,然后对训练集中的篡改图像和标签进行数据预处理;步骤S2:构建融合通道注意力和空间注意力的混合注意力模块,增强篡改图像的语义信息,得到篡改区域的初始预测图;步骤S3:构建融合上下文信息的细化模块,使用多尺度特征对篡改区域的初始预测图进行细化;步骤S4:构建并训练基于混合注意力机制的多尺度图像篡改检测模型;步骤S5:将篡改图像输入到训练好的基于混合注意力机制的多尺度图像篡改检测模型中,输出对应的篡改区域掩码图。本发明有效地提高了篡改区域定位的准确性。

Description

基于混合注意力机制的多尺度图像篡改检测方法
技术领域
本发明涉及图像处理以及计算机视觉领域,具体涉及一种基于混合注意力机 制的多尺度图像篡改检测方法。
背景技术
随着数字化技术的迅猛发展,数字图像凭借直观性和生动性的特 点,在人们获取和传递信息的过程中承担着重要的载体作用,已然渗 透在社会生活中的方方面面。然而,随着图像处理技术的不断更新与 发展,出现了诸如Adobe Photoshop、美图秀秀等一系列功能强大的 图像编辑软件。这使得一些未经专业图像处理技术培训的用户,也可 以根据自己的需求轻松地对图像进行美化和娱乐,达到以假乱真的地 步。
图像篡改,是指使用图像编辑软件处理原始图像,以改变图像的语义信息。 常见的图像篡改包括三类:(1)复制-移动篡改:指将原图像中的某个区域裁剪 后,移动到同一张图像的另一个区域;(2)拼接篡改:将一张图像上的某个区域 复制并粘贴到另一张图像上;(3)移除篡改:将某张图像上某些的区域删除并使 用与背景相同的区域来替换。为了篡改区域不易被察觉到,增强篡改图像的真实 性,篡改图像往往会经过一系列旋转、压缩、边界处理、亮度调整等后处理操作, 使得人眼难以识别出篡改区域。图像篡改检测的目标就是检测出不同篡改类型, 并在像素级别精准地定位图像中的篡改区域。
随着图像篡改方式的多样化,篡改图像经过“精心”处理后,凭借肉眼观察往 往难以识别篡改图像。早期研究人员使用传统方法对篡改图像进行特征提取,通 过特征对比的分析方法实现图像篡改检测,或是通过在原始图像上嵌入秘密信息 后提取水印或数字签名来判断图像是否被篡改过。然而现实生活中,我们无法事 先预知图像的篡改类型,且这些传统方法具有较大的局限性,往往只针对某一种 特定的图像属性,难以根据这些特征对多种或未知的篡改方式进行检测并精准地 定位出被篡改的区域。因此,实现一种通用有效的图像篡改检测技术具有重要的 现实意义和实用价值。
随着深度学习在语义分割、目标检测等领域中都取得了优异的成效,许多研 究者也将深度学习技术应用到图像篡改检测中。图像篡改检测和语义分割任务有 所不同,图像篡改检测对图像中的篡改区域进行识别。不同的篡改操作使得图像 特征存在很大的差异,且篡改区域往往不规则,可能是多个语义级别目标的组合, 又或是一个已经被移除的区域。因此,正确地分割篡改区域更多地取决于提取篡 改特征,而不是语义内容。如何利用篡改区域和非篡改区域之间颜色、强度、和 噪声分布存在差异的特点,设计和训练一个网络,使其能够对篡改区域实现精准 定位具有一定的挑战性和研究意义。
发明内容
有鉴于此,本发明的目的在于提供一种基于混合注意力机制的多尺度图像篡 改检测方法,有效地提高了对篡改区域定位的准确性。
为实现上述目的,本发明采用如下技术方案:
一种基于混合注意力机制的多尺度图像篡改检测方法,包括以下步骤:
步骤S1:获取篡改数据集并划分为训练集和测试集,然后对训练集中的篡 改图像和标签进行数据预处理;
步骤S2:构建融合通道注意力和空间注意力的混合注意力模块,增强篡改 图像的语义信息,得到篡改区域的初始预测图;
步骤S3:构建融合上下文信息的细化模块,使用多尺度特征对篡改区域的 初始预测图进行细化;
步骤S4:构建并训练基于混合注意力机制的多尺度图像篡改检测模型;
步骤S5:将篡改图像输入到训练好的基于混合注意力机制的多尺度图像篡 改检测模型中,输出对应的篡改区域掩码图。
进一步的,所述步骤S1具体为:
步骤S11:获取篡改数据集并按预设比例划分为训练集和测试集;
步骤S12:对训练集中的图像及标签进行数据增强来增加数据集中的样本数 量;
步骤S13:对数据增强后的图像及标签进行预处理,包括大小缩放至固定大小, 归一化操作,将数据转化为标准正态分布。
进一步的,所述步骤S2具体为:
步骤S21:将来自前序模块中维度为C×H×W的特征图F4作为通道注意力 模块的输入,其中C、H和W分别代表特征图的通道数、高度和宽度;通过改 变特征图F4的维度得到查询Q、键K、值V,Q、K、V的维度均为C×N,其中 N=H×W表示图像的像素个数;
步骤S22:通过对Q和K的转置矩阵执行矩阵乘法计算相似度得到注意力 权重,并采用Softmax层对权重进行归一化,得到通道注意力权重矩阵X,具 体的表达式为:
Figure BDA0003734688260000031
其中,
Figure BDA0003734688260000032
表示矩阵乘法,Softmax(·)表示Softmax激活函数;X的维度为 C×C,其中每个元素xij代表第j个通道对第i个通道的影响;
然后,将得到的通道注意力权重矩阵X与值V相乘,并将其维度调整为C× H×W;通过残差结构将得到的结果和输入特征图F4进行连接,以增强语义特征, 获得通道注意力特征图Fc,具体的表达式为:
Figure BDA0003734688260000033
其中,γ为可学习的比例参数,初始化为1,Fc的维度为C×H×W;
步骤S23:将维度为C×H×W通道注意力特征图Fc作为空间注意力模块的 输入,首先对输入的特征Fc分别应用三个1×1卷积层改变其通道数,并改变其 维度得到三个新的查询Q′、键K′和值V′,其中Q′,K′的维度为C/8×N,V′的维度 为C×N;具体的表达式为:
Q′=w1(Fc)+b1
K′=w2(Fc)+b2
V′=w3(Fc)+b3
其中,w1和b1、w2和b2、w3和b3分别为三个不同1×1卷积层的权重和偏 置;
步骤S24:通过对Q′的转置Q′T和K′执行矩阵乘法计算相似度得到注意力权重, 并采用Softmax层对权重进行归一化,得到空间注意力权重矩阵X′,具体的表 达式为:
Figure BDA0003734688260000041
其中,
Figure BDA0003734688260000042
表示矩阵乘法,Softmax(·)表示Softmax激活函数。X′的维度为 N×N,其中每个元素x′ij代表第j个像素点对第i个像素点的影响;
然后将得到的空间注意力权重矩阵X′的转置X′T与值V′进行矩阵乘法,并将其 维度调整为C×H×W。通过残差结构将得到的结果和通道注意力特征图Fc进行 连接,以增强语义特征,获得空间注意力特征图Fp,具体的表达式为:
Figure BDA0003734688260000043
其中,γ′为可学习的比例参数,初始化为1,Fp的维度为C×H×W;
步骤S25:将S22步骤中得到的通道注意力图Fc和S24步骤中得到的空间注 意力图Fp与输入的特征图F4进行拼接,拼接后的特征图维度为3C×H×W,进 而通过一个1×1卷积层改变其维度为C×H×W,具体的表达式为:
F′=Concat(F4,Fp,Fc)
Fm=w3(F′)+b3
其中,Concat(·)表示特征在新的维度上进行拼接,w3,b3是1×1卷积层的 权重和偏置,Fm为经过混合注意力模块后语义增强的特征图;
最后对Fm应用卷积核大小为7×7、填充为3的卷积层来得到篡改区域的初始 预测图
Figure BDA0003734688260000044
进一步的,所述步骤S3具体为:
步骤S31:融合上下文信息的细化模块一共有三个输入,包括上一级别的 特征图Fh、当前级别的特征图Fl、上一级别预测图
Figure BDA0003734688260000045
将上一级别预测图
Figure BDA0003734688260000046
上采样使其分辨率大小与当前级别的特征图Fl的大小 一致,并使用Sigmoid层对其进行归一化;
然后将归一化后的结果及其取反后的结果与当前级别的特征图Fl逐元素相 乘,分别生成前景注意力特征图Ffa和背景注意力特征图Fba,计算公式如下:
Figure BDA0003734688260000051
Ffa=Fl×yup
Fba=Fl×(1-yup)
其中U代表双线性上采样,Sigmoid(·)表示Sigmoid激活函数,×表示逐 元素相乘;
步骤S32:融合上下文信息的细化模块包含两个上下文推理模块,将步骤 S31中得到的前景注意力特征图Ffa和背景注意力特征图Fba以并行的方式送入上 述的上下文推理模块,分别得到假阳性干扰Ffpd和假阴性干扰Ffnd
步骤S33:调整上一级别的特征图Fh的维度与当前级别的特征图Fl的维度一 致,对步骤S32得到的假阳性干扰Ffpd和假阴性干扰Ffnd进行逐元素相减来消除 假阳性干扰、逐元素相加来消除假阴性干扰,从而修正上一级别的特征图Fh,得 到更加细化的特征图Fr,其计算公式为:
Fup=U(CBR(Fh))
Fr=BR(Fup-αFFpd)
Fr=BR(Fr+βFfnd)
其中α和β为可学习的比例参数,初始化为1,CBR表示卷积、批归一化层和 ReLU激活函数的组合,BR表示批归一化层和ReLU函数的组合,U代表双线性 上采样;
最后对Fr应用卷积核大小为7×7、填充为3的卷积层来得到细化后的预测图。
进一步的,所述上下文推理模块由四个上下文推理分支组成,每个分支将输 入的特征图E依次经过一个3×3卷积层使其通道数缩减至原来的1/4,一个Ki×Ki卷积层进行局部特征提取,一个卷积核大小为3×3、扩张率为ri的空洞卷积融合 上下文信息,其中第i(i=1,2,3,4)个分支的Ki和ri分别为{1,3,5,7}和{1,2,4,8};第 i(i=1,2,3)个分支的输出都会被送入i+1个分支,使得特征图在更大的感受野 下进一步被处理;最后在通道维度上对四个上下文推理分支的输出结果进行拼接, 并经过一个3×3卷积进行特征融合得到干扰图E′,其计算公式为:
Ei_1=wi_1(E)+bi_1
Figure BDA0003734688260000061
Ei_3=wi_3(Ei_2)+bi_3
E′=w4(Concat(E1_3,E2_3,E3_3,E4_3))+b4
其中,Ei_1表示经过第i个分支中用于通道缩减的3×3卷积层后输出的特征, wi_1和bi_1对应其权重和偏置;Ei_2表示经过第i个分支中用于局部特征提取的 Ki×Ki卷积层后输出的特征,wi_2和bi_2对应其权重和偏置;Ei_3表示经过第i个 分支中用于融合上下文信息的空洞卷积后输出的特征,wi_3和bi_3对应其权重和偏 置;Concat(·)表示特征在新的维度上进行拼接,w4和b4对应于用于特征融合的 卷积层的权重和偏置,E′表示得到的干扰图。
进一步的,所述步骤S4具体为:
步骤S41:以ResNet50作为基础网络架构,使用其特征提取网络对步骤S1 预处理之后的篡改图像进行特征提取,得到四个通道数不同的特征图X1、X2、X3、 X4;通过卷积层、批量归一化层、ReLU层将四个级别特征图的通道数缩减至原 来的1/4得到多尺度特征图F1、F2、F3、F4;将特征图F4作为混合注意力模块的 输入,得到语义增强后的特征图Fm及篡改区域的初始预测图
Figure BDA0003734688260000062
将语义增强后 的特征图Fm和多尺度特征图F1、F2、F3以自顶向上的方式输入三个细化模块, 分别得到三个细化后的特征图Fr 1、Fr 2、Fr 3以及篡改区域预测图
Figure BDA0003734688260000063
选取第三个细化模块输出的预测图
Figure BDA0003734688260000064
作为最终的预测结果;
步骤S42:混合注意力模块的损失函数Lossm通过将其输出的预测图
Figure BDA0003734688260000065
与对 应的标签值y计算逐元素二值交叉熵损失函数lossbce和逐元素交并比损失函数 lossiou得到;
步骤S43:细化模块的损失函数Lossf通过将其输出的预测图
Figure BDA0003734688260000066
与对应的标 签值y计算加权的二值交叉熵损失函数losswbce和加权交并比损失函数losswiou得到;
步骤S44:基于混合注意力机制的多尺度图像篡改检测网络模型的总损失函 数Lossall公式如下:
Figure BDA0003734688260000071
其中,Lossm表示混合注意力模块输出的损失,
Figure BDA0003734688260000072
表示第i个细化模块 输出的损失;
根据基于混合注意力机制的多尺度图像篡改检测网络模型的总损失函数,利 用反向传播方法计算图像篡改检测网络模型中各参数的梯度;
步骤S45:以批次为单位重复上述步骤S41至步骤S44,直至步骤S44中计 算得到的总损失值收敛并趋于稳定,保存网络参数,完成基于混合注意力机制的 多尺度图像篡改检测网络模型的训练过程。
进一步的,所述混合注意力模块的损失函数Lossm如下:
Lossm=lossbce+lossiou
Figure BDA0003734688260000073
Figure BDA0003734688260000074
细化模块的损失函数Lossf如下:
Lossf=losswbce+losswiou
Figure BDA0003734688260000075
Figure BDA0003734688260000076
Figure BDA0003734688260000077
其中
Figure BDA0003734688260000078
代表第k个细化模块输出的预测图,αij∈[0,1]表示每个像素被赋予 的权重,Aij表示像素点(i,j)周围的像素点。
进一步的,所述步骤S5具体为:将测试集中的图像输入到训练好的基于混 合注意力机制的多尺度图像篡改检测模型中,并将其大小调整为原始篡改图像的 尺寸,即可得到对应的篡改区域掩码图。
本发明与现有技术相比具有以下有益效果:
本发明利用混合注意力机制对图像特征进行语义信息的增强,定位出初始篡 改区域,进而以自顶向上的方法对不同级别特征图进行细化,不断消除假阳性和 假阴性干扰,有效地提高了对篡改区域定位的准确性。
附图说明
图1是本发明方法流程图;
图2是本发明一实施例中网络模型结构图;
图3是本发明一实施例中混合注意力模块结构图;
图4是本发明一实施例中细化模块结构图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1-4,本发明提供一种基于混合注意力机制的多尺度图像篡改检测 方法,包括以下步骤:
步骤S1:获取篡改数据集并划分为训练集和测试集,然后对训练集中的篡 改图像和标签进行数据预处理;
步骤S2:构建融合通道注意力和空间注意力的混合注意力模块,增强篡改 图像的语义信息,得到篡改区域的初始预测图;
步骤S3:构建融合上下文信息的细化模块,使用多尺度特征对篡改区域的 初始预测图进行细化;
步骤S4:构建并训练基于混合注意力机制的多尺度图像篡改检测模型;
步骤S5:将篡改图像输入到训练好的基于混合注意力机制的多尺度图像篡 改检测模型中,输出对应的篡改区域掩码图。
在本实施例中,所述步骤S1具体包括以下步骤:
步骤S11:采用篡改数据集CASIA,使用CASIAv2作为训练集,CASIAv1 作为测试集:训练集包括5123张图片,测试集包括921张图片;
步骤S12:对训练集中的图像及标签进行数据增强来增加数据集的样本数量, 其中包括随机水平翻转和颜色抖动;
步骤S13:将步骤S12数据增强后的图像进行预处理,转化为图像篡改检 测网络的输入。首先将图像的大小缩放至512×512像素,进而对数据进行归一化 操作,将数据转化为标准正态分布;为了保证标签中篡改区域的大小及位置同篡 改图像相对应,在每一步数据增强和图像预处理的同时也对标签进行同样的操作。
在本实施例中,所述步骤S2具体包括以下步骤:
步骤S21:将来自前序模块中维度为C×H×W的特征图F4作为通道注意力 模块的输入,其中C、H和W分别代表特征图的通道数、高度和宽度。通过改 变特征图F4的维度得到查询Q、键K、值V,Q、K、V的维度均为C×N,其中 N=H×W表示图像的像素个数;
步骤S22:通过对Q和K的转置矩阵执行矩阵乘法计算相似度得到注意力 权重,并采用Softmax层对权重进行归一化,得到通道注意力权重矩阵X。具 体的表达式为:
Figure BDA0003734688260000091
其中,
Figure BDA0003734688260000092
表示矩阵乘法,Softmax(·)表示Softmax激活函数。X的维度为 C×C,其中每个元素xij代表第j个通道对第i个通道的影响;
然后,将得到的通道注意力权重矩阵X与值V相乘,并将其维度调整为C× H×W。通过残差结构将得到的结果和输入特征图F4进行连接,以增强语义特征, 获得通道注意力特征图Fc,具体的表达式为:
Figure BDA0003734688260000093
其中,γ为可学习的比例参数,初始化为1,Fc的维度为C×H×W;
步骤S23:将维度为C×H×W通道注意力特征图Fc作为空间注意力模块的 输入,首先对输入的特征Fc分别应用三个1×1卷积层改变其通道数,并改变其 维度得到三个新的查询Q′、键K′和值V′,其中Q′,K′的维度为C/8×N,V′的维度 为C×N;具体的表达式为:
Q′=w1(Fc)+b1
K′=w2(Fc)+b2
V′=w3(Fc)+b3
其中,w1和b1、w2和b2、w3和b3分别为三个不同1×1卷积层的权重和偏 置;
步骤S24:通过对Q′的转置Q′T和K′执行矩阵乘法计算相似度得到注意力权重, 并采用Softmax层对权重进行归一化,得到空间注意力权重矩阵X′,具体的表 达式为:
Figure BDA0003734688260000101
其中,
Figure BDA0003734688260000102
表示矩阵乘法,Softmax(·)表示Softmax激活函数。X′的维度为 N×N,其中每个元素x′ij代表第j个像素点对第i个像素点的影响;
然后将得到的空间注意力权重矩阵X′的转置X′T与值V′进行矩阵乘法,并将其 维度调整为C×H×W。通过残差结构将得到的结果和通道注意力特征图Fc进行 连接,以增强语义特征,获得空间注意力特征图Fp,具体的表达式为:
Figure BDA0003734688260000103
其中,γ′为可学习的比例参数,初始化为1,Fp的维度为C×H×W;
步骤S25:将S22步骤中得到的通道注意力图Fc和S24步骤中得到的空间注 意力图Fp与输入的特征图F4进行拼接,拼接后的特征图维度为3C×H×W,进 而通过一个1×1卷积层改变其维度为C×H×W,具体的表达式为:
F′=Concat(F4,Fp,Fc)
Fm=w3(F′)+b3
其中,Concat(·)表示特征在新的维度上进行拼接,w3,b3是1×1卷积层的 权重和偏置,Fm为经过混合注意力模块后语义增强的特征图;
最后对Fm应用卷积核大小为7×7、填充为3的卷积层来得到篡改区域的初始 预测图
Figure BDA0003734688260000104
在本实施例中,所述步骤S3具体包括以下步骤:
步骤S31:融合上下文信息的细化模块一共有三个输入,包括上一级别的 特征图Fh、当前级别的特征图Fl、上一级别预测图
Figure BDA0003734688260000111
将上一级别预测图
Figure BDA0003734688260000112
上采样使其分辨率大小与当前级别的特征图Fl的大小 一致,并使用Sigmoid层对其进行归一化;
然后将归一化后的结果及其取反后的结果与当前级别的特征图Fl逐元素相 乘,分别生成前景注意力特征图Ffa和背景注意力特征图Fba,计算公式如下:
Figure BDA0003734688260000113
Ffa=Fl×yup
Fba=Fl×(1-yup)
其中U代表双线性上采样,Sigmoid(·)表示Sigmoid激活函数,×表示逐 元素相乘;
步骤S32:融合上下文信息的细化模块包含两个上下文推理模块,将步骤 S31中得到的前景注意力特征图Ffa和背景注意力特征图Fba以并行的方式送入上 述的上下文推理模块,分别得到假阳性干扰Ffpd和假阴性干扰Ffnd
步骤S33:调整上一级别的特征图Fh的维度与当前级别的特征图Fl的维度一 致,对步骤S32得到的假阳性干扰Ffpd和假阴性干扰Ffnd进行逐元素相减来消除 假阳性干扰、逐元素相加来消除假阴性干扰,从而修正上一级别的特征图Fh,得 到更加细化的特征图Fr,其计算公式为:
Fup=U(CBR(Fh))
Fr=BR(Fup-αFfpd)
Fr=BR(Fr+βFfnd)
其中α和β为可学习的比例参数,初始化为1,CBR表示卷积、批归一化层和 ReLU激活函数的组合,BR表示批归一化层和ReLU函数的组合,U代表双线性 上采样;
最后对Fr应用卷积核大小为7×7、填充为3的卷积层来得到细化后的预测图。
进一步的,所述上下文推理模块由四个上下文推理分支组成,每个分支将输 入的特征图E依次经过一个3×3卷积层使其通道数缩减至原来的1/4,一个Ki×Ki卷积层进行局部特征提取,一个卷积核大小为3×3、扩张率为ri的空洞卷积融合 上下文信息,其中第i(i=1,2,3,4)个分支的Ki和ri分别为{1,3,5,7}和{1,2,4,8};第 i(i=1,2,3)个分支的输出都会被送入i+1个分支,使得特征图在更大的感受野 下进一步被处理;最后在通道维度上对四个上下文推理分支的输出结果进行拼接, 并经过一个3×3卷积进行特征融合得到干扰图E′,其计算公式为:
Ei_1=wi_1(E)+bi_1
Figure BDA0003734688260000121
Ei_3=wi_3(Ei_2)+bi_3
E′=w4(Concat(E1_3,E2_3,E3_3,E4_3))+b4
其中,Ei_1表示经过第i个分支中用于通道缩减的3×3卷积层后输出的特征, wi_1和bi_1对应其权重和偏置;Ei_2表示经过第i个分支中用于局部特征提取的 Ki×Ki卷积层后输出的特征,wi_2和bi_2对应其权重和偏置;Ei_3表示经过第i个 分支中用于融合上下文信息的空洞卷积后输出的特征,wi_3和bi_3对应其权重和偏 置;Concat(·)表示特征在新的维度上进行拼接,w4和b4对应于用于特征融合的 卷积层的权重和偏置,E′表示得到的干扰图。
在本实施例中,所述步骤S4具体包括以下步骤:
步骤S41:以ResNet50作为基础网络架构,使用其特征提取网络对步骤S1 预处理之后的篡改图像进行特征提取,得到四个通道数分别为2048、1024、512、 256维的特征图X1、X2、X3、X4。通过卷积层、批量归一化层、ReLU层将四个 级别特征图的通道数缩减至原来的1/4得到多尺度特征图F1、F2、F3、F4,其通 道数分别为512、256、128、64维。将特征图F4作为混合注意力模块的输入,得 到语义增强后的特征图Fm及篡改区域的初始预测图
Figure BDA0003734688260000122
将语义增强后的特征图 Fm和多尺度特征图F1、F2、F3以自顶向上的方式输入三个细化模块,分别得到 三个细化后的特征图Fr 1、Fr 2、Fr 3以及篡改区域预测图
Figure BDA0003734688260000123
选取第三 个细化模块输出的预测图
Figure BDA0003734688260000124
作为最终的预测结果;
步骤S42:混合注意力模块的损失函数Lossm通过将其输出的预测图
Figure BDA0003734688260000131
与对 应的标签值y计算逐元素二值交叉熵损失函数lossbce和逐元素交并比损失函数 lossiou得到;
步骤S43:细化模块的损失函数Lossf通过将其输出的预测图
Figure BDA0003734688260000132
与对应的标 签值y计算加权的二值交叉熵损失函数losswbce和加权交并比损失函数losswiou得到;
步骤S44:基于混合注意力机制的多尺度图像篡改检测网络模型的总损失函 数Lossall公式如下:
Figure BDA0003734688260000133
其中,Lossm表示混合注意力模块输出的损失,
Figure BDA0003734688260000134
表示第i个细化模块 输出的损失;
根据基于混合注意力机制的多尺度图像篡改检测网络模型的总损失函数,利 用反向传播方法计算图像篡改检测网络模型中各参数的梯度,并利用Adam优化 算法更新参数;
步骤S45:以批次为单位重复上述步骤S41至步骤S44,直至步骤S44中计 算得到的总损失值收敛并趋于稳定,一共训练了60个epoch。保存网络参数, 完成基于混合注意力机制的多尺度图像篡改检测网络模型的训练过程。
进一步的,所述混合注意力模块的损失函数Lossm如下:
Lossm=lossbce+lossiou
Figure BDA0003734688260000135
Figure BDA0003734688260000136
细化模块的损失函数Lossf如下:
Lossf=losswbce+losswiou
Figure BDA0003734688260000137
Figure BDA0003734688260000141
Figure BDA0003734688260000142
其中
Figure BDA0003734688260000143
代表第k个细化模块输出的预测图,αij∈[0,1]表示每个像素被赋予 的权重,Aij表示像素点(i,j)周围的像素点。
在本实施例中,所述步骤S5具体包括以下步骤:
步骤S51:将测试集中的图像输入到训练好的基于混合注意力机制的多尺度 图像篡改检测模型中,并将其大小调整为原始篡改图像的尺寸,即可得到对应的 篡改区域掩码图。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变 化与修饰,皆应属本发明的涵盖范围。

Claims (8)

1.一种基于混合注意力机制的多尺度图像篡改检测方法,其特征在于,包括以下步骤:
步骤S1:获取篡改数据集并划分为训练集和测试集,然后对训练集中的篡改图像和标签进行数据预处理;
步骤S2:构建融合通道注意力和空间注意力的混合注意力模块,增强篡改图像的语义信息,得到篡改区域的初始预测图;
步骤S3:构建融合上下文信息的细化模块,使用多尺度特征对篡改区域的初始预测图进行细化;
步骤S4:构建并训练基于混合注意力机制的多尺度图像篡改检测模型;
步骤S5:将篡改图像输入到训练好的基于混合注意力机制的多尺度图像篡改检测模型中,输出对应的篡改区域掩码图。
2.根据权利要求1所述的基于混合注意力机制的多尺度图像篡改检测方法,其特征在于,所述步骤S1具体为:
步骤S11:获取篡改数据集并按预设比例划分为训练集和测试集;
步骤S12:对训练集中的图像及标签进行数据增强来增加数据集中的样本数量;
步骤S13:对数据增强后的图像及标签进行预处理,包括大小缩放至固定大小,归一化操作,将数据转化为标准正态分布。
3.根据权利要求1所述的基于混合注意力机制的多尺度图像篡改检测方法,其特征在于,所述步骤S2具体为:
步骤S21:将来自前序模块中维度为C×H×W的特征图F4作为通道注意力模块的输入,其中C、H和W分别代表特征图的通道数、高度和宽度;通过改变特征图F4的维度得到查询Q、键K、值V,Q、K、V的维度均为C×N,其中N=H×W表示图像的像素个数;
步骤S22:通过对Q和K的转置矩阵执行矩阵乘法计算相似度得到注意力权重,并采用Softmax层对权重进行归一化,得到通道注意力权重矩阵X,具体的表达式为:
Figure FDA0003734688250000021
其中,
Figure FDA0003734688250000022
表示矩阵乘法,Softmax(·)表示Softmax激活函数;X的维度为C×C,其中每个元素xij代表第j个通道对第i个通道的影响;
然后,将得到的通道注意力权重矩阵X与值V相乘,并将其维度调整为C×H×W;通过残差结构将得到的结果和输入特征图F4进行连接,以增强语义特征,获得通道注意力特征图Fc,具体的表达式为:
Figure FDA0003734688250000023
其中,γ为可学习的比例参数,Fc的维度为C×H×W;
步骤S23:将维度为C×H×W通道注意力特征图Fc作为空间注意力模块的输入,首先对输入的特征Fc分别应用三个1×1卷积层改变其通道数,并改变其维度得到三个新的查询Q′、键K′和值V′,其中Q′,K′的维度为C/8×N,V′的维度为C×N;具体的表达式为:
Q′=w1(Fc)+b1
K′=w2(Fc)+b2
V′=w3(Fc)+b3
其中,w1和b1、w2和b2、w3和b3分别为三个不同1×1卷积层的权重和偏置;
步骤S24:通过对Q′的转置Q′T和K′执行矩阵乘法计算相似度得到注意力权重,并采用Softmax层对权重进行归一化,得到空间注意力权重矩阵X′,具体的表达式为:
Figure FDA0003734688250000031
其中,
Figure FDA0003734688250000032
表示矩阵乘法,Softmax(·)表示Softmax激活函数。X′的维度为N×N,其中每个元素x′ij代表第j个像素点对第i个像素点的影响;
然后将得到的空间注意力权重矩阵X′的转置X′T与值V′进行矩阵乘法,并将其维度调整为C×H×W。通过残差结构将得到的结果和通道注意力特征图Fc进行连接,以增强语义特征,获得空间注意力特征图Fp,具体的表达式为:
Figure FDA0003734688250000033
其中,γ′为可学习的比例参数,初始化为1,Fp的维度为C×H×W;
步骤S25:将S22步骤中得到的通道注意力图Fc和S24步骤中得到的空间注意力图Fp与输入的特征图F4进行拼接,拼接后的特征图维度为3C×H×W,进而通过一个1×1卷积层改变其维度为C×H×W,具体的表达式为:
F′=Concat(F4,Fp,Fc)
Fm=w3(F′)+b3
其中,Concat(·)表示特征在新的维度上进行拼接,w3,b3是1×1卷积层的权重和偏置,Fm为经过混合注意力模块后语义增强的特征图;
最后对Fm应用卷积核大小为7×7、填充为3的卷积层来得到篡改区域的初始预测图
Figure FDA0003734688250000044
4.根据权利要求1所述的基于混合注意力机制的多尺度图像篡改检测方法,其特征在于,所述步骤S3具体为:
步骤S31:融合上下文信息的细化模块一共有三个输入,包括上一级别的特征图Fh、当前级别的特征图Fl、上一级别预测图
Figure FDA0003734688250000041
将上一级别预测图
Figure FDA0003734688250000042
上采样使其分辨率大小与当前级别的特征图Fl的大小一致,并使用Sigmoid层对其进行归一化;
然后将归一化后的结果及其取反后的结果与当前级别的特征图Fl逐元素相乘,分别生成前景注意力特征图Ffa和背景注意力特征图Fba,计算公式如下:
Figure FDA0003734688250000043
Ffa=Fl×yup
Fba=Fl×(1-yup)
其中U代表双线性上采样,Sigmoid(·)表示Sigmoid激活函数,×表示逐元素相乘;
步骤S32:融合上下文信息的细化模块包含两个上下文推理模块,将步骤S31中得到的前景注意力特征图Ffa和背景注意力特征图Fba以并行的方式送入上述的上下文推理模块,分别得到假阳性干扰Ffpd和假阴性干扰Ffnd
步骤S33:调整上一级别的特征图Fh的维度与当前级别的特征图Fl的维度一致,对步骤S32得到的假阳性干扰Ffpd和假阴性干扰Ffnd进行逐元素相减来消除假阳性干扰、逐元素相加来消除假阴性干扰,从而修正上一级别的特征图Fh,得到更加细化的特征图Fr,其计算公式为:
Fup=U(CBR(Fh))
Fr=BR(Fup-αFfpd)
Fr=BR(Fr+βFfnd)
其中α和β为可学习的比例参数,初始化为1,CBR表示卷积、批归一化层和ReLU激活函数的组合,BR表示批归一化层和ReLU函数的组合,U代表双线性上采样;
最后对Fr应用卷积核大小为7×7、填充为3的卷积层来得到细化后的预测图。
5.根据权利要求4所述的基于混合注意力机制的多尺度图像篡改检测方法,其特征在于,所述上下文推理模块由四个上下文推理分支组成,每个分支将输入的特征图E依次经过一个3×3卷积层使其通道数缩减至原来的1/4,一个Ki×Ki卷积层进行局部特征提取,一个卷积核大小为3×3、扩张率为ri的空洞卷积融合上下文信息,其中第i(i=1,2,3,4)个分支的Ki和ri分别为{1,3,5,7}和{1,2,4,8};第i(i=1,2,3)个分支的输出都会被送入i+1个分支,使得特征图在更大的感受野下进一步被处理;最后在通道维度上对四个上下文推理分支的输出结果进行拼接,并经过一个3×3卷积进行特征融合得到干扰图E′,其计算公式为:
Ei_1=wi_1(E)+bi_1
Figure FDA0003734688250000061
Ei_3=wi_3(Ei_2)+bi_3
E′=w4(Concat(E1_3,E2_3,E3_3,E4_3))+b4
其中,Ei_1表示经过第i个分支中用于通道缩减的3×3卷积层后输出的特征,wi_1和bi_1对应其权重和偏置;Ei_2表示经过第i个分支中用于局部特征提取的Ki×Ki卷积层后输出的特征,wi_2和bi_2对应其权重和偏置;Ei_3表示经过第i个分支中用于融合上下文信息的空洞卷积后输出的特征,wi_3和bi_3对应其权重和偏置;Concat(·)表示特征在新的维度上进行拼接,w4和b4对应于用于特征融合的卷积层的权重和偏置,E′表示得到的干扰图。
6.根据权利要求1所述的基于混合注意力机制的多尺度图像篡改检测方法,其特征在于,所述步骤S4具体为:
步骤S41:以ResNet50作为基础网络架构,使用其特征提取网络对步骤S1预处理之后的篡改图像进行特征提取,得到四个通道数不同的特征图X1、X2、X3、X4;通过卷积层、批量归一化层、ReLU层将四个级别特征图的通道数缩减至原来的1/4得到多尺度特征图F1、F2、F3、F4;将特征图F4作为混合注意力模块的输入,得到语义增强后的特征图Fm及篡改区域的初始预测图
Figure FDA0003734688250000071
将语义增强后的特征图Fm和多尺度特征图F1、F2、F3以自顶向上的方式输入三个细化模块,分别得到三个细化后的特征图Fr 1、Fr 2、Fr 3以及篡改区域预测图
Figure FDA0003734688250000072
选取第三个细化模块输出的预测图
Figure FDA0003734688250000073
作为最终的预测结果;
步骤S42:混合注意力模块的损失函数Lossm通过将其输出的预测图
Figure FDA0003734688250000074
与对应的标签值y计算逐元素二值交叉熵损失函数lossbce和逐元素交并比损失函数lossiou得到;
步骤S43:细化模块的损失函数Lossf通过将其输出的预测图
Figure FDA0003734688250000075
与对应的标签值y计算加权的二值交叉熵损失函数losswbce和加权交并比损失函数losswiou得到;
步骤S44:基于混合注意力机制的多尺度图像篡改检测网络模型的总损失函数Lossall公式如下:
Figure FDA0003734688250000076
其中,Lossm表示混合注意力模块输出的损失,
Figure FDA0003734688250000077
表示第i个细化模块输出的损失;
根据基于混合注意力机制的多尺度图像篡改检测网络模型的总损失函数,利用反向传播方法计算图像篡改检测网络模型中各参数的梯度;
步骤S45:以批次为单位重复上述步骤S41至步骤S44,直至步骤S44中计算得到的总损失值收敛并趋于稳定,保存网络参数,完成基于混合注意力机制的多尺度图像篡改检测网络模型的训练过程。
7.根据权利要求6所述的基于混合注意力机制的多尺度图像篡改检测方法,其特征在于,所述混合注意力模块的损失函数Lossm如下:
Lossm=lossbce+lossiou
Figure FDA0003734688250000081
Figure FDA0003734688250000082
细化模块的损失函数Lossf如下:
Lossf=losswbce+losswiou
Figure FDA0003734688250000083
Figure FDA0003734688250000084
Figure FDA0003734688250000085
其中
Figure FDA0003734688250000091
代表第k个细化模块输出的预测图,αij∈[0,1]表示每个像素被赋予的权重,Aij表示像素点(i,j)周围的像素点。
8.根据权利要求1所述的基于混合注意力机制的多尺度图像篡改检测方法,其特征在于,所述步骤S5具体为:将测试集中的图像输入到训练好的基于混合注意力机制的多尺度图像篡改检测模型中,并将其大小调整为原始篡改图像的尺寸,即可得到对应的篡改区域掩码图。
CN202210793450.5A 2022-07-07 2022-07-07 基于混合注意力机制的多尺度图像篡改检测方法 Pending CN115578626A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210793450.5A CN115578626A (zh) 2022-07-07 2022-07-07 基于混合注意力机制的多尺度图像篡改检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210793450.5A CN115578626A (zh) 2022-07-07 2022-07-07 基于混合注意力机制的多尺度图像篡改检测方法

Publications (1)

Publication Number Publication Date
CN115578626A true CN115578626A (zh) 2023-01-06

Family

ID=84578633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210793450.5A Pending CN115578626A (zh) 2022-07-07 2022-07-07 基于混合注意力机制的多尺度图像篡改检测方法

Country Status (1)

Country Link
CN (1) CN115578626A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116778307A (zh) * 2023-08-18 2023-09-19 北京航空航天大学 一种基于不确定性引导的图像篡改检测方法
CN116895030A (zh) * 2023-09-11 2023-10-17 西华大学 基于目标检测算法和注意力机制的绝缘子检测方法
CN116935200A (zh) * 2023-09-19 2023-10-24 南京信息工程大学 面向审计的图像篡改检测方法、系统、设备及存储介质
CN116971052A (zh) * 2023-07-07 2023-10-31 杭州帝凯工业布有限公司 一种高强度尼龙长丝及其制备方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116971052A (zh) * 2023-07-07 2023-10-31 杭州帝凯工业布有限公司 一种高强度尼龙长丝及其制备方法
CN116971052B (zh) * 2023-07-07 2024-03-08 杭州帝凯工业布有限公司 一种高强度尼龙长丝及其制备方法
CN116778307A (zh) * 2023-08-18 2023-09-19 北京航空航天大学 一种基于不确定性引导的图像篡改检测方法
CN116778307B (zh) * 2023-08-18 2023-12-12 北京航空航天大学 一种基于不确定性引导的图像篡改检测方法
CN116895030A (zh) * 2023-09-11 2023-10-17 西华大学 基于目标检测算法和注意力机制的绝缘子检测方法
CN116895030B (zh) * 2023-09-11 2023-11-17 西华大学 基于目标检测算法和注意力机制的绝缘子检测方法
CN116935200A (zh) * 2023-09-19 2023-10-24 南京信息工程大学 面向审计的图像篡改检测方法、系统、设备及存储介质
CN116935200B (zh) * 2023-09-19 2023-12-19 南京信息工程大学 面向审计的图像篡改检测方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN115578626A (zh) 基于混合注意力机制的多尺度图像篡改检测方法
CN114913565B (zh) 人脸图像检测方法、模型训练方法、装置及存储介质
Sim et al. Blind stereoscopic image quality evaluator based on binocular semantic and quality channels
CN113284100A (zh) 基于恢复图像对混合域注意力机制的图像质量评价方法
CN111652864A (zh) 一种基于条件式生成对抗网络的铸件缺陷图像生成方法
Wei et al. Universal deep network for steganalysis of color image based on channel representation
CN115393698A (zh) 一种基于改进dpn网络的数字图像篡改检测方法
CN117292117A (zh) 一种基于注意力机制的小目标检测方法
CN112233017A (zh) 一种基于生成对抗网络的病态人脸数据增强方法
CN117558011B (zh) 基于自一致性矩阵和多尺度损失的图像文本篡改检测方法
CN111563462A (zh) 图像元素的检测方法及装置
CN114792385A (zh) 一种金字塔分离双注意力的少样本细粒度图像分类方法
CN113033305B (zh) 活体检测方法、装置、终端设备和存储介质
CN113111906A (zh) 一种基于单对图像训练的条件生成对抗网络模型的方法
CN112883930A (zh) 基于全连接网络的实时真假运动判断方法
CN116958736A (zh) 一种基于跨模态边缘引导的rgb-d显著性目标检测方法
CN111598144A (zh) 图像识别模型的训练方法和装置
CN114638984B (zh) 一种基于胶囊网络的恶意网站url检测方法
Wang et al. Se-resnet56: Robust network model for deepfake detection
CN118470808B (zh) 基于局部卷积与语义信息的活体检测装置与方法
CN115311525B (zh) 深度伪造检测方法及对应装置
CN112613341B (zh) 训练方法及装置、指纹识别方法及装置、电子设备
Guan et al. Binary steganography based on generative adversarial nets
CN118333953A (zh) 轻量高精的复制移动篡改检测方法
CN117351577A (zh) 图像处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination