CN115578626A - 基于混合注意力机制的多尺度图像篡改检测方法 - Google Patents
基于混合注意力机制的多尺度图像篡改检测方法 Download PDFInfo
- Publication number
- CN115578626A CN115578626A CN202210793450.5A CN202210793450A CN115578626A CN 115578626 A CN115578626 A CN 115578626A CN 202210793450 A CN202210793450 A CN 202210793450A CN 115578626 A CN115578626 A CN 115578626A
- Authority
- CN
- China
- Prior art keywords
- attention
- tampered
- feature map
- loss
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 42
- 230000007246 mechanism Effects 0.000 title claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000007670 refining Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 230000002708 enhancing effect Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 46
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000010586 diagram Methods 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000004927 fusion Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 3
- 230000010339 dilation Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/95—Pattern authentication; Markers therefor; Forgery detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于混合注意力机制的多尺度图像篡改检测方法,包括以下步骤:步骤S1:获取篡改数据集并划分为训练集和测试集,然后对训练集中的篡改图像和标签进行数据预处理;步骤S2:构建融合通道注意力和空间注意力的混合注意力模块,增强篡改图像的语义信息,得到篡改区域的初始预测图;步骤S3:构建融合上下文信息的细化模块,使用多尺度特征对篡改区域的初始预测图进行细化;步骤S4:构建并训练基于混合注意力机制的多尺度图像篡改检测模型;步骤S5:将篡改图像输入到训练好的基于混合注意力机制的多尺度图像篡改检测模型中,输出对应的篡改区域掩码图。本发明有效地提高了篡改区域定位的准确性。
Description
技术领域
本发明涉及图像处理以及计算机视觉领域,具体涉及一种基于混合注意力机 制的多尺度图像篡改检测方法。
背景技术
随着数字化技术的迅猛发展,数字图像凭借直观性和生动性的特 点,在人们获取和传递信息的过程中承担着重要的载体作用,已然渗 透在社会生活中的方方面面。然而,随着图像处理技术的不断更新与 发展,出现了诸如Adobe Photoshop、美图秀秀等一系列功能强大的 图像编辑软件。这使得一些未经专业图像处理技术培训的用户,也可 以根据自己的需求轻松地对图像进行美化和娱乐,达到以假乱真的地 步。
图像篡改,是指使用图像编辑软件处理原始图像,以改变图像的语义信息。 常见的图像篡改包括三类:(1)复制-移动篡改:指将原图像中的某个区域裁剪 后,移动到同一张图像的另一个区域;(2)拼接篡改:将一张图像上的某个区域 复制并粘贴到另一张图像上;(3)移除篡改:将某张图像上某些的区域删除并使 用与背景相同的区域来替换。为了篡改区域不易被察觉到,增强篡改图像的真实 性,篡改图像往往会经过一系列旋转、压缩、边界处理、亮度调整等后处理操作, 使得人眼难以识别出篡改区域。图像篡改检测的目标就是检测出不同篡改类型, 并在像素级别精准地定位图像中的篡改区域。
随着图像篡改方式的多样化,篡改图像经过“精心”处理后,凭借肉眼观察往 往难以识别篡改图像。早期研究人员使用传统方法对篡改图像进行特征提取,通 过特征对比的分析方法实现图像篡改检测,或是通过在原始图像上嵌入秘密信息 后提取水印或数字签名来判断图像是否被篡改过。然而现实生活中,我们无法事 先预知图像的篡改类型,且这些传统方法具有较大的局限性,往往只针对某一种 特定的图像属性,难以根据这些特征对多种或未知的篡改方式进行检测并精准地 定位出被篡改的区域。因此,实现一种通用有效的图像篡改检测技术具有重要的 现实意义和实用价值。
随着深度学习在语义分割、目标检测等领域中都取得了优异的成效,许多研 究者也将深度学习技术应用到图像篡改检测中。图像篡改检测和语义分割任务有 所不同,图像篡改检测对图像中的篡改区域进行识别。不同的篡改操作使得图像 特征存在很大的差异,且篡改区域往往不规则,可能是多个语义级别目标的组合, 又或是一个已经被移除的区域。因此,正确地分割篡改区域更多地取决于提取篡 改特征,而不是语义内容。如何利用篡改区域和非篡改区域之间颜色、强度、和 噪声分布存在差异的特点,设计和训练一个网络,使其能够对篡改区域实现精准 定位具有一定的挑战性和研究意义。
发明内容
有鉴于此,本发明的目的在于提供一种基于混合注意力机制的多尺度图像篡 改检测方法,有效地提高了对篡改区域定位的准确性。
为实现上述目的,本发明采用如下技术方案:
一种基于混合注意力机制的多尺度图像篡改检测方法,包括以下步骤:
步骤S1:获取篡改数据集并划分为训练集和测试集,然后对训练集中的篡 改图像和标签进行数据预处理;
步骤S2:构建融合通道注意力和空间注意力的混合注意力模块,增强篡改 图像的语义信息,得到篡改区域的初始预测图;
步骤S3:构建融合上下文信息的细化模块,使用多尺度特征对篡改区域的 初始预测图进行细化;
步骤S4:构建并训练基于混合注意力机制的多尺度图像篡改检测模型;
步骤S5:将篡改图像输入到训练好的基于混合注意力机制的多尺度图像篡 改检测模型中,输出对应的篡改区域掩码图。
进一步的,所述步骤S1具体为:
步骤S11:获取篡改数据集并按预设比例划分为训练集和测试集;
步骤S12:对训练集中的图像及标签进行数据增强来增加数据集中的样本数 量;
步骤S13:对数据增强后的图像及标签进行预处理,包括大小缩放至固定大小, 归一化操作,将数据转化为标准正态分布。
进一步的,所述步骤S2具体为:
步骤S21:将来自前序模块中维度为C×H×W的特征图F4作为通道注意力 模块的输入,其中C、H和W分别代表特征图的通道数、高度和宽度;通过改 变特征图F4的维度得到查询Q、键K、值V,Q、K、V的维度均为C×N,其中 N=H×W表示图像的像素个数;
步骤S22:通过对Q和K的转置矩阵执行矩阵乘法计算相似度得到注意力 权重,并采用Softmax层对权重进行归一化,得到通道注意力权重矩阵X,具 体的表达式为:
然后,将得到的通道注意力权重矩阵X与值V相乘,并将其维度调整为C× H×W;通过残差结构将得到的结果和输入特征图F4进行连接,以增强语义特征, 获得通道注意力特征图Fc,具体的表达式为:
其中,γ为可学习的比例参数,初始化为1,Fc的维度为C×H×W;
步骤S23:将维度为C×H×W通道注意力特征图Fc作为空间注意力模块的 输入,首先对输入的特征Fc分别应用三个1×1卷积层改变其通道数,并改变其 维度得到三个新的查询Q′、键K′和值V′,其中Q′,K′的维度为C/8×N,V′的维度 为C×N;具体的表达式为:
Q′=w1(Fc)+b1
K′=w2(Fc)+b2
V′=w3(Fc)+b3
其中,w1和b1、w2和b2、w3和b3分别为三个不同1×1卷积层的权重和偏 置;
步骤S24:通过对Q′的转置Q′T和K′执行矩阵乘法计算相似度得到注意力权重, 并采用Softmax层对权重进行归一化,得到空间注意力权重矩阵X′,具体的表 达式为:
然后将得到的空间注意力权重矩阵X′的转置X′T与值V′进行矩阵乘法,并将其 维度调整为C×H×W。通过残差结构将得到的结果和通道注意力特征图Fc进行 连接,以增强语义特征,获得空间注意力特征图Fp,具体的表达式为:
其中,γ′为可学习的比例参数,初始化为1,Fp的维度为C×H×W;
步骤S25:将S22步骤中得到的通道注意力图Fc和S24步骤中得到的空间注 意力图Fp与输入的特征图F4进行拼接,拼接后的特征图维度为3C×H×W,进 而通过一个1×1卷积层改变其维度为C×H×W,具体的表达式为:
F′=Concat(F4,Fp,Fc)
Fm=w3(F′)+b3
其中,Concat(·)表示特征在新的维度上进行拼接,w3,b3是1×1卷积层的 权重和偏置,Fm为经过混合注意力模块后语义增强的特征图;
进一步的,所述步骤S3具体为:
然后将归一化后的结果及其取反后的结果与当前级别的特征图Fl逐元素相 乘,分别生成前景注意力特征图Ffa和背景注意力特征图Fba,计算公式如下:
Ffa=Fl×yup
Fba=Fl×(1-yup)
其中U代表双线性上采样,Sigmoid(·)表示Sigmoid激活函数,×表示逐 元素相乘;
步骤S32:融合上下文信息的细化模块包含两个上下文推理模块,将步骤 S31中得到的前景注意力特征图Ffa和背景注意力特征图Fba以并行的方式送入上 述的上下文推理模块,分别得到假阳性干扰Ffpd和假阴性干扰Ffnd;
步骤S33:调整上一级别的特征图Fh的维度与当前级别的特征图Fl的维度一 致,对步骤S32得到的假阳性干扰Ffpd和假阴性干扰Ffnd进行逐元素相减来消除 假阳性干扰、逐元素相加来消除假阴性干扰,从而修正上一级别的特征图Fh,得 到更加细化的特征图Fr,其计算公式为:
Fup=U(CBR(Fh))
Fr=BR(Fup-αFFpd)
Fr=BR(Fr+βFfnd)
其中α和β为可学习的比例参数,初始化为1,CBR表示卷积、批归一化层和 ReLU激活函数的组合,BR表示批归一化层和ReLU函数的组合,U代表双线性 上采样;
最后对Fr应用卷积核大小为7×7、填充为3的卷积层来得到细化后的预测图。
进一步的,所述上下文推理模块由四个上下文推理分支组成,每个分支将输 入的特征图E依次经过一个3×3卷积层使其通道数缩减至原来的1/4,一个Ki×Ki卷积层进行局部特征提取,一个卷积核大小为3×3、扩张率为ri的空洞卷积融合 上下文信息,其中第i(i=1,2,3,4)个分支的Ki和ri分别为{1,3,5,7}和{1,2,4,8};第 i(i=1,2,3)个分支的输出都会被送入i+1个分支,使得特征图在更大的感受野 下进一步被处理;最后在通道维度上对四个上下文推理分支的输出结果进行拼接, 并经过一个3×3卷积进行特征融合得到干扰图E′,其计算公式为:
Ei_1=wi_1(E)+bi_1
Ei_3=wi_3(Ei_2)+bi_3
E′=w4(Concat(E1_3,E2_3,E3_3,E4_3))+b4
其中,Ei_1表示经过第i个分支中用于通道缩减的3×3卷积层后输出的特征, wi_1和bi_1对应其权重和偏置;Ei_2表示经过第i个分支中用于局部特征提取的 Ki×Ki卷积层后输出的特征,wi_2和bi_2对应其权重和偏置;Ei_3表示经过第i个 分支中用于融合上下文信息的空洞卷积后输出的特征,wi_3和bi_3对应其权重和偏 置;Concat(·)表示特征在新的维度上进行拼接,w4和b4对应于用于特征融合的 卷积层的权重和偏置,E′表示得到的干扰图。
进一步的,所述步骤S4具体为:
步骤S41:以ResNet50作为基础网络架构,使用其特征提取网络对步骤S1 预处理之后的篡改图像进行特征提取,得到四个通道数不同的特征图X1、X2、X3、 X4;通过卷积层、批量归一化层、ReLU层将四个级别特征图的通道数缩减至原 来的1/4得到多尺度特征图F1、F2、F3、F4;将特征图F4作为混合注意力模块的 输入,得到语义增强后的特征图Fm及篡改区域的初始预测图将语义增强后 的特征图Fm和多尺度特征图F1、F2、F3以自顶向上的方式输入三个细化模块, 分别得到三个细化后的特征图Fr 1、Fr 2、Fr 3以及篡改区域预测图选取第三个细化模块输出的预测图作为最终的预测结果;
步骤S44:基于混合注意力机制的多尺度图像篡改检测网络模型的总损失函 数Lossall公式如下:
根据基于混合注意力机制的多尺度图像篡改检测网络模型的总损失函数,利 用反向传播方法计算图像篡改检测网络模型中各参数的梯度;
步骤S45:以批次为单位重复上述步骤S41至步骤S44,直至步骤S44中计 算得到的总损失值收敛并趋于稳定,保存网络参数,完成基于混合注意力机制的 多尺度图像篡改检测网络模型的训练过程。
进一步的,所述混合注意力模块的损失函数Lossm如下:
Lossm=lossbce+lossiou
细化模块的损失函数Lossf如下:
Lossf=losswbce+losswiou
进一步的,所述步骤S5具体为:将测试集中的图像输入到训练好的基于混 合注意力机制的多尺度图像篡改检测模型中,并将其大小调整为原始篡改图像的 尺寸,即可得到对应的篡改区域掩码图。
本发明与现有技术相比具有以下有益效果:
本发明利用混合注意力机制对图像特征进行语义信息的增强,定位出初始篡 改区域,进而以自顶向上的方法对不同级别特征图进行细化,不断消除假阳性和 假阴性干扰,有效地提高了对篡改区域定位的准确性。
附图说明
图1是本发明方法流程图;
图2是本发明一实施例中网络模型结构图;
图3是本发明一实施例中混合注意力模块结构图;
图4是本发明一实施例中细化模块结构图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
请参照图1-4,本发明提供一种基于混合注意力机制的多尺度图像篡改检测 方法,包括以下步骤:
步骤S1:获取篡改数据集并划分为训练集和测试集,然后对训练集中的篡 改图像和标签进行数据预处理;
步骤S2:构建融合通道注意力和空间注意力的混合注意力模块,增强篡改 图像的语义信息,得到篡改区域的初始预测图;
步骤S3:构建融合上下文信息的细化模块,使用多尺度特征对篡改区域的 初始预测图进行细化;
步骤S4:构建并训练基于混合注意力机制的多尺度图像篡改检测模型;
步骤S5:将篡改图像输入到训练好的基于混合注意力机制的多尺度图像篡 改检测模型中,输出对应的篡改区域掩码图。
在本实施例中,所述步骤S1具体包括以下步骤:
步骤S11:采用篡改数据集CASIA,使用CASIAv2作为训练集,CASIAv1 作为测试集:训练集包括5123张图片,测试集包括921张图片;
步骤S12:对训练集中的图像及标签进行数据增强来增加数据集的样本数量, 其中包括随机水平翻转和颜色抖动;
步骤S13:将步骤S12数据增强后的图像进行预处理,转化为图像篡改检 测网络的输入。首先将图像的大小缩放至512×512像素,进而对数据进行归一化 操作,将数据转化为标准正态分布;为了保证标签中篡改区域的大小及位置同篡 改图像相对应,在每一步数据增强和图像预处理的同时也对标签进行同样的操作。
在本实施例中,所述步骤S2具体包括以下步骤:
步骤S21:将来自前序模块中维度为C×H×W的特征图F4作为通道注意力 模块的输入,其中C、H和W分别代表特征图的通道数、高度和宽度。通过改 变特征图F4的维度得到查询Q、键K、值V,Q、K、V的维度均为C×N,其中 N=H×W表示图像的像素个数;
步骤S22:通过对Q和K的转置矩阵执行矩阵乘法计算相似度得到注意力 权重,并采用Softmax层对权重进行归一化,得到通道注意力权重矩阵X。具 体的表达式为:
然后,将得到的通道注意力权重矩阵X与值V相乘,并将其维度调整为C× H×W。通过残差结构将得到的结果和输入特征图F4进行连接,以增强语义特征, 获得通道注意力特征图Fc,具体的表达式为:
其中,γ为可学习的比例参数,初始化为1,Fc的维度为C×H×W;
步骤S23:将维度为C×H×W通道注意力特征图Fc作为空间注意力模块的 输入,首先对输入的特征Fc分别应用三个1×1卷积层改变其通道数,并改变其 维度得到三个新的查询Q′、键K′和值V′,其中Q′,K′的维度为C/8×N,V′的维度 为C×N;具体的表达式为:
Q′=w1(Fc)+b1
K′=w2(Fc)+b2
V′=w3(Fc)+b3
其中,w1和b1、w2和b2、w3和b3分别为三个不同1×1卷积层的权重和偏 置;
步骤S24:通过对Q′的转置Q′T和K′执行矩阵乘法计算相似度得到注意力权重, 并采用Softmax层对权重进行归一化,得到空间注意力权重矩阵X′,具体的表 达式为:
然后将得到的空间注意力权重矩阵X′的转置X′T与值V′进行矩阵乘法,并将其 维度调整为C×H×W。通过残差结构将得到的结果和通道注意力特征图Fc进行 连接,以增强语义特征,获得空间注意力特征图Fp,具体的表达式为:
其中,γ′为可学习的比例参数,初始化为1,Fp的维度为C×H×W;
步骤S25:将S22步骤中得到的通道注意力图Fc和S24步骤中得到的空间注 意力图Fp与输入的特征图F4进行拼接,拼接后的特征图维度为3C×H×W,进 而通过一个1×1卷积层改变其维度为C×H×W,具体的表达式为:
F′=Concat(F4,Fp,Fc)
Fm=w3(F′)+b3
其中,Concat(·)表示特征在新的维度上进行拼接,w3,b3是1×1卷积层的 权重和偏置,Fm为经过混合注意力模块后语义增强的特征图;
在本实施例中,所述步骤S3具体包括以下步骤:
然后将归一化后的结果及其取反后的结果与当前级别的特征图Fl逐元素相 乘,分别生成前景注意力特征图Ffa和背景注意力特征图Fba,计算公式如下:
Ffa=Fl×yup
Fba=Fl×(1-yup)
其中U代表双线性上采样,Sigmoid(·)表示Sigmoid激活函数,×表示逐 元素相乘;
步骤S32:融合上下文信息的细化模块包含两个上下文推理模块,将步骤 S31中得到的前景注意力特征图Ffa和背景注意力特征图Fba以并行的方式送入上 述的上下文推理模块,分别得到假阳性干扰Ffpd和假阴性干扰Ffnd;
步骤S33:调整上一级别的特征图Fh的维度与当前级别的特征图Fl的维度一 致,对步骤S32得到的假阳性干扰Ffpd和假阴性干扰Ffnd进行逐元素相减来消除 假阳性干扰、逐元素相加来消除假阴性干扰,从而修正上一级别的特征图Fh,得 到更加细化的特征图Fr,其计算公式为:
Fup=U(CBR(Fh))
Fr=BR(Fup-αFfpd)
Fr=BR(Fr+βFfnd)
其中α和β为可学习的比例参数,初始化为1,CBR表示卷积、批归一化层和 ReLU激活函数的组合,BR表示批归一化层和ReLU函数的组合,U代表双线性 上采样;
最后对Fr应用卷积核大小为7×7、填充为3的卷积层来得到细化后的预测图。
进一步的,所述上下文推理模块由四个上下文推理分支组成,每个分支将输 入的特征图E依次经过一个3×3卷积层使其通道数缩减至原来的1/4,一个Ki×Ki卷积层进行局部特征提取,一个卷积核大小为3×3、扩张率为ri的空洞卷积融合 上下文信息,其中第i(i=1,2,3,4)个分支的Ki和ri分别为{1,3,5,7}和{1,2,4,8};第 i(i=1,2,3)个分支的输出都会被送入i+1个分支,使得特征图在更大的感受野 下进一步被处理;最后在通道维度上对四个上下文推理分支的输出结果进行拼接, 并经过一个3×3卷积进行特征融合得到干扰图E′,其计算公式为:
Ei_1=wi_1(E)+bi_1
Ei_3=wi_3(Ei_2)+bi_3
E′=w4(Concat(E1_3,E2_3,E3_3,E4_3))+b4
其中,Ei_1表示经过第i个分支中用于通道缩减的3×3卷积层后输出的特征, wi_1和bi_1对应其权重和偏置;Ei_2表示经过第i个分支中用于局部特征提取的 Ki×Ki卷积层后输出的特征,wi_2和bi_2对应其权重和偏置;Ei_3表示经过第i个 分支中用于融合上下文信息的空洞卷积后输出的特征,wi_3和bi_3对应其权重和偏 置;Concat(·)表示特征在新的维度上进行拼接,w4和b4对应于用于特征融合的 卷积层的权重和偏置,E′表示得到的干扰图。
在本实施例中,所述步骤S4具体包括以下步骤:
步骤S41:以ResNet50作为基础网络架构,使用其特征提取网络对步骤S1 预处理之后的篡改图像进行特征提取,得到四个通道数分别为2048、1024、512、 256维的特征图X1、X2、X3、X4。通过卷积层、批量归一化层、ReLU层将四个 级别特征图的通道数缩减至原来的1/4得到多尺度特征图F1、F2、F3、F4,其通 道数分别为512、256、128、64维。将特征图F4作为混合注意力模块的输入,得 到语义增强后的特征图Fm及篡改区域的初始预测图将语义增强后的特征图 Fm和多尺度特征图F1、F2、F3以自顶向上的方式输入三个细化模块,分别得到 三个细化后的特征图Fr 1、Fr 2、Fr 3以及篡改区域预测图选取第三 个细化模块输出的预测图作为最终的预测结果;
步骤S44:基于混合注意力机制的多尺度图像篡改检测网络模型的总损失函 数Lossall公式如下:
根据基于混合注意力机制的多尺度图像篡改检测网络模型的总损失函数,利 用反向传播方法计算图像篡改检测网络模型中各参数的梯度,并利用Adam优化 算法更新参数;
步骤S45:以批次为单位重复上述步骤S41至步骤S44,直至步骤S44中计 算得到的总损失值收敛并趋于稳定,一共训练了60个epoch。保存网络参数, 完成基于混合注意力机制的多尺度图像篡改检测网络模型的训练过程。
进一步的,所述混合注意力模块的损失函数Lossm如下:
Lossm=lossbce+lossiou
细化模块的损失函数Lossf如下:
Lossf=losswbce+losswiou
在本实施例中,所述步骤S5具体包括以下步骤:
步骤S51:将测试集中的图像输入到训练好的基于混合注意力机制的多尺度 图像篡改检测模型中,并将其大小调整为原始篡改图像的尺寸,即可得到对应的 篡改区域掩码图。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变 化与修饰,皆应属本发明的涵盖范围。
Claims (8)
1.一种基于混合注意力机制的多尺度图像篡改检测方法,其特征在于,包括以下步骤:
步骤S1:获取篡改数据集并划分为训练集和测试集,然后对训练集中的篡改图像和标签进行数据预处理;
步骤S2:构建融合通道注意力和空间注意力的混合注意力模块,增强篡改图像的语义信息,得到篡改区域的初始预测图;
步骤S3:构建融合上下文信息的细化模块,使用多尺度特征对篡改区域的初始预测图进行细化;
步骤S4:构建并训练基于混合注意力机制的多尺度图像篡改检测模型;
步骤S5:将篡改图像输入到训练好的基于混合注意力机制的多尺度图像篡改检测模型中,输出对应的篡改区域掩码图。
2.根据权利要求1所述的基于混合注意力机制的多尺度图像篡改检测方法,其特征在于,所述步骤S1具体为:
步骤S11:获取篡改数据集并按预设比例划分为训练集和测试集;
步骤S12:对训练集中的图像及标签进行数据增强来增加数据集中的样本数量;
步骤S13:对数据增强后的图像及标签进行预处理,包括大小缩放至固定大小,归一化操作,将数据转化为标准正态分布。
3.根据权利要求1所述的基于混合注意力机制的多尺度图像篡改检测方法,其特征在于,所述步骤S2具体为:
步骤S21:将来自前序模块中维度为C×H×W的特征图F4作为通道注意力模块的输入,其中C、H和W分别代表特征图的通道数、高度和宽度;通过改变特征图F4的维度得到查询Q、键K、值V,Q、K、V的维度均为C×N,其中N=H×W表示图像的像素个数;
步骤S22:通过对Q和K的转置矩阵执行矩阵乘法计算相似度得到注意力权重,并采用Softmax层对权重进行归一化,得到通道注意力权重矩阵X,具体的表达式为:
然后,将得到的通道注意力权重矩阵X与值V相乘,并将其维度调整为C×H×W;通过残差结构将得到的结果和输入特征图F4进行连接,以增强语义特征,获得通道注意力特征图Fc,具体的表达式为:
其中,γ为可学习的比例参数,Fc的维度为C×H×W;
步骤S23:将维度为C×H×W通道注意力特征图Fc作为空间注意力模块的输入,首先对输入的特征Fc分别应用三个1×1卷积层改变其通道数,并改变其维度得到三个新的查询Q′、键K′和值V′,其中Q′,K′的维度为C/8×N,V′的维度为C×N;具体的表达式为:
Q′=w1(Fc)+b1
K′=w2(Fc)+b2
V′=w3(Fc)+b3
其中,w1和b1、w2和b2、w3和b3分别为三个不同1×1卷积层的权重和偏置;
步骤S24:通过对Q′的转置Q′T和K′执行矩阵乘法计算相似度得到注意力权重,并采用Softmax层对权重进行归一化,得到空间注意力权重矩阵X′,具体的表达式为:
然后将得到的空间注意力权重矩阵X′的转置X′T与值V′进行矩阵乘法,并将其维度调整为C×H×W。通过残差结构将得到的结果和通道注意力特征图Fc进行连接,以增强语义特征,获得空间注意力特征图Fp,具体的表达式为:
其中,γ′为可学习的比例参数,初始化为1,Fp的维度为C×H×W;
步骤S25:将S22步骤中得到的通道注意力图Fc和S24步骤中得到的空间注意力图Fp与输入的特征图F4进行拼接,拼接后的特征图维度为3C×H×W,进而通过一个1×1卷积层改变其维度为C×H×W,具体的表达式为:
F′=Concat(F4,Fp,Fc)
Fm=w3(F′)+b3
其中,Concat(·)表示特征在新的维度上进行拼接,w3,b3是1×1卷积层的权重和偏置,Fm为经过混合注意力模块后语义增强的特征图;
4.根据权利要求1所述的基于混合注意力机制的多尺度图像篡改检测方法,其特征在于,所述步骤S3具体为:
然后将归一化后的结果及其取反后的结果与当前级别的特征图Fl逐元素相乘,分别生成前景注意力特征图Ffa和背景注意力特征图Fba,计算公式如下:
Ffa=Fl×yup
Fba=Fl×(1-yup)
其中U代表双线性上采样,Sigmoid(·)表示Sigmoid激活函数,×表示逐元素相乘;
步骤S32:融合上下文信息的细化模块包含两个上下文推理模块,将步骤S31中得到的前景注意力特征图Ffa和背景注意力特征图Fba以并行的方式送入上述的上下文推理模块,分别得到假阳性干扰Ffpd和假阴性干扰Ffnd;
步骤S33:调整上一级别的特征图Fh的维度与当前级别的特征图Fl的维度一致,对步骤S32得到的假阳性干扰Ffpd和假阴性干扰Ffnd进行逐元素相减来消除假阳性干扰、逐元素相加来消除假阴性干扰,从而修正上一级别的特征图Fh,得到更加细化的特征图Fr,其计算公式为:
Fup=U(CBR(Fh))
Fr=BR(Fup-αFfpd)
Fr=BR(Fr+βFfnd)
其中α和β为可学习的比例参数,初始化为1,CBR表示卷积、批归一化层和ReLU激活函数的组合,BR表示批归一化层和ReLU函数的组合,U代表双线性上采样;
最后对Fr应用卷积核大小为7×7、填充为3的卷积层来得到细化后的预测图。
5.根据权利要求4所述的基于混合注意力机制的多尺度图像篡改检测方法,其特征在于,所述上下文推理模块由四个上下文推理分支组成,每个分支将输入的特征图E依次经过一个3×3卷积层使其通道数缩减至原来的1/4,一个Ki×Ki卷积层进行局部特征提取,一个卷积核大小为3×3、扩张率为ri的空洞卷积融合上下文信息,其中第i(i=1,2,3,4)个分支的Ki和ri分别为{1,3,5,7}和{1,2,4,8};第i(i=1,2,3)个分支的输出都会被送入i+1个分支,使得特征图在更大的感受野下进一步被处理;最后在通道维度上对四个上下文推理分支的输出结果进行拼接,并经过一个3×3卷积进行特征融合得到干扰图E′,其计算公式为:
Ei_1=wi_1(E)+bi_1
Ei_3=wi_3(Ei_2)+bi_3
E′=w4(Concat(E1_3,E2_3,E3_3,E4_3))+b4
其中,Ei_1表示经过第i个分支中用于通道缩减的3×3卷积层后输出的特征,wi_1和bi_1对应其权重和偏置;Ei_2表示经过第i个分支中用于局部特征提取的Ki×Ki卷积层后输出的特征,wi_2和bi_2对应其权重和偏置;Ei_3表示经过第i个分支中用于融合上下文信息的空洞卷积后输出的特征,wi_3和bi_3对应其权重和偏置;Concat(·)表示特征在新的维度上进行拼接,w4和b4对应于用于特征融合的卷积层的权重和偏置,E′表示得到的干扰图。
6.根据权利要求1所述的基于混合注意力机制的多尺度图像篡改检测方法,其特征在于,所述步骤S4具体为:
步骤S41:以ResNet50作为基础网络架构,使用其特征提取网络对步骤S1预处理之后的篡改图像进行特征提取,得到四个通道数不同的特征图X1、X2、X3、X4;通过卷积层、批量归一化层、ReLU层将四个级别特征图的通道数缩减至原来的1/4得到多尺度特征图F1、F2、F3、F4;将特征图F4作为混合注意力模块的输入,得到语义增强后的特征图Fm及篡改区域的初始预测图将语义增强后的特征图Fm和多尺度特征图F1、F2、F3以自顶向上的方式输入三个细化模块,分别得到三个细化后的特征图Fr 1、Fr 2、Fr 3以及篡改区域预测图选取第三个细化模块输出的预测图作为最终的预测结果;
步骤S44:基于混合注意力机制的多尺度图像篡改检测网络模型的总损失函数Lossall公式如下:
根据基于混合注意力机制的多尺度图像篡改检测网络模型的总损失函数,利用反向传播方法计算图像篡改检测网络模型中各参数的梯度;
步骤S45:以批次为单位重复上述步骤S41至步骤S44,直至步骤S44中计算得到的总损失值收敛并趋于稳定,保存网络参数,完成基于混合注意力机制的多尺度图像篡改检测网络模型的训练过程。
8.根据权利要求1所述的基于混合注意力机制的多尺度图像篡改检测方法,其特征在于,所述步骤S5具体为:将测试集中的图像输入到训练好的基于混合注意力机制的多尺度图像篡改检测模型中,并将其大小调整为原始篡改图像的尺寸,即可得到对应的篡改区域掩码图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210793450.5A CN115578626A (zh) | 2022-07-07 | 2022-07-07 | 基于混合注意力机制的多尺度图像篡改检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210793450.5A CN115578626A (zh) | 2022-07-07 | 2022-07-07 | 基于混合注意力机制的多尺度图像篡改检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115578626A true CN115578626A (zh) | 2023-01-06 |
Family
ID=84578633
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210793450.5A Pending CN115578626A (zh) | 2022-07-07 | 2022-07-07 | 基于混合注意力机制的多尺度图像篡改检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115578626A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116778307A (zh) * | 2023-08-18 | 2023-09-19 | 北京航空航天大学 | 一种基于不确定性引导的图像篡改检测方法 |
CN116895030A (zh) * | 2023-09-11 | 2023-10-17 | 西华大学 | 基于目标检测算法和注意力机制的绝缘子检测方法 |
CN116935200A (zh) * | 2023-09-19 | 2023-10-24 | 南京信息工程大学 | 面向审计的图像篡改检测方法、系统、设备及存储介质 |
CN116971052A (zh) * | 2023-07-07 | 2023-10-31 | 杭州帝凯工业布有限公司 | 一种高强度尼龙长丝及其制备方法 |
-
2022
- 2022-07-07 CN CN202210793450.5A patent/CN115578626A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116971052A (zh) * | 2023-07-07 | 2023-10-31 | 杭州帝凯工业布有限公司 | 一种高强度尼龙长丝及其制备方法 |
CN116971052B (zh) * | 2023-07-07 | 2024-03-08 | 杭州帝凯工业布有限公司 | 一种高强度尼龙长丝及其制备方法 |
CN116778307A (zh) * | 2023-08-18 | 2023-09-19 | 北京航空航天大学 | 一种基于不确定性引导的图像篡改检测方法 |
CN116778307B (zh) * | 2023-08-18 | 2023-12-12 | 北京航空航天大学 | 一种基于不确定性引导的图像篡改检测方法 |
CN116895030A (zh) * | 2023-09-11 | 2023-10-17 | 西华大学 | 基于目标检测算法和注意力机制的绝缘子检测方法 |
CN116895030B (zh) * | 2023-09-11 | 2023-11-17 | 西华大学 | 基于目标检测算法和注意力机制的绝缘子检测方法 |
CN116935200A (zh) * | 2023-09-19 | 2023-10-24 | 南京信息工程大学 | 面向审计的图像篡改检测方法、系统、设备及存储介质 |
CN116935200B (zh) * | 2023-09-19 | 2023-12-19 | 南京信息工程大学 | 面向审计的图像篡改检测方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115578626A (zh) | 基于混合注意力机制的多尺度图像篡改检测方法 | |
CN114913565B (zh) | 人脸图像检测方法、模型训练方法、装置及存储介质 | |
Sim et al. | Blind stereoscopic image quality evaluator based on binocular semantic and quality channels | |
CN113284100A (zh) | 基于恢复图像对混合域注意力机制的图像质量评价方法 | |
CN111652864A (zh) | 一种基于条件式生成对抗网络的铸件缺陷图像生成方法 | |
Wei et al. | Universal deep network for steganalysis of color image based on channel representation | |
CN115393698A (zh) | 一种基于改进dpn网络的数字图像篡改检测方法 | |
CN117292117A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN112233017A (zh) | 一种基于生成对抗网络的病态人脸数据增强方法 | |
CN117558011B (zh) | 基于自一致性矩阵和多尺度损失的图像文本篡改检测方法 | |
CN111563462A (zh) | 图像元素的检测方法及装置 | |
CN114792385A (zh) | 一种金字塔分离双注意力的少样本细粒度图像分类方法 | |
CN113033305B (zh) | 活体检测方法、装置、终端设备和存储介质 | |
CN113111906A (zh) | 一种基于单对图像训练的条件生成对抗网络模型的方法 | |
CN112883930A (zh) | 基于全连接网络的实时真假运动判断方法 | |
CN116958736A (zh) | 一种基于跨模态边缘引导的rgb-d显著性目标检测方法 | |
CN111598144A (zh) | 图像识别模型的训练方法和装置 | |
CN114638984B (zh) | 一种基于胶囊网络的恶意网站url检测方法 | |
Wang et al. | Se-resnet56: Robust network model for deepfake detection | |
CN118470808B (zh) | 基于局部卷积与语义信息的活体检测装置与方法 | |
CN115311525B (zh) | 深度伪造检测方法及对应装置 | |
CN112613341B (zh) | 训练方法及装置、指纹识别方法及装置、电子设备 | |
Guan et al. | Binary steganography based on generative adversarial nets | |
CN118333953A (zh) | 轻量高精的复制移动篡改检测方法 | |
CN117351577A (zh) | 图像处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |