CN115082774A - 基于双流自注意力神经网络的图像篡改定位方法及系统 - Google Patents

基于双流自注意力神经网络的图像篡改定位方法及系统 Download PDF

Info

Publication number
CN115082774A
CN115082774A CN202210858439.2A CN202210858439A CN115082774A CN 115082774 A CN115082774 A CN 115082774A CN 202210858439 A CN202210858439 A CN 202210858439A CN 115082774 A CN115082774 A CN 115082774A
Authority
CN
China
Prior art keywords
attention
self
image
matrix
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210858439.2A
Other languages
English (en)
Other versions
CN115082774B (zh
Inventor
钟浩
梁炜健
黄远航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Original Assignee
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University filed Critical South China Agricultural University
Priority to CN202210858439.2A priority Critical patent/CN115082774B/zh
Publication of CN115082774A publication Critical patent/CN115082774A/zh
Application granted granted Critical
Publication of CN115082774B publication Critical patent/CN115082774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/95Pattern authentication; Markers therefor; Forgery detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/32Indexing scheme for image data processing or generation, in general involving image mosaicing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像篡改定位技术领域,提出一种基于双流自注意力神经网络的图像篡改定位方法及系统,包括以下步骤:将待检测定位的输入图像进行约束卷积滤波处理,得到滤波图像;将输入图像和滤波图像分别进行重组编码后,分别输入基于自注意力的第一篡改图像编码器和第二篡改图像编码器中,分别输出第一特征图和第二特征图;其中,第一篡改图像编码器和第二篡改图像编码器中每个计算阶段包括若干堆叠设置的自注意力模块;将第一特征图和第二特征图进行拼接后,分别经过通道域和空间域解码,得到篡改区域定位结果。本发明通过自注意力神经网络捕获局部与全局不一致的能力,并通过RGB模态与异常噪声提取模态的互补,有效提高了篡改图像定位的精度。

Description

基于双流自注意力神经网络的图像篡改定位方法及系统
技术领域
本发明涉及图像篡改定位技术领域,更具体地,涉及一种基于双流自注意力神经网络的图像篡改定位方法及系统。
背景技术
目前对于数字图像的篡改研究主要集中在对篡改图像的篡改区域进行定位上,基于深度学习方法在图像篡改定位任务上具有十分优异的效果,评价指标远远优于手工提取特征(如重采样特征、色彩滤波阵列(CFA、color filter array)等)的传统算法。
目前大部分基于深度学习的取证算法是基于卷积神经网络的,卷积神经网络通过堆叠卷积层能够获得较长距离的感受野,但每一层还是通过多个卷积核采用滑动窗口的方式计算像素之间的关系,无法一次性捕获局部信息与全局信息之间的关系。如现有的图像篡改检测方法,提出对图像进行特征提取得到全局特征图,获取特征图对应的通道权重系数和空间权重系数;通过通道权重系数以及空间权重系数,对疑似篡改特征图进行重构,得到重构特征图;对重构特征图进行潜在篡改区域定位,得到篡改区域粗略位置信息;根据篡改区域粗略位置信息对所述全局特征图进行裁剪处理,获得对应位置的局部特征图;对局部特征图进行解码处理,得到待检测图像的篡改区域掩膜。其无法一次性捕获局部特征信息与全局特征信息,以及二者之间的关系,导致篡改图像定位精度效果难以满足使用需求。
发明内容
本发明为克服上述现有技术所述的无法一次性捕获局部信息与全局信息之间的关系导致篡改图像定位准确率低的缺陷,提供一种基于双流自注意力神经网络的图像篡改定位方法及系统。
为解决上述技术问题,本发明的技术方案如下:
基于双流自注意力神经网络的图像篡改定位方法,包括以下步骤:
将待检测定位的输入图像进行约束卷积滤波处理,得到滤波图像;
将所述输入图像和滤波图像分别进行重组编码后,分别输入基于自注意力的第一篡改图像编码器和第二篡改图像编码器中,分别输出第一特征图和第二特征图;其中,所述第一篡改图像编码器和第二篡改图像编码器中分别包括至少3个计算阶段,每个计算阶段包括若干堆叠设置的自注意力模块;
将第一特征图和第二特征图进行拼接后,分别经过通道域和空间域解码,得到篡改区域定位结果。
进一步地,本发明还提出一种基于双流自注意力神经网络的图像篡改定位系统,应用上述技术方案提出的图像篡改定位方法,其中包括:
第一篡改图像编码器,包括至少3个计算阶段,每个计算阶段包括若干堆叠设置的自注意力模块;第一篡改图像编码器用于对待检测定位的输入图像基于自注意力机制进行编码,输出第一特征图;
约束卷积滤波模块,用于对待检测定位的输入图像进行约束卷积滤波处理,得到滤波图像;
第二篡改图像编码器,包括至少3个计算阶段,每个计算阶段包括若干堆叠设置的自注意力模块;第二篡改图像编码器用于对滤波图像基于自适应空间域滤波和自注意力机制进行编码,输出第二特征图;
双流网络解码模块,用于将第一特征图和第二特征图进行拼接后,分别经过通道域和空间域解码,得到篡改区域定位结果。
与现有技术相比,本发明技术方案的有益效果是:本发明通过自注意力神经网络捕获局部与全局不一致的能力,基于自注意力机制捕获RGB模态上存在的可疑篡改区域,并基于自注意力机制捕获在频率特征上存在的可疑篡改区域,实现RGB模态与异常噪声提取模态的互补,有效提高篡改图像定位的精度。
附图说明
图1为本发明实施例的图像篡改定位方法的流程图。
图2为本发明实施例的自注意力模块的流程示意图。
图3为本发明实施例的通道域和空间域解码流程示意图。
图4为篡改图像示意图。
图5为篡改区域真实二值掩码图。
图6为本发明实施例的篡改区域定位结果图。
图7为本发明实施例的图像篡改定位系统的架构图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提出一种基于双流自注意力神经网络的图像篡改定位方法,如图1所示,为本实施例的图像篡改定位方法的流程图。
本实施例提出的基于双流自注意力神经网络的图像篡改定位方法中,包括以下步骤:
S1、将待检测定位的输入图像进行约束卷积滤波处理,得到滤波图像;
S2、将所述输入图像和滤波图像分别进行重组编码后,分别输入基于自注意力的第一篡改图像编码器和第二篡改图像编码器中,分别输出第一特征图和第二特征图;其中,所述第一篡改图像编码器和第二篡改图像编码器中分别包括至少3个计算阶段,每个计算阶段包括若干堆叠设置的自注意力模块;
S3、将第一特征图和第二特征图进行拼接后,分别经过通道域和空间域解码,得到篡改区域定位结果。
本实施例中,第一篡改图像编码器的输入为RGB三通道图像,目的在于通过自注意力机制捕获RGB模态上存在的可疑篡改区域,第二篡改图像编码器的输入为经过频率域自适应滤波的特征,目的在于通过自注意力机制捕获在频率特征上存在的可疑篡改区域。
对双流输出的特征图进行通道拼接,再通过一个双域注意力模块(通道域与空间域)进行解码,得出预测为篡改区域的二值图像定位掩码图作为篡改区域定位结果进行输出,其中二值图像中标记为“1”的区域(白色区域)为定位的篡改区域。
在一可选实施例中,第一篡改图像编码器和第二篡改图像编码器中的任一自注意力模块包括用于获取图像块间的关系信息的多头自注意力计算单元,和用于对图像各通道关系进行自学习加权的多层感知机。
其中,多头自注意力计算单元中包括若干并行的自注意力计算层,以及用于对并行的自注意力计算层的输出进行拼接和自学习的多头注意力层。
其中,输入自注意力模块的待检测定位的输入图像为RGB通道图像。
将输入图像进行重叠卷积,并进行重组编码后,得到维度为N×C的二维矩阵Z,其中N=(H×W),即N个被编码为C通道的像素(对应于原图中的一个块)。然后作为第一篡改图像编码器中,第一个计算阶段中的首个自注意力模块的输入。
将输入图像进行约束卷积滤波处理后同样地进行重叠卷积和重组编码,同样得到维度为N×C的二维矩阵Z,然后作为第二篡改图像编码器中,第一个计算阶段中的首个自注意力模块的输入。
本实施例中,第一篡改图像编码器和第二篡改图像编码器中包括3个计算阶段,对于第一个计算阶段和第二个计算阶段,分别对任一计算阶段最终得到的自注意力模块输出进行维度重组,重整为三维矩阵(由N×C矩阵重整为H×W×C矩阵,以便后续卷积操作),并通过重叠卷积操作对图像进行卷积和通道数变化。进行重叠卷积操作后,图像三维矩阵被进行倍率为卷积步长大小的缩小,通道数也进行了改变,然后输入下一计算阶段的自注意力模块中进行编码。
对于第三个计算阶段,对第三计算阶段最终的自注意力模块输出进行维度重组,重整为三维矩阵。
进一步地,在任一计算阶段的任一自注意力模块中,将二维矩阵Z输入自注意力计算层进行编码的步骤包括:
S2.1.1、将二维矩阵Z分别与三个由维度为C×C的可学习参数构成的自学习矩阵相乘,得到查询矩阵Q、键矩阵K和值矩阵V;
S2.1.2、通过内积计算对查询矩阵Q与键矩阵K进行匹配并进行缩放,避免内积结果太大,然后通过softmax函数激活得到归一化的权重矩阵,其大小为N×N;
S2.1.3、通过权重矩阵对值矩阵V进行加权处理,得到自注意力特征图;其表达式如下:
Figure BDA0003756510830000041
式中,Zl-1为输入第l层自注意力模块的图像,且Zl-1∈N×C;WQ、WK、WV∈C×C分别为具有可学习参数的矩阵,SA(·)表示自注意力机制算法。
其中,本实施例为了避免矩阵相乘结果太大,在进行softmax激活前将计算结果除以编码维度C的开方。
进一步地,为了尽可能捕获输入图像Zl-1中的关系信息,本实施例采用多头自注意力计算单元对自注意力计算单元的输出进行编码。
本实施例中,在任一计算阶段的任一自注意力模块中,多头注意力层进行编码的步骤包括:
S2.2.1、将并行的自注意力计算层输出的自注意力特征图采用多头注意力机制(MSA,Multihead Self Attention)在通道维度上进行拼接。
S2.2.2、在通道维度上与可学习参数矩阵相乘,得到多头注意力特征图。其表达式如下:
Figure BDA0003756510830000051
式中,SAm(Zl-1)表示图像Zl-1在第m个通道维度的自注意力特征图;[...;...;...]表示拼接操作;W0为一个具有可学习参数矩阵,且W0∈C×C。
m为关系头数,则每一头数的编码维度从C变为C/m,该C/m维度的信息由原来的C维度中分离出。
本实施例中,由于自注意力算法的输入与输出维度相同,即若输入维度为N×C/m,输出也为N×C/m,因此,将多头自注意力算法的m个维度为N×C/m的输出在通道维度上进行拼接,就能够得到N×C的输出,与图像Zl-1的大小一致,引入多头注意力机制能够使得算法在相同的计算量下捕获更丰富的关系信息。而后,为了使得多个关系头捕获的信息产生交互,在进行多头计算后,在通道维度上与矩阵W0相乘。
进一步地,在进行多头自注意力机制算法后,为了增强通道维度上的交互,本实施例通过多层感知机(MLP,Multilayer Perceptron),对各通道关系进行自学习加权。
本实施例中,所述多层感知机包括用于编码(通道)扩张的第一全连接层,以及用于编码(通道)恢复的第二全连接层。
在任一计算阶段的任一自注意力模块中,所述多层感知机进行编码的步骤包括:
S2.3.1、将多头注意力特征图输入所述多层感知机中对各通道关系进行自学习加权;其表达式如下:
Figure BDA0003756510830000052
式中,
Figure BDA0003756510830000053
表示图像Zl-1对应的多头注意力特征图;WL1、WL2分别为第一全连接层、第二全连接层中具有可学习参数的矩阵,且WL1∈C×4C,WL2∈4C×C;Conv3×3(·)表示进行二维展开后进行3×3的二维卷积;GELU(·)为GELU激活函数。
本实施例采用加入了一层维度为3×3的二维卷积层使得自注意力模块能够避免没有引入块位置信息的影响。
进一步地,本实施例中的自注意力模块中的多头自注意力计算单元和多层感知机采用残差连接方式连接。其表达式如下:
Figure BDA0003756510830000061
Figure BDA0003756510830000062
式中,Zl-1为输入第l层自注意力模块的图像,
Figure BDA0003756510830000063
为多头自注意力计算单元输出的多头注意力特征图,Zl为第l层自注意力模块输出的特征图;MSA(·)表示多头自注意力计算单元的编码处理,MLP(·)表示多层感知机的编码处理;LN(·)为归一化函数,用于进行通道上数据归一化,避免通道上的数据分布太离散。
本实施例引入了残差连接与数据归一化的方法,使得自注意力模块能够更好训练,避免遗忘问题和梯度消失问题。
如图2所示,为本实施例的自注意力模块的流程示意图。
本实施例中,第一篡改图像编码器与第二篡改图像编码器之间不共享可学习参数。
在一可选实施例中,本实施例对篡改区域定位结果进行八倍上采样与真实掩码进行损失计算,并进行反向传播更新参数,对第一篡改图像编码器和第二篡改图像编码器中的各可学习参数进行训练更新。
在一可选实施例中,将待检测定位的输入图像进行约束卷积滤波处理的步骤包括:采用约束卷积模块进行约束卷积滤波处理;其中,卷积核中心点的值固定为-1,无法进行自学习;卷积核中其他坐标的参数相加的值限制为1,且卷积核中其他非中心点坐标的参数可自学习;其表达式如下:
Figure BDA0003756510830000064
式中,ωk(0,0)表示约束卷积模块中第k个卷积核的中心点坐标对应的值,ωk(m,n)表示约束卷积模块中第k个卷积核的其他坐标对应的值。
在一可选实施例中,将第一特征图和第二特征图进行拼接后得到H×W×C的拼接矩阵Zori,拼接矩阵Zori分别经过通道域和空间域解码后相加处理的步骤包括:
S3.1、进行通道域加权:
将拼接矩阵Zori通过一个1×1的卷积核后,在长宽上进行展平,得到大小为(H×W)×C的二维矩阵ZC
将二维矩阵ZC的转置矩阵与ZC相乘,得到大小为C×C的通道注意力矩阵,再经过softmax函数进行归一化;
将二维矩阵ZC与归一化的C×C通道注意力矩阵的转置矩阵进行相乘,得到每一像素通道加权后的输出,将输出经过重组处理后与拼接矩阵Zori进行残差连接,得到通道域加权结果OutputC;其表达式如下:
ZC=ZoriWC
OutputC=Reshape(ZC×softmax(ZC TZC)T)+Zori
式中,Reshape(·)表示重组处理。
本步骤中,归一化的C×C通道注意力矩阵编码了各通道的相关关系。
S3.2、进行空间域加权:
将拼接矩阵Zori通过三个1×1的卷积核后,在长宽上进行展平,得到大小为(H×W)×C的二维矩阵ZSQ、ZSK、ZSV
将二维矩阵ZSQ与二维矩阵ZSK的转置进行向量乘法,得到大小为(H×W)×(H×W)的空间注意力矩阵,并通过softmax函数进行归一化;
将经过归一化的空间注意力矩阵乘以二维矩阵ZSV得到每一像素通道加权后的输出,将输出经过重组处理后与拼接矩阵Zori进行残差连接,得到空间域加权结果OutputS;其表达式如下:
ZSQ=ZoriWSQ,ZSK=ZoriWSK,ZSV=ZoriWSV
OutputS=Reshape(softmax(ZSQZSK T)×ZSV)+Zori
式中,WSQ、WSK、WSV分别为三个1×1的可学习卷积核。
本步骤中,归一化的(H×W)×(H×W)矩阵编码了通道间像数点之间的相关关系。
S3.3、将通道域加权结果OutputC和空间域加权结果OutputS进行相加处理,并通过一层卷积层降低通道数至1,再经过sigmoid函数的激活,得到二值掩码图作为篡改区域定位结果输出,其表达式如下:
Mask=sigmoid(Conv1×1(OutputC+OutputS))
式中,Mask为篡改区域定位结果,Conv1×1(·)表示进行1×1的二维卷积,sigmoid(·)表示sigmoid激活函数。
如图3所示,为本实施例的通道域和空间域解码流程示意图。
本实施例通过自注意力神经网络捕获局部与全局不一致的能力,并通过RGB模态与异常噪声提取模态的互补,有效提高篡改图像定位的精度。
实施例2
本实施例应用实施例1提出的基于双流自注意力神经网络的图像篡改定位方法,提出一具体实施过程。
本实施例中涉及的流程将训练、测试的图像都放缩为512×512的分辨率,以平衡篡改取证效果与训练算力的消耗。
本实施例中第一篡改图像编码器和第二篡改图像编码器中包括3个计算阶段,每一个计算阶段包括由不同数量的且为堆叠设置的自注意力模块组成。其中,第一阶段输入图像大小为64×64×128(H×W×C),其中64为矩阵的横纵大小,128为矩阵的通道数。每阶段图像矩阵的长宽大小分别为H/4×W/4、H/8×W/8、H/8×W/8。
本实施例中,对于第一篡改图像编码器和第二篡改图像编码器中的最后一个计算阶段,通过对最后一个自注意力模块输出的矩阵进行维度重组,使编码器保持图像三维矩阵大小不变,将输出通道减小,以减少后续双域注意力模块的计算量。
本实施例中,对于第一个计算阶段和第二个计算阶段,分别对任一计算阶段最终得到的自注意力模块输出进行维度重组,重整为三维矩阵(由N×C矩阵重整为H×W×C矩阵,以便后续卷积操作),并通过重叠卷积操作对图像进行卷积和通道数变化。进行重叠卷积操作后,图像三维矩阵被进行倍率为卷积步长大小的缩小,通道数也进行了改变,然后输入下一计算阶段的自注意力模块中进行编码。
本实施例中的篡改图像编码器的配置如下表1所示。
表1篡改图像编码器的配置
Figure BDA0003756510830000091
本实施例中的第二篡改图像编码器采用卷积核大小为5×5,输入通道数为3、输出通道数也为3的约束卷积模块,其通过卷积操作的方式对输入的RGB通道图像进行预处理,进行此预处理后、也就是进行空间域滤波后的图像再输入第二篡改图像编码器。
第一篡改图像编码器和第二篡改图像编码器最终输出H/8×W/8×64的图像(特征图)三维矩阵,需要进一步对这两个编码器中不同模态的注意力关注信息进行解码。
进一步地,本实施例应用实施例1提出的基于双流自注意力神经网络的图像篡改定位方法在CASIAv2篡改数据集上进行训练,将多个篡改数据集作为测试集。
在具体实施过程中,通过python语言编程实现,使用的神经网络框架为pytorch,操作系统为Ubuntu20.04,在配置有英伟达A6000的服务器上进行训练。训练采用的数据集为CASIAv2,训练采用的优化器为AdamW,初始学习率为0.0001,每20论迭代学习率会降低至原来0.8倍;训练时采用旋转、翻转、裁切、随机裁切放缩、色调变换等数据增强方式。网络输入为多张放缩为512×512×3的RGB三通道篡改图像,最后输出为64×64×1的篡改区域的二值图像定位掩码,将输出进行八倍上采样与真实掩码进行损失计算,并进行反向传播更新参数。
如图4~6所示,为本实施例的篡改图像示意图、篡改区域真实二值掩码,以及经过本实施例的图像篡改定位方法得到的篡改区域定位结果。
测试时设置篡改阈值为0.5,即某像素被以下算法输出大于0.5时,认为该像素为篡改像素。
评价指标为像素级别F1,像素级别F1为查准率P与查全率R的调和平均,该指标能够指示某方法的篡改定位性能。F1指标计算方式为:
Figure BDA0003756510830000101
其中,查准率P与查全率R的统计尺度为单张篡改图像中的所有像素,篡改像素为正样本。在某个篡改数据集上的F1指标为该数据集中的所有篡改图像像素级别F1的平均。由此得到如下表2所示的测试结果。
表2测试结果
Figure BDA0003756510830000102
由表2可知,本方法在四个测试数据集上的F1指标均高于三种经典的基于深度学习的篡改定位算法。在篡改方式较为简单的CASIAv1数据集,本方法的F1指标为0.488,大幅度领先次优方法SPAN,该方法在CASIAv1数据集上仅取得0.184的F1指标。在存在多种篡改与后处理方式的NIST数据集上,本方法的F1指标比次优方法SPAN高0.042,表明了本方法在较为困难的定位样本上有更优的性能。
实施例3
本实施例提出一种基于双流自注意力神经网络的图像篡改定位系统,应用实施例1提出的图像篡改定位方法。如图7所示,为本实施例的图像篡改定位系统的架构图。
本实施例提出的基于双流自注意力神经网络的图像篡改定位系统中,包括第一篡改图像编码器、约束卷积滤波模块、第二篡改图像编码器和双流网络解码模块。
其中,第一篡改图像编码器包括至少3个计算阶段,每个计算阶段包括若干堆叠设置的自注意力模块,用于对待检测定位的输入图像基于自注意力机制进行编码,输出第一特征图。
约束卷积滤波模块用于对待检测定位的输入图像进行约束卷积滤波处理,得到滤波图像。
第二篡改图像编码器与第一篡改图像编码器架构相同,包括至少3个计算阶段,每个计算阶段包括若干堆叠设置的自注意力模块,用于对滤波图像基于自适应空间域滤波和自注意力机制进行编码,输出第二特征图。
双流网络解码模块用于将第一特征图和第二特征图进行拼接后,分别经过通道域和空间域解码后相加处理,得到篡改区域定位结果。
其中,所述第一篡改图像编码器与所述第二篡改图像编码器之间不共享可学习参数。
在一可选实施例中,对于任一计算阶段中的任一自注意力模块,其中包括:
多头自注意力计算单元,所述多头自注意力计算单元中包括若干并行的自注意力计算层,以及与自注意力计算层输出端连接的多头注意力层。
其中,所述自注意力计算层用于对经过重组编码的N×C的二维矩阵Zl-1基于自注意力机制进行编码,得到自注意力特征图;所述多头注意力层用于将并行的自注意力计算层输出的自注意力特征图采用多头注意力机制在通道维度上进行拼接,并在通道维度上与可学习参数矩阵相乘,得到多头注意力特征图。
多层感知机,用于对多头注意力特征图中对各通道关系进行自学习加权,输出特征图Zl;所述多头自注意力计算单元和多层感知机采用残差连接方式连接。
进一步地,在一个计算阶段中还包括:
维度重组单元,用于对当前计算阶段中最后一个自注意力模块输出的特征图进行维度重组为三维矩阵。
和,重叠卷积单元,用于对经过维度重组的三维矩阵进行卷积和通道数变化处理,输出该计算阶段的特征图。
需要说明的是,对于第一篡改图像编码器和第二篡改图像编码器中最后一个计算阶段中,仅设置有维度重组单元,用于对当前计算阶段中最后一个自注意力模块输出的特征图进行维度重组为三维矩阵,然后输入双流网络解码模块。
在一具体实施过程中,待检测定位的输入图像为RGB通道图像。
将输入图像进行重叠卷积,并进行重组编码后,输入第一篡改图像编码器;将输入图像通过约束卷积滤波模块,然后进行重叠卷积及重组编码后,输入第二篡改图像编码器。
在任一计算阶段的任一自注意力模块中,自注意力计算层将经过重组编码的N×C的二维矩阵Z分别与三个由维度为C×C的可学习参数构成的自学习矩阵相乘,得到查询矩阵Q、键矩阵K和值矩阵V。通过内积计算对查询矩阵Q与键矩阵K进行匹配并进行缩放,然后通过softmax函数激活得到归一化的权重矩阵,再通过权重矩阵对值矩阵V进行加权处理,得到自注意力特征图。
在任一计算阶段的任一自注意力模块中,多头自注意力计算单元中的多头注意力层将并行的自注意力计算层分别输出的自注意力特征图采用多头注意力机制在通道维度上进行拼接,并在通道维度上与可学习参数矩阵相乘,得到多头注意力特征图。
多层感知机将多头注意力特征图输入所述多层感知机中对各通道关系进行自学习加权,且将多头自注意力计算单元和多层感知机采用残差连接方式连接,得到该层自注意力模块的输出,使得自注意力模块能够更好训练,避免遗忘问题和梯度消失问题。
进一步地,在任一计算阶段的最后一个自注意力模块中,多层感知机输出的特征图Zl依次经过维度重组单元的维度重组处理,以及重叠卷积单元的卷积和通道数变化处理后输出。
在一可选实例中,双流网络解码模块包括拼接单元、通道域加权单元、空间域加权单元和卷积单元。
其中,拼接单元用于对输入的第一特征图和第二特征图进行拼接后得到H×W×C的拼接矩阵Zori
通道域加权单元将拼接矩阵Zori通过一个1×1的卷积核在长宽上进行展平,得到大小为(H×W)×C的二维矩阵ZC;将二维矩阵ZC的转置矩阵与二维矩阵ZC相乘,得到大小为C×C的通道注意力矩阵,再经过softmax函数进行归一化;然后将二维矩阵ZC与归一化的C×C通道注意力矩阵的转置矩阵进行相乘,得到每一像素通道加权后的输出,将输出经过重组处理后与拼接矩阵Zori进行残差连接,得到通道域加权结果OutputC
空间域加权单元将拼接矩阵Zori通过三个1×1的卷积核在长宽上进行展平,得到大小为(H×W)×C的二维矩阵ZSQ、ZSK、ZSV;将二维矩阵ZSQ与二维矩阵ZSK的转置进行向量乘法,得到大小为(H×W)×(H×W)的空间注意力矩阵,并通过softmax函数进行归一化;然后将经过归一化的空间注意力矩阵乘以二维矩阵ZSV得到每一像素通道加权后的输出,将输出经过重组处理后与拼接矩阵Zori进行残差连接,得到空间域加权结果OutputS
卷积单元将通道域加权单元输出的通道域加权结果OutputC与空间域加权单元输出的空间域加权结果OutputS进行相加处理,并通过一层卷积层降低通道数至1,再经过sigmoid函数的激活,得到二值掩码图作为篡改区域定位结果输出。
相同或相似的标号对应相同或相似的部件;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.基于双流自注意力神经网络的图像篡改定位方法,其特征在于,包括以下步骤:
将待检测定位的输入图像进行约束卷积滤波处理,得到滤波图像;
将所述输入图像和滤波图像分别进行重组编码后,分别输入基于自注意力的第一篡改图像编码器和第二篡改图像编码器中,分别输出第一特征图和第二特征图;其中,所述第一篡改图像编码器和第二篡改图像编码器中分别包括至少3个计算阶段,每个计算阶段包括若干堆叠设置的自注意力模块;
将第一特征图和第二特征图进行拼接后,分别经过通道域和空间域解码,得到篡改区域定位结果。
2.根据权利要求1所述的图像篡改定位方法,其特征在于,所述自注意力模块包括用于获取图像块间的关系信息的多头自注意力计算单元,和用于对图像各通道关系进行自学习加权的多层感知机;所述多头自注意力计算单元中包括若干并行的自注意力计算层,以及用于对并行的自注意力计算层的输出进行拼接和自学习的多头注意力层;
其中所述第一篡改图像编码器与所述第二篡改图像编码器之间不共享可学习参数。
3.根据权利要求2所述的图像篡改定位方法,其特征在于,所述输入图像进行重组编码后得到维度为N×C的二维矩阵Z;将二维矩阵Z输入自注意力计算层进行编码的步骤包括:
将二维矩阵Z分别与三个由维度为C×C的可学习参数构成的自学习矩阵相乘,得到查询矩阵Q、键矩阵K和值矩阵V;
通过内积计算对查询矩阵Q与键矩阵K进行匹配并进行缩放,然后通过softmax函数激活得到归一化的权重矩阵;
通过权重矩阵对值矩阵V进行加权处理,得到自注意力特征图;其表达式如下:
Figure FDA0003756510820000011
式中,Zl-1为输入第l层自注意力模块的图像,WQ、WK、WV∈C×C分别为具有可学习参数的矩阵。
4.根据权利要求3所述的图像篡改定位方法,其特征在于,所述多头注意力层进行编码的步骤包括:将并行的自注意力计算层输出的自注意力特征图采用多头注意力机制在通道维度上进行拼接,并在通道维度上与可学习参数矩阵相乘,得到多头注意力特征图;其表达式如下:
Figure FDA0003756510820000021
式中,SAm(Zl-1)表示图像Zl-1在第m个通道维度的自注意力特征图;m为关系头数;[...;...;...]表示拼接操作;W0为一个可学习参数矩阵。
5.根据权利要求4所述的图像篡改定位方法,其特征在于,所述多层感知机包括用于编码扩张的第一全连接层,以及用于编码恢复的第二全连接层;所述多层感知机进行编码的步骤包括:
将多头注意力特征图输入所述多层感知机中对各通道关系进行自学习加权;其表达式如下:
Figure FDA0003756510820000022
式中,
Figure FDA0003756510820000023
表示图像Zl-1对应的多头注意力特征图;WL1、WL2分别为第一全连接层、第二全连接层中具有可学习参数的矩阵,且WL1∈C×4C,WL2∈4C×C;Conv3×3(·)表示进行二维展开后进行3×3的二维卷积;GELU(·)为GELU激活函数。
6.根据权利要求2~5任一项所述的图像篡改定位方法,其特征在于,所述自注意力模块中的多头自注意力计算单元和多层感知机采用残差连接方式连接;其表达式如下:
Figure FDA0003756510820000024
Figure FDA0003756510820000025
式中,Zl-1为输入第l层自注意力模块的图像,
Figure FDA0003756510820000026
为多头自注意力计算单元输出的多头注意力特征图,Zl为第l层自注意力模块输出的特征图;MSA(·)表示多头自注意力计算单元的编码处理,MLP(·)表示多层感知机的编码处理;LN(·)为归一化函数,用于进行通道上数据归一化。
7.根据权利要求1所述的图像篡改定位方法,其特征在于,将待检测定位的输入图像进行约束卷积滤波处理的步骤包括:
采用约束卷积模块进行约束卷积滤波处理;其中,卷积核中心点的值固定为-1,无法进行自学习;卷积核中其他坐标的参数相加的值限制为1,且卷积核中其他非中心点坐标的参数可自学习;其表达式如下:
Figure FDA0003756510820000031
式中,ωk(0,0)表示约束卷积模块中第k个卷积核的中心点坐标对应的值,ωk(m,n)表示约束卷积模块中第k个卷积核的其他坐标对应的值。
8.根据权利要求1所述的图像篡改定位方法,其特征在于,将第一特征图和第二特征图进行拼接后得到H×W×C的拼接矩阵Zori,拼接矩阵Zori分别经过通道域和空间域解码后相加处理的步骤包括:
(1)进行通道域加权:
将拼接矩阵Zori通过一个1×1的卷积核后,在长宽上进行展平,得到大小为(H×W)×C的二维矩阵ZC
将二维矩阵ZC的转置矩阵与二维矩阵ZC相乘,得到大小为C×C的通道注意力矩阵,再经过softmax函数进行归一化;
将二维矩阵ZC与归一化的C×C通道注意力矩阵的转置矩阵进行相乘,得到每一像素通道加权后的输出,将输出经过重组处理后与拼接矩阵Zori进行残差连接,得到通道域加权结果OutputC;其表达式如下:
ZC=ZoriWC
OutputC=Reshape(ZC×softmax(ZC TZC)T)+Zori
式中,Reshape(·)表示重组处理;
(2)进行空间域加权:
将拼接矩阵Zori通过三个1×1的卷积核后,在长宽上进行展平,得到大小为(H×W)×C的二维矩阵ZSQ、ZSK、ZSV
将二维矩阵ZSQ与二维矩阵ZSK的转置进行向量乘法,得到大小为(H×W)×(H×W)的空间注意力矩阵,并通过softmax函数进行归一化;
将经过归一化的空间注意力矩阵乘以二维矩阵ZSV得到每一像素通道加权后的输出,将输出经过重组处理后与拼接矩阵Zori进行残差连接,得到空间域加权结果OutputS;其表达式如下:
ZSQ=ZoriWSQ,ZSK=ZoriWSK,ZSV=ZoriWSV
OutputS=Reshape(softmax(ZSQZSK T)×ZSV)+Zori
式中,WSQ、WSK、WSV分别为三个1×1的可学习卷积核;
(3)将通道域加权结果OutputC和空间域加权结果OutputS进行相加处理,并通过一层卷积层降低通道数至1,再经过sigmoid函数的激活,得到二值掩码图作为篡改区域定位结果输出,其表达式如下:
Mask=sigmoid(Conv1×1(OutputC+OutputS))
式中,Mask为篡改区域定位结果,Conv1×1(·)表示进行1×1的二维卷积,sigmoid(·)表示sigmoid激活函数。
9.基于双流自注意力神经网络的图像篡改定位系统,应用权利要求1~8任一项所述的图像篡改定位方法,其特征在于,包括:
第一篡改图像编码器,包括至少3个计算阶段,每个计算阶段包括若干堆叠设置的自注意力模块;第一篡改图像编码器用于对待检测定位的输入图像基于自注意力机制进行编码,输出RGB通道上的第一特征图;
约束卷积滤波模块,用于对待检测定位的输入图像进行约束卷积滤波处理,得到滤波图像;
第二篡改图像编码器,包括至少3个计算阶段,每个计算阶段包括若干堆叠设置的自注意力模块;所述第二篡改图像编码器用于对滤波图像基于自适应空间域滤波和自注意力机制进行编码,输出第二特征图;
双流网络解码模块,用于将第一特征图和第二特征图进行拼接后,分别经过通道域和空间域解码,得到篡改区域定位结果。
10.根据权利要求9所述的图像篡改定位系统,其特征在于,所述自注意力模块包括:
多头自注意力计算单元,所述多头自注意力计算单元中包括若干并行的自注意力计算层,以及与自注意力计算层输出端连接的多头注意力层;
其中,所述自注意力计算层用于对经过重组编码的N×C的二维矩阵Zl-1基于自注意力机制进行编码,得到自注意力特征图;所述多头注意力层用于将并行的自注意力计算层输出的自注意力特征图采用多头注意力机制在通道维度上进行拼接,并在通道维度上与可学习参数矩阵相乘,得到多头注意力特征图;
多层感知机,用于对多头注意力特征图中对各通道关系进行自学习加权,输出特征图Zl;所述多头自注意力计算单元和多层感知机采用残差连接方式连接;
所述第一篡改图像编码器与所述第二篡改图像编码器之间不共享可学习参数。
CN202210858439.2A 2022-07-20 2022-07-20 基于双流自注意力神经网络的图像篡改定位方法及系统 Active CN115082774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210858439.2A CN115082774B (zh) 2022-07-20 2022-07-20 基于双流自注意力神经网络的图像篡改定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210858439.2A CN115082774B (zh) 2022-07-20 2022-07-20 基于双流自注意力神经网络的图像篡改定位方法及系统

Publications (2)

Publication Number Publication Date
CN115082774A true CN115082774A (zh) 2022-09-20
CN115082774B CN115082774B (zh) 2024-07-26

Family

ID=83242757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210858439.2A Active CN115082774B (zh) 2022-07-20 2022-07-20 基于双流自注意力神经网络的图像篡改定位方法及系统

Country Status (1)

Country Link
CN (1) CN115082774B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116298936A (zh) * 2023-05-19 2023-06-23 河南科技学院 在不完全电压范围内的锂离子电池智能健康状态预测方法
CN116797787A (zh) * 2023-05-22 2023-09-22 中国地质大学(武汉) 基于跨模态融合与图神经网络的遥感影像语义分割方法
CN116824599A (zh) * 2023-06-27 2023-09-29 广州市南方人力资源评价中心有限公司 答题卡主观题手写体文字检测和识别方法及装置
CN117456171A (zh) * 2023-12-26 2024-01-26 中国海洋大学 基于抑制相关区域挖掘的复制移动篡改检测方法及系统
CN117912488A (zh) * 2024-01-30 2024-04-19 合肥工业大学 通用音频篡改定位方法、系统、存储介质和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080629A (zh) * 2019-12-20 2020-04-28 河北工业大学 一种图像拼接篡改的检测方法
CN112215223A (zh) * 2020-10-16 2021-01-12 清华大学 基于多元注意力机制的多方向场景文字识别方法及系统
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
CN113935365A (zh) * 2021-09-27 2022-01-14 华南农业大学 基于空域和频域双特征的深度伪造视频鉴定方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080629A (zh) * 2019-12-20 2020-04-28 河北工业大学 一种图像拼接篡改的检测方法
US20210390723A1 (en) * 2020-06-15 2021-12-16 Dalian University Of Technology Monocular unsupervised depth estimation method based on contextual attention mechanism
CN112215223A (zh) * 2020-10-16 2021-01-12 清华大学 基于多元注意力机制的多方向场景文字识别方法及系统
US20220121871A1 (en) * 2020-10-16 2022-04-21 Tsinghua University Multi-directional scene text recognition method and system based on multi-element attention mechanism
CN113935365A (zh) * 2021-09-27 2022-01-14 华南农业大学 基于空域和频域双特征的深度伪造视频鉴定方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116298936A (zh) * 2023-05-19 2023-06-23 河南科技学院 在不完全电压范围内的锂离子电池智能健康状态预测方法
CN116797787A (zh) * 2023-05-22 2023-09-22 中国地质大学(武汉) 基于跨模态融合与图神经网络的遥感影像语义分割方法
CN116797787B (zh) * 2023-05-22 2024-01-02 中国地质大学(武汉) 基于跨模态融合与图神经网络的遥感影像语义分割方法
CN116824599A (zh) * 2023-06-27 2023-09-29 广州市南方人力资源评价中心有限公司 答题卡主观题手写体文字检测和识别方法及装置
CN117456171A (zh) * 2023-12-26 2024-01-26 中国海洋大学 基于抑制相关区域挖掘的复制移动篡改检测方法及系统
CN117456171B (zh) * 2023-12-26 2024-03-22 中国海洋大学 基于抑制相关区域挖掘的复制移动篡改检测方法及系统
CN117912488A (zh) * 2024-01-30 2024-04-19 合肥工业大学 通用音频篡改定位方法、系统、存储介质和电子设备
CN117912488B (zh) * 2024-01-30 2024-08-16 合肥工业大学 通用音频篡改定位方法、系统、存储介质和电子设备

Also Published As

Publication number Publication date
CN115082774B (zh) 2024-07-26

Similar Documents

Publication Publication Date Title
CN115082774B (zh) 基于双流自注意力神经网络的图像篡改定位方法及系统
CN113538246B (zh) 基于无监督多阶段融合网络的遥感图像超分辨率重建方法
CN115311720B (zh) 一种基于Transformer的deepfake生成方法
CN113298716B (zh) 基于卷积神经网络的图像超分辨率重建方法
CN116343052B (zh) 一种基于注意力和多尺度的双时相遥感图像变化检测网络
CN114972746B (zh) 一种基于多分辨率重叠注意力机制的医学影像分割方法
CN114881871A (zh) 一种融合注意力单幅图像去雨方法
CN115631107A (zh) 边缘引导的单幅图像噪声去除
CN112785480B (zh) 基于频域变换和残差反馈模块的图像拼接篡改检测方法
CN114511798A (zh) 基于transformer的驾驶员分心检测方法及装置
CN114842351A (zh) 一种基于孪生Transformers的遥感图像语义变化检测方法
CN116091916A (zh) 一种多尺度从rgb图像重建对应的高光谱图像算法及系统
CN113379606A (zh) 一种基于预训练生成模型的人脸超分辨方法
CN117095287A (zh) 一种基于时空交互Transformer模型的遥感图像变化检测方法
CN117408924A (zh) 一种基于多重语义特征融合网络的低光照图像增强方法
CN115578262A (zh) 基于afan模型的偏振图像超分辨率重建方法
CN116994564A (zh) 一种语音数据的处理方法及处理装置
CN113111945A (zh) 一种基于变换自编码器的对抗样本防御方法
CN117315336A (zh) 花粉颗粒识别方法、装置、电子设备及存储介质
CN116468638A (zh) 一种基于生成和鉴别平衡对抗的人脸图像修复方法及系统
CN116862765A (zh) 一种医学影像超分辨率重建方法及系统
CN116758092A (zh) 图像分割方法、装置、电子设备及存储介质
CN115131414A (zh) 基于深度学习的无人机图像对齐方法、电子设备和存储介质
CN116778539A (zh) 基于注意力机制的人脸图像超分辨率网络模型及处理方法
CN114170061A (zh) 基于SE-ResNet的图像隐写方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant