CN116363489A - 一种复制粘贴篡改图像数据检测方法、装置、计算机及计算机可读存储介质 - Google Patents

一种复制粘贴篡改图像数据检测方法、装置、计算机及计算机可读存储介质 Download PDF

Info

Publication number
CN116363489A
CN116363489A CN202310338491.XA CN202310338491A CN116363489A CN 116363489 A CN116363489 A CN 116363489A CN 202310338491 A CN202310338491 A CN 202310338491A CN 116363489 A CN116363489 A CN 116363489A
Authority
CN
China
Prior art keywords
features
feature
module
image
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310338491.XA
Other languages
English (en)
Inventor
梁鹏
沈响响
李梓源
郝刚
梁鹏飞
赵慧民
刘少鹏
涂航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202310338491.XA priority Critical patent/CN116363489A/zh
Publication of CN116363489A publication Critical patent/CN116363489A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/95Pattern authentication; Markers therefor; Forgery detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种复制粘贴篡改图像数据检测方法、装置、计算机及计算机可读存储介质,所述方法包括:将待检测图像输入至双分支特征提取网络中,分别提取出相似性特征和边缘伪影特征;将双分支提取出来的多尺度、多种类特征输入进特征融合解码器模块中进行特征融合,以增加上下文互补信息,去除干扰冗余信息;将融合后的特征经过注意力模块进行反解码,同时经过双线性插值上采样等后处理操作输出最终结果。本发明构建了新的深度学习框架,通过学习现有公共数据集来完成复制粘贴篡改图像源/目标检测与定位任务。

Description

一种复制粘贴篡改图像数据检测方法、装置、计算机及计算机 可读存储介质
技术领域
本发明涉及图像处理技术领域,特别是指一种数据处理方法、装置、计算机及计算机可读存储介质。
背景技术
图像复制粘贴篡改是指在一张图像上复制某些区域(源区域),并将这些区域粘贴到同一张图像的其他区域中(目标区域),以此来达到内容添加或者内容移除的目的。
当前检测复制粘贴篡改的方法大多基于三个步骤:特征提取、特征相关性匹配以及后处理。
所谓的特征是指能够描述图像局部或者图像像素一系列经过算法计算的向量。而复制粘贴篡改图像有可能发生在图像中的任意位置,其分布并没有明显规律,因此在检测时往往需要对整张图像进行特征提取。提取出来的特征质量将会直接影响最终的检测效果。特征相关性匹配是指计算前述特征之间的相似度,将源区域与目标区域互相匹配的一个过程。匹配方法的好坏将会影响匹配精度和匹配速度。后处理泛指去除误匹配或者特征解码的一个过程。多个步骤、多因素的影响使得复制粘贴篡改图像检测成为一个较为有挑战的技术难题。
当前复制粘贴篡改图像的检测定位主流方案可以分为传统的两类方法——基于块特征的方法和基于关键点的方法,以及深度学习方法。
传统的基于块特征的方法,将图像分成重叠的块,再对图像子块进行特征量化描述,最后进行子块间的特征匹配。这种方法对于复制粘贴图像篡改任务是有效的,然而,想要提取准确的图像块特征需要一定的先验条件限制,并且算法复杂度高。这使得基于块特征的方法难以在实际中应用。
基于关键点的方法首先从图像中提取关键点并对关键点进行特征描述,随后通过匹配相似的特征描述选出相似区域,最后应用后处理操作减少误匹配。基于关键点的方法比基于块特征的方法性能更强、鲁棒性更好。但是,当图像本身纹理不明显或者检测区域较光滑时,关键点数量会锐减导致算法无法检测与定位篡改区域。另外,算法需要手动调节参数,遇到不同情况时不同的参数阈值的设置可能会导致算法性能不同,每个模块都需要单独优化。
第一个基于深度学习方法的模型首先使用VGG16提取高维图像特征,然后通过计算特征余弦相似度的方式匹配图像相似位置,最后使用Inception式的解码器将高维匹配结果解码成二进制预测结果。该方法在测试集上表现出了一定的效果,但在性能上网络还有一定提升空间。而ZHU等人则在特征提取网络中加入了通道注意力机制和位置注意了机制,使网络能更好地关注篡改语义特征。最近,MVSS提出了一种双分支网络同时提取图像Bayar噪声特征和图像边缘特征来定位篡改位置,但由于其并非只关注于复制粘贴篡改图像的检测,因此其噪声特征分支并不适用于复制粘贴图像篡改定位任务,会有扰乱网络判断的风险。
另一方面,在实际检测中定位篡改位置是重要的,但是分辨出哪些区域是被复制,哪些区域是被粘贴出来的也同样非常重要。因此,BusterNet提出了一个双分支端到端网络,并定义了源/目标区分定位任务(即使用三分类标签来分割原始区域、源区域、目标区域)。其一个分支通过提取非可描述语义特征来检测目标区域,另一个分支通过提取相似性特征来检测图像中相似区域,最后使用一个三分类器区分并定位出原始区域、源区域、目标区域。而DOA-GAN提出了使用生成对抗模型同样完成了源/目标区分定位任务。其训练生成器生成三分类标签,同时训练鉴别器判断该三分类标签是否为真。
现有的两种方法中,基于深度学习的图像复制粘贴篡改检测定位方法会存在较大的维度的特征向量匹配计算量,使得篡改检测的特征空间过大。常见的规避大计算量的做法是采用下采样的方式降低特征空间的维度。然而当篡改区域尺寸较小时,下采样操作会显著降低特征表示的鲁棒性,导致篡改检测准确率较低;此外,当篡改区域的颜色纹理与背景区域的颜色纹理相近时,所提取的特征分类混淆矩阵分类较弱,因此篡改检测的误检率较高。
另一方面,随着研究的深入对于复制粘贴篡改图像检测任务提出了新的要求,即复制粘贴篡改中源/目标区域的区分与定位。当前研究中,源/目标区域区分与定位常见的做法是根据源/目标区域各自非可描述语义特征间的差别进行区分和识别(所谓非可描述语义特征是指特征提取步骤中没有经过针对性算法设计使用深度学习网络强行拟合训练集数据分布而提取出来的特征)。然而,网络为了学习非可描述语义特征通常趋向于过拟合数据集,这导致网络检测性能大大下降且可解释性较弱。
因此,当前基于深度学习的图像复制粘贴篡改检测方法的研究存在两个挑战:
1、卷积神经网络采用卷积和下采样操作获取长范围的语境信息,但这个过程中特征的分辨率不断降低,丢了大量的图像细节信息,这不利于后续像素级的篡改检测任务;
2、现有的篡改源/目标区域分类方法通过非可描述语义特征来区分源区域和目标区域,但该类方法倾向于过拟合数据集限制了网络整体性能且可解释性较弱。
发明内容
本发明要解决的技术问题是提供一种复制粘贴篡改图像数据检测方法、装置、计算机及计算机可读存储介质,构建了新的深度学习框架,通过学习现有公共数据集来完成复制粘贴篡改图像源/目标检测与定位任务。
为解决上述技术问题,本发明的技术方案如下:
第一方面,一种数据处理方法,所述方法包括:
将待检测图像输入至双分支特征提取网络中,分别提取出相似性特征和边缘伪影特征;
将双分支提取出来的多尺度、多种类特征输入进特征融合解码器模块中进行特征融合,以增加上下文互补信息,去除干扰冗余信息;
将融合后的特征经过注意力模块进行反解码,同时经过双线性插值上采样等后处理操作输出最终结果。
进一步的,提取出相似性特征,包括:
将一张W×H×3的RGB彩色图像通过ResNet-101主干网络的四个残差块分别获得四种不同尺度的高维特征,记为S1、S2、S3、S4,各尺度高维特征对应分辨率大小分别为
Figure BDA0004157315370000041
假设特征图上任意两点为i、j,在该点上的对应像素值为f(i)、f(j),根据公式:
Figure BDA0004157315370000042
Figure BDA0004157315370000043
可得两个特征像素间的相关性,其中μ(i)、σ(i)分别表示各通道在i点像素值的均值和标准差;
通过计算得到大小为
Figure BDA0004157315370000044
的相似性矩阵,并将相似性矩阵输入Inception式的反解码器并上采样完成解码,最后所得结果通过二分类器预测二进制粗匹配标签记为Ps
进一步的,边缘伪影特征,包括:
将一张W×H×3的RGB彩色图像通过主干网络的四个残差块分别获得四种不同尺度的高维特征,记为E1、E2、E3、E4,各尺度高维特征对应分辨率大小分别为
Figure BDA0004157315370000045
这四种尺度特征将分别经过sobel层与ERB模块进行计算,并分别输出大小为/>
Figure BDA0004157315370000046
的特征图;
通过逐级的ERB模块结构进行多层次特征传递和选择得到只包含边界伪影信息的特征图,最后经过sigmoid线性激活后输出大小为
Figure BDA0004157315370000047
的二进制边缘预测图,记为Pe
进一步的,将双分支提取出来的多尺度、多种类特征输入进特征融合解码器模块中进行特征融合,包括:
将相似性检测分支主干网络提取出的四个层次特征{S1、S2、S3、S4},以及伪影检测分支提取出四个层次的特征{E1、E2、E3、E4}对应叠加作为模块输入C1、C2、C3、C4,其计算公式为:
Figure BDA0004157315370000051
其中,Ei为伪影检测分支第i个层次特征,Si为相似性检测分支第i个层次特征,
Figure BDA0004157315370000052
表示特征通道叠加,叠加后的第i层特征为Ci,其大小为/>
Figure BDA0004157315370000053
分别将特征Ci通过一个1×1卷积进行重采样,以实现将特征中包含的边缘信息与相似信息充分融合并相互联系。
进一步的,将双分支提取出来的多尺度、多种类特征输入进特征融合解码器模块中进行特征融合,还包括:
将第i层重采样后的特征Ci通过最大池化层将分辨率调整后传入i+1层与Ci+1叠加;
使用可学习的解码层对特征进行解码,每个解码层由一个3×3卷积和一个反卷积组成,则解码层公式为:
Figure BDA0004157315370000054
上式中ti为经过解码后的第i层特征,
Figure BDA0004157315370000055
为解码函数,/>
Figure BDA0004157315370000056
为最大池化操作。
进一步的,将双分支提取出来的多尺度、多种类特征输入进特征融合解码器模块中进行特征融合,还包括:
通过使用可学习的解码层对特征进行解码,以获得四个融合后的特征{t1,t2,t3,t4};
将四个融合后的特征{t1,t2,t3,t4}送入一个双注意力输出模块,以输出3通道RGB最终预测图。
进一步的,所述预测图为一个H×W×3大小的分割预测图,记为P;
将P与标签图像M计算Dice损失,记为Lossdecode,其计算公式为:
Figure BDA0004157315370000061
其中,P(i)代表预测图P中第i个像素点的预测概率值,M(i)代表mask标签中第i个像素点的标签值。
第二方面,一种数据处理装置,其特征在于,包括:
获取模块,用于将待检测图像输入至双分支特征提取网络中,分别提取出相似性特征和边缘伪影特征;
处理模块,用于将双分支提取出来的多尺度、多种类特征输入进特征融合解码器模块中进行特征融合,以增加上下文互补信息,去除干扰冗余信息;将融合后的特征经过注意力模块进行反解码,同时经过双线性插值上采样等后处理操作输出最终结果。
第三方面,一种数据处理计算机,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现所述的方法。
第四方面,一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,该程序被处理器执行时实现所述的方法。
本发明的上述方案至少包括以下有益效果:
本发明的上述方案,无需任何先验知识,基于篡改过程中源与目标的生成特点构建了一个双分支网络用于同时检测区域的相似性特征与边缘伪影特征,并设计了一个自上而下的特征融合方式,弥补了下采样过程中丢失的细节信息,同时避免增加特征匹配的计算代价,使本发明大大地提高了复制粘贴篡改图像的分类与源/目标定位的准确性和高效性。
附图说明
图1本发明的实施例提供的数据处理方法的流程示意图。
图2为网络整体结构示意图。
图3为相似性特征提取分支结构示意图。
图4为边缘伪影特征提取分支结构示意图。
图5为sobe l层结构示意图。
图6为ERB模块结构示意图。
图7为融合模块结构示意图。
图8为Uscisi数据集测试结果示意图。
图9是本发明的实施例提供的数据处理装置示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明的实施例提出一种数据处理方法,所述方法包括以下步骤:
步骤S1:特征提取,将待检测图像输入给本方法的双分支特征提取网络中,分别提取出相似性特征、边缘伪影特征。
步骤S2:特征融合,将双分支提取出来的多尺度、多种类特征输入进特征融合解码器模块中进行特征融合,增加上下文互补信息,去除干扰冗余信息。
步骤S3:注意力解码与上采样后处理,将融合后的特征经过注意力模块进行反解码同时经过双线性插值上采样等后处理操作输出最终结果。
在本发明实施例所述的数据处理方法中,无需任何先验知识,基于篡改过程中源与目标的生成特点构建了一个双分支网络用于同时检测区域的相似性特征与边缘伪影特征,并设计了一个自上而下的特征融合方式,弥补了下采样过程中丢失的细节信息,同时避免增加特征匹配的计算代价,使本发明大大地提高了复制粘贴篡改图像的分类与源/目标定位的准确性和高效性。
需要说明的是,网络分为特征提取和特征融合、注意力解码与后处理。特征提取包括两个有辅助任务的分支,其中,辅助任务用于指导分支提取出相对应的特征。相似性检测分支用于检测图像中相似的篡改区域,而伪影检测分支用于检测篡改区域的细微边界伪影。特征融合模块将两个分支输出的特征采用自上而下的方式进行融合,并通过双流注意力输出三分类预测图,用于完成像素级的篡改预测及源/目标分类任务。
相似性检测分支网络结构如图3所示。在相似性分支辅助任务中,我们首先将一张W×H×3的RGB彩色图像通过ResNet-101主干网络的四个残差块分别获得四种不同尺度的高维特征,记为S1、S2、S3、S4,各尺度高维特征对应分辨率大小分别为
Figure BDA0004157315370000081
值得一提地,只有S4会被用于辅助任务的相似性计算。这是因为辅助任务只需指导分支提取图像中相似物体的语义特征,最后一层特征足以包含所需的语义信息,而加入浅层特征信息提升是有限的。更进一步地,浅层特征包含更多的特征细节,过于繁杂的信息一方面会导致计算量过于庞大,降低网络计算效率;另一方面繁杂的信息会干扰网络拟合数据,而导致训练难度增加。因此,在相似性辅助任务中我们只使用S4进行余弦相似性计算。
假设特征图上任意两点为i、j,在该点上的对应像素值为f(i)、f(j)。根据公式(1)和(2)可得两个特征像素间的相关性。其中,
Figure BDA0004157315370000082
Figure BDA0004157315370000083
其中μ(i)、σ(i)分别表示各通道在i点像素值的均值和标准差。
经过上述计算后可以得到一个大小为
Figure BDA0004157315370000084
的相似性矩阵,随后将其输入Inception式的反解码器并上采样完成解码,最后所得结果通过一个简单的二分类器预测二进制粗匹配标签记为Ps,通过这样一个带相似性计算过程的辅助任务指导分支提取出图像中相似物体的语义特征,特别地,辅助任务只应用于训练过程,并不参与测试和最终预测。
为了避免网络学习非可描述语义特征,我们从篡改区域边界特点出发,我们定义了伪影检测分支的辅助任务,其结构如图4所示。
与相似性分支类似将一张W×H×3的RGB彩色图像通过主干网络的四个残差块分别获得四种不同尺度的高维特征,记为E1、E2、E3、E4,各尺度高维特征对应分辨率大小分别为
Figure BDA0004157315370000091
Figure BDA0004157315370000092
这四种尺度特征将分别经过sobel层与ERB模块进行计算,并分别输出大小为/>
Figure BDA0004157315370000093
的特征图,Sobel层与ERB模块的结构分别如图5和图6所示。
与相似性分支辅助任务不同的是,在伪影检测分支辅助任务中我们使用了E1、E2、E3、E4四种尺度的特征。这是因为伪影检测分支辅助任务目的是指导分支提取出图像篡改边界伪影的特征信息,而如果只使用最深层特征E4并不能包含足够多的细节特征信息。所以,通过使用多种层次的特征信息并相互补充,让网络更好的完成分支辅助任务。
具体做法如图4中所示,通过逐级的ERB模块结构进行多层次特征传递和选择得到只包含边界伪影信息的特征图,最后经过sigmoid线性激活后输出一张大小为
Figure BDA0004157315370000094
的二进制边缘预测图,记为Pe
通过提出了一种自上而下的多尺度特征融合方式,将大尺度特征图的边缘信息融入小尺度的特征图。四个不同层次的特征C1、C2、C3、C4被设计为融合模块的输入,目的是强化特征间的上下文信息。具体地,由图5所示,我们将相似性检测分支主干网络提取出的四个层次特征{S1、S2、S3、S4},以及伪影检测分支提取出四个层次的特征{E1、E2、E3、E4}对应叠加作为模块输入C1、C2、C3、C4。公式为:
Figure BDA0004157315370000101
Ei为伪影检测分支第i个层次特征,Si为相似性检测分支第i个层次特征,
Figure BDA0004157315370000102
表示特征通道叠加。叠加后的第i层特征为Ci,其大小为/>
Figure BDA0004157315370000103
随后,分别将特征Ci通过一个1×1卷积进行重采样。这样做的目的是为了将特征中包含的边缘信息与相似信息充分融合并相互联系。同时重采样还减少了冗余的通道,防止稀疏的通道噪声信息对后续操作产生负面影响。
接着,为了将不同层次的上下文信息互相补充与联系起来,因此我们设计将第i层重采样后的特征Ci通过最大池化层将分辨率调整后传入i+1层与Ci+1叠加。最后,不同于以往双线性插值的解码方式,我们使用可学习的解码层对特征进行解码(每个解码层由一个3×3卷积和一个反卷积组成)。则解码层公式为:
Figure BDA0004157315370000104
上式中ti为经过解码后的第i层特征,
Figure BDA0004157315370000105
为解码函数,/>
Figure BDA0004157315370000106
为最大池化操作。
经过上述操作后我们获得四个融合后的特征{t1,t2,t3,t4},我们认为这样一个机制,可以将上层较为细粒度的特征信息作为补充和对照传输给下层语义特征。增强上下文信息联系的同时,还可以去除底层语义特征中的噪声。
值得一提地,理论上解码后的特征分辨率设计一方面不宜过小,因为这会导致特征信息丢失过多,而影响模型性能。另一方面,过大的分辨率也将导致计算量过大、信息过于繁杂等问题,而影响模型性能。综合上述两方面的考虑,选择将解码后的特征ti统一为
Figure BDA0004157315370000111
以期望模型可以同时兼顾性能与速度,最后,在获得{t1,t2,t3,t4}后,我们将其送入一个双注意力输出模块输出3通道RGB最终预测图。
通过框架最终输出的预测图像为一个H×W×3大小的分割预测图,记为P。随后我们与标签图像M计算Dice损失记为Lossdecode,其公式如下:
Figure BDA0004157315370000112
上式中P(i)代表预测图P中第i个像素点的预测概率值,M(i)代表mask标签中第i个像素点的标签值。
本发明在边缘伪影特征提取模块中,通过实验发现篡改目标区域的边界存在伪影,即目标区域的边缘存在不连续性。由于攻击者往往将源图像旋转或缩放后再进行粘贴,所以源图像的边界点(x,y)经过仿射变换后变成目标图像的边界点(x',y')(x',y'不是整数值)。因此,目标图像的边界点实际上是经过了二次插值。使用边缘伪影特征一方面可以通过提取图像边缘特征使模型获得更加细粒度的语义信息,有助于在后续特征匹配等环节使网络做出更精细的预测结果;另一方面通过学习S和T边缘区域存在的伪影模式,可以对疑似篡改区域进行源与目标类别区分。网络无需为了学习图像非可描述语义特征倾向于过拟合数据集,而影响网络整体性能。
在特征融合网络中,构建了自上而下的特征融合方式,将高分辨率的精细化特征融入低分辨率的特征中,弥补了下采样过程中丢失的细节信息,同时避免增加特征匹配的计算代价。
本发明与现有技术相比较,最大的优点在于:无需任何先验知识,基于篡改过程中源与目标的生成特点构建了一个双分支网络用于同时检测区域的相似性特征与边缘伪影特征,并设计了一个自上而下的特征融合方式,弥补了下采样过程中丢失的细节信息,同时避免增加特征匹配的计算代价。使本发明大大地提高了复制粘贴篡改图像的分类与源/目标定位的准确性和高效性。
本发明已经在Uscisi数据集上进行消融实验,验证了本文提出方法的有效性。在多个公共数据集上与当前先进方法进行了对比实验,表明了本方法的性能具有一定的优势。实验采用的指标统一使用F1-score和AUC值。
(1)消融实验
消融实验中我们将网络拆分,逐步添加模块,并统一在uscisi数据集上训练和进行性能评估。我们首先验证分支辅助任务的有效性,具体地,去除伪影检测分支辅助任务,只使用ResNet-101直接端到端训练提取特征,分别记为Our-w/o edg。随后,我们评估融合模块的有效性,具体做法为去除完整模型中的特征融合解码器,将双分支提取的多层次特征直接叠加后通过双注意力模块输出分类预测结果,记为Our-w/o fusion。在此实验中,使用BusterNet、DOA-GAN作为基准网络,性能评估结果如表1所示。
表1消融实验各网络性能指标
Figure BDA0004157315370000121
Figure BDA0004157315370000131
实验结果表明我们的方法无论是在源区域还是目标区域检测效果都优于现有的方法。此外,图8展示了我们网络所检测的结果,其中第一列为输入图像,第二列为图像对应三分类标签,第三到七列为不同方法对输入图像的检测结果。可以看到在篡改区域边缘细节处我们方法优于当前其他方法,这归功于我们双分支辅助任务的设计使得网络一方面可以减少噪声误检测,另一方面可以使网络检测结果在细节上性能更好。
(2)各模型在其他数据集对比实验
表2为各模型在CASIA测试集上像素级评价指标
Figure BDA0004157315370000132
表3为各模型在DEFACTO-cpmv测试集上像素级评价指标
Figure BDA0004157315370000133
Figure BDA0004157315370000141
如图9所示,本发明的实施例还提供一种数据处理装置20,包括:
获取模块21,用于将待检测图像输入至双分支特征提取网络中,分别提取出相似性特征和边缘伪影特征;
处理模块22,用于将双分支提取出来的多尺度、多种类特征输入进特征融合解码器模块中进行特征融合,以增加上下文互补信息,去除干扰冗余信息;将融合后的特征经过注意力模块进行反解码,同时经过双线性插值上采样等后处理操作输出最终结果。
可选的,提取出相似性特征,包括:
将一张W×H×3的RGB彩色图像通过ResNet-101主干网络的四个残差块分别获得四种不同尺度的高维特征,记为S1、S2、S3、S4,各尺度高维特征对应分辨率大小分别为
Figure BDA0004157315370000142
假设特征图上任意两点为i、j,在该点上的对应像素值为f(i)、f(j),根据公式:
Figure BDA0004157315370000143
Figure BDA0004157315370000144
可得两个特征像素间的相关性,其中μ(i)、σ(i)分别表示各通道在i点像素值的均值和标准差;
通过计算得到大小为
Figure BDA0004157315370000145
的相似性矩阵,并将相似性矩阵输入Inception式的反解码器并上采样完成解码,最后所得结果通过二分类器预测二进制粗匹配标签记为Ps
可选的,边缘伪影特征,包括:
将一张W×H×3的RGB彩色图像通过主干网络的四个残差块分别获得四种不同尺度的高维特征,记为E1、E2、E3、E4,各尺度高维特征对应分辨率大小分别为
Figure BDA0004157315370000151
这四种尺度特征将分别经过sobel层与ERB模块进行计算,并分别输出大小为/>
Figure BDA0004157315370000152
的特征图;
通过逐级的ERB模块结构进行多层次特征传递和选择得到只包含边界伪影信息的特征图,最后经过sigmoid线性激活后输出大小为
Figure BDA0004157315370000153
的二进制边缘预测图,记为Pe
可选的,将双分支提取出来的多尺度、多种类特征输入进特征融合解码器模块中进行特征融合,包括:
将相似性检测分支主干网络提取出的四个层次特征{S1、S2、S3、S4},以及伪影检测分支提取出四个层次的特征{E1、E2、E3、E4}对应叠加作为模块输入C1、C2、C3、C4,其计算公式为:
Figure BDA0004157315370000156
其中,Ei为伪影检测分支第i个层次特征,Si为相似性检测分支第i个层次特征,
Figure BDA0004157315370000154
表示特征通道叠加,叠加后的第i层特征为Ci,其大小为/>
Figure BDA0004157315370000155
分别将特征Ci通过一个1×1卷积进行重采样,以实现将特征中包含的边缘信息与相似信息充分融合并相互联系。
可选的,将双分支提取出来的多尺度、多种类特征输入进特征融合解码器模块中进行特征融合,还包括:
将第i层重采样后的特征Ci通过最大池化层将分辨率调整后传入i+1层与Ci+1叠加;
使用可学习的解码层对特征进行解码,每个解码层由一个3×3卷积和一个反卷积组成,则解码层公式为:
Figure BDA0004157315370000161
上式中ti为经过解码后的第i层特征,
Figure BDA0004157315370000162
为解码函数,/>
Figure BDA0004157315370000163
为最大池化操作。
可选的,将双分支提取出来的多尺度、多种类特征输入进特征融合解码器模块中进行特征融合,还包括:
通过使用可学习的解码层对特征进行解码,以获得四个融合后的特征{t1,t2,t3,t4};
将四个融合后的特征{t1,t2,t3,t4}送入一个双注意力输出模块,以输出3通道RGB最终预测图。
可选的,所述预测图为一个H×W×3大小的分割预测图,记为P;
将P与标签图像M计算Dice损失,记为Lossdecode,其计算公式为:
Figure BDA0004157315370000164
其中,P(i)代表预测图P中第i个像素点的预测概率值,M(i)代表mask标签中第i个像素点的标签值。
需要说明的是,该装置是与上述方法相对应的装置,上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
本发明的实施例还提供一种数据处理计算机,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上所述的方法。上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
本发明的实施例还提供一种计算机可读存储介质,存储指令,当所述指令在计算机上运行时,使得计算机执行如上所述的方法。上述方法实施例中的所有实现方式均适用于该实施例中,也能达到相同的技术效果。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
此外,需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种复制粘贴篡改图像数据检测方法,其特征在于,所述方法包括:
将待检测图像输入至双分支特征提取网络中,分别提取出相似性特征和边缘伪影特征;
将双分支提取出来的多尺度、多种类特征输入进特征融合解码器模块中进行特征融合,以增加上下文互补信息,去除干扰冗余信息;
将融合后的特征经过注意力模块进行反解码,同时经过双线性插值上采样等后处理操作输出最终结果。
2.根据权利要求1所述的数据处理方法,其特征在于,提取出相似性特征,包括:
将一张W×H×3的RGB彩色图像通过ResNet-101主干网络的四个残差块分别获得四种不同尺度的高维特征,记为S1、S2、S3、S4,各尺度高维特征对应分辨率大小分别为
Figure FDA0004157315360000011
假设特征图上任意两点为i、j,任意两点为i、j对应像素值为f(i)、f(j),根据公式:
Figure FDA0004157315360000012
Figure FDA0004157315360000013
可得两个特征像素间的相关性,其中μ(i)、σ(i)分别表示各通道在i点像素值的均值和标准差;
通过计算得到大小为
Figure FDA0004157315360000014
的相似性矩阵,并将相似性矩阵输入Inception式的反解码器并上采样完成解码,最后所得结果通过二分类器预测二进制粗匹配标签记为Ps
3.根据权利要求1述的数据处理方法,其特征在于,提取出边缘伪影特征,包括:
将一张W×H×3的RGB彩色图像通过主干网络的四个残差块分别获得四种不同尺度的高维特征,记为E1、E2、E3、E4,各尺度高维特征对应分辨率大小分别为
Figure FDA0004157315360000021
这四种尺度特征将分别经过sobel层与ERB模块进行计算,并分别输出大小为/>
Figure FDA0004157315360000022
的特征图;
通过逐级的ERB模块结构进行多层次特征传递和选择得到只包含边界伪影信息的特征图,最后经过sigmoid线性激活后输出大小为
Figure FDA0004157315360000023
的二进制边缘预测图,记为Pe
4.根据权利要求1述的数据处理方法,其特征在于,将双分支提取出来的多尺度、多种类特征输入进特征融合解码器模块中进行特征融合,包括:
将相似性检测分支主干网络提取出的四个层次特征{S1、S2、S3、S4},以及伪影检测分支提取出四个层次的特征{E1、E2、E3、E4}对应叠加作为模块输入C1、C2、C3、C4,其计算公式为:
Figure FDA0004157315360000024
其中,Ei为伪影检测分支第i个层次特征,Si为相似性检测分支第i个层次特征,
Figure FDA0004157315360000025
表示特征通道叠加,叠加后的第i层特征为Ci,其大小为/>
Figure FDA0004157315360000026
分别将特征Ci通过一个1×1卷积进行重采样,以实现将特征中包含的边缘信息与相似信息充分融合并相互联系。
5.根据权利要求1所述的数据处理方法,其特征在于,将双分支提取出来的多尺度、多种类特征输入进特征融合解码器模块中进行特征融合,还包括:
将第i层重采样后的特征Ci通过最大池化层将分辨率调整后传入i+1层与Ci+1叠加;
使用可学习的解码层对特征进行解码,每个解码层由一个3×3卷积和一个反卷积组成,则解码层公式为:
Figure FDA0004157315360000031
上式中ti为经过解码后的第i层特征,
Figure FDA0004157315360000032
为解码函数,/>
Figure FDA0004157315360000033
为最大池化操作。
6.根据权利要求1所述的数据处理方法,其特征在于,将双分支提取出来的多尺度、多种类特征输入进特征融合解码器模块中进行特征融合,还包括:
通过使用可学习的解码层对特征进行解码,以获得四个融合后的特征{t1,t2,t3,t4};
将四个融合后的特征{t1,t2,t3,t4}送入一个双注意力输出模块,以输出3通道RGB最终预测图。
7.根据权利要求1所述的数据处理方法,其特征在于,所述预测图为一个H×W×3大小的分割预测图,记为P;
将P与标签图像M计算Dice损失,记为Lossdecode,其计算公式为:
Figure FDA0004157315360000034
其中,P(j)代表预测图P中第i个像素点的预测概率值,M(i)代表mask标签中第i个像素点的标签值。
8.一种数据处理装置,其特征在于,包括:
获取模块,用于将待检测图像输入至双分支特征提取网络中,分别提取出相似性特征和边缘伪影特征;
处理模块,用于将双分支提取出来的多尺度、多种类特征输入进特征融合解码器模块中进行特征融合,以增加上下文互补信息,去除干扰冗余信息;将融合后的特征经过注意力模块进行反解码,同时经过双线性插值上采样等后处理操作输出最终结果。
9.一种数据处理计算机,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序,该程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
CN202310338491.XA 2023-03-31 2023-03-31 一种复制粘贴篡改图像数据检测方法、装置、计算机及计算机可读存储介质 Pending CN116363489A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310338491.XA CN116363489A (zh) 2023-03-31 2023-03-31 一种复制粘贴篡改图像数据检测方法、装置、计算机及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310338491.XA CN116363489A (zh) 2023-03-31 2023-03-31 一种复制粘贴篡改图像数据检测方法、装置、计算机及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN116363489A true CN116363489A (zh) 2023-06-30

Family

ID=86936060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310338491.XA Pending CN116363489A (zh) 2023-03-31 2023-03-31 一种复制粘贴篡改图像数据检测方法、装置、计算机及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116363489A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863319A (zh) * 2023-09-05 2023-10-10 中国海洋大学 基于跨尺度建模和交替细化的复制移动篡改检测方法
CN116935200A (zh) * 2023-09-19 2023-10-24 南京信息工程大学 面向审计的图像篡改检测方法、系统、设备及存储介质
CN118154906A (zh) * 2024-05-09 2024-06-07 齐鲁工业大学(山东省科学院) 基于特征相似性和多尺度边缘注意力的图像篡改检测方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863319A (zh) * 2023-09-05 2023-10-10 中国海洋大学 基于跨尺度建模和交替细化的复制移动篡改检测方法
CN116863319B (zh) * 2023-09-05 2023-12-01 中国海洋大学 基于跨尺度建模和交替细化的复制移动篡改检测方法
CN116935200A (zh) * 2023-09-19 2023-10-24 南京信息工程大学 面向审计的图像篡改检测方法、系统、设备及存储介质
CN116935200B (zh) * 2023-09-19 2023-12-19 南京信息工程大学 面向审计的图像篡改检测方法、系统、设备及存储介质
CN118154906A (zh) * 2024-05-09 2024-06-07 齐鲁工业大学(山东省科学院) 基于特征相似性和多尺度边缘注意力的图像篡改检测方法

Similar Documents

Publication Publication Date Title
Bappy et al. Hybrid lstm and encoder–decoder architecture for detection of image forgeries
CN116363489A (zh) 一种复制粘贴篡改图像数据检测方法、装置、计算机及计算机可读存储介质
CN113128271A (zh) 脸部图像的伪造检测
Guan et al. Multistage dual-attention guided fusion network for hyperspectral pansharpening
Liu et al. Oiflow: Occlusion-inpainting optical flow estimation by unsupervised learning
CN112801104B (zh) 基于语义分割的图像像素级伪标签确定方法及系统
Agarwal et al. Image forgery detection and deep learning techniques: A review
Gu et al. FBI-Net: Frequency-based image forgery localization via multitask learning With self-attention
CN115908789A (zh) 跨模态特征融合及渐近解码的显著性目标检测方法及装置
Roy et al. Digital image forensics
Gao A method for face image inpainting based on generative adversarial networks
Vijayalakshmi K et al. Copy-paste forgery detection using deep learning with error level analysis
Yan et al. TransU 2-Net: A Hybrid Transformer Architecture for Image Splicing Forgery Detection
Lai et al. Generative focused feedback residual networks for image steganalysis and hidden information reconstruction
Singh et al. StegGAN: hiding image within image using conditional generative adversarial networks
Singh et al. GIMD-Net: An effective General-purpose Image Manipulation Detection Network, even under anti-forensic attacks
Mehta et al. An ensemble learning approach for resampling forgery detection using Markov process
Ernawati et al. Image Splicing Forgery Approachs: A Review and Future Direction
CN115620101A (zh) 一种基于混合标签的弱监督显著性检测方法及训练策略
Fu et al. Multi-level feature disentanglement network for cross-dataset face forgery detection
Xu et al. Steganography algorithms recognition based on match image and deep features verification
Gazzah et al. Digital Image Forgery Detection with Focus on a Copy-Move Forgery Detection: A Survey
Rai et al. A Thorough Investigation on Image Forgery Detection.
Krishnamurthy et al. IFLNET: Image Forgery Localization Using Dual Attention Network.
Kang et al. MSTAD: A masked subspace-like transformer for multi-class anomaly detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination