CN117314714A - 基于双域和多尺度网络的文档图像篡改检测与分类方法 - Google Patents

基于双域和多尺度网络的文档图像篡改检测与分类方法 Download PDF

Info

Publication number
CN117314714A
CN117314714A CN202311039427.8A CN202311039427A CN117314714A CN 117314714 A CN117314714 A CN 117314714A CN 202311039427 A CN202311039427 A CN 202311039427A CN 117314714 A CN117314714 A CN 117314714A
Authority
CN
China
Prior art keywords
image
domain
dual
tampering
document image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311039427.8A
Other languages
English (en)
Inventor
姚徐婧
李黎
陆剑锋
刘欣怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202311039427.8A priority Critical patent/CN117314714A/zh
Publication of CN117314714A publication Critical patent/CN117314714A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • G06T1/0042Fragile watermarking, e.g. so as to detect tampering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4007Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Bioethics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了基于双域和多尺度网络的文档图像篡改检测与分类方法,该方法首先完成文档篡改数据集的准备与增强,并进行图像频域中的局部三元模式特征提取。其次预训练HRNET网络,提取图像特征。然后使用检测头进行篡改分类,并基于空间通道双重注意力机制的篡改定位。最后导入网络模型、传入需要检测的篡改图像,得到篡改图像。本发明能够更有针对性的检测篡改区域,检测到细小的篡改区域,并准确分类篡改类型。

Description

基于双域和多尺度网络的文档图像篡改检测与分类方法
技术领域
本发明属于深度学习的目标检测和图像篡改领域,特别涉及一种基于双域和多尺度网络的文档图像篡改检测与分类方法。
背景技术
如今,越来越多的Office文档以数字格式捕获、存储和共享。图像编辑软件也变得越来越强大,文档真实性越来越受到关注。研究文档的图像篡改有很多意义:(1)保障个人安全,曾经发生过一些个人通过候补人员和文件上的名字愚弄安全人员并进入机场的情况。(2)用于法律,比如取证一些合同文件,可能经过了人为篡改,从而使证据作假。(3)保护财产安全,财产文件中的文本可以被修改以进行非法交易,造成一定的危害。图像篡改检测技术可以有效的避免恶意篡改图像带来的政治问题,可以杜绝篡改图像作为伪证的情况,保障司法公平,可以验证新闻图片的真实性,避免新闻失实的问题。因此,有必要开展研究来发展有效的方法去检测文档图像是否发生篡改。
图像篡改可以分为几个类别:复制粘贴篡改是指在图像中复制一个或多个区域,并将其粘贴到同一图像的其他位置;拼接篡改是指将两个或多个图像的部分拼接在一起,创建一个看似连续的图像;删除篡改是指图像中移除一个或多个对象、文字或不希望出现的内容等。近年来,随着深度学习技术的不断发展,图像篡改检测也从传统的基于局部不一致性检测的方法转向基于深度学习的方法,实现了端到端的精确识别。然而当今技术篡改图像的研究对象主要是自然图像,这些图像通常具有多样性和丰富的细节,因为它们捕捉了真实世界的场景和元素,但是因为文档图像比较如电子扫描件,通常是黑白的,缺少丰富的语义特征和光照特性,加大了检测与定位的难度,这使得很多基于图像颜色、语义特征、相机特征提取的方法都失效了。此外,很多篡改检测方法只针对于一种类型的篡改,如只能识别复制粘贴类的篡改,而对其他篡改无法精确识别,需要手动根据篡改方法选择适合的检测手段,很不智能。
发明内容
本发明针对上述现有技术的不足,本发明提出了一种基于双域和多尺度网络的文档图像篡改检测与分类方法,为结合图像频域和空域的特点,更准确的检测和定位文档图像的篡改位置,并且实现篡改类型的分类。
本发明的技术方案步骤如下:
步骤1:文档篡改数据集的准备与增强
步骤1.1:收集并加工数据集。在被授权的情况下获取文档图像,并进行图像处理。处理内容包括复制粘贴篡改,随机选择某个区域,从本图像的某个随机位置移动到另一个位置;拼接篡改,随机选择某个区域,从另一张图像的随机位置移动到本图像的随机位置;涂抹篡改,在一张图像中随机选择某个区域并用黑色块覆盖;文字篡改,在文档图像的某个区域添加一段随机文字;删除篡改,随机挑选文档图像中的某区域,将该区域的内容与周围背景融合。每种分类对应一个标号和一个真实篡改区域,用来训练分类和定位。
步骤1.2:增强数据集。对图像进行随机放缩、裁剪和旋转,获取数量更丰富的数据集,扩大数据集,在此基础上对已经处理的图像进行加噪,以增强训练结果的鲁棒性。
步骤2:进行图像频域中的局部三元模式特征(LTP)提取
步骤2.1:对于长为N1宽为N2的图像,将三颜色RGB通道的图像转换为YCbCr通道,它是一种将亮度(Y)和色度(Cb和Cr)分离的颜色编码方式,转换公式为:
Y=0.299R+0.587G+0.114B
Cb=0.564(B-Y)
Cr=0.713(R-Y)
步骤2.2:将转换后的图像分割成大小为的非重叠的空间图像块/>其中b表示块大小。
步骤2.3:对每个空间图像块进行二维的离散余弦DCT变换:
对应的分块DCT系数二维阵列Y为:
其中以及矩阵C的k行l列的值表示为:
步骤2.4:分别从上述分块DCT系数阵列中的每一个的幅值分量计算对应的局部三元模式特征。
对于中心像素gc,根据分块DCT系数二维阵列Y,局部三元模式LTP由下式给出:
LTP={t(g0,gc,ε),t(g1,gc,ε),…,t(gL-1,gc,ε)}
其中g0~gL-1代表领域的像素点的值。
使用ε阈值参数对t(gl,gc,ε)进行定义:
为了避免具有三进制码的LTP直方图的高维性,每个LTP被分割成两个二进制分量:LTPP(“1”被编码为“0”)和LTPN(“1”被编码为“0”、“-1”被编码为“1”)。将得到编码分别从二进制转化成十进制就得到该中心点的LTPP特征值和LTPN特征值,将两种特征值进行拼接组合,得到该中心点对应的局部三元模式特征,依次把所有像素点当成中心点,得到所有的局部三元模式特征。将分块DCT系数二维阵列Y、LTPP特征值和LTPN特征值按照拼接通道的规则融合,得到经过频域变换的图像If
步骤3:预训练高分辨率网络(HRNet)网络,提取图像特征
步骤3.1:获取现有公开大规模分类数据集。
步骤3.2:将训练集输入到高分辨率网络中,通过反向传播不断更新权重参数,使得损失函数最小。
步骤3.3:用验证集评估模型性能,监控损失函数和评价指标的变化情况,以判断是否出现过拟合等问题。
步骤3.4:测试模型,使用测试集对模型进行测试,得出分割精度等性能指标,以评估模型的泛化能力。
步骤3.5:将预训练好的应用模型作为网络的骨干,分别输入两个预训练好的高分辨率网络,得到两个对应的图像特征Fsi和Ffi,然后通过加权的方法对空域频域中每个相同的尺度进行特征融合得到Fi,融合公式为:
Fi=αFsi+βFfi i=1,2,3,4
其中i表示不同尺度,Fsi表示空域提取出的特征,Fsi表示频域提出的特征,α、β表示融合的权重。
步骤4:使用检测头进行篡改分类
将上述提取出的多维特征统一输入到具有多层卷积的卷积层中,输出多分类的篡改检测结果,并设置交叉熵损失,进行迭代训练,以达到更好的预测分类。
步骤5:通过空间通道双重注意力机制,进行篡改定位
步骤5.1:首先获取步骤3中提取的图像特征F4,经过双重注意力机制输出对应大小的二值化预测定位掩码M4,公式为:
M4=f4(F4)
步骤5.2:然后获取步骤3中提取的图像特征Fi-1,结合双重注意力机制和来自上一个尺度的特征融合,输出对应大小的预测定位掩码Mi-1,公式为:
Mi-1=fi-1(τ(Mi)·Fi-1),i=1,2,3
其中fi表示第i尺度上的空间通道双重注意力机制,τ是上采样操作(例如,双线性插值)。
步骤5.3:把真实篡改区域进行放缩转化为与Mi相同尺度的图像Ti进行比较,结合交叉熵损失,通过完全监督的方式进行从粗颗粒度到细颗粒度的批次训练,以达到更好的预测篡改定位。
步骤5.4:输出二值化的篡改定位图Mpre=M1,白色表示篡改位置,黑色表示未篡改位置。
步骤6:网络训练过后,只需要导入整个网络模型、传入需要检测的篡改图像,就可以得到篡改图像。
本发明有益效果:
(1)针对文档图像的检测问题,提出空频域结合的技术,能更有针对性的检测篡改区域。
(2)利用多尺度网络,能够检测到细小的篡改区域。
(3)加入了多分类网络,在定位到篡改区域的同时能检测出具体的篡改类型,能准确分类篡改类型。
附图说明
图1为本技术网络示意图;
图2为空域转化成频域流的流程图;
图3为局部三元模式原理图;
图4为篡改检测结果与分类结果示意图。
具体实施方式
本发明的具体实施方式步骤如下,如图1所示,一种基于空域频域结合和多尺度网络的文档图像篡改检测与分类方法,包括以下步骤:
步骤1:文档篡改数据集的预处理
步骤1.1:收集并加工数据集。在被授权的情况下获取用于实验的文档图像,并进行图像处理。处理内容包括复制粘贴篡改,随机选择某个区域,从本图像的某个随机位置移动到另一个位置;拼接篡改,随机选择某个区域,从另一张图像的随机位置移动到本图像的随机位置;涂抹篡改,在一张图像中随机选择某个区域并用黑色块覆盖;文字篡改,在文档图片的某个区域添加一段随机文字;删除篡改,随机挑选文档图像中的某区域,将该区域的内容与周围背景融合。每种分类对应一个标号和一个真实篡改区域,用来训练分类和定位。
步骤1.2:增强数据集。对图像进行随机放缩、裁剪和旋转,获取数量更丰富的数据集,在此基础上对已经处理的图像进行加噪,以增强训练结果的鲁棒性。
步骤2:进行图像频域中的局部三元模式LTP特征提取
RGB域的图像无需多余的预处理,只需要将图像的通道转换成RGB格式,就能得到RGB流的输入Is;而频域If则需要进行以下具体的步骤,如图2所示。
步骤2.1:将三颜色RGB通道的图像转换为YCbCr通道。YCbCr通道是一种用于表示彩色图像的颜色空间。它是一种将亮度(Y)和色度(Cb和Cr)分离的颜色编码方式,转换公式为:
Y=0.299R+0.587G+0.114B
Cb=0.564(B-Y)
Cr=0.713(R-Y)
步骤2.2:将转换后的数据图像分割成大小为的非重叠的空间图像块/>其中b表示块大小,b=8。
步骤2.3:对每个空间图像块进行二维的离散余弦DCT变换。
对应的分块DCT系数二维阵列Y可以写为:
其中以及矩阵C的k行l列的值可以表示为:
步骤2.4:计算对应的局部三元模式。分别从上述分块DCT系数阵列中的每一个的幅值分量,提取出其局部三元模式。这是一种特征描述算法,它通过对图像中的每个像素点及其周围像素进行比较和编码,来捕捉图像的纹理和结构信息。
对于中心像素gc,根据分块DCT系数二维阵列Y,局部三元模式LTP由下式给出:
LTP={t(g0,gc,ε),t(g1,gc,ε),…,t(gL-1,gc,ε)}
其中g0~gL-1代表领域的像素点的值。
使用ε阈值参数对t(gl,gc,ε)进行定义:
然后每个LTP被分割成两个二进制分量:LTPP(“-1”被编码为“0”)和LTPN(“1”被编码为“0”、“-1”被编码为“1”),再将LTPP和LTPN中的编码按顺序组成二进制编码,转化为十进制构成中心像素的值。
具体说,就是循环每个像素点,统计像素点与其八邻域点的关系,按照一定的阈值规则进行0,1,-1的赋值,再将这八邻域得到的值进行两种二进制编码,将得到编码分别从二进制转化成十进制就得到该中心点的LTPP特征值和LTPN特征值,将两种特征值进行拼接组合,得到该中心点对应的局部三元模式特征,依次把所有像素点当成中心点,得到所有的局部三元模式特征。如图3所示,左侧为中心像素点为52的一个像素区间,设置的阈值K为5,通过比对52与周围像素关系。如其中的一个领域像素点的值为73,两像素值的差大于K,则经过阈值规则下对应位置的值就变为1。从而得到阈值处理后的像素区间。将所有值为-1的编码变为0得到LTPP层,将1编码成0,0编码成-1得到LTPN层,再将编码后的二进制从后向前组合起来得到二进制编码,如00000011转化成十进制变为3,就得到了该中心像素点的值。
步骤2.5:将分块DCT系数二维阵列Y、LTPP特征值和LTPN特征值按照拼接通道的规则融合,得到经过频域变换的图像If
步骤3:通过两个高分辨率网络,提取图像RGB特征和频域特征:
该卷神经网络使用的是高分辨率网络(HRNet),是一种用于图像分类、目标检测和人体姿态估计等计算机视觉任务的深度学习网络架构,具体实现过程如下:
步骤3.1:预训练HRNET网络。为了使用它作为本技术的提取特征网络,通常需要预训练。获取现有公开大规模分类数据集。将训练集输入到模型中,通过反向传播不断更新权重参数,使得损失函数最小,并保留训练结果。
步骤3.2:使用预训练过的HRNet,提取图像的RGB特征和频域特征。将预训练好的应用模型作为网络的骨干,将步骤1数据集中的图像Is和经过频域变换的图像If,分别输入两个预训练好的高分辨率网络,得到两个对应的图像特征Fsi和Ffi,i=1,2,3,4。
步骤3.3:通过加权的方法对空域频域中每个相同的尺度进行特征融合,融合公式为:
Fi=αFsi+βFfi i=1,2,3,4
其中i表示不同尺度,Fsi表示空域提取出的特征,Fsi表示频域提出的特征,α、β表示融合的权重。
具体来说就是把相同尺度的空域和频域特征加权相加,得到四个不同尺度的空频结合特征F1,F2,F3,F4
步骤4:使用带有多层卷积的检测头进行篡改分类
将上述提取出的多尺度特征Fi(i=1,2,3,4)通过上采样统一到同一个尺度中,一起输入到具有多层卷积的卷积层中,该卷积层包括两个基础卷积块,每个基础卷积块都有一个3*3卷积,归一化和一个relu激活函数,把卷积后的参数输入两个线性层,输出多分类结果,可以检测具体的篡改类型,如真实图像、拼接图像、复制粘贴图像等,并设置交叉熵损失,迭代训练网络参数,以达到更好的预测分类。
步骤5:基于空间通道双重注意力机制的篡改定位
步骤5.1:基于上下文相关性的空间注意力可以感知像素级特征,而基于通道相关性的通道注意可以更关注于特征映射,通过空间通道双重注意力机制接收步骤3的各个尺度特征向量Fi,分别进行注意力机制的学习。
步骤5.2:首先获取步骤3中提取的图像特征F4,经过双重注意力机制输出对应大小的二值化预测定位掩码M4,公式为:
M4=f4(F4)
步骤5.3:获取步骤3中提取的图像特征Fi-1,i=1,2,3,结合双重注意力机制和来自上一个尺度的特征融合,输出对应大小的预测定位掩码Mi-1,公式为:
Mi-1=fi-1(τ(Mi)·Fi-1),i=1,2,3
其中fi表示第i尺度上的空间通道双重注意力机制,τ是上采样操作(例如,双线性插值)。通过上述操作,可以得到四个不同尺度的定位分割图:M1、M2、M3和M4
步骤5.4:把真实篡改区域进行放缩转化为与Mi相同尺度的图像Ti进行比较,结合交叉熵损失,通过完全监督的方式迭代网络参数,进行从粗颗粒度到细颗粒度的批次训练,更新网络参数以达到更好的预测篡改定位。
步骤5.5:输出二值化的篡改定位图Mpre=M1,白色表示篡改位置,黑色表示未篡改位置。
步骤6:网络训练与损失函数的计算。本网络采用了二进制交叉熵损失(Lbce)来完成分类和定位任务。预测的检测分数由真实度(sd)标记(ld)监督,0代表原始图像,1-5表示篡改图像,其中1代表复制粘贴篡改,2表示拼接篡改,3表示文字篡改,4表示涂抹篡改,5表示删除篡改。此外,通过根据真实位置篡改定位分割图T:下采样到与不同尺度的预测图片不同大小的真实篡改定位图T1到T2、T3和T4,从而对每个预测掩模施加完全监督,0代表原始像素,1代表伪造像素。通过递进机制在不同尺度上预测的分割图被认为是同等重要的。所以最终的公式如下:
步骤7:利用训练好的模型进行图片篡改区域的检测。网络训练过后,只需要导入整个网络模型、传入训练参数和需要检测的篡改图像,就可以得到篡改图像。图4是实验结果。左侧图是篡改图片,右侧图是篡改分类网络预测的篡改定位分割图,上面图片的分类结果为复制粘贴篡改,下面图片的分类结果为文本篡改。篡改分类检测算法实验所使用的是Ubuntu20.04.2LTS操作系统,PyTorch深度学习开发框架,用Python作为开发语言。实验采用的GPU为NVIDIA GeForce RTX 2080Ti。
采用相关数据集进行训练,在训练过程中选用Adam作为优化器,学习率自适应,经过25批次的训练后,将预测的篡改定位分割图与真实的篡改定位分割图进行比较,将预测的篡改分类与真实的标签进行比较。使用准确率,精确度,召回率等来衡量网络的性能。
ACC(准确率)定义为:准确率=正确预测的样本数/总样本数,Recall(召回率)和Precision(精确度)分别定义如下:Recall=TP/(TP+FN);Precision=TP/(TP+FP),其中,TP表示真正例(预测为正且真实为正的像素点个数),FN表示假负例(预测为负但真实为正的像素点个数),FP表示假正例(预测为正但真实为负的像素点个数)。本实验分别计算了篡改检测定位的准确率、精确度和召回率以及篡改分类的精确度,与现有方法的实验结果比对如表1所示。
表1
从表1可以看出,本发明方法在图像定位篡改的准确度、精确度和召回率上与ManTra-Net有显著提高,与Pscc-Net的方法相比也有平均2%的提升;而分类是本发明的创新方法,其他方法没有此功能,所以不予比较,但是本方法在分类上本身也有较高的准确率,可以实现普遍图像篡改类型的检测。

Claims (7)

1.基于双域和多尺度网络的文档图像篡改检测与分类方法,其特征在于,包括如下步骤:
步骤1:文档篡改数据集的准备与增强;
步骤2:进行图像频域中的局部三元模式LTP特征提取;
步骤3:预训练高分辨率网络网络,提取图像特征;
步骤4:使用检测头进行篡改分类;
步骤5:通过空间通道双重注意力机制,进行篡改定位。
2.根据权利要求1所述的基于双域和多尺度网络的文档图像篡改检测与分类方法,其特征在于,步骤1具体过程如下:
步骤1.1:在被授权的情况下获取文档图像,并进行图像处理;
处理包括复制粘贴篡改;每种分类对应一个标号和一个真实篡改区域;
步骤1.2:对图像进行随机放缩、裁剪和旋转,扩大数据集,并在此基础上对已经处理的图像进行加噪。
3.根据权利要求2所述的基于双域和多尺度网络的文档图像篡改检测与分类方法,其特征在于,在步骤1.1中,所述复制粘贴具体操作为:随机选择某个区域,从本图像的某个随机位置移动到另一个位置;
所述篡改包括如下方式;
拼接篡改:随机选择某个区域,从另一张图像的随机位置移动到本图像的随机位置;
涂抹篡改:在一张图像中随机选择某个区域并用黑色块覆盖;
文字篡改:在文档图像的某个区域添加一段随机文字;
删除篡改:随机挑选文档图像中的某区域,将该区域的内容与背景融合。
4.根据权利要求3所述的基于双域和多尺度网络的文档图像篡改检测与分类方法,其特征在于,步骤2具体过程如下:
步骤2.1:对于长为N1宽为N2的图像,将三颜色RGB通道的图像转换为YCbCr通道,转换公式为:
Y=0.299R+0.587G+0.114B
Cb=0.564(B-Y)
Cr=0.713(R-Y)
步骤2.2:将转换后的图像分割成大小为r×s,的非重叠的空间图像块/>1≤i≤r,1≤j≤s,其中b表示块大小;
步骤2.3:对每个空间图像块进行二维的离散余弦DCT变换:
对应的分块DCT系数二维阵列Y为:
其中,以及矩阵C的k行l列的值表示为:
步骤2.4:分别从上述分块DCT系数的每一个的幅值分量计算对应的局部三元模式特征;
对于中心像素gc,根据分块DCT系数二维阵列Y,局部三元模式LTP如下:
LTP={t(g0,gc,ε),t(g1,gc,ε),…,t(gL-1,gc,ε)}
其中g0~gL-1代表领域的像素点的值;
使用ε阈值参数对t(gl,gc,ε)进行定义:
每个LTP被分割成两个二进制分量:LTPP:“1”被编码为“0”;LTPN:“1”被编码为“0”、“-1”被编码为“1”;
将得到编码分别从二进制转化成十进制,得到该中心点的LTPP特征值和LTPN特征值,将两种特征值进行拼接组合,得到该中心点对应的局部三元模式特征,依次把所有像素点当成中心点,得到所有的局部三元模式特征;
将分块DCT系数二维阵列Y、LTPP特征值和LTPN特征值按照拼接通道的规则融合,得到经过频域变换的图像If
5.根据权利要求4所述的基于双域和多尺度网络的文档图像篡改检测与分类方法,其特征在于,步骤3具体过程如下:
步骤3.1:获取现有公开分类数据集;
步骤3.2:将训练集输入到高分辨率网络中,通过反向传播不断更新权重参数,使得损失函数最小;
步骤3.3:用验证集评估模型性能,监控损失函数和评价指标的变化;
步骤3.4:使用测试集对模型进行测试,评估模型的泛化能力;
步骤3.5:将步骤1数据集中的图像Is和经过频域变换的图像If,分别输入两个预训练好的高分辨率网络,得到两个对应的图像特征Fsi和Ffi,然后通过加权的方法对空域频域中每个相同的尺度进行特征融合得到Fi
Fi=αFsi+βFfi i=1,2,3,4
其中i表示不同尺度,Fsi表示空域提取出的特征,Fsi表示频域提出的特征,α、β表示融合的权重。
6.根据权利要求5所述的基于双域和多尺度网络的文档图像篡改检测与分类方法,其特征在于,步骤4具体过程为:将步骤3.5提取出的Fi输入到具有多层卷积的卷积层中,输出多分类的篡改检测结果,并设置交叉熵损失,进行迭代训练。
7.根据权利要求6所述的基于双域和多尺度网络的文档图像篡改检测与分类方法,其特征在于,步骤5具体过程为:
步骤5.1:获取步骤3中提取的图像特征F4,经过双重注意力机制输出对应大小的二值化预测定位掩码M4
M4=f4(F4)
步骤5.2:然后获取步骤3中提取的其他图像特征Fi-1,结合双重注意力机制和来自上一个尺度的特征融合,输出对应大小的预测定位掩码Mi-1
Mi-1=fi-1(τ(Mi)·Fi-1),i=1,2,3
其中fi-1表示第i-1尺度上的空间通道双重注意力机制,τ是上采样操作;
步骤5.3:将真实篡改区域进行放缩转化为与Mi相同尺度的图像Ti进行比较,结合交叉熵损失,进行从粗颗粒度到细颗粒度的批次训练;
步骤5.4:输出二值化的篡改定位图Mpre=M1,白色表示篡改位置,黑色表示未篡改位置。
CN202311039427.8A 2023-08-17 2023-08-17 基于双域和多尺度网络的文档图像篡改检测与分类方法 Pending CN117314714A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311039427.8A CN117314714A (zh) 2023-08-17 2023-08-17 基于双域和多尺度网络的文档图像篡改检测与分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311039427.8A CN117314714A (zh) 2023-08-17 2023-08-17 基于双域和多尺度网络的文档图像篡改检测与分类方法

Publications (1)

Publication Number Publication Date
CN117314714A true CN117314714A (zh) 2023-12-29

Family

ID=89285568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311039427.8A Pending CN117314714A (zh) 2023-08-17 2023-08-17 基于双域和多尺度网络的文档图像篡改检测与分类方法

Country Status (1)

Country Link
CN (1) CN117314714A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117557562A (zh) * 2024-01-11 2024-02-13 齐鲁工业大学(山东省科学院) 基于双流网络的图像篡改检测方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117557562A (zh) * 2024-01-11 2024-02-13 齐鲁工业大学(山东省科学院) 基于双流网络的图像篡改检测方法及系统
CN117557562B (zh) * 2024-01-11 2024-03-22 齐鲁工业大学(山东省科学院) 基于双流网络的图像篡改检测方法及系统

Similar Documents

Publication Publication Date Title
Qureshi et al. A bibliography of pixel-based blind image forgery detection techniques
Yang et al. Source camera identification based on content-adaptive fusion residual networks
Park et al. Double JPEG detection in mixed JPEG quality factors using deep convolutional neural network
CN111340784B (zh) 一种基于Mask R-CNN图像篡改检测方法
Armas Vega et al. Copy-move forgery detection technique based on discrete cosine transform blocks features
Singh et al. Fast and efficient region duplication detection in digital images using sub-blocking method
CN112150450B (zh) 一种基于双通道U-Net模型的图像篡改检测方法及装置
Yang et al. Spatiotemporal trident networks: detection and localization of object removal tampering in video passive forensics
CN112907598A (zh) 一种基于注意力cnn文档证件类图像篡改检测方法
CN111160313A (zh) 一种基于lbp-vae异常检测模型的人脸表示攻击检测方法
CN112069891A (zh) 一种基于光照特征的深度伪造人脸鉴别方法
CN110457996B (zh) 基于vgg-11卷积神经网络的视频运动对象篡改取证方法
Hakimi et al. Image-splicing forgery detection based on improved lbp and k-nearest neighbors algorithm
CN114387641A (zh) 基于多尺度卷积网络和ViT的虚假视频检测方法及系统
CN107103266A (zh) 二维人脸欺诈检测分类器的训练及人脸欺诈检测方法
CN117314714A (zh) 基于双域和多尺度网络的文档图像篡改检测与分类方法
Jarusek et al. Photomontage detection using steganography technique based on a neural network
CN110852292B (zh) 一种基于跨模态多任务深度度量学习的草图人脸识别方法
CN112215780A (zh) 基于类特征修复融合的图像取证对抗性攻击防御方法
Elsharkawy et al. New and efficient blind detection algorithm for digital image forgery using homomorphic image processing
CN117496583B (zh) 一种可学习局部差异的深度伪造人脸检测定位方法
CN113850284B (zh) 一种基于多尺度特征融合和多分支预测的多操作检测方法
Zhang et al. Image splicing detection scheme based on error level analysis and local binary pattern
Sabitha et al. Enhanced model for fake image detection (EMFID) using convolutional neural networks with histogram and wavelet based feature extractions
Singh et al. SDCN2: A shallow densely connected CNN for multi-purpose image manipulation detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination