CN117690118A - 一种基于深度伪造产物检测模型的检测方法及其系统 - Google Patents

一种基于深度伪造产物检测模型的检测方法及其系统 Download PDF

Info

Publication number
CN117690118A
CN117690118A CN202311698588.8A CN202311698588A CN117690118A CN 117690118 A CN117690118 A CN 117690118A CN 202311698588 A CN202311698588 A CN 202311698588A CN 117690118 A CN117690118 A CN 117690118A
Authority
CN
China
Prior art keywords
attention
network
detection model
deep
product detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311698588.8A
Other languages
English (en)
Inventor
丁峰
江紫寒
周越
朱小刚
刘春年
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Juneng Iot Technology Research Center Co ltd
Nanchang University New Generation Information Technology Industry Research Institute
Nanchang University
Original Assignee
Jiangxi Juneng Iot Technology Research Center Co ltd
Nanchang University New Generation Information Technology Industry Research Institute
Nanchang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Juneng Iot Technology Research Center Co ltd, Nanchang University New Generation Information Technology Industry Research Institute, Nanchang University filed Critical Jiangxi Juneng Iot Technology Research Center Co ltd
Priority to CN202311698588.8A priority Critical patent/CN117690118A/zh
Publication of CN117690118A publication Critical patent/CN117690118A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种基于深度伪造产物检测模型的检测方法及其系统,其中基于深度伪造产物检测模型的检测方法,包括以下步骤:进行深度伪造产物检测模型的构建;获取需要检测的图像数据,将图像数据输入至构建好的深度伪造产物检测模型;深度伪造产物检测模型输出图像数据的检测结果。本申请适用范围更广,对于输入图像格式不具有特殊的要求,适用于图像与视频,对于视频仅需要部分帧,而不需要前后关联的序列。且现有技术大多数只基于人脸特征,对图像内容亦有严格要求,本申请更能捕捉伪造手法自身的证据。

Description

一种基于深度伪造产物检测模型的检测方法及其系统
技术领域
本申请涉及数据处理领域,具体地,涉及一种基于深度伪造产物检测模型的检测方法及其系统。
背景技术
近年来,基于生成模型的深度伪造技术已经在人脸合成、语音合成和视频合成等方面得到了广泛应用。深度伪造技术的高保真度操作使得这些合成图像和视频难以被肉眼分辨,这给数字取证和犯罪调查工作带来了挑战。例如,在涉及身份验证和犯罪调查的情况下,由于被伪造图像和视频的真实性难以判断,这些数字证据可能会被误解或者被用来误导调查人员,从而使得调查工作受到干扰。因此,对于这种类型的数字证据,必须采用高效的检测方法来保障其真实性和可靠性。数字取证学是应对数字证据伪造和篡改的学科,它涉及到计算机科学、数学、法学和电子工程等多个学科。其中,数字取证中的数字图像分析和视频分析技术,可以帮助调查人员识别和分析数字证据的真实性。近年来,各种数字取证工具和技术已经得到了广泛应用,其中包括数字水印、图像和视频恢复、人脸检测和识别等技术,这些技术可以有效地检测和防止数字证据的伪造和篡改。目前,大多数方法使用基于卷积神经网络的二元分类器。为了训练这些分类器,需要提供足够数量的图像作为输入,以提取可以区分真实图像和伪造图像的全局特征。然而,最近Vision Transformer在各种视觉任务中的表现已经取得了最新的进展,这主要是由于其内置的注意力机制。一些检测方法已经引入了注意力机制,以增强其取证性能和可解释性。但是现有技术的伪造检测缺乏泛用性,都对数据本身的质量有特定要求。如使用频率域信息检测的模型多数只用于全图生成、基于面部定位的模型只用于面部替换、基于生理不一致性的模型只用于相关帧等。
因此,如何提供一种能达到更好泛用性和更高的检测率的检测方法,成为本领域急需解决的问题。
发明内容
本申请提供了一种基于深度伪造产物检测模型的检测方法,包括以下步骤:进行深度伪造产物检测模型的构建;获取需要检测的图像数据,将图像数据输入至构建好的深度伪造产物检测模型;深度伪造产物检测模型输出图像数据的检测结果。
如上的,其中,进行深度伪造产物检测模型的构建具体包括以下子步骤:确定双阶段多轴注意力视觉网络,并进行优化;响应于确定双阶段多轴注意力视觉网络后,确定频谱分析残差连接卷积网络;响应于确定频谱分析残差连接卷积网络后,确定网络信息融合分类层。
如上的,其中,确定双阶段多轴注意力视觉网络,并进行优化包括,在双阶段多轴注意力视觉网络的多头注意层前采用MBConv块进行图像特征的初步提取,MBConv的过程具体来说,设x为输入特征,无下采样的MBConv块被表述为:
Norm表示数据正则化,Conv指扩展1x1卷积,DWConv表示纵深卷积3x3,SE表示压缩-激活层,Proj表示投影操作。
如上的,其中,确定双阶段多轴注意力视觉网络,并进行优化还包括,对注意力机制部分进行优化。
如上的,其中,对注意力机制部分进行优化具体包括以下步骤:计算块注意力;计算网格注意力。
一种基于深度伪造产物检测模型的检测系统,包括深度伪造产物检测模型构建单元、图像输入单元以及检测结果输出单元;深度伪造产物检测模型构建单元用于进行深度伪造产物检测模型的构建;图像输入单元用于获取需要检测的图像数据,将图像数据输入至构建好的深度伪造产物检测模型;检测结果输出单元用于根据深度伪造产物检测模型输出图像数据的检测结果。
如上的,其中,深度伪造产物检测模型构建单元包括以下子模块:注意力视觉网络优化模块,频谱分析残差连接卷积网络确定模块以及网络信息融合分类层确定模块;注意力视觉网络优化模块用于确定双阶段多轴注意力视觉网络,并进行优化;频谱分析残差连接卷积网络确定模块用于确定频谱分析残差连接卷积网络;网络信息融合分类层确定模块用于确定网络信息融合分类层。
如上的,其中,注意力视觉网络优化模块确定双阶段多轴注意力视觉网络,并进行优化包括,在双阶段多轴注意力视觉网络的多头注意层前采用MBConv块进行图像特征的初步提取,MBConv的过程具体来说,设x为输入特征,无下采样的MBConv块被表述为:
Norm表示数据正则化,Conv指扩展1x1卷积,DWConv表示纵深卷积3x3,SE表示压缩-激活层,Proj表示投影操作。
如上的,其中,注意力视觉网络优化模块确定双阶段多轴注意力视觉网络,并进行优化还包括,对注意力机制部分进行优化。
如上的,其中,注意力视觉网络优化模块对注意力机制部分进行优化具体包括以下步骤:计算块注意力;计算网格注意力。
本申请具有以下有益效果:
(1)本申请适用范围更广。对于输入图像格式不具有特殊的要求,适用于图像与视频,对于视频仅需要部分帧,而不需要前后关联的序列。且现有技术大多数只基于人脸特征,对图像内容亦有严格要求。本方法更能捕捉伪造手法自身的证据,例如对最新出现的扩散模型全图合成亦有有效的检测能力。
(2)本申请同时使用频率分析和原图,对于伪造手法学习到的特征更广。过往工作大多仅限于单一伪造方法,如部分区域复制粘贴和全图合成分为两个不同的检测问题进行研究,相比之下本发明对现实存在的具有多种伪造方法的伪造产物均有优越的检测性能。
(3)本申请对视觉Transformer进行改良,在最大化的保留检测性能的同时使用了更小的参数量,从而大幅度减少网络计算开销并保持优越性能。且充分引入了计算机视觉的归纳偏置,解决了视觉Transformer的数据饥渴问题。亦保留了更好的数据扩展性,以便对后续新出现的伪造方法进行扩展学习。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例提供的基于深度伪造产物检测模型的检测方法的流程图;
图2是根据本申请实施例提供的MaxViT的结构示意图;
图3是根据本申请实施例提供的多轴注意力的信息交互原理图;
图4是根据本申请实施例提供的本实施例提供的深度伪造产物检测模型基本构建;
图5是根据本申请实施例提供的基于深度伪造产物检测模型的检测系统的内部结构示意图。
具体实施方式
下面结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请针对ITS提出了一种用于深度伪造产物检测的双通道网络。该网络包括两个通道:一个使用堆叠的Maxvit块来处理降采样的原始图像,另一个使用堆叠的ResNet基本块来捕获来自图像频谱的离散余弦变换的特征。从两个通道提取的特征使用线性层连接起来,再使用一个线性层作为分类器进行检测与训练。
实施例一
本实施例以视频帧或图片作为输入,使用opencv等人脸定位算法进行人脸区域裁剪后,送入设计的双通道网络,输出为视频或图片源的真实/伪造的分类。
如图1所示,为本实施例提供的一种基于深度伪造产物检测模型的检测方法,具体包括以下步骤:
步骤S110:进行深度伪造产物检测模型的构建。
其中深度伪造产物检测模型的构建具体包括以下子步骤:
步骤S1101:确定双阶段多轴注意力视觉Transformer网络,并进行优化。
其中在原始输入模型中,本实施例旨在最大化获得Transformer架构优越性能的同时减轻计算负担。为此,本实施例旨在最小化计算和内存要求,同时保留标准Transformer架构和注意力机制。
以往的Transformer网络把输入图片分割为数个补丁,再作为输入进入网络。这种方法缺少了图像中的归纳偏置,如图片中相邻像素的强相关性和图片全局信息的冗余性。通过使用卷积干道进行下采样来引入归纳偏差到本实施例的模型中,而不是采用将图像划分为补丁的标准Transformer方法,以把图片信息中的归纳偏置重新带回网络。
通常的Transformer网络以原图的补丁为输入,参数量较大并难以计算,同时会带来缺乏大数据预训练权重时难以迁移到特定任务的问题。为提高网络的通用性和可训练性,本实施例在多头注意层之前采用了MBConv块以初步提取图像特征。MBConv即为下列描述卷积功能层的组合,具有深度可分离卷积的倒残差的线性瓶颈层,MBConv块源自MobileNets,是一种具有低参数的轻量级网络,易于在移动设备上部署。MBConv块中的深度卷积提供类似于条件位置编码的信息,进一步增强了模型的能力。MBConv的过程具体来说,设x为输入特征,无下采样的MBConv块被表述为:
其中Norm指BatchNorm,是数据正则化的常用方式。Conv指扩展1x1卷积,用于BatchNorm和GELU层后的激活,这是基于Transformer模型的典型选择。DWConv是纵深卷积3x3,然后是BatchNorm和GELU。SE是压缩-激活层,而Proj是一个投影操作,使用缩减1x1卷积以缩减通道数。
进一步地,在消耗计算量最大的注意力机制部分,本实施例也进行了优化,采用了受MaxViT影响的两阶段自注意机制。图2是MaxViT的结构示意图,图3说明了多轴注意力的信息交互原理。
其中对注意力机制部分进行优化具体包括以下步骤:
步骤P1:计算块注意力。
以往的第一阶段,块注意力,使每个像素在固定窗口内执行自我注意力,以获得局部中像素之间的信息交互,这和标准的Transformer网络类似,但是本实施例处理的是卷积提取的特征图,而不是原图的补丁,极大的减少了计算量。对Block操作的定义是,窗口尺寸参数为P,将输入图像/特征划分为不重叠的块,每个块的大小为P×P:
其中Block为划分下来的P*P的块,H为图片像素高度,W为图片像素宽度,C为图片RGB频道值。
在计算块注意力结束后,还原块只需要用上列公式的反向即可。
步骤P2:计算网格注意力。
其中第二阶段,计算网格注意力,则在整个图像上稀疏且均匀地选择像素进行注意力,从而进行块与块直接的全局信息交互。这种稀疏的注意力操作还考虑到了图片信息的冗余性,减少了许多不必要的像素间计算操作。相似的,对Grid操作的定义是将输入特征划分为一个统一的G×G网格,每个网格都有适应性的大小。与块操作不同的是,本实施例需要应用一个额外的转置来将网格维度置于假定的空间轴(即-2轴)中:
在计算网注意力结束后,还原网亦是用上列公式的反向。
步骤S1102:确定频谱分析残差连接卷积网络。
其中在频谱分析残差连接卷积网络中,本实施例使用图片的离散余弦变换频谱作为输入,并用一个较大的卷积核进行初步的特征提取以减少计算量。
对于图片频率分析相关的多项研究已经表明,由GAN生成的虚假图像在频率域中呈现出独特的特征,如离散余弦变换和快速傅里叶变换后会产生如棋盘格状的伪影,这是由于生成过程中卷积上采样的窗口重叠产生的。检测这些特征并不需要过于复杂的网络,过往方法也有人使用了基本的如SVM的传统机器学习算法。但随着生成网络的改进,以及避免潜在的压缩等噪声干扰,本实施例使用了残差连接网络以识别更微小的伪造痕迹。残差连接的方式即能用卷积捕获局部信息的不一致,又能在加深网络获得更多信息的同时与原始信息保持一致性。在不同深度伪造产物数据集在频率图谱下的采样,与全图合成伪造产物在频率图谱下明显的模式化的伪影相比更细微。对于这些微小的不一致,使用深度网络而不是传统机器学习方法能取得更好的性能。
步骤S1103:确定网络信息融合分类层。
本实施例的框架遵循了ViT模型的典型方法,利用线性层对从两个网络中提取的特征进行分类,判断其真伪。这种方法综合了两个模型提取的深层特征,综合进行考量分类。对于两个分支网络传统做法是设计两个不同的损失函数进行优化,但在本方法中的网络信息融合分类层使用一个线性分类器本实施例就能够使用二元交叉熵损失函数优化两个模型,从而在更简单的优化过程中获得更好的训练性能。设双阶段多轴注意力视觉Transformer网络输出为MaxVit(x),频谱分析残差连接卷积网络输出为FreqRes(x),使用了单层线性层。输出Z是结合了MaxVit网络和ResNet在频域中提取的特征的向量:
使用Z作为线性层的输入,线性层最后连接sigmoid以获得概率,输出Output为:
其中 σ 是 sigmoid 函数,w 是线性分类器的权重向量,b是偏置项,T 表示转置操作。如果概率大于 0.5,则输出被视为真实,如果小于 0.5,则输出被视为伪造。
根据上述方式完成深度伪造产物检测模型的构建,深度伪造产物检测模型为双通道网络,一个使用堆叠的Maxvit块来处理降采样的原始图像,另一个使用堆叠的ResNet基本块来捕获来自图像频谱的离散余弦变换的特征。从两个通道提取的特征使用线性层连接起来,再使用一个线性层作为分类器进行检测与训练。
步骤S120:获取需要检测的图像数据,将图像数据输入至构建好的深度伪造产物检测模型。
其中如图4所示,为本实施例提供的深度伪造产物检测模型基本构建图。
获取需要检测的原始视频或图像数据,将图像数据输入至构建好的深度伪造产物检测模型还包括,对需要检测的视频或图像数据进行处理。
其中处理方式具体为,使用opencv等人脸定位算法将需要检测的视频或图像数据进行人脸区域裁剪,将裁剪后的人脸区域图像输入深度伪造产物检测模型中。
步骤S130:深度伪造产物检测模型输出图像数据的检测结果。
通过将处理后的原始视频或图像数据,以及频域图像输入至深度伪造产物检测模型,能够得到输入的人脸区域图像为真实图像或伪造图像的检测结果。
其中在将处理后的原始视频或图像数据,以及频域图像输入至深度伪造产物检测模型之前,还包括,对图像数据进行预处理。
其中以原始视频为例,若是包含深度伪造人脸的视频,则选择每5帧中的一帧作为关键帧。令k表示关键帧的索引。
接下来提取关键帧中的人脸特征点,其中使用卷积神经网络(CNN)提取关键帧k上的人脸特征点:其中特征点表示为:
提取关键帧中的人脸特征点后,进行中心点的计算,其中计算所有特征点的中值,作为中心点 C_k:
进行中心点的计算后,进行面部区域的定义。其中定义一个正方形区域 R_k,以中心点 C_k 为中心,包含所有面部特征点:
其中,Square(C_k, s) 表示以中心点 C_k 为中心,边长为 s 的正方形。
最后进行重分辨率调整,具体将将裁剪出的面部区域 R_k 统一调整为 256×256像素的图像,从而完成原始视频的预处理。
作为另一个实施例,本实施例可以采取以下方法,不仅适用于包含人脸的图像,而且适用于对其他潜在包含生成网络的合成图像进行检测的情况。该方法禁用MaxVIT分支,可以仅使用频率分支,并重新训练一个线性层分类器,以处理频率分支的输出,从而得到图像数据的检测结果。
其中首先选择网络分支:选择使用频率分支和MaxVIT分支之一,具体取决于应用的需要。令X表示图像输入,F_freq(X) 表示频率分支的输出,F_maxvit(X) 表示MaxVIT分支的输出。
接下来重新训练线性分类器:
对于选定的分支(例如,频率分支),本实施例引入一个线性层分类器来处理其输出。分类器可以表示为:
其中,Y是分类结果,W是权重矩阵,b是偏差项,F_freq(X) 表示频率分支的输出。
选定分支后进行训练,其中训练过程为:通过少量新的训练数据集来重新训练模型,以优化分类器的权重W和偏差项b,以适应所选分支的输出,以获得更好的分类性能。这种方法允许把检测领域从人脸扩充到其他全图合成的伪造图片,并使用少量数据即可取得优秀的检测性能。
实施例二
如图5所示,本申请提供了一种基于深度伪造产物检测模型的检测系统,其中该系统具体包括:深度伪造产物检测模型构建单元510、图像输入单元520以及检测结果输出单元530。
深度伪造产物检测模型构建单元510用于进行深度伪造产物检测模型的构建。
深度伪造产物检测模型构建单元510具体包括以下子模块:注意力视觉网络优化模块,频谱分析残差连接卷积网络确定模块以及网络信息融合分类层确定模块。
注意力视觉网络优化模块用于确定双阶段多轴注意力视觉Transformer网络,并进行优化。
双阶段多轴注意力视觉Transformer网络:在原始输入模型中,本实施例旨在最大化获得Transformer架构优越性能的同时减轻计算负担。为此,本实施例旨在最小化计算和内存要求,同时保留标准Transformer架构和注意力机制。
以往的Transformer网络把输入图片分割为数个补丁,再作为输入进入网络。这种方法缺少了图像中的归纳偏置,如图片中相邻像素的强相关性和图片全局信息的冗余性。通过使用卷积干道进行下采样来引入归纳偏差到本实施例的模型中,而不是采用将图像划分为补丁的标准Transformer方法,以把图片信息中的归纳偏置重新带回网络。
通常的Transformer网络以原图的补丁为输入,参数量较大并难以计算,同时会带来缺乏大数据预训练权重时难以迁移到特定任务的问题。为提高网络的通用性和可训练性,本实施例在多头注意层之前采用了MBConv块以初步提取图片特征。MBConv源自MobileNets,是一种具有低参数的轻量级网络,易于在移动设备上部署。MBConv块中的深度卷积提供类似于条件位置编码的信息,进一步增强了模型的能力。MBConv的过程具体来说,设x为输入特征,无下采样的MBConv块被表述为:
其中Norm指BatchNorm,是数据正则化的常用方式。Conv指扩展1x1卷积,用于BatchNorm和GELU层后的激活,这是基于Transformer模型的典型选择。DWConv是纵深卷积3x3,然后是BatchNorm和GELU。SE是压缩-激活层,而Proj是一个投影操作,使用缩减1x1卷积以缩减通道数。
进一步地,在消耗计算量最大的注意力机制部分,本实施例也进行了优化,采用了受MaxViT影响的两阶段自注意机制。图3说明了多轴注意力的信息交互原理。
其中对注意力机制部分进行优化具体包括以下步骤:
步骤P1:计算块注意力。
以往的第一阶段,块注意力,使每个像素在固定窗口内执行自我注意力,以获得局部中像素之间的信息交互,这和标准的Transformer网络类似,但是本实施例处理的是卷积提取的特征图,而不是原图的补丁,极大的减少了计算量。对Block操作的定义是,窗口尺寸参数为P,将输入图像/特征划分为不重叠的块,每个块的大小为P×P:
在计算块注意力结束后,还原块只需要用上列公式的反向即可。
步骤P2:计算网格注意力。
其中第二阶段,计算网格注意力,则在整个图像上稀疏且均匀地选择像素进行注意力,从而进行块与块直接的全局信息交互。这种稀疏的注意力操作还考虑到了图片信息的冗余性,减少了许多不必要的像素间计算操作。相似的,对Grid操作的定义是将输入特征划分为一个统一的G×G网格,每个网格都有适应性的大小。与块操作不同的是,本实施例需要应用一个额外的转置来将网格维度置于假定的空间轴(即-2轴)中:
在计算网注意力结束后,还原网亦是用上列公式的反向。
频谱分析残差连接卷积网络确定模块,用于确定频谱分析残差连接卷积网络。
其中在频谱分析残差连接卷积网络中,本实施例使用图片的离散余弦变换频谱作为输入,并用一个较大的卷积核进行初步的特征提取以减少计算量。
对于图片频率分析相关的多项研究已经表明,由GAN生成的虚假图像在频率域中呈现出独特的特征,如离散余弦变换和快速傅里叶变换后会产生如棋盘格状的伪影,这是由于生成过程中卷积上采样的窗口重叠产生的。检测这些特征并不需要过于复杂的网络,过往方法也有人使用了基本的如SVM的传统机器学习算法。但随着生成网络的改进,以及避免潜在的压缩等噪声干扰,本实施例使用了残差连接网络以识别更微小的伪造痕迹。残差连接的方式即能用卷积捕获局部信息的不一致,又能在加深网络获得更多信息的同时与原始信息保持一致性。在不同深度伪造产物数据集在频率图谱下的采样,与全图合成伪造产物在频率图谱下明显的模式化的伪影相比更细微。对于这些微小的不一致,使用深度网络而不是传统机器学习方法能取得更好的性能。
网络信息融合分类层确定模块用于确定网络信息融合分类层。
本实施例的框架遵循了ViT模型的典型方法,利用线性层对从两个网络中提取的特征进行分类,判断其真伪。这种方法综合了两个模型提取的深层特征,综合进行考量分类。对于两个分支网络传统做法是设计两个不同的损失函数进行优化,但在本方法中的网络信息融合分类层使用一个线性分类器本实施例就能够使用二元交叉熵损失函数优化两个模型,从而在更简单的优化过程中获得更好的训练性能。设双阶段多轴注意力视觉Transformer网络输出为MaxVit(x),频谱分析残差连接卷积网络输出为FreqRes(x),使用了单层线性层。输出Z是结合了MaxVit网络和ResNet在频域中提取的特征的向量:
使用Z作为线性层的输入,线性层最后连接sigmoid以获得概率,输出Output为:
其中 σ 是 sigmoid 函数,w 是线性分类器的权重向量,b是偏置项,T 表示转置操作。如果概率大于 0.5,则输出被视为真实,如果小于 0.5,则输出被视为伪造。
根据上述方式完成深度伪造产物检测模型的构建,深度伪造产物检测模型为双通道网络,一个使用堆叠的Maxvit块来处理降采样的原始图像,另一个使用堆叠的ResNet基本块来捕获来自图像频谱的离散余弦变换的特征。从两个通道提取的特征使用线性层连接起来,再使用一个线性层作为分类器进行检测与训练。
图像输入单元520用于获取需要检测的图像数据,将图像数据输入至构建好的深度伪造产物检测模型。
获取需要检测的原始视频或图像数据,将图像数据输入至构建好的深度伪造产物检测模型还包括,对需要检测的视频或图像数据进行处理。
其中处理方式具体为,使用opencv等人脸定位算法将需要检测的视频或图像数据进行人脸区域裁剪,将裁剪后的人脸区域图像输入深度伪造产物检测模型中。
检测结果输出单元530用于根据深度伪造产物检测模型输出图像数据的检测结果。
通过将处理后的原始视频或图像数据,以及频域图像输入至深度伪造产物检测模型,能够得到输入的人脸区域图像为真实图像或伪造图像的检测结果。
本申请具有以下有益效果:
(1)本申请适用范围更广。对于输入图像格式不具有特殊的要求,适用于图像与视频,对于视频仅需要部分帧,而不需要前后关联的序列。且现有技术大多数只基于人脸特征,对图像内容亦有严格要求。本方法更能捕捉伪造手法自身的证据,例如对最新出现的扩散模型全图合成亦有有效的检测能力。
(2)本申请同时使用频率分析和原图,对于伪造手法学习到的特征更广。过往工作大多仅限于单一伪造方法,如部分区域复制粘贴和全图合成分为两个不同的检测问题进行研究,相比之下本发明对现实存在的具有多种伪造方法的伪造产物均有优越的检测性能。
(3)本申请对视觉Transformer进行改良,在最大化的保留检测性能的同时使用了更小的参数量,从而大幅度减少网络计算开销并保持优越性能。且充分引入了计算机视觉的归纳偏置,解决了视觉Transformer的数据饥渴问题。亦保留了更好的数据扩展性,以便对后续新出现的伪造方法进行扩展学习。
(4)本发明对于训练数据以外的数据依旧表现出良好的性能。在应对未来挑战之中更有应用价值,克服了过往工作中的难点之一。
虽然当前申请参考的示例被描述,其只是为了解释的目的而不是对本申请的限制,对实施方式的改变,增加和/或删除可以被做出而不脱离本申请的范围。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种基于深度伪造产物检测模型的检测方法,其特征在于,包括以下步骤:
进行深度伪造产物检测模型的构建;
获取需要检测的图像数据,将图像数据输入至构建好的深度伪造产物检测模型;
深度伪造产物检测模型输出图像数据的检测结果;
进行深度伪造产物检测模型的构建具体包括以下子步骤:
确定双阶段多轴注意力视觉网络,并进行优化;
响应于确定双阶段多轴注意力视觉网络后,确定频谱分析残差连接卷积网络;
响应于确定频谱分析残差连接卷积网络后,确定网络信息融合分类层;
确定双阶段多轴注意力视觉网络,并进行优化包括,在双阶段多轴注意力视觉网络的多头注意层前采用MBConv块进行图像特征的初步提取,MBConv的过程具体来说,设x为输入特征,无下采样的MBConv块被表述为:
Norm表示数据正则化,Conv指扩展1x1卷积,DWConv表示纵深卷积3x3,SE表示压缩-激活层,Proj表示投影操作。
2.如权利要求1所述的基于深度伪造产物检测模型的检测方法,其特征在于,确定双阶段多轴注意力视觉网络,并进行优化还包括,对注意力机制部分进行优化。
3.如权利要求2所述的基于深度伪造产物检测模型的检测方法,其特征在于,对注意力机制部分进行优化具体包括以下步骤:
计算块注意力;
计算网格注意力。
4.一种基于深度伪造产物检测模型的检测系统,应用于如权利要求1至3任一项所述的检测方法,其特征在于,包括深度伪造产物检测模型构建单元、图像输入单元以及检测结果输出单元;
深度伪造产物检测模型构建单元用于进行深度伪造产物检测模型的构建;
图像输入单元用于获取需要检测的图像数据,将图像数据输入至构建好的深度伪造产物检测模型;
检测结果输出单元用于根据深度伪造产物检测模型输出图像数据的检测结果。
5.如权利要求4所述的基于深度伪造产物检测模型的检测系统,其特征在于,深度伪造产物检测模型构建单元包括以下子模块:注意力视觉网络优化模块,频谱分析残差连接卷积网络确定模块以及网络信息融合分类层确定模块;
注意力视觉网络优化模块用于确定双阶段多轴注意力视觉网络,并进行优化;
频谱分析残差连接卷积网络确定模块用于确定频谱分析残差连接卷积网络;
网络信息融合分类层确定模块用于确定网络信息融合分类层。
6.如权利要求5所述的基于深度伪造产物检测模型的检测系统,其特征在于,注意力视觉网络优化模块用于确定双阶段多轴注意力视觉网络,并进行优化包括,在双阶段多轴注意力视觉网络的多头注意层前采用MBConv块进行图像特征的初步提取,MBConv的过程具体来说,设x为输入特征,无下采样的MBConv块被表述为:
Norm表示数据正则化,Conv指扩展1x1卷积,DWConv表示纵深卷积3x3,SE表示压缩-激活层,Proj表示投影操作。
7.如权利要求5所述的基于深度伪造产物检测模型的检测系统,其特征在于,注意力视觉网络优化模块用于确定双阶段多轴注意力视觉网络,并进行优化还包括,对注意力机制部分进行优化。
8.如权利要求4所述的基于深度伪造产物检测模型的检测系统,其特征在于,注意力视觉网络优化模块对注意力机制部分进行优化具体包括以下步骤:
计算块注意力;
计算网格注意力。
CN202311698588.8A 2023-12-12 2023-12-12 一种基于深度伪造产物检测模型的检测方法及其系统 Pending CN117690118A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311698588.8A CN117690118A (zh) 2023-12-12 2023-12-12 一种基于深度伪造产物检测模型的检测方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311698588.8A CN117690118A (zh) 2023-12-12 2023-12-12 一种基于深度伪造产物检测模型的检测方法及其系统

Publications (1)

Publication Number Publication Date
CN117690118A true CN117690118A (zh) 2024-03-12

Family

ID=90131425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311698588.8A Pending CN117690118A (zh) 2023-12-12 2023-12-12 一种基于深度伪造产物检测模型的检测方法及其系统

Country Status (1)

Country Link
CN (1) CN117690118A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898437A (zh) * 2022-05-25 2022-08-12 北京邮电大学 一种基于频率学习的深度伪造人脸检测方法
CN115546864A (zh) * 2022-09-20 2022-12-30 广州大学 一种基于自注意力机制的双分支人脸伪造检测方法
CN115829909A (zh) * 2022-05-27 2023-03-21 华侨大学 一种基于特征增强和频谱分析的伪造检测方法
CN116778545A (zh) * 2023-03-13 2023-09-19 中国电子科技集团公司第三十研究所 一种视频深度伪造检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898437A (zh) * 2022-05-25 2022-08-12 北京邮电大学 一种基于频率学习的深度伪造人脸检测方法
CN115829909A (zh) * 2022-05-27 2023-03-21 华侨大学 一种基于特征增强和频谱分析的伪造检测方法
CN115546864A (zh) * 2022-09-20 2022-12-30 广州大学 一种基于自注意力机制的双分支人脸伪造检测方法
CN116778545A (zh) * 2023-03-13 2023-09-19 中国电子科技集团公司第三十研究所 一种视频深度伪造检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUE ZHOU等: ""Exposing Deepfakes using Dual-Channel Network with Multi-Axis Attention and Frequency Analysis"", INFORMATION HIDING AND MULTIMEDIA SECURITY, 28 June 2023 (2023-06-28), pages 169 - 174, XP059154189, DOI: 10.1145/3577163.3595103 *
ZHENGZHONG TU等: ""MaxViT: Multi-axis Vision Transformer"", EUROPEAN CONFERENCE ON COMPUTER VISION, 6 November 2022 (2022-11-06), pages 1 - 31 *

Similar Documents

Publication Publication Date Title
JP7490141B2 (ja) 画像検出方法、モデルトレーニング方法、画像検出装置、トレーニング装置、機器及びプログラム
CN110969124B (zh) 基于轻量级多分支网络的二维人体姿态估计方法及系统
CN110826389B (zh) 基于注意力3d频率卷积神经网络的步态识别方法
CN113642634A (zh) 一种基于混合注意力的阴影检测方法
Jia et al. Inconsistency-aware wavelet dual-branch network for face forgery detection
CN112069891B (zh) 一种基于光照特征的深度伪造人脸鉴别方法
CN112991345B (zh) 图像真伪检测方法、装置、计算机设备和存储介质
CN113112416B (zh) 一种语义引导的人脸图像修复方法
CN111797702A (zh) 基于空间局部二值模式与光流梯度的人脸伪造视频检测方法
Yin et al. Dynamic difference learning with spatio-temporal correlation for deepfake video detection
CN112801037A (zh) 一种基于连续帧间差异的人脸篡改检测方法
CN114898438A (zh) 一种基于时频域视觉伪影特征自适应融合的跨模态深度伪造检测方法
CN115641632A (zh) 一种基于分离三维卷积神经网络的人脸伪造检测方法
CN112785480A (zh) 基于频域变换和残差反馈模块的图像拼接篡改检测方法
Majumder et al. A tale of a deep learning approach to image forgery detection
CN113705358B (zh) 一种基于特征映射的多角度侧脸正面化方法
CN111476727A (zh) 一种面向换脸视频检测的视频运动增强方法
CN106940904A (zh) 基于人脸识别和语音识别的考勤系统
CN111539434B (zh) 基于相似度的红外弱小目标检测方法
Wang et al. A unified framework of source camera identification based on features
CN114049289B (zh) 基于对比学习与StyleGAN2的近红外-可见光人脸图像合成方法
Agarwal et al. Image forgery detection using Markov features in undecimated wavelet transform
CN117690118A (zh) 一种基于深度伪造产物检测模型的检测方法及其系统
CN115797970A (zh) 基于YOLOv5模型的密集行人目标检测方法及系统
CN115147758A (zh) 基于帧内帧间特征差异化的深度伪造视频检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination