CN116311482A - 人脸伪造检测方法、系统、设备及存储介质 - Google Patents
人脸伪造检测方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN116311482A CN116311482A CN202310584027.9A CN202310584027A CN116311482A CN 116311482 A CN116311482 A CN 116311482A CN 202310584027 A CN202310584027 A CN 202310584027A CN 116311482 A CN116311482 A CN 116311482A
- Authority
- CN
- China
- Prior art keywords
- face image
- face
- image
- region
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 53
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 230000004927 fusion Effects 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000012512 characterization method Methods 0.000 claims description 37
- 238000000034 method Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 13
- 238000013434 data augmentation Methods 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 5
- 238000002474 experimental method Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000000007 visual effect Effects 0.000 description 5
- 230000003416 augmentation Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- -1 carrier Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/40—Spoof detection, e.g. liveness detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种人脸伪造检测方法、系统、设备及存储介质,它们是一一对应的方案,方案中:Transformer网络的全局感受野可以有效捕获全局的融合痕迹,结合本发明提出的基于图像块的自监督预训练和区域级的对比学习可以有效地引导Transformer网络去关注细微的融合痕迹,显著的改善了现有检测算法的泛化性能;实验表明本发明提供的方案可以极大的提高检测准确度。
Description
技术领域
本发明涉及人脸伪造检测技术领域,尤其涉及一种人脸伪造检测方法、系统、设备及存储介质。
背景技术
人脸伪造检测是一个逐渐兴起的研究课题,它的目的是给出输入人脸图像是否伪造的判定。
最近一些先进的检测方法利用卷积神经网络(CNN)对细节纹理的感知能力设法捕获伪造人脸中局部的融合痕迹,但是由于CNN局部性的归纳偏置导致无法捕获全局的伪造痕迹,限制了现有检测方法的泛化能力。
带有全局感受野的视觉Transformer(变换器)网络是一个很有潜力的解决方案,但是原始的Transformer网络并不擅长捕获细微的融合痕迹,导致现有基于Transformer网络的人脸伪造检测方案准确度不佳。
有鉴于此,特提出本发明。
发明内容
本发明的目的是提供一种人脸伪造检测方法、系统、设备及存储介质,通过捕获伪造人脸全局并且细微的融合痕迹,有效改善人脸伪造检测的泛化性能与检测准确度。
本发明的目的是通过以下技术方案实现的:
一种人脸伪造检测方法,包括:
构建图像块数量预测任务,采用自监督的方式对Transformer网络进行预训练;其中,Transformer网络表示变换器网络;
将融合人脸图像与目标人脸图像分别进行图像块划分,再与各自的类特征一并通过预训练后的Transformer网络,获得融合人脸图像图像块表征与类特征表征,以及目标人脸图像图像块表征与类特征表征;利用融合人脸图像类特征表征与目标人脸图像类特征表征计算分类损失;以及,利用融合掩码从融合人脸图像图像块表征与目标人脸图像图像块表征中分别提取区域级表征,并计算区域级对比损失;结合所述分类损失与区域级对比损失对所述预训练后的Transformer网络进行训练;其中,所述融合掩码是指利用目标人脸图像与源人脸图像生成融合人脸图像时使用的掩码;
将待检测人脸图像输入至训练后的Transformer网络,获得人脸伪造检测结果。
一种人脸伪造检测系统,包括:
自监督预训练模块,用于构建图像块数量预测任务,采用自监督的方式对Transformer网络进行预训练;其中,Transformer网络表示变换器网络;
训练模块,用于将融合人脸图像与目标人脸图像分别进行图像块划分,再与各自的类特征一并通过预训练后的Transformer网络,获得融合人脸图像图像块表征与类特征表征,以及目标人脸图像图像块表征与类特征表征;利用融合人脸图像类特征表征与目标人脸图像类特征表征计算分类损失;以及,利用融合掩码从融合人脸图像图像块表征与目标人脸图像图像块表征中分别提取区域级表征,并计算区域级对比损失;结合所述分类损失与区域级对比损失对所述预训练后的Transformer网络进行训练;其中,所述融合掩码是指利用目标人脸图像与源人脸图像生成融合人脸图像时使用的掩码;
检测模块,用于将待检测人脸图像输入至训练后的Transformer网络,获得人脸伪造检测结果。
一种处理设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述的方法。
一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述的方法。
由上述本发明提供的技术方案可以看出,Transformer网络的全局感受野可以有效捕获全局的融合痕迹,结合本发明提出的基于图像块的自监督预训练和区域级的对比学习可以有效地引导Transformer网络去关注细微的融合痕迹,显著的改善了现有检测算法的泛化性能;实验表明本发明提供的方案可以极大的提高检测准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种人脸伪造检测方法的流程图;
图2为本发明实施例提供的一种人脸伪造检测方法的训练框架图;
图3为本发明实施例提供的融合人脸图像合成过程示意图;
图4为本发明实施例提供的融合人脸图像组成示意图;
图5为本发明实施例提供的一种人脸伪造检测系统的示意图;
图6为本发明实施例提供的一种处理设备的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
首先对本文中可能使用的术语进行如下说明:
术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的其它技术特征要素。
下面对本发明所提供的一种人脸伪造检测方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。
实施例一
本发明实施例提供一种人脸伪造检测方法,如图1所示,其主要包括如下步骤:
步骤1、自监督预训练。
本发明实施例中,构建图像块数量预测任务,采用自监督的方式对Transformer网络进行预训练。具体来说:将每一真实人脸图像样本,随机划分为k个不重叠的图像块,并对每一图像块分别随机应用不同数据增广操作,再将所有经数据增广操作后的图像块按照在人脸图像样本中的位置拼接,获得拼接图像,并设置标签为k;所述Transformer网络的输入为拼接图像,输出为拼接图像中图像块的数量,并以相应标签作为监督信息进行预训练;其中,k为正整数,不同的k值大小对应不同的图像块大小,通常可设置为偶数(例如,k=2或者k=4等),当然具体数值可以由用户根据实际情况或者经验进行设定。
步骤2、对预训练后的Transformer网络进行训练。
本发明实施例中,将融合人脸图像与目标人脸图像分别进行图像块划分,再与各自的类特征一并通过预训练后的Transformer网络,获得融合人脸图像图像块表征与类特征表征,以及目标人脸图像图像块表征与类特征表征;利用融合人脸图像类特征表征与目标人脸图像类特征表征计算分类损失;以及,利用融合掩码从融合人脸图像图像块表征与目标人脸图像图像块表征中分别提取区域级表征,并计算区域级对比损失;结合所述分类损失与区域级对比损失对所述预训练后的Transformer网络进行训练;其中,所述融合掩码是指利用目标人脸图像与源人脸图像生成融合人脸图像时使用的掩码。
步骤3、将待检测人脸图像输入至训练后的Transformer网络,获得人脸伪造检测结果。
本发明实施例中,可以将经过上述训练后的Transformer网络部署于计算机或服务器,自动对人脸图像是否伪造做出判别,可以应用于各大社交平台例如短视频网站,照片分享网站等,同时也可以单独做成web应用(浏览器应用),供用户鉴别人脸图像是否伪造。
本发明实施例提供的上述方法是一种基于细节增强型Transformer网络的人脸伪造检测方法,通过捕获伪造人脸全局并且细微的融合痕迹,有效改善人脸伪造检测的泛化性能。基于Transformer网络的全局感受野,本发明可有效的捕获全局的融合痕迹,同时为了克服原生Transformer网络不擅长捕获细微的融合痕迹的问题。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的方法进行详细描述。
一、基于图像块增广的自监督预训练。
Transformer网络缺乏局部性的归纳偏置导致在小规模数据集上从头训练Transformer网络非常困难,因此在预训练网络的基础上细调网络是一个非常流行的做法。但是目前的预训练方法大多基于常规的图像语义分类任务,而融合痕迹的捕获更依赖底层的图像特征。为了降低预训练与细微融合痕迹捕获任务之间的gap(差异),本发明提出了一种基于图像块增广的自监督预训练方法。
如图2左侧部分所示,对于输入的真实人脸图像样本,本发明所提出的图像块增广器将其随机分为k个不重叠的图像块。随后通过对k个图像块分别随机应用不同的数据增广方法,例如灰度化和JPEG压缩(静止图像压缩)等,每个图像块被赋予了不同的底层图像特征。最后将增广后的k个图像块按照原位置拼接回原图像并将该图像的标签设为k。至此,本发明构建了一个图像块数量预测任务,根据Transformer网络预测的图像块数量与标签k的差异计算图像块数量预测损失,用于对Transformer网络进行预训练。通过预测真实人脸图像被划分的图像块数目,Transformer网络被鼓励捕获图像块底层特征的不一致性,由此预训练与融合痕迹捕获任务的gap可以被显著的降低。本发明所提出的自监督预训练方法,结构简单,可扩展性强,计算效率高,可有效引导网络关注底层的图像特征。
二、对预训练后的Transformer网络进行训练。
如图2右侧部分所示,此部分训练主要包括:区域级的对比学习,分类学习两部分。
1、区域级的对比学习。
融合(伪造)人脸图像的像素分别来自源人脸图像和目标人脸图像,如图3所示,展示了合成融合人脸图像的示意图,即:源人脸图像×融合掩码+目标人脸图像×(1-融合掩码)=融合人脸图像。根据像素来源的不同,可将融合人脸图像划分为源人脸区域,目标人脸区域以及混合区域,如图4所示,依次表示:融合人脸图像,源人脸区域,目标人脸区域和混合区域。一个关键的事实是源人脸区域和目标人脸区域具有不同的底层图像特征,因为它们来自不同的图像。这种底层图像特征的差异暗示源人脸区域和目标人脸区域的表征应该具有较大的差异。基于这一事实,本发明充分利用了视觉Transformer网络的结构特点提出了一种区域级的对比学习方法。
如图2右侧部分所示,对于融合人脸图像,将其变换为一组互不重叠的大小固定的图像块,将所有图像块映射为图像块特征(一维矢量),将所有图像块特征与随机初始化且能够表征融合人脸图像类别的类特征(一维矢量)一并输入至预训练后的Transformer网络,获得融合人脸图像图像块表征与类特征表征。同样的,目标人脸图像采用与融合人脸图像相同的方式,获得目标人脸图像图像块表征与类特征表征,此处的类是指真实类别或者伪造类别,即融合人脸图像为伪造类别,目标人脸图像为真实类别,相应的类特征均随机初始化。此部分中可以设置两个预训练后的Transformer网络,并行处理融合人脸图像与目标人脸图像的相关特征,且两个预训练后的Transformer网络共享权值参数。
本领域技术人员可以理解,图像块特征和完整图像的类特征输入Transformer网络中经过内部多层网络计算后得到各个图像块和类特征对应的表征。即,Transformer网络本身可以输出各个图像块的表征。基于此,本发明通过分别聚合源人脸区域和目标人脸区域对应的各个图像块表征,获取源人脸区域和目标人脸区域对应的区域级表征。为了获得源人脸区域和目标人脸区域与各个图像块之间的对应关系,利用融合掩码从融合人脸图像图像块表征与目标人脸图像图像块表征中分别提取区域级表征。优选实施方式如下:
(1)根据设定的阈值将融合掩码划分为代表源人脸区域和目标人脸区域的区域级掩码。具体的:将融合掩码划分一组互不重叠的大小固定的图像块,对于每个掩码图像块的值进行平均后根据设定的阈值划分为代表源人脸区域和目标人脸区域的区域级掩码,表示为:
(2)利用代表源人脸区域和目标人脸区域的区域级掩码对融合人脸图像图像块表征进行聚合,获得融合人脸图像中源人脸区域表征与目标人脸区域表征;以及利用代表目标人脸区域的区域级掩码对目标人脸图像图像块表征进行聚合,获得目标人脸表征。所述融合人脸图像中源人脸区域表征与目标人脸区域表征、以及目标人脸表征均为区域级表征。
示例性的,可以利用了一层带有掩码多头自注意力层的Transformer编码器作为特征聚合模块去分别聚合源人脸区域和目标人脸区域对应的各个图像块的表征。图2展示了一层带有掩码多头自注意力层的Transformer编码器的具体示例,其中,MASK MHSA中文名是掩码多头自注意力,它是一个带有掩码机制的多头自注意力模块,负责计算每个区域内部各个图像块表征之间的相关性,并基于这种相关性进行图像块表征的增强;MLP(多层感知机)进行一步对图像块表征进行映射,得到相应的区域级表征。
考虑到本发明的特征聚合模块带有可学习的参数,直接增大源人脸区域的表征和目标人脸区域的表征之间的距离会导致表征坍缩。为了解决这个问题,本发明约束从目标人脸中提取的目标人脸表征,与融合(伪造)人脸中目标人脸区域表征相似。本发明的区域级对比损失可以定义为:
其中,表示区域级对比损失,Dcos表示余弦距离函数;/>与/>表示利用融合掩码从融合人脸图像图像块表征中提取的区域级表征,/>表示融合人脸图像中源人脸区域表征,/>表示融合人脸图像中目标人脸区域表征;/>表示利用融合掩码从目标人脸图像图像块表征中提取的区域级表征,即目标人脸表征。
2、分类学习。
如图2右侧部分所示,两个预训练后的Transformer网络,并行处理融合人脸图像与目标人脸图像的相关特征时,会输出对应的类特征表征,此时,利用融合人脸图像类特征表征与目标人脸图像类特征表征计算分类损失。
结合以上分类损失与区域级对比损失对预训练后的Transformer网络进行训练。
三、数据处理与网络训练。
基于前述第一与第二部分介绍的训练原理介绍数据处理与网络训练方式。
1、数据处理。
本发明提出的训练方法既可以在伪造数据集上训练,也可以在合成数据集上训练,此处的训练是指对预训练后的Transformer网络进行。
在伪造数据集上训练时,首先将伪造检测数据集中的视频解码成帧,伪造数据集包含真实视频和伪造视频,解码成帧是指将视频转换为多张静态图像。考虑到数据的平衡性,真实视频和伪造视频将分别采样不同的帧数。以FF++数据集为例,每个真实视频采样80帧,每个虚假视频采样20帧。解码出的帧,经过一个人脸检测器得到面部区域的坐标,经过基于IOU(交并比)的人脸追踪算法处理过滤后,边界扩大1.3倍后裁出人脸图像。
合成数据集需要借用伪造数据集中的真实视频进行合成操作,在合成数据集上训练时,本发明只解码伪造数据集中的真实视频。将人脸裁剪出来后,根据人脸关键点生成随机的融合掩码。对人脸图像分别应用不同的数据增广后,将增广后的人脸图像与增广前的人脸图像按照先前生成的融合掩码融合得到训练数据(融合人脸图像数据)。在输入网络之前,所有的输入图像统一被裁减到指定尺寸(例如,384×384)。
2、网络训练。
本发明的网络在一张GPU(GPU)卡上训练,一次输入64张人脸图像。对于合成数据集,64张人脸图像由融合人脸图像与其对应的目标人脸图像(即前文所述的增广后的人脸图像)组成。整个网络使用SAM(锐度感知最小化)优化器优化,动量设为0.9,权值衰减系数设置为1e-4。为了更充分的训练,本发明采用了学习率线性衰减,初始学习率设置为0.001,整个网络训练100个epoch(轮次)。在网络选择方面,本发明的方法可应用于多种视觉Transformer网络的变体,包括Deit(数据有效的图像变换器网络),PVT(金字塔视觉变换器网络),swintransformer( 基于滑动窗口的视觉变换器网络)等,图像块大小也可选择常规的大小,例如,16×16和32×32等。
本发明提出的上述方案,通过捕获伪造人脸全局并且细微的融合痕迹,显著的改善了现有检测算法的泛化性能。Transformer网络的全局感受野可以有效捕获全局的融合痕迹,而本发明提出的基于图像块的自监督预训练和区域级的对比学习可以有效地引导transformer网络去关注细微的融合痕迹。在跨数据集的评估中,本发明提出的方法在以AUC(曲线下面积)为评估指标的情况下,在CDF,DFDC,DFDCP和FFIW数据集上分别取得了94.10,79.13,91.37和86.00的检测效果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例二
本发明还提供一种人脸伪造检测系统,其主要用于实现前述实施例提供的方法,如图5所示,该系统主要包括:
自监督预训练模块,用于构建图像块数量预测任务,采用自监督的方式对Transformer网络进行预训练;其中,Transformer网络表示变换器网络;
训练模块,用于将融合人脸图像与目标人脸图像分别进行图像块划分,再与各自的类特征一并通过预训练后的Transformer网络,获得融合人脸图像图像块表征与类特征表征,以及目标人脸图像图像块表征与类特征表征;利用融合人脸图像类特征表征与目标人脸图像类特征表征计算分类损失;以及,利用融合掩码从融合人脸图像图像块表征与目标人脸图像图像块表征中分别提取区域级表征,并计算区域级对比损失;结合所述分类损失与区域级对比损失对所述预训练后的Transformer网络进行训练;其中,所述融合掩码是指利用目标人脸图像与源人脸图像生成融合人脸图像时使用的掩码;
检测模块,用于将待检测人脸图像输入至训练后的Transformer网络,获得人脸伪造检测结果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例三
本发明还提供一种处理设备,如图6所示,其主要包括:一个或多个处理器;存储器,用于存储一个或多个程序;其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现前述实施例提供的方法。
进一步的,所述处理设备还包括至少一个输入设备与至少一个输出设备;在所述处理设备中,处理器、存储器、输入设备、输出设备之间通过总线连接。
本发明实施例中,所述存储器、输入设备与输出设备的具体类型不做限定;例如:
输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等;
输出设备可以为显示终端;
存储器可以为随机存取存储器(Random Access Memory,RAM),也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。
实施例四
本发明还提供一种可读存储介质,存储有计算机程序,当计算机程序被处理器执行时实现前述实施例提供的方法。
本发明实施例中可读存储介质作为计算机可读存储介质,可以设置于前述处理设备中,例如,作为处理设备中的存储器。此外,所述可读存储介质也可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (9)
1.一种人脸伪造检测方法,其特征在于,包括:
构建图像块数量预测任务,采用自监督的方式对Transformer网络进行预训练;其中,Transformer网络表示变换器网络;
将融合人脸图像与目标人脸图像分别进行图像块划分,再与各自的类特征一并通过预训练后的Transformer网络,获得融合人脸图像图像块表征与类特征表征,以及目标人脸图像图像块表征与类特征表征;利用融合人脸图像类特征表征与目标人脸图像类特征表征计算分类损失;以及,利用融合掩码从融合人脸图像图像块表征与目标人脸图像图像块表征中分别提取区域级表征,并计算区域级对比损失;结合所述分类损失与区域级对比损失对所述预训练后的Transformer网络进行训练;其中,所述融合掩码是指利用目标人脸图像与源人脸图像生成融合人脸图像时使用的掩码;
将待检测人脸图像输入至训练后的Transformer网络,获得人脸伪造检测结果。
2.根据权利要求1所述的一种人脸伪造检测方法,其特征在于,所述构建图像块数量预测任务,采用自监督的方式对Transformer网络进行预训练包括:
将每一真实人脸图像样本,随机划分为k个不重叠的图像块,并对每一图像块分别随机应用不同数据增广操作,再将所有经数据增广操作后的图像块按照在人脸图像样本中的位置拼接,获得拼接图像,并设置标签为k;
所述Transformer网络的输入为拼接图像,输出为拼接图像中图像块的数量,并以相应标签作为监督信息进行预训练。
3.根据权利要求1所述的一种人脸伪造检测方法,其特征在于,所述将融合人脸图像与目标人脸图像分别进行图像块划分,再与各自的类特征一并通过预训练后的Transformer网络,获得融合人脸图像图像块表征与类特征表征,以及目标人脸图像图像块表征与类特征表征包括:
对于融合人脸图像,将其变换为一组互不重叠的大小固定的图像块,将所有图像块映射为图像块特征,将所有图像块特征与随机初始化且能够表征融合人脸图像类别的类特征一并输入至预训练后的Transformer网络,获得融合人脸图像图像块表征与类特征表征;
目标人脸图像采用与融合人脸图像相同的方式,获得目标人脸图像图像块表征与类特征表征。
4.根据权利要求1所述的一种人脸伪造检测方法,其特征在于,所述利用融合掩码从融合人脸图像图像块表征与目标人脸图像图像块表征中分别提取区域级表征包括:
根据设定的阈值将融合掩码划分为代表源人脸区域和目标人脸区域的区域级掩码;
利用代表源人脸区域和目标人脸区域的区域级掩码对融合人脸图像图像块表征进行聚合,获得融合人脸图像中源人脸区域表征与目标人脸区域表征;以及利用代表目标人脸区域的区域级掩码对目标人脸图像图像块表征进行聚合,获得目标人脸表征;
所述融合人脸图像中源人脸区域表征与目标人脸区域表征、以及目标人脸表征均为区域级表征。
7.一种人脸伪造检测系统,其特征在于,用于实现权利要求1~6任一项所述的方法,该系统包括:
自监督预训练模块,用于构建图像块数量预测任务,采用自监督的方式对Transformer网络进行预训练;其中,Transformer网络表示变换器网络;
训练模块,用于将融合人脸图像与目标人脸图像分别进行图像块划分,再与各自的类特征一并通过预训练后的Transformer网络,获得融合人脸图像图像块表征与类特征表征,以及目标人脸图像图像块表征与类特征表征;利用融合人脸图像类特征表征与目标人脸图像类特征表征计算分类损失;以及,利用融合掩码从融合人脸图像图像块表征与目标人脸图像图像块表征中分别提取区域级表征,并计算区域级对比损失;结合所述分类损失与区域级对比损失对所述预训练后的Transformer网络进行训练;其中,所述融合掩码是指利用目标人脸图像与源人脸图像生成融合人脸图像时使用的掩码;
检测模块,用于将待检测人脸图像输入至训练后的Transformer网络,获得人脸伪造检测结果。
8.一种处理设备,其特征在于,包括:一个或多个处理器;存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1~6任一项所述的方法。
9.一种可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时实现如权利要求1~6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310584027.9A CN116311482B (zh) | 2023-05-23 | 2023-05-23 | 人脸伪造检测方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310584027.9A CN116311482B (zh) | 2023-05-23 | 2023-05-23 | 人脸伪造检测方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116311482A true CN116311482A (zh) | 2023-06-23 |
CN116311482B CN116311482B (zh) | 2023-08-29 |
Family
ID=86787304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310584027.9A Active CN116311482B (zh) | 2023-05-23 | 2023-05-23 | 人脸伪造检测方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116311482B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116884077A (zh) * | 2023-09-04 | 2023-10-13 | 上海任意门科技有限公司 | 一种人脸图像类别确定方法、装置、电子设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733733A (zh) * | 2021-01-11 | 2021-04-30 | 中国科学技术大学 | 伪造视频检测方法、电子设备及存储介质 |
CN113536990A (zh) * | 2021-06-29 | 2021-10-22 | 复旦大学 | 深度伪造人脸数据鉴别方法 |
CN113903073A (zh) * | 2021-11-23 | 2022-01-07 | 山东省人工智能研究院 | 一种基于局部增强transformer的假视频检测方法 |
CN114463800A (zh) * | 2020-11-10 | 2022-05-10 | 广东技术师范大学 | 基于广义交并比的多尺度特征融合人脸检测与分割方法 |
CN114663957A (zh) * | 2022-03-30 | 2022-06-24 | 杭州网易智企科技有限公司 | 人脸检测方法、人脸检测模型的训练方法及装置 |
CN115546873A (zh) * | 2022-11-03 | 2022-12-30 | 南京理工大学 | 一种基于局部区域正则化的人脸伪造检测方法 |
CN115578770A (zh) * | 2022-10-24 | 2023-01-06 | 山东师范大学 | 基于自监督的小样本面部表情识别方法及系统 |
WO2023007198A1 (en) * | 2021-07-27 | 2023-02-02 | Számítástechnikai És Automatizálási Kutatóintézet | Training method for training a change detection system, training set generating method therefor, and change detection system |
CN115775404A (zh) * | 2022-11-22 | 2023-03-10 | 中国科学院自动化研究所 | 人脸识别模型的训练方法、装置、设备和存储介质 |
CN115937022A (zh) * | 2022-11-23 | 2023-04-07 | 温州大学 | 一种基于迭代残差学习的少样本图像修复方法 |
US20230114980A1 (en) * | 2021-09-30 | 2023-04-13 | Deep Media, Inc. | System and method for processing media for facial manipulation |
CN116012958A (zh) * | 2023-02-10 | 2023-04-25 | 华东理工大学 | 实现深度伪造人脸鉴别的方法、系统、装置、处理器及其计算机可读存储介质 |
-
2023
- 2023-05-23 CN CN202310584027.9A patent/CN116311482B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114463800A (zh) * | 2020-11-10 | 2022-05-10 | 广东技术师范大学 | 基于广义交并比的多尺度特征融合人脸检测与分割方法 |
CN112733733A (zh) * | 2021-01-11 | 2021-04-30 | 中国科学技术大学 | 伪造视频检测方法、电子设备及存储介质 |
CN113536990A (zh) * | 2021-06-29 | 2021-10-22 | 复旦大学 | 深度伪造人脸数据鉴别方法 |
WO2023007198A1 (en) * | 2021-07-27 | 2023-02-02 | Számítástechnikai És Automatizálási Kutatóintézet | Training method for training a change detection system, training set generating method therefor, and change detection system |
US20230114980A1 (en) * | 2021-09-30 | 2023-04-13 | Deep Media, Inc. | System and method for processing media for facial manipulation |
CN113903073A (zh) * | 2021-11-23 | 2022-01-07 | 山东省人工智能研究院 | 一种基于局部增强transformer的假视频检测方法 |
CN114663957A (zh) * | 2022-03-30 | 2022-06-24 | 杭州网易智企科技有限公司 | 人脸检测方法、人脸检测模型的训练方法及装置 |
CN115578770A (zh) * | 2022-10-24 | 2023-01-06 | 山东师范大学 | 基于自监督的小样本面部表情识别方法及系统 |
CN115546873A (zh) * | 2022-11-03 | 2022-12-30 | 南京理工大学 | 一种基于局部区域正则化的人脸伪造检测方法 |
CN115775404A (zh) * | 2022-11-22 | 2023-03-10 | 中国科学院自动化研究所 | 人脸识别模型的训练方法、装置、设备和存储介质 |
CN115937022A (zh) * | 2022-11-23 | 2023-04-07 | 温州大学 | 一种基于迭代残差学习的少样本图像修复方法 |
CN116012958A (zh) * | 2023-02-10 | 2023-04-25 | 华东理工大学 | 实现深度伪造人脸鉴别的方法、系统、装置、处理器及其计算机可读存储介质 |
Non-Patent Citations (5)
Title |
---|
ANNE-SOFIE MAERTEN 等: "From paintbrush to pixel: A review of deep neural networks in AI-generated art", 《ARXIV.ORG》 * |
HANQING ZHAO 等: "Self-supervised Transformer for Deepfake Detection", 《ARXIV.ORG》 * |
ZHIHUA SHANG 等: "PRRNet: Pixel-Region relation network for face forgery detection", 《PATTERN RECOGNITION》, vol. 116 * |
孙毅 等: "人脸深度伪造检测综述", 《信息安全研究》, vol. 8, no. 3 * |
谢天 等: "深度人脸伪造与检测技术综述", 《清华大学学报(自然科学版)》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116884077A (zh) * | 2023-09-04 | 2023-10-13 | 上海任意门科技有限公司 | 一种人脸图像类别确定方法、装置、电子设备及存储介质 |
CN116884077B (zh) * | 2023-09-04 | 2023-12-08 | 上海任意门科技有限公司 | 一种人脸图像类别确定方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116311482B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zanardelli et al. | Image forgery detection: a survey of recent deep-learning approaches | |
CN110084734B (zh) | 一种基于物体局部生成对抗网络的大数据权属保护方法 | |
Passos et al. | A review of deep learning‐based approaches for deepfake content detection | |
CN113935365B (zh) | 基于空域和频域双特征的深度伪造视频鉴定方法及系统 | |
Wei et al. | Controlling neural learning network with multiple scales for image splicing forgery detection | |
CN113689382B (zh) | 基于医学影像和病理图像的肿瘤术后生存期预测方法及系统 | |
Armas Vega et al. | Digital images authentication technique based on dwt, dct and local binary patterns | |
CN116311482B (zh) | 人脸伪造检测方法、系统、设备及存储介质 | |
Oyama et al. | Influence of image classification accuracy on saliency map estimation | |
CN110135446A (zh) | 文本检测方法及计算机存储介质 | |
CN112085094B (zh) | 单证图像翻拍检测方法、装置、计算机设备和存储介质 | |
Badale et al. | Deep fake detection using neural networks | |
Liu et al. | Overview of image inpainting and forensic technology | |
Jin et al. | Vehicle license plate recognition for fog‐haze environments | |
CN117975577A (zh) | 一种基于面部动态集成的深度伪造检测方法及系统 | |
Geradts et al. | Interpol review of forensic video analysis, 2019–2022 | |
CN117876793A (zh) | 一种高光谱影像树种分类方法及装置 | |
Zheng et al. | Template‐Aware Transformer for Person Reidentification | |
Rosli et al. | Comparison Multi Transfer Learning Models for Deep Fake Image Recognizer | |
Cao et al. | A novel image multitasking enhancement model for underwater crack detection | |
Wang et al. | Surface and underwater human pose recognition based on temporal 3D point cloud deep learning | |
CN115909408A (zh) | 一种基于Transformer网络的行人重识别方法及装置 | |
CN113378598B (zh) | 一种基于深度学习的动态条码检测方法 | |
Chaki | Shadow detection from images using fuzzy logic and PCPerturNet | |
Tyagi et al. | ForensicNet: Modern convolutional neural network‐based image forgery detection network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |