CN116311482A

CN116311482A - 人脸伪造检测方法、系统、设备及存储介质

Info

Publication number: CN116311482A
Application number: CN202310584027.9A
Authority: CN
Inventors: 谢洪涛; 李家铭; 张勇东; 于灵云
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-06-23
Anticipated expiration: 2043-05-23
Also published as: CN116311482B

Abstract

本发明公开了一种人脸伪造检测方法、系统、设备及存储介质，它们是一一对应的方案，方案中：Transformer网络的全局感受野可以有效捕获全局的融合痕迹，结合本发明提出的基于图像块的自监督预训练和区域级的对比学习可以有效地引导Transformer网络去关注细微的融合痕迹，显著的改善了现有检测算法的泛化性能；实验表明本发明提供的方案可以极大的提高检测准确度。

Description

人脸伪造检测方法、系统、设备及存储介质

技术领域

本发明涉及人脸伪造检测技术领域，尤其涉及一种人脸伪造检测方法、系统、设备及存储介质。

背景技术

人脸伪造检测是一个逐渐兴起的研究课题，它的目的是给出输入人脸图像是否伪造的判定。

最近一些先进的检测方法利用卷积神经网络（CNN）对细节纹理的感知能力设法捕获伪造人脸中局部的融合痕迹，但是由于CNN局部性的归纳偏置导致无法捕获全局的伪造痕迹，限制了现有检测方法的泛化能力。

带有全局感受野的视觉Transformer（变换器）网络是一个很有潜力的解决方案，但是原始的Transformer网络并不擅长捕获细微的融合痕迹，导致现有基于Transformer网络的人脸伪造检测方案准确度不佳。

有鉴于此，特提出本发明。

发明内容

本发明的目的是提供一种人脸伪造检测方法、系统、设备及存储介质，通过捕获伪造人脸全局并且细微的融合痕迹，有效改善人脸伪造检测的泛化性能与检测准确度。

本发明的目的是通过以下技术方案实现的：

一种人脸伪造检测方法，包括：

构建图像块数量预测任务，采用自监督的方式对Transformer网络进行预训练；其中，Transformer网络表示变换器网络；

将融合人脸图像与目标人脸图像分别进行图像块划分，再与各自的类特征一并通过预训练后的Transformer网络，获得融合人脸图像图像块表征与类特征表征，以及目标人脸图像图像块表征与类特征表征；利用融合人脸图像类特征表征与目标人脸图像类特征表征计算分类损失；以及，利用融合掩码从融合人脸图像图像块表征与目标人脸图像图像块表征中分别提取区域级表征，并计算区域级对比损失；结合所述分类损失与区域级对比损失对所述预训练后的Transformer网络进行训练；其中，所述融合掩码是指利用目标人脸图像与源人脸图像生成融合人脸图像时使用的掩码；

将待检测人脸图像输入至训练后的Transformer网络，获得人脸伪造检测结果。

一种人脸伪造检测系统，包括：

自监督预训练模块，用于构建图像块数量预测任务，采用自监督的方式对Transformer网络进行预训练；其中，Transformer网络表示变换器网络；

训练模块，用于将融合人脸图像与目标人脸图像分别进行图像块划分，再与各自的类特征一并通过预训练后的Transformer网络，获得融合人脸图像图像块表征与类特征表征，以及目标人脸图像图像块表征与类特征表征；利用融合人脸图像类特征表征与目标人脸图像类特征表征计算分类损失；以及，利用融合掩码从融合人脸图像图像块表征与目标人脸图像图像块表征中分别提取区域级表征，并计算区域级对比损失；结合所述分类损失与区域级对比损失对所述预训练后的Transformer网络进行训练；其中，所述融合掩码是指利用目标人脸图像与源人脸图像生成融合人脸图像时使用的掩码；

检测模块，用于将待检测人脸图像输入至训练后的Transformer网络，获得人脸伪造检测结果。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，Transformer网络的全局感受野可以有效捕获全局的融合痕迹，结合本发明提出的基于图像块的自监督预训练和区域级的对比学习可以有效地引导Transformer网络去关注细微的融合痕迹，显著的改善了现有检测算法的泛化性能；实验表明本发明提供的方案可以极大的提高检测准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种人脸伪造检测方法的流程图；

图2为本发明实施例提供的一种人脸伪造检测方法的训练框架图；

图3为本发明实施例提供的融合人脸图像合成过程示意图；

图4为本发明实施例提供的融合人脸图像组成示意图；

图5为本发明实施例提供的一种人脸伪造检测系统的示意图；

图6为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种人脸伪造检测方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种人脸伪造检测方法，如图1所示，其主要包括如下步骤：

步骤1、自监督预训练。

本发明实施例中，构建图像块数量预测任务，采用自监督的方式对Transformer网络进行预训练。具体来说：将每一真实人脸图像样本，随机划分为k个不重叠的图像块，并对每一图像块分别随机应用不同数据增广操作，再将所有经数据增广操作后的图像块按照在人脸图像样本中的位置拼接，获得拼接图像，并设置标签为k；所述Transformer网络的输入为拼接图像，输出为拼接图像中图像块的数量，并以相应标签作为监督信息进行预训练；其中，k为正整数，不同的k值大小对应不同的图像块大小，通常可设置为偶数（例如，k=2或者k=4等），当然具体数值可以由用户根据实际情况或者经验进行设定。

步骤2、对预训练后的Transformer网络进行训练。

本发明实施例中，将融合人脸图像与目标人脸图像分别进行图像块划分，再与各自的类特征一并通过预训练后的Transformer网络，获得融合人脸图像图像块表征与类特征表征，以及目标人脸图像图像块表征与类特征表征；利用融合人脸图像类特征表征与目标人脸图像类特征表征计算分类损失；以及，利用融合掩码从融合人脸图像图像块表征与目标人脸图像图像块表征中分别提取区域级表征，并计算区域级对比损失；结合所述分类损失与区域级对比损失对所述预训练后的Transformer网络进行训练；其中，所述融合掩码是指利用目标人脸图像与源人脸图像生成融合人脸图像时使用的掩码。

步骤3、将待检测人脸图像输入至训练后的Transformer网络，获得人脸伪造检测结果。

本发明实施例中，可以将经过上述训练后的Transformer网络部署于计算机或服务器，自动对人脸图像是否伪造做出判别，可以应用于各大社交平台例如短视频网站，照片分享网站等，同时也可以单独做成web应用（浏览器应用），供用户鉴别人脸图像是否伪造。

本发明实施例提供的上述方法是一种基于细节增强型Transformer网络的人脸伪造检测方法，通过捕获伪造人脸全局并且细微的融合痕迹，有效改善人脸伪造检测的泛化性能。基于Transformer网络的全局感受野，本发明可有效的捕获全局的融合痕迹，同时为了克服原生Transformer网络不擅长捕获细微的融合痕迹的问题。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的方法进行详细描述。

一、基于图像块增广的自监督预训练。

Transformer网络缺乏局部性的归纳偏置导致在小规模数据集上从头训练Transformer网络非常困难，因此在预训练网络的基础上细调网络是一个非常流行的做法。但是目前的预训练方法大多基于常规的图像语义分类任务，而融合痕迹的捕获更依赖底层的图像特征。为了降低预训练与细微融合痕迹捕获任务之间的gap（差异），本发明提出了一种基于图像块增广的自监督预训练方法。

如图2左侧部分所示，对于输入的真实人脸图像样本，本发明所提出的图像块增广器将其随机分为k个不重叠的图像块。随后通过对k个图像块分别随机应用不同的数据增广方法，例如灰度化和JPEG压缩（静止图像压缩）等，每个图像块被赋予了不同的底层图像特征。最后将增广后的k个图像块按照原位置拼接回原图像并将该图像的标签设为k。至此，本发明构建了一个图像块数量预测任务，根据Transformer网络预测的图像块数量与标签k的差异计算图像块数量预测损失，用于对Transformer网络进行预训练。通过预测真实人脸图像被划分的图像块数目，Transformer网络被鼓励捕获图像块底层特征的不一致性，由此预训练与融合痕迹捕获任务的gap可以被显著的降低。本发明所提出的自监督预训练方法，结构简单，可扩展性强，计算效率高，可有效引导网络关注底层的图像特征。

二、对预训练后的Transformer网络进行训练。

如图2右侧部分所示，此部分训练主要包括：区域级的对比学习，分类学习两部分。

1、区域级的对比学习。

融合（伪造）人脸图像的像素分别来自源人脸图像和目标人脸图像，如图3所示，展示了合成融合人脸图像的示意图，即：源人脸图像×融合掩码+目标人脸图像×（1-融合掩码）=融合人脸图像。根据像素来源的不同，可将融合人脸图像划分为源人脸区域，目标人脸区域以及混合区域，如图4所示，依次表示：融合人脸图像，源人脸区域，目标人脸区域和混合区域。一个关键的事实是源人脸区域和目标人脸区域具有不同的底层图像特征，因为它们来自不同的图像。这种底层图像特征的差异暗示源人脸区域和目标人脸区域的表征应该具有较大的差异。基于这一事实，本发明充分利用了视觉Transformer网络的结构特点提出了一种区域级的对比学习方法。

如图2右侧部分所示，对于融合人脸图像，将其变换为一组互不重叠的大小固定的图像块，将所有图像块映射为图像块特征（一维矢量），将所有图像块特征与随机初始化且能够表征融合人脸图像类别的类特征（一维矢量）一并输入至预训练后的Transformer网络，获得融合人脸图像图像块表征与类特征表征。同样的，目标人脸图像采用与融合人脸图像相同的方式，获得目标人脸图像图像块表征与类特征表征，此处的类是指真实类别或者伪造类别，即融合人脸图像为伪造类别，目标人脸图像为真实类别，相应的类特征均随机初始化。此部分中可以设置两个预训练后的Transformer网络，并行处理融合人脸图像与目标人脸图像的相关特征，且两个预训练后的Transformer网络共享权值参数。

本领域技术人员可以理解，图像块特征和完整图像的类特征输入Transformer网络中经过内部多层网络计算后得到各个图像块和类特征对应的表征。即，Transformer网络本身可以输出各个图像块的表征。基于此，本发明通过分别聚合源人脸区域和目标人脸区域对应的各个图像块表征，获取源人脸区域和目标人脸区域对应的区域级表征。为了获得源人脸区域和目标人脸区域与各个图像块之间的对应关系，利用融合掩码从融合人脸图像图像块表征与目标人脸图像图像块表征中分别提取区域级表征。优选实施方式如下：

（1）根据设定的阈值将融合掩码划分为代表源人脸区域和目标人脸区域的区域级掩码。具体的：将融合掩码划分一组互不重叠的大小固定的图像块，对于每个掩码图像块的值进行平均后根据设定的阈值划分为代表源人脸区域和目标人脸区域的区域级掩码，表示为：

；

；

其中，

与/>

为设定的两个阈值，/>

表示第i个掩码图像块的平均值，/>

代表源人脸区域的区域级掩码，/>

代表目标人脸区域的区域级掩码。

（2）利用代表源人脸区域和目标人脸区域的区域级掩码对融合人脸图像图像块表征进行聚合，获得融合人脸图像中源人脸区域表征与目标人脸区域表征；以及利用代表目标人脸区域的区域级掩码对目标人脸图像图像块表征进行聚合，获得目标人脸表征。所述融合人脸图像中源人脸区域表征与目标人脸区域表征、以及目标人脸表征均为区域级表征。

示例性的，可以利用了一层带有掩码多头自注意力层的Transformer编码器作为特征聚合模块去分别聚合源人脸区域和目标人脸区域对应的各个图像块的表征。图2展示了一层带有掩码多头自注意力层的Transformer编码器的具体示例，其中，MASK MHSA中文名是掩码多头自注意力，它是一个带有掩码机制的多头自注意力模块，负责计算每个区域内部各个图像块表征之间的相关性，并基于这种相关性进行图像块表征的增强；MLP（多层感知机）进行一步对图像块表征进行映射，得到相应的区域级表征。

考虑到本发明的特征聚合模块带有可学习的参数，直接增大源人脸区域的表征和目标人脸区域的表征之间的距离会导致表征坍缩。为了解决这个问题，本发明约束从目标人脸中提取的目标人脸表征，与融合（伪造）人脸中目标人脸区域表征相似。本发明的区域级对比损失可以定义为：

；

其中，

表示区域级对比损失，D_cos表示余弦距离函数；/>

与/>

表示利用融合掩码从融合人脸图像图像块表征中提取的区域级表征，/>

表示融合人脸图像中源人脸区域表征，/>

表示融合人脸图像中目标人脸区域表征；/>

表示利用融合掩码从目标人脸图像图像块表征中提取的区域级表征，即目标人脸表征。

图2所示的区域级对比损失中朝向两端的箭头表示推远

与/>

之间的距离，朝向中间的箭头表示拉近/>

与/>

之间的距离。

2、分类学习。

如图2右侧部分所示，两个预训练后的Transformer网络，并行处理融合人脸图像与目标人脸图像的相关特征时，会输出对应的类特征表征，此时，利用融合人脸图像类特征表征与目标人脸图像类特征表征计算分类损失

。

结合以上分类损失与区域级对比损失对预训练后的Transformer网络进行训练。

三、数据处理与网络训练。

基于前述第一与第二部分介绍的训练原理介绍数据处理与网络训练方式。

1、数据处理。

本发明提出的训练方法既可以在伪造数据集上训练，也可以在合成数据集上训练，此处的训练是指对预训练后的Transformer网络进行。

在伪造数据集上训练时，首先将伪造检测数据集中的视频解码成帧，伪造数据集包含真实视频和伪造视频，解码成帧是指将视频转换为多张静态图像。考虑到数据的平衡性，真实视频和伪造视频将分别采样不同的帧数。以FF++数据集为例，每个真实视频采样80帧，每个虚假视频采样20帧。解码出的帧，经过一个人脸检测器得到面部区域的坐标，经过基于IOU（交并比）的人脸追踪算法处理过滤后，边界扩大1.3倍后裁出人脸图像。

合成数据集需要借用伪造数据集中的真实视频进行合成操作，在合成数据集上训练时，本发明只解码伪造数据集中的真实视频。将人脸裁剪出来后，根据人脸关键点生成随机的融合掩码。对人脸图像分别应用不同的数据增广后，将增广后的人脸图像与增广前的人脸图像按照先前生成的融合掩码融合得到训练数据（融合人脸图像数据）。在输入网络之前，所有的输入图像统一被裁减到指定尺寸（例如，384×384）。

2、网络训练。

本发明的网络在一张GPU（GPU）卡上训练，一次输入64张人脸图像。对于合成数据集，64张人脸图像由融合人脸图像与其对应的目标人脸图像（即前文所述的增广后的人脸图像）组成。整个网络使用SAM（锐度感知最小化）优化器优化，动量设为0.9，权值衰减系数设置为1e-4。为了更充分的训练，本发明采用了学习率线性衰减，初始学习率设置为0.001，整个网络训练100个epoch（轮次）。在网络选择方面，本发明的方法可应用于多种视觉Transformer网络的变体，包括Deit（数据有效的图像变换器网络），PVT（金字塔视觉变换器网络），swintransformer（基于滑动窗口的视觉变换器网络）等，图像块大小也可选择常规的大小，例如，16×16和32×32等。

本发明提出的上述方案，通过捕获伪造人脸全局并且细微的融合痕迹，显著的改善了现有检测算法的泛化性能。Transformer网络的全局感受野可以有效捕获全局的融合痕迹，而本发明提出的基于图像块的自监督预训练和区域级的对比学习可以有效地引导transformer网络去关注细微的融合痕迹。在跨数据集的评估中，本发明提出的方法在以AUC（曲线下面积）为评估指标的情况下，在CDF，DFDC，DFDCP和FFIW数据集上分别取得了94.10，79.13，91.37和86.00的检测效果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种人脸伪造检测系统，其主要用于实现前述实施例提供的方法，如图5所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图6所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种人脸伪造检测方法，其特征在于，包括：

2.根据权利要求1所述的一种人脸伪造检测方法，其特征在于，所述构建图像块数量预测任务，采用自监督的方式对Transformer网络进行预训练包括：

将每一真实人脸图像样本，随机划分为k个不重叠的图像块，并对每一图像块分别随机应用不同数据增广操作，再将所有经数据增广操作后的图像块按照在人脸图像样本中的位置拼接，获得拼接图像，并设置标签为k；

所述Transformer网络的输入为拼接图像，输出为拼接图像中图像块的数量，并以相应标签作为监督信息进行预训练。

3.根据权利要求1所述的一种人脸伪造检测方法，其特征在于，所述将融合人脸图像与目标人脸图像分别进行图像块划分，再与各自的类特征一并通过预训练后的Transformer网络，获得融合人脸图像图像块表征与类特征表征，以及目标人脸图像图像块表征与类特征表征包括：

对于融合人脸图像，将其变换为一组互不重叠的大小固定的图像块，将所有图像块映射为图像块特征，将所有图像块特征与随机初始化且能够表征融合人脸图像类别的类特征一并输入至预训练后的Transformer网络，获得融合人脸图像图像块表征与类特征表征；

目标人脸图像采用与融合人脸图像相同的方式，获得目标人脸图像图像块表征与类特征表征。

4.根据权利要求1所述的一种人脸伪造检测方法，其特征在于，所述利用融合掩码从融合人脸图像图像块表征与目标人脸图像图像块表征中分别提取区域级表征包括：

根据设定的阈值将融合掩码划分为代表源人脸区域和目标人脸区域的区域级掩码；

利用代表源人脸区域和目标人脸区域的区域级掩码对融合人脸图像图像块表征进行聚合，获得融合人脸图像中源人脸区域表征与目标人脸区域表征；以及利用代表目标人脸区域的区域级掩码对目标人脸图像图像块表征进行聚合，获得目标人脸表征；

所述融合人脸图像中源人脸区域表征与目标人脸区域表征、以及目标人脸表征均为区域级表征。

5.根据权利要求4所述的一种人脸伪造检测方法，其特征在于，所述根据设定的阈值将融合掩码划分为代表源人脸区域和目标人脸区域的区域级掩码包括：

将融合掩码划分一组互不重叠的大小固定的图像块，对于每个掩码图像块的值进行平均后根据设定的阈值划分为代表源人脸区域和目标人脸区域的区域级掩码，表示为：

；

；

其中，

与/>

为设定的两个阈值，/>

表示第i个掩码图像块的平均值，/>

代表源人脸区域的区域级掩码，/>

代表目标人脸区域的区域级掩码。

6.根据权利要求1或4所述的一种人脸伪造检测方法，其特征在于，区域级对比损失表示为：

；

其中，

表示区域级对比损失，D_cos表示余弦距离函数；/>

与/>

表示融合人脸图像中源人脸区域表征，/>

表示融合人脸图像中目标人脸区域表征；/>

7.一种人脸伪造检测系统，其特征在于，用于实现权利要求1~6任一项所述的方法，该系统包括：

8.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~6任一项所述的方法。

9.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~6任一项所述的方法。