CN117275063A

CN117275063A - 基于三维信息时序一致性的人脸深度伪造检测方法及系统

Info

Publication number: CN117275063A
Application number: CN202311211893.XA
Authority: CN
Inventors: 唐胜; 王志浩; 曹娟
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2023-09-19
Filing date: 2023-09-19
Publication date: 2023-12-22

Abstract

本发明提出一种基于三维信息时序一致性的人脸深度伪造检测方法，包括：构建包括特征提取器、差分模型、分类层和人脸重建模型的三维时间差分模型；特征提取器提取训练视频中具有人脸的每一帧图像的面部特征，人脸重建模型根据面部特征重建人脸图像，得到单帧图像的重建图像，时间差分模型根据相邻帧在面部相关特征上的差异作为时序特征，分类层根据时序特征进行分类，根据分类结果和伪造标签构建损失函数，以训练三维时间差分模型中的分类层；训练完成后的三维时间差分模型用于执行人脸伪造检测任务。由于提取三维特征的网络参数固定，因此本发明具有可学习参数较少的特点。且本方法在具有较高检测精度的同时还能保证具有较好的抗压缩能力。

Description

基于三维信息时序一致性的人脸深度伪造检测方法及系统

技术领域

本方法属于机器学习、计算机视觉和图像分类技术领域，特别涉及面向计算机视觉中的深度伪造检测问题。

背景技术

近年来，随着生成对抗网络的飞速发展，社交媒体中的伪造视频和图像很难识别。最近的换脸方法已经达到很逼真的效果，对于人类肉眼观察来说很难将其与真实照片区分开来。尽管数以万计的内容创作者受益于生成式AI的生成能力，但在互联网中识别这些内容的要求也在增加。因此，针对互联网上的视频图像进行伪造检测变得迫在眉睫。

许多研究人员在过去几年进行了伪造检测的研究。检测这些伪造内容的主流方法有两种：基于图像的方法和基于视频的方法。大多数基于图像的方法从视频中提取帧并关注2D图像中的伪影以获得假线索。其中一些试图找到两个面混合时生成的混合边界。其他人希望GAN指纹能够提供证据。基于视频的方法主要关注视频帧之间的一致性。然而，伪造检测是一项非常具有挑战性的任务，其中伪影因一种伪造方法而异。一些研究人员关注真实视频的独特特征，并利用真实视频中存在的先验知识，比如应用唇部识别作为预训练任务来区分嘴唇的运动是否是正常发音来检测伪造视频。然而，只利用了嘴唇区域的灰度图像，而忽略了面部的其他区域，尤其是整个面部的结构。此外，由于唇部预训练的要求，该方法在测试另一种语言的视频时必须重新训练，相反，三维人脸先验信息更通用，与语言无关，这正是我们的研究动机。

发明内容

基于以上观察，本发明将三维面部先验信息引入深度为伪造检测任务并检测其在时间上不一致性。正常来说从三维人脸结构中提取的身份、表情和纹理等三维人脸属性在真实视频中应该是一致的，而在伪造视频中会不一致。因此，本发明提出了三维时间差分网络模型(3DTDN)来提取和检测三维面部先验信息的一致性，该一致性包括一致和不一致。如图1所示，首先从单帧中提取面部相关特征和面部无关特征。面部相关特征主要包括身份、表情和纹理特征，可以驱动三维重建模型例如3DMM模型(3D Morphable Model)构建人脸。所述面部无关特征包括头部姿势信息和光照条件。时间差分模型首先计算相邻帧在面部相关特征上的差异作为时间特征，并采用序列模型(顺序模型)进行分类。

针对现有技术的不足，本发明提出一种基于三维信息时序一致性的人脸深度伪造检测方法，其中包括：

模型构建步骤，构建包括特征提取器、差分模型、分类层和人脸重建模型的三维时间差分模型；

模型训练步骤，获取已标注伪造标签的训练视频，特征提取器提取该训练视频中具有人脸的每一帧图像的面部特征，该人脸重建模型根据该面部特征重建人脸图像，得到该单帧图像的重建图像，该时间差分模型根据相邻帧在面部相关特征上的差异作为时序特征，该分类层根据该时序特征进行分类，根据分类结果和该伪造标签构建损失函数，以训练该三维时间差分模型中的分类层；

伪造检测步骤，将待检测的人脸视频输入训练完成后的该三维时间差分模型，得到该人脸视频的人脸伪造检测结果。

所述的基于三维信息时序一致性的人脸深度伪造检测方法，其中该分类层由多层感知机、LSTM、GRU或Transform构成。

所述的基于三维信息时序一致性的人脸深度伪造检测方法，其中该面部特征包括人脸相关特征和人脸无关特征，该人脸重建模型根据该人脸相关特征重建人脸，并根据该人脸无关特征渲染重建结果，得到该重建图像。

所述的基于三维信息时序一致性的人脸深度伪造检测方法，其中该差分模型根据求相邻两帧差分特征的差，得到该差分特征。

本发明还提出了一种基于三维信息时序一致性的人脸深度伪造检测装置，其中包括：

模型构建模块，用于构建包括特征提取器、差分模型、分类层和人脸重建模型的三维时间差分模型；

模型训练模块，用于获取已标注伪造标签的训练视频，特征提取器提取该训练视频中具有人脸的每一帧图像的面部特征，该人脸重建模型根据该面部特征重建人脸图像，得到该单帧图像的重建图像，该时间差分模型根据相邻帧在面部相关特征上的差异作为时序特征，该分类层根据该时序特征进行分类，根据分类结果和该伪造标签构建损失函数，以训练该三维时间差分模型中的分类层；

伪造检测模块，用于将待检测的人脸视频输入训练完成后的该三维时间差分模型，得到该人脸视频的人脸伪造检测结果。

所述的基于三维信息时序一致性的人脸深度伪造检测装置，其中该分类层由多层感知机、LSTM、GRU或Transform构成。

所述的基于三维信息时序一致性的人脸深度伪造检测装置，其中该面部特征包括人脸相关特征和人脸无关特征，该人脸重建模型根据该人脸相关特征重建人脸，并根据该人脸无关特征渲染重建结果，得到该重建图像。

所述的基于三维信息时序一致性的人脸深度伪造检测装置，其中该差分模型根据求相邻两帧差分特征的差，得到该差分特征。

本发明还提出了如图4所示的一种服务器，其中包括所述的任意一种人脸深度伪造检测装置。

本发明还提出了一种存储介质，用于存储所述人脸深度伪造检测方法的计算机程序。

由以上方案可知，本发明的优点在于：

本发明提出的“基于三维信息时序一致性的人脸深度伪造检测”方法，主要针对人脸深度伪造视频中帧之间的不一致性，提出利用人脸三维特征对上述不一致进行检测。该方法将人脸深度伪造检测任务转化为人脸形状在时序中的一致性检测。通过先将视频抽帧，对每一帧进行人脸检测并提取人脸三维特征，之后通过差分模块，提取不一致特征并去除人脸身份信息。最后通过多种序列和非序列模型进行不一致检测。由于提取三维特征的网络固定参数，且在三维特征上进行不一致性检测，该方法具有可学习参数较少的特点。除此之外，人脸三维特征的提取受压缩的影响较小，因此该方法在具有较高检测精度的同时还能保证具有较好的抗压缩能力。

附图说明

图1为基于三维信息时序不一致的人脸深度伪造检测方法示意图；

图2为多层感知机模型及序列模型示意图；

图3为人脸三维特征不一致可视化样例示意图；

图4为本发明运行于服务器的装置结构示意图。

具体实施方式

本发明提出了基于三维信息时序不一致的人脸深度伪造检测方法，通过检测人脸三维特征在视频中的时序一致性进行伪造检测，伪造视频由于未做平滑约束，因此其一致性较差，可通过该方法在人脸三维特征上进行检测。为了实现上述技术效果，本发明提出的网络包括如下关键技术点：

(1)本发明将人脸三维特征先验知识引入人脸深度伪造检测领域，在时序维度对人脸三维特征的一致性展开检测，可用于各种针对人脸伪造视频的检测；

(2)基于三维信息时序一致性的人脸深度伪造检测方法，对视频进行抽帧并进行人脸检测，并对人脸进行对齐，提取三维特征；

(3)提出差分模块，该模块直接求取相邻帧三维特征差值，去除人脸身份信息的影响，提高检测精度，避免网络可能将人脸身份信息与真假信息关联，进而降低检测精度；

(4)训练阶段，本发明提出使用分类层对差分特征进行检测，分类层包括由多层感知机构建的非序列检测模型，例如MLP，以及由LSTM、GRU、Transform等构建的序列检测模型。两者精度上有区别，序列模型的精度更好，后面的表格用的是序列模型的结果。

(5)本发明提出的检测方法具有较少可学习参数，原因是该方法固定了三维特征提取过程的参数，且差分模块无可学习参数。序列和非序列模型的检测模型较为简单，因此学习参数较少，训练简单快速。

(6)本发明提出的算法具有较好的抗压缩能力，由于人脸轮廓及五官等信息收视频压缩的影响较小，而图像上的伪造痕迹受该操作的影响较大。因此，该方法在视频图像质量下降时依然具有较高检测精度。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。本说明书公开了一个或多个包含本发明特点的实施例。公开的实施例仅仅用于举例说明。本发明的保护范围并不限于所公开的实施例，本发明由所附权利要求来限定。

我们从深度伪造检测的一般情况出发，对本发明提出的基于人脸三维信息时序不一致的深度伪造检测方法进行说明。

对于深度伪造视频检测任务，目标是区分输入视频是真实的还是伪造的，即该视频中的人脸是否被编辑过，是一个二分类问题。因此给定一个视频V，v_i是该视频提取的第i帧，假设本发明为每个视频使用固定的前N帧，此时每个视频都有相同的长度N。

基于传统二维卷积神经网络(CNN)的方法将每一帧送入CNN模型以提取特征进行分类。其视频级别的分类结果y是通过对所有帧的结果进行平均得到的。令f为在深度伪造检测中常用的Xception网络，上述过程可表示为：

基于CNN-RNN的方法将上述平均操作变成循环神经网络来建模时序关系，以常用的门控循环单元GRU为例：

y＝GRU(f(v₁),f(v₂),f(v₃)…f(v_n))

这里需要指出的是，上述基于CNN和基于CNN-RNN的方法中的所有参数都参与了训练，这与本发明提出的方法是不同的，本发明提出的方法中为了保证提取的特征为人脸三维特征，特征提取模块是不参与训练的，只有图1中用于分类的序列模型部分(分类层)需要训练。

本发明的总体流程如图1所示，使用的人脸三维模型为提出的BFM模型，采用的人脸三维特征提取算法为提出的基于卷积神经网络以及可微分渲染技术训练的模型。在上述提出的模型中，简化了θ和δ并将它们拆分为α、β、δ作为人脸相关特征，同时还提取了用于渲染和重建人脸所需的一些其他信息，在本发明将其命名为人脸无关信息，其中，α表示人脸身份信息，β表示人脸表情信息，δ与人脸纹理相关。其他信息包括用于代表头部姿势的p和用于标识环境光条件的γ。提取过程描述为：

α,β,δ,p,γ＝RNet(v_i)

其中v_i指提取的帧，RNet指卷积神经网络，在具体的实现中采用了ResNet50。

本发明提出了差分模块，旨在计算相邻帧之间的差异。该模块求相邻两帧的差来得到该差分特征，该处不直接输入人脸三维特征的原因是：此处的人脸三维特征包含个人信息，比如该张人脸的身份信息、纹理特征，若直接输入提取到的人脸三维特征，则网络会将伪造痕迹与人脸身份信息关联起来，从而干扰网络的学习。通过本发明设计的差分模块，一方面可以通过相邻两帧做差，将人脸三维特征中与该人物身份相关的特征除去；另一方面可以直接得到三维人脸形状的变化量，方便后面的序列检测模型学习不一致性。差分模块说明如下：

α'_t＝α_t-α_t-1

β'_t＝β_t-β_t-1

δ'_t＝δ_t-δ_t-1

其中α_t表示在t时间(第t帧)的身份特征，α'_t是身份差分特征，同理β'_t为表情差分特征，δ'_t为纹理差分特征。对于所提出的差分模块的消融研究以及合适的序列长度，在消融实验部分均有详细的研究。除此之外，本发明在消融中分别尝试以上三种不同的特征以及它们融合前和融合后的设置，最后，本发明将以上三种不同的信息合并起来作为每一帧的人脸三维先验信息，表示为q_t:

q_t＝[α'_t,β'_t,β'_t]

为了验证提取的人脸三维特征在伪造检测中的有效性，在进行序列模型的检测之前，本发明尝试使用一个简单的多层感知机(MLP)作为本发明的基线。图2显示了多层感知器模型的整体结构，本发明将相邻16帧中的帧差异连接起来作为输入特征，输入特征会经过第一个全连接层、批归一化层、激活层、第二个全连接层进行分类，得到伪造检测的结果。

在上述非时序模型的基础上，本发明尝试了几种基于时序的模型来捕捉序列关系，这大大提高了检测精度。本发明尝试了LSTM、GRU和Transformer，实验中发现Transformer获得了最好的性能。上述方法的可学习参数的数量及其实验结果可以在消融实验中找到，均非常简单且参数量极少。下面简单介绍一下LSTM、GRU和Transformer的模型结构以及原理。作为传统的序列模型，LSTM和GRU被提出来解决RNN的梯度爆炸或梯度消失问题，并设计了许多门来解决这个问题。提出了一种Transformer编码器来解决机器翻译任务。一个标准的Transformer编码器由以下部分组成：多头自注意力、层归一化和前馈神经网络(FFN)，多头注意力机制指具有多个通道的注意力机制，注意力可表示如下：

其中，表示人脸三维特征的维度，若Q、K和V相等，则注意力机制也可称为自注意力机制，本发明中使用的是标准Transformer编码器中的多头自注意力机制。

对于以上三种序列模型，本发明将差分模块的输出作为一个序列，直接送入上述序列模型中。针对序列模型的输出，本发明在序列长度上对其进行平均，并送入线性层进行分类，得到分类结果。

由于伪造视频检测是二元分类任务，因此使用二元交叉熵损失进行训练：

其中y是标签，p代表预测概率值。由于类不平衡是该任务中的常见问题，本发明添加了一个超参数λ作为权重来平衡正负样本损失。

我们在Pytorch平台上进行试验，所有模型都用8张GTX3090 GPU进行训练，本发明使用Adam作为优化器，学习率设置为1e-4，每10个轮次衰减一次，每次衰减因子为0.1，最小为1e-6。由于真实样本和假样本的比例为1:4，本发明通过将λ设置为4.0来平衡损失，以增加真实样本的损失比例。实验结果证明了本发明中提出的基于三维信息时序不一致的人脸深度伪造检测方法在具有较少可学习参数的情况下具有较高的检测精度，并具有较好的抗压缩能力，验证了方法的有效性。具体来说：

为了验证本发明的有效性，我们在实验中采用了三个广泛使用的视频伪造检测数据集，包括FaceForensics++、Faceshifter和Celeb-DFV2。在这些数据集中，FaceForensics++主要用于本发明的实验和消融研究。与之前该领域的方法相同，Accuracy和AUC作为主要的评价指标。具体实现时，本发明取一个视频所有片段的结果的平均值作为视频的预测结果。

对于每个数据集，本发明选择官方的训练验证拆分来进行本发明的实验。与FaceForensics++论文中的设置一样，对于每个视频，本发明提取前270帧。本发明首先使用RetinaFace进行人脸检测，为了保留面部周围更多信息，本发明裁剪了每帧边界框大小两倍的区域，同时还保存了在人脸检测过程中获得的五点人脸关键点。五点人脸关键点用于将这些人脸与标准人脸模板对齐，这将有助于将2D人脸图像转换为三维人脸特征，对于人脸三维先验信息的提取，本发明使用了一种基于PyTorch框架的第三方实现实现，该实现比官方实现效果更好，人脸图像的输入大小为长宽224。最后，本发明设置序列长度为16，Transformer编码器层数为1，LSTM和GRU的层数为1，上述设置为消融实验中效果最好的设置。

我们首先在多个数据集下对该方法进行了实验，与现有的方法进行了对比，实验结果如表1所示：

表1本发明提出的方法与其他方法的检测结果对比，其中Xception*为基准模型。表中LipForensics方法是前面提到的使用嘴唇时序不一致的方法，我们的方法在使用更少可学习参数量的情况下获得了基本一致的检测效果；其次与我们方法有着类似可学习参数量的方法是LRNet，我们的方法取得了更好的检测效果。

表2不同先验信息的检测结果

为了验证人脸三维先验特征的有效性，我们首先将其与其他先验特征进行了对比实验。在表2中选择ImageNet特征Arcface特征进行对比，这三个特征的主干网络保持相同(ResNet50)，此时它们的参数量是相同的，因此可以放在一起公平比较，它们唯一的区别是预训练任务不同，即带有的先验信息不同，由此可检验人脸三维特征的有效性。对于ImageNet特征，使用PyTorch官方的ResNet50在ImageNet数据集上的预训练模型，取出全连接分类层前面的特征作为该帧的特征。对于Arcface特征，使用最流行的PyTorch实现InsightFace，同样选择ResNet50作为Arcface主干模型，和前面一样，提取每一帧的身份特征作为帧级特征。表2实验结果表明，本方法的三维面部先验比ImageNet先验超过18.22\％，还超越了Arcface先验14.18\％。ImageNet的ResNet50模型经常作为各类任务初始化的模型，其具有一定程度的基础视觉理解能力，而Arcface特征作为人脸识别模型，其预训练具有人脸身份信息。实验结果说明人脸有关的信息比如Arcface比单纯的视觉特征信息更能捕捉伪造视频在时序的不一致性，而本发明提出的人脸三维特征在该消融实验中取得了更好的效果，说明单单引入基础视觉信息和人脸识别信息不能更好的捕捉时序不一致信息，而人脸三维特征作为与人脸形状更相关的信息可以，验证了引入的先验的有效性。

表3本发明提出的伪造检测算法的抗压缩性

FaceForensics++数据集中存在三种不同类型的视频压缩：Raw、c23和c40。其中Raw代表不压缩，c23代表低压缩高质量视频(HQ)，c40代表高压缩低质量视频(LQ)。在表3中进行了在FaceForensics++数据集上压缩鲁棒性实验，以验证本发明的方法应对压缩视频的检测的效果。尝试了提出的模型的两种鲁棒性：第一个是从高质量图像到低质量图像的鲁棒性，第二种是从低质量图像到高质量图像的鲁棒性。表3展示了实验结果，在该部分，本发明训练了一个记为Xception*的Xception模型作为对比。表中上半部分的实验结果表明，在高质量视频上进行训练的同时在高质量视频上进行测试，两种方法都可以达到超过99\％的检测AUC。但是在在高质量(c23)视频上进行训练，在低质量视频(c40)上进行测试时，Xception*大幅下降18.69\％，而本发明提出的方法只减少了7.1\％。表中下半部分的实验结果表明，在低质量视频上进行训练的同时在低质量视频上进行测试，两种方法出现了较大的结果差距，本发明提出的方法超过了Xception*5.42\％。在低质量视频(c40)上训练，在高质量视频(c23)上进行测试时，出现了更大的差距，Xception*小幅下降2.12\％，而本发明提出的方法小幅提高了2.60\％，达到98.67\％。

表4差分模块的消融实验

为了进一步探究我们方法中的差分模块对结果造成的影响，本发明在表4进行了差分模块的有效性消融实验。作为对比，同时测试了直接输入人脸三维先验特征作为序列而不经过差异模块。实验结果表明，差分模块可以将AUC提高12.50\％。分析该实验结果的原因：在没有差分模块时，时序检测模块会受到人脸身份的三维特征本身的影响，而不是本发明关注的时序不一致的研究动机。

图3中可视化了本发明的检测内容，本发明的动机是将人脸三维先验信息引入视频伪造检测中，同时检测其在时序上的不一致性。由于模型检测的内容为人脸三维特征，作为特征其不便于可视化，因此遵循BFM模型构建三维人脸模型，将其渲染为出来，作为图像可视化。图3中可视化了连续的15帧的一个三维重建的序列。蓝色区域的脸型(从宽脸到窄脸)和鼻子(从大鼻子到小鼻子)存在明显的不一致。这些人脸的形状由人脸三维先验信息控制，在上图中看到的人脸渲染形状的不一致，也会在人脸三维特征中以数值大小的方式展现出来，该不一致验证了本章的方法的研究动机。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.一种基于三维信息时序一致性的人脸深度伪造检测方法，其特征在于，包括：

模型构建步骤，构建包括特征提取器、差分模型、分类层和人脸重建模型的三维时间差分模型。

2.如权利要求1所述的基于三维信息时序一致性的人脸深度伪造检测方法，其特征在于，该分类层由多层感知机、LSTM、GRU或Transform构成。

3.如权利要求1所述的基于三维信息时序一致性的人脸深度伪造检测方法，其特征在于，该面部特征包括人脸相关特征和人脸无关特征，该人脸重建模型根据该人脸相关特征重建人脸，并根据该人脸无关特征渲染重建结果，得到该重建图像。

4.如权利要求3所述的基于三维信息时序一致性的人脸深度伪造检测方法，其特征在于，该差分模型根据求相邻两帧差分特征的差，得到该差分特征。

5.一种基于三维信息时序一致性的人脸深度伪造检测装置，其特征在于，包括：

6.如权利要求5所述的基于三维信息时序一致性的人脸深度伪造检测装置，其特征在于，该分类层由多层感知机、LSTM、GRU或Transform构成。

7.如权利要求5所述的基于三维信息时序一致性的人脸深度伪造检测装置，其特征在于，该面部特征包括人脸相关特征和人脸无关特征，该人脸重建模型根据该人脸相关特征重建人脸，并根据该人脸无关特征渲染重建结果，得到该重建图像。

8.如权利要求7所述的基于三维信息时序一致性的人脸深度伪造检测装置，其特征在于，该差分模型根据求相邻两帧差分特征的差，得到该差分特征。

9.一种服务器，其特征在于，包括权利要求5-8所述的任意一种人脸深度伪造检测装置。

10.一种存储介质，用于存储一种执行权利要求1-4所述人脸深度伪造检测方法的计算机程序。