CN115641632A

CN115641632A - 一种基于分离三维卷积神经网络的人脸伪造检测方法

Info

Publication number: CN115641632A
Application number: CN202211286966.7A
Authority: CN
Inventors: 俞洋; 袁家斌; 查可可; 蔡纪元; 冯煜翔; 戴加威; 陈章玙
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2022-10-20
Filing date: 2022-10-20
Publication date: 2023-01-24

Abstract

本发明是一种基于分离三维卷积神经网络的人脸伪造检测方法，首先读入视频对其进行预处理，通过MTCNN库获取视频图像中的人脸部分，并利用FAN网络对人脸图像进行计算，得到人脸上的关键点，然后对人脸图像划分区域进行掩码操作，将掩码之后的图像进行SRM特征提取，最后将得到的SRM特征输入改进的S3D网络进行模型的训练。本发明充分利用人脸局部和全局特征，优化目标函数，在节省计算开销的前提下，提高了视频检测的准确率，同时，本发明所采取的对人脸特征的处理方式，对来自不同视角和不同方向的人脸有较好的检测效果，具有较强的泛化能力，对人脸图片分区进行掩码的处理还在神经网络的可解释性方面做出了一定探索。

Description

一种基于分离三维卷积神经网络的人脸伪造检测方法

技术领域

本发明属于计算机视觉技术领域，特别涉及一种基于分离三维卷积神经网络的人脸伪造视频检测方法研究。

背景技术

得益于深度学习算法的创新突破，计算机视觉和图像技术迎来了新的发展浪潮，生成极具真实感的面部修改图像或视频变得越来越容易。新一代的生成深度神经网络(generative deep neural networks，GDNN)可以从大量训练数据中，自动生成极具真实感的图像或视频。尤其是Deepfake的出现，大大降低了面部修改技术的门槛。Deepfake使用生成对抗网络(generative adversarial network,GAN)将原始视频中的面部，以近乎完美的方式替换成另一个人的面部。

深度人脸伪造技术这把双刃剑在给人们带来令人称奇的娱乐服务的同时，其滥用产生的虚假视频及新闻也日益浮现。面部修改应用的迅速走红，引发了人们对伪造图像和视频传播的担忧。由于面部修改图像或视频可能对社会稳定、国家安全等造成严重风险，越来越多的研究人员投身于面部修改伪造检测领域。

对于当前使用深度学习算法的图像和视频伪造检测工作，根据深度学习在该方面的参与程度可分为三个层次。最低的是直接迁移，将深度学习常用的各种网络结构直接迁移到图像伪造检测应用上。例如直接训练四个CNN标准模型：VGG16、ResNet50、ResNet101、ResNet152，从而有效地将Deepfake生成的伪造视频和真实视频区分开来。由于图像伪造检测问题和深度学习问题所针对的对象并不完全相同，于是会对网络输入进行微调，以具备一定的针对性，这就是第二个层次。例如现在有一种新颖的基于CNN的通用伪造检测技术，可以自动学习如何检测不同的图像伪造而不需要依赖预选的特征或任何预处理，这种卷积网络结构抑制图像本身的内容信息而注重图像的修改后产生的特征信息，并取得了良好的结果。第三个层次是对网络结构适当修改，即结合数字取证的实际问题，提出适合于取证问题的网络结构。例如将CNN与LSTM结合起来的模型，因引入对时间序列的学习，相较于仅使用CNN学习图像特征来预测更具优势。

虽然目前已有很多针对人脸伪造检测的技术，但仍存在以下问题：(1)目前有些检测技术利用深度生成网络的痕迹来进行检测，但面对通过深度网络伪造技术如FaceSwap、DeepFake等伪造痕迹十分微小的视频时，这些技术的效果出现了下降。(2)对面部分区进行检测的方法目前已有提出，但一方面，现有方法模型存在全局和局部信息不共享的问题，另一方面，现有方法对面部采用水平、垂直、网格的分区方式，而在现实复杂多元化的场景中，摄像头中的人脸并非总是正面向前，这样的分区方式不具有广泛适用性，(3)视频多平台分发和互联网流媒体化趋势带来的视频变形、编码、压缩等给现有人脸伪造检测技术带来了新难题。

发明内容

本发明提供了一种基于分离三维卷积神经网络的人脸伪造视频检测方法，以解决现有的对伪造的人脸图像不能精确检测而造成影响的问题。

为了实现上述目的，本发明采用以下技术方案：

一种基于分离三维卷积神经网络的人脸伪造视频检测方法，包括以下步骤：

S1.从输入视频数据中获取视频帧；

S2.从获取到的视频帧中截取人脸切片；

S3.从人脸切片中获取人脸关键点，分区后进行掩码处理；

S4.建立人脸伪造检测模型；

S5.模型训练和测试。

进一步的，所述步骤S1的具体步骤为：

S11.原始数据集中视频时长为10秒，分辨率为1920*1080或1080*1920，帧率为30FPS，FPS表示每秒传输帧数，使用OpenCV中的VideoCapture类处理视频，获取视频帧数CAP_PROP_FRAME_COUNT；

S12.根据得到的视频帧数CAP_PROP_FRAME_COUNT，通过grab和retrieve方法来捕获视频帧；

S13.将S11中获得的视频帧通过随机下采样，下采样为原帧图片分辨率的1/2，即960*540或540*960，采样后建立帧图片与原视频的映射关系。

进一步的，所述步骤S2的具体步骤为：

S21.使用FaceNet中的Multi-task CNN(MTCNN)网络进行人脸检测，根据分辨率来确定人脸检测器的输入尺寸大小，通过P-Net、R-Net、O-Net三个级联的CNN由粗到精进行处理，其中P-Net生成候选框，R-Net校正候选框，然后通过O-Net定位输出最终人脸；

S22.通过MTCNN得到图像尺寸为w×h的人脸框并不一定是正方形的矩形框，为了在后续模型中人脸图像处理操作上的统一，将人脸框扩充到max(w,h)×max(w,h)的尺寸，并以.json文件的形式保存在bbox中，其中：w表示图像长，h表示图像宽；

S23.使用S22中保存的bbox中图像裁剪信息，根据得到的人脸边界框来裁剪原视频经过变换后的帧图片，每张帧图片中包含的人脸数据用face_j表示，j代表当前帧中包含的人脸编号，j取值为0到N_face，N_face表示当前帧图片中包含的人脸个数，后将帧信息与原视频的标签信息关联起来建立起模型的输入数据。

进一步的，所述步骤S3的具体步骤为：

S31.将S23中构建的人脸数据输入人脸关键点标记网络(Face AlignmentNetwork，FAN)中，进行多尺度特征提取；

S32.通过FAN得到68个人脸关键点后，先利用这些坐标将图片分为人脸关键区域和非人脸区域(人脸关键区域主要包含五官等能够准确识别不同的人的区域，其余的部分则为非人脸区域)，此外，在划分人脸标志区域时预留一些空余部分，使得非人脸区域变成方形；

S33.通过上述步骤获得了4个人脸关键区域以及非人脸区域后，在图片的非人脸标志区域中随机选择n个区域进行掩码操作，n表示进行掩码处理的区域数量，即将这n个区域进行高斯噪声处理，对来自同一个视频里得到的人脸切片采用同样的掩码处理，对来自不同的视频的人脸切片进行独立的处理，从而得到S4建立的人脸伪造模型的输入数据。

进一步的，所述步骤S4的具体步骤为：

S41.将输入图像首先经过一个SRM层(Spatial Rich Model，SRM)进行特征处理，对图像使用若干个高通滤波器(High Pass Filter，HPF)进行运算从而得到它们的SRM特征，将得到的特征送入后续模块进行训练；

S42.建立基于分离三维卷积神经网络(Seperatable 3D CNN，S3D)的改进网络模型M，通过将标准3D卷积分解为两个连续的卷积层：一个2D卷积层用来学习空间特征和一个时间轴上的1D卷积层。

S3D优化的损失函数计算为：

l_i＝-w_i[y·logσ(x_i)+(1-y_i)·log(1-σ(x_i))，

其中：

表示总损失大小，x表示预测值，y表示真实值，l₁、l_N、l_i分别表示第1处、第N处、第i处的损失，N表示batch大小，w_i表示对应第i处的权值，x_i和y_i则为对应i处的预测值和真实值，σ为Sigmoid激活函数，T表示转置运算，将二分类交叉熵损失(Binary CrossEntropy Loss，BCE Loss)与Sigmoid函数结合起来，通过对比标签与预测结果，修正模型参数。

进一步的，所述步骤S5的具体步骤为：

S51.图像数据加载进入模型时，考虑到输入数据标签的不平衡问题，首先采取数据补偿手段，通过调整提取帧间隔的方式调整输入图像的标签分布；

S52.对改进的模型M训练采用自适应矩估计(Adaptive Moment Estimation，AdaM)优化器，初始学习率(learning rate，lr)设置为0.001，如若在5个epoch之内，模型损失未有明显改善，则将学习率设置为原来的gamma倍，gamma表示学习率缩放因子，取值为0.1，此外，模型M训练过程中采用了权重衰减(weight decay)的策略，减少模型过拟合带来的不良影响；

S53.向训练好的模型中输入视频进行人脸伪造检测，以得到人脸伪造视频检测结果。

与现有的技术相比，本发明具有以下的有益效果：

本发明的一种基于分离三维卷积神经网络的人脸伪造视频检测方法，首先对输入视频处理得到视频帧，然后通过人脸识别网络MTCNN提取视频帧中的人脸图像切片，将人脸图像加载到FAN获取人脸关键点，并根据人脸关键点对图片进行分区并做掩码处理，再将其输入基于分离三维卷积神经网络的人脸伪造检测模型中，得到预测结果，通过上述方式，完成对视频人脸是否进行了伪造的判断。本发明充分利用人脸局部和全局特征，优化目标函数，在节省计算开销的前提下，提高了视频检测的准确率，同时，本发明所采取的对人脸特征的处理方式，对来自不同视角和不同方向的人脸有较好的检测效果，具有较强的泛化能力，对人脸图片分区进行掩码的处理还在神经网络的可解释性方面做出了一定探索。

附图说明

图1为本发明的流程图。

图2为FAN人脸关键点检测网络模型图。

图3为本发明设计的人脸关键区域划分图。

图4为基于分离三维卷积神经网络的人脸伪造检测模型M的模型图。

具体实施方式

下面结合实施例对本发明作更进一步的说明。

如图1所示，一种基于三维卷积神经网络的人脸伪造视频检测方法，包括以下步骤：

S1.从输入视频数据中获取视频帧；

S11.原始数据集中视频时长为10秒，分辨率为1920*1080或1080*1920，帧率为30FPS，FPS表示每秒视频帧数，使用OpenCV中的VideoCapture类处理视频，获取视频帧数CAP_PROP_FRAME_COUNT；

S13.将S11中获得的视频帧通过随机下采样，采样为原帧图片分辨率的1/2，即960*540或540*960，采样后建立帧图片与原视频的映射关系。

S2.采用人脸提取网络Multi-task CNN(MTCNN)从获取到的视频帧中截取人脸切片；

S21.出于内核计算时间的考虑，通过比较后选择使用FaceNet中的MTCNN网络进行人脸检测，根据分辨率来确定人脸检测器的输入尺寸大小，通过P-Net、R-Net、O-Net三个级联的CNN由粗到精进行处理，其中：P-Net生成候选框，R-Net校正候选框，然后通过O-Net定位输出最终人脸，P-Net和R-Net中使用边框向量回归(Bounding box regression)和非极大值抑制(NMS)来调整和合并候选框，其阈值分别设置为[0.85,0.95,0.95]；

S22.通过MTCNN得到的图像尺寸为w×h的人脸框并不一定是正方形的矩形框，为了在后续模型中人脸图像处理操作上的统一，将人脸框扩充到max(w,h)×max(w,h)的尺寸，并以.json文件的形式保存在bbox中，其中：w表示图像长，h表示图像宽；

S3.使用FAN网络从人脸切片中获取人脸关键点，分区后进行掩码处理；

S31.将S23中构建的人脸数据输入人脸关键点标记网络(Face AlignmentNetwork，FAN)中，如图2所示，FAN使用4个堆叠的HG(Hour-Glass，HG)网络块，并且将其中的残差块替换为右侧的分层并行多尺度块block，网络的输出是一组热力图，在热力图中给出人脸在每个像素处出现的概率，如图2右侧所示，在block中，每个卷积层都通过一条直接路径链接到输出，因此，在任何给定时间，对于模块内的所有层而言，其最短路径都等于1，block内部是具有3×3过滤器的卷积层，在该block中，第一层的通道数为[256→128,3×3]，第二层通道数为[128→64,3×3]，第三层为[64×64,3×3]。

具体来讲，FAN中使用的HG块，通过卷积层和最大池化层将特征处理到非常低的分辨率，在每次经过最大池化层时，网络产生分支并对池化得到的分辨率做更多卷积操作，在达到最低分辨率后，网络开始交替进行上采样和跨尺度间的特征融合，为了将两个跨尺度的特征融合，对较低分辨率进行最近邻上采样，然后对两组特征进行元素相加，沙漏的拓扑结构是对称的，因此对于向下存在的每一层，都有相应的向上层。

S32.通过FAN得到68个人脸关键点后，如图3所示，先利用这些坐标将图片分为人脸关键区域和非人脸区域(人脸标志区域主要包含五官等能够准确识别不同的人的区域，其余的部分则为非人脸区域)，此外，在划分人脸标志区域时预留一些空余部分，如上下左右各扩大10％，这些区域是逻辑上的，因而区域之间允许存在重叠，将部分关键区域进行扩大，从而使得非人脸区域变成方形；

S33.通过上述步骤获得了4个人脸关键区域以及非人脸区域后，在图片的非人脸标志区域中随机选择n个区域进行掩码操作，n表示进行掩码处理的区域数量，即将这n个区域进行高斯噪声处理，对来自同一个视频里得到的人脸切片采用同样的掩码处理，对来自不同的视频的人脸切片进行独立的处理，从而得到S4建立的人脸伪造模型的输入数据；

S4.建立基于分离三维卷积神经网络S3D的人脸伪造检测模型；

S42.建立基于分离三维卷积神经网络(Seperatable 3D CNN，S3D)的改进网络模型M，如图4所示，S3D模型通过将标准3D卷积分解为两个连续的卷积层：一个2D卷积层用来学习空间特征和一个时间轴上的1D卷积层，如图4下侧的卷积模块Sep-Conv所示，换而言之，对于原卷积模块中尺寸为[k；k；k]的卷积核，k为卷积核尺寸大小，默认取值为3，可以用一个[1；k；k]过滤器和一个[k；1；1]过滤器来实现I3D中的3D卷积计算，尽管3D卷积对于模型准确率的提高很有效，但其计算开销很大，而通过分解的卷积模块Sep-Cov，根据空间域和时域互补的特性，我们在保证计算开销在一定范围内的同时取得与3D卷积等同甚至更好效果。

具体来讲，网络模型M由以下模块连接而成：卷积模块Sep-Conv，逐点卷积层，最大池化层，平均池化层以及可分离Inception模块Sep-Inc，如图4下侧的Sep-Inc模块所示，Sep-Inc模块不同于3D-Inception模块(一个3D-Inception块中4个分支需要做2次3×3×3卷积，且只有部分特征包含时间信息)，Sep-Inc模块将时间特征分离后，可以将时间信息添加到所有4个分支中，模型也因而获得了更强的表达能力，除最后用于输出分类预测结果的全连接(Full-Connected，FC)层之外，在逐点卷积层、Sep-Conv模块、Sep-Inc模块中的所有卷积层，都连接着一个批标准化(Batch Normalization，BN)层和Relu激活函数层，保证模型具有更高的学习效率和更强的泛化能力，S3D优化的损失函数计算为：

l_i＝-w_i[y·logσ(x_i)+(1-y_i)·log(1-σ(x_i))，

其中：

S5.使用建立的模型M进行训练和测试。

S52.对改进的模型M训练采用自适应矩估计(Adaptive Moment Estimation，AdaM)优化器，初始学习率(learning rate，lr)设置为0.001，如若在5个epoch之内，模型损失未有明显改善，则将学习率设置为原来的gamma倍，gamma表示学习率缩放因子，取值为0.1，此外，模型M训练过程中采用了权重衰减(weight decay)的策略，减少模型过拟合带来的不良影响。

本发明的基于分离三维卷积神经网络的人脸伪造视频检测方法，首先对输入视频处理得到视频帧，然后通过人脸识别网络MTCNN提取视频帧中的人脸图像切片，将人脸图像加载到FAN获取人脸关键点，并根据人脸关键点对图片进行分区并做掩码处理，再将其输入人脸伪造检测模型M中，得到预测结果，通过上述方式，完成对视频人脸是否进行了伪造的判断。本发明充分利用人脸局部和全局特征，优化目标函数，在节省计算开销的前提下，提高了视频检测的准确率，同时，本发明所采取的对人脸特征的处理方式，对来自不同视角和不同方向的人脸有较好的检测效果，具有较强的泛化能力，对人脸图片分区进行掩码的处理还在神经网络的可解释性方面做出了一定探索。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于分离三维卷积神经网络的人脸伪造视频检测方法，其特征在于，包括以下步骤：

S1.从输入视频数据中获取视频帧；

S2.从获取到的视频帧中截取人脸切片；

S3.从人脸切片中获取人脸关键点，分区后进行掩码处理；

S4.建立人脸伪造检测模型；

S5.模型训练和测试。

2.根据权利要求1所述的一种基于分离三维卷积神经网络的人脸伪造视频检测方法，其特征在于，所述步骤S1的具体步骤为：

3.根据权利要求1所述的一种基于分离三维卷积神经网络的人脸伪造视频检测方法，其特征在于，所述步骤S2的具体步骤为：

S21.使用FaceNet中的MTCNN网络进行人脸检测，根据分辨率来确定人脸检测器的输入尺寸大小，通过P-Net、R-Net、O-Net三个级联的CNN由粗到精进行处理，其中：P-Net生成候选框，R-Net校正候选框，然后通过O-Net定位输出最终人脸；

4.根据权利要求1所述的一种基于分离三维卷积神经网络的人脸伪造视频检测方法，其特征在于，所述步骤S3的具体步骤为：

S31.将S23中构建的人脸数据输入人脸关键点标记网络FAN中，进行多尺度特征提取；

S32.通过FAN得到68个人脸关键点后，先利用这些坐标将图片分为人脸关键区域和非人脸区域，人脸关键区域包含五官等能够准确识别不同的人的区域，其余的部分则为非人脸区域，此外，在划分人脸标志区域时预留一些空余部分，使得非人脸区域变成方形；

5.根据权利要求1所述的一种基于分离三维卷积神经网络的人脸伪造视频检测方法，其特征在于，所述步骤S4的具体步骤为：

S41.将输入图像首先经过一个SRM层进行特征处理，对图像使用若干个高通滤波器HPF进行运算从而得到它们的SRM特征，将得到的特征送入后续模块进行训练；

S42.建立基于分离三维卷积神经网络S3D的改进网络模型M，通过将标准3D卷积分解为两个连续的卷积层：一个2D卷积层用来学习空间特征和一个时间轴上的1D卷积层。

6.根据权利要求5所述的一种基于分离三维卷积神经网络的人脸伪造视频检测方法，其特征在于，

S3D优化的损失函数计算为：

l_i＝-w_i[y·logσ(x_i)+(1-y_i)·log(1-σ(x_i))，

其中：

表示总损失大小，x表示预测值，y表示真实值，l₁、l_N、l_i分别表示第1处、第N处、第i处的损失，N表示batch大小，w_i表示对应第i处的权值，x_i和y_i则为对应i处的预测值和真实值，σ为Sigmoid激活函数，T表示转置运算，将二分类交叉熵损失BCE Loss与Sigmoid函数结合起来，通过对比标签与预测结果，修正模型参数。

7.根据权利要求1所述的面向深度伪造视频的面部修改检测方法，其特征在于，所述步骤S5的具体步骤为：

S52.对改进的模型M训练采用自适应矩估计AdaM优化器，初始学习率lr设置为0.001，如若在5个epoch之内，模型损失未有明显改善，则将学习率设置为原来的gamma倍，gamma表示学习率缩放因子，取值为0.1，此外，模型M训练过程中采用了权重衰减weight decay的策略，减少模型过拟合带来的不良影响；