CN113298018A

CN113298018A - 基于光流场和脸部肌肉运动的假脸视频检测方法及装置

Info

Publication number: CN113298018A
Application number: CN202110649160.9A
Authority: CN
Inventors: 陈晋音; 张任杰; 王鹏程; 上官文昌
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-08-24

Abstract

本发明提供基于光流场和脸部肌肉运动的假脸视频检测方法包括：获取LFPW图像数据集和FaceForensics++视频数据集；基于Face++DCNN模型构建关键点检测训练系统；构建关键点检测训练系统和假脸视频检测训练系统的损失函数；利用上述训练系统的损失函数对训练系统进行训练，确定关键点检测模型，假脸视频检测模型；通测试数据集调整检测模型；将FaceForensics++验证图像数据集输入到关键点检测模型进行关键点的标记，然后输入到假脸视频检测模型判断所述图像数据集真伪性。本发明还公开了基于光流场和脸部肌肉运动的假脸视频检测装置，该装置能够准确判断脸部视频真伪性。

Description

基于光流场和脸部肌肉运动的假脸视频检测方法及装置

技术领域

本发明属于人脸识别领域，具体涉及基于光流场和脸部肌肉运动的假脸视频检测方法及装置。

背景技术

光流法是空间运动物体在观察成像平面上的像素运动的瞬时速度，是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。

一般而言，光流是由于场景中前景目标本身的移动、相机的运动，或者两者的共同运动所产生的。

脸部动作编码系统(FACS)是测量面部动作的一种技术。FACS根据人脸的解剖学特点，将其划分成若干既相互独立又相互联系的运动单元(AU——Action Unit)，并分析了这些运动单元的运动特征及其所控制的主要区域以及与之相关的表情，并给出了大量的照片说明。FACS该套系统将许多现实生活中人类的表情进行了分类，它是如今面部表情的肌肉运动的权威参照标准，也被心理学家和动画片绘画者使用。

人脸关键点检测是人脸识别和分析领域中的关键一步，它是诸如自动人脸识别、表情分析、三维人脸重建及三维动画等其它人脸相关问题的前提和突破口。人脸关键点检测是指给定人脸图像，定位出人脸面部的关键点，包括眉毛、眼睛、鼻子、嘴、脸部轮廓区域的点。

目前，随着Deepfake技术的出现，换脸视频越来越泛滥，人们的隐私受到越来越大的威胁，甚至会给工业级的应用带来潜在的危险(获取用户的照片来看生成假脸视频来绕过活体检测)。

目前的一些假脸视频的检测方法主要集中在脸部边缘的拟合细节中，由于deepfake技术的不断发展，出现了由一张源图片学习视频中的人脸的动作来生成一段视频的技术(一阶运动模型生成假脸的技术)，而且在大平台上的活体检测测试上取得了较高的通过率。

因此对这些假的图片或视频的检测就显得尤为重要，本发明不同于其他拘于细节的deepfake检测方法，从整体的脸部出发，考虑假脸视频与正常视频的脸部肌肉运动的不同。

本发明设计了一种基于光流场和脸部肌肉运动的假脸视频的检测方法，先将视频分成连续帧，对连续帧的图片进行关键点检测并标记位置，利用光流法来表示关键点像素在时间域上的运动模式，最后通过神经网络来学习这种运动模式来区别真假人脸视频。

发明内容

本发明提供一种基于光流场和脸部肌肉运动的假脸视频检测方法，该方法能够准确检测出假脸视频。

基于光流场和脸部肌肉运动的假脸视频检测方法，包括：

(1)获取LFPW图像数据集和FaceForensics++视频数据集，将LFPW图像数据集标注关键点，将标注关键点的LFPW图像数据集划分为LFPW训练图像数据集和LFPW测试图像数据集，将FaceForensics++视频数据集处理为FaceForensics++图像数据集，并将FaceForensics++图像数据集划分为FaceForensics++训练图像数据集，FaceForensics++测试图像数据集，FaceForensics++验证图像数据集；

(2)基于Face++DCNN模型构建关键点检测训练系统，包括三个层级的级联网络，第一层级网络用于从输入的LFPW训练图像数据集提取面部器官以及肌肉群的边界框，第二层级网络用于基于所述的边界框输出关键点的粗略预测位置，第三层级用于通过对所述边界框内的面部器官以及肌肉群的特征分析，进一步细化关键点的粗略预测位置得到多个关键点位置图像数据集；

基于Flow-CNN模型构建假脸视频检测训练系统，包括VGG16网络结构和sigmoid激活函数，VGG16网络结构用于提取输入的FaceForensics++训练图像光流的特征信息，所述FaceForensics++训练图像光流通过输入的FaceForensics++训练图像数据集进行处理得到，sigmoid激活函数用于将所述特征信息进行分类，实现对输入的FaceForensics++训练图像数据中的每一帧图像进行真伪性判定；

(3)构建关键点检测训练系统和假脸视频检测训练系统的损失函数，将多个关键点位置图像数据集中的关键点坐标与LFPW训练图像数据集对应的关键点坐标的欧式距离与LFPW训练图像长度的比值构建关键点检测训练系统的损失函数；

构建假脸视频检测训练系统的损失函数；，将FaceForensics++视频数据集处理为n组FaceForensics++图像数据集，每组FaceForensics++图像数据集处理为连续m帧图片，对n组图片的关键点位置计算n组图片中的每帧图片与后一帧图片的欧氏距离与n的比值构建假脸视频检测训练系统的损失函数；

(4)利用关键点检测训练系统的损失函数对关键点检测训练系统进行训练，训练结束时，确定关键点检测模型；

利用假脸视频检测训练系统的损失函数对假脸视频检测训练系统进行训练，训练结束时，确定假脸视频检测模型；

(5)将LFPW测试图像数据集输入到关键点检测模型，根据输出结果计算关键点位置检测准确率，调整关键点检测模型参数，得到满足阈值的关键点检测模型；

将FaceForensics++测试图像数据集输入到关键点检测模型进行处理，将处理结果输入到假脸视频检测模型，根据输出结果计算假脸视频检测模型判断准确率，调整假脸视频检测模型参数，得到满足阈值的假脸视频检测模型；

(6)接收FaceForensics++验证图像数据集，将FaceForensics++验证图像数据集输入到满足阈值的关键点检测模型进行关键点的标记，并将标记关键点的FaceForensics++验证图像数据集输入到假脸视频检测模型判断所述FaceForensics++验证图像数据集真伪性。

本发明的技术构思为：先将视频分离成图片帧，对每一帧图片上的人脸的脸部运动的关键肌肉进行关键点检测并标注。然后利用光流法来表示标注的关键点像素在时间域上的运动模式，最后通过神经网络来学习这种运动模式来区别真假人脸视频。

所述的将LFPW图像数据集标注关键点具体步骤为：根据dlib人脸关键点检测和面部动作编码系统对LFPW图像进行关键点标注，得到标注关键点的LFPW图像数据集。

根据dlib人脸关键点检测和面部动作编码系统对LFPW图像进行关键点标注包括dlib中眉毛、眼睛、嘴巴外圈的关键点标注，以及从面部动作编码系统中选择了降眉肌、降眉间肌和皱眉肌的组合肌肉群，鼻肌和提上唇鼻翼肌，颧小肌和颧大肌三个肌肉群，每个肌肉群选择多个关键点进行标注。

本发明通过对利用dlib人脸关键点检测技术，确定人脸关键点的同时，选择组合肌肉群，并确定组合肌肉的关键点，通过对面部肌肉运动的判断多脸部视频进行检测。

所述的FaceForensics++视频数据集包括youtube的假脸视频，以及通过Face2Face、FaceSwap、DeepFakes、Faceshifter和NeuralTextures生成的假脸视频。

所述的FaceForensics++验证图像数据集是通过first order model模型生成的。

所述的关键点检测训练系统每一级层包括4个卷积层和一个全连接层，每个卷积层连接最大值池化层，同时滤波后的激活函数采用双曲正切函数，最后的卷积层为非权值共享卷积层。

最后一个卷积层叫作非权值共享的卷积层，该层在不同位置采用的权值是不同的，所以该层严格来说是一个局部的感知器，而非传统的卷积层。同时滤波后的激活函数采用双曲正切函数，能够给网络带来很好的非线性拟合能力。

所述的FaceForensics++训练图像光流通过输入的FaceForensics++训练图像数据集进行处理得到具体步骤为：

对t时间的FaceForensics++训练图像帧f(t)和t+1时间的FaceForensics++训练图像帧f(t+1)的关键点的位置变化进行分析得到FaceForensics++训练图像光流OF(f(t),f(t+1))。

通过对关键点位置变化，即光流场特征分析，能够动态，准确的判断脸部视频的真伪性。

关键点检测训练系统的损失函数loss_d1为：

假脸视频检测训练系统的损失函数loss_d2为：

其中，x为多个关键点位置图像数据集中的关键点x轴坐标，y为多个关键点位置图像数据集中的关键点y轴坐标，x′为LFPW训练图像数据集对应的关键点x轴坐标，y′为LFPW训练图像数据集对应的关键点y轴坐标，l为LFPW训练图像长度。

其中，a为每组FaceForensics++图像数据集的连续m帧图片的关键点x轴坐标，b为每组FaceForensics++图像数据集的连续m帧图片的关键点y轴坐标，n为选取的FaceForensics++图像数据集组数，i为FaceForensics++图像数据集组数索引，j为m帧图片帧数索引。

一种基于光流场和脸部肌肉运动的假脸视频的检测装置包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，所述计算机存储器中采用权利要求1～8任一项所述的基于光流场和脸部肌肉运动的假脸视频的检测方法构建的关键点检测模型和假脸视频检测模型；

所述计算机处理器执行所述计算机程序时实现以下步骤：

将FaceForensics++验证图像数据集输入至关键点检测模型和假脸视频检测模型中，经计算判断FaceForensics++验证图像真伪。

与现有技术相比，本发明的有益效果为：

本发明针对脸部的肌肉运动进行检测，对不同的Deepfake方法以及新兴的假脸合成技术生成的假视频都能够有较好的检测，泛化能力强，应用范围广。

附图说明

图1是本发明的具体实施方式中基于光流场和脸部肌肉运动的假脸视频检测方法流程图；

图2是本发明的具体实施方式中脸部关键点示意图；

图3本发明的具体实施方式中脸部关键点检测模型结构图；

图4本发明的具体实施方式中假脸视频检测模型结构图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本发明实施例提供了一种基于光流场和脸部肌肉运动的假脸视频的检测方法，如图1所示，包括以下步骤：

数据预处理

数据集

采用LFPW(Labeled Face Parts in the Wild)数据集作为关键点检测模型F的训练数据集。LFPW由1400个面部图像组成。所有数据均从google,Flickr和Yahoo上获取，每张图像标记35个关键点，但在本文中，需要我们自己对其标注60个我们自己选择的关键点。

采用FaceForensics++数据集作为假脸视频检测模型D的训练数据集。FaceForensics++是一个面部伪造数据集，它使研究人员能够以有监督的方式训练基于深度学习的方法。数据集包含来自youtube的1000个原视频以及使用五种最新方法创建的假脸视频，即Face2Face、FaceSwap、DeepFakes、Faceshifter和NeuralTextures。

LFPW数据集用来训练F模型，FaceForensics++数据集先分成视频帧通过F模型，输出再通过D模型完成真假视频检测。

1.2)划分训练集与测试集。

LFPW：总共1400个面部图像，将其中1100作为训练集X，其他300个图像作为测试集Q。

FaceForensics++：来自youtube的原视频以及五种最新方法创建的假脸视频各1000个，按照7:3的比例划分为训练集N、和测试集P。同时用first order model模型生成的100个假脸视频作为测试集。

1.3)处理数据集

LFPW：根据dlib人脸关键点检测和面部动作编码系统对1400张面部图像进行人工标注。我们选择dlib中眉毛(1-10)、眼睛(11-22)、嘴巴外圈(23-36)的关键点标注，以及从面部动作编码系统中选择了降眉肌、降眉间肌和皱眉肌的组合肌肉群(37-44)，鼻肌和提上唇鼻翼肌(45-52)，颧小肌和颧大肌三个肌肉群(53-60)，每个肌肉群选择8个关键点进行标注，总共标注60个关键点，如图2。

FaceForensics++：对来自youtube的原视频以及五种最新方法创建的假脸视频各1000个以及用first order model模型生成的100个假脸视频总共6100个视频每隔五帧取图像。每个视频的图像帧为一组图片。

训练模型

2.1)将步骤1)中划分好的LFPW训练集X作为输入对关键点检测模型F进行训练。

设计关键点检测模型F的结构以及损失函数

关键点检测模型F采用Face++DCNN模型(在其基础上有略微改动)，针对内部60个关键点，采用三个层级的级联网络进行检测。其中，Level-1主要作用是获得面部器官以及肌肉群的边界框，Level-2的输出是60个关键点预测位置，这里起到一个粗定位作用，目的是为了给Level-3进行初始化；Level-3会依据不同器官以及肌肉群进行从粗到精的定位，每一级都是4个卷积层加一个全连接层，卷积层后跟的都是最大值池化层，同时滤波后的激活函数采用双曲正切函数，这可以给网络带来很好的非线性拟合能力。每一级的模型结构如图3所示，其中，Level-1，Level-2，Level-3包括一个卷积层和一个池化层，所述一个卷积层的卷积核为5×5，通道为20，池化层尺寸为2×2；Level-4包括一个非权值共享卷积层，该卷积层卷积核为3×3，通道为80，最后为全连接层。

比较有特色的是最后一个卷积层叫作非权值共享的卷积层，该层在不同位置采用的权值是不同的，所以该层严格来说是一个局部的感知器，而非传统的卷积层。

损失函数是欧式距离除以图片长度的方式，如下所示。

2.2)将步骤1)中划分好的训练集N作为输入对假脸视频检测模型D进行训练。

设计假脸视频检测模型D的结构以及损失函数

对于t时间的帧f(t)以及t+1时间的帧f(t+1)，提取脸部关键点的位置变化作为光流OF(f(t)，f(t+1))。

然后将光流OF(f(t)，f(t+1))作为输入，进入一个semi-trainable CNN，称为Flow-CNN，这个CNN内部是已经训练好的网络，如图4所示，使用类似VGG16模型的网络结构。

最后的全连接层在使用sigmoid激活后，会输出一个unit，放置于网络的末尾，对于每一帧，作为fake or real的的依据。

假脸视频检测训练系统的损失函数loss_d2为：

3)测试模型

将第1)步中划分好的测试集Q输入到训练好的脸部关键点检测模型F，根据输出计算F模型的分类准确率。

将第1)步中划分好的测试集P先输入到训练好的脸部关键点检测模型F，输出结果再输入到假脸视频检测模型D中，根据输出计算D模型的分类准确率。

4)真假视频判断

本发明针对的是Deepfake视频的检测，因此我们的检测样本是一段视频，首先我们要先从视频中提取视频帧图像(每隔五帧取一帧)，然后图片通过我们训练好的F模型进行检测点的标记，将输出的图片通过D模型判断真假。

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于光流场和脸部肌肉运动的假脸视频检测方法，其特征在于，包括：

构建假脸视频检测训练系统的损失函数；将FaceForensics++视频数据集处理为n组FaceForensics++图像数据集，每组FaceForensics++图像数据集处理为连续m帧图片，对n组图片的关键点位置计算n组图片中的每帧图片与后一帧图片的欧氏距离与n的比值构建假脸视频检测训练系统的损失函数；

2.根据权利要求1所述的基于光流场和脸部肌肉运动的假脸视频检测方法，其特征在于，所述的将LFPW图像数据集标注关键点具体步骤为：根据dlib人脸关键点检测和面部动作编码系统对LFPW图像进行关键点标注，得到标注关键点的LFPW图像数据集。

3.根据权利要求2所述的基于光流场和脸部肌肉运动的假脸视频检测方法，其特征在于，根据dlib人脸关键点检测和面部动作编码系统对LFPW图像进行关键点标注包括dlib中眉毛、眼睛、嘴巴外圈的关键点标注，以及从面部动作编码系统中选择了降眉肌、降眉间肌和皱眉肌的组合肌肉群，鼻肌和提上唇鼻翼肌，颧小肌和颧大肌三个肌肉群，每个肌肉群选择多个关键点进行标注。

4.根据权利要求1所述的基于光流场和脸部肌肉运动的假脸视频检测方法，其特征在于，所述的FaceForensics++视频数据集包括youtube的假脸视频，以及通过Face2Face、FaceSwap、DeepFakes、Faceshifter和NeuralTextures生成的假脸视频。

5.根据权利要求1所述的基于光流场和脸部肌肉运动的假脸视频检测方法，其特征在于，所述的FaceForensics++验证图像数据集是通过first order model模型生成的。

6.根据权利要求1所述的基于光流场和脸部肌肉运动的假脸视频检测方法，其特征在于，所述的关键点检测训练系统每一级层包括4个卷积层和一个全连接层，每个卷积层连接最大值池化层，同时滤波后的激活函数采用双曲正切函数，最后的卷积层为非权值共享卷积层。

7.根据权利要求1所述的基于光流场和脸部肌肉运动的假脸视频检测方法，其特征在于，所述的FaceForensics++训练图像光流通过输入的FaceForensics++训练图像数据集进行处理得到具体步骤为：

对t时间的FaceForensics++训练图像帧f(t)和t+1时间的FaceForensics++训练图像帧f(t+1)的关键点的位置变化进行分析得到FaceForensics++训练图像光流。

8.根据权利要求1所述的基于光流场和脸部肌肉运动的假脸视频检测方法，其特征在于，关键点检测训练系统的损失函数loss_d1为：

假脸视频检测训练系统的损失函数loss_d2为：

其中，x为多个关键点位置图像数据集中的关键点x轴坐标，y为多个关键点位置图像数据集中的关键点y轴坐标，x^′为LFPW训练图像数据集对应的关键点x轴坐标，y^′为LFPW训练图像数据集对应的关键点y轴坐标，l为LFPW训练图像长度；

9.一种基于光流场和脸部肌肉运动的假脸视频的检测装置包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，其特征在于，所述计算机存储器中采用权利要求1～8任一项所述的基于光流场和脸部肌肉运动的假脸视频的检测方法构建的关键点检测模型和假脸视频检测模型；

所述计算机处理器执行所述计算机程序时实现以下步骤：