CN111353395B

CN111353395B - 一种基于长短期记忆网络的换脸视频检测方法

Info

Publication number: CN111353395B
Application number: CN202010105761.9A
Authority: CN
Inventors: 夏志华; 余佩鹏; 费建伟; 顾飞; 付章杰; 孙星明
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-02-19
Filing date: 2020-02-19
Publication date: 2023-07-28
Anticipated expiration: 2040-02-19
Also published as: CN111353395A

Abstract

本发明公开了一种基于长短期记忆网络的换脸视频检测方法，该检测方法包括视频帧提取、图像特征提取、长短期记忆网络训练测试。其中，视频帧提取负责提取视频片段中的关键帧及其之后的连续多帧图像，然后对图像中人脸区域进行裁剪，并使用高通滤波对人脸图像进行处理，提取人脸图像中的细节信息；利用在ImageNet图像分类数据集中训练好的Xception卷积神经网络对图像进行特征提取，将卷积神经网络的输出作为图像的特征，然后将各帧图像提取到的特征拼接为特征序列，输入到长短期记忆网络进行训练，最终得到一个高精度的换脸视频分类器。本发明充分利用了伪造视频中存在的帧间不一致性，大大提高了伪造视频的检测精度，取得了很好的分类效果。

Description

一种基于长短期记忆网络的换脸视频检测方法

技术领域

本发明属于模式识别技术领域，尤其涉及一种基于长短期记忆网络的换脸视频检测方法。

背景技术

目前，视频作为通信的重要内容，在人们的生活中起着重要的作用。同时，视频也能够作为法庭中的证据。然而近年来，由于深度学习等技术的发展，针对视频的伪造技术已经达到了一个很高的水平。其中，深度伪造技术可以通过在原始视频中插入合成人脸来生成人脸伪造视频。一方面，这类换脸视频被大量用于色情视频，在很大程度上对被换脸人物的形象造成极大伤害，另一方面，这类换脸视频能够使人们产生误判，甚至影响到人们的决策。深度伪造视频已经成为一个严重的社会问题，对社会造成了严重的负面影响。现有的伪造人脸检测技术主要分为如下两类：

第一类是基于帧内图像瑕疵的检测方法，该方案通过提取视频的每一帧，对视频的每一帧进行预处理后，提取相关特征进行检测，然后计算视频的伪造率，从而判断视频是否为伪造视频。现有的检测方法主要利用换脸过程造成的图像瑕疵进行检测，这些瑕疵主要包括将合成人脸嵌入到原视频中造成的合成边缘色差、分辨率不一致等问题。然而，在分辨率较低的视频中，视频瑕疵很容易被掩盖，从而使得此类检测方法的检测效果大大降低。

第二类是基于帧间一致性的检测方法，此类方案主要是基于视频各帧之间的一致性进行检测，在原始人脸视频中，相邻帧之间应当存在一定的相关性，表情变化幅度很小，然而在伪造人脸视频中，由于各帧图像都是分别制作的，没有时间上的相关性，因此会出现表情突变的情况。目前这一方案的检测方法主要使用预训练好的卷积神经网络对视频各帧进行特征提取，对提取到的特征序列进行一致性分析，即采用递归神经网络进行训练，分析特征在时间上的相关性，从而对伪造视频进行检测。但是，这一方案在训练递归神经网络时极易造成网络不收敛等问题，计算成本高。

发明内容

发明目的：针对以上问题，本发明提出一种基于长短期记忆网络的换脸视频检测方法，通过该方法可以提高伪造人脸视频检测的精度，减少视频的分类检测时间。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种基于长短期记忆网络的换脸视频检测方法，包括如下步骤：

(1)获取待检测的视频数据集，将数据集划分为训练集、验证集和测试集；

(2)分别对划分后的各个数据集的视频数据提取关键帧及其后续帧，提取帧图像中的人脸图像，并对人脸图像进行增强处理；

(3)使用卷积神经网络分别对各个数据集的人脸图像提取特征，并对提取的特征进行按序拼接，得到各个数据集的特征序列；

(4)将特征序列作为长短期记忆网络的输入，该特征序列属于换脸视频的概率值作为网络输出，对网络进行训练，通过验证集测试分类精度，调整网络模型，直到分类精度满足预期，得到训练完成的网络模型；

(5)将训练完成的网络模型作为分类器，将测试集的特征序列输入分类器中进行分类，得到分类结果即检测视频为换脸视频的概率。

进一步地，在步骤(2)中，对视频数据进行帧提取并提取帧图像中的人脸图像，方法如下：

(2.1)从视频数据中定位关键帧，并提取关键帧及其之后的K-1帧图像；

(2.2)对提取到的各帧图像中的人脸进行定位和裁剪，得到人脸图像；

(2.3)通过高通滤波器对人脸图像进行处理，得到增强后的图像。

进一步地，在步骤(2.1)中，定位视频关键帧的方法如下：

计算相邻帧之间的帧差欧式距离，K帧图像总共有K-2个帧差欧式距离；计算K-2个帧差欧式距离的极值，以及各极值点对应的帧差欧式距离值，计算各距离的均值；比较各极值点所对应帧差欧式距离值与均值的大小，取出大于均值的点，其对应的帧图像即为所要选的关键帧图像。

进一步地，帧差欧式距离的计算公式如下：

其中eulerdisdiff(i)为第i个帧差欧式距离，x_i,x_i+1,x_i+2分别为第i、i+1、i+2帧图像的灰度值，K为提取的帧图像数目。

进一步地，在步骤(2.2)中，对提取到的各帧图像中的人脸进行定位和裁剪，方法如下：

加载Haar特征检测器，用于人脸检测；将当前的图像进行灰度化处理，简化图像的信息；将灰度化后的图像输入到Haar特征检测器进行人脸位置判断；根据得到的人脸位置信息对原始帧图像进行裁剪，得到人脸图像。

进一步地，在步骤(2.3)中，通过高通滤波器对人脸图像进行处理的方法如下：

对人脸图像的边界进行填充，得到与原图相同大小的人脸填充图像，以保证后续卷积操作能够得到与原图相同大小的图像；

生成标准Laplacian掩膜，用于后续对图像的卷积操作；使用生成的Laplacian掩模对得到的人脸填充图像进行卷积操作，提取图像边缘；

将步骤(2.2)得到的人脸图像与提取的图像边缘进行计算，得到处理后的人脸图像。

进一步地，采用的标准Laplacian掩模为：

进一步地，人脸图像和提取的图像边缘计算公式为：

g(x,y)＝f(x,y)+t(x,y)

其中g(x,y)为增强后的人脸图像在(x,y)处的像素值，f(x,y)为输入的人脸图像在(x,y)处的像素值，t(x,y)表示提取到的图像边缘在(x,y)处的像素值。

进一步地，在步骤(3)中，使用卷积神经网络对人脸图像进行特征提取，具体如下：

所述卷积神经网络使用在ImageNet图像分类数据集中训练好的Xception网络模型；加载Xception网络模型，使Xception网络参数保持不变，由其输入层至最后一个全连接层构成特征提取模块；将步骤(2)得到的人脸图像输入到网络中进行特征提取，将网络最后一个全连接层的输出作为该帧图像的特征。

进一步地，在步骤(4)中，使用长短期记忆网络进行训练的方法如下：

(4.1)将步骤(3)中提取到的特征序列作为网络输入，网络输出为该特征序列来自换脸视频的概率值；根据得到的概率值与视频标签值计算神经网络的损失函数值；

(4.2)计算损失函数关于网络权重和偏置的偏导数，然后使用梯度下降法更新网络权重和偏置，降低损失值，提高网络的分类效果；

(4.3)每一轮训练结束后，使用验证集对网络模型进行测试，计算训练后的网络的分类精度；若分类精度不满足预期，调整网络模型的超参数，继续对网络进行训练，直至分类精度满足预期，得到训练完成的网络。

有益效果：与现有技术相比，本发明的技术方案具有以下有益的技术效果：

本发明利用帧差欧式距离对视频中的关键帧进行定位，能够提取视频中包含的有效信息，从而提高检测效果；本发明使用Haar特征对各帧图像进行人脸图像提取，能够排除视频中背景对分类器的干扰；本发明使用基于Laplacian算子的高通滤波器对提取的人脸图像进行处理，能够提取到人脸的细节信息，从而凸显伪造视频帧中的图像瑕疵；

本发明使用预训练好的Xception网络模型对处理后的人脸图像进行特征提取，在节省特征提取器的训练成本的同时，保证了提取到的特征能够很好地表征输入的人脸图像；本发明使用长短期神经网络对特征序列进行分析，充分利用了伪造视频中存在的帧间不一致性，从而大大提高了伪造视频的检测精度。

附图说明

图1是换脸视频检测算法框架图；

图2是长短期记忆模块结构图；

图3是长短期记忆网络模型结构图；

图4是预训练网络Xception模型图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

本发明所述的一种基于长短期记忆网络的换脸视频检测方法，算法框架如图1所示，包括如下步骤：

(1)获取待检测的视频数据集，将数据集划分为训练集、验证集和测试集。

本实施例所用的视频数据来自于FaceForensic++数据集，该图像库共包含四个视频数据集，分别使用Deepfake、Face2Face、FaceSwap、NeuralTextures的方法对原始视频进行篡改，原始视频数据多达1000段，总共超过150万帧，原始视频超过1.5TB；同时，数据集中包含着不同分辨率的视频数据，为低分辨率下的视频检测创造了条件。

在本实施例中，采用了TensorFlow架构，结合python语言进行编程实验，Tensorflow架构使用图描述计算过程，通过构建和运行图即可实现对数据的计算。图像库的图像分为训练集、验证集和测试集，分别用来训练、验证和测试分类器，FaceForensic++数据集基本信息如表1所示：

表1

方法	训练集	验证集	测试集
				Pristine	366,847	68,511	73,770
DeepFakes	366,835	68,506	73,768
				Face2Face	366,843	68,511	73,770
FaceSwap	291,434	54,618	59,640
				NeuralTextures	291,834	54,630	59,672

(2)分别对划分后的各个数据集的视频数据提取关键帧及其后续帧，提取帧图像中的人脸图像，并对人脸图像进行增强处理。

视频内容由一系列帧组成，在视频编码过程中，为了节省存储空间，会对这些帧的信息进行压缩，除了帧内压缩外，也会采用关键帧以及帧间预测方式来对视频进行压缩，关键帧是视频中图像的完整帧。后续帧(增量帧)仅包含已更改的信息，因此，关键帧中会包含完整的信息，而后续的预测帧会产生一定的误差。

计算相邻帧之间的帧差欧式距离，K帧图像总共有K-2个帧差欧式距离；计算K-2个帧差欧式距离的极值，以及各极值点对应的帧差欧式距离值，计算各距离的均值；比较各极值点所对应帧差欧式距离值与均值的大小，取出大于均值的点，其对应的帧图像即为所要选的关键帧图像。所述帧差欧式距离的计算公式如下：

人脸图像提取是为了排除背景信息对分类器的干扰，提取的人脸图像去除了大量的背景信息，从而减少训练阶段对分类器的干扰；本发明使用Haar特征对人脸进行定位，提取出的人脸图像将有利于后续分类器的训练；人脸图像提取步骤如下：

拉普拉斯(Laplacian)算子是一种微分算子，它的应用可增强图像中灰度突变的区域，减弱灰度的缓慢变化区域；因此，锐化处理可选择拉普拉斯算子对原图像进行处理，产生描述灰度突变的图像，再将拉普拉斯图像与原始图像叠加而产生锐化图像；

通过高通滤波器对人脸图像进行处理步骤如下：

采用的标准Laplacian掩模为：

人脸图像和提取的图像边缘计算公式为：

g(x,y)＝f(x,y)+t(x,y)

经过高通滤波器处理后的图片能够凸显人脸图像中的边缘信息，而这些信息在换脸检测中能够起到至关重要的作用。原始视频中的图像较换脸视频相比，拥有更多的边缘细节信息，这些信息是换脸算法无法生成的，因此，高通滤波处理能够很好的表现真假视频间的差异。

(3)使用卷积神经网络分别对各个数据集的人脸图像提取特征，并对提取的特征进行按序拼接，得到各个数据集的特征序列。

所述卷积神经网络使用在ImageNet图像分类数据集中训练好的Xception网络模型；Xception网络的结构基于ResNet，但是将其中的卷积层换成可分离卷积，较InceptionV3相比，该网络的准确率更高，同时参数量有所下降，在该网络中加入的残差连接机制也显著加快了Xception的收敛过程，同时获得了更高的准确率。

鉴于Xecption网络在ImageNet数据集上的优异表现，本发明认为该网络能够提取到人脸图像中具有差异性的特征，因此使用预训练好的Xception网络来提取图像特征。Xception网络结构图如图4所示。图像特征提取的步骤如下：

加载Xception网络模型，使Xception网络参数保持不变，由其输入层至最后一个全连接层构成特征提取模块；将步骤(2)得到的人脸图像输入到网络中进行特征提取，将网络最后一个全连接层的输出作为该帧图像的特征。

在原始视频中，相邻帧之间存在一定的相关性，而在换脸视频中，由于换脸视频的每一帧都是单独生成，不存在时间上的相关性，因此会破坏相邻帧之间的相关性。本发明使用Xception网络对各帧图像进行特征提取，并将其拼接，用以作为视频中提出的特征，通过相邻帧之间的相关性来对换脸视频进行检测。

(4)将特征序列作为长短期记忆网络的输入，该特征序列属于换脸视频的概率值作为网络输出，对网络进行训练，通过验证集测试分类精度，调整网络模型，直到分类精度满足预期，得到训练完成的网络模型。

为了计算视频各帧之间的相关性，本发明采用长短期记忆网络来对提取到的特征进行分析，如图3所示，长短期记忆网络较传统的递归神经网络相比，能够处理长时间的特征序列，适用于本发明涉及的换脸视频检测问题。长短期记忆模块结构图如图2所示。

使用长短期记忆网络进行训练的步骤如下：

本实施例通过对FaceForensic++中的换脸视频数据集进行测试，结果如表2所示。从实验结果来看，随着视频帧长度的增加，算法的检测精度也得到了提升。在一定程度上说明了视频帧长度越大，携带的时间连续性信息越多，越利于算法对视频的检测。

表2

视频帧长度	50	100	200
				检测精度	85.6％	87.8％	88.57％

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于长短期记忆网络的换脸视频检测方法，其特征在于：包括如下步骤：

(2.1)从视频数据中定位关键帧，并提取关键帧及其之后的K-1帧图像；定位视频关键帧的方法如下：

计算相邻帧之间的帧差欧式距离，K帧图像总共有K-2个帧差欧式距离；

计算K-2个帧差欧式距离的极值，以及各极值点对应的帧差欧式距离值，计算各距离的均值；所述帧差欧式距离的计算公式如下：

其中eulerdisdiff(i)为第i个帧差欧式距离，x_i,x_i+1,x_i+2分别为第i、i+1、i+2帧图像的灰度值，K为提取的帧图像数目；

比较各极值点所对应帧差欧式距离值与均值的大小，取出大于均值的点，其对应的帧图像即为所要选的关键帧图像；

(2.3)通过高通滤波器对人脸图像进行处理，得到增强后的图像，方法如下：

对人脸图像的边界进行填充，得到与原图相同大小的人脸填充图像；

使用标准Laplacian掩模对得到的人脸填充图像进行卷积操作，提取图像边缘；

将步骤(2.2)得到的人脸图像与提取的图像边缘进行计算，得到处理后的人脸图像；

采用的标准Laplacian掩模为：

人脸图像和提取的图像边缘计算公式为：

g(x,y)＝f(x,y)+t(x,y)

其中g(x,y)为增强后的人脸图像在(x,y)处的像素值，f(x,y)为输入的人脸图像在(x,y)处的像素值，t(x,y)表示提取到的图像边缘在(x,y)处的像素值；

所述卷积神经网络使用在ImageNet图像分类数据集中训练好的Xception网络模型；加载Xception网络模型，使Xception网络参数保持不变，由其输入层至最后一个全连接层构成特征提取模块；将步骤(2)得到的人脸图像输入到网络中进行特征提取，将网络最后一个全连接层的输出作为该帧图像的特征；

2.根据权利要求1所述的一种基于长短期记忆网络的换脸视频检测方法，其特征在于：在步骤(2.2)中，对提取到的各帧图像中的人脸进行定位和裁剪，方法如下：

加载Haar特征检测器；将当前的图像进行灰度化处理，将灰度化后的图像输入到Haar特征检测器进行人脸位置判断；根据得到的人脸位置信息对原始帧图像进行裁剪，得到人脸图像。

3.根据权利要求1或2所述的一种基于长短期记忆网络的换脸视频检测方法，其特征在于：在步骤(4)中，使用长短期记忆网络进行训练的方法如下：