CN114120198A

CN114120198A - 一种伪造视频检测方法、系统及存储介质

Info

Publication number: CN114120198A
Application number: CN202111431151.9A
Authority: CN
Inventors: 方书雅; 王浩; 王书诚; 叶荣军; 黄亮; 沈欢; 郑洁; 刘剑; 李欢; 雷霓; 陈祖刚; 羿舒文
Original assignee: 722th Research Institute of CSIC
Current assignee: 722th Research Institute of CSIC
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2022-03-01

Abstract

本发明公开了一种伪造视频检测方法、系统及存储介质。该方法包括步骤：预定义多个关键点，将该多个关键点划分为多个区域；从待检测视频中提取图像，并在每帧提取的图像上检测关键点；根据同一关键点在相邻两帧之间的坐标位移的计算每个关键点的光流值，再根据关键点的光流值以及该关键点所属区域的其他关键点的光流值计算每个关键点的关联光流值，根据关联光流值构建稀疏关联光流特征图；将稀疏关联光流特征图输入到训练后的检测模型，输出检测结果。本发明具有检测速度快的优点，同时还具有较高的准确率。

Description

一种伪造视频检测方法、系统及存储介质

技术领域

本发明属于计算机视觉与深度学习技术领域，更具体地，涉及一种伪造视频检测方法、系统及存储介质。

背景技术

视频伪造方法是指一种利用深度神经网络将原始图像或视频中的真实人脸替换为合成人脸来制造错误信息的技术，并被滥用于制造假新闻、恶作剧和金融欺诈，对社会造成严重影响。而视频真伪检测方法的目的是检测出此类伪造视频，维护信息安全。

视频真伪检测方法可以分为两类：基于单帧的方法和基于序列的方法。随着深度学习技术的不断发展，这两种方法使用的模型都越来越复杂，对计算资源和时间的需求也越来越大，使得训练成本高，检测速度慢。

XceptionNet算法是基于单帧检测方法的里程碑，通常作为算法性能比较的基线。XceptionNet算法拥有数千万个参数，由36个卷积层构成14个模块组成。为了提高性能和泛化能力，后续提出的基于单帧的方法比单个CNN模型更加复杂。名为Face X-ray的新方法是一种通过预测灰度图像来确定人脸图像真伪的方法，并在混合边界存在时识别其位置。为了生成与输入图像大小相同的灰度图像，Face X-ray方法所使用的HRNet模型需要大量的计算资源。另一个新的多注意力检测网络是由一个注意力模块、一个纹理增强块和一个双线性注意力池组成。这个网络的架构非常的复杂，很消耗计算资源。

大多数最先进的视频真伪检测技术只分析单帧的空间信息，很少探索帧间的时序信息。但是连续帧之间的时间信息对于检测视频的真伪至关重要，有助于检测视频帧之间存在的看起来不自然的伪影。3D卷积神经网络(3DCNN)是一种基于序列的方式，其中R3D模型优于C3D、I3D等模型，是检测性能最好的3DCNN模型。但是3DCNN中的3D卷积比一般CNN中的2D卷积具有更多的参数，计算量更大。此外，循环神经网络是充分利用时间信息的强大工具，因此也被用于提取时序信息。一个基于LSTM的残差网络算法由ConvLSTM单元和残差路径连接组成。另一个是基于卷积神经网络(CNN)和循环神经网络(RNN)的方法，具有自动加权机制，以在确定序列级别预测时强调已检测到面部的最可靠区域。尽管使用的EfficientNet-b5模型在网络参数和分类精度之间提供了很好的权衡，但自动人脸加权块和GRU模型增加了额外的开销。

上述方法的复杂度急剧增加，而准确性略有提高。这些模型给计算资源带来了巨大压力，需要很长的训练时间。尤其是在处理越来越大的数据集时，算法通常需要高性能的多块GPU联合训练，并且训练时间以天为单位。此外，这些模型在部署到嵌入式平台时，对硬件资源有较高要求，且检测速度较慢。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种伪造视频检测方法、系统及存储介质，具有检测速度快的优点，同时还具有较高的准确率。

为实现上述目的，按照本发明的第一方面，提供了一种伪造视频检测方法，包括步骤：

预定义多个关键点，将该多个关键点划分为多个区域；

从待检测视频中提取图像，并在提取的图像上检测关键点；

根据同一关键点在相邻两帧之间的坐标位移的计算每个关键点的光流值，再根据关键点的光流值以及该关键点所属区域的其他关键点的光流值计算每个关键点的关联光流值，根据多帧图像上每个关键点的关联光流值构建稀疏关联光流特征图；

将稀疏关联光流特征图输入到训练后的检测模型，输出检测结果。

进一步地，提取的图像为人脸图像，预定义的多个关键点均为面部关键点，将面部关键点划分为左眼、右眼、左眼皮、右眼皮、左眉、右眉、左脸颊、右脸颊、上嘴唇、下嘴唇、鼻子和头部这十二个区域。

进一步地，所述在提取的图像上检测关键点包括步骤：

预定每个关键点具有唯一的索引号，将检测到的关键点的坐标值记为(x_i,j,y_i,j)，其中i代表关键点的索引号，j代表帧的序号，生成关键点检测文件来记录每帧中所有关键点的坐标值，没有检测到关键点，则不生成关键点检测文件。

进一步地，若提取的图像中无法检测到部分关键点，将无法检测到的关键点定义为丢失点，则在关键点检测文件中用预定义的特殊值表示丢失点的坐标值。

进一步地，将关键点数量记为N，若连续的N+1帧图像均检测到关键点，根据N+1帧图像关键点的关联光流值构建稀疏关联光流特征图。

进一步地，计算关键点的光流值以及该关键点所属区域的其他关键点的光流值的加权和，作为关键点的关联光流值。

进一步地，所述稀疏关联光流特征图包含面部表情不一致的特征。

进一步地，所述检测模型基于卷积神经网络实现，包括6个卷积层、4个最大值池化层和3个全连接层，对于每个卷积层，卷积核的大小均为3×3，最后一个卷积层的步长为2。

按照本发明的第二方面，提供了一种伪造视频检测系统，包括：

关键点定义模块，用于预定义多个关键点，将该多个关键点划分为多个区域；

检测模块，用于从待检测视频中提取图像，并在每帧提取的图像上检测关键点；

特征提取模块，用于根据同一关键点在相邻两帧之间的坐标位移的计算每个关键点的光流值，再根据关键点的光流值以及该关键点所属区域的其他关键点的光流值计算每个关键点的关联光流值，根据多帧图像上每个关键点的关联光流值构建稀疏关联光流特征图；

鉴伪模块，用于将稀疏关联光流特征图输入到训练后的检测模型，输出检测结果。

按照本发明的第三方面，提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项方法。

总体而言，本发明与现有技术相比，具有有益效果：

(1)本发明通过根据关键点的光流值以及该关键点所属区域的其他关键点的光流值计算每个关键点的关联光流值，考虑了时空信息和关键点之间的运动相关性，一方面可以极大地压缩了输入特征的尺寸和维度，减少了检测模型的训练参数数量和训练时间，适用于部署在嵌入式平台上，占用内存少，对硬件要求低，检测速度快，另一方面还具有较高的检测准确率。

(2)进一步地，提取的图像为人脸图像，预定义的多个关键点均为面部关键点，提取的稀疏关联光流特征图包含了面部肌肉群的运动信息和人脸表情变换的时空信息，能够充分利用伪造人脸视频中面部肌肉僵硬、不和谐以及表情变化的不一致性特征等进行伪造视频检测。

附图说明

图1是本发明实施例的一种伪造视频检测方法的流程图；

图2是本发明实施例的关键点区域划分示意图；

图3是本发明实施例的稀疏关联光流特征图示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明实施例的一种伪造视频检测方法，包括步骤：

S1，预定义多个关键点，将该多个关键点划分为多个区域。

预定义的关键点和区域是用于后续数据处理。

进一步地，预定义的多个关键点均为面部关键点，将多个面部关键点划分为左眼、右眼、左眼皮、右眼皮、左眉、右眉、左脸颊、右脸颊、上嘴唇、下嘴唇、鼻子和头部这十二个区域。

在一个实施例中，如图2所示，预定义68个面部关键点，每个关键点具有唯一的索引号，分别是从1至68，区域(也即面部运动区域)和68个面部关键点的对应关系为：左眼(关键点43-48)、右眼(关键点37-42)、左眼皮(关键点23-27和43-46)、右眼皮(关键点18-22和37-40)、左眉(关键点23-27)、右眉(关键点18-22)、左脸颊(关键点12-16、28-31、36、53-55)、右脸颊(关键点2-7、28-32和49-51)、上嘴唇(关键点49-55和61-65)、下嘴唇(关键点56-60和66-68)、鼻子(关键点28-36)和头部(关键点1-31、34、52、63、67、68)这十二个运动区域。

某一个关键点存在属于2个或多个区域的情况。例如关键点23-27同时属于左眉和左眼皮。原因是左眉的运动(例如皱眉、挑眉等)需要23-27点共同完成，左眼皮的运动(例如眨眼、眯眼、翻白眼等)需要关键点23-27和43-46共同完成。在计算关联光流值时，是按照区域计算的，即分别计算该关键点在两个区域的关联光流值，并将结果相加，表示该关键点在两个区域内的重要性和贡献率是累计的过程。通过这种方式，出现在多个区域的关键点比只在一个区域出现的关键点包含的信息更多，更加重要。

S2，从待检测视频中提取图像，并在提取的图像上检测关键点。

从待检测视频中提取图像可以是提取连续的每一帧图像。这是因为本发明提取的是稀疏关联光流特征图，可以解决计算量过大的问题，这样提取连续帧不存在计算量过大的问题，并且连续帧在时间上有非常好的相关性，可以捕获面部表情变化的整个过程。此外，一个微表情能在1/25秒内一闪而过，普通视频的帧率是30FPS，大致可以记录表情的变化过程，如果采用间隔采样，可能会丢失掉表情变化的重要信息。

检测关键点可以采用现有技术中任意方法实现。

进一步地，在提取关键点前先从提取的图像上截取人像，这样可以从待检测视频中提取图像可以实现人像区域和背景区域分割，达到消除拍摄场景变换、拍摄设备抖动等造成的干扰的目的。

进一步地，检测关键点包括步骤：预定每个关键点具有唯一的索引号，将检测到的关键点的坐标值记为(x_i,j,y_i,j)，其中i代表关键点的索引号，j代表帧的序号，生成关键点检测文件来记录每帧中所有关键点的坐标值，没有检测到关键点，则不生成关键点检测文件。

在一个实施例中，然后利用OpenCV开源库中的VideoCapture函数获取视频句柄，依次得到每帧图片。接着，为每个视频建立文件夹，然后使用MTCNN人脸检测算法，截取每帧图片中的人脸图像，并按照帧的序号命名.png图片保存在对应的文件夹中。采用Dlib库中人脸关键点检测算法检测每帧图片中同一个人面部68个人脸关键点的坐标值(x_i,j,y_i,j)，其中i代表关键点的索引，j代表帧的序号。按照帧的序号命名.npy文件保存68个点的坐标值，存放在每个视频对应的文件夹下。

进一步地，若提取的图像中无法检测到部分关键点，将无法检测到的关键点定义为丢失点，则在关键点检测文件中用预定义的特殊值表示丢失点的坐标值。例如，当拍摄中人物头部发生转动，如侧脸、低头等，会出现人脸信息缺失的情况，此时无法检测到全部的68个面部关键点，将无法检测到的关键点被定义为丢失点，用特殊值表示。这些丢失点包含了头部的运动信息，对于伪视频检测具有重要意义。

在一个实施例中，特殊值取50，表示50px。因为相邻两帧关键点的位移通常只有几个像素点。人脸图像区域的长/宽取值范围在40px到200px之间，特殊值取50px大于正常位移值和伪造算法造成的位移值，可以特殊标记出丢失点。

S3，根据同一关键点在相邻两帧之间的坐标位移的计算每个关键点的光流值，再根据关键点的光流值以及该关键点所属区域的其他关键点的光流值计算每个关键点的关联光流值，根据多帧图像上每个关键点的关联光流值构建稀疏关联光流特征图。

关联光流值描述了多个关键点之间的运动相关性。普通光流值只能反映每个点单独的位移。但是，人脸表情的变化不是由每个关键点独立变化产生的，而是人脸肌肉群的整体运动产生。本发明根据肌肉群的运动规律将关键点划分到不同的运动区域，通过计算关键点在每个运动区域里的关联光流值来反映肌肉的整体运动趋势。这种关联光流值比普通光流值包含更多的空间信息和运动信息，更有助于发现伪造视频中人脸表情的僵硬、不一致的情况。

稀疏关联光流特征图描述了多帧图像中多个关键点之间的运动相关性。多帧稀疏关联光流特征图提取了多帧帧人脸图像中的空间信息和时间信息，刻画了2秒内人脸肌肉群的运动过程。这有利于发现伪造视频中表情突变、表情滞留、僵硬等现象。

关键点所属区域的其他关键点根据步骤S1中的定义获得。

通过根据关键点的光流值以及该关键点所属区域的其他关键点的光流值计算每个关键点的关联光流值，一方面考虑了时空信息，另一方面还考虑关键点之间的运动相关性。

具体到面部关键点，提取的稀疏关联光流特征图包含了面部肌肉群的运动信息和人脸表情变换的时空信息，包含了伪造人脸视频中面部肌肉僵硬、不和谐以及表情变化不一致性特征，利用这些特征可以实现有效地伪视频检测。

在一个实施例中，首先读取连续的69个.npy文件，将69组坐标值组成人脸坐标矩阵X和Y(X∈R^69×68,Y∈R^69×68)。如式1所示，矩阵X和Y分别表示连续69帧中68个人脸关键点的横坐标值和纵坐标值。

然后，计算同一个点在相邻两帧之间水平方向和垂直方上的位移u和v，u_i,j为第j帧中关键点i在水平方向的光流值，v_i,j为第j帧中关键点i在垂直方向的光流值，如下式所示：

u_i,j＝f(x_i,j)＝x_i,j+1-x_i,j v_i,j＝f(y_i,j)＝y_i,j+1-y_i,j

得到对应于矩阵X和Y的两个矩阵U和V(U∈R68×68,V∈R68×68)。矩阵U和V分别表示连续69帧中68个关键点在水平和垂直方向的光流值，如下式所示：

然后再相邻69张人脸图像中68个关键点的关联光流值融合成稀疏关联光流特征图。

每个关键点在相邻两帧之间的关联光流值(p_i,j,q_i,j)的计算方法是每个关键点的光流值加上同一个面部运动区域内其他关键点光流值的加权和，作为关键点的关联光流值。

进一步地，对于某一个关键点存在属于2个或多个区域的情况，根据关键点的光流值以及该关键点每个所属区域的其他关键点的光流值计算每个关键点对应所属区域的关联光流值，然后根据关键点对应所属区域的关联光流值计算最终的关联光流值。例如对于一个关键点属于2个区域的情况，在计算关联光流值时，是按照区域计算的，即根据关键点的光流值以及该关键点所属区域1的其他关键点的光流值计算关键点所属区域1的关联光流值1，再根据关键点的光流值以及该关键点所属区域2的其他关键点的光流值计算关键点所属区域2的关联光流值2，然后将关联光流值1与关联光流值2相加，得到该关键点最终的关联光流值，表示该关键点在两个区域内的重要性和贡献率是累计的过程。通过这种方式，出现在多个区域的关键点比只在一个区域出现的关键点包含的信息更多，更加重要。

在一个实施例中，关联光流值(p_i,j,q_i,j)的计算公式为：

其中，D_i表示第i个关键点所在区域内的其他关键点的集合，k是集合D_i中的关键点。|u_i,j-u_k,j|是第i个关键点和第j个关键点水平距离差的绝对值；

是关键点光流值的权值，它与两个关键点的距离成反比，表示距离越近的关键点和第i个关键点运动的关联性越大，贡献率越高。垂直方向上的权值含义相同。

关联光流值(p_i,j,q_i,j)组成人脸稀疏关联光流特征图F(F∈R68×68×2)，表示提取视频连续69帧图片中同一个人面部68个关键点的关联光流值。

S4，将稀疏关联光流特征图输入到训练后的检测模型，输出检测结果。

检测模型基于卷积神经网络实现，检测模型的处理包括以下步骤：

(1)下载开源数据集，分为训练集、测试集和验证集；

预先下载FF++数据集，在一个实施例中，主要针对低质量(视频质量为C40)的视频数据。该数据集由1000个原始视频序列和四种伪造方法各伪造的1000个视频组成，共5000个视频。四种伪造方法分别是Deepfakes、Face2Face、FaceSwap和Neural Textures方法。每种方法的1000个视频中，选择特特定的720个视频用于训练，140个视频用于验证，140个视频用于测试。

(2)对训练集、测试集和验证集中视频均进行与步骤S2、S3同样的处理，对视频提取稀疏关联光流特征图，另外还对视频进行标注，利用训练集训练检测模型的卷积神经网络并保存参数，利用测试集测试检测模型，利用验证集验证检测模型。

在一个实例中，卷积神经网络的设计以及训练的具体过程为：

构建轻量级卷积神经网络。如表1所示，卷积神经网络的模型由6个卷积层、4个最大值池化层和3个全连接层组成。对于每个卷积层，卷积核的大小均为3×3，它表示将相邻4帧中3个相邻的人脸关键点的运动轨迹进行卷积。最后一个卷积层的步长为2，将特征大小从7×7卷积成4×4。整个网络通过4个最大值池化层和最后一个卷积层，特征图的大小减小到其原始大小的1/16。

表1.卷积神经网络结构表

训练卷积神经网络。使用稀疏关联光流特征图训练卷积神经网络。将训练集预处理得到的特征图输入到卷积神经网络中，预测分类结果，并计算其和对应的真假分类标签之间的交互熵作为损失函数。根据损失函数反向传播训练网络参数。

损失函数如上式所示，其中m代表样本数量，x是输入特征，y是真实分类标签，h_θ(x⁽ⁱ⁾)是预测的分类结果，θ是模型训练的参数。

每一轮训练迭代结束后，将验证集的特征图输入到网络中进行预测，得到验证集的准确率。当训练集的准确率收敛或接近收敛，并且验证集的准确率最高时，结束模型的训练，保存此时模型的参数，作为模型的最优参数。

对检测模型的效果进行测试。

首先加载训练好的模型参数，然后对测试集中的140个视频依次进行预测。对于每个视频，先用MTCNN人脸检测算法截取人脸图像，再采用Dlib人脸关键点检测算法在连续69帧中均检测到同一个人面部68个关键点后，才进行后续特征提取和分类预测操作；否则，则放弃本轮，从下一帧图片开始检测连续69帧。

然后，将连续69帧中68个人脸关键点组成坐标矩阵X和Y，并计算其对应的光流矩阵U和V，组合成人脸稀疏关联光流特征图F。

将特征图F输入卷积神经网络中进行预测，输出真假的概率值和预测的标签值。保存本轮预测的标签值和对应的真实标签。

统计整个测试集所有视频多次判决结果总体的准确率。

对测试集所有样本的所有预测标签值和真实标签值进行统计，计算出测试集整体的准确率，每种方法对应的准确率。结果如下表所示：

表2.本实验测试结果

表3是本发明提出的方法和现有最优算法在性能上的比较，比较内容包括使用的计算机资源和训练时间。

表3.不同算法性能比较

本发明在总体准确度上比XceptionNet算法和R3D算法略低。但是，本方法使用的参数最少，GPU占用量最低，训练速度最快。如表3所示，XceptionNet算法和R3D算法的参数是本方法的几十倍，甚至一百多倍。此外，本发明训练时间仅为8分钟，而其他算法则需要几天时间。在训练过程中，本发明使用的GPU内存是其他方法的十分之一。这充分说明了本发明在性能上的优势：训练时间极短，参数量少，占用的GPU资源少。最终在部署在嵌入式平台上时，本发明参数量少的优势将会进一步得到体现，模型对硬件要求低，且检测速度快。

本发明实施例的一种伪造视频检测系统，包括：

系统的实现原理、技术效果与上述方法类似，此处不再赘述。

本发明实施例还提供一种存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现上述任一伪造视频检测方法实施例的技术方案。其实现原理、技术效果与上述方法类似，此处不再赘述。

必须说明的是，上述任一实施例中，方法并不必然按照序号顺序依次执行，只要从执行逻辑中不能推定必然按某一顺序执行，则意味着可以以其他任何可能的顺序执行。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种伪造视频检测方法，其特征在于，包括步骤：

预定义多个关键点，将该多个关键点划分为多个区域；

从待检测视频中提取图像，并在提取的图像上检测关键点；

2.如权利要求1所述的一种伪造视频检测方法，其特征在于，提取的图像为人脸图像，预定义的多个关键点均为面部关键点，将面部关键点划分为左眼、右眼、左眼皮、右眼皮、左眉、右眉、左脸颊、右脸颊、上嘴唇、下嘴唇、鼻子和头部这十二个区域。

3.如权利要求1所述的一种伪造视频检测方法，其特征在于，所述在提取的图像上检测关键点包括步骤：

4.如权利要求3所述的一种伪造视频检测方法，其特征在于，若提取的图像中无法检测到部分关键点，将无法检测到的关键点定义为丢失点，则在关键点检测文件中用预定义的特殊值表示丢失点的坐标值。

5.如权利要求1所述的一种伪造视频检测方法，其特征在于，将关键点数量记为N，若连续的N+1帧图像均检测到关键点，根据N+1帧图像关键点的关联光流值构建稀疏关联光流特征图。

6.如权利要求1所述的一种伪造视频检测方法，其特征在于，计算关键点的光流值以及该关键点所属区域的其他关键点的光流值的加权和，作为关键点的关联光流值。

7.如权利要求2所述的一种伪造视频检测方法，其特征在于，所述稀疏关联光流特征图包含面部表情不一致的特征。

8.如权利要求1所述的一种伪造视频检测方法，其特征在于，所述检测模型基于卷积神经网络实现，包括6个卷积层、4个最大值池化层和3个全连接层，对于每个卷积层，卷积核的大小均为3×3，最后一个卷积层的步长为2。

9.一种伪造视频检测系统，其特征在于，包括：

10.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法。