CN113570564A

CN113570564A - 一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法

Info

Publication number: CN113570564A
Application number: CN202110823054.8A
Authority: CN
Inventors: 赵才荣; 王楚天
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-10-29
Anticipated expiration: 2041-07-21
Also published as: CN113570564B

Abstract

一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法，包括以下步骤：使用OpenCV库，对需要检测的视频逐帧提取帧图像，并由后续步骤进行逐帧识别；使用人脸检测模型，对帧图像进行人脸检测步骤，获取一个或数个包含了人脸及小范围背景信息的图像，称为人脸图像；使用事先训练好的三路卷积神经网络模型，首先对人脸图像进行卷积处理，得到对应的特征后使用全连接神经网络进行预测，得到人脸图像为伪造的概率，最后通过对多路网络的预测结果进行求和处理并对比概率值得到该人脸是否为伪造的标签。本发明主要针对通过对抗生成网络及自编码器生成的伪造图片，使用多路卷积网络进行检测，具备较高的准确率和较好的对抗压缩的鲁棒性。

Description

一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法

技术领域

本发明涉及计算机视觉技术领域，特别涉及伪造人脸视频检测技术。

背景技术

在伪造人脸视频检测的相关领域，目前主要是采用基于卷积神经网络或是循环神经网络的方法。其中，卷积神经网络主要用于单帧级别的检测，基于目标视频帧中人脸图像的纹理特征、边缘特征等伪造特征进行检测；而循环神经网络主要用于视频级别的检测，基于目标视频帧序列中人脸图像的帧间连续性，动作连贯性进行检测。但这些技术对于互联网上广泛传播的经不同程度压缩的低清伪造视频效果不佳，即对抗和压缩的鲁棒性较差。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法。

为解决上述技术问题，本发明提供了如下的技术方案：

S1：使用OpenCV库，对需要检测的视频逐帧提取帧图像，并由后续步骤进行逐帧识别；

S2：使用人脸检测模型，对帧图像进行人脸检测步骤，获取一个或数个包含了人脸及小范围背景信息的图像，称为人脸图像；

S3：使用事先训练好的三路卷积神经网络模型，首先对人脸图像进行卷积处理，得到对应的特征后使用全连接神经网络进行预测，得到人脸图像为伪造的概率。最后通过对多路网络的预测结果进行求和处理并对比概率值得到该人脸是否为伪造的标签。

其中步骤S1中包含以下：

S1.1：实例化OpenCV的VideoCapture类打开目标视频，并调用VideoCapture.read方法读取目标视频中的每一帧；

S1.2：由于OpenCV使用BGR颜色通道顺序，调用Numpy库的transpose方法将视频帧转化为RGB颜色通道；

步骤S2中包含以下：

S2.1：使用人脸检测模型得到每一个目标人脸框在视频帧中的左上和右下顶点坐标(x1,y1)，(x2,y2)；

S2.2：基于坐标点裁剪视频帧，得到包含了目标人脸和部分背景的图像，称为人脸图像；

S2.3：将人脸图像伸缩为300×300大小，以便输入检测模型；

步骤S3的卷积网络具备以下特征：

S3.1：网络包含三个分支，在训练时分别使用原始人脸图像、2×2切块打乱及3×3切块打乱的人脸图像进行训练；

S3.2：网络包含了一个拼图求解模块，该模块将人脸随机打乱的模式视为一个需要求解的拼图，并使用1×1卷积网络预测该打乱模式，该预测结果的损失被用作对抗损失训练骨干网络；

S3.3：网络在训练时每次迭代同时输入人脸图像的高清及低清版本，两者经过骨干网络计算得到的特征图基于知识蒸馏计算蒸馏损失并进行训练；

S3.4：网络包含了一个清晰度预测模块，该模块基于图像经过骨干网络的特征向量预测该特征向量来自的人脸图像为高清或低清版本，该预测结果与真实结果的交叉熵损失作为对抗损失训练骨干网络。

S3.5：输入骨干卷积网络对进行打乱后的图片提取特征并由后续全连接网络输出真伪判别结果。

与现有技术相比，本发明的有益效果如下：

1.本发明的核心的创新性工作模块为三分支的卷积网络模块，是本发明的检测性能优于其他技术的根本所在；

2.本发明算法中针对多种清晰度的，使用对抗生成网络或自编码器生成的伪造人脸视频进行检测，具备对不同压缩程度的伪造视频的鲁棒性和较高的准确率，这是其他技术所不具备的。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1.基于多路卷积神经网络的伪造人脸图像的检测方法的流程图

图2.视频帧获取流程

图3.人脸检测模型

图4.多路卷积网络结构

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

如图1-图4所示，本发明提供一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法，包括以下步骤：

其中步骤S1中包含以下：

步骤S2中包含以下：

S2.3：将人脸图像伸缩为300×300大小，以便输入步骤S3中的三路卷积神经网络模型用于检测；

步骤S3构造网络及训练算法过程，所述网络包括三路卷积神经网络模型和全连接网络：

S3.1：三路卷积神经网络模型，其网络包含三个分支，为三个骨干卷积网络，在训练时分别使用1×1原始人脸图像、2×2切块打乱的人脸图像及3×3切块打乱的人脸图像进行训练；

S3.2：网络还包含了一个拼图求解模块，该模块将人脸随机打乱的模式视为一个需要求解的拼图，并使用由1×1卷积核构成的卷积层预测该打乱模式，该预测结果的损失被用作对抗损失训练骨干卷积网络；

S3.3：网络在训练时每次迭代同时输入人脸图像的高清及低清版本，两者经过2×2切块打乱的人脸图像及3×3切块打乱的人脸图像两种骨干卷积网络计算得到的特征图基于知识蒸馏计算蒸馏损失并进行训练；

S3.4：网络还包含了一个清晰度预测模块，骨干卷积网络该模块以人脸图像经过骨干卷积网络处理后得到的特征向量作为输入，预测其为高清版本的人脸图像生成的特征向量或是由低清版本的人脸图像生成的特征向量，该预测结果与真实值的交叉熵损失作为对抗损失训练骨干卷积网络；

实施例提供的基于三路卷积网络的多清晰度伪造人脸视频的检测方法，将人脸视频是否为伪造看成是一个二元分类问题，提出一种采用三路卷积神经网络预测每一个视频帧的人脸图像是否经过伪造的概率，并最终确定整个视频是否为伪造视频。具体实施时，由于一个视频中可能包含多个人脸，因此可以通过单独计算每一个人脸在视频中的真伪预测结果，判断每一个人脸分别为真实人脸或是伪造人脸。

图1是根据一示例性实施例示出的基于多路卷积神经网络的伪造人脸图像的检测方法的流程图，参照图1所示，该方法包括如下步骤：

具体的，对视频的帧进行提取是后续操作的基础。本发明所采用的是帧级别的伪造人脸检测，因此对于经过视频编码技术压缩得到的视频需要先提取出每一帧得到RGB数据才能够由后续步骤处理。

图2是根据一示例性实施例示出的基于OpenCV开源库的视频帧获取流程，对需要检测的视频进行逐帧读取，并获处理得到对应的RGB数据，其包括如下步骤：

本发明实施例中，作为一种较优的实施方式，步骤S1.1中所使用的视频解码库为OpenCV开源库。在其他实施例中，也可采用FFmpeg等其他视频解码工具。

具体的，对待检测的视频帧进行人脸区域提取是一个非常重要的过程。若直接对未经处理的原始视频帧进行检测，由于视频帧中往往包含其他物体和大量背景信息的无关信息，检测模型难以提取到关键伪造特征，导致检测性能下降。

图3是根据一示例性实施例示出的人脸检测模型，对需要检测的视频帧进行人脸检测并截取包含人脸及周围小范围的背景区域人脸图像的流程图，参照图3所示，其包括如下步骤：

具体的，步骤S2.1中所采用的人脸检测模块为face_recognition这一python开源库。该开源库主要使用Dlib库中的人脸检测模型对人脸中的关键点进行检测，从而实现对图像中的人脸进行定位。具体的，Dlib库中的人脸检测模型本身会对人脸图像中的68个人脸关键点进行检测，给出这68个关键点的坐标信息，并同时给出人脸包围框的坐标信息。在本实施例中，仅采用包围框坐标信息对原始视频帧进行裁剪得到人脸图像。

具体的，视频帧在本实施例中的存储形式为Numpy数组，因此仅需利用包围框坐标信息对数组的元素进行范围选择即可得到目标范围内的人脸图像。

S2.3：将人脸图像伸缩为300×300大小，以便输入检测模型；

具体的，由于本实施例中的多路卷积网络模型是以Xception网络作为基础，该网络采用较大的输入图像大小，且较大的输入图像大小对检测性能的提升有益，因此采用OpenCV的双线性插值法对原始输入图像进行拉伸得到300×300的图像。

具体的，步骤S3中的三路卷积网络模型是通过预训练步骤得到的。预训练通过利用大规模数据集，利用梯度下降法进行模型的参数更新。其中，数据集是指包括真实人脸视频及利用对抗生成网络或自编码器生成的伪造人脸视频组成的集合。具体的，本实施例中采用的是FaceForensics++数据集，该数据集中的真实人脸视频和伪造人脸视频的比例大致为1:4。在获取数据集后，将其划分为训练集、验证集和测试集三个部分，比例大致为72:14:14。随后，将数据集按照步骤S1和S2处理得到人脸图像，输入到包含一定预设参数的初始模型后，通过计算多个损失函数，使用梯度下降法进行模型的参数更新。更新参数后的模型即为最终具体实施过程中采用的模型。

图4是根据一示例性实施例示出的多路卷积网络结构。其包括以下特征：

S3.1：网络包含三个分支，在训练时分别使用1×1原始人脸图像、2×2切块打乱及3×3切块打乱的人脸图像进行训练；

具体的，由于伪造人脸的检测主要关注图像的纹理信息，本实施例中的卷积网络在进行训练时使用切块打乱的方法以摧毁图像的结构信息，从而使得网络关注纹理信息。本实施例中，作为一种较优的实施方式，特征S3.1中的打乱方式为1×1(即不打乱)，2×2(打乱)以及3×3(打乱)；

S3.2：网络包含了一个拼图求解模块，该模块将随机打乱的2×2切块打乱及3×3切块模式视为一个需要求解的拼图，并使用1×1骨干卷积网络预测该打乱模式，该预测结果的损失被用作对抗损失训练骨干卷积网络；

具体的，基于拼图预测对抗损失的方法能够提升网络提取图像纹理特征的能力，对于伪造人脸检测效果的提升具有较好的效果。具体的，为保证图像尽可能地被打乱，本实施例采取计算打乱模式混乱度的方法进行控制。具体的，将打乱模式表示为3维张量M∈{1,2,…,N}^2×N×N，其中N代表图像被切分为N×N块，M中的每一个元素M_x,y＝[i,j]^T代表原本位置在[x,y]处的图像块被移动到了[i,j]位置。则打乱模式M对应的混乱度D(M)的计算方法如下式所示

作为一种较优的实施方式，本实施例中只采用混乱度高于平均值的打乱模式以确保打乱效果。

进行打乱后的图片将输入骨干卷积网络提取特征并由后续全连接网络输出真伪判别结果。此外，本实施例设计了一个采用1×1卷积核的卷积神经网络，称为拼图求解模块，该模块根据骨干网络对对应打乱图像提取的特征预测图像的打乱模式，预测结果可以公式化地表述为：

其中

代表图像I经过N×N打乱后由骨干卷积网络

提取的，经N×N切块打乱步骤ψ_N处理的图像I，在经全局平均池化(Global Average Pooling，GAP)前的特征图。

为第N路网络分支对应的拼图求解模块，其网络可训练参数为θ_s。根据该预测结果P与真实打乱模式M，本实施例采用以下拼图预测损失进行对抗训练：

具体的，对抗训练的方法为求解以下最优化问题：

其中，λ_jig代表拼图预测损失占总损失函数的权重，θ_d代表骨干卷积网络的可训练参数。

通过这一最优化问题的求解，骨干卷积网络将忽视用以求解拼图打乱模式的高层语义信息，因而能够更加有效地关注作为伪造视频识别关键的纹理信息，有助于检测能力的提升。

具体的，由于低清视频相比高清视频经过压缩，其包含的有效信息量降低，但其用以判断伪造的特征不变，因此可使用高清视频的特征监督低清视频的特征，即采用知识蒸馏的方法，该蒸馏损失的计算公式如下：

其中

和

分别高清版本人脸图像I_H和低清版本人脸图像I_L经过骨干网络提取特征并GAP处理后的特征向量。通过最小化该损失，骨干卷积网络能够对低清版本的图像提取更加有效的特征，有助于检测能力的提升。

具体的，由于高清版本的人脸图像及低清版本的人脸图像可视作来自于两个不同的域，因而存在域间差异，这一域间差异也在一定程度上对检测网络在多种清晰度视频上的表现造成了负面影响。S3.4中所提及的清晰度预测模块及相关对抗损失训练是为解决这一问题而设计。具体的，定义包含可训练参数θ_c的清晰度预测模块

其对N×N切块打乱的图像ψ_N(I)预测结果为

其中

代表图像经骨干网络提取特征并进行全局平均池化的特征向量，结果为一二分类结果，即高清或低清。则由该预测结果，结合真实清晰度标签c，由交叉熵损失得到清晰度预测损失：

在本实施例中，该损失作为对抗损失训练骨干卷积网络，即求解以下最优化问题：

其中，λ_jig代表清晰度预测损失占总损失函数的权重。

通过这一最优化问题的求解，骨干网络尽可能得忽视由压缩所带来的特异性特征以缩小提取特征向量的域间差异，进而能够帮助网络减少无关信息的学习，提升对伪造视频的分类性能。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法，其特征在于，包括以下步骤：

S3：使用事先训练好的三路卷积神经网络模型，首先对人脸图像进行卷积处理，得到对应的特征后使用全连接神经网络进行预测，得到人脸图像为伪造的概率，最后通过对多路网络的预测结果进行求和处理并对比概率值得到该人脸是否为伪造的标签。

2.根据权利要求1所述的一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法，其特征在于，步骤S3构造网络及训练算法过程；所述网络包括三路卷积神经网络模型和全连接网络，算法过程具体为：

3.根据权利要求2所述的一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法，其特征在于，所述的S3.2,采取计算打乱模式混乱度的方法进行控制，具体的，将打乱模式表示为3维张量M∈{1,2,…,N}^2×N×N，其中N代表图像被切分为N×N块，M中的每一个元素M_x,y＝[i,j]^T代表原本位置在[x,y]处的图像块被移动到了[i,j]位置，则打乱模式M对应的混乱度D(M)的计算方法如下式所示

4.根据权利要求2所述的一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法，其特征在于，所述的S3.2,采用以下拼图预测损失进行对抗训练：

具体的，对抗训练的方法为求解以下最优化问题：

5.根据权利要求2所述的一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法，其特征在于，所述的S3.3,网络在训练时每次迭代同时输入人脸图像的高清及低清版本，两者经过骨干网络计算得到的特征图基于知识蒸馏计算蒸馏损失并进行训练；该蒸馏损失的计算公式如下：

其中

和

分别高清版本人脸图像I_H和低清版本人脸图像I_L经过骨干网络提取特征并GAP处理后的特征向量。

6.根据权利要求2所述的一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法，其特征在于，所述的S3.4，该损失作为对抗损失训练骨干卷积网络，即求解以下最优化问题：

其中，λ_jig代表清晰度预测损失占总损失函数的权重。