CN111753782A

CN111753782A - 一种基于双流网络的假脸检测方法、装置及电子设备

Info

Publication number: CN111753782A
Application number: CN202010614502.9A
Authority: CN
Inventors: 不公告发明人
Original assignee: Xi'an Xinxin Information Technology Co ltd
Current assignee: Xi'an Xinxin Information Technology Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-09
Anticipated expiration: 2040-06-30
Also published as: CN111753782B

Abstract

本发明公开了一种基于双流网络的假脸检测方法、装置及电子设备；该方法包括：获取目标视频；以逐帧提取或跳帧提取的方式从目标视频中提取图片，得到多组图片；针对每组图片，根据任一帧图片中的人脸，确定一个人脸截取框；并按照人脸截取框截取该组图片的每帧图片中的人脸，得到一组人脸图像；针对每组人脸图像，将该组人脸图像变换到预设规格，并提取光流特征；将光流特征以及该组人脸图像中的任一帧输入至预先训练完成的双流网络模型，以使双流网络模型输出该组人脸图像中是否存在有假脸的检测结果。本发明可以从视频中有效检测出基于深度伪造攻击的假脸。

Description

一种基于双流网络的假脸检测方法、装置及电子设备

技术领域

本发明属于数字图像处理技术领域，具体涉及一种基于双流网络的假脸检测方法、装置及电子设备。

背景技术

早期的伪造假脸检测方法主要基于对人脸生物特征比如眨眼，眉毛，睫毛等细节特征的异样检测或者对图像分辨率不一致的检测。随着技术的进步，很多基于深度学习的假脸伪造攻击已经可以在细节方面做得很逼真，难以分辨真假。

公开号为CN109815785A的专利文件公开了一种基于双流卷积神经网络的人脸情绪识别方法，该方法将人脸序列分别处理成两种不同分辨率的图像，给每个图像规定一个情绪类别；然后利用两种分辨率的图像分别训练不同的卷积神经网络；最后对这两个卷积神经网络的输出进行加权融合，得到多尺度的人脸表情识别网络模型；该人脸表情识别网络模型训练完成后，给定人脸序列，模型即可输出人脸序列对应的表情。该方法中，主要利用的是图像中的人脸面部表情特征，而基于面部表情特征无法实现假脸检测。

公开号为CN108664922A的专利文件公开了一种基于人身安全的红外视频人体行为识别方法，分别将灰度图片和光流图片送入时空双流网络模型，该时空双流网络模型的两条网络流的基网络相同；然后，将这两条网络流得到的分类结果进行加权求和得到最终的检测结果。该方法主要用于人体行为识别，对于假脸检测来说，检测精度不够。

因此，如何从视频中有效检测出基于深度伪造攻击的假脸，现有技术中尚未有切实可行的解决方案。

发明内容

为了从视频中有效检测出基于深度伪造攻击的假脸，本发明提供了一种基于双流网络的假脸检测方法、装置及电子设备。

本发明要解决的技术问题通过以下技术方案实现：

第一方面，本发明提供了一种基于双流网络的假脸检测方法，所述方法包括：

获取待检测假脸的目标视频；

按照预设的图片分组规格，以逐帧提取或跳帧提取的方式从所述目标视频中提取图片，得到所述目标视频对应的多组图片；

针对每组图片，根据该组图片的任一帧图片中的人脸，确定一个人脸截取框；并按照所确定的人脸截取框，截取该组图片的每帧图片中的人脸，得到该组图片对应的一组人脸图像；其中，所述人脸截取框用于界定人脸图像在所属的图片中所占据的区域；

针对每组人脸图像，将该组人脸图像变换到预设规格，并提取该组人脸图像的光流特征；将提取的光流特征以及该组人脸图像中的任一帧输入至预先训练完成的双流网络模型，以使所述双流网络模型输出该组人脸图像中是否存在有假脸的检测结果；

其中，所述双流网络模型是基于动静态拼接特征来确定每组人脸图像中是否存在有假脸的；所述动静态拼接特征为：对从单帧人脸图像中提取的静态特征以及基于所述光流特征提取的动态特征进行特征打平后拼接得到的图像特征。

可选地，所述根据该组图片的任一帧图片中的人脸，确定一个人脸截取框的步骤，包括：

从该组图片中任选一帧图片，检测该帧图片中的人脸所占据的矩形区域；

利用预设的扩边因子对所述矩形区域进行扩边处理，得到一个人脸截取框。

可选地，所述矩形区域为一正方形区域；

所述利用预设的扩边因子对所述矩形区域进行扩边处理，得到一个人脸截取框的步骤，包括：

根据所述正方形区域的任意两个对角顶点，确定所述正方形区域的中心点；

根据所述两个对角顶点和预设的扩边因子，利用预设的边长计算公式，计算扩边处理后的正方形区域的边长；

根据所述中心点和所计算的边长，确定扩边处理后的正方形区域的像素坐标集合，并将所述像素坐标集合作为一个人脸截取框；

所述边长计算公式如下：

l＝max((y₂-y₁),(x₁-x₂))+max((y₂-y₁),(x₁-x₂))*θ；

其中，x₁和x₂为所述两个对角顶点的横坐标，y₁和y₂为所述两个对角顶点的纵坐标；max((y₂-y₁),(x₁-x₂))代表取(y₂-y₁)和(x₁-x₂)之间的较大值；θ为所述扩边因子，θ∈[0.2,0.5]；l为所计算的边长。

可选地，所述双流网络模型的网络结构包括：时序卷积神经网络层、卷积网络层、特征打平层、全连接层以及softmax层；

其中，所述时序卷积神经网络层的输入端接收所述光流特征；所述卷积网络层的输入端接收所述单帧人脸图像；

所述时序卷积神经网络层的输出端和所述卷积网络层的输出端均连接所述特征打平层的输入端；

所述特征打平层的输出端依次连接所述全连接层和所述softmax层；

所述softmax层输出所述检测结果。

可选地，所述双流网络模型是基于多个训练样本以及每个所述训练样本的标注信息所训练获得的；

所述多个训练样本的构建方式包括：按照所述图片分组规格，以逐帧提取或跳帧提取的方式从一个或多个样本视频中提取多组样本图片；

从所述多组样本图片中任选若干组样本图片，并针对所选取的每组样本图片，按照一种随机选取的图像增广方式对该组样本图片进行图像增广处理；

针对进行过图像增广处理的或未进行过图像增广处理的每组样本图片，根据该组样本图片的任一帧样本图片中的人脸，确定一个人脸截取框，并按照所确定的人脸截取框，截取该组样本图片的每帧样本图片中的人脸，得到该组样本图片对应的一组样本人脸图像；

将每组样本人脸图像变换到所述预设规格，并提取每组样本人脸图像的光流特征；将每组样本人脸图像的光流特征和该组样本人脸图像中的任一帧作为一个训练样本，得到多个训练样本；

其中，每个所述训练样本的标注信息为：构建该训练样本时所使用的一组样本图片是否进行过图像增广处理的信息。

可选地，任一种随机选取的图像增广方式包括：对图像进行jpeg压缩，对图像进行下采样、对图像进行水平翻转或对图像进行竖直翻转。

第二方面，本发明提供了一种基于双流网络的假脸检测装置，所述装置包括：

视频获取模块，用于获取待检测假脸的目标视频；

图片提取模块，用于按照预设的图片分组规格，以逐帧提取或跳帧提取的方式从所述目标视频中提取图片，得到所述目标视频对应的多组图片；

人脸截取模块，用于针对每组图片，根据该组图片的任一帧图片中的人脸，确定一个人脸截取框；并按照所确定的人脸截取框，截取该组图片的每帧图片中的人脸，得到该组图片对应的一组人脸图像；其中，所述人脸截取框用于界定人脸图像在所属的图片中占据的区域；

假脸检测模块，用于针对每组人脸图像，将该组人脸图像变换到预设规格，并提取该组人脸图像的光流特征；将提取的光流特征以及该组人脸图像中的任一帧输入至预先训练完成的双流网络模型，以使所述双流网络模型输出该组人脸图像中是否存在有假脸的检测结果；

可选地，所述人脸截取模块，根据该组图片的任一帧图片中的人脸，确定一个人脸截取框，包括：

可选地，所述矩形区域为一正方形区域；

所述人脸截取模块，利用预设的扩边因子对所述矩形区域进行扩边处理，得到一个人脸截取框，包括：

所述边长计算公式如下：

l＝max((y₂-y₁),(x₁-x₂))+max((y₂-y₁),(x₁-x₂))*θ；

所述softmax层输出所述检测结果。

第三方面，本发明提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一种基于双流网络的假脸检测方法所述的方法步骤。

第四方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种基于双流网络的假脸检测方法所述的方法步骤。

在本发明的又一方面中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一种基于双流网络的假脸检测方法所述的方法步骤。

本发明提供的基于双流网络的假脸检测方法中，从目标视频中提取多组图片后，根据每组图片中的任一帧图片中的人脸，首先确定一个人脸截取框，然后，按照该人脸截取框截取该组图片中的人脸，得到一组人脸图像；这样，相较于按照人脸关键点进行人脸对齐后进而截取人脸图像的方式，保证了人脸的连续性以及人脸部分移动的位移信息，便于保留人脸的动态的特征信息。然后，从每组人脸图像提取动态的光流特征，利用双流网络模型分别从光流特征中提取动态特征以及从该组人脸图像中的任一帧中提取静态特征，并对提取的动态特征和静态特征进行特征打平后，利用打平后的动静态拼接特征，确定该组人脸图像中是否存在有假脸。最后，根据双流网络模型输出的各个检测结果，确定整个目标视频的假脸检测结果。

本发明中，一方面，送入双流网络模型的光流特征更好的保留了人脸的动态的特征信息，从而可以提高双流网络模型检测假脸时的精度；另一方面，相较于现有技术中，利用双流网络模型的两个网络分别进行分类预测，然后将两个网络输出的分类结果进行简单的加权求和的方式，本发明利用双流网络模型的两个网络进行特征提取，然后进行特征打平，基于打平后的动静态拼接特征进行分类预测，输出一组人脸图像中是否存在有假脸的检测结果。因此，本发明输出的检测结果不依赖于人为干预的权重，得到的检测结果更为准确。

综上，本发明可以从视频中有效检测出基于深度伪造攻击的假脸。

以下将结合附图及对本发明做进一步详细说明。

附图说明

图1是本发明实施例提供的一种基于双流网络的假脸检测方法的流程示意图；

图2是本发明实施例提供的双流网络模型的结构示意图；

图3是图2所示双流网络模型中的时序卷积神经网络层的结构示意图；

图4是本发明实施例提供的构建双流网络模型的训练样本的流程示意图；

图5是本发明实施例提供的一种基于双流网络的假脸检测装置的结构示意图；

图6是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述，但本发明的实施方式不限于此。

为了从视频中有效检测出基于深度伪造攻击的假脸，本发明实施例提供了一种基于双流网络的假脸检测方法、装置及电子设备。本发明实施例提供的基于双流网络的假脸检测方法的执行主体，为本发明实施例提供的基于双流网络的假脸检测装置；该装置应用于电子设备中。在具体应用中，该电子设备可以是视频播放设备、计算机、智能移动终端或服务器等，在此不作限定；任何可以应用本发明实施例提供的假脸检测方法的电子设备，均属于本发明实施例的保护范围。

首先，对本发明实施例提供的一种基于双流网络的假脸检测方法进行详细说明，如图1所示，该方法可以包括以下步骤：

S10：获取待检测假脸的目标视频。

该步骤中，目标视频可以通过手动导入的方式进入到假脸检测装置所在的电子设备中；或者，产生目标视频的设备可以与假脸检测装置所在的电子设备相连，此时，目标视频一经产生，即可以直接进入假脸检测装置所在的电子设备中。

S20：按照预设的图片分组规格，以逐帧提取或跳帧提取的方式从目标视频中提取图片，得到目标视频对应的多组图片。

这里所谓的图片分组规格，用于限定一组图片中的图片的个数。可以理解的是，目标视频对应的多组图片，包括了以逐帧提取或跳帧提取的方式从整个目标视频中所能够提取到的全部图片。

在实际应用中，可以合理地设置图片分组规格，以避免提取的一组图片中有的图片有人脸，而有的图片则没有人脸的情况。根据经验，图片分组规格可以优选地设置为5-9帧，这样，一组图片对应到目标视频中的时长仅有零点几秒，可以有效避免一组图片中有的图片有人脸，而有的图片中没有人脸的情况。

在实际应用中，可以通过opencv来从目标视频中提取图片。这里，opencv是一个开源的跨平台计算机视觉库。另外，利用opencv提取的图片格式为BGR，为了避免人脸位置出现差异，还可以将BGR格式的图片转换为RGB格式。

S30：针对每组图片，根据该组图片的任一帧图片中的人脸，确定一个人脸截取框；并按照所确定的人脸截取框，截取该组图片的每帧图片中的人脸，得到该组图片对应的一组人脸图像。

其中，该人脸截取框用于界定人脸图像在所属的图片中所占据的区域。可以理解的是，该人脸截取框实际代表的是图片中一个区域内的所有像素的坐标，即该人脸截取框实际上是一个像素坐标集合。

该步骤中，从每组图片中任选一帧图片，通过检测该帧图片中的人脸所占据的区域，即可确定一个人脸截取框。

在实际应用中，从图片中检测人脸所占据的区域，可以采用facenet-pytorch包中的MTCNN(Multi-task Cascaded Convolutional Networks，多任务卷积神经网络)来实现。这里，facenet-pytorch是一个基于Python语言的库。

S40：针对每组人脸图像，将该组人脸图像变换到预设规格，并提取该组人脸图像的光流特征；将提取的光流特征以及该组人脸图像中的任一帧输入至预先训练完成的双流网络模型，以使双流网络模型输出该组人脸图像中是否存在有假脸的检测结果。

其中，该双流网络模型是基于动静态拼接特征来确定每组人脸图像中是否存在有假脸的；该动静态拼接特征为：对从单帧人脸图像中提取的静态特征以及基于光流特征提取的动态特征进行特征打平后拼接得到的图像特征。

如图2所示，双流网络模型的网络结构可以包括：时序卷积神经网络层、卷积网络层、特征打平层、全连接层以及softmax层。

其中，时序卷积神经网络层的输入端接收光流特征；卷积网络层的输入端接收单帧人脸图像。

时序卷积神经网络层的输出端和卷积网络层的输出端均连接特征打平层的输入端。

特征打平层的输出端依次连接全连接层和softmax层，该softmax层输出每组人脸图像中是否包含有假脸的检测结果。

可以理解的是，该双流网络模型中，时序卷积神经网络层从光流特征中提取动态特征，卷积网络层从单帧的人脸图像中提取静态特征；时序卷积神经网络层输出的动态特征与卷积网络层输出的静态特征的维度相同，故而可以在时序卷积神经网络层和卷积网络层之后连接一个特征打平层，将矩阵形式的动态特征和静态特征打平为矢量形式后拼接在一起，得到动静态拼接特征。然后，使动静态拼接特征依次通过全连接层和softmax层，便可以输出一组人脸图像中是否包含有假脸的检测结果。

在实际应用中，卷积网络可以采用VGG16；时序卷积神经网络的结构可以参见图3。

该步骤S40中，所说的预设规格是与双流网络模型的输入端所匹配的规格。具体的，将人脸图像变换到预设规格指的是，将人脸图像的尺寸变换到搭建双流网络模型时指定的图像尺寸。

另外，在实际应用中，还可以将尺寸变换后的人脸图像进行归一化处理。具体的，通过MTCNN，将人脸图像的RGB三通道均减去127.5后再除128，即可完成归一化处理。

该步骤S40中，提取每组人脸图像的光流特征的过程，具体可以包括：利用GunnarFarneback算法计算每组人脸图像对应的稠密光流。然后，对计算出的稠密光流进行归一化处理，便可以得到提取的光流特征。此处的归一化处理可以通过用矩阵元素减去矩阵元素的平均值的方式来实现。

其中，Gunnar Farneback算法是一种计算全局性的稠密光流算法，计算出的稠密光流具体是一个三维矩阵。计算过程举例说明如下：假设一组人脸图像包括9帧人脸图像，每帧图像的分辨率为224*224；每两个相邻的前后帧可以计算出一个224*224*2的三维矩阵，一共可以计算8个224*224*2三维矩阵；这些三维矩阵中，“224*224”分别与像素的横纵坐标对应，第三维的“2”包括了横坐标所在的x方向的速度矢量以及纵坐标所在的y方向上的速度矢量。这8个224*224*2的三维矩阵即是根据9帧人脸图像所计算出的稠密光流。

然后，8个224*224*2的三维矩阵可以转换为2个224*224*8的三维矩阵，这两个224*224*8的三维矩阵，一个与x方向上的速度矢量对应，另一个与y方向上的速度矢量对应，这两个224*224*8的三维矩阵即是从一组人脸图像中提取的光流特征。

可以理解的是，检测出各组人脸图像中是否存在有假脸，即完成了对整个目标视频的假脸检测。这样，根据每组人脸图像对应的一组图片在目标视频中的位置，便可以定位到假脸出现在目标视频中哪些帧中。

本发明实施例提供的基于双流网络的假脸检测方法中，从目标视频中提取多组图片后，根据每组图片中的任一帧图片中的人脸，首先确定一个人脸截取框，然后，按照该人脸截取框截取该组图片中的人脸，得到一组人脸图像；这样，相较于按照人脸关键点进行人脸对齐后进而截取人脸图像的方式，保证了人脸的连续性以及人脸部分移动的位移信息，便于保留人脸的动态的特征信息。然后，从每组人脸图像提取动态的光流特征，利用双流网络模型分别从光流特征中提取动态特征以及从该组人脸图像中的任一张中提取静态特征，并对提取的动态特征和静态特征进行特征打平后，利用打平后的动静态拼接特征，确定该组人脸图像中是否存在有假脸。最后，根据双流网络模型输出的各个检测结果，确定整个目标视频的假脸检测结果。

本发明实施例中，一方面，送入双流网络模型的光流特征更好的保留了人脸的动态的特征信息，从而可以提高双流网络模型检测假脸时的精度；另一方面，相对于现有技术中，利用双流网络模型的两个网络分别进行分类预测，然后将两个网络输出的分类结果进行简单的加权求和的方式，本发明利用双流网络模型的两个网络进行特征提取，然后进行特征打平，基于打平后的动静态拼接特征进行分类预测，输出一组人脸图像中是否存在有假脸的检测结果。这样，本发明输出的检测结果不依赖于人为干预的权重，得到的检测结果更为准确。因此，本发明实施例可以从视频中有效检测出基于深度伪造攻击的假脸。

可选地，在一种实现方式中，根据每组图片的任一帧图片中的人脸，确定一个人脸截取框的步骤，可以包括：

利用预设的扩边因子对该矩形区域进行扩边处理，得到一个人脸截取框。

其中，当矩形区域为一正方形区域时，利用预设的扩边因子对所述矩形区域进行扩边处理，得到一个人脸截取框的步骤，可以包括：

(1)根据该正方形区域的任意两个对角顶点，确定该正方形区域的中心点；

(2)根据这两个对角顶点和预设的扩边因子，利用预设的边长计算公式，计算扩边处理后的正方形区域的边长；

(3)根据该中心点和所计算的边长，确定扩边处理后的正方形区域的像素坐标集合，并将该像素坐标集合作为一个人脸截取框。

其中，边长计算公式如下：

l＝max((y₂-y₁),(x₁-x₂))+max((y₂-y₁),(x₁-x₂))*θ；

该边长计算公式中，x₁和x₂为正方形区域的两个对角顶点的横坐标，y₁和y₂为这两个对角顶点的纵坐标；max((y₂-y₁),(x₁-x₂))代表取(y₂-y₁)和(x₁-x₂)之间的较大值；θ为扩边因子，θ∈[0.2,0.5]；l为所计算的边长。

相应的，按照步骤(3)所确定的人脸截取框，对每组图片进行人脸截取得到的一组人脸图像faceimg可以表示为：

faceimg＝frame[y_c-(l/2):y_c+(l/2),x_c-(l/2):x_c+(l/2),:]；

其中，x_c和y_c代表正方形区域的中心点的横纵坐标；frame表示用opencv从目标视频中提取的图片；y_c-(l/2):y_c+(l/2)表示从该图片中截取人脸图像时的纵向截取范围，x_c-(l/2):x_c+(l/2)表示从该图片中截取人脸图像时的横向截取范围，方括号中最后的“：”表示上述的横向截取范围和纵向截取范围在该图片的R、G、B三通道中均适用，故而不做限定。

另外，当矩形区域为一长方形区域时，也可以根据长方形区域任意两个对角顶点和预设的扩边因子，利用公式(1)和(2)，计算扩边处理后的长方形区域的长和宽；然后，根据长方形区域的中心点和所计算的长和宽，确定扩边处理后的正方形区域的像素坐标集合，并将该像素坐标集合作为一个人脸截取框。

a＝|x₂-x₁|*(1+θ)(1)；

b＝|y₂-y₁|*(1+θ)(2)；

其中，x₁和x₂为长方形区域的两个对角顶点的横坐标，y₁和y₂为这两个对角顶点的纵坐标；a代表长方形的长，b代表长方形的宽；θ为扩边因子，在公式(1)和公式(2)中，θ可以相同，也可以分别设置。

下面，对训练双流网络模型的过程进行说明。

首先，按照图2和图3所示网络结构搭建待训练的双流网络模型。

然后，构建多个训练样本。如图4所示，构建多个训练样本的过程可以包括：

Sa：按照预设的图片分组规格，以逐帧提取或跳帧提取的方式从一个或多个样本视频中提取多组样本图片。

该步骤中的图片分组规格，与上述步骤S20中所使用的图片分组规格相同。从样本视频中提取多组样本图片的方式也可以参见从目标视频中提取多组图片的方式；区别在于，该步骤Sa中可以从一个或多个样本视频中提取多组样本图片，且无需提取每个样本视频对应的所有组的样本图片，当然，在样本视频的数量有限的情况下，也可以提取每个样本视频对应的所有组的样本图片。

Sb：从多组样本图片中任选若干组样本图片，并针对所选取的每组样本图片，按照一种随机选取的图像增广方式对该组样本图片进行图像增广处理。

可以理解的是，该步骤对选取的若干组样本图片进行图像增广，主要是为了提高双流网络模型的鲁棒性。其中，对于所选取的每组样本图片而言，可以选取的图形增广方式可以包括：对图像进行jpeg压缩，对图像进行下采样、对图像进行水平翻转或对图像进行竖直翻转，当然，并不局限于此。此外，基于图像增广的思路，在步骤Sa中，还可以从已有的包含深度伪造攻击的假脸的视频中提取图片来构建训练样本，从而进一步提高双流网络模型的鲁棒性。

另外，需要说明的是，对于任一组样本图片而言，对这组样本图片中的每一帧均采用相同的一种图像增广方式进行图像增广处理，是为了保留连续帧之间的时序信息或者说微动作信息，从而使训练样本与实际的视频帧相似。

Sc：针对进行过图像增广处理的或未进行过图像增广处理的每组样本图片，根据该组样本图片的任一帧样本图片中的人脸，确定一个人脸截取框，并按照所确定的人脸截取框，截取该组样本图片的每帧样本图片中的人脸，得到该组样本图片对应的一组样本人脸图像。

该步骤中，从每组样本图片截取一组样本人脸图像的实现方式可以参见步骤S30，此处不再赘述。

Sd：将每组样本人脸图像变换到预设规格，并提取每组样本人脸图像的光流特征；将每组样本人脸图像的光流特征和该组样本人脸图像中的任一帧作为一个训练样本，得到多个训练样本。

该步骤中所说的预设规格，与步骤S40中所说的预设规格相同。另外，从每组样本人脸图像中提取光流特征的具体实现方式可以参见对步骤S40的详细描述，这里不再赘述。

在一种优选实现方式中，在构建训练样本时，可以选取每组样本人脸图像的中间帧作为输入到卷积网络中的单帧人脸图像。

然后，构建每个训练样本的标注信息。这里，可以将构建每个训练样本时所使用的一组样本图片是否进行过图像增广处理的信息，作为该训练样本的标注信息。例如，假设构建一训练样本时所使用的一组样本图片进行过图像增广处理，则该将该训练样本的标注信息设置为0，否则，将该训练样本的标注信息设置为1。

构建好多个训练样本和每个训练样本的标注信息后，将每个训练样本输入至预先搭建好的双流网络模型中，得到每个训练样本对应的一组样本人脸图像中包含有假脸的概率；基于得到的概率与该训练样本的标注信息的差异，计算模型损失值；当模型损失值小于预设的阈值时，结束训练，得到训练完成的双流网络模型。否则，调整双流网络模型的模型参数，继续训练。

以上，完成对训练双流网络模型的过程的说明。

相应于上述的一种基于双流网络的假脸检测方法，本发明实施例还提供了一种基于双流网络的假脸检测装置，如图5所示，该装置可以包括：

视频获取模块501，用于获取待检测假脸的目标视频；

图片提取模块502，用于按照预设的图片分组规格，以逐帧提取或跳帧提取的方式从所述目标视频中提取图片，得到所述目标视频对应的多组图片；

人脸截取模块503，用于针对每组图片，根据该组图片的任一帧图片中的人脸，确定一个人脸截取框；并按照所确定的人脸截取框，截取该组图片的每帧图片中的人脸，得到该组图片对应的一组人脸图像；其中，所述人脸截取框用于界定人脸图像在所属的图片中占据的区域；

假脸检测模块504，用于针对每组人脸图像，将该组人脸图像变换到预设规格，并提取该组人脸图像的光流特征；将提取的光流特征以及该组人脸图像中的任一帧输入至预先训练完成的双流网络模型，以使所述双流网络模型输出该组人脸图像中是否存在有假脸的检测结果；

可选地，所述人脸截取模块503，根据该组图片的任一帧图片中的人脸，确定一个人脸截取框，包括：

可选地，所述矩形区域为一正方形区域；

所述人脸截取模块503，利用预设的扩边因子对所述矩形区域进行扩边处理，得到一个人脸截取框，包括：

所述边长计算公式如下：

l＝max((y₂-y₁),(x₁-x₂))+max((y₂-y₁),(x₁-x₂))*θ；

所述softmax层输出所述检测结果。

本发明实施例提供的基于双流网络的假脸检测装置中，一方面，送入双流网络模型的光流特征更好的保留了人脸的动态的特征信息，从而可以提高双流网络模型检测假脸时的精度；另一方面，相对于现有技术中，利用双流网络模型的两个网络分别进行分类预测，然后将两个网络输出的分类结果进行简单的加权求和的方式，本发明利用双流网络模型的两个网络进行特征提取，然后进行特征打平，基于打平后的动静态拼接特征进行分类预测，输出一组人脸图像中是否存在有假脸的检测结果。这样，本发明输出的检测结果不依赖于人为干预的权重，得到的检测结果更为准确。

因此，本发明实施例提供的基于双流网络的假脸检测装置可以从视频中有效检测出基于深度伪造攻击的假脸。

本发明实施例还提供了一种电子设备，如图6所示，包括处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信，

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现上述任一种基于双流网络的假脸检测方法所述的方法步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(PeripheralComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明还提供了一种计算机可读存储介质。在该计算机可读存储介质中存储有计算机程序，计算机程序被处理器执行时，实现上述任一种基于双流网络的假脸检测方法所述的方法步骤。

可选地，该计算机可读存储介质可以为非易失性存储器(Non-Volatile Memory，NVM)，例如为至少一个磁盘存储器。

可选的，所述计算机可读存储器还可以是至少一个位于远离前述处理器的存储装置。

在本发明的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一基于双流网络的假脸检测方法所述的方法步骤。

需要说明的是，对于装置/电子设备/存储介质/计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。

尽管在此结合各实施例对本申请进行了描述，然而，在实施所要求保护的本申请过程中，本领域技术人员通过查看所述附图、公开内容、以及所附权利要求书，可理解并实现所述公开实施例的其他变化。

本申请是参照本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于双流网络的假脸检测方法，其特征在于，所述方法包括：

获取待检测假脸的目标视频；

2.根据权利要求1所述的方法，其特征在于，所述根据该组图片的任一帧图片中的人脸，确定一个人脸截取框的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述矩形区域为一正方形区域；

所述边长计算公式如下：

l＝max((y₂-y₁),(x₁-x₂))+max((y₂-y₁),(x₁-x₂))*θ；

其中，x₁和x₂为所述两个对角顶点的横坐标，y ₁和y ₂为所述两个对角顶点的纵坐标；max((y₂-y₁),(x₁-x₂))代表取(y₂-y₁)和(x₁-x₂)之间的较大值；θ为所述扩边因子，θ∈[0.2,0.5]；l为所计算的边长。

4.根据权利要求1所述的方法，其特征在于，所述双流网络模型的网络结构包括：时序卷积神经网络层、卷积网络层、特征打平层、全连接层以及softmax层；

所述softmax层输出所述检测结果。

5.根据权利要求1或4所述的方法，其特征在于，所述双流网络模型是基于多个训练样本以及每个所述训练样本的标注信息所训练获得的；

6.根据权利要求5所述的方法，其特征在于，任一种随机选取的图像增广方式包括：对图像进行jpeg压缩，对图像进行下采样、对图像进行水平翻转或对图像进行竖直翻转。

7.一种基于双流网络的假脸检测装置，其特征在于，所述装置包括：

视频获取模块，用于获取待检测假脸的目标视频；

8.根据权利要求7所述的装置，其特征在于，所述双流网络模型的网络结构包括：时序卷积神经网络层、卷积网络层、特征打平层、全连接层以及softmax层；

所述softmax层输出所述检测结果。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-6任一项所述的方法步骤。