CN111444881B

CN111444881B - 伪造人脸视频检测方法和装置

Info

Publication number: CN111444881B
Application number: CN202010287064.XA
Authority: CN
Inventors: 李硕豪; 张军; 周浩; 蒋林承; 雷军
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-12-25
Anticipated expiration: 2040-04-13
Also published as: CN111444881A

Abstract

本申请涉及一种伪造人脸视频检测方法和装置。所述方法包括：从视频数据中提取视频帧序列，将视频帧序列输入预先训练的残差神经网络，提取视频帧序列对应的残差特征，将视频帧序列输入预先训练的边缘纹理神经网络，提取视频帧序列中的边缘纹理特征，将残差特征和所述边缘纹理特征进行特征融合，得到融合特征，将融合特征输入预先训练的二分类卷积神经网络，输出是否为伪造人脸的检测结果。采用本方法能够提高伪造人脸检测的准确率。

Description

伪造人脸视频检测方法和装置

技术领域

本申请涉及深度学习技术领域，特别是涉及一种伪造人脸视频检测方法和装置。

背景技术

深度伪造人脸是利用生成对抗网络或者卷积神经网络等算法将目标对象的面部从源图像中转移到被模仿对象的视频上。随着人工智能算法的不断演进和用于深度伪造的真实数据越来越多，深度伪造产品只需要很少的训练就能实现大规模、自动化的面部交换，其逼真程度越来越高。在这些假视频中能够让人说现实中没有说过的话、做现实中没有做过的事，达到以假乱真的程度，冲击着人们“眼见为实”的传统认知。虽然深度伪造技术可以为商业发展、影视创作、医疗行业等领域提供了新的发展空间，但鉴于其以假乱真的技术本质，深度伪造人脸技术对于国家安全将带来巨大挑战，所以自动检测视频中的深度伪造人脸意义重大。然而，与传统的人工修图不同，深度伪造人脸基本上可以做到了无痕迹，视频中深度伪造人脸的智能检测仍然存在诸多需要攻克的技术难点。

现有的深度伪造人脸视频检测方法可以通过五官、眨眼频率等细微特征将伪造人脸分辨出来，加州大学伯克利分校和南加州大学的研究团队设计一种软生物识别模型对深度伪造人脸的细微变化进行识别，见文献[Agarwal S，Farid H，Gu Y，et al.‘Protectingworld leaders against deep fakes’，Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2019，pp.38-45.]。随着深度伪造技术的不断迭代和演化，从2017年深度伪造技术刚诞生时用的卷积神经网络到现在最新的生成对抗网络，无论是实现智能“换脸”的计算能力还是逼真程度都有了很大提升，这类通过五官细节来判断伪造人脸的方法已经基本失效。

发明内容

基于此，有必要针对上述技术问题，提供一种能够解决通过五官进行伪造人脸识别准确性差问题的伪造人脸视频检测方法和装置。

一种伪造人脸视频检测方法，所述方法包括：

从视频数据中提取视频帧序列；

将所述视频帧序列输入预先训练的残差神经网络，提取所述视频帧序列对应的残差特征；

将所述视频帧序列输入预先训练的边缘纹理神经网络，提取所述视频帧序列中的边缘纹理特征；

将所述残差特征和所述边缘纹理特征进行特征融合，得到融合特征；

将所述融合特征输入预先训练的二分类卷积神经网络，输出是否为伪造人脸的检测结果。

在其中一个实施例中，还包括：设置帧提取的帧间隔以及提取的视频帧数量；以所述帧间隔，从所述视频数据中提取所述视频帧数量的视频帧，得到视频帧序列。

在其中一个实施例中，还包括：将所述视频帧序列输入预先训练的残差神经网络，提取所述视频帧序列对应的残差特征；所述残差特征为二维特征矩阵序列；所述二维特征矩阵序列的大小与所述视频帧序列相同。

在其中一个实施例中，还包括：将所述视频帧序列输入预先训练的边缘纹理神经网络，分别对所述视频帧序列进行卷积和下采样操作，得到深度特征；对所述深度特征分别进行卷积和上采样操作，得到人脸边缘的边缘纹理特征；其中，上采样和下采样均是通过采样窗口实现。

在其中一个实施例中，所述残差特征和所述边缘纹理特征均为二维矩阵；还包括：将所述残差特征和所述边缘纹理特征进行特征融合，得到融合特征，包括：将所述残差特征的二维矩阵和所述边缘纹理特征的二维矩阵进行融合，得到融合特征；所述融合特征为三维矩阵。

在其中一个实施例中，还包括：当所述视频帧序列中的视频帧为灰度图像时，将所述视频帧序列进行复制操作，得到RGB三通道的视频帧序列。

在其中一个实施例中，还包括：将所述残差神经网络、所述边缘纹理神经网络以及所述二分类卷积神经网络整合为统一分类框架；对所述统一分类框架中的残差神经网络在预先设置的数据集上进行预训练，以及对所述统一分类框架中的边缘纹理神经网络在预先设置的数据集上进行预训练；根据目标函数采用梯度下降方式对预训练的统一分类框架进行训练，得到训练后的统一分类框架：

其中，W＝{W₁，W₂，W₃}，W₁表示残差网络参数，W₂表示边缘纹理神经网络参数，W₃表示二分类卷积神经网络参数，W^*表示参数W的最优值，J_i∈{0，1}表示识别真伪结果，X＝{V_i，L_i}表示训练数据集，V_i表示第i个视频，L_i为其对应的标签。

一种伪造人脸视频检测装置，所述装置包括：

帧提取模块，用于从视频数据中提取视频帧序列；

残差特征提取模块，用于将所述视频帧序列输入预先训练的残差神经网络，提取所述视频帧序列对应的残差特征；

纹理特征提取模块，将所述视频帧序列输入预先训练的边缘纹理神经网络，提取所述视频帧序列中的边缘纹理特征；

融合模块，用于将所述残差特征和所述边缘纹理特征进行特征融合，得到融合特征；

分类模块，用于将所述融合特征输入预先训练的二分类卷积神经网络，输出是否为伪造人脸的检测结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

从视频数据中提取视频帧序列；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

从视频数据中提取视频帧序列；

上述伪造人脸视频检测方法、装置、计算机设备和存储介质，提出的方法不受深度伪造算法迭代和演化的影响，能够利用换脸后必然出现的噪声变化和边缘纹理变化准确判定视频真伪，残差特征和纹理特征均为深度神经网络自动提取，改善了传统方法利用人工设计的特征提取器不能有效提取特征的情况。另外，利用融合之后的特征进行人脸检测，可以显著的提高伪造人脸检测的准确率。

附图说明

图1为一个实施例中伪造人脸视频检测方法的流程示意图；

图2为一个实施例中残差神经网络的处理流程示意图；

图3为一个实施例中边缘纹理神经网络的处理流程示意图；

图4为一个实施例中二分类卷积神经网络的处理流程示意图；

图5为一个实施例中统一分类框架的处理流程示意图；

图6为一个实施例中伪造人脸视频检测装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种伪造人脸视频检测方法，包括以下步骤：

步骤102，从视频数据中提取视频帧序列。

视频数据可以是包含人脸的视频，人脸可以是伪造人脸也可以是真实人脸。视频是由一帧帧图像组成，可以提取视频数据中的指定视频帧，然后得到视频帧序列。

步骤104，将视频帧序列输入预先训练的残差神经网络，提取视频帧序列对应的残差特征。

残差神经网络是一种卷积神经网络，通过数据集对残差神经网络进行训练，使得残差神经网络可以自动的识别视频帧序列中的参数，从而提取出视频帧序列中的残差特征。

残差特征，也称之为噪声特征，换脸后的视频帧的噪声分布必然与真实人脸的视频帧的噪声分布不同。

步骤106，将视频帧序列输入预先训练的边缘纹理神经网络，提取视频帧序列中的边缘纹理特征。

边缘纹理神经网络也是一种卷积神经网络，在换脸后，人脸与背景的交界处往往会出现细微的锯齿变化，通过训练好的边缘纹理神经网络，可以自动的识别该锯齿变化，从而提取得到边缘纹理特征。

步骤108，将残差特征和边缘纹理特征进行特征融合，得到融合特征。

融合的方式可以是拼接、叠加等，融合后的特征具备这两个特征中的信息，从而可以提高分类时的准确性。

步骤110，将融合特征输入预先训练的二分类卷积神经网络，输出是否为伪造人脸的检测结果。

二分类卷积神经网络可以输出两种结果，即视频为真实人脸的结果和视频为伪造人脸的结果。

上述伪造人脸视频检测方法中，提出的方法不受深度伪造算法迭代和演化的影响，能够利用换脸后必然出现的噪声变化和边缘纹理变化准确判定视频真伪，残差特征和纹理特征均为深度神经网络自动提取，改善了传统方法利用人工设计的特征提取器不能有效提取特征的情况。另外，利用融合之后的特征进行人脸检测，可以显著的提高伪造人脸检测的准确率。

在其中一个实施例中，提取视频帧序列的步骤包括：设置帧提取的帧间隔以及提取的视频帧数量，以帧间隔，从视频数据中提取视频帧数量的视频帧，得到视频帧序列。通过设置帧提取的规则，在接收到视频数据后，可以自动的提取视频帧序列。

在具体操作时，首先读取视频的基本信息，包括：视频总时长T，帧率F，那么可以得到视频帧的总帧数为N＝T×F，设置帧间隔为30帧，连续读取10帧，如果总帧数小于300帧，则将最后一帧视频帧进行复制操作，直至有10帧视频帧构成视频帧序列，如果视频帧总帧数大于300，则只考虑前300帧，最后得到的视频帧序列可以记作I＝{I₁，I₂，…I₁₀}。

在其中一个实施例中，残差特征提取的具体步骤包括：将视频帧序列输入预先训练的残差神经网络，提取视频帧序列对应的残差特征，残差特征为二维特征矩阵序列，二维特征矩阵序列的大小与视频帧序列相同。

具体的，为了实现二维特征矩阵输出，残差神经网络的结构如图2所示，从输入到输出依次为：卷积层1、激活层1、卷积层2、批量标准化层2、激活层2、卷积层3、批量标准化层3、激活层3、卷积层4、批量标准化层4、激活层4、卷积层5、批量标准化层5、激活层5组成、卷积层6、批量标准化层6、激活层6、卷积层7、批量标准化层7、激活层7、卷积层8、批量标准化层8、激活层8、卷积层9、批量标准化层9、激活层9、卷积层10、批量标准化层10、激活层10、卷积层11组成。其中卷积层的参数按照卷积核大小、通道数目、滑动间隔和扩充大小的顺序依次为：(3，3，1，1)，(3，64，1，1)，(3，64，1，1)，(3，128，1，1)，(3，128，1，1)，(3，256，1，1)，(3，256，1，1)，(3，128，1，1)，(3，128，1，1)，(3，64，1，1)，(3，1，1，1)。批量标准化层的目的是调整中间结果数据的分布，没有参数。激活函数层目的是非线性化中间结果，采用ReLU(Rectified Linear Units)函数，残差网络中，激活层4的输出和激活层8的输出相加后同时作为卷积层9的输入，形成残差操作，激活层5的输出和激活层9的输出相加后同时作为卷积层10的输入，形成残差操作，激活层3的输出和激活层10的输出相加后同时作为卷积层11的输入，形成残差操作。视频帧在输入到卷积神经网络之前将其分辨率调整为227×227×3，其中227是指视频帧调整过后的长和高，3是指RGB三个通道，则残差神经网络输出的二维矩阵r_i大小为227×227，r_i就是输入视频帧的残差特征。最后，依次对视频帧序列中的视频帧进行特征提取，得到视频残差特征序列，表示为：R＝{r₁，r₂，…r₁₀}，其中

值得说明的是，分辨率可以根据任务需求自行设置，不限制与227。另外，也不限制与RGB的三通道，也可以是YUV的三通道，具体根据实际需求确定。

在其中一个实施例中，提取边缘纹理特征的步骤包括：将视频帧序列输入预先训练的边缘纹理神经网络，分别对视频帧序列进行卷积和下采样操作，得到深度特征；对深度特征分别进行卷积和上采样操作，得到人脸边缘的边缘纹理特征；其中，上采样和下采样均是通过采样窗口实现。

具体的，边缘纹理神经网络可以是深度神经网络中的编解码卷积神经网络，将编解码卷积神经网络的输出作为特征提取的结果。编解码卷积神经网络分为两个部分：编码部分和解码部分。编码部分是通过卷积和下采样操作形成深度特征，解码部分是通过卷积和上采样操作得到人脸边缘纹理特征。

具体的，如图3所示，编码部分依次由：卷积层1、批量标准化层1、激活层1、卷积层2、批量标准化层2、激活层2、下采样层2、卷积层3、批量标准化层3、激活层3、卷积层4、批量标准化层4、激活层4、下采样层4、卷积层5、批量标准化层5、激活层5、卷积层6、批量标准化层6、激活层6、卷积层7、批量标准化层7、激活层7、下采样层7、卷积层8、批量标准化层8、激活层8、卷积层9、批量标准化层9、激活层9、卷积层10、批量标准化层10、激活层10、下采样层10组成。其中卷积层的参数按照卷积核大小、通道数目、滑动间隔和扩充大小的顺序依次为：(3，64，1，1)，(3，64，1，1)，(3，128，1，1)，(3，128，1，1)，(3，256，1，1)，(3，256，1，1)，(3，256，1，1)，(3，512，1，1)，(3，512，1，1)，(3，512，1，1)。批量标准化层的目的是调整中间结果数据的分布，没有参数。激活函数层目的是非线性化中间结果，采用ReLU函数。下采样层的窗口统一为2×2，采用最大池化操作(max-pooling)。解码部分依次由：上采样层1、卷积层1、批量标准化层1、激活层1、卷积层2、批量标准化层2、激活层2、卷积层3、批量标准化层3、激活层3、上采样层4、卷积层4、批量标准化层4、激活层4、卷积层5、批量标准化层5、激活层5、卷积层6、批量标准化层6、激活层6、上采样层7、卷积层7、批量标准化层7、激活层7、卷积层8、批量标准化层8、激活层8、上采样层9、卷积层9、批量标准化层9、激活层9、卷积层10、批量标准化层10、激活层10、softmax层组成。其中卷积层的参数按照卷积核大小、通道数目、滑动间隔和扩充大小的顺序依次为：(3，512，1，1)，(3，512，1，1)，(3，512，1，1)，(3，256，1，1)，(3，256，1，1)，(3，256，1，1)，(3，128，1，1)，(3，128，1，1)，(3，64，1，1)，(3，1，1，1)。其中，上采样层窗口大小为2×2，在窗口中，不为零的位置与下采样时的位置相同，且不为零位置的数值与下采样的值也相同，窗口中其余三个位置值为0。softmax层输出0和1的二维矩阵，0表示无显著边缘纹理，1表示显著边缘纹理特征。视频帧在输入到编解码卷积神经网络之前将其分辨率调整为227×227×3，则网络输出的二维矩阵e_i大小为227×227，e_i就是输入视频帧的人脸边缘纹理特征。最后，依次对视频帧序列中的视频帧进行特征提取，得到人脸边缘纹理特征序列，表示为：E＝{e₁，e₂，…e₁₀}，其中e_i∈bool^227×227。值得说明的是，分辨率可以根据任务需求自行设置，不限制与227。另外，也不限制与RGB的三通道，也可以是YUV的三通道，具体根据实际需求确定。

在其中一个实施例中，残差特征和边缘纹理特征均为二维矩阵，特征融合的具体步骤为：将残差特征的二维矩阵和边缘纹理特征的二维矩阵进行融合，得到融合特征；融合特征为三维矩阵。

具体的，将残差特征序列和人脸边缘纹理特征序列进行融合，得到融合后的特征F，融合过程可以表示为：

F＝<r₁，r₂，…，r₁₀，e₁，e₂，…e₁₀>

其中<，>表示连接(concat)操作。在将20个二维矩阵连接之后，就会形成一个三维矩阵，所以

在其中一个实施例中，当视频帧序列中的视频帧为灰度图像时，将视频帧序列进行复制操作，得到RGB三通道的视频帧序列。通过上述方式，可以实现对灰度图像的检测。

在其中一个实施例中，二分类卷积神经网络可以采用具有二分类功能的卷积神经网络。

应用在上述具体实施例中，如图4所示，二分类卷积神经网络从输入到输出依次由：卷积层1、批量标准化层1、激活层1、卷积层2、批量标准化层2、激活层2、卷积层3、批量标准化层3、激活层3、下采样层3、卷积层4、批量标准化层4、激活层4、卷积层5、批量标准化层5、激活层5、卷积层6、批量标准化层6、激活层6、下采样层6，卷积层7、批量标准化层7、激活层7、下采样层7、卷积层8、批量标准化层8、激活层8、下采样层8、全连接层9，全连接层10、softmax层组成。其中卷积层的参数按照卷积核大小、通道数目、滑动间隔和扩充大小的顺序依次为：(3，64，1，1)，(3，64，1，1)，(3，64，1，1)，(3，128，1，1)，(3，128，1，1)，(3，128，1，1)，(3，256，1，1)，(3，512，1，1)。下采样层为窗口为的最大池化操作。全连接层9的神经元节点数为1024，全连接层10的神经元节点数为1。softmax层对全连接层10的输出进行分类得到0或者1，0表示视频为伪造，1表示视频是真实的。

在其中一个实施例中，网络的训练步骤如下：对统一分类框架中的残差神经网络在预先设置的数据集上进行预训练，以及对统一分类框架中的边缘纹理神经网络在预先设置的数据集上进行预训练；根据目标函数采用梯度下降方式对预训练的统一分类框架进行训练，得到训练后的统一分类框架：

具体的，统一分类框架如图5所示，将深度伪造人脸视频智能检测问题分为视频帧提取、残差特征提取、人脸边缘纹理特征提取、特征融合与分类四个步骤。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种伪造人脸视频检测装置，包括：帧提取模块602、残差特征提取模块604、纹理特征提取模块606、融合模块608和分类模块610，其中：

帧提取模块602，用于从视频数据中提取视频帧序列；

残差特征提取模块604，用于将所述视频帧序列输入预先训练的残差神经网络，提取所述视频帧序列对应的残差特征；

纹理特征提取模块606，将所述视频帧序列输入预先训练的边缘纹理神经网络，提取所述视频帧序列中的边缘纹理特征；

融合模块608，用于将所述残差特征和所述边缘纹理特征进行特征融合，得到融合特征；

分类模块610，用于将所述融合特征输入预先训练的二分类卷积神经网络，输出是否为伪造人脸的检测结果。

在其中一个实施例中，帧提取模块602还用于设置帧提取的帧间隔以及提取的视频帧数量；以所述帧间隔，从所述视频数据中提取所述视频帧数量的视频帧，得到视频帧序列。

在其中一个实施例中，残差特征提取模块604还用于将所述视频帧序列输入预先训练的残差神经网络，提取所述视频帧序列对应的残差特征；所述残差特征为二维特征矩阵序列；所述二维特征矩阵序列的大小与所述视频帧序列相同。

在其中一个实施例中，纹理特征提取模块606还用于将所述视频帧序列输入预先训练的边缘纹理神经网络，分别对所述视频帧序列进行卷积和下采样操作，得到深度特征；对所述深度特征分别进行卷积和上采样操作，得到人脸边缘的边缘纹理特征；其中，上采样和下采样均是通过采样窗口实现。

在其中一个实施例中，所述残差特征和所述边缘纹理特征均为二维矩阵；融合模块608还用于将所述残差特征的二维矩阵和所述边缘纹理特征的二维矩阵进行融合，得到融合特征；所述融合特征为三维矩阵。

在其中一个实施例中，残差特征提取模块604还用于当所述视频帧序列中的视频帧为灰度图像时，将所述视频帧序列进行复制操作，得到RGB三通道的视频帧序列。

在其中一个实施例中，还包括：训练模块，用于将所述残差神经网络、所述边缘纹理神经网络以及所述二分类卷积神经网络整合为统一分类框架；对所述统一分类框架中的残差神经网络在预先设置的数据集上进行预训练，以及对所述统一分类框架中的边缘纹理神经网络在预先设置的数据集上进行预训练；根据目标函数采用梯度下降方式对预训练的统一分类框架进行训练，得到训练后的统一分类框架：

关于伪造人脸视频检测装置的具体限定可以参见上文中对于伪造人脸视频检测方法的限定，在此不再赘述。上述伪造人脸视频检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种伪造人脸视频检测方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述实施例中方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种伪造人脸视频检测方法，所述方法包括：

从视频数据中提取视频帧序列；

将所述视频帧序列输入预先训练的残差神经网络，提取所述视频帧序列对应的残差特征；所述残差特征表示噪声特征，所述噪声特征用于确定所述视频帧序列中的噪声分布；

2.根据权利要求1所述的方法，其特征在于，所述从视频数据中提取视频帧序列，包括：

设置帧提取的帧间隔以及提取的视频帧数量；

以所述帧间隔，从所述视频数据中提取所述视频帧数量的视频帧，得到视频帧序列。

3.根据权利要求1所述的方法，其特征在于，将所述视频帧序列输入预先训练的残差神经网络，提取所述视频帧序列对应的残差特征，包括：

将所述视频帧序列输入预先训练的残差神经网络，提取所述视频帧序列对应的残差特征；所述残差特征为二维特征矩阵序列；所述二维特征矩阵序列的大小与所述视频帧序列相同。

4.根据权利要求1所述的方法，其特征在于，将所述视频帧序列输入预先训练的边缘纹理神经网络，提取所述视频帧序列中的边缘纹理特征，包括：

将所述视频帧序列输入预先训练的边缘纹理神经网络，分别对所述视频帧序列进行卷积和下采样操作，得到深度特征；

对所述深度特征分别进行卷积和上采样操作，得到人脸边缘的边缘纹理特征；其中，上采样和下采样均是通过采样窗口实现。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述残差特征和所述边缘纹理特征均为二维矩阵；

将所述残差特征和所述边缘纹理特征进行特征融合，得到融合特征，包括：

将所述残差特征的二维矩阵和所述边缘纹理特征的二维矩阵进行融合，得到融合特征；所述融合特征为三维矩阵。

6.根据权利要求1至4任一项所述的方法，其特征在于，在将所述视频帧序列输入预先训练的残差神经网络，提取所述视频帧序列对应的残差特征之前，所述方法包括：

当所述视频帧序列中的视频帧为灰度图像时，将所述视频帧序列进行复制操作，得到RGB三通道的视频帧序列。

7.根据权利要求1至4任一项所述的方法，其特征在于，所述残差神经网络、所述边缘纹理神经网络以及所述二分类卷积神经网络的训练方式，包括：

将所述残差神经网络、所述边缘纹理神经网络以及所述二分类卷积神经网络整合为统一分类框架；

对所述统一分类框架中的残差神经网络在预先设置的数据集上进行预训练，以及对所述统一分类框架中的边缘纹理神经网络在预先设置的数据集上进行预训练；

根据目标函数采用梯度下降方式对预训练的统一分类框架进行训练，得到训练后的统一分类框架：

其中，W＝{W₁,W₂,W₃}，W₁表示残差网络参数，W₂表示边缘纹理神经网络参数，W₃表示二分类卷积神经网络参数，W^*表示参数W的最优值，J_i∈{0,1}表示识别真伪结果，X＝{V_i,L_i}表示训练数据集，V_i表示第i个视频，L_i为其对应的标签。

8.一种伪造人脸视频检测装置，其特征在于，所述装置包括：

帧提取模块，用于从视频数据中提取视频帧序列；

残差特征提取模块，用于将所述视频帧序列输入预先训练的残差神经网络，提取所述视频帧序列对应的残差特征；所述残差特征表示噪声特征，所述噪声特征用于确定所述视频帧序列中的噪声分布；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。