CN115019370A

CN115019370A - 一种基于双细粒度伪影的深度伪造视频检测方法

Info

Publication number: CN115019370A
Application number: CN202210704052.1A
Authority: CN
Inventors: 李斌; 陈涵; 巫俊强
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2022-09-06

Abstract

本发明公开了一种基于双细粒度伪影的深度伪造视频检测方法，包括：获取真伪成对的视频数据集；通过人脸检测模型获取真实视频内人脸区域的位置坐标值序列，并从所述真伪成对的视频数据集的视频内裁剪人脸区域、获得真伪成对的人脸图像序列；从所述真伪成对的人脸图像序列中获取伪造人脸图像的双细粒度伪影标注；采用在线伪造人脸数据增广方式扩充所述视频数据集中的伪造人脸图像；根据真伪人脸图像标注数据和深度神经网络输出计算相应的损失函数，训练所述深度伪造检测模型；训练好的深度伪造检测模型对深度伪造人脸图像进行检测，得到检测结果。本发明通过揭露深度伪造视频中固有存在的双细粒度伪影，显著提高了检测器的泛化性能。

Description

一种基于双细粒度伪影的深度伪造视频检测方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种基于双细粒度伪影的深度伪造视频检测方法。

背景技术

深度伪造(DeepFake)技术借助深度学习模型和大数据可以轻松篡改甚至合成高度逼真的声音和图像等数字媒体内容。而近年来，关于人脸的深度伪造视频已经被广泛滥用于制作换脸色情视频，恶搞政治人物等。这给社会带来了严重的威胁。因此，针对深度伪造视频的检测是非常重要且紧急的。

目前主要的深度伪造检测的相关技术中，大多是基于数据驱动的深度网络模型方法，例如MesoNet、Capsule、XceptionNet、MTD-Net、PRRNet、F3-NET、STIL等。这些方法需要大量有标注的真实视频和深度伪造视频进行监督训练学习，通常依赖于特定的训练数据，一旦测试场景中出现和训练数据不同分布的，未知的伪造方法生成伪造视频时，这些方法通常难以准确的鉴别其真伪，意味着现有方法在真实的场景中的检测效果会大打折扣。

因此，现有技术面对未知的深度伪造技术所生成的伪造视频时，其检测性能大大下降，泛化性能还有待改进和发展。

发明内容

针对上述的现有方法缺陷，本发明提供一种基于双细粒度伪影的深度伪造视频检测方法、装置、智能终端及计算机可读存储介质，旨在解决现有技术中面对数据分布差异导致检测性能下降的问题，以提高检测模型的泛化性。

为实现上述技术目的，本发明的技术方案如下：

第一方面，本发明实施例提供一种基于双细粒度伪影的深度伪造视频检测方法，所述方法包括：

获取真伪成对的视频数据集；

通过人脸检测模型获取真实视频内人脸区域的位置坐标值序列，并从所述真伪成对的视频数据集的视频内裁剪人脸区域、获得真伪成对的人脸图像序列；

从所述真伪成对的人脸图像序列中获取伪造人脸图像的双细粒度伪影标注；

对所述视频数据集采用深度神经网络进行训练并随机选不同视频的视频帧，采用在线伪造人脸数据增广方式扩充所述视频数据集中的伪造人脸图像；

根据所述真伪人脸图像的双细粒度伪影标注数据和深度神经网络输出计算相应的损失函数，训练所述深度伪造检测模型；

用训练好的深度伪造检测模型对深度伪造人脸图像进行检测，得到检测结果。

在一种实现方式中，所述通过人脸检测模型获取真实视频内人脸区域的位置坐标值序列，并从所述真伪成对的视频数据集的视频内裁剪人脸区域、获得真伪成对的人脸图像序列具体包括：

将所述数据集内视频转换为图像帧序列；

基于所述图像帧序列，使用人脸检测模型对其中真实视频的图像帧序列检测人脸区域，以得到真实图像帧序列中人脸区域的位置坐标值序列；

基于所述真实图像帧序列中人脸区域的位置坐标值序列，从相互成对的真伪图像帧序列裁剪出相应的人脸图像序列。

在一种实现方式中，所述从所述真伪成对的人脸图像序列中获取伪造人脸图像的双细粒度伪影标注具体包括：

成对真伪人脸图像之间对应像素做减法运算后，再取其绝对值获得差异图，然后用一个预先定义的阈值对差异图进行二值化操作得到二值化差异图，最后计算二值化差异图的凸包以得到内在细粒度伪影的标注掩码图。

通过所述内在细粒度伪影的标注掩码图进行形态学中的膨胀操作和腐蚀操作分别得到膨胀内在细粒度伪影掩码图和腐蚀内在细粒度伪影掩码图，最后计算膨胀内在细粒度伪影掩码图减去腐蚀内在细粒度伪影掩码图以得到外在细粒度伪影的标注掩码图。

其中内在细粒度伪影是生成模型中的一系列常见操作(如上卷积或上采样)引起的，外在细粒度伪影是由后处理中的一个常见步骤引入的，该步骤将合成的人脸与原始视频进行融合。双细粒度伪影标注掩码图包括内在细粒度伪影的标注掩码图和外在细粒度伪影的标注掩码图。

在一种实现方式中，所述对所述视频数据集采用深度神经网络进行训练并随机选不同视频的视频帧，采用在线伪造人脸数据增广方式扩充所述视频数据集中的伪造人脸图像具体包括：

通过一张深度伪造人脸图像和其人脸角度相似但不对应的真实人脸生成一张新的伪造图像，以及一张真实人脸图像和其人脸角度相似的另一张真实人脸生成一张新的伪造图像。通过所述的两种合成方法扩充数据集中伪造人脸图像；

在一种实现方式中，所述基于双细粒度伪影的深度伪造视频检测方法,其中，所述根据真伪人脸图像标注数据和深度神经网络输出计算相应的损失函数，训练所述深度伪造检测模型：

将真伪人脸图像输入到深度神经网络，得到真伪分类的概率置信度输出，以及预测内在细粒度伪影和外在细粒度伪影的两个的掩码图输出。并将所述深度神经网络的输出和标注数据计算损失函数，根据损失函数训练所述深度伪造检测模型。

在一种实现方式中，所述基于双细粒度伪影的深度伪造视频检测方法，其中，所述深度神经网络具体包括：

将真伪人脸图像输入到所述深度神经网络的编码器中，以得到深度特征；然后深度特征通过全局池化层和线性分类层以得到真伪分类的概率置信度输出；同时将深度特征通过两个并联的解码器分别得到内在细粒度伪影和外在细粒度伪影的预测掩码图输出。

在一种实现方式中，所述基于双细粒度伪影的深度伪造视频检测方法，其中，所述损失函数具体包括：

对于真伪分类的概率置信度输出，计算交叉熵损失函数：

L_Cls＝y log(O_Cls(x))+(1-y)log(1-O_Cls(x))

其中，x是输入的人脸图像样本，y是样本的类别标签，y＝0表示输入的是真实人脸图像，y＝1表示输入的是伪造人脸图像，O_Cls(x)表示所述深度神经网络输出的真伪分类的概率置信度。

对于内在细粒度伪影和外在细粒度伪影的预测掩码图输出，计算像素级别的交叉熵损失函数：

其中O_In(x)和O_Ex(x)分别表示所述深度神经网络输出的内在细粒度伪影和外在细粒度伪影的预测掩码图，M_In和M_Ex分别表示所述内在细粒度伪影和外在细粒度伪影的标注掩码图，i,j表示掩码图上的像素定位。

一种基于双细粒度伪影的深度伪造视频检测装置，其中，包括：

获取模块，用于获取真伪成对的视频数据集；

裁剪处理模块，用于通过人脸检测模型获取真实视频内人脸区域的位置坐标值序列，并从所述真伪成对的视频数据集的视频内裁剪人脸区域、获得真伪成对的人脸图像序列；

标注处理模块，用于从所述真伪成对的人脸图像序列中获取伪造人脸图像的双细粒度伪影标注；

增扩处理模块，用于对所述视频数据集采用深度神经网络进行训练并随机选不同视频的视频帧，采用在线伪造人脸数据增广方式扩充所述视频数据集中的伪造人脸图像；

训练模块，用于根据所述真伪人脸图像的双细粒度伪影标注数据和深度神经网络输出计算相应的损失函数，训练所述深度伪造检测模型；

检测应用模块，用于用训练好的深度伪造检测模型对深度伪造人脸图像进行检测，得到检测结果。

一种智能终端，其中，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行中任意一项所述的方法。

一种非临时性计算机可读存储介质，其中，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行任意一项所述的方法。

有益效果：本发明提供的一种基于双细粒度伪影的深度伪造视频检测方法、装置、智能终端及计算机可读存储介质，通过检测深度伪造人脸图像中的双细粒度伪影，有效地提升了网络的特征表示能力。同时使用在线伪造人脸数据增广方式来扩充数据集中的伪造人脸图像，增加了伪造样本的多样性，促使网络学习到更具鉴别性的特征。本发明利用双细粒度伪影和伪造人脸数据增广进行端到端的深度伪造模型训练，在无需外部干预的情况下，训练好的深度伪造检测模型可以有效缓解现有技术在面对数据分布差异较大时，其检测性能会明显下降这一难题，极大地提升了检测模型的泛化性能。

附图说明

图1是本发明实施例提供的一种基于双细粒度伪影的深度伪造视频检测方法的整体流程图。

图2是本发明实施例提供的一种双细粒度伪影标注实例效果图。

图3是本发明实施例提供的一种基于一张伪造人脸图像和一张真实人脸图像合成伪造人脸数据增广流程示意图。

图4是本发明实施例提供的一种基于两种张真实人脸图像合成伪造人脸数据增广流程示意图。

图5是本发明实施例提供的一种深度伪造检测模型结构示意图。

图6是本发明实施例提供的基于双细粒度伪影的深度伪造视频检测方法装置的原理框图。

图7是本发明实施例提供的智能终端的内部结构原理框图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

图1为本发明较佳实施例中所述的基于双细粒度伪影的深度伪造检测方法流程示意图，如图1所示，本发明实施例的一种基于双细粒度伪影的深度伪造检测方法具体包括：

步骤S100、获取真伪成对的视频数据集。

本发明实施例中，具体地，所述深度伪造检测模型的训练需要获取真伪成对的视频数据集。本发明选择使用Celeb-DF深度伪造视频数据集，该数据集包含5639个高质量的深度伪造视频和对应的890个原始视频，同时提供了所有深度伪造视频和源真实人脸视频的配对关系。该数据集涵盖59个不同性别、年龄等身份，所有视频的平均长度约为13秒，标准帧速率为每秒30帧。

本发明的Celeb-DF深度人脸提取数据集，可以包括Celeb-DF(v1)数据集和Celeb-DF(v2)，其中，数据集Celeb-DF(v2)数据集包含真实和DeepFake合成视频，其视频质量与在线传播的视频质量相似。Celeb-DF(v2)数据集比以前的Celeb-DF(v1)有了很大的扩展，后者仅包含795个DeepFake视频。本发明可采用的Celeb-DF包括从YouTube收集的590个原始视频，这些视频具有不同年龄，种族和性别的主题，以及5639个相应的DeepFake视频。

本发明实施例中通过获取真伪成对的视频数据集,为帮助识别AI换脸视频提供基础。

步骤S200、通过人脸检测模型获取真实视频内人脸区域的位置坐标值序列，并从所述真伪成对的视频数据集的视频内裁剪人脸区域、获得真伪成对的人脸图像序列。

具体地，在获取真伪成对视频数据集后，先将获取的视频转换为图像帧序列，再使用人脸检测模型对其中真实视频的图像帧序列检测人脸区域，得到真实图像帧序列中人脸区域的位置坐标值序列，最后使用得到的真实图像帧序列中人脸区域的位置坐标值序列，从相互成对的真伪图像帧序列裁剪得到相应的人脸图像序列。

步骤S300、从所述真伪成对的人脸图像序列中获取伪造人脸图像的双细粒度伪影标注。

本发明实施例中，成对真伪人脸图像可以用(I_f,I_r)表示，其中I_f和I_r分别表示深度伪造人脸和其成对对应的真实人脸。先对成对的真伪人脸图像之间对应像素进行减法运算，再取其绝对值以获得差异图p，然后用一个预先定义的阈值γ对差异图进行二值化操作得到二值化差异图，最后计算二值化差异图的凸包以得到内在细粒度伪影的标注掩码图M_In，具体的转化公式为：

M_In＝Convex(p＞γ)，其中，Convex代表凸包。

具体地，通过所述内在细粒度伪影的标注掩码图M_In进行形态学中的膨胀操作和腐蚀操作分别得到膨胀内在细粒度伪影掩码图D(M_In)和腐蚀内在细粒度伪影掩码图E(M_In)，最后计算膨胀内在细粒度伪影掩码图减去腐蚀内在细粒度伪影掩码图以得到外在细粒度伪影的标注掩码图M_Ex，具体的转化公式为：

M_Ex＝D(M_In)-E(M_In)，其中，D(M_In)代表膨胀内在细粒度伪影掩码图；E(M_In)代表腐蚀内在细粒度伪影掩码图；M_Ex代表外在细粒度伪影的标注掩码图。

具体地，真伪人脸图像对应的双细粒度伪影标注掩码图如图2所示。其中图2上方的真实人脸图像符合自然成像模型，即不存在任何双细粒度伪影；图2下方的深度伪造人脸图像则同时存在内在细粒度伪影和外在细粒度伪影。

步骤S400、对所述视频数据集采用深度神经网络进行训练并随机选不同视频的视频帧，采用在线伪造人脸数据增广方式扩充所述视频数据集中的伪造人脸图像。

具体地，本发明根据所述真伪成对的视频数据集和步骤S300中的双细粒度伪影标注的双细粒度伪影标注图像，应用一种伪造人脸数据增广方式扩充伪造人脸图像的多样性，帮助模型学习到更具鉴别性的特征。其中基于一张深度伪造人脸图像和其人脸角度相似但不对应的真实人脸的图像合成的新伪造人脸图像表示为(伪造，真实)，基于一张真实人脸图像和其人脸角度相似的另一张真实人脸图像合成的新伪造人脸图像表示为(真实，真实)。所述的伪造人脸数据增广方式可以在训练的过程中实现在线进行数据增广扩充新的伪造人脸数据，其中合成伪造人脸图像(伪造，真实)的具体步骤如下面算法1，对应合成伪造人脸图像(伪造，真实)的流程示意图如图3所示；另外合成伪造人脸图像(真实，真实)具体步骤如下面算法2，对应合成伪造人脸图像(真实，真实)的流程示意图如图4所示。

算法1具体如下：

输入：一张深度伪造人脸图像I_f和其人脸角度相似但不对应的另一张真实人脸图像I_r，以及深度伪造人脸图像I_f的内在细粒度伪影的标注掩码图M_In；

输出：一张新的伪造人脸图像I_f′，和其对应的内在细粒度伪影和外在细粒度伪影的标注掩码图M_In′与M_Ex′。

如图3所示，步骤1：使用人脸检测库Dlib提取I_f的人脸关键点K(I_f)和I_r的人脸关键点K(I_r)。

步骤2：通过K(I_f)计算I_f的人脸关键点凸包掩码图M，对M应用仿射变换得到经过仿射变换的人脸关键点凸包掩码图T(M)。

步骤3：最后定义篡改掩码图M′＝M_In⊙T(M)，⊙表示为逐元素乘法。

步骤4：合成的新伪造人脸图像I_f′＝M′⊙I_f+(1-M′)⊙I_r。其对应的内在细粒度伪影标注掩码图为篡改掩码图，即M_In′＝M′，外在细粒度伪影标注掩码图M_Ex′＝D(M_In′)-E(M_In′)。

步骤5：假设结束；

步骤6：返回一张新的伪造人脸图像I_f′，和I_f′对应的内在细粒度伪影和外在细粒度伪影的标注掩码图M_In′与M_Ex′。

算法2具体如下：

输入：一张真实人脸图像I_r和其人脸角度相似的另一张真实人脸图像I_r′。

如图4所示，步骤11：使用人脸检测库Dlib提取I_r的人脸关键点K(I_r)和I_r′的人脸关键点K(I_r′)。

步骤12：通过K(I_r)计算I_r的人脸关键点凸包掩码图M，对M应用仿射变换得到经过仿射变换的人脸关键点凸包掩码图T(M)。

步骤13：合成的新伪造人脸图像I_f′＝T(M)⊙I_r+(1-T(M))⊙I_r′。其对应的内在细粒度伪影标注掩码图的数值全为0，即M_In′为全0矩阵，外在细粒度伪影标注掩码图M_Ex′＝D(T(M))-E(T(M))。

步骤14：假设结束；

步骤15：返回一张新的伪造人脸图像I_f′，和I_f′对应的内在细粒度伪影和外在细粒度伪影的标注掩码图M_In′与M_Ex′。

例如本发明实验在Celeb-DF的训练集上进行训练，UADFV、DF-TIMIT-LQ(DT-LQ)、DF-TIMIT-HQ(DT-HQ)、FaceForensics++DF(FF++DF)、DFD、DFDC-P、Celeb-DF等数据集的测试集上进行测试，在实验结果的比较中，用到AUC作为测试指标，AUC指标越高代表性能越好，结果如表1所示。其中，UADFV数据集包含49个真实视频和49个深度伪造视频；DT-LQ数据集包含320个真实视频和320个深度伪造视频；DT-HQ数据集包含320个真实视频和320个深度伪造视频；FF++DF包含1000个真实视频和1000个深度伪造视频；DFD包含363个真实视频和3068个深度伪造视频；DFDC-P包含1131个真实视频和4119个深度伪造视频。

表1在不同的伪造人脸数据增广设置下的AUC性能。

其中，从表1可知，同时使用算法1和算法2进行伪造人脸数据增广训练出来的模型在所有数据集上达到了最佳平均性能，相较于无数据增广训练出来的模型，平均AUC分数提升了5％，较好的提升了模型的泛化性。

即本步骤中，对所述视频数据集采用深度神经网络进行训练并随机选不同视频的视频帧，采用在线伪造人脸数据增广方式扩充所述视频数据集中的伪造人脸图像。其中，所述视频数据集用步骤S100中的“真伪成对的视频数据集”来训练，然后训练的过程中采用深度神经网络，随机选择“两个视频”进行数据扩充。使用的是线上扩充的方式，不是先生成一大堆数据在训练，是一边训练一边增广。这里的“两个视频”，就是两个视频内各自选择一帧，然后合成一张新的人脸，过程就是如图3和图4所示。这样，可以提高模型的泛化性。实验上具体就是跨域的检测实验(跨数据库检测)，从表1结果可以说明，使用了所提出的数据增广比没做数据增广提升了5％的平均AUC得分。

步骤S500、根据所述真伪人脸图像的双细粒度伪影标注数据和深度神经网络输出计算相应的损失函数，训练所述深度伪造检测模型。

本步骤中，将所述真伪人脸图像输入到深度神经网络，得到真伪分类的概率置信度输出，以及预测内在细粒度伪影和外在细粒度伪影的两个的掩码图输出。并将所述深度神经网络的输出和标注数据计算损失函数，根据损失函数训练所述深度伪造检测模型。

具体地，所述的深度神经网络模型结构示意图如图5所示，图5是本发明实施例提供的一种深度伪造检测模型结构示意图，如图5所示，将真伪人脸图像输入到所述深度神经网络的编码器中，以得到深度特征，所述编码器采用ResNet18网络结构作为骨干结构，共包含五个下采样模块，如图5所示分别为下采样模块1、下采样模块2、下采样模块3、下采样模块4、下采样模块5；然后将深度特征通过全局池化层和线性分类层以得到真伪分类的概率置信度输出；同时将深度特征通过两个并联的解码器分别得到内在细粒度伪影和外在细粒度伪影的预测掩码图输出，所述的两个并联解码器架构一致但参数不同，解码器由五个上采样模块构成，同时在前四个上采样模块与同一深度的编码器的下采样模块之间存在跳跃连接如图5所示，例如下采样模块5上方连接上采样模块1、下方也连接了另一个上采样模块1；下采样模块4上方连接上采样模块2、下方也连接了另一个上采样模块2；下采样模块3上方连接上采样模块3、下方也连接了另一个上采样模块3；下采样模块2上方连接上采样模块4、下方也连接了另一个上采样模块4；最后将解码器的输出特征通过一个卷积核大小为1*1的卷积层和一个sigmoid激活函数以得到预测的双细粒度伪影掩码图。其中双粒度伪影预测的两个分支目的是提高主分支编码器的性能，通过对三个分支进行端到端的同时训练，可以帮助编码器的骨干网络学习更具的鉴别性的特征。

具体地，训练深度伪造检测神经网络所计算损失函数包括真伪人脸图像的分类，以及像素级别的双细粒度伪影掩码定位。

具体地，对于真伪人脸图像的分类，通过所述的真伪分类的概率置信度输出，计算交叉熵损失函数：

L_Cls＝y log(O_Cls(x))+(1-y)log(1-O_Cls(x))

具体地，对于像素级别的双细粒度伪影掩码定位，通过内在细粒度伪影和外在细粒度伪影的预测掩码图输出，计算像素级别的交叉熵损失函数：

具体地，最后整个损失函数定义如下：

L＝λ_InL_In+λ_ExL_Ex+λ_ClsL_Cls

其中损失函数中的加权系数λ_Cls、λ_In、λ_Ex分别设置为1、15、15。通过用所述深度伪造检测模型进行端到端的训练。

步骤S600、用训练好的深度伪造检测模型对深度伪造人脸图像进行检测，得到检测结果。

最后本实施例的深度伪造检测模型在Celeb-DF的训练集上进行训练，在不同数据集的测试集上进行测试，与现有的深度伪造检测方法(XceptionNet、MesoNet、Capsule、Face X-ray、GSRM和RFM)进行比较，结果如表2所示。

表2与现有的深度伪造检测方法的AUC性能。

方法	UADFV	DT-LQ	DT-HQ	FF++DF	DFD	DFDC-P	Celeb-DF	平均
									XceptionNet	0.9610	0.9550	0.6539	0.7551	0.7706	0.7401	0.9985	0.8334
MesoNet	0.7750	0.8133	0.5609	0.7296	0.6707	0.7674	0.9242	0.7487
									Capsule	0.8751	0.8519	0.6162	0.7219	0.6676	0.7056	0.9900	0.7754
Face X-ray	0.9305	0.9899	0.8917	0.8185	0.8253	0.7535	0.9984	0.8868
									GSRM	0.9645	0.9709	0.6749	0.8029	0.8048	0.7924	0.9962	0.8580
RFM	0.9110	0.9569	0.6582	0.8288	0.7870	0.7678	0.9973	0.8439
									Ours	0.9404	0.9952	0.9377	0.8523	0.8185	0.8189	0.9980	0.9087

其中，从表2可知，与这些方法相比，本发明提出的基于双粒度伪影的深度伪造检测方法在跨数据集场景中表现出更优越的性能，即在所有数据集上平均达到0.9087的AUC得分，至少优于其他方法2％，具有较优异的泛化性能。

本发明通过检测深度伪造人脸图像中的双细粒度伪影，有效地提升了网络的特征表示能力。同时使用在线伪造人脸数据增广方式来扩充数据集中的伪造人脸图像，增加了伪造样本的多样性，促使网络学习到更具鉴别性的特征。本发明利用双细粒度伪影和伪造人脸数据增广进行端到端的深度伪造模型训练，在无需外部干预的情况下，训练好的深度伪造检测模型可以有效缓解现有技术在面对数据分布差异较大时，其检测性能会明显下降这一难题，极大地提升了检测模型的泛化性能。

示例性设备

如图6中所示，本发明实施例提供一种基于双细粒度伪影的深度伪造视频检测装置，该装置包括：

获取模块510，用于获取真伪成对的视频数据集；

裁剪处理模块520，用于通过人脸检测模型获取真实视频内人脸区域的位置坐标值序列，并从所述真伪成对的视频数据集的视频内裁剪人脸区域、获得真伪成对的人脸图像序列；

标注处理模块530，用于从所述真伪成对的人脸图像序列中获取伪造人脸图像的双细粒度伪影标注；

增扩处理模块540，用于对所述视频数据集采用深度神经网络进行训练并随机选不同视频的视频帧，采用在线伪造人脸数据增广方式扩充所述视频数据集中的伪造人脸图像；

训练模块550，用于根据所述真伪人脸图像的双细粒度伪影标注数据和深度神经网络输出计算相应的损失函数，训练所述深度伪造检测模型；

检测应用模块560，用于用训练好的深度伪造检测模型对深度伪造人脸图像进行检测，得到检测结果，具体如上所述。

基于上述实施例，本发明还提供了一种智能终端，其原理框图可以如图7所示。该智能终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏、传感器。其中，该智能终端的处理器用于提供计算和控制能力。该智能终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该智能终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于双细粒度伪影的深度伪造视频检测方法。该智能终端的显示屏可以是液晶显示屏或者电子墨水显示屏。

本领域技术人员可以理解，图7中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的智能终端的限定，具体的智能终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种智能终端，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

获取真伪成对的视频数据集；

用训练好的深度伪造检测模型对深度伪造人脸图像进行检测，得到检测结果，具体如上所述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

综上，本发明公开了一种基于双细粒度伪影的深度伪造视频检测方法，所述检测方法包括：获取真伪成对的视频数据集；通过人脸检测模型获取真实视频内人脸区域的位置坐标值序列，并从所述真伪成对的视频数据集的视频内裁剪人脸区域、获得真伪成对的人脸图像序列；从所述真伪成对的人脸图像序列中获取伪造人脸图像的双细粒度伪影标注；对所述视频数据集采用深度神经网络进行训练并随机选不同视频的视频帧，采用在线伪造人脸数据增广方式扩充所述视频数据集中的伪造人脸图像；根据真伪人脸图像标注数据和深度神经网络输出计算相应的损失函数，训练所述深度伪造检测模型；训练好的深度伪造检测模型对深度伪造人脸图像进行检测，得到检测结果。相比现有技术，本发明针对深度伪造视频留下的固有伪影进行检测，同时使用两种伪造人脸合成的数据增广算法，从而有效的提升了模型面对训练数据和测试数据分布存在差异时的检测泛化性能。

应当理解的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使响应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于双细粒度伪影的深度伪造视频检测方法，其特征在于，所述检测方法包括：

获取真伪成对的视频数据集；

2.根据权利要求1所述的基于双细粒度伪影的深度伪造视频检测方法，其特征在于，所述通过人脸检测模型获取真实视频内人脸区域的位置坐标值序列，并从所述真伪成对的视频数据集的视频内裁剪人脸区域、获得真伪成对的人脸图像序列的步骤包括：

将所述数据集内视频转换为图像帧序列；

3.根据权利要求1所述的基于双细粒度伪影的深度伪造视频检测方法，其特征在于，所述从所述真伪成对的人脸图像序列中获取伪造人脸图像的双细粒度伪影标注的步骤包括：

将成对真伪人脸图像之间对应像素做减法运算，取其绝对值获得差异图；

用一个预先定义的阈值对差异图进行二值化操作得到二值化差异图，最后计算二值化差异图的凸包以得到内在细粒度伪影的标注掩码图；

通过所述内在细粒度伪影的标注掩码图进行形态学中的膨胀操作和腐蚀操作分别得到膨胀内在细粒度伪影掩码图和腐蚀内在细粒度伪影掩码图，最后计算膨胀内在细粒度伪影掩码图减去腐蚀内在细粒度伪影掩码图以得到外在细粒度伪影的标注掩码图；

其中，内在细粒度伪影是生成模型中的一系列常见操作(如上卷积或上采样)引起的，外在细粒度伪影是由后处理中的一个常见步骤引入的，该步骤将合成的人脸与原始视频进行融合；双细粒度伪影标注掩码图包括内在细粒度伪影的标注掩码图和外在细粒度伪影的标注掩码图。

4.根据权利要求1所述的基于双细粒度伪影的深度伪造视频检测方法，其特征在于，所述对所述视频数据集采用深度神经网络进行训练并随机选不同视频的视频帧，采用在线伪造人脸数据增广方式扩充所述视频数据集中的伪造人脸图像的步骤包括：

通过一张深度伪造人脸图像和其人脸角度相似但不对应的真实人脸生成一张新的伪造图像，以及一张真实人脸图像和其人脸角度相似的另一张真实人脸生成一张新的伪造图像。通过所述的两种合成方法扩充数据集中伪造人脸图像。

5.根据权利要求1所述的基于双细粒度伪影的深度伪造视频检测方法,其特征在于，所述根据真伪人脸图像标注数据和深度神经网络输出计算相应的损失函数，训练所述深度伪造检测模型：

将真伪人脸图像输入到深度神经网络，得到真伪分类的概率置信度输出，以及预测内在细粒度伪影和外在细粒度伪影的两个的掩码图输出；并将所述深度神经网络的输出和标注数据计算损失函数，根据损失函数训练所述深度伪造检测模型。

6.根据权利要求5所述基于双细粒度伪影的深度伪造视频检测方法，其特征在于，所述深度神经网络具体包括：

7.根据权利要求5所述基于双细粒度伪影的深度伪造视频检测方法，其特征在于，所述损失函数具体包括：

对于真伪分类的概率置信度输出，计算交叉熵损失函数：

L_Cls＝ylog(O_Cls(x))+(1-y)log(1-O_Cls(x))

其中，x是输入的人脸图像样本，y是样本的类别标签，y＝0表示输入的是真实人脸图像，y＝1表示输入的是伪造人脸图像，O_Cls(x)表示所述深度神经网络输出的真伪分类的概率置信度；

8.一种基于双细粒度伪影的深度伪造视频检测装置，其特征在于，包括：

获取模块，用于获取真伪成对的视频数据集；

9.一种智能终端，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于执行如权利要求1-7中任意一项所述的方法。

10.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1-7中任意一项所述的方法。