CN116645299B

CN116645299B - 一种深度伪造视频数据增强方法、装置及计算机设备

Info

Publication number: CN116645299B
Application number: CN202310921402.4A
Authority: CN
Inventors: 于天元; 王泽源; 王昊冉; 白亮; 汤俊; 郭延明; 阮逸润
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-10-10
Anticipated expiration: 2043-07-26
Also published as: CN116645299A

Abstract

本申请涉及一种深度伪造视频数据增强方法、装置及计算机设备。所述方法包括：对深度伪造视频数据中每一帧进行放缩，得到候选脸部窗口；根据R‑net网络对候选脸部窗口进行过滤，得到校准筛选后的人脸候选框；利用人脸候选框对深度伪造视频数据进行筛选，得到筛选后的视频数据；对筛选后的视频数据进行图像几何空间变换和图像随机裁剪，得到镜像式增强后的视频数据；根据ColorJitter函数对镜像式增强后的视频数据进行调整，采用高斯模糊以一定比率对调整后的视频数据进行模糊化操作，再对模糊后的视频数据进行3D映射增强，得到映射增强后的视频数据。采用本方法能够提高深度伪造检测准确率。

Description

一种深度伪造视频数据增强方法、装置及计算机设备

技术领域

本申请涉及数据处理技术领域，特别是涉及一种深度伪造视频数据增强方法、装置及计算机设备。

背景技术

随着检测技术的不断发展，深度学习算法模型越来越依赖于大型数据集的支撑。特别是对于深度伪造检测这种抽象层次较高、应用场景复杂的检测任务，大规模多样化的数据集至关重要。

然而，目前的数据集主要使用DFDC、Celeb-DF及FaceForensics++三个数据集，这些数据集中数据差异不够大，使得深度伪造检测准确率低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高深度伪造检测准确率的深度伪造视频数据增强方法、装置及计算机设备。

一种深度伪造视频数据增强方法，所述方法包括：

获取待增强的深度伪造视频数据；

对深度伪造视频数据中每一帧进行放缩，得到候选脸部窗口；

根据R-net网络对候选脸部窗口进行过滤，得到校准筛选后的人脸候选框；利用人脸候选框对深度伪造视频数据进行筛选，得到筛选后的视频数据；

对筛选后的视频数据进行图像几何空间变换和图像随机裁剪，得到镜像式增强后的视频数据；

根据ColorJitter函数对镜像式增强后的视频数据进行调整，采用高斯模糊以一定比率对调整后的视频数据进行模糊化操作，再对模糊后的视频数据进行3D映射增强，得到映射增强后的视频数据。

在其中一个实施例中，对筛选后的视频数据进行图像几何空间变换和图像随机裁剪，得到镜像式增强后的视频数据，包括：

对筛选后的视频数据进行水平翻转和竖直翻转，在对翻转后的视频数据中的图像进行图像随机裁剪，得到镜像式增强后的视频数据。

在其中一个实施例中，对翻转后的视频数据中的图像进行图像随机裁剪，得到镜像式增强后的视频数据，包括：

对翻转后的视频数据中的图像进行图像随机裁剪，得到镜像式增强后的视频数据为

；

其中，表示裁剪后图像的面积，/>表示翻转后的视频数据中的图像的面积大小，/>表示图像拼接点，/>表示截取图像的位置，/>表示第k张图像的真伪，取1或0，真为0，伪为1。

在其中一个实施例中，根据ColorJitter函数对镜像式增强后的视频数据进行调整，包括：

根据ColorJitter函数对镜像式增强后的视频数据中的图像的亮度、对比度、饱和度以及色度进行调整，得到调整后的视频数据。

在其中一个实施例中，对模糊后的视频数据进行3D映射增强，得到映射增强后的视频数据，包括：

采用比较正交投影将模糊后的视频数据中二维轮廓点与三位模型面进行正交投影，得到二维轮廓点在三维物体平面上的投影点；

采用凸包边缘演化的思想，使用连续曲线表达边缘，定义映射公式，根据映射公式对投影点进行映射，得到映射增强后的视频数据。

在其中一个实施例中，采用比较正交投影将模糊后的视频数据中二维轮廓点与三位模型面进行正交投影，得到二维轮廓点在三维物体平面上的投影点，包括：

采用比较正交投影将模糊后的视频数据中二维轮廓点与三位模型面进行正交投影，得到二维轮廓点在三维物体平面上的投影点为

其中，为姿态参数，其中/>为旋转矩阵，/>为二维平移向量，为摄像机焦距与虚拟摄像机与物体的平均距离之比，/>，/>表示二维轮廓点的坐标。

在其中一个实施例中，映射公式为

；

其中，为总映射量，/>为初始轮廓映射量，/>为图像上轮廓的映射量，/>为方差相关项。

在其中一个实施例中，根据映射公式对投影点进行映射，得到映射增强后的视频数据，包括：

根据映射公式对投影点进行映射，得到映射增强后的视频数据为

；

其中，表示形状参数，/>表示二维图像数据中任取一像素点，/>包含/>个主成分，/>为由三维点构成三维物体表面的平均形状，/>为三维脸部轮廓。

一种深度伪造视频数据增强装置，装置包括：

放缩模块，用于获取待增强的深度伪造视频数据；对深度伪造视频数据中每一帧进行放缩，得到候选脸部窗口；

过滤和筛选模块，用于根据R-net网络对候选脸部窗口进行过滤，得到校准筛选后的人脸候选框；利用人脸候选框对深度伪造视频数据进行筛选，得到筛选后的视频数据；

镜像式增强模块，用于对筛选后的视频数据进行图像几何空间变换和图像随机裁剪，得到镜像式增强后的视频数据；

映射增强模块，用于根据ColorJitter函数对镜像式增强后的视频数据进行调整，采用高斯模糊以一定比率对调整后的视频数据进行模糊化操作，再对模糊后的视频数据进行3D映射增强，得到映射增强后的视频数据。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待增强的深度伪造视频数据；

上述一种深度伪造视频数据增强方法、装置及计算机设备，首先对深度伪造视频数据中每一帧进行放缩，获取候选脸部窗口和边界框回归向量，确定该输入图像中是否存在人脸以及人脸关键点，根据R-net网络对候选脸部窗口进行过滤，得到校准筛选后的人脸候选框，利用人脸候选框对深度伪造视频数据进行筛选，该过程可进一步去除大量的非人脸框，从而为进一步的人脸检测分析筛选关键信息，对筛选后的视频数据进行图像几何空间变换，图像几何空间变换包括水平翻转和竖直翻转两类操作，对于人脸图像而言，水平翻转提供了一种镜像操作，而竖直翻转将会使得人脸完全倒置，通过对视频数据中的图像进行翻转，能够呈现完全不同于正常视频的视觉特征，在对翻转后的视频数据进行随机裁剪，随机裁剪即只截取原始图像的部分位置作为后续处理数据，针对于人脸数据而言，随机裁剪可仅截取部分器官，从而帮助模型关注与人脸局部细节增强模型的泛化能力和检测精度，ColorJitter函数对镜像式增强后的视频数据中进行调整，使得训练数据更加多样化，在进行图像增强时采用高斯模糊以一定比率对原始图像进行模糊化操作，从而辅助后续伪造视频数据检测模型捕捉低分辨率条件下的伪造视频特征，提高模型检测能力，然后将二维图像映射在不同的三维物体上，并选取不同的观察位置和视角，可显著提升黑盒攻击条件下攻击成功率和迁移成功率，使得视频数据具备良好的泛化性能，进而提高伪造视频数据检测模型的检测精度和泛化能力，本申请的数据增强方法对于提升模型检测效果较为明显，通过对训练数据采取强数据增强后，能够提高后续检测模型取得较好的检测精度和泛化能力。将深度伪造检测模型部署到未知来源的数据集进行检测时，数据增强可以提升模型的扩展的能力使其取得较好的效果。

附图说明

图1为一个实施例中一种深度伪造视频数据增强方法的流程示意图；

图2为一个实施例中一种深度伪造视频数据增强装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种深度伪造视频数据增强方法，包括以下步骤：

步骤102，获取待增强的深度伪造视频数据；对深度伪造视频数据中每一帧进行放缩，得到候选脸部窗口。

对深度伪造视频数据中每一帧进行放缩，获取候选脸部窗口和边界框回归向量，确定该输入图像中是否存在人脸以及人脸关键点。

步骤104，根据R-net网络对候选脸部窗口进行过滤，得到校准筛选后的人脸候选框；利用人脸候选框对深度伪造视频数据进行筛选，得到筛选后的视频数据。

根据R-net网络对候选脸部窗口进行过滤，得到校准筛选后的人脸候选框，利用人脸候选框对深度伪造视频数据进行筛选，该过程可进一步去除大量的非人脸框，从而为进一步的人脸检测分析筛选关键信息。

步骤106，对筛选后的视频数据进行图像几何空间变换和图像随机裁剪，得到镜像式增强后的视频数据。

对筛选后的视频数据进行图像几何空间变换，图像几何空间变换包括水平翻转和竖直翻转两类操作，对于人脸图像而言，水平翻转提供了一种镜像操作，而竖直翻转将会使得人脸完全倒置，通过对视频数据中的图像进行翻转，能够呈现完全不同于正常视频的视觉特征，在对翻转后的视频数据进行随机裁剪，随机裁剪即只截取原始图像的部分位置作为后续处理数据，针对于人脸数据而言，随机裁剪可仅截取部分器官，从而帮助模型关注与人脸局部细节增强模型的泛化能力和检测精度。

步骤108，根据ColorJitter函数对镜像式增强后的视频数据进行调整，采用高斯模糊以一定比率对调整后的视频数据进行模糊化操作，再对模糊后的视频数据进行3D映射增强，得到映射增强后的视频数据。

ColorJitter函数对镜像式增强后的视频数据中图像的亮度、对比度、饱和度以及色度进行调整，使得训练数据更加多样化，在进行图像增强时采用高斯模糊以一定比率对原始图像进行模糊化操作，从而辅助后续伪造视频数据检测模型捕捉低分辨率条件下的伪造视频特征，提高模型检测能力，然后将二维图像映射在不同的三维物体上，并选取不同的观察位置和视角，可显著提升黑盒攻击条件下攻击成功率和迁移成功率，使得视频数据具备良好的泛化性能，进而提高伪造视频数据检测模型的检测精度和泛化能力。

上述一种深度伪造视频数据增强方法中，首先对深度伪造视频数据中每一帧进行放缩，获取候选脸部窗口和边界框回归向量，确定该输入图像中是否存在人脸以及人脸关键点，根据R-net网络对候选脸部窗口进行过滤，得到校准筛选后的人脸候选框，利用人脸候选框对深度伪造视频数据进行筛选，该过程可进一步去除大量的非人脸框，从而为进一步的人脸检测分析筛选关键信息，对筛选后的视频数据进行图像几何空间变换，图像几何空间变换包括水平翻转和竖直翻转两类操作，对于人脸图像而言，水平翻转提供了一种镜像操作，而竖直翻转将会使得人脸完全倒置，通过对视频数据中的图像进行翻转，能够呈现完全不同于正常视频的视觉特征，在对翻转后的视频数据进行随机裁剪，随机裁剪即只截取原始图像的部分位置作为后续处理数据，针对于人脸数据而言，随机裁剪可仅截取部分器官，从而帮助模型关注与人脸局部细节增强模型的泛化能力和检测精度，ColorJitter函数对镜像式增强后的视频数据中进行调整，使得训练数据更加多样化，在进行图像增强时采用高斯模糊以一定比率对原始图像进行模糊化操作，从而辅助后续伪造视频数据检测模型捕捉低分辨率条件下的伪造视频特征，提高模型检测能力，然后将二维图像映射在不同的三维物体上，并选取不同的观察位置和视角，可显著提升黑盒攻击条件下攻击成功率和迁移成功率，使得视频数据具备良好的泛化性能，进而提高伪造视频数据检测模型的检测精度和泛化能力，本申请的数据增强方法对于提升模型检测效果较为明显，通过对训练数据采取强数据增强后，能够提高后续检测模型取得较好的检测精度和泛化能力。将深度伪造检测模型部署到未知来源的数据集进行检测时，数据增强可以提升模型的扩展的能力使其取得较好的效果。

；

在其中一个实施例中，映射公式为

；

在具体实施例中，数据增强主要是将二维人脸视频通过三维映射方法投射到三维物体上从而获得立体人脸效果，提高后续特征识别和提取的准确率，首先采用比例正交投影将二维图像轮廓点与三维模型面进行正交投影，通过比例正交函数，计算二维图像轮廓点在三维物体平面上的投影点

；

其中为姿态参数，其中/>为旋转矩阵，/>为二维平移向量，/>为摄像机焦距与虚拟摄像机与物体的平均距离之比，/>。

展开而言，二维点和三维点的关系式可表示为

；

其中表示虚拟摄像机的内参矩阵，/>为摄像机坐标系与世界坐标系的摄影转换关系。

；

进而可得如下方程：

；

进而选取二维图像四个顶点，解上述方程即可得到摄像机坐标系与世界坐标系的摄影转换关系。但由于三维物体的设置采用杯子、枕头等三维模型，其本质上是一种变形网络，其形状有多个三维采样点组成，其任何面都可近似表示为

；

式中：包含/>个主成分，/>为顶点个数，/>为平均形状，向量包含/>个顶点的坐标，组合形成长矢量。

进而在将二维图像边缘点映射到三维物体表面后，采用凸包边缘演化的思想，使用连续曲线表达边缘，并定义映射公式，使其自变量包含边缘曲线，此时映射过程转变为求解映射量最小值的过程。其中映射公式可定义为

；

其中为总映射量，/>为初始轮廓映射量，/>为图像上轮廓的映射量，/>为方差相关项。通过逐步迭代优化是的二维图像轮廓线能较好地映射到三维物体表面上，使其在映射量达到最小时，保证轮廓的光滑性和三维结构的拓扑性。

进而对于二维图像终点的像素点，首先在确定边缘点和轮廓线的基础上更新模型边缘的对应关系，从而得到对应关系的三维点投影公式，进而计算出预测的投影位置，并计算二维标志点位置的平均投影误差为

；

针对于深度伪造检测中基本是人脸图像的特点，算法还对人脸特征点的相对位置关系进行单独考虑，从而确保人脸图像映射到三维物体上仍保持原有人脸特点。使得对于每个二维脸颊轮廓的标志点，其对应的三维轮廓顶点更新为投影最接近它的脸颊轮廓顶点。利用三维脸部网格点映射后的二维的映射点和二维的脸部标志点，根据平均投影误差对映射公式进行优化，定义一个最小能量来优化脸部轮廓，得到映射增强后的视频数据为

；

式中为三维脸部轮廓。

对于投影面部模型的显著点和轮廓网格点，首先在图像上求出最近的图像点与脸颊边缘点，并找到它们的对应关系，再结合二维的基准标志点和基准的脸颊点，对姿态参数和形状参数进行更新，进而更新模型显著点和脸部轮廓的对应关系，最终即可得到映射到三维物体表面上的人脸图像。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图2所示，提供了一种深度伪造视频数据增强装置，包括：放缩模块202、过滤和筛选模块204、镜像式增强模块206和映射增强模块208，其中：

放缩模块202，用于获取待增强的深度伪造视频数据；对深度伪造视频数据中每一帧进行放缩，得到候选脸部窗口；

过滤和筛选模块204，用于根据R-net网络对候选脸部窗口进行过滤，得到校准筛选后的人脸候选框；利用人脸候选框对深度伪造视频数据进行筛选，得到筛选后的视频数据；

镜像式增强模块206，用于对筛选后的视频数据进行图像几何空间变换和图像随机裁剪，得到镜像式增强后的视频数据；

映射增强模块208，用于根据ColorJitter函数对镜像式增强后的视频数据进行调整，采用高斯模糊以一定比率对调整后的视频数据进行模糊化操作，再对模糊后的视频数据进行3D映射增强，得到映射增强后的视频数据。

关于一种深度伪造视频数据增强装置的具体限定可以参见上文中对于一种深度伪造视频数据增强方法的限定，在此不再赘述。上述一种深度伪造视频数据增强装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种深度伪造视频数据增强方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种深度伪造视频数据增强方法，其特征在于，所述方法包括：

获取待增强的深度伪造视频数据；

对所述深度伪造视频数据中每一帧进行放缩，得到候选脸部窗口；

根据R-net网络对所述候选脸部窗口进行过滤，得到校准筛选后的人脸候选框；利用所述人脸候选框对所述深度伪造视频数据进行筛选，得到筛选后的视频数据；

对所述筛选后的视频数据进行图像几何空间变换和图像随机裁剪，得到镜像式增强后的视频数据；

根据ColorJitter函数对镜像式增强后的视频数据进行调整，采用高斯模糊以一定比率对调整后的视频数据进行模糊化操作，再对模糊后的视频数据进行3D映射增强，得到映射增强后的视频数据；

对模糊后的视频数据进行3D映射增强，得到映射增强后的视频数据，包括：

采用比较正交投影将所述模糊后的视频数据中二维轮廓点与三位模型面进行正交投影，得到二维轮廓点在三维物体平面上的投影点；

采用凸包边缘演化的思想，使用连续曲线表达边缘，定义映射公式，根据映射公式对所述投影点进行映射，得到映射增强后的视频数据；

所述映射公式为

，

其中，为总映射量，/>为初始轮廓映射量，/>为图像上轮廓的映射量，/>为方差相关项；

根据映射公式对所述投影点进行映射，得到映射增强后的视频数据，包括：

根据映射公式对所述投影点进行映射，得到映射增强后的视频数据为

，

2.根据权利要求1所述的方法，其特征在于，对所述筛选后的视频数据进行图像几何空间变换和图像随机裁剪，得到镜像式增强后的视频数据，包括：

对所述筛选后的视频数据进行水平翻转和竖直翻转，在对翻转后的视频数据中的图像进行图像随机裁剪，得到镜像式增强后的视频数据。

3.根据权利要求2所述的方法，其特征在于，对翻转后的视频数据中的图像进行图像随机裁剪，得到镜像式增强后的视频数据，包括：

，

其中，表示裁剪后图像的面积，/>表示翻转后的视频数据中的图像的面积大小，表示图像拼接点，/>表示第k张图像的真伪，取1或0，真为0，伪为1。

4.根据权利要求1至3任意一项所述的方法，其特征在于，根据ColorJitter函数对镜像式增强后的视频数据进行调整，包括：

5.根据权利要求1所述的方法，其特征在于，采用比较正交投影将所述模糊后的视频数据中二维轮廓点与三位模型面进行正交投影，得到二维轮廓点在三维物体平面上的投影点，包括：

采用比较正交投影将所述模糊后的视频数据中二维轮廓点与三位模型面进行正交投影，得到二维轮廓点在三维物体平面上的投影点为

，

其中，为姿态参数，其中/>为旋转矩阵，/>为二维平移向量，/>为摄像机焦距与虚拟摄像机与物体的平均距离之比，/>，/>表示二维轮廓点的坐标。

6.一种深度伪造视频数据增强装置，其特征在于，所述装置包括：

放缩模块，用于获取待增强的深度伪造视频数据；对所述深度伪造视频数据中每一帧进行放缩，得到候选脸部窗口；

过滤和筛选模块，用于根据R-net网络对所述候选脸部窗口进行过滤，得到校准筛选后的人脸候选框；利用所述人脸候选框对所述深度伪造视频数据进行筛选，得到筛选后的视频数据；

镜像式增强模块，用于对所述筛选后的视频数据进行图像几何空间变换和图像随机裁剪，得到镜像式增强后的视频数据；

映射增强模块，用于根据ColorJitter函数对镜像式增强后的视频数据进行调整，采用高斯模糊以一定比率对调整后的视频数据进行模糊化操作，再对模糊后的视频数据进行3D映射增强，得到映射增强后的视频数据；

映射增强模块还用于对模糊后的视频数据进行3D映射增强，得到映射增强后的视频数据，包括：

所述映射公式为

，

7.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。