CN115527276A

CN115527276A - 基于面部光流场与纹理特性融合的深伪视频检测方法

Info

Publication number: CN115527276A
Application number: CN202211279831.8A
Authority: CN
Inventors: 茹一伟; 孙哲南; 何召峰
Original assignee: Tianjin Zhongke Intelligent Identification Co ltd
Current assignee: Tianjin Zhongke Intelligent Identification Co ltd
Priority date: 2022-10-19
Filing date: 2022-10-19
Publication date: 2022-12-27

Abstract

本发明公开一种基于面部光流场与纹理特性融合的深伪视频检测方法，包括：计算输入的人脸图像序列的光流强度图，得到对应的光流图像序列；对人脸图像序列的RGB图像与对应的光流图像序列的光流强度图逐个进行融合；将得到的融合图像序列输入检测模型中进行真伪鉴别，输出真伪结果。本发明效利用了光流强度图的特性，保留光流方法对伪造视频帧间“伪影”抖动敏感的同时，又具备了融合面部原有纹理特性的能力，能实现对深伪视频的有效检测。

Description

基于面部光流场与纹理特性融合的深伪视频检测方法

技术领域

本发明涉及深伪视频检测技术领域，特别是涉及一种基于面部光流场与纹理特性融合的深伪视频检测方法。

背景技术

人脸伪造视频检测技术，是由输入设备(本地摄像头、Web摄像头等)将数据(包括视频流媒体、图像序列、图像、视频等)输入到训练好的人脸检测器中，利用训练好的人脸检测器对输入数据进行逐帧人脸检测，提取每帧图像中的人脸面部区域；将提取到的人脸面部区域输入到二分类卷积网络中(Real/Fake)，由面部伪造鉴别模型对输入的人脸面部区域进行真伪判别。

随着GAN生成网络技术的不断发展，生成的面部伪造图像越来越逼真。目前的伪造鉴别方法大都是基于单张图像的检测，对于伪造视频的鉴别也是将视频序列化后，在视频的单独帧内进行真伪判别，然后将判别结果融合得到最终视频的判别结果，因此并没有很好的利用视频的帧间信息，造成帧间信息的浪费。同时对于深度学习生成的伪造图像或视频，在生成过程中，存在生成人脸与被篡改人脸的背景融合的过程，因此，在生成的图像中存在一定的“伪影”区域，该“伪影”区域存在一定的随机性，故而在相临帧中存在差异。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷，而提供一种基于面部光流场与纹理特性融合的深伪视频检测方法。

为实现本发明的目的所采用的技术方案是：

一种基于面部光流场与纹理特性融合的深伪视频检测方法，包括：

计算输入人脸序列的光流强度图，得到对应的光流图像序列；

对人脸图像序列的RGB图像与对应的光流图像序列的光流强度图逐个进行融合，得到融合图像序列；

将得到的融合图像序列输入训练好的检测模型中进行真伪鉴别，输出真伪结果。

优选的，利用图像拼接或权重融合手段，对所述人脸图像序列的RGB图像与对应的光流图像序列的光流强度图逐个进行融合。

优选的，所述人脸图像序列的RGB图像与对应的光流图像序列的光流强度图按不同的融合系数ρ进行融合，ρ大于0小于1；

设I_rgb代表RGB图像，I_{optical_flow}代表光流图像，I_mix代表融合后的图像，则融合图像可表示为：

I_mix＝(1-ρ)×I_rgb+ρ×I_{optical_flow}。

更优选的，所述人脸图像序列的RGB图像与对应的光流图像序列的光流强度图按1∶1的比例进行融合，融合系数ρ为0.5。

优选的，所述的检测模型对融合图像经过网络计算后，得到范围为[0，1]的预测结果，预测结果越趋近于0代表输入图越真实，预测结果越趋近于1代表输入图像为生成图像。

优选的，所述的计算输入人脸序列的光流强度图时，首先利用两个子模块对t、t+1时刻的两幅输入图像视频帧分布进行光流特征图的卷积提取，得到两个相关的多通道特征图，在两个多通道特征图之间执行特征块的比较，计算两个特征块的相关性时，通过以下步骤实现：

给定最大位移d，对于每个待匹配块x₁，限制搜索匹配块x₂的范围，仅在D＝2×d+1的邻域中计算相关性c(x₁，x₂)，使用步幅s₁和步幅s₂，以全局量化待匹配块x₁，并量化以待匹配块x₁为中心的邻域内的搜索匹配块x₂；

式中，f₁，f₂分别为两个多通道特征图。

优选的，在提取输入人脸序列的光流强度图，得到光流图像序列的步骤之前，还包括步骤：

对输入序列进行人脸检测、跟踪、关键点检测、识别操作，将识别出的人脸按照识别的ID分别进行存储，形成人脸序列。

其中，输出真伪结果时，将模型的预测结果在输入视频上进行可视化展示，将人脸检测框用不同的颜色表示或在人脸检测框的一侧进行真伪标注。

本发明中，所述的检测模型可以采用如下步骤训练形成：

将真实视频集与伪造视频集进行标签化，真实视频的标签为0，伪造视频的标签为1，然后对真实视频集与伪造视频集进行解码操作，得到对应的图像序列；

对图像序列进行人脸检测，并检测到的人脸进行跟踪；

当检测到图像序列中存在多个人脸时，应用人脸识别方法，将图像序列中的裁剪后的人脸按ID信息分别存储，对裁剪好的人脸序列进行光流计算；

得到光流图后，利用不同的图像融合方法，将光流图像与裁剪到的人脸图像进行融合；

对于得到的融合图像，采用扩增方法进行数据增广；

将增广后的数据送入分类网络中进行训练，当分类网络的Loss降低到足够低时，得到最优的分类模型，保存此时分类模型的结构与权重参数，用于后续的检测过程，至此训练过程结束。

其中，所述的进行数据增广的方法包括随机裁剪、色调、亮度、对比度、随机遮挡。

本发明本发明通过对输入的人脸图像序列提取其光流强度图，得到对应的光流图像序列，然后与对人脸图像序列的RGB图像逐个进行融合，形成融合后的图像序列，然后输入到预训练好的检测模型中进行真伪鉴别，有效利用了光流强度图的特性，保留光流方法对伪造视频帧间“伪影”抖动敏感的同时，又具备了融合面部原有纹理特性的能力。

附图说明

图1是本发明的基于面部光流场与纹理特性融合的深伪视频检测方法的流程图。

图2为本发明的检测模型的训练过程示意图。

图3为基于面部光流场与纹理特性融合的深伪视频检测过程的示意图。

图4为利用不同的光流提取方法提取到的相邻两帧的光流图像对比图。

图5为人脸的RGB图像与光流图像通过不同的融合方式得到的融合图像。

图6为前后两帧图像输入网络进行光流特征提取的过程示意图。

图7为利用相关层进行网络快速匹配的示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

对于深度学习生成的伪造图像或视频，在生成过程中，存在生成人脸与被篡改人脸的背景融合的过程，因此在生成的图像中会存在一定的“伪影”区域，该“伪影”区域存在一定的随机性，故而在相临帧中存在差异。

为更好的利用这种帧间差异，本发明出了基于面部光流与纹理特性融合的深伪视频检测方法，将光流应用到深度伪造视频的检测任务中，同时为避免光流对于帧间抖动过于敏感，保留一定的面部纹理特性，该方法将视频序列中相临帧的光流与人脸图像进行融合，在保留光流方法对伪造视频帧间“伪影”抖动敏感的同时，又具备了融合面部原有纹理特性的能力。

如图1、图3所示，本发明实施例的基于面部光流场与纹理特性融合的深伪视频检测方法，主要包括以下步骤：

计算输入的人脸图像序列的光流强度图，得到对应的光流图像序列；

对人脸图像序列的RGB图像与对应的光流图像序列逐个进行融合；

将得到的融合图像序列输入检测模型中进行真伪鉴别，输出真伪结果。

本发明通过对输入的人脸图像序列提取其光流强度图，得到对应的光流图像序列，然后与对人脸图像序列的RGB图像逐个进行融合，形成融合后的图像序列，然后输入到预训练好的模型中进行真伪鉴别，有效利用了光流强度图的特性，保留光流方法对伪造视频帧间“伪影”抖动敏感的同时，又具备了融合面部原有纹理特性的能力。

其中，所述检测模型采用InceptionNet、ResNet、VGG-Net、EfficientNet、MobileNet、ShuffleNet的一种。

其中，计算输入的人脸图像序列的光流强度图的步骤之前，还包括步骤：

对输入序列进行人脸检测、跟踪、关键点检测、识别操作，将识别出的人脸按照识别的ID分别进行存储，形成人脸序列，同时对识别出的人脸逐一计算其光流强度，同时得到光流图像序列。

在人脸检测过程中加入跟踪算法，可以抵消人脸检测框抖动的影响，可以提升光流计算的稳定性，避免人脸检测框的抖动给光流计算带来误差。

进一步的，为了应对视频中出现多个人脸相互遮挡造成跟踪失效的情况，加入了人脸识别功能，从而保证视频中出现多个人脸依然可以准确跟踪。

本发明实施例的检测方法可以对输入的视频数据进行处理，在接收到输入的视频数据时，首先判断输入序列的格式是否正确，如正确则进行解码，如错误则返回错误码。

其中，在对符合要求的格式的视频数据解码处理时，可以是现有解码技术或手段进行，如利用FFmpeg对输入的视频进行解码，其支持多种视频格式，包括MP4、MOV、WMV、AVI、WKV等，对于解码过程不再赘述。

本发明实施例中，计算输入人脸序列的光流强度图，可以采用现有的光流计算方法或网络来实现；其中，目前的可用的光流计算网络可以是如公知的LiteFlowNet、LiteFlowNet2、HD3、LiteFlowNet3、FlowNet2、PWC-Net等。

其中，所述的权重融合是将输入的人脸图像的RGB图像与计算到的光流图像，按照不同的权重系数进行融合，通过调整权重系数，得到融合图像，以用于后续的伪造鉴别，即将融合图像送入训练好的鉴伪网络中鉴别真伪。

其中，对权重融合后的融合图像进行鉴别的训练好的鉴伪网络，如可以采用本领域中公知或熟悉的分类网络来实现，如可采用目前公开的分类网络InceptionNet、ResNet、VGG-Net、EfficientNet等。

另外，如果需要对网络部署到嵌入式端也可采用MobileNet、ShuffleNet等结构。

由鉴伪网络或分类网络对权重融合后的图像经过网络计算后，可以得到范围为[0,1]的预测结果，预测结果越趋近于0代表输入图越真实，预测结果越趋近于1代表输入图像为生成图像的可能性越高。

为了更能直观显示鉴别结构，本发明优选的采用可视化的结果显示计算对鉴别结果进行展示或显示，方便可以直接知晓真伪结果。

其中，在结果可视化中，将模型的预测结果在输入视频上进行展示，如根据模型预测的真伪，将人脸检测框用不同的形式表示，若预测结果小于等于0.5分，则将人脸检测框用实红线表示，若预测结果大于0.5分，则将人脸检测框用虚绿线表示。

另外，为了可视化的更直观，将Real/Fake标签显示在人脸检测框的一侧，如右上端或是相应的位置。

其中，所述的训练好的检测模型的可以采用如下步骤训练实现，参见图2所示：

首先将收集到的真实视频集与伪造视频集进行标签化，真实视频的标签为0，伪造视频的标签为1，然后利用视频解码方法，对真实视频集与伪造视频集进行解码操作，从而得到对应的图像序列。

得到训练集的图像序列后，对图像序列进行人脸检测，在人脸检测过程中加入人脸跟踪的方法，以提升人脸检测的精度与速度，利用跟踪方法来减少检测过程中检测框的抖动误差。

当检测到图像序列中存在多个人脸时，为更好区分图像序列中人脸，加入人脸识别的方法，将图像序列中的裁剪后的人脸按照身份信息分别进行存储，然后利用现有的可用的光流计算方法对裁剪好的人脸序列进行光流计算。

其中，特别的，训练中，为了提升后续模型的泛化性，将目前开源的光流计算方法进行整理，每一个光流计算方法都会用于人脸序列等光流计算，得到光流强度图；设输入人脸序列的个数为n+1,提取光流的方法个数为m,则通过计算可以得到m×n个光流图(对于单个光流提取方法，两个相临输入帧可得到一个光流图，故n+1个输入帧，可得到n个光流图)。

得到光流图后，利用不同的融合方法，将光流图像与裁剪到的人脸图像进行融合，可以采用拼接融合、权重融合等方式来进行融合。

对于得到的融合图像，可以采用扩增方法如随机裁剪、色调、亮度、对比度、随机遮挡等进行数据增广。

将增广后的数据送入现有分类网络，如InceptionNet、ResNet、VGG-Net、EfficientNet、MobileNet、ShuffleNet等中进行训练。

当Loss降低到足够低时，可以得到最优的分类模型，即检测模型，保存此时分类模型的结构与权重参数，用于后续的检测过程，至此训练过程结束。

图4表示对于真实视频与伪造视频中的相邻两帧，即第k帧与第k+1帧，利用不同的光流提取方法提取到的光流图像对比，图像的右侧用Real与Fake代表输入序列的真伪，图示下方用LiteFlowNet、LiteFlowNet2、HD3、LiteFlowNet3、FlowNet2、PWC-Net代表不同的光流提取方法。

从上图中可以看到，对于真实图像与伪造图像，其光流特征区分性明显。从真实视频相邻两帧提取到的光流强度图中，光流的强度较弱，整体光流图像亮度偏暗且光流强度图中人脸面部轮廓不清晰。而从深度学习生成的伪造视频相邻两帧提取到的光流强度图中，光流强度较强，整体光流图像亮度偏亮且光流强度图中人脸面部伪造区域轮廓清晰。

由于真实视频相邻两帧的光流强度图与伪造视频相邻两帧提取到的光流强度图在光流强度的强弱、整体光流图像亮度的亮暗，人脸面部轮廓清晰与否存在明显的区别，这样通过网络训练好，可以利用训练好的网络，对此进行鉴别，从而可以实现根据待鉴别的视频的光流强度的强弱、整体光流图像亮度的亮暗，人脸面部轮廓清晰与否，来给出真伪鉴别结果。

图5表示出了人脸的RGB图像与光流图像通过不同的融合方式得到的融合图像，为了方便对比，图5中(a)、(b)分别显示出的是没有经过融合的人脸的RGB图像与对应的光流图像。设网络输入图像的宽度与高度分别为w,h,将RGB图像与光流图像的分辨率分别调整为w/2，h，然后进行横向拼接，即得到图5中(c)所示的组合缩放后的图像。图5中(d)-(h)分别表示为由不同融合系数ρ得到的融合图像。

I_mix＝(1-ρ)×I_rgb+ρ×I_{optical_flow}。

下表为对真伪人脸检测时，不同模型的检测有效率(％)，检测对象包括RGB图像，光流图像，拼接图像以及不同融合系数ρ融合下的融合图像。

表1

从上表中可以看出，当ρ取值为0.5时，在各个模型中大部分可以得到最好表现，也就是当光流图像与RGB图像按照1：1的比例进行融合，在兼顾面部帧间“伪影”信息与纹理信息的同时，可以获得最优的检测效果，进一步的也证明了本发明提出的方法的可行性。

图6表示出了前后两帧图像输入网络以进行光流特征提取的过程，位于左侧上方图像为t时刻的视频帧，位于左侧下方图像为t+1时刻的视频帧。

从图6可看出，网络首先利用两个子模块对两幅输入图像分布进行光流特征图的提取。为网络快速匹配，本发明引入了一个“相关层”，可以在两个特征图之间执行特征块的比较，给定两个多通道特征图f₁，f₂：R²→R^c，R²→R^c代表两个特征图到相关层取值范围变化，用w，h，c分别代表特征图的宽度、高度和通道数，相关层中将f₁中的每个待匹配块与f₂进行比较，首先考虑两个块的比较，两个块x₁，x₂的相关性可以定义为：

上式中两个块的相关性表示为c(x₁，x₂)，块大小K＝2k+1，需要注意的是，上式等同于神经网络中的卷积的一个步骤，但不是将数据与卷积核卷积，而是将待搜索特征图f₁中的数据与其对应的搜索特征图f₂中的数据进行卷积运算。

其中，计算特征图相关性时的搜索范围，是用待搜索特征图f₁中的一点在搜索特征图f₂中进行搜索，搜索范围是大小为2k+1的方框，当搜索到最相似的位置，待搜索特征图f₁与搜索特征图f₂的相关性最大。

对应的，如果待搜索特征图f₁中搜索点的坐标为(x，y)，则在搜索特征图f2中，横向搜索范围为(x-k，x+k)，纵向搜索范围为(y-k，y+k)。

由于计算相关性c(x₁，x₂)涉及c×K²次乘法，比较所有的图块组合就会涉及w²×h²运算，这样的方式产生很大的结果并使有效的前进和反向传播变得棘手。因此，出于计算原因，本发明限制了比较的最大位移，并且在两个特征图中引入了步幅，具体计算如下：

给定最大位移d，对于每个待匹配块x₁，都通过限制搜索匹配块x₂的范围，仅在D＝2×d+1的邻域中计算相关性c(x₁，x₂)。

使用步幅s₁和s₂，以全局量化x₁并量化以x₁为中心的邻域内的x₂，实际比对中，因为人脸尺寸较小，所以将x₁，x₂两个块的步幅设置为1。

理论上所产生的结果是四维的：对于两个2D位置的每个组合，都获得一个相关值，即两个向量的标量积，分别包含裁剪后的图块的值。实际上，组合通道中的相对位移，能获得大小为(w×h×D²)的输出。

相关层应用了视觉中图像匹配的思想，在视觉算法匹配过程中，为了寻找上图中左侧人脸在右侧人脸中对应的位置，用搜索框在右侧人脸对应像素位置周围依次滑动，做相关运算(即对应位置像素相乘求和)。得到的值越大，代表越相关，即图像越接近。分割网络中的相关运算类似，不同点是其不在图像本身做相关，在卷积得到的特征图上做相关运算。

如图7所示，上文提及计算待匹配块x₁,待匹配块x₂的相关性，在平面图中可以理解为左侧人脸中白框为匹配块x₁,右侧黑框为(给定最大位移d，对于每个待匹配块x₁，都通过限制匹配块x₂的范围，仅在大小D＝2×d+1的邻域中计算相关性，c(x₁,x₂))对应到图6中，图6的右图中黑框中白色框的个数为5(D＝2×d+1)，也就是将匹配块x₂限制在黑框的范围内与待匹配块x₁进行匹配。

通过如上操作，待匹配块x₁可以在匹配块x₂中，以较小的搜索范围获得较高的精度，同时可以有效的减少计算量和存储消耗，使得光流的提取可以达到准实时的效果。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.基于面部光流场与纹理特性融合的深伪视频检测方法，其特征在于，包括步骤：

2.根据权利要求1所述基于面部光流场与纹理特性融合的深伪视频检测方法，其特征在于，利用图像拼接或权重融合手段，对所述人脸图像序列的RGB图像与对应的光流图像序列的光流强度图逐个进行融合。

3.根据权利要求2所述基于面部光流场与纹理特性融合的深伪视频检测方法，其特征在于，所述人脸图像序列的RGB图像与对应的光流图像序列的光流强度图按不同的融合系数ρ进行融合，ρ大于0小于1；

I_mix＝(1-ρ)×I_rgb+ρ×I_{optical_flow}。

4.根据权利要求3所述基于面部光流场与纹理特性融合的深伪视频检测方法，其特征在于，所述人脸图像序列的RGB图像与对应的光流图像序列的光流强度图按1:1的比例进行融合，融合系数ρ为0.5。

5.根据权利要求1所述基于面部光流场与纹理特性融合的深伪视频检测方法，其特征在于，所述的检测模型对融合图像经过网络计算后，得到范围为[0,1]的预测结果，预测结果越趋近于0代表输入图越真实，预测结果越趋近于1代表输入图像为生成图像。

6.根据权利要求1所述基于面部光流场与纹理特性融合的深伪视频检测方法，其特征在于，所述的计算输入人脸序列的光流强度图时，首先利用两个子模块对t、t+1时刻的两幅输入图像视频帧分布进行光流特征图的卷积提取，得到两个相关的多通道特征图，在两个多通道特征图之间执行特征块的比较，计算两个特征块的相关性时，通过以下步骤实现：

给定最大位移d，对于每个待匹配块x₁，限制搜索匹配块x₂的范围，仅在D＝2×d+1的邻域中计算相关性c(x₁,x₂)，使用步幅s₁和步幅s₂，以全局量化待匹配块x₁，并量化以待匹配块x₁为中心的邻域内的搜索匹配块x₂；

式中，f₁,f₂分别为两个多通道特征图。

7.根据权利要求1所述基于面部光流场与纹理特性融合的深伪视频检测方法，其特征在于，提取输入人脸序列的光流强度图，得到光流图像序列的步骤之前，还包括步骤：

8.根据权利要求1所述基于面部光流场与纹理特性融合的深伪视频检测方法，其特征在于，输出真伪结果时，将模型的预测结果在输入视频上进行可视化展示，将人脸检测框用不同的颜色表示或在人脸检测框的一侧进行真伪标注。

9.根据权利要求1所述基于面部光流场与纹理特性融合的深伪视频检测方法，其特征在于，所述的检测模型可以采用如下步骤训练形成：

对图像序列进行人脸检测，并检测到的人脸进行跟踪；

对于得到的融合图像，采用扩增方法进行数据增广；

10.根据权利要求9所述基于面部光流场与纹理特性融合的深伪视频检测方法，其特征在于，所述的进行数据增广的方法包括随机裁剪、色调、亮度、对比度、随机遮挡。