CN114202782A

CN114202782A - 一种基于传统特征与神经网络的人脸深度伪造检测方法

Info

Publication number: CN114202782A
Application number: CN202010912158.1A
Authority: CN
Inventors: 何小海; 杨雨鑫; 周欣; 熊淑华; 卿粼波; 吴小强; 滕奇志
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-09-02
Filing date: 2020-09-02
Publication date: 2022-03-18

Abstract

针对人脸深度伪造检测技术，本发明设计了一种基于传统特征与神经网络的检测方法。主要涉及基于灰度共生矩阵与XceptionNet融合分类应用，尤其涉及一种基于灰度共生矩阵的图像分类特征提取的应用。方法包含四部分：图像预处理模块，传统特征提取模块，神经网络特征提取模块，特征融合判决模块。本发明充分发挥神经网络高准确率优点与传统特征可解释性理念。对打击虚假图像泛滥提供了一种优良实用性的解决方案，具有较为广阔的应用前景。

Description

一种基于传统特征与神经网络的人脸深度伪造检测方法

技术领域

本发明涉及计算机视觉领域，具体涉及基于灰度共生矩阵与XceptionNet融合分类应用，尤其涉及一种基于灰度共生矩阵的人脸深度伪造图像分类特征提取的应用。

背景技术

近年来，人脸深度伪造技术快速发展，出现了以DeepFake、Face2Face、FaceSwap为主的人脸深度伪造技术。这些技术快速商业化，普通人可以利用开源的深度伪造程序生成人脸图像/视频，但深度伪造视频对于普通公众甚至专业机构来说都极难分辨。在目前数字化时代的大背景下，造成侵犯个人名誉及隐私权、混乱焦点新闻、伪造法律证据等众多危害。

虽然，目前针对人脸深度伪造技术提出了众多检测方案，但国内对于图像合成的检测技术尚处于起步阶段。同时，由于现有神经网络检测方法“黑盒”特性，内部检测过程可解释性匮乏，导致深度伪造图像取证存在一定困难。

发明内容

本发明针对现有深度伪造图像/视频检测方法缺乏特征可解释性的问题，提供了一种基于传统特征与神经网络的人脸深度伪造检测方法。采用双流网络特征融合思想，保留神经网络高检测率的优点，采用融入传统特征提取方法给予一定特征解释性，获取深度伪造图像检测结果，提出了图1所示的深度伪造图像检测模型。

本发明通过以下技术方案来实现上述目的：

一种基于传统特征与神经网络的人脸深度伪造检测方法，包括以下步骤：

步骤一：区域图像针对性预处理；

步骤二：双流网络采用灰度共生矩阵提取图像特征；

步骤三：采用多损失训练双流网络。

作为步骤一中区域图像针对性预处理说明如下：

图像预处理模块主要针对视频流进行数据转换。在抽取视频流的基础上，检测并勾画图像中的人脸区域，完成视频流到图像帧的数据转换。将人脸区域直接作为传统特征提取模块的数据输入，而神经网络特征提取模块的输入需要进行适当处理。首先，对图像在RGB空间进行平滑滤波，抑制深度伪造图像低水平不稳定伪影，改善真实图像和深度伪造图像之间的低水平相似性，更多地引导分类器学习泛化能力更好的内在特征。其次，利用篡改图像的亮度-色度-饱和度空间存在统计不一致的特点，以及HSV颜色空间更佳以人类感官的方式封装信息的特性。故将滤波后的RGB空间进行转换，以HSV空间图像作为神经网络特征提取模块的数据输入。

作为优选的技术方案，步骤二的双流网络采用灰度共生矩阵提取图像特征，其说明如下：

传统特征提取模块主要针对RGB空间人脸区域提取纹理信息，如图2。在特征提取支路，由于深度伪造图像尺寸区域有限，本发明将RGB空间人脸区域进行3×3的网格划分，深度伪造图像主要集中在核心区域，与之相邻的区域内多为原始图像信息。针对每个网格区域单独计算灰度共生矩阵，灰度共生矩阵的方向分别取0度，45度，90度，135度四个方向。在每个方向的灰度共生矩阵的基础上，提取二阶矩、对比度以及熵三类丰富的纹理特征参数。如此可以在关注局部网格纹理特征的同时，对RGB空间网格区域之间的纹理特征进行对比，最终生成1×108特征表征图像纹理差异。

作为步骤三中的采用多损失训练双流网络，其说明如下：

神经网络特征提取模块主要针对输入的HSV空间图像进行特征提取。分类网络使用目前分类架构中效果优异的XceptionNet提取特征。为了避免网络需要大量数据进行训练，发明使用ImageNet数据集预训练的网络参数为卷积层初始化。将HSV空间图像作为XceptionNet分类网络的输入，采用实验数据集对该网络进行微调。发明对XceptionNet进行了针对性调整，在全局平均池化层与全卷积层连接处，将1×2048维特征卷积为1×256维特征向量，并保留此1×256维特征向量与传统特征向量在进行特征融合。

特征融合判决模块将神经网络支路1×256维特征和传统方法的1×108维特征相联结，融合后连接最后的全卷积层。损失均采用均方误差(mean square error,MSE)函数与标签值进行计算。总训练损失TotalLoss由Loss1与Loss2两部分组成，Loss1为特征融合层之后的训练损失，Loss2为神经网络特征提取模块训练损失。网络在特征融合结点进行梯度截断，以保证特征融合模块训练过程中，不影响神经网络特征提取模块梯度传导。采用监督学习方式，根据总损失反向传播调整网络各层参数，直到损失趋于稳定。

本发明无论对单一深度伪造数据集，亦或混合深度伪造方法数据集检测均有提升，具有一定泛化性，并且GLCM的纹理特征为方法发明提供了一定的可解释性。此基础上研发人脸深度伪造检测工具可以对图像/视频进行真伪检测。使用工具针对深度伪造图像进行检测成果界面如图3所示。

附图说明

图1是本发明总体框架图。

图2是本发明提出的传统特征提取模块框架图。

图3是本发明所提出的人脸深度伪造检测工具样例。

具体实施方式

深度伪造图像检测模型如图1所示，总体由四部分组成：图像预处理模块，传统特征提取模块，神经网络特征提取模块，特征融合判决模块。本发明基于FaceForensics++数据集训练得到网络模型，在测试集统计模型分类结果计算混淆矩阵(Confusion Matrix)，为了评估实验得到的分类结果，根据实际应用引入两个评价指标：准确率(Accuracy)和召回率(Recall),如下式所示：

其中，真阳性(True Positive,TP)为发明判断真实图像为真实图像，假阳性(False Positive,FP)为发明判断深度伪造图像为真实图像，假阴性(False Negative,FN)为发明判断真实图像为深度伪造图像，真阴性(True Negative,TN)为发明判断深度伪造图像为深度伪造图像。

准确率(Accuracy)是指发明检测检测正确的图像占验证集图像数量的百分比，发明使用其评价模型对深度伪造图像的总体判别能力；召回率(Recall)是指正/负的样本中被预测为正/负样本的概率,发明使用其评价模型发明对深度伪造图像/真实图像单独的判别能力。

表1生成训练模型在各个库上的准确率

针对DeepFake、Face2Face、FaceSwap三种不同深度伪造方法生成的数据集，采用本发明进行单独训练的检测识别率如表1。相较Steg.Features+SVM、MesoNet、XceptionNet，发明提出的模型检测FaceSwap和Face2Face深度伪造图像都取得了明显性能提升，虽然DeepFake识别率相比较XceptionNet方法有所减低，但是其准确率与本模型相比仍属最高值，表明结合了纹理特征和HSV空间特性的神经网络模型对提升检测准确率具有积极作用。

本发明进一步在混合数据集上进行训练得到混合模型，并针对各类深度伪造方法验证集计算召回率。实验结果如表2所示。发明仅仅在Face2Face深度伪造图像检测率有小幅下降，DeepFake，FaceSwap深度伪造方法的检测召回率获得了小幅提升，真实图片召回率提升了2.11个百分点。

表2混合数据集训练各测试集的召回率

Claims

1.一种基于传统特征与神经网络的人脸深度伪造检测方法，其特征在于包括以下步骤：

步骤一：区域图像针对性预处理，首先使用MTCNN人脸检测框架检测图像中人脸区域，再对区域进行滤波，空间转换提取出图像的关键特征信息；

步骤二：双流网络中采用网格划分方法对图像进行处理，之后再计算灰度共生矩阵提取图像特征；

步骤三：采用多损失训练双流网络，融合了最终的网络损失和神经网络模块的局部损失，最终得到融合后的特征损失。

2.根据权利要求1所述的基于传统特征与神经网络的人脸深度伪造检测方法，其特征在于步骤一中检测并仅勾画图像中的人脸区域，采用平滑滤波的方式抑制深度伪造图像低水平不稳定伪影，进而利用图像的亮度-色度-饱和度空间存在统计不一致的特点，将人脸区域彩色空间转换成HSV空间图像传递给神经网络。

3.根据权利要求1所述的基于传统特征与神经网络的人脸深度伪造检测方法，其特征在于步骤二中将彩色空间人脸区域进行3×3的网格划分，针对每个网格区域单独计算灰度共生矩阵，灰度共生矩阵的方向分别取0度、45度、90度、135度四个方向；在每个方向的灰度共生矩阵提取二阶矩、对比度以及熵三类纹理特征参数，生成1×108维图像特征表征纹理差异。

4.根据权利要求1所述的基于传统特征与神经网络的人脸深度伪造检测方法，其特征在于步骤三中损失均采用均方误差(mean square error,MSE)函数与标签值进行计算；总训练损失TotalLoss由Loss1与Loss2两部分组成，Loss1为特征融合层之后的训练损失，Loss2为神经网络特征提取模块训练损失。