CN111967344B

CN111967344B - 一种面向人脸伪造视频检测的精细化特征融合方法

Info

Publication number: CN111967344B
Application number: CN202010736565.1A
Authority: CN
Inventors: 夏志华; 费建伟; 顾飞; 余佩鹏
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2023-06-20
Anticipated expiration: 2040-07-28
Also published as: CN111967344A

Abstract

本发明公开了一种面向人脸伪造视频检测的精细化特征融合方法，涉及模式识别领域，方法包括：对真假人脸视频进行帧分解，将视频格式文件转化为连续的图像帧序列；对连续图像帧序列进行人脸位置检测，调整检测结果使人脸框中包含背景；对每一帧图像剪裁人脸框，得到人脸图像训练集，训练EfficientNet B0模型；从人脸图像序列中随机选取连续的N帧，输入EfficientNet B0模型得到特征图组；将特征图组分解为独立的特征图，将相同通道的特征图按照原序列顺序重新堆叠得到新的特征图组并进行二次特征提取，得到特征向量，连接到单个神经元，以sigmoid为激活函数进行最终的视频片段真假分类。本发明既保留了空域信息，又充分提取时域信息，有效地提高伪造检测精度。

Description

一种面向人脸伪造视频检测的精细化特征融合方法

技术领域

本发明涉及模式识别技术领域，尤其涉及一种面向人脸伪造视频检测的精细化特征融合方法。

背景技术

近年来，随着网络通讯技术的飞速发展，信息传播的速度和范围得到了极大地提升，短时间内可以影响到上亿人，因此传播信息的真伪显得尤为重要。虚假的信息会扰乱社会治安，影响民众对社会的信任度。其中，伪造视频是一种新型的伪造信息的方式，特别是对于人脸的伪造。人脸作为身份认证的重要信息，具有先天的便利性和唯一性，民众的潜意识会更加相信以人脸作为身份标识的信息。尽管伪造视频上存在技术难关，早期的人脸伪造还可以通过肉眼看出端倪。但随着深度学习的快速发展，通过基于深度学习的伪造技术，伪造的视频细节处理的能力有了指数级的飞跃。这使得人脸伪造视频变得更加真实，并且越来越难以被肉眼区分。这些技术在实现人脸替换的同时，可以充分拟合人脸的面部表情及特征细节，不仅可以替换人脸，还可以控制其面部表情变化。不法分子通过这些技术，将视频传播到社会上可以获取大量的流量关注，同时赚取巨大的利润，给个人造成极大的名誉损失，影响社会和谐发展。不仅仅如此，利用该技术甚至可能危害国家安全。在这种技术面前，如何保护个人隐私，如何保证视频的真实性和法律效益，都将成为目前亟待解决的问题。

发明内容

发明目的：为了防止人脸伪造视频带来负面影响，本发明提出一种面向人脸伪造视频检测的精细化特征融合方法。利用该方法可以更加精确的捕捉到真假人脸特征在时域上的差异，提高人脸伪造视频检测的精度。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：

一种面向人脸伪造视频检测的精细化特征融合方法，包括如下步骤：

(1)获取包含真假人脸视频的数据集，对数据集中的真假人脸视频进行帧分解，将视频格式文件转化为连续的图像帧序列；

(2)对步骤(1)获得的连续图像帧序列进行人脸位置检测，调整检测结果使人脸框中包含一定面积的背景；对每一帧图像剪裁人脸框，得到连续的人脸图像序列数据集；

(3)将步骤(2)得到的人脸图像序列数据集作为人脸图像训练集，使用该训练集数据训练深度卷积网络EfficientNet B0模型；

(4)从步骤(2)得到的人脸图像序列中随机选取连续的N帧，依次输入深度卷积网络EfficientNet B0模型，将网络最后一个卷积层的输出作为输入帧的深度特征图，对于连续的N帧人脸图像，得到连续的N个深度特征图构成的特征图组；

(5)将步骤(4)中得到的特征图组分解为独立的特征图，将相同通道的特征图按照原序列顺序重新堆叠得到新的特征图组；

(6)将步骤(5)中得到的新的特征图组输入一个权值共享的卷积层进行二次特征提取，该卷积层输出一个特征向量，将该特征向量连接到单个神经元，以sigmoid为激活函数进行最终的视频片段真假分类。

进一步的，在步骤(2)中，使用MTCNN人脸检测器对连续图像帧序列进行人脸位置检测，并对检测结果进行调整，方法如下：

(2.1)使用MTCNN逐帧地对图像帧序列进行人脸检测，MTCNN得到3组返回值：

1)图像中包含人脸的概率；2)人脸矩形框位置信息，以(x,y,w,h)进行表示，其中x,y表示以图像左上角点为原点，检测到的人脸矩形的左上角横纵坐标，w,h分别表示矩形框的宽和高；3)检测到的人脸的5个关键点位置；

(2.2)对于步骤(2.1)中检测到的人脸，计算人脸框中心坐标点P_center，公式如下：

以P_center为中心，以人脸框中的长边作为参照，将人脸框扩展α倍，扩展公式如下：

其中，Rect_new表示扩展后的人脸矩形框位置信息；

(2.3)根据步骤(2.2)中扩展后的人脸矩形框信息，从连续的图像帧序列中裁剪出包含人脸的图像块，得到人脸图像序列，当MTCNN返回检测到人脸的概率低于设定的阈值时，不对该图像进行剪裁。

进一步的，在步骤(3)中，利用剪裁后的人脸图像训练集训练深度卷积网络EfficientNet B0模型，方法如下：

(3.1)利用EfficientNet B0模型在ImageNet数据集上训练好的权重进行模型初始化；

(3.2)将EfficientNet B0模型的最后一层神经元的分类层剔除，对最后一层卷积层的输出进行全局平均池化，得到特征向量，将其连接到单个以sigmoid作为激活函数的神经元分类层；

(3.3)以小批量随机梯度下降作为优化器，设置动量以及批次大小，二分类交叉熵作为损失函数；将剪裁后的人脸图像训练集重新随机排列，在步骤(3.2)的模型上训练。

进一步的，在步骤(4)中，连续的N帧人脸图像得到深度特征图组的方法如下：

(4.1)对于训练后的EfficientNet B0模型，将其最后一层单神经元分类层与全局平均池化层剔除，得到以人脸图像为输入，最后一层卷积层激活值为输出的特征提取模型，记作M(x；W)，其中x表示输入图像，W表示模型的权值；

(4.2)对于N帧人脸图像序列V＝{I₁,I₂,...,I_N},I_N表示第N帧人脸图像，将其输入特征提取模型M(x；W)并得到最后一层卷积层的激活值，作为输入人脸图像序列的深度特征组，记作

其中H,W和C分别表示每个输入人脸图像对应深度特征图的高、宽与通道数，F表示特征图。

进一步的，所述步骤(5)将相同通道的特征图按照原序列顺序重新堆叠得到新的特征图组，方法如下：

(5.1)将特征图组拆分，得到N×C个尺寸为H×W的特征图，记作

其中，n表示该特征图f是从第n帧提取而来，c表示该特征图f的通道索引，n∈[1,N],c∈[1,C]；

(5.2)将特征图f按照帧序号n的顺序进行重组，即对于具有相同的通道索引c的特征图f，根据对应原始帧序列的次序重新组合，得到新的特征图组

F_new表示新的特征图。

进一步的，在步骤(6)中，利用权值共享的卷积层进行最终的视频片段真假分类的方法如下：

(6.1)对于包含C个

的新特征图组，利用权值共享卷积层，分别将F_new作为输入，输出由C个标量特征构成的C维特征；

(6.2)对于步骤(6.1)输出的C维特征，直接将其连接到单个神经元，对该神经元使用sigmoid激活函数进行非线性处理，将输出规范到[0,1]，输出越接近0，输入人脸图像序列的伪造概率则越大，反之越小。

有益效果：与现有技术相比，本发明的技术方案具有以下有益的技术效果：

本发明提出的面向人脸伪造视频检测的精细化特征融合方法能够从特征图级别提取输入人脸图像序列的动态特征。相比于现有的CNN-LSTM架构算法，不仅可以保留空域信息，对于时域信息的提取也更加充分。本发明方法可以有效地提高伪造检测精度，对于多种伪造算法都有效果。

附图说明

图1是EfficientNet B0的完整结构；

图2是EfficientNet B0中的MBConv模块的结构图；

图3是特征融合模块的结构图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

本发明所述的一种面向人脸伪造视频检测的精细化特征融合方法，包括如下步骤：

(1)获取包含真假人脸视频的数据集，对数据集中的真假人脸视频进行帧分解，将视频格式文件转化为连续的图像帧序列。

(2)使用MTCNN人脸检测器对步骤(1)获得的连续图像帧序列进行人脸位置检测，调整检测结果使人脸框中包含一定面积的背景；对每一帧图像剪裁人脸框，得到连续的人脸图像序列数据集；具体包括：

(2.1)使用MTCNN逐帧地对图像帧序列进行人脸检测，MTCNN得到3组返回值：1)图像中包含人脸的概率；2)人脸矩形框位置信息，以(x,y,w,h)进行表示，其中x,y表示以图像左上角点为原点，检测到的人脸矩形的左上角横纵坐标，w,h分别表示矩形框的宽和高；3)检测到的人脸的5个关键点位置；

其中，Rect_new表示扩展后的人脸矩形框位置信息，该位置信息对应的四个元素同样分别表示新矩形框的左上角横纵坐标以及其宽和高；

(2.3)根据步骤(2.2)中扩展后的人脸矩形框信息，从连续的图像帧序列中裁剪出包含人脸的图像块，得到人脸图像序列，当MTCNN返回检测到人脸的概率低于设定的阈值时，不对该图像进行剪裁。本实施例中，将人脸概率阈值设定为0.85，即当MTCNN返回检测到人脸的概率低于0.85时，不对该图像进行剪裁。

(3)将步骤(2)得到的人脸图像序列数据集作为人脸图像训练集，使用该训练集数据训练深度卷积网络EfficientNet B0模型；方法如下：

(3.2)将EfficientNet B0模型的最后一层神经元的分类层剔除，对最后一层卷积层的输出进行全局平均池化，得到1480维的特征向量，将其连接到单个以sigmoid作为激活函数的神经元分类层；

(3.3)以小批量随机梯度下降作为优化器，设置动量为0.95，批次大小为32，二分类交叉熵作为损失函数；将剪裁后的人脸图像训练集重新随机排列，在步骤(3.2)的模型上训练10个epochs。

EfficientNet B0模型的架构如图1所示，主要包括MBConv模块，该模块包含5个1×1卷积与1个通道分离卷积，MBConv模块的结构如图2所示。

(4)从步骤(2)得到的人脸图像序列中随机选取连续的N帧，依次输入深度卷积网络EfficientNet B0模型，将网络最后一个卷积层的输出作为输入帧的深度特征图，对于连续的N帧人脸图像，得到连续的N个深度特征图构成的特征图组；方法如下：

其中H,W和C分别表示每个输入人脸图像对应深度特征图的高、宽与通道数，F表示特征图。本实施例中，H,W和C分别为7，7与1480。

(5)将步骤(4)中得到的特征图组分解为独立的特征图，将相同通道的特征图按照原序列顺序重新堆叠得到新的特征图组；方法如下：

(5.1)将特征图组拆分，得到N×C个尺寸为H×W的特征图，记作

F_new表示新的特征图。

(6)将步骤(5)中得到的新的特征图组输入一个权值共享的卷积层进行二次特征提取，权值共享的卷积层的结构如图3所示，包含3个3×3的卷积与激活函数，该卷积层输出一个特征向量，将该特征向量连接到单个神经元，以sigmoid为激活函数进行最终的视频片段真假分类；具体如下：

(6.1)对于包含C个

本实施例在DeepFakes Detection Challenge Preview(DFDC-P)与Celeb-DF两个大型伪造人脸视频数据集上进行了训练与测试，表1中展示了两个数据集的基本信息。本实施例测试了不同序列长度N的变化对检测精度的影响，并与著名的时空特征提取模型CNN-LSTM进行了对比，DFDC-P上的相关结果即DFDC-P上不同帧数对于检测精度的影响展示在表2中，Celeb-DF的结果即Celeb-DF上不同帧数对于检测精度的影响展示在表3中。可以发现，在两个数据集上，随着序列长度的增加，精度也随之增加直到帧数达到15帧，并且无论N的大小，本发明所提出的方案的精度总是高于著名的CNN-LSTM模型，进一步证明了本方案在时域特征融合中的优越性。

表1

数据集	真实视频/伪造视频	总帧数(百万)	分辨率
				DFDC-P	1131/4113	88.4/1783.3	180p-2160p
Celeb-DF	890/5639	358.8/2116.8	多尺度

表2

序列长度	3	6	9	12	15	18
							本方案	84.76	83.14	82.75	85.28	84.81	83.19
CNN-LSTM	79.08	80.50	80.28	80.78	81.91	79.75

表3

序列长度	3	6	9	12	15	18
							本方案	95.86	96.27	96.17	97.12	96.91	95.28
CNN-LSTM	95.22	95.06	95.13	96.53	96.38	95.28

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种面向人脸伪造视频检测的精细化特征融合方法，其特征在于：该方法包括如下步骤：

(3)将步骤(2)得到的人脸图像序列数据集作为人脸图像训练集，使用该训练集数据训练深度卷积网络EfficientNet B0模型，方法如下：

(3.3)以小批量随机梯度下降作为优化器，设置动量以及批次大小，二分类交叉熵作为损失函数；将剪裁后的人脸图像训练集重新随机排列，在步骤(3.2)的模型上训练；

2.根据权利要求1所述的一种面向人脸伪造视频检测的精细化特征融合方法，其特征在于：在步骤(2)中，使用MTCNN人脸检测器对连续图像帧序列进行人脸位置检测，并对检测结果进行调整，方法如下：

α*max(w,h),α*max(w,h))其中，Rect_new表示扩展后的人脸矩形框位置信息；

3.根据权利要求1所述的一种面向人脸伪造视频检测的精细化特征融合方法，其特征在于：在步骤(4)中，连续的N帧人脸图像得到深度特征图组的方法如下：

4.根据权利要求3所述的一种面向人脸伪造视频检测的精细化特征融合方法，其特征在于：所述步骤(5)将相同通道的特征图按照原序列顺序重新堆叠得到新的特征图组，方法如下：

(5.1)将特征图组拆分，得到N×C个尺寸为H×W的特征图，记作f_n ^c，其中，n表示该特征图f是从第n帧提取而来，c表示该特征图f的通道索引，n∈[1,N],c∈[1,C]；

F_new表示新的特征图。

5.根据权利要求4所述的一种面向人脸伪造视频检测的精细化特征融合方法，其特征在于：在步骤(6)中，利用权值共享的卷积层进行最终的视频片段真假分类的方法如下：

(6.1)对于包含C个

的新特征图组，利用后续的权值共享卷积层，分别将F_new作为输入，输出由C个标量特征构成的C维特征；

(6.2)对于步骤(6.1)输出的C维特征，直接将其连接到单个神经元，对该神经元使用sigmoid激活函数进行非线性处理，将输出规范到[0,1]。