CN112818915A

CN112818915A - 基于3dmm软生物特征的深度伪造视频检测方法及系统

Info

Publication number: CN112818915A
Application number: CN202110207575.0A
Authority: CN
Inventors: 胡永健; 陈香全; 刘琲贝; 王宇飞; 余翔宇
Original assignee: South China University of Technology SCUT; Sino Singapore International Joint Research Institute
Current assignee: South China University of Technology SCUT; Sino Singapore International Joint Research Institute
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2021-05-18

Abstract

本发明公开了一种基于3DMM软生物特征的深度伪造视频检测方法及系统，该方法包括下述步骤：视频预处理，选取人脸图像帧并输入至3DMM模型提取得到形状、纹理、表情与姿态四种特征向量；构建面部行为特征提取网络，提取人物特定面部行为特征；构建度量学习损失函数，训练面部行为特征提取网络；构建外貌特征提取模块；基于人物身份信息构建面部行为特征参考集和外貌特征参考集；提取待检测人物视频的面部行为特征与外貌特征，与参考集特征向量进行相似度匹配；设定外貌特征相似度阈值，并利用特征匹配一致性进行真假分类。本发明利用软生物特征对深度伪造视频进行检测，适用于特定重要人物，具有较高的检测准确度。

Description

基于3DMM软生物特征的深度伪造视频检测方法及系统

技术领域

本发明涉及人脸检测识别技术领域，具体涉及一种基于3DMM软生物特征的深度伪造视频检测方法及系统。

背景技术

深度伪造指的是使用深度学习技术对人脸进行篡改，将源视频人脸替换目标视频人脸，同时保留目标人脸的表情信息，生成逼真的深度伪造人脸视频。由于深度伪造人脸视频可能会被滥用于违法行为，因此研究针对深度伪造视频的检测技术具有十分重要的意义。

现有大多数深度伪造视频检测技术只是检测像素尺度上的伪造痕迹来判别视频真假，如视觉伪影，几何形变等，忽视了深度伪造视频所隐含的生物特征信息。此外，现有大多数深度伪造视频检测技术只停留在二维层面去获取人脸特征，无法有效的表现人脸的深度信息与姿态信息。因此难以满足跨库检测准确率的需求，存在泛化能力较弱等问题。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提供一种基于3DMM软生物特征的深度伪造视频检测方法，本发明利用3DMM模型检测深度伪造视频人物所展现的面部行为与外貌不一致性，有效提高网络模型的泛化能力。

本发明的第二目的在于提供一种基于3DMM软生物特征的深度伪造视频检测系统。

本发明的第三目的在于提供一种存储介质。

本发明的第四目的在于提供一种计算设备。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于3DMM软生物特征的深度伪造视频检测方法，包括下述步骤：

视频预处理，选取多张人脸图像帧；

将选取的人脸图像帧输入至3DMM模型，提取得到3DMM人脸参数化特征向量，包括形状、纹理、表情和姿态特征向量；

构建面部行为特征提取网络，将所述表情与姿态特征向量拼接后作为面部行为特征训练集，输入所述面部行为特征提取网络；

构建度量学习损失函数，训练所述面部行为特征提取网络，训练完成后保存网络权重；

构建外貌特征提取模块，将所述形状与纹理特征向量进行拼接，取拼接后特征向量时间维度上的平均值作为外貌特征；

基于人物身份信息构建面部行为特征参考集和外貌特征参考集；

提取待检测人物视频的面部行为特征与外貌特征，与面部行为特征参考集和外貌特征参考集的特征向量进行相似度匹配，得到外貌特征相似度最大的人物标签和面部行为特征相似度最大的人物标签；

设定外貌特征相似度阈值，若外貌特征对应人物标签与面部行为特征对应人物标签一致，且计算得到的外貌余弦相似度大于等于外貌特征相似度阈值时，则判定测试视频为真，否则为假。

作为优选的技术方案，所述选取多张人脸图像帧，具体采用连续选取或间隔选取方式，并采用人脸识别算法检测人脸区域，裁剪人脸区域图像，采用双线性插值统一调整大小。

作为优选的技术方案，所述3DMM模型利用人脸数据库先构造一个平均人脸形变模型，作为基础模型，修改参数使人脸模型发送形变，人脸模型表示为：

其中，S表示人脸形状，T表示纹理，

为平均人脸形状，A_id为形状PCA主成分，α_id为形状参数，A_exp为表情PCA主成分，α_exp为表情参数，

为平均纹理，A_tex为纹理PCA主成分，α_tex为纹理参数，

所述形状特征向量即

维度为i；

所述纹理特征向量即

维度为t；

所述表情特征向量即

维度为e；

所述姿态特征向量即三维姿态角度

作为优选的技术方案，所述面部行为特征提取网络基于神经网络ResNet-34，将神经网络ResNet-34最后一层全连接层输出为512维，获取512维的面部行为特征

作为优选的技术方案，所述度量学习损失函数具体表示为：

其中，m为批样本数量128，

为正例对样本集合，

为负例对样本集合，S_ik为样本对之间的余弦相似度，α，β，λ为超参数。

作为优选的技术方案，所述基于人物身份信息构建面部行为特征参考集和外貌特征参考集，具体步骤包括：

收集特定身份人物的不同角度、不同场景下面部视频，并通过面部行为特征提取网络与外貌特征提取模块，构建基于人物身份信息的面部行为特征参考集和外貌特征参考集。

为了达到上述第二目的，本发明采用以下技术方案：

本发明提供一种基于3DMM软生物特征的深度伪造视频检测系统，包括：视频预处理模块、3DMM特征提取模块、面部行为网络构建模块、度量学习损失函数构建模块、训练参数更新模块、外貌特征提取模块、参考集构建模块、特征匹配模块和判别分类模块；

所述视频预处理模块用于视频预处理，选取多张人脸图像帧；

所述3DMM特征提取模块用于提取3DMM人脸参数化特征向量，所述3DMM人脸参数化特征向量包括形状、纹理、表情和姿态特征向量；

所述面部行为网络构建模块用于构建面部行为网络，提取面部行为特征；

所述度量学习损失函数构建模块用于构建度量学习损失函数；

所述训练参数更新模块用于根据损失值更新网络权重系数，在面部行为网络训练完成后保存注意力网络的模型和权重；

所述外貌特征提取模块用于将所述形状与纹理特征向量进行拼接，取拼接后特征向量时间维度上的平均值作为外貌特征；

所述参考集构建模块用于构建面部行为特征参考集和外貌特征参考集；

所述特征匹配模块用于提取待检测人物视频的面部行为特征与外貌特征，与面部行为特征参考集和外貌特征参考集的特征向量进行相似度匹配，得到外貌特征相似度最大的人物标签和面部行为特征相似度最大的人物标签；

所述判别分类模块用于设定外貌特征相似度阈值，判别视频真假性，若外貌特征对应人物标签与面部行为特征对应人物标签一致，且计算得到的外貌余弦相似度大于等于外貌特征相似度阈值时，则判定测试视频为真，否则为假。

为了达到上述第三目的，本发明采用以下技术方案：

一种存储介质，存储有程序，所述程序被处理器执行时实现如上述基于3DMM软生物特征的深度伪造视频检测方法。

为了达到上述第四目的，本发明采用以下技术方案：

一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现如上述基于3DMM软生物特征的深度伪造视频检测方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明采用了3DMM模型提取人脸参数化特征的技术方案，保证了对人脸深度与姿态信息的良好提取能力。

(2)本发明采用软生物特征，从生物特征角度检测深度伪造视频真假，相比于像素级痕迹检测方法，本发明达到了模型泛化能力较高的技术效果。

(3)本发明通过构建度量学习损失函数，有效提取不同人物特有的面部行为特征。

(4)本发明采用基于人物身份的判别方法，通过预先建立参考集，可有效保障特定重要人物不受深度伪造视频困扰，具有较高的检测精度。

附图说明

图1为本发明基于3DMM软生物特征的深度伪造视频检测方法的整体流程示意图；

图2为本发明三维重建人脸示意图；

图3为本发明面部行为特征提取网络的训练流程示意图；

图4为本发明不同外貌特征相似度阈值在不同数据库上的准确度曲线示意图；

图5为本发明基于3DMM软生物特征的深度伪造视频检测方法的测试流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

在本实施例中，数据库采用VoxCeleb2、FaceForensics++和DFD三个数据库。VoxCeleb2由牛津大学制作，从Youtube视频网站上提取6112位名人共1128246段真实视频，为提高模型训练速度，本实施例只采用其中27207段视频，包含354位人物。FaceForensics++数据集由德国慕尼黑工业大学制作，包含1000段真实视频，1000段深度伪造视频，并使用H.264编解码器分别合成压缩率0(C0)、压缩率23(C23)和压缩率40(C40)三种不同压缩程度的视频。DFD数据集由谷歌公司联合Jigsaw公司共同制作，包含28位人物共363段真实视频，3068段深度伪造视频。与FaceForensics++数据集类似，DFD数据集也将视频分为三种不同压缩程度的视频。本实施例主要基于框架Pytorch-1.1.0来实现，实验所用显卡为TITANXP，系统为ubuntu16.04，CUDA版本为9.0.0，cudnn版本为7.1.4。使用OpenCV的VideoCapture类读取数据集视频，得到视频各帧图像。

如图1所示，本实施例提供一种基于3DMM软生物特征的深度伪造视频检测方法，包括下述步骤：

S1、视频预处理，获取连续图像帧，采用人脸识别算法检测人脸区域，裁剪得到统一尺寸的人脸图像；

在本实施例中，具体步骤包括：视频图像帧选取方式包括连续和间隔两种方式，为保证动作的连续性，本实施例采用连续帧选取方式。基于特征有效提取与算法时间复杂度的折中考虑，本实施例选取帧数n＝100，即从视频中顺序提取100张连续图像帧，利用dlib库中的人脸识别算法检测人脸区域，裁剪人脸区域图像，并用双线性插值统一调整大小为256×256；

S2、输入连续人脸图像至3DMM模型，提取得到形状、纹理、表情与姿态四种特征向量；

在本实施例中，具体步骤为：利用3DMM模型权重，将上述100张连续人脸图像帧输入3DMM模型，对每一帧提取形状特征向量

纹理特征向量

表情特征向量

以及三维姿态角度

本实施例的3DMM模型，将三维人脸视为一组线性对象，利用人脸数据库先构造一个平均人脸形变模型，作为基础模型，修改参数使人脸模型发送形变。

人脸模型参数化公式为：

其中，S表示人脸形状，T表示纹理，

为平均人脸形状，A_id为形状PCA主成分，α_id为形状参数，A_exp为表情PCA主成分，α_exp为表情参数。

为平均纹理，A_tex为纹理PCA主成分，α_tex为纹理参数，

A_id与A_tex来自BFM模型，A_exp来自FaceWarehouse模型。

形状特征向量即

维度为i；纹理特征向量即

维度为t；表情特征向量即

维度为e；姿态特征向量即三维人脸重建估计的三维姿态角度

因此，一个三维人脸由α_id、α_tex、α_exp唯一确定，如图2所示，三维人脸重建通过改变形状参数α_id与纹理参数α_tex可生成具有相同表情而身份不同的三维人脸，通过改变表情参数α_exp可在当前人脸身份下生成不同表情的三维人脸。在本实施例中，三维人脸重建用于提取人脸参数化特征向量，后续参与面部行为特征提取网络的输入以及提取外貌特征。

S3、构建面部行为特征提取网络，将表情与姿态特征向量拼接后作为训练集输入网络；

如图3所示，修改神经网络ResNet-34最后一层全连接层输出为512维，作为面部行为特征提取网络；考虑面部行为特征主要为时域上表情与姿态动作的变化，用连续100张人脸图像提取表情特征

与姿态特征

拼接后输入面部行为特征提取网络，利用度量学习损失函数将每个人物的面部行为特征向量聚在一起，获取512维的面部行为特征

通过面部行为特征提取网络，提取出人物独特的面部行为特征。

S4、模型训练：构建度量学习损失函数，训练面部行为特征提取网络，学习人物独特的面部行为特征，训练完成后保存网络权重；

对面部行为特征提取网络进行训练，设置最大训练迭代次数为20000，采用SGD优化器作为训练优化器，初始学习率为0.01，采用学习率随训练迭代次数衰减策略，训练的批尺寸为128，其中包含16个人物，每个人物有8段表情特征与姿态特征的拼接向量作为模型输入。

在本实施例中，采用度量学习损失函数；

其中m为批样本数量128，

为正例对样本集合，

为负例对样本集合，S_ik为样本对之间的余弦相似度，α，β，λ为超参数，且α＝2，β＝40，λ＝0.5；

在本实施例中，采用学习率随训练迭代次数衰减策略。训练后期学习率过大导致模型会有较大波动，使得损失函数的值围绕最小值徘徊，始终难以达到最优。采用学习率随训练迭代次数衰减策略能避免此类问题。具体公式为：

其中，LR(e)表示学习率，e表示迭代次数，E_max表示最大训练迭代次数，base_初始学习率，power表示学习率衰减指数。在训练时，设置base_lr＝0.01，E_max＝20000，power＝0.9。

以损失函数最小化为目标，利用卷积神经网络的反向传播机制，根据损失值更新网络权重，当训练次数达到最大训练周期轮数时停止训练，保存在验证集上表现最佳的神经网络权重；

S5、构建外貌特征提取模块，将形状与纹理特征向量进行拼接，取拼接后向量时间维度上的平均值作为外貌特征；

将形状与纹理特征向量进行拼接，即考虑外貌特征主要表示为人脸形状与颜色纹理信息，故利用连续100张人脸图像提取形状特征

与纹理特征

将α_t,id与α_t,tex进行拼接，取其平均值得到外貌特征

S6、模型应用

本发明主要适用于特定身份人物，采用特征相似度匹配方式，因此需要收集特定身份人物的不同角度、不同场景下面部视频，并通过面部行为特征提取网络与外貌特征提取模块，构建基于人物身份信息的面部行为特征参考集B和外貌特征参考集F；

给定待检测视频数据，对视频数据分帧处理，并利用dlib库人脸检测器提取100张连续人脸图像帧，通过面部行为特征提取网络与外貌特征提取模块，提取得到面部行为特征f_t与外貌特征b_t；与面部行为特征参考集B和外貌特征参考集F里的特征向量进行余弦相似度匹配，得到外貌特征相似度最大的人物标签i_a和面部行为特征相似度最大的人物标签i_b，即：

其中，B_i表示面部行为特征参考集B中第i个特征向量，F_i表示外貌特征参考集F中第i个特征向量。

如图4所示，考虑不同外貌特征相似度阈值在FF++与DFD数据库上对准确度的影响，发现阈值为0.95时在两种数据库上都具有较高的平均准确率。因此设定外貌特征相似度阈值τ_a＝0.95。若i_a＝i_b且外貌余弦相似度(计算向量之间的余弦相似度)c_a≥τ_a，则判定测试视频为真，否则为假，具体步骤包括：设定外貌特征相似度阈值τ_a，当i_a＝i_b，即外貌特征对应人物标签与面部行为特征对应人物标签一致时，且当外貌特征相似度大于阈值τ_a，判定测试视频为真，否则判定测试视频为假。

如图5所示，本实施例将上述步骤得到的模型作为测试模型进行测试，测试阶段的网络结构与训练阶段的网络结构相同；本实施例深度伪造视频检测算法性能评价指标是错误接受率(False Acceptance Rate，FAR)、错误拒绝率(False Rejection Rate,FRR)、半错误率(Half Total Error Rate，HTER)。错误接受率(FAR)指算法把深度伪造图像判断成真实人脸图像的比率；错误拒绝率(FRR)指算法把真实人脸图像判断成深度伪造图像的比率；FRR与FAR的均值即为半错误率(HTER)，计算公式为：

为了证明本发明的有效性以及检验本方法的泛化性能，将本发明方法与论文《Detecting Deep-Fake Videos from Appearance and Behavior》方法进行对比。使用同样的VoxCeleb2数据库样本进行训练，并设置在验证集表现最好的外貌相似度阈值，论文方法为0.86，本发明方法为0.95。测试视频为FaceForensics++(FF++)、DFD数据集的C0压缩率视频，采用准确率、HTER，作为检验指标，HTER越小，AUC越大，表示算法效果越好。其中，准确率实验结果如下表1所示，HTER实验结果如下表2所示：

表1准确率实验结果

表2 HTER实验结果

由表1，表2可知，本发明方法在FF++与DFD数据库上比论文方法都具有较高的平均准确率。对于FF++数据库，本发明方法比论文方法平均准确率提高了6.15％，特别是对于FF++数据库的真实视频检测准确率提高了12.34％，对于DFDC数据库，本发明方法比论文方法平均准确率提高了0.92％，虽然对DFD真实视频检测准确率下降了1.99％，但对深度伪造视频检测准确率提高了3.83％。实验结果证明，本发明方法不同数据库上都具有较好的准确精度，能较好的保障特定重要人物不受深度伪造技术干扰。

实施例2

本实施例提供一种基于3DMM软生物特征的深度伪造视频检测系统，包括：视频预处理模块、3DMM特征提取模块、面部行为网络构建模块、度量学习损失函数构建模块、训练参数更新模块、外貌特征提取模块、参考集构建模块、特征匹配模块和判别分类模块；

在本实施例中，视频预处理模块用于视频预处理，选取多张人脸图像帧；

在本实施例中，3DMM特征提取模块用于提取3DMM人脸参数化特征向量，所述3DMM人脸参数化特征向量包括形状、纹理、表情和姿态特征向量；

在本实施例中，面部行为网络构建模块用于构建面部行为网络，提取面部行为特征；

在本实施例中，度量学习损失函数构建模块用于构建度量学习损失函数；

在本实施例中，训练参数更新模块用于根据损失值更新网络权重系数，在面部行为网络训练完成后保存注意力网络的模型和权重；

在本实施例中，外貌特征提取模块用于将所述形状与纹理特征向量进行拼接，取拼接后特征向量时间维度上的平均值作为外貌特征；

在本实施例中，参考集构建模块用于构建面部行为特征参考集和外貌特征参考集；

在本实施例中，特征匹配模块用于提取待检测人物视频的面部行为特征与外貌特征，与面部行为特征参考集和外貌特征参考集的特征向量进行相似度匹配，得到外貌特征相似度最大的人物标签和面部行为特征相似度最大的人物标签；

在本实施例中，判别分类模块用于设定外貌特征相似度阈值，判别视频真假性，若外貌特征对应人物标签与面部行为特征对应人物标签一致，且计算得到的外貌余弦相似度大于等于外貌特征相似度阈值时，则判定测试视频为真，否则为假。

实施例3

本实施例提供一种存储介质，存储介质可以是ROM、RAM、磁盘、光盘等储存介质，该存储介质存储有一个或多个程序，所述程序被处理器执行时，实现实施例1的基于3DMM软生物特征的深度伪造视频检测方法。

实施例4

本实施例提供一种计算设备，所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备，该计算设备包括该计算设备包括处理器和存储器，存储器存储有一个或多个程序，处理器执行存储器存储的程序时，实现实施例1的基于3DMM软生物特征的深度伪造视频检测方法。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于3DMM软生物特征的深度伪造视频检测方法，其特征在于，包括下述步骤：

视频预处理，选取多张人脸图像帧；

2.根据权利要求1所述的基于3DMM软生物特征的深度伪造视频检测方法，其特征在于，所述选取多张人脸图像帧，具体采用连续选取或间隔选取方式，并采用人脸识别算法检测人脸区域，裁剪人脸区域图像，采用双线性插值统一调整大小。

3.根据权利要求1所述的基于3DMM软生物特征的深度伪造视频检测方法，其特征在于，所述3DMM模型利用人脸数据库先构造一个平均人脸形变模型，作为基础模型，修改参数使人脸模型发送形变，人脸模型表示为：

其中，S表示人脸形状，T表示纹理，

为平均纹理，A_tex为纹理PCA主成分，α_tex为纹理参数，

所述形状特征向量即

维度为i；

所述纹理特征向量即

维度为t；

所述表情特征向量即

维度为e；

所述姿态特征向量即三维姿态角度

4.根据权利要求1所述的基于3DMM软生物特征的深度伪造视频检测方法，其特征在于，所述面部行为特征提取网络基于神经网络ResNet-34，将神经网络ResNet-34最后一层全连接层输出为512维，获取512维的面部行为特征

5.根据权利要求1所述的基于3DMM软生物特征的深度伪造视频检测方法，其特征在于，所述度量学习损失函数具体表示为：

其中，m为批样本数量128，

为正例对样本集合，

6.根据权利要求1所述的基于3DMM软生物特征的深度伪造视频检测方法，其特征在于，所述基于人物身份信息构建面部行为特征参考集和外貌特征参考集，具体步骤包括：

7.一种基于3DMM软生物特征的深度伪造视频检测系统，其特征在于，包括：视频预处理模块、3DMM特征提取模块、面部行为网络构建模块、度量学习损失函数构建模块、训练参数更新模块、外貌特征提取模块、参考集构建模块、特征匹配模块和判别分类模块；

8.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6任一项所述基于3DMM软生物特征的深度伪造视频检测方法。

9.一种计算设备，包括处理器和用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现如权利要求1-6任一项所述基于3DMM软生物特征的深度伪造视频检测方法。