CN112733625A

CN112733625A - 基于时域自注意力机制的假脸视频篡改检测方法及系统

Info

Publication number: CN112733625A
Application number: CN202011577163.8A
Authority: CN
Inventors: 胡永健; 高逸飞; 佘惠敏; 刘琲贝
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-30
Anticipated expiration: 2040-12-28
Also published as: CN112733625B

Abstract

本发明公开了一种基于时域自注意力机制的假脸视频篡改检测方法及系统，该方法步骤包括：网络训练步骤和样本测试步骤，网络训练步骤主要包括视频预处理、搭建分割网络和训练，样本测试步骤主要包括视频预处理、搭建分割网络、依次通过三个模块预测篡改区域、对预测掩膜计算面部交并比，得到检测结果。本发明将空域的颜色特征、噪声特征和时域特征，输入包括双流特征提取模块、时域自注意力模块和上采样模块的神经网络中预测篡改区域，检测对象包括单张图片和多张视频帧图片，在不同数据库中均获得较理想的准确率，与现有其他算法相比，跨库测试性能明显提升，具有较大的潜在应用价值。

Description

基于时域自注意力机制的假脸视频篡改检测方法及系统

技术领域

本发明涉及数字视频的篡改检测技术领域，具体涉及一种基于时域自注意力机制的假脸视频篡改检测方法及系统。

背景技术

随着人脸识别技术的突飞猛进，人脸篡改带来的安全威胁越来越大，网络上相关假脸视频也层出不穷。Deepfake换脸工具主要使用自编码器或对抗生成网络等深度神经网络生成虚假人脸后再对原视频的人脸进行替换，本发明主要针对这类人脸篡改技术所生成的换脸视频进行检测。

目前主流的假脸视频检测技术主要是基于神经网络提取特征，虽然在一定程度上能够识别出假脸视频，尤其在库内测试中可达较高的准确率，然而，在跨库测试中准确率均急剧下降。事实上，已公开的基于深度网络的换脸篡改检测算法大都存在此类问题，即泛化能力不足问题。除此以外，目前大部分相关算法都是针对单张图片进行检测，而并没有用到假脸视频中前后帧的时序信息。迄今为止，使用图片空域的颜色特征、噪声特征和时域特征，以及利用时域上自注意力机制构建的神经网络的假脸视频检测的方法尚未报道。

发明内容

为了克服现有技术存在的缺陷与不足，本发明提出一种基于时域自注意力机制的假脸视频篡改检测方法及系统，本发明使用时域自注意力机制的深度神经网络进行假脸视频检测，并且对单张假脸图片也有很好的兼容性与检测效果，提高了泛化性能。

为了达到上述目的，本发明采用以下技术方案：

本发明提供一种基于时域自注意力机制的假脸视频篡改检测方法，其特征在于，包括网络训练步骤和样本测试步骤；

所述网络训练步骤包括：

视频预处理：对视频帧抽样后进行人脸框的检测提取，根据人脸框位置裁剪出部分区域图片，并采样到同一分辨率，得到训练集图片及训练集正确掩膜；

搭建双流特征提取模块，所述双流特征提取模块包括单流颜色特征提取网络和单流噪声特征提取网络，输入训练集图片及噪声图片，分别对图片空域的颜色特征和噪声特征进行特征提取，再将两部分特征求和合并，输出双流合并特征；

计算输入帧的位置嵌入向量，输入为相对所有输入图片中第一帧的位置，输出为位置嵌入矩阵；

搭建时域自注意力模块，采用自注意的方式学习前后帧以及所有输入帧的上下文关系，并对每一张图片的卷积特征融入时域信息，所述时域自注意力模块输入双流合并特征和位置嵌入矩阵，输出自注意力后特征；

构建上采样模块，所述上采样模块输入为自注意力后特征，输出为预测掩膜；

将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建分割网络；

构建分割网络训练的损失函数并设置分割网络参数优化算法；

使用训练集图片及训练集正确掩膜训练分割网络，训练完成后保存分割网络权重值；

所述样本测试步骤包括：

视频预处理，得到测试集；

搭建双流特征提取模块，输入测试集图片及噪声图片，分别对图片空域的颜色特征和噪声特征进行特征提取，再将两部分特征求和合并，输出双流合并特征；

计算输入帧的位置嵌入向量；

搭建时域自注意力模块，输出自注意力后特征，并构建上采样模块，输出预测掩膜，将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建分割网络；

加载训练完成后保存的分割网络权重值；

预设二值化阈值对预测掩膜进行二值化处理得到二值掩膜；

对所述二值掩膜计算信任机制下的面部交并比，预设判决阈值对面部交并比进行二分类判决，得到最终的检测结果。

作为优选的技术方案，所述网络训练步骤、样本测试步骤中的视频预处理，采用最近邻插值、线性插值或三次插值进行图片采样。

作为优选的技术方案，所述网络训练步骤中搭建双流特征提取模块，输入训练集图片及噪声图片，输出双流合并特征，具体计算公式表示为：

XN_km＝SRMLayer(XI_km)

XDF_km＝NN₁(XI_km)+NN₂(XN_km)

其中，XN_km表示网络训练步骤的噪声图片，SRMLayer表示噪声提取滤波器，XI_km表示训练集图片，NN₁表示单流颜色特征提取网络，NN₂表示单流噪声特征提取网络，XDF_km表示网络训练步骤中的双流合并特征；

所述样本测试步骤中搭建双流特征提取模块，输入测试集图片及噪声图片，输出双流合并特征，具体计算公式表示为：

CN_km＝SRMLayer(CI_km)

CDF_km＝NN₁(CI_km)+NN₂(CN_km)

其中，CN_km表示样本测试步骤的噪声图片，CI_km表示测试集图片，CDF_km表示样本测试步骤中的双流合并特征。

作为优选的技术方案，所述单流颜色特征提取网络和单流噪声特征提取网络都采用VGG-16的卷积部分。

作为优选的技术方案，所述网络训练步骤中计算输入帧的位置嵌入向量，具体计算公式为：

其中，XP_km表示相对所有训练集图片中第一帧的位置，XPE_k表示网络训练步骤中的位置嵌入矩阵，d_XPE表示XPE_k总列数，a为正整数，2a表示XPE_k偶数列位，2a+1表示XPE_k奇数列位；

所述样本测试步骤中计算输入帧的位置嵌入向量，具体计算公式为：

其中，CP_km表示相对所有测试集图片中第一帧的位置，CPE_k表示样本测试步骤中的位置嵌入矩阵，d_CPE表示CPE_k总列数，2a表示CPE_k偶数列位，2a+1表示CPE_k奇数列位。

作为优选的技术方案，所述网络训练步骤中输出自注意力后特征，具体计算公式为：

XLF_km＝f_L(XDF_km)+XPE_km

XQ_km＝f_Q(XLF_km)

XK_km＝f_K(XLF_km)

其中，XDF_km表示网络训练步骤中的双流合并特征，XPE_km表示网络训练步骤中的位置嵌入矩阵，f_L、f_Q和f_K表示神经网络隐层，XAM_k表示第k个训练视频输入帧的自注意力图，d_XK是隐特征XK的维度，XAF_km表示网络训练步骤中的自注意力后特征；

所述样本测试步骤中输出自注意力后特征，具体计算公式为：

CLF_km＝f_L(CDF_km)+CPE_km

CQ_km＝f_CQ(CLF_km)

CK_km＝f_K(CLF_km)

其中，CDF_km表示样本测试步骤中的双流合并特征，CPE_km表示样本测试步骤中的位置嵌入矩阵，CAM_k表示第k个测试视频输入帧的自注意力图，d_CK是隐特征CK的维度。

作为优选的技术方案，所述上采样模块中的上采样网络采用FCN-32s的上采样卷积部分。

作为优选的技术方案，所述构建分割网络训练的损失函数，具体表示为：

其中，(i,j)为掩膜上的坐标点位置，XM_km表示预测掩膜，s_km为掩膜Y_km的长度，t_km为掩膜Y_km的宽度。

作为优选的技术方案，所述对所述二值掩膜计算信任机制下的面部交并比，具体计算公式为：

CFIoU_km＝(CS_1km∩CS_2km)/(CS_1km∪CS_2km+P×(CS_1km∪CS_2km-CS_1km))

其中，CS_1km为预测掩膜中人脸区域，CS_2km为二值掩膜中预测篡改区域，P为信任机制的惩罚因子。

本发明还提供一种基于时域自注意力机制的假脸视频篡改检测系统，包括：视频预处理模块、双流特征提取模块、位置嵌入向量计算模块、时域自注意力模块、上采样模块、分割网络构建模块、网络训练模块、训练参数设置模块、分割网络权重值保存模块、分割网络权重值加载模块、二值化处理模块、面部交并比计算模块、二分类模块和检测结果输出模块；

在网络训练中：

所述视频预处理模块用于对视频帧抽样后进行人脸框的检测提取，根据人脸框位置裁剪出部分区域图片，并采样到同一分辨率，得到训练集图片及训练集正确掩膜；

所述双流特征提取模块包括单流颜色特征提取网络和单流噪声特征提取网络，输入训练集图片及噪声图片，分别对图片空域的颜色特征和噪声特征进行特征提取，再将两部分特征求和合并，输出双流合并特征；

所述位置嵌入向量计算模块用于计算输入帧的位置嵌入向量，输入为相对所有输入图片中第一帧的位置，输出为位置嵌入矩阵；

所述时域自注意力模块采用自注意的方式学习前后帧以及所有输入帧的上下文关系，并对每一张图片的卷积特征融入时域信息，所述时域自注意力模块输入双流合并特征和位置嵌入矩阵，输出自注意力后特征；

所述上采样模块输入为自注意力后特征，输出为预测掩膜；

所述分割网络构建模块用于将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建分割网络；

所述训练参数设置模块用于构建分割网络训练的损失函数并设置分割网络参数优化算法；

所述网络训练模块用于使用训练集图片及训练集正确掩膜训练分割网络；

所述分割网络权重值保存模块用于训练完成后保存分割网络权重值；

在样本测试中：

所述视频预处理模块用于视频预处理，得到测试集；

输入测试集图片及噪声图片，所述双流特征提取模块分别对图片空域的颜色特征和噪声特征进行特征提取，再将两部分特征求和合并，输出双流合并特征；

所述位置嵌入向量计算模块用于计算输入帧的位置嵌入向量；

所述时域自注意力模块用于输出自注意力后特征；

所述上采样模块用于输出预测掩膜；

所述分割网络权重值加载模块用于加载训练完成后保存的分割网络权重值；

所处二值化处理模块采用预设二值化阈值对预测掩膜进行二值化处理得到二值掩膜；

所述面部交并比计算模块用于对所述二值掩膜计算信任机制下的面部交并比，

所述二分类模块采用预设判决阈值对面部交并比进行二分类判决；

所述检测结果输出模块用于输出最终的检测结果。

本发明与现有技术相比，具有如下优点和有益效果：

(1)本发明在空域上利用了单张图片的颜色特征和噪声特征，设计了双流检测模块对两个特征分别进行特征提取，并使用网络参数自适应学习的方式对特征进行合并，利用了单张图片空域的颜色特征、噪声特征以及多张视频帧图片的时域特征进行假脸视频检测，准确率高。

(2)本发明利用了视频中前后帧有一定相关性的特点，设计了时域自注意力模块，这个模块能够同时学习到所有输入帧的特点，并且根据网络参数自适应地计算出所有帧对其中任一帧的注意力系数；并且具有输入和输出维度一致的特点，可以重复多次组合，也可以放到任意卷积神经网络的任意卷积层后面，具有良好的通用性。

(3)本发明设计的分割网络结构，能够对单张图片和多张视频帧有较好的兼容性，对于单张图片，篡改区域的预测依据该图片空域的颜色信息和噪声信息；对于多张视频帧，篡改区域的预测依据是所有帧图片空域的颜色信息和噪声信息，以及视频帧之间的时域关系。

附图说明

图1为本发明基于时域自注意力机制的假脸视频篡改检测方法的流程示意图；

图2为本发明基于时域自注意力机制的假脸视频篡改检测方法的网络训练部分步骤的流程示意图；

图3为本发明基于时域自注意力机制的假脸视频篡改检测方法的SRM滤波器参数图；

图4为本发明基于时域自注意力机制的假脸视频篡改检测方法的输入图片示例图；

图5为本发明基于时域自注意力机制的假脸视频篡改检测方法的噪声图片示例图；

图6为本发明基于时域自注意力机制的假脸视频篡改检测方法的双流特征提取模块示例图；

图7为本发明基于时域自注意力机制的假脸视频篡改检测方法的输入两帧的时域自注意力模块示例图；

图8为本发明基于时域自注意力机制的假脸视频篡改检测方法的整体分割网络示例图；

图9为本发明基于时域自注意力机制的假脸视频篡改检测方法的样本测试部分的流程步骤图；

图10为本发明基于时域自注意力机制的假脸视频篡改检测方法的可视化的检测结果示例图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例

如图1所示，本实施例提供一种基于时域自注意力机制的假脸视频篡改检测方法，使用双流特征提取模块分别提取图片空域的颜色特征和噪声特征后合并，再使用时域自注意力模块提取前后帧时域信息，准确预测出篡改区域后，对预测篡改区域计算信任机制下的面部交并比进行真假脸判决，具体包括网络训练部分和样本测试部分；

本实施例以在FaceForensics++(FF++)(C0&C23)数据库上进行训练，在FF++(C0&C23)数据库上进行库内测试以及TIMIT数据库上进行跨库测试为例，详细介绍本实例实施过程。实验在Ubuntu 18.04系统上进行，使用3.8版本的Python语言和1.7.0版本的Pytorch人工神经网络库，CUDA版本为11.0，cudnn版本为7.6.5。

首先对FF++数据库和TIMIT数据进行划分，以7：2：1的比例分为训练集、验证集和测试集。

如图2所示，网络训练部分的具体步骤包括：

S1：对于训练集XV＝{XV₁,XV₂,...,XV_NV}中每一个视频XV_k，其中NV表示训练集视频的个数，进行视频帧抽样，得到XF_k＝{XF_k1,XF_k2,...,XF_kNF}，其中NF为抽取的视频帧数量，k＝1,2,...,NV，使用Dlib库中的卷积神经网络选取人脸框；

S2：对于每个视频XV_k，在XF_k和所对应的正确掩膜上，根据人脸框位置裁剪出部分区域图片，并采样到同一分辨率，得到训练集图片为XI_k＝{XI_k1,XI_k2,...,XI_kNF}，训练集正确掩膜为Y_k＝{Y_k1,Y_k2,...,Y_kNF}；

本实施例中裁剪图片区域为1.3倍人脸，采样方法为三次插值，输入图片分辨率为256×256。

S3：搭建双流特征提取模块，输入为训练图片XI_km，计算出的噪声图片为XN_km，输出为双流合并特征XDF_km，具体计算式为：

XN_km＝SRMLayer(XI_km)

XDF_km＝NN₁(XI_km)+NN₂(XN_km)

其中，SRMLayer为噪声提取滤波器，NN₁为单流颜色特征提取网络，NN₂为单流噪声特征提取网络，m＝1,2,...,NF；

如图3所示，得到SRMLayer滤波器的参数，如图4、图5所示，输入图片后得到噪声图片，如图6所示，得到双流特征提取模块，本实施例的NN₁和NN₂都使用VGG-16的卷积部分。该卷积部分输入分辨率为256×256，三通道的图片，接着依次通过卷积模块1包括两个步长为1的64通道输入3×3卷积层和一个步长为2的2×2最大池化层、卷积模块2包括两个步长为1的128通道输入3×3卷积层和一个步长为2的2×2最大池化层、卷积模块3包括两个步长为1的256通道输入3×3卷积层和一个步长为2的2×2最大池化层、卷积模块4包括两个步长为5的512通道输入3×3卷积层和一个步长为2的2×2最大池化层、卷积模块5包括两个步长为5的512通道输入3×3卷积层和一个步长为2的2×2最大池化层，其中所有卷积层的激活函数为ReLU。

S4：计算输入帧的位置嵌入向量，输入为相对所有输入图片中第一帧的位置XP_km，输出为位置嵌入矩阵XPE_k，具体计算式为：

其中d_XPE表示XPE_k总列数，a为正整数，2a表示XPE_k偶数列位，2a+1表示XPE_k奇数列位。

本实施例中，设置d_XPE为1024。

S5：搭建时域自注意力模块，输入为双流合并特征集合XDF_k＝{XDF_k1,XDF_k2,...,XDF_kNF}和位置嵌入矩阵XPE_k，输出为自注意力后特征集合XAF_k＝{XAF_k1,XAF_k2,...,XAF_kNF}，具体计算式为：

XLF_km＝f_L(XDF_km)+XPE_km

XQ_km＝f_Q(XLF_km)

XK_km＝f_K(XLF_km)

其中f_L、f_Q和f_K是神经网络隐层，XAM_k是第k个视频输入帧的自注意力图，d_XK是隐特征XK的维度，m,n＝1,2,...,NF。

在本实施例中，f_L网络包括一个步长为1的128通道输入1×1卷积层，卷积展平层，维度为1024的全连接层，f_Q和f_K网络都是维度为256的全连接层以及随机失活率为0.1的随机失活层，如图7所示，得到本实施例输入两帧的时域自注意力模块示例。

S6：构建上采样模块，输入为自注意力后特征XAF_km，输出为预测掩膜XM_km，具体计算式为：

XM_km＝NN₃(XAF_km)

其中NN₃为上采样网络。

本实施例中NN₃使用FCN-32s的上采样卷积部分，包括过步长为1的4096通道输入7×7卷积层、ReLU激活函数、概率为0.5的随机失活层、步长为1的4096通道输入1×1卷积层、ReLU激活函数、概率为0.5的随机失活层、步长为1的2通道输入1×1卷积层、步长为1的2通道输入1×1卷积层、步长为32的2通道输入64×64反卷积层，输出为预测的掩膜。

S7：将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建分割网络；

本实施例中，使用了一个双流特征提取模块，三个时域自注意力模块和一个上采样模块，如图8所示，得到整体分割网络，其中模块A为双流特征提取模块，模块B为时域自注意力模块，模块C为上采样模块。

S8：构建分割网络训练的损失函数：

其中，(i,j)为掩膜上的坐标点位置，s_km为掩膜Y_km的长度，t_km为掩膜Y_km的宽度。

S9：设置分割网络参数优化算法。

本实施例采用Adam算法进行参数优化，设置学习率为1×10^-4，一阶平滑参数β₁＝0.9，二阶平滑参数β₂＝0.999，防止分母为0的常数e＝1×10^-8，当然，优化算法可以使用其它的梯度优化算法，如SGD、RMSprop等；

S10：使用XI和Y训练分割网络；

S11：训练完成后保存分割网络权重值。

如图9所示，样本测试部分的具体步骤如下：

S1：对于训练集CV＝{CV₁,CV₂,...,CV_RV}中每一个视频CV_k，其中RV表示训练集视频的个数，进行视频帧抽样，得到CF_k＝{CF_k1,CF_k2,...,CF_kRF}，其中RF为抽取的视频帧数量，k＝1,2,...,RV，使用Dlib库中的卷积神经网络选取人脸框。

在本实施例中，网络训练部分的步骤S1和样本测试部分的步骤S1中，直接使用Dlib库中的卷积神经网络对人脸框进行检测，不参与训练；

S2：对于每个视频CV_k，在CF_k上根据人脸框位置裁剪出部分区域图片，并采样到同一分辨率，得到测试集图片为CI_k＝{CI_k1,CI_k2,...,CI_kRF}；

本实施例中裁剪图片区域为1.3倍人脸，采样方法为三次插值，输入图片分辨率为256×256；

在本实施例中，网络训练部分的步骤S2和样本测试部分的步骤S2中，裁剪后图片中除了人脸区域还包括部分背景区域，目的在于让网络学习更多背景信息，同时保证后续信任机制中惩罚项的有效计算；并且采样图像至同一分辨率的目的在于与分割模型输入维度大小保持一致，采样方法也可以采用最近邻插值、线性插值等。

S3：搭建双流特征提取模块，输入为测试图片CI_km，计算出的噪声图片为CN_km，输出为双流合并特征CDF_km，具体计算式为：

CN_km＝SRMLayer(CI_km)

CDF_km＝NN₁(CI_km)+NN₂(CN_km)

其中，SRMLayer为噪声提取滤波器，NN₁为单流颜色特征提取网络，NN₂为单流噪声特征提取网络，m＝1,2,...,RF。

本实施例中，搭建的SRMLayer、NN₁和NN₂都与训练网络结构一致，网络训练部分的步骤S3和样本测试部分的步骤S3中，双流特征提取模块包括两部分独立的特征提取网络，分别对图片空域的颜色特征和噪声特征进行特征提取，然后再将两部分特征求和合并，具体使用的单流特征提取网络可以使用VGG等常用分类网络的卷积部分。

S4：计算输入帧的位置嵌入向量，输入为相对所有输入图片中第一帧的位置CP_km，输出为位置嵌入矩阵CPE_k，具体计算式为：

其中d_CPE表示CPE_k总列数，a为正整数，2a表示CPE_k偶数列位，2a+1表示CPE_k奇数列位。

本实施例中，设置d_CPE为1024，网络训练部分的步骤S4和样本测试部分的步骤S4中的位置嵌入矩阵，能够有效地描述出帧图片在视频中的位置关系，其中输入的位置值采用相对值而非视频的绝对值，目的在于防止视频过长而造成输入值过大；对于视频，连续两帧的相关性较大，而相隔较远两帧的相关性较弱，说明两帧之间间隔距离的大小对自注意力的计算尤为重要。本实施例提出输入的位置信息为相对位置，是因为若一个视频过长，绝对位置会过大，并且两帧相关性与绝对位置无关。

S5：搭建时域自注意力模块，输入为双流合并特征集合CDF_k＝{CDF_k1,CDF_k2,...,CDF_kRF}和位置嵌入矩阵CPE_k，输出为自注意力后特征集合CAF_k＝{CAF_k1,CAF_k2,...,CAF_kRF}，具体计算式为：

CLF_km＝f_L(CDF_km)+CPE_km

CQ_km＝f_CQ(CLF_km)

CK_km＝f_K(CLF_km)

其中f_L、f_Q和f_K是神经网络隐层，CAM_k是第k个视频输入帧的自注意力图，d_CK是隐特征CK的维度，m,n＝1,2,...,RF。

本实施例中，f_L、f_Q和f_K都与训练网络结构一致，网络训练部分的步骤S5和样本测试部分的步骤S5中的时域自注意力模块，用自注意力的方式提取上下文卷积特征，可以对卷积特征进行自注意力合并，能够以自注意的方式学习到前后帧以及所有输入帧的上下文关系，并对每一张图片的卷积特征融入时域信息，并且时域自注意力模块的输入输出维度都一致，因此可以通过串联组合多个来进行时域信息的提取，也能放在任意卷积神经网络的任一卷积层后面；同时，时域自注意力模块对单张图片和多张视频帧都有较好的兼容性，若输入为单张图片，那么注意力会完全放在本身特征上；若输入为多张视频帧，注意力会结合前后相关帧；再者，该模块采用了自注意的计算方法，理论上输入任意长的图片序列，都能计算出合适的自注意力图，得到自注意力特征。

S6：构建上采样模块，输入为注意力后特征CAF_km，输出为预测掩膜CM_km，具体计算式为：

CM_km＝NN₃(CAF_km)

本实施例中，NN₃与训练网络结构一致，网络训练部分的步骤S6和样本测试部分的步骤S6中，使用的上采样模块是为了生成篡改区域的预测掩膜，可以使用常用的上采样卷积，比如全卷积网络中的上采样部分；

S7：将双流特征提取模块、时域自注意力模块和上采样模块共同合并构建与网络训练部分相同分割网络；

本实施例中，使用了一个双流特征提取模块，三个时域自注意力模块和一个上采样模块，在网络训练部分的步骤S7和样本测试部分的步骤S7中，三个模块合并构成了本实施例的最终分割网络，其中时域自注意力模块由于输入输出的维度一致，该模块可以重复组合多次；

S8：加载网络训练部分得到的权重；

S9：使用预先设定的二值化阈值T₁对CM_km进行二值化处理得到二值掩膜CMB_km。

本实施例中，二值化阈值T₁取0.01。对分割网络预测的掩膜进行二值化处理，预测掩膜是范围在0-1之间且大小与输入图片一致的概率图，无法直接进行二分类判决，因此，本实施例通过预先设置的二值化阈值T₁进行二值化处理，得到预测篡改区域的位置和面积信息，具体而言，去噪后掩膜上的点大于T₁时置为1，小于T₁时置为0，得到二值掩膜。

S10：对二值掩膜CMB_km计算信任机制下面部交并比

CFIoU_km＝(CS_1km∩CS_2km)/(CS_1km∪CS_2km+P×(CS_1km∪CS_2km-CS_1km))

其中，CS_1km为预测掩膜CM_km中人脸区域，CS_2km为二值掩膜CMB_km中预测篡改区域，P为信任机制的惩罚因子。

根据预测篡改区域的位置和面积信息，以及先验的人脸区域计算信任机制下面部交并比，作为判断是否有篡改的依据，其中信任机制的惩罚P为任意非零数，本实施例中P取1。

S11：使用预先设定的判决阈值T₂对CFIoU_k进行二分类判决，依次判断所有帧图片的真假，给出准确率和平均错误率。

设L张图片中有L₁张真脸图片和L₂张假脸图片，其中L₁内L_1a张被判断成真脸，L_1b张被判断成假脸，L₂内L_2a张被判断成真脸，L_2b张被判断成假脸，给出平均错误率(Half TotalError Rate)

本实施例中，根据计算得到的信任机制下面部交并比，通过预先设置的判决阈值T₂进行二值化判决。具体而言，面部交并比大于T₂时为假脸，小于T₂时为真脸。本实施例的判决阈值T₂取0.1。

本实施例样本测试部分的步骤S10和步骤S11中，预测篡改区域的位置和面积信息无法直接对假脸篡改进行判断，因此使用信任机制下面部交并比作为指标，根据阈值进行二分类判决，得到最终的检测结果。

实施例中的跨库测试对TIMIT数据库、DeepFakeDetection数据库、FFW数据库测试集进行相同的测试步骤，得到平均错误率如下表1所示。通过本发明的方法，如图10所示，得到FF++(C0&C23)数据库中其中一个测试视频的连续12帧人脸图片检测结果，包括输入图片帧，预测掩膜和对应热力图。与其他现有其他检测方法相比，本发明的方法库内测试准确率较高，跨库测试的平均错误率较低，验证了有效性。

表1 FF++(C0&C23)数据库训练模型测试结果(％)

因此，利用假脸视频空域的颜色特征、噪声特征以及多张视频帧图片的时域特征进行假脸视频检测，通过本发明的基于时域自注意力机制的深度网络检测器，能够有效地检测出假脸视频，具有通用性强和泛化能力强的特点，与现有的算法相比，更具有更大的潜在应用价值。

本实施例还提供一种基于时域自注意力机制的假脸视频篡改检测系统，包括：视频预处理模块、双流特征提取模块、位置嵌入向量计算模块、时域自注意力模块、上采样模块、分割网络构建模块、网络训练模块、训练参数设置模块、分割网络权重值保存模块、分割网络权重值加载模块、二值化处理模块、面部交并比计算模块、二分类模块和检测结果输出模块；

在网络训练中：

所述上采样模块输入为自注意力后特征，输出为预测掩膜；

在样本测试中：

所述视频预处理模块用于视频预处理，得到测试集；

所述时域自注意力模块用于输出自注意力后特征；

所述上采样模块用于输出预测掩膜；

所述检测结果输出模块用于输出最终的检测结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于时域自注意力机制的假脸视频篡改检测方法，其特征在于，包括网络训练步骤和样本测试步骤；

所述网络训练步骤包括：

所述样本测试步骤包括：

视频预处理，得到测试集；

计算输入帧的位置嵌入向量；

加载训练完成后保存的分割网络权重值；

预设二值化阈值对预测掩膜进行二值化处理得到二值掩膜；

2.根据权利要求1所述的基于时域自注意力机制的假脸视频篡改检测方法，其特征在于，所述网络训练步骤、样本测试步骤中的视频预处理，采用最近邻插值、线性插值或三次插值进行图片采样。

3.根据权利要求1所述的基于时域自注意力机制的假脸视频篡改检测方法，其特征在于，所述网络训练步骤中搭建双流特征提取模块，输入训练集图片及噪声图片，输出双流合并特征，具体计算公式表示为：

XN_km＝SRMLayer(XI_km)

XDF_km＝NN₁(XI_km)+NN₂(XN_km)

CN_km＝SRMLayer(CI_km)

CDF_km＝NN₁(CI_km)+NN₂(CN_km)

4.根据权利要求1所述的基于时域自注意力机制的假脸视频篡改检测方法，其特征在于，所述单流颜色特征提取网络和单流噪声特征提取网络都采用VGG-16的卷积部分。

5.根据权利要求1所述的基于时域自注意力机制的假脸视频篡改检测方法，其特征在于，所述网络训练步骤中计算输入帧的位置嵌入向量，具体计算公式为：

6.根据权利要求1所述的基于时域自注意力机制的假脸视频篡改检测方法，其特征在于，所述网络训练步骤中输出自注意力后特征，具体计算公式为：

XLF_km＝f_L(XDF_km)+XPE_km

XQ_km＝f_Q(XLF_km)

XK_km＝f_K(XLF_km)

CLF_km＝f_L(CDF_km)+CPE_km

CQ_km＝f_CQ(CLF_km)

CK_km＝f_K(CLF_km)

7.根据权利要求1所述的基于时域自注意力机制的假脸视频篡改检测方法，其特征在于，所述上采样模块中的上采样网络采用FCN-32s的上采样卷积部分。

8.根据权利要求1所述的基于时域自注意力机制的假脸视频篡改检测方法，其特征在于，所述构建分割网络训练的损失函数，具体表示为：

9.根据权利要求1所述的基于时域自注意力机制的假脸视频篡改检测方法，其特征在于，所述对所述二值掩膜计算信任机制下的面部交并比，具体计算公式为：

CFIoU_km＝(CS_1km∩CS_2km)/(CS_1km∪CS_2km+P×(CS_1km∪CS_2km-CS_1km))

10.一种基于时域自注意力机制的假脸视频篡改检测系统，其特征在于，包括：视频预处理模块、双流特征提取模块、位置嵌入向量计算模块、时域自注意力模块、上采样模块、分割网络构建模块、网络训练模块、训练参数设置模块、分割网络权重值保存模块、分割网络权重值加载模块、二值化处理模块、面部交并比计算模块、二分类模块和检测结果输出模块；

在网络训练中：

所述上采样模块输入为自注意力后特征，输出为预测掩膜；

在样本测试中：

所述视频预处理模块用于视频预处理，得到测试集；

所述时域自注意力模块用于输出自注意力后特征；

所述上采样模块用于输出预测掩膜；

所述检测结果输出模块用于输出最终的检测结果。