CN115116108A

CN115116108A - 基于双流对比学习模型的人脸篡改视频检测方法及系统

Info

Publication number: CN115116108A
Application number: CN202210447080.XA
Authority: CN
Inventors: 周英斌; 康显桂; 刘星成
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-09-27

Abstract

本发明提出了一种基于双流对比学习模型的人脸篡改视频检测方法及系统，涉及计算机视觉与深度学习、信息安全的技术领域，对每一个视频分帧，在单帧图像上进行人脸检测并裁剪出包含背景区域的人脸图像，进行单帧图像的真伪检测，统计单帧图像判别结果得到视频级别检测结果，为给模型的训练注入更多的人脸篡改先验知识，从融合人脸篡改先验知识的角度出发，设计了双流对比学习模型，双流对比学习模型包含两个结构相同的语义分割网络分支，保证每个分支在进行自身信息流的提取和学习时，协同兼顾另一个流域的信息而作出调整，缓解了传统二分类检测算法过度依赖训练数据集的弊端，保持较高库内检测精度，且能有效提高模型对未知方法的跨库检测能力。

Description

基于双流对比学习模型的人脸篡改视频检测方法及系统

技术领域

本发明涉及计算机视觉与深度学习、网络安全的技术领域，更具体地，涉及一种基于双流对比学习模型的人脸篡改视频检测方法及系统。

背景技术

近年来，随着各类数字媒体编辑软件的普及，篡改数字媒体呈现出了泛滥的趋势，使得数字媒体内容的原创性以及可靠性降低。一类名为Deepfakes的深度伪造技术更是因其逼真的视频换脸效果而受到社会的广泛关注，利用该技术生成伪造视频会造成严重危害。因此，十分有必要针对此类伪造换脸视频媒体的检测方法进行开发研究。

现有技术中公开了一种图像篡改检测方法，在该方法中，首先准备未篡改图像和篡改图像，将未篡改图像和篡改图像共同组成训练集，然后构建二分类网络模型，通过训练集对二分类网络模型进行训练，使得训练后的二分类网络模型能够区分图像是否被篡改；二分类网络模型包括特征提取层、图像注意力层和分类器，最后通过训练后的二分类网络模型对图像是否被篡改进行识别。在该技术方案中，使用神经网络训练二值分类网络，引导网络获取准确的篡改检测概率值，但该方案归根结底是将人脸篡改检测建模成一个端到端的二分类判别问题，这种端到端的二分类模式在网络训练时，由于缺乏人脸篡改先验的支持，可能会导致训练出来的模型过度依赖训练数据集，跨库检测性能较差。

发明内容

为解决现有基于端到端的二分类人脸篡改检测方式在缺乏人脸篡改先验的支持时，跨库检测性能差的问题，本发明提出一种基于双流对比学习模型的人脸篡改视频检测方法及系统，注入了更多的人脸篡改先验知识，缓解了深度学习网络过度依赖训练数据集的弊端，在保持较高库内检测精度的同时，有效提高了跨库检测能力。

为了达到上述技术效果，本发明的技术方案如下：

一种基于双流对比学习模型的人脸篡改视频检测方法，包括以下步骤：

S1.对原始视频进行分帧操作，得到原始分帧图像；

S2.对原始分帧图像进行人脸篡改操作，得到人脸篡改图像，人脸篡改图像和原始分帧图像混合形成数据集，并将数据集划分为训练集、验证集和测试集；

S3.对数据集中每一个单帧图像进行人脸检测，并裁剪出包含背景区域的人脸图像；

S4.对输入人脸图像进行人脸关键点定位，生成像素级别掩膜；

S5.构建双流对比学习模型，包括两个结构相同的语义分割网络分支；利用训练集对双流对比学习模型进行监督训练，然后利用验证集评估双流对比学习模型，选取出最优的检测模型，并利用测试集测试最优检测模型的有效性；

S6.获取待检测视频，对其进行分帧操作，并以步骤S2的方式获得人脸图像，然后对人脸图像以步骤S4的方式获得像素级别掩膜；

S7.将待检测人脸视频帧以及步骤S6生成的像素级别掩膜一并输入到最优检测模型中进行分类，得到所有待检测人脸视频帧的分类判别结果；

S8.基于所有待检测人脸视频帧的分类判别结果，得到总的视频级别的预测分类结果。

在本技术方案中，通过设计语义分割网络的形式实现人脸篡改检测，不同于现存多数检测网络端到端二分类的监督模式，本技术方案提供了一种基于像素级别的监督新范式，对每一个视频分帧，在单帧图像上进行人脸检测并裁剪出包含背景区域的人脸图像，进行单帧图像的真伪检测，统计单帧图像判别结果得到视频级别检测结果，为给模型的训练注入更多的人脸篡改先验知识，从融合人脸篡改先验知识的角度出发，设计了双流对比学习模型，双流对比学习模型包含两个结构相同的语义分割网络分支，保证每个分支在进行自身信息流的提取和学习时，协同兼顾另一个流域的信息而作出调整，缓解了传统二分类检测算法过度依赖训练数据集的弊端，保持较高库内检测精度，且能有效提高模型对未知方法的跨库检测能力。

优选地，步骤S2所述对原始分帧图像进行人脸篡改操作的过程具体为：

S21.对原始分帧图像中不同人脸身份的分帧图像进行两两匹配，分别相互作为源素材和目标素材；

S22.利用人脸篡改方法改对源素材和目标素材进行人脸篡改操作，得到人脸篡改图像，所述的人脸篡改方法包括Deepfakes深度伪造法和FaceSwap脸部替换法。

优选地，在步骤S3中，对分帧操作后的数据集中每一个单帧图像进行人脸检测，并裁剪出包含背景区域的人脸图像的过程具体为：

S31.对分帧操作后的数据集中每一个单帧图像进行人脸检测，获取原始的人脸裁剪框；

S32.固定人脸裁剪框的中心位置，按1∶1.3进行人脸裁剪框的放大，得到放大后的人脸裁剪框；

S33.以放大后的人脸裁剪框为基准，对单帧图像进行区域裁剪，得到包含背景区域的人脸图像。

在此，对每一个单帧图像里的人脸裁剪框进行放大后，以放大后的人脸裁剪框为基准，对单帧图像进行区域裁剪，得到包含背景区域的人脸图像，包含的背景区域是趋向于未篡改的，以未篡改的背景区域作为先验知识设计语义分割网络。

优选地，步骤S4所述的像素级别掩膜包括脸部掩膜和背景掩膜，所述对输入的单帧图像进行人脸关键点定位，生成像素级别掩膜的过程为：

S41.确定人脸关键点的个数q，获得q个人脸关键点的定位坐标值；

S42.对q个人脸关键点作凸包算法，获得封闭U字形脸部区域掩膜，即得到脸部掩膜；

S43.对脸部掩膜进行逻辑取补操作，得到背景掩膜。

优选地，步骤S5所述构建的双流对比学习模型，包括两个结构相同的语义分割网络分支，一个为RGB流分支，另一个为梯度流分支；所述的语义分割网络包括两个基本部分：一个部分是以EfficientNet-b3网络为主干搭建的编码器，并通过加载该网络在ImageNet上的已训练网络权重参数作为编码器的预训练网络权重参数；另一个部分是通过交替堆叠双线性上采样模块和普通卷积模块得到的浅层解码器，并通过采用Kaiming初始化给此部分的解码器网络进行权重参数的预置。

优选地，步骤S5中还包括构建视角生成器，用于接收输入其的视频帧，生成两路不同视角下的RGB图像，所述的视角生成器集成四种视角变换方式，分别为：高斯模糊、高斯噪声、灰度化以及SRM噪声叠加。

优选地，利用训练集对双流对比学习模型进行监督训练，然后利用验证集评估双流对比学习模型，选取出最优的检测模型，并利用测试集测试最优检测模型的过程为：

S51.将训练集输入视角生成器，得到两路不同视角下的RGB图像，选取其中的一路RGB图像作为RGB流数据，而对另一路RGB图像作梯度滤波，得到梯度流数据；

S52.将S51得到的RGB流数据和梯度流数据分别输入分别输入双流对比学习模型的RGB流分支和梯度流分支进行特征提取，得到两个不同流域的特征图 F^s和F^g；

S53.利用S43得到的背景掩膜对特征图进行掩膜平均池化，得到两个不同流域的背景特征原型p^s和p^g，并在掩膜平均池化后添加梯度阻断机制防止梯度回传；

掩膜平均池化公式表示为：

其中，p^c表示输出背景原型，i、j表示像素点位置索引，c为流域类别，M^bg为背景掩膜，F^c为对应流域的特征输出，s、g分别代表空域流和梯度流；

S54.对两个不同流域的特征图F^s和F^g进行域自适应映射，得到映射后的特征图

和

并使用特征匹配公式进行不同流域之间的背景原型交叉匹配，得到初始语义分割图O，对初始语义分割图的每个像素位置进行归一化操作，得到归一化后的概率分割图输出O^new；其中，特征匹配公式为：

O表示初始分割输出，p^g和p^s表示不同流域的背景原型向量，

和

表示经过域自适应层后的特征图输出，δ(·，·)则表示余弦相似度度量函数；归一化公式为：

S55.设计双流对比学习模型的总损失函数，包括背景区域损失函数和脸部区域损失函数，其中，背景区域损失函数表达式为：

其中，M^bg表示背景掩膜，o^new表示经概率归一化后的分割输出图；脸部区域损失函数表达式为：

其中，M^fg表示脸部掩膜，I表示输入图像；总的损失函数：

L_seg＝L_bg+L_fg，

S56.采用梯度下降的方式更新双流对比学习模型的网络参数；

S57.引入不同的训练超参数，使用不同的训练超参数重复执行步骤S51～S56，得到若干个双流对比学习训练模型，利用验证集对若干个双流对比学习训练模型进行评估，选取出最优的双流对比学习训练模型作为训练好的双流对比学习模型，并利用测试集测试最优检测模型的有效性。

在此，基于双流对比学习模型的两个分支，利用S43得到的背景掩膜对特征图进行掩膜平均池化，得到两个不同流域的背景特征原型，背景特征原型代表未经过篡改操作，基于此，在原图像的特征图上做扫描，从而确认经过篡改的区域。

优选地，在步骤S7中，对待检测人脸视频帧执行S51～S54，得到语义分割输出图O^test，并使用区域判分公式得到未篡改概率p_umm，具体的区域判分公式为：

对未篡改概率p_umm进行概率取补操作得到预测篡改概率p_m，表达式为： p_m＝1-p_umm；设定判别阈值为p_th，将篡改概率p_m和判别阈值进行比较，得到待检测人脸视频帧的篡改判别分类结果。

优选地，若p_m≥p_th，则认定当前待检测人脸视频帧经过人脸篡改操作；若 p_m＜p_th，则当前视频帧没有经过人脸篡改操作，通过在所有视频帧中确认被判为经过人脸篡改操作的视频帧的位置和数量，得出视频级别的篡改判别预测结果。

本申请还提出一种基于双流对比学习模型的人脸篡改视频检测系统，所述系统包括：

分帧处理模块，用于对原始视频进行分帧操作，得到原始分帧图像；

数据集构造模块，用于对原始分帧图像进行人脸篡改操作，得到人脸篡改图像，人脸篡改图像和原始分帧图像混合形成数据集，并将数据集划分为训练集、验证集和测试集；

人脸图像处理模块，对数据集中每一个单帧图像进行人脸检测，并裁剪出包含背景区域的人脸图像；

掩膜生成模块，对输入人脸图像进行人脸关键点定位，生成像素级别掩膜；

模型构建训练模块，用于构建双流对比学习模型，包括两个结构相同的语义分割网络分支；利用训练集对双流对比学习模型进行监督训练，然后利用验证集评估双流对比学习模型，选取出最优的检测模型，并利用测试集测试最优检测模型；

待检测视频预处理模块，用于对待检测视频进行分帧操作，并以获得人脸图像，基于对人脸图像获得像素级别掩膜；

检测模块，用于将待检测人脸视频帧和待检测视频预处理模块生成的像素级别掩膜一并输入到最优检测模型中进行分类，得到所有待检测人脸视频帧的分类判别结果，基于所有待检测人脸视频帧的分类判别结果，得到总的视频级别的预测分类结果。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出一种基于双流对比学习模型的人脸篡改视频检测方法及系统，提供了一种基于像素级别的监督新范式，对每一个视频分帧，在单帧图像上进行人脸检测并裁剪出包含背景区域的人脸图像，进行单帧图像的真伪检测，统计单帧图像判别结果得到视频级别检测结果，为给模型的训练注入更多的人脸篡改先验知识，从融合人脸篡改先验知识的角度出发，设计了双流对比学习模型，双流对比学习模型包含两个结构相同的语义分割网络分支，保证每个分支在进行自身信息流的提取和学习时，协同兼顾另一个流域的信息而作出调整，缓解了传统二分类检测算法过度依赖训练数据集的弊端，保持较高库内检测精度，且能有效提高模型对未知方法的跨库检测能力。

附图说明

图1表示本发明实施例1中提出的基于双流对比学习模型的人脸篡改视频检测方法的流程示意图；

图2表示本发明实施例1中提出的脸部掩膜和背景掩膜得出的流程框图；

图3表示本发明实施例1中提出的双流对比学习模型的结构框架图。

图4表示本发明实施例3中提出的基于双流对比学习模型的人脸篡改视频检测系统的结构图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好地说明本实施例，附图某些部位会有省略、放大或缩小，并不代表实际尺寸；

对于本领域技术人员来说，附图中某些公知内容说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

附图中描述位置关系的仅用于示例性说明，不能理解为对本专利的限制；

实施例1

在本实施例中，如图1所示，提出了一种基于双流对比学习模型的人脸篡改视频检测方法，包括以下步骤：

S1.对原始视频进行分帧操作，得到原始分帧图像；

其中，对原始分帧图像进行人脸篡改操作的过程具体为：

在此，训练集、验证集和测试集是按一定比例随机划分得到的。

其中，对分帧操作后的数据集中每一个单帧图像进行人脸检测，并裁剪出包含背景区域的人脸图像的过程具体为：

在本实施例中，采用ffmpeg视频处理软件包对视频进行分帧操作，然后使用MTCNN对单帧图像进行人脸裁剪框的识别。由于直接识别出来的人脸框只包含较小部分的人脸区域，因此在本实施例中，算法固定人脸裁剪框中心位置，并以1∶1.3进行人脸裁剪框的放大，然后再使用放大后的裁剪框对原视频帧作裁剪操作，得到包含少量背景区域的裁剪图像，简称为人脸图像。

像素级别掩膜包括脸部掩膜和背景掩膜，对输入的单帧图像进行人脸关键点定位，如图2所示，生成像素级别掩膜的过程为：

S41.确定人脸关键点的个数q，在本实施例中，q为68，即获得68个人脸关键点的定位坐标值；

S42.对68个人脸关键点作凸包算法，获得封闭U字形脸部区域掩膜，即得到脸部掩膜；

S43.对脸部掩膜进行逻辑取补操作，得到背景掩膜。

在该过程中，参见图3，构建的双流对比学习模型，包括两个结构相同的语义分割网络分支，一个为RGB流分支，另一个为梯度流分支；语义分割网络包括两个基本部分：一个部分是以EfficientNet-b3网络为主干搭建的编码器，并通过加载该网络在ImageNet上的已训练网络权重参数作为编码器的预训练网络权重参数；另一个部分是通过交替堆叠双线性上采样模块和普通卷积模块得到的浅层解码器，并通过采用Kaiming初始化给此部分的解码器网络进行权重参数的预置。

步骤S5还包括构建视角生成器，用于接收输入其的视频帧，生成两路不同视角下的RGB图像，所述的视角生成器集成四种视角变换方式，分别为：高斯模糊、高斯噪声、灰度化以及SRM噪声叠加。

利用训练集对双流对比学习模型进行监督训练，然后利用验证集评估双流对比学习模型，选取出最优的检测模型，并利用测试集测试最优检测模型的过程为：

在获得两个不同流域的特征图F^s和F^g后，从人脸图像的背景区域总是趋于未篡改的这个先验知识出发，设计背景原型交叉匹配算法，得到语义分割输出，背景原型交叉匹配的公式为：

其中，O表示初始分割输出，p^g和p^s表示不同流域的背景原型向量，

和

表示经过域自适应层后的特征图输出，δ(·，·)则表示余弦相似度度量函数，接着经由概率归一化操作得到归一化分割输出图O^new。基于双流对比学习模型的两个分支，利用S43得到的背景掩膜对特征图进行掩膜平均池化，得到两个不同流域的背景特征原型，背景特征原型可以表达未经过篡改这个抽象的语义类别，基于此背景特征原型，在原图像的特征图上做逐像素位置的匹配，从而确认未经过篡改的区域。

具体的执行步骤S53～S54：

掩膜平均池化公式表示为：

和

O表示初始分割输出，p^g和p^s表示不同流域的背景原型向量，

和

表示经过域自适应层后的特征图输出，6(·，·)则表示余弦相似度度量函数；归一化公式为：

其中，M^fg表示脸部掩膜，I表示输入图像；总的损失函数：

L_seg＝L_bg+L_fg，

S56.采用梯度下降的方式更新双流对比学习模型的网络参数，具体的，计算网络的各项参数关于总损失函数的偏导数，以实现网络的迭代更新，在不同的小批次上重复迭代更新过程，直到网络损失函数收敛或达到预置的最大迭代次数，得到本轮网络的已训练超参数；

S57.引入不同的训练超参数，使用不同的训练超参数重复执行步骤S51～S56，得到若干个双流对比学习训练模型，利用验证集对若干个双流对比学习训练模型进行评估，选取出最优的双流对比学习训练模型作为训练好的双流对比学习模型。

开始检测操作：

对待检测人脸视频帧执行S51～S54，得到语义分割输出图O^test，并使用区域判分公式得到未篡改概率p_umm，具体的区域判分公式为：

对未篡改概率p_um进行概率取补操作得到预测篡改概率p_m，表达式为： p_m＝1-p_um；设定判别阈值为p_th，，在本实施例中，采用0.5作为判别阈值，将篡改概率p_m和判别阈值进行比较，得到待检测人脸视频帧的篡改判别分类结果；

若p_m≥p_th，则认定当前待检测人脸视频帧经过人脸篡改操作；若p_m＜p_th，则当前视频帧没有经过人脸篡改操作，通过在所有视频帧中确认被判为经过人脸篡改操作的视频帧的位置和数量，得出视频级别的篡改判别预测结果。

实施例2

在本实施例中，为测试最优检测模型相比其他方式的有效性，采用准确率(Accuracy，Acc)和受试者测试特征曲线(Receiver Operating Characteristic Curve，ROC)下面积(Area Under Curve，AUC)作为指标测试双流对比学习模型性能的好坏。本实施例采用FaceForensics++(FF++)、Celeb-DF和Wild-DF三个人脸篡改视频数据集开展网络的训练和测试，下面分别对本实施例中采用的数据集进行简介：FaceForensics++一共包含1000个真实视频以及由4种不同伪造方法得到的4000个伪造视频，在本实施例中仅对该数据集中的Deepfakes以及FaceSwap 篡改方法得到的数据集开展实验测试，并且分为高质量集(HQ)和低质量集(LQ) 两个版本；Celeb-DF数据集中收录了590个真实视频和5639个使用先进人脸篡改算法生成的高质量视频，该数据集的一个特点为所采用素材全部为来自公开社交媒体上的名人视频，因此视频中的人物身份更具辨识度；Wild-DF数据集包含 3805个真实视频和3509个从公开社交媒体上爬取的人脸篡改视频，由于所有素材均来自互联网社交媒体，因此其场景和篡改方法更加丰富。

在得到视频数据集后，本实施例对所有视频进行分帧操作，然后裁剪出人脸图像用于双流对比网络的训练和测试。

具体地，本实施例中所采用对比方法分别来自以下文献：

1)Chollet F.Xception：Deep learning with depthwise separableconvolutions[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2017：1251-1258；

2)Rao Y，Ni J.A deep learning approach to detection of splicing andcopy-move forgeries inimages[C]//2016 IEEE International Workshop onInformation Forensics and Security(WIFS).IEEE，2016：1-6；

3)Afchar D，Nozick V，Yamagishi J，et al.Mesonet：a compact facial videoforgery detectionnetwork[C]//2018 IEEE international workshop on informationforensics and security(WIFS).IEEE，2018：1-7；

4)Bayar B，Stamm M C.A deep learning approach to universal imagemanipulation detection usinga new convolutional layer[C]//Proceedings of the4th ACM workshop on information hiding andmultimedia security.2016：5-10.

具体地，本实施例一共开展了两组实验，分别为：基于FaceForensics++数据集开展的库内实验测试；基于Celeb-DF和Wild-DF数据集开展的跨库实验测试

第一组：基于FaceForensics++数据集开展库内测试实验，测试结果如表1所示，代表不同检测方法在FaceForensics++上的库内测试结果(％)。

表1

由表1的结果可以看出，在高质量集(标记为HQ的数据集)上，本实施例无论是在Acc指标下还是在AUC指标下均取得了几乎无差错的检测性能。而在低质量集(标记为LQ的数据集)上，所有方法的检测性能均出现了不同程度的下降，但本实施例所提出的方法仍能够取得最好的检测性能。特别地，从Acc 指标来看，本实施例在FF++-DF(LQ)上，以3.04％的检测准确率优势超越人脸检测强基线模型Xception，而在FF++-FS(LQ)上，则以4.83％的检测准确率优势超越以动态路由机制为核心的Cap.V2，验证了本实施例不仅对高质量数据的有效性，并且对低质量数据也展现出了较好的鲁棒性。

第二组：基于Celeb-DF和Wild-DF数据集开展跨库测试实验，测试结果如表2所示，表示不同检测方法在Celeb-DF和Wild-DF上的跨库测试结果(AUC-％)。

表2：

由表2可以看出，本实施例所提出的方法在Wild-DF库内测试上，以1.78％的AUC优势超越对比方法中最优模型Cap.V2，并且在跨库测试上，能够以6.68％的明显优势超越Cap.V2，验证了本实施例不仅能够在库内测试上取得较高的检测性能，而且在面对未知篡改方法时，本实施例方法能够展现出较好的跨库检测性能。

上述两组实验表明，本申请所提出的方法具备一定的通用性，能够应用于多种人脸篡改方法中，并且当数据质量发生变化或者篡改方法发生改变时，本发明能够展现出较好的鲁棒性。

实施例3

如图4所示，本实施例提出了一种基于双流对比学习模型的人脸篡改视频检测系统，参见图4，所述系统包括：

分帧处理模块101，用于对原始视频进行分帧操作，得到原始分帧图像；

数据集构造模块102，用于对原始分帧图像进行人脸篡改操作，得到人脸篡改图像，人脸篡改图像和原始分帧图像混合形成数据集，并将数据集划分为训练集、验证集和测试集；

人脸图像处理模块103，对数据集中每一个单帧图像进行人脸检测，并裁剪出包含背景区域的人脸图像；

掩膜生成模块104，对输入人脸图像进行人脸关键点定位，生成像素级别掩膜；

模型构建训练模块105，用于构建双流对比学习模型，包括两个结构相同的语义分割网络分支；利用训练集对双流对比学习模型进行监督训练，然后利用验证集评估双流对比学习模型，选取出最优的检测模型，并利用测试集测试最优检测模型；

待检测视频预处理模块106，用于对待检测视频进行分帧操作，并以获得人脸图像，基于对人脸图像获得像素级别掩膜；

检测模块107，用于将待检测人脸视频帧以待检测视频预处理模块106生成的像素级别掩膜一并输入到最优检测模型中进行分类，得到所有待检测人脸视频帧的分类判别结果，基于所有待检测人脸视频帧的分类判别结果，得到总的视频级别的预测分类结果。

显然，本发明的上述实施例仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于双流对比学习模型的人脸篡改视频检测方法，其特征在于，包括以下步骤：

S1.对原始视频进行分帧操作，得到原始分帧图像；

2.根据权利要求1所述的基于双流对比学习模型的人脸篡改视频检测方法，其特征在于，步骤S2所述对原始分帧图像进行人脸篡改操作的过程具体为：

3.根据权利要求2所述的基于双流对比学习模型的人脸篡改视频检测方法，其特征在于，在步骤S3中，对分帧操作后的数据集中每一个单帧图像进行人脸检测，并裁剪出包含背景区域的人脸图像的过程具体为：

S32.固定人脸裁剪框的中心位置，按1:1.3进行人脸裁剪框的放大，得到放大后的人脸裁剪框；

4.根据权利要求3所述的基于双流对比学习模型的人脸篡改视频检测方法，其特征在于，步骤S4所述的像素级别掩膜包括脸部掩膜和背景掩膜，所述对输入的单帧图像进行人脸关键点定位，生成像素级别掩膜的过程为：

S43.对脸部掩膜进行逻辑取补操作，得到背景掩膜。

5.根据权利要求4所述的基于双流对比学习模型的人脸篡改视频检测方法，其特征在于，步骤S5所述构建的双流对比学习模型，包括两个结构相同的语义分割网络分支，一个为RGB流分支，另一个为梯度流分支；所述的语义分割网络包括两个基本部分：一个部分是以EfficientNet-b3网络为主干搭建的编码器，并通过加载该网络在ImageNet上的已训练网络权重参数作为编码器的预训练网络权重参数；另一个部分是通过交替堆叠双线性上采样模块和普通卷积模块得到的浅层解码器，并通过采用Kaiming初始化给此部分的解码器网络进行权重参数的预置。

6.根据权利要求5所述的基于双流对比学习模型的人脸篡改视频检测方法，其特征在于，步骤S5中还包括构建视角生成器，用于接收输入其的视频帧，生成两路不同视角下的RGB图像，所述的视角生成器集成四种视角变换方式，分别为：高斯模糊、高斯噪声、灰度化以及SRM噪声叠加。

7.根据权利要求6所述的基于双流对比学习模型的人脸篡改视频检测方法，其特征在于，利用训练集对双流对比学习模型进行监督训练，然后利用验证集评估双流对比学习模型，选取出最优的检测模型，并利用测试集测试最优检测模型的过程为：

S52.将S51得到的RGB流数据和梯度流数据分别输入分别输入双流对比学习模型的RGB流分支和梯度流分支进行特征提取，得到两个不同流域的特征图F^s和F^g；

掩膜平均池化公式表示为：

和

O表示初始分割输出，p^g和p^s表示不同流域的背景原型向量，

和

其中，M^fg表示脸部掩膜，I表示输入图像；总的损失函数：

L_seg＝L_bg+L_fg，

S56.采用梯度下降的方式更新双流对比学习模型的网络参数；

8.根据权利要求7所述的基于双流对比学习模型的人脸篡改视频检测方法，其特征在于，在步骤S7中，对待检测人脸视频帧执行S51～S54，得到语义分割输出图O^test，并使用区域判分公式得到未篡改概率p_um，具体的区域判分公式为：

对未篡改概率p_um进行概率取补操作得到预测篡改概率p_m，表达式为：p_m＝1-p_um；设定判别阈值为p_t，将篡改概率p_m和判别阈值进行比较，得到待检测人脸视频帧的篡改判别分类结果。

9.根据权利要求8所述的基于双流对比学习模型的人脸篡改视频检测方法，其特征在于，若p_m≥p_t，则认定当前待检测人脸视频帧经过人脸篡改操作；若p_m＜p_t，则当前视频帧没有经过人脸篡改操作，通过在所有视频帧中确认被判为经过人脸篡改操作的视频帧的位置和数量，得出视频级别的篡改判别预测结果。

10.一种基于双流对比学习模型的人脸篡改视频检测系统，其特征在于，所述系统包括：

人脸图像处理模块，用于对数据集中每一个单帧图像进行人脸检测，并裁剪出包含背景区域的人脸图像；

模型构建训练模块，用于构建双流对比学习模型，包括两个结构相同的语义分割网络分支；利用训练集对双流对比学习模型进行监督训练，然后利用验证集评估双流对比学习模型，选取出最优的检测模型，并利用测试集测试最优检测模型的有效性；

待检测视频预处理模块，对待检测视频进行分帧操作，并获得人脸图像，基于人脸图像获得像素级别掩膜；