CN112991278B - RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统 - Google Patents
RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统 Download PDFInfo
- Publication number
- CN112991278B CN112991278B CN202110224286.1A CN202110224286A CN112991278B CN 112991278 B CN112991278 B CN 112991278B CN 202110224286 A CN202110224286 A CN 202110224286A CN 112991278 B CN112991278 B CN 112991278B
- Authority
- CN
- China
- Prior art keywords
- rgb
- video
- log
- network
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统,该方法包括下述步骤:逐帧提取各视频帧中人脸区域的RGB三通道图像,将RGB三通道图像和局部人脸区域遮挡的图像输入Xception网络,提取RGB空域特征;对连续帧的RGB三通道图像进行LoG变换,经过三维卷积层和Xception网络提取LoG时域特征;将RGB空域特征和LoG时域特征拼接后输入全连接层进行特征分类;训练网络模型,保存网络的模型和权重;进行检测分类,判断视频是否为换脸视频。本发明通过提取换脸视频中的RGB空域特征和LoG时域特征,结合局部人脸区域遮挡处理,有效提高模型对换脸视频的检测能力和泛化能力。
Description
技术领域
本发明涉及数字视频的篡改检测技术领域,具体涉及一种RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统。
背景技术
随着技术的发展,人脸逐渐成为最具有影响力的生物特征。但近年来由于深度学习技术的应用,针对视频的换脸篡改技术Deepfake在社交网络广泛传播,对社会造成了严重的负面影响,因此研究相应的Deepfake视频检测技术具有十分重要的意义。
而现有的Deepfake视频检测技术主要基于人脸的空间域特征,一类基于传统特征,提取局部空间域特征或全局空间域特征进行检测;另一类基于深度网络,将大量Deepfake视频样本输入到卷积神经网络中,迫使网络学习样本之间共有的空间域特征,Chollect等人在2017年CVPR(International Conference on Computer Vision andPattern Recognition)国际会议上发表论文《Xception:Deep Learning with DepthwiseSeparable Convolutions》,提出了一种基于深度可分离卷积块的Xception网络,能够有效提取图像的空间域特征,被广泛应用于Deepfake视频检测。但现有的Deepfake视频检测方法大多仅在训练数据库内具有较强的检测能力,在不同数据库的跨库测试中检测能力明显下降,存在泛化能力较弱等问题。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种RGB空域特征与LoG时域特征结合的Deepfake视频检测方法,本发明所设计的网络结构能够有效提取换脸视频中帧图像的空间域信息和时间域信息,结合局部人脸区域遮挡处理,能够有效提高检测模型的泛化能力。
本发明的第二目的在于提供一种RGB空域特征与LoG时域特征结合的Deepfake视频检测系统。
本发明的第三目的在于提供一种存储介质。
本发明的第四目的在于提供一种计算设备。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种RGB空域特征与LoG时域特征结合的Deepfake视频检测方法,包括下述步骤:
待测视频数据预处理,逐帧提取各视频帧中的人脸区域;
提取人脸区域的RGB三通道图像,对RGB三通道图像进行局部人脸区域遮挡处理;
构建双支路网络模型,所述双支路网络模型包括RGB空域特征提取分支和LoG时域特征提取分支;
将RGB三通道图像和经过局部人脸区域遮挡处理的图像输入到Xception网络中,提取包含空间域信息的RGB空域特征;
对连续帧的RGB三通道图像进行高斯拉普拉斯变换,得到RGB三通道LoG图像序列,利用三维卷积层和Xception网络级联的特征提取网络提取包含时间域信息的LoG时域特征;
将RGB空域特征和LoG时域特征进行拼接,输入全连接层进行特征分类;将训练视频输入双支路网络模型进行训练,保存网络的模型和权重;
采用已训练权重的双支路网络模型对待检测视频进行检测分类,判断视频是否为换脸视频。
作为优选的技术方案,所述对RGB三通道图像进行局部人脸区域遮挡处理,具体步骤包括:
对人脸区域进行特征点检测,得到上半脸部区域、下半脸部区域、左半脸部区域和右半脸部区域的特征点;
选择人脸区域的遮挡区域,将特征点连接的封闭区域取值设置为0,剩余区域取值设置为1,得到二值切分掩模Mask,将RGB三通道图像IRGB与二值切分掩模Mask相乘,得到局部人脸区域遮挡的RGB图像IAug,具体表示为:
作为优选的技术方案,所述对连续帧的RGB三通道图像进行高斯拉普拉斯变换,高斯拉普拉斯算子的具体值表示为:
将各帧RGB三通道图像与高斯拉普拉斯算子进行卷积运算,卷积步长为1,卷积边缘填充为4,高斯拉普拉斯变换对图像进行高斯滤波和拉普拉斯变换,通过高斯拉普拉斯变换完成对通道图像的低频滤波去噪处理及高频边缘特征增强。
作为优选的技术方案,所述利用三维卷积层和Xception网络级联的特征提取网络提取包含时间域信息的LoG时域特征,具体步骤包括:
所述三维卷积层对LoG图像序列进行卷积操作,三维卷积核尺寸为t×h×w,其中t表示三维卷积层对每t帧的连续图像进行时间域信息提取,时间步长为1,将三维卷积层的输出作为Xception网络的输入,所述Xception网络采用卷积层、激活函数和池化层构成的深度可分离卷积块进行特征提取,最后提取得到包含时间域信息的LoG时域特征。
作为优选的技术方案,所述将RGB空域特征和LoG时域特征进行拼接,输入全连接层进行特征分类,具体步骤包括:
所述RGB空域特征的尺寸为1×1×C0,所述LoG时域特征的尺寸为1×1×C1,在通道维度C进行级联拼接,得到尺寸为1×1×(C0+C1)的级联特征向量;
构建输出维度为2的全连接层通道,以级联拼接后的特征向量作为输入,输出用于特征分类的2维向量,向量值分别代表预测为换脸图像的概率和预测为真脸图像的概率,通过概率值进行分类。
作为优选的技术方案,所述将训练视频输入双支路网络模型进行训练,保存网络的模型和权重,具体步骤包括:
将训练视频样本输入到双支路卷积神经网络模型中,输出的分类结果分别为预测为换脸图像的概率和预测为真脸图像的概率,采用交叉熵函数作为损失函数,将分类结果与样本标签输入到损失函数中进行计算,得到损失值;
以最小化损失值为目标迭代训练,并反向传播更新网络权重系数,完成训练后保存网络的模型和权重。
为了达到上述第二目的,本发明采用以下技术方案:
本发明提供一种RGB空域特征与LoG时域特征结合的Deepfake视频检测系统,包括:视频分帧提取模块、图像预处理模块、双支路网络模型构建模块、RGB空域特征提取模块、LoG时域特征提取模块、特征融合及分类模块、网络训练模块和视频检测模块;
所述视频分帧提取模块用于将待测视频数据预处理,逐帧提取各视频帧中的人脸区域;
所述图像预处理模块用于提取人脸区域的RGB三通道图像,对RGB三通道图像进行局部人脸区域遮挡处理;
所述双支路网络模型构建模块用于构建双支路网络模型,所述双支路网络模型包括RGB空域特征提取分支和LoG时域特征提取分支;
所述RGB空域特征提取模块用于将RGB三通道图像和经过局部人脸区域遮挡处理的图像输入到Xception网络中,提取包含空间域信息的RGB空域特征;
所述LoG时域特征提取模块用于对连续帧的RGB三通道图像进行高斯拉普拉斯变换,得到RGB三通道LoG图像序列,利用三维卷积层和Xception网络级联的特征提取网络提取包含时间域信息的LoG时域特征;
所述特征融合及分类模块用于将RGB空域特征和LoG时域特征进行拼接,输入全连接层进行特征分类;
所述网络训练模块用于将训练视频输入双支路网络模型进行训练,保存网络的模型和权重;
所述视频检测模块用于采用已训练权重的双支路网络模型对待检测视频进行检测分类,判断视频是否为换脸视频。
为了达到上述第三目的,本发明采用以下技术方案:
一种存储介质,存储有程序,所述程序被处理器执行时实现如上述RGB空域特征与LoG时域特征结合的Deepfake视频检测方法。
为了达到上述第四目的,本发明采用以下技术方案:
一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现如上述RGB空域特征与LoG时域特征结合的Deepfake视频检测方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明采用了通过RGB空域特征与LoG时域特征结合的双支路特征提取网络对Deepfake视频的空间域信息和时间域信息进行提取融合的技术方案,并结合局部人脸区域遮挡处理,在增强模型检测能力的同时能够有效提高模型的泛化能力。
(2)本发明采用了对人脸区域进行高斯拉普拉斯变换的技术方案,能够对人脸区域进行低频滤波去噪处理及高频边缘特征增强,提高模型的检测能力。
(3)本发明采用了利用三维卷积层对视频帧序列进行时域信息提取的技术方案,有效提取了换脸视频帧序列之间存在的时域连续信息,增强模型对Deepfake视频时域信息的利用。
(4)本发明采用了以局部人脸区域遮挡处理作为数据增广的技术方案,通过人脸特征坐标点检测以及人脸区域掩模处理,优化模型对人脸特征的提取能力,提高检测模型的鲁棒性。
附图说明
图1为本发明RGB空域特征与LoG时域特征结合的Deepfake视频检测方法的流程示意图;
图2为本发明RGB空域特征与LoG时域特征结合的Deepfake视频检测方法的训练与测试流程示意图;
图3为本发明RGB空域特征与LoG时域特征结合的Deepfake视频检测方法的模型结构示意图;
图4(a)为本发明的视频帧图像示意图;
图4(b)为本发明的RGB图像示意图;
图4(c)为本发明的局部人脸区域遮挡图像示意图;
图4(d)为本发明的LoG图像示意图;
图5为本发明的多种局部人脸区域遮挡图像示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
本实施例采用DeepFakeDetection、FaceForensics++和TIMIT三个Deepfake视频数据库进行训练和测试,DeepFakeDetection数据库包含1089个真实视频和9204个换脸视频,库内视频分别使用C0、C23、C40三种不同压缩程度进行处理。FaceForensics++数据库包含1000个真实视频和3000个换脸视频,其中包含1000个由深度伪造换脸方法(DeepFake)生成的换脸视频,库内视频分别使用C0、C23、C40三种不同压缩程度进行处理;TIMIT数据库包含559个真实视频和640个换脸视频,包括高质量(HQ)和低质量(LQ)两种不同压缩程度的视频。
本实施例在DeepFakeDetection(C23)数据库的视频样本对模型进行训练,在DeepFakeDetection(C23)数据库上对模型进行库内测试,在FaceForensics++(C0)数据库、TIMIT数据库上对模型进行跨库测试,本实施例主要基于深度学习框架Pytorch实现,本实施例所用系统为Ubuntu16.04,显卡为GTX1080Ti,CUDA版本为9.0.176。
如图1、图2所示,并结合图3所示,本实施例提供一种RGB空域特征与LoG时域特征结合的Deepfake视频检测方法,包括下述步骤:
S1:待测视频数据预处理,逐帧提取各视频帧中的人脸区域;
在本实施例中,按照视频的原始帧率,使用OpenCV工具库的视频处理工具将相关数据集的视频样本进行分帧处理,每隔k帧提取一帧,得到视频帧序列{f1,f2,…,fn},其中n为序列的总帧数,如图4(a)、图4(b)所示,采用Dlib工具库的人脸识别算法对视频帧序列中的各帧图像采用人脸识别算法检测人脸区域,对检测结果进行矩形区域裁剪并保存人脸区域图像序列{I1,I2,…,In},在本实施例中,k的取值为5;
S2:提取人脸区域的红绿蓝三通道(RGB)图像;
在本实施例中,对人脸区域图像的图像尺寸进行统一,使用双线性插值方法将各人脸区域图像的图像尺寸调整为LH×Lw,其中LH为图像高度,Lw为图像宽度,在本实施例中,LH与Lw的取值均为299,将彩色人脸区域图像分解为红、绿、蓝3个颜色通道,并进行归一化处理,得到各帧人脸区域对应的RGB三通道图像IRGB,通过RGB颜色通道分解后的图像尺寸为299×299×3,归一化后取值为[0,1]。
S3:构建RGB空域特征提取分支,将RGB通道图像和经过局部人脸区域遮挡处理的RGB图像输入到Xception网络中,提取包含空间域信息的RGB空域特征;
具体步骤包括:
如图4(c)所示,对RGB三通道图像IRGB进行局部人脸区域遮挡处理:使用Dlib工具库的特征点检测方法对RGB三通道图像IRGB中的人脸区域进行特征点检测,提取68个人脸特征坐标点,分别提取上半脸部、下半脸部、左半脸部和右半脸部四个区域的特征点:
选取编号为1,2,16至27的人脸特征点,依次连接各点得到上半脸部区域;选取编号为3至15的人脸特征点,依次连接各点得到下半脸部区域;选取编号为1至9,18至22的人脸特征点,依次连接各点得到左半脸部区域;选取编号为9至17,23至27的人脸特征点,依次连接各点得到右半脸部区域;
如图5所示,局部人脸区域遮挡处理可选择遮挡上半脸、下半脸、左半脸或右半脸中的任意一种;
将特征点连接的封闭区域取值设置为0,剩余区域取值设置为1,得到二值切分掩模Mask,掩模尺寸为299×299。将RGB三通道图像IRGB与二值切分掩模Mask相乘,得到局部人脸区域遮挡的RGB图像IAug,具体计算如下,其中表示逐元素相乘:
使用Xception网络作为特征提取网络,以RGB三通道图像IRGB和局部人脸区域遮挡的RGB图像IAug作为输入,输入尺寸为299×299×3。Xception网络利用卷积层、激活函数和池化层构成的深度可分离卷积块进行特征提取,由于RGB三通道图像和局部遮挡的图像包含图像的空间域信息,提取得到包含空间域信息的RGB空域特征FRGB,向量尺寸为1×1×2048。
S4:构建LoG时域特征提取分支,如图4(d)所示,对连续帧的RGB三通道图像进行高斯拉普拉斯(LoG)变换,得到RGB三通道LoG图像序列,利用三维卷积层和Xception网络级联的特征提取网络提取包含时间域信息的LoG时域特征;
在本实施例中,构造高斯拉普拉斯算子G,其尺寸为9×9,其具体值如下:
将各帧RGB三通道图像与高斯拉普拉斯算子进行卷积运算,卷积步长为1,卷积边缘填充为4,高斯拉普拉斯变换对图像进行高斯滤波和拉普拉斯变换:高斯滤波通过加权平均对图像进行平滑处理,具有低频滤波特性,能够有效消除图像中的噪音;拉普拉斯变换通过二阶差分能够有效提取并增强图像中变化剧烈的高频边缘特征。利用高斯拉普拉斯变换实现对通道图像的低频滤波去噪处理及高频边缘特征增强,得到各帧RGB三通道图像序列{IRGB1,IRGB2,…,IRGBn}对应的LoG图像序列{ILoG1,ILoG2,…,ILoGn},输出图像尺寸为299×299×3。
利用三维卷积层对LoG图像序列{ILoG1,ILoG2,…,ILoGn}进行卷积操作,其中n为LoG图像序列长度,三维卷积核尺寸为t×h×w,其中t表示三维卷积层对每t帧的连续图像进行时间域信息提取,时间步长为1,本实施例中的t、h、w均取值为3;将三维卷积层的输出进一步作为Xception网络的输入,Xception网络利用卷积层、激活函数和池化层构成的深度可分离卷积块进行特征提取,提取得到包含时间域信息的LoG时域特征FLoG,向量尺寸为1×1×2048。
S5:将RGB空域特征和LoG时域特征进行拼接,输入全连接层进行特征分类;
在本实施例中,将尺寸为1×1×C0的RGB空域特征FRGB和尺寸为1×1×C1的LoG时域特征FLoG在通道维度C进行级联拼接,得到尺寸为1×1×(C0+C1)的级联特征向量。构建输出维度为2的全连接层通道,以级联拼接后的特征向量作为输入,输出用于特征分类的2维向量,向量值分别代表预测为换脸图像的概率和预测为真脸图像的概率,利用概率值进行分类;在本实施例中,C0、C1的取值均为2048;
S6:训练阶段,将训练视频样本输入到双支路卷积神经网络中进行训练,根据分类结果与样本标签计算损失函数,其中换脸图像标签为0,真脸图像标签为1,利用损失值更新网络权重系数,完成训练后保存模型结构和参数权重;
在本实施例中,利用DeepFakeDetection(C23)数据库的视频样本作为训练集,将RGB三通道图像IRGB和局部人脸区域遮挡的RGB图像IAug作为RGB空域特征提取支路的输入,将LoG图像ILog作为LoG时域特征提取支路的输入,分别进行端对端训练,采用SGD优化器作为训练优化器,学习率设置为1×10-3,动量参数momentum设置为0.9,权重衰减decay设置为1×10-4。网络输出的分类结果分别为预测为换脸图像的概率和预测为真脸图像的概率,采用交叉熵函数作为损失函数,将分类结果与样本标签值作为损失函数的输入,计算得到损失值。以最小化损失值为目标迭代训练,并反向传播更新网络权重系数,完成训练后保存网络的模型和权重。
S7:测试阶段,使用加载已训练权重的双支路网络模型对待检测视频进行检测分类,判断待检测视频是否为换脸视频;
在本实施例中,加载DeepFakeDetection(C23)数据库训练后的模型结构和参数权重,对DeepFakeDetection(C23)数据库进行库内测试,对FaceForensics++(C0)数据库和TIMIT数据库进行跨库测试,并采用受试者工作特征曲线(Receiver OperatingCharacteristic Curve,ROC)下面积(Area Under Curve,AUC)以及平均错误率(HalfTotal Error Rate,HTER)作为检测性能评价指标:
AUC为ROC曲线下方的面积,取值范围为(0,1),AUC值越大则表明模型鲁棒性越好。
HTER为平均错误率,其值等于虚警率和漏检率的平均值,取值范围为(0,1),HTER值越小则表示模型检测性能越好,具体计算公式如下:
其中,FN表示真脸图像被误判为换脸图像的数量,TP表示真脸图像被正确判断为真脸图像的数量,FP表示换脸图像被误判为真脸图像的数量,TN表示换脸图像被正确判断为换脸图像的数量。
本实施例在DeepFakeDetection(C23)数据库中训练模型,测试结果如表1和表2所示:
表1测试结果AUC(/%)
测试数据库 | DeepFakeDetection(C23) | FaceForensics++(C0) | TIMIT |
Xception | 98.12 | 85.73 | 83.53 |
本发明模型 | 99.88 | 95.14 | 92.38 |
表2测试结果HTER(/%)
测试数据库 | DeepFakeDetection(C23) | FaceForensics++(C0) | TIMIT |
Xception | 3.43 | 18.24 | 23.73 |
本发明模型 | 1.51 | 9.83 | 12.51 |
在库内测试中,本实施例在DeepFakeDetection(C23)数据库上的测试结果为:AUC面积为0.9988,平均错误率HTER为1.51%,对比单流Xception网络,平均错误率HTER降低了1.92%,表明模型具有较强的库内视频检测能力。
在跨库测试中,本实施例在FaceForensics++(C0)数据库和TIMIT数据库上的测试结果为:AUC面积分别为0.9514和0.9238,平均错误率HTER分别为9.83%和12.51%,对比单流Xception网络,ROC面积AUC和平均错误率HTER都得到较大改进,验证了本实施例的模型能够达到较好的泛化能力。
本实施例通过双支路网络模型融合换脸视频的RGB空域特征和LoG时域特征,并结合局部人脸区域遮挡处理,在增强模型检测能力的同时,能够有效提高模型的泛化能力。
实施例2
本实施例提供一种RGB空域特征与LoG时域特征结合的Deepfake视频检测系统,包括:视频分帧提取模块、图像预处理模块、双支路网络模型构建模块、RGB空域特征提取模块、LoG时域特征提取模块、特征融合及分类模块、网络训练模块和视频检测模块;
在本实施例中,视频分帧提取模块用于将待测视频数据预处理,逐帧提取各视频帧中的人脸区域;
在本实施例中,图像预处理模块用于提取人脸区域的RGB三通道图像,对RGB三通道图像进行局部人脸区域遮挡处理;
在本实施例中,双支路网络模型构建模块用于构建双支路网络模型,所述双支路网络模型包括RGB空域特征提取分支和LoG时域特征提取分支;
在本实施例中,RGB空域特征提取模块用于将RGB三通道图像和经过局部人脸区域遮挡处理的图像输入到Xception网络中,提取包含空间域信息的RGB空域特征;
在本实施例中,LoG时域特征提取模块用于对连续帧的RGB三通道图像进行高斯拉普拉斯变换,得到RGB三通道LoG图像序列,利用三维卷积层和Xception网络级联的特征提取网络提取包含时间域信息的LoG时域特征;
在本实施例中,特征融合及分类模块用于将RGB空域特征和LoG时域特征进行拼接,输入全连接层进行特征分类;
在本实施例中,网络训练模块用于将训练视频输入双支路网络模型进行训练,保存网络的模型和权重;
在本实施例中,视频检测模块用于采用已训练权重的双支路网络模型对待检测视频进行检测分类,判断视频是否为换脸视频。
实施例3
本实施例提供一种存储介质,存储介质可以是ROM、RAM、磁盘、光盘等储存介质,该存储介质存储有一个或多个程序,所述程序被处理器执行时,实现实施例1的RGB空域特征与LoG时域特征结合的Deepfake视频检测方法。
实施例4
本实施例提供一种计算设备,所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备,该计算设备包括该计算设备包括处理器和存储器,存储器存储有一个或多个程序,处理器执行存储器存储的程序时,实现实施例1的RGB空域特征与LoG时域特征结合的Deepfake视频检测方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种RGB空域特征与LoG时域特征结合的Deepfake视频检测方法,其特征在于,包括下述步骤:
待测视频数据预处理,逐帧提取各视频帧中的人脸区域;
提取人脸区域的RGB三通道图像,对RGB三通道图像进行局部人脸区域遮挡处理;
构建双支路网络模型,所述双支路网络模型包括RGB空域特征提取分支和LoG时域特征提取分支;
将RGB三通道图像和经过局部人脸区域遮挡处理的图像输入到Xception网络中,提取包含空间域信息的RGB空域特征;
对连续帧的RGB三通道图像进行高斯拉普拉斯变换,得到RGB三通道LoG图像序列,利用三维卷积层和Xception网络级联的特征提取网络提取包含时间域信息的LoG时域特征;
将RGB空域特征和LoG时域特征进行拼接,输入全连接层进行特征分类;将训练视频输入双支路网络模型进行训练,保存网络的模型和权重;
采用已训练权重的双支路网络模型对待检测视频进行检测分类,判断视频是否为换脸视频。
4.根据权利要求1所述的RGB空域特征与LoG时域特征结合的Deepfake视频检测方法,其特征在于,所述利用三维卷积层和Xception网络级联的特征提取网络提取包含时间域信息的LoG时域特征,具体步骤包括:
所述三维卷积层对LoG图像序列进行卷积操作,三维卷积核尺寸为t×h×w,其中三维卷积层对视频帧的连续图像进行时间域信息提取,时间步长为1,将三维卷积层的输出作为Xception网络的输入,所述Xception网络采用卷积层、激活函数和池化层构成的深度可分离卷积块进行特征提取,最后提取得到包含时间域信息的LoG时域特征。
5.根据权利要求1所述的RGB空域特征与LoG时域特征结合的Deepfake视频检测方法,其特征在于,所述将RGB空域特征和LoG时域特征进行拼接,输入全连接层进行特征分类,具体步骤包括:
所述RGB空域特征的尺寸为1×1×C0,所述LoG时域特征的尺寸为1×1×C1,在通道维度C进行级联拼接,得到尺寸为1×1×(C0+C1)的级联特征向量;
构建输出维度为2的全连接层通道,以级联拼接后的特征向量作为输入,输出用于特征分类的2维向量,向量值分别代表预测为换脸图像的概率和预测为真脸图像的概率,通过概率值进行分类。
6.根据权利要求1所述的RGB空域特征与LoG时域特征结合的Deepfake视频检测方法,其特征在于,所述将训练视频输入双支路网络模型进行训练,保存网络的模型和权重,具体步骤包括:
将训练视频样本输入到双支路卷积神经网络模型中,输出的分类结果分别为预测为换脸图像的概率和预测为真脸图像的概率,采用交叉熵函数作为损失函数,将分类结果与样本标签输入到损失函数中进行计算,得到损失值;
以最小化损失值为目标迭代训练,并反向传播更新网络权重系数,完成训练后保存网络的模型和权重。
7.一种RGB空域特征与LoG时域特征结合的Deepfake视频检测系统,其特征在于,包括:视频分帧提取模块、图像预处理模块、双支路网络模型构建模块、RGB空域特征提取模块、LoG时域特征提取模块、特征融合及分类模块、网络训练模块和视频检测模块;
所述视频分帧提取模块用于将待测视频数据预处理,逐帧提取各视频帧中的人脸区域;
所述图像预处理模块用于提取人脸区域的RGB三通道图像,对RGB三通道图像进行局部人脸区域遮挡处理;
所述双支路网络模型构建模块用于构建双支路网络模型,所述双支路网络模型包括RGB空域特征提取分支和LoG时域特征提取分支;
所述RGB空域特征提取模块用于将RGB三通道图像和经过局部人脸区域遮挡处理的图像输入到Xception网络中,提取包含空间域信息的RGB空域特征;
所述LoG时域特征提取模块用于对连续帧的RGB三通道图像进行高斯拉普拉斯变换,得到RGB三通道LoG图像序列,利用三维卷积层和Xception网络级联的特征提取网络提取包含时间域信息的LoG时域特征;
所述特征融合及分类模块用于将RGB空域特征和LoG时域特征进行拼接,输入全连接层进行特征分类;
所述网络训练模块用于将训练视频输入双支路网络模型进行训练,保存网络的模型和权重;
所述视频检测模块用于采用已训练权重的双支路网络模型对待检测视频进行检测分类,判断视频是否为换脸视频。
8.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6任一项所述RGB空域特征与LoG时域特征结合的Deepfake视频检测方法。
9.一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现如权利要求1-6任一项所述RGB空域特征与LoG时域特征结合的Deepfake视频检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110224286.1A CN112991278B (zh) | 2021-03-01 | 2021-03-01 | RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110224286.1A CN112991278B (zh) | 2021-03-01 | 2021-03-01 | RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112991278A CN112991278A (zh) | 2021-06-18 |
CN112991278B true CN112991278B (zh) | 2023-01-31 |
Family
ID=76351779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110224286.1A Active CN112991278B (zh) | 2021-03-01 | 2021-03-01 | RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112991278B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283393B (zh) * | 2021-06-28 | 2023-07-25 | 南京信息工程大学 | 基于图像组与两流网络的Deepfake视频检测方法 |
CN113705397A (zh) * | 2021-08-16 | 2021-11-26 | 南京信息工程大学 | 基于双流cnn结构融合prnu的gan生成人脸检测方法 |
CN115273186A (zh) * | 2022-07-18 | 2022-11-01 | 中国人民警察大学 | 基于图像特征融合的深度伪造人脸视频检测方法及系统 |
CN117676121A (zh) * | 2022-08-24 | 2024-03-08 | 腾讯科技(深圳)有限公司 | 视频质量评估方法、装置、设备及计算机存储介质 |
CN115661725B (zh) * | 2022-12-26 | 2023-03-21 | 浙江鹏信信息科技股份有限公司 | Deepfake视频检测方法、系统及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110458752A (zh) * | 2019-07-18 | 2019-11-15 | 西北工业大学 | 一种基于局部遮挡条件下的图像换脸方法 |
US10810725B1 (en) * | 2018-12-07 | 2020-10-20 | Facebook, Inc. | Automated detection of tampered images |
CN112183501A (zh) * | 2020-11-27 | 2021-01-05 | 北京智源人工智能研究院 | 深度伪造图像检测方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112163494A (zh) * | 2020-09-21 | 2021-01-01 | 中国科学院信息工程研究所 | 一种视频虚假人脸检测方法及电子装置 |
CN112270300A (zh) * | 2020-11-17 | 2021-01-26 | 衡阳师范学院 | 基于生成式对抗网络的人脸素描图像转换为rgb图像方法 |
-
2021
- 2021-03-01 CN CN202110224286.1A patent/CN112991278B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10810725B1 (en) * | 2018-12-07 | 2020-10-20 | Facebook, Inc. | Automated detection of tampered images |
CN110458752A (zh) * | 2019-07-18 | 2019-11-15 | 西北工业大学 | 一种基于局部遮挡条件下的图像换脸方法 |
CN112183501A (zh) * | 2020-11-27 | 2021-01-05 | 北京智源人工智能研究院 | 深度伪造图像检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
François Chollet.Xception: Deep Learning with Depthwise Separable Convolutions.《2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》.2017,第1800-1807页. * |
基于图像分割网络的深度假脸视频篡改检测;胡永健等;《电子与信息学报》;20210131;第43卷(第1 期);第162-170页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112991278A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112991278B (zh) | RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统 | |
CN112699786B (zh) | 一种基于空间增强模块的视频行为识别方法及系统 | |
CN112734696B (zh) | 基于多域特征融合的换脸视频篡改检测方法及系统 | |
CN110059728B (zh) | 基于注意力模型的rgb-d图像视觉显著性检测方法 | |
CN111709313B (zh) | 基于局部和通道组合特征的行人重识别方法 | |
CN113762138A (zh) | 伪造人脸图片的识别方法、装置、计算机设备及存储介质 | |
CN110399826B (zh) | 一种端到端人脸检测和识别方法 | |
CN112733625B (zh) | 基于时域自注意力机制的假脸视频篡改检测方法及系统 | |
CN110929635A (zh) | 基于信任机制下面部交并比的假脸视频检测方法及系统 | |
Hu et al. | A multi-stage underwater image aesthetic enhancement algorithm based on a generative adversarial network | |
Liu et al. | A super resolution algorithm based on attention mechanism and srgan network | |
CN111639230B (zh) | 一种相似视频的筛选方法、装置、设备和存储介质 | |
CN115393698A (zh) | 一种基于改进dpn网络的数字图像篡改检测方法 | |
CN115131229A (zh) | 图像降噪、滤波数据处理方法、装置和计算机设备 | |
CN114693607A (zh) | 基于多域块特征标志点配准的篡改视频检测方法及系统 | |
CN114037893A (zh) | 一种基于卷积神经网络的高分辨率遥感图像建筑提取方法 | |
CN111539434B (zh) | 基于相似度的红外弱小目标检测方法 | |
CN113378620A (zh) | 监控视频噪声环境下跨摄像头行人重识别方法 | |
Zhang et al. | Feature compensation network based on non-uniform quantization of channels for digital image global manipulation forensics | |
Lai et al. | Generative focused feedback residual networks for image steganalysis and hidden information reconstruction | |
CN116977200A (zh) | 视频去噪模型的处理方法、装置、计算机设备和存储介质 | |
CN115761888A (zh) | 基于nl-c3d模型的塔吊操作人员异常行为检测方法 | |
CN115331135A (zh) | 基于多域特征区域标准分数差异的Deepfake视频检测方法 | |
CN115223018A (zh) | 伪装对象协同检测方法及装置、电子设备和存储介质 | |
CN114463764A (zh) | 表格线检测方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |