CN115273186A - 基于图像特征融合的深度伪造人脸视频检测方法及系统 - Google Patents
基于图像特征融合的深度伪造人脸视频检测方法及系统 Download PDFInfo
- Publication number
- CN115273186A CN115273186A CN202210843607.0A CN202210843607A CN115273186A CN 115273186 A CN115273186 A CN 115273186A CN 202210843607 A CN202210843607 A CN 202210843607A CN 115273186 A CN115273186 A CN 115273186A
- Authority
- CN
- China
- Prior art keywords
- image
- face
- video
- plgf
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 58
- 238000001514 detection method Methods 0.000 title claims abstract description 43
- 101150062285 PGF gene Proteins 0.000 claims abstract description 60
- 102100035194 Placenta growth factor Human genes 0.000 claims abstract description 60
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 230000004913 activation Effects 0.000 claims abstract description 10
- 238000009432 framing Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 37
- 238000000034 method Methods 0.000 claims description 31
- 238000005286 illumination Methods 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 21
- 238000000926 separation method Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 210000001525 retina Anatomy 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 239000000463 material Substances 0.000 claims 2
- 238000000638 solvent extraction Methods 0.000 claims 2
- 230000000694 effects Effects 0.000 abstract description 2
- 210000000887 face Anatomy 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000008485 antagonism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 238000005242 forging Methods 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/16—Image acquisition using multiple overlapping images; Image stitching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Abstract
本发明公开了一种基于图像特征融合的深度伪造人脸视频检测方法,该方法包括下述步骤:先对视频分帧;提取待测视频的人脸区域获得人脸图像;对待测人脸图像的空域数据、频域数据及PLGF图分别进行预处理操作,且以一个统一相同的尺寸要求结果为目的分别进行调整,获取到人脸图像空域特征、人脸图像频域特征和人脸图像PLGF特征;将上述特征采用网络结构进行拼接融合,输入双层LSTM网络结构,提取得到最终的融合特征,再输入用于分类的全连接层;最后经过Softmax激活函数输出判断。本发明采用不同信息域数据预处理方式,再进行融合特征,在保证库内较好检测效果的同时,还显著降低了跨库检测的平均错误率,该方法提升了检测器的泛化能力,具有较强的鲁棒性。
Description
技术领域
本发明涉及深度伪造视频检测技术领域,具体涉及一种基于图像特征融合的深度伪造人脸视频检测方法一种基于图像特征融合的深度伪造人脸视频检测方法及系统。
背景技术
生成式深度学习算法的发展,驱动了以深度伪造(DeepFake)为代表的人脸图像和视频伪造技术在互联网快速流行。现阶段,深度伪造技术反取证能力不断增强,向具有高逼真度和对抗性的方向发展,检测能力跟不上伪造能力的演进速度,检测结果的可靠性与泛化能力不足以支撑现实的应用。为减轻深度伪造人脸视频的危害,国内外研究者提出了多种不同的检测取证方法,然而这些方法普遍存在跨库检测性能较差的问题。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于图像特征融合的深度伪造人脸视频检测方法一种基于图像特征融合的深度伪造人脸视频检测方法及系统,本发明融合人脸视频的空域、频域、PLGF(Pattern of Local Gravitational Force)等多种特征信息,同时还利用双层LSTM网络进一步增加时域上的信息,在保证库内较好检测效果的同时,还显著降低了跨库检测的平均错误率。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于图像特征融合的深度伪造人脸视频检测方法,该方法包括下述步骤:
使用FFmpeg工具对视频进行分帧,按一定频率采样提取各帧人脸区域获得待测人脸图像;
对待测人脸图像的空域数据、频域数据和PLGF图分别进行预处理操作,且以一个统一相同的尺寸要求结果为目的分别进行调整,获取到人脸图像空域特征、人脸图像频域特征和人脸图像PLGF特征;
将上述3个支路的特征采用网络结构进行拼接融合,输入双层LSTM网络结构,提取得到最终的融合特征,再输入用于分类的全连接层;最后经过 Softmax激活函数输出,判断视频是否为深度伪造视频。
所述获得待测人脸图像,具体步骤包括:
使用FFmpeg工具对训练集和测试集的视频进行分帧,得到视频帧系列图像,然后利用Python中DLib机器学习库的人脸提取模型提取待测视频的人脸区域获得人脸图像,该人脸图像以I表示,为具有R、G、B三个颜色通道,且尺寸不定的图像,或利用RetinaFace人脸检测网络进行人脸区域提取。
所述对待测人脸图像的空域数据进行预处理操作,输入空域特征提取网络,获取得到人脸图像空域特征,具体步骤包括:
在提取空域特征时,需要对I进行双线性插值,将其尺寸调整为224×224 ×3,并进行归一化,将得到的空域图像记为IS作为提取空域特征的分支网络的输入,然后输入Xception网络进行特征提取,或采用ResNet-50网络结构,获取得到2048维人脸图像空域特征。
所述对待测人脸图像的频域数据进行预处理操作,输入频域特征提取网络,获取得到人脸图像频域特征,具体步骤包括:
在提取频域特征时,首先需要对I中各通道进行DFT变换,并将低频分量移到中心,得到各颜色通道的频谱图,假设R通道(x,y)位置的幅值为AR (x,y),则频域图像对应位置的数值如下式所示:
其中x∈[0,W-1],y∈[0,H-1]为位置坐标,W为人脸图像I的宽,H为人脸图像I的高,AR(x,y)∈[0,255],其他位置的数值以此类推,其后对各通道的频域图像均利用双线性插值方法将尺寸调整为224×224,最终得到尺寸为224× 224×3的频域图像IF作为提取频域特征的分支网络的输入,然后输入 Xception网络或采用ResNet-50网络结构进行特征提取,获取得到2048维人脸图像频域特征。
所述对待测人脸图像的PLGF图进行预处理操作,输入PLGF图特征提取网络,获取得到人脸图像PLGF特征,具体步骤包括:
在提取PLGF图特征时,首先将I中三个颜色通道在水平方向和垂直方向分别与PLGF算子进行卷积得到水平梯度Ghor和垂直梯度Gver,PLGF卷积具体表达如下式所示:
其中,fhor和fver分别为局部重力模式(PLGF)的水平方向和垂直方向的3× 3卷积核,x∈[0,W-1],y∈[0,H-1]为位置坐标,W为人脸图像I的宽,H为人脸图像I的高,I[x,y]为坐标[x,y]的像素值,I[x,y]∈[0,255],Gd[x,y]为坐标(x,y) 的方向梯度;
然后根据朗伯模型,对水平方向和垂直方向的梯度进行光照分离得到水平光照分离梯度ISGhor和垂直光照分离梯度ISGver,光照分离进行的操作是将梯度除以加上防止除零的极小值的自身像素值,由于在很小的区域内光照强度变化缓慢为恒值L,则消除光照分量L得到仅与反射系数相关的人脸材质性特征,具有丰富的纹理信息,作为检测人脸真伪的有效特征,光照分离具体表达如下列式子所示:
其中x∈[0,W-1],y∈[0,H-1]为位置坐标,W为人脸图像I的宽,H为人脸图像I的高;
接着对水平方向和垂直方向的光照分离梯度进行线性激活操作得到合成梯度ISG,组成PLGF图,如下式所示:
最后对各通道的PLGF图进行双线性插值,将其尺寸调整为224×224,得到最终的PLGF输入图像IP,然后输入Xception网络进行提取,或采用ResNet-50 网络结构,获取得到2048维人脸图像PLGF特征。
其输入双层LSTM网络结构,提取得到最终的融合特征,包括如下:
在通过特征提取网络从空域、频域及PLGF提取3个2048维特征后,将提取的特征进行拼接融合,得到6144维的特征,接着将10帧人脸图像的6144维融合特征输入双层LSTM网络结构,提取得到最终的512维融合特征;
其第一层LSTM的输出含有10个时间步,输出的特征再送入第二层LSTM,第二层LSTM输入为512维特征,输出为只含1个时间步的512维特征。
其输入用于分类的全连接层,以最后512维特征通过一个全连接层,输出2 维的向量,再经过Softmax激活函数输出视频所含人脸为真实人脸或伪造人脸的二分类结果。
一种用于上述的图像特征融合的深度伪造人脸视频检测方法的系统,其特征在于,由图像特征融合的深度伪造人脸视频检测方法顺序形成的系统,包括:所述系统包括数据集划分模块、人脸图像区域提取模块、不同信息域的数据预处理模块、Xception特征提取构建模块、特征融合模块、网络模型参数训练模块和预测分类模块,由数据集划分模块、人脸图像区域提取模块、不同信息域的数据预处理模块、Xception特征提取构建模块、特征融合模块、网络模型参数训练模块和预测分类模块依检测方法依次连接;
所述数据集划分模块用于将数据集按7:2:1的比例划分为训练集、验证集和测试集;
所述人脸图像区域提取模块用于对视频数据分帧处理,并提取人脸区域获得待测人脸图像;
所述不同信息域的数据预处理模块用于待测人脸图像的空域图像IS、频域图像IF和PLGF图像IP;
所述Xception特征提取构建模块用于提取得到2048维空域特征、2048维频域特征和2048维PLGF特征;
所述特征融合模块用于将提取的不同信息域特征进行拼接融合得到6144维特征,并输入双层LSTM网络结构,提取得到最终的512维融合特征,然后输入用于分类的全连接层;
所述网络模型参数训练模块用于计算损失函数并利用Adam方法进行优化,更新权重参数,保存最佳模型参数;
所述预测分类模块用于采用训练完成后的网络对待测视频进行预测分类,判断视频是否为深度伪造视频。
一种存储介质,存储有程序,所述程序被处理器执行时实现如权利要求 1-7任一项所述图像特征融合的深度伪造人脸视频检测方法。
一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现如上述图像特征融合的深度伪造人脸视频检测方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明采用不同信息域数据预处理方式,得到人脸视频的空域、频域、PLGF等多种特征信息,再进行融合,充分提取深度伪造视频的篡改痕迹,在保证库内较好检测效果的同时,还显著降低了跨库检测的平均错误率。
(2)本发明融合了人脸视频的空域、频域、PLGF等多种特征信息,同时还利用双层LSTM网络进一步增加时域上的信息,提升了检测方法的泛化能力。
(3)本发明在拼接融合特征之后进一步利用双层LSTM网络时域上的特征信息,为深度伪造视频检测提供了一种有效途径。
附图说明
图1为本发明基于图像特征融合的深度伪造人脸视频检测方法的流程示意图;
图2为本发明基于图像特征融合的深度伪造人脸视频检测方法的网络整体框架示意图;
图3为本发明基于图像特征融合的深度伪造人脸视频检测方法所用的 Xception网络结构图;
图4为本发明基于图像特征融合的深度伪造人脸视频检测方法所用的双层 LSTM网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
本实施例实验使用Nvidia的GTX1080Ti显卡,其显存为11GB。操作系统环境为Ubuntu 14.04,编程语言为Python 3.6,深度学习框架是以TensorFlow 1.14为后台的Keras 2.2.5。
本实施例在公开数据集FaceForensics++(FF++)、DeepFakeDetection (DFD)和TIMIT三个视频数据库进行实验。FaceForensics++数据库视频收集于YouTube视频网站,包含1000个真实人物视频,采用了4种人脸伪造技术(DeepFake、Face2Face、FaceSwap和NeuralTextures)生成4种类型的人脸伪造视频,每个种类的伪造视频数量为1000个。同时,FaceForensics++数据库视频还使用H.264将视频压缩成无损视频、高质量视频和低质量视频,分别对应压缩率是0、23和40,用于模拟视频在实际传输过程中存在的压缩情况。DeepFakeDetection数据库包含1089个原始视频和9204个伪造视频,背景更加丰富,人物的面部表情更加多样。与FaceForensics++数据库类似, DeepFakeDetection数据库也将视频按压缩率的不同分为C0,C23和C40三种。 TIMIT数据库是利用开源的人脸替换算法生成的人脸伪造视频。该数据库从 VIDTIMIT数据库中选取了具有相似面部特征的16对人脸生成伪造视频,每个视频具有两种不同分辨率大小的版本。训练时将数据库按7:2:1的比例划分为训练集、验证集和测试集,训练样本的批尺寸设置为32。
如图1、图2、图3和图4所示,本实施例基于图像特征融合的深度伪造人脸视频检测方法,包括下述步骤:
S1:获得检测人脸区域图像;
在本实施例中,首先使用FFmpeg工具对训练集和测试集的视频进行分帧,得到视频帧系列图像,然后利用Python中DLib机器学习库的人脸提取模型提取待测视频的人脸区域获得人脸图像。该人脸图像以I表示,为具有R、G、B 三个颜色通道,且尺寸不定的图像。
S2:不同信息域的数据预处理
在本实施例中,在提取空域特征时,需要对I进行双线性插值,将其尺寸调整为224×224×3,并进行归一化,将得到的空域图像记为IS作为提取空域特征的分支网络的输入。然后输入Xception网络进行提取,采用ResNet-50网络结构提取,获取得到2048维人脸图像空域特征。
在本实施例中,在提取频域特征时,首先需要对I中各通道进行DFT变换,并将低频分量移到中心,得到各颜色通道的频谱图。假设R通道(x,y)位置的幅值为AR(x,y),则频域图像对应位置的数值如下式所示:
其中表示I的R通道频谱图像在(x,y)位置的幅值, x∈[0,W-1],y∈[0,H-1]为位置坐标,W为人脸图像I的宽,H为人脸图像I的高,AR(x,y)∈[0,255]。其他通道的数值以此类推。其后对各通道的频域图像均利用双线性插值方法将尺寸调整为224×224,最终得到尺寸为224×224×3 的频域图像IF作为提取频域特征的分支网络的输入。然后输入Xception网络进行提取,或采用ResNet-50网络结构提取,获取得到2048维人脸图像频域特征。
在本实施例中,在提取PLGF图特征时,首先将I中三个颜色通道在水平方向和垂直方向分别与PLGF算子进行卷积得到水平梯度Ghor和垂直梯度Gver。 PLGF卷积具体表达如下式所示:
其中,fhor和fver分别为局部重力模式(PLGF)的水平方向和垂直方向的3×3卷积核,x∈[0,W-1],y∈[0,H-1]为位置坐标,W为人脸图像I的宽,H为人脸图像I的高,I[x,y]为坐标(x,y)的像素值,I[x,y]∈[0,255],Gd[x,y]为坐标(x,y)的方向梯度;u和v的取值是-1到1。 I[x,y]为坐标(x,y)的像素值,Gd[x,y]为坐标(x,y)的方向梯度。
然后根据朗伯模型,对水平方向和垂直方向的梯度进行光照分离得到水平光照分离梯度ISGhor和垂直光照分离梯度ISGver。光照分离进行的操作是将梯度除以加上防止除零的极小值的自身像素值,由于在很小的区域内光照强度变化缓慢为恒值L,则可以消除光照分量L得到仅与反射系数相关的人脸材质性特征,具有丰富的纹理信息,可以作为检测人脸真伪的有效特征。光照分离具体表达如下列式子所示:
其中x∈[0,W-1],y∈[0,H-1]为位置坐标,W为人脸图像I的宽,H为人脸图像I的高。接着对水平方向和垂直方向的光照分离梯度进行线性激活操作得到合成梯度ISG,组成PLGF图,如下式所示:
其中x∈[0,W-1],y∈[0,H-1]为位置坐标,W为人脸图像I的宽,H为人脸图像I的高。最后对各通道的PLGF图进行双线性插值,将其尺寸调整为224× 224,得到最终的PLGF输入图像IP。然后输入Xception网络进行提取,或采用 ResNet-50网络结构提取,获取得到2048维人脸图像PLGF特征。
在本实施例中,对于待检测的视频,按每5帧采样一次的频率进行下采样,得到实际用于检测的帧图像,以避免相邻检测帧中人脸图像过于相近,导致冗余信息过多。对下采样后得到的帧图像按前述方法进行处理,得到各帧对应的 IS、IF及IP,即完成了对相应的数据预处理工作。
S3:Xception网络特征提取
如图3所示,在本实施例中,由于作为网络输入的IS、IF及IP尺寸完全一致,因此用于提取人脸图像的空域、频域和PLGF特征的Xception网络也具有相同的结构。检测方法所用到的Xception网络结构中的Conv表示通常的卷积层,SeparableConv表示深度可分离卷积层,3×3和1×1表示卷积核或池化核的尺寸,stride=2×2表示卷积核或池化核的滑动步长为2,若无特别指出则滑动步长默认为1。
S4:双层LSTM时域特征提取网络
如图4所示,在本实施例中,在通过上述Xception网络从空域、频域及 PLGF提取3个2048维特征后,将提取的特征进行拼接融合,得到6144维的特征。其是通过将连续多帧的前述三种特征向量拼接融合输入LSTM网络结构进行提取人脸图像的时域特征。接着将10帧人脸图像的6144维融合特征输入双层 LSTM网络结构,提取得到最终的512维融合特征,并通过全连接层输出真实人脸和伪造人脸的二分类结果。
该部分网络结构要求如图6所示。图中第一层LSTM输入为6144维特征,输出为512维特征,对原本分开的各领域特征进行了进一步融合。第一层LSTM 的输出含有10个时间步,输出的特征再送入第二层LSTM。第二层LSTM输入为 512维特征,输出为只含1个时间步的512维特征,即为融合了人脸图像空域、频域、PLGF及时域信息的特征。最后512维特征通过一个全连接层,输出2维的向量,再经过Softmax激活函数,学习率设置为0.0001,一阶矩指数衰减率设置为0.9,二阶矩指数衰减率设置为0.999,输出视频所含人脸为真实人脸或伪造人脸的二分类结果。
其整体步骤为使用FFmpeg工具对视频分帧;利用Python中Dlib机器学习库的人脸提取模型提取待测视频的人脸区域获得人脸图像;利用Xception网络从人脸空域图像中直接提取人脸图像的空域特征;对人脸图像进行离散傅里叶变换得到对应的频谱图,再通过Xception网络或ResNet-50网络从频谱图中提取得到人脸图像的频域特征;采用公式计算人脸图像的PLGF(Pattern of Local Gravitational Force)图,再通过Xception网络从PLGF图中提取人脸图像的 PLGF特征;通过将连续多帧的前述三种特征向量拼接融合输入LSTM网络结构进行提取人脸图像的时域特征。最终LSTM网络结构输出的特征融合了人脸图像空域、频域、PLGF及时域4个信息域的信息,用于最终的全连接层、Softmax激活函数输出得出分类检测。本发明基于图像特征融合方法对深度伪造人脸视频进行检测,经过实验验证表明,该方法提升了检测器的泛化能力,具有较强的鲁棒性。
通过上述步骤方法检测,实验结果通过半总错误率(Half Total Error Rate,HTER)来作为评价指标,为算法在判决阈值下虚警率和漏检率的平均值。其中FAR(FalseAcceptance Rate)指的是错误接受率,也就是算法把换脸人脸判断为真实人脸的比率,FRR(False Rejection Rate)指的是错误拒绝率,也就是算法把真实人脸判断为换脸人脸的比率,其中Nf2t指的是将换脸人脸判断为真实人脸的次数,Nf指的是换脸人脸总的攻击次数,Nt2f指的是将真实人脸判断为换脸人脸的次数,Nt指的是真实人脸总的检测次数。HTER越低,则算法的性能越好。具体定义如下式所示:
在本实施例中,分别在DFD(C23)数据库和FF++(C0及C23)数据库上进行训练,然后在DFD(C23)数据库、FF++(C0)数据库、FF++(C23)数据库和 TIMIT数据库上进行测试,并选择HTER作为算法评价指标。实验结果如表1及表2所示。
表1 DFD(C23)数据库训练模型的性能比较(%)
表2 FF++(C0及C23)数据库训练模型的性能比较(%)
由表1及表2可见,本实施例在以DFD(C23)数据库作为训练样本时,在库内检测和大部分跨库检测时具有最佳的性能。而在以FF++(C0及C23)数据库作为训练样本时,展示出算法的鲁棒性与泛化能力。
本实施例还提供一种基于图像特征融合的深度伪造人脸视频检测系统,包括:数据集划分模块、人脸图像区域提取模块、不同信息域的数据预处理模块、Xception特征提取构建模块、特征融合模块、网络模型参数训练模块和预测分类模块;由数据集划分模块、人脸图像区域提取模块、不同信息域的数据预处理模块、Xception特征提取构建模块、特征融合模块、网络模型参数训练模块和预测分类模块依检测方法依次连接。
在本实施例中,数据集划分模块用于将数据集按7:2:1的比例划分为训练集、验证集和测试集;人脸图像区域提取模块用于对视频数据分帧处理,并提取人脸区域获得待测人脸图像;不同信息域的数据预处理模块用于待测人脸图像的空域图像IS、频域图像IF和PLGF图像IP;Xception特征提取构建模块用于提取得到2048维空域特征、2048维频域特征和2048维PLGF特征;特征融合模块用于将提取的不同信息域特征进行拼接融合得到6144维特征,并输入双层 LSTM网络结构,提取得到最终的512维融合特征,然后输入用于分类的全连接层;网络模型参数训练模块用于计算损失函数并利用Adam方法进行优化,更新权重参数,保存最佳模型参数;预测分类模块用于采用训练完成后的网络对待测视频进行预测分类,判断视频是否为深度伪造视频。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于图像特征融合的深度伪造人脸视频检测方法,其特征在于,该方法包括下述步骤:
使用FFmpeg工具对视频进行分帧,按一定频率采样提取各帧人脸区域获得待测人脸图像;
对待测人脸图像的空域数据、频域数据和PLGF图分别进行预处理操作,且以一个统一相同的尺寸要求结果为目的分别进行调整,获取到人脸图像空域特征、人脸图像频域特征和人脸图像PLGF特征;
将上述3个支路的特征采用网络结构进行拼接融合,输入双层LSTM网络结构,提取得到最终的融合特征,再输入用于分类的全连接层;最后经过Softmax激活函数输出,判断视频是否为深度伪造视频。
2.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法,其特征在于,所述获得待测人脸图像,具体步骤包括:
使用FFmpeg工具对训练集和测试集的视频进行分帧,得到视频帧系列图像,然后利用Python中DLib机器学习库的人脸提取模型提取待测视频的人脸区域获得人脸图像,该人脸图像以I表示,为具有R、G、B三个颜色通道,且尺寸不定的图像,或利用RetinaFace人脸检测网络进行人脸区域提取。
3.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法,其特征在于,所述对待测人脸图像的空域数据进行预处理操作,输入空域特征提取网络,获取得到人脸图像空域特征,具体步骤包括:
在提取空域特征时,需要对I进行双线性插值,将其尺寸调整为224×224×3,并进行归一化,将得到的空域图像记为IS作为提取空域特征的分支网络的输入,然后输入Xception网络进行特征提取,或采用ResNet-50网络结构,获取得到2048维人脸图像空域特征。
4.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法,其特征在于,所述对待测人脸图像的频域数据进行预处理操作,输入频域特征提取网络,获取得到人脸图像频域特征,具体步骤包括:
在提取频域特征时,首先需要对I中各通道进行DFT变换,并将低频分量移到中心,得到各颜色通道的频谱图,假设R通道(x,y)位置的幅值为AR(x,y),则频域图像对应位置的数值如下式所示:
其中x∈[0,W-1],y∈[0,H-1]为位置坐标,W为人脸图像I的宽,H为人脸图像I的高,AR(x,y)∈[0,255],其他位置的数值以此类推,其后对各通道的频域图像均利用双线性插值方法将尺寸调整为224×224,最终得到尺寸为224×224×3的频域图像IF作为提取频域特征的分支网络的输入,然后输入Xception网络或采用ResNet-50网络结构进行特征提取,获取得到2048维人脸图像频域特征。
5.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法,其特征在于,所述对待测人脸图像的PLGF图进行预处理操作,输入PLGF图特征提取网络,获取得到人脸图像PLGF特征,具体步骤包括:
在提取PLGF图特征时,首先将I中三个颜色通道在水平方向和垂直方向分别与PLGF算子进行卷积得到水平梯度Ghor和垂直梯度Gver,PLGF卷积具体表达如下式所示:
其中,fhor和fver分别为局部重力模式(PLGF)的水平方向和垂直方向的3×3卷积核,x∈[0,W-1],y∈[0,H-1]为位置坐标,W为人脸图像I的宽,H为人脸图像I的高,I[x,y]为坐标(x,y)的像素值,I[x,y]∈[0,255],Gd[x,y]为坐标(x,y)的方向梯度;
然后根据朗伯模型,对水平方向和垂直方向的梯度进行光照分离得到水平光照分离梯度ISGhor和垂直光照分离梯度ISGver,光照分离进行的操作是将梯度除以加上防止除零的极小值的自身像素值,由于在很小的区域内光照强度变化缓慢为恒值L,则消除光照分量L得到仅与反射系数相关的人脸材质性特征,具有丰富的纹理信息,作为检测人脸真伪的有效特征,光照分离具体表达如下列式子所示:
其中x∈[0,W-1],y∈[0,H-1]为位置坐标,W为人脸图像I的宽,H为人脸图像I的高;
接着对水平方向和垂直方向的光照分离梯度进行线性激活操作得到合成梯度ISG,组成PLGF图,如下式所示:
最后对各通道的PLGF图进行双线性插值,将其尺寸调整为224×224,得到最终的PLGF输入图像IP,然后输入Xception网络进行提取,或采用ResNet-50网络结构,获取得到2048维人脸图像PLGF特征。
6.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法,其特征在于,其输入双层LSTM网络结构,提取得到最终的融合特征,包括如下:
在通过特征提取网络从空域、频域及PLGF提取3个2048维特征后,将提取的特征进行拼接融合,得到6144维的特征,接着将10帧人脸图像的6144维融合特征输入双层LSTM网络结构,提取得到最终的512维融合特征;
其第一层LSTM的输出含有10个时间步,输出的特征再送入第二层LSTM,第二层LSTM输入为512维特征,输出为只含1个时间步的512维特征。
7.根据权利要求1所述的基于图像特征融合的深度伪造人脸视频检测方法,其特征在于,其输入用于分类的全连接层,以最后512维特征通过一个全连接层,输出2维的向量,再经过Softmax激活函数输出视频所含人脸为真实人脸或伪造人脸的二分类结果。
8.一种用于如权利要求1~7任一所述的图像特征融合的深度伪造人脸视频检测方法的系统,其特征在于,由图像特征融合的深度伪造人脸视频检测方法顺序形成的系统,包括:所述系统包括数据集划分模块、人脸图像区域提取模块、不同信息域的数据预处理模块、Xception特征提取构建模块、特征融合模块、网络模型参数训练模块和预测分类模块,由数据集划分模块、人脸图像区域提取模块、不同信息域的数据预处理模块、Xception特征提取构建模块、特征融合模块、网络模型参数训练模块和预测分类模块依检测方法依次连接;
所述数据集划分模块用于将数据集按7:2:1的比例划分为训练集、验证集和测试集;
所述人脸图像区域提取模块用于对视频数据分帧处理,并提取人脸区域获得待测人脸图像;
所述不同信息域的数据预处理模块用于待测人脸图像的空域图像IS、频域图像IF和PLGF图像IP;
所述Xception特征提取构建模块用于提取得到2048维空域特征、2048维频域特征和2048维PLGF特征;
所述特征融合模块用于将提取的不同信息域特征进行拼接融合得到6144维特征,并输入双层LSTM网络结构,提取得到最终的512维融合特征,然后输入用于分类的全连接层;
所述网络模型参数训练模块用于计算损失函数并利用Adam方法进行优化,更新权重参数,保存最佳模型参数;
所述预测分类模块用于采用训练完成后的网络对待测视频进行预测分类,判断视频是否为深度伪造视频。
9.一种存储介质,存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7任一项所述图像特征融合的深度伪造人脸视频检测方法。
10.一种计算设备,包括处理器和用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现如权利要求1-7任一项所述图像特征融合的深度伪造人脸视频检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210843607.0A CN115273186A (zh) | 2022-07-18 | 2022-07-18 | 基于图像特征融合的深度伪造人脸视频检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210843607.0A CN115273186A (zh) | 2022-07-18 | 2022-07-18 | 基于图像特征融合的深度伪造人脸视频检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115273186A true CN115273186A (zh) | 2022-11-01 |
Family
ID=83767788
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210843607.0A Pending CN115273186A (zh) | 2022-07-18 | 2022-07-18 | 基于图像特征融合的深度伪造人脸视频检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115273186A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690061B (zh) * | 2023-12-27 | 2024-05-17 | 中邮消费金融有限公司 | 深度伪造视频检测方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170006355A (ko) * | 2015-07-08 | 2017-01-18 | 주식회사 케이티 | 모션벡터 및 특징벡터 기반 위조 얼굴 검출 방법 및 장치 |
US20180211102A1 (en) * | 2017-01-25 | 2018-07-26 | Imam Abdulrahman Bin Faisal University | Facial expression recognition |
CN109886190A (zh) * | 2019-02-20 | 2019-06-14 | 哈尔滨工程大学 | 一种基于深度学习的人脸表情和姿态双模态融合表情识别方法 |
CN112488013A (zh) * | 2020-12-04 | 2021-03-12 | 重庆邮电大学 | 基于时序不一致性的深度伪造视频检测方法及系统 |
CN112580576A (zh) * | 2020-12-28 | 2021-03-30 | 华南理工大学 | 基于多尺度光照不变性纹理特征的人脸欺骗检测方法及系统 |
CN112734696A (zh) * | 2020-12-24 | 2021-04-30 | 华南理工大学 | 基于多域特征融合的换脸视频篡改检测方法及系统 |
CN112800894A (zh) * | 2021-01-18 | 2021-05-14 | 南京邮电大学 | 一种基于时空流间注意力机制的动态表情识别方法及系统 |
CN112927202A (zh) * | 2021-02-25 | 2021-06-08 | 华南理工大学 | 多时域多特征结合的Deepfake视频检测方法及系统 |
CN112991278A (zh) * | 2021-03-01 | 2021-06-18 | 华南理工大学 | RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统 |
CN114067444A (zh) * | 2021-10-12 | 2022-02-18 | 中新国际联合研究院 | 基于元伪标签和光照不变特征的人脸欺骗检测方法和系统 |
-
2022
- 2022-07-18 CN CN202210843607.0A patent/CN115273186A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170006355A (ko) * | 2015-07-08 | 2017-01-18 | 주식회사 케이티 | 모션벡터 및 특징벡터 기반 위조 얼굴 검출 방법 및 장치 |
US20180211102A1 (en) * | 2017-01-25 | 2018-07-26 | Imam Abdulrahman Bin Faisal University | Facial expression recognition |
CN109886190A (zh) * | 2019-02-20 | 2019-06-14 | 哈尔滨工程大学 | 一种基于深度学习的人脸表情和姿态双模态融合表情识别方法 |
CN112488013A (zh) * | 2020-12-04 | 2021-03-12 | 重庆邮电大学 | 基于时序不一致性的深度伪造视频检测方法及系统 |
CN112734696A (zh) * | 2020-12-24 | 2021-04-30 | 华南理工大学 | 基于多域特征融合的换脸视频篡改检测方法及系统 |
CN112580576A (zh) * | 2020-12-28 | 2021-03-30 | 华南理工大学 | 基于多尺度光照不变性纹理特征的人脸欺骗检测方法及系统 |
CN112800894A (zh) * | 2021-01-18 | 2021-05-14 | 南京邮电大学 | 一种基于时空流间注意力机制的动态表情识别方法及系统 |
CN112927202A (zh) * | 2021-02-25 | 2021-06-08 | 华南理工大学 | 多时域多特征结合的Deepfake视频检测方法及系统 |
CN112991278A (zh) * | 2021-03-01 | 2021-06-18 | 华南理工大学 | RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统 |
CN114067444A (zh) * | 2021-10-12 | 2022-02-18 | 中新国际联合研究院 | 基于元伪标签和光照不变特征的人脸欺骗检测方法和系统 |
Non-Patent Citations (2)
Title |
---|
ZHIMAO LAI等: "Multi-Feature Fusion Based Deepfake Face Forgery Video Detection", 《SYSTEMS》, pages 2 - 5 * |
于艳: "《软件测试策略、设计及其自动化实战》", 西安电子科技大学出版社 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117690061B (zh) * | 2023-12-27 | 2024-05-17 | 中邮消费金融有限公司 | 深度伪造视频检测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110826389B (zh) | 基于注意力3d频率卷积神经网络的步态识别方法 | |
CN107958235A (zh) | 一种人脸图像检测方法、装置、介质和电子设备 | |
CN109871780B (zh) | 一种人脸质量判决方法、系统及人脸识别方法、系统 | |
CN103279744B (zh) | 基于多尺度三模式纹理特征的仿造指纹检测方法和系统 | |
CN113762138B (zh) | 伪造人脸图片的识别方法、装置、计算机设备及存储介质 | |
CN113537027B (zh) | 基于面部划分的人脸深度伪造检测方法及系统 | |
Yu et al. | Manipulation classification for jpeg images using multi-domain features | |
CN112861605A (zh) | 基于时空混合特征的多人步态识别方法 | |
Ru et al. | Bita-net: Bi-temporal attention network for facial video forgery detection | |
CN106940904A (zh) | 基于人脸识别和语音识别的考勤系统 | |
CN113609944A (zh) | 一种静默活体检测方法 | |
CN115797970B (zh) | 基于YOLOv5模型的密集行人目标检测方法及系统 | |
CN117275063A (zh) | 基于三维信息时序一致性的人脸深度伪造检测方法及系统 | |
Zhang et al. | Texture information boosts video quality assessment | |
CN117238011A (zh) | 一种基于时空注意力引导融合的深度伪造检测方法 | |
CN115273186A (zh) | 基于图像特征融合的深度伪造人脸视频检测方法及系统 | |
CN115035052A (zh) | 一种基于身份差异量化的伪造换脸图像检测方法和系统 | |
CN115376064A (zh) | 基于姿势迁移的铁路行人入侵的图像序列生成方法及系统 | |
Jain et al. | Natural scene statistics and CNN based parallel network for image quality assessment | |
CN114596609A (zh) | 一种视听伪造检测方法及装置 | |
CN114120198A (zh) | 一种伪造视频检测方法、系统及存储介质 | |
Bikku et al. | Deep Residual Learning for Unmasking DeepFake | |
CN115661725B (zh) | Deepfake视频检测方法、系统及可读存储介质 | |
CN115205983B (zh) | 一种基于多特征聚合的跨视角步态识别方法、系统及设备 | |
CN116012248B (zh) | 图像处理方法、装置、计算机设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |