CN112734696A - 基于多域特征融合的换脸视频篡改检测方法及系统 - Google Patents
基于多域特征融合的换脸视频篡改检测方法及系统 Download PDFInfo
- Publication number
- CN112734696A CN112734696A CN202011544772.3A CN202011544772A CN112734696A CN 112734696 A CN112734696 A CN 112734696A CN 202011544772 A CN202011544772 A CN 202011544772A CN 112734696 A CN112734696 A CN 112734696A
- Authority
- CN
- China
- Prior art keywords
- image
- feature
- frame
- video
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多域特征融合的换脸视频篡改检测方法及系统,该方法包括下述步骤:数据集划分;视频分帧并选择待测帧序列,提取各帧图像待检测区域;计算检测区域的RGB特征、DFT特征和光流特征图像;构建多路卷积神经网络的卷积特征提取模块;各支路卷积特征输入注意力模块,生成注意力引导特征图;多路注意力引导特征级联融合,输入用于特征分类的全连接层;将特征图像输入多路卷积神经网络进行训练,保存网络模型和最佳权重;利用训练完成后的模型进行预测分类,输出换脸视频篡改检测结果。本发明能够较好地结合视频在空间域、频域以及时域的篡改信息,提高了模型的泛化能力,利用通道注意力机制优化模型对多个领域分类特征的学习。
Description
技术领域
本发明涉及数字视频的篡改检测技术领域,具体涉及一种基于多域特征融合的换脸视频篡改检测方法及系统。
背景技术
人工智能的发展极大地降低了视频篡改伪造技术的门槛,近年来利用深度网络生成的换脸视频在社交媒体上广泛传播,恶意的视频篡改伪造对个人肖像权和舆论传播造成不良的影响,且随着换脸视频合成效果越来越逼真,换脸视频篡改检测的难度也不断增大,因此,针对换脸视频篡改检测技术的研究具有重要的意义。
现有的换脸视频篡改检测技术主要包括基于传统手工特征、卷积神经网络提取特征、以及卷积神经网络与递归神经网络相结合提取特征等三类方法,其中基于传统手工特征的方法提取视频帧图像的频域特征、生物特征等手工特征输入SVM等传统分类器进行分类,存在特征提取不充分的缺陷,导致分类器检测效果不佳;基于卷积神经网络提取特征的方法将视频单帧图像输入卷积神经网络进行特征提取,但未考虑视频的时域信息,在库内测试可以达到较高的检测效果,但跨库检测性能大幅下降;基于卷积神经网络和递归神经网络结合提取特征的方法将视频帧序列图像输入卷积神经网络进行特征提取,再输入递归神经网络提取特征时域信息,但也存在模型泛化能力不足的问题。
上述方法虽然在一定程度上提升了换脸视频篡改检测的库内检测性能,但存在跨库检测性能不足的问题,降低了方法的实用性和应用价值。
发明内容
为了克服现有技术存在的缺陷与不足,本发明提供一种基于多域特征融合的换脸视频篡改检测方法及系统,本发明结合视频数据在空间域、频域以及时域的特征,在保证库内较好检测效果的同时,有效降低了模型跨库测试的平均错误率,提高了模型的泛化能力,利用基于注意力机制的多域特征融合方式提取鲁棒特征,优化模型对多个领域分类特征的学习,保证了模型对换脸视频篡改信息的提取能力。
为了达到上述目的,本发明采用以下技术方案:
本发明提供一种基于多域特征融合的换脸视频篡改检测方法,包括下述步骤:
将待测数据集划分为训练集、验证集和测试集;
将各数据集的视频进行分帧,选择待测视频帧序列,提取各帧图像待检测区域;
计算各帧图像检测区域的RGB特征图像;
计算各帧图像检测区域的DFT特征图像;
计算各帧图像检测区域的光流特征图像;
构建多路卷积神经网络的卷积特征提取模块;
将多路卷积神经网络各支路的卷积特征输入注意力模块,生成注意力引导特征图;
将各支路的注意力引导特征进行级联融合,输入用于特征分类的全连接层;
将RGB特征图像、DFT特征图像和光流特征图像输入所述多路卷积神经网络进行模型训练,计算损失函数并反向传播更新网络权重系数,保存网络的模型和最佳权重;
利用训练完成后的多路卷积神经网络进行特征提取和预测分类,输出换脸视频篡改检测结果。
作为优选的技术方案,所述将各数据集的视频进行分帧,选择待测视频帧序列,具体步骤包括:
将各数据集的视频进行分帧,得到视频帧序列图像{f0,f1,…,fN-1},选择帧序列图像{f1,…,fN-1}作为待测视频帧序列,其中N表示单个视频分帧后的总帧数。
作为优选的技术方案,所述提取各帧图像待检测区域,具体步骤包括:
采用视频帧图像的人脸区域作为待检测区域,利用人脸框左上角坐标点(xt,yt)和右下角坐标点(xb,yb)提取各帧图像的人脸区域作为待处理对象。
作为优选的技术方案,所述计算各帧图像检测区域的RGB特征图像,具体步骤包括:
将各帧图像检测区域Ik使用双线性插值方法统一调整成大小为LS×LS×3的RGB图像,并进行归一化,作为各帧图像检测区域的空间域RGB特征图像,其中k为单个视频帧序列号,k∈{1,…,N-1},N表示单个视频分帧后的总帧数。
作为优选的技术方案,所述计算各帧图像检测区域的DFT特征图像,具体步骤包括:
将各帧图像检测区域Ik进行二维离散傅里叶变换得到傅里叶谱并将频域低频成分平移到频域中心,求其幅度谱并取对数,调整成大小为LF×LF×1的频谱图像,归一化后作为各帧图像检测区域的频域DFT特征图像,其中k为视频帧序列号,k∈{1,…,N-1},N表示单个视频分帧后的总帧数,LF表示统一调整后的DFT特征图像的宽和高。
作为优选的技术方案,所述计算各帧图像检测区域的光流特征图像,具体步骤包括:
将计算视频连续前后帧图像检测区域Ik-1和Ik分别调整成大小为LO×LO×1的灰度图像,采用Gunnar Farneback算法计算Ik-1和Ik的稠密光流场,可视化成大小为LO×LO×3的光流图,并进行归一化,作为各帧图像检测区域的时域光流特征图像,其中,k为视频帧序列号,k∈{1,…,N-1},N表示单个视频分帧后的总帧数,LO表示统一调整后的光流特征图像的宽和高。
作为优选的技术方案,所述构建多路卷积神经网络的卷积特征提取模块,具体结构包括三个网络分支,第一部分是RGB特征提取分支,采用Xception作为基准网络,第二部分是DFT特征提取分支,采用Xception作为基准网络,第三部分是光流特征提取分支,采用ResNet50作为基准网络。
作为优选的技术方案,所述将多路卷积神经网络各支路的卷积特征输入注意力模块,生成注意力引导特征图,所述注意力引导特征图的计算公式为:
其中,Gα表示注意力引导特征图,G表示卷积特征图,A(G)表示经过注意力模块后生成的注意力权重图,表示矩阵逐元素相乘,表示全局平均池化层,和分别表示和c通道数的全连接层,σ1表示ReLU激活函数,σ2表示Sigmoid激活函数。
作为优选的技术方案,所述将各支路的注意力引导特征进行级联融合,输入用于特征分类的全连接层,具体步骤包括:
将各支路注意力引导特征图Gα经过全局平均池化层,输出大小为1×1×c0的RGB特征向量、大小为1×1×c1的DFT特征向量和大小为1×1×c2的光流特征向量,将多路特征向量进行级联融合,生成大小为1×1×(c0+c1+c2)的高维特征向量,最后输入2通道的全连接层,采用Softmax激活函数,输出用于特征分类的2维向量。
本发明提供一种基于多域特征融合的换脸视频篡改检测系统,包括:数据集划分模块、视频数据预处理模块、特征图像计算模块、卷积特征提取构建模块、注意力构建模块、特征融合模块、网络训练模块和检测模块;
所述数据集划分模块用于将数据集划分为训练集、验证集和测试集;
所述视频数据预处理模块用于对视频数据进行分帧预处理,并提取各帧图像人脸检测区域;
所述特征图像计算模块用于计算各帧图像检测区域的RGB特征图像、DFT特征图像和光流特征图像;
所述卷积特征提取构建模块用于构建多路卷积神经网络的卷积特征提取模块,所述多路卷积神经网络的卷积特征提取模块用于提取RGB特征图像、DFT特征图像和光流特征图像的高维语义特征;
所述注意力构建模块用于构建注意力模块,所述注意力模块用于将多路卷积神经网络各支路的卷积特征生成注意力引导特征图;
所述特征融合模块用于将所述多路卷积神经网络各支路的注意力引导特征进行级联融合,并将融合后的高维特征输入全连接层进行特征分类;
所述网络训练模块用于将RGB特征图像、DFT特征图像和光流特征图像输入所述多路卷积神经网络训练,训练完成后保存多路卷积神经网络的模型和最佳权重;
所述检测模块用于通过训练完成后的多路卷积神经网络进行特征提取和预测分类,输出测试样本篡改检测结果。
本发明与现有技术相比,具有如下优点和有益效果:
(1)本发明将待测数据的RGB特征、DFT特征和光流特征图像输入多路卷积神经网络提取高维度语义特征,通过注意力模块生成各支路的注意力引导特征图,采用级联融合的方式得到高维融合特征用于检测分类,为换脸视频篡改检测提供了一种有效的途径,达到了有效提高模型泛化能力的效果。
(2)本发明采用传统手工特征和深度神经网络结合的方式,提取换脸视频数据在多个领域的篡改痕迹,充分利用了视频数据在空间域、频域和时域的特征信息,在保持库内较好检测效果的同时,有效降低了模型跨库测试的平均错误率。
(3)本发明采用注意力模块生成多路卷积神经网络各支路的注意力引导特征图,并采用级联融合的方式生成高维融合分类特征,通过使用通道注意力机制,优化了模型对多个领域分类特征的学习,保证了模型对换脸视频篡改信息的提取能力。
附图说明
图1为本发明基于多域特征融合的换脸视频篡改检测方法的训练流程图;
图2为本发明基于多域特征融合的换脸视频篡改检测方法的测试流程图;
图3为本发明基于多域特征融合的换脸视频篡改检测方法的模型整体结构示意图;
图4(a)为本发明视频帧图像示意图;
图4(b)为本发明RGB特征图像示意图;
图4(c)为本发明DFT特征图像示意图;
图4(d)为本发明光流特征图像示意图;
图5为本发明注意力模块的网络结构示意图;
图6为本发明训练完成后的模型测试ROC曲线示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
本实施例采用DeepFakeDetection(DFD)、FaceForensics++(FF++)和TIMIT三个换脸视频数据库进行训练和测试,DFD数据库包含1089个真实视频和9204个换脸视频,分为合成压缩率0(C0)、合成压缩率23(C23)和合成压缩率40(C40)三种不同压缩程度的视频,其中真实视频数据来源于28名演员在不同的场景下拍摄组成。FF++数据库包含1000个真实视频和3000个换脸视频,其中由Deepfake篡改方式合成的换脸视频有1000个,分为合成压缩率0(C0)、合成压缩率23(C23)和合成压缩率40(C40)三种不同压缩程度的视频,真实视频数据来源于视频网站YouTube。TIMIT数据库包含559个真实视频和640个换脸视频,换脸视频包括低质量(LQ)和高质量(HQ)两种视频,真实视频数据由43个对象,每个对象分别拍摄13个视频组成。
如下表1所示,上述公开的换脸视频数据库的详细信息如下:
表1换脸视频数据库的详细信息表
DFD | FF++ | TIMIT | |
视频来源 | 相机拍摄 | YouTube网站 | 相机拍摄 |
分辨率 | 1920×1080 | 1280×720 | 512×384 |
拍摄人数 | 28 | - | 43 |
真实视频数量 | 1089 | 1000 | 559 |
换脸视频数量 | 9204 | 3000 | 640 |
本实施例以在DFD(C23)数据库上进行训练,在DFD(C23)数据库上进行库内测试以及FF++(C0)数据库、TIMIT数据库上进行跨库测试为例,详细介绍本实施例实施过程,先将三个数据库分别按照7:2:1的比例划分为训练集、验证集和测试集。本实施例主要基于深度学习框架Keras来实现,实验所用显卡为TITAN XP,系统为Ubuntu16.04,CUDA版本为9.0.176,cudnn版本为7.4.1,OpenCV版本为4.1.2。
如图1、图2和图3所示,本实施例提供一种基于多域特征融合的换脸视频篡改检测方法,包括下述步骤:
S1:将各数据集的视频进行分帧,选择待测视频帧序列;
在本实施例中,使用OpenCV将各数据集的视频数据进行分帧,并保存各帧图像,如图4(a)所示,得到原始的视频帧图像,在每个待测视频帧序列{f0,f1,…,fN-1}中选择帧序列图像{f1,…,fN-1}作为待测视频帧序列,其中N表示单个视频分帧后的总帧数。本实施例中利用视频前后连续两帧的帧图像计算光流特征图像,作为后一帧图像的光流特征,因此,为了保证每帧图像都能对应连续两帧间的光流特征图像,本实施例不考虑视频的第1帧图像f0作为待测帧图像;
S2、提取各帧图像待检测区域作为待处理对象;
在本实施例中,采用视频帧图像的人脸区域作为待检测区域,使用Dlib库中的卷积神经网络检测各帧图像的人脸框左上角坐标点(xt,yt)和右下角坐标点(xb,yb),利用坐标点(xt,yt)和(xb,yb)提取各帧图像的人脸区域作为待处理对象;
S3、计算各帧图像检测区域的RGB(红、绿、蓝三通道图像)特征图像IS;
如图4(b)所示,在本实施例中,将各帧图像检测区域Ik使用双线性插值方法统一调整成大小为224×224×3的RGB图像,并进行归一化,作为各帧图像检测区域的空间域RGB特征图像IS,其中k为单个视频帧序列号,k∈{1,…,N-1},N表示单个视频分帧后的总帧数;
S4、计算各帧图像检测区域的DFT(离散傅里叶变换)特征图像IF;
由于图像的重采样操作可能会导致图像的频谱失真,因此本实施例在计算各帧图像检测区域Ik的DFT特征图像IF时,不调整原始帧图像检测区域Ik的大小,而是统一调整傅里叶变换后频谱图像的大小。如图4(c)所示,将各帧图像检测区域Ik进行二维离散傅里叶变换得到傅里叶谱将频域低频成分平移到频域中心,求其幅度谱并取对数,使用双线性插值方法调整成大小为128×128×1的频谱图像,归一化后作为各帧图像检测区域的频域DFT特征图像IF,其中k为视频帧序列号,k∈{1,…,N-1},N表示单个视频分帧后的总帧数,和IF的计算公式如下:
其中,Ik(x,y)表示帧图像检测区域Ik在坐标点(x,y)的灰度像素值,x∈{0,…,W-1},y∈{0,…,H-1},大写W和H分别表示帧图像检测区域的宽和高,表示Ik(x,y)的离散傅里叶变换,u∈{0,…,W-1},v∈{0,…,H-1};
S5、计算各帧图像检测区域的光流特征图像IO;
如图4(d)所示,将视频前后连续两帧图像的检测区域Ik-1和Ik采用双线性插值方法统一调整成大小为224×224×1的灰度图像,采用Gunnar Farneback光流算法计算Ik-1和Ik的稠密光流场,即计算检测区域所有像素点的运动矢量场,可视化成大小为224×224×3的RGB光流图,并进行归一化,作为各帧图像检测区域的时域光流特征图IO,其中,k表示视频帧序列号,k∈{1,…,N-1},N表示单个视频分帧后的总帧数,利用OpenCV提供的CalcOpticalFlowFarneback函数实现Gunnar Farneback算法计算稠密光流场,函数参数设置如下:prev输入前一帧图像,next输入后一帧图像,flow为输出的光流,金字塔上下两层间的尺度关系pyr_scale设为0.5,金字塔层数levels设为3,均值窗口大小winsize设为6,迭代次数iterations设为3,像素领域大小ploy_n设为5,高斯标准差poly_sigma设为1.1,计算方法flags设为0;
S6、构建多路卷积神经网络Z的卷积特征提取模块;
在本实施例中,多路卷积神经网络Z的卷积特征提取模块包括三个网络分支,第一部分是RGB特征提取分支,采用输入为224×224×3大小的Xception作为基准网络,第二部分是DFT特征提取分支,采用输入为128×128×1大小的Xception作为基准网络,第三部分是光流特征提取分支,采用输入为224×224×3大小的ResNet50作为基准网络,其中网络参数include_top设为False,即三个网络分支均不包括基准网络结构最后的分类模块;
S7、将多路卷积神经网络Z各支路的卷积特征输入注意力模块,生成注意力引导特征图Gα;
在本实施例中,采用SE(Squeeze-and-Excitation)通道注意力模块,该模块的目的在于通过挤压和激励的方式自适应地调整各通道的特征响应值,以增强重要通道特征。多路卷积神经网络Z各支路最后的卷积特征输出层输出大小为h×w×c的卷积特征图G,小写h、w和c分别表示卷积特征图G的高度、宽度和通道数,将特征图输入SE注意力模块,如图5所示,依次经过全局平均池化层、通道的全连接层、ReLU激活函数、c通道的全连接层、Sigmoid激活函数,得到大小为1×1×c的注意力通道权重向量,将注意力通道权重向量扩增成大小为h×w×c的注意力权重图A(G),将卷积特征图G与注意力权重图A(G)相乘输出大小为h×w×c的注意力引导特征图Gα,其中r是一个缩放参数,用于特征通道信息降维,本实施例中r=16,Gα计算公式如下:
其中,G表示卷积特征图,A(G)表示经过注意力模块后生成的注意力权重图,表示矩阵逐元素相乘,表示全局平均池化层,和分别表示和c通道数的全连接层,σ1表示ReLU激活函数,σ2表示Sigmoid激活函数,生成数值范围在(0,1)区间的注意力权重图;
S8、将多路卷积神经网络Z各支路的注意力引导特征进行级联融合,输入用于特征分类的全连接层;
将多路卷积神经网络Z各支路生成的注意力引导特征图Gα输入全局平均池化层,输出大小为1×1×2048的RGB特征向量、大小为1×1×2048的DFT特征向量和大小为1×1×2048的光流特征向量,将多路特征向量进行级联融合,生成大小为1×1×6144的高维特征向量,最后输入2通道的全连接层,采用Softmax激活函数,输出用于特征分类的2维向量;
S9、训练阶段,将特征图像[IS,IF,IO]输入多路卷积神经网络Z进行模型训练,计算损失函数并反向传播更新网络权重系数,保存网络的模型和最佳权重;
在本实施例中,将计算得到的RGB特征、DFT特征和光流特征图像[IS,IF,IO]输入多路卷积神经网络Z进行端到端训练,采用Adam优化器作为训练优化器,学习率设置为1×10-4,一阶矩估计的指数衰减率beta_1为0.9,二阶矩估计的指数衰减率beta_2为0.999,防止在实现中除以零的模糊因子epsilon为1×10-8,学习率下降decay为0.0。采用交叉熵损失函数作为训练损失函数,以最小化损失函数为目的迭代更新网络权重系数;
为了避免过拟合,本实施例采用提前停止策略,分为两个训练阶段,根据经验,设定第一阶段的验证集损失值最大持续上升次数阈值e1=6,第二阶段的验证集损失值最大持续上升次数阈值e2=10,当第一阶段的验证集损失值持续上升次数达到所设阈值e1时,将学习率降低为1×10-6进行第二阶段训练,当第二阶段的验证集损失值持续上升次数达到所设阈值e2时终止模型训练,保存最小损失值的权重作为网络最佳权重;
S10、测试阶段,利用训练完成后的多路卷积神经网络Z进行特征提取和预测分类,输出测试集样本篡改检测结果;
在本实施例中,加载利用DFD(C23)数据库的训练集训练后的多路卷积神经网络Z的模型和权重,利用DFD(C23)数据库的验证集计算判决阈值T,分别预测DFD(C23)、FF++(C0)和TIMIT三个数据库的测试集数据,根据判决阈值T计算库内和跨库的平均错误率HTER,根据各个测试集的样本预测结果绘制ROC曲线并计算AUC值;
采用等错误率(Equal Error Rate,EER)准则确定判决阈值T,利用验证集数据的模型预测概率和标签,计算不同阈值下的虚警率(False Alarm Rate,FAR)和漏检率(FalseNegative Rate,FNR),当满足虚警率等于漏检率时,达到等错误率状态,记录当前阈值为判决阈值T,本实施例中判决阈值T=0.2505,其中FAR和FNR计算公式如下:
其中,VFP表示验证集真实人脸被误判为篡改人脸的图片数,VTN表示验证集真实人脸被判断为真实人脸的图片数,VFN表示验证集篡改人脸被误判为真实人脸的图片数,VTP表示验证集篡改人脸被判断为篡改人脸的图片数;
采用平均错误率(Half Total Error Rate,HTER)和受试者工作特征曲线(Receiver Operating Characteristic Curve,ROC)下面积(Area Under Curve,AUC)作为算法评价指标,HTER为判决阈值T下虚警率和漏检率的平均值,HTER值越小,表明模型的检测效果越好,ROC曲线是以样本预测概率为阈值计算不同阈值下的假正例率(FalsePositive Rate,FPR)和真正例率(True Positive Rate,TPR),并以FPR为横坐标,TPR为纵坐标绘制的曲线,AUC为ROC曲线下方的面积,AUC值越大,表明分类器的效果越好,其中HTER、FPR和TPR具体计算公式如下:
其中,TFP表示测试集真实人脸被误判为篡改人脸的图片数,TFN表示测试集篡改人脸被误判为真实人脸的图片数,TTN表示测试集真实人脸被判断为真实人脸的图片数,TTP表示测试集篡改人脸被判断为篡改人脸的图片数;
本实施例在DFD(C23)数据库上训练模型的库内和跨库测试结果如下表2所示,如图6所示,得到训练完成后的模型测试ROC曲线图。
表2DFD(C23)数据库训练模型测试结果表
由表2可知,本实施例在DFD(C23)数据库上训练模型的库内测试平均错误率为1.6%,AUC面积为99.9%,库内测试平均错误率较低,AUC值较高,表现出较好的库内测试结果;在FF++(C0)数据库上平均错误率为8.3%,AUC面积为97.5%,在TIMIT数据库上平均错误率为13.4%,AUC面积为93.2%,跨库测试平均错误率较低,AUC值较高,表现出较好的跨库测试结果,验证了本实施例方法的有效性。
本实施例采用传统手工特征和深度神经网络结合的方式,提取换脸视频数据在多个领域的篡改痕迹,充分利用了视频数据在空间域、频域和时域的特征信息,在保持库内较好检测效果的同时,有效降低了模型跨库测试的平均错误率。本实施例采用基于注意力机制的多域特征融合方式提取鲁棒特征,优化了模型对多个领域分类特征的学习,保证了模型对换脸视频篡改信息的提取能力,上述实验结果证明,本实施例在DFD(C23)数据库上的库内和跨库测试性能良好,有效提高了模型的泛化能力。
本实施例还提供一种基于多域特征融合的换脸视频篡改检测系统,包括:数据集划分模块、视频数据预处理模块、特征图像计算模块、卷积特征提取构建模块、注意力构建模块、特征融合模块、网络训练模块和检测模块;
在本实施例中,数据集划分模块用于将数据集划分为训练集、验证集和测试集;
在本实施例中,视频数据预处理模块用于对视频数据进行分帧预处理,并提取各帧图像人脸检测区域;
在本实施例中,特征图像计算模块用于计算各帧图像检测区域的RGB特征图像、DFT特征图像和光流特征图像;
在本实施例中,卷积特征提取构建模块用于构建多路卷积神经网络的卷积特征提取模块,所述多路卷积神经网络的卷积特征提取模块用于提取RGB特征图像、DFT特征图像和光流特征图像的高维语义特征;
在本实施例中,注意力构建模块用于构建注意力模块,所述注意力模块用于将多路卷积神经网络各支路的卷积特征生成注意力引导特征图;
在本实施例中,特征融合模块用于将所述多路卷积神经网络各支路的注意力引导特征进行级联融合,并将融合后的高维特征输入全连接层进行特征分类;
在本实施例中,网络训练模块用于将RGB特征图像、DFT特征图像和光流特征图像输入所述多路卷积神经网络训练,训练完成后保存多路卷积神经网络的模型和最佳权重;
在本实施例中,检测模块用于通过训练完成后的多路卷积神经网络进行特征提取和预测分类,输出测试样本篡改检测结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于多域特征融合的换脸视频篡改检测方法,其特征在于,包括下述步骤:
将待测数据集划分为训练集、验证集和测试集;
将各数据集的视频进行分帧,选择待测视频帧序列,提取各帧图像待检测区域;
计算各帧图像检测区域的RGB特征图像;
计算各帧图像检测区域的DFT特征图像;
计算各帧图像检测区域的光流特征图像;
构建多路卷积神经网络的卷积特征提取模块;
将多路卷积神经网络各支路的卷积特征输入注意力模块,生成注意力引导特征图;
将各支路的注意力引导特征进行级联融合,输入用于特征分类的全连接层;
将RGB特征图像、DFT特征图像和光流特征图像输入所述多路卷积神经网络进行模型训练,计算损失函数并反向传播更新网络权重系数,保存网络的模型和最佳权重;
利用训练完成后的多路卷积神经网络进行特征提取和预测分类,输出换脸视频篡改检测结果。
2.根据权利要求1所述的基于多域特征融合的换脸视频篡改检测方法,其特征在于,所述将各数据集的视频进行分帧,选择待测视频帧序列,具体步骤包括:
将各数据集的视频进行分帧,得到视频帧序列图像{f0,f1,…,fN-1},选择帧序列图像{f1,…,fN-1}作为待测视频帧序列,其中N表示单个视频分帧后的总帧数。
3.根据权利要求1所述的基于多域特征融合的换脸视频篡改检测方法,其特征在于,所述提取各帧图像待检测区域,具体步骤包括:
采用视频帧图像的人脸区域作为待检测区域,利用人脸框左上角坐标点(xt,yt)和右下角坐标点(xb,yb)提取各帧图像的人脸区域作为待处理对象。
4.根据权利要求1所述的基于多域特征融合的换脸视频篡改检测方法,其特征在于,所述计算各帧图像检测区域的RGB特征图像,具体步骤包括:
将各帧图像检测区域Ik使用双线性插值方法统一调整成大小为LS×LS×3的RGB图像,并进行归一化,作为各帧图像检测区域的空间域RGB特征图像,其中k为单个视频帧序列号,k∈{1,…,N-1},N表示单个视频分帧后的总帧数。
6.根据权利要求1所述的基于多域特征融合的换脸视频篡改检测方法,其特征在于,所述计算各帧图像检测区域的光流特征图像,具体步骤包括:
将计算视频连续前后帧图像检测区域Ik-1和Ik分别调整成大小为LO×LO×1的灰度图像,采用Gunnar Fameback算法计算Ik-1和Ik的稠密光流场,可视化成大小为LO×LO×3的光流图,并进行归一化,作为各帧图像检测区域的时域光流特征图像,其中,k为视频帧序列号,k∈{1,…,N-1},N表示单个视频分帧后的总帧数,LO表示统一调整后的光流特征图像的宽和高。
7.根据权利要求1所述的基于多域特征融合的换脸视频篡改检测方法,其特征在于,所述构建多路卷积神经网络的卷积特征提取模块,具体结构包括三个网络分支,第一部分是RGB特征提取分支,采用Xception作为基准网络,第二部分是DFT特征提取分支,采用Xception作为基准网络,第三部分是光流特征提取分支,采用ResNet50作为基准网络。
9.根据权利要求1所述的基于多域特征融合的换脸视频篡改检测方法,其特征在于,所述将各支路的注意力引导特征进行级联融合,输入用于特征分类的全连接层,具体步骤包括:
将各支路注意力引导特征图Gα经过全局平均池化层,输出大小为1×1×c0的RGB特征向量、大小为1×1×c1的DFT特征向量和大小为1×1×c2的光流特征向量,将多路特征向量进行级联融合,生成大小为1×1×(c0+c1+c2)的高维特征向量,最后输入2通道的全连接层,采用Softmax激活函数,输出用于特征分类的2维向量。
10.一种基于多域特征融合的换脸视频篡改检测系统,其特征在于,包括:数据集划分模块、视频数据预处理模块、特征图像计算模块、卷积特征提取构建模块、注意力构建模块、特征融合模块、网络训练模块和检测模块;
所述数据集划分模块用于将数据集划分为训练集、验证集和测试集;
所述视频数据预处理模块用于对视频数据进行分帧预处理,并提取各帧图像人脸检测区域;
所述特征图像计算模块用于计算各帧图像检测区域的RGB特征图像、DFT特征图像和光流特征图像;
所述卷积特征提取构建模块用于构建多路卷积神经网络的卷积特征提取模块,所述多路卷积神经网络的卷积特征提取模块用于提取RGB特征图像、DFT特征图像和光流特征图像的高维语义特征;
所述注意力构建模块用于构建注意力模块,所述注意力模块用于将多路卷积神经网络各支路的卷积特征生成注意力引导特征图;
所述特征融合模块用于将所述多路卷积神经网络各支路的注意力引导特征进行级联融合,并将融合后的高维特征输入全连接层进行特征分类;
所述网络训练模块用于将RGB特征图像、DFT特征图像和光流特征图像输入所述多路卷积神经网络训练,训练完成后保存多路卷积神经网络的模型和最佳权重;
所述检测模块用于通过训练完成后的多路卷积神经网络进行特征提取和预测分类,输出测试样本篡改检测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011544772.3A CN112734696B (zh) | 2020-12-24 | 2020-12-24 | 基于多域特征融合的换脸视频篡改检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011544772.3A CN112734696B (zh) | 2020-12-24 | 2020-12-24 | 基于多域特征融合的换脸视频篡改检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112734696A true CN112734696A (zh) | 2021-04-30 |
CN112734696B CN112734696B (zh) | 2023-01-13 |
Family
ID=75604948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011544772.3A Active CN112734696B (zh) | 2020-12-24 | 2020-12-24 | 基于多域特征融合的换脸视频篡改检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112734696B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239857A (zh) * | 2021-05-27 | 2021-08-10 | 京东科技控股股份有限公司 | 视频合成方法及其装置 |
CN113537027A (zh) * | 2021-07-09 | 2021-10-22 | 中国科学院计算技术研究所 | 基于面部划分的人脸深度伪造检测方法及系统 |
CN113609952A (zh) * | 2021-07-30 | 2021-11-05 | 中国人民解放军战略支援部队信息工程大学 | 基于密集卷积神经网络的深度伪造视频频域检测方法 |
CN113673465A (zh) * | 2021-08-27 | 2021-11-19 | 中国信息安全测评中心 | 图像检测方法、装置、设备及可读存储介质 |
CN113837980A (zh) * | 2021-10-12 | 2021-12-24 | Oppo广东移动通信有限公司 | 分辨率的调整方法、装置、电子设备及存储介质 |
CN114598833A (zh) * | 2022-03-25 | 2022-06-07 | 西安电子科技大学 | 基于时空联合注意力的视频插帧方法 |
CN114612979A (zh) * | 2022-03-09 | 2022-06-10 | 平安科技(深圳)有限公司 | 一种活体检测方法及装置、电子设备、存储介质 |
CN115273186A (zh) * | 2022-07-18 | 2022-11-01 | 中国人民警察大学 | 基于图像特征融合的深度伪造人脸视频检测方法及系统 |
CN116563957A (zh) * | 2023-07-10 | 2023-08-08 | 齐鲁工业大学(山东省科学院) | 一种基于傅里叶域适应的人脸伪造视频检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016149944A1 (zh) * | 2015-03-26 | 2016-09-29 | 北京旷视科技有限公司 | 用于识别人脸的方法、系统和计算机程序产品 |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN110414350A (zh) * | 2019-06-26 | 2019-11-05 | 浙江大学 | 基于注意力模型的双路卷积神经网络的人脸防伪检测方法 |
CN111353399A (zh) * | 2020-02-24 | 2020-06-30 | 中国科学技术大学 | 篡改视频检测方法 |
CN111353395A (zh) * | 2020-02-19 | 2020-06-30 | 南京信息工程大学 | 一种基于长短期记忆网络的换脸视频检测方法 |
CN111914633A (zh) * | 2020-06-22 | 2020-11-10 | 华南理工大学 | 基于人脸特征时域稳定性的换脸视频篡改检测方法及其应用 |
-
2020
- 2020-12-24 CN CN202011544772.3A patent/CN112734696B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016149944A1 (zh) * | 2015-03-26 | 2016-09-29 | 北京旷视科技有限公司 | 用于识别人脸的方法、系统和计算机程序产品 |
CN107330362A (zh) * | 2017-05-25 | 2017-11-07 | 北京大学 | 一种基于时空注意力的视频分类方法 |
CN110414350A (zh) * | 2019-06-26 | 2019-11-05 | 浙江大学 | 基于注意力模型的双路卷积神经网络的人脸防伪检测方法 |
CN111353395A (zh) * | 2020-02-19 | 2020-06-30 | 南京信息工程大学 | 一种基于长短期记忆网络的换脸视频检测方法 |
CN111353399A (zh) * | 2020-02-24 | 2020-06-30 | 中国科学技术大学 | 篡改视频检测方法 |
CN111914633A (zh) * | 2020-06-22 | 2020-11-10 | 华南理工大学 | 基于人脸特征时域稳定性的换脸视频篡改检测方法及其应用 |
Non-Patent Citations (1)
Title |
---|
肖辉等: "融合多特征的视频帧间篡改检测算法", 《网络与信息安全学报》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113239857A (zh) * | 2021-05-27 | 2021-08-10 | 京东科技控股股份有限公司 | 视频合成方法及其装置 |
CN113239857B (zh) * | 2021-05-27 | 2023-11-03 | 京东科技控股股份有限公司 | 视频合成方法及其装置 |
CN113537027A (zh) * | 2021-07-09 | 2021-10-22 | 中国科学院计算技术研究所 | 基于面部划分的人脸深度伪造检测方法及系统 |
CN113537027B (zh) * | 2021-07-09 | 2023-09-01 | 中国科学院计算技术研究所 | 基于面部划分的人脸深度伪造检测方法及系统 |
CN113609952B (zh) * | 2021-07-30 | 2023-08-15 | 中国人民解放军战略支援部队信息工程大学 | 基于密集卷积神经网络的深度伪造视频频域检测方法 |
CN113609952A (zh) * | 2021-07-30 | 2021-11-05 | 中国人民解放军战略支援部队信息工程大学 | 基于密集卷积神经网络的深度伪造视频频域检测方法 |
CN113673465A (zh) * | 2021-08-27 | 2021-11-19 | 中国信息安全测评中心 | 图像检测方法、装置、设备及可读存储介质 |
CN113837980A (zh) * | 2021-10-12 | 2021-12-24 | Oppo广东移动通信有限公司 | 分辨率的调整方法、装置、电子设备及存储介质 |
CN114612979A (zh) * | 2022-03-09 | 2022-06-10 | 平安科技(深圳)有限公司 | 一种活体检测方法及装置、电子设备、存储介质 |
CN114612979B (zh) * | 2022-03-09 | 2024-05-31 | 平安科技(深圳)有限公司 | 一种活体检测方法及装置、电子设备、存储介质 |
CN114598833A (zh) * | 2022-03-25 | 2022-06-07 | 西安电子科技大学 | 基于时空联合注意力的视频插帧方法 |
CN115273186A (zh) * | 2022-07-18 | 2022-11-01 | 中国人民警察大学 | 基于图像特征融合的深度伪造人脸视频检测方法及系统 |
CN116563957A (zh) * | 2023-07-10 | 2023-08-08 | 齐鲁工业大学(山东省科学院) | 一种基于傅里叶域适应的人脸伪造视频检测方法 |
CN116563957B (zh) * | 2023-07-10 | 2023-09-29 | 齐鲁工业大学(山东省科学院) | 一种基于傅里叶域适应的人脸伪造视频检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112734696B (zh) | 2023-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112734696B (zh) | 基于多域特征融合的换脸视频篡改检测方法及系统 | |
CN111353395A (zh) | 一种基于长短期记忆网络的换脸视频检测方法 | |
CN112991278B (zh) | RGB空域特征与LoG时域特征结合的Deepfake视频检测方法及系统 | |
CN111709313B (zh) | 基于局部和通道组合特征的行人重识别方法 | |
CN111783841A (zh) | 基于迁移学习和模型融合的垃圾分类方法、系统及介质 | |
CN108573499A (zh) | 一种基于尺度自适应和遮挡检测的视觉目标跟踪方法 | |
CN110929635B (zh) | 基于信任机制下面部交并比的假脸视频检测方法及系统 | |
CN112733625B (zh) | 基于时域自注意力机制的假脸视频篡改检测方法及系统 | |
CN114360067A (zh) | 一种基于深度学习的动态手势识别方法 | |
Cai et al. | A real-time smoke detection model based on YOLO-smoke algorithm | |
CN114693607A (zh) | 基于多域块特征标志点配准的篡改视频检测方法及系统 | |
CN112288778A (zh) | 一种基于多帧回归深度网络的红外小目标检测方法 | |
CN112668532A (zh) | 基于多阶段混合注意网络的人群计数方法 | |
CN115984213A (zh) | 基于深度聚类的工业产品外观缺陷检测方法 | |
CN115761888A (zh) | 基于nl-c3d模型的塔吊操作人员异常行为检测方法 | |
Zhou et al. | Msflow: Multiscale flow-based framework for unsupervised anomaly detection | |
Saealal et al. | Three-Dimensional Convolutional Approaches for the Verification of Deepfake Videos: The Effect of Image Depth Size on Authentication Performance | |
CN111144220B (zh) | 适于大数据的人员检测方法、装置、设备和介质 | |
CN116740460A (zh) | 一种基于卷积神经网络的pcb缺陷检测系统及检测方法 | |
CN113642520B (zh) | 一种带有头部信息的双任务行人检测方法 | |
CN115331135A (zh) | 基于多域特征区域标准分数差异的Deepfake视频检测方法 | |
CN111582057B (zh) | 一种基于局部感受野的人脸验证方法 | |
CN114202694A (zh) | 基于流形混合插值和对比学习的小样本遥感场景图像分类方法 | |
CN112395964A (zh) | 一种基于深度学习的能见度估计方法 | |
CN111797761A (zh) | 一种三阶段烟雾检测系统、方法及可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |