CN113011357A - 基于时空融合的深度伪造人脸视频定位方法 - Google Patents
基于时空融合的深度伪造人脸视频定位方法 Download PDFInfo
- Publication number
- CN113011357A CN113011357A CN202110325432.XA CN202110325432A CN113011357A CN 113011357 A CN113011357 A CN 113011357A CN 202110325432 A CN202110325432 A CN 202110325432A CN 113011357 A CN113011357 A CN 113011357A
- Authority
- CN
- China
- Prior art keywords
- network
- layer
- frame
- task
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims abstract description 16
- 238000011176 pooling Methods 0.000 claims description 66
- 230000006870 function Effects 0.000 claims description 37
- 238000010606 normalization Methods 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 8
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 5
- 230000007787 long-term memory Effects 0.000 claims description 3
- 230000006403 short-term memory Effects 0.000 claims description 3
- 230000004083 survival effect Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims 1
- 238000004088 simulation Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000001121 heart beat frequency Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Abstract
本发明公开了一种基于时空融合的深度伪造人脸视频定位方法,其步骤为:(1)构建卷积神经网络;(2)构建融合时域和空间域特征的分类网络;(3)构建分割定位任务网络;(4)构建重建任务网络;(5)构建多任务融合网络;(6)生成多任务融合损失函数;(7)生成训练集;(8)训练多任务融合网络;(9)对深度伪造人脸视频进行识别定位。本发明构建融合时域和空间域特征的分类网络提取特征,可以提取到更完整的帧内和帧间特征,获得更高的准确率,同时,本发明构建用于训练多任务融合网络的多任务融合损失函数,解决了未见攻击类别和任务单一化导致的影响泛化能力和功能完善性的问题。
Description
技术领域
本发明属于图像处理技术领域,更进一步涉及图像识别技术领域中一种基于时空融合的深度伪造人脸视频定位方法。本发明可应用于对含人脸视频进行鉴伪并对伪造区域进行标记。
背景技术
深度伪造是指借助深度学习产生的任何逼真的视听内容,也指制造这类内容的技术。随着深度学习技术的不断发展,深度伪造生成技术使用门槛降低,感官效果越来越逼真,鲁棒性逐渐提升,数据依赖逐渐减少。现有的深度伪造方法,使得当前高泛化能力深度伪造鉴伪系统的需求不断增大。
目前的鉴伪方法主要有图片级别鉴伪和视频级别鉴伪。图片鉴伪有基于数字信号的方法例如频谱图、高频噪声等;基于深度学习的方法例如RGB空间特征、多流特征等。视频鉴伪的方法有基于人脸生物特征的方法,例如眨眼频率、心跳频率等;基于深度学习的方法,例如根据纹理、颜色、时序、光流等伪造痕迹鉴别的方法。
Stehouwer J等人在其发表的论文“On the Detection of Digital FaceManipulation”(Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition(CVPR),pp 5781-5790,2020)中提出了一种基于深度卷积神经网络的深度伪造人脸视频检测方法。该方法的实现步骤是,将视频提取帧,根据帧图像生成对应的注意力图,将帧内人脸图像分别输入卷积神经网络,并结合使用注意力机制处理和改进分类器模型的特征图,突出显示帧内信息区域,提高了对伪造图像的二元分类能力。该方法有效证明注意力机制可以较好地应用在深度伪造视频检测与定位任务中。但是,该方法仍然存在的不足之处是,由于该方法只关注了帧图像的信息,识别系统缺失了伪造视频的时域特征,忽略了视频帧间不一致性,导致在伪造视频的识别过程中影响识别的精度。
南京信息工程大学在其申请的专利文献“一种基于长短期记忆网络的换脸视频检测方法”(申请号:202010105761.9,申请公布号:CN 111353395 A)中公开了一种基于长短期记忆网络的深度伪造人脸视频检测方法。该方法首先对视频提取帧,将卷积神经网络的输出作为图像的特征,并将各帧图像提取到的特征拼接为特征序列,输入到长短期记忆网络进行训练,对深度伪造人脸视频做分类标签。该方法可以达到较好的分类结果。但是,该方法仍然存在的不足之处是,由于该方法只关注已知的攻击类型数据集,导致应对未见攻击的能力较弱,泛化能力较差,并且只能对深度伪造视频分类,不能对伪造区域进行定位,任务单一,只提供检测分类结果,没有定位结果的辅助,导致识别系统功能不完善,影响识别的精度。
发明内容
本发明的目的在于针对上述已有技术的不足,提供一种基于时空融合多任务模型的伪造人脸视频定位方法,用于解决由于忽略了伪造视频的时域特征,导致在伪造视频的识别过程中识别精度的降低,以及由于忽略未见攻击类别和任务单一化导致影响识别系统的泛化能力和功能完善性。
实现本发明目的的思路是,构建融合时域和空间域特征的分类网络对人脸视频进行特征提取,由于该网络融合了空间域特征和时域特征,提高对待识别视频中帧内差异和帧间不一致性的敏感性,用来解决对伪造人脸视频特征提取不完整从而导致的伪造视频的识别过程中识别精度的降低的问题。构建多任务融合网络和多任务融合损失函数,由于该网络融合了具有共性特征的相关任务用于网络训练,用来解决忽略未见攻击类别和任务单一从而导致影响识别系统的泛化能力和功能完善性的问题。
本发明实现的具体步骤如下:
(1)构建卷积神经网络:
(1a)搭建一个13层的卷积神经网络,其结构依次为:第一卷积层,第二卷积层,第一池化层,第三卷积层,第四卷积层,第二池化层,第五卷积层,第六卷积层,第七卷积层,第三池化层,第八卷积层,第九卷积层,第十卷积层;
(1b)将第一至第十卷积层的卷积核的大小均设置为3×3,卷积核的个数分别设置为64,64,128,128,256,256,256,512,512,512,步长均设置为1,第一至第三池化层设置为最大池化方式,池化区域核的大小均设置为2×2,步长均设置为1;
(2)构建融合时域和空间域特征的分类网络:
(2a)搭建一个14层的空间域网络,其结构依次为:第一池化层,第二池化层,第一卷积层,第二卷积层,第一soft max层,第三池化层,第四池化层,第三卷积层,第二softmax层,第四卷积层,第五池化层,第一全连接层,第二全连接层,第三soft max层;第一池化层与第二池化层并联,将第一至第四卷积层的卷积核的大小分别设置为1×1,1×1,3×3,3×3,卷积核的个数分别设置为256,512,1,256;将第一至第五池化层分别设置为自适应最大池化方式,自适应平均池化方式,通道上的最大池化方式,通道上的平均池化方式,最大池化方式,第五池化层池化区域核的大小设置为2×2,步长设置为1,第一至第二全连接层的神经元个数分别设置为4096,1000;
(2b)搭建一个由输入层,隐藏层,输出层组成的长短时记忆网络,该长短时记忆网络的输出层依次与全连接层和soft max层连接组成时域网络;将全连接层的神经元个数设置为1000;
(2c)将空间域网络与时域网络并联组成融合时域和空间域特征的分类网络;
(3)构建分割定位任务网络:
(3a)搭建一个13层的分割定位任务网络,其结构依次为:第一反卷积层,第一批归一化层,第二反卷积层,第二批归一化层,第三反卷积层,第四反卷积层,第三批归一化层,第五反卷积层,第六反卷积层,第四批归一化层,第七反卷积层,第八反卷积层,soft max层;
(3b)设置分割定位任务网络的参数如下:第一至第八反卷积层的卷积核大小均设置为3×3,卷积核的个数分别设置为512,256,256,128,128,64,64,2,步长分别设置为2,1,2,1,2,1,2,1;第一至第四批处理化层通道数分别设置为512,256,18,64;
(4)构建重建任务网络:
(4a)搭建一个8层的重建任务网络,其结构依次为:第一反卷积层,第一批归一化层,第二反卷积层,第三反卷积层,第二批归一化层,第四反卷积层,第五反卷积层,Tanh层;
(4b)设置重建任务网络的参数如下:第一至第五反卷积层的卷积核大小均设置为3×3,卷积核的个数分别设置为128,128,64,64,3,步长分别设置为1,2,1,2,1,第一和第二批处理化层通道数分别设置为128,64;
(5)构建多任务融合网络:
将卷积神经网络的第十卷积层分别与融合时域和空间域特征的分类网络的第一池化层、分割定位任务网络的第一反卷积层串联,将分割定位任务网络的第三反卷积层与重建任务网络的第一反卷积层串联,组成多任务融合网络;
(6)生成多任务融合损失函数:
(6a)生成融合时域和空间域特征的分类网络损失函数L1如下:
λ表示分类网络中空间域网络预测注意力特征图的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,*表示相乘操作,T表示待输入图像的帧数,∑表示求和操作,i表示待输入图像的帧序号,i=1,2,3,...,M,M的取值与T相等,|·|表示取绝对值操作,mi表示由第i帧待输入图像经过预处理得到的第a帧注意力掩膜,表示由第i帧待输入图像经过分类网络中空间域网络预测的第b帧注意力特征图,a和b的取值均与i相等,μ表示分类网络中空间域网络预测待输入图像标签的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,log表示以自然常数e为底的对数操作,yi表示第i帧待输入图像的真实性标签,表示分类网络中空间域网络预测第i帧待输入图像标签的概率,α表示分类网络中时域网络预测连续T帧待输入图像标签的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,y表示连续T帧待输入图像所属原始视频的真实性标签,表示分类网络中时域网络预测连续T帧待输入图像标签的概率;
(6b)生成分割定位任务网络损失函数L2如下:
(6c)生成重建任务网络损失函数L3如下:
(6d)生成多任务融合损失函数L:
L=L1+β*L2+γ*L3
其中,β表示分割定位任务网络损失函数的权重比,其取值为[0,1]范围内选取的一个小数,γ表示重建任务网络的损失函数的权重比,其取值为[0,1]范围内选取的一个小数;
(7)生成训练集:
(7a)选取包含至少4种类别、至少1000对、且具有对应掩膜视频的视频样本组成人脸视频集;对视频集中的每个人脸视频依次进行抽帧、人脸提取、真伪标记操作得到该视频对应的人脸图像,并对视频集中每个人脸视频的掩膜视频进行抽帧、伪造区域掩膜提取操作,得到该掩膜视频对应的伪造区域掩膜,将所有人脸图像和伪造区域掩膜组成训练集;
(7b)利用注意力掩膜计算公式,计算训练集中的每帧人脸图像中每个像素的像素值,生成该帧人脸图像的注意力掩膜;
(7c)利用混合边缘掩膜计算公式,计算训练集中的每帧伪造区域掩膜中每个像素的像素值,生成该帧伪造区域掩膜的混合边缘掩膜;
(8)训练多任务融合网络:
(8a)将多任务融合网络中卷积神经网络的权值参数初始化为预训练好的VGG16网络模型的权值参数;
(8b)将训练集输入到初始化后的多任务融合网络中,利用决策融合分数计算公式,计算多任务融合网络中分类网络的决策融合分数,作为分类标签值,利用SGD优化器对训练集中的训练图片进行迭代训练,直至多任务融合损失函数L的值不断收敛为止,得到训练好的多任务融合网络,保存训练好的多任务融合网络的权值参数;
(9)对深度伪造人脸视频进行识别定位:
(9a)将待识别的源视频依次进行抽帧和人脸提取操作,得到处理后的人脸图像;
(9b)将处理后的人脸图像输入到训练好的多任务融合网络中,输出预测标签和定位掩膜;
(9c)将定位掩膜和与其对应的源视频的人脸图像合成,得到标记后的人脸图像,并对每帧标记后的人脸图像进行合并视频操作,得到定位标记后的视频。
与现有技术相比,本发明具有以下优点:
第一,由于本发明构建了一个融合时域和空间域特征的分类网络,用于更完整地提取视频中每帧图像的特征,克服了现有技术中由于忽略了伪造视频的时域特征,导致在伪造视频的识别过程中识别精度的降低的问题,使得本发明既能关注伪造区域,又能利用伪造人脸视频的视频特性,从而提高了伪造视频的鉴伪分类准确率。
第二,由于本发明构建了用于训练多任务融合网络的多任务融合损失函数,该函数可以融合分类任务提供的类内特征与定位任务提供的类间特征,克服了现有技术中由于忽略未见攻击类别和任务单一化导致的影响泛化能力和功能完善性的问题,从而使得该网络可以提取多种深度伪造类别的共性特征并且相关任务完成特征共享,使得本发明有效提高了识别系统的模型的泛化性能和完善了识别系统的功能性。
附图说明
图1是本发明的流程图;
图2是本发明仿真实验中训练与测试识别步骤的流程图。
具体实施方式
下面结合附图对本发明做进一步的详细描述。
参照图1,对本发明的具体步骤做进一步的详细描述。
步骤1,构建卷积神经网络。
搭建一个13层的卷积神经网络,其结构依次为:第一卷积层,第二卷积层,第一池化层,第三卷积层,第四卷积层,第二池化层,第五卷积层,第六卷积层,第七卷积层,第三池化层,第八卷积层,第九卷积层,第十卷积层。
将第一至第十卷积层的卷积核的大小均设置为3×3,卷积核的个数分别设置为64,64,128,128,256,256,256,512,512,512,步长均设置为1,第一至第三池化层设置为最大池化方式,池化区域核的大小均设置为2×2,步长均设置为1。
步骤2,构建融合时域和空间域特征的分类网络。
搭建一个14层的空间域网络,其结构依次为:第一池化层,第二池化层,第一卷积层,第二卷积层,第一soft max层,第三池化层,第四池化层,第三卷积层,第二soft max层,第四卷积层,第五池化层,第一全连接层,第二全连接层,第三soft max层;第一池化层与第二池化层并联,将第一至第四卷积层的卷积核的大小分别设置为1×1,1×1,3×3,3×3,卷积核的个数分别设置为256,512,1,256;将第一至第五池化层分别设置为自适应最大池化方式,自适应平均池化方式,通道上的最大池化方式,通道上的平均池化方式,最大池化方式,第五池化层池化区域核的大小设置为2×2,步长设置为1,第一至第二全连接层的神经元个数分别设置为4096,1000。
搭建一个由输入层,隐藏层,输出层组成的长短时记忆网络,该长短时记忆网络的输出层依次与全连接层和soft max层连接组成时域网络;将全连接层的神经元个数设置为1000;
将空间域网络与时域网络并联组成融合时域和空间域特征的分类网络。
步骤3,构建分割定位任务网络。
搭建一个13层的分割定位任务网络,其结构依次为:第一反卷积层,第一批归一化层,第二反卷积层,第二批归一化层,第三反卷积层,第四反卷积层,第三批归一化层,第五反卷积层,第六反卷积层,第四批归一化层,第七反卷积层,第八反卷积层,soft max层。
设置分割定位任务网络的参数如下:第一至第八反卷积层的卷积核大小均设置为3×3,卷积核的个数分别设置为512,256,256,128,128,64,64,2,步长分别设置为2,1,2,1,2,1,2,1;第一至第四批处理化层通道数分别设置为512,256,18,64。
将空间域网络与时域网络并联组成融合时域和空间域特征的分类网络。
步骤4,构建重建任务网络。
搭建一个8层的重建任务网络,其结构依次为:第一反卷积层,第一批归一化层,第二反卷积层,第三反卷积层,第二批归一化层,第四反卷积层,第五反卷积层,Tanh层。
设置重建任务网络的参数如下:第一至第五反卷积层的卷积核大小均设置为3×3,卷积核的个数分别设置为128,128,64,64,3,步长分别设置为1,2,1,2,1,第一和第二批处理化层通道数分别设置为128,64。
步骤5,构建多任务融合网络。
将卷积神经网络的第十卷积层分别与融合时域和空间域特征的分类网络的第一池化层、分割定位任务网络的第一反卷积层串联,将分割定位任务网络的第三反卷积层与重建任务网络的第一反卷积层串联,组成多任务融合网络。
步骤6,生成多任务融合损失函数。
生成融合时域和空间域特征的分类网络损失函数L1如下:
其中,λ表示分类网络中空间域网络预测注意力特征图的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,*表示相乘操作,T表示待输入图像的帧数,∑表示求和操作,,i表示待输入图像的帧序号,i=1,2,3,...,M,M的取值与T相等,|·|表示取绝对值操作,mi表示由第i帧待输入图像经过预处理得到的第a帧注意力掩膜,表示由第i帧待输入图像经过分类网络中空间域网络预测的第b帧注意力特征图,a和b的取值均与i相等,μ表示分类网络中空间域网络预测待输入图像标签的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,log表示以自然常数e为底的对数操作,yi表示第i帧待输入图像的真实性标签,表示分类网络中空间域网络预测第i帧待输入图像标签的概率,α表示分类网络中时域网络预测连续T帧待输入图像标签的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,y表示连续T帧待输入图像所属原始视频的真实性标签,表示分类网络中时域网络预测连续T帧待输入图像标签的概率。
生成分割定位任务网络损失函数L2如下:
生成重建任务网络损失函数L3如下:
生成多任务融合损失函数L:
L=L1+β*L2+γ*L3
其中,β表示分割定位任务网络损失函数的权重比,其取值为[0,1]范围内选取的一个小数,γ表示重建任务网络的损失函数的权重比,其取值为[0,1]范围内选取的一个小数。
步骤7,生成训练集。
选取包含至少4种类别、至少1000对、且具有对应掩膜视频的视频样本组成人脸视频集;对视频集中的每个人脸视频依次进行抽帧、人脸提取、真伪标记操作得到该视频对应的人脸图像,并对视频集中每个人脸视频的掩膜视频进行抽帧、伪造区域掩膜提取操作,得到该掩膜视频对应的伪造区域掩膜,将所有人脸图像和伪造区域掩膜组成训练集。
利用注意力掩膜计算公式,计算训练集中的每帧人脸图像中每个像素的像素值,生成该帧人脸图像的注意力掩膜。
利用混合边缘掩膜计算公式,计算训练集中的每帧伪造区域掩膜中每个像素的像素值,生成该帧伪造区域掩膜的混合边缘掩膜。
所述注意力掩膜计算公式如下:
其中,表示注意力掩膜中第p行第q列的像素值,表示伪造图像中第j行第k列的像素值,表示伪造图像对应的真实图像中第l行第o列的像素值,j和l的取值均与p相等,k和o的取值均与q相等,f(·)表示取像素值操作,当像素值小于0.1时像素值为0,当像素值大于或等于0.1时像素值为1。
所述混合边缘掩膜计算公式如下:
步骤8,训练多任务融合网络。
将多任务融合网络中卷积神经网络的权值参数初始化为预训练好的VGG16网络模型的权值参数。
将训练集输入到初始化后的多任务融合网络中,利用决策融合分数计算公式,计算多任务融合网络中分类网络的决策融合分数,作为分类标签值,利用SGD优化器对训练集中的训练图片进行迭代训练,直至多任务融合损失函数L的值不断收敛为止,得到训练好的多任务融合网络,保存训练好的多任务融合网络的权值参数。
所述决策融合分数计算公式如下:
其中,S表示分类网络的决策融合分数,表示[0,1]范围内取值的时域决策分数的权重比,Si表示分类网络中空间域网络预测第i帧待输入图像标签的决策分数,St表示分类网络中时域网络预测连续T帧待输入图像标签的决策分数。
步骤9,对深度伪造人脸视频进行识别定位。
将待识别的源视频依次进行抽帧和人脸提取操作,得到处理后的人脸图像。
将处理后的人脸图像输入到训练好的多任务融合网络中,输出预测标签和定位掩膜。
将定位掩膜和与其对应的源视频的人脸图像合成,得到标记后的人脸图像,并对每帧标记后的人脸图像进行合并视频操作,得到定位标记后的视频。
本发明的效果可以通过以下仿真实验进一步说明。
1.仿真条件。
本发明的仿真实验采用软件Pycharm作为仿真工具,计算机配置为Intel Corei7/3.6GHz/16G,64位Ubuntu18.04操作系统。
2.仿真实验内容。
本发明的仿真实验采用本发明的方法,利用FaceForensics深度伪造人脸视频数据集中视频生成的训练集,对本发明所构建的多任务融合网络进行训练,再利用训练好的网络对深度伪造人脸视频进行识别。
本发明的仿真实验使用的数据来自FaceForensics深度伪造人脸视频数据集上进行,该数据集是由德国慕尼黑工业大学创建,包含由DeepFake、FaceSwap、Face2Face、Neural Texture四种深度伪造方法生成的伪造视频和与其对应的真实视频,每个视频都具有对应的掩膜视频。
下面结合图2的训练与测试识别步骤的流程图对本发明的仿真内容做进一步的描述。
使用FFmpeg工具,对FaceForensics深度伪造人脸视频数据集中的每个视频样本,以每秒5帧的频率进行视频抽帧。
使用dlib人脸识别工具shape_predictor_68_face_landmarks对抽帧后的每帧图像进行人脸提取,丢弃不含人脸的图像,将所有人脸图像的尺寸裁剪为224×224×3。以0和1将人脸图像标记真伪,将真实图像标记为0,将伪造图像标记为1,得到处理后的人脸图像。
使用FFmpeg工具,对每个视频样本对应的掩膜视频,以每秒5帧的频率进行视频抽帧。对抽帧后的每帧图像按照与其对应的视频样本的人脸标记候选框进行裁剪,得到处理后的伪造区域掩膜。
将人脸图像和伪造区域掩膜组成图像数据集。将图像数据集按照7:1.5:1.5的比例分别随机划分为训练集,验证集和测试集。
将训练集输入到多任务融合网络进行迭代更新训练,在每次迭代中,再将验证集输入到当前迭代更新网络参数后的网络中,分别输出当前迭代中的损失值,使用早起停止法,将当前迭代时的损失值与前几次迭代时的损失值对比,若当前迭代时的损失值不但停止下降反而上升,就及时停止训练,保存当前迭代时网络模型的网络参数,避免模型由于过度训练而导致过拟合。
将测试集中每个人脸图像输入训练好的网络模型中测试,输出对当前人脸图像所属类别的预测概率,利用准确率评估方法对识别模型效果进行评估:
其中,Acc表示准确率,TP表示把假样本正确分类为假样本的数目,TN表示把真样本正确分类为真样本的数目,FP表示把真样本错误分类为假样本的数目,FN表示把假样本错误分类为真样本的数目。
Claims (4)
1.一种基于时空融合的深度伪造人脸视频定位方法,其特征在于,构建卷积神经网络,构建融合时域和空间域特征的分类网络,构建分割定位任务网络,构建重建任务网络,构建多任务融合网络;该方法步骤包括如下:
(1)构建卷积神经网络:
(1a)搭建一个13层的卷积神经网络,其结构依次为:第一卷积层,第二卷积层,第一池化层,第三卷积层,第四卷积层,第二池化层,第五卷积层,第六卷积层,第七卷积层,第三池化层,第八卷积层,第九卷积层,第十卷积层;
(1b)将第一至第十卷积层的卷积核的大小均设置为3×3,卷积核的个数分别设置为64,64,128,128,256,256,256,512,512,512,步长均设置为1,第一至第三池化层设置为最大池化方式,池化区域核的大小均设置为2×2,步长均设置为1;
(2)构建融合时域和空间域特征的分类网络:
(2a)搭建一个14层的空间域网络,其结构依次为:第一池化层,第二池化层,第一卷积层,第二卷积层,第一softmax层,第三池化层,第四池化层,第三卷积层,第二softmax层,第四卷积层,第五池化层,第一全连接层,第二全连接层,第三softmax层;第一池化层与第二池化层并联,将第一至第四卷积层的卷积核的大小分别设置为1×1,1×1,3×3,3×3,卷积核的个数分别设置为256,512,1,256;将第一至第五池化层分别设置为自适应最大池化方式,自适应平均池化方式,通道上的最大池化方式,通道上的平均池化方式,最大池化方式,第五池化层池化区域核的大小设置为2×2,步长设置为1,第一至第二全连接层的神经元个数分别设置为4096,1000;
(2b)搭建一个由输入层,隐藏层,输出层组成的长短时记忆网络,该长短时记忆网络的输出层依次与全连接层和softmax层连接组成时域网络;将全连接层的神经元个数设置为1000;
(2c)将空间域网络与时域网络并联组成融合时域和空间域特征的分类网络;
(3)构建分割定位任务网络:
(3a)搭建一个13层的分割定位任务网络,其结构依次为:第一反卷积层,第一批归一化层,第二反卷积层,第二批归一化层,第三反卷积层,第四反卷积层,第三批归一化层,第五反卷积层,第六反卷积层,第四批归一化层,第七反卷积层,第八反卷积层,softmax层;
(3b)设置分割定位任务网络的参数如下:第一至第八反卷积层的卷积核大小均设置为3×3,卷积核的个数分别设置为512,256,256,128,128,64,64,2,步长分别设置为2,1,2,1,2,1,2,1;第一至第四批处理化层通道数分别设置为512,256,18,64;
(4)构建重建任务网络:
(4a)搭建一个8层的重建任务网络,其结构依次为:第一反卷积层,第一批归一化层,第二反卷积层,第三反卷积层,第二批归一化层,第四反卷积层,第五反卷积层,Tanh层;
(4b)设置重建任务网络的参数如下:第一至第五反卷积层的卷积核大小均设置为3×3,卷积核的个数分别设置为128,128,64,64,3,步长分别设置为1,2,1,2,1,第一和第二批处理化层通道数分别设置为128,64;
(5)构建多任务融合网络:
将卷积神经网络的第十卷积层分别与融合时域和空间域特征的分类网络的第一池化层、分割定位任务网络的第一反卷积层串联,将分割定位任务网络的第三反卷积层与重建任务网络的第一反卷积层串联,组成多任务融合网络;
(6)生成多任务融合损失函数:
(6a)生成融合时域和空间域特征的分类网络损失函数L1如下:
其中,λ表示分类网络中空间域网络预测注意力特征图的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,*表示相乘操作,T表示待输入图像的帧数,∑表示求和操作,i表示待输入图像的帧序号,i=1,2,3,...,M,M的取值与T相等,|·|表示取绝对值操作,mi表示由第i帧待输入图像经过预处理得到的第a帧注意力掩膜,表示由第i帧待输入图像经过分类网络中空间域网络预测的第b帧注意力特征图,a和b的取值均与i相等,μ表示分类网络中空间域网络预测待输入图像标签的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,log表示以自然常数e为底的对数操作,yi表示第i帧待输入图像的真实性标签,表示分类网络中空间域网络预测第i帧待输入图像标签的概率,α表示分类网络中时域网络预测连续T帧待输入图像标签的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,y表示连续T帧待输入图像所属原始视频的真实性标签,表示分类网络中时域网络预测连续T帧待输入图像标签的概率;
(6b)生成分割定位任务网络损失函数L2如下:
(6c)生成重建任务网络损失函数L3如下:
(6d)生成多任务融合损失函数L:
L=L1+β*L2+γ*L3
其中,β表示分割定位任务网络损失函数的权重比,其取值为[0,1]范围内选取的一个小数,γ表示重建任务网络的损失函数的权重比,其取值为[0,1]范围内选取的一个小数;
(7)生成训练集:
(7a)选取包含至少4种类别、至少1000对、且具有对应掩膜视频的视频样本组成人脸视频集;对视频集中的每个人脸视频依次进行抽帧、人脸提取、真伪标记操作得到该视频对应的人脸图像,并对视频集中每个人脸视频的掩膜视频进行抽帧、伪造区域掩膜提取操作,得到该掩膜视频对应的伪造区域掩膜,将所有人脸图像和伪造区域掩膜组成训练集;
(7b)利用注意力掩膜计算公式,计算训练集中的每帧人脸图像中每个像素的像素值,生成该帧人脸图像的注意力掩膜;
(7c)利用混合边缘掩膜计算公式,计算训练集中的每帧伪造区域掩膜中每个像素的像素值,生成该帧伪造区域掩膜的混合边缘掩膜;
(8)训练多任务融合网络:
(8a)将多任务融合网络中卷积神经网络的权值参数初始化为预训练好的VGG16网络模型的权值参数;
(8b)将训练集输入到初始化后的多任务融合网络中,利用决策融合分数计算公式,计算多任务融合网络中分类网络的决策融合分数,作为分类标签值,利用SGD优化器对训练集中的训练图片进行迭代训练,直至多任务融合损失函数L的值不断收敛为止,得到训练好的多任务融合网络,保存训练好的多任务融合网络的权值参数;
(9)对深度伪造人脸视频进行识别定位:
(9a)将待识别的源视频依次进行抽帧和人脸提取操作,得到处理后的人脸图像;
(9b)将处理后的人脸图像输入到训练好的多任务融合网络中,输出预测标签和定位掩膜;
(9c)将定位掩膜和与其对应的源视频的人脸图像合成,得到标记后的人脸图像,并对每帧标记后的人脸图像进行合并视频操作,得到定位标记后的视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110325432.XA CN113011357B (zh) | 2021-03-26 | 2021-03-26 | 基于时空融合的深度伪造人脸视频定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110325432.XA CN113011357B (zh) | 2021-03-26 | 2021-03-26 | 基于时空融合的深度伪造人脸视频定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113011357A true CN113011357A (zh) | 2021-06-22 |
CN113011357B CN113011357B (zh) | 2023-04-25 |
Family
ID=76407658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110325432.XA Active CN113011357B (zh) | 2021-03-26 | 2021-03-26 | 基于时空融合的深度伪造人脸视频定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113011357B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113570564A (zh) * | 2021-07-21 | 2021-10-29 | 同济大学 | 一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法 |
CN113609952A (zh) * | 2021-07-30 | 2021-11-05 | 中国人民解放军战略支援部队信息工程大学 | 基于密集卷积神经网络的深度伪造视频频域检测方法 |
CN113723295A (zh) * | 2021-08-31 | 2021-11-30 | 浙江大学 | 一种基于图像域频域双流网络的人脸伪造检测方法 |
CN113989713A (zh) * | 2021-10-28 | 2022-01-28 | 杭州中科睿鉴科技有限公司 | 基于视频帧序预测的深度伪造检测方法 |
CN114494002A (zh) * | 2022-03-30 | 2022-05-13 | 广州公评科技有限公司 | 一种基于ai换脸视频的原脸图像智能还原方法和系统 |
CN115311525A (zh) * | 2022-10-08 | 2022-11-08 | 阿里巴巴(中国)有限公司 | 深度伪造检测方法及对应装置 |
CN116071809A (zh) * | 2023-03-22 | 2023-05-05 | 鹏城实验室 | 一种基于多类表征时空交互的人脸时空表征生成方法 |
CN116453199A (zh) * | 2023-05-19 | 2023-07-18 | 山东省人工智能研究院 | 基于复杂纹理区域伪造痕迹的gan生成人脸检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985192A (zh) * | 2018-06-29 | 2018-12-11 | 东南大学 | 一种基于多任务深度卷积神经网络的视频烟雾识别方法 |
US20200160559A1 (en) * | 2018-11-16 | 2020-05-21 | Uatc, Llc | Multi-Task Multi-Sensor Fusion for Three-Dimensional Object Detection |
CN111950497A (zh) * | 2020-08-20 | 2020-11-17 | 重庆邮电大学 | 一种基于多任务学习模型的ai换脸视频检测方法 |
WO2020244174A1 (zh) * | 2019-06-05 | 2020-12-10 | 深圳云天励飞技术有限公司 | 人脸识别方法、装置、设备及计算机可读存储介质 |
-
2021
- 2021-03-26 CN CN202110325432.XA patent/CN113011357B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985192A (zh) * | 2018-06-29 | 2018-12-11 | 东南大学 | 一种基于多任务深度卷积神经网络的视频烟雾识别方法 |
US20200160559A1 (en) * | 2018-11-16 | 2020-05-21 | Uatc, Llc | Multi-Task Multi-Sensor Fusion for Three-Dimensional Object Detection |
WO2020244174A1 (zh) * | 2019-06-05 | 2020-12-10 | 深圳云天励飞技术有限公司 | 人脸识别方法、装置、设备及计算机可读存储介质 |
CN111950497A (zh) * | 2020-08-20 | 2020-11-17 | 重庆邮电大学 | 一种基于多任务学习模型的ai换脸视频检测方法 |
Non-Patent Citations (2)
Title |
---|
HUY H. NGUYEN等: ""Multi-task Learning For Detecting and Segmenting Manipulated Facial Images and Videos"", 《ARXIV:1906.06876V1》 * |
王昊然: ""基于多层卷积特征高阶融合的多任务目标检测系统研究"", 《中国优秀硕士学位论文全文数据库·信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113570564B (zh) * | 2021-07-21 | 2024-02-27 | 同济大学 | 一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法 |
CN113570564A (zh) * | 2021-07-21 | 2021-10-29 | 同济大学 | 一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法 |
CN113609952B (zh) * | 2021-07-30 | 2023-08-15 | 中国人民解放军战略支援部队信息工程大学 | 基于密集卷积神经网络的深度伪造视频频域检测方法 |
CN113609952A (zh) * | 2021-07-30 | 2021-11-05 | 中国人民解放军战略支援部队信息工程大学 | 基于密集卷积神经网络的深度伪造视频频域检测方法 |
CN113723295A (zh) * | 2021-08-31 | 2021-11-30 | 浙江大学 | 一种基于图像域频域双流网络的人脸伪造检测方法 |
CN113723295B (zh) * | 2021-08-31 | 2023-11-07 | 浙江大学 | 一种基于图像域频域双流网络的人脸伪造检测方法 |
CN113989713A (zh) * | 2021-10-28 | 2022-01-28 | 杭州中科睿鉴科技有限公司 | 基于视频帧序预测的深度伪造检测方法 |
CN113989713B (zh) * | 2021-10-28 | 2023-05-12 | 杭州中科睿鉴科技有限公司 | 基于视频帧序预测的深度伪造检测方法 |
CN114494002A (zh) * | 2022-03-30 | 2022-05-13 | 广州公评科技有限公司 | 一种基于ai换脸视频的原脸图像智能还原方法和系统 |
CN115311525B (zh) * | 2022-10-08 | 2023-03-14 | 阿里巴巴(中国)有限公司 | 深度伪造检测方法及对应装置 |
CN115311525A (zh) * | 2022-10-08 | 2022-11-08 | 阿里巴巴(中国)有限公司 | 深度伪造检测方法及对应装置 |
CN116071809A (zh) * | 2023-03-22 | 2023-05-05 | 鹏城实验室 | 一种基于多类表征时空交互的人脸时空表征生成方法 |
CN116453199A (zh) * | 2023-05-19 | 2023-07-18 | 山东省人工智能研究院 | 基于复杂纹理区域伪造痕迹的gan生成人脸检测方法 |
CN116453199B (zh) * | 2023-05-19 | 2024-01-26 | 山东省人工智能研究院 | 基于复杂纹理区域伪造痕迹的gan生成人脸检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113011357B (zh) | 2023-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011357B (zh) | 基于时空融合的深度伪造人脸视频定位方法 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN110348319B (zh) | 一种基于人脸深度信息和边缘图像融合的人脸防伪方法 | |
CN110717431B (zh) | 一种结合多视角注意力机制的细粒度视觉问答方法 | |
CN110852316B (zh) | 一种采用密集结构卷积网络的图像篡改检测和定位方法 | |
CN109410184B (zh) | 基于稠密对抗网络半监督学习的直播色情图像检测方法 | |
CN113642390B (zh) | 一种基于局部注意力网络的街景图像语义分割方法 | |
CN109255289B (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN108647595B (zh) | 基于多属性深度特征的车辆重识别方法 | |
CN112528777A (zh) | 一种用于课堂环境下的学生面部表情识别方法及系统 | |
CN109472733A (zh) | 基于卷积神经网络的图像隐写分析方法 | |
CN112434599A (zh) | 一种基于噪声通道的随机遮挡恢复的行人重识别方法 | |
Li et al. | Image manipulation localization using attentional cross-domain CNN features | |
Tereikovskyi et al. | The method of semantic image segmentation using neural networks | |
CN112990282B (zh) | 一种细粒度小样本图像的分类方法及装置 | |
CN110751005B (zh) | 融合深度感知特征和核极限学习机的行人检测方法 | |
CN111242114B (zh) | 文字识别方法及装置 | |
CN112818774A (zh) | 一种活体检测方法及装置 | |
Chawla et al. | Classification of computer generated images from photographic images using convolutional neural networks | |
CN116935411A (zh) | 一种基于字符分解和重构的部首级古文字识别方法 | |
CN110728238A (zh) | 一种融合型神经网络的人员再检测方法 | |
Saealal et al. | Three-Dimensional Convolutional Approaches for the Verification of Deepfake Videos: The Effect of Image Depth Size on Authentication Performance | |
CN112528058B (zh) | 基于图像属性主动学习的细粒度图像分类方法 | |
CN114782997A (zh) | 基于多损失注意力自适应网络的行人重识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |