CN113011357A - 基于时空融合的深度伪造人脸视频定位方法 - Google Patents

基于时空融合的深度伪造人脸视频定位方法 Download PDF

Info

Publication number
CN113011357A
CN113011357A CN202110325432.XA CN202110325432A CN113011357A CN 113011357 A CN113011357 A CN 113011357A CN 202110325432 A CN202110325432 A CN 202110325432A CN 113011357 A CN113011357 A CN 113011357A
Authority
CN
China
Prior art keywords
network
layer
frame
task
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110325432.XA
Other languages
English (en)
Other versions
CN113011357B (zh
Inventor
田玉敏
吴自力
王笛
蔡妍
潘蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110325432.XA priority Critical patent/CN113011357B/zh
Publication of CN113011357A publication Critical patent/CN113011357A/zh
Application granted granted Critical
Publication of CN113011357B publication Critical patent/CN113011357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Abstract

本发明公开了一种基于时空融合的深度伪造人脸视频定位方法,其步骤为:(1)构建卷积神经网络;(2)构建融合时域和空间域特征的分类网络;(3)构建分割定位任务网络;(4)构建重建任务网络;(5)构建多任务融合网络;(6)生成多任务融合损失函数;(7)生成训练集;(8)训练多任务融合网络;(9)对深度伪造人脸视频进行识别定位。本发明构建融合时域和空间域特征的分类网络提取特征,可以提取到更完整的帧内和帧间特征,获得更高的准确率,同时,本发明构建用于训练多任务融合网络的多任务融合损失函数,解决了未见攻击类别和任务单一化导致的影响泛化能力和功能完善性的问题。

Description

基于时空融合的深度伪造人脸视频定位方法
技术领域
本发明属于图像处理技术领域,更进一步涉及图像识别技术领域中一种基于时空融合的深度伪造人脸视频定位方法。本发明可应用于对含人脸视频进行鉴伪并对伪造区域进行标记。
背景技术
深度伪造是指借助深度学习产生的任何逼真的视听内容,也指制造这类内容的技术。随着深度学习技术的不断发展,深度伪造生成技术使用门槛降低,感官效果越来越逼真,鲁棒性逐渐提升,数据依赖逐渐减少。现有的深度伪造方法,使得当前高泛化能力深度伪造鉴伪系统的需求不断增大。
目前的鉴伪方法主要有图片级别鉴伪和视频级别鉴伪。图片鉴伪有基于数字信号的方法例如频谱图、高频噪声等;基于深度学习的方法例如RGB空间特征、多流特征等。视频鉴伪的方法有基于人脸生物特征的方法,例如眨眼频率、心跳频率等;基于深度学习的方法,例如根据纹理、颜色、时序、光流等伪造痕迹鉴别的方法。
Stehouwer J等人在其发表的论文“On the Detection of Digital FaceManipulation”(Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition(CVPR),pp 5781-5790,2020)中提出了一种基于深度卷积神经网络的深度伪造人脸视频检测方法。该方法的实现步骤是,将视频提取帧,根据帧图像生成对应的注意力图,将帧内人脸图像分别输入卷积神经网络,并结合使用注意力机制处理和改进分类器模型的特征图,突出显示帧内信息区域,提高了对伪造图像的二元分类能力。该方法有效证明注意力机制可以较好地应用在深度伪造视频检测与定位任务中。但是,该方法仍然存在的不足之处是,由于该方法只关注了帧图像的信息,识别系统缺失了伪造视频的时域特征,忽略了视频帧间不一致性,导致在伪造视频的识别过程中影响识别的精度。
南京信息工程大学在其申请的专利文献“一种基于长短期记忆网络的换脸视频检测方法”(申请号:202010105761.9,申请公布号:CN 111353395 A)中公开了一种基于长短期记忆网络的深度伪造人脸视频检测方法。该方法首先对视频提取帧,将卷积神经网络的输出作为图像的特征,并将各帧图像提取到的特征拼接为特征序列,输入到长短期记忆网络进行训练,对深度伪造人脸视频做分类标签。该方法可以达到较好的分类结果。但是,该方法仍然存在的不足之处是,由于该方法只关注已知的攻击类型数据集,导致应对未见攻击的能力较弱,泛化能力较差,并且只能对深度伪造视频分类,不能对伪造区域进行定位,任务单一,只提供检测分类结果,没有定位结果的辅助,导致识别系统功能不完善,影响识别的精度。
发明内容
本发明的目的在于针对上述已有技术的不足,提供一种基于时空融合多任务模型的伪造人脸视频定位方法,用于解决由于忽略了伪造视频的时域特征,导致在伪造视频的识别过程中识别精度的降低,以及由于忽略未见攻击类别和任务单一化导致影响识别系统的泛化能力和功能完善性。
实现本发明目的的思路是,构建融合时域和空间域特征的分类网络对人脸视频进行特征提取,由于该网络融合了空间域特征和时域特征,提高对待识别视频中帧内差异和帧间不一致性的敏感性,用来解决对伪造人脸视频特征提取不完整从而导致的伪造视频的识别过程中识别精度的降低的问题。构建多任务融合网络和多任务融合损失函数,由于该网络融合了具有共性特征的相关任务用于网络训练,用来解决忽略未见攻击类别和任务单一从而导致影响识别系统的泛化能力和功能完善性的问题。
本发明实现的具体步骤如下:
(1)构建卷积神经网络:
(1a)搭建一个13层的卷积神经网络,其结构依次为:第一卷积层,第二卷积层,第一池化层,第三卷积层,第四卷积层,第二池化层,第五卷积层,第六卷积层,第七卷积层,第三池化层,第八卷积层,第九卷积层,第十卷积层;
(1b)将第一至第十卷积层的卷积核的大小均设置为3×3,卷积核的个数分别设置为64,64,128,128,256,256,256,512,512,512,步长均设置为1,第一至第三池化层设置为最大池化方式,池化区域核的大小均设置为2×2,步长均设置为1;
(2)构建融合时域和空间域特征的分类网络:
(2a)搭建一个14层的空间域网络,其结构依次为:第一池化层,第二池化层,第一卷积层,第二卷积层,第一soft max层,第三池化层,第四池化层,第三卷积层,第二softmax层,第四卷积层,第五池化层,第一全连接层,第二全连接层,第三soft max层;第一池化层与第二池化层并联,将第一至第四卷积层的卷积核的大小分别设置为1×1,1×1,3×3,3×3,卷积核的个数分别设置为256,512,1,256;将第一至第五池化层分别设置为自适应最大池化方式,自适应平均池化方式,通道上的最大池化方式,通道上的平均池化方式,最大池化方式,第五池化层池化区域核的大小设置为2×2,步长设置为1,第一至第二全连接层的神经元个数分别设置为4096,1000;
(2b)搭建一个由输入层,隐藏层,输出层组成的长短时记忆网络,该长短时记忆网络的输出层依次与全连接层和soft max层连接组成时域网络;将全连接层的神经元个数设置为1000;
(2c)将空间域网络与时域网络并联组成融合时域和空间域特征的分类网络;
(3)构建分割定位任务网络:
(3a)搭建一个13层的分割定位任务网络,其结构依次为:第一反卷积层,第一批归一化层,第二反卷积层,第二批归一化层,第三反卷积层,第四反卷积层,第三批归一化层,第五反卷积层,第六反卷积层,第四批归一化层,第七反卷积层,第八反卷积层,soft max层;
(3b)设置分割定位任务网络的参数如下:第一至第八反卷积层的卷积核大小均设置为3×3,卷积核的个数分别设置为512,256,256,128,128,64,64,2,步长分别设置为2,1,2,1,2,1,2,1;第一至第四批处理化层通道数分别设置为512,256,18,64;
(4)构建重建任务网络:
(4a)搭建一个8层的重建任务网络,其结构依次为:第一反卷积层,第一批归一化层,第二反卷积层,第三反卷积层,第二批归一化层,第四反卷积层,第五反卷积层,Tanh层;
(4b)设置重建任务网络的参数如下:第一至第五反卷积层的卷积核大小均设置为3×3,卷积核的个数分别设置为128,128,64,64,3,步长分别设置为1,2,1,2,1,第一和第二批处理化层通道数分别设置为128,64;
(5)构建多任务融合网络:
将卷积神经网络的第十卷积层分别与融合时域和空间域特征的分类网络的第一池化层、分割定位任务网络的第一反卷积层串联,将分割定位任务网络的第三反卷积层与重建任务网络的第一反卷积层串联,组成多任务融合网络;
(6)生成多任务融合损失函数:
(6a)生成融合时域和空间域特征的分类网络损失函数L1如下:
Figure BDA0002994460230000041
λ表示分类网络中空间域网络预测注意力特征图的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,*表示相乘操作,T表示待输入图像的帧数,∑表示求和操作,i表示待输入图像的帧序号,i=1,2,3,...,M,M的取值与T相等,|·|表示取绝对值操作,mi表示由第i帧待输入图像经过预处理得到的第a帧注意力掩膜,
Figure BDA0002994460230000042
表示由第i帧待输入图像经过分类网络中空间域网络预测的第b帧注意力特征图,a和b的取值均与i相等,μ表示分类网络中空间域网络预测待输入图像标签的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,log表示以自然常数e为底的对数操作,yi表示第i帧待输入图像的真实性标签,
Figure BDA0002994460230000043
表示分类网络中空间域网络预测第i帧待输入图像标签的概率,α表示分类网络中时域网络预测连续T帧待输入图像标签的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,y表示连续T帧待输入图像所属原始视频的真实性标签,
Figure BDA0002994460230000051
表示分类网络中时域网络预测连续T帧待输入图像标签的概率;
(6b)生成分割定位任务网络损失函数L2如下:
Figure BDA0002994460230000052
其中,ni表示由第i帧待输入图像经过预处理得到的第c帧混合边缘掩膜,
Figure BDA0002994460230000053
表示由第i帧待输入图像经过分割定位任务网络预测的定位掩膜的第d帧定位掩膜,c和d的取值均与i相等;
(6c)生成重建任务网络损失函数L3如下:
Figure BDA0002994460230000054
其中,xi表示第i帧待输入图像,
Figure BDA0002994460230000055
表示由第i帧待输入图像经过重建任务网络预测的第h帧重建图像,h的取值与i相等,||·||2表示二范数操作;
(6d)生成多任务融合损失函数L:
L=L1+β*L2+γ*L3
其中,β表示分割定位任务网络损失函数的权重比,其取值为[0,1]范围内选取的一个小数,γ表示重建任务网络的损失函数的权重比,其取值为[0,1]范围内选取的一个小数;
(7)生成训练集:
(7a)选取包含至少4种类别、至少1000对、且具有对应掩膜视频的视频样本组成人脸视频集;对视频集中的每个人脸视频依次进行抽帧、人脸提取、真伪标记操作得到该视频对应的人脸图像,并对视频集中每个人脸视频的掩膜视频进行抽帧、伪造区域掩膜提取操作,得到该掩膜视频对应的伪造区域掩膜,将所有人脸图像和伪造区域掩膜组成训练集;
(7b)利用注意力掩膜计算公式,计算训练集中的每帧人脸图像中每个像素的像素值,生成该帧人脸图像的注意力掩膜;
(7c)利用混合边缘掩膜计算公式,计算训练集中的每帧伪造区域掩膜中每个像素的像素值,生成该帧伪造区域掩膜的混合边缘掩膜;
(8)训练多任务融合网络:
(8a)将多任务融合网络中卷积神经网络的权值参数初始化为预训练好的VGG16网络模型的权值参数;
(8b)将训练集输入到初始化后的多任务融合网络中,利用决策融合分数计算公式,计算多任务融合网络中分类网络的决策融合分数,作为分类标签值,利用SGD优化器对训练集中的训练图片进行迭代训练,直至多任务融合损失函数L的值不断收敛为止,得到训练好的多任务融合网络,保存训练好的多任务融合网络的权值参数;
(9)对深度伪造人脸视频进行识别定位:
(9a)将待识别的源视频依次进行抽帧和人脸提取操作,得到处理后的人脸图像;
(9b)将处理后的人脸图像输入到训练好的多任务融合网络中,输出预测标签和定位掩膜;
(9c)将定位掩膜和与其对应的源视频的人脸图像合成,得到标记后的人脸图像,并对每帧标记后的人脸图像进行合并视频操作,得到定位标记后的视频。
与现有技术相比,本发明具有以下优点:
第一,由于本发明构建了一个融合时域和空间域特征的分类网络,用于更完整地提取视频中每帧图像的特征,克服了现有技术中由于忽略了伪造视频的时域特征,导致在伪造视频的识别过程中识别精度的降低的问题,使得本发明既能关注伪造区域,又能利用伪造人脸视频的视频特性,从而提高了伪造视频的鉴伪分类准确率。
第二,由于本发明构建了用于训练多任务融合网络的多任务融合损失函数,该函数可以融合分类任务提供的类内特征与定位任务提供的类间特征,克服了现有技术中由于忽略未见攻击类别和任务单一化导致的影响泛化能力和功能完善性的问题,从而使得该网络可以提取多种深度伪造类别的共性特征并且相关任务完成特征共享,使得本发明有效提高了识别系统的模型的泛化性能和完善了识别系统的功能性。
附图说明
图1是本发明的流程图;
图2是本发明仿真实验中训练与测试识别步骤的流程图。
具体实施方式
下面结合附图对本发明做进一步的详细描述。
参照图1,对本发明的具体步骤做进一步的详细描述。
步骤1,构建卷积神经网络。
搭建一个13层的卷积神经网络,其结构依次为:第一卷积层,第二卷积层,第一池化层,第三卷积层,第四卷积层,第二池化层,第五卷积层,第六卷积层,第七卷积层,第三池化层,第八卷积层,第九卷积层,第十卷积层。
将第一至第十卷积层的卷积核的大小均设置为3×3,卷积核的个数分别设置为64,64,128,128,256,256,256,512,512,512,步长均设置为1,第一至第三池化层设置为最大池化方式,池化区域核的大小均设置为2×2,步长均设置为1。
步骤2,构建融合时域和空间域特征的分类网络。
搭建一个14层的空间域网络,其结构依次为:第一池化层,第二池化层,第一卷积层,第二卷积层,第一soft max层,第三池化层,第四池化层,第三卷积层,第二soft max层,第四卷积层,第五池化层,第一全连接层,第二全连接层,第三soft max层;第一池化层与第二池化层并联,将第一至第四卷积层的卷积核的大小分别设置为1×1,1×1,3×3,3×3,卷积核的个数分别设置为256,512,1,256;将第一至第五池化层分别设置为自适应最大池化方式,自适应平均池化方式,通道上的最大池化方式,通道上的平均池化方式,最大池化方式,第五池化层池化区域核的大小设置为2×2,步长设置为1,第一至第二全连接层的神经元个数分别设置为4096,1000。
搭建一个由输入层,隐藏层,输出层组成的长短时记忆网络,该长短时记忆网络的输出层依次与全连接层和soft max层连接组成时域网络;将全连接层的神经元个数设置为1000;
将空间域网络与时域网络并联组成融合时域和空间域特征的分类网络。
步骤3,构建分割定位任务网络。
搭建一个13层的分割定位任务网络,其结构依次为:第一反卷积层,第一批归一化层,第二反卷积层,第二批归一化层,第三反卷积层,第四反卷积层,第三批归一化层,第五反卷积层,第六反卷积层,第四批归一化层,第七反卷积层,第八反卷积层,soft max层。
设置分割定位任务网络的参数如下:第一至第八反卷积层的卷积核大小均设置为3×3,卷积核的个数分别设置为512,256,256,128,128,64,64,2,步长分别设置为2,1,2,1,2,1,2,1;第一至第四批处理化层通道数分别设置为512,256,18,64。
将空间域网络与时域网络并联组成融合时域和空间域特征的分类网络。
步骤4,构建重建任务网络。
搭建一个8层的重建任务网络,其结构依次为:第一反卷积层,第一批归一化层,第二反卷积层,第三反卷积层,第二批归一化层,第四反卷积层,第五反卷积层,Tanh层。
设置重建任务网络的参数如下:第一至第五反卷积层的卷积核大小均设置为3×3,卷积核的个数分别设置为128,128,64,64,3,步长分别设置为1,2,1,2,1,第一和第二批处理化层通道数分别设置为128,64。
步骤5,构建多任务融合网络。
将卷积神经网络的第十卷积层分别与融合时域和空间域特征的分类网络的第一池化层、分割定位任务网络的第一反卷积层串联,将分割定位任务网络的第三反卷积层与重建任务网络的第一反卷积层串联,组成多任务融合网络。
步骤6,生成多任务融合损失函数。
生成融合时域和空间域特征的分类网络损失函数L1如下:
Figure BDA0002994460230000081
其中,λ表示分类网络中空间域网络预测注意力特征图的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,*表示相乘操作,T表示待输入图像的帧数,∑表示求和操作,,i表示待输入图像的帧序号,i=1,2,3,...,M,M的取值与T相等,|·|表示取绝对值操作,mi表示由第i帧待输入图像经过预处理得到的第a帧注意力掩膜,
Figure BDA0002994460230000091
表示由第i帧待输入图像经过分类网络中空间域网络预测的第b帧注意力特征图,a和b的取值均与i相等,μ表示分类网络中空间域网络预测待输入图像标签的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,log表示以自然常数e为底的对数操作,yi表示第i帧待输入图像的真实性标签,
Figure BDA0002994460230000092
表示分类网络中空间域网络预测第i帧待输入图像标签的概率,α表示分类网络中时域网络预测连续T帧待输入图像标签的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,y表示连续T帧待输入图像所属原始视频的真实性标签,
Figure BDA0002994460230000093
表示分类网络中时域网络预测连续T帧待输入图像标签的概率。
生成分割定位任务网络损失函数L2如下:
Figure BDA0002994460230000094
其中,ni表示由第i帧待输入图像经过预处理得到的第c帧混合边缘掩膜,
Figure BDA0002994460230000095
表示由第i帧待输入图像经过分割定位任务网络预测的定位掩膜的第d帧定位掩膜,c和d的取值均与i相等。
生成重建任务网络损失函数L3如下:
Figure BDA0002994460230000096
其中,xi表示第i帧待输入图像,
Figure BDA0002994460230000097
表示由第i帧待输入图像经过重建任务网络预测的第h帧重建图像,h的取值与i相等,||·||2表示二范数操作
生成多任务融合损失函数L:
L=L1+β*L2+γ*L3
其中,β表示分割定位任务网络损失函数的权重比,其取值为[0,1]范围内选取的一个小数,γ表示重建任务网络的损失函数的权重比,其取值为[0,1]范围内选取的一个小数。
步骤7,生成训练集。
选取包含至少4种类别、至少1000对、且具有对应掩膜视频的视频样本组成人脸视频集;对视频集中的每个人脸视频依次进行抽帧、人脸提取、真伪标记操作得到该视频对应的人脸图像,并对视频集中每个人脸视频的掩膜视频进行抽帧、伪造区域掩膜提取操作,得到该掩膜视频对应的伪造区域掩膜,将所有人脸图像和伪造区域掩膜组成训练集。
利用注意力掩膜计算公式,计算训练集中的每帧人脸图像中每个像素的像素值,生成该帧人脸图像的注意力掩膜。
利用混合边缘掩膜计算公式,计算训练集中的每帧伪造区域掩膜中每个像素的像素值,生成该帧伪造区域掩膜的混合边缘掩膜。
所述注意力掩膜计算公式如下:
Figure BDA0002994460230000101
其中,
Figure BDA0002994460230000102
表示注意力掩膜中第p行第q列的像素值,
Figure BDA0002994460230000103
表示伪造图像中第j行第k列的像素值,
Figure BDA0002994460230000104
表示伪造图像对应的真实图像中第l行第o列的像素值,j和l的取值均与p相等,k和o的取值均与q相等,f(·)表示取像素值操作,当像素值小于0.1时像素值为0,当像素值大于或等于0.1时像素值为1。
所述混合边缘掩膜计算公式如下:
Figure BDA0002994460230000105
其中,
Figure BDA0002994460230000106
表示混合边缘掩膜中第r行s列的像素值,g(·)表示高斯模糊操作,
Figure BDA0002994460230000107
表示伪造区域掩膜中第u行v列的像素值,u的取值与r相等,v的取值与s相等,·表示像素相乘操作。
步骤8,训练多任务融合网络。
将多任务融合网络中卷积神经网络的权值参数初始化为预训练好的VGG16网络模型的权值参数。
将训练集输入到初始化后的多任务融合网络中,利用决策融合分数计算公式,计算多任务融合网络中分类网络的决策融合分数,作为分类标签值,利用SGD优化器对训练集中的训练图片进行迭代训练,直至多任务融合损失函数L的值不断收敛为止,得到训练好的多任务融合网络,保存训练好的多任务融合网络的权值参数。
所述决策融合分数计算公式如下:
Figure BDA0002994460230000111
其中,S表示分类网络的决策融合分数,
Figure BDA0002994460230000112
表示[0,1]范围内取值的时域决策分数的权重比,Si表示分类网络中空间域网络预测第i帧待输入图像标签的决策分数,St表示分类网络中时域网络预测连续T帧待输入图像标签的决策分数。
步骤9,对深度伪造人脸视频进行识别定位。
将待识别的源视频依次进行抽帧和人脸提取操作,得到处理后的人脸图像。
将处理后的人脸图像输入到训练好的多任务融合网络中,输出预测标签和定位掩膜。
将定位掩膜和与其对应的源视频的人脸图像合成,得到标记后的人脸图像,并对每帧标记后的人脸图像进行合并视频操作,得到定位标记后的视频。
本发明的效果可以通过以下仿真实验进一步说明。
1.仿真条件。
本发明的仿真实验采用软件Pycharm作为仿真工具,计算机配置为Intel Corei7/3.6GHz/16G,64位Ubuntu18.04操作系统。
2.仿真实验内容。
本发明的仿真实验采用本发明的方法,利用FaceForensics深度伪造人脸视频数据集中视频生成的训练集,对本发明所构建的多任务融合网络进行训练,再利用训练好的网络对深度伪造人脸视频进行识别。
本发明的仿真实验使用的数据来自FaceForensics深度伪造人脸视频数据集上进行,该数据集是由德国慕尼黑工业大学创建,包含由DeepFake、FaceSwap、Face2Face、Neural Texture四种深度伪造方法生成的伪造视频和与其对应的真实视频,每个视频都具有对应的掩膜视频。
下面结合图2的训练与测试识别步骤的流程图对本发明的仿真内容做进一步的描述。
使用FFmpeg工具,对FaceForensics深度伪造人脸视频数据集中的每个视频样本,以每秒5帧的频率进行视频抽帧。
使用dlib人脸识别工具shape_predictor_68_face_landmarks对抽帧后的每帧图像进行人脸提取,丢弃不含人脸的图像,将所有人脸图像的尺寸裁剪为224×224×3。以0和1将人脸图像标记真伪,将真实图像标记为0,将伪造图像标记为1,得到处理后的人脸图像。
使用FFmpeg工具,对每个视频样本对应的掩膜视频,以每秒5帧的频率进行视频抽帧。对抽帧后的每帧图像按照与其对应的视频样本的人脸标记候选框进行裁剪,得到处理后的伪造区域掩膜。
将人脸图像和伪造区域掩膜组成图像数据集。将图像数据集按照7:1.5:1.5的比例分别随机划分为训练集,验证集和测试集。
将训练集输入到多任务融合网络进行迭代更新训练,在每次迭代中,再将验证集输入到当前迭代更新网络参数后的网络中,分别输出当前迭代中的损失值,使用早起停止法,将当前迭代时的损失值与前几次迭代时的损失值对比,若当前迭代时的损失值不但停止下降反而上升,就及时停止训练,保存当前迭代时网络模型的网络参数,避免模型由于过度训练而导致过拟合。
将测试集中每个人脸图像输入训练好的网络模型中测试,输出对当前人脸图像所属类别的预测概率,利用准确率评估方法对识别模型效果进行评估:
Figure BDA0002994460230000131
其中,Acc表示准确率,TP表示把假样本正确分类为假样本的数目,TN表示把真样本正确分类为真样本的数目,FP表示把真样本错误分类为假样本的数目,FN表示把假样本错误分类为真样本的数目。

Claims (4)

1.一种基于时空融合的深度伪造人脸视频定位方法,其特征在于,构建卷积神经网络,构建融合时域和空间域特征的分类网络,构建分割定位任务网络,构建重建任务网络,构建多任务融合网络;该方法步骤包括如下:
(1)构建卷积神经网络:
(1a)搭建一个13层的卷积神经网络,其结构依次为:第一卷积层,第二卷积层,第一池化层,第三卷积层,第四卷积层,第二池化层,第五卷积层,第六卷积层,第七卷积层,第三池化层,第八卷积层,第九卷积层,第十卷积层;
(1b)将第一至第十卷积层的卷积核的大小均设置为3×3,卷积核的个数分别设置为64,64,128,128,256,256,256,512,512,512,步长均设置为1,第一至第三池化层设置为最大池化方式,池化区域核的大小均设置为2×2,步长均设置为1;
(2)构建融合时域和空间域特征的分类网络:
(2a)搭建一个14层的空间域网络,其结构依次为:第一池化层,第二池化层,第一卷积层,第二卷积层,第一softmax层,第三池化层,第四池化层,第三卷积层,第二softmax层,第四卷积层,第五池化层,第一全连接层,第二全连接层,第三softmax层;第一池化层与第二池化层并联,将第一至第四卷积层的卷积核的大小分别设置为1×1,1×1,3×3,3×3,卷积核的个数分别设置为256,512,1,256;将第一至第五池化层分别设置为自适应最大池化方式,自适应平均池化方式,通道上的最大池化方式,通道上的平均池化方式,最大池化方式,第五池化层池化区域核的大小设置为2×2,步长设置为1,第一至第二全连接层的神经元个数分别设置为4096,1000;
(2b)搭建一个由输入层,隐藏层,输出层组成的长短时记忆网络,该长短时记忆网络的输出层依次与全连接层和softmax层连接组成时域网络;将全连接层的神经元个数设置为1000;
(2c)将空间域网络与时域网络并联组成融合时域和空间域特征的分类网络;
(3)构建分割定位任务网络:
(3a)搭建一个13层的分割定位任务网络,其结构依次为:第一反卷积层,第一批归一化层,第二反卷积层,第二批归一化层,第三反卷积层,第四反卷积层,第三批归一化层,第五反卷积层,第六反卷积层,第四批归一化层,第七反卷积层,第八反卷积层,softmax层;
(3b)设置分割定位任务网络的参数如下:第一至第八反卷积层的卷积核大小均设置为3×3,卷积核的个数分别设置为512,256,256,128,128,64,64,2,步长分别设置为2,1,2,1,2,1,2,1;第一至第四批处理化层通道数分别设置为512,256,18,64;
(4)构建重建任务网络:
(4a)搭建一个8层的重建任务网络,其结构依次为:第一反卷积层,第一批归一化层,第二反卷积层,第三反卷积层,第二批归一化层,第四反卷积层,第五反卷积层,Tanh层;
(4b)设置重建任务网络的参数如下:第一至第五反卷积层的卷积核大小均设置为3×3,卷积核的个数分别设置为128,128,64,64,3,步长分别设置为1,2,1,2,1,第一和第二批处理化层通道数分别设置为128,64;
(5)构建多任务融合网络:
将卷积神经网络的第十卷积层分别与融合时域和空间域特征的分类网络的第一池化层、分割定位任务网络的第一反卷积层串联,将分割定位任务网络的第三反卷积层与重建任务网络的第一反卷积层串联,组成多任务融合网络;
(6)生成多任务融合损失函数:
(6a)生成融合时域和空间域特征的分类网络损失函数L1如下:
Figure FDA0002994460220000021
其中,λ表示分类网络中空间域网络预测注意力特征图的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,*表示相乘操作,T表示待输入图像的帧数,∑表示求和操作,i表示待输入图像的帧序号,i=1,2,3,...,M,M的取值与T相等,|·|表示取绝对值操作,mi表示由第i帧待输入图像经过预处理得到的第a帧注意力掩膜,
Figure FDA0002994460220000031
表示由第i帧待输入图像经过分类网络中空间域网络预测的第b帧注意力特征图,a和b的取值均与i相等,μ表示分类网络中空间域网络预测待输入图像标签的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,log表示以自然常数e为底的对数操作,yi表示第i帧待输入图像的真实性标签,
Figure FDA0002994460220000032
表示分类网络中空间域网络预测第i帧待输入图像标签的概率,α表示分类网络中时域网络预测连续T帧待输入图像标签的损失函数的权重比,其取值为[0,1]范围内选取的一个小数,y表示连续T帧待输入图像所属原始视频的真实性标签,
Figure FDA0002994460220000033
表示分类网络中时域网络预测连续T帧待输入图像标签的概率;
(6b)生成分割定位任务网络损失函数L2如下:
Figure FDA0002994460220000034
其中,ni表示由第i帧待输入图像经过预处理得到的第c帧混合边缘掩膜,
Figure FDA0002994460220000035
表示由第i帧待输入图像经过分割定位任务网络预测的定位掩膜的第d帧定位掩膜,c和d的取值均与i相等;
(6c)生成重建任务网络损失函数L3如下:
Figure FDA0002994460220000036
其中,xi表示第i帧待输入图像,
Figure FDA0002994460220000037
表示由第i帧待输入图像经过重建任务网络预测的第h帧重建图像,h的取值与i相等,||·||2表示二范数操作;
(6d)生成多任务融合损失函数L:
L=L1+β*L2+γ*L3
其中,β表示分割定位任务网络损失函数的权重比,其取值为[0,1]范围内选取的一个小数,γ表示重建任务网络的损失函数的权重比,其取值为[0,1]范围内选取的一个小数;
(7)生成训练集:
(7a)选取包含至少4种类别、至少1000对、且具有对应掩膜视频的视频样本组成人脸视频集;对视频集中的每个人脸视频依次进行抽帧、人脸提取、真伪标记操作得到该视频对应的人脸图像,并对视频集中每个人脸视频的掩膜视频进行抽帧、伪造区域掩膜提取操作,得到该掩膜视频对应的伪造区域掩膜,将所有人脸图像和伪造区域掩膜组成训练集;
(7b)利用注意力掩膜计算公式,计算训练集中的每帧人脸图像中每个像素的像素值,生成该帧人脸图像的注意力掩膜;
(7c)利用混合边缘掩膜计算公式,计算训练集中的每帧伪造区域掩膜中每个像素的像素值,生成该帧伪造区域掩膜的混合边缘掩膜;
(8)训练多任务融合网络:
(8a)将多任务融合网络中卷积神经网络的权值参数初始化为预训练好的VGG16网络模型的权值参数;
(8b)将训练集输入到初始化后的多任务融合网络中,利用决策融合分数计算公式,计算多任务融合网络中分类网络的决策融合分数,作为分类标签值,利用SGD优化器对训练集中的训练图片进行迭代训练,直至多任务融合损失函数L的值不断收敛为止,得到训练好的多任务融合网络,保存训练好的多任务融合网络的权值参数;
(9)对深度伪造人脸视频进行识别定位:
(9a)将待识别的源视频依次进行抽帧和人脸提取操作,得到处理后的人脸图像;
(9b)将处理后的人脸图像输入到训练好的多任务融合网络中,输出预测标签和定位掩膜;
(9c)将定位掩膜和与其对应的源视频的人脸图像合成,得到标记后的人脸图像,并对每帧标记后的人脸图像进行合并视频操作,得到定位标记后的视频。
2.根据权利要求1所述基于时空融合的深度伪造人脸视频定位方法,其特征在于,步骤(7b)中所述的注意力掩膜计算公式如下:
Figure FDA0002994460220000051
其中,
Figure FDA0002994460220000052
表示注意力掩膜中第p行第q列的像素值,
Figure FDA0002994460220000053
表示伪造图像中第j行第k列的像素值,
Figure FDA0002994460220000054
表示伪造图像对应的真实图像中第l行第o列的像素值,j和l的取值均与p相等,k和o的取值均与q相等,f(·)表示取像素值操作,当像素值小于0.1时像素值为0,当像素值大于或等于0.1时像素值为1。
3.根据权利要求1所述基于时空融合的深度伪造人脸视频定位方法,其特征在于,步骤(7c)中所述的混合边缘掩膜计算公式如下:
Figure FDA0002994460220000055
其中,
Figure FDA0002994460220000056
表示混合边缘掩膜中第r行s列的像素值,g(·)表示高斯模糊操作,
Figure FDA0002994460220000057
表示伪造区域掩膜中第u行v列的像素值,u的取值与r相等,v的取值与s相等,·表示像素相乘操作。
4.根据权利要求1所述基于时空融合的深度伪造人脸视频定位方法,其特征在于,步骤(8b)中所述的决策融合分数计算公式如下:
Figure FDA0002994460220000058
其中,S表示分类网络的决策融合分数,
Figure FDA0002994460220000059
表示[0,1]范围内取值的时域决策分数的权重比,Si表示分类网络中空间域网络预测第i帧待输入图像标签的决策分数,St表示分类网络中时域网络预测连续T帧待输入图像标签的决策分数。
CN202110325432.XA 2021-03-26 2021-03-26 基于时空融合的深度伪造人脸视频定位方法 Active CN113011357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110325432.XA CN113011357B (zh) 2021-03-26 2021-03-26 基于时空融合的深度伪造人脸视频定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110325432.XA CN113011357B (zh) 2021-03-26 2021-03-26 基于时空融合的深度伪造人脸视频定位方法

Publications (2)

Publication Number Publication Date
CN113011357A true CN113011357A (zh) 2021-06-22
CN113011357B CN113011357B (zh) 2023-04-25

Family

ID=76407658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110325432.XA Active CN113011357B (zh) 2021-03-26 2021-03-26 基于时空融合的深度伪造人脸视频定位方法

Country Status (1)

Country Link
CN (1) CN113011357B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570564A (zh) * 2021-07-21 2021-10-29 同济大学 一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法
CN113609952A (zh) * 2021-07-30 2021-11-05 中国人民解放军战略支援部队信息工程大学 基于密集卷积神经网络的深度伪造视频频域检测方法
CN113723295A (zh) * 2021-08-31 2021-11-30 浙江大学 一种基于图像域频域双流网络的人脸伪造检测方法
CN113989713A (zh) * 2021-10-28 2022-01-28 杭州中科睿鉴科技有限公司 基于视频帧序预测的深度伪造检测方法
CN114494002A (zh) * 2022-03-30 2022-05-13 广州公评科技有限公司 一种基于ai换脸视频的原脸图像智能还原方法和系统
CN115311525A (zh) * 2022-10-08 2022-11-08 阿里巴巴(中国)有限公司 深度伪造检测方法及对应装置
CN116071809A (zh) * 2023-03-22 2023-05-05 鹏城实验室 一种基于多类表征时空交互的人脸时空表征生成方法
CN116453199A (zh) * 2023-05-19 2023-07-18 山东省人工智能研究院 基于复杂纹理区域伪造痕迹的gan生成人脸检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985192A (zh) * 2018-06-29 2018-12-11 东南大学 一种基于多任务深度卷积神经网络的视频烟雾识别方法
US20200160559A1 (en) * 2018-11-16 2020-05-21 Uatc, Llc Multi-Task Multi-Sensor Fusion for Three-Dimensional Object Detection
CN111950497A (zh) * 2020-08-20 2020-11-17 重庆邮电大学 一种基于多任务学习模型的ai换脸视频检测方法
WO2020244174A1 (zh) * 2019-06-05 2020-12-10 深圳云天励飞技术有限公司 人脸识别方法、装置、设备及计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985192A (zh) * 2018-06-29 2018-12-11 东南大学 一种基于多任务深度卷积神经网络的视频烟雾识别方法
US20200160559A1 (en) * 2018-11-16 2020-05-21 Uatc, Llc Multi-Task Multi-Sensor Fusion for Three-Dimensional Object Detection
WO2020244174A1 (zh) * 2019-06-05 2020-12-10 深圳云天励飞技术有限公司 人脸识别方法、装置、设备及计算机可读存储介质
CN111950497A (zh) * 2020-08-20 2020-11-17 重庆邮电大学 一种基于多任务学习模型的ai换脸视频检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUY H. NGUYEN等: ""Multi-task Learning For Detecting and Segmenting Manipulated Facial Images and Videos"", 《ARXIV:1906.06876V1》 *
王昊然: ""基于多层卷积特征高阶融合的多任务目标检测系统研究"", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570564B (zh) * 2021-07-21 2024-02-27 同济大学 一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法
CN113570564A (zh) * 2021-07-21 2021-10-29 同济大学 一种基于多路卷积网络的多清晰度伪造人脸视频的检测方法
CN113609952B (zh) * 2021-07-30 2023-08-15 中国人民解放军战略支援部队信息工程大学 基于密集卷积神经网络的深度伪造视频频域检测方法
CN113609952A (zh) * 2021-07-30 2021-11-05 中国人民解放军战略支援部队信息工程大学 基于密集卷积神经网络的深度伪造视频频域检测方法
CN113723295A (zh) * 2021-08-31 2021-11-30 浙江大学 一种基于图像域频域双流网络的人脸伪造检测方法
CN113723295B (zh) * 2021-08-31 2023-11-07 浙江大学 一种基于图像域频域双流网络的人脸伪造检测方法
CN113989713A (zh) * 2021-10-28 2022-01-28 杭州中科睿鉴科技有限公司 基于视频帧序预测的深度伪造检测方法
CN113989713B (zh) * 2021-10-28 2023-05-12 杭州中科睿鉴科技有限公司 基于视频帧序预测的深度伪造检测方法
CN114494002A (zh) * 2022-03-30 2022-05-13 广州公评科技有限公司 一种基于ai换脸视频的原脸图像智能还原方法和系统
CN115311525B (zh) * 2022-10-08 2023-03-14 阿里巴巴(中国)有限公司 深度伪造检测方法及对应装置
CN115311525A (zh) * 2022-10-08 2022-11-08 阿里巴巴(中国)有限公司 深度伪造检测方法及对应装置
CN116071809A (zh) * 2023-03-22 2023-05-05 鹏城实验室 一种基于多类表征时空交互的人脸时空表征生成方法
CN116453199A (zh) * 2023-05-19 2023-07-18 山东省人工智能研究院 基于复杂纹理区域伪造痕迹的gan生成人脸检测方法
CN116453199B (zh) * 2023-05-19 2024-01-26 山东省人工智能研究院 基于复杂纹理区域伪造痕迹的gan生成人脸检测方法

Also Published As

Publication number Publication date
CN113011357B (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
CN113011357B (zh) 基于时空融合的深度伪造人脸视频定位方法
CN110443143B (zh) 多分支卷积神经网络融合的遥感图像场景分类方法
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN110717431B (zh) 一种结合多视角注意力机制的细粒度视觉问答方法
CN110852316B (zh) 一种采用密集结构卷积网络的图像篡改检测和定位方法
CN109410184B (zh) 基于稠密对抗网络半监督学习的直播色情图像检测方法
CN113642390B (zh) 一种基于局部注意力网络的街景图像语义分割方法
CN109255289B (zh) 一种基于统一式生成模型的跨衰老人脸识别方法
CN108647595B (zh) 基于多属性深度特征的车辆重识别方法
CN112528777A (zh) 一种用于课堂环境下的学生面部表情识别方法及系统
CN109472733A (zh) 基于卷积神经网络的图像隐写分析方法
CN112434599A (zh) 一种基于噪声通道的随机遮挡恢复的行人重识别方法
Li et al. Image manipulation localization using attentional cross-domain CNN features
Tereikovskyi et al. The method of semantic image segmentation using neural networks
CN112990282B (zh) 一种细粒度小样本图像的分类方法及装置
CN110751005B (zh) 融合深度感知特征和核极限学习机的行人检测方法
CN111242114B (zh) 文字识别方法及装置
CN112818774A (zh) 一种活体检测方法及装置
Chawla et al. Classification of computer generated images from photographic images using convolutional neural networks
CN116935411A (zh) 一种基于字符分解和重构的部首级古文字识别方法
CN110728238A (zh) 一种融合型神经网络的人员再检测方法
Saealal et al. Three-Dimensional Convolutional Approaches for the Verification of Deepfake Videos: The Effect of Image Depth Size on Authentication Performance
CN112528058B (zh) 基于图像属性主动学习的细粒度图像分类方法
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant