CN113837147A - 一种基于transformer的假视频检测方法 - Google Patents

一种基于transformer的假视频检测方法 Download PDF

Info

Publication number
CN113837147A
CN113837147A CN202111267422.1A CN202111267422A CN113837147A CN 113837147 A CN113837147 A CN 113837147A CN 202111267422 A CN202111267422 A CN 202111267422A CN 113837147 A CN113837147 A CN 113837147A
Authority
CN
China
Prior art keywords
video
block
layer
global
mlp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111267422.1A
Other languages
English (en)
Other versions
CN113837147B (zh
Inventor
王英龙
张亚宁
舒明雷
陈达
刘丽
孔祥龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Shandong Institute of Artificial Intelligence
Original Assignee
Qilu University of Technology
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology, Shandong Institute of Artificial Intelligence filed Critical Qilu University of Technology
Priority to CN202111267422.1A priority Critical patent/CN113837147B/zh
Publication of CN113837147A publication Critical patent/CN113837147A/zh
Application granted granted Critical
Publication of CN113837147B publication Critical patent/CN113837147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Processing (AREA)

Abstract

一种基于transformer的假视频检测方法,通过对一个视频连续帧的脸图像利用空间视觉transformer模型提取全局空间特征,避免了传统检测方法仅提取局部特征而导致泛化性能差,由于假视频通常在时间序列上具有不一致性,所以进一步通过时间视觉transformer模型捕获全局时间特征,从而使空间特征与时间特征结合来提高检测的准确性,适用于各种改进生成算法生成的deepfake检测,检测到的deepfake的准确度明显优于其他方法。

Description

一种基于transformer的假视频检测方法
技术领域
本发明涉及Deepfake检测方法技术领域,具体涉及一种基于transformer的假视频检测方法。
背景技术
Deepfake是利用基于深度学习的技术Autoencoder、GAN等深度学习算法将源视频中的人脸换成目标视频人脸。到目前为止,已经有大量deepfake视频在网上流传,这些视频通常用于损害名人名誉,引导舆论,极大威胁社会稳定。目前常用的Deepfake检测方法有迁移学习,注意力机制,以上检测方法是基于有明显造假视觉伪影的假视频设计的,并且只在具有相同操纵算法的内部数据集上检测性能较高,方法泛化性差。利用注意力机制的检测方法可以捕获局部特征间的关系,但没有明显考虑图像不同像素之间的全局关系,因此难以应用普及。
现存的Deepfake视频通过改进的生成算法合成的假视频质量越来越逼真,并通过添加噪声,形变等使其更接近真实世界的Deepfake视频分布。传统的Deepfake检测算法不适用于检测改进的生成技术合成的假视频,泛化性较差。因此,Deepfake检测面临新挑战并需进一步改善。
发明内容
本发明为了克服以上技术的不足,提供了一种首先对一个视频帧的脸图像全局空间信息学习提取空间特征,然后对每帧脸图像空间特征的全局时间信息学习提取时间特征,从而将时间和空间特征结合进行检测Deepfake视频的方法。
本发明克服其技术问题所采用的技术方案是:
一种基于transformer的假视频检测方法,包括如下步骤:
a)利用读视频算法对K个视频中的每个视频提取连续的视频帧,利用脸识别算法提取每个视频的连续的视频帧中的人脸图像;
b)对人脸图像进行预处理,利用特征提取模块得到人脸的局部特征;
c)将特征提取模块提取的人脸的局部特征输入空间视觉transformer模型中,得到该视频帧的人脸图像的全局空间特征;
d)将步骤c)得到的人脸图像的全局空间特征输入时间视觉transformer模型中,得到该视频帧的人脸的全局时间空间特征;
e)将步骤d)得到的人脸的全局时间空间特征输入分类器经过softmax进行二分类真假检测。
进一步的,步骤a)中利用python中的读视频算法VideoReader类对视频提取,得到连续的t个视频帧,对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像,将得到的脸放入该视频文件夹下,在该视频文件夹下得到连续帧的t张人脸图像。
进一步的,步骤a)中得到的连续帧的t张人脸图像的宽高分别调整为224、224,利用均值为[0.4718,0.3467,0.3154],方差为[0.1656,0.1432,0.1364]对人脸图像进行归一化,将归一化后的连续帧的t张人脸图像封装为[b,t,c,h,w]的张量xi∈Rb×t×c×h×w,R为向量空间,其中视频标签为[b,0/1],xi为第i个视频批次,i∈{1,…,K/b},b为每批次视频的个数,c为每张人脸图像通道数,h为每张人脸图像的高,w为每张人脸图像的宽,0表示假视频,1表示真视频。
进一步的,步骤b)包括如下步骤:
b-1)建立由五个连续的块组成特征提取模块,第一个块、第二个块、第三个块均由三个连续的卷积层和一个最大池化层构成,第三个块和第四个块均由四个连续的卷积层和一个最大池化层构成,每个卷积层均设置有3×3的kernel,每个卷积层的stride和padding为1,每个最大池化层均有一个2×2像素的窗口,每个最大池化层的步长等于2,第一个块的第一个卷积层有32个通道,第五个块的第四个卷积层有512个通道;
b-2)将xi∈Rb×t×c×h×w维度变换为[b*t,c,h,w]后输入特征提取模块,输出维度为[b*t,512,7,7]的特征图xf=F(xi,θ),xf∈R(b*t)×c×h×w,θ为模型参数。进一步的,步骤c)的步骤为:
c-1)将特征图xf∈R(b*t)×c×h×w沿着通道利用torch库里的reshape函数拉平为二维图像块序列xp∈R(b*t)×N×(p*q·c),其中p为二维图像块的宽度,q为二维图像块的高度,N为patch的数量,N=hw/p*q;
c-2)通过公式
Figure BDA0003327256110000031
计算得到带有位置信息的二维图像块序列z0,式中
Figure BDA0003327256110000032
为第i个二维图像块,i∈{1,…,N},N为二维图像块序列中二维图像块的总数,xclass为类embedding,E为每一个图像块的位置embedding,E∈R(p*q·c)×D,D为不变的隐向量,Epos为位置embedding,Epos∈R(N+1)×D
c-3)设置由L个连续的transformer block组成的空间视觉transformer模型,每个transformer block由多头自注意力block和MLP block组成,多头自注意力block之前为LayerNorm层,多头自注意力block之后为残差层,MLP block之前为LayerNorm层,MLPblock之后为残差层;
c-4)将z0输入第l-1层的transformer block得到带有全局空间信息的二维图像块序列zl-1,l∈{1,…,L},将zl-1进行归一化后送入第l层的多头自注意力block进行全局多头注意力计算,得到计算结果MSA(LN(zl-1)),通过公式z′l=MSA(LN(zl-1))+zl-1计算得到二维全局空间特征z′l,将z′l进行层归一化后送入第l层的MLP block中得到二维空间特征图MLP(LN(z′l)),通过公式zl=MLP(LN(z′l))+z′l计算得到第l层的二维空间特征图zl,将zl输入到第L个transformer block中得到归一化后的视频的人脸图像的全局空间特征
Figure BDA0003327256110000035
z′L∈R(b*t)×1×D
进一步的,步骤d)包括如下步骤:
d-1)将视频的人脸图像的全局空间特征z′L∈R(b*t)×1×D利用torch库里的reshape函数将其维度变换为z′L∈Rb×t×D
d-2)通过公式
Figure BDA0003327256110000033
计算得到带有位置信息的视频帧序列s0,式中
Figure BDA0003327256110000034
为第j个视频,j∈{1,…,M},M为视频帧序列中帧总数,zclass为视频类embedding,U为每一个视频帧的位置embedding,U∈RD×F,F为视频帧隐向量的维度,Upos为位置embedding,Upos∈R(M+1)×F;d-3)设置由L个连续的transformer block组成的时间视觉transformer模型,每个transformer block由多头自注意力block和MLP block组成,多头自注意力block之前为LayerNorm层,多头自注意力block之后为残差层,MLP block之前为LayerNorm层,MLP block之后为残差层;
d-4)将带有位置信息的视频帧序列s0输入第l-1层的transformer block得到带有全局时间信息的视频帧序列sl-1,l∈{1,…,L},将sl-1进行归一化后送入第l层的多头自注意力block进行全局多头注意力计算,得到计算结果MSA(LN(sl-1)),通过公式s′l=MSA(LN(sl-1))+sl-1计算得到视频全局时间特征s′l,将s′l进行层归一化后送入第l层的MLPblock中得到视频全局时间特征MLP(LN(s′l)),通过公式sl=MLP(LN(s′l))+s′l计算得到第l层的视频全局时间特征sl,将sl输入到第L个transformer block中得到归一化后的视频全局空间时间特征表示
Figure BDA0003327256110000043
s′L∈Rb×1×F,利用torch库里的reshape函数将s′L维度变换为s′L∈Rb×F。进一步的,步骤e)中将视频的全局时间空间特征s′L∈Rb×F输入分类器模块的第一个输入维度为F输出维度为2*F的线性层后得到输出结果y,将y输入到分类器模块的第二个输入维度为2*F输出维度为m的线性层后得到模型预测视频类别表示y′=s′LWc,Wc∈RF×m,y′∈Rb×m,Wc为分类器参数,将模型预测视频类别表示y′=s′LWc经过softmax函数转换为概率值,对y′每行元素取最大值索引,索引对应模型预测类别0或1,当模型预测类别为0则该视频为假视频,当模型预测类别为1则该视频为真视频。
本发明的有益效果是:通过对一个视频连续帧的脸图像利用空间视觉transformer模型提取全局空间特征,避免了传统检测方法仅提取局部特征而导致泛化性能差,由于假视频通常在时间序列上具有不一致性,所以进一步通过时间视觉transformer模型捕获全局时间特征,从而使空间特征与时间特征结合来提高检测的准确性。适用于各种改进生成算法生成的deepfake检测,检测到的deepfake的准确度明显优于其他方法。
附图说明
图1为本发明的方法流程图;
图2为本发明的局部特征提取模块的流程图;
图3为本发明的全局空间特征提取模块流程图;
图4为本发明的全局时间特征提取模块流程图;
图5为本发明的分类器结构图。
具体实施方式
下面结合附图1至附图5对本发明做进一步说明。
一种基于transformer的假视频检测方法,包括如下步骤:
a)利用读视频算法对K个视频中的每个视频提取连续的视频帧,利用脸识别算法提取每个视频的连续的视频帧中的人脸图像。
b)对人脸图像进行预处理,利用特征提取模块得到人脸的局部特征。
c)将特征提取模块提取的人脸的局部特征输入空间视觉transformer模型中,得到该视频帧的人脸图像的全局空间特征。
d)将步骤c)得到的人脸图像的全局空间特征输入时间视觉transformer模型中,得到该视频帧的人脸的全局时间空间特征。
e)将步骤d)得到的人脸的全局时间空间特征输入分类器经过softmax进行二分类真假检测。
由于目前视频层面的检测模型大都首先结合一个视频帧的脸图像局部联系而没有结合全局联系提取特征,然后将特征送入时间特征提取模块,提取帧与帧之间的局部时间信息。因此本发明首先对一个视频帧的脸图像全局空间信息学习提取空间特征,然后对每帧脸图像空间特征的全局时间信息学习提取时间特征,从而将时间和空间特征结合进行检测假视频。基于transformer和FReTAL学习检测算法。对一个视频连续帧的脸图像利用空间视觉transformer模型提取全局空间特征,避免了传统检测方法仅提取局部特征而导致泛化性能差,由于假视频通常在时间序列上具有不一致性,所以进一步通过时间视觉transformer模型捕获全局时间特征,从而使空间特征与时间特征结合来提高检测的准确性。本发明方法适用于各种改进生成算法生成的deepfake检测,检测到的deepfake的准确度明显优于其他方法。
实施例1:
步骤a)中利用python中的读视频算法VideoReader类对视频提取,得到连续的t个视频帧,对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像,将得到的脸放入该视频文件夹下,在该视频文件夹下得到连续帧的t张人脸图像。
实施例2:
步骤a)中得到的连续帧的t张人脸图像的宽高分别调整为224、224,利用均值为[0.4718,0.3467,0.3154],方差为[0.1656,0.1432,0.1364]对人脸图像进行归一化,将归一化后的连续帧的t张人脸图像封装为[b,t,c,h,w]的张量xi∈Rb×t×c×h×w,R为向量空间,其中视频标签为[b,0/1],xi为第i个视频批次,i∈{1,…,K/b},b为每批次视频的个数,c为每张人脸图像通道数,h为每张人脸图像的高,w为每张人脸图像的宽,0表示假视频,1表示真视频。
实施例3:
步骤b)包括如下步骤:
b-1)建立由五个连续的块组成特征提取模块,第一个块、第二个块、第三个块均由三个连续的卷积层和一个最大池化层构成,第三个块和第四个块均由四个连续的卷积层和一个最大池化层构成,每个卷积层均设置有3×3的kernel,每个卷积层的stride和padding为1,每个最大池化层均有一个2×2像素的窗口,每个最大池化层的步长等于2,第一个块的第一个卷积层有32个通道,第五个块的第四个卷积层有512个通道。
b-2)将xi∈Rb×t×c×h×w维度变换为[b*t,c,h,w]后输入特征提取模块,输出维度为[b*t,512,7,7]的特征图xf=F(xi,θ),xf∈R(b*t)×c×h×w,θ为模型参数。
实施例4:
步骤c)的步骤为:
c-1)将特征图xf∈R(b*t)×c×h×w沿着通道利用torch库里的reshape函数拉平为二维图像块序列xp∈R(b*t)×N×(p*q·c),其中p为二维图像块的宽度,q为二维图像块的高度,N为patch的数量,N=hw/p*q。
c-2)通过公式
Figure BDA0003327256110000071
计算得到带有位置信息的二维图像块序列z0,式中
Figure BDA0003327256110000072
为第i个二维图像块,i∈{1,…,N},N为二维图像块序列中二维图像块的总数,xclass为类embedding,E为每一个图像块的位置embedding,E∈R(p*q·c)×D,D为不变的隐向量,Epos为位置embedding,Epos∈R(N+1)×D。具体来说,首先特征提取模块输出的特征图reshape,然后设置每图像块分辨率(7,7),D为1024,将其沿着通道维度拉平二维tokens,维度为[b,t,1,512*7*7],根据公式
Figure BDA0003327256110000073
计算Embed to tokens得到特征图维度为[b,t,2,D],利用torch库里的reshape函数将其维度变换为[b*t,2,D]的特征图,接着将其传入空间视觉transformer模型便于为每张图像提取空间特征。
c-3)设置由L个连续的transformer block组成的空间视觉transformer模型,每个transformer block由多头自注意力(MSA)block和MLP block组成,多头自注意力block之前为LayerNorm层,多头自注意力block之后为残差层,MLP block之前为LayerNorm层,MLP block之后为残差层。
c-4)将z0输入第l-1层的transformer block得到带有全局空间信息的二维图像块序列zl-1,l∈{1,…,L},将zl-1进行归一化后送入第l层的多头自注意力block进行全局多头注意力计算,得到计算结果MSA(LN(zl-1)),通过公式z′l=MSA(LN(zl-1))+zl-1计算得到二维全局空间特征z′l,将z′l进行层归一化后送入第l层的MLP block中得到二维空间特征图MLP(LN(z′l)),通过公式zl=MLP(LN(z′l))+z′l计算得到第l层的二维空间特征图zl,将zl输入到第L个transformer block中得到归一化后的视频的人脸图像的全局空间特征
Figure BDA0003327256110000081
z′L∈R(b*t)×1×D
实施例5:
步骤d)包括如下步骤:
d-1)将视频的人脸图像的全局空间特征z′L∈R(b*t)×1×D利用torch库里的reshape函数将其维度变换为z′L∈Rb×t×D
d-2)通过公式
Figure BDA0003327256110000082
计算得到带有位置信息的视频帧序列s0,式中
Figure BDA0003327256110000083
为第j个视频,j∈{1,…,M},M为视频帧序列中帧总数,zclass为视频类embedding,U为每一个视频帧的位置embedding,U∈RD×F,F为视频帧隐向量的维度,Upos为位置embedding,Upos∈R(M+1)×F
d-3)设置由L个连续的transformer block组成的时间视觉transformer模型,每个transformer block由多头自注意力block和MLP block组成,多头自注意力block之前为LayerNorm层,多头自注意力block之后为残差层,MLP block之前为LayerNorm层,MLPblock之后为残差层。
d-4)将带有位置信息的视频帧序列s0输入第l-1层的transformer block得到带有全局时间信息的视频帧序列sl-1,l∈{1,...,L},将sl-1进行归一化后送入第l层的多头自注意力block进行全局多头注意力计算,得到计算结果MSA(LN(sl-1)),通过公式s′l=MSA(LN(sl-1))+sl-1计算得到视频全局时间特征s′l,将s′l进行层归一化后送入第l层的MLPblock中得到视频全局时间特征MLP(LN(s′l)),通过公式sl=MLP(LN(s′l))+s′l计算得到第l层的视频全局时间特征sl,将sl输入到第L个transformer block中得到归一化后的视频全局空间时间特征表示
Figure BDA0003327256110000091
s′L∈Rb×1×F,利用torch库里的reshape函数将s′L维度变换为s′L∈Rb×F
实施例6:
步骤e)中将视频的全局时间空间特征s′L∈Rb×F输入分类器模块的第一个输入维度为F输出维度为2*F的线性层后得到输出结果y,将y输入到分类器模块的第二个输入维度为2*F输出维度为m的线性层后得到模型预测视频类别表示y′=s′LWc,Wc∈RF×m,y′∈Rb×m,Wc为分类器参数,将模型预测视频类别表示y′=s′LWc经过softmax函数转换为概率值,对y′每行元素取最大值索引,索引对应模型预测类别0或1,当模型预测类别为0则该视频为假视频,当模型预测类别为1则该视频为真视频。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于transformer的假视频检测方法,其特征在于,包括如下步骤:
a)利用读视频算法对K个视频中的每个视频提取连续的视频帧,利用脸识别算法提取每个视频的连续的视频帧中的人脸图像;
b)对人脸图像进行预处理,利用特征提取模块得到人脸的局部特征;
c)将特征提取模块提取的人脸的局部特征输入空间视觉transformer模型中,得到该视频帧的人脸图像的全局空间特征;
d)将步骤c)得到的人脸图像的全局空间特征输入时间视觉transformer模型中,得到该视频帧的人脸的全局时间空间特征;
e)将步骤d)得到的人脸的全局时间空间特征输入分类器经过softmax进行二分类真假检测。
2.根据权利要求1所述的基于transformer的假视频检测方法,其特征在于:步骤a)中利用python中的读视频算法VideoReader类对视频提取,得到连续的t个视频帧,对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像,将得到的脸放入该视频文件夹下,在该视频文件夹下得到连续帧的t张人脸图像。
3.根据权利要求2所述的基于transformer的假视频检测方法,其特征在于:步骤a)中得到的连续帧的t张人脸图像的宽高分别调整为224、224,利用均值为[0.4718,0.3467,0.3154],方差为[0.1656,0.1432,0.1364]对人脸图像进行归一化,将归一化后的连续帧的t张人脸图像封装为[b,t,c,h,w]的张量xi∈Rb×t×c×h×w,R为向量空间,其中视频标签为[b,0/1],xi为第i个视频批次,i∈{1,...,K/b},b为每批次视频的个数,c为每张人脸图像通道数,h为每张人脸图像的高,w为每张人脸图像的宽,0表示假视频,1表示真视频。
4.根据权利要求3所述的基于transformer的假视频检测方法,其特征在于,步骤b)包括如下步骤:
b-1)建立由五个连续的块组成特征提取模块,第一个块、第二个块、第三个块均由三个连续的卷积层和一个最大池化层构成,第三个块和第四个块均由四个连续的卷积层和一个最大池化层构成,每个卷积层均设置有3×3的kernel,每个卷积层的stride和padding为1,每个最大池化层均有一个2×2像素的窗口,每个最大池化层的步长等于2,第一个块的第一个卷积层有32个通道,第五个块的第四个卷积层有512个通道;
b-2)将xi∈Rb×t×c×h×w维度变换为[b*t,c,h,w]后输入特征提取模块,输出维度为[b*t,512,7,7]的特征图xf=F(xi,θ),xf∈R(b*t)×c×h×w,θ为模型参数。
5.根据权利要求4所述的基于transformer的假视频检测方法,其特征在于,步骤c)的步骤为:
c-1)将特征图xf∈R(b*t)×c×h×w沿着通道利用torch库里的reshape函数拉平为二维图像块序列xp∈R(b*t)×N×(p*q·c),其中p为二维图像块的宽度,q为二维图像块的高度,N为patch的数量,N=hw/p*q;
c-2)通过公式
Figure FDA0003327256100000021
计算得到带有位置信息的二维图像块序列z0,式中
Figure FDA0003327256100000022
为第i个二维图像块,i∈{1,...,N},N为二维图像块序列中二维图像块的总数,xclass为类embedding,E为每一个图像块的位置embedding,E∈R(p*q·c)×D,D为不变的隐向量,Epos为位置embedding,Epos∈R(N+1)×D
c-3)设置由L个连续的transformer block组成的空间视觉transformer模型,每个transformer block由多头自注意力block和MLP block组成,多头自注意力block之前为LayerNorm层,多头自注意力block之后为残差层,MLP block之前为LayerNorm层,MLPblock之后为残差层;
c-4)将z0输入第l-1层的transformer block得到带有全局空间信息的二维图像块序列zl-1,l∈{1,...,L},将zl-1进行归一化后送入第l层的多头自注意力block进行全局多头注意力计算,得到计算结果MSA(LN(zl-1)),通过公式z′l=MSA(LN(zl-1))+zl-1计算得到二维全局空间特征z′l,将z′l进行层归一化后送入第l层的MLP block中得到二维空间特征图MLP(LN(z′l)),通过公式zl=MLP(LN(z′l))+z′l计算得到第l层的二维空间特征图zl,将zl输入到第L个transformer block中得到归一化后的视频的人脸图像的全局空间特征
Figure FDA0003327256100000031
z′L∈R(b*t)×1×D
6.根据权利要求5所述的基于transformer的假视频检测方法,其特征在于,步骤d)包括如下步骤:
d-1)将视频的人脸图像的全局空间特征z′L∈R(b*t)×1×D利用torch库里的reshape函数将其维度变换为z′L∈Rb×t×D
d-2)通过公式
Figure FDA0003327256100000032
计算得到带有位置信息的视频帧序列s0,式中
Figure FDA0003327256100000033
为第j个视频,j∈{1,...,M},M为视频帧序列中帧总数,zclass为视频类embedding,U为每一个视频帧的位置embedding,U∈RD×F,F为视频帧隐向量的维度,Upos为位置embedding,Upos∈R(M+1)×F
d-3)设置由L个连续的transformer block组成的时间视觉transformer模型,每个transformer block由多头自注意力block和MLP block组成,多头自注意力block之前为LayerNorm层,多头自注意力block之后为残差层,MLP block之前为LayerNorm层,MLPblock之后为残差层;
d-4)将带有位置信息的视频帧序列s0输入第l-1层的transformer block得到带有全局时间信息的视频帧序列sl-1,l∈{1,…,L},将sl-1进行归一化后送入第l层的多头自注意力block进行全局多头注意力计算,得到计算结果MSA(LN(sl-1)),通过公式s′l=MSA(LN(sl-1))+sl-1计算得到视频全局时间特征s′l,将s′l进行层归一化后送入第l层的MLP block中得到视频全局时间特征MLP(LN(s′l)),通过公式sl=MLP(LN(s′l))+s′l计算得到第l层的视频全局时间特征sl,将sl输入到第L个transformer block中得到归一化后的视频全局空间时间特征表示
Figure FDA0003327256100000034
s′L∈Rb×1×F,利用torch库里的reshape函数将s′L维度变换为
Figure FDA0003327256100000035
7.根据权利要求6所述的基于transformer的假视频检测方法,其特征在于,步骤e)中将视频的全局时间空间特征s′L∈Rb×F输入分类器模块的第一个输入维度为F输出维度为2*F的线性层后得到输出结果y,将y输入到分类器模块的第二个输入维度为2*F输出维度为m的线性层后得到模型预测视频类别表示y′=s′LWc,Wc∈RF×m,y′∈Rb×m,Wc为分类器参数,将模型预测视频类别表示y′=s′LWc经过softmax函数转换为概率值,对y′每行元素取最大值索引,索引对应模型预测类别0或1,当模型预测类别为0则该视频为假视频,当模型预测类别为1则该视频为真视频。
CN202111267422.1A 2021-10-29 2021-10-29 一种基于transformer的假视频检测方法 Active CN113837147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111267422.1A CN113837147B (zh) 2021-10-29 2021-10-29 一种基于transformer的假视频检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111267422.1A CN113837147B (zh) 2021-10-29 2021-10-29 一种基于transformer的假视频检测方法

Publications (2)

Publication Number Publication Date
CN113837147A true CN113837147A (zh) 2021-12-24
CN113837147B CN113837147B (zh) 2022-08-05

Family

ID=78966505

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111267422.1A Active CN113837147B (zh) 2021-10-29 2021-10-29 一种基于transformer的假视频检测方法

Country Status (1)

Country Link
CN (1) CN113837147B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360073A (zh) * 2022-01-04 2022-04-15 腾讯科技(深圳)有限公司 一种图像识别方法及相关装置
CN114528769A (zh) * 2022-02-25 2022-05-24 中国空气动力研究与发展中心空天技术研究所 超燃冲压发动机燃烧模态智能监测方法及系统
CN114842034A (zh) * 2022-04-19 2022-08-02 山东省人工智能研究院 一种基于放大模糊操作痕迹的图片真假检测方法
CN115100014A (zh) * 2022-06-24 2022-09-23 山东省人工智能研究院 基于多层次化感知的社交网络图像复制移动伪造检测方法
CN115205986A (zh) * 2022-08-09 2022-10-18 山东省人工智能研究院 一种基于知识蒸馏与transformer的假视频检测方法
CN116524408A (zh) * 2023-05-09 2023-08-01 山东省人工智能研究院 基于面部特征增强以及光流评估的虚假视频检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089556B1 (en) * 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
CN113343937A (zh) * 2021-07-15 2021-09-03 北华航天工业学院 一种基于深度卷积和注意力机制的唇语识别方法
CN113408508A (zh) * 2021-08-20 2021-09-17 中国科学院自动化研究所 基于Transformer的非接触式心率测量方法
CN113537110A (zh) * 2021-07-26 2021-10-22 北京计算机技术及应用研究所 一种融合帧内帧间差异的虚假视频检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10089556B1 (en) * 2017-06-12 2018-10-02 Konica Minolta Laboratory U.S.A., Inc. Self-attention deep neural network for action recognition in surveillance videos
CN113343937A (zh) * 2021-07-15 2021-09-03 北华航天工业学院 一种基于深度卷积和注意力机制的唇语识别方法
CN113537110A (zh) * 2021-07-26 2021-10-22 北京计算机技术及应用研究所 一种融合帧内帧间差异的虚假视频检测方法
CN113408508A (zh) * 2021-08-20 2021-09-17 中国科学院自动化研究所 基于Transformer的非接触式心率测量方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114360073A (zh) * 2022-01-04 2022-04-15 腾讯科技(深圳)有限公司 一种图像识别方法及相关装置
CN114528769A (zh) * 2022-02-25 2022-05-24 中国空气动力研究与发展中心空天技术研究所 超燃冲压发动机燃烧模态智能监测方法及系统
CN114842034A (zh) * 2022-04-19 2022-08-02 山东省人工智能研究院 一种基于放大模糊操作痕迹的图片真假检测方法
CN114842034B (zh) * 2022-04-19 2022-12-02 山东省人工智能研究院 一种基于放大模糊操作痕迹的图片真假检测方法
CN115100014A (zh) * 2022-06-24 2022-09-23 山东省人工智能研究院 基于多层次化感知的社交网络图像复制移动伪造检测方法
CN115205986A (zh) * 2022-08-09 2022-10-18 山东省人工智能研究院 一种基于知识蒸馏与transformer的假视频检测方法
CN115205986B (zh) * 2022-08-09 2023-05-19 山东省人工智能研究院 一种基于知识蒸馏与transformer的假视频检测方法
CN116524408A (zh) * 2023-05-09 2023-08-01 山东省人工智能研究院 基于面部特征增强以及光流评估的虚假视频检测方法
CN116524408B (zh) * 2023-05-09 2024-02-02 山东省人工智能研究院 基于面部特征增强以及光流评估的虚假视频检测方法

Also Published As

Publication number Publication date
CN113837147B (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
CN113837147B (zh) 一种基于transformer的假视频检测方法
WO2019169816A1 (zh) 一种用于精细化识别车辆属性的深度神经网络及训练方法
Luo et al. Thermal infrared image colorization for nighttime driving scenes with top-down guided attention
CN112766160A (zh) 基于多级属性编码器和注意力机制的人脸替换方法
CN109145745B (zh) 一种遮挡情况下的人脸识别方法
CN113903073A (zh) 一种基于局部增强transformer的假视频检测方法
CN113283444B (zh) 一种基于生成对抗网络的异源图像迁移方法
CN113158943A (zh) 一种跨域红外目标检测方法
CN113112416B (zh) 一种语义引导的人脸图像修复方法
CN115423734B (zh) 一种基于多尺度注意机制的红外与可见光图像融合方法
CN112785480B (zh) 基于频域变换和残差反馈模块的图像拼接篡改检测方法
CN113762009B (zh) 一种基于多尺度特征融合及双注意力机制的人群计数方法
CN111126240A (zh) 一种三通道特征融合人脸识别方法
Tsalakanidou et al. Integration of 2D and 3D images for enhanced face authentication
Li et al. RGB-induced feature modulation network for hyperspectral image super-resolution
CN113947814A (zh) 一种基于时空信息增强和多尺度显著性特征提取的跨视角步态识别方法
Krishnan et al. SwiftSRGAN-Rethinking super-resolution for efficient and real-time inference
Dastmalchi et al. Super-resolution of very low-resolution face images with a wavelet integrated, identity preserving, adversarial network
Liu et al. Component semantic prior guided generative adversarial network for face super-resolution
CN114882537A (zh) 一种基于神经辐射场的手指新视角图像生成方法
Xing et al. Multi-level adaptive perception guidance based infrared and visible image fusion
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
Wang et al. AMFNet: An attention-guided generative adversarial network for multi-model image fusion
CN112488165A (zh) 一种基于深度学习模型的红外行人识别方法及系统
CN116664952A (zh) 一种融合卷积与ViT的图像方向识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant