CN113903073A - 一种基于局部增强transformer的假视频检测方法 - Google Patents

一种基于局部增强transformer的假视频检测方法 Download PDF

Info

Publication number
CN113903073A
CN113903073A CN202111400788.1A CN202111400788A CN113903073A CN 113903073 A CN113903073 A CN 113903073A CN 202111400788 A CN202111400788 A CN 202111400788A CN 113903073 A CN113903073 A CN 113903073A
Authority
CN
China
Prior art keywords
image
feature map
block
global
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111400788.1A
Other languages
English (en)
Other versions
CN113903073B (zh
Inventor
王英龙
张亚宁
舒明雷
陈达
刘丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Shandong Institute of Artificial Intelligence
Original Assignee
Qilu University of Technology
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology, Shandong Institute of Artificial Intelligence filed Critical Qilu University of Technology
Priority to CN202111400788.1A priority Critical patent/CN113903073B/zh
Publication of CN113903073A publication Critical patent/CN113903073A/zh
Application granted granted Critical
Publication of CN113903073B publication Critical patent/CN113903073B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种基于局部增强transformer的假视频检测方法,通过对一个视频随机帧的脸图像利用局部增强的打乱全卷积transformer将图像块内全局特征与图像块间全局特征结合更细粒度地提高检测的准确性。为进一步提高模型泛化性,利用FF++与DFDC数据集训练模型。本发明方法适用于改进生成算法生成的deepfake检测,检测到的deepfake的准确度明显优于其他方法。

Description

一种基于局部增强transformer的假视频检测方法
技术领域
本发明涉及Deepfake检测方法技术领域,具体涉及一种基于局部增强transformer的假视频检测方法。
背景技术
Deepfake是利用基于深度学习的技术Autoencoder、GAN等深度学习算法将源视频中的人脸换成目标视频人脸。到目前为止,已经有大量deepfake视频在网上流传,对个人、组织、正负带来负面影响。目前常用的Deepfake检测方法没有明确考虑图像通道间的全局联系及图像块内的全局联系和图像块间的全局联系,同时模型参数量较大,计算复杂度较高,计算效率不高,泛化性不强。
发明内容
本发明为了克服以上技术的不足,提供了一种首先对一个视频帧的脸图像块块内提取全局特征,然后对每帧脸图像块间捕获图像块间的全局特征,继而图像块内与块间交替更细粒度的捕获全局特征,将捕获到的全局特征利用全局多头通道注意力进行后处理进行检测Deepfake视频的方法。
本发明克服其技术问题所采用的技术方案是:
一种基于局部增强transformer的假视频检测方法,包括如下步骤:
a)利用读视频算法对K个视频中的每个视频提取随机的视频帧,利用脸识别算法提取每个视频的随机的视频帧中的人脸图像;
b)将人脸图像输入特征提取模块得到低级纹理特征图;
c)建立全局精细特征提取模块,所述全局精细特征提取模块依次由局部增强transformer、池化层、局部增强transformer、池化层、局部增强transformer、池化层、局部增强transformer构成,每个局部增强transformer由L个transformer block组成,所述transformer block依次由图像块内特征提取模块及图像块间特征提取模块组成,所述图像块内特征提取模块依次由BatchNorm层、WMSA block、残差层、NWC层、残差层、BatchNorm层、卷积MLP block以及残差层组成,所述图像块间特征提取模块依次由BatchNorm层、shuffle-WMSA block、残差层、NWC层、残差层、BatchNorm层、卷积MLP block以及残差层组成;
d)将低级纹理特征图输入第一个局部增强transformer中得到图像块内与图像块间的精细全局特征;
e)将图像块内与图像块间的精细全局特征输入卷积层中得到浅层特征图;
f)将浅层特征图输入第二个局部增强transformer中,得到图像块内与图像块间的浅层特征图;
g)将步骤f)得到的图像块内与图像块间的浅层特征图输入卷积层中得到中级语义特征图,将中级语义特征图,输入第三个局部增强transformer中,得到图像块内与图像块间的中级语义精细全局特征图;
h)将步骤g)得到的图像块内与图像块间的中级语义精细全局特征图输入输入卷积层中得到特征图,将特征图输入第四个局部增强transformer中,得到图像块内与图像块间的高级语义精细全局特征图;
i)将图像块内与图像块间的高级语义精细全局特征图输入全局通道注意力模块进行特征后处理,得到精炼的人脸全局特征,将精炼的人脸全局特征输入分类器经过softmax进行二分类真假检测。
进一步的,步骤a)中利用python中的读视频算法VideoReader类对视频提取,得到随机的t个视频帧,对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像,将得到的脸放入对应真假类别文件夹下。
进一步的,步骤a)中得到的连续帧的t张人脸图像的宽高分别调整为224、224,利用albumentations算法对人脸图像进行数据增强,利用均值为[0.4718,0.3467,0.3154],方差为[0.1656,0.1432,0.1364]对人脸图像进行归一化,将归一化后的连续帧的t张人脸图像封装为[b,c,h,w]的张量xi∈Rb×c×h×w,R为向量空间,其中人脸图像标签为[b,0/1],xi为第i个人脸图像批次,i∈{1,...,K×t/b},b为每批次人脸图像的个数,c为每张人脸图像通道数,h为每张人脸图像的高,w为每张人脸图像的宽,0表示假人脸图像,1表示真人脸图像。
进一步的,步骤b)包括如下步骤:
b-1)建立由2个连续的块组成特征提取模块,第一个块、第二个块均由三个连续的深度可分离的卷积层和一个最大池化层构成,每个深度可分离的卷积层由深度卷积层后连接批归一化层和逐点卷积层组成,深度卷积层均设置有3×3的kernel,每个深度卷积层的stride和padding为1,每个最大池化层均有一个2×2像素的窗口,每个最大池化层的步长等于2,第一个块的第一个深度可分离的卷积层输出为32个通道,第二个块的第三个深度可分离的卷积层输出64个通道;
b-2)将xi∈Rb×c×h×w输入特征提取模块,输出维度为[b,64,56,56]的特征图xf=F(xi,θ),xf∈Rb×c×h×w,θ为模型参数。
进一步的,步骤d)包括如下步骤:
d-1)通过公式z0=xf+Epos计算得到带有位置的三维特征图z0,Epos为三维特征图的位置embedding,Epos∈Rb×c×h×w,z0∈Rb×c×h×w
d-2)将带有位置的三维特征图z0输入第一个局部增强transformer的第l-1层的图像块内特征提取模块和图像块间特征提取模块,得到图像块内与块间的浅层精细全局特征zl-1,l∈{1,...,L};
d-3)将图像块内与块间的浅层精细全局特征zl-1进行批归一化后送入第l层的图像块内特征提取模块的WMSA block中通过一个卷积核大小为1,步长为1,padding为0的卷积层卷积后得到QKV∈Rb×3c×h×w,利用torch库里的rearrange方法处理QKV∈Rb×3c×h×w后得到Q∈Rb×c×h×w、K∈Rb×c×h×w、V∈Rb×c×h×w,Q为图像块内特征图的查询向量,K为图像块内特征图的键向量,V为图像块内特征图的值向量,Q∈Rb×A×j×(ww×hh)×r,K∈Rb×A×j×(ww×hh)×r,V∈Rb ×A×j×(ww×hh)×r,ww为图像块宽,hh为图像块高,图像块的个数为A,A=(h/hh)*(w/ww),j为QKV的头数,每个头的维度为r,r=c/j,通过公式
Figure BDA0003368936080000041
计算得到图像块内全局特征图zl,zl∈Rb×A×j×(ww×hh)×r,E为深度可分离的卷积层参数,J为可学习的注意力权重位置重要性矩阵,J∈Rb×A×j×(ww×hh)×(ww×hh),T为转置;
d-4)将图像块内全局特征图zl∈Rb×A×j×(ww×hh)×r利用torch库里的rearrange方法拼接回原始图像大小zl∈Rb×c×h×w,通过公式z′l=zl+zl-1计算得到图像块内全局特征图z′l,将图像块内全局特征图z′l进行批归一化后输入第l层的卷积核大小为ww,步长为1,填充为ww//2的NWC层中得到邻近图像块特征增强的特征图NWC(LN(z′l)),通过公式z″l=NWC(LN(z′l))+z′l计算得到邻近图像块特征增强的全局特征图z″l,将邻近图像块特征增强的全局特征图z″l进行批归一化后输入第l层的由两个连续的卷积核大小为1,步长为1,填充为0的卷积层构成的卷积MLP block中得到三维空间特征图MLP(LN(z″l)),通过公式sl=MLP(LN(z″l))+z″l计算得到三维局部增强的图像块内全局特征图sl;d-5)将三维局部增强的图像块内全局特征图sl进行批归一化后输入第l层的图像块间特征提取模块的shuffle-WMSAblock中通过一个卷积核大小为1,步长为1,填充为0的卷积层卷积后得到QsKsVs∈Rb×3c×h×w,利用torch库里的rearrange方法处理QsKsVs∈Rb×3c×h×w后得到Qs∈Rb×c×h×w、Ks∈Rb×c×h×w、Vs∈Rb×c×h×w,Qs为图像块间特征图的查询向量,Ks为图像块间特征图的键向量,Vs为图像块间特征图的值向量,Qs∈Rb×A×j×(ww×hh)×r,Ks∈Rb×A×j×(ww×hh)×r,Vs∈Rb×A×j×(ww×hh)×r,通过公式
Figure BDA0003368936080000042
计算得到图像间全局特征图ss,ss∈Rb ×A×j×r×h×w
d-6)将图像间全局特征图ss∈Rb×A×j×r×h×w利用torch库里的rearrange方法拼接回原始图像大小ss∈Rb×c×h×w,通过公式S′l=ss+sl计算得到图像块间全局特征图S′l,将图像块间全局特征图S′l进行批归一化后输入第l层的卷积核大小为ww,步长为1,填充为ww//2的NWC层中得到邻近图像块特征增强的特征图NWC(LN(s′l)),通过公式S″l=NWC(LN(S′l))+S′l计算得到邻近图像块特征增强的全局特征图S″l,将邻近图像块特征增强的全局特征图S″l进行批归一化后输入第l层的由两个连续的卷积核大小为1,步长为1,填充为0的卷积层构成的卷积MLP block中得到三维空间特征图MLP(LN(s″l)),通过公式S″′l=MLP(LN(S″l))+S″l计算得到三维局部增强的图像块间全局特征图S″′l
进一步的,步骤e)中将步骤c)得到的三维局部增强的图像块间全局空间特征图S″′l∈Rb×c×h×w输入卷积核大小为2,步长为2,填充为0的卷积层得到浅层特征图
Figure BDA0003368936080000051
进一步的,步骤f)中将浅层特征图
Figure BDA0003368936080000052
替代步骤d-1)中的三维特征图z0,重复执行步骤d-1)至d-6)后将得到的三维局部增强的图像块间全局空间特征图S″′l∈Rb×c×h×w作为第二个局部增强transformer输出的图像块内与图像块间的浅层特征图
Figure BDA0003368936080000053
进一步的,步骤g)包括如下步骤:
g-1)将图像块内与图像块间的浅层特征图
Figure BDA0003368936080000054
输入卷积核大小为2,步长为2,填充为0的卷积层,得到特征图
Figure BDA0003368936080000061
g-2)将特征图
Figure BDA0003368936080000062
替代步骤d-1)中的三维特征图z0,重复执行步骤d-1)至d-6)后将得到的三维局部增强的图像块间全局空间特征图S″′l∈Rb×c×h×w作为第二个局部增强transformer输出的图像块内与图像块间的中级语义精细全局特征图
Figure BDA0003368936080000063
进一步的,步骤h)包括如下步骤:
h-1)将图像块内与图像块间的浅层特征图
Figure BDA0003368936080000064
输入卷积核大小为2,步长为2,填充为0的卷积层,得到特征图
Figure BDA0003368936080000065
h-2)将特征图
Figure BDA0003368936080000066
替代步骤d-1)中的三维特征图z0,重复执行步骤d-1)至d-6)后将得到的三维局部增强的图像块间全局空间特征图S″′l∈Rb×c×h×w作为第三个局部增强transformer输出的图像块内与图像块间的高级语义精细全局特征图
Figure BDA0003368936080000067
进一步的,步骤j)包括如下步骤:
j-1)将图像块内与图像块间的高级语义精细全局特征图
Figure BDA0003368936080000068
输入特征后处理模块;
j-2)在全局通道注意力模块中先利用通过torch库里的rearrange函数将特征图
Figure BDA0003368936080000069
维度变换得到
Figure BDA00033689360800000610
QC为图像通道的查询向量,KC为图像通道的键向量;
j-3)通过公式sc=Sigmoid(QC*KCT)计算得到全局通道注意力特征图sc
Figure BDA0003368936080000071
Sigmoid(·)为Sigmoid函数,利用torch库里的mean函数对全局通道注意力特征图sc每行求均值得到每通道的全局注意力wa,wa∈Rb×1×8,a=1,...,8c,利用torch库里的reshape函数将每通道的全局注意力wa维度变换为wa∈Rb×8c×1×1
j-4)通过公式sc′=wa*s4″′ l计算得到全局通道注意力特征图sc′
Figure BDA0003368936080000072
利用torch库里的reshape函数将
Figure BDA0003368936080000073
维度变换为
Figure BDA0003368936080000074
将特征图
Figure BDA0003368936080000075
经过输出大小为(1,1)的全局平均池化层后输出sc′∈Rb×8c×1×1,利用torch库里的flatten函数将sc′∈Rb×8c×1×1拉平为sc′∈Rb×8c
j-5)将特征图sc′∈Rb×8c输入分类器模块的第一个输入维度为8c,输出维度为m的线性层后得到模型预测图像类别表示y′=sc′Wc,Wc∈R8c×m,y′∈Rb×m,Wc为分类器参数,将模型预测视频类别表示y′=sc′Wc经过softmax函数转换为概率值,对y′每行元素取最大值索引,索引对应模型预测类别0或1,当模型预测类别为0则该视频为假图片,当模型预测类别为1则该视频为真图片。
本发明的有益效果是:通过对一个视频随机帧的脸图像利用局部增强的打乱全卷积transformer将图像块内全局特征与图像块间全局特征结合更细粒度地提高检测的准确性。为进一步提高模型泛化性,利用FF++与DFDC数据集训练模型。本发明方法适用于改进生成算法生成的deepfake检测,检测到的deepfake的准确度明显优于其他方法。
附图说明
图1为本发明的方法流程图;
图2为本发明的局部增强transformer模块流程图;
图3为本发明的图像块内特征提取模块流程图;
图4为本发明的图像块间特征提取模块流程图;
图5为本发明的特征后处理模块结构图;
图6为本发明的分类器结构图。
具体实施方式
下面结合附图1至附图6对本发明做进一步说明。
一种基于局部增强transformer的假视频检测方法,包括如下步骤:
a)利用读视频算法对K个视频中的每个视频提取随机的视频帧,利用脸识别算法提取每个视频的随机的视频帧中的人脸图像;
b)将人脸图像输入特征提取模块得到低级纹理特征图;
c)建立全局精细特征提取模块,所述全局精细特征提取模块依次由局部增强transformer、池化层、局部增强transformer、池化层、局部增强transformer、池化层、局部增强transformer构成,每个局部增强transformer由L个transformer block组成,所述transformer block依次由图像块内特征提取模块及图像块间特征提取模块组成,所述图像块内特征提取模块依次由BatchNorm层、WMSA block、残差层、NWC层、残差层、BatchNorm层、卷积MLP block以及残差层组成,所述图像块间特征提取模块依次由BatchNorm层、shuffle-WMSA block、残差层、NWC层、残差层、BatchNorm层、卷积MLP block以及残差层组成;
d)将低级纹理特征图输入第一个局部增强transformer中得到图像块内与图像块间的精细全局特征;
e)将图像块内与图像块间的精细全局特征输入卷积层中得到浅层特征图;
f)将浅层特征图输入第二个局部增强transformer中,得到图像块内与图像块间的浅层特征图;
g)将步骤f)得到的图像块内与图像块间的浅层特征图输入卷积层中得到中级语义特征图,将中级语义特征图,输入第三个局部增强transformer中,得到图像块内与图像块间的中级语义精细全局特征图;
h)将步骤g)得到的图像块内与图像块间的中级语义精细全局特征图输入输入卷积层中得到特征图,将特征图输入第四个局部增强transformer中,得到图像块内与图像块间的高级语义精细全局特征图;
i)将图像块内与图像块间的高级语义精细全局特征图输入全局通道注意力模块进行特征后处理,得到精炼的人脸全局特征,将精炼的人脸全局特征输入分类器经过softmax进行二分类真假检测。
通过对一个视频随机帧的脸图像利用局部增强的打乱全卷积transformer将图像块内全局特征与图像块间全局特征结合更细粒度地提高检测的准确性。为进一步提高模型泛化性,利用FF++与DFDC数据集训练模型。本发明方法适用于改进生成算法生成的deepfake检测,检测到的deepfake的准确度明显优于其他方法。
实施例1:
步骤a)中利用python中的读视频算法VideoReader类对视频提取,得到随机的t个视频帧,对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像,将得到的脸放入对应真假类别文件夹下。
实施例2:
步骤a)中得到的连续帧的t张人脸图像的宽高分别调整为224、224,利用albumentations算法对人脸图像进行数据增强,利用均值为[0.4718,0.3467,0.3154],方差为[0.1656,0.1432,0.1364]对人脸图像进行归一化,将归一化后的连续帧的t张人脸图像封装为[b,c,h,w]的张量xi∈Rb×c×h×w,R为向量空间,其中人脸图像标签为[b,0/1],xi为第i个人脸图像批次,i∈{1,...,K×t/b},b为每批次人脸图像的个数,c为每张人脸图像通道数,h为每张人脸图像的高,w为每张人脸图像的宽,0表示假人脸图像,1表示真人脸图像。
实施例3:
步骤b)包括如下步骤:
b-1)建立由2个连续的块组成特征提取模块,第一个块、第二个块均由三个连续的深度可分离的卷积层和一个最大池化层构成,每个深度可分离的卷积层由深度卷积层后连接批归一化层和逐点卷积层组成,深度卷积层均设置有3×3的kernel,每个深度卷积层的stride和padding为1,每个最大池化层均有一个2×2像素的窗口,每个最大池化层的步长等于2,第一个块的第一个深度可分离的卷积层输出为32个通道,第二个块的第三个深度可分离的卷积层输出64个通道;
b-2)将xi∈Rb×c×h×w输入特征提取模块,输出维度为[b,64,56,56]的特征图xf=F(xi,θ),xf∈Rb×c×h×w,θ为模型参数。
实施例4:
步骤d)包括如下步骤:
d-1)通过公式z0=xf+Epos计算得到带有位置的三维特征图z0,Epos为三维特征图的位置embedding,Epos∈Rb×c×h×w,z0∈Rb×c×h×w
d-2)将带有位置的三维特征图z0输入第一个局部增强transformer的第l-1层的图像块内特征提取模块和图像块间特征提取模块,得到图像块内与块间的浅层精细全局特征zl-1,l∈{1,...,L};
d-3)将图像块内与块间的浅层精细全局特征zl-1进行批归一化后送入第l层的图像块内特征提取模块的WMSA block中通过一个卷积核大小为1,步长为1,padding为0的卷积层卷积后得到QKV∈Rb×3c×h×w,利用torch库里的rearrange方法处理QKV∈Rb×3c×h×w后得到Q∈Rb×c×h×w、K∈Rb×c×h×w、V∈Rb×c×h×w,Q为图像块内特征图的查询向量,K为图像块内特征图的键向量,V为图像块内特征图的值向量,Q∈Rb×A×j×(ww×hh)×r,K∈Rb×A×j×(ww×hh)×r,V∈Rb ×A×j×(ww×hh)×r,ww为图像块宽,hh为图像块高,图像块的个数为A,A=(h/hh)*(w/ww),j为QKV的头数,每个头的维度为r,r=c/j,通过公式
Figure BDA0003368936080000101
计算得到图像块内全局特征图zl,zl∈Rb×A×j×(ww×hh)×r,E为深度可分离的卷积层参数,J为可学习的注意力权重位置重要性矩阵,J∈Rb×A×j×(ww×hh)×(ww×hh),T为转置;
d-4)将图像块内全局特征图zl∈Rb×A×j×(ww×hh)×r利用torch库里的rearrange方法拼接回原始图像大小zl∈Rb×c×h×w,通过公式z′l=zl+zl-1计算得到图像块内全局特征图z′l,将图像块内全局特征图z′l进行批归一化后输入第l层的卷积核大小为ww,步长为1,填充为ww//2的NWC层中得到邻近图像块特征增强的特征图NWC(LN(z′l)),通过公式z″l=NWC(LN(z′l))+z′l计算得到邻近图像块特征增强的全局特征图z″l,将邻近图像块特征增强的全局特征图z″l进行批归一化后输入第l层的由两个连续的卷积核大小为1,步长为1,填充为0的卷积层构成的卷积MLP block中得到三维空间特征图MLP(LN(z″l)),通过公式sl=MLP(LN(z″l))+z″l计算得到三维局部增强的图像块内全局特征图sl;d-5)将三维局部增强的图像块内全局特征图sl进行批归一化后输入第l层的图像块间特征提取模块的shuffle-WMSAblock中通过一个卷积核大小为1,步长为1,填充为0的卷积层卷积后得到QsKsVs∈Rb×3c×h×w,利用torch库里的rearrange方法处理QsKsVs∈Rb×3c×h×w后得到Qs∈Rb×c×h×w、Ks∈Rb×c×h×w、Vs∈Rb×c×h×w,Qs为图像块间特征图的查询向量,Ks为图像块间特征图的键向量,Vs为图像块间特征图的值向量,Qs∈Rb×A×j×(ww×hh)×r,Ks∈Rb×A×j×(ww×hh)×r,Vs∈Rb×A×j×(ww×hh)×r,通过公式
Figure BDA0003368936080000111
计算得到图像间全局特征图ss,ss∈Rb ×A×j×r×h×w
d-6)将图像间全局特征图ss∈Rb×A×j×r×h×w利用torch库里的rearrange方法拼接回原始图像大小ss∈Rb×c×h×w,通过公式S′l=ss+sl计算得到图像块间全局特征图S′l,将图像块间全局特征图S′l进行批归一化后输入第l层的卷积核大小为ww,步长为1,填充为ww//2的NWC层中得到邻近图像块特征增强的特征图NWC(LN(s′l)),通过公式S″l=NWC(LN(S′l))+S′l计算得到邻近图像块特征增强的全局特征图S″l,将邻近图像块特征增强的全局特征图S″l进行批归一化后输入第l层的由两个连续的卷积核大小为1,步长为1,填充为0的卷积层构成的卷积MLP block中得到三维空间特征图MLP(LN(s″l)),通过公式S″′l=MLP(LN(S″l))+S″l计算得到三维局部增强的图像块间全局特征图S″′l
实施例5:
步骤e)中将步骤c)得到的三维局部增强的图像块间全局空间特征图S″′l∈Rb ×c×h×w输入卷积核大小为2,步长为2,填充为0的卷积层得到浅层特征图
Figure BDA0003368936080000121
实施例6:
步骤f)中将浅层特征图
Figure BDA0003368936080000122
替代步骤d-1)中的三维特征图z0,重复执行步骤d-1)至d-6)后将得到的三维局部增强的图像块间全局空间特征图S″′l∈Rb ×c×h×w作为第二个局部增强transformer输出的图像块内与图像块间的浅层特征图
Figure BDA0003368936080000123
实施例7:
步骤g)包括如下步骤:
g-1)将图像块内与图像块间的浅层特征图
Figure BDA0003368936080000124
输入卷积核大小为2,步长为2,填充为0的卷积层,得到特征图
Figure BDA0003368936080000125
g-2)将特征图
Figure BDA0003368936080000131
替代步骤d-1)中的三维特征图z0,重复执行步骤d-1)至d-6)后将得到的三维局部增强的图像块间全局空间特征图S″′l∈Rb×c×h×w作为第二个局部增强transformer输出的图像块内与图像块间的中级语义精细全局特征图
Figure BDA0003368936080000132
实施例8:
步骤h)包括如下步骤:
h-1)将图像块内与图像块间的浅层特征图
Figure BDA0003368936080000133
输入卷积核大小为2,步长为2,填充为0的卷积层,得到特征图
Figure BDA0003368936080000134
h-2)将特征图
Figure BDA0003368936080000135
替代步骤d-1)中的三维特征图z0,重复执行步骤d-1)至d-6)后将得到的三维局部增强的图像块间全局空间特征图S″′l∈Rb×c×h×w作为第三个局部增强transformer输出的图像块内与图像块间的高级语义精细全局特征图
Figure BDA0003368936080000136
实施例9:
步骤j)包括如下步骤:
j-1)将图像块内与图像块间的高级语义精细全局特征图
Figure BDA0003368936080000137
输入特征后处理模块;
j-2)在全局通道注意力模块中先利用通过torch库里的rearrange函数将特征图
Figure BDA0003368936080000138
维度变换得到
Figure BDA0003368936080000139
QC为图像通道的查询向量,KC为图像通道的键向量;
j-3)通过公式sc=Sigmoid(QC*KCT)计算得到全局通道注意力特征图sc
Figure BDA0003368936080000141
Sigmoid(·)为Sigmoid函数,利用torch库里的mean函数对全局通道注意力特征图sc每行求均值得到每通道的全局注意力wa,wa∈Rb×1×8,a=1,...,8c,利用torch库里的reshape函数将每通道的全局注意力wa维度变换为wa∈Rb×8c×1×1
j-4)通过公式sc′=wa*s4″′ l计算得到全局通道注意力特征图sc′
Figure BDA0003368936080000142
利用torch库里的reshape函数将
Figure BDA0003368936080000143
维度变换为
Figure BDA0003368936080000144
将特征图
Figure BDA0003368936080000145
经过输出大小为(1,1)的全局平均池化层后输出sc′∈Rb×8c×1×1,利用torch库里的flatten函数将sc′∈Rb×8c×1×1拉平为sc′∈Rb×8c
j-5)将特征图sc′∈Rb×8c输入分类器模块的第一个输入维度为8c,输出维度为m的线性层后得到模型预测图像类别表示y′=sc′Wc,Wc∈R8c×m,y′∈Rb×m,Wc为分类器参数,将模型预测视频类别表示y′=sc′Wc经过softmax函数转换为概率值,对y′每行元素取最大值索引,索引对应模型预测类别0或1,当模型预测类别为0则该视频为假图片,当模型预测类别为1则该视频为真图片。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于局部增强transformer的假视频检测方法,其特征在于,包括如下步骤:
a)利用读视频算法对K个视频中的每个视频提取随机的视频帧,利用脸识别算法提取每个视频的随机的视频帧中的人脸图像;
b)将人脸图像输入特征提取模块得到低级纹理特征图;
c)建立全局精细特征提取模块,所述全局精细特征提取模块依次由局部增强transformer、池化层、局部增强transformer、池化层、局部增强transformer、池化层、局部增强transformer构成,每个局部增强transformer由L个transformer block组成,所述transformer block依次由图像块内特征提取模块及图像块间特征提取模块组成,所述图像块内特征提取模块依次由BatchNorm层、WMSA block、残差层、NWC层、残差层、BatchNorm层、卷积MLP block以及残差层组成,所述图像块间特征提取模块依次由BatchNorm层、shuffle-WMSA block、残差层、NWC层、残差层、BatchNorm层、卷积MLP block以及残差层组成;
d)将低级纹理特征图输入第一个局部增强transformer中得到图像块内与图像块间的精细全局特征;
e)将图像块内与图像块间的精细全局特征输入卷积层中得到浅层特征图;
f)将浅层特征图输入第二个局部增强transformer中,得到图像块内与图像块间的浅层特征图;
g)将步骤f)得到的图像块内与图像块间的浅层特征图输入卷积层中得到中级语义特征图,将中级语义特征图,输入第三个局部增强transformer中,得到图像块内与图像块间的中级语义精细全局特征图;
h)将步骤g)得到的图像块内与图像块间的中级语义精细全局特征图输入输入卷积层中得到特征图,将特征图输入第四个局部增强transformer中,得到图像块内与图像块间的高级语义精细全局特征图;
i)将图像块内与图像块间的高级语义精细全局特征图输入全局通道注意力模块进行特征后处理,得到精炼的人脸全局特征,将精炼的人脸全局特征输入分类器经过softmax进行二分类真假检测。
2.根据权利要求1所述的基于局部增强transformer的假视频检测方法,其特征在于:步骤a)中利用python中的读视频算法VideoReader类对视频提取,得到随机的t个视频帧,对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像,将得到的脸放入对应真假类别文件夹下。
3.根据权利要求1所述的基于局部增强transformer的假视频检测方法,其特征在于:步骤a)中得到的连续帧的t张人脸图像的宽高分别调整为224、224,利用albumentations算法对人脸图像进行数据增强,利用均值为[0.4718,0.3467,0.3154],方差为[0.1656,0.1432,0.1364]对人脸图像进行归一化,将归一化后的连续帧的t张人脸图像封装为[b,c,h,w]的张量xi∈Rb×c×h×w,R为向量空间,其中人脸图像标签为[b,0/1],xi为第i个人脸图像批次,i∈{1,...,K×t/b},b为每批次人脸图像的个数,c为每张人脸图像通道数,h为每张人脸图像的高,w为每张人脸图像的宽,0表示假人脸图像,1表示真人脸图像。
4.根据权利要求1所述的基于局部增强transformer的假视频检测方法,其特征在于,步骤b)包括如下步骤:
b-1)建立由2个连续的块组成特征提取模块,第一个块、第二个块均由三个连续的深度可分离的卷积层和一个最大池化层构成,每个深度可分离的卷积层由深度卷积层后连接批归一化层和逐点卷积层组成,深度卷积层均设置有3×3的kernel,每个深度卷积层的stride和padding为1,每个最大池化层均有一个2×2像素的窗口,每个最大池化层的步长等于2,第一个块的第一个深度可分离的卷积层输出为32个通道,第二个块的第三个深度可分离的卷积层输出64个通道;
b-2)将xi∈Rb×c×h×w输入特征提取模块,输出维度为[b,64,56,56]的特征图xf=F(xi,θ),xf∈Rb×c×h×w,θ为模型参数。
5.根据权利要求4所述的基于局部增强transformer的假视频检测方法,其特征在于,步骤d)包括如下步骤:
d-1)通过公式z0=xf+Epos计算得到带有位置的三维特征图z0,Epos为三维特征图的位置embedding,Epos∈Rb×c×h×w,z0∈Rb×c×h×w
d-2)将带有位置的三维特征图z0输入第一个局部增强transformer的第l-1层的图像块内特征提取模块和图像块间特征提取模块,得到图像块内与块间的浅层精细全局特征zl-1,l∈{1,...,L};
d-3)将图像块内与块间的浅层精细全局特征zl-1进行批归一化后送入第l层的图像块内特征提取模块的WMSA block中通过一个卷积核大小为1,步长为1,padding为0的卷积层卷积后得到QKV∈Rb×3c×h×w,利用torch库里的rearrange方法处理QKV∈Rb×3c×h×w后得到Q∈Rb×c×h×w、K∈Rb×c×h×w、V∈Rb×c×h×w,Q为图像块内特征图的查询向量,K为图像块内特征图的键向量,V为图像块内特征图的值向量,Q∈Rb×A×j×(ww×hh)×r,K∈Rb×A×j×(ww×hh)×r,V∈Rb ×A×j×(ww×hh)×r,ww为图像块宽,hh为图像块高,图像块的个数为A,A=(h/hh)*(w/ww),j为QKV的头数,每个头的维度为r,r=c/j,通过公式
Figure FDA0003368936070000031
计算得到图像块内全局特征图zl,zl∈Rb×A×j×(ww×hh)×r,E为深度可分离的卷积层参数,J为可学习的注意力权重位置重要性矩阵,J∈Rb×A×j×(ww×hh)×(ww×hh),T为转置;
d-4)将图像块内全局特征图zl∈Rb×A×j×(ww×hh)×r利用torch库里的rearrange方法拼接回原始图像大小zl∈Rb×c×h×w,通过公式z′l=zl+zl-1计算得到图像块内全局特征图z′l,将图像块内全局特征图z′l进行批归一化后输入第l层的卷积核大小为ww,步长为1,填充为ww//2的NWC层中得到邻近图像块特征增强的特征图NWC(LN(zl′)),通过公式z″l=NWC(LN(z′l))+z′l计算得到邻近图像块特征增强的全局特征图z″l,将邻近图像块特征增强的全局特征图z″l进行批归一化后输入第l层的由两个连续的卷积核大小为1,步长为1,填充为0的卷积层构成的卷积MLP block中得到三维空间特征图MLP(LN(z″l)),通过公式sl=MLP(LN(z″l))+z″l计算得到三维局部增强的图像块内全局特征图sl;d-5)将三维局部增强的图像块内全局特征图sl进行批归一化后输入第l层的图像块间特征提取模块的shuffle-WMSA block中通过一个卷积核大小为1,步长为1,填充为0的卷积层卷积后得到QsKsVs∈Rb×3c×h×w,利用torch库里的rearrange方法处理QsKsVs∈Rb×3c×h×w后得到Qs∈Rb×c×h×w、Ks∈Rb×c×h×w、Vs∈Rb×c×h×w,Qs为图像块间特征图的查询向量,Ks为图像块间特征图的键向量,Vs为图像块间特征图的值向量,Qs∈Rb×A×j×(ww×hh)×r,Ks∈Rb×A×j×(ww×hh)×r,Vs∈Rb×A×j×(ww×hh)×r,通过公式
Figure FDA0003368936070000041
计算得到图像间全局特征图ss,ss∈Rb ×A×j×r×h×w
d-6)将图像间全局特征图ss∈Rb×A×j×r×h×w利用torch库里的rearrange方法拼接回原始图像大小ss∈Rb×c×h×w,通过公式s′l=ss+sl计算得到图像块间全局特征图s′l,将图像块间全局特征图s′l进行批归一化后输入第l层的卷积核大小为ww,步长为1,填充为ww//2的NWC层中得到邻近图像块特征增强的特征图NWC(LN(s′l)),通过公式s″l=NWC(LN(s′l))+s′l计算得到邻近图像块特征增强的全局特征图s″l,将邻近图像块特征增强的全局特征图s″l进行批归一化后输入第l层的由两个连续的卷积核大小为1,步长为1,填充为0的卷积层构成的卷积MLP block中得到三维空间特征图MLP(LN(s″l)),通过公式s″′l=MLP(LN(s″l))+s″l计算得到三维局部增强的图像块间全局特征图s″′l
6.根据权利要求5所述的基于局部增强transformer的假视频检测方法,其特征在于:步骤e)中将步骤c)得到的三维局部增强的图像块间全局空间特征图s″′l∈Rb×c×h×w输入卷积核大小为2,步长为2,填充为0的卷积层得到浅层特征图
Figure FDA0003368936070000051
7.根据权利要求6所述的基于局部增强transformer的假视频检测方法,其特征在于:步骤f)中将浅层特征图
Figure FDA0003368936070000052
替代步骤d-1)中的三维特征图z0,重复执行步骤d-1)至d-6)后将得到的三维局部增强的图像块间全局空间特征图s″′l∈Rb×c×h×w作为第二个局部增强transformer输出的图像块内与图像块间的浅层特征图
Figure FDA0003368936070000053
8.根据权利要求7所述的基于局部增强transformer的假视频检测方法,其特征在于,步骤g)包括如下步骤:
g-1)将图像块内与图像块间的浅层特征图
Figure FDA0003368936070000054
输入卷积核大小为2,步长为2,填充为0的卷积层,得到特征图
Figure FDA0003368936070000055
g-2)将特征图
Figure FDA0003368936070000056
替代步骤d-1)中的三维特征图z0,重复执行步骤d-1)至d-6)后将得到的三维局部增强的图像块间全局空间特征图s″′l∈Rb×c×h×w作为第二个局部增强transformer输出的图像块内与图像块间的中级语义精细全局特征图
Figure FDA0003368936070000057
9.根据权利要求8所述的基于局部增强transformer的假视频检测方法,其特征在于,步骤h)包括如下步骤:
h-1)将图像块内与图像块间的浅层特征图
Figure FDA0003368936070000058
输入卷积核大小为2,步长为2,填充为0的卷积层,得到特征图
Figure FDA0003368936070000061
h-2)将特征图
Figure FDA0003368936070000062
替代步骤d-1)中的三维特征图z0,重复执行步骤d-1)至d-6)后将得到的三维局部增强的图像块间全局空间特征图s″′l∈Rb×c×h×w作为第三个局部增强transformer输出的图像块内与图像块间的高级语义精细全局特征图
Figure FDA0003368936070000063
10.根据权利要求9所述的基于局部增强transformer的假视频检测方法,其特征在于,步骤j)包括如下步骤:
j-1)将图像块内与图像块间的高级语义精细全局特征图
Figure FDA0003368936070000064
输入特征后处理模块;
j-2)在全局通道注意力模块中先利用通过torch库里的rearrange函数将特征图
Figure FDA0003368936070000065
维度变换得到
Figure FDA0003368936070000066
QC为图像通道的查询向量,KC为图像通道的键向量;
j-3)通过公式sc=Sigmoid(QC*KCT)计算得到全局通道注意力特征图sc
Figure FDA0003368936070000067
Sigmoid(·)为Sigmoid函数,利用torch库里的mean函数对全局通道注意力特征图sc每行求均值得到每通道的全局注意力wa,wa∈Rb×1×8,a=1,...,8c,利用torch库里的reshape函数将每通道的全局注意力wa维度变换为wa∈Rb×8c×1×1
j-4)通过公式sc′=wa*s4″′l计算得到全局通道注意力特征图sc′,
Figure FDA0003368936070000068
利用torch库里的reshape函数将
Figure FDA0003368936070000069
维度变换为
Figure FDA00033689360700000610
将特征图
Figure FDA00033689360700000611
经过输出大小为(1,1)的全局平均池化层后输出sc′∈Rb×8c×1×1,利用torch库里的flatten函数将sc′∈Rb×8c×1×1拉平为sc′∈Rb×8c
j-5)将特征图sc′∈Rb×8c输入分类器模块的第一个输入维度为8c,输出维度为m的线性层后得到模型预测图像类别表示y′=sc′Wc,Wc∈R8c×m,y′∈Rb×m,Wc为分类器参数,将模型预测视频类别表示y′=sc′Wc经过softmax函数转换为概率值,对y′每行元素取最大值索引,索引对应模型预测类别0或1,当模型预测类别为0则该视频为假图片,当模型预测类别为1则该视频为真图片。
CN202111400788.1A 2021-11-23 2021-11-23 一种基于局部增强transformer的假视频检测方法 Active CN113903073B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111400788.1A CN113903073B (zh) 2021-11-23 2021-11-23 一种基于局部增强transformer的假视频检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111400788.1A CN113903073B (zh) 2021-11-23 2021-11-23 一种基于局部增强transformer的假视频检测方法

Publications (2)

Publication Number Publication Date
CN113903073A true CN113903073A (zh) 2022-01-07
CN113903073B CN113903073B (zh) 2024-07-26

Family

ID=79195241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111400788.1A Active CN113903073B (zh) 2021-11-23 2021-11-23 一种基于局部增强transformer的假视频检测方法

Country Status (1)

Country Link
CN (1) CN113903073B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115205986A (zh) * 2022-08-09 2022-10-18 山东省人工智能研究院 一种基于知识蒸馏与transformer的假视频检测方法
CN115311720A (zh) * 2022-08-11 2022-11-08 山东省人工智能研究院 一种基于Transformer的deepfake生成方法
CN116311482A (zh) * 2023-05-23 2023-06-23 中国科学技术大学 人脸伪造检测方法、系统、设备及存储介质
CN116453199A (zh) * 2023-05-19 2023-07-18 山东省人工智能研究院 基于复杂纹理区域伪造痕迹的gan生成人脸检测方法
CN116524408A (zh) * 2023-05-09 2023-08-01 山东省人工智能研究院 基于面部特征增强以及光流评估的虚假视频检测方法
CN117557947A (zh) * 2024-01-11 2024-02-13 湖北微模式科技发展有限公司 一种基于均方误差的静态场景视频真伪鉴定方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220635A (zh) * 2017-06-21 2017-09-29 北京市威富安防科技有限公司 基于多造假方式的人脸活体检测方法
CN107295341A (zh) * 2011-07-22 2017-10-24 Sk电信有限公司 视频编码方法
WO2020252740A1 (zh) * 2019-06-20 2020-12-24 深圳市汇顶科技股份有限公司 卷积神经网络、人脸防伪方法、处理器芯片及电子设备
CN113536990A (zh) * 2021-06-29 2021-10-22 复旦大学 深度伪造人脸数据鉴别方法
CN113553904A (zh) * 2021-06-16 2021-10-26 北京百度网讯科技有限公司 人脸防伪模型的训练方法、装置及电子设备
CN113627233A (zh) * 2021-06-17 2021-11-09 中国科学院自动化研究所 基于视觉语义信息的人脸伪造检测方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107295341A (zh) * 2011-07-22 2017-10-24 Sk电信有限公司 视频编码方法
CN107220635A (zh) * 2017-06-21 2017-09-29 北京市威富安防科技有限公司 基于多造假方式的人脸活体检测方法
WO2020252740A1 (zh) * 2019-06-20 2020-12-24 深圳市汇顶科技股份有限公司 卷积神经网络、人脸防伪方法、处理器芯片及电子设备
CN113553904A (zh) * 2021-06-16 2021-10-26 北京百度网讯科技有限公司 人脸防伪模型的训练方法、装置及电子设备
CN113627233A (zh) * 2021-06-17 2021-11-09 中国科学院自动化研究所 基于视觉语义信息的人脸伪造检测方法和装置
CN113536990A (zh) * 2021-06-29 2021-10-22 复旦大学 深度伪造人脸数据鉴别方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115205986A (zh) * 2022-08-09 2022-10-18 山东省人工智能研究院 一种基于知识蒸馏与transformer的假视频检测方法
CN115205986B (zh) * 2022-08-09 2023-05-19 山东省人工智能研究院 一种基于知识蒸馏与transformer的假视频检测方法
CN115311720A (zh) * 2022-08-11 2022-11-08 山东省人工智能研究院 一种基于Transformer的deepfake生成方法
CN116524408A (zh) * 2023-05-09 2023-08-01 山东省人工智能研究院 基于面部特征增强以及光流评估的虚假视频检测方法
CN116524408B (zh) * 2023-05-09 2024-02-02 山东省人工智能研究院 基于面部特征增强以及光流评估的虚假视频检测方法
CN116453199A (zh) * 2023-05-19 2023-07-18 山东省人工智能研究院 基于复杂纹理区域伪造痕迹的gan生成人脸检测方法
CN116453199B (zh) * 2023-05-19 2024-01-26 山东省人工智能研究院 基于复杂纹理区域伪造痕迹的gan生成人脸检测方法
CN116311482A (zh) * 2023-05-23 2023-06-23 中国科学技术大学 人脸伪造检测方法、系统、设备及存储介质
CN116311482B (zh) * 2023-05-23 2023-08-29 中国科学技术大学 人脸伪造检测方法、系统、设备及存储介质
CN117557947A (zh) * 2024-01-11 2024-02-13 湖北微模式科技发展有限公司 一种基于均方误差的静态场景视频真伪鉴定方法及装置
CN117557947B (zh) * 2024-01-11 2024-04-12 湖北微模式科技发展有限公司 一种基于均方误差的静态场景视频真伪鉴定方法及装置

Also Published As

Publication number Publication date
CN113903073B (zh) 2024-07-26

Similar Documents

Publication Publication Date Title
CN113903073A (zh) 一种基于局部增强transformer的假视频检测方法
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
Liu et al. Robust video super-resolution with learned temporal dynamics
CN113837147B (zh) 一种基于transformer的假视频检测方法
CN110163286B (zh) 一种基于混合池化的领域自适应图像分类方法
CN113642634A (zh) 一种基于混合注意力的阴影检测方法
CN113393457B (zh) 一种结合残差密集块与位置注意力的无锚框目标检测方法
CN110211127B (zh) 基于双相关性网络的图像分割方法
CN112785480B (zh) 基于频域变换和残差反馈模块的图像拼接篡改检测方法
CN114463176B (zh) 基于改进esrgan的图像超分辨重建方法
CN114898284B (zh) 一种基于特征金字塔局部差异注意力机制的人群计数方法
CN112883941A (zh) 一种基于并行神经网络的人脸表情识别方法
CN114387641A (zh) 基于多尺度卷积网络和ViT的虚假视频检测方法及系统
CN115984846B (zh) 一种基于深度学习的高分辨率图像中小目标的智能识别方法
CN114972976A (zh) 基于频域自注意力机制的夜间目标检测、训练方法及装置
Hongmeng et al. A detection method for deepfake hard compressed videos based on super-resolution reconstruction using CNN
Krishnan et al. SwiftSRGAN-Rethinking super-resolution for efficient and real-time inference
CN116758340A (zh) 基于超分辨率特征金字塔和注意力机制的小目标检测方法
Song et al. Distilled light gaitset: Towards scalable gait recognition
Sharma et al. Deepfakes Classification of Faces Using Convolutional Neural Networks.
CN115205986A (zh) 一种基于知识蒸馏与transformer的假视频检测方法
Liu et al. Component semantic prior guided generative adversarial network for face super-resolution
CN114758272A (zh) 基于频域自注意力的伪造视频检测方法
Gao A method for face image inpainting based on generative adversarial networks
CN112990340B (zh) 一种基于特征共享的自学习迁移方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: No.19 Keyuan Road, Lixia District, Jinan City, Shandong Province

Patentee after: Shandong Institute of artificial intelligence

Country or region after: China

Patentee after: Qilu University of Technology (Shandong Academy of Sciences)

Address before: No.19 Keyuan Road, Lixia District, Jinan City, Shandong Province

Patentee before: Shandong Institute of artificial intelligence

Country or region before: China

Patentee before: Qilu University of Technology