CN115205986A - 一种基于知识蒸馏与transformer的假视频检测方法 - Google Patents

一种基于知识蒸馏与transformer的假视频检测方法 Download PDF

Info

Publication number
CN115205986A
CN115205986A CN202210946655.2A CN202210946655A CN115205986A CN 115205986 A CN115205986 A CN 115205986A CN 202210946655 A CN202210946655 A CN 202210946655A CN 115205986 A CN115205986 A CN 115205986A
Authority
CN
China
Prior art keywords
attention
feature
video
block
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210946655.2A
Other languages
English (en)
Other versions
CN115205986B (zh
Inventor
王英龙
张亚宁
舒明雷
刘瑞霞
周书旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Shandong Institute of Artificial Intelligence
Original Assignee
Qilu University of Technology
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology, Shandong Institute of Artificial Intelligence filed Critical Qilu University of Technology
Priority to CN202210946655.2A priority Critical patent/CN115205986B/zh
Publication of CN115205986A publication Critical patent/CN115205986A/zh
Application granted granted Critical
Publication of CN115205986B publication Critical patent/CN115205986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/40Spoof detection, e.g. liveness detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

一种基于知识蒸馏与transformer的假视频检测方法,通过对一个视频帧的脸图像提取多样的局部特征与全局特征,并利用多头注意力缩放技术提取多样的全局特征,并利用空间注意力缩放技术进行多样的全局特征精炼,最后送入分类器进行检测Deepfake视频的方法。由于空间注意力缩放技术的引入,检测到的deepfake的准确度明显优于其他方法。

Description

一种基于知识蒸馏与transformer的假视频检测方法
技术领域
本发明涉及Deepfake检测技术领域,具体涉及一种知识蒸馏与transformer的假视频检测方法。
背景技术
Deepfake是利用基于深度学习的技术Autoencoder、GAN等深度学习算法将源视频中的人脸换成目标视频人脸。目前常用的Deepfake检测方法很少考虑利用多样的局部特征与全局特征结合来检测假视频,因此检测精度与泛化性不高。
发明内容
本发明为了克服以上技术的不足,提供了一种利用知识蒸馏技术进一步增强模型精确性的基于知识蒸馏与transformer的假视频检测方法。
本发明克服其技术问题所采用的技术方案是:
一种基于知识蒸馏与transformer的假视频检测方法,包括如下步骤:
a)利用读视频算法对K个视频中的每个视频提取随机的视频帧,利用脸识别算法提取每个视频的随机视频帧中的人脸图像;
b)将人脸图像利用VGG19网络提取局部特征,将提取的局部特征输入局部多头注意力模块中,输出得到带有局部注意力特征图;
c)将带有局部注意力特征图输入到Enhanced-ViT模块中进行多样的精炼全局空间特征提取;
d)将精炼全局空间特征输入分类器中,经过softmax进行二分类真假检测,完成模型的建立;
e)利用损失函数迭代优化步骤d)中的模型,得到最优模型。
进一步的,步骤a)中利用python中的读视频算法VideoReader类对视频提取,得到随机的t个视频帧,对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像,将得到的脸放入对应真假类别文件夹下,在该视频文件夹下得到随机的t张人脸图像。
进一步的,步骤a)中得到的t张人脸图像的宽高分别调整为244、244,利用均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]对人脸图像进行归一化,将归一化后的连续帧的t张人脸图像封装为[b,c,h,w]的张量xi∈Rb×c×h×w,R为向量空间,其中视频标签为[b,0/1],xi为第i个视频批次,i∈{1,...,K×t/b},b为每批次视频的个数,c为每张人脸图像通道数,h为每张人脸图像的高,w为每张人脸图像的宽,0表示假视频,1表示真视频。
进一步的,步骤b)包括如下步骤:
b-1)将张量xi∈Rb×c×h×w输入到VGG19网络中,得到局部特征图xf∈Rb×512×7×7
b-2)将局部特征图xf∈Rb×512×7×7输入到局部多头注意力模块中,将局部特征图xf∈Rb×512×7×7分别输入到LS-CNN模型中m个LANet block中分别输出得到注意力图
Figure BDA0003787825850000021
Figure BDA0003787825850000022
为第i个LANet block输出的注意力图,i∈{1,...,m},将注意力图
Figure BDA0003787825850000023
利用torch库里的cat算法并联得到特征图xa∈Rb×m×7×7
b-3)对特征图xa∈Rb×m×7×7利用torch库里的maximum算法逐元素取得最大值得到特征图xb∈Rb×1×7×7
b-4)将特征图xb∈Rb×1×7×7与局部特征图xf∈Rb×512×7×7逐元素点乘得到带有局部注意力特征图xl∈Rb×512×7×7
进一步的,步骤c)包括如下步骤:
c-1)利用torch库里的rearrange算法将带有局部注意力特征图xl∈Rb×512×7×7沿着通道拉平为2D特征xp∈Rb×49×512
c-2)通过公式
Figure BDA0003787825850000024
计算得到带有位置信息的二维图像块序列z0,式中
Figure BDA0003787825850000025
为2D特征xp∈Rb×49×512中第i个图像特征块,i∈{1,...,N},N为2D特征xp∈Rb×49×512中图像特征块的总数,E为每一个图像特征块的位置embedding,E∈R512 ×D,D为不变的隐向量,Epos为位置embedding,Epos∈RN×D
c-3)设置由L个连续的transformer block组成的Enhanced-ViT模型,每个transformer block依次由第一LayerNorm层、多头自注意力block、多头注意力缩放层、空间注意力缩放层、第一残差层、第二LayerNorm层、MLP block、第二残差层构成;
c-4)将带有位置信息的二维图像块序列z0输入第1个transformer block的第一LayerNorm层中进行归一化处理,得到归一化后的二维图像块序列z0,将归一化后的二维图像块序列z0输入到第1个transformer block的多头自注意力block中进行全局多头注意力计算,得到全局特征图MSA(LN(z0)),将全局特征图MSA(LN(z0))输入到第1个transformerblock的多头注意力缩放层中进行多样的多头自注意力计算,得到多样全局特征图MAS(MSA(LN(z0))),将多样全局特征图MAS(MSA(LN(z0)))输入到第1个transformer block的空间注意力缩放层,输出得到多样的精炼全局特征图SAS(MAS(MSA(LN(z0)))),将多样的精炼全局特征图SAS(MAS(MSA(LN(z0))))与带有位置信息的二维图像块序列z0输入到第一残差层中,通过公式z′0=SAS(MAS(MSA(LN(z0))))+z0计算得到二维全局空间特征z′0,将二维全局空间特征z′0输入到第二LayerNorm层中进行归一化处理,得到归一化后的二维全局空间特征z0,将归一化后的二维全局空间特征z′0输入到MLP block中,输出得到二维空间特征图MLP(LN(z′0)),将二维空间特征图MLP(LN(z′0))与二维全局空间特征z′0输入到第二残差层中,通过公式z1=MLP(LN(z0′))+z0′计算得到第1个transformer block输出的多样的精炼全局空间特征z1
c-5)将全局空间特征z1替代步骤c-4)中的二维图像块序列z0,重复执行步骤c-4),得到第2个transformer block输出的多样的精炼全局空间特征z2
c-6)重复步骤c-5),将zl输入到第l+1个transformer block中,l={2,3...,L},得到所有L个transformer block输出的精炼全局空间特征{z1,z2…,zL}∈Rb×49×D
进一步的,步骤c-4)中多头自注意力block中进行全局多头注意力计算方法为:将归一化后的二维图像块序列z0输入到一个输入维度为D、输出维度为3*D的线性层后输出得到特征图QKV∈Rb×49×(3*D),利用torch库里的rearrange算法将特征图QKV∈Rb×49×(3*D)沿着通道分别拉平为2D特征Q∈Rb×49×D、K∈Rb×49×D、V∈Rb×49×D,Q为特征图的查询向量,K为特征图的键向量,V为特征图的值向量,将2D特征Q∈Rb×49×D、K∈Rb×49×D、V∈Rb×49×D分别分为j个头,分别得到含有j个头空间的Q∈Rb×j×49×r、K∈Rb×j×49×r、V∈Rb×j×49×r,每个头的维度为r,r=D/j,通过公式
Figure BDA0003787825850000042
计算得到全局特征图MSA(LN(z0)),MSA(LN(z0))∈Rb×j×49×r,式中Softmax(·)为Softmax激活函数,T为转置。
进一步的,步骤c-4)中多头注意力缩放层中进行多样的多头自注意力计算的方法为:通过公式
Figure BDA0003787825850000041
计算得到多样全局特征图MAS(MSA(LN(z0))),式中σ为注意力参数,σ∈Rj×1×1,*为逐元素点乘操作。
进一步的,步骤c-4)中空间注意力缩放层的计算方法为:通过公式SAS(MAS(MSA(LN(z0))))=W×MAS(MSA(LN(z0)))计算得到多样的精炼全局特征图SAS(MAS(MSA(LN(z0)))),式中W为空间注意力对角矩阵,W∈R49×49,×为矩阵相乘操作。
进一步的,步骤d)包括如下步骤:
d-1)利用torch库里的mean算法对精炼全局空间特征zL每列求均值得到xc∈Rb×D,将xc∈Rb×D输入transformer的MLP head模块的第一个输入维度为D输出维度为2的线性层后输出得到模型预测图像类别表示y′,y′=xcWc,式中Wc为分类器参数,Wc∈RD×2,y′∈Rb×2
d-2)将模型预测图像类别表示y′经过softmax函数转换为概率值,对概率值每行元素取最大值索引,当索引值为0,则该图片为假图片,当索引值为1,则该图片为真图片。
进一步的,步骤e)包括如下步骤:
e-1)通过公式L=Lce+αLCt-c计算得到第一总损失函数L,式中Lce为交叉熵损失函数,α为平衡因子常数,LCt-c为对比中心损失函数,
Figure BDA0003787825850000051
||·||2为L2范数,yk为标签,yk∈{0,1},cyk为第yk个类别中心点的特征,
Figure BDA0003787825850000052
Figure BDA0003787825850000053
为实数空间,δ为常数,k为类别数;
e-2)利用Adam优化器优化第一总损失函数L,完成步骤d)中模型训练,得到第一老师模型Zt
e-3)另Zs等于Zt,得到第一学生模型Zs
e-4)通过公式L=Lce+αLCt-c+βlKD计算得到第二总损失L,式中β为平衡因子常数,lKD为知识蒸馏损失函数,
Figure BDA0003787825850000061
σ(·)为softmax函数,y为第一老师模型Zt的预测类别表示,
Figure BDA0003787825850000062
为第一学生模型Zs的预测类别表示;
e-5)利用Adam优化器优化第二总损失L完成第一生模型Zs训练得到第二老师模型Zt′;
e-6)令Zs′=Zt′得到第二学生模型Zs′;
e-7)将第二学生模型Zs′代替步骤e-3)中的第一学生模型Zs,重复执行步骤e-4)至e-5)三次,得到最优模型。
本发明的有益效果是:
附图说明
图1为本发明的方法流程图。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种基于知识蒸馏与transformer的假视频检测方法,包括如下步骤:
a)利用读视频算法对K个视频中的每个视频提取随机的视频帧,利用脸识别算法提取每个视频的随机视频帧中的人脸图像。
b)将人脸图像利用VGG19网络提取局部特征,将提取的局部特征输入局部多头注意力模块中,输出得到带有局部注意力特征图。
c)将带有局部注意力特征图输入到Enhanced-ViT模块中进行多样的精炼全局空间特征提取。
d)将精炼全局空间特征输入分类器中,经过softmax进行二分类真假检测,完成模型的建立。
e)利用利用知识蒸馏损失函数、交叉熵损失函数及对比中心损失函数迭代优化步骤d)中的模型,得到最优模型,进一步提高检测性能。
该技术比现有技术有较好的泛化能力即能够在各种deepfake数据集上有较优越的检测性能,同时该技术里的即插即用的空间注意力缩放层与多头注意力缩放层能够被插入到任何基于transformer的模型,为基于transformer的模型实现性能提升。
实施例1:
步骤a)中利用python中的读视频算法VideoReader类对视频提取,得到随机的t个视频帧,对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像,将得到的脸放入对应真假类别文件夹下,在该视频文件夹下得到随机的t张人脸图像。
实施例2:
步骤a)中得到的t张人脸图像的宽高分别调整为244、244,利用均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]对人脸图像进行归一化,将归一化后的连续帧的t张人脸图像封装为[b,c,h,w]的张量xi∈Rb×c×h×w,R为向量空间,其中视频标签为[b,0/1],xi为第i个视频批次,i∈{1,...,K×t/b},b为每批次视频的个数,c为每张人脸图像通道数,h为每张人脸图像的高,w为每张人脸图像的宽,0表示假视频,1表示真视频。
实施例3:
步骤b)包括如下步骤:
b-1)将张量xi∈Rb×c×h×w输入到VGG19网络中,得到局部特征图xf∈Rb×512×7×7
b-2)将局部特征图xf∈Rb×512×7×7输入到局部多头注意力模块中,将局部特征图xf∈Rb×512×7×7分别输入到LS-CNN模型中m个LANet block中分别输出得到注意力图
Figure BDA0003787825850000071
Figure BDA0003787825850000072
为第i个LANet block输出的注意力图,i∈{1,...,m},将注意力图
Figure BDA0003787825850000073
利用torch库里的cat算法并联得到特征图xa∈Rb×m×7×7
b-3)对特征图xa∈Rb×m×7×7利用torch库里的maximum算法逐元素取得最大值得到特征图xb∈Rb×1×7×7
b-4)将特征图xb∈Rb×1×7×7与局部特征图xf∈Rb×512×7×7逐元素点乘得到带有局部注意力特征图xl∈Rb×512×7×7
实施例4:
步骤c)包括如下步骤:
c-1)利用torch库里的rearrange算法将带有局部注意力特征图xl∈Rb×512×7×7沿着通道拉平为2D特征xp∈Rb×49×512
c-2)通过公式
Figure BDA0003787825850000081
计算得到带有位置信息的二维图像块序列z0,式中
Figure BDA0003787825850000082
为2D特征xp∈Rb×49×512中第i个图像特征块,i∈{1,...,N},N为2D特征xp∈Rb×49×512中图像特征块的总数,E为每一个图像特征块的位置embedding,E∈R512 ×D,D为不变的隐向量,Epos为位置embedding,Epos∈RN×D
c-3)设置由L个连续的transformer block组成的Enhanced-ViT模型,每个transformer block依次由第一LayerNorm层、多头自注意力block、多头注意力缩放层、空间注意力缩放层、第一残差层、第二LayerNorm层、MLP block、第二残差层构成。
c-4)将带有位置信息的二维图像块序列z0输入第1个transformer block的第一LayerNorm层中进行归一化处理,得到归一化后的二维图像块序列z0,将归一化后的二维图像块序列z0输入到第1个transformer block的多头自注意力block中进行全局多头注意力计算,得到全局特征图MSA(LN(z0)),将全局特征图MSA(LN(z0))输入到第1个transformerblock的多头注意力缩放层中进行多样的多头自注意力计算,得到多样全局特征图MAS(MSA(LN(z0))),将多样全局特征图MAS(MSA(LN(z0)))输入到第1个transformer block的空间注意力缩放层,输出得到多样的精炼全局特征图SAS(MAS(MSA(LN(z0)))),将多样的精炼全局特征图SAS(MAS(MSA(LN(z0))))与带有位置信息的二维图像块序列z0输入到第一残差层中,通过公式z′0=SAS(MAS(MSA(LN(z0))))+z0计算得到二维全局空间特征z′0,将二维全局空间特征z′0输入到第二LayerNorm层中进行归一化处理,得到归一化后的二维全局空间特征z′0,将归一化后的二维全局空间特征z′0输入到MLP block中,输出得到二维空间特征图MLP(LN(z′0)),将二维空间特征图MLP(LN(z′0))与二维全局空间特征z′0输入到第二残差层中,通过公式z1=MLP(LN(z′0))+z′0计算得到第1个transformer block输出的多样的精炼全局空间特征z1
c-5)将全局空间特征z1替代步骤c-4)中的二维图像块序列z0,重复执行步骤c-4),得到第2个transformer block输出的多样的精炼全局空间特征z2
c-6)重复步骤c-5),将zl输入到第l+1个transformer block中,l={2,3...,L},得到所有L个transformer block输出的精炼全局空间特征{z1,z2...,zL}∈Rb×49×D
实施例5:
步骤c-4)中多头自注意力block中进行全局多头注意力计算方法为:将归一化后的二维图像块序列z0输入到一个输入维度为D、输出维度为3*D的线性层后输出得到特征图QKV∈Rb×49×(3*D),利用torch库里的rearrange算法将特征图QKV∈Rb×49×(3*D)沿着通道分别拉平为2D特征Q∈Rb×49×D、K∈Rb×49×D、V∈Rb×49×D,Q为特征图的查询向量,K为特征图的键向量,V为特征图的值向量,将2D特征Q∈Rb×49×D、K∈Rb×49×D、V∈Rb×49×D分别分为j个头,分别得到含有j个头空间的Q∈Rb×j×49×r、K∈Rb×j×49×r、V∈Rb×j×49×r,每个头的维度为r,r=D/j,通过公式
Figure BDA0003787825850000101
计算得到全局特征图MSA(LN(z0)),MSA(LN(z0))∈Rb×j×49×r,式中Softmax(·)为Softmax激活函数,T为转置。
实施例6:
步骤c-4)中多头注意力缩放层中进行多样的多头自注意力计算的方法为:通过公式
Figure BDA0003787825850000102
计算得到多样全局特征图MAS(MSA(LN(z0))),式中σ为注意力参数,σ∈Rj×1×1,*为逐元素点乘操作。
实施例7:
步骤c-4)中空间注意力缩放层的计算方法为:通过公式SAS(MAS(MSA(LN(z0))))=W×MAS(MSA(LN(z0)))计算得到多样的精炼全局特征图SAS(MAS(MSA(LN(z0)))),式中W为空间注意力对角矩阵,W∈R49×49,×为矩阵相乘操作。
实施例8:
步骤d)包括如下步骤:
d-1)利用torch库里的mean算法对精炼全局空间特征zL每列求均值得到xc∈Rb×D,将xc∈Rb×D输入transformer的MLP head模块的第一个输入维度为D输出维度为2的线性层后输出得到模型预测图像类别表示y′,y′=xcWc,式中Wc为分类器参数,Wc∈RD×2,y′∈Rb×2
d-2)将模型预测图像类别表示y′经过softmax函数转换为概率值,对概率值每行元素取最大值索引,当索引值为0,则该图片为假图片,当索引值为1,则该图片为真图片。
实施例9:
步骤e)包括如下步骤:
e-1)通过公式L=Lce+αLCt-c计算得到第一总损失函数L,式中Lce为交叉熵损失函数,α为平衡因子常数,LCt-c为对比中心损失函数,
Figure BDA0003787825850000111
||·||2为L2范数,yk为标签,yk∈{0,1},cyk为第yk个类别中心点的特征,
Figure BDA0003787825850000112
Figure BDA0003787825850000113
为实数空间,δ为常数,k为类别数;
e-2)利用Adam优化器优化第一总损失函数L,完成步骤d)中模型训练,得到第一老师模型Zt
e-3)另Zs等于Zt,得到第一学生模型Zs
e-4)通过公式L=Lce+αLCt-c+βlKD计算得到第二总损失L,式中β为平衡因子常数,lKD为知识蒸馏损失函数,
Figure BDA0003787825850000114
σ(·)为softmax函数,y为第一老师模型Zt的预测类别表示,
Figure BDA0003787825850000115
为第一学生模型Zs的预测类别表示;
e-5)利用Adam优化器优化第二总损失L完成第一生模型Zs训练得到第二老师模型Zt′;
e-6)令Zs′=Zt′得到第二学生模型Zs′;
e-7)将第二学生模型Zs′代替步骤e-3)中的第一学生模型Zs,重复执行步骤e-4)至e-5)三次,得到最优模型。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于知识蒸馏与transformer的假视频检测方法,其特征在于,包括如下步骤:
a)利用读视频算法对K个视频中的每个视频提取随机的视频帧,利用脸识别算法提取每个视频的随机视频帧中的人脸图像;
b)将人脸图像利用VGG19网络提取局部特征,将提取的局部特征输入局部多头注意力模块中,输出得到带有局部注意力特征图;
c)将带有局部注意力特征图输入到Enhanced-ViT模块中进行多样的精炼全局空间特征提取;
d)将精炼全局空间特征输入分类器中,经过softmax进行二分类真假检测,完成模型的建立;
e)利用损失函数迭代优化步骤d)中的模型,得到最优模型。
2.根据权利要求1所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于:步骤a)中利用python中的读视频算法VideoReader类对视频提取,得到随机的t个视频帧,对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像,将得到的脸放入对应真假类别文件夹下,在该视频文件夹下得到随机的t张人脸图像。
3.根据权利要求2所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于:步骤a)中得到的t张人脸图像的宽高分别调整为244、244,利用均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]对人脸图像进行归一化,将归一化后的连续帧的t张人脸图像封装为[b,c,h,w]的张量xi∈Rb×c×h×w,R为向量空间,其中视频标签为[b,0/1],xi为第i个视频批次,i∈{1,...,K×t/b},b为每批次视频的个数,c为每张人脸图像通道数,h为每张人脸图像的高,w为每张人脸图像的宽,0表示假视频,1表示真视频。
4.根据权利要求3所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于,步骤b)包括如下步骤:
b-1)将张量xi∈Rb×c×h×w输入到VGG19网络中,得到局部特征图xf∈Rb×512×7×7
b-2)将局部特征图xf∈Rb×512×7×7输入到局部多头注意力模块中,将局部特征图xf∈Rb ×512×7×7分别输入到LS-CNN模型中m个LANet block中分别输出得到注意力图
Figure FDA0003787825840000021
Figure FDA0003787825840000022
为第i个LANet block输出的注意力图,i∈{1,...,m},将注意力图
Figure FDA0003787825840000023
利用torch库里的cat算法并联得到特征图xa∈Rb×m×7×7
b-3)对特征图xa∈Rb×m×7×7利用torch库里的maximum算法逐元素取得最大值得到特征图xb∈Rb×1×7×7
b-4)将特征图xb∈Rb×1×7×7与局部特征图xf∈Rb×512×7×7逐元素点乘得到带有局部注意力特征图xl∈Rb×512×7×7
5.根据权利要求4所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于,步骤c)包括如下步骤:
c-1)利用torch库里的rearrange算法将带有局部注意力特征图xl∈Rb×512×7×7沿着通道拉平为2D特征xp∈Rb×49×512
c-2)通过公式
Figure FDA0003787825840000024
计算得到带有位置信息的二维图像块序列z0,式中
Figure FDA0003787825840000025
为2D特征xp∈Rb×49×512中第i个图像特征块,i∈{1,...,N},N为2D特征xp∈Rb×49×512中图像特征块的总数,E为每一个图像特征块的位置embedding,E∈R512×D,D为不变的隐向量,Epos为位置embedding,Epos∈RN×D
c-3)设置由L个连续的transformer block组成的Enhanced-ViT模型,每个transformer block依次由第一LayerNorm层、多头自注意力block、多头注意力缩放层、空间注意力缩放层、第一残差层、第二LayerNorm层、MLP block、第二残差层构成;
c-4)将带有位置信息的二维图像块序列z0输入第1个transformer block的第一LayerNorm层中进行归一化处理,得到归一化后的二维图像块序列z0,将归一化后的二维图像块序列z0输入到第1个transformer block的多头自注意力block中进行全局多头注意力计算,得到全局特征图MSA(LN(z0)),将全局特征图MSA(LN(z0))输入到第1个transformerblock的多头注意力缩放层中进行多样的多头自注意力计算,得到多样全局特征图MAS(MSA(LN(z0))),将多样全局特征图MAS(MSA(LN(z0)))输入到第1个transformer block的空间注意力缩放层,输出得到多样的精炼全局特征图SAS(MAS(MSA(LN(z0)))),将多样的精炼全局特征图SAS(MAS(MSA(LN(z0))))与带有位置信息的二维图像块序列z0输入到第一残差层中,通过公式z′0=SAS(MAS(MSA(LN(z0))))+z0计算得到二维全局空间特征z′0,将二维全局空间特征z′0输入到第二LayerNorm层中进行归一化处理,得到归一化后的二维全局空间特征z′0,将归一化后的二维全局空间特征z′0输入到MLP block中,输出得到二维空间特征图MLP(LN(z′0)),将二维空间特征图MLP(LN(z′0))与二维全局空间特征z′0输入到第二残差层中,通过公式z1=MLP(LN(z′0))+z′0计算得到第1个transformer block输出的多样的精炼全局空间特征z1
c-5)将全局空间特征z1替代步骤c-4)中的二维图像块序列z0,重复执行步骤c-4),得到第2个transformer block输出的多样的精炼全局空间特征z2
c-6)重复步骤c-5),将zl输入到第l+1个transformer block中,l={2,3...,L},得到所有L个transformer block输出的精炼全局空间特征{z1,z2...,zL}∈Rb×49×D
6.根据权利要求5所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于,步骤c-4)中多头自注意力block中进行全局多头注意力计算方法为:将归一化后的二维图像块序列z0输入到一个输入维度为D、输出维度为3*D的线性层后输出得到特征图QKV∈Rb ×49×(3*D),利用torch库里的rearrange算法将特征图QKV∈Rb×49×(3*D)沿着通道分别拉平为2D特征Q∈Rb×49×D、K∈Rb×49×D、V∈Rb×49×D,Q为特征图的查询向量,K为特征图的键向量,V为特征图的值向量,将2D特征Q∈Rb×49×D、K∈Rb×49×D、V∈Rb×49×D分别分为j个头,分别得到含有j个头空间的Q∈Rb×j×49×r、K∈Rb×j×49×r、V∈Rb×j×49×r,每个头的维度为r,r=D/j,通过公式
Figure FDA0003787825840000041
计算得到全局特征图MSA(LN(z0)),MSA(LN(z0))∈Rb ×j×49×r,式中Softmax(·)为Softmax激活函数,T为转置。
7.根据权利要求6所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于,步骤c-4)中多头注意力缩放层中进行多样的多头自注意力计算的方法为:通过公式
Figure FDA0003787825840000042
计算得到多样全局特征图MAS(MSA(LN(z0))),式中σ为注意力参数,σ∈Rj×1×1,*为逐元素点乘操作。
8.根据权利要求7所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于,步骤c-4)中空间注意力缩放层的计算方法为:通过公式SAS(MAS(MSA(LN(z0))))=W×MAS(MSA(LN(z0)))计算得到多样的精炼全局特征图SAS(MAS(MSA(LN(z0)))),式中W为空间注意力对角矩阵,W∈R49×49,×为矩阵相乘操作。
9.根据权利要求5所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于,步骤d)包括如下步骤:
d-1)利用torch库里的mean算法对精炼全局空间特征zL每列求均值得到xc∈Rb×D,将xc∈Rb×D输入transformer的MLP head模块的第一个输入维度为D输出维度为2的线性层后输出得到模型预测图像类别表示y′,y′=xcWc,式中Wc为分类器参数,Wc∈RD×2,y′∈Rb×2
d-2)将模型预测图像类别表示y′经过softmax函数转换为概率值,对概率值每行元素取最大值索引,当索引值为0,则该图片为假图片,当索引值为1,则该图片为真图片。
10.根据权利要求9所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于,步骤e)包括如下步骤:
e-1)通过公式L=Lce+αLCt-c计算得到第一总损失函数L,式中Lce为交叉熵损失函数,α为平衡因子常数,LCt-c为对比中心损失函数,
Figure FDA0003787825840000051
||·||2为L2范数,yk为标签,yk∈{0,1},
Figure FDA0003787825840000052
为第yk个类别中心点的特征,
Figure FDA0003787825840000053
Figure FDA0003787825840000054
为实数空间,δ为常数,k为类别数;
e-2)利用Adam优化器优化第一总损失函数L,完成步骤d)中模型训练,得到第一老师模型Zt
e-3)另Zs等于Zt,得到第一学生模型Zs
e-4)通过公式L=Lce+αLCt-c+βlKD计算得到第二总损失L,式中β为平衡因子常数,lKD为知识蒸馏损失函数,
Figure FDA0003787825840000055
σ(·)为softmax函数,y为第一老师模型Zt的预测类别表示,
Figure FDA0003787825840000061
为第一学生模型Zs的预测类别表示;
e-5)利用Adam优化器优化第二总损失L完成第一生模型Zs训练得到第二老师模型Zt′;
e-6)令Zs′=Zt′得到第二学生模型Zs′;
e-7)将第二学生模型Zs′代替步骤e-3)中的第一学生模型Zs,重复执行步骤e-4)至e-5)三次,得到最优模型。
CN202210946655.2A 2022-08-09 2022-08-09 一种基于知识蒸馏与transformer的假视频检测方法 Active CN115205986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210946655.2A CN115205986B (zh) 2022-08-09 2022-08-09 一种基于知识蒸馏与transformer的假视频检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210946655.2A CN115205986B (zh) 2022-08-09 2022-08-09 一种基于知识蒸馏与transformer的假视频检测方法

Publications (2)

Publication Number Publication Date
CN115205986A true CN115205986A (zh) 2022-10-18
CN115205986B CN115205986B (zh) 2023-05-19

Family

ID=83585670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210946655.2A Active CN115205986B (zh) 2022-08-09 2022-08-09 一种基于知识蒸馏与transformer的假视频检测方法

Country Status (1)

Country Link
CN (1) CN115205986B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115471736A (zh) * 2022-11-02 2022-12-13 浙江君同智能科技有限责任公司 基于注意力机制和知识蒸馏的伪造图像检测方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070154071A1 (en) * 2005-12-29 2007-07-05 Microsoft Corporation Signature verification
CN110580461A (zh) * 2019-08-29 2019-12-17 桂林电子科技大学 一种结合多级卷积特征金字塔的人脸表情识别算法
CN111144490A (zh) * 2019-12-26 2020-05-12 南京邮电大学 一种基于轮替知识蒸馏策略的细粒度识别方法
CN113408508A (zh) * 2021-08-20 2021-09-17 中国科学院自动化研究所 基于Transformer的非接触式心率测量方法
CN113537110A (zh) * 2021-07-26 2021-10-22 北京计算机技术及应用研究所 一种融合帧内帧间差异的虚假视频检测方法
CN113837147A (zh) * 2021-10-29 2021-12-24 山东省人工智能研究院 一种基于transformer的假视频检测方法
CN113887610A (zh) * 2021-09-29 2022-01-04 内蒙古工业大学 基于交叉注意力蒸馏Transformer的花粉图像分类方法
CN113903073A (zh) * 2021-11-23 2022-01-07 山东省人工智能研究院 一种基于局部增强transformer的假视频检测方法
CN114612791A (zh) * 2022-05-11 2022-06-10 西南民族大学 一种基于改进注意力机制的目标检测方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070154071A1 (en) * 2005-12-29 2007-07-05 Microsoft Corporation Signature verification
CN110580461A (zh) * 2019-08-29 2019-12-17 桂林电子科技大学 一种结合多级卷积特征金字塔的人脸表情识别算法
CN111144490A (zh) * 2019-12-26 2020-05-12 南京邮电大学 一种基于轮替知识蒸馏策略的细粒度识别方法
CN113537110A (zh) * 2021-07-26 2021-10-22 北京计算机技术及应用研究所 一种融合帧内帧间差异的虚假视频检测方法
CN113408508A (zh) * 2021-08-20 2021-09-17 中国科学院自动化研究所 基于Transformer的非接触式心率测量方法
CN113887610A (zh) * 2021-09-29 2022-01-04 内蒙古工业大学 基于交叉注意力蒸馏Transformer的花粉图像分类方法
CN113837147A (zh) * 2021-10-29 2021-12-24 山东省人工智能研究院 一种基于transformer的假视频检测方法
CN113903073A (zh) * 2021-11-23 2022-01-07 山东省人工智能研究院 一种基于局部增强transformer的假视频检测方法
CN114612791A (zh) * 2022-05-11 2022-06-10 西南民族大学 一种基于改进注意力机制的目标检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SOHAIL AHMED KHAN等: "Video Transformer for Deepfake Detection with Incremental Learning", 《MM \'21: PROCEEDINGS OF THE 29TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115471736A (zh) * 2022-11-02 2022-12-13 浙江君同智能科技有限责任公司 基于注意力机制和知识蒸馏的伪造图像检测方法和装置

Also Published As

Publication number Publication date
CN115205986B (zh) 2023-05-19

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN109543695B (zh) 基于多尺度深度学习的泛密度人群计数方法
CN113642634A (zh) 一种基于混合注意力的阴影检测方法
WO2021022571A1 (zh) 一种基于交互建模的多标记距离度量学习方法
CN110598018B (zh) 一种基于协同注意力的草图图像检索方法
CN111695456A (zh) 一种基于主动判别性跨域对齐的低分辨人脸识别方法
CN113408343B (zh) 基于双尺度时空分块互注意力的课堂动作识别方法
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
CN115019104A (zh) 基于多源域自注意力的小样本遥感图像分类方法及系统
CN113903073A (zh) 一种基于局部增强transformer的假视频检测方法
CN110188827A (zh) 一种基于卷积神经网络和递归自动编码器模型的场景识别方法
CN113837147A (zh) 一种基于transformer的假视频检测方法
CN111126464A (zh) 一种基于无监督域对抗领域适应的图像分类方法
CN114692741A (zh) 基于域不变特征的泛化人脸伪造检测方法
CN115359407A (zh) 一种视频中的多车辆跟踪方法
CN110851627B (zh) 一种用于描述全日面图像中太阳黑子群的方法
CN115205986A (zh) 一种基于知识蒸馏与transformer的假视频检测方法
CN116452862A (zh) 基于领域泛化学习的图像分类方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN115830637B (zh) 一种基于姿态估计和背景抑制的遮挡行人重识别方法
CN116453102A (zh) 一种基于深度学习的雾天车牌识别方法
CN116758340A (zh) 基于超分辨率特征金字塔和注意力机制的小目标检测方法
CN115761342A (zh) 一种肺部ct影像肺炎分类方法、装置及设备
CN115527064A (zh) 基于多阶段ViT与对比学习的毒蘑菇细粒度图像分类方法
Park et al. Cafenet: class-agnostic few-shot edge detection network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant