CN115205986B - 一种基于知识蒸馏与transformer的假视频检测方法 - Google Patents
一种基于知识蒸馏与transformer的假视频检测方法 Download PDFInfo
- Publication number
- CN115205986B CN115205986B CN202210946655.2A CN202210946655A CN115205986B CN 115205986 B CN115205986 B CN 115205986B CN 202210946655 A CN202210946655 A CN 202210946655A CN 115205986 B CN115205986 B CN 115205986B
- Authority
- CN
- China
- Prior art keywords
- attention
- global
- video
- msa
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/40—Spoof detection, e.g. liveness detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
一种基于知识蒸馏与transformer的假视频检测方法,通过对一个视频帧的脸图像提取多样的局部特征与全局特征,并利用多头注意力缩放技术提取多样的全局特征,并利用空间注意力缩放技术进行多样的全局特征精炼,最后送入分类器进行检测Deepfake视频的方法。由于空间注意力缩放技术的引入,检测到的deepfake的准确度明显优于其他方法。
Description
技术领域
本发明涉及Deepfake检测技术领域,具体涉及一种知识蒸馏与transformer的假视频检测方法。
背景技术
Deepfake是利用基于深度学习的技术Autoencoder、GAN等深度学习算法将源视频中的人脸换成目标视频人脸。目前常用的Deepfake检测方法很少考虑利用多样的局部特征与全局特征结合来检测假视频,因此检测精度与泛化性不高。
发明内容
本发明为了克服以上技术的不足,提供了一种利用知识蒸馏技术进一步增强模型精确性的基于知识蒸馏与transformer的假视频检测方法。
本发明克服其技术问题所采用的技术方案是:
一种基于知识蒸馏与transformer的假视频检测方法,包括如下步骤:
a)利用读视频算法对K个视频中的每个视频提取随机的视频帧,利用脸识别算法提取每个视频的随机视频帧中的人脸图像;
b)将人脸图像利用VGG19网络提取局部特征,将提取的局部特征输入局部多头注意力模块中,输出得到带有局部注意力特征图;
c)将带有局部注意力特征图输入到Enhanced-ViT模块中进行多样的精炼全局空间特征提取;
d)将精炼全局空间特征输入分类器中,经过softmax进行二分类真假检测,完成模型的建立;
e)利用损失函数迭代优化步骤d)中的模型,得到最优模型。
进一步的,步骤a)中利用python中的读视频算法VideoReader类对视频提取,得到随机的t个视频帧,对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像,将得到的脸放入对应真假类别文件夹下,在该文件夹下得到随机的t张人脸图像。
进一步的,步骤a)中得到的t张人脸图像的宽高分别调整为244、244,利用均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]对人脸图像进行归一化,将归一化后的连续帧的t张人脸图像封装为[b,c,h,w]的张量xi∈Rb×c×h×w,R为向量空间,其中视频标签为[b,0/1],xi为第i个视频批次,i∈{1,...,K×t/b},b为每批次视频的个数,c为每张人脸图像通道数,h为每张人脸图像的高,w为每张人脸图像的宽,0表示假视频,1表示真视频。
进一步的,步骤b)包括如下步骤:
b-1)将张量xi∈Rb×c×h×w输入到VGG19网络中,得到局部特征图xf∈Rb×512×7×7;
b-2)将局部特征图xf∈Rb×512×7×7输入到局部多头注意力模块中,将局部特征图xf∈Rb×512×7×7分别输入到LS-CNN模型中m个LANet block中分别输出得到注意力图 为第i个LANet block输出的注意力图,i∈{1,...,m},将注意力图/>利用torch库里的cat算法并联得到特征图xa∈Rb×m×7×7;
b-3)对特征图xa∈Rb×m×7×7利用torch库里的maximum算法逐元素取得最大值得到特征图xb∈Rb×1×7×7;
b-4)将特征图xb∈Rb×1×7×7与局部特征图xf∈Rb×512×7×7逐元素点乘得到带有局部注意力特征图xl∈Rb×512×7×7。
进一步的,步骤c)包括如下步骤:
c-1)利用torch库里的rearrange算法将带有局部注意力特征图xl∈Rb×512×7×7沿着通道拉平为2D特征xp∈Rb×49×512;
c-2)通过公式计算得到带有位置信息的二维图像块序列z0,式中/>为2D特征xp∈Rb×49×512中第i个图像特征块,i∈{1,...,N},N为2D特征xp∈Rb×49×512中图像特征块的总数,E为每一个图像特征块的位置embedding,E∈R512 ×D,D为不变的隐向量,Epos为位置embedding,Epos∈RN×D;
c-3)设置由L个连续的transformer block组成的Enhanced-ViT模型,每个transformer block依次由第一LayerNorm层、多头自注意力block、多头注意力缩放层、空间注意力缩放层、第一残差层、第二LayerNorm层、MLP block、第二残差层构成;
c-4)将带有位置信息的二维图像块序列z0输入第1个transformer block的第一LayerNorm层中进行归一化处理,得到归一化后的二维图像块序列z0,将归一化后的二维图像块序列z0输入到第1个transformer block的多头自注意力block中进行全局多头注意力计算,得到全局特征图MSA(LN(z0)),将全局特征图MSA(LN(z0))输入到第1个transformerblock的多头注意力缩放层中进行多样的多头自注意力计算,得到多样全局特征图MAS(MSA(LN(z0))),将多样全局特征图MAS(MSA(LN(z0)))输入到第1个transformer block的空间注意力缩放层,输出得到多样的精炼全局特征图SAS(MAS(MSA(LN(z0)))),将多样的精炼全局特征图SAS(MAS(MSA(LN(z0))))与带有位置信息的二维图像块序列z0输入到第一残差层中,通过公式z′0=SAS(MAS(MSA(LN(z0))))+z0计算得到二维全局空间特征z′0,将二维全局空间特征z′0输入到第二LayerNorm层中进行归一化处理,得到归一化后的二维全局空间特征z′0,将归一化后的二维全局空间特征z′0输入到MLP block中,输出得到二维空间特征图MLP(LN(z′0)),将二维空间特征图MLP(LN(z′0))与二维全局空间特征z′0输入到第二残差层中,通过公式z1=MLP(LN(z′0))+z′0计算得到第1个transformer block输出的多样的精炼全局空间特征z1;
c-5)将全局空间特征z1替代步骤c-4)中的二维图像块序列z0,重复执行步骤c-4),得到第2个transformer block输出的多样的精炼全局空间特征z2;
c-6)重复步骤c-5),将zl输入到第l+1个transformer block中,l={2,3...,L},得到所有L个transformer block输出的精炼全局空间特征{z1,z2…,zL}∈Rb×49×D。
进一步的,步骤c-4)中多头自注意力block中进行全局多头注意力计算方法为:将归一化后的二维图像块序列z0输入到一个输入维度为D、输出维度为3*D的线性层后输出得到特征图QKV∈Rb×49×(3*D),利用torch库里的rearrange算法将特征图QKV∈Rb×49×(3*D)沿着通道分别拉平为2D特征Q∈Rb×49×D、K∈Rb×49×D、V∈Rb×49×D,Q为特征图的查询向量,K为特征图的键向量,V为特征图的值向量,将2D特征Q∈Rb×49×D、K∈Rb×49×D、V∈Rb×49×D分别分为j个头,分别得到含有j个头空间的Q∈Rb×j×49×r、K∈Rb×j×49×r、V∈Rb×j×49×r,每个头的维度为r,r=D/j,通过公式计算得到全局特征图MSA(LN(z0)),MSA(LN(z0))∈Rb×j×49×r,式中Softmax(·)为Softmax激活函数,T为转置。
进一步的,步骤c-4)中多头注意力缩放层中进行多样的多头自注意力计算的方法为:通过公式计算得到多样全局特征图MAS(MSA(LN(z0))),式中σ为注意力参数,σ∈Rj×1×1,*为逐元素点乘操作。
进一步的,步骤c-4)中空间注意力缩放层的计算方法为:通过公式SAS(MAS(MSA(LN(z0))))=W×MAS(MSA(LN(z0)))计算得到多样的精炼全局特征图SAS(MAS(MSA(LN(z0)))),式中W为空间注意力对角矩阵,W∈R49×49,×为矩阵相乘操作。
进一步的,步骤d)包括如下步骤:
d-1)利用torch库里的mean算法对精炼全局空间特征zL每列求均值得到xc∈Rb×D,将xc∈Rb×D输入transformer的MLP head模块的第一个输入维度为D输出维度为2的线性层后输出得到模型预测图像类别表示y′,y′=xcWc,式中Wc为分类器参数,Wc∈RD×2,y′∈Rb×2;
d-2)将模型预测图像类别表示y′经过softmax函数转换为概率值,对概率值每行元素取最大值索引,当索引值为0,则该图像为假图片,当索引值为1,则该图像为真图片。
进一步的,步骤e)包括如下步骤:
e-1)通过公式L=Lce+αLCt-c计算得到第一总损失函数L,式中Lce为交叉熵损失函数,α为平衡因子常数,LCt-c为对比中心损失函数,||·||2为L2范数,yk为标签,yk∈{0,1},/>为第yk个类别中心点的特征,/> 为实数空间,δ为常数,k为类别数;
e-2)利用Adam优化器优化第一总损失函数L,完成步骤d)中模型训练,得到第一老师模型Zt;
e-3)另Zs等于Zt,得到第一学生模型Zs;
e-4)通过公式L=Lce+αLCt-c+βlKD计算得到第二总损失L,式中β为平衡因子常数,lKD为知识蒸馏损失函数,σ(·)为softmax函数,y为第一老师模型Zt的预测类别表示,/>为第一学生模型Zs的预测类别表示;
e-5)利用Adam优化器优化第二总损失L完成第一生模型Zs训练得到第二老师模型Zt′;
e-6)令Zs′=Zt′得到第二学生模型Zs′;
e-7)将第二学生模型Zs′代替步骤e-3)中的第一学生模型Zs,重复执行步骤e-4)至e-5)三次,得到最优模型。
本发明的有益效果是:
附图说明
图1为本发明的方法流程图。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种基于知识蒸馏与transformer的假视频检测方法,包括如下步骤:
a)利用读视频算法对K个视频中的每个视频提取随机的视频帧,利用脸识别算法提取每个视频的随机视频帧中的人脸图像。
b)将人脸图像利用VGG19网络提取局部特征,将提取的局部特征输入局部多头注意力模块中,输出得到带有局部注意力特征图。
c)将带有局部注意力特征图输入到Enhanced-ViT模块中进行多样的精炼全局空间特征提取。
d)将精炼全局空间特征输入分类器中,经过softmax进行二分类真假检测,完成模型的建立。
e)利用利用知识蒸馏损失函数、交叉熵损失函数及对比中心损失函数迭代优化步骤d)中的模型,得到最优模型,进一步提高检测性能。
该技术比现有技术有较好的泛化能力即能够在各种deepfake数据集上有较优越的检测性能,同时该技术里的即插即用的空间注意力缩放层与多头注意力缩放层能够被插入到任何基于transformer的模型,为基于transformer的模型实现性能提升。
实施例1:
步骤a)中利用python中的读视频算法VideoReader类对视频提取,得到随机的t个视频帧,对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像,将得到的脸放入对应真假类别文件夹下,在该文件夹下得到随机的t张人脸图像。
实施例2:
步骤a)中得到的t张人脸图像的宽高分别调整为244、244,利用均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]对人脸图像进行归一化,将归一化后的连续帧的t张人脸图像封装为[b,c,h,w]的张量xi∈Rb×c×h×w,R为向量空间,其中视频标签为[b,0/1],xi为第i个视频批次,i∈{1,…,K×t/b},b为每批次视频的个数,c为每张人脸图像通道数,h为每张人脸图像的高,w为每张人脸图像的宽,0表示假视频,1表示真视频。
实施例3:
步骤b)包括如下步骤:
b-1)将张量xi∈Rb×c×h×w输入到VGG19网络中,得到局部特征图xf∈Rb×512×7×7。
b-2)将局部特征图xf∈Rb×512×7×7输入到局部多头注意力模块中,将局部特征图xf∈Rb×512×7×7分别输入到LS-CNN模型中m个LANet block中分别输出得到注意力图 为第i个LANet block输出的注意力图,i∈{1,…,m},将注意力图/>利用torch库里的cat算法并联得到特征图xa∈Rb×m×7×7。
b-3)对特征图xa∈Rb×m×7×7利用torch库里的maximum算法逐元素取得最大值得到特征图xb∈Rb×1×7×7。
b-4)将特征图xb∈Rb×1×7×7与局部特征图xf∈Rb×512×7×7逐元素点乘得到带有局部注意力特征图xl∈Rb×512×7×7。
实施例4:
步骤c)包括如下步骤:
c-1)利用torch库里的rearrange算法将带有局部注意力特征图xl∈Rb×512×7×7沿着通道拉平为2D特征xp∈Rb×49×512。
c-2)通过公式计算得到带有位置信息的二维图像块序列z0,式中/>为2D特征xp∈Rb×49×512中第i个图像特征块,i∈{1,...,N},N为2D特征xp∈Rb×49×512中图像特征块的总数,E为每一个图像特征块的位置embedding,E∈R512×D,D为不变的隐向量,Epos为位置embedding,Epos∈RN×D。
c-3)设置由L个连续的transformer block组成的Enhanced-ViT模型,每个transformer block依次由第一LayerNorm层、多头自注意力block、多头注意力缩放层、空间注意力缩放层、第一残差层、第二LayerNorm层、MLP block、第二残差层构成。
c-4)将带有位置信息的二维图像块序列z0输入第1个transformer block的第一LayerNorm层中进行归一化处理,得到归一化后的二维图像块序列z0,将归一化后的二维图像块序列z0输入到第1个transformer block的多头自注意力block中进行全局多头注意力计算,得到全局特征图MSA(LN(z0)),将全局特征图MSA(LN(z0))输入到第1个transformerblock的多头注意力缩放层中进行多样的多头自注意力计算,得到多样全局特征图MAS(MSA(LN(z0))),将多样全局特征图MAS(MSA(LN(z0)))输入到第1个transformer block的空间注意力缩放层,输出得到多样的精炼全局特征图SAS(MAS(MSA(LN(z0)))),将多样的精炼全局特征图SAS(MAS(MSA(LN(z0))))与带有位置信息的二维图像块序列z0输入到第一残差层中,通过公式z′0=SAS(MAS(MSA(LN(z0))))+z0计算得到二维全局空间特征z′0,将二维全局空间特征z′0输入到第二LayerNorm层中进行归一化处理,得到归一化后的二维全局空间特征z′0,将归一化后的二维全局空间特征z′0输入到MLP block中,输出得到二维空间特征图MLP(LN(z′0)),将二维空间特征图MLP(LN(z′0))与二维全局空间特征z′0输入到第二残差层中,通过公式z1=MLP(LN(z′0))+z′0计算得到第1个transformer block输出的多样的精炼全局空间特征z1。
c-5)将全局空间特征z1替代步骤c-4)中的二维图像块序列z0,重复执行步骤c-4),得到第2个transformer block输出的多样的精炼全局空间特征z2。
c-6)重复步骤c-5),将zl输入到第l+1个transformer block中,l={2,3...,L},得到所有L个transformer block输出的精炼全局空间特征{z1,z2...,zL}∈Rb×49×D。
实施例5:
步骤c-4)中多头自注意力block中进行全局多头注意力计算方法为:将归一化后的二维图像块序列z0输入到一个输入维度为D、输出维度为3*D的线性层后输出得到特征图QKV∈Rb×49×(3*D),利用torch库里的rearrange算法将特征图QKV∈Rb×49×(3*D)沿着通道分别拉平为2D特征Q∈Rb×49×D、K∈Rb×49×D、V∈Rb×49×D,Q为特征图的查询向量,K为特征图的键向量,V为特征图的值向量,将2D特征Q∈Rb×49×D、K∈Rb×49×D、V∈Rb×49×D分别分为j个头,分别得到含有j个头空间的Q∈Rb×j×49×r、K∈Rb×j×49×r、V∈Rb×j×49×r,每个头的维度为r,r=D/j,通过公式计算得到全局特征图MSA(LN(z0)),MSA(LN(z0))∈Rb×j×49×r,式中Softmax(·)为Softmax激活函数,T为转置。
实施例6:
实施例7:
步骤c-4)中空间注意力缩放层的计算方法为:通过公式SAS(MAS(MSA(LN(z0))))=W×MAS(MSA(LN(z0)))计算得到多样的精炼全局特征图SAS(MAS(MSA(LN(z0)))),式中W为空间注意力对角矩阵,W∈R49×49,×为矩阵相乘操作。
实施例8:
步骤d)包括如下步骤:
d-1)利用torch库里的mean算法对精炼全局空间特征zL每列求均值得到xc∈Rb×D,将xc∈Rb×D输入transformer的MLP head模块的第一个输入维度为D输出维度为2的线性层后输出得到模型预测图像类别表示y′,y′=xcWc,式中Wc为分类器参数,Wc∈RD×2,y′∈Rb×2;
d-2)将模型预测图像类别表示y′经过softmax函数转换为概率值,对概率值每行元素取最大值索引,当索引值为0,则该图像为假图片,当索引值为1,则该图像为真图片。
实施例9:
步骤e)包括如下步骤:
e-1)通过公式L=Lce+αLCt-c计算得到第一总损失函数L,式中Lce为交叉熵损失函数,α为平衡因子常数,LCt-c为对比中心损失函数,||·||2为L2范数,yk为标签,yk∈{0,1},/>为第yk个类别中心点的特征,/> 为实数空间,δ为常数,k为类别数;
e-2)利用Adam优化器优化第一总损失函数L,完成步骤d)中模型训练,得到第一老师模型Zt;
e-3)另Zs等于Zt,得到第一学生模型Zs;
e-4)通过公式L=Lce+αLCt-c+βlKD计算得到第二总损失L,式中β为平衡因子常数,lKD为知识蒸馏损失函数,σ(·)为softmax函数,y为第一老师模型Zt的预测类别表示,/>为第一学生模型Zs的预测类别表示;/>
e-5)利用Adam优化器优化第二总损失L完成第一生模型Zs训练得到第二老师模型Zt′;
e-6)令Zs′=Zt′得到第二学生模型Zs′;
e-7)将第二学生模型Zs′代替步骤e-3)中的第一学生模型Zs,重复执行步骤e-4)至e-5)三次,得到最优模型。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于知识蒸馏与transformer的假视频检测方法,其特征在于,包括如下步骤:
a)利用读视频算法对K个视频中的每个视频提取随机的视频帧,利用脸识别算法提取每个视频的随机视频帧中的人脸图像;
b)将人脸图像利用VGG19网络提取局部特征,将提取的局部特征输入局部多头注意力模块中,输出得到带有局部注意力特征图;
c)将带有局部注意力特征图输入到Enhanced-ViT模块中进行多样的精炼全局空间特征提取;
d)将精炼全局空间特征输入分类器中,经过softmax进行二分类真假检测,完成模型的建立;
e)利用损失函数迭代优化步骤d)中的模型,得到最优模型;
步骤a)中利用python中的读视频算法VideoReader类对视频提取,得到随机的t个视频帧,对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像,将得到的脸放入对应真假类别文件夹下,在该文件夹下得到随机的t张人脸图像;
步骤a)中得到的t张人脸图像的宽高分别调整为244、244,利用均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]对人脸图像进行归一化,将归一化后的连续帧的t张人脸图像封装为[b,c,h,w]的张量xi∈Rb×c×h×w,R为向量空间,其中视频标签为[b,0/1],xi为第i个视频批次,i∈{1,...,K×t/b},b为每批次视频的个数,c为每张人脸图像通道数,h为每张人脸图像的高,w为每张人脸图像的宽,0表示假视频,1表示真视频;
步骤b)包括如下步骤:
b-1)将张量xi∈Rb×c×h×w输入到VGG19网络中,得到局部特征图xf∈Rb×512×7×7;
b-2)将局部特征图xf∈Rb×512×7×7输入到局部多头注意力模块中,将局部特征图xf∈Rb ×512×7×7分别输入到LS-CNN模型中m个LANet block中分别输出得到注意力图 为第i个LANet block输出的注意力图,i∈{1,...,m},将注意力图/>利用torch库里的cat算法并联得到特征图xa∈Rb×m×7×7;
b-3)对特征图xa∈Rb×m×7×7利用torch库里的maximum算法逐元素取得最大值得到特征图xb∈Rb×1×7×7;
b-4)将特征图xb∈Rb×1×7×7与局部特征图xf∈Rb×512×7×7逐元素点乘得到带有局部注意力特征图xl∈Rb×512×7×7;
步骤c)包括如下步骤:
c-1)利用torch库里的rearrange算法将带有局部注意力特征图xl∈Rb×512×7×7沿着通道拉平为2D特征xp∈Rb×49×512;
c-2)通过公式计算得到带有位置信息的二维图像块序列z0,式中/>为2D特征xp∈Rb×49×512中第i个图像特征块,i∈{1,...,N},N为2D特征xp∈Rb×49×512中图像特征块的总数,E为每一个图像特征块的位置embedding,E∈R512×D,D为不变的隐向量,Epos为位置embedding,Epos∈RN×D;
c-3)设置由L个连续的transformer block组成的Enhanced-ViT模型,每个transformer block依次由第一LayerNorm层、多头自注意力block、多头注意力缩放层、空间注意力缩放层、第一残差层、第二LayerNorm层、MLP block、第二残差层构成;
c-4)将带有位置信息的二维图像块序列z0输入第1个transformer block的第一LayerNorm层中进行归一化处理,得到归一化后的二维图像块序列z0,将归一化后的二维图像块序列z0输入到第1个transformer block的多头自注意力block中进行全局多头注意力计算,得到全局特征图MSA(LN(z0)),将全局特征图MSA(LN(z0))输入到第1个transformerblock的多头注意力缩放层中进行多样的多头自注意力计算,得到多样全局特征图MAS(MSA(LN(z0))),将多样全局特征图MAS(MSA(LN(z0)))输入到第1个transformer block的空间注意力缩放层,输出得到多样的精炼全局特征图SAS(MAS(MSA(LN(z0)))),将多样的精炼全局特征图SAS(MAS(MSA(LN(z0))))与带有位置信息的二维图像块序列z0输入到第一残差层中,通过公式z′0=SAS(MAS(MSA(LN(z0))))+z0计算得到二维全局空间特征z′0,将二维全局空间特征z′0输入到第二LayerNorm层中进行归一化处理,得到归一化后的二维全局空间特征z′0,将归一化后的二维全局空间特征z′0输入到MLP block中,输出得到二维空间特征图MLP(LN(z′0)),将二维空间特征图MLP(LN(z′0))与二维全局空间特征z′0输入到第二残差层中,通过公式z1=MLP(LN(z′0))+z′0计算得到第1个transformer block输出的多样的精炼全局空间特征z1;
c-5)将全局空间特征z1替代步骤c-4)中的二维图像块序列z0,重复执行步骤
c-4),得到第2个transformer block输出的多样的精炼全局空间特征z2;
c-6)重复步骤c-5),将zl输入到第l+1个transformer block中,l={2,3...,L},得到所有L个transformer block输出的精炼全局空间特征{z1,z2...,zL}∈Rb×49×D。
2.根据权利要求1所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于,步骤c-4)中多头自注意力block中进行全局多头注意力计算方法为:将归一化后的二维图像块序列z0输入到一个输入维度为D、输出维度为3*D的线性层后输出得到特征图QKV∈Rb ×49×(3*D),利用torch库里的rearrange算法将特征图QKV∈Rb×49×(3*D)沿着通道分别拉平为2D特征Q∈Rb×49×D、K∈Rb×49×D、V∈Rb×49×D,Q为特征图的查询向量,K为特征图的键向量,V为特征图的值向量,将2D特征Q∈Rb×49×D、K∈Rb×49×D、V∈Rb×49×D分别分为j个头,分别得到含有j个头空间的Q∈Rb×j×49×r、K∈Rb×j×49×r、V∈Rb×j×49×r,每个头的维度为r,r=D/j,通过公式计算得到全局特征图MSA(LN(z0)),MSA(LN(z0))∈Rb ×j×49×r,式中Softmax(·)为Softmax激活函数,T为转置。
4.根据权利要求3所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于,步骤c-4)中空间注意力缩放层的计算方法为:通过公式SAS(MAS(MSA(LN(z0))))=W×MAS(MSA(LN(z0)))计算得到多样的精炼全局特征图SAS(MAS(MSA(LN(z0)))),式中W为空间注意力对角矩阵,W∈R49×49,×为矩阵相乘操作。
5.根据权利要求1所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于,步骤d)包括如下步骤:
d-1)利用torch库里的mean算法对精炼全局空间特征zL每列求均值得到xc∈Rb×D,将xc∈Rb×D输入transformer的MLP head模块的第一个输入维度为D输出维度为2的线性层后输出得到模型预测图像类别表示y′,y′=xcWc,式中Wc为分类器参数,Wc∈RD×2,y′∈Rb×2;
d-2)将模型预测图像类别表示y′经过softmax函数转换为概率值,对概率值每行元素取最大值索引,当索引值为0,则该图像为假图片,当索引值为1,则该图像为真图片。
6.根据权利要求5所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于,步骤e)包括如下步骤:
e-1)通过公式L=Lce+αLCt-c计算得到第一总损失函数L,式中Lce为交叉熵损失函数,α为平衡因子常数,LCt-c为对比中心损失函数,||·||2为L2范数,yk为标签,yk∈{0,1},/>为第yk个类别中心点的特征,/> 为实数空间,δ为常数,k为类别数;
e-2)利用Adam优化器优化第一总损失函数L,完成步骤d)中模型训练,得到第一老师模型Zt;
e-3)另Zs等于Zt,得到第一学生模型Zs;
e-4)通过公式L=Lce+αLCt-c+βlKD计算得到第二总损失L,式中β为平衡因子常数,lKD为知识蒸馏损失函数,σ(·)为softmax函数,y为第一老师模型Zt的预测类别表示,/>为第一学生模型Zs的预测类别表示;
e-5)利用Adam优化器优化第二总损失L完成第一生模型Zs训练得到第二老师模型Zt′;
e-6)令Zs′=Zt′得到第二学生模型Zs′;
e-7)将第二学生模型Zs′代替步骤e-3)中的第一学生模型Zs,重复执行步骤e-4)至e-5)三次,得到最优模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210946655.2A CN115205986B (zh) | 2022-08-09 | 2022-08-09 | 一种基于知识蒸馏与transformer的假视频检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210946655.2A CN115205986B (zh) | 2022-08-09 | 2022-08-09 | 一种基于知识蒸馏与transformer的假视频检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115205986A CN115205986A (zh) | 2022-10-18 |
CN115205986B true CN115205986B (zh) | 2023-05-19 |
Family
ID=83585670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210946655.2A Active CN115205986B (zh) | 2022-08-09 | 2022-08-09 | 一种基于知识蒸馏与transformer的假视频检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205986B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115471736A (zh) * | 2022-11-02 | 2022-12-13 | 浙江君同智能科技有限责任公司 | 基于注意力机制和知识蒸馏的伪造图像检测方法和装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580461A (zh) * | 2019-08-29 | 2019-12-17 | 桂林电子科技大学 | 一种结合多级卷积特征金字塔的人脸表情识别算法 |
CN111144490A (zh) * | 2019-12-26 | 2020-05-12 | 南京邮电大学 | 一种基于轮替知识蒸馏策略的细粒度识别方法 |
CN113408508A (zh) * | 2021-08-20 | 2021-09-17 | 中国科学院自动化研究所 | 基于Transformer的非接触式心率测量方法 |
CN113537110A (zh) * | 2021-07-26 | 2021-10-22 | 北京计算机技术及应用研究所 | 一种融合帧内帧间差异的虚假视频检测方法 |
CN113837147A (zh) * | 2021-10-29 | 2021-12-24 | 山东省人工智能研究院 | 一种基于transformer的假视频检测方法 |
CN113887610A (zh) * | 2021-09-29 | 2022-01-04 | 内蒙古工业大学 | 基于交叉注意力蒸馏Transformer的花粉图像分类方法 |
CN113903073A (zh) * | 2021-11-23 | 2022-01-07 | 山东省人工智能研究院 | 一种基于局部增强transformer的假视频检测方法 |
CN114612791A (zh) * | 2022-05-11 | 2022-06-10 | 西南民族大学 | 一种基于改进注意力机制的目标检测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7529391B2 (en) * | 2005-12-29 | 2009-05-05 | Microsoft Corporation | Signature verification |
-
2022
- 2022-08-09 CN CN202210946655.2A patent/CN115205986B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110580461A (zh) * | 2019-08-29 | 2019-12-17 | 桂林电子科技大学 | 一种结合多级卷积特征金字塔的人脸表情识别算法 |
CN111144490A (zh) * | 2019-12-26 | 2020-05-12 | 南京邮电大学 | 一种基于轮替知识蒸馏策略的细粒度识别方法 |
CN113537110A (zh) * | 2021-07-26 | 2021-10-22 | 北京计算机技术及应用研究所 | 一种融合帧内帧间差异的虚假视频检测方法 |
CN113408508A (zh) * | 2021-08-20 | 2021-09-17 | 中国科学院自动化研究所 | 基于Transformer的非接触式心率测量方法 |
CN113887610A (zh) * | 2021-09-29 | 2022-01-04 | 内蒙古工业大学 | 基于交叉注意力蒸馏Transformer的花粉图像分类方法 |
CN113837147A (zh) * | 2021-10-29 | 2021-12-24 | 山东省人工智能研究院 | 一种基于transformer的假视频检测方法 |
CN113903073A (zh) * | 2021-11-23 | 2022-01-07 | 山东省人工智能研究院 | 一种基于局部增强transformer的假视频检测方法 |
CN114612791A (zh) * | 2022-05-11 | 2022-06-10 | 西南民族大学 | 一种基于改进注意力机制的目标检测方法及装置 |
Non-Patent Citations (1)
Title |
---|
Sohail Ahmed Khan等.Video Transformer for Deepfake Detection with Incremental Learning.《MM '21: Proceedings of the 29th ACM International Conference on Multimedia》.2021,第1821-1828页. * |
Also Published As
Publication number | Publication date |
---|---|
CN115205986A (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN111738355B (zh) | 注意力融合互信息的图像分类方法、装置及存储介质 | |
KR20040008792A (ko) | 얼굴/유사얼굴 영상으로 학습된 패턴 분류기를 이용한얼굴 검출 방법 및 시스템 | |
CN111062277B (zh) | 基于单目视觉的手语-唇语转化方法 | |
Ocegueda et al. | Which parts of the face give out your identity? | |
WO2021022571A1 (zh) | 一种基于交互建模的多标记距离度量学习方法 | |
CN111709313B (zh) | 基于局部和通道组合特征的行人重识别方法 | |
CN112800876A (zh) | 一种用于重识别的超球面特征嵌入方法及系统 | |
CN115205986B (zh) | 一种基于知识蒸馏与transformer的假视频检测方法 | |
CN104700078A (zh) | 一种基于尺度不变特征极限学习机的机器人场景识别方法 | |
CN113408343B (zh) | 基于双尺度时空分块互注意力的课堂动作识别方法 | |
CN116311483B (zh) | 基于局部面部区域重构和记忆对比学习的微表情识别方法 | |
CN113221987A (zh) | 一种基于交叉注意力机制的小样本目标检测方法 | |
CN110188827A (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
CN115019104A (zh) | 基于多源域自注意力的小样本遥感图像分类方法及系统 | |
CN112966740A (zh) | 基于核心样本自适应扩充的小样本高光谱图像分类方法 | |
CN110851627B (zh) | 一种用于描述全日面图像中太阳黑子群的方法 | |
CN115359407A (zh) | 一种视频中的多车辆跟踪方法 | |
CN111291705A (zh) | 一种跨多目标域行人重识别方法 | |
Oluwasanmi et al. | Attentively conditioned generative adversarial network for semantic segmentation | |
CN113762151A (zh) | 一种故障数据处理方法、系统及故障预测方法 | |
CN114332623A (zh) | 一种利用空间变换生成对抗样本的方法和系统 | |
CN109815889A (zh) | 一种基于特征表示集的跨分辨率人脸识别方法 | |
CN113344146A (zh) | 基于双重注意力机制的图像分类方法、系统及电子设备 | |
CN111325194A (zh) | 一种文字识别方法、装置及设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |