CN115205986B

CN115205986B - 一种基于知识蒸馏与transformer的假视频检测方法

Info

Publication number: CN115205986B
Application number: CN202210946655.2A
Authority: CN
Inventors: 王英龙; 张亚宁; 舒明雷; 刘瑞霞; 周书旺
Original assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Current assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Priority date: 2022-08-09
Filing date: 2022-08-09
Publication date: 2023-05-19
Anticipated expiration: 2042-08-09
Also published as: CN115205986A

Abstract

一种基于知识蒸馏与transformer的假视频检测方法，通过对一个视频帧的脸图像提取多样的局部特征与全局特征，并利用多头注意力缩放技术提取多样的全局特征，并利用空间注意力缩放技术进行多样的全局特征精炼，最后送入分类器进行检测Deepfake视频的方法。由于空间注意力缩放技术的引入，检测到的deepfake的准确度明显优于其他方法。

Description

一种基于知识蒸馏与transformer的假视频检测方法

技术领域

本发明涉及Deepfake检测技术领域，具体涉及一种知识蒸馏与transformer的假视频检测方法。

背景技术

Deepfake是利用基于深度学习的技术Autoencoder、GAN等深度学习算法将源视频中的人脸换成目标视频人脸。目前常用的Deepfake检测方法很少考虑利用多样的局部特征与全局特征结合来检测假视频，因此检测精度与泛化性不高。

发明内容

本发明为了克服以上技术的不足，提供了一种利用知识蒸馏技术进一步增强模型精确性的基于知识蒸馏与transformer的假视频检测方法。

本发明克服其技术问题所采用的技术方案是：

一种基于知识蒸馏与transformer的假视频检测方法，包括如下步骤：

a)利用读视频算法对K个视频中的每个视频提取随机的视频帧，利用脸识别算法提取每个视频的随机视频帧中的人脸图像；

b)将人脸图像利用VGG19网络提取局部特征，将提取的局部特征输入局部多头注意力模块中，输出得到带有局部注意力特征图；

c)将带有局部注意力特征图输入到Enhanced-ViT模块中进行多样的精炼全局空间特征提取；

d)将精炼全局空间特征输入分类器中，经过softmax进行二分类真假检测，完成模型的建立；

e)利用损失函数迭代优化步骤d)中的模型，得到最优模型。

进一步的，步骤a)中利用python中的读视频算法VideoReader类对视频提取，得到随机的t个视频帧，对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像，将得到的脸放入对应真假类别文件夹下，在该文件夹下得到随机的t张人脸图像。

进一步的，步骤a)中得到的t张人脸图像的宽高分别调整为244、244，利用均值为[0.485,0.456,0.406]，方差为[0.229,0.224,0.225]对人脸图像进行归一化，将归一化后的连续帧的t张人脸图像封装为[b,c,h,w]的张量x_i∈R^b×c×h×w，R为向量空间，其中视频标签为[b,0/1]，x_i为第i个视频批次，i∈{1,...,K×t/b}，b为每批次视频的个数，c为每张人脸图像通道数，h为每张人脸图像的高，w为每张人脸图像的宽，0表示假视频，1表示真视频。

进一步的，步骤b)包括如下步骤：

b-1)将张量x_i∈R^b×c×h×w输入到VGG19网络中，得到局部特征图x_f∈R^b×512×7×7；

b-2)将局部特征图x_f∈R^b×512×7×7输入到局部多头注意力模块中，将局部特征图x_f∈R^b×512×7×7分别输入到LS-CNN模型中m个LANet block中分别输出得到注意力图

为第i个LANet block输出的注意力图，i∈{1,...,m}，将注意力图/>

利用torch库里的cat算法并联得到特征图x_a∈R^b×m×7×7；

b-3)对特征图x_a∈R^b×m×7×7利用torch库里的maximum算法逐元素取得最大值得到特征图x_b∈R^b×1×7×7；

b-4)将特征图x_b∈R^b×1×7×7与局部特征图x_f∈R^b×512×7×7逐元素点乘得到带有局部注意力特征图x_l∈R^b×512×7×7。

进一步的，步骤c)包括如下步骤：

c-1)利用torch库里的rearrange算法将带有局部注意力特征图x_l∈R^b×512×7×7沿着通道拉平为2D特征x_p∈R^b×49×512；

c-2)通过公式

计算得到带有位置信息的二维图像块序列z₀，式中/>

为2D特征x_p∈R^b×49×512中第i个图像特征块，i∈{1,...,N}，N为2D特征x_p∈R^b×49×512中图像特征块的总数，E为每一个图像特征块的位置embedding，E∈R⁵¹² ^×D，D为不变的隐向量，E_pos为位置embedding，E_pos∈R^N×D；

c-3)设置由L个连续的transformer block组成的Enhanced-ViT模型，每个transformer block依次由第一LayerNorm层、多头自注意力block、多头注意力缩放层、空间注意力缩放层、第一残差层、第二LayerNorm层、MLP block、第二残差层构成；

c-4)将带有位置信息的二维图像块序列z₀输入第1个transformer block的第一LayerNorm层中进行归一化处理，得到归一化后的二维图像块序列z₀，将归一化后的二维图像块序列z₀输入到第1个transformer block的多头自注意力block中进行全局多头注意力计算，得到全局特征图MSA(LN(z₀))，将全局特征图MSA(LN(z₀))输入到第1个transformerblock的多头注意力缩放层中进行多样的多头自注意力计算，得到多样全局特征图MAS(MSA(LN(z₀)))，将多样全局特征图MAS(MSA(LN(z₀)))输入到第1个transformer block的空间注意力缩放层，输出得到多样的精炼全局特征图SAS(MAS(MSA(LN(z₀)))),将多样的精炼全局特征图SAS(MAS(MSA(LN(z₀))))与带有位置信息的二维图像块序列z₀输入到第一残差层中，通过公式z′₀＝SAS(MAS(MSA(LN(z₀))))+z₀计算得到二维全局空间特征z′₀，将二维全局空间特征z′₀输入到第二LayerNorm层中进行归一化处理，得到归一化后的二维全局空间特征z′₀，将归一化后的二维全局空间特征z′₀输入到MLP block中，输出得到二维空间特征图MLP(LN(z′₀))，将二维空间特征图MLP(LN(z′₀))与二维全局空间特征z′₀输入到第二残差层中，通过公式z₁＝MLP(LN(z′₀))+z′₀计算得到第1个transformer block输出的多样的精炼全局空间特征z₁；

c-5)将全局空间特征z₁替代步骤c-4)中的二维图像块序列z₀，重复执行步骤c-4)，得到第2个transformer block输出的多样的精炼全局空间特征z₂；

c-6)重复步骤c-5)，将z_l输入到第l+1个transformer block中，l＝{2,3...,L}，得到所有L个transformer block输出的精炼全局空间特征{z₁,z₂…,z_L}∈R^b×49×D。

进一步的，步骤c-4)中多头自注意力block中进行全局多头注意力计算方法为：将归一化后的二维图像块序列z₀输入到一个输入维度为D、输出维度为3*D的线性层后输出得到特征图QKV∈R^b×49×(3*D)，利用torch库里的rearrange算法将特征图QKV∈R^b×49×(3*D)沿着通道分别拉平为2D特征Q∈R^b×49×D、K∈R^b×49×D、V∈R^b×49×D，Q为特征图的查询向量，K为特征图的键向量，V为特征图的值向量，将2D特征Q∈R^b×49×D、K∈R^b×49×D、V∈R^b×49×D分别分为j个头，分别得到含有j个头空间的Q∈R^b×j×49×r、K∈R^b×j×49×r、V∈R^b×j×49×r，每个头的维度为r，r＝D/j，通过公式

计算得到全局特征图MSA(LN(z₀))，MSA(LN(z₀))∈R^b×j×49×r，式中Softmax(·)为Softmax激活函数，T为转置。

进一步的，步骤c-4)中多头注意力缩放层中进行多样的多头自注意力计算的方法为：通过公式

计算得到多样全局特征图MAS(MSA(LN(z₀)))，式中σ为注意力参数，σ∈R^j×1×1，*为逐元素点乘操作。

进一步的，步骤c-4)中空间注意力缩放层的计算方法为：通过公式SAS(MAS(MSA(LN(z₀))))＝W×MAS(MSA(LN(z₀)))计算得到多样的精炼全局特征图SAS(MAS(MSA(LN(z₀))))，式中W为空间注意力对角矩阵，W∈R^49×49，×为矩阵相乘操作。

进一步的，步骤d)包括如下步骤：

d-1)利用torch库里的mean算法对精炼全局空间特征z_L每列求均值得到x^c∈R^b×D，将x^c∈R^b×D输入transformer的MLP head模块的第一个输入维度为D输出维度为2的线性层后输出得到模型预测图像类别表示y′，y′＝x^cW^c，式中W^c为分类器参数，W^c∈R^D×2，y′∈R^b×2；

d-2)将模型预测图像类别表示y′经过softmax函数转换为概率值，对概率值每行元素取最大值索引，当索引值为0，则该图像为假图片，当索引值为1，则该图像为真图片。

进一步的，步骤e)包括如下步骤：

e-1)通过公式L＝L_ce+αL_Ct-c计算得到第一总损失函数L，式中L_ce为交叉熵损失函数，α为平衡因子常数，L_Ct-c为对比中心损失函数，

||·||₂为L2范数，y_k为标签，y_k∈{0,1}，/>

为第yk个类别中心点的特征，/>

为实数空间，δ为常数，k为类别数；

e-2)利用Adam优化器优化第一总损失函数L，完成步骤d)中模型训练，得到第一老师模型Z_t；

e-3)另Z_s等于Z_t，得到第一学生模型Z_s；

e-4)通过公式L＝L_ce+αL_Ct-c+βl_KD计算得到第二总损失L，式中β为平衡因子常数，l_KD为知识蒸馏损失函数，

σ(·)为softmax函数，y为第一老师模型Z_t的预测类别表示，/>

为第一学生模型Z_s的预测类别表示；

e-5)利用Adam优化器优化第二总损失L完成第一生模型Z_s训练得到第二老师模型Z_t′；

e-6)令Z_s′＝Z_t′得到第二学生模型Z_s′；

e-7)将第二学生模型Z_s′代替步骤e-3)中的第一学生模型Z_s，重复执行步骤e-4)至e-5)三次，得到最优模型。

本发明的有益效果是：

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图1对本发明做进一步说明。

a)利用读视频算法对K个视频中的每个视频提取随机的视频帧，利用脸识别算法提取每个视频的随机视频帧中的人脸图像。

b)将人脸图像利用VGG19网络提取局部特征，将提取的局部特征输入局部多头注意力模块中，输出得到带有局部注意力特征图。

c)将带有局部注意力特征图输入到Enhanced-ViT模块中进行多样的精炼全局空间特征提取。

d)将精炼全局空间特征输入分类器中，经过softmax进行二分类真假检测，完成模型的建立。

e)利用利用知识蒸馏损失函数、交叉熵损失函数及对比中心损失函数迭代优化步骤d)中的模型，得到最优模型，进一步提高检测性能。

该技术比现有技术有较好的泛化能力即能够在各种deepfake数据集上有较优越的检测性能，同时该技术里的即插即用的空间注意力缩放层与多头注意力缩放层能够被插入到任何基于transformer的模型，为基于transformer的模型实现性能提升。

实施例1：

步骤a)中利用python中的读视频算法VideoReader类对视频提取，得到随机的t个视频帧，对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像，将得到的脸放入对应真假类别文件夹下，在该文件夹下得到随机的t张人脸图像。

实施例2：

步骤a)中得到的t张人脸图像的宽高分别调整为244、244，利用均值为[0.485,0.456,0.406]，方差为[0.229,0.224,0.225]对人脸图像进行归一化，将归一化后的连续帧的t张人脸图像封装为[b,c,h,w]的张量x_i∈R^b×c×h×w，R为向量空间，其中视频标签为[b,0/1]，x_i为第i个视频批次，i∈{1,…,K×t/b}，b为每批次视频的个数，c为每张人脸图像通道数，h为每张人脸图像的高，w为每张人脸图像的宽，0表示假视频，1表示真视频。

实施例3：

步骤b)包括如下步骤：

b-1)将张量x_i∈R^b×c×h×w输入到VGG19网络中，得到局部特征图x_f∈R^b×512×7×7。

为第i个LANet block输出的注意力图，i∈{1,…,m}，将注意力图/>

利用torch库里的cat算法并联得到特征图x_a∈R^b×m×7×7。

b-3)对特征图x_a∈R^b×m×7×7利用torch库里的maximum算法逐元素取得最大值得到特征图x_b∈R^b×1×7×7。

实施例4：

步骤c)包括如下步骤：

c-1)利用torch库里的rearrange算法将带有局部注意力特征图x_l∈R^b×512×7×7沿着通道拉平为2D特征x_p∈R^b×49×512。

c-2)通过公式

计算得到带有位置信息的二维图像块序列z₀，式中/>

为2D特征x_p∈R^b×49×512中第i个图像特征块，i∈{1,...,N}，N为2D特征x_p∈R^b×49×512中图像特征块的总数，E为每一个图像特征块的位置embedding，E∈R^512×D，D为不变的隐向量，E_pos为位置embedding，E_pos∈R^N×D。

c-3)设置由L个连续的transformer block组成的Enhanced-ViT模型，每个transformer block依次由第一LayerNorm层、多头自注意力block、多头注意力缩放层、空间注意力缩放层、第一残差层、第二LayerNorm层、MLP block、第二残差层构成。

c-4)将带有位置信息的二维图像块序列z₀输入第1个transformer block的第一LayerNorm层中进行归一化处理，得到归一化后的二维图像块序列z₀，将归一化后的二维图像块序列z₀输入到第1个transformer block的多头自注意力block中进行全局多头注意力计算，得到全局特征图MSA(LN(z₀))，将全局特征图MSA(LN(z₀))输入到第1个transformerblock的多头注意力缩放层中进行多样的多头自注意力计算，得到多样全局特征图MAS(MSA(LN(z₀)))，将多样全局特征图MAS(MSA(LN(z₀)))输入到第1个transformer block的空间注意力缩放层，输出得到多样的精炼全局特征图SAS(MAS(MSA(LN(z₀)))),将多样的精炼全局特征图SAS(MAS(MSA(LN(z₀))))与带有位置信息的二维图像块序列z₀输入到第一残差层中，通过公式z′₀＝SAS(MAS(MSA(LN(z₀))))+z₀计算得到二维全局空间特征z′₀，将二维全局空间特征z′₀输入到第二LayerNorm层中进行归一化处理，得到归一化后的二维全局空间特征z′₀，将归一化后的二维全局空间特征z′₀输入到MLP block中，输出得到二维空间特征图MLP(LN(z′₀))，将二维空间特征图MLP(LN(z′₀))与二维全局空间特征z′₀输入到第二残差层中，通过公式z₁＝MLP(LN(z′₀))+z′₀计算得到第1个transformer block输出的多样的精炼全局空间特征z₁。

c-5)将全局空间特征z₁替代步骤c-4)中的二维图像块序列z₀，重复执行步骤c-4)，得到第2个transformer block输出的多样的精炼全局空间特征z₂。

c-6)重复步骤c-5)，将z_l输入到第l+1个transformer block中，l＝{2,3...,L}，得到所有L个transformer block输出的精炼全局空间特征{z₁,z₂...,z_L}∈R^b×49×D。

实施例5：

步骤c-4)中多头自注意力block中进行全局多头注意力计算方法为：将归一化后的二维图像块序列z₀输入到一个输入维度为D、输出维度为3*D的线性层后输出得到特征图QKV∈R^b×49×(3*D)，利用torch库里的rearrange算法将特征图QKV∈R^b×49×(3*D)沿着通道分别拉平为2D特征Q∈R^b×49×D、K∈R^b×49×D、V∈R^b×49×D，Q为特征图的查询向量，K为特征图的键向量，V为特征图的值向量，将2D特征Q∈R^b×49×D、K∈R^b×49×D、V∈R^b×49×D分别分为j个头，分别得到含有j个头空间的Q∈R^b×j×49×r、K∈R^b×j×49×r、V∈R^b×j×49×r，每个头的维度为r，r＝D/j，通过公式

实施例6：

步骤c-4)中多头注意力缩放层中进行多样的多头自注意力计算的方法为：通过公式

实施例7：

步骤c-4)中空间注意力缩放层的计算方法为：通过公式SAS(MAS(MSA(LN(z₀))))＝W×MAS(MSA(LN(z₀)))计算得到多样的精炼全局特征图SAS(MAS(MSA(LN(z₀))))，式中W为空间注意力对角矩阵，W∈R^49×49，×为矩阵相乘操作。

实施例8：

步骤d)包括如下步骤：

实施例9：

步骤e)包括如下步骤：

||·||₂为L2范数，y_k为标签，y_k∈{0,1}，/>

为第y_k个类别中心点的特征，/>

为实数空间，δ为常数，k为类别数；

e-3)另Z_s等于Z_t，得到第一学生模型Z_s；

σ(·)为softmax函数，y为第一老师模型Z_t的预测类别表示，/>

为第一学生模型Z_s的预测类别表示；/>

e-6)令Z_s′＝Z_t′得到第二学生模型Z_s′；

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识蒸馏与transformer的假视频检测方法，其特征在于，包括如下步骤：

e)利用损失函数迭代优化步骤d)中的模型，得到最优模型；

步骤a)中利用python中的读视频算法VideoReader类对视频提取，得到随机的t个视频帧，对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像，将得到的脸放入对应真假类别文件夹下，在该文件夹下得到随机的t张人脸图像；

步骤a)中得到的t张人脸图像的宽高分别调整为244、244，利用均值为[0.485,0.456,0.406]，方差为[0.229,0.224,0.225]对人脸图像进行归一化，将归一化后的连续帧的t张人脸图像封装为[b,c,h,w]的张量x_i∈R^b×c×h×w，R为向量空间，其中视频标签为[b,0/1]，x_i为第i个视频批次，i∈{1,...,K×t/b}，b为每批次视频的个数，c为每张人脸图像通道数，h为每张人脸图像的高，w为每张人脸图像的宽，0表示假视频，1表示真视频；

步骤b)包括如下步骤：

b-2)将局部特征图x_f∈R^b×512×7×7输入到局部多头注意力模块中，将局部特征图x_f∈R^b ^×512×7×7分别输入到LS-CNN模型中m个LANet block中分别输出得到注意力图

为第i个LANet block输出的注意力图，i∈{1,...,m}，将注意力图/>

利用torch库里的cat算法并联得到特征图x_a∈R^b×m×7×7；

b-4)将特征图x_b∈R^b×1×7×7与局部特征图x_f∈R^b×512×7×7逐元素点乘得到带有局部注意力特征图x_l∈R^b×512×7×7；

步骤c)包括如下步骤：

c-2)通过公式

计算得到带有位置信息的二维图像块序列z₀，式中/>

为2D特征x_p∈R^b×49×512中第i个图像特征块，i∈{1,...,N}，N为2D特征x_p∈R^b×49×512中图像特征块的总数，E为每一个图像特征块的位置embedding，E∈R^512×D，D为不变的隐向量，E_pos为位置embedding，E_pos∈R^N×D；

c-5)将全局空间特征z₁替代步骤c-4)中的二维图像块序列z₀，重复执行步骤

c-4)，得到第2个transformer block输出的多样的精炼全局空间特征z₂；

2.根据权利要求1所述的基于知识蒸馏与transformer的假视频检测方法，其特征在于，步骤c-4)中多头自注意力block中进行全局多头注意力计算方法为：将归一化后的二维图像块序列z₀输入到一个输入维度为D、输出维度为3*D的线性层后输出得到特征图QKV∈R^b ^×49×(^3*D)，利用torch库里的rearrange算法将特征图QKV∈R^b×49×(3*D)沿着通道分别拉平为2D特征Q∈R^b×49×D、K∈R^b×49×D、V∈R^b×49×D，Q为特征图的查询向量，K为特征图的键向量，V为特征图的值向量，将2D特征Q∈R^b×49×D、K∈R^b×49×D、V∈R^b×49×D分别分为j个头，分别得到含有j个头空间的Q∈R^b×j×49×r、K∈R^b×j×49×r、V∈R^b×j×49×r，每个头的维度为r，r＝D/j，通过公式

计算得到全局特征图MSA(LN(z₀))，MSA(LN(z₀))∈R^b ^×j×49×r，式中Softmax(·)为Softmax激活函数，T为转置。

3.根据权利要求2所述的基于知识蒸馏与transformer的假视频检测方法，其特征在于，步骤c-4)中多头注意力缩放层中进行多样的多头自注意力计算的方法为：通过公式

计算得到多样全局特征图MAS(MSA(LN(z₀)))，式中σ为注意力参数，σ∈R^j×1×1，

*为逐元素点乘操作。

4.根据权利要求3所述的基于知识蒸馏与transformer的假视频检测方法，其特征在于，步骤c-4)中空间注意力缩放层的计算方法为：通过公式SAS(MAS(MSA(LN(z₀))))＝W×MAS(MSA(LN(z₀)))计算得到多样的精炼全局特征图SAS(MAS(MSA(LN(z₀))))，式中W为空间注意力对角矩阵，W∈R^49×49，×为矩阵相乘操作。

5.根据权利要求1所述的基于知识蒸馏与transformer的假视频检测方法，其特征在于，步骤d)包括如下步骤：

6.根据权利要求5所述的基于知识蒸馏与transformer的假视频检测方法，其特征在于，步骤e)包括如下步骤：

||·||₂为L2范数，y_k为标签，y_k∈{0,1}，/>

为第y_k个类别中心点的特征，/>

为实数空间，δ为常数，k为类别数；

e-3)另Z_s等于Z_t，得到第一学生模型Z_s；

σ(·)为softmax函数，y为第一老师模型Z_t的预测类别表示，/>

为第一学生模型Z_s的预测类别表示；

e-6)令Z_s′＝Z_t′得到第二学生模型Z_s′；