CN116863379A

CN116863379A - 基于时空自注意力单步扰动的视频预测防御方法

Info

Publication number: CN116863379A
Application number: CN202310851610.1A
Authority: CN
Inventors: 李平; 倪家楠; 徐向华
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2023-07-11
Filing date: 2023-07-11
Publication date: 2023-10-10
Anticipated expiration: 2043-07-11
Also published as: CN116863379B

Abstract

本发明公开了基于时空自注意力单步扰动的视频预测防御方法。本发明首先对输入的视频帧通过层次局部时空编码模块，获得层次局部时空特征；通过时空自注意力编码模块，获得时空自注意力特征；通过并行时空解码器并行输出预测视频帧；通过时序单步扰动生成器，快速生成强大的对抗样本，作为输入重复之前的步骤得到鲁棒预测视频帧。本发明通过层次局部时空编码模块，从局部到整体、层次化地提取局部时空特征，强化视频预测模型对局部细节的提取；通过特征对齐损失函数，使对抗样本的中间特征与干净样本的中间特征对齐，降低对抗扰动对模型的影响；通过时序单步扰动生成器，基于视频帧之间的时序关系，快速生成强大的对抗样本，降低了对抗训练的成本。

Description

基于时空自注意力单步扰动的视频预测防御方法

技术领域

本发明属于计算机视觉领域，尤其是对抗攻防与视频预测领域，具体涉及基于时空自注意力单步扰动的视频预测防御方法。

背景技术

近几年，随着移动互联网技术的飞速发展和视频传感设备的广泛普及，涌现出大量视频数据。如何通过历史视频帧序列预测未来视频帧序列成为研究者们关心的问题，即视频预测(Video Prediction)任务。视频预测旨在给定部分视频段的情况下，生成后续时刻的视频段，其在雷达气象图预测、交通流预测、机器人物体交互、无人驾驶等实际场景有着广泛的应用。由于深度学习在计算机视觉领域取得巨大成功，其相关方法已经被应用于视频预测领域。但是研究发现深度学习模型具有脆弱性，即通过在输入中添加人眼不能察觉的扰动可以让模型的性能大幅下降，这些扰动称为对抗扰动，这种攻击称为对抗攻击。例如，在无人驾驶环境中，视频预测模型能够利用视觉信息对道路上的行人与车辆的运动轨迹进行预测，辅助自动驾驶操作，规避行人车辆，从而保障驾驶员和乘客的安全；但在对抗攻击的威胁下，视频预测模型会干扰无人驾驶系统的判断，产生巨大安全隐患。为此，对抗防御方法试图增加模型的鲁棒性，旨在使深度学习模型尽可能少地受对抗攻击的干扰，保障模型的预测性能。

目前，大部分视频预测方法基于深度循环神经网络，例如，研究人员提出基于长短时记忆单元的卷积长短时记忆网络(ConvLSTM：Convolutional Long Short-TermMemory)，并采用堆叠多个卷积长短时记忆网络的方法捕获视频的时序依赖关系，增强视频数据的表征能力，但其不可并行的架构导致计算效率较低，且循环结构特性会导致错误累积，在预测较长视频时表现不佳；研究人员提出了基于纯卷积神经网络的深度预测模型，使用多个启示(Inception)模块来捕捉视频的时空特征，这种方法网络结构简单、训练参数量少，但难以应用在较复杂的视频预测场景。研究人员还提出了基于对抗生成网络的深度预测模型，使用一个生成器生成预测视频帧，再利用一个判别器来判断预测视频帧是否真实，但这种方法难以平衡生成器和判别器的强弱，容易导致模型过拟合。最近，研究人员提出基于转换器(Transformer)的多帧输入多帧输出的视频预测方法，使用多头注意力机制处理全局时空特征，并且可以并行处理所有输入帧并一次输出所有预测帧，但无法充分提取局部的细粒度特征，难以预测高分辨率的视频。

上述方法都没有考虑深度学习模型的脆弱性和视频预测模型在对抗攻击下的安全性问题(即对抗防御研究)。目前，在图像分类领域已有相关研究，使用较多的为投影梯度下降对抗训练方法(Projected Gradient Descent Adversarial Training)，其在模型训练过程中沿梯度方向迭代计算训练集的对抗扰动，并使用对抗样本作为训练集对模型进行训练，以提高模型鲁棒性，使得模型能较好地应对对抗攻击情况，但计算对抗样本的额外开销极大地增加了训练成本。

上述方法存在的不足主要表现在以下三个方面：1)深度学习模型堆叠网络层数使模型能捕获更具信息量的特征，但前向传播方式使得对抗样本的微小扰动存在梯度累积错误，而原始样本和对抗样本获得的中间层特征差异变大；2)现有方法缺少对局部细粒度特征的刻画，导致其仅能处理分辨率较低、结构简单的视频预测任务，但对于分辨率较高、场景复杂的视频预测效果欠佳；3)现有视频对抗防御方法大多直接借鉴图像分类的对抗训练，使用迭代式对抗攻击方法，对每个视频帧均生成对抗样本；较少的迭代次数导致对抗样本攻击效果不佳，影响模型的防御性能，较多的迭代次数导致训练的开销急剧增大，都没有利用视频帧之间的高度相似性，造成模型的训练开销大，因此，难以应用于现实场景的视频预测。基于这些考虑，针对雷达气象图预测、交通流预测、机器人物体交互预测、无人驾驶等实际应用场景，迫切需要设计一种既能降低对抗扰动干扰，又能充分捕捉视频局部和整体的时空特征，且有效控制训练成本的视频预测方法。

发明内容

本发明的目的是针对现有技术的不足，提出一种基于时空自注意力单步扰动的视频预测防御方法，通过中间特征对齐方法，保障模型遭受对抗攻击时的预测精度；通过构建层次局部时空编码模块，从局部到整体捕获层次化时空特征，提升模型对局部细节的刻画能力；通过构建时序单步扰动生成器，利用视频帧间的相似关系，以低计算成本生成对抗样本，完成对抗训练。

本发明方法首先获取原始视频数据集合，然后进行如下操作：

步骤(1).对原始视频进行采样获得原始视频帧序列，构建层次局部时空编码模块，将原始视频帧序列输入层次局部时空编码模块，获得层次局部时空特征；

步骤(2).构建时空自注意力编码模块，将层次局部时空特征作为输入，获得时空自注意力编码特征；

步骤(3).构建并行时空解码器，将时空自注意力特征作为输入，输出为预测视频帧序列；

步骤(4).构建时序单步扰动生成器，将原始视频帧序列、预测视频帧序列和真实的待预测视频帧序列作为输入，输出对抗视频帧序列并将其作为步骤(1)的输入，重复步骤(1)～(3)并输出为鲁棒预测视频帧序列；

步骤(5).利用随机梯度下降算法优化由层次局部时空编码模块、时空自注意力编码模块、并行时空解码器和时序单步扰动生成器组成的视频预测训练模型，对新的视频帧序列依次通过步骤(1)～(3)得到对应的预测视频帧序列。

进一步，步骤(1)具体是：

(1-1).对视频进行每秒K帧采样，K＝5～10，获取T+T′个视频帧，得到原始视频帧序列其中，T为输入的视频帧数量，T′为预测视频帧的数量，100≤T≤200，0＜T′≤200，X_t表示第t个视频帧，表示实数域，H和W分别表示视频帧的高度和宽度，3表示RGB通道数；

(1-2).将原始视频帧序列中的前T个视频帧分解成不重叠的图像块，得到分解后的输入视频帧图像块序列上标patch表示图像块，下标1:T表示在原视频帧序列截取出从第1帧到第T帧的视频帧序列，X_i表示第i个视频帧Patch(·)将输入视频帧分割成p·p个互不重叠的图像块，C＝3·p·p，p＝16；

(1-3).将输入视频帧图像块序列进行下采样，得到下采样的视频帧序列，上标Down表示下采样，二维卷积Conv2D(·)输入通道数为C，输出通道数为C′，卷积核尺寸为3×3，步长为2，填充大小为1；LayerNorm(·)为层归一化，输入的通道数为C′，SiLU(·)为Sigmoid函数加权线性单元，表示为H′和W′为下采样后视频帧的高和宽；

(1-4).将下采样的视频帧序列按时间顺序均等分为4个视频帧序列分别代表包含视频帧序号为[1,U]，[U+1,2U]，[2U+1,3U]，[3U+1,4U]的视频帧序列，其中表示向上取整；如果输入帧序列能被4整除，则4U＝T；如果输入帧序列不能被4整除，则随机复制视频帧在其原位置之后作为填充，直至输入帧序列数能够被4整除为止；

(1-5).构建层次局部时空编码模块：由两个三维卷积层、两个层归一化层、两个SiLU激活函数、残差连接构成；将视频帧序号为[1,U]，[U+1,2U]，[2U+1,3U]，[3U+1,4U]的视频帧序列输入局部时空特征提取模块，得到对应的局部时空特征其中f₁(·)＝SiLU(LayerNorm(Conv3D(·)))，三维卷积Conv3D(·)输入通道数为C′，输出通道数为2×C′，卷积核尺寸为3×3×3；f₂(·)＝SiLU(LayerNorm(Conv3D(·)))，三维卷积Conv3D(·)输入通道数为2×C′，输出通道数为C′，卷积核尺寸为3×3×3；重复上述操作，得到增强局部时空特征并按照时间维度做合并处理，得到包含视频帧序号为[1,2U]，[2U+1,4U]的增强局部时空特征

(1-6).合并增强局部时空特征内的相邻图像块，将每四个不重叠的大小为的相邻图像块合并为一个大小为的图像块，分别获得包含视频帧序号为[1,2U]和[2U+1,4U]的合并后局部时空特征集合其中Reshape(·)为维度重构函数，在保持张量中元素不变的情况下按顺序重新构建维度；

(1-7).重复步骤(1-5)～(1-6),将局部时空特征集合进行合并，得到层次局部时空特征其中H″＝H′×4，W″＝W′×4，

再进一步，步骤(2)中的时空自注意力编码模块由一个时间位置编码模块、一个二维卷积多头注意力层、一个局部时空特征提取模块、两个残差连接层和两个层归一化层组成；步骤(2)具体是：

(2-1).构建时间位置编码模块，定义时间间隔向量将时间间隔向量g输入时间位置编码层PosEmbed(·)并扩展得到时间位置编码

PosEmbed(·)的输入词典长度为T+T′，嵌入向量的维度为C″，输出嵌入时间位置矩阵下标emb表示嵌入，其偶数维度的值为奇数维度的值为Y_emb(pos,2i)表示嵌入时间间隔矩阵Y_emb在(pos,2i)位置的值，pos和2i分别为各自维度的坐标，为正整数集；

Expand(·)是扩展函数，其输入嵌入时间间隔矩阵通过维度复制操作输出时间位置编码

沿时间维度截取前T个视频帧的时间位置编码获得带有时间位置编码的层次局部时空特征

(2-2).构建二维卷积多头注意力模块：将带有时间位置编码的层次局部时空特征作为输入，先经过一个卷积层和一个层归一化层得到初始化的查询张量Q、关键值张量K、值张量V的值，即二维卷积Conv2D(·)输入通道数为C′，输出通道数为C′，卷积核尺寸为1×1，Reshape(·)为维度重构函数，在保持张量中元素不变的情况下，将输入的维度的通道划分为不同的注意力头数，并重构为注意力头数heads＝8；

(2-3).重构带有时间位置编码的层次局部时空特征的维度，得到维度重构后的层次局部时空特征将维度重构后的层次局部时空特征作为Q,K,V输入，A＝Attention(F^re,F^re,F^re)，得到注意力权重矩阵其中Softmax(·)为激活函数，用于对当前时刻空间维度信息编码的注意力系数进行归一化，N_v为值张量v的维度；

(2-4).二维卷积多头注意力模块的输出为F′＝f_2DMHA(A)，二维卷积多头注意力模块输出函数f_2DMHA(·)＝SiLU(LayerNorm(Conv2D(unReshape(·))))，其中unReshape(·)为反向维度重构函数，输入为注意力权重矩阵输出为维度重构后的注意力权重矩阵二维卷积Conv2D(·)的输入通道数为C″，输出通道数为C″，卷积核尺寸为1×1；

经过二维卷积多头注意力模块后，得到初步时空自注意力特征F′＝2DMHA(Q,K,V)，其中2DMHA(·,·,·)为二维卷积多头注意力模块；

(2-5).对带有时间位置编码的层次局部时空特征和初步时空自注意力特征进行残差连接，并通过层归一化，得到归一化后的时空自注意力特征

(2-6).将归一化后的自注意力特征输入与(1-5)相同的局部时空特征提取模块，F_ST＝f₁f₂((F″))，得到增强时空自注意力特征下标ST表示时空；f₁(·)＝SiLU(LayerNorm(Conv3D(·)))，三维卷积Conv3D(·)输入通道数为C″，输出通道数为2×C″，卷积核尺寸为3×3×3，f₂(·)＝SiLU(LayerNorm(Conv3D(·)))，三维卷积Conv3D(·)输入通道数为2×C″，输出通道数为C″，卷积核尺寸为3×3×3；

(2-7).将增强时空自注意力特征和归一化后的全局时空自注意力特征进行残差连接，并通过层归一化操作LayerNorm(F″+F_ST)，得到增强时空自注意力特征

(2-8).重复步骤(2-1)～(2-7)，堆叠N_encode＝3～5块局部时空注意力编码子模块，每一块的输入为上一块的输出，每一块的输出为归一化后的时空自注意力特征，记为表示第l块的归一化后的增强时空自注意力特征，最终第四块时空注意力编码模块输出时空自注意力特征

更进一步，步骤(3)中的并行时空解码器由一个时序位置查询模块、两个二维卷积多头注意力模块、两个局部时空特征提取模块组成；步骤(3)具体是：

(3-2).构建时序位置查询模块，截取步骤(2-1)中时间位置编码的预测段并重构维度，得到重构维度后时间位置编码的预测段Reshape(·)为维度重构函数，将输入的维度的通道划分为不同的注意力头数，并重构为

(3-3).将重构维度后时间位置编码的预测段输入到二维卷积多头注意力模块，得到时间位置编码预测段的自注意力特征

(3-4).对时间位置编码的预测段和时间位置编码预测段的自注意力特征进行残差连接，并通过层归一化操作得到归一化后的时间位置编码预测段的自注意力特征

(3-5).将时空自注意力特征和归一化时间位置编码预测段的自注意力特征重构维度，即获得重构维度后的时空自注意力特征和重构维度后的归一化时间位置编码输出部分自注意力特征上标re表示重构；

(3-6).将重构维度后的时空自注意力特征和重构维度后的归一化时间位置编码输出部分自注意力特征输入到二维卷积多头注意力模块，即得到解码自注意力特征下标de表示解码；

(3-7).将解码自注意力特征和时间位置编码输出部分自注意力特征进行残差连接，并通过组归一化，F′_de＝LayerNorm(F_de+Y′_T′_+1:T+T′)得到归一化后的解码自注意力特征

(3-8).将归一化后的解码自注意力特征输入局部时空特征提取模块得到解码的时空特征

(3-9).将解码的时空特征和归一化后的解码自注意力特征进行残差连接，并通过组归一化得到归一化后的解码自注意力特征LayerNorm(·)为层归一化，输入的通道数为C″；

(3-10).将归一化后的输出自注意力特征进行上采样操作，得到输出特征ConvTranspose2D(·)为逆卷积操作，内层的ConvTranspose2D(·)卷积核为3×3，步长为2，填充为1，输入通道为C″，输出通道为C″，外层的ConvTranspose2D(·)卷积核为1×1，输入通道为C″，输出通道为C′；

(3-11).重复步骤(3-1)～(3-10)，堆叠N_de＝5～8个并行时空解码子模块，构建并行时空解码器，每一块的输入为上一块的输出，最终输出为解码输出特征

(3-12).将解码输出特征进行去图像块化操作，得到预测的视频帧序列unpatch(·)为图像块合并操作，将互不重叠的图像块合并成一个视频帧,下标t′表示预测的输出视频帧训练的索引。

又进一步，步骤(4)具体是：

(4-1).构建时序单步扰动生成器，将原始视频输入帧作为输入，随机初始化的噪声并加在原始视频输入的第一帧，生成初始化对抗视频帧序列

(4-2).将初始化对抗视频帧序列作为输入，重复步骤(1-2)～(3-12)，获得第一帧对抗训练预测的输出视频帧序列并获得步骤(2-8)中每一层的对抗训练时空自注意力特征将第一帧对抗训练预测的输出视频帧序列与步骤(1-1)中的真实视频帧计算均方误差损失

将视频帧序列中的前T个视频帧作为输入，重复步骤(1-2)～(2-8)，获得步骤(2-8)中每一块的归一化时空自注意力特征利用其与对抗训练时空自注意力特征计算特征对齐损失，即其中||·||₂表示L2范数；构建全局损失函数权衡系数λ＞0；

(4-3).对全局损失函数求解关于原始输入视频帧序列的梯度，生成第一帧的单步对抗扰动其中sign(·)为符号函数，返回输入张量各个数值的符号且和输入维度相同，▽为梯度符号，控制对抗扰动大小的超参数∈＝8/255，得到第一帧的对抗视频帧为X′₁＝X₁+η₁，更新对抗视频帧序列

(4-4).在生成第i帧的对抗扰动时，将第i-1帧的对抗扰动作为第i帧的初始化噪声，得到第i帧的初始化对抗视频帧序列重复步骤(4-2)～(4-3)得到所有T个输入帧的对抗视频帧序列

(4-5).将对抗视频帧序列作为层次局部时空编码模块的输入，重复步骤(1-2)～(3-12)，得到鲁棒的预测视频序列

还进一步，步骤(5)具体是：

(5-1).构建由层次局部时空编码模块、时空自注意力编码模块、并行时空解码器、时序单步扰动生成器构成的视频预测模型，利用随机梯度下降法优化上述视频预测训练模型；

(5-2).对于新的视频通过采样得到M个视频帧100≤M≤200，并输入上述优化的视频预测训练模型，重复步骤(1)～(3)，最终并行输出指定数量的预测视频帧作为视频预测结果，其中0＜N≤200是预测视频帧的数量，m和n分别为采样得到的视频帧和预测视频帧的索引。

本发明提出基于时空自注意力单步扰动的视频预测方法，具有以下几个特点：1)通过从局部到全局的层次化特征处理方式，能够有效捕捉输入视频帧的局部细节特征；2)考虑对抗扰动在输入前向传播时的错误累积，降低对抗扰动对中间特征的影响；3)利用时序单步扰动生成器生成对抗扰动，不同于传统基于图像分类的对抗训练，本方法考虑到了视频帧之间的相似性，仅用单次迭代生成强大的对抗样本，降低对抗训练成本。

本发明针对对抗攻击下的视频预测任务，有益效果包括：1)通过时序单步扰动生成器生成对抗扰动，仅用单步对抗训练的开销取得接近多步对抗训练的性能，提升了训练效率和性能；2)通过层次局部时空编码模块，捕获局部时空细节特征，提升了模型预测时对局部时空细节刻画的准确性；3)考虑对抗扰动对中间特征的干扰，避免干扰在前向传播过程中累积。这为雷达气象图预测、交通流预测、机器人物体交互预测、无人驾驶等实际应用场景奠定了基础。

附图说明

图1为本发明方法的流程图。

具体实施方式

以下结合附图对本发明作进一步说明。

如图1，基于时空自注意力单步扰动的视频预测防御方法，首先对给定的视频进行采样获得原始视频帧序列，输入到构建的层次局部时空编码模块，获得层次局部时空特征；其次，构建由二维多头注意力模块、残差连接、归一化层、局部时空特征提取模块构成的时空自注意力编码模块，从层次局部时空特征中获取全局的时空自注意力特征；之后，将得到的时空自注意力特征通过并行时空解码器一次得到最终的所有预测视频帧；再输入时序单步扰动生成器生成对抗视频帧序列；最后，将对抗视频帧序列作为输入，重复之前的步骤。该方法利用层次局部时空编码模块，层次化地从局部到全局提取层次局部时空特征，提取更精细的局部时空特征，再利用时空自注意力编码模块，通过计算全局自注意力，获得时空自注意力特征，并用并行时空解码器一次输出所有的视频预测帧，再利用时序单步扰动生成器快速生成强大的对抗样本，强化对抗训练的有效性，提升视频预测遭受对抗攻击时的预测准确性。具体步骤如下：

步骤(1).对原始视频进行采样获得原始视频帧序列，构建层次局部时空编码模块，将原始视频帧序列输入层次局部时空编码模块，获得层次局部时空特征。具体是：

(1-1).对视频进行每秒10帧采样，获取T+T′个视频帧，得到原始视频帧序列其中，T为输入的视频帧数量，T′为预测视频帧的数量，100≤T≤200，0＜T′≤200，X_t表示第t个视频帧，表示实数域，H和W分别表示视频帧的高度和宽度，3表示RGB通道数；

步骤(2).构建时空自注意力编码模块，将层次局部时空特征作为输入，获得时空自注意力编码特征；时空自注意力编码模块由一个时间位置编码模块、一个二维卷积多头注意力层、一个局部时空特征提取模块、两个残差连接层和两个层归一化层组成。具体是：

经过二维卷积多头注意力模块后，得到初步时空自注意力特征F′＝2DMHA(Q,K,V)，2DMHA(·,·,·)为二维卷积多头注意力模块；

(2-8).重复步骤(2-1)～(2-7)，堆叠N_encode＝4块局部时空注意力编码子模块，每一块的输入为上一块的输出，每一块的输出为归一化后的时空自注意力特征，记为表示第l块的归一化后的增强时空自注意力特征，最终第四块时空注意力编码模块输出时空自注意力特征

步骤(3).构建并行时空解码器，将时空自注意力特征作为输入，输出为预测视频帧序列；并行时空解码器由一个时序位置查询模块、两个二维卷积多头注意力模块、两个局部时空特征提取模块组成。具体是：

(3-4).对时间位置编码的预测段 ^′和时间位置编码预测段的自注意力特征进行残差连接，并通过层归一化操作得到归一化后的时间位置编码预测段的自注意力特征

(3-5).将时空自注意力特征和归一化时间位置编码预测段的自注意力特征重构维度，即和获得重构维度后的时空自注意力特征和重构维度后的归一化时间位置编码输出部分自注意力特征上标re表示重构；

(3-11).重复步骤(3-1)～(3-10)，堆叠N_de＝6个并行时空解码子模块，构建并行时空解码器，每一块的输入为上一块的输出，最终输出为解码输出特征

步骤(4).构建时序单步扰动生成器，将原始视频帧序列、预测视频帧序列和真实的待预测视频帧序列作为输入，输出对抗视频帧序列并将其作为步骤(1)的输入，重复步骤(1)～(3)并输出为鲁棒预测视频帧序列。具体是：

(4-3).对全局损失函数求解关于原始输入视频帧序列的梯度，生成第一帧的单步对抗扰动其中sign(·)为符号函数，返回输入张量各个数值的符号且和输入维度相同，为梯度符号，控制对抗扰动大小的超参数∈＝8/255，得到第一帧的对抗视频帧为X′₁＝X₁+η₁，更新对抗视频帧序列

步骤(5).利用随机梯度下降算法优化由层次局部时空编码模块、时空自注意力编码模块、并行时空解码器和时序单步扰动生成器组成的视频预测训练模型，对新的视频帧序列依次通过步骤(1)～(3)得到对应的预测视频帧序列。具体是：

本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims

1.基于时空自注意力单步扰动的视频预测防御方法，其特征在于：

2.如权利要求1所述的基于时空自注意力单步扰动的视频预测防御方法，其特征在于，步骤(1)具体是：

(1-5).构建层次局部时空编码模块：由两个三维卷积层、两个层归一化层、两个SiLU激活函数、残差连接构成；将视频帧序号为[1,U]，[U+1,2U]，[2U+1,3U]，[3U+1,4U]的视频帧序列输入局部时空特征提取模块，得到对应的局部时空特征其中，f₁(·)＝SiLU(LayerNorm(Conv3D(·)))，三维卷积Conv3D(·)输入通道数为C′，输出通道数为2×C′，卷积核尺寸为3×3×3；f₂(·)＝SiLU(LayerNorm(Conv3D(·)))，三维卷积Conv3D(·)输入通道数为2×C′，输出通道数为C′，卷积核尺寸为3×3×3；重复上述操作，得到增强局部时空特征并按照时间维度做合并处理，得到包含视频帧序号为[1,2U]，[2U+1,4U]的增强局部时空特征

3.如权利要求2所述的基于时空自注意力单步扰动的视频预测防御方法，其特征在于，步骤(2)中的时空自注意力编码模块由一个时间位置编码模块、一个二维卷积多头注意力层、一个局部时空特征提取模块、两个残差连接层和两个层归一化层组成；步骤(2)具体是：

(2-2).构建二维卷积多头注意力模块：将带有时间位置编码的层次局部时空特征作为输入，先经过一个卷积层和一个层归一化层得到初始化的查询张量Q、关键值张量K、值张量V的值，即二维卷积Conv2D(·)输入通道数为C′，输出通道数为C′，卷积核尺寸为1×1，Reshape(·)为维度重构函数，在保持张量中元素不变的情况下，将输入的维度的通道划分为不同的注意力头数，重构为注意力头数heads＝8；

4.如权利要求3所述的基于时空自注意力单步扰动的视频预测防御方法，其特征在于，步骤(3)中的并行时空解码器由一个时序位置查询模块、两个二维卷积多头注意力模块、两个局部时空特征提取模块组成；步骤(3)具体是：

(3-10).将归一化后的输出自注意力特征进行上采样操作，得到输出特征ConvTranspose2D(·)为逆卷积操作，内层ConvTranspose2D(·)卷积核为3×3，步长为2，填充为1，输入通道为C″，输出通道为C″，外层的ConvTranspose2D(·)卷积核为1×1，输入通道为C″，输出通道为C′；

5.如权利要求4所述的基于时空自注意力单步扰动的视频预测防御方法，其特征在于，步骤(4)具体是：

(4-3).对全局损失函数求解关于原始输入视频帧序列的梯度，生成第一帧的单步对抗扰动其中sign(·)为符号函数，返回输入张量各个数值的符号且和输入维度相同，为梯度符号，控制对抗扰动大小的超参数∈＝8/255，得到第一帧的对抗视频帧为更新对抗视频帧序列

6.如权利要求5所述的基于时空自注意力单步扰动的视频预测防御方法，其特征在于，步骤(5)具体是：