CN117292209A

CN117292209A - 基于时空增强三维注意力重参数化的视频分类方法及装置

Info

Publication number: CN117292209A
Application number: CN202311585233.8A
Authority: CN
Inventors: 卢修生; 苏慧; 胡丹青; 郭蕊; 宋明黎
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2023-12-26
Anticipated expiration: 2043-11-27
Also published as: CN117292209B

Abstract

本发明公开了基于时空增强三维注意力重参数化的视频分类方法及装置，将待分类视频的各视频帧在空间上均匀划分为不重叠的块，将各块经过拉伸、线性映射和叠加位置嵌入向量，得到第一视频特征；将第一视频特征经过Transformer网络进行处理，得到第二视频特征；每层网络均包含时空增强三维注意力模块和多层感知机；时空增强三维注意力模块在训练时包含三维注意力、空间注意力和时间注意力三个分支，自适应地增强具有时空关联的令牌之间的依赖关系，推理时计算等价地退化为三维注意力操作，以降低推理开销；将第二视频特征中的类别令牌利用全连接层进行分类，得到各视频帧的分类结果，再经过时域平均池化操作，得到视频的类别预测结果。

Description

基于时空增强三维注意力重参数化的视频分类方法及装置

技术领域

本发明属于视频分析与模式识别技术领域，尤其涉及基于时空增强三维注意力重参数化的视频分类方法及装置。

背景技术

视频分类任务在机器人、人机交互等领域有广泛的应用价值。大量基于卷积神经网络的视频分类方法（比如C3D、I3D和SlowFast等）取得了一定的进展，但它们仍然受到卷积操作缺乏长程建模能力的制约。近年来，随着Transformer在自然语言处理领域的成功，很多基于Transformer的视频分类方法得到了提出。比如TimeSformer和ViViT探索利用空间和时间注意力操作将视频建模解耦为表观和运动建模；Uniformer通过在Transformer网络的浅层和深层分别学习局部和全局关联关系，以达到运算开销与分类效果的折中；MViT则参考卷积神经网络的设计，通过在网络的不同阶段逐渐降低特征的空间维度并增加其通道维度，学习得到多尺度特征金字塔。尽管基于Transformer的视频分类方法表现出了出色的效果，但是较高的时间复杂度影响限制了其实际应用范围。重参数化技术是一种将训练和测试阶段网络结构进行解耦的技术。ACNet、RepVGG和RepMLP等工作将重参数化技术与卷积神经网络和多层感知机相结合，针对图像分类任务在提升网络训练效果的同时，保持了模型测试时的运算开销，但是在视频分类任务上重参数化技术尚未得到有效应用。

发明内容

本发明为了解决上述技术问题，提供基于时空增强三维注意力重参数化的视频分类方法及装置。

根据本申请实施例的第一方面，提供一种基于时空增强三维注意力重参数化的视频分类方法，包括：

获取待分类视频，将所述待分类视频的各视频帧在空间上均匀划分为不重叠的块，即令牌，将所述令牌经过维度变换得到特征张量，将所述特征张量通过映射矩阵进行线性映射后叠加位置嵌入向量，得到第一视频特征，其中所述第一视频特征中还包含类别令牌；

将所述第一视频特征分别通过Transformer网络进行处理，得到第二视频特征，其中所述Transformer网络包括若干网络层，每一个网络层均包含一个时空增强三维注意力模块和一个多层感知机，所述时空增强三维注意力模块在网络训练时包含三维注意力操作、空间注意力操作和时间注意力操作三个分支，推理时计算等价地退化为三维注意力操作；

将所述第二视频特征中的类别令牌利用全连接层进行分类，得到各视频帧的分类结果，将所述各视频帧的分类结果经过时域平均池化操作，得到视频的类别预测结果。

进一步地，所述第一视频特征，其中/>为所述张量，E为所述映射矩阵，/>为所述位置嵌入向量，所述类别令牌/>连接到/>上。

进一步地，在模型训练过程中：

将第n层的时空增强三维注意力模块的输入经过嵌入矩阵进行线性映射，得到三维注意力操作的查询张量、键张量和值张量；

对所述三维注意力操作的查询张量、键张量和值张量进行变形操作，对应得到空间注意力操作以及时间注意力操作的查询张量、键张量和值张量；

由三维注意力操作、空间注意力操作和时间注意力操作对应的查询张量和键张量，计算得到各注意力操作的注意力矩阵；

将各注意力操作的注意力矩阵经过Softmax操作后作用于对应的值张量，并将结果利用可学习的各注意力分支的权重进行加权累加，得到混合注意力操作的结果。

进一步地，各注意力操作的注意力矩阵，/>和/>通过下式计算：

其中，表示归一化因子，/>、/>、/>为三维注意力操作、空间注意力操作和时间注意力操作对应的查询张量，/>、/>、/>为三维注意力操作、空间注意力操作和时间注意力操作对应的键张量。

进一步地，在模型推理过程中：

由所述三维注意力操作的查询张量、键张量，计算三维注意力操作的注意力矩阵；

从所述三维注意力操作的注意力矩阵中，提取空间注意力和时间注意力操作的注意力矩阵；

将所述空间注意力操作和时间注意力操作的注意力矩阵与三维注意力操作的注意力矩阵对齐到相同维度，将对齐后的各注意力操作的注意力矩阵经过Softmax操作后，利用训练阶段学习到的各注意力分支的权重进行加权累加，将累加结果作用于三维注意力操作的值张量，得到混合注意力操作的结果；或，

将所述空间注意力操作和时间注意力操作的注意力矩阵经过Softmax操作后，利用训练阶段学习到的各注意力分支的权重，加权叠加到经过Softmax操作的三维注意力操作的注意力矩阵的相应区域，然后将累加结果作用于三维注意力操作的值张量，得到混合注意力操作的结果。

进一步地，由所述三维注意力操作的查询张量、键张量/>，通过下式计算三维注意力操作的注意力矩阵/>：

其中表示归一化因子。

进一步地，经过维度扩张操作，即对扩张区域补零，将空间注意力操作和时间注意力操作的注意力矩阵对齐到与三维注意力操作的注意力矩阵相同维度。

根据本申请实施例的第二方面，提供一种基于时空增强三维注意力重参数化的视频分类装置，包括：

特征获取模块，用于获取待分类视频，将所述待分类视频的各视频帧在空间上均匀划分为不重叠的块，即令牌，将所述令牌经过维度变换得到特征张量，将所述特征张量通过映射矩阵进行线性映射后叠加位置嵌入向量，得到第一视频特征，其中所述第一视频特征中还包含类别令牌；

特征转换模块，用于将所述第一视频特征分别通过Transformer网络进行处理，得到第二视频特征，其中所述Transformer网络包括若干网络层，每一个网络层均包含一个时空增强三维注意力模块和一个多层感知机，所述时空增强三维注意力模块在网络训练时包含三维注意力操作、空间注意力操作和时间注意力操作三个分支，推理时计算等价地退化为三维注意力操作；

分类模块，用于将所述第二视频特征中的类别令牌利用全连接层进行分类，得到各视频帧的分类结果，将所述各视频帧的分类结果经过时域平均池化操作，得到视频的类别预测结果。

根据本申请实施例的第三方面，提供一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

根据本申请实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本申请针对基于Transformer网络的视频分类方法运算开销较高的问题，提出了一种基于时空增强三维注意力重参数化的视频分类方法。在训练阶段，采用包含三维注意力、空间注意力和时间注意力的三分支结构，自适应地增强具有时空关联的令牌之间的依赖关系，提升了模型的训练效果；在测试阶段，将空间注意力和时间注意力分支融合到三维注意力分支中，从而相对于三维注意力操作只增加了很少的推理开销，提高了模型的实际应用价值。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为一种基于时空增强三维注意力重参数化的视频分类方法的流程图。

图2为以ViT作为主干网络的STA3DA Transformer模型示意图，其中（A）为训练阶段网络架构示意图，（B）为推理阶段网络结构示意图。

图3为推理时所提出的STA3DA模块重参数化示意图，其中（A）为结构视角示意图，（B）为注意力矩阵视角示意图。

图4为一种基于时空增强三维注意力重参数化的视频分类装置的框图。

图5为一种电子设备的示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

图1是根据一示例性实施例示出的一种基于时空增强三维注意力重参数化的视频分类方法的流程图，如图1所示，该方法应用于终端中，可以包括以下步骤：

步骤S1：获取待分类视频，将所述待分类视频的各视频帧在空间上均匀划分为不重叠的块，即令牌（token），经过维度变换后得到特征张量/>，将所述特征张量/>通过映射矩阵/>进行线性映射后，叠加位置嵌入向量/>，得到第一视频特征/>，其中所述第一视频特征中还包含类别令牌（class token）。

在一实施例中可以将块大小设置为16*16。映射矩阵E是一个可学习的矩阵，用来进行线性映射，可以使用矩阵乘法来实现，也可以使用卷积来实现。位置嵌入向量是可学习的参数，用于区分不同块的位置。具体地，在特征/>中还包含了一个可学习的类别令牌/>，所述类别令牌连接（concatenate）到/>上。

步骤S2：将所述第一视频特征通过N层Transformer网络进行处理，得到对应的第二视频特征/>，其中所述Transformer网络包括若干层，每一个网络层均包含一个时空增强三维注意力（SpatioTemporally Augmented 3D Attention，STA3DA）模块和一个多层感知机（Multi-Layer Perceptron，MLP），所述时空增强三维注意力模块在网络训练时包含三维注意力操作、空间注意力操作和时间注意力操作三个分支，推理时计算等价地退化为三维注意力操作。

所述Transformer网络中的第n层（1≤n≤N）可以表示为下式：

其中，是第n层网络中STA3DA模块的输出；/>是第n层网络中MLP的输出，/>表示层归一化（layer normalization）操作。

具体地，如图2所示，在时空增强三维注意力模块中，模型训练和测试时采用计算上等价的不同结构，可以采用ViT（Vision Transformer）架构、Visformer（Vision-friendly Transformer）架构等。在一实施例中，基于ViT架构，使用所提出的时空增强三维注意力（STA3DA）模块来取代其中的二维注意力操作来构建网络模型。

图2中展示了以ViT作为主干网络的STA3DA Transformer模型示意图，模型共包括N=12层网络，这里展示了其中的两层。在训练阶段，如图2中的（A），每一层包括一个所提出的STA3DA模块和多层感知机MLP，STA3DA模块中包含三个分支，其中3D、S和T分别表示三维、空间和时间注意力操作，、/>和/>分别表示三分支的可学习权重。在测试阶段如图2中的（B），STA3DA模块将退化为3D注意力操作，以降低推理时运算开销。

在网络模型训练阶段，所提出的时空增强三维注意力模块中包含三个分支，各分支分别进行三维注意力、空间注意力和时间注意力操作。在训练过程中，模型的处理流程为：

步骤S2.1.1：对于第n层的时空增强三维注意力模块的输入，经过嵌入矩阵进行线性映射后，得到三维注意力操作的查询张量/>、键张量/>和值张量/>。

步骤S2.1.2：步骤S2.1.1得到的三维注意力操作的查询张量、键张量/>和值张量/>，通过变形（reshape）操作/>和/>（即进行维度变换），对应得到空间注意力操作的查询张量/>、键张量/>和值张量/>，以及时间注意力操作的查询张量/>、键张量/>和值张量/>。

步骤S2.1.3：由步骤S2.1.2得到的查询张量和键张量，可以得到各注意力操作的注意力矩阵，/>和/>。/>表示归一化因子。

步骤S2.1.4：将步骤S2.1.3得到的各注意力操作的注意力矩阵经过Softmax操作后，再作用于对应的值张量，并将结果利用可学习的各注意力分支的权重进行加权累加，得到混合注意力操作的结果，如图3所示。/>，/>和/>分别表示可学习的各注意力分支的权重。

其中，表示Softmax操作。

需要说明的是，模型的训练过程采用交叉熵损失函数（CrossEntropy Loss），利用随机梯度下降（Stochastic Gradient Descent，SGD）进行优化，皆为本领域的常规技术手段，此处不作赘述。

图3中给出了推理时所提出的STA3DA模块重参数化示意图。在网络的测试阶段，我们利用重参数化技术将空间和时间注意力分支融合到三维注意力分支中。其中3D、S和T分别表示三维、空间和时间注意力操作，、/>和/>表示学习到的三分支权重。如图3中的（A）从网络结构的视角来看，空间和时间注意力首先转化为特殊的三维注意力操作，然后再与原来的三维注意力操作加权融合。如图3中的（B），从注意力矩阵的视角来看，空间和时间注意力的注意力矩阵在维度扩张后，可以与三维注意力的注意力矩阵加权融合，融合后的注意力矩阵后续将作用于三维注意力的值张量，这样就利用矩阵乘法的分配率，起到了多种注意力操作相结合的效果。

在网络模型测试/推理阶段，所提出的时空增强三维注意力模块退化成普通的三维注意力操作。在测试过程中，模型的处理流程为：

步骤S2.2.1：对于第n层的时空增强三维注意力模块的输入，经过嵌入矩阵进行线性映射后，得到三维注意力操作的查询张量/>、键张量/>和值张量/>。

步骤S2.2.2：由步骤S2.2.1得到的三维注意力操作的查询张量、键张量/>，计算三维注意力操作的注意力矩阵/>。/>表示归一化因子。

步骤S2.2.3：从步骤S2.2.2得到注意力矩阵中，提取空间注意力和时间注意力操作的注意力矩阵/>和/>。/>和/>表示提取操作。

步骤S2.2.4：将步骤S2.2.3得到的注意力矩阵和/>经过维度扩张操作/>和，即对扩张区域补零，从而与注意力矩阵/>对齐到相同维度。

步骤S2.2.5：将对齐后的各注意力操作的注意力矩阵、/>、/>经过Softmax操作后，利用训练阶段学习到的各注意力分支的权重进行加权累加，然后将累加结果作用于三维注意力操作的值张量/>，得到混合注意力操作的结果/>；

具体地，将步骤S2.1.4中的混合注意力操作的计算公式，利用步骤S2.2.4中得到注意力矩阵/>和/>进行等价变换。/>表示Softmax操作，/>，/>和/>

分别表示训练阶段学习到的各注意力分支的权重。

步骤S2.2.5中采用先将注意力矩阵加权累加、再作用于值张量的方式，只需要做一次矩阵乘法，降低了计算开销。

需要注意的是，在步骤S2.2.4和步骤S2.2.5的具体代码实现中，可以不使用维度扩张，而是替换为直接将注意力矩阵和/>叠加到/>的相应区域，从而起到节省显存占用的作用，具体为：

将所述空间注意力操作和时间注意力操作的注意力矩阵和/>经过Softmax操作后，利用训练阶段学习到的各注意力分支的权重，加权叠加到经过Softmax操作的三维注意力操作的注意力矩阵/>的相应区域，然后将累加结果作用于三维注意力操作的值张量，得到混合注意力操作的结果。

步骤S3：将所述第二视频特征中的类别令牌利用全连接层进行分类，得到各视频帧的分类结果，将所述各视频帧的分类结果经过时域平均池化（temporal averagepooling）操作，得到视频的类别预测结果；

具体地，对于各视频帧的分类结果，本申请在时间维度上进行平均池化，从而能够将各视频帧的分类预测进行聚合，得到整个输入视频的类别预测结果。

在一实施例中，训练时使用在ImageNet数据集上进行预训练得到的权重作为初始化，三个注意力分支的权重、/>和/>则分别初始化为0.5、0.5和0.05。本方法的代码基于Pytorch框架实现，训练时超参数随输入分辨率和批处理大小等因素的变化而变化。在Kinetics-400数据集上，对于224*224*8时空分辨率的网络输入，设置初始学习率为0.05，批处理大小为10。总训练轮数为18，在第10轮和15轮将学习率降低10倍。测试时从原始视频中采样5个片段，应用左、中、右三个空间裁剪，构成了3*5测试设置，并给出了top-1准确率。

本申请的实验在Kinetics-400数据集上进行，该数据集包含了400个动作类别，每个类别中包含了超过400个视频。作为一个得到广泛应用的公开视频数据集，它涵盖了大量的动作类别，包括单人动作（比如哭泣）、人与物交互（比如演奏管风琴）、人与人交互（比如握手）等。遵循之前研究工作的设定，在包含大约24万视频的训练集上进行训练，在包含大约2万视频的验证集上进行测试。

表1对比了在三维注意力的基础上增加空间和时间注意力分支的实验结果。其中3D、S和T分别表示三维、空间和时间注意力操作。从表中可以看出在增加空间注意力之后，“3D+S”的准确率相较于“3D”提升了0.2%，而继续加入时间注意力之后，“3D+S+T”的效果又有进一步地提升。而且对于224²*8、384²*8和224²*24等多种输入分辨率，“3D+S+T”的分类准确率比“3D”都有所提高，这验证了本申请所提出方法的鲁棒性。

表1 在三维注意力的基础上增加空间和时间注意力分支的结果对比表

表2展示了推理时分支融合操作对于准确率和运算开销的影响。其中3D、S和T分别表示三维、空间和时间注意力操作，BF（Before Fusion）和AF（After Fusion）表示分支融合前和融合后的情况。从表中可以看出，在经过分支融合之后，所提出的方法与分支融合前达到了相同的分别准确率，这验证了分支融合前后的计算等价性。而且“3D+S+T（AF）”具有与“3D”相同的浮点运算数，这证明经过分支融合后，所提出的方法相对于三维注意力操作仅增加了可忽略的运算开销。

表2 推理时分支融合操作对于准确率和运算开销的影响表

表3报告了本发明所提出的方法与其它方法的结果对比，包括主干网络、预训练数据集、输入分辨率、浮点运算数和top-1准确率等。表中第一部分展示了基于卷积神经网络的视频分类方法，包括Non-Local（Non-local Neural Networks，非局部神经网络），TSM（Temporal Shift Module，时域转移模块），X3D（Expand 3D，扩张三维网络），CorrNet（Correlation Network，相关性网络），TEA（Temporal Excitation and Aggregation，时域激发和聚合网络），TEINet（Temporal Enhancement-and-Interaction Network，时域增强和交互网络），TDN（Temporal Difference Networks，时域差分网络）等方法。第二部分展示了基于Transformer网络的视频分类方法，包括ViT（Video）（Vision Transformer withVideo Input，以视频输入的视觉Transformer），TokShift（Token Shift Transformer，令牌转移Transformer），VTN（Video Transformer Network，视频Transformer），TimeSformer（Time-Space Transformer，时空Transformer），LAPS（Leap Attention with PeriodicShift Transformer，周期性转移的跳跃注意力Transformer）等方法。第三部分展示了所提出的基于时空增强三维注意力重参数化的视频分类方法STA3DA。当处理分辨率为384²*8的输入时，本方法取得了最好的分类结果。

表3 本发明所提出的方法与其它方法的结果对比表

与前述的基于时空增强三维注意力重参数化的视频分类方法的实施例相对应，本申请还提供了基于时空增强三维注意力重参数化的视频分类装置的实施例。

图4是根据一示例性实施例示出的一种基于时空增强三维注意力重参数化的视频分类装置框图。参照图4，该装置可以包括：

特征获取模块21，用于获取待分类视频，将所述待分类视频的各视频帧在空间上均匀划分为不重叠的块，即令牌，将所述令牌经过维度变换得到特征张量，将所述特征张量通过映射矩阵进行线性映射后叠加位置嵌入向量，得到第一视频特征，其中所述第一视频特征中还包含类别令牌；

特征转换模块22，用于将所述第一视频特征分别通过Transformer网络进行处理，得到第二视频特征，其中所述Transformer网络包括若干网络层，每一个网络层均包含一个时空增强三维注意力模块和一个多层感知机，所述时空增强三维注意力模块在网络训练时包含三维注意力操作、空间注意力操作和时间注意力操作三个分支，推理时计算等价地退化为三维注意力操作；

分类模块23，用于将所述第二视频特征中的类别令牌利用全连接层进行分类，得到各视频帧的分类结果，将所述各视频帧的分类结果经过时域平均池化操作，得到视频的类别预测结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的基于时空增强三维注意力重参数化的视频分类方法。如图5所示，为本发明实施例提供的一种基于时空增强三维注意力重参数化的视频分类方法所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存以及网络接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的基于时空增强三维注意力重参数化的视频分类方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种基于时空增强三维注意力重参数化的视频分类方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一视频特征，其中/>为所述张量，E为所述映射矩阵，/>为所述位置嵌入向量，所述类别令牌/>连接到上。

3.根据权利要求1所述的方法，其特征在于，在模型训练过程中：

4.根据权利要求3所述的方法，其特征在于，各注意力操作的注意力矩阵，/>和/>通过下式计算：

，

5.根据权利要求1所述的方法，其特征在于，在模型推理过程中：

6.根据权利要求5所述的方法，其特征在于，由所述三维注意力操作的查询张量、键张量/>，通过下式计算三维注意力操作的注意力矩阵/>：

，

其中表示归一化因子。

7.根据权利要求5所述的方法，其特征在于，经过维度扩张操作，即对扩张区域补零，将空间注意力操作和时间注意力操作的注意力矩阵对齐到与三维注意力操作的注意力矩阵相同维度。

8.一种基于时空增强三维注意力重参数化的视频分类装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。