CN114048818A

CN114048818A - 一种基于加速Transformer模型的视频分类方法

Info

Publication number: CN114048818A
Application number: CN202111358049.0A
Authority: CN
Inventors: 陈书界; 彭小满; 董建锋; 包翠竹; 刘宝龙; 王勋
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2021-11-16
Filing date: 2021-11-16
Publication date: 2022-02-15
Anticipated expiration: 2041-11-16
Also published as: CN114048818B

Abstract

本发明公开了一种基于加速Transformer模型的视频分类方法，该方法包括：首先对原始视频进行预处理得到一个视频特征序列，在序列的位首添加分类token向量；将特征长序列输入到加速Transformer模型中，最后将输出的分类token转换为待分类视频的分类结果。由于视频数据是一个超长序列，使用原始Transformer模型将耗费巨大的计算成本，因此本发明设计了一种加速Transformer模型，使用泰勒一阶展开公式对Softmax函数进行展开，得到一个逼近于Softmax的线性函数，运用此线性函数进行输入元素之间的注意力权值计算，利用矩阵乘法的结合律将Transformer时间及空间复杂度降低至线性复杂度，从而很大程度上解决了Transformer输入序列长度的限制问题以及训练速度缓慢问题，使得Transformer模型更适用于视频分类任务。

Description

一种基于加速Transformer模型的视频分类方法

技术领域

本发明涉及视频技术领域，具体设计了一种基于加速Transformer模型的视频分类方法。

背景技术

随着5G时代的到来，网络通信具有更快的传输速度、更大带宽与更低时延等特点，使得用户可以从更多渠道获得各种各样的视频资源，也进一步加剧了视频数据的增长。面对海量的视频数据，如何对这些视频进行分类，使得用户能快速地从中获取自己感兴趣的视频成为计算机视觉领域中非常重要且具有挑战性的研究热点之一。

传统的视频分类方法主要基于深度2D或3D卷积神经网络模型，但其分类性能始终受限于卷积神经网络架构下的感受野问题，无法做到长程或全局关系建模。近年来，基于多头自注意力机制的Transfomer模型由于其显著的序列建模能力已经成为机器学习许多领域中最先进的模型。而视频数据具有序列性，并且需要关联上下文进行理解，因此我们认为具有长距离自我注意力机制的Transformer模型相比于卷积神经网络更适合视频建模。

Transformer的自注意力机制可以用以下公式表示：

其中Q，K，V是输入序列矩阵

分别通过矩阵

和

生成的投影，分别用于表示输入的查询特征、关键字特征以及字值特征。N是输入序列的长度，d是元素嵌入表示的维度，d_k是投影的特征维度。对Q和K进行列点积计算，可以生成一个N×N的注意力矩阵。该注意力矩阵可用于衡量查询元素与关键字元素之间的相关性。再通过使用Softmax函数对注意力矩阵进行归一化，可进一步得到注意力权重矩阵。最后将权重矩阵乘回字值特征V中，即可得到包含查询信息与关键字信息的字值特征加权结果。然而这种自注意力机制在给模型带来高性能的同时也伴随着非常高的计算和内存成本，造成这种问题的主要原因在于Softmax函数的非线性性与固定的矩阵乘法顺序。

在Softmax函数的作用下，Attention模块必须先计算矩阵Q和矩阵K乘积，然后再乘以矩阵V。这一过程的时间以及空间复杂度为O(d_kN²)，即Transformer的计算复杂度与输入序列长度N的平方成正比。这对于视频数据这样的长序列来说成本是极其昂贵的，即使对视频数据进行采样将其缩短为中等长度的序列，也无法在计算资源有限的环境中使用Transformer。如何保留Transfomrer对视频建模的优势，同时降低Transformer应用于视频数据时所需的高昂计算量和内存，是一个艰巨的挑战。

发明内容

本发明提供了一种基于加速Transformer模型的视频分类方法，保留了Transformer模型中self-attention机制计算全局感受野的优势，并且利用逼近于Softmax函数的线性函数以及矩阵乘法的结合律解决了Softmax函数的瓶颈问题，塑造了一种加速Transformer模型，极大程度的降低了Transformer模型用于视频分类任务的计算成本，从而实现高效的视频分类。

本发明的目的是通过以下技术方案来实现的：一种基于加速Transformer模型的视频分类方法，包括以下步骤：

(1)对原始视频进行预处理，得到每帧图像对应的缩略图和若干个图像块；

(2)将步骤(1)中得到的图像块和缩略图进行特征嵌入，得到图像块以及缩略图的D维特征嵌入向量；

(3)使用可学习的位置嵌入向量，编码步骤(2)中所有图像块的时空位置信息，得到含有位置信息的图像块特征嵌入向量；

(4)在视频向量序列的位首添加一个可学习的D维向量作为分类token，最终获得Transformer的输入序列；

(5)将步骤(4)中的输入序列经过Transformer模型的编码器得到融合了时空上下文依赖关系的输出特征序列，其中，Transformer模型使用加速线性自注意力模块：通过泰勒展开公式对Softmax函数进行线性展开，运用注意力权值矩阵的归一性和非负性得到精度极度近似于Softmax函数的线性函数，利用该线性函数以及矩阵乘法的结合律实现线性加速自注意力机制；

(6)分离出步骤(5)中输出特征序列的位首向量，该向量为分类token，将分类token向量转换为对应的类别，输出视频的类别。

进一步地，所述步骤(1)中的预处理方法包括如下步骤：

(1-1)预先设定采样时间间隔，从视频中均匀提取k个视频帧；

(1-2)将步骤(1-1)中得到的每一帧图像分割成n个同等大小且互不重叠的图像块；

(1-3)对步骤(1-1)中得到的每一帧图像使用降采样获得对应的缩略图作为全局信息。

进一步地，所述步骤(2)中的特征嵌入方法包括如下步骤：

(2-1)将视频帧所对应的缩略图和若干个图像块一维化；

(2-2)使用可训练的线性投影将图像块向量和缩略图向量投影至D维空间。

进一步地，所述步骤(5)中使用逼近于Softmax函数的线性函数替换Softmax函数包括如下步骤：

(5-1)利用泰勒展开公式得到Softmax函数在x＝0处的近似线性函数如下：

其中

I_N是N阶单位矩阵，1_N是长度为N的全1向量；

(5-2)使用步骤(5-1)获得的近似线性函数替代Softmax函数，Transformer模型的自注意力机制的计算表达式变换为如下：

其中

分别表示输入序列的查询特征、关键字特征以及字值特征，

为近似Softmax矩阵，常数C为条件因子；

(5-3)由于Softmax函数计算之后所得到的矩阵为权值矩阵，所以步骤(5-2)的近似Softmax矩阵应当满足权值矩阵的特性：归一化和非负性。根据这两种性质求出步骤(5-2)中常数C的具体范围为C≥2且

其中q_i表示矩阵Q中的第i列向量；在此基础上，选定常数C的值为：

C＝d_k

经过推导可证明，步骤(5-1)中线性函数逼近于Softmax函数的误差为

(5-4)将

代入步骤(5-1)中，得到权值矩阵表达式如下：

将权值矩阵表达式代入步骤(5-2)中，并进行化简可以得到近似Softmax多项式函数的自注意力机制的表达式如下：

其中

v_j表示矩阵V的第j列向量。

进一步地，所述步骤(6)中将分类token向量转化为对应类别的方法包括如下步骤：

(6-1)对该分类token向量使用层归一化(LN)；

(6-2)将步骤(6-1)中归一化后的向量经过一个全连接网络以及Softmax层，得到每个类别的概率分布；

(6-3)通过步骤(6-2)中的概率分布，得到当前预测的视频类别。

本发明的有益效果是：本发明提出了一种基于加速Transformer模型的视频分类方法，该方法采用Transformer模型代替了传统的CNN模型对视频序列进行建模，利用自注意力机制捕获全局的上下文信息，建立元素之间的远距离依赖，从而提取出更强有力的特征。另外，本发明构造了一种加速Transformer结构，使用近似Softmax的线性函数进行输入元素之间的注意力权值计算，通过矩阵乘法的结合律，使得自注意力模块的时间和空间复杂度与输入序列长度呈线性关系，解决了原始Transformer模型应用于长序列输入计算成本高、训练速度慢的问题，使得Transformer模型更适用于视频分类任务。同时本发明所提出的Softmax函数近似线性函数不仅可用于Transformer模型中，还可以用于其它具用Softmax Attention的结构中，这可以为深度学习技术挖掘出大量潜在的应用。

附图说明

图1为本发明的结构图；

图2为原始Transformer与本发明的加速Transformer复杂度对比图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本发明的结构图如图1所示，本发明提出了一种基于加速Transformer模型的视频分类方法，包括：

(1)对原始视频进行预处理，得到每帧图像对应的缩略图和若干个图像块。

(1-1)预先设定采样时间间隔，例如可设置为1秒，从视频中均匀提取出k个视频帧，每个视频提取的视频帧数量根据视频长度确定；

(1-2)将步骤(1-1)中得到的每一帧大小均为H×W的图像分割成n个大小为P×P的图像块，其中

(1-3)将步骤(1-1)中大小均为H×W的帧图像经过池化层降采样，使其图像大小缩小为

s为缩小比例，得到每一帧图像的缩略图作为全局信息。

(2)将步骤(1)中得到的图像块和缩略图进行特征嵌入，得到图像块以及缩略图的D维特征嵌入向量。

(2-1)将步骤(1)中得到的图像块进行一维化得到其所对应的向量表示，即：

其中p＝{1，...，n}表示图像块在空间上的位置，t＝{1，...，k}表示图像块所在帧的索引；

(2-2)将步骤(1)中得到的缩略图进行一维化得到其所对应的向量表示，即：

其中t＝{1，...，k}表示缩略图所在帧的索引；

(2-3)将步骤(2-1)中得到的图像块向量x_(p，t)通过一个可训练的线性投影将其线性映射至D维的嵌入向量

即：

z_(p，t)＝Ex_(p，t)

其中

表示一个可学习的权重矩阵；

(2-4)将步骤(2-2)中得到的缩略图向量ht也通过一个可训练的线性投影将其线性映射至D维的嵌入向量

即：

h′_t＝E′h_t

其中

表示一个可学习的权重矩阵。

(3)使用可学习的位置嵌入向量，编码步骤(2)中所有图像块的时空位置信息，得到含有位置信息的图像块特征嵌入向量；具体为：

预先准备一个可学习的位置嵌入向量

与步骤(2-3)中得到的图像块嵌入向量z_(p，t)相加，得到具有时空位置信息的图像块嵌入向量

即：

z′_(p，t)＝z_(p，t)+p_(p，t)

(4)由步骤(2)得到的缩略图的D维特征嵌入向量和步骤(3)得到的含有位置信息的图像块特征嵌入向量构成视频向量序列，在视频向量序列的位首添加一个可学习的D维向量z_cls作为分类token，最终获得Transformer的输入序列Z为

其中N＝k(n+1)+1，上标0代表Transformer的初始输入序列。

(5)将步骤(4)中的输入序列经过Transformer模型的编码器得到融合了时空上下文依赖关系的输出特征序列。另外，由于原始Transformer无法对这样超长的输入序列进行建模，所以我们将Transformer模型的自注意力机制中的Softmax函数替换为一种逼近于Softmax函数的线性函数。

(5-1)Transformer模型的编码器由L个编码块堆叠而成。编码块包含多头自注意力层和前馈神经网络层。在每个编码块的起始，我们都需要将上一个编码块输出的编码向量序列表示Z^l-1分别乘以W_Q，W_K，W_V计算序列中的每个元素所对应的query向量特征投影，key向量特征投影以及value向量特征投影用于自注意力机制，即：

其中Q，K，V分别用于表示Z^l-1的查询特征、关键字特征以及字值特征；

d_k是投影的特征维度；

(5-2)Softmax函数表达式如下：

其中

x_j表示输入向量x的第j个元素；

通过向量微分对Softmax函数进行求导得到导数表达式如下：

其中D_iS_j表示S_j对元素x_i求导；

引入冲击函数δ_ij，其表达式如下：

则Softmax导函数又可以表示为：

D_iS_j＝S_i(δ_ij-S_j)

(5-3)由于

所以在x＝0处的雅可比矩阵可表示为如下：

其中I_N为N阶单位矩阵，1_N为长度为N的单位向量；

根据泰勒定理可知，函数Softmax在x＝0处可导时，则在x＝0处的邻域内恒有近似于Softmax的一阶线性函数

(5-4)将x＝0处的雅可比矩阵J(0)代入

中就可以得到Softmax函数在x＝0处的极度近似线性表示如下：

其中

I_N为N阶单位矩阵，1_N为长度为N的单位向量；

(5-5)使用步骤(5-4)中的线性函数

代替Transformer模型中用于计算注意力权值矩阵的Softmax函数，Transformer模型中自注意力模块近似替换为线性自注意力模块：

其中

分别代表查询特征、关键字特征以及字值特征，常数C为条件因子；

(5-6)步骤(5-5)中近似Softmax矩阵应当满足权值矩阵的特性：归一化和非负性。根据这两种性质求出常数C的范围为C≥2且

其中q_i表示矩阵Q中的第i列向量，然后在此基础上设定具体值：

C＝d_k

此时线性函数

近似逼近于Softmax函数的误差为

(5-7)加速Transformer模型的自注意力机制的表达式如下：

其中

v_j表示矩阵V的第j列向量。

原始Transformer与本发明的加速Transformer复杂度对比如图2所示，左半部分描述了Transformer中自注意力模块的矩阵计算顺序，先进行Softmax注意力权值计算得到一个N×N的Attention矩阵，其次将Attention矩阵与大小为N×d_k的V矩阵相乘，根据矩阵相乘的复杂度计算规则得到Transformer的复杂度为O(d_kN²)。右半部分描述了本发明中线性自注意力模块的矩阵计算顺序。由于我们将Softmax线性化，所以无需先计算大小都为N×d_k的Q矩阵和K矩阵的点积注意力，而是利用矩阵乘法的结合律，先计算K矩阵的转置(大小为d_k×N)与V矩阵(大小为N×d_k)的乘积，得到一个大小为d_k×d_k的矩阵，该过程的复杂度为O(d_k ²N)，然后再计算Q矩阵与上述d_k×d_k矩阵的乘积，该过程的复杂度也为O(d_k ²N)，所以本发明的线性注意力模块的复杂度为O(d_k ²N)。值得一提的是，虽然本发明的线性化自注意力模块改变了矩阵相乘的顺序，但这样的操作并不会影响元素之间进行自注意力的本质，也就是说本发明所构造的加速Transformer模型，显著降低了时间与空间复杂度，使Transformer更适用于视频分类任务；

(5-8)使用步骤(5-7)所构造的线性自注意力机制对步骤(5-1)所得到的矩阵Q、矩阵K以及矩阵V进行时空自注意力计算，然后将含有时空依赖关系的特征编码序列经过前馈神经网络层后作为下一个编码块的输入序列，直到最后一个编码块输出视频的特征序列。

(6-1)对分类token向量使用层归一化(LN)；

(6-2)将步骤(6-1)中归一化后的向量经过一个全连接层以及Softmax层，得到我们预先设置的多个类别标签的概率分布；

(6-3)根据步骤(6-2)中的概率分布，选取概率最大的类别标签作为当前预测的视频类别。如图1所示，我们得到了包含扳手腕、做瑜伽、吹气球、遛狗等400种视频类别的概率分布，最终选取概率分数最高的“吹气球”作为输入视频的分类结果。

以上所述仅是本发明的优选实施方式，虽然本发明已以较佳实施例披露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。