CN114048818A - 一种基于加速Transformer模型的视频分类方法 - Google Patents

一种基于加速Transformer模型的视频分类方法 Download PDF

Info

Publication number
CN114048818A
CN114048818A CN202111358049.0A CN202111358049A CN114048818A CN 114048818 A CN114048818 A CN 114048818A CN 202111358049 A CN202111358049 A CN 202111358049A CN 114048818 A CN114048818 A CN 114048818A
Authority
CN
China
Prior art keywords
video
vector
softmax
matrix
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111358049.0A
Other languages
English (en)
Inventor
陈书界
彭小满
董建锋
包翠竹
刘宝龙
王勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN202111358049.0A priority Critical patent/CN114048818A/zh
Publication of CN114048818A publication Critical patent/CN114048818A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于加速Transformer模型的视频分类方法,该方法包括:首先对原始视频进行预处理得到一个视频特征序列,在序列的位首添加分类token向量;将特征长序列输入到加速Transformer模型中,最后将输出的分类token转换为待分类视频的分类结果。由于视频数据是一个超长序列,使用原始Transformer模型将耗费巨大的计算成本,因此本发明设计了一种加速Transformer模型,使用泰勒一阶展开公式对Softmax函数进行展开,得到一个逼近于Softmax的线性函数,运用此线性函数进行输入元素之间的注意力权值计算,利用矩阵乘法的结合律将Transformer时间及空间复杂度降低至线性复杂度,从而很大程度上解决了Transformer输入序列长度的限制问题以及训练速度缓慢问题,使得Transformer模型更适用于视频分类任务。

Description

一种基于加速Transformer模型的视频分类方法
技术领域
本发明涉及视频技术领域,具体设计了一种基于加速Transformer模型的视频分类方法。
背景技术
随着5G时代的到来,网络通信具有更快的传输速度、更大带宽与更低时延等特点,使得用户可以从更多渠道获得各种各样的视频资源,也进一步加剧了视频数据的增长。面对海量的视频数据,如何对这些视频进行分类,使得用户能快速地从中获取自己感兴趣的视频成为计算机视觉领域中非常重要且具有挑战性的研究热点之一。
传统的视频分类方法主要基于深度2D或3D卷积神经网络模型,但其分类性能始终受限于卷积神经网络架构下的感受野问题,无法做到长程或全局关系建模。近年来,基于多头自注意力机制的Transfomer模型由于其显著的序列建模能力已经成为机器学习许多领域中最先进的模型。而视频数据具有序列性,并且需要关联上下文进行理解,因此我们认为具有长距离自我注意力机制的Transformer模型相比于卷积神经网络更适合视频建模。
Transformer的自注意力机制可以用以下公式表示:
Figure BDA0003358044630000011
其中Q,K,V是输入序列矩阵
Figure BDA0003358044630000012
分别通过矩阵
Figure BDA0003358044630000013
Figure BDA0003358044630000014
生成的投影,分别用于表示输入的查询特征、关键字特征以及字值特征。N是输入序列的长度,d是元素嵌入表示的维度,dk是投影的特征维度。对Q和K进行列点积计算,可以生成一个N×N的注意力矩阵。该注意力矩阵可用于衡量查询元素与关键字元素之间的相关性。再通过使用Softmax函数对注意力矩阵进行归一化,可进一步得到注意力权重矩阵。最后将权重矩阵乘回字值特征V中,即可得到包含查询信息与关键字信息的字值特征加权结果。然而这种自注意力机制在给模型带来高性能的同时也伴随着非常高的计算和内存成本,造成这种问题的主要原因在于Softmax函数的非线性性与固定的矩阵乘法顺序。
在Softmax函数的作用下,Attention模块必须先计算矩阵Q和矩阵K乘积,然后再乘以矩阵V。这一过程的时间以及空间复杂度为O(dkN2),即Transformer的计算复杂度与输入序列长度N的平方成正比。这对于视频数据这样的长序列来说成本是极其昂贵的,即使对视频数据进行采样将其缩短为中等长度的序列,也无法在计算资源有限的环境中使用Transformer。如何保留Transfomrer对视频建模的优势,同时降低Transformer应用于视频数据时所需的高昂计算量和内存,是一个艰巨的挑战。
发明内容
本发明提供了一种基于加速Transformer模型的视频分类方法,保留了Transformer模型中self-attention机制计算全局感受野的优势,并且利用逼近于Softmax函数的线性函数以及矩阵乘法的结合律解决了Softmax函数的瓶颈问题,塑造了一种加速Transformer模型,极大程度的降低了Transformer模型用于视频分类任务的计算成本,从而实现高效的视频分类。
本发明的目的是通过以下技术方案来实现的:一种基于加速Transformer模型的视频分类方法,包括以下步骤:
(1)对原始视频进行预处理,得到每帧图像对应的缩略图和若干个图像块;
(2)将步骤(1)中得到的图像块和缩略图进行特征嵌入,得到图像块以及缩略图的D维特征嵌入向量;
(3)使用可学习的位置嵌入向量,编码步骤(2)中所有图像块的时空位置信息,得到含有位置信息的图像块特征嵌入向量;
(4)在视频向量序列的位首添加一个可学习的D维向量作为分类token,最终获得Transformer的输入序列;
(5)将步骤(4)中的输入序列经过Transformer模型的编码器得到融合了时空上下文依赖关系的输出特征序列,其中,Transformer模型使用加速线性自注意力模块:通过泰勒展开公式对Softmax函数进行线性展开,运用注意力权值矩阵的归一性和非负性得到精度极度近似于Softmax函数的线性函数,利用该线性函数以及矩阵乘法的结合律实现线性加速自注意力机制;
(6)分离出步骤(5)中输出特征序列的位首向量,该向量为分类token,将分类token向量转换为对应的类别,输出视频的类别。
进一步地,所述步骤(1)中的预处理方法包括如下步骤:
(1-1)预先设定采样时间间隔,从视频中均匀提取k个视频帧;
(1-2)将步骤(1-1)中得到的每一帧图像分割成n个同等大小且互不重叠的图像块;
(1-3)对步骤(1-1)中得到的每一帧图像使用降采样获得对应的缩略图作为全局信息。
进一步地,所述步骤(2)中的特征嵌入方法包括如下步骤:
(2-1)将视频帧所对应的缩略图和若干个图像块一维化;
(2-2)使用可训练的线性投影将图像块向量和缩略图向量投影至D维空间。
进一步地,所述步骤(5)中使用逼近于Softmax函数的线性函数替换Softmax函数包括如下步骤:
(5-1)利用泰勒展开公式得到Softmax函数在x=0处的近似线性函数如下:
Figure BDA0003358044630000031
其中
Figure BDA0003358044630000032
IN是N阶单位矩阵,1N是长度为N的全1向量;
(5-2)使用步骤(5-1)获得的近似线性函数替代Softmax函数,Transformer模型的自注意力机制的计算表达式变换为如下:
Figure BDA0003358044630000033
其中
Figure BDA0003358044630000034
分别表示输入序列的查询特征、关键字特征以及字值特征,
Figure BDA0003358044630000035
为近似Softmax矩阵,常数C为条件因子;
(5-3)由于Softmax函数计算之后所得到的矩阵为权值矩阵,所以步骤(5-2)的近似Softmax矩阵应当满足权值矩阵的特性:归一化和非负性。根据这两种性质求出步骤(5-2)中常数C的具体范围为C≥2且
Figure BDA0003358044630000036
其中qi表示矩阵Q中的第i列向量;在此基础上,选定常数C的值为:
C=dk
经过推导可证明,步骤(5-1)中线性函数逼近于Softmax函数的误差为
Figure BDA0003358044630000037
(5-4)将
Figure BDA0003358044630000038
代入步骤(5-1)中,得到权值矩阵表达式如下:
Figure BDA0003358044630000039
将权值矩阵表达式代入步骤(5-2)中,并进行化简可以得到近似Softmax多项式函数的自注意力机制的表达式如下:
Figure BDA0003358044630000041
其中
Figure BDA0003358044630000042
vj表示矩阵V的第j列向量。
进一步地,所述步骤(6)中将分类token向量转化为对应类别的方法包括如下步骤:
(6-1)对该分类token向量使用层归一化(LN);
(6-2)将步骤(6-1)中归一化后的向量经过一个全连接网络以及Softmax层,得到每个类别的概率分布;
(6-3)通过步骤(6-2)中的概率分布,得到当前预测的视频类别。
本发明的有益效果是:本发明提出了一种基于加速Transformer模型的视频分类方法,该方法采用Transformer模型代替了传统的CNN模型对视频序列进行建模,利用自注意力机制捕获全局的上下文信息,建立元素之间的远距离依赖,从而提取出更强有力的特征。另外,本发明构造了一种加速Transformer结构,使用近似Softmax的线性函数进行输入元素之间的注意力权值计算,通过矩阵乘法的结合律,使得自注意力模块的时间和空间复杂度与输入序列长度呈线性关系,解决了原始Transformer模型应用于长序列输入计算成本高、训练速度慢的问题,使得Transformer模型更适用于视频分类任务。同时本发明所提出的Softmax函数近似线性函数不仅可用于Transformer模型中,还可以用于其它具用Softmax Attention的结构中,这可以为深度学习技术挖掘出大量潜在的应用。
附图说明
图1为本发明的结构图;
图2为原始Transformer与本发明的加速Transformer复杂度对比图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明的结构图如图1所示,本发明提出了一种基于加速Transformer模型的视频分类方法,包括:
(1)对原始视频进行预处理,得到每帧图像对应的缩略图和若干个图像块。
(1-1)预先设定采样时间间隔,例如可设置为1秒,从视频中均匀提取出k个视频帧,每个视频提取的视频帧数量根据视频长度确定;
(1-2)将步骤(1-1)中得到的每一帧大小均为H×W的图像分割成n个大小为P×P的图像块,其中
Figure BDA0003358044630000051
(1-3)将步骤(1-1)中大小均为H×W的帧图像经过池化层降采样,使其图像大小缩小为
Figure BDA0003358044630000052
s为缩小比例,得到每一帧图像的缩略图作为全局信息。
(2)将步骤(1)中得到的图像块和缩略图进行特征嵌入,得到图像块以及缩略图的D维特征嵌入向量。
(2-1)将步骤(1)中得到的图像块进行一维化得到其所对应的向量表示,即:
Figure BDA0003358044630000053
其中p={1,...,n}表示图像块在空间上的位置,t={1,...,k}表示图像块所在帧的索引;
(2-2)将步骤(1)中得到的缩略图进行一维化得到其所对应的向量表示,即:
Figure BDA0003358044630000054
其中t={1,...,k}表示缩略图所在帧的索引;
(2-3)将步骤(2-1)中得到的图像块向量x(p,t)通过一个可训练的线性投影将其线性映射至D维的嵌入向量
Figure BDA0003358044630000055
即:
z(p,t)=Ex(p,t)
其中
Figure BDA0003358044630000056
表示一个可学习的权重矩阵;
(2-4)将步骤(2-2)中得到的缩略图向量ht也通过一个可训练的线性投影将其线性映射至D维的嵌入向量
Figure BDA0003358044630000057
即:
h′t=E′ht
其中
Figure BDA0003358044630000058
表示一个可学习的权重矩阵。
(3)使用可学习的位置嵌入向量,编码步骤(2)中所有图像块的时空位置信息,得到含有位置信息的图像块特征嵌入向量;具体为:
预先准备一个可学习的位置嵌入向量
Figure BDA0003358044630000059
与步骤(2-3)中得到的图像块嵌入向量z(p,t)相加,得到具有时空位置信息的图像块嵌入向量
Figure BDA00033580446300000510
即:
z′(p,t)=z(p,t)+p(p,t)
(4)由步骤(2)得到的缩略图的D维特征嵌入向量和步骤(3)得到的含有位置信息的图像块特征嵌入向量构成视频向量序列,在视频向量序列的位首添加一个可学习的D维向量zcls作为分类token,最终获得Transformer的输入序列Z为
Figure BDA0003358044630000061
其中N=k(n+1)+1,上标0代表Transformer的初始输入序列。
(5)将步骤(4)中的输入序列经过Transformer模型的编码器得到融合了时空上下文依赖关系的输出特征序列。另外,由于原始Transformer无法对这样超长的输入序列进行建模,所以我们将Transformer模型的自注意力机制中的Softmax函数替换为一种逼近于Softmax函数的线性函数。
(5-1)Transformer模型的编码器由L个编码块堆叠而成。编码块包含多头自注意力层和前馈神经网络层。在每个编码块的起始,我们都需要将上一个编码块输出的编码向量序列表示Zl-1分别乘以WQ,WK,WV计算序列中的每个元素所对应的query向量特征投影,key向量特征投影以及value向量特征投影用于自注意力机制,即:
Figure BDA0003358044630000062
Figure BDA0003358044630000063
Figure BDA0003358044630000064
其中Q,K,V分别用于表示Zl-1的查询特征、关键字特征以及字值特征;
Figure BDA0003358044630000065
dk是投影的特征维度;
(5-2)Softmax函数表达式如下:
Figure BDA0003358044630000066
其中
Figure BDA0003358044630000067
xj表示输入向量x的第j个元素;
通过向量微分对Softmax函数进行求导得到导数表达式如下:
Figure BDA0003358044630000068
其中DiSj表示Sj对元素xi求导;
引入冲击函数δij,其表达式如下:
Figure BDA0003358044630000071
则Softmax导函数又可以表示为:
DiSj=Siij-Sj)
(5-3)由于
Figure BDA0003358044630000072
所以在x=0处的雅可比矩阵可表示为如下:
Figure BDA0003358044630000073
其中IN为N阶单位矩阵,1N为长度为N的单位向量;
根据泰勒定理可知,函数Softmax在x=0处可导时,则在x=0处的邻域内恒有近似于Softmax的一阶线性函数
Figure BDA0003358044630000074
Figure BDA0003358044630000075
(5-4)将x=0处的雅可比矩阵J(0)代入
Figure BDA0003358044630000076
中就可以得到Softmax函数在x=0处的极度近似线性表示如下:
Figure BDA0003358044630000077
其中
Figure BDA0003358044630000078
IN为N阶单位矩阵,1N为长度为N的单位向量;
(5-5)使用步骤(5-4)中的线性函数
Figure BDA0003358044630000079
代替Transformer模型中用于计算注意力权值矩阵的Softmax函数,Transformer模型中自注意力模块近似替换为线性自注意力模块:
Figure BDA00033580446300000710
其中
Figure BDA00033580446300000711
分别代表查询特征、关键字特征以及字值特征,常数C为条件因子;
(5-6)步骤(5-5)中近似Softmax矩阵应当满足权值矩阵的特性:归一化和非负性。根据这两种性质求出常数C的范围为C≥2且
Figure BDA00033580446300000712
其中qi表示矩阵Q中的第i列向量,然后在此基础上设定具体值:
C=dk
此时线性函数
Figure BDA00033580446300000713
近似逼近于Softmax函数的误差为
Figure BDA00033580446300000714
(5-7)加速Transformer模型的自注意力机制的表达式如下:
Figure BDA00033580446300000715
其中
Figure BDA00033580446300000716
vj表示矩阵V的第j列向量。
原始Transformer与本发明的加速Transformer复杂度对比如图2所示,左半部分描述了Transformer中自注意力模块的矩阵计算顺序,先进行Softmax注意力权值计算得到一个N×N的Attention矩阵,其次将Attention矩阵与大小为N×dk的V矩阵相乘,根据矩阵相乘的复杂度计算规则得到Transformer的复杂度为O(dkN2)。右半部分描述了本发明中线性自注意力模块的矩阵计算顺序。由于我们将Softmax线性化,所以无需先计算大小都为N×dk的Q矩阵和K矩阵的点积注意力,而是利用矩阵乘法的结合律,先计算K矩阵的转置(大小为dk×N)与V矩阵(大小为N×dk)的乘积,得到一个大小为dk×dk的矩阵,该过程的复杂度为O(dk 2N),然后再计算Q矩阵与上述dk×dk矩阵的乘积,该过程的复杂度也为O(dk 2N),所以本发明的线性注意力模块的复杂度为O(dk 2N)。值得一提的是,虽然本发明的线性化自注意力模块改变了矩阵相乘的顺序,但这样的操作并不会影响元素之间进行自注意力的本质,也就是说本发明所构造的加速Transformer模型,显著降低了时间与空间复杂度,使Transformer更适用于视频分类任务;
(5-8)使用步骤(5-7)所构造的线性自注意力机制对步骤(5-1)所得到的矩阵Q、矩阵K以及矩阵V进行时空自注意力计算,然后将含有时空依赖关系的特征编码序列经过前馈神经网络层后作为下一个编码块的输入序列,直到最后一个编码块输出视频的特征序列。
(6)分离出步骤(5)中输出特征序列的位首向量,该向量为分类token,将分类token向量转换为对应的类别,输出视频的类别。
(6-1)对分类token向量使用层归一化(LN);
(6-2)将步骤(6-1)中归一化后的向量经过一个全连接层以及Softmax层,得到我们预先设置的多个类别标签的概率分布;
(6-3)根据步骤(6-2)中的概率分布,选取概率最大的类别标签作为当前预测的视频类别。如图1所示,我们得到了包含扳手腕、做瑜伽、吹气球、遛狗等400种视频类别的概率分布,最终选取概率分数最高的“吹气球”作为输入视频的分类结果。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (6)

1.一种基于加速Transformer模型的视频分类方法,其特征在于,包括:
(1)对原始视频进行预处理,得到每帧图像对应的缩略图和若干个图像块;
(2)将步骤(1)中得到的图像块和缩略图进行特征嵌入,得到图像块以及缩略图的D维特征嵌入向量;
(3)使用可学习的位置嵌入向量,编码步骤(2)中所有图像块的时空位置信息,得到含有位置信息的图像块特征嵌入向量;
(4)在视频向量序列的位首添加一个可学习的D维向量作为分类token,最终获得Transformer的输入序列;
(5)将步骤(4)中的输入序列经过Transformer模型的编码器得到融合了时空上下文依赖关系的输出特征序列,其中,Transformer模型使用加速线性自注意力模块:通过泰勒展开公式对Softmax函数进行线性展开,运用注意力权值矩阵的归一性和非负性得到精度极度近似于Softmax函数的线性函数,利用该线性函数以及矩阵乘法的结合律实现线性加速自注意力机制;
(6)分离出步骤(5)中输出特征序列的位首向量,该向量为分类token,将分类token向量转换为对应的类别,输出视频的类别。
2.根据权利要求1所述的一种基于加速Transformer模型的视频分类方法,其特征在于,所述步骤(1)中的预处理方法包括如下步骤:
(1-1)预先设定采样时间间隔,从视频中均匀提取k个视频帧;
(1-2)将步骤(1-1)中得到的每一帧图像分割成n个同等大小且互不重叠的图像块;
(1-3)对步骤(1-1)中得到的每一帧图像使用降采样获得对应的缩略图作为全局信息。
3.根据权利要求1所述的一种基于加速Transformer模型的视频分类方法,其特征在于,所述步骤(2)中的特征嵌入方法包括如下步骤:
(2-1)将视频帧所对应的缩略图和若干个图像块一维化;
(2-2)使用可训练的线性投影将图像块向量和缩略图向量投影至D维空间。
4.根据权利要求1所述的一种基于加速Transformer模型的视频分类方法,其特征在于,所述步骤(5)中使用逼近于Softmax函数的线性函数替换Softmax函数包括如下步骤:
(5-1)利用泰勒展开公式得到Softmax函数在x=0处的近似线性函数如下:
Figure RE-FDA0003469829300000021
其中输入向量
Figure RE-FDA0003469829300000022
N是Transformer模型初始输入序列的长度,IN是N阶单位矩阵,1N是长度为N的全1向量;
(5-2)使用步骤(5-1)获得的近似线性函数替代Softmax函数,Transformer模型的自注意力机制的计算表达式变换为如下:
Figure RE-FDA0003469829300000023
其中
Figure RE-FDA0003469829300000024
分别表示输入序列的查询特征、关键字特征以及字值特征,dk为Q,K,V的特征维度,
Figure RE-FDA0003469829300000025
为近似Softmax矩阵,常数C为条件因子;
(5-3)根据步骤(5-2)的近似Softmax矩阵应当满足权值矩阵的特性:归一化和非负性,计算得到步骤(5-2)中常数C的具体范围为C≥2且
Figure RE-FDA0003469829300000026
其中qi表示矩阵Q中的第i列向量;
(5-4)将
Figure RE-FDA0003469829300000027
代入步骤(5-1)中,得到权值矩阵表达式如下:
Figure RE-FDA0003469829300000028
将权值矩阵表达式代入步骤(5-2)中,并进行化简得到近似Softmax多项式函数的自注意力机制的表达式如下:
Figure RE-FDA0003469829300000029
其中
Figure RE-FDA00034698293000000210
vj表示矩阵V的第j列向量。
5.根据权利要求4所述的一种基于加速Transformer模型的视频分类方法,其特征在于,所述步骤(5-3)中,选定常数C的值为C=dk
6.根据权利要求1所述的一种基于加速Transformer模型的视频分类方法,其特征在于,所述步骤(6)中将分类token向量转化为对应类别的方法包括如下步骤:
(6-1)对该分类token向量使用层归一化;
(6-2)将步骤(6-1)中归一化后的向量经过一个全连接网络以及Softmax层,得到每个类别的概率分布;根据概率分布,得到当前预测的视频类别。
CN202111358049.0A 2021-11-16 2021-11-16 一种基于加速Transformer模型的视频分类方法 Pending CN114048818A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111358049.0A CN114048818A (zh) 2021-11-16 2021-11-16 一种基于加速Transformer模型的视频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111358049.0A CN114048818A (zh) 2021-11-16 2021-11-16 一种基于加速Transformer模型的视频分类方法

Publications (1)

Publication Number Publication Date
CN114048818A true CN114048818A (zh) 2022-02-15

Family

ID=80209676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111358049.0A Pending CN114048818A (zh) 2021-11-16 2021-11-16 一种基于加速Transformer模型的视频分类方法

Country Status (1)

Country Link
CN (1) CN114048818A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114926460A (zh) * 2022-07-19 2022-08-19 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 眼底图像分类模型的训练方法、眼底图像分类方法及系统
CN116541705A (zh) * 2023-05-06 2023-08-04 石家庄铁道大学 文本分类模型的训练方法及文本分类方法
CN117036788A (zh) * 2023-07-21 2023-11-10 阿里巴巴达摩院(杭州)科技有限公司 图像分类方法、训练图像分类模型的方法及装置
CN117115178A (zh) * 2023-08-23 2023-11-24 国网四川省电力公司电力科学研究院 一种基于半参数共享的电力红外巡检图像分割、检测方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114926460A (zh) * 2022-07-19 2022-08-19 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 眼底图像分类模型的训练方法、眼底图像分类方法及系统
CN114926460B (zh) * 2022-07-19 2022-10-25 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 眼底图像分类模型的训练方法、眼底图像分类方法及系统
CN116541705A (zh) * 2023-05-06 2023-08-04 石家庄铁道大学 文本分类模型的训练方法及文本分类方法
CN116541705B (zh) * 2023-05-06 2024-06-11 石家庄铁道大学 文本分类模型的训练方法及文本分类方法
CN117036788A (zh) * 2023-07-21 2023-11-10 阿里巴巴达摩院(杭州)科技有限公司 图像分类方法、训练图像分类模型的方法及装置
CN117036788B (zh) * 2023-07-21 2024-04-02 阿里巴巴达摩院(杭州)科技有限公司 图像分类方法、训练图像分类模型的方法及装置
CN117115178A (zh) * 2023-08-23 2023-11-24 国网四川省电力公司电力科学研究院 一种基于半参数共享的电力红外巡检图像分割、检测方法
CN117115178B (zh) * 2023-08-23 2024-05-14 国网四川省电力公司电力科学研究院 一种基于半参数共享的电力红外巡检图像分割、检测方法

Similar Documents

Publication Publication Date Title
CN114048818A (zh) 一种基于加速Transformer模型的视频分类方法
CN111985369B (zh) 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法
CN109919174A (zh) 一种基于门控级联注意力机制的文字识别方法
CN112328767A (zh) 基于bert模型和比较聚合框架的问答匹配方法
CN112926303A (zh) 一种基于BERT-BiGRU的恶意URL检测方法
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
CN113177141B (zh) 基于语义嵌入软相似性的多标签视频哈希检索方法及设备
CN110457514A (zh) 一种基于深度哈希的多标签图像检索方法
CN110489585B (zh) 基于监督学习的分布式图像搜索方法
CN114780767B (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN112801280A (zh) 视觉深度自适应神经网络的一维卷积位置编码方法
CN111832637B (zh) 基于交替方向乘子法admm的分布式深度学习分类方法
CN114926770A (zh) 视频动作识别方法、装置、设备和计算机可读存储介质
CN112256904A (zh) 一种基于视觉描述语句的图像检索方法
CN115203409A (zh) 一种基于门控融合和多任务学习的视频情感分类方法
CN113609922A (zh) 基于模态匹配的连续手语语句识别方法
CN114818889A (zh) 一种基于线性自注意力Transformer的图像分类方法
CN117173450A (zh) 一种交通场景生成式图像描述方法
Luo et al. A novel adaptive gradient compression scheme: Reducing the communication overhead for distributed deep learning in the Internet of Things
CN114780766A (zh) 基于Transformer模型的细粒度图文检索方法及系统
CN116150535A (zh) 一种企业网站建设推广平台及方法
CN116071715A (zh) 一种自动驾驶汽车实时语义分割模型构建方法
CN112487231B (zh) 一种基于双图正则化约束和字典学习的图像自动标注方法
CN114548293A (zh) 基于跨粒度自蒸馏的视频-文本跨模态检索方法
CN111897995A (zh) 视频特征提取方法及应用该方法的视频量化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination