CN109389055B

CN109389055B - 基于混合卷积和注意力机制的视频分类方法

Info

Publication number: CN109389055B
Application number: CN201811108706.4A
Authority: CN
Inventors: 韩红; 张照宇; 李阳; 陈军如; 高鑫磊; 岳欣
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-09-21
Filing date: 2018-09-21
Publication date: 2021-07-20
Anticipated expiration: 2038-09-21
Also published as: CN109389055A

Abstract

本发明公开了一种基于混合卷积和注意力机制的视频分类方法，解决了现有技术计算复杂、准确率低的问题。实现步骤为：选择视频分类数据集；对输入视频分段采样；预处理两个视频片段；构建混合卷积神经网络模型；在时序维度方向上得到视频混合卷积特征图；用注意力机制运算获取视频注意力特征图；获取视频注意力描述子；训练端到端的整个视频分类模型；测试待分类视频。本发明对不同视频片段直接获取混合卷积特征图，相比获取光流特征方法减少计算量并提高速度，引入不同视频片段之间的注意力机制，描述了不同视频片段之间的关系并提高准确率和鲁棒性，用于视频检索、视频标签、人机交互、行为识别、事件检测和异常检测等任务。

Description

基于混合卷积和注意力机制的视频分类方法

技术领域

本发明属于图像处理技术领域，更进一步涉及基于深度学习的视频分类，具体是一种基于混合卷积和注意力机制的视频分类方法，可用于视频检索、视频标签、人机交互、行为识别、事件检测和异常检测等多个实际任务。

背景技术

视频分类一直是图像视频领域备受关注的一个热门方向，近年来人们依然对视频分类的应用十分感兴趣。随着短视频的流行，各大平台对视频检索和视频标签的准确度要求越来越高，旨在通过智能分类的方法去推荐给用户感兴趣的视频，节约用户时间成本，把握信息流动能力。AR/VR等体感游戏中人机交互和行为识别部分本质也是视频分类问题，例如可以通过提升识别准确度和实时性去提高玩家的游戏体验。当然，更为普及的就是大街小巷的监控摄像头装置，智能监控系统可以对生活和交通事件进行检测，例如拥挤、偷窃、斗殴等异常情况就可以更好的智能识别，在颇有前景的无人超市中也可以起到关键性的作用。所以说视频分类技术涉及人们生活的方方面面，研究视频分类技术可以改善和提高人们的生活感受。

视频分类是指以视频流信号为对象，通过数字图像处理和模式识别方法，获取视频类别的一种实用技术。由于视频种类复杂多样，视频中人物动作自由，人物服饰不同，人物身材不同，相机运动，天气变化，光线强弱，场景变化等多个因素造成解决问题的困难存在，因此视频分类研究是一个多学科交叉的极具挑战性的技术问题。

目前，视频分类的主要方法包括基于传统特征和深度学习两种方法。其中，传统特征多位人工提取的特征，例如SIFT、HOG、光流特征等，由于传统的手工特征提取过程十分耗时，而且泛化性能较差，逐渐被后者兴起的深度学习方法所取代。深度学习方法如今主要又分为两个流派，第一，基于双流卷积神经网络的方法，通过输入动作特征的RGB图像和动作特征的光流图，提取特征后融合表示视频特征并分类；第二，基于3D卷积神经网络的方法，通过直接在时序上进行卷积操作建模，直接提取视频片段时空特征之后分类。上述两种方法各有不足，前者因为涉及光流图提取，计算量大，实时性差，后置因为只对视频片段建模，并不能很好有效解决整个视频信息的关联问题，使得视频帧之间的相关性利用率低，导致精度不高。

R Girdhar等人在其发表的论文“ActionVLAD:Learning spatio-temporalaggregation for action classification”(Conference on Computer Vision andPattern Recognition，2017，2(3)：3165-3174)中提出了一种基于学习时空聚合的动作分类的方法，该方法首先提取视频不同帧不同位置的特征，然后建立字典对单个动作类别中的子类别特征进行聚类，并进行VLAD编码后获取基于多个聚类中心子类别特征的单个动作分类特征，最后融合双流特征得到动作分类。该方法存在的不足之处是初始化提取特征时视频帧局部位置不好确定，端到端训练双流网络的计算量大，实时性差。

电子科技大学申请的专利“一种基于注意力机制的视频分类方法”(专利申请号，公开号)中公开了一种基于注意力机制的视频分类方法。该方法通过卷积神经网络CNN提取视频的空间特征，以注意力权重组合所有的空间特征送入到长短时记忆网络LSTM提取视频的时间特征，最后采用多分类函数对视频内容进行分类。该方法根据LSTM网络状态计算注意力权重，对视频帧之间相关性利用率低，导致RNN在中短视频建模上表现效果不好，分类准确率低。

浙江理工大学申请的专利“一种基于残差网络的人体行为识别方法及装置”中公开了一种基于残差网络的人体行为识别方法及装置。该专利首先通过opencv将视频转换为RGB图像和光流图像，然后使用残差网络提取空间特征和时间特征，再将这两个特征融合后送入分类器分类，确定视频中人体行为分类。该方法存在的不足之处是单纯的通过使用残差网络加深模型，并没有很大的改善，准确率较低。

综上，现有技术对视频分类问题解决的不足在于准确率低、实时性差。

发明内容

本发明的目的是针对上述现有技术的不足，提出一种准确率更高、实时性更好的基于混合卷积和注意力机制的视频分类方法。

本发明是一种基于混合卷积和注意力机制的视频分类方法，其特征在于，利用视频对应的空间信息和时间信息来进行时空特征提取并采取端到端的策略进行视频分类，包括有如下步骤：

(1)选择视频分类数据集：首先针对需要分类的视频选择对应的数据集并输入，例如针对人体动作视频进行分类时，输入人体动作视频数据集，输入数据集全部作为训练集；

(2)对输入视频分段采样：对每一个输入视频采用稀疏分段采样，其中，采样间隔为16帧，得到n个视频片段(c₁,…,c_i,…c_n)，i∈[1,n]，随机获取其中的两个视频片段来共同表征整段视频；

(3)预处理两个视频片段，调整每一个视频图大小：对获取的两个视频片段中的每帧图像分别进行调整，调整单帧图像到大小为160×160像素，得到预处理后的两个视频片段；

(4)构建混合卷积神经网络模型：

(4a)整体神经网络模型结构：混合卷积神经网络自上至下依次是3D卷积层conv1，3D池化层pool1，3个3D残差块，3D池化层pool2，8个3D残差块，3D池化层pool3，36个3D残差块，3D池化层pool4，3个2D残差块，2D池化层pool5，全连接层fc6，分类层softmax；

(4b)3D残差块模型结构：在每一个3D残差块中将用于提取特征的3D卷积核拆解为2个3D卷积核，具体方法如下，把1个3×3×3的卷积核拆解为1个1×3×3卷积核和1个3×1×1卷积核后通过串联的形式直接级联，加入混合卷积神经网络中；

(5)在时序维度方向上得到视频混合卷积特征图：将预处理后的两个视频片段输入到构建的混合卷积神经网络中，获取两个视频片段的混合卷积特征图，在时序维度方向上对两个视频片段的混合卷积特征图进行合并，得到视频混合卷积特征图；

(6)用注意力机制运算获取视频注意力特征图：对视频混合卷积特征图进行注意力机制运算，得到视频注意力特征图；

(7)获取视频注意力描述子：改变注意力特征图形状，池化后按通道数展开为1维特征向量，即为具有视频空间信息和时间信息的时空特征；

(8)训练端到端的整个视频分类模型：利用视频注意力描述子加上softmax分类器，与混合卷积神经网络和注意力机制运算模块一起构成整个视频分类模型，对分类模型进行端到端的训练，得到训练完成的整个视频分类模型；

(9)测试待分类视频：输入待分类视频到训练完成的整个视频分类模型中，视频分类模型输出即为测试视频的分类结果。

本发明通过混合视频片段卷积特征图并计算注意力描述子，以获得更具鲁棒性的特征表示，减小了计算量，提高了速度和分类的准确度。

本发明与现有技术相比具有以下优点：

第一，由于本发明采用端到端的策略建模分类任务，运用深度神经网络端到端训练整段视频并输出分类结果，相比现有提取特征向量再进行SVM分类训练的方法，有更高的准确率，因为可以通过反向传播优化深度神经网络中各个权重层的参数，进而使得结果优化求得最优解。

第二，由于本发明采用卷积神经网络提取卷积特征图，相比双流神经网络中使用稠密光流TV-L1后获取光流图的方法，减少了计算复杂度，降低了训练时间，使得速度提高基本达到实时性要求。

第三，由于本发明将视频中的两个视频片段的卷积特征图混合后计算了相似度，利用这种注意力机制将视频中不同片段的特征信息关联起来，使得最后获取的注意力描述子更稳定，不仅提高视频分类的识别效果而且使算法的鲁棒性更好。

第四，由于本发明采取混合卷积神经网络、注意力机制和softmax分类器相结合的整体模型框架进行视频分类，相比其他方法减少了模型复杂度，降低了运算量，但是视频分类准确率得到了提升。

附图说明

图1是本发明的实现流程图；

图2是本发明分类结果的混淆矩阵示意图。

具体实施方法

下面结合附图和实例对本发明详细描述。

实施例1

随着短视频的流行，人们的研究从图像领域来到视频领域，对于视频分类也有极大的需求，由于现有技术对视频分类问题解决的不足在于准确率低、实时性差。为此本发明经过研究和创新提出一种基于混合卷积和注意力机制的视频分类方法，参见图1，本发明利用视频对应的空间信息和时间信息来进行时空特征提取并采取端到端的策略进行视频分类，包括有如下步骤：

(1)选择视频分类数据集：首先针对需要分类的视频选择对应的数据集并输入，例如针对人体动作视频进行分类时，输入人体动作视频数据集，输入数据集全部作为训练集。

(2)对输入视频分段采样：对每一个输入视频采用稀疏分段采样，其中，采样间隔为16帧，得到n个视频片段(c₁,…,c_i,…c_n)，i∈[1,n]，随机获取其中的两个视频片段来共同表征整段视频。本发明采用稀疏分段采样的目的是因为视频数据集中的视频数据存在大量的冗余，为了提高计算效率，且不至于丢失重要的视频片段信息。

(3)预处理两个视频片段，调整每一个视频图大小：对获取的两个视频片段中的每帧图像分别进行调整，调整单帧图像到大小为160×160像素，得到预处理后的两个视频片段。

(4)构建混合卷积神经网络模型：

(4a)整体神经网络模型结构：混合卷积神经网络自上至下依次是3D卷积层conv1，3D池化层pool1，3个3D残差块，3D池化层pool2，8个3D残差块，3D池化层pool3，36个3D残差块，3D池化层pool4，3个2D残差块，2D池化层pool5，全连接层fc6，分类层softmax。

(4b)3D残差块模型结构：在每一个3D残差块中将用于提取特征的3D卷积核拆解为2个3D卷积核，具体方法如下，把1个3×3×3的卷积核拆解为1个1×3×3卷积核和1个3×1×1卷积核后通过串联的形式直接级联，加入混合卷积神经网络中。

(5)在时序维度方向上得到视频混合卷积特征图：将预处理后的两个视频片段输入到构建的混合卷积神经网络中，获取两个视频片段的混合卷积特征图，在时序维度方向上对两个视频片段的混合卷积特征图进行合并，得到视频混合卷积特征图。本发明将两个视频片段前后的时序信息结合，使得对整段视频特征的表达更加鲁棒。

(6)用注意力机制运算获取视频注意力特征图：对视频混合卷积特征图进行注意力机制运算，得到视频注意力特征图。本发明通过注意力机制对两个视频片段之间的时序信息进行建模，在特征图语义层次上表达前后视频特征的联系。

(7)获取视频注意力描述子：改变注意力特征图形状，池化后按通道数展开为1维特征向量，即为具有视频空间信息和时间信息的时空特征。

(8)训练端到端的整个视频分类模型：利用视频注意力描述子加上softmax分类器，与混合卷积神经网络和注意力机制运算模块一起构成整个视频分类模型，对分类模型进行端到端的训练，得到训练完成的整个视频分类模型。本发明利用混合卷积神经网络、注意力机制和softmax分类器级联的形式端到端建模，具体的是混合卷积神经网络的输出作为视频注意力特征图的输入，注意力特征图的输出作为softmax分类器的输入，分类器的输出就是整个视频分类模型的输出。本发明有效表达了视频对应的空间信息和时间信息，提高了视频分类的准确率。

本发明通过选择视频分类数据集，例如人体动作分类视频数据集，对输入视频分段稀疏采样，预处理视频帧之后，经过混合卷积神经网络得到混合视频片段卷积特征图，并结合注意力机制模块计算注意力描述子，训练softmax分类器，以获得更具鲁棒性的特征表示，减小计算量，提高视频分类的速度和准确度。

实施例2

基于混合卷积和注意力机制的视频分类方法同实施例1，本发明步骤(5)中所述的在时序维度方向上得到视频混合卷积特征图，包括有如下步骤：

(5a)获取两个视频片段的混合卷积特征图：将预处理后的两个视频片段输入到构建的混合卷积神经网络中，在混合卷积神经网络上获取两个输入视频片段的最后1个卷积层conv输出的2048张5×5像素特征图。

(5b)在时序维度方向上对两个视频片段的混合卷积特征图进行合并，得到视频混合卷积特征图：将两段输入视频片段的2048张5×5像素大小卷积特征图在时序维度方向上合并，得到整段视频的2048张时序长度为2的5×5像素大小的混合卷积特征图。

本发明在时序维度方向上对两个视频片段的混合卷积特征图合并，有效地结合了两个视频片段之间时序信息，和单纯的利用图像空间信息相比，这种时序信息更能表达整段视频的特征，为后续注意力机制的运算提供基础，使得分类准确率提高。

实施例3

基于混合卷积和注意力机制的视频分类方法同实施例1-2，本发明步骤(6)中所述的用注意力机制运算获取视频注意力特征图，按如下步骤进行：

(6a)获取的视频混合卷积特征图的形状表示为2048×2×5×5，其中2048为通道数，2为时序长度，2个5分别为视频混合卷积特征图高度和宽度。

(6b)将视频混合卷积特征图展开成2048个特征向量，特征向量维度为2×5×5＝50，构成特征向量矩阵，大小为2048×50。

(6c)计算特征向量矩阵F₁和F₂的内积，按照下式进行：

其中，特征向量矩阵F₁为原矩阵，特征向量矩阵F₂为F₁的转置，将特征向量矩阵F₂和F₁相乘得到50×50大小的相似度矩阵H，具体计算F₂行向量x和F₁列向量y相乘就是下式余弦相似度的分子部分，即可表示特征向量之间的相似度：

其中，x和y为特征向量，x_i和y_i为特征向量上i位置。

利用这个相似度矩阵H描述两段视频的2048个视频混合卷积特征图各个位置之间的相似度，其中内积就是两段视频片段之间相互的注意力机制。

(6d)将相似度矩阵H的每个行向量归一化，沿着相似度矩阵H的列方向维度做softmax归一化操作，将相似度映射到[0,1]区间，来表示相似概率：

其中，h_i为相似度矩阵行向量上i位置,h_j为相似度矩阵行向量上j位置。

(6e)将特征向量矩阵F₁和相似度矩阵H相乘得到注意力特征图，把两段视频片段之间的注意力因子以权重的方式加入特征向量矩阵，描述每个特征向量位置上两段视频片段之间的相似度，相似度越大，权重越大，越能表示该位置能够代表视频特征。

本发明通过引入注意力运算机制，充分利用了视频帧中图像的空间信息和视频帧之间图像的时间信息，具体描述了同一图像中不同位置像素之间的相似度和不同图像中像素之间的相似度，然后将这种相似度以权重的形式加到原有的特征向量矩阵中，产生的特征向量就是提取的具有视频空间信息和时间信息的时空特征向量。

实施例4

基于混合卷积和注意力机制的视频分类方法同实施例1-3，本发明步骤(7)中所述的改变注意力特征图形状，池化后按通道数展开为1维特征向量，按如下步骤进行：

(7a)将注意力特征图还原成形状为2048×2×5×5的视频混合卷积特征图。

(7b)对视频混合卷积特征图卷积进行平均池化运算操作。

(7c)将2048个1×1卷积特征图展开成1维特征向量作为视频注意力描述子。

本发明为了保持特征向量原有的位置信息特征，还原了注意力特征图的形状，然后以平均池化并展开成1维特征向量的方法生成视频注意力描述子，最后输入softmax分类器得到预测输出结果。

下面给出一个更加详实的例子，结合附图对本发明做进一步描述：

实施例5

基于混合卷积和注意力机制的视频分类方法同实施例1-4，

参照图1，本发明利用视频对应的空间信息和时间信息来进行时空特征提取并采取端到端的策略进行视频分类，实现包括有如下步骤：

步骤1，选择视频分类数据集：首先针对需要分类的视频选择对应的数据集并输入，例如针对人体动作视频进行分类时，输入人体动作视频数据集，输入数据集全部作为训练集，如果有其他需要分类的视频，选择相应的数据集作为训练集即可。

步骤2，对输入视频分段采样：对每一个输入视频采用稀疏分段采样，其中，采样间隔为16帧，得到n个视频片段(c₁,…,c_i,…c_n)，c_i为第i个视频片段，i∈[1,n]，以非重叠的方式随机获取其中的两个视频片段来共同表征整段视频，由于目前研究的视频数据集中视频主要是短视频，故选取两个视频片段即可，如果考虑更长的视频，可选择更多视频片段，如3段或4段。

步骤3，预处理两个视频片段，调整每一个视频图大小：对获取的两个视频片段中的每帧图像分别进行调整，调整单帧图像到大小为160×160像素，由于实时性要求，此处像素不宜太大，如果应用在实时性较低的离线场景下，可以考虑适度增大像素至最大299，来进一步提升准确率。

步骤4，构建混合卷积神经网络模型：

(4a)整体神经网络模型结构：混合卷积神经网络自上至下依次是3D卷积层conv1，3D池化层pool1，3个3D残差块，3D池化层pool2，8个3D残差块，3D池化层pool3，36个3D残差块，3D池化层pool4，3个2D残差块,2D池化层pool5，全连接层fc6，分类层softmax。

步骤5，在时序维度方向上得到视频混合卷积特征图：

(5a)获取两个视频片段的混合卷积特征图：将预处理后的两个视频片段输入到构建的混合卷积神经网络中，在混合卷积神经网络上获取两个输入视频片段的最后1个卷积层conv输出的2048张5×5像素特征图,这里也可以考虑输出前面几层卷积层的特征图，或者和最后1个卷积层的特征图进行简单的平均融合策略。

步骤6，对视频混合卷积特征图进行注意力机制运算，得到视频注意力特征图，包括有如下步骤：

(6c)计算特征向量矩阵F₁和F₂的内积，按照下式进行：

其中，x和y为特征向量，x_i和y_i为特征向量上i位置。

(6e)将特征向量矩阵F₁和相似度矩阵H相乘得到注意力特征图，把两段视频片段之间的注意力因子以权重的方式加入特征向量矩阵，描述每个特征向量位置上两段视频片段之间的相似度。相似度越大，权重越大，越能表示该位置能够代表视频特征。

本发明对获取的两个视频片段的混合卷积特征图进行注意力机制运算，计算出前后两个视频片段之间的相似度，利用这种空间信息的相似性来表达时序信息的关联程度，如果相似度越高，时序性就越强，越能表征整个视频的时空特征。本发明在技术方案中融入了注意力机制，使得时空特征更稳定，不仅提高视频分类的识别效果而且使算法的鲁棒性更好。

步骤7改变注意力特征图形状，池化后按通道数展开为1维特征向量，包括有如下步骤：

(7a)将注意力特征图还原成形状为2048×2×5×5的视频混合卷积特征图；

(7b)对视频混合卷积特征图卷积进行平均池化运算操作；

步骤8，训练端到端的模型：训练端到端的整个视频分类模型：利用视频注意力描述子加上softmax分类器，与混合卷积神经网络和注意力机制运算模块一起构成整个视频分类模型，即模型总体结构为上层混合卷积神经网络，中层注意力机制运算模块，下层softmax分类器，对分类模型进行端到端的训练，得到训练完成的整个视频分类模型。

步骤9，测试待分类视频：输入待分类视频到训练完成的整个视频分类模型中，视频分类模型输出即为测试视频的分类结果。

本发明通过以级联的形式结合混合卷积神经网络、注意力机制和softmax分类器形成整个视频分类模型，相比只使用卷积神经网络的情况下提高了视频分类的准确率，但与双流法相比，仍然只使用了很少的计算量，降低了模型复杂度，最终在视频分类的速度和精度上都有一个明显的提升。

下面结合仿真实验对本发明的效果再做详细描述。

实施例6

基于混合卷积和注意力机制的视频分类方法同实施例1-5

仿真实验条件：

实验数据：实验中采用人体动作识别数据库UCF-101，实验数据库包括101种已经分类好的人体动作，例如打篮球、跳远、打太极、拉小提琴等，共13320个视频，每个动作包含25个不同场景，实验样本图像背静复杂，相同场景，视角不同、动作存在差异；不同场景，光照影像不同。

实验中采用的深度学习框架是Pytorch3.0，基于西安电子科技大学集群RedHatEnterprise Linux 6.4x86_64操作系统，Intel(R)Xeon(R)CPU E5-2692v2@2.20GHz、64GRAM、Tesla K20m GPU的运行环境。

实验内容与结果：

本发明首先对人体动作识别数据集UCF-101中的视频进行分段采样，使得视频由16帧图像所组成的视频片段构成，然后将视频片段中每一帧图像调整为像素大小为160×160，随机获取视频中的两个视频片段。将两个视频片段中图像通过卷积神经网络CNN获取最后一个卷积层conv输出的2048张5×5像素大小的特征图。混合两个视频片段的卷积特征图，构成一个长度为2的视频特征图序列，然后对其进行注意力机制运算，根据求得相似度矩阵给特征图加上权重，使得两个视频片段位置间产生相互关联，最后池化获取注意力描述子，端到端的训练softmax分类器，用分类模型对测试视频进行分类。

图2是本发明分类结果的混淆矩阵示意图，横轴和竖轴分别表示101种动作类别，实验采用了大量的视频数据，人体动作种类繁多，背景复杂，实验的结果表明，即使在人体动作种类繁多，光照不同，动作之间具有很大的相似度的情况下，本发明也能获得很高的视频分类准确率。图2的最终分类结果混淆矩阵显示，图2中混淆矩阵对角线为视频分类的识别精度，其中识别精度越高，混淆矩阵对角线像素点亮度越明显，由图2的结果可以看出，本发明对大量的视频内容都具有很高的识别度，混淆矩阵对角线像素点亮度较低、分类结果精度较低的情况寥寥无几，屈指可数，图中可见只有几个，不足类别的10％，说明本发明将其正确分类的概率远远大于将其错误分类的概率。

简而言之，本发明公开的基于混合卷积和注意力机制的视频分类方法，主要解决现有技术计算复杂、准确率低的问题。其实现步骤为：1.选择视频分类数据集；2.对输入视频分段采样；3.预处理两个视频片段；4.构建混合卷积神经网络模型；5.在时序维度方向上得到视频混合卷积特征图；6.用注意力机制运算获取视频注意力特征图；7.获取视频注意力描述子；8.训练端到端的整个视频分类模型；9.测试待分类视频。本发明对不同视频片段直接获取混合卷积特征图，相比获取光流特征方法减少计算量并提高速度，引入不同视频片段之间的注意力机制，描述了不同视频片段之间的关系并提高准确率和鲁棒性，可用于视频检索、视频标签、人机交互、行为识别、事件检测和异常检测等任务。

Claims

1.一种基于混合卷积和注意力机制的视频分类方法，其特征在于，利用视频对应的空间信息和时间信息来进行时空特征提取并采取端到端的策略进行视频分类，包括有如下步骤：

(1)选择视频分类数据集：首先针对需要分类的视频选择对应的数据集并输入，例如针对人体动作视频进行分类时，输入人体动作视频数据集，输入视频数据集全部作为训练集；

(2)对输入视频分段采样：对每一个输入视频采用稀疏分段采样，其中，采样间隔为16帧，得到n个视频片段(c₁，...，c_i，...c_n)，i∈[1，n]，随机获取其中的两个视频片段来共同表征整段视频；

(4)构建混合卷积神经网络模型：

2.根据权利要求1所述的基于混合卷积和注意力机制的视频分类方法，步骤(5)中所述的在时序维度方向上得到视频混合卷积特征图，包括有如下步骤：

(5a)获取两个视频片段的混合卷积特征图：将预处理后的两个视频片段输入到构建的混合卷积神经网络中，在混合卷积神经网络上获取两个输入视频片段的最后1个卷积层conv输出的2048张5×5像素特征图；

(5b)在时序维度方向上对两个视频片段的混合卷积特征图进行合并，获取视频混合卷积特征图：将两段输入视频片段的2048张5×5像素大小卷积特征图在时序维度方向上合并，获取整段视频的2048张时序长度为2的5×5像素大小的混合卷积特征图。

3.根据权利要求1所述的基于混合卷积和注意力机制的视频分类方法，步骤(6)中所述的用注意力机制运算获取视频注意力特征图，按如下步骤进行：

(6a)获取的视频混合卷积特征图的形状表示为2048×2×5×5，其中2048为通道数，2为时序长度，2个5分别为视频混合卷积特征图高度和宽度；

(6b)将视频混合卷积特征图展开成2048个特征向量，特征向量维度为2×5×5＝50，构成特征向量矩阵，大小为2048×50；

(6c)计算特征向量矩阵F₁和F₂的内积，按照下式进行：

其中，特征向量矩阵F₁为原矩阵，特征向量矩阵F₂为F₁的转置，将特征向量矩阵F₂和F₁相乘得到50×50大小的相似度矩阵H，具体计算F₂行向量x和F₁列向量y相乘就是下式余弦相似度的分子部分，下式为余弦相似度：

其中，x和y为特征向量，x_i和y_i为i位置上的特征向量；

利用这个相似度矩阵H描述两段视频的2048个视频混合卷积特征图各个位置之间的相似度，其中内积就是两段视频片段之间相互的注意力机制；

(6d)将相似度矩阵H的每个行向量归一化，沿着相似度矩阵H的列方向维度做softmax归一化操作，将相似度映射到[0，1]区间，来表示相似概率：

其中，h_i为i位置上的相似度矩阵行向量，h_j为j位置上的相似度矩阵行向量；

(6e)将特征向量矩阵F₁和相似度矩阵H相乘得到注意力特征图，把两段视频片段之间的注意力因子以权重的方式加入特征向量矩阵F₁，描述每个特征向量位置上两段视频片段之间的相似度，相似度越大，权重越大，越能表示该位置能够代表视频特征。

4.根据权利要求1所述的基于混合卷积和注意力机制的视频分类方法，步骤(7)改变注意力特征图形状，池化后按通道数展开为1维特征向量，按如下步骤进行：

(7b)对视频混合卷积特征图卷积进行平均池化运算操作；