CN109389055B - 基于混合卷积和注意力机制的视频分类方法 - Google Patents

基于混合卷积和注意力机制的视频分类方法 Download PDF

Info

Publication number
CN109389055B
CN109389055B CN201811108706.4A CN201811108706A CN109389055B CN 109389055 B CN109389055 B CN 109389055B CN 201811108706 A CN201811108706 A CN 201811108706A CN 109389055 B CN109389055 B CN 109389055B
Authority
CN
China
Prior art keywords
video
convolution
attention
feature
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811108706.4A
Other languages
English (en)
Other versions
CN109389055A (zh
Inventor
韩红
张照宇
李阳
陈军如
高鑫磊
岳欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201811108706.4A priority Critical patent/CN109389055B/zh
Publication of CN109389055A publication Critical patent/CN109389055A/zh
Application granted granted Critical
Publication of CN109389055B publication Critical patent/CN109389055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于混合卷积和注意力机制的视频分类方法,解决了现有技术计算复杂、准确率低的问题。实现步骤为:选择视频分类数据集;对输入视频分段采样;预处理两个视频片段;构建混合卷积神经网络模型;在时序维度方向上得到视频混合卷积特征图;用注意力机制运算获取视频注意力特征图;获取视频注意力描述子;训练端到端的整个视频分类模型;测试待分类视频。本发明对不同视频片段直接获取混合卷积特征图,相比获取光流特征方法减少计算量并提高速度,引入不同视频片段之间的注意力机制,描述了不同视频片段之间的关系并提高准确率和鲁棒性,用于视频检索、视频标签、人机交互、行为识别、事件检测和异常检测等任务。

Description

基于混合卷积和注意力机制的视频分类方法
技术领域
本发明属于图像处理技术领域,更进一步涉及基于深度学习的视频分类,具体是一种基于混合卷积和注意力机制的视频分类方法,可用于视频检索、视频标签、人机交互、行为识别、事件检测和异常检测等多个实际任务。
背景技术
视频分类一直是图像视频领域备受关注的一个热门方向,近年来人们依然对视频分类的应用十分感兴趣。随着短视频的流行,各大平台对视频检索和视频标签的准确度要求越来越高,旨在通过智能分类的方法去推荐给用户感兴趣的视频,节约用户时间成本,把握信息流动能力。AR/VR等体感游戏中人机交互和行为识别部分本质也是视频分类问题,例如可以通过提升识别准确度和实时性去提高玩家的游戏体验。当然,更为普及的就是大街小巷的监控摄像头装置,智能监控系统可以对生活和交通事件进行检测,例如拥挤、偷窃、斗殴等异常情况就可以更好的智能识别,在颇有前景的无人超市中也可以起到关键性的作用。所以说视频分类技术涉及人们生活的方方面面,研究视频分类技术可以改善和提高人们的生活感受。
视频分类是指以视频流信号为对象,通过数字图像处理和模式识别方法,获取视频类别的一种实用技术。由于视频种类复杂多样,视频中人物动作自由,人物服饰不同,人物身材不同,相机运动,天气变化,光线强弱,场景变化等多个因素造成解决问题的困难存在,因此视频分类研究是一个多学科交叉的极具挑战性的技术问题。
目前,视频分类的主要方法包括基于传统特征和深度学习两种方法。其中,传统特征多位人工提取的特征,例如SIFT、HOG、光流特征等,由于传统的手工特征提取过程十分耗时,而且泛化性能较差,逐渐被后者兴起的深度学习方法所取代。深度学习方法如今主要又分为两个流派,第一,基于双流卷积神经网络的方法,通过输入动作特征的RGB图像和动作特征的光流图,提取特征后融合表示视频特征并分类;第二,基于3D卷积神经网络的方法,通过直接在时序上进行卷积操作建模,直接提取视频片段时空特征之后分类。上述两种方法各有不足,前者因为涉及光流图提取,计算量大,实时性差,后置因为只对视频片段建模,并不能很好有效解决整个视频信息的关联问题,使得视频帧之间的相关性利用率低,导致精度不高。
R Girdhar等人在其发表的论文“ActionVLAD:Learning spatio-temporalaggregation for action classification”(Conference on Computer Vision andPattern Recognition,2017,2(3):3165-3174)中提出了一种基于学习时空聚合的动作分类的方法,该方法首先提取视频不同帧不同位置的特征,然后建立字典对单个动作类别中的子类别特征进行聚类,并进行VLAD编码后获取基于多个聚类中心子类别特征的单个动作分类特征,最后融合双流特征得到动作分类。该方法存在的不足之处是初始化提取特征时视频帧局部位置不好确定,端到端训练双流网络的计算量大,实时性差。
电子科技大学申请的专利“一种基于注意力机制的视频分类方法”(专利申请号,公开号)中公开了一种基于注意力机制的视频分类方法。该方法通过卷积神经网络CNN提取视频的空间特征,以注意力权重组合所有的空间特征送入到长短时记忆网络LSTM提取视频的时间特征,最后采用多分类函数对视频内容进行分类。该方法根据LSTM网络状态计算注意力权重,对视频帧之间相关性利用率低,导致RNN在中短视频建模上表现效果不好,分类准确率低。
浙江理工大学申请的专利“一种基于残差网络的人体行为识别方法及装置”中公开了一种基于残差网络的人体行为识别方法及装置。该专利首先通过opencv将视频转换为RGB图像和光流图像,然后使用残差网络提取空间特征和时间特征,再将这两个特征融合后送入分类器分类,确定视频中人体行为分类。该方法存在的不足之处是单纯的通过使用残差网络加深模型,并没有很大的改善,准确率较低。
综上,现有技术对视频分类问题解决的不足在于准确率低、实时性差。
发明内容
本发明的目的是针对上述现有技术的不足,提出一种准确率更高、实时性更好的基于混合卷积和注意力机制的视频分类方法。
本发明是一种基于混合卷积和注意力机制的视频分类方法,其特征在于,利用视频对应的空间信息和时间信息来进行时空特征提取并采取端到端的策略进行视频分类,包括有如下步骤:
(1)选择视频分类数据集:首先针对需要分类的视频选择对应的数据集并输入,例如针对人体动作视频进行分类时,输入人体动作视频数据集,输入数据集全部作为训练集;
(2)对输入视频分段采样:对每一个输入视频采用稀疏分段采样,其中,采样间隔为16帧,得到n个视频片段(c1,…,ci,…cn),i∈[1,n],随机获取其中的两个视频片段来共同表征整段视频;
(3)预处理两个视频片段,调整每一个视频图大小:对获取的两个视频片段中的每帧图像分别进行调整,调整单帧图像到大小为160×160像素,得到预处理后的两个视频片段;
(4)构建混合卷积神经网络模型:
(4a)整体神经网络模型结构:混合卷积神经网络自上至下依次是3D卷积层conv1,3D池化层pool1,3个3D残差块,3D池化层pool2,8个3D残差块,3D池化层pool3,36个3D残差块,3D池化层pool4,3个2D残差块,2D池化层pool5,全连接层fc6,分类层softmax;
(4b)3D残差块模型结构:在每一个3D残差块中将用于提取特征的3D卷积核拆解为2个3D卷积核,具体方法如下,把1个3×3×3的卷积核拆解为1个1×3×3卷积核和1个3×1×1卷积核后通过串联的形式直接级联,加入混合卷积神经网络中;
(5)在时序维度方向上得到视频混合卷积特征图:将预处理后的两个视频片段输入到构建的混合卷积神经网络中,获取两个视频片段的混合卷积特征图,在时序维度方向上对两个视频片段的混合卷积特征图进行合并,得到视频混合卷积特征图;
(6)用注意力机制运算获取视频注意力特征图:对视频混合卷积特征图进行注意力机制运算,得到视频注意力特征图;
(7)获取视频注意力描述子:改变注意力特征图形状,池化后按通道数展开为1维特征向量,即为具有视频空间信息和时间信息的时空特征;
(8)训练端到端的整个视频分类模型:利用视频注意力描述子加上softmax分类器,与混合卷积神经网络和注意力机制运算模块一起构成整个视频分类模型,对分类模型进行端到端的训练,得到训练完成的整个视频分类模型;
(9)测试待分类视频:输入待分类视频到训练完成的整个视频分类模型中,视频分类模型输出即为测试视频的分类结果。
本发明通过混合视频片段卷积特征图并计算注意力描述子,以获得更具鲁棒性的特征表示,减小了计算量,提高了速度和分类的准确度。
本发明与现有技术相比具有以下优点:
第一,由于本发明采用端到端的策略建模分类任务,运用深度神经网络端到端训练整段视频并输出分类结果,相比现有提取特征向量再进行SVM分类训练的方法,有更高的准确率,因为可以通过反向传播优化深度神经网络中各个权重层的参数,进而使得结果优化求得最优解。
第二,由于本发明采用卷积神经网络提取卷积特征图,相比双流神经网络中使用稠密光流TV-L1后获取光流图的方法,减少了计算复杂度,降低了训练时间,使得速度提高基本达到实时性要求。
第三,由于本发明将视频中的两个视频片段的卷积特征图混合后计算了相似度,利用这种注意力机制将视频中不同片段的特征信息关联起来,使得最后获取的注意力描述子更稳定,不仅提高视频分类的识别效果而且使算法的鲁棒性更好。
第四,由于本发明采取混合卷积神经网络、注意力机制和softmax分类器相结合的整体模型框架进行视频分类,相比其他方法减少了模型复杂度,降低了运算量,但是视频分类准确率得到了提升。
附图说明
图1是本发明的实现流程图;
图2是本发明分类结果的混淆矩阵示意图。
具体实施方法
下面结合附图和实例对本发明详细描述。
实施例1
随着短视频的流行,人们的研究从图像领域来到视频领域,对于视频分类也有极大的需求,由于现有技术对视频分类问题解决的不足在于准确率低、实时性差。为此本发明经过研究和创新提出一种基于混合卷积和注意力机制的视频分类方法,参见图1,本发明利用视频对应的空间信息和时间信息来进行时空特征提取并采取端到端的策略进行视频分类,包括有如下步骤:
(1)选择视频分类数据集:首先针对需要分类的视频选择对应的数据集并输入,例如针对人体动作视频进行分类时,输入人体动作视频数据集,输入数据集全部作为训练集。
(2)对输入视频分段采样:对每一个输入视频采用稀疏分段采样,其中,采样间隔为16帧,得到n个视频片段(c1,…,ci,…cn),i∈[1,n],随机获取其中的两个视频片段来共同表征整段视频。本发明采用稀疏分段采样的目的是因为视频数据集中的视频数据存在大量的冗余,为了提高计算效率,且不至于丢失重要的视频片段信息。
(3)预处理两个视频片段,调整每一个视频图大小:对获取的两个视频片段中的每帧图像分别进行调整,调整单帧图像到大小为160×160像素,得到预处理后的两个视频片段。
(4)构建混合卷积神经网络模型:
(4a)整体神经网络模型结构:混合卷积神经网络自上至下依次是3D卷积层conv1,3D池化层pool1,3个3D残差块,3D池化层pool2,8个3D残差块,3D池化层pool3,36个3D残差块,3D池化层pool4,3个2D残差块,2D池化层pool5,全连接层fc6,分类层softmax。
(4b)3D残差块模型结构:在每一个3D残差块中将用于提取特征的3D卷积核拆解为2个3D卷积核,具体方法如下,把1个3×3×3的卷积核拆解为1个1×3×3卷积核和1个3×1×1卷积核后通过串联的形式直接级联,加入混合卷积神经网络中。
(5)在时序维度方向上得到视频混合卷积特征图:将预处理后的两个视频片段输入到构建的混合卷积神经网络中,获取两个视频片段的混合卷积特征图,在时序维度方向上对两个视频片段的混合卷积特征图进行合并,得到视频混合卷积特征图。本发明将两个视频片段前后的时序信息结合,使得对整段视频特征的表达更加鲁棒。
(6)用注意力机制运算获取视频注意力特征图:对视频混合卷积特征图进行注意力机制运算,得到视频注意力特征图。本发明通过注意力机制对两个视频片段之间的时序信息进行建模,在特征图语义层次上表达前后视频特征的联系。
(7)获取视频注意力描述子:改变注意力特征图形状,池化后按通道数展开为1维特征向量,即为具有视频空间信息和时间信息的时空特征。
(8)训练端到端的整个视频分类模型:利用视频注意力描述子加上softmax分类器,与混合卷积神经网络和注意力机制运算模块一起构成整个视频分类模型,对分类模型进行端到端的训练,得到训练完成的整个视频分类模型。本发明利用混合卷积神经网络、注意力机制和softmax分类器级联的形式端到端建模,具体的是混合卷积神经网络的输出作为视频注意力特征图的输入,注意力特征图的输出作为softmax分类器的输入,分类器的输出就是整个视频分类模型的输出。本发明有效表达了视频对应的空间信息和时间信息,提高了视频分类的准确率。
(9)测试待分类视频:输入待分类视频到训练完成的整个视频分类模型中,视频分类模型输出即为测试视频的分类结果。
本发明通过选择视频分类数据集,例如人体动作分类视频数据集,对输入视频分段稀疏采样,预处理视频帧之后,经过混合卷积神经网络得到混合视频片段卷积特征图,并结合注意力机制模块计算注意力描述子,训练softmax分类器,以获得更具鲁棒性的特征表示,减小计算量,提高视频分类的速度和准确度。
实施例2
基于混合卷积和注意力机制的视频分类方法同实施例1,本发明步骤(5)中所述的在时序维度方向上得到视频混合卷积特征图,包括有如下步骤:
(5a)获取两个视频片段的混合卷积特征图:将预处理后的两个视频片段输入到构建的混合卷积神经网络中,在混合卷积神经网络上获取两个输入视频片段的最后1个卷积层conv输出的2048张5×5像素特征图。
(5b)在时序维度方向上对两个视频片段的混合卷积特征图进行合并,得到视频混合卷积特征图:将两段输入视频片段的2048张5×5像素大小卷积特征图在时序维度方向上合并,得到整段视频的2048张时序长度为2的5×5像素大小的混合卷积特征图。
本发明在时序维度方向上对两个视频片段的混合卷积特征图合并,有效地结合了两个视频片段之间时序信息,和单纯的利用图像空间信息相比,这种时序信息更能表达整段视频的特征,为后续注意力机制的运算提供基础,使得分类准确率提高。
实施例3
基于混合卷积和注意力机制的视频分类方法同实施例1-2,本发明步骤(6)中所述的用注意力机制运算获取视频注意力特征图,按如下步骤进行:
(6a)获取的视频混合卷积特征图的形状表示为2048×2×5×5,其中2048为通道数,2为时序长度,2个5分别为视频混合卷积特征图高度和宽度。
(6b)将视频混合卷积特征图展开成2048个特征向量,特征向量维度为2×5×5=50,构成特征向量矩阵,大小为2048×50。
(6c)计算特征向量矩阵F1和F2的内积,按照下式进行:
Figure BDA0001808524230000061
其中,特征向量矩阵F1为原矩阵,特征向量矩阵F2为F1的转置,将特征向量矩阵F2和F1相乘得到50×50大小的相似度矩阵H,具体计算F2行向量x和F1列向量y相乘就是下式余弦相似度的分子部分,即可表示特征向量之间的相似度:
Figure BDA0001808524230000071
其中,x和y为特征向量,xi和yi为特征向量上i位置。
利用这个相似度矩阵H描述两段视频的2048个视频混合卷积特征图各个位置之间的相似度,其中内积就是两段视频片段之间相互的注意力机制。
(6d)将相似度矩阵H的每个行向量归一化,沿着相似度矩阵H的列方向维度做softmax归一化操作,将相似度映射到[0,1]区间,来表示相似概率:
Figure BDA0001808524230000072
其中,hi为相似度矩阵行向量上i位置,hj为相似度矩阵行向量上j位置。
(6e)将特征向量矩阵F1和相似度矩阵H相乘得到注意力特征图,把两段视频片段之间的注意力因子以权重的方式加入特征向量矩阵,描述每个特征向量位置上两段视频片段之间的相似度,相似度越大,权重越大,越能表示该位置能够代表视频特征。
本发明通过引入注意力运算机制,充分利用了视频帧中图像的空间信息和视频帧之间图像的时间信息,具体描述了同一图像中不同位置像素之间的相似度和不同图像中像素之间的相似度,然后将这种相似度以权重的形式加到原有的特征向量矩阵中,产生的特征向量就是提取的具有视频空间信息和时间信息的时空特征向量。
实施例4
基于混合卷积和注意力机制的视频分类方法同实施例1-3,本发明步骤(7)中所述的改变注意力特征图形状,池化后按通道数展开为1维特征向量,按如下步骤进行:
(7a)将注意力特征图还原成形状为2048×2×5×5的视频混合卷积特征图。
(7b)对视频混合卷积特征图卷积进行平均池化运算操作。
(7c)将2048个1×1卷积特征图展开成1维特征向量作为视频注意力描述子。
本发明为了保持特征向量原有的位置信息特征,还原了注意力特征图的形状,然后以平均池化并展开成1维特征向量的方法生成视频注意力描述子,最后输入softmax分类器得到预测输出结果。
下面给出一个更加详实的例子,结合附图对本发明做进一步描述:
实施例5
基于混合卷积和注意力机制的视频分类方法同实施例1-4,
参照图1,本发明利用视频对应的空间信息和时间信息来进行时空特征提取并采取端到端的策略进行视频分类,实现包括有如下步骤:
步骤1,选择视频分类数据集:首先针对需要分类的视频选择对应的数据集并输入,例如针对人体动作视频进行分类时,输入人体动作视频数据集,输入数据集全部作为训练集,如果有其他需要分类的视频,选择相应的数据集作为训练集即可。
步骤2,对输入视频分段采样:对每一个输入视频采用稀疏分段采样,其中,采样间隔为16帧,得到n个视频片段(c1,…,ci,…cn),ci为第i个视频片段,i∈[1,n],以非重叠的方式随机获取其中的两个视频片段来共同表征整段视频,由于目前研究的视频数据集中视频主要是短视频,故选取两个视频片段即可,如果考虑更长的视频,可选择更多视频片段,如3段或4段。
步骤3,预处理两个视频片段,调整每一个视频图大小:对获取的两个视频片段中的每帧图像分别进行调整,调整单帧图像到大小为160×160像素,由于实时性要求,此处像素不宜太大,如果应用在实时性较低的离线场景下,可以考虑适度增大像素至最大299,来进一步提升准确率。
步骤4,构建混合卷积神经网络模型:
(4a)整体神经网络模型结构:混合卷积神经网络自上至下依次是3D卷积层conv1,3D池化层pool1,3个3D残差块,3D池化层pool2,8个3D残差块,3D池化层pool3,36个3D残差块,3D池化层pool4,3个2D残差块,2D池化层pool5,全连接层fc6,分类层softmax。
(4b)3D残差块模型结构:在每一个3D残差块中将用于提取特征的3D卷积核拆解为2个3D卷积核,具体方法如下,把1个3×3×3的卷积核拆解为1个1×3×3卷积核和1个3×1×1卷积核后通过串联的形式直接级联,加入混合卷积神经网络中。
步骤5,在时序维度方向上得到视频混合卷积特征图:
(5a)获取两个视频片段的混合卷积特征图:将预处理后的两个视频片段输入到构建的混合卷积神经网络中,在混合卷积神经网络上获取两个输入视频片段的最后1个卷积层conv输出的2048张5×5像素特征图,这里也可以考虑输出前面几层卷积层的特征图,或者和最后1个卷积层的特征图进行简单的平均融合策略。
(5b)在时序维度方向上对两个视频片段的混合卷积特征图进行合并,得到视频混合卷积特征图:将两段输入视频片段的2048张5×5像素大小卷积特征图在时序维度方向上合并,得到整段视频的2048张时序长度为2的5×5像素大小的混合卷积特征图。
步骤6,对视频混合卷积特征图进行注意力机制运算,得到视频注意力特征图,包括有如下步骤:
(6a)获取的视频混合卷积特征图的形状表示为2048×2×5×5,其中2048为通道数,2为时序长度,2个5分别为视频混合卷积特征图高度和宽度。
(6b)将视频混合卷积特征图展开成2048个特征向量,特征向量维度为2×5×5=50,构成特征向量矩阵,大小为2048×50。
(6c)计算特征向量矩阵F1和F2的内积,按照下式进行:
Figure BDA0001808524230000091
其中,特征向量矩阵F1为原矩阵,特征向量矩阵F2为F1的转置,将特征向量矩阵F2和F1相乘得到50×50大小的相似度矩阵H,具体计算F2行向量x和F1列向量y相乘就是下式余弦相似度的分子部分,即可表示特征向量之间的相似度:
Figure BDA0001808524230000092
其中,x和y为特征向量,xi和yi为特征向量上i位置。
利用这个相似度矩阵H描述两段视频的2048个视频混合卷积特征图各个位置之间的相似度,其中内积就是两段视频片段之间相互的注意力机制。
(6d)将相似度矩阵H的每个行向量归一化,沿着相似度矩阵H的列方向维度做softmax归一化操作,将相似度映射到[0,1]区间,来表示相似概率:
Figure BDA0001808524230000093
其中,hi为相似度矩阵行向量上i位置,hj为相似度矩阵行向量上j位置。
(6e)将特征向量矩阵F1和相似度矩阵H相乘得到注意力特征图,把两段视频片段之间的注意力因子以权重的方式加入特征向量矩阵,描述每个特征向量位置上两段视频片段之间的相似度。相似度越大,权重越大,越能表示该位置能够代表视频特征。
本发明对获取的两个视频片段的混合卷积特征图进行注意力机制运算,计算出前后两个视频片段之间的相似度,利用这种空间信息的相似性来表达时序信息的关联程度,如果相似度越高,时序性就越强,越能表征整个视频的时空特征。本发明在技术方案中融入了注意力机制,使得时空特征更稳定,不仅提高视频分类的识别效果而且使算法的鲁棒性更好。
步骤7改变注意力特征图形状,池化后按通道数展开为1维特征向量,包括有如下步骤:
(7a)将注意力特征图还原成形状为2048×2×5×5的视频混合卷积特征图;
(7b)对视频混合卷积特征图卷积进行平均池化运算操作;
(7c)将2048个1×1卷积特征图展开成1维特征向量作为视频注意力描述子。
步骤8,训练端到端的模型:训练端到端的整个视频分类模型:利用视频注意力描述子加上softmax分类器,与混合卷积神经网络和注意力机制运算模块一起构成整个视频分类模型,即模型总体结构为上层混合卷积神经网络,中层注意力机制运算模块,下层softmax分类器,对分类模型进行端到端的训练,得到训练完成的整个视频分类模型。
步骤9,测试待分类视频:输入待分类视频到训练完成的整个视频分类模型中,视频分类模型输出即为测试视频的分类结果。
本发明通过以级联的形式结合混合卷积神经网络、注意力机制和softmax分类器形成整个视频分类模型,相比只使用卷积神经网络的情况下提高了视频分类的准确率,但与双流法相比,仍然只使用了很少的计算量,降低了模型复杂度,最终在视频分类的速度和精度上都有一个明显的提升。
下面结合仿真实验对本发明的效果再做详细描述。
实施例6
基于混合卷积和注意力机制的视频分类方法同实施例1-5
仿真实验条件:
实验数据:实验中采用人体动作识别数据库UCF-101,实验数据库包括101种已经分类好的人体动作,例如打篮球、跳远、打太极、拉小提琴等,共13320个视频,每个动作包含25个不同场景,实验样本图像背静复杂,相同场景,视角不同、动作存在差异;不同场景,光照影像不同。
实验中采用的深度学习框架是Pytorch3.0,基于西安电子科技大学集群RedHatEnterprise Linux 6.4x86_64操作系统,Intel(R)Xeon(R)CPU E5-2692v2@2.20GHz、64GRAM、Tesla K20m GPU的运行环境。
实验内容与结果:
本发明首先对人体动作识别数据集UCF-101中的视频进行分段采样,使得视频由16帧图像所组成的视频片段构成,然后将视频片段中每一帧图像调整为像素大小为160×160,随机获取视频中的两个视频片段。将两个视频片段中图像通过卷积神经网络CNN获取最后一个卷积层conv输出的2048张5×5像素大小的特征图。混合两个视频片段的卷积特征图,构成一个长度为2的视频特征图序列,然后对其进行注意力机制运算,根据求得相似度矩阵给特征图加上权重,使得两个视频片段位置间产生相互关联,最后池化获取注意力描述子,端到端的训练softmax分类器,用分类模型对测试视频进行分类。
图2是本发明分类结果的混淆矩阵示意图,横轴和竖轴分别表示101种动作类别,实验采用了大量的视频数据,人体动作种类繁多,背景复杂,实验的结果表明,即使在人体动作种类繁多,光照不同,动作之间具有很大的相似度的情况下,本发明也能获得很高的视频分类准确率。图2的最终分类结果混淆矩阵显示,图2中混淆矩阵对角线为视频分类的识别精度,其中识别精度越高,混淆矩阵对角线像素点亮度越明显,由图2的结果可以看出,本发明对大量的视频内容都具有很高的识别度,混淆矩阵对角线像素点亮度较低、分类结果精度较低的情况寥寥无几,屈指可数,图中可见只有几个,不足类别的10%,说明本发明将其正确分类的概率远远大于将其错误分类的概率。
简而言之,本发明公开的基于混合卷积和注意力机制的视频分类方法,主要解决现有技术计算复杂、准确率低的问题。其实现步骤为:1.选择视频分类数据集;2.对输入视频分段采样;3.预处理两个视频片段;4.构建混合卷积神经网络模型;5.在时序维度方向上得到视频混合卷积特征图;6.用注意力机制运算获取视频注意力特征图;7.获取视频注意力描述子;8.训练端到端的整个视频分类模型;9.测试待分类视频。本发明对不同视频片段直接获取混合卷积特征图,相比获取光流特征方法减少计算量并提高速度,引入不同视频片段之间的注意力机制,描述了不同视频片段之间的关系并提高准确率和鲁棒性,可用于视频检索、视频标签、人机交互、行为识别、事件检测和异常检测等任务。

Claims (4)

1.一种基于混合卷积和注意力机制的视频分类方法,其特征在于,利用视频对应的空间信息和时间信息来进行时空特征提取并采取端到端的策略进行视频分类,包括有如下步骤:
(1)选择视频分类数据集:首先针对需要分类的视频选择对应的数据集并输入,例如针对人体动作视频进行分类时,输入人体动作视频数据集,输入视频数据集全部作为训练集;
(2)对输入视频分段采样:对每一个输入视频采用稀疏分段采样,其中,采样间隔为16帧,得到n个视频片段(c1,...,ci,...cn),i∈[1,n],随机获取其中的两个视频片段来共同表征整段视频;
(3)预处理两个视频片段,调整每一个视频图大小:对获取的两个视频片段中的每帧图像分别进行调整,调整单帧图像到大小为160×160像素,得到预处理后的两个视频片段;
(4)构建混合卷积神经网络模型:
(4a)整体神经网络模型结构:混合卷积神经网络自上至下依次是3D卷积层conv1,3D池化层pool1,3个3D残差块,3D池化层pool2,8个3D残差块,3D池化层pool3,36个3D残差块,3D池化层pool4,3个2D残差块,2D池化层pool5,全连接层fc6,分类层softmax;
(4b)3D残差块模型结构:在每一个3D残差块中将用于提取特征的3D卷积核拆解为2个3D卷积核,具体方法如下,把1个3×3×3的卷积核拆解为1个1×3×3卷积核和1个3×1×1卷积核后通过串联的形式直接级联,加入混合卷积神经网络中;
(5)在时序维度方向上得到视频混合卷积特征图:将预处理后的两个视频片段输入到构建的混合卷积神经网络中,获取两个视频片段的混合卷积特征图,在时序维度方向上对两个视频片段的混合卷积特征图进行合并,得到视频混合卷积特征图;
(6)用注意力机制运算获取视频注意力特征图:对视频混合卷积特征图进行注意力机制运算,得到视频注意力特征图;
(7)获取视频注意力描述子:改变注意力特征图形状,池化后按通道数展开为1维特征向量,即为具有视频空间信息和时间信息的时空特征;
(8)训练端到端的整个视频分类模型:利用视频注意力描述子加上softmax分类器,与混合卷积神经网络和注意力机制运算模块一起构成整个视频分类模型,对分类模型进行端到端的训练,得到训练完成的整个视频分类模型;
(9)测试待分类视频:输入待分类视频到训练完成的整个视频分类模型中,视频分类模型输出即为测试视频的分类结果。
2.根据权利要求1所述的基于混合卷积和注意力机制的视频分类方法,步骤(5)中所述的在时序维度方向上得到视频混合卷积特征图,包括有如下步骤:
(5a)获取两个视频片段的混合卷积特征图:将预处理后的两个视频片段输入到构建的混合卷积神经网络中,在混合卷积神经网络上获取两个输入视频片段的最后1个卷积层conv输出的2048张5×5像素特征图;
(5b)在时序维度方向上对两个视频片段的混合卷积特征图进行合并,获取视频混合卷积特征图:将两段输入视频片段的2048张5×5像素大小卷积特征图在时序维度方向上合并,获取整段视频的2048张时序长度为2的5×5像素大小的混合卷积特征图。
3.根据权利要求1所述的基于混合卷积和注意力机制的视频分类方法,步骤(6)中所述的用注意力机制运算获取视频注意力特征图,按如下步骤进行:
(6a)获取的视频混合卷积特征图的形状表示为2048×2×5×5,其中2048为通道数,2为时序长度,2个5分别为视频混合卷积特征图高度和宽度;
(6b)将视频混合卷积特征图展开成2048个特征向量,特征向量维度为2×5×5=50,构成特征向量矩阵,大小为2048×50;
(6c)计算特征向量矩阵F1和F2的内积,按照下式进行:
Figure FDA0003085979040000022
其中,特征向量矩阵F1为原矩阵,特征向量矩阵F2为F1的转置,将特征向量矩阵F2和F1相乘得到50×50大小的相似度矩阵H,具体计算F2行向量x和F1列向量y相乘就是下式余弦相似度的分子部分,下式为余弦相似度:
Figure FDA0003085979040000021
其中,x和y为特征向量,xi和yi为i位置上的特征向量;
利用这个相似度矩阵H描述两段视频的2048个视频混合卷积特征图各个位置之间的相似度,其中内积就是两段视频片段之间相互的注意力机制;
(6d)将相似度矩阵H的每个行向量归一化,沿着相似度矩阵H的列方向维度做softmax归一化操作,将相似度映射到[0,1]区间,来表示相似概率:
Figure FDA0003085979040000031
其中,hi为i位置上的相似度矩阵行向量,hj为j位置上的相似度矩阵行向量;
(6e)将特征向量矩阵F1和相似度矩阵H相乘得到注意力特征图,把两段视频片段之间的注意力因子以权重的方式加入特征向量矩阵F1,描述每个特征向量位置上两段视频片段之间的相似度,相似度越大,权重越大,越能表示该位置能够代表视频特征。
4.根据权利要求1所述的基于混合卷积和注意力机制的视频分类方法,步骤(7)改变注意力特征图形状,池化后按通道数展开为1维特征向量,按如下步骤进行:
(7a)将注意力特征图还原成形状为2048×2×5×5的视频混合卷积特征图;
(7b)对视频混合卷积特征图卷积进行平均池化运算操作;
(7c)将2048个1×1卷积特征图展开成1维特征向量作为视频注意力描述子。
CN201811108706.4A 2018-09-21 2018-09-21 基于混合卷积和注意力机制的视频分类方法 Active CN109389055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811108706.4A CN109389055B (zh) 2018-09-21 2018-09-21 基于混合卷积和注意力机制的视频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811108706.4A CN109389055B (zh) 2018-09-21 2018-09-21 基于混合卷积和注意力机制的视频分类方法

Publications (2)

Publication Number Publication Date
CN109389055A CN109389055A (zh) 2019-02-26
CN109389055B true CN109389055B (zh) 2021-07-20

Family

ID=65418919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811108706.4A Active CN109389055B (zh) 2018-09-21 2018-09-21 基于混合卷积和注意力机制的视频分类方法

Country Status (1)

Country Link
CN (1) CN109389055B (zh)

Families Citing this family (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10984246B2 (en) * 2019-03-13 2021-04-20 Google Llc Gating model for video analysis
CN110059620B (zh) * 2019-04-17 2021-09-03 安徽艾睿思智能科技有限公司 基于时空注意力的骨骼行为识别方法
CN110084794B (zh) * 2019-04-22 2020-12-22 华南理工大学 一种基于注意力卷积神经网络的皮肤癌图片识别方法
CN110096617B (zh) * 2019-04-29 2021-08-10 北京百度网讯科技有限公司 视频分类方法、装置、电子设备及计算机可读存储介质
CN110084202B (zh) * 2019-04-29 2023-04-18 东南大学 一种基于高效三维卷积的视频行为识别方法
CN110245263B (zh) * 2019-05-15 2021-08-20 北京奇艺世纪科技有限公司 一种聚合方法、装置、电子设备及存储介质
CN110287789A (zh) * 2019-05-23 2019-09-27 北京百度网讯科技有限公司 基于互联网数据的游戏视频分类方法以及系统
CN110188654B (zh) * 2019-05-27 2023-04-07 东南大学 一种基于移动未裁剪网络的视频行为识别方法
CN110175580B (zh) * 2019-05-29 2020-10-30 复旦大学 一种基于时序因果卷积网络的视频行为识别方法
CN110263666B (zh) * 2019-05-29 2021-01-19 西安交通大学 一种基于非对称多流的动作检测方法
CN110263916B (zh) * 2019-05-31 2021-09-10 腾讯科技(深圳)有限公司 数据处理方法和装置、存储介质及电子装置
CN110378381B (zh) * 2019-06-17 2024-01-19 华为技术有限公司 物体检测方法、装置和计算机存储介质
CN110334749B (zh) * 2019-06-20 2021-08-03 浙江工业大学 基于注意力机制的对抗攻击防御模型、构建方法及应用
CN110427807B (zh) * 2019-06-21 2022-11-15 诸暨思阔信息科技有限公司 一种时序事件动作检测方法
CN110263874A (zh) * 2019-06-27 2019-09-20 山东浪潮人工智能研究院有限公司 一种基于注意力关系图学习的图像分类方法及装置
CN112149459B (zh) * 2019-06-27 2023-07-25 哈尔滨工业大学(深圳) 一种基于交叉注意力机制的视频显著性物体检测模型及系统
CN112215329B (zh) * 2019-07-09 2023-09-29 杭州海康威视数字技术股份有限公司 基于神经网络的卷积计算方法及装置
CN110348014B (zh) * 2019-07-10 2023-03-24 电子科技大学 一种基于深度学习的语义相似度计算方法
CN110475118A (zh) * 2019-07-11 2019-11-19 北京工业大学 一种基于注意力机制深度循环网络的旧电影闪烁修复方法
CN110457524B (zh) * 2019-07-12 2022-05-31 北京奇艺世纪科技有限公司 模型生成方法、视频分类方法及装置
CN110334800A (zh) * 2019-07-18 2019-10-15 南京风兴科技有限公司 一种用于视频识别的轻量级3d卷积网络系统
CN110489592B (zh) * 2019-07-18 2024-05-03 平安科技(深圳)有限公司 视频分类方法、装置、计算机设备和存储介质
CN110418163B (zh) * 2019-08-27 2021-10-08 北京百度网讯科技有限公司 视频帧采样方法、装置、电子设备及存储介质
CN110570409B (zh) * 2019-09-05 2022-02-18 南方医科大学 基于混合卷积网络获取胎儿四腔心切面心动周期视频方法
CN111429977B (zh) * 2019-09-05 2024-02-13 中国海洋大学 一种新的基于图结构注意力的分子相似性搜索算法
CN110602526B (zh) * 2019-09-11 2021-09-21 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备及存储介质
CN110672343B (zh) * 2019-09-29 2021-01-26 电子科技大学 基于多注意力卷积神经网络的旋转机械故障诊断方法
CN110909630B (zh) * 2019-11-06 2023-04-18 腾讯科技(深圳)有限公司 一种异常游戏视频检测方法和装置
CN111523361B (zh) * 2019-12-26 2022-09-06 中国科学技术大学 一种人体行为识别方法
CN110826545A (zh) * 2020-01-09 2020-02-21 腾讯科技(深圳)有限公司 一种视频类别识别的方法及相关装置
CN111291647B (zh) * 2020-01-21 2023-02-21 陕西师范大学 基于多尺度卷积核和超事件模块的单阶段动作定位方法
CN111274995B (zh) * 2020-02-13 2023-07-14 腾讯科技(深圳)有限公司 视频分类方法、装置、设备和计算机可读存储介质
CN111242101A (zh) * 2020-03-08 2020-06-05 电子科技大学 一种基于时空上下文关联的行为识别方法
CN111488807B (zh) * 2020-03-29 2023-10-10 复旦大学 基于图卷积网络的视频描述生成系统
CN111553888B (zh) * 2020-04-15 2021-04-27 成都飞机工业(集团)有限责任公司 一种基于机器学习的钛合金锻件显微组织图像识别方法
CN111506691B (zh) * 2020-04-20 2024-05-31 杭州数澜科技有限公司 一种基于深度匹配模型的轨迹匹配方法和系统
CN111507293A (zh) * 2020-04-22 2020-08-07 浙江工业大学 基于图卷积模型的信号分类方法
CN111627052B (zh) * 2020-04-30 2023-05-23 沈阳工程学院 一种基于双流时空注意力机制的动作识别方法t-stam
CN111523502B (zh) * 2020-04-30 2023-06-20 上海交通大学医学院附属瑞金医院 一种心电图图像处理方法、设备、介质和心电图仪
CN111865849B (zh) * 2020-06-30 2021-08-06 中国兵器科学研究院 一种信号调制的方法、装置和服务器
CN111985333B (zh) * 2020-07-20 2023-01-17 中国科学院信息工程研究所 一种基于图结构信息交互增强的行为检测方法及电子装置
CN111931602B (zh) * 2020-07-22 2023-08-08 北方工业大学 基于注意力机制的多流分段网络人体动作识别方法及系统
CN111914731B (zh) * 2020-07-28 2024-01-23 上海电力大学 一种基于自注意力机制的多模态lstm的视频动作预测方法
CN112101091B (zh) * 2020-07-30 2024-05-07 咪咕文化科技有限公司 视频分类方法、电子设备和存储介质
CN111860457A (zh) * 2020-08-04 2020-10-30 广州市微智联科技有限公司 一种斗殴行为识别预警方法及其识别预警系统
CN112084887A (zh) * 2020-08-19 2020-12-15 北京影谱科技股份有限公司 一种基于注意力机制的自适应视频分类方法及系统
CN111931869B (zh) * 2020-09-25 2020-12-25 湖南大学 一种人机自然交互的用户注意力检测方法及系统
CN112215130B (zh) * 2020-10-10 2022-08-16 吉林大学 一种基于2.5d/3d混合卷积模型的人体行为识别方法
CN112329539A (zh) * 2020-10-10 2021-02-05 南京理工大学 基于社交适应模型的人群行为识别方法
CN112528077B (zh) * 2020-11-10 2022-12-16 山东大学 基于视频嵌入的视频人脸检索方法及系统
CN112487187B (zh) * 2020-12-02 2022-06-10 杭州电子科技大学 一种基于图网络池化的新闻文本分类方法
CN112233117A (zh) * 2020-12-14 2021-01-15 浙江卡易智慧医疗科技有限公司 一种新冠肺炎ct检测识别定位系统及计算设备
CN112507920B (zh) * 2020-12-16 2023-01-24 重庆交通大学 一种基于时间位移和注意力机制的考试异常行为识别方法
CN113239822A (zh) * 2020-12-28 2021-08-10 武汉纺织大学 基于时空双流卷积神经网络的危险行为检测方法及系统
CN113269218B (zh) * 2020-12-30 2023-06-09 威创集团股份有限公司 基于改进的vlad算法的视频分类方法
CN112766177B (zh) * 2021-01-22 2022-12-02 西安电子科技大学 基于特征映射和多层时间交互注意力的行为识别方法
CN113283298B (zh) * 2021-04-26 2023-01-03 西安交通大学 基于时间注意力机制和双流网络的实时行为识别方法
CN112990126B (zh) * 2021-04-27 2021-08-13 北京世纪好未来教育科技有限公司 视频分类方法、装置、计算机设备和介质
CN113516028B (zh) * 2021-04-28 2024-01-19 南通大学 一种基于混合注意力机制的人体异常行为识别方法及系统
CN113220915B (zh) * 2021-04-29 2022-11-22 华中科技大学 一种基于残差注意力的遥感图像检索方法及装置
CN113408343B (zh) * 2021-05-12 2022-05-13 杭州电子科技大学 基于双尺度时空分块互注意力的课堂动作识别方法
CN113037783B (zh) * 2021-05-24 2021-08-06 中南大学 一种异常行为检测方法及系统
CN113808573B (zh) * 2021-08-06 2023-11-07 华南理工大学 基于混合域注意力与时序自注意力的方言分类方法及系统
CN113963176B (zh) * 2021-10-28 2023-07-07 北京百度网讯科技有限公司 一种模型蒸馏方法、装置、电子设备及存储介质
CN114998673B (zh) * 2022-05-11 2023-10-13 河海大学 一种基于本地自注意力机制的大坝缺陷时序图像描述方法
CN116503872B (zh) * 2023-06-26 2023-09-05 四川集鲜数智供应链科技有限公司 一种基于机器学习的授信客户挖掘方法
CN116720123B (zh) * 2023-08-10 2023-11-28 中南大学 一种账户识别方法、装置、终端设备及介质
CN116781418B (zh) * 2023-08-16 2023-10-31 南京邮电大学 一种基于神经网络和svm的sdn恶意控制器检测方法
CN117253177B (zh) * 2023-11-20 2024-04-05 之江实验室 一种动作视频分类方法、装置及介质
CN117456431B (zh) * 2023-12-26 2024-03-26 南京邮电大学 一种基于扩张卷积和密集连接的镜头边界检测方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778604A (zh) * 2015-12-15 2017-05-31 西安电子科技大学 基于匹配卷积神经网络的行人再识别方法
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN108229338A (zh) * 2017-12-14 2018-06-29 华南理工大学 一种基于深度卷积特征的视频行为识别方法
CN108399380A (zh) * 2018-02-12 2018-08-14 北京工业大学 一种基于三维卷积和Faster RCNN的视频动作检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100040236A (ko) * 2008-10-09 2010-04-19 삼성전자주식회사 시각적 관심에 기반한 2차원 영상의 3차원 영상 변환기 및 변환 방법
US9946933B2 (en) * 2016-08-18 2018-04-17 Xerox Corporation System and method for video classification using a hybrid unsupervised and supervised multi-layer architecture

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778604A (zh) * 2015-12-15 2017-05-31 西安电子科技大学 基于匹配卷积神经网络的行人再识别方法
CN107273800A (zh) * 2017-05-17 2017-10-20 大连理工大学 一种基于注意机制的卷积递归神经网络的动作识别方法
CN107341462A (zh) * 2017-06-28 2017-11-10 电子科技大学 一种基于注意力机制的视频分类方法
CN107451552A (zh) * 2017-07-25 2017-12-08 北京联合大学 一种基于3d‑cnn和卷积lstm的手势识别方法
CN107506712A (zh) * 2017-08-15 2017-12-22 成都考拉悠然科技有限公司 一种基于3d深度卷积网络的人类行为识别的方法
CN108229338A (zh) * 2017-12-14 2018-06-29 华南理工大学 一种基于深度卷积特征的视频行为识别方法
CN108399380A (zh) * 2018-02-12 2018-08-14 北京工业大学 一种基于三维卷积和Faster RCNN的视频动作检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition;Yizhou Zhou等;《2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition》;20180623;449-458 *

Also Published As

Publication number Publication date
CN109389055A (zh) 2019-02-26

Similar Documents

Publication Publication Date Title
CN109389055B (zh) 基于混合卷积和注意力机制的视频分类方法
Zheng et al. A novel background subtraction algorithm based on parallel vision and Bayesian GANs
Kamal et al. Automatic traffic sign detection and recognition using SegU-Net and a modified Tversky loss function with L1-constraint
Wang et al. Three-stream CNNs for action recognition
Zhou et al. Contextual ensemble network for semantic segmentation
Chen et al. Survey of pedestrian action recognition techniques for autonomous driving
Huang et al. Sign language recognition using 3d convolutional neural networks
Sun et al. Efficient spatial-temporal information fusion for lidar-based 3d moving object segmentation
Li et al. Dynamic Hand Gesture Recognition Using Multi-direction 3D Convolutional Neural Networks.
Gu et al. Multiple stream deep learning model for human action recognition
Zhang et al. Coarse-to-fine object detection in unmanned aerial vehicle imagery using lightweight convolutional neural network and deep motion saliency
Sekma et al. Human action recognition based on multi-layer fisher vector encoding method
Wang et al. A comprehensive overview of person re-identification approaches
Jiang et al. An efficient attention module for 3d convolutional neural networks in action recognition
Gao et al. PSGCNet: A pyramidal scale and global context guided network for dense object counting in remote-sensing images
Li et al. Multi-scale residual network model combined with Global Average Pooling for action recognition
Tao et al. An adaptive frame selection network with enhanced dilated convolution for video smoke recognition
Singh et al. Progress of human action recognition research in the last ten years: a comprehensive survey
Yan et al. R-SSD: Refined single shot multibox detector for pedestrian detection
CN105956604B (zh) 一种基于两层时空邻域特征的动作识别方法
Zhou et al. A novel object detection method in city aerial image based on deformable convolutional networks
Du et al. Adaptive visual interaction based multi-target future state prediction for autonomous driving vehicles
Vaishali Real-time object detection system using caffe model
Yadav et al. DroneAttention: Sparse weighted temporal attention for drone-camera based activity recognition
Huang et al. A detection method of individual fare evasion behaviours on metros based on skeleton sequence and time series

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant