CN109376683A - 一种基于稠密图的视频分类方法和系统 - Google Patents

一种基于稠密图的视频分类方法和系统 Download PDF

Info

Publication number
CN109376683A
CN109376683A CN201811329682.5A CN201811329682A CN109376683A CN 109376683 A CN109376683 A CN 109376683A CN 201811329682 A CN201811329682 A CN 201811329682A CN 109376683 A CN109376683 A CN 109376683A
Authority
CN
China
Prior art keywords
video
frame
dense graph
feature
temporal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811329682.5A
Other languages
English (en)
Inventor
高科
陈潇凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201811329682.5A priority Critical patent/CN109376683A/zh
Publication of CN109376683A publication Critical patent/CN109376683A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于稠密图的视频分类方法和系统,包括:通过共享的二维卷积神经网络获取帧级特征,然后将其按照时间顺序堆起来组成稠密图,最后通过一层时序卷积网络并行地获取多尺度特征完成分类任务。由于本发明涉及的参数量相比现有技术更少,因此计算复杂度更低。本发明不需要光流图去建模时序信息,相对高效。发明中全部使用了二维卷积核,共享大量网络参数,充分发挥了显卡的并行计算能力,在不损失精度的情况下大大提升了速度,并且使得模型易训练。

Description

一种基于稠密图的视频分类方法和系统
技术领域
本发明涉及计算机视觉与模式识别领域,并特别涉及一种基于稠密图的视频分类方法和系统。
背景技术
目前主流的动作识别方法主要为双流法和3维卷积方法。双流卷积网络方法中,分为了空间流和时间流,它们的输入分别是RGB图像和光流场图,每个流都使用多层卷积神经网络对输入的模态进行建模,最后两个流的识别结果融合得到最终的结果。在3维卷积网络中,卷积核从二维升到了3维,增加了“时间”的维度,其出发点是希望通过3维卷积同时学习到视频中的表观特征和动作特征。
双流法将表观和动作特征分成两个流,增加了多模态的信息,但是依然存在以下两点不足:
1.计算量过大,对于每一个流都需要训练相应的深度卷积神经网络,而且光流图的计算代价和存储代价较大,难以在线上系统中部署;
2.对视频时序信息建模不足,其过度依赖光流图完成时序信息的建模,最近的研究表明光流图中的时序信息作用不明显,主要是其内在的外观不变性使得双流法行之有效。
3维卷积法期望通过3维卷积核同时学习到视频中的表观和动作特征,但是依然存在以下两点不足:
1.难以训练,其参数量较大,而且需要对视频进行密集采样,计算代价也相应提高;
2.时序建模不充分,最近研究表明3维卷积对时序顺序并不敏感,说明其3维卷积方式有待改进。
目前比较有效的视频动作识别方法主要有双流法以及3维卷积法,但是它们存在一定的缺点,前者过度依赖光流信息完成视频时序的建模,而最近的研究指出光流对时序信息建模是不充分的,而且其计算量代价较大,后者期待通过3维卷积同时学习表观和动作特征,这导致其参数量较大,同时结合密集采样使得其计算代价也很大,因此模型难以训练。为了更高效地完成视频分类任务,本发明提出了一种算法,该算法通过共享的二维卷积神经网络获取帧级特征,然后将其按照时间顺序堆起来组成稠密图,最后通过一层时序卷积网络并行地获取多尺度特征完成分类任务。
发明内容
本发明的目的是有效解决现有动作识别算法计算速度慢,内存开销大,时序建模不足的问题,提出了一种基于稠密图的高效视频动作识别方法。
具体来说本发明公开了一种基于稠密图的视频分类方法,其中包括:
训练步骤,获取已分类的视频作为训练数据,根据帧特征编码函数,提取该训练数据的多个帧特征表达,并依时间顺序连接该多个帧特征表达,得到第一稠密图,以该第一稠密图训练卷积神经网络,得到时空演化特征提取模型;
第一提取步骤,获取待分类视频,根据该帧特征编码函数,提取该待分类视频的多个帧特征表达,依时间顺序连接该多个帧特征表达,得到第二稠密图;
第二提取步骤,根据预设的时间尺度范围,使用该时空演化特征提取模型提取该第二稠密图的时空演化特征,并对该时空演化特征进行最大池化操作,得到该第二稠密图在该尺度范围内的尺度特征;
循环步骤,调整该时间尺度范围,循环执行该第二提取步骤,以得到多个该尺度特征,对该多个尺度特征通过全连接层并融合,最后通过归一化指数函数,得到该待分类视频属于各类别的概率,提取最大概率对应的类别作为该视频的分类结果。
所述的基于稠密图的视频分类方法,其中该第一提取步骤包括:
从待分类视频中采样n帧:{I1,I2,...,In},其中In代表视频中的第i帧,其中为帧特征编码函数,Rk表示k维实数空间,xt即为It帧的特征表达,然后按照视频帧的时间顺序把这些帧特征连接起来:其中代表连接操作,并将得到矩阵X∈Rnk作为该第二稠密图,其宽度为n,长度为k(n行,k列)。
所述的基于稠密图的视频分类方法,其中该第二提取步骤包括:
时空演化信息提取步骤,对于第二稠密图X,令Xi=xi+j,Xi表示第二稠密图中第i帧特征到第i+j帧特征的组合,时序卷积操作按照如下公式进行:
其中m代表时序卷积层的输出通道索引,wm,h是用于抓取相邻h帧时空模式的卷积核,其高度为该时间尺度范围h,宽度为k,T代表转置操作,bm是偏置项,f是非线性映射函数,ci,m h表示第m通道卷积核对Xi:Xi+h提取的时空演化信息,m代表该时序卷积层的输出通道索引;
时空演化特征提取步骤,根据下式得到该时空演化特征cm h
对cm h进行经过最大池化操作:获得cm h中的最大值,以在尺度h上得到第二稠密图的特征:其中M表示时序卷积的输出通道个数,ch特征为该尺度特征。
所述的基于稠密图的视频分类方法,其中该循环步骤包括,通过如下归一化指数函数,得到该待分类视频属于各类别的概率score;
所述的基于稠密图的视频分类方法,其中该循环步骤具体包括,将该时间尺度范围H分别调整为2、3、4、5、6帧。
本发明还公开了一种基于稠密图的视频分类系统,其中包括
训练模块,获取已分类的视频作为训练数据,根据帧特征编码函数,提取该训练数据的多个帧特征表达,并依时间顺序连接该多个帧特征表达,得到第一稠密图,以该第一稠密图训练卷积神经网络,得到时空演化特征提取模型;
第一提取模块,获取待分类视频,根据该帧特征编码函数,提取该待分类视频的多个帧特征表达,依时间顺序连接该多个帧特征表达,得到第二稠密图;
第二提取模块,根据预设的时间尺度范围,使用该时空演化特征提取模型提取该第二稠密图的时空演化特征,并对该时空演化特征进行最大池化操作,得到该第二稠密图在该尺度范围内的尺度特征;
循环模块,调整该时间尺度范围,循环调用该第二提取模块,以得到多个该尺度特征,对该多个尺度特征通过全连接层并融合,最后通过归一化指数函数,得到该待分类视频属于各类别的概率,提取最大概率对应的类别作为该视频的分类结果。
所述的基于稠密图的视频分类系统,其中该第一提取模块包括:
从待分类视频中采样n帧:{I1,I2,...,In},其中In代表视频中的第i帧,其中为帧特征编码函数,Rk表示k维实数空间,xt即为It帧的特征表达,然后按照视频帧的时间顺序把这些帧特征连接起来:其中代表连接操作,并将得到矩阵X∈Rnk作为该第二稠密图,其宽度为n,长度为k(n行,k列)。
所述的基于稠密图的视频分类系统,其中该第二提取模块包括:
时空演化信息提取模块,对于第二稠密图X,令Xi=xi+j,Xi表示第二稠密图中第i帧特征到第i+j帧特征的组合,时序卷积操作按照如下公式进行:
其中m代表时序卷积层的输出通道索引,wm,h是用于抓取相邻h帧时空模式的卷积核,其高度为该时间尺度范围h,宽度为k,T代表转置操作,bm是偏置项,f是非线性映射函数,ci,m h表示第m通道卷积核对Xi:Xi+h提取的时空演化信息,m代表该时序卷积层的输出通道索引;
时空演化特征提取模块,根据下式得到该时空演化特征cm h
对cm h进行经过最大池化操作:获得cm h中的最大值,以在尺度h上得到第二稠密图的特征:其中M表示时序卷积的输出通道个数,ch特征为该尺度特征。
所述的基于稠密图的视频分类系统,其中该循环模块包括,通过如下归一化指数函数,得到该待分类视频属于各类别的概率score;
所述的基于稠密图的视频分类系统,其中该循环模块具体包括,将该时间尺度范围H分别调整为2、3、4、5、6帧。
本发明的重点包括:
高效的视频时空演化表达方法:稠密图,通过共享的二维卷积神经网络获取帧级特征,然后将其按照时间顺序连接起来组成稠密图,在网络训练过程中以task-driven的方式高效地压缩了时空演化特征;
多尺度时序建模;技术效果:通过一层时序卷积网络并行地提取多尺度时序特征,使得视频在类空间中更容易被区分;
本方法提出了一种基于稠密图的高效视频动作识别算法,由于本发明涉及的参数量相比现有技术更少,因此计算复杂度更低。本发明不需要光流图去建模时序信息,相对高效。发明中全部使用了二维卷积核,共享大量网络参数,充分发挥了显卡的并行计算能力,在不损失精度的情况下大大提升了速度,并且使得模型易训练。
附图说明
图1为系统结构的整体流程及效果图。
具体实施方式
发明人在进行视频分类/动作识别的研究过程中发现现有技术中存在两大缺陷,其一是双流法的时序建模能力不足,该缺陷主要由双流法的网络架构以及光流图时序信息不足导致;其二是参数量和计算量过大,该缺陷主要由光流图的计算代价高以及3维卷积的特点导致。针对上述缺陷,本发明提出了基于稠密图的视频分类算法,该算法通过共享的二维卷积神经网络提取帧特征,大大降低了模型的参数量,其次通过一层多尺度时序卷积网络获取多尺度的时序特征,大大提升了模型对时序信息的建模能力。
具体来说本发明公开了一种基于稠密图的视频分类方法,其中包括:
训练步骤,获取已分类的视频作为训练数据,根据帧特征编码函数,提取该训练数据的多个帧特征表达,并依时间顺序连接该多个帧特征表达,得到第一稠密图,以该第一稠密图训练卷积神经网络,得到时空演化特征提取模型;
第一提取步骤,获取待分类视频,根据该帧特征编码函数,提取该待分类视频的多个帧特征表达,依时间顺序连接该多个帧特征表达,得到第二稠密图;
第二提取步骤,根据预设的时间尺度范围,使用该时空演化特征提取模型提取该第二稠密图的时空演化特征,并对该时空演化特征进行最大池化操作,得到该第二稠密图在该尺度范围内的尺度特征;
循环步骤,调整该时间尺度范围,循环执行该第二提取步骤,以得到多个该尺度特征,对该多个尺度特征通过全连接层并融合,最后通过归一化指数函数,得到该待分类视频属于各类别的概率,提取最大概率对应的类别作为该视频的分类结果。
所述的基于稠密图的视频分类方法,其中该第一提取步骤包括:
从待分类视频中采样n帧:{I1,I2,...,In},其中In代表视频中的第i帧,其中为帧特征编码函数,Rk表示k维实数空间,xt即为It帧的特征表达,然后按照视频帧的时间顺序把这些帧特征连接起来:其中代表连接操作,并将得到矩阵X∈Rnk作为该第二稠密图,其宽度为n,长度为k(n行,k列)。
所述的基于稠密图的视频分类方法,其中该第二提取步骤包括:
时空演化信息提取步骤,对于第二稠密图X,令Xi=xi+j,Xi表示第二稠密图中第i帧特征到第i+j帧特征的组合,时序卷积操作按照如下公式进行:
其中m代表时序卷积层的输出通道索引,wm,h是用于抓取相邻h帧时空模式的卷积核,其高度为该时间尺度范围h,宽度为k,T代表转置操作,bm是偏置项,f是非线性映射函数,ci,m h表示第m通道卷积核对Xi:Xi+h提取的时空演化信息,m代表该时序卷积层的输出通道索引;
时空演化特征提取步骤,根据下式得到该时空演化特征cm h
对cm h进行经过最大池化操作:获得cm h中的最大值,以在尺度h上得到第二稠密图的特征:其中M表示时序卷积的输出通道个数,ch特征为该尺度特征。
所述的基于稠密图的视频分类方法,其中该循环步骤包括,通过如下归一化指数函数,得到该待分类视频属于各类别的概率score;
所述的基于稠密图的视频分类方法,其中该循环步骤具体包括,将该时间尺度范围H分别调整为2、3、4、5、6帧。
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
该方法主要分为两个部分:稠密图的建立,多尺度时序卷积网络。
稠密图的建立:假设从视频中采样了n帧:{I1,I2,...,In},其中In代表视频中的第i帧,帧特征编码函数为:该函数的选择是一个开放问题,本实施例使用在ImageNet上预训练好的卷积神经网络作为该函数的一种实现。那么(Rk表示k维实数空间,k的数值为预训练网络提取的帧特征的维度,与具体选用的网络结构有关,考虑到效果和速度的权衡本发明使用Inception-V2,global pooling之后的特征,网络结构的选择并不设限,以实验结果为准),即为It帧的特征表达,然后按照视频帧的时间顺序把这些帧特征连接起来:其中代表连接操作,这样就得到了矩阵X∈Rnk,并称该矩阵X为稠密图,其宽度为n,长度为k(n行,k列)。
多尺度时序卷积网络。基于上步得到的稠密图,本发明接着设计了高效的卷积神经网络来学习稠密图中的时空演化信息。
对于稠密图X,令Xi=xi+j,Xi表示稠密图中第i帧特征到第i+j帧特征的组合,时序卷积操作按照如下公式进行:其中m代表该时序卷积层的输出通道索引,wm,h是用于抓取相邻h帧时空模式的卷积核,卷积核宽度为h,长度为k,T代表转置操作,bm是偏置项(m代表该时序卷积层的输出通道索引),f是非线性映射函数,这里采用了relu函数,ci,m h表示第m通道卷积核对Xi:Xi+h提取的时空演化信息。上式中的wm,h和bm是网络中需要学习的参数,h是超参数表示了时序卷积尺度大小,需要在验证集上进行测试以此来确定取值,在本发明中我们默认h分别取2,3,4,5,6,因为在实验中发现这样的多尺度组合能够覆盖多种动作快慢的情况。
发明人将时序卷积核wm,h作用在稠密图X的每一个可能的位置,因此会产生一个特征向量:具体来说,cm h中的每一个元素都表示了稠密图中对应位置的局部演化特征,而cm h则表示了在时序卷积核wm,h作用下获得的稠密图中相邻h帧的时空演化特征。
对cm h进行经过最大池化操作:获得cm h中的最大值,背后的动机是获取最重要的短时序特征,最终在尺度h上得到稠密图的特征:其中M表示时序卷积的输出通道个数,属于超参数,M过大会使得计算效率降低,本发明中综合速度和精度的考虑,M取值为256。
最后由不同的尺度值h,获得多尺度的特征,然后分别通过全连接层并融合,通过归一化指数函数(softmax函数)计算最终的分类概率,如下式,其中H={2,3,4,5,6}。
整个网络从稠密图的建立到多尺度时序卷积都是可微分的,因此我们可以直接采用梯度反向传播算法方便的训练网络中的参数,本发明中我们采用小批量的随机梯度下降算法进行参数优化,每一个小批量含有32个样本,动量设置为0.9,权重衰减设置为5e-4,这些值是网络的超参数,可以根据验证集自行调整,本组参数仅作为示例。
具体实施例:假设有一个短视频,发明人首先等间隔采样10帧,每一帧都可以通过帧编码函数获得帧特征,假设帧特征为1024维,那么我们将10个帧特征按照时间顺序连接起来可以得到10*1024的矩阵,该矩阵即为稠密图,对于时间尺度h为2来说,单通道(假设该通道索引为m)的卷积核可以得到维度为10-2+1=9的特征向量cm 2,对其进行最大池化操作可以得到一个标量om h,假设通道数M为256,则可以得到256维的特征:ch,该特征表示了相邻h帧的时空演化信息,然后通过全连接层将该特征映射到类别空间,并使用softmax函数获得归一化的概率表示。
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
本发明还公开了一种基于稠密图的视频分类系统,其中包括
训练模块,获取已分类的视频作为训练数据,根据帧特征编码函数,提取该训练数据的多个帧特征表达,并依时间顺序连接该多个帧特征表达,得到第一稠密图,以该第一稠密图训练卷积神经网络,得到时空演化特征提取模型;
第一提取模块,获取待分类视频,根据该帧特征编码函数,提取该待分类视频的多个帧特征表达,依时间顺序连接该多个帧特征表达,得到第二稠密图;
第二提取模块,根据预设的时间尺度范围,使用该时空演化特征提取模型提取该第二稠密图的时空演化特征,并对该时空演化特征进行最大池化操作,得到该第二稠密图在该尺度范围内的尺度特征;
循环模块,调整该时间尺度范围,循环调用该第二提取模块,以得到多个该尺度特征,对该多个尺度特征通过全连接层并融合,最后通过归一化指数函数,得到该待分类视频属于各类别的概率,提取最大概率对应的类别作为该视频的分类结果。
所述的基于稠密图的视频分类系统,其中该第一提取模块包括:
从待分类视频中采样n帧:{I1,I2,...,In},其中In代表视频中的第i帧,其中为帧特征编码函数,Rk表示k维实数空间,xt即为It帧的特征表达,然后按照视频帧的时间顺序把这些帧特征连接起来:其中代表连接操作,并将得到矩阵X∈Rnk作为该第二稠密图,其宽度为n,长度为k(n行,k列)。
所述的基于稠密图的视频分类系统,其中该第二提取模块包括:
时空演化信息提取模块,对于第二稠密图X,令Xi=xi+j,Xi表示第二稠密图中第i帧特征到第i+j帧特征的组合,时序卷积操作按照如下公式进行:
其中m代表时序卷积层的输出通道索引,wm,h是用于抓取相邻h帧时空模式的卷积核,其高度为该时间尺度范围h,宽度为k,T代表转置操作,bm是偏置项,f是非线性映射函数,ci,m h表示第m通道卷积核对Xi:Xi+h提取的时空演化信息,m代表该时序卷积层的输出通道索引;
时空演化特征提取模块,根据下式得到该时空演化特征cm h
对cm h进行经过最大池化操作:获得cm h中的最大值,以在尺度h上得到第二稠密图的特征:其中M表示时序卷积的输出通道个数,ch特征为该尺度特征。
所述的基于稠密图的视频分类系统,其中该循环模块包括,通过如下归一化指数函数,得到该待分类视频属于各类别的概率score;
所述的基于稠密图的视频分类系统,其中该循环模块具体包括,将该时间尺度范围H分别调整为2、3、4、5、6帧。

Claims (10)

1.一种基于稠密图的视频分类方法,其特征在于,包括:
训练步骤,获取已分类的视频作为训练数据,根据帧特征编码函数,提取该训练数据的多个帧特征表达,并依时间顺序连接该多个帧特征表达,得到第一稠密图,以该第一稠密图训练卷积神经网络,得到时空演化特征提取模型;
第一提取步骤,获取待分类视频,根据该帧特征编码函数,提取该待分类视频的多个帧特征表达,依时间顺序连接该多个帧特征表达,得到第二稠密图;
第二提取步骤,根据预设的时间尺度范围,使用该时空演化特征提取模型提取该第二稠密图的时空演化特征,并对该时空演化特征进行最大池化操作,得到该第二稠密图在该尺度范围内的尺度特征;
循环步骤,调整该时间尺度范围,循环执行该第二提取步骤,以得到多个该尺度特征,对该多个尺度特征通过全连接层并融合,最后通过归一化指数函数,得到该待分类视频属于各类别的概率,提取最大概率对应的类别作为该视频的分类结果。
2.如权利要求1所述的基于稠密图的视频分类方法,其特征在于,该第一提取步骤包括:
从待分类视频中采样n帧:{I1,I2,...,In},其中In代表视频中的第i帧,其中为帧特征编码函数,Rk表示k维实数空间,xt即为It帧的特征表达,然后按照视频帧的时间顺序把这些帧特征连接起来:其中代表连接操作,并将得到矩阵X∈Rnk作为该第二稠密图,其宽度为n,长度为k(n行,k列)。
3.如权利要求1或2所述的基于稠密图的视频分类方法,其特征在于,该第二提取步骤包括:
时空演化信息提取步骤,对于第二稠密图X,令Xi=xi+j,Xi表示第二稠密图中第i帧特征到第i+j帧特征的组合,时序卷积操作按照如下公式进行:
其中m代表时序卷积层的输出通道索引,wm,h是用于抓取相邻h帧时空模式的卷积核,其高度为该时间尺度范围h,宽度为k,T代表转置操作,bm是偏置项,f是非线性映射函数,ci,m h表示第m通道卷积核对Xi:Xi+h提取的时空演化信息,m代表该时序卷积层的输出通道索引;
时空演化特征提取步骤,根据下式得到该时空演化特征cm h
对cm h进行经过最大池化操作:获得cm h中的最大值,以在尺度h上得到第二稠密图的特征:其中M表示时序卷积的输出通道个数,ch特征为该尺度特征。
4.如权利要求3所述的基于稠密图的视频分类方法,其特征在于,该循环步骤包括,通过如下归一化指数函数,得到该待分类视频属于各类别的概率score;
5.如权利要求3所述的基于稠密图的视频分类方法,其特征在于,该循环步骤具体包括,将该时间尺度范围H分别调整为2、3、4、5、6帧。
6.一种基于稠密图的视频分类系统,其特征在于,包括:
训练模块,获取已分类的视频作为训练数据,根据帧特征编码函数,提取该训练数据的多个帧特征表达,并依时间顺序连接该多个帧特征表达,得到第一稠密图,以该第一稠密图训练卷积神经网络,得到时空演化特征提取模型;
第一提取模块,获取待分类视频,根据该帧特征编码函数,提取该待分类视频的多个帧特征表达,依时间顺序连接该多个帧特征表达,得到第二稠密图;
第二提取模块,根据预设的时间尺度范围,使用该时空演化特征提取模型提取该第二稠密图的时空演化特征,并对该时空演化特征进行最大池化操作,得到该第二稠密图在该尺度范围内的尺度特征;
循环模块,调整该时间尺度范围,循环调用该第二提取模块,以得到多个该尺度特征,对该多个尺度特征通过全连接层并融合,最后通过归一化指数函数,得到该待分类视频属于各类别的概率,提取最大概率对应的类别作为该视频的分类结果。
7.如权利要求6所述的基于稠密图的视频分类系统,其特征在于,该第一提取模块包括:
从待分类视频中采样n帧:{I1,I2,...,In},其中In代表视频中的第i帧,其中为帧特征编码函数,Rk表示k维实数空间,xt即为It帧的特征表达,然后按照视频帧的时间顺序把这些帧特征连接起来:其中代表连接操作,并将得到矩阵X∈Rnk作为该第二稠密图,其宽度为n,长度为k(n行,k列)。
8.如权利要求6或7所述的基于稠密图的视频分类系统,其特征在于,该第二提取模块包括:
时空演化信息提取模块,对于第二稠密图X,令Xi=xi+j,Xi表示第二稠密图中第i帧特征到第i+j帧特征的组合,时序卷积操作按照如下公式进行:
其中m代表时序卷积层的输出通道索引,wm,h是用于抓取相邻h帧时空模式的卷积核,其高度为该时间尺度范围h,宽度为k,T代表转置操作,bm是偏置项,f是非线性映射函数,ci,m h表示第m通道卷积核对Xi:Xi+h提取的时空演化信息,m代表该时序卷积层的输出通道索引;
时空演化特征提取模块,根据下式得到该时空演化特征cm h
对cm h进行经过最大池化操作:获得cm h中的最大值,以在尺度h上得到第二稠密图的特征:其中M表示时序卷积的输出通道个数,ch特征为该尺度特征。
9.如权利要求8所述的基于稠密图的视频分类系统,其特征在于,该循环模块包括,通过如下归一化指数函数,得到该待分类视频属于各类别的概率score;
10.如权利要求8所述的基于稠密图的视频分类系统,其特征在于,该循环模块具体包括,将该时间尺度范围H分别调整为2、3、4、5、6帧。
CN201811329682.5A 2018-11-09 2018-11-09 一种基于稠密图的视频分类方法和系统 Pending CN109376683A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811329682.5A CN109376683A (zh) 2018-11-09 2018-11-09 一种基于稠密图的视频分类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811329682.5A CN109376683A (zh) 2018-11-09 2018-11-09 一种基于稠密图的视频分类方法和系统

Publications (1)

Publication Number Publication Date
CN109376683A true CN109376683A (zh) 2019-02-22

Family

ID=65384032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811329682.5A Pending CN109376683A (zh) 2018-11-09 2018-11-09 一种基于稠密图的视频分类方法和系统

Country Status (1)

Country Link
CN (1) CN109376683A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188863A (zh) * 2019-04-30 2019-08-30 杭州电子科技大学 一种卷积神经网络的卷积核及其压缩算法
CN111008280A (zh) * 2019-12-04 2020-04-14 北京百度网讯科技有限公司 一种视频分类方法、装置、设备和存储介质
CN111079748A (zh) * 2019-12-12 2020-04-28 哈尔滨市科佳通用机电股份有限公司 铁路货车滚轴承甩油故障检测方法
CN111652073A (zh) * 2020-05-08 2020-09-11 腾讯科技(深圳)有限公司 视频分类方法、装置、系统、服务器和存储介质
CN113011306A (zh) * 2021-03-15 2021-06-22 中南大学 连续成熟阶段骨髓细胞图像自动识别方法、系统及介质
CN115376052A (zh) * 2022-10-26 2022-11-22 山东百盟信息技术有限公司 一种基于关键帧采样和多尺度稠密网络的长视频分类方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346436A (zh) * 2017-06-29 2017-11-14 北京以萨技术股份有限公司 一种融合图像分类的视觉显著性检测方法
CN107862275A (zh) * 2017-11-01 2018-03-30 电子科技大学 人体行为识别模型及其构建方法和人体行为识别方法
CN108229338A (zh) * 2017-12-14 2018-06-29 华南理工大学 一种基于深度卷积特征的视频行为识别方法
CN108288035A (zh) * 2018-01-11 2018-07-17 华南理工大学 基于深度学习的多通道图像特征融合的人体动作识别方法
CN108319905A (zh) * 2018-01-25 2018-07-24 南京邮电大学 一种基于长时程深度时空网络的行为识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346436A (zh) * 2017-06-29 2017-11-14 北京以萨技术股份有限公司 一种融合图像分类的视觉显著性检测方法
CN107862275A (zh) * 2017-11-01 2018-03-30 电子科技大学 人体行为识别模型及其构建方法和人体行为识别方法
CN108229338A (zh) * 2017-12-14 2018-06-29 华南理工大学 一种基于深度卷积特征的视频行为识别方法
CN108288035A (zh) * 2018-01-11 2018-07-17 华南理工大学 基于深度学习的多通道图像特征融合的人体动作识别方法
CN108319905A (zh) * 2018-01-25 2018-07-24 南京邮电大学 一种基于长时程深度时空网络的行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOKAI CHEN 等: ""DenseImage Network: Video Spatial-Temporal Evolution Encoding and Understanding"", 《ARXIV:1805.07550V1 [CS.CV]》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188863A (zh) * 2019-04-30 2019-08-30 杭州电子科技大学 一种卷积神经网络的卷积核及其压缩算法
CN110188863B (zh) * 2019-04-30 2021-04-09 杭州电子科技大学 一种适用于资源受限设备的卷积神经网络的卷积核压缩方法
CN111008280A (zh) * 2019-12-04 2020-04-14 北京百度网讯科技有限公司 一种视频分类方法、装置、设备和存储介质
CN111008280B (zh) * 2019-12-04 2023-09-05 北京百度网讯科技有限公司 一种视频分类方法、装置、设备和存储介质
CN111079748A (zh) * 2019-12-12 2020-04-28 哈尔滨市科佳通用机电股份有限公司 铁路货车滚轴承甩油故障检测方法
CN111652073A (zh) * 2020-05-08 2020-09-11 腾讯科技(深圳)有限公司 视频分类方法、装置、系统、服务器和存储介质
CN111652073B (zh) * 2020-05-08 2023-02-28 腾讯科技(深圳)有限公司 视频分类方法、装置、系统、服务器和存储介质
CN113011306A (zh) * 2021-03-15 2021-06-22 中南大学 连续成熟阶段骨髓细胞图像自动识别方法、系统及介质
CN115376052A (zh) * 2022-10-26 2022-11-22 山东百盟信息技术有限公司 一种基于关键帧采样和多尺度稠密网络的长视频分类方法

Similar Documents

Publication Publication Date Title
CN109376683A (zh) 一种基于稠密图的视频分类方法和系统
CN110119703B (zh) 一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法
CN109948425B (zh) 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置
CN112784798B (zh) 一种基于特征-时间注意力机制的多模态情感识别方法
Singh et al. A deeply coupled ConvNet for human activity recognition using dynamic and RGB images
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN108764308A (zh) 一种基于卷积循环网络的行人重识别方法
CN104217214B (zh) 基于可配置卷积神经网络的rgb‑d人物行为识别方法
CN108805070A (zh) 一种基于嵌入式终端的深度学习行人检测方法
CN109902546A (zh) 人脸识别方法、装置及计算机可读介质
CN109902798A (zh) 深度神经网络的训练方法和装置
CN111046821B (zh) 一种视频行为识别方法、系统及电子设备
CN107844784A (zh) 人脸识别方法、装置、计算机设备和可读存储介质
CN105469376B (zh) 确定图片相似度的方法和装置
CN109711422A (zh) 图像数据处理、模型的建立方法、装置、计算机设备和存储介质
CN111696101A (zh) 一种基于SE-Inception的轻量级茄科病害识别方法
CN107529650A (zh) 网络模型的构建和闭环检测方法、相应装置及计算机设备
CN109492627A (zh) 一种基于全卷积网络的深度模型的场景文本擦除方法
CN110097029B (zh) 基于Highway网络多视角步态识别的身份认证方法
CN109543602A (zh) 一种基于多视角图像特征分解的行人再识别方法
CN110222634A (zh) 一种基于卷积神经网络的人体姿态识别方法
CN106909938A (zh) 基于深度学习网络的视角无关性行为识别方法
CN109753897A (zh) 基于记忆单元强化-时序动态学习的行为识别方法
CN110188654A (zh) 一种基于移动未裁剪网络的视频行为识别方法
CN109714526A (zh) 智能摄像头及控制系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190222

WD01 Invention patent application deemed withdrawn after publication