CN112329738A - 基于显著片段采样的长视频动作识别方法 - Google Patents
基于显著片段采样的长视频动作识别方法 Download PDFInfo
- Publication number
- CN112329738A CN112329738A CN202011387822.1A CN202011387822A CN112329738A CN 112329738 A CN112329738 A CN 112329738A CN 202011387822 A CN202011387822 A CN 202011387822A CN 112329738 A CN112329738 A CN 112329738A
- Authority
- CN
- China
- Prior art keywords
- video
- sampler
- significant
- motion
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005070 sampling Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000009471 action Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 239000012634 fragment Substances 0.000 description 5
- 230000007774 longterm Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
- G06V20/42—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
基于显著片段采样的长视频动作识别方法,涉及计算机视觉技术。1)准备长视频动作识别数据集;2)设计用于显著片段采样的采样器和用于动作识别的分类器,通过采样器对视频运动特征显著的部分进行采样,分类器仅考虑采样器采样的片段,通过提取视频显著片段的时空特征进行动作分类;3)在大规模图像数据集上,对采样器的主干网络ShuffleNet V2和分类器网络膨胀3D卷积网络进行预训练,得到预训练模型;4)将预训练模型在长视频动作识别数据集上利用反向传播算法对整个模型进行端到端训练,并保存训练好的模型;5)利用训练好的模型进行视频显著部分的采样和动作分类。能有效去除冗余信息,减少模型计算量。
Description
技术领域
本发明涉及计算机视觉技术,具体是涉及一种基于显著片段采样的长视频动作识别方法。
背景技术
视频的理解与识别是计算机视觉的基础任务之一。近年来,随着计算机算力的爆发和计算机视觉技术的不断发展,视频识别技术迅速兴起并得到了广泛关注。而识别视频中的动作则是其中一个充满挑战而又具有较高实际应用价值的任务。动作识别任务的主要目标是判断一段视频中人的行为的类别。早期的动作识别主要基于兴趣点的检测和表示,例如梯度直方图,时空兴趣点检测以及光流直方图等。近年来,深度神经网络在图像分类和目标检测等计算机视觉任务上取得了几乎超越人类的效果。因此,一些基于深度学习的方法被应用于视频动作识别任务中。Simonyan等人(Simonyan K,Zisserman A.Two-streamconvolutional networks for action recognition in videos[C]//Advances inneural information processing systems.2014:568-576.)提出了基于双流的动作识别方法。该方法首次将视频分成空间和时间两个部分,分别使用RGB图像和光流图像送入两支神经网络并融合最终分类结果。Tran等人(Tran D,Bourdev L,Fergus R,et al.Learningspatiotemporal features with 3d convolutional networks[C]//Proceedings of theIEEE international conference on computer vision.2015:4489-4497.)将3D卷积应用于视频动作识别领域,提出了3D卷积网络,希望把ImageNet(迁移学习)的成功复制到视频动作领域中。Carreira等人(Carreira J,Zisserman A.Quo vadis,action recognition?anew model and the kinetics dataset[C]//proceedings of the IEEE Conference onComputer Vision and Pattern Recognition.2017:6299-6308.)提出了一个基于3D卷积的双流模型,网络的主干借鉴了成熟的2D卷积网络Inception-v1,将网络中的2D卷积核换成了3D卷积核。膨胀3D卷积网络进一步提高了视频动作识别的准确率。为了获得更有辨别力的时序特征,Wang等人(Wang X,Girshick R,Gupta A,et al.Non-local neuralnetworks[C]//Proceedings of the IEEE conference on computer vision andpattern recognition.2018:7794-7803.)提出了在网络中加入全局感受模块以获取长期时序依赖。
然而上述工作都专注于短视频动作识别任务,识别的视频往往只有10秒甚至更短,面对包含数千帧且长达数分钟的长视频,这些方法就会因为巨大的计算量而无能为力。目前,长视频动作识别任务受到的挑战主要有:
1)由于现有模型需要对采样得到的帧提取时空特征,因此对长视频进行密集采样时将会导致无法承受的巨大计算量。
2)在长达数分钟的长视频中,存在大量的冗余信息,将会导致动作识别性能降低。
3)由于视频过长,因此在提取时序信息时,难以建立有效的长期时序依赖。
目前的方法,大多数使用的是密集采样或者是将视频分段均匀采样,忽略了上述采样方法存在的许多局限性。密集采样容易造成巨大的计算量,而均匀采样可能会导致大量的冗余信息被采样,继而影响识别效果。因此,在长视频动作识别中,应尽可能采样运动特征显著的片段,摈弃特征不显著的冗余片段。
发明内容
本发明的目的在于针对现有的视频动作识别方法中存在的上述技术问题,提供能够有效提取到采样片段的时空特征,有效去除冗余信息,减少模型计算量的一种基于显著片段采样的长视频动作识别方法。
本发明包括以下步骤:
1)准备长视频动作识别数据集;
2)设计用于显著片段采样的采样器和用于动作识别的分类器,通过采样器对视频运动特征显著的部分进行采样,分类器仅考虑采样器采样的片段,通过提取视频显著片段的时空特征进行动作分类;
3)在大规模图像数据集上,对采样器的主干网络ShuffleNet V2(Ningning Ma,Xiangyu Zhang,Hai-Tao Zheng,Jian Sun,ShuffleNet V2:Practical Guidelines forEfficient CNN Architecture Design.In ECCV,2018)和分类器网络膨胀3D卷积网络(Joao Carreira and Andrew Zisserman.Quo vadis,action recognition?a new modeland the kinetics dataset.In CVPR,2017.)进行预训练,得到预训练模型;
4)将预训练模型在长视频动作识别数据集上利用反向传播算法对整个模型进行端到端训练,并保存训练好的模型;
5)利用训练好的模型进行视频显著部分的采样和动作分类。
在步骤1)中,所述准备长视频动作识别数据集,假设训练集动作视频为{(xi,yi),i=1,…,n},其中,n为训练集的样本数;xi为第i个训练样本对应的视频,yi表示第i个训练样本对应的标签。
在步骤2)中,所述设计用于显著片段采样的采样器的具体步骤如下:
2.1采样器将输入视频平均分成N个片段,并从每个片段中均匀采样一帧图像;采样得到的N帧图像作为采样器的输入;
2.2ShuffleNet在经过第一次卷积和最大池化操作以后,主要分为三个阶段,每个阶段以后的特征图的大小皆为输入的一半,通道数则相应增加一倍;移除ShuffleNet原有的最后的全连接层,在图像输入采样器的主干网络后,获得N个1024维的特征向量用以表征每一帧的空间特征;
2.3获得每个片段代表帧的空间特征后,利用选择器生成特征矩阵选择运动特征显著的帧,选择器由1个多层感知器(多层感知器)、1个全局感受模块和1个耿贝尔模块组成;特征矩阵经过选择器后,生成一个只含{0,1}离散的向量,0代表该帧所在的片段运动特征不够显著,分类器应不予考虑;反之,则代表该片段运动特征显著,分类器应予以考虑;
2.4采样器获得具有显著特征的片段后,分类器分别提取具有显著特征片段是时空特征;分类器使用3D卷积核,能够充分捕捉视频片段的时序特征和空间特征,最后使用多层感知器进行动作分类。
与现有技术相比,本发明具有以下突出的优势:
首先,设计用于显著片段采样的采样器,采样器引入轻量级的卷积神经网络,ShuffleNet提取样本帧的空间特征,使得模型既能提取视频帧有辨别力的空间特征又不会耗费大量计算资源。其次,选择器可以根据前面提取到的特征采样运动特征显著的片段。为了获取到更丰富的长期时序依赖,选择器引入全局感受模块。这样采样器在进行显著片段采样的时候不但能考虑到视频帧的空间特征,还能充分考虑视频帧之间的时序依赖。最后,分类器主干采用借鉴于成熟2D网络Inception v1的3D网络膨胀3D卷积网络,该网络使用3D卷积核对输入视频进行卷积,能够有效提取到采样片段的时空特征。分类器只对采样器采样的稀疏的,运动特征显著的片段提取时空特征,因此能有效去除冗余信息,减少模型计算量。
附图说明
图1为本发明实施例的模型结构图;
图2为本发明实施例的采样器结构图;
图3为本发明实施例的选择器结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更明显易懂,下面结合附图和实施例对本发明的方法作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了实施方式和具体操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,提供一种基于显著片段采样的长视频动作识别方法。本实施例包括以下步骤:
1.准备长视频动作识别数据集。假设训练集动作视频为{(xi,yi),i=1,…,n},其中,n为训练集的样本数;xi为第i个训练样本对应的视频,yi表示第i个训练样本对应的标签;
2.设计用于显著片段采样的采样器和,通过采样器对视频运动特征显著的部分进行采样。参见图2,采样器由一个轻量级网络ShuffleNet和一个选择器组成。下面详细说明采样器的工作原理。
2.1如图2所示,模型输入为一个长视频v,采样器将其分为N个片段(N=10),即v={S1,S2,…,SN},其中每个片段又能表示为Si={fi|i∈[1,...,T]}。为了提取最能代表每个片段的特征的帧,求取每个片段的平均值最为该片段的代表帧,即对于每个片段Si,都有其代表帧:
2.2采样器使用ShuffleNet提取代表帧的空间特征,ShuffleNet在经过第一次卷积和最大池化操作以后,主要分为三个阶段,每个阶段以后的特征图的大小皆为输入的一半,通道数则相应增加一倍。移除ShuffleNet原有的最后的全连接层,因此在图像输入采样器的主干网络后,将会获得N个1024维的特征向量用以表征每一帧的空间特征。即对于所有代表帧F={Fi|i∈[1,...,N]},在神经网络中提取特征前,都被裁剪至224×224的大小,经过ShuffleNet后都可以表示为卷积特征:X={xi|i∈[1,...,N]};其中,xi∈Rd,X∈RN×d,d是每帧图像经过ShuffleNet提取特征后,生成的特征向量的维数,d=1024。
2.3如图3所示,获得每个片段代表帧的空间特征后,选择器根据得到的特征进行显著片段选择。为了获取视频帧之间的长期时序依赖,引进全局感受模块。一般来说,全局感受模块有以下形式:
相似度量函数选择高斯函数g(x)使用1×1的卷积即g(x)=WTx;归一化系数值得一提的是,引进全局感受模块的目的是为了提取视频帧间的时序依赖,因此公式中的i,j指的是在时间维度的位置。由于全局感受模块只是对输入的特征图进行信息精炼,因此特征图的尺寸不会改变。获得具有长期时序依赖的特征矩阵后,利用多层感知器进行分类。为了增加多层感知器的非线性拟合能力,在多层感知器的不同层间添加ReLU激活函数,具体形式如下:
α=Softmax(σW2((σ(W1X)+b1))+b2)
其中,α∈RN,σ为激活函数ReLU。由于采样显著片段是没有人工标注的,因此不能作为一个有监督分类问题考虑。进行显著片段采样是通过采样器生成一个只含{0,1}的选择变量进行选择。由于该变量是离散的分布,为了解决离散变量无法求梯度的问题,引入基于耿贝尔分布的重参数方法。由上述操作得到每个片段是显著片段的概率αi={π0,π1},π0表示该片段不是显著片段的概率,π1表示该片段是显著片段的概率;因此,对于每个片段,采集的样本表示为:
其中,gi是从耿贝尔(0,1)分布中采集的样本,耿贝尔(0,1)的生成如下:
g=-log(-log(u))
由于公式(4)中使用了argmax函数,因此依然无法求导,为此使用Softmax函数代替argmax函数,所以采集的样本写作:
其中,τ是温度系数,τ越小,则生成的向量y越接近one-hot向量。至此,选择器已经成功生成用于选择显著片段的选择向量。
3.设计用于动作识别的分类器,如图1所示,分类器仅考虑采样器采样的片段,通过提取视频显著片段的时空特征进行动作分类。
3.1利用在Kinetics数据集上预训练的模型,使用3D卷积提取RGB图像的时序特征。并且出于减少计算量的考虑,去除了膨胀3D卷积网络模型的光流分支,只保留RGB流分支。输入视频已经被平均分为N个片段。采样器通过对每个片段的代表帧提取特征,采样其中的显著片段。分类器只对显著片段进行特征提取,模型的输入为3×64×224×224。当输入片段的帧数大于64帧时,分类器对该片段随机采样64帧。每个显著片段经过3DInception v1网络提取特征后,得到特征向量y∈Rd,y经过多层感知器分类器得到预测结果。测试时,对每个采样的显著片段进行预测,然后取平均值作为最终的预测结果。
4在大规模图像数据集上,对采样器的主干网络ShuffleNet V2和分类器网络进行预训练,得到预训练模型。这一步旨在为网络引入解决目标任务所需的语义信息,本项目采用两阶段的预训练方法,分别对采样器和分类器网络主干进行预训练。对于采样器,本项目在采样器的主干网络ShuffleNet V2后接一个多层感知器得到分类结果的概率分布。对于分类器的预训练方法与采样器相似,只是不需要额外引入新的线性分类器,直接使用分类器的网络主干3D Inception v1加方法本身的多层感知器建模一个分类网络模型。
5经过上一步的操作后,采样器和分类器的网络参数已经得到充分的预训练,包含了丰富的语义信息。这一步的目的是将预训练后的模型应用到长视频动作识别数据集上进行动作识别任务。具体操作是,首先对输入的视频段进行数据增强,数据增强操作包括0%几率的水平翻转、30%几率的随机视频灰度化,图像亮度,对比度和饱和度在[0.2,1.2]范围内随机偏移,图像色相在[-0.5,0.5]范围内随机采样;然后将数据增强后的视频馈入网络进行前向传播;网络预测结果与真实值的误差使用交叉熵损失度量;之后在损失的指导下进行反向传播,根据梯度更新网络参数;最后在损失收敛后,保存好训练的模型参数。
6完成上述所有步骤后,即可利用训练好的模型进行视频显著部分的采样和动作识别。具体来说,输入一个任意长度的视频,网络可以输出该视频属于各动作类别的概率。
Claims (3)
1.基于显著片段采样的长视频动作识别方法,其特征在于包括以下步骤:
1)准备长视频动作识别数据集;
2)设计用于显著片段采样的采样器和用于动作识别的分类器,通过采样器对视频运动特征显著的部分进行采样,分类器仅考虑采样器采样的片段,通过提取视频显著片段的时空特征进行动作分类;
3)在大规模图像数据集上,对采样器的主干网络ShuffleNet V2和分类器网络膨胀3D卷积网络进行预训练,得到预训练模型;
4)将预训练模型在长视频动作识别数据集上利用反向传播算法对整个模型进行端到端训练,并保存训练好的模型;
5)利用训练好的模型进行视频显著部分的采样和动作分类。
2.如权利要求1所述基于显著片段采样的长视频动作识别方法,其特征在于在步骤1)中,所述准备长视频动作识别数据集,假设训练集动作视频为{(xi,yi),i=1,…,n},其中,n为训练集的样本数;xi为第i个训练样本对应的视频,yi表示第i个训练样本对应的标签。
3.如权利要求1所述基于显著片段采样的长视频动作识别方法,其特征在于在步骤2)中,所述设计用于显著片段采样的采样器的具体步骤如下:
2.1采样器将输入视频平均分成N个片段,并从每个片段中均匀采样一帧图像;采样得到的N帧图像作为采样器的输入;
2.2ShuffleNet在经过第一次卷积和最大池化操作以后,主要分为三个阶段,每个阶段以后的特征图的大小皆为输入的一半,通道数则相应增加一倍;移除ShuffleNet原有的最后的全连接层,在图像输入采样器的主干网络后,获得N个1024维的特征向量用以表征每一帧的空间特征;
2.3获得每个片段代表帧的空间特征后,利用选择器生成特征矩阵选择运动特征显著的帧,选择器由1个多层感知器、1个全局感受模块和1个耿贝尔模块组成;特征矩阵经过选择器后,生成一个只含{0,1}离散的向量,0代表该帧所在的片段运动特征不够显著,分类器应不予考虑;反之,则代表该片段运动特征显著,分类器应予以考虑;
2.4采样器获得具有显著特征的片段后,分类器分别提取具有显著特征片段是时空特征;分类器使用3D卷积核,用于捕捉视频片段的时序特征和空间特征,最后使用多层感知器进行动作分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011387822.1A CN112329738A (zh) | 2020-12-01 | 2020-12-01 | 基于显著片段采样的长视频动作识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011387822.1A CN112329738A (zh) | 2020-12-01 | 2020-12-01 | 基于显著片段采样的长视频动作识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112329738A true CN112329738A (zh) | 2021-02-05 |
Family
ID=74308327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011387822.1A Pending CN112329738A (zh) | 2020-12-01 | 2020-12-01 | 基于显著片段采样的长视频动作识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329738A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273800A (zh) * | 2017-05-17 | 2017-10-20 | 大连理工大学 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
CN109558811A (zh) * | 2018-11-12 | 2019-04-02 | 中山大学 | 一种基于运动前景关注及非监督的关键帧提取的动作识别方法 |
CN111432207A (zh) * | 2020-03-30 | 2020-07-17 | 北京航空航天大学 | 基于显著目标检测和显著性指导的感知高清视频编码方法 |
CN111626245A (zh) * | 2020-06-01 | 2020-09-04 | 安徽大学 | 一种基于视频关键帧的人体行为识别方法 |
CN111696110A (zh) * | 2020-06-04 | 2020-09-22 | 山东大学 | 场景分割方法及系统 |
CN111985333A (zh) * | 2020-07-20 | 2020-11-24 | 中国科学院信息工程研究所 | 一种基于图结构信息交互增强的行为检测方法及电子装置 |
-
2020
- 2020-12-01 CN CN202011387822.1A patent/CN112329738A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273800A (zh) * | 2017-05-17 | 2017-10-20 | 大连理工大学 | 一种基于注意机制的卷积递归神经网络的动作识别方法 |
CN109558811A (zh) * | 2018-11-12 | 2019-04-02 | 中山大学 | 一种基于运动前景关注及非监督的关键帧提取的动作识别方法 |
CN111432207A (zh) * | 2020-03-30 | 2020-07-17 | 北京航空航天大学 | 基于显著目标检测和显著性指导的感知高清视频编码方法 |
CN111626245A (zh) * | 2020-06-01 | 2020-09-04 | 安徽大学 | 一种基于视频关键帧的人体行为识别方法 |
CN111696110A (zh) * | 2020-06-04 | 2020-09-22 | 山东大学 | 场景分割方法及系统 |
CN111985333A (zh) * | 2020-07-20 | 2020-11-24 | 中国科学院信息工程研究所 | 一种基于图结构信息交互增强的行为检测方法及电子装置 |
Non-Patent Citations (1)
Title |
---|
李鸣晓等: "基于片段关键帧的视频行为识别方法", 《系统仿真学报》, 8 April 2018 (2018-04-08), pages 2787 - 2793 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108830212B (zh) | 一种视频行为时间轴检测方法 | |
CN111046821B (zh) | 一种视频行为识别方法、系统及电子设备 | |
CN111914937A (zh) | 一种轻量化改进目标检测方法及检测系统 | |
CN109948721B (zh) | 一种基于视频描述的视频场景分类方法 | |
CN111506773A (zh) | 一种基于无监督深度孪生网络的视频去重方法 | |
CN112183240B (zh) | 一种基于3d时间流和并行空间流的双流卷积行为识别方法 | |
CN114494981B (zh) | 一种基于多层次运动建模的动作视频分类方法及系统 | |
CN110705412A (zh) | 一种基于运动历史图像的视频目标检测方法 | |
CN111460980A (zh) | 基于多语义特征融合的小目标行人的多尺度检测方法 | |
CN114282047A (zh) | 小样本动作识别模型训练方法、装置、电子设备及存储介质 | |
KR20210011707A (ko) | Cnn을 기반으로 한 동영상의 씬 단위 장소 분류 방법 및 이를 이용한 장소 분류 장치 | |
KR20210018600A (ko) | 얼굴 표정 인식 시스템 | |
CN114359167A (zh) | 一种复杂场景下基于轻量化YOLOv4的绝缘子缺陷检测方法 | |
Li et al. | Fire flame image detection based on transfer learning | |
Kini et al. | A survey on video summarization techniques | |
CN112560668A (zh) | 一种基于场景先验知识的人体行为识别方法 | |
Luo et al. | An modified video stream classification method which fuses three-dimensional convolutional neural network | |
CN116721458A (zh) | 一种基于跨模态时序对比学习的自监督动作识别方法 | |
Tong et al. | Unconstrained Facial expression recognition based on feature enhanced CNN and cross-layer LSTM | |
CN112329738A (zh) | 基于显著片段采样的长视频动作识别方法 | |
Patil et al. | Video content classification using deep learning | |
CN114329070A (zh) | 视频特征提取方法、装置、计算机设备和存储介质 | |
CN114218434A (zh) | 一种自动标注方法、自动标注装置和计算机可读存储介质 | |
Rahnama et al. | Adaptive frame selection in two dimensional convolutional neural network action recognition | |
Farren | Classifying food items by image using Convolutional Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |