CN110796058A - 一种基于关键帧提取和层次性表述的视频行为识别方法 - Google Patents

一种基于关键帧提取和层次性表述的视频行为识别方法 Download PDF

Info

Publication number
CN110796058A
CN110796058A CN201911011339.0A CN201911011339A CN110796058A CN 110796058 A CN110796058 A CN 110796058A CN 201911011339 A CN201911011339 A CN 201911011339A CN 110796058 A CN110796058 A CN 110796058A
Authority
CN
China
Prior art keywords
video
key frame
neural network
layer
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911011339.0A
Other languages
English (en)
Inventor
李楠楠
张世雄
赵翼飞
李若尘
李革
安欣赏
张伟民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Longgang Intelligent Audiovisual Research Institute
Original Assignee
Shenzhen Longgang Intelligent Audiovisual Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Longgang Intelligent Audiovisual Research Institute filed Critical Shenzhen Longgang Intelligent Audiovisual Research Institute
Priority to CN201911011339.0A priority Critical patent/CN110796058A/zh
Publication of CN110796058A publication Critical patent/CN110796058A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Abstract

一种基于关键帧提取和层次性表述的视频行为识别方法,包括:步骤1)用循环神经网络滑动过整段视频,提取关键帧特征;步骤2)将关键帧特征送入时域卷积神经网络,提取整段视频的表述特征;以及步骤3)进行视频行为分类。该方法通过对原始视频进行中层次特征帧抽取和高层次运动信息抽象的方式来获得整段视频的完整表述,在此基础上设计行为分类器实现从端(视频输入)到端(行为类别输出)视频行为分类。该方法能够实现对于长视频和结构化分布的视频的完整表述;能够满足现实场景下某些对实时运算要求较高的应用需求。

Description

一种基于关键帧提取和层次性表述的视频行为识别方法
技术领域
本发明涉及视频行为分析技术领域,具体涉及到一种基于关键帧提取和层次性表述的视频行为识别方法。
背景技术
随着自媒体时代的到来,互联网上每天都有用户上传海量的视频。以YouTube为例,每分钟全球用户上传的视频量约为500小时。这里面有大量的视频内容是不健康的,比如:犯罪、色情等。用人工检索的方式对这些海量的数据进行查看和监管是一项耗时费力的工作。近年来,一些专家学者尝试使用计算机视觉的方法对视频内容进行自动地识别,且取得了一些不错的进展。总体来看,这些方法多是依赖光流特征来刻画运动信息,并且使用随机抽样地方式来处理较长的视频。这样做会带来两个明显的缺陷:1.光流计算需要大量的运算资源,而且一般都是预先离线处理,这样限制了算法在现实场景下的实时运行;2.对较长的视频进行随机抽取可能会漏掉一些关键的信息,而且在很多情况下视频内容是结构化分布的,仅对随机抽取到的某一段内容进行分析无法得到可靠的分类预测。例如:跳高和跳远两项体育运动,两者的前半段都是助跑,如果随机抽取的内容只包含前半段信息是无法区分两者的。
发明内容
本发明的目的是提供一种基于关键帧提取和层次性表述的视频行为识别方法,通过对原始视频进行中层次特征帧抽取和高层次运动信息抽象的方式来获得整段视频的完整表述,在此基础上设计行为分类器实现从端(视频输入)到端(行为类别输出)视频行为分类。该方法能够实现对于长视频和结构化分布的视频的完整表述;能够满足现实场景下某些对实时运算要求较高的应用需求。
本发明的技术方案:
根据本发明的一个方面,提供了一种基于关键帧提取和层次性表述的视频行为识别方法,包括:步骤1)用循环神经网络滑动过整段视频,提取关键帧特征;步骤2)将关键帧特征送入时域卷积神经网络,提取整段视频的表述特征;以及步骤3)进行视频行为分类。
优选地,在上述视频行为识别方法中,步骤1)包括通过循环神经网络在视频中滑动来抽取每个视频结构单元的关键帧特征;在单个视频结构单元中,输入图像通过卷积神经网络抽取深度表述特征,然后输入到循环神经网络进行关键帧判定。
优选地,在上述视频行为识别方法中,循环神经网络包含图片特征提取层、隐状态层和判定输出模块,在单个视频结构单元中,输入图像经过图片特征提取层提取深度表述特征,记为Fp;将Fp进行时序信息关联和处理,经过隐状态层11运算,输出中间隐特征Hp;将Hp输入到关键帧检测网络层,得到关键帧检测结果,即该帧是否为关键帧的判定Pk
优选地,在上述视频行为识别方法中,在步骤2)中,将从步骤1)提取的关键帧特征输入到时域卷积神经网络中,进行时间域卷积运算提取整段视频的表述特征Fv,其中,时间域卷积过程可以表述为下式(1):
Figure BDA0002244279290000021
其中,
Figure BDA0002244279290000022
为视频表述特征Fv第j个通道的输出,fi为时间卷积第i个通道的输入,共有m个输入通道,为第i个卷积核。
优选地,在上述视频行为识别方法中,在步骤3)中,将步骤2)所得的整段视频的表述特征送入到行为分类层进行运算,最后输出行为类别预测结果,其中,行为分类层包括2个512*512的全连接层。
根据本发明的另一方面,还提供了一种基于关键帧提取和层次性表述的视频行为识别设备,包括中层关键帧提取模块和高层视频表述模块,其中,中层关键帧提取模块,用于从整段视频提取关键帧特征;以及高层视频表述模块,用于将关键帧特征送入时域卷积神经网络,提取整段视频的表述特征。
优选地,在上述视频行为识别设备中,中层关键帧提取模块用于,通过循环神经网络在视频中滑动来抽取每个视频结构单元的关键帧特征;在单个视频结构单元中,输入图像通过卷积神经网络抽取深度表述特征,然后输入到循环神经网络进行关键帧判定。
优选地,在上述视频行为识别设备中,循环神经网络包括图片特征提取层、隐状态层和判定输出模块,在单个视频结构单元中,输入图像经过图片特征提取层提取深度表述特征,记为Fp;将Fp进行时序信息关联和处理,经过隐状态层11运算,输出中间隐特征Hp;将Hp输入到关键帧检测网络层,得到关键帧检测结果,即该帧是否为关键帧的判定Pk
优选地,在上述视频行为识别设备中,高层视频表述模块,用于将提取的关键帧特征输入到时域卷积神经网络中,进行时间域卷积运算提取整段视频的表述特征Fv,其中,时间域卷积过程可以表述为下式(1):
其中,
Figure BDA0002244279290000025
为视频表述特征Fv第j个通道的输出,fi为时间卷积第i个通道的输入,共有m个输入通道,
Figure BDA0002244279290000026
为第i个卷积核。
优选地,在上述视频行为识别设备中,还包括行为分类层,用于进行视频行为分类。
与现有技术相比,本发明的有益效果是:
本发明方法,在对视频中存在的行为事件进行检测时,采用了一种层次性结构信息提取的模式。相比于传统的基于光流和随机采样的行为事件检测方法,能够实现对于长视频和结构化分布的视频的完整表述;同时,由于采用关键帧提取和连续时域特征卷积的方法,避免了光流运算带来的巨大计算开销,能够满足现实场景下某些对实时运算要求较高的应用需求。
附图说明
下面结合附图,通过实施例子对本发明进一步说明如下:
图1为本发明的基于关键帧提取和层次性表述的视频行为识别方法的流程图;
图2为本发明方法采用的视频行为识别模型的网络结构图;
图3为本发明方法采用的循环神经网络滑动检测图;
图4为本发明方法采用的循环神经网络的结构图。
具体实施方式
本发明的基于关键帧提取和层次性表述的视频行为识别方法,采用深度学习模型构建两级特征提取模块来对整段视频进行表征,即,中层关键帧提取模块和高层视频表述模块,分别负责视频片段关键帧分析和整段视频特征表述。其中,中层关键帧提取模块由单向循环神经网络构成,用来提取不同视频片段的关键帧;高层视频表述模块由时域卷积神经网络构成,用来对整段视频进行特征编码。在此特征表述基础上完成视频行为识别任务。这种层次性表述的方法能够对整段视频进行完整的表征,特别是针对持续时间较长且行为是由若干动作片段构成的视频,层次性分析的方法可以有效地表述行为的分层结构特性。
相比于以往的基于光流分析和随机抽样技术的视频行为分析方法,本发明提出的技术方案具有下述特性:1.层次性分析的方法符合视频行为的结构化分层特性,能够对长视频提取完整的行为表征;2.通过对连续关键帧的特征进行描述来表征动作行为,相比于光流方法,极大地节省了计算资源,有利于算法在现实场景下的实时运行。
本发明方法的原理是:1.)通过对视频进行层次性结构建模来挖掘视频中行为事件的结构化信息:中层次信息对应着行为事件的结构单元,高层次信息对应着行为事件的整体表述;2.)通过关键帧提取来挖掘视频行为的中层次信息,对连续关键帧特征进行时间域卷积来表征整段视频的行为特性。
本发明提出的基于关键帧提取和层次性表述的视频行为识别方法包括三个部分:使用一个固定时间步长的循环神经网络滑动过整段视频,提取指定时间间隔内的视频关键帧;把连续关键帧的深度特征送入一个卷积神经网络,该卷积神经网络在时间域上进行卷积运算,得到整段视频的抽象表述;设计行为分类器(行为分类层)对视频行为进行分类。从一段视频输入到行为分类结果输出包括以下若干步骤:
1.)用循环神经网络滑动过整段视频,提取关键帧特征;
2.)将关键帧特征送入时域卷积神经网络,提取整段视频的表述特征;
3.)进行视频行为分类。
本发明提出的方法与现有的方法相比有两点主要的改进:1.)本发明的方法是基于层次性分析的技术框架,相比于传统的基于单次随机抽样的学习方法,此方法对持续时间较长且层次结构性明显的视频,具有更加合理的视频表述能力,能更加完整地表征一个行为事件;2.)本发明提出的模型是通过对连续关键帧特征的处理来提取行为运动信息的,相比于传统的光流计算的方法,只考虑RGB图像信息,节省了计算资源,有利于把算法模型应用于需要实时处理的环境下。
图1为本发明的基于关键帧提取和层次性表述的视频行为识别方法的流程图。本发明通过一种层次化分析的方法对输入视频进行分层描述来提取长视频完整的行为表征图,图2为本发明方法采用的视频行为识别模型的网络结构图,具体包括中层关键帧提取模块和高层视频表述模块,其中,中层关键帧提取模块,用于用循环神经网络滑动过整段视频,提取关键帧特征,即用于从行为事件的结构单元(例如连续20帧图像)中提取关键帧;以及高层视频表述模块,用于将关键帧特征送入时域卷积神经网络,提取整段视频的表述特征,具体地用于对连续关键帧信息进行建模来对行为事件进行整体性表述。
结合图1和图2,对本发明的基于关键帧提取和层次性表述的视频行为识别方法的整体操作流程分述如下:
S1:用循环神经网络滑动过整段视频,提取关键帧特征。从行为事件的结构单元(例如连续20帧图像)中提取关键帧特征,具体地,通过循环神经网络在视频中滑动来抽取视频结构单元的关键帧;在单个视频结构单元中,输入图像通过卷积神经网络抽取深度表述特征,然后输入到循环神经网络进行关键帧判定。给定一段视频,经过处理得到输入视频帧1。选择一种循环神经网络2,例如:GRU(Cho,Kyunghyun;van Merrienboer,Bart;Gulcehre,Caglar;Bahdanau,Dzmitry;Bougares,Fethi;Schwenk,Holger;Bengio,Yoshua(2014)."Learning Phrase Representations using RNN Encoder-Decoder forStatistical Machine Translation".arXiv:1406.1078),设定其处理的时间步长为N,例如,N=20。利用循环神经网络2在视频中滑动处理,提取每个视频结构单元的关键帧4。关键帧包含了描述运动所需要的动态信息,相比于传统的光流计算来描述运动动态信息,关键帧提取节省了巨大的计算开销,有利于算法在实时运算要求较高的场合运行。循环神经网络2的结构图如图4所示,包含图片特征提取层12、隐状态层11和判定输出模块。输入图像经过图片特征提取层12,例如卷积神经网络VGG(Simonyan K.and Zisserman A.2014.VeryDeep Convolutional Networks for Large Scale Image Recognition.ArXiv(2014).https://doi.org/arXiv:1409.1556),提取深度表述特征,记为Fp。连续N帧视频图片特征Fp输入到循环神经网络2中进行时序信息关联和处理,经过隐状态层11运算,输出中间隐特征Hp。Hp输入到关键帧检测网络层9,得到关键帧检测结果10,即该帧是否为关键帧的判定Pk。关键帧检测网络层9可以选择为全连接网络,例如,2层512*512的全连接层。循环神经网络2在视频中以滑动窗口的方式进行运算,前后窗口之间的重叠关系如图3所示。具体的说,即为若在前段窗口中,关键帧被检测为第k帧,则后段滑动窗口的开始位置为前段窗口的第k+1帧。例如,在图3中,第一段滑动窗口的关键帧被检测为第N-1帧,则后段滑动窗口的开始位置(循环神经网络开始时间步)6和前段滑动窗口的结束位置(循环神经网络结束时间步)5重合,同为第N帧。若第k帧被检测为关键帧,则其在循环神经网络中对应时间步的中间隐特征Fk,记为此关键帧特征;
S2:将关键帧特征送入时域卷积神经网络,提取整段视频的表述特征。通过时域卷积神经网络3对连续关键帧信息进行建模来对行为事件进行整体性表述,具体地,用1D时域卷积神经网络3对提取的所有视频结构单元的关键帧特征进行处理来得到整段视频的表征。使用关键帧提取和时域卷积神经网络进行建模可以完整地表述整段视频的层次性结构,有利于视频行为分类。其中,关键帧对应于视频中层次信息,时域卷积神经网络输出对应于视频高层次信息。
循环神经网络2在整段视频滑动处理完毕后,将得到若干关键帧特征Fk,Fk输入到时域卷积神经网络3中,进行时间域卷积运算提取整段视频的表述特征Fv。时间域卷积过程可以表述为下式(1):
Figure BDA0002244279290000051
其中,
Figure BDA0002244279290000052
为视频表述特征Fv第j个通道的输出,fi为时间卷积第i个通道的输入,共有m个输入通道,
Figure BDA0002244279290000053
为第i个卷积核;
S3:进行视频行为分类。具体地,视频表述特征Fv送入到行为分类层7进行运算,最后输出行为类别预测结果8。行为分类层由两个全连接层构成,例如,2个512*512的全连接层。
以上即为本发明提出的一种基于关键帧提取和层次性表述的视频行为识别方法的具体实施方案。此实施案例是在HMDB-51(H.Kuehne,H.Jhuang,E.Garrote,T.Poggio,andT.Serre.HMDB:A Large Video Database for Human Motion Recognition.ICCV,2011.)数据集上进行了验证,并用分类准确率对实验结果进行了评估,在Top-1(即把分类得分最高的一类作为预测结果)准确率的情况下,本发明提出的方法达到了目前先进的检测水平。
相比于传统的基于单个循环神经网络的视频行为识别方法,本发明提出的方法对于持续时间长、动作复杂多样的视频具有更好的表述能力,如表1所示。
表1本发明方法与传统的基于单个循环神经网络的视频行为识别方的准确率对比
方法 准确率
ActionVLAD<sup>[1]</sup> 66.9%
TSN(BN-Inception)<sup>[2]</sup> 68.5%
ST-ResNet<sup>[3]</sup> 66.4%
本发明 67.6%
对比参考文献:
[1]Girdhar,R.,Ramanan,D.,Gupta,A.,Sivic,J.,Russell,B.:Actionvlad:Learning spatio-temporal aggregation for action classification.In:CVPR(2017)
[2]Wang,L.,Xiong,Y.,Wang,Z.,Qiao,Y.,Lin,D.,Tang,X.,Gool,L.V.:Temporalsegment networks:Towards good practices for deep action recognition.In:ECCV(2016)
[3]Feichtenhofer,C.,Pinz,A.,Wildes,R.:Spatiotemporal residualnetworks for video action recognition.In:NIPS(2016)

Claims (10)

1.一种基于关键帧提取和层次性表述的视频行为识别方法,其特征在于,包括:
步骤1)用循环神经网络滑动过整段视频,提取关键帧特征;
步骤2)将所述关键帧特征送入时域卷积神经网络,提取整段视频的表述特征;以及
步骤3)进行视频行为分类。
2.根据权利要求1所述的视频行为识别方法,其特征在于,所述步骤1)包括通过循环神经网络在视频中滑动来抽取每个视频结构单元的关键帧特征;在单个视频结构单元中,输入图像通过卷积神经网络抽取深度表述特征,然后输入到循环神经网络进行关键帧判定。
3.根据权利要求1所述的视频行为识别方法,其特征在于,所述循环神经网络包含图片特征提取层、隐状态层和判定输出模块,在单个视频结构单元中,所述输入图像经过所述图片特征提取层提取深度表述特征,记为Fp;将Fp进行时序信息关联和处理,经过隐状态层11运算,输出中间隐特征Hp;将Hp输入到关键帧检测网络层,得到关键帧检测结果,即该帧是否为关键帧的判定Pk
4.根据权利要求1所述的视频行为识别方法,其特征在于,在所述步骤2)中,将从步骤1)提取的所述关键帧特征输入到所述时域卷积神经网络中,进行时间域卷积运算提取整段视频的表述特征Fv,其中,时间域卷积过程可以表述为下式(1):
其中,
Figure FDA0002244279280000012
为视频表述特征Fv第j个通道的输出,fi为时间卷积第i个通道的输入,共有m个输入通道,
Figure FDA0002244279280000013
为第i个卷积核。
5.根据权利要求1所述的视频行为识别方法,其特征在于,在所述步骤3)中,将所述步骤2)所得的所述整段视频的所述表述特征送入到行为分类层进行运算,最后输出行为类别预测结果,其中,所述行为分类层包括2个512*512的全连接层。
6.一种基于关键帧提取和层次性表述的视频行为识别设备,其特征在于,包括中层关键帧提取模块和高层视频表述模块,其中,
中层关键帧提取模块,用于从整段视频提取关键帧特征;以及
高层视频表述模块,用于将所述关键帧特征送入时域卷积神经网络,提取整段视频的表述特征。
7.根据权利要求1所述的视频行为识别设备,其特征在于,所述中层关键帧提取模块用于,通过循环神经网络在视频中滑动来抽取每个视频结构单元的关键帧特征;在单个视频结构单元中,输入图像通过卷积神经网络抽取深度表述特征,然后输入到循环神经网络进行关键帧判定。
8.根据权利要求7所述的视频行为识别设备,其特征在于,所述循环神经网络包括图片特征提取层、隐状态层和判定输出模块,在单个视频结构单元中,所述输入图像经过所述图片特征提取层提取深度表述特征,记为Fp;将Fp进行时序信息关联和处理,经过隐状态层11运算,输出中间隐特征Hp;将Hp输入到关键帧检测网络层,得到关键帧检测结果,即该帧是否为关键帧的判定Pk
9.根据权利要求1所述的视频行为识别设备,其特征在于,高层视频表述模块,用于将提取的所述关键帧特征输入到所述时域卷积神经网络中,进行时间域卷积运算提取整段视频的表述特征Fv,其中,时间域卷积过程可以表述为下式(1):
Figure FDA0002244279280000021
其中,
Figure FDA0002244279280000022
为视频表述特征Fv第j个通道的输出,fi为时间卷积第i个通道的输入,共有m个输入通道,
Figure FDA0002244279280000023
为第i个卷积核。
10.根据权利要求1所述的视频行为识别设备,其特征在于,还包括行为分类层,用于进行视频行为分类。
CN201911011339.0A 2019-10-23 2019-10-23 一种基于关键帧提取和层次性表述的视频行为识别方法 Pending CN110796058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911011339.0A CN110796058A (zh) 2019-10-23 2019-10-23 一种基于关键帧提取和层次性表述的视频行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911011339.0A CN110796058A (zh) 2019-10-23 2019-10-23 一种基于关键帧提取和层次性表述的视频行为识别方法

Publications (1)

Publication Number Publication Date
CN110796058A true CN110796058A (zh) 2020-02-14

Family

ID=69440989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911011339.0A Pending CN110796058A (zh) 2019-10-23 2019-10-23 一种基于关键帧提取和层次性表述的视频行为识别方法

Country Status (1)

Country Link
CN (1) CN110796058A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529892A (zh) * 2020-12-21 2021-03-19 苏州中科华影健康科技有限公司 消化道内镜病变图像检测方法、系统和计算机存储介质
CN112561912A (zh) * 2021-02-20 2021-03-26 四川大学 一种基于先验知识的医学图像淋巴结检测方法
CN113255616A (zh) * 2021-07-07 2021-08-13 中国人民解放军国防科技大学 一种基于深度学习的视频行为识别方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239728A (zh) * 2017-01-04 2017-10-10 北京深鉴智能科技有限公司 基于深度学习姿态估计的无人机交互装置与方法
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
CN109214285A (zh) * 2018-08-01 2019-01-15 浙江深眸科技有限公司 基于深度卷积神经网络与长短期记忆网络的摔倒检测方法
CN109871781A (zh) * 2019-01-28 2019-06-11 山东大学 基于多模态3d卷积神经网络的动态手势识别方法及系统
CN109919044A (zh) * 2019-02-18 2019-06-21 清华大学 基于预测进行特征传播的视频语义分割方法及装置
CN109948721A (zh) * 2019-03-27 2019-06-28 北京邮电大学 一种基于视频描述的视频场景分类方法
CN110096950A (zh) * 2019-03-20 2019-08-06 西北大学 一种基于关键帧的多特征融合行为识别方法
US20190303713A1 (en) * 2018-03-30 2019-10-03 Regents Of The University Of Minnesota Discovery of shifting patterns in sequence classification

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239728A (zh) * 2017-01-04 2017-10-10 北京深鉴智能科技有限公司 基于深度学习姿态估计的无人机交互装置与方法
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法
CN108024158A (zh) * 2017-11-30 2018-05-11 天津大学 利用视觉注意力机制的有监督视频摘要提取方法
US20190303713A1 (en) * 2018-03-30 2019-10-03 Regents Of The University Of Minnesota Discovery of shifting patterns in sequence classification
CN109214285A (zh) * 2018-08-01 2019-01-15 浙江深眸科技有限公司 基于深度卷积神经网络与长短期记忆网络的摔倒检测方法
CN109871781A (zh) * 2019-01-28 2019-06-11 山东大学 基于多模态3d卷积神经网络的动态手势识别方法及系统
CN109919044A (zh) * 2019-02-18 2019-06-21 清华大学 基于预测进行特征传播的视频语义分割方法及装置
CN110096950A (zh) * 2019-03-20 2019-08-06 西北大学 一种基于关键帧的多特征融合行为识别方法
CN109948721A (zh) * 2019-03-27 2019-06-28 北京邮电大学 一种基于视频描述的视频场景分类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JEFF DONAHUE等: "Long-Term Recurrent Convolutional Networks for Visual Recognition and Description", vol. 39, no. 4, pages 677 - 691 *
YU, H 等: "Select and Focus: Action Recognition with Spatial-Temporal Attention", 《LECTURE NOTES IN ARTIFICIAL INTELLIGENCE》, vol. 11742, pages 461 - 471 *
李鸣晓等: "基于片段关键帧的视频行为识别方法", vol. 30, no. 7, pages 2787 - 2793 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112529892A (zh) * 2020-12-21 2021-03-19 苏州中科华影健康科技有限公司 消化道内镜病变图像检测方法、系统和计算机存储介质
CN112561912A (zh) * 2021-02-20 2021-03-26 四川大学 一种基于先验知识的医学图像淋巴结检测方法
CN113255616A (zh) * 2021-07-07 2021-08-13 中国人民解放军国防科技大学 一种基于深度学习的视频行为识别方法
CN113255616B (zh) * 2021-07-07 2021-09-21 中国人民解放军国防科技大学 一种基于深度学习的视频行为识别方法

Similar Documents

Publication Publication Date Title
CN107273800B (zh) 一种基于注意机制的卷积递归神经网络的动作识别方法
CN108986186B (zh) 文字转化视频的方法和系统
Jiang et al. Automatic soccer video event detection based on a deep neural network combined CNN and RNN
US9858340B1 (en) Systems and methods for queryable graph representations of videos
CN107463888B (zh) 基于多任务学习与深度学习的人脸情绪分析方法及系统
CN111144448A (zh) 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法
CN110796058A (zh) 一种基于关键帧提取和层次性表述的视频行为识别方法
Wang et al. Discovering attractive segments in the user-generated video streams
CN106355154B (zh) 一种监控视频中检测频繁过人的方法
CN110890102A (zh) 一种基于rnn声纹识别的发动机缺陷检测算法
WO2020253051A1 (zh) 唇语的识别方法及其装置
CN109948721A (zh) 一种基于视频描述的视频场景分类方法
CN111984824A (zh) 一种基于多模态的视频推荐方法
CN111738218A (zh) 人体异常行为识别系统及方法
CN110941993A (zh) 基于人脸识别的动态人员分类与存储方法
Liu et al. Gaze-assisted multi-stream deep neural network for action recognition
CN113392822A (zh) 基于特征分离表征学习的面部运动单元检测方法及系统
Sreeja et al. A unified model for egocentric video summarization: an instance-based approach
CN110598540A (zh) 一种监控视频中步态轮廓图的提取方法及系统
CN113936317A (zh) 一种基于先验知识的人脸表情识别方法
Hachchane et al. Large-scale image-to-video face retrieval with convolutional neural network features
CN116883900A (zh) 一种基于多维生物特征的视频真伪鉴别方法和系统
Arif et al. Video representation by dense trajectories motion map applied to human activity recognition
Sudhakaran et al. Top-down attention recurrent VLAD encoding for action recognition in videos
Lee et al. Summarizing long-length videos with gan-enhanced audio/visual features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination