CN111259790B - 用于中短时视频的从粗到细的行为快速检测与分类方法及系统 - Google Patents

用于中短时视频的从粗到细的行为快速检测与分类方法及系统 Download PDF

Info

Publication number
CN111259790B
CN111259790B CN202010042072.8A CN202010042072A CN111259790B CN 111259790 B CN111259790 B CN 111259790B CN 202010042072 A CN202010042072 A CN 202010042072A CN 111259790 B CN111259790 B CN 111259790B
Authority
CN
China
Prior art keywords
behavior
dimensional
positioning
sampling
time domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010042072.8A
Other languages
English (en)
Other versions
CN111259790A (zh
Inventor
林巍峣
李昱希
徐树公
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
University of Shanghai for Science and Technology
Original Assignee
Shanghai Jiaotong University
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University, University of Shanghai for Science and Technology filed Critical Shanghai Jiaotong University
Priority to CN202010042072.8A priority Critical patent/CN111259790B/zh
Publication of CN111259790A publication Critical patent/CN111259790A/zh
Application granted granted Critical
Publication of CN111259790B publication Critical patent/CN111259790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

一种用于中短时视频的从粗到细的行为快速检测与分类方法及系统,通过对原视频重采样后进行时空联合的特征提取,在此基础上进行时域定位;然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位,根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正,得到行为检测结果,从而实现行为目标的快速检测。本发明在有效提升分类精度以及定位精度的同时,还能够确保行为检测的运行效率,目标检测的准确率可以达到79.30%,同时平均每一帧的处理时间仅为7.6毫秒。

Description

用于中短时视频的从粗到细的行为快速检测与分类方法及 系统
技术领域
本发明涉及的是一种图像处理领域的技术,具体是一种用于中短时视频的从粗到细的行为快速检测与分类方法及系统。
背景技术
基于视频的行为检测与识别分类技术是自动将视频中的人物目标进行逐帧定位与跟踪,并结合时空信息对其行为进行识别的技术。现有的视频行为检测技术主要通过逐帧或者逐段地提取出精确的运动空间定位;对逐段的行为定位进行分类;将以上的检测结果沿时域链接形成时空联合的带有行为类别标签的人物轨迹。现有技术虽然有利用深度神经网络提高检测准确度,但其最终分类结果高度依赖于稠密的逐帧检测结果以及时域的连接算法的准确性。因此,针对上述现有技术缺陷,急需一种快速高效的行为检测算法,同时能够通过长时时间信息建模帮助行为识别,又避免稠密但低效的逐帧检测。
发明内容
本发明针对现有技术存在的上述不足,提出一种用于中短时视频的从粗到细的行为快速检测与分类方法及系统,在有效提升分类精度以及定位精度的同时,还能够确保行为检测的运行效率,目标检测的准确率可以达到79.30%,同时平均每一帧的处理时间仅为7.6毫秒。
本发明是通过以下技术方案实现的:
本发明涉及一种用于中短时视频的从粗到细的行为快速检测与分类方法,通过对原视频重采样后进行时空联合的特征提取,在此基础上进行时域定位;然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位,根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正,得到行为检测结果,从而实现行为目标的快速检测。
所述的时空联合的特征提取是指:利用三维卷积神经网络对固定帧数的输入视频进行卷积,卷积的最终输出为三维网格,每个网格中包含一个固定维度的高维特征向量来描述局部时空关系。
所述的三维卷积神经网络为基于GoogleNet网络卷积核沿时间维度进行重复延伸拓展得到的I3D卷积神经网络。
所述的高维特征向量为:F∈RC×T×H×W,其中:F为高位特征向量构成的网格;T、H、W分别为网格的时间尺度、高度和宽度;C为向量维度。
所述的时域定位是指:对三维网格进行空间平均池化得到一维特征,并通过时域检测得到在对应位置存在行为的概率和起止区间的相对坐标,再在三维网格上的对应起止区间的相对坐标中进行均匀采样,得到稀疏采样后的二维采样空间特征。
所述的时域检测是指:利用一层一维卷积神经网络对池化得到的一维特征进行卷积,输出对应位置存在行为的概率和起止区间的相对坐标。
所述的目标分类是指:将时域定位得到的采样特征信息进行时域差分处理,将原采样特征信息以及时域差分处理后的残差结果相加后进行时域池化,使三维特征变成二维特征,得到行为类别以及行为轨迹的描述参数。
所述的行为类别的描述参数为:c∈[0,1]K,类别描述为一个归一化的K为向量,K为总类别数量,每一维的数值代表属于该行为类别的置信度。
所述的行为轨迹的描述参数为:θ=[θx,θy,θw,θh]T,其中:θ表示为一个4×(k+1)规模的矩阵,k=4为多项式阶数,矩阵每一列(θx,θy,θw,θh)表示对应目标框空间坐标的k+1个多项式系数。
所述的粗略定位是指:利用关键帧选择网络对将时域定位得到的采样特征信息进行选择,得到对于最终定位最为关键时间戳对应的二维特征。
所述的关键帧选择网络包括:级联的空间均匀池化层和一维编码-解码层,其中:空间均匀池化层对采样特征信息进行空间降维处理,一维编码-解码层对降维后的采样特征进行编码-解码,得到每个采样特征的关键帧置信度。
所述的编码-解码具体是指:利用步长为2的一维卷积对一维特征进行逐次降采样,实现编码;对降采样后的特征,利用步长为2的一维反卷积操作进行升采样,实现解码,解码端输出的时间尺度与输入端一致,即采样帧个数。
所述的修正是指:根据目标分类得到的行为类别以及行为轨迹的描述参数生成粗略的行为轨迹描述,在粗略定位得到的关键帧上的粗略行为轨迹的位置,在该位置附近的领域通过局部检测得到该领域内置信度最高的行为检测框替代原本的位置,实现行为轨迹的修正。
所述的粗略行为轨迹为:
Figure BDA0002368108700000021
其中:t表示关键帧选择网络输出关键帧对应的时间戳,[x(t),y(t),w(t),h(t)]在该关键帧上粗略估计的框坐标。
所述的局部检测是指:通过级联的二维卷积网络在对应被选择的关键帧的二维特征上进行卷积操作得到对应的检测框以及置信度。
所述的二维卷积网络包括:如图3所示的由3个2D卷积模块级联后分别由两路并行的卷积操作输出置信度以及回归坐标的结构。
所述的行为检测结果,优选进一步经过样条插值,得到对应行为轨迹的稠密表示。
本发明涉及一种用于中短时视频的从粗到细的行为快速检测与分类系统,包括:时空联合特征提取单元、时域定位单元、粗略定位单元和修正单元,其中:时空联合特征提取单元与时域定位单元相连并传输时空联合特征信息,时域定位单元与粗定位单元以及修正单元相连并传输采样特征信息,粗略定位单元对原采样特征及差分特征同时处理得到行为的类别与轨迹描述参数,实现目标行为的粗略定位并输出至修正单元,修正单元利用粗略定位以及选择的关键帧,细化修正坐标框得到轨迹描述信息。
所述的粗略定位单元将时域定位得到的采样特征信息进行时域差分处理,将原采样特征信息以及时域差分处理后的残差结果进行全局目标检测,得到行为类别以及行为轨迹的描述参数。
所述的修正单元利用空间池化-编码-解码的级联结构对每一帧采样特征进行权重评估,通过选取权重较大的关键帧,在对应的采样二维特征上利用二维卷积模块输出修正后的目标框及置信度。
技术效果
本发明整体解决了从中短时(6s-15s)的视频中,快速定位出目标行为在时空坐标下的位置的技术空白。
与现有技术相比,本发明技术效果包括:
1、本发明利用参数建模的方式,将粗略的行为轨迹估计用带参数的时间函数进行表示,避免了逐帧表示时稠密检测和链接的必要性,提高了视频行为检测的效率,同时在行为识别模块中引入了三维特征的时域残差分量作为辅助信息,有效提高了行为识别和定位的精确度。
2、本发明通过重采样输入避免了稠密冗余的中间帧检测。同时后级的局部检测网络只需要在行为选择网络选择的关键帧上进行细化即可得到最终结果,这种关键帧选择的机制进一步避免了冗余检测的可能性,提高了网络效率。
3、本发明基于粗略轨迹进行局部搜索的方法降低了局部检测器的搜索空间,提高了效率的同时降低了误捡噪声干扰的可能性。
附图说明
图1为本发明的流程图;
图2为全局检测器结构示意图;
图3为局部检测器结构示意图;
图4为关键帧选择网络结构示意图。
具体实施方式
如图1所示,为本实施例涉及一种用于中短时视频的从粗到细的行为快速检测与分类方法,具体步骤如下:
A:对输入视频流进行重采样,使得输入视频保持固定的帧数用于后级的行为检测与分类。
所述的对输入视频流重采样是指:对输入视频进行降采样或补中间帧,使其输入长度为本实施例中的固定长度Ti=96。对于采样系数不为整数的情况,采用双线性插值的方法得到中间采样帧。
B、将步骤A中得到的重采样视频进行时空联合的特征提取,得到三维特征图。
所述的时空联合的特征提取是指:利用三维卷积神经网络对固定帧数的输入视频进行卷积,卷积的最终输出为三维网格,每个网格中包含一个固定维度的高维特征向量来描述局部时空关系。在本实施例中,采用Carriar等人提出的I3D三维网络作为特征提取器提取三维特征。
C、对步骤B中得到的三维特征进行进一步处理,通过空间平均池化操作得到一维特征,并通过时域检测器得到在一维特征上得到时域的检测结果。
在本实施例中,空间池化操作指采用空间平均池化的方式将三维特征降为一维特征,
Figure BDA0002368108700000041
其中:F三维为输入的三维特征,F一为输出的一维特征,H,W为三维特征空间尺度,(x,y,t)为特征网格的时空坐标。
所述的时域检测是指:利用一层一维卷积神经网络对池化得到的一维特征进行卷积,输出对应位置存在行为的概率p,归一化的起始时间s,终止时间e。
D、利用步骤C中得到的时域检测结果,在步骤B得到的三维特征图上的对应时间区间中进行均匀采样,得到稀疏采样后的二维空间特征。
在本实施例中,采用
Figure BDA0002368108700000042
对原三维特征在时域区间(s,e)进行均匀采样,其中:/>
Figure BDA0002368108700000043
为第n个采样点出得到的二维空间特征。同时,在本实施例中,为了防止过多采样点数的带来冗余采样和过高的计算复杂度,最大采样点数被限制为Nm=16,即1≤n≤Nm=12。
E、对步骤D中稀疏采样得到的二维特征进行时域差分处理,将原特征以及差分残差结果送入全局目标检测器中进行检测,得到行为类别以及行为轨迹的描述参数。
在本实施例中,时域差分处理指采用
Figure BDA0002368108700000044
对采样后的二维特征进行后相差分得到残差值R(x,y),所述的全局检测器指如图2所示的三维卷积以HeKaiming等人提出的NonLocal模块级联所形成的运算结构,该结构在输出端输出每个像素位置可能存在行为类别c,以及其对应的描述参数。
在本实施例中,行为轨迹的四个坐标x(t),y(t),w(t),h(t),即中心位置与宽高表示为带参数的k阶多项式表述,
Figure BDA0002368108700000051
其中:描述参数θ表示为一个4×(k+1)规模的矩阵,k=4,矩阵每一列(θx,θy,θw,θh)表示对应坐标的k+1个多项式系数矩阵中的参数均由之前提及的全局检测器预测。
F、利用关键帧选择网络对步骤D中稀疏采样得到的二维特征进行选择,得到对于最终定位最为关键时间戳对应的二维特征。
如图4所示,所述的关键帧选择网络包括空间均匀池化操作以及一维编码-解码的级联结构,在本实施例中,该网络对第n个采样得到的二维特征及其对应的时间戳tn进行二分类,判断其是否是关键帧并且输出一个关键帧的置信度μn,并且将μn≥0.25的时间戳对应的二维特征选择为关键帧。
G、利用步骤E得到的轨迹描述参数生成粗略的行为轨迹描述,并利用步骤F选择的关键帧时间戳,得到粗略行为轨迹在关键帧上的位置,在该位置附近的领域通过局部检测器检测出该领域内置信度最高的行为检测框替代原本的位置,实现行为轨迹的细化与修正。
在本实施例中,所述的粗略行为轨迹在关键帧上的位置是指:将关键帧对应的时间戳μn带入行为轨迹方程中,从而得到在该关键帧上粗略估计的行为位置坐标[x(μn),y(μn),w(μn),h(μn)]。
所述的该位置附近的领域指二维搜索空间Ω=[x(μn)-σw(μn),x(μn)+σw(μn)]×[y(μn)-σh(μn),y(μn)+σh(μn)]
所述的局部检测器指如图3所示的级联二维卷积网络,通过在Ω所确定的二维区域内进行卷积预测得到领域内可能存在的行为目标框坐标
Figure BDA0002368108700000052
及其置信度,选取置信度最大的检测框,用其坐标替代原始的估计坐标[x(μn),y(μn),w(μn),h(μn)]从而实现行为轨迹的修正。
最后将所有关键帧上得到的修正后的检测框
Figure BDA0002368108700000053
的各个坐标之间进行三次样条插值得到对应行为轨迹的稠密表示。
经过具体实际实验,在Ubuntu16.04操作系统,并装配CUDA9.0库,测试数据集采用UCF101-24的具体环境设置下,运行上述装置/方法,能够得到的实验数据是:mAP准确率79.30%,同时平均每一帧的处理时间仅为7.6毫秒。
与现有技术相比,本方法采用了时空联合特征提取方法,增强了模型的表征能力,相比目前发表的最优算法提升了8.3%;采用了参数化建模的方式再到细化修正的从粗到细的检测方法,避免了逐帧检测的冗余与干扰,实现了7.6毫秒/帧的处理速度,是目前主流方法中运行最快的解决方案。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (8)

1.一种用于中短时视频的从粗到细的行为快速检测与分类方法,其特征在于,通过对原视频重采样后进行时空联合的特征提取,在此基础上进行时域定位;然后根据时域定位得到的采样特征信息进行目标分类以及粗略定位,根据目标分类得到的行为类别以及行为轨迹的描述参数对粗略定位得到的行为轨迹在关键帧上依次进行修正,得到行为检测结果,从而实现行为目标的快速检测;
所述的目标分类是指:将时域定位得到的采样特征信息进行时域差分处理,将原采样特征信息以及时域差分处理后的残差结果相加后进行时域池化,使三维特征变成二维特征,得到行为类别以及行为轨迹的描述参数;
行为类别的描述参数为:c∈[0,1]K,类别描述为一个归一化的K为向量,K为总类别数量,每一维的数值代表属于该行为类别的置信度;
行为轨迹的描述参数为:θ=[θx,θy,θw,θh]T,其中:θ表示为一个4×(k+1)规模的矩阵,k=4为多项式阶数,矩阵每一列(θx,θy,θw,θh)表示对应目标框空间坐标的k+1个多项式系数;
所述的粗略定位是指:利用关键帧选择网络对将时域定位得到的采样特征信息进行选择,得到对于最终定位最为关键时间戳对应的二维特征。
2.根据权利要求1所述的方法,其特征是,所述的时空联合的特征提取是指:利用三维卷积神经网络对固定帧数的输入视频进行卷积,卷积的最终输出为三维网格,每个网格中包含一个固定维度的高维特征向量来描述局部时空关系;
所述的高维特征向量为:F∈RC×T×H×W,其中:F为高位特征向量构成的网格;T、H、W分别为网格的时间尺度、高度和宽度;c为向量维度。
3.根据权利要求1所述的方法,其特征是,所述的时域定位是指:对三维网格进行空间平均池化得到一维特征,并通过时域检测得到在对应位置存在行为的概率和起止区间的相对坐标,再在三维网格上的对应起止区间的相对坐标中进行均匀采样,得到稀疏采样后的二维空间特征;
所述的时域检测是指:利用一层一维卷积神经网络对池化得到的一维特征进行卷积,输出对应位置存在行为的概率和起止区间的相对坐标。
4.根据权利要求1所述的方法,其特征是,所述的关键帧选择网络包括:级联的空间均匀池化层和一维编码-解码层,其中:空间均匀池化层对采样特征信息进行空间降维处理,一维编码-解码层对降维后的采样特征进行编码-解码,得到每个采样特征的关键帧置信度;
所述的编码-解码具体是指:利用步长为2的一维卷积对一维特征进行逐次降采样,实现编码;对降采样后的特征,利用步长为2的一维反卷积操作进行升采样,实现解码,解码端输出的时间尺度与输入端一致,即采样帧个数。
5.根据权利要求1所述的方法,其特征是,所述的修正是指:根据目标分类得到的行为类别以及行为轨迹的描述参数生成粗略的行为轨迹描述,在粗略定位得到的关键帧上的粗略行为轨迹的位置,在该位置附近的领域通过局部检测得到该领域内置信度最高的行为检测框替代原本的位置,实现行为轨迹的修正。
6.根据权利要求5所述的方法,其特征是,所述的粗略行为轨迹为:
Figure FDA0004146773000000021
Figure FDA0004146773000000022
其中:t表示关键帧选择网络输出关键帧对应的时间戳,[x(t),y(t),w(t),h(t)]在该关键帧上粗略估计的框坐标;
所述的局部检测是指:通过级联的二维卷积网络在对应被选择的关键帧的二维特征上进行卷积操作得到对应的检测框以及置信度。
7.一种用于中短时视频的从粗到细的行为快速检测与分类系统,其特征在于,包括:粗略定位单元对原采样特征及差分特征同时处理得到行为的类别与轨迹描述参数,实现目标行为的粗略定位并输出至修正单元,修正单元利用粗略定位以及选择的关键帧,细化修正坐标框得到轨迹描述信息。
8.根据权利要求7所述的系统,其特征是,所述的粗略定位单元将时域定位得到的采样特征信息进行时域差分处理,将原采样特征信息以及时域差分处理后的残差结果进行全局目标检测,得到行为类别以及行为轨迹的描述参数;
所述的修正单元利用空间池化-编码-解码的级联结构对每一帧采样特征进行权重评估,通过选取权重较大的关键帧,在对应的采样二维特征上利用二维卷积模块输出修正后的目标框及置信度。
CN202010042072.8A 2020-01-15 2020-01-15 用于中短时视频的从粗到细的行为快速检测与分类方法及系统 Active CN111259790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010042072.8A CN111259790B (zh) 2020-01-15 2020-01-15 用于中短时视频的从粗到细的行为快速检测与分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010042072.8A CN111259790B (zh) 2020-01-15 2020-01-15 用于中短时视频的从粗到细的行为快速检测与分类方法及系统

Publications (2)

Publication Number Publication Date
CN111259790A CN111259790A (zh) 2020-06-09
CN111259790B true CN111259790B (zh) 2023-06-20

Family

ID=70948794

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010042072.8A Active CN111259790B (zh) 2020-01-15 2020-01-15 用于中短时视频的从粗到细的行为快速检测与分类方法及系统

Country Status (1)

Country Link
CN (1) CN111259790B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304798A (zh) * 2018-01-30 2018-07-20 北京同方软件股份有限公司 基于深度学习及运动一致性的街面秩序事件视频检测方法
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
CN109961019A (zh) * 2019-02-28 2019-07-02 华中科技大学 一种时空行为检测方法
CN110059662A (zh) * 2019-04-26 2019-07-26 山东大学 一种深度视频行为识别方法及系统
WO2019232894A1 (zh) * 2018-06-05 2019-12-12 中国石油大学(华东) 一种基于复杂场景下的人体关键点检测系统及方法
CN110688918A (zh) * 2019-09-12 2020-01-14 上海交通大学 基于长时增强特征增强及稀疏动态采样的快速行为检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108304798A (zh) * 2018-01-30 2018-07-20 北京同方软件股份有限公司 基于深度学习及运动一致性的街面秩序事件视频检测方法
WO2019232894A1 (zh) * 2018-06-05 2019-12-12 中国石油大学(华东) 一种基于复杂场景下的人体关键点检测系统及方法
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
CN109961019A (zh) * 2019-02-28 2019-07-02 华中科技大学 一种时空行为检测方法
CN110059662A (zh) * 2019-04-26 2019-07-26 山东大学 一种深度视频行为识别方法及系统
CN110688918A (zh) * 2019-09-12 2020-01-14 上海交通大学 基于长时增强特征增强及稀疏动态采样的快速行为检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Action Tubelet Detector for Spatio-Temporal Action Localization;Vicky Kalogeiton等;《2017 IEEE International Conference on Computer Vision》 *
基于视频的行人车辆检测与分类;杨阳;唐慧明;《 计算机工程》;第40卷(第11期);135-138 *

Also Published As

Publication number Publication date
CN111259790A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111291679B (zh) 一种基于孪生网络的目标特定响应注意力目标跟踪方法
CN108805015B (zh) 加权卷积自编码长短期记忆网络人群异常检测方法
CN111126359B (zh) 基于自编码器与yolo算法的高清图像小目标检测方法
CN109242884B (zh) 基于JCFNet网络的遥感视频目标跟踪方法
AU2005269310B2 (en) Apparatus and method for processing video data
CN111768388B (zh) 一种基于正样本参考的产品表面缺陷检测方法及系统
US20190346280A1 (en) Apparatuses and methods for correcting orientation information from one or more inertial sensors
CN111079683A (zh) 基于卷积神经网络的遥感图像云雪检测方法
CN110598613B (zh) 一种高速公路团雾监测方法
US11921212B2 (en) Long range lidar-based speed estimation
CN112183649A (zh) 一种用于对金字塔特征图进行预测的算法
CN115690152A (zh) 一种基于注意力机制的目标追踪方法
CN116402850A (zh) 一种面向智能驾驶的多目标跟踪方法
CN111639570A (zh) 一种基于运动模型和单目标线索的在线多目标跟踪方法
US20110200229A1 (en) Object Detecting with 1D Range Sensors
CN111259790B (zh) 用于中短时视频的从粗到细的行为快速检测与分类方法及系统
WO2005010867A1 (en) Audio-only backoff in audio-visual speech recognition system
CN110688918B (zh) 基于长时增强特征增强及稀疏动态采样的快速行为检测方法
CN111578956A (zh) 一种基于深度学习的视觉slam定位方法
CN115775214A (zh) 一种基于多阶段分形组合的点云补全方法及系统
CN113256528B (zh) 基于多尺度级联深度残差网络的低照度视频增强方法
CN114494349A (zh) 基于目标特征时空对齐的视频跟踪系统及方法
Song et al. Robofusion: Towards robust multi-modal 3d obiect detection via sam
CN113129332A (zh) 执行目标对象跟踪的方法和装置
Moons et al. Resource aware design of a deep convolutional-recurrent neural network for speech recognition through audio-visual sensor fusion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant