CN108615011A - 基于多尺度滑动窗口的非修剪视频行为识别预测方法 - Google Patents

基于多尺度滑动窗口的非修剪视频行为识别预测方法 Download PDF

Info

Publication number
CN108615011A
CN108615011A CN201810374982.9A CN201810374982A CN108615011A CN 108615011 A CN108615011 A CN 108615011A CN 201810374982 A CN201810374982 A CN 201810374982A CN 108615011 A CN108615011 A CN 108615011A
Authority
CN
China
Prior art keywords
video
prediction
window
tsn
scale
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810374982.9A
Other languages
English (en)
Other versions
CN108615011B (zh
Inventor
杨绿溪
陶文武
张珊
李春国
黄永明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201810374982.9A priority Critical patent/CN108615011B/zh
Publication of CN108615011A publication Critical patent/CN108615011A/zh
Application granted granted Critical
Publication of CN108615011B publication Critical patent/CN108615011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明针对非修剪视频中的行为识别问题,基于时间分割网络提出了一种多尺度滑动窗口集成方法。首先以固定的采样率采样出一定数量的片段,用训练好的TSN对各片段进行预测;然后以不同尺度的滑动窗口覆盖这些片段预测结果,每种尺度的各个窗口的预测结果为该窗口内的预测结果的最大值;接着,对于每个尺度各个窗口预测Top‑K池化生成该尺度窗口的预测结果;最后对来自不同窗口大小的聚合结果取平均作为整个视频的最终预测。相对于直接将剪切视频的平均池化方法应用于非剪切视频,本发明提供的多尺度滑动窗口方法可以有效定位行为位置和抑制无关背景的影响,是针对非修剪视频有效的预测方法。

Description

基于多尺度滑动窗口的非修剪视频行为识别预测方法
技术领域
本发明涉及计算机视觉技术领域,特别是涉及基于多尺度滑动窗口的非修剪视频行为识别预测方法。
背景技术
由于视频行为识别在视频监控、行为分析等领域的广泛应用,最近几年引起了学术界的广泛关注。视频中包含的图像信息和运动信息对于行为识别至关重要,一个行为识别系统性能的好坏很大程度上取决于能否充分挖掘和利用图像信息和运动信息。然而,视频的复杂性如尺度变化、视角变化和相机移动等导致提取这些信息很困难。面对这些挑战,设计出能够描述行为信息的有效特征显得至关重要。近几年来,CNN在物体、场景以及复杂事件的图片分类的应用中取得了巨大的成功。因此,很多学者开始研究CNN在基于视频的行为识别中的应用。深层次的CNN拥有比较大的容量,能够从大规模的数据集(如ImageNet)中自动学到有区分性的特征表示。然而与CNN在图片分类中的优异性能相比,深度CNN在视频行为识别中却不能带来优于人工特征的有效提升。
目前,视频行为识别中CNN的应用主要存在两个难点。第一,视频长时时序结构的描述对行为识别起着至关重要的作用,但是目前主流的CNN框架只关注图像信息和短时运动信息,缺乏提取长时时序结构信息的能力。相关文献通过固定间隔的稠密采样去提取长时时序结构信息。但是运用于较长的视频时,较大的计算开销限制了这类方法在真实环境中的应用。第二,深层CNN的训练通常需要大量的训练样本以实现最优的性能,然而由于在视频数据收集和标注上的困难,公开的行为识别数据集(如UCF101和HMDB51)在数量和多样性上都很有限。同时,在图片分类上取得显著成效的深层CNN结构当应用于行为识别时,可能面临过拟合的风险。面对上述难点,TSN行为识别框架(详见Wang L,Xiong Y,Wang Z,etal.Temporal segment networks:Towards good practices for deep actionrecognition[C]//European Conference on Computer Vision.Springer,Cham,2016:20-36.)被提出。TSN通过对视频序列的稀疏采样和聚合,可以很好的对长时时序结构进行建模。其次,TSN通过交叉模式初始化,扩增数据集等方法有效的缓解了因数据集有限而导致的训练困难问题。
TSN中现有的行为识别方法主要是针对修剪视频设计的。但是,现实场景中存在的大量视频都是非修剪的,如网络上的视频,并且手动修剪这些视频需要大量工作。每个行为实例可能只占用整个视频的一小部分,而大部分的背景可能会干扰动作识别模型的预测。为了缓解这个问题,需要对视频中的行为实例进行定位并同时避免背景视频的影响。因此,将学习的TSN行为识别模型应用于未修剪视频是一项极具挑战的任务。
为了更好的捕捉长时时序结构,Wang等人基于分割稀疏采样的新策略提出了一个简单,灵活且通用的行为识别框架TSN。TSN以视频中分割采样出的短片段序列作为输入。为了使这些采样出的视频片段在保持合理的计算成本下能够很好的表达整个视频的信息,TSN先将视频分割成相等长度的几个部分,然后从每部分中随机采样出一个短片段。针对每个短片段,TSN采用双流CNN中的时间流CNN捕捉视频动态变化信息和空间流CNN捕捉图像外观信息,为每个短片段先生成一个只针对短片段的时间流CNN和空间流CNN预测,然后采用一个聚合函数分别对所有短片段的时间流CNN和空间流CNN预测进行聚合,最后将时间流和空间流的聚合结果的加权输出作为整个视频的预测结果。整个网络以聚合后的预测分数和真实标签构造损失,迭代更新参数已完成整个网络端到端的训练过程。TSN的预测结果可以捕捉到整个视频的长时时序信息,比单一短片段的预测更加准确,并且其计算成本与视频持续时间无关。
针对修剪视频,TSN直接从每个视频中采样出多个片段,以多个片段的平均池化结果作为最终的预测。未修剪视频中行为识别的主要障碍是输入视频存在大部分不相关的内容。由于TSN模型是通过修剪行为片段进行训练的,如果直接采用修剪视频的测试方法即取多个视频片段的平均预测,未修剪视频的背景内容的预测会对最终模型的平均预测造成干扰。
发明内容
为了解决以上问题,本发明提供一种基于多尺度滑动窗口的非修剪视频行为识别预测方法,基于非修剪视频中行为位置随机和背景干扰的问题,本发明基于TSN网络提供了多尺度滑动窗口方法,可以很好的对非修剪视频中的行为进行预测,该方法可以有效定位动作位置和抑制无关背景的影响,对于非修剪视频的预测具有不错的性能,为达此目的,本发明提供基于多尺度滑动窗口的非修剪视频行为识别预测方法,具体步骤如下:
步骤1:为了覆盖行为实例可以驻留的任何位置,以固定的采样率从输入视频中采样出一些片段,这些片段经过训练好的TSN输出相应的预测分数,对于长度为M秒的视频,以1FPS的采样率将采样到M个片段{T1,...,TM},对每个片段Tm应用TSN模型,将分别获得相应的空间流或时间流预测类别分数F(Tm);
步骤2:然后,为了覆盖持续时间高度变化的行为片段,这里将一系列具有不同大小的时间滑动窗口应用于帧分数,针对M个预测分数,建立长度尺寸为l(l∈{1,2,4,8,16})的滑动时间窗口,滑动时间窗口将以0.5×l的步长滑动以覆盖M个预测分数序列;
步骤3:每种尺度各个滑动窗口中每类行为类别用窗口中各个片段的最大分数来表示,对于在第s秒开始的长度为l的时间窗口,所能覆盖的时间片段为{Ts+1,Ts+2,…,Ts+l},相应的预测分数为{F(Ts+1),F(Ts+2),…,F(Ts+l)},相应地,对于这个时间窗口的预测分数Ws ,l计算为
Ws,l=maxp∈{1,2,…,l}{F(Ts+p)};
步骤4:为了减轻背景内容的干扰,相同尺度的窗口行为识别预测分数用Top-K池化来聚合,由于其能够在抑制噪声背景的影响的同时隐式地选择具有区别性行为实例的区间,所以Top-K池化聚合模块对未修剪的视频识别非常有效,通过步骤3,我们将得到Nl个尺寸为l
时间窗口,其中l为如上式所示,在应用前面提到的top-K的时间窗口,其中K为如上式所示,应用前面提到的Top-K池化方法对这些大小为l的Nl个窗口预测分数聚合,以此聚合的分数Gl作为所有尺寸为l的窗口聚合结果,Gl的计算如下式所示;
其中,αk为是否选择的表示,值为1表示选择,反之为0表示不选;
步骤5:最后对来自不同窗口大小的聚合结果进行平均作为整个视频的最终预测,对于由不同大小尺寸l∈{1,2,4,8,16}的窗口滑动形成的5个聚合分数,最后的分数为这5个聚合分数的平均,计算如下
本发明的进一步改进,步骤1中TSN网络在修剪好的数据集上训练,然后将其对非修剪视频进行预测,其中TSN的详细步骤如下:
在原始双流CNN的基础上,TSN通过分割稀疏采样和信息聚合对视频长时时序结构进行建模,具体地,TSN以视频中分割采样出的短片段序列作为输入,为了使这些采样出的视频片段在保持合理的计算成本下能够很好的表达整个视频的信息,TSN先将视频分割成相等长度的几个部分,然后从每部分中随机采样出一个短片段,针对每个短片段,TSN采用双流CNN中的时间流CNN捕捉视频动态变化信息和空间流CNN捕捉图像外观信息,为每个短片段先生成一个只针对短片段的时间流CNN和空间流CNN预测,然后采用一个聚合函数分别对所有短片段的时间流CNN和空间流CNN预测进行聚合,最后将时间流和空间流的聚合结果的加权输出作为整个视频的预测结果,整个网络以聚合后的预测分数和真实标签构造损失,迭代更新参数已完成整个网络端到端的训练过程,TSN的预测结果可以捕捉到整个视频的长时时序结构信息,比单一短片段的预测更加准确,并且其计算成本与视频持续时间无关,形式化的说,给定一个视频V,先将它分成等长的K个部分{S1,S2,...,SK},从每个部分Sk随机采样出一个短片段Tk,然后,TSN以短片段序列(T1,T2,...,TK)为输入,对应的输出为,
TSN(T1,T2,...,TK)=H(G(F(T1,W),G(F(T2,W),...,G(F(TK,W)));
其中,函数F(Tk,W)表示作用于短片段Tk上参数为W的卷积网络,生成每个片段的预测输出,分割聚合函数G对多个短片段的预测输出进行聚合,最后预测函数H为Softmax函数,基于聚合输出预测视频分别属于每个类的概率。
本发明的进一步改进,步骤3中每个尺度的滑动窗口通过最大池化以窗口中的最大响应作为该窗口的预测值,这样可以很好的捕捉视频中可能出现的行为,最大池化即取所有片段预测值中的最大值作为聚合预测值,如下式所示,
Gi=maxk=1,2,...,KFi k
其中,Fi k为网络F(Tk,W)第i个行为类别预测值,Gi为第i个行为类别的最大池化结果,Gi关于Fi k的梯度可以简单表示为,
最大池化聚合的基本思想是为每个行为类别都选择一个最具有区分性的视频片段,从而产生对于这个类别最强的激活响应。
本发明的进一步改进,步骤4中每种尺度的滑动窗口最终聚合值通过Top-K池化选取最具区分性的窗口预测值平均值作为该种窗口的预测值,Top-K池化能够在抑制噪声背景的影响的同时隐式地选择具有区别性行为实例的区间。Top-K池化先为每个行为类别选择K个最具判别性的片段,然后将这些选定的片段预测平均值作为最终预测值,即
其中,αk为是否选择的表示,值为1表示选择,反之为0表示不选。最大池化和平均池化可以被分别视为k=1和k=K时Top-K池化的特例。类似地,可以如下式计算Gi相对于Fi k的梯度。
该聚合函数能够自适应地为不同的视频确定一个判别片段的子集。
本发明提供一种基于多尺度滑动窗口的非修剪视频行为识别预测方法,本发明提供的多尺度滑动窗口方法,首先以固定的采样率采样出一定数量的片段,用训练好的TSN对各片段进行预测;然后以不同尺度的滑动窗口覆盖这些片段预测结果,每种尺度的各个窗口的预测结果为该窗口内的预测结果的最大值;接着,对于每个尺度各个窗口预测Top-K池化生成该尺度窗口的预测结果;最后对对来自不同窗口大小的聚合结果进行投票作为整个视频的最终预测。相对于直接将剪切视频的平均池化方法应用于非剪切视频,本发明提供的多尺度滑动窗口方法可以有效定位动作位置和抑制无关背景的影响,是针对非修剪视频有效的预测方法。
附图说明
图1为本发明多尺度滑动窗口集成方法流程图。
图2为本发明多尺度滑动窗口集成方法示意图。
图3为本发明TSN网络框架示意图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明提供一种基于多尺度滑动窗口的非修剪视频行为识别预测方法,基于非修剪视频中行为位置随机和背景干扰的问题,本发明基于TSN网络提供了多尺度滑动窗口方法,可以很好的对非修剪视频中的行为进行预测,该方法可以有效定位动作位置和抑制无关背景的影响,对于非修剪视频的预测具有不错的性能。
本发明提供了一种基于针对非修剪视频的多尺度滑动窗口方法,其整体流程如图1所示,方法示意图如图2所示,包括以下步骤。
步骤1:为了覆盖行为实例可以驻留的任何位置,我们以固定的采样率(例如1FPS)从输入视频中采样出一些片段,这些片段经过训练好的TSN输出相应的预测分数。对于长度为M秒的视频,以1FPS的采样率将采样到M个片段{T1,...,TM}。对每个片段Tm应用TSN模型,我们将分别获得相应的空间流或时间流预测类别分数F(Tm)。
其中,TSN的原理描述为图3所示,在原始双流CNN的基础上,TSN通过分割稀疏采样和信息聚合对视频长时时序进行建模,可以很好的表达长时时序结构信息。具体地,TSN以视频中分割采样出的短片段序列作为输入。为了使这些采样出的视频片段在保持合理的计算成本下能够很好的表达整个视频的信息,TSN先将视频分割成相等长度的几个部分,然后从每部分中随机采样出一个短片段。针对每个短片段,TSN采用双流CNN中的时间流CNN捕捉视频动态变化信息和空间流CNN捕捉图像外观信息,为每个短片段先生成一个只针对短片段的时间流CNN和空间流CNN预测,然后采用一个聚合函数分别对所有短片段的时间流CNN和空间流CNN预测进行聚合,最后将时间流和空间流的聚合结果的加权输出作为整个视频的预测结果。整个网络以聚合后的预测分数和真实标签构造损失,迭代更新参数已完成整个网络端到端的训练过程。TSN的预测结果可以捕捉到整个视频的长时时序信息,比单一短片段的预测更加准确,并且其计算成本与视频持续时间无关。形式化的说,给定一个视频V,先将它分成等长的K个部分{S1,S2,...,SK},从每个部分Sk随机采样出一个短片段Tk。然后,TSN以短片段序列(T1,T2,...,TK)为输入,对应的输出为,
TSN(T1,T2,...,TK)=H(G(F(T1,W),G(F(T2,W),...,G(F(TK,W)));
其中,函数F(Tk,W)表示作用于短片段Tk上参数为W的卷积网络,可以生成每个片段的预测输出。分割聚合函数G对多个短片段的预测输出进行聚合。最后预测函数H为Softmax函数,基于聚合输出预测视频分别属于每个类的概率。
步骤2:然后,为了覆盖持续时间高度变化的行为片段,这里将一系列具有不同大小的时间滑动窗口应用于帧分数。针对M个预测分数,建立长度尺寸为l(l∈{1,2,4,8,16})的滑动时间窗口。滑动时间窗口将以0.5×l的步长滑动以覆盖M个预测分数序列。
步骤3:每种尺度各个滑动窗口中每类行为类别用窗口中各个片段的最大分数(即最大池化)来表示。对于在第s秒开始的长度为l的时间窗口,所能覆盖的时间片段为{Ts+1,Ts+2,…,Ts+l},相应的预测分数为{F(Ts+1),F(Ts+2),…,F(Ts+l)}。相应地,对于这个时间窗口的预测分数Ws,l可以计算为
Ws,l=maxp∈{1,2,…,l}{F(Ts+p)};
步骤4:为了减轻背景内容的干扰,相同尺度的窗口行为识别预测分数用Top-K池化来聚合。由于其能够在抑制噪声背景的影响的同时隐式地选择具有区别性行为实例的区间,所以Top-K池化聚合模块对未修剪的视频识别非常有效。通过步骤3,我们将得到Nl个尺寸为l;
(l如上式所示)的时间窗口。我们应用前面提到的top-K(K如上式所示)池化方法对这些大小为l的Nl个窗口预测分数聚合,以此聚合的分数Gl作为所有尺寸为l的窗口聚合结果,Gl的计算如下式所示。
其中,αk为是否选择的表示,值为1表示选择,反之为0表示不选。
步骤5:最后对来自不同窗口大小的聚合结果进行平均作为整个视频的最终预测。对于由不同大小尺寸l∈{1,2,4,8,16}的窗口滑动形成的5个聚合分数,最后的分数为这5个聚合分数的平均,计算如下
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。

Claims (4)

1.基于多尺度滑动窗口的非修剪视频行为识别预测方法,具体步骤如下,其特征在于:
步骤1:为了覆盖行为实例可以驻留的任何位置,以固定的采样率从输入视频中采样出一些片段,这些片段经过训练好的TSN输出相应的预测分数,对于长度为M秒的视频,以1FPS的采样率将采样到M个片段{T1,...,TM},对每个片段Tm应用TSN模型,将分别获得相应的空间流或时间流预测类别分数F(Tm);
步骤2:然后,为了覆盖持续时间高度变化的行为片段,这里将一系列具有不同大小的时间滑动窗口应用于帧分数,针对M个预测分数,建立长度尺寸为l(l∈{1,2,4,8,16})的滑动时间窗口,滑动时间窗口将以0.5×l的步长滑动以覆盖M个预测分数序列;
步骤3:每种尺度各个滑动窗口中每类行为类别用窗口中各个片段的最大分数来表示,对于在第s秒开始的长度为l的时间窗口,所能覆盖的时间片段为{Ts+1,Ts+2,…,Ts+l},相应的预测分数为{F(Ts+1),F(Ts+2),…,F(Ts+l)},相应地,对于这个时间窗口的预测分数Ws,l计算为
Ws,l=maxp∈{1,2,…,l}{F(Ts+p)};
步骤4:为了减轻背景内容的干扰,相同尺度的窗口行为识别预测分数用Top-K池化来聚合,由于其能够在抑制噪声背景的影响的同时隐式地选择具有区别性行为实例的区间,所以Top-K池化聚合模块对未修剪的视频识别非常有效,通过步骤3,我们将得到Nl个尺寸为l
时间窗口,其中l为如上式所示,在应用前面提到的top-K的时间窗口,其中K为如上式所示,应用前面提到的Top-K池化方法对这些大小为l的Nl个窗口预测分数聚合,以此聚合的分数Gl作为所有尺寸为l的窗口聚合结果,Gl的计算如下式所示;
其中,αk为是否选择的表示,值为1表示选择,反之为0表示不选;
步骤5:最后对来自不同窗口大小的聚合结果进行平均作为整个视频的最终预测,对于由不同大小尺寸l∈{1,2,4,8,16}的窗口滑动形成的5个聚合分数,最后的分数为这5个聚合分数的平均,计算如下
2.根据权利要求1所述的基于多尺度滑动窗口的非修剪视频行为识别预测方法,其特征在于:步骤1中TSN网络在修剪好的数据集上训练,然后将其对非修剪视频进行预测,其中TSN的详细步骤如下:
在原始双流CNN的基础上,TSN通过分割稀疏采样和信息聚合对视频长时时序结构进行建模,具体地,TSN以视频中分割采样出的短片段序列作为输入,为了使这些采样出的视频片段在保持合理的计算成本下能够很好的表达整个视频的信息,TSN先将视频分割成相等长度的几个部分,然后从每部分中随机采样出一个短片段,针对每个短片段,TSN采用双流CNN中的时间流CNN捕捉视频动态变化信息和空间流CNN捕捉图像外观信息,为每个短片段先生成一个只针对短片段的时间流CNN和空间流CNN预测,然后采用一个聚合函数分别对所有短片段的时间流CNN和空间流CNN预测进行聚合,最后将时间流和空间流的聚合结果的加权输出作为整个视频的预测结果,整个网络以聚合后的预测分数和真实标签构造损失,迭代更新参数已完成整个网络端到端的训练过程,TSN的预测结果可以捕捉到整个视频的长时时序结构信息,比单一短片段的预测更加准确,并且其计算成本与视频持续时间无关,形式化的说,给定一个视频V,先将它分成等长的K个部分{S1,S2,...,SK},从每个部分Sk随机采样出一个短片段Tk,然后,TSN以短片段序列(T1,T2,...,TK)为输入,对应的输出为,
TSN(T1,T2,...,TK)=H(G(F(T1,W),G(F(T2,W),...,G(F(TK,W)));
其中,函数F(Tk,W)表示作用于短片段Tk上参数为W的卷积网络,生成每个片段的预测输出,分割聚合函数G对多个短片段的预测输出进行聚合,最后预测函数H为Softmax函数,基于聚合输出预测视频分别属于每个类的概率。
3.根据权利要求1所述的基于多尺度滑动窗口的非修剪视频行为识别预测方法,其特征在于:步骤3中每个尺度的滑动窗口通过最大池化以窗口中的最大响应作为该窗口的预测值,这样可以很好的捕捉视频中可能出现的行为,最大池化即取所有片段预测值中的最大值作为聚合预测值,如下式所示,
Gi=maxk=1,2,...,KFi k
其中,Fi k为网络F(Tk,W)第i个行为类别预测值,Gi为第i个行为类别的最大池化结果,Gi关于Fi k的梯度可以简单表示为,
最大池化聚合的基本思想是为每个行为类别都选择一个最具有区分性的视频片段,从而产生对于这个类别最强的激活响应。
4.根据权利要求1所述的基于多尺度滑动窗口的非修剪视频行为识别预测方法,其特征在于:步骤4中每种尺度的滑动窗口最终聚合值通过Top-K池化选取最具区分性的窗口预测值平均值作为该种窗口的预测值,Top-K池化能够在抑制噪声背景的影响的同时隐式地选择具有区别性行为实例的区间。Top-K池化先为每个行为类别选择K个最具判别性的片段,然后将这些选定的片段预测平均值作为最终预测值,即
其中,αk为是否选择的表示,值为1表示选择,反之为0表示不选。最大池化和平均池化可以被分别视为k=1和k=K时Top-K池化的特例。类似地,可以如下式计算Gi相对于Fi k的梯度。
该聚合函数能够自适应地为不同的视频确定一个判别片段的子集。
CN201810374982.9A 2018-04-24 2018-04-24 基于多尺度滑动窗口的非修剪视频行为识别预测方法 Active CN108615011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810374982.9A CN108615011B (zh) 2018-04-24 2018-04-24 基于多尺度滑动窗口的非修剪视频行为识别预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810374982.9A CN108615011B (zh) 2018-04-24 2018-04-24 基于多尺度滑动窗口的非修剪视频行为识别预测方法

Publications (2)

Publication Number Publication Date
CN108615011A true CN108615011A (zh) 2018-10-02
CN108615011B CN108615011B (zh) 2021-10-08

Family

ID=63660561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810374982.9A Active CN108615011B (zh) 2018-04-24 2018-04-24 基于多尺度滑动窗口的非修剪视频行为识别预测方法

Country Status (1)

Country Link
CN (1) CN108615011B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109377555A (zh) * 2018-11-14 2019-02-22 江苏科技大学 自主水下机器人前景视场三维重建目标特征提取识别方法
CN109635790A (zh) * 2019-01-28 2019-04-16 杭州电子科技大学 一种基于3d卷积的行人异常行为识别方法
CN111310694A (zh) * 2020-02-26 2020-06-19 苏州猫头鹰智能科技有限公司 基于预测的低帧延迟行为识别方法
CN111860081A (zh) * 2019-04-30 2020-10-30 北京嘀嘀无限科技发展有限公司 一种时间序列信号的分类方法、装置以及电子设备
CN113484882A (zh) * 2021-06-24 2021-10-08 武汉大学 多尺度滑动窗口lstm的gnss序列预测方法及系统
CN113821682A (zh) * 2021-09-27 2021-12-21 深圳市广联智通科技有限公司 基于深度学习的多目标视频推荐方法、装置及存储介质
CN114863370A (zh) * 2022-07-08 2022-08-05 合肥中科类脑智能技术有限公司 一种复杂场景高空抛物识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027565B2 (en) * 2008-05-22 2011-09-27 Ji Zhang Method for identifying motion video/audio content
US20130046725A1 (en) * 2011-08-15 2013-02-21 Software Ag Systems and/or methods for forecasting future behavior of event streams in complex event processing (cep) environments
CN103336954A (zh) * 2013-07-08 2013-10-02 北京捷成世纪科技股份有限公司 一种视频中的台标识别方法和装置
CN107480642A (zh) * 2017-08-18 2017-12-15 深圳市唯特视科技有限公司 一种基于时域分段网络的视频动作识别方法
CN108229280A (zh) * 2017-04-20 2018-06-29 北京市商汤科技开发有限公司 时域动作检测方法和系统、电子设备、计算机存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027565B2 (en) * 2008-05-22 2011-09-27 Ji Zhang Method for identifying motion video/audio content
US20130046725A1 (en) * 2011-08-15 2013-02-21 Software Ag Systems and/or methods for forecasting future behavior of event streams in complex event processing (cep) environments
CN103336954A (zh) * 2013-07-08 2013-10-02 北京捷成世纪科技股份有限公司 一种视频中的台标识别方法和装置
CN108229280A (zh) * 2017-04-20 2018-06-29 北京市商汤科技开发有限公司 时域动作检测方法和系统、电子设备、计算机存储介质
CN107480642A (zh) * 2017-08-18 2017-12-15 深圳市唯特视科技有限公司 一种基于时域分段网络的视频动作识别方法

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109377555A (zh) * 2018-11-14 2019-02-22 江苏科技大学 自主水下机器人前景视场三维重建目标特征提取识别方法
CN109377555B (zh) * 2018-11-14 2023-07-25 江苏科技大学 自主水下机器人前景视场三维重建目标特征提取识别方法
CN109635790A (zh) * 2019-01-28 2019-04-16 杭州电子科技大学 一种基于3d卷积的行人异常行为识别方法
CN111860081A (zh) * 2019-04-30 2020-10-30 北京嘀嘀无限科技发展有限公司 一种时间序列信号的分类方法、装置以及电子设备
CN111860081B (zh) * 2019-04-30 2024-08-02 北京嘀嘀无限科技发展有限公司 一种时间序列信号的分类方法、装置以及电子设备
CN111310694A (zh) * 2020-02-26 2020-06-19 苏州猫头鹰智能科技有限公司 基于预测的低帧延迟行为识别方法
CN111310694B (zh) * 2020-02-26 2023-07-14 苏州猫头鹰智能科技有限公司 基于预测的低帧延迟行为识别方法
CN113484882A (zh) * 2021-06-24 2021-10-08 武汉大学 多尺度滑动窗口lstm的gnss序列预测方法及系统
CN113821682A (zh) * 2021-09-27 2021-12-21 深圳市广联智通科技有限公司 基于深度学习的多目标视频推荐方法、装置及存储介质
CN113821682B (zh) * 2021-09-27 2023-11-28 深圳市广联智通科技有限公司 基于深度学习的多目标视频推荐方法、装置及存储介质
CN114863370A (zh) * 2022-07-08 2022-08-05 合肥中科类脑智能技术有限公司 一种复杂场景高空抛物识别方法及系统

Also Published As

Publication number Publication date
CN108615011B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
CN108615011A (zh) 基于多尺度滑动窗口的非修剪视频行为识别预测方法
CN110020623B (zh) 基于条件变分自编码器的人体活动识别系统及方法
CN108399380A (zh) 一种基于三维卷积和Faster RCNN的视频动作检测方法
CN105138953B (zh) 一种基于连续的多实例学习的视频中动作识别的方法
CN104408760B (zh) 一种基于双目视觉的高精度虚拟装配系统算法
CN108108699A (zh) 融合深度神经网络模型和二进制哈希的人体动作识别方法
CN110427807A (zh) 一种时序事件动作检测方法
CN109271876B (zh) 基于时间演化建模和多示例学习的视频动作检测方法
CN105740773A (zh) 基于深度学习和多尺度信息的行为识别方法
CN113408328B (zh) 基于毫米波雷达的手势分割与识别算法
KR20080066671A (ko) 궤적 구간 분석을 사용한 양방향 추적
CN107918772B (zh) 基于压缩感知理论和gcForest的目标跟踪方法
CN110188654B (zh) 一种基于移动未裁剪网络的视频行为识别方法
CN107146237A (zh) 一种基于在线状态学习与估计的目标跟踪方法
Li et al. Pitaya detection in orchards using the MobileNet-YOLO model
CN106815563B (zh) 一种基于人体表观结构的人群数量预测方法
CN117152788B (zh) 基于知识蒸馏与多任务自监督学习的骨架行为识别方法
CN112131944B (zh) 一种视频行为识别方法及系统
CN109829936A (zh) 一种目标追踪的方法及设备
CN104077742A (zh) 基于Gabor特征的人脸素描合成方法及系统
CN118070049A (zh) 一种机理引导下的阶跃型滑坡位移预测方法及系统
CN112433249B (zh) 层位追踪方法及装置、计算机设备及计算机可读存储介质
CN112200831B (zh) 一种基于动态模板的密集连接孪生神经网络目标跟踪方法
CN109859244B (zh) 一种基于卷积稀疏滤波的视觉跟踪方法
CN102663453B (zh) 基于第二代条带波变换和极速学习机的人体运动跟踪方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant