CN108664931A - 一种多阶段视频动作检测方法 - Google Patents

一种多阶段视频动作检测方法 Download PDF

Info

Publication number
CN108664931A
CN108664931A CN201810449678.6A CN201810449678A CN108664931A CN 108664931 A CN108664931 A CN 108664931A CN 201810449678 A CN201810449678 A CN 201810449678A CN 108664931 A CN108664931 A CN 108664931A
Authority
CN
China
Prior art keywords
segment
video
action
classification
confidence score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810449678.6A
Other languages
English (en)
Other versions
CN108664931B (zh
Inventor
王子磊
赵琰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201810449678.6A priority Critical patent/CN108664931B/zh
Publication of CN108664931A publication Critical patent/CN108664931A/zh
Application granted granted Critical
Publication of CN108664931B publication Critical patent/CN108664931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多阶段视频动作检测方法,包括:对于输入的未剪切视频通过基于深度残差网络的二分类与投票融合策略,生成融合多尺度采样与单尺度训练的粗动作片段;对于粗动作片段,基于帧级动作识别结果,采用统计融合策略进行动作类别与动作边界的联合判别,获得初步的动作检测片段;结合初步的动作检测片段之间的IoU,利用改进的非极大值抑制算法对初步的动作检测片段进行处理,最终获得未剪切视频的动作检测结果,即每个视频动作检测片段的动作类别和起止时间位置。该方法可以提高动作分类准确率,并提高动作定位精度。

Description

一种多阶段视频动作检测方法
技术领域
本发明涉及视频动作检测技术领域,尤其涉及一种多阶段视频动作检测方法。
背景技术
随着网络、多媒体技术的迅速发展,视频已经成为人们获取信息的重要载体,且视频的数量呈爆发式增长,因此视频内容的分析与理解技术至关重要。未剪切的视频通常包含多个动作实例片段和大量无关的背景片段,动作发生的位置、时间间隔、动作类别标签都是未知的。视频动作检测任务是能够识别出未剪切视频中多个动作实例的类别标签和定位动作实例发生的开始时间和结束时间,该任务作为当前视频处理技术的重要研究方向之一,广泛应用于智能监控、视频检索、人机交互等领域。近年来,随着深度学习技术的不断革新,视频动作识别任务取得了很大的进展。然而,视频动作检测领域的发展仍处于起步阶段,当前的视频动作检测方法还存在着极大的挑战,计算成本高,动作定位精确度低,急需改进以满足应用需求。
目前关于视频动作检测任务的方法相对较少,主要可分为两大类:
第一类方法是对视频帧或者视频片段进行动作分类识别,然后使用相关算法把视频帧或者视频片段进行合并或者筛选的方式得到最终的视频检测片段。
1)在专利《一种基于卷积神经网络的视频动作检测方法》中,先使用不同尺度的滑动窗口依次对未剪切视频进行分割,然后用带有时空金字塔层的卷积神经网络识别分类不同尺度的短视频片段,最后简单使用置信分数阈值筛选得到最终的视频检测片段。该方法没有对未剪切视频中大量背景片段进行筛选,而直接对不同尺度的所有短视频片段提取特征并分类识别,由于背景片段之间类内差异性大、背景片段和动作片段之间类间差异小等特点,导致动作分类网络难以学习出更有效的特征,动作分类准确率有限;同时该专利最后仅仅使用置信分数阈值对动作检测片段进行筛选,没有考虑视频检测片段之间的IoU,影响了动作定位的精确度。
2)在专利《一种基于卷积神经网络的动作检测模型》中,先使用基于光流图的Faster RCNN模型中的RPN模块得到视频每一帧中的兴趣区域,然后使用基于帧图的FasterRCNN模型和基于光流图的Faster RCNN模型分别提取视频每一帧中的兴趣区域的表征特征和动作特征,然后使用SVM分类器对视频每一帧中的兴趣区域进行分类识别,最后在视频序列上对兴趣区域使用维特比算法得到最优路径序列,即最终的动作检测片段。该方法由于涉及到视频每一帧中兴趣区域的生成,以及使用基于光流图的Faster RCNN模型,同时还要根据视频帧中的兴趣区域特征训练有效的SVM分类器,而不是使用卷积神经网络同时提取特征和分类。该算法时间复杂度太高,缺乏有效性和实用性。
第二类方法是先通过动作候选网络,排除视频中大量无关的背景干扰片段,得到动作候选片段,然后再对动作候选片段进行动作分类识别。
1)在论文《Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs》中Shou Z等人使用多尺度的滑动窗口对未剪切视频进行分割,先使用候选分类网络筛选出候选动作片段,再使用3D CNN网络来实现视频片段的动作分类。但是由于候选分类网络要求网络输入的视频片段的时间长度一致,该方法通过控制下采样的频率来获取不同时间长度的视频片段,然而使用同一个网络结构训练利用不同采样频率得到的视频片段会导致类内的差异性增加,动作内的连续性遭到破坏,从而使得3D CNN学习不到较好的运动特征,增加网络训练的难度。而且该方法仅仅只对视频片段的动作类别进行分类,没有实现视频片段边界的微调,从而使动作定位准确率的提升受到了限制。
发明内容
本发明的目的是提供一种多阶段视频动作检测方法,可以提高动作分类准确率,并提高动作定位精度。
本发明的目的是通过以下技术方案实现的:
一种多阶段视频动作检测方法,包括:
对于输入的未剪切视频通过基于深度残差网络的二分类与投票融合策略,生成融合多尺度采样与单尺度训练的粗动作片段;
对于粗动作片段,基于帧级动作识别结果,采用统计融合策略进行动作类别与动作边界的联合判别,获得初步的动作检测片段;
结合初步的动作检测片段之间的IoU,利用改进的非极大值抑制算法对初步的动作检测片段进行处理,最终获得未剪切视频的动作检测结果,即每个视频动作检测片段的动作类别和起止时间位置。
由上述本发明提供的技术方案可以看出,1)采用性能更优的三维深度残差网络作为分类网络,同时训练过程中使用融合多尺度和单尺度的两级采样生成固定尺度的训练样本,有效避免了多尺度样本导致的运动特征难以学习、准确率低等问题,能够更加精确地生成视频粗动作片段。2)利用帧级动作识别结果,采用统计融合策略实现了视频片段动作类别与动作边界的联合判别,提高了动作分类的准确度和动作边界定位的精确度。3)使用了改进的非极大值抑制,同时考虑了待处理动作片段的置信分数以及它与已保留动作片段之间的IoU,能够进一步改善动作检测结果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的多阶段视频动作检测方法的流程图;
图2为本发明实施例提供的为生成融合多尺度采样与单尺度训练的粗动作片段的流程图;
图3为本发明实施例提供的帧级动作识别过程示意图;
图4为本发明实施例提供的基于高斯分布的统计融合策略示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种多阶段视频动作检测方法,如图1所示,其主要包括如下三个步骤:
一、对于输入的未剪切视频通过基于深度残差网络的二分类与投票融合策略,生成融合多尺度采样与单尺度训练的粗动作片段。
如图2所示,为生成融合多尺度采样与单尺度训练的粗动作片段的流程图,主要包括如下三个步骤:
1、针对输入的未剪切视频,通过融合多尺度和单尺度的两级采样分别获得多尺度视频片段集合和单尺度视频片段集合。
本发明实施例中,依次使用多个不同时间尺度且重叠率相同的滑动窗口对未剪切视频进行采样,生成多尺度视频片段集合。示例性的,可以将时间尺度设置为Lc={32,64,128,256,512}。
在多尺度视频片段上,使用单一固定时间尺度且重叠率相同的滑动窗口进行采样,生成单尺度的视频片段集合。示例性的,可以设定单一固定时间尺度Lf=16。
之后,可以将所有单尺度视频片段的大小统一为L*W*H,并作为三维深度残差网络的输入,用来训练能区分视频动作片段和背景片段的二分类网络模型。示例性的,L*W*H可以设为16*171*128。
2、针对单尺度视频片段集合,进行基于深度残差网络的二分类,即判断每一单尺度视频片段是否属于动作,从而筛选出单尺度的粗动作片段。
本发明实施例中,使用和训练样本同样的生成方式生成计算样本,即单尺度视频片段。
再将单尺度视频片段输入到预先训练好的基于三维深度残差网络的二分类模型,得到所有单尺度视频片段属于动作的置信分数;
根据置信分数判断相应的单尺度视频片段是否属于动作,从而筛选出单尺度的粗动作片段。
3、对于多尺度视频片段集合,采用投票融合策略判别每一多尺度视频片段是否属于动作,从而获得多尺度的粗动作片段。
本发明实施例中,针对当前多尺度视频片段,假设其生成L个单尺度视频片段为a1,a2,…,aL,通过基于深度残差网络的二分类获得每一个单尺度视频片段对应的置信分数其中的为第l个单尺度视频片段第p类置信分数,第1类、第2类分别对应为视频动作类、背景类;依据置信分数判别每个单尺度视频片段是否属于动作,当属于动作的单尺度视频片段超过设定值(例如,L/2),则判定当前多尺度视频片段属于动作;否则判定为背景类别,将不再处理。
二、对于粗动作片段,基于帧级动作识别结果,采用统计融合策略进行动作类别与动作边界的联合判别,获得初步的动作检测片段。
本步骤主要包括如下两个部分:
1、对于粗动作片段,采用帧级动作识别方法预测粗动作片段中每一个视频帧的动作类别,获得对应多类别的置信分数向量。
将单个粗动作片段或者单个粗动作片段中每一个视频帧的图片信息和光流信息,输入到预先训练好的卷积反卷积网络或者双流卷积神经网络的输入层;然后,进行网络前向传播,从而得到所有视频帧对应多类别的置信分数向量其中,K表示单个粗动作片段中视频帧的数量,C表示动作类别的数量;第k个视频帧第i个动作类别的置信分数为
以双流卷积神经网络为例。如图3所示,提取单个粗动作片段中每一个视频帧的图片信息和光流信息,分别输入到预先训练好的双流卷积神经网络的输入层;然后,进行网络前向传播后得到所有视频帧对应多类别的置信分数向量。
2、针对单个粗动作片段,结合其对应的多类别的置信分数向量,采用统计融合策略同时判别单个粗动作片段的动作类别和动作边界,从而获得初步的动作检测片段。
如图4所示,针对单个粗动作片段的所有视频帧对应多类别的置信分数向量,采用高斯密度估计拟合每一动作类别(即,每一维)对应的置信分数的分布,获得对应的均值和方差;其中,第i个动作类别对应的均值和方差记为μi和σi
针对第i个动作类别,找出视频帧序列中第一个和最后一个连续M帧置信分数大于阈值μii的帧位置;将第一个连续M帧位置的首帧作为第i个动作类别的起始帧,将最后一个连续M帧位置的未帧作为第i个动作类别的结束帧;
计算每个动作类别起始帧和结束帧之间的平均置信分数,取平均置信分数最大的动作类别为相应粗动作片段的类别,动作边界为相应动作类别对应的起始帧和结束帧,类别置信分数为对应的起始帧和结束帧之间的平均置信分数,最终实现粗动作片段动作类别和动作边界的联合判别,从而获得初步的动作检测片段。
本发明实施例中,所述初步的动作检测片段包含了不同视频编号的动作检测片段,以及同一视频编号的不同动作检测片段。
示例性的,如果使用双流卷积神经网络,训练样本的动作类别可以设为21类(包含背景类),即C=21,M可以设置为5。
三、结合初步的动作检测片段之间的IoU(Intersection-over-Union,交并比),利用改进的非极大值抑制算法对初步的动作检测片段进行处理,最终获得未剪切视频的动作检测结果,即每个视频动作检测片段的动作类别和起止时间位置。
本领域技术人员可以理解,IoU是指两个动作检测片段的交集除以并集。
经过上述的对粗动作片段的动作类别和动作边界的联合判别,生成了大量的动作类别、开始位置、结束位置已知的初步的动作检测片段。为了去除高度重合冗余的视频动作检测片段,本发明提出了使用改进的非极大值抑制算法。
首先,按照同一个视频编号同一个动作类别的标准将初步获得的动作检测片段分成不同的动作检测片段集合;
然后,设置两个阈值t1,t2(1≥t1≥t2≥0);
针对任一动作检测片段集合,按置信分数从高到低进行排序,保留置信分数最高的动作片段,然后依次处理剩余动作片段;计算每一剩余动作片段与已保留动作片段的IoU,当IoU>t1时,删除相应剩余动作片段;当t2≤IoU≤t1时,依据IoU大小降低相应剩余动作片段的置信分数;当IoU<t2时,相应剩余动作片段的置信分数不变;保留通过上述处理后的剩余动作片段中置信分数最高动作片段;重复上述过程,直到动作检测片段集合中所有的动作片段都已经处理,也即动作片段被删除或者被保留,直到没有一个剩余动作片段;
迭代上述过程,直至所有动作检测片段集合都完成上述过程后,得到未剪切视频的动作检测结果。
本发明实施例中,当t2≤IoU≤t1时,置信分数的降低使用高斯加权的方式,公式如下:
其中,su、su'为剩余动作片段u降低前、后的置信分数;E为当前置信分数最高的动作片段;iou(E,u)表示剩余动作片段u与当前置信分数最高的动作片段E之间的IoU,iou(E,u)越大,则剩余动作片段u的置信分数下降的越多;σ为高斯分布的标准差,可以设置为0.5。
示例性的,当在计算视频动作检测评价指标mAP时的交并比阈值设置为0.5时,t1=0.5,t2=0.2。
本发明实施例上述方案相对于现有技术而言主要具有如下优点:
1)采用性能更优的三维深度残差网络作为分类网络,同时训练过程中使用融合多尺度和单尺度的两级采样生成固定尺度的训练样本,有效避免了多尺度样本导致的运动特征难以学习、准确率低等问题,能够更加精确地生成视频粗动作片段。
2)利用帧级动作识别结果,采用统计融合策略实现了视频片段动作类别与动作边界的联合判别,提高了动作分类的准确度和动作边界定位的精确度。
3)使用了改进的非极大值抑制,同时考虑了待处理动作片段的置信分数以及它与已保留动作片段之间的IoU,能够进一步改善动作检测结果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种多阶段视频动作检测方法,其特征在于,包括:
对于输入的未剪切视频通过基于深度残差网络的二分类与投票融合策略,生成融合多尺度采样与单尺度训练的粗动作片段;
对于粗动作片段,基于帧级动作识别结果,采用统计融合策略进行动作类别与动作边界的联合判别,获得初步的动作检测片段;
结合初步的动作检测片段之间的IoU,利用改进的非极大值抑制算法对初步的动作检测片段进行处理,最终获得未剪切视频的动作检测结果,即每个视频动作检测片段的动作类别和起止时间位置。
2.根据权利要求1所述的一种多阶段视频动作检测方法,其特征在于,所述对于输入的未剪切视频通过基于深度残差网络的二分类与投票融合策略,生成融合多尺度采样与单尺度训练的粗动作片段包括:
针对输入的未剪切视频,通过融合多尺度和单尺度的两级采样分别获得多尺度视频片段集合和单尺度视频片段集合;
针对单尺度视频片段集合,进行基于深度残差网络的二分类,即判断每一单尺度视频片段是否属于动作,从而筛选出单尺度的粗动作片段;
对于多尺度视频片段集合,采用投票融合策略判别每一多尺度视频片段是否属于动作,从而获得多尺度的粗动作片段。
3.根据权利要求2所述的一种多阶段视频动作检测方法,其特征在于,所述融合多尺度和单尺度的两级采样包括:
依次使用多个不同时间尺度且重叠率相同的滑动窗口对未剪切视频进行采样,生成多尺度视频片段集合;
在多尺度视频片段上,使用单一固定时间尺度且重叠率相同的滑动窗口进行采样,生成单尺度的视频片段集合。
4.根据权利要求2所述的一种多阶段视频动作检测方法,其特征在于,所述针对单尺度视频片段集合,进行基于深度残差网络的二分类,即判断每一单尺度视频片段是否属于动作,从而筛选出单尺度的粗动作片段包括:
将单尺度视频片段输入到预先训练好的基于三维深度残差网络的二分类模型,得到所有单尺度视频片段属于动作的置信分数;
根据置信分数判断相应的单尺度视频片段是否属于动作,从而筛选出单尺度的粗动作片段。
5.根据权利要求2或4所述的一种多阶段视频动作检测方法,其特征在于,采用投票融合策略判别每一多尺度视频片段是否属于动作包括:
针对当前多尺度视频片段,假设其生成L个单尺度视频片段为a1,a2,…,aL,通过基于深度残差网络的二分类获得每一个单尺度视频片段对应的置信分数依据置信分数判别每个单尺度视频片段是否属于动作,当属于动作的单尺度视频片段超过设定值,则判定当前多尺度视频片段属于动作。
6.根据权利要求1所述的一种多阶段视频动作检测方法,其特征在于,所述对于粗动作片段,基于帧级动作识别结果,采用统计融合策略进行动作类别与动作边界的联合判别,获得初步的动作检测片段包括:
对于粗动作片段,采用帧级动作识别方法预测粗动作片段中每一个视频帧的动作类别,获得对应多类别的置信分数向量;然后针对单个粗动作片段,结合其对应的多类别的置信分数向量,采用统计融合策略同时判别单个粗动作片段的动作类别和动作边界,从而获得初步的动作检测片段。
7.根据权利要求6所述的一种多阶段视频动作检测方法,其特征在于,所述对于粗动作片段,采用帧级动作识别方法预测粗动作片段中每一个视频帧的动作类别,获得对应多类别的置信分数向量包括:
将单个粗动作片段或者单个粗动作片段中每一个视频帧的图片信息和光流信息,分别输入到预先训练好的卷积反卷积网络或者双流卷积神经网络的输入层;然后,进行网络前向传播,从而得到所有视频帧对应多类别的置信分数向量其中,K表示单个粗动作片段中视频帧的数量,C表示动作类别的数量;第k个视频帧第i个动作类别的置信分数为k=1,...,K,i=1,...,C。
8.根据权利要求6或7所述的一种多阶段视频动作检测方法,其特征在于,所述针对单个粗动作片段,结合其对应的多类别的置信分数向量,采用统计融合策略同时判别单个粗动作片段的动作类别和动作边界,从而获得初步的动作检测片段包括:
针对单个粗动作片段的所有视频帧对应多类别的置信分数向量,采用高斯密度估计拟合每一动作类别对应的置信分数的分布,获得对应的均值和方差;其中,第i个动作类别对应的均值和方差记为μi和σi
针对第i个动作类别,找出视频帧序列中第一个和最后一个连续M帧置信分数大于阈值μii的帧位置;将第一个连续M帧位置的首帧作为第i个动作类别的起始帧,将最后一个连续M帧位置的末帧作为第i个动作类别的结束帧;
计算每个动作类别起始帧和结束帧之间的平均置信分数,取平均置信分数最大的动作类别为相应粗动作片段的类别,动作边界为相应动作类别对应的起始帧和结束帧,类别置信分数为对应的起始帧和结束帧之间的平均置信分数,最终实现粗动作片段动作类别和动作边界的联合判别,从而获得初步的动作检测片段。
9.根据权利要求1所述的一种多阶段视频动作检测方法,其特征在于,所述结合初步的动作检测片段之间的IoU,利用改进的非极大值抑制算法对初步的动作检测片段进行处理,最终获得未剪切视频的动作检测结果包括:
所述初步的动作检测片段包含了不同视频编号的动作检测片段,以及同一视频编号的不同动作检测片段;
按照同一个视频编号同一个动作类别的标准将初步获得的动作检测片段分成不同的动作检测片段集合;
设置两个阈值t1,t2(1≥t1≥t2≥0);
针对任一动作检测片段集合,按置信分数从高到低进行排序,保留置信分数最高的动作片段,然后依次处理剩余动作片段;计算每一剩余动作片段与已保留动作片段的IoU,当IoU>t1时,删除相应剩余动作片段;当t2≤IoU≤t1时,依据IoU大小降低相应剩余动作片段的置信分数;当IoU<t2时,相应剩余动作片段的置信分数不变;保留通过上述处理后的剩余动作片段中置信分数最高动作片段;重复上述过程,直到动作检测片段集合中所有的动作片段都已经处理;
迭代上述过程,直至所有动作检测片段集合都完成上述过程后,得到未剪切视频的动作检测结果。
10.根据权利要求9所述的一种多阶段视频动作检测方法,其特征在于,当t2≤IoU≤t1时,置信分数的降低使用高斯加权的方式,公式如下:
其中,su、su'为剩余动作片段u降低前、后的置信分数;E为当前置信分数最高的动作片段,iou(E,u)表示剩余动作片段u与当前置信分数最高的动作片段E之间的IoU,σ为高斯分布的标准差。
CN201810449678.6A 2018-05-11 2018-05-11 一种多阶段视频动作检测方法 Active CN108664931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810449678.6A CN108664931B (zh) 2018-05-11 2018-05-11 一种多阶段视频动作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810449678.6A CN108664931B (zh) 2018-05-11 2018-05-11 一种多阶段视频动作检测方法

Publications (2)

Publication Number Publication Date
CN108664931A true CN108664931A (zh) 2018-10-16
CN108664931B CN108664931B (zh) 2022-03-01

Family

ID=63779289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810449678.6A Active CN108664931B (zh) 2018-05-11 2018-05-11 一种多阶段视频动作检测方法

Country Status (1)

Country Link
CN (1) CN108664931B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685144A (zh) * 2018-12-26 2019-04-26 上海众源网络有限公司 一种对视频模型做评估的方法、装置及电子设备
CN109886165A (zh) * 2019-01-23 2019-06-14 中国科学院重庆绿色智能技术研究院 一种基于运动目标检测的动作视频提取和分类方法
CN110348345A (zh) * 2019-06-28 2019-10-18 西安交通大学 一种基于动作连贯性的弱监督时序动作定位方法
CN110390315A (zh) * 2019-07-29 2019-10-29 深兰科技(上海)有限公司 一种图像处理方法及装置
CN110567457A (zh) * 2019-09-09 2019-12-13 深圳市科卫泰实业发展有限公司 一种基于冗余的惯导自检测系统
CN110602526A (zh) * 2019-09-11 2019-12-20 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备及存储介质
CN110688927A (zh) * 2019-09-20 2020-01-14 湖南大学 一种基于时序卷积建模的视频动作检测方法
CN111027377A (zh) * 2019-10-30 2020-04-17 杭州电子科技大学 一种双流神经网络时序动作定位方法
CN111126115A (zh) * 2018-11-01 2020-05-08 顺丰科技有限公司 暴力分拣行为识别方法和装置
CN111611847A (zh) * 2020-04-01 2020-09-01 杭州电子科技大学 基于尺度注意力空洞卷积网络的视频动作检测方法
CN112101253A (zh) * 2020-09-18 2020-12-18 广东机场白云信息科技有限公司 一种基于视频动作识别的民用机场地面保障状态识别方法
CN113079420A (zh) * 2020-01-03 2021-07-06 北京三星通信技术研究有限公司 视频生成方法、装置、电子设备及计算机可读存储介质
CN113468938A (zh) * 2020-07-31 2021-10-01 成都通甲优博科技有限责任公司 交通图像识别方法、装置、图像处理设备及可读存储介质
CN113810764A (zh) * 2021-08-12 2021-12-17 荣耀终端有限公司 视频编辑方法和视频编辑装置
CN114022827A (zh) * 2022-01-05 2022-02-08 阿里巴巴(中国)有限公司 产线作业管理与视频处理方法、装置、设备及存储介质
CN114339403A (zh) * 2021-12-31 2022-04-12 西安交通大学 一种视频动作片段生成方法、系统、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740773A (zh) * 2016-01-25 2016-07-06 重庆理工大学 基于深度学习和多尺度信息的行为识别方法
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN107292247A (zh) * 2017-06-05 2017-10-24 浙江理工大学 一种基于残差网络的人体行为识别方法及装置
CN107292249A (zh) * 2017-06-08 2017-10-24 深圳市唯特视科技有限公司 一种基于结构化分段网络的时间动作检测方法
CN107292913A (zh) * 2017-06-12 2017-10-24 大连海事大学 一种基于视频的多阶段摔倒检测算法
CN107886120A (zh) * 2017-11-03 2018-04-06 北京清瑞维航技术发展有限公司 用于目标检测跟踪的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740773A (zh) * 2016-01-25 2016-07-06 重庆理工大学 基于深度学习和多尺度信息的行为识别方法
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN107292247A (zh) * 2017-06-05 2017-10-24 浙江理工大学 一种基于残差网络的人体行为识别方法及装置
CN107292249A (zh) * 2017-06-08 2017-10-24 深圳市唯特视科技有限公司 一种基于结构化分段网络的时间动作检测方法
CN107292913A (zh) * 2017-06-12 2017-10-24 大连海事大学 一种基于视频的多阶段摔倒检测算法
CN107886120A (zh) * 2017-11-03 2018-04-06 北京清瑞维航技术发展有限公司 用于目标检测跟踪的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YUE ZHAO ET.AL: "Temporal Action Detection with Structured Segment Networks", 《2017 IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)》 *
ZHENG SHOU: "Convolutional-De-Convolutional Networks for Precise Temporal Action", 《 2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111126115A (zh) * 2018-11-01 2020-05-08 顺丰科技有限公司 暴力分拣行为识别方法和装置
CN111126115B (zh) * 2018-11-01 2024-06-07 顺丰科技有限公司 暴力分拣行为识别方法和装置
CN109685144A (zh) * 2018-12-26 2019-04-26 上海众源网络有限公司 一种对视频模型做评估的方法、装置及电子设备
CN109886165A (zh) * 2019-01-23 2019-06-14 中国科学院重庆绿色智能技术研究院 一种基于运动目标检测的动作视频提取和分类方法
CN110348345A (zh) * 2019-06-28 2019-10-18 西安交通大学 一种基于动作连贯性的弱监督时序动作定位方法
CN110348345B (zh) * 2019-06-28 2021-08-13 西安交通大学 一种基于动作连贯性的弱监督时序动作定位方法
CN110390315A (zh) * 2019-07-29 2019-10-29 深兰科技(上海)有限公司 一种图像处理方法及装置
CN110567457A (zh) * 2019-09-09 2019-12-13 深圳市科卫泰实业发展有限公司 一种基于冗余的惯导自检测系统
CN110567457B (zh) * 2019-09-09 2023-03-03 深圳市科卫泰实业发展有限公司 一种基于冗余的惯导自检测系统
CN110602526A (zh) * 2019-09-11 2019-12-20 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备及存储介质
CN110688927A (zh) * 2019-09-20 2020-01-14 湖南大学 一种基于时序卷积建模的视频动作检测方法
CN110688927B (zh) * 2019-09-20 2022-09-30 湖南大学 一种基于时序卷积建模的视频动作检测方法
CN111027377A (zh) * 2019-10-30 2020-04-17 杭州电子科技大学 一种双流神经网络时序动作定位方法
CN111027377B (zh) * 2019-10-30 2021-06-04 杭州电子科技大学 一种双流神经网络时序动作定位方法
CN113079420A (zh) * 2020-01-03 2021-07-06 北京三星通信技术研究有限公司 视频生成方法、装置、电子设备及计算机可读存储介质
CN111611847A (zh) * 2020-04-01 2020-09-01 杭州电子科技大学 基于尺度注意力空洞卷积网络的视频动作检测方法
CN111611847B (zh) * 2020-04-01 2021-04-30 杭州电子科技大学 基于尺度注意力空洞卷积网络的视频动作检测方法
CN113468938A (zh) * 2020-07-31 2021-10-01 成都通甲优博科技有限责任公司 交通图像识别方法、装置、图像处理设备及可读存储介质
CN112101253A (zh) * 2020-09-18 2020-12-18 广东机场白云信息科技有限公司 一种基于视频动作识别的民用机场地面保障状态识别方法
CN113810764A (zh) * 2021-08-12 2021-12-17 荣耀终端有限公司 视频编辑方法和视频编辑装置
CN114339403A (zh) * 2021-12-31 2022-04-12 西安交通大学 一种视频动作片段生成方法、系统、设备及可读存储介质
CN114339403B (zh) * 2021-12-31 2023-03-28 西安交通大学 一种视频动作片段生成方法、系统、设备及可读存储介质
CN114022827A (zh) * 2022-01-05 2022-02-08 阿里巴巴(中国)有限公司 产线作业管理与视频处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN108664931B (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN108664931A (zh) 一种多阶段视频动作检测方法
Feng et al. Exploring classification equilibrium in long-tailed object detection
CN109146921B (zh) 一种基于深度学习的行人目标跟踪方法
Jana et al. YOLO based Detection and Classification of Objects in video records
CN106529477B (zh) 基于显著轨迹和时空演化信息的视频人体行为识别方法
CN101283376B (zh) 使用轨迹分段分析的双向跟踪
CN109191497A (zh) 一种基于多种信息融合的实时在线多目标跟踪方法
CN108875816A (zh) 融合置信度准则和多样性准则的主动学习样本选择策略
JP2021530048A (ja) 多階層化目標類別方法及び装置、交通標識検出方法及び装置、機器並びに媒体
Mei et al. Hdinet: Hierarchical dual-sensor interaction network for rgbt tracking
CN104484890A (zh) 基于复合稀疏模型的视频目标跟踪方法
CN110688940A (zh) 一种快速的基于人脸检测的人脸追踪方法
CN104463916B (zh) 基于随机游走的眼动注视点测定方法
CN110110663A (zh) 一种基于人脸属性的年龄识别方法及系统
CN104680193A (zh) 基于快速相似性网络融合算法的在线目标分类方法与系统
CN116721414A (zh) 一种医学图像细胞分割与跟踪方法
Sudhakar et al. Ada-SISE: adaptive semantic input sampling for efficient explanation of convolutional neural networks
Chen et al. Refinement of Boundary Regression Using Uncertainty in Temporal Action Localization.
Ghoddoosian et al. Action duration prediction for segment-level alignment of weakly-labeled videos
CN117593794A (zh) 改进的YOLOv7-tiny模型及基于该模型的人手脸检测方法及系统
Zhang et al. A driver fatigue recognition algorithm based on spatio-temporal feature sequence
CN104331700A (zh) 基于轨迹能量扩散图的组行为识别方法
Yu et al. Sarnet: self-attention assisted ranking network for temporal action proposal generation
CN112614158B (zh) 一种采样框自适应的多特征融合在线目标跟踪方法
Wang et al. A deep learning-based method for vehicle licenseplate recognition in natural scene

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant