CN108664931B - 一种多阶段视频动作检测方法 - Google Patents

一种多阶段视频动作检测方法 Download PDF

Info

Publication number
CN108664931B
CN108664931B CN201810449678.6A CN201810449678A CN108664931B CN 108664931 B CN108664931 B CN 108664931B CN 201810449678 A CN201810449678 A CN 201810449678A CN 108664931 B CN108664931 B CN 108664931B
Authority
CN
China
Prior art keywords
action
video
scale
segment
confidence score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810449678.6A
Other languages
English (en)
Other versions
CN108664931A (zh
Inventor
王子磊
赵琰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201810449678.6A priority Critical patent/CN108664931B/zh
Publication of CN108664931A publication Critical patent/CN108664931A/zh
Application granted granted Critical
Publication of CN108664931B publication Critical patent/CN108664931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多阶段视频动作检测方法,包括:对于输入的未剪切视频通过基于深度残差网络的二分类与投票融合策略,生成融合多尺度采样与单尺度训练的粗动作片段;对于粗动作片段,基于帧级动作识别结果,采用统计融合策略进行动作类别与动作边界的联合判别,获得初步的动作检测片段;结合初步的动作检测片段之间的IoU,利用改进的非极大值抑制算法对初步的动作检测片段进行处理,最终获得未剪切视频的动作检测结果,即每个视频动作检测片段的动作类别和起止时间位置。该方法可以提高动作分类准确率,并提高动作定位精度。

Description

一种多阶段视频动作检测方法
技术领域
本发明涉及视频动作检测技术领域,尤其涉及一种多阶段视频动作检测方法。
背景技术
随着网络、多媒体技术的迅速发展,视频已经成为人们获取信息的重要载体,且视频的数量呈爆发式增长,因此视频内容的分析与理解技术至关重要。未剪切的视频通常包含多个动作实例片段和大量无关的背景片段,动作发生的位置、时间间隔、动作类别标签都是未知的。视频动作检测任务是能够识别出未剪切视频中多个动作实例的类别标签和定位动作实例发生的开始时间和结束时间,该任务作为当前视频处理技术的重要研究方向之一,广泛应用于智能监控、视频检索、人机交互等领域。近年来,随着深度学习技术的不断革新,视频动作识别任务取得了很大的进展。然而,视频动作检测领域的发展仍处于起步阶段,当前的视频动作检测方法还存在着极大的挑战,计算成本高,动作定位精确度低,急需改进以满足应用需求。
目前关于视频动作检测任务的方法相对较少,主要可分为两大类:
第一类方法是对视频帧或者视频片段进行动作分类识别,然后使用相关算法把视频帧或者视频片段进行合并或者筛选的方式得到最终的视频检测片段。
1)在专利《一种基于卷积神经网络的视频动作检测方法》中,先使用不同尺度的滑动窗口依次对未剪切视频进行分割,然后用带有时空金字塔层的卷积神经网络识别分类不同尺度的短视频片段,最后简单使用置信分数阈值筛选得到最终的视频检测片段。该方法没有对未剪切视频中大量背景片段进行筛选,而直接对不同尺度的所有短视频片段提取特征并分类识别,由于背景片段之间类内差异性大、背景片段和动作片段之间类间差异小等特点,导致动作分类网络难以学习出更有效的特征,动作分类准确率有限;同时该专利最后仅仅使用置信分数阈值对动作检测片段进行筛选,没有考虑视频检测片段之间的IoU,影响了动作定位的精确度。
2)在专利《一种基于卷积神经网络的动作检测模型》中,先使用基于光流图的Faster RCNN模型中的RPN模块得到视频每一帧中的兴趣区域,然后使用基于帧图的FasterRCNN模型和基于光流图的Faster RCNN模型分别提取视频每一帧中的兴趣区域的表征特征和动作特征,然后使用SVM分类器对视频每一帧中的兴趣区域进行分类识别,最后在视频序列上对兴趣区域使用维特比算法得到最优路径序列,即最终的动作检测片段。该方法由于涉及到视频每一帧中兴趣区域的生成,以及使用基于光流图的Faster RCNN模型,同时还要根据视频帧中的兴趣区域特征训练有效的SVM分类器,而不是使用卷积神经网络同时提取特征和分类。该算法时间复杂度太高,缺乏有效性和实用性。
第二类方法是先通过动作候选网络,排除视频中大量无关的背景干扰片段,得到动作候选片段,然后再对动作候选片段进行动作分类识别。
1)在论文《Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs》中Shou Z等人使用多尺度的滑动窗口对未剪切视频进行分割,先使用候选分类网络筛选出候选动作片段,再使用3D CNN网络来实现视频片段的动作分类。但是由于候选分类网络要求网络输入的视频片段的时间长度一致,该方法通过控制下采样的频率来获取不同时间长度的视频片段,然而使用同一个网络结构训练利用不同采样频率得到的视频片段会导致类内的差异性增加,动作内的连续性遭到破坏,从而使得3D CNN学习不到较好的运动特征,增加网络训练的难度。而且该方法仅仅只对视频片段的动作类别进行分类,没有实现视频片段边界的微调,从而使动作定位准确率的提升受到了限制。
发明内容
本发明的目的是提供一种多阶段视频动作检测方法,可以提高动作分类准确率,并提高动作定位精度。
本发明的目的是通过以下技术方案实现的:
一种多阶段视频动作检测方法,包括:
对于输入的未剪切视频通过基于深度残差网络的二分类与投票融合策略,生成融合多尺度采样与单尺度训练的粗动作片段;
对于粗动作片段,基于帧级动作识别结果,采用统计融合策略进行动作类别与动作边界的联合判别,获得初步的动作检测片段;
结合初步的动作检测片段之间的IoU,利用改进的非极大值抑制算法对初步的动作检测片段进行处理,最终获得未剪切视频的动作检测结果,即每个视频动作检测片段的动作类别和起止时间位置。
由上述本发明提供的技术方案可以看出,1)采用性能更优的三维深度残差网络作为分类网络,同时训练过程中使用融合多尺度和单尺度的两级采样生成固定尺度的训练样本,有效避免了多尺度样本导致的运动特征难以学习、准确率低等问题,能够更加精确地生成视频粗动作片段。2)利用帧级动作识别结果,采用统计融合策略实现了视频片段动作类别与动作边界的联合判别,提高了动作分类的准确度和动作边界定位的精确度。3)使用了改进的非极大值抑制,同时考虑了待处理动作片段的置信分数以及它与已保留动作片段之间的IoU,能够进一步改善动作检测结果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的多阶段视频动作检测方法的流程图;
图2为本发明实施例提供的为生成融合多尺度采样与单尺度训练的粗动作片段的流程图;
图3为本发明实施例提供的帧级动作识别过程示意图;
图4为本发明实施例提供的基于高斯分布的统计融合策略示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种多阶段视频动作检测方法,如图1所示,其主要包括如下三个步骤:
一、对于输入的未剪切视频通过基于深度残差网络的二分类与投票融合策略,生成融合多尺度采样与单尺度训练的粗动作片段。
如图2所示,为生成融合多尺度采样与单尺度训练的粗动作片段的流程图,主要包括如下三个步骤:
1、针对输入的未剪切视频,通过融合多尺度和单尺度的两级采样分别获得多尺度视频片段集合和单尺度视频片段集合。
本发明实施例中,依次使用多个不同时间尺度且重叠率相同的滑动窗口对未剪切视频进行采样,生成多尺度视频片段集合。示例性的,可以将时间尺度设置为Lc={32,64,128,256,512}。
在多尺度视频片段上,使用单一固定时间尺度且重叠率相同的滑动窗口进行采样,生成单尺度的视频片段集合。示例性的,可以设定单一固定时间尺度Lf=16。
之后,可以将所有单尺度视频片段的大小统一为L*W*H,并作为三维深度残差网络的输入,用来训练能区分视频动作片段和背景片段的二分类网络模型。示例性的,L*W*H可以设为16*171*128。
2、针对单尺度视频片段集合,进行基于深度残差网络的二分类,即判断每一单尺度视频片段是否属于动作,从而筛选出单尺度的粗动作片段。
本发明实施例中,使用和训练样本同样的生成方式生成计算样本,即单尺度视频片段。
再将单尺度视频片段输入到预先训练好的基于三维深度残差网络的二分类模型,得到所有单尺度视频片段属于动作的置信分数;
根据置信分数判断相应的单尺度视频片段是否属于动作,从而筛选出单尺度的粗动作片段。
3、对于多尺度视频片段集合,采用投票融合策略判别每一多尺度视频片段是否属于动作,从而获得多尺度的粗动作片段。
本发明实施例中,针对当前多尺度视频片段,假设其生成L个单尺度视频片段为a1,a2,…,aL,通过基于深度残差网络的二分类获得每一个单尺度视频片段对应的置信分数
Figure BDA0001658121330000041
其中的
Figure BDA0001658121330000042
为第l个单尺度视频片段第p类置信分数,第1类、第2类分别对应为视频动作类、背景类;依据置信分数判别每个单尺度视频片段是否属于动作,当属于动作的单尺度视频片段超过设定值(例如,L/2),则判定当前多尺度视频片段属于动作;否则判定为背景类别,将不再处理。
二、对于粗动作片段,基于帧级动作识别结果,采用统计融合策略进行动作类别与动作边界的联合判别,获得初步的动作检测片段。
本步骤主要包括如下两个部分:
1、对于粗动作片段,采用帧级动作识别方法预测粗动作片段中每一个视频帧的动作类别,获得对应多类别的置信分数向量。
将单个粗动作片段或者单个粗动作片段中每一个视频帧的图片信息和光流信息,输入到预先训练好的卷积反卷积网络或者双流卷积神经网络的输入层;然后,进行网络前向传播,从而得到所有视频帧对应多类别的置信分数向量
Figure BDA0001658121330000051
其中,K表示单个粗动作片段中视频帧的数量,C表示动作类别的数量;第k个视频帧第i个动作类别的置信分数为
Figure BDA0001658121330000052
以双流卷积神经网络为例。如图3所示,提取单个粗动作片段中每一个视频帧的图片信息和光流信息,分别输入到预先训练好的双流卷积神经网络的输入层;然后,进行网络前向传播后得到所有视频帧对应多类别的置信分数向量。
2、针对单个粗动作片段,结合其对应的多类别的置信分数向量,采用统计融合策略同时判别单个粗动作片段的动作类别和动作边界,从而获得初步的动作检测片段。
如图4所示,针对单个粗动作片段的所有视频帧对应多类别的置信分数向量,采用高斯密度估计拟合每一动作类别(即,每一维)对应的置信分数的分布,获得对应的均值和方差;其中,第i个动作类别对应的均值和方差记为μi和σi
针对第i个动作类别,找出视频帧序列中第一个和最后一个连续M帧置信分数大于阈值μii的帧位置;将第一个连续M帧位置的首帧作为第i个动作类别的起始帧,将最后一个连续M帧位置的未帧作为第i个动作类别的结束帧;
计算每个动作类别起始帧和结束帧之间的平均置信分数,取平均置信分数最大的动作类别为相应粗动作片段的类别,动作边界为相应动作类别对应的起始帧和结束帧,类别置信分数为对应的起始帧和结束帧之间的平均置信分数,最终实现粗动作片段动作类别和动作边界的联合判别,从而获得初步的动作检测片段。
本发明实施例中,所述初步的动作检测片段包含了不同视频编号的动作检测片段,以及同一视频编号的不同动作检测片段。
示例性的,如果使用双流卷积神经网络,训练样本的动作类别可以设为21类(包含背景类),即C=21,M可以设置为5。
三、结合初步的动作检测片段之间的IoU(Intersection-over-Union,交并比),利用改进的非极大值抑制算法对初步的动作检测片段进行处理,最终获得未剪切视频的动作检测结果,即每个视频动作检测片段的动作类别和起止时间位置。
本领域技术人员可以理解,IoU是指两个动作检测片段的交集除以并集。
经过上述的对粗动作片段的动作类别和动作边界的联合判别,生成了大量的动作类别、开始位置、结束位置已知的初步的动作检测片段。为了去除高度重合冗余的视频动作检测片段,本发明提出了使用改进的非极大值抑制算法。
首先,按照同一个视频编号同一个动作类别的标准将初步获得的动作检测片段分成不同的动作检测片段集合;
然后,设置两个阈值t1,t2(1≥t1≥t2≥0);
针对任一动作检测片段集合,按置信分数从高到低进行排序,保留置信分数最高的动作片段,然后依次处理剩余动作片段;计算每一剩余动作片段与已保留动作片段的IoU,当IoU>t1时,删除相应剩余动作片段;当t2≤IoU≤t1时,依据IoU大小降低相应剩余动作片段的置信分数;当IoU<t2时,相应剩余动作片段的置信分数不变;保留通过上述处理后的剩余动作片段中置信分数最高动作片段;重复上述过程,直到动作检测片段集合中所有的动作片段都已经处理,也即动作片段被删除或者被保留,直到没有一个剩余动作片段;
迭代上述过程,直至所有动作检测片段集合都完成上述过程后,得到未剪切视频的动作检测结果。
本发明实施例中,当t2≤IoU≤t1时,置信分数的降低使用高斯加权的方式,公式如下:
Figure BDA0001658121330000061
其中,su、su'为剩余动作片段u降低前、后的置信分数;E为当前置信分数最高的动作片段;iou(E,u)表示剩余动作片段u与当前置信分数最高的动作片段E之间的IoU,iou(E,u)越大,则剩余动作片段u的置信分数下降的越多;σ为高斯分布的标准差,可以设置为0.5。
示例性的,当在计算视频动作检测评价指标mAP时的交并比阈值设置为0.5时,t1=0.5,t2=0.2。
本发明实施例上述方案相对于现有技术而言主要具有如下优点:
1)采用性能更优的三维深度残差网络作为分类网络,同时训练过程中使用融合多尺度和单尺度的两级采样生成固定尺度的训练样本,有效避免了多尺度样本导致的运动特征难以学习、准确率低等问题,能够更加精确地生成视频粗动作片段。
2)利用帧级动作识别结果,采用统计融合策略实现了视频片段动作类别与动作边界的联合判别,提高了动作分类的准确度和动作边界定位的精确度。
3)使用了改进的非极大值抑制,同时考虑了待处理动作片段的置信分数以及它与已保留动作片段之间的IoU,能够进一步改善动作检测结果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (6)

1.一种多阶段视频动作检测方法,其特征在于,包括:
对于输入的未剪切视频通过基于深度残差网络的二分类与投票融合策略,生成融合多尺度采样与单尺度训练的粗动作片段;
对于粗动作片段,基于帧级动作识别结果,采用统计融合策略进行动作类别与动作边界的联合判别,获得初步的动作检测片段;
结合初步的动作检测片段之间的IoU,利用改进的非极大值抑制算法对初步的动作检测片段进行处理,最终获得未剪切视频的动作检测结果,即每个视频动作检测片段的动作类别和起止时间位置;
其中,所述对于输入的未剪切视频通过基于深度残差网络的二分类与投票融合策略,生成融合多尺度采样与单尺度训练的粗动作片段包括:针对输入的未剪切视频,通过融合多尺度和单尺度的两级采样分别获得多尺度视频片段集合和单尺度视频片段集合;针对单尺度视频片段集合,进行基于深度残差网络的二分类,即判断每一单尺度视频片段是否属于动作,从而筛选出单尺度的粗动作片段;对于多尺度视频片段集合,采用投票融合策略判别每一多尺度视频片段是否属于动作,从而获得多尺度的粗动作片段;
采用投票融合策略判别每一多尺度视频片段是否属于动作包括:针对当前多尺度视频片段,假设其生成L个单尺度视频片段为a1,a2,…,aL,通过基于深度残差网络的二分类获得每一个单尺度视频片段对应的置信分数
Figure FDA0003356464560000011
其中的
Figure FDA0003356464560000012
为第l个单尺度视频片段第p类置信分数,第1类、第2类分别对应为视频动作类、背景类;依据置信分数判别每个单尺度视频片段是否属于动作,当属于动作的单尺度视频片段超过设定值,则判定当前多尺度视频片段属于动作;
所述对于粗动作片段,基于帧级动作识别结果,采用统计融合策略进行动作类别与动作边界的联合判别,获得初步的动作检测片段包括:对于粗动作片段,采用帧级动作识别方法预测粗动作片段中每一个视频帧的动作类别,获得对应多类别的置信分数向量;然后针对单个粗动作片段,结合其对应的多类别的置信分数向量,采用统计融合策略同时判别单个粗动作片段的动作类别和动作边界,从而获得初步的动作检测片段;
所述针对单个粗动作片段,结合其对应的多类别的置信分数向量,采用统计融合策略同时判别单个粗动作片段的动作类别和动作边界,从而获得初步的动作检测片段包括:
针对单个粗动作片段的所有视频帧对应多类别的置信分数向量,采用高斯密度估计拟合每一动作类别对应的置信分数的分布,获得对应的均值和方差;其中,第i个动作类别对应的均值和方差记为μi和σi
针对第i个动作类别,找出视频帧序列中第一个和最后一个连续M帧置信分数大于阈值μii的帧位置;将第一个连续M帧位置的首帧作为第i个动作类别的起始帧,将最后一个连续M帧位置的末帧作为第i个动作类别的结束帧;
计算每个动作类别起始帧和结束帧之间的平均置信分数,取平均置信分数最大的动作类别为相应粗动作片段的类别,动作边界为相应动作类别对应的起始帧和结束帧,类别置信分数为对应的起始帧和结束帧之间的平均置信分数,最终实现粗动作片段动作类别和动作边界的联合判别,从而获得初步的动作检测片段。
2.根据权利要求1所述的一种多阶段视频动作检测方法,其特征在于,所述融合多尺度和单尺度的两级采样包括:
依次使用多个不同时间尺度且重叠率相同的滑动窗口对未剪切视频进行采样,生成多尺度视频片段集合;
在多尺度视频片段上,使用单一固定时间尺度且重叠率相同的滑动窗口进行采样,生成单尺度的视频片段集合。
3.根据权利要求1所述的一种多阶段视频动作检测方法,其特征在于,所述针对单尺度视频片段集合,进行基于深度残差网络的二分类,即判断每一单尺度视频片段是否属于动作,从而筛选出单尺度的粗动作片段包括:
将单尺度视频片段输入到预先训练好的基于三维深度残差网络的二分类模型,得到所有单尺度视频片段属于动作的置信分数;
根据置信分数判断相应的单尺度视频片段是否属于动作,从而筛选出单尺度的粗动作片段。
4.根据权利要求1所述的一种多阶段视频动作检测方法,其特征在于,所述对于粗动作片段,采用帧级动作识别方法预测粗动作片段中每一个视频帧的动作类别,获得对应多类别的置信分数向量包括:
将单个粗动作片段或者单个粗动作片段中每一个视频帧的图片信息和光流信息,分别输入到预先训练好的卷积反卷积网络或者双流卷积神经网络的输入层;然后,进行网络前向传播,从而得到所有视频帧对应多类别的置信分数向量
Figure FDA0003356464560000031
其中,K表示单个粗动作片段中视频帧的数量,C表示动作类别的数量;第k个视频帧第i个动作类别的置信分数为
Figure FDA0003356464560000032
5.根据权利要求1所述的一种多阶段视频动作检测方法,其特征在于,所述结合初步的动作检测片段之间的IoU,利用改进的非极大值抑制算法对初步的动作检测片段进行处理,最终获得未剪切视频的动作检测结果包括:
所述初步的动作检测片段包含了不同视频编号的动作检测片段,以及同一视频编号的不同动作检测片段;
按照同一个视频编号同一个动作类别的标准将初步获得的动作检测片段分成不同的动作检测片段集合;
设置两个阈值t1,t2(1≥t1≥t2≥0);
针对任一动作检测片段集合,按置信分数从高到低进行排序,保留置信分数最高的动作片段,然后依次处理剩余动作片段;计算每一剩余动作片段与已保留动作片段的IoU,当IoU>t1时,删除相应剩余动作片段;当t2≤IoU≤t1时,依据IoU大小降低相应剩余动作片段的置信分数;当IoU<t2时,相应剩余动作片段的置信分数不变;保留通过上述处理后的剩余动作片段中置信分数最高动作片段;重复上述过程,直到动作检测片段集合中所有的动作片段都已经处理;
迭代上述过程,直至所有动作检测片段集合都完成上述过程后,得到未剪切视频的动作检测结果。
6.根据权利要求5所述的一种多阶段视频动作检测方法,其特征在于,当t2≤IoU≤t1时,置信分数的降低使用高斯加权的方式,公式如下:
Figure FDA0003356464560000033
其中,su、su'为剩余动作片段u降低前、后的置信分数;E为当前置信分数最高的动作片段,iou(E,u)表示剩余动作片段u与当前置信分数最高的动作片段E之间的IoU,σ为高斯分布的标准差。
CN201810449678.6A 2018-05-11 2018-05-11 一种多阶段视频动作检测方法 Active CN108664931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810449678.6A CN108664931B (zh) 2018-05-11 2018-05-11 一种多阶段视频动作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810449678.6A CN108664931B (zh) 2018-05-11 2018-05-11 一种多阶段视频动作检测方法

Publications (2)

Publication Number Publication Date
CN108664931A CN108664931A (zh) 2018-10-16
CN108664931B true CN108664931B (zh) 2022-03-01

Family

ID=63779289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810449678.6A Active CN108664931B (zh) 2018-05-11 2018-05-11 一种多阶段视频动作检测方法

Country Status (1)

Country Link
CN (1) CN108664931B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685144B (zh) * 2018-12-26 2021-02-12 上海众源网络有限公司 一种对视频模型做评估的方法、装置及电子设备
CN109886165A (zh) * 2019-01-23 2019-06-14 中国科学院重庆绿色智能技术研究院 一种基于运动目标检测的动作视频提取和分类方法
CN110348345B (zh) * 2019-06-28 2021-08-13 西安交通大学 一种基于动作连贯性的弱监督时序动作定位方法
CN110390315B (zh) * 2019-07-29 2022-05-06 深兰科技(上海)有限公司 一种图像处理方法及装置
CN110567457B (zh) * 2019-09-09 2023-03-03 深圳市科卫泰实业发展有限公司 一种基于冗余的惯导自检测系统
CN110602526B (zh) * 2019-09-11 2021-09-21 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备及存储介质
CN110688927B (zh) * 2019-09-20 2022-09-30 湖南大学 一种基于时序卷积建模的视频动作检测方法
CN111027377B (zh) * 2019-10-30 2021-06-04 杭州电子科技大学 一种双流神经网络时序动作定位方法
CN113079420A (zh) * 2020-01-03 2021-07-06 北京三星通信技术研究有限公司 视频生成方法、装置、电子设备及计算机可读存储介质
CN111611847B (zh) * 2020-04-01 2021-04-30 杭州电子科技大学 基于尺度注意力空洞卷积网络的视频动作检测方法
CN113468938A (zh) * 2020-07-31 2021-10-01 成都通甲优博科技有限责任公司 交通图像识别方法、装置、图像处理设备及可读存储介质
CN112101253A (zh) * 2020-09-18 2020-12-18 广东机场白云信息科技有限公司 一种基于视频动作识别的民用机场地面保障状态识别方法
CN113810764B (zh) * 2021-08-12 2022-12-06 荣耀终端有限公司 视频编辑方法和视频编辑装置
CN114339403B (zh) * 2021-12-31 2023-03-28 西安交通大学 一种视频动作片段生成方法、系统、设备及可读存储介质
CN114022827B (zh) * 2022-01-05 2022-06-17 阿里巴巴(中国)有限公司 产线作业管理与视频处理方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740773A (zh) * 2016-01-25 2016-07-06 重庆理工大学 基于深度学习和多尺度信息的行为识别方法
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN107292249A (zh) * 2017-06-08 2017-10-24 深圳市唯特视科技有限公司 一种基于结构化分段网络的时间动作检测方法
CN107292247A (zh) * 2017-06-05 2017-10-24 浙江理工大学 一种基于残差网络的人体行为识别方法及装置
CN107292913A (zh) * 2017-06-12 2017-10-24 大连海事大学 一种基于视频的多阶段摔倒检测算法
CN107886120A (zh) * 2017-11-03 2018-04-06 北京清瑞维航技术发展有限公司 用于目标检测跟踪的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105740773A (zh) * 2016-01-25 2016-07-06 重庆理工大学 基于深度学习和多尺度信息的行为识别方法
CN106897714A (zh) * 2017-03-23 2017-06-27 北京大学深圳研究生院 一种基于卷积神经网络的视频动作检测方法
CN107292247A (zh) * 2017-06-05 2017-10-24 浙江理工大学 一种基于残差网络的人体行为识别方法及装置
CN107292249A (zh) * 2017-06-08 2017-10-24 深圳市唯特视科技有限公司 一种基于结构化分段网络的时间动作检测方法
CN107292913A (zh) * 2017-06-12 2017-10-24 大连海事大学 一种基于视频的多阶段摔倒检测算法
CN107886120A (zh) * 2017-11-03 2018-04-06 北京清瑞维航技术发展有限公司 用于目标检测跟踪的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Convolutional-De-Convolutional Networks for Precise Temporal Action;Zheng Shou;《 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)》;20171109;第1-10页 *
Temporal Action Detection with Structured Segment Networks;Yue Zhao et.al;《2017 IEEE International Conference on Computer Vision (ICCV)》;20171225;第2914-2923页 *

Also Published As

Publication number Publication date
CN108664931A (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
CN108664931B (zh) 一种多阶段视频动作检测方法
CN108830252B (zh) 一种融合全局时空特征的卷积神经网络人体动作识别方法
Kukleva et al. Unsupervised learning of action classes with continuous temporal embedding
CN109146921B (zh) 一种基于深度学习的行人目标跟踪方法
EP3620956B1 (en) Learning method, learning device for detecting lane through classification of lane candidate pixels and testing method, testing device using the same
US20230022943A1 (en) Method and system for defending against adversarial sample in image classification, and data processing terminal
US10002290B2 (en) Learning device and learning method for object detection
Javed et al. Online detection and classification of moving objects using progressively improving detectors
JP4767595B2 (ja) 対象物検出装置及びその学習装置
CN102385703B (zh) 一种基于人脸的身份认证方法及系统
WO2008148343A1 (fr) Dispositif de détection d'objet photographié spécial et dispositif d'apprentissage et procédé associé
Nandakumar et al. A multi-modal gesture recognition system using audio, video, and skeletal joint data
TW200539046A (en) Continuous face recognition with online learning
WO2023207742A1 (zh) 一种交通异常行为检测方法与系统
CN112131944B (zh) 一种视频行为识别方法及系统
De Souza et al. Detection of violent events in video sequences based on census transform histogram
CN114782997A (zh) 基于多损失注意力自适应网络的行人重识别方法及系统
Savchenko Facial expression recognition with adaptive frame rate based on multiple testing correction
Karappa et al. Detection of sign-language content in video through polar motion profiles
CN116363712B (zh) 一种基于模态信息度评估策略的掌纹掌静脉识别方法
CN111753684A (zh) 一种利用目标姿势进行生成的行人重识别方法
JP2004178569A (ja) データ分類装置、物体認識装置、データ分類方法及び物体認識方法
CN111832351A (zh) 一种事件检测方法、装置和计算机设备
Heili et al. Parameter estimation and contextual adaptation for a multi-object tracking CRF model
Keyvanpour et al. Detection of individual activities in video sequences based on fast interference discovery and semi-supervised method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant