CN107292249A - 一种基于结构化分段网络的时间动作检测方法 - Google Patents

一种基于结构化分段网络的时间动作检测方法 Download PDF

Info

Publication number
CN107292249A
CN107292249A CN201710429060.9A CN201710429060A CN107292249A CN 107292249 A CN107292249 A CN 107292249A CN 201710429060 A CN201710429060 A CN 201710429060A CN 107292249 A CN107292249 A CN 107292249A
Authority
CN
China
Prior art keywords
motion
time
mrow
msub
activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710429060.9A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201710429060.9A priority Critical patent/CN107292249A/zh
Publication of CN107292249A publication Critical patent/CN107292249A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明中提出的一种基于结构化分段网络的时间动作检测方法,其主要内容包括:三级结构、结构时间金字塔池、活动和完整性分类器、位置回归和多任务损失函数、降低计算成本,其过程为,框架产生一组不同持续时间的时间提案,每个提案都有一个开始和结束的时间;在每个提案之后,将构建一个时间金字塔,从而产生提案的全局表示;最后分别用于识别活动类别和评估完整性的两个分类器,并将它们的预测组合起来,从而产生有类别标签的实例的一个子集,过滤背景或不完整的提案。本发明克服了长期建模的计算问题,实现了长视频高效的端到端训练;能够精确地定位时间边界和定位动作,降低计算成本,从而允许对长期时间结构进行建模,进一步提高检测性能。

Description

一种基于结构化分段网络的时间动作检测方法
技术领域
本发明涉及动作检测领域,尤其是涉及了一种基于结构化分段网络的时间动作检测方法。
背景技术
随着影视、网络等媒体的迅速普及和发展,视频已成为信息的主要载体,且视频数据的数量呈爆炸式增长,因此相关的视频处理技术也正在发展中。针对视频的动作检测技术是当前研究的重点之一,具有很高的研究价值和广泛的应用前景,比如,它可以用于自动售货机、ATM机、商场、车站等公共场合的智能监控、人群中危险姿势的监控、虚拟现实、人机交互、体育及娱乐运动分析等,在工业、医疗、军事和生活等也需要用到人体动作检测装置来进行模拟训练。然而,现今的动作检测方法计算成本高,定位动作时精确度不高,急需改进以满足使用需求。
本发明提出了一种基于结构化分段网络的时间动作检测方法,框架产生一组不同持续时间的时间提案,每个提案都有一个开始和结束的时间;在每个提案之后,将构建一个时间金字塔,从而产生提案的全局表示;最后分别用于识别活动类别和评估完整性的两个分类器,并将它们的预测组合起来,从而产生有类别标签的实例的一个子集,过滤背景或不完整的提案。本发明克服了长期建模的计算问题,实现了长视频高效的端到端训练;能够精确地定位时间边界和定位动作,降低计算成本,从而允许对长期时间结构进行建模,进一步提高检测性能。
发明内容
针对计算成本高等问题,本发明的目的在于提供一种基于结构化分段网络的时间动作检测方法,框架产生一组不同持续时间的时间提案,每个提案都有一个开始和结束的时间;在每个提案之后,将构建一个时间金字塔,从而产生提案的全局表示;最后分别用于识别活动类别和评估完整性的两个分类器,并将它们的预测组合起来,从而产生有类别标签的实例的一个子集,过滤背景或不完整的提案。
为解决上述问题,本发明提供一种基于结构化分段网络的时间动作检测方法,其主要内容包括:
(一)三级结构;
(二)结构时间金字塔池;
(三)活动和完整性分类器;
(四)位置回归和多任务损失函数;
(五)降低计算成本。
其中,所述的结构化分段网络,提出的结构化分段网络框架将输入视频和一组时间动作提案;它输出一组与类别标签相关联的预测活动实例和时间范围(由起始点和终点界定);从输入到输出,需要三个关键步骤;首先,框架产生一组不同持续时间的时间提案,每个提案都有一个开始和结束的时间;在每个提案之后,将构建一个时间金字塔,从而产生提案的全局表示;最后,分别用于识别活动类别和评估完整性的两个分类器,并将它们的预测组合起来,从而产生有类别标签的实例的一个子集,背景或不完整的其他提案将被过滤掉。
其中,所述的三级结构,在输入级别,视频可以表示为T片段序列,表示为这里,一个片段包含几个连续的帧,其总体上由RGB图像和光流栈组合表征;考虑一组给定的N个提议每个提案pi由起始时间si和结束时间ei组成;因此,pi的持续时间为di=ei-si;在s′i=si-di/2和e′i=ei+di/2的情况下,将每个提案pi增加到p′i=[s′i,e′i];增加的提案p′i将pi的跨度加倍,超过起始点和结束点,分别为di/2;如果提案与完成的实例精确对齐,则增强的提案不仅将捕获活动的固有过程,而且还将捕获如何开始以及如何结束;按照三个阶段的概念,将增强提案p′i划分为三个连续的间隔: 分别对应于开始、进程和结束阶段。
其中,所述的结构时间金字塔池,结构化分段网络框架通过时间金字塔池来为每个提案提供全局表示;具体来说,给定一个增加的提案p′i分为三个阶段首先分别通过时间金字塔池合并计算逐级特征向量然后将它们连接成全局表示;具体来说,间隔[s,e]将覆盖一系列片段,表示为{St|s≤t≤e};对于每个片段,可以获得一个特征向量vt
基于这些特征,构建一个K级时间金字塔,每个级别将区间均匀分为Bk部分;对于第k级的第i部分,其间隔是[ski,eki],可以得到一个汇集的特征:
这个阶段的整体表现可以通过连接所有层面所有部分的汇集特征来获得
其中,所述的活动和完整性分类器,活动分类器A将输入提案分类为K+1类,即K活动类(标签为1,…,K)和附加“背景”类(标签为0);完整性分类器是一组二进制分类器,每个分类器用于一个活动类;特别地,Ck根据涵盖所有三个阶段的全局表示预测提案是否捕获k类的完整活动实例;这样,完整性不仅取决于提案本身,而且也取决于其周围环境;
两种类型的分类器都为线性分类器;给定提案pi,活动分类器将通过softmax层产生归一化响应的向量;从概率来看,它可以被认为是条件分布P{ci|pi},其中ci是类标签;对于每个活动类k,相应的完整性分类器Ck将产生概率值,其可以被理解为条件概率P{bi|ci,pi},其中bi指示pi是否完整;当ci≥1,P(ci,bi|pi)=P(ci|pi)·P{bi|ci,pi},两个输出一起形成联合分配。
进一步地,所述的定义统一的分类损失函数,在两种类型的分类器上联合定义统一的分类损失函数;通过提案pi及其标签ci
这里,完整性项P{bi|ci,pi}仅在ci≥1时使用;这些分类器和结构化时间金字塔集成到一个以端到端方式训练的单一网络中。
其中,所述的位置回归和多任务损失函数,通过在全局特征中编码的结构化信息,不仅可以进行分类预测,而且还可以通过位置回归来优化提案的时间间隔本身;设计一组位置回归器每个都是一个活动类;对于积极的提案pi,它们使用最接近的实体实例作为目标来回归间隔中心μi和跨度φi(以对数标度);对于分类器和位置回归器,在训练样本pi上定义了多任务损失函数,如:
这里,使用平滑的L1损耗函数。
其中,所述的降低计算成本,包括训练稀疏抽样和推论与重新计算。
进一步地,所述的训练稀疏抽样,给定一个增强的提案p′i,将它们均匀地分成L=9段,每个段随机抽样一个片段,对应段上的每个池区执行结构化时间金字塔池,有效降低了计算成本,特别是长期结构建模,可以通过大量长的提案实现对整个框架的端到端训练。
进一步地,所述的推论与重新计算,在测试中,以6帧的固定间隔采样视频片段,并在其上构建时间金字塔;时间金字塔的原始公式首先计算集合的特征,然后将分类器和回归器应用于顶部;对于每个视频,将会产生数百个提案,并且这些提议可能会相互重叠;因此,在其中提取的特征在提案之间共享;
为了在计算中利用这种冗余,采用位置敏感池提高测试效率;分类器和回归器都是线性的;因此,分类或回归的关键步骤是将权重矩阵W与全局特征向量f相乘;f本身是多个函数的连接,每个函数都在一定的间隔内合并;因此,计算可以写成:
Wf=∑jWjfj (4)
其中,j指向沿金字塔的不同区域,fj是通过平均汇总区域rj内的所有片段特征获得的;因此有:
表示在rj上的平均合并,这是一个线性运算,因此可以与矩阵乘法交换;公式(5)表明线性响应,在分组之前可以计算分类器或回归器;以这种方式,对于所有片段的每个视频,重矩阵乘法可以执行一次,对于每个提案,只需要对响应值进行合并;在提取网络输出后,通过重新排序矩阵乘法和汇总,平均每个视频的推理时间从大约10秒缩短到小于0.5秒。
附图说明
图1是本发明一种基于结构化分段网络的时间动作检测方法的系统框架图。
图2是本发明一种基于结构化分段网络的时间动作检测方法的结构化分段网络。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于结构化分段网络的时间动作检测方法的系统框架图。主要包括三级结构,结构时间金字塔池,活动和完整性分类器,位置回归和多任务损失函数,降低计算成本。
三级结构,在输入级别,视频可以表示为T片段序列,表示为这里,一个片段包含几个连续的帧,其总体上由RGB图像和光流栈组合表征;考虑一组给定的N个提议 每个提案pi由起始时间si和结束时间ei组成;因此,pi的持续时间为di=ei-si;在s′i=si-di/2和e′i=ei+di/2的情况下,将每个提案pi增加到p′i=[s′i,e′i];增加的提案p′i将pi的跨度加倍,超过起始点和结束点,分别为di/2;如果提案与完成的实例精确对齐,则增强的提案不仅将捕获活动的固有过程,而且还将捕获如何开始以及如何结束;按照三个阶段的概念,将增强提案p′i划分为三个连续的间隔:分别对应于开始、进程和结束阶段。
结构时间金字塔池,结构化分段网络框架通过时间金字塔池来为每个提案提供全局表示;具体来说,给定一个增加的提案p′i分为三个阶段首先分别通过时间金字塔池合并计算逐级特征向量然后将它们连接成全局表示;具体来说,间隔[s,e]将覆盖一系列片段,表示为{St|s≤t≤e};对于每个片段,可以获得一个特征向量υt
基于这些特征,构建一个K级时间金字塔,每个级别将区间均匀分为Bk部分;对于第k级的第i部分,其间隔是[ski,eki],可以得到一个汇集的特征:
这个阶段的整体表现可以通过连接所有层面所有部分的汇集特征来获得
活动和完整性分类器,活动分类器A将输入提案分类为K+1类,即K活动类(标签为1,…,K)和附加“背景”类(标签为0);完整性分类器是一组二进制分类器,每个分类器用于一个活动类;特别地,Ck根据涵盖所有三个阶段的全局表示预测提案是否捕获k类的完整活动实例;这样,完整性不仅取决于提案本身,而且也取决于其周围环境;
两种类型的分类器都为线性分类器;给定提案pi,活动分类器将通过softmax层产生归一化响应的向量;从概率来看,它可以被认为是条件分布P{ci|pi},其中ci是类标签;对于每个活动类k,相应的完整性分类器Ck将产生概率值,其可以被理解为条件概率P{bi|ci,pi},其中bi指示pi是否完整;当ci≥1,P(ci,bi|pi)=P(ci|pi)·P{bi|ci,pi},两个输出一起形成联合分配。
定义统一的分类损失函数,在两种类型的分类器上联合定义统一的分类损失函数;通过提案pi及其标签ci
这里,完整性项P{bi|ci,pi}仅在ci≥1时使用;这些分类器和结构化时间金字塔集成到一个以端到端方式训练的单一网络中。
位置回归和多任务损失函数,通过在全局特征中编码的结构化信息,不仅可以进行分类预测,而且还可以通过位置回归来优化提案的时间间隔本身;设计一组位置回归器每个都是一个活动类;对于积极的提案pi,它们使用最接近的实体实例作为目标来回归间隔中心μi和跨度φi(以对数标度);对于分类器和位置回归器,在训练样本pi上定义了多任务损失函数,如:
这里,使用平滑的L1损耗函数。
降低计算成本,包括训练稀疏抽样和推论与重新计算。
训练稀疏抽样,给定一个增强的提案p′i,将它们均匀地分成L=9段,每个段随机抽样一个片段,对应段上的每个池区执行结构化时间金字塔池,有效降低了计算成本,特别是长期结构建模,可以通过大量长的提案实现对整个框架的端到端训练。
推论与重新计算,在测试中,以6帧的固定间隔采样视频片段,并在其上构建时间金字塔;时间金字塔的原始公式首先计算集合的特征,然后将分类器和回归器应用于顶部;对于每个视频,将会产生数百个提案,并且这些提议可能会相互重叠;因此,在其中提取的特征在提案之间共享;
为了在计算中利用这种冗余,采用位置敏感池提高测试效率;分类器和回归器都是线性的;因此,分类或回归的关键步骤是将权重矩阵W与全局特征向量f相乘;f本身是多个函数的连接,每个函数都在一定的间隔内合并;因此,计算可以写成:
Wf=∑jWjfj (4)
其中,j指向沿金字塔的不同区域,fj是通过平均汇总区域rj内的所有片段特征获得的;因此有:
表示在rj上的平均合并,这是一个线性运算,因此可以与矩阵乘法交换;公式(5)表明线性响应,在分组之前可以计算分类器或回归器;以这种方式,对于所有片段的每个视频,重矩阵乘法可以执行一次,对于每个提案,只需要对响应值进行合并;在提取网络输出后,通过重新排序矩阵乘法和汇总,平均每个视频的推理时间从大约10秒缩短到小于0.5秒。
图2是本发明一种基于结构化分段网络的时间动作检测方法的结构化分段网络。提出的结构化分段网络框架将输入视频和一组时间动作提案;它输出一组与类别标签相关联的预测活动实例和时间范围(由起始点和终点界定);从输入到输出,需要三个关键步骤;首先,框架产生一组不同持续时间的时间提案,每个提案都有一个开始和结束的时间;在每个提案之后,将构建一个时间金字塔,从而产生提案的全局表示;最后,分别用于识别活动类别和评估完整性的两个分类器,并将它们的预测组合起来,从而产生有类别标签的实例的一个子集,背景或不完整的其他提案将被过滤掉。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于结构化分段网络的时间动作检测方法,其特征在于,主要包括三级结构(一);结构时间金字塔池(二);活动和完整性分类器(三);位置回归和多任务损失函数(四);降低计算成本(五)。
2.基于权利要求书1所述的结构化分段网络,其特征在于,提出的结构化分段网络框架将输入视频和一组时间动作提案;它输出一组与类别标签相关联的预测活动实例和时间范围(由起始点和终点界定);从输入到输出,需要三个关键步骤;首先,框架产生一组不同持续时间的时间提案,每个提案都有一个开始和结束的时间;在每个提案之后,将构建一个时间金字塔,从而产生提案的全局表示;最后,分别用于识别活动类别和评估完整性的两个分类器,并将它们的预测组合起来,从而产生有类别标签的实例的一个子集,背景或不完整的其他提案将被过滤掉。
3.基于权利要求书1所述的三级结构(一),其特征在于,在输入级别,视频可以表示为T片段序列,表示为这里,一个片段包含几个连续的帧,其总体上由RGB图像和光流栈组合表征;考虑一组给定的N个提议每个提案pi由起始时间si和结束时间ei组成;因此,pi的持续时间为di=ei-si;在s′i=si-di/2和e′i=ei+di/2的情况下,将每个提案pi增加到p′i=[s′i,e′i];增加的提案p′i将pi的跨度加倍,超过起始点和结束点,分别为di/2;如果提案与完成的实例精确对齐,则增强的提案不仅将捕获活动的固有过程,而且还将捕获如何开始以及如何结束;按照三个阶段的概念,将增强提案p′i划分为三个连续的间隔:分别对应于开始、进程和结束阶段。
4.基于权利要求书1所述的结构时间金字塔池(二),其特征在于,结构化分段网络框架通过时间金字塔池来为每个提案提供全局表示;具体来说,给定一个增加的提案p′i分为三个阶段首先分别通过时间金字塔池合并计算逐级特征向量fi s,fi c和fi e,然后将它们连接成全局表示;具体来说,间隔[s,e]将覆盖一系列片段,表示为{St|s≤t≤e};对于每个片段,可以获得一个特征向量vt
基于这些特征,构建一个K级时间金字塔,每个级别将区间均匀分为Bk部分;对于第k级的第i部分,其间隔是[ski,eki],可以得到一个汇集的特征:
<mrow> <msubsup> <mi>u</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> <mo>|</mo> </mrow> </mfrac> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> </mrow> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> </munderover> <msub> <mi>v</mi> <mi>t</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
这个阶段的整体表现可以通过连接所有层面所有部分的汇集特征来获得
5.基于权利要求书1所述的活动和完整性分类器(三),其特征在于,活动分类器A将输入提案分类为K+1类,即K活动类(标签为1,…,K)和附加“背景”类(标签为0);完整性分类器是一组二进制分类器,每个分类器用于一个活动类;特别地,Ck根据涵盖所有三个阶段的全局表示{fi s,fi c,fi e},预测提案是否捕获k类的完整活动实例;这样,完整性不仅取决于提案本身,而且也取决于其周围环境;
两种类型的分类器都为线性分类器;给定提案pi,活动分类器将通过softmax层产生归一化响应的向量;从概率来看,它可以被认为是条件分布P{ci|pi},其中ci是类标签;对于每个活动类k,相应的完整性分类器Ck将产生概率值,其可以被理解为条件概率P{bi|ci,pi},其中bi指示pi是否完整;当ci≥1,P(ci,bi|pi)=P(ci|pi)·P{bi|ci,pi},两个输出一起形成联合分配。
6.基于权利要求书5所述的定义统一的分类损失函数,其特征在于,在两种类型的分类器上联合定义统一的分类损失函数;通过提案pi及其标签ci
这里,完整性项P{bi|ci,pi}仅在ci≥1时使用;这些分类器和结构化时间金字塔集成到一个以端到端方式训练的单一网络中。
7.基于权利要求书1所述的位置回归和多任务损失函数(四),其特征在于,通过在全局特征中编码的结构化信息,不仅可以进行分类预测,而且还可以通过位置回归来优化提案的时间间隔本身;设计一组位置回归器每个都是一个活动类;对于积极的提案pi,它们使用最接近的实体实例作为目标来回归间隔中心μi和跨度φi(以对数标度);对于分类器和位置回归器,在训练样本pi上定义了多任务损失函数,如:
这里,使用平滑的L1损耗函数。
8.基于权利要求书1所述的降低计算成本(五),其特征在于,包括训练稀疏抽样和推论与重新计算。
9.基于权利要求书8所述的训练稀疏抽样,其特征在于,给定一个增强的提案p′i,将它们均匀地分成L=9段,每个段随机抽样一个片段,对应段上的每个池区执行结构化时间金字塔池,有效降低了计算成本,特别是长期结构建模,可以通过大量长的提案实现对整个框架的端到端训练。
10.基于权利要求书8所述的推论与重新计算,其特征在于,在测试中,以6帧的固定间隔采样视频片段,并在其上构建时间金字塔;时间金字塔的原始公式首先计算集合的特征,然后将分类器和回归器应用于顶部;对于每个视频,将会产生数百个提案,并且这些提议可能会相互重叠;因此,在其中提取的特征在提案之间共享;
为了在计算中利用这种冗余,采用位置敏感池提高测试效率;分类器和回归器都是线性的;因此,分类或回归的关键步骤是将权重矩阵W与全局特征向量f相乘;f本身是多个函数的连接,每个函数都在一定的间隔内合并;因此,计算可以写成:
<mrow> <msub> <mi>W</mi> <mi>f</mi> </msub> <mo>=</mo> <msub> <mi>&amp;Sigma;</mi> <mi>j</mi> </msub> <msub> <mi>W</mi> <mi>j</mi> </msub> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>
其中,j指向沿金字塔的不同区域,fj是通过平均汇总区域rj内的所有片段特征获得的;因此有:
表示在rj上的平均合并,这是一个线性运算,因此可以与矩阵乘法交换;公式(5)表明线性响应,在分组之前可以计算分类器或回归器;以这种方式,对于所有片段的每个视频,重矩阵乘法可以执行一次,对于每个提案,只需要对响应值进行合并;在提取网络输出后,通过重新排序矩阵乘法和汇总,平均每个视频的推理时间从大约10秒缩短到小于0.5秒。
CN201710429060.9A 2017-06-08 2017-06-08 一种基于结构化分段网络的时间动作检测方法 Withdrawn CN107292249A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710429060.9A CN107292249A (zh) 2017-06-08 2017-06-08 一种基于结构化分段网络的时间动作检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710429060.9A CN107292249A (zh) 2017-06-08 2017-06-08 一种基于结构化分段网络的时间动作检测方法

Publications (1)

Publication Number Publication Date
CN107292249A true CN107292249A (zh) 2017-10-24

Family

ID=60096106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710429060.9A Withdrawn CN107292249A (zh) 2017-06-08 2017-06-08 一种基于结构化分段网络的时间动作检测方法

Country Status (1)

Country Link
CN (1) CN107292249A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563670A (zh) * 2018-01-12 2018-09-21 武汉斗鱼网络科技有限公司 视频推荐方法、装置、服务器及计算机可读存储介质
CN108573246A (zh) * 2018-05-08 2018-09-25 北京工业大学 一种基于深度学习的时序动作识别方法
CN108664931A (zh) * 2018-05-11 2018-10-16 中国科学技术大学 一种多阶段视频动作检测方法
CN108734095A (zh) * 2018-04-10 2018-11-02 南京航空航天大学 一种基于3d卷积神经网络的动作检测方法
CN108830212A (zh) * 2018-06-12 2018-11-16 北京大学深圳研究生院 一种视频行为时间轴检测方法
CN109214330A (zh) * 2018-08-30 2019-01-15 北京影谱科技股份有限公司 基于视频时序信息的视频语义分析方法和装置
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
CN110414367A (zh) * 2019-07-04 2019-11-05 华中科技大学 一种基于gan和ssn的时序行为检测方法
CN113569758A (zh) * 2021-07-29 2021-10-29 西安交通大学 基于动作三元组引导的时序动作定位方法、系统、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUE ZHAO等: "Temporal Action Detection with Structured Segment Networks", 《ARXIV(HTTPS://ARXIV.ORG/ABS/1704.06228V1)》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563670B (zh) * 2018-01-12 2021-04-27 武汉斗鱼网络科技有限公司 视频推荐方法、装置、服务器及计算机可读存储介质
CN108563670A (zh) * 2018-01-12 2018-09-21 武汉斗鱼网络科技有限公司 视频推荐方法、装置、服务器及计算机可读存储介质
CN108734095B (zh) * 2018-04-10 2022-05-20 南京航空航天大学 一种基于3d卷积神经网络的动作检测方法
CN108734095A (zh) * 2018-04-10 2018-11-02 南京航空航天大学 一种基于3d卷积神经网络的动作检测方法
CN108573246B (zh) * 2018-05-08 2022-04-05 北京工业大学 一种基于深度学习的时序动作识别方法
CN108573246A (zh) * 2018-05-08 2018-09-25 北京工业大学 一种基于深度学习的时序动作识别方法
CN108664931B (zh) * 2018-05-11 2022-03-01 中国科学技术大学 一种多阶段视频动作检测方法
CN108664931A (zh) * 2018-05-11 2018-10-16 中国科学技术大学 一种多阶段视频动作检测方法
CN108830212A (zh) * 2018-06-12 2018-11-16 北京大学深圳研究生院 一种视频行为时间轴检测方法
CN108830212B (zh) * 2018-06-12 2022-04-22 北京大学深圳研究生院 一种视频行为时间轴检测方法
CN109214330A (zh) * 2018-08-30 2019-01-15 北京影谱科技股份有限公司 基于视频时序信息的视频语义分析方法和装置
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法
CN110414367A (zh) * 2019-07-04 2019-11-05 华中科技大学 一种基于gan和ssn的时序行为检测方法
CN110414367B (zh) * 2019-07-04 2022-03-29 华中科技大学 一种基于gan和ssn的时序行为检测方法
CN113569758A (zh) * 2021-07-29 2021-10-29 西安交通大学 基于动作三元组引导的时序动作定位方法、系统、设备及介质
CN113569758B (zh) * 2021-07-29 2024-04-02 西安交通大学 基于动作三元组引导的时序动作定位方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN107292249A (zh) 一种基于结构化分段网络的时间动作检测方法
Dong et al. PGA-Net: Pyramid feature fusion and global context attention network for automated surface defect detection
CN108876780B (zh) 一种复杂背景下桥梁裂缝图像裂缝检测方法
CN111723786B (zh) 一种基于单模型预测的安全帽佩戴检测方法及装置
CN110502988A (zh) 视频中的组群定位与异常行为检测方法
CN109635928A (zh) 一种基于深度学习模型融合的电压暂降原因识别方法
CN104933428B (zh) 一种基于张量描述的人脸识别方法及装置
CN106570513A (zh) 大数据网络系统的故障诊断方法和装置
CN111832615A (zh) 一种基于前景背景特征融合的样本扩充方法及系统
CN113435424B (zh) 一种保密介质销毁颗粒度的识别方法和系统
KR102593835B1 (ko) 휴리스틱 가우스 클라우드 변환에 기반하는 얼굴인식 기술
CN104537356A (zh) 利用瑞士轮排序进行步态识别的行人再标识方法和装置
CN105046882A (zh) 摔倒检测方法以及装置
CN109086794B (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
CN112766619A (zh) 一种商品时序数据预测方法及系统
CN110210550A (zh) 基于集成学习策略的图像细粒度识别方法
CN115879619A (zh) 一种变电站日前碳排放因子预测方法及系统
CN113706291A (zh) 欺诈风险预测方法、装置、设备及存储介质
CN113298817A (zh) 一种准确率高的遥感图像语义分割方法
CN115410258A (zh) 基于注意力图像的人脸表情识别方法
CN113435335B (zh) 微观表情识别方法、装置、电子设备及存储介质
CN104537392B (zh) 一种基于判别性语义部件学习的对象检测方法
CN117540303A (zh) 基于交叉半监督机器学习算法的滑坡易发性评估方法及系统
CN103976749A (zh) 一种实时疲劳提示的方法及装置
CN116541755A (zh) 一种基于时序图表征学习的金融行为模式分析预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20171024