CN107292249A

CN107292249A - 一种基于结构化分段网络的时间动作检测方法

Info

Publication number: CN107292249A
Application number: CN201710429060.9A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-06-08
Filing date: 2017-06-08
Publication date: 2017-10-24

Abstract

本发明中提出的一种基于结构化分段网络的时间动作检测方法，其主要内容包括：三级结构、结构时间金字塔池、活动和完整性分类器、位置回归和多任务损失函数、降低计算成本，其过程为，框架产生一组不同持续时间的时间提案，每个提案都有一个开始和结束的时间；在每个提案之后，将构建一个时间金字塔，从而产生提案的全局表示；最后分别用于识别活动类别和评估完整性的两个分类器，并将它们的预测组合起来，从而产生有类别标签的实例的一个子集，过滤背景或不完整的提案。本发明克服了长期建模的计算问题，实现了长视频高效的端到端训练；能够精确地定位时间边界和定位动作，降低计算成本，从而允许对长期时间结构进行建模，进一步提高检测性能。

Description

一种基于结构化分段网络的时间动作检测方法

技术领域

本发明涉及动作检测领域，尤其是涉及了一种基于结构化分段网络的时间动作检测方法。

背景技术

随着影视、网络等媒体的迅速普及和发展，视频已成为信息的主要载体，且视频数据的数量呈爆炸式增长，因此相关的视频处理技术也正在发展中。针对视频的动作检测技术是当前研究的重点之一，具有很高的研究价值和广泛的应用前景，比如，它可以用于自动售货机、ATM机、商场、车站等公共场合的智能监控、人群中危险姿势的监控、虚拟现实、人机交互、体育及娱乐运动分析等，在工业、医疗、军事和生活等也需要用到人体动作检测装置来进行模拟训练。然而，现今的动作检测方法计算成本高，定位动作时精确度不高，急需改进以满足使用需求。

本发明提出了一种基于结构化分段网络的时间动作检测方法，框架产生一组不同持续时间的时间提案，每个提案都有一个开始和结束的时间；在每个提案之后，将构建一个时间金字塔，从而产生提案的全局表示；最后分别用于识别活动类别和评估完整性的两个分类器，并将它们的预测组合起来，从而产生有类别标签的实例的一个子集，过滤背景或不完整的提案。本发明克服了长期建模的计算问题，实现了长视频高效的端到端训练；能够精确地定位时间边界和定位动作，降低计算成本，从而允许对长期时间结构进行建模，进一步提高检测性能。

发明内容

针对计算成本高等问题，本发明的目的在于提供一种基于结构化分段网络的时间动作检测方法，框架产生一组不同持续时间的时间提案，每个提案都有一个开始和结束的时间；在每个提案之后，将构建一个时间金字塔，从而产生提案的全局表示；最后分别用于识别活动类别和评估完整性的两个分类器，并将它们的预测组合起来，从而产生有类别标签的实例的一个子集，过滤背景或不完整的提案。

为解决上述问题，本发明提供一种基于结构化分段网络的时间动作检测方法，其主要内容包括：

(一)三级结构；

(二)结构时间金字塔池；

(三)活动和完整性分类器；

(四)位置回归和多任务损失函数；

(五)降低计算成本。

其中，所述的结构化分段网络，提出的结构化分段网络框架将输入视频和一组时间动作提案；它输出一组与类别标签相关联的预测活动实例和时间范围(由起始点和终点界定)；从输入到输出，需要三个关键步骤；首先，框架产生一组不同持续时间的时间提案，每个提案都有一个开始和结束的时间；在每个提案之后，将构建一个时间金字塔，从而产生提案的全局表示；最后，分别用于识别活动类别和评估完整性的两个分类器，并将它们的预测组合起来，从而产生有类别标签的实例的一个子集，背景或不完整的其他提案将被过滤掉。

其中，所述的三级结构，在输入级别，视频可以表示为T片段序列，表示为这里，一个片段包含几个连续的帧，其总体上由RGB图像和光流栈组合表征；考虑一组给定的N个提议每个提案p_i由起始时间s_i和结束时间e_i组成；因此，p_i的持续时间为d_i＝e_i-s_i；在s′_i＝s_i-d_i/2和e′_i＝e_i+d_i/2的情况下，将每个提案p_i增加到p′_i＝[s′_i,e′_i]；增加的提案p′_i将p_i的跨度加倍，超过起始点和结束点，分别为d_i/2；如果提案与完成的实例精确对齐，则增强的提案不仅将捕获活动的固有过程，而且还将捕获如何开始以及如何结束；按照三个阶段的概念，将增强提案p′_i划分为三个连续的间隔：和分别对应于开始、进程和结束阶段。

其中，所述的结构时间金字塔池，结构化分段网络框架通过时间金字塔池来为每个提案提供全局表示；具体来说，给定一个增加的提案p′_i分为三个阶段和首先分别通过时间金字塔池合并计算逐级特征向量和然后将它们连接成全局表示；具体来说，间隔[s,e]将覆盖一系列片段，表示为{S_t|s≤t≤e}；对于每个片段，可以获得一个特征向量v_t；

基于这些特征，构建一个K级时间金字塔，每个级别将区间均匀分为B_k部分；对于第k级的第i部分，其间隔是[s_ki,e_ki]，可以得到一个汇集的特征：

这个阶段的整体表现可以通过连接所有层面所有部分的汇集特征来获得

其中，所述的活动和完整性分类器，活动分类器A将输入提案分类为K+1类，即K活动类(标签为1,…,K)和附加“背景”类(标签为0)；完整性分类器是一组二进制分类器，每个分类器用于一个活动类；特别地，C_k根据涵盖所有三个阶段的全局表示预测提案是否捕获k类的完整活动实例；这样，完整性不仅取决于提案本身，而且也取决于其周围环境；

两种类型的分类器都为线性分类器；给定提案p_i，活动分类器将通过softmax层产生归一化响应的向量；从概率来看，它可以被认为是条件分布P{c_i|p_i}，其中c_i是类标签；对于每个活动类k，相应的完整性分类器C_k将产生概率值，其可以被理解为条件概率P{b_i|c_i,p_i}，其中b_i指示p_i是否完整；当c_i≥1,P(c_i,b_i|p_i)＝P(c_i|p_i)·P{b_i|c_i,p_i}，两个输出一起形成联合分配。

进一步地，所述的定义统一的分类损失函数，在两种类型的分类器上联合定义统一的分类损失函数；通过提案p_i及其标签c_i：

这里，完整性项P{b_i|c_i,p_i}仅在c_i≥1时使用；这些分类器和结构化时间金字塔集成到一个以端到端方式训练的单一网络中。

其中，所述的位置回归和多任务损失函数，通过在全局特征中编码的结构化信息，不仅可以进行分类预测，而且还可以通过位置回归来优化提案的时间间隔本身；设计一组位置回归器每个都是一个活动类；对于积极的提案p_i，它们使用最接近的实体实例作为目标来回归间隔中心μ_i和跨度φ_i(以对数标度)；对于分类器和位置回归器，在训练样本p_i上定义了多任务损失函数，如：

这里，使用平滑的L₁损耗函数。

其中，所述的降低计算成本，包括训练稀疏抽样和推论与重新计算。

进一步地，所述的训练稀疏抽样，给定一个增强的提案p′_i，将它们均匀地分成L＝9段，每个段随机抽样一个片段，对应段上的每个池区执行结构化时间金字塔池，有效降低了计算成本，特别是长期结构建模，可以通过大量长的提案实现对整个框架的端到端训练。

进一步地，所述的推论与重新计算，在测试中，以6帧的固定间隔采样视频片段，并在其上构建时间金字塔；时间金字塔的原始公式首先计算集合的特征，然后将分类器和回归器应用于顶部；对于每个视频，将会产生数百个提案，并且这些提议可能会相互重叠；因此，在其中提取的特征在提案之间共享；

为了在计算中利用这种冗余，采用位置敏感池提高测试效率；分类器和回归器都是线性的；因此，分类或回归的关键步骤是将权重矩阵W与全局特征向量f相乘；f本身是多个函数的连接，每个函数都在一定的间隔内合并；因此，计算可以写成：

W_f＝∑_jW_jf_j (4)

其中，j指向沿金字塔的不同区域，f_j是通过平均汇总区域r_j内的所有片段特征获得的；因此有：

表示在r_j上的平均合并，这是一个线性运算，因此可以与矩阵乘法交换；公式(5)表明线性响应，在分组之前可以计算分类器或回归器；以这种方式，对于所有片段的每个视频，重矩阵乘法可以执行一次，对于每个提案，只需要对响应值进行合并；在提取网络输出后，通过重新排序矩阵乘法和汇总，平均每个视频的推理时间从大约10秒缩短到小于0.5秒。

附图说明

图1是本发明一种基于结构化分段网络的时间动作检测方法的系统框架图。

图2是本发明一种基于结构化分段网络的时间动作检测方法的结构化分段网络。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于结构化分段网络的时间动作检测方法的系统框架图。主要包括三级结构，结构时间金字塔池，活动和完整性分类器，位置回归和多任务损失函数，降低计算成本。

三级结构，在输入级别，视频可以表示为T片段序列，表示为这里，一个片段包含几个连续的帧，其总体上由RGB图像和光流栈组合表征；考虑一组给定的N个提议每个提案p_i由起始时间s_i和结束时间e_i组成；因此，p_i的持续时间为d_i＝e_i-s_i；在s′_i＝s_i-d_i/2和e′_i＝e_i+d_i/2的情况下，将每个提案p_i增加到p′_i＝[s′_i,e′_i]；增加的提案p′_i将p_i的跨度加倍，超过起始点和结束点，分别为d_i/2；如果提案与完成的实例精确对齐，则增强的提案不仅将捕获活动的固有过程，而且还将捕获如何开始以及如何结束；按照三个阶段的概念，将增强提案p′_i划分为三个连续的间隔：和分别对应于开始、进程和结束阶段。

结构时间金字塔池，结构化分段网络框架通过时间金字塔池来为每个提案提供全局表示；具体来说，给定一个增加的提案p′_i分为三个阶段和首先分别通过时间金字塔池合并计算逐级特征向量和然后将它们连接成全局表示；具体来说，间隔[s,e]将覆盖一系列片段，表示为{S_t|s≤t≤e}；对于每个片段，可以获得一个特征向量υ_t；

活动和完整性分类器，活动分类器A将输入提案分类为K+1类，即K活动类(标签为1,…,K)和附加“背景”类(标签为0)；完整性分类器是一组二进制分类器，每个分类器用于一个活动类；特别地，C_k根据涵盖所有三个阶段的全局表示预测提案是否捕获k类的完整活动实例；这样，完整性不仅取决于提案本身，而且也取决于其周围环境；

定义统一的分类损失函数，在两种类型的分类器上联合定义统一的分类损失函数；通过提案p_i及其标签c_i：

位置回归和多任务损失函数，通过在全局特征中编码的结构化信息，不仅可以进行分类预测，而且还可以通过位置回归来优化提案的时间间隔本身；设计一组位置回归器每个都是一个活动类；对于积极的提案p_i，它们使用最接近的实体实例作为目标来回归间隔中心μ_i和跨度φ_i(以对数标度)；对于分类器和位置回归器，在训练样本p_i上定义了多任务损失函数，如：

这里，使用平滑的L₁损耗函数。

降低计算成本，包括训练稀疏抽样和推论与重新计算。

训练稀疏抽样，给定一个增强的提案p′_i，将它们均匀地分成L＝9段，每个段随机抽样一个片段，对应段上的每个池区执行结构化时间金字塔池，有效降低了计算成本，特别是长期结构建模，可以通过大量长的提案实现对整个框架的端到端训练。

推论与重新计算，在测试中，以6帧的固定间隔采样视频片段，并在其上构建时间金字塔；时间金字塔的原始公式首先计算集合的特征，然后将分类器和回归器应用于顶部；对于每个视频，将会产生数百个提案，并且这些提议可能会相互重叠；因此，在其中提取的特征在提案之间共享；

W_f＝∑_jW_jf_j (4)

图2是本发明一种基于结构化分段网络的时间动作检测方法的结构化分段网络。提出的结构化分段网络框架将输入视频和一组时间动作提案；它输出一组与类别标签相关联的预测活动实例和时间范围(由起始点和终点界定)；从输入到输出，需要三个关键步骤；首先，框架产生一组不同持续时间的时间提案，每个提案都有一个开始和结束的时间；在每个提案之后，将构建一个时间金字塔，从而产生提案的全局表示；最后，分别用于识别活动类别和评估完整性的两个分类器，并将它们的预测组合起来，从而产生有类别标签的实例的一个子集，背景或不完整的其他提案将被过滤掉。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于结构化分段网络的时间动作检测方法，其特征在于，主要包括三级结构(一)；结构时间金字塔池(二)；活动和完整性分类器(三)；位置回归和多任务损失函数(四)；降低计算成本(五)。

2.基于权利要求书1所述的结构化分段网络，其特征在于，提出的结构化分段网络框架将输入视频和一组时间动作提案；它输出一组与类别标签相关联的预测活动实例和时间范围(由起始点和终点界定)；从输入到输出，需要三个关键步骤；首先，框架产生一组不同持续时间的时间提案，每个提案都有一个开始和结束的时间；在每个提案之后，将构建一个时间金字塔，从而产生提案的全局表示；最后，分别用于识别活动类别和评估完整性的两个分类器，并将它们的预测组合起来，从而产生有类别标签的实例的一个子集，背景或不完整的其他提案将被过滤掉。

3.基于权利要求书1所述的三级结构(一)，其特征在于，在输入级别，视频可以表示为T片段序列，表示为这里，一个片段包含几个连续的帧，其总体上由RGB图像和光流栈组合表征；考虑一组给定的N个提议每个提案p_i由起始时间s_i和结束时间e_i组成；因此，p_i的持续时间为d_i＝e_i-s_i；在s′_i＝s_i-d_i/2和e′_i＝e_i+d_i/2的情况下，将每个提案p_i增加到p′_i＝[s′_i,e′_i]；增加的提案p′_i将p_i的跨度加倍，超过起始点和结束点，分别为d_i/2；如果提案与完成的实例精确对齐，则增强的提案不仅将捕获活动的固有过程，而且还将捕获如何开始以及如何结束；按照三个阶段的概念，将增强提案p′_i划分为三个连续的间隔：和分别对应于开始、进程和结束阶段。

4.基于权利要求书1所述的结构时间金字塔池(二)，其特征在于，结构化分段网络框架通过时间金字塔池来为每个提案提供全局表示；具体来说，给定一个增加的提案p′_i分为三个阶段和首先分别通过时间金字塔池合并计算逐级特征向量f_i ^s，f_i ^c和f_i ^e，然后将它们连接成全局表示；具体来说，间隔[s,e]将覆盖一系列片段，表示为{S_t|s≤t≤e}；对于每个片段，可以获得一个特征向量v_t；

<mrow> <msubsup> <mi>u</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mo>|</mo> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> <mo>+</mo> <mn>1</mn> <mo>|</mo> </mrow> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <msub> <mi>s</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> </mrow> <msub> <mi>e</mi> <mrow> <mi>k</mi> <mi>i</mi> </mrow> </msub> </munderover> <msub> <mi>v</mi> <mi>t</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

5.基于权利要求书1所述的活动和完整性分类器(三)，其特征在于，活动分类器A将输入提案分类为K+1类，即K活动类(标签为1,…,K)和附加“背景”类(标签为0)；完整性分类器是一组二进制分类器，每个分类器用于一个活动类；特别地，C_k根据涵盖所有三个阶段的全局表示{f_i ^s,f_i ^c,f_i ^e}，预测提案是否捕获k类的完整活动实例；这样，完整性不仅取决于提案本身，而且也取决于其周围环境；

6.基于权利要求书5所述的定义统一的分类损失函数，其特征在于，在两种类型的分类器上联合定义统一的分类损失函数；通过提案p_i及其标签c_i：

7.基于权利要求书1所述的位置回归和多任务损失函数(四)，其特征在于，通过在全局特征中编码的结构化信息，不仅可以进行分类预测，而且还可以通过位置回归来优化提案的时间间隔本身；设计一组位置回归器每个都是一个活动类；对于积极的提案p_i，它们使用最接近的实体实例作为目标来回归间隔中心μ_i和跨度φ_i(以对数标度)；对于分类器和位置回归器，在训练样本p_i上定义了多任务损失函数，如：

这里，使用平滑的L₁损耗函数。

8.基于权利要求书1所述的降低计算成本(五)，其特征在于，包括训练稀疏抽样和推论与重新计算。

9.基于权利要求书8所述的训练稀疏抽样，其特征在于，给定一个增强的提案p′_i，将它们均匀地分成L＝9段，每个段随机抽样一个片段，对应段上的每个池区执行结构化时间金字塔池，有效降低了计算成本，特别是长期结构建模，可以通过大量长的提案实现对整个框架的端到端训练。

10.基于权利要求书8所述的推论与重新计算，其特征在于，在测试中，以6帧的固定间隔采样视频片段，并在其上构建时间金字塔；时间金字塔的原始公式首先计算集合的特征，然后将分类器和回归器应用于顶部；对于每个视频，将会产生数百个提案，并且这些提议可能会相互重叠；因此，在其中提取的特征在提案之间共享；

<mrow> <msub> <mi>W</mi> <mi>f</mi> </msub> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mi>j</mi> </msub> <msub> <mi>W</mi> <mi>j</mi> </msub> <msub> <mi>f</mi> <mi>j</mi> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>