CN108664931B

CN108664931B - 一种多阶段视频动作检测方法

Info

Publication number: CN108664931B
Application number: CN201810449678.6A
Authority: CN
Inventors: 王子磊; 赵琰
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2018-05-11
Filing date: 2018-05-11
Publication date: 2022-03-01
Anticipated expiration: 2038-05-11
Also published as: CN108664931A

Abstract

本发明公开了一种多阶段视频动作检测方法，包括：对于输入的未剪切视频通过基于深度残差网络的二分类与投票融合策略，生成融合多尺度采样与单尺度训练的粗动作片段；对于粗动作片段，基于帧级动作识别结果，采用统计融合策略进行动作类别与动作边界的联合判别，获得初步的动作检测片段；结合初步的动作检测片段之间的IoU，利用改进的非极大值抑制算法对初步的动作检测片段进行处理，最终获得未剪切视频的动作检测结果，即每个视频动作检测片段的动作类别和起止时间位置。该方法可以提高动作分类准确率，并提高动作定位精度。

Description

一种多阶段视频动作检测方法

技术领域

本发明涉及视频动作检测技术领域，尤其涉及一种多阶段视频动作检测方法。

背景技术

随着网络、多媒体技术的迅速发展，视频已经成为人们获取信息的重要载体，且视频的数量呈爆发式增长，因此视频内容的分析与理解技术至关重要。未剪切的视频通常包含多个动作实例片段和大量无关的背景片段，动作发生的位置、时间间隔、动作类别标签都是未知的。视频动作检测任务是能够识别出未剪切视频中多个动作实例的类别标签和定位动作实例发生的开始时间和结束时间，该任务作为当前视频处理技术的重要研究方向之一，广泛应用于智能监控、视频检索、人机交互等领域。近年来，随着深度学习技术的不断革新，视频动作识别任务取得了很大的进展。然而，视频动作检测领域的发展仍处于起步阶段，当前的视频动作检测方法还存在着极大的挑战，计算成本高，动作定位精确度低，急需改进以满足应用需求。

目前关于视频动作检测任务的方法相对较少，主要可分为两大类：

第一类方法是对视频帧或者视频片段进行动作分类识别，然后使用相关算法把视频帧或者视频片段进行合并或者筛选的方式得到最终的视频检测片段。

1)在专利《一种基于卷积神经网络的视频动作检测方法》中，先使用不同尺度的滑动窗口依次对未剪切视频进行分割，然后用带有时空金字塔层的卷积神经网络识别分类不同尺度的短视频片段，最后简单使用置信分数阈值筛选得到最终的视频检测片段。该方法没有对未剪切视频中大量背景片段进行筛选，而直接对不同尺度的所有短视频片段提取特征并分类识别，由于背景片段之间类内差异性大、背景片段和动作片段之间类间差异小等特点，导致动作分类网络难以学习出更有效的特征，动作分类准确率有限；同时该专利最后仅仅使用置信分数阈值对动作检测片段进行筛选，没有考虑视频检测片段之间的IoU，影响了动作定位的精确度。

2)在专利《一种基于卷积神经网络的动作检测模型》中，先使用基于光流图的Faster RCNN模型中的RPN模块得到视频每一帧中的兴趣区域，然后使用基于帧图的FasterRCNN模型和基于光流图的Faster RCNN模型分别提取视频每一帧中的兴趣区域的表征特征和动作特征，然后使用SVM分类器对视频每一帧中的兴趣区域进行分类识别，最后在视频序列上对兴趣区域使用维特比算法得到最优路径序列，即最终的动作检测片段。该方法由于涉及到视频每一帧中兴趣区域的生成，以及使用基于光流图的Faster RCNN模型，同时还要根据视频帧中的兴趣区域特征训练有效的SVM分类器，而不是使用卷积神经网络同时提取特征和分类。该算法时间复杂度太高，缺乏有效性和实用性。

第二类方法是先通过动作候选网络，排除视频中大量无关的背景干扰片段，得到动作候选片段，然后再对动作候选片段进行动作分类识别。

1)在论文《Temporal Action Localization in Untrimmed Videos via Multi-stage CNNs》中Shou Z等人使用多尺度的滑动窗口对未剪切视频进行分割，先使用候选分类网络筛选出候选动作片段，再使用3D CNN网络来实现视频片段的动作分类。但是由于候选分类网络要求网络输入的视频片段的时间长度一致，该方法通过控制下采样的频率来获取不同时间长度的视频片段，然而使用同一个网络结构训练利用不同采样频率得到的视频片段会导致类内的差异性增加，动作内的连续性遭到破坏，从而使得3D CNN学习不到较好的运动特征，增加网络训练的难度。而且该方法仅仅只对视频片段的动作类别进行分类，没有实现视频片段边界的微调，从而使动作定位准确率的提升受到了限制。

发明内容

本发明的目的是提供一种多阶段视频动作检测方法，可以提高动作分类准确率，并提高动作定位精度。

本发明的目的是通过以下技术方案实现的：

一种多阶段视频动作检测方法，包括：

对于输入的未剪切视频通过基于深度残差网络的二分类与投票融合策略，生成融合多尺度采样与单尺度训练的粗动作片段；

对于粗动作片段，基于帧级动作识别结果，采用统计融合策略进行动作类别与动作边界的联合判别，获得初步的动作检测片段；

结合初步的动作检测片段之间的IoU，利用改进的非极大值抑制算法对初步的动作检测片段进行处理，最终获得未剪切视频的动作检测结果，即每个视频动作检测片段的动作类别和起止时间位置。

由上述本发明提供的技术方案可以看出，1)采用性能更优的三维深度残差网络作为分类网络，同时训练过程中使用融合多尺度和单尺度的两级采样生成固定尺度的训练样本，有效避免了多尺度样本导致的运动特征难以学习、准确率低等问题，能够更加精确地生成视频粗动作片段。2)利用帧级动作识别结果，采用统计融合策略实现了视频片段动作类别与动作边界的联合判别，提高了动作分类的准确度和动作边界定位的精确度。3)使用了改进的非极大值抑制，同时考虑了待处理动作片段的置信分数以及它与已保留动作片段之间的IoU，能够进一步改善动作检测结果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的多阶段视频动作检测方法的流程图；

图2为本发明实施例提供的为生成融合多尺度采样与单尺度训练的粗动作片段的流程图；

图3为本发明实施例提供的帧级动作识别过程示意图；

图4为本发明实施例提供的基于高斯分布的统计融合策略示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种多阶段视频动作检测方法，如图1所示，其主要包括如下三个步骤：

一、对于输入的未剪切视频通过基于深度残差网络的二分类与投票融合策略，生成融合多尺度采样与单尺度训练的粗动作片段。

如图2所示，为生成融合多尺度采样与单尺度训练的粗动作片段的流程图，主要包括如下三个步骤：

1、针对输入的未剪切视频，通过融合多尺度和单尺度的两级采样分别获得多尺度视频片段集合和单尺度视频片段集合。

本发明实施例中，依次使用多个不同时间尺度且重叠率相同的滑动窗口对未剪切视频进行采样，生成多尺度视频片段集合。示例性的，可以将时间尺度设置为L_c＝{32,64,128,256,512}。

在多尺度视频片段上，使用单一固定时间尺度且重叠率相同的滑动窗口进行采样，生成单尺度的视频片段集合。示例性的，可以设定单一固定时间尺度L_f＝16。

之后，可以将所有单尺度视频片段的大小统一为L*W*H，并作为三维深度残差网络的输入，用来训练能区分视频动作片段和背景片段的二分类网络模型。示例性的，L*W*H可以设为16*171*128。

2、针对单尺度视频片段集合，进行基于深度残差网络的二分类，即判断每一单尺度视频片段是否属于动作，从而筛选出单尺度的粗动作片段。

本发明实施例中，使用和训练样本同样的生成方式生成计算样本，即单尺度视频片段。

再将单尺度视频片段输入到预先训练好的基于三维深度残差网络的二分类模型，得到所有单尺度视频片段属于动作的置信分数；

根据置信分数判断相应的单尺度视频片段是否属于动作，从而筛选出单尺度的粗动作片段。

3、对于多尺度视频片段集合，采用投票融合策略判别每一多尺度视频片段是否属于动作，从而获得多尺度的粗动作片段。

本发明实施例中，针对当前多尺度视频片段，假设其生成L个单尺度视频片段为a₁,a₂,…,a_L，通过基于深度残差网络的二分类获得每一个单尺度视频片段对应的置信分数

其中的

为第l个单尺度视频片段第p类置信分数，第1类、第2类分别对应为视频动作类、背景类；依据置信分数判别每个单尺度视频片段是否属于动作，当属于动作的单尺度视频片段超过设定值(例如，L/2)，则判定当前多尺度视频片段属于动作；否则判定为背景类别，将不再处理。

二、对于粗动作片段，基于帧级动作识别结果，采用统计融合策略进行动作类别与动作边界的联合判别，获得初步的动作检测片段。

本步骤主要包括如下两个部分：

1、对于粗动作片段，采用帧级动作识别方法预测粗动作片段中每一个视频帧的动作类别，获得对应多类别的置信分数向量。

将单个粗动作片段或者单个粗动作片段中每一个视频帧的图片信息和光流信息，输入到预先训练好的卷积反卷积网络或者双流卷积神经网络的输入层；然后，进行网络前向传播，从而得到所有视频帧对应多类别的置信分数向量

其中，K表示单个粗动作片段中视频帧的数量，C表示动作类别的数量；第k个视频帧第i个动作类别的置信分数为

以双流卷积神经网络为例。如图3所示，提取单个粗动作片段中每一个视频帧的图片信息和光流信息，分别输入到预先训练好的双流卷积神经网络的输入层；然后，进行网络前向传播后得到所有视频帧对应多类别的置信分数向量。

2、针对单个粗动作片段，结合其对应的多类别的置信分数向量，采用统计融合策略同时判别单个粗动作片段的动作类别和动作边界，从而获得初步的动作检测片段。

如图4所示，针对单个粗动作片段的所有视频帧对应多类别的置信分数向量，采用高斯密度估计拟合每一动作类别(即，每一维)对应的置信分数的分布，获得对应的均值和方差；其中，第i个动作类别对应的均值和方差记为μ_i和σ_i；

针对第i个动作类别，找出视频帧序列中第一个和最后一个连续M帧置信分数大于阈值μ_i-σ_i的帧位置；将第一个连续M帧位置的首帧作为第i个动作类别的起始帧，将最后一个连续M帧位置的未帧作为第i个动作类别的结束帧；

计算每个动作类别起始帧和结束帧之间的平均置信分数，取平均置信分数最大的动作类别为相应粗动作片段的类别，动作边界为相应动作类别对应的起始帧和结束帧，类别置信分数为对应的起始帧和结束帧之间的平均置信分数，最终实现粗动作片段动作类别和动作边界的联合判别，从而获得初步的动作检测片段。

本发明实施例中，所述初步的动作检测片段包含了不同视频编号的动作检测片段，以及同一视频编号的不同动作检测片段。

示例性的，如果使用双流卷积神经网络，训练样本的动作类别可以设为21类(包含背景类)，即C＝21，M可以设置为5。

三、结合初步的动作检测片段之间的IoU(Intersection-over-Union，交并比)，利用改进的非极大值抑制算法对初步的动作检测片段进行处理，最终获得未剪切视频的动作检测结果，即每个视频动作检测片段的动作类别和起止时间位置。

本领域技术人员可以理解，IoU是指两个动作检测片段的交集除以并集。

经过上述的对粗动作片段的动作类别和动作边界的联合判别，生成了大量的动作类别、开始位置、结束位置已知的初步的动作检测片段。为了去除高度重合冗余的视频动作检测片段，本发明提出了使用改进的非极大值抑制算法。

首先，按照同一个视频编号同一个动作类别的标准将初步获得的动作检测片段分成不同的动作检测片段集合；

然后，设置两个阈值t₁,t₂(1≥t₁≥t₂≥0)；

针对任一动作检测片段集合，按置信分数从高到低进行排序，保留置信分数最高的动作片段，然后依次处理剩余动作片段；计算每一剩余动作片段与已保留动作片段的IoU，当IoU＞t₁时，删除相应剩余动作片段；当t₂≤IoU≤t₁时，依据IoU大小降低相应剩余动作片段的置信分数；当IoU＜t₂时，相应剩余动作片段的置信分数不变；保留通过上述处理后的剩余动作片段中置信分数最高动作片段；重复上述过程，直到动作检测片段集合中所有的动作片段都已经处理，也即动作片段被删除或者被保留，直到没有一个剩余动作片段；

迭代上述过程，直至所有动作检测片段集合都完成上述过程后，得到未剪切视频的动作检测结果。

本发明实施例中，当t₂≤IoU≤t₁时，置信分数的降低使用高斯加权的方式，公式如下：

其中，s_u、s_u'为剩余动作片段u降低前、后的置信分数；E为当前置信分数最高的动作片段；iou(E,u)表示剩余动作片段u与当前置信分数最高的动作片段E之间的IoU，iou(E,u)越大，则剩余动作片段u的置信分数下降的越多；σ为高斯分布的标准差，可以设置为0.5。

示例性的，当在计算视频动作检测评价指标mAP时的交并比阈值设置为0.5时，t₁＝0.5,t₂＝0.2。

本发明实施例上述方案相对于现有技术而言主要具有如下优点：

1)采用性能更优的三维深度残差网络作为分类网络，同时训练过程中使用融合多尺度和单尺度的两级采样生成固定尺度的训练样本，有效避免了多尺度样本导致的运动特征难以学习、准确率低等问题，能够更加精确地生成视频粗动作片段。

2)利用帧级动作识别结果，采用统计融合策略实现了视频片段动作类别与动作边界的联合判别，提高了动作分类的准确度和动作边界定位的精确度。

3)使用了改进的非极大值抑制，同时考虑了待处理动作片段的置信分数以及它与已保留动作片段之间的IoU，能够进一步改善动作检测结果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种多阶段视频动作检测方法，其特征在于，包括：

结合初步的动作检测片段之间的IoU，利用改进的非极大值抑制算法对初步的动作检测片段进行处理，最终获得未剪切视频的动作检测结果，即每个视频动作检测片段的动作类别和起止时间位置；

其中，所述对于输入的未剪切视频通过基于深度残差网络的二分类与投票融合策略，生成融合多尺度采样与单尺度训练的粗动作片段包括：针对输入的未剪切视频，通过融合多尺度和单尺度的两级采样分别获得多尺度视频片段集合和单尺度视频片段集合；针对单尺度视频片段集合，进行基于深度残差网络的二分类，即判断每一单尺度视频片段是否属于动作，从而筛选出单尺度的粗动作片段；对于多尺度视频片段集合，采用投票融合策略判别每一多尺度视频片段是否属于动作，从而获得多尺度的粗动作片段；

采用投票融合策略判别每一多尺度视频片段是否属于动作包括：针对当前多尺度视频片段，假设其生成L个单尺度视频片段为a₁,a₂,…,a_L，通过基于深度残差网络的二分类获得每一个单尺度视频片段对应的置信分数

其中的

为第l个单尺度视频片段第p类置信分数，第1类、第2类分别对应为视频动作类、背景类；依据置信分数判别每个单尺度视频片段是否属于动作，当属于动作的单尺度视频片段超过设定值，则判定当前多尺度视频片段属于动作；

所述对于粗动作片段，基于帧级动作识别结果，采用统计融合策略进行动作类别与动作边界的联合判别，获得初步的动作检测片段包括：对于粗动作片段，采用帧级动作识别方法预测粗动作片段中每一个视频帧的动作类别，获得对应多类别的置信分数向量；然后针对单个粗动作片段，结合其对应的多类别的置信分数向量，采用统计融合策略同时判别单个粗动作片段的动作类别和动作边界，从而获得初步的动作检测片段；

所述针对单个粗动作片段，结合其对应的多类别的置信分数向量，采用统计融合策略同时判别单个粗动作片段的动作类别和动作边界，从而获得初步的动作检测片段包括：

针对单个粗动作片段的所有视频帧对应多类别的置信分数向量，采用高斯密度估计拟合每一动作类别对应的置信分数的分布，获得对应的均值和方差；其中，第i个动作类别对应的均值和方差记为μ_i和σ_i；

针对第i个动作类别，找出视频帧序列中第一个和最后一个连续M帧置信分数大于阈值μ_i-σ_i的帧位置；将第一个连续M帧位置的首帧作为第i个动作类别的起始帧，将最后一个连续M帧位置的末帧作为第i个动作类别的结束帧；

2.根据权利要求1所述的一种多阶段视频动作检测方法，其特征在于，所述融合多尺度和单尺度的两级采样包括：

依次使用多个不同时间尺度且重叠率相同的滑动窗口对未剪切视频进行采样，生成多尺度视频片段集合；

在多尺度视频片段上，使用单一固定时间尺度且重叠率相同的滑动窗口进行采样，生成单尺度的视频片段集合。

3.根据权利要求1所述的一种多阶段视频动作检测方法，其特征在于，所述针对单尺度视频片段集合，进行基于深度残差网络的二分类，即判断每一单尺度视频片段是否属于动作，从而筛选出单尺度的粗动作片段包括：

将单尺度视频片段输入到预先训练好的基于三维深度残差网络的二分类模型，得到所有单尺度视频片段属于动作的置信分数；

4.根据权利要求1所述的一种多阶段视频动作检测方法，其特征在于，所述对于粗动作片段，采用帧级动作识别方法预测粗动作片段中每一个视频帧的动作类别，获得对应多类别的置信分数向量包括：

将单个粗动作片段或者单个粗动作片段中每一个视频帧的图片信息和光流信息，分别输入到预先训练好的卷积反卷积网络或者双流卷积神经网络的输入层；然后，进行网络前向传播，从而得到所有视频帧对应多类别的置信分数向量

5.根据权利要求1所述的一种多阶段视频动作检测方法，其特征在于，所述结合初步的动作检测片段之间的IoU，利用改进的非极大值抑制算法对初步的动作检测片段进行处理，最终获得未剪切视频的动作检测结果包括：

所述初步的动作检测片段包含了不同视频编号的动作检测片段，以及同一视频编号的不同动作检测片段；

按照同一个视频编号同一个动作类别的标准将初步获得的动作检测片段分成不同的动作检测片段集合；

设置两个阈值t₁,t₂(1≥t₁≥t₂≥0)；

针对任一动作检测片段集合，按置信分数从高到低进行排序，保留置信分数最高的动作片段，然后依次处理剩余动作片段；计算每一剩余动作片段与已保留动作片段的IoU，当IoU＞t₁时，删除相应剩余动作片段；当t₂≤IoU≤t₁时，依据IoU大小降低相应剩余动作片段的置信分数；当IoU＜t₂时，相应剩余动作片段的置信分数不变；保留通过上述处理后的剩余动作片段中置信分数最高动作片段；重复上述过程，直到动作检测片段集合中所有的动作片段都已经处理；

6.根据权利要求5所述的一种多阶段视频动作检测方法，其特征在于，当t₂≤IoU≤t₁时，置信分数的降低使用高斯加权的方式，公式如下：

其中，s_u、s_u'为剩余动作片段u降低前、后的置信分数；E为当前置信分数最高的动作片段，iou(E,u)表示剩余动作片段u与当前置信分数最高的动作片段E之间的IoU，σ为高斯分布的标准差。