CN108615011A

CN108615011A - 基于多尺度滑动窗口的非修剪视频行为识别预测方法

Info

Publication number: CN108615011A
Application number: CN201810374982.9A
Authority: CN
Inventors: 杨绿溪; 陶文武; 张珊; 李春国; 黄永明
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2018-10-02
Anticipated expiration: 2038-04-24
Also published as: CN108615011B

Abstract

本发明针对非修剪视频中的行为识别问题，基于时间分割网络提出了一种多尺度滑动窗口集成方法。首先以固定的采样率采样出一定数量的片段，用训练好的TSN对各片段进行预测；然后以不同尺度的滑动窗口覆盖这些片段预测结果，每种尺度的各个窗口的预测结果为该窗口内的预测结果的最大值；接着，对于每个尺度各个窗口预测Top‑K池化生成该尺度窗口的预测结果；最后对来自不同窗口大小的聚合结果取平均作为整个视频的最终预测。相对于直接将剪切视频的平均池化方法应用于非剪切视频，本发明提供的多尺度滑动窗口方法可以有效定位行为位置和抑制无关背景的影响，是针对非修剪视频有效的预测方法。

Description

基于多尺度滑动窗口的非修剪视频行为识别预测方法

技术领域

本发明涉及计算机视觉技术领域，特别是涉及基于多尺度滑动窗口的非修剪视频行为识别预测方法。

背景技术

由于视频行为识别在视频监控、行为分析等领域的广泛应用，最近几年引起了学术界的广泛关注。视频中包含的图像信息和运动信息对于行为识别至关重要，一个行为识别系统性能的好坏很大程度上取决于能否充分挖掘和利用图像信息和运动信息。然而，视频的复杂性如尺度变化、视角变化和相机移动等导致提取这些信息很困难。面对这些挑战，设计出能够描述行为信息的有效特征显得至关重要。近几年来，CNN在物体、场景以及复杂事件的图片分类的应用中取得了巨大的成功。因此，很多学者开始研究CNN在基于视频的行为识别中的应用。深层次的CNN拥有比较大的容量，能够从大规模的数据集(如ImageNet)中自动学到有区分性的特征表示。然而与CNN在图片分类中的优异性能相比，深度CNN在视频行为识别中却不能带来优于人工特征的有效提升。

目前，视频行为识别中CNN的应用主要存在两个难点。第一，视频长时时序结构的描述对行为识别起着至关重要的作用，但是目前主流的CNN框架只关注图像信息和短时运动信息，缺乏提取长时时序结构信息的能力。相关文献通过固定间隔的稠密采样去提取长时时序结构信息。但是运用于较长的视频时，较大的计算开销限制了这类方法在真实环境中的应用。第二，深层CNN的训练通常需要大量的训练样本以实现最优的性能，然而由于在视频数据收集和标注上的困难，公开的行为识别数据集(如UCF101和HMDB51)在数量和多样性上都很有限。同时，在图片分类上取得显著成效的深层CNN结构当应用于行为识别时，可能面临过拟合的风险。面对上述难点，TSN行为识别框架(详见Wang L,Xiong Y,Wang Z,etal.Temporal segment networks:Towards good practices for deep actionrecognition[C]//European Conference on Computer Vision.Springer,Cham,2016:20-36.)被提出。TSN通过对视频序列的稀疏采样和聚合，可以很好的对长时时序结构进行建模。其次，TSN通过交叉模式初始化，扩增数据集等方法有效的缓解了因数据集有限而导致的训练困难问题。

TSN中现有的行为识别方法主要是针对修剪视频设计的。但是，现实场景中存在的大量视频都是非修剪的，如网络上的视频，并且手动修剪这些视频需要大量工作。每个行为实例可能只占用整个视频的一小部分，而大部分的背景可能会干扰动作识别模型的预测。为了缓解这个问题，需要对视频中的行为实例进行定位并同时避免背景视频的影响。因此，将学习的TSN行为识别模型应用于未修剪视频是一项极具挑战的任务。

为了更好的捕捉长时时序结构，Wang等人基于分割稀疏采样的新策略提出了一个简单，灵活且通用的行为识别框架TSN。TSN以视频中分割采样出的短片段序列作为输入。为了使这些采样出的视频片段在保持合理的计算成本下能够很好的表达整个视频的信息，TSN先将视频分割成相等长度的几个部分，然后从每部分中随机采样出一个短片段。针对每个短片段，TSN采用双流CNN中的时间流CNN捕捉视频动态变化信息和空间流CNN捕捉图像外观信息，为每个短片段先生成一个只针对短片段的时间流CNN和空间流CNN预测，然后采用一个聚合函数分别对所有短片段的时间流CNN和空间流CNN预测进行聚合，最后将时间流和空间流的聚合结果的加权输出作为整个视频的预测结果。整个网络以聚合后的预测分数和真实标签构造损失，迭代更新参数已完成整个网络端到端的训练过程。TSN的预测结果可以捕捉到整个视频的长时时序信息，比单一短片段的预测更加准确，并且其计算成本与视频持续时间无关。

针对修剪视频，TSN直接从每个视频中采样出多个片段，以多个片段的平均池化结果作为最终的预测。未修剪视频中行为识别的主要障碍是输入视频存在大部分不相关的内容。由于TSN模型是通过修剪行为片段进行训练的，如果直接采用修剪视频的测试方法即取多个视频片段的平均预测，未修剪视频的背景内容的预测会对最终模型的平均预测造成干扰。

发明内容

为了解决以上问题，本发明提供一种基于多尺度滑动窗口的非修剪视频行为识别预测方法，基于非修剪视频中行为位置随机和背景干扰的问题，本发明基于TSN网络提供了多尺度滑动窗口方法，可以很好的对非修剪视频中的行为进行预测，该方法可以有效定位动作位置和抑制无关背景的影响，对于非修剪视频的预测具有不错的性能，为达此目的，本发明提供基于多尺度滑动窗口的非修剪视频行为识别预测方法，具体步骤如下：

步骤1：为了覆盖行为实例可以驻留的任何位置，以固定的采样率从输入视频中采样出一些片段，这些片段经过训练好的TSN输出相应的预测分数，对于长度为M秒的视频，以1FPS的采样率将采样到M个片段{T₁,...,T_M}，对每个片段T_m应用TSN模型，将分别获得相应的空间流或时间流预测类别分数F(T_m)；

步骤2：然后，为了覆盖持续时间高度变化的行为片段，这里将一系列具有不同大小的时间滑动窗口应用于帧分数，针对M个预测分数，建立长度尺寸为l(l∈{1,2,4,8,16})的滑动时间窗口，滑动时间窗口将以0.5×l的步长滑动以覆盖M个预测分数序列；

步骤3：每种尺度各个滑动窗口中每类行为类别用窗口中各个片段的最大分数来表示，对于在第s秒开始的长度为l的时间窗口，所能覆盖的时间片段为{T_s+1,T_s+2,…,T_s+l}，相应的预测分数为{F(T_s+1),F(T_s+2),…,F(T_s+l)}，相应地，对于这个时间窗口的预测分数W^s ^,l计算为

W^s,l＝max_{p∈{1,2,…,l}}{F(T_s+p)}；

步骤4：为了减轻背景内容的干扰，相同尺度的窗口行为识别预测分数用Top-K池化来聚合，由于其能够在抑制噪声背景的影响的同时隐式地选择具有区别性行为实例的区间，所以Top-K池化聚合模块对未修剪的视频识别非常有效，通过步骤3，我们将得到N_l个尺寸为l

时间窗口，其中l为如上式所示，在应用前面提到的top-K的时间窗口，其中K为如上式所示，应用前面提到的Top-K池化方法对这些大小为l的N_l个窗口预测分数聚合，以此聚合的分数G^l作为所有尺寸为l的窗口聚合结果，G^l的计算如下式所示；

其中，α_k为是否选择的表示，值为1表示选择，反之为0表示不选；

步骤5：最后对来自不同窗口大小的聚合结果进行平均作为整个视频的最终预测，对于由不同大小尺寸l∈{1,2,4,8,16}的窗口滑动形成的5个聚合分数，最后的分数为这5个聚合分数的平均，计算如下

本发明的进一步改进，步骤1中TSN网络在修剪好的数据集上训练，然后将其对非修剪视频进行预测，其中TSN的详细步骤如下：

在原始双流CNN的基础上，TSN通过分割稀疏采样和信息聚合对视频长时时序结构进行建模，具体地，TSN以视频中分割采样出的短片段序列作为输入，为了使这些采样出的视频片段在保持合理的计算成本下能够很好的表达整个视频的信息，TSN先将视频分割成相等长度的几个部分，然后从每部分中随机采样出一个短片段，针对每个短片段，TSN采用双流CNN中的时间流CNN捕捉视频动态变化信息和空间流CNN捕捉图像外观信息，为每个短片段先生成一个只针对短片段的时间流CNN和空间流CNN预测，然后采用一个聚合函数分别对所有短片段的时间流CNN和空间流CNN预测进行聚合，最后将时间流和空间流的聚合结果的加权输出作为整个视频的预测结果，整个网络以聚合后的预测分数和真实标签构造损失，迭代更新参数已完成整个网络端到端的训练过程，TSN的预测结果可以捕捉到整个视频的长时时序结构信息，比单一短片段的预测更加准确，并且其计算成本与视频持续时间无关，形式化的说，给定一个视频V，先将它分成等长的K个部分{S₁,S₂,...,S_K}，从每个部分S_k随机采样出一个短片段T_k，然后，TSN以短片段序列(T₁,T₂,...,T_K)为输入，对应的输出为，

TSN(T₁,T₂,...,T_K)＝H(G(F(T₁,W),G(F(T₂,W),...,G(F(T_K,W)))；

其中，函数F(T_k,W)表示作用于短片段T_k上参数为W的卷积网络，生成每个片段的预测输出，分割聚合函数G对多个短片段的预测输出进行聚合，最后预测函数H为Softmax函数，基于聚合输出预测视频分别属于每个类的概率。

本发明的进一步改进，步骤3中每个尺度的滑动窗口通过最大池化以窗口中的最大响应作为该窗口的预测值，这样可以很好的捕捉视频中可能出现的行为，最大池化即取所有片段预测值中的最大值作为聚合预测值，如下式所示，

G_i＝max_{k＝1,2,...,K}F_i ^k；

其中，F_i ^k为网络F(T_k,W)第i个行为类别预测值，G_i为第i个行为类别的最大池化结果，G_i关于F_i ^k的梯度可以简单表示为，

最大池化聚合的基本思想是为每个行为类别都选择一个最具有区分性的视频片段，从而产生对于这个类别最强的激活响应。

本发明的进一步改进，步骤4中每种尺度的滑动窗口最终聚合值通过Top-K池化选取最具区分性的窗口预测值平均值作为该种窗口的预测值，Top-K池化能够在抑制噪声背景的影响的同时隐式地选择具有区别性行为实例的区间。Top-K池化先为每个行为类别选择K个最具判别性的片段，然后将这些选定的片段预测平均值作为最终预测值，即

其中，α_k为是否选择的表示，值为1表示选择，反之为0表示不选。最大池化和平均池化可以被分别视为k＝1和k＝K时Top-K池化的特例。类似地，可以如下式计算G_i相对于F_i ^k的梯度。

该聚合函数能够自适应地为不同的视频确定一个判别片段的子集。

本发明提供一种基于多尺度滑动窗口的非修剪视频行为识别预测方法，本发明提供的多尺度滑动窗口方法，首先以固定的采样率采样出一定数量的片段，用训练好的TSN对各片段进行预测；然后以不同尺度的滑动窗口覆盖这些片段预测结果，每种尺度的各个窗口的预测结果为该窗口内的预测结果的最大值；接着，对于每个尺度各个窗口预测Top-K池化生成该尺度窗口的预测结果；最后对对来自不同窗口大小的聚合结果进行投票作为整个视频的最终预测。相对于直接将剪切视频的平均池化方法应用于非剪切视频，本发明提供的多尺度滑动窗口方法可以有效定位动作位置和抑制无关背景的影响，是针对非修剪视频有效的预测方法。

附图说明

图1为本发明多尺度滑动窗口集成方法流程图。

图2为本发明多尺度滑动窗口集成方法示意图。

图3为本发明TSN网络框架示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

本发明提供一种基于多尺度滑动窗口的非修剪视频行为识别预测方法，基于非修剪视频中行为位置随机和背景干扰的问题，本发明基于TSN网络提供了多尺度滑动窗口方法，可以很好的对非修剪视频中的行为进行预测，该方法可以有效定位动作位置和抑制无关背景的影响，对于非修剪视频的预测具有不错的性能。

本发明提供了一种基于针对非修剪视频的多尺度滑动窗口方法，其整体流程如图1所示，方法示意图如图2所示，包括以下步骤。

步骤1：为了覆盖行为实例可以驻留的任何位置，我们以固定的采样率(例如1FPS)从输入视频中采样出一些片段，这些片段经过训练好的TSN输出相应的预测分数。对于长度为M秒的视频，以1FPS的采样率将采样到M个片段{T₁,...,T_M}。对每个片段T_m应用TSN模型，我们将分别获得相应的空间流或时间流预测类别分数F(T_m)。

其中，TSN的原理描述为图3所示，在原始双流CNN的基础上，TSN通过分割稀疏采样和信息聚合对视频长时时序进行建模，可以很好的表达长时时序结构信息。具体地，TSN以视频中分割采样出的短片段序列作为输入。为了使这些采样出的视频片段在保持合理的计算成本下能够很好的表达整个视频的信息，TSN先将视频分割成相等长度的几个部分，然后从每部分中随机采样出一个短片段。针对每个短片段，TSN采用双流CNN中的时间流CNN捕捉视频动态变化信息和空间流CNN捕捉图像外观信息，为每个短片段先生成一个只针对短片段的时间流CNN和空间流CNN预测，然后采用一个聚合函数分别对所有短片段的时间流CNN和空间流CNN预测进行聚合，最后将时间流和空间流的聚合结果的加权输出作为整个视频的预测结果。整个网络以聚合后的预测分数和真实标签构造损失，迭代更新参数已完成整个网络端到端的训练过程。TSN的预测结果可以捕捉到整个视频的长时时序信息，比单一短片段的预测更加准确，并且其计算成本与视频持续时间无关。形式化的说，给定一个视频V，先将它分成等长的K个部分{S₁,S₂,...,S_K}，从每个部分S_k随机采样出一个短片段T_k。然后，TSN以短片段序列(T₁,T₂,...,T_K)为输入，对应的输出为，

TSN(T₁,T₂,...,T_K)＝H(G(F(T₁,W),G(F(T₂,W),...,G(F(T_K,W)))；

其中，函数F(T_k,W)表示作用于短片段T_k上参数为W的卷积网络，可以生成每个片段的预测输出。分割聚合函数G对多个短片段的预测输出进行聚合。最后预测函数H为Softmax函数，基于聚合输出预测视频分别属于每个类的概率。

步骤2：然后，为了覆盖持续时间高度变化的行为片段，这里将一系列具有不同大小的时间滑动窗口应用于帧分数。针对M个预测分数，建立长度尺寸为l(l∈{1,2,4,8,16})的滑动时间窗口。滑动时间窗口将以0.5×l的步长滑动以覆盖M个预测分数序列。

步骤3：每种尺度各个滑动窗口中每类行为类别用窗口中各个片段的最大分数(即最大池化)来表示。对于在第s秒开始的长度为l的时间窗口，所能覆盖的时间片段为{T_s+1,T_s+2,…,T_s+l}，相应的预测分数为{F(T_s+1),F(T_s+2),…,F(T_s+l)}。相应地，对于这个时间窗口的预测分数W^s,l可以计算为

W^s,l＝max_{p∈{1,2,…,l}}{F(T_s+p)}；

步骤4：为了减轻背景内容的干扰，相同尺度的窗口行为识别预测分数用Top-K池化来聚合。由于其能够在抑制噪声背景的影响的同时隐式地选择具有区别性行为实例的区间，所以Top-K池化聚合模块对未修剪的视频识别非常有效。通过步骤3，我们将得到N_l个尺寸为l；

(l如上式所示)的时间窗口。我们应用前面提到的top-K(K如上式所示)池化方法对这些大小为l的N_l个窗口预测分数聚合，以此聚合的分数G^l作为所有尺寸为l的窗口聚合结果，G^l的计算如下式所示。

其中，α_k为是否选择的表示，值为1表示选择，反之为0表示不选。

步骤5：最后对来自不同窗口大小的聚合结果进行平均作为整个视频的最终预测。对于由不同大小尺寸l∈{1,2,4,8,16}的窗口滑动形成的5个聚合分数，最后的分数为这5个聚合分数的平均，计算如下

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

Claims

1.基于多尺度滑动窗口的非修剪视频行为识别预测方法，具体步骤如下，其特征在于：

步骤3：每种尺度各个滑动窗口中每类行为类别用窗口中各个片段的最大分数来表示，对于在第s秒开始的长度为l的时间窗口，所能覆盖的时间片段为{T_s+1,T_s+2,…,T_s+l}，相应的预测分数为{F(T_s+1),F(T_s+2),…,F(T_s+l)}，相应地，对于这个时间窗口的预测分数W^s,l计算为

W^s,l＝max_{p∈{1,2,…,l}}{F(T_s+p)}；

2.根据权利要求1所述的基于多尺度滑动窗口的非修剪视频行为识别预测方法，其特征在于：步骤1中TSN网络在修剪好的数据集上训练，然后将其对非修剪视频进行预测，其中TSN的详细步骤如下：

TSN(T₁,T₂,...,T_K)＝H(G(F(T₁,W),G(F(T₂,W),...,G(F(T_K,W)))；

3.根据权利要求1所述的基于多尺度滑动窗口的非修剪视频行为识别预测方法，其特征在于：步骤3中每个尺度的滑动窗口通过最大池化以窗口中的最大响应作为该窗口的预测值，这样可以很好的捕捉视频中可能出现的行为，最大池化即取所有片段预测值中的最大值作为聚合预测值，如下式所示，

G_i＝max_{k＝1,2,...,K}F_i ^k；

4.根据权利要求1所述的基于多尺度滑动窗口的非修剪视频行为识别预测方法，其特征在于：步骤4中每种尺度的滑动窗口最终聚合值通过Top-K池化选取最具区分性的窗口预测值平均值作为该种窗口的预测值，Top-K池化能够在抑制噪声背景的影响的同时隐式地选择具有区别性行为实例的区间。Top-K池化先为每个行为类别选择K个最具判别性的片段，然后将这些选定的片段预测平均值作为最终预测值，即