CN109271876B

CN109271876B - 基于时间演化建模和多示例学习的视频动作检测方法

Info

Publication number: CN109271876B
Application number: CN201810971986.5A
Authority: CN
Inventors: 宋砚; 唐金辉; 李泽超; 杨明磊
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-08-24
Filing date: 2018-08-24
Publication date: 2021-10-15
Anticipated expiration: 2038-08-24
Also published as: CN109271876A

Abstract

本发明提供了一种基于时间演化建模和多示例学习的动作检测方法，包括特征提取、制作训练样本并统计动作长度分布、对训练样本进行时间演化建模并训练多示例学习神经网络、对测试视频进行检测四个过程；首先，通过滑动窗口的方法来切分训练视频得到训练动作片段；然后将训练动作片段进行时间演化建模作为网络的输入特征；再然后使用多任务损失函数来训练网络；最后使用训练好的网络对测试视频上的动作片段提议进行分类和边界估计，得到测试视频上的动作检测结果。

Description

基于时间演化建模和多示例学习的视频动作检测方法

技术领域

本发明涉及一种计算机视觉领域中视频人体动作检测技术，特别是一种基于时间演化建模和多示例学习的视频动作检测方法。

背景技术

视频中的人体动作检测是一项重要且具有挑战性的任务，由于其在视频分析、智能视频监控、智能家居、人机交互、虚拟现实等领域的广泛应用，人体动作检测受到了越来越多的关注。给定一个未剪辑的长视频，人体动作检测任务不仅要输出动作类别，而且要给出精确的动作开始时间以及动作结束时间。

目前主流的动作检测方法主要包含两个步骤。第一步在原始视频上提取动作片段提议，第二步对动作片段提议进行分类来得到检测的结果。但是这些基于动作片段提议的方法往往会得到不精确的动作边界，因为动作提议片段的长度通常是预先定义好的。此外，现有的方法对动作片段提议的分类效果还是不尽如人意的。

发明内容

本发明的目的在于提供一种基于时间演化建模和多示例学习的视频动作检测方法，该方法动作检测的边界准确，动作片段提议分类准确率高。

实现本发明目的的技术方案为：一种基于时间演化建模和多示例学习的视频动作检测方法，包括特征提取、制作训练样本并统计动作长度分布、对训练样本进行时间演化建模并训练多示例学习神经网络、对测试视频进行检测四个过程；其中

(1)特征提取过程包括以下步骤：

步骤101，把训练视频以及测试视频中每一个16帧的视频片段输入到C3D网络中，提取网络的fc6层的输出作为特征；

步骤102，将步骤101中得到特征使用主成分分析进行降维；

步骤103，将步骤102中降维后的特征使用L2范数对特征进行归一化；

(2)制作训练样本并统计动作长度分布包括以下步骤：

步骤201，使用滑动窗口法在训练视频上按照重叠率剪切动作片段；

步骤202，统计步骤201中得到动作片段的长度分布；

(3)对训练样本进行时间演化建模并训练多示例学习神经网络包括以下步骤：

步骤301，将步骤201得到的每个训练动作片段均分为三段，同时加上片段前后的32帧片段，一共五段，每段取步骤103中每个16帧的特征的均值，拼接为片段特征；

步骤302，用全连接和MILpooling层构建多示例学习神经网络，输入为301得到的片段特征，输出为片段的动作类别以及片段的前后偏移量，损失函数为多任务损失，训练神经网络；

(4)对测试视频进行检测包括以下步骤：

步骤401，用现有的生成动作片段提议方法得到测试视频上的动作片段提议；

步骤402，将步骤401的动作片段提议按照步骤301得到片段特征，输入到步骤302中训练好的多示例学习神经网络中，得到动作类别，以及片段前后的偏移；将片段的前后偏移加到原始片段上，构成新的片段，再按照步骤301得到片段特征，输入到步骤302中训练好的多示例学习神经网络中，如此循环三次，得到最终输出的片段动作类别，动作得分，以及片段的边界；

步骤403，使用步骤202中得到的长度分布对步骤402中的最终的片段动作得分进行调整；

步骤404，使用步骤403中得到的动作片段提议新的动作得分进行非极大值抑制算法计算，去除冗余检测得到动作检测结果。

本发明与现有技术相比，具有以下优点：本发明使用的时间演化建模能有效地利用动作的结构特征和上下文信息，并且本发明使用的多任务损失函数不仅能对动作片段进行分类，而且能对片段的边界进行精确调整，能够大幅度的提高动作检测结果的精度。

下面结合说明书附图对本发明作进一步描述。

附图说明

图1是本发明的训练流程图以及多示例学习网络结构示意图。

图2是本发明使用的时间演化建模示意图。

具体实施方式

本发明提出一种基于时间演化建模和多示例学习的动作检测方法，包括特征提取、制作训练样本并统计动作长度分布、对训练样本进行时间演化建模并训练多示例学习神经网络、对测试视频进行检测四个过程，对未剪辑的长视频进行一系列的计算，得到其中人体动作发生的开始时间、结束时间以及动作的类别。

(1)特征提取过程包括以下步骤：

步骤1，把训练视频以及测试视频输入C3D网络中。C3D网络第一层的输入为视频中的16帧图像，把视频每16帧作为一个切片输入网络中，第(1～15)、(2～16)、……帧作为输入，然后提取网络最后第二个全连接层fc6层的输出作为特征，输出为4096维。于是，若视频的帧数为F，视频的特征为(F-15)×4096维。

步骤2，将步骤1中得到特征使用主成分分析进行降维，从4096维降到500维。

步骤，将步骤2中降维后的特征使用L2范数进行归一化。

(2)制作训练样本并统计动作长度分布包括以下步骤：

步骤4，使用滑动窗口法在训练视频上按照重叠率剪切动作片段，滑动窗口的长度为16帧、32帧、64帧、128帧、256帧、512帧，如果一个滑动窗口与任意一个真实动作片段的交并比(IoU)大于0.5，我们就将该滑动窗口作为对应动作的训练样本，同时记录该滑动窗口与对应动作片段的前后偏移量，如果一个滑动窗口与任意一个真实动作片段都不相交，那么我们就将该滑动窗口作为背景类样本，背景类训练样本从背景类样本中随机选取，数量与每个动作的训练样本的平均数量相同。

步骤5，统计步骤4中得到动作片段的长度分布，即每个动作类中，不同滑动窗口长度的训练样本所占的比率；

对训练样本进行时间演化建模并训练多示例学习神经网络包括以下步骤：

步骤6，如图2所示，将步骤4)得到的每个训练动作片段进行时间演化建模：给定一个视频片段X，我们将其均分为三部分X_s、X_m和X_e，加上其前后32帧的部分X_l和X_r，一共五个部分。对于每个部分，我们将该部分内每个不重叠的16帧的步骤3)提取的特征的均值作为该部分的特征，记作F。最后拼接五部分的特征作为片段特征：

f_X＝F(X_l)||F(X_s)||F(X_m)||F(X_e)||F(X_r) (1)

步骤7，用全连接和MILpooling层构建多示例学习神经网络，网络结构如图1所示。网络的输入为步骤6得到的片段特征，fc_1中间层，fc_2生成每个类别的temporalinstance的得分，维度是C×m，C是动作类别数，m表示每个类别的instance数量)，fc_3输出片段的前后偏移量。为了保持时序性，在fc_1和fc_2层之前的连接上加入了预定义好的权重，两个层对应的部分权重为0.8，否则为0.2。MILpooling层基于fc_2层的temporalinstance得分来生成片段的动作得分，公式为：

其中

σ是sigmoid激活函数，

为类别C对应的temporal instance得分。

网络的损失函数是一个多任务损失：

L＝L_cls+λ₁L_ts+λ₂L_reg (3)

其中，L_cls是一个标准的多分类交叉熵损失，L_ts是temporalinstance得分的平滑约束，L_reg是片段前后偏移的损失。λ₁和λ₂都设为1。

平滑约束定义为：

其中，N是批处理数量，C是动作类别数量。当第i个训练样本的类别标签是c，则

否则

p表示temporal instance的得分。

片段前后偏移的损失定义为：

其中

是网络输出的片段偏移量，o是步骤4得到的该训练样本与真实动作片段的前后偏移量，下标s和e分别表示片段前和片段后。

使用Adam优化器来训练模型，学习率和批处理数量分别设为0.001和128，迭代次数为13000。

对测试视频进行检测包括以下步骤：

步骤8，采用TURN方法生成的测试视频中的动作片段提议；

步骤9，将步骤8的动作片段提议按照步骤6得到片段特征，输入到步骤7中训练好的多示例学习神经网络中，得到动作类别，以及片段前后的偏移。将片段的前后偏移加到原始片段上，构成新的片段，再按照步骤6得到片段特征，输入到步骤7中训练好的多示例学习神经网络中。如此循环三次，得到最终的片段动作类别，动作得分，以及片段的边界；

步骤10，使用步骤5中得到的长度分布对步骤9中的最终的片段动作得分进行调整，具体做法为：

假设一个片段的得分为p，类别为C，长度l；

首先判断l最靠近步骤4中的五个滑动窗口长度中的哪个，假设是16帧，并且假设步骤5中统计的c类动作中片段长度为16帧的分布概率为w，则该片段最后的得分为w×p。

步骤11，使用步骤10中得到的动作片段提议新的动作得分进行非极大值抑制(Non-Maximum Suppression,NMS)算法计算，去除冗余检测得到动作检测结果。设置NMS中的重叠率阈值α稍小于检测结果进行评价时平均精度均值(mean Average Precision,mAP)使用的重叠率阈值θ，α＝θ-0.1。

Claims

1.一种基于时间演化建模和多示例学习的视频动作检测方法，其特征在于，包括：特征提取、制作训练样本并统计动作长度分布、对训练样本进行时间演化建模并训练多示例学习神经网络、对测试视频进行检测四个过程；其中

(1)特征提取过程包括以下步骤：

步骤102，将步骤101中得到特征使用主成分分析进行降维；

(2)制作训练样本并统计动作长度分布包括以下步骤：

步骤202，统计步骤201中得到动作片段的长度分布，即每个动作类中不同滑动窗口长度的训练样本所占的比率；

步骤302，用全连接和MIL pooling层构建多示例学习神经网络，输入为301得到的片段特征，输出为片段的动作类别以及片段的前后偏移量，损失函数为多任务损失，训练神经网络；用全连接和MIL pooling层构建多示例学习神经网络，网络的输入为步骤301得到的片段特征，fc_1中间层，fc_2生成每个类别的temporal instance的得分，维度是C×m，C是动作类别数，m表示每个类别的instance数量，fc_3输出片段的前后偏移量；

在fc_1和fc_2层之前的连接上加入了预定义好的权重，两个层对应的部分权重为0.8，否则为0.2；MIL pooling层基于fc_2层的temporal instance得分来生成片段的动作得分，公式为