CN108764026A

CN108764026A - 一种基于时序检测单元预筛选的视频行为检测方法

Info

Publication number: CN108764026A
Application number: CN201810326870.6A
Authority: CN
Inventors: 陈华杰; 张杰豪; 姚勤炜; 侯新雨
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-04-12
Filing date: 2018-04-12
Publication date: 2018-11-06
Anticipated expiration: 2038-04-12
Also published as: CN108764026B

Abstract

本发明公开一种基于时序检测单元预筛选的视频行为检测方法。该方法是从长视频中构建时序检测单元，对其中关键帧进行目标识别后生成候选片段，解决了长视频分析中检测费时的问题，同时设计了边界回归模块以提高检测精度。本发明由于将性能提升着眼于数据预处理环节，方法简单易于实现，对使用传统方法的工程无需重新构造，详细兼容，能够节省大量人力。并且可以与其它提高检测速度与精度的方法相结合，进一步提高时序行为检测性能。

Description

一种基于时序检测单元预筛选的视频行为检测方法

技术领域

本发明属于深度学习及视频分析技术领域，涉及一种基于时序检测单元预筛选的视频行为检测方法。

背景技术

在视频分析领域，行为检测是从一段未经裁剪的视频中检测出包含人类行为的片段，在辨别行为类与背景类的同时预测行为的开始与结束时间点，生成时间轴定位。在实际应用时，目前已有方法主要面对两大问题，一是巨量的视频数据中可能仅包含稀疏的行为片段，若将全部数据进行同等的处理将耗费过长的时间；二是对视频数据进行分析需要最大程度的提取时序结构信息以保证预测结果的准确性。本发明所提出的基于时序检测单元预筛选的视频行为检测方法就是从冗长视频中筛选候选片段提取时序结构信息作为突破口。

候选区域筛选的方法有很多种，传统的方法如滑动窗口法，它将视频分成多种尺寸的视频片段，进行分析之后进行去重叠处理。从巨大时长的视频中生成可能包含行为的候选片段对方案的计算效率要求很高。同时，必须避免对同一段或者含重叠部分的候选片段反复提取特征而徒增计算量。本发明采用时序检测单元预筛选的方法，能够快速有效地生成候选区域。

发明内容

本发明的目的在于针对传统视频行为检测方法的不足，为深度学习及视频分析研究提供一种基于时序检测单元筛选的长视频行为检测方法。

本发明方法包括以下步骤：

步骤(1)、构建时序检测单元，提取用于生成候选片段的预筛选帧

一段长为t秒视频V包含T帧，则视频帧率w＝T/t。将视频V分割为T/n_u个连续的时序检测单元，其中n_u表示每个单元的帧数。一个单元可以表示为其中s_f表示起始帧，s_f+n_u-1表示结束帧，单元与单元之间无重叠部分。

步骤(2)、进行预筛选处理，获得候选片段行为单元集。

对每一个单元的起始帧n_u＝w/2都输入至Faster R-CNN网络进行目标检测，输出结果为帧图像中各目标及其分类概率，对其中检测为人类目标概率≥80％的源视频单元生成单元集{u_i}，再从其中筛选出时间轴连续的视频单元组成候选行为单元集{u_j}。

步骤(3)、候选行为片段特征提取

候选行为单元集{u_j}中的每一个单元都将由一个视觉编码器E_v进行处理，得到单元层级表示f_u＝E_v(u)。将上述处理后候选行为单元集{u_j}中下标连续的单元组合后定义为单元块可以得到多个单元块c，其中s_u表示起始单元的初始帧，n_c表示单元块c中的单元数量。e_u＝s_u+n_u·(n_c-1)则是结束单元的初始帧，称为c的内部单元。除了内部单元，类似可定义c的上下文单元。和分别为上文单元和下文单元，n_ctx表示作为上下文单元帧数。单元的内部特征和上下文特征分别由函数P提取并池化生成最终特征池。c的最终特征f_c与上下文特征和内部特征连接。f_c由下式得到：

其中||表示对P的向量连接和平均池化。

步骤(4)、设计一个单元回归模块，输入为单元块c的最终特征f_c，输出为时序边界回归补偿。起始回归补偿o_s、结束回归补偿o_e由下式得到：

o_s＝s_u-s_gt,o_e＝e_u-e_gt

其中，s_u、e_u表示c的起始单元初始帧和结束单元初始帧；s_gt、e_gt是真实边界的起始帧和结束帧。

步骤(5)、最终特征f_c输入LSTM网络，得到背景/行为分类及初步边界；

为得到背景/行为分类，需要对LSTM网络训练过程以及损失函数进行调整，具体如下：

给每个单元块c打上分类标签(是否为行为)。正样本标签的单元块需满足以下条件之一：(1)单元块与某个已知真实行为片段重叠；(2)单元块与某个已知真实行为片段的时序交除并(temporal Intersection over Union，tIoU)大于0.5。因此，一个已知真实行为片段可能给多个单元块打上正标签。若某单元块与任意已知真实行为片段的tIoU等于0，则它为负样本。其余样本不输入网络参与训练。

定义一个多任务损失函数L用于训练分类以及边界回归。

L＝L_cls+λL_reg

其中，L_cls表示动作/背景分类的损失，它是一个标准Softmax损失函数；L_reg是时序边界回归的损失，λ是一个超参数。回归损失L_reg由式(3)得到：

采用L1距离范数；表示标签，1为正样本，0为负样本；N_pos表示正样本的数量。只对正样本计算回归损失。

LSTM网络其余操作为常规操作，故不详解。

步骤(6)、采用步骤(4)得到的边界回归补偿对步骤(5)得到的初步边界进行调整，从而生成准确的行为边界，进而完成行为检测。

本发明的有益效果是：

本发明的关键在于从长视频中构建时序检测单元，对其中关键帧进行目标识别后生成候选片段，解决了长视频分析中检测费时的问题，同时设计了边界回归模块以提高检测精度。本发明由于将性能提升着眼于数据预处理环节，方法简单易于实现，对使用传统方法的工程无需重新构造，详细兼容，能够节省大量人力。并且可以与其它提高检测速度与精度的方法相结合，进一步提高时序行为检测性能。

附图说明

图1为本发明的流程图。

图2为本发明时序检测单元构建与预筛选图。

具体实施方式

下面结合具体实施例对本发明做进一步的分析。

本实施例采用THUMOS 14数据集作为训练的样本数据集。在运用时序检测单元进行预筛选的视频行为检测网络训练过程中具体包括以下步骤，如图1所示：

以THUMOS 14数据集训练子集中video_test_0000179.mp4视频为例，此段视频长168秒，包含5040帧，视频帧率30fps。将将视频分割为336个连续的视频单元，每个单元的帧数为15。一个单元可以表示为其中s_f表示起始帧，s_f+14表示结束帧，单元与单元之间无重叠部分。

步骤(2)、进行预筛选处理，获得候选片段行为单元集。

对每一个单元的起始帧都输入至Faster R-CNN网络进行目标检测，输出结果为帧图像中各目标及其分类概率，对其中检测为人类目标概率≥80％的源视频单元生成一个单元集{u_i}，再从其中筛选出时间轴连续的视频单元组成候选行为单元集{u_j}。

图2为本实施例时序检测单元构建与预筛选图。

步骤(3)、候选行为片段特征提取

候选行为单元集{u_j}中的每一个单元都将由一个视觉编码器E_v进行处理，得到单元层级表示f_u＝E_v(u)。将候选行为单元集{u_j}中某几个下标连续的单元组合后可得到一个单元块其中1501表示起始单元的初始帧，单元块c中的单元数量为8。1606则是结束单元的初始帧，称为c的内部单元。除了内部单元，类似可定义c的上下文单元。和分别为上文单元和下文单元，作为上下文单元的帧数为30。单元的内部特征和上下文特征分别由函数P提取并池化生成最终特征池。c的最终特征f_c与上下文特征和内部特征连接。f_c由下式得到：

其中||表示对P的向量连接和平均池化。

o_s＝s_u-s_gt,o_e＝e_u-e_gt

对LSTM网络训练过程进行调整，具体如下：

由于本实施例的单元块与某个已知真实行为片段的tIoU大于0.5，给此单元块打上正样本标签(是行为)，输入网络参与训练并由改进的多任务损失函数L对此正样本计算回归损失。

步骤(6)、对于THUMOS 14数据集中训练集中所有视频重复步骤(1)-(5)得到训练完毕的网络模型，利用此网络模型进行测试操作即可实现行为检测。

此实施例中，浮点计算能力为11TFLOPs的设备训练该单元块约需1280ms，用作测试(检测)过程仅需约640ms，耗时仅为传统方法的三分之一，精度相当。

上述实施例并非是对于本发明的限制，本发明并非仅限于上述实施例，只要符合本发明要求，均属于本发明的保护范围。

Claims

1.一种基于时序检测单元预筛选的视频行为检测方法,其特征在于该方法包括以下步骤：

将待检测视频V分割为T/n_u个连续的时序检测单元单元与单元之间无重叠部分，其中n_u表示每个单元的帧数，s_f表示起始帧，s_f+n_u-1表示结束帧；

所述的待检测视频V包含T帧，时间长为t秒，则视频帧率w＝T/t；

步骤(2)、对上述时序检测单元进行预筛选处理，获得候选片段行为单元集；

将所有时序检测单元的起始帧n_u＝w/2均输入至Faster R-CNN网络进行目标检测，输出结果为帧图像中各目标及其分类概率，然后将其中检测为人类目标概率≥80％的源时序检测单元生成单元集{u_i}，再从其中筛选出时间轴连续的时序检测单元组成候选行为单元集{u_j}；

步骤(3)、候选行为片段特征提取

候选行为单元集{u_j}中的每一个单元采用视觉编码器E_v进行处理，得到单元层级表示f_u＝E_v(u)；然后将上述处理后的候选行为单元集{u_j}中下标连续的单元组合后定义为单元块得到多个单元块c，其中s_u表示起始单元的初始帧，n_c表示单元块c中的单元数量；e_u＝s_u+n_u·(n_c-1)则是结束单元的初始帧，称为c的内部单元；定义c的上下文单元分别为和n_ctx表示作为上下文单元帧数；单元的内部特征和上下文特征分别由函数P提取并池化生成最终特征池；c的最终特征f_c与上下文特征和内部特征连接；f_c由下式得到：

其中||表示对P的向量连接和平均池化；

步骤(4)、假定一个单元回归模块，输入为单元块c的最终特征f_c，输出为时序边界回归补偿；起始回归补偿o_s、结束回归补偿o_e由下式得到：

o_s＝s_u-s_gt,o_e＝e_u-e_gt

其中，s_u、e_u表示c的起始单元初始帧和结束单元初始帧；s_gt、e_gt是真实边界的起始帧和结束帧；

给每个单元块c打上分类标签(是否为行为)；正样本标签的单元块需满足以下条件之一：(1)单元块与某个已知真实行为片段重叠；(2)单元块与某个已知真实行为片段的时序交除并(tIoU)大于0.5；若某单元块与任意已知真实行为片段的tIoU等于0，则它为负样本；其余样本不输入网络参与训练；

定义一个多任务损失函数L用于训练分类以及边界回归；

L＝L_cls+λL_reg

其中，L_cls表示动作/背景分类的损失，它是一个标准Softmax损失函数；L_reg是时序边界回归的损失，λ是一个超参数；回归损失L_reg由式(3)得到：

采用L1距离范数；表示标签，1为正样本，0为负样本；N_pos表示正样本的数量；只对正样本计算回归损失；