CN110688918B

CN110688918B - 基于长时增强特征增强及稀疏动态采样的快速行为检测方法

Info

Publication number: CN110688918B
Application number: CN201910867364.2A
Authority: CN
Inventors: 林巍峣; 李昱希; 徐树公
Original assignee: University of Shanghai for Science and Technology; Shanghai Jiao Tong University
Current assignee: University of Shanghai for Science and Technology; Shanghai Jiao Tong University
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2023-02-14
Anticipated expiration: 2039-09-12
Also published as: CN110688918A

Abstract

一种基于长时增强特征增强及稀疏动态采样的快速行为检测方法，对视频直接进行时空联合的三维特征提取后进行时域检测，利用全局的长时信息对三维特征进行长时增强，根据时域检测结果对长时增强的特征沿时间维度在时域区间内进行稀疏动态采样，得到空间检测结果后与时域检测结果相结合，利用每个特征向量及其偏移向量计算检测框的相似度并通过逐帧聚类的方法实现检测框的链接，得到的检测框的集合，即行为管道。本发明能够显著提升分类精度以及定位精度从而最终有效提升检测的准确率，同时能够提升视频行为检测的运行效率。

Description

基于长时增强特征增强及稀疏动态采样的快速行为检测方法

技术领域

本发明涉及的是一种视频分析领域的技术，具体是一种基于长时增强特征增强及稀疏动态采样的快速行为检测方法。

背景技术

基于视频的行为检测与识别分类技术是自动将视频中的目标进行逐帧定位，并在特定时间区间内识别目标行为的技术，主要通过逐帧提取出精确的运动空间定位；对逐帧的行为定位进行分类；将逐帧的检测结果沿时域链接形成时空联合的行为检测结果。

现有的视频的时空行为检测技术或采集只能描述单帧行为的特征，限制了行为识别的准确率，或采用稠密检测的策略导致算法运行效率较低。因此现阶段急需一种快速高效的行为检测算法，同时能够合理地利用长时与短时信息对目标行为进行描述，提高视频行为检测的准确性。

发明内容

本发明针对现有技术存在的上述不足，提出一种基于长时增强特征增强及稀疏动态采样的快速行为检测方法，能够显著提升分类精度以及定位精度从而最终有效提升检测的准确率，同时能够提升视频行为检测的运行效率。

本发明是通过以下技术方案实现的：

本发明涉及一种基于长时增强特征增强及稀疏动态采样的快速行为检测方法，对视频直接进行时空联合的三维特征提取后进行时域检测，利用全局的长时信息对三维特征进行长时增强，根据时域检测结果对长时增强的特征沿时间维度在时域区间内进行稀疏动态采样，得到空间检测结果后与时域检测结果相结合，利用每个特征向量及其偏移向量计算检测框的相似度并通过逐帧聚类的方法实现检测框的链接，得到的检测框的集合，即行为管道。

所述的视频，采用但不限于具有固定的帧数，优选为经过重采样的视频流用于后级的行为检测与分类。

所述的三维特征提取是指：通过时空联合特征提取，从视频中得到三维特征图。

所述的时域检测是指：将三维特征图池化为一维特征，并通过时域检测器得到在一维特征上得到时域检测结果。

所述的全局的长时信息是指：将池化操作得到的一维特征输入评估网络得到不同时间戳的权重，再通过该权重对三维特征图进行时域重组实现长时增强。

本发明涉及一种实现上述方法的系统，包括：时空联合特征提取单元、时域检测单元、长时增强单元、动态采样单元、空间检测单元和行为生成单元，其中：时空联合特征提取单元分别与时域检测单元和长时增强单元相连并传输提取得到的三维时空特征给后级的时域检测以及特征增强，时域检测单元分别与时空联合特征提取单元、长时增强单元以及动态采样单元相连接，从原始三维时空特征中提取时域特征，将时域特征用于后级的长时增强，并将生成的时域区间传递给动态采样单元，长时增强单元分别与时空联合特征提取单元、时域检测单元及动态采样单元连接，利用时域特征增强原始三维时空特征，并将增强的特征传递给动态采样单元，动态采样单元分别与长时增强单元、时域检测单元以及空间检测单元相连并传输采样得到的二维特征信息到后级的空间检测，空间检测单元与动态采样单元和行为生成单元相连接，从二维采样特征上检测出空间行为属性并传输给后级行为生成单元，行为生成单元与空间检测单元相连接，利用前级得到的空间行为属性插值得到三维的行为管道。

所述的空间行为属性包括：类别、置信度、偏移向量以及特征向量。

技术效果

与现有技术相比，本发明技术效果包括：

1、本发明利用直接采用3D卷积网络进行时空联合特征提取，同时采用长时信息对三维特征进行增强，因此在本发明中用于描述目标行为的特征具有更加丰富的长时信息和表征能力，有助于目标行为的分类与检测；同时采用时空联合特征提取的方案也避免了额外提取光流信息所带来的时间开销。

2、本发明通过重采样输入以及后续的稀疏动态采样的方式，避免了稠密冗余的中间帧检测。该算法中根据行为的复杂度提出自适应的采样参数，在保证了检测定位精度的同时避免了大量冗余的采样，后续的空间检测网络只需要检测采样时间戳对应的目标框并进行关联，因而相比于既有的基于稠密检测和链接的视频行为检测技术，本发明具有更快的运行效率。

3、本发明中采用框的特征向量以及偏移向量来计算不同帧间检测框的相似度，从而进一步将不同时间戳下的行为检测框相关联，该技术合理避免了在中间帧上误捡的干扰。

附图说明

图1是本发明的流程图；

图2是权重评估网络结构示意图；

图3为空间检测网络以及辅助网络的结构示意图；

图4为卷积模块的操作的具体构成图。

具体实施方式

如图1所示，为本实施例涉及一种基于长时增强特征增强及稀疏动态采样的快速行为检测方法，包括以下步骤：

A：对输入视频流进行重采样，使得输入视频保持固定的帧数用于后级的行为检测与分类。

所述的对输入视频流重采样是指：对输入视频进行降采样或补中间帧，使其输入长度为本实施例中的固定长度T_i＝96。对于采样系数不为整数的情况，采用双线性插值的方法得到中间采样帧。

B、将重采样后的视频进行时空联合的特征提取，得到三维特征图；

所述的时空联合的特征提取是指：利用3D卷积神经网络对重采样后的视频进行卷积，并输出3D网格，每个网格中包含一个用于描述局部时空关系的固定维度的高维特征向量。

本实施例中的3D卷积神经网络采用Carriar等人提出的I3D网络以提取三维特征。

C、对三维特征图进行空间池化操作得到一维特征，并通过时域检测器得到一维特征的时域检测结果。

所述的空间池化操作是指：采用空间平均池化的方式将三维特征降为一维特征：

其中：F_3D为输入的三维特征，F_1D为输出的一维特征，H，W为三维特征空间尺度，(x，y，t)为特征网格的时空坐标。

所述的时域检测器是指：利用单层1D卷积神经网络对池化后的一维特征进行卷积，并输出时域检测结果。

所述的时域检测结果包括：表征对应位置是否存在行为的概率p、归一化的起始时间s、终止时间e以及对应的采样点数d，即稀疏采样的总帧数。

D、将步骤C中池化操作得到的一维特征输入评估网络得到不同时间戳的权重，利用该权重对三维特征图进行时域重组，重组后的三维特征为长时增强的特征；

图1中所述的评估网络R(·)为级联的多层1D卷积神经网络，其结构如图2所示，该神经网络输出一个对各个时间戳的大小为T×T的评估矩阵

T为三维特征F_3D的时间维度；并在输出端通过Sigmoid算子对输出权重进行归一化，使得每个时间戳对应的权重在[0，1]之间，即

其中：W(t，k)与

分别为归一化与未归一化的权重系数。

所述的时域重组是指：利用不同时间戳的权重对三维特征图进行重新的线性加权组合，得到增强的三维特征

E、根据时域检测结果对长时增强的特征沿时间维度在时域区间内进行动态采样，得到稀疏的2D空间特征。

所述的时域区间，即时域检测结果中的归一化的起始时间s至终止时间e。

所述的稀疏动态采样是指：

其中：

为第n个采样点对应的稀疏的2D空间特征，s为起始时间，e为终止时间，d为对应时域区间内的总采样点数，x、y为特征在空间坐标轴上的坐标，t为三维特征在时间坐标轴上的坐标。

在本实施例中，为了防止过多采样点数的带来冗余采样和过高的计算复杂度，最大采样点数优选为N_m＝12，即1≤n≤d≤N_m＝12。

F、将步骤E中采样得到的2D空间特征通过空间检测器，得到在稀疏的d帧采样帧上的空间检测框，通过辅助网络对每个空间检测结果生成一个特征向量f_e，ti以及偏移向量f_s，ti。

所述的空间检测结果，即在对应采样时间戳上的目标检测框及其分类，包括：检测框的检测坐标b_t，i、置信度的分数p_t，i以及对应的类别c_t，i，其中i表示在该采样帧中检测到的空间检测框的序号。

如图3所示，所述的空间检测器以及辅助网络分别为级联的2D和3D卷积神经网络，通过与采样的2维特征以及2维特征沿时域堆叠的三维特征卷积得到对应的输出。

G、将时域区间(s，e)内动态采样得到的空间检测框进行结合，利用每个特征向量及其偏移向量计算相邻采样帧上得到的空间检测框的相似度并通过逐帧聚类的方法实现检测框的链接，将连接在一起的稀疏采样帧检测框沿时间坐标轴进行插值，得到稠密的逐帧行为检测，即行为管道。

所述的相似度是指：两个检测框之间的特征距离

其中：b_t，i为第t帧检测到的第i个行为目标，第t帧的第i个行为目标与第t+1帧的第j个行为目标之间的特征距离D_a，tij＝||f_e，ti-f_e，(t+1)j||₂，第t帧的第i个行为目标与第t+1帧的第j个行为目标之间的偏移距离

即两个框的坐标偏移以及框b_t，i对应的偏移向量的差值，(x_t，I，y_t，i)表示检测目标框b_t，i在采样帧上的中心坐标。

所述的逐帧聚类是指：为了将稀疏采样帧上的目标进行关联得到逐帧的行为轨迹，首先在第一帧采样帧中选取置信度最大的框作为当前行为的起始：

其中

表示预测得到的当前行为在第t帧上目标框。之后的每一帧采样帧，采取贪心策略选取与当前行为最近的检测框相似度最高的检测框并入当前的行为轨迹：

从而得到一个行为轨迹的稀疏表示

受其对应的置信度以及分类的类别

优选地，采样帧之间的中间帧上的检测框直接通过相邻检测框之间插值得到，即通过

框坐标间的双线性插值得到对应行为轨迹的稠密表示。

经过具体实际实验，在Ubuntu14.04+CUDA 9.0+UCF101-24标准数据集的环境设置下，以Ti＝96，T＝12，H＝16，W＝16的参数配置启动/运行上述方法，能够得到的实验数据是：在0.3 的阈值下达到mAP为71.1较目前最优方法提升0.2，在0.5阈值下达到mAP为54.0，较目前最优方法提升1.7，同时平均每个视频的检测时间降至0.57秒，相比当前最快的行为检测方法提速7.6倍。

与现有技术相比，本方法通过长时特征增强模块进行了特征增强，使特征具有更加丰富的语义信息和长时感受野，提高了空间检测器的分类效果；同时稀疏动态采样单元降低了空间检测器的运行次数，也降低了冗余检测或者是误捡带来的干扰，因而提高了系统运行效率与精度。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种基于长时增强特征增强及稀疏动态采样的快速行为检测方法，其特征在于，对视频直接进行时空联合的三维特征提取后进行时域检测，利用全局的长时信息对三维特征进行长时增强，根据时域检测结果对长时增强的特征沿时间维度在时域区间内进行稀疏动态采样，得到空间检测结果后与时域检测结果相结合，利用每个特征向量及其偏移向量计算检测框的相似度并通过逐帧聚类的方法实现检测框的链接，得到的检测框的集合，即行为管道；

所述的三维特征提取是指：通过时空联合特征提取，从视频中得到三维特征图；

所述的时域检测是指：将三维特征图池化为一维特征，并通过时域检测器得到在一维特征上得到时域检测结果；

所述的全局的长时信息是指：将池化操作得到的一维特征输入评估网络得到不同时间戳的权重，再通过该权重对三维特征图进行时域重组实现长时增强；

所述的空间检测结果，即在对应采样时间戳上的目标检测框及其分类，包括：检测框的检测坐标b_t,i、置信度的分数p_t,i以及对应的类别c_t,i，其中i表示在该采样帧中检测到的空间检测框的序号。

2.根据权利要求1所述的快速行为检测方法，其特征是，所述的视频经过重采样的视频流用于后级的行为检测与分类。

3.根据权利要求1所述的快速行为检测方法，其特征是，所述的池化，即空间池化操作，具体是指：采用空间平均池化的方式将三维特征降为一维特征：

其中：F_3D为输入的三维特征，F_1D为输出的一维特征，H,W为三维特征空间尺度，(x,y,t)为特征网格的时空坐标。

4.根据权利要求1所述的快速行为检测方法，其特征是，所述的时域检测器是指：利用单层1D卷积神经网络对池化后的一维特征进行卷积，并输出时域检测结果；

所述的时域检测结果包括：表征对应位置是否存在行为的概率p、归一化的起始时间s、终止时间e以及对应的采样点数d。

5.根据权利要求1所述的快速行为检测方法，其特征是，所述的评估网络为级联的多层1D卷积神经网络，该神经网络输出一个对各个时间戳的大小为T×T的评估矩阵

T为三维特征F_3D的时间维度；并在输出端通过Sigmoid算子对输出权重进行归一化，使得每个时间戳对应的权重在[0,1]之间，即

其中：W(t,k)与

分别为归一化与未归一化的权重系数。

6.根据权利要求5所述的快速行为检测方法，其特征是，所述的时域重组是指：利用不同时间戳的权重对三维特征图进行重新的线性加权组合，得到增强的三维特征

7.根据权利要求6所述的快速行为检测方法，其特征是，所述的稀疏动态采样是指：

其中：

为第n个采样点对应的稀疏的2D空间特征，s为起始时间，e为终止时间，d为对应时域区间内的采样点数，x、y为特征在空间坐标轴上的坐标，t为三维特征在实际坐标轴上的坐标。

8.根据权利要求7所述的快速行为检测方法，其特征是，所述的检测框的集合，通过将时域区间(s,e)内动态采样得到的空间检测框进行结合，利用每个特征向量及其偏移向量计算相邻采样帧上得到的空间检测框的相似度并通过逐帧聚类的方法实现检测框的链接，将连接在一起的稀疏采样帧检测框沿时间坐标轴进行插值，得到稠密的逐帧行为检测，即行为管道。

9.根据权利要求1或8所述的快速行为检测方法，其特征是，所述的相似度是指：两个检测框之间的特征距离

其中：b_t,i为第t帧检测到的第i个行为目标，第t帧的第i个行为目标与第t+1帧的第j个行为目标之间的特征距离D_a,tij＝||f_e,ti-f_e,(t+1)j||₂，第t帧的第i个行为目标与第t+1帧的第j个行为目标之间的偏移距离

即两个框的坐标偏移以及框b_t,i对应的偏移向量的差值，(x_t,I,y_t,i)表示检测目标框b_t,i在采样帧上的中心坐标，f_e,ti为特征向量，f_s,ti为偏移向量。

10.根据权利要求1或8所述的快速行为检测方法，其特征是，所述的逐帧聚类是指：为了将稀疏采样帧上的目标进行关联得到逐帧的行为轨迹，首先在第一帧采样帧中选取置信度最大的框作为当前行为的起始：

之后的每一帧采样帧，采取贪心策略选取与当前行为最近的检测框相似度最高的检测框并入当前的行为轨迹：

从而得到一个行为轨迹的稀疏表示

及其对应的置信度以及分类的类别

其中：

表示预测得到的当前行为在第t帧上目标框；b_t,i为检测框的检测坐标，p_t,i为置信度的分数，c_t,i为对应的类别，i表示在该采样帧中检测到的空间检测框的序号。

11.一种实现上述任一权利要求所述方法的系统，其特征在于，包括：时空联合特征提取单元、时域检测单元、长时增强单元、动态采样单元、空间检测单元和行为生成单元，其中：时空联合特征提取单元分别与时域检测单元和长时增强单元相连并传输提取得到的三维时空特征给后级的时域检测以及特征增强，时域检测单元分别与时空联合特征提取单元、长时增强单元以及动态采样单元相连接，从原始三维时空特征中提取时域特征，将时域特征用于后级的长时增强，并将生成的时域区间传递给动态采样单元，长时增强单元分别与时空联合特征提取单元、时域检测单元及动态采样单元连接，利用时域特征增强原始三维时空特征，并将增强的特征传递给动态采样单元，动态采样单元分别与长时增强单元、时域检测单元以及空间检测单元相连并传输采样得到的二维特征信息到后级的空间检测，空间检测单元与动态采样单元和行为生成单元相连接，从二维采样特征上检测出空间行为属性并传输给后级行为生成单元，行为生成单元与空间检测单元相连接，利用前级得到的空间行为属性插值得到三维的行为管道。