CN110188733A

CN110188733A - 基于3d区域卷积神经网络的时序行为检测方法及系统

Info

Publication number: CN110188733A
Application number: CN201910495687.3A
Authority: CN
Inventors: 程建; 汪雯; 张渤; 程明; 张诗卉; 程杜瀚宇
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-06-10
Filing date: 2019-06-10
Publication date: 2019-08-30

Abstract

本发明公开了一种基于3D区域卷积神经网络的时序行为检测方法及系统，该方法包括：采用3D ConvNet提取待检测视频的时空特征，得到时空特征图；采用时序片段提名子网络为时空特征图的每个时间点生成K个尺度的候选片段，并预测候选片段的置信度得分；采用Soft‑NMS对候选片段的得分进行调整；对各候选片段提取相同大小的池化特征片段；将池化特征片段输入分类层，得到所述待检测视频中的背景片段、行为片段以及所述行为片段所属的行为类型；将行为片段输入回归层对行为片段进行边界回归修正。本发明具有对时序行为检测精度高的特点。

Description

基于3D区域卷积神经网络的时序行为检测方法及系统

技术领域

本发明涉及图像分类、模式识别与机器学习领域，特别是涉及一种基于3D区域卷积神经网络的时序行为检测方法及系统。

背景技术

时序行为检测是计算机视觉与机器学习领域的热点和前沿研究主题之一。该任务要求在识别动作类别的同时，给出动作在视频中的开始和结束帧，是动作识别研究的分支与延伸，在智能视频监控、智能人机交互、基于内容的视频分析等方面有着广泛的应用前景。

给定一段未分割的可能包含有多个行为片段的长视频序列，时序行为检测任务需要识别出视频中的行为片段对应的动作类别，同时给出每个行为片段在视频中的开始和结束帧。但是，现有技术中对时序行为检测的精度普遍偏低。

发明内容

本发明的目的是提供一种基于3D区域卷积神经网络的时序行为检测方法及系统，具有对时序行为检测精度高的特点。

为实现上述目的，本发明提供了如下方案：

一种基于3D区域卷积神经网络的时序行为检测方法，包括：

采用3D ConvNet提取待检测视频的时空特征，得到时空特征图；

采用时序片段提名子网络为所述时空特征图的每个时间点生成K个尺度的候选片段，并预测所述候选片段的置信度得分；

采用Soft-NMS对所述候选片段的得分进行调整；

对各所述候选片段提取相同大小的池化特征片段；

将所述池化特征片段输入分类层，得到所述待检测视频中的背景片段、行为片段以及所述行为片段所属的行为类型；

将所述行为片段输入回归层对所述行为片段进行边界回归修正。

可选的，3D ConvNet的网络结构采用C3D中从conv1a到conv5b的卷积层和池化层。

可选的，所述候选片段采用所述时间点的特征与上下文特征相结合的方式生成。

可选的，在时序片段提名子网络的训练中，用于训练的正负样本比为1:1。

可选的，所述采用Soft-NMS对所述候选片段的得分进行调整，具体包括：采用基于Gaussian的补偿函数对所述候选片段的得分进行调整，其中，p_m为最大得分对应的候选片段，α为预先设定的阈值，σ为高斯函数的参数，s_i为候选片段i的得分，s'_i为经过Soft-NMS调整后的候选片段i的得分。

可选的，所述分类层和所述回归层在训练过程中采用的联合损失函数为其中，N_cls为用于训练分类层的候选片段样本的数量，N_reg为用于训练回归层的行为片段样本的数量，L_cls为分类层的损失函数，L_reg为回归层的损失函数，λ为用于调节分类层与回归层损失函数占比的参数，a_i为预测的第i个候选片段的得分，为第i个候选片段得分的真值，t_j为第j个行为片段预测的起止时间的调整，为第j个行为片段起止时间调整的真值。

本发明还提供了一种基于3D区域卷积神经网络的时序行为检测系统，包括：

特征提取模块，用于采用3D ConvNet提取待检测视频的时空特征，得到时空特征图；

候选片段提取模块，用于采用时序片段提名子网络为所述时空特征图的每个时间点生成K个尺度的候选片段，并预测所述候选片段的置信度得分；

分数调整模块，用于采用Soft-NMS对所述候选片段的得分进行调整；

特征片段提取模块，用于对各所述候选片段提取相同大小的池化特征片段；

行为片段检测模块，用于将所述池化特征片段输入分类层，得到所述待检测视频中的背景片段、行为片段以及所述行为片段所属的行为类型；

边界修正模块，用于将所述行为片段输入回归层对所述行为片段进行边界回归修正。

可选的，所述分数调整模块，具体包括：分数调整模单元，用于采用基于Gaussian的补偿函数对所述候选片段的得分进行调整，其中，p_m为最大得分对应的候选片段，α为预先设定的阈值，σ为高斯函数的参数，s_i为候选片段i的得分，s'_i为经过Soft-NMS调整后的候选片段i的得分。

根据本发明提供的发明内容，本发明公开了以下技术效果：本发明提供的基于3D区域卷积神经网络的时序行为检测方法及系统，采用3D ConvNet提取待检测视频的时空特征，得到时空特征图；采用时序片段提名子网络为时空特征图的每个时间点生成K个尺度的候选片段，并预测候选片段的置信度得分；采用Soft-NMS对候选片段的得分进行调整；对各候选片段提取相同大小的特征片段；将特征片段输入分类层，得到所述待检测视频中的背景片段、行为片段以及所述行为片段所属的行为类型；将行为片段输入回归层对行为片段进行边界回归修正。可见，本发明采用3D ConvNet提取了丰富的时空特征，采用时序动作提名子网络实现了候选片段的生成以及候选片段的置信度分数的确定，通过Soft-NMS抑制高于阈值的候选片段，并为每个候选片段提取固定大小的池化特征，最后基于此特征进行动作分类和边界回归，提高了时序行为检测的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中基于3D区域卷积神经网络的时序行为检测方法流程图；

图2为本发明一实施例中用于特征提取的3D ConvNet网络结构图；

图3为本发明一实施例中构建的3D RoI Pooling示意图；

图4为本发明实施例中基于3D区域卷积神经网络的时序行为检测系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供的基于3D区域卷积神经网络的时序行为检测方法包括以下步骤：

步骤101：采用3D ConvNet提取待检测视频的时空特征，得到时空特征图；

步骤102：采用时序片段提名子网络为时空特征图的每个时间点生成K个尺度的候选片段，并预测候选片段的置信度得分；

步骤103：采用Soft-NMS对候选片段的得分进行调整；

步骤104：对各候选片段提取相同大小的池化特征片段；

步骤105：将池化特征片段输入分类层，得到待检测视频中的背景片段、行为片段以及所述行为片段所属的行为类型；

步骤106：将行为片段输入回归层对行为片段进行边界回归修正。

本发明提供的基于3D区域卷积神经网络的时序行为检测方法由三部分组成：3DConvNet特征提取阶段、时序片段提名阶段以及动作分类和边界修正阶段。为了减少计算量同时实现端到端的训练，动作提名和分类子网络共享C3D特征图。其中，动作提名子网络预测任意长度的可能包含有动作的时序片段，动作分类子网络对候选时序片段进行动作类别的划分，同时调整候选片段的时序边界达到对动作的时序检测。

在上述实施例的基础上，作为本发明的一个实施例，3D ConvNet的网络结构采用C3D中从C1a到C5b的卷积层和池化层。如给定一段视频序列，我们使用3D ConvNet提取丰富的时空特征来表示视频。考虑一段大小为3×L×H×W的视频序列，这里使用提取的RGB帧图像作为3D ConvNet网络的输入，L、H、W分别表示输入RGB图像的时间长度、高和宽，取H＝W＝112，L的大小在内存允许情况下可取任意值。3D ConvNet的网络结构采用C3D中从conv1a到conv5b的卷积和池化层，如图2所示，各层参数依次为：C1a(64)-P1(1,1)-C2a(128)-P2(2,2)-C3a(256)-C3b(256)-P3(2,2)-C4a(512)-P4(2,2)-C5a(512)-C5b(512)，其中，符号C()表示3D卷积层滤波器的数目，P()表示3D池化层时序尺寸和步长。因此，C5b输出的特征图的大小为

在上述实施例中，为了使得模型能够预测任意长度可能包含有动作的候选片段，我们定义每个时间点为一个锚点(anchor)，采用滑窗法为每个anchor生成K个尺度的候选片段。每个滑窗的中心点均匀分布在长度为特征图的时间维度上，因此该阶段共有个候选片段。为了更好地利用每个时间点上的特性预测多尺度的候选片段，首先我们将得到的特征通过3×3×3大小的3D卷积扩展感受野的时间维度，其次在空间维度上通过大小的3D max-pooling(最大池化)进行下采样操作。c_tpn输出特征图的大小为该512维特征向量的每个时间点用来预测片段{c_i,l_i}中心位置c_i和片段长度l_i的偏移量{δc_i,δl_i}，其中i∈{1,…,K}。同时，为每个候选片段预测其属于动作或背景片段的置信度得分，偏移量和得分的预测通过两个1×1×1大小的卷积操作得到。

本发明采用将局部特征(即时间点的特征)和上下文特征相结合的方式用于候选片段的生成，使其包含有更多的时序信息。这里我们考虑两种全局特征建模方式：平均池化(Average pooling)、柯西权重池化(Cauchy weighted attention pooling)。其中，对于Averagepooling，通过聚合所有时间点的特征信息并对所有时间点求平均得到全局特征表示，即表示每个时间点的特征，T为特征图的时间维度。对于Cauchyweighted attention，我们假设对于每个时间点周围时间点与其相关度服从Cauchy分布，该分布需要学习两个参数：中心μ、宽度σ。每个时间点的权重ω服从以下表达式：

其中，t∈{1,2,…,T}，Z为归一化常数。上述表达式为每个时间点分配不同的权重。全局特征为

在时序片段提名子网络的训练阶段，我们需要赋予每个候选片段正负样本标签：

其中，iou(·)表示预测动作片段S_j和真值GT(ground truth)之间的交并比。训练过程一个批次的正负样本数量比可以设置为1：1。

在上述实施例的基础上，作为本发明的一个实施例，动作分类阶段有3个主要任务：首先，从上一阶段生成的候选片段中选择。其次，使用基于兴趣区域的3D池化(3D RoIPooling)为每一个候选片段提取固定大小的特征。最后，在池化特征上对候选片段进行动作分类和边界回归任务。

为了使用较少的候选片段得到较高的召回率，本发明使用Soft-NMS操作抑制多余的候选片段。采用基于高斯(Gaussian)的补偿函数，表达式如下：

其中，p_m为最大得分对应的候选片段，α为预先设定的阈值，σ为高斯函数的参数，s_i为候选片段i的得分，s_i'为经过Soft-NMS调整后的候选片段i的得分。

以上得到的候选片段尺度不一，因此引入3D RoI Pooling为每个候选片段提取固定大小的特征。如图3所示，对于给定的l×h×w大小的特征立方体，l、h、w分别代表时间维度、高、宽。首先，空间尺寸为h×w的特征图将会被划分为H×W个网格，每个网格对应的尺寸大小为h/H×w/W，然后对每个网格进行max-pooling操作求得最大值。其次，对于时间长度为l的特征，l/L个相邻的特征被聚合并在时序上进行max-pooling操作。最终经过3D RoIPooling得到的特征大小为L×H×W。3D RoI Pooling的输出送入一系列全连接层，最终这些候选片段被送入到分类层和回归层，分别用来对候选片段进行动作分类和边界回归。

在分类层和回归层的训练阶段，本发明需要对片段进行类别标定。当一个候选片段和相应真值之间的交并比大于0.5时，我们赋予该片段相应的类别标注，比如跑、跳等类别标注，否则即为背景标注。训练过程中一个批次的正负样本数量比可以设置为1：3。

训练联合优化分类和回归损失。其中，分类采用softmax损失，回归采用smooth L1损失函数。联合损失函数表示如下：

其中，N_cls为一个批次中用于训练分类层的候选片段样本的数量，N_reg为一个批次中用于训练回归层的行为片段样本的数量，L_cls为分类层的损失函数，L_reg为回归层的损失函数，λ为用于调节分类层与回归层损失函数占比的参数，a_i为预测的第i个候选片段的得分，a'_i为第i个候选片段得分的真值，t_j为第j个行为片段预测的起止时间的调整，t'_j为第j个行为片段起止时间调整的真值。其中，δc_j、δl_j的计算通过如下式子：

上式中，c_j、l_j为行为片段的中心位置和长度，为相应的真值片段的中心位置和长度。

本发明允许任意长度的输入视频，考虑到快速深度学习库矢量化的实现，我们将视频划分为许多块，并用空白帧填充最后的视频块。经过NMS后处理得到最终动作的预测。

采用常用数据集THUMOS2014来验证本发明提供的时序行为检测方法的有效性。该数据集包含有2765个已分割的训练视频，200个带有时序行为信息标注的未分割的验证视频和213个测试视频。对于时序行为检测任务，我们在200个验证视频上进行模型训练，同时在213个测试视频集上进行模型有效性的测试。下面对实验细节和设置进行简单介绍如下：我们将200个未分割视频划分为两部分，180个用来训练，20个作为验证数据使模型得到最优的参数设置。由于GPU显存有限，我们一次送入网络的帧数设置为768(帧率25fps)，同时我们设置从视频的开始到结束和从结束至开始两种方式进行滑窗操作，生成连续的帧片段进行数据扩充。我们使用在Sports-1M上训练在UCF101上微调的C3D参数来初始化3DConvNet部分。对于每个anchor，我们设置10个不同尺度用来生成候选片段，即K＝[2,4,5,6,8,9,10,12,14,16]。Soft-NMS阈值α＝0.7，Gaussian函数的参数σ＝0.6。最终我们在数据集THUMOS2014上达到的结果为：在IoU为0.5时，mAP＝32.4％。

本发明还提供了一种基于3D区域卷积神经网络的时序行为检测系统，如图4所示，该系统包括：

特征提取模块401，用于采用3D ConvNet提取待检测视频的时空特征，得到时空特征图；

候选片段提取模块402，用于采用时序片段提名子网络为时空特征图的每个时间点生成K个尺度的候选片段，并预测候选片段的置信度得分；

分数调整模块403，用于采用Soft-NMS对候选片段的得分进行调整；

特征片段提取模块404，用于对各候选片段提取相同大小的池化特征片段；

行为片段检测模块405，用于将池化特征片段输入分类层，得到所述待检测视频中的背景片段、行为片段以及所述行为片段所属的行为类型；

边界修正模块406，用于将行为片段输入回归层对行为片段进行边界回归修正。

其中，分数调整模块403，具体包括：分数调整模单元，用于采用基于Gaussian的补偿函数对候选片段的得分进行调整，其中，p_m为最大得分对应的候选片段，α为预先设定的阈值，σ为高斯函数的参数，s_i为候选片段i的得分，s'_i为经过Soft-NMS调整后的候选片段i的得分。

本发明提供的基于3D区域卷积神经网络的时序行为检测方法及系统，采用3DConvNet提取待检测视频的时空特征，得到时空特征图；采用时序片段提名子网络为时空特征图的每个时间点生成K个尺度的候选片段，并预测候选片段的置信度得分；采用Soft-NMS对候选片段的得分进行调整；对各候选片段提取相同大小的特征片段；将特征片段输入分类层，得到所述待检测视频中的背景片段、行为片段以及所述行为片段所属的行为类型；将行为片段输入回归层对行为片段进行边界回归修正。可见，本发明采用3D ConvNet提取了丰富的时空特征，采用时序动作提名子网络实现了候选片段的生成以及候选片段的置信度分数的确定，通过Soft-NMS抑制高于阈值的候选片段，并为每个候选片段提取固定大小的池化特征，最后基于此特征进行动作分类和边界回归，提高了时序行为检测的精度。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于3D区域卷积神经网络的时序行为检测方法，其特征在于，包括：

采用3D ConvNet提取待检测视频的时空特征，得到时空特征图；

采用Soft-NMS对所述候选片段的得分进行调整；

对各所述候选片段提取相同大小的池化特征片段；

2.根据权利要求1所述的基于3D区域卷积神经网络的时序行为检测方法，其特征在于，3D ConvNet的网络结构采用C3D中从conv1a到conv5b的卷积层和池化层。

3.根据权利要求1所述的基于3D区域卷积神经网络的时序行为检测方法，其特征在于，所述候选片段采用所述时间点的特征与上下文特征相结合的方式生成。

4.根据权利要求1所述的基于3D区域卷积神经网络的时序行为检测方法，其特征在于，在时序片段提名子网络的训练中，用于训练的正负样本比为1:1。

5.根据权利要求1所述的基于3D区域卷积神经网络的时序行为检测方法，其特征在于，所述采用Soft-NMS对所述候选片段的得分进行调整，具体包括：采用基于Gaussian的补偿函数对所述候选片段的得分进行调整，其中，p_m为最大得分对应的候选片段，α为预先设定的阈值，σ为高斯函数的参数，s_i为候选片段i的得分，s′_i为经过Soft-NMS调整后的候选片段i的得分。

6.根据权利要求1所述的基于3D区域卷积神经网络的时序行为检测方法，其特征在于，所述分类层和所述回归层在训练过程中采用的联合损失函数为其中，N_cls为用于训练分类层的候选片段样本的数量，N_reg为用于训练回归层的行为片段样本的数量，L_cls为分类层的损失函数，L_reg为回归层的损失函数，λ为用于调节分类层与回归层损失函数占比的参数，a_i为预测的第i个候选片段的得分，为第i个候选片段得分的真值，t_j为第j个行为片段预测的起止时间的调整，为第j个行为片段起止时间调整的真值。

7.一种基于3D区域卷积神经网络的时序行为检测系统，其特征在于，包括：

8.根据权利要求7所述的基于3D区域卷积神经网络的时序行为检测系统，其特征在于，所述分数调整模块，具体包括：分数调整模单元，用于采用基于Gaussian的补偿函数对所述候选片段的得分进行调整，其中，p_m为最大得分对应的候选片段，α为预先设定的阈值，σ为高斯函数的参数，s_i为候选片段i的得分，s′_i为经过Soft-NMS调整后的候选片段i的得分。