CN111178344A

CN111178344A - 一种多尺度时序行为识别方法

Info

Publication number: CN111178344A
Application number: CN202010293090.3A
Authority: CN
Inventors: 雷军; 张军; 李硕豪; 何嘉宇; 王风雷; 周浩
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-05-19
Anticipated expiration: 2040-04-15
Also published as: CN111178344B

Abstract

本发明公开了一种多尺度时序行为识别方法，本方法通过建立具有三维卷积特征金字塔结构、候选区域提案子网络和分类子网络的三维卷积特征金字塔网络模型，候选区域提案子网络将产生可能包含行为片段的候选区域，而分类子网将这些候选区域分类为特定的行为类别或背景，并进一步精修这些区域的时间边界，该方法保证了计算效率，使得使用的特征具有统一性，增强了在大范围时间尺度上检测行为的能力，整个网络是可端到端训练的，以便于进行整体优化，这是特征提取和时序行为识别的统一。

Description

一种多尺度时序行为识别方法

技术领域

本发明涉及视觉识别技术领域，特别是指一种多尺度时序行为识别方法。

背景技术

时序行为识别（Temporal action detection）是视觉内容理解中的一项要任务，旨在从未修剪的视频中检测人类行为片段，将该片段分类为几种行为类别之一，并精确地预测其开始和结束时间点。与视频理解中的其他任务（例如行为识别或时序行为提案）相比，它绝对更具挑战性，但更加实用。在现实生活中，大多数需要检测的视频都是具有多个不同行为段的未修剪的长时视频。例如，我们可能需要通过实时检测监视视频来监视监狱中囚犯的行为，或者我们需要在视频网站中过滤带有少儿不宜内容的视频。这些视频持续时间很长，而且总是包含复杂的行为片段；

在行为识别领域，先前的方法着眼于视频中人类行为的特征。例如，改进的密集轨迹（iDT）使用手工的特征和光流特征，这取得较好的效果。后来，许多研究人员尝试通过使用深度神经网络来解决此问题。受二维的卷积网络的启发，有研究中提出了三维卷积网络（C3D）来同时学习空间和时间特征。该网络具有结构简单，时空特征良好结合的优点，但如今，由于视频中人类行为的模糊性和复杂性，时序行为识别的准确率仍处在较低的水平。视频中的行为片段时间跨度通常在几秒到几十秒之间，而大多数现有方法在检测大范围时间尺度上的短时行为片段时都无法取得良好的效果。

发明内容

有鉴于此，本发明的目的在于提出一种多尺度时序行为识别方法，提高检测大范围时间尺度上的短时行为片段时的效果。

基于上述目的本发明提供的一种多尺度时序行为识别方法，包括以下步骤：

建立三维卷积特征金字塔网络模型，三维卷积特征金字塔网络模型包括：三维卷积特征金字塔结构、候选区域提案子网络和分类子网络；

对三维卷积特征金字塔网络模型进行训练；

三维特征金字塔层次结构对输入的视频帧进行编码，并生成多级特征图；

候选区域提案子网络使用多级特征图挑选可能包含行为片段的候选区域；

分类子网络根据候选区域提案子网络挑选出的可能包含行为片段的候选区域，为其分配类别标签，并进一步精修候选区域的时间边界。

优选地，对三维卷积特征金字塔网络模型进行训练包括对候选区域提案子网络进行训练和对分类子网络进行训练；

其中，对候选区域提案子网络进行训练包括：

将锚段标定为正/负样本：若锚段与某些真实行为片段有重叠，且交并比高于0.7，或与某些真实行为片段有最高的交并比，则将该锚段标定为正标签，若锚段与所有的真实行为片段的交并比均低于0.3，则将该锚段标记为负样本；

只采用正样本和负样本对候选区域提案子网络进行训练；

对分类子网络进行训练包括：

为每个候选区域分配行为类别标签：如果某候选区域与某真实行为片段具有最高交并比，同时交并比大于0.5，则给该候选区域标定为对应的行为类别标签，若某候选区域与所有真实的行为片段交并比都低于0.5，则将被标定为负标签；

采用分配行为类别标签后的候选区域对分类子网络进行训练。

优选地，对候选区域提案子网络进行训练时，正样本和负样本的数量比为1:1。

优选地，三维特征金字塔层次结构对输入的视频帧进行编码，并生成多级特征图包括：

对输入的视频帧提取时空特征；

使用conv1a到conv5b形成了自下而上的途径；

设定在时间尺度上相同的特征图为同一个金字塔级别的特征图；

通过自上而下的通道和横向连接通道构建特征金字塔结构，生成多级特征图。

优选地，自上而下的通道由多层上采样层组成，横向连接层是卷积核大小为1 x 1x 1 的三维卷积层。

优选地，候选区域提案子网络使用多级特征图挑选可能包含行为片段的候选区域包括：

从三维特征金字塔层次结构生成的每个特征图中生成相应锚段；

为每个锚段分配正或负标签，并对锚段进行初步的边界回归；

应用非极大值抑制法挑选出可能包含行为片段的候选区域。

优选地，分类子网络根据候选区域提案子网络挑选出的可能包含行为片段的候选区域，为其分配类别标签，并进一步精修候选区域的时间边界，包括：

将时间长度不同的可能包含行为片段的候选区域分配到相应的金字塔级别；

三维感兴趣区域池化层从相应的特征图中提取每个可能包含行为片段的候选区域的特征，得到子特征向量；

在每个子特征向量内执行最大池化；

将最大池化后输出特征向量经过一系列全连接层得到行为分类得分和精修后的行为片段起始时间。

优选地，将时间长度不同的可能包含行为片段的候选区域分配到相应的金字塔级别

符合以下公式：

其中，

是候选区域的时间长度，

是某个视频的时间长度，

是一个常数，

是一金字塔级别，用于调整分配给每个级别的候选区域数量。

优选地，本方法还包括：

通过同时优化分类损失和回归损失来训练候选区域提案子网络和分类子网络。

优选地，通过同时优化分类损失和回归损失来训练候选区域提案子网络和分类子网络包括：

使用交叉熵损失函数描述分类损失，使用平滑L1损失函数描述回归损失，一个子网络的联合损失函数如下：

其中

和

在候选区域提案子网络中代表锚段数，而在分类子网络中代表候选区域数，

是两种损失的权衡因子，

代表锚段/候选区域索引，

是前/背景或某行为的概率预测值，

则代表真实情况，是

网络预测的锚段/候选区域与真实行为片段的偏移值，而

则是锚段/候选区域与真实行为片段的真实偏移值。

从上面所述可以看出，本发明提供的多尺度时序行为识别方法，本方法通过建立具有三维卷积特征金字塔结构、候选区域提案子网络和分类子网络的三维卷积特征金字塔网络模型，候选区域提案子网络将产生可能包含行为片段的候选区域，而分类子网将这些候选区域分类为特定的行为类别或背景，并进一步精修这些区域的时间边界，该方法保证了计算效率，使得使用的特征具有统一性，增强了在大范围时间尺度上检测行为的能力，整个网络是可端到端训练的，以便于进行整体优化，这是特征提取和时序行为识别的统一。

附图说明

图1为本发明实施例的方法流程示意图；

图2为本发明实施例的三维卷积特征金字塔结构示意图；

图3为本发明实施例的三维卷积特征金字塔网络模型示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

一种多尺度时序行为识别方法，包括以下步骤：

S101建立三维卷积特征金字塔网络模型（FPC3D），所述三维卷积特征金字塔网络模型包括：三维卷积特征金字塔结构、候选区域提案子网络和分类子网络；

S102对所述三维卷积特征金字塔网络模型进行训练；

S103三维特征金字塔层次结构对输入的视频帧进行编码，并生成多级特征图；

S104候选区域提案子网络使用所述多级特征图挑选可能包含行为片段的候选区域；

S105分类子网络根据所述候选区域提案子网络挑选出的可能包含行为片段的候选区域，为其分配类别标签，并进一步精修候选区域的时间边界。

本方法通过建立具有三维卷积特征金字塔结构、候选区域提案子网络和分类子网络的三维卷积特征金字塔网络模型，候选区域提案子网络将产生可能包含行为片段的候选区域，而分类子网将这些候选区域分类为特定的行为类别或背景，并进一步精修这些区域的时间边界，该方法保证了计算效率，使得使用的特征具有统一性，增强了在大范围时间尺度上检测行为的能力，整个网络是可端到端训练的，以便于进行整体优化，这是特征提取和时序行为识别的统一。

行为识别本质上是一个分类问题，类似于图像分类。输入是经过修剪的视频，其中包含感兴趣的某个行为实例，输出是该行为的预测类。较早的方法主要基于手工视觉特征。在过去的几年中，由于引入了许多基于卷积神经网络（Convolutional Neural Networks，CNN）的新网络，该领域取得了长足的进步。结合了CNN特征和光流特征的两流卷积网络，使用光流功能的网络通常比不使用光流功能的网络要好，这意味着光流是一个能编码视频中行为的好特征。值得注意的是，之后又提出了一种合并多级特征的方法，即时间池化金字塔，这是一种自下而上的特征融合方法，可同时学习时间和空间特征。三维卷积网络（Convolutional 3D Neural Network，C3D）的最大优势是它的速度，使用单个英伟达1080Ti显卡可以达到600 fps。这使得C3D在实际应用中有很大的应用前景。行为识别的准确性现在处于较高水平，因为它无需考虑精确定位行为片段的问题。

生成时序行为提案是两阶段检测网络的第一步，也是时序行为识别的核心步骤之一。网络上的视频数据集大多设有时序行为提案的任务和比赛。多阶段卷积神经网络（Multi-stage CNNs，SCNN）使用滑动窗口和3D 卷积网络生成提案。深度行为提案（DeepAction Proposals，DAP）方法使用长短时记忆（Long Short Term Memory，LSTM）网络在视频中进行提案。单流时序行为提案（Single-stream Temporal Action proposals，SST）方法使用新的深度架构生成提案，而无需将视频分成简短的片段。基于时序单元回归网络的时序行为提案（Temporal Unit Regression Network for Temporal Action Proposals，TURN TAP）方法组合时序单元以生成提案，时序行为组合（Temporal ActionnessGrouping，TAG）方法进一步引入了基于TURN的阈值。在区域三维卷积网络（RegionConvolutional 3D Network，R-C3D）中，提案是通过锚机制生成的。

在未修剪的视频中定位行为片段的任务，这就是时序行为识别的由来。后来，有许多大型数据集应运而生，例如THUMOS'14，Charades和ActivityNet。早期的传统方法通常是通过滑动窗口后加上SVM分类器来完成该任务的，其中许多方法使用改进的密集轨迹或预先训练的DNN特征。

作为一种实施方式，对三维卷积特征金字塔网络模型进行训练包括对候选区域提案子网络进行训练和对分类子网络进行训练；

其中，对候选区域提案子网络进行训练包括：

将锚段标定为正/负样本：若锚段与某些真实行为片段有重叠，且交并比（IoU）高于0.7，或与某些真实行为片段有最高的交并比，则将该锚段标定为正标签，若锚段与所有的真实行为片段的交并比均低于0.3，则将该锚段标记为负样本；

只采用正样本和负样本对候选区域提案子网络进行训练；即除正样本和负样本之外的锚段不会用来训练。

对分类子网络进行训练包括：

作为一种实施方式，对候选区域提案子网络进行训练时，所述正样本和所述负样本的数量比为1:1，由于正样本的数量通常少于负样本的数量，因此我们优先考虑采样出

数量的正样本，如果正样本数量不足，则用负样本补充，总数到

个，举例来说，可以将

值设置为128。

作为一种实施方式，三维特征金字塔层次结构对输入的视频帧进行编码，并生成多级特征图包括：

对输入的视频帧提取时空特征；

使用conv1a到conv5b形成了自下而上的途径；

使用RGB视频帧作为输入，并在时间尺度上按比例输出多个级别的特征图。具体来说，首先使用三维卷积网络提取时空特征，将其称作基础特征，我们称此过程为自下而上的通道。输入RGB帧的尺寸为

，而基本特征图

的尺寸为

（512为通道数）。三维卷积网络的架构来自经过微调的C3D（三维卷积网络）架构，我们使用conv1a到conv5b形成了自下而上的途径。为了方便起见，我们设定在时间尺度上相同的特征图为同一个级别的特征图，该级别即是网络中的金字塔级别。这样，我们可以通过自上而下的通道和横向连接通道来构建我们的特征金字塔结构。

作为一种实施方式，自上而下的通道由多层上采样层组成，所述横向连接层是卷积核大小为1 x 1 x 1 的三维卷积层。

自上而下的通道可以通过对级别较高，特征更抽象但时间维度上较粗糙的特征图进行上采样来使之成为更高分辨率的特征。虽然横向连接通道提供的是语义信息较低的特征，但这些特征相对来说具有更高的分辨率，与上层特征结合后就具有了丰富的语义信息。每个横向连接层会合并自上而下路径和自下而上路径的同一级别的特征图。横向连接将使用的特征图是基础特征图和在conv3b，conv4b级别的特征图（它们的时间维压缩倍数为

）。

三维特征金字塔层次结构的如图1所示。自上而下的通路从特征图P₃开始，该特征图来自

后接的一个有1*1*1卷积核的三维卷积层。一般来说，我们对P_n特征图在时间维度进行两倍的上采样，然后将上采样后的特征图与相应的自下而上的特征图进行合并（自下而上的特征图经历了1*2*2卷积核的3D卷积层来降低空间尺度，并调整通道数）。之后，在合并的特征图上加3*3*3卷积核的3D卷积（称为平滑层）以减少上采样的混叠效应，并将空间尺度从

降至1×1，最终产生该级别特征图P_n-1。重复此过程，直到生成最高分辨率的特征图P₁。在我们的网络中，我们总共生成了3个最终的特征图，分别是P₁，P₂，P₃，它们与

，

，

分别具有相同的时间尺度。

特征图P₁，P₂，P₃将在候选区域提案子网中使用，并在分类子网中重用。为了适应分类器和回归器的通道数，我们将所有特征图的通道数固定为512。

作为一种实施方式，候选区域提案子网络使用所述多级特征图挑选可能包含行为片段的候选区域包括：

应用非极大值抑制方法（NMS）挑选出可能包含行为片段的候选区域。

通过该子网络，我们将生成可能包含行为实例的，不同时间长度的候选区域。为了实现这一目标，我们在网络中引入了锚机制。这些锚具有依据级别不同而预先定义的不同尺度和比例，并以每个相对应的特征图中每个像素为中心，均匀分布在原视频时间维度上，以覆盖不同时间长度的行为片段。每个特征图的每个时间像素位置都指定了不同但固定比例的K个锚点。因此，锚段的总数为

。具体来说，在我们的网络中，我们将K设置为4，特征图｛P₁，P₂，P₃｝对应的锚段的尺度分别为｛8，12，16，20｝，｛12，14，16，18｝，｛10，12，14，16｝。注意到特征图｛P₁，P₂，P₃｝相对于原视频在时间维度的缩放比为｛2，4，8｝，因此原视频帧中锚段的时间尺度为｛16，24，32，40，48，56，64，72，80，96，112，128，｝，可以涵盖大多数行为片段。

特征图｛P₁，P₂，P₃｝中每个时间位置的512维特征向量用于预测该位置对应锚段相对于提案区域中心位置和长度的相对偏移

。同时，它预测每个提案是包含有行为或属于背景。这些结果通过在特征图｛P₁，P₂，P₃｝上分别加上两层卷积核为1×1×1的三维卷积层来得到。调整锚段的边界后，使用非极大值抑制法（NMS）来筛选出候选区域，在训练中，我们选出3000个候选区域进行训练，300个候选区域用于测试。

作为一种实施方式，分类子网络根据所述候选区域提案子网络挑选出的可能包含行为片段的候选区域，为其分配类别标签，并进一步精修候选区域的时间边界，包括：

三维感兴趣区域（3D RoI）池化层从相应的特征图中提取每个可能包含行为片段的候选区域的特征，得到子特征向量；

在每个子特征向量内执行最大池化；

虽然输入候选区域具有不同的时间长度，但经3D RoI池化后每个候选区域的输出特征是固定大小的特征向量。具体地，如果某个输入候选区域的时间长度是

并且将其分配给特征图Р_k，该候选区域映射到特征图Р_k上的特征向量

尺度为

。那么3D RoI池化层会将

分为1×4×4个子特征量，并且在每个子特征向量内执行最大池化，因此具有任意时间长度的每个候选区域的输出特征向量最终将尺度固定为512×1×4×4。最后，3D RoI池化的输出特征向量经过一系列全连接层（一个分类器和一个时间边界回归器）得到行为分类得分和精修后的行为片段起始时间。

作为一种实施方式，将时间长度不同的可能包含行为片段的候选区域分配到相应的金字塔级别符合以下公式：

其中，

是候选区域的时间长度，是

是某个视频的时间长度，举例来说可以设置为768，

是一个常数，用于调整分配给每个级别的候选区域数量，举例来说可以设置为4.5。直观地看，该公式意味着具有较短时间长度的候选区域将被映射到一个较低的级别，而低级别也是分辨率较高的级别。

作为一种实施方式，本方法还包括：

由于候选区域提案子网和分类子网具有相似的分类和回归任务，因此两个子网络使用相同的损失函数，因此可以通过同时优化分类损失和回归损失来训练这两个子网络。

作为一种实施方式，通过同时优化分类损失和回归损失来训练候选区域提案子网络和分类子网络包括：

其中

和

在候选区域提案子网络中代表锚段数，而在分类子网络中代表候选区域数，需注意的是，分类子网络中候选区域的数量应该与

相等，

是两种损失的权衡因子，举例来说可以设置为1，

代表锚段索引，

是前/背景或某行为的概率预测值，

则代表真实情况，

是网络预测的锚段/候选区域与真实行为片段的偏移值，而

则是锚段与真实行为片段的真实偏移值。

为了减少不同行为片段时间长度不同的影响，我们用相对偏移值来描述偏移，即：

这里

和

是索引为

的锚段的中心位置和时间长度，

和

则代表与之对应的真实行为片段的中心位置和时间维长度。整个网络的损失函数是这两个子网络损失函数之和：

。

使用训练好的FPC3D网络进行时序行为识别任务时，只需将需测试的视频按照768帧一个buffer进行预处理，之后输入网络即可。网络将输出其预测的行为片段开始结束时间及行为类别。

在本发明中，构建了3D特征金字塔分层特征，以使用多尺度的语义信息。具体而言，某个视频的输入帧是尺度不变的，这些帧通过微调的C3D网络进行编码，并输出时间长度为输入视频时长的1/8的基础特征图。此后，基础特征图将通过自上而下的路径，生成三个不同时间尺度的新特征图。这些特征图是高分辨率特征图和高级语义信息的融合，将由以下两个子网共享。一是时序候选区域提案子网络，该子网络主要功能是通过锚点机制生成候选区域。此子网中使用的特征图用于为锚设置正或负标签，并初步调整锚段的边界。第二个子网络是分类子网络，顾名思义，分类子网负责对候选区域中的行为进行分类，并通过共享特征图来精修它们的边界。

我们在THUMOS'14数据集中对其进行了评估。在没有使用光流特征的现有方法中，我们的网络几乎可以达到最佳效果。进一步的消融测试表明，金字塔层次结构可有效改善对短时行为的检测。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围（包括权利要求）被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。