CN112906549B

CN112906549B - 一种基于时空胶囊网络的视频行为检测方法

Info

Publication number: CN112906549B
Application number: CN202110177236.2A
Authority: CN
Inventors: 王瀚漓; 吴雨唐
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2022-10-25
Anticipated expiration: 2041-02-07
Also published as: CN112906549A

Abstract

本发明涉及一种基于时空胶囊网络的视频行为检测方法，包括以下步骤：1)特征提取：将给定输入视频分为多个包含帧数相等的帧序列，在每个时间步对每个帧序列分别提取2D特征和3D特征，并将两种特征进行整合，构造包含视频信息的互补时空特征；2)行为分类：构建基于胶囊网络的分类子网，对互补时空特征进行行为理解，输出类别胶囊，具有最大激活值的类别胶囊对应的行为类别即为预测类别；3)行为定位：构建定位子网，并且通过掩膜处理和反卷积重构得到与输入视频等大的像素级定位图，在重构过程中，胶囊特征和2D特征通过跳跃连接的方式调整定位结果。与现有技术相比，本发明具有检测精度高、泛化能力强、训练速度快等优点。

Description

一种基于时空胶囊网络的视频行为检测方法

技术领域

本发明涉及基于视频的行为检测领域，尤其是涉及一种基于时空胶囊网络的视频行为检测方法。

背景技术

视频作为最能还原人们生活的信息传播方式，在当今社会呈现爆炸式增长的态势，因此视频理解显得尤为重要，视频行为检测作为视频理解的关键任务之一，旨在描述视频中人物的行为类别以及行为发生位置，在智能驾驶、人机交互以及视频监控等领域具有非常广阔的应用前景，由于视频的时序特性，对视频信息的建模存在一定技术难度，相比于静态图像视觉任务的成果，视频行为检测任务依然存在一定的发展空间。

随着深度学习在计算机视觉领域的重大突破，基于深度模型的视频行为检测方法相继取得优秀成果。其中，依赖于其它视觉线索如光流等的检测方法在检测精度和速度上优势明显，然而此类方法的检测结果过多地受制于视觉线索的质量和计算速度，且当应用于大型数据集时，对于视觉线索的额外计算代价不容忽视。现有的一些方法仅采用3D卷积直接对视频特征进行时空域建模，但检测结果始终无法与前者相匹敌。因此，如何设计出一种不依赖于其它视觉线索且对视频表征能力强的视频行为检测方法，是目前亟待解决的研究问题之一。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于时空胶囊网络的视频行为检测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于时空胶囊网络的视频行为检测方法，包括以下步骤：

1)特征提取：将给定输入视频划分为多个包含帧数相等的帧序列，在每个时间步对每个帧序列分别提取2D特征和3D特征，并将两种特征进行整合，构造包含视频信息的互补时空特征；

2)行为分类：构建基于胶囊网络的分类子网，对互补时空特征进行行为理解，输出类别胶囊，具有最大激活值的类别胶囊对应的行为类别即为预测类别；

3)行为定位：构建定位子网，并且通过掩膜处理和反卷积重构得到与输入视频等大的像素级定位图，在重构过程中，胶囊特征和2D特征通过跳跃连接的方式调整定位结果。

所述的步骤1)中，提取2D特征具体为：

构建2D卷积网络，通过2D卷积网络对包含D帧的帧序列的每一帧提取2D帧级特征，再将每一帧特征的维度进行扩展，按照扩展后的维度进行特征堆叠，得到对应输入帧序列的2D堆叠特征，即2D特征。

所述的步骤1)中，提取3D特征具体为：

构建3D卷积网络，通过3D卷积网络对包含D帧的帧序列直接进行时空域卷积，得到3D时空域视频特征，即3D特征，所述的3D特征与2D特征的特征维度相同。

所述的步骤1)中，特征整合具体为：

将2D特征与3D特征进行相加融合，采用矩阵相加操作结合两种模态的特征，得到的互补时空特征，所述的互补时空特征的特征维度与2D特征和3D特征的特征维度相同。

所述的步骤2)中，分类子网具体采用3D形式的胶囊网络用以适配视频场景下的行为理解和分类任务，分类子网以互补时空特征作为输入，分别依次经过初级胶囊层、次级胶囊层和类别胶囊层处理，输出与行为类别数目相同的类别胶囊，在类别胶囊中，具有最大激活值的类别胶囊对应的行为类别作为分类子网预测出的行为类别。

3D形式的胶囊网络中的每个胶囊均由一个姿态矩阵M和一个激活值a组成，分别表征特征实体的性质和存在的概率，下一层胶囊的姿态矩阵和激活值基于EM路由算法由上一层胶囊的姿态矩阵和激活值计算得到，

所述的步骤3)具体为：

对除激活值最大的类别胶囊之外的其它类别胶囊进行掩膜处理，对掩膜处理后的类别胶囊依次经由全连接层、变维以及一组反卷积层，重构出与输入视频帧等大的像素级定位图。

在训练阶段的掩膜处理过程中，仅保留真值类别对应的类别胶囊的值，将其它类别胶囊的值均置为0；在测试阶段的掩膜处理过程中，仅保留具有最大激活值的类别胶囊的值，将其它类别胶囊的值均置为0。

所述的一组反卷积层由依次连接的5层反卷积层构成，在通过5层反卷积对特征矩阵进行定位重构过程中，采用来自分类子网的胶囊特征以及来自2D卷积网络的2D特征通过跳跃连接的方式调整行为定位结果，其中，胶囊特征提供行为的视角不变性信息，2D特征为重构过程注入帧级空间位置信息和时序信息，具体为：

将来自初级胶囊层的姿态矩阵经过变维和3D卷积后，与第一层反卷积层输出的特征进行拼接，将来自次级胶囊层的姿态矩阵经过变维和3D卷积后，与第二层反卷积层输出的特征进行拼接，提供行为的视角不变性信息，并且，将来自2D卷积网络的2D特征通过矩阵相加的方式与第三层反卷积层输出的特征进行融合，为重构过程提供行为的帧级空间位置信息以及时序信息。

在时空胶囊网络的训练过程中，总损失L由分类损失L_cls和定位损失L_loc两部分组成，则有：

L＝L_cls+λL_loc

其中，λ为用以降低定位损失的权重，使得定位损失不对分类损失产生支配性影响，a_g为目标类别对应的类别胶囊的激活值，a_h为第h个类别胶囊的激活值，m为边界值，在训练过程中，该边界值从0.2至0.9线性增长，用以使得目标类别对应的类别胶囊的激活值与其它类别胶囊的激活值差距逐渐拉大，(T,X,Y)为重构出的定位结果，T、X和Y分别对应定位结果的时域长度、高度和宽度，v为输入，p_tij为定位结果中位于(t,i,j)位置的像素点的后验概率，

为输入v在(t,i,j)位置的像素点对应的真值行为分数，F_tij为定位结果中位于(t,i,j)位置的像素点的激活值，在位于真值检测框内的像素点的激活值为1，其余为0。

与现有技术相比，本发明具有以下优点：

一、检测精度高：本发明模拟人类理解视频的模式，将帧级信息(2D特征)与在多帧上的理解(3D特征)想关联，所构成的互补时空特征表征了丰富的视频信息，同时，分类子网中的胶囊具有视角不变的特性，能够更好地理解类内变化多样的视频行为，提高模型分类准确度，此外，定位子网利用胶囊特征以及2D特征在重构过程中对定位结果进行调整，能够有效地提高模型的定位准确度。

二、泛化能力强：本发明不再依赖于其它视觉线索如光流等，检测结果的好坏不受制于视觉线索的质量，且避免了视觉线索的计算代价，当应用于大型数据集时，具有更强的泛化能力。

三、训练速度快：本发明为端到端检测网络，相比于基于其它视觉线索的方法，本发明无需训练多条工作流，且在训练过程中具有更快的收敛速度。

附图说明

图1为时空胶囊网络的整体架构示意图。

图2为特征提取子网的结构示意图。

图3为分类子网的结构示意图。

图4为定位子网的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1所示，本发明提供一种基于时空胶囊网络的视频行为检测方法，包括以下步骤：

1)特征提取步骤

特征提取子网的网络结构如图2所示，对于给定输入视频，首先将视频分为若干个帧序列，每个帧序列包含D张大小为112×112的视频帧，这些帧序列表示为{f₁,f₂,···,f_D}，{f_D+1,f_D+2,···,f_2D}等以此类推，在每个时间步，2D卷积网络对包含D帧的帧序列中的每一帧提取2D帧级特征用于表征帧级空间域信息，3D卷积网络则对包含D帧的帧序列计算出对应的3D特征用于表征视频的时空域信息，随后将2D特征与3D特征进行整合，输出包含丰富视频信息的互补时空特征，该步骤具体包括：

11)2D特征提取：2D卷积网络对帧序列中的每张视频帧提取帧级特征，对每一帧，采用conv1_i和conv2_i两层卷积对输入帧进行处理(i表示第i个视频帧，且i＝1,2,3...D)，conv1_i的卷积核大小为3×3，输出256张56×56大小的特征图，conv2_i的卷积核大小为3×3，输出512张28×28大小的特征图，将每一帧对应的28×28大小的特征图进行维度扩展，使得特征图维度变为1×28×28×512，再将D帧的特征图堆叠在一起，构成维度为8×28×28×512的2D帧级堆叠特征，该特征保留了输入帧序列的帧级空间位置细节和时间顺序信息；

12)3D特征提取：3D卷积网络对帧序列整体提取时空域特征，包含6层3D卷积层，每层的卷积核大小均为3×3×3，经过卷积后，网络将输出维度为8×28×28×512的3D特征，该特征的维度与2D特征保持一致，描述了输入帧序列的整体时空域信息；

13)特征整合：仿照注意力机制，将来自2D卷积网络的2D特征与来自3D卷积网络的3D特征进行矩阵相加操作，使得特征图中的关键视频信息更加突出，特征整合将得到维度同样为8×28×28×512的互补时空特征，该时空特征包含了丰富的视频信息，便于后续进行行为理解；

2)行为分类步骤

分类子网采用3D形式的胶囊网络来适配视频场景下的行为理解和分类任务，其结构示意图如图3所示。

在传统2D胶囊网络中，胶囊由一个大小为4×4的姿态矩阵M和一个激活值a组成，其中，姿态矩阵编码了特征实体的各个性质，激活值则编码了特征实体的存在概率，第L层胶囊的姿态矩阵通过与转换矩阵W_ij相乘，作为第L+1层胶囊的姿态矩阵投票，即V_ij＝M_iW_ij，基于EM路由算法，第L+1层胶囊的姿态矩阵M和激活值a根据第L层的胶囊的投票和激活值a计算得到，在这种场景下，第L层与第L+1层之间需要计算N_L×N_L+1个投票，N_L和N_L+1分别表示第L层与第L+1层各自包含的胶囊数目，当每层的胶囊数目过大时，层与层之间的路由计算代价较高，因此，卷积胶囊被提出来解决这一问题，通过每次仅利用感受野内的胶囊进行路由来降低代价，然而当感受野过大或胶囊层的体量过大时，计算代价仍然不容忽视。

3D胶囊网络针对这一问题进行了路由优化。首先，考虑到同一类型的胶囊尽管位置不同，但都是对同一特征实体进行建模，因此同一类型的胶囊采用相同的转换矩阵；其次，由于类型相同位置不同的胶囊对同一特征实体建模，可以安全推测同一感受野内的不同胶囊使用相同转换矩阵时应当具有相似的投票，因此对感受野内的胶囊取平均得到平均胶囊，用该平均胶囊代表感受野内的所有胶囊来参与路由过程。平均胶囊的姿态矩阵M^c和激活值a^c的计算方式如下式所示：

通过平均池化操作，路由过程仅需计算C_L×C_L+1个投票数，C_L和C_L+1分别表示第L层与第L+1层的胶囊类型数，这一操作避免了感受野大小对于路由计算代价的影响。

基于此，分类子网由初级胶囊层、次级胶囊层和类别胶囊层组成，具体步骤包括：

21)初级胶囊层以维度为8×28×28×512的互补时空特征图为输入，核大小为3×9×9，步长为1×1×1，输出姿态矩阵维度为6×20×20×32×16，激活值维度为6×20×20×32×1，该层包含32种胶囊类型；

22)次级胶囊层以初级胶囊层的输出作为输入，卷积核大小为3×5×5，步长为1×2×2，输出姿态矩阵维度为4×8×8×32×16，激活值维度为4×8×8×32×1，该层同样包含32种胶囊类型；

23)类别胶囊层中同一类型的胶囊共享转换矩阵，该层的胶囊与次级胶囊层中的胶囊采用全连接的形式进行信息交流，最终输出C个类别胶囊，C表示行为类别的数目；

24)分类子网将具有最大激活值的类别胶囊对应的行为类别作为网络的预测行为类别。

3)行为定位步骤

定位子网基于掩膜后的类别胶囊，利用反卷积重构出像素级定位图，并在重构过程中利用胶囊特征和2D特征对定位结果进行调整，其结构示意图如图4所示，具体步骤包括：

31)对类别胶囊进行掩膜处理：在训练阶段，仅保留真值类别对应的类别胶囊的值，将其它类别胶囊的值均置为0，在测试阶段，仅保留具有最大激活值的类别胶囊的值，将其它类别胶囊的值均置为0；

32)将掩膜后的类别胶囊的姿态矩阵以C×16的向量形式送入全连接层，输出长度为4×8×8×1＝256的特征向量，并将其进行变维，得到大小为4×8×8×1的特征矩阵；

33)利用5层反卷积对特征矩阵进行定位重构，在此期间，来自初级胶囊的姿态矩阵经由变维和3D卷积后，与第一层反卷积层(deconv1)输出的特征进行拼接，来自次级胶囊的姿态矩阵经由变维和3D卷积后，与第二层反卷积层(deconv2)输出的特征进行拼接，胶囊特征提供了行为的视角不变性信息，此外，来自2D卷积网络的2D特征通过矩阵相加的方式与第三层反卷积层(deconv3)输出的特征进行融合，为重构过程提供行为的帧级空间位置信息以及时序信息，反卷积操作过后，将输出大小为8×112×112×256的特征图；

34)利用一层3D卷积处理反卷积层输出的特征图，卷积核大小为1×3×3，核数目为1，步长为1×1×1，输出维度为8×112×112×1的与输入帧图像等大的行为定位图，在测试阶段，将定位图中激活值高于0.5的像素高亮，最终得到像素级行为定位结果；

4)在进行训练时，总损失L由分类损失L_cls和定位损失L_loc两者组成，公式定义如下：

L＝L_cls+λL_loc

其中，λ被用来降低定位损失的权重，使定位损失不对分类损失产生支配性影响；

分类损失L_cls的计算方式为：

其中，a_g表示目标类别对应的类别胶囊的激活值，a_h表示第h个类别胶囊的激活值，m表示边界值，在训练阶段，该值从0.2至0.9呈线性增长，使得目标类别对应的类别胶囊的激活值与其它类别胶囊的差距逐渐拉大。

令(T,X,Y)表示重构出的定位结果，T、X和Y分别对应结果的时域长度、高度和宽度，对于一段视频输入v，定位结果中位于(t,i,j)位置的像素点的后验概率可以表示为：

其中，F_tij表示定位结果中位于(t,i,j)位置的像素点的激活值。本方法将真值标签进行改造，将位于真值检测框内的像素点的行为分数置为1，其余置为0，得到真值定位图，令

表示输入v在(t,i,j)位置对应的真值行为分数，则定位损失L_loc的计算方式为：

为了验证上述方法的性能，设计了以下实验。

本方法在UCF-Sports、J-HMDB和UCF-101三个基准数据集上进行了实验验证，其中，UCF-Sports数据集包含150个视频，涉及10个与体育运动有关的行为类别，每个视频均经过裁剪，视频的每一帧均有行为发生，实验使用标准训练/测试分支；J-HMDB数据集包含928个视频，涉及21个行为类，通常被分成3个训练/测试分支，最终在该数据集上的结果为取在三条分支上的实验结果的平均；UCF-101数据集包含3207个视频，涉及24种日常行为类别，每个视频并未经过裁剪，因此存在没有行为发生的视频帧，同时视频背景噪声较大，相较于前两个数据集检测难度更高，实验使用数据集第一个分支的实验结果。考虑到数据集体量，对于UCF-Sports和J-HMDB数据集，本方法首先利用UCF-101数据集进行预训练，再在各自数据集上进行参数微调。

实验使用的评价指标包括帧级指标(frame-mAP)和视频级指标(video-mAP)。其中，frame-mAP衡量的是本方法在帧级结果上的检测性能，video-mAP评估的是本方法在视频级结果上的检测性能，mAP值越大，表明方法的检测性能越好，值得注意的是，当且仅当一个检测结果被正确分类且与真值结果重叠度大于某一阈值δ时，该检测结果被认为是真-正样本(truepositive)，本方法在不同阈值δ下衡量了frame-mAP和video-mAP的结果。

区别于用于行为检测的纯3D胶囊网络(VideoCapsuleNet)，本方法通过充分注入2D特征来提供行为的帧级空间细节和时序信息，进而提高行为检测准确度。为了评估2D卷积网络的性能，本方法设置了多种特征提取子网并进行了对比实验，在UCF-101数据集上的帧级检测结果和视频级检测结果如表1所示。其中SCN-add为采用前文所述特征提取子网结构的时空胶囊网络，SCN-add2采用更深层次的2D卷积网络，其网络参数如表2所示，SCN-add3采用与SCN-add相同的2D卷积网络，但在3D卷积网络的conv5层之后进行特征整合，SCN-conv则采用与SCN-add相同的2D卷积网络，但特征整合的方式为先将2D特征与3D特征堆叠，再对堆叠特征进行核大小为1×1的卷积。在表1中，SCN-add与VideoCapsuleNet之间的对比结果表明，2D卷积网络提取的帧级特征对于提高行为检测性能有促进作用；SCN-add与SCN-add2的对比结果表明，浅层2D卷积网络提取的特征包含更丰富的帧级细节信息，更利于促进行为检测；SCN-add与SCN-add3的对比结果表明，2D特征与3D特征整合的位置对于行为检测的性能影响较大，较早整合不利于行为特征的学习；SCN-add与SCN-conv的对比结果表明，采用矩阵相加的方式进行特征整合能够使得网络将注意力更多地放在行为的关键信息上，从而具备更高的行为检测准确度。通过实验，本方法采用SCN-add对应的结构作为特征提取子网的结构，即对每张输入帧采用两层卷积进行2D特征提取，将来自多帧的2D特征进行变维并堆叠后，与3D特征在3D卷积网络的conv6层(最后一层)之后进行相加融合。

为了评估2D特征在定位子网中的作用，本方法设置了多种定位子网进行对比实验，结果如表3所示。其中，SCN-addall为前文所述定位子网结构，即将2D卷积网络提取的2D特征与反卷积deconv3层输出的特征进行相加融合，SCN-addall2将3D卷积网络提取的3D特征与反卷积deconv3层输出的特征进行相加融合，SCN-addall3将特征提取子网输出的特征与反卷积deconv3层输出的特征进行相加融合，SCN-addconcat则将2D特征与反卷积deconv3层输出的特征直接堆叠送入下一层反卷积。在表3中，SCN-addall与SCN-add的对比结果表明，在重构定位图过程中，注入2D特征能够有效提高行为检测准确度；SCN-addall、SCN-addall2与SCN-addall3三者的对比结果表明，3D卷积网络对于定位重构没有帮助作用，而2D特征具备丰富的帧级空间位置信息和时序信息，从而对检测性能起到促进作用；SCN-addall与SCN-add在UCF-Sports数据集上的指标结果对比进一步验证了2D特征的有效性，如表4所示。除此之外，SCN-addall与SCN-addconcat的对比结果表明，在定位子网上，2D特征与重构特征之间进行相加融合的检测效果要比直接堆叠融合更好，这一结果与特征提取子网的实验结果相吻合。

本方法在UCF-Sports、J-HMDB和UCF-101数据集上与目前最先进的行为检测方法进行了比较，结果如表5所示。本方法通过加入2D帧级特征，有效提高了利用胶囊网络进行行为检测的方法的帧级准确度。相比于基于其它视觉线索的方法，本发明无需花费额外的视觉线索计算代价，无需训练多条工作流，不受制于其它视觉线索，在J-HMDB和UCF-101数据集上的检测优势尤为明显。可以合理假设，当应用于更大型的数据集上时，本发明具备更强的性能和更广阔的应用前景。

表1不同特征提取子网在UCF-101数据集上的指标结果对比

表2 SCN-add与SCN-add2在2D卷积网络结构上的区别

表3不同定位子网在UCF-101数据集上的指标结果对比

表4 SCN-addall与SCN-add在UCF-Sports数据集上的指标结果对比

表5在UCF-Sports、J-HMDB和UCF-101数据集上与各方法的比较

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于时空胶囊网络的视频行为检测方法，其特征在于，包括以下步骤：

2)行为分类：构建基于胶囊网络的分类子网，对互补时空特征进行行为理解，输出类别胶囊，具有最大激活值的类别胶囊对应的行为类别即为预测类别，分类子网具体采用3D形式的胶囊网络用以适配视频场景下的行为理解和分类任务，分类子网以互补时空特征作为输入，分别依次经过初级胶囊层、次级胶囊层和类别胶囊层处理，输出与行为类别数目相同的类别胶囊，在类别胶囊中，具有最大激活值的类别胶囊对应的行为类别作为分类子网预测出的行为类别；

3)行为定位：构建定位子网，并且通过掩膜处理和反卷积重构得到与输入视频等大的像素级定位图，在重构过程中，胶囊特征和2D特征通过跳跃连接的方式调整定位结果，具体为：

对除激活值最大的类别胶囊之外的其它类别胶囊进行掩膜处理，对掩膜处理后的类别胶囊依次经由全连接层、变维以及一组反卷积层，重构出与输入视频帧等大的像素级定位图，所述的一组反卷积层由依次连接的5层反卷积层构成，在通过5层反卷积对特征矩阵进行定位重构过程中，采用来自分类子网的胶囊特征以及来自2D卷积网络的2D特征通过跳跃连接的方式调整行为定位结果，其中，胶囊特征提供行为的视角不变性信息，2D特征为重构过程注入帧级空间位置信息和时序信息，具体为：

2.根据权利要求1所述的一种基于时空胶囊网络的视频行为检测方法，其特征在于，所述的步骤1)中，提取2D特征具体为：

3.根据权利要求2所述的一种基于时空胶囊网络的视频行为检测方法，其特征在于，所述的步骤1)中，提取3D特征具体为：

4.根据权利要求3所述的一种基于时空胶囊网络的视频行为检测方法，其特征在于，所述的步骤1)中，特征整合具体为：

5.根据权利要求1所述的一种基于时空胶囊网络的视频行为检测方法，其特征在于，3D形式的胶囊网络中的每个胶囊均由一个姿态矩阵M和一个激活值a组成，分别表征特征实体的性质和存在的概率，下一层胶囊的姿态矩阵和激活值基于EM路由算法由上一层胶囊的姿态矩阵和激活值计算得到。

6.根据权利要求1所述的一种基于时空胶囊网络的视频行为检测方法，其特征在于，在训练阶段的掩膜处理过程中，仅保留真值类别对应的类别胶囊的值，将其它类别胶囊的值均置为0；在测试阶段的掩膜处理过程中，仅保留具有最大激活值的类别胶囊的值，将其它类别胶囊的值均置为0。

7.根据权利要求1所述的一种基于时空胶囊网络的视频行为检测方法，其特征在于，在时空胶囊网络的训练过程中，总损失L由分类损失L_cls和定位损失L_loc两部分组成，则有：

L＝L_cls+λL_loc