CN109858419A

CN109858419A - 一种自下而上-自上而下的行为识别系统

Info

Publication number: CN109858419A
Application number: CN201910064508.0A
Authority: CN
Inventors: 招继恩; 朱勇杰; 王国良; 张海; 谭大伦; 周明
Original assignee: Guangzhou Smart City Development Research Institute; Sun Yat Sen University
Current assignee: Guangzhou Smart City Development Research Institute; Sun Yat Sen University
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-06-07

Abstract

本发明公开了一种自下而上‑自上而下的行为识别系统，包括SBTA模块和STBTA模块；所述SBTA模块和STBTA模块通过自下而上自上而下机制和注意机制对局部特征和全局信息进行编码。本发明的模块可以直接在图像或场景中适当的区域捕获长程依赖；使用最大池和平均池来生成通道统计和空间网格统计；提高其对信息功能的敏感度并选择有用的信息，不仅可以选择聚焦位置，还可以增强该位置对象的不同表示；本发明提出的方法是前馈方式，可以作为一种有效，简单和可解释的方法直接插入到2D/3D CNN中；即使只有STBA和STBTA，在性能上实现了很好的提升。

Description

一种自下而上-自上而下的行为识别系统

技术领域

本发明涉及行为识别，具体涉及一种自下而上-自上而下的行为识别系统。

背景技术

目前，视频中的人类动作识别在计算机视觉中占据重要地位，并引起了广泛关注。基于CNN的方法在图像分类方面取得了很大进展。此外，与标记的视频数据相比，图像分类任务有更多标记图像来训练网络。鉴于这两点，许多方法通过基于图像的分类方法组合来自视频的图像的预测以对视频进行分类。然而，视频不仅拥有与帧之中和之间的人类动作相关的许多无关信息，而且还包括沿帧的更多时间信息，即长范围时间依赖。

在视觉任务中，一些方法试图捕获长范围依赖依赖。一些模块使用单独的主干，以多种分辨率独立处理图像，并在网络中进行多尺度融合，这种方法比较有效但是很耗时。非局部神经网络使用非本地方式有效地捕获全局信息，但是有高内存成本并且只能放入神经网络中的中间层或最后的层。在不同领域如如动作检测和图像分割，也需要更好地探索自下而上-自上而下的机制和特定任务的注意力机制。

现有的技术方案一为Stacked Hourglass Networks（SHN），SHN重复自下而上，自上而下的处理过程，通过中间监督来改善人体姿态估计的性能，使用具有跳过层的单个管道来保留每个分辨率的空间信息。但更大的区域通常包括不相关的信息和特征图之间的重复信息，而SHN认为它们的重要性一样。

现有的技术方案二为Temporal Segment Networks(TSN), TSN使用多个并行的子网络，子网络之间共享权值，在网络的最后一层进行特征融合，可以有效的获取时间上的长范围依赖。其中原始的输入为视频，解码成图像之后分为三段，从每段中随机选择一帧，经过数据增强后输入网络。

现有的技术方案一SHN使用中间监督信息来考虑单人的姿势识别问题，模块的设计主要限制与解决姿势识别的问题，没有考虑行为识别中背景信息和周边信息的影响，在场景复杂及多人场景下表现效果较差。

现有的技术方案二TSN使用并行结构来捕捉长范围时间依赖，忽略了空间上的长范围依赖，在空间维度上仅使用基本的卷积和降采样过程来捕捉长范围空间依赖，存在大量视频相邻图像之间的冗余信息和背景信息。

发明内容

本发明针对上述问题，提供了一种自下而上-自上而下的行为识别系统。

本发明采用的技术方案是：一种自下而上-自上而下的行为识别系统，包括SBTA模块和STBTA模块；所述SBTA模块和STBTA模块通过自下而上自上而下机制和注意机制对局部特征和全局信息进行编码；

自下而上自上而下机制为对特征图进行逐层下采样后逐层上采样，通过残差联接保留多尺度学习，并具有科学系参数。

进一步地，所述系统最大池化层用于将特征处理到非常低的分辨率；任何相邻层之间均存在残差连接模块，在此模块中首先对输入功能进行三次下采样，在达到最低分辨率后，网络开始按比例进行双线性上采样并对相应特征进行组合；此外，增加了空间和时间注意力模块，以强调关键局部区域的功能，进一步提高网络性能；整个模块类似与一个沙漏的设计，并且两端是相互对称的；整个模块的输出对于不同通道、不同空间位置点都赋予了不同权重。

更进一步地，所述系统首先通过1x1的卷积核进行通道压缩，而后使用3x3的卷积核来适用高级信息，最后通过1x1的卷积核使得通道还原至，在这里使用残差连接来保留原始信息，用来减轻过拟合和避免梯度弥散；使用1x1卷积有缩减开销的价值，以及使用连续较小的过滤器捕获较大空间上下文；能用两个独立的3x3滤波器替换一个5x5滤波器，根据这些见解在不同的层模块中进行交换；不使用大于3x3的过滤器，限制了每个层的参数总数。

更进一步地，所述系统STBTA需要考虑空间和时间维度的关系；经过两次下采样后，使用自注意力模块来捕获远程依赖；然后对这些功能进行采样并进行聚合，将3D通道注意力放在模块的最后；在此模块中，所有过滤器和池化方式都是3D；以与2D不同的方式设计3D自下而上-自上而下模块；该模块有两个分支，上部分分支使用2D最大池化和2D平均池化，将它们逐元素相加在一起之后，使用2层MLP和Sigmoid激活函数来获得0-1之间的权值分布；下部分分支使用3D最大池和3D平均池，在使用逐元素相加将它们加在一起之后，使用2层MLP和sigmoid激活函数来获得权重分布；然后将这些分支添加到一起进行耦合并得到输出特征，输入到神经网络的下一层；

模块结果输出直接作为下一层模块的输入，该模块生成另一组预测；在最终的网络设计中，使用了8个STBA模块。

本发明的优点：

本发明的模块可以直接在图像或场景中适当的区域捕获长程依赖；使用最大池和平均池来生成通道统计和空间网格统计；提高其对信息功能的敏感度并选择有用的信息，不仅可以选择聚焦位置，还可以增强该位置对象的不同表示；本发明提出的方法是前馈方式，可以作为一种有效，简单和可解释的方法直接插入到2D / 3D CNN中；即使只有STBA和STBTA，在性能上实现了很好的提升。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明的自下而上-自上而下模块流程图；

图2是本发明的残差模块流程图；

图3是本发明的3D自下而上-自上而下注意力模块流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参考图1至图3，如图1至图3所示，一种自下而上-自上而下的行为识别系统，包括SBTA模块和STBTA模块；所述SBTA模块和STBTA模块通过自下而上自上而下机制和注意机制对局部特征和全局信息进行编码；

SBTA模块: Spatio Bottom-up Top-down Module；

STBTA模块: Spatio-temporal Bottom-up Top-down Module

自下而上自上而下机制: Bottom-up Top-down, 即对特征图进行逐层下采样后逐层上采样，通过残差联接保留多尺度学习，并具有科学系参数。

参考图1，如图1所示，本发明中的STBAM为2D的神经网络中的Block,可以嵌入在神经网络任意中间一层，其中输入为上一层的输出特征，输出为特征经过强调局部信息后的结果。其中在主干部分主要先进行下采样，经过三次采样之后，再进行上采样。每一个相邻或相连接的层之间均有残差连接模块(Residual Module)，具有可学习参数。下采样的目的是为了结合不同尺度的特征信息，经过上采样之后，通过残差连接和注意力机制模块(Attention Module)来强调和保留有用信息，弱化和分类无关的信息。

所述系统最大池化层用于将特征处理到非常低的分辨率；任何相邻层之间均存在残差连接模块，在此模块中首先对输入功能进行三次下采样，在达到最低分辨率后，网络开始按比例进行双线性上采样并对相应特征进行组合；此外，增加了空间和时间注意力模块，以强调关键局部区域的功能，进一步提高网络性能；整个模块类似与一个沙漏的设计，并且两端是相互对称的；整个模块的输出对于不同通道、不同空间位置点都赋予了不同权重。

所述系统首先通过1x1的卷积核进行通道压缩，而后使用3x3的卷积核来适用高级信息，最后通过1x1的卷积核使得通道还原至，在这里使用残差连接来保留原始信息，用来减轻过拟合和避免梯度弥散；使用1x1卷积有缩减开销的价值，以及使用连续较小的过滤器捕获较大空间上下文；能用两个独立的3x3滤波器替换一个5x5滤波器，根据这些见解在不同的层模块中进行交换；不使用大于3x3的过滤器，限制了每个层的参数总数。

所述系统STBTA需要考虑空间和时间维度的关系；经过两次下采样后，使用自注意力模块来捕获远程依赖；然后对这些功能进行采样并进行聚合，将3D通道注意力放在模块的最后；在此模块中，所有过滤器和池化方式都是3D；以与2D不同的方式设计3D自下而上-自上而下模块；该模块有两个分支，上部分分支使用2D最大池化和2D平均池化，将它们逐元素相加在一起之后，使用2层MLP和Sigmoid激活函数来获得0-1之间的权值分布；下部分分支使用3D最大池和3D平均池，在使用逐元素相加将它们加在一起之后，使用2层MLP和sigmoid激活函数来获得权重分布；然后将这些分支添加到一起进行耦合并得到输出特征，输入到神经网络的下一层；

在本发明中，提出了两个新模块，SBTA和STBTA，它们可以通过自下而上自上而下机制和注意机制对局部特征和全局信息进行编码。并验证了我们模块对视频分类任务的重要性。即使简单地添加一个用于2D CNN的SBTA或一个用于3D CNN的STBTA，也提供了相对于基线的可靠改进。

完整的SBTA模块如图1所示。具有步幅2的最大池化层用于将特征处理到非常低的分辨率。任何相邻层之间均存在残差连接模块。在此模块中首先对输入功能进行三次下采样。在达到最低分辨率后，网络开始按比例进行双线性上采样并对相应特征进行组合。此外，我们增加了空间和时间注意力模块，以强调关键局部区域的功能，进一步提高网络性能。整个模块类似与一个沙漏的设计，并且两端是相互对称的。整个模块的输出对于不同通道、不同空间位置点都赋予了不同权重。

其中残差模块的设计如图2所示，首先通过1x1的卷积核进行通道压缩，而后使用 3x3的卷积核来学习高级信息，最后通过1x1的卷积核使得通道还原至，在这里使用残差连接来保留原始信息，用来减轻过拟合和避免梯度弥散。使用1x1卷积有缩减开销的价值，以及使用连续较小的过滤器捕获较大空间上下文的好处。可以用两个独立的3x3滤波器替换一个5x5滤波器。根据这些见解在不同的层模块中进行交换。我们从标准的大滤波器卷积层切换到小滤波器核的设计，网络性能得到了提升。我们最终的子模块设计充分利用了残差模块。不使用大于3x3的过滤器，限制了每个层的参数总数，从而限制了总内存使用。

STBTA需要考虑空间和时间维度的关系。经过两次下采样后，我们使用自注意力模块来捕获远程依赖。然后我们对这些功能进行采样并进行聚合，将3D通道注意力放在模块的最后。在此模块中，所有过滤器和池化方式都是3D。由于额外的时间维度，我们以与2D不同的方式设计我们的3D自下而上-自上而下模块。如图3所示，该模块有两个分支。上部分分支使用2D最大池化和2D平均池化，将它们逐元素相加在一起之后，使用2层MLP（多层感知器）和Sigmoid激活函数来获得0-1之间的权值分布。下部分分支使用3D最大池和3D平均池，在使用逐元素相加将它们加在一起之后，使用2层MLP和sigmoid激活函数来获得权重分布。然后我们将这些分支添加到一起进行耦合并得到输出特征，输入到神经网络的下一层。这种设计的好处在于我们可以捕获空间信息和时间维度上的信息。

模块结果输出直接作为下一层模块的输入，该模块生成另一组预测。在最终的网络设计中，使用了8个STBA模块。需要注意的是，沙漏模型之间并没有共享权重。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自下而上-自上而下的行为识别系统，其特征在于，包括SBTA模块和STBTA模块；所述SBTA模块和STBTA模块通过自下而上自上而下机制和注意机制对局部特征和全局信息进行编码；

2.根据权利要求1所述的自下而上-自上而下的行为识别系统，其特征在于，所述系统最大池化层用于将特征处理到非常低的分辨率；任何相邻层之间均存在残差连接模块，在此模块中首先对输入功能进行三次下采样，在达到最低分辨率后，网络开始按比例进行双线性上采样并对相应特征进行组合；此外，增加了空间和时间注意力模块，以强调关键局部区域的功能，进一步提高网络性能；整个模块类似与一个沙漏的设计，并且两端是相互对称的；整个模块的输出对于不同通道、不同空间位置点都赋予了不同权重。

3.根据权利要求1所述的自下而上-自上而下的行为识别系统，其特征在于，所述系统首先通过1x1的卷积核进行通道压缩，而后使用3x3的卷积核来适用高级信息，最后通过1x1 的卷积核使得通道还原至，在这里使用残差连接来保留原始信息，用来减轻过拟合和避免梯度弥散；使用1x1卷积有缩减开销的价值，以及使用连续较小的过滤器捕获较大空间上下文；能用两个独立的3x3滤波器替换一个5x5滤波器，根据这些见解在不同的层模块中进行交换；不使用大于3x3的过滤器，限制了每个层的参数总数。

4.根据权利要求1所述的自下而上-自上而下的行为识别系统，其特征在于，所述系统STBTA需要考虑空间和时间维度的关系；经过两次下采样后，使用自注意力模块来捕获远程依赖；然后对这些功能进行采样并进行聚合，将3D通道注意力放在模块的最后；在此模块中，所有过滤器和池化方式都是3D；以与2D不同的方式设计3D自下而上-自上而下模块；该模块有两个分支，上部分分支使用2D最大池化和2D平均池化，将它们逐元素相加在一起之后，使用2层MLP和Sigmoid激活函数来获得0-1之间的权值分布；下部分分支使用3D最大池和3D平均池，在使用逐元素相加将它们加在一起之后，使用2层MLP和sigmoid激活函数来获得权重分布；然后将这些分支添加到一起进行耦合并得到输出特征，输入到神经网络的下一层；