CN109858419A - 一种自下而上-自上而下的行为识别系统 - Google Patents

一种自下而上-自上而下的行为识别系统 Download PDF

Info

Publication number
CN109858419A
CN109858419A CN201910064508.0A CN201910064508A CN109858419A CN 109858419 A CN109858419 A CN 109858419A CN 201910064508 A CN201910064508 A CN 201910064508A CN 109858419 A CN109858419 A CN 109858419A
Authority
CN
China
Prior art keywords
module
layer
stbta
pond
recognition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910064508.0A
Other languages
English (en)
Inventor
招继恩
朱勇杰
王国良
张海
谭大伦
周明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Smart City Development Research Institute
Sun Yat Sen University
Original Assignee
Guangzhou Smart City Development Research Institute
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Smart City Development Research Institute, Sun Yat Sen University filed Critical Guangzhou Smart City Development Research Institute
Priority to CN201910064508.0A priority Critical patent/CN109858419A/zh
Publication of CN109858419A publication Critical patent/CN109858419A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种自下而上‑自上而下的行为识别系统,包括SBTA模块和STBTA模块;所述SBTA模块和STBTA模块通过自下而上自上而下机制和注意机制对局部特征和全局信息进行编码。本发明的模块可以直接在图像或场景中适当的区域捕获长程依赖;使用最大池和平均池来生成通道统计和空间网格统计;提高其对信息功能的敏感度并选择有用的信息,不仅可以选择聚焦位置,还可以增强该位置对象的不同表示;本发明提出的方法是前馈方式,可以作为一种有效,简单和可解释的方法直接插入到2D/3D CNN中;即使只有STBA和STBTA,在性能上实现了很好的提升。

Description

一种自下而上-自上而下的行为识别系统
技术领域
本发明涉及行为识别,具体涉及一种自下而上-自上而下的行为识别系统。
背景技术
目前,视频中的人类动作识别在计算机视觉中占据重要地位,并引起了广泛关注。基于CNN的方法在图像分类方面取得了很大进展。此外,与标记的视频数据相比,图像分类任务有更多标记图像来训练网络。鉴于这两点,许多方法通过基于图像的分类方法组合来自视频的图像的预测以对视频进行分类。 然而,视频不仅拥有与帧之中和之间的人类动作相关的许多无关信息,而且还包括沿帧的更多时间信息, 即长范围时间依赖。
在视觉任务中,一些方法试图捕获长范围依赖依赖。一些模块使用单独的主干,以多种分辨率独立处理图像,并在网络中进行多尺度融合,这种方法比较有效但是很耗时。非局部神经网络使用非本地方式有效地捕获全局信息,但是有高内存成本并且只能放入神经网络中的中间层或最后的层。 在不同领域如如动作检测和图像分割,也需要更好地探索自下而上-自上而下的机制和特定任务的注意力机制。
现有的技术方案一为Stacked Hourglass Networks(SHN),SHN重复自下而上,自上而下的处理过程,通过中间监督来改善人体姿态估计的性能,使用具有跳过层的单个管道来保留每个分辨率的空间信息。但更大的区域通常包括不相关的信息和特征图之间的重复信息,而SHN认为它们的重要性一样。
现有的技术方案二为Temporal Segment Networks(TSN), TSN使用多个并行的子网络,子网络之间共享权值,在网络的最后一层进行特征融合,可以有效的获取时间上的长范围依赖。其中原始的输入为视频,解码成图像之后分为三段,从每段中随机选择一帧, 经过数据增强后输入网络。
现有的技术方案一SHN使用中间监督信息来考虑单人的姿势识别问题,模块的设计主要限制与解决姿势识别的问题,没有考虑行为识别中背景信息和周边信息的影响,在场景复杂及多人场景下表现效果较差。
现有的技术方案二TSN使用并行结构来捕捉长范围时间依赖,忽略了空间上的长范围依赖,在空间维度上仅使用基本的卷积和降采样过程来捕捉长范围空间依赖,存在大量视频相邻图像之间的冗余信息和背景信息。
发明内容
本发明针对上述问题,提供了一种自下而上-自上而下的行为识别系统。
本发明采用的技术方案是:一种自下而上-自上而下的行为识别系统,包括SBTA模块和STBTA模块;所述SBTA模块和STBTA模块通过自下而上自上而下机制和注意机制对局部特征和全局信息进行编码;
自下而上自上而下机制为对特征图进行逐层下采样后逐层上采样,通过残差联接保留多尺度学习,并具有科学系参数。
进一步地,所述系统最大池化层用于将特征处理到非常低的分辨率;任何相邻层之间均存在残差连接模块,在此模块中首先对输入功能进行三次下采样,在达到最低分辨率后,网络开始按比例进行双线性上采样并对相应特征进行组合;此外,增加了空间和时间注意力模块,以强调关键局部区域的功能,进一步提高网络性能;整个模块类似与一个沙漏的设计,并且两端是相互对称的;整个模块的输出对于不同通道、不同空间位置点都赋予了不同权重。
更进一步地,所述系统首先通过1x1的卷积核进行通道压缩,而后使用3x3的卷积 核来适用高级信息,最后通过1x1的卷积核使得通道还原至,在这里使用残差连接来保留 原始信息,用来减轻过拟合和避免梯度弥散;使用1x1卷积有缩减开销的价值,以及使用连 续较小的过滤器捕获较大空间上下文;能用两个独立的3x3滤波器替换一个5x5滤波器,根 据这些见解在不同的层模块中进行交换;不使用大于3x3的过滤器,限制了每个层的参数总 数。
更进一步地,所述系统STBTA需要考虑空间和时间维度的关系; 经过两次下采样后,使用自注意力模块来捕获远程依赖; 然后对这些功能进行采样并进行聚合,将3D通道注意力放在模块的最后; 在此模块中,所有过滤器和池化方式都是3D;以与2D不同的方式设计3D自下而上-自上而下模块;该模块有两个分支,上部分分支使用2D最大池化和2D平均池化,将它们逐元素相加在一起之后,使用2层MLP和Sigmoid激活函数来获得0-1之间的权值分布;下部分分支使用3D最大池和3D平均池,在使用逐元素相加将它们加在一起之后,使用2层MLP和sigmoid激活函数来获得权重分布;然后将这些分支添加到一起进行耦合并得到输出特征,输入到神经网络的下一层;
模块结果输出直接作为下一层模块的输入,该模块生成另一组预测;在最终的网络设计中,使用了8个STBA模块。
本发明的优点:
本发明的模块可以直接在图像或场景中适当的区域捕获长程依赖;使用最大池和平均池来生成通道统计和空间网格统计;提高其对信息功能的敏感度并选择有用的信息,不仅可以选择聚焦位置,还可以增强该位置对象的不同表示;本发明提出的方法是前馈方式,可以作为一种有效,简单和可解释的方法直接插入到2D / 3D CNN中;即使只有STBA和STBTA,在性能上实现了很好的提升。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明的自下而上-自上而下模块流程图;
图2是本发明的残差模块流程图;
图3是本发明的3D自下而上-自上而下注意力模块流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参考图1至图3,如图1至图3所示,一种自下而上-自上而下的行为识别系统,包括SBTA模块和STBTA模块;所述SBTA模块和STBTA模块通过自下而上自上而下机制和注意机制对局部特征和全局信息进行编码;
自下而上自上而下机制为对特征图进行逐层下采样后逐层上采样,通过残差联接保留多尺度学习,并具有科学系参数。
SBTA模块: Spatio Bottom-up Top-down Module;
STBTA模块: Spatio-temporal Bottom-up Top-down Module
自下而上自上而下机制: Bottom-up Top-down, 即对特征图进行逐层下采样后逐层上采样,通过残差联接保留多尺度学习,并具有科学系参数。
参考图1,如图1所示,本发明中的STBAM为2D的神经网络中的Block,可以嵌入在神经网络任意中间一层,其中输入为上一层的输出特征,输出为特征经过强调局部信息后的结果。其中在主干部分主要先进行下采样,经过三次采样之后,再进行上采样。每一个相邻或相连接的层之间均有残差连接模块(Residual Module),具有可学习参数。下采样的目的是为了结合不同尺度的特征信息,经过上采样之后,通过残差连接和注意力机制模块(Attention Module)来强调和保留有用信息,弱化和分类无关的信息。
所述系统最大池化层用于将特征处理到非常低的分辨率;任何相邻层之间均存在残差连接模块,在此模块中首先对输入功能进行三次下采样,在达到最低分辨率后,网络开始按比例进行双线性上采样并对相应特征进行组合;此外,增加了空间和时间注意力模块,以强调关键局部区域的功能,进一步提高网络性能;整个模块类似与一个沙漏的设计,并且两端是相互对称的;整个模块的输出对于不同通道、不同空间位置点都赋予了不同权重。
所述系统首先通过1x1的卷积核进行通道压缩,而后使用3x3的卷积核来适用高级 信息,最后通过1x1的卷积核使得通道还原至,在这里使用残差连接来保留原始信息,用 来减轻过拟合和避免梯度弥散;使用1x1卷积有缩减开销的价值,以及使用连续较小的过滤 器捕获较大空间上下文;能用两个独立的3x3滤波器替换一个5x5滤波器,根据这些见解在 不同的层模块中进行交换;不使用大于3x3的过滤器,限制了每个层的参数总数。
所述系统STBTA需要考虑空间和时间维度的关系; 经过两次下采样后,使用自注意力模块来捕获远程依赖; 然后对这些功能进行采样并进行聚合,将3D通道注意力放在模块的最后; 在此模块中,所有过滤器和池化方式都是3D;以与2D不同的方式设计3D自下而上-自上而下模块;该模块有两个分支,上部分分支使用2D最大池化和2D平均池化,将它们逐元素相加在一起之后,使用2层MLP和Sigmoid激活函数来获得0-1之间的权值分布;下部分分支使用3D最大池和3D平均池,在使用逐元素相加将它们加在一起之后,使用2层MLP和sigmoid激活函数来获得权重分布;然后将这些分支添加到一起进行耦合并得到输出特征,输入到神经网络的下一层;
模块结果输出直接作为下一层模块的输入,该模块生成另一组预测;在最终的网络设计中,使用了8个STBA模块。
在本发明中,提出了两个新模块,SBTA和STBTA,它们可以通过自下而上自上而下机制和注意机制对局部特征和全局信息进行编码。 并验证了我们模块对视频分类任务的重要性。即使简单地添加一个用于2D CNN的SBTA或一个用于3D CNN的STBTA,也提供了相对于基线的可靠改进。
完整的SBTA模块如图1所示。 具有步幅2的最大池化层用于将特征处理到非常低的分辨率。 任何相邻层之间均存在残差连接模块。 在此模块中首先对输入功能进行三次下采样。 在达到最低分辨率后,网络开始按比例进行双线性上采样并对相应特征进行组合。 此外,我们增加了空间和时间注意力模块,以强调关键局部区域的功能,进一步提高网络性能。整个模块类似与一个沙漏的设计,并且两端是相互对称的。整个模块的输出对于不同通道、不同空间位置点都赋予了不同权重。
其中残差模块的设计如图2所示, 首先通过1x1的卷积核进行通道压缩,而后使用 3x3的卷积核来学习高级信息,最后通过1x1的卷积核使得通道还原至,在这里使用残差 连接来保留原始信息,用来减轻过拟合和避免梯度弥散。使用1x1卷积有缩减开销的价值, 以及使用连续较小的过滤器捕获较大空间上下文的好处。可以用两个独立的3x3滤波器替 换一个5x5滤波器。根据这些见解在不同的层模块中进行交换。我们从标准的大滤波器卷积 层切换到小滤波器核的设计,网络性能得到了提升。我们最终的子模块设计充分利用了残 差模块。不使用大于3x3的过滤器,限制了每个层的参数总数,从而限制了总内存使用。
STBTA需要考虑空间和时间维度的关系。 经过两次下采样后,我们使用自注意力模块来捕获远程依赖。 然后我们对这些功能进行采样并进行聚合,将3D通道注意力放在模块的最后。 在此模块中,所有过滤器和池化方式都是3D。 由于额外的时间维度,我们以与2D不同的方式设计我们的3D自下而上-自上而下模块。 如图3所示,该模块有两个分支。 上部分分支使用2D最大池化和2D平均池化,将它们逐元素相加在一起之后,使用2层MLP(多层感知器)和Sigmoid激活函数来获得0-1之间的权值分布。 下部分分支使用3D最大池和3D平均池,在使用逐元素相加将它们加在一起之后,使用2层MLP和sigmoid激活函数来获得权重分布。 然后我们将这些分支添加到一起进行耦合并得到输出特征,输入到神经网络的下一层。 这种设计的好处在于我们可以捕获空间信息和时间维度上的信息。
模块结果输出直接作为下一层模块的输入,该模块生成另一组预测。在最终的网络设计中,使用了8个STBA模块。需要注意的是,沙漏模型之间并没有共享权重。
本发明的模块可以直接在图像或场景中适当的区域捕获长程依赖;使用最大池和平均池来生成通道统计和空间网格统计;提高其对信息功能的敏感度并选择有用的信息,不仅可以选择聚焦位置,还可以增强该位置对象的不同表示;本发明提出的方法是前馈方式,可以作为一种有效,简单和可解释的方法直接插入到2D / 3D CNN中;即使只有STBA和STBTA,在性能上实现了很好的提升。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种自下而上-自上而下的行为识别系统,其特征在于,包括SBTA模块和STBTA模块;所述SBTA模块和STBTA模块通过自下而上自上而下机制和注意机制对局部特征和全局信息进行编码;
自下而上自上而下机制为对特征图进行逐层下采样后逐层上采样,通过残差联接保留多尺度学习,并具有科学系参数。
2.根据权利要求1所述的自下而上-自上而下的行为识别系统,其特征在于,所述系统最大池化层用于将特征处理到非常低的分辨率;任何相邻层之间均存在残差连接模块,在此模块中首先对输入功能进行三次下采样,在达到最低分辨率后,网络开始按比例进行双线性上采样并对相应特征进行组合;此外,增加了空间和时间注意力模块,以强调关键局部区域的功能,进一步提高网络性能;整个模块类似与一个沙漏的设计,并且两端是相互对称的;整个模块的输出对于不同通道、不同空间位置点都赋予了不同权重。
3.根据权利要求1所述的自下而上-自上而下的行为识别系统,其特征在于,所述系统 首先通过1x1的卷积核进行通道压缩,而后使用3x3的卷积核来适用高级信息,最后通过1x1 的卷积核使得通道还原至,在这里使用残差连接来保留原始信息,用来减轻过拟合和避 免梯度弥散;使用1x1卷积有缩减开销的价值,以及使用连续较小的过滤器捕获较大空间上 下文;能用两个独立的3x3滤波器替换一个5x5滤波器,根据这些见解在不同的层模块中进 行交换;不使用大于3x3的过滤器,限制了每个层的参数总数。
4.根据权利要求1所述的自下而上-自上而下的行为识别系统,其特征在于,所述系统STBTA需要考虑空间和时间维度的关系; 经过两次下采样后,使用自注意力模块来捕获远程依赖; 然后对这些功能进行采样并进行聚合,将3D通道注意力放在模块的最后; 在此模块中,所有过滤器和池化方式都是3D;以与2D不同的方式设计3D自下而上-自上而下模块;该模块有两个分支,上部分分支使用2D最大池化和2D平均池化,将它们逐元素相加在一起之后,使用2层MLP和Sigmoid激活函数来获得0-1之间的权值分布;下部分分支使用3D最大池和3D平均池,在使用逐元素相加将它们加在一起之后,使用2层MLP和sigmoid激活函数来获得权重分布;然后将这些分支添加到一起进行耦合并得到输出特征,输入到神经网络的下一层;
模块结果输出直接作为下一层模块的输入,该模块生成另一组预测;在最终的网络设计中,使用了8个STBA模块。
CN201910064508.0A 2019-01-23 2019-01-23 一种自下而上-自上而下的行为识别系统 Pending CN109858419A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910064508.0A CN109858419A (zh) 2019-01-23 2019-01-23 一种自下而上-自上而下的行为识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910064508.0A CN109858419A (zh) 2019-01-23 2019-01-23 一种自下而上-自上而下的行为识别系统

Publications (1)

Publication Number Publication Date
CN109858419A true CN109858419A (zh) 2019-06-07

Family

ID=66895792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910064508.0A Pending CN109858419A (zh) 2019-01-23 2019-01-23 一种自下而上-自上而下的行为识别系统

Country Status (1)

Country Link
CN (1) CN109858419A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309800A (zh) * 2019-07-05 2019-10-08 中国科学技术大学 一种林火烟雾探测方法及装置
CN110334716A (zh) * 2019-07-04 2019-10-15 北京迈格威科技有限公司 特征图处理方法、图像处理方法及装置
CN110427867A (zh) * 2019-07-30 2019-11-08 华中科技大学 基于残差注意力机制的面部表情识别方法及系统
CN111627038A (zh) * 2020-05-27 2020-09-04 杭州王道控股有限公司 一种背景去除方法、装置、设备及可读存储介质
CN112016461A (zh) * 2020-08-28 2020-12-01 深圳市信义科技有限公司 一种多目标的行为识别方法及系统
CN112990116A (zh) * 2021-04-21 2021-06-18 四川翼飞视科技有限公司 基于多注意力机制融合的行为识别装置、方法和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138991A (zh) * 2015-08-27 2015-12-09 山东工商学院 一种基于情感显著性特征融合的视频情感识别方法
CN108764084A (zh) * 2018-05-17 2018-11-06 西安电子科技大学 基于空域分类网络和时域分类网络融合的视频分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138991A (zh) * 2015-08-27 2015-12-09 山东工商学院 一种基于情感显著性特征融合的视频情感识别方法
CN108764084A (zh) * 2018-05-17 2018-11-06 西安电子科技大学 基于空域分类网络和时域分类网络融合的视频分类方法

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
A.NEWELL等: "Stacked Hourglass Networks for Human Pose Estimation", 《ARXIV:COMPUTER VISION AND PATTERN RECOGNITION》 *
FEI WANG等: "Residual Attention Network for Image Classification", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 *
于明学等: "基于3D卷积双路神经网络的考场行为异常识别", 《北京电子科技学院学报》 *
周道洋等: "基于连续帧的在线实时人体行为检测", 《信息技术与网络安全》 *
裴颂文等: "融合的三维卷积神经网络的视频流分类研究", 《小型微型计算机系统》 *
谯庆伟: "融合双重时空网络流和attention机制的人体行为识别", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
闻新等: "《应用MATLAB实现神经网络》", 30 June 2015 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334716A (zh) * 2019-07-04 2019-10-15 北京迈格威科技有限公司 特征图处理方法、图像处理方法及装置
CN110334716B (zh) * 2019-07-04 2022-01-11 北京迈格威科技有限公司 特征图处理方法、图像处理方法及装置
CN110309800A (zh) * 2019-07-05 2019-10-08 中国科学技术大学 一种林火烟雾探测方法及装置
CN110309800B (zh) * 2019-07-05 2021-07-06 中国科学技术大学 一种林火烟雾探测方法及装置
CN110427867A (zh) * 2019-07-30 2019-11-08 华中科技大学 基于残差注意力机制的面部表情识别方法及系统
CN111627038A (zh) * 2020-05-27 2020-09-04 杭州王道控股有限公司 一种背景去除方法、装置、设备及可读存储介质
CN111627038B (zh) * 2020-05-27 2021-05-11 杭州王道控股有限公司 一种背景去除方法、装置、设备及可读存储介质
CN112016461A (zh) * 2020-08-28 2020-12-01 深圳市信义科技有限公司 一种多目标的行为识别方法及系统
CN112990116A (zh) * 2021-04-21 2021-06-18 四川翼飞视科技有限公司 基于多注意力机制融合的行为识别装置、方法和存储介质
CN112990116B (zh) * 2021-04-21 2021-08-06 四川翼飞视科技有限公司 基于多注意力机制融合的行为识别装置、方法和存储介质

Similar Documents

Publication Publication Date Title
CN109858419A (zh) 一种自下而上-自上而下的行为识别系统
Jian et al. SEDRFuse: A symmetric encoder–decoder with residual block network for infrared and visible image fusion
Reddy et al. Spontaneous facial micro-expression recognition using 3D spatiotemporal convolutional neural networks
Liu et al. A new deep learning-based food recognition system for dietary assessment on an edge computing service infrastructure
Ren et al. Single image dehazing via multi-scale convolutional neural networks
KR101982231B1 (ko) 객체 인식 장치 및 그 제어 방법
Zeiler et al. Stochastic pooling for regularization of deep convolutional neural networks
Huang et al. Selective wavelet attention learning for single image deraining
Paliy et al. Approach to recognition of license plate numbers using neural networks
CN113065645A (zh) 孪生注意力网络、图像处理方法和装置
JP2024018938A (ja) 周波数領域における自己注意機構に基づく夜間オブジェクト検出、訓練方法及び装置
Zhang et al. Learning temporal-ordered representation for spike streams based on discrete wavelet transforms
Wang et al. Multi-focus image fusion framework based on transformer and feedback mechanism
Lazebnik Convolutional neural network architectures: from LeNet to ResNet
Bačanin Džakula Convolutional neural network layers and architectures
Kiran et al. Edge preserving noise robust deep learning networks for vehicle classification
Xie et al. MRSCFusion: Joint residual Swin transformer and multiscale CNN for unsupervised multimodal medical image fusion
Liu et al. Deep memory and prediction neural network for video prediction
Lei et al. Object based attention through internal gating
Li et al. GRAN: graph recurrent attention network for pedestrian orientation classification
Zhang [Retracted] An Intelligent and Fast Dance Action Recognition Model Using Two‐Dimensional Convolution Network Method
Li Facial expression recognition via transfer learning
Indolia et al. A self-attention-based fusion framework for facial expression recognition in wavelet domain
CN114862685A (zh) 一种图像降噪方法、及图像降噪模组
Ng et al. Traffic Sign Recognition with Convolutional Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190607

RJ01 Rejection of invention patent application after publication