CN110569773A

CN110569773A - 基于时空显著性行为注意力的双流网络行为识别方法

Info

Publication number: CN110569773A
Application number: CN201910814557.1A
Authority: CN
Inventors: 蒋敏; 潘娜; 孔军
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-12-13
Anticipated expiration: 2039-08-30
Also published as: CN110569773B

Abstract

基于时空显著性行为注意力的双流网络行为识别方法，属于机器视觉领域。该方法采用了一种基于时空双流网络的网络架构，称作时空显著性行为注意力网络ST‑SAMANet。针对传统双流网络直接输入RGB帧和光流帧导致内存消耗大、冗余信息过多的问题，本发明引入关键帧机制，以获得帧间的最大差异性，显著减少时间网络的内存消耗。此外，在网络中，帧上存在大量的特征冗余以及背景扰乱，极大地影响网络的性能。本发明在网络中引入Mask R‑CNN技术，高度关注每个行为类别中的人体和物体，对每个帧上的显著性区域进行特征提取。最终利用双向LSTM和C3D网络分别对时空进行编码以获得完善的时空信息，提高了行为识别模型的鲁棒性。

Description

基于时空显著性行为注意力的双流网络行为识别方法

技术领域

本发明属于机器视觉领域，特别涉及一种基于时空显著性行为注意力的双流网络行为识别方法。

背景技术

随着机器视觉在理论上和实践上的广泛研究，行为识别也逐渐成为其中的一个重要分支。由于客观环境的多样性以及人体行为的主观复杂性，人体行为识别还有很多问题亟待解决。目前，行为识别主要分为基于静态图片和基于视频的两类方法。在视频研究还未流行的很长一段时间内，大多行为识别研究都是基于图像的，但是图像所提供的信息非常有限，想要捕获有效的信息进行识别并不容易。相较而言，视频上的行为识别，研究人员可以提取充足的‘动作’线索来进行识别。因此，本发明以视频为研究对象，针对网络提取视频中的空间和时间特征所面临的问题，提出独特的注意力方法来有效地提取辨别性特征用于行为识别。

目前，面向视频的行为识别主要使用双流网络，并且发展趋势十分良好。在双流网络中，双流架构通过在外观上和光流堆上分别训练各自的卷积网络来引入相关信息。但是传统双流网络仍旧面临以下问题：(1)如何在有效控制模型复杂度的前提下充分利用连续帧时序语义信息。(2)网络直接提取每一帧上的特征，难以保证有效信息在网络中的活跃性与可用性。如何从RGB帧中稳健地获取显著性信息成为一个主要的问题。(3)如何将对应的空间信息和时间信息结合，尤其是，如何以一个最优的方式融合两个网络。

基于以上考虑，本发明提出一个基于时空显著性行为注意力的双流网络用于人体行为识别。首先，通过关键帧机制减少帧之间的冗余性，增强帧之间的差异性。其次，引入检测技术到空间网络中，提取帧中重要的语义信息，例如物体，人或者是某些场景；并且在网络中构建注意力层，使网络重点关注他们，以保证类之间的差异性。

发明内容

本发明的主要目的是提出一种基于时空显著性行为注意力的双流行为识别方法ST-SAMANet，在视频类别较多，时间较长的情况下，更好地获取视频中的关键帧以及每个帧上的辨别性信息，以进行高效的行为识别。

为了实现上述目的，本发明提供如下技术方案：

基于时空显著性行为注意力的双流网络行为识别方法，步骤如下：

步骤一、获取RGB帧：对于数据集中的每个视频进行取帧处理，获得RGB原始帧N为帧数，rgb_i表示第i个RGB原始帧；

步骤二、计算光流图：应用TVNet算法对按时序排序的RGB原始帧f_rgb两两进行计算得到光流图opt_i表示第i个光流帧；

步骤三、计算RGB初始关键帧k_rgb：首先将每一个RGB原始帧rgb_i∈[1N]从RGB空间转换至YCbCr空间，然后对它的3个通道分别求直方图，每个通道直方图表示为k表示一个灰度级，表示第c个通道第k个灰度级的直方图，计算每帧平均直方图构建矩阵X的大小是(N,2)，N为帧数；应用K-means聚类算法对X进行聚类，计算聚类中心与X中每个点的最小距离，确定RGB初始关键帧k_rgb；

步骤四、计算光流初始关键帧k_opt：将步骤三中RGB帧替换为步骤二得到的f_opt光流帧，重复步骤三，计算得到光流初始关键帧k_opt；

步骤五、计算RGB关键帧final_k_rgb：计算k_opt所对应的前后RGB帧并记为o_rgb；将o_rgb与k_rgb进行交处理得到RGB关键帧final_k_rgb，即final_k_rgb＝o_rgb∩k_rgb；

步骤六、计算光流关键帧final_k_opt：应用TVNet算法对按时序排序的final_k_rgb两两进行计算得到光流图，该光流图即为光流关键帧final_k_opt；

步骤七、基于显著性行为检测网络计算显著特征图mask：将RGB关键帧final_k_rgb输入预训练显著性行为检测网络模型，计算每一关键帧的显著特征图mask_i∈[1M]，M＝|final_k_rgb|，显著特征图mask_i中只保留了对应RGB关键帧中的显著人体和物体；

步骤八、构建注意力网络，计算注意力概率分布W：利用CNN提取mask的特征，并经过softmax操作得到注意力概率分布W；

步骤九、基于双向LSTM建立空间网络，计算空间类别概率分布scores₁：通过步骤八中的注意力网络，将RGB关键帧final_k_rgb中每一帧与注意力概率分布W进行概率加权求和，计算得到空间辨别性特征M＝|final_k_rgb|,其中f1_i∈final_k_rgb，表示注意力概率加权运算；该空间辨别性特征ψ1送入双向LSTM网络中，进一步提取深层空间特征，再经过全连接和softmax操作得到空间类别概率分布scores₁；

步骤十、基于C3D网络建立时间网络，计算时间类别概率分布scores₂：通过步骤八中的注意力网络，将光流关键帧final_k_opt中每一帧与注意力概率分布W进行概率加权求和，计算得到时间辨别性特征M＝|final_k_opt|,其中f2_i∈final_k_opt，表示注意力概率加权运算。该时间辨别性特征ψ2送入C3D网络中，进一步提取深层时间特征，再经过全连接和softmax操作得到时间类别概率分布scores₂；

步骤十一、计算加权融合scores：在双流网络的基础上融合步骤九和步骤十得到的空间类别概率分布scores₁和时间类别概率分布scores₂。

所述步骤三中，K-means聚类算法的聚类类别数为15。

所述步骤十一中，使用加权平均融合方法，其两个流默认的融合权重分别是0.5。

与现有的技术相比，本发明具有以下有益效果：

1.通过步骤三、步骤四、步骤五和步骤六提出的关键帧机制，极大地减少视频帧的冗余性，并降低网络执行中的存储压力。与随机抽帧以及分段抽帧相比，提取关键帧具有更好的性能。因为关键帧以较少的数量更精确地描述整个视频，有效提升了行为识别效率。

2.步骤七构建的显著性行为检测网络，引入Mask R-CNN检测技术，提取每一类行为的显著性特征；步骤八构建的注意力网络，使网络高度关注与行为相关的物体和人体。显著性行为检测网络和注意力网络的构建，使得本发明提取的特征不仅具有明显的运动状态，而且彼此之间也存在显著差异，有效提升了行为识别精度。

3.步骤十一中，基于双流网络，本发明更好地利用空间特征以及时间特征，利用时空特征之间的互补性，通过融合的操作，行为识别的能力被极大地提高。

4.与基础双流网络相比，本发明的执行效率更高，网络的运行压力以及数据的存储压力也比基础的双流网络小。

附图说明

图1为本发明的算法流程图；

图2为本发明的整体模型图；

图3为本发明拳击视频中的初始关键帧抽取结果图；按照顺序分别是第6、11、31、42、57、70、85、94、100、104、112、114、119、123、129帧。

图4为本发明的光流关键帧方法在UCF101数据集部分类别上输出的光流关键帧，即TVNet运动图；其中，(a)至(l)分别为射箭、跳平衡木、骑单车、化眼妆、打篮球、打保龄球、拳击、涂口红、骑马、拖地、演奏、打鼓。

图5本发明的显著性行为检测网络检测效果图。其中，(a)至(l)分别为射箭、跳平衡木、骑单车、化眼妆、打篮球、打保龄球、拳击、涂口红、骑马、拖地、演奏、打鼓。

具体实施方式

图2表示本发明的算法模型图。算法以RGB关键帧与光流关键帧为输入，模型包括显著性行为检测网络，注意力网络，空间网络，时间网络，分类及融合6个关键部分。空间网络采用双向LSTM架构，而时间网络采用C3D架构。最终，融合两个网络采用加权平均融合方法，其两个流默认的融合权重分别是0.5。

为了对本发明进行更好的说明，下面以公开的行为数据集UCF101为例进行阐述。

上述技术方案中步骤三中关键帧机制的数据处理方法为：

传统的行为识别方法通常是随机取帧或者是分段抽帧。本发明引入视频总结方法来进行关键帧的提取。视频总结在多媒体应用上有很大的作用。鉴于用户每天所产生的视频包括监控、录影等的数量都十分巨大，因此，对于视频进行检索，处理，归纳是极有利的。常见的视频帧是RGB形式，本发明先将其转变为YCbCr亮度形式。因为对于视觉任务，亮度比起色彩更明显。具体实现如下：将每一个原始RGB帧转换为YCbCr。然后对它的3个通道分别求直方图每个通道直方图表示为计算每帧平均直方图构建矩阵X的大小是，(N,2)，N为帧数。

步骤三中应用K-means聚类算法确定具体RGB初始关键帧k_rgb的方法为：

应用K-means聚类算法对X进行聚类，聚类类别数为15，获得15个聚类中心；计算X中与聚类中心距离最小的15个数据，确定15个RGB初始关键帧k_rgb；

该算法的优点：1.每张图片只需要计算色彩空间直方图平均值，这减少了获得中心所需的计算量。2.当视频中的帧十分相似时，本发明中的关键帧机制依然能够提取出每个时间段中的相关帧，去除大量冗余帧。3.在进行这项工作时，K-means算法能够以有效的方式为各种长度类型的视频进行处理，并且所得到的关键帧依旧保持时序性，有益于后续操作。

步骤三中RGB初始关键帧的抽取结果如图3所示。

图3为本发明的关键帧机制应用在UCF101数据集的‘BoxingPunchingBag’类别中某一个视频的效果图。该视频原有的帧数超过了200帧，但其中包含大量冗余帧。通过关键帧机制，可以去除大量冗余帧，保留15个有效视频帧，显著提升算法效率。

步骤六中光流关键帧输出结果如图4所示。

图4为本发明的光流关键帧方法在UCF101数据集部分类别上输出的光流关键帧，即TVNet运动图。

步骤七中显著性行为检测网络的构建方法为：

基于Mask R-CNN网络，首先从一个人体行为数据集的各个行为类别中，分别选取少量RGB帧对显著人体及物体进行标注，并基于标注的显著性数据重新训练Mask R-CNN网络，保存训练后的显著性行为检测网络模型。基于预训练的显著性行为检测网络，对读入的每一个关键帧final_k_rgb进行测试，有效地得到每一帧的检测效果图。对每一帧的检测效果图仅保留被检测出的部分，其余图像部分的像素灰度值置0，就可以得到所需的mask图。

以UCF101数据集为例，该数据集有101类的行为，其中每个行为都包含不同的物体和人体。例如‘跳平衡木’的行为，其显著性数据就是表演者以及平衡木；‘遛狗’的行为，其显著性数据就是主人和狗。这些数据不仅有明显的运动状态，而且彼此之间也存在显著差异。因此，一旦研究好数据集中每一帧中的显著性数据，可以使识别算法的性能更好。

Mask R-CNN是一个高性能的目标实例分割模型。本发明在Mask R-CNN的基础上进行改进，建立显著性行为检测网络，用于提取训练样本中的有效人体和物体特征，进而提升预测准确度。Mask R-CNN技术将目标检测架构扩展为实例分割架构，它可以确定图片中各个目标的类别以及方位，提供像素级别的预测结果。这种基于区域的目标识别方法对于小目标的检测效果十分友好。因此本发明借助Mask R-CNN进行物体检测，将其引入网络中进行改进,满足行为识别对于显著性特征的要求。

步骤七中显著性行为检测网络的检测效果图如图5所示。

图5为UCF101数据集部分类别帧在显著性行为检测网络中得到的检测效果图。从该图可以看出，该显著性行为检测网络可以检测出不同类别的重要物体和人体，甚至是小物体也可以被检测出来。

步骤八中注意力网络的构建方法为：

首先，利用CNN来提取mask图的特征，并经过softmax操作得到注意力概率分布W，即W＝softmax(CNN(mask))；步骤七中计算的mask图只保留每一帧中的重要人体和物体，不考虑背景的有效性；而注意力网络是对每一帧计算相应的注意力概率分布W，并与该帧进行概率加权求和，可以在保留背景的基础上，使网络重点关注每一帧上的重要物体和人体。

步骤九中提及的空间网络采用双向LSTM建立：

在空间网络中，对所得的注意力特征应用LSTM操作实现帧上的时间编码，可以探索到空间和时间范围内行为的变化。但是由于LSTM只可以获得本单元之前的单元信息，无法获得单元之后的信息，因此，本发明引入双向LSTM网络。将双向LSTM引入空间流中，更加充分地考虑到输入数据的整体信息，通过全连接层和分类层，获得空间流上的类别概率分布scores₁。

步骤十中提及的时间网络采用C3D网络建立：

在时间网络中，它的输入是沿着时间维度上的一系列光流，因此它们具有短时间的运动模式；本发明应用C3D网络在时间维度上对其进行表示。C3D网络被证明很适合视频级的输入，因为它利用3D卷积全面地提取时空信息；通过该网络的帮助，可以很好地模拟视频序列的全局依赖性并且捕获长时间的运动线索。最后添加全连接层，并通过softmax操作得到类别概率分布scores₂。

步骤十一空间类别概率分布和时间类别概率分布融合方法为：

本发明使用加权平均融合方法，其两个流默认的融合权重分别是0.5，即可根据实际应用需要调整融合权重。

为验证本发明的准确性和鲁棒性，本发明在公开的UCF101和Penn Action数据集上进行了实验。UCF101数据集总共包含13320个视频，其来源于YouTube，都是真实的人体行为。它的类别总数是101类，其中具体包含以下几类动作：人和物体交互，人的肢体行为，人与人的交互行为，人和乐器之间的行为以及人与球类之间的行为。Penn Action数据集，包含了2326视频序列，有15个行为类别，例如‘baseball pitch’，‘bench press’等。其来源于多种在线的视频。

UCF101数据集的类别是丰富的并且存在着相机运动，姿势，尺寸，视角，杂乱的背景，光照条件等变化因素，因此该数据集是具有挑战性的。Penn Action这个数据集面临的挑战是在某些行为上会缺少一些身体部位，此外，各个样本之间图像尺寸会有区别。不同类别的人体外观，运动视角，以及背景存在很大的变化。表1是这两个数据集的部分类别中存在的干扰因素，主要包含光照，遮挡，背景扰乱，形变，物体不明显等问题。

表1视频中部分类别说明

视频类别	干扰因素
		Basketball	光照变化、遮挡、背景混乱
Jump_rope	形变、视角，物体不明显
		Longjump	低分辨率,背景混乱
JavelinThrow	视角、遮挡、快速运动、背景混杂
		Tennis_forehand	物体不明显、快速运动

实验参数设置：

表2数据库实验参数设置

数据集

类别数

训练样本数

测试样本数

图片大小

学习率

迭代次数

UCF101

101

占2/3

占1/3

128*128

0.001

250

Penn Action

15

占一半

其余

128*128

0.001

250

表2是两个数据集在实验中的各个参数设置。其中分别包括训练样本和测试样本所占的比例，以及处理后的图片大小，初始学习率以及学习率的变化，以及总的迭代次数。

表3为本发明提出的方法ST-SAMANet在UCF101和Penn Action数据集上的测试结果，本发明在这两个数据集上都取得了较高的识别率。尽管这两个数据集存在着遮挡，变形，背景混乱，低分辨率等困难，但本发明提出的方法对这些困难具有很好的鲁棒性，因此表现相对较好。

表3在UCF101和Penn Action上的识别率

数据集	UCF101	PennAction
			ST-SAMANet	95.9％	91.5％

本发明提出的方法包含两个部分，关键帧机制以及显著性行为注意力机制。从表4中可以看出，针对UCF101数据集，单纯使用双流网络的精度达到92.8％。在基础网络中添加关键帧机制，精度达到93.3％。在此基础上再加入显著性行为注意力机制，精度达到95.5％。这表明两种机制都对行为识别的性能有好的影响。他们分别可以提取出视频中的有效帧，去除冗余帧；以及提取各个有效帧上的辨别性特征，从而提高识别精度。

表4在UCF101数据集上两个机制的影响

上面结合附图对本发明的具体实施方式做了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.基于时空显著性行为注意力的双流网络行为识别方法，其特征在于，步骤如下：

步骤十、基于C3D网络建立时间网络，计算时间类别概率分布scores₂：通过步骤八中的注意力网络，将光流关键帧final_k_opt中每一帧与注意力概率分布W进行概率加权求和，计算得到时间辨别性特征M＝|final_k_opt|,其中f2_i∈final_k_opt，表示注意力概率加权运算；该时间辨别性特征ψ2送入C3D网络中，进一步提取深层时间特征，再经过全连接和softmax操作得到时间类别概率分布scores₂；