CN107609460B

CN107609460B - 一种融合时空双重网络流和attention机制的人体行为识别方法

Info

Publication number: CN107609460B
Application number: CN201710372110.4A
Authority: CN
Inventors: 刘天亮; 谯庆伟; 戴修斌; 刘峰
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2021-02-02
Anticipated expiration: 2037-05-24
Also published as: CN107609460A

Abstract

本发明公开了一种融合时空双重网络流和attention机制的人体行为识别方法，提取运动光流特征，生成光流特征图像；构建独立的时间流和空间流网络，生成两段具有显著结构性的高层语义特征序列；解码时间流高层语义特征序列，输出时间流视觉特征描述子，并输出attention显著性特征图序列，同时输出空间流视觉特征描述子以及视频窗口每一帧的标签概率分布；计算每一帧时间维attention置信度得分系数，加权空间流视频窗口每一帧的标签概率分布，选择视频窗口关键帧；利用softmax分类器决策识别出视频窗口的人体行为动作类别。相比现有技术，本发明能有效关注原始视频中外观图像的关键帧，同时又能选择即得关键帧空间显著性区域特征，其识别准确度较高。

Description

一种融合时空双重网络流和attention机制的人体行为识别方法

技术领域

本发明涉及一早人体行为识别方法，特别涉及一种融合时空双重网络流和注意力attention机制的人体行为识别方法，属于计算机视觉的行为识别技术领域。

背景技术

视频序列中的人体行为识别是一项涉及计算机视觉、模式识别及人工智能等多领域的研究课题，因其在商业、医疗和军事等领域中广泛的应用价值，一直是人们研究的热点。然而人体行为的多样性和非刚性及视频图像固有的复杂性，所以要提出一种稳健而又实时准确的方法仍然是一个极具挑战的工作。

目前大部分的研究从运动目标检测、动作特征提取和动作特征理解三个方面着手，一般的人体行为识别方法基本上都是先从原始输入提取特征，再利用特征学习出一个分类器。为了确保最终算法的准确性，必须获取鲁棒的特征表达，因此需要大量的计算和测试工作，然而实际上这部分的工作都由人工完成，需要大量的时间。人工选取特征是受任务驱动的，不同的任务很有可能选取完全不同的特征，因此它与具体的任务高度依赖。尤其在动作识别中，不同的运动类型无论在外观还是运动模型都呈现出极大的差异。手工设置需要依靠经验和运气才能获取较好的特征，因此很难保证从剧烈变化的场景获得动作的本质特征。因此需要一种能够自动学习方法，解决费时的手工特征提取方法的盲目性和片面性。其中，最为流行与先进的就是端到端深度学习方法。

由于深度网络[Schmidhuber J.Deep learning in neural networks:anoverview.In Neural Networks,2015.]可以无监督地从数据中学习到特征,而这种学习方式也符合人类感知世界的机理,因此当训练样本足够多的时候通过深度网络学习到的特征往往具有一定的语义特征,并且更适合目标和行为的识别。在行动认知中，另一个重要问题是长时段相互依赖的建模和利用。许多实验已经证明，长时段依赖关系建模将显着提高性能。文献[Large-scale video classification with convolutional neuralnetworks.In Proceedings of IEEE conference on Computer Vision and PatternRecognition,2014.]发现，在时域上实验数据帧缓慢融合将产生比帧晚融合或早期融合具有更快的结果。文献[Donahue J,Hendricks L A,Rohrbach M,et al.Long-termRecurrent Convolutional Networks for Visual Recognition and Description[J].IEEE Trans Pattern Anal Mach Intell.2016:2625-2634.]提出通过将LSTM连接到CNN来使用递归网络的新型递归卷积架构，是端对端的可训练的，可以在空间和时间“层”中组合比时域融合策略更好的解决方案。文献[Sequential deep trajectory descriptor foraction recognition with threestream cnn.arXiv preprint arXiv:1609.03056,2016.2]提出DTD和sDTD模型模拟对时域的依赖。然而，他们没有一个足够有效地建模长期依赖性关系。

当前也引入了注意机制,文献[Rensink,R.A.The dynamic representation ofscenes.In Visual Cognition,2000.]提出了人类认知过程中并未将他们的注意力平均放置在整个场景中，相反是将目光聚集在不同的位置获取准确目标信息。文献[Xu K,Ba J,Kiros R,et al.Show,Attend and Tell:Neural Image Caption Generation withVisual Attention[J].In Computer Science,2016.]引入了基于注意的模型自动学习描述图像的内容，还通过可视化展示了模型如何能够自动学习修正其对显着对象的注视，同时在输出序列中生成相应的单词；文献[Bahdanau D,Cho K,Bengio Y.Neural MachineTranslation by Jointly Learning to Align and Translate[J].In ComputerScience,2014.]提出通过允许模型自动(软)搜索目标语句与预测目标词语相关关系，而不必明确地将这些部分硬性分割；文献[Mnih V,Heess N,Graves A,et al.RecurrentModels of Visual Attention[J].In NIPS,2014.]提出一种新颖的递归神经网络模型，其能够通过自适应地选择区域或位置的序列并且仅以图像或视频中高分辨率处理所选择的区域提取信息。然而仅仅简单的引入注意机制，未能有效识别行为动作中显着部分以最具分别性区域分类人体行为动作。

发明内容

为解决以上问题，本发明提供一种融合时空双重网络流和注意力attention机制的人体行为识别方法，以期达到优秀的识别精度。本发明提出了一个联合时空网络attention关注度计算模型，引入了关于时空域的注意机制，以捕捉到长期依赖，旨在学习动作的显着部分。因此，本发明的方法将空间和时间流图像作为输入，选择时空区域动作关注度最高的关键帧中显著性区域部分作为输出判决。

本发明为解决上述技术问题采用以下技术方案：

本发明提供一种融合时空双重网络流和注意力attention机制的人体行为识别方法，包括以下具体步骤：

步骤A、选取各行为动作类的RGB图像视频样本，并按照一定帧率将视频样本分割为若干候选帧图像，提取候选帧图像的光流特征，并生成光流特征图像；

步骤B、利用长短时记忆LSTM神经网络分别构建独立的空间流LSTM网络和时间流LSTM网络；利用卷积神经网络，选取一段连续时间的视频窗口，利用迁移学习得到相应参数的空间流和时间流GoogLeNet卷积神经网络模型，分别逐层卷积原始RGB视频中外观图像和对应的光流特征图像，生成两段具有显著结构性的高层语义特征序列，即空间流高层语义特征序列和时间流高层语义特征序列；

步骤C、利用时间流LSTM网络，解码时间流高层语义特征序列，输出时间流视觉特征描述子序列并保存；

步骤D、根据步骤C保存时间流视觉特征描述子序列，采用softmax函数计算时间维attention显著性权重系数，与步骤B所得空间流高层语义特征序列加权输出attention显著性特征图序列，同时利用空间流LSTM网络和softmax分类器，输出空间流视觉特征描述子序列以及空间流视频窗口每一帧的标签概率分布；

步骤E、根据步骤C和D所得时间流视觉特征描述子序列和空间流视觉特征描述子序列，利用相对熵代价函数计算每一帧时间维attention置信度得分系数，加权空间流视频窗口每一帧的标签概率分布，最终利用softmax分类器识别出视频窗口的人体行为动作类别。

作为本发明的进一步技术方案，步骤A中利用由粗到细策略的Lucas-Kanade光流方法提取候选帧图像光流特征，并利用Munsell颜色转换系统从即得的运动光流特征中生成光流特征图像。

作为本发明的进一步技术方案，利用由粗到细策略的Lucas-Kanade光流方法提取图像序列上下连续图像中的像素强度数据的时域变化和相关性，确定各自像素位置变化，记录二维图像平面特定坐标点上的灰度瞬时变化率即得运动光流特征，利用Munsell颜色转换系统从即得的运动光流特征中生成光流特征图像。

作为本发明的进一步技术方案，光流特征图像利用GPU加速获取。

作为本发明的进一步技术方案，步骤D中具体为：

步骤D1、针对步骤C提取的时间流视觉特征描述子序列，利用对齐模型依次计算空间流视频窗口每一帧空间维attention显著性权重系数，在时间流高层语义特征数量维度上归一化每一帧空间维attention显著性权重系数；

步骤D2、根据步骤B提取的空间流高层语义特征序列，归一化后的每一帧空间维attention显著性权重系数与空间流高层语义特征序列加权输出attention显著性特征图序列，即利用attention注意力集中度机制选择空间重点关注区域；

步骤D3、根据空间流高层显著性特征图序列及其对应标签，利用空间流LSTM网络和softmax分类器，解码视频窗口每一帧的标签概率分布；

步骤D4、保存空间流每一帧LSTM网络解码后输出的空间流视觉特征描述子序列。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1)本发明利用GPU加速提取光流特征，按照孟塞尔颜色算法获取光流特征图像，从中包含了人体行为动作的运动信息，而且还包含了有关交互目标三维结构的丰富信息，它能够在不知道场景的任何信息的情况下，检测出运动对象，提高行为识别的准确性；

2)本发明利用深度卷积神经网络对原始数据样本以及对应光流特征图像进行处理，不仅可以自动获取高层语义特征，而且可以获取到原特征向量中具有最大类间显著度的特征属性，从而使得后续处理的计算量大大降低，并且去除了无关特征属性的干扰；

3)本发明采用空间维attention选择机制提取高层语义特征中重点关注区域，可以获取最具有类动作相关性的高层语义特征区域，避免了普通方法中提取到特征具有易混淆信息问题，增强不同类别动作辨识度；

4)本发明采用时间维attention选择机制综合考虑原始图像信息以及光流图像信息，筛选视频序列中最具判别性帧，关注序列中分类最有效信息，提升视频序列整体判决准确率。

附图说明

图1是本发明人体行为识别方法的流程示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

本发明的思路是融合时空双重网络流和attention机制策略，首先，利用由粗到细策略的Lucas-Kanade光流方法提取RGB图像视频帧中的运动光流特征，并采用Munsell颜色转换系统将其转换生成相应帧的光流特征图像，以增加相应运动信息；然后，基于卷积神经网络(CNN)和长短时记忆(LSTM)神经网络分别构建独立的时间流和空间流网络，选取一段连续时间的视频窗口，利用迁移学习得到相应参数的空间流和时间流GoogLenet卷积神经网络模型，分别逐层卷积原始RGB视频中外观图像和对应的光流特征图像，生成两段具有显著结构性的高层语义特征序列；接着，利用时间流LSTM网络，解码时间流高层语义特征序列，输出时间流视觉特征描述子序列，并采用softmax函数计算空间维attention显著性权重系数，与空间流高层语义特征序列加权输出attention显著性特征图序列，同时利用空间流LSTM网络和softmax分类器，输出空间流视觉特征描述子序列以及视频窗口每一帧的标签概率分布；其次，根据即得时空流两段视觉特征描述子利用相对熵代价函数计算每一帧时间维attention置信度得分系数，加权空间流视频窗口每一帧的标签概率分布，选择视频窗口关键帧；最后，利用softmax分类器决策识别出视频窗口的人体行为动作类别。相比现有技术，本发明重点关注视频图像中关键帧，同时选择即得关键帧空间显著性区域特征，其识别准确度较高。

本发明的融合时空双重网络流和attention机制的人体行为识别方法，包括空间维和时间维attention选择机制，其整体流程如图1所示，包括如下步骤：

步骤A、选取各行为动作类的RGB图像视频样本，并按照一定帧率将视频样本分割为若干候选帧图像，利用由粗到细策略的Lucas-Kanade光流方法提取候选帧图像光流特征，并利用Munsell颜色转换系统从即得的运动光流特征中生成光流特征图像。

从各视频样本中按照一定帧率划分保存为候选帧图像，帧率越大，样本图像集越大，有效地保证了深度学习需要的大数据来源，但同时过大的帧率导致时间冗余帧过多，降低了系统运算效率。

为保证特征提取范围和增加额外运动信息，可采用现有的k-means聚类法[Y.Zhuang,Y.Rui,T.S.Huang,and S.Mehrotra,"Adaptive key frame extraction usingunsupervised clustering."pp.866-870]、帧间相关性度量法[N.Ejaz,T.B.Tariq,andS.W.Baik,“Adaptive key frame extraction for video summarization using anaggregation mechanism,”Journal of Visual Communication and ImageRepresentation,2012：:1031-1040,.]、光流法[L.Liu,L.Shao,and P.Rockett,“Boostedkey-frame selection and correlated pyramidal motion-feature representationfor human action recognition,”Pattern Recognition,vol.46,no.7,pp.1810-1818,2013.]等方法。

本发明技术方案利用了光流法选择，比较现有各种光流法如微分光流算法、匹配光流算法、基于能量的光流算法和基于相位的光流算法等，本发明优选采用基于能量计算的Lucas-Kanade光流方法，该方法除能获得高精度的初始光流估计，还能同时利用GPU加速，减少了人体身体部分的定位时间复杂度。该方法具体如下：

步骤A1.利用图像序列中的像素强度数据的时域变化和相关性来确定各自像素位置的“运动”，即像素点三维运动场，通过在二维平面上投影转化为光流场。根据Lucas-Kanade光流方法灰度值恒定假设和梯度恒定假设计算全局偏差，能量函数公式如下：

式中，I(·)表示矩形图像序列，像素点在t时刻运动矢量

记为(m,n,t)^T，(m,n)表示图像上像素点的图像坐标，光流场

设为(u,v,l)^T,

表示图像像素点移动1帧的位移矢量。

γ是两个假设之间的权重，▽表示梯度计算符号。由于采用二次惩罚，异常值对估计的影响太大，因此公式中增加了凹函数

可以实现L1范数作用，公式中Ψ函数也可以分别用于公式中的两项，来获得鲁棒的能量方程，由于小的正常数ε，Ψ(s)仍然是凸的，保证了最小化过程中的迭代方向。此外，ε只是出于数值原因引入，可以设置为固定值0.001，所以Ψ函数的使用不会引入任何附加参数。

此外，根据分段平滑光流场的模型假设，通过惩罚光流场的总变化即增加平滑度项来实现，具体参考文献[L.I.Rudin,S.Osher,and E.Fatemi.Nonlinear totalvariation based noise removal algorithms.Physica D,1992:259–268.]，表示如下：

式中，Ψ函数具有与公式(1)相同功能。时空梯度

表示涉及空间-时间平滑度假设，在实际操作中当只有两幅图像用来计算时，可用空间梯度替换。故总能量方程是数据项和平滑度项之间的加权和，表示如下：

E(u,v)＝E_data(u,v)+αE_smooth(u,v) α＞0 (3)

式中，α为衡量权重，根据欧拉-拉格朗日方程和翘曲理论求解最小化目标能量方程，仅估计第一图像和翘曲的第二图像之间的增量梯度值。针对灰度值常数假设的非线性，由于外部固定点迭代中出现相同的增量，通过扭曲技术迭代w上的固定点来实现非线性恒定假设的最小化。

利用粗略到精细的策略，在较粗网格上计算方程解u和v，在精细网格上计算增量梯度值du和dv，因此，粗到细翘曲技术变化成为单个最小化问题，根据非线性恒常假设的图像配准技术可以获得有效的多分辨率方法，最小化能量方程获得图像光流特征。

步骤A2.由于光流特征是一个二维向量场，利用Munsell颜色转换系统的三个参数-色调、饱和度、亮度来描述颜色，通过固定饱和度，用色调表示光流的运动方向，用色度表示光流的运动速度，并将值归一化表示在0到255区间内，根据相应颜色值显示为彩色的光流场，其中不同颜色表示不同的运动方向，颜色的深浅表示运动的快慢，最终保存为光流特征图像。

步骤B、利用卷积神经网络(CNN)和长短时记忆(LSTM)神经网络分别构建独立的时间流和空间流网络，选取一段连续时间的视频窗口，利用迁移学习得到相应参数的空间流和时间流GoogLeNet卷积神经网络模型，分别逐层卷积原始RGB视频中外观图像和对应的光流特征图像，生成两段具有显著结构性的高层语义特征序列，即时间流高层语义特征序列和空间流高层语义特征序列。

步骤B1.根据人体行为识别领域中，仅仅靠视频中的单帧图像来分类识别，空间信息量太少且忽略时间上的运动信息，选取一段连续时间的视频窗口，通过联合判断视频窗口的输出标签，提高视频行为动作分类准确性。

步骤B2.针对传统人工设计特征提取的繁复性以及局限性，利用卷积神经网络自动学习图像的高层语义特征，而神经网络的设计影响最终的分类结果，提高深度神经网络性能最直接的方式是增加网络的大小，包括增加网络的深度—levels的数量，以及增加网络的宽度—每个level神经元的数量。但是这种简单的解决方案会带来两个主要的缺陷。

首先更大的size意味着更大的参数量，使得扩大的网络更倾向于过拟合，尤其是训练数据比较少的时候。由于获得高质量的训练集是非常昂贵和困难的，这个问题就成为了一个主要的瓶颈。另一个缺陷是增加网络大小的同时也会增加计算资源的使用。

解决这两个问题的根本途径就是将全连接替换为稀疏连接结构，甚至是在卷积内部。但是目前的计算设备对于非均匀的稀疏数据计算效率非常低下，即使是算术运算量减少100倍，分支预测和缓存的开销依然非常显著导致稀疏矩阵无法运用。ConvNets使用随机和特征维度的稀疏连接表，打破网络的对称性和改善学习效果，但为了更好地优化并行计算，趋势又重新回到了全连接。文章中提到将稀疏矩阵分解成稠密子矩阵进行计算加速，但同时指出稀疏矩阵在近期还不会用于深层网络的构建。

参考GoogLeNet网络[Szegedy C,Liu W,Jia Y,et al.Going deeper withconvolutions.2014:1-9.]中inception结构，找到一个简单可实现的稠密组件去逼近和替代一个最优的局部稀疏结构，并在空间上不断重复这种结构。其中一种layer-by的网络构建方式，对最后一层进行相关统计分析，将相关性较高的单元聚类在一起组成下一层，并连接到上一层的单元。假设下层的每个单元都与输入图片的一些区域相关，并且这些单元被组分到滤波器组中。在更低层(与输入层接近的层)相关的单元会集中在一个局部区域。这就意味着在结束时可以使用大量的只与单个区域相关的单元聚类，并且可以在下一层使用1*1的卷积层来替代这种结构。然而，同时也希望也有少量空间更广的单元聚类，这可以使用更大patches的卷积来替代，并且这些覆盖区域越来越大的patches的数量应该逐层减少。为了避免patch-alignment的问题(每个patch卷积后会得到一个像素值，与patch的中心像素对应，而如果patch的长宽为偶数时，patch就没有中心像素)，目前实现的inception结构中滤波器的大小都限制在1*1、3*3、5*5，最后将这些层的结果合并到一起，作为下一步的输入，此外inception结构中也加入了池化操作提升效果。

所有的卷积层(包括inception模块中的)都使用ReLU激活函数，输入是减去均值后的RGB三通道图片，大小为224*224。设计网络的深度有11个参数层，网络中总共有差不多40层。为了方便使用其他的标注集进行自适应和自动调整，分类之前使用平均池化，并使用了额外的线性层(后面多加了一个全连接层)。

对于一个非常深的网络，通过各层进行梯度传播的能力是需要考虑的问题，越深的网络梯度消失问题会更严重，而在网络中间的层产生的特征非常具有判别性，因此就在网络中间的层加了一些额外的分类器，增强后向传导的梯度信号，并且提供了额外的正则化项。在训练时，这两个额外的分类器得到的损失值会乘以一个权重(使用0.3)加到整体损失值中。在预测时，额外的分类器会被移除，训练出一个深度卷积网络模型。

步骤B3.利用步骤B2训练所得深度卷积网络模型，提取原始图像以及光流特征图像序列每一帧最后一层inception输出，生成空间流和时间流两段形如立方体的高层语义特征序列。

步骤C、利用时间流LSTM网络，解码时间流高层语义特征序列，输出时间流视觉特征描述子序列并保存。

步骤C1.由于视频包含动态内容，帧之间的变化可以编码为更准确预测的附加信息，卷积神经网络利用最大池化层在最后一层试图学习小时间段内时空特征，但难以考虑聚集长序列视频特征，而递归神经网络RNN由于梯度消失和爆炸的问题而在长序列上学习有困难。相比之下，长短时记忆神经网络(LSTM)使用存储器单元来存储、修改和访问内部状态，允许它更好地发现长序列间时间关系。

给定时间窗口长度T的输入光流特征图像经过GoogLeNet卷积神经网络模型处理后的特征立方体序列为(x₁，…,x_T)，长短时记忆神经网络(LSTM)计算视觉特征描述子序列h＝(h₁，…,h_T)和输出向量序列y＝(y₁，…,y_T)，计算时间步长t的LSTM更新公式如下：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

式中，σ(·)是将实数输入压缩到[0,1]范围的sigmoid非线性函数，Φ(·)表示双曲正切非线性函数，类似地将其输入压缩到[-1,1]范围，在t时刻一个LSTM神经单元包括一个输入门i_t、遗忘门f_t、输出门o_t、输入调制门g_t、存储单元c_t；W_xi表示输入端到输入门之间的权重学习参数，W_xf表示输入端到遗忘门之间的权重学习参数，W_xo表示输入端到输出门之间的权重学习参数，W_xc表示输入端到存储单元之间的权重学习参数，W_hi表示t-1时刻输出值到输入门之间的权重学习参数，W_hf表示t-1时刻输出值到遗忘门之间的权重学习参数，W_ho表示t-1时刻输出值到输出门之间的权重学习参数，W_hc表示t-1时刻输出值到存储单元之间的权重学习参数，b_i、b_f、b_o、b_c分别表示输入门i_t、遗忘门f_t、输出门o_t、存储单元c_t的偏置系数。

存储单元c_t是两个事物的总和：由f_t调制的先前存储单元单元c_t-1，以及由输入门调制的当前输入和先前隐藏状态的函数。因为它和f_t是S形，它们的值在[0,1]范围内，并且它和f_t可以被认为是LSTM学习选择性地忘记其先前存储器或考虑其当前输入的旋钮。同样，输出门也可以了解到多少存储单元转移到隐藏状态。可以通过使用第l-1层中的LSTM的隐藏状态作为第l层中的LSTM的输入，将多个LSTM层叠加构成L层LSTM框架。

步骤C2.在具有L层LSTM框架中，由W参数化的序列模型将输入x_t和先前的时间步骤隐藏状态h_n,t-1映射到最终输出状态z_t和更新的隐藏状态h_n,t，按照顺序计算(即时间序列顺序)推理第L层LSTM网络隐状态参数值，得到一个视觉特征描述子序列。

步骤C3.最后在时间步长t预测输出分布P(y_t)，通过在顺序模型的输出z_t,c上采用softmax分类器，从而产生时间网络流在每个时间步长输出的离散概率分布公式如下：

式中，C代表人体行为类别总数，c代表其中一个类别，W_zc表示神经元输出值对每一行为类别的连接参数，b_c表示偏置系数，z_t,c表示时刻t对类别c的神经元输出值。

来自具有T时间窗口的递归神经网络的最后几个预测是通过非常“深”(时间序列T)非线性函数计算的，表明所得递归模型模型可能对一个T长度神经网络序列具有相似的代表性能。更重要的是，顺序模型的权重W在每个时间步长被反复使用，迫使模型学习每一时间步长之间动态变化(与动态直接对t进行序列索引相反)，并成比例减小最大时间步数T增长引起的参数规模。此外，时间流的softmax分类器只在训练阶段使用，在最终测试阶段参数将丢弃不用。

步骤D、根据步骤C保存视觉特征描述子序列，采用softmax函数计算空间维attention显著性权重系数，与步骤B所得空间流高层语义特征序列加权输出attention显著性特征图序列，同时利用空间流LSTM网络和softmax分类器，输出空间流视觉特征描述子序列以及视频窗口每一帧的标签概率分布。

针对行为特征中包含大量无效或者易混淆信息，尝试利用attention机制降低视觉感知在内在搜索过程的计算成本，其中包含两种不同(自下而上和自上而下)的关注因素在动作识别过程中引导注意力的跟踪变化。

在空间维度上实施了一个自下而上的模式，主要是基于沃尔夫生物启发的GuidedSearch3.0人类视觉注意和视觉搜索模型[J.M.Wolfe and G.Gancarz.Guided search3.0.In Basic and Clinical Applications of Vision Science,1996：189–192.]。该模型使用了Treisman的特征集成理论[Treisman和Gelade，1980]，构建了人类视觉注意力模型。在attention模型中，低级滤波器被应用于各种视觉刺激，以便产生单个特征图，其中高值表示感兴趣的区域。所有单个特征图都被加权后相加到单个激活图中。注意力模型引导到特征激活图中的峰值，因为它们代表人体行为视频帧中最显着的区域。例如，击打高尔夫球是最典型的例子，或者如果它们以能够引起注意的方式如突然，不规则和快速的移动，每个自底向上的块表示有助于计算对象的显着性的某个特征。实现重点是GoogLeNet卷积神经网络模型自动提取的自底向上特征立方体，这些是运动、颜色和对象在图像中空间占用的大小，其不仅考虑了对象的实际大小，还考虑了对象与相机的距离，对人体行为识别具有重要意义。具体步骤如下：

步骤D1、在每个时间步长t，预测在空间流高层语义特征K×K空间位置上的softmax最大值分布，根据步骤C提取的时间流视觉特征描述子序列，利用对齐模型依次计算每一帧空间维attention显著性权重系数，在时间流高层语义特征数量维度上归一化序列每一帧权重系数。其公式如下：

式中，e_t,j是一个对齐模型，其评估行为动作与特征输入位置j处匹配程度，为一个标量；W_j是映射到j位置的softmax函数可学习权重；L_t是取值范围[1，K²]的变量，表示解码输入光流特征运动信息后学习原始输入图像中的空间重点关注区域的概率分布，采用基于硬注意力模型，从等式6的系数矩阵分布中采样l_t,j，表示光流特征学习到空间位置softmax参数。

步骤D2、参考眼球运动机制，以及光流特征图像具有三维空间信息以及运动信息，根据步骤B提取的空间流高层语义特征立方体，与空间流高层语义特征序列加权输出attention显著性特征图序列，即利用attention注意力集中度机制选择空间重点关注区域。

设空间流LSTM网络输入x'_t为采样位置处的特征切片，并不是对所有切片取平均期望值，其次基于硬注意力模型是不可微分的，并且必须采取某种形式的抽样，故在计算这些概率之后，采用软注意力机制，通过对不同区域的特征切片进行期望值计算，公式如下：

式中，X_t表示t时刻原始图像特征立方体，X_t,j是特征立方体X_t在时间步长t的第j个切片，l_t,j表示光流特征学习到空间位置softmax参数，K²值为特征立方体切片平面大小。

步骤D3、根据空间流高层显著性性特征图序列x'_t及其对应标签，利用空间流LSTM网络和softmax分类器，解码视频窗口每一帧的标签概率分布P(y_t＝c)，对空间流的LSTM网络设计与时间流保持一致，具体实现与步骤C相同。

步骤D4、保存空间流每一帧LSTM网络解码后输出的空间流视觉特征描述子序列，序列参数矩阵设为B＝(b₁,b₂,....,b_T)。

步骤E、根据步骤C和D所得时空流两段视觉特征描述子序列，利用相对熵代价函数计算每一帧时间维attention置信度得分系数，加权空间流视频窗口每一帧的标签概率分布，最终利用softmax分类器识别出视频窗口的人体行为动作类别。

由于步骤D解释了自底向上的空间维attention选择机制，然而完整的视觉注意力模型，包括自上而下的时间维部分，自顶向下的信息影响attention模型的自下而上的部分，反之亦然。自上而下的时间维attention模型根据帧图像中动作置信水平和动作关联度，从视频描述的人体行为动作中有选择接收行为序列帧。在任何给定的视频序列中，它只能选择行为类中的最相关动作帧来参加分类。故提出时间维attention机制判读每一帧相对视频窗口行为动作的重要性，包含以下步骤：

步骤E1、根据所述步骤C和D提取的两段视觉特征描述子序列，利用相对熵代价函数判断模型联合计算两段输入序列中动作关键帧的时间维attention关注度得分，公式如下：

式中，t代表时间帧，最大值为视频窗口长度T，c表示视频动作类别，动作类别总数表示为C，q代表视觉特征描述子总数目，k表示一个特征描述子参数值，b_t,k、h_t,k分别表示在时刻t第k个时间流和空间流视觉特征描述子参数值。

由于时间维attention关注度得分系数没有明确上界(可趋于正无穷)，故在计算时经过一个sigmoid函数限制值在[0,1]区间内并归一化，其公式更新如下：

式中，KL'_t表示时刻t未归一化的时间维attention关注度得分系数，KL_t表示时刻t归一化后的时间维attention关注度得分系数。

步骤E2、根据步骤D3得到空间流LSTM网络解码后的标签概率分布，与每一帧对应得分系数内积后，利用softmax分类器结合公式(5)分类判别得到视频窗口对应类别概率分布，其公式如下：

式中t代表时间帧，T为视频窗口长度，c表示视频动作类别，P(Y'＝c)最大概率值对应标签即为该视频窗口人体行为动作类别Y。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种融合时空双重网络流和注意力attention机制的人体行为识别方法，其特征在于，包括以下具体步骤：

步骤B、利用长短时记忆LSTM神经网络，分别构建独立的空间流LSTM网络和时间流LSTM网络；利用卷积神经网络，选取一段连续时间的视频窗口，利用迁移学习得到相应参数的空间流和时间流GoogLeNet卷积神经网络模型，分别逐层卷积原始RGB视频中外观图像和对应的光流特征图像，生成两段具有显著结构性的高层语义特征序列，即空间流高层语义特征序列和时间流高层语义特征序列；

2.根据权利要求1所述的一种融合时空双重网络流和attention机制的人体行为识别方法，其特征在于，步骤A中利用由粗到细策略的Lucas-Kanade光流方法提取候选帧图像光流特征，并利用Munsell颜色转换系统从即得的运动光流特征中生成光流特征图像。

3.根据权利要求2所述的一种融合时空双重网络流和attention机制的人体行为识别方法，其特征在于，利用由粗到细策略的Lucas-Kanade光流方法提取图像序列上下连续图像中的像素强度数据的时域变化和相关性，确定各自像素位置变化，记录二维图像平面特定坐标点上的灰度瞬时变化率即得运动光流特征，利用Munsell颜色转换系统从即得的运动光流特征中生成光流特征图像。

4.根据权利要求3所述的一种融合时空双重网络流和attention机制的人体行为识别方法，其特征在于，光流特征图像利用GPU加速获取。

5.根据权利要求1所述的一种融合时空双重网络流和attention机制的人体行为识别方法，其特征在于，步骤D中具体为：