CN111259795A

CN111259795A - 基于多流深度学习的人体行为识别方法

Info

Publication number: CN111259795A
Application number: CN202010045606.2A
Authority: CN
Inventors: 韩雪平; 简艳; 时倩如; 胡兆麟; 王春芳; 杨本环; 汤璟颖; 廖昳; 孙冬阳; 焦晨莹; 崔伯渊; 杨若曦
Original assignee: Henan Polytechnic Institute
Current assignee: Henan Polytechnic Institute
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-09

Abstract

本发明公开了一种基于多流深度学习的人体行为识别方法，首先按分别建立基于BN‑inception网络的全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型，并对其进行训练；之后将待识别视频V划分为S段非重叠的视频片段；之后在每个视频片段中随机提取一帧RGB图像以及RGB图像的分块图像和光流场特征，RGB图像作为对应视频片段的全局空域信息输入全局空域信息网络模型，分块图像作为对应视频片段的局部空域信息输入局部空域信息网络模型；本发明结合了全局空域信息、时域信息和局部空域信息，融合了局部时空信息，将RGB图像分成三个部分，用于提取视频帧局部的细节；同时实现了多种模态融合，提高了识别结果的准确性。

Description

基于多流深度学习的人体行为识别方法

技术领域

本发明涉及人体行为识别技术领域，尤其是涉及一种基于多流深度学习的人体行为识别方法。

背景技术

近年来，人体行为识别作为视频分析的主要研究方向，已经广泛应用在视频游戏、机器人、人机交互、医疗保健等领域中。人体行为识别的过程主要指通过对视频中能够代表人体行为的特征提取，确定人体行为模式。现有的人体行为识别方法主要包括传统的行为识别方法，即基于人工设定的特征提取方法进行行为识别和基于深度学习框架的行为识别。传统的行为识别方法难以满足人体行为识别研究中空间复杂性高、时间差异性大的特点，不能实现高效的行为识别目的。而基于深度学习模型的人体行为识别方法可以通过训练从大规模视频数据中获得更加丰富的知识，提高对复杂人体行为的识别能力。目前人体行为识别的存在的困难主要有以下几个方面：严重依赖物体和场景，光流的长度和语义问题，卷积神经网络本身存在的“黑盒”问题等。而就人体所在的具体环境而言，受到的挑战主要包括遮挡、光照变化、自由度较大等。这些问题既是人体行为识别领域严重中存在的客观现象，也是人体行为识别研究必须解决的问题。

深度学习方法主要是通过大量数据集的训练得到深度学习模型，并在测试中不断完善，能够更有效扑捉到数据的波动特点。目前，主流的基于深度学习的人体行为识别方法分为基于3维卷积神经网络(C3D)的方法法和双流法。C3D的最大优势在于速度，通过3D卷积在空间和时间维度上捕捉视频流的运动信息，构造3D卷积网络进行人体行为识别。Carreira J等人提出了I3D模型(inception-V1 3D)，基于inception-V1模型，将2D卷积扩展到3D卷积。Diba A等人提出了T3D模型(Temporal 3D ConvNets)，一方面是采用了3Ddensenet，区别于之前的inception和Resnet结构；另一方面，TTL层，即使用不同尺度的卷积(inception思想)来捕捉讯息。Qiu Z等人改进ResNet内部连接中的卷积形式，利用提出的P3D模型(Pseudo-3D residual networks)进行行人识别。Diba A等人则设计了一个通用的模型LEN(Linear Encoding Networks)，用于网络提取出特征之后的处理，可以用于two-stream以及C3D中。

双流法对视频序列中每两帧计算密集光流，得到密集光流的序列，对视频图像和密集光流融合分析以完成识别任务。相比C3D法，双流法在主流公共数据集(如UCF101、HMDB51)中取得了更加突出的性能；由此，也衍生出了更多基于双流法的人体行为识别方法，例如双流融合人体行为识别方法和基于时空网络的人体行为识别方法(TSN)方法。此外，还有其他的人体行为识别方法涌现出来，例如将时空轨迹信息与卷积神经网络结合的方法，将三维特征与时空特征结合的方法等。

基于双流法的行为识别方法，通常包含多种模态数据，研究人员经常尝试不同的输入模式。因此，哪种模式的网络流在行为识别中表现更为重要，是基于双流法的行为识别方法研究的关键。在行为识别的研究中，现有的输入模式主要有RGB信息，光流信息，以及扭曲光流信息。而这三种信息都输入全局信息。RGB信息作为一个输入模式，是获取人体行为全局表征特征的关键。文献[Sevillalara L,Liao Y,Guney F,et al.On the Integrationof Optical Flow and Action Recognition[J],2017.]认为光流场由于其固有的尺度不变特性，对行为识别性能有较大的帮助。这也证明了光流特征作为一种模式输入在行为识别中的重要性。虽然近年来对motion信息的关注逐渐上升，指责行为识别过度依赖背景和外貌特征，而缺少对运动本身的建模。时序卷积网络(Temporal segment networks,TSN)模型和基于注意的时间加权CNN(ATW)的方法，都将扭曲光流特征作为一种模式输入，前者提出使用多个双流网络，分别捕捉不同时序位置的短时信息，然后进行融合，得到最后结果，目的是为了解决长时处理的问题。但在DeepMind的研究中，当视频数据集的大小很大时，深度学习网络可以得到比仅使用光流更好的结果，这主要是因为当数据集足够大时，它可以覆盖复杂的光照、纹理和背景。因此，扭曲光流并非关键模式。

综上所述，现有基于双流法的行为识别方法虽然效果明显，但对于不同模态的重要性并没有分析，而且都采用视频全局信息，忽略了局部信息在视频分析中的重要性，局部信息缺失造成的特征提取不完备，同样会导致识别精度急剧下降。因此，需要研究一种新的人体行为识别算法。

发明内容

有鉴于此，本发明的目的是针对现有技术中的不足，提供一种基于多流深度学习的人体行为识别方法，结合了全局空域信息、时域信息和局部空域信息，一方面，融合了局部时空信息，将RGB图像分成三个部分，用于提取视频帧局部的细节；另一方面，实现了多种模态融合，提高了识别结果的准确性。

为达到上述目的，本发明采用以下技术方案：

基于多流深度学习的人体行为识别方法，包括以下步骤：

S1、分别建立基于BN-inception网络的全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型；

S2、训练并优化全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型的参数，获取全局空域信息网络模型、局部空域信息网络模型和时域信息网络模型；

S3、将待识别视频V划分为S段非重叠的视频片段；

S4、在每个视频片段中随机提取一帧RGB图像以及RGB图像的分块图像和光流场特征，RGB图像作为对应视频片段的全局空域信息输入全局空域信息网络模型，分块图像作为对应视频片段的局部空域信息输入局部空域信息网络模型，光流场特征作为对应视频片段的时域信息输入时域信息网络模型；

S5、全局空域信息网络模型输出RGB图像的类别分数，局部空域信息网络模型输出分块图像的类别分数，时域信息网络模型输出光流场特征的类别分数；

S6、采用段共识函数对S段视频片段中的RGB图像的类别分数进行融合产生RGB图像段共识，采用段共识函数对S段视频片段中的分块图像进行融合产生分块图像段共识，采用段共识函数对S段视频片段中的光流场特征的类别分数进行融合产生光流场特征段共识；

S7、采用段共识函数对S段视频片段中的RGB图像段共识、分块图像段共识和光流场特征段共识进行加权融合，输出待识别视频的人体行为分类得分。

进一步地，在步骤S2中，采用数据集ImageNet分别对全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型进行训练。

进一步地，在步骤S2中，采用数据集UCF-101和数据集HMGB51分别对训练后的全局空域信息网络模型、局部空域信息网络模型和时域信息网络模型进行参数优化。

进一步地，对于待识别视频V，把它按相等间隔分为S段，为{V₁,V₂,…,V_S}，待识别视频V的动作识别公式为：c＝H(F(G(rand(V₁),W),…,G(rand(V_s),W)))；

其中，F表示段共识函数，c表示类别分数，G表示在训练阶段使用的对应类别的真值，H采用Softmax预测函数，对待识别视频中人体行为分类得分进行预测；

最终的损失函数为：

其中，y表示训练数据集中的标签，F表示预测的结果，L(y，F)表示训练过程中使用的损失函数。

进一步地，所述分块图像的分块方式为：采用由上到下水平平均分配的方法将每一帧RGB图像分为大小相等的三个部分，然后分别将这三个部分的图像信息得出的类别分数加权融合得到分块图像的类别分数。

进一步地，在步骤S2中，全局空域信息网络模型、局部空域信息网络模型和时域信息网络模型均采用单独训练。

进一步地，在步骤S2中，RGB图像、分块图像和光流场特征的输入模式的像素大小均调整为32×32。

进一步地，在步骤S4中，全局空域信息网络模型和局部空域信息网络模型共享参数。

本发明的有益效果是：

本发明针对现有技术中的行为识别方法采用视频全局信息，而忽略了局部信息在视频分析中的重要性，局部信息缺失造成的特征提取不完备，同样会导致识别精度急剧下降，提供一种基于多流深度学习的人体行为识别方法，该识别算法包括以下步骤：首先，分别建立基于BN-inception网络的全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型；之后，训练并优化全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型的参数，获取全局空域信息网络模型、局部空域信息网络模型和时域信息网络模型；之后，将待识别视频V划分为S段非重叠的视频片段；之后，在每个视频片段中随机提取一帧RGB图像以及RGB图像的分块图像和光流场特征，RGB图像作为对应视频片段的全局空域信息输入全局空域信息网络模型，分块图像作为对应视频片段的局部空域信息输入局部空域信息网络模型，光流场特征作为对应视频片段的时域信息输入时域信息网络模型；之后，全局空域信息网络模型输出RGB图像的类别分数，局部空域信息网络模型输出分块图像的类别分数，时域信息网络模型输出光流场特征的类别分数；之后，采用段共识函数对S段视频片段中的RGB图像的类别分数进行融合产生RGB图像段共识，采用段共识函数对S段视频片段中的分块图像进行融合产生分块图像段共识，采用段共识函数对S段视频片段中的光流场特征的类别分数进行融合产生光流场特征段共识；最后，采用段共识函数对S段视频片段中的RGB图像段共识、分块图像段共识和光流场特征段共识进行加权融合，输出待识别视频的人体行为分类得分。

本发明构建了多流深度学习模型，来验证不同输入模式的作用，以提高人体行为识别的准确性。建立视频帧中局部区域之间的空间融合模型，并将局部融合结果作为输入模式之一。同时，为了捕获视频中的全局表征信息和运动信息，仍然将RGB特征和光流特征作为输入模式之一。本发明首先，将数据集ImageNet上的深度网络训练模型作为每个流中基本模型的预训练模型，并将其在数据集UCF-101和数据集HMGB51上做训练，以获得更好的模型；然后再对输出的结果进行融合；分块的网络流与RGB流、光流进行加权融合，得到最终的识别结果。

本发明提出了基于多流深度学习的人体行为识别方法，将人体局部信息与全局信息相结合，通过局部不同特征的精确识别，使人体行为识别更加准确。实验表明，与现有深度学习方法相比，本文提出的方法在数据集UCF101和HMDB51上识别精度分别平均提高了约4.0％和6.2％。

附图说明

图1为本发明基于多流深度学习的人体行为识别方法的流程图；

图2为本发明基于多流深度学习的人体行为识别方法的框架图；

图3本发明中RGB分块模态网络流图；

图4为在数据集UCF-101上不同输入模式的识别结果对比图；

图5为在数据集HMDB51上不同输入模式的识别结果对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图1至5，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

参阅附图1至5，基于多流深度学习的人体行为识别方法，包括以下步骤：

S2、训练并优化全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型的参数，获取全局空域信息网络模型(图2中LSTM Cell)、局部空域信息网络模型(图2中空域的ConvNet)和时域信息网络模型(图2中时域的ConvNet)；

S3、将待识别视频V划分为S段非重叠的视频片段；

如图2所示，本发明的整体大模型包含三个网络结构流，分别为全局空域信息、时域信息和局部空域信息。

自2012年深度学习方法以AlexNet为代表，表现出了超凡的性能。而BN-inception网络的出现大大解决了训练收敛问题，用密集成分来近似最优的局部稀疏结构，在很大程度上提升了算法的准确性。本文采用inception网络结构，并在数据集ImageNet[文献：DengJ,Dong W,Socher R,et al.ImageNet:A large-scale hierarchical image database[C]//Computer Vision and Pattern Recognition,2009.CVPR 2009.IEEE Conferenceon.IEEE,2009:248-255.]上进行预训练。这种网络结构被认为具有更好的准确性和稳定性。

BN-inception网络是GoogLeNet的一种，Batch Normalization层的加入，减少了内部神经元数据分布可能发生的变化，而且3×3的卷积层替代较大的5×5卷积层，不仅大大降低了参数的数量，而且提高了运算的速度。表1列出了BN-inception网络的框架结构。

其中，在步骤S3中，将BN-inception在数据集在ImageNet上做训练，并将训练后的BN-inception作为预训练模型，并对输入结果进行融合，最终得到一个输出结果。

其中，在步骤S3中，将数据集ImageNet上的深度网络训练模型作为每个流中基本模型的预训练模型，并将其在数据集UCF-101和数据集HMGB51上做训练，以获得优化的模型。实验数据集采用当前最流行的两个人体行为识别数据集，UCF101和HMDB51。这两个数据集都是非常具有挑战性的数据集。UCF 101数据集包含13320个视频剪辑，分布在101个类中，是最大的动作数据集之一，shipin主要来自YouTube网络，主要包括的动作有人和物体交互，人体的肢体动作，人与人之间的动作交互，乐器的操作，以及各种体育运动等。HMPD51数据集共有6766个视频，共51个类，分为3570个训练和1530个测试视频，主要来源于电影、公共数据库以及YouTube等网络视频库中。

其中，对于每一个输入片段，在训练阶段，一个输入视频被分为S段，对每一段随机采样得到对应的一个片段；不同片段的类别得分采用段共识函数进行融合来产生段共识；然后对所有模式的预测融合产生最终的预测结果。

其中，对于给定一段视频V，把它按相等间隔分为S段，为{V₁,V₂,…,V_S}，视频V的动作识别公式为：c＝H(F(G(rand(V₁),W),…,G(rand(V_s),W)))；

其中，F表示段共识函数，c表示类别数，G表示在训练阶段使用的对应类别的真值，L表示损失函数；

最终的损失函数为：

其中，y表示训练数据集中的标签，F表示预测的结果，L(y，F)表示训练过程中使用的损失函数；

由H表示预测函数，用于对整个视频的类别进行预测：

其中，所述RGB分块图像的分块方式为：采用由上到下水平平均分配的方法将每一帧RGB图像分为大小相等的三个部分，然后分别将这三个部分的图像输入BN-inception网络框架中得到对应的结果，并将三个结果进行加权融合得到分类得分。

其中，在分块过程中，BN-inception网络框架与RGB网络流共享参数。

其中，在训练阶段，全局空域信息网络流、时域信息网络流和局部空域信息网络流均采用单独训练；在测试阶段，全局空域信息网络流、时域信息网络流和局部空域信息网络流均采用分开测试，最后得出结果再融合。

其中，在训练阶段，RGB图像、RGB分块图像和光流场特征的输入模式的大小都调整为32×32。

其中，在测试阶段，RGB网络流和图像块网络流共享参数。

本发明利用Python语言编程实现，使用CUDA 8的库及OpenCV库提取光流特征。在训练阶段，所有输入模式的大小(包括RGB图像、光流、RGB块图像)都调整为32×32。初始化学习速率为0.001。在测试阶段，RGB网络流和图像块网络流共享参数。

在网络的输入部分，RGB网络流与光流网络流与TSN方法中相同，但不同的是，本文将分块RGB信息作为一种模态输入网络流中，与其他两种模态进行融合得到识别结果。在分块的过程中，采用了常用的由上到下水平平均分配的方法，对每一帧RGB图像分为大小相等的三个部分，然后分别将三个部分的图像输入本文所提的网络框架中得到对应的结果，并将三个结果进行加权融合。其中，这里采用的网络结构与RGB网络流共享参数，具体的分块方式如图3所示。

利用本发明所提出的方法，首先，将数据集ImageNet上的深度网络训练模型作为每个流中基本模型的预训练模型，并将其在数据集UCF-101和数据集HMGB51上做训练，以获得更好的模型。然后再对输出的结果进行融合。分块的网络流与RGB流、光流进行加权融合，得到最终的识别结果。

本发明与现有技术相比较，其实验结果与分析具体如下：

本发明探讨了不同模态数据在行为识别算法中的作用。分别测试UCF101和HMDB51数据集上三种模式及其不同组合的准确率，如图4和图5所示。本发明与当前流行的人体行为识别方法进行了对比，例如基于深度学习的方法，2018年发表在AIAI上的ATW方法[文献：Zang J,Wang L,Liu Z,et al.Attention-Based Temporal Weighted ConvolutionalNeural Network for Action Recognition[C]//IFIP International Conference onArtificial Intelligence Applications and Innovations.Springer,Cham,2018:97-108.]，以及经典的多流方法TSN[文献：Wang L,Xiong Y,Wang Z,et al.Temporal SegmentNetworks:Towards Good Practices for Deep Action Recognition[J].2016,22(1):20-36.]和Two-stream[文献：朱煜，赵江坤，王逸宁，等.基于深度学习的人体行为识别算法综述.自动化学报，2016，42(6)：848-857.]方法，另外，也与传统的非深度学习方法iDT[文献：Ioffe S,Szegedy C.Batch Normalization:Accelerating Deep Network Training byReducing Internal Covariate Shift[J].2015:448-456.]和BoVW[文献：Peng X,Wang L,Wang X,et al.Bag of visual words and fusion methods for action recognition[J].Computer Vision&Image Understanding,2016,150(C):109-125.]进行了对比。

在UCF101数据集上，如图4，三种模式的准确率都在86％以上：RGB图像-87.6％，RGB块图像-87.6％，光流-86.5％。在TSN方法中[文献：Wang L,Xiong Y,Wang Z,etal.Temporal Segment Networks:Towards Good Practices for Deep ActionRecognition[J].2016,22(1):20-36.]中，同一数据集中warpped光流的准确率仅为86.9％，小于RGB块图像的87.6％。由此，可以推断出局部块空间流与其他模式组合的精确率可以高于TSN中弯曲光流与其他模式组合的精确率。结果表明，当RGB块图像和光流两种模式融合时，性能达到94.4％，三种模式融合的结果为94.8％。不难发现，与单模态或2模态融合相比，三模态数据的融合显著提高了性能。

为了验证该算法的稳定性，本发明在HMDB51数据集上进行了同样的实验，如图5所示。如果输入单模态数据，则准确率低于两种模态融合的结果，并且低于三种模态融合的结果。

最后，通过本发明提出的算法，融合三种不同的模式生成人类活动识别算法的最终结果。为了更客观地评价该算法的性能，我们在不同的数据集上与现有的主流算法进行了比较。如表2所示，总结了该算法和对比方法在数据集HMDB51和数据集UCF101上的性能。

对比法主要包括传统方法和深度学习方法。传统方法主要包括改进的轨迹模型[文献：Wang H,Schmid C.Action Recognition with Improved Trajectories[C]//IEEEInternational Conference on Computer Vision.IEEE,2014:3551-3558.]、视觉词袋和融合方法[文献：Peng X,Wang L,Wang X,et al.Bag of visual words and fusionmethods for action recognition[J].Computer Vision&Image Understanding,2016,150(C):109-125.]；深层学习方法主要包括两个流[文献：朱煜，赵江坤，王逸宁，等.基于深度学习的人体行为识别算法综述.自动化学报，2016，42(6)：848-857.]、TSN(RGB+Flow)[文献：[12]Wang L,Xiong Y,Wang Z,et al.Temporal Segment Networks:Towards GoodPractices for Deep Action Recognition[J].2016,22(1):20-36.]、TSN(RGB+Flow+War.Flow)[文献：Wang L,Xiong Y,Wang Z,et al.Temporal Segment Networks:TowardsGood Practices for Deep Action Recognition[J].2016,22(1):20-36.]和基于注意力的时间加权的卷积神经网路(ATW)[文献：Zang J,Wang L,Liu Z,et al.Attention-BasedTemporal Weighted Convolutional Neural Network for Action Recognition[C]//IFIP International Conference on Artificial Intelligence Applications andInnovations.Springer,Cham,2018:97-108.]。本发明的算法优于HMGB51数据集和UCF101数据集上的其他方法。该方法在HMGB51和UCF101上的准确率分别为70.6％和94.8％。这表明本地块流的局部特征的有效性。特别与TSN(RGB+Flow+War.Flow)相比，发现局部块流能够代替弯曲光流。

从对比结果可以看到，由于不同数据集存在一定的差异性，造成同一种方法在不同数据集上得到的结果不同，甚至出现较大的差别。例如数据集UCF101和HMDB51两个数据集，不仅是我们的方法在这两个数据集上的实验结果具有一定的差别，在UCF101上的准确率为94.8％，而在HMDB51上的准确率却只有70.6％，其他对方方法在这两个数据集上也存在这样的差别。这主要是由于数据集本身的特性，以及方法本身的泛化能力不足造成的。

表2在数据集UCF-101和HMDB-5上的比较

本发明提供基于多流深度学习的人体行为识别方法，该方法结合了全局空域信息、时域信息和局部空域信息。一方面，融合了局部时空信息。将RGB图像分成三个部分，用于提取视频帧局部的细节。另一方面，实现了多种模态融合。通过考虑不同的模态信息，将三种模式的结果融合，得到识别结果。为了验证不同模态信息在行为识别中的作用，本发明比较了不同模态信息与融合后识别结果的正确率，并与现有的主流算法进行了比较，证明了本发明所提算法的有效性。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换，只要不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.基于多流深度学习的人体行为识别方法，其特征在于，包括以下步骤：

S3、将待识别视频V划分为S段非重叠的视频片段；

2.根据权利要求1所述的基于多流深度学习的人体行为识别方法，其特征在于：在步骤S2中，采用数据集ImageNet分别对全局空域信息网络训练模型、局部空域信息网络训练模型和时域信息网络训练模型进行训练。

3.根据权利要求2所述的基于多流深度学习的人体行为识别方法，其特征在于：在步骤S2中，采用数据集UCF-101和数据集HMGB51分别对训练后的全局空域信息网络模型、局部空域信息网络模型和时域信息网络模型进行参数优化。

4.根据权利要求1所述的基于多流深度学习的人体行为识别方法，其特征在于：对于待识别视频V，把它按相等间隔分为S段，为{V₁,V₂,…,V_S}，待识别视频V的动作识别公式为：c＝H(F(G(rand(V₁),W),…,G(rand(V_s),W)))；

最终的损失函数为：

5.根据权利要求1所述的基于多流深度学习的人体行为识别方法，其特征在于：所述分块图像的分块方式为：采用由上到下水平平均分配的方法将每一帧RGB图像分为大小相等的三个部分，然后分别将这三个部分的图像信息得出的类别分数加权融合得到分块图像的类别分数。

6.根据权利要求1所述的基于多流深度学习的人体行为识别方法，其特征在于：在步骤S2中，全局空域信息网络模型、局部空域信息网络模型和时域信息网络模型均采用单独训练。

7.根据权利要求1所述的基于多流深度学习的人体行为识别方法，其特征在于：在步骤S2中，RGB图像、分块图像和光流场特征的输入模式的像素大小均调整为32×32。

8.根据权利要求1所述的基于多流深度学习的人体行为识别方法，其特征在于：在步骤S4中，全局空域信息网络模型和局部空域信息网络模型共享参数。