CN111274921A

CN111274921A - 一种利用姿态掩模进行人体行为识别的方法

Info

Publication number: CN111274921A
Application number: CN202010053559.6A
Authority: CN
Inventors: 夏海轮; 苗俊卿; 曾志民; 孙丹丹
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-11-27
Filing date: 2020-01-17
Publication date: 2020-06-12
Anticipated expiration: 2040-01-17
Also published as: CN111274921B

Abstract

本发明提出一种利用姿态掩模进行人体行为识别的方法，属于行为识别技术领域。本发明包括：利用前置的二维姿态估计网络从RGB视频的帧图像中提取热力图，对热力图进行多点高斯扩散，获得姿态掩模，将姿态掩模与原始图像融合后得到的图像样本作为是时空神经网络的输入，利用标记了人体行为类别标签的训练集训练时空神经网络，进而得到用于人体行为识别的模型。本发明方法通过姿态掩模提取由姿态估计得出的人体骨骼关键点位置区域的空间特征，对图像背景的变化具有强鲁棒性，并且识别网络参数少，训练成本低，人体行为的识别准确率高。

Description

一种利用姿态掩模进行人体行为识别的方法

技术领域

本发明属于行为识别技术领域，具体是一种利用姿态掩模进行人体行为识别的方法。

背景技术

人体行为识别在智能监控、人机交互、视频分析等领域具有广阔的应用前景，是近年来的一个研究热点。随着卷积神经网络(CNN)的迅速发展，基于深度学习的方法逐渐成为行为识别领域的主流方法。

现有的网络模型中，双流方法、3D-CNN和循环神经网络结构在多个公开数据集上取得了显著的成功。然而，这些方法主要集中在RGB图像和光流的特征提取上，忽略了人体骨骼关节点提供的丰富特征，使得方法模型参数量大，特征提取能力弱，同时也受背景的干扰导致准确率降低。

目前，一些方法，如参考文件1(Zolfaghari M,Oliveira G L,Sedaghat N,etal.Chained multi-stream networks exploiting pose,motion,and appearance foraction classification and detection[C]//Proceedings of the IEEE InternationalConference on Computer Vision.2017:2904-2913.)尝试利用神经网络结构提取姿态信息并将其用于人体行为识别。然而，这些方法直接使用人体姿态图像作为输入，而没有根据不同的骨骼关节点针对性的做以区分，这导致网络模型无差别地提取人体各部分的空间特征，而忽视了人体结构中蕴含的语义特征。

发明内容

本发明的目的在于提出一种利用姿态掩模进行人体行为识别的方法，将包含人体关键关节节点坐标的图片作为姿态掩模，与原始图片结合，以过滤掉与人体不相关的背景成分，突出人体空间结构信息，从而准确识别人体行为。

本发明提出了一种利用姿态掩模进行人体行为识别的方法；包括：

步骤1：将视频的一帧图像输入二维姿态估计网络，输出M张人体骨骼节点的热力图，M为正整数，代表人体骨骼的关键关节节点的数量；热力图中的像素点的值代表关节节点的概率；

步骤2：对图像的M张热力图分别进行多点高斯扩散，获得M个姿态掩模；

对每张热力图，将其中概率非零的像素点作为目标点，对每个目标点，计算由其他概率非零的像素点扩散影响值的和，最后得到热力图的姿态掩模；

步骤3：将视频的图像转化为灰度图，分别与M个姿态掩模内积，获得经过姿态掩模的图像样本；对视频的一帧图像输出M个经姿态掩模的图像样本；

步骤4：建立用于人体行为识别的时空神经网络，利用由步骤1～3处理后的训练样本集合进行训练，得到训练好的时空神经网络；将视频的图像经过步骤1～3处理后输入训练好的时空神经网络，输出对应的人体行为类别的概率结果；

所述的时空神经网络采用卷积神经网络作为空间特征提取网络，采用长短时记忆网络作为时域特征提取网络；时空神经网络的输入层为M通道，对应输入由步骤3输出的M个经姿态掩模的图像样本；时空神经网络的输出层节点对应人体行为的类别。

本发明与现有技术相比，具有以下优势和积极效果：

(1)本发明方法引入从RGB图像中得到的姿态关节点坐标作为补充模态，有助于弥补RGB图像中缺失的人体空间结构特征信息，减少背景对识别的干扰，提高背景识别的鲁棒性和人体行为识别准确率。

(2)本发明提出多点高斯分布的姿态掩模扩散，多点高斯扩散能够提供关于每个关节周围背景的额外信息，同时保留关节附近关键区域周围的背景图，使得空间卷积神经网络能够聚焦于人体关节附近的信息，充分提取人体特征，进而提高时域网络对高层时域特征的提取，最终得到精确的识别结果。

(3)本发明应用于基于RGB视频的人体行为识别，识别准确率高，网络参数少，训练成本低。同时，本发明方法对摄像头视角变化、场景亮度色彩变化容忍度高，对视频背景相似等干扰有良好的鲁棒性。

附图说明

图1是本发明的利用姿态掩模进行人体行为识别方法的流程示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图对本发明作进一步的详细和深入描述。

根据神经网络的理论，在同样的网络结构的前提下，图像的前期处理和特征提取是影响网络识别效果的重要因素。

本发明提出了一种利用姿态掩模进行人体行为识别的方法，利用前置的二维姿态估计网络从RGB视频的每帧图像中提取人体骨骼关节热力图，并将热力图作为原始图像的姿态掩模，将姿态掩模与原始图像内积融合后输入空间卷积神经网络进行训练。姿态掩模能够提取由姿态估计得出的人体骨骼关键点位置区域的空间特征，对图像背景的变化具有强鲁棒性，本发明的姿态掩模神经网络模型的识别准确度高，达到过滤背景，提高人体特征提取能力，进而提高人体行为识别准确率的效果。

如图1所示，本发明的利用姿态掩模进行人体行为识别方法，涉及两个网络，一个是二维姿态估计网络，用于对输入的RGB视频的每帧图像提取人体骨骼关节节点的热力图，本发明方法提取人体关键/主要的关节节点；另一个是时空神经网络，用于提取人体特征，对人体行为进行识别。本发明方法分为如下4个步骤说明。

步骤1：从RGB视频中抽取N帧图像，分别送入姿态估计网络，姿态估计网络从每帧的输入回归得到M张人体骨骼关键节点的热力图，分别对应M个人体骨骼关键关节节点。

每张热力图代表该图中每个像素点上对应的特定人体骨骼关键关节点的概率。

姿态估计网络先利用检测网络得到图像中的每个人的边界框，再分别截取人所在的图像部分输入姿态估计网络中进行训练和识别。

步骤2：对每张RGB图中的M个热力图分别进行多点高斯扩散，每张RGB图获得M个姿态掩模。

高斯扩散蒙版能够提供姿态相关背景的附加信息，特别是在姿态估计网络的输出极为集中或直接使用真实值的情况下，这些附加信息更加有效。本发明方法提出了多点高斯分布的姿态掩模扩散，以缓解过拟合问题。多点高斯扩散能够提供关于每个关节周围背景的额外信息，特别是在姿态估计网络的输出极为集中的情况下，这些附加信息相对更加有效。

假设源像素点值为1，单点高斯扩散计算过程如公式(1)所示：

其中，G(i,j)代表对像素(i,j)的高斯扩散系数值，d为源扩散点与目标点的距离，R代表作用的半径范围。(i,j)是代表像素坐标。

因在本发明的场景下，一个热力图对应一个关节节点的概率矩阵，热力图含有多个非0值，本发明方法对矩阵中的每个非零概率的像素点进行高斯扩散，将其点群范围进行扩散产生姿态掩模，并利用生成的掩模对原图像进行过滤。将热力图中非零概率的像素点作为目标点，对于每个目标点的值，应由其他非零源点扩散影响值相加得到。设热力图中总共有n个非零像素点，对目标点(i,j)扩散后的姿态掩模为：

其中，P(i,j)代表掩模图在(i,j)处的值，这里k_x和k_y分别表示第k个非零像素点的横、纵坐标。H(k)表示热力图的第k个非零像素点的概率值。

对每个热力图，对图中所有非零概率的目标点进行多点高斯扩散后，得到热力图最终的姿态掩模图。本发明对于M个热力图获得M个姿态掩模。

步骤3：将原始图像转化为灰度图，并分别与M个姿态掩模内积，获得经过姿态掩模的图像样本。

对于输入的RGB图像X_in，姿态掩模生成图X_out的方式为：

X_out(i,j)＝Gray(X_in(i,j))·P(i,j) (3)

其中，Gray函数代表将图像灰度化处理。因为姿态掩模关注的是人体运动的特征，不关注色彩变化，因此对于原图像，采取了灰度化处理。通过姿态掩模与原图像的灰度图内积，得到最终的姿态掩模生成图像。步骤3对每帧原始图像输出M个经姿态掩模的图像。

步骤4：将步骤3经过姿态掩模处理后的图像输入时空神经网络中进行训练。

本发明方法采用的时空网络模型为卷积神经网络(CNN)与长短时记忆网络(LSTM)的结合。其中，CNN作为空间特征提取网络，LSTM作为时域特征提取网络。本发明方法采取相对较浅的网络结构，一方面可以减少网络参数量，节省训练时间。另一方面可以证明本发明方法提出的姿态掩模能够提取准确的空间特征，对网络深度的依赖较小。

本发明方法采用VGG-16作为时空网络的空间特征提取支路。VGG-16是一个经典的卷积神经网络模型结构，包含有13个卷积层与3个全连接层。本发明方法修改了原卷积层中第一层中的3通道输入为M通道输入，以适用于将M个姿态掩模作用结果组合输入网络。

时域网络支路部分，本发明方法采用了双层LSTM网络，其结构采用常规堆叠的方式实现，第二层使用第一层的输出作为输入来提取高层时域特征，隐藏单元数设置为512。在时域上对原视频的抽帧方面，本发明方法采用了参考文件2(Wang L M,Xiong Y J,WangZ,Qiao Y,Lin D H,Tang X O,Van Gool L.Temporal segment networks:Towards goodpractices for deep action recognition.In:Proceedings of the 14th EuropeanConference on Computer Vision(ECCV).Amsterdam,the Netherlands:Springer,2016.20-36.)等人提出的稀疏抽帧策略，将原视频分为不同的分段，每个分段抽取一帧来输入网络，这种方式可以避免抽取了连续几帧导致的时空信息重复，特征提取不充分的问题。

在网络训练方面，本发明方法采用了水平翻转和正负20度内的随机旋转来进行数据增强，采用随机梯度下降(SGD)来训练网络参数，设置动量Momentum为0.9，每批样本数量为64。初始化学习率为0.01，每20个epoch将学习率衰减10倍，训练至第80个epoch结束。

本发明的时空神经网络的输入层节点对应步骤3所输出的M个图像，输出层节点对应人体行为的类别。

首先，获得训练集，训练集的每个图像样本都标记了人体行为类别标签，对各训练样本经过上面步骤1～3的处理，获得包含M个人体骨骼关键节点信息的图像样本，然后用来训练时空神经网络，优化网络参数。

在得到训练好的时空神经网络后，对输入的图像经过步骤1～3处理后输入时空神经网络，网络输出该图像的人体行为类别的概率，其中，概率值最大的人体行为类别为图像的识别结果。

对本发明方法在J-HMDB数据集上进行试验，并与两个经典的利用人体姿态信息做人体行为识别的方法进行了比对，结果如下表1所示。

表1不同方法的人体行为识别准确率的试验结果对比

方法(基于姿态)	准确率(％)	方法(基于姿态+其它)	准确率(％)
				链式多流网络(姿态支路)	45.5	姿态卷积网络融合密集轨迹映射	72.2
姿态卷积网络	61.1	链式多流网络(多支路融合)	76.1
				姿态掩模时空网络	70.9	姿态掩模时空网络融合双流网络	82.3

两个经典的利用人体姿态信息进行行为识别的方法。一个是链式多流网络，在参考文件1中记载，通过分别把姿态图，RGB图，光流图作为三条支路的输入送入3D-CNN训练，利用一个马尔可夫链模型对其进行融合。本实验对比了链式多流网络(姿态支路)、链式多流网络(多支路融合)。另一个是姿态卷积网络，依据参考文件3(Chéron G,Laptev I,Schmid C.P-cnn:Pose-based cnn features for action recognition[C]//Proceedingsof the IEEE international conference on computer vision.2015:3218-3226.)的记载，借助于姿态估计的结果，对不同人体部分分别输入网络模型进行识别，并利用视频密集轨迹算法(DT)与姿态支路融合进行识别。本试验对比了姿态卷积网络的方法、姿态卷积网络融合密集轨迹映射的方法。

如表1所示，在与只利用人体姿态信息的单一支路相比较时，本发明的姿态掩模时空网络在J-HMDB数据集上取得了领先的性能，准确率达到了70.9％，高于姿态卷积网络以及链式多流网络使用单姿态支路时取得的成果。这说明本发明方法能够更有效地提取人体姿态的时空特征。同时，因为本发明方法提出的姿态掩模实际上保留了部分背景信息，这也说明了适当的背景对于人体姿态的识别至关重要，完全利用人体轮廓进行识别丢弃了过多时空特征，使得网络极易达到性能瓶颈。

另外，在与多模态多支路融合的网络模型的比对方面，本发明方法将姿态掩模时空网络和经典的双流网络TSN(参考文件2)进行决策层融合来验证多支路融合下的识别结果。实验表明，当融合人体姿态特征、RGB图和光流图等多种模态的识别结果时，姿态掩模时空网络融合双流网络性能优于链式多流网络和姿态卷积网络融合密集轨迹映射网络性能。这进一步证明了姿态掩模时空网络在时空特征提取方面的优越性，同时也证明了姿态掩模与RGB、光流等方法的互补作用。

根据表1的试验结果可以看出，本发明的姿态掩模时空网络的识别准确率相比上述经典的两种明显高出很多。

Claims

1.一种姿态掩模进行人体行为识别的方法，其特征在于，包括：

步骤1：将视频的一帧图像输入姿态估计网络，输出M张人体骨骼节点的热力图，M为人体骨骼的关键关节节点的数量；热力图中的像素点的值代表关节节点的概率；

2.根据权利要求1所述的方法，其特征在于，所述的步骤2中，对于一张热力图，计算姿态掩模在像素点(i,j)处的值P(i,j)如下：

其中，n为热力图中的概率非零的像素点总数量，(k_x,k_y)为热力图中的第k个概率非零像素点的坐标，H(k)为热力图中第k个概率非零像素点的值。