CN110163133A

CN110163133A - 一种基于深度残差网络的人体行为识别方法

Info

Publication number: CN110163133A
Application number: CN201910387636.9A
Authority: CN
Inventors: 孙斗南; 陈志�; 岳文静; 吴宇晨; 赵立昌
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2019-08-23

Abstract

本发明公开了一种基于深度残差网络的人体行为识别方法，包括以下步骤：使用kinect传感器，获取包含人体的深度图和人体关节的数据集；对深度图进行均衡化、灰度化处理，得到深度动作图数据；将人体关节的数据集中的坐标转换成球坐标，计算出关节描述图来表示身体姿势序列，进行数据扩充后在深度残差网络中进行训练；将得到的结果在最后一个池化层之后连接，得到一个新的层；对比不同深度网络下训练的结果，得到识别结果。本发明通过对两个不同数据集分别进行处理训练后结合，使用了更加深层的深度残差网络进行训练，通过这些方法的应用能够降低错误率，提高行为识别的准确性与稳定性，具有良好的实施性与实效性。

Description

一种基于深度残差网络的人体行为识别方法

技术领域

本发明涉及一种基于深度残差网络的人体行为识别方法，属于行为识别、机器视觉、机器学习等交叉技术领域。

背景技术

基于视频的人体行为识别是计算机视觉领域中的一个重要研究课题，具有重要的理论意义与实际应用价值。

随着像Kinect这样的高效率传感器的能力越来越强，目前使用深度图和身体关节来进行人体行为识别变得非常流行，但现有的技术还存在一些局限性。首先，传统的基于深度图的人体行为识别通常需要建立多个视角的深度图数据集，提取大量特征，以便能识别出在前视图中看起来相似，在侧视图中不同的动作。其次，尽管基于深度图的人体行为识别方法结果比较准确，但当输入的特征维度较大时，学习模型的计算复杂度会迅速增加，因此在解决大规模问题和实时应用方面变得更加缓慢、复杂、不实用。最后，利用人体关节姿势数据进行人体行为识别对关节运动相当敏感，很容易把两个相同动作识别成不同的动作。

对于人体行为系统的研究，国内外所采用的技术并不成熟。大部分人体行为识别系统依赖于人工对数据进行标记加工，再将数据放入模型中进行识别。对数据有较强的依赖性，其运行效率低，不适合工业化与商品化的需求。最近在人类视觉皮层层次处理的启发下，深度学习，特别是卷积神经网络，在图像分类方面取得了巨大的成功。Alexnet成功后，设计和优化性能更高的CNN架构已经成为了一个新的研究方向。大量证据表明，通过增加卷积神经网络隐藏层的数量可以显著改善CNN的性能。但增加层数会导致梯度弥散或梯度爆炸导致系统不能收敛，而且在深度增加时，精确度常会因为过拟合的问题而饱和并下降。既可以增加神经网络的深度又可以避免过拟合和梯度问题的深度残差网络(ResNet)是一种比较好的训练方式。此外，大多数现有的基于CNN的方法限制自己使用RGB-D序列作为学习的输入模型。虽然RGB-D图像对于理解人类行为非常有效，但是当输入要素的尺寸很大时，该模型的计算复杂度会迅速增加。更具成本效益且更准确的人体行为识别方法，还需要进行大量的研究工作。

发明内容

本发明的目的是提供一种基于深度残差网络的人体行为识别方法，以提高对人体行为识别的准确度，并且降低学习模型的计算复杂度。

为实现上述目的，本发明采用的技术方案为：

一种基于深度残差网络的人体行为识别方法，包括以下步骤：

步骤1，使用kinect传感器，获取包含人体的深度图和人体关节的数据集；其中，人体关节的数据集为人体各个关节的坐标；

步骤2，对步骤1获得的深度图进行均衡化、灰度化处理，得到深度动作图数据；

步骤3，将步骤1得到的人体关节的数据集中的坐标转换成球坐标，计算出关节描述图来表示身体姿势序列，进行数据扩充后在深度残差网络中进行训练；

步骤4，将步骤2和步骤3得到的结果在最后一个池化层之后连接，得到一个新的层；其中，所述池化层为神经网络中卷积层的输出；

步骤5，对比不同深度网络下训练的结果，得到识别结果。

所述步骤1中，深度图为图像，其每个像素值代表物体到相机平面的距离。

所述步骤2具体为：设I(i,j,t)表示在t时刻画面I的像素位置(i,j)，则有DMI(i,j)＝255-min(I(i,j,t))其中k为图像总数；将得到的图中每个像素的值除以图中像素值中的最大值以标准化，裁剪出感兴趣区域，得到动作描述图；将动作描述图调整为120*120像素，在图上做随机裁剪将120*120的图裁剪为112*112图，然后做水平翻转和垂直翻转，得到3种不同的112*112的图像作为神经网络ResNet模型的输入；每个ResNet学习组件形成残差函数y＝F(x)+id(x),其中，id(x)＝x，F(x)由卷积层、批标准化层、ReLU层、随机失活层、卷积层、批标准化层组成；使用ResNet-20，ResNet-32，ResNet-44，ResNet-56，ResNet-110分别进行训练；在ResNet-44及更深层的网络中使用瓶颈设计，每个瓶颈结构先使用1*1的滤波器降维，使用3*3滤波器进行卷积，再用1*1的滤波器进行升维；在ResNet-32及ResNet-20中的卷积层直接使用3*3滤波器。

所述步骤3中，人体关节的坐标由三维坐标(x,y,z)描述，则以臀部中心关节坐标的坐标O作为坐标原点建立球坐标系，半径表示原点与关节之间的距离，角度表示关节与z轴的垂直角度，角度表示关节与x轴的水平角度；构建灰度图像R，G，B表示θ，和r的运动，有

R(J_k,n)＝{θ|第n帧中关节J_k的角度θ}

G(J_k,n)＝{|第n帧中关节J_k的角度}

B(J_k,n)＝{r|第n帧中关节J_k的半径r}

其中，k为关节的标号；从RGB中得到关节描述图MJD＝R+G+B，将其调整为120*120像素，在MJD图上做随机图像差值将120*120的图裁剪为112*112图，然后做水平翻转和垂直翻转，得到3种不同的112*112的图像作为神经网络ResNet模型的输入；每个ResNet学习组件形成残差函数y＝F(x)+id(x),其中id(x)＝x，F(x)由卷积层、批标准化层、ReLU层、随机失活层、卷积层、批标准化层组成；使用ResNet-20，ResNet-32，ResNet-44，ResNet-56，ResNet-110分别进行训练；在ResNet-44及更深层的网络中使用瓶颈设计，每个瓶颈结构先使用1*1的滤波器降维，使用3*3滤波器进行卷积，再用1*1的滤波器进行升维；在ResNet-32及ResNet-20中的卷积层直接使用3*3滤波器。

所述步骤2与步骤3中，随机失活层的初始速率为0.5。

所述步骤2与步骤3中，初始学习率设定为0.01，并在第75次减少到0.001；最后45次使用的学习率为0.0001；权重衰减设定为0.0001，动量为0.9。

在步骤2与步骤3执行完成后，使用随机梯度下降法在线调整出参数的最佳值以最小化损失函数，所述损失函数即表现预测与实际数据相差程度的函数表达。

有益效果：本发明与现有技术相比，具有以下技术效果：

本发明使用人体关节数据和深度图数据通过深度残差网络(ResNet)进行人体行为识别，相较于一般的卷积神经网络训练进行行为识别，结果更准确，复杂度降低，需要的参数下降，优化更简单，解决了梯度弥散梯度爆炸等问题。本发明通过对深度图数据进行标准化、灰度化处理，将关节数据转换成球坐标计算出关节描述图来表示身体姿势序列，使用裁剪、翻转等方式进行数据扩充后在深度残差网络(ResNet)中进行训练。使用随机梯度下降的方法在线调节参数，完成端对端的学习通过这些方法的应用，提高了人体行为识别的准确性，同时降低了学习模型的计算复杂度，具体来说：

(1)本发明采用两种数据处理后在深度残差网络中进行训练，相比单种数据，具有更高的准确性。

(2)本发明将人体关节数据用球坐标转换成描述符，比使用笛卡尔坐标得出的结果更准确，提高了行为识别的准确性。

(3)本发明采用的深度图方法，相比传统的基于RGB-D的行为识别方法，结果更准确且计算复杂度更低。

(4)本发明采用ResNet进行训练，相比传统的CNN方法，结果更准确，复杂度降低，需要的参数下降，优化更简单，解决了梯度弥散梯度爆炸等问题。

附图说明

图1是基于深度残差网络的人体行为识别方法流程。

具体实施方式

下面结合附图及实施例对本发明做更进一步的解释。

本实例使用MSRAction3D数据集，MSRAction3D数据集由微软Kinect v1深度摄像机捕获，该数据集包含了20个动作。

(1)从数据集中获取人体深度图数据及人体关节序列数据。

(2)对深度图数据进行处理，得到深度动作图(DMI)数据，设I(i,j,t)表示在t时刻画面I的像素位置(i,j)，则有DMI(i,j)＝255-min(I(i,j,t))其中k为图像总数。将得到的图中每个像素的值除以图中像素值中的最大值以标准化，裁剪出感兴趣区域，这样就得到了动作描述图。在训练之前将动作描述图调整为120*120像素，为了有足够多的数据进行训练，通过以下方法进行数据扩充：在图上做随机图像差值将120*120的图裁剪为112*112图，然后做水平翻转和垂直翻转，这样就得到3种不同的112*112的图像，作为神经网络ResNet模型的输入。

(3)关节数据由三维坐标(x,y,z)描述，因为三维笛卡尔坐标在关节姿势运动中过于敏感，所以以臀部中心关节坐标的坐标O作为坐标原点建立球坐标系，半径表示原点与关节之间的距离，角度表示关节与z轴的垂直角度，角度表示关节与x轴的水平角度。于是构建灰度图像R，G，B表示θ，和r的运动，有

R(J_k,n)＝{θ|第n帧中关节J_k的角度θ}

G(J_k,n)＝{|第n帧中关节J_k的角度}

B(J_k,n)＝{r|第n帧中关节J_k的半径r}

其中，k为关节的标号。之后我们得到关节描述图MJD＝R+G+B，在训练前将其调整为120*120像素，为了有足够多的数据进行训练，通过同样的方法进行数据扩充：在图上做随机图像差值将120*120的图裁剪为112*112图，然后做水平翻转和垂直翻转，这样就得到3种不同的112*112的图像，作为另一组ResNet的输入。

(4)对两组输入分别放入深度残差网络ResNet中进行训练。该模型中，每个ResNet学习组件形成残差函数y＝F(x)+id(x),其中残差函数id(x)＝x，F(x)由一系列层组成：卷积层--批标准化层--ReLU层--随机失活层--卷积层--批标准化层。使用ResNet-20，ResNet-32，ResNet-44，ResNet-56，ResNet-110分别进行训练。因为深度问题，在ResNet-44及更深层的网络中使用瓶颈设计，每个瓶颈结构先使用1*1的滤波器降维，使用3*3滤波器进行卷积，再用1*1的滤波器进行升维。在ResNet-32及ResNet-20中的卷积层直接使用3*3滤波器。每次卷积后都使用批标准化(BN)，之后进行一次ReLU函数运算。神经网络中的代价损失函数使用交叉熵损失。最小化交叉熵可以使预测概率分布逼近真实分布，使得预测模型更优。在训练中在线使用随机梯度下降法调整出参数的最佳值以最小化损失函数。最后将得到的两个池化层结果连接起来，对比不同深度网络下训练的结果，得到最终动作的识别结果。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度残差网络的人体行为识别方法，其特征在于：包括以下步骤：

步骤5，对比不同深度网络下训练的结果，得到识别结果。

2.根据权利要求1所述的基于深度残差网络的人体行为识别方法，其特征在于：所述步骤1中，深度图为图像，其每个像素值代表物体到相机平面的距离。

3.根据权利要求1所述的基于深度残差网络的人体行为识别方法，其特征在于：所述步骤2具体为：设I(i,j,t)表示在t时刻画面I的像素位置(i,j)，则有DMI(i,j)＝255-min(I(i,j,t))其中k为图像总数；将得到的图中每个像素的值除以图中像素值中的最大值以标准化，裁剪出感兴趣区域，得到动作描述图；将动作描述图调整为120*120像素，在图上做随机裁剪将120*120的图裁剪为112*112图，然后做水平翻转和垂直翻转，得到3种不同的112*112的图像作为神经网络ResNet模型的输入；每个ResNet学习组件形成残差函数y＝F(x)+id(x),其中，id(x)＝x，F(x)由卷积层、批标准化层、ReLU层、随机失活层、卷积层、批标准化层组成；使用ResNet-20，ResNet-32，ResNet-44，ResNet-56，ResNet-110分别进行训练；在ResNet-44及更深层的网络中使用瓶颈设计，每个瓶颈结构先使用1*1的滤波器降维，使用3*3滤波器进行卷积，再用1*1的滤波器进行升维；在ResNet-32及ResNet-20中的卷积层直接使用3*3滤波器。

4.根据权利要求1所述的基于深度残差网络的人体行为识别方法，其特征在于：所述步骤3中，人体关节的坐标由三维坐标(x,y,z)描述，则以臀部中心关节坐标的坐标O作为坐标原点建立球坐标系，半径表示原点与关节之间的距离，角度表示关节与z轴的垂直角度，角度表示关节与x轴的水平角度；构建灰度图像R，G，B表示θ，和r的运动，有

R(J_k,n)＝{θ|第n帧中关节J_k的角度θ}

B(J_k,n)＝{r|第n帧中关节J_k的半径r}

5.根据权利要求3或4所述的基于深度残差网络的人体行为识别方法，其特征在于：所述步骤2与步骤3中，随机失活层的初始速率为0.5。

6.根据权利要求3或4所述的基于深度残差网络的人体行为识别方法，其特征在于：所述步骤2与步骤3中，初始学习率设定为0.01，并在第75次减少到0.001；最后45次使用的学习率为0.0001；权重衰减设定为0.0001，动量为0.9。

7.根据权利要求3或4所述的基于深度残差网络的人体行为识别方法，其特征在于：在步骤2与步骤3执行完成后，使用随机梯度下降法在线调整出参数的最佳值以最小化损失函数，所述损失函数即表现预测与实际数据相差程度的函数表达。