CN110163133A - 一种基于深度残差网络的人体行为识别方法 - Google Patents
一种基于深度残差网络的人体行为识别方法 Download PDFInfo
- Publication number
- CN110163133A CN110163133A CN201910387636.9A CN201910387636A CN110163133A CN 110163133 A CN110163133 A CN 110163133A CN 201910387636 A CN201910387636 A CN 201910387636A CN 110163133 A CN110163133 A CN 110163133A
- Authority
- CN
- China
- Prior art keywords
- resnet
- depth
- residual error
- human
- joint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度残差网络的人体行为识别方法,包括以下步骤:使用kinect传感器,获取包含人体的深度图和人体关节的数据集;对深度图进行均衡化、灰度化处理,得到深度动作图数据;将人体关节的数据集中的坐标转换成球坐标,计算出关节描述图来表示身体姿势序列,进行数据扩充后在深度残差网络中进行训练;将得到的结果在最后一个池化层之后连接,得到一个新的层;对比不同深度网络下训练的结果,得到识别结果。本发明通过对两个不同数据集分别进行处理训练后结合,使用了更加深层的深度残差网络进行训练,通过这些方法的应用能够降低错误率,提高行为识别的准确性与稳定性,具有良好的实施性与实效性。
Description
技术领域
本发明涉及一种基于深度残差网络的人体行为识别方法,属于行为识别、机器视觉、机器学习等交叉技术领域。
背景技术
基于视频的人体行为识别是计算机视觉领域中的一个重要研究课题,具有重要的理论意义与实际应用价值。
随着像Kinect这样的高效率传感器的能力越来越强,目前使用深度图和身体关节来进行人体行为识别变得非常流行,但现有的技术还存在一些局限性。首先,传统的基于深度图的人体行为识别通常需要建立多个视角的深度图数据集,提取大量特征,以便能识别出在前视图中看起来相似,在侧视图中不同的动作。其次,尽管基于深度图的人体行为识别方法结果比较准确,但当输入的特征维度较大时,学习模型的计算复杂度会迅速增加,因此在解决大规模问题和实时应用方面变得更加缓慢、复杂、不实用。最后,利用人体关节姿势数据进行人体行为识别对关节运动相当敏感,很容易把两个相同动作识别成不同的动作。
对于人体行为系统的研究,国内外所采用的技术并不成熟。大部分人体行为识别系统依赖于人工对数据进行标记加工,再将数据放入模型中进行识别。对数据有较强的依赖性,其运行效率低,不适合工业化与商品化的需求。最近在人类视觉皮层层次处理的启发下,深度学习,特别是卷积神经网络,在图像分类方面取得了巨大的成功。Alexnet成功后,设计和优化性能更高的CNN架构已经成为了一个新的研究方向。大量证据表明,通过增加卷积神经网络隐藏层的数量可以显著改善CNN的性能。但增加层数会导致梯度弥散或梯度爆炸导致系统不能收敛,而且在深度增加时,精确度常会因为过拟合的问题而饱和并下降。既可以增加神经网络的深度又可以避免过拟合和梯度问题的深度残差网络(ResNet)是一种比较好的训练方式。此外,大多数现有的基于CNN的方法限制自己使用RGB-D序列作为学习的输入模型。虽然RGB-D图像对于理解人类行为非常有效,但是当输入要素的尺寸很大时,该模型的计算复杂度会迅速增加。更具成本效益且更准确的人体行为识别方法,还需要进行大量的研究工作。
发明内容
本发明的目的是提供一种基于深度残差网络的人体行为识别方法,以提高对人体行为识别的准确度,并且降低学习模型的计算复杂度。
为实现上述目的,本发明采用的技术方案为:
一种基于深度残差网络的人体行为识别方法,包括以下步骤:
步骤1,使用kinect传感器,获取包含人体的深度图和人体关节的数据集;其中,人体关节的数据集为人体各个关节的坐标;
步骤2,对步骤1获得的深度图进行均衡化、灰度化处理,得到深度动作图数据;
步骤3,将步骤1得到的人体关节的数据集中的坐标转换成球坐标,计算出关节描述图来表示身体姿势序列,进行数据扩充后在深度残差网络中进行训练;
步骤4,将步骤2和步骤3得到的结果在最后一个池化层之后连接,得到一个新的层;其中,所述池化层为神经网络中卷积层的输出;
步骤5,对比不同深度网络下训练的结果,得到识别结果。
所述步骤1中,深度图为图像,其每个像素值代表物体到相机平面的距离。
所述步骤2具体为:设I(i,j,t)表示在t时刻画面I的像素位置(i,j),则有DMI(i,j)=255-min(I(i,j,t))其中k为图像总数;将得到的图中每个像素的值除以图中像素值中的最大值以标准化,裁剪出感兴趣区域,得到动作描述图;将动作描述图调整为120*120像素,在图上做随机裁剪将120*120的图裁剪为112*112图,然后做水平翻转和垂直翻转,得到3种不同的112*112的图像作为神经网络ResNet模型的输入;每个ResNet学习组件形成残差函数y=F(x)+id(x),其中,id(x)=x,F(x)由卷积层、批标准化层、ReLU层、随机失活层、卷积层、批标准化层组成;使用ResNet-20,ResNet-32,ResNet-44,ResNet-56,ResNet-110分别进行训练;在ResNet-44及更深层的网络中使用瓶颈设计,每个瓶颈结构先使用1*1的滤波器降维,使用3*3滤波器进行卷积,再用1*1的滤波器进行升维;在ResNet-32及ResNet-20中的卷积层直接使用3*3滤波器。
所述步骤3中,人体关节的坐标由三维坐标(x,y,z)描述,则以臀部中心关节坐标的坐标O作为坐标原点建立球坐标系,半径表示原点与关节之间的距离,角度表示关节与z轴的垂直角度,角度表示关节与x轴的水平角度;构建灰度图像R,G,B表示θ,和r的运动,有
R(Jk,n)={θ|第n帧中关节Jk的角度θ}
G(Jk,n)={|第n帧中关节Jk的角度}
B(Jk,n)={r|第n帧中关节Jk的半径r}
其中,k为关节的标号;从RGB中得到关节描述图MJD=R+G+B,将其调整为120*120像素,在MJD图上做随机图像差值将120*120的图裁剪为112*112图,然后做水平翻转和垂直翻转,得到3种不同的112*112的图像作为神经网络ResNet模型的输入;每个ResNet学习组件形成残差函数y=F(x)+id(x),其中id(x)=x,F(x)由卷积层、批标准化层、ReLU层、随机失活层、卷积层、批标准化层组成;使用ResNet-20,ResNet-32,ResNet-44,ResNet-56,ResNet-110分别进行训练;在ResNet-44及更深层的网络中使用瓶颈设计,每个瓶颈结构先使用1*1的滤波器降维,使用3*3滤波器进行卷积,再用1*1的滤波器进行升维;在ResNet-32及ResNet-20中的卷积层直接使用3*3滤波器。
所述步骤2与步骤3中,随机失活层的初始速率为0.5。
所述步骤2与步骤3中,初始学习率设定为0.01,并在第75次减少到0.001;最后45次使用的学习率为0.0001;权重衰减设定为0.0001,动量为0.9。
在步骤2与步骤3执行完成后,使用随机梯度下降法在线调整出参数的最佳值以最小化损失函数,所述损失函数即表现预测与实际数据相差程度的函数表达。
有益效果:本发明与现有技术相比,具有以下技术效果:
本发明使用人体关节数据和深度图数据通过深度残差网络(ResNet)进行人体行为识别,相较于一般的卷积神经网络训练进行行为识别,结果更准确,复杂度降低,需要的参数下降,优化更简单,解决了梯度弥散梯度爆炸等问题。本发明通过对深度图数据进行标准化、灰度化处理,将关节数据转换成球坐标计算出关节描述图来表示身体姿势序列,使用裁剪、翻转等方式进行数据扩充后在深度残差网络(ResNet)中进行训练。使用随机梯度下降的方法在线调节参数,完成端对端的学习通过这些方法的应用,提高了人体行为识别的准确性,同时降低了学习模型的计算复杂度,具体来说:
(1)本发明采用两种数据处理后在深度残差网络中进行训练,相比单种数据,具有更高的准确性。
(2)本发明将人体关节数据用球坐标转换成描述符,比使用笛卡尔坐标得出的结果更准确,提高了行为识别的准确性。
(3)本发明采用的深度图方法,相比传统的基于RGB-D的行为识别方法,结果更准确且计算复杂度更低。
(4)本发明采用ResNet进行训练,相比传统的CNN方法,结果更准确,复杂度降低,需要的参数下降,优化更简单,解决了梯度弥散梯度爆炸等问题。
附图说明
图1是基于深度残差网络的人体行为识别方法流程。
具体实施方式
下面结合附图及实施例对本发明做更进一步的解释。
本实例使用MSRAction3D数据集,MSRAction3D数据集由微软Kinect v1深度摄像机捕获,该数据集包含了20个动作。
一种基于深度残差网络的人体行为识别方法,包括以下步骤:
(1)从数据集中获取人体深度图数据及人体关节序列数据。
(2)对深度图数据进行处理,得到深度动作图(DMI)数据,设I(i,j,t)表示在t时刻画面I的像素位置(i,j),则有DMI(i,j)=255-min(I(i,j,t))其中k为图像总数。将得到的图中每个像素的值除以图中像素值中的最大值以标准化,裁剪出感兴趣区域,这样就得到了动作描述图。在训练之前将动作描述图调整为120*120像素,为了有足够多的数据进行训练,通过以下方法进行数据扩充:在图上做随机图像差值将120*120的图裁剪为112*112图,然后做水平翻转和垂直翻转,这样就得到3种不同的112*112的图像,作为神经网络ResNet模型的输入。
(3)关节数据由三维坐标(x,y,z)描述,因为三维笛卡尔坐标在关节姿势运动中过于敏感,所以以臀部中心关节坐标的坐标O作为坐标原点建立球坐标系,半径表示原点与关节之间的距离,角度表示关节与z轴的垂直角度,角度表示关节与x轴的水平角度。于是构建灰度图像R,G,B表示θ,和r的运动,有
R(Jk,n)={θ|第n帧中关节Jk的角度θ}
G(Jk,n)={|第n帧中关节Jk的角度}
B(Jk,n)={r|第n帧中关节Jk的半径r}
其中,k为关节的标号。之后我们得到关节描述图MJD=R+G+B,在训练前将其调整为120*120像素,为了有足够多的数据进行训练,通过同样的方法进行数据扩充:在图上做随机图像差值将120*120的图裁剪为112*112图,然后做水平翻转和垂直翻转,这样就得到3种不同的112*112的图像,作为另一组ResNet的输入。
(4)对两组输入分别放入深度残差网络ResNet中进行训练。该模型中,每个ResNet学习组件形成残差函数y=F(x)+id(x),其中残差函数id(x)=x,F(x)由一系列层组成:卷积层--批标准化层--ReLU层--随机失活层--卷积层--批标准化层。使用ResNet-20,ResNet-32,ResNet-44,ResNet-56,ResNet-110分别进行训练。因为深度问题,在ResNet-44及更深层的网络中使用瓶颈设计,每个瓶颈结构先使用1*1的滤波器降维,使用3*3滤波器进行卷积,再用1*1的滤波器进行升维。在ResNet-32及ResNet-20中的卷积层直接使用3*3滤波器。每次卷积后都使用批标准化(BN),之后进行一次ReLU函数运算。神经网络中的代价损失函数使用交叉熵损失。最小化交叉熵可以使预测概率分布逼近真实分布,使得预测模型更优。在训练中在线使用随机梯度下降法调整出参数的最佳值以最小化损失函数。最后将得到的两个池化层结果连接起来,对比不同深度网络下训练的结果,得到最终动作的识别结果。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于深度残差网络的人体行为识别方法,其特征在于:包括以下步骤:
步骤1,使用kinect传感器,获取包含人体的深度图和人体关节的数据集;其中,人体关节的数据集为人体各个关节的坐标;
步骤2,对步骤1获得的深度图进行均衡化、灰度化处理,得到深度动作图数据;
步骤3,将步骤1得到的人体关节的数据集中的坐标转换成球坐标,计算出关节描述图来表示身体姿势序列,进行数据扩充后在深度残差网络中进行训练;
步骤4,将步骤2和步骤3得到的结果在最后一个池化层之后连接,得到一个新的层;其中,所述池化层为神经网络中卷积层的输出;
步骤5,对比不同深度网络下训练的结果,得到识别结果。
2.根据权利要求1所述的基于深度残差网络的人体行为识别方法,其特征在于:所述步骤1中,深度图为图像,其每个像素值代表物体到相机平面的距离。
3.根据权利要求1所述的基于深度残差网络的人体行为识别方法,其特征在于:所述步骤2具体为:设I(i,j,t)表示在t时刻画面I的像素位置(i,j),则有DMI(i,j)=255-min(I(i,j,t))其中k为图像总数;将得到的图中每个像素的值除以图中像素值中的最大值以标准化,裁剪出感兴趣区域,得到动作描述图;将动作描述图调整为120*120像素,在图上做随机裁剪将120*120的图裁剪为112*112图,然后做水平翻转和垂直翻转,得到3种不同的112*112的图像作为神经网络ResNet模型的输入;每个ResNet学习组件形成残差函数y=F(x)+id(x),其中,id(x)=x,F(x)由卷积层、批标准化层、ReLU层、随机失活层、卷积层、批标准化层组成;使用ResNet-20,ResNet-32,ResNet-44,ResNet-56,ResNet-110分别进行训练;在ResNet-44及更深层的网络中使用瓶颈设计,每个瓶颈结构先使用1*1的滤波器降维,使用3*3滤波器进行卷积,再用1*1的滤波器进行升维;在ResNet-32及ResNet-20中的卷积层直接使用3*3滤波器。
4.根据权利要求1所述的基于深度残差网络的人体行为识别方法,其特征在于:所述步骤3中,人体关节的坐标由三维坐标(x,y,z)描述,则以臀部中心关节坐标的坐标O作为坐标原点建立球坐标系,半径表示原点与关节之间的距离,角度表示关节与z轴的垂直角度,角度表示关节与x轴的水平角度;构建灰度图像R,G,B表示θ,和r的运动,有
R(Jk,n)={θ|第n帧中关节Jk的角度θ}
B(Jk,n)={r|第n帧中关节Jk的半径r}
其中,k为关节的标号;从RGB中得到关节描述图MJD=R+G+B,将其调整为120*120像素,在MJD图上做随机图像差值将120*120的图裁剪为112*112图,然后做水平翻转和垂直翻转,得到3种不同的112*112的图像作为神经网络ResNet模型的输入;每个ResNet学习组件形成残差函数y=F(x)+id(x),其中id(x)=x,F(x)由卷积层、批标准化层、ReLU层、随机失活层、卷积层、批标准化层组成;使用ResNet-20,ResNet-32,ResNet-44,ResNet-56,ResNet-110分别进行训练;在ResNet-44及更深层的网络中使用瓶颈设计,每个瓶颈结构先使用1*1的滤波器降维,使用3*3滤波器进行卷积,再用1*1的滤波器进行升维;在ResNet-32及ResNet-20中的卷积层直接使用3*3滤波器。
5.根据权利要求3或4所述的基于深度残差网络的人体行为识别方法,其特征在于:所述步骤2与步骤3中,随机失活层的初始速率为0.5。
6.根据权利要求3或4所述的基于深度残差网络的人体行为识别方法,其特征在于:所述步骤2与步骤3中,初始学习率设定为0.01,并在第75次减少到0.001;最后45次使用的学习率为0.0001;权重衰减设定为0.0001,动量为0.9。
7.根据权利要求3或4所述的基于深度残差网络的人体行为识别方法,其特征在于:在步骤2与步骤3执行完成后,使用随机梯度下降法在线调整出参数的最佳值以最小化损失函数,所述损失函数即表现预测与实际数据相差程度的函数表达。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910387636.9A CN110163133A (zh) | 2019-05-10 | 2019-05-10 | 一种基于深度残差网络的人体行为识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910387636.9A CN110163133A (zh) | 2019-05-10 | 2019-05-10 | 一种基于深度残差网络的人体行为识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110163133A true CN110163133A (zh) | 2019-08-23 |
Family
ID=67634007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910387636.9A Pending CN110163133A (zh) | 2019-05-10 | 2019-05-10 | 一种基于深度残差网络的人体行为识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110163133A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016527A (zh) * | 2020-10-19 | 2020-12-01 | 成都大熊猫繁育研究基地 | 基于深度学习的大熊猫行为识别方法、系统、终端及介质 |
CN113128395A (zh) * | 2021-04-16 | 2021-07-16 | 重庆邮电大学 | 基于混合卷积的多级特征融合模型的视频动作识别方法及系统 |
-
2019
- 2019-05-10 CN CN201910387636.9A patent/CN110163133A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112016527A (zh) * | 2020-10-19 | 2020-12-01 | 成都大熊猫繁育研究基地 | 基于深度学习的大熊猫行为识别方法、系统、终端及介质 |
CN113128395A (zh) * | 2021-04-16 | 2021-07-16 | 重庆邮电大学 | 基于混合卷积的多级特征融合模型的视频动作识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106446930B (zh) | 基于深层卷积神经网络的机器人工作场景识别方法 | |
US20220004744A1 (en) | Human posture detection method and apparatus, device and storage medium | |
CN108052884A (zh) | 一种基于改进残差神经网络的手势识别方法 | |
CN110738161A (zh) | 一种基于改进生成式对抗网络的人脸图像矫正方法 | |
CN109902798A (zh) | 深度神经网络的训练方法和装置 | |
JP6788264B2 (ja) | 表情認識方法、表情認識装置、コンピュータプログラム及び広告管理システム | |
CN105005769B (zh) | 一种基于深度信息的手语识别方法 | |
CN109948453B (zh) | 一种基于卷积神经网络的多人姿态估计方法 | |
CN113705521A (zh) | 一种结合YOLO-MobilenetV3人脸检测的头部姿态估计方法 | |
CN107742107A (zh) | 人脸图像分类方法、装置及服务器 | |
CN107122375A (zh) | 基于图像特征的图像主体的识别方法 | |
CN107808129A (zh) | 一种基于单个卷积神经网络的面部多特征点定位方法 | |
CN109558902A (zh) | 一种快速目标检测方法 | |
CN106650827A (zh) | 基于结构指导深度学习的人体姿态估计方法和系统 | |
CN105930767A (zh) | 一种基于人体骨架的动作识别方法 | |
CN105894045A (zh) | 一种基于空间金字塔池化的深度网络模型的车型识别方法 | |
CN107679522A (zh) | 基于多流lstm的动作识别方法 | |
CN110222580A (zh) | 一种基于三维点云的人手三维姿态估计方法和装置 | |
CN105469041A (zh) | 基于多任务正则化与逐层监督神经网络的人脸点检测系统 | |
CN112949622A (zh) | 融合文本与图像的双模态性格分类方法及装置 | |
CN107688856A (zh) | 基于深度强化学习的室内机器人场景主动识别方法 | |
CN110135277B (zh) | 一种基于卷积神经网络的人体行为识别方法 | |
CN109711401A (zh) | 一种基于Faster Rcnn的自然场景图像中的文本检测方法 | |
CN112597814A (zh) | 一种基于改进的Openpose课堂多人异常行为及口罩佩戴检测方法 | |
CN109214346A (zh) | 基于层次信息传递的图片人体动作识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190823 |
|
RJ01 | Rejection of invention patent application after publication |