CN108664885B - 基于多尺度级联HourGlass网络的人体关键点检测方法 - Google Patents
基于多尺度级联HourGlass网络的人体关键点检测方法 Download PDFInfo
- Publication number
- CN108664885B CN108664885B CN201810224634.3A CN201810224634A CN108664885B CN 108664885 B CN108664885 B CN 108664885B CN 201810224634 A CN201810224634 A CN 201810224634A CN 108664885 B CN108664885 B CN 108664885B
- Authority
- CN
- China
- Prior art keywords
- feature
- hourglass
- size
- modules
- graphs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
基于多尺度级联HourGlass网络的人体关键点检测方法:一:将输入图片生成128*128、64*64和32*32特征图;二:将128*128的特征图送入前2个Modified HourGlass模块中,此2个模块输入输出都为128*128特征图;三:将第2个Modified HourGlass模块输出的128*128特征图和128*128热点图进行下采样成64*64的特征图与步骤一生成的64*64特征图一并送入中间4个Modified HourGlass模块中,此4个模块的输入和输出均为64*64特征图;四:将第6个Modified HourGlass模块输出的64*64特征图和64*64热点图进行下采样成32*32特征图与步骤一生成的32*32特征图一并送入最后2个模块中;五:提取8个Modified HourGlass模块的损失函数,将损失函数相加;网络根据损失函数进行后向反馈,当损失函数达到预期值并稳定后停止训练。
Description
技术领域
本发明属于单人姿态估计技术领域,具体涉及一种基于多尺度级联HourGlass网络的人体关键点检测方法。
背景技术
经典的单人姿态估计方法是基于图形结构模型。在这种模型中,身体各部分的空间相关性被表示为树形结构的图模型。后来为增强树形结构捕获人体关键点间的对称性和长距离关系发展出通过引入循环机制的非树形模型。总体而言,基于图形结构模型的单人姿态估计存在关键点重复计数、建模复杂等缺点。
随着深度学习的发展,出现了很多基于CNN的单人姿态估计方法。如DeepPose直接回归关节的坐标。该网络使用卷积神经网络和级联的思想,将以前用于分类的卷积神经网络,通过改变误差函数,将其转变为用于关节点坐标估计的卷积神经网络。同时,采用级联的方式,利用局部图片进行更高精度的坐标计算。但是,由于人体运动灵活,该模型可扩展性较差。Flowing ConvNets将姿态估计看作是检测问题,输出是热点图。其创新点在于从卷积神经网络的3和7层提取出来,再经过卷积操作,称之为空间融合模型,用来提取关节点之间的内在联系;同时使用光流信息,用来对准相邻帧的热点图预测。最后使用参数池化方法,将对其的热点图合并成一个概率图。但是,该方法对于pose的估计范围有限,只是半身的关节点,并不是全身的身体骨骼点。CPM方法使用顺序化的卷积架构来表达空间信息和纹理信息。网络分为多个阶段,每一个阶段都有监督训练的部分。但是,对于关键点的建模过程比较复杂,计算量大。HourGlass网络对给定的单张RGB图像,输出人体关键点的精确像素位置,使用多尺度特征,捕捉人体各关节点的空间位置信息。网络结构形似沙漏状,重复使用自上而下到自下而上的结构来推断人体的关节点位置。每一个自上而下到自下而上的结构都是一个Hourglass模块。虽然HourGlass网络在MPII等数据集上对于人体关键点的检测率很高,但是其结构仍存在不合理之处,没有充分利用网络中的特征图包含的丰富信息。
发明内容
基于上述现有技术存在的缺陷,本发明提出了一种基于多尺度级联HourGlass网络的人体关键点检测方法。
原HourGlas网络是由8个HourGlass模块组成。本发明中将组成原HourGlass模块的Residual模块进行改进,修改过的HourGlass模块称之为Modified HourGlass模块。原HourGlass网络每次将前一个HourGlass模块的输出直接作为下一个HourGlass模块的输入,本发明中灵活运用每个HourGlass模块。首先,将尺寸为128*128的特征图送入前2个Modified HourGlass模块中,尺度最大的特征图包含大量的全局信息,有利于网络对于人体关键点的粗略定位。其次,将尺寸为64*64的特征图送入中间4个Modified HourGlass模块中,该尺度大小的特征图,感受也大小适中,包含的局部信息也较为丰富,相比于尺度最大的特征图和尺度最小的特征图,包含的语义信息和底层信息都适中,因此本发明充分利用该类特征图。然后,将尺寸为32*32的特征图送入最后2个Modified HourGlass模块,尺度最小的特征图包含丰富的底层信息,辅助网络对于关键点检测的精细定位。最后,根据8个Modified HourGlass模块的损失函数进行反向传播,从而能够利用网络中不同尺度的特征图比较准确的检测到人体关键点。
为方便描述发明内容,首先做以下术语定义:
定义1HourGlass模块
HourGlass模块是由若干个Residual模块组成的自上而下和自下而上为一体的结构。每个Residual模块都包块2路:一路是对Residual模块的输入和输出进行等价映射,另一路对Residual模块输入的特征图进行卷积操作。最后将两者进行像素相加,作为Residual模块的输出。
定义2Modified HourGlass模块
Modified HourGlass模块是由若干个修改过的Residual模块(ModifiedResidual模块)组成的自上而下和自下而上为一体的结构。每个Modified Residual模块都包块3路:一路是对Modified Residual模块的输入和输入进行等价映射,另外两路对Modified Residual模块输入的特征图进行卷积操作。最后将三者进行像素相加,作为Residual模块的输出。由于Modified Residual模块增加了一路卷积操作,使得由ModifiedResidual模块组成的Modified HourGlass模块相比于原HourGlass模块能够更加充分地提取到特征图中所包含的信息。
本发明提出了一种基于多尺度级联HourGlass网络的人体关键点检测方法。本发明方法的创新点在于不仅改进了原HourGlass模块的结构,增加一条分支提取特征图的信息,而且灵活地运用不同尺度的特征图,将3种不同尺度的特征图按照合理的顺序,分别输入到每个Modified HourGlass模块中,使得网络能够比较充分地利用特征图的信息进行人体关键点的定位。本发明具体步骤如下:
步骤一:利用CBR模块(Convolution Layer-Batch Normalization Layer-Rectified Linear Units)、Residual模块和下采样层将输入的图片生成3种尺度的特征图,特征图的尺寸为128*128、64*64和32*32;
步骤二:将尺寸为128*128的特征图送入前2个Modified HourGlass模块中,这2个Modified HourGlass模块输入和输出都是大小128*128的特征图;
步骤三:将第2个Modified HourGlass模块输出的尺寸为128*128的特征图和尺寸为128*128的热点图都进行下采样成64*64大小的特征图与步骤一中由原始图片生成的64*64的特征图一并送入中间4个Modified HourGlass模块中,这4个Modified HourGlass模块的输入和输出均为大小64*64的特征图;
步骤四:将第6个Modified HourGlass模块输出的尺寸为64*64的特征图和尺寸为64*64的热点图都进行下采样成32*32大小的特征图与步骤一中由原始图片生成的32*32的特征图一并送入最后2个Modified HourGlass模块中;
步骤五:提取每个Modified HourGlass模块中的损失函数,将这8个损失函数进行相加。网络根据损失函数进行后向反馈,当损失函数达到预期值并稳定后停止训练。
本发明的优点在于:
1)利用当前非常流行的人体关键点检测网络——HourGlass网络,作为原型,将组成HourGlass模块的Residual模块修改为多路卷积的Residual模块,从而使得ModifiedHourGlass模块相比于原HourGlass模块能够更加有效地提取特征图中的信息。
2)本发明将多尺度特征图作为每个HourGlass模块的输入,充分地利用了不同尺度特征图所包含的丰富的语义信息和底层信息。
附图说明
图1为本发明一种优选实施例的流程示意图。
具体实施方式
下面结合附图对本发明优选实施例作详细说明。
本发明一种优选的实施例流程如图1所示,具体实施步骤如下:
步骤一:利用CBR(Convolution Layer-Batch Normalization Layer-RectifiedLinear Units)、Residual模块和下采样层将输入的图片生成3种不同尺度的特征图,特征图的尺寸为128*128、64*64和32*32(为便于示意清晰,图1中并未具体画出,只画出其输出部分);
步骤二:将尺寸为128*128的特征图送入前2个Modified HourGlass模块中,这2个Modified HourGlass模块输入和输出都是大小128*128的特征图;
步骤三:将第2个Modified HourGlass模块输出的尺寸为128*128的特征图和尺寸为128*128热点图都进行下采样成64*64大小的特征图与步骤一中由原始图片生成的64*64的特征图一并送入中间4个Modified HourGlass模块中,这4个Modified HourGlass模块的输入和输出均为大小64*64的特征图;
步骤四:将第6个Modified HourGlass模块输出的尺寸为64*64的特征图和尺寸为64*64的热点图都进行下采样成32*32大小的特征图与步骤一中由原始图片生成的32*32的特征图一并送入最后2个Modified HourGlass模块中;
步骤五:提取8个Modified HourGlass模块中的损失函数,将这8个损失函数进行相加。网络根据损失函数进行后向反馈,当损失函数达到预期值并稳定后停止训练。
本发明基于多尺度级联HourGlass网络的人体关键点检测方法。首先,将尺寸为128*128的特征图送入前2个Modified HourGlass模块中,尺度最大的特征图包含大量的全局信息,有利于网络对于人体关键点的粗略定位。其次,将尺寸为64*64的特征图送入中间4个Modified HourGlass模块中,该尺度大小的特征图,相比于尺度最大的特征图和尺度最小的特征图,包含的语义信息和底层信息都比较适中,因此主要用来进行人体关键点的检测。然后,将尺寸为32*32的特征图送入最后2个Modified HourGlass模块,尺度最小的特征图包含丰富的底层信息,辅助网络对于关键点检测的精细定位。最后,根据8个ModifiedHourGlass模块的损失函数进行反向传播,从而能够利用网络中不同尺度的特征图比较准确地检测到人体关键点。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于多尺度级联HourGlass网络的人体关键点检测方法,其特征是按如下步骤:
步骤一:将输入的图片生成3种不同尺度的特征图,特征图的尺寸分别为128*128、64*64和32*32;
步骤二:将尺寸为128*128的特征图送入前2个Modified HourGlass模块中,此2个Modified HourGlass模块输入和输出都为128*128的特征图;
步骤三:将第2个Modified HourGlass模块输出的尺寸为128*128的特征图和尺寸为128*128的热点图都进行下采样成64*64的特征图与步骤一中由原始图片生成的64*64的特征图一并送入中间4个Modified HourGlass模块中,此4个Modified HourGlass模块的输入和输出均为64*64的特征图;
步骤四:将第6个Modified HourGlass模块输出的尺寸为64*64的特征图和尺寸为64*64的热点图都进行下采样成32*32的特征图与步骤一中由原始图片生成的32*32的特征图一并送入最后2个Modified HourGlass模块中;
步骤五:提取8个Modified HourGlass模块中的损失函数,将此8个损失函数进行相加;网络根据损失函数进行后向反馈,当损失函数达到预期值并稳定后停止训练。
2.如权利要求1所述一种基于多尺度级联HourGlass网络的人体关键点检测方法,其特征是:
步骤一中,利用CBR模块、Residual模块和下采样层将输入的图片生成3种不同尺度的特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810224634.3A CN108664885B (zh) | 2018-03-19 | 2018-03-19 | 基于多尺度级联HourGlass网络的人体关键点检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810224634.3A CN108664885B (zh) | 2018-03-19 | 2018-03-19 | 基于多尺度级联HourGlass网络的人体关键点检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108664885A CN108664885A (zh) | 2018-10-16 |
CN108664885B true CN108664885B (zh) | 2021-08-31 |
Family
ID=63783864
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810224634.3A Active CN108664885B (zh) | 2018-03-19 | 2018-03-19 | 基于多尺度级联HourGlass网络的人体关键点检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108664885B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569798B (zh) * | 2018-11-16 | 2024-05-24 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
CN109685023A (zh) * | 2018-12-27 | 2019-04-26 | 深圳开立生物医疗科技股份有限公司 | 一种超声图像的面部关键点检测方法及相关装置 |
CN109902659B (zh) * | 2019-03-15 | 2021-08-20 | 北京字节跳动网络技术有限公司 | 用于处理人体图像的方法和装置 |
CN110458046B (zh) * | 2019-07-23 | 2020-11-24 | 南京邮电大学 | 一种基于关节点提取的人体运动轨迹分析方法 |
CN111062981B (zh) * | 2019-12-13 | 2023-05-05 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置及存储介质 |
CN111414823B (zh) * | 2020-03-12 | 2023-09-12 | Oppo广东移动通信有限公司 | 人体特征点的检测方法、装置、电子设备以及存储介质 |
CN112287855B (zh) * | 2020-11-02 | 2024-05-10 | 东软睿驰汽车技术(沈阳)有限公司 | 基于多任务神经网络的驾驶行为检测方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103824049A (zh) * | 2014-02-17 | 2014-05-28 | 北京旷视科技有限公司 | 一种基于级联神经网络的人脸关键点检测方法 |
CN106951875A (zh) * | 2017-03-24 | 2017-07-14 | 深圳市唯特视科技有限公司 | 一种基于二进制卷积的人体姿态估计和人脸对齐的方法 |
CN107590775A (zh) * | 2017-09-21 | 2018-01-16 | 大连理工大学 | 一种利用回归树场的图像超分辨率放大方法 |
CN107748858A (zh) * | 2017-06-15 | 2018-03-02 | 华南理工大学 | 一种基于级联卷积神经网络的多姿态眼睛定位方法 |
CN107784308A (zh) * | 2017-10-09 | 2018-03-09 | 哈尔滨工业大学 | 基于链式多尺度全卷积网络的显著性目标检测方法 |
-
2018
- 2018-03-19 CN CN201810224634.3A patent/CN108664885B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103824049A (zh) * | 2014-02-17 | 2014-05-28 | 北京旷视科技有限公司 | 一种基于级联神经网络的人脸关键点检测方法 |
CN106951875A (zh) * | 2017-03-24 | 2017-07-14 | 深圳市唯特视科技有限公司 | 一种基于二进制卷积的人体姿态估计和人脸对齐的方法 |
CN107748858A (zh) * | 2017-06-15 | 2018-03-02 | 华南理工大学 | 一种基于级联卷积神经网络的多姿态眼睛定位方法 |
CN107590775A (zh) * | 2017-09-21 | 2018-01-16 | 大连理工大学 | 一种利用回归树场的图像超分辨率放大方法 |
CN107784308A (zh) * | 2017-10-09 | 2018-03-09 | 哈尔滨工业大学 | 基于链式多尺度全卷积网络的显著性目标检测方法 |
Non-Patent Citations (2)
Title |
---|
Learning Feature Pyramids for Human Pose Estimation;Wei Yang et al;《2017 IEEE International Conference on Computer Vision》;20171231;第1290-1299页 * |
Stacked Hourglass Networks for Human Pose Estimation;Alejandro Newell et al;《arXiv:1603.06937v2 [cs.CV]》;20160626;第1-17页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108664885A (zh) | 2018-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108664885B (zh) | 基于多尺度级联HourGlass网络的人体关键点检测方法 | |
CN109271933B (zh) | 基于视频流进行三维人体姿态估计的方法 | |
CN110782462B (zh) | 一种基于双流特征融合的语义分割方法 | |
CN113963445B (zh) | 一种基于姿态估计的行人摔倒动作识别方法及设备 | |
CN112767554B (zh) | 一种点云补全方法、装置、设备及存储介质 | |
CN113888744A (zh) | 一种基于Transformer视觉上采样模块的图像语义分割方法 | |
CN109948526A (zh) | 图像处理方法及装置、检测设备及存储介质 | |
CN114943963A (zh) | 一种基于双分支融合网络的遥感图像云和云影分割方法 | |
CN110728682A (zh) | 一种基于残差金字塔池化神经网络的语义分割方法 | |
CN112232134B (zh) | 一种基于沙漏网络结合注意力机制的人体姿态估计方法 | |
CN110443173A (zh) | 一种基于帧间关系的视频实例分割方法及系统 | |
JP2022018066A (ja) | 畳み込み知覚ハッシュアルゴリズムに基づくループ検出方法 | |
CN111199207B (zh) | 基于深度残差神经网络的二维多人体姿态估计方法 | |
CN111401151B (zh) | 一种精确的三维手部姿态估计方法 | |
CN111767792A (zh) | 一种基于教室场景的多人关键点检测网络和方法 | |
CN109344822A (zh) | 一种基于长短期记忆网络的场景文本检测方法 | |
CN109934183A (zh) | 图像处理方法及装置、检测设备及存储介质 | |
CN113554032A (zh) | 基于高度感知的多路并行网络的遥感图像分割方法 | |
CN113240683A (zh) | 基于注意力机制的轻量化语义分割模型构建方法 | |
CN114255514A (zh) | 基于Transformer的人体跟踪系统、方法及摄像装置 | |
CN113989283B (zh) | 3d人体姿态估计方法、装置、电子设备与存储介质 | |
CN115588116A (zh) | 基于双通道注意力机制的行人动作识别方法 | |
CN116563913A (zh) | 一种基于多层特征融合的口罩规范佩戴检测方法 | |
CN113887501A (zh) | 行为识别方法、装置、存储介质及电子设备 | |
KR20210109327A (ko) | 인공신경망의 학습 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |