CN112364738A - 基于深度学习的人体姿态估计方法、装置、系统及介质 - Google Patents
基于深度学习的人体姿态估计方法、装置、系统及介质 Download PDFInfo
- Publication number
- CN112364738A CN112364738A CN202011193693.2A CN202011193693A CN112364738A CN 112364738 A CN112364738 A CN 112364738A CN 202011193693 A CN202011193693 A CN 202011193693A CN 112364738 A CN112364738 A CN 112364738A
- Authority
- CN
- China
- Prior art keywords
- deep learning
- image
- network
- human body
- estimated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013135 deep learning Methods 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000000605 extraction Methods 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000002087 whitening effect Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000011084 recovery Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 210000000707 wrist Anatomy 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000003414 extremity Anatomy 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了基于深度学习的人体姿态估计方法、装置、系统及存储介质,方法包括:构建并训练深度学习网络,深度学习网络通过多分辨率并行子网络进行图像特征提取;获取待估计图像,将待估计图像输入至深度学习网络;通过深度学习网络获得与待估计图像对应的深度特征图以及关键点热图,并根据深度特征图和关键点热图进行人体姿态估计输出姿态估计结果。本发明实施例通过采用多分辨率并行子网络进行图像特征提取,无需将高分辨率特征图下采样后再恢复,在实现高效提取特征的同时也可以始终保持高分辨率,避免串联子网络重复下采样以及恢复分辨率过程造成的分辨率损失,使得输出的深度特征图和关键点热图更加精确,提高人体姿态估计的准确性。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及基于深度学习的人体姿态估计方法、装置、系统及存储介质。
背景技术
人体姿态估计一直是计算机视觉中的一个基本而又具有挑战性的问题,其目标是检测人体的肢体关键点(如肘部、腕部等)的位置。目前深度卷积神经网络已经在人体姿态估计领域取得了较好的效果,现有的大多数方法将输入通过网络传递时,通常将高分辨率到低分辨率的子网络串联起来,然后再提高分辨率,例如将高分辨率特征图下采样至低分辨率,再从低分辨率特征图恢复至高分辨率,以此过程实现了多尺度特征提取。但是这种串联的方式由于必须重复下采样至低分辨率的过程和恢复高分辨率的过程,导致特征提取存在分辨率损失的问题。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术的不足,本发明的目的在于提供基于深度学习的人体姿态估计方法、装置、系统及存储介质,旨在解决现有技术中的采用串联子网进行人体姿态估计导致特征提取存在分辨率损失的问题。
本发明的技术方案如下:
一种基于深度学习的人体姿态估计方法,其包括如下步骤:
构建并训练深度学习网络,所述深度学习网络通过多分辨率并行子网络进行图像特征提取;
获取待估计图像,将所述待估计图像输入至所述深度学习网络;
通过所述深度学习网络获得与所述待估计图像对应的深度特征图以及关键点热图,并根据所述深度特征图和关键点热图进行人体姿态估计输出姿态估计结果。
所述的基于深度学习的人体姿态估计方法中,所述构建并训练深度学习网络,所述深度学习网络通过多分辨率并行子网络进行图像特征提取,包括:
按预设结构构建深度学习网络,所述深度学习网络至少包括输入层、特征提取层和输出层,其中所述特征提取层采用多分辨率并行子网络结构;
根据人体姿态训练样本对所述深度学习网络进行训练,获得最优权重参数。
所述的基于深度学习的人体姿态估计方法中,所述特征提取层包括多个依次连接的并行子网络单元,每个并行子网络单元中的并行子网数量随网络深度的增加而增加,且每个并行子网络单元中的并行子网分辨率由高到低排列。
所述的基于深度学习的人体姿态估计方法中,所述通过所述深度学习网络获得与所述待估计图像对应的深度特征图以及关键点热图,包括:
由所述深度学习网络的输入层对待估计图像进行预处理;
将经过预处理后的待估计图像输入至所述特征提取层,依次通过多个并行子网络单元进行特征提取、且在每个并行子网络单元中融合相同深度不同分辨率并行子网输出的图像特征信息后输出与所述待估计图像对应的深度特征图和关键点热图。
所述的基于深度学习的人体姿态估计方法中,所述由所述深度学习网络的输入层对待估计图像进行预处理,具体包括:
由所述深度学习网络的输入层对待估计图像进行去均值、归一化或白化处理。
所述的基于深度学习的人体姿态估计方法中,所述根据所述深度特征图和关键点热图进行人体姿态估计并输出姿态估计结果,包括:
将所述深度特征图和关键点热图输入至所述输出层,获取人体关键点的深度信息和位置信息;
根据所述人体关键点的深度信息和位置信息进行人体姿态模板匹配,输出匹配度最高的姿态估计结果。
所述的基于深度学习的人体姿态估计方法中,所述获取待估计图像之后,还包括:
对所述待估计图像进行去噪滤波处理。
本发明又一实施例还提供了一种基于深度学习的人体姿态估计装置,所述装置包括:
构建训练模块,用于构建并训练深度学习网络,所述深度学习网络通过多分辨率并行子网络进行图像特征提取;
图像获取模块,用于获取待估计图像,将所述待估计图像输入至所述深度学习网络;
姿态估计处理模块,用于通过所述深度学习网络获得与所述待估计图像对应的深度特征图以及关键点热图,并根据所述深度特征图和关键点热图进行人体姿态估计输出姿态估计结果。
本发明又一实施例还提供了一种基于深度学习的人体姿态估计系统,所述系统包括至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述基于深度学习的人体姿态估计方法。
本发明的另一实施例还提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行上述的基于深度学习的人体姿态估计方法。
本发明的另一实施例还提供了一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被处理器执行时,使所述处理器执行上述的基于深度学习的人体姿态估计方法。
有益效果:本发明公开了基于深度学习的人体姿态估计方法、装置、系统及存储介质,相比于现有技术,本发明实施例通过采用多分辨率并行子网络进行图像特征提取,无需将高分辨率特征图下采样后再恢复,在实现高效提取特征的同时也可以始终保持高分辨率,避免串联子网络重复下采样以及恢复分辨率过程造成的分辨率损失,使得输出的深度特征图和关键点热图更加精确,提高人体姿态估计的准确性。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1为本发明提供的基于深度学习的人体姿态估计方法较佳实施例的流程图;
图2为本发明提供的基于深度学习的人体姿态估计方法较佳实施例中多分辨率并行子网络的网络结构示意图;
图3为本发明提供的基于深度学习的人体姿态估计装置较佳实施例的功能模块示意图;
图4为本发明提供的基于深度学习的人体姿态估计系统较佳实施例的硬件结构示意图。
具体实施方式
为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。以下结合附图对本发明实施例进行介绍。
请参阅图1,图1为本发明提供的基于深度学习的人体姿态估计方法较佳实施例的流程图。如图1所示,其包括如下步骤:
S100、构建并训练深度学习网络,所述深度学习网络通过多分辨率并行子网络进行图像特征提取;
S200、获取待估计图像,将所述待估计图像输入至所述深度学习网络;
S300、通过所述深度学习网络获得与所述待估计图像对应的深度特征图以及关键点热图,并根据所述深度特征图和关键点热图进行人体姿态估计输出姿态估计结果。
本实施例中,先构建并训练深度学习网络,使得所述深度学习网络可以对图像中的人体关键点进行检测以实现姿态识别,所述深度学习网络具体采用多分辨率并行子网络进行图像特征提取,之后获取待估计图像并将所述待估计图像输入至所述深度学习网络,通过所述深度学习网络进行特征提取后得到与待估计图像对应的深度特征图以及关键点热图,并且根据所述深度特征图和关键点热图进行人体姿态估计输出姿态估计结果,本实施例中由于采用多分辨率并行子网络进行图像特征提取进而实现后续的人体姿态估计,由于无需按传统串联网络将高分辨率的特征图下采样后再恢复,在特征提取过程中可以始终保持高分辨率,尽可能地减少了分辨率损失,有效提高了深度特征图和关键点热图的精确性,进而提高人体姿态估计的可靠性和准确性。
进一步地,所述构建并训练深度学习网络,所述深度学习网络通过多分辨率并行子网络进行图像特征提取,包括:
按预设结构构建深度学习网络,所述深度学习网络至少包括输入层、特征提取层和输出层,其中所述特征提取层采用多分辨率并行子网络结构;
根据人体姿态训练样本对所述深度学习网络进行训练,获得最优权重参数。
本实施例中,在构建和训练深度学习网络时,先根据需求按预设结构构建深度学习网络,所述深度学习网络至少包括输入层、特征提取层以及输出层,其中所述特征提取层采用多分辨率并行子网络结构以提高特征提取的分辨率和效率,当然在其它实施例中,还可根据实际需要加入例如残差层、1*1卷积层等等进一步提高特征提取效果的网络结构,之后根据人体姿态训练样本对所述深度学习网络进行训练,获得最优权重参数用于对待估计图片的特征提取与姿态估计,具体可预先获取人体姿态训练样本,样本数据可包括多张RGB人体姿态图以及每张RGB人体姿态图对应的深度图以及关键点坐标,在训练时,通过将深度学习网络输出的深度特征图和关键点热图与样本数据中的深度图和关键点进行对比,根据对比差值对深度学习网络中的权重参数进行反向调整,直到对比差值结果达到预设值则训练完成,以训练完成时的最优权重参数对后续待估计图片进行特征提取和姿态估计处理,得到高效准确的人体姿态估计结果。
进一步地,所述特征提取层包括多个依次连接的并行子网络单元,每个并行子网络单元中的并行子网数量随网络深度的增加而增加,且每个并行子网络单元中的并行子网分辨率由高到低排列。
本实施例中,所述特征提取层采用的多分辨率并行子网络包括多个依次连接的并行子网络单元,每个并行子网络单元中的并行子网数量随着网络深度的增加而增加,同时每个并行子网络单元中的并行子网分辨率由高到低排列,具体每个并行子网均用于对待估计图像进行特征提取,具体地,如图2所示,其为本发明优选实施例中多分辨率并行子网络的网络结构示意图,该网络结构包含四个依次连接的并行子网络单元,当然在其它实施例中也可采用不同深度的网络结构,每个并行子网络单元中的并行子网数量逐步增加且分辨率由高到低排列,即第一阶段的并行子网络单元包括分辨率最高的N11并行子网,第二阶段的并行子网络单元包括N21和N22这两个并行子网,其中N21分辨率与N11相同,N22分辨率则低于N21的分辨率,依次类推构建第三阶段的并行子网络单元N31、N32和N33以及第四阶段的并行子网络单元N41、N42、N43和N44,可见本实施例中所述多分辨率并行子网络,由最高分辨率并行子网作为第一阶段的并行子网络单元,之后随着网络深度的增加逐步增设低分辨率并行子网作为新阶段的并行子网络单元,也就是说后一阶段的并行子网络单元由与前一阶段分辨率相同的并行子网和一个更低分辨率的并行子网组成,且新阶段的并行子网络单元中各个分辨率不相同的并行子网是并行连接。本实施例通过并行地连接高分辨率到低分辨率的子网络进行卷积运算提取图像特征,始终保持高分辨率的表示,无需传统的恢复分辨率过程,以此大幅度减少分辨率损失,预测的关键点热图在空间上更加准确。
进一步地,所述获取待估计图像之后,还包括:对所述待估计图像进行去噪滤波处理。
本实施例中,在获取待估计图像之后,将其输入至深度学习网络中进行姿态估计之前,还进一步对上述待估计图像进行去噪滤波处理,得到干扰噪点少的待估计图像,避免图像噪声对后续特征提取和姿态估计的干扰,进一步提高姿态估计的准确程度。
进一步地,所述通过所述深度学习网络获得与所述待估计图像对应的深度特征图以及关键点热图,包括:
由所述深度学习网络的输入层对待估计图像进行预处理;
将经过预处理后的待估计图像输入至所述特征提取层,依次通过多个并行子网络单元进行特征提取、且在每个并行子网络单元中融合相同深度不同分辨率并行子网输出的图像特征信息后输出与所述待估计图像对应的深度特征图和关键点热图。
本实施例中,在进行深度特征图和关键点热图的获取时,将待估计图像输入至深度学习网络后,先由上述深度学习网络的输入层对待估计图像进行预处理,从而获得符合后续特征提取标准的图像,之后经过预处理后的待估计图像输入至所述特征提取层,依次通过多个并行子网络单元进行特征提取、且在每个并行子网络单元中融合相同深度不同分辨率并行子网输出的图像特征信息后输出与所述待估计图像对应的深度特征图和关键点热图,即本实施例在进行特征提取时,图像依次通过多个并行子网络单元进行特征提取,由于每个并行子网络单元中始终包含有最高分辨率的并行子网,因此特征提取可始终保持高分辨率输出,无需后续的恢复过程,同时在每个并行子网络单元中进行特征提取时,还将并行子网络单元中相同深度但不同分辨率并行子网的输出信息进行融合,即每个并行子网络单元中包括有多个并行连接且输出分辨率不相同的并行子网,在特征提取时将相同深度但不同分辨率并行子网的提取信息进行融合,以便于每个并行子网通过接收来自其他并行子网的提取信息,每个并行子网络单元中均进行上述信息融合,通过反复融合高分辨率到低分辨率子网的图像特征信息,进一步提高最高分辨率并行子网输出的图形特征信息的表达效果,达到最终深度特征图和关键点热图输出效果的优越性。
进一步地,所述由所述深度学习网络的输入层对待估计图像进行预处理,具体包括:由所述深度学习网络的输入层对待估计图像进行去均值、归一化或白化处理。即本实施例中,在进行特征提取前,需要对待估计图像进行去均值、归一化或白化处理处理,从而达到降维、避免梯度消散、提高收敛效率等效果。
进一步地,所述根据所述深度特征图和关键点热图进行人体姿态估计并输出姿态估计结果,包括:
将所述深度特征图和关键点热图输入至所述输出层,获取人体关键点的深度信息和位置信息;
根据所述人体关键点的深度信息和位置信息进行人体姿态模板匹配,输出匹配度最高的姿态估计结果。
本实施例中,通过特征提取层获取了深度特征图和关键点热图后,进一步将所述深度特征图和关键点热图输入至输出层进行人体姿态估计,先根据所述深度特征图和关键点热图获取人体关键点的深度信息和位置信息,即深度特征图可以表达待估计图像中各个像素点的深度信息,关键点热图则可表达待估计图像中各个像素点的像素亮度,像素亮度对应像素点是人体关键点的可能性,像素亮度越大,对应像素点是人体关键点的可能性越高,反之则越小,因此根据关键点热图得到各个人体关键点(例如肘部、腕部等)的位置信息即二维坐标,进一步根据深度特征图,得到各个二维坐标对应像素点的深度信息即深度坐标,从而组成人体关键点的三维坐标,根据所述人体关键点的深度信息和位置信息组合得到的三维坐标进行人体姿态模板匹配,输出匹配度最高的姿态估计结果,即预先获取有若干个人体姿态模板,每个模板中各个关键点均对应一个三维坐标,将所述待估计图像中各个人体关键点的三维坐标与人体姿态模板进行匹配,得到与每个人体姿态模板的匹配概率,将匹配概率最高的人体姿态模板作为最终的姿态估计结果,从而实现高效无分辨率损失的人体姿态估计。
由以上方法实施例可知,本发明提供的基于深度学习的人体姿态估计方法通过采用多分辨率并行子网络进行图像特征提取,无需将高分辨率特征图下采样后再恢复,在实现高效提取特征的同时也可以始终保持高分辨率,避免串联子网络重复下采样以及恢复分辨率过程造成的分辨率损失,使得输出的深度特征图和关键点热图更加精确,提高人体姿态估计的准确性。
需要说明的是,上述各步骤之间并不必然存在一定的先后顺序,本领域普通技术人员,根据本发明实施例的描述可以理解,不同实施例中,上述各步骤可以有不同的执行顺序,亦即,可以并行执行,亦可以交换执行等等。
本发明另一实施例提供一种基于深度学习的人像分割装置,如图3所示,装置1包括:
构建训练模块11,用于构建并训练深度学习网络,所述深度学习网络通过多分辨率并行子网络进行图像特征提取;
图像获取模块12,用于获取待估计图像,将所述待估计图像输入至所述深度学习网络;
姿态估计处理模块13,用于通过所述深度学习网络获得与所述待估计图像对应的深度特征图以及关键点热图,并根据所述深度特征图和关键点热图进行人体姿态估计输出姿态估计结果
所述构建训练模块11、图像获取模块12和姿态估计处理模块13依次连接,具体实施方式请参考上述对应的方法实施例,此处不再赘述。
本发明另一实施例提供一种基于深度学习的人体姿态估计系统,如图4所示,系统10包括:
一个或多个处理器110以及存储器120,图4中以一个处理器110为例进行介绍,处理器110和存储器120可以通过总线或者其他方式连接,图4中以通过总线连接为例。
处理器110用于完成系统10的各种控制逻辑,其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有,处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
存储器120作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的基于深度学习的人体姿态估计方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元,从而执行系统10的各种功能应用以及数据处理,即实现上述方法实施例中的基于深度学习的人体姿态估计方法。
存储器120可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据系统10使用所创建的数据等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至系统10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个单元存储在存储器120中,当被一个或者多个处理器110执行时,执行上述任意方法实施例中的基于深度学习的人体姿态估计方法,例如,执行以上描述的图1中的方法步骤S100至步骤S300。
本发明实施例提供了一种非易失性计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如,执行以上描述的图1中的方法步骤S100至步骤S300。
作为示例,非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明丽非限制,RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。
本发明的另一种实施例提供了一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被处理器执行时,使所述处理器执行上述方法实施例的基于深度学习的人体姿态估计方法。例如,执行以上描述的图1中的方法步骤S100至步骤S300。
综上所述,本发明公开的基于深度学习的人体姿态估计方法、装置、系统及存储介质中,方法包括:基于深度学习的人体姿态估计方法、装置、系统及存储介质,方法包括:构建并训练深度学习网络,深度学习网络通过多分辨率并行子网络进行图像特征提取;获取待估计图像,将待估计图像输入至深度学习网络;通过深度学习网络获得与待估计图像对应的深度特征图以及关键点热图,并根据深度特征图和关键点热图进行人体姿态估计输出姿态估计结果。本发明实施例通过采用多分辨率并行子网络进行图像特征提取,无需将高分辨率特征图下采样后再恢复,在实现高效提取特征的同时也可以始终保持高分辨率,避免串联子网络重复下采样以及恢复分辨率过程造成的分辨率损失,使得输出的深度特征图和关键点热图更加精确,提高人体姿态估计的准确性。
以上所描述的实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施例的描述,本领域的技术人员可以清楚地了解到各实施例可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存在于计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机电子设备(可以是个人计算机,服务器,或者网络电子设备等)执行各个实施例或者实施例的某些部分的方法。
除了其他之外,诸如"能够'、"能"、"可能"或"可以"之类的条件语言除非另外具体地陈述或者在如所使用的上下文内以其他方式理解,否则一般地旨在传达特定实施方式能包括(然而其他实施方式不包括)特定特征、元件和/或操作。因此,这样的条件语言一般地还旨在暗示特征、元件和/或操作对于一个或多个实施方式无论如何都是需要的或者一个或多个实施方式必须包括用于在有或没有输入或提示的情况下判定这些特征、元件和/或操作是否被包括或者将在任何特定实施方式中被执行的逻辑。
已经在本文中在本说明书和附图中描述的内容包括能够提供基于深度学习的人体姿态估计方法、装置、系统及存储介质的示例。当然,不能够出于描述本公开的各种特征的目的来描述元件和/或方法的每个可以想象的组合,但是可以认识到,所公开的特征的许多另外的组合和置换是可能的。因此,显而易见的是,在不脱离本公开的范围或精神的情况下能够对本公开做出各种修改。此外,或在替代方案中,本公开的其他实施例从对本说明书和附图的考虑以及如本文中所呈现的本公开的实践中可能是显而易见的。意图是,本说明书和附图中所提出的示例在所有方面被认为是说明性的而非限制性的。尽管在本文中采用了特定术语,但是它们在通用和描述性意义上被使用并且不用于限制的目的。
Claims (10)
1.一种基于深度学习的人体姿态估计方法,其特征在于,包括如下步骤:
构建并训练深度学习网络,所述深度学习网络通过多分辨率并行子网络进行图像特征提取;
获取待估计图像,将所述待估计图像输入至所述深度学习网络;
通过所述深度学习网络获得与所述待估计图像对应的深度特征图以及关键点热图,并根据所述深度特征图和关键点热图进行人体姿态估计输出姿态估计结果。
2.根据权利要求1所述的基于深度学习的人体姿态估计方法,其特征在于,所述构建并训练深度学习网络,所述深度学习网络通过多分辨率并行子网络进行图像特征提取,包括:
按预设结构构建深度学习网络,所述深度学习网络至少包括输入层、特征提取层和输出层,其中所述特征提取层采用多分辨率并行子网络结构;
根据人体姿态训练样本对所述深度学习网络进行训练,获得最优权重参数。
3.根据权利要求2所述的基于深度学习的人体姿态估计方法,其特征在于,所述特征提取层包括多个依次连接的并行子网络单元,每个并行子网络单元中的并行子网数量随网络深度的增加而增加,且每个并行子网络单元中的并行子网分辨率由高到低排列。
4.根据权利要求3所述的基于深度学习的人体姿态估计方法,其特征在于,所述通过所述深度学习网络获得与所述待估计图像对应的深度特征图以及关键点热图,包括:
由所述深度学习网络的输入层对待估计图像进行预处理;
将经过预处理后的待估计图像输入至所述特征提取层,依次通过多个并行子网络单元进行特征提取、且在每个并行子网络单元中融合相同深度不同分辨率并行子网输出的图像特征信息后输出与所述待估计图像对应的深度特征图和关键点热图。
5.根据权利要求4所述的基于深度学习的人体姿态估计方法,其特征在于,所述由所述深度学习网络的输入层对待估计图像进行预处理,具体包括:
由所述深度学习网络的输入层对待估计图像进行去均值、归一化或白化处理。
6.根据权利要求2所述的基于深度学习的人体姿态估计方法,其特征在于,所述根据所述深度特征图和关键点热图进行人体姿态估计并输出姿态估计结果,包括:
将所述深度特征图和关键点热图输入至所述输出层,获取人体关键点的深度信息和位置信息;
根据所述人体关键点的深度信息和位置信息进行人体姿态模板匹配,输出匹配度最高的姿态估计结果。
7.根据权利要求1所述的基于深度学习的人体姿态估计方法,其特征在于,所述获取待估计图像之后,还包括:
对所述待估计图像进行去噪滤波处理。
8.一种基于深度学习的人体姿态估计装置,其特征在于,所述装置包括:
构建训练模块,用于构建并训练深度学习网络,所述深度学习网络通过多分辨率并行子网络进行图像特征提取;
图像获取模块,用于获取待估计图像,将所述待估计图像输入至所述深度学习网络;
姿态估计处理模块,用于通过所述深度学习网络获得与所述待估计图像对应的深度特征图以及关键点热图,并根据所述深度特征图和关键点热图进行人体姿态估计输出姿态估计结果。
9.一种基于深度学习的人体姿态估计系统,其特征在于,所述系统包括至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7任一项所述的基于深度学习的人体姿态估计方法。
10.一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行权利要求1-7任一项所述的基于深度学习的人体姿态估计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011193693.2A CN112364738A (zh) | 2020-10-30 | 2020-10-30 | 基于深度学习的人体姿态估计方法、装置、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011193693.2A CN112364738A (zh) | 2020-10-30 | 2020-10-30 | 基于深度学习的人体姿态估计方法、装置、系统及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112364738A true CN112364738A (zh) | 2021-02-12 |
Family
ID=74513136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011193693.2A Pending CN112364738A (zh) | 2020-10-30 | 2020-10-30 | 基于深度学习的人体姿态估计方法、装置、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364738A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643419A (zh) * | 2021-06-29 | 2021-11-12 | 清华大学 | 一种基于深度学习的人体反向动力学求解方法、装置 |
CN114550305A (zh) * | 2022-03-04 | 2022-05-27 | 合肥工业大学 | 一种基于Transformer的人体姿态估计方法及系统 |
CN114821639A (zh) * | 2022-04-11 | 2022-07-29 | 西安电子科技大学广州研究院 | 面向特殊场景下人体姿态估计和理解的方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033946A (zh) * | 2018-06-08 | 2018-12-18 | 东南大学 | 融合方向图的人体姿态估计方法 |
US20190220992A1 (en) * | 2018-01-15 | 2019-07-18 | Samsung Electronics Co., Ltd. | Object pose estimating method and apparatus |
CN110175566A (zh) * | 2019-05-27 | 2019-08-27 | 大连理工大学 | 一种基于rgbd融合网络的手部姿态估计系统及方法 |
CN110175575A (zh) * | 2019-05-29 | 2019-08-27 | 南京邮电大学 | 一种基于新型高分辨率网络模型的单人姿态估计方法 |
CN110598556A (zh) * | 2019-08-12 | 2019-12-20 | 深圳码隆科技有限公司 | 一种人体身形姿态匹配方法和装置 |
CN111291729A (zh) * | 2020-03-26 | 2020-06-16 | 北京百度网讯科技有限公司 | 一种人体姿态估计方法、装置、设备及存储介质 |
-
2020
- 2020-10-30 CN CN202011193693.2A patent/CN112364738A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190220992A1 (en) * | 2018-01-15 | 2019-07-18 | Samsung Electronics Co., Ltd. | Object pose estimating method and apparatus |
CN109033946A (zh) * | 2018-06-08 | 2018-12-18 | 东南大学 | 融合方向图的人体姿态估计方法 |
CN110175566A (zh) * | 2019-05-27 | 2019-08-27 | 大连理工大学 | 一种基于rgbd融合网络的手部姿态估计系统及方法 |
CN110175575A (zh) * | 2019-05-29 | 2019-08-27 | 南京邮电大学 | 一种基于新型高分辨率网络模型的单人姿态估计方法 |
CN110598556A (zh) * | 2019-08-12 | 2019-12-20 | 深圳码隆科技有限公司 | 一种人体身形姿态匹配方法和装置 |
CN111291729A (zh) * | 2020-03-26 | 2020-06-16 | 北京百度网讯科技有限公司 | 一种人体姿态估计方法、装置、设备及存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643419A (zh) * | 2021-06-29 | 2021-11-12 | 清华大学 | 一种基于深度学习的人体反向动力学求解方法、装置 |
CN113643419B (zh) * | 2021-06-29 | 2024-04-23 | 清华大学 | 一种基于深度学习的人体反向动力学求解方法 |
CN114550305A (zh) * | 2022-03-04 | 2022-05-27 | 合肥工业大学 | 一种基于Transformer的人体姿态估计方法及系统 |
CN114821639A (zh) * | 2022-04-11 | 2022-07-29 | 西安电子科技大学广州研究院 | 面向特殊场景下人体姿态估计和理解的方法及装置 |
CN114821639B (zh) * | 2022-04-11 | 2023-04-18 | 西安电子科技大学广州研究院 | 面向特殊场景下人体姿态估计和理解的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364738A (zh) | 基于深度学习的人体姿态估计方法、装置、系统及介质 | |
CN108229497B (zh) | 图像处理方法、装置、存储介质、计算机程序和电子设备 | |
WO2018099405A1 (zh) | 人脸分辨率重建方法、重建系统和可读介质 | |
JP7446457B2 (ja) | 画像最適化方法及びその装置、コンピュータ記憶媒体、コンピュータプログラム並びに電子機器 | |
CN107392865B (zh) | 一种人脸图像的复原方法 | |
CN108073857A (zh) | 动态视觉传感器dvs事件处理的方法及装置 | |
CN110796162A (zh) | 图像识别、训练识别模型的方法、相关设备及存储介质 | |
CN112307876B (zh) | 关节点检测方法及装置 | |
CN111709450B (zh) | 一种基于多尺度特征融合的点云法向量估计方法及系统 | |
CN110245621B (zh) | 人脸识别装置及图像处理方法、特征提取模型、存储介质 | |
WO2018176281A1 (zh) | 一种素描图像的生成方法及装置 | |
CN109977832B (zh) | 一种图像处理方法、装置及存储介质 | |
CN112308866A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112602114A (zh) | 图像处理方法及装置、神经网络及训练方法、存储介质 | |
CN112651380A (zh) | 人脸识别方法、人脸识别装置、终端设备及存储介质 | |
CN111860582B (zh) | 图像分类模型构建方法、装置、计算机设备和存储介质 | |
JP2021174529A (ja) | 生体を検知するための方法及び装置 | |
CN112241646A (zh) | 车道线识别方法、装置、计算机设备和存储介质 | |
KR102493492B1 (ko) | 초해상도 모델의 메타 러닝을 통한 빠른 적응 방법 및 장치 | |
CN112884648A (zh) | 多类模糊图像超分辨率重建的方法和系统 | |
CN113538530B (zh) | 一种耳部医学图像分割方法、装置、电子设备及存储介质 | |
CN115775214B (zh) | 一种基于多阶段分形组合的点云补全方法及系统 | |
CN108961161B (zh) | 一种图像数据处理方法、装置和计算机存储介质 | |
Yu et al. | Intensity guided depth upsampling using edge sparsity and super-weighted $ l_0 $ gradient minimization | |
CN111899263B (zh) | 图像分割方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |