CN114241524A - 人体姿态估计方法、装置、电子设备及可读存储介质 - Google Patents
人体姿态估计方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN114241524A CN114241524A CN202111594337.6A CN202111594337A CN114241524A CN 114241524 A CN114241524 A CN 114241524A CN 202111594337 A CN202111594337 A CN 202111594337A CN 114241524 A CN114241524 A CN 114241524A
- Authority
- CN
- China
- Prior art keywords
- human body
- key point
- thermodynamic diagram
- information
- estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Abstract
本申请公开了一种人体姿态估计方法、装置、电子设备及可读存储介质。其中,方法包括将待处理图像输入至人体姿态估计组件,得到待处理图像所包含的各人体的初始姿态预估信息和各人体的每个关键点的偏移信息;人体姿态估计组件包括人体姿态初步估计模型、热力图引导的编码器和基于图结构的细化模块。人体姿态初步估计模型对待处理图像进行初始姿态估计,热力图引导的编码器基于其输入人体关键点特征信息和多个热力图生成关键点嵌入;基于图结构的细化模块根据关键点嵌入和人体结构生成人体的每个关键点的偏移信息。对待处理图像所包含的各人体,根据相应的初始姿态估计信息和各人体关键点的偏移信息可有高效且估计下一时刻的姿态信息。
Description
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种人体姿态估计方法、装置、电子设备及可读存储介质。
背景技术
随着计算机视觉技术的快速发展,2D人体姿态估计也即二维人体姿态估计作为最基本但也十分具有挑战性的计算机视觉任务,也得到了相应的快速发展。人体姿态估计为确定关键点的精确像素位置的技术,其为解决其他高级任务的基本工具,例如行为识别,姿态跟踪,行人重识别以及人机交互等。
近年来,由于CNN(Convolutional Neural Network,卷积神经网络)的强大的表达能力,基于CNN的二维姿态估计得到了巨大的发展。这些基于CNN的多人姿态估计方法可以分为Bottom-up(也即自底向上)方法和Top-down(自顶向下)方法。所谓采用Top-down方法进行人体姿态估计是指:先通过目标检测得到图像中所有的人体实例,之后分别对每个人体实例进行人体姿态估计。现有技术通常基于热力图的CNN模型进行人体姿态估计,基于热力图的模型是将人体姿态估计问题转换为热力图估计问题,为每一个关键点生成一个热力图,热力图中的热力值表示关键点在该像素位置的概率。自顶向下的方法侧重于改进网络结构,以提高热力图回归的有效性,例如可通过增加几个deconvolutional layers(也即反卷积层)来提高输出特征图的分辨率,这是一个相当简单但是性能较好的方法。
而可以理解的是,关键点之间约束关系自然地形成了图结构,合理利用关键点之间的依赖关系有利于关键点定位。但是,CNN无法处理非欧几里得结构的数据,通俗理解就是在拓扑图中每个顶点得相邻顶点数目都可能不同,那么就无法用同样尺寸得卷积核来进行卷积运算。这导致基于CNN的模型,缺乏捕捉关键点之间的依赖关系的能力,难以处理图结构的数据。与基于卷积神经网络的模型相比,图卷积网络在处理人体姿态建模问题时,能够更加有效地捕捉关键点之间的依赖关系。基于图卷积网络的模型执行人体姿态估计任务,但是,图卷积网络以1D也即一维的关键点嵌入(keypoints embeddings)作为输入,关键点嵌入也即关键点的一维的特征表示。相关技术在生成关键点嵌入时,都是直接将2D特征拉平以获得1D的关键点嵌入,这将导致关键点嵌入的维度很大,例如2D特征的大小为64×48,拉平后变为3072,使得关键点嵌入包含了冗余的信息,若关键点嵌入包含较多的冗余信息,将会导致模型的参数量和计算成本提高很多,从而会导致最终的人体姿态估计效率和精准度均无法满足要求。
鉴于此,如何高效且精准地实现人体姿态估计,是所属领域技术人员需要解决的技术问题。
发明内容
本申请提供了一种人体姿态估计方法、装置、电子设备及可读存储介质,可有高效且精准地实现人体姿态估计。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面提供了一种人体姿态估计方法,包括:
预先构建人体姿态估计组件,所述人体姿态估计组件包括人体姿态初步估计模型、热力图引导的编码器和基于图结构的细化模块;
将待处理图像输入至所述人体姿态估计组件,得到所述待处理图像所包含人体的初始姿态预估信息和每个关键点的偏移信息;
对所述待处理图像所含人体,根据所述初始姿态估计信息和各关键点的偏移信息,确定下一时刻的姿态信息;
其中,所述人体姿态初步估计模型对所述待处理图像进行初始姿态估计,并输出人体关键点特征信息和多个热力图至所述热力图引导的编码器;所述热力图引导的编码器根据所述人体关键点特征信息和各热力图,生成维度为所述人体关键点特征信息通道数的关键点嵌入;所述基于图结构的细化模块根据所述关键点嵌入和人体结构,生成人体的每个关键点的偏移信息。
可选的,所述根据所述人体关键点特征信息和各热力图,生成维度为所述人体关键点特征信息通道数的关键点嵌入,包括:
对所述人体关键点特征信息进行转换,得到相应的空间特征;
对每幅热力图,分别按照预设值更新规则更新各热力图中热力值小于预设阈值的像素位置的值,得到相应目标热力图;
利用所述空间特征和各目标热力图,对人体各关键点特征进行编码;
通过将各目标热力图和所述空间特征,沿通道维度进行矩阵乘法实现以得到所述关键点嵌入。
可选的,所述按照预设值更新规则更新各热力图中热力值小于预设阈值的像素位置值,包括:
调用值设置关系式,更新各原始热力图中热力值小于预设阈值的像素位置的值;所述值设置关系式为:
式中,threshold为所述预设阈值,Hij'为第i个关键点对应的目标热力图中j点像素位置的热力值,Hij为第i个关键点对应的原始热力图中j点像素位置的热力值。
可选的,所述利用所述空间特征和各目标热力图,对人体各关键点特征进行编码,包括:
调用编码关系式对人体各关键点特征进行编码;所述编码关系式为:
式中,embdding∈RK×C,embedding为一个关键点的关键点嵌入,embeddings为所有关键点的关键点嵌入,||表示在通道维数上连接,hj'为目标热力图中j点像素位置的热力值,fj为所述空间特征上每个像素位置沿通道方向的特征向量,K为关键点总数,i表示第i个关键点,C为所述关键点嵌入的维度,H*W表示所述空间特征的区域数,R为实数。
可选的,所述基于图结构的细化模块包括多个图卷积层和全连接层;
各图卷积层用于执行各关键点之间的消息传递,并更新所述关键点嵌入;
所述全连接层用于预测每个关键点的偏移量。
可选的,所述基于图结构的细化模块包括多个边卷积层。
本发明实施例另一方面提供了一种人体姿态估计装置,包括:
组件构建模块,用于预先构建人体姿态估计组件,所述人体姿态估计组件包括人体姿态初步估计模型、热力图引导的编码器和基于图结构的细化模块;
姿态估计模块,用于将待处理图像输入至所述人体姿态估计组件,得到所述待处理图像所包含人体的初始姿态预估信息和每个关键点的偏移信息;对所述待处理图像所含人体,根据所述初始姿态估计信息和各关键点的偏移信息,确定下一时刻的姿态信息;其中,所述人体姿态初步估计模型对所述待处理图像进行初始姿态估计,并输出人体关键点特征信息和多个热力图至所述热力图引导的编码器;所述热力图引导的编码器根据所述人体关键点特征信息和各热力图,生成维度为所述人体关键点特征信息通道数的关键点嵌入;所述基于图结构的细化模块根据所述关键点嵌入和人体结构,生成人体的每个关键点的偏移信息。
可选的,所述姿态估计模块进一步用于:
对所述人体关键点特征信息进行转换,得到相应的空间特征;对每幅热力图,分别按照预设值更新规则更新各热力图中热力值小于预设阈值的像素位置的值,得到相应目标热力图;利用所述空间特征和各目标热力图,对人体各关键点特征进行编码;通过将各目标热力图和所述空间特征,沿通道维度进行矩阵乘法实现以得到所述关键点嵌入。
本发明实施例还提供了一种电子设备,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述人体姿态估计方法的步骤。
本发明实施例最后还提供了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前任一项所述人体姿态估计方法的步骤。
本申请提供的技术方案的优点在于,热力图引导的关键点编码器最终生成的1D的关键点嵌入的维度为特征图的通道数,通道数一般为32,48或者上百这种很小的数,而直接拉平得到的长度通常要上千甚至上万,相比现有技术直接将特征图拉平得到的长度要小的多,从而有效降低人体姿态估计组件后续部分的参数量和运算量,进而提高整体人体姿态估计效率。基于图结构的细化模块通过图卷积可以显式地融合相邻关键点的特征,在关键点之间进行消息传递,最终预测各关键点的偏移量用于对初始姿态估计信息进行细化,有利于提高人体姿态的预测精度,从而高效且精准地实现了人体姿态估计。
此外,本发明实施例还针对人体姿态估计方法提供了相应的实现装置、电子设备及可读存储介质,进一步使得所述方法更具有实用性,所述装置、电子设备及可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种人体姿态估计方法的流程示意图;
图2为本发明实施例提供的一个示例性应用场景的框架示意图;
图3为本发明实施例提供的基于热力图引导关键点嵌入解码示意图;
图4为本发明实施例提供的人体姿态估计装置的一种具体实施方式结构图;
图5为本发明实施例提供的电子设备的一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种人体姿态估计方法的流程示意图,本发明实施例可包括以下内容:
S101:预先构建人体姿态估计组件。
在本步骤中,人体姿态估计组件包括人体姿态初步估计模型、热力图引导的编码器和基于图结构的细化模块,该组件可以用于任何热力图网络,能够以极小的参数和计算代价提高热力图网络的检测性能。其中,人体姿态初步估计模型可为任何一种现有的基于热力图的人体姿态估计模型,如可采用基于热力图的CNN模型。人体姿态初步估计模型作为人体姿态估计组件的主干网络,用于在第一阶段对输入图像进行人体姿态估计,也即对热力图进行解码得到粗糙的人体姿态预测结果,人体姿态估计模型会生成输入图像所含的每个人体的每个关键点对应的热力图,热力图中的热力值表示关键点在该像素位置的概率,之后将每个热力图进行解码得到人体关键点坐标,将人体关键点坐标作为输入图像的各人体的关键点特征信息。人体姿态估计组件的第二阶段包括热力图引导的编码器和基于图结构的细化模块,热力图引导的编码器根据第一阶段生成的人体关键点特征图和热力图生成关键点嵌入,本实施例的热力图引导的编码器生成包含关键点对应区域的语义信息,而不是整个图像区域的关键点嵌入,减少了冗余信息,同时降低了计算和参数代价。之后将关键点嵌入和人体结构或者是说根据人体关键点约束关系构造的图结构输入到基于图结构的细化模块中,基于图结构的细化模块通过构建图卷积网络在关键点之间执行消息传递从而捕获关键点之间的依赖关系并细化热力图的解码结果,进而得到输入图像的人体姿态精细化的预测。
S102:将待处理图像输入至人体姿态估计组件,得到待处理图像所包含的人体的初始姿态预估信息和各人体的每个关键点的偏移信息。
在本步骤中,初始姿态预估信息即为人体姿态估计组件的第一阶段所实现的人体姿态预估结果,也即人体姿态初步估计模型的热力图的解码结果。待处理图像输入至人体姿态估计组件之后,待处理图像的处理流程为:人体姿态初步估计模型对待处理图像进行初始姿态估计,并输出人体关键点特征信息和多个热力图至热力图引导的编码器;热力图引导的编码器根据人体关键点特征信息和各热力图,生成维度为人体关键点特征信息通道数的关键点嵌入;并将该关键点嵌入输入至基于图结构的细化模块,基于图结构的细化模块根据关键点嵌入和人体结构,生成人体的每个关键点的偏移信息。基于人体结构可确定人体关键点,可根据人体关键点约束关系构造图结构,人体关键点为关乎人体姿态的节点位置如肩关节、肘关节、膝关节、踝关节等,本领域技术人员可根据实际需求确定,这均不影响本申请的实现。
也就是说,在本步骤中,人体姿态估计组件在第一阶段使用基于热力图的人体姿态估计模型生成K个热力图{H1,H2,H3...,HK},其中K为关键点的个数,其中每一个热力图Hk表示第k个关键点的置信图,之后将热力图解码得到人体关键点坐标pk。然后,将第一阶段生成的特征和热力图输入基于热力图引导的关键点编码器,以生成关键点嵌入。然后将关键点嵌入和根据人体关键点约束关系构造的图结构一起输入到基于图的细化模块中。在该模块中,关键点之间的消息传递通过一系列图卷积来实现。最后,使用全连接层来预测每个关键点的偏移量。
S103:对待处理图像所含人体,根据初始姿态估计信息和各关键点的偏移信息,确定下一时刻的姿态信息。
可以理解的是,待处理图像可能只包含一个人体实例,也可能包括多个人体实例。若待处理图像包括多个人体实例,则上述S102步骤将待处理图像输入至人体姿态估计组件,人体姿态估计组件会输出待处理图像所包含的每个人体的初始姿态预估信息和每个人体的所有关键点的偏移信息。基于此,在本步骤中,对每个人体实例,可基于上个步骤的初始姿态估计信息和各关键点的偏移信息进行人体姿态的预测,也即确定下一时刻的该人体实例的姿态信息。
在本发明实施例提供的技术方案中,热力图引导的关键点编码器最终生成的1D的关键点嵌入的维度为特征图的通道数,通道数一般为32,48或者上百这种很小的数,而直接拉平得到的长度通常要上千甚至上万,相比现有技术直接将特征图拉平得到的长度要小的多,从而有效降低人体姿态估计组件后续部分的参数量和运算量,进而提高整体人体姿态估计效率。基于图结构的细化模块通过图卷积可以显式地融合相邻关键点的特征,在关键点之间进行消息传递,最终预测各关键点的偏移量用于对初始姿态估计信息进行细化,有利于提高人体姿态的预测精度,从而高效且精准地实现了人体姿态估计。
需要说明的是,本申请中各步骤之间没有严格的先后执行顺序,只要符合逻辑上的顺序,则这些步骤可以同时执行,也可按照某种预设顺序执行,图1只是一种示意方式,并不代表只能是这样的执行顺序。
在上述实施例中,对于如何计算关键点嵌入并不做任何限定,本实施例中给出关键点嵌入的一种可选的计算方式,如图2及图3所示,可包括如下内容:
对人体关键点特征信息进行转换,得到相应的空间特征;
对每幅热力图,分别按照预设值更新规则更新各热力图中热力值小于预设阈值的像素位置的值,得到相应目标热力图;
利用空间特征和各目标热力图,对人体各关键点特征进行编码;
通过将各目标热力图和空间特征,沿通道维度进行矩阵乘法实现以得到关键点嵌入。
在本实施例中,为了使关键点嵌入包含更有效的语义信息,我们使用第一阶段生成的热力图作为指导,从关键点对应的区域聚集特征,并丢弃无关区域的特征,例如背景。在该模块中,为了模型更好的训练,并没有直接使用第一阶段的特征,而是对该特征作了一次转换,生成空间特征,也即可通过下述关系式进行转换:
Fspatial=φ(F);
其中,F是第一阶段中生成的人体关键点特征信息,φ是卷积核为1*1的二维卷积层也即Conv2D 1x1,对该人体关键点特征信息进行一次转换,生成相应的空间特征Fspatial。为了避免关键点嵌入聚合无用的语义信息,可进一步对各热力图进行处理,为了更加清楚的表述,本实施例采用目标热力图表示处理后的热力图,处理之前的热力图称为原始热力图,将原始热力图中热力值小于阈值的像素位置的值设置为0,也即可调用值设置关系式,更新各原始热力图中热力值小于预设阈值的像素位置的值;值设置关系式可表述为:
式中,threshold为预设阈值,Hij′为第i个关键点对应的目标热力图中j点像素位置的热力值,Hij为第i个关键点对应的原始热力图中j点像素位置的热力值。
之后,可基于处理过的热力图以目标热力图和空间特征对关键点特征进行编码,也即调用编码关系式对人体各关键点特征进行编码;编码关系式可表述为:
式中,embdding∈RK×C,embedding为一个关键点的关键点嵌入,embeddings为所有关键点的关键点嵌入,||表示在通道维数上连接,hj′为目标热力图中j点像素位置的热力值,fj为所述空间特征上每个像素位置沿通道方向的特征向量,K为关键点总数,i表示第i个关键点,C为所述关键点嵌入的维度,H*W表示所述空间特征的区域数,R为实数。可选的,C可设置为32或48。这相当于将空间特征的H*W个区域进行加权融合,权值是该像素对应位置的热力值,大部分区域的热力值为0。如图3所示。每一个关键点都对应一个热力图,热力图对生成关键点嵌入起到了指导作用,使得每种关键点都更关注一个区域,而不是整个图像范围,减少了冗余信息的融合。本实施例可以通过将处理过的热力图与空间特征沿通道维度进行矩阵乘法实现,公式如下:
其中,H∈RK×(H×W),即将热力图拉平。F∈R(H×W)×C,即先将空间特征的维度排列为H×W×C,之后将特征拉平。
由上可知,本实施例的基于热力图引导的关键点编码器本质上等价于热力图和特征图进行矩阵运算,最终生成的1D的关键点嵌入的维度为特征图的通道数,而大多数的热力图网络生成的特征的通道数相较于直接将特征图拉平得到的长度要小的多,通道数一般为32,48或者上百这种很小的数,而直接拉平得到的长度通常要上千甚至上万,这将直接导致网络后续部分的参数量和运算量增大。进一步的,关键点嵌入根据热力图得指导,只融合了关键点周围的特征,而丢弃了无关区域的特征。同时,实现简单,可以通过矩阵乘法实现,不需要额外的设计。
在上述实施例中,对于基于图结构的细化模块的结构并不做限定,本实施例中给出基于图结构的细化模块的一种可选的结构,如图2所示,可包括如下内容:
基于图结构的细化模块包括多个图卷积层和全连接层;各图卷积层用于执行各关键点之间的消息传递,并更新关键点嵌入;全连接层用于预测每个关键点的偏移量。
在本实施例中,人体关键点之间的连接关系可以自然地构成一个图,基于此,本实施例可采用图卷积网络对关键点之间的关系进行显式地建模。关键点图G={V,E}表示一个图,其中V表示一组人体关键点,V={vi}i=1:K,对于每个点vi,都有其特征xi,xi为第i个关键点生成的关键点嵌入。E表示一组边,E={ei,j}i=1:K,j=1:k,表示两个关键点之间的成对关系。如图2所示,在给定图结构的情况下,通过一系列图卷积可执行关键点之间的消息传递,更新关键点嵌入。作为一种可选的实施方式,图卷积网络可采用边卷积也即EdgeConv,也即基于图结构的细化模块可包括多个边卷积层。当然,所属领域技术人员也可根据实际需求选择其他的图卷积来替换EdgeConv。在EdgeConv层中,使用全连接层映射相连的关键点,得到边特征,并通过聚合关联的边特征更新关键点嵌入。最后,通过基于图结构的细化模块的全连接层预测关键点的偏移量。第k个关键点的最终预测结果pk为第一阶段获得的热图解码结果和第二阶段的偏移预测的相加,也即待处理图像所含人体的第k个关键点的姿态估计结果可为:
pk=D(Hk)+ok
其中,D是解码操作,ok是第k个关键点的偏移信息。
由上可知,本实施例通过图卷积可以显式地融合相邻关键点的特征,在关键点之间进行消息传递。基于图结构的细化模块预测关键点的偏移量,用于对框架第一阶段的热力图的解码结果进行细化,进而提高模型的预测精度。由于关键点嵌入的维度设置较小,因此热力图引导的编码器和基于图结构的细化模块的参数量和计算量成本都很小,相较于第一阶段的热力图网络可以忽略不记。
本发明实施例还针对人体姿态估计方法提供了相应的装置,进一步使得方法更具有实用性。其中,装置可从功能模块的角度和硬件的角度分别说明。下面对本发明实施例提供的人体姿态估计装置进行介绍,下文描述的人体姿态估计装置与上文描述的人体姿态估计方法可相互对应参照。
基于功能模块的角度,参见图4,图4为本发明实施例提供的人体姿态估计装置在一种具体实施方式下的结构图,该装置可包括:
组件构建模块401,用于预先构建人体姿态估计组件,人体姿态估计组件包括人体姿态初步估计模型、热力图引导的编码器和基于图结构的细化模块。
姿态估计模块402,用于将待处理图像输入至人体姿态估计组件,得到待处理图像所包含的各人体的初始姿态预估信息和各人体的每个关键点的偏移信息;对待处理图像所含的各人体,根据相应的初始姿态估计信息和各关键点的偏移信息,确定下一时刻的姿态信息;其中,人体姿态初步估计模型对待处理图像进行初始姿态估计,并输出人体关键点特征信息和多个热力图至热力图引导的编码器;热力图引导的编码器根据人体关键点特征信息和各热力图,生成维度为人体关键点特征信息通道数的关键点嵌入;基于图结构的细化模块根据关键点嵌入和人体结构,生成人体的每个关键点的偏移信息。
可选的,在本实施例的一些实施方式中,上述姿态估计模块402还可用于:对人体关键点特征信息进行转换,得到相应的空间特征;对每幅热力图,分别按照预设值更新规则更新各热力图中热力值小于预设阈值的像素位置的值,得到相应目标热力图;利用空间特征和各目标热力图,对人体各关键点特征进行编码;通过将各目标热力图和空间特征,沿通道维度进行矩阵乘法实现以得到关键点嵌入。
作为上述实施例的一种可选的实施方式,上述姿态估计模块402可进一步用于:调用值设置关系式,更新各原始热力图中热力值小于预设阈值的像素位置的值;值设置关系式为:
式中,threshold为预设阈值,Hij'为第i个关键点对应的目标热力图中j点像素位置的热力值,Hij为第i个关键点对应的原始热力图中j点像素位置的热力值。
作为上述实施例的另一种可选的实施方式,上述姿态估计模块402还可进一步用于:调用编码关系式对人体各关键点特征进行编码;编码关系式为:
式中,embdding∈RK×C,embedding为一个关键点的关键点嵌入,embeddings为所有关键点的关键点嵌入,||表示在通道维数上连接,hj'为目标热力图中j点像素位置的热力值,fj为所述空间特征上每个像素位置沿通道方向的特征向量,K为关键点总数,i表示第i个关键点,C为所述关键点嵌入的维度,H*W表示所述空间特征的区域数,R为实数。
可选的,在本实施例的一些实施方式中,上述基于图结构的细化模块可包括多个图卷积层和全连接层;
各图卷积层用于执行各关键点之间的消息传递,并更新关键点嵌入;全连接层用于预测每个关键点的偏移量。
作为上述实施例的一种可选的实施方式,基于图结构的细化模块可包括多个边卷积层。
本发明实施例所述人体姿态估计装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可有高效且精准地实现人体姿态估计。
上文中提到的人体姿态估计装置是从功能模块的角度描述,进一步的,本申请还提供一种电子设备,是从硬件角度描述。图5为本申请实施例提供的电子设备在一种实施方式下的结构示意图。如图5所示,该电子设备包括存储器50,用于存储计算机程序;处理器51,用于执行计算机程序时实现如上述任一实施例提到的人体姿态估计方法的步骤。
其中,处理器51可以包括一个或多个处理核心,比如4核心处理器、8核心处理器,处理器51还可为控制器、微控制器、微处理器或其他数据处理芯片等。处理器51可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable GateArray,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器51也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器51可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器51还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器50可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器50还可包括高速随机存取存储器以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。存储器50在一些实施例中可以是电子设备的内部存储单元,例如服务器的硬盘。存储器50在另一些实施例中也可以是电子设备的外部存储设备,例如服务器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器50还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器50不仅可以用于存储安装于电子设备的应用软件及各类数据,例如:执行漏洞处理方法的程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。本实施例中,存储器50至少用于存储以下计算机程序501,其中,该计算机程序被处理器51加载并执行之后,能够实现前述任一实施例公开的人体姿态估计方法的相关步骤。另外,存储器50所存储的资源还可以包括操作系统502和数据503等,存储方式可以是短暂存储或者永久存储。其中,操作系统502可以包括Windows、Unix、Linux等。数据503可以包括但不限于人体姿态估计结果对应的数据等。
在一些实施例中,上述电子设备还可包括有显示屏52、输入输出接口53、通信接口54或者称为网络接口、电源55以及通信总线56。其中,显示屏52、输入输出接口53比如键盘(Keyboard)属于用户接口,可选的用户接口还可以包括标准的有线接口、无线接口等。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。通信接口54可选的可以包括有线接口和/或无线接口,如WI-FI接口、蓝牙接口等,通常用于在电子设备与其他电子设备之间建立通信连接。通信总线56可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extendedindustry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
本领域技术人员可以理解,图5中示出的结构并不构成对该电子设备的限定,可以包括比图示更多或更少的组件,例如还可包括实现各类功能的传感器57。
本发明实施例所述电子设备的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例可有高效且精准地实现人体姿态估计。
可以理解的是,如果上述实施例中的人体姿态估计方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、多媒体卡、卡型存储器(例如SD或DX存储器等)、磁性存储器、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明实施例还提供了一种可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时如上任意一实施例所述人体姿态估计方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的硬件包括装置及电子设备而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本申请所提供的一种人体姿态估计方法、装置、电子设备及可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
Claims (10)
1.一种人体姿态估计方法,其特征在于,包括:
预先构建人体姿态估计组件,所述人体姿态估计组件包括人体姿态初步估计模型、热力图引导的编码器和基于图结构的细化模块;
将待处理图像输入至所述人体姿态估计组件,得到所述待处理图像所包含人体的初始姿态预估信息和每个关键点的偏移信息;
对所述待处理图像所含人体,根据所述初始姿态估计信息和各关键点的偏移信息,确定下一时刻的姿态信息;
其中,所述人体姿态初步估计模型对所述待处理图像进行初始姿态估计,并输出人体关键点特征信息和多个热力图至所述热力图引导的编码器;所述热力图引导的编码器根据所述人体关键点特征信息和各热力图,生成维度为所述人体关键点特征信息通道数的关键点嵌入;所述基于图结构的细化模块根据所述关键点嵌入和人体结构,生成人体的每个关键点的偏移信息。
2.根据权利要求1所述的人体姿态估计方法,其特征在于,所述根据所述人体关键点特征信息和各热力图,生成维度为所述人体关键点特征信息通道数的关键点嵌入,包括:
对所述人体关键点特征信息进行转换,得到相应的空间特征;
对每幅热力图,分别按照预设值更新规则更新各热力图中热力值小于预设阈值的像素位置的值,得到相应目标热力图;
利用所述空间特征和各目标热力图,对人体各关键点特征进行编码;
通过将各目标热力图和所述空间特征,沿通道维度进行矩阵乘法实现以得到所述关键点嵌入。
5.根据权利要求1至4任意一项所述的人体姿态估计方法,其特征在于,所述基于图结构的细化模块包括多个图卷积层和全连接层;
各图卷积层用于执行各关键点之间的消息传递,并更新所述关键点嵌入;
所述全连接层用于预测每个关键点的偏移量。
6.根据权利要求5所述的人体姿态估计方法,其特征在于,所述基于图结构的细化模块包括多个边卷积层。
7.一种人体姿态估计装置,其特征在于,包括:
组件构建模块,用于预先构建人体姿态估计组件,所述人体姿态估计组件包括人体姿态初步估计模型、热力图引导的编码器和基于图结构的细化模块;
姿态估计模块,用于将待处理图像输入至所述人体姿态估计组件,得到所述待处理图像所包含人体的初始姿态预估信息和每个关键点的偏移信息;对所述待处理图像所含人体,根据所述初始姿态估计信息和各关键点的偏移信息,确定下一时刻的姿态信息;其中,所述人体姿态初步估计模型对所述待处理图像进行初始姿态估计,并输出人体关键点特征信息和多个热力图至所述热力图引导的编码器;所述热力图引导的编码器根据所述人体关键点特征信息和各热力图,生成维度为所述人体关键点特征信息通道数的关键点嵌入;所述基于图结构的细化模块根据所述关键点嵌入和人体结构,生成人体的每个关键点的偏移信息。
8.根据权利要求7所述的人体姿态估计装置,其特征在于,所述姿态估计模块进一步用于:
对所述人体关键点特征信息进行转换,得到相应的空间特征;对每幅热力图,分别按照预设值更新规则更新各热力图中热力值小于预设阈值的像素位置的值,得到相应目标热力图;利用所述空间特征和各目标热力图,对人体各关键点特征进行编码;通过将各目标热力图和所述空间特征,沿通道维度进行矩阵乘法实现以得到所述关键点嵌入。
9.一种电子设备,其特征在于,包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1至6任一项所述人体姿态估计方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述人体姿态估计方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111594337.6A CN114241524A (zh) | 2021-12-23 | 2021-12-23 | 人体姿态估计方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111594337.6A CN114241524A (zh) | 2021-12-23 | 2021-12-23 | 人体姿态估计方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114241524A true CN114241524A (zh) | 2022-03-25 |
Family
ID=80762382
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111594337.6A Pending CN114241524A (zh) | 2021-12-23 | 2021-12-23 | 人体姿态估计方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114241524A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661929A (zh) * | 2022-10-28 | 2023-01-31 | 北京此刻启动科技有限公司 | 一种时序特征编码方法、装置、电子设备及存储介质 |
CN117745956A (zh) * | 2024-02-20 | 2024-03-22 | 之江实验室 | 一种基于位姿引导的图像生成方法、装置、介质及设备 |
-
2021
- 2021-12-23 CN CN202111594337.6A patent/CN114241524A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115661929A (zh) * | 2022-10-28 | 2023-01-31 | 北京此刻启动科技有限公司 | 一种时序特征编码方法、装置、电子设备及存储介质 |
CN115661929B (zh) * | 2022-10-28 | 2023-11-17 | 北京此刻启动科技有限公司 | 一种时序特征编码方法、装置、电子设备及存储介质 |
CN117745956A (zh) * | 2024-02-20 | 2024-03-22 | 之江实验室 | 一种基于位姿引导的图像生成方法、装置、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110020620B (zh) | 一种大姿态下的人脸识别方法、装置及设备 | |
JP7376233B2 (ja) | ピクセルワイズ分類器による2dフロアプランのセマンティックセグメンテーション | |
US10303837B2 (en) | Virtual cell model geometry compression | |
US9349076B1 (en) | Template-based target object detection in an image | |
CN110033018B (zh) | 图形相似度判断方法、装置及计算机可读存储介质 | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN112434721A (zh) | 一种基于小样本学习的图像分类方法、系统、存储介质及终端 | |
WO2021120834A1 (zh) | 基于生物识别的手势识别方法、装置、计算机设备及介质 | |
CN110674804A (zh) | 文本图像的检测方法、装置、计算机设备和存储介质 | |
CN110889325A (zh) | 多任务面部动作识别模型训练和多任务面部动作识别方法 | |
CN110443239A (zh) | 文字图像的识别方法及其装置 | |
CN113822209B (zh) | 高光谱图像识别方法、装置、电子设备及可读存储介质 | |
CN114241524A (zh) | 人体姿态估计方法、装置、电子设备及可读存储介质 | |
CN112508975A (zh) | 一种图像识别方法、装置、设备及存储介质 | |
WO2020098257A1 (zh) | 一种图像分类方法、装置及计算机可读存储介质 | |
Hung et al. | Transforming global routing report into DRC violation map with convolutional neural network | |
CN112949477B (zh) | 基于图卷积神经网络的信息识别方法、装置及存储介质 | |
US20230334893A1 (en) | Method for optimizing human body posture recognition model, device and computer-readable storage medium | |
CN112241565A (zh) | 建模方法及相关装置 | |
CN114694158A (zh) | 票据的结构化信息的提取方法及电子设备 | |
CN109784140A (zh) | 驾驶员属性识别方法及相关产品 | |
US20220270341A1 (en) | Method and device of inputting annotation of object boundary information | |
CN108520532B (zh) | 识别视频中物体运动方向的方法及装置 | |
WO2022247092A1 (en) | Methods and systems for congestion prediction in logic synthesis using graph neural networks | |
WO2023197857A1 (zh) | 一种模型切分方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |