CN114140831A - 人体姿态估计方法、装置、电子设备及存储介质 - Google Patents

人体姿态估计方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114140831A
CN114140831A CN202210113382.3A CN202210113382A CN114140831A CN 114140831 A CN114140831 A CN 114140831A CN 202210113382 A CN202210113382 A CN 202210113382A CN 114140831 A CN114140831 A CN 114140831A
Authority
CN
China
Prior art keywords
human body
body posture
target image
decoder
posture estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210113382.3A
Other languages
English (en)
Other versions
CN114140831B (zh
Inventor
陈盈盈
周鲁
王金桥
王海鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210113382.3A priority Critical patent/CN114140831B/zh
Publication of CN114140831A publication Critical patent/CN114140831A/zh
Application granted granted Critical
Publication of CN114140831B publication Critical patent/CN114140831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种人体姿态估计方法、装置、电子设备及存储介质,方法包括:获取目标图像;将所述目标图像输入至人体姿态估计模型,得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息;其中,所述人体姿态估计模型,是基于样本行人场景图像进行训练后得到的,用于估计图像中人体姿态信息;所述人体姿态信息包括人体实例及对应的人体关键点位置,通过人体姿态估计模型实现了端到端的人体姿态估计,提升了人体姿态估计的效率。

Description

人体姿态估计方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种人体姿态估计方法、装置、电子设备及存储介质。
背景技术
近年来,随着深度学习在图像分类、目标检测和语义分割等众多计算机视觉应用中良好的性能体现,人体姿态估计也通过深度学习实现了快速的进步。人体姿态估计表示对人体关键点位置进行定位,人体的关键点包括人体关节或者部位,如肩部、肘部、脚踝等。人体姿态估计是其他相关应用和各种视觉应用的基础,例如,视频姿势估计、跟踪和人体动作识别等。当图像中出现多个人体实例时,人体姿态估计不仅需要定位每个关键点位置,还需要确定每个关键点对应的人体实例。
目前,多人场景下的人体姿态估计方法主要包括:自顶向下和自底向上;其中,自顶向下的方法通过目标检测方法定位人体实例,然后预测每个人体实例的关键点位置;自底向上的方法通过预测所有人体关键点位置,然后通过对关键点的分组,将每个检测到的关键点划分到对应的人体实例中。
然而,自顶向下的方法需要人体检测模型确定人体位置,再用单人姿态估计模型完成人体关键点定位,为每个检测到的人体实例执行单人的姿态估计算法,随着图像中的人数增长,姿态估计的计算复杂度呈线性增加,运算时间不稳定;自底向上的方法需要复杂的后处理方法对关键点分组,运行效率低。除此之外,以上两种人体姿态估计方法通常都采用热力图的方式预测关键点,需要多个步骤才能获得最终的关键点坐标,使得模型不可能以端到端的方式进行训练。
发明内容
本发明提供一种人体姿态估计方法、装置、电子设备及存储介质,用以解决人体姿态估计效率低的缺陷,实现端到端的人体姿态估计,提升人体姿态估计的效率。
本发明提供一种人体姿态估计方法,方法包括:
获取目标图像;
将所述目标图像输入至人体姿态估计模型,得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息;其中,所述人体姿态估计模型,是基于样本行人场景图像进行训练后得到的,用于估计图像中人体姿态信息;所述人体姿态信息包括人体实例及对应的人体关键点位置。
根据本发明提供的一种人体姿态估计方法,所述人体姿态估计模型,包括:主干网、上下文特征编码器、检测解码器和姿态解码器;其中,
所述主干网,用于提取所述目标图像的图像特征;
所述上下文特征编码器,用于采用自注意力机制对所述图像特征进行上下文特征编码,得到编码特征;
所述检测解码器,用于检测所述目标图像中各人体实例的人体外接矩形框坐标及第一人体关键点坐标;
所述姿态解码器,用于基于各所述人体实例的第一人体关键点坐标在对应的编码特征图上动态采样的特征,确定各所述人体实例的第二人体关键点坐标。
根据本发明提供的一种人体姿态估计方法,所述将所述目标图像输入至人体姿态估计模型,得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息,包括:
将所述目标图像输入至所述主干网,得到所述主干网输出的所述目标图像的图像特征;
将所述图像特征输入至所述上下文特征编码器,得到所述上下文特征编码器输出的所述图像特征对应的编码特征;
将所述编码特征输入至所述检测解码器,得到所述检测解码器输出的所述目标图像中各所述人体实例的类别因子、人体外接矩形框坐标及第一人体关键点坐标;
将所述编码特征输入至所述姿态解码器,得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标。
根据本发明提供的一种人体姿态估计方法,所述将所述编码特征输入到所述上下文特征编码器之前,所述方法还包括:
基于所述目标图像对应的位置嵌入向量集合及所述图像特征对应的第一特征序列,确定所述图像特征对应的第二特征序列。
根据本发明提供的一种人体姿态估计方法,所述将所述编码特征输入至所述姿态解码器之前,所述方法还包括:
基于所述检测解码器输出的所述目标图像中各所述人体实例的人体外接矩形框坐标,确定所述编码特征对应的各所述人体实例的编码特征图。
根据本发明提供的一种人体姿态估计方法,所述将所述编码特征输入至所述姿态解码器,得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标,包括:
将所述编码特征图输入至所述姿态解码器,所述姿态解码器基于所述检测解码器输出的各所述人体实例的第一人体关键点坐标在对应的所述编码特征图上进行动态采样;
基于所述姿态解码器在对应的所述编码特征图上动态采样的特征,得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标。
根据本发明提供的一种人体姿态估计方法,所述人体姿态估计模型使用的最优二分匹配,是基于所述样本行人场景图像对应的目标集合中的监督真值与所述人体姿态估计模型输出的人体姿态信息之间的相似度;其中,
所述最优二分匹配采用公式(1)表示:
Figure 124979DEST_PATH_IMAGE001
(1)
其中,
Figure 43257DEST_PATH_IMAGE002
表示所有监督真值和人体姿态信息匹配方式的集合,
Figure 85162DEST_PATH_IMAGE003
表示目标集合 中第i个监督真值,
Figure 506916DEST_PATH_IMAGE004
表示预测集合中第i个人体姿态信息,
Figure 38391DEST_PATH_IMAGE005
表示损失函数。
本发明还提供一种人体姿态估计装置,装置包括:
获取模块,用于获取目标图像;
姿态估计模块,用于将所述目标图像输入至人体姿态估计模型,得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息;其中,所述人体姿态估计模型,是基于样本行人场景图像进行训练后得到的,用于估计图像中人体姿态信息;所述人体姿态信息包括人体实例及对应的人体关键点位置。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述人体姿态估计方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述人体姿态估计方法的步骤。
本发明提供的人体姿态估计方法,通过获取目标图像,将目标图像输入至人体姿态估计模型,得到人体姿态估计模型输出的目标图像中人体姿态信息,从而获取目标图像中各人体实例的人体关键点位置,实现端到端的人体姿态估计,提升了人体姿态估计的效率。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的人体姿态估计方法的流程示意图之一;
图2是本发明提供的人体姿态估计方法的流程示意图之二;
图3是本发明提供的人体姿态估计方法的流程示意图之三;
图4是本发明提供的上下文特征编码器的结构示意图;
图5是本发明提供的检测解码器的结构示意图;
图6是本发明提供的姿态解码器的结构示意图;
图7是本发明提供的人体姿态估计方法的流程示意图之四;
图8是本发明提供的人体姿态估计装置的结构示意图;
图9是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图7描述本发明的人体姿态估计方法。
图1是本发明提供的人体姿态估计方法的流程示意图之一,如图1所示,该方法包括:
步骤110,获取目标图像。
可选地,本发明提供的人体姿态估计方法可应用于人体姿态的估计场景中。本发明提供的人体姿态估计方法的执行主体可以为本发明提供的人体姿态估计装置,例如电子设备、或者该人体姿态估计装置中的用于执行人体姿态估计方法的控制模块。
可选地,目标图像可以通过使用手机、相机或者摄像机等拍摄方式进行获取,也可以通过视频监控的方式获取。
步骤120,将所述目标图像输入至人体姿态估计模型,得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息;其中,所述人体姿态估计模型,是基于样本行人场景图像进行训练后得到的,用于估计图像中人体姿态信息;所述人体姿态信息包括人体实例及对应的人体关键点位置。
可选地,人体姿态估计模型用于估计图像中人体姿态信息,得到图像中各人体实例的人体关键点位置,从而确定人体姿态。
可选地,样本行人场景图像表示在对人体姿态估计模型进行训练时所使用的图像,通过样本行人场景图像标注人体关键点位置以及人体外接矩形框,组成人体姿态估计数据集;通过标注的人体关键点位置以及人体外接矩形框等信息生成对应的监督信息,其中,生成监督信息包括:归一化标注的人体外接矩形框坐标和人体关键点位置,将其映射到0至1的范围内;将人体关键点位置坐标在图像中的绝对位置坐标转换为在人体外接矩形框中的相对位置坐标;其中,绝对位置指人体关键点在图像中的位置,相对位置坐标指将人体关键点在图像中的位置转化为在矩形框中的位置。
需要说明的是,监督信息是在对人体姿态估计模型训练时使用,用来计算人体姿态估计模型对行人场景图像的预测结果与真实结果之间的相似度,即损失函数,根据损失函数更新人体姿态估计模型的参数。
本发明提供的人体姿态估计方法,通过获取目标图像,将目标图像输入至人体姿态估计模型,得到人体姿态估计模型输出的目标图像中人体姿态信息,从而获取目标图像中各人体实例的人体关键点位置,实现端到端的人体姿态估计,提升了人体姿态估计的效率。
可选地,基于上述实施例,本发明提供的人体姿态估计方法所使用的人体姿态估计模型,包括:主干网、上下文特征编码器、检测解码器和姿态解码器;其中,主干网,用于提取目标图像的图像特征;上下文特征编码器,用于采用自注意力机制对图像特征进行上下文特征编码,得到编码特征;检测解码器,用于检测目标图像中各人体实例的人体外接矩形框坐标及第一人体关键点坐标;姿态解码器,用于基于各人体实例的第一人体关键点坐标在对应的编码特征图上动态采样的特征,确定各人体实例的第二人体关键点坐标。
可选地,所述人体姿态估计模型使用的最优二分匹配,是基于所述样本行人场景图像对应的目标集合中的监督真值与所述人体姿态估计模型输出的人体姿态信息之间的相似度;其中,
所述最优二分匹配采用公式(1)表示:
Figure 303020DEST_PATH_IMAGE006
(1)
其中,
Figure 273250DEST_PATH_IMAGE002
表示所有监督真值和人体姿态信息匹配方式的集合,
Figure 18352DEST_PATH_IMAGE003
表示目标集合 中第i个监督真值,
Figure 392832DEST_PATH_IMAGE004
表示预测集合中第i个人体姿态信息,
Figure 285702DEST_PATH_IMAGE005
表示损失函数。
具体地,在对人体姿态估计模型训练时,检测解码器、姿态解码器均通过集合预测 的方式定位人体实例和人体关键点。检测解码器预测人体实例的集合,集合中每个元素包 括类别因子、人体外接矩形框坐标,以及第一人体关键点坐标;其中,类别因子用于二分类, 判断各人体实例是否为背景,判断可以通过设置目标阈值的方式,小于目标阈值为人体实 例,大于目标阈值为背景;人体外接矩形框坐标包括中心坐标、矩形框的长和宽;第一人体 关键点坐标包括K个关键点坐标。人体实例的集合的元素总数为N,
Figure 151634DEST_PATH_IMAGE007
是最优二分匹配,则 用于监督人体实例的损失函数,采用公式(2)表示:
Figure 751242DEST_PATH_IMAGE008
(2)
其中,
Figure 421258DEST_PATH_IMAGE009
表示目标集合中的第i个类别因子,
Figure 676790DEST_PATH_IMAGE010
表示预测集合中与
Figure 660926DEST_PATH_IMAGE011
匹配 的类别因子,
Figure 177358DEST_PATH_IMAGE012
表示所有非背景的类别因子,
Figure 408488DEST_PATH_IMAGE013
表示目标集合中第i个人体外接矩 形框坐标,
Figure 10371DEST_PATH_IMAGE014
表示预测集合中与
Figure 798198DEST_PATH_IMAGE013
匹配的人体外接矩形框坐标,
Figure 44503DEST_PATH_IMAGE015
表示目标集合 中第i个人体外接矩形框中第j个第一人体关键点坐标,
Figure 321901DEST_PATH_IMAGE016
表示预测集合中与
Figure 348763DEST_PATH_IMAGE017
匹配的第一人体关键点坐标。
姿态解码器预测各人体实例中的第二人体关键点集合,集合中每个元素包括第二 人体关键点类别、第二人体关键点坐标;其中,该关键点类别包括K+1类,人体实例为K类,背 景为1类。姿态解码器预测的各人体实例中第二人体关键点的集合的元素总数为Q,Q>K,
Figure 363117DEST_PATH_IMAGE018
是最优二分匹配,则用于监督第二人体关键点的损失函数,采用公式(3)表示:
Figure 854141DEST_PATH_IMAGE019
(3)
其中,
Figure 912227DEST_PATH_IMAGE020
表示目标集合中第i个第二人体关键点的类别,
Figure 691964DEST_PATH_IMAGE021
表示预测集合中 与
Figure 618332DEST_PATH_IMAGE022
匹配的类别,
Figure 88497DEST_PATH_IMAGE023
是所有非背景的类别,
Figure 707697DEST_PATH_IMAGE024
表示目标集合中第i个第二 人体关健点的坐标,
Figure 709151DEST_PATH_IMAGE025
表示预测集合中与
Figure 580155DEST_PATH_IMAGE024
匹配的第二人体关键点的坐标。
图2是本发明提供的人体姿态估计方法的流程示意图之二,如图2所示,该方法包括:
步骤210,获取目标图像。
步骤220,将所述目标图像输入至所述主干网,得到所述主干网输出的所述目标图像的图像特征。
可选地,主干网采用残差网络(Residual Neural Network,ResNet)提取目标图像的图像特征,利用不同的分辨率对应的图像特征组成特征金字塔。
步骤230,将所述图像特征输入至所述上下文特征编码器,得到所述上下文特征编码器输出的所述图像特征对应的编码特征。
可选地,上下文特征编码器采用转换编码器(Transformer Encoder)实现对图像特征的编码,得到上下文特征编码器输出的图像特征对应的编码特征。
可选地,将所述图像特征输入至所述上下文特征编码器之前,还包括:基于所述目标图像对应的位置嵌入向量集合及所述图像特征对应的第一特征序列,确定所述图像特征对应的第二特征序列。
其中,位置嵌入向量集合是使用转换编码器(Transformer Encoder),对目标图像中各个像素点的位置进行编码得到的向量集合,每一个像素点对应一个位置向量。
具体地,在图像特征对应的第一特征序列中,每一个特征向量都有一个对应的位置嵌入向量集合中的位置嵌入向量与其相加,从而确定图像特征对应的第二特征序列。
步骤240,将所述编码特征输入至所述检测解码器,得到所述检测解码器输出的所述目标图像中各所述人体实例的类别因子、人体外接矩形框坐标及第一人体关键点坐标。
可选地,检测解码器采用转换解码器(Transformer Decoder)实现对编码特征的解码,得到检测解码器输出的目标图像中各人体实例的类别因子、人体外接矩形框坐标及第一人体关键点坐标。
步骤250,将所述编码特征输入至所述姿态解码器,得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标。
可选地,姿态解码器也采用转换解码器(Transformer Decoder),基于检测解码器输出的第一人体关键点坐标,实现对编码特征的解码,得到姿态解码器输出的目标图像中各人体实例的第二人体关键点坐标。
可选地,将所述编码特征输入至所述姿态解码器之前,还包括:基于所述检测解码器输出的目标图像中各人体实例的人体外接矩形框坐标,确定编码特征对应的各人体实例的编码特征图。
具体地,根据检测解码器输出的目标图像中各人体实例的人体外接矩形框坐标,将编码特征对应的图像裁剪成目标分辨率的编码特征图,从而确定编码特征对应的各人体实例的编码特征图。
需要说明的是,将编码特征对应的图像裁剪成目标分辨率的编码特征图,使得各人体实例的编码特征归一化为相同的分辨率,使得人体姿态估计模型对尺度的变化有更好的鲁棒性。
本发明提供的人体姿态估计方法,通过获取目标图像,将目标图像输入至主干网,得到主干网输出的目标图像的图像特征;将图像特征输入至上下文特征编码器,得到上下文特征编码器输出的图像特征对应的编码特征;将编码特征分别输入至检测解码器和姿态解码器,分别得到检测解码器输出的目标图像中各人体实例的类别因子、人体外接矩形框坐标及第一人体关键点坐标,以及姿态解码器输出的目标图像中各人体实例的第二人体关键点坐标,从而获取目标图像中各人体实例的人体关键点位置,实现端到端的人体姿态估计,提升了人体姿态估计的效率。
图3是本发明提供的人体姿态估计方法的流程示意图之三,如图3所示,该方法包括:
步骤310,获取目标图像。
步骤320,将所述目标图像输入至所述主干网,得到所述主干网输出的所述目标图像的图像特征。
步骤330,将所述图像特征输入至所述上下文特征编码器,得到所述上下文特征编码器输出的所述图像特征对应的编码特征;
步骤340,将所述编码特征输入至所述检测解码器,得到所述检测解码器输出的所述目标图像中各所述人体实例的类别因子、人体外接矩形框坐标及第一人体关键点坐标。
关于步骤310-340的说明和解释,可以参照上述针对步骤210-240的说明和解释,且能达到相同的技术效果,为避免重复,这里不再赘述。
步骤350,将所述编码特征图输入至所述姿态解码器,所述姿态解码器基于所述检测解码器输出的各所述人体实例的第一人体关键点坐标在对应的所述编码特征图上进行动态采样。
可选地,基于各人体实例的第一人体关键点坐标,姿态解码器在编码特征图对应的第二特征序列中对应位置动态采样键-值(key-value)向量。
可选地,姿态解码器根据各人体实例的第一人体关键点坐标可以是检测解码器输出的各人体实例的第一人体关键点坐标,也可以是姿态解码器输出的各人体实例的第二人体关键点坐标。
需要说明的是,姿态解码器第一层的参考关键点坐标由检测解码器预测并提供,其余各层的参考关键点坐标由姿态解码器输出的各人体实例的第二人体关键点坐标预测并提供。
步骤360,基于所述姿态解码器在对应的所述编码特征图上动态采样的特征,得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标。
可选地,根据姿态解码器在预测人体关键点坐标对应的编码特征图的特征序列的位置上动态采样的特征,得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标。
本发明提供的人体姿态估计方法,通过各人体实例的第一人体关键点坐标在对应的编码特征图上进行动态采样,再根据姿态解码器在对应的编码特征图上动态采样的特征,得到姿态解码器输出的目标图像中各人体实例的第二人体关键点坐标,从而获取目标图像中人体实例的人体关键点位置,实现端到端的人体姿态估计,提升了人体姿态估计的效率。
图4是本发明提供的上下文特征编码器的结构示意图,如图4所示,上下文特征编码器包括多层,本发明提供的上下文特征编码器包括6层,其中,每层包括自注意力层和前馈层,其中,自注意力层,用于提取目标图像的全局特征;前馈层,用于对全局特征进行线性变换。利用自注意力机制对全局的上下文进行关系建模,从而得到上下文特征编码器输出的编码特征,并分别将编码特征输入至检测解码器和姿态解码器中。
图5是本发明提供的检测解码器的结构示意图,如图5所示,检测解码器包括多层,本发明提供的检测解码器包括6层,其中, 每层包括自注意力层、交叉注意力层和前馈层。
需要说明的是,查询向量为预先设置的一组可学习的网络参数,在训练人体姿态估计模型时,通过学习的方式不断改变网络参数的数值,查询向量的维数与检测解码器的输入编码特征的维数相同。
具体地,将查询向量输入至检测解码器第一层的自注意力层,自注意力层输出的结果输入至交叉注意力层,与特征编码器输出的编码特征中每一个特征作为键-值向量在交叉主力层进行交叉注意力计算,将交叉主力层的输出结果经过前馈层,得到前馈层输出的解码向量;解码向量一方面输入至下一层的自注意力层,进一步进行计算,直至最后一层;另一方面输入至线性层中,线性层对解码向量进行特征变换,得到类别因子、人体外接矩形框坐标,以及人体的关键点坐标。
实际中,检测解码器的输出结果是一个大致的预测结果,而且检测解码器的每一层都有一组预测值,在对人体姿态估计模型训练时,均参与损失函数的计算,但在使用训练之后的人体姿态估计模型时,仅输出最后一层的预测值。
图6是本发明提供的姿态解码器的结构示意图,如图6所示,检测解码器包括多层,本发明提供的姿态解码器包括6层,其中,每层包括自注意力层、交叉注意力层和前馈层。姿态解码器采用动态采样的方式提取键-值向量,在编码特征中对应位置动态采样键-值向量。
需要说明的是,查询向量同样是预先设置的一组可学习的网络参数,只是与检测解码器的网络参数不同;在训练人体姿态估计模型时,通过学习的方式不断改变网络参数的数值,查询向量的维数与检测解码器的输入编码特征的维数相同。
具体地,姿态解码器第一层的参考关键点坐标是基于检测解码器输出的人体关键点坐标,对裁剪出的图像特征进行采样,即采样各人体实例对应的键-值向量特征;例如,参考关键点的坐标是(15,15),对编码特征图中坐标是(15,15)对应的编码特征中的向量进行采样。采样得到的键-值向量与自注意力层输出的结果在交叉注意力层进行交叉注意力计算,将交叉主力层的输出结果再经过前馈层,得到前馈层输出的解码向量;将解码向量一方面输入至下一层的自注意力层,继续进行进一步的计算,直至最后一层;另一方面输入到线性层中,线性层对解码向量进行特征变换,得到关键点类别和关键点坐标。之后,姿态解码器将上一层预测的关键点坐标均作为下一层的参考采样点。
这种动态采样的方式包括两个优点:能够极大地减少计算量,且其计算复杂度不随特征分辨率的增加而增加;通过采样感兴趣的关键点或者关键点周围的特征,使得关键点的注意力不会被大量的背景特征稀释,即采样的人体关键点不是图像背景中的关键点。
图7是本发明提供的人体姿态估计方法的流程示意图之四,如图7所示,该方法包括:
步骤1,获取目标图像。
步骤2,将目标图像输入至主干网,得到主干网输出的目标图像的图像特征。
步骤3,在图像特征对应的第一特征序列中的每一特征向量,每一个特征向量都有一个对应的位置嵌入向量集合中的位置嵌入向量与其相加,从而确定图像特征对应的第二特征序列。
步骤4 ,将第二特征序列输入至上下文特征编码器,得到上下文特征编码器输出的图像特征对应的编码特征。
步骤5,将编码特征输入至检测解码器,得到检测解码器输出的目标图像中各所述人体实例的类别因子、人体外接矩形框坐标及第一人体关键点坐标。
步骤6,基于检测解码器输出的目标图像中各人体实例的人体外接矩形框坐标,将编码特征对应的图像裁剪成目标分辨率的编码特征图,从而确定编码特征对应的各人体实例的编码特征图。
步骤7,将编码特征图输入至姿态解码器,得到姿态解码器输出的目标图像中各人体实例的第二人体关键点坐标。
本发明提供的人体姿态估计方法,通过获取目标图像,将目标图像输入至主干网,得到主干网输出的目标图像的图像特征;再将图像特征对应的第一特征序列与目标图像对应的位置嵌入向量集合对应位置相加,得到第二特征序列;将第二特征序列输入至上下文特征编码器,得到上下文特征编码器输出的第二特征序列对应的编码特征;将编码特征输入至检测解码器,得到检测解码器输出的目标图像中各人体实例的类别因子、人体外接矩形框坐标及第一人体关键点坐标;再根据检测解码器输出的人体外接矩形框坐标,确定编码特征对应的各人体实例的编码特征图;将编码特征图输入至姿态解码器,得到姿态解码器输出的目标图像中各人体实例的第二人体关键点坐标,从而获取目标图像中人体实例的人体关键点位置,实现端到端的人体姿态估计,提升了人体姿态估计的效率。
下面对本发明提供的人体姿态估计装置进行描述,下文描述的人体姿态估计装置与上文描述的人体姿态估计方法可相互对应参照。
图8是本发明提供的人体姿态估计装置的结构示意图,如图8所示,该人体姿态估计装置800包括:获取模块801、姿态估计模块802;其中:
获取模块801,用于获取目标图像;
姿态估计模块802,用于将所述目标图像输入至人体姿态估计模型,得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息;其中,所述人体姿态估计模型,是基于样本行人场景图像进行训练后得到的,用于估计图像中人体姿态信息;所述人体姿态信息包括人体实例及对应的人体关键点位置。
本发明提供的人体姿态估计装置,通过获取目标图像,将目标图像输入至人体姿态估计模型,得到人体姿态估计模型输出的目标图像中人体姿态信息,从而获取目标图像中人体实例的人体关键点位置,实现端到端的人体姿态估计,提升了人体姿态估计的效率。
可选地,所述人体姿态估计模型,包括:主干网、上下文特征编码器、检测解码器和姿态解码器;其中,
所述主干网,用于提取所述目标图像的图像特征;
所述上下文特征编码器,用于采用自注意力机制对所述图像特征进行上下文特征编码,得到编码特征;
所述检测解码器,用于检测所述目标图像中各人体实例的人体外接矩形框坐标及第一人体关键点坐标;
所述姿态解码器,用于基于各所述人体实例的第一人体关键点坐标在对应的编码特征图上动态采样的特征,确定各所述人体实例的第二人体关键点坐标。
可选地,姿态估计模块802,具体用于:
将所述目标图像输入至所述主干网,得到所述主干网输出的所述目标图像的图像特征;
将所述图像特征输入至所述上下文特征编码器,得到所述上下文特征编码器输出的所述图像特征对应的编码特征;
将所述编码特征输入至所述检测解码器,得到所述检测解码器输出的所述目标图像中各所述人体实例的类别因子、人体外接矩形框坐标及第一人体关键点坐标;
将所述编码特征输入至所述姿态解码器,得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标。
可选地,所述人体姿态估计装置800,还包括:
第一确定模块,用于基于所述目标图像对应的位置嵌入向量集合及所述图像特征对应的第一特征序列,确定所述图像特征对应的第二特征序列。
可选地,所述人体姿态估计装置800,还包括:
第二确定模块,用于基于所述检测解码器输出的所述目标图像中各所述人体实例的人体外接矩形框坐标,确定所述编码特征对应的各所述人体实例的编码特征图。
可选地,所述姿态估计模块802,具体用于:
将所述编码特征图输入至所述姿态解码器,所述姿态解码器基于所述检测解码器输出的各所述人体实例的第一人体关键点坐标在对应的所述编码特征图上进行动态采样;
基于所述姿态解码器在对应的所述编码特征图上动态采样的特征,得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标。
可选地,所述人体姿态估计模型使用的最优二分匹配,是基于所述样本行人场景图像对应的目标集合中的监督真值与所述人体姿态估计模型输出的人体姿态信息之间的相似度;其中,
所述最优二分匹配采用公式(1)表示:
Figure 514613DEST_PATH_IMAGE026
(1)
其中,
Figure 507977DEST_PATH_IMAGE002
表示所有监督真值和人体姿态信息匹配方式的集合,
Figure 416633DEST_PATH_IMAGE003
表示目标集合 中第i个监督真值,
Figure 950383DEST_PATH_IMAGE004
表示预测集合中第i个人体姿态信息,
Figure 880293DEST_PATH_IMAGE027
表示损失函数。
图9是本发明提供的电子设备的结构示意图,如图9所示,该电子设备900可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行人体姿态估计方法,该方法包括:获取目标图像;将所述目标图像输入至人体姿态估计模型,得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息;其中,所述人体姿态估计模型,是基于样本行人场景图像进行训练后得到的,用于估计图像中人体姿态信息;所述人体姿态信息包括人体实例及对应的人体关键点位置。
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的人体姿态估计方法,该方法包括:获取目标图像;将所述目标图像输入至人体姿态估计模型,得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息;其中,所述人体姿态估计模型,是基于样本行人场景图像进行训练后得到的,用于估计图像中人体姿态信息;所述人体姿态信息包括人体实例及对应的人体关键点位置。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种人体姿态估计方法,其特征在于,所述方法包括:
获取目标图像;
将所述目标图像输入至人体姿态估计模型,得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息;其中,所述人体姿态估计模型,是基于样本行人场景图像进行训练后得到的,用于估计图像中人体姿态信息;所述人体姿态信息包括人体实例及对应的人体关键点位置。
2.根据权利要求1所述的人体姿态估计方法,其特征在于,所述人体姿态估计模型,包括:主干网、上下文特征编码器、检测解码器和姿态解码器;其中,
所述主干网,用于提取所述目标图像的图像特征;
所述上下文特征编码器,用于采用自注意力机制对所述图像特征进行上下文特征编码,得到编码特征;
所述检测解码器,用于检测所述目标图像中各人体实例的人体外接矩形框坐标及第一人体关键点坐标;
所述姿态解码器,用于基于各所述人体实例的第一人体关键点坐标在对应的编码特征图上动态采样的特征,确定各所述人体实例的第二人体关键点坐标。
3.根据权利要求2所述的人体姿态估计方法,其特征在于,所述将所述目标图像输入至人体姿态估计模型,得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息,包括:
将所述目标图像输入至所述主干网,得到所述主干网输出的所述目标图像的图像特征;
将所述图像特征输入至所述上下文特征编码器,得到所述上下文特征编码器输出的所述图像特征对应的编码特征;
将所述编码特征输入至所述检测解码器,得到所述检测解码器输出的所述目标图像中各所述人体实例的类别因子、人体外接矩形框坐标及第一人体关键点坐标;
将所述编码特征输入至所述姿态解码器,得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标。
4.根据权利要求3所述的人体姿态估计方法,其特征在于,所述将所述编码特征输入到所述上下文特征编码器之前,所述方法还包括:
基于所述目标图像对应的位置嵌入向量集合及所述图像特征对应的第一特征序列,确定所述图像特征对应的第二特征序列。
5.根据权利要求3所述的人体姿态估计方法,其特征在于,所述将所述编码特征输入至所述姿态解码器之前,所述方法还包括:
基于所述检测解码器输出的所述目标图像中各所述人体实例的人体外接矩形框坐标,确定所述编码特征对应的各所述人体实例的编码特征图。
6.根据权利要求5所述的人体姿态估计方法,其特征在于,所述将所述编码特征输入至所述姿态解码器,得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标,包括:
将所述编码特征图输入至所述姿态解码器,所述姿态解码器基于所述检测解码器输出的各所述人体实例的第一人体关键点坐标在对应的所述编码特征图上进行动态采样;
基于所述姿态解码器在对应的所述编码特征图上动态采样的特征,得到所述姿态解码器输出的所述目标图像中各所述人体实例的第二人体关键点坐标。
7.根据权利要求1所述的人体姿态估计方法,其特征在于,所述人体姿态估计模型使用的最优二分匹配,是基于所述样本行人场景图像对应的目标集合中的监督真值与所述人体姿态估计模型输出的人体姿态信息之间的相似度;其中,
所述最优二分匹配采用公式(1)表示:
Figure 868929DEST_PATH_IMAGE001
(1)
其中,
Figure 766347DEST_PATH_IMAGE002
表示所有监督真值和人体姿态信息匹配方式的集合,
Figure 838208DEST_PATH_IMAGE003
表示目标集合中第i 个监督真值,
Figure 888204DEST_PATH_IMAGE004
表示预测集合中第i个人体姿态信息,
Figure 957791DEST_PATH_IMAGE005
表示损失函数。
8.一种人体姿态估计装置,其特征在于,所述装置包括:
获取模块,用于获取目标图像;
姿态估计模块,用于将所述目标图像输入至人体姿态估计模型,得到所述人体姿态估计模型输出的所述目标图像中人体姿态信息;其中,所述人体姿态估计模型,是基于样本行人场景图像进行训练后得到的,用于估计图像中人体姿态信息;所述人体姿态信息包括人体实例及对应的人体关键点位置。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述人体姿态估计方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述人体姿态估计方法的步骤。
CN202210113382.3A 2022-01-30 2022-01-30 人体姿态估计方法、装置、电子设备及存储介质 Active CN114140831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210113382.3A CN114140831B (zh) 2022-01-30 2022-01-30 人体姿态估计方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210113382.3A CN114140831B (zh) 2022-01-30 2022-01-30 人体姿态估计方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114140831A true CN114140831A (zh) 2022-03-04
CN114140831B CN114140831B (zh) 2022-07-01

Family

ID=80381913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210113382.3A Active CN114140831B (zh) 2022-01-30 2022-01-30 人体姿态估计方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114140831B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821639A (zh) * 2022-04-11 2022-07-29 西安电子科技大学广州研究院 面向特殊场景下人体姿态估计和理解的方法及装置
CN117575746A (zh) * 2024-01-17 2024-02-20 武汉人工智能研究院 虚拟试穿方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135375A (zh) * 2019-05-20 2019-08-16 中国科学院宁波材料技术与工程研究所 基于全局信息整合的多人姿态估计方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135375A (zh) * 2019-05-20 2019-08-16 中国科学院宁波材料技术与工程研究所 基于全局信息整合的多人姿态估计方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KE LI 等: "Pose Recognition with Cascade Transformers", 《COMPUTER VISION FOUNDATION》 *
LU ZHOU 等: "BI-DIRECTIONAL MESSAGE PASSING BASED SCANET FOR HUMAN POSE ESTIMATION", 《2019 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 *
LUCAS STOFFL 等: "End-to-End Trainable Multi-Instance Pose Estimation with Transformers", 《ARXIV:2103.12115V2》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821639A (zh) * 2022-04-11 2022-07-29 西安电子科技大学广州研究院 面向特殊场景下人体姿态估计和理解的方法及装置
CN114821639B (zh) * 2022-04-11 2023-04-18 西安电子科技大学广州研究院 面向特殊场景下人体姿态估计和理解的方法及装置
CN117575746A (zh) * 2024-01-17 2024-02-20 武汉人工智能研究院 虚拟试穿方法、装置、电子设备及存储介质
CN117575746B (zh) * 2024-01-17 2024-04-16 武汉人工智能研究院 虚拟试穿方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114140831B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
CN111079683B (zh) 基于卷积神经网络的遥感图像云雪检测方法
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN113327279B (zh) 一种点云数据处理方法、装置、计算机设备及存储介质
CN112861575A (zh) 一种行人结构化方法、装置、设备和存储介质
CN113255557B (zh) 一种基于深度学习的视频人群情绪分析方法及系统
CN112462261B (zh) 一种电机异常检测方法、装置、电子设备及存储介质
CN111738074B (zh) 基于弱监督学习的行人属性识别方法、系统及装置
JP2021532453A (ja) フィードフォワード畳み込みニューラルネットワークを使用した高速且つ堅牢な皮膚紋理の印のマニューシャの抽出
CN111291695B (zh) 人员违章行为识别模型训练方法、识别方法及计算机设备
CN113344003A (zh) 目标检测方法及装置、电子设备和存储介质
CN116740607A (zh) 视频处理方法及装置、电子设备和存储介质
CN111428612A (zh) 行人重识别方法、终端、装置及存储介质
CN111539435A (zh) 语义分割模型构建方法及图像分割方法、设备、存储介质
CN114022684B (zh) 人体姿态估计方法及装置
CN116310474A (zh) 端到端关系识别方法、模型训练方法、装置、设备及介质
CN115063831A (zh) 一种高性能行人检索与重识别方法及装置
CN110210321B (zh) 基于多维尺度变换网络与分块加权法的欠样本人脸识别方法
CN115100419B (zh) 目标检测方法、装置、电子设备及存储介质
CN117314938B (zh) 一种基于多尺度特征融合译码的图像分割方法及装置
CN116629315B (zh) 感知模型的训练方法、装置、设备和介质
CN116662587B (zh) 基于查询生成器的人物交互检测方法、装置及设备
CN115471875B (zh) 一种多码率的行人识别视觉特征编码压缩方法和装置
CN115082430B (zh) 图像分析方法、装置及电子设备
CN114529937A (zh) 社交关系识别方法、装置、设备及存储介质
CN117788795A (zh) 目标检测方法、电子设备及其存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant