CN113297963A

CN113297963A - 多人姿态的估计方法、装置、电子设备以及可读存储介质

Info

Publication number: CN113297963A
Application number: CN202110567251.8A
Authority: CN
Inventors: 李炎峻; 张伟东
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-08-24

Abstract

本申请提供了一种多人姿态的估计方法、装置、电子设备以及可读存储介质，检测连续多帧图片中当前帧图片中的人体对象，以获得当前帧图片中至少一个人体对象的框图的坐标信息；基于至少一个人体对象的框图的坐标信息，确定待处理人体对象；获取每个待处理人体对象与前一帧图片中的每个目标跟踪对象之间的匹配度；并根据匹配度，确定当前帧图片中的目标跟踪对象；利用当前帧图片中的目标跟踪对象的框图的坐标信息，确定当前帧图片中的目标跟踪对象在当前帧图片中的姿态。这样，能够对连续多帧图片中的前后两帧图片进行连续跟踪，从而确定出更加精确的目标跟踪对象，有效提高了多人姿态识别的准确性。

Description

多人姿态的估计方法、装置、电子设备以及可读存储介质

技术领域

本申请涉及人体姿态识别技术领域，具体而言，涉及一种多人姿态的估计方法、装置、电子设备以及可读存储介质。

背景技术

在计算机视觉领域中，人体运动行为识别是一个被广泛关注的热点问题，其在智能视频监控、虚拟现实、智能家居等领域具有巨大的应用价值。人体运动行为识别的精度和速度直接影响后续的视频分析。人体运动行为分析通常是分析图像或者视频来进行人体检测，例如，通过定位人体关键点来进行人体姿态估计，从而确定出人体动作从而识别出人体的运动行为。

目前，在现实应用中较为常见到的需求是对视频的连续多帧图片中的多人进行跟踪和姿态估计，然而，现有的多人姿态估计方法大多采用卡尔曼滤波等滤波方法进行多人跟踪，这种跟踪算法的精度和鲁棒性较低，使得多人姿态估计的结果的准确性较差。

发明内容

有鉴于此，本申请的目的在于提供一种多人姿态的估计方法、装置、电子设备以及可读存储介质，能够关联视频中连续多帧图片中的前后两帧图片，进行连续跟踪，从而确定出更加精确的目标跟踪对象，并在此基础上，对精确确定的目标跟踪对象实现多人姿态识别，有效提高了多人姿态识别的准确性。

本申请实施例还提供了一种多人姿态的估计，所述估计方法包括：

检测连续多帧图片中的当前帧图片中的人体对象，以获得所述当前帧图片中至少一个人体对象的框图的坐标信息；所述当前帧图片为所述连续多帧图片中的非第一帧图片；

基于所述至少一个人体对象的框图的坐标信息，确定待处理人体对象；

基于所述待处理人体对象的框图的坐标信息和预存的所述当前帧图片的前一帧图片中的目标跟踪对象的框图的坐标信息，获取每个待处理人体对象分别与所述前一帧图片中的每个目标跟踪对象之间的匹配度；

基于获取的匹配度，确定所述当前帧图片中的目标跟踪对象；

利用所述当前帧图片中的目标跟踪对象的框图的坐标信息，确定所述当前帧图片中的目标跟踪对象在当前帧图片中的姿态。

可选的，所述基于所述至少一个人体对象的框图的坐标信息，确定待处理人体对象，包括：

针对每个人体对象的框图的坐标信息，基于该人体对象的框图的坐标信息获得用于评价该人体对象的框图的坐标信息用于后续确定所述当前帧图片中的目标跟踪对象和姿态估计的能力的统计结果；

基于所有人体对象的框图的坐标信息的统计结果，从所述至少一个人体对象中筛选出待处理人体对象。

可选的，所述统计结果根据以下中的一个或者多个得到：通过该人体对象的框图的坐标信息所确定的该人体对象的框图的面积、置信度和纵横比。

可选的，所述待处理人体对象与所述前一帧图片中的任意一个目标跟踪对象之间的匹配度根据以下中的一个或者多个得到：第一相似度、第二相似度和第三相似度；

所述第一相似度指示该待处理人体对象的框图与所述任意一个目标跟踪对象的框图之间的ORB相似度；

所述第二相似度指示该待处理人体对象的框图与所述任意一个目标跟踪对象的框图之间的图片相似度；

所述第三相似度指示该待处理对象在当前帧图片中的移动速度与所述任意一个目标跟踪对象在所述前一帧图片中的移动速度之间的速度相似度。

可选的，所述基于获取的匹配度，确定所述当前帧图片中的目标跟踪对象，包括：

基于获取的匹配度得到表征待处理人体对象与所述前一帧图片中的每个目标跟踪对象之间的相似程度的相似度矩阵；

基于所述相似度矩阵，获取每个待处理人体对象的匹配结果；

如果匹配结果指示匹配成功，则将该待处理人体对象确定为所述当前帧图片中的目标跟踪对象；

如果匹配结果指示匹配失败，则将该待处理人体对象确定为所述当前帧图片中新产生的目标跟踪对象。

可选的，所述利用所述当前帧图片中的目标跟踪对象的框图的坐标信息，确定所述当前帧图片中的目标跟踪对象在当前帧图片中的姿态，包括：

利用当前帧图片中的目标跟踪对象的框图的坐标信息进行整体姿态估计，得到所述当前帧图片中的目标跟踪对象的第一人体部位的关键点坐标；

利用所述第一人体部位中的第二人体部位的关键点坐标进行局部姿态估计，得到所述当前帧图片中的目标跟踪对象的第三人体部位的关键点坐标；

基于第一人体部位和第三人体部位的关键点坐标，确定所述当前帧图片中的目标跟踪对象的姿态。

可选的，所述第一人体部位包括以下至少一项：头部、颈部、肩部、肘部、手腕部、手肘部、臀部、膝部和脚部；所述第二人体部位包括手肘部和手腕部。

可选的，所述利用当前帧图片中的目标跟踪对象的框图的坐标信息进行整体姿态估计，得到所述当前帧图片中的目标跟踪对象的第一人体部位的关键点坐标，包括：

将所述当前帧图片以及所述当前帧图片中的目标跟踪对象的框图的坐标信息输入预先训练好的整体姿态估计模型，获得所述当前帧图片中的目标跟踪对象的第一人体部位的关键点坐标；

所述利用所述第一人体部位中的第二人体部位的关键点坐标进行局部姿态估计，得到所述当前帧图片中的目标跟踪对象的第三人体部位的关键点坐标，包括：

将所述第一人体部位中的第二人体部位的关键点坐标和所述当前帧图片输入预先训练好的局部姿态估计模型，获得所述当前帧图片中的目标跟踪对象的第三人体部位的关键点坐标。

可选的，所述整体姿态估计模型和/或所述局部姿态估计模型通过以下模型训练方式进行训练：

在预处理数据阶段，对原始训练图片进行数据增强处理，以得到训练图片；所述数据增强包括以下至少一项：颜色空间数据增强、左右反转、人体的下半身图片以其标注去除、关键点区域加入黑块和模糊处理；

在模型训练阶段，在使用所述训练图片对原始模型训练的阶段中，优化原始损失函数以得到新型损失函数，基于新型损失函数对原始模型进行训练，得到训练后的模型。

可选的，所述将所述当前帧图片以及所述当前帧图片中的目标跟踪对象的框图的坐标信息输入预先训练好的整体姿态估计模型，获得所述当前帧图片中的目标跟踪对象的第一人体部位的关键点坐标，包括：

将所述当前帧图片以及所述当前帧图片中的目标跟踪对象的框图的坐标信息输入预先训练好的整体姿态估计模型，获得所述当前帧图片中的目标跟踪对象的第一人体部位的原始关键点坐标；

将所述第一人体部位的原始关键点坐标的坐标精度进行精度转换，以得到所述第一人体部位的关键点坐标。

可选的，所述估计方法还包括：

存储所述当前帧图片中的目标跟踪对象的姿态以及框图的坐标信息。

本申请实施例还提供了一种多人姿态的估计装置，所述估计装置包括：

检测模块，用于检测连续多帧图片中的当前帧图片中的人体对象，以获得所述当前帧图片中至少一个人体对象的框图的坐标信息；所述当前帧图片为所述连续多帧图片中的非第一帧图片；

第一确定模块，用于基于所述至少一个人体对象的框图的坐标信息，确定待处理人体对象；

匹配度确定模块，用于基于所述待处理人体对象的框图的坐标信息和预存的所述当前帧图片的前一帧图片中的目标跟踪对象的框图的坐标信息，获取每个待处理人体对象分别与所述前一帧图片中的每个目标跟踪对象之间的匹配度；

第二确定模块，用于基于获取的匹配度，确定所述当前帧图片中的目标跟踪对象；

姿态确定模块，用于利用所述当前帧图片中的目标跟踪对象的框图的坐标信息，确定所述当前帧图片中的目标跟踪对象在当前帧图片中的姿态。

可选的，所述第一确定模块在用于基于所述至少一个人体对象的框图的坐标信息，确定待处理人体对象时，所述第一确定模块用于：

所述第一相似度指示该待处理对象的框图与所述任意一个目标跟踪对象的框图之间的ORB相似度；

所述第二相似度指示该待处理对象的框图与所述任意一个目标跟踪对象的框图之间的图片相似度；

可选的，所述第二确定模块在用于基于获取的匹配度，确定所述当前帧图片中的目标跟踪对象时，所述第二确定模块用于：

可选的，所述姿态确定模块在用于利用所述当前帧图片中的目标跟踪对象的框图的坐标信息，确定所述当前帧图片中的目标跟踪对象在当前帧图片中的姿态时，所述姿态确定模块用于：

可选的，所述姿态确定模块在用于利用当前帧图片中的目标跟踪对象的框图的坐标信息进行整体姿态估计，得到所述当前帧图片中的目标跟踪对象的第一人体部位的关键点坐标时，所述姿态确定模块用于：

所述姿态确定模块在用于利用所述第一人体部位中的第二人体部位的关键点坐标进行局部姿态估计，得到所述当前帧图片中的目标跟踪对象的第三人体部位的关键点坐标时，所述姿态确定模块用于：

可选的，所述估计装置还包括模型训练模块，所述模型训练模块用于：

可选的，所述模型训练模块在用于将所述当前帧图片以及所述当前帧图片中的目标跟踪对象的框图的坐标信息输入预先训练好的整体姿态估计模型，获得所述当前帧图片中的目标跟踪对象的第一人体部位的关键点坐标时，所述模型训练模块用于：

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的多人姿态的估计方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的多人姿态的估计方法的步骤。

根据本申请实施例提供的多人姿态的估计方法、装置、电子设备以及可读存储介质，能够关联视频中连续多帧图片中的前后两帧图片，进行连续跟踪，从而确定出更加精确的目标跟踪对象，并在此基础上，对精确确定的目标跟踪对象实现多人姿态识别，有效提高了多人姿态识别的准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种多人姿态的估计方法的流程图；

图2为本申请实施例所提供的确定待处理人体对象的步骤的流程图；

图3为本申请实施例所提供的确定当前帧图片中的目标跟踪对象的步骤的流程图；

图4为本申请实施例所提供的一种当前帧图片中目标跟踪对象的姿态识别结果的效果示意图；

图5为本申请实施例所提供的一种多人姿态的估计装置的结构示意图之一；

图6为本申请实施例所提供的一种多人姿态的估计装置的结构示意图之二；

图7为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

目前，在现实应用中较为常见到的需求是对视频的连续多帧图片中的多人进行跟踪和姿态估计，然而，现有的多人姿态估计方法大多采用卡尔曼滤波等滤波方法进行多人跟踪，这种跟踪算法的精度和鲁棒性较低，使得多人姿态估计的结果的准确性较差。此外，若在某一帧图片中的人体存在遮挡或者仅有半身的情况时，很容易出现识别错误的问题，使得无法准确地对该帧图像中的人体的姿态进行准确的估计。基于此，本申请实施例提供了一种多人姿态的估计方法、装置、电子设备以及可读存储介质。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种多人姿态的估计方法进行详细介绍。

请参阅图1，图1为本申请实施例所提供的一种多人姿态的估计方法的流程图。如图1所示，本申请实施例提供的多人姿态的估计方法，包括：

步骤S101、检测连续多帧图片中的当前帧图片中的人体对象，以获得所述当前帧图片中至少一个人体对象的框图的坐标信息；所述当前帧图片为所述连续多帧图片中的非第一帧图片；

步骤S102、基于所述至少一个人体对象的框图的坐标信息，确定待处理人体对象；

步骤S103、基于所述待处理人体对象的框图的坐标信息和预存的所述当前帧图片的前一帧图片中的目标跟踪对象的框图的坐标信息，获取每个待处理人体对象分别与所述前一帧图片中的每个目标跟踪对象之间的匹配度；

步骤S104、基于获取的匹配度，确定所述当前帧图片中的目标跟踪对象；

步骤S105、利用所述当前帧图片中的目标跟踪对象的框图的坐标信息，确定所述当前帧图片中的目标跟踪对象在当前帧图片中的姿态。

在步骤S101中，作为示例，可通过现有的基于深度学习的检测方法对连续多帧图片中的当前帧图片进行检测，以获得当前帧图片中的人体对象的框图的坐标信息。

例如，可通过深度神经网络中的深度卷积(DepthWise Convolution)层堆叠而成的主干(backbone)结构对当前帧图片进行下采样，并充分挖掘输入图片中的特征，然后，使用尺寸聚类预测(Bounding Box Prediction)结构对主干结构输出的特征进行解码，从而返回当前帧图片中的人体对象的框图的坐标信息。这里，当前帧图片为连续多帧图片中的非第一帧图片，即当前帧图片存在有对应的前一帧图片。

需要说明的是，人体对象的框图的坐标信息是指在对人体对象的检测过程中，将识别出的人体对象通过标记框图的方式从一帧图片中标记出来，每个框图可代表一个人体对象，其中，人体对象的框图的坐标信息记录了人体对象在一帧图片中的具体位置。

这里，坐标信息所属的坐标系是基于图片所建立的，具体的，可以以图片的右下角(或者是左下角、右上角、左上角、中心位置等)为中心，以图片的长为X轴，以图片的宽为Y轴建立的。在该坐标系下人体对象的长宽比例均是按照该坐标系与世界坐标系之间的缩放比例，等比例的缩放后得到的。

在对当前帧图片进行检测的过程中，由于检测得到的人体对象的框图的坐标信息中存在较多的误判信息，例如，错误的识别将当前帧图片中的柱子识别为人体对象等，所以，从当前帧图片中检测出的人体对象并不一定全部都是真实的人体对象，因此，需要进一步对检测到的人体对象的框图进行筛选，从而确定出可用于后续处理的人体对象，以避免对错误识别所得到的人体对象的框图的坐标信息进行后续处理，导致资源浪费的情况的发生。

为解决上述问题，在步骤S102中，作为示例，在具体实施时，可以根据确定出的至少一个人体对象的框图的坐标信息，对至少一个人体对象进行筛选；并从至少一个人体对象中确定出可以与前一帧图片中的目标跟踪对象进行匹配的待处理人体对象。

这样，通过对至少一个人体对象进行筛选，能够过滤掉一些由于错误识别所得到的人体对象，进而减少后续匹配过程中数据的处理量，加快数据的处理速度。

在一种可能的实施方式中，如图2所示，图2为本申请实施例所提供的确定待处理人体对象的步骤的流程图。具体说来，步骤S102包括：步骤S1021：针对每个人体对象的框图的坐标信息，基于该人体对象的框图的坐标信息获得用于评价该人体对象的框图的坐标信息用于后续确定所述当前帧图片中的目标跟踪对象和姿态估计的能力的统计结果；步骤S1022：基于所有人体对象的框图的坐标信息的统计结果，从所述至少一个人体对象中筛选出待处理人体对象。

在步骤S1021中，针对于检测出的每个人体对象的框图的坐标信息，基于该人体对象的框图的坐标信息，获取该人体对象的框图的坐标信息的统计结果。

上述获取的统计结果能够用于评价该人体对象的框图的坐标信息在后续的估计过程中用于确定出目标跟踪对象以及对目标跟踪对象在当前帧图片中的姿态估计的能力。

作为示例，上述获取的统计结果可以根据以下中的一个或者多个得到：通过该人体对象的框图的坐标信息所确定的该人体对象的框图的面积、置信度和纵横比。

例如，可通过该人体对象的框图的坐标信息所确定的该人体对象的框图的面积，来确定该人体对象的框图的坐标信息的统计结果。

具体的，从人体对象的框图的坐标信息中确定出框图的长度以及宽度，并基于框图的长度及宽度计算该人体对象的框图的面积，从而，根据人体对象的框图的面积确定该人体对象的框图的实例大小评分，进而，便可以根据该人体对象的实例大小评分，确定该人体对象的统计结果。这里，由于正常人物的大小应位于正常的面积范围内，因此，本申请便可以通过框图的面积的大小，过滤掉当前帧图片中面积占比较小的人体对象。

再例如，还可以通过该人体对象的框图的坐标信息所确定的该人体对象的框图的置信度，来确定该人体对象的统计结果。

具体的，可基于该人体对象的框图的坐标信息，利用人体检测算法确定该人体对象的置信度，置信度越高，说明该人体对象为人物的概率就越高；相反的，置信度越低，说明该人体对象为人物的概率就越低，进而，便可以根据该人体对象的框图的置信度，确定该人体对象的框图的坐标信息的统计结果。这样，便可以通过置信度过滤掉当前帧图片中非人物类的人体对象。

再例如，还可以通过该人体对象的框图的坐标信息所确定的该人体对象的框图的纵横比，来确定该人体对象的统计结果。

具体的，从该人体对象的框图的坐标信息中确定出框图的长度以及宽度，并基于框图的长度及宽度计算该人体对象的纵横比，从而，根据人体对象的纵横比确定该人体对象的纵横比评分，进而，便可以根据该人体对象的纵横比评分，确定该人体对象的统计结果。这里，由于正常的人物的身高与宽度之间的比例有着正常的比例范围，因此，本申请便可以通过纵横比评分，过滤掉当前帧图片中长与宽比例失衡的人体对象。

此外，本申请中除了可以分别依据人体对象的框图的面积、置信度和纵横比，确定该人体对象的统计结果之外，还可以依据上述三者中的任意两个，或者上述三个来确定该人体对像的统计结果。

下面，将结合具体的示例，以通过上述三者为例进一步说明如何确定该人体对象的统计结果，具体的，可通过以下公式计算得到该人体对象的框图的坐标信息的统计结果：

S₁＝w₁×S_area+w₂×S_conf+w₃×S_aspect；

其中，S₁为人体对象的框图的坐标信息的统计结果，S_area为人体对象的框图的实例大小评分，S_conf为人体对象的框图的置信度，S_aspect为人体对象的框图的纵横比评分，w₁为实例大小评分的权重，w₂为置信度的权重，w₃为纵横比评分的权重。

当依据人体对象的框图的面积和置信度来确定人体对象的统计结果时，可以通过将w₃置零的方式，通过上述公式计算得到该人体对象的统计结果；同理，当依据人体对象的框图的面积和纵横比来确定人体对象的统计结果时，可以通过将w₂置零的方式，通过上述公式计算得到该人体对象的统计结果；相应的，当依据人体对象的框图的置信度和纵横比来确定人体对象的统计结果时，可以通过将w₁置零的方式，通过上述公式计算得到该人体对象的统计结果。

此外，在获取到每个人体对象的框图的坐标信息的统计结果之后，作为示例，在步骤S1022，在具体实施时，可通过初筛和复筛的方式从至少一个人体对象中筛选出待处理人体对象。例如，初筛的方式可以是按照每个人体对象的框图的坐标信息的统计结果，过滤掉当前帧图片中统计结果的值低于预设分值的人体对象的框图的坐标信息，然后进行复筛，复筛的方式是将初筛后得到的人体对象的框图的坐标信息进行排序，选取排在指定排名下的人体对象的框图的坐标信息，进一步地，可将排在指定排名下的人体对象的框图的坐标信息对应的人体对象确定为待处理人体对象。

通过这种方式，可以实现对至少一个人体对象的框图的坐标信息的筛选，提取出较好的人体对象，以减少估计过程中的数据处理量，有助于提高数据的处理速率。

此外，由于在前一帧图片中有存在多个目标跟踪对象的可能，因此，在得到待处理人体对象之后，需要进一步通过确定待处理人体对象与前一帧图片中的目标跟踪对象之间的匹配度，来确定出当前帧图片中的目标跟踪对象。

返回参照图1，具体的，在步骤S103中，可以基于所述待处理人体对象的框图的坐标信息和预存的所述当前帧图片的前一帧图片中的目标跟踪对象的框图的坐标信息，获取每个待处理人体对象分别与所述前一帧图片中的每个目标跟踪对象之间的匹配度。

需要说明的是，多帧图片可以是视频文件按照时间顺序拆分而得到。所以，拆分后的多帧图片中，一帧图片与该帧图片的前一帧图片之间存在关联关系，例如在前一帧图片中存在有三个人体对象，那么该帧图片中三个人体对象不能够瞬间消失，所以，在该帧图片中有极大的可能同样存在有前一帧图片中出现过的人体对象。所以，针对于当前帧图片中一个待处理人体对象，该待处理人体对象与前一帧图片中每个目标跟踪对象之间的匹配度是指，该待处理人体对象与目标跟踪对象为同一人物的匹配程度，匹配度越高，说明该待处理人体对象与目标跟踪对象为同一人物的可能性越高；相反的，匹配度越低，说明该待处理人体对象与目标跟踪对象为同一人物的可能性越低。

在一种可能的实施方式中，待处理人体对象与前一帧图片中的任意一个目标跟踪对象之间的匹配度根据以下中的一个或者多个得到：第一相似度、第二相似度和第三相似度。

其中，第一相似度指示该待处理对象的框图与所述任意一个目标跟踪对象的框图之间的ORB相似度。

具体的，分别从待处理对象的框图和任意一个目标跟踪对象的框图中提取出ORB特征向量；比对两者的ORB特征向量，确定待处理对象的框图与任意一个目标跟踪对象的框图的ORB相似度。

这里，ORB是Oriented Fast and Rotated Brief的简称，可以用来快速创建待处理对象的框图和目标跟踪对象的框图中关键点所对应的特征向量，这些快速创建得到的特征向量可以用来识别待处理对象的框图中待处理对象，以及识别目标跟踪对象的框图中的目标跟踪对象。

其中，Fast和Brief分别是特征检测算法和向量创建算法。ORB首先会从图片待处理对象的框图和目标跟踪对象的框图中查找特殊区域，即从待处理对象的框图和目标跟踪对象的框图中查找标记点。标记点即图片中突出的小区域，比如角点，比如它们具有像素值急剧的从浅色变为深色的特征。然后ORB会为每个标记点计算相应的特征向量。ORB算法创建的特征向量只包含1和0，称为二元特征向量。1和0的顺序会根据标记点和其周围的像素区域而变化。该特征向量表示标记点周围的强度模式，因此多个特征向量可以用来识别更大的区域，甚至图片中的特定对象。ORB的特点是速度超快，而且在一定程度上不受噪点和图片变换的影响，例如旋转和缩放变换等。

其中，第二相似度指示该待处理对象的框图与所述任意一个目标跟踪对象的框图之间的图片相似度。

本申请中可通过计算待处理对象的框图与任意一个目标跟踪对象的框图之间的交并比(Intersection over Union，IoU)，确定待处理对象的框图与该目标跟踪对象的框图之间的图片相似度。具体来说，通过计算待处理对象的框图与任意一个目标跟踪对象的框图之间重叠部分面积，与待处理对象的框图与任意一个目标跟踪对象的框图的总覆盖面积之间的比值，来确定待处理对象的框图与该目标跟踪对象的框图之间的图片相似度。

交并比是一种测量在特定数据集中检测相应物体准确度的一个标准。交并比是一个简单的测量标准，只要是在输出中得出一个预测范围(bounding boxes)的任务都可以用交并比来进行测量。

其中，第三相似度指示该待处理对象在当前帧图片中的移动速度与所述任意一个目标跟踪对象在所述前一帧图片中的移动速度之间的速度相似度。

本申请中，速度相似度可通过计算待处理人体对象在当前帧图片中的中心点的移动速度而得到，例如，任一待处理人体对象W在当前帧图片中的移动速度与所述任意一个目标跟踪对象Y在所述前一帧图片中的移动速度之间的速度相似度S_speed为

S_speed＝X_t-X_t-1；

其中，X_t指待处理人体对象W在当前帧图片的中心点坐标，X_t-1指当前帧图片的上一帧图片中的目标跟踪对象Y在该上一帧图片的中心点坐标，其中，上述速度相似度的值越小，则说明待处理人体对象W和目标跟踪对象Y距离越近，待处理人体对象W和目标跟踪对象Y越相似。

本申请可通过上述三种相似度中的一个或多个，确定待处理人体对象与前一帧图片中的任意一个目标跟踪对象之间的匹配度，即可以仅根据第一相似度所指示的ORB相似度S_orb确定匹配度；或者，仅根据第二相似度所指示的图片相似度S_bbox确定匹配度；再或者仅根据第三相似度所指示的速度相似度S_speed确定匹配度。

相应的，本申请还可以通过上述三种相似度中的任意两个，或者上述三个来确定匹配度。

以通过三个为例进一步说明如何确定人体对象与目标跟踪对象的匹配度，具体的，通过以下公式计算得到匹配度：

S₂＝w₄×S_orb+w₅×S_bbox+w₆×S_speed；

其中，S₂为人体对象与前一帧图片中的任意一个目标跟踪对象的匹配度，S_orb为待处理人体对象的框图和目标跟踪对象的框图之间的ORB相似度，S_bbox为待处理人体对象的框图与目标跟踪对象的框图之间的图片相似度，S_speed为待处理人体对象的移动速度与目标跟踪图片的移动速度之间的速度相似度，w₄为ORB相似度的权重，w₅为图片相似度的权重，w₆为速度相似度的权重。

当依据图片相似度和速度相似度来确定匹配度时，可以通过将w₄置零的方式，通过上述公式计算得到匹配度；同理，当依据ORB相似度和图片相似度来确定匹配度时，可以通过将w₆置零的方式，通过上述公式计算得到匹配度；相应的，当依据ORB相似度和速度相似度来确定匹配度时，可以通过将w₅置零的方式，通过上述公式计算得到匹配度。

在确定出待处理人体对象与每个目标跟踪对象之间的匹配度之后，便可以依据获取到的匹配度来确定与当前帧图片中待处理人体对象相匹配的目标跟踪对象。

下面，将结合图3的示例来详细描述如何基于匹配度来确定与当前帧图片中待处理人体对象相匹配的目标跟踪对象。

图3为本申请实施例所提供的确定当前帧图片中的目标跟踪对象的步骤的流程图。如图3所示，可通过以下步骤确定目标跟踪对象：

步骤S1041，基于获取的匹配度得到表征待处理人体对象与所述前一帧图片中的每个目标跟踪对象之间的相似程度的相似度矩阵。这里，该相似度矩阵中包括所有待处理人体对象与前一帧图片中的每个目标跟踪对象之间的匹配度。

例如，在当前帧图片中，待处理人体对象为A、B和C，前一帧图片中的目标跟踪对象为D和E，则，确定A、B和C分别和D和E之间的相似度，例如，A和D、A和E、B和D、B和E、C和D以及C和E这六对组合的相似度，将这六个相似度组成3×4的相似度矩阵。

步骤S1042，基于所述相似度矩阵，获取每个待处理人体对象的匹配结果。

在确定出表征待处理人体对象与每个目标跟踪对象之间的相似程度的相似度矩阵之后，可基于相似度矩阵采用二分匹配算法(例如，匈牙利算法等)，确定前一帧图片中与待处理人体对象的匹配结果。如果匹配成功，则该匹配结果会指示对应的匹配对象；如果匹配失败，则该匹配结果会指示对应的匹配对象为空。

如果匹配结果指示匹配成功，则在步骤S1043，将该待处理人体对象确定为所述当前帧图片中的目标跟踪对象。

如果匹配结果指示匹配失败，则在步骤S1044，将该待处理人体对象确定为当前帧图片中新产生的目标跟踪对象。

具体说来，对于匹配失败的情况来说，当待处理人体对象初次进入视频的多帧图片中，在前一帧图片中不存在与该待处理人体对象匹配的目标跟踪对象，此时匹配结果会指示匹配对象为空，此时，可将该待处理人体对象确定为当前帧图片中新产生的目标跟踪对象。

此外，在匹配的过程中，前一帧图片中的目标跟踪对象会预先标记其之前匹配失败的帧数，当匹配失败的帧数大于设定阈值时，标记该目标跟踪对象在当前帧图片中消失，即目标跟踪对象已经离开图片采集范围。

此外，当前帧图片中的目标跟踪对象和新产生的目标跟踪的之前的匹配结果会被标注，用于下一帧图片中目标跟踪对象的匹配。通过这种方式，可以在多人姿态匹配时候，关联前后帧图片中人体对象以得到精确的跟踪结果。

另一方面，在确定出当前帧图片的目标跟踪对象之后，为了能够详细的确定出当前帧图片中的目标跟踪对象的姿态，返回参照图1，在步骤S105中，可利用目标跟踪对象在当前帧图片中的框图的坐标信息，进一步对当前帧图片中的目标跟踪对象进行识别，确定目标跟踪对象在当前帧图片中所呈现出的姿态。

关于步骤S105，作为示例，在具体实施时，通过以下步骤确定当前帧图片中的目标跟踪对象在当前帧图片中的姿态：

步骤1051、利用当前帧图片中的目标跟踪对象的框图的坐标信息进行整体姿态估计，得到所述当前帧图片中的目标跟踪对象的第一人体部位的关键点坐标。这里，第一人体部位可包括以下至少一项：头部、颈部、肩部、肘部、手腕部、手肘部、臀部、膝部和脚部。

作为示例，可将所述当前帧图片以及所述当前帧图片中的目标跟踪对象的框图的坐标信息输入预先训练好的整体姿态估计模型，获得所述当前帧图片中的目标跟踪对象的第一人体部位的关键点坐标。

通常情况下我们会选取当前帧图片上响应最大位置处作为关键点，并将最大位置处的坐标作为关键点的坐标，但是这样计算出来的坐标精度往往是pixel级别的，因此，为了得到更加精确的关键点坐标，便需要对当前帧图片中关键点的坐标进行转换，得到sub-pixel级别的坐标精度。

具体的，将所述当前帧图片以及所述当前帧图片中的目标跟踪对象的框图的坐标信息输入预先训练好的整体姿态估计模型，获得所述当前帧图片中的目标跟踪对象的第一人体部位的关键点坐标，包括：将所述当前帧图片以及所述当前帧图片中的目标跟踪对象的框图的坐标信息输入预先训练好的整体姿态估计模型，获得所述当前帧图片中的目标跟踪对象的第一人体部位的原始关键点坐标；将所述第一人体部位的原始关键点坐标的坐标精度进行精度转换，以得到所述第一人体部位的关键点坐标。

在该步骤中，使用预先训练好的整体姿态估计模型对目标跟踪对象在当前帧图片中的整体姿态进行整体姿态估计，将当前帧图片和目标跟踪对象在当前帧图片中的框图的坐标信息输入至预先训练好的整体姿态估计模型中，预先训练好的整体姿态估计模型对当前帧图片中的目标跟踪对象的框图的坐标信息和当前帧图像执行人工智能相关的运算，进而，计算得到当前帧图片中的目标跟踪对象的第一人体部位的原始关键点坐标，此时，获得的原始关键点坐标为pixel级别的。

为了提高原始关键点坐标的精度，将第一人体部位的原始关键点坐标的坐标精度进行精度转换，得到第一人体部位的关键点坐标，此时，获得的第一人体部位的关键点坐标为sub-pixel级别的。

具体的，可通过以下公式将pixel级别的第一人体部位的原始关键点坐标，转换为sub-pixel级别的第一人体部位的关键点坐标：

μ＝m-(D″(m))^-1D′(m)；

其中，μ代表当前帧图片对应的热图上的sub-pixel级别的最大响应值坐标，m代表当前帧图片对应的热图上pixel级别的最大响应值坐标，D′(m)代表当前帧图片对应的热图上在m位置的一阶导数，D″(m)代表当前帧图片对应的在m位置的二阶导数。

这样，经过坐标精度转换处理之后，我们不但可以得到更加精确的第一人体部位的关键点坐标，而且在处理视频的过程中可以减少前后帧的关键点抖动情况。

步骤1052、利用所述第一人体部位中的第二人体部位的关键点坐标进行局部姿态估计，得到所述当前帧图片中的目标跟踪对象的第三人体部位的关键点坐标。这里，第二人体部位可包括手肘部和手腕部。第三人体部位可包括五指指尖、五指各节指骨连接处等。

作为示例，将所述第一人体部位中的第二人体部位的关键点坐标和所述当前帧图片输入预先训练好的局部姿态估计模型，获得所述当前帧图片中的目标跟踪对象的第三人体部位的关键点坐标。

该步骤中，预先训练好了用于获得目标跟踪对象在当前帧图片中的第三人体部位的关键点坐标的局部姿态估计模型，将目标跟踪对象在当前帧图片中的第一人体部位中第二人体部位的关键点坐标和当前帧图像输入至预先训练好的局部姿态估计模型中，预先训练好的局部姿态估计模型对当前帧图片中的目标跟踪对象的第二人体部位的关键点坐标和当前帧图像执行人工智能相关的运算，进而，计算得到目标跟踪对象在当前帧图片中的第三人体部位的关键点坐标。这里，通过获取第三人体部位的关键点坐标，不仅可以获取到目标跟踪对象的手部的大致位置，更能获取到描述手部的姿态和形状等，使得姿态的预测更加丰富。

步骤1053、基于第一人体部位和第三人体部位的关键点坐标，确定所述当前帧图片中的目标跟踪对象的姿态。

此外，附加地，在一种可能的实施方式中，为了当前帧图片中的目标跟踪对象的框图的坐标信息能够用于对下一帧图片中的待处理人体对象进行姿态估计，本申请在确定出当前帧图片中目标跟踪对象的框图的坐标之后，所述估计方法可还附加地包括存储当前帧图片中的目标跟踪对象的姿态以及框图的坐标信息的步骤，通过这种方式，可以在对下一帧图片进行处理时直接获取到下一帧图片的前一帧图片的目标跟踪对象的姿态以及框图的坐标信息。

这里，上述整体姿态估计模型和/或所述局部姿态估计模型可以通过以下模型训练方式进行训练：

步骤a：在预处理数据阶段，对原始训练图片进行数据增强处理，以得到训练图片。

该步骤中，在预处理数据阶段，获取用于训练原始模型的原始训练图片，在图片的预处理阶段，对原始训练图片进行数据增强处理，具体的，进行通过颜色空间数据增强、左右反转、人体的下半身图片以其标注去除、关键点区域加入黑块和模糊处理中的至少一项数据增强方式对原始训练图片进行数据增强处理，将经过数据增强处理后的原始训练图片确定为用于训练原始模型的训练图片。这里，原始模型可以是整体姿态估计模型或者局部姿态估计模型。

这里，可以通过数据增强的方式提升最终训练好的模型对于特殊样本的泛化能力；并且，在数据增强的过程中还可以通过人体的下半身图片以其标注去除的方式，提高最终训练好的模型处理上半身图片时的能力；在关键点区域加入黑块，可以提高最终训练好的模型在处理遮挡情况下的能力；模糊处理可以针对于跳舞、运动类图片常有的运动模糊情况，在模型的训练过程中随机地对原始训练图片进行模糊操作，提高最终训练好的模型处理这类存在模糊的图片时的能力。

步骤b：在模型训练阶段，在使用所述训练图片对原始模型训练的预定阶段中，优化原始损失函数以得到新型损失函数，基于新型损失函数对原始模型进行训练，得到训练后的模型(即，训练好的模型)。

例如，在模型为整体姿态估计模型为例，在该步骤中，在模型的训练阶段中，使用训练图片对原始整体姿态对原始整体姿态估计模型进行训练，并对原始损失函数进行优化，以得到新型损失函数；具体的，可以根据训练图片的人工标注图片中关键点的信息生成目标热图，在训练图片与目标热图之间使用均方误差损失函数。随着训练过程的不断进行，使得原始整体姿态模型逐渐的将关注点集中在不存在遮挡等复杂情况的“简单”关键点上，对于存在遮挡的“困难”关键点则放弃检测，或者出现错误识别的情况；因此，在训练过程的后期，将均方误差损失函数进行优化，根据优化后的新型损失函数在线选择存在遮挡等复杂情况的“困难”关键点，并只从已选择的“困难”关键点开始，进行反向传播梯度。

这里，局部姿态估计模型的训练方式与整体姿态估计模型的训练方式相同，在此不再赘述。

下面结合图4来说明当前帧图片中目标跟踪对象的姿态识别结果。

图4为本申请所提供的一种当前帧图片中目标跟踪对象的姿态识别结果的效果示意图。图4所示的当前帧图片4a中显示有一目标跟踪对象4b，首先，利用目标跟踪对象4b在当前帧图片4a中的框图的坐标信息，确地出目标跟踪对象4b在当前帧图片4a的头部4c、颈部4d、肩部4e、肘部4f、手肘部4g、臀部4h、膝部4i和脚部4j等第一人体部位的关键点坐标；进而，在识别出手肘部4h的基础上，根据手肘部4g中手肘4k的关键点坐标，确定出当前帧图片4a中目标跟踪对象4b的手指4l等第三人体部位的关键点坐标；最后，根据第一人体部位的关键点坐标，以及第三人体部位的关键点坐标，在当前帧图片中标记出第一人体部位的位置以及第三人体部位的位置。

本申请实施例提供的多人姿态的估计方法，检测连续多帧图片中当前帧图片中的人体对象，以获得所述当前帧图片中至少一个人体对象的框图的坐标信息；所述当前帧图片为所述多帧图片中的非第一帧图片；基于所述至少一个人体对象的框图的坐标信息，确定待处理人体对象；基于所述待处理人体对象的框图的坐标信息和预存的所述当前帧图片的前一帧图片中的目标跟踪对象的框图的坐标信息，获取每个待处理人体对象分别与所述前一帧图片中的每个目标跟踪对象之间的匹配度；基于获取的匹配度，确定所述当前帧图片中的目标跟踪对象；利用所述当前帧图片中的目标跟踪对象的框图的坐标信息，确定所述当前帧图片中的目标跟踪对象在当前帧图片中的姿态。这样，能够关联视频中连续多帧图片中的前后两帧图片，进行连续跟踪，从而确定出更加精确的目标跟踪对象，并在此基础上，对精确确定的目标跟踪对象实现多人姿态识别，有效提高了多人姿态识别的准确性。

请参阅图5、图6，图5为本申请实施例所提供的一种多人姿态的估计装置的结构示意图之一，图6为本申请实施例所提供的一种多人姿态的估计装置的结构示意图之二。如图5中所示，所述估计装置500包括：

检测模块510，用于检测连续多帧图片中当前帧图片中的人体对象，以获得所述当前帧图片中至少一个人体对象的框图的坐标信息；所述当前帧图片为所述连续多帧图片中的非第一帧图片；

第一确定模块520，用于基于所述至少一个人体对象的框图的坐标信息，确定待处理人体对象；

匹配度确定模块530，用于基于所述待处理人体对象的框图的坐标信息和预存的所述当前帧图片的前一帧图片中的目标跟踪对象的框图的坐标信息，获取每个待处理人体对象分别与所述前一帧图片中的每个目标跟踪对象之间的匹配度；

第二确定模块540，用于基于获取的匹配度，确定所述当前帧图片中的目标跟踪对象；

姿态确定模块550，用于利用所述当前帧图片中的目标跟踪对象的框图的坐标信息，确定所述当前帧图片中的目标跟踪对象在当前帧图片中的姿态。

进一步的，如图6所示，所述估计装置500还包括模型训练模块560，所述模型训练模块560用于：

进一步的，如图6所示，所述估计装置还包括存储模块570，所述存储模块570用于：

进一步的，所述第一确定模块520在用于基于所述至少一个人体对象的框图的坐标信息，确定待处理人体对象时，所述第一确定模块520用于：

进一步的，所述统计结果根据以下中的一个或者多个得到：通过该人体对象的框图的坐标信息所确定的该人体对象的框图的面积、置信度和纵横比。

进一步的，所述待处理人体对象与所述前一帧图片中的任意一个目标跟踪对象之间的匹配度根据以下中的一个或者多个得到：第一相似度、第二相似度和第三相似度；

所述第三相似度指示该待处理人体对象在当前帧图片中的移动速度与所述任意一个目标跟踪对象在所述前一帧图片中的移动速度之间的速度相似度。

可选的，所述第二确定模块540在用于基于获取的匹配度，确定所述当前帧图片中的目标跟踪对象时，所述第二确定模块540用于：

进一步的，所述姿态确定模块550在用于利用所述当前帧图片中的目标跟踪对象的框图的坐标信息，确定所述当前帧图片中的目标跟踪对象在当前帧图片中的姿态时，所述姿态确定模块550用于：

进一步的，所述第一人体部位包括以下至少一项：头部、颈部、肩部、肘部、手腕部、手肘部、臀部、膝部和脚部；所述第二人体部位包括手肘部和手腕部。

进一步的，所述姿态确定模块550在用于利用当前帧图片中的目标跟踪对象的框图的坐标信息进行整体姿态估计，得到所述当前帧图片中的目标跟踪对象的第一人体部位的关键点坐标时，所述姿态确定模块550用于：

所述姿态确定模块550在用于利用所述第一人体部位中的第二人体部位的关键点坐标进行局部姿态估计，得到所述当前帧图片中的目标跟踪对象的第三人体部位的关键点坐标时，所述姿态确定模块550用于：

本申请实施例提供的多人姿态的估计装置，检测连续多帧图片中的当前帧图片中的人体对象，以获得当前帧图片中至少一个人体对象的框图的坐标信息；当前帧图片为连续多帧图片中的非第一帧图片；基于所述至少一个人体对象的框图的坐标信息，确定待处理人体对象；基于待处理人体对象的框图的坐标信息和预存的当前帧图片的前一帧图片中的目标跟踪对象的框图的坐标信息，获取每个待处理人体对象分别与前一帧图片中的每个目标跟踪对象之间的匹配度；基于获取的匹配度，确定当前帧图片中的目标跟踪对象；利用当前帧图片中的目标跟踪对象的框图的坐标信息，确定当前帧图片中的目标跟踪对象在当前帧图片中的姿态。这样，能够关联视频中连续多帧图片中的前后两帧图片，进行连续跟踪，从而确定出更加精确的目标跟踪对象，并在此基础上，对精确确定的目标跟踪对象实现多人姿态识别，通过这种方式有效提高了多人姿态识别的准确性。

请参阅图7，图7为本申请实施例所提供的一种电子设备的结构示意图。如图7中所示，所述电子设备700包括处理器710、存储器720和总线730。

所述存储器720存储有所述处理器710可执行的机器可读指令，当电子设备700运行时，所述处理器710与所述存储器720之间通过总线730通信，所述机器可读指令被所述处理器710执行时，可以执行如上述图1所示方法实施例中的多人姿态的估计方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的多人姿态的估计方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种多人姿态的估计方法，其特征在于，所述估计方法包括：

基于所述待处理人体对象的框图的坐标信息和所述当前帧的前一帧图片中的目标跟踪对象的框图的坐标信息，获取每个待处理人体对象分别与所述前一帧图片中的每个目标跟踪对象之间的匹配度；

2.如权利要求1所述的估计方法，其特征在于，所述基于所述至少一个人体对象的框图的坐标信息，确定待处理人体对象，包括：

3.如权利要求2所述的估计方法，其特征在于，所述统计结果根据以下中的一个或者多个得到：通过该人体对象的框图的坐标信息所确定的该人体对象的框图的面积、置信度和纵横比。

4.如权利要求1所述的估计方法，其特征在于，所述待处理人体对象与所述前一帧图片中的任意一个目标跟踪对象之间的匹配度根据以下中的一个或者多个得到：第一相似度、第二相似度和第三相似度；

所述第三相似度指示该待处理人体对象在所述当前帧图片中的移动速度与所述任意一个目标跟踪对象在所述前一帧图片中的移动速度之间的速度相似度。

5.如权利要求1所述的估计方法，其特征在于，所述基于获取的匹配度，确定所述当前帧图片中的目标跟踪对象，包括：

6.如权利要求1所述的估计方法，其特征在于，所述利用所述当前帧图片中的目标跟踪对象的框图的坐标信息，确定所述当前帧图片中的目标跟踪对象在当前帧图片中的姿态，包括：

7.如权利要求6所述的估计方法，其特征在于，所述第一人体部位包括以下至少一项：头部、颈部、肩部、肘部、手腕部、手肘部、臀部、膝部和脚部；所述第二人体部位包括手肘部和手腕部。

8.如权利要求6所述的估计方法，其特征在于，所述利用当前帧图片中的目标跟踪对象的框图的坐标信息进行整体姿态估计，得到所述当前帧图片中的目标跟踪对象的第一人体部位的关键点坐标，包括：

9.如权利要求8所述的估计方法，其特征在于，所述整体姿态估计模型和/或所述局部姿态估计模型通过以下模型训练方式进行训练：

10.如权利要求8所述的估计方法，其特征在于，所述将所述当前帧图片以及所述当前帧图片中的目标跟踪对象的框图的坐标信息输入预先训练好的整体姿态估计模型，获得所述当前帧图片中的目标跟踪对象的第一人体部位的关键点坐标，包括：

11.根据权利要求1所述的估计方法，其特征在于，所述估计方法还包括：

12.一种多人姿态的估计装置，其特征在于，所述估计装置包括：

13.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至11任一所述多人姿态的估计方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至11任一所述多人姿态的估计方法的步骤。