CN110659570A

CN110659570A - 目标对象姿态跟踪方法、神经网络的训练方法及装置

Info

Publication number: CN110659570A
Application number: CN201910774291.2A
Authority: CN
Inventors: 张家斌; 朱政; 黄冠
Original assignee: Beijing Horizon Information Technology Co Ltd
Current assignee: Beijing Horizon Information Technology Co Ltd
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2020-01-07

Abstract

公开了一种目标对象姿态跟踪方法、神经网络的训练方法及装置。其中的目标对象姿态跟踪方法包括：获取当前帧中的各目标对象的第一位置信息、各目标对象的第一关键点信息以及各目标对象的第一特征向量；根据历史帧中的各目标对象的第二位置信息和各目标对象的第二特征向量以及所述当前帧中的各目标对象的第二第一位置信息和各目标对象的第一特征向量，确定所述当前帧和历史帧中属于同一个目标对象的第一关键点信息。本公开提供的技术方案有利于提高目标对象姿态跟踪的实时性。

Description

目标对象姿态跟踪方法、神经网络的训练方法及装置

技术领域

本公开涉及计算机视觉技术，尤其是一种目标对象姿态跟踪方法、目标对象姿态跟踪装置、神经网络的训练方法、神经网络的训练装置、存储介质以及电子设备。

背景技术

目标对象姿态跟踪技术可以应用于人机交互、视觉监控、体育运动分析、医疗诊断、虚拟现实以及增强现实等多种领域。

目标对象姿态跟踪的实时性是影响目标对象姿态跟踪技术能否被实际应用的关键问题之一。如何提高目标对象姿态跟踪技术的实时性，是一个值得关注的技术问题。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种目标对象姿态跟踪方法、神经网络的训练方法及装置。

根据本公开实施例的一个方面，提供一种目标对象姿态跟踪方法，该方法包括：获取当前帧中的各目标对象的第一位置信息、各目标对象的第一关键点信息以及各目标对象的第一特征向量；根据历史帧中的各目标对象的第二位置信息和各目标对象的第二特征向量以及所述当前帧中的各目标对象的第二第一位置信息和各目标对象的第一特征向量，确定所述当前帧和历史帧中属于同一个目标对象的第一关键点信息。

根据本公开实施例的另一个方面，提供一种神经网络的训练方法，该方法包括：获取多个图像样本；将所述多个图像样本分别提供给待训练的神经网络，经由所述待训练的神经网络对多个图像样本分别进行包络框检测处理、关键点检测处理以及特征向量提取处理；根据所述待训练的神经网络的输出，获得所述多个图像样本中的各目标对象的第三位置信息、各目标对象的第三关键点信息以及各目标对象的第三特征向量；对所述第三特征向量进行分类处理，获得各目标对象的身份标识；根据所述多个图像样本中的目标对象的位置标注信息分别与所述获得的各目标对象的第三位置信息之间的差异、所述多个图像样本中的目标对象的关键点标注信息与所述获得的各目标对象的第三关键点信息之间的差异、以及所述多个图像样本中的目标对象的身份标识标注信息与所述获得的各目标对象的身份标识之间的差异，调整所述待训练的神经网络的网络参数。

根据本公开实施例的又一个方面，提供一种目标对象姿态跟踪装置，该装置包括：获取模块，用于获取当前帧中的各目标对象的第一位置信息、各目标对象的第一关键点信息以及各目标对象的第一特征向量；跟踪处理模块，用于根据历史帧中的各目标对象的第二位置信息和各目标对象的第二特征向量以及所述获取模块获取到的当前帧中的各目标对象的第二第一位置信息和各目标对象的第一特征向量，确定所述当前帧和历史帧中属于同一个目标对象的第一关键点信息。

根据本公开实施例的再一个方面，提供一种神经网络的训练装置，该装置包括：获取样本模块，用于获取多个图像样本；检测提取模块，用于将所述获取样本模块获取的多个图像样本分别提供给待训练的神经网络，经由所述待训练的神经网络对多个图像样本分别进行包络框检测处理、关键点检测处理以及特征向量提取处理，并根据所述待训练的神经网络的输出，获得所述多个图像样本中的各目标对象的第三位置信息、各目标对象的第三关键点信息以及各目标对象的第三特征向量；分类处理模块，用于对所述检测提取模块获得的第三特征向量进行分类处理，获得各目标对象的身份标识；参数调整模块，用于根据所述多个图像样本中的目标对象的位置标注信息分别与所述检测提取模块获得的各目标对象的第三位置信息之间的差异、所述多个图像样本中的目标对象的关键点标注信息与所述检测提取模块获得的各目标对象的第三关键点信息之间的差异、以及所述多个图像样本中的目标对象的身份标识标注信息与所述分类处理模块获得的各目标对象的身份标识之间的差异，调整所述待训练的神经网络的网络参数。

根据本公开实施例的再一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述目标对象姿态跟踪方法或者上述神经网络的训练方法。

根据本公开实施例的又一方面，提供了一种电子设备，该电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述目标对象姿态跟踪方法或者上述神经网络的训练方法。

基于本公开上述实施例提供的一种目标对象姿态跟踪方法以及目标对象姿态跟踪装置，通过一次性的获取当前帧中的各目标对象的第一位置信息、各目标对象的第一关键点信息以及各目标对象的第一特征向量，可以利用目标对象的第一位置信息和目标对象的第一特征向量，快捷的确定出当前帧和历史帧中，属于同一个目标对象的关键点信息。由此可知，本公开提供的技术方案有利于提高目标对象姿态跟踪的实时性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同描述一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1-1至图1-5为本公开所适用的场景示意图；

图2为本公开的目标对象姿态跟踪方法一个实施例的流程示意图；

图3为本公开的确定当前帧和历史帧中，属于同一个目标对象的第一关键点信息；

图4为本公开的图3中的S301的一个实施例的流程示意图；

图5-1至图5-2为本公开的图3中的S301的一个实施例的示意图；

图6为本公开的神经网络的训练方法一个实施例的流程示意图；

图7为本公开的获取多个图像样本的一个实施例的流程示意图；

图8为本公开的目标对象状态识别装置一个实施例的结构示意图；

图9为本公开的神经网络的训练装置一个实施例的结构示意图；

图10为本公开的神经网络一个实施例的结构示意图；

图11是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或者两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅是一种描述关联对象的关联关系，表示可以存在三种关系，如A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开的实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或者专用计算系统环境或配置一起操作。适于与终端设备、计算机系统或者服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施。在分布式云计算环境中，任务可以是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

本公开概述

在实现本公开的过程中，发明人发现，通过两阶段或者通过更多阶段，来实现目标对象姿态跟踪，往往会影响目标对象姿态跟踪的实时性。

一个例子，如果先对视频帧进行人体检测处理，并根据人体检测处理结果获得视频帧中的单人图像，然后，再对单人图像进行姿态检测处理，并根据姿态检测处理结果实现帧间姿态跟踪，则其中的姿态检测处理需要在人体检测处理完成之后才能够执行。

另一个例子，如果先检测视频帧中的所有人体关键点，然后，再根据检测到的人体关键点进行人体姿态检测处理，最后，根据人体姿态检测处理结果，利用跟踪算法实现帧间姿态跟踪，则其中的人体姿态检测处理需要在人体关键点检测处理完成之后才能够执行。

由于一个目标对象在相邻帧中的位置信息以及特征向量，具有一定的关联性，因此，利用不同帧中的各目标对象的位置信息和特征向量，可以确定出不同帧中的同一个目标对象。如果在获得不同帧中的各目标对象的位置信息以及特征向量的同时，获得各目标的关键点信息，则可以快捷的确定出同一个目标对象在不同帧中的关键点位置变化，从而快捷的实现目标对象的姿态跟踪。

示例性概述

利用本公开提供的目标对象姿态跟踪技术的一个应用，可以如图1-1至图1-5所示。

图1-1至图1-5示出了视频中的五个视频帧，即视频帧100、视频帧101、视频帧102、视频帧103以及视频帧104。这五个视频帧是视频中的在时序上前后相邻的视频帧。

假定需要对视频中的每一个人均进行目标对象姿态跟踪，则利用本公开提供的技术，不仅可以快速的确定出视频帧100中的包络框1001、视频帧101中的包络框1011、视频帧102中的包络框1021、视频帧103中的包络框1031、视频帧104中的包络框1041中的目标对象为同一个目标对象，该目标对象的标识(ID)均为2，且标识为2的目标对象在频帧100、视频帧101、视频帧102、视频帧103以及视频帧104中的骨骼关键点可以表示出该目标对象的姿态；而且，还可以快速的确定出视频帧100中的包络框1002、视频帧101中的包络框1012、视频帧102中的包络框1022、视频帧103中的包络框1032以及视频帧104中的包络框1042为同一个目标对象，该目标对象的标识均为3，且标识为3的目标对象在频帧100、视频帧101、视频帧102、视频帧103以及视频帧104中的骨骼关键点可以表示出该目标对象的姿态。

示例性方法

图2为本公开的目标对象姿态跟踪方法的一个例子的流程。如图2所示，该实施例的方法包括步骤：S200以及S201。下面对各步骤分别进行说明。

S200、获取当前帧中的各目标对象的第一位置信息、各目标对象的第一关键点信息以及各目标对象的第一特征向量。

本公开中的当前帧可以称为当前视频帧。本公开中的目标对象通常是指需要进行姿态跟踪的客体该目标对象通常包括但不限于：人。本公开中的当前帧中的各目标对象可以是指当前帧中的一个或者多个目标对象。

本公开中的目标对象的第一位置信息可以是指目标对象在当前帧的二维坐标系中的坐标。由于目标对象通常会占据当前帧中的一定区域，因此，目标对象的第一位置信息可以是当前帧中的目标对象的包络框在当前帧中的位置信息。目标对象的包络框也可以称为目标对象的外接框或者目标对象的检测框等。目标对象的包络框通常是指将目标对象框于其中的长方形。

本公开中的目标对象的第一关键点信息可以是指：用于描述当前帧中的目标对象身体上的相应部位的信息。也就是说，目标对象的第一关键点信息可以描述出目标对象在当前帧中的姿态。通常情况下，目标对象的第一关键点信息可以为当前帧中的目标对象的骨骼关键点信息。

本公开中的目标对象的第一特征向量可以是指用于描述当前帧中的目标对象的外在特征的信息。

S201、根据历史帧中的各目标对象的第二位置信息和各目标对象的第二特征向量以及当前帧中的各目标对象的第一位置信息和各目标对象的第一特征向量，确定当前帧和历史帧中属于同一个目标对象的第一关键点信息。

本公开中的历史帧是指视频中的在时序上位于当前帧之前的视频帧。通常情况下，历史帧可以为在时序上位于当前帧之前，且与当前帧相邻的视频帧。

本公开中的目标对象的第二位置信息可以是指目标对象在历史帧的二维坐标系中的坐标。由于目标对象通常会占据历史帧中的一定区域，因此，目标对象的第二位置信息可以是历史帧中的目标对象的包络框信息。

本公开中的目标对象的第二关键点信息可以是指：用于描述历史帧中的目标对象身体上的相应部位的信息。通常情况下，目标对象的第二关键点信息可以为历史帧中的目标对象的骨骼关键点信息。

本公开中的目标对象的第二特征向量可以是指用于描述历史帧中的目标对象的外在特征的信息。

本公开可以根据历史帧中的各目标对象的第二位置信息和各目标对象的第二特征向量以及当前帧中的各目标对象的第一位置信息和各目标对象的第一特征向量，确定出历史帧中的各目标对象与当前帧中的各目标对象之间的对应关系，从而本公开可以获得当前帧中的一目标对象的第一关键点信息与历史帧中的一目标对象的第二关键点信息是属于同一目标对象的关键点信息。

由于一目标对象的第一关键点信息可以描述出该目标对象在当前帧中的姿态，而该目标对象在历史帧中的第二关键点信息可以描述出该目标对象在历史帧中的姿态，因此，对于该目标对象而言，如果获知该目标对象在历史帧中的第二关键点信息，并获知该目标对象在当前帧中的的第一关键点信息，则实现了针对该目标对象的姿态跟踪。

本公开通过一次性的获取当前帧中的各目标对象的第一位置信息、各目标对象的第一关键点信息以及各目标对象的第一特征向量，可以利用目标对象的第一位置信息和目标对象的第一特征向量，快捷的确定出当前帧和历史帧中，属于同一个目标对象的关键点信息。由此可知，本公开提供的技术方案有利于提高目标对象姿态跟踪的实时性。

在一个可选示例中，本公开可以利用一神经网络，来获得当前帧中的各目标对象的第一位置信息、各目标对象的第一关键点信息以及各目标对象的第一特征向量。也就是说，本公开可以将当前帧提供给神经网络，经由该神经网络对当前帧同时进行目标对象的包络框检测处理、目标对象的关键点检测处理以及目标对象的特征向量提取处理，从而本公开可以根据该神经网络输出的信息，同时获得当前帧中的各目标对象的第一位置信息、第一关键点信息以及第一特征向量。例如，将当前帧提供给神经网络，该神经网络利用其至少一卷积层对当前帧进行图像特征提取处理，获得当前帧的图像特征，之后，该神经网络继续对图像特征进行目标对象的包络框检测处理、目标对象的关键点检测处理以及目标对象的特征向量提取处理，并输出当前帧中的各目标对象的第一位置信息、第一关键点信息以及第一特征向量。

可选的，目标对象的第一位置信息可以为目标对象的包络框的左上角顶点的坐标以及包络框的长和宽。目标对象的第一关键点信息可以为：目标对象的骨骼关键点信息，例如，目标对象的骨骼关键点的坐标以及骨骼关键点的置信度。目标对象的第一特征向量可以为：目标对象的多维特征向量，例如，128维人体特征向量。

可选的，一个目标对象的骨骼关键点的数量通常是预先设定的，如14个骨骼关键点或者17个骨骼关键点或者更多数量的骨骼关键点等。以人体为例，上述14个骨骼关键点可以包括：右肩关键点、右肘关键点、右腕关键点、左肩关键点、左肘关键点、左腕关键点、右髋关键点、右膝关键点、右踝关键点、左髋关键点、左膝关键点、左踝关键点、头顶关键点以及脖子关键点。上述17个骨骼关键点可以包括：骨盆关键点、胸部关键点、右肩关键点、右肘关键点、右腕关键点、左肩关键点、左肘关键点、左腕关键点、右髋关键点、右膝关键点、右踝关键点、左髋关键点、左膝关键点、左踝关键点、头部关键点、头顶关键点以及脖子关键点。需要特别说明的是，对于其他具有关节的可移动物体而言，骨骼关键点的数量可以视可移动物体的具体情形而定，本公开对此不做限制。

可选的，本公开中的神经网络可以包括：主干单元、候选区域提取单元以及三个分支单元。其中的主干单元用于提取输入视频帧的图像特征，候选区域提取单元用于确定主干单元输出的图像特征中的多个候选区域，并输出各候选区域图像特征，其中的三个分支单元分别与候选区域提取单元连接，即候选区域提取单元输出的候选区域图像特征分别提供给三个分支单元。其中第一个分支单元用于根据候选区域提取单元输出的各候选区域图像特征进行目标对象的包络框检测处理，输出包络框信息。其中第二个分支单元用于根据候选区域提取单元输出的各候选区域图像特征进行目标对象的关键点检测处理，输出目标对象的关键点信息。其中第三个分支单元用于根据候选区域提取单元输出的各候选区域图像特征进行目标对象的特征向量提取处理。本公开中的神经网络的结构可以参见下述针对图10的描述。

通过利用神经网络，可以便捷准确的一次性获取到当前帧中的各目标对象的第一位置信息、第一关键点信息以及第一特征向量，从而有利于提高目标对象姿态跟踪的实时性。

在一个可选示例中，本公开S201中的确定当前帧和历史帧中，属于同一个目标对象的第一关键点信息的实现方式可以如图3所示。

S300、将当前帧中的第一关键点信息符合第一预设条件的目标对象，作为当前帧的待处理目标对象。

可选的，本公开是利用第一预设条件对当前帧中的各目标对象进行筛选，以筛选出的第一关键点信息符合第一预设条件的目标对象，筛选出的目标对象才会参与后续的处理，而第一关键点信息不符合第一预设条件的目标对象，则不会参与后续的处理。

可选的，本公开中的第一预设条件可以是用于衡量目标对象的第一关键点信息的质量的条件。第一预设条件可以根据实际需求设置。例如，第一预设条件可以基于关键点的未被遮挡情况来设置，此时，第一预设条件可以称为预设未遮挡条件。一个更为具体的例子，第一预设条件可以包括但不限于：未被遮挡关键点的数量是否达到或者超过预定阈值。当然，第一预设条件也可以包括：预定关键点(如目标对象身上的重要的关键点)是否未被遮挡等。

可选的，本公开可以根据当前帧中的各目标对象的第一关键点信息，确定各目标对象的未被遮挡关键点，之后，将未被遮挡关键点符合预设未遮挡条件的目标对象，作为待处理目标对象。也就是说，针对当前帧中的每一个目标对象，本公开均判断该目标对象的未被遮挡关键点是否符合预设未遮挡条件，如果符合预设未遮挡条件，则将该目标对象作为待处理目标对象，如果不符合预设未遮挡条件，则不会将该目标对象作为待处理目标对象。

一个例子，在第一预设条件包括：未被遮挡关键点的数量是否达到或者超过预定阈值的情况下，针对当前帧中的每一个目标对象，本公开均判断该目标对象的未被遮挡关键点的数量是否达到或者超过预定阈值，如果达到或者超过预定阈值，则将该目标对象作为待处理目标对象，如果未达到或者未超过预定阈值，则不会将该目标对象作为待处理目标对象。

在目标对象被遮挡到一定程度时，可能会存在姿态跟踪的必要性大幅降低的情况，而且，可能会对姿态跟踪的准确性产生较大的影响。本公开通过利用预设未遮挡条件来筛选目标对象，可以避免目标对象被遮挡到一定程度时，仍然针对该目标对象进行姿态跟踪处理操作的现象，从而有利于避免执行不必要的处理操作，进一步有利于提高目标对象姿态跟踪的实时性，并有利于提高目标对象姿态跟踪的准确性。

S301、根据历史帧中的各目标对象的第二位置信息和历史帧中的各目标对象的第二特征向量、以及各待处理目标对象的第一位置信息和各待处理目标对象的第一特征向量，确定当前帧和历史帧中，属于同一个目标对象的第一关键点信息。

可选的，本公开可以利用特征向量之间的距离以及位置信息所表示的区域的重叠情况，确定出当前帧中的每一个目标对象分别与历史帧中的相应的目标对象是同一个目标对象。

本公开通过针对目标对象的第一关键点信息设置第一预设条件，可以对不符合第一预设条件的目标对象，不执行后续的姿态跟踪处理操作，避免对不必要的跟踪对象进行实时跟踪，进而避免不必要的计算量，从而进一步有利于提高目标对象姿态跟踪的实时性。

下面结合图4和图5对本公开中的S301的一个具体实现方式进行说明。图4所示的流程包括步骤：S400、S401以及S402。

S401、根据当前帧中的各待处理目标对象的第一位置信息和历史帧中的各目标对象的第二位置信息，确定各待处理目标对象的区域与所述历史帧中的各目标对象的区域的重叠信息。

可选的，本公开可以针对当前帧中的任一个待处理目标对象，根据该待处理目标对象的第一位置信息(例如，该待处理目标对象的包络框的中心点坐标以及包络框的长和宽)，确定出该待处理目标对象在当前帧中的区域。本公开可以针对历史帧中的任一个目标对象，根据该目标对象的第二位置信息(例如，该目标对象的包络框的中心点坐标以及包络框的长和宽)，确定出该目标对象在历史帧中的区域。

针对当前帧中的任一个待处理目标对象而言，本公开可以确定出该待处理目标对象的区域分别与历史帧中的每一个目标对象的区域的重叠信息。两个区域的重叠信息可以反映出：两个包络框是否属于同一个目标对象。本公开中的两个区域的重叠信息可以包括但不限于：两个区域的交并比(IoU)。假定当前帧中的待处理目标对象的数量为M，而历史帧中的目标对象的数量为N，则本公开可以计算出M×N个交并比。

一个更具体的例子，图5-1至图5-2示出了视频中的两个视频帧，即视频帧500以及视频帧501。视频帧500以及视频帧501是视频中的在时序上前后相邻的视频帧。假定需要对视频中的每一个人均进行目标对象姿态跟踪，并假定视频帧501中的目标对象的第一关键点均符合预设未遮挡条件。在视频帧500为历史帧，且视频帧501为当前帧的情况下，本公开可以计算出视频帧500中的包络框5001分别与视频帧501中的包络框5011、包络框5012以及包络框5013之间的交并比，并计算出视频帧500中的包络框5002分别与视频帧501中的包络框5011、包络框5012以及包络框5013之间的交并比，同时还会计算出视频帧500中的包络框5003分别与视频帧501中的包络框5011、包络框5012以及包络框5013之间的交并比，从而获得9个交并比，即IoU_1,1、IoU_1,2、IoU_1,3、IoU_2,1、IoU_2,2、IoU_2,3、IoU_3,1、IoU_3,2、IoU_3,3。

S402、确定当前帧中的各待处理目标对象的第一特征向量与历史帧中的各目标对象的第二特征向量的距离。

可选的，本公开中的距离用于表征特征向量之间的相似度。该距离可以包括但不限于：余弦距离、欧式距离等。

可选的，针对当前帧中的任一个待处理目标对象而言，本公开可以计算出该待处理目标对象的第一特征向量分别与历史帧中的每一个目标对象的第二特征向量之间的余弦距离。两个特征向量之间的余弦距离可以反映出：两个特征向量之间的相似度。假定当前帧中的待处理目标对象的数量为M，而历史帧中的目标对象的数量为N，则本公开可以计算出M×N个余弦距离。

续前述针对图5-1至图5-2的例子，本公开可以计算出包络框5001中的目标对象的第一特征向量f₁分别与包络框5011中的目标对象的第二特征向量f'₁、包络框5012中的目标对象的第二特征向量f'₂以及包络框5013中的目标对象的第二特征向量f'₃之间的余弦距离，并计算出包络框5002中的目标对象的第一特征向量f₂分别与包络框5011中的目标对象的第二特征向量f'₁、包络框5012中的目标对象的第二特征向量f'₂以及包络框5013中的目标对象的第二特征向量f'₃之间的余弦距离，同时还会计算出包络框5003中的目标对象的第一特征向量f₃分别与包络框5011中的目标对象的第二特征向量f'₁、包络框5012中的目标对象的第二特征向量f'₂以及包络框5013中的目标对象的第二特征向量f'₃之间的余弦距离，从而获得9个余弦距离，即dist(f₁,f'₁)、dist(f₁,f'₂)、dist(f₁,f'₃)、dist(f₂,f'₁)、dist(f₂,f'₂)、dist(f₂,f'₃)、dist(f₃,f'₁)、dist(f₃,f'₂)、dist(f₃,f'₃)。

S403、根据上述区域的重叠信息以及上述距离，确定当前帧和历史帧中，属于同一个目标对象的关键点信息。

可选的，本公开可以根据上述区域的重叠信息以及上述距离，利用匈牙利算法，确定当前帧和历史帧中，属于同一个目标对象的关键点信息。具体的，本公开可以根据当前帧中的一个待处理目标对象的区域与历史帧中的一个目标对象的区域的重叠信息、以及该待处理目标对象的第一特征向量和该目标对象的第二特征向量间的距离，形成一个用于表征两个目标对象之间的相似程度的数值，并将该数值作为矩阵中的一个元素，从而本公开可以根据当前帧中的每一个待处理目标对象的区域与历史帧中的每一个目标对象的区域的重叠信息、以及当前帧中的每一个待处理目标对象的第一特征向量和历史帧中的每一个目标对象的第二特征向量间的距离，形成矩阵中的所有元素，然后，本公开可以通过匈牙利算法对该矩阵进行求解，从而可以确定出矩阵中的相应元素表示同一个目标对象。

一个更具体的例子，假定当前帧中的待处理目标对象的数量为M，而历史帧中的目标对象的数量为N，则本公开可以获得M×N个交并比，并获得M×N个余弦距离，本公开可以利用下述公式(1)对M×N个交并比和M×N个余弦距离进行计算，从而获得矩阵中的M×N个元素(即M×N个S)。该矩阵的行数是当前帧中的待处理目标对象的数量，该矩阵的列数是历史帧中的目标对象的数量，该矩阵中的第i行第j列的元素是由当前帧中的第i个待处理目标对象和历史帧中的第j个目标对象的交并比和余弦距离所形成的数值。本公开利用匈牙利算法对该矩阵进行求解，可以根据求解结果确定出矩阵中的相应元素表示同一个目标对象，例如，如果求解的结果中包含有第i行第j列的元素，则可以认为当前帧中的第i个待处理目标对象和历史帧中的第j个目标对象是同一个目标对象。

在上述公式(1)中，S_i,j表示矩阵中的第i行第j列的元素；θ表示预先设置的权重值，也可以将θ称为超参数，例如，θ可以为0.5等；IoU_i,j表示当前帧中的第i个待处理目标对象的区域与历史帧中的第j个目标对象的区域之间的交并比；dist(f_i,f'_j)表示当前帧中的第i个待处理目标对象的第一特征向量f_i与历史帧中的第j个目标对象的第二特征向量f'_j之间的余弦距离；σ_max为对余弦距离归一化处理的归一化因子，可以认为σ_max是余弦距离的上限。通常情况下，σ_max并不是余弦距离的最大值，σ_max的取值大小可以根据实际需求设置，例如，σ_max可以为0.0125等。

续前述针对图5-1至图5-2的例子，本公开可以根据IoU_1,1和dist(f₁,f'₁)利用上述公式(1)计算获得S_1,1；本公开可以根据IoU_1,2和dist(f₁,f'₂)利用上述公式(1)计算获得S_1,2；本公开可以根据IoU_1,3和dist(f₁,f'₃)利用上述公式(1)计算获得S_1,3；本公开可以根据IoU_2,1和dist(f₂,f'₁)利用上述公式(1)计算获得S_2,1；本公开可以根据IoU_2,2和dist(f₂,f'₂)利用上述公式(1)计算获得S_2,2；本公开可以根据IoU_2,3和dist(f₂,f'₃)利用上述公式(1)计算获得S_2,3；本公开可以根据IoU_3,1和dist(f₃,f'₁)利用上述公式(1)计算获得S_3,1；本公开可以根据IoU_3,2和dist(f₃,f'₂)利用上述公式(1)计算获得S_3,2；本公开可以根据IoU_3,3和dist(f₃,f'₃)利用上述公式(1)计算获得S_3,3。本公开可以利用S_1,1、S_1,2、S_1,3、S_2,1、S_2,2、S_2,3、S_3,1、S_3,2以及S_3,3形成3×3的矩阵。

本公开利用匈牙利算法对该矩阵进行求解。假定求解的结果包括：S_1,1、S_2,2和S_3,3，则本公开可以确定出：

1、包络框5001中的目标对象的骨骼关键点信息和包络框5011中的目标对象的骨骼关键点信息是同一个目标对象的骨骼关键点信息，该目标对象在视频帧500和视频帧501中应具有相同标识，如ID为2。

2、包络框5002中的目标对象的骨骼关键点信息和包络框5012中的目标对象的骨骼关键点信息是同一个目标对象的骨骼关键点信息，该目标对象在视频帧500以及视频帧501中应具有相同的标识，如ID为5。

3、包络框5003中的目标对象的骨骼关键点信息和包络框5013中的目标对象的骨骼关键点信息是同一个目标对象的骨骼关键点信息，该目标对象在视频帧500以及视频帧501中应具有相同的标识，如ID为6。

本公开通过利用当前帧中的目标对象和历史帧中的目标对象的区域的重叠信息以及当前帧中的目标对象和历史帧中的目标对象的特征向量之间的距离，可以准确便捷的确定出当前帧和历史帧中的同一个目标对象；通过形成矩阵，并利用匈牙利算法对该矩阵进行求解，进一步提高了确定出当前帧和历史帧中的同一个目标对象的准确性；从而在保证目标对象姿态跟踪的准确性的同时，有利于提高目标对象姿态跟踪的实时性。

本公开提供的神经网络的训练方法的一个实施例的流程如图6所示。图6所示的流程包括步骤：S600、S601、S602、S603以及S604。

S600、获取多个图像样本。

可选的，本公开中的图像样本可以是视频中的视频帧或者照片等图像。各图像样本均设置有标注信息。一个图像样本的标注信息可以包括但不限于：位置标注信息、关键点标注信息以及身份标识标注信息。其中的位置标注信息包括：目标对象的包络框的中心点坐标以及长和宽。其中的关键点标注信息包括：关键点标识以及关键点坐标。其中的身份标识标注信息包括：编号，如身份ID等。获取多个图像样本的一个例子如下述针对图7的描述。

S601、将多个图像样本分别提供给待训练的神经网络，经由待训练的神经网络对多个图像样本分别进行包络框检测处理、关键点检测处理以及特征向量提取处理。

可选的，本公开中的待训练的神经网络可以包括：主干单元、候选区域提取单元以及三个分支单元，待训练的神经网络的结构可以参见下述针对图10的描述。

S602、根据待训练的神经网络的输出，获得多个图像样本中的各目标对象的第三位置信息、各目标对象的第三关键点信息以及各目标对象的第三特征向量。

可选的，本公开可以根据待训练的神经网络中的第一个分支单元的输出，获得图像样本中的目标对象的位置信息，即第三位置信息。本公开可以根据待训练的神经网络中的第二个分支单元的输出，获得图像样本中的目标对象的关键点信息，即第三关键点信息。本公开可以根据待训练的神经网络中的第三个分支单元的输出，获得图像样本中的目标对象的特征向量，即第三特征向量。

S603、对第三特征向量进行分类处理，获得各目标对象的身份标识。

可选的，本公开可以利用分类处理单元对第三特征向量进行分类处理，从而获得各目标对象的身份标识。本公开中的分类处理单元可以包括但不限于：全连接层。需要特别说明的是，分类处理单元需要和本公开中的待训练的神经网络一起进行训练，然而，分类处理单元并不属于本公开的神经网络，即在成功训练完成后，分类处理单元并不会应用于目标对象姿态跟踪的过程中。

S604、根据多个图像样本中的目标对象的位置标注信息分别与获得的各目标对象的第三位置信息之间的差异、多个图像样本中的目标对象的关键点标注信息与获得的各目标对象的第三关键点信息之间的差异、以及多个图像样本中的目标对象的身份标识标注信息与获得的各目标对象的身份标识之间的差异，调整待训练的神经网络的网络参数。另外，本公开在调整待训练的神经网络的网络参数的同时，也需要调整分类处理单元中的相关参数。

可选的，本公开可以利用相应的损失函数对上述差异进行损失计算，并根据计算结果形成反向传播，以调整待训练的神经网络的网络参数。待训练的神经网络的网络参数可以包括但不限于：卷积核参数和/或矩阵权重等。

可选的，在针对待训练的神经网络的训练达到预定迭代条件时，本次训练过程结束。本公开中的预定迭代条件可以包括：利用损失函数计算出的损失，满足预定要求。在计算出的损失满足预定要求的情况下，本次对神经网络成功训练完成。本公开中的预定迭代条件也可以包括：对待训练的神经网络进行训练，所使用的图像样本的数量达到预定数量要求等。在使用的图像样本的数量达到预定数量要求，然而，计算出的损失并未满足预定要求的情况下，本次对神经网络并未训练成功。成功训练完成的神经网络可以用于目标对象的姿态跟踪处理。

本公开通过上述训练过程，可以获得本公开中的用于目标对象姿态跟踪的神经网络。由于本公开可以在不需要借助其他神经网络的情况下，仅根据该神经网络的输出完成目标对象姿态跟踪，因此，本公开中的该神经网络可以称为端到端的神经网络。

本公开的S600中的获取多个图像样本的一个实施例如图7所示。图7所示的流程包括：S700、S701、S702以及S703。

S700、获取待处理图像样本。

可选的，本公开中的待处理图像样本可以是指待筛选的图像样本。待处理图像样本可以为样本集合中的图像样本。

S701、根据至少一个预设缩放比例，对待处理图像样本进行缩放处理，获得至少一个缩放图像样本。

可选的，本公开中的预设缩放比例是针对长和宽的缩放比例，例如，长和宽同时缩小二分之一或者长和宽同时放大2倍等。通常情况下，预设缩放比例中的长的缩放比例和宽的缩放比例相同。在预设缩放比例为多个的情况下，由于一个待处理图像样本的所有缩放图像样本的大小均不相同，因此，一个待处理图像样本的所有缩放图像样本可以形成一金字塔状，或者说，一个待处理图像样本与其缩放图像样本一起可以形成一金字塔状。

S702、根据待处理图像样本中的目标对象的位置标注信息和预设缩放比例，确定缩放图像样本中的目标对象的区域面积。

可选的，本公开可以利用目标对象的位置标注信息中的长和宽以及预设缩放比例，计算缩放图像样本中的目标对象的区域面积。例如，缩放图像样本中的目标对象的区域面积可以为：预设缩放比例的平方、位置标注信息中的长和宽，这三者的乘积。

S703、根据缩放图像样本形成图像样本，并将图像样本中的区域面积符合第二预设条件的目标对象作为图像样本中的目标对象。

可选的，本公开可以根据神经网络对输入图像样本的大小要求，对缩放图像样本进行裁剪或者填补处理，从而形成图像样本。在对缩放图像样本进行裁剪处理时，应尽量使缩放图像样本中的目标对象的包络框完整。如果在对缩放图像样本进行裁剪处理时，使包络框被裁剪，则应更新目标对象的包络框标注信息，同时，该目标对象的区域面积也应发生变化。

可选的，本公开中的第二预设条件可以为：图像样本中的目标对象的区域面积的开平方是否属于预定面积范围内。例如，预定面积范围可以为[16，560]。也就是说，如果图像样本中的一个目标对象的区域面积的开平方获得的数值属于[16，560]，则可以将目标对象作为图像样本中的目标对象，否则，不会将该目标对象作为图像样本中的目标对象。例如，可以将图像样本中的该目标对象的标注信息设置为无效的标注信息。

本公开通过利用缩放方式形成图像样本，并利用第二预设条件对图像样本中的目标对象进行筛选，在有利于使图像样本更加丰富的同时，避免了过大或者过小的目标对象对神经网络训练的影响；从而有利于提高神经网络的训练效果。

示例性装置

图8为本公开的目标对象姿态跟踪装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述方法实施例。

如图8所示，该实施例的装置包括：获取模块800以及跟踪处理模块801。

获取模块800用于获取当前帧中的各目标对象的第一位置信息、各目标对象的第一关键点信息以及各目标对象的第一特征向量。

可选的，获取模块800可以将当前帧提供给神经网络，经由神经网络对当前帧进行包络框检测处理，得到各目标对象的第一位置信息；经由神经网络对当前帧进行关键点检测处理，得到各目标对象的第一关键点信息；经由神经网络对当前帧进行特征向量提取处理，得到各目标对象的的第一特征向量。

跟踪处理模块801用于根据历史帧中的各目标对象的第二位置信息和各目标对象的第二特征向量以及获取模块800获取到的当前帧中的各目标对象的第二第一位置信息和各目标对象的第一特征向量，确定当前帧和历史帧中属于同一个目标对象的第一关键点信息。

可选的，跟踪处理模块801可以包括：目标对象筛选子模块8011以及跟踪处理子模块8012。其中的目标对象筛选子模块8011用于将获取模块800获取到的当前帧中的第一关键点信息符合第一预设条件的目标对象，作为当前帧的待处理目标对象。例如，目标对象筛选子模块8011可以根据当前帧中的各目标对象的第一关键点信息，确定各目标对象的未被遮挡关键点，并将未被遮挡关键点符合预设未遮挡条件的目标对象，作为待处理目标对象。

跟踪处理子模块8012用于根据历史帧中的各目标对象的第二位置信息和历史帧中的各目标对象的第二特征向量、以及目标对象筛选子模块8011确定出的各待处理目标对象的第一位置信息和各待处理目标对象的第一特征向量，确定当前帧和历史帧中，属于同一个目标对象的第一关键点信息。例如，跟踪处理子模块8012可以先根据当前帧中的各待处理目标对象的第一位置信息和历史帧中的各目标对象的第二位置信息，确定各待处理目标对象的区域与所述历史帧中的各目标对象的区域的重叠信息；之后，跟踪处理子模块8012确定当前帧中的各待处理目标对象的第一特征向量与历史帧中的各目标对象的第一特征向量的距离；最后，跟踪处理子模块8012根据区域的重叠信息以及距离，确定当前帧和历史帧中，属于同一个目标对象的关键点信息。

图9为本公开的神经网络的训练装置一个实施例的结构示意图。该实施例的装置可用于实现本公开上述方法实施例。如图9所示，该实施例的装置包括：获取样本模块900、检测提取模块901、分类处理模块902以及参数调整模块903。

获取样本模块900用于获取多个图像样本。

可选的，获取样本模块900可以先获取待处理图像样本，并根据至少一个预设缩放比例，对待处理图像样本进行缩放处理，获得至少一个缩放图像样本；之后，获取样本模块900根据待处理图像样本中的目标对象的位置标注信息和预设缩放比例，确定缩放图像样本中的目标对象的区域面积；最后，获取样本模块900根据缩放图像样本形成图像样本，并将图像样本中的所述区域面积符合第二预设条件的目标对象作为图像样本中的目标对象。

检测提取模块901用于将获取样本模块900获取的多个图像样本分别提供给待训练的神经网络，经由待训练的神经网络对多个图像样本分别进行包络框检测处理、关键点检测处理以及特征向量提取处理，并根据待训练的神经网络的输出，获得多个图像样本中的各目标对象的第三位置信息、各目标对象的第三关键点信息以及各目标对象的第三特征向量。

分类处理模块902用于对检测提取模块901获得的第三特征向量进行分类处理，获得各目标对象的身份标识。

参数调整模块用于根据多个图像样本中的目标对象的位置标注信息分别与检测提取模块901获得的各目标对象的第三位置信息之间的差异、多个图像样本中的目标对象的关键点标注信息与检测提取模块901获得的各目标对象的第三关键点信息之间的差异、以及多个图像样本中的目标对象的身份标识标注信息与分类处理模块902获得的各目标对象的身份标识之间的差异，调整待训练的神经网络的网络参数。

图10中，本公开的神经网络主要包括：主干单元1000、候选区域提取单元1001、第一分支单元1002、第二分支单元1003以及第三分支单元1004。其中的主干单元1000与候选区域提取单元1001连接，且候选区域提取单元1001与第一分支单元1002、第二分支单元1003和第三分支单元1004分别连接。

主干单元1000用于提取输入视频帧的图像特征。主干单元1000可以采用ResNet(残差网络)的结构。

候选区域提取单元1001用于确定主干单元1000输出的图像特征中的多个候选区域(即候选框)，并输出各候选区域图像特征。候选区域提取单元1001可以采用RPN(RegionProposal Network，区域候选网络)的结构。候选区域提取单元1001可以采用ROI(RegionOf Interest，感兴趣区域)Pooling(池化)操作等方式，为每个候选区域提取出候选区域图像特征。候选区域图像特征的大小包括但不限于为22×16。

第一分支单元1002用于根据候选区域提取单元1001输出的各候选区域图像特征进行目标对象的包络框检测处理，输出包络框信息。第一分支单元1002输出的包络框信息可以包括：包络框的置信度和包络框的位置信息。也就是说，第一分支单元1002可以包括两个小分支，其中一个小分支用于根据候选区域图像特征预测候选区域包含有目标对象的置信度。其中第二个小分支用于根据候选区域图像特征对包络框进行回归处理，从而获得更为精准的包络框的位置信息。第一个小分支可以包括一个卷积层和一个全连接层。第二个小分支也可以包括一个卷积层和一个全连接层。

第二个分支单元1003用于根据候选区域提取单元1001输出的各候选区域图像特征进行目标对象的关键点检测处理，输出目标对象的关键点信息。第二个分支单元1003可以包括多个卷积层和多个反卷积层。例如，8个卷积层和2个反卷积层。候选区域图像特征在经过多个卷积层和多个反卷积层之后，候选区域图像特征的大小被扩大，例如，候选区域图像特征的大小由22×16变成88×64，本公开可以根据第二个分支单元1003输出的候选区域图像特征中的激活点的坐标，确定目标对象的关键点坐标。

第三个分支单元1004用于根据候选区域提取单元1001输出的各候选区域图像特征进行目标对象的特征向量提取处理。第三个分支单元1004可以包括一个卷积层和一个全连接层，该卷积层对候选区域图像特征进行卷积操作，并将卷积操作的结果拉伸为一维特征向量，该一维特征向量在经过全连接层后，形成目标对象的特征向量，例如，128维的特征向量。

示例性电子设备

下面参考图11来描述根据本公开实施例的电子设备。图11示出了根据本公开实施例的电子设备的框图。如图11所示，电子设备111包括一个或多个处理器1111和存储器1112。

处理器1111可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备111中的其他组件以执行期望的功能。

存储器1112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器，例如，可以包括：随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器，例如，可以包括：只读存储器(ROM)、硬盘以及闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1111可以运行所述程序指令，以实现上文所述的本公开的各个实施例的目标对象姿态跟踪方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备111还可以包括：输入装置1113以及输出装置1114等，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。此外，该输入设备1113还可以包括例如键盘、鼠标等等。该输出装置1114可以向外部输出各种信息。该输出设备1114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图11中仅示出了该电子设备111中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备111还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的目标对象姿态跟踪方法或者神经网络的训练方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的目标对象姿态跟踪方法或者神经网络的训练方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列举)可以包括：具有一个或者多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势以及效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备以及系统。诸如“包括”、“包含、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述，以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改等对于本领域技术人员而言，是非常显而易见的，并且在此定义的一般原理可以应用于其他方面，而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式中。尽管以上已经讨论了多个示例方面以及实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种目标对象姿态跟踪方法，包括：

获取当前帧中的各目标对象的第一位置信息、各目标对象的第一关键点信息以及各目标对象的第一特征向量；

根据历史帧中的各目标对象的第二位置信息和各目标对象的第二特征向量以及所述当前帧中的各目标对象的第二第一位置信息和各目标对象的第一特征向量，确定所述当前帧和历史帧中属于同一个目标对象的第一关键点信息。

2.根据权利要求1所述的方法，其中，所述获取当前帧中的各目标对象的第一位置信息、各目标对象的第一关键点信息以及各目标对象的第一特征向量，包括：

将当前帧提供给神经网络，经由所述神经网络对所述当前帧进行包络框检测处理，得到各目标对象的第一位置信息；

经由所述神经网络对所述当前帧进行关键点检测处理，得到各目标对象的第一关键点信息；

经由所述神经网络对所述当前帧进行特征向量提取处理，得到各目标对象的的第一特征向量。

3.根据权利要求1至2中任一项所述的方法，其中，所述根据历史帧中的各目标对象的第二位置信息和各目标对象的第二特征向量以及所述当前帧中的各目标对象的第一位置信息和各目标对象的第一特征向量，确定所述当前帧和历史帧中，属于同一个目标对象的第一关键点信息，包括：

将所述当前帧中的第一关键点信息符合第一预设条件的目标对象，作为当前帧的待处理目标对象；

根据所述历史帧中的各目标对象的第二位置信息和所述历史帧中的各目标对象的第二特征向量、以及各待处理目标对象的第一位置信息和各待处理目标对象的第一特征向量，确定所述当前帧和历史帧中，属于同一个目标对象的第一关键点信息。

4.根据权利要求3所述的方法，其中，所述将所述当前帧中的第一关键点信息符合第一预设条件的目标对象，作为当前帧的待处理目标对象，包括：

根据所述当前帧中的各目标对象的第一关键点信息，确定各目标对象的未被遮挡关键点；

将未被遮挡关键点符合预设未遮挡条件的目标对象，作为待处理目标对象。

5.根据权利要求3或4所述的方法，其中，所述根据所述历史帧中的各目标对象的第一位置信息和所述历史帧中的各目标对象的第一特征向量、以及各待处理目标对象的第一位置信息和各待处理目标对象的第一特征向量，确定所述当前帧和历史帧中，属于同一个目标对象的第一关键点信息，包括：

根据当前帧中的各待处理目标对象的第一位置信息和历史帧中的各目标对象的第二位置信息，确定各待处理目标对象的区域与所述历史帧中的各目标对象的区域的重叠信息；

确定当前帧中的各待处理目标对象的第一特征向量与历史帧中的各目标对象的第二特征向量的距离；

根据所述区域的重叠信息以及所述距离，确定所述当前帧和历史帧中，属于同一个目标对象的关键点信息。

6.一种神经网络的训练方法，包括：

获取多个图像样本；

将所述多个图像样本分别提供给待训练的神经网络，经由所述待训练的神经网络对多个图像样本分别进行包络框检测处理、关键点检测处理以及特征向量提取处理；

根据所述待训练的神经网络的输出，获得所述多个图像样本中的各目标对象的第三位置信息、各目标对象的第三关键点信息以及各目标对象的第三特征向量；

对所述第三特征向量进行分类处理，获得各目标对象的身份标识；

根据所述多个图像样本中的目标对象的位置标注信息分别与所述获得的各目标对象的第三位置信息之间的差异、所述多个图像样本中的目标对象的关键点标注信息与所述获得的各目标对象的第三关键点信息之间的差异、以及所述多个图像样本中的目标对象的身份标识标注信息与所述获得的各目标对象的身份标识之间的差异，调整所述待训练的神经网络的网络参数。

7.根据权利要求6所述的方法，其中，所述获取多个图像样本，包括：

获取待处理图像样本；

根据至少一个预设缩放比例，对所述待处理图像样本进行缩放处理，获得至少一个缩放图像样本；

根据所述待处理图像样本中的目标对象的位置标注信息和所述预设缩放比例，确定所述缩放图像样本中的目标对象的区域面积；

根据所述缩放图像样本形成图像样本，并将图像样本中的所述区域面积符合第二预设条件的目标对象作为图像样本中的目标对象。

8.一种目标对象姿态跟踪装置，包括：

获取模块，用于获取当前帧中的各目标对象的第一位置信息、各目标对象的第一关键点信息以及各目标对象的第一特征向量；

跟踪处理模块，用于根据历史帧中的各目标对象的第二位置信息和各目标对象的第二特征向量以及所述获取模块获取到的当前帧中的各目标对象的第二第一位置信息和各目标对象的第一特征向量，确定所述当前帧和历史帧中属于同一个目标对象的第一关键点信息。

9.根据权利要求8所述的装置，其中，所述跟踪处理模块，包括：

目标对象筛选子模块，用于将所述获取模块获取到的当前帧中的第一关键点信息符合第一预设条件的目标对象，作为当前帧的待处理目标对象；

跟踪处理子模块，用于根据所述历史帧中的各目标对象的第二位置信息和所述历史帧中的各目标对象的第二特征向量、以及所述目标对象筛选子模块输出的各待处理目标对象的第一位置信息和各待处理目标对象的第一特征向量，确定所述当前帧和历史帧中，属于同一个目标对象的第一关键点信息。

10.根据权利要求9所述的装置，其中，所述跟踪处理子模块进一步用于：

确定当前帧中的各待处理目标对象的第一特征向量与历史帧中的各目标对象的第一特征向量的距离；

11.一种神经网络的训练装置，包括：

获取样本模块，用于获取多个图像样本；

检测提取模块，用于将所述获取样本模块获取的多个图像样本分别提供给待训练的神经网络，经由所述待训练的神经网络对多个图像样本分别进行包络框检测处理、关键点检测处理以及特征向量提取处理，并根据所述待训练的神经网络的输出，获得所述多个图像样本中的各目标对象的第三位置信息、各目标对象的第三关键点信息以及各目标对象的第三特征向量；

分类处理模块，用于对所述检测提取模块获得的第三特征向量进行分类处理，获得各目标对象的身份标识；

参数调整模块，用于根据所述多个图像样本中的目标对象的位置标注信息分别与所述检测提取模块获得的各目标对象的第三位置信息之间的差异、所述多个图像样本中的目标对象的关键点标注信息与所述检测提取模块获得的各目标对象的第三关键点信息之间的差异、以及所述多个图像样本中的目标对象的身份标识标注信息与所述分类处理模块获得的各目标对象的身份标识之间的差异，调整所述待训练的神经网络的网络参数。

12.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7中任一项所述的方法。

13.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7中任一项所述的方法。