CN107808111A

CN107808111A - 用于行人检测和姿态估计的方法和装置

Info

Publication number: CN107808111A
Application number: CN201610811709.9A
Authority: CN
Inventors: 俞刚; 彭雨翔; 印奇
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2016-09-08
Filing date: 2016-09-08
Publication date: 2018-03-16
Anticipated expiration: 2036-09-08
Also published as: CN107808111B

Abstract

本发明的实施例提供了一种用于行人检测和姿态估计的方法和装置。该方法包括：获取待处理图像；将待处理图像输入第一全卷积网络，以获得分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和分别与待处理图像中的至少部分行人中的每个行人相关的行人特征图；将所获得的所有行人特征图和所有关节点特征图结合在一起形成经结合的特征图；以及将经结合的特征图输入第二全卷积网络，以获得至少部分行人中的每个行人的行人位置和关节点位置。根据本发明实施例的方法和装置使得行人检测的中间结果可以辅助行人姿态的估计并且行人姿态估计的中间结果也可以用于行人检测，因此可以提高行人检测和行人姿态估计的准确度。

Description

用于行人检测和姿态估计的方法和装置

技术领域

本发明涉及计算机领域，更具体地涉及一种用于行人检测和姿态估计的方法和装置。

背景技术

在监控领域，行人检测(即行人定位)和行人姿态估计具有非常重要的作用。但是，目前的算法对这两个问题都是分开解决的。例如，首先针对视频帧进行行人检测，根据行人检测的中间结果得到每个行人的位置(通常用行人框bounding-box表示)。然后通过对行人框内部的内容进行分析来得出每个行人的关节点(skeleton)数据，即姿态(pose)数据。由于两个问题被拆裂，所以行人检测的中间结果不能用于辅助行人姿态的估计。同样，行人的姿态信息也不能用于行人检测。但事实上，在行人检测过程中，可以依靠可能的姿态信息，例如手部、头部的判断信息来确定是否是行人。另一方面，行人检测的中间结果对于行人姿态的估计也是有帮助的。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种用于行人检测和姿态估计的方法和装置。

根据本发明一方面，提供了一种用于行人检测和姿态估计的方法。该方法包括：获取待处理图像；将所述待处理图像输入第一全卷积网络，以获得分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图；将所获得的所有行人特征图和所有关节点特征图结合在一起形成经结合的特征图；以及将所述经结合的特征图输入第二全卷积网络，以获得所述至少部分行人中的每个行人的行人位置和关节点位置。

示例性地，所述将所述经结合的特征图输入第二全卷积网络，以获得所述至少部分行人中的每个行人的行人位置和关节点位置包括：将所述经结合的特征图输入所述第二全卷积网络中的预定卷积层，以获得与所述至少部分行人一一相关的整体特征图；以及将所述与所述至少部分行人一一相关的整体特征图输入所述第二全卷积网络中的剩余卷积层，以获得所述至少部分行人中的每个行人的行人位置和关节点位置。

示例性地，所述方法进一步包括：获取训练图像，其中，所述训练图像中的每个行人的特征点的位置是已标注好的；至少根据所述训练图像中的特征点生成标注数据；以及利用所述标注数据训练所述第一全卷积网络和所述第二全卷积网络。

示例性地，所述标注数据包括与所述训练图像中的行人一一相关的目标整体特征图，所述利用所述标注数据训练所述第一全卷积网络和所述第二全卷积网络包括：以所述与所述训练图像中的行人一一相关的目标整体特征图作为所述第二全卷积网络针对所述训练图像获得的整体特征图的目标值构建损失函数；以及利用所构建的损失函数对所述第一全卷积网络和所述第二全卷积网络中的参数进行训练。

示例性地，所述标注数据包括与所述训练图像中的行人一一相关的目标整体特征图、分别与所述训练图像中的每个行人相关的目标行人特征图和分别与所述第一预定数目种类的行人关节点中的每种行人关节点相关的目标关节点特征图，所述利用所述标注数据训练所述第一全卷积网络和所述第二全卷积网络包括：以所述分别与所述训练图像中的每个行人相关的目标行人特征图作为所述第一全卷积网络针对所述训练图像输出的行人特征图的目标值构建第一损失函数，以所述分别与所述第一预定数目种类的行人关节点中的每种行人关节点相关的目标关节点特征图作为所述第一全卷积网络针对所述训练图像输出的关节点特征图的目标值构建第二损失函数，并以所述与所述训练图像中的行人一一相关的目标整体特征图作为所述第二全卷积网络针对所述训练图像获得的整体特征图的目标值构建第三损失函数；以及利用所述第一损失函数、所述第二损失函数和所述第三损失函数对所述第一全卷积网络和所述第二全卷积网络中的参数进行训练。

示例性地，所述至少根据所述训练图像中的特征点生成标注数据包括：对于所述第一预定数目种类的行人关节点中的每种行人关节点，生成与该种行人关节点相关的初始关节点特征图；以及对于所述第一预定数目种类的行人关节点中的每种行人关节点，对与该种行人关节点相关的初始关节点特征图进行高斯模糊，以获得与该种行人关节点相关的目标关节点特征图。

示例性地，所述待处理图像是待处理视频中的当前视频帧，所述方法进一步包括：将针对所述当前视频帧获得的行人特征图、关节点特征图和整体特征图以及针对所述当前视频帧的先前视频帧获得的行人特征图和关节点特征图输入反馈式神经网络，以更新所述至少部分行人中的每个行人的行人位置和关节点位置。

示例性地，所述将所述待处理图像输入第一全卷积网络，以获得分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图包括：将所述待处理图像输入所述第一全卷积网络，以获得所述分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和第二预定数目的行人特征图；对于所述第二预定数目的行人特征图中的每一个，对该行人特征图的响应值进行累加，以获得累加值；以及从所述第二预定数目的行人特征图中选择累加值大于阈值的行人特征图，以获得所述分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图。

示例性地，所述分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图中的每一个是对与该行人特征图相关的行人进行实例分割获得的掩模区的特征图，所述至少部分行人中的每个行人的行人位置包括该行人的掩模区的具体位置和包围该行人的掩模区的行人框的具体位置。

示例性地，所述将所获得的所有行人特征图和所有关节点特征图结合在一起形成经结合的特征图包括：将所述所获得的所有行人特征图和所有关节点特征图以全连接方式连接在一起形成所述经结合的特征图。

示例性地，所述获取待处理图像包括：获取初始图像；以及将所述初始图像缩放为具有不同大小的图像并将所述具有不同大小的图像中的每一个分别作为所述待处理图像。

示例性地，所述将所述经结合的特征图输入第二全卷积网络，以获得所述至少部分行人中的每个行人的行人位置和关节点位置的步骤包括：利用所述第二全卷积网络进行以下操作：对于每个行人特征图，根据每个关节点特征图，确定与该关节点特征图相关的一种行人关节点中的、在该行人特征图对应的掩模区中出现概率最大的特定行人关节点，并将所述特定行人关节点的位置作为与该行人特征图相关的行人的、与该关节点特征图相关的一种行人关节点的关节点位置。

根据本发明另一方面，提供了一种用于行人检测和姿态估计的装置，包括第一图像获取模块、第一网络处理模块、结合模块和第二网络处理模块。第一图像获取模块用于获取待处理图像。第一网络处理模块用于将所述待处理图像输入第一全卷积网络，以获得分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图。结合模块用于将所获得的所有行人特征图和所有关节点特征图结合在一起形成经结合的特征图。第二网络处理模块用于将所述经结合的特征图输入第二全卷积网络，以获得所述至少部分行人中的每个行人的行人位置和关节点位置。

示例性地，所述第二网络处理模块包括：特征图获得子模块，用于将所述经结合的特征图输入所述第二全卷积网络中的预定卷积层，以获得与所述至少部分行人一一相关的整体特征图；以及位置获得子模块，用于将所述与所述至少部分行人一一相关的整体特征图输入所述第二全卷积网络中的剩余卷积层，以获得所述至少部分行人中的每个行人的行人位置和关节点位置。

示例性地，所述装置进一步包括：第二图像获取模块，用于获取训练图像，其中，所述训练图像中的每个行人的特征点的位置是已标注好的；标注数据生成模块，用于至少根据所述训练图像中的特征点生成标注数据；以及训练模块，用于利用所述标注数据训练所述第一全卷积网络和所述第二全卷积网络。

示例性地，所述标注数据包括与所述训练图像中的行人一一相关的目标整体特征图，所述训练模块包括：第一构建子模块，用于以所述与所述训练图像中的行人一一相关的目标整体特征图作为所述第二全卷积网络针对所述训练图像获得的整体特征图的目标值构建损失函数；以及第一训练子模块，用于利用所构建的损失函数对所述第一全卷积网络和所述第二全卷积网络中的参数进行训练。

示例性地，所述标注数据包括与所述训练图像中的行人一一相关的目标整体特征图、分别与所述训练图像中的每个行人相关的目标行人特征图和分别与所述第一预定数目种类的行人关节点中的每种行人关节点相关的目标关节点特征图，所述训练模块包括：第二构建子模块，用于以所述分别与所述训练图像中的每个行人相关的目标行人特征图作为所述第一全卷积网络针对所述训练图像输出的行人特征图的目标值构建第一损失函数，以所述分别与所述第一预定数目种类的行人关节点中的每种行人关节点相关的目标关节点特征图作为所述第一全卷积网络针对所述训练图像输出的关节点特征图的目标值构建第二损失函数，并以所述与所述训练图像中的行人一一相关的目标整体特征图作为所述第二全卷积网络针对所述训练图像获得的整体特征图的目标值构建第三损失函数；以及第二训练子模块，用于利用所述第一损失函数、所述第二损失函数和所述第三损失函数对所述第一全卷积网络和所述第二全卷积网络中的参数进行训练。

示例性地，所述标注数据生成模块包括：初始生成子模块，用于对于所述第一预定数目种类的行人关节点中的每种行人关节点，生成与该种行人关节点相关的初始关节点特征图；以及高斯模糊子模块，用于对于所述第一预定数目种类的行人关节点中的每种行人关节点，对与该种行人关节点相关的初始关节点特征图进行高斯模糊，以获得与该种行人关节点相关的目标关节点特征图。

示例性地，所述待处理图像是待处理视频中的当前视频帧，所述装置进一步包括：反馈网络处理模块，用于将针对所述当前视频帧获得的行人特征图、关节点特征图和整体特征图以及针对所述当前视频帧的先前视频帧获得的行人特征图和关节点特征图输入反馈式神经网络，以更新所述至少部分行人中的每个行人的行人位置和关节点位置。

示例性地，所述第一网络处理模块包括：输入子模块，用于将所述待处理图像输入所述第一全卷积网络，以获得所述分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和第二预定数目的行人特征图；累加子模块，用于对于所述第二预定数目的行人特征图中的每一个，对该行人特征图的响应值进行累加，以获得累加值；以及选择子模块，用于从所述第二预定数目的行人特征图中选择累加值大于阈值的行人特征图，以获得所述分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图。

示例性地，所述结合模块包括：连接子模块，用于将所述所获得的所有行人特征图和所有关节点特征图以全连接方式连接在一起形成所述经结合的特征图。

示例性地，所述第一图像获取模块包括：初始图像获取子模块，用于获取初始图像；以及缩放子模块，用于将所述初始图像缩放为具有不同大小的图像并将所述具有不同大小的图像中的每一个分别作为所述待处理图像。

示例性地，所述网络处理模块包括关节点确定子模块，用于利用所述第二全卷积网络进行以下操作：用于对于每个行人特征图，根据每个关节点特征图，确定与该关节点特征图相关的一种行人关节点中的、在该行人特征图对应的掩模区中出现概率最大的特定行人关节点，并将所述特定行人关节点的位置作为与该行人特征图相关的行人的、与该关节点特征图相关的一种行人关节点的关节点位置。

根据本发明实施例的用于行人检测和姿态估计的方法和装置，由于采用全卷积网络同时进行行人检测和行人姿态估计，并且在处理过程中共享行人检测的中间结果和行人姿态估计的中间结果，因此使得行人检测的中间结果可以辅助行人姿态的估计并且行人姿态估计的中间结果也可以用于行人检测，这种方法可以提高行人检测和行人姿态估计的准确度。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的用于行人检测和姿态估计的方法和装置的示例电子设备的示意性框图；

图2示出根据本发明一个实施例的用于行人检测和姿态估计的方法的示意性流程图；

图3示出根据本发明一个实施例的用于行人检测和姿态估计的方法所采用的网络的结构示意图；

图4示出根据本发明一个实施例的掩模区及包围该掩模区的行人框的示意图；

图5示出根据本发明另一实施例的用于行人检测和姿态估计的方法的示意性流程图；

图6示出根据本发明一个实施例的训练第一全卷积网络和第二全卷积网络的网络结构的示意图；

图7示出根据本发明一个实施例的采用反馈式神经网络计算新行人位置和新关节点位置的示意图；

图8示出根据本发明一个实施例的用于行人检测和姿态估计的装置的示意性框图；以及

图9示出根据本发明一个实施例的用于行人检测和姿态估计的系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

为了解决上文所述的问题，本发明实施例提供一种基于深度神经网络的用于行人检测和姿态估计的方法，用于同时检测行人的位置和估计行人的姿态。本发明实施例提供的方法可以提高行人检测结果和行人姿态估计结果的准确度，可以很好地应用于监控领域。

首先，参照图1来描述用于实现根据本发明实施例的用于行人检测和姿态估计的方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108和图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以采集图像(包括视频帧)，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是监控摄像头。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用其他图像采集装置采集用于行人检测和姿态估计的图像，并将采集的图像发送给电子设备100。

示例性地，用于实现根据本发明实施例的用于行人检测和姿态估计的方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2描述根据本发明实施例的用于行人检测和姿态估计的方法。图2示出根据本发明一个实施例的用于行人检测和姿态估计的方法200的示意性流程图。如图2所示，用于行人检测和姿态估计的方法200包括以下步骤。

在步骤S210，获取待处理图像。

待处理图像可以是任何合适的需要进行行人检测和姿态估计的图像，例如针对被监控区域采集到的图像。图像可以是摄像头等图像采集装置采集到的原始图像，也可以是对原始图像进行预处理之后获得的图像。

示例性地，待处理图像可以来自普通的RGB摄像头，也可以来自能够采集深度信息的RGBD摄像头。

待处理图像可以由客户端设备(诸如包括监控摄像头的安防设备)发送到电子设备100以由电子设备100的处理器102进行处理，也可以由电子设备100包括的图像采集装置110(例如摄像头)采集并传送到处理器102进行处理。

在步骤S220，将待处理图像输入第一全卷积网络，以获得分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和分别与待处理图像中的至少部分行人中的每个行人相关的行人特征图。

参考图3，示出根据本发明一个实施例的用于行人检测和姿态估计的方法所采用的神经网络的结构示意图。如图3所示，可以将待处理图像输入全卷积网络1(即第一全卷积网络)进行处理，全卷积网络1可以输出两种特征图(feature map)，即分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和分别与待处理图像中的至少部分行人中的每个行人相关的行人特征图。行人特征图是关于行人位置的信息。行人位置可以理解为是行人在像素级上的实例分割(instance segmentation)，即每个行人是一类，对于每个行人有一个相应的掩模(mask)区在行人框中间。行人特征图表示的是掩模区的模糊位置而非具体位置。参考图4，示出根据本发明一个实施例的掩模区及包围该掩模区的行人框的示意图。在图4中，黑色部分为行人的掩模区，其包含对像素级行人的分类。图4还示出一个行人框，该行人框包围行人的掩模区。

下面简略说明实例分割。利用全卷积网络可以对整个图像上的每个像素进行分类，也就是像素级分类。通过像素级分类可以实现图像的语义分割或实例分割。语义分割就是将图像分割为若干个区域，使得语义相同的像素被分割在同一区域内。例如，如图4所示，在经过语义分割之后，可以将行人和背景分成两个区域，获得一个包含行人的掩模区。语义分割只标记语义。实例分割可以标记实例(每个行人是一个实例)和语义。

关节点特征图表示的是每个像素级的行人关节点信息。例如，每种行人关节点关联一个关节点特征图。假设定义每个行人具有15种行人关节点，则在步骤S220可以获得15个关节点特征图。在该示例中，假设第一预定数目是15，然而，应当理解的是，第一预定数目可以是任何合适的数值。本文所述的行人关节点可以根据需要设定，例如可以是行人的头部、左手、左脚、左肩等任何合适的部位。行人的头部属于一种行人关节点，行人的左手属于另一种行人关节点，行人的左肩属于又一种行人关节点，等等，以此类推。由此可见，不同的行人可以拥有同一种类的行人关节点。沿用上述示例，假设每个行人具有15种行人关节点，其中一种是行人的头部，则相应获得的15个关节点特征图之一是头部特征图。假设待处理图像中包含5个行人，则头部特征图可以包含关于这5个行人的头部的信息以及一些可能的冗余(误检)信息，示例性地，每个关节点特征图可以指示待处理图像中的至少部分行人中的每个行人的、与该关节点特征图相关的行人关节点的位置。

在步骤S230，将所获得的所有行人特征图和所有关节点特征图结合在一起形成经结合的特征图。

可以结合(concatenate)行人特征图和关节点特征图这两部分信息并将经结合的特征图再放入全卷积网络2(即第二全卷积网络)，最后可以输出行人检测的结果和检测到的每个行人的关节点信息。在一个示例中，结合是以连接方式实现，在这种情况下，经结合的特征图包括所获得的所有行人特征图和所有关节点特征图。

在一个示例中，步骤S230可以包括：将所获得的所有行人特征图和所有关节点特征图以全连接方式连接在一起形成经结合的特征图。可以通过将行人特征图和关节点特征图以全连接方式连接在一起来对二者进行结合，这种方式实现较为简单。当然，上述结合方式仅是示例，本发明可以具有其他合理的行人特征图与关节点特征图的结合方式。

在步骤S240，将经结合的特征图输入第二全卷积网络，以获得至少部分行人中的每个行人的行人位置和关节点位置。继续参考图3，将经结合的特征图输入全卷积网络2，全卷积网络2可以输出在待处理图像中检测到的每个行人的具体位置和每个行人的每个行人关节点的具体位置。

根据本发明实施例，分别与待处理图像中的至少部分行人中的每个行人相关的行人特征图中的每一个是对与该行人特征图相关的行人进行实例分割获得的掩模区的特征图，至少部分行人中的每个行人的行人位置包括该行人的掩模区的具体位置和包围该行人的掩模区的行人框的具体位置。如上文所述可知，行人特征图是对行人进行实例分割获得的掩模区的特征图。如图4所示，在全卷积网络2输出的行人检测结果中，行人位置可以包括每个行人的掩模区的具体位置和包围该行人的掩模区的行人框的具体位置。示例性地，掩模区的具体位置可以是掩模区的轮廓的坐标或掩模区内部所有像素的坐标，行人框的具体位置可以是组成行人框的像素的坐标。

在一个实施例中，步骤S240可以包括：利用所述第二全卷积网络进行以下操作：对于每个行人特征图，根据每个关节点特征图，确定与该关节点特征图相关的一种行人关节点中的、在该行人特征图对应的掩模区中出现概率最大的特定行人关节点，并将所述特定行人关节点的位置作为与该行人特征图相关的行人的、与该关节点特征图相关的一种行人关节点的关节点位置。

在全卷积网络2中，可以利用某些卷积层实现根据掩模区确定关节点位置的方法。例如，每种行人关节点对应于一个关节点特征图，然而在进入全卷积网络2之前，关节点特征图并未与特定行人相关联。换句话说，不同行人的、与同一种类的行人关节点相关的关节点特征图是相同的，多个行人共享同一关节点特征图。但是掩模区是与每个行人分别对应的，也就是不同行人的行人特征图是不同的。这样，可以根据每个行人所在的掩模区，即根据与每个行人相关的行人特征图找到该行人的每个关节点的关节点位置。具体地，可以在掩模区所处区域下，即在行人特征图所表示的区域下找到与每个关节点特征图相关的一种行人关节点中的、在掩模区出现概率最大的行人关节点，并将所述出现概率最大的行人关节点的位置作为行人的关节点位置。示例性地，可以将行人特征图在关节点特征图上响应最大的位置处的行人关节点确定为在行人特征图对应的掩模区出现概率最大的特定行人关节点。

例如，全卷积网络1检测获得行人A的行人特征图，同时获得分别与15种行人关节点相关的15个关节点特征图，并且，每个关节点特征图上对应多个行人的同一种类行人关节点S1,S2,……Sn。例如，假设待处理图像中包含5个行人，15个关节点特征图之一是头部特征图，则在该头部特征图中可以包含关于5个行人的头部S1,S2,……S5的信息。可以在行人A的行人特征图所表示的掩模区中，计算在该掩模区中出现概率最大的行人头部Si，并将Si的位置作为行人A的头部位置。其他种类的行人关节点的关节点位置的计算方式与行人的头部的计算方式类似，不再赘述。

根据本发明实施例的用于行人检测和姿态估计的方法，由于采用全卷积网络同时进行行人检测和行人姿态估计，并且在处理过程中共享行人检测的中间结果和行人姿态估计的中间结果，因此使得行人检测的中间结果可以辅助行人姿态的估计并且行人姿态估计的中间结果也可以用于行人检测，这种方法可以提高行人检测和行人姿态估计的准确度。

示例性地，根据本发明实施例的用于行人检测和姿态估计的方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的用于行人检测和姿态估计的方法可以部署在图像采集端处，例如，可以部署在小区门禁系统的图像采集端或者部署在诸如车站、商场、银行等公共场所的安防监控系统的图像采集端。替代地，根据本发明实施例的用于行人检测和姿态估计的方法还可以分布地部署在服务器端(或云端)和客户端处。例如，可以在客户端采集图像，客户端将采集到的图像传送给服务器端(或云端)，由服务器端(或云端)进行行人检测和行人姿态估计。

根据本发明实施例，步骤S240可以包括：将经结合的特征图输入第二全卷积网络中的预定卷积层，以获得与至少部分行人一一相关的整体特征图；以及将与至少部分行人一一相关的整体特征图输入第二全卷积网络中的剩余卷积层，以获得至少部分行人中的每个行人的行人位置和关节点位置。

在将经结合的特征图输入第二全卷积网络之后，第二全卷积网络的某些卷积层可以输出一些中间结果，例如100个特征图，即本文所述的整体特征图。在每个整体特征图中，包含关于相关的行人位置和关节点位置的信息，例如包含行人的具体坐标、行人的置信度、关节点的具体坐标、关节点的置信度等信息。经过剩余卷积层的处理之后，最终将输出具体的行人位置和关节点位置。

图5示出根据本发明另一实施例的用于行人检测和姿态估计的方法500的示意性流程图。在图5中，步骤S540至S570分别与图2所示的用于行人检测和姿态估计的方法200的步骤S210至S240相对应。参考上文的描述可以理解图5所示的步骤S540至S570的实施方式，不再赘述。根据本实施例，用于行人检测和姿态估计的方法500进一步包括步骤S510至S530。

在步骤S510，获取训练图像，其中，所述训练图像中的每个行人的特征点的位置是已标注好的。

在采用第一全卷积网络和第二全卷积网络进行行人检测和姿态估计之前，可以首先对第一全卷积网络和第二全卷积网络进行训练。

为了实现上述目的，可以提供训练图像(包括训练视频中的视频帧)，并利用训练图像进行训练。每个训练图像都可以具有像素级的行人标注，例如，可以在每个训练图像上标注行人的若干特征点。特征点可以是行人身上的任何位置，其可以包括上文所述的行人关节点。例如，特征点可以是行人的左眼、左手、右腿等等部位上的点，或者是行人躯干的中心点，等等。特征点可以在训练过程中由训练人员任意设定，本发明不对此进行限制。

在步骤S520，至少根据训练图像中的特征点生成标注数据。

至少根据这些标注好的特征点，可以生成训练所需要的标注数据(ground-truth)。关于行人标注，可以针对每个行人生成一个目标行人特征图，有一个类似图4的掩模区来覆盖此特征图。掩模区可以代表行人所在的区域，通过使用掩模区覆盖特征图可以提取出更有价值的目标行人特征图，避免背景上面的干扰。掩模区中的值为1的像素表示此点为某个行人，否则认为没有行人。

此外，关于行人关节点，可以针对第一预定数目种类的行人关节点生成第一预定数目种类的目标关节点特征图。例如，假设期望利用15种行人关节点表示行人的姿态，则可以生成15个目标关节点特征图，每个目标关节点特征图负责一种行人关节点。一个目标关节点特征图可以对应多个行人的同一种类行人关节点。

示例性地，至少根据训练图像中的特征点生成标注数据可以包括：对于第一预定数目种类的行人关节点中的每种行人关节点，生成与该种行人关节点相关的初始关节点特征图；以及对于第一预定数目种类的行人关节点中的每种行人关节点，对与该种行人关节点相关的初始关节点特征图进行高斯模糊，以获得与该种行人关节点相关的目标关节点特征图。

目标关节点特征图可以通过上述方式生成。例如，对于左手关节点来说，可以对与左手关节点相关的初始关节点特征图做高斯模糊，以获得与左手关节点相关的目标关节点特征图，该目标关节点特征图对应的是一个模糊的关节点区域，该模糊的关节点区域可以表示该左手关节点。

此外，基于标注好的特征点，还可以计算获得与训练图像中的行人一一相关的目标整体特征图。

本文所述的标注数据可以包括但不限于上述目标行人特征图、目标关节点特征图和目标整体特征图中的一项或多项。标注数据所包括的内容可以根据训练目的和训练要求确定，本发明不对此进行限制。

在步骤S530，利用标注数据训练第一全卷积网络和第二全卷积网络。

将每个训练图像，以及对应的标注数据输入第一全卷积网络和第二全卷积网络组成的系统中，进行训练。

通过大量标注好的训练图像可以训练出精度较高的第一全卷积网络和第二全卷积网络。

根据本发明实施例，标注数据可以包括与训练图像中的行人一一相关的目标整体特征图、分别与训练图像中的每个行人相关的目标行人特征图和分别与第一预定数目种类的行人关节点中的每种行人关节点相关的目标关节点特征图，步骤S530可以包括：以分别与训练图像中的每个行人相关的目标行人特征图作为第一全卷积网络针对训练图像输出的行人特征图的目标值构建第一损失函数，以分别与第一预定数目种类的行人关节点中的每种行人关节点相关的目标关节点特征图作为第一全卷积网络针对训练图像输出的关节点特征图的目标值构建第二损失函数，并以与训练图像中的行人一一相关的目标整体特征图作为第二全卷积网络针对训练图像获得的整体特征图的目标值构建第三损失函数；以及利用第一损失函数、第二损失函数和第三损失函数对第一全卷积网络和第二全卷积网络中的参数进行训练。

具体训练的网络结构可以参考图6。图6示出根据本发明一个实施例的训练第一全卷积网络和第二全卷积网络的网络结构的示意图。图6和图3类似，用全卷积网络1表示第一全卷积网络，并用全卷积网络2表示第二全卷积网络。全卷积网络1和全卷积网络2的中间具有两个损失函数(loss)，分别是行人检测损失函数，以及关节点损失函数。最后全卷积网络2生成的结果可以经过另一个损失函数，即行人检测和关节点损失函数。在图6中，行人检测损失函数是本文所述的第一损失函数，关节点损失函数是本文所述的第二损失函数，行人检测和关节点损失函数是本文所述的第三损失函数。

可以利用行人检测损失函数、关节点损失函数及行人检测和关节点损失函数这三个损失函数对全卷积网络1和全卷积网络2中的参数进行训练。在训练过程中，可以采用常规的反向传播算法训练全卷积网络1和全卷积网络2，本领域技术人员可以理解反向传播算法的实现方式，本文不对此进行赘述。

应当注意的是，在训练过程中，可以同时考虑上述三个损失函数来优化全卷积网络中的参数，而非分别单独考虑每个损失函数来优化全卷积网络中的参数。采用多个损失函数对第一全卷积网络和第二全卷积网络中的参数进行训练的好处是，首先可以使得第一全卷积网络获得的中间结果，即行人特征图和关节点特征图，具有一定参考价值，方便后面的信息融合。另一方面，因为整个网络可能比较深，只有最后的行人检测和关节点损失函数可能导致更新网络的梯度无法传递到前面的第一全卷积网络中，从而影响训练效果。

当然，在另一实施例中，也可以仅采用第三损失函数训练第一全卷积网络和第二全卷积网络。示例性地，标注数据可以包括与训练图像中的行人一一相关的目标整体特征图，步骤S530可以包括：以与训练图像中的行人一一相关的目标整体特征图作为第二全卷积网络针对训练图像获得的整体特征图的目标值构建损失函数；以及利用所构建的损失函数对第一全卷积网络和第二全卷积网络中的参数进行训练。

同样地，可以采用反向传播算法实现对第一全卷积网络和第二全卷积网络的训练，本发明不对此进行赘述。单独采用行人检测和关节点损失函数训练全卷积网络的方式可以减少计算量，提高训练效率。

根据本发明实施例，待处理图像是待处理视频中的当前视频帧，所述方法200(或500)可以进一步包括：将针对当前视频帧获得的行人特征图、关节点特征图和整体特征图以及针对当前视频帧的先前视频帧获得的行人特征图和关节点特征图输入反馈式神经网络，以更新至少部分行人中的每个行人的行人位置和关节点位置。

先前视频帧可以是在当前视频帧之前的任一视频帧。例如，可以将针对当前视频帧(例如，第t帧)获得的行人特征图、关节点特征图和整体特征图以及针对当前视频帧之前的任一视频帧(第(t-n)帧，1≤n<t)，例如，前一视频帧(第(t-1)帧)，获得的行人特征图和关节点特征图输入反馈式神经网络(recurrent neural network，简称RNN)，以获得至少部分行人中的每个行人的新行人位置和新关节点位置，从而更新所述至少部分行人中的每个行人的行人位置和关节点位置。

先前视频帧还可以是在当前视频帧之前的N个视频帧，N≥2。例如，当前视频帧是第t帧，则先前视频帧可以包括第t-1帧、第t-2帧等多个视频帧，当然，先前视频帧所包括的视频帧的时间顺序不一定是连续的。

在待处理图像是视频中的视频帧的情况下，每个视频帧均经过第一全卷积网络和第二全卷积网络的处理，因此对于每个视频帧来说，可以获得第一全卷积网络输出的行人特征图和关节点特征图、第二全卷积网络的预定卷积层输出的整体特征图以及第二全卷积网络最终输出的行人位置和关节点位置。

图7示出根据本发明一个实施例的采用反馈式神经网络计算新行人位置和新关节点位置的示意图。参见图7，可以将针对当前视频帧获得的行人特征图、关节点特征图和整体特征图以及针对当前视频帧的先前视频帧获得的行人特征图和关节点特征图这些信息输入反馈式神经网络，由反馈式神经网络进行处理。反馈式神经网络最终输出的是新计算获得的新行人位置和新关节点位置，从而更新所述至少部分行人中的每个行人的行人位置和关节点位置。反馈式神经网络可以事先利用训练视频进行训练获得。反馈式神经网络可以由长短期记忆网络(LSTM)或门控递归单元(GRU)等实现。

应该理解的是，上述描述仅是示例性的，反馈式神经网络可以接收当前视频帧获得的行人特征图、关节点特征图和整体特征图中的至少一种信息，以及针对当前视频帧的先前视频帧获得的行人特征图、关节点特征图和整体特征图中的至少一种信息，从而融合多个视频帧之间的信息，以输出新计算获得的新行人位置和新关节点位置。

在仅采用第一全卷积网络和第二全卷积网络获得行人位置和关节点位置的实施例中，仅考虑了单个视频帧的信息，而没有考虑多个视频帧的信息之间的融合。由于视频中的多个视频帧之间往往具有很强的相关性和连续性，因此采用反馈式神经网络来融合当前视频帧与之前的视频帧之间的信息，可以获得的更为准确的行人位置和关节点位置。因此，可以将反馈式神经网络输出的新行人位置和新关节点位置代替第二全卷积网络输出的行人位置和关节点位置作为最终的行人检测结果和行人姿态估计结果。反馈式神经网络可以基于多个视频帧的结果来进行平滑操作，优化输出结果，使得整个网络结构更具鲁棒性。

根据本发明实施例，步骤S220(或S550)可以包括：将待处理图像输入第一全卷积网络，以获得与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和第二预定数目的行人特征图；对于第二预定数目的行人特征图中的每一个，对该行人特征图的响应值进行累加，以获得累加值；以及从第二预定数目的行人特征图中选择累加值大于阈值的行人特征图，以获得与待处理图像中的至少部分行人中的每个行人相关的行人特征图。

在采用第一全卷积网络处理待处理图像时，可以假设一个场景中的行人有上限K个，因此第一全卷积网络可以生成K个行人特征图。K可以设定为任何合适的值，例如1000。随后，可以对每个行人特征图的响应值进行累加。如果响应值累加后获得的累加值大于某个阈值，则可以认为行人特征图描述的行人存在。如果响应值累加后获得的累加值不大于阈值，可以认为行人特征图描述的行人不存在，在这种情况下，可以将行人特征图丢弃，不再与关节点特征图结合输入第二全卷积网络2进行处理。

阈值可以设定为任何合适的值，其可以根据经验或理论设定，本发明不对此进行限制。

根据本发明实施例，步骤S210(或S540)可以包括：获取初始图像；以及将初始图像缩放为具有不同大小的图像并将具有不同大小的图像中的每一个分别作为待处理图像。

缩放图像的步骤是可选的。在不对图像进行缩放的实施例中，初始图像即为待处理图像。在对图像进行缩放的实施例中，可以首先获得初始图像，初始图像可以是摄像头采集到的原始图像，也可以是对原始图像进行预处理之后获得的图像。随后，可以对初始图像进行缩放。缩放比例可以根据需要进行设定，本发明不对此进行限定。对于缩放后获得的每个图像，可以分别作为待处理图像进行后续处理，即对于缩放后获得的每个图像，可以采用第一全卷积网络、第二全卷积网络或者进一步采用反馈式神经网络进行处理。

由于在摄像头拍摄场景中的物体对象可能是多尺度的，例如场景中的行人可能在近处，也可能在远处。在近处和在远处的行人在图像中的尺寸差别有可能很大。为了解决多尺度行人的检测，可能需要对摄像头采集到的图像数据进行多尺度操作，即，缩放待处理图像，给予整个网络系统不同的输入大小，然后分别处理。通过这种方式，可以很好地解决多尺度行人的检测差异。

根据本发明另一方面，提供一种用于行人检测和姿态估计的装置。图8示出了根据本发明一个实施例的用于行人检测和姿态估计的装置800的示意性框图。

如图8所示，根据本发明实施例的用于行人检测和姿态估计的装置800包括第一图像获取模块810、第一网络处理模块820、结合模块830和第二网络处理模块840。所述各个模块可分别执行上文中结合图2-7描述的行人检测和姿态估计的方法的各个步骤/功能。以下仅对该行人检测和姿态估计的装置800的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

第一图像获取模块810用于获取待处理图像。第一图像获取模块810可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

第一网络处理模块820用于将所述待处理图像输入第一全卷积网络，以获得分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图。第一网络处理模块820可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

结合模块830用于将所获得的所有行人特征图和所有关节点特征图结合在一起形成经结合的特征图。结合模块830可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

第二网络处理模块840用于将所述经结合的特征图输入第二全卷积网络，以获得所述至少部分行人中的每个行人的行人位置和关节点位置。第二网络处理模块840可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

根据本发明实施例，第二网络处理模块840包括：特征图获得子模块，用于将所述经结合的特征图输入所述第二全卷积网络中的预定卷积层，以获得与所述至少部分行人一一相关的整体特征图；以及位置获得子模块，用于将所述与所述至少部分行人一一相关的整体特征图输入所述第二全卷积网络中的剩余卷积层，以获得所述至少部分行人中的每个行人的行人位置和关节点位置。

根据本发明实施例，所述装置800进一步包括：第二图像获取模块(未示出)，用于获取训练图像，其中，所述训练图像中的每个行人的特征点的位置是已标注好的；标注数据生成模块，用于至少根据所述训练图像中的特征点生成标注数据；以及训练模块，用于利用所述标注数据训练所述第一全卷积网络和所述第二全卷积网络。

根据本发明实施例，所述标注数据包括与所述训练图像中的行人一一相关的目标整体特征图，所述训练模块包括：第一构建子模块，用于以所述与所述训练图像中的行人一一相关的目标整体特征图作为所述第二全卷积网络针对所述训练图像获得的整体特征图的目标值构建损失函数；以及第一训练子模块，用于利用所构建的损失函数对所述第一全卷积网络和所述第二全卷积网络中的参数进行训练。

根据本发明实施例，所述标注数据还可以包括与所述训练图像中的行人一一相关的目标整体特征图、分别与所述训练图像中的每个行人相关的目标行人特征图和分别与所述第一预定数目种类的行人关节点中的每种行人关节点相关的目标关节点特征图，所述训练模块包括：第二构建子模块，用于以所述分别与所述训练图像中的每个行人相关的目标行人特征图作为所述第一全卷积网络针对所述训练图像输出的行人特征图的目标值构建第一损失函数，以所述分别与所述第一预定数目种类的行人关节点中的每种行人关节点相关的目标关节点特征图作为所述第一全卷积网络针对所述训练图像输出的关节点特征图的目标值构建第二损失函数，并以所述与所述训练图像中的行人一一相关的目标整体特征图作为所述第二全卷积网络针对所述训练图像获得的整体特征图的目标值构建第三损失函数；以及第二训练子模块，用于利用所述第一损失函数、所述第二损失函数和所述第三损失函数对所述第一全卷积网络和所述第二全卷积网络中的参数进行训练。

根据本发明实施例，所述标注数据生成模块包括：初始生成子模块，用于对于所述第一预定数目种类的行人关节点中的每种行人关节点，生成与该种行人关节点相关的初始关节点特征图；以及高斯模糊子模块，用于对于所述第一预定数目种类的行人关节点中的每种行人关节点，对与该种行人关节点相关的初始关节点特征图进行高斯模糊，以获得与该种行人关节点相关的目标关节点特征图。

根据本发明实施例，所述待处理图像是待处理视频中的当前视频帧，所述装置800进一步包括：反馈网络处理模块(未示出)，用于将针对所述当前视频帧获得的行人特征图、关节点特征图和整体特征图以及针对所述当前视频帧的先前视频帧获得的行人特征图和关节点特征图输入反馈式神经网络，以更新所述至少部分行人中的每个行人的行人位置和关节点位置。

根据本发明实施例，所述第一网络处理模块820包括：输入子模块，用于将所述待处理图像输入所述第一全卷积网络，以获得所述分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和第二预定数目的行人特征图；累加子模块，用于对于所述第二预定数目的行人特征图中的每一个，对该行人特征图的响应值进行累加，以获得累加值；以及选择子模块，用于从所述第二预定数目的行人特征图中选择累加值大于阈值的行人特征图，以获得所述分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图。

根据本发明实施例，所述分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图中的每一个是对与该行人特征图相关的行人进行实例分割获得的掩模区的特征图，所述至少部分行人中的每个行人的行人位置包括该行人的掩模区的具体位置和包围该行人的掩模区的行人框的具体位置。

在一个实施例中，所述第二网络处理模块840包括关节点确定子模块，用于利用所述第二全卷积网络进行以下操作：用于对于每个行人特征图，根据每个关节点特征图，确定与该关节点特征图相关的一种行人关节点中的、在该行人特征图对应的掩模区中出现概率最大的特定行人关节点，并将所述特定行人关节点的位置作为与该行人特征图相关的行人的、与该关节点特征图相关的一种行人关节点的关节点位置。

根据本发明实施例，所述结合模块830包括：连接子模块，用于将所述所获得的所有行人特征图和所有关节点特征图以全连接方式连接在一起形成所述经结合的特征图。

根据本发明实施例，所述第一图像获取模块810包括：初始图像获取子模块，用于获取初始图像；以及缩放子模块，用于将所述初始图像缩放为具有不同大小的图像并将所述具有不同大小的图像中的每一个分别作为所述待处理图像。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图9示出了根据本发明一个实施例的用于行人检测和姿态估计的系统900的示意性框图。用于行人检测和姿态估计的系统900包括图像采集装置910、存储装置920、以及处理器930。

图像采集装置910用于采集图像。图像采集装置910是可选的，用于行人检测和姿态估计的系统900可以不包括图像采集装置910。在这种情况下，可以利用其他图像采集装置采集用于行人检测和姿态估计的图像，并将采集的图像发送给行人检测和姿态估计的系统900。

所述存储装置920存储用于实现根据本发明实施例的用于行人检测和姿态估计的方法中的相应步骤的程序代码。

所述处理器930用于运行所述存储装置920中存储的程序代码，以执行根据本发明实施例的用于行人检测和姿态估计的方法的相应步骤，并且用于实现根据本发明实施例的用于行人检测和姿态估计的装置中的第一图像获取模块810、第一网络处理模块820、结合模块830和第二网络处理模块840。

在一个实施例中，所述程序代码被所述处理器930运行时使所述用于行人检测和姿态估计的系统900执行以下步骤：获取待处理图像；将所述待处理图像输入第一全卷积网络，以获得分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图；将所获得的所有行人特征图和所有关节点特征图结合在一起形成经结合的特征图；以及将所述经结合的特征图输入第二全卷积网络，以获得所述至少部分行人中的每个行人的行人位置和关节点位置。

在一个实施例中，所述程序代码被所述处理器930运行时使所述用于行人检测和姿态估计的系统900执行的将所述经结合的特征图输入第二全卷积网络，以获得所述至少部分行人中的每个行人的行人位置和关节点位置的步骤包括：将所述经结合的特征图输入所述第二全卷积网络中的预定卷积层，以获得与所述至少部分行人一一相关的整体特征图；以及将所述与所述至少部分行人一一相关的整体特征图输入所述第二全卷积网络中的剩余卷积层，以获得所述至少部分行人中的每个行人的行人位置和关节点位置。

在一个实施例中，所述程序代码被所述处理器930运行时使所述用于行人检测和姿态估计的系统900进一步执行：获取训练图像，其中，所述训练图像中的每个行人的特征点的位置是已标注好的；至少根据所述训练图像中的特征点生成标注数据；以及利用所述标注数据训练所述第一全卷积网络和所述第二全卷积网络。

在一个实施例中，所述标注数据包括与所述训练图像中的行人一一相关的目标整体特征图，所述程序代码被所述处理器930运行时使所述用于行人检测和姿态估计的系统900执行的利用所述标注数据训练所述第一全卷积网络和所述第二全卷积网络的步骤包括：以所述与所述训练图像中的行人一一相关的目标整体特征图作为所述第二全卷积网络针对所述训练图像获得的整体特征图的目标值构建损失函数；以及利用所构建的损失函数对所述第一全卷积网络和所述第二全卷积网络中的参数进行训练。

在一个实施例中，所述标注数据包括与所述训练图像中的行人一一相关的目标整体特征图、分别与所述训练图像中的每个行人相关的目标行人特征图和分别与所述第一预定数目种类的行人关节点中的每种行人关节点相关的目标关节点特征图，所述程序代码被所述处理器930运行时使所述用于行人检测和姿态估计的系统900执行的利用所述标注数据训练所述第一全卷积网络和所述第二全卷积网络的步骤包括：以所述分别与所述训练图像中的每个行人相关的目标行人特征图作为所述第一全卷积网络针对所述训练图像输出的行人特征图的目标值构建第一损失函数，以所述分别与所述第一预定数目种类的行人关节点中的每种行人关节点相关的目标关节点特征图作为所述第一全卷积网络针对所述训练图像输出的关节点特征图的目标值构建第二损失函数，并以所述与所述训练图像中的行人一一相关的目标整体特征图作为所述第二全卷积网络针对所述训练图像获得的整体特征图的目标值构建第三损失函数；以及利用所述第一损失函数、所述第二损失函数和所述第三损失函数对所述第一全卷积网络和所述第二全卷积网络中的参数进行训练。

在一个实施例中，所述程序代码被所述处理器930运行时使所述用于行人检测和姿态估计的系统900执行的至少根据所述训练图像中的特征点生成标注数据的步骤包括：对于所述第一预定数目种类的行人关节点中的每种行人关节点，生成与该种行人关节点相关的初始关节点特征图；以及对于所述第一预定数目种类的行人关节点中的每种行人关节点，对与该种行人关节点相关的初始关节点特征图进行高斯模糊，以获得与该种行人关节点相关的目标关节点特征图。

在一个实施例中，所述待处理图像是待处理视频中的当前视频帧，所述程序代码被所述处理器930运行时使所述用于行人检测和姿态估计的系统900进一步执行：将针对所述当前视频帧获得的行人特征图、关节点特征图和整体特征图以及针对所述当前视频帧的先前视频帧获得的行人特征图和关节点特征图输入反馈式神经网络，以更新所述至少部分行人中的每个行人的行人位置和关节点位置。

在一个实施例中，所述程序代码被所述处理器930运行时使所述用于行人检测和姿态估计的系统900执行的将所述待处理图像输入第一全卷积网络，以获得分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图的步骤包括：将所述待处理图像输入所述第一全卷积网络，以获得所述分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和第二预定数目的行人特征图；对于所述第二预定数目的行人特征图中的每一个，对该行人特征图的响应值进行累加，以获得累加值；以及从所述第二预定数目的行人特征图中选择累加值大于阈值的行人特征图，以获得所述分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图。

在一个实施例中，所述分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图中的每一个是对与该行人特征图相关的行人进行实例分割获得的掩模区的特征图，所述至少部分行人中的每个行人的行人位置包括该行人的掩模区的具体位置和包围该行人的掩模区的行人框的具体位置。

在一个实施例中，所述程序代码被所述处理器930运行时使所述用于行人检测和姿态估计的系统900执行的将所获得的所有行人特征图和所有关节点特征图结合在一起形成经结合的特征图的步骤包括：将所述所获得的所有行人特征图和所有关节点特征图以全连接方式连接在一起形成所述经结合的特征图。

在一个实施例中，所述程序代码被所述处理器930运行时使所述用于行人检测和姿态估计的系统900执行的获取待处理图像的步骤包括：获取初始图像；以及将所述初始图像缩放为具有不同大小的图像并将所述具有不同大小的图像中的每一个分别作为所述待处理图像。

在一个实施例中，所述程序代码被所述处理器930运行时使所述用于行人检测和姿态估计的系统900执行的将所述经结合的特征图输入第二全卷积网络，以获得所述至少部分行人中的每个行人的行人位置和关节点位置的步骤包括：利用所述第二全卷积网络进行以下操作：对于每个行人特征图，根据每个关节点特征图，确定与该关节点特征图相关的一种行人关节点中的、在该行人特征图对应的掩模区中出现概率最大的特定行人关节点，并将所述特定行人关节点的位置作为与该行人特征图相关的行人的、与该关节点特征图相关的一种行人关节点的关节点位置。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的用于行人检测和姿态估计的方法的相应步骤，并且用于实现根据本发明实施例的用于行人检测和姿态估计的装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述计算机程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的用于行人检测和姿态估计的装置的各个功能模块，并且/或者可以执行根据本发明实施例的用于行人检测和姿态估计的方法。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机执行以下步骤：获取待处理图像；将所述待处理图像输入第一全卷积网络，以获得分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图；将所获得的所有行人特征图和所有关节点特征图结合在一起形成经结合的特征图；以及将所述经结合的特征图输入第二全卷积网络，以获得所述至少部分行人中的每个行人的行人位置和关节点位置。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机执行的将所述经结合的特征图输入第二全卷积网络，以获得所述至少部分行人中的每个行人的行人位置和关节点位置的步骤包括：将所述经结合的特征图输入所述第二全卷积网络中的预定卷积层，以获得与所述至少部分行人一一相关的整体特征图；以及将所述与所述至少部分行人一一相关的整体特征图输入所述第二全卷积网络中的剩余卷积层，以获得所述至少部分行人中的每个行人的行人位置和关节点位置。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机进一步执行：获取训练图像，其中，所述训练图像中的每个行人的特征点的位置是已标注好的；至少根据所述训练图像中的特征点生成标注数据；以及利用所述标注数据训练所述第一全卷积网络和所述第二全卷积网络。

在一个实施例中，所述标注数据包括与所述训练图像中的行人一一相关的目标整体特征图，所述计算机程序指令在被计算机运行时使所述计算机执行的利用所述标注数据训练所述第一全卷积网络和所述第二全卷积网络的步骤包括：以所述与所述训练图像中的行人一一相关的目标整体特征图作为所述第二全卷积网络针对所述训练图像获得的整体特征图的目标值构建损失函数；以及利用所构建的损失函数对所述第一全卷积网络和所述第二全卷积网络中的参数进行训练。

在一个实施例中，所述标注数据包括与所述训练图像中的行人一一相关的目标整体特征图、分别与所述训练图像中的每个行人相关的目标行人特征图和分别与所述第一预定数目种类的行人关节点中的每种行人关节点相关的目标关节点特征图，所述计算机程序指令在被计算机运行时使所述计算机执行的利用所述标注数据训练所述第一全卷积网络和所述第二全卷积网络的步骤包括：以所述分别与所述训练图像中的每个行人相关的目标行人特征图作为所述第一全卷积网络针对所述训练图像输出的行人特征图的目标值构建第一损失函数，以所述分别与所述第一预定数目种类的行人关节点中的每种行人关节点相关的目标关节点特征图作为所述第一全卷积网络针对所述训练图像输出的关节点特征图的目标值构建第二损失函数，并以所述与所述训练图像中的行人一一相关的目标整体特征图作为所述第二全卷积网络针对所述训练图像获得的整体特征图的目标值构建第三损失函数；以及利用所述第一损失函数、所述第二损失函数和所述第三损失函数对所述第一全卷积网络和所述第二全卷积网络中的参数进行训练。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机执行的至少根据所述训练图像中的特征点生成标注数据的步骤包括：对于所述第一预定数目种类的行人关节点中的每种行人关节点，生成与该种行人关节点相关的初始关节点特征图；以及对于所述第一预定数目种类的行人关节点中的每种行人关节点，对与该种行人关节点相关的初始关节点特征图进行高斯模糊，以获得与该种行人关节点相关的目标关节点特征图。

在一个实施例中，所述待处理图像是待处理视频中的当前视频帧，所述计算机程序指令在被计算机运行时使所述计算机进一步执行：将针对所述当前视频帧获得的行人特征图、关节点特征图和整体特征图以及针对所述当前视频帧的先前视频帧获得的行人特征图和关节点特征图输入反馈式神经网络，以更新所述至少部分行人中的每个行人的行人位置和关节点位置。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机执行的将所述待处理图像输入第一全卷积网络，以获得分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图的步骤包括：将所述待处理图像输入所述第一全卷积网络，以获得所述分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和第二预定数目的行人特征图；对于所述第二预定数目的行人特征图中的每一个，对该行人特征图的响应值进行累加，以获得累加值；以及从所述第二预定数目的行人特征图中选择累加值大于阈值的行人特征图，以获得所述分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机执行的将所获得的所有行人特征图和所有关节点特征图结合在一起形成经结合的特征图的步骤包括：将所述所获得的所有行人特征图和所有关节点特征图以全连接方式连接在一起形成所述经结合的特征图。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机执行的获取待处理图像的步骤包括：获取初始图像；以及将所述初始图像缩放为具有不同大小的图像并将所述具有不同大小的图像中的每一个分别作为所述待处理图像。

在一个实施例中，所述计算机程序指令在被计算机运行时使所述计算机执行的将所述经结合的特征图输入第二全卷积网络，以获得所述至少部分行人中的每个行人的行人位置和关节点位置的步骤包括：利用所述第二全卷积网络进行以下操作：对于每个行人特征图，根据每个关节点特征图，确定与该关节点特征图相关的一种行人关节点中的、在该行人特征图对应的掩模区中出现概率最大的特定行人关节点，并将所述特定行人关节点的位置作为与该行人特征图相关的行人的、与该关节点特征图相关的一种行人关节点的关节点位置。

根据本发明实施例的用于行人检测和姿态估计的系统中的各模块可以通过根据本发明实施例的实施行人检测和姿态估计的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

根据本发明实施例的用于行人检测和姿态估计的方法及装置，由于采用全卷积网络同时进行行人检测和行人姿态估计，并且在处理过程中共享行人检测的中间结果和行人姿态估计的中间结果，因此使得行人检测的中间结果可以辅助行人姿态的估计并且行人姿态估计的中间结果也可以用于行人检测，这种方法可以提高行人检测和行人姿态估计的准确度。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的用于行人检测和姿态估计的装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于行人检测和姿态估计的方法，包括：

获取待处理图像；

将所述待处理图像输入第一全卷积网络，以获得分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图；

将所获得的所有行人特征图和所有关节点特征图结合在一起形成经结合的特征图；以及

将所述经结合的特征图输入第二全卷积网络，以获得所述至少部分行人中的每个行人的行人位置和关节点位置。

2.如权利要求1所述的方法，其中，所述将所述经结合的特征图输入第二全卷积网络，以获得所述至少部分行人中的每个行人的行人位置和关节点位置包括：

将所述经结合的特征图输入所述第二全卷积网络中的预定卷积层，以获得与所述至少部分行人一一相关的整体特征图；以及

将所述与所述至少部分行人一一相关的整体特征图输入所述第二全卷积网络中的剩余卷积层，以获得所述至少部分行人中的每个行人的行人位置和关节点位置。

3.如权利要求2所述的方法，其中，所述方法进一步包括：

获取训练图像，其中，所述训练图像中的每个行人的特征点的位置是已标注好的；

至少根据所述训练图像中的特征点生成标注数据；以及

利用所述标注数据训练所述第一全卷积网络和所述第二全卷积网络。

4.如权利要求3所述的方法，其中，所述标注数据包括与所述训练图像中的行人一一相关的目标整体特征图，

所述利用所述标注数据训练所述第一全卷积网络和所述第二全卷积网络包括：

以所述与所述训练图像中的行人一一相关的目标整体特征图作为所述第二全卷积网络针对所述训练图像获得的整体特征图的目标值构建损失函数；以及

利用所构建的损失函数对所述第一全卷积网络和所述第二全卷积网络中的参数进行训练。

5.如权利要求3所述的方法，其中，所述标注数据包括与所述训练图像中的行人一一相关的目标整体特征图、分别与所述训练图像中的每个行人相关的目标行人特征图和分别与所述第一预定数目种类的行人关节点中的每种行人关节点相关的目标关节点特征图，

以所述分别与所述训练图像中的每个行人相关的目标行人特征图作为所述第一全卷积网络针对所述训练图像输出的行人特征图的目标值构建第一损失函数，以所述分别与所述第一预定数目种类的行人关节点中的每种行人关节点相关的目标关节点特征图作为所述第一全卷积网络针对所述训练图像输出的关节点特征图的目标值构建第二损失函数，并以所述与所述训练图像中的行人一一相关的目标整体特征图作为所述第二全卷积网络针对所述训练图像获得的整体特征图的目标值构建第三损失函数；以及

利用所述第一损失函数、所述第二损失函数和所述第三损失函数对所述第一全卷积网络和所述第二全卷积网络中的参数进行训练。

6.如权利要求5所述的方法，其中，所述至少根据所述训练图像中的特征点生成标注数据包括：

对于所述第一预定数目种类的行人关节点中的每种行人关节点，

生成与该种行人关节点相关的初始关节点特征图；以及

对与该种行人关节点相关的初始关节点特征图进行高斯模糊，以获得与该种行人关节点相关的目标关节点特征图。

7.如权利要求2所述的方法，其中，所述待处理图像是待处理视频中的当前视频帧，

所述方法进一步包括：

将针对所述当前视频帧获得的行人特征图、关节点特征图和整体特征图以及针对所述当前视频帧的先前视频帧获得的行人特征图和关节点特征图输入反馈式神经网络，以更新所述至少部分行人中的每个行人的行人位置和关节点位置。

8.如权利要求1所述的方法，其中，所述将所述待处理图像输入第一全卷积网络，以获得分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图包括：

将所述待处理图像输入所述第一全卷积网络，以获得所述分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和第二预定数目的行人特征图；

对于所述第二预定数目的行人特征图中的每一个，对该行人特征图的响应值进行累加，以获得累加值；以及

从所述第二预定数目的行人特征图中选择累加值大于阈值的行人特征图，以获得所述分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图。

9.如权利要求1所述的方法，其中，所述分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图中的每一个是对与该行人特征图相关的行人进行实例分割获得的掩模区的特征图，所述至少部分行人中的每个行人的行人位置包括该行人的掩模区的具体位置和包围该行人的掩模区的行人框的具体位置。

10.如权利要求1所述的方法，其中，所述将所获得的所有行人特征图和所有关节点特征图结合在一起形成经结合的特征图包括：

将所述所获得的所有行人特征图和所有关节点特征图以全连接方式连接在一起形成所述经结合的特征图。

11.如权利要求1所述的方法，其中，所述获取待处理图像包括：

获取初始图像；以及

将所述初始图像缩放为具有不同大小的图像并将所述具有不同大小的图像中的每一个分别作为所述待处理图像。

12.如权利要求9所述的方法，其中，所述将所述经结合的特征图输入第二全卷积网络，以获得所述至少部分行人中的每个行人的行人位置和关节点位置的步骤包括：

利用所述第二全卷积网络进行以下操作：对于每个行人特征图，根据每个关节点特征图，确定与该关节点特征图相关的一种行人关节点中的、在该行人特征图对应的掩模区中出现概率最大的特定行人关节点，并将所述特定行人关节点的位置作为与该行人特征图相关的行人的、与该关节点特征图相关的一种行人关节点的关节点位置。

13.一种用于行人检测和姿态估计的装置，包括：

第一图像获取模块，用于获取待处理图像；

第一网络处理模块，用于将所述待处理图像输入第一全卷积网络，以获得分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图；

结合模块，用于将所获得的所有行人特征图和所有关节点特征图结合在一起形成经结合的特征图；以及

第二网络处理模块，用于将所述经结合的特征图输入第二全卷积网络，以获得所述至少部分行人中的每个行人的行人位置和关节点位置。

14.如权利要求13所述的装置，其中，所述第二网络处理模块包括：

特征图获得子模块，用于将所述经结合的特征图输入所述第二全卷积网络中的预定卷积层，以获得与所述至少部分行人一一相关的整体特征图；以及

位置获得子模块，用于将所述与所述至少部分行人一一相关的整体特征图输入所述第二全卷积网络中的剩余卷积层，以获得所述至少部分行人中的每个行人的行人位置和关节点位置。

15.如权利要求14所述的装置，其中，所述装置进一步包括：

第二图像获取模块，用于获取训练图像，其中，所述训练图像中的每个行人的特征点的位置是已标注好的；

标注数据生成模块，用于至少根据所述训练图像中的特征点生成标注数据；以及

训练模块，用于利用所述标注数据训练所述第一全卷积网络和所述第二全卷积网络。

16.如权利要求15所述的装置，其中，所述标注数据包括与所述训练图像中的行人一一相关的目标整体特征图，

所述训练模块包括：

第一构建子模块，用于以所述与所述训练图像中的行人一一相关的目标整体特征图作为所述第二全卷积网络针对所述训练图像获得的整体特征图的目标值构建损失函数；以及

第一训练子模块，用于利用所构建的损失函数对所述第一全卷积网络和所述第二全卷积网络中的参数进行训练。

17.如权利要求15所述的装置，其中，所述标注数据包括与所述训练图像中的行人一一相关的目标整体特征图、分别与所述训练图像中的每个行人相关的目标行人特征图和分别与所述第一预定数目种类的行人关节点中的每种行人关节点相关的目标关节点特征图，

所述训练模块包括：

第二构建子模块，用于以所述分别与所述训练图像中的每个行人相关的目标行人特征图作为所述第一全卷积网络针对所述训练图像输出的行人特征图的目标值构建第一损失函数，以所述分别与所述第一预定数目种类的行人关节点中的每种行人关节点相关的目标关节点特征图作为所述第一全卷积网络针对所述训练图像输出的关节点特征图的目标值构建第二损失函数，并以所述与所述训练图像中的行人一一相关的目标整体特征图作为所述第二全卷积网络针对所述训练图像获得的整体特征图的目标值构建第三损失函数；以及

第二训练子模块，用于利用所述第一损失函数、所述第二损失函数和所述第三损失函数对所述第一全卷积网络和所述第二全卷积网络中的参数进行训练。

18.如权利要求17所述的装置，其中，所述标注数据生成模块包括：

初始生成子模块，用于对于所述第一预定数目种类的行人关节点中的每种行人关节点，生成与该种行人关节点相关的初始关节点特征图；以及

高斯模糊子模块，用于对于所述第一预定数目种类的行人关节点中的每种行人关节点，对与该种行人关节点相关的初始关节点特征图进行高斯模糊，以获得与该种行人关节点相关的目标关节点特征图。

19.如权利要求14所述的装置，其中，所述待处理图像是待处理视频中的当前视频帧，

所述装置进一步包括：

反馈网络处理模块，用于将针对所述当前视频帧获得的行人特征图、关节点特征图和整体特征图以及针对所述当前视频帧的先前视频帧获得的行人特征图和关节点特征图输入反馈式神经网络，以更新所述至少部分行人中的每个行人的行人位置和关节点位置。

20.如权利要求13所述的装置，其中，所述第一网络处理模块包括：

输入子模块，用于将所述待处理图像输入所述第一全卷积网络，以获得所述分别与第一预定数目种类的行人关节点中的每种行人关节点相关的关节点特征图和第二预定数目的行人特征图；

累加子模块，用于对于所述第二预定数目的行人特征图中的每一个，对该行人特征图的响应值进行累加，以获得累加值；以及

选择子模块，用于从所述第二预定数目的行人特征图中选择累加值大于阈值的行人特征图，以获得所述分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图。

21.如权利要求13所述的装置，其中，所述分别与所述待处理图像中的至少部分行人中的每个行人相关的行人特征图中的每一个是对与该行人特征图相关的行人进行实例分割获得的掩模区的特征图，所述至少部分行人中的每个行人的行人位置包括该行人的掩模区的具体位置和包围该行人的掩模区的行人框的具体位置。

22.如权利要求13所述的装置，其中，所述结合模块包括：

连接子模块，用于将所述所获得的所有行人特征图和所有关节点特征图以全连接方式连接在一起形成所述经结合的特征图。

23.如权利要求13所述的装置，其中，所述第一图像获取模块包括：

初始图像获取子模块，用于获取初始图像；以及

缩放子模块，用于将所述初始图像缩放为具有不同大小的图像并将所述具有不同大小的图像中的每一个分别作为所述待处理图像。

24.如权利要求21所述的装置，其中，所述第二网络处理模块包括关节点确定子模块，用于利用所述第二全卷积网络进行以下操作：对于每个行人特征图，根据每个关节点特征图，确定与该关节点特征图相关的一种行人关节点中的、在该行人特征图对应的掩模区中出现概率最大的特定行人关节点，并将所述特定行人关节点的位置作为与该行人特征图相关的行人的、与该关节点特征图相关的一种行人关节点的关节点位置。