CN112651291A

CN112651291A - 基于视频的姿势估计方法、装置、介质及电子设备

Info

Publication number: CN112651291A
Application number: CN202011164501.5A
Authority: CN
Inventors: 袁粒; 陈云鹏; 常舒宁; 聂学成; 冯佳时
Original assignee: Eto Singapore Ltd Private
Current assignee: Eto Singapore Ltd Private
Priority date: 2020-10-01
Filing date: 2020-10-27
Publication date: 2021-04-13
Also published as: SG10202009760XA

Abstract

本申请涉及计算机视觉领域，特别地公开了一种基于视频的人体姿势估计方法、装置、介质及电子设备，本申请的基于视频的人体姿势估计方法包括：获取视频中的多帧多人体图像，其中每帧多人体图像中包括有多个人体实例，生成各帧多人体图像中的人体实例的初始人体边界框，基于多人体图像与多人体图像的前一帧图像之间的位置差数据，对多人体图像的初始人体边界框进行校正得到检测人体边界框，其中位置差数据包括多人体图像中的人体实例在前一帧图像和多人体图像中的位置差，基于多人体图像的检测人体边界框识别多人体图像中人体实例的姿态。

Description

基于视频的姿势估计方法、装置、介质及电子设备

技术领域

本申请涉及计算机视觉领域，特别地公开了一种基于视频的人体姿势估计方法、装置介质及电子设备。

背景技术

随着机器视觉和深度学习等人工智能技术的快速发展，人体姿势估计技术也随之快速发展，人体姿势估计在活动识别、运动捕捉等应用领域具有重要意义。如何快速准确的进行人体姿势估计成为人们广泛关注的问题。

现有技术中，人体姿态估计的方法主要是通过人体检测模型识别人体并生成边界框，再通过姿势估计模型获得人体关节点，然后对关节点分析获得人体姿势。但是，这种方式依赖于人体检测模型和姿势估计模型输出结果的准确性，若边界框或者关节点预测不准确，将导致后续通过关节点估计的姿势不准确。

发明内容

本申请实施例提供了一种基于视频的人体姿势估计方法及其装置、介质和电子设备，能够通过相邻多人体图像之间的光流校正检测出的多帧多人体图像中人体实例的人体边界框和姿势关键点，提高了对多帧多人体图像的视频中的人体实例所检测出的人体边界框和姿势关键点的准确性，并提高人体实例的人体姿势估计的准确性。

第一方面，本申请实施例公开了一种基于视频的人体姿势估计方法，该方法包括：

获取视频中的多帧多人体图像，其中每帧多人体图像中包括有多个人体实例；生成各帧多人体图像中的人体实例的初始人体边界框；基于多人体图像与多人体图像的前一帧图像之间的位置差数据，对多人体图像的初始人体边界框进行校正得到检测人体边界框，其中位置差数据包括多人体图像中的人体实例在前一帧图像和多人体图像中的位置差；基于多人体图像的检测人体边界框识别多人体图像中人体实例的姿态。

可以理解的是，包含多帧多人体图像的视频即为拥挤场景下的视频，该多帧多人体图像可以为对该视频进行分帧处理得到的所有图像。上述人体实例的初始人体边界框可以由预先训练的人体检测模型或者常规的人体检测模型检测得到，其中预先训练的人体检测模型可以通过拥挤场景下的多种训练数据集训练得到，支持拥挤场景下的人体实例检测。另外，相邻的两张图像之间的位置差数据可以为这两张图像之间的光流。例如，上述多人体图像和该多人体图像的前一帧图像之间的位置差数据为这两张图像之间的光流，从而该位置差数据包括该多人体图像中的人体实例在该前一帧图像和该多人体图像中的位置差，即反映了人体实例在时间域上从该前一帧图像和该多人体图像之间的运动信息，进而反映了人体实例的人体边界框从该前一帧图像到该多人体图像的位置变化情况。显然，由于本方案采用相邻多人体图像之间的位置差数据(即光流)来校正各个人体实施例的人体检测边界框，而位置差数据反映了时间域的信息，因此实现了结合时间域的信息可以避免对多帧多人体图像进行人体边界框检测过程出现漏帧或掉帧的情况，从而实现了对多帧多人体图像中人体实例的人体边界框的平滑处理(即下文中的光流平滑处理)。进而，通过相邻多人体图像之间的位置差数据校正多帧多人体图像中人体实例的人体边界框，即对多帧多人体图像中人体实例的人体边界框进行了光流平滑处理，提高了对多帧多人体图像的视频中的人体实例所检测出的人体边界框的准确性，从而有利于提高后续基于人体边界框进行人体姿势估计的准确性。

另外，在一些实施例中，还可以通过与一帧多人体图像的后一帧图像与该帧多人体图像之间的位置差数据来校正该多人体图像中的人体实例的人体初始边界框，本申请实施例对此不做限制。

在上述第一方面的一种可能的实现方式中，基于多人体图像与多人体图像的前一帧图像之间的位置差数据，对多人体图像的初始人体边界框进行校正得到检测人体边界框，包括：通过以下公式对多帧多人体图像中的第t帧图像中的第i个初始人体边界框进行校正得到第i个检测人体边界框：

其中，

表示多帧多人体图像中的第t-1帧图像中的第i个初始人体边界框的坐标点集，F^t-1→t表示基于第t-1帧图像与第t帧图像之间的位置差数据，

表示基于F^t-1→t得到的第t帧图像中的第i个预测人体边界框的坐标点集，

表示第t帧图像中的第i个初始人体边界框的坐标点集，

表示第t帧图像中的第i个检测人体边界框的坐标点集，α为

与

合成的权重系数，i和t均为正整数。

可以理解的是，一个人体实例的边界框的坐标点的集合用于表征该人体边界框。另外，上述

具体为以第t-1帧图像中的第i个初始人体边界框为基准，根据F^t-1→t所反映的第t-1帧图像中的人体实例从第t-1帧图像到第t帧图像的运动情况，即第t-1帧图像中的第i个初始人体边界框从第t-1帧图像到第t帧图像的位置变化情况，得到同一人体实例在第t帧图像中的第i个预测人体边界框。进而，通过合成第t帧图像中的第i个预测人体边界框的坐标点集(即

)和第t帧图像中的第i个初始人体边界框的坐标点集(即

)，即对这两个坐标点集中相应的坐标进行加权平均处理，可以实现对第t帧图像中的第i个初始人体边界框进行校正得到较为准确的第i个检测人体边界框。

在上述第一方面的一种可能的实现方式中，基于多人体图像的检测人体边界框识别多人体图像中人体实例的姿态，包括：基于多人体图像的检测人体边界框，生成各帧多人体图像中的人体实例的初始姿势关键点；基于多人体图像与多人体图像的前一帧图像之间的位置差数据，以及多人体图像与多人体图像的后一帧图像之间的位置差数据，对多人体图像中的人体实例的初始姿势关键点进行校正得到检测姿势关键点，其中多人体图像与后一帧图像之间的位置差数据包括多人体图像中的人体实例在多人体图像和后一帧图像中的位置差；基于多人体图像中的检测姿势关键点识别多人体图像中人体实例的姿态。

可以理解的是，人体实例的姿势关键点为下文中的人体关节点(或称关节点)，虽然名称不同，但是本质相同，均为用于标记人体姿势的关键点。上述人体实例的初始姿势关键点可以由预先训练的人体姿势估计模型或者常规的人体姿势估计模型检测得到，其中预先训练的人体姿势估计模型可以通过拥挤场景下的多种训练数据集训练得到，支持拥挤场景下的人体实例的姿势关键点的检测，进而实现拥挤场景下的人体姿势估计。具体地，上述多人体图像和该多人体图像的前一帧图像之间的位置差数据为这两张图像之间的光流，从而该位置差数据包括该多人体图像中的人体实例在该前一帧图像和该多人体图像中的位置差，即反映了人体实例在时间域上从该前一帧图像和该多人体图像之间的运动信息，进而反映了人体实例的姿势关键点从该前一帧图像到该多人体图像的位置变化情况。同理，上述多人体图像和该多人体图像的后一帧图像之间的位置差数据为这两张图像之间的光流，反映了人体实例的姿势关键点从该多人体图像到该后一帧图像的位置变化情况。显然，由于本方案采用相邻多人体图像之间的位置差数据(即光流)来校正各个人体实施例的人体检测边界框，而位置差数据反映了时间域的信息，因此实现了结合时间域的信息来避免对多帧多人体图像中的人体实例进行姿势关键点检测过程出现漏帧或掉帧的情况，从而实现了对多帧多人体图像中人体实例的人体关键点的平滑处理(即下文中的光流平滑处理)。如此，通过相邻多人体图像之间的位置差数据校正多帧多人体图像中人体实例所检测出的人体边界框的同时，校正多帧多人体图像中人体实例所检测出的姿势关键点，即对多帧多人体图像中人体实例的姿势关键点进行了光流平滑处理，进一步提高了对多帧多人体图像的视频中的人体实例进行人体姿势估计的准确性。

在上述第一方面的一种可能的实现方式中，基于多人体图像与多人体图像的前一帧图像之间的位置差数据，以及多人体图像与多人体图像的后一帧图像之间的位置差数据，对多人体图像中的人体实例的初始姿势关键点进行校正得到检测姿势关键点，包括：通过以下公式对多帧多人体图像中的第t帧图像中的第i个检测人体边界框中的人体实例的初始姿势关键点进行校正得到检测姿势关键点：

其中，

表示多帧多人体图像中的第t-1帧图像中的第i个检测人体边界框中的人体实例的初始姿势关键点的坐标点集，F^t-1→t表示第t-1帧图像与第t帧图像之间的位置差数据，

为基于F^t-1→t得到第t帧图像中的第i个检测人体边界框中的人体实例的预测姿势关键点的坐标点集；

表示多帧多人体图像中第t+1帧图像中的第i个检测人体边界框中的人体实例的初始姿势关键点的坐标点集；F^t→t+1表示第t-帧图像与第t+1帧图像之间的位置差数据；

为基于F^t→t+1得到第t帧图像中的第i个检测人体边界框中的人体实例的预测姿势关键点的坐标点集；

表示第t帧图像中的第i个检测人体边界框中的人体实例的检测姿势关键点的坐标点集，β表示

之间合成的权重系数，i和t均为正整数。

可以理解的是，一个人体实例的姿势关键点的坐标点集用于表征人体实例的姿势关键点。另外，上述

具体为以第t-1帧图像中的第i个初始人体边界框中的人体实例的姿势关键点为基准，根据F^t-1→t所反映的第t-1帧图像中的人体实例从第t-1帧图像到第t帧图像的运动情况，即第t-1帧图像中的第i个初始人体边界框从第t-1帧图像到第t帧图像的位置变化情况，得到同一人体实例在第t帧图像中的姿势关键点。同理，对

的描述与

类似，此处不再赘述。进而，通过合成

和

即对这三个坐标点集中相应的坐标进行加权平均处理，可以实现对第t帧图像中的人体实例的初始姿势关键点进行校正得到较为准确的检测姿势关键点。

在上述第一方面的一种可能的实现方式中，基于多人体图像的检测人体边界框识别多人体图像中人体实例的姿态之前，方法还包括：生成各帧多人体图像中的人体实例的检测人体边界框对应的标识信息，这里的标识信息即下文的ID，其中一个标识信息用于标识一个人体实例的检测人体边界框。可以理解的是，人体实例的检测人体边界框对应的标识信息，具体表示人体检测边界框中的人体实例。具体地，在各个人体实例在多帧多人体图像中移动的过程中，通过各个标识信息可以区分不同人体实例所在的人体检测边界框，即区分不同人体实例。

在上述第一方面的一种可能的实现方式中，基于多人体图像的检测人体边界框识别多人体图像中人体实例的姿态，包括：基于多人体图像的检测人体边界框和检测人体边界框的标识信息，识别多人体图像中人体实例的姿态。可以理解的是，在检测得到多帧多人体图像中的人体实例的姿势检测关键点的过程中，通过检测人体边界框的标识信息，可以区分不同人体实例，进而保证对相邻图像中的相同人体实例的姿势关键点进行校正，进而有利于进一步提高人体实例的姿势关键点(即姿势检测关键点)的准确性，并进一步提高人体实例的姿势估计的准确性。

在上述第一方面的一种可能的实现方式中，上述方法还包括：基于各帧多人体图像中的人体实例的检测人体边界框对应的标识信息，以及人体实例的姿势，在多帧多人体图像中进行人体实例跟踪。可以理解的是，由于确定各帧多人体图像中各个人体实例的姿势关键点的过程中，使用了各帧多人体图像之间的位置差数据所反映的时间域的信息，因此可以保证对各帧多人体图像中的各个人体实例均进行人体检测边界框以及姿势关键点较为完整的检测，避免漏检或错检。从而，使得各个标识信息可以较为准确地对多帧多人体图像中的各个人体实例的人体检测边界框进行标识，即对各个人体实例进行标识，进而实现较为准确的人体跟踪。例如，上述多帧多人体图像中某一帧多人体图像开始出现人体实例“张三”，即人体实例所在的人体检测边界框的标识信息为“张三”，那么在该多人体图像之后的各帧多人体图像中只要出现人体实例“张三”，就会准确地在这些多人体图像中生成该人体实例“张三”的人体检测边界框的标识信息“张三”。

在上述第一方面的一种可能的实现方式中，各帧多人体图像中的人体实例的初始人体边界框由第一神经网络模型生成，第一神经网络模型的主干网络包括以下至少一种：ResNet152网络，ResNeXt101网络，SeNet154网络。可以理解的是，在第一神经网络模型的主干网络包括上述多种网络时，该第一神经网络模型具有这些网络的所有功能。具体地，该第一神经网络可以为下文中的人体检测模型。

在上述第一方面的一种可能的实现方式中，各帧多人体图像中的人体实例的初始姿势关键点通过第二神经网络模型生成，第二神经网络模型的主干网络包括以下至少一种：HRNet和SimpleNet。可以理解的是，在第二神经网络模型的主干网络包括上述多种网络时，该第二神经网络模型具有这些网络的所有功能。具体地，该第二神经网络可以为下文中的姿势估计模型。

第二方面，本申请实施例公开了一种基于视频的人体姿势估计方法，该方法包括：获取视频中的多帧多人体图像，其中每帧多人体图像中包括有多个人体实例；生成各帧多人体图像中的人体实例的检测人体边界框；基于多人体图像的检测人体边界框，生成各帧多人体图像中的人体实例的初始姿势关键点；基于多人体图像与多人体图像的前一帧图像之间的位置差数据，以及多人体图像与多人体图像的后一帧图像之间的位置差数据，对多人体图像中的人体实例的初始姿势关键点进行校正得到检测姿势关键点，其中，多人体图像与前一帧图像之间的位置差数据包括多人体图像中的人体实例在多人体图像和前一帧图像中的位置差，多人体图像与后一帧图像之间的位置差数据包括多人体图像中的人体实例在多人体图像和后一帧图像中的位置差；基于多人体图像中的检测姿势关键点识别多人体图像中人体实例的姿态。

在上述第二方面的一种可能的实现方式中，基于多人体图像与多人体图像的前一帧图像之间的位置差数据，以及多人体图像与多人体图像的后一帧图像之间的位置差数据，对多人体图像中的人体实例的初始姿势关键点进行校正得到检测姿势关键点，包括：

通过以下公式对多帧多人体图像中的第t帧图像中的第i个检测人体边界框中的人体实例的初始姿势关键点进行校正得到检测姿势关键点：

其中，

之间合成的权重系数，i和t均为正整数。

在上述第二方面的一种可能的实现方式中，，生成各帧多人体图像中的人体实例的检测人体边界框，包括：生成各帧多人体图像中的人体实例的初始人体边界框；基于多人体图像与多人体图像的前一帧图像之间的位置差数据，对多人体图像的初始人体边界框进行校正得到检测人体边界框，其中位置差数据包括多人体图像中的人体实例在前一帧图像和多人体图像中的位置差；基于多人体图像的检测人体边界框识别多人体图像中人体实例的姿态。

在上述第二方面的一种可能的实现方式中，基于多人体图像与多人体图像的前一帧图像之间的位置差数据，对多人体图像的初始人体边界框进行校正得到检测人体边界框，包括：通过以下公式对多帧多人体图像中的第t帧图像中的第i个初始人体边界框进行校正得到第i个检测人体边界框：

其中，

表示第t帧图像中的第i个初始人体边界框的坐标点集，

表示第t帧图像中的第i个检测人体边界框的坐标点集，α为

与

合成的权重系数，i和t均为正整数。

第三方面，本申请实施例公开了一种基于视频的人体姿势估计装置，包括：图像获取模块，用于获取视频中的多帧多人体图像，其中每帧多人体图像中包括有多个人体实例；人体检测模块，用于生成各帧多人体图像中的人体实例的初始人体边界框；人体校正模块，用于根据多人体图像与多人体图像的前一帧图像之间的位置差数据，对多人体图像的初始人体边界框进行校正得到检测人体边界框，其中位置差数据包括多人体图像中的人体实例在前一帧图像和多人体图像中的位置差；姿势估计模块，用于根据多人体图像的检测人体边界框识别多人体图像中人体实例的姿态。

第四方面，本申请实施例公开了一种基于视频的人体姿势估计装置，包括：图像获取模块，用于获取视频中的多帧多人体图像，其中每帧多人体图像中包括有多个人体实例；人体检测模块，用于生成各帧多人体图像中的人体实例的检测人体边界框；姿势检测模块，用于基于多人体图像的检测人体边界框，生成各帧多人体图像中的人体实例的初始姿势关键点；姿势校正模块，基于多人体图像与多人体图像的前一帧图像之间的位置差数据，以及多人体图像与多人体图像的后一帧图像之间的位置差数据，对多人体图像中的人体实例的初始姿势关键点进行校正得到检测姿势关键点，其中，多人体图像与前一帧图像之间的位置差数据包括多人体图像中的人体实例在多人体图像和前一帧图像中的位置差，多人体图像与后一帧图像之间的位置差数据包括多人体图像中的人体实例在多人体图像和后一帧图像中的位置差；姿势估计模块，用于基于多人体图像中的检测姿势关键点识别多人体图像中人体实例的姿态。

第五方面，本申请实施例公开了一种可读介质，可读介质上存储有指令，该指令在电子设备上执行时使电子设备执行上述第一方面或第二方面的基于视频的人体姿势估计方法。

第六面，本申请实施例公开了一种电子设备，包括：存储器，用于存储由电子设备的一个或多个处理器执行的指令，以及处理器，是电子设备的处理器之一，用于执行上述第一方面或第二方面的基于视频的人体姿势估计方法。

附图说明

图1根据本申请的一些实施例，示出了目标对象的示意图；

图2根据本申请的一些实施例，示出了一种连续两帧之间的光流示意图；

图3根据本申请的一些实施例，示出了一种人体姿势估计场景图；

图4根据本申请的一些实施例，示出了一种姿势估计场景的组成架构的示意图；

图5根据本申请的一些实施例，示出了一种姿势估计方法流程图，；

图6根据本申请的一些实施例，示出了一种人体检测模型输出的边界框示意图；

图7根据本申请的一些实施例，示出了一种人体实例对应的人体边界框的坐标点示意图；

图8根据本申请的一些实施例，示出了一种姿势追踪的组成架构示意图；

图9根据本申请的一些实施例，示出了一种人体姿势估计模型输出的人体关节点和躯干分布示意图；

图10根据本申请的一些实施例，示出了一种多人体图像的人体实例所检测的人体关节点坐标示意图；

图11根据本申请的一些实施例，示出了一种人体检测模型检测人体实例时可能输出的类别和概率示意图；

图12根据本申请的一些实施例，示出了一种基于视频的人体姿势估计装置；

图13根据本申请的一些实施例，示出了另一种基于视频的人体姿势估计装置；

图14根据本申请的一些实施例，示出了一种电子设备的框图；

图15根据本申请一些实施例，示出了一种片上系统(SoC)的框图。

具体实施例

本申请的说明性实施例包括但不限于姿势估计方法及其装置、介质和电子设备。

本申请中基于视频的姿势估计方法适用于各种视频处理，尤其是拥挤场景的视频处理的场景，例如，该场景应用于机器人的视觉处理、视频监控和人类动作识别、动物动作识别等方面，具体地，例如，可以用于判断马路上或者独居的老人是否有摔倒的姿势，动物园里的动物是否有异常或危险的姿势，拥挤场景中的行人是否有推攘或踩踏姿势等。

本申请实施例提供的姿势估计方法，可以获取待处理视频的多帧图像，通过用于检测人体的人体检测模型检测出该多帧图像中的人体的边界框，再通过用于检测人体姿势的人体姿势估计模型对已经检测出人体的该多帧图像再进行检测，得到该多帧图像中各个人体的关节点。然后，该方法可以通过该多帧图像之间的光流，即人体在该多帧图像中基于时间域的运动信息，对检测出的人体的关节点进行修正(即平滑处理)，避免处理多帧图像时出现漏帧掉帧的现象，提升了最终得到的人体的关节点的准确性，即提升人体姿势估计的准确性。此外，该方法还可以在通过人体检测模型从多帧图像中检测出人体的边界框之后，可以通过该多帧图像之间的光流对检测出的人体的边界框进行修正，处理多帧图像出现漏帧掉帧的现象，提升最终检测出的人体的边界框的准确性，进而有利于提升后续人体姿势估计的准确性。

为便于理解本申请实施例提供的技术方案，这里先对本申请实施例使用的关键名词进行解释：

目标对象：针对一帧图像而言，目标对象为需要做姿势估计的物体，针对不同的应用场景，目标对象的设定可以不同，如图1所示，为一帧图像的示意图，若目标对象设定为人，那么图1中总共包括两个目标对象，即目标对象1和目标对象2。可以理解，若是在动物园场景中，目标对象可以设定为猩猩，老虎等动物。本申请实施例中，以目标对象为人(即人体)为例进行说明，特别的，本文中的人体实例或人体均是指图1中的人体，为了方便描述，有些地方称作“人体实例”，有些地方称作“人体”。

边界框：用于标示目标对象位置的目标检测框，“目标检测框”又称“边界框”，该目标检测框可以是矩形框、圆形框，也可以是其他形状或者是包围目标对象的包络线。如果目标检测框为矩形框，如长方形框或正方形框，目标检测框的位置信息包括目标检测框的左下角角点坐标和右上角点坐标。如果目标检测框为圆形框，目标检测框的位置信息包括目标检测框的圆心坐标和半径长度。在本申请的实施例中，以目标检测框为矩形框为例进行说明。特别的，目标对象以人为例，本文中人体的边界框或人体边界框均是指人体在图像中的位置。

光流：用于定义图像序列(如视频流中的图像)中的对象的移动，使用二维向量(或二维图像)表示，具体用于表示视频图像的一帧中的代表同一对象(物体)的像素点移动到下一帧的移动量。也就是说，光流为视频帧之间时间间隔很小时，即视频的连续两帧之间，目标点的位置差，即目标点坐标的变化。如此，利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，可以计算出相邻帧之间物体(如人体)的运动信息。例如，如图2所示为一个视频流中连续的两帧(即第t-1帧与第t帧)之间的光流的示意图，图2(a)为第t-1帧的图像，图2(b)为第t帧的图像，图2(c)为第t-1帧到第t帧的光流。从图中可以看出光流为第t-1帧到第t帧时间域上的位移变化。本申请实施例中，光流用于反映待处理视频中的连续两帧之间的人体的运动信息，即人体的位置差(即位移)。光流可以通过公式表示：

F^t-1→t＝I^t(x+Δx,y+Δy)-I^t-1(x,y)

其中，F^t-1→t表示第t-1帧到t帧的光流，(x,y)表示图像像素非边界坐标值，I^t表示第t帧图像，I^t-1表示第t-1帧图像。Δx，Δy表示第t-1帧到t帧的位置差。

关节点：在人体姿势识别的场景中，关节点表示人体预设的关键点，例如脖颈关键点、手肘关键点、手腕关键点、肩部关键点、头部关键点等关节部位。本申请实施例中，图像中识别出的关节点由该关节在该图像中对应的坐标点表示。

为了方便描述本申请的技术方案，下文以视频监控下的人体姿势估计为例说明。

如图3所示，为根据本申请实施例，示出了在商场的视频监控下的人体姿势估计的场景。如图3所示，该场景中包括3个摄像头301和视频处理设备300。可以理解，本申请的技术方案所适用姿势估计场景可以包括任意数量的摄像头，不限于3个。

其中，摄像头301用于采集或拍摄包含人体的视频流，而视频处理设备300用于对获取的包含人体的视频流中的人体进行姿势估计，如判断出人体的姿势为躺着、坐着、站立、行走或者上楼梯等。

在一些实施例中，摄像头301将采集得到的视频流直接传输给视频处理设备300。在其他实施例中，摄像头301还可以将采集得到的视频流传输至指定存储设备进行存储，再由视频处理设备300从该存储设备中获取该视频流，本申请实施例对此不做限制。

在本申请的一些实施例中，视频处理设备300为具有一定图像或视频处理能力的计算机设备，例如个人计算机(personal computer，PC)、笔记本电脑或者服务器等。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群，还可以是提供云数据库、云存储和CDN等基础云计算服务的服务器，服务器的规模可以根据需要处理的视频流的数量进行规划，本申请实施例对此不做限制。

作为一种示例，在对视频监控中的人体进行姿势估计的场景中，摄像头301可以为设置在商场、道路或地铁口等场所的监控摄像头，用于拍摄这些场所中的行人的视频流。在实际应用中，上述姿势估计场景中可以包括较多数量的摄像头301，例如包括商场中的每个楼层的各个位置设置的摄像头301。

在一些实施例中，摄像头301与视频处理设备300为相互独立的设备，如摄像头为监控摄像头而视频处理设备300为从监控摄像头获取视并处理视频流的服务器。在其他实施例中，摄像头301与视频处理设备300为同一个设备中的不同组件，如分别为手机的摄像头和处理器。

此外，摄像头301与视频处理设备300可以通过一种或多种网络进行通信连接。其中，该网络可以是有线网络，也可以是无线网络，例如无线网络可以是移动蜂窝网络，或者可以是无线保真(Wireless-Fidelity，WIFI)网络，当然还可以是其他可能的网络，本申请实施例对此不做限制。

本申请的一些实施例中，可以通过一种姿势估计的组成架构执行上述基于视频的姿势估计方法，例如该组成架构运行在上述视频处理设备300中。

图4根据本申请的实施例示出了一种姿势估计场景的组成架构的示意图。如图4所示，该组成架构40包括人体检测模型41、光流平滑分支42、多人追踪分支43、姿势估计模型44、光流平滑分支45、连续多帧图像46、生成人体关节点的连续多帧图像47以及连续多帧图像之间的光流48。

下面具体描述姿势估计场景的组成架构40的各部分。

人体检测模型41：用于对输入的多帧图像(即图像序列)中的人体进行检测。具体地，人体检测模型41首先对每帧图像中的物体做分类，获得人体实例所在图像中的区域，然后确定人体实例所在区域在每帧图像的位置，并在对应位置标出人体的边界框。将在下文中对该人体检测模型41训练的相关内容进行具体描述，此处不再赘述。

光流平滑分支42，用于修正人体检测模型41生成的人体的边界框，针对人体检测模型41检测出人体的边界框的多帧图像，采用该多帧图像之间的光流48对这些人体的边界框进行优化，即调整这些人体的边界框的位置，也即调整检测出的人体在该多帧图像中的位置。

多人追踪分支43，用于区分图像中的人体实例，实现不同图像帧的多人追踪，具体的，对检测出人体的边界框的多帧图像，如依次经过人体检测模型41和光流平滑分支42并输出的多帧图像，针对输出的多帧图像生成的人体的边界框以及边界框内的人体实例的深层外观特征和人体实例在图像中的位置信息，为图像的每个人体实例添加ID。

姿势估计模型44，用于对输入的多帧图像中的人体进行姿势估计，具体地，针对依次经过人体检测模型41、光流平滑分支42和多人追踪分支43的多帧图像，姿势估计模型44输出人体姿态特征的热力图特征，然后可以根据人体姿态特征热力图获得人体关节点坐标和躯干，并通过关节点和躯干进行人体姿势估计，例如估计出一个人体实例的姿势为上楼梯、坐着还是弯腰等。将在下文中对该姿势估计模型训练的相关内容进行具体描述，此处不再赘述。

光流平滑分支45，用于修正姿势估计模型输出的人体关节点，针对姿势估计模型44检测出人体的关节点坐标，采用该多帧图像之间的光流48对人体的关节点坐标进行优化，即调整这些关节点的位置，也即调整检测出的人体在该多帧图像中的位置。

下面将结合图1至图5介绍本申请的具体方案。图5根据本申请的实施例示出了一种姿势估计方法流程图，具体的，该方案包括：

步骤502：视频处理设备300获取视频中的多帧多人体图像，其中每帧多人体图像中包括有多个人体实例。

在本申请的一些实施例中，上述步骤502中的待处理视频可以为摄像头301拍摄的监控视频，待处理视频还可以为用户上传到视频平台或者短视频社交软件的视频。待处理视频还可以为测试集中的视频，即本申请的姿势估计方法用于对测试集中的视频进行人体的姿态估计。下文中主要以人流拥挤场景的视频的人体姿势估计为例，对本申请的基于视频的姿势估计方法进行说明。

在本申请的其他实施例中，步骤502可以先获取待处理视频，再实时对待处理视频进行预处理，如进行分帧操作得到该待处理视频的多帧图像。例如，可以利用视频分帧软件或者视频截图软件对待处理视频进行分帧操作，例如，视频处理设备300通过这些软件的Opencv库的videocapture功能对待处理视频进行分帧操作，生成连续多帧图像46。

例如，待处理视频的时长是10分钟，按照预设的帧率进行分帧操作时，假设帧率是60fps，那么待处理视频分帧解析后得到的图像的数量应该是60*10*60＝36000张，可以理解，10分钟视频分帧后获得36000张图像。其中，“*”表示相乘。

可以理解，待处理视频的连续多帧图像46用于输入到人体检测模型41做人体检测。

步骤504：人体检测模型41生成各帧多人体图像中的人体实例的初始人体的边界框。

人体检测模型41可以实现三个任务，第一个是分类任务，即遍历输入的每帧图像，并对每帧图像的人体和非人体分类。第二个是回归任务，即确定人体区域在每帧图像的位置，并在对应位置标出目标检测边界框。第三个是坐标点定位任务，即确定人体的边界框坐标点的位置，其中，边界框可以为包围人体所在区域的一个矩形框，例如，对于图6所示的图像，人体检测模型41可以针对人体实例1生成人体的边界框1，针对人体实例2生成人体的边界框2。可以理解，上述三个任务相辅相成，例如，确定人体的边界框坐标的位置用于确定人体在图像中的位置。

具体的，一个人体的边界框可以通过其多个顶点的坐标点组成的坐标点集来表示，例如通过该人体的边界框的左下角的坐标和右上角的坐标表示。可以理解，本申请实施例中，人体检测模型41检测到的一个人体实例并确定人体所在区域的人体的边界框，即为确定该人体的边界框的坐标点集。也就是说，步骤504具体检测得到多帧的图像的每个人体的边界框的坐标点集。

在本申请的实施例中，人体检测模型41对输入的连续多帧图像46中的多人体图像进行人体检测的过程包括：获取每个人体在图像中的位置，给每个人体所在的区域预测人体的边界框。具体地，在对每帧图像做人体检测时，可以将每帧图像输入到预先训练完成的人体检测模型41进行人体检测，获取人体在图像中的区域，人体检测模型41给每个人体所在的区域预测人体的边界框。其中，人体检测模型41可以是一个预先训练得到的深度学习卷积神经网络，人体检测模型41是利用大规模的具有人体实例标注的图像组成的训练样本集训练得到的，在模型训练中需要使得该模型能够准确的预测出每帧图像的人体所在区域，从而使得人体检测模型41输出预测的人体的边界框更加准确。

在本申请的的实施例中，以待处理视频为人流拥挤场景的视频为例，针对每个待处理视频分帧后的连续多帧图像46，多人体图像依次输入已训练的人体检测模型41，得到人体检测模型41输出的初始人体的边界框。

步骤506：光流平滑分支42基于多人体图像与该多人体图像的前一帧图像之间的位置差数据，对多人体图像的初始人体边界框进行校正得到检测人体边界框，其中所述位置差数据包括多人体图像中的人体实例在前一帧图像和多人体图像中的位置差。

在本申请的实施例中，对多人体图像中的所有人体的边界框做光流平滑处理。其中，光流平滑处理是根据多人体图像与该多人体图像的前一帧图像之间的位置差(即位移)数据，对多人体图像的初始人体边界框进行校正得到检测人体边界框，其中所述位置差数据包括多人体图像中的人体实例在前一帧图像和多人体图像中的位置差。可以理解，通过上一帧到当前帧的时间域上的位置差来预测当前帧的人体的边界框，可以有效避免漏帧掉帧的情况。

具体的，针对同一人体，根据人体检测模型41输出的当前帧的初始人体边界框和前一帧人体检测模型41输出的初始人体边界框结合前一帧到当前帧的光流，获取人体所在区域的检测人体边界框。光流平滑处理，即人体在该多帧图像中基于时间域的运动信息，对检测出的初始边界框进行修正(即平滑处理)，避免处理多帧图像时出现漏帧掉帧的现象，提升了最终的检测人体边界框的准确性，即提升人体姿势估计的准确性。

可以理解的是，本申请实施例中，上述步骤504中对当前帧中由人体检测模型41检测得到的人体的边界框做光流平滑处理，具体为对这些人体的边界框的坐标点集中的坐标点进行平滑处理，得到每个人体的边界框检测坐标点集，即得到当前帧中每个人体的检测人体边界框。其中，本申请实施例中一个人体的检测人体边界框为通过光流平滑处理优化后的人体的边界框，具体地一个人体的边界框的检测坐标点集中的坐标点为通过光流平滑处理优化后的坐标点。其中，由光流平滑分支42处理得到的一个人体的检测人体边界框的检测坐标点集，用于后续输入多人追踪分支43以及姿势估计模型45进行处理。

具体地，通过以下公式对处理视频中的第t帧图像中的第i个人体的边界框(记为人体边界框I1)的光流平滑处理为例，说明本申请实施例中光流平滑分支42对人体检测模型41检测得到的人体的边界框进行光流平滑处理，例如第t帧图像为上述步骤506中的多人体图像。

图7为第t帧多人体图像中人体实例I1对应的人体边界框I1的坐标点示意图。具体的，如图所示，人体边界框I1检测的坐标点集

包含人体的边界框右上角的点n(x₁,y₁)和人体的边界框左下角点m(x₂,y₂)。可以理解，获得人体边界框I1的右上角的点n(x₁,y₁)和左下角点m(x₂,y₂)即可得知人体实例I1在多人体图像中的区域。

在一种可能的实现方式中，本申请实施例通过下述公式(1)计算得出人体边界框I1经过光流平滑处理得到的检测的坐标点集

式中，

中的t表示第t帧图像，i表示第t帧图像中的第i个人体的边界框。

α表示权重系数，该系数为经验参数，大多数情况下取值为0.5。

表示根据第t-1帧到第t帧的光流，预测得到的第t帧图像中的人体边界框I1的坐标点集。

表示人体检测模型41输出的第t帧图像中的初始人体边界框I1的坐标点集。

可以理解，上述公式(1)可以实现根据第t-1帧到第t帧的光流预测的第t帧图像人体边界框I1的坐标点集

和人体检测模型41输出的第t帧的初始人体边界框I1坐标点集

共同确定第t帧图像检测人体边界框I1检测的坐标点集

另外，本申请的一些实施例可以通过公式(2)实现上述“根据第t-1帧到第t帧的光流，预测的第t帧图像人体边界框I1的坐标点集

”：

式中，F^k-1→k：t-1帧到t帧人体边界框I1的关节坐标点的光流。

表示人体检测模型41输出的第t-1帧的初始人体边界框I1坐标点集。

步骤508：多人追踪分支43给生成各帧所述多人体图像中的人体实例的检测人体边界框对应的标识信息，其中一个标识信息用于标识一个人体实例的检测人体边界框。

现有技术中应用上一帧与当前帧的人体的边界框重合度或者姿势相似度来判断是否来自一个人体实例，以此来跟踪多帧多人体图像中的相邻帧同一人体实例的姿势。但是，在拥挤场景中人体严重的遮挡和重叠，无法通过现有技术跟踪相邻帧中同一人体实例的姿势。

多人追踪分支43给生成各帧多人体图像中的人体实例的检测人体边界框对应的标识信息，这里的标识信息即下文的ID，其中一个标识信息用于标识一个人体实例的检测人体边界框。可以理解的是，人体实例的边界框与人体实例关联，在各个人体实例在多帧多人体图像中移动的过程中，通过各个标识信息可以区分不同人体实例所在的人体检测边界框，即区分不同人体实例。

在本申请的实施例中，与现有技术相比，本申请新增了用于识别人体实例深层外观特征的ReID模型。ReID模型通过识别人体实例的深层外观特征来区分不同人体实例。其中，ReID模型即Coarse-to-Fine Pyramidal模型。

结合图4和图8，多人追踪分支43包括ReID模型和DeepSORT算法，其中，DeepSORT算法用于结合多人体图像中人体的边界框的位置和人体的外观特征给人体的边界框分配唯一的ID。具体的，通过预训练的ReID模型来提取每帧图像中人体的深层外观特征，将ReID模型提取的外观特征与人体的边界框的位置信息一起输入到DeepSORT算法中，给图像中的每个人体实例分配唯一的ID。例如，如图8所示，多人体图像82为Human Detection81生成标记人体的边界框的多人体图像。通过ReID模型对多人体图像82的人体的边界框内的人体实例做特征提取，ReID模型将提取的特征n×256输出给DeepSORT算法中，其中，n表示多人体图像82中包含的人体实例的个数，256表示人体实例的图像特征向量的长维度。其中，长维度的值根据提取深度外观特征的维度要求是可变的。多人体图像82将人体的边界框的位置信息n×4输出给DeepSORT算法中，其中，n表示多人体图像82中包含的人体实例的个数，4表示人体的边界框的左下角和右上角的横纵坐标点。可以理解，一方面，针对每帧多人体图像，ReID模型提取多人体图像中的人体的深层外观特征，同一人体实例在不同帧的多人体图像中，分配唯一的ID(即标识信息)。可以理解，给人体实例分配ID即给人体实例的边界框分配ID。另一方面，当多人体图像中出现新的人体实例时，ReID模型可以区分新的人体实例和已分配ID的人体实例，多人追踪分支43为新的人体实例分配唯一的ID。与现有技术相比，ReID模型更关注人的外观，因此广泛应用于多种场景的多人追踪。

另外，例如，“Human Detection”81可以由图4示出的人体检测模型41和光流平滑分支42组成。或者，图8中仅为了方便描述省略了光流平滑分支42，但是经由“HumanDetection”81输出的图像中人体的边界框为经过光流处理后的人体的边界框。

在本申请的实施例中，除了增加ReID模型用于识别人体实例深层外观特征，区分人体实例，还在以下两方面进行了修改。

(1)最佳参数搜索

为了获得最佳的参数集以使跟踪方法在测试集上正常运行，本申请在训练集上进行了网格搜索。搜索空间针对五个参数进行设计优化，分别是最大余弦距离(respectivelythe maximum cosine distance，max-cos-dis)，对象的数量出现历史(the number ofobject appearance history to keep，nn-budget)，轨道的最大年龄(the max age of atrack，max-age)，要确认的暂定轨道的帧数(the number of frames for a tentativetrack to be confirmed，nn-init)和最大IoU距离(the maximum IoU distance，max-iou-dis)。通过多目标追踪评价指标选择最优的参数设计。训练和测试集上的最佳参数以及最佳参数下的多人追踪分支43的人体追踪性能结果如表1所示。表中的性能也是本申请实施例在姿势跟踪中使用的最终的多人追踪分支43的性能。其中，多目标跟踪评价指标分别是多目标跟踪准确度(Multiple Object Tracking Accuracy，MOTA)，值越大，性能越好。多目标跟踪精度(Multiple Object Tracking Precision，MOTP)，值越大，性能越好。误报总数(the total number of false positives，FP)值越小，性能越好。假阴性总数(the totalnumber of false negatives，FN)，值越小，性能越好。身份交换总数(the total numberof identity switches，ID SW)，值越小，性能越好。

(2)ReID模型功能的结合

在本申请的实施例中，ReID模型可以提取图像中的人体的深层外观特征，一方面，在包含多个人体实例的图像中，根据人体的深层外观特征可以区分不同的人体实例。另一方面，根据不同帧的图像，可以通过确认相同的人体外观特征判定为同一个人体实例，实现人体姿势跟踪。

具体地，将DeepSORT算法结合ReID模型的功能的不同策略。A策略：原始特征和从水平翻转的人类提取的特征的线性组合；B策略：通过使用不同比例尺训练的模型提取的ReID特征的线性组合。表2列出了DeepSORT算法与ReID模型不同的结合策略的多人跟踪的测试结果，其中，用于跟踪的人体的边界框由基线模型(baseline)生成，基线模型是带有ResNet50的Faster RCNN框架的人体检测模型41。Horizontal flip表示A策略，Scale表示B策略。“+”表示ReID模型或者A策略或者B策略与DeepSORT算法的结合。

从表2可以看出，综合多个多目标跟踪评价指标，DeepSORT算法与ReID模型与A策略以及B策略结合性能测试结果最好。具体的，MOTA从27.11上升到53.96。FP从5894上升到5922，FN从42668下降到24501，ID Sw从2220下降到1657。

步骤510：人体姿势估计模型44基于多人体图像的检测人体边界框和检测人体边界框的标识信息，识别多人体图像中人体实例的姿态。

在本申请的实施例中，人体姿势估计模型44设计模式为自顶向下模式，即先由人体检测模型41得到多人体图像中的每个人体实例的在图像中的位置并输出人体的边界框，然后逐个对人体的边界框内的人体实例估计关节点。具体的，人体姿势估计模型44遍历输入的每帧图像，模型的中间层输出姿态特征的热力图特征，然后可以根据姿态特征热力图获得人体关节点和躯干，通过人体关节点和躯干对人体作姿势估计。其中，躯干表示人体的相邻的关节点的连线。

人体姿势估计模型44是一个预先训练得到的深度学习卷积神经网络，在本申请的实施例中，采用两种最先进的单人姿势估计模型HRNet和SimpleNet作为生成姿势预测的基本网络。与一般的高到低和低到高的分辨率模式不同，HRNet可以在整个过程中保持高分辨率表示，并同时融合多分辨率表示。SimpleNet是一个简单而有效的模型，它仅由骨干网ResNet降低特征图的分辨率以及几个反卷积层构成姿势预测组成。另外，对于SimpleNet，本申请在其中插入FPN结构以增强小型实例的性能。最后，本申请通过平均两个模型生成的热图来融合两个模型的结果。例如，如图8所示，姿态估计模型44包括SimpleNet和HRNet这两个基本网络。具体的，通过姿态估计模型44中的SimpleNet和HRNet这两个网络可以输出图8示出的在pose t，pose t表示第t帧图像中所有人体的初始关节点。

具体的，如图9所示，为人体姿势估计模型44输出的人体关节点和躯干分布示意图，通过人体姿态估计模型获得的姿态特征热力图包括关节点热力图和躯干热力图，图9中左图为人体关节点分布示意图，有14个关节点，图9中左图中的14个关节点对应14张关节点热力图，图9中右图为躯干分布示意图，有13个躯干，每个躯干为相邻关节点的连线，图9中右图中的13个躯干对应13个躯干热力图。可以理解，用于人体姿势估计的关节点数可以是14个，也可以是17个，还可以是18个，只要可以估计人体姿势，在此对人体关节点数和关节坐标点位置不做限制。

具体的，一个人体实例姿势通过多个坐标点组成的坐标点集来表示，例如通过人体实例的14个关节点的坐标表示。可以理解，本申请实施例中，人体姿势估计模型44通过确定人体实例的关节点的相对位置来估计人体姿势，即通过确定人体实例的坐标点集估计人体姿势。也就是说，步骤510确定人体实例的关节点来得到多帧图像的人体姿势估计。

在本申请的实施例中，将多人追踪分支43生成的标记ID的多帧图像输入到人体姿势估计模型44，人体姿势估计模型44输出人体关节点和躯干的过程包括：获取每个人体的关节坐标点集，根据人体的关节坐标点集，给每个人体预测姿势。具体地，针对每帧图像，在对每个标记ID的人体实例做姿势估计时，可以将每帧图像输入到预先训练完成的姿势估计模型中进行姿势估计，姿势估计模型44可以输出初始人体的关节坐标点集以及预测的姿势。可以理解，姿势估计模型是利用大规模的具有人体关节点标注的姿势训练样本集训练得到的，使得模型能够通过人体的关节坐标点集预测出人体的边界框内的人体姿势。

步骤512：光流平滑分支45基于多人体图像与多人体图像的前一帧图像之间的位置差数据，以及多人体图像与多人体图像的后一帧图像之间的位置差数据，对多人体图像中的人体实例的初始姿势关键点进行校正得到检测姿势关键点。

在本申请的实施例中，为了进一步克服姿势估计过程中出现的漏帧掉帧，降低待处理视频的人体姿势估计的跟踪漏报率，光流平滑分支45基于多人体图像与多人体图像的前一帧图像之间的位置差数据，以及多人体图像与多人体图像的后一帧图像之间的位置差数据，对多人体图像中的人体实例的初始姿势关键点进行校正得到检测姿势关键点，其中多人体图像与多人体图像的后一帧图像之间的位置差数据包括多人体图像中的人体实例在多人体图像和后一帧图像中的位置差，获取检测的人体实例的姿势，可以理解，针对同一人体在不同帧中的关节坐标点进行的平滑处理，获取人体所在区域的检测的人体实例的姿势，即人体关节点的检测的坐标点集。

可以理解的是，本申请实施例中，如果在前一帧和下一帧中人体实例存在相同ID，并且它们的置信度得分高于预定阈值，则通过上述步骤510中对当前帧中由人体姿势估计模型44输出的人体实例的初始关节点做光流平滑处理，具体为对这些关节点的坐标点集中的坐标点进行平滑处理，得到每个人体实例的检测关节坐标点集，即得到当前帧中每个人体实例的检测的关节点的位置。其中，本申请实施例中一个人体实例的检测的关节点的相对位置为通过光流平滑处理优化后的关节坐标点集。其中，由光流平滑分支45处理得到的一个人体实例的检测关节坐标点集，根据人体实例检测的关节坐标点集用于最终的人体姿势估计。

具体地，通过以下公式对处理视频中的第t帧多人体图像中的标识信息为Idi的人体实例对应的关节坐标点集的光流平滑处理为例，说明本申请实施例中光流平滑分支45对人体姿势估计模型44得到的人体关节坐标点集进行光流平滑处理。例如，如图8所示，第t帧图像经过人体姿势估计模型44输出图像pose t，第t-1帧图像经过人体姿势估计模型44输出图像pose t-1，第t+1帧图像经过人体姿势估计模型44输出图像pose t+1，可以理解，图像pose t-1中的人体实例的初始关节坐标点集结合第t-1帧到第t帧的光流预测第t帧的人体实例的关节坐标点集，图像pose t+1中的人体实例的初始关节点坐标集结合第t帧到第t+1帧的光流预测第t帧的人体实例的关节坐标点集，通过图像pose t-1预测的关节坐标点集与通过图像pose t+1预测的关节坐标点集以及图像pose t的关节坐标点集加权生成检测关节坐标点集Final pose t。可以理解，检测关节坐标点集用于本申请实施例中的人体姿势估计。

具体的，例如，图10为第t帧图像人体实例IDi检测的人体关节点坐标示意图。具体的，如图10所示，以人体实例IDi获得的检测的人体关节点坐标集为例，例如，针对第t帧图像人体实例IDi的人体检测的关节坐标点集为

为包含14个坐标点的关节坐标点集，分别是头部A(x₁′,y₁′)，颈部B(x₂′,y₂′)，左肩C(x₃′,y₃′)，右肩D(x₄′,y₄′)，左手肘E(x₅′,y₅′)右手肘F(x₆′,y₆′)左手G(x₇′,y₇′)右手H(x₈′,y₈′)左腰K(x₉′,y₉′)右腰L(x₁₀′,y₁₀′)左膝盖O(x₁₁′,y₁₁′)右膝盖P(x₁₂′,y₁₂′)左脚Q(x₁₃′,y₁₃′)右脚R(x₁₄′,y₁₄′)。检测的关节坐标点集

由公式3计算得出：

式中，

中的t表示第t帧，i表示人体实例Idi。

β表示

之间合成的权重系数，该系数为经验参数。

表示根据第t-1帧到第t帧光流预测的第t帧图像的人体实例ID3的人体的关节坐标点集。

表示根据第t帧到第t+1帧光流预测的第t帧图像的人体实例ID3的人体的关节坐标点集。

表示姿势估计模型输出的第t帧图像的人体实例ID3的人体的初始关节坐标点集。

根据第t-1帧到第t帧光流预测的第t帧图像的人体实例ID3的人体的关节坐标点集

由公式4计算得出：

式中，

中的t-1表示第t-1帧图像，i表示第i个人体。

表示姿势估计模型输出的第t-1帧图像的人体实例ID3的人体的初始关节坐标点集。

F^t-1→t表示第t-1帧到第t帧人体实例ID3的人体的关节坐标点的光流。

根据t帧到t+1帧光流预测的第t帧图像的人体实例ID3的人体的关节坐标点集

由公式5计算得出：

式中，

中的t+1表示第t+1帧图像，i表示第i个人体。

表示姿势估计模型输出的第t+1帧图像的人体实例ID3的人体的初始关节坐标点集。

F^t→t+1表示t帧到t+1帧人体实例ID3的人体的姿势坐标点的光流。

可以理解，基于多人体图像中的检测人体关节点识别多人体图像中人体实例的姿态。

另外，需要说明的是，由于本申请实施例中，基于各帧多人体图像中的人体实例的检测人体边界框对应的标识信息，以及人体实例的姿势，在多帧多人图像中进行人体实例跟踪。可以理解，通过提取人体实例的深度外观特征结合人体实例的位置信息，给每个人体实例分配唯一的ID。一方面，在不同帧中能够通过确认人体实例的相同的外观特征及位置信息判定为同一人体实例，另一方面，在一帧图像中能够通过确认人体实例的不同深层外观特征及位置信息区分不同的人体实例。因此，对多帧图像经过光流平滑处理确定出较为准确的人体姿势，从而可以实现在多帧图像中进行多人追踪，尤其可以实现对新来的人的追踪，和中途离开画面的人的追踪。

在本申请的姿势识别方案中，通过人体检测模型41来对多人体图像中的人体做检测，生成人体的边界框。具体地，该模型的功能和训练过程如下：

1)人体检测模型41的训练目的

本申请实施例采用人体检测模型41在人流拥挤场景的的待检测视频进行测试实验，人体检测模型41的性能通过平均精度(Average precision，AP)和MMR这个两个指标进行测试。其中，AP反映检测结果的精确度和查全率，MMR的取值在0.01-100之间，MMR是指每帧图像假阳性的对数平均丢失率(False Positive Per Image，FPPI)。MMR对误报(falsepositives，FP)非常敏感，尤其是置信度高的FP将严重损害MMR比率。在本申请的实施例中，AP越大而MMR越小表示人体检测模型41性能越好。

2)人体检测模型41的模型框架的选择

现有技术中，对于人流拥挤场景的的待检测视频的人体实例检测，人体检测模型41中的检测框架可以是一阶段检测框架，例如一阶段框架可以是SSD框架，YOLO框架等，也可以是两阶段框架，其中，一阶段检测框架将人体识别和人体定位放在一起检测，可以实时运行，识别速度快，准确性较二阶段框架有所下降。二阶段检测框架将人体识别和人体定位分成两个步骤，分别完成，而且识别的准确性高。

因此，在本申请实施例中，对于拥挤场景的的待检测视频的人体实例检测，采用两阶段框架，例如级联-区域卷积神经网络架构(cascade-region convolutional neuralnetworks，cascade RCNN)，更快速-区域卷积神经网络架构(faster-regionconvolutional neural networks,Faster RCNN)等。其中，检测框架的主干网络可以是ResNet152网络，可以是ResNeXt101网络，也可以是SeNet154网络。

下面通过表3对人体检测模型41中的框架选择结果进行评估：

表3给出了人体检测模型41使用不同的主干网络和检测框架以及结合功能金字塔网络(Feature-Pyramid Networks，FPN)在HIE验证集上做人体检测得出的实验结果。其中，表中任意组成的人体检测模型41均由训练样本集为HIE数据集训练获得。表中的“+”表示人体检测模型41的组成部分(或称为组件)，例如，ResNet152+Faster RCNN+FPN表示检测模型由主干网络ResNet50、框架Faster RCNN以及FPN组成。需要说明的是，基线(baseline)模型是带有ResNet50的Faster RCNN框架的人体检测模型41，表中的其他检测模型是在基线模型上搜索超参数，然后将其应用于较大的骨干或者框架。

由表3可知，主干网络ResNet152或者ResNeXt101与框架Cascade RCNN以及FPN组成的检测模型性能较基线模型性能提升明显。例如，主干网络ResNet152与框架CascadeRCNN以及FPN组成的检测模型较基线模型提高了9.38AP，减少了11.46MMR。主干网络ResNeXt101与框架Cascade RCNN以及FPN组成的检测模型较基线模型提高了9.38AP，减少了11.46MMR。首先，模型增加FPN性能提高了5.64AP，减少了5.84MMR。其次，模型主干网络的选择中：ResNet152相较于ResNet50或者SENet154，模型性能提升明显。ResNeXt101相较于SENet154性能提升明显。再其次，模型框架网络的选择中，Cascade RCNN相比较于FasterRCNN性能提高1.79AP，减少了2.33MMR。

2)人体检测模型41的训练样本数据集的选择

在本申请的实施例中，对于人流拥挤场景的待检测视频的人体检测，通过预先训练的人体检测模型41检测图像中的人体实例。其中，用于训练人体检测模型41的人体训练样本集包括标记了人体实例的人体边界框，其中，每个人体实例都用人体的全身边界框注释，人体训练样本集中包含许多人流拥挤场景的图像。对人体训练样本集中的数据进行随机打散，按照一定的比例把样本集合分成了训练集、验证集与测试集。具体地，基于人体检测模型41，利用训练集中的人体实例的视频及其标记人体实例边界框的数据训练人体检测模型41，获得多个人体检测中间模型；利用视频验证集对各人体检测中间模型进行验证，提取验证结果最优的人体检测中间模型；利用视频测试集对该人体检测中间模型进行测试(防止过拟合)，当测试结果与验证结果相匹配(测试结果与验证结果的差小于预设的阈值)时输出该人体检测中间模型作为人体检测模型41。

下面通过表4对用于训练人体检测模型41的训练样本集的选择及验证结果进行评估：

表4给出了通过不同的训练样本集训练人体检测模型41，在HIE验证集上做人体检测得出的性能结果，其中，人体检测模型41为基线模型，基线模型是带有ResNet50的FasterRCNN框架的人体检测模型41。表中的“+”表示训练样本集包括的数据集，例如，HIE+CityPerson表示用于训练基线模型的训练样本集包括HIE数据集和CityPerson数据集。allextra data代表COCO数据集、CityPerson数据集、CrowndHuman数据集、自收集的数据集的组合数据集。

由表4可知，基于HIE数据集的训练样本集：增加CrowndHuman数据集和COCO数据集和CityPerson数据集检测性能提高了16.85AP，降低了15.38MMR。增加CrowndHuman数据集和自收集数据集检测性能提高了19.39AP，降低了18.43MMR，增加all extra data数据集检测性能提高了19.68AP，降低了18.84MMR。可以理解，HIE数据集与all extra data数据集组成的训练样本集训练的基线模型人体检测性能最好，但是，相较于HIE数据集和CrowndHuman数据集以及自收集的数据集组成的训练样本集训练的基线模型人体检测性能提高了0.33AP，降低了0.41MMR。性能并没有明显的改善，由于合并了COCO数据集训练时间却高出了三倍。可以理解，权衡检测性能和训练时间，本申请的实施例中用于训练人体检测模型41的训练样本集包括HIE数据集、CrowndHuman数据集和自收集数据集。

3)人体检测模型41的训练细节说明

现有技术的检测方法是针对单个人体实例预测单个候选框，由于检测场景中的人体实例相互重叠，重叠的多个人体实例在模型检测过程中，一部分人体实例很可能被设置的非极大值抑制(non-maximum suppression,NMS)消除掉，最终只获得其余部分人体实例对应的人体的边界框，其中NMS用于过滤掉人体检测模型41的检测结果中重合率(Intersection over Union,IOU)很高的人体边界框。本申请应用一种方法来预测拥挤场景中的人体实例，称为“Crowd-Det”。Crowd-Det的关键思想是针对模型生成的人体的边界框作为候选框，其中，模型生成的每个候选框，不识别单个实例，而是将高度重叠的人体实例作为一个整体预测一个候选框，然后对一个候选框包含的多个人体实例做后处理，最终获得单个人体实例获得单个人体的边界框。

具体地，上述Crowd-Det算法包括以下实现方式中的至少一项，下文以一个候选框包括两个或多个人体实例，以一个候选框包括人实例A或人实例B为例说明：

a、EMD loss，用于判断人实例A和人实例B分别对应候选框经过卷积神经网络生成两个人体实例的边界框中的哪一个。具体地，例如，候选框经过卷积神经网络生成两个人实例的边界框，分别是边界框1和边界框2，假设边界框1作为人体实例A的边界框，边界框2作为人体实例B的边界框，计算EMD loss，假设边界框2作为人体实例A的边界框，边界框1作为人体实例B的边界框，计算EMD loss，以EMD loss值最小的人体实例A对应的边界框和人体实例B对应的边界框作为输出结果。

b、优化模块，用于二次预测边界框。具体地，本申请实施例中，Crowd-Det算法经过EMD loss机制得到的人体实例A的边界框和人体实例B的边界框与模型生成的预测框一起输入到优化模块，优化模块生成两个人体的边界框，利用EMD loss再次判断人体实例A与人体实例B分别对应的人体的边界框。

c、Set NMS，用于在NMS机制中每次一个人体的边界框抑制另一个人体的边界框之前，插入一个额外的判断来检查这两个框是否来自同一个候选框，如果是则跳过抑制。可以理解，上述在NMS机制中一个人体的边界框抑制另一个人体的边界框，指的是：在重叠(如重叠度较高)的两个人体分别对应的人体的边界框中，前方人体的边界框抑制后方被遮挡人体的边界框，导致后方被遮挡人体的边界框被消除。例如，为防止重叠的人实例A或人实例B预测的人体的边界框被NMS消除掉，对原始的NMS进行简单的改进，得到上述“Set NMS”机制，即每次当一个人体的边界框与另一个人体的边界框重叠，判断两个人体的边界框是否来自同一候选框；如果是，则跳过NMS抑制。

表5给出了人体检测模型41为基线模型，基线模型在训练样本集上训练，在HIE验证集上上做人体检测测试验证结果。其中，基线模型是带有ResNet50的Faster RCNN框架的人体检测模型41，训练样本集包括HIE数据集、CityPerson数据集、COCO数据集、CrowndHuman数据集、自收集的数据集的组合数据集。

由表5可知，基线模型上增加crowd-Det的emd loss处理，检测性能提高0.37AP,减少了1.97MMR。基线模型上增加crowd-Det的emd loss处理、refine module处理，检测性能提高0.6AP,减少了4.32MMR。基线模型上增加crowd-Det的emd loss处理、refine module处理以及set NMS处理，检测性能提高0.69AP,减少了5.54MMR。可以理解，根据表中的结果，Crowd-Det算法确实提高了拥挤检测的性能。

4)人体检测模型41的KD正则化

在本申请的实施例中，人体检测模型41对每帧图像做人体检测的过程中，在人体检测模型41的输出层输出图像中人体对应的候选框以及候选框内人体可能的类别以及类别对应的概率，人体检测模型41选取类别概率最高为人体的边界框。为减少人体检测模型41在检测过程中对人体的过拟合，在人体检测模型41的训练过程中额外加入知识蒸馏(Knowledge Distillation，KD)正则化，具体地，人体检测模型41在模型训练中，除了常规的交叉熵(下面公式的第一项)作为损失函数外，KD正则化会提供一个额外的正则化公式(下面公式的第二项)。例如，在训练中，如图11所示，针对图中的人体实例，人体检测模型41的输出层可能输出的类别及类别的概率分布为人的概率0.5，树的概率0.4，椅子的概率0.1。正常的训练只会讲该概率分布与一个one-hot标签的交叉熵作为损失函数，KD正则化还会提供一个虚拟的教师模型的概率分布与该模型的概率分布的KL散度作为额外的损失函数，执行KD正则化可以使模型在结果输出层输出类别及概率分布时不过度依赖预先标注的标签，使人体检测模型41输出的类别及概率分布更准确。

如下所述为本申请提供的KD正则化的数学公式：

L_reg＝(1-α)H(q,p)+αD_KL(p^d _τ,p_τ)

其中，H是交叉熵，p是检测模型输出的类别的概率，q是类别的ground truth,D_KL是KL divergence，p_τ是检测模型输出类别经过温度t柔化后的概率分布，p^d _τ是人工设计的概率分布，其分布公式如下：

最后，基于以上分析，采用HIE数据集，crowdhuman数据集和自收集的数据集训练两个人体检测模型41，记为人体检测模型1和人体检测模型2。其中，在HIE验证集上验证的检测性能：人体检测模型1的主干网络ResNet152，框架选择cascade RCNN结合FPN，在模型的输出层生成的人体的边界框做crowd-Det和KD正则化后处理，检测性能为83.21AP。人体检测模型2的主干网络ResNeXt101，框架选择cascade RCNN结合FPN，在模型的输出层生成的人体的边界框做crowd-Det和KD正则化后处理，检测性能为83.78AP。人体检测模型1与人体检测模型2以权重1：1融合后的检测模型作为本申请的实施例的人体检测模型41。

在本申请的动作识别方案中，通过人体姿势估计模型44来对人体边界框内的人体实例做姿势识别，生成人体关节点，根据关节点相对位置做人体姿势估计。具体地，该模型的功能和训练过程如下：

1)人体姿势估计模型44的训练目的

在本申请实施例中，基于姿势估计的训练样本集训练人体姿势估计模型44，通过评估指标m-AP确定人体姿势模型的检测性能好坏。其中，mAP反映反映出人体姿态的精确度和召回率，性，mAP是平均精度。mAP的值越大，人体姿势估计模型44的检测性能越精确。

在本申请的实施例中，表6为人体姿势估计模型44在不同场景下的测试结果，由表6可知，在常规视频和高分辨率视频中均取得了显着的性能，例如，常规视频“hm_in_passage”与高分辨率视频“hm_in_crossroad”，AP分别为90.14％与75.76％。在场景拥挤且质量低下的视频中效果较差，例如，在超级拥挤的视频“hm_in_dining_room2”中，AP为25.94％。

2)人体姿势估计模型44的训练样本数据集的选择

在本申请的实施例中，训练样本集包含大约66.05万个带注释的姿势。考虑到由于逐帧注释而存在大规模相似数据，因此有必要收集额外的数据集以提高性能。我们使用的额外训练数据集来自两个方面：

一方面，我们将三个主流的姿势估计的数据集融合到了训练数据中，例如COCO数据集，MPII数据集和AI Challenger数据集。其中，COCO数据集包含25万个带有17个关键点的人体实例。MPII数据集由25K图像组成，包括超过40K个人实例以及带注释的16个身体关节。AI Challenger数据集由大约700K个人实例和带注释的14个身体关节组成。由于这些数据集中的带注释的关键点没有与官方标签完全重叠，因此对于每个数据集，本申请的实施例中，使用各自重叠的关键点进行训练。

另一方面，将具有相似场景的自收集数据集合并到我们的训练集中。自收集的数据集的姿势数不超过30K，远少于HIE数据集的培训数据。

在本申请的实施例中，采用姿势训练样本集对人体姿势模型做训练，具体的，将(姿势训练样本集的)人体的边界框的高度或宽度扩展到固定的4：3宽高比，然后从图像中裁剪该框，将其调整为固定大小256×192或384×288。数据扩充包括随机旋转([-45°，45°])，随机比例(0.65、1.35)和翻转。还应用半身数据增强来训练模型，其中，半身数据增强是指将姿势训练样本集中人体实例的关节点预先分为上半身关节点和下半身关节点，然后在模型训练时随机选取人体实例的关节点或人体实例的上半生关节点或人体实例的下半生关节点来训练人体姿势估计模型44。

3)人体姿势估计模型44的测试细节说明

在本申请的实施例中，以人流拥挤场景的视频做人体姿势估计测试为例，一方面，在测试过程中采用了多尺度评估。具体地，我们重新缩放人体的边界框以获得具有不同比例的新人体的边界框，然后将其裁剪为原始大小并翻转它们以获取翻转后的对应框。生成的框被馈送到网络中以生成热图。我们对这些热图求平均值，并搜索最高响应以获取关键点的位置。使用的比例因子为0.7、1.0和1.3。此外，在复杂和拥挤的场景中容易遭受冗余和错误的人体的边界框的困扰。我们应用姿势NMS来消除相似和低置信度的冗余。另一方面，在测试过程中采用多尺度输入，“多刻度输入”表示通过更改输入图像的长宽，并在测试过程中融合其结果来训练多组参数。如果采用“多刻度输入”则通过融合256×192和384×288的输入尺寸来获得结果；如果不采用“多刻度输入”则输入大小仅为256×192。

表7给出了本申请姿势估计在训练测试过程中不同的组成实验性能指标，其中，测试结果是在人流拥挤场景的视频做人体姿势估计测试验证。由表7可知，姿势估计模型采用HRNet网络，通过HIE数据集训练姿势估计模型，测试验证获得性能指标为52.45％。姿势估计模型采用HRNet网络，通过HIE数据集训练姿势估计模型，在测试过程中增加多尺度评估处理，测试验证获得性能指标为52.9％。姿势估计模型采用HRNet网络，通过姿势训练样本集训练姿势估计模型，测试验证获得性能指标为53.82％。姿势估计模型采用HRNet网络与SimpleNet网络融合做人体姿势估计，通过姿势训练样本集训练姿势估计模型，在测试过程中增加多尺度评估处理，测试验证获得性能指标为55.52％。姿势估计模型采用HRNet网络与SimpleNet网络融合做人体姿势估计，通过姿势训练样本集训练姿势估计模型，在测试过程中增加多尺度评估和多尺度输入处理，测试验证获得性能指标为56.04％。姿势估计模型采用HRNet网络与SimpleNet网络融合做人体姿势估计，通过姿势训练样本集训练姿势估计模型，在测试过程中增加多尺度评估和多尺度输入处理，生成的关节点做光流平滑处理，测试验证获得性能指标为56.34％。其中，姿势训练样本集包括HIE数据集，COCO数据集，MPII数据集和AI Challenger数据集和自收集的数据集。

图12根据本申请的一些实施例，示出了一种基于视频的人体姿势估计装置的结构框图。如图12所示，基于视频的人体姿势估计装置1200包括：

图像获取模块(1202)，用于获取视频中的多帧多人体图像，其中每帧多人体图像中包括有多个人体实例；

人体检测模块(1204)，用于生成各帧多人体图像中的人体实例的初始人体边界框；

人体校正模块(1206)，用于根据多人体图像与多人体图像的前一帧图像之间的位置差数据，对多人体图像的初始人体边界框进行校正得到检测人体边界框，其中位置差数据包括多人体图像中的人体实例在前一帧图像和多人体图像中的位置差；

姿势估计模块(1208)，用于根据多人体图像的检测人体边界框识别多人体图像中人体实例的姿态。

可以理解，图12所示的基于视频的人体姿势估计装置1200与本申请提供的基于视频的人体姿势估计方法相对应，以上关于本申请提供的基于视频的人体姿势估计方法的具体描述中的技术细节依然适用于图12所示的基于视频的人体姿势估计装置1200，具体描述请参见上文，在此不再赘述。

图13根据本申请的一些实施例，示出了一种基于视频的人体姿势估计装置的结构框图。如图13所示，基于视频的人体姿势估计装置1300包括：

图像获取模块(1302)，用于获取视频中的多帧多人体图像，其中每帧多人体图像中包括有多个人体实例；

人体检测模块(1304)，用于生成各帧多人体图像中的人体实例的检测人体边界框；

姿势检测模块(1306)，用于基于多人体图像的检测人体边界框，生成各帧多人体图像中的人体实例的初始姿势关键点；

姿势校正模块(1308)，基于多人体图像与多人体图像的前一帧图像之间的位置差数据，以及多人体图像与多人体图像的后一帧图像之间的位置差数据，对多人体图像中的人体实例的初始姿势关键点进行校正得到检测姿势关键点，其中，多人体图像与前一帧图像之间的位置差数据包括多人体图像中的人体实例在多人体图像和前一帧图像中的位置差，多人体图像与后一帧图像之间的位置差数据包括多人体图像中的人体实例在多人体图像和后一帧图像中的位置差；

姿势估计模块(1310)，用于基于所述多人体图像中的检测姿势关键点识别所述多人体图像中人体实例的姿态。

可以理解，图13所示的基于视频的人体姿势估计装置1300与本申请提供的基于视频的人体姿势估计方法相对应，以上关于本申请提供的基于视频的人体姿势估计方法的具体描述中的技术细节依然适用于图13所示的基于视频的人体姿势估计装置1300，具体描述请参见上文，在此不再赘述。

图14所示为根据本申请的一个实施例的电子设备的框图，该电子设备可以为上述实视频处理设备300。图14示意性地示出了根据多个实施例的示例电子设备1400。在一个实施例中，电子设备1400可以包括一个或多个处理器1404，与处理器1404中的至少一个连接的系统控制逻辑1408，与系统控制逻辑1408连接的系统内存1412，与系统控制逻辑1408连接的非易失性存储器(NVM)1416，以及与系统控制逻辑1408连接的网络接口1420。

在一些实施例中，处理器1404可以包括一个或多个单核或多核处理器。在一些实施例中，处理器1404可以包括通用处理器和专用处理器(例如，图形处理器，应用处理器，基带处理器等)的任意组合。在电子设备1400采用eNB(Evolved Node B，增强型基站)或RAN(Radio Access Network，无线接入网)控制器的实施例中，处理器1404可以被配置为执行各种符合的实施例，例如，如图3所示的多个实施例中的一个或多个。例如，处理1404可以用于执行上述基于视频的人体姿势估计方法，如用于生成多帧多人体图像中的人体实例的人体边界框以及关节点，以及基于相邻多帧多人体图像之间的光流校正检测得到人体边界框和关节点。

在一些实施例中，系统控制逻辑1408可以包括任意合适的接口控制器，以向处理器1404中的至少一个和/或与系统控制逻辑1408通信的任意合适的设备或组件提供任意合适的接口。

在一些实施例中，系统控制逻辑1408可以包括一个或多个存储器控制器，以提供连接到系统内存1412的接口。系统内存1412可以用于加载以及存储数据和/或指令。在一些实施例中系统1400的内存1412可以包括任意合适的易失性存储器，例如合适的动态随机存取存储器(DRAM)。

NVM/存储器1416可以包括用于存储数据和/或指令的一个或多个有形的、非暂时性的计算机可读介质。在一些实施例中，NVM/存储器1416可以包括闪存等任意合适的非易失性存储器和/或任意合适的非易失性存储设备，例如HDD(Hard Disk Drive，硬盘驱动器)，CD(Compact Disc，光盘)驱动器，DVD(Digital Versatile Disc，数字通用光盘)驱动器中的至少一个。

NVM/存储器1416可以包括安装电子设备1400的装置上的一部分存储资源，或者它可以由设备访问，但不一定是设备的一部分。例如，可以经由网络接口1420通过网络访问NVM/存储1416。

特别地，系统内存1412和NVM/存储器1416可以分别包括：指令1424的暂时副本和永久副本。指令1424可以包括：由处理器1404中的至少一个执行时导致电子设备1400实施如图1所示的方法的指令。在一些实施例中，指令1424、硬件、固件和/或其软件组件可另外地/替代地置于系统控制逻辑1408，网络接口1420和/或处理器1404中。

网络接口1420可以包括收发器，用于为电子设备1400提供无线电接口，进而通过一个或多个网络与任意其他合适的设备(如前端模块，天线等)进行通信。在一些实施例中，网络接口1420可以集成于电子设备1400的其他组件。例如，网络接口1420可以集成于处理器1404的，系统内存1412，NVM/存储器1416，和具有指令的固件设备(未示出)中的至少一种，当处理器1404中的至少一个执行所述指令时，电子设备1400实现如图5所示的方法。

网络接口1420可以进一步包括任意合适的硬件和/或固件，以提供多输入多输出无线电接口。例如，网络接口1420可以是网络适配器，无线网络适配器，电话调制解调器和/或无线调制解调器。

在一个实施例中，处理器1404中的至少一个可以与用于系统控制逻辑1408的一个或多个控制器的逻辑封装在一起，以形成系统封装(SiP)。在一个实施例中，处理器1404中的至少一个可以与用于系统控制逻辑1408的一个或多个控制器的逻辑集成在同一管芯上，以形成片上系统(SoC)。

电子设备1400可以进一步包括：输入/输出(I/O)设备1432。I/O设备1432可以包括用户界面，使得用户能够与电子设备1400进行交互；外围组件接口的设计使得外围组件也能够与电子设备1400交互。在一些实施例中，电子设备1400还包括传感器，用于确定与电子设备1400相关的环境条件和位置信息的至少一种。

在一些实施例中，用户界面可包括但不限于显示器(例如，液晶显示器，触摸屏显示器等)，扬声器，麦克风，一个或多个相机(例如，静止图像照相机和/或摄像机)，手电筒(例如，发光二极管闪光灯)和键盘。

在一些实施例中，外围组件接口可以包括但不限于非易失性存储器端口、音频插孔和电源接口。

在一些实施例中，传感器可包括但不限于陀螺仪传感器，加速度计，近程传感器，环境光线传感器和定位单元。定位单元还可以是网络接口1420的一部分或与网络接口1420交互，以与定位网络的组件(例如，全球定位系统(GPS)卫星)进行通信。

根据本申请的实施例，图15示出了一种SoC(System on Chip，片上系统)1500的框图。在图15中，相似的部件具有同样的附图标记。另外，虚线框是更先进的SoC的可选特征。在图15中，SoC 1500包括：互连单元1550，其被耦合至应用处理器1510；系统代理单元1570；总线控制器单元1580；集成存储器控制器单元1540；一组或一个或多个协处理器1520，其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器(SRAM)单元1530；直接存储器存取(DMA)单元1560。在一个实施例中，协处理器1520包括专用处理器，诸如例如网络或通信处理器、压缩引擎、GPGPU、高吞吐量MIC处理器、或嵌入式处理器等等。

本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码，该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码应用于输入指令，以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的，处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理系统通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如，载波、红外信号数字信号等)的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如，计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种基于视频的人体姿势估计方法，其特征在于，包括：

获取视频中的多帧多人体图像，其中每帧所述多人体图像中包括有多个人体实例；

生成各帧所述多人体图像中的人体实例的初始人体边界框；

基于所述多人体图像与所述多人体图像的前一帧图像之间的位置差数据，对所述多人体图像的初始人体边界框进行校正得到检测人体边界框，其中所述位置差数据包括所述多人体图像中的人体实例在所述前一帧图像和所述多人体图像中的位置差；

基于所述多人体图像的检测人体边界框识别所述多人体图像中人体实例的姿态。

2.根据权利要求1所述的方法，其特征在于，所述基于所述多人体图像与所述多人体图像的前一帧图像之间的位置差数据，对所述多人体图像的初始人体边界框进行校正得到检测人体边界框，包括：

通过以下公式对所述多帧多人体图像中的第t帧图像中的第i个初始人体边界框进行校正得到第i个检测人体边界框：

其中，

表示所述多帧多人体图像中的第t-1帧图像中的所述第i个初始人体边界框的坐标点集，F^t-1→t表示基于所述第t-1帧图像与所述第t帧图像之间的位置差数据，

表示基于F^t-1→t得到的所述第t帧图像中的第i个预测人体边界框的坐标点集，

表示所述第t帧图像中的所述第i个初始人体边界框的坐标点集，

表示所述第t帧图像中的所述第i个检测人体边界框的坐标点集，α为

与

合成的权重系数，i和t均为正整数。

3.根据权利要求1或2所述的方法，其特征在于，所述基于所述多人体图像的检测人体边界框识别所述多人体图像中人体实例的姿态，包括：

基于所述多人体图像的检测人体边界框，生成各帧所述多人体图像中的人体实例的初始姿势关键点；

基于所述多人体图像与所述多人体图像的前一帧图像之间的位置差数据，以及所述多人体图像与所述多人体图像的后一帧图像之间的位置差数据，对所述多人体图像中的人体实例的初始姿势关键点进行校正得到检测姿势关键点，其中所述多人体图像与所述后一帧图像之间的位置差数据包括所述多人体图像中的人体实例在所述多人体图像和所述后一帧图像中的位置差；

基于所述多人体图像中的检测姿势关键点识别所述多人体图像中人体实例的姿态。

4.根据权利要求3所述的方法，其特征在于，所述基于所述多人体图像与所述多人体图像的前一帧图像之间的位置差数据，以及所述多人体图像与所述多人体图像的后一帧图像之间的位置差数据，对所述多人体图像中的人体实例的初始姿势关键点进行校正得到检测姿势关键点，包括：

通过以下公式对所述多帧多人体图像中的第t帧图像中的第i个检测人体边界框中的人体实例的初始姿势关键点进行校正得到检测姿势关键点：

其中，

表示所述多帧多人体图像中的第t-1帧图像中的所述第i个检测人体边界框中的人体实例的初始姿势关键点的坐标点集，F^t-1→t表示所述第t-1帧图像与所述第t帧图像之间的位置差数据，

为基于F^t-1→t得到所述第t帧图像中的所述第i个检测人体边界框中的人体实例的预测姿势关键点的坐标点集；

表示所述多帧多人体图像中第t+1帧图像中的第i个检测人体边界框中的人体实例的初始姿势关键点的坐标点集；F^t→t+1表示所述第t帧图像与所述第t+1帧图像之间的位置差数据；

为基于F^t→t+1得到所述第t帧图像中的所述第i个检测人体边界框中的人体实例的预测姿势关键点的坐标点集；

表示所述第t帧图像中的所述第i个检测人体边界框中的人体实例的检测姿势关键点的坐标点集，β表示

之间合成的权重系数，i和t均为正整数。

5.根据权利要求1所述的方法，其特征在于，所述基于所述多人体图像的检测人体边界框识别所述多人体图像中人体实例的姿态之前，所述方法还包括：

生成各帧所述多人体图像中的人体实例的检测人体边界框对应的标识信息，其中一个标识信息用于标识一个人体实例的检测人体边界框。

6.根据权利要求5所述的方法，其特征在于，所述基于所述多人体图像的检测人体边界框识别所述多人体图像中人体实例的姿态，包括：

基于所述多人体图像的检测人体边界框和检测人体边界框的标识信息，识别所述多人体图像中人体实例的姿态。

7.根据权利要求5或6所述的方法，其特征在于，所述生成各帧所述多人体图像中的人体实例的检测人体边界框对应的标识信息，包括：

基于各帧所述多人体图像中的人体实例的外观特征和在图像中的位置，生成各帧所述多人体图像中的人体实例的检测人体边界框对应的标识信息。

8.根据权利要求5所述的方法，其特征在于，所述方法还包括：

基于各帧所述多人体图像中的人体实例的检测人体边界框对应的标识信息，以及人体实例的姿势，在所述多帧多人体图像中进行人体实例跟踪。

9.根据权利要求1所述的方法，其特征在于，各帧所述多人体图像中的人体实例的初始人体边界框由第一神经网络模型生成，所述第一神经网络模型的主干网络包括以下至少一种：ResNet152网络，ResNeXt101网络，SeNet154网络。

10.根据权利要求3所述的方法，其特征在于，各帧所述多人体图像中的人体实例的初始姿势关键点通过第二神经网络模型生成，所述第二神经网络模型的主干网络包括以下至少一种：HRNet和SimpleNet。

11.一种基于视频的人体姿势估计方法，其特征在于，包括：

生成各帧所述多人体图像中的人体实例的检测人体边界框；

基于所述多人体图像与所述多人体图像的前一帧图像之间的位置差数据，以及所述多人体图像与所述多人体图像的后一帧图像之间的位置差数据，对所述多人体图像中的人体实例的初始姿势关键点进行校正得到检测姿势关键点，其中，所述多人体图像与所述前一帧图像之间的位置差数据包括所述多人体图像中的人体实例在所述多人体图像和所述前一帧图像中的位置差，所述多人体图像与所述后一帧图像之间的位置差数据包括所述多人体图像中的人体实例在所述多人体图像和所述后一帧图像中的位置差；

12.根据权利要求11所述的方法，其特征在于，所述基于所述多人体图像与所述多人体图像的前一帧图像之间的位置差数据，以及所述多人体图像与所述多人体图像的后一帧图像之间的位置差数据，对所述多人体图像中的人体实例的初始姿势关键点进行校正得到检测姿势关键点，包括：

其中，

表示所述多帧多人体图像中第t+1帧图像中的第i个检测人体边界框中的人体实例的初始姿势关键点的坐标点集；F^t→t+1表示所述第t-帧图像与所述第t+1帧图像之间的位置差数据；

之间合成的权重系数，i和t均为正整数。

13.根据权利要11或12所述的方法，其特征在于，所述生成各帧所述多人体图像中的人体实例的检测人体边界框，包括：

生成各帧所述多人体图像中的人体实例的初始人体边界框；

14.根据权利要求13所述的方法，其特征在于，所述基于所述多人体图像与所述多人体图像的前一帧图像之间的位置差数据，对所述多人体图像的初始人体边界框进行校正得到检测人体边界框，包括：

其中，

与

合成的权重系数，i和t均为正整数。

15.一种基于视频的人体姿势估计装置，其特征在于，包括：

图像获取模块，用于获取视频中的多帧多人体图像，其中每帧所述多人体图像中包括有多个人体实例；

人体检测模块，用于生成各帧所述多人体图像中的人体实例的初始人体边界框；

人体校正模块，用于根据所述多人体图像与所述多人体图像的前一帧图像之间的位置差数据，对所述多人体图像的初始人体边界框进行校正得到检测人体边界框，其中所述位置差数据包括所述多人体图像中的人体实例在所述前一帧图像和所述多人体图像中的位置差；

姿势估计模块，用于根据所述多人体图像的检测人体边界框识别所述多人体图像中人体实例的姿态。

16.一种基于视频的人体姿势估计装置，其特征在于，包括：

人体检测模块，用于生成各帧所述多人体图像中的人体实例的检测人体边界框；

姿势检测模块，用于基于所述多人体图像的检测人体边界框，生成各帧所述多人体图像中的人体实例的初始姿势关键点；

姿势校正模块，基于所述多人体图像与所述多人体图像的前一帧图像之间的位置差数据，以及所述多人体图像与所述多人体图像的后一帧图像之间的位置差数据，对所述多人体图像中的人体实例的初始姿势关键点进行校正得到检测姿势关键点，其中，所述多人体图像与所述前一帧图像之间的位置差数据包括所述多人体图像中的人体实例在所述多人体图像和所述前一帧图像中的位置差，所述多人体图像与所述后一帧图像之间的位置差数据包括所述多人体图像中的人体实例在所述多人体图像和所述后一帧图像中的位置差；

姿势估计模块，用于基于所述多人体图像中的检测姿势关键点识别所述多人体图像中人体实例的姿态。

17.一种可读介质，其特征在于，所述可读介质上存储有指令，该指令在电子设备上执行时使所述电子设备执行权利要求1至14中任一项所述的基于视频的人体姿势估计方法。

18.一种电子设备，其特征在于，包括：

存储器，用于存储由电子设备的一个或多个处理器执行的指令，以及

处理器，是电子设备的处理器之一，用于执行权利要求1至14中任一项所述的基于视频的人体姿势估计方法。