CN109670474A

CN109670474A - 一种基于视频的人体姿态估计方法、装置及设备

Info

Publication number: CN109670474A
Application number: CN201811623269.XA
Authority: CN
Inventors: 黄国恒; 陈小平; 朱俊文
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-04-23
Anticipated expiration: 2038-12-28
Also published as: CN109670474B

Abstract

本发明公开了一种基于视频的人体姿态估计方法，能够对目标视频进行图像截取，得到多帧图像，然后遍历多帧图像分别计算各帧图像的人体姿态特征，对于当前遍历到的图像，利用姿态提取网络提取其真实人体姿态特征，并将上一帧图像的人体姿态特征输入姿态预测网络，预测得到当前帧图像的预估人体姿态特征，最后根据预估姿态特征对真实姿态特征进行调整，确定当前帧图像最终的人体姿态特征。可见，该方法在计算人体姿态特征时，考虑到了在视频中帧与帧之间的关联性，并利用这种关联性有效解决了由于遮挡问题导致的人体姿态不完整的问题。此外，本发明还提供了一种基于视频的人体姿态估计装置、设备及计算机可读存储介质，其作用与上述方法相对应。

Description

一种基于视频的人体姿态估计方法、装置及设备

技术领域

本发明涉及计算机视觉领域，特别涉及一种基于视频的人体姿态估计方法、装置、设备及计算机可读存储介质。

背景技术

人体姿态估计用于检测人体关键点，是视频理解和计算机视觉的重要基础研究方向，它为行为识别，视频语义分析提供了重要的基础。

但是由于人体动作的复杂、光照的变化、背景干扰等原因，人体姿态估计还是存在着许多的难点。例如，传统方法中对视频中的姿态估计采用的是对每一帧进行姿态估计，然而对每一帧进行处理，对处理遮挡问题不能很好的解决。

发明内容

本发明的目的是提供一种基于视频的人体姿态估计方法、装置、设备及计算机可读存储介质，用以解决传统的根据视频进行人体姿态估计的过程中，无法有效解决人体遮挡带来的影响的问题。

为解决上述技术问题，本发明提供了一种基于视频的人体姿态估计方法，包括：

对目标视频进行图像截取，得到多帧图像，其中，所述多帧图像按照在所述目标视频中出现的先后顺序排列；

遍历所述多帧图像，将第一图像输入姿态提取网络，得到真实第一人体姿态特征，其中，所述第一图像为所述多帧图像中任意一帧图像；

将第二图像输入所述姿态提取网络，得到真实第二人体姿态特征，并将所述真实第一人体姿态特征输入姿态预测网络，得到预估第二人体姿态特征，其中，所述第二图像为在所述多帧图像中与所述第一图像相邻且位于所述第一图像之后的图像；

根据所述预估第二人体姿态特征对所述真实第二人体姿态特征进行调整，得到目标第二人体姿态特征，将所述目标第二人体姿态特征作为所述第二图像的人体姿态特征。

可选的，所述遍历所述多帧图像，将第一图像输入姿态提取网络，得到真实第一人体姿态特征，其中，所述第一图像为所述多帧图像中任意一帧图像，包括：

在所述目标视频包括多个人体时，遍历所述多帧图像，对各帧图像进行人体检测，得到目标人体在各帧图像中的边界框；

根据所述目标人体在各帧图像中的边界框对各帧图像进行裁剪，得到多帧目标人体图像；

遍历所述多帧目标人体图像，将第一图像输入姿态提取网络，得到真实第一人体姿态特征，其中，所述第一图像为所述多帧目标人体图像中任意一帧图像。

可选的，所述对各帧图像进行人体检测，包括：利用深度残差网络ResNet50对各帧图像进行人体检测。

可选的，所述将第一图像输入姿态提取网络，得到真实第一人体姿态特征，包括：

将第一图像输入姿态提取网络的前期网络，得到所述第一图像的特征金字塔，并根据所述特征金字塔，确定所述第一图像中损失值满足第一条件的第一人体关键点；

将所述特征金字塔输入所述姿态提取网络的后期网络，确定所述第一图像中损失值满足第二条件的第二人体关键点；

确定所述第一人体关键点和所述第二人体关键点的坐标，得到真实第一人体姿态特征。

可选的，所述人体姿态特征为多个人体关键点的坐标集合，所述根据所述预估第二人体姿态特征对所述真实第二人体姿态特征进行调整，得到目标第二人体姿态特征，包括：

计算所述预估第二人体姿态特征和所述真实第二人体姿态特征中各个所述人体关键点的坐标均值，得到目标第二人体姿态特征。

相应的，本发明还提供了一种基于视频的人体姿态估计装置，包括：

图像截取模块：用于对目标视频进行图像截取，得到多帧图像，其中，所述多帧图像按照在所述目标视频中出现的先后顺序排列；

第一输入模块：用于遍历所述多帧图像，将第一图像输入姿态提取网络，得到真实第一人体姿态特征，其中，所述第一图像为所述多帧图像中任意一帧图像；

第二输入模块：用于将第二图像输入所述姿态提取网络，得到真实第二人体姿态特征，并将所述真实第一人体姿态特征输入姿态预测网络，得到预估第二人体姿态特征，其中，所述第二图像为在所述多帧图像中与所述第一图像相邻且位于所述第一图像之后的图像；

调整模块：用于根据所述预估第二人体姿态特征对所述真实第二人体姿态特征进行调整，得到目标第二人体姿态特征，将所述目标第二人体姿态特征作为所述第二图像的人体姿态特征。

可选的，所述第一输入模块包括：

边界框确定单元：用于在所述目标视频包括多个人体时，遍历所述多帧图像，对各帧图像进行人体检测，得到目标人体在各帧图像中的边界框；

裁剪单元：用于根据所述目标人体在各帧图像中的边界框对各帧图像进行裁剪，得到多帧目标人体图像；

特征提取单元：用于遍历所述多帧目标人体图像，将第一图像输入姿态提取网络，得到真实第一人体姿态特征，其中，所述第一图像为所述多帧目标人体图像中任意一帧图像。

可选的，所述特征提取单元包括：

前期网络子单元：用于将第一图像输入姿态提取网络的前期网络，得到所述第一图像的特征金字塔，并根据所述特征金字塔，确定所述第一图像中损失值满足第一条件的第一人体关键点；

后期网络子单元：用于将所述特征金字塔输入所述姿态提取网络的后期网络，确定所述第一图像中损失值满足第二条件的第二人体关键点；

坐标确定子单元：用于确定所述第一人体关键点和所述第二人体关键点的坐标，得到真实第一人体姿态特征。

此外，本发明还提供了一种基于视频的人体姿态估计设备，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如上所述的一种基于视频的人体姿态估计方法的步骤。

最后，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权上所述的一种基于视频的人体姿态估计方法的步骤。

本发明所提供的一种基于视频的人体姿态估计方法，能够对目标视频进行图像截取，得到多帧图像，然后遍历多帧图像分别计算各帧图像的人体姿态特征，对于当前遍历到的图像，利用姿态提取网络提取其真实人体姿态特征，并将上一帧图像的人体姿态特征输入姿态预测网络，预测得到当前帧图像的预估人体姿态特征，最后根据预估姿态特征对真实姿态特征进行调整，确定当前帧图像最终的人体姿态特征。可见，该方法在计算人体姿态特征时，考虑到了在视频中帧与帧之间的关联性，在计算一帧图像的人体姿态特征时，综合考虑了该帧图像的姿态特征以及根据前一帧对该帧预测的姿态特征，有效解决了由于遮挡问题导致的人体姿态不完整的问题。

此外，本发明还提供了一种基于视频的人体姿态估计装置、设备及计算机可读存储介质，其作用与上述方法相对应，这里不再赘述。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明所提供的一种基于视频的人体姿态估计方法实施例一的实现流程图；

图2为本发明所提供的一种基于视频的人体姿态估计方法实施例二的实现流程图；

图3为本发明所提供的一种基于视频的人体姿态估计装置实施例的功能框图；

图4为本发明所提供的一种基于视频的人体姿态估计设备实施例的结构框图。

具体实施方式

本发明的核心是提供一种基于视频的人体姿态估计方法、装置、设备及计算机可读存储介质，利用在视频中帧与帧之间的关联性，有效缓解了由于遮挡导致的人体姿态不完整的问题，提高了人体姿态估计的可靠性。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面对本发明提供的一种基于视频的人体姿态估计方法实施例一进行介绍，参见图1，实施例一包括：

步骤S101：对目标视频进行图像截取，得到多帧图像。

上述目标视频是指本实施例中需要进行人体姿态估计的视频。对于目标视频的截取，可以按照每隔一定时间间隔截取一次的方式进行截取，或者按照每隔一定数量帧截取一次的方式进行截取，例如每五帧截取一帧，具体截取方式依据实际情况来确定，本实施例对此不做限定。需要说明的是，由于本实施例在下文考虑了帧与帧之间的关联性，因此为方便后续计算过程的进行，将截取到的图像按照在视频中出现的先后顺序进行排列，得到一个图像序列。

步骤S102：遍历所述多帧图像，将第一图像输入姿态提取网络，得到真实第一人体姿态特征。

具体的，在遍历上述多帧图像的过程中，按照图像在目标视频中出现的先后顺序进行遍历。上述第一图像指的是当前遍历到的图像，在本实施例中，我们按照遍历的顺序分别计算各帧图像的人体姿态特征。其中，对于当前遍历到的图像，将该图像输入上述姿态特征提取网络，然后姿态特征提取网络会计算出该图像的人体姿态特征，我们获取姿态特征提取网络的输出，就得到了上述真实第一人体姿态特征。值得一提的是，当当前遍历到的图像为上述图像序列中的第一帧图像的时候，我们将上述真实第一人体姿态特征直接作为第一帧图像最终的人体姿态特征，而当当前遍历到的图像不为上述图像序列中的第一帧图像时，上述真实第一人体姿态特征不能直接作为该图像最终的人体姿态特征，我们需要通过下述步骤去计算该图像最终的人体姿态特征。

需要说明的是，上述姿态特征提取网络为预先经过训练的用于从图像中提取出人体姿态特征的网络，其中，上述人体姿态特征具体可以为多个人体关键点的坐标，也就是人体关键点的坐标集合，上述人体关键点具体可以为头部、手肘、膝盖等人体部位。

步骤S103：将第二图像输入所述姿态提取网络，得到真实第二人体姿态特征，并将所述真实第一人体姿态特征输入姿态预测网络，得到预估第二人体姿态特征。

具体的，在本实施例中，将前述步骤中得到的真实第一人体姿态特征输入该姿态预测网络，然后姿态预测网络会根据真实第一人体姿态特征预测得到第二图像中的人体姿态特征，我们获取该姿态预测网络的输出，就得到了上述预估第二人体姿态特征。其中，上述第二图像指的是在上述图像序列中与上述第一图像相邻的、且位于上述第一图像之后的图像。

需要说明的是，上述姿态预测网络为预先经过训练的用于根据一帧图像的人体姿态特征预测下一帧图像的人体姿态特征的网络，具体的，根据一帧图像中人体关键点坐标集合预测下一帧图像中人体关键点的坐标集合。

步骤S104：根据所述预估第二人体姿态特征对所述真实第二人体姿态特征进行调整，得到目标第二人体姿态特征，将所述目标第二人体姿态特征作为所述第二图像的人体姿态特征。

本实施例主要处理遮挡带来的人体姿态特征缺失的问题，因此，上述调整过程，可以是根据预估第二人体姿态特征判断真实第二人体姿态特征中缺少哪些人体关键点。此外，作为一种优选的实施方式，为保证相邻帧图像的人体姿态特征的平滑性，可以对真实第二人体姿态特征和预估第二人体姿态特征中共有的人体关键点的坐标进行运算，具体可以是取两个坐标的均值作为该人体关键点最终的坐标。

本实施例所提供一种基于视频的人体姿态估计方法，能够对目标视频进行图像截取，得到多帧图像，然后遍历多帧图像分别计算各帧图像的人体姿态特征，对于当前遍历到的图像，利用姿态提取网络提取其真实人体姿态特征，并将上一帧图像的人体姿态特征输入姿态预测网络，预测得到当前帧图像的预估人体姿态特征，最后根据预估姿态特征对真实姿态特征进行调整，确定当前帧图像最终的人体姿态特征。可见，该方法在计算人体姿态特征时，考虑到了在视频中帧与帧之间的关联性，在计算一帧图像的人体姿态特征时，综合考虑了该帧图像的姿态特征以及根据前一帧对该帧预测的姿态特征，有效解决了由于遮挡问题导致的人体姿态不完整的问题。

下面开始详细介绍本发明提供的一种基于视频的人体姿态估计方法实施例二，实施例二基于上述实施例一实现，并在实施例一的基础上进行了一定程度上的拓展。

具体的，本实施例考虑了目标视频中存在多个人体的情况，这种情况下，需要进行多人姿态估计。一般的，多人姿态估计可以按照两种方式来进行，一种方式为自上向下，另一中方式为自下向上，其中，自上向下的主要原理是先检测人体，再对检测得到的人体进行单人姿态估计；自下向上的主要原理是先检测所有人体关键点，然后对检测得到的人体关键点进行组合，得到各个人体的姿态特征。

作为一种可选的实施方式，本实施例通过自上向下的方式来进行多人姿态估计，如图2所示，该过程具体包括：

步骤S201：获取目标视频。

步骤S202：对目标视频进行图像截取，得到多帧图像。

具体的，按照每五帧截取一帧的规律进行截取，换言之，按照每隔四帧图像执行一次图像截取。

步骤S203：遍历上述多帧图像，对当前遍历到的图像进行人体检测，得到多个人体边界框。

作为一种可选的实施方式，可以将截取的帧输入ResNet50(深度残差)网络，从而得到每个人体的边界框。ResNet50可以提高人体检测的准确率，这对于后面的单人姿态估计提供了重要的保障。ResNet50能够提高人体检测的准确率主要是加深了网络深度，用了残差网络结构。因为随着网络的加深，会出现训练集准确率下降的现象，残差网络更容易优化并且能够通过增加深度来提高准确率，深度残差网络可以解决由增加深带来的退化问题，这样能够通过增加网络的深度来提高网络的性能。

需要说明的是，在步骤S203中检测出的多个人体边界框分别框住了单个人的人体图像，在下文将会提到的计算人体图像的人体姿态特征的过程中，我们分别根据各个人的人体图像进行人体姿态特征的计算，最后再将所有人的人体姿态特征整合起来。

步骤S204：利用姿态提取网络分别对各个人体边界框中的图像进行人体姿态特征的提取，得到真实人体姿态特征。

上述人体姿态特征，可以是多个人体关键点的坐标集合，至于人体关键点的选取，具体依据实际需求来确定，本实施例这里不做限定。

步骤S205：将在上一帧图像中与该人体边界框对应的人体图像的人体姿态特征输入姿态预测网络，得到预估人体姿态特征。

经过前述步骤，我们得到当前遍历到的图像中每个人体的人体关键点坐标，在预测过程中，作为一种可选的实施方式，可以将人体关键点坐标输入到卡尔曼算法中来预测下一帧中该人体关键点的坐标。

其中，预测过程的原理为：

P_t ^-＝FP_t-1F^T+Q (2)

K_t＝P_t ^-H^T(HP_t ^-H^T+R) (3)

P_t＝(I-K_tH)P_t ^- (5)

其中，公式(1)表示计算向前推算状态变量，其中表示的是第t帧图像中估计的关键点坐标，根据前一帧的状态推测而来的。F是状态转移矩阵，x_t-1是在第t-1帧中估计得到的关键点坐标，B_t-1是第t-1帧的控制矩阵。公式(2)表示计算向前推算误差协方差。P_t-1为t-1帧状态协方差矩阵，P_t ^-为t帧时的状态协方差矩阵，Q为状态转移协方差矩阵。

公式(3)计算卡尔曼增益，K_t表示第t帧的卡尔曼增益，H表示观测矩阵，R表示观测噪声协方差矩阵。公式(4)表示更新预测的值，x_t表示经过一次更新后关键点的坐标，z_t表示观测变量。公式(5)用更新误差协方差。p_t表示更新后的协方差。符号T表示矩阵转置。

每一帧的关键点经过预测后再进行校正，不断地进行迭代。输入前一帧的坐标集x_t-1，输出当前帧的坐标集x_t，这样计算出来的关键点会越来越接近真实值。

值得一提的是，在实际应用中，步骤S204与步骤S205之间没有必然的先后顺序，以上只作为本实施例提供的一种实施方式，本实施例对此不做限定。

步骤S206：根据真实人体姿态特征和预估姿态人体特征，得到该人体边界框中的图像最终的人体姿态特征。

具体的，将这两个坐标集合取均值作为最终预测的人体关键点的坐标。这样可以避免由于姿态估计预测有较大的误差从而导致结果误差较大，而且对于有遮挡情况这种处理的效果会更好。因此当前一帧由于出现遮挡，姿态提取网络会可能会提取一个误差较大的结果，但是由于帧与帧间之间是有联系的，关键点之间的运动会比较光滑，所以可以通过卡尔曼算法模型大致预测下一帧中关键点的坐标，这样将两个结果进行折中，得到一个较为符合实际的结果。

步骤S207：对各个人体边界框中的图像的人体姿态特征进行整合，得到当前遍历到的图像最终的多人姿态特征。

此外，需要特别说明的是，本实施例中姿态提取网络分为两部分，一个是检测容易识别的人体关键点的前期网络，另一个是检测不容易识别的人体关键点的后期网络。下面分别对这两部分进行介绍：

首先是前期网络，根据步骤S203中的人体边界框，得到单人图像，将单人图片输入到特征提取网络中获取特征图，在最后一个残差块中卷积生成的卷积特征表示为C1、C2、C3、C4，这些特征分别对应不同尺度下的图片轮廓信息。其中，C1和C2这两个浅层特征具有较高的空间分辨率，但是所具有的语义信息较低，而对于C3,C4这两个特征图具有较低的分辨率，但是经过尺度更大的卷积池化等过程具有较高的语义信息。再将这些卷积特征分别和3x3的卷积核进行卷积生成对应的热图(heatmap)。

对于得到的C1、C2、C3、C4热图，分别进行上采样进行叠加，将各个部分的特征图进行融合。对得到的融合热图进行关键点的预测。在这里，将使用中继监督训练，选取损失函数值较低的预设数量的人体关键点作为预测结果，具体可以是五个人体关键点。

前期网络可以有效的定位头部、手肘等关键点，但是较难定位臀部膝盖等有遮挡的部位。这些关键点通常需要更多的语义信息进行上下文的的处理才能定位出来，对于这些不易分辨出来的关键点，本实施例通过后期网络来定位。

在前期网络生成的热图表示成D1、D2、D3、D4，在每个热图后面加一个Bottleneck模块，用于更深层次的特征提取。例如，将D4经过Bottleneck模块进行上采样得到特征图，将该特征图与D3经过Bottleneck模块得到特征图进行叠加得到融合特征图，其他模块依次根根据这种方法进行操作。在网络的最后得到最后的热图，在这个热图上进行关键点的检测，得到比较难于识别的关键点。

可见，本实施例提供的一种基于视频的人体姿态估计方法，主要是解决在视频中进行姿态估计遮挡问题，具体方案为：人体检测网络、姿态提取网络、卡尔曼算法，通过ResNet50网络检测输入图片中每个人的边界框，再将根据边界框得到的单人图像输入姿态提取网络，最后将上一帧图像的人体姿态特征输入到卡尔曼滤波算法中预测当前帧人体关键点的坐标，根据预测的关键点坐标对提取到的关键点坐标进行修正，得到更准确的人体关键点坐标。

下面对本发明实施例提供的一种基于视频的人体姿态估计装置进行介绍，下文描述的一种基于视频的人体姿态估计装置与上文描述的一种基于视频的人体姿态估计方法可相互对应参照。

参见图3，该装置实施例包括：

图像截取模块301：用于对目标视频进行图像截取，得到多帧图像，其中，所述多帧图像按照在所述目标视频中出现的先后顺序排列。

第一输入模块302：用于遍历所述多帧图像，将第一图像输入姿态提取网络，得到真实第一人体姿态特征，其中，所述第一图像为所述多帧图像中任意一帧图像。

第二输入模块303：用于将第二图像输入所述姿态提取网络，得到真实第二人体姿态特征，并将所述真实第一人体姿态特征输入姿态预测网络，得到预估第二人体姿态特征，其中，所述第二图像为在所述多帧图像中与所述第一图像相邻且位于所述第一图像之后的图像。

调整模块304：用于根据所述预估第二人体姿态特征对所述真实第二人体姿态特征进行调整，得到目标第二人体姿态特征，将所述目标第二人体姿态特征作为所述第二图像的人体姿态特征。

作为一种可选的实施方式，所述第一输入模块302包括：

边界框确定单元3021：用于在所述目标视频包括多个人体时，遍历所述多帧图像，对各帧图像进行人体检测，得到目标人体在各帧图像中的边界框；

裁剪单元3022：用于根据所述目标人体在各帧图像中的边界框对各帧图像进行裁剪，得到多帧目标人体图像；

特征提取单元3023：用于遍历所述多帧目标人体图像，将第一图像输入姿态提取网络，得到真实第一人体姿态特征，其中，所述第一图像为所述多帧目标人体图像中任意一帧图像。

作为一种可选的实施方式，所述特征提取单元3022包括：

本实施例的一种基于视频的人体姿态估计装置用于实现前述的一种基于视频的人体姿态估计方法，因此该装置中的具体实施方式可见前文中的一种基于视频的人体姿态估计方法的实施例部分，例如，图像截取模块301、第一输入模块302、第二输入模块303、调整模块304，分别用于实现上述一种基于视频的人体姿态估计方法中步骤S101，S102，S103，S104。所以，其具体实施方式可以参照相应的各个部分实施例的描述，在此不再展开介绍。

另外，由于本实施例的一种基于视频的人体姿态估计装置用于实现前述的一种基于视频的人体姿态估计方法，因此其作用与上述方法的作用相对应，这里不再赘述。

此外，本发明还提供了一种基于视频的人体姿态估计设备实施例，下文描述的一种基于视频的人体姿态估计设备与上文描述的一种基于视频的人体姿态估计方法可相互对应参照。

如图4所示，该设备实施例包括：

存储器401：用于存储计算机程序；

处理器402：用于执行所述计算机程序，以实现如上所述的一种基于视频的人体姿态估计方法的步骤。

在实际应用场景中，上述存储器401可以是随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM等用于存储计算机程序的存储介质，而上述处理器402是具备运算能力和控制能力的逻辑器件，具体为包括运算逻辑部件、寄存器部件和控制部件的硬件设备，例如CPU。

最后，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的一种基于视频的人体姿态估计方法的步骤。

本实施例的一种基于视频的人体姿态估计设备及计算机可读存储介质用于实现前述的一种基于视频的人体姿态估计方法，因此该设备及计算机可读存储介质的具体实施方式可见前文中的一种基于视频的人体姿态估计方法的实施例部分，且二者的作用与上述方法实施例的作用相对应，这里不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种基于视频的人体姿态估计方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种基于视频的人体姿态估计方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述遍历所述多帧图像，将第一图像输入姿态提取网络，得到真实第一人体姿态特征，其中，所述第一图像为所述多帧图像中任意一帧图像，包括：

3.如权利要求2所述的方法，其特征在于，所述对各帧图像进行人体检测，包括：利用深度残差网络ResNet50对各帧图像进行人体检测。

4.如权利要求2所述的方法，其特征在于，所述将第一图像输入姿态提取网络，得到真实第一人体姿态特征，包括：

5.如权利要求1-4任意一项所述的方法，其特征在于，所述人体姿态特征为多个人体关键点的坐标集合，所述根据所述预估第二人体姿态特征对所述真实第二人体姿态特征进行调整，得到目标第二人体姿态特征，包括：

6.一种基于视频的人体姿态估计装置，其特征在于，包括：

7.如权利要求6所述的装置，其特征在于，所述第一输入模块包括：

8.如权利要求7所述的装置，其特征在于，所述特征提取单元包括：

9.一种基于视频的人体姿态估计设备，其特征在于，包括：

存储器：用于存储计算机程序；

处理器：用于执行所述计算机程序，以实现如权利要求1-5任意一项所述的一种基于视频的人体姿态估计方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述的一种基于视频的人体姿态估计方法的步骤。