CN108062526B

CN108062526B - 一种人体姿态估计方法及移动终端

Info

Publication number: CN108062526B
Application number: CN201711350989.9A
Authority: CN
Inventors: 徐展; 邢晨; 张伟; 许清泉; 洪炜冬
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2021-05-04
Anticipated expiration: 2037-12-15
Also published as: CN108062526A

Abstract

本发明公开了一种人体姿态估计方法，该方法适于对待处理视频中的人体关键点进行标注以提取人体姿态信息，该方法适于在移动终端中执行，包括步骤：获取待处理视频，并判断当前图像帧的上一图像帧的关键点位置是否存在；若不存在上一图像帧的关键点位置，则检测当前图像帧中的人体位置，生成包含该人体位置的目标框；若存在上一图像帧的关键点位置，则根据上一图像帧中标注的人体关键点位置生成当前图像帧对应的目标框；对所生成的目标框进行尺度变换以生成预定尺寸的人体图像；将预定尺寸的人体图像输入预定姿态估计模型，以输出标注了人体关键点位置的图像；以及根据所标注的关键点位置估计人体姿态。本发明一并公开了相应的移动终端。

Description

一种人体姿态估计方法及移动终端

技术领域

本发明涉及图像处理技术领域，尤其是一种人体姿态估计方法及移动终端。

背景技术

人体姿态估计是指对图像或视频中人体关键点进行标注，进而提取人体基本姿态信息的过程，如图1所示，其中圆点表示标注出的人体关键点，根据所标注出的人体关键点就可以获取人体基本姿态信息。常用的人体关键点(即，人体关节点或称之为骨骼点)包括头部、颈部、双肩、双肘、双腕、双胯、双膝和双踝等。人体姿态估计就是要识别出图像视频中人体上的这些关键点的位置。

现有的人体姿态估计算法可分为传统视觉方法和基于深度学习的方法。传统视觉方法采用人体不同肢干模板构成的弹簧模型，对图像或视频中的人体不同部分进行匹配和标注。从2014年起，基于深度学习的方法被提出，大幅提高了人体姿态估计算法的性能和算法效率，常见的基于深度学习的人体姿态估计算法例如有，基于AlexNet结构设计的级联网络，用来直接回归每个点的坐标位置；或者采用分阶段的卷积网络，将前一阶段的计算结果和原始图像一起作为下一阶段的输入，不断对结果进行精细化；等等。

但是在实际场景中，由于不同图像或视频中人体所占比例不同、衣着各异、遮挡关系和拍摄角度复杂，人体姿态估计往往很难迅速有效地进行。另外，除目标外观的多样性外，算法运行效率也是需要重点考虑的问题。目前的姿态估计算法在运算效率上都达不到移动端应用的要求。在移动端应用普及的今天，设计一套在移动端快速运行的人体姿态估计算法还是很有意义的。

因此，需要开发一种更精简的人体姿态估计模型，来实现移动端姿态估计的需求。

发明内容

为此，本发明提供了一种人体姿态估计方法及移动终端，以力图解决或者至少缓解上面存在的至少一个问题。

根据本发明的一个方面，提供了一种人体姿态估计方法，该方法适于对待处理视频中的人体关键点进行标注，以提取人体姿态信息，该方法适于在移动终端中执行，包括步骤：获取待处理视频，并判断当前图像帧的上一图像帧的关键点位置是否存在；若不存在上一图像帧的关键点位置，则检测当前图像帧中的人体位置，生成包含该人体位置的目标框；若存在上一图像帧的关键点位置，则根据上一图像帧中标注的人体关键点位置生成当前图像帧对应的目标框；对所生成的目标框进行尺度变换以生成预定尺寸的人体图像；将预定尺寸的人体图像输入预定姿态估计模型，以输出标注了人体关键点位置的图像；以及根据所标注的关键点位置估计人体姿态。

可选地，在根据本发明的人体姿态估计方法中，对所生成的目标框进行尺度变换以生成预定尺寸的人体图像的步骤包括：从该目标框对应的当前图像帧中裁剪出目标框所包含的图像；以及对目标框所包含的图像进行缩放处理以得到预定尺寸的人体图像。

可选地，在根据本发明的人体姿态估计方法中，将预定尺寸的人体图像输入预定姿态估计网络，以输出标注了人体关键点位置的图像的步骤包括：将预定尺寸的人体图像输入预定姿态估计网络，输出每个关键点的位置概率图和背景图；将各关键点的位置概率图中概率值最大的位置标注为对应关键点的位置；以及通过叠加背景图和标注的各关键点位置得到标注了人体关键点位置的图像。

可选地，在根据本发明的人体姿态估计方法中，预定姿态估计模型包括：预定神经网络结构，用于提取人体图像的图像特征；以及第一数目个卷积阶段，用于提取本卷积阶段的图像特征，其中第一数目个卷积阶段依次连接、且第一个卷积阶段与预定神经网络结构相连接。

可选地，在根据本发明的人体姿态估计方法中，还包括训练预定姿态估计模型的步骤：将图像库中的图像进行尺度变换以生成预定尺寸的人体图像作为训练样本；将训练样本依次输入预定神经网络结构和第一数目个卷积阶段，输出预测的人体关键点位置；通过自适应时刻估计方法学习所预测的人体关键点位置与真实的人体关键点位置，以优化预定姿态估计模型。

可选地，在根据本发明的人体姿态估计方法中，根据上一图像帧中标注的人体关键点位置生成当前图像帧对应的目标框的步骤包括：根据上一图像帧中标注的人体关键点位置生成包含人体位置的初始目标框；以及将初始目标框向外扩大预定像素数以生成当前图像帧对应的目标框。

可选地，在根据本发明的人体姿态估计方法中，预定神经网络结构为tiny-YOLO网络结构。

可选地，在根据本发明的人体姿态估计方法中，第一数目为3。

根据本发明的又一方面，提供了一种移动终端，包括：一个或多个处理器；和存储器；一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行如上所述方法中的任一方法的指令。

根据本发明的再一方面，提供了一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当移动终端执行时，使得移动终端执行如上所述的方法中的任一方法。

根据本发明的方案，由于采用了足够的网络参数和分卷积阶段的精细化处理，输出结果具有较高的鲁棒性，对于人物和周围环境之间的遮挡关系、人物自身动作的不确定性、以及不同衣着带来的人物多样性等，本方法都有着比较优异的估计效果。

进一步地，本方案采用精简的网络结构作为预定姿态估计模型，算法运行速度快，用户拍摄的视频不需要传回服务器进行处理后再传给移动终端，而是可以通过移动终端本身进行实时处理。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了标注了人体关键点的图像示意图；

图2示出了根据本发明一个实施例的移动终端200的构造示意图；

图3示出了根据本发明一个实施例的人体姿态估计方法300的流程图；

图4示例性地示出了在图像中用目标框表征人体位置的示意图；以及

图5示出了根据本发明一个实施例的预定姿态估计模型500的网络结构图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图2是移动终端200的结构框图。移动终端200可以包括存储器接口202、一个或多个数据处理器、图像处理器和/或中央处理单元204，以及外围接口206。

存储器接口202、一个或多个处理器204和/或外围接口206既可以是分立元件，也可以集成在一个或多个集成电路中。在移动终端200中，各种元件可以通过一条或多条通信总线或信号线来耦合。传感器、设备和子系统可以耦合到外围接口206，以便帮助实现多种功能。

例如，运动传感器210、光线传感器212和距离传感器214可以耦合到外围接口206，以方便定向、照明和测距等功能。其他传感器216同样可以与外围接口206相连，例如定位系统(例如GPS接收机)、加速度传感器、温度传感器、生物测定传感器或其他感测设备，由此可以帮助实施相关的功能。

相机子系统220和光学传感器222可以用于方便诸如记录照片和视频剪辑的相机功能的实现，其中所述相机子系统和光学传感器例如可以是电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)光学传感器。可以通过一个或多个无线通信子系统224来帮助实现通信功能，其中无线通信子系统可以包括射频接收机和发射机和/或光(例如红外)接收机和发射机。无线通信子系统224的特定设计和实施方式可以取决于移动终端200所支持的一个或多个通信网络。例如，移动终端200可以包括被设计成支持LTE、3G、GSM网络、GPRS网络、EDGE网络、Wi-Fi或WiMax网络以及Bluebooth^TM网络的通信子系统224。

音频子系统226可以与扬声器228以及麦克风230相耦合，以便帮助实施启用语音的功能，例如语音识别、语音复制、数字记录和电话功能。I/O子系统240可以包括触摸屏控制器242和/或一个或多个其他输入控制器244。触摸屏控制器242可以耦合到触摸屏246。举例来说，该触摸屏246和触摸屏控制器242可以使用多种触摸感测技术中的任何一种来检测与之进行的接触和移动或是暂停，其中感测技术包括但不局限于电容性、电阻性、红外和表面声波技术。

一个或多个其他输入控制器244可以耦合到其他输入/控制设备248，例如一个或多个按钮、摇杆开关、拇指旋轮、红外端口、USB端口、和/或指示笔之类的指点设备。所述一个或多个按钮(未显示)可以包括用于控制扬声器228和/或麦克风230音量的向上/向下按钮。

存储器接口202可以与存储器250相耦合。该存储器250可以包括高速随机存取存储器和/或非易失性存储器，例如一个或多个磁盘存储设备，一个或多个光学存储设备，和/或闪存存储器(例如NAND，NOR)。存储器250可以存储操作系统252，例如Android、iOS或是Windows Phone之类的操作系统。该操作系统252可以包括用于处理基本系统服务以及执行依赖于硬件的任务的指令。在一些实施例中，操作系统252中包含了用于执行人体姿态估计方法的指令。存储器250还可以存储应用254。在移动终端运行时，会从存储器250中加载操作系统252，并且由处理器204执行。应用254在运行时，也会从存储器250中加载，并由处理器204执行。应用254运行在操作系统之上，利用操作系统以及底层硬件提供的接口实现各种用户期望的功能，如即时通信、网页浏览、图片管理、视频播放等。应用254可以是独立于操作系统提供的，也可以是操作系统自带的，包括各种社交应用软件，如QQ、微信、微博等，也包括各种视频播放应用软件，还可以包括相册、计算器、录音笔等系统自带应用程序。另外，应用254被安装到移动终端200中时，也可以向操作系统添加驱动模块。

本发明提供了一种人体姿态估计方案，通过在移动终端200的存储器250中存储相应的一个或多个程序(包括前文所述的相关指令)来对待处理视频或图像中的人体关键点进行标注，进而估计人体姿态。其中，待处理的视频或图像可以通过相机子系统220获取，也可以通过无线通信子系统224获取，本发明的实施例对此不作限制。

需要说明的是，本发明所指的移动终端200可以是具有上述构造的手机、平板等。

以下将结合图3，详细阐述根据本发明一个实施例的人体姿态估计方法300的流程。

如图3所示，方法300始于步骤S310，获取待处理视频，并判断当前图像帧的上一图像帧的关键点位置是否存在。

考虑到对待处理视频中每一帧图像进行人体检测过于消耗计算量，故根据本发明的实施方式，在一些场景中(例如，对视频中的人体进行跟踪)，移动终端中存储了当前图像帧的上一图像帧的人体关键点位置，认为前后两帧中人体位置不会有太大的变动；在一些场景中，当前图像帧是一段待处理视频的初始图像帧或当前图像帧就是单独的一帧图像，此时不存在其上一图像帧的关键点位置。因此，当移动终端获取到一帧新图像时，需要先判断移动终端中是否存在该帧图像的上一图像帧的关键点位置。

至于判断的方式，移动终端200中可以存储一段视频中各图像帧的标识，通过图像帧标识判断图像帧的位置关系，进而查找与图像帧关联的人体关键点位置。本发明的实施例对此均不作限制。

另外，如无其他说明，根据本发明的实施例都是基于单个人物的处理，也就是说，对图像帧中的单个人物进行人体姿态估计。

若不存在上一图像帧的关键点位置(例如，当前图像帧是待处理视频中的初始帧)，则在随后的步骤S320中，检测当前图像帧中的人体位置，生成包含该人体位置的目标框。

根据本发明的一个实施例，采用SSD(Single shot multibox detector)神经网络结构进行目标检测(即，人体检测)，并利用KITTI数据集训练针对人体的检测网络。当当前图像帧的画面中出现人物时，该检测网络能够返回该人物位置的回归框或目标框。根据本发明的又一实施例，也可以采用YOLO或YOLO2目标检测系统进行人体检测。最终返回包含人体位置的目标框，将人体所在位置尽可能完整的标出。本发明对具体采用何种人体检测方法进行人体检测不作限制。由于方法300在移动终端中执行，故选用处理速度较快的目标检测方法进行人体检测即可。

若存在上一图像帧的关键点位置，则在步骤S330中，根据上一图像帧中标注的人体关键点位置生成当前图像帧对应的目标框。

根据本发明的一种实现方式，根据上一图像帧中标注的人体关键点位置生成包含人体位置的初始目标框(该初始目标框应能尽可能完整的标出人体所在位置)，一般地，初始目标框为矩形框。然后将该初始目标框向外扩大预定像素数以生成当前图像帧对应的目标框。可选地，将初始目标框向外膨胀10个像素值，得到一个新的矩形框作为当前图像帧对应的目标框。例如，设初始目标框是以像素点A为中心、21×31大小的矩形框，那么，将初始目标框向外扩大得到的目标框就是以像素点A为中心、41×51大小的矩形框。

如图4示例性地示出了在图像中用目标框表征人体位置的示意图，为方便查看，在示例中目标框用虚线描绘的矩形框来表示。

随后在步骤S340中，对所生成的目标框进行尺度变换以生成预定尺寸的人体图像。

根据本发明的一种实现方式，根据步骤S320或步骤S330生成当前图像帧的目标框后，从当前图像帧中裁剪出该目标框所包含的图像；然后对所裁剪出的目标框所包含的图像进行缩放处理以得到预定尺寸的人体图像。

根据本发明的一个实施例，预定尺寸为368×368，以便于输入到后续的预定姿态估计模型中进行下一步处理。当然，本发明实施例对预定尺寸的大小并不做限制，只要将图像缩放至后续网络适合处理的数据大小即可。

随后在步骤S350中，将预定尺寸的人体图像输入预定姿态估计模型，以输出标注了人体关键点位置的图像。

具体地，将预定尺寸的人体图像输入预定姿态估计网络，输出每个关键点的位置概率图和背景图。其中，一个位置概率图代表一个关键点，其呈高斯概率分布，其中每个位置概率图中概率值最大的点即代表对应关键点，进而将各关键点的位置概率图中概率值最大的位置标注为对应关键点的位置。最后将标注出的各关键点位置叠加到背景图上，就得到了标注了人体关键点位置的图像。

一般地，人体的关键点数目在14-17个。以14个关键点为例，经预定姿态估计模型会输出14个位置概率图和1个背景图。

根据本发明的一个实施例，预定姿态估计模型设计为一种精简的网络结构。包括预定神经网络结构和第一数目个卷积阶段。其中，预定神经网络结构用于提取输入的人体图像的图像特征；第一数目个卷积阶段用于提取本卷积阶段内的图像特征，并且这第一数目个卷积阶段依次连接、第一个卷积阶段与预定神经网络结构相连接。

可选地，预定神经网络结构选取tiny-YOLO网络结构(视为一种比YOLO结构更为精简的网络结构)。另外，第一数目取3。

YOLO网络结构把输入图片分成不同的区域，然后给出每个区域的边框预测和概率，并依据概率大小对所有边框分配权重，最后只输出得分(概率值)超过阈值的检测结果，相比于基于分类器的模型，在测试阶段，整张图片一次输入到模型中，所以预测结果结合了图片的全局信息；并且，YOLO网络结构只是用一次网络计算来做预测，而在R-CNN中一张图片就需要进行上千次的网络计算，因此YOLO网络结构大大提高了计算速度。而根据本发明的tiny-YOLO网络结构比YOLO网络结构更加精简，执行速度更快，更适合移动终端中的执行。关于YOLO网络结构的描述可参见：Redmon J,Divvala S,Girshick R,et al.“You onlylook once:Unified,real-time object detection.”CVPR 2016。

图5示出了根据本发明一个实施例的预定姿态估计模型500的网络结构图。如图5所示，预定姿态估计模型500包括预定神经网络结构510、第一个卷积阶段520、第二个卷积阶段530和第三个卷积阶段540。

根据本发明的一个实施例，将368×368大小的彩色图像(即图中所示“输入图像”)输入预定姿态估计模型500，在预定神经网络结构510部分包含15层卷积，每层卷积依次选取3×3、3×3、1×1、3×3、1×1、3×3、…、1×1、3×3的卷积核。最后输出特征图，特征图大小为46×46。如图5，以预定神经网络结构510的第一层卷积为例，“16×3×3,conv”表示用16个3×3的卷积核进行卷积；“2×2,pooling”表示池化步长为2(图5中关于卷积和池化的表述同此处，以下不再作重复描述)。可选地，在根据本发明的一个实施例中，采用最大值池化的方式进行池化。

而后将46×46大小的特征图输入第一个卷积阶段520，如图5所示，先采用32个1×1卷积核进行卷积，再用3×3卷积对这32个特征层进行计算，最后采用128个1×1的卷积核将维度恢复到128个。为了简化表述和画图，在图5中将重复进行的卷积处理用“方括号”标注出，并在旁边标注上重复执行的次数。如图5中第一个卷积阶段520中的“方括号”和数字“3”表示方括号所包含的三次卷积运算需依次重复执行三次，然后再采用512个1×1卷积核进行卷积运算。

同理，在第二个卷积阶段530和第三个卷积阶段540，也采用1×1和3×3的卷积核进行卷积计算，为了简化表述和画图，在图5中将重复进行的卷积处理用“方括号”标注出，并在旁边标注上重复执行的次数，此处不再重复描述。最终输出15张46×46大小的特征图(即，14个位置概率图和1个背景图)。

根据图5所提供的预定姿态估计模型500，当输入图像为300×300时，计算输出标注了关键点位置的图像的时间约为13毫秒，可见，根据本发明的预定姿态估计模型运行速度快，使在移动终端进行人体姿态估计成为可能。

本发明的实施例还提供了训练该预定姿态估计模型的步骤，以下分三步描述该训练过程。

第一步，将图像库中的图像进行尺度变换以生成预定尺寸的人体图像作为训练样本。根据本发明的一个实施例，图像库选用COCO数据集和MPII数据集，以COCO数据集为例说明，它是由微软发布的数据库,除了图片以外还提供物体检测、分割(segmentation)和对图像的语义文本描述信息。此处预定尺寸还是选取368×368大小，即，训练样本为从图像库中裁取的368×368的RGB图像块，且每个图像块都包含一个人物。通过人工标注等方式标注出训练样本中各图像的真实的人体关键点位置。

为保证训练效果，训练样本中需包含各种姿态的人物、人物在图像中所占的比例各不相同、人物在图像中与周围环境具有各种遮挡关系、以及各种拍摄角度，等等，本发明对此不作限制。

第二步，将训练样本依次输入预定神经网络结构和第一数目个卷积阶段，输出预测的人体关键点位置。如上所述，预测的人体关键点位置以位置概率图的形式标注出各关键点的位置信息。

第三，通过自适应时刻估计方法(即，Adam算法)进行梯度下降求解，学习所预测的人体关键点位置与真实的人体关键点位置，以优化该预定姿态估计模型。根据本发明的一个实施例，初始学习率设为10^-4，每迭代100000次，将学习率降低为原来的10％。

随后在步骤S360中，根据所标注的关键点位置估计人体姿态。

如前文所述，一旦检测到人体出现，在该视频的后续图像帧中就不再采用步骤S320的方式进行人体检测了，而是直接以上一图像帧的人体位置为基准，预估当前图像帧中的人体位置。

根据本发明的人体姿态估计方法具有以下优点：首先，由于采用了足够的网络参数和分卷积阶段的精细化处理，本方法的输出结果具有较高的鲁棒性，对于人物和周围环境之间的遮挡关系、人物自身动作的不确定性、以及不同衣着带来的人物多样性等，本方法都有着比较优异的估计效果。其次，本方法采用精简的网络结构作为预定姿态估计模型，算法运行速度快，用户拍摄的视频不需要传回服务器进行处理后再传给移动终端，而是可以通过移动终端本身进行实时处理。

根据本发明的人体姿态估计方法可以作为模块直接集成到移动终端的虚拟游戏、AR特效等应用中，以实时估计人体姿态，具有很高的应用价值。

应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明所述的方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种人体姿态估计方法，所述方法适于对待处理视频中的人体关键点进行标注，以提取人体姿态信息，所述方法适于在移动终端中执行，所述方法包括步骤：

获取待处理视频，并判断当前图像帧的上一图像帧的关键点位置是否存在；

若不存在上一图像帧的关键点位置，则检测当前图像帧中的人体位置，生成包含该人体位置的目标框；

若存在上一图像帧的关键点位置，根据上一图像帧中标注的人体关键点位置生成包含人体位置的初始目标框；

将所述初始目标框向外扩大预定像素数以生成当前图像帧对应的目标框；

对所生成的目标框进行尺度变换以生成预定尺寸的人体图像；

将所述预定尺寸的人体图像输入根据预定尺寸人体图像训练的预定姿态估计模型，以输出标注了人体关键点位置的图像，其中，预定姿态估计模型的训练样本中包含各种姿态的人物、人物在图像中所占的比例各不相同、人物在图像中与周围环境具有各种遮挡关系、以及各种拍摄角度；

根据所标注的关键点位置估计人体姿态；

其中，所述将预定尺寸的人体图像输入预定姿态估计网络，以输出标注了人体关键点位置的图像的步骤包括：

将预定尺寸的人体图像输入预定姿态估计网络，输出每个关键点的位置概率图和背景图；

将各关键点的位置概率图中概率值最大的位置标注为对应关键点的位置；

通过叠加所述背景图和标注的各关键点位置得到标注了人体关键点位置的图像；

其中，所述预定姿态估计模型包括：

预定神经网络结构，用于提取所述人体图像的图像特征；

第一数目个卷积阶段，用于提取本卷积阶段的图像特征，其中所述第一数目个卷积阶段依次连接、且第一个卷积阶段与所述预定神经网络结构相连接，每个卷积阶段包括多个卷积层，采用1×1和3×3的卷积核进行卷积计算。

2.如权利要求1所述的方法，其中，所述对所生成的目标框进行尺度变换以生成预定尺寸的人体图像的步骤包括：

从该目标框对应的当前图像帧中裁剪出目标框所包含的图像；以及

对所述目标框所包含的图像进行缩放处理以得到预定尺寸的人体图像。

3.如权利要求1所述的方法，还包括训练所述预定姿态估计模型的步骤：

将图像库中的图像进行尺度变换以生成预定尺寸的人体图像作为训练样本；

将所述训练样本依次输入所述预定神经网络结构和第一数目个卷积阶段，输出预测的人体关键点位置；

通过自适应时刻估计方法学习所预测的人体关键点位置与真实的人体关键点位置，以优化所述预定姿态估计模型。

4.如权利要求1所述的方法，其中，所述预定神经网络结构为tiny-YOLO网络结构。

5.如权利要求1所述的方法，其中，所述第一数目为3。

6.一种移动终端，包括：

一个或多个处理器；和

存储器；

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-5所述方法中的任一方法的指令。

7.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当移动终端执行时，使得所述移动终端执行根据权利要求1-5所述的方法中的任一方法。