CN106446844B

CN106446844B - 姿势估计方法和装置、计算机系统

Info

Publication number: CN106446844B
Application number: CN201610865522.7A
Authority: CN
Inventors: 王晓刚; 初晓; 欧阳万里; 李鸿升
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2020-01-21
Anticipated expiration: 2036-09-29
Also published as: CN106446844A

Abstract

本申请涉及一种姿势估计方法和装置、计算机系统，其中该方法包括：从输入图像中提取与对象的身体部位对应的特征，以生成特征图；基于所述对象的预定图模型，更新所述特征图；根据更新的所述特征图，建立身体部位得分图；通过所述身体部位得分图，在所述输入图像中确定出所述对象的各个身体部位的位置；以及从确定出的位置估计出所述对象的姿势。

Description

姿势估计方法和装置、计算机系统

技术领域

本申请大体涉及计算机技术领域，具体涉及计算机视觉，更具体涉及姿势估计方法、装置和计算机系统。

背景技术

现有很多工作尝试把图模型应用到的深度学习神经网络当中去。但是这些尝试都比较简单，例如，直接将图模型作为后处理以提高结果的准确性，或者联合优化预测层的图模型和神经网络。由于神经网络的预测层的信息比较少，一般来说只有一个值，代表是否是身体的某个关键点，或者根据二维的旋转角度进行聚类，得到含有二维角度的信息。但是大量的视觉上的信息就被丢失掉了，比如这个人穿什么种类的衣服，某个关键点是否被一些装饰品遮挡(例如背书包的时候，身体就基本被书包遮挡住了)。这些信息对于关键点的预测是很有帮助的，但是在预测层已经被压缩丢失掉了。

发明内容

本申请提出一种姿势估计技术方案。

本申请的一方面提供了一种姿势估计方法，其包括：从输入图像中提取与对象的身体部位对应的特征，以生成特征图；沿着所述对象的预定图模型中的第一方向和第二方向更新所述特征图，并预测出更新的所述特征图中的至少一个点处的条件边缘概率；根据预测的所述条件边缘概率建立身体部位得分图；通过所述身体部位得分图，在所述输入图像中确定出所述对象的各个身体部位的位置；以及从确定出的所述位置估计出所述对象的姿势。

本申请的另一方面提供了一种姿势估计装置，其包括：提取单元，用于从输入图像中提取与对象的身体部位对应的特征，以生成特征图；更新单元，用于沿着所述对象的预定图模型中的第一方向和第二方向更新所述特征图并预测出更新的所述特征图中的至少一个点处的条件边缘概率，以及根据预测的所述条件边缘概率建立身体部位得分图；以及估计单元，用于通过所述身体部位得分图，在所述输入图像中确定出所述对象的各个身体部位的位置，并从确定出的所述位置估计出所述对象的姿势。

本申请的另一方面还提供了一种计算机系统，其包括：

存储器，存储可执行指令；

一个或多个处理器，与存储器通信以执行可执行指令从而完成以下操作：

从输入图像中提取与对象的身体部位对应的特征，以生成特征图；

沿着所述对象的预定图模型中的第一方向和第二方向更新所述特征图，并预测出更新的所述特征图中的至少一个点处的条件边缘概率；

根据预测的所述条件边缘概率，建立身体部位得分图；

通过所述身体部位得分图，在所述输入图像中确定出所述对象的各个身体部位的位置；以及

从确定出的所述位置估计出所述对象的姿势。

本申请的又一方面提供了一种非暂时性计算机存储介质，该介质存储计算机可读指令，当这些指令被执行时使处理器执行以下操作：从输入图像中提取与对象的身体部位对应的特征，以生成特征图；基于所述对象的预定图模型，更新所述特征图；从更新的所述特征图建立身体部位得分图；通过所述身体部位得分图，在所述输入图像中确定出所述对象的各个身体部位的位置；以及从确定出的所述位置估计出所述对象的姿势。

在本申请的姿势估计方法和装置中，通过将图模型与特征图结合，从而赋予特征图概率的含义，提高了姿势估计的准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1示出了根据本申请实施方式的姿势估计方法的流程图；

图2示意性地示出了通过卷积神经网络实施根据本申请实施方式的姿势估计方法的示例性过程；

图3(a)示出了根据本申请实施方式的利用树形结构标记的人体；

图3(b)示出了根据本申请实施方式的示例性树形结构的示意图；

图3(c)示出了根据本申请实施方式的示例性第一方向的示意图；

图3(d)示出了根据本申请实施方式的示例性第二方向的示意图；

图4示出了根据本申请实施方式的姿势估计装置的示意图；以及

图5示出了适于用来实现本申请实施方式的姿势估计方法或装置的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如本申请中所使用的，术语“身体部位”旨在描述所选择的身体的部位，例如可包括但不限于头、颈、肩、膝盖、脚踝等部位，如图4(a)所示。但是，本申请并不旨在受限于本文中所公开的实施方式。例如，出于准确性或效率考虑，可包括更多或更少的身体部位、甚至完全不同的其他身体部位。

术语“特征图(feature map)”旨在代表从图像中提取的特征。特征图中的每个点对应于一个图像块，该图像块的中心为该图像中与特征图中的该点对应的点。

术语“卷积神经网络(Convolutional Neural Network)”及其缩写词“CNN”旨在表示用于机器学习的各种类型的基于卷积的神经网络，在该网络中，各神经元可以以响应于覆盖视野的重叠区域的方式进行布置。

本申请实施方式提供的姿势估计方法可以在终端设备、服务器或其他类型的电子设备上运行。

其中，终端设备包括但不限于个人电脑、智能手机、智能电视、平板电脑、个人数字助理、电子书阅读器等等。

服务器可以是提供各种服务的服务器。服务器可以响应于用户的服务请求而提供服务。可以理解，一个服务器可以提供一种或多种服务，同一种服务也可以由多个服务器来提供。在本申请的实施例中，所涉及的服务器可以包括但不限于，网页服务器、URL云查询服务器、数据统计服务器、数据挖掘服务器、推荐服务器等。

参考图1，其示出了根据本申请实施方式的姿势估计方法的示例性流程图。图1所示的方法可以在终端设备或服务器或其他类型的电子设备中执行。

在步骤100中，从输入图像中提取与对象的身体部位对应的特征，以生成特征图。该图像可以是某一静态图像，也可以是视频的某一帧图像，本申请在这方面不进行限制。本领域的技术人员应理解，可使用多种方法提取特征图。例如，可使用手动生成的特征(如方向梯度直方图和颜色直方图)借助监督分类器(如潜在支持向量机或提升的随机森林算法)来检测图像中的身体部位。根据本申请的实施方式，可通过例如但并不限于卷积神经网络(CNN)来提取特征图。在本申请中，特征图中的每个点处的数值表示CNN的一个神经元对输入图像的图像块的响应。例如，如果神经元对圆形具有更高的响应，则在特征图中出现圆形处的点可具有更大的数值。

在步骤200中，基于对象的预定图模型，更新特征图。

具体地，在本申请实施方式中，步骤200包括：

利用和积(sum-product)算法沿着对象的预定图模型中的第一方向和第二方向更新特征图，以预测出更新的特征图中的至少一个点处的条件边缘概率。

在本申请实施方式中，上述的至少一点可通过对所生成的特征图进行例如但不限于降噪处理、采样处理、滤波处理等而选择得到。

根据本申请的实施方式，预定图模型为无环模型，该无环模型中的节点与所述对象的身体部位相对应并因此还与和该身体部位相对应的特征相对应。具体地，在本申请中以一种具体的无环模型，如树形模型，为例来解释本申请，然而本领域技术人员可理解，本申请所提出的姿势估计方法也可适用于环形模型，本申请在此方面并没有限制。

此外，上述的第一方向指的是预定图模型中从叶子节点到根节点的方向，以及上述的第二方向指的是预定图模型中从根节点至叶子节点的方向。本领域技术人员应理解，本文中所使用的术语“第一”和“第二”仅用于将一个方向与另一个方向区分开，而非对其进行限定，因此在不背离本公开的教导的情况下，上述的第一方向和第二方向还可被称为第二方向和第一方向。

根据用于树形结构的和积算法，对于特征图中的点，利用树形模型中与该点对应的节点的相邻节点所对应的特征来更新该点处的值，从而更新了该特征图。

如参见图3(c)，示出了从叶子节点至根节点的第一方向，以及图3(d)，示出了从根节点至叶子节点的第二方向，其中图3(c)～(d)中的h₁，h₂，h₃，和h₄代表对象的身体部位，以及f_a，f_b，和f_c代表因子节点。根据图3(c)和图3(d)所示的过程，在特征图中，利用第一方向和第二方向上前一节点所对应的特征来更新当前节点所对应的特征。

具体地，在本申请实施方式中，步骤200实施为消息传播过程。图3(c)中所示的沿着第一方向进行消息传播过程如下所示：

以及在图3(d)中所示的沿着第二方向进行消息传播过程如下所示：

其中，公式(1)和(2)中的F代表消息传播过程中的消息，Q代表从输入图像中提取出的特征，τ表示softmax操作并且输出L维的概率分布，即进行了归一化处理，w₁，w₂，w₃，W_fa，W_fb，和W_fc为预定的系数。

在沿着第一方向和第二方向的消息传播之后，可得到以下近似分布：

其中Q(h_i)为Q(h|I,Θ)省略了I和Θ的简单写法，其中Θ为上文中所提到的预定的参数，I代表输入图像。

在得到了Q(h|I,Θ)的情况下，可通过下式近似得出特征h的条件概率值：

另外，在本申请实施方式中，通过卷积神经网络来更新特征图，然而本申请并不限于此，本领域技术人员可知还可通过其他适当的技术来更新特征图。

本领域技术人员应理解，在步骤200中，对于无环模型可通过洪泛(flooding)或串行(serial)方式来更新特征图，然而对于有环模型仅可通过洪泛(flooding)的方式来更新特征图。

继续参照图1，在步骤300中，根据更新的特征图，建立身体部位得分图。

具体地，在本申请实施方式中，步骤300包括：通过预测的条件边缘概率建立身体部位得分图。

在得到了特征图中的至少一点处的条件边缘概率p(h|I,Θ)的情况下，可通过下式来得到对象的身体部位的条件概率，从而建立多个身体部位得分图：

其中

以及

z代表对象的身体部位。

部位类型图中每个点处的数值表示该点所对应的图像块对应于该身体部位的可能性。

在步骤400中，通过上述身体部位得分图，在输入图像中确定出对象的各个身体部位的位置。

例如，对于对象的某个身体部位，可将与该身体部位对应的身体部位得分图中分值最高的点在输入图像中所对应的位置确定为该身体部位所在的位置。然而，本领域技术人员可理解，还可通过其他方式确定出身体部位的位置，例如但不限于，还可将与该身体部位对应的身体部位得分图中分值超过预定阈值的点在输入图像中所对应的位置确定为该身体部位所在的位置，或对部位类型得分图进行加权处理后选择数值最大的位置作为该身体部位的位置，或在部位类型得分图中选择具有得分极大值的位置作为该身体部位的位置等。

在步骤500中，从确定出的位置估计出对象的姿势。

在本申请实施方式中，通过在卷积神经网络的中间层(即特征提取层，也可称为特征层)中引入了图模型，并通过信息传递和归一化(如通过CNN的softmax函数进行归一化)将特征层变成有概率含义的特征层，并且通过条件随机场(CRF，Conditional RandomFields)，具体如通过上文中的公式(4)和公式(5)来处理节点之间的依赖关系，从而提高了对象姿势估计的准确率。

此外，在本申请实施方式中，对象的预定图模型被应用至卷积神经网络的特征层，并通过卷积神经网络的卷积层更新了特征图。

参照图2，其中示出了通过卷积神经网络实施根据本申请实施方式的姿势估计方法的示例性过程。图2与图1所示的流程图相对应，因此各个过程的具体描述可参见图1中各步骤的描述，本文中不再重复。在图2的过程(1)中，通过例如VGG模型从输入图片I中提取特征f，整个模型都是通过卷积神经网络框架caffe来实现；

在图2的过程(2.1)中，特征f被分成若干组，通过

来表示，每组对应人身体的一个关键点；

过程(2.1)中得到的

是一组没有概率含义的特征，然而在图2的过程(2.2)中，通过归一化使得每组特征都有概率含义；

在图2的过程(3)中，通过消息传播过程去建立起来隐藏层(hidden layer)和预测层之间的关系

以及两组特征值之间的关系

然后，预测层利用得到的

输出预测结果。图2中z表示身体部位的位置。

进一步参考图4，作为对上述各图所示方法的实现，本申请提供了一种姿势估计装置，该装置与图1所示的方法相对应，该装置具体可以应用于各种电子设备中。

如图4所示，根据本实施方式的装置400包括：提取单元401，更新单元402，以及估计单元403。

提取单元401从输入图像中提取与对象的身体部位对应的特征，以生成特征图。

更新单元402基于对象的预定图模型更新特征图，并从更新的特征图建立身体部位得分图。

估计单元403通过身体部位得分图，在输入图像中确定出对象的各个身体部位的位置，并从确定出的上述位置估计出该对象的姿势。

具体地，根据本申请实施方式，更新单元402，利用和积算法沿着上述对象的预定图模型中的第一方向和第二方向更新上述特征图，以预测更新的特征图中的至少一个点处的条件边缘概率，并且通过预测的条件边缘概率建立身体部位得分图。

根据本申请的实施方式，预定图模型为无环模型，该无环模型中的节点与所述对象的身体部位相对应并因此还与和该身体部位相对应的特征相对应。具体地，在本申请中以一种具体的无环模型，即树形模型，为例来解释本发明，然而本领域技术人员可理解，本申请所提出的姿势估计方法也可适用于环形模型，本申请在此方面并没有限制。

此外，上述的第一方向指的是预定图模型中从叶子节点到根节点的方向，以及上述的第二方向指的是预定图模型中从根节点至叶子节点的方向。

根据本申请实施方式，对于上述特征图中的点，更新单元402利用无环模型中与该点对应的节点的相邻节点所对应的特征来更新上述的特征图。

另外，在本申请实施方式中，更新单元402利用卷积神经网络来更新特征图，然而本申请并不限于此，本领域技术人员可知还可通过其他适当的技术来更新特征图。

根据本申请实施方式，更新单元402还可将对象的预定图模型应用至卷积神经网络的特征层，并通过卷积神经网络的卷积层更新特征图。

下面参考图5，其示出了适于用来实现本申请实施例的姿势估计方法或装置的计算机系统5000的结构示意图。

如图5所示，计算机系统5000包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的

程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501或图像处理单元(GPU)执行时，执行本申请的方法中限定的上述功能。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括提取单元、更新单元、和估计单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，提取单元还可以被描述为“从输入图像中提取与对象的身体部位对应的特征，以生成特征图的单元”。

作为另一方面，本申请还提供了一种非易失性计算机存储介质，该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质；也可以是单独存在，未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序，当所述一个或者多个程序被一个设备执行时，使得所述设备：从输入图像中提取与对象的身体部位对应的特征，以生成特征图；基于所述对象的预定图模型，更新所述特征图；根据更新的特征图，建立身体部位得分图；通过所述身体部位得分图，在所述输入图像中确定出所述对象的各个身体部位的位置；以及从确定出的位置估计出所述对象的姿势。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种姿势估计方法，其特征在于，所述方法包括：

根据预测的所述条件边缘概率，建立身体部位得分图；

从确定出的所述位置估计出所述对象的姿势。

2.根据权利要求1所述的方法，其特征在于，沿着所述对象的预定图模型中的第一方向和第二方向更新所述特征图的步骤包括：

利用和积算法沿着所述预定图模型中的第一方向和第二方向更新所述特征图。

3.根据权利要求2所述的方法，其特征在于，

所述预定图模型为无环模型，所述无环模型中的节点与所述对象的身体部位相对应并与和该身体部位相对应的特征相对应；以及

所述第一方向为从叶子节点到根节点的方向，以及所述第二方向为从根节点至叶子节点的方向。

4.根据权利要求3所述的方法，其特征在于，利用和积算法沿着所述对象的预定图模型中的第一方向和第二方向更新所述特征图的步骤包括：

对于所述特征图中的点，利用所述无环模型中与该点对应的节点的相邻节点所对应的特征，更新所述特征图。

5.根据权利要求1-4任一所述的方法，其特征在于，基于所述对象的预定图模型，更新所述特征图的步骤包括：

基于所述对象的预定图模型，通过卷积神经网络更新所述特征图。

6.根据权利要求5所述的方法，其特征在于，基于所述对象的预定图模型，通过卷积神经网络更新所述特征图的步骤包括：将所述对象的预定图模型应用至所述卷积神经网络的特征层，并通过所述卷积神经网络的卷积层更新所述特征图。

7.一种姿势估计装置，其特征在于，所述装置包括：

提取单元，用于从输入图像中提取与对象的身体部位对应的特征，以生成特征图；

更新单元，用于沿着所述对象的预定图模型中的第一方向和第二方向更新所述特征图并预测出更新的所述特征图中的至少一个点处的条件边缘概率，以及根据预测的所述条件边缘概率建立身体部位得分图；以及

估计单元，用于通过所述身体部位得分图，在所述输入图像中确定出所述对象的各个身体部位的位置，并从确定出的所述位置估计出所述对象的姿势。

8.根据权利要求7所述的装置，其特征在于，所述更新单元还用于：

9.根据权利要求8所述的装置，其特征在于，

10.根据权利要求9所述的装置，其特征在于，对于所述特征图中的点，所述更新单元利用所述无环模型中与该点对应的节点的相邻节点所对应的特征来更新所述特征图。

11.根据权利要求7所述的装置，其特征在于，所述更新单元基于所述对象的预定图模型通过卷积神经网络来更新所述特征图。

12.根据权利要求11所述的装置，其特征在于，所述更新单元将所述对象的预定图模型应用至所述卷积神经网络的特征层，并通过所述卷积神经网络的卷积层更新所述特征图。

13.一种计算机系统，其特征在于，包括：

存储器，存储可执行指令；

根据预测的所述条件边缘概率，建立身体部位得分图；

从确定出的所述位置估计出所述对象的姿势。