CN108038465A

CN108038465A - 一种基于合成数据集的三维多人物姿态估计

Info

Publication number: CN108038465A
Application number: CN201711423282.6A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-05-15

Abstract

本发明中提出的一种基于合成数据集的三维多人物姿态估计，其主要内容包括：人体姿势分层骨架、姿势推断和网络构架，其过程为，先给定RGB图像，分别估计图像中多人物的三维姿势，相对于它们的参考关节编码关节位置，接着利用遮挡鲁棒位置图的特殊读取方案将身体分解成躯干、四肢和头部并建立矢量，读出相应的肢体姿势，最后通过读取优先级和二维关节验证的策略对三维姿势进行推断。本发明使用现有的单人三维数据的合成方法创建了新的带注释的多人数据集，不需要边界框提取，即可预测二维和三维的关节位置，即使是复杂的多人物场景和遮挡情况，也能有效预测人物姿态；多人物姿态估计的实现将大大有利于实际场景中人物姿态的估计。

Description

一种基于合成数据集的三维多人物姿态估计

技术领域

本发明涉及姿态估计领域，尤其是涉及了一种基于合成数据集的三维多人物姿态估计。

背景技术

人体检测及姿态估计是计算机视觉领域中进行行为识别的重要基础和研究热点之一。人物姿态估计具有很高的应用价值，例如，人物姿态估计系统可以从图像中检测出人物所在的位置，进而分析出该人物的一些附加信息(姿态、年龄、性别、表情、身份和行为等)。通过对人物姿态进行识别和估计，可以减轻分析视频中人物姿态的工作人员的工作量，减少时间、财力和物力的花费。

人体姿态估计可以应用在智能视频监控领域，通过分析视频中人物所在的位置、人物的姿态、神态表情、行为以及其他身份信息，可以帮助侦查人员对人物身份做出判断并预测其行为，若该行为为危险或有害行为，将提示警务人员进行及时制止；在智能交通领域，通过自动检测车辆周围各个方向的行人并估计其姿态，通过车速、车与人的距离以及行人的姿态来判断汽车与行人是否会在某一时刻发生触碰，如有发生触碰的可能，则可以及时提醒驾驶员注意车辆周围行人，及时调整车速和方向等；在人机交互领域，通过摄像头拍摄的人物图像，可以分析出人物的位置、姿态、行为、表情、年龄等信息，从而可以为用户提供更加人性化、智能化的服务。然而，传统的人物姿态估计难以处理当人物身体出现自遮挡、多人物间的互相遮挡以及其他物体对人物的遮挡的情况，其中多人物的姿态估计更是没有多样的数据集可以用于训练，使得该技术难以实现有效的突破。

本发明提出了一种基于合成数据集的三维多人物姿态估计，先给定RGB图像，分别估计图像中多人物的三维姿势，相对于它们的参考关节编码关节位置，接着利用遮挡鲁棒位置图的特殊读取方案将身体分解成躯干、四肢和头部并建立矢量，读出相应的肢体姿势，最后通过读取优先级和二维关节验证的策略对三维姿势进行推断。本发明使用现有的单人三维数据的合成方法创建了新的带注释的多人数据集，不需要边界框提取，即可预测二维和三维的关节位置，即使是复杂的多人物场景和遮挡情况，也能有效预测人物姿态；多人物姿态估计的实现将大大有利于实际场景中人物姿态的估计。

发明内容

针对难以处理当人物身体出现自遮挡、多人物间的互相遮挡以及其他物体对人物的遮挡等问题，本发明的目的在于提供一种基于合成数据集的三维多人物姿态估计，先给定RGB图像，分别估计图像中多人物的三维姿势，相对于它们的参考关节编码关节位置，接着利用遮挡鲁棒位置图的特殊读取方案将身体分解成躯干、四肢和头部并建立矢量，读出相应的肢体姿势，最后通过读取优先级和二维关节验证的策略对三维姿势进行推断。

为解决上述问题，本发明提供一种基于合成数据集的三维多人物姿态估计，其主要内容包括：

(一)人体姿势分层骨架；

(二)姿势推断；

(三)网络构架。

其中，所述的人体姿势分层骨架，给定RGB图像分别估计图像中m个人的三维姿势其中，描述了人物i的n(n＝17)个身体关节的三维位置；关节位置是相对于它们的参考关节编码的；利用由网络预测的二维关节热点图编码图像中每个关节类型j的检测置信度；此外，预测部分亲和字段它为每个身体部分编码一个二维矢量字段，表示从父节点指向其子节点的方向；当场景中有多个人时，这有助于将二维检测与个人身份联系起来。

进一步地，所述的编码，网络预测的每个关节j的三维位置在和表示的位置图中编码，其中，h＝H/4；本方法预测了固定数量的图，包括n个热点图、3n个位置图和2n个部分亲和字段，所用的多人物姿态编码称为遮挡鲁棒位置图(ORLM)。

进一步地，所述的遮挡鲁棒位置图(ORLM)，ORLM具有两个特点：(1)它们需要一个特殊的读取方案，使得本方法对身体的部分遮挡具有鲁棒性；(2)编码多人物的姿势，而不需要可变数量的输出；

特殊的读取方案将身体分解成躯干、四肢和头部，表示为包含所有关节位置的矢量的完整姿态；将肢体姿态表示为与肢体相对应的姿态参数的一部分，例如，左臂的肢体姿势是由两个三维矢量偏移组成的6个参数的矢量：肩肘和肘腕；ORLM在躯干和颈部的位置可以读出完整的姿势，在手腕、肘部、脚踝和膝盖位置也可以读出相应的肢体姿势。

其中，所述的姿势推断，来自ORLM的多人物三维姿态推断是基于成功的二维关节位置推断和关联而预测的；推断图像中每个人i的二维关节位置和关节检测置信度利用预测的热点图和部分亲和字段完成二维关节到人的联系；用ORLM对三维姿势进行推断。

进一步地，所述的三维姿势推断，使用二维身体关节位置和身体关节检测置信度来推断场景中所有人的三维姿势；由于出现了遮挡现象，在二维检测中三维关节位置的读取方案不能实现，因此提出了两种处理遮挡的策略：读取优先级和二维关节验证。

进一步地，所述的读取优先级，根据ORLM，可以读出在不同像素位置处的关节预测，定义极端关节(包括手腕和脚踝)和中间关节(包括肘部和膝盖)；颈部和躯干关节二维检测通常是可靠的，这些关节最常闭合，并且位于身体中部；因此，从脖子的位置开始读取完整的姿势；如果颈部无效，则在骨盆处读取完整的姿势；如果两个关节都是无效的，则认为此人在场景中是不可见的，因此不预测其姿势；在骨盆和颈部读取的姿势往往更接近训练数据的平均姿势；因此，对于每一个肢体，继续读取肢体关节处的肢体姿势；如果四肢关节有效，则肢体姿势将取代全姿势的相应元素；如果肢体关节无效，则尝试读出中间关节的肢体姿势；如果中间关节有效，则肢体姿势取代了全姿势的相应元素；如果中间关节也是无效的，则肢体姿势的预测将读取来自颈部或骨盆全姿势；具有优先级的推理策略使得遮挡问题被有效解决。

进一步地，所述的二维关节验证，检查选定的二维关节，并将其标记为有效，如果它满足“不被遮挡”，即具有高于阈值的置信度值，并且与另一个人的类似关节距离足够远，则根据读取的优先级查找相应的三维姿势；否则，将返回上一级的肢体关节(例如脚踝或肘部)，直到满足上述条件；即使没有任何可见的肢体关节，仍然可以基于躯干读数来估计合理的三维姿势。

其中，所述的网络构架，网络基于ResNet-50(深度残差网络)，原始的体系结构保存到res4f，之后将其分成两个二维姿势亲和流和一个三维姿势流；二维姿势亲和流预测了身体关节集合的二维热点图以及部分亲和字段

三维姿势流预测三维姿态位置图和以及二维热点图它与MS-COCO(数据集)关节集合有一些重叠，但是不包括面部关键点注释，而包括手、脚趾和脊柱的注释。

进一步地，所述的二维热点图，二维热点图和用每像素L2损失进行训练，部分亲和字段类似地用每像素L2损失进行训练；根据每个关节类型，对于场景中的所有主体，在所有二维关节位置的邻域中都可以执行每个像素的L2损失，其中可以读取这个特定关节的三维姿势；这个损失是由一个高斯函数加权的，其集中在二维的关节位置上。

附图说明

图1是本发明一种基于合成数据集的三维多人物姿态估计的系统框架图。

图2是本发明一种基于合成数据集的三维多人物姿态估计的人体姿势分层骨架。

图3是本发明一种基于合成数据集的三维多人物姿态估计的遮挡鲁棒位置图。

图4是本发明一种基于合成数据集的三维多人物姿态估计的网络构架。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于合成数据集的三维多人物姿态估计的系统框架图。主要包括人体姿势分层骨架，姿势推断和网络构架

姿势推断，来自ORLM的多人物三维姿态推断是基于成功的二维关节位置推断和关联而预测的；推断图像中每个人i的二维关节位置和关节检测置信度利用预测的热点图和部分亲和字段完成二维关节到人的联系；用ORLM对三维姿势进行推断。

使用二维身体关节位置和身体关节检测置信度来推断场景中所有人的三维姿势；由于出现了遮挡现象，在二维检测中三维关节位置的读取方案不能实现，因此提出了两种处理遮挡的策略：读取优先级和二维关节验证。

读取优先级，根据ORLM，可以读出在不同像素位置处的关节预测，定义极端关节(包括手腕和脚踝)和中间关节(包括肘部和膝盖)；颈部和躯干关节二维检测通常是可靠的，这些关节最常闭合，并且位于身体中部；因此，从脖子的位置开始读取完整的姿势；如果颈部无效，则在骨盆处读取完整的姿势；如果两个关节都是无效的，则认为此人在场景中是不可见的，因此不预测其姿势；在骨盆和颈部读取的姿势往往更接近训练数据的平均姿势；因此，对于每一个肢体，继续读取肢体关节处的肢体姿势；如果四肢关节有效，则肢体姿势将取代全姿势的相应元素；如果肢体关节无效，则尝试读出中间关节的肢体姿势；如果中间关节有效，则肢体姿势取代了全姿势的相应元素；如果中间关节也是无效的，则肢体姿势的预测将读取来自颈部或骨盆全姿势；具有优先级的推理策略使得遮挡问题被有效解决。

二维关节验证，检查选定的二维关节，并将其标记为有效，如果它满足“不被遮挡”，即具有高于阈值的置信度值，并且与另一个人的类似关节距离足够远，则根据读取的优先级查找相应的三维姿势；否则，将返回上一级的肢体关节(例如脚踝或肘部)，直到满足上述条件；即使没有任何可见的肢体关节，仍然可以基于躯干读数来估计合理的三维姿势。

图2是本发明一种基于合成数据集的三维多人物姿态估计的人体姿势分层骨架。给定RGB图像分别估计图像中m个人的三维姿势其中，描述了人物i的n(n＝17)个身体关节的三维位置；关节位置是相对于它们的参考关节编码的；利用由网络预测的二维关节热点图编码图像中每个关节类型j的检测置信度；此外，预测部分亲和字段它为每个身体部分编码一个二维矢量字段，表示从父节点指向其子节点的方向；当场景中有多个人时，这有助于将二维检测与个人身份联系起来。

网络预测的每个关节j的三维位置在和表示的位置图中编码，其中，h＝H/4；本方法预测了固定数量的图，包括n个热点图、3n个位置图和2n个部分亲和字段，所用的多人物姿态编码称为遮挡鲁棒位置图(ORLM)。

图3是本发明一种基于合成数据集的三维多人物姿态估计的遮挡鲁棒位置图。遮挡鲁棒位置图(ORLM)具有两个特点：(1)它们需要一个特殊的读取方案，使得本方法对身体的部分遮挡具有鲁棒性；(2)编码多人物的姿势，而不需要可变数量的输出；

图4是本发明一种基于合成数据集的三维多人物姿态估计的网络构架。网络基于ResNet-50(深度残差网络)，原始的体系结构保存到res4f，之后将其分成两个二维姿势亲和流和一个三维姿势流；二维姿势亲和流预测了身体关节集合的二维热点图以及部分亲和字段

二维热点图和用每像素L2损失进行训练，部分亲和字段类似地用每像素L2损失进行训练；根据每个关节类型，对于场景中的所有主体，在所有二维关节位置的邻域中都可以执行每个像素的L2损失，其中可以读取这个特定关节的三维姿势；这个损失是由一个高斯函数加权的，其集中在二维的关节位置上。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于合成数据集的三维多人物姿态估计，其特征在于，主要包括人体姿势分层骨架(一)；姿势推断(二)；网络构架(三)。

2.基于权利要求书1所述的人体姿势分层骨架(一)，其特征在于，给定RGB图像分别估计图像中m个人的三维姿势其中，描述了人物i的n(n＝17)个身体关节的三维位置；关节位置是相对于它们的参考关节编码的；利用由网络预测的二维关节热点图编码图像中每个关节类型j的检测置信度；此外，预测部分亲和字段它为每个身体部分编码一个二维矢量字段，表示从父节点指向其子节点的方向；当场景中有多个人时，这有助于将二维检测与个人身份联系起来。

3.基于权利要求书2所述的编码，其特征在于，网络预测的每个关节j的三维位置在和表示的位置图中编码，其中，h＝H/4；本方法预测了固定数量的图，包括n个热点图、3n个位置图和2n个部分亲和字段，所用的多人物姿态编码称为遮挡鲁棒位置图(ORLM)。

4.基于权利要求书3所述的遮挡鲁棒位置图(ORLM)，其特征在于，ORLM具有两个特点：(1)它们需要一个特殊的读取方案，使得本方法对身体的部分遮挡具有鲁棒性；(2)编码多人物的姿势，而不需要可变数量的输出；

5.基于权利要求书1所述的姿势推断(二)，其特征在于，来自ORLM的多人物三维姿态推断是基于成功的二维关节位置推断和关联而预测的；推断图像中每个人i的二维关节位置和关节检测置信度利用预测的热点图和部分亲和字段完成二维关节到人的联系；用ORLM对三维姿势进行推断。

6.基于权利要求书5所述的三维姿势推断，其特征在于，使用二维身体关节位置和身体关节检测置信度来推断场景中所有人的三维姿势；由于出现了遮挡现象，在二维检测中三维关节位置的读取方案不能实现，因此提出了两种处理遮挡的策略：读取优先级和二维关节验证。

7.基于权利要求书6所述的读取优先级，其特征在于，根据ORLM，可以读出在不同像素位置处的关节预测，定义极端关节(包括手腕和脚踝)和中间关节(包括肘部和膝盖)；颈部和躯干关节二维检测通常是可靠的，这些关节最常闭合，并且位于身体中部；因此，从脖子的位置开始读取完整的姿势；如果颈部无效，则在骨盆处读取完整的姿势；如果两个关节都是无效的，则认为此人在场景中是不可见的，因此不预测其姿势；在骨盆和颈部读取的姿势往往更接近训练数据的平均姿势；因此，对于每一个肢体，继续读取肢体关节处的肢体姿势；如果四肢关节有效，则肢体姿势将取代全姿势的相应元素；如果肢体关节无效，则尝试读出中间关节的肢体姿势；如果中间关节有效，则肢体姿势取代了全姿势的相应元素；如果中间关节也是无效的，则肢体姿势的预测将读取来自颈部或骨盆全姿势；具有优先级的推理策略使得遮挡问题被有效解决。

8.基于权利要求书6所述的二维关节验证，其特征在于，检查选定的二维关节，并将其标记为有效，如果它满足“不被遮挡”，即具有高于阈值的置信度值，并且与另一个人的类似关节距离足够远，则根据读取的优先级查找相应的三维姿势；否则，将返回上一级的肢体关节(例如脚踝或肘部)，直到满足上述条件；即使没有任何可见的肢体关节，仍然可以基于躯干读数来估计合理的三维姿势。

9.基于权利要求书1所述的网络构架(三)，其特征在于，网络基于ResNet-50(深度残差网络)，原始的体系结构保存到res4f，之后将其分成两个二维姿势亲和流和一个三维姿势流；二维姿势亲和流预测了身体关节集合的二维热点图以及部分亲和字段

10.基于权利要求书9所述的二维热点图，其特征在于，二维热点图和用每像素L2损失进行训练，部分亲和字段类似地用每像素L2损失进行训练；根据每个关节类型，对于场景中的所有主体，在所有二维关节位置的邻域中都可以执行每个像素的L2损失，其中可以读取这个特定关节的三维姿势；这个损失是由一个高斯函数加权的，其集中在二维的关节位置上。