CN105740450A

CN105740450A - 一种基于多台Kinect的3D人体姿态数据库构建方法

Info

Publication number: CN105740450A
Application number: CN201610075712.9A
Authority: CN
Inventors: 童若锋; 李承扬; 陈可立; 聂迎
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-02-03
Filing date: 2016-02-03
Publication date: 2016-07-06

Abstract

本发明公开了一种基于多台Kinect的3D人体姿态数据库构建方法。是利用多台Microsoft Kinect摄像头采集数据，处理及重建得到多个视角同步的包含准确3D骨架、彩色图上2D骨架、剪影图、彩色图、深度图的人体姿态数据库。该方法包含如下步骤：a.原始数据采集：多台Kinect在不同视角下伪同步采集记录原始数据流；b.极少量人机交互，实现多台Kinect精准同步和准确标定；c. 自动批量完成多个视角下人体剪影分割；d.3D骨架重建：整合多台Kinect独立采集的人体骨架，根据多台Kinect的骨架捕捉质量，采用不同优化策略进行3D骨架重建；e.根据同步信息和骨架捕捉质量，对剪影图、彩色图、深度图进行筛选并存储为最终数据库的姿态数据。该方法已经成功用于构建包含50万幅人体姿态的数据库，可行性和鲁棒性得到充分验证。

Description

一种基于多台Kinect的3D人体姿态数据库构建方法

技术领域

本发明属于计算机视觉领域，特别涉及到一种基于多台Kinect的3D人体姿态数据库构建方法。

背景技术

从图像或视频重建3D人体姿态，一直以来是计算机视觉的热点问题，在安保监控、康复医学、娱乐互动等广泛领域都有着应用前景。近年来，在视觉期刊、会议上提出了多种3D人体姿态重建方法，尤其是深度学习框架下对3D人体姿态估计的方法，需要一个姿态数量庞大的人体姿态数据库用作模型的测试和训练。数据库需要包含准确的3D人体骨架。人体骨架有两种表示方法，一是通过各关节点3D坐标表示，二是通过预测量得到的人体骨骼长度和身体各部分间链接的欧拉角表示。此外根据3D人体姿态重建方法选择的不同输入，也可能需要彩色图像、深度图像、人体剪影等信息。

在计算机视觉领域，现有的2D人体姿态数据库有ParseDataset、LeedsSportsPoseDataset、LeedsSportsPoseDatasetextended、UIUCpeople等，这些数据库中的2D人体骨架是通过人工进行标注的。

而3D人体姿态数据库，目前常用的有3个：

1.CMUGraphicsLabMotionCaptureDatabase（http://mocap.cs.cmu.edu/）；

2.HumanEvaDataset（2010IJCV，HumanEva:Synchronizedvideoandmotioncapturedatasetandbaselinealgorithmforevaluationofarticulatedhumanmotion）；

3.Human3.6M(2014PAMI，Human3.6M:LargeScaleDatasetsandPredictiveMethodsfor3DHumanSensinginNaturalEnvironments)

这3个数据库的构建方式，无一例外都是使用美国威康（Vicon）公司的解决方案（http://www.vicon.com/what-is-motion-capture），即不同角度架设多个红外摄像头，被拍摄者身穿紧身衣并在关键关节点上穿戴红外反光片，采用光学被动式采集，采集完毕后经过离线后处理得到姿态数据。用这个技术采集骨架，尽管很准确，但是价格非常高昂，是绝大多数高校或研究团队无力承担的。并且这些数据库中包含的人体姿态有限，如果想要进行其它方面的研究，只用这些数据库是不足够的。此外，穿紧身衣并在关键关节点上穿戴红外反光片的设定，对拍摄对象有较大限制。基于这两个因素，研究一套新的人体姿态数据库的构建方法和系统是迫切需要的。

微软在2010年发售了消费者级别的体感设备Kinect，其中集成了彩色、红外摄像头，并支持对人体骨架的捕捉。使用Kinect可以同步捕捉到3D骨架、彩色帧、深度帧、索引帧。微软在2014年发售了新一代Kinect，彩色、红外摄像头的分辨率和成像质量有所提高，对3D骨架识别的准确性也有改善。2013年CVPR的文章“UnconstrainedMonocular3DHumanPoseEstimationbyActionDetectionandCross-modalityRegressionForest”，其中在实验部分，用单台Kinect采集得到了action-pose-estimation(APE)dataset，也得到了预期的实验结果。之所以用单台Kinect采集3D人体骨架，是因为已有数据库不能够很好地用来测试文章的切入点。但是，用单台Kinect采集3D人体骨架，存在2个问题:(1)Kinect利用红外摄像头捕捉到的红外光栅影像，重建出深度图像，再由深度图像根据骨架识别算法得到识别骨架，因为深度图像并不稳定，深度值存在跳变，因此由Kinect得到的原始骨架也是存在跳变的；（2）当存在自遮挡的情况时，Kinect无法从深度图中直接获取被遮挡部位的信息，而是根据其它关节点信息预测被遮挡关节点位置，然而大多数情况下，预测的关节点位置都是不准确的。从这个工作的实践情况可见，采用Kinect构建人体姿态数据库是可行，但是需要进行采集方式和后处理上的改良，才能达到人体姿态数据库的精度标准。

上述领域的一些技术成果为我们开发基于多台Kinect的3D人体姿态数据库构建方法提供了坚实的技术基础，也为开发一种高质量、高效率、低成本的3D人体姿态数据库构建方法和系统提供了技术支撑。

发明内容

本发明需要解决的技术问题是针对已有3D人体姿态数据库，或者高成本，或者低成本却精度度不够等问题，提出一种新的人体姿态数据库构建的解决方法。数据库包含同步的准确3D骨架、剪影图、彩色图和深度图。该方法采用多台Kinect在不同视角下伪同步采集记录原始数据流，通过极少量人机交互，完成多台Kinect精准同步、准确标定和人体剪影分割，根据多台Kinect的骨架的捕捉质量，灵活选择不同优化策略进行3D骨架重建，最后依据骨架捕捉质量筛选出有效姿态存储到最终构建的数据库中。

为了实现本发明的目的，我们依靠以下技术方案来实现：

a.原始数据采集：多台Kinect在不同视角下伪同步采集记录原始数据流；

b.极少量人机交互，实现多台Kinect精准同步和准确标定；

c.自动批量完成多个视角下人体剪影分割；

d.3D骨架重建：整合多台Kinect独立采集的人体骨架，根据多台Kinect的骨架捕捉质量，采用不同优化策略进行3D骨架重建；

e.根据同步信息和骨架捕捉质量，对剪影图、彩色图、深度图进行筛选并存储为最终数据库的姿态数据。

本发明的有益效果为：本方法能够用于大规模采集3D人体姿态数据库。与Vicon公司穿戴式解决方案相比，系统搭建成本远远降低；与单台Kinect直接捕捉人体姿态相比，基于多台Kinect的解决方案精度大大提高，且能够处理一定的自遮挡情况。此外，本方法系统搭建简单，人工干预少。虽然从从每台Kinect得到的原始3D骨架的质量可能不是很好，但经过重建算法处理后，重建得到的3D骨架的精度能够满足3D人体姿态数据库的要求。总的来说，本方法为低成本、高精度、高效率地构建3D人体姿态数据库提供了一个全新的解决方案。本系统已经成功用于构建包含50万幅人体姿态的数据库，可行性和鲁棒性得到充分验证。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明:

图1为基于多台Kinect的3D人体姿态数据库构建方法流程图

图2为本发明中进行3D骨架重建选择不同策略的决策图。

具体实施方式

参照图1，表示基于多台Kinect的3D人体姿态数据库构建方法流程图，图中表示的步骤为：

a.原始数据采集：多台Kinect在不同视角下伪同步采集记录原始数据流。根据测试结果，最少3台Kinect就可以满足本系统的硬件条件。如果希望360°角捕捉人体姿态，可以将3台Kinect两两呈约120°角放置；如果拍摄场地有限或者拍摄者身体朝向限制在正前向或侧向，则可以将3台Kinect架设在正前方、左前方和右前方，其中左前方和右前方的Kinect与正前方的Kinect呈约60°角放置。每台Kinect分别记录彩色图像、深度图像、3D骨架和彩色图上的2D骨架。

b.极少量人机交互，实现多台Kinect精准同步和准确标定。这样的交互操作在每次搭建硬件设备采集时只要进行一次，因此是极少量的人工干预。人机交互包含两部分：第一，将伪同步采集的多个摄像头的图像的时间精度进行一次审核，确保同步到帧；第二，利用Kinect彩色图和深度图，用棋盘格标定相机之间的外参。

c.自动批量完成多个视角下人体剪影分割，背景剪除或者绿抠等都是可选择的方法。

d.3D骨架重建：整合多台Kinect独立采集的人体骨架，根据多台Kinect的骨架捕捉质量，采用不同优化策略进行3D骨架重建。外选择不同优化策略的判定依据是每台Kinect对关节点捕捉的质量:是成功捕捉到，还是没有捕捉到但是预测得出。捕捉的质量的标识在Kinect的骨架数据流中提供。此外，多台Kinect中视角最优的一台被预先指定为主视角，拥有高优先级的决策权。具体决策细节在图2中有详细描述。

e.根据同步信息和骨架捕捉质量，对剪影图、彩色图、深度图进行筛选。筛选的依据是多个摄像头同时成功采集到该帧（都没有丢帧），并且视角中都有被拍摄者全身。不满足标准的帧被滤除，剩下的帧重新编号后，存储为最终数据库的姿态数据。本方法已经成功用于构建包含50万幅人体姿态的数据库，可行性和鲁棒性得到充分验证。

参照图2，表示本发明中进行3D骨架重建选择不同策略的决策图。对每帧每个关节点处理时，各个阶段算法处理的输入、输出、流程等都有很明确的描述。

Claims

1.一种基于多台Kinect的3D人体姿态数据库构建方法，其特征在于：该方法包含如下步骤：

b.极少量人机交互，实现多台Kinect精准同步和准确标定；

c.自动批量完成多个视角下人体剪影分割；

2.根据权利要求１所述的一种基于多台Kinect的3D人体姿态数据库构建方法，其特征在于：利用多台Kinect独立采集的人体骨架数据，根据Kinect的骨架捕捉质量，采用不同优化策略进行3D骨架重建。

3.根据权利要求１所述的一种基于多台Kinect的3D人体姿态数据库构建方法，其特征在于：根据同步信息和骨架捕捉质量，对剪影图、彩色图、深度图进行筛选并存储为最终数据库的姿态数据。