CN104680188B

CN104680188B - 一种人体姿态基准图像库的构建方法

Info

Publication number: CN104680188B
Application number: CN201510130785.9A
Authority: CN
Inventors: 覃剑; 王美华; 韩亮; 蒲秀娟
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2015-03-24
Filing date: 2015-03-24
Publication date: 2018-04-27
Anticipated expiration: 2035-03-24
Also published as: CN104680188A

Abstract

本发明公开了一种人体姿态基准图像库的构建方法，该方法将不同的人体姿态动作按序构建成诱导视频游戏，玩家按照诱导视频游戏执行相应的动作，并利用图像采集设备获取玩家在预置时间点或预置事件处的姿态图像，将不同玩家在相同时间点或相同事件处的姿态图像分为一类，对同一类中的多个姿态图像进行特征提取和聚类分析，删除置信度低的姿态图像，将留下的置信度高的姿态图像与诱导视频中对应时间点或对应事件处的人体姿态动作关联并标注，建立人体姿态基准图像库。其显著效果是：无需搜集大量人体姿势图片、再进行人工筛选和标定，节省了大量的人力物力，同时不需要使用复杂的人体姿势识别算法，提高了效率。

Description

一种人体姿态基准图像库的构建方法

技术领域

本发明涉及到人工智能技术领域，具体地说，是一种人体姿态基准图像库的构建方法。

背景技术

在人工智能领域，人体姿势识别有着重要的理论研究和工程实践价值。一个样本丰富且高质量的人体姿势基准图像库是进行人体姿态识别研究的基础工具，可用于算法训练、测试和验证，以推动人体姿势识别技术的发展。

目前，得到人体姿势基准数据库的主要方法有两种：一是选取大量图片，通过人为手动标定的方式得到姿势数据库；二是选取大量图片，通过一些人体姿势识别算法对图片进行分类，从而得到人体姿势基准数据库。上述方法一的局限性在于：首先需要收集并选取大量图片，需要花费一定的人力物力。对于这些图片，还需要通过人为的姿势判断来确定其类别，这样必然会消耗更多的时间与资源。并且人为判断姿势还会收到一些主观因素的干扰，这也会影响最终的人体姿势基准数据库的质量。

上述方法二的局限性同方法一，也是海量图片的选择会耗费不少资源。同时目前人工智能领域的大多数人体姿态识别算法还存在着不少缺陷：现在人体动作姿态的识别主要集中在简单的人体动作姿态上，如人的某些标准姿态和一些简单的动作行为，如走、跑、蹲、站等简单规范的动作，难以识别一些复杂的姿势；利用机器学习工具进行人体动作行为的识别还处于初级阶段，在识别过程中对人体运动的模型需要增加约束条件来减少歧义性，而这些约束条件与一般的现实情形通常是不吻合的。而且通过姿势识别算法来生成姿势基准数据库还存在着特征选择困难的问题，特征的选择对于算法计算的复杂度和识别准确率均有较大的影响。

比如中国专利CN201010120591公开了一种“视频场景库生成方法及系统、搜索视频场景的方法及系统”，其主要介绍了一种生成视频场景库的方法，这种方法的主要思路是：首先对视频文件里的视频场景进行时间锚点标注和字幕附注，并提取标注的字幕段存入字幕库，然后根据标注的时间锚点对对应的视频文件进行冗余切割，截取该字幕对应的视频场景片段，存入视频场景片段库，最终建立字幕库里的字幕段和视频场景库里的视频场景片段的对应关系。该方法类似于通过人为手动标定的方式得到姿势数据库的方法，虽然可以为用户方便快捷地找到目标视频场景片段做好数据支持，但是在对视频库中的视频场景进行时间锚点标注和字幕附注时，会耗费大量的时间与人力，也有可能造成一些主观误差，影响最终生成的数据库的质量。

发明内容

针对现有技术的不足，本发明的目的是提供一种人体姿态基准图像库的构建方法，该方法采集视频游戏引导下的玩家姿态图像，并对图像采用聚类的方法生成大规模的自动标定的基准图像数据库，从而避免了人工标定姿势图片的繁琐过程，同时不需要使用复杂的人体姿势识别算法，能够节省大量的人力物力，并能够提高效率以及最终生成的人体姿态基准图像库的质量。

为达到上述目的，本发明采用的技术方案如下：

一种人体姿态基准图像库的构建方法，其关键在于具体步骤如下：

步骤1：将不同的人体姿态动作按序构建成诱导视频游戏；

步骤2：玩家按照诱导视频游戏执行相应的动作，并利用图像采集设备获取玩家在预置时间点或预置事件处的姿态图像；

步骤3：将不同玩家在相同时间点或相同事件处的姿态图像分为一类；

步骤4：对同一类中的多个姿态图像进行特征提取和聚类分析，删除置信度低的姿态图像；

步骤5：将步骤4留下的置信度高的姿态图像与诱导视频中对应时间点或对应事件处的人体姿态动作关联并标注，建立人体姿态基准图像库。

通过在固定的时间点或事件处预置人体姿态动作，建成诱导视频游戏，然后选取大量的不同玩家依据目标游戏提示进行活动的姿态图像样本。对于一个确定的时间点或事件，假设在所有的姿态图像中，大多数玩家的动作均是目标游戏所要求的动作,只有少部分人无意或者有意地做出了错误的动作。因此对该时间点或事件处的所有玩家的姿态图像进行特征提取和聚类操作，占据最大比例的动作类被认为是正确的动作，剩余的占据较小比例的动作类被认作错误的动作，从而得出与人体姿态动作对应的大量姿势图片。以此类推，对于该目标游戏的所有时间点或事件，聚类后得出的占据比例最大的姿势类别被认为是视频游戏所要求的姿态图像，最终生成一个包含不同种类人体姿态基准图像的数据库。

本方法首先无需搜集大量人体姿势图片、再进行人工筛选和标定，节省了人力物力；其次，该方法是自包含的，不需要借助其他先验图像库进行学习或训练以获得初始分类器，简便而高效；再次，该方法并不试图建立、也不依赖精确的识别模型和算法来识别或理解图像中的具体人体姿态，而是通过预置目标、再聚类大集合的方式标注目标图像库。同时，由于本方法的目的是建立正确的人体姿态数据库，即保证正样本的正确性即可，因此可以放松聚类算法中通常对“低漏检率”的要求，即允许漏检部分正确姿态样本，并不影响生成基准图像库的正确性，降低了对聚类算法复杂度的要求。

进一步的技术方案是，步骤2中的图像采集设备为体感设备，该体感设备所获取的姿态图像为深度图像。

更进一步的技术方案是，步骤4中对同一类中的多个姿态图像进行特征提取和聚类分析的具体步骤如下：

步骤41：从深度图像中提取人体骨架图；

步骤42：提取人体骨架图中各个关节点的位置坐标或者相邻骨架之间的角度值作为特征参数；

步骤43：利用K均值聚类法对同一类中所有的姿态图像进行聚类分析，删除置信度低的姿态图像。

本发明的显著效果是：(1)无需人工搜集人体姿势图片，然后再进行人工筛选和标定，节省了人力物力；(2)不需要借助其它先验图像库进行学习或训练以获得初始分类器，简便而高效；(3)不试图建立、也不依赖精确的识别模型和算法来识别或理解图像中的具体人体姿态，而是通过预置目标、再聚类大集合的方式标注目标图像库；(4)由于只需保证样本的正确性，放松了聚类算法中通常对“低漏检率”的要求，降低了对聚类算法复杂度的要求。

附图说明

图1是本发明的算法流程图；

图2是本发明中人体骨架图获取方法的流程图；

图3是本发明中K均值聚类处理的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式以及工作原理作进一步详细说明。

如图1所示，一种人体姿态基准图像库的构建方法，具体步骤如下：

步骤1：将不同的人体姿态动作按序构建成一段特定的诱导视频游戏，本实施利是以跳舞机作为目标机，通过构建一段视频游戏，在不同的时间点或者不同的事件处预定一个人体姿态动作(挥手，跳，蹲等)，从而诱导所有玩家在该时间点或者该事件处执行预定的动作；

步骤2：玩家按照诱导视频游戏执行相应的动作，并利用图像采集设备获取玩家根据游戏提示跳舞的视频样本，并提取出在预置时间点或预置事件处的姿态图像；

步骤3：将不同玩家在预置时间点或预置事件处的姿态图像分为一类；

以预置时间点为例，假设在所有的视频样本中，对于一个确定的时间点t，只要玩家按照诱导视频游戏的引导执行相应的动作，则大多数玩家的动作均是视频游戏所要求的动作，只有少部分人无意或者有意地做出了错误的动作。因此，只需对时间点t时所有玩家的动作图片进行聚类操作，占据最大比例的动作类被认为是正确的动作(即目标游戏在时间点t指定的动作)，剩余的占据较小比例的动作类被认作错误的动作，即可得出人体姿态动作对应的大量姿势图像，因此通过后续步骤进行特征提取和聚类分析。

步骤4：对同一类中的多个姿态图像进行特征提取和聚类分析；作为一种实施方式，本例中将人体姿态图像转换为人体骨架图，然后再提取该图片的特征参数，具体如下：

步骤41：利用体感设备获取人体姿态的深度图像，并从深度图像中提取人体骨架图，实施时可以通过图2所示的步骤进行，具体为：

步骤41A：分别获取每个姿态图像的深度图像，得出深度差分特征；

步骤41B：采用随机森林算法检测人体部位；

步骤41C：为了提高对较小部位相应关节的预测精度，在随机森林输出人体标注图像后，将占据人体像素比例较小的部位合并到相邻的主要部位中；

步骤41D：利用Mean Shift算法搜索每个人体部位的关节点，获得人体骨架图。

上述步骤的具体内容可以参考文献：殷海燕.基于深度图像的人体姿态识别.北京工业大学硕士学位论文.2013.6。

步骤43：利用K均值聚类法对同一类中所有的姿态图像进行聚类分析，并删除其中置信度低的姿态图像，如图3所示，其中K均值聚类算法的具体步骤如下：

步骤43A：在所有图像样本中任意选取K个样本作为初始聚类中心，其中K为预设参数，本例中为减小运算量，K的取值为8；

步骤43B：分别计算每个图像样本与各聚类中心的距离，将样本分配到距离最小的类别中；

步骤43C：根据聚类结果，计算每个聚类所分配的样本的均值，更新每个类别的聚类中心；

步骤43D：根据新的聚类中心，再次计算各个图像样本到各个新的聚类中心的距离，并将各个图像样本分配到距离最小的类别中；

步骤43E：返回步骤43B，直到每个姿态样本前后两次所分配的类别不变，并输出聚类后的姿态图像。

最后进入步骤5：将步骤4留下的置信度高的姿态图像与诱导视频中对应时间点t处的人体姿态动作关联并标注，建立人体姿态基准图像库。

本发明通过采集视频游戏引导下的玩家姿态图像，并对图像采用进行特征提取与聚类处理后生成大规模的自动标定的基准图像数据库，从而避免了人工标定姿势图片的繁琐过程，节省了大量的人力物力，同时不需要使用复杂的人体姿势识别算法，提高了效率以及最终生成的人体姿态基准图像库的质量。

Claims

1.一种人体姿态基准图像库的构建方法，其特征在于按照以下步骤进行：

步骤1：将不同的人体姿态动作按序构建成诱导视频游戏，以跳舞机作为目标机，通过构建一段视频游戏，在不同的时间点或者不同的事件处预定一个人体姿态动作，从而诱导所有玩家在该时间点或者该事件处执行预定的动作；

步骤5：将步骤4留下的置信度高的姿态图像与诱导视频中对应时间点或对应事件处的人体姿态动作关联并标注，建立人体姿态基准图像库；

其中：步骤2中的图像采集设备为体感设备，该体感设备所获取的姿态图像为深度图像。

2.根据权利要求1所述的一种人体姿态基准图像库的构建方法，其特征在于：步骤4中对同一类中的多个姿态图像进行特征提取和聚类分析的具体步骤如下：

步骤41：从深度图像中提取人体骨架图；