CN110546644A

CN110546644A - 识别装置、识别方法以及识别程序

Info

Publication number: CN110546644A
Application number: CN201780089445.3A
Authority: CN
Inventors: 佐藤卓也
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-04-10
Filing date: 2017-04-10
Publication date: 2019-12-06
Anticipated expiration: 2037-04-10
Also published as: US11210557B2; US20200034659A1; WO2018189795A1; JPWO2018189795A1; CN110546644B; EP3611690A1; JP6760490B2; EP3611690A4

Abstract

识别装置(100)的存储部中存储场景识别辞典和骨骼识别辞典，该场景识别辞典将到人物的距离信息所包含的人物的特征、以及通过相互正交的多个基准轴和基于人的骨骼的矢量所成的角确定的场景建立对应，该骨骼识别辞典将与场景对应的距离信息和人物的关节位置建立对应。识别装置(100)在获取到成为对象者的距离信息的识别距离信息的情况下，基于识别距离信息的特征和场景识别辞典，来识别与识别距离信息对应的场景。识别装置(100)基于由场景识别部识别出的场景的识别结果、识别距离信息以及骨骼识别辞典来识别对象者的骨骼。

Description

识别装置、识别方法以及识别程序

技术领域

本发明涉及识别装置等。

背景技术

近年来，有基于由距离传感器感测的结果的距离数据(距离图像)或者RGB(RedGreen Blue)图像来创建基于机器学习的辞典，并使用创建的辞典来识别人体的骨骼的技术。

图20是表示以往的骨骼识别系统的一个例子的图。在图20所示的例子中，通过使用距离传感器5a进行感测，从而获取包括对象者6a的距离数据5b，并使用距离数据5b和辞典5c来估计对象者6a的三维骨骼位置6b。辞典5c预先进行机器学习。

此外，如以往技术1所公开那样也公开了从图像数据提取与人体对应的像素，并对提取出的像素的各部分按人体部位进行标签分类，从而推定人体的骨骼模型的技术。

此处，在识别人体的骨骼的情况下，前提是在学习时学习成为识别对象的所有动作，所以如果例如要使用单一的辞典来识别如体操比赛那样复杂、大范围的动作，则识别精度降低了。

作为防止识别精度的降低的技术，有以往技术2。以往技术2是与面部的特征点识别有关的技术。面部的特征点是表示眼睛、鼻子、嘴的位置等的点。以往技术2根据正面、右、左等方向来分割学习数据，并利用分割成的各学习数据进行面部特征点的学习。以下，使用图21以及图22，对以往技术2的一个例子进行说明。

图21是表示根据以往技术2的面部特征点的学习例子的图。根据以往技术2的特征点的学习使用表示预先根据面部的方向分类的图像、和该图像中的面部特征点的教师数据，在每个方向上进行独立的机器学习。由此，限定所输入的面部图像的方向来识别特征点。

在图21所示的例子中，通过使用朝左学习图像和面部特征点的教师数据1a来学习朝左面部图像的特征点，从而获得朝左用识别器2a。通过使用朝向正面学习图像和面部特征点的教师数据1b来学习朝向正面面部图像的特征点，从而获得朝向正面用识别器2b。通过使用朝右学习图像和面部特征点的教师数据1c来学习朝右面部图像的特征点，从而获得朝右用识别器2c。

图22是表示根据以往技术2的特征点的识别处理的图。如图22所示，以往技术2若接受面部图像3a，则基于面部方向识别器4来识别面部图像3a的方向。以往技术2通过基于方向的识别结果来选择识别器2a～2c中的任意一个识别器，并使用选择出的识别器来识别面部图像3a的特征点，从而获得识别结果3b。这样，在以往技术2中，通过根据面部图像的方向分开使用识别器，从而提高特征点的识别精度。

专利文献1：美国专利申请公开第2010/0197390号说明书

专利文献2：美国专利申请公开第2013/0241833号说明书

非专利文献1：J.Shotton，A.Fitzgibbon，M.Cook,T.Sharp,M.Finocchio，R.Moore，A.Kipman,A.Blake“Real-time human pose recognition in parts from asingle depth image,”CVPR，pp.1297-1304,2011.

非专利文献2：M.Dantone,J.Gall,G.Fanelli and L.Van Gool,Real-timefacial feature detection using conditional regression forests,”CVPR,pp.2578-2585,2012.

然而，在上述的以往技术中，存在人体的骨骼识别的精度较低的问题。

例如，在以往技术2中，使用面部方向识别器4来识别面部图像3a的方向，但对于以往技术1中所说明那样的对象进行复杂的运动，与面部图像同样地较难识别场景。若无法精度良好地识别场景，则无法使用最适合的辞典，结果识别精度降低。

发明内容

本发明是鉴于上述而完成的，其目的在于提供能够提高人体的骨骼识别的精度的装置。

在第一方案中，识别装置具有存储部、场景识别部以及骨骼识别部。存储部存储场景识别辞典和骨骼识别辞典，该场景识别辞典将到人物的距离信息所包含的人物的特征、以及通过相互正交的多个基准轴和基于人的骨骼的矢量所成的角确定的场景建立对应，该骨骼识别辞典将与场景对应的距离信息和人物的关节位置建立对应。场景识别部在获取到成为对象者的距离信息的识别用数据的情况下，基于识别用数据的特征和场景识别辞典，来识别与识别用数据对应的场景。骨骼识别部基于由场景识别部识别出的场景的识别结果、识别用数据以及骨骼识别辞典来识别对象者的骨骼。

能够提高人体的骨骼识别的精度。

附图说明

图1A是表示在本实施例1中处理的人的方向的定义例子的图。

图1B是表示在本实施例1中处理的方向的识别单位、识别范围、学习范围的一个例子的图(1)。

图1C是表示在本实施例1中处理的方向的识别单位、识别范围、学习范围的一个例子的图(2)。

图1D是表示本实施例1所涉及的系统的结构的图。

图2是表示本实施例1所涉及的识别装置的结构的功能框图。

图3是用于说明学习处理的一个例子的图。

图4是对自转方向以及前转方向进行说明的图。

图5是用于说明自转方向所成的角的图。

图6是表示自转方向的姿势的分类基准的一个例子的图。

图7是用于说明前转方向所成的角的图。

图8是表示前转方向的姿势的分类基准的一个例子的图。

图9是用于说明从距离数据提取特征量的处理的图。

图10是表示骨骼识别辞典的选择范围和学习范围的一个例子的图(1)。

图11是表示骨骼识别辞典的选择范围和学习范围的一个例子的图(2)。

图12是表示本实施例1所涉及的学习部的处理步骤的流程图。

图13是表示本实施例1所涉及的识别装置的识别处理的处理步骤的流程图。

图14是表示本实施例2所涉及的系统的结构的图。

图15是表示三维点群数据的一个例子的图。

图16是表示本实施例2所涉及的识别装置的结构的功能框图。

图17是表示本实施例2所涉及的学习部的处理步骤的流程图。

图18是表示本实施例2所涉及的识别装置的识别处理的处理步骤的流程图。

图19是表示实现与识别装置同样的功能的计算机的硬件构成的一个例子的图。

图20是表示以往的骨骼识别系统的一个例子的图。

图21是表示根据以往技术2的面部特征点的学习例子的图。

图22是表示根据以往技术2的特征点的识别处理的图。

具体实施方式

以下，基于附图，详细地对本发明所涉及的识别装置、识别方法以及识别程序的实施例进行说明。此外，并不是通过该实施例限定本发明。

实施例1

图1A是表示在本实施例1中处理的人的方向的定义例子的图。如图1A所示，将与地面垂直的直线作为轴，以人朝向正面的情况为代表，并设为0°。将人朝向左面的情况设为90°。将人朝向后面的情况设为180°。将人朝向右面的情况设为270°。在本实施例1中，按以90°为单位进行4分割而成的每个单位识别单位方向来进行骨骼识别。例如，将315°～45°设为正面，将45°～135°设为左面，将135°～225°设为后面，将225°～315°设为右面。

图1B以及图1C是表示在本实施例1中处理的方向的识别单位、识别范围、学习范围的一个例子的图。例如，识别装置在识别人方向时在较窄的范围中进行识别，在估计关节位置时，根据结合多个各识别单位而成的较宽范围使用学习的结果。图1C表示方向识别时的识别单位例子。识别装置在进行方向识别的时刻以30°为单位进行学习、识别，并以90°为单位汇总其结果，最终确定为正面的组G1、左面的组G2、后面的组G3、右面的组G4的任意一个。

如图1B所示，识别装置按照识别范围A1的单位确定方向。例如，识别范围A1的单位与在图1C中所说明的各组G1～G4的单位(以90°为单位)对应。另外，在识别时的实际的人的方向为4分割的边界附近的情况下，识别装置使用学习范围A2的数据来进行学习，以防止骨骼识别时的精度降低。例如，学习范围A2为相对于识别范围A1向右30°向左30°较宽的150°的范围。

图1D是表示本实施例1所涉及的系统的结构的图。如图1D所示，该系统具有距离传感器20和识别装置100。识别装置100与距离传感器20连接。识别装置100积蓄预先学习的场景识别辞典和骨骼识别辞典。识别装置100使用场景识别辞典和骨骼识别辞典来进行对象者6a的骨骼识别。此外，在本实施例1中，作为一个例子，对识别装置100学习场景识别辞典和骨骼识别辞典的情况进行说明，但识别装置100以外的外部的计算机也可以学习场景识别辞典和骨骼识别辞典，并由识别装置100积蓄该场景识别辞典和骨骼识别辞典。

距离传感器20是计测从距离传感器20的设置位置到距离传感器20的拍摄范围所包含的对象者6a上的各观测点的距离信息的传感器。距离传感器20生成表示各观测点的三维坐标的距离数据，并将生成的距离数据输出至识别装置100。在以下的说明中，将距离传感器20输出至识别装置100的距离数据记载为“识别用数据”。

识别装置100从距离传感器20获取识别用数据，并基于场景识别辞典130a以及骨骼识别辞典130b来识别对象者6a的骨骼位置。

图2是表示本实施例1所涉及的识别装置的结构的功能框图。如图2所示，该识别装置100具有输入部110、显示部120、存储部130以及控制部140。另外，识别装置100与距离传感器20连接。

输入部110是用于对识别装置100输入各种信息的输入装置。例如，输入部110与键盘、鼠标、触摸面板等对应。

显示部120是对从控制部140输出的信息进行显示的显示装置。例如，显示部120与液晶显示器、触摸面板等对应。

存储部130具有场景识别辞典130a、骨骼识别辞典130b以及识别用数据缓冲器130c。存储部130与RAM(Random Access Memory：随机存取存储器)、ROM(Read OnlyMemory：只读存储器)、闪存(Flash Memory)等半导体存储器元件、HDD(Hard Disk Drive：硬盘驱动器)等存储装置对应。

场景识别辞典130a是判定识别用数据所包含的图像数据与哪个场景对应时所使用的辞典信息。例如，场景识别辞典130a将唯一地识别场景的场景识别信息、和与该场景识别信息对应的距离数据的特征建立对应。

骨骼识别辞典130b是表示每个场景的假设的关节位置(骨骼位置)的辞典信息。例如，骨骼识别辞典130b将场景识别信息、与该场景识别信息对应的距离数据以及人物的关节位置的信息(骨骼辞典信息)建立对应。省略图示，但分别存在与各场景识别信息对应的骨骼辞典信息。

识别用数据缓冲器130c是储存识别用数据的缓冲器。识别用数据与从距离传感器20输出的距离数据对应。

返回到图2的说明。控制部140具有学习部140a、场景识别部140b以及骨骼识别部140c。控制部140能够通过CPU(Central Processing Unit：中央处理器)、MPU(MicroProcessing Unit：微处理器)等来实现。另外，控制部140也能够通过ASIC(ApplicationSpecific Integrated Circuit：专用集成电路)、FPGA(Field Programmable Gate Array：现场可编程逻辑门阵列)等的硬连线逻辑来实现。

学习部140a是生成场景识别辞典130a和骨骼识别辞典130b的处理部。

图3是用于说明学习处理的一个例子的图。上段对通过学习生成场景识别辞典130a的处理的一个例子进行说明。通过将由CG等生成的距离图像数据和附带的场景识别用的教师标签数据作为一组来执行学习部140a的学习。教师标签是唯一地识别各距离数据21a所包含的人物的方向的信息，成为“正面”、“左面”、“后面”、“右面”中的任意一种的人方向。此外，教师标签可以是直接表示(分类)图1B那样的人方向范围的信息，也可以是表示距离数据21a所包含的人物的方向的角度值(回归)本身。另外，如后述那样，以人物的关节位置数据为基础，根据基于人物的骨骼的轴和基准轴所成的角度，学习部140a可以判定场景识别信息。该场景识别信息担负教师标签的作用。人物的关节位置数据能够使用运动捕捉等来获取。

在场景识别辞典创建用学习中，学习部140a基于被赋予了场景识别用的教师标签“正面”的多个距离数据21a来进行机器学习，提取人方向“正面”的特征量。将人方向“正面”和人方向“正面”的特征量建立对应，并登记至场景识别辞典131中。学习部140a对于被赋予了其它教师标签“左面”、“后面”、“右面”的多个距离数据，也同样地进行机器学习。将人方向“左面”、“后面”、“右面”的各特征量与人方向“左面”、“后面”、“右面”建立对应，并登记至场景识别辞典130a中。

学习部140a在生成骨骼识别辞典130b的情况下，作为教师数据，将部位标签图像，或与骨骼位置相关联的距离图像21b作为输入来进行机器学习。另外，学习部140a也可以如后述那样以人物的关节位置数据为基础，确定基于人物的骨骼的轴和基准轴的角度，并判定各场景识别信息判。

图4是对自转方向以及前转方向进行说明的图。如图4所示，自转方向为方向1A。前转方向为方向1B。该图示出基于人的骨骼的、以2轴中的角度为基础的场景分类的例子，但也能够分割为包含与两者垂直的轴的3轴。

图5是用于对自转方向所成的角进行说明的图。自转方向所成的角与线段11和基准线12a所成的角θ₁对应。例如，线段11是将连结人物的右肩11a和左肩11b的直线投影到平面13所得的线段。平面13可以设为与地板平行平面。人物的右肩11a以及左肩11b的位置通过人物的关节位置数据来确定。基准线12a可以是与平面13的X轴向水平的线段，也可以是将人物的开始定时的连结右肩11a和左肩11b的直线投影到平面13所得的线段。

接下来，对学习部140a在学习图像分类时(根据场景对距离数据进行分类的情况下)，基于人物的关节位置数据来判定场景识别信息的处理的一个例子进行说明。在学习部140a进行学习图像分类时，根据所成的角θ₁，将人物的自转方向的姿势分类为“正面”、“左侧”、“后方”、“右侧”中的任意一种。图6是表示自转方向的姿势的分类基准的一个例子的图。例如，在所成的角θ₁包含在θ_α1～θ_α2的范围中的情况下，将自转方向的姿势判定为“正面”。在所成的角θ₁包含在θ_α2～θ_α3的范围中的情况下，将自转方向的姿势判定为“左侧”。在所成的角θ₁包含在θ_α3～θ_α4的范围中的情况下，将自转方向的姿势判定为“后方”。在所成的角θ₁包含在θ_α4～θ_α1的范围中的情况下，将自转方向的姿势判定为“右侧”。

图7是用于对前转方向所成的角进行说明的图。前转方向所成的角为线段15和基准线12b所成的角θ₂。例如，线段15是将通过脊柱上的15a、15b的直线投影到平面14所得的线段。脊柱上的15a、15b的位置通过人物的关节位置数据来确定。基准线12b是将铅垂上方向的线段投影到平面14所得的线段。

在学习部140a进行学习图像分类时，根据所成的角θ₂将人物的前转方向的姿势分类为“正立”、“倒立”的任意一种。图8是表示前转方向的姿势的分类基准的一个例子的图。例如，在所成的角θ₂包含在θ_β1(285°)～θ_β2(105°)的范围中的情况下，将前转方向的姿势判定为“正立”。在所成的角θ₂包含在θ_β2(105°)～θ_β1(285°)的范围中的情况下，将前转方向的姿势判定为“倒立”。

在学习部140a进行场景识别辞典130a生成时，基于关节位置数据来判定与所成的角θ₁对应的自转方向的姿势、和与所成的角θ₂对应的前转方向的姿势，并根据自转方向的姿势和前转方向的姿势的组合来确定对应的场景识别信息。

例如，在前转方向的姿势为“正立”、自转方向的姿势为“正面”的情况下，学习部140a判定为“第一场景”。在前转方向的姿势为“正立”、自转方向的姿势为“左侧”的情况下，学习部140a判定为“第二场景”。在前转方向的姿势为“正立”、自转方向的姿势为“后方”的情况下，学习部140a判定为“第三场景”。在前转方向的姿势为“正立”、自转方向的姿势为“右侧”的情况下，学习部140a判定为“第四场景”。

例如，在前转方向的姿势为“倒立”、自转方向的姿势为“正面”的情况下，学习部140a判定为“第五场景”。在前转方向的姿势为“倒立”、自转方向的姿势为“左侧”的情况下，学习部140a判定为“第六场景”。在前转方向的姿势为“倒立”、自转方向的姿势为“后方”的情况下，学习部140a判定为“第七场景”。在前转方向的姿势为“倒立”、自转方向的姿势为“右侧”的情况下，学习部140a判定为“第八场景”。

学习部140a在生成场景识别辞典130a时，基于各种机器学习手法，针对每个场景识别信息，分别提取各距离数据的特征量。图9是用于对从距离数据提取特征量的处理进行说明的图。在图9的说明中，为了便于说明，使用以视觉的方式表示距离数据的距离图像25进行说明。学习部140a随机设定多个关注像素坐标25a和矢量u、矢量v的组。学习部140a针对距离图像25，计算与关注像素25a分离矢量u的选择像素25b的像素值表示的距离值、和与关注像素25a分离矢量v的选择像素25c的像素值表示的距离值的差。学习部140a按关注像素25a和矢量u、矢量v的组的量，针对距离图像25进行距离差的计算，并提取它们的距离差作为距离图像25的特征量。学习部140a针对各距离数据(距离图像)，使用相同的关注像素25a和矢量u、矢量v的组来提取特征量。学习部140a基于各距离数据的特征量、和场景识别信息，来决定通过机器学习适当地对场景进行分类的特征量的阈值，并登记至场景识别辞典130a中。即，根据特征量的阈值划分第一场景～第八场景

更具体而言，学习部140a准备多个特征量1参数：关注像素坐标a1(x1，y1)、矢量u1、矢量v1、特征量2参数：关注像素坐标a2(x2，y2)、矢量u2、矢量v2这样的参数(例如，数百～数千个左右)。学习部140a针对全部学习图像(距离数据)，计算基于上述的特征量参数的特征量，并组合任意的个数(例如10～20个左右)的特征量，例如，通过机器学习发现特征量77的值为a以上、且特征量5的值为b以上、且、…、且特征量123的值为c以上的图像称为第一场景，特征量77的值为a以上、且特征量5的值为b以上、且、…、且特征量123的值小于c的图像称为第五场景这样的、较好地划分各场景的特征量和阈值的组合，并设为场景识别辞典130a。

学习部140a在生成骨骼识别辞典130b时，基于距离图像、部位标签图像或骨骼三维坐标来生成每个场景识别信息的骨骼识别辞典。例如，骨骼识别辞典是将距离数据和人物的关节位置的信息建立对应的信息。

学习部140a在生成骨骼识别辞典130b时，通过利用每个场景识别信息的关节位置数据自动地生成辞典。学习部140a通过进行与上述处理同样的处理，能够根据预先判明的两肩的关节位置来确定场景识别信息。针对该确定出的场景(例如，第一场景)，挑选相应的距离图像和部位标签图像，或，距离图像和骨骼三维坐标，自动地创建特定场景的骨骼识别辞典130b。在其它场景“第二场景～第八场景等”中，也能够与第一场景同样地进行确定，并能够登记至骨骼识别辞典130b中。

此外，在本实施例1中，将自转方向上的、场景的划分以及骨骼识别辞典130b的学习范围设为以90度为单位的4个方向，但并不限于此。例如，也可以在以90度为单位的4个方向上进行场景划分，并将在各场景两端各30度宽的范围中学习的骨骼识别的结果设为相应的骨骼识别辞典130b。

图10以及图11是表示骨骼识别辞典的选择范围和学习范围的一个例子的图。如图10所示，例如，在学习与自转方向的范围G1对应的正面辞典的情况下，在与范围G1相比两端各宽30度的范围g1中进行正面辞典的学习。在学习与自转方向的范围G2对应的左侧辞典的情况下，在与范围G2相比两端各宽30度的范围g2中进行左侧辞典的学习。在学习与自转方向的范围G3对应的后方辞典的情况下，在与范围G3相比两端各宽30度的范围g3中进行背面辞典的学习。在学习与自转方向的范围G4对应的右侧辞典的情况下，在与范围G4相比两端各宽30度的范围g4中进行右侧辞典的学习。此外，此处，对将选择范围设定为90度，将学习范围设定为各30度宽的范围的情况进行了说明，但并不限于此。

另外，如图11所示，可以利用通过在每隔30度以相应的角度为中心的±30度的范围中分别学习自转方向、前转方向所得的12种骨骼识别辞典进行骨骼识别。例如，将使用于人的方向30度的骨骼识别辞典的学习范围设为范围H1。将使用于人的方向0度的骨骼识别辞典的学习范围设为范围H2。将使用于人的方向330度的骨骼识别辞典的学习范围设为范围H3。此外，在图11所示的例子中，选为±30度，但并不限于此。

另外，学习部140a也可以在生成场景识别辞典130a以及骨骼识别辞典130b的情况下，基于人物的关节位置的信息对距离数据(距离图像)、部位标签图像或骨骼三维坐标等进行排序，并使用排序后的信息来生成场景识别辞典130a以及骨骼识别辞典130b。

场景识别部140b从距离传感器20将识别用数据储存至识别用数据缓冲器130c。场景识别部140b基于识别用数据的特征和场景识别辞典130a，来判定与识别用数据对应的场景识别信息。场景识别部140b将判定出的场景识别信息输出至骨骼识别部140c。

对场景识别部140b基于场景识别辞典130a中设定的特征量的阈值来识别场景的处理的一个例子进行说明。为了便于说明，将与场景识别信息“第一场景”对应的距离数据A的特征量设为“a1”，将与场景识别信息“第二场景”对应的距离数据B的特征量设为“b1”。其中，设为a1＜b1。另外，将识别用数据(距离数据C)的特征量设为“c1”。此处，在特征量c1小于(a1+b1)/2的情况下，场景识别部140b判定为与识别用数据对应的场景识别信息是“第一场景”。另一方面，在特征量c1大于(a1+b1)/2的情况下，场景识别部140b判定为与识别用数据对应的场景识别信息是“第二场景”。

此外，在场景识别辞典130a根据多个特征量的值的阈值划分各场景的情况下，场景识别部140b针对识别用数据，求出各特征量(例如，上述的特征量77、5、…、123)的值，并根据各特征量的值是否超过阈值，识别场景。例如，在与识别用数据有关的特征量77的值为a以上、且特征量5的值为b以上、且、…、且特征量123的值为c以上的情况下，场景识别部140b识别为识别用数据是第一场景。

骨骼识别部140c是基于与由场景识别部140b识别出的场景识别信息对应的骨骼识别辞典130b的信息来识别对象者6a的骨骼位置的处理部。

识别装置100还可以具有技术判定部，该技术判定部基于由骨骼识别部140c的信息来判定对象者6a的技术名称。

接下来，对本实施例1所涉及的学习部140a的处理步骤的一个例子进行说明。图12是表示本实施例1所涉及的学习部的处理步骤的流程图。如图12所示，学习部140a获取学习数据(步骤S101)。此处，学习数据是用于生成场景识别辞典130a、骨骼识别辞典130b的数据，例如，包括关节位置数据、距离数据(距离图像)、部位标签图像，或骨骼三维坐标的信息

学习部140a选择要求出所成的角的轴(步骤S102)。学习部140a关于选择出的轴，计算以2关节为端点的线段和基准线所成的角(步骤S103)。

学习部140a在计算完使用于场景分类的全部轴所成的角的情况下(步骤S104：是)，移至步骤S105。另一方面，学习部140a在未计算完使用于场景分类的全部轴所成的角的情况下(步骤S104：否)，移至步骤S102。

学习部140a针对每个场景识别信息对距离数据进行分类(步骤S105)。学习部140a针对相应的场景识别信息，提取分类所得的距离数据的特征量，并生成场景识别辞典130a(步骤S106)。

学习部140a针对每个场景识别信息对关节位置数据(距离数据(距离图像)、部位标签图像，或骨骼三维坐标的信息)进行分类(步骤S107)。学习部140a针对相应的场景识别信息，基于分类所得的关节位置数据来生成骨骼识别辞典130b(步骤S108)。

图13是表示本实施例1所涉及的识别装置的识别处理的处理步骤的流程图。如图13所示，识别装置100的场景识别部140b从距离传感器20获取识别用数据(步骤S201)。

识别装置100的场景识别部140b对识别用数据和场景识别辞典130a进行比较，判定识别用数据的场景识别信息(步骤S202)。识别装置100的骨骼识别部140c选择与判定出的场景识别信息对应的骨骼识别辞典130b的信息(步骤S203)。

骨骼识别部140c基于识别用数据、和选择出的骨骼识别辞典130b的信息来识别骨骼(步骤S204)。骨骼识别部140c输出骨骼识别结果(步骤S205)。

接下来，对本实施例1所涉及的识别装置100的效果进行说明。识别装置100将场景识别辞典130a以及骨骼识别辞典130b储存至存储部130，该场景识别辞典130a将通过基于人的骨骼的轴和多个基准轴的角度所确定的场景识别信息、和距离数据的特征建立对应，骨骼识别辞典130b将场景识别信息、距离数据以及人物的关节位置建立对应。而且，识别装置100若获取识别用数据，则基于场景识别辞典130a来确定场景识别信息，并使用与确定出的场景识别信息对应的骨骼识别辞典130b的信息来进行对象者的骨骼识别。这样，由于能够通过由被限定的姿势构成的骨骼识别辞典130b进行骨骼识别，所以骨骼识别精度提高。

另外，识别装置100通过从场景识别的确定区域中的人的方向的范围增大在场景中选择的骨骼识别的辞典所包含的人的方向的范围，由此即使在场景识别时，人的方向的角度检测有误差，也能够识别正确的姿势。

然而，作为一个例子，上述的实施例1所涉及的学习部140a通过反复执行使用随机森林从被分类为同一场景识别信息的多个距离数据提取特征量的处理，从而生成场景识别辞典130a。然而，学习部140a提取特征量的处理并不限于此。

例如，学习部140a也可以利用使用深度学习自动地提取距离数据的特征量的手法。学习部140a通过将作为正解的场景识别信息和距离图像数据反复输入到多层神经网络并进行学习，从而自动地决定用于将距离数据推导到作为正解的场景识别信息的“权重”。学习部140a将使用深度学习自动地决定的“权重”设为与场景识别信息对应的“特征量”。通过使用深度学习自动地提取特征量，能够提高场景识别的正确回答率。

实施例2

图14是表示本实施例2所涉及的系统的结构的图。如图14所示，该系统具有距离传感器70a、70b、70c和识别装置200。识别装置200与距离传感器70a～70c连接。此外，距离传感器70a～70c被配置为围绕对象者6a。此外，在本实施例2中，作为一个例子，对识别装置200学习场景识别辞典和骨骼识别辞典的情况进行说明，但识别装置200以外的外部的计算机也可以学习场景识别辞典和骨骼识别辞典，并由识别装置200积蓄该场景识别辞典和骨骼识别辞典。

在实施例1所示的例子中，由于使用单一的距离传感器20，所以仅能够计测从距离传感器20到人物的传感器侧的各观测点的距离。与此相对，在实施例2中，通过使用多个距离传感器70a～70c，能够计测到人物的全部方向的各观测点的距离。

距离传感器70a～70c是计测从距离传感器的设置位置到距离传感器的拍摄范围所包含的对象者6a上的各观测点的距离信息的传感器。在以下的说明中，将距离传感器70a～70c统一记载为距离传感器70。距离传感器70在学习阶段以及识别阶段进行动作。距离传感器70生成表示各观测点的三维坐标的距离数据(三维点群数据)，并将生成的距离数据输出至识别装置200。图15是表示三维点群数据的一个例子的图。三维点群数据是汇总从各距离传感器70a～70c到人物的各观测点的距离的信息。

图16是表示本实施例2所涉及的识别装置的结构的功能框图。如图16所示，该识别装置200具有输入部210、显示部220、存储部230以及控制部240。另外，识别装置200与距离传感器70a～70c连接。与输入部210、显示部220有关的说明与图2所示的与输入部110、显示部120有关的说明相同。

存储部230具有场景识别辞典230a、骨骼识别辞典230b以及识别用数据缓冲器230c。存储部230与RAM、ROM、闪存等半导体存储器元件、，HDD等存储装置对应。

场景识别辞典230a是在判定识别用数据与哪个场景对应时所使用的辞典信息。例如，场景识别辞典230a将唯一地识别场景的场景识别信息、和与该场景识别信息对应的距离数据的特征量建立对应。特征量是与该场景对应的三维点群数据的特征量。例如，基于机器学习来确定三维点群数据的特征量。

骨骼识别辞典230b是表示单一的场景的假设的关节位置(骨骼位置)的辞典信息。例如，骨骼识别辞典230b将规定的场景识别信息、与规定的场景识别信息对应的距离数据以及人物的关节位置的信息建立对应。

识别用数据缓冲器230c是储存识别用数据的缓冲器。识别用数据是汇总从各距离传感器70输出的距离数据的三维点群数据。

控制部240具有学习部240a、场景识别部240b、骨骼识别部240c。控制部240能够通过CPU、MPU等来实现。另外，控制部240也能够通过ASIC、FPGA等硬连线逻辑来实现。

学习部240a是生成场景识别辞典230a以及骨骼识别辞典230b的处理部。首先，对学习部240a生成场景识别辞典230a的处理的一个例子进行说明。学习部240a通过从距离数据提取每个场景识别信息的特征量来生成场景识别辞典230a。

例如，学习部240a基于人物的关节位置数据分别提取被分类为第一场景的距离数据的各三维点群数据的特征量。学习部240a针对从各三维点群数据提取出的各特征量，通过机器学习发现较好地划分各场景的特征量和阈值的组合，并登记至场景识别辞典230a。

对学习部240a生成骨骼识别辞典230b的处理的一个例子进行说明。学习部240a是获取与规定的场景识别信息对应的关节位置数据(距离图像和部位标签图像或骨骼三维坐标)，将规定的场景识别信息和关节位置数据建立对应，并登记至骨骼识别辞典230b的处理部。在本实施例2中，作为一个例子，将规定的场景识别信息设为“第一场景”。

场景识别部240b将从距离传感器70获取的识别用数据储存至识别用数据缓冲器230c。场景识别部240b是通过获取识别用数据缓冲器230c中储存的识别用数据，并对获取到的识别用数据的特征量、和场景识别辞典230a进行比较，从而确定获取到的识别用数据的场景识别信息的处理部。场景识别部240b将判定结果的场景识别信息和识别用数据输出至骨骼识别部240c。

骨骼识别部240c是从识别用数据识别对象者6a的骨骼位置的处理部。在作为场景识别部240b的判定结果的场景识别信息为“第一场景”的情况下，骨骼识别部230b通过对识别用数据和骨骼识别辞典230b进行比较来确定对象者6a的关节位置。

在作为场景识别部240b的判定结果的场景识别信息为“第一场景以外”的情况下，骨骼识别部240c使识别用数据的三维点群数据的方向旋转，以成为与第一场景对应的方向。例如，对于第二～第八场景各个，预先定义使三维点群数据的方向向哪个方向旋转多少的信息，骨骼识别部240c基于该信息使三维点群数据的方向旋转。骨骼识别部240c通过对旋转后的识别用数据和骨骼识别辞典230b进行比较来确定对象者6a的关节位置。

接下来，对本实施例2所涉及的识别装置200的处理步骤的一个例子进行说明。图17是表示本实施例2所涉及的学习部的处理步骤的流程图。如图17所示，学习部240a获取学习数据(步骤S301)。此处，学习数据是用于生成场景识别辞典230a、骨骼识别辞典230b的数据，例如，包括关节位置数据、距离数据(距离图像)、部位标签图像或骨骼三维坐标的信息。学习部240a选择要求出所成的角的轴(步骤S302)。学习部240a关于选择出的轴，即使以2关节为端点的线段和基准线所成的角(步骤S303)。

学习部240a在计算完使用于场景分类的全部轴所成的角的情况下(步骤S304：是)，移至步骤S305。另一方面，学习部240a在未计算完使用于场景分类的全部轴所成的角的情况下(步骤S304：否)，移至步骤S302。

学习部240a针对每个场景识别信息，对距离数据进行分类(步骤S305)。学习部240a针对相应的场景识别信息，提取分类的距离数据的特征量，生成场景识别辞典230a(步骤S306)。

学习部240a针对每个场景识别信息，对关节位置数据(距离数据(距离图像)、部位标签图像或骨骼三维坐标的信息)进行分类(步骤S307)。学习部240a基于与规定的场景识别信息对应的关节位置数据来生成骨骼识别辞典230b(步骤S308)。

图18是表示本实施例2所涉及的识别装置的识别处理的处理步骤的流程图。如图18所示，识别装置200的场景识别部240b从距离传感器70获取识别用数据(步骤S401)。

场景识别部240b对识别用数据和场景识别辞典230a进行比较，来判定识别用数据的场景识别信息(步骤S402)。识别装置200的骨骼识别部240c判定判定出的场景识别信息是否是规定的场景识别信息(步骤S403)。在本实施例2中，作为一个例子，将规定的场景识别信息设为“第一场景”进行了说明。如上述那样，第一场景是对象者6a的前转方向的姿势为“正立”、自转方向的姿势为“正面”的场景。

识别装置200的骨骼识别部240c在判定出的场景识别信息是规定的场景识别信息的情况下(步骤S404：是)，移至步骤S406。另一方面，骨骼识别部240c在判定出的场景识别信息不是规定的场景识别信息的情况下(步骤S404：否)，移至步骤S405。

骨骼识别部240c对识别用数据的三维点群数据的方向进行修正(旋转)，以成为规定的场景识别信息(第一场景)(步骤S405)。骨骼识别部240c基于识别用数据、和骨骼识别辞典230b的关节位置数据来识别骨骼(步骤S406)。骨骼识别部240c输出骨骼识别结果(步骤S407)。

接下来，对本实施例2所涉及的识别装置200的效果进行说明。识别装置200准备仅从身体的正面等一个方向观察到的骨骼识别辞典230b。识别装置200在识别时进行场景分类后，使三维点群数据的方向与骨骼识别辞典230b假设的方向一直后，实施骨骼识别。结果仅准备骨骼识别辞典230b的一个场景即可，可以缩短学习时间。

此外，在本实施例1、2中，作为一个例子，使用距离传感器20、70来判定场景识别信息，但并不限于此。例如，识别装置100、200可以与RGB相机连接，基于由该RGB相机拍摄的图像数据来判定对象者6a的场景识别信息。

接下来，对实现与上述实施例所示的识别装置100、200同样的功能的计算机的硬件构成的一个例子进行说明。图19是表示实现与识别装置同样的功能的计算机的硬件构成的一个例子的图。

如图19所示，计算机300具有执行各种运算处理的CPU301、接受来自用户的数据的输入的输入装置302以及显示器303。另外，计算机300具有从存储介质读取程序等的读取装置304、和经由有线或者无线网络与其它计算机之间进行数据的授受的接口装置305。例如，接口装置305与距离传感器20、70a～70c等连接。另外，计算机300具有暂时存储各种信息的RAM306、和硬盘装置307。而且，各装置301～307与总线308连接。

硬盘装置307具有学习程序307a、场景识别程序307b、骨骼识别程序307c。CPU301读出学习程序307a、场景识别程序307b、骨骼识别程序307c，并展开至RAM306。

学习程序307a作为学习工序306a发挥作用。场景识别程序307b作为场景识别工序306b发挥作用。骨骼识别程序307c作为骨骼识别工序306c发挥作用。

学习工序306a的处理与学习部140a、240a的处理对应。场景识别工序306b的处理与场景识别部140b、240b的处理对应。骨骼识别工序306c的处理与骨骼识别部140c、240c的处理对应。

此外，对于各程序306a～307c，也可以未必从最初存储于硬盘装置307。例如，使插入计算机300的软盘(FD)、CD－ROM、DVD光盘、光磁盘、IC卡等“便携式物理介质”存储各程序。而且，计算机300也可以读出各程序306a～307c来执行。

附图标记的说明

20、70a、70b、70c…距离传感器

100、200…识别装置

Claims

1.一种识别装置，其特征在于，具有：

存储部，存储场景识别辞典和骨骼识别辞典，上述场景识别辞典将到人物的距离信息所包含的上述人物的特征、以及通过相互正交的多个基准轴和基于人的骨骼的矢量所成的角确定的场景建立对应，上述骨骼识别辞典将与上述场景对应的距离信息和上述人物的关节位置建立对应；

场景识别部，在获取到成为对象者的距离信息的识别距离信息的情况下，基于上述识别距离信息的特征和上述场景识别辞典，来识别与上述识别距离信息对应的场景；以及

骨骼识别部，基于由上述场景识别部识别出的场景的识别结果、上述识别距离信息以及上述骨骼识别辞典来识别上述对象者的骨骼。

2.根据权利要求1所述的识别装置，其特征在于，

还具有学习部，上述学习部获取多个与上述人物的关节位置的信息建立对应的距离信息，并基于上述关节位置的信息对多个距离信息进行分类，基于分类的结果来生成上述场景识别辞典以及上述骨骼识别辞典。

3.根据权利要求2所述的识别装置，其特征在于，

生成上述骨骼识别辞典时所使用的距离图像是基于在运动捕捉时测定到的人的关节位置信息来创建的，且与每个场景的人的方向建立对应，上述学习部在生成与规定场景对应的骨骼识别辞典的情况下，基于上述人的关节位置信息对多个距离图像进行分类，并针对每个分类所得的距离图像，生成骨骼识别辞典。

4.根据权利要求2所述的识别装置，其特征在于，

上述学习部通过将规定场景和与上述规定场景对应的上述对象者的距离信息的组反复输入至多层神经网络，来决定用于将上述对象者的距离信息推导到上述规定场景的神经网络的权重，并提取所决定的权重作为上述规定场景的特征，生成上述场景识别辞典。

5.根据权利要求1所述的识别装置，其特征在于，

上述骨骼识别辞典具有与单一的规定场景对应的距离信息和上述人物的关节位置的信息，上述骨骼识别部将与由上述场景识别部识别出的场景对应的上述识别结果的距离信息旋转到上述与单一的规定场景对应的距离信息，并基于旋转后的距离信息、和上述骨骼识别辞典来识别上述对象者的骨骼位置。

6.一种识别方法，是计算机执行的识别方法，其特征在于，

执行如下处理：

参照存储场景识别辞典和骨骼识别辞典的存储装置，获取到成为对象者的距离信息的识别距离信息的情况下，基于上述识别距离信息的特征和上述场景识别辞典，来识别与上述识别距离信息对应的场景，上述场景识别辞典将到人物的距离信息所包含的上述人物的特征、以及通过相互正交的多个基准轴和基于人的骨骼的矢量所成的角确定的场景建立对应，上述骨骼识别辞典将与上述场景对应的距离信息和上述人物的关节位置建立对应，

基于识别出的场景的识别结果、上述识别距离信息以及上述骨骼识别辞典来识别上述对象者的骨骼。

7.一种识别程序，是计算机执行的识别程序，其特征在于，

使如下处理执行：