CN110651298A

CN110651298A - 距离图像处理装置、距离图像处理系统、距离图像处理方法以及距离图像处理程序

Info

Publication number: CN110651298A
Application number: CN201780090573.XA
Authority: CN
Inventors: 桝井昇一; 藤本博昭; 吉村和浩; 佐藤卓也; 佐佐木和雄
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-05-12
Filing date: 2017-05-12
Publication date: 2020-01-03
Anticipated expiration: 2037-05-12
Also published as: US20200042782A1; US11138419B2; WO2018207365A1; EP3624052A1; CN110651298B; JPWO2018207365A1; EP3624052A4; JP6809604B2

Abstract

学习装置(100)基于合成了人体的三维模型和物体的三维模型的合成模型，来生成将距离图像和部位图像建立对应的多个学习图像，该距离图像表示从基准位置到人体的各位置或者物体的各位置的距离，该部位图像识别人体的各部位或者物体的部位。学习装置(100)基于学习图像的距离图像和部位图像，修正距离图像的区域中与物体的部位对应的区域的值。学习装置(100)基于具有被修正的距离图像的多个学习图像，学习将距离图像的特征与人体的部位或者物体的部位建立对应的识别器。

Description

距离图像处理装置、距离图像处理系统、距离图像处理方法以及距离图像处理程序

技术领域

本发明涉及距离图像处理装置等。

背景技术

图15是用于说明进行姿势识别的现有系统的图。如图15所示，现有系统使用距离传感器6来获取对象者5a的距离图像7。现有系统通过基于距离图像7来进行关节位置推定，从而确定对象者5a的骨格位置5b，并推定对象者5a的姿势。

图16是用于说明现有系统的应用例的图。在图16所示的例子中，使用距离传感器6来获取对象者5a的距离图像，识别对象者5a的姿势，游戏上的网络虚拟形象(avatar)5c采取与对象者5a相同的姿势。

图17是用于说明姿势识别的现有技术的一个例子的图。现有技术获取包括人体的一个以上的距离图像(步骤S10)。例如，距离图像1包括与确定的人体有关的前景像素1a、和除此以外的背景像素1b。

现有技术通过从距离图像1分离出背景像素1b来获得仅包括前景像素的距离图像1c(步骤S11)。现有技术通过向识别人物的部位的“识别器”输入距离图像1c而将距离图像1c的人体的区域分成多个部位标签bp1～bp14(步骤S12)。

现有技术基于人体的各部位标签bp1～bp14，提出具有多个三维的骨格位置的人体的多个骨格模型(步骤S13)。现有技术从多个骨格模型中选择似然度最高的骨格模型，并基于选择出的骨格模型来识别人物的姿势(步骤S14)。

此处，在图17等现有技术中所使用的识别器通过执行图18所示的处理来学习。图18是表示现有的学习识别器的处理顺序的流程图。如图18所示，现有技术获取动作捕捉数据(步骤S20)。现有技术通过基于动作捕捉数据进行人体模型重新定位，从而生成多个各种姿势的人体模型(步骤S21)。

现有技术通过从各人体模型去除相似的人体模型姿势，仅留下独特的人体模型姿势，从而去除冗余性(步骤S22)。现有技术基于独特的人体模型姿势分别生成以假设的距离传感器的位置为基准的部位标签图像以及距离图像(步骤S23)。现有技术通过基于部位标签图像和距离图像的组反复学习距离图像的各位置的特征(以及周边位置的特征)和部位标签的对应关系，来生成识别器(步骤S24)。

专利文献1:日本特开2016－212688号公报

专利文献2:日本特开2015－167008号公报

专利文献3:日本特开2012－120647号公报

专利文献4:日本特开2016－091108号公报

专利文献5:美国专利申请公开第2015/0036879号说明书

专利文献6:美国专利申请公开第2016/0125243号说明书

然而，在上述的现有技术中，存在不能够适当地判定人体的部位这样的问题。

例如，在利用图15中所说明的现有系统进行人体的姿势识别的情况下，产生由物体引起的遮挡。由物体引起的遮挡是成为识别对象的人体的一部分因其它物体而不能看到的状态。

图19是表示由物体引起的遮挡的一个例子的图。在图19所示的例子中，在鞍马表演中，在鞍马8b的后方对象者8a的身体的一部分以隐藏的状态存在。在图20所示那样的状态下，如果使用图17中所说明的现有技术来进行对象者8a的姿势识别，则无法分配正常的部位标签，不能够进行准确的姿势识别。

图20以及图21是用于说明现有技术的问题点的图。例如，现有技术如果获取包括对象者8a以及鞍马8b的距离图像，从距离图像去除背景，并分配部位标签，则成为图20所示的部位标签识别结果9A。在现有技术中，将包括对象者8a以及鞍马8b的区域8c设为对象者8a的区域，将鞍马8b作为人体的一部分，分配部位标签。

另一方面，可以预先在不存在对象者8a的状态下，拍摄仅被固定的鞍马8b的距离图像，从实际对象者8a在鞍马8b上进行运动时所拍摄到的距离图像去除仅鞍马8b的距离图像。若这样去除仅鞍马8b的距离图像，则不能够检测到隐藏在鞍马8b的里侧的脚的部分的距离图像，所以只能够获得被鞍马8b断开的距离图像。

例如，若对去除了鞍马8b的距离图像而得的距离图像分配部位标签，则成为图21所示的部位标签识别结果9B。若人体的区域被断开，则将被断开的各区域B₁、B₂分别识别为一个对象者的区域，分配了部位标签。例如，有时对于区域B₁，对部分b₁分配脚的部位标签，对区域B₂分配人体的脚以外(例如，手)的部位标签。

如上述那样，若不能够适当地判定部位标签，则基于部位标签的判定结果的姿势识别的精度降低。

发明内容

在一个侧面，本发明的目的在于提供能够适当地判定人体的部位的距离图像处理装置、距离图像处理系统、距离图像处理方法以及距离图像处理程序。

在第一方面中，距离图像处理装置具有生成部、修正部、以及学习部。生成部基于将人体的三维模型和物体的三维模型合成而得的合成模型，来生成将距离图像与部位图像建立对应的多个学习图像，距离图像表示从基准位置到人体的各位置或者物体的各位置的距离，部位图像识别人体的各部位或者物体的部位。修正部基于学习图像的距离图像和部位图像，修正距离图像的区域中的与物体的部位对应的区域的值。学习部基于具有被修正的距离图像的多个学习图像，学习将距离图像的特征与人体的部位或者物体的部位建立对应的识别器。

本发明能够适当地判定人体的部位。

附图说明

图1是表示本实施例所涉及的距离图像处理系统的一个例子的图。

图2是表示学习装置的构成的一个例子的图。

图3是用于说明捕捉照相机的图。

图4是表示物体模型数据的一个例子的图。

图5是表示合成模型表的数据结构的一个例子的图。

图6是表示学习图像表的数据结构的一个例子的图。

图7是用于说明部位标签图像、距离图像以及关节位置的关系的图。

图8是表示识别器数据的数据结构的一个例子的图。

图9是表示识别装置的构成的一个例子的图。

图10是表示本实施例所涉及的学习装置的处理顺序的流程图。

图11是表示本实施例所涉及的识别装置的处理顺序的流程图(1)。

图12是表示本实施例所涉及的识别装置的处理顺序的流程图(2)。

图13是表示实现与学习装置相同的功能的计算机的硬件构成的一个例子的图。

图14是表示实现与识别装置相同的功能的计算机的硬件构成的一个例子的图。

图15是用于说明进行姿势识别的现有系统的图。

图16是用于说明现有系统的应用例的图。

图17是用于说明姿势识别的现有技术的一个例子的图。

图18是表示现有的学习识别器的处理顺序的流程图。

图19是表示由物体引起的遮挡的一个例子的图。

图20是用于说明现有技术的问题点的图(1)。

图21是用于说明现有技术的问题点的图(2)。

具体实施方式

以下，基于附图，详细地对本发明所涉及的距离图像处理装置、距离图像处理系统、距离图像处理方法以及距离图像处理程序的实施例进行说明。此外，并不是通过该实施例限定该发明。

实施例

图1是表示本实施例所涉及的距离图像处理系统的一个例子的图。如图1所示，该距离图像处理系统包括学习装置100和识别装置200。学习装置100与动作捕捉装置10连接。识别装置200与距离传感器20连接。另外，学习装置100和识别装置200相互连接。

学习装置100是学习在识别装置200识别对象者的姿势的情况下所使用的识别器数据的装置。识别装置200是使用学习装置100学习到的识别器或者骨骼估计器，识别对象者的姿势的装置。学习装置100以及识别装置200是距离图像处理装置的一个例子。

图2是表示学习装置的结构的一个例子的图。如图2所示，该学习装置100与动作捕捉装置10连接。学习装置100具有输入部110、显示部120、存储部130以及控制部140。

动作捕捉装置10与多个捕捉相机10a连接。图3是用于说明捕捉相机的图。如图3所示，捕捉相机10a被配置在对象者11的周围。在对象者11的各关节位置分别安装有标记12。

例如，动作捕捉装置10使用各捕捉相机10a来记录对象者11的标记12的移动，根据各标记12求出三维的关节位置。动作捕捉装置10通过依次记录根据各标记12的位置坐标求出的三维的关节位置，来生成动作捕捉数据。动作捕捉装置10将动作捕捉数据输出至学习装置100。

返回到图2的说明。输入部110是用于对学习装置100输入各种信息的输入装置。例如，输入部110与键盘、鼠标、触摸面板等对应。

显示部120是对从控制部140输出的信息进行显示的显示装置。例如，显示部120与液晶显示器、触摸面板等对应。

存储部130具有动作捕捉数据130a、人体模型数据130b、物体模型数据130c、合成模型表130d、以及学习图像表130e。另外，存储部130具有识别器数据130f、和骨骼估计器数据130g。存储部130与RAM(Random Access Memory：随机存取存储器)、ROM(Read OnlyMemory：只读存储器)、闪存(Flash Memory)等半导体存储器元件、HDD(Hard Disk Drive：硬盘驱动器)等存储装置对应。

动作捕捉数据130a是记录由动作捕捉装置10生成的、记录人物的三维的关节位置的移动的数据。例如，动作捕捉数据130a具有每帧的关节位置的信息。

人体模型数据130b是人体的三维模型的数据。人体模型数据130b是通过将三维的人体模型与基于动作捕捉130a的人物的各关节位置的骨格结合而生成的信息。

物体模型数据130c是与人物不同的物体的三维模型。图4是表示物体模型数据的一个例子的图。这里作为一个例子，将物体设为鞍马但并不限定于此。

合成模型表130d是具有合成了人体模型数据130b和物体模型数据130c的多个合成模型数据的表。图5是表示合成模型表的数据结构的一个例子的图。如图5所示，该合成模型表130d将合成模型编号和合成模型数据建立对应。合成模型编号是识别合成模型数据的编号。合成模型数据是合成了一系列的移动中的定时(帧)的人体模型数据130b和物体模型数据130c的结果所获得的数据。

学习图像表130e是具有多个用于生成识别器数据130f以及骨骼估计器数据130g的学习图像数据的表。图6是表示学习图像表的数据结构的一个例子的图。如图6所示，该学习图像表130e将学习图像编号、部位标签图像数据、距离图像数据、以及关节位置数据建立对应。

学习图像编号是唯一地识别成为学习图像的部位标签图像数据、距离图像数据、以及关节位置数据的组的编号。部位标签图像数据是以独特的部位标签表示合成模型数据(人体+物体)的各部位以及物体的信息。距离图像数据是根据合成模型数据(人体+物体)生成的距离图像。如后述那样，距离图像数据的区域中，与物体对应的区域的值设定为与背景相同的值。例如，与背景相同的值为无限远。关节位置数据是提取合成模型数据的人体模型所包括的各关节位置的信息的数据。在学习图像表130e中，根据同一合成模型数据生成对应的部位标签图像数据、距离图像数据、关节位置数据。

此外，这里作为一个例子，将部位标签图像数据、距离图像数据、以及关节位置数据的组作为学习图像，但并不限定于此。例如，也可以将部位标签图像数据与距离图像数据的组作为学习图像，也可以将关节位置数据与距离图像数据的组作为学习图像。

图7是用于说明部位标签图像、距离图像以及关节位置的关系的图。图7示出与某一学习图像编号对应的部位标签图像数据131A、距离图像数据131B以及关节位置数据131C的组。距离图像数据131B例如是对应每个像素示出从照相机等的基准位置到合成模型数据的各位置为止的距离的距离图像数据。

部位标签图像数据131A是以独特的部位标签示出距离图像数据131B所包括的人物的各部位以及物体的信息。例如，基于规定的分割策略，将人物的区域分割为多个部位，并对与各部位对应的区域分配固有的部位标签。另外，对于物体来说，对与物体对应的区域分配与人物的部位不同的部位标签。

关节位置数据131C是表示在生成成为距离图像数据131B的生成源的合成模型数据所包括的人体模型时成为基础的人体的关节位置的数据。例如，在合成模型数据包括动作捕捉数据130a的人物的各关节位置的信息，提取这样的人物的关节位置的一部分、或者全部的信息，作为关节位置数据130C。

识别器数据130f构成例如基于距离图像数据的某个位置的周边的特征量将距离图像的各像素与部位标签建立对应的识别器。在确定距离图像数据的某个位置的部位标签的情况下，通过将距离图像数据的某个位置的周边的特征量输入到识别器，从而输出某个位置的部位标签。

图8是表示识别器数据的数据结构的一个例子的图。如图8所示，该识别器数据130f具有多个分支(Split)节点f_1－1、f_2－1～f_2－n、f_3－1～f_3－n、以及叶(Leaf)节点R₁～R_n。在以下的说明中，将分支节点f_1－1、f_2－1～f_2－n、f_3－1～f_3－n集中记载为分支节点f。将叶节点R₁～R_n集中记载为叶节点R。

分支节点f是通过距离图像数据的某个位置的周边的特征量，指示下属的分支节点f中任意一个分支目的地的节点。在分支节点f为分支节点f_3－1～f_3－n的情况下，通过距离图像数据的某个位置的周边的特征量，指示下属的叶节点R中任意一个迁移目的地。

叶节点R是储存表示人体的部位的数据的节点。

骨骼估计器数据130g构成将距离图像数据与关节位置建立对应的骨骼估计器。在确定距离图像数据的某一位置的关节位置的情况下，使用通过深度学习得到的神经式网络，根据距离图像数据输出关节位置。此时，相当于特征量的量在神经式网络中自动地最佳化。

返回到图2的说明。控制部140具有获取部140a、生成部140b、修正部140c、学习部140d、以及通知部140e。控制部140能够通过CPU(Central Processing Unit：中央处理器)、MPU(Micro Processing Unit：微处理器)等来实现。另外，控制部140也能够通过ASIC(Application Specific Integrated Circuit：专用集成电路)、FPGA(FieldProgrammable Gate Array：现场可编程门阵列)等硬连线逻辑来实现。

获取部140a是从动作捕捉装置10获取动作捕捉数据130a的处理部。获取部140a将获取到的动作捕捉数据130a储存至存储部130。

生成部140b是生成学习图像表130e的处理部。例如，生成部140b执行生成人体模型数据130b的处理、生成合成模型表130d的处理、生成学习图像表130e的处理。此外，生成部140b可以重新生成物体模型数据130c，也可以将现有的物体模型数据用作物体模型数据130c。

对生成部140b生成人体模型数据130b的处理进行说明。生成部140b获取动作捕捉数据130a所包括的人物的关节位置的一系列的移动中的、人物的关节位置的信息，并利用骨架连接各关节位置，从而生成人物的骨格信息。生成部140b通过将预先准备的人体模型的部件与骨格信息组合，来生成与骨格信息对应的人体模型。换句话说，生成部140b进行的处理与将动作捕捉数据130a和人体模型结合的处理对应。

对生成部140b生成合成模型表130d的处理进行说明。生成部140b通过针对一系列的动作捕捉数据130a，从人体模型数据130b获取人体模型，并将获取到的人体模型和物体模型数据130c的物体模型合成，从而生成合成模型数据。生成部140b通过反复将与其它帧对应的人体模型和物体模型合成的处理，来生成多个合成模型数据。生成部140b与合成模型编号建立对应地将合成模型数据登记至合成模型表130d。

此外，生成部140b也可以在登记到合成模型表130d的多个合成模型数据中包括类似的合成模型数据的情况下，进行去除冗余性的处理。例如，生成部140b将合成模型数据的各关节位置之差的合计值小于阈值的合成模型数据判定为类似的合成模型数据。生成部140b进行留下类似的合成模型数据中的一个合成模型数据，删除其它合成模型数据的处理。

对生成部140b生成学习图像表130e的处理进行说明。生成部140b参照合成模型表130d，获取某个合成模型编号的合成模型数据。生成部140b基于获取到的合成模型数据来生成部位标签图像数据以及距离图像数据。生成部140b与学习图像编号建立对应地将部位标签图像数据以及距离图像数据登记至学习图像表130e。

例如，生成部140b预先在合成模型数据配置识别人体的部位的部位标签。生成部140b在三维上设定虚拟的基准位置，生成从该基准位置观察合成模型数据的情况下的距离图像数据。另外，生成部140b通过将从基准位置观察合成模型数据的情况下的合成模型数据的区域分类为多个部位标签，来生成部位标签图像数据。例如，根据某个相同的合成模型数据生成的部位标签图像数据以及距离图像数据与图7中所说明的部位标签图像数据131A、距离图像数据131B对应。

另外，生成部140b通过从构成合成模型数据的人体模型提取人体的关节位置的信息，生成关节位置数据。该关节位置数据与在图7说明的关节位置数据131C对应，至少与距离图像数据131B建立对应。

生成部140b通过也对储存于合成模型表130d的其它的合成模型数据反复执行上述处理，生成部位标签图像数据、距离图像数据、关节位置数据，并储存于学习图像表130e。

修正部140c是修正学习图像表130e的部位标签图像数据以及距离图像数据的处理部。例如，修正部140c对在学习图像表130e建立对应的部位标签图像数据、和距离图像数据进行比较，确定距离图像数据的区域中物体的区域。修正部140c将距离图像数据的物体的区域的值修正为与背景的值相同的值。例如，修正部140c将距离图像数据的物体的区域的值设定为“无限远”。另外，修正部140c将部位标签图像数据所包括的物体的部位标签修正为表示背景的标签。

修正部140c通过也对储存于学习图像表130e的其它的部位标签图像数据以及其它的距离图像数据反复执行上述处理，修正其它的部位标签图像数据以及距离图像数据。通过执行修正部140c所涉及的处理，能够将距离图像数据所包括的物体(鞍马等物体)作为背景进行处理。

学习部140d是基于学习图像表130e所包含的多个部位标签图像数据以及距离图像数据的学习集，反复执行机械学习，生成识别器数据130f的处理部。另外，学习部140d是基于学习图像表130e所包括的多个距离图像数据以及关节位置数据的学习集，利用深度学习等进行学习，生成骨骼估计器数据130g的处理部。

对学习部140d生成第一识别器数据130f的处理的一个例子进行说明。学习部140d确定距离图像数据的某个位置(x1，y1)的周边的特征量、和与某个位置(x1，y1)对应的部位标签。例如，某一位置(x1，y1)的周边的特征量既可以是以距离图像数据上的某个位置(x1，y1)为基准的周边的距离图像数据的凹凸，也可以是其它的特征量。与某一位置(x1，y1)对应的部位标签与分配给部件标签图像数据的某一位置(x1，y1)的部位标签对应。

同样地，学习部140d对应每个不同的位置确定距离图像数据的某一位置(xn，yn)的周边的特征量、和与某一位置(xn，yn)对应的部位标签的模式。学习部140d通过反复对不同的位置的各模式进行机械学习，生成(学习)识别器数据130f。

对学习部140d生成骨骼估计器数据130g的处理的一个例子进行说明。学习部140d使用深度学习，以使特征量自动地最佳化的方式，对距离图像数据和关节位置数据的关系进行学习。

同样地，学习部140d对应每个不同的位置确定距离图像数据的某一位置(xn，yn)的特征量、某一位置(xn，yn)的周边的特征量、以及与某一位置(xn，yn)对应的关节位置的模式。学习部140d通过反复对不同的位置的各模式进行机械学习，生成(学习)骨骼估计器数据130g。

通知部140d是将通过学习部140c生成的识别器数据130f以及骨骼估计器数据130g发送给识别装置200的处理部。

接着，移至识别装置200的说明。图9是表示识别装置的结构的一个例子的图。如图9所示，该识别装置200与距离传感器20连接。识别装置200具有输入部210、显示部220、存储部230以及控制部240。

距离传感器20在姿势的识别处理时，测定对象者以及规定的物体(鞍马等，图示省略)的距离图像，并将测定到的距离图像的数据输出至识别装置200。在以下的说明中，将从距离传感器20获取的距离图像的数据记载为识别距离图像数据230a。在本实施例中，将规定的物体设为鞍马进行说明。

输入部210是用于对识别装置200输入各种信息的输入装置。例如，输入部210与键盘、鼠标、触摸面板等对应。

显示部220是对从控制部240输出的信息进行显示的显示装置。例如，显示部220与液晶显示器、触摸面板等对应。

存储部230具有识别距离图像数据230a、背景距离图像数据230b、识别器数据130f、以及骨骼估计器数据130g。存储部130与RAM、ROM、闪存等半导体存储器元件、HDD等存储装置对应。

识别距离图像数据230a是在识别时由距离传感器20测定到的距离图像数据。识别距离图像数据230a是针对每个位置(像素)表示从距离传感器20到对象者以及物体的距离的数据。

背景距离图像数据230b是在不存在对象者的状态下，通过距离传感器20拍摄到的仅有背景的距离图像数据。在图4所示的规定的物体存在于该背景距离图像数据(即使规定的物体存在于人物的前面，这里也记载为背景)。获取部240a预先从距离传感器20获取背景距离图像数据230b，并储存于存储部230。

识别器数据130f是由学习装置100生成的识别器数据。识别器数据130f的数据结构与图8中说明的数据结构对应。

骨骼估计器数据130g是通过学习装置100生成的骨骼估计器数据。

控制部240具有获取部240a、去除部240b、判定部240c、识别部240d。控制部240能够通过CPU、MPU等来实现。另外，控制部240也能够通过ASIC、FPGA等硬连线逻辑来实现。

获取部240a从距离传感器20获取识别距离图像数据230a，并储存于存储部230。获取部240a从学习装置100获取识别器数据130f以及骨骼估计器数据130g，并将获取到的识别器数据130f以及骨骼估计器数据130g储存于存储部230。

去除部240b是通过取得识别距离图像数据230a与背景距离图像数据230b的差异，从识别距离图像数据230a去除背景、以及规定的物体的信息的处理部。去除部240b将从识别距离图像数据230a去除背景的信息而得的距离图像数据输出至判定部240c。在以下的说明中，将从识别距离图像数据230a去除背景的信息而得的距离图像数据仅记载为“距离图像数据”。

判定部240c是选择识别器数据130f或者骨骼估计器数据130g，进行部位标签的判定或者关节位置的判定的处理部。

对判定部240c选择识别器数据130f，并进行部位标签的判定的处理进行说明。判定部240c基于从去除部240b获取到的距离图像数据、和识别器数据130f，对应距离图像数据的每个位置(像素)，判定对应的部位标签。

例如，判定部240c对距离图像数据的周边的特征量与识别器数据130f的各分支节点f进行比较，对各分支节点f进行追踪，并将追踪到的目的地点的叶节点R所示出的部位标签作为判定结果的部位标签。判定部240c通过也对其它的像素反复执行上述处理，判定与所有距离图像数据对应的部位标签。判定部240c将使距离图像数据的各位置与部位标签建立对应的第一判定结果输出给识别部240d。

对判定部240c选择骨骼估计器数据130g，并进行关节位置的判定的处理进行说明。判定部240c基于从去除部240b获取到的距离图像数据、和骨骼估计器数据130g，从距离图像数据估计对应的关节位置。

例如，判定部240c使用深度神经式网络等，将距离图像数据与关节位置建立对应的第二判定结果输出给识别部240d。

识别部240d是基于判定部240c的第一判定结果或者第二判定结果，识别对象者的姿势的处理部。例如，识别部240d基于第一判定结果所包括的人体的部位标签，提出具有多个三维位置的人体的多个骨骼模型。识别部240d从多个骨骼模型中选择可能性最高的骨骼模型，并基于所选择的骨骼模型，识别对象者的姿势。

识别部240d基于第二判定结果所包括的人体的关节位置，生成骨骼模型，并基于生成的骨骼模型，识别对象者的姿势。

接下来，对本实施例所涉及的学习装置的处理顺序以及识别装置200的处理顺序进行说明。图10是表示本实施例所涉及的学习装置的处理顺序的流程图。如图10所示，学习装置100的获取部140a从动作捕捉装置10获取动作捕捉数据130a(步骤S101)。

学习装置100的生成部140b生成人体模型数据130b(步骤S102a)。生成部140b生成物体模型数据130c(步骤S102b)。此外，生成部140b也可以将预先生成的物体模型数据用作物体模型数据130c。

生成部140b生成合成了与移动对应的多个人体模型和物体模型的合成模型数据(步骤S103)。生成部140b从合成模型表130d去除冗余性(步骤S104)。

生成部140b基于合成模型数据，在学习图像表130e中登记部位标签图像数据、距离图像数据(步骤S105)。

学习装置100的修正部140c将距离图像数据中与部位标签“物体”对应的位置的距离修正为无限远，将部位标签图像数据的物体的部位标签修正为与背景相同(步骤S106)。

生成部140b生成关节位置数据，并登记于学习图像表130e(步骤S107)。

学习装置100的学习部140d在基于距离图像数据和部位标签图像数据生成识别器的情况下(步骤S108，是)，移至步骤S109。在学习部140d基于距离图像数据和部位标签图像数据不生成识别器的情况下(步骤S108，否)，移至步骤S111。

学习部140d对距离图像数据的特征量与部位标签的关系进行机械学习，生成识别器数据130f(步骤S109)。学习装置100的通知部140e将识别器数据130f通知给识别装置100(步骤S110)。

学习部140d对距离图像数据的特征量与关节位置的关系进行机械学习，生成骨骼估计器数据130g(步骤S111)。学习装置100的通知部140e将骨骼估计器数据130f通知给识别装置100(步骤S112)。

图11是表示本实施例所涉及的识别装置的处理顺序的流程图(1)。在图11的处理中，设为识别装置200使用识别器数据130f进行处理。识别装置200的获取部240a从距离传感器20获取识别距离图像数据230a(步骤S201)。

识别装置200的去除部240b从识别距离图像数据230a去除背景、以及规定的物体(步骤S202)。识别装置200的判定部240c基于识别器数据130f和距离图像数据，判定距离图像数据所包括的人体的各部位标签(步骤S203)。

识别装置200的识别部240d基于人体的各部位标签，识别对象者的姿势(步骤S205)。

图12是表示本实施例所涉及的识别装置的处理顺序的流程图(2)。在图12的处理中，设为识别装置200使用骨骼估计器数据130g进行处理。识别装置200的获取部240a从距离传感器20获取识别距离图像数据230a(步骤S301)。

识别装置200的去除部240b从识别距离图像数据230a去除背景、以及规定的物体(步骤S302)。识别装置200的判定部240c基于骨骼估计器数据130g和距离图像数据，判定距离图像数据所包括的人体的关节位置(步骤S303)。

识别装置200的识别部240d基于人体的关节位置，识别对象者的姿势(步骤S304)。

接下来，对本实施例所涉及的学习装置100以及识别装置200的效果进行说明。学习装置100的生成部140b基于将人体模型数据130b与物体模型数据130c合成的合成模型数据，生成将距离图像数据与部位标签图像建立对应的多个学习图像。学习装置100将与距离图像数据的物体的区域对应的值修正为与背景的值相同的值，通过对多个学习图像进行机械学习，生成将距离图像数据的特征与人体的部位标签建立对应的第一识别器数据130f。该第一识别器数据130f是将距离图像数据的特征与人体的部位标签建立对应的识别器，所以即使在距离图像获取时同时存在人体与物体的情况下，也能够去除物体的影响，从距离图像数据确定出人体的各部位标签。

学习装置100生成将距离图像数据与关节位置数据建立对应的多个学习图像。学习装置100通过对多个学习图像进行机械学习，生成将距离图像数据的特征与人体的关节位置建立对应的骨骼估计器数据130g。该骨骼估计器数据130g是将距离图像数据的特征与人体的关节位置建立对应的识别器，所以即使在距离图像获取时同时存在人体与物体的情况下，也能够去除物体的影响，确定出人体的关节位置。

识别装置200使用从自距离传感器20获取的识别距离图像数据230a去除了背景、以及规定的物体后的距离图像数据以及识别器数据130f，判定对象者的部位标签。因此，即使在距离图像获取时，同时存在人体和物体的情况下，也能够去除物体的影响，确定出距离图像数据的人体的部位标签。即，即使存在物体的遮挡，也能够进行正确的部位识别。

识别装置200使用从自距离传感器20获取的识别距离图像数据230a去除了背景、以及规定的物体后的距离图像数据以及骨骼估计器数据130g，判定对象者的关节位置。因此，即使在距离图像获取时，同时存在人体和物体的情况下，也能够去除物体的影响确定出人体的关节位置。即，即使存在物体的遮挡，也能够进行正确的部位识别。

然而，上述的实施例的内容是一个例子，学习装置100以及识别装置200的处理并不限定于上述的处理。以下，对其它的处理1～3进行说明。

对其它的处理1进行说明。在上述的处理中，学习装置100将距离图像数据所包括的人体的各部位以及物体的部位中物体的部位的区域的值修正为背景的值，但并不限定于此。例如，学习装置100的修正部140c对距离图像数据，将与人体的头发的部位对应的区域的值也修正为背景的值。另外，修正部140c也可以将部位标签图像数据的人体的头发的部分的部位标签修正为背景。例如，在头发的颜色为黑色的情况下，有距离传感器20的激光不被反射，而从距离图像数据消失的情况。因此，通过预先去除人物的头发的部位，生成学习图像，并生成识别器数据130f，能够进一步使部位标签的识别精度提高。

对其它的处理2进行说明。在上述的说明中，学习装置100通过对距离图像数据、和包括全部人体的关节位置的关节位置数据的模式进行反复学习，生成骨骼估计器数据130g，但并不限定于此。例如，也可以学习装置100的学习部140d即使在人体的关节位置由于物体的影响而不能够获取一部分的情况下，也通过对距离图像数据、和包括人体的关节位置(由于物体的影响而缺失一部分)的关节位置数据的模式进行反复学习，生成骨骼估计器数据130g。

对其它的处理3进行说明。在上述的处理中，学习装置100生成识别器数据130f、骨骼估计器数据130g，识别装置200使用识别器数据130f、骨骼估计器数据130g识别对象者的姿势，但并不限定于此。例如，也可以由进行学习装置100以及识别装置200的处理的距离图像处理装置执行与上述实施例对应的处理。例如，距离图像处理装置在“学习阶段”，通过执行与图2的控制部140相同的处理，生成识别器数据130f、骨骼估计器数据120g。距离图像处理装置在“识别阶段”，使用在学习阶段学习到的识别器数据130f、骨骼估计器数据130g，执行与图9所示的控制部240相同的处理，识别对象者的姿势。

接下来，对实现与上述实施例所示的学习装置100以及识别装置200相同的功能的计算机的硬件构成的一个例子进行说明。图13是表示实现与学习装置相同的功能的计算机的硬件构成的一个例子的图。

如图13所示，计算机300具有执行各种运算处理的CPU301、接受来自用户的数据的输入的输入装置302、以及显示器303。另外，计算机300具有从存储介质读取程序等的读取装置304、和经由有线或者无线网络在与其它的计算机(校准装置10等)之间进行数据的授受的接口装置305。另外，计算机300具有暂时存储各种信息的RAM306、和硬盘装置307。而且，各装置301～307与总线308连接。

硬盘装置307具有获取程序307a、生成程序307b、修正程序307c、学习程序307d、以及通知程序307e。CPU301读出获取程序307a、生成程序307b、修正程序307c、学习程序307d、通知程序307e并在RAM306展开。

获取程序307a作为获取处理306a发挥作用。生成程序307b作为生成处理306b发挥作用。修正程序307c作为修正处理306c发挥作用。学习程序307d作为学习处理306d发挥作用。通知程序307e作为通知处理306e发挥作用。

获取处理306a的处理与获取部140a的处理对应。生成处理306b的处理与生成部140b的处理对应。修正处理306c的处理与修正部140c的处理对应。学习处理306d的处理与学习部140d的处理对应。通知部处理306e的处理与通知部140e的处理对应。

此外，可以不必从最初开始使各程序307a～307e存储于硬盘装置307。例如，也可以使各程序存储于插入计算机300的软盘(FD)、CD－ROM、DVD盘、光磁盘、IC卡等“可移动物理介质”。然后，计算机300读出各程序307a～307e并执行。

如图14所示，计算机400具有执行各种运算处理的CPU401、接受来自用户的数据的输入的输入装置402以及显示器403。另外，计算机400具有从存储介质读取程序等的读取装置404、和经由有线或者无线网络与其它计算机(动作捕捉装置10等)之间进行数据的授受的接口装置405。另外，计算机400具有暂时存储各种信息的RAM406、和硬盘装置407。而且，各装置401～407与总线408连接。

硬盘装置407具有获取程序407a、去除程序407b、判定程序407c、识别程序407d。CPU401读出获取程序407a、去除程序407b、判定程序407c、识别程序407d并展开至RAM406。

获取程序407a作为获取处理406a发挥作用。去除程序407b作为去除处理406b发挥作用。判定程序407c作为判定处理406c发挥作用。识别程序407d作为识别处理406d发挥作用。

获取处理406a的处理与获取部240a的处理对应。去除处理406b的处理与去除部240b的处理对应。判定处理406c的处理与判定部240c的处理对应。识别部处理406d的处理与识别部240d的处理对应。

此外，各程序407a～407d可以不必从最初存储至硬盘装置407。例如，使各程序存储至插入到计算机400的软盘(FD)、CD－ROM、DVD盘、光磁盘、IC卡等“可移动的物理介质”。而且，计算机400也可以读出各程序407a～407d并执行。

附图标记说明

10…动作捕捉装置；20…距离传感器；100…学习装置；200…识别装置。

Claims

1.一种距离图像处理装置，其特征在于，具有：

生成部，基于将人体的三维模型和物体的三维模型合成而得的合成模型，来生成将距离图像与部位图像建立对应的多个学习图像，所述距离图像表示从基准位置到所述人体的各位置或者所述物体的各位置的距离，所述部位图像识别所述人体的各部位或者所述物体的部位；

修正部，基于所述学习图像的距离图像和部位图像，修正所述距离图像的区域中的与所述物体的部位对应的区域的值；以及

学习部，基于具有被修正的距离图像的多个学习图像，学习将所述距离图像的特征与所述人体的部位或者所述物体的部位建立对应的识别器。

2.根据权利要求1所述的距离图像处理装置，其特征在于，

所述生成部基于所述合成模型，生成将所述距离图像与所述人体的各关节位置建立对应的其它的多个学习图像，所述学习部使用所述其它的多个学习图像，学习骨骼估计器。

3.根据权利要求2所述的距离图像处理装置，其特征在于，

所述修正部基于所述学习图像的距离图像和部位图像，进一步修正所述距离图像的区域中的与所述人体的头发的部位对应的区域的值。

4.根据权利要求3所述的距离图像处理装置，其特征在于，

所述修正部将与所述物体的部位对应的区域的值以及与所述人体的头发的部位对应的区域的值修正为与所述距离图像的背景对应的值相同的值。

5.根据权利要求4所述的距离图像处理装置，其特征在于，

所述距离图像处理装置还具有：获取部，从距离传感器获取包括对象者、物体以及背景的距离图像；去除部，通过从包括对象者、物体以及背景的所述距离图像去除背景以及物体来生成对象者距离图像；判定部，基于所述对象者距离图像和所述识别器，判定所述对象者距离图像的位置与所述人体的部位的关系；以及识别部，基于所述判定部的判定结果，根据所述对象者距离图像所包括的所述人体的各部位的关系识别所述对象者的姿势。

6.根据权利要求5所述的距离图像处理装置，其特征在于，

所述判定部基于所述对象者距离图像和所述骨骼估计器，判定所述对象者的关节位置。

7.一种距离图像处理系统，具有学习装置和识别装置，其特征在于，

所述学习装置具有：

学习部，基于具有被修正的距离图像的多个学习图像，学习将所述距离图像的特征与所述人体的部位或者所述物体的部位建立对应的识别器，

所述识别装置具有：

获取部，从距离传感器获取包括对象者、物体以及背景的距离图像；

去除部，通过从包括对象者、物体以及背景的所述距离图像去除背景、以及物体来生成对象者距离图像；

判定部，基于所述对象者距离图像和所述识别器，判定所述对象者距离图像的位置与所述人体的部位的关系；以及

识别部，基于所述判定部的判定结果，根据所述对象者距离图像所包括的所述人体的各部位的关系识别所述对象者的姿势。

8.一种距离图像处理方法，其是计算机执行的距离图像处理方法，其特征在于，执行以下处理：

基于将人体的三维模型和物体的三维模型合成而得的合成模型，生成将距离图像与部位图像建立对应的多个学习图像，所述距离图像表示从基准位置到所述人体的各位置或者所述物体的各位置的距离，所述部位图像识别所述人体的各部位或者所述物体的部位，

基于所述学习图像的距离图像和部位图像，修正所述距离图像的区域中的与所述物体的部位对应的区域的值，

基于具有被修正的距离图像的多个学习图像，学习将所述距离图像的特征与所述人体的部位或者所述物体的部位建立对应的识别器。

9.根据权利要求8所述的距离图像处理方法，其特征在于，

在所述生成的处理中，基于所述合成模型，生成将所述距离图像与所述人体的各关节位置建立对应的其它的多个学习图像，在所述学习的处理中，使用所述其它的多个学习图像，学习骨骼估计器。

10.根据权利要求9所述的距离图像处理方法，其特征在于，

在所述修正的处理中，基于所述学习图像的距离图像和部位图像，进一步修正所述距离图像的区域中的与所述人体的头发的部位对应的区域的值。

11.根据权利要求10所述的距离图像处理方法，其特征在于，

在所述修正的处理中，将与所述物体的部位对应的区域的值以及与所述人体的头发的部位对应的区域的值修正为与所述距离图像的背景对应的值相同的值。

12.根据权利要求11所述的距离图像处理方法，其特征在于，

还执行从距离传感器获取包括对象者、物体以及背景的距离图像，通过从包括对象者、物体以及背景的所述距离图像去除背景以及物体来生成对象者距离图像，基于所述对象者距离图像和所述识别器，判定所述对象者距离图像的位置与所述人体的部位的关系，并基于判定结果根据所述对象者距离图像所包括的所述人体的各部位的关系识别所述对象者的姿势的处理。

13.根据权利要求12所述的距离图像处理方法，其特征在于，

还执行基于所述对象者距离图像和所述骨骼估计器，判定所述对象者的关节位置的处理。

14.一种距离图像处理程序，其特征在于，

使计算机执行以下处理：

15.根据权利要求14所述的距离图像处理程序，其特征在于，

16.根据权利要求15所述的距离图像处理程序，其特征在于，

17.根据权利要求16所述的距离图像处理程序，其特征在于，

18.根据权利要求17所述的距离图像处理程序，其特征在于，

19.根据权利要求18所述的距离图像处理程序，其特征在于，