CN102696054B

CN102696054B - 进深信息生成装置、进深信息生成方法及立体图像变换装置

Info

Publication number: CN102696054B
Application number: CN201180005648.2A
Authority: CN
Inventors: 山田整; T·图马农塔瓦特; P·拉桑; 申省梅
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Bingxi Fuce Co ltd
Priority date: 2010-11-10
Filing date: 2011-11-09
Publication date: 2016-08-03
Anticipated expiration: 2031-11-09
Also published as: CN102696054A; JPWO2012063480A1; JP5887515B2; WO2012063480A1; EP2639761A1; EP2639761A4; EP2639761B1; US9014462B2; US20120274634A1

Abstract

本发明的进深信息生成装置，具备：区域提取部（10），从二维图像中检测人物的脸部，基于检测出的脸部，提取表示该二维图像的区域内的人物的人物区域；以及进深图生成部（11），对所提取的上述人物区域赋予与该人物区域以外的区域的进深值不同的进深值，从而生成用来将上述人物区域与该人物区域以外的区域分离的进深图的。由此，能够生成用来显示不对视听者带来不协调感的3D弹出的进深图。

Description

进深信息生成装置、进深信息生成方法及立体图像变换装置

技术领域

本发明涉及进深信息生成装置、进深信息生成方法及立体图像变换装置，特别涉及用来根据二维图像生成进深图的进深信息生成装置、进深信息生成方法及立体图像变换装置。

背景技术

已知有如下方法：生成二维图像（2D图像）中的进深信息（以下，记作进深图），使用所生成的进深图将对应于2D图像的立体对（左眼图像及右眼图像）进行合成，从而将2D图像变换为三维图像（3D图像）。

例如，在专利文献1中，公开了基于包含视差信息的2D图像制作3D图像的方法。具体而言，在专利文献2中，输入2D图像，从所输入的2D图像中提取人物的脸部的图像而取得脸部图像，通过对所取得的脸部图像赋予视差信息而制作3D图像。并且，将制作出的3D图像为了显示在终端屏幕等而输出。

此外，例如在专利文献2中，公开了根据基本构造模型及非3D图像生成进深图的方法。具体而言，在专利文献2所公开的方法中，为了推测场景的进深构造，首先，计算该场景的非3D图像（2D图像）中的规定区域的高频成分或像素值的亮度信号的活度（activity）的统计量。接着，基于计算出的统计值及各区域中的其构成比，对该非3D图像生成3种基本进深图模型。最后，通过将非3D图像的R信号（RGB颜色空间中的R成分）叠加在所生成的基本进深模型中，生成针对该非3D图像的进深图。这样，在专利文献1中，根据非3D图像推测进深信息。

此外，例如在专利文献3中，公开了使用基于样本图像生成的进深图从2D图像变换为3D图像的方法。在专利文献3所公开的方法中，首先，使用作为背景图像存储有包含进深信息的样本图像的数据库，匹配所输入的2D图像的背景图像。接着，基于匹配的背景图像，提取前景图像。此外，利用使用了基于图形的段的颜色划分方法或比较技术，检测2D图像的前景图像。这样，通过提取前景图像及背景图像，生成前景图像与背景图像的相对的进深图。这样，在专利文献3中，基于样本图像生成进深信息。

此外，作为为了使用运动信息得到运动视差而生成进深图的方法，已知有ShapeFromMotion（SFM）法。在SFM法中，对于由移动体的视差形成的三维空间（3D空间）的对象物，在视频帧及模型整体上推测对象物的运动。另外，在SFM法中，设为距摄像机近的对象物相比于距摄像机远的对象物具有更大的视差来推测对象物的运动。

现有技术文献

专利文献

专利文献1：日本特开2002－194285号公报

专利文献2：美国专利第7262767号说明书

专利文献3：美国专利申请公开第20100014781号说明书

发明概要

发明要解决的问题

但是，在通过上述以往的方法生成进深图的情况下，如以下说明那样，有3D弹出（popup）效果不充分、对视听者带来不协调感的问题。

首先，在专利文献1所公开的方法中，只是提取脸部并对所提取的脸部赋予进深值，不是将人物的身体整体进行3D弹出，因此3D弹出效果不充分。即，给视听者带来不协调感。特别是，在较大的屏幕上的显示中，不协调感较大，3D弹出效果不充分。

接着，在专利文献2所公开的方法中，存在生成不自然而不舒服的（有不协调感的）3D图像、特别是在边界的周边发生人为现象（artifact）的问题。这起因于R信号追加处理及基本场景构造的模型。

接着，在专利文献3所公开的方法中，人物等的对象物被识别为前景图像，但在时间序列上的图像（影像）中，对象物并不一定被识别为前景图像，所以存在发生帧间的闪烁的问题。此外，为了避免该闪烁的发生，需要进深图的时间序列上的平滑化方法，但在专利文献3中没有该技术的公开及暗示。

最后，在作为其他的已知方法的SFM法中，有在静止图像或相对没有运动的部分中不能制作3D的对象物的问题。

这样，在使用通过上述以往的方法生成的进深图将2D图像变换为3D图像的情况下，有3D弹出效果不充分、对视听者带来不协调感的问题。

发明内容

本发明是鉴于上述情况而做出的，目的是提供一种生成用来显示不对视听者带来不协调感的3D弹出的进深图的进深信息生成装置及进深信息生成方法。

用于解决问题的手段

为了达到上述目的，有关本发明的一技术方案的进深信息生成装置，具备：区域提取部，从二维图像中检测人物的脸部，基于检测到的脸部，提取表示该二维图像的区域内的上述人物的人物区域；以及生成部，通过对所提取的上述人物区域赋予与该人物区域以外的区域的进深值不同的进深值，生成用来将上述人物区域与该人物区域以外的区域分离的进深图。

根据本结构，能够仅使用脸部检测来得到人物区域。由此，能够实现能够生成用来显示不对视听者带来不协调感的3D弹出的进深图的进深信息生成装置。

此外，也可以是，上述区域提取部具备：检测部，检测上述二维图像中的人物的脸部；临时区域设定部，基于检测到的上述人物的脸部的位置，设定临时人物区域，该临时人物区域是包含上述人物的脸部的区域的人物模型区域；以及人物区域决定部，基于上述临时人物区域的特征和与该临时人物区域邻接的像素的特征，决定上述人物区域。

此外，也可以是，上述人物区域决定部具备：提取特征提取部，提取上述临时人物区域内的特征和与该临时人物区域邻接的像素的特征；区域调整部，基于由上述特征提取部提取的上述临时人物区域的特征和与该临时人物区域邻接的像素的特征，调整上述临时人物区域的范围；区域决定部，将由上述区域调整部调整后的临时人物区域范围决定为上述人物区域。

此外，也可以是，上述特征提取部具备：直方图计算部，作为上述临时人物区域的特征，计算上述临时人物区域内的彩色直方图；像素选择部，选择与该临时人物区域邻接的像素；以及颜色信息计算部，作为与该临时人物区域邻接的像素的特征，计算由上述像素选择部选择的像素的颜色信息。

此外，也可以是，上述区域调整部具备：比较部，将由上述颜色信息计算部计算出的像素的颜色信息与由上述直方图计算部计算出的彩色直方图比较；区域范围更新部，在该像素的颜色是在由上述直方图计算部计算出的彩色直方图中包含的颜色的情况下，设为该像素包含在上述人物区域中而将上述临时人物区域更新，以扩大上述临时人物区域的范围，在该像素的颜色不是在上述彩色直方图中包含的颜色的情况下，设为该像素不包含在上述人物区域中而不更新上述临时人物区域。

此外，也可以是，上述生成部具备：赋予部，基于由上述检测部检测到的人物的脸部相对于上述二维图像的尺寸及位置，计算由上述区域提取部提取出的人物区域的第一进深值，将计算出的第一进深值赋予给该人物区域；以及合成部，通过将对由上述临时区域设定部设定的临时人物区域赋予的第二进深值与第一进深值合成，生成并取得将该人物区域与该人物区域以外的区域分离的进深图。

此外，也可以是，还具备平滑化处理部，该平滑化处理部使用上述二维图像的信息进行由上述生成部生成的进深图中的上述人物区域的边缘的平滑化。

此外，也可以是，上述平滑化处理部基于根据上述二维图像的像素强度计算出的加权函数，使用上述二维图像和由上述生成部生成的进深图将上述进深图在空间上进行滤波，由此将上述进深图中的上述人物区域的边缘平滑化。

此外，也可以是，上述平滑化处理部基于根据上述二维图像中的对象帧及先行帧的图像数据的像素强度和像素强度的差计算出的加权函数，使用上述二维图像中的对象帧及先行帧、和由上述生成部生成的进深图将上述进深图在空间上且时间上进行滤波，由此将上述进深图中的上述人物区域的边缘平滑化。

此外，为了达到上述目的，有关本发明的一技术方案的立体图像变换装置具备：上述技术方案的进深信息生成装置；绘制部，使用由上述进深信息生成装置生成的进深图，将上述二维图像变换为对应于上述二维图像的立体图像。

此外，为了达到上述目的，有关本发明的一技术方案的进深信息生成装置，具备：区域提取部，从二维图像中检测关注对象物中的作为能够统计性地检测的区域的对象区域，基于检测到的对象区域，提取该二维图像的区域内的关注对象物区域；以及生成部，通过对所提取的上述关注对象物区域赋予与该关注对象物区域以外的区域的进深值不同的进深值，生成用来将人物区域与该人物区域以外的区域分离的进深图。

此外，也可以是，上述区域提取部具备：检测部，检测上述二维图像中的对象区域；临时区域设定部，基于上述检测到的对象区域的位置，设定临时关注对象物区域，该临时关注对象物区域是包含检测到的上述对象区域的区域的关注对象物模型的区域；以及关注对象物区域决定部，基于上述临时关注对象物区域的特征和与该临时关注对象物区域邻接的像素的特征，更新上述临时关注对象物区域范围，从而决定关注对象物区域。

此外，也可以是，上述关注对象物是包括猫、狗、鸟及食物的能够由计算机检测的物体。

此外，也可以是，还具备平滑化处理部，该平滑化处理部使用上述二维图像的信息进行由上述生成部生成的进深图中的上述关注对象物区域的边缘的平滑化。

此外，也可以是，还具备从用户接收指定数据的接收部；上述指定数据表示由用户指定的关注对象区域；上述区域提取部基于上述指定数据，从被指定的关注对象物区域中检测上述对象区域。

此外，也可以是，上述检测部基于上述指定数据，检测上述二维图像中的对象区域来识别对象区域的位置。

此外，也可以是，上述生成部具备：赋予部，基于由上述检测部检测到的对象区域相对于上述二维图像的尺寸及位置、和输入的上述指定数据，计算由上述区域提取部提取的关注对象物区域的第一进深值，将计算出的第一进深值赋予给该关注对象物区域；合成部，将对由上述临时区域设定部设定的临时关注对象物区域赋予的第二进深值与第一进深值合成，生成将该关注对象物区域与该关注对象物区域以外的区域分离的进深图。

此外，为了达到上述目的，有关本发明的一技术方案的进深信息生成方法，包括：区域提取步骤，从二维图像中检测人物的脸部，基于检测出的脸部提取表示该二维图像的区域内的人物的人物区域；以及生成步骤，通过对所提取的上述人物区域赋予与该人物区域以外的区域的进深值不同的进深值，生成用来将人物区域与该人物区域以外的区域分离的进深图。

发明效果

根据本发明，能够实现可生成用来显示不对视听者带来不协调感的3D弹出的进深图的进深信息生成装置、进深信息生成方法、立体图像变换装置。此外，根据本发明，能够实现高效率、低存储器且实时动作，能够高精度地自动分辨物体边界，所以在各种场景中能够得到自然而舒服的3D弹出效果。

此外，本发明的另一效果是仅使用脸部检测得到人物区域。因而，本发明与在专利文献3中公开的方法相比存储器少也可以。进而，本发明能够在时隙较少、实时的用途中使用。

因而，本发明具有超过作为先行技术的专利文献1及其他已知的方法的效果。此外，本发明仅使用脸部检测得到人物区域。因而，本发明与在专利文献3中公开的方法相比存储器较少就足够。进而，本发明能够在时滞少、实时的用途中使用。

附图说明

图1是有关本发明的实施方式的进深信息生成装置的功能模块图。

图2是用来说明有关本发明的实施方式的进深信息生成装置的处理概要的流程图。

图3是表示有关本发明的实施方式的区域提取部的详细结构的图。

图4是有关本发明的实施方式的人物区域决定部的详细结构的图。

图5是用来说明有关本发明的实施方式的区域提取部的处理的流程图。

图6A是用来说明有关本发明的实施方式的由区域提取部从二维图像中提取临时人物区域为止的处理的状况的图。

图6B是用来说明有关本发明的实施方式的由区域提取部从二维图像中提取临时人物区域为止的处理的状况的图。

图6C是用来说明有关本发明的实施方式的由区域提取部从二维图像中提取临时人物区域为止的处理的状况的图。

图7是用来说明有关本发明的实施方式的人物区域决定部的处理的流程图。

图8是用来说明有关本发明的实施方式的由人物区域决定部决定了人物区域时的处理的状况的图。

图9A是用来说明决定未能检测出脸部的二维图像的人物区域的处理的状况的图。

图9B是用来说明决定未能检测出脸部的二维图像的人物区域的处理的状况的图。

图9C是用来说明决定未能检测出脸部的二维图像的人物区域的处理的状况的图。

图9D是用来说明决定未能检测出脸部的二维图像的人物区域的处理的状况的图。

图9E是用来说明决定未能检测出脸部的二维图像的人物区域的处理的状况的图。

图9F是用来说明决定未能检测出脸部的二维图像的人物区域的处理的状况的图。

图10是表示有关本发明的实施方式的进深图生成部的详细结构的图。

图11是用来说明有关本发明的实施方式的进深图生成部的处理的流程图。

图12A是表示由有关本发明的实施方式的进深图生成部生成的临时进深图的例子的图。

图12B是表示由有关本发明的实施方式的进深图生成部生成的临时进深图的例子的图。

图13是用来说明有关本发明的实施方式的在进深信息生成装置中输入影像的情况下的平滑化处理部的处理的图。

图14是用来说明有关本发明的实施方式的在进深信息生成装置中输入二维图像的情况下的平滑化处理部的处理的图。

图15是表示有关本发明的实施方式的滤波的动作的图。

图16是表示有关本发明的实施方式的平滑化处理部的处理后的进深图的状况的图。

图17是有关本发明的实施方式的三维影像生成装置的功能模块图。

图18是有关本发明的实施方式的三维影像生成装置的功能模块图的另一例。

图19是用来说明有关本发明的实施方式的变形例2的进深信息生成装置的处理概要的流程图。

图20是用来说明有关本发明的实施方式的变形例2的进深信息生成装置的处理概要的流程图。

图21是用来说明有关本发明的实施方式的变形例2的进深信息生成装置的处理概要的流程图。

图22是表示对二维图像的人物区域及背景进行提取以基于颜色信息分割为不同的层的处理的例子的图。

图23是表示有关本发明的实施方式的变形例4的3D图像显示控制装置的功能模块图的图。

图24是表示在不进行人物区域的时间上的匹配的情况下发生闪烁的图。

图25是表示本发明的进深信息生成方法的处理的流程的图。

具体实施方式

以下，参照附图对本发明的实施方式进行说明。另外，各图是示意图，并不一定是严格图示的。

此外，在以下说明的实施方式中，表示本发明的优选的一具体例。在实施方式中表示的数值、形状、构成要素、构成要素的配置及连接形态等是一例，并不是要限定本发明。本发明由权利要求书限定。由此，以下的实施方式的构成要素中的、没有在独立权利要求中记载的构成要素不是为了达到本发明的目的所必须的，但作为构成更优选的形态的要素进行说明。

图1是有关本发明的实施方式的进深（depth）信息生成装置的功能模块图。

图1所示的进深信息生成装置1相当于本发明的进深信息生成装置，根据输入的二维图像生成进深图（depthmap）。这里，所谓进深图，是用来分离2D图像上的检测对象的对象物（检测对象物）与背景的进深信息被映射到2D图像中的进深信息。此外，二维图像既可以是二维图像单体，也可以是构成影像的连续的二维图像。

进深信息生成装置1具备区域提取部10、进深图生成部11、和平滑化处理部12。此外，进深信息生成装置1使用设置在其外部的存储器13。

区域提取部10从输入的二维图像（2D图像）中检测人物的脸部，基于检测到的脸部提取表示二维图像的区域内的人物的人物区域。

具体而言，在区域提取部10中，使用已知的检测算法检测关注对象物中的作为能够统计性地检测的区域的对象区域，由此提取二维图像的区域内的关注对象物区域。这里，关注对象物典型地讲是人物，但并不限定于此。只要是猫、狗、鸟及食物等能够由计算机检测到的物体就可以。以下，在本实施方式中，说明关注对象物是人物、对象区域是脸部的情况。即，在本实施方式中，区域提取部10使用脸部检测算法检测存在于二维图像内的人物的脸部区域。区域提取部10基于检测到的脸部区域的尺寸，提取包括该脸部区域的人物的区域。

进深图生成部11通过对所提取的人物区域赋予与人物区域以外的区域的进深值不同的进深值，生成用来将人物区域与该人物区域以外的区域分离的进深图。

具体而言，在进深图生成部11中，首先，通过赋予针对由区域提取部10提取出的人物区域的进深值，生成针对该人物区域的临时的进深图。并且，通过将与最初设定为基于检测到的脸部的人物区域（临时人物区域）对应的临时人物区域的进深值合成到临时的进深图中，生成针对该人物区域的进深图。由此，对人物区域的进深图赋予与人物区域以外的区域（背景）不同的值，将人物区域与背景分离。另外，人物区域的进深值设定为比背景更接近于摄像机。例如，进深图如果由8位的灰色标度（grayscale）图像生成，则表示进深的值（进深值的范围）是0～255，255在最接近于摄像机的情况下被赋予，0在距摄像机（或背景）远的情况下被赋予。

平滑化处理部12至少使用二维图像的信息，进行由进深图生成部11生成的进深图中的人物区域的边缘的平滑化。

具体而言，平滑化处理部12在进深信息生成装置1中被输入二维图像的情况下，基于根据二维图像的像素强度计算出的加权函数，使用二维图像和由进深图生成部11生成的进深图，将该进深图在空间上进行滤波。这样，平滑化处理部12将由进深图生成部11生成的进深图中的人物区域的边缘平滑化。

此外，平滑化处理部12在进深信息生成装置1中被输入影像的情况下，基于计算出的加权函数，使用二维图像中的对象帧及先行帧、和由进深图生成部11生成的进深图，将该进深图在空间且时间上滤波。这里，加权函数基于多个二维图像中的对象帧及先行帧的图像数据的像素强度和像素强度的差计算。这样，平滑化处理部12将该进深图中的人物区域的边缘平滑化。

换言之，平滑化处理部12使用对象帧及先行帧的二维图像制作三维图像栅格，在该处理中，基于从对象帧和先行帧的二维图像中提取的邻接层信息（人物区域以外的区域）及对象物层信息（人物区域），将由进深图生成部11生成的进深图数据的各像素平滑化。

如以上这样，平滑化处理部12对针对人物区域和人物区域以外的区域（背景）生成的进深图进行平滑化处理。这是因为，由进深图生成部11生成的进深图不能保证100%的精度，在几乎所有的情况下都会在人物的边界处产生某种不完善。例如，在根据由进深图生成部11生成的进深图不平滑化而生成三维图像的情况下，看起来在人物中有网眼、或看起来不均匀。这意味着由进深图生成部11生成的进深图不是精度高的进深图。

存储器13保存有脸部的特征图案及时间性的图像信息等进深信息生成装置1使用的数据。存储器13例如由基于闪存的存储卡、硬盘驱动器构成。

如以上这样构成进深信息生成装置1。该进深信息生成装置1根据二维图像提取人物区域的进深信息，生成人物区域和人物区域以外的进深图。

接着，说明如以上这样构成的进深信息生成装置1生成进深图为止的处理的概要。

图2是用来说明有关本发明的实施方式的进深信息生成装置1的处理概要的流程图。

首先，在进深信息生成装置1中被输入图像或影像（S1）。

接着，在S2中，进深信息生成装置1生成进深图。具体而言，进深信息生成装置1从二维图像中检测人物的脸部，基于检测出的脸部提取表示该二维图像的区域内的人物的人物区域（S21）。接着，进深信息生成装置1通过对所提取的人物区域赋予与人物区域以外的区域的进深值不同的进深值，生成用来将人物区域与人物区域以外的区域分离的进深图（S22）。进而，使用二维图像的信息进行所生成的进深图中的人物区域的边缘的平滑化（S23）。如此，进深信息生成装置1生成进深图。

最后，进深信息生成装置1将所生成的进深图输出（S23）。

接着，对进深信息生成装置1的各构成要素的详细情况和其处理的流程进行说明。

首先，对区域提取部10的详细结构进行说明。

图3是表示有关本发明的实施方式的区域提取部10的详细结构的图。图4是表示有关本发明的实施方式的人物区域决定部103的详细结构的图。

如图3所示，区域提取部10具备脸部检测部101、临时区域设定部102、和人物区域决定部103。

这里，存储器131及存储器132是存储器13的一部分。存储器131保存有脸部检测部101及临时区域设定部102使用的数据，例如保存有脸部特征图案数据及人物模型的区域数据（也称作前掩模（premask））等的数据。存储器132保存有人物区域决定部103使用的数据，例如保存有前掩模的彩色直方图数据。

脸部检测部101检测二维图像中的人物的脸部。具体而言，脸部检测部101通过脸部检测算法，基于包含保存在存储器131中的脸部特征图案的脸部图像数据，检测二维图像中的脸部。

临时区域设定部102基于由脸部检测部101检测到的人物的脸部的位置，设定临时人物区域，该临时人物区域是包含该人物的脸部的区域的人物模型的区域。具体而言，临时区域设定部102基于由脸部检测部101检测到的脸部相对于二维图像的尺寸及位置，选择保存在存储器131中的前掩模，并利用该前掩模，以使其包含检测到的脸部。即，前掩模的尺寸在根据脸部的尺寸适应性地变更后决定。这样，临时区域设定部102设定临时人物区域。

人物区域决定部103如图3所示，具备特征提取部104、区域调整部105、和区域决定部106。人物区域决定部103基于临时人物区域的特征和与该临时人物区域邻接的像素的特征决定人物区域。

特征提取部104提取临时人物区域内的特征和与该临时人物区域邻接的像素的特征。

更具体地讲，特征提取部104如图4所示，具备直方图计算部1041、像素选择部1042、和颜色信息计算部1043。直方图计算部1041计算临时人物区域内的彩色直方图作为临时人物区域的特征。直方图计算部1041将计算出的临时人物区域内的彩色直方图保存到存储器132中。像素选择部1042选择与该临时人物区域邻接的像素。颜色信息计算部1043计算由像素选择部1042选择的像素的颜色信息（色相及亮度），作为与该临时人物区域邻接的像素的特征。

区域调整部105基于由特征提取部104提取出的临时人物区域的特征和与该临时人物区域邻接的像素的特征，调整临时人物区域的范围。并且，区域调整部105将调整后的临时人物区域的范围决定为人物区域并输出。

更具体地讲，区域调整部105如图4所示，具备比较部1051和区域范围更新部1052。

比较部1051将由颜色信息计算部1043计算出的像素的颜色信息与由直方图计算部1041计算出的彩色直方图比较。在该像素的颜色是在由直方图计算部1041计算出的彩色直方图中包含的颜色的情况下，区域范围更新部1052设为该像素包含在人物区域中而更新临时人物区域，以使临时人物区域的范围包含该像素。另一方面，在该像素的颜色不是在由直方图计算部1041计算出的彩色直方图中包含的颜色的情况下，区域范围更新部1052设为该像素不包含在人物区域中而不更新临时人物区域。

区域决定部106在由区域范围更新部1052进行的临时人物区域的更新结束的情况下，将由区域调整部105调整后的临时人物区域范围决定为人物区域。

区域提取部10如以上这样构成。

接着，对区域提取部10的处理进行说明。

图5是用来说明有关本发明的实施方式的区域提取部10的处理的流程图。图6A～图6C是用来说明由区域提取部10从二维图像中提取临时人物区域为止的处理的状况的图。

首先，在进深信息生成装置1中被输入图像或影像（S1）。例如，在进深信息生成装置1中，作为构成影像的二维图像而被输入图6A所示的帧310。

接着，脸部检测部101检测二维图像中的人物的脸部（S210），脸部检测部101确认二维图像中的人物的脸部的检测是否成功（S211）。这里，例如脸部检测部101在脸部检测成功的情况下，如图6B所示，检测出帧310的人物的脸部315。

临时区域设定部102在脸部检测部101的脸部检测成功的情况下（S211的是），基于由脸部检测部101检测出的人物的脸部的位置，设定作为包含该人物的脸部的区域的人物模型的区域的临时人物区域（S212）。这里，例如临时区域设定部102如图6C所示，基于由脸部检测部101检测出的人物的脸部的位置，设定临时人物区域320。另外，临时人物区域320是在人物中包含头、颈、身体及腿的设想下，基于脸部的大小来制作出。此外，如上所述，临时人物区域320的尺寸基于检测出的脸部的大小而变更（扩大或缩小）。

接着，在S213中，人物区域决定部103基于临时人物区域的特征和与该临时人物区域邻接的像素的特征，决定人物区域。

具体而言，首先，特征提取部104提取临时人物区域内的特征和与该临时人物区域邻接的像素的特征（S214）。这里，特征提取部104将针对由临时区域设定部102设定的最初的临时人物区域（前掩模）提取的特征向存储器132保存。另外，向存储器132保存的数据（前掩模的特征数据）是前掩模的彩色直方图。详细情况在后面叙述，所以这里的说明省略。

接着，区域调整部105基于由特征提取部104提取出的临时人物区域的特征和与该临时人物区域邻接的像素的特征，调整临时人物区域的范围（S215）。区域决定部106在临时人物区域的范围的调整（临时人物区域的更新）结束的情况下，将该调整后（更新后）的临时人物区域范围决定为人物区域。这里，特征提取部104将针对由区域决定部106决定的人物区域提取的特征向存储器133保存。另外，向存储器133保存的数据是所决定的人物区域的彩色直方图。详细情况在后面叙述，所以这里的说明省略。

并且，区域调整部105将所决定的人物区域输出（S216）。

另外，在进深信息生成装置1在S1中被输入图像（二维图像）、在S211中脸部检测部101的脸部检测失败的情况下（S211的否），不进行S217及S218的处理而结束处理。

另一方面，在进深信息生成装置1在S1中被输入影像、在S211中脸部检测部101的脸部检测失败的情况下（S211的No），进行S217的处理。即，在S217中，进深信息生成装置1基于在先行帧（二维图像）中检测出的脸部位置，提取人物的特征。这里，所谓先行帧，是指在构成S1中输入的影像的在时间上连续的二维图像（帧）中、作为S211的脸部检测处理的对象的对象帧的在时间上前1个的帧。

更具体地讲，在S217中，临时区域设定部102基于脸部检测部101在先行帧中进行了脸部检测的人物的脸部的位置，设定包含该人物的脸部的区域的人物模型的区域即临时人物区域。接着，特征提取部104提取该临时人物区域内的特征。

接着，在S218中，区域调整部105将保存在存储器133中的先行帧的人物区域的特征（彩色直方图）与在S218中提取的临时人物区域内的特征比较。区域调整部105在S218中提取的临时人物区域内的特征与先行帧的特征类似的情况下，向S215前进。即，进深信息生成装置1前进到S215，重复S214和S215的处理，决定人物区域。另一方面，区域调整部105在判断为在S218中提取的临时人物区域内的特征与先行帧的特征不类似的情况下，向S216前进。

这样，在影像（运动图像）的情况下，不一定总是能够检测到脸部，所以如S217及S218的处理那样，通过进行人物区域的跟踪（人物区域的时间上的匹配）来做准备，以使在此后生成的3D影像中不发生闪烁。

区域提取部10如上所述地进行处理。

这里，对区域提取部10中的人物区域决定部103的处理（S213）的详细情况进行说明。

图7是用来说明有关本发明的实施方式的人物区域决定部103的处理的流程图。图8是用来说明由人物区域决定部103决定了人物区域时的处理的状况的图。

在S214中，首先，直方图计算部1041计算临时人物区域内的彩色直方图作为临时人物区域的特征。

具体而言，由临时区域设定部102设定临时人物区域（S2131），直方图计算部1041针对临时人物区域的脸部等的肌肤区域计算色相亮度（H－L）直方图及灰色标度直方图，作为设定的临时人物区域的特征。此外，直方图计算部1041针对临时人物区域的服装等的肌肤区域以外的区域计算3个颜色成分的直方图，作为设定的临时人物区域的特征。直方图计算部1041将计算出的临时人物区域内的彩色直方图保存到存储器132a中。另外，存储器132a是存储器132的一部分区域。

这里，色相亮度彩色直方图用来表示临时人物区域中的影色及颜色的灰阶。灰色标度直方图用于表示头发及影子等的检测不到颜色的区域。更具体地讲，在S2141中，直方图计算部1041针对临时人物区域内的各像素计算H值（色相值）及L值（亮度值）。并且，如图7所示，基于HSL彩色模型，针对上述肌肤区域计算色相亮度（H－L）的直方图550（S2132）。另外，在临时人物区域内，在表示头发及影子的部分的不能提取肌肤区域的像素的颜色信息的情况下（即，灰色标度，黑白）的情况下，代替直方图550而计算灰色标度的直方图540（S2132）。此外，针对肌肤区域以外的区域计算3个颜色成分的直方图560（S2133）。

另外，针对临时人物区域内的各像素计算按照H及L颜色通道表示的H－L彩色直方图是提取二维图像中的人物区域的方法的关键。例如，在根据由像素选择部1042选择的像素的H值及L值检测出该像素是红色的情况下，可知该像素位于弱光（较暗的）区域。即，可以根据直方图540判断为该像素位于暗红色区域的范围内。另一方面，在不能提取由像素选择部1042选择的像素的颜色信息的情况下（即，灰色标度，黑白），也能够根据灰色标度的直方图540判断像素是否位于临时人物区域内。

接着，在S2142中，像素选择部1042选择与该临时人物区域邻接的像素（S2134）。颜色信息计算部1043计算由像素选择部1042选择的像素的颜色信息（色相及亮度），作为与该临时人物区域邻接的像素的特征（S2135）。

接着，在S2143中，比较部1051对由颜色信息计算部1043计算出的像素的颜色信息与由直方图计算部1041计算出的彩色直方图进行比较（S2136）。区域范围更新部1052基于比较部1051的结果，更新临时人物区域（S2137）。具体而言，在S2136中，区域范围更新部1052在由像素选择部1042选择的像素的颜色是在由直方图计算部1041计算出的彩色直方图中包含的颜色的情况下，设为该像素包含在人物区域中而更新临时人物区域，以使临时人物区域的范围包含该像素（这里是扩大）。另一方面，区域范围更新部1052在由像素选择部1042选择的像素的颜色不是在由直方图计算部1041计算出的彩色直方图中包含的颜色的情况下，设为该像素不包含在人物区域中而不更新临时人物区域。

接着，针对由区域范围更新部1052更新后的临时人物区域，直方图计算部1041计算更新后的临时人物区域的色相亮度（H－L）的直方图550、灰色标度的直方图540、3个颜色成分的直方图560，作为设定的临时人物区域的特征。另外，直方图计算部1041将更新后的临时人物区域内的彩色直方图向存储器132b保存。另外，存储器133a是存储器132的一部分区域。

这样，人物区域决定部103按照与临时人物区域邻接的一像素判断是否包含在临时人物区域中，并更新临时人物区域（扩大或缩小）。通过重复这样的更新，人物区域决定部103能够决定如图8所示的人物区域340。

即，在S2142中，计算由像素选择部1042选择的像素的H值及L值，并与由直方图计算部1041计算出的直方图540～直方图560匹配（比较）。在该像素的H－L值或灰色标度值是计算出的直方图540～直方图560的范围内的值的情况下，该像素包含在临时人物区域中。另一方面，在该像素不是直方图540～直方图560的范围内的值的情况下，设为该像素不是临时人物区域而排除。这是具有与临时人物区域类似的颜色信息（色相、亮度、或灰色标度）的像素成为为相同的组。

一般而言，在某H（色相）的区域中，有不能区别（不能进行不同的对象物的颜色的区别）的不清晰性，有可能进行错误的匹配。但是，如果像本实施方式那样，提取（区别）由像素选择部1042选择的像素的色相值则能够解决该问题。即，如本实施方式那样使用色相值进行匹配，在不能提取色相值的情况下，将该像素看作灰色标度色来进行匹配，由此能够解决。因而，如图8所示，能够得到大致正确的人物区域340的形状。

这里，说明在进深信息生成装置1中被输入影像的情况。如上所述，在被输入影像（运动图像）的情况下，不一定总是能够检测到脸部。以下，作为S217及S218的处理的详细情况，说明人物区域决定部103进行的处理。图9A～图9F是用来说明决定未能检测到脸部的二维图像的人物区域的处理的状况的图。

在进深信息生成装置1中被输入影像的情况下，例如有即使在图9A所示的先行帧410中检测到脸部、在图9B所示的对象帧420中检测不到脸部的情况。在此情况下，不考虑先行帧与对象帧的进深的一贯性而原样生成进深图，如果生成3D影像，则在与先行帧410和对象帧420对应的影像中有可能产生不自然的3D弹出效果。

该问题如在S217和S218的处理中说明那样，通过使用先行帧和对象帧之间的人物区域的时间上的匹配来解决。

具体而言，首先，对先行帧440进行S2141的处理。即，直方图计算部1041如图9C所示，针对检测到脸部的先行帧910计算决定出的人物区域430的颜色信息（3个色成分（RGB）的直方图560或直方图540、直方图550）。并且，直方图计算部1041将针对先行帧910计算出的人物区域的颜色信息（直方图）保存到存储器132b中。

接着，在对象帧420中检测不到脸部的情况下（S211的否），在S217中，首先，临时区域设定部102如图9D所示，脸部检测部101基于在先行帧910中检测到脸部的人物的脸部的位置，将在先行帧410中决定的人物区域430设定为对象帧420的临时人物区域450。接着，特征提取部104提取该临时人物区域450内的特征（颜色信息的直方图）。

更具体地讲，直方图计算部1041计算对象帧420的临时人物区域450的颜色信息（彩色直方图）。

接着，区域调整部105将保存在存储器133中的先行帧410的人物区域430的特征（彩色直方图）与对象帧420的临时人物区域450的颜色信息（彩色直方图）进行比较（S218）。即，区域调整部105计算这两个直方图间的直方图类似度，判断是否可以将检测到脸部的先行帧410的人物区域430的直方图设定为对象帧420的临时人物区域450。

进深信息生成装置1在直方图类似度的可靠值超过规定的阈值的情况下（S218的是），判断为先行帧410的人物区域430与对象帧420的临时人物区域450类似。人物区域决定部103使用在先行帧410中提取的彩色直方图，针对对象帧420决定人物区域。即，人物区域决定部103重复进行S214和S215的处理，调整如图9E所示的对象帧420的临时人物区域460。

另外，进深信息生成装置1在直方图类似度的可靠值为规定的阈值以下的情况下，将由临时区域设定102设定的临时人物区域450和与其建立了关联的颜色信息（彩色直方图）删除。

这样，进深信息生成装置1针对不能检测到脸部的对象帧420，将在能够检测到脸部的先行帧410中决定的人物区域430作为时间上的匹配区域来使用，因此能够决定如图9F所示的对象帧420的人物区域470。

接着，对进深图生成部11的详细结构进行说明。

如图10所示，进深图生成部11具备赋予部111和合成部112。这里，存储器134是存储器131的一部分。存储器134保存有进深图生成部11使用的数据，例如，保存有针对人物模型的区域（前掩模）的进深值（进深图）等的数据。

赋予部111基于由脸部检测部101检测到的人物的脸部相对于二维图像的尺寸及位置，计算由区域提取部10提取的人物区域的第一进深值，将计算出的第一进深值赋予给该人物区域。这样，赋予部111针对由区域提取部10提取的人物区域生成临时的进深图。

合成部112通过将对由临时区域设定部102设定的临时人物区域赋予的第二进深值与第一进深值合成，生成并取得将该人物区域与该人物区域以外的区域分离的进深图。这样，合成部112通过将对于前掩模的进深值合成到临时的进深图，生成针对该人物区域的进深图。

进深图生成部11如以上这样构成。

接着，对进深图生成部11的处理进行说明。

图11是用来说明有关本发明的实施方式的进深图生成部11的处理的流程图。图12A及图12B是表示由有关本发明的实施方式的进深图生成部11生成的临时的进深图的例子的图。

首先，在进深图生成部11中，被输入由区域决定部106决定的人物区域（S220）。例如，在进深图生成部11中，被输入包含如图8所示的人物区域340的帧。

接着，赋予部111基于由脸部检测部101检测到的人物的脸部相对于二维图像的尺寸及位置，计算由区域提取部10提取的人物区域的第一进深值，将计算出的第一进深值赋予给该人物区域（S221）。

即，赋予部111对由区域提取部10提取的人物区域生成临时的进深图。

这里，基于作为全局的进深值的概算的基本进深模型的概念而生成该临时的进深图。所生成的临时的进深图由通过区域提取部10提取的人物区域和对该人物区域赋予的第一进深值构成，保存在存储器134中。这里，图12A及图12B是临时的进深图的例子，图12A所示的临时的进深图的下部335被赋予距摄像机前近的进深值，图12A所示的临时的进深图的上部330被赋予距摄像机远的进深值。

此外，在S221中，基于包含在人物区域中的脸部的尺寸而赋予针对人物区域的进深值。例如，被赋予的进深值越大则表示距摄像机越近，越小则表示距摄像机越远。此外，在人物区域与背景（人物区域以外的区域）之间赋予不同的进深值。例如，对于图12B所示的人物区域350，为了得到弹出效果赋予距摄像机之前近的进深值，对于背景的下部345赋予距摄像机远的进深值。

接着，合成部112通过将对由临时区域设定部102最初设定的临时人物区域（前掩模）赋予的第二进深值与第一进深值合成，生成并取得将该人物区域与该人物区域以外的区域分离的进深图（S222）。

即，合成部112将预先保存在存储器134中的前掩模的进深值（第二进深值）与由赋予部111生成的临时的进深图合成。

这样，进深图生成部11生成为了将人物区域从背景分离而使用的进深图。

图13是用来说明在有关本发明的实施方式的进深信息生成装置1中被输入影像的情况下的平滑化处理部12的处理的图。图14是用来说明在有关本发明的实施方式的进深信息生成装置1中被输入二维图像的情况下的平滑化处理部12的处理的图。图15是表示有关本发明的实施方式的滤波的动作的图。图16是表示有关本发明的实施方式的平滑化处理部12的处理后的进深图的状况的图。

另外，图13由于在进深信息生成装置1中被输入影像，所以是表示空间上且时间上的平滑化处理的流程图，图14由于在进深信息生成装置1中被输入二维图像，所以是表示空间上的平滑化处理的流程图。图14也可以说是图13的一部分，所以以下对图13的处理进行说明，图14的说明省略。

首先，即使由区域提取部10提取人物区域，但例如如图8的边界形状325那样不能提取完整的人物区域的形状的情况较多。因此，在通过滤波除去不是人物区域的区域时，尤其在基于从二维图像中提取的图像平面的对象物层的、人物区域的边界形状的周边，平滑化处理起到重要的作用。

具体而言，在平滑化处理部12中，在图13的S2313中，基于对象帧t及先行帧t－1的二维图像，生成例如图15所示的三维图像栅格600。这里，x－y平面是二维图像的空间坐标，y轴是从对象帧及先行帧的二维图像中提取的图像层。

此外，在S232中，基于对象帧620和先行帧610的二维图像数据的加权函数，将保存在对象帧625的进深图及存储器136中的先行帧615应用到三维图像栅格600中。这里，加权值及对象帧的进深值的使用方法如以下这样表示。

［数式1］

r_t＝η_d×|D_t-D_temp|，

GD(d)＝GD(d)+r_t×D_t，

GW(d)＝GW(d)+r_t，

(式1)

在式1中，r_t是在将对象帧的进深图应用到三维图像栅格中的方法中使用的加权比，η_d是用来将r_t的值调整到［0，1］的范围中的正规化函数。D_t及D_temp分别是对象帧及所保存的先行帧的进深图。GD（d）是在进深值的范围d中包含于进深数据中的三维图像栅格。GW（d）是在进深值的范围d中包含于进深数据的加权值中的三维图像栅格。

应用保存在存储器135中的先行帧的进深数据的方法如以下这样表示。

［数式2］

r_t-1＝η_I×|I_t-I_t-1|，

GD(d)＝GD(d)+r_t-1×D_temp，

GW(d)＝GW(d)+r_t-1，(式2)

在式2中，r_t－1是使用将保存在存储器135中的先行帧的进深图应用到三维图像栅格中的方法的加权比。η_I是用来将r_t－1的值调整为［0，1］的范围的正规化函数。I_t及I_t-1分别是对象帧及先行帧的二维图像数据。

此外，S235的进深图的先行帧如以下这样表示。

［数式3］

w_t-1＝η_I×|r_t-I_t-1|，

w_t＝1-w_t-1，

D_temp＝w_t×D_t+w_t-1×D_temp，(式3)

在式3中，w_t及w_t-1是在保存对象帧D_t及保存帧D_temp各自的进深图的方法中使用的加权比。

此外，在S233中，将使用计算出的三维滤波器栅格的对象帧在空间上且时间上进行滤波，决定对象帧的包含二维图像的像素的各图像节点间的三线性插值。这样，计算各像素的新的进深值而得到最终的进深图（平滑化的进深图）。

这里，在图15中，作为平滑化处理的一例，示出对进深图的边缘适应平滑化处理的状况。具体而言，示出使用三维图像栅格600在像素p中将进深图平滑化的方法。

首先，作为二维图像的对象帧620及先行帧610分割为较小的块尺寸，这些较小的块尺寸形成三维图像栅格600。例如，节点650参照二维图像中的小块的左下角的像素，节点655参照二维图像中的小块的右下角的像素。此外，节点640参照二维图像中的小块的左上角的像素对象物层，节点645参照二维图像中的小块的右上角的像素对象物层。这样，将各像素的进深图还应用于相同的参照点。这里，像素665是该小块的一部分，是被应用的像素。

在该方法中，在属于相同的块的任意的像素的对象物层的值是与其他像素不同的值的情况下，进深值包含在不同的图像栅格中。将平滑化后的进深图的新的像素值通过在相应的相同的块内的全部像素间使用三线性插值来计算，由此根据像素栅格中的该像素的位置的密度而得到像素值。例如，位置660的像素的新的值（x+blockwidth/2，y+blockheight/2）通过决定图像栅格内的对应位置的密度来计算。通过该结构，能够按照对象物层的信息将各像素相互分离。

因而，在属于不同的对象物层的进深图825中发生的错误包含于进深数据密度低的不同的图像栅格中，所以错误减少。即，如图16所示，在平滑化后得到的进深图通过如图8的边界形状325那样不完全的人物区域的形状被平滑化而成为自然的进深图。另外，通过边缘适应平滑化处理，平滑化后的进深图例如如图16所示，包含精度高的人物区域进深图355、全局的背景进深信息360及背景进深信息370。

另外，如图14所示，在根据二维图像生成进深图的情况下，在进行边缘适应平滑化处理时仅使用单一的二维图像620形成三维图像栅格600。并且，只要使用对象帧625的进深图应用到图像栅格中就可以。

这样，平滑化处理部12至少使用二维图像的信息进行由进深图生成部11生成的进深图中的人物区域的边缘的平滑化。

如以上这样，根据本实施方式的进深信息生成装置1，能够生成用来显示不对视听者带来不协调感的3D弹出的进深图。

另外，本实施方式的进深信息生成装置1生成将人物像的进深从背景分离的进深图。生成的进深图被用于从二维图像变换为三维图像。

此外，在上述中，进深信息生成装置1具备人物区域提取部10、进深图生成部11及平滑化处理部12，但并不限定于此。作为进深信息生成装置1的最小结构，只要具备最小结构部1A就可以。即，进深信息生成装置1只要具备人物区域提取部10、进深图生成部11就可以。通过至少具备该最小结构部1A，能够生成用来显示不对视听者带来不协调感的3D弹出的进深图。

以下，对具备进深信息生成装置1并且从二维图像变换为三维图像的装置进行说明。

图17是有关本发明的实施方式的三维影像生成装置的功能模块图。图17所示的三维影像生成装置2对应于本发明的立体图像变换装置，具备进深信息生成装置1和绘制部14。

绘制部14使用由进深信息生成装置1生成的进深图，将二维图像变换为立体图像。

这里，所谓立体图像，是由对应于二维图像的左眼图像及右眼图像构成的立体对，或者是由对应于二维图像并且视点不同的多个图像构成的多视（view）图像。

如以上那样构成的三维影像生成装置2能够实现高效率、低存储器且实时动作，能够高精度地自动分辨物体边界，所以起到在各种场景中能够得到自然而舒适的3D弹出效果的效果。

另外，在如上所述地构成的三维影像生成装置2中，在进深信息生成装置1中直接输入二维图像或影像，但并不限定于此。例如，如图18所示，也可以经由接收部15输入二维图像或影像。这里，图18是有关本发明的实施方式的三维影像生成装置的功能模块图的另一例。

图18所示的三维影像生成装置3与图17所示的三维影像生成装置2相比，还具备接收部15这一点不同。其他是与图17同样的结构，所以详细的说明省略。另外，在图18中，对于与图1及图16同样的要素赋予相同的符号。

接收部15接收由用户指定的指定数据。此外，接收部15被输入二维图像或影像，向进深信息生成装置1输出。这里，指定数据表示由用户指定的关注对象区域，所谓关注对象物，是人物区域。

以上，根据本实施方式，能够实现能够生成用来显示不对视听者带来不协调感的3D弹出的进深图的进深信息生成装置、进深信息生成方法、立体图像变换装置。

例如，在具有有关本实施方式的进深信息生成装置、进深信息生成方法的立体图像变换装置中，自动地生成精度高的人物区域，在从2D图像变换为3D图像或3D影像时能够几乎实时地带来3D弹出效果。此外，用户并不一定需要手动指定对象物（人物）。这是因为，通过能够从任意的二维图像中提取精度高的前景区域和人物区域，能够生成提高了人对于3D效果的感知的进深图。

这样，在具有有关本实施方式的进深信息生成装置、进深信息生成方法的立体图像变换装置中，能够实现高效率、低存储器且实时动作，能够高精度地自动分辨物体边界，所以在各种场景中能够得到自然而舒适的3D弹出效果。

（变形例1）

在上述实施方式中，假设区域提取部10提取人物区域来进行了说明，但并不限定于此。只要能够统计性地检测，并不限于人物。例如也可以将包括猫、狗、鸟及食物的能够由计算机检测的物体代替人物区域而提取为关注对象物就可以。

在此情况下，具体而言，只要做成以下的结构就可以。即，区域提取部10只要具备对象区域检测部、临时区域设定部、和区域决定部，并从二维图像中检测关注对象物中的作为能够统计性地检测的区域的对象区域，基于检测到的对象区域提取该二维图像的区域内的关注对象物区域就可以。

这里，对象区域检测部检测二维图像中的对象区域，临时区域设定部基于检测到的对象区域的位置设定临时关注对象物区域，该临时关注对象物区域是包括检测到的对象区域的区域的关注对象物模型的区域。区域决定部基于临时关注对象物区域的特征和与该临时关注对象物区域邻接的像素的特征，更新临时关注对象物区域范围，从而决定关注对象物区域。关注对象物是包括猫、狗、鸟及食物的能够由计算机检测的物体。

此外，在此情况下，平滑化处理部12使用上述二维图像的信息进行由进深图生成部生成的进深图中的上述关注对象物区域的边缘的平滑化。

另外，与上述实施方式同样，三维影像生成装置2及三维影像生成装置3也可以具备具有本变形例的区域提取部10的进深信息生成装置。在此情况下，接收部15接收由用户指定的指定数据。这里，指定数据表示由用户指定的关注对象区域。区域提取部10基于该指定数据，从指定的关注对象物区域中检测上述对象区域。即，对象区域检测部基于该指定数据，检测二维图像中的对象区域，识别对象区域的位置。

此外，例如在进深图生成部11中，赋予部111基于由对象区域检测部检测到的对象区域相对于二维图像的尺寸及位置、和被输入的用户的指定数据，计算由区域提取部10提取的关注对象物区域的第一进深值，将计算出的第一进深值赋予给该关注对象物区域。合成部112通过将对由临时区域设定部设定的临时关注对象物区域赋予的第二进深值与第一进深值合成，生成将该关注对象物区域与该关注对象物区域以外的区域分离的进深图。

（变形例2）

在上述实施方式中，设为区域提取部10从输入的二维图像或构成输入的影像的二维图像中检测人物的脸部、基于检测到的脸部提取表示二维图像的区域内的人物的人物区域来进行了说明，但并不限定于此。

如图19～图21所示，为了优化由区域提取部10检测脸部等的对象区域的速度即检测速度，也可以将输入的二维图像或构成输入的影像的二维图像进行下采样。

这里，图19～图21是用来说明有关本发明的实施方式的变形例2的进深信息生成装置的处理概要的流程图。另外，对于与图2同样的要素赋予相同的符号，详细的说明省略。

图19表示在区域提取部10中被输入二维图像并在下采样后检测脸部区域的情况下的处理概要。图20表示在区域提取部10中被输入二维图像并在下采样后检测狗、猫等的脸部以外的对象区域的情况下的处理概要。图21表示在区域提取部10中被输入影像（构成影像的二维图像）并在下采样后进行脸部检测的情况下的处理概要。

图19相对于图2，追加了下采样处理（S600）这一点不同。即，在S600中，为了仅检测适当的脸部的尺寸来优化检测速度，将输入的二维图像进行下采样。这里，例如进行使得成为所输入的二维图像的16分之1的尺寸等的下采样处理。

接着，在S21中，对于下采样的二维图像，通过人物的脸部检测算法，基于保存在存储器13中的脸部特征图案数据131进行脸部检测。

此外，图20相对于图2，追加了下采样处理（S600）这一点、和检测对象不是脸部而是狗等的脸部以外的对象区域这一点不同。例如，在S600中，为了仅检测适当的对象区域的尺寸来优化检测速度，将输入的二维图像下采样。这里，例如进行使得成为所输入的二维图像的16分之1的尺寸等的下采样处理。

接着，在S21a中，对于下采样的二维图像，通过用来检测对象区域的检测算法，基于在S601中由用户输入的指定数据检测对象区域。

此外，图21相对于图2，在区域提取部10中被输入影像（构成影像的二维图像）、追加了下采样处理（S600）这一点不同。例如，在S600中，为了仅检测适当的对象区域的尺寸来优化检测速度，将输入的二维图像下采样。这里，例如进行使得成为所输入的二维图像的16分之1的尺寸等的下采样处理。

接着，在S21a中，对于下采样的二维图像，通过用来检测对象区域的检测算法，基于在S601中由用户输入的指定数据，检测对象区域。另外，在区域提取部10中被输入影像的情况下，不一定总是能够检测出脸部，所以在S603及S604的处理中，通过进行人物区域的跟踪（人物区域的时间上的匹配）来进行准备，以在其后生成的3D影像中不发生闪烁。S603及S604的处理如在S217及S218等中进行的说明，所以省略说明。

以上，如图21所示，推测作为在一定的场所中的动作的一段的影像的场景的基本的进深构造，从构成影像的二维图像中提取对象物并赋予进深值，从而生成进深图并输出。

（变形例3）

在上述实施方式中，首先，在区域提取部10中，使用彩色直方图等的颜色信息，识别二维图像的人物区域和人物区域以外的区域（背景）。接着说明了通过对识别出的人物区域和背景赋予不同的进深值来生成进深图，但并不限定于此。也可以使分别对背景和人物区域赋予的进深值对应于区域的特征而变化，以使背景或人物区域的3D弹出效果（进深感）进一步提高。

生成为了提高使用从二维图像中提取人物区域等的关注对象物区域的方法来从表示背景的平面分离的关注对象物的进深而追加的进深值。

例如，图22中示出了输入的二维图像810中基于颜色信息将人物区域及背景分割为不同的层的情况下的处理例。

即，首先，通过将二维图像810基于颜色信息分割为4个不同的图像平面，取得包括背景平面820（包含暗红色）、头发平面830（包含黑色）、指导（coach）面840（包含黄色）、和肌肤平面850（肌肤色）的颜色平面层。

接着，为了将所取得的各平面层相互分离，对与所取得的颜色平面层对应的颜色模型平面群860赋予不同的进深值。

在本发明中，为了提高人物区域的3D效果，进行人物区域的提取而生成进深图。因此，在本变形例中，对肌肤色（红色的颜色模型平面870/黄色的颜色模型平面875）指定进深值以使得用户在其他颜色的区域之前感知到。此外，对绿色的颜色模型平面880、黑白色的颜色模型平面885及蓝色的颜色模型平面890指定进深，以使得用户在肌肤色的区域之后感知到。这样，能够提高背景或人物区域的3D弹出效果（进深感）。这里，例如对绿色的颜色模型平面880、黑白色的颜色模型平面885及蓝色的颜色模型平面890等指定为背景的颜色模型平面指定+1.5级、0以及－1级的进深值。另外，该水平值能够按照输入参数进行调整。

（变形例4）

在上述实施方式中，作为具有有关本实施方式的进深信息生成装置、进深信息生成方法的立体图像变换装置的例子，对三维影像生成装置2及三维影像生成装置3进行了说明，但并不限定于此。

作为进一步的应用例，包括上述三维影像生成装置2及三维影像生成装置3的3D图像显示控制装置也包含在本发明的范围中。以下，对其进行说明。

图23所示的3D图像显示控制装置具备盘驱动器1011、调谐器1012、网络通信接口1013、存储器装置接口1014、数据通信接口1015、缓冲存储器（帧存储器）1016、HD驱动器1017、闪存存储器1019、及LSI1018。

盘驱动器1011具备光拾取器，从光盘1004读入三维图像（3D图像）流或二维图像（2D图像）流。盘驱动器1011连接在LSI1018上，从光盘1014向LSI1018发送2D图像流或3D图像流。盘驱动器1011按照来自LSI1018的控制，读入来自光盘1004的2D图像流或3D图像流，向LSI1018发送。

调谐器1012取得由天线1005接收到的包含2D或3D图像流的广播波。调谐器1012从所取得的广播波中提取由LSI1018确定的频率的2D图像流或3D图像流。调谐器1012连接在LSI1018上，将所提取的2D图像流或3D图像流向LSI1018发送。

网络通信接口1013也可以经由网络连接在服务器1003上。网络通信接口1013取得从服务器1003发送的2D或3D图像流。

存储器装置接口1014构成为被插入存储卡1006，能够从插入的存储卡1006读取3D图像流或2D图像流。存储器装置接口1014将从存储卡1006读入的2D图像流或3D图像流向LSI1018发送。

HD驱动器1017具备硬盘等的记录介质，将从该记录介质读入的数据向LSI1018发送。HD驱动器1017将从LSI1018接收到的数据记录到记录介质中。

数据通信接口1015是将从LSI1018发送的数据向外部的3D图像显示装置1002发送的接口。数据通信接口1015能够将数据信号及控制信号对3D图像显示装置1002收发。因而，LSI1018能够经由数据通信接口1015控制3D图像显示装置1002。数据通信接口1015例如可以通过HDMI连接器等实现。数据通信接口1015只要能够将数据信号向3D图像显示装置1002发送，则任何结构都可以。

LSI1018是控制3D图像显示控制装置的各部分的系统控制器。LSI1018可以是微型计算机或配线电路。

CPU1081、流控制器1082、解码器1083、AV输入输出电路1084、系统总线1085及存储器控制器1086安装在LSI1018中。

CPU1081控制LSI1018整体。LSI1018的各部分进行LSI1018的控制等各种控制。CPU1081还控制与外部的通信。

CPU1081在从服务器1003取得2D图像流或3D图像流时，向盘驱动器1011、调谐器1012、网络通信接口1013或存储器装置接口1014发送控制信号。因此，盘驱动器1011、调谐器1012、网络通信接口1013及存储器装置接口1014能够从记录介质或广播站等取得2D图像流或3D图像流。在图像输入流是2D图像的情况下，按照经由IR传感器的用户的控制，CPU控制3D图像处理器来将输入图像流变换为3D图像。

流控制器1082控制服务器1003、光盘1004、天线1005、存储卡1006、及主动式快门眼镜1007中的数据的收发。

当解码器1083从存储器控制器1086取得数据时，解码器1083将所取得的数据解码。输入到解码器1083中的数据基于CPU1081的控制。具体而言，CPU1081控制存储器控制器1086，存储器控制器1086读入记录在缓冲存储器1016中的3D图像流。CPU1081控制存储器控制器1086，存储器控制器1086将记录在缓冲存储器1016中的3D图像流向解码器1083发送。因而，2D或3D图像流从存储器控制器1086输入至解码器1083。

解码器1083基于包含在2D或3D图像流中的解码信息，将被压缩的2D或3D图像流解码。解码器1083将解码信息向存储器控制器1086发送。存储器控制器1086将所取得的信息记录到缓冲存储器1016中。

AV输入输出电路1084从缓冲存储器1016读入信息，生成显示在2D或3D图像显示装置1002上的显示图像。AV输入输出电路1084将所生成的显示图像经由数据通信接口1015向2D图像流或3D图像显示装置1002发送。

3D图像处理器1010对应于上述三维影像生成装置2或三维影像生成装置3，装入有它们的功能，用于将输入的2D图像变换为3D图像。具体而言，3D图像处理器具备进深信息生成装置1及绘制部14的功能。绘制部14的功能如上所述，用于根据2D图像及进深图生成3D图像。

另外，3D图像处理器1010、进深生成部模块1110及内部的模块通常以IC（集成电路）、ASIC（特定用途集成电路）、LSI（大规模集成电路），DSP（数字信号处理器）的形式实现。这些各模块既可以由多个芯片构成，也可以由1个芯片构成。这里使用的名称是LSI，但根据集成度的差异，也有称作IC、系统LSI、超级LSI或超大规模LSI的情况。进而，实现集成化的方法并不仅是LSI，也可以由专用电路或通用处理器实现。其中包含能够通过程序指令进行控制的DSP（数字信号处理器）等特殊化的微处理器。也可以将在LSI制造后能够编程的FPGA（现场可编程门阵列）、或能够重构LSI的连接或结构的处理器用在相同的用途中。将来也可能制造及处理技术提高而有全新的技术取代LSI。集成化可以通过该技术来进行。

以上，根据本发明，能够实现可生成用来显示不对视听者带来不协调感的3D弹出的进深图的进深信息生成装置、进深信息生成方法、立体图像变换装置。

此外，根据本发明，在使用影像生成进深图的情况下，并不一定总是能够检测到脸部，因此通过进行人物区域的跟踪（人物区域的时间上的匹配）来进行准备以其后生成的3D影像中不发生闪烁。

例如，图24是表示在不进行人物区域的时间上的匹配的情况下发生闪烁的图。这里，横轴表示连续的二维图像（帧），纵轴用1或－1的值表示脸部检测是否成功。如图24所示，在不进行人物区域的时间上的匹配的情况下，可知在A期间和B期间中、检测到脸部的帧（在纵轴中表示1的帧）和未能检测到的帧（在纵轴中表示－1的帧）的切换较多。

相对于此，如果如本发明那样通过进行人物区域的时间上的匹配而进行准备以在其后生成的3D影像中不发生闪烁，则在A期间和B期间中，只要人物的特征类似，就不会有未能检测到脸部的帧，所以在3D影像中也能够抑制闪烁。

这样，根据本发明的进深信息生成装置、进深信息生成方法、立体图像变换装置，能够实现高效率、低存储器且实时动作，能够高精度地自动地分辨物体边界，所以在各种场景中都能够得到自然而舒服的3D弹出效果。

本发明的另一效果是仅使用脸部检测得到人物区域。因而，本发明中存储器比在专利文献3中公开的方法中少也可以。进而，本发明的时滞较少，能够用于实时的用途。

另外，图25是将本发明的进深信息生成方法总结的图，关于各要素已在上面叙述，所以省略说明。如图25所示，能够根据任意的未知的二维图像的内容，自动且适应性地生成进深图。

以上，基于实施方式对本发明的进深信息生成装置、进深信息生成方法、立体图像变换装置进行了说明，但本发明并不限定于该实施方式。只要不脱离本发明的主旨，对本实施方式实施了本领域的技术人员想到的各种变形后的形态、或将不同的实施方式的构成要素组合而构建的形态也包含在本发明的范围内。

工业实用性

本发明能够在生成二维图像（2D图像）中的进深信息（以下，记作进深图）、使用所生成的进深图生成三维图像或多视图像等的立体图像的进深信息生成装置、进深信息生成方法、立体图像变换装置中使用。

符号说明

1进深信息生成装置

1A最小结构部

2、3三维影像生成装置

10区域提取部

11进深图生成部

12平滑化处理部

13、131、132、132a、132b、133、134、135、136存储器

14绘制部

15接收部

103人物区域决定部

104特征提取部

105区域调整部

106区域决定部

320、450、460临时人物区域

325边界形状

330上部

335、345下部

340、350、430、470人物区域

355人物区域进深图

360、370背景进深信息

410、440、610、615、910先行帧

420、625对象帧

540、550、560直方图

600三维图像栅格

620、810二维图像

640、645、650、655节点

665像素

820背景平面

830头发平面

840指导面

850肌肤平面

860颜色模型平面群

870、875、880、885、890颜色模型平面

1011盘驱动器

1012调谐器

1013网络通信接口

1014存储器装置接口

1015数据通信接口

1016缓冲存储器

1017HD驱动器

1018LSI

1019闪存存储器

1081CPU

1082流控制器

1083解码器

1084AV输入输出电路

1085系统总线

1086存储器控制器

Claims

1.一种进深信息生成装置，具备：

区域提取部，从二维图像中检测人物的脸部，使用将预先在存储器中保持的多个人物前掩模中的、基于检测到的上述人物的脸部的位置而选择的包含检测到的脸部的人物前掩模基于检测到的上述脸部的区域的大小而变更后的人物前掩模，来提取表示该二维图像的区域内的上述人物的区域的人物区域，上述多个人物前掩模是多个人物模型的区域数据；以及

生成部，对所提取的上述人物区域赋予与该人物区域以外的区域的进深值不同的进深值，从而生成用来将上述人物区域与该人物区域以外的区域分离的进深图；

上述人物前掩模包括作为脸部的区域的脸部区域、以及作为上述脸部区域以外的区域的身体区域。

2.如权利要求1所述的进深信息生成装置，

上述区域提取部具备：

检测部，检测上述二维图像中的人物的脸部；

临时区域设定部，将具有与检测到的上述脸部的区域相符的脸部区域的上述人物前掩模设定为临时人物区域；以及

人物区域决定部，基于上述临时人物区域的特征和与该临时人物区域邻接的像素的特征，决定上述人物区域。

3.如权利要求2所述的进深信息生成装置，

上述人物区域决定部具备：

特征提取部，提取上述临时人物区域内的特征和与该临时人物区域邻接的像素的特征；

区域调整部，基于由上述特征提取部提取的上述临时人物区域的特征和与该临时人物区域邻接的像素的特征，调整上述临时人物区域的范围；以及

区域决定部，将由上述区域调整部调整后的临时人物区域范围决定为上述人物区域。

4.如权利要求3所述的进深信息生成装置，

上述特征提取部具备：

直方图计算部，计算上述临时人物区域内的彩色直方图作为上述临时人物区域的特征；

像素选择部，选择与该临时人物区域邻接的像素；以及

颜色信息计算部，计算由上述像素选择部选择的像素的颜色信息作为与该临时人物区域邻接的像素的特征。

5.如权利要求4所述的进深信息生成装置，

上述区域调整部具备：

比较部，对由上述颜色信息计算部计算出的像素的颜色信息与由上述直方图计算部计算出的彩色直方图进行比较；以及

区域范围更新部，在该像素的颜色是在由上述直方图计算部计算出的彩色直方图中包含的颜色的情况下，设为该像素包含在上述人物区域中而更新上述临时人物区域，以扩大上述临时人物区域的范围，在该像素的颜色不是在上述彩色直方图中包含的颜色的情况下，设为该像素不包含在上述人物区域中而不更新上述临时人物区域。

6.如权利要求2～5中任一项所述的进深信息生成装置，

上述生成部具备：

赋予部，基于由上述检测部检测到的脸部的区域相对于上述二维图像的尺寸及位置，计算由上述区域提取部提取出的人物区域的第一进深值，将计算出的第一进深值赋予给该人物区域；以及

合成部，通过将第二进深值与第一进深值合成，生成并取得将该人物区域与该人物区域以外的区域分离的进深图，上述第二进深值是对由上述临时区域设定部设定的临时人物区域赋予的进深值。

7.如权利要求1～5中任一项所述的进深信息生成装置，

还具备平滑化处理部，该平滑化处理部使用上述二维图像的信息进行由上述生成部生成的进深图中的上述人物区域的边缘的平滑化。

8.如权利要求7所述的进深信息生成装置，

上述平滑化处理部基于根据上述二维图像的像素强度计算出的加权函数，使用上述二维图像和由上述生成部生成的进深图将上述进深图在空间上进行滤波，由此将上述进深图中的上述人物区域的边缘平滑化。

9.如权利要求7所述的进深信息生成装置，

上述平滑化处理部基于根据上述二维图像中的对象帧及先行帧的图像数据的像素强度和像素强度之差计算出的加权函数，使用上述二维图像中的对象帧及先行帧、和由上述生成部生成的进深图将上述进深图在空间上且在时间上进行滤波，由此将上述进深图中的上述人物区域的边缘平滑化。

10.一种立体图像变换装置，具备：

权利要求1～5中任一项所述的进深信息生成装置；以及

绘制部，使用由上述进深信息生成装置生成的进深图，将上述二维图像变换为对应于上述二维图像的立体图像。

11.一种进深信息生成装置，具备：

区域提取部，从二维图像中检测作为关注对象物中的能够统计性地检测的区域的对象区域，使用将预先在存储器中保持的多个前掩模中的、基于检测到的上述对象区域的位置而选择的包含检测到的对象区域的前掩模基于检测到的上述对象区域的大小而变更后的前掩模，来提取该二维图像的区域内的关注对象物区域，上述多个前掩模是多个关注对象物模型的区域数据；以及

生成部，对所提取的上述关注对象物区域赋予与该关注对象物区域以外的区域的进深值不同的进深值，从而生成用来将关注对象物区域与该关注对象物区域以外的区域分离的进深图；

上述前掩模包括对象物区域、以及该对象物区域以外的区域。

12.如权利要求11所述的进深信息生成装置，

上述区域提取部具备：

检测部，检测上述二维图像中的对象区域；

临时区域设定部，将具有与检测到的上述对象区域相符的对象物区域的上述前掩模设定为临时关注对象物区域；以及

关注对象物区域决定部，基于上述临时关注对象物区域的特征和与该临时关注对象物区域邻接的像素的特征，更新上述临时关注对象物区域的范围，从而决定关注对象物区域。

13.如权利要求12所述的进深信息生成装置，

上述关注对象物是包括猫、狗、鸟及食物的能够由计算机检测的对象物。

14.如权利要求11～13中任一项所述的进深信息生成装置，

还具备平滑化处理部，该平滑化处理部使用上述二维图像的信息进行由上述生成部生成的进深图中的上述关注对象物区域的边缘的平滑化。

15.如权利要求11～13中任一项所述的进深信息生成装置，

还具备从用户接收指定数据的接收部；

上述指定数据表示由用户指定的关注对象区域；

上述区域提取部基于上述指定数据，从指定的关注对象物区域中检测上述对象区域。

16.如权利要求15所述的进深信息生成装置，

上述检测部基于上述指定数据，检测上述二维图像中的对象区域并识别对象区域的位置。

17.如权利要求15所述的进深信息生成装置，

上述生成部具备：

赋予部，基于由上述检测部检测到的对象区域相对于上述二维图像的尺寸及位置、和被输入的上述指定数据，计算由上述区域提取部提取的关注对象物区域的第一进深值，将计算出的第一进深值赋予给该关注对象物区域；以及

合成部，通过将第二进深值与第一进深值合成，生成将该关注对象物区域与该关注对象物区域以外的区域分离的进深图，上述第二进深值是对由上述临时区域设定部设定的临时关注对象物区域赋予的进深值。

18.一种进深信息生成方法，包括：

区域提取步骤，从二维图像中检测人物的脸部，使用将预先在存储器中保持的多个人物前掩模中的、基于检测到的上述人物的脸部的位置而选择的包含检测到的脸部的人物前掩模基于检测到的上述脸部的区域的大小而变更后的人物前掩模，来提取表示该二维图像的区域内的上述人物的区域的人物区域，上述多个人物前掩模是多个人物模型的区域数据；以及

生成步骤，对所提取的上述人物区域赋予与该人物区域以外的区域的进深值不同的进深值，从而生成用来将人物区域与该人物区域以外的区域分离的进深图；