CN102959586A

CN102959586A - 运动推测装置、深度推测装置以及运动推测方法

Info

Publication number: CN102959586A
Application number: CN2012800015947A
Authority: CN
Inventors: 山田整; P·拉桑; 申省梅
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2011-04-12
Filing date: 2012-04-10
Publication date: 2013-03-06
Anticipated expiration: 2032-04-10
Also published as: JP5919563B2; EP2698766A4; WO2012140869A1; EP2698766B1; US9092875B2; JPWO2012140869A1; EP2698766A1; CN102959586B; US20130101177A1

Abstract

本发明的一个实施方式涉及的运动推测装置（300），利用与一个场景对应的焦点相互不同的多焦点图像群（226），推测该场景所包含的多个第一区域各自的运动，具备成本值计算部（305）和运动推测部（306），该成本值计算部（305）利用上述多焦点图像群（226），按上述多个第一区域的每个计算成本值，该成本值表示该第一区域的模糊量与按深度方向的每个距离而确定的基准的模糊量之间的差，该运动推测部（306）利用上述成本值，推测与该成本值对应的第一区域的运动。

Description

运动推测装置、深度推测装置以及运动推测方法

技术领域

本发明涉及运动推测装置、深度推测装置以及运动推测方法，更具体而言，涉及从焦点不同的多焦点图像群推测一个场景的运动的运动推测装置。

背景技术

深度图（depth map）是指包含与从视点到场景对象面之间的距离有关的信息的图像或图像通道。该深度图用于汽车用传感器、医用图像处理以及三维（3D）应用等多种用途。通常，场景的深度图能够用两种手法即主动手法及被动手法来取得。

主动手法中，将编码信号（即被结构化的光、红外线（IR）信号、激光、或声音信号）向场景进行投影或照射，接收器或检测器将该投影信号接收或拍摄。并且，根据投影信号与接收信号之差计算或推测深度图。作为主动手法的例子，有TOF（Time Of Flight）传感器、LiDAR（Light DetectionAnd Ranging：光检测与测距）、结构化光图案以及超声波距离传感器。

被动手法中，不需要将信号向场景进行投影，能够仅根据拍摄图像推测深度图。因此，被动手法能够以低成本实现，例如能够用现有的1台数字摄像机实现。

公开有多种被动的深度推测技术（例如参考非专利文献1、非专利文献2、非专利文献3以及非专利文献4）。它们能够分类成两个主流即DFF（depthfrom focus：对焦测距）法和DFD（depth from defocus：散焦测距）法。DFF法及DFD法都需要焦点分别不同的多个输入图像，以用于深度推测。DFF法中，以不同的焦点位置拍摄一个场景的多个图像。然后测定各拍摄图像的焦点或清晰度（对比度）。场景的深度图能够通过对图像的最大清晰度和与其对应的焦点设定进行检测而最终获得。DFD法中，所使用的多焦点图像较少（至少2个图像）。深度图能够通过求出多焦点图像的像素间的模糊量来推测。

专利文献1公开了记录三维场景的深度信息的单反相机系统。图1是表示专利文献1的多焦点图像拍摄系统的图。该系统中，将镜头沿镜头的中心轴方向移动，从而以透镜系统正面的各种距离来拍摄被摄体（对象）。这里，图像传感器的焦点对准或脱离被摄体。若知晓透镜系统的焦点距离，则深度图（透镜系统与被摄体之间的距离）能够根据焦点对准于被摄体的情况下的透镜系统与图像传感器之间的距离来计算。

专利文献2中，公开了全焦点图像以及利用二维尺度空间匹配的深度图的制作方法。该方法中，场景的多焦点图像被拍摄多个。并且，根据拍摄到的多焦点图像制作全焦点图像，根据该全焦点图像生成多个尺度空间模糊图像。最后，利用所拍摄到的图像的模糊量和所生成的尺度空间模糊图像的模糊量之间的匹配（matching）来制作深度图。

现有技术文献

专利文献

专利文献1：美国专利第6128071号说明书

专利文献2：美国专利申请公开第2007／0019883号说明书

非专利文献

非专利文献1：John Ens及Peter Lawerence“An Investigation of Methodsfor Determining Depth from Focus”，IEEE Transaction on Pattern Analysis andMachine Inteligence，第15卷第2号，1993年2月

非专利文献2：Murali Subbarao及Tae Choi“Accurate Recovery of Three－Dimensional Shape from Image Focus”，IEEE Transaction on PatternAnalysis and Machine Inteligence，第17卷第3号，1995年3月

非专利文献3：Murali Subbarao及Gopal Surva“Depth from Defocus：A Spatial Domain Approach”，International Journal of Computer Vision，第13卷第3号，1994年12月

非专利文献4：Subhasis Chaudhuri及A．N．Rajagopalan“Depth fromDefocus：A Real Aperture Imaging Approach”，Springer－Verlag New York，Inc．，1999年

非专利文献5：B．D．Lucas及T．Kanade“An iterative image registrationtechnique with an application to stereo vision”，第7次人工智能国际合同会议记录，1981年

非专利文献6：C．Tomasi及T．Kadane“Shape and motion from imagestreams：a factorization method－3：Detection and Tracking of Point Features”，技术报告书CMU－CS－91－132，卡内基梅隆大学，宾夕法尼亚州匹兹堡，1991年4月

发明概要

发明要解决的课题

此外，可以认为，在这样的DFF法以及DFD法中，推测被摄体的运动，利用推测到的被摄体的运动能够实现各种各样的处理。此外，作为这样的DFF法以及DFD法中的被摄体的运动的推测方法，希望有更容易的运动推测方法。

发明内容

因此，本发明的目的在于，提供一种能够容易地推测被摄体的运动的运动推测装置以及运动推测方法。

解决课题所采用的手段

为了实现上述目的，本发明的一技术方案的运动推测装置，利用与一个场景对应的焦点相互不同的多焦点图像群，推测该场景所包含的多个第一区域各自的运动，具备：成本值计算部，利用上述多焦点图像群，按上述多个第一区域的每个第一区域，计算成本值，该成本值表示与该第一区域对应的模糊量与按深度方向的每个距离而决定的基准的模糊量之间的差；以及运动推测部，利用上述成本值，推测与该成本值对应的第一区域的运动。

发明效果

本发明能够提供一种能够容易地推测被摄体的运动的运动推测装置以及运动推测方法。

附图说明

图1是表示现有的多焦点图像拍摄系统的图。

图2是具有本发明实施方式1的深度推测装置的拍摄装置的框图。

图3是本发明实施方式1的深度推测装置的框图。

图4是表示本发明实施方式1的多焦点图像群的一例的图。

图5是本发明实施方式1的深度推测处理的流程图。

图6是本发明实施方式1的运动推测处理的流程图。

图7A是表示本发明实施方式1的最小成本值的分布的例子的图。

图7B是表示本发明实施方式1的最小成本值的分布的例子的图。

图7C是表示本发明实施方式1的最小成本值的分布的例子的图。

图8是本发明实施方式1的特征跟踪处理的流程图。

图9是本发明实施方式1的深度图补充处理的流程图。

图10A是表示本发明实施方式1的静止被摄体的图像的一例的图。

图10B是表示本发明实施方式1的静止被摄体的图像的一例的图。

图10C是表示本发明实施方式1的静止被摄体的图像的一例的图。

图10D是表示本发明实施方式1的静止被摄体的深度图的一例的图。

图11A是表示本发明实施方式1的包含移动被摄体的图像的一例的图。

图11B是表示本发明实施方式1的包含移动被摄体的图像的一例的图。

图11C是表示本发明实施方式1的包含移动被摄体的图像的一例的图。

图11D是表示本发明实施方式1的移动被摄体的深度图的一例的图。

图12是表示本发明实施方式1的利用运动推测及特征跟踪进行的深度补充处理的图。

图13是表示本发明实施方式1的深度图的深度精度的提高的图。

图14是本发明实施方式1的其它变形例的运动推测处理的流程图。

图15是本发明实施方式2的深度推测装置的框图。

图16是本发明实施方式2的变形例的深度推测装置的框图。

图17是本发明实施方式3的拍摄装置的框图。

具体实施方式

（作为本发明的基础的知识）

本发明者发现了以下课题。

上述专利文献1、专利文献2及其它公知方法所涉及的系统以及方法用于拍摄仅包含静止的被摄体的静止图像。它们不适用于被摄体运动的场景的拍摄以及动态图像拍摄。这是因为，在图像拍摄中被摄体运动的情况下，可以认为在拍摄到的多焦点图像的分别不同的像素位置上存在同一被摄体，因此无法正确地测定焦点或使被摄体的模糊正确地匹配。因此，根据移动被摄体推测出的深度图的精度发生劣化。

因此，本实施方式提供一种能够适用于静止图像拍摄以及动态图像拍摄双方的、生成静止被摄体用的正确的深度信息并且提高移动被摄体的深度精度的、基于多焦点图像的深度推测方法以及装置。

此外，本实施方式提供一种能够容易地推测被摄体的运动的运动推测装置及运动推测方法。

本发明的一个技术方案的运动推测装置，利用与一个场景对应的焦点相互不同的多焦点图像群，推测该场景所包含的多个第一区域各自的运动，具备：成本值计算部，利用上述多焦点图像群，按上述多个第一区域的每个第一区域计算成本值，该成本值表示与该第一区域对应的模糊量与按深度方向的每个距离而确定的基准的模糊量之间的差；以及运动推测部，利用上述成本值，推测与该成本值对应的第一区域的运动。

根据该结构，本发明的一个技术方案的运动推测装置，能够利用在DFF法及DFD法中计算的成本值推测被摄体的运动。这样，该运动推测装置将在DFF法及DFD法中原本使用的成本值原封不动地用到被摄体的运动的推测处理中。因此，该运动推测装置能够降低运动推测处理的运算量，因此能够容易地推测被摄体的运动。

此外，也可以是，上述成本值计算部按上述多个第一区域的每个第一区域，计算按多个上述深度方向的距离的每个距离而求出的多个上述成本值中最小的最小成本值，上述运动推测部利用上述最小成本值，推测与该最小成本值对应的第一区域的运动。

根据该结构，本发明的一个技术方案的运动推测装置，能够利用在DFF法及DFD法中计算的最小成本值推测被摄体的运动。

此外，也可以是，在上述最小成本值大于阈值的情况下，上述运动推测部将与该最小成本值对应的第一区域判定为有运动的移动被摄体区域，在上述最小成本值小于上述阈值的情况下，上述运动推测部将与该最小成本值对应的第一区域判定为无运动的静止被摄体区域。

根据该结构，本发明的一个技术方案的运动推测装置，能够通过容易的处理来判定多个第一区域分别是有运动的区域还是无运动的区域。

此外，也可以是，上述阈值是预先决定的固定值。

此外，本发明的一个技术方案的深度图推测装置，按每个场景，利用与一个场景对应的焦点相互不同的多焦点图像群，生成深度图，该深度图表示该场景所包含的多个第二区域各自的深度，该深度图推测装置具备：深度图生成部，按每个上述场景，利用与该场景对应的上述多焦点图像群，生成作为该场景的深度图的初始深度图；上述运动推测装置，按每个上述场景，推测该场景所包含的多个第一区域各自的运动；以及深度补充部，将处理对象的场景的上述初始深度图所包含的上述移动被摄体区域的深度的信息，利用包含在其它场景中且与该移动被摄体区域对应的上述静止被摄体区域的深度信息进行补充。

根据该结构，本发明的一个技术方案的深度图推测装置，利用精度高的静止被摄体区域的深度信息来补充精度低的移动被摄体区域的深度信息。由此，该深度图推测装置能够生成精度高的深度图。

此外，也可以是，上述深度补充部将上述静止被摄体区域的深度信息拷贝成上述移动被摄体区域的深度信息。

此外，也可以是，上述运动补充部，将上述处理对象的场景的上述初始深度图所包含的上述移动被摄体区域的深度的信息，利用包含与该移动被摄体区域对应的上述静止被摄体区域在内的其它场景中的、在时间上与该处理对象的场景最接近的场景所包含的该静止被摄体区域的深度信息来进行补充。

根据该结构，本发明的一个技术方案的深度图推测装置，通过将在时间上接近的场景的深度信息用于补充处理，能够生成精度高的深度图。

此外，也可以是，上述深度补充部，按每一像素，将上述处理对象的场景的上述初始深度图所包含的上述移动被摄体区域的深度的信息，利用包含在上述其它场景中且与该移动被摄体区域对应的上述静止被摄体区域的深度信息来进行补充。

根据该结构，本发明的一个技术方案的深度图推测装置能够提高深度图的精度。

此外，也可以是，上述深度补充部，按包含多个像素的每个区域，将上述处理对象的场景的上述初始深度图所包含的上述移动被摄体区域的深度的信息，利用包含在上述其它场景中且与该移动被摄体区域对应的上述静止被摄体区域的深度信息来进行补充。

根据该结构，本发明的一个技术方案的深度图推测装置能够降低深度图推测处理的运算量。

此外，也可以是，上述深度推测装置还具备特征跟踪部，该特征跟踪部通过在场景间跟踪被摄体，生成表示多个场景中的同一被摄体的跟踪被摄体信息，上述深度补充部利用上述跟踪被摄体信息，确定包含在上述其它场景中且与上述移动被摄体区域对应的上述静止被摄体区域。

根据该结构，本发明的一个技术方案的深度图推测装置能够在图像间容易地确定同一被摄体。

此外，也可以是，上述特征跟踪部，计算第一多焦点图像群所包含的至少一个第一图像的第一被摄体特征群，计算包含在第二多焦点图像群中、焦点与上述第一图像相同的至少一个第二图像的第二被摄体特征群，使上述第一被摄体特征群与上述第二被摄体特征群匹配，从而生成上述跟踪被摄体信息。

此外，也可以是，上述深度推测装置还具备运动补偿部，该运动补偿部利用上述多焦点图像群来计算上述移动被摄体区域的运动矢量，上述深度图生成部利用上述运动矢量对上述多焦点图像群进行运动补偿处理，利用运动补偿处理后的多焦点图像群来生成上述初始深度图。

根据该结构，本发明的一个技术方案的深度图推测装置，通过进行运动补偿，能够提高深度图的精度。此外，该深度图推测装置通过对由运动推测装置推测出的移动被摄体区域进行运动补偿处理，能够降低运动补偿处理的运算量。

此外，本发明的一个技术方案的深度图推测装置，按每个场景，利用与一个场景对应的焦点相互不同的多焦点图像群，生成深度图，该深度图表示该场景所包含的多个第二区域各自的深度，上述深度图推测装置具备：上述运动推测装置，按每个上述场景，推测该场景所包含的多个第一区域各自的运动；运动补偿部，利用上述多焦点图像群，计算上述移动被摄体区域的运动矢量；以及深度图生成部，利用上述运动矢量对上述多焦点图像群进行运动补偿处理，利用运动补偿处理后的多焦点图像群，生成对应的场景的深度图。

根据该结构，本发明的一个技术方案的深度图推测装置，通过进行运动补偿，能够提高深度图的精度。此外，该深度图推测装置，通过对由运动推测装置推测出的移动被摄体区域进行运动补偿处理，能够降低运动补偿处理的运算量。

另外，本发明不仅能够作为这样的运动推测装置以及深度推测装置来实现，也能够作为将运动推测装置或深度推测装置所包含的特征性单元作为步骤的运动推测方法或深度推测方法来实现，也能够作为使计算机执行这样的特征性步骤的程序来实现。并且，这样的程序当然能够经由CD－ROM等非暂时性的计算机可读取的记录介质以及因特网等传送介质流通。

并且，本发明能够作为实现这样的运动推测装置或深度推测装置的功能的一部分或全部的半导体集成电路（LSI）来实现，也能够作为具备这样的运动推测装置或深度推测装置的拍摄装置来实现。

另外，这些整体的或具体的形态可以通过系统、方法、集成电路、计算机程序或记录介质来实现，也可以通过系统、方法、集成电路、计算机程序以及记录介质的任意组合来实现。

以下，参照附图具体说明本发明的一个技术方案的运动推测装置以及深度推测装置。

另外，以下说明的实施方式都是表示本发明的一个具体例。以下的实施方式所示的数值、形状、材料、构成要素、构成要素的配置位置以及连接形态、步骤、步骤的顺序等作为一例，不是限定本发明的主旨。此外，以下的实施方式中的构成要素中，关于表示最上位概念的独立权利要求中没有记载的构成要素，作为任意的构成要素来说明。

（实施方式1）

本实施方式的深度推测装置为了确定深度精度潜在性高的静止被摄体区域以及深度精度潜在性低的移动被摄体区域，而检测多焦点图像群中的移动被摄体。并且，该深度推测装置从多个帧将静止被摄体区域的高精度的深度信息复制（融合）到目标深度图，由此改善由于被摄体的运动而深度精度起初较低的复制目标的深度图的精度。这样，该深度推测装置能够在移动被摄体区域和静止被摄体区域双方中实现精度高的深度图。

首先，说明具有本实施方式的深度推测装置的拍摄装置的结构。

图2是具有本实施方式的深度推测装置210的拍摄装置200的框图。该拍摄装置200具备光学系统202、图像拍摄部204、前处理部206、内部存储器208、深度推测装置210、控制器212和外部存储器214。

图像拍摄部204拍摄焦点相互不同的多焦点图像群224。

前处理部206对所拍摄的未加工的多焦点图像群224进行前处理，从而生成已前处理的多焦点图像群226。此外，从前处理部206输出的已前处理多焦点图像群226被保存到内部存储器208。另外，也可以是未加工的多焦点图像群224保存到内部存储器208。

深度推测装置210从内部存储器208取得所保存的已前处理多焦点图像群226。另外，深度推测装置210可以直接取得由图像拍摄部204生成的未加工的多焦点图像群224，也可以取得保存在内部存储器208中的多焦点图像群224。另外，以下，以向深度推测装置210输入多焦点图像群226的情况为例进行说明。

深度推测装置210利用多焦点图像群226推测深度图230。另外，深度推测装置210也可以将在深度图230的推测处理中生成的中间信息保存到内部存储器208。并且，推测出的深度图230被输出到图像处理处理器或3D图像处理处理器，以用于之后的处理。此外，拍摄装置200也可以将深度图230保存到外部存储器214以待后用。

图3是深度推测装置210的框图。该深度推测装置210被输入多个多焦点图像群226。这里，一个多焦点图像群226与一个场景对应。并且，深度推测装置210按每个该场景来生成深度图230。此外，深度图230表示一个场景所包含的多个像素位置各自的深度。

图4是表示向深度推测装置210输入的、包含多个多焦点图像群226的图像序列的一例的图。如图4所示，图像序列例如包含如a、b、c那样焦点的位置不同的3种图像。图像a、图像b、图像c在不同时间、不同焦点位置上被拍摄。此外，该图像序列包含多个多焦点图像群226（SET1、SET2、SET3以及SET4）。各多焦点图像群226包含连续的｛图像a、图像b、图像c｝或｛图像c、图像b、图像a｝。另外，这里，某多焦点图像群226所包含的图像的一部分在与邻接的其它多焦点图像群226之间被共用（例如SET1与SET2共用图像c），但也可以不共用。此外，这里，各多焦点图像群226中包含焦点不同的3个图像，但各多焦点图像群226中包含焦点不同的2个以上的图像即可。

此外，典型地讲，该图像序列是通过动态图像记录或静止图像的连续摄影而得到的图像。此外，多焦点图像群226是指对大致相同的被摄体（场面）进行了拍摄的、焦点不同的多个图像。典型地讲，多焦点图像群226是将相同的被摄体连续摄影的多个图像。

该深度推测装置210具备运动推测装置300、特征跟踪部302、深度图生成部304和深度补充部308。

特征跟踪部302在多个多焦点图像群226之间跟踪被摄体，生成表示多个场景中的同一被摄体的跟踪被摄体信息322。

运动推测装置300利用一个多焦点图像群226推测一个场景所包含的多个像素位置各自的运动。该运动推测装置300具备成本值计算部305和运动推测部306。

成本值计算部305利用一个多焦点图像群226计算一个场景所包含的各像素位置的成本值组。并且，成本值计算部305从各像素位置的成本值组中选择值最小的最小成本值325。这里，成本值是指，表示各像素位置的模糊量与按深度方向的每个距离而设定的基准模糊量之间的差的值。即，成本值小则表示模糊量小。另外，该成本值计算处理的详细情况在后面叙述。

深度图生成部304按每个场景，利用与该场景对应的多焦点图像群226，生成作为该场景的深度图的初始深度图324。具体而言，深度图生成部304利用由成本值计算部305计算出的各像素位置的最小成本值325推测一个场景的深度图，从而生成初始深度图324。

运动推测部306利用由成本值计算部305计算出的成本值，推测与该成本值对应的像素位置的运动。具体而言，运动推测部306利用像素位置的最小成本值325，确定当前的像素位置属于有运动（运动大）的移动被摄体区域还是属于无运动（运动小）的静止被摄体区域。并且，运动推测部306生成移动掩模（mask）326，该移动掩模326表示一个场景的各像素位置属于移动被摄体区域还是属于静止被摄体区域。另外，在动态图像记录的情况下，深度推测装置210对所有的多焦点图像群226生成初始深度图324和移动掩模326。

深度补充部308取得跟踪被摄体信息322、当前（处理对象）的多焦点图像群的初始深度图324及移动掩模326、以及先前的多焦点图像群的初始深度图324及移动掩模326。深度补充部308将处理对象的场景的初始深度图324所包含的移动被摄体区域的深度的信息，利用包含在其它场景中且与该移动被摄体区域对应的静止被摄体区域的深度信息来进行补充。具体而言，深度补充部308根据跟踪被摄体信息322和移动掩模326，将先前的初始深度图324所包含的被确定为静止着的被摄体的正确的深度信息复制到在当前的初始深度图324中被确定为移动着的同一被摄体的深度信息，从而生成深度图230。此外，深度补充部308利用跟踪被摄体信息322，确定与处理对象的场景的移动被摄体区域相对应的、其它场景所包含的静止被摄体区域。

因此，该深度图230的移动被摄体的深度精度明显提高。原因在于，利用先前的初始深度图的高精度的深度信息，将当前的初始深度图的精度低的深度信息改善。

成本值计算部305以及深度图生成部304例如通过以下的例子来实现。首先，成本值计算部305利用多焦点图像群226中的至少一个图像，生成AIF（all－in－focus：全焦点）图像。接着，成本值计算部305利用AIF图像及PSF（Point Spread Function：点扩散函数）数据群，生成模糊图像群。这里，PSF数据是指，表示在以具有固有的拍摄参数的指定距离进行了观测的情况下点光源如何扩散的数据。PSF是与场景内的被摄体的距离（深度）有关的函数。并且，成本值计算部305利用多焦点图像群226以及模糊图像群，计算针对各像素位置的成本值组。这里，成本值组是指分别与多个距离（深度）的每一个距离相对应的多个成本值的集合。最后，成本值计算部305决定成本值组所包含的多个成本值中的具有最小值的最小成本值325。并且，深度图生成部304生成初始深度图324，该初始深度图324将与用于生成成为最小成本值的模糊图像的PSF对应的距离作为像素位置的深度信息。

上述处理被称作A－DFD（Advanced－Depth from Defocus）。该处理中，在所生成的模糊图像与所拍摄的输入图像中按每个像素使焦点模糊匹配。这里，在被摄体移动的情况下，多焦点图像群226所包含的图像间的被摄体的位置错开。由此，像素的模糊匹配变得不正确。因此，推测出的深度可能会产生深度误差。对此，本实施方式的深度推测装置210，通过检测多焦点图像群226中的移动被摄体，来确定深度精度高的区域（静止被摄体区域）和深度精度低的区域（移动被摄体区域）。并且，深度推测装置210根据该信息，利用先前的深度图中的深度精度高的区域，能够改善当前的深度图中的深度精度低的区域。

上述深度推测处理仅用于例示目的，不限定本发明的范围或精神。也可以利用现有的DFD或DFF等其它公知的深度推测方法。

深度推测装置210以及其它处理部通常以IC（Integrated Circuits）、ASIC（Application－Specific Integrated Circuits）、LSI（Large Scale Integratedcircuits）、DSP（Digital Signal Processor）的形式来实现，或通过以ARM等的CPU为基础的处理器或具备PC（Personal Computer）的设备来实现。这些处理部分别既可以存在于大量的单功能LSI内，也可以存在于单一的集成LSI内。这里设为了LSI，但根据集成度的不同，有时也称作IC、系统LSI、超级LSI或特级LSI。并且，集成电路化的方法不限于LSI，也可以通过专用电路或通用处理器实现。其中包含能够由程序命令进行指示的DSP等专用微处理器。在LSI的制造后可编程的FPGA（Field ProgrammableGate Array）或能够重构LSI的连接或设定的可重构·处理器也能够以相同的目的来使用。今后，若制造及工艺技术取得进步，则也可以用最新技术来替换LSI。也可以利用该技术来进行集成电路化。

在安装中，可以在数字静态摄像机以及电影摄像机（movie camera）等图像拍摄装置中组装深度推测装置210。此外，深度推测装置210可以安装到专业拍摄系统等与图像拍摄系统连动的独立（stand alone）型的装置中。还能将深度推测装置210安装到其它类型的装置中，不限定本发明的范围。

以下，说明上述深度推测装置210的动作的流程。图5是深度推测装置210对一个场景进行的深度推测处理的流程图。

首先，成本值计算部305利用多焦点图像群226，通过上述方法计算最小成本值325（S101）。接着，运动推测部306利用最小成本值325生成运动掩模（S102）。此外，深度图生成部304利用最小成本值325，通过上述方法生成初始深度图324（S103）。此外，特征跟踪部302通过在场景间跟踪被摄体来生成跟踪被摄体信息322（S104）。最后，深度补充部308利用移动掩模326及跟踪被摄体信息322来补充初始深度图324，从而生成深度图230。

图6是表示运动推测部306进行的运动掩模生成处理（S102）的处理步骤的流程图。首先，运动推测部306取得由成本值计算部305计算出的针对像素位置（i，j）的最小成本值CM（i，j）（S201）。接着，运动推测部306判断CM（i，j）是否大于阈值TH（S202）。例如，该阈值TH是预先决定的固定值。

若CM（i，j）大于阈值TH（S202的“是”），则运动推测部306将像素位置（i，j）确定为移动被摄体区域的像素（S203）。另一方面，若CM（i，j）不大于阈值TH（S202的“否”），则运动推测装置300将像素位置（i，j）确定为静止被摄体区域的像素（S204）。

在没有对所有像素位置结束步骤S201～S204的处理的情况下（S205的“否”），运动推测部306选择下一像素位置（S206），对所选择的像素位置执行步骤S201以后的处理。此外，在对所有像素位置的处理结束的情况下（S205的“是”），运动推测部306生成移动掩模326（S207），该移动掩模326表示各像素位置是移动被摄体区域还是静止被摄体区域。最后，运动推测部306将生成的移动掩模326保存到存储器（未图示）中（S208）。

这里，在由于被摄体移动而像素的模糊匹配不正确的情况下，最小成本值增大。因此，如上述那样地根据最小成本值是否在阈值TH以上，能够判断各像素位置是否正在移动。

另外，阈值TH可以预先定义且保存到寄存器或存储器中。此外，阈值TH可以通过解析最小成本值的分布而按照场景对象动态地计算。

图7A～图7C是表示阈值（TH）计算用的成本函数的最小成本值分布的例子的图。图7A～图7C表示一个场景的最小成本值的分布，纵轴对应于像素数。图7A示出了静止被摄体的场景的最小成本值分布的例子。根据该例，该分布在约2.5的最小成本值处出现峰值，收敛于约10。图7B示出了包含稍微移动的被摄体的场景的最小成本值分布的例子。在分布的末端部，高成本区域M70开始扩展。该区域表示最小成本的值高，意味着深度推测的精度低而没有可靠性。图7C示出了包含明显移动的被摄体的场景的最小成本值分布的例子。分布的末端部进一步变长，产生高成本区域M72。高成本区域M72比高成本区域M70长，这与被摄体的移动量相符。因此，通过对分布进行解析，能够决定阈值TH。这可以是离线（offline）的计算也可以是即时（on the fly）计算。重要的是，移动被摄体区域表示深度推测的精度低而没有可靠性。为了提高移动被摄体区域的深度精度，该指标被应用于帧间深度复制与运动推测／补偿。

此外，该移动掩模326按每个该多焦点图像群226生成。

移动掩模326例如如图4所示，将所确定的移动被摄体区域用白色表示，将所确定的静止被摄体区域用黑色表示。利用该指标，深度推测装置210能够掌握在哪个区域中初始深度图324的精度低。

此外，在图4的例子中，多焦点图像群SET1、SET2以及SET3的移动掩模326A、326B以及326D中包含移动被摄体区域，多焦点图像群SET3的移动掩模326C中不怎么包含移动被摄体区域。这表示根据该多焦点图像群SET3而生成的初始深度图324的深度精度高。因此，利用多焦点图像群SET3的深度图，能够改善多焦点图像群SET1、SET2以及SET4的深度图。

以下，说明特征跟踪处理（S104）的具体例。该特征跟踪处理（被摄体跟踪处理）是为了掌握在不同的多焦点图像群226中是否有同一被摄体而进行的。此外，特征跟踪部302按每个多焦点图像群226，将至少一个图像用于特征跟踪用。其中，优选的是，从各多焦点图像群226中使用的图像是焦点位置相同的图像。例如，在图4所示的例子中，特征跟踪部302将｛a，b，c｝群或｛c，b，a｝群中的图像b用于特征跟踪处理。另外，在进行特征跟踪之前，可以对图像b适用指定的处理。此外，在根据多焦点图像群制作全焦点图像的情况下，优选利用该全焦点图像进行特征跟踪处理。

图8是特征跟踪方法的流程图。

首先，特征跟踪部302计算在第一多焦点图像群中包含的第一图像的第一被摄体特征群，并计算在第二多焦点图像群中包含的第二图像的第二被摄体特征群（S221）。接着，特征跟踪部302通过使算出的第一被摄体特征群与算出的第二被摄体特征群匹配而生成跟踪被摄体信息322（S222）。该跟踪被摄体信息322中，包含与在不同图像中出现的同一被摄体特征有关的信息。并且，特征跟踪部302将跟踪被摄体信息322存储到存储器（未图示）中（S223）。根据该跟踪被摄体信息322，能够掌握与某图像内的被摄体同一被摄体在其他图像的哪里出现。因此，深度补充部308能够利用该跟踪被摄体信息322在深度图间正确地复制深度信息。

另外，作为特征跟踪方法，也可以使用该技术领域公知的方法。例如，已知的特征跟踪方法的例子已被非专利文献5及非专利文献6公开。

接着，说明深度补充部308进行的深度图的补充处理（S105）。图9是深度图的补充处理的流程图。

首先，深度补充部308取得与第一及第二多焦点图像群对应的第一及第二初始深度图、第一及第二移动掩模、以及跟踪被摄体信息322（S241）。接着，深度补充部308利用第二移动掩模来确定第二初始深度图中的移动被摄体区域的位置。此外，深度补充部308利用跟踪被摄体信息322和第一移动掩模，确定被确定为静止被摄体区域的第一初始深度图中的同一被摄体的位置（S242）。

并且，深度补充部308根据被确定为静止被摄体区域的第一初始深度图中的同一被摄体的指定位置，取得针对第二初始深度图中的移动被摄体区域的指定位置的深度值。即，深度补充部308将静止被摄体区域的深度值拷贝到移动被摄体区域。最后，深度补充部308将进行补充后的深度图230输出。

如上所述，静止被摄体区域的深度精度高，移动被摄体区域的深度精度低。通过将来自第一深度图的静止被摄体区域的高精度的深度信息复制到第二深度图的同一被摄体正在移动的被摄体的深度信息，来提高第二深度图中的移动被摄体区域的深度精度。在将提高了移动被摄体区域的深度精度的深度图230应用到3D图像生成等接下来的处理时，由这些处理部生成的图像的品质提高。

另外，深度补充部308在补充处理中使用的初始深度图324不限于先前的帧的初始深度图324。例如，深度补充部308可以使用后面的帧的初始深度图324。此外，深度补充部308在补充处理中使用的初始深度图324不限于当前的帧的紧前或紧后的帧的初始深度图324，也可以是两个帧以上前或后的帧的初始深度图324。并且，深度补充部308也可以使用多个帧的初始深度图324。另外，优选的是，深度补充部308将处理对象的场景的初始深度图324所包含的移动被摄体区域的深度的信息，利用包含与该移动被摄体区域对应的静止被摄体区域在内的其他场景中的、在时间上与该处理对象的场景最接近的场景所包含的该静止被摄体区域的深度信息来进行补充。

以下，说明本实施方式的深度推测处理的具体例。

图10A～图10C是表示所拍摄的多焦点图像的一例的图。该例中，拍摄三个图像，它们是远焦点图像502、扫掠（sweep）焦点图像504、近焦点图像506。远焦点图像502中，焦点明确地对准于远的被摄体（被摄体A），对于近的被摄体（被摄体C）而言，由于焦点偏离而模糊。扫掠焦点图像504中，被摄体A、B以及C具有模糊不变效果。这表示被摄体A、B、C的模糊量类似。这样的图像适合于生成AIF图像。近焦点图像506中，焦点对准于近的被摄体（被摄体C），对于远的被摄体（被摄体A）而言，由于焦点偏离而模糊。这三个图像（502，504，506）用于深度推测。该例中，被摄体A、B、C静止。因此，推测出的深度图的深度精度高。利用这些拍摄图像推测出的深度图508的例子在图10D中示出。被摄体的深度顺序如图10D所示地被正确地推测。

图11A～图11C是表示场景内的被摄体移动的多焦点图像群的一例的图。该例中，与图10A～图10C相同，拍摄三个图像，它们是远焦点图像522、扫掠焦点图像524、近焦点图像526。此外，该例中，被摄体B从左向右移动。若在不同时刻拍摄三个图像，则被摄体B在各拍摄图像中位于不同的像素位置。因此，在推测后得到的深度图528受到运动的影响。如图11D所示，在移动被摄体区域中产生深度误差，被摄体B的深度顺序特别在被摄体边界周边是不正确的。在将该深度图528用于3D图像生成等接下来的处理时，移动被摄体的画质变差。因此需要改善。

图12表示基于帧间深度复制的深度图改善的流程。如上所述地，按每个多焦点图像群226生成移动掩模326。图12中，移动掩模540表示静止被摄体图像群的移动掩模（即利用图10A～图10C所示的多焦点图像群生成的移动掩模）。移动掩模550表示包含移动被摄体的图像群的移动掩模（即利用图11A～图11C的、被摄体B运动的多焦点图像群生成的移动掩模）。

深度补充部308确定由移动掩模540表示的移动被摄体区域F502。这里，该移动被摄体区域F502的深度上的精度低。并且，特征跟踪部302为了掌握在不同时刻拍摄的图像内的同一被摄体的位置而在图像间跟踪被摄体。具体而言，特征跟踪部302如图12所示使图像542及图像552的被摄体特征匹配。这里，特征跟踪部302利用来自移动掩模550的信息，能够掌握哪个特征或哪个区域是属于移动被摄体区域还是属于静止被摄体区域。例如，匹配后的特征F504由于不含有在对应的移动掩模550中所确定的移动被摄体区域，因此作为静止被摄体的特征来掌握。此外，匹配后的特征F506由于含有在移动掩模550中所确定的移动被摄体区域，因此作为移动被摄体的特征来掌握。通过使用这些信息，能够将来自前帧的高精度深度信息复制到当前的帧。例如，将深度图544的区域F500（静止被摄体区域）的深度信息复制到深度图554的区域F501（移动被摄体区域）的深度信息。这样，能够只对深度图554的移动被摄体区域进行帧间深度复制。

另外，深度补充部308可以使用基于区域的深度复制方法来进行深度复制处理。例如，深度补充部308根据被摄体形状或者以块（block）为单位，将深度信息复制。或者，深度补充部308也可以使用将所确定的移动被摄体区域周边的像素进行复制的基于像素的深度复制。此外，深度补充部308也可以使用仅将主要特征的深度信息进行复制的基于特征的深度复制，之后利用深度插补。

此外，深度复制处理可以通过从前帧向当前帧替换深度信息来进行。或者，也可以利用加权平均法来进行。

此外，深度补充部308也可以不是将静止被摄体区域的深度值作为移动被摄体区域的深度值直接拷贝，而是利用静止被摄体的深度值计算移动被摄体区域的深度值。例如，深度补充部308也可以将对静止被摄体区域的深度值乘以或加上规定系数而得到的值作为移动被摄体区域的深度值。

图13是表示推测出的深度图的统计图比较结果的一例的图。该例中，被摄体位于距拍摄装置约2.9米的位置。由该结果可知，当前的帧的初始深度图（统计图L1）不正确，含有大量误差。这是因为在多焦点图像群中被摄体移动。统计图L2表示不包含移动被摄体的先前的帧的深度图。如图可知，该统计图L2的深度精度高。统计图L3表示从先前的帧的深度图复制深度信息从而进行了补充的深度图。如图可知，补充后的深度图的深度精度大幅提高。根据该结果，证明了本实施方式的有效性。

以下，说明上述实施方式的变形例。

图14是本发明的其它实施方式的运动推测处理的流程图。

首先，深度推测装置210取得多焦点图像群226（S301）。接着，成本值计算部305利用多焦点图像群226，计算针对像素位置（i，j）的成本值组E（i，j）（S302）。接着，成本值计算部305从E（i，j）中选择针对像素位置（i，j）的最小成本值CM（i，j）（S303）。接着，运动推测部306制作例如在1帧中包含的多个像素位置的最小成本值即最小成本值组（S304）。

接着，运动推测部306利用最小成本值组计算阈值TH（S305）。接着，运动推测部306判断CM（i，j）是否大于阈值TH（S306）。若CM（i，j）大于阈值TH（S306的“是”），则运动推测部306将像素位置（i，j）确定为移动被摄体区域的像素位置（S307）。若CM（i，j）不大于阈值TH（S306的“否”），则运动推测部306将像素位置（i，j）确定为静止被摄体区域的像素位置（S308）。在没有对所有像素位置结束步骤S306～S308的处理的情况下（S309的“否”），运动推测部306选择下一像素位置（S310），对所选择的像素位置执行步骤S306以后的处理。此外，在对所有像素位置的处理结束的情况下（S309的“是”），运动推测部306生成移动掩模326（S311）。最后，运动推测部306将生成的移动掩模326保存到存储器（未图示）中（S312）。

另外，也可以利用生成的移动掩模326表示从多焦点图像得到的深度图的精度。此外，也可以根据应用将生成的移动掩模326用于其它接下来的处理。

此外，在上述说明中，说明了运动推测装置300按每1像素推测该像素的运动的例子，但运动推测装置300也可以按每个包含多个像素的区域来推测该区域的运动。同样，深度图生成部304也可以按每个包含多个像素的区域来生成表示该区域的深度的深度图。同样，深度补充部308也可以按每个包含多个像素的区域来补充该区域的深度信息。此外，这些处理部所使用的区域的大小既可以相同也可以不同。

（实施方式2）

本实施方式中，说明上述实施方式1的深度推测装置210的变形例。另外，以下主要说明与实施方式1的不同点，省略重复的说明。

图15是本发明实施方式2的深度推测装置210A的框图。深度推测装置210A以多焦点图像群226为输入。该深度推测装置210A具备运动推测装置300、深度图生成部304和运动补偿部330。

运动补偿部330，从由运动推测部306确定的移动被摄体区域计算多焦点图像群226的运动矢量，利用算出的运动矢量，补偿与移动被摄体对应的像素位置以减少像素移位。并且，作为运动补偿后的输出信息的运动补偿信息340被发送到深度图生成部304，利用于提高移动被摄体的深度精度。例如，深度图生成部304利用由运动补偿部330算出的运动矢量或运动补偿信息340对多焦点图像群226进行运动补偿处理，利用运动补偿处理后的多焦点图像群来生成深度图230。

由此，移动被摄体的深度精度在保证静止被摄体的深度精度的基础上得到提高。并且，运动推测以及运动补偿的复杂性由于仅在移动被摄体区域执行而降低。

另外，可也以如图16所示的深度推测装置210B那样，将图3所示的深度推测装置210和图15所示的深度推测装置210A进行组合。即，也可以是，深度图生成部304利用由运动补偿部330算出的运动矢量或运动补偿信息340对多焦点图像群226进行运动补偿处理，利用运动补偿处理后的多焦点图像群来生成初始深度图324。

（实施方式3）

本实施方式中，说明具备上述深度推测装置210的拍摄装置。

图17是本实施方式的拍摄装置700的概略框图。该拍摄装置700具备光学系统702、图像传感器704、ADC（Analog－to－Digital Converter：模拟数字转换器）706、图像处理处理器708、微型计算机710、外部存储器712、驱动控制器720、OIS（Optical Image Stabilizer：光学图像稳定器）传感器718、操作（operation）部722、保存／转送设备716和显示设备714。

图像处理处理器708具备内部存储器740、深度推测装置746、未加工图像处理处理器742、彩色图像处理处理器743和作为备选的3D图像处理处理器744。另外，拍摄装置700可以还具备麦克风、扬声器等其它部件

光学系统702由对到达图像传感器704的光信号进行控制的部件构成。例如，光学系统702包含透镜或透镜组、变焦及聚焦机构、促动器（actuator）、快门（shutter）和光圈。

图像传感器704积蓄入射光信号，将该光信号变换为电信号。此外，图像传感器704接受来自微型计算机710的命令。变换后的电信号被ADC706变换为数字数据（未加工图像数据），该数字数据被保存到内部存储器740或外部存储器712中。此外，该未加工图像数据中包含在不同的焦点位置上拍摄的多焦点图像群。并且，未加工图像数据中也可以包含在图像拍摄中一边改变焦点位置一边拍摄的、作为复杂的未加工图像数据的高分辨率图像数据。

未加工图像处理处理器742取得来自内部存储器740（或外部存储器712）的未加工图像数据，对取得的未加工图像数据进行大小变更、线性修正、白平衡以及伽马修正等各种各样的前处理。前处理后的未加工图像数据被保存／转送设备716保存或转送。此外，为了生成RGB或YCbCr等彩色图像，还能够由彩色图像处理处理器743对前处理后的未加工图像进行处理。彩色图像处理处理器743为了生成合适的彩色图像，可以进行彩色插补、彩色修正、色调调整以及彩色噪声降低等。

深度推测装置746是上述的深度推测装置210、210A或210B，以焦点不同的预先拍摄的图像作为输入，生成深度图。另外，该深度图也可以由3D图像生成用的3D图像处理处理器744等之后的处理部使用。此外，深度图可以用于在显示设备714上观察的可视化。此外，深度图可以由保存／转送设备716保存或转送以便之后利用。作为保存设备的例子，有以闪存为基础的存储卡、硬盘驱动器以及光学式驱动器，但不限于此。作为转送设备的例子，有HDMI接口、USB接口、无线接口以及打印机直接连结型接口，但不限于此。保存或转送设备也可以具备可逆压缩部或不可逆压缩部作为备选。

光学系统702由接受来自微型计算机710的命令的驱动控制器720控制。操作部722接收用户操作的输入，向微型计算机710发送电信号，由此向驱动控制器720、图像传感器704以及图像处理处理器708等与用户输入相关联的处理部发出命令。

OIS传感器718检测由手抖或摄像机运动引起的运动，向微型计算机710发送电信号。微型计算机710为了移动透镜来修正运动而对驱动控制器720发出命令，以控制光学系统702的促动器等。由此，降低由手抖或摄像机运动引起的晃动的影响。

图像处理处理器708、深度推测装置746以及内部模块通常以IC（Integrated Circuits）、ASIC（Application－Specific Integrated Circuits）或LSI（Large Scale Integrated circuits）电路的形式实现。这些处理部既可以分别存在于大量单功能LSI内，也可以存在于单一的集成LSI内。这里设为了LSI，但根据集成度的不同，有时也称作IC、系统LSI、超级LSI或特级LSI。并且，集成电路化的方法不限于LSI，也可以用专用电路或通用处理器实现。其中，包含能够由程序命令指示的、DSP（Digital Signal Processor）等专用微处理器。在LSI的制造后能够编程的FPGA（Field ProgrammableGate Array）或能够对LSI的连接或设定进行重构的可重构处理器也能够以相同目的来使用。今后，若制造及工艺技术进步，则也可以用最新技术来替换LSI。可以利用该技术进行集成电路化。

以上，说明了本发明的实施方式涉及的运动推测装置、深度推测装置以及拍摄装置，但本发明不限于该实施方式。

此外，也可以将本发明的实施方式涉及的运动推测装置、深度推测装置或拍摄装置的功能的一部分或全部通过由CPU等处理器执行程序来实现。

并且，本发明可以是上述程序，也可以是记录有上述程序的非暂时性的计算机可读取的记录介质。此外，上述程序当然能够经由因特网等传送介质来流通。

即，在上述各实施方式中，各构成要素可以由专用的硬件构成，也可以通过执行适于各构成要素的软件程序来实现。各构成要素也可以通过由CPU或处理器等程序执行部读取并执行在硬盘或半导体存储器等记录介质中记录的软件程序来实现。这里，实现上述各实施方式的运动推测装置等的软件是如下的程序。

即，该程序是利用与一个场景对应的焦点相互不同的多焦点图像群、对该场景包含的多个第一区域中的各个区域的运动进行推测的运动推测方法的程序，使计算机执行如下步骤：成本值计算步骤，利用上述多焦点图像群，按上述多个第一区域的每个第一区域计算成本值，该成本值表示该第一区域的模糊量与按深度方向的每个距离决定的基准的模糊量之间的差；以及运动推测步骤，利用上述成本值，推测与该成本值对应的第一区域的运动。

此外，也可以将上述实施方式涉及的运动推测装置、深度推测装置、拍摄装置以及它们的变形例的功能的至少一部分进行组合。

此外，上述所采用的数字都是为了具体说明本发明而例示的，本发明不受例示的数字的限制。

此外，框图中的功能块的分割是一个例子，可以将多个功能块作为一个功能块来实现，或者也可以将一个功能块分割为多个，或将一部分功能转移到其它功能块。此外，可以将具有类似的功能的多个功能块的功能由单一的硬件或软件以并行或分时的方式进行处理。

此外，执行上述方法（处理）所包含的各步骤的顺序是为了具体说明本发明而例示的，也可以是上述以外的顺序。此外，上述步骤的一部分也可以与其它步骤同时（并行）执行。

并且，只要不脱离本发明的主旨，则对本实施方式实施本领域技术人员可以想到的范围内的变更而得到的各种变形例也包含于本发明。

工业实用性

本发明能够适用于运动推测装置以及采用该运动推测装置的深度图推测装置。此外，本发明能够适用于具备深度图推测装置的拍摄装置等。

符号说明

200 拍摄装置

202 光学系统

204 图像拍摄部

206 前处理部

208 内部存储器

210、210A、210B 深度推测装置

212 控制器

214 外部存储器

224、226 多焦点图像群

230 深度图

300 运动推测装置

302 特征跟踪部

304 深度图生成部

305 成本值计算部

306 运动推测部

308 深度补充部

322 跟踪被摄体信息

324 初始深度图

325 最小成本值

326、326A、326B、326C、326D 移动掩模

330 运动补偿部

340 运动补偿信息

502、522 远焦点图像

504、524 扫掠焦点图像

506、526 近焦点图像

508、528 深度图

540、550 移动掩模

542、552 图像

544、554 深度图

700 拍摄装置

702 光学系统

704 图像传感器

706 ADC

708 图像处理处理器

710 微型计算机

712 外部存储器

714 显示设备

716 保存／转送设备

718 OIS传感器

720 驱动控制器

722 操作部

740 内部存储器

742 未加工图像处理处理器

743 彩色图像处理处理器

744 3D图像处理处理器

746 深度推测装置

Claims

1.一种运动推测装置，利用与一个场景对应的焦点相互不同的多焦点图像群，推测该场景所包含的多个第一区域各自的运动，具备：

成本值计算部，利用上述多焦点图像群，按上述多个第一区域的每个第一区域计算成本值，该成本值表示对应于该第一区域的模糊量与按深度方向的每个距离决定的基准模糊量之间的差；以及

运动推测部，利用上述成本值，推测与该成本值对应的第一区域的运动。

2.如权利要求1所述的运动推测装置，

上述成本值计算部按上述多个第一区域的每个第一区域，计算按多个上述深度方向的距离的每个距离求出的多个上述成本值中最小的最小成本值，

上述运动推测部利用上述最小成本值，推测与该最小成本值对应的第一区域的运动。

3.如权利要求2所述的运动推测装置，

在上述最小成本值大于阈值的情况下，上述运动推测部将与该最小成本值对应的第一区域判定为有运动的移动被摄体区域，

在上述最小成本值小于上述阈值的情况下，上述运动推测部将与该最小成本值对应的第一区域判定为无运动的静止被摄体区域。

4.如权利要求3所述的运动推测装置，

上述阈值是预先决定的固定值。

5.一种深度推测装置，按每个场景，利用与一个场景对应的焦点相互不同的多焦点图像群生成深度图，该深度图表示该场景所包含的多个第二区域各自的深度，上述深度推测装置具备：

深度图生成部，按每个上述场景，利用与该场景对应的上述多焦点图像群，生成作为该场景的深度图的初始深度图；

权利要求3或4所述的运动推测装置，按每个上述场景，推测该场景所包含的多个第一区域各自的运动；以及

深度补充部，将处理对象的场景的上述初始深度图中包含的上述移动被摄体区域的深度的信息，利用包含在其它场景中且与该移动被摄体区域对应的上述静止被摄体区域的深度信息进行补充。

6.如权利要求5所述的深度推测装置，

上述深度补充部将上述静止被摄体区域的深度信息复制到上述移动被摄体区域的深度信息。

7.如权利要求5或6所述的深度推测装置，

上述运动补充部，将上述处理对象的场景的上述初始深度图中包含的上述移动被摄体区域的深度的信息，利用包含与该移动被摄体区域对应的上述静止被摄体区域的其它场景中的、在时间上与该处理对象的场景最接近的场景所包含的该静止被摄体区域的深度信息进行补充。

8.如权利要求5～7中的任一项所述的深度推测装置，

上述深度补充部，按每一像素，将上述处理对象的场景的上述初始深度图中包含的上述移动被摄体区域的深度的信息，利用包含在上述其它场景中且与该移动被摄体区域对应的上述静止被摄体区域的深度信息进行补充。

9.如权利要求5～7中的任一项所述的深度推测装置，

上述深度补充部，按包含多个像素的每个区域，将上述处理对象的场景的上述初始深度图中包含的上述移动被摄体区域的深度的信息，利用包含在上述其它场景中且与该移动被摄体区域对应的上述静止被摄体区域的深度信息进行补充。

10.如权利要求5～9中的任一项所述的深度推测装置，

上述深度推测装置还具备特征跟踪部，该特征跟踪部通过在场景间跟踪被摄体，生成表示多个场景中的同一被摄体的跟踪被摄体信息，

上述深度补充部利用上述跟踪被摄体信息，确定包含在上述其它场景中且与上述移动被摄体区域对应的上述静止被摄体区域。

11.如权利要求10所述的深度推测装置，

上述特征跟踪部计算第一多焦点图像群所包含的至少一个第一图像的第一被摄体特征群，计算包含在第二多焦点图像群中且焦点与上述第一图像相同的至少一个第二图像的第二被摄体特征群，通过使上述第一被摄体特征群与上述第二被摄体特征群匹配，生成上述跟踪被摄体信息。

12.如权利要求5～11中的任一项所述的深度推测装置，

上述深度推测装置还具备运动补偿部，该运动补偿部利用上述多焦点图像群计算上述移动被摄体区域的运动矢量，

上述深度图生成部利用上述运动矢量对上述多焦点图像群进行运动补偿处理，并利用运动补偿处理后的多焦点图像群生成上述初始深度图。

13.一种深度推测装置，按每个场景，利用与一个场景对应的焦点相互不同的多焦点图像群生成深度图，该深度图表示该场景所包含的多个第二区域各自的深度，上述深度推测装置具备：

权利要求3或4所述的运动推测装置，按每个上述场景，推测该场景所包含的多个第一区域各自的运动；

运动补偿部，利用上述多焦点图像群计算上述移动被摄体区域的运动矢量；以及

深度图生成部，利用上述运动矢量对上述多焦点图像群进行运动补偿处理，并利用运动补偿处理后的多焦点图像群，生成对应的场景的深度图。

14.一种运动推测方法，利用与一个场景对应的焦点相互不同的多焦点图像群，推测该场景所包含的多个第一区域各自的运动，包括：

成本值计算步骤，利用上述多焦点图像群，按上述多个第一区域的每个第一区域计算成本值，该成本值表示该第一区域的模糊量与按深度方向的每个距离决定的基准模糊量之间的差；以及

运动推测步骤，利用上述成本值，推测与该成本值对应的第一区域的运动。

15.一种程序，用于使计算机执行权利要求14所述的运动推测方法。