CN103430210A

CN103430210A - 信息处理系统、信息处理装置、拍摄装置、以及信息处理方法

Info

Publication number: CN103430210A
Application number: CN2012800145052A
Authority: CN
Inventors: 大场章男; 势川博之
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2011-03-31
Filing date: 2012-01-16
Publication date: 2013-12-04
Anticipated expiration: 2032-01-16
Also published as: CN103430210B; US20140002616A1; JP2012216006A; US9710923B2; JP5774889B2; EP2693394A4; WO2012132167A1; EP2693394B1; TW201250626A; TWI462052B; EP2693394A1

Abstract

拍摄装置（12）包含第1照相机（22）、第2照相机（24）。各照相机分别从相隔已知的宽度的左右的位置以相同定时、相同帧速率拍摄对象物。然后将拍摄到的各帧图像变换为规定的多个分辨率的图像数据。信息处理装置（14）的输入信息取得部（26）取得来自用户的指示输入。位置信息生成部（28）在立体图像的数据之中用低分辨率、宽范围的图像将对象物的区域或者有运动的区域大约估计为对象区域，仅在该区域用高分辨率的图像进行立体匹配，确定对象物的三维的位置。输出信息生成部（32）基于对象物的位置进行必要的处理而生成输出信息。通信部（30）进行对拍摄装置（12）的图像数据的请求以及取得。

Description

信息处理系统、信息处理装置、拍摄装置、以及信息处理方法

技术领域

本发明涉及进行与正在动画拍摄的对象物的运动配合的处理的信息处理系统、包含于该系统的信息处理装置、拍摄装置、以及在该系统中使用的信息处理方法。

背景技术

近年，一般，在个人计算机或游戏机等搭载照相机，拍摄并以多种形式利用用户的姿势。例如电视电话、视频聊天等，将用户的图像经由网络原样传送至对方，或通过图像分析认识用户的运动而设为游戏或信息处理的输入信息等被实用化（例如参照专利文献1）。

现有技术文献

专利文献

专利文献1：WO2007/050885A2公报

发明内容

发明要解决的课题

为了利用拍摄图像而响应性好地高精度地实现各种处理，求得对应于该处理内容的画质。但是从制造成本、图像的传送频带、拍摄至输出的响应性等方面而言，仅简单地通过提高照相机的性能或画质而使信息处理装置的功能充实化是困难的状况。例如越高性能化照相机的拍摄元件，则越压迫照相机与主机间的图像数据传送的频带，从而图像分析所需的时间增大。

本发明鉴于这样的课题而完成，其目的在于，提供能够响应性好地实现利用拍摄图像的信息处理的技术。

用于解决课题的手段

本发明的一个方式涉及信息处理装置。该信息处理装置通过使用从不同的视点同时视频拍摄对象物而得到的立体运动图像进行立体匹配，以规定的速率输出对象物的位置信息，其特征在于，具备：运动区域确定部，通过取得以规定的分辨率表示的包含于立体运动图像的图像帧对的图像数据并求得运动差分，从而确定运动区域；对象区域决定部，基于该运动区域决定应设为立体匹配的处理对象的对象区域；分辨率决定部，根据该对象区域的大小决定用于进行立体匹配的适当分辨率；以及位置信息取得部，取得以适当分辨率表示的包含于立体运动图像的图像帧对的对象区域的图像数据，使用该图像数据进行立体匹配而取得并输出对象物的位置信息。

本发明的其他方式涉及拍摄装置。该拍摄装置具备从不同的视点同时视频拍摄对象物的一对照相机，其特征在于，各照相机具备：图像取得部，取得使用拍摄元件拍摄的未加工图像；解马赛克处理部，对未加工图像进行解马赛克处理；滤波器部，将解马赛克后的图像阶段性地缩小，并变换为分辨率不同的多个图像；以及图像传送部，从连接的信息处理装置接受指定了分辨率和区域的图像数据的转发请求，从分辨率不同的多个图像提取与该转发请求一致的分辨率以及区域的图像的数据并转发至所述信息处理装置。

本发明的其他方式涉及信息处理系统。该信息处理系统的特征在于，具备：拍摄装置，从不同的视点同时视频拍摄对象物的一对照相机；以及信息处理装置，通过使用拍摄装置拍摄而得到的立体运动图像进行立体匹配，以规定的速率输出对象物的位置信息，拍摄装置的各照相机具备：图像取得部，取得使用拍摄元件拍摄的未加工图像；解马赛克处理部，对未加工图像进行解马赛克处理；滤波器部，将解马赛克后的图像阶段性地缩小，并变换为分辨率不同的多个图像；以及图像传送部，从信息处理装置接受指定了分辨率和区域的图像数据的转发请求，从分辨率不同的多个图像提取与该转发请求一致的分辨率以及区域的图像的数据并转发至信息处理装置，信息处理装置具备：运动区域确定部，通过从拍摄装置取得以规定的分辨率表示包含于立体运动图像的图像帧对的图像数据并求得运动差分，从而确定运动区域；对象区域决定部，基于该运动区域决定应设为立体匹配的处理对象的对象区域；分辨率决定部，根据该对象区域的大小决定用于进行立体匹配的适当分辨率；以及位置信息取得部，从拍摄装置取得以适当分辨率表示包含于立体运动图像的图像帧对的对象区域的图像数据，使用该图像数据进行立体匹配而取得并输出对象物的位置信息。

本发明的其他方式进一步涉及信息处理方法。该信息处理方法通过使用从不同的视点同时视频拍摄对象物而得到的立体运动图像进行立体匹配，以规定的速率输出对象物的位置信息并存储至存储器，其特征在于，包含：通过从拍摄装置取得以规定的分辨率表示包含于立体运动图像的图像帧对的图像数据并求得运动差分，从而确定运动区域的步骤；基于该运动区域决定应设为立体匹配的处理对象的对象区域的步骤；根据该对象区域的大小决定用于立体匹配的适当分辨率的步骤；以及从拍摄装置取得以适当分辨率表示包含于立体运动图像的图像帧对的对象区域的图像数据，使用该图像数据进行立体匹配而取得对象物的位置信息并输出至存储器的步骤。

另外，以上的构成要素的任意的组合，将本发明的表现在方法、装置、系统、计算机程序、记录了计算机程序的记录介质等之间变换的情况也作为本发明的方式而有效。

发明效果

根据本发明，能够响应性好地实现将拍摄图像作为输入信息而利用的信息处理。

附图说明

图1是表示能够应用本实施方式的信息处理系统的构成例的图。

图2是表示本实施方式中的拍摄装置和信息处理装置的结构的图。

图3是详细地表示本实施方式中的第1照相机的结构的图。

图4是表示本实施方式中的图像传送部的结构的图。

图5是详细地表示本实施方式中的信息处理装置的位置信息生成部的结构的图。

图6是示意性地表示本实施方式中的拍摄装置、位置信息取得部、以及对象区域决定部进行的处理的时间的关系的图。

图7是示意性地表示本实施方式中的信息处理装置的运动区域检测部、区域预测部、区域整合部进行的处理的情形的图。

图8是示意性地表示本实施方式中的阶层决定部基于对象区域的大小选择用于立体匹配的阶层的情形的图。

图9是表示本实施方式中的拍摄装置生成的拍摄图像的阶层、与位置信息取得部的数据生成部生成的深度图像的阶层的对应的图。

图10是详细地表示本实施方式的变形例中的第1照相机的结构的图。

具体实施方式

图1表示能够应用本实施方式的信息处理系统的构成例。信息处理系统10包含搭载了拍摄用户1等的对象物的两个照相机的拍摄装置12、基于拍摄到的图像进行与用户的请求对应的信息处理的信息处理装置14、以及输出信息处理装置14处理的结果得到的图像数据的显示装置16。此外，设为信息处理装置14可与互联网等的网络18连接。

信息处理装置14、拍摄装置12、显示装置16、以及网络18可以通过有线电缆被连接，此外也可以通过无线LAN（Local Area Network，局域网）等被无线连接。也可以组合拍摄装置12、信息处理装置14、以及显示装置16之中的任意两个或者全部并一体地装备。此外，拍摄装置12也可以不必须在显示装置16上设置。进而，用户1也可以不是人，其数目也不被限定。

拍摄装置12具有将分别具备CCD（Charge Coupled Device，电荷耦合器件）或者CMOS（Complementary Metal Oxide Semiconductor，互补金属氧化物半导体）等的拍摄元件的两个数字视频照相机以已知的间隔配置于左右的结构。两个数字视频照相机分别将在相同空间中存在的对象物从左右的位置以规定的帧速率拍摄。以后，将这样被拍摄到的帧对也称为“立体图像”。拍摄装置12进而根据拍摄到的结果得到的一对RAW图像，分别生成不同的分辨率的多个图像数据。

信息处理装置14以规定的速率确定对于照相机的视野的纵、横、深度的三维空间中的对象物的位置坐标。此时，基于从拍摄装置12取得的立体图像的数据进行立体匹配。这样得到的位置坐标的时间变化被利用于将对象物的运动作为输入信息而使用的后级的处理。例如，能够用于使作为对象物的用户1的动作反映的登场人物出场的游戏、或将用户1的运动变换为指令输入的信息处理等，但不限定其内容。

显示装置16将信息处理装置14进行的处理的结果，根据需要显示为图像。显示装置16也可以是具有输出图像的显示器以及输出声音的扬声器的电视，例如液晶电视、等离子电视、PC显示器等。如上所述，由于信息处理装置14最终执行的处理内容或应显示的图像不根据其使用目的而特别限定，因此以后着眼于信息处理装置14进行的、对象物的位置的确定处理而说明。

图2表示拍摄装置12和信息处理装置14的结构。图2～图5所示的各功能块硬件上能够通过CPU（Central Processing Unit，中央处理单元）、RAM（Random Access Memory，随机存取存储器）、ROM（Read Only Memory，只读存储器）、描绘电路等的结构而实现，软件上通过发挥数据输入功能、数据保持功能、图像分析功能、描绘功能等的诸功能的程序而实现。从而，本领域技术人员理解这些功能块能够通过仅硬件、仅软件、或者其组合等多种形态而实现，不限定于任一个。

拍摄装置12包含第1照相机22、第2照相机24。各照相机分别从相隔已知的宽度的左右的位置以相同定时、相同帧速率拍摄对象物。然后将拍摄到的各帧图像变换为规定的多个分辨率的图像数据。同图示意地表示这样生成的图像，第2照相机中，按照图像2、图像4、图像6、图像8的顺序，阶段性地增加分辨率。同图设为4阶段的分辨率但不限定其数目。第1照相机22生成的图像也相同。

由于各图像在每个拍摄定时被生成，因此作为结果、以各分辨率生成对于时间轴的图像列。同图向深度方向示意地表示该时间轴。在同一时刻被生成的图像能够理解为构成具有对应于各分辨率的阶层的阶层构造。在以后的说明中将这些图像从最低分辨率的图像起按照分辨率顺序称为第0阶层的图像、第1阶层的图像、第2阶层的图像、…。在图2的例中图像2成为第0阶层，图像4成为第1阶层，图像6成为第2阶层，图像8成为第3阶层的图像。

信息处理装置14包含：输入信息取得部26，取得来自用户的指示输入；位置信息生成部28，基于拍摄图像生成用户1等的对象物的位置信息；输出信息生成部32，基于对象物的位置进行必要的处理而生成输出信息；以及通信部30，是进行对于拍摄装置12的图像数据的请求以及取得的接口。

输入信息取得部26接受来自用户的指示输入，将与其对应的处理请求信号发送至其他功能块。输入信息取得部26通过按钮、键盘、鼠标、追踪球、触摸面板等一般的输入装置、和分析在该输入装置中进行的操作内容并生成处理请求信号的CPU等的联动而实现。

位置信息生成部28利用第1照相机22以及第2照相机24生成的立体图像的数据进行立体匹配，从而确定对象物的三维的位置。此时，通过将成为处理对象的图像数据在时间上、空间上取舍选择并设为所需最低限，减少对精度的影响，减轻处理的负荷。

具体而言，用低分辨率、宽范围的图像将对象物的区域或者有运动的区域大致估计为对象区域，仅在该区域用高分辨率的图像进行立体匹配。在立体匹配中一般进行用于提取两个图像的对应点的搜索，但通过变窄该搜索范围而使立体匹配的效率提高。另外，由于本实施方式实现将运动图像作为输入信息而利用的信息处理，因此主要说明得到对象物有“运动”的部分的位置信息的方法。

此时，通过直至规定时间后预测对象物有运动的区域，分开进行估计该区域的处理与进行立体匹配的定时。例如在以对应多线程的计算机实现信息处理装置14的情况下，将这两个处理作为不同的线程独立地执行。通过这样的处理，需要精度的立体匹配处理能够花费较多时间。例如立体匹配处理将拍摄图像的全帧作为处理对象，相对于此，估计区域的处理每隔规定的几个帧进行，对进行下一个估计区域的处理为止的各帧进行预测。

此外在估计区域的处理中，也包含用于进行立体匹配的适当的阶层的选择。由于对象物越在跟前视差越大，因此即使是分辨率比较小的图像，左右的图像的偏差幅度也大，从而容易维持立体匹配的精度。相反，由于对象物越深视差越小，因此在分辨率小的图像中将左右的偏差限于误差范围中，从而难以保持立体匹配的精度。

因此，本实施方式根据有运动的区域的大小选择用于立体匹配的图像的阶层。即使使用分辨率大的图像，也由于为了得到对应点而应搜索的区域是如上所述的局部，因此作为结果，与对象物的深度方向的位置无关地处理对象的图像尺寸变得相同而计算量变化不大。因此也容易进行计算时间的估计。

位置信息生成部28进而生成将通过立体匹配得到的对象物的深度方向的位置坐标作为由纵向、横向构成的图像平面上的像素值的深度图像。该深度图像设为以与照相机生成的拍摄图像的阶层构造相同的多个分辨率表示的阶层构造。如上所述，对象物的运动根据深度方向的位置存在将其认为运动所需空间分辨率。即，存在根据在后级中输出信息生成部32进行的处理所求得的空间分辨率，忽略这样的运动反而精度提高的情况。因此将深度图像作为阶层构造，根据后级的处理求得的分辨率切换参照的阶层，从而使该处理的效率以及精度提高。

输出信息生成部32取得位置信息生成部28生成的位置信息，适当进行对应于该使用目的的处理。如上所述，不特别限定在此进行的处理，但也可以根据输入信息取得部26接受到的来自用户的指示适当切换。此时如上所述，参照与预先决定的分辨率对应的阶层的深度图像，仅取得对于进行的处理来说有意义的运动。处理的结果得到的数据显示于显示装置16或经由网络18发送至其他装置。

根据使用目的，输出信息生成部32也可以在拍摄装置12的任一个照相机拍摄到的图像中，实施基于位置信息生成部28生成的位置信息的加工并使显示装置16显示。例如通过从位置信息生成部28取得被拍摄的用户1的手或把持的控制器等的运动，对全帧进行在拍摄图像的该位置上重合剑的图像的加工，能够表现用户持剑挥舞的情形。

此时，位置信息生成部28可以同时取得用于立体匹配的立体图像之中的单方的帧，分别实施加工并输出至显示装置16，也可以与立体匹配独立地取得并加工单方的照相机拍摄到的各帧的图像数据。也可以分别独立地决定进行立体匹配的速率、进行对象区域的估计处理的速率、以及用于输出图像的生成的帧速率。

各处理的速率越增加，从时间分辨率的观点来看详细的处理成为可能，但通信频带或处理的负荷越增加。因此也可以根据信息处理系统10的本来的性能、或并行进行的处理的有无等而选择。也可以预先准备与可使用的通信频带或处理资源、以及其速率相关联的表，根据实际的处理环境通过参照该表而决定。

通信部30从输入信息取得部26、位置信息生成部28取得第1照相机22、第2照相机24生成的阶层构造的图像之中的、信息处理装置14中的处理所需的阶层以及区域的信息并向拍摄装置12请求。据此，将从拍摄装置12被发送图像数据适当提供给位置信息生成部28、输出信息生成部32。

图3详细地表示第1照相机22的结构。另外第2照相机24也具有相同结构。第1照相机22具备图像取得部102、解马赛克部104、图像传送部150、金字塔滤波器部170以及通信部108。图像取得部102以规定的定时（例如，60次/秒）读出通过CCD或者CMOS等的拍摄元件曝光的图像。在以下的说明中设为该图像横向上具有h个像素的宽度。该图像是所谓的RAW图像。在每次完成RAW图像的一横列量的曝光时，图像取得部102将其发送至解马赛克部104以及图像传送部150。

解马赛克部104具备具有h个像素的容量的FIFO（First In First Out，先入先出）缓冲器105和简易解马赛克处理部106。RAW图像的、一横列量的像素信息被输入至FIFO缓冲器105，将其保持直至下一个一横列量的像素被输入至解马赛克部104为止。若接受两横列量的像素，则简易解马赛克处理部106使用这些像素，基于其周边像素对各像素补充颜色信息并执行作出全彩色图像的解马赛克（de-mosaic）处理。

如本领域技术人员所公知，在该解马赛克处理中存在多个方法，但在此仅利用两横列量的像素的简易的解马赛克处理即可。作为一例，在应计算对应的YCbCr值的像素仅具有G值的情况下，R值是将左右相邻的R值平均，G值是将该G值原样使用，B值使用位于上或者下的B值而设为RGB值，代入将其规定的变换式而计算YCbCr值等。由于这样的解马赛克处理是公知的，所以省略除此之外的详细的说明。

作为简易的解马赛克处理的变形例，也可以使用根据RGB的4像素构成一像素的YCbCr值的方法。此时，由于得到RAW图像的1/4尺寸的解马赛克后图像，因此不需要后述的第1滤波器110。例如图示那样，简易解马赛克处理部106将横2×纵2的RGB的4像素变换为YCbCr彩色信号。然后，由该4像素构成的块作为1/1解马赛克图像被转发至图像传送部150，同时被发送至金字塔滤波器部170。

金字塔滤波器部170具有将某图像阶层化为多个分辨率并输出的功能。金字塔滤波器具备与一般需要的分辨率的等级对应的数的1/4缩小滤波器，但在本实施方式中具有第1滤波器110～第4滤波器140的4阶层的滤波器。各滤波器对相互相邻的4个像素进行双线性插值并执行运算4个像素的平均像素值的处理。从而，处理后的图像尺寸变为处理前的图像的1/4。

在第1滤波器110的前级，对应于Y、Cb、Cr各自的信号，h个像素的FIFO缓冲器112逐个被配置一个。这些FIFO缓冲器112具有直至下一个一横列量的像素从简易解马赛克处理部106被输出为止保持一横列量的YCbCr像素的作用。根据拍摄元件的线扫描的速度而决定像素的保持时间。

若两横列量的像素被输入，则第1滤波器110平均横2×纵2的4像素分的Y、Cb、Cr的像素值。通过重复该处理，1/1解马赛克后图像纵横各自变为1/2的长度，变换为整体的1/4的尺寸。被变换的1/4解马赛克后图像被发送至图像传送部150，同时被转发至次级的第2滤波器120。

在第2滤波器120的前阶段中，对应于Y、Cb、Cr各自的信号，2/h个像素的FIFO缓冲器122逐个被配置一个。这些FIFO缓冲器114也具有直至下一个一横列量的像素从第1滤波器110被输出为止保持一横列量的YCbCr像素的作用。

若两横列量的像素被输入，则第2滤波器120平均横2×纵2的4像素的Y、Cb、Cr的像素值。通过重复该处理，1/4解马赛克后图像纵横分别变为1/2的长度，变换为整体的1/16的尺寸。被变换了1/16的解马赛克后图像被发送至图像传送部150，同时被转发至次级的第3滤波器130。

关于第3滤波器130以及第4滤波器140，在各自的前级配置h/4个FIFO缓冲器132或者h/8个FIFO缓冲器142以外，重复与上述相同的处理。然后，将1/64以及1/256尺寸的解马赛克后图像输出至图像传送部150。另外，由于上述那样的金字塔滤波器在欧州专利申请公开第0999518号说明书等中记载、是公知的，所以在本说明书中省略除此之外的详细的说明。

像这样，以1/4为单位缩小的图像输出从金字塔滤波器部170的各滤波器被输入至图像传送部150。由此可知，随着通过金字塔滤波器部170内的滤波器各滤波器的前级所需的FIFO缓冲器的大小变小即可，。

图像传送部150在由从图像取得部102接受的RAW图像、从解马赛克部104接受的1/1解马赛克后图像、以及从金字塔滤波器部170接受的1/4～1/256解马赛克后图像构成的阶层图像之中，根据从信息处理装置14的通信部30经由通信部108接受的指示，选出需要的阶层以及区域。然后，由这些图像构成分组并发送至通信部108。

通信部108按照例如USB1.0/2.0等规定的协议，将分组传送至信息处理装置14。与信息处理装置14的通信不限于有线，也可以是例如IEEE802.11a/b/g等无线LAN通信、IrDA等红外线通信。

图4表示图像传送部150的结构。图像传送部150具有块写入部152、缓冲器154、块读出部156、编码部158、分组化部160、分组缓冲器162以及控制部164。控制部164基于来自信息处理装置14的指示，指示各种图像数据之中的哪个作为分组传送至块写入部152以及块读出部156。

1/1～1/256尺寸的解马赛克后图像经由解马赛克部104以及金字塔滤波器部170被输入至块写入部152。此外，根据信息处理装置14的输出信息生成部32执行的处理内容，RAW图像从图像取得部102被输入。块写入部152的阶层选择部152A基于来自控制部164的指示，选择解马赛克后图像的其中一个阶层。

切出块选择部152B接受从信息处理装置14被发送的、处理所需的区域的位置信息，将包含从该区域宽规定的像素数的区域的块选择为特定块。另外，一块的大小与后级的JPEG编码配合而优选8×8像素的块。块选择部152B仅切出被选择的解马赛克后图像的一部分的块，并写入至缓冲器154。

此时，以每个2×2的像素为单位接受图像，并依次写入缓冲器154。按照可在缓冲器154上准备一块像素的顺序，块读出部156读出各图像块并发送至编码部158。块写入部152以及块读出部156通过控制部164以同步动作的方式被调整。也就是说，块写入部152的读写在每次像素从图像取得部102、解马赛克部104以及金字塔滤波器部170被输出时进行，相对于此，块读出部156的读出在每次缓冲器154中积蓄一块像素时进行。根据照相机的曝光速度而决定该同步定时。

在本实施方式中，由于并非在RAW图像的整体或缩小图像的整体的像素被储备后发送至信息处理装置14，而是以块单位传送，因此缓冲器154最大只要是能够积蓄RAW图像以及缩小图像的全部的图像块的大小即可。根据图像的使用目的，也可以积蓄2～3个图像块。像这样，由于减少被缓冲的数据，每次块形成时依次进行分组化并转发，因此削减伴随拍摄装置12内的处理的等待时间。

此外，由于从图像取得部102的像素的输出以及每次拍摄元件的曝光结束时从金字塔滤波器部170依次向块写入部152输出像素，因此构造上不可能发生不同的帧的块被写入至缓冲器154，或者块以不同的顺序进行分组化而被发送的情况。

编码部158对RAW图像以外的图像的图像块，执行JPEG等的公知的压缩编码，并发送至分组化部160。分组化部160将编码后的图像的图像块，按照来到分组化部160的顺序分组化并写入分组缓冲器162。通信部108将分组缓冲器162内的分组按照规定的通信协议转发至信息处理装置14。另外关于RAW图像以外的图像，也可以不进行编码部158的压缩编码，而分组化部160将从块读出部156取得的块直接分组化。

另外，也能够使用LLVC、AVC等其他公知的编码，但优选能够以块单位进行编码者。此外，由块读出部156读出的块的大小也能够与编码配合而变更，也可以是例如以256×256单位的块进行读出与编码。

图5详细地表示信息处理装置14的位置信息生成部28的结构。位置信息生成部28包含：对象区域决定部40，决定用于立体匹配的对象区域以及阶层；以及位置信息取得部42，进行立体匹配并取得对象物的位置信息。对象区域决定部40包含整体图像取得部44、运动区域检测部46、区域预测部48、区域整合部50、以及阶层决定部52。

整体图像取得部44以规定的速率取得在拍摄装置12的第1照相机22以及第2照相机24分别生成的立体图像的阶层数据之中分辨率最低的第0阶层的全区域的图像。在此取得的图像也可以仅设为Y图像。其中也可以根据处理能力或通信速度等适当选择使用的阶层、图像的种类。

运动区域检测部46分别针对整体图像取得部44取得的立体图像检测运动区域。例如在将对象物设为人的情况下，首先进行面部检测，估计认为有人的像的区域。然后关于估计的区域取得与在一个之前的时间步骤中使用的图像的差分图像，将具有规定的阈值以上的差分的区域、或者与其外接的区域等作为运动区域而检测。

区域预测部48针对各个立体图像，基于运动区域检测部46检测的运动区域，预测将来的立体匹配处理中应搜索的对象区域。区域整合部50将区域预测部48预测的立体图像中的对象区域在统一坐标系整合，对于各时刻决定一个对象区域。阶层决定部52基于该对象区域的大小，选择能够精度高地进行立体匹配且无用的分辨率不高的阶层。

位置信息取得部42包含对象区域图像取得部53、位置确定部54、无效数据检测部56、以及数据生成部58。对象区域图像取得部53指定对象区域决定部40决定的对象区域以及阶层并从拍摄装置12取得立体图像数据。位置确定部54对对象区域图像取得部53取得的立体图像进行立体匹配，确定包含深度方向的位置的三维的位置信息。

在此实施的立体匹配处理也可以使用至今提出的多种方法的某个。例如能够使用面积相关法等，该面积相关法通过在左右的图像的一方设定相关窗，移动另一方的图像的搜索窗并计算与相关窗的图像的互相关系数而取得对应点后，基于这些对应点的视差使用三角测量的原理求得三维的位置信息。

无效数据检测部56确定在位置确定部54确定的位置信息之中应设为无效的数据。如上所述，由于对象物越在深处其视差越小，因此即使在分辨率小的图像中计算深度方向的位置，其误差也较大。即，根据用于立体匹配的图像的分辨率，能够适当计算的深度方向的范围不同，分辨率越低，其限界越位于跟前。

因此对于各阶层，通过对深度方向将数据设为有效的限界预先设定为深度限界，且与位置确定部54确定的深度方向的位置比较而确定无效的数据。通过这样的处理，可防止以下缺点的发生：拍摄装置12本身摇晃，或应追随本来运动的对象物以外的大运动在背后发生时，将其作为数据而用于后级的处理。

数据生成部58基于除去无效数据检测部56确定的无效的数据的结果所剩余的位置信息生成深度图像。如上所述，将深度图像设为具有与拍摄装置12中生成的多个分辨率对应的分辨率的阶层构造。深度图像的阶层数据预先对全部的像素值赋予0等初始值，并存储至深度图像数据存储部60。

然后，每次位置确定部54确定对象物的位置时，将与用于立体匹配的拍摄图像的阶层对应的阶层的、对应的位置的像素设为深度方向的坐标值，从而更新深度图像。作为结果的深度图像数据以与立体匹配的处理速率相同速率被更新。信息处理装置14的输出信息生成部32根据自己进行的处理所需的空间分辨率，选择深度图像数据之中的阶层并读出位置信息，适当地利用处理。

图6示意性地表示拍摄装置12、位置信息取得部42、以及对象区域决定部40进行的处理的时间的关系，同图横向表示时间轴。若在时刻0开始全部的处理，则拍摄装置12在时刻t1、t2、t3、…、t18、…中以规定的帧速率拍摄对象物，生成多个分辨率的图像数据并将所需数据传送至信息处理装置14。图6将拍摄装置12进行的图像数据生成处理以在全期间中连续的矩形表示，但实际也可以从在各拍摄时刻被拍摄的图像的数据生成、数据传送结束至下一个拍摄时刻为止等待。位置信息取得部42进行的处理也相同。

初次的时刻t1的拍摄图像之中低分辨率的整体图像被供给至信息处理装置14的对象区域决定部40（S1）。此时也将规定的阶层的整体图像提供至位置信息取得部42（S2）。此时的阶层是设想对象物位于标准的位置时在可充分得到立体匹配的精度的范围中预先设定分辨率低的阶层。由于分辨率越低的图像尺寸越小，因此可有效率地进行对应点的搜索。

在位置信息取得部42中，使用S2中提供的立体图像，以立体匹配、无效数据的去除、深度图像更新的处理的顺序进行处理。由此与时刻t1对应的对象物的位置信息以具有阶层构造的深度图像的形式被输出。另一方面，在对象区域决定部40中，使用S1中提供的立体图像，以运动区域检测、区域预测、区域整合、阶层决定的顺序进行处理。然后，将决定了的对象区域和阶层的信息通知至位置信息取得部42（S3）。

此时决定的对象区域和阶层的信息是对于在时刻t2、t3、t4、t5、t6、t7拍摄的图像的信息。因此对象区域决定部40的区域预测部48考虑直至各时刻为止的时间，估计来自当前的运动区域的对象物的可动范围，对于各时刻预测对象区域以便包含该范围。位置信息取得部42基于S3中通知的信息，每次生成时刻t2、t3、t4、t5、t6、t7中的拍摄图像的数据，取得对应于各时刻而决定的对象区域以及阶层的立体图像数据（S4、S5、S6、S7、S8、S9）。

在与S9相同定时，时刻t7的拍摄图像之中最低分辨率的整体图像被提供至对象区域决定部40（S10）。对象区域决定部40再次以运动区域检测、区域预测、区域整合、阶层决定的顺序进行处理，其结果将决定了的对象区域和阶层的信息通知至位置信息取得部42（S11）。此时决定的对象区域和阶层的信息是对于时刻t8、t9、t10、t11、t12、t13中拍摄的图像的信息。

以下，通过重复同样的处理，各时刻中拍摄的图像中的对象物的位置信息作为深度图像被输出。另外，在同图中，对于拍摄装置12拍摄的全部的帧取得位置信息，但如上所述，也可以根据在输出信息生成部32进行的后级的处理中位置信息中所要求的时间分辨率、或信息处理系统10的处理能力，从而扩大处理的时间间隔。也可以是例如以与对象区域决定部40中的处理相同速率进行处理。

图7示意地表示信息处理装置14的运动区域检测部46、区域预测部48、区域整合部50进行的处理的情形。图像61是第1照相机22拍摄的图像，图像62是第2照相机24拍摄的图像。由于各照相机对时刻t以规定的速率拍摄，因此同图所示，对时间t生成图像列。此例中，在某时刻的图像61和图像62中，如同图的实线所示拍摄到人。

由于第1照相机22和第2照相机24从排列在左右的其他视点拍摄人，因此图像61以及图像62中的人的像在左右产生视差。对象区域决定部40利用这样从左右的视点拍摄的立体图像求得对象区域。首先运动区域检测部46对图像61以及图像62独立地进行运动区域的决定。

具体而言，首先，若对象物是人则进行面部检测处理，从而对于图像61检测面部区域64a，对于图像62检测面部区域64b。面部检测处理也可以应用模式匹配等一般进行的多种的方法任一个。即使对象物不是人，若形状已知且模板图像已准备，则可进行同样的处理。即使是例如手、作为被摄体的用户把持的标记等，通过将表示其形状的模板图像预先在存储器等中准备，也可同样处理。

接着，基于面部区域64a、64b的大小以及位置，对于各图像61、62，将运动区域的可能性高的区域分别决定为运动检测对象区域66a、66b。是运动区域的可能性高的区域即是人的身体涉及的范围，若面部的位置已知则预测容易。例如，预先准备以矩形表示基准的面部的轮廓线和对其面部应设定的运动检测对象区域的范围的基准图像，扩大或者缩小基准图像以使在面部检测处理中所得到的面部区域64a、64b内的面部的轮廓与，基准的面部的轮廓线大致重合。此时的基准图像的矩形成为运动检测对象区域66a、66b。

接着，关于运动检测对象区域66a、66b，在左侧的图像间、右侧的图像间分别取得与上次的对象区域决定处理时取得的整体图像中对应的区域的差分图像后，提取差分比规定的阈值大的部分。在同图中，将上次取得的整体图像中拍摄到的左手在图像61、62上以虚线表示。若假设其他部分中无变化，则仅在左手部分中差分表现得大。这样提取差分在阈值以上的部分，将与其外接的矩形决定为运动区域68a、68b。

接着，区域预测部48基于分别对于图像61以及图像62决定的运动区域68a、68b，进行设想成为立体匹配的对象的图像的拍摄时刻的区域预测。该处理也可以简单地以与时间经过成比例的量，将运动区域68a、68b在纵向、横向上以相同比率扩大，也可以根据上次以前的对象区域决定处理时取得的多个图像基于自回归模型等预测对象物的移动方向后，将运动区域68a、68b仅在该方向上扩大。或也可以组合这些。

这样，分别对于图像61、图像62，决定预测区域70a、70b。另外在同图中预测区域在各图像中仅表示一个，但如上所述，对于立体匹配的对象图像被拍摄的各时刻决定预测区域。接着区域整合部50分别对于左右的图像，使决定了的预测区域70a、70b在构成图像平面的归一化坐标系重合，求得成为其和的区域（包含于至少任一个区域的区域），从而进行整合。

由于从左右的不同的视点拍摄的图像在横向上产生视差，因此预测区域70a、70b如同图所示以构成图像平面的坐标系在x方向（横向）上偏差。这样，根据两个图像决定对象区域的处理是由于以下理由。即由于对象物越在跟前其像外观上变得越大，因此该运动涉及的范围变宽，超过上述那样决定的预测区域的可能性变大。

因此，根据依赖于对象物的深度方向的位置的外观上的运动的大小的变化，为了调整对象区域的宽度而利用视差。由于若视差变大则预测区域70a、70b的偏差变大，因此成为其和的区域变宽，由于若视差变小则其偏差变小因此成为其和的区域基本不变宽。通过这样考虑对象物的深度方向的位置而调整区域的宽度，防止对象物从对象区域偏差的情况，同时不包含多余的区域。

另外，区域整合部50进一步把将成为和的区域以规定的扩大率在纵横双方向上扩大的区域决定为最终的对象区域72。通过这样，能够进一步降低对象物从对象区域偏离的可能性。

图8示意地表示阶层决定部52基于对象区域的大小选择用于立体匹配的阶层的情形。同图中矩形80a、80b、80c、80d表示拍摄图像的阶层之中的第3阶层、第2阶层、第1阶层、第0阶层的图像尺寸。图7中在图像的归一化坐标系决定的对象区域72对于各图像尺寸变为矩形72a、72b、72c、72d那样的大小。

这样与基准尺寸矩形82比较使对象区域72与各阶层的图像尺寸对应而得到的矩形72a、72b、72c、72d，选择对象区域的尺寸与基准尺寸矩形82的尺寸接近的阶层。基准尺寸矩形82规定了在立体匹配时为了得到适合的精度所需的、对象物的外观上的大小，通过实验等预先设定。

尺寸的大小可以将两个矩形在具有内包关系时被内包的矩形看做“小”，也可以以面积进行比较。或也可以仅以纵、横、中的一方的边的长度进行比较。此外，也可以是阶层的选择时，在与各阶层对应的矩形72a、72b、72c、72d之中，以尺寸的排列而选择基准尺寸矩形82和前后的两个矩形中的任一个，也可以不必须是尺寸最接近的矩形。

例如，图8的情况，由于基准尺寸矩形82具有在矩形72a、72b、72c、72d之中矩形72b与矩形72c之间的尺寸，因此选择与矩形72b对应的第2阶层，或者与矩形72c对应的第1阶层。例如也可以从作为最大尺寸的第3阶层的矩形72a起以尺寸大的顺序比较（S20、S22、S24、S26的顺序），初次选择与在基准尺寸矩形82中内包的矩形对应的阶层。在同图的例中，选择与矩形72c对应的第1阶层。

若进行这样的步骤，则能够在得到接近基准尺寸矩形的矩形的阶层之中选择分辨率低的阶层，能够进一步抑制计算量。在任何情况下，能够通过这样选择得到接近基准尺寸矩形82的尺寸的对象区域的阶层，如上所述，与对象物的外观上的大小配合，调整用于立体匹配的图像的分辨率。作为结果，能够防止必要以上搜索详细的图像数据的浪费的发生，且保持其精度。

图9表示拍摄装置12生成的拍摄图像的阶层、与位置信息取得部42的数据生成部58生成的深度图像的阶层的对应。同图中上侧的4组的图像82a、82b、82c、82d是某时刻被拍摄的立体图像，下侧的四个图像84a、84b、84c、84d是对该立体图像生成的深度图像，分别是从左侧起的顺序的第0阶层、第1阶层、第2阶层、第3阶层的图像。

例如若拍摄人将棒状的物体在面部之前晃动的情形，则某时刻中对于两个视点1张张逐个生成图像82a、82b、82c、82d那样的拍摄图像。若设对于这样的拍摄图像，对象区域决定部40决定的阶层为第2阶层，对象区域为区域86，则位置信息取得部42取得该阶层、该区域的左右的图像数据并进行立体匹配。

然后若得到该区域中对象物的位置信息，则更新深度图像的阶层数据之中对应的阶层中对应的区域、即区域88的像素值。此时对于区域86得到的深度方向的位置坐标之中最小的值（跟前的位置）比设定于第2阶层的深度限界位于更深处时，不进行更新处理。这是因为，如上所述，在由于某些主要原因发生的情况下，将本来以该分辨率不能作为对象物的位置而准确地得到深度方向的位置中的大的运动作为错误而去除。将阶层和深度限界预先相关联并作为表而存储至存储器等。

像这样，将深度图像设为阶层构造，在各时刻中更新与在立体匹配中使用的拍摄图像的阶层对应的阶层的数据。图像的分辨率与从该图像精度高地得到的对象物的深度方向的位置的范围对应。因此，也存在按照在立体匹配中使用的图像的分辨率将深度图像阶层化，仅使得到的位置信息反映至对应的阶层，从而将对象物的位置在深度方向的位置的范围内区分的情况。

使用该深度图像进行处理的输出信息生成部32根据进行的处理的内容或要求的精度等，适当选择并参照深度图像的阶层，从而可靠地取得需要的信息，且能够防止将多余的数据纳入处理而处理精度降低或处理速度下降的情况。

例如，要忽略离照相机远的对象物的运动时仅参照第0阶层、第1阶层等低分辨率的图像。相反在仅关注深处的对象物的运动的情况下，仅参照第2阶层、第3阶层等高分辨率的图像。在要全部取得从跟前至深处为止宽范围中的运动的情况下，也可以以从第0阶层至第3阶层为顺序进行参照。应参照的深度图像的阶层也可以通过进行实时处理而验证，从而对处理内容、被设想的对象物的位置、大小等进行设定。

根据以上叙述的本实施方式，在拍摄装置中设置两个照相机，从不同的视点同时拍摄对象物的动画。拍摄到的图像通过金字塔滤波器变换为分辨率不同的多个阶层图像。然后，使用低分辨率的整体图像检测运动区域，选择与其大小相称的阶层后，若有对象物的运动则仅取得被预测的对象区域并进行立体匹配。

由此，无论对象物在深度方向的哪个位置，都能够在可维持立体匹配的精度的范围内节省无用的数据处理，能够使精度和处理效率并存。此外，由于即使对象物的位置变化，对象区域的图像尺寸也变化不大，因此计算量与对象物的位置无关，稳定的位置信息输出成为可能。

此外，通过基于对象物的运动等预测将来的对象区域，在独立的定时进行决定对象区域的处理和立体匹配。由此，鉴于处理资源或处理能力、所要求的响应性、精度等，能够自由地决定将这两个处理以怎样的频度进行。

此外，在对象区域的决定中，使用两个通过两个照相机所拍摄的立体图像，基于成为双方所得到的运动区域的和的区域决定对象区域。由此，能使运动涉及的范围变大，针对跟前的对象物使对象区域进一步扩大，对象物从对象区域突出的可能性变小。另一方面，突出的可能性原本小，深处的对象物抑制对象区域的扩大，将无用的区域包含于对象区域的情况变少。

进而，得到的位置信息设为以多个分辨率表示将深度方向的位置设为像素值的深度图像的阶层构造。然后，在各时刻中更新与在立体匹配中使用的图像对应的阶层的区域的像素值。由此，能够根据使用位置信息进行的后级的处理所要求的精度、分辨率、对象物的深度方向的位置的设想范围等切换参照的阶层，能够使参照处理、以及使用参照的信息的各种处理效率化。

以上，基于实施方式说明本发明。本领域技术人员理解上述实施方式是例示，可以是这些各构成要素或各处理过程的组合中许多变形例，此外这样的变形例也在本发明的范围中。

例如在本实施方式中，通过对对象区域决定部40决定的对象区域进行立体匹配，取得对象物的三维的位置信息，但决定对象区域的技术也能够应用于立体匹配以外的处理。例如也可以是不需要面部的表情认识处理等深度方向的详细的位置信息的处理。此时由于能够也使用立体图像，根据面部的深度方向的位置调整对象区域的宽度，选择最佳的分辨率的图像，因此能够使之后的处理的精度以及效率并存。

此外在本实施方式中，作为有运动的区域、即用于确定对象区域的初始处理，信息处理装置14的运动区域检测部46进行面部检测处理。另一方面，也可以将该面部检测处理的功能设置于拍摄装置12的各照相机中。图10表示这样的情况的第1照相机22的结构。在此，第1照相机22具备的图像取得部102、解马赛克部104、图像传送部150、金字塔滤波器部170以及通信部108与图3中的各功能块相同，在该变形例中进一步具备对象物检测部180。第2照相机24也具有相同结构。

对象物检测部180在信息处理装置14中对象区域决定部40从图像传送部150的块读出部156取得作为处理对象的图像，例如分辨率最低的第0阶层的全区域的图像，通过对此进行面部检测处理确定面部区域。然后，将该区域的位置以及大小所涉及的信息通知至图像传送部150的分组化部160，与检测对象的图像数据主体一起进行分组化并发送至信息处理装置14。或与检测对象的图像的识别信息等相关联并从通信部108发送至信息处理装置14。

此时，信息处理装置14的运动区域检测部46与图像数据一起从拍摄装置12取得在各时刻的图像中面部区域所涉及的信息，从而不进行如图7所示的检测面部区域64a、64b的处理就结束。此时运动区域检测部46从决定运动检测对象区域66a、66b的处理起而开始。通过这样根据拍摄装置12的处理能力而使处理的分担变化，可进行效率高的对象区域确定，结果上响应性以及精度高的位置信息生成成为可能。

在此，对象物检测部180进行的检测处理通过导入如上所述已有的模板匹配技术而准备适当的模板图像，该对象不限于人的面部，也可以是手、标记、规定的物体等的任一个。例如，在信息处理装置14中，根据用户指定开始的游戏名或信息处理的种类等，输入信息取得部26确定与其对应的对象物，将识别信息通知至拍摄装置12。

拍摄装置12的各照相机从在未图示的存储器中准备的多个模板图像，读出与被通知的对象物对应的模板图像，通过进行模板匹配而检测对象物。或也可以是信息处理装置14将模板图像的数据本身发送至拍摄装置12。通过这样处理，按照用户的指示输入等能够使对象物各种变化。

标号说明

10信息处理系统，12拍摄装置，14信息处理装置，16显示装置，22第1照相机，24第2照相机，26输入信息取得部，28位置信息生成部，30通信部，32输出信息生成部，40对象区域决定部，42位置信息取得部，44整体图像取得部，46运动区域检测部，48区域预测部，50区域整合部，52阶层决定部，53对象区域图像取得部，54位置确定部，56无效数据检测部，58数据生成部，60深度图像数据存储部，102图像取得部，104解马赛克部，108通信部，150图像传送部，151块选择部，164控制部，170金字塔滤波器部，180对象物检测部。产业可利用性

产业上的可利用性

以上那样，本发明可利用计算机、照相机、游戏装置、图像显示装置等的信息处理装置。

Claims

1.一种信息处理装置，通过使用从不同的视点同时视频拍摄对象物而得到的立体运动图像进行立体匹配，从而以规定的速率输出对象物的位置信息，其特征在于，具备：

运动区域确定部，通过取得以规定的分辨率表示包含于所述立体运动图像的图像帧对的图像数据并求得运动差分，从而确定运动区域；

对象区域决定部，基于该运动区域决定应设为立体匹配的处理对象的对象区域；

分辨率决定部，根据该对象区域的大小决定用于进行立体匹配的适当分辨率；以及

位置信息取得部，取得以所述适当分辨率表示包含于所述立体运动图像的图像帧对的所述对象区域的图像数据，使用该图像数据进行立体匹配而取得并输出对象物的位置信息。

2.如权利要求1所述的信息处理装置，其特征在于，

所述运动区域确定部，以比所述位置信息取得部取得图像数据的速率小的速率取得图像数据，对应于各拍摄时刻而预测在所述位置信息取得部进行立体匹配的帧中的对象物的运动区域。

3.如权利要求1或者2所述的信息处理装置，其特征在于，

所述对象区域决定部使所述运动区域确定部对于所述图像帧对的各自的图像帧所确定的运动区域在统一坐标系中重合，基于成为该和的区域而决定所述对象区域。

4.如权利要求1至3的任一项所述的信息处理装置，其特征在于，

所述分辨率决定部在由表示以规定的多个分辨率表示所述对象区域决定部所决定的对象区域时的图像的大小的多个矩形、和具有预先决定的基准的大小的矩形而构成的大小的排列中，将与仅次于具有所述基准的大小的矩形的矩形对应的分辨率设为所述适当分辨率。

5.如权利要求1至4的任一项所述的信息处理装置，其特征在于，

所述运动区域确定部基于对象物存在的区域，通过在根据与预先决定的该区域的位置关系而被决定的运动检测对象区域内求得运动差分，从而确定运动区域。

6.如权利要求1至5的任一项所述的信息处理装置，其特征在于，

所述分辨率决定部选择预先设定的多个分辨率的其中一个作为适当分辨率，

所述位置信息取得部更新在存储器中存储的、以所述多个分辨率表示图像平面中将对象物的深度方向的位置表示为像素值的深度图像的深度图像数据之中的、用于立体匹配的图像的分辨率的深度图像，从而输出对象物的位置信息。

7.一种拍摄装置，具备从不同的视点同时视频拍摄对象物的一对照相机，其特征在于，各照相机具备：

图像取得部，取得使用拍摄元件拍摄的未加工图像；

解马赛克处理部，对所述未加工图像进行解马赛克处理；

滤波器部，将解马赛克后的图像阶段性地缩小，并变换为分辨率不同的多个图像；以及

图像传送部，从连接了的信息处理装置接受指定了分辨率和区域的图像数据的转发请求，从所述分辨率不同的多个图像提取与该转发请求一致的分辨率以及区域的图像的数据并转发至所述信息处理装置。

8.如权利要求7所述的拍摄装置，其特征在于，

所述照相机进一步具备对象物检测部，所述对象物检测部对于所述图像传送部传送数据的图像之中的至少一部分的图像，实施被设定的对象物的检测处理，从而确定检测到的对象物的区域的位置以及大小，

所述图像传送部将关于所述对象物的位置以及大小的信息与所述图像的数据一起转发至所述信息处理装置。

9.如权利要求8所述的拍摄装置，其特征在于，

所述对象物检测部通过将对应于从所述信息处理装置指定的对象物的模板图像、和实施检测处理的图像进行模板匹配而检测对象物。

10.一种信息处理系统，其特征在于，具备：

拍摄装置，具备从不同的视点同时视频拍摄对象物的一对照相机；以及信息处理装置，通过使用所述拍摄装置拍摄而得到的立体运动图像进行立体匹配而以规定的速率输出对象物的位置信息，

所述拍摄装置的各照相机具备：

图像取得部，取得使用拍摄元件拍摄的未加工图像；

解马赛克处理部，对所述未加工图像进行解马赛克处理；

图像传送部，从所述信息处理装置接受指定了分辨率和区域的图像数据的转发请求，从所述分辨率不同的多个图像提取与该转发请求一致的分辨率以及区域的图像的数据并转发至所述信息处理装置，

所述信息处理装置具备：

运动区域确定部，通过从所述拍摄装置取得以规定的分辨率表示包含于所述立体运动图像的图像帧对的图像数据并求得运动差分，从而确定运动区域；

位置信息取得部，从所述拍摄装置取得以所述适当分辨率表示包含于所述立体运动图像的图像帧对的所述对象区域的图像数据，使用该图像数据进行立体匹配而取得并输出对象物的位置信息。

11.一种信息处理方法，通过使用从不同的视点同时视频拍摄对象物而得到的立体运动图像进行立体匹配，从而以规定的速率输出对象物的位置信息并存储至存储器，其特征在于，包含：

通过从拍摄装置取得以规定的分辨率表示包含于所述立体运动图像的图像帧对的图像数据并求得运动差分，从而确定运动区域的步骤；

基于该运动区域决定应设为立体匹配的处理对象的对象区域的步骤；

根据该对象区域的大小决定用于进行立体匹配的适当分辨率的步骤；以及

从拍摄装置取得以所述适当分辨率表示包含于所述立体运动图像的图像帧对的所述对象区域的图像数据，使用该图像数据进行立体匹配而取得对象物的位置信息并输出至存储器的步骤。

12.一种计算机程序，使计算机实现通过使用从不同的视点同时视频拍摄对象物而得到的立体运动图像进行立体匹配，从而以规定的速率输出对象物的位置信息并存储至存储器的功能，

使计算机实现以下功能：

通过取得以规定的分辨率表示包含于所述立体运动图像的图像帧对的图像数据并求得运动差分，从而确定运动区域的功能；

基于该运动区域决定应设为立体匹配的处理对象的对象区域的功能；

根据该对象区域的大小决定用于进行立体匹配的适当分辨率的功能；以及

取得以所述适当分辨率表示包含于所述立体运动图像的图像帧对的所述对象区域的图像数据，使用该图像数据进行立体匹配而取得对象物的位置信息并输出至存储器的功能。

13.一种记录介质，记录使计算机实现通过使用从不同的视点同时视频拍摄对象物而得到的立体运动图像进行立体匹配，从而以规定的速率输出对象物的位置信息并存储至存储器的功能的计算机程序，

记录了使计算机实现以下功能的计算机程序：