CN103460242B

CN103460242B - 信息处理装置、信息处理方法、以及位置信息的数据结构

Info

Publication number: CN103460242B
Application number: CN201280014669.5A
Authority: CN
Inventors: 大场章男; 势川博之
Original assignee: Sony Computer Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2011-03-31
Filing date: 2012-01-16
Publication date: 2017-02-15
Anticipated expiration: 2032-01-16
Also published as: CN103460242A; EP2693393A4; US20140002604A1; JP5781353B2; TWI479318B; EP2693393A1; EP2693393B1; JP2012216946A; TW201243597A; US9699432B2; WO2012132168A1

Abstract

摄像装置（12）包含第1摄像机（22）以及第2摄像机（24）。各摄像机分别从间隔了已知宽度的左右的位置以相同的定时、相同的帧速率拍摄对象物。然后，将拍摄到的各帧图像变换为规定的多个分辨率的图像数据。信息处理装置（14）的输入信息获取部（26）获取来自用户的指示输入。位置信息生成部（28）在立体图像的数据之中以低分辨率、宽范围的图像将对象物的区域或者有活动的区域作为对象区域进行大概估计，仅在该区域以高分辨率的图像进行立体匹配，确定对象物的三维的位置。输出信息生成部（32）基于对象物的位置进行需要的处理而生成输出信息。通信部（30）进行对于摄像装置（12）的图像数据的请求以及获取。

Description

信息处理装置、信息处理方法、以及位置信息的数据结构

技术领域

本发明涉及进行与正在动态图像拍摄的对象物的活动配合的处理的信息处理装置、信息处理方法、以及所生成的位置信息的数据结构。

背景技术

近年来，在个人计算机或游戏机等上搭载摄像机，对用户的姿势摄像并以各种各样的形式利用的情况变得被普遍地进行。例如，电视电话、视频聊天等，将用户的图像经由网络，原样传输至对方，或通过图像分析认识用户的活动而作为游戏或信息处理的输入信息等正在被实用化（例如参照专利文献1）。

现有技术文献

专利文献

专利文献1:WO2007/050885A2公报

发明内容

发明要解决的课题

为了利用拍摄图像而响应性好地高精度地实现各种各样的处理，期望与该处理内容相对应的画质。可是，从制造成本、图像的传输频带、从拍摄至输出为止的响应性等方面来看，仅仅通过提升摄像机的性能和画质来丰富信息处理装置的功能处于困难的状况中。例如，将摄像机的摄像元件越高性能化，除了越压迫摄像机和主机间的图像数据传输的频带之外，图像分析所要的时间越增加。

本发明是鉴于这样的课题而完成，其目的在于提供能够响应性好地实现利用了拍摄图像的信息处理的技术。

用于解决课题的手段

本发明的某个方式涉及信息处理装置。该信息处理装置是通过使用从不同的视点同时视频拍摄对象物得到的立体动态图像，进行立体匹配，以规定的速率输出对象物的位置信息的信息处理装置，其特征在于，具备：位置信息获取部，在以规定的多个分辨率分别表示立体动态图像所包含的图像帧对的多个拍摄图像之中，通过使用基于与对象物的像的大小有关的信息选择的分辨率的图像而进行立体匹配，来获取对象物的位置信息；深度图像数据生成部，在以所述多个分辨率表示了将已存储于存储器的、在图像平面中对象物的深度方向的位置作为像素值表示的深度图像的多个深度图像之中，通过基于所获取到的位置信息，更新具有所述位置信息获取部用于立体匹配的图像的分辨率的深度图像，输出对象物的位置信息。

本发明的再其他的方式涉及信息处理方法。该信息处理方法是通过使用从不同的视点同时视频拍摄对象物得到的立体动态图像，进行立体匹配，以规定的速率输出对象物的位置信息的信息处理方法，其特征在于，具备：在以规定的多个分辨率分别表示立体动态图像所包含的图像帧对的多个拍摄图像之中，通过使用基于与对象物的像的大小有关的信息已选择的分辨率的图像而进行立体匹配，来获取对象物的位置信息的步骤；在已存储于存储器的、以所述多个分辨率表示了将在图像平面中对象物的深度方向的位置作为像素值表示了的深度图像的多个深度图像之中，通过基于所获取到的位置信息，更新具有所述位置信息获取部用于立体匹配的图像的分辨率的深度图像，输出对象物的位置信息的步骤。

本发明的再其他的方式涉及数据结构。该数据结构是表示正在视频拍摄的对象物的位置信息的、每次获取位置信息时而被更新的位置信息的数据结构，其特征在于，关联了具有与为了位置信息的获取而生成的帧的多个分辨率对应的分辨率的多个深度图像，以便于能够根据用于位置信息的获取的帧的分辨率，切换反映作为获取结果的位置信息的深度图像的分辨率，该深度图像在与动态图像的帧对应的图像平面中将对象物的深度方向的位置作为像素值而表示。

另外，以上的结构元件的任意的组合，将本发明的表现在方法、装置、系统、计算机程序、记录了计算机程序的记录介质等之间变换，也作为本发明的方式而有效。

发明效果

通过本发明，能够响应性很好地实现将拍摄图像作为输入信息而利用的信息处理。

附图说明

图1是表示能够应用本实施方式的信息处理系统的结构例的图。

图2是表示本实施方式中的摄像装置和信息处理装置的结构的图。

图3是详细表示本实施方式中的第1摄像机的结构的图。

图4是表示本实施方式中的图像发送部的结构的图。

图5是详细表示本实施方式中的信息处理装置的位置信息生成部的结构的图。

图6是概略地表示本实施方式中的摄像装置、位置信息获取部、以及对象区域决定部进行的处理的时间关系的图。

图7是概略地表示本实施方式中的信息处理装置的活动区域检测部、区域预测部、区域集中部进行的处理的状况的图。

图8是概略地表示本实施方式中的阶层决定部基于对象区域的大小，选择用于立体匹配的阶层的状况的图。

图9是表示本实施方式中的摄像装置生成的摄像图像的阶层和位置信息获取部的数据生成部生成的深度图像的阶层的对应的图。

图10是详细表示本实施方式的变形例中的第1摄像机的结构的图。

具体实施方式

图1是表示能够适用本实施方式的信息处理系统的结构例。信息处理系统10包含：摄像装置12，搭载了拍摄用户1等的对象物的2个摄像机；信息处理装置14，基于拍摄了的图像进行与用户的请求相应的信息处理；显示装置16，输出信息处理装置14处理了的结果得到的图像数据。此外，信息处理装置14能够连接因特网等的网络18。

信息处理装置14、摄像装置12、显示装置16、网络18可以通过有线电缆被连接，也可以通过无线LAN（Local Area Network）等被无线连接。可以组合摄像装置12、信息处理装置14、显示装置16之中的任意两个、或者全部而整体地配备。此外，摄像装置12不一定设置在显示装置16上。进而，用户可以不是一个人，其数量也没有限定。

摄像装置12具有将各自具备了CCD（Charge Coupled Device，电荷耦合器件）或CMOS（Complementary Metal Oxide Semiconductor，互补金属氧化物半导体）等的摄像元件的2个数字摄像机以已知的间隔左右地配置的结构。2个数字摄像机分别地对在同一空间存在的对象物从左右的位置以规定的帧速率进行拍摄。以后，将这样被拍摄的帧的对也称为“立体图像”。摄像装置12进而根据拍摄的结果得到的一对的RAW图像，分别生成不同分辨率的多个图像数据。

信息处理装置14通过规定的速率确定对于摄像机的视野的垂直、水平、深度的三维空间中的对象物的位置坐标。此时，基于从摄像装置12获取了的立体图像的数据进行立体匹配。这样得到的位置坐标的时间变化被用于将对象物的活动作为输入信息使用的后续阶段的处理。例如，能够用于反映了作为对象物的用户1的动作的人物出场的游戏或将用户1的活动变换为命令输入的信息处理等，但是这些内容并不限定。

显示装置16将信息处理装置14进行了的处理的结果，根据需要作为图像而显示。显示装置16可以是具有输出图像的显示器以及输出音声的扬声器的电视机，例如液晶电视机、等离子电视机、PC显示器等。如上述那样信息处理装置14最后执行的处理内容或应该表示的图像并没有根据其使用目的被特别地限定，因此，以后，将主要着眼点置于信息处理装置14进行的、对象物的位置的确定处理，而进行说明。

图2表示摄像装置12和信息处理装置14的结构。图2～图5所示的各功能块，硬件方面能够通过CPU（Central Processing Unit，中央处理单元）、RAM（Random Access Memory，随机存取存储器）、ROM（Read Only Memory，只读存储器）、绘图电路等的结构而实现，软件方面通过发挥数据输入功能、数据保持功能、图像分析功能、以及绘图功能等的各种功能的软件而实现。从而，这些功能块能够通过仅硬件、仅软件、或者这些的组合以各种各样的形式来实现是被所属领域技术人员所理解的，不限定于任一种。

摄像装置12包含：第1摄像机22和第2摄像机24。各摄像机分别地从间隔了已知宽度的左右位置以相同的定时、相同的帧速率，拍摄对象物。然后，将拍摄了的各帧图像变换为规定的多个分辨率的图像数据。同图中，概略地表示这样生成了的图像，在第2摄像机中，按照图像2、图像4、图像6、图像8的顺序，分辨率阶段式地增加。同图中，设为4阶段的分辨率，但是该数字并没有被限定。第1摄像机22生成的图像也一样。

由于各图像在每个拍摄定时被生成，因此作为结果，对于时间轴的图像列以各分辨率被生成。同图中，在深度方向上概略地表示该时间轴。同一时刻被生成的图像，能够看作构成具有对应于各分辨率的阶层的阶层结构。以后的说明中，将这些图像从最低分辨率的图像按照分辨率的顺序，称为第0阶层的图像、第1阶层的图像、第2阶层的图像、......。图2的例中，图像2成为第0阶层、图像4成为第1阶层、图像6成为第2阶层、图像8成为第3阶层的图像。

信息处理装置14包含：输入信息获取部26，获取来自用户的指示输入；位置信息生成部28，基于拍摄图像生成用户1等的对象物的位置信息；输出信息生成部32，基于对象物的位置进行需要的处理而生成输出信息；以及通信部30，作为进行对于摄像装置12的图像数据的请求以及获取的接口。

输入信息获取部26接受来自用户的指示输入，将与其相应的处理请求信号发送至其他的功能块。输入信息获取部26通过按钮、键盘、鼠标、轨迹球、触摸面板等一般的输入装置和、解释对该输入装置进行的操作内容并生成处理请求信号的CPU等的合作而实现。

位置信息生成部28利用第1摄像机22以及第2摄像机24生成了的立体图像的数据而进行立体匹配，确定对象物的三维的位置。此时，通过将成为处理对象的图像数据在时间上、空间上取舍选择而设为需要最低限度，减少对精度的影响，减轻处理的负荷。

具体地是，在低分辨率、宽范围的图像上，将对象物的区域或者有活动的区域作为对象区域进行大概估计，仅该区域以高分辨率的图像进行立体匹配。立体匹配一般是进行用于提取2个图像的对应点的搜索，通过使该搜索范围变窄来提升立体匹配效率。另外，本实施方式实现将动态图像作为输入信息而利用了的信息处理，因此主要说明得到对象物有“活动”的部分的位置信息的手法。

此时，通过到规定时间为止预测对象物有活动的区域，将估计该区域的处理与进行立体匹配的定时分开来进行。例如，在通过多线程对应的计算机实现信息处理装置14的情况下，将这2个作为其他的线程独立地执行。通过这样做，能够在需要精度的立体匹配处理上花费很多的时间。例如，立体匹配处理将拍摄图像的全帧作为处理对象，与此相对，每隔规定的数帧而进行估计区域的处理，针对到接下来估计区域的处理被进行为止的各帧，进行预测。

此外，在估计区域的处理中，也包含用于进行立体匹配的适当的阶层的选择。由于对象物越在朝向自己的一侧，视差越大，因此作为相对的分辨率小的图像，左右的图像的偏移幅度变大，便于维持立体匹配的精度。相反地，由于对象物越在里面，视差变得越小，因此在分辨率小的图像中，难以将左右的偏移限于误差范围而保持立体匹配的精度。

那么，在本实施方式中，根据有活动的区域的大小，选择用于立体匹配的图像的阶层。即使使用分辨率大的图像，由于为了得到对应点应该搜索的区域是上述那样的局部的，因此，作为结果，与对象物的深度方向的位置无关，处理对象的图像尺寸变得同等，计算量不变大。因此，计算时间的估计也很容易。

位置信息生成部28，进而生成将由立体匹配得到的对象物的深度方向的位置坐标设为垂直方向、水平方向组成的图像平面上的像素值的深度图像。该深度图像设为以与摄像机生成的拍摄图像的阶层结构相同多个分辨率表示的阶层结构。如上述那样对象物的活动，存在根据深度方向的位置而将其认定为活动所需要的空间分辨率。即，根据在后续阶段输出信息生成部32进行的处理所期望的空间分辨率，存在无视了那样的活动的一方反而精度提升的情况。那么，将深度图像作为阶层结构，根据后续阶段的处理期望的分辨率，通过切换参照的阶层，提升该处理的效率以及精度。

输出信息生成部32获取位置信息生成部28生成了的位置信息，适当地进行与其使用目的相应的处理。上述那样在此进行的处理没有被特别地限定，但是输入信息获取部26可以根据接受的来自用户的指示适当地切换。此时，上述那样，对参照对应于预先制定的分辨率的阶层的深度图像，进行的处理而言，仅获取有意义的活动。处理的结果得到的数据显示至显示装置16、或经由网络18发送至其他的装置。

也可以根据使用目的，输出信息生成部32，对摄像装置12的任一个摄像机拍摄的图像施行基于位置信息生成部28生成了的位置信息的加工，而显示至显示装置16。例如，通过从位置信息生成部28获取被拍摄的用户1的手或握住的控制器等的活动，对全帧进行在拍摄图像的对应位置重叠剑的图像的加工，能够表现用户持着剑挥舞的样子。

此时，位置信息生成部28，可以同时获取用于立体匹配的立体图像之中单方的帧，分别实施加工而输出至显示装置16，也可以与立体匹配独立地获取单方的摄像机拍摄到的各帧的图像数据并进行加工。可以分别独立地决定进行立体匹配的速率、进行对象区域的估计处理速率、以及用于输出图像的生成的帧速率。

各处理的速率越增加，以时间分辨率的观点来看详细的处理变得可能，但是通信频带或处理的负荷就越增加。因此，也可以设为根据信息处理系统10的原本的性能、并行进行着的处理的有无等来选择。也可以事先准备关联了能够使用的通信频带或处理资源与其速率的表格，通过根据实际的处理环境参照该表格来决定。

通信部30，从输入信息获取部26、位置信息生成部28获取在第1摄像机22、第2摄像机24生成了的阶层结构的图像之中，信息处理装置14中的处理所需要的阶层以及区域的信息，并向摄像装置12请求。相应地，将从摄像装置12被发送的图像数据，适当地供给至位置信息生成部28、输出信息生成部32。

图3详细表示第1摄像机22的结构。另外，第2摄像机24也具有相同的结构。第1摄像机22具备图像获取部102、去马赛克部104、图像发送部150、金字塔滤波器部170以及通信部108。图像获取部102将通过CCD或者CMOS等的摄像元件曝光的图像以规定的定时（例如，60次/秒）读取。在以下的说明中，假设该图像具有在水平方向上像素h个量的宽。该图像就是所谓的RAW图像。图像获取部102每完成RAW图像的水平一列量的曝光，就将其发送至去马赛克部104以及图像发送部150。

去马赛克部104具有：具有像素h个量的容量的FIFO（First In First Out，先入先出）缓冲器105和简易去马赛克处理部106。在FIFO缓冲器105中，RAW图像的水平一列量的像素信息被输入，并将其保持到下一个的水平一列量的像素被输入至去马赛克部104为止。简易去马赛克处理部106，若接受水平二列量的像素，则使用这些，基于其周边像素对各像素补充颜色信息并执行创建全色图像的去马赛克（de-mosaic）处理。

如所属领域技术人员所周知，该去马赛克处理存在多数手法，但是在此仅利用水平二列量的像素的简易的去马赛克处理就足够了。作为一例，在应该计算对应的YCbCr值的像素仅具有G值的情况下，R值是将左右邻接的R值平均、G值是直接使用该G值、B值是使用位于上或者下的B值，而作为RGB值，将其代入至规定的变换式而计算YCbCr值等。这样去马赛克处理是众所周知的，因此省略更多详细的说明。

作为简易的去马赛克处理的变形例，也可以使用由RGB的4个像素构成1个像素的YCbCr值的手法。此时，得到RAW图像的1/4尺寸的去马赛克后图像，因此不需要下述的第1滤波器110。简易去马赛克处理部106，例如如图所示，将水平2×垂直2的RGB的4像素变换为YCbCr彩色信号。然后，该4像素组成的块，作为1/1去马赛克图像被传递至图像发送部150，并且被发送至金字塔滤波器部170。

金字塔滤波器部170具有将某个图像阶层化为多个分辨率而输出的功能。金字塔滤波器具备与一般需要的分辨率的级别相应的数量的1/4缩小滤波器，但是在本实施方式中，具有第1滤波器110～第4滤波器140的4阶层的滤波器。各滤波器，将相互地邻接的4个像素双线性插补，执行运算4个像素的平均像素值的处理。从而，处理后的图像尺寸变为处理前的图像的1/4。

在第1滤波器110的前面的阶段中，对应Y、Cb、Cr的各自的信号，像素h个量的FIFO缓冲器112被逐个地配置。这些FIFO缓冲器112具有将水平一列量的YCbCr像素保持到下一个的水平一列量的像素从简易去马赛克处理部106被输出为止的任务。像素的保持时间是根据摄像元件的行扫描的速度而决定。

若水平二列量的像素被输入，则第1滤波器110将水平2×垂直2的4个像素量的Y、Cb、Cr的像素值进行平均。通过重复该处理，1/1去马赛克后图像，垂直水平分别变成1/2的长度，作为整体被变换为1/4的尺寸。被变换后的1/4去马赛克后图像，被发送至图像发送部150，并且被传递至下一个阶段的第2滤波器120。

在第2滤波器120的前面的阶段中，对应Y、Cb、Cr的各自的信号，像素2/h个量的FIFO缓冲器122被逐个地配置。这些FIFO缓冲器114也具有保持水平一列量的YCbCr像素到下一个的水平一列量的像素从第1滤波器11被输出为止的任务。

若水平二列量的像素被输入，则第2滤波器120将水平2×垂直2的4个像素量的Y、Cb、Cr的像素值进行平均。通过重复该处理，1/4去马赛克后图像垂直水平分别变成1/2的长度，作为整体被变换为1/16的尺寸。被变换后的1/16去马赛克后图像被发送至图像发送部150，并且被传递至下一个阶段的第3滤波器130。

关于第3滤波器130以及第4滤波器140，在各自的前面的阶段中h/4个量的FIFO缓冲器132或者h/8个量的FIFO缓冲器142被配置之外，重复与上述一样的处理。然后，向图像发送部150输出1/64以及1/256尺寸的去马赛克后图像。另外，上述那样的金字塔滤波器，如在欧州专利申请公开第0999518号说明书等中被记载那样地众所周知，因此，在本发明书中省略更多的详细的说明。

这样，从金字塔滤波器部170的各滤波器，逐次缩小1/4的图像输出被输入至图像发送部150。由此可知，越是通过金字塔滤波器部170内的滤波器，各滤波器的前面的阶段所需要的FIFO缓冲器的大小越是小也足够。

图像发送部150，在从图像获取部102接受了的RAW图像、从去马赛克部104接受了的1/1去马赛克后图像、以及从金字塔滤波器部170接受了的1/4～1/256去马赛克后图像组成的阶层图像之中，根据从信息处理装置14的通信部30经由通信部108而接受的指示，选出需要的阶层以及区域。然后，用这些图像来构成分组而发送至通信部108。

通信部108按照例如USB1.0/2.0等的规定的协议，将分组发送至信息处理装置14。与信息处理装置14的通信不限定于有线，也可以是例如IEEE802.11a/b/g等的无线LAN通信、IrDA等的红外线通信。

图4表示图像发送部150的结构。图像发送部150具有：块写入部152、缓冲器154、块读取部156、编码部158、分组化部160、分组缓冲器162以及控制部164。控制部164，基于来自信息处理装置14的指示，指示是否将各种图像数据之中任一个作为分组发送至块写入部152以及块读取部156。

经由去马赛克部104以及金字塔滤波器部170，1/1～1/256尺寸的去马赛克后图像被输入至块写入部152。此外，根据信息处理装置14的输出信息生成部32执行的处理内容，RAW图像从图像获取部102被输入。块写入部152的阶层选择部152A基于来自控制部164的指示，选择去马赛克后图像的任一个的阶层。

切取块选择部152B，接受从信息处理装置14被发送的、处理所需要的区域的位置信息，从该区域将含有仅规定的像素数大的区域的块作为确定块而选择。另外，一个块的大小，优选为配合后续阶段的JPEG编码而8×8像素的块。块选择部152B切取仅被选择了的去马赛克后图像的一部分的块之后，写入缓冲器154。

此时，按每2×2的像素接受图像，依次写入至缓冲器154。块读取部156按在缓冲器154上一个块量的像素完成准备的顺序，读取各图像块而发送至编码部158。块写入部152以及块读取部156通过控制部164被调整，以便于同步动作。也就是说，块写入部152的读写在每次像素从图像获取部102、去马赛克部104以及金字塔滤波器部170被输出时进行，与此相对，块读取部156的读取在每次一个块量的像素被存储于缓冲器154时进行。该同步定时根据摄像机的曝光速度而决定。

在本实施方式中，不是备全RAW图像的整体或缩小图像的整体量的像素之后才发送至信息处理装置14，而是以块单位发送，因此，缓冲器154能够至多存储RAW图像以及缩小图像的全部的图像块的大小就足够。根据图像的使用目的，能够存储2～3个的图像块即可。这样，使被缓冲的数据减少，在每次块建成时，依次分组化并转发，因此，伴随摄像装置12内的处理的延迟被削减。

此外，从来自图像获取部102的像素的输出以及金字塔滤波器部170，在每次摄像元件的曝光结束时，像素被依次输出至块写入部152，因此，不同的帧的块被写入至缓冲器154、块以不同的顺序分组化并被发送的情况，从结构上不会发生。

编码部158对RAW图像以外的图像的图像块进行JPEG等的众所周知的压缩编码，发送至分组化部160。分组化部160将编码后的图像的图像块，以到达分组化部160的顺序分组化并写入分组缓冲器162。通信部108将分组缓冲器162内的分组按照规定的通信协议，转发至信息处理装置14。另外，关于RAW图像以外的图像，也可以不进行编码部158的压缩编码，分组化部160将从块读取部156获取了的块直接分组化。

另外，也能够使用LLVC、AVC等其他的众所周知的编码，但是优选为能够以块单位编码。此外，在块读取部156中被读取的块的大小也能够配合编码而变更，例如也可以进行以256×256单位的块读取和编码。

图5详细表示信息处理装置14的位置信息生成部28的结构。位置信息生成部28包含：决定用于立体匹配的对象区域以及阶层的对象区域决定部40、以及进行立体匹配而获取对象物的位置信息的位置信息获取部42。对象区域决定部40包含：整体图像获取部44、活动区域检测部46、区域预测部48、区域集中部50、以及阶层决定部52。

整体图像获取部44，在摄像装置12的第1摄像机22以及第2摄像机24分别生成了的立体图像的阶层数据之中，以规定的速率获取分辨率最低的第0阶层的全区域的图像。在此，获取的图像也可以只是Y图像。其中，根据处理能力或通信速度等而使用的阶层、图像的种类可以适当地选择。

活动区域检测部46，针对整体图像获取部44已获取的立体图像的各自，检测活动区域。例如，在将对象物作为人的情况下，首先进行脸部检测，估计可以认为存在人的像的区域。然后，针对估计了的区域，获取与在前1个的时间步骤中使用了的图像的差分图像，将具有规定的阈值以上的差分的区域、或者与此外接的区域等，作为活动区域来检测。

区域预测部48，针对立体图像的各自，基于活动区域检测部46检测到的活动区域，预测在将来的立体匹配处理中应该搜索的对象区域。区域集中部50，将区域预测部48预测到的、立体图像中的对象区域用统一坐标系集中，对各时刻决定1个对象区域。阶层决定部52，基于该对象区域的大小，高精度地进行立体匹配，且选择分辨率没有高到浪费的阶层。

位置信息获取部42包含：对象区域图像获取部53、位置确定部54、无效数据检测部56以及数据生成部58。对象区域图像获取部53，指定对象区域决定部40决定了的对象区域以及阶层，并从摄像装置12获取立体图像数据。位置确定部54对对象区域图像获取部53获取了的立体图像进行立体匹配，确定包含深度方向的位置的三维的位置信息。

在此，实施的立体匹配处理也可以使用目前为止被建议的各种各样的手法的任一种。例如，在左右的图像的一方设定相关窗口，通过移动另一方的图像的搜索窗口的同时，计算与相关窗口的图像的相互相关系数，获得对应点之后，能够使用基于这些的对应点的视差使用三角测量的原理来求解三维的位置信息的面积相关法等。

无效数据检测部56，在位置确定部54已确定的位置信息之中，确定应设为无效的数据。上述那样，由于对象物越在里面，其视差变得越小，因此分辨率小的图像，即使深度方向的位置被计算出，其误差也大。即，根据用于立体匹配的图像的分辨率，能够适当地计算的深度方向的范围不同，分辨率越低，其界限变得越位于朝向自己的一侧。

那么，对于各阶层，通过对深度方向，预先设定可以把数据作为有效的界限为深度界限，并与位置确定部54已确定的深度方向的位置比较，来确定无效的数据。通过这样做，在摄像装置12自身摇晃、或原本应该追踪活动的对象物以外的大的活动在背后发生了的时候，防止发生将其作为数据用于后续阶段的处理的问题。

数据生成部58基于排除了无效数据检测部56已确定的无效的数据的结果剩下的位置信息，来形成深度图像。深度图像如上述那样，定为具有对应于在摄像装置12中生成的多个分辨率的分辨率的阶层结构。深度图像的阶层数据预先对全部的像素值分配0等初始值，并存储于深度图像数据存储部60。

然后，每次位置确定部54确定对象物的位置时，将对应于用于立体匹配的拍摄图像的阶层的阶层的、对应的位置的像素作为深度方向的坐标值，而更新深度图像。作为结果，深度图像数据以立体匹配的处理速率相同的速率被更新。信息处理装置14的输出信息生成部32根据自己进行的处理所需要的空间分辨率，在深度图像数据之中选择阶层，而读取位置信息，适当利用于处理。

图6是概略地表示摄像装置12、位置信息获取部42、以及对象区域决定部40进行的处理的时间的关系，同图水平方向表示时间轴。若在时刻0开始全部的处理，则摄像装置12在时刻t1、t2、t3、......、t18、......以规定的帧速率拍摄对象物，生成多个分辨率的图像数据并将需要的数据发送至信息处理装置14。在图6中，用在整个期间上连续的矩形表示摄像装置12进行的图像数据生成处理，但是如果实际上各拍摄时刻所拍摄的图像的数据生成、数据发送结束，则可以待机到下一个的拍摄时刻为止。位置信息获取部42进行的处理也一样。

初次的时刻t1的拍摄图像之中低分辨率的整体图像，被供给至信息处理装置14的对象区域决定部40（S1）。此时，也供给规定的阶层的整体图像至位置信息获取部42（S2）。此时的阶层，预先设定为假定对象物在标准的位置时，在充分得到立体匹配的精度的范围内，低分辨率的阶层。由于分辨率越低的图像，尺寸越小，因此能够高效地进行对应点的搜索。

在位置信息获取部42中，使用在S2中所供给的立体图像，依次进行除立体匹配、无效数据之外，还有深度图像更新的处理。由此，对应于时刻t1的对象物的位置信息以具有阶层结构的深度图像的形式被输出。另一方面，在对象区域决定部40中，使用在S1中所供给的立体图像，依次进行活动区域检测、区域预测、区域集中以及阶层决定的处理。然后，将决定了的对象区域和阶层的信息通知至位置信息获取部42（S3）。

此时，决定的对象区域和阶层的信息是对于在时刻t2、t3、t4、t5、t6、t7所拍摄的图像的信息。因此，对象区域决定部40的区域预测部48考虑到各时刻为止的时间，推定来自现在的活动区域的对象物的可动范围，对各时刻预测对象区域以便于包含该范围。位置信息获取部42基于在S3中被通知了的信息，每次生成时刻t2、t3、t4、t5、t6、t7中的拍摄图像的数据，都获取对应各时刻被决定了的对象区域以及阶层的立体图像数据（S4、S5、S6、S7、S8、S9）。

时刻t7的拍摄图像之中最低分辨率的整体图像，以与S9相同的定时被供给至对象区域决定部40（S10）。对象区域决定部40再次，依次进行活动区域检测、区域预测、区域集中以及阶层决定的处理，将其结果决定了的对象区域和阶层的信息通知至位置信息获取部42（S11）。此时，决定的对象区域和阶层的信息是对于在时刻t8、t9、t10、t11、t12、t13所拍摄的图像的信息。

以下，通过重复一样的处理，在各时刻所拍摄了的图像中的对象物的位置信息作为深度图像被输出。另外，在同图中，对摄像装置12拍摄到的全部的帧获取位置信息，但是，上述那样，也可以根据在输出信息生成部32进行的后续阶段的处理中位置信息所期望的时间分辨率或信息处理系统10的处理能力，扩大处理的时间间隔。例如，以对象区域决定部40中的处理相同的速率进行处理也可以。

图7概略地表示信息处理装置14的活动区域检测部46、区域预测部48、以及区域集中部50进行的处理的状况。图像61是第1摄像机22拍摄了的图像，图像62是第2摄像机24拍摄了的图像。各摄像机对时刻t以规定的速率正在拍摄，因此，如同图所示对时间t生成图像列。在该例中，在某时刻的图像61和图像62中，如通过同图的实线所示，人映现出来。

第1摄像机22和第2摄像机24是从左右排列了的不同的视点在拍摄人，因此，图像61以及图像62中的人的像在左右上产生视差。对象区域决定部40利用这样从左右的视点所拍摄到的立体图像来求解对象区域。首先，活动区域检测部46对图像61以及图像62独立地进行活动区域的决定。

具体地是，首先，如果对象物是人，则通过脸部检测处理，对图像61检测脸部区域64a，对图像62检测脸部区域64b。脸部检测处理，也可以应用模式匹配等一般被进行的各种各样的手法的任一种。即使对象物不是人，如果能够准备形状已知的模板图像，则能够进行一样的处理。例如，手、作为被摄物体的用户握住的标志器等，通过将表示其形状的模板图像预先准备至存储器等，也能够一样地处理。

接着，基于脸部区域64a、64b的大小以及位置，对各图像61、62，将活动区域的可能性高的区域作为活动检测对象区域66a、66b分别决定。活动区域的可能性高的区域，也就是人的身体达到的范围，如果脸部的位置已知，预测就容易。例如，准备用矩形表示了基准的脸部的轮廓线和对其脸部应该设定的活动检测对象区域的范围的基准图像，放大或缩小基准图像，以便于基准的脸部的轮廓线大体上与通过脸部检测处理得到的脸部区域64a、64b内的脸部的轮廓重叠。那时的基准图像的矩形成为活动检测对象区域66a、66b。

接着关于活动检测对象区域66a、66b，在左图像之间、右图像之间分别获取了与在前次的对象区域决定处理时获取了的整体图像中的对应的区域的差分图像之后，提取差分比规定的阈值大的部分。在同图中，将在前次获取了的整体图像中映现了的左手，在图像61、62上以点线来表示。若假设其他的部分没有变化，仅在左手部分差分显得大。提取像这样差分为阈值以上的部分，将与其外接的矩形作为活动区域68a、68b而决定。

接着区域预测部48基于对图像61以及图像62的各自决定了的活动区域68a、68b，进行假定了成为立体匹配的对象的图像的拍摄时刻的区域预测。该处理，可以仅通过与时间经过成比例的量，将活动区域68a、68b在垂直方向、水平方向上以相同的比率放大，也可以根据在前次以前的对象区域决定处理时获取了的多个图像基于自回归模型等预测对象物的移动方向之后，将活动区域68a、68b仅在该方向上放大。或者将这些组合也可以。

这样做，对图像61、图像62的各自，决定预测区域70a、70b。另外，在同图中，预测区域针对各图像仅表示1个，上述那样，对立体匹配的对象图像被拍摄的各时刻，决定预测区域。接着区域集中部50在构成图像平面的归一化坐标系上，重叠对左右的图像各自决定了的预测区域70a、70b，通过求解成为其和的区域（至少包含在任意的区域中的区域）而集中。

从左右的不同视点拍摄了的图像在水平方向上产生视差，因此，预测区域70a、70b如同图所示，在构成图像平面的坐标系上向x方向（水平方向）偏移。这样从2个图像决定对象区域是根据下一个理由。即，对象物越在朝向自己的一侧，其像外观上越大，其活动达到范围变大，超过如上所述决定了的预测区域的可能性增加。

那么，根据依存对象物的深度方向的位置的外观上的活动的大小的变化，为了调整对象区域的大小，利用视差。如果视差大，则预测区域70a、70b的偏移变大，因此，成为其和的区域变大，如果视差小，则其偏移变小，因此，成为其和的区域不怎么变大。这样做，通过考虑对象物的深度方向的位置并调整区域的大小，防止对象物从对象区域偏移的同时，使得不含有多余的区域。

另外，区域集中部50进而，将以规定的放大率在垂直水平两个方向上放大了成为和的区域的区域作为最终的对象区域72而决定。通过这样做，对象物从对象区域偏移的可能性能够进一步降低。

图8概略地表示阶层决定部52基于对象区域的大小选择用于立体匹配的阶层的状况。在同图中矩形80a、80b、80c、以及80d表示拍摄图像的阶层之中第3阶层、第2阶层、第1阶层、以及第0阶层的图像尺寸。在图7中在图像的归一化坐标系中决定了的对象区域72，对各图像尺寸变成矩形72a、72b、72c、72d那样的大小。

这样，将使对象区域72对应各阶层的图像尺寸而得到的矩形72a、72b、72c、72d与基准尺寸矩形82比较，选择对象区域的尺寸接近基准尺寸矩形82的尺寸的阶层。基准尺寸矩形82，规定了为了得到在立体匹配时合适的精度所需要的、对象物的外观上的大小，通过实验等预先设定。

尺寸的大小，可以把2个矩形具有包含关系时的被包含的矩形看作“小”，也可以以面积来比较。或者，也可以仅比较水平、垂直、某一方的边的长度。此外，在阶层的选择的时候，对应于各阶层的矩形72a、72b、72c、72d之中、也可以通过尺寸的序列选择与基准尺寸矩形82存在前后差别的2个矩形的任一个，也可以不一定是尺寸最接近的矩形。

例如，在图8的情况下，基准尺寸矩形82，由于矩形72a、72b、72c、72d之中具有矩形72b和矩形72c之间的尺寸，因此选择对应于矩形72b的第2阶层、或对应于矩形72c的第1阶层。例如，也可以从作为最大尺寸的第3阶层的矩形72a开始比较尺寸的大的顺序（S20、S22、S24、S26的顺序），选择对应于最先被包含于基准尺寸矩形82的矩形的阶层。在同图的例中，选择对应于矩形72c的第1阶层。

若假设这样的步骤，则在基准尺寸矩形相近的矩形所得到的阶层之中，能够选择分辨率低的一方的阶层，能够更加抑制计算量。在任何情况下，通过这样选择基准尺寸矩形82相近的尺寸的对象区域所得到的阶层，上述那样，配合对象物的外观上的大小，能够调整用于立体匹配的图像的分辨率。作为结果，能够一边防止超过需要地搜索详细的图像数据的浪费的发生，一边保持其精度。

图9表示摄像装置12生成的拍摄图像的阶层和位置信息获取部42的数据生成部58生成的深度图像的阶层的对应。在同图中，上侧的4组的图像82a、82b、82c、82d是某时刻拍摄的立体图像，下侧的4个的图像84a、84b、84c、84d是对该立体图像生成了的深度图像，从左起按顺序分别是第0阶层、第1阶层、第2阶层、第3阶层的图像。

例如，若拍摄人在脸部之前挥动棒状的物体的样子，在某时刻图像82a、82b、82c、82d那样的拍摄图像对2个视点一张一张地被生成。若假设这样对象区域决定部40对拍摄图像决定了的阶层是第2阶层，对象区域是区域86，则位置信息获取部42获取该阶层、该区域的左右的图像数据并进行立体匹配。

然后，如果其区域中的对象物的位置信息被得到，则在深度图像的阶层数据之中，更新对应的阶层中的对应的区域，即区域88的像素值。此时，对区域86得到的深度方向的位置坐标之中最小的值（朝向自己一侧的位置）在比第2阶层所设定的深度界限更里面时，不进行更新处理。这是因为，上述那样，将因某种原因原本以该分辨率不应设为对象物的位置而正确地被得到的深度方向的位置中发生了大的活动的情况，作为错误而排除。阶层与深度界限预先关联并作为表格存储至存储器等。

这样，将深度图像作为阶层结构，在各时刻更新对应于用于立体匹配了的拍摄图像的阶层的阶层的数据。图像的分辨率与从该图像高精度地得到的对象物的深度方向的位置的范围对应。因此，按每个用于立体匹配了的图像的分辨率将深度图像阶层化，通过仅将得到的位置信息反映至对应的阶层，变成通过深度方向的位置的范围区分对象物的位置。

使用该深度图像而进行处理的输出信息生成部32，通过根据进行的处理的内容或期望的精度等，适当地选择深度图像的阶层并参照，能够一边准确地获取需要的信息，一边防止将多余的数据编入至处理而处理精度下降、处理速度降低的情况。

例如，想要忽略离摄像机远的对象物的活动的时候，仅参照第0阶层、第1阶层等低分辨率的图像。相反地，在仅关注里面的对象物的活动的情况下，仅参照第2阶层、第3阶层等高分辨率的图像。在想全部获取从朝向自己的一侧至里面的一侧位置宽范围中的活动的情况下，也可以依次参照从第0阶层至第3阶层。应该参照的深度图像的阶层，也可以通过实际地进行处理并验证，对处理内容、被假定的对象物的位置、以及大小等设定。

根据以上叙述了的本实施方式，在摄像装置中设置2个摄像机，从不同的视点同时拍摄对象物的视频。拍摄了的图像通过金字塔滤波器变换为分辨率不同的多个阶层图像。然后，使用低分辨率的整体图像而检测活动区域，选择与其大小相称的阶层之后，仅获取预测为有对象物的活动的对象区域并进行立体匹配。

由此，对象物不论在深度方向的哪个位置，在立体匹配的精度能够维持的范围内，能够省略浪费的数据处理，能够使精度和处理效率并存。此外，即使对象物的位置变化，由于对象区域的图像尺寸变化不大，计算量与对象物的位置无关，变得能够输出稳定了的位置信息。

此外，通过基于对象物的活动等预测将来的对象区域，在独立了的定时进行决定对象区域的处理和立体匹配。由此，鉴于处理资源或处理能力、所期望的响应性、以及精度等，能够自由地决定以怎样的频率进行这2个处理。

此外，为了对象区域的决定，将2个由2个摄像机所拍摄了的立体图像一起使用，基于成为在双方中得到了的活动区域的和的区域决定对象区域。由此，针对活动达到的范围大的、朝向自己的一侧的对象物，能够进一步扩大对象区域，对象物从对象区域超出的可能性变低。另一方面，超出的可能性最低的、里面的对象物，对象区域的扩大被抑制，将浪费的区域包含于对象区域的情况变少。

进而，得到了的位置信息，定为以多个分辨率表示了将深度方向的位置作为像素值的深度图像的阶层结构。然后，在各时刻更新对应于在立体匹配中使用了的图像的阶层的区域的像素值。由此，根据使用位置信息而进行的后续阶段的处理所期望的精度、分辨率、以及对象物的深度方向的位置的假定范围等，能够切换参照的阶层，能够将使用了参照处理以及参照了的信息的各种处理变得高效率。

以上，以实施方式为基础说明了本发明。上述实施方式是示例，在其各结构要素或各处理过程的组合上各种各样的变形例是可能的，此外那样的变形例也在本发明的范围内都是所属领域技术人员所理解的范围。

例如在本实施方式中，通过对对象区域决定部40决定了的对象区域进行立体匹配，获取了对象物的三维的位置信息，但是决定对象区域的技术、也能够应用于立体匹配以外的处理。例如也可以是不需要脸部的表情认识处理等深度方向的详细的位置信息的处理。在该情况下使用立体图像，根据脸部的深度方向的位置来调整对象区域的大小，能够选择最佳的分辨率的图像，因此其后的处理的精度以及效率能够并存。

此外在本实施方式中，作为有活动的区域、即用于确定对象区域的初始处理，信息处理装置14的活动区域检测部46进行了脸部检测处理。另一方面，也可以将该脸部检测处理的功能设置到摄像装置12的各摄像机中。图10表示那样的情况的第1摄像机22的结构。在此，第1摄像机22具备的图像获取部102、去马赛克部104、图像发送部150、金字塔滤波器部170以及通信部108与图3中的各功能块相同，该变形例进而具备对象物检测部180。第2摄像机24也具有相同的结构。

对象物检测部180，将在信息处理装置14中对象区域决定部40作为处理对象的图像，例如分辨率最低的第0阶层的全区域的图像从图像发送部150的块读取部156获取，通过对其进行脸部检测处理来确定脸部区域。然后，将该区域的位置以及大小的信息通知至图像发送部150的分组化部160，与检测对象的图像数据本体一起分组并发送至信息处理装置14。或者，与检测对象的图像的识别信息等关联，从通信部108发送至信息处理装置14。

此时，信息处理装置14的活动区域检测部46通过与图像数据一起从摄像装置12获取各时刻的图像中的脸部区域的信息，不进行检测图7所示的脸部区域64a、64b的处理而终止。此时活动区域检测部46从决定活动检测对象区域66a、66b的处理开始。这样，通过根据摄像装置12的处理能力使处理的分担变化，能够进行高效率的对象区域确定，结果，响应性好的以及高精度的位置信息生成变得可能。

在此，对象物检测部180进行的检测处理，如上述那样，通过导入现有的模板匹配技术并准备适当的模板图像，其对象不限于人的脸部，也可以是手、标志器、规定的物等的任一个。例如在信息处理装置14中，根据用户指定了开始的游戏名或信息处理的种类等，输入信息获取部26确定与此对应的对象物，将识别信息通知至摄像装置12。

摄像装置12的各摄像机从准备于未图示的存储器的多个模板图像中读取与被通知的对象物对应的模板图像，通过进行模板匹配，检测对象物。或者，也可以信息处理装置14将模板图像的数据其本身发送至摄像装置12。通过这样做，能够按照用户的指示输入等而使对象物各种各样地变化。

标号说明

10信息处理系统、12摄像装置、14信息处理装置、16显示装置、

22第1摄像机、24第2摄像机、26输入信息获取部、

28位置信息生成部、30通信部、32输出信息生成部、

40对象区域决定部、42位置信息获取部、44整体图像获取部、

46活动区域检测部、48区域预测部、50区域集中部、52阶层决定部、

53对象区域图像获取部、54位置确定部、56无效数据检测部、

58数据生成部、60深度图像数据存储部、102图像获取部、

104去马赛克部、108通信部、150图像发送部、151块选择部、

164控制部、170金字塔滤波器部、180对象物检测部。

产业上的可利用性

如上所述本发明能够利用于计算机、摄像机、游戏装置、图像显示装置等的信息处理装置。

Claims

1.一种信息处理装置，通过使用从不同的视点同时地视频拍摄对象物所得到的立体动态图像而进行立体匹配，以规定的速率输出对象物的位置信息，其特征在于，具备：

位置信息获取部，在将所述立体动态图像所包含的图像帧对分别以规定的多个分辨率表示的多个拍摄图像之中，通过使用基于与对象物的像的大小有关的信息选择的分辨率的图像而进行立体匹配，获取对象物的位置信息；以及

深度图像数据生成部，以所述多个分辨率表示了将在已存储于存储器的、在图像平面中将对象物的深度方向的位置作为像素值表示的深度图像的多个深度图像之中，通过基于所获取到的位置信息，更新具有所述位置信息获取部用于立体匹配的图像的分辨率的深度图像，而输出对象物的位置信息；

所述位置信息获取部，基于通过使用所述拍摄图像的任一个来求解活动差分而确定的活动区域，决定应设为立体匹配的处理对象的对象区域之后，根据该对象区域的大小选择用于立体匹配的分辨率。

2.如权利要求1所述的信息处理装置，其特征在于，

所述深度图像数据生成部，在所述位置信息获取部获取了的位置信息之中，深度方向的位置在对用于立体匹配的图像的分辨率所设定的、应设为有效的深度方向的位置的范围外的时候，将该位置信息设为无效。

3.如权利要求1或2所述的信息处理装置，其特征在于，还具备：

输出信息生成部，基于关联了处理内容和参照目的地的深度图像的分辨率的设定信息，切换参照目的地的深度图像而获取了对象物的位置信息之后，通过使用其进行规定的处理，输出与对象物的活动相应的处理结果。

4.如权利要求1所述的信息处理装置，其特征在于，

所述位置信息获取部将对所述图像帧对的各自确定的所述活动区域在统一坐标系中重叠，将所述活动区域重叠后的区域作为所述对象区域而决定。

5.如权利要求4所述的信息处理装置，其特征在于，

所述位置信息获取部，在由用于表示在以所述规定的多个分辨率表示了所述对象区域时的图像的大小的多个矩形、以及具有预先确定的基准的大小的矩形组成的大小的序列中，将对应于大小仅次于具有所述基准的大小的矩形的矩形的分辨率作为立体匹配的对象而选择。

6.一种信息处理方法，通过使用从不同的视点同时视频拍摄对象物而得到的立体动态图像而进行立体匹配，以规定的速率输出对象物的位置信息，其特征在于，具备：

在将所述立体动态图像所包含的图像帧对分别以规定的多个分辨率表示的多个拍摄图像之中，通过使用基于与对象物的像的大小有关的信息选择的分辨率的图像而进行立体匹配，获取对象物的位置信息的位置信息获取步骤；以及

以所述多个分辨率表示了将在存储于存储器的、在图像平面中将对象物的深度方向的位置作为像素值表示的深度图像的多个深度图像之中，通过基于所获取到的位置信息，更新具有用于立体匹配的图像的分辨率的深度图像，而输出对象物的位置信息的深度图像数据生成步骤；

在所述位置信息获取步骤中，基于通过使用所述拍摄图像的任一个来求解活动差分而确定的活动区域，决定应设为立体匹配的处理对象的对象区域之后，根据该对象区域的大小选择用于立体匹配的分辨率。