CN101552890B

CN101552890B - 信息处理设备、信息处理方法

Info

Publication number: CN101552890B
Application number: CN200910130223.9A
Authority: CN
Inventors: 近藤哲二郎; 小久保哲志; 田中健司; 向井仁志; 日比启文; 田中和政; 江间拓郎; 森崎裕之
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-04-03
Filing date: 2009-03-26
Publication date: 2011-03-30
Anticipated expiration: 2029-03-26
Also published as: JP4557035B2; US8249305B2; JP2009253555A; CN101552890A; US20090252379A1

Abstract

本发明公开了信息处理设备、信息处理方法、程序和记录介质。一种信息处理设备包括特征值检测部件、图像处理部件和音频处理部件。当在不同位置拍摄的第一图像和第二图像包括一个特定主题时，所述特征值检测部件确定包含在所提供的第一图像和第二图像中的所述主题的特征值。所述图像处理部件基于所述特征值检测部件所确定的特征值来检测所述主题的运动。所述音频处理部件根据所述图像处理部件检测的所述主题的运动来定位所述主题的声像。

Description

信息处理设备、信息处理方法

技术领域

本发明涉及适于应用在允许用户有效地观看显示在一个屏幕上的多幅图像的情况下的信息处理设备、信息处理方法、程序和记录介质。

背景技术

现有技术中，多个组合图像被组合并且所述组合图像被显示在一个屏幕上。例如，同时显示多个图像时，通常使用画中画(picturein picture，PinP)功能来排列多个缩小图像或把以不同角度拍摄的子图像嵌入到主图像中。此时，输出主图像的音频或者子图像的音频。

例如，日本未审查专利申请公开No.2005-29518公开了一种用于根据聚焦图像的绝对位置来定位声像(sound image)的技术。

发明内容

在一个屏幕上显示多个图像时，没有考虑声像的定位。相应地，当一个屏幕上显示的主图像和子图像都包括特定主题时，很难本能地理解另一图像的哪个场景相应于一个图像的聚焦场景。例如，当足球运动员的缩放图像被显示为主图像并且足球场的全景图像被显示为子图像时，观众难以立即理解在缩放图像中所示的足球运动员在全景图像中的位置。

考虑到这种情况，当包括特定主题的多个图像被同时显示在一个屏幕上时，期望实现有效地观看。

根据本发明的一个实施例，当不同位置拍摄的第一图像和第二图像包括特定主题时，确定包括在所提供的第一和第二图像中的所述主题的特征值。基于所确定的特征值来检测所述主题的运动。根据所检测的所述主题的运动来定位该主题的声像。

利用这种配置，通过定位包含在图像中的主题的声像(此后称作声像的定位)，主题的运动被清晰地指示出来。相应地，当在一个屏幕上显示多个图像时，用户可轻易地理解该主题的运动而无需使用其眼睛跟踪包含在每个图像中的该主题的运动。

根据本发明的一个实施例，声像的定位有利于帮助用户更容易地理解主题的运动。附图说明图1是示出根据本发明实施例的信息处理系统的布置示例的解释图；图2是示出根据本发明实施例的信息处理设备的内部配置例子的框图；图3是示出根据本发明实施例的图像处理部件的内部配置例子的框图；图4是示出根据本发明实施例的色域检测处理和图像组合处理例子的流程图；图5是示出根据本发明实施例的图像处理例子的流程图；图6是示出根据本发明实施例的音频处理例子的流程图；图7是示出根据本发明实施例的第一图像例子的解释图；图8是示出根据本发明实施例的第二图像例子的解释图；图9是示出根据本发明实施例的第一图像的色域分布例子的解释图；图10是示出根据本发明实施例的第二图像的色域分布例子的解释图；图11是示出根据本发明实施例的超过阈值的第一图像的色域例子的解释图；图12是示出根据本发明实施例的超过阈值的第二图像的色域例子的解释图；图13是示出根据本发明实施例的共同超过阈值的第一和第二图像的色域分布的三维显示色域例子的解释图；图14是示出根据本发明实施例的共同超过阈值的第一和第二图像的色域分布的二维显示色域例子的解释图；图15是示出根据本发明实施例的从第二图像中除去预定色域(地面颜色)的例子解释图；图16A和16B是例示根据本发明实施例的组合图像例子的解释图；图17A和17B是例示根据本发明实施例的随时间变化的缩放图像的声像的定位位置的例子解释图；图18A和18B是例示根据本发明实施例的随时间变化的全景图像的声像的定位位置的例子解释图；图19是例示根据本发明另一实施例的在多个屏幕上显示图像的例子解释图；图20是例示根据本发明另一实施例的在可移动显示装置上显示图像的例子解释图；和图21是例示根据本发明另一实施例的同时显示三个或更多图像的例子解释图。

具体实施方式

下面将参照图1至图18B描述本发明的实施例。将对一个例子进行描述，其中根据本发明实施例的信息处理设备被应用于能在一个屏幕上显示以不同角度(不同位置)和不同缩放水平(放大因子)拍摄的多个图像的信息处理系统1。

图1例示了根据该实施例的信息处理系统1的布置。

信息处理系统1包括拍摄第一场景并产生第一图像的第一摄像机3，以及拍摄小于第一场景的第二场景并产生第二图像的第二摄像机4。信息处理系统1还包括信息处理设备10，其基于第一摄像机3提供的第一图像和第二摄像机4提供的第二图像来产生组合图像，以及输出装置6，其显示由信息处理设备10产生的图像。

第一摄像机3和第二摄像机4采用不同的角度和缩放水平。输出装置6显示图像并输出声音。第一场景和第二场景包括一个特定主题。在该实施例中，假定第一摄像机3全景操作以拍摄并产生第一图像。第二摄像机4缩放操作以拍摄并产生第二图像。相应地，第一场景包括的范围宽于第二场景。

信息处理设备10在存储部件11中(参见稍后将描述的图2)存储多角度广播的图像和音频或者由用户在不同角度拍摄的场景的图像和音频。信息处理设备10还通过在主图像上叠加子图像来产生组合图像。这里，主图像从第一摄像机3和第二摄像机4提供的多个图像中选择，而尺寸小于主图像的另一幅图像被选作子图像。

例如，输出装置6可以是液晶显示器、电致发光(EL)显示器或投影仪。输出装置6具有输出声音的扬声器。基本上，显示多个叠加的图像。然而，图像输出方法不限于此。例如，仅输出用户想要聚焦的图像。此外，可在多个显示装置上显示多个图像。

声像的定位位置在三维空间移动，即，上和下、左和右、以及前和后。接收到包括整个场景的全景图像和包括该全景图像的一个详细部分的缩放图像后，信息处理设备10根据全景图像中包含的主题来确定声像的定位位置，以允许用户本能地基于多幅图像来理解包含在缩放图像中的主题在全景图像中的位置。

输入信号的组合不限于图像信号和音频信号的组合。当对象位置信息和声源移动信息被包括在图像和音频数据中作为元数据时，使用这种数据来增加定位声像处理的准确性也被称作“输入信号的组合”。

由于通过混合多个图像信号和多个音频信号来定位一个声像，因此当观看多个图像时用户可自然地移动他们的视线。此外，由于眼睛跟随定位声音移动，所以用户可轻易地在多个屏幕中识别一个对象。

图2例示了信息处理设备10的内部配置。

信息处理设备10包括用于存储由第一摄像机3、第二摄像机4提供的图像的存储部件11，和调谐器。信息处理设备10还包括用于检测包括在所提供图像中的主题的特征值的特征值检测部件21、用于对从存储部件11中读出的图像进行预定处理的图像处理部件22、以及用于对从存储部件11中读出的音频数据进行预定处理的音频处理部件23。图像处理部件22处理过的组合图像被显示在输出装置6。通过输出装置6输出经过音频处理部件23处理的定位音频数据。

当在不同位置拍摄的第一图像和第二图像包括特定主题时，特征值检测部件21根据第一和第二图像来确定该主题的特征值。

图像处理部件22基于特征值检测部件21确定的特征值来检测主题的运动。音频处理部件23根据图像处理部件22检测的主题的运动来定位该主题的声像。特征值检测部件21、图像处理部件22和音频处理部件23可通过例如中央处理单元(CPU)来实现。

此外，信息处理设备10包括外部信号输入部件12，用于接收用户操作信息、用户信息和用户房间环境信息，作为传感器信息。所述用户信息包括例如，观看所表现图像的用户数目信息和用于选择图像表现方法的信息。用户房间环境包括例如，表现图像的房间的尺寸和形状以及扬声器和显示屏的数量及其布置信息。通过外部信号输入部件12输入的信息被提供给特征值检测部件21、图像处理部件22和音频处理部件23。

存储部件11可以是大容量存储装置或大容量记录介质，诸如例如硬盘驱动器(HDD)。存储在存储部件11中的图像可以是例如根据运动图像专家组2(MPEG-2)标准压缩的数字数据。图像种类包括由摄像机、调谐器和存储装置提供的运动图像和静止图像。此后，这些种类的信息被称作内容。存储部件11还存储摄像机信息(例如，摄像机的位置、角度和放大因子信息)。相应于用户选择或信息处理设备10的自动确定，存储在存储部件11中的信息被处理，使得同时表现多个图像和音频。

信息处理设备10使用例如YUV色空间来处理图像。在YUV 色空间使用的YUV坐标系统中，通过由亮度信号(Y)、亮度信号和蓝色信号之间的色差信号(U)、以及亮度信号和红色信号之间的色差信号(V)定义的颜色空间来表示颜色。色空间可以表示的范围被称作色域(color gamut)。由YUV色空间来表示构成提供给信息处理设备10的图像的像素。在该实施例中，为每个像素确定的UV坐标上的位置被称作“色域”。

特征值检测部件21确定包括在多个图像中的特定主题的色域作为特征值。此时，确定一个主图像和一个子图像。对构成图像的每个像素检测色域。可以通过三维频率分布图来表示色域。当一个颜色在一幅图像中出现许多次时，相应于该颜色的色域的出现频率被累加。如果累加的频率值超过预定阈值，包括频繁出现的色域的部分图像(此后称作“频繁出现部分”)被提取以作为该图像的特征区域。

图3例示了图像处理部件22的内部配置。

图像处理部件22包括用于检测待从子图像除去的区域的除去区域检测单元24，以及用于将已经除去检测区域的子图像与主图像组合的图像组合单元25。

除去区域检测单元24从特征值检测部件21确定的多个图像的色域中识别公共色域，并且从子图像中除去相应于该公共色域的区域。此时，从主图像或子图像中除去包括共同存在于主图像和子图像的特征区域中的色域的区域。例如，当地面的图像被包括在主图像和子图像中，该地面的色域被检测为频繁出现在屏幕上的色域(此后称作“频繁出现色域”)。包括频繁出现色域的地面图像被作为频繁出现部分而除去。

图像组合单元25把子图像叠加在主图像上以把子图像与主图像进行组合，子图像中相应于公共色域的区域已经被除去区域检测单元24除去。在诸如遥控、按钮和触摸屏的操作部件(未示出)上执行用户操作。操作部件被连接到外部信号输入部件12。通过操作部件，用户可切换主图像和子图像或者调整包含在由音频处理部件23定位的第一图像中的主题的声像的音量。通过外部信号输入部件12 提供由操作部件输出的操作信号。然后确定由特征值检测部件21确定的色域、预定阈值和将要由除去区域检测单元24除去的区域。类似地，基于操作部件提供的输入信号来确定被图像组合单元25叠加到主图像上的子图像的位置。例如，通过触摸屏指示的位置来确定该位置。因此，所显示的组合图像对用户看起来是自然的。

图4例示了信息处理设备10执行的主处理。

确定音频辅助处理是否开启(步骤S1)。当全景图像与缩放图像组合时，音频辅助处理相应于基于包括在全景图像中的主题来定位声像的处理。如果音频辅助处理被关闭，则主处理结束。

如果音频辅助处理开启，特征值检测部件21读出存储于存储部件11中的内容(步骤S2)。特征值检测部件21检测共同存在于包含在读出内容中的、以不同角度拍摄的第一图像和第二图像中的特征值(步骤S3)。

确定特定主题(此后也称作“对象”)是否被包括在从读出内容选出的多个图像中。还确定对象的形状。通过匹配包括在所述图像中的主题的特征值来执行所述确定。

可替换地，用户可输入相应点以指示在输出装置6显示的图像的主题。相应于该相应点的主题被设置为初始值。初始值可以是对象的位置、运动矢量的大小和对象的轮廓。响应于初始值的设置，通过输入对象(例如球、人物和运动员号码)的运动矢量或用户操作，可以检测图像的特定部分并且其运动可以被追踪。作为匹配主题特征值的处理，可采用基于帧内块匹配或运动量匹配的估计。

对其设置了指示该主题的初始值的主题被当作聚焦对象。特征值检测部件21检测聚焦对象的运动并且跟踪每幅图像中该对象的位置。

图像处理部件22执行图5所示的预定图像处理(步骤S4)。响应于特征值的检测，图像处理部件22处理该图像。根据由用户操作输入的请求或图像输出环境来执行该处理。

例如，当输出装置6仅具有一个显示屏时，显示多幅叠加图像。取决于图像处理的种类，所创建的图像可被显示在多个显示屏上。

然后，音频处理部件23执行预定的音频处理(步骤S5)。这里，基于在检测到聚焦对象的图像中包含的对象的位置关系来执行确定声像定位位置的处理。

例如，当控制处理过程使得包括在图像中的特定主题位于屏幕上同一位置时，音频被定位在被显示主题的位置上。当用户聚焦的主题不在屏幕的相同位置时，包含在一幅图像中的主题的声像被定位在另一图像中的聚焦主题的位置上。声像定位(sound imagelocalization)是一种通过在空间中定位虚拟声像从而允许用户感觉声音是从声像输出的技术。例如，当左和右扬声器以相同音量同时输出声音时，声像定位于右扬声器和左扬声器的中间。如果左扬声器和右扬声器的音量被改变或输出声音的时序被偏移，定位的声像发生移动。相应地，用户能感觉到声像的运动。

图像处理部件22输出经过处理的图像到输出装置6(步骤S6)。然后输出装置6在显示屏显示该经过处理的图像。

音频处理部件23基于图像处理部件22处理的图像来处理音频数据并把经过处理的音频数据输出给输出装置6(步骤S7)。然后输出装置6从扬声器输出经过处理的音频数据的声音。输出装置6输出声音的声像被定位在全景图像中该主题的位置。

包含在图像中的主题的声像的运动特别地基于全景图像的运动来定位。相应地，当在缩放图像中观看主题并且收听定位于全景图像的主题位置的声像的声音时，用户能够自然地理解全景图像中主题的移动位置。

图5是例示图像处理的流程图。

首先，图像处理部件22确定组合多个图像的方法和在输出装置6显示该组合图像的方法(步骤S11)。基于从外部信号输入部件12输入的用户操作和用户环境来执行该确定。

图像处理部件22从特征值检测部件21加载图像(步骤S12)。然后，图像处理部件22检测多个加载图像的每个像素的色域(步骤 S13)。

除去区域检测单元24从多个加载图像中检测频繁出现的色域(步骤S14)。除去区域检测单元24确定将要从第二图像中除去的包括频繁出现的色域的区域(步骤S15)，并且从所确定的区域中除去频繁出现的色域。

图像组合单元25把已经从中除去了频繁出现的色域的第二图像叠加到第一图像(步骤S16)。图像组合单元25输出该组合图像到输出装置6。

图像组合单元25确定是否在输出装置6显示该组合图像(步骤S18)。如果输出图像不是所期望的图像，则改变该频繁出现的色域并且该色域被再次确定(步骤S19)。

此时，基于用户操作或使用操作日志来改变将要被除去的包括该色域的区域或执行异常处理。所述异常处理是当除去区域检测单元24除去的区域大于期望时重新设置颜色的处理。然后处理过程返回步骤S13。

如果获得用户期望的图像，则图像组合处理终止。

图6是例示音频处理的流程图。

音频处理部件23加载经过图像处理部件22处理的图像(步骤S21)。音频处理部件23分析用于输出经过图像处理部件22处理的图像的方法(步骤S22)。此时，音频处理部件23检测图像表现方法和显示装置的数量，并且分析音频和图像之间的关系(步骤S23)。

音频处理部件23分析如何输入声音源(步骤S24)。此时，音频处理部件23通过切换图像信号的特征值和音频信号的特征值来切换声像的定位位置。在该处理过程中，根据包括在全景图像中的对象的运动来定位包括在缩放图像中的对象的声像。使用包括在全景图像中的对象的运动来替换缩放图像的声音信号的运动被称作“特征值替换”。输出装置6的扬声器输出经过处理的音频(步骤S25)。

图7-15示出待叠加的图像例子及其色域例子。

图7例示了第一摄像机3拍摄的第一图像31。

图8例示了第二摄像机4拍摄的第二图像32。

提供给信息处理设备10的图像包括相同场景。在该例子中，第一图像31是主题35(一群打橄榄球的)的全景图。第二图像32是包括在第一图像31中的主题35的缩放图。从存储部件11读出的多个图像包括，例如，原始图像、原始图像一部分的缩放图像和不同角度的多个经过处理的图像。这些图像包括相同的主题。

在执行图像重叠处理之前，用户从多个图像中选择一幅主图像。这里，选择第二图像32作为主图像。在该实施例中，缩放图像被用作主图像并且经过处理的全景图像被用作子图像。

图9例示了第一图像31的色域分布。

图10例示了第二图像32的色域分布。

在下面描述中，色域分布图示出了YUV坐标系统的色差信号U和V以及每个色域的频率。当拍摄图像的摄像机具有不同像素数目时，色域图的频率范围不同。相应地，为了确定公共色域，执行归一化以调整频率。归一化是把两个图像的最大频率值设置为相同值的处理过程。

图9和图10分别示出用于确定频繁出现的色域的阈值37和37’。超过阈值的色域指示频繁包含在每个图像中的颜色。特征值检测部件21确定每个输入图像的整个区域的色域分布。特征值检测部件21归一化每个色域分布并且从多个输入图像信号中检测具有公共色域的区域。此时，特征值检测部件21校正第一摄像机3和第二摄像机4的参数以调整频繁出现的色域。特征值检测部件21可使用色域转换表。然后，特征值检测部件21确定将要从待叠加的图像中除去的色域。然而，包括被检测色域的区域不必与待除去区域一一对应。

图11例示了超过阈值的第一图像31的色域。

图12例示了超过阈值的第二图像32的色域。

图11和图12分别示出从图9和图10所示的色域分布中提取的超过预定阈值37和37’的色域。用户能自由改变该阈值。以下面的方式确定共同包括在第一图像31和第二图像32中的色域。

图13例示了第一图像31和第二图像32中共同超过阈值的色域。

图14例示了共同包括在第一图像31和第二图像32中的二维显示的色域。

第一图像31和第二图像32中共同的最频繁出现的颜色是地面的颜色(例如，棕色)。相应地，从图9和图10所示的色域分布中提取超过预定阈值的部分以确定两个图像的公共色域。如果公共色域不存在，则降低阈值以把更宽的色域分布区域作为目标。然后确定公共色域。除去区域检测单元24除去相应区域的色域。

图15例示了从第一图像31的图像处理得到的第一图像31’。

通过提取两幅图像(即，第一图像31和第二图像32)中最频繁出现的公共部分来获得图15所示的图像。该公共部分的提取被用作从多个图像提取背景的方法。

当确定主图像(第二图像32)后，确定最频繁出现的色域，其共同包含在子图像(第一图像31)中并且作为冗余公共部分被提取。第一图像中最频繁出现的色域是基本上占据半个屏幕的地面的颜色。类似地，第二图像32中最频繁出现的色域也是基本上占据半个屏幕的地面的颜色。相应地，通过从第一图像31中除去该最频繁出现的色域来产生第一图像31’。

取决于场景的种类，取消每个摄像机的运动以确定最频繁出现的色域。此时，最频繁出现的运动矢量值被用作多个图像的公共部分。当使用多个摄像机拍摄图像时，很难依赖于摇动(panning)或俯仰(tilting)摄像机的运动来确定图像的匹配。相应地，通过在匹配图像之前取消摄像机的运动量，执行用于增加匹配准确性的处理。该处理也被称作“摄像机运动的取消”。当确定了包括在图像中的颜色时，用于取消摄像机运动的处理可以被省略。另一方面，当通过检测最频繁出现的运动矢量而识别对象时，执行用于取消摄像机运动的处理。

图16A和16B例示了通过组合子图像(即第一图像31)和主图像(即第二图像32)而获得的组合图像33。

图16A例示了当公共色域被除去时获得的组合图像。

图16B例示了当公共色域没有被除去时获得的组合图像。

在这种情况下，经过处理的第一图像31(即第一图像31’)叠加在第二图像32上。在第一图像31上执行的图像处理类似于参照图15描述的图像处理。改变缩放比率后，叠加作为子图像的第一图像31’。通过用户操作来改变组合图像的缩放比率和形状。例如，在移动图像的情况下，每个人的移动变得清楚。相应地，用户可以观看叠加的自然图像。此外，在除去公共部分(此例子中是地面的色域)后，可以叠加多个图像。以这种方式，当观看图像时，用户较少频繁地移动其视线。

基于第一图像31中主题的位置和对象的改变来确定第二图像32的声像的定位位置。例如，当通过系在图16A所示裁判36上的别针式传声器来拍摄声音时，基于包括在全景图像34中的主题35来确定声像的定位位置，全景图像34是缩放比率被改变的第一图像31’。当第二图像32作为主图像显示时，全景图像34作为子图像显示。因此，声像被定位在主题35的位置(左侧)。

通过在第二图像32下部叠加第一图像31的一部分来获得组合图像33。第一图像31叠加的位置不限于下部并且可以是第二图像32的上部或中部。此外，类似于图16B所示的组合图像33，子图像可以被嵌入到主图像中。

图17A和17B例示了随时间改变的缩放图像的声像的定位位置。

图17A例示了在时间t的组合图像和声像。

图17B例示了在时间t+1的组合图像和声像。

如图17A和17B所示，声像被定位在包括在第一图像41中的主题46的位置。声像的定位位置在三维空间移动，即，上和下、左和右、以及前和后。通过在缩放图像42上叠加包括有主题46的全景图像41而获得的组合图像43被投射到屏幕。由于用户50能感觉到声像45的定位位置，所以当观看缩放图像42的主题46时，用户50能理解全景图像41的主题46的运动。

例如，参照图17A，将讨论包括在全景图像41中的主题46接近用户50的情况。在该情况中，根据图17B所示的主题46的运动来定位对应于主题46的声像的声像45。可根据主题46的轮廓尺寸的变化和运动矢量大小的变化来确定主题46的运动。相应地，用户50可感觉到主题46向其接近。

通过在各侧墙壁上提供的扬声器51和52来执行声像的定位。例如，如果从扬声器51和52输出延迟的声音，则用户50能感觉到声像的定位。作为改变声像位置的处理，可基于运动量的变化而不是简单地使用对象的运动量来确定声像的运动。这里，“运动量”表示从连续两帧之间的差确定的移动量。此外，“运动量的变化”表示通过对运动量微分而得到的值。例如，将要讨论的主题以特定速度移动的情况。当使用对象的运动量时，声像根据该运动量进行移动。另一方面，当使用运动量的变化时，声像不移动。在该情况中，由于对象的移动速度增加或移动方向变化时运动量变化增大，声像的位置发生移动。

图18A和18B例示了随时间而变化的全景图像的声像的定位位置。图18A和18B以及图17A和17B中共同示出的部件使用相同或类似的附图标记，因此省略其详细描述。

图18A例示了时间t的组合图像和声像。

图18B例示了时间t+1的组合图像和声像。

如果在拍摄全景图像的时候记录声音，则还执行根据缩放图像中的变化来改变音量的处理。

在该实施例中，全景图像41的声像的定位位置发生变化。例如，在用户50聚焦的主题46从左侧移动到右侧的场景中，从左扬声器输出的音量被调低而从右扬声器输出的音量被调高。相应地，用户50可感觉到声像的位置。

如上所述，根据该实施例的信息处理设备10可从多个摄像机拍摄的图像中选择主图像和子图像并且可自由地叠加和组合主图像和子图像。此时，用户可选择待组合的图像并且通过操作改变所选图像的缩放比率或剪辑。相应地，用户移动其视线以观看包含在多个图像中的主题变得更容易。此外，用户通过跟随声音的引导可有效地观看多个角度的图像。

用户视线不但通过图像而且通过声音效果来引导。相应地，即使在远程位置显示同一对象，用户也能轻易地移动其视线并且可轻易地识别该对象。当表现给用户的信息是图像时，该信息(图像)被表现在平面中，例如显示屏。然而，当表现给用户的信息是音频时，可通过在三维空间中定位声像来表现其声像的位置。在现有技术中，由于通过缩放图像和在空间中移动的声像来表现的声音和图像之间的关系信息很弱，所以难以同时识别声音和图像之间的关系。为了应付这个问题，通过表现全景图像时基于全景图像的音频来定位声像并且通过显示叠加于该全景图像上的缩放图像，用户可同时观看多个图像。使用这种配置，同时观看多个图像时，用户能理解在聚焦缩放图像所示的情况与包括在全景图像中的主题之间的关系，而当表现每个图像时所述关系无法被理解。

此外，当观看作为主图像而显示的缩放图像时，用户可听到基于作为子图像而显示的全景图像来定位其声像的声音。相应地，用户可轻易地理解包含在全景图像中的主题的位置关系。

当如现有技术那样布置多个屏幕来显示多个图像时，以小于原始尺寸的尺寸显示每个图像。然而，通过像在本发明中那样显示叠加图像，可以保持主图像的尺寸。相应地，即使显示多个图像，也不会降低主图像的效果。

即使在除去多个图像共有的冗余部分之后叠加多个图像，用户也能本能地理解每个图像的内容。由于重要的部分被布置在叠加图像的顶部图像上，用户能方便地观看其内容没有被严重隐藏的背景图像。

子图像仅叠加在用户(或者信息处理设备10)指定的主图像的一部分上。因此，与现有技术中观看两个经过排列的图像的情况相比，更便于同时比较以不同角度拍摄的多个图像。此外，通过图像组合单元25，响应于第一图像的时间变化而变化的图像可作为第二图像而叠加以与第一图像组合。例如，当通过缩放图像帧来处理待叠加图像时，用户可通过以单位时间偏移拍摄时间来叠加多个图像。在该情况中，用户可方便地清楚地理解同一主题的时间变化。

本发明不限于上述实施例。下面将参照图19-21描述其它实施例。图19-21与已经描述过的图17A和17B中相同的部件使用类似或相同的附图标记，因此省略其详细描述。

图19例示了在地板显示装置(安装在地板上的显示装置)53上表现的全景图像41。

在该实施例中，在两个屏幕上输出多个图像。此时，在墙壁显示装置上显示缩放图像42，而在地板显示装置53上显示全景图像41。当包括在全景图像41中的主题46向远处移动时，音频处理部件23在消除了高频音频成分之后定位声像。相应地，当主题46向远处移动时，声音变得不清楚。因此，用户能感觉到响应于全景图像41所示主题46的运动的声像45的移动。

图20例示了在可移动显示装置54上显示缩放图像42，所述可移动显示装置54能前后和环绕移动。

在该实施例中，在可移动显示装置54上显示缩放图像42。此时，根据全景图像41的运动来定位声像。在观看显示于可移动显示装置54上的主题46时，用户50能知道包括在全景图像41中的主题的位置。

图21例示了由三个或更多图像组合而得到的组合图像。

在该实施例中，缩放图像42a和42b叠加在包含在全景图像41中的相应主题上。分别根据包含在缩放图像42a和42b中的主题46a和46b来定位声像45a和45b。基于包含在全景图像41中的主题的位置关系来定位声像45a和45b。相应地，即使三个或更多图像被同时显示在一个屏幕，用户50也能轻易地理解图像之间的关系。待显示的图像数量不受限制。

图19-21所示的图像输出方法和音频输出方法可以组合。此时，可选择各种呈现方法。例如，可根据对象的位置来叠加图像、可使用PinP功能来显示组合图像或者可在另一显示装置上显示图像。

可通过硬件或软件执行根据上述实施例的一系列处理步骤。当通过软件执行这一系列步骤时，在执行程序前，构成该软件的程序可安装在嵌入于专用硬件中的计算机，或例如通过安装各种程序能执行各种功能的通用目的个人计算机。

向一个系统或一个设备提供存储用于实现上述实施例功能的软件的程序代码的记录介质。系统或设备的计算机(或诸如CPU的控制器)读出并执行存储在记录介质上的程序代码。以这种方式，还可实现上述实施例的功能。

作为在这种情况下提供程序代码的记录介质，可使用例如，软盘、硬盘、诸如CD-ROM和CD-R的光盘、磁光盘、磁带、非易失性存储卡和ROM。

除了通过计算机执行读出的程序代码来实现上述实施例的功能之外，本发明中还包括了在计算机上运行的操作系统(OS)基于程序代码指令执行部分或全部实际处理并且通过处理实现上述实施例的功能的情况。

本说明书中，构成软件的程序中描述的步骤包括以所描述的次序来执行的处理过程，并且还包括以并行或单独(不必顺序地)地执行的处理过程。

本发明不限于上述实施例，在不脱离本发明精神的情况下可采用各种其它配置。

本发明包含涉及2008年4月3日向日本专利局提交的日本优先权专利申请JP2008-097510所公开的主题内容，其全部内容通过引用而包含于此。

本领域普通技术人员应当理解，只要在所附权利要求及其等价的范围内，依赖于设计需求和其它因素，可以进行各种修改、组合、子组合和替换。

Claims

1.一种信息处理设备，包括：

特征值检测部件，被配置为当在不同位置拍摄的第一图像和第二图像包括一个特定主题时，确定被包括在所提供的第一图像和第二图像中的所述主题的特征值；

图像处理部件，被配置为基于所述特征值检测部件所确定的特征值来检测所述主题的运动；

音频处理部件，被配置为根据所述图像处理部件检测的所述主题的运动来定位所述主题的声像；

其中所述图像处理部件包括：

除去区域检测单元，被配置为使用所述特征值检测部件确定的第一图像和第二图像的色域作为所述特征值，基于所述特征值来识别公共色域，以及从所述第二图像中除去相应于所述公共色域的区域；和

图像组合单元，被配置为把所述除去区域检测单元除去了相应于所述公共色域的区域的所述第二图像叠加到所述第一图像上以组合所述第一图像和第二图像。

2.根据权利要求1的设备，其中所述特征值检测部件提取具有超过预定阈值的值的色域作为所述第一和第二图像的特征区域，以及所述色域具有的所述值是通过对每个图像的每个色域累加在针对构成所述第一图像和第二图像的每个像素检测的预定颜色坐标系中所述色域的出现频率来获得，以及

其中所述除去区域检测单元从所述第二图像中除去与所述第一图像的特征区域和所述第二图像的特征区域所共有的色域对应的区域。

3.根据权利要求2的设备，其中所述第一图像是所述主题的全景图像，以及

其中所述第二图像是包含在所述第一图像中的所述主题的缩放图像。

4.根据权利要求3的设备，其中当包含在所述第一图像中的所述主题向远处移动时，所述音频处理部件在消除高频音频成分之后定位所述声像。

5.根据权利要求3的设备，进一步包括：

操作部件，被配置为调整包含在所述第一图像中的由所述音频处理部件定位的所述主题的声像的音量。

6.根据权利要求1的设备，其中所述图像处理部件把经过处理的图像输出到显示图像的输出装置。

7.根据权利要求1的设备，所述图像组合单元把响应于所述第一图像的时间变化而变化的第二图像叠加到所述第一图像。

8.一种图像处理方法，包括步骤：

当在不同位置拍摄的第一图像和第二图像包括一个特定主题时，确定包含在所提供的第一图像和第二图像中的所述主题的特征值；

基于所述特征值检测所述主题的运动，其中包括：

使用所述确定的第一图像和第二图像的色域作为所述特征值，基于所述特征值来识别公共色域，以及从所述第二图像中除去相应于所述公共色域的区域；和

把所述除去了相应于所述公共色域的区域的所述第二图像叠加到所述第一图像上以组合所述第一图像和第二图像；以及

根据检测的所述主题的运动来定位所述主题的声像。