CN104205012A

CN104205012A - 信息处理设备、信息处理方法和程序

Info

Publication number: CN104205012A
Application number: CN201380015411.1A
Authority: CN
Inventors: 笠原俊一
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-03-26
Filing date: 2013-02-08
Publication date: 2014-12-10
Also published as: JP2016129050A; EP2833249A4; US9984468B2; JP5892236B2; US20150070390A1; EP2833249B1; JPWO2013145883A1; EP2833249A1; JP6135783B2; WO2013145883A1

Abstract

[问题]为了降低关于识别在图像中显示的另一设备的图像的处理的负荷。[解决方案]提供了一种信息处理设备，其包括：用于获取与捕获图像相对应的捕获图像信息的捕获图像信息获取单元；用于获取与显示屏幕上显示的第一图像相对应的显示图像信息的显示图像信息获取单元；以及使用显示图像信息和捕获图像信息以检测捕获图像中的第一图像的位置和定向的对象识别单元。

Description

信息处理设备、信息处理方法和程序

技术领域

本公开涉及一种信息处理设备、信息处理方法和程序。

背景技术

近年来，图像识别技术的发展使得能够例如使用包含在获取了真实空间的图像的图像中的各种对象的位置和姿势来识别该对象。对象识别技术已经用于例如被称为增强现实(AR)的技术，增强现实(AR)包括将附加信息叠加在真实空间的图像上，并且然后将结果图像呈现给用户等。作为AR技术的示例，专利文献1描述了如下技术：该技术包括将模仿诸如家具的真实对象的虚拟对象的图像叠加在真实空间的图像上，并且然后呈现结果图像以从而便于试验家具的布置等。

引用列表

专利文献

专利文献1：JP 2003-256876A

发明内容

技术问题

当利用上述AR技术时，可以对包含在捕获了真实空间的图像的图像中的另外的设备的图像进行操作。然而，例如使用终端设备执行识别包含在图像中的另外的设备的图像的处理的负荷高。仍然难以说提出了充分降低负荷的技术。

从而，本公开提出了允许降低识别图像中显示的另外的设备的图像的处理的负荷的新颖且改进的信息处理设备、信息处理方法和程序。

问题的解决方案

根据本公开，提供了一种信息处理设备，包括：捕获图像信息获取部分，其获取与捕获图像相对应的捕获图像信息；显示图像信息获取部分，其获取与显示在显示屏幕上的第一图像相对应的显示图像信息；以及对象识别部分，其使用显示图像信息和捕获图像信息来检测第一图像在捕获图像中的位置和姿势。

根据本公开，提供了一种信息处理方法，包括：获取与捕获图像相对应的捕获图像信息；获取与显示在显示屏幕上的第一图像相对应的显示图像信息；以及使用显示图像信息和捕获图像信息来检测第一图像在捕获图像中的位置和姿势。

根据本公开，提供了一种用于使计算机实现以下功能的程序：获取与捕获图像相对应的捕获图像信息的功能；获取与显示在显示屏幕上的第一图像相对应的显示图像信息的功能；以及使用显示图像信息和捕获图像信息来检测第一图像在捕获图像中的位置和姿势的功能。

根据上述配置，使用与第一图像对应的信息来检测捕获图像中的、在显示屏幕上显示的第一图像的位置和姿势。更具体地，可以在预先获取与第一图像相对应的信息之后执行包含第一图像的捕获图像的对象识别。因此，可以降低对象处理的处理负荷。

本发明的有益效果

如上所述，根据本公开，可以降低识别在图像中显示的另外的设备的图像的处理的负荷。

附图说明

图1是用于解释本公开第一实施例的概要的图；

图2是用于解释本公开第一实施例的设备配置的图；

图3是示出根据本公开第一实施例的系统的功能配置的示意性框图。

图4是示出本公开第一实施例中的处理的数据流程图。

图5是用于解释本公开第一实施例中的图像信息获取的定时的图。

图6A是用于解释本公开第二实施例的设备配置的图。

图6B是用于解释本公开第二实施例的设备配置的图。

图7是示出根据本公开第二实施例的系统的功能配置的示意性框图。

图8是示出本公开第二实施例中的处理的数据流程图。

图9A是用于解释本公开第三实施例的设备配置的图。

图9B是用于解释本公开第三实施例的设备配置的图。

图9C是用于解释本公开第三实施例的设备配置的图。

图10是示出根据本公开第三实施例的系统的功能配置的示意性框图。

图11是示出本公开第三实施例中的处理的数据流程图。

图12是用于解释信息处理设备的硬件配置的框图。

具体实施方式

下文中，将参照附图详细地描述本发明的优选实施例。请注意：在本说明书和附图中，使用相同的附图标记来表示具有基本上相同功能和结构的元件，并且省略重复说明。

将以如下顺序给出描述。

1.第一实施例

1-1.概要

1-2.设备配置

1-3.处理流程

1-4.图像信息获取定时

2.第二实施例

2-1.设备配置

2-2.处理流程

3.第三实施例

3-1设备配置

3-2处理流程

4.补充

(1.第一实施例)

(1-1.概要)

首先，参照图1来描述本公开的第一实施例的概要。该概要类似地还适用于本公开的其它实施例。

图1是用于解释该实施例的概要的图。当参照图1时，该实施例涉及终端设备100和显示设备200。终端设备100获取包含显示设备200的真实空间的捕获图像，并且然后基于该捕获图像将图像151显示在显示部分150上。终端设备100具有识别包含在捕获图像中的对象的功能并且可以在如在后面描述的显示图像151时利用该捕获图像的对象识别结果。

另一方面，显示设备200具有显示屏幕250，图像251被显示在显示屏幕250上。由于显示设备200包含在由终端设备100获取的捕获图像中，所以显示在显示屏幕250上的图像251也包含在该捕获图像中。终端设备100从捕获图像中识别图像251，然后将与图像251对应的虚拟图像153显示在图像151中。虚拟图像153可以是对包含在捕获图像中的图像251进行原样绘制的图像，或者是利用捕获图像的对象识别结果重新绘制的图像。

在本文中，终端设备100主要是例如由用户持有并操作的设备，诸如蜂窝式电话(智能手机)、平板个人计算机(PC)或者便携式游戏机或媒体播放器。显示设备200主要是例如固定设备，诸如电视机、桌上型PC或笔记本式PC或者PC监视器。然而，本公开的实施例不限于这些示例。作为另一个示例，终端设备100和显示设备200二者均可以是智能手机。

如上所述，终端设备100具有识别包含在捕获图像中的对象的功能。在图中所示的示例中，终端设备100识别包含在捕获图像中的图像251。因此，例如终端设备100可以获取对图像151中的虚拟图像153进行的操作，并且然后可以以与在对真实图像251执行相同操作的情况下的相同方式来改变虚拟图像153。

例如，终端设备100可以通过将显示部分150上的坐标转换为显示屏幕250上的坐标，来将与图像251的GUI(图形用户界面)部件(按钮、链接、滚动条等)的功能相同的功能分配给包含在虚拟图像153中的GUI部件。在这种情况下，当用户通过设置在显示部分150上的接触面板来执行对包含在虚拟图像153中的GUI部件的按压、轻敲、拖动、滑动等操作时，虚拟图像153以与在对图像251的GUI部件执行相同操作的情况下的相同方式而改变。

然而，检测包含在捕获图像中的图像251的位置和姿势的处理是具有相对高的负荷的处理。由于图像251根据例如显示设备200的操作状态、内容的再现状态等来改变，所以不容易通过预先准备的静态数据识别图像251。因此，有时需要使用例如网络上的大量数据来搜索图像251。从例如终端设备100的性能的观点来看，不期望通过执行这种处理而产生的负荷。然后，本公开的实施例提出了降低从终端设备100的捕获图像中识别图像251的处理的负荷的技术。

(1-2.设备配置)

接着，参照图2和图3来描述本公开的第一实施例的设备配置。图2是用于解释该实施例的设备配置的图。图3是示出根据该实施例的系统的功能配置的示意性框图。为简单起见，在图3中，通过单个显示设备200来表示图2中例示的多个显示设备200a至200c。

当参照图2时，该实施例的设备配置包括终端设备100、显示设备200a至200c以及服务器设备300(信息处理设备的一个示例)。显示设备200的数目可以不为如在图中例示的示例中的3而可以为1、2或4或者更多。如以上参照图1所述的，即使当显示设备200的数目为1时，识别包含在捕获图像中的图像251的处理的负荷相对高。如在图中例示的示例中，当存在多个显示设备200时，识别图像251的处理的负荷可能更高。

服务器设备300可能不总是通过单个设备来实现。例如，可以通过网络协同多个设备的资源来实现服务器设备的功能。

在图中所示的示例中，终端设备100向服务器设备300发送与捕获图像对应的捕获图像信息155。在本文中，捕获图像信息155可以是捕获图像本身的图像数据，但不限于此。捕获图像信息155可以为适用于后面描述的服务器设备300中的对象识别处理的信息，并且例如可以是压缩图像数据、用于对象识别的特征点的数据阵列等。

另一方面，显示设备200a至200c分别向服务器设备300发送与在显示设备200a至200c的显示屏幕250上显示的图像251对应的显示图像信息253a至253c。在本文中，显示图像信息253a至253c可以是图像251的图像数据本身，但不限于此。显示图像信息253a至253c可以为适用于随后描述的服务器设备300中的对象识别处理的信息，并且例如可以是压缩图像数据、用于对象识别的特征点的数据阵列等。

显示图像信息253a至253c可能不总是与捕获图像信息155相同种类的信息。例如，捕获图像信息155可以是捕获图像的图像数据本身，而显示图像信息253a至253c可以是特征点的数据阵列。显示设备200a至200c可能不总是发送相同种类的显示图像信息253a至253c。例如，显示图像信息253a可以是图像251a的图像数据本身，而显示图像信息253b和253c可以是特征点的数据阵列。在这种情况下，服务器设备300可以将显示图像信息253a转换为与显示图像信息253b和253c的特征点的数据阵列相同的特征点的数据阵列以使用。

服务器设备300使用从终端设备100获取的捕获图像信息155和从显示设备200a至200c获取的显示图像信息253a至253c来执行对象识别处理。通过该处理来判断在显示设备200a至200c的任何一个显示设备上显示的图像251是否被包含在终端设备100的捕获图像中。当图像251被包含在捕获图像中时，位置和姿势也被检测。服务器设备300向终端设备100发送包括示出检测到的图像251的位置和姿势的信息的识别结果信息157。终端设备100使用识别结果信息157来将虚拟图像153显示在图像151中。

(终端设备的功能配置)

参照图3来进一步描述终端设备100的配置。终端设备100包括图像拍摄部分110、显示控制部分120以及显示部分150。

图像拍摄部分110可以通过例如内置或连接终端设备100的图像拍摄设备来实现，并且图像拍摄部分110获取捕获图像。图像拍摄部分110可以输出捕获图像作为动态图像或可以输出捕获图像作为静止图像。如上所述，要在显示设备200的显示屏幕250上显示的图像251被包含在捕获图像中。图像拍摄部分110将生成的捕获图像提供至显示控制部分120，并且还将与该捕获图像相对应的捕获图像信息155发送至服务器设备300。

尽管未示出，终端设备100还可以包括用于根据捕获图像的图像数据生成捕获图像信息155的处理电路、用于发送捕获图像信息155的通信设备等。

显示控制部分120例如通过终端设备100的中央处理单元(CPU)、随机存取存储器(RAM)以及只读存储器(ROM)根据存储在存储设备或者可移动存储介质中的程序进行的操作来实现。显示控制部分120基于从图像拍摄部分110提供的捕获图像的图像数据将图像151显示在显示部分150上。如上所述，从捕获图像中识别的与图像251对应的虚拟图像153被包含在图像151中。显示控制部分120通过通信设备(未示出)接收来自服务器设备300的识别结果信息157。关于图像251的位置和姿势的信息可以包含在识别结果信息157中。此外，关于图像251的内容的信息可以包含在识别结果信息157中。显示控制部分120可以利用识别结果信息157来显示虚拟图像153。

显示部分150通过例如终端设备100具有的作为输出设备的或者连接至终端设备100作为外部连接设备的液晶显示器(LCD)、有机电致发光显示器等来实现。显示部分150不总是限于平面显示器，而是例如可以是头戴式显示器(HMD)。显示部分150根据显示控制部分120的控制来显示图像151。

(显示设备的功能配置)

然后，参照图3来进一步描述显示设备200的配置。显示设备200包含显示控制部分210和显示屏幕250。

例如通过显示设备200的CPU、RAM以及ROM根据程序进行的操作来实现显示控制部分210。显示控制部分210对存储在显示设备200的存储设备中的图像或者使用通信设备(未示出)通过显示设备200接收的图像进行显示作为显示屏幕250上的图像251。显示控制部分210向服务器设备300发送与图像251对应的显示图像信息253。

尽管未示出，显示设备200还可以包括用于根据显示的图像的图像数据生成显示图像信息253的处理电路、用于发送显示图像信息253的通信设备等。

例如由终端设备200具有的作为输出设备的显示器(诸如LCD或有机EL显示器)来实现显示屏幕250。显示屏幕250根据显示控制部分210的控制来显示图像251。

(服务器设备的功能配置)

然后，参照图3来进一步描述服务器设备300的配置。服务器设备300包括捕获图像信息获取部分310、显示图像信息获取部分320以及对象识别部分330。这些部分均是例如通过服务器设备300的CPU、RAM以及ROM根据程序进行的操作来实现。

捕获图像信息获取部分310通过通信设备(未示出)来获取从终端设备100发送的捕获图像信息155。如上所述，捕获图像信息155与通过终端设备100获取的捕获图像对应。捕获图像信息155可以为例如捕获图像的图像数据本身、压缩图像数据、用于对象识别的特征点的数据阵列等。捕获图像信息获取部分310向对象识别部分330提供获取的捕获图像信息155。

显示图像信息获取部分320通过通信设备(未示出)来获取从显示设备200发送的显示图像信息253。如上所述，显示图像信息253与由显示设备200显示的图像251对应。显示图像信息253可以为例如捕获图像的图像数据本身、压缩图像数据、用于对象识别的特征点的数据阵列等。显示图像信息获取部分320向对象识别部分330提供获取的显示图像信息253。

对象识别部分330使用从捕获图像信息获取部分310提供的捕获图像信息155来识别包含在捕获图像中的对象。例如，对象识别部分330将从捕获图像中提取的一组特征点与通过模型数据定义的对象的形状进行比较。对象识别部分330可以将图像数据(诸如通过模型数据定义的符号标记或文本标签)与捕获图像进行比较。此外，对象识别部分330可以将通过模型数据定义的已知对象图像的特征的量与从捕获图像中提取的特征的量进行比较。

模型数据包括定义每个对象的形状的数据、图像数据(诸如附接至每个对象的预定符号标记或文本标签)、从已知图像中提取的关于每个对象的特征量集合的数据等。例如从存储在存储设备中的模型DB中获取模型数据。或者，可以通过通信设备(未示出)从网络中获取模型数据。

如上所述，对象识别部分330识别包含在捕获图像中的图像251。例如可以通过搜索图像251的内容来执行图像251的识别。例如，当图像251为显示在浏览器上的万维网网页时，对象识别部分330获取示出万维网网页运行状态的统一资源标识符(URI)和万维网网页的统一资源定位符(URL)。当假设从显示设备200中未提供信息时，对象识别部分330需要仅基于捕获图像的内容来识别上述信息。在这种情况下，识别处理负荷变得繁重并且识别准确度也降低。

因此，在该实施例中，对象识别部分330使用从显示图像信息获取部分320提供的显示图像信息253来获取关于上述图像251的内容的信息。关于显示图像信息253，对象识别部分330可以通过使用显示图像信息253来容易地获取关于图像251的内容的信息，该显示图像信息253为从显示图像251的显示设备200本身提供的信息。因此，对象识别部分330可以以较低的处理负荷和较高的准确度来识别图像251。

对象识别部分330通过通信设备(未示出)向终端设备100发送上述对象识别结果作为识别结果信息157。识别结果信息157包括例如示出出现(包含)在捕获图像中的对象以及出现在捕获图像中的对象的位置和姿势的信息。因此，当图像251出现在捕获图像中时，识别结果信息157包括示出图像251的位置和姿势的信息。识别结果信息157还可以进一步包含关于图像251的内容的信息。

(对象识别处理)

在此，进一步描述在该实施例中的对象识别处理。通过对象识别部分330执行的对象识别处理包括例如以下两种处理。第一处理为判断哪个对象出现(包含)在捕获图像中的处理。第二处理为检测包含在捕获图像中的对象的出现方式(在捕获图像中的对象的位置和姿势(倾斜、旋转等))的处理。

当捕获图像为动态图像时，通过对象识别部分330执行的对象识别处理包括例如以下两种处理。第一处理为搜索处理。例如在还未获取到关于出现在捕获图像中的对象的信息时，来执行搜索处理。在这种情况下，任何对象具有出现在捕获图像中的可能性。在对象出现在捕获图像中时，存在该对象出现在捕获图像中的任何位置处的可能性。此外，存在该对象以任何姿势出现的可能性。

另一方面，第二处理为跟踪处理。例如在已经获取了关于在捕获图像的帧之前的帧中出现的对象的信息时，来执行跟踪处理。在这种情况下，出现在在前帧中的对象具有出现在当前帧中的高的可能性。因此，这些对象可以优先进行识别处理。此外，对象出现在当前帧中、在该对象出现在在前帧中的位置附近的位置的可能性高。因此，关于这些对象，待执行识别处理的区域可以在一定程度上变窄。因此，可以以与搜索处理的负荷相比较低的处理负荷来执行跟踪处理。

根据上述定义，在本说明书中进行了如下定义：例如当执行“检测对象的位置和姿势”的处理时，当然还执行“判断是否包含对象”的处理；并且然后在判断包含对象时，检测位置和姿势。在以下描述中，可以在描述对象识别处理时区分“搜索”和“跟踪”。在“搜索”的处理中，预定对象出现在捕获图像中的判断还表示如下：对象被“找到”。

(1-3.处理流程)

接着，参照图4来描述本公开的第一实施例的处理流程。图4为示出该实施例中的处理的数据流程图。在图4中，为简单起见，将在图2中所示的多个显示设备200a至200c中的两个设备示出为显示设备200a和200b。

当参照图4时，首先，在步骤S101中终端设备100向服务器设备300发送捕获图像信息155。显示设备200a和200b分别向服务器300发送显示图像信息253a和253b。

接着，在步骤S103中，对象识别部分330使用服务器设备300中的捕获图像信息155以及显示图像信息253a和253b来分别搜索在显示设备200a和200b上显示的图像251(在下文中被称为图像A和图像B)。在图中所示的示例中，在步骤S103中找到图像A。然后，服务器设备300向终端设备100发送示出捕获图像中的图像A的位置和姿势的识别结果信息157。终端设备100使用接收到的识别结果信息157将与图像A对应的虚拟图像153显示在图像151中。

接着，在步骤S105中，终端设备100向服务器设备300发送捕获图像信息155。如上所述，捕获图像在该实施例中为动态图像。在步骤S105中发送的捕获图像信息155与如下帧对应，该帧位于与步骤S101中发送的捕获图像信息155对应的帧之后。捕获图像信息155未必总被发送至捕获图像的所有帧。因此，在步骤S105中发送的捕获图像信息155可以与例如如下帧对应，该帧跟在与在步骤S101中发送的捕获图像信息155对应的帧的若干帧之后。

另一方面，类似地在步骤S105中，显示设备200b向服务器设备300发送显示图像信息253b。在该过程中，显示设备200a未必发送显示图像信息253a。这是因为在以上步骤S103中找到了图像A，并且在以下步骤中，可以使用在该过程中获得的检测结果来执行对包含在捕获图像中的图像A的跟踪。

接着，在步骤S107中，对象识别部分330执行对已经找到的图像A的跟踪并且还使用服务器设备300中的捕获图像信息155和显示图像信息253b来搜索图像B。在图中所示的示例中，在步骤S107中还未找到显示屏幕B。因此，服务器设备300向终端设备100发送示出通过跟踪而检测到的图像A的位置和姿势的识别结果信息157。终端设备100还可以使用接收到的识别结果信息157来更新与图像A对应的虚拟图像153。

接着，在步骤S109中，终端设备100向服务器设备300发送捕获图像信息155。与以上步骤S105中所述的类似，在步骤S109中发送的捕获图像信息155与进一步远离步骤105中的帧的帧对应。

另一方面，类似地在步骤109中，显示设备200a和200b分别向服务器设备300发送显示图像信息253a和253b。在此，待在显示屏幕250上显示的图像251(图像A)在显示设备200a中在步骤S105与步骤S109之间改变。然后，在步骤S109中，显示设备200a还向服务器设备300发送显示图像信息253a。这是因为当图像A改变时，在对象识别部分330中跟踪图像A失败的可能性高。

接着，在步骤S111中，对象识别部分330使用服务器设备300中的捕获图像信息155以及显示图像信息253a和253b来搜索图像A和图像B。可以在通过对象识别部分330跟踪图像A实际上已经失败之后来执行图像A的搜索。在图中所示的示例中，在步骤111中找到了图像A和图像B二者。然后，服务器设备300向终端设备100发送示出捕获图像中的图像A和图像B的位置和姿势的识别结果信息157。终端设备100使用接收到的识别结果信息157将与图像A和图像B对应的两个虚拟图像153显示在图像151中。

(1-4.图像信息获取定时)

接着，参照图5来描述该实施例中的图像信息获取的定时。图5是用于解释该实施例中的图像信息获取的定时的图。

在图5中，将用于六帧(其并不总是构成动态图像的连续帧)的捕获图像信息155以及用于使用捕获图像信息155来识别显示屏幕250的显示图像信息253-1至253-3以相应的方式示出在时间轴上。

在图中所示的示例中，以几乎固定的间隔周期性地获取捕获图像信息155。另一方面，在与捕获图像信息155的获取定时不同的定时获取显示图像信息253-1至253-3。例如，可以在图像251按照例如图4的示例所示而改变时，来获取显示图像信息253-1至253-3。

在本文中，期望以比捕获图像信息155的间隔长的间隔来获取显示图像信息253。通常针对每个捕获图像信息155来执行对象识别。因此，即使在以比捕获图像信息155的频率高的频率获取显示图像信息253时，存在显示图像信息253因而可能变得无用的可能性。

在图中所示的示例中，关于用于六帧的捕获图像信息155，显示图像信息253-1用于第一帧，显示图像信息253-2用于接下来的三帧，然后显示图像信息253-3用于接下来的两帧。因此，在获取到捕获图像信息155但未获取到显示图像信息253的情况下，对象识别部分330可以连续地使用之前所获取的显示图像信息253。

如上所述，当捕获图像信息获取部分310和显示图像信息获取部分320均按照时间顺序获取信息时，例如基于包含在捕获图像信息155和显示图像信息253中的至少一个中的同步信息来确定彼此待匹配的显示图像信息253和捕获图像信息155。该同步信息包括例如关于生成每个信息的时间的信息。

在上述示例中，例如当由于在终端设备100与显示设备200之间几乎不发生时滞的原因而获取到精确的同步信息时，对象识别部分330可以原样使用该同步信息来将显示图像信息253与捕获图像信息155进行同步。

或者，对象识别部分330可以根据捕获图像信息155与显示图像信息253之间的延迟来选择待与捕获图像信息155一起使用的显示图像信息253。该延迟可能由于例如每个设备之间的时滞、由于每个设备之间的通信的延迟、每个设备的处理延迟等而发生。

例如，对象识别部分330可以通过将由显示图像信息253指示的图像251的改变的定时与从捕获图像识别的图像251的内容改变的定时进行比较来检测延迟。当检测到延迟时，对象识别部分330可以例如通过对捕获图像信息155的同步信息或者显示图像信息253的同步信息中的任一个施加偏移来针对捕获图像信息155使用合适的显示图像信息253。

(实施例的结论)

在上述本公开的第一实施例中，从显示图像的显示设备本身提供关于可以包含在终端设备的捕获图像中的图像的信息。通过服务器设备来执行包含在捕获图像中的显示图像的识别处理，并且然后将结果发送至终端设备。从而，例如可以利用对包含在捕获图像中的另外的设备的显示图像进行识别的结果，并且将终端设备中的负荷抑制至最小。

(2.第二实施例)

(2-1.设备配置)

接着，参照图6A、图6B和图7来描述本公开的第二实施例的设备配置。图6A和图6B是用于解释该实施例的设备配置的图。图7是示出根据该实施例的系统的功能配置的示意性框图。为简单起见，通过图7中的单个显示设备400来表示图6A和图6B中例示的多个显示设备400a至400c。

当参照图6A时，该实施例涉及终端设备100和显示设备400a至400c(信息处理设备的一个示例)。显示设备400的数目可以不为如图中所示的示例中的3而可以为1、2或4或者更多。

在图中所示的示例中，终端设备100向显示设备400a至400c中的每个显示设备发送与捕获图像对应的捕获图像信息155。捕获图像信息155的内容与在第一实施例的情况下的内容相同。

另一方面，显示设备400a至400c分别内部地(internally)获取与在显示屏幕250上显示的图像251a至251c对应的显示图像信息253a至253c。更具体地，显示设备400a内部地获取显示图像信息253a，显示设备400b内部地获取显示图像信息253b，显示设备400c内部地获取显示图像信息253c。在此，显示图像信息253的内容与在第一实施例的情况下的内容相同。

显示设备400a至400c分别使用从终端设备100获取的捕获图像信息155和由显示设备400a至400c内部地获取的显示图像信息253a至253c来执行对象识别处理。通过该处理判断图像251a至251c中的任何一个图像是否包含在终端设备100的捕获图像中。在图像251a至251c中的任何一个图像包含在捕获图像中时，还检测其位置和姿势。

在图中所示的示例中，显示设备400a检测包含在捕获图像中的图像251a，并且然后向终端设备100发送包括示出图像251a的位置和姿势的信息的识别结果信息157a。显示设备400c检测包含在捕获图像中的图像251c，并且然后向终端设备100发送包括示出图像251c的位置和姿势的信息的识别结果信息157c。终端设备100使用识别结果信息157a和157c将与图像251a和图像251c对应的两个虚拟图像153显示在图像151中。

图6B例示显示设备400a丢失了(未识别到)在图6A的状态中包含在捕获图像中的图像251a的状态。在该过程中，显示设备400a搜索并检测包含在捕获图像中的图像251a，并且然后对图像251a连续执行跟踪。当跟踪失败时，显示设备400a向终端设备100通知该失败。然后，显示设备400a改变对图像251a的处理以根据跟踪进行搜索。响应于该通知，终端设备100可以终止与图像251a对应的虚拟图像153在图像151中的显示。

另一方面，显示设备400c在图6B的状态中连续成功跟踪包含在捕获图像中的图像251c。因此，显示设备400c连续向终端设备100发送根据跟踪结果而更新的识别结果信息157c。终端设备100可以使用接收到的识别结果信息157c来更新与图像521c对应的虚拟图像153在图像151中的显示。

(功能配置)

当参照图7时，终端设备100包括图像拍摄部分110、显示控制部分120以及显示部分150。显示设备400包括显示控制部分210、显示屏幕250、捕获图像信息获取部分310、显示图像信息获取部分320以及对象识别部分430。

上述每个部分为与参照图3描述的第一实施例中描述的部件相同的部件。更具体地，可以说该实施例的功能配置为通过显示设备400替代性地实现由第一实施例中的服务器设备300实现的功能的配置。

然而，包含在本实施例的显示设备400中的对象识别部分430与第一实施例中的服务器设备300的对象识别部分330不同在于：对于主要由显示设备400本身显示的图像251(在显示设备400a中的图像251a，在显示设备400b中的图像251b，在显示设备400c中的图像251c)执行对象识别处理。

(2-2.处理流程)

接着，参照图8来描述本公开的第二实施例的处理流程。图8是示出该实施例的处理的数据流程图。

当参照图8时，在步骤S201中终端设备100首先向显示设备400a至400c中的每个显示设备发送捕获图像信息155。

接着，在步骤S203中，对象识别部分430使用捕获图像信息155和在显示设备400a中内部地获取的显示图像信息253a来搜索图像251a(在下文中被称为图像A)。在图中所示的示例中，在步骤S203中找到了图像A。显示设备400a向终端设备100发送示出捕获图像中的图像A的位置和姿势的识别结果信息157a。终端设备100使用接收到的识别结果信息157a将与图像A对应的虚拟图像153显示在图像151中。

类似地在步骤S203中，对象识别部分430使用捕获图像信息155和在显示设备400b中内部地获取的显示图像信息253b来搜索图像251b(在下文中被称为图像B)。在图中例示的示例中未找到图像B。

另一方面，对象识别部分430使用捕获图像信息155和在显示设备400c中内部地获取的显示图像信息253c来搜索图像251c(在下文中被称为图像C)。在图中例示的示例的步骤S203中找到了图像C。然后，显示设备400c向终端设备100发送示出图像C的位置和姿势的识别结果信息157c。终端设备100使用接收到的识别结果信息157c将与图像C对应的虚拟图像153显示在图像151中。

接着，在步骤S205中，终端设备100向显示设备400a至400b中的每个显示设备发送捕获图像信息155。由于捕获图像在该实施例中为动态图像，所以在步骤S205中发送的捕获图像信息155与这样的帧对应：该帧位于与步骤S201中发送的捕获图像信息155对应的帧之后。

接着，在步骤S207中，对象识别部分430在显示设备400a中对已经找到的图像A执行跟踪。在图中例示的示例中，成功地执行图像A的跟踪。然后，显示设备400a向终端设备100发送示出根据跟踪结果而更新的图像A的位置和姿势的识别结果信息157a。终端设备100使用接收到的识别结果信息157a来更新包含在图像151中的虚拟图像153的显示。

类似地在步骤S207中，显示设备400b以与步骤S203中相同的方式搜索图像B，但是未找到图像B。另一方面，显示设备400c以与显示设备400a中相同的方式执行图像C的跟踪，并且然后向终端设备100发送识别结果信息157c。终端设备100使用接收到的识别结果信息157c来更新包含在图像151中的虚拟图像153的显示。

接着，在步骤S209中，终端设备100向显示设备400a至400c中的每个显示设备发送捕获图像信息155。类似地如以上步骤S205所述，在步骤S209中发送的捕获图像信息155与进一步远离步骤S205中的帧的帧对应。

接着，在步骤S211中，对象识别部分430在显示设备400a中对图像A连续执行跟踪。在图中所示的示例中，在步骤S211中图像A的跟踪失败，即，显示设备400a已经丢失了图像A。然后，显示设备400a向终端设备100发送图像A已经丢失的通知。接收通知的终端设备100终止与图像A对应的虚拟图像153在图像151中的显示。另一方面，显示设备400a使用在步骤S209中接收的捕获图像信息155和内部地获取的显示图像信息253a来再次搜索图像A。

类似地在步骤S211中，显示设备400b以与步骤S203中相同的方式搜索图像B，但是未找到图像B。另一方面，显示设备400c以与以上步骤S207中相同的方式对图像C执行跟踪，并且然后向终端设备100发送识别结果信息157c。终端设备100使用接收到的识别结果信息157c来更新包含在图像151中的虚拟图像153的显示。

(实施例的结论)

在上述本公开的第二实施例中，通过显示图像的显示设备本身来执行包含在捕获图像中的图像的搜索处理和跟踪处理，并且然后将结果发送至终端设备。从而，例如，可以高效地利用显示设备的计算资源，由此可以抑制终端设备中的处理负荷。此外，例如由于显示图像信息未必在设备之间进行发送的事实，所以可以节约通信资源。

(3.第三实施例)

(3-1.设备配置)

接着，参照图9A至图9C以及图10来描述本公开的第三实施例的设备配置。图9A至图9C是用于解释该实施例的设备配置的图。图10是示出根据该实施例的系统的功能配置的示意性框图。在图10中，为简单起见，通过单个设备600来表示在图9A至图9C中例示的多个显示设备600a至600c。

当参照图9A时，该实施例涉及终端设备500和显示设备600a至600c(信息处理设备的一个示例)。显示设备600的数目可以不为如图中所示的示例中的3而可以为1、2或4或者更多。

在图中例示的示例中，终端设备500向显示设备600a至600c中的每个显示设备发送与捕获图像对应的捕获图像信息155。捕获图像信息155的内容与在第一实施例的情况下的内容相同。

另一方面，显示设备600a至600c分别内部地获取与在显示屏幕250上显示的图像251a至251c对应的显示图像信息253a至253c。更具体地，显示设备600a内部地获取显示图像信息253a，显示设备600b内部地获取显示图像信息253b，显示设备600c内部地获取显示图像信息253c。在此，显示图像信息253的内容与在第一实施例的情况下的内容相同。

此外，显示设备600a至600c分别使用从终端设备500获取的捕获图像信息155和通过显示设备600a至600c内部地获取的显示图像信息253a至253c来执行对象识别处理。通过该处理来判断图像251a至251c中的任何一个图像是否包含在终端设备100的捕获图像中。当图像251a至251c中的任何一个图像包含在捕获图像中时，还检测位置和姿势。

在图中所示的示例中，显示设备600a找到包含在捕获图像中的图像251a。然后，显示设备600a向终端设备500发送可以用于跟踪图像251a的跟踪信息653a。跟踪信息653a可以包括例如关于捕获图像中的图像251a的位置和姿势以及图像251a的内容的信息。终端设备100使用跟踪信息653a来对图像251a执行跟踪，并且然后将与图像251a对应的虚拟图像153显示在图像151中。

图9B示出在图9A中检测到图像251a之后的状态。在检测(搜索)到包含在捕获图像中的图像251a的位置和姿势之后，显示设备600a将图像251a的位置和姿势的检测(跟踪)委托给终端设备。更具体地，终端设备500不向显示设备600a发送捕获图像信息155。显示设备600a也不向终端设备发送跟踪信息653a。终端设备500使用之前接收到的跟踪信息653a来连续地对包含在捕获图像中的图像251a执行跟踪，并且然后使用跟踪结果来更新图像151中的虚拟图像153的显示。

另一方面，终端设备500向显示设备600b和600c连续发送捕获图像信息155。与图9A的状态类似，显示设备600b和600c分别搜索图像251b和251c。

图9C例示显示在显示设备400a上的图像251a改变或者在图9B的状态中由终端设备500对图像251a的跟踪失败的状态。在该处理中，显示设备400a再次检测(搜索)图像251a的位置和姿势，并且然后向终端设备500发送新的跟踪信息653a。终端设备500使用最新接收到的跟踪信息653a来对图像251a执行跟踪，并且然后更新图像151中的虚拟图像153的显示。

(功能配置)

当参照图10时，终端设备500包括图像拍摄部分110、显示控制部分120、显示部分150以及对象识别部分530。显示设备600包括显示控制部分210、显示屏幕250、捕获图像信息获取部分310、显示图像信息获取部分320以及对象识别部分430。

上述每个部分为与参照图7的第二实施例中描述的部件相同的部件。在该实施例中，对象识别部分包括在终端设备500和显示设备600二者中。

显示设备600的对象识别部分430主要执行对由显示设备600本身显示的图像251的搜索处理。如以上参照图9A至图9C所述，显示设备600的对象识别部分430针对图像251执行搜索处理直至在捕获图像中找到图像251为止。当找到图像251时，对象识别部分430向终端设备500的对象识别部分530发送例如包含关于图像251的位置和姿势以及图像251的内容的信息的跟踪信息653。此后，对象识别部分430可以停止图像251的识别处理直至由终端设备500对图像251的跟踪失败或者图像251的内容改变为止。

另一方面，当在捕获图像中找到图像251时，终端设备500的对象识别部分530执行对图像251执行跟踪的处理。可以从由显示设备600的对象识别部分430发送的跟踪信息653中获取以前找到的关于图像251的位置和姿势的信息和待用于跟踪处理的图像251的内容。因此，即使当未执行具有相对高的处理负荷的搜索处理时，对象识别部分530可以以相对低的处理负荷来启动跟踪处理。

可以通过上述对象识别部分430或者对象识别部分530中的任一个来执行对除了图像251以外的对象的识别处理。类似地，对除了图像251以外的对象执行识别处理的对象识别部分还可以包括在第一实施例和第二实施例的终端设备100中。

(3-2.处理流程)

接着，参照图11描述本公开的第三实施例的处理流程。图11是示出该实施例中的处理的数据流程图。

当参照图11时，在步骤S301中终端设备500首先向显示设备600a至600c中的每个显示设备发送捕获图像信息155。

接着，在步骤S303中，对象识别部分430使用捕获图像信息155和在显示设备600a中内部地获取的显示图像信息253a来搜索图像251a(在下文中被称为图像A)。在图中所示的示例中，在步骤S303中找到了图像A。显示设备600a向终端设备500发送可以用于跟踪图像251a的跟踪信息653a。终端设备100的对象识别部分530使用接收到的跟踪信息653a来对图像A执行跟踪，并且然后将与图像A对应的虚拟图像153显示在图像151中。另一方面，在显示设备600b和600c中，对象识别部分430搜索图像251b(在下文中被称为图像B)和图像251c(在下文中被称为图像C)，但是未找到所述图像。

接着，在步骤S305中，终端设备500向显示设备600a至600c中的每个显示设备发送捕获图像信息155。在该实施例中，由于捕获图像为动态图像，所以在步骤S305中发送的捕获图像信息155与这样的帧对应：该帧位于与在步骤S301中发送的捕获图像信息155对应的帧之后。如上所述，在这一点上由于终端设备500识别了图像A，所以终端设备500不向显示设备600a发送捕获图像信息155。

接着，在步骤S307中，对象识别部分530在终端设备500中对图像A执行跟踪。另一方面，在显示设备600b和600c中，对象识别部分430搜索图像B和图像C，但是未找到所述图像。

接着，在步骤S309中，终端设备500以与步骤S305中相同的方式向显示设备600b和600c中的每个显示设备发送捕获图像信息155。

接着，在步骤S311中，显示设备600a检测图像251a的改变。然后，显示设备600a在该改变之后向终端设备500发送与图像251a对应的跟踪信息653a。在终端设备500中，对象识别部分530使用最新接收到的跟踪信息653a来对图像251a执行跟踪，并且然后使用跟踪结果来更新图像151中的虚拟图像153的显示。

(实施例的结论)

在上述本公开的第三实施例中，当通过显示图像的显示设备本身来执行包含在捕获图像中的图像的搜索时，由获取捕获图像的终端设备来执行通过搜索找到显示图像之后的跟踪。更具体地，由终端设备来执行具有较低处理负荷的跟踪处理，并且分散来自终端设备的具有最高处理负荷的搜索的处理负荷。从而，例如防止了显示设备的计算资源的不必要的消耗。此外，例如可以通过消除向所有显示设备发送捕获图像信息的必要性来节省通信资源。

(4.补充)

尽管上述内容主要相对于信息处理设备、由信息处理设备执行的方法、使这些信息处理设备实现功能的程序描述了本公开的实施例，但是可以将记录这样的程序的记录介质实现为本公开的实施例。

此外，尽管以上描述描述了服务器设备或显示设备用作信息处理设备的示例，但是例如终端设备可以用作信息处理设备。另外在这种情况下，由于提供了与由显示设备显示的图像对应的信息的事实，所以降低了在终端设备中的对象识别的处理负荷。

(硬件配置)

最终，参照图12来描述根据本公开的实施例的信息处理设备900的硬件配置，该硬件配置可以实现终端设备100、终端设备500、显示设备200、显示设备400、显示设备600以及服务器设备300。图12是用于解释信息处理设备的硬件配置的框图。

信息处理设备900包含中央处理单元(CPU)901、只读存储器(ROM)903以及随机存取存储器(RAM)905。此外，信息处理设备900还可以包括主机总线907、桥909、外部总线911、接口913、输入设备915、输出设备917、存储设备919、驱动器921、连接端口923以及通信设备925。信息处理设备900可以具有代替CPU 901或与CPU 901在一起的处理电路，诸如数字信号处理器(DSP)。

CPU 901用作算术处理设备和控制设备并且根据记录在ROM 903、RAM 905、存储设备919或可移动记录介质927中的各种程序来控制信息处理设备900中的所有操作或一些操作。ROM 903存储由CPU 901使用的程序、操作参数等。RAM 905主要存储待用于CPU 901执行的程序、在CPU 901执行中适当改变的参数等。CPU 901、ROM 903以及RAM 905通过由内部总线(诸如CPU总线)构成的主机总线907相互连接。此外，主机总线907通过桥909连接至外部总线911，诸如外围部件互连/接口(PCI)总线。

输入设备915为例如由用户操作的设备，诸如鼠标、键盘、触摸面板、按键、开关、手柄等。输入设备915可以为例如利用红外线或其它电波的远程控制设备，或者可以为与信息处理设备900的操作对应的外部连接设备929，诸如蜂窝式电话。输入设备915包括基于由用户输入的信息而生成输入信号的输入控制电路，并且然后向CPU 901输出输入信号。用户操作输入设备915以从而向信息处理设备900输入各种数据或者引导对信息处理设备900的处理操作。

输出设备917由能够在视觉上或听觉上向用户通知所获取的信息的设备构成。输出设备917可以为：例如显示设备，诸如液晶显示器(LCD)、等离子体显示面板(PDP)以及有机电致发光(EL)显示器；声音输出设备，诸如扬声器和耳机；以及打印机设备等。输出设备917将通过信息处理设备900的处理而获得的结果输出为诸如文本或图像的图片，或者将该结果输出为诸如语音或声音的声音。

存储设备919为构成信息处理设备900的存储部分的一个示例的数据存储设备。存储设备919由半导体存储设备、光学存储设备、磁光存储设备或诸如硬盘驱动器(HDD)的磁存储设备等构成。存储设备919存储待由CPU 901执行的程序和各种数据以及从外部获取的各种数据等。

驱动器921是用于可移动记录介质927的读取器/写入器，可移动记录介质927诸如是磁盘、光盘、磁光盘或半导体存储器，并且驱动器921被构建在信息处理设备900中或从外部附接至信息处理设备900。驱动器921读取记录在所附接的可移动记录介质927上的信息，并且然后向RAM905输出所读取的信息。驱动器921在所附接的可移动记录介质927中写入记录。

连接端口923为用于直接将设备连接至信息处理设备900的端口。连接端口923可以为例如通用串行总线(USB)端口、IEEE1394端口、小型计算机系统接口(SCSI)端口等。连接端口923还可以为RS-232C端口、光学音频端子、高分辨率多媒体界面(HDMI)端口等。可以通过将外部连接设备929连接至连接端口923，来在信息处理设备900与外部连接设备929之间交换各种数据。

通信设备925为由例如用于连接通信网络931等的通信设备构成的通信接口。通信设备925可以为用于有线或无线局域网(LAN)、蓝牙(注册商标)、无线USB(WUSB)等的通信卡。通信设备925还可以为用于光通信的路由器、用于非对称数字用户线路(ADSL)的路由器或用于各种通信的调制解调器。通信设备925使用例如预定协议例如TCP/IP在因特网或其它的通信设备之间来发送和接收信号等。连接至通信设备925的通信网络931为有线或无线连接的网络，并且可以为例如因特网、家庭LAN、红外数据通信、无线电波数据通信或卫星数据通信。

图像拍摄设备933为如下设备，该设备使用各种构件例如图像拍摄元件以及透镜来获取真实空间的图像，该图像拍摄元件例如为电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)器件，该透镜用于控制到达图像拍摄元件的目标图像的图像形成以生成例如捕获图像。图像拍摄设备933可以为捕获静止图像的设备，或者可以为捕获动态图像的设备。

传感器935包括例如各种传感器，例如加速度计、陀螺仪传感器、地磁传感器、光学传感器以及声音传感器。传感器935获取例如关于信息处理设备900的状态的信息，例如信息处理设备900本身的情况下的姿势；以及关于信息处理设备900周围环境的信息，例如信息处理设备900周围的亮度、噪声等。传感器935还可以包括接收GPS信号以测量纬度、经度以及设备的高度的全球定位系统(GPS)传感器。

上述内容描述了信息处理设备900的硬件配置的一个示例。上述部件中的每个部件可以被配置成使用通用构件或者可以通过根据每个部件的功能定制的硬件进行配置。当实施所述实施例时，可以根据科技水平适当地改变这样的配置。

如上所述，参照附图详细描述了本公开的合适的实施例，但本公开并不限于所述实施例。清楚的是，在权利要求中描述的技术构思的范围内、本领域的普通技术人员能够容易地构思出与本公开有关的各种修改和变更，并且应当理解的是，所述示例应当包括在本公开的技术范围内。

另外，本技术还可以被如下配置。

(1)一种信息处理设备，包括：

捕获图像信息获取部分，其获取与捕获图像相对应的捕获图像信息；

显示图像信息获取部分，其获取与显示在显示屏幕上的第一图像相对应的显示图像信息；以及

对象识别部分，其使用显示图像信息和捕获图像信息来检测第一图像在捕获图像中的位置和姿势。

(2)根据(1)所述的信息处理设备，其中，显示图像信息获取部分在与捕获图像信息的获取的定时不同的定时获取显示图像信息。

(3)根据(2)所述的信息处理设备，其中，当第一图像改变时，显示图像信息获取部分获取显示图像信息。

(4)根据(2)或(3)所述的信息处理设备，其中，显示图像信息获取部分以比捕获图像信息的获取的间隔长的间隔来获取显示图像信息。

(5)根据(4)所述的信息处理设备，其中，当捕获图像信息被获取而显示图像信息未被获取时，对象识别部分使用先前获取的显示图像信息来检测第一图像的位置和姿势。

(6)根据(2)至(5)中任一项所述的信息处理设备，其中，当第一图像的位置和姿势未被检测时，显示图像信息获取部分获取显示图像信息。

(7)根据(1)至(6)中任一项所述的信息处理设备，其中，

捕获图像信息获取部分和显示图像信息获取部分按照时间顺序分别获取捕获图像信息和显示图像信息，以及

同步捕获图像信息与显示图像信息的同步信息被包含在捕获图像信息和显示图像信息获取部分的至少任意一个中。

(8)根据(1)至(7)中任一项所述的信息处理设备，其中，

对象识别部分根据捕获图像信息与显示图像信息之间的延迟来选择与捕获图像信息一起使用的显示图像信息。

(9)根据(1)至(8)中任一项所述的信息处理设备，其中，对象识别部分向已捕获捕获图像的图像拍摄设备发送指示第一图像的位置和姿势的信息。

(10)根据(9)所述的信息处理设备，其中，当已经检测第一图像的位置和姿势时，对象识别部分将第一图像的位置和姿势的后续检测委托给图像拍摄设备。

(11)根据(10)所述的信息处理设备，其中，当图像拍摄设备未检测第一图像的位置和姿势时，对象识别部分再次检测第一图像的位置和姿势。

(12)根据(10)或(11)所述的信息处理设备，其中，当第一图像已改变时，对象识别部分再次检测第一图像的位置和姿势。

(13)根据(1)至(12)中任一项所述的信息处理设备，其是还包括显示屏幕的显示设备。

(14)一种信息处理方法，包括：

获取与捕获图像相对应的捕获图像信息；

获取与显示在显示屏幕上的第一图像相对应的显示图像信息；以及

使用显示图像信息和捕获图像信息来检测第一图像在捕获图像中的位置和姿势。

(15)一种用于使计算机实现以下功能的程序：

获取与捕获图像相对应的捕获图像信息的功能；

获取与显示在显示屏幕上的第一图像相对应的显示图像信息的功能；以及

使用显示图像信息和捕获图像信息来检测第一图像在捕获图像中的位置和姿势的功能。

附图标记列表

100、500 终端设备

110 图像拍摄部分

120 显示控制部分

150 显示部分

155 捕获图像信息

157 识别结果信息

200、400、600 显示设备

210 显示控制部分

250 显示屏幕

251 图像(第一图像)

253 显示图像信息

300 服务器设备

310 捕获图像信息获取部分

320 显示图像信息获取部分

330、430、530 对象识别部分

653 跟踪信息

Claims

1.一种信息处理设备，包括：

对象识别部分，其使用所述显示图像信息和所述捕获图像信息来检测所述第一图像在所述捕获图像中的位置和姿势。

2.根据权利要求1所述的信息处理设备，其中，所述显示图像信息获取部分在与所述捕获图像信息的获取的定时不同的定时获取所述显示图像信息。

3.根据权利要求2所述的信息处理设备，其中，当所述第一图像改变时，所述显示图像信息获取部分获取所述显示图像信息。

4.根据权利要求2所述的信息处理设备，其中，所述显示图像信息获取部分以比所述捕获图像信息的获取的间隔长的间隔来获取所述显示图像信息。

5.根据权利要求4所述的信息处理设备，其中，当所述捕获图像信息被获取而所述显示图像信息未被获取时，所述对象识别部分使用先前获取的所述显示图像信息来检测所述第一图像的位置和姿势。

6.根据权利要求2所述的信息处理设备，其中，当所述第一图像的位置和姿势未被检测时，所述显示图像信息获取部分获取所述显示图像信息。

7.根据权利要求1所述的信息处理设备，其中，

所述捕获图像信息获取部分和所述显示图像信息获取部分按照时间顺序分别获取所述捕获图像信息和所述显示图像信息，以及

同步所述捕获图像信息与所述显示图像信息的同步信息被包含在所述捕获图像信息和所述显示图像信息获取部分的至少任意一个中。

8.根据权利要求1所述的信息处理设备，其中，

所述对象识别部分根据所述捕获图像信息与所述显示图像信息之间的延迟来选择与所述捕获图像信息一起使用的所述显示图像信息。

9.根据权利要求1所述的信息处理设备，其中，所述对象识别部分向已捕获所述捕获图像的图像拍摄设备发送指示所述第一图像的位置和姿势的信息。

10.根据权利要求9所述的信息处理设备，其中，当已经检测所述第一图像的位置和姿势时，所述对象识别部分将所述第一图像的位置和姿势的后续检测委托给所述图像拍摄设备。

11.根据权利要求10所述的信息处理设备，其中，当所述图像拍摄设备未检测所述第一图像的位置和姿势时，所述对象识别部分再次检测所述第一图像的位置和姿势。

12.根据权利要求10所述的信息处理设备，其中，当所述第一图像已改变时，所述对象识别部分再次检测所述第一图像的位置和姿势。

13.根据权利要求1所述的信息处理设备，其是还包括所述显示屏幕的显示设备。

14.一种信息处理方法，包括：

获取与捕获图像相对应的捕获图像信息；

使用所述显示图像信息和所述捕获图像信息来检测所述第一图像在所述捕获图像中的位置和姿势。

15.一种用于使计算机实现以下功能的程序：

获取与捕获图像相对应的捕获图像信息的功能；

使用所述显示图像信息和所述捕获图像信息来检测所述第一图像在所述捕获图像中的位置和姿势的功能。