CN104104862A

CN104104862A - 图像处理装置和图像处理方法

Info

Publication number: CN104104862A
Application number: CN201410122662.6A
Authority: CN
Inventors: 笠原俊一; 暦本纯一
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-04-04
Filing date: 2014-03-28
Publication date: 2014-10-15
Anticipated expiration: 2034-03-28
Also published as: WO2014162852A1; EP2983139A4; JPWO2014162852A1; US9823739B2; JP6304242B2; EP2983139A1; CN204465706U; CN104104862B; US20160054793A1

Abstract

本发明涉及使利用了AR技术的用户间的交互更为顺利的图像处理装置和图像处理方法。上述图像处理装置具备图像处理部，该图像处理部将从第1视点拍摄实际空间得到的第1图像作为输入图像来生成输出图像，上述图像处理部基于上述第1视点在上述实际空间中的位置以及姿势，来生成从在上述实际空间中具有与上述第1视点不同的位置以及姿势的第2视点虚拟地拍摄上述实际空间得到的第2图像作为上述输出图像。

Description

图像处理装置和图像处理方法

技术领域

本发明涉及图像处理装置和图像处理方法。

背景技术

近些年，将附加的信息叠加于实际世界并提示给用户的被称为增强现实（AR：Augmented Reality）的技术备受瞩目。在AR技术中提示给用户的信息也被称作（annotation），可以使用文本、图标或者动画等各种方式的虚拟的物体进行可视化。例如，在专利文献1中记载有不损害用户对AR空间的浸没感地实现这样的AR的虚拟物体的操作的技术。

专利文献1：日本特开2012－212345号公报

在上述专利文献1等中提出的AR技术被开发的时间还不长，不能说在各个方面充分提出了活用AR的技术。例如，用于使利用了AR技术的用户间的交互顺利的技术也是还没有被充分提出的技术之一。

发明内容

因此，在本发明中，提出一种能够使利用了AR技术的用户间的交互更为顺利的、新改进的图像处理装置和图像处理方法。

根据本发明，提供一种图像处理装置，该图像处理装置具备图像处理部，该图像处理部将从第1视点拍摄实际空间得到的第1图像作为输入图像来生成输出图像，上述图像处理部基于上述第1视点在上述实际空间中的位置以及姿势，来生成从在上述实际空间中具有与上述第1视点不同的位置以及姿势的第2视点虚拟地拍摄上述实际空间得到的第2图像作为上述输出图像。

另外，根据本发明，提供一种图像处理方法，包括：将从第1视点拍摄实际空间得到的第1图像作为输入图像来生成输出图像的处理器，基于上述第1视点在上述实际空间中的位置以及姿势，来生成从在上述实际空间中具有与上述第1视点不同的位置以及姿势的第2视点虚拟地拍摄上述实际空间得到的第2图像作为上述输出图像。

另外，根据本发明，提供一种程序，该程序使将从第1视点拍摄实际空间得到的第1图像作为输入图像生成输出图像的计算机实现如下功能，即基于上述第1视点在上述实际空间中的位置以及姿势，来生成从在上述实际空间中具有与上述第1视点不同的位置以及姿势的第2视点虚拟地拍摄上述实际空间得到的第2图像作为上述输出图像。

如以上说明那样，根据本发明，能够使利用了AR技术的用户间的交互更为顺利。

附图说明

图1是表示本发明的一个实施方式的系统的概要构成的图。

图2是表示本发明的一个实施方式的装置的概要构成的图。

图3A是表示本发明的一个实施方式中的拍摄图像的共享的例子的图。

图3B是表示本发明的一个实施方式中的注解输入的例子的图。

图4是表示本发明的一个实施方式中的拍摄图像的共享的其它例子的图。

图5A是表示在本发明的一个实施方式中能够利用的技术的处理的例子的流程图。

图5B是表示在本发明的一个实施方式中能够利用的技术的处理的其它的例子的流程图。

图6是表示本发明的一个实施方式中的1人称图像的显示例的图。

图7是表示本发明的一个实施方式中的3人称图像的显示例的图。

图8是表示本发明的一个实施方式中的3人称图像的显示例的图。

图9是表示本发明的一个实施方式中的3人称图像的显示例的图。

图10A是表示本发明的一个实施方式中的1.3人称图像的显示例的图。

图10B是用于说明本发明的一个实施方式中的1.3人称图像的图。

图10C是用于说明本发明的一个实施方式中的1.3人称图像的图。

图10D是用于说明本发明的一个实施方式中的1.3人称图像以及3人称图像的例子的图。

图10E是用于说明本发明的一个实施方式中的1.3人称图像以及3人称图像的例子的图。

图10F是用于说明本发明的一个实施方式中的1.3人称图像以及3人称图像的例子的图。

图11是表示在本发明的一个实施方式中同时显示不同视点的图像的例子的图。

图12是表示在本发明的一个实施方式中同时显示不同视点的图像的例子的图。

图13是表示本发明的一个实施方式中的注解显示的第1例的图。

图14表示本发明的一个实施方式中的注解显示的第2例的图。

图15是表示本发明的一个实施方式中的注解显示的第3例的图。

图16是表示本发明的一个实施方式中的注解显示的第4例的图。

图17是表示本发明的一个实施方式中的注解显示的第5例的图。

图18是表示本发明的一个实施方式中的注解显示的第6例的图。

图19是用于说明本发明的一个实施方式中的注解的配置的图。

图20是表示本发明的一个实施方式中的注解的配置的选择的例子的图。

图21是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的第1例的图。

图22是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的第1例的图。

图23是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的第1例的图。

图24是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的第2例的图。

图25是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的第2例的图。

图26是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的第3例的图。

图27是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的第3例的图。

图28是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的第4例的图。

图29是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的第5例的图。

图30是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的第6的例的图。

图31是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的应用例的图。

图32是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的应用例的图。

图33是表示本发明的一个实施方式中的利用了边缘检测的注解对象物体的显示例的图。

图34是表示本发明的一个实施方式中的流帧的回滚（rollback）显示的例子的图。

图35是表示本发明的一个实施方式中的流帧的回滚显示的例子的图。

图36是表示利用本发明的一个实施方式的技术来共享旅行者的视点的应用的例子的图。

图37是表示利用本发明的一个实施方式的技术来共享登山者的视点的应用的例子的图。

图38是表示利用本发明的一个实施方式的技术来共享烹饪的人的视点的应用的例子的图。

图39是表示利用本发明的一个实施方式的技术来共享购物的人的视点的应用的例子的图。

图40是表示利用本发明的一个实施方式的技术来共享工作的人的视点的应用的例子的图。

图41是表示利用本发明的一个实施方式的技术来切换多个用户的视点进行共享的应用的例子的图。

图42是表示利用本发明的一个实施方式的技术来切换多个用户的视点进行共享的应用的例子的图。

图43是表示利用本发明的一个实施方式的技术来切换多个用户的视点进行共享的应用的例子的图。

图44是表示利用本发明的一个实施方式的技术来切换多个用户的视点进行共享的应用的例子的图。

附图标记说明

10…系统；100…服务器；200、300、400、500、600、700…客户端；900…装置；910…处理器；920…存储器；930…显示部；940…操作部；950…通信部；960…拍摄部；970…传感器。

具体实施方式

以下，参照附图对本发明的优选实施方式进行详细说明。此外，在本说明书以及附图中，对具有实质相同功能构成的构成要素标注相同的附图标记，从而省略重复说明。

此外，按照以下的顺序进行说明。

1.系统以及装置的构成

1－1.系统构成

1－2.装置构成

2.实际空间图像的共享以及交互

2－1.交互的概念

2－2.能够利用的技术

3.可变视点图像的显示的例子

4.注解在实际空间的显示

4－1.显示例

4－2.注解的配置

5.处于可视认范围外的注解的显示

6.其它的显示例

7.应用的例子

8.补充

1.系统以及装置的构成

1－1.系统构成

图1是表示本发明的一个实施方式的系统的概要构成的图。参照图1，系统10具有服务器100和客户端200～700。

服务器100是单一的服务器装置或者是由通过有线或者无线的各种网络连接而协作的多个服务器装置实现的功能的集合体，向客户端200～700提供服务。

客户端200～700是通过有线或者无线的各种网络与服务器100连接的终端装置。客户端200～700在系统10中实现以下（1）～（3）的至少其中任一个功能。

（1）具有照相机等拍摄单元，并将实际空间的图像提供给服务器100的装置。

（2）具有显示器等显示单元和触摸面板等操作单元，从服务器100获取由（1）的装置提供的图像，供用户阅览，并且受理用户对图像的注解输入的装置。

（3）具有显示器等显示单元，并使通过（2）的装置受理了输入的注解直接或者间接地显示于实际空间的装置。

客户端200是可穿戴终端（以下，也仅称可穿戴终端200）。可穿戴终端200例如具有拍摄单元或者显示单元的其中任一方或者两方，作为上述（1）或者（3）的其中任一方或者两方的装置发挥功能。在图示的例子中，可穿戴终端200是眼镜型终端，但是能够佩戴于用户身体的形状即可，并不局限于该例。在作为上述（1）的装置发挥功能的情况下，可穿戴终端200例如具有设置在眼镜框架部分的照相机作为拍摄单元。通过该照相机，可穿戴终端200能够从靠近用户视点的位置获取实际空间的图像。将获取的图像发送给服务器100。另外，在作为上述（3）的装置发挥功能的情况下，可穿戴终端200例如具有设置在眼镜镜片部分的一部分或者全部的显示器作为显示单元。可穿戴终端200使该显示器显示通过上述照相机拍摄得到的图像，并且使通过上述（2）的装置输入的注解重叠显示于该图像。或者，在显示器为透射式的情况下，可穿戴终端200也可以将注解以透过的方式重叠显示于用户直接视认的实际世界的像。

客户端300是平板终端（以下也仅称平板终端300）。平板终端300至少具有显示单元以及操作单元，例如可以作为上述（2）的装置发挥功能。平板终端300还可以具有拍摄单元，作为上述的（1）或者（3）的其中一方或者两方的装置发挥功能。换句话说，平板终端300作为上述的（1）～（3）的装置中的任意装置发挥功能。在作为上述（2）的装置发挥功能的情况下，平板终端300例如具有显示器作为显示单元，具有显示器上的触摸传感器作为操作单元，显示从上述（1）的装置经由服务器100提供的图像，并且受理用户对该图像的注解输入。将受理的注解输入经由服务器100提供给上述（3）的装置。在作为上述（1）的装置发挥功能的情况下，平板终端300例如与上述的可穿戴终端200相同，具有照相机作为拍摄单元，通过用户将平板终端300举在实际空间，能够获取处于用户视线延长线上的实际空间的图像。将获取的图像发送给服务器100。在作为上述（3）的装置发挥功能的情况下，平板终端300使通过上述照相机拍摄得到的图像显示于显示器，并且使通过上述（2）的装置（例如其它平板终端等）输入的注解重叠显示于该图像。或者在显示器为透射式的情况下，平板终端300也可以使注解以透过的方式重叠显示于用户直接视认的实际世界的像。

客户端400是移动电话（智能电话）（以下也仅称移动电话400）。此外，由于系统10中的移动电话400的功能与平板终端300相同，所以省略详细的说明。此外，虽未图示，例如若便携式游戏机、数码照相机这样的装置也具有通信单元、和显示单元、操作单元或者拍摄单元，则在系统10中也与平板终端300、移动电话400同样地发挥功能。

客户端500是膝上型PC（Personal Computer：个人计算机）（以下也仅称膝上型PC500）。膝上型PC500具有显示单元以及操作单元，作为上述（2）的装置发挥功能。在图示的例子中，由于基本以固定的方式使用膝上型PC500，所以将其作为不能作为上述（1）的装置发挥功能的装置的例子处理。虽未图示，例如台式PC、电视等也能够与膝上型PC500同样地发挥功能。膝上型PC500具有显示器作为显示单元，具有鼠标、键盘作为操作单元，显示从上述（1）的装置经由服务器100提供的图像，并且受理用户对该图像的注解输入。将受理的注解输入经由服务器100提供给上述（3）的装置。另外，膝上型PC500也能够作为上述（3）的装置发挥功能。该情况下，膝上型PC500并不是使注解重叠显示于自己拍摄的实际空间的图像，而如后述的例子那样，成为实际空间的一部分地显示注解。此外，也能够利用上述的平板终端300、移动电话400等进行这样的注解的显示。

客户端600是固定照相机（以下也仅称固定照相机600）。固定照相机600具有拍摄单元，作为上述（1）的装置发挥功能。在图示的例子中，由于固定照相机600被固定使用，并且不具有显示单元，所以将其作为不能作为上述（2）以及（3）的装置发挥功能的装置的例子进行处理。虽未图示，例如在台式PC、电视机上设置有照射画面前方的照相机的情况下、在将数码照相机这样的能够移动的装置暂时固定于三脚架等的情况下，这些装置也能够与固定照相机600同样地发挥功能。固定照相机600具有照相机作为拍摄单元，能够从固定的视点（也包括照相机自动地摆动，或者根据用户阅览拍摄图像的操作摆动的情况）获取实际空间的图像。将获取的图像发送给服务器100。或者，客户端600也可以是安装于移动体的照相机。移动体例如汽车、动物等，可以根据搭乘者或者其自身的意思移动。另外，安装客户端600的移动体还可以是一边基于使用了无线通信等的用户的控制来飞行或者行驶、或按照程序自动地飞行或者行驶一边执行拍摄的装置（机器人照相机）。

客户端700是投影仪（以下也仅称投影仪700）。投影仪700具有投影装置作为显示单元，作为上述（3）的装置发挥功能。在图示的例子中，由于投影仪700不具有拍摄单元，并且也不具有受理对显示（投影）的图像的输入的操作单元，所以将其作为不能作为上述（1）以及（2）的装置发挥功能的装置的例子进行处理。投影仪700通过使用投影装置在屏幕、物体的表面投影图像，使注解显示于实际空间。此外，图示投影仪700是固定型的，但也可以是手持式。

以上，对本发明的一个实施方式的系统进行了说明。如图1所示，本实施方式的系统10也可以包括能够获取实际空间的图像的装置（可穿戴终端200、平板终端300、移动电话400、固定照相机600）、将实际空间的图像供用户阅览且能够受理用户对图像的注解输入的装置（平板终端300、移动电话400、膝上型PC500）、使注解直接或者间接地显示于实际空间的装置（可穿戴终端200、平板终端300、移动电话400、膝上型PC500、投影仪700）。

服务器100通过与上述的各装置相协作，实现获取实际空间的图像，并将该图像供用户（例如可以是不在上述实际空间中的用户）阅览，并且受理用户对图像的注解输入，使输入的注解直接或者间接地显示于上述实际空间的功能。通过这样的功能，例如能够实现第2用户阅览有第1用户的实际空间的图像，并将第2用户针对图像添加的注解直接或者间接地显示于上述实际空间而被第1用户视认这样的、利用了AR技术的用户间的交互。

后面叙述在上述这样的系统10中显示的AR图像（例如在实际空间中显示了注解的图像）的具体的例子。在图示的例子的系统10中，主要由服务器100执行用于构成AR图像的图像处理。但是在其它的例子中，例如也可以由将注解显示于实际空间的上述（3）的装置、显示实际空间的图像且受理注解输入的上述（2）的装置等执行图像处理的一部分或者全部。在本说明书中，将执行这样的图像处理的装置统称为“图像处理装置”。

1－2.装置构成

图2是表示本发明的一个实施方式的装置的概要构成的图。参照图2，装置900包括处理器910以及存储器920。装置900还可以包括显示部930、操作部940、通信部950、拍摄部960或者传感器970。这些构成要素通过总线980相互连接。装置900例如能够实现构成上述的服务器100的服务器装置、以及客户端200～700。

处理器910例如是CPU（Central Processing Unit）或者DSP（DigitalSignal Processor）这样的各种的处理器，例如按照存储于存储器920的程序来执行运算、控制等动作，从而实现各种功能。处理器910例如实现上述的服务器100以及客户端200～700的装置整体的控制功能。处理器910例如在服务器100中执行后述的例子那样的用于实现AR图像显示的图像处理。另外，处理器910例如在服务器100、可穿戴终端200、平板终端300、移动电话400、膝上型PC500或者投影仪700中，执行后述的例子那样的用于实现AR图像显示的显示控制。

存储器920由半导体存储器或者硬盘等存储介质构成，存储用于装置900的处理的程序以及数据。存储器920例如也可以存储由拍摄部960获取的拍摄图像数据、由传感器970获取的传感器数据。此外，在本说明书中说明的程序以及数据的一部分也可以不存储于存储器920，而从外部数据源（例如数据服务器、网络存储器或者外部存储器等）获取。

显示部930例如设置于具有上述的显示单元的客户端。显示部930例如可以是与装置900的形状对应的显示器。例如，若以上述的例子来说，可穿戴终端200例如也可以具有与眼镜镜片部分对应的形状的显示器。另外，平板终端300、移动电话400、膝上型PC500也可以具有设置于各自框体的平板型显示器。或者，显示部930也可以是向物体投影图像的投影装置。在上述的例子中，投影仪700也可以具有投影装置作为显示部。

操作部940例如设置于具有上述的操作单元的客户端。操作部940例如是根据需要使键盘、按钮、开关等与设置在显示器上的触摸传感器（与显示器配合构成触摸面板）、触控板、鼠标等指示器组合而构成的。操作部940例如通过指示器确定出显示于显示部930的图像中的位置，并受理用户通过键盘、按钮、开关等对该位置输入一些信息的操作。或者，操作部940也可以通过指示器确定出显示于显示部930的图像中的位置，并受理用户进一步通过指示器对该位置输入一些信息的操作。操作部940也可以代替指示器或者与指示器一同基于用户的手势来确定图像中的位置，并获取用于对该位置输入一些信息的操作。例如，通过对利用照相机模块（可以与拍摄部960相同，也可以不同）获取的图像进行解析，并识别用户身体部分等操作体的动作来确定用户的手势。另外，例如也可以基于设置在与具有显示器的装置不同的装置例如可穿戴装置上的运动传感器的检测结果来获取用户手势，其中，可穿戴装置被佩戴于与显示器相向的用户手指、手臂等处。该情况下，例如基于由运动传感器检测出的用户手指、手臂等的加速度、角速度确定出用户手势。

通信部950是调节装置900与其它装置之间的通信的通信接口。通信部950支持任意的无线通信协议或者有线通信协议，建立与其它装置之间的通信连接。在上述的例子中，在将由客户端拍摄到的实际空间的图像、输入的注解信息发送给服务器100、以及将实际空间的图像、注解信息从服务器100发送给客户端时使用通信部950。

拍摄部960是拍摄图像的照相机模块。拍摄部960使用CCD（ChargeCoupled Device）或者CMOS（Complementary Metal OxideSemiconductor）等拍摄元件拍摄实际空间，生成拍摄图像。由拍摄部960生成的一系列的拍摄图像构成影像。此外，拍摄部960也可以不是装置900的一部分。例如，也可以将通过有线或者无线与装置900连接的拍摄装置作为拍摄部960处理。另外，拍摄部960也可以包括按照各像素测定拍摄部960和被拍摄体之间的距离的深度（depth）传感器。如后所述，从深度传感器输出的深度数据也可以用于拍摄实际空间得到的图像中的环境的识别。

传感器970也可以包括测位传感器、加速度传感器以及陀螺传感器等各种传感器。在传感器970中得到的测定结果也可以用于拍摄实际空间得到的图像中的环境的识别辅助、对地理位置进行了特定化的数据的获取、或者用户输入的检测等各种用途。此外，将传感器970设置于具有拍摄部960的装置，在上述的例子中，设置于可穿戴终端200、平板终端300、移动电话400、或者固定照相机600。

2.实际空间图像的共享以及交互

接下来，参照图3A～图4，对本发明的一个实施方式的交互的基本概念进行说明。

2－1.交互的概念

图3A是表示本发明的一个实施方式的拍摄图像的共享的例子的图。在图示的例子中，将由可穿戴终端200的照相机260（拍摄部）拍摄得到的实际空间的图像经由服务器100流传送至平板终端300，作为图像1300显示于显示器330（显示部）。此时，在可穿戴终端200中，拍摄得到的实际空间的图像显示于显示器230（显示部），或实际空间的像透过显示器230被直接视认。以下，将此时显示于显示器230的像（包括以透过的方式被视认的背景）作为图像1200参照。

图3B是表示本发明的一个实施方式的注解输入的例子的图。在平板终端300中，在显示器330上设置有触摸传感器340（操作部），能够获取用户对显示于显示器330的图像1300的触摸输入。在图示的例子中，通过触摸传感器340获取指示图像1300内的某位置的用户触摸输入，在该位置显示指示光标1310。并且，例如将使用另行显示的屏幕软键盘等输入的文本作为注释1320显示于图像1300。将该指示光标1310以及注释1320经由服务器100发送给可穿戴终端200作为注解。

在可穿戴终端200中，将由平板终端300输入的注解作为指示光标1210以及注释1220显示于图像1200。在图像1200中显示这些注解的位置与由平板终端300显示的图像1300中的实际空间的位置对应。这样，作为发送侧（流侧）的装置的可穿戴终端200和作为接收侧（视听人侧）的装置的平板终端300之间的交互成立。此外，在该例中，后述使注解的显示位置在装置间对应、使注解继续显示时使用的技术。

图3B是表示本发明的一个实施方式中的拍摄图像的共享的其它例子的图。在图示的例子中，将由平板终端300a的照相机（拍摄部；由于处于背面侧，所以未图示）拍摄得到的实际空间的图像流传送至平板终端300b，作为图像1300b显示于显示器330b（显示部）。此时，在平板终端300a中，拍摄得到的实际空间的图像显示于显示器330a，或实际空间的像透过显示器330a被直接视认。以下，将此时显示于显示器330a的像（包括以透过的方式被视认的背景）作为图像1300a参照。在图示的例子中，通过将利用平板终端300b针对图像1300b输入的注解显示于图像1300a，作为发送侧（流侧）的装置的平板终端300a和作为接收侧（视听人侧）的装置的平板终端300b之间的交互成立。

此外，本实施方式中的实际空间的图像的共享和基于共享的用户间的交互并不局限于可穿戴终端200以及平板终端300所涉及的上述的例子，已经说明的移动电话400、膝上型PC500、固定照相机600、或者投影仪700只要实现各自的功能（例如上述的（1）～（3）的功能），也能够将任意装置作为发送侧（流侧）以及接收侧（视听人侧）而成立。

2－2.能够利用的技术

在本实施方式中，在实现上述的实际空间图像的共享和交互时，利用几种技术。首先，在本实施方式中，在发送侧的装置，对发送的实际空间的图像数据附加空间信息。空间信息是能够推断发送侧的装置的拍摄部（在图3A以及图3B的例子中是可穿戴终端200的照相机260，在图4的例子中是平板终端300a的照相机）在实际空间中如何移动的信息。

例如，空间信息可以是通过SfM（Structure from Motion）法或者SLAM（Simultaneous Localization And Mapping）法等已知的图像识别技术识别出的环境识别矩阵。环境识别矩阵例如表示基准环境（实际空间）的坐标系相对于发送侧的装置固有的坐标系的相对位置以及姿势。例如，在利用SLAM法的情况下，发送侧的装置的处理器基于扩展卡尔曼滤波器的原理，按照拍摄图像的各帧更新装置的位置、姿势、速度及角速度以及包括拍摄图像所包含的至少一个特征点的位置的状态变量。由此，能够利用来自单眼照相机的输入图像来识别以装置的位置以及姿势为基准的基准环境的位置以及姿势。此外，关于SLAM法的详细说明例如记载于“Real-Time Simultaneous Localization andMapping with a Single Camera”（Andrew J.Davison，Proceedings of the9th IEEE International Conference on Computer Vision Volume2,2003,pp.1403-1410）。

除此而外，空间信息是表示拍摄部在实际空间中的相对位置以及姿势的信息即可，可以是任何的信息。例如，也可以基于来自可设置于拍摄部的深度传感器的深度数据来识别环境识别矩阵。另外，还可以基于来自红外线测距系统或者运动捕捉系统等环境识别系统的输出数据来识别环境识别矩阵。这样的技术的一个例子例如记载于S.Izadi,et al,KinectFusion:Real-time3D Reconstruction and Interaction Using aMoving Depth Camera,ACM Symposium on User Interface Softwareand Technology,2011，但并不局限于该例，能够将已知的各种技术应用于空间信息的生成。

或者，空间信息也可以通过拍摄实际空间得到的一系列的帧图像的拼接解析，确定出各帧图像的相对位置关系来生成。该情况下，拼接解析可以是在基底平面上粘贴各帧图像的二维拼接解析，或者是在空间内的任意位置粘贴各帧图像的三维拼接解析。

以下，参照图5A的流程图，使用图3A以及图3B所示的例子对上述的技术所涉及的发送侧的装置、接收侧的装置、以及服务器的处理的例子进行说明。此外，上述的技术也可以与图3A以及图3B的例子无关，而应用于上述的系统10中的任意装置的组合。

首先，在可穿戴终端200（发送侧的装置）中，通过由拍摄部获取实际空间的图像数据，处理器根据需要处理由拍摄部或者传感器获取的信息来生成空间信息（步骤S101）。将图像数据和空间信息相互关联地从可穿戴终端200的通信部发送给服务器100（步骤S103）。在服务器100中，通信部从可穿戴终端200接收图像数据以及空间信息，将图像数据转送给平板终端300（接收侧的装置）（步骤S105）。另外，在服务器100中，处理器使用空间信息将接收的图像内的位置和可穿戴终端200存在的实际空间的位置建立联系（步骤S107）。

在平板终端300中，通信部从服务器100接收图像数据，处理器基于接收的图像数据使显示器330显示图像1300（步骤S109）。这里，在通过触摸传感器340获取用户对图像1300的注解输入的情况下（步骤S111），处理器将注解输入与图像1300内的位置（例如指示光标1310的位置）建立联系，并从通信部发送给服务器100（步骤S113）。

在服务器100中，通信部接收从平板终端300发送来的注解输入以及图像内的位置的信息，处理器将接收的信息所包含的图像内的位置转换为实际空间的位置（步骤S115）。将变换后的与实际空间的位置建立了关联的注解输入从通信部发送给可穿戴终端200（步骤S117）。

在可穿戴终端200中，通信部从服务器100接收注解输入以及实际空间的位置的信息，处理器使用空间信息，将与注解信息建立了关联的实际空间的位置转换为当前显示于显示器230的图像1200内的位置（步骤S119），并在该位置显示注解（例如指示光标1210、注释1220）（步骤S121）。

图5B示出上述的处理的其它的例子。在该例子中，在服务器100的处理器将图像内的位置和实际空间的位置建立联系后，通信部将图像所包含的实际空间的位置的信息与图像数据一起发送给平板终端300（步骤S201）。在平板终端300中，在显示器330上显示图像（步骤S109）这与上的图5A的例子相同，但不是将注解输入与图像内的位置与建立联系进行发送，而与在步骤S201接收的实际空间的位置建立联系进行发送（步骤S203）。因此，在服务器100中，通信部将与实际空间的位置建立了关联的注解输入的信息转送给可穿戴终端200即可（步骤S205）。

第1个优点

在上述中说明的技术有几个优点。例如，在利用可穿戴终端200获取实际空间的图像后，利用平板终端300输入针对该图像的注解，再将该注解发送给可穿戴终端200的过程中产生时间差的情况较多。

因此，若以图像内的位置为基准交换注解，由可穿戴终端200显示的图像1200的显示范围在上述时间差的期间会因用户、装置的移动而变化，由此存在从平板终端300发送来的注解在可穿戴终端200中显示在与平板终端300的用户观看图像1300而意图的位置不同的位置的情况。

与此相对，若应用上述的技术，则能够将注解与实际空间的位置建立关联，所以尽管图像1200的显示范围变化，在可穿戴终端200中也能够将注解显示在平板终端300的用户观察图像1300而意图的位置（例如与处于实际空间的特定的物体对应的位置）。

第2个优点

另外，例如在由可穿戴终端200显示的实际空间的图像1200是透过显示器230而被直接视认的图像、或者是与在显示器230的外侧观察到的实际空间的像匹配地显示于显示器230的图像的情况下，存在图像1200的范围比可穿戴终端200的照相机260拍摄到的实际空间的图像的范围小（换句话说，与可穿戴终端200的用户视认的范围相比，拍摄图像的范围大）的情况。

在这样的情况下，显示于平板终端300的显示器330的图像1300的范围与可穿戴终端200的图像1200的范围相比变大，平板终端300的用户可能会将注解输入至图像1200的外侧，换句话说输入至可穿戴终端200的用户看不见的区域。因此，若以图像内的位置为基准交换注解，则即使能够利用平板终端300输入，也会产生不显示于可穿戴终端200的图像1200的注解。

与此相对，若应用上述的技术，由于能够将注解与实际空间的位置建立关联，所以即使是针对在被服务器100或者可穿戴终端200接收的时刻没有进入图像1200的显示范围的位置的注解，例如也能够在之后图像1200的显示范围发生变化而包括注解的位置的情况下显示于图像1200。

此外，上述的技术不仅存在在这里说明的优点，根据使用的状况也存在其它的优点。在以下的说明中明示或者隐含这些优点。

3.可变视点图像的显示的例子

接下来，参照图6～图12，对本发明的一个实施方式的可变视点图像的显示进行说明。在本实施方式中，如上述那样，发送侧的装置对实际空间的图像数据附加空间信息后进行发送。空间信息例如是表示发送侧的装置的拍摄部在实际空间中的位置以及姿势的信息。若利用该信息，则如以下所说明的那样，能够不受1人称图像（拍摄部拍摄到的实际空间的图像）的视点的限制，生成在任何的视点观察实际空间的图像，并提供给接收侧的装置。

此外，在以下的说明中，使用图3A以及图3B所示的例子对发送侧的装置、接收侧的装置以及服务器的动作进行说明，但并不局限于图3A以及图3B的例子，能够通过上述的系统10中的任意装置的组合实现相同的构成。

1人称图像

图6是表示本发明的一个实施方式中的1人称图像的显示例的图。在图6中示出1人称图像1010。1人称图像1010是可穿戴终端200（发送侧的装置）的照相机260拍摄到的图像，由于与利用可穿戴终端200显示于显示器230的图像1200相同，所以在本说明书中称作“1人称图像”。1人称图像1010是流帧，换句话说是照相机260拍摄的一系列的帧图像，所以其显示范围例如伴随佩戴了可穿戴终端200的用户的动作时刻地变化。

3人称图像

图7～图9是表示本发明的一个实施方式中的3人称图像的显示例的图。图7～图9所示的3人称图像1020是基于与拍摄图像的数据一起提供的空间信息，从与1人称图像不同的视点虚拟地拍摄可穿戴终端200的照相机260存在的实际空间形成的图像。3人称图像1020与1人称图像1010不同，与可穿戴终端200的照相机260在实际空间的位置，即发送侧的装置的视点无关能够以任意设定的视点生成，所以在本说明书中称作“3人称图像”。3人称图像1020例如是服务器100的处理器基于从可穿戴终端200提供的空间信息对可穿戴终端200的照相机260获取的实际空间的图像进行加工而生成的，并通过通信部发送给平板终端300。

在3人称图像1020中，照相机260拍摄到的图像能够作为流帧1021显示。流帧1021例如是与上述的1人称图像1010相同的图像，根据空间信息配置于在显示的实际空间中与流帧1021的画面对应的四边形的区域。该区域的形状例如根据3人称图像1020的视点相对于流帧1021的倾斜，例如能够变形为梯形、不等边四边形等形状。

此外，在3人称图像1020中能够设定完全自由的视点的情况下，例如也能够设定流帧1021在3人称图像1020的显示范围外的视点，或在流帧1021的背面侧设定视点。在这样的情况下，也可以不在3人称图像1020显示流帧1021。并且，该情况下，也可以解除3人称图像1020和具有提供流帧的照相机260的可穿戴终端200的链接，使3人称图像1020暂时地从发送侧的装置脱离。该情况下，能够基于脱离时的空间信息的缓存进一步使3人称图像1020的视点移动，例如在流帧1021、从其它发送侧的装置提供的流帧再次进入3人称图像1020的显示范围的情况下，再次打开3人称图像1020和发送侧的装置的链接。另外，在3人称图像1020的视点设定于流帧1021的背面侧的情况下，也可以在流帧1021的显示中仅出现框而继续显示。或者，也可以限制3人称图像1020中的视点的设定，以去除如上述那样不进行流帧1021的通常的显示的范围。

由于3人称图像1020中的流帧1021以外的部分即使能够通过空间信息进行识别，也不对其提供实时的图像，所以例如如图示的例子那样，能够使用线框等示意地显示。此外，图示的线框表示四方的房屋，但这未必指实际空间就是这样的房屋，例如也可以是在广阔的实际空间中为了识别上下而显示的。另外，也可以如图9所示的例子那样，例如利用拼接解析的结果，将过去提供的流帧1024贴合在流帧1021上进行显示。或者，也可以在流帧1021的周围显示与后述的1.3人称图像相同的周边区域图像。

并且，也可以如图7以及图8所示那样，在3人称图像1020显示1人称图像的视点物体1022和1.3人称图像的视点物体1023。1人称图像的视点物体1022表示1人称图像即流帧1021的视点。另外，1.3人称图像的视点物体1023表示每当生成后述的1.3人称图像时虚拟地设定的视点。这些视点的位置均可以基于空间信息来确定。在3人称图像1020中，例如也可以通过选择视点物体1022或者视点物体1023来实施向与各个视点对应的图像，即向1人称图像1010或者后述的1.3人称图像的切换。另外，在3人称图像1020中，也可以以在实际空间中识别的物体为基准，以该物体正对以及／或者放大的方式自动地变更视点。

由于这样的显示，3人称图像1020的显示范围例如也可以不受可穿戴终端200的照相机260移动引起的流帧1021的显示范围变化的影响。例如，若照相机260移动，则流帧1021的显示区域以及显示内容变化，1人称图像的视点物体1022可以移动，但也可以维持3人称图像1020的显示范围。另外，1.3人称图像的视点物体1023也可以伴随照相机260的移动而移动。例如在平板终端300中，在获取了来自阅览3人称图像1020的用户的视点变更的指示的情况下，也可以变更3人称图像1020的显示范围。

此外，3人称图像1020也可以不仅基于通过单一的发送侧的装置例如可穿戴终端200的照相机260获取的实际空间的图像来生成。例如，3人称图像1020例如也可以通过进一步组合通过可穿戴终端200和存在于同一实际空间（例如同一房屋等）的其它装置（例如固定照相机600）获取的实际空间的图像来生成。该情况下，固定照相机600也对实际空间的图像数据附加空间信息后提供给服务器100。服务器100也可以基于从各装置提供的空间信息，生成组合多个实际空间的图像数据而形成的3人称图像1020。该情况下，在3人称图像1020中，也可以显示多个流帧1021。

1.3人称图像

图10A是表示本发明的一个实施方式中的1.3人称图像的显示例的图。图10A示出1.3人称图像1030。1.3人称图像1030是基于可穿戴终端200的照相机260拍摄的图像，从照相机260的背面侧的视点虚拟地拍摄实际空间形成的图像。也可以与1人称图像1010的视点不同地设定1.3人称图像1030的视点，但并不像3人称图像1020的视点那样自由地设定，所以在本说明书中，使用1.3人称图像作为意指具有1人称图像和3人称图像的中间性质的图像的用语。此外，例如若参照图7以及图8所示的在3人称图像1020中显示的视点物体1022以及视点物体1023之间的关系，则容易理解1.3人称图像1030的视点和1人称图像1010的视点之间的关系。

在1.3人称图像1030中，例如将照相机260拍摄的图像显示为流帧1031。流帧1031例如可以是与上述的1人称图像1010相同的图像。这里，由于1.3人称图像1030的视点被设定在照相机260的背面侧，所以流帧1031的位置典型的是在1.3人称图像1030的中央附近，流帧1031的形状典型的是矩形。

这里，在照相机260移动的情况下，1.3人称图像1030的显示范围也可以随着流帧1031变化。此时，例如服务器100的处理器也可以在通过噪声滤波器或者低通滤波器等处理了基于空间信息计算出的照相机260的位移的基础上，使其反映于1.3人称图像1030的视点的位移。由此，例如在流帧1031因照相机260的细微动作而产生偏移的情况下，也能够抑制1.3人称图像1030的偏移。另外，例如在可穿戴终端200的用户回头等使照相机260的位置或者姿势急剧地变化的情况下，也使1.3人称图像1030的显示范围顺利地追随，从而阅览1.3人称图像1030的用户能够容易识别在视点中产生了什么样的变化。这样，在1.3人称图像1030的显示范围的变化相对于流帧1031的显示范围变化被调整的情况下，能够使流帧1031暂时地显示于1.3人称图像1030的中央以外的位置，或不显示于1.3人称图像1030。

另外，在1.3人称图像1030中，可以在流帧1031的周围显示周边区域图像1032。周边区域图像1032也可以如参照图9示出3人称图像1020的例子那样，通过利用拼接解析等的结果将过去提供的流帧贴合在流帧1031的周围来生成。或者也可以将使用通过SLAM法等检测出的特征点、密集映射（dense mapping）的三维数据等生成的流帧1031的周围的空间模型作为周边区域图像1032显示。此时，也可以将从过去的流帧提取出的图像作为纹理贴合在空间模型所包含的面上。例如有在距流帧1031远的1.3人称图像1030的边边缘部等，作为过去的流帧1031积累起来的图像较少，或由于在从流帧1031的显示范围偏移后经过一段时间，所以实际空间的状况变化的可能性，或空间模型的精度降低的可能性。在这样的情况下，也可以如图示那样，部分地显示周边区域图像1032或部分模糊地显示周边区域图像1032。

图10B以及图10C是用于说明本发明的一个实施方式中的1.3人称图像的图。参照这些图，从其它的观点进一步对上述的1.3人称图像进行说明。如图10B所示，例如在通过SLAM法等获取的实际空间的坐标系中，将1.3人称图像的视点CP2设定在使1人称图像的视点CP1虚拟地后移的位置。

这里，例如服务器100的处理器通过对视点CP2追随视点CP1时的移动速度（以下也称为视点CP2的追随速度）设定规定的上限值，或使视点CP1的移动速度乘以比1小的增益来设定视点CP2的追随速度，在视点CP1急剧移动的情况下也能够使视点CP2顺利地追随。由此，能够使阅览1.3人称图像的用户容易识别视点产生了什么样的变化。

然而，若通过视点CP1获取的帧FRM即1人称图像的最新帧从1.3人称图像的范围偏移，则难以保持显示于1.3人称图像的空间的上下文。因此，例如即使在如上述那样通过设定上限值、增益来抑制视点CP2的追随速度的情况下，在由于视点CP1的移动速度大而使帧FRM的规定比例以上的区域从1.3人称图像的范围偏移的情况下，例如也可以进一步增大上限值、增益的值，提高视点CP2的追随速度，追加将帧FRM保持在1.3人称图像的范围内的控制。

图10C例如表示实施上述的控制时显示的图像的例子。A表示1人称图像1010。在B中，通过使1人称图像1010的视点虚拟地后移，开始1.3人称图像1030的显示。在图示的例子中，由于此时还没有积累过去的帧图像，所以不在1.3人称图像1030的帧FRM以外的部分进行任何显示。

在C中，在显示1.3人称图像1030的状态，视点CP1移动，1.3人称图像的视点CP2也追随视点CP1移动。但是，如上述的例子那样，由于抑制视点CP2的追随速度，所以1.3人称图像1030的显示范围的移动相对于帧FRM的移动稍许延迟。因此，帧FRM位于从1.3人称图像1030的中央稍许偏移的位置。另一方面，此时，例如也可以利用在B等中显示的过去的帧FRM的图像，也在最新的帧FRM以外的部分显示物体。

在D中，由于视点CP1的移动速度大，视点CP2若以抑制的追随速度不能完全追随视点CP1，帧FRM的一部分从1.3人称图像1030的显示范围偏移。此时，例如服务器100的处理器使上限值、增益的值进一步增大，提高视点CP2的追随速度。结果，在E中，帧FRM的整体再次返回至1.3人称图像1030的显示范围。

除了上述的基于视点CP1的移动速度以及帧FRM的显示状态的视点CP2的追随速度的控制外，例如服务器100的处理器也可以在平板终端300等获取对1.3人称图像1030的操作（例如注解的输入等）的装置中，获取经由触摸面板等对1.3人称图像1030的操作的情况下，通过抑制视点CP2的移动，使1.3人称图像1030的显示范围固定。由此，例如用户容易对显示于1.3人称图像1030的特定位置进行操作。

另外，对于1人称图像1010和1.3人称图像1030的显示的切换，例如可以是以下的构成。首先，例如服务器100的处理器在未识别到照相机的视点位置（探索中）的情况下，显示1人称图像1010。这里，例如在通过SLAM法等识别到视点位置，开始了跟踪的情况下，处理器也可以将显示的图像切换成1.3人称图像1030。然后，例如在基于SLAM法等的跟踪失败，再次开始视点位置的探索的情况下，处理器也可以将显示的图像返回至1人称图像1010。此外，该例中从1人称图像1010向1.3人称图像1030的迁移、从1.3人称图像1030向1人称图像1010的迁移均可以伴随动画显示。

如以上所说明的那样，在本实施方式中，在接收侧的装置（在上述的例子中为平板终端300），能够提供超出发送侧的装置（在上述的例子中为可穿戴终端200）的拍摄部拍摄的范围来显示实际空间的图像。由此，接收侧的装置的用户不受发送侧的装置的用户的视点限制，能够以自由的视点共享实际空间的图像。

应用例1

并且，参照图10D～图10F，对本发明的一个实施方式中的1.3人称图像以及3人称图像的例子进行说明。此外，在该项的说明中，也将1.3人称图像和3人称图像统称为体外脱离视点图像。

体外脱离视点图像是通过将配置有过去的帧（1人称图像的帧）和实时的帧（最新的帧FRM）的虚拟空间渲染成从阅览图像的用户控制的虚拟的照相机视点M_v观察到的影像而生成的。在配置于空间的帧的渲染中，为了减少由拼接错误引起的视觉的不匹配，以基于虚拟照相机的姿势和配置的帧的姿势差值而决定的透射率显示各帧。

在空间识别失败的情况此时，M_v一边维持规定的时间，过去的帧一边浅浅地消失，仅描绘更新实时的帧。在规定的时间内，空间识别恢复的情况下，恢复过去的帧的描绘。另一方面，在规定的时间内，空间识别没有恢复的情况下，初始化空间识别，再次开始体外脱离视点的构建。

这里，在该例中，对体外脱离视点图像大致设定3种模式。在以下的说明中，将3种模式称为跟随模式、视点移动模式以及指示模式，该名称比较方便。例如服务器100的处理器根据阅览图像的用户的操作控制这些模式的切换等。

跟随模式

图10D所示的跟随模式是在阅览图像的用户U（以下也称阅览用户）不进行特别的操作而阅览体外脱离视点图像的情况下设定的模式。通过如图所示那样决定虚拟照相机的位置姿势来显示跟随模式的图像1030d。例如根据T，_bc（t）、R，_bc（t），通过以下的式1能够得到平滑化的照相机姿势M’_bc（t），其中，T’_bc（t）、R’_bc（t）是将由通过SLAM法等推断出的可穿戴终端200（发送侧的装置）的照相机260的姿势、位置M_bc（t）得到的平行移动分量T_bc（t）以及旋转分量R_bc（t）分别通过kT、kR的系数平滑化而得到的。

式1

如图10D所示那样，控制虚拟照相机的位置以及姿势Mv（t），使其在各时刻从按照时间序列平滑化的照相机姿势M’_bc（t）向为了看到更广阔的范围而虚拟地向后方移动了规定偏移量T_offset的位置靠近。这里，系数k_v是为了控制以何种程度追随照相机260的视点而设定的。在本例中，在实时的帧（FRM）在图像的范围内时，将系数k_v设定成更小的值（提供虚拟照相机不太移动而在空间定位的图像），在实时的帧（FRM）不在图像的范围内时，将系数kv设定成更大的值（虚拟照相机追随实时的帧）。例如将使用了这样的系数kv的控制表示成以下的式2。

式2

由此，阅览用户在通过以照相机260的动作为基础进行平滑化的动作，进行空间定位而拼接的状态下，能够同时阅览实时的帧和过去的帧。因此，阅览用户与照相机260（佩戴了照相机的用户）相比，能够环视更广阔的空间，并且能够识别照相机260（佩戴了照相机的用户）在当前视场空间中的位置。在跟随模式中，由于这样的各自的视场关系没有用户的介入而自动地更新，所以例如阅览用户、佩戴了照相机260的用户均无需进行视场的设定控制。

视点移动模式

图10E所示的视点移动模式例如是在阅览图像的用户U（以下也称阅览用户）距显示器规定的距离以上执行指示操作（在图示的例子中，利用手势执行指示操作，但也可以是使用了指示器等的指示操作）时设定的模式。在视点移动模式中，显示使虚拟照相机的位置Mv移动后的图像1030e。

例如，用户U在距显示器规定的距离以上的位置，对跟随模式的图像1030d执行指示操作。此时，服务器100的处理器执行通过指示操作确定出的图像内的位置、和在跟随模式中显示的各帧的相遇（hit）判定，基于其结果，确定出由用户U指示的焦点帧（focus frame）FRM’。并且，处理器在从焦点帧FRM，的位置M’_f虚拟地向后方移动了规定偏移量T（d）_offset的位置设定虚拟照相机的新的位置M’_v。由此，虚拟照相机的位置从到目前为止的跟随模式中的位置M_v向视点移动模式中的位置M’_v。该移动例如也可以伴随动画来执行。

在视点移动模式中，能够与最新的照相机260的方向独立地控制虚拟照相机的位置。此外，也可以将上述的偏移T（d）_offset设定成比跟随模式中的偏移T_offset更大的值。该情况下，在视点移动模式中，能够以比跟随模式更广阔的视场观察周围。

指示模式

图10F所示的指示模式例如是阅览图像的用户U（以下也称阅览用户）在距显示器规定的距离以内执行了指示操作（在图示的例子中利用手势执行指示操作，但也可以是使用了指示器等的指示操作）时设定的模式。在指示模式中，可以利用与上述的视点移动模式相同的算法决定虚拟照相机的位置M’_v。但还可以将虚拟照相机的位置M’_v设定在能够变焦地观看焦点帧FRM’的位置。由此，阅览用户能够更详细地观察焦点帧FRM’。这样的虚拟照相机的位置M_’v的设定的结果，向阅览用户提供图像1030f。

并且，在指示模式中，能够对照相机260所存在的空间执行固定的指示。该情况下，例如，服务器100的处理器对通过指示操作确定出的图像内的位置（二维的指示坐标）、和图像所包含的空间的特征点群P₀、P₁、…、P_N的二维坐标进行比较，从特征点群中提取出相对于指示坐标最近的3个特征点P’0、P’1、P’2。处理器将空间中的三维指示坐标假设为包含上述的3点（P’0、P，1、P’2）的平面上的点，例如通过以下的式3计算出指示坐标P，（x，y，z）。

式3

在上述的式3中，若求出a以及b的值，则能够求出包括上述的3点的平面上的点。例如通过由服务器100的处理器执行的以上那样的处理，阅览用户能够不执行对帧的像素的指示，而执行对根据帧识别出的空间坐标中的三维点的指示。

此外，在上述例子中，根据用户U距显示器的距离执行视点移动模式和指示模式的切换，例如在显示器比较大型的情况下，该距离可以是从显示器至用户U站立位置的距离。另外，例如在是设置于平板终端、智能电话等比较小型的显示器的情况下，也可以将用于视点移动模式和指示模式的切换的距离确定为至执行手势的用户U的手（手指）的距离、至用户U把持的指示器的距离。例如，用户U在通过手的手势开始了指示操作的情况下，在从显示器至手的距离超过阈值的情况下选择视点移动模式。然后，在从显示器至手的距离为阈值以下的情况下，也可以如上述那样将视点移动模式切换为指示模式。

应用例2

并且已经如上所述，在本实施方式中，能够利用以实际空间的位置为基准交换注解的技术。若利用该技术，则平板终端300（接收侧的装置）的用户能够对在3人称图像1020、1.3人称图像1030中显示的流帧1021、1031以外的区域也输入注解。由此，例如也能够对可穿戴终端200（发送侧的装置）过去看见但现在看不见的物体、实际空间内的位置添加注解。该注解例如也可以在之后流帧1021、1031移动了的情况下显示，如后述的例子那样，在可穿戴终端200中，也可以在图像1200外显示用于表示存在注解的通知。

图11以及图12是表示在本发明的一个实施方式中同时显示不同视点的图像的例子的图。在图11所例示的图像1040中，同时显示3人称图像1020和1人称图像1010。此时，在3人称图像1020中，例如也可以强调显示1人称图像的视点物体1022。另外，在图示的例子中，作为3人称图像1020的画面的子画面显示1人称图像1010，但也可以相反地，作为1人称图像1010的画面的子画面显示3人称图像1020。

另一方面，在图12所例示的图像1050中，同时显示3人称图像1020和1.3人称图像1030。此时，在3人称图像1020中，例如也可以强调显示1.3人称图像的视点物体1023。另外，在图示的例子中，作为3人称图像1020的画面的子画面显示1.3人称图像1030，但也可以相反地，作为1.3人称图像1030的画面的子画面显示3人称图像1020。

这样，通过同时显示不同视点的图像并提供给接收侧的装置（在上述的例子中为平板终端300）的用户，例如能够容易地发现提供用户所希望的共享体验的图像是从哪个视点观察到的图像。

4.注解在实际空间的显示

接着，参照图13～图20，对本发明的一个实施方式中的注解在实际空间的显示进行说明。在本实施方式中，如上述那样，在发送侧的装置中对要发送的实际空间的图像数据附加空间信息。空间信息例如是表示发送侧的装置的拍摄部在实际空间中的位置以及姿势的信息。若利用该信息，则发送侧的装置能够以各种形式使由接收侧的装置输入的注解直接或者间接地显示于某实际空间。

此外，在以下的说明中，使用特定的装置的例子对发送侧的装置、接收侧的装置、以及服务器的动作进行说明，与这些的例子无关，能够通过上述的系统10中的任意装置的组合来实现相同的构成。

4－1.显示例

图13是表示本发明的一个实施方式中的注解显示的第1例的图。图13示出平板终端300c和平板终端300d。在图示的例子中，平板终端300c通过未图示的照相机（拍摄部）拍摄实际空间的图像，将其作为图像1300c显示于显示器330c（显示部）。平板终端300c的用户通过设置在显示器330c上的触摸传感器340（操作部）针对图像1300c输入注解1310c。这里，在平板终端300c中，不是指定图像1300c内的位置，而是指定通过图像1300c获取的实际空间内的位置来输入注解1310c。能够基于平板终端300c与拍摄图像一起获取的空间信息指定实际空间内的位置，例如也可以作为以平板终端300c的拍摄部为基准的相对位置、或者以空间内的特征点等为基准的位置表现。

另一方面，平板终端300d也通过未图示的照相机（拍摄部）拍摄实际空间的图像，将其作为图像1300d显示于显示器330d（显示部）。如图示那样，平板终端300c和平板终端300d处于相同的空间，在平板终端300d的照相机的视场角包含平板终端300c，在图像1300d映有平板终端300c’。并且，将在平板终端300c中输入的针对图像1300c的注解1310c的信息经由服务器100或者通过设备间通信发送给平板终端300d，在图像1300d中作为注解1310d显示。

这里，注解1310d显示于在平板终端300c中指定的实际空间内的位置。这是通过注解1310d在图像1300d内显示于远离平板终端300c’的空中来表现的。平板终端300d也能够与拍摄图像一起获取空间信息，能够通过获取的空间信息确定出空间内的平板终端300c的位置或者空间内的特征点的位置等。因此，平板终端300d例如能够基于从平板终端300c获取的表示实际空间内的位置的信息和自己获取的空间信息，确定出注解1310d在空间内的位置。

此外，若将上述的例子与参照图1说明的系统10对应，平板终端300c作为（1）以及（2）的装置发挥功能，平板终端300d作为（3）的装置发挥功能。如上述那样，也可以将在平板终端300c中输入的注解1310c的信息通过设备间通信发送给平板终端300d。该情况下，也可以说上述的例子表示各装置不经由服务器进行通信，在任意的装置中利用空间信息执行图像处理的系统10的变形例。

图14是表示本发明的一个实施方式中的注解显示的第2例的图。图14示出平板终端300、和通过投影仪700（未图示）投影图像的屏幕（SCREEN）。在图示的例子中，平板终端300通过未图示的照相机（拍摄部）拍摄实际空间的图像，将其作为图像1300显示于显示器330（显示部）。如图示那样，由于平板终端300的照相机的视场角包括屏幕，所以在图像1300映有屏幕（SCREEN’）。

平板终端300的用户通过设置在显示器330上的触摸传感器340（操作部）针对图像1300输入注解1310。在图示的例子中，注解1310是在屏幕（SCREEN’）上描绘的乱涂的画。例如基于平板终端300与拍摄图像一起获取的空间信息，将注解1310与实际空间中的屏幕（SCREEN）上的位置建立关联。将在平板终端300中输入的注解1310的信息与实际空间的位置信息（表示屏幕的位置）一起，经由服务器100或者通过设备通信发送给投影仪700。

投影仪700不获取拍摄图像，但与平板终端300同样地获取空间信息，识别屏幕（SCREEN）在实际空间中的位置。因此，投影仪700能够将与在平板终端300中作为注解1310输入的注解相同的注解1710（乱涂的画）投影于屏幕（SCREEN）。该情况下，也可以说投影仪700能够使在平板终端300中对显示于显示器330的图像1300（虚拟空间）输入的注解通过投影直接地显示于实际空间。

图15是表示本发明的一个实施方式中的注解显示的第3例的图。图15示出平板终端300和膝上型PC500。在图示的例子中，平板终端300通过未图示的照相机（拍摄部）拍摄实际空间的图像，将其作为图像1300显示于显示器330（显示部）。如图示那样，在平板终端300的照相机的视场角包含膝上型PC500的显示器530（显示部），在图像1300映有显示器530’。

平板终端300的用户通过设置在显示器330上的触摸传感器340（操作部）针对图像1300输入注解1310。在图示的例子中，注解1310是包围显示在显示器530’上的内容的缩略图图像的一个的圆。例如基于平板终端300与拍摄图像一起获取的空间信息，将注解1310与实际空间中的显示器530的位置建立关联。将在平板终端300中输入的注解1310的信息与实际空间的位置信息（表示显示器530的位置）一起，经由服务器100或者通过设备间通信发送给膝上型PC500。

膝上型PC500不获取拍摄图像，但与平板终端300一样获取空间信息，识别实际空间中的显示器530的位置。因此，膝上型PC500能够与在平板终端300中输入的注解1310对应地，使与作为注解1310输入的注解相同的注解1510（包围缩略图图像的一个的圆）显示于显示器530。该情况下，可以说膝上型PC500通过使在平板终端300中对显示于显示器330的图像1300（虚拟空间）输入的注解显示于构成实际空间的一部分的显示器530，使其直接地显示于实际空间。

图16是表示本发明的一个实施方式中的注解显示的第4例的图。图16示出可穿戴终端200、平板终端300以及投影仪700。在图示的例子中，可穿戴终端200通过照相机260（拍摄部）拍摄实际空间的图像，并且获取空间信息，并将拍摄图像的数据与空间信息一起经由服务器100发送给平板终端300。这里，平板终端300例如也可以存在于与可穿戴终端200以及投影仪700不同的场所。

平板终端300将接收的图像作为图像1300显示于显示器330（显示部）。如图示那样，图像1300包含处于与可穿戴终端200相同的空间的桌子、桌子上的杯子、盘子、钥匙（KEY’）。平板终端300的用户通过设置在显示器330上的触摸传感器340（操作部）针对图像1300输入注解1310。在图示的例子中，注解1310包括包围钥匙（KEY’）的圆、和“Please bring this（请把它拿来）”这样的消息。将注解1310基于从可穿戴终端200与图像一起接收的空间信息，与实际空间中的钥匙（KEY）的位置建立关联。将在平板终端300中输入的注解1310的信息与实际空间的位置信息（例如表示钥匙（KEY）的位置）一起，经由服务器100发送给投影仪700。

投影仪700不获取拍摄图像，但与可穿戴终端200同样地获取空间信息，识别投影图像的面（在图示的例子中例如为桌子的表面）在实际空间中的位置。因此，投影仪700能够将与在平板终端300中作为注解1310输入的注解相同的注解1710（圆以及消息）投影到桌子上的钥匙（KEY）的周围。由此，可穿戴终端200的用户能够直接地视认投影于桌子的表面的注解1710。因此，该情况下，可穿戴终端200也可以不具有显示器等显示部。

在上述的例子中，通过以基于空间信息确定的实际空间的位置信息为基准，能够将在平板终端300中输入的注解通过与拍摄图像的装置不同的装置即投影仪700显示于实际空间，其中，空间信息附加于在可穿戴终端200中拍摄的实际空间的图像。通过这样的构成，例如可穿戴终端200也可以不具有显示器等显示部，实践利用了AR技术的用户间的交互时的装置构成的自由度提高。

图17是表示本发明的一个实施方式中的注解显示的第5例的图。图17示出固定照相机600、平板终端300、以及投影仪700。此外，投影仪700可以与之前的例子所示出的固定型不同，是手持式的。在图示的例子中，固定照相机600通过照相机660（拍摄部）拍摄实际空间的图像，并且获取空间信息，将拍摄图像的数据与空间信息一起经由服务器100发送至平板终端300。这里，平板终端300例如也可以存在于与固定照相机600以及投影仪700不同的场所。

此外，由于固定照相机600不移动，所以可以利用与上述的例如可穿戴终端200等的情况不同的方法获取固定照相机600中的空间信息。例如，固定照相机600中的空间信息可以是在设置时等测量周边环境而设定的固定信息。该情况下，固定照相机600除了具有存储于存储器的空间信息外，也可以不具有用于获取空间信息的传感器等。在其它的固定型装置中也可以实施这样的空间信息的获取。

平板终端300将接收的图像作为图像1300显示于显示器330（显示部）。如图示那样，图像1300包含处于固定照相机600下方的桌子、和桌子上的钥匙（KEY’）。平板终端300的用户通过设置在显示器330上的触摸传感器340（操作部）针对图像1300输入注解1310。在图示的例子中，注解1310包含包围钥匙（KEY’）的圆。将注解1310基于从固定照相机600与图像一起接收的空间信息与实际空间中的钥匙（KEY）的位置建立关联。将在平板终端300中输入的注解1310的信息与实际空间的位置信息（例如表示钥匙（KEY）的位置）一起，经由服务器100发送给投影仪700。

投影仪700不获取拍摄图像（也可以获取），但获取空间信息，识别投影图像的面（在图示的例子中例如为桌子的表面）在实际空间中的位置。因此，投影仪700能够将与在平板终端1310中作为注解1310输入的注解相同的注解1710（圆）投影于桌子上的钥匙（KEY）的周围。此外，投影仪700是手持式，能够由用户携带，容易移动。因此，投影仪700中的空间信息的获取方法例如可以与可穿戴终端200等便携式的终端相同。

在上述的例子中，通过以基于空间信息确定出的实际空间的位置信息为基准，使在平板终端300中输入的注解通过与拍摄图像的装置不同的装置即投影仪700直接地显示于实际空间，其中，空间信息附加于在固定照相机600中拍摄的实际空间的图像。在该例中，投影仪700是手持式的，能够由用户携带，在实际空间内的任意位置投影图像。因此，例如用户好像使用手电筒在黑暗中探索一样，利用投影仪700在实际空间内的各种场所投影图像，能够探索根据平板终端300的用户所输入的注解而指示的物体或者位置。该情况下，用户无需佩戴可穿戴终端200这样的装置，能够更加自由地实践利用了AR技术的用户间的交互。

图18是表示本发明的一个实施方式中的注解显示的第6例的图。图也可以说18的例子是在上述中参照图16说明的例子的变形例。在图中示出可穿戴终端200和平板终端300。在图示的例子中，可穿戴终端200通过照相机260（拍摄部）拍摄实际空间的图像，并且获取空间信息，将拍摄图像的数据与空间信息一起经由服务器100发送至处于与可穿戴终端200以及平板终端300不同的场所的装置。此外，在图中未图示发送目的地的装置。

平板终端300从服务器100接收在上述发送目的地的装置中输入的注解的信息。平板终端300放置在处于与可穿戴终端200相同的空间的桌子上。平板终端300不获取拍摄图像（也可以具有拍摄部本身），但与可穿戴终端200相同，获取空间信息，识别实际空间中的显示器330的位置。在图示的例子中，在放置在桌子上的平板终端300的显示器330上显示有指向相邻的钥匙（KEY）的箭头1310。该箭头可以是在上述发送目的地的装置中，与针对图像所显示的钥匙输入的注解对应的显示。

4－2.注解的配置

图19是用于说明本发明的一个实施方式中的注解的配置的图。图19所示的可穿戴终端200将由照相机260（拍摄部）拍摄到的实际空间的图像与空间信息一起发送给服务器100。并且，可穿戴终端200与实际空间的位置信息一起接收由其它装置针对发送的图像输入的注解的信息，并基于接收的信息，与透过显示器230（显示部）被视认的实际空间的像重叠地显示注解1210。此外，注解1210被图示在与实际空间的像重叠虚拟地显示的、结果被可穿戴终端200的用户识别的位置。换句话说，图示的注解1210在可穿戴终端200的用户以外不可见。

注解1210以指向桌子上的钥匙（KEY）的方式显示，在图中示出其2个例子。这里所说的2个例子是空间配置的注解1210a、以及物体配置的注解1210b。

在图示的例子中，注解1210a显示在钥匙（KEY）上方的空中。为了容易引起视认图像的用户的注意，例如这样的注解的空间配置适用于想通过注解指示方向的情况等。另外，例如在欲表现照片的拍摄角度等的情况下，拍摄照片时，配置照相机的位置在空中的情况较多（因为照相机通常被用户把持或设置在三脚架等上），所以注解的空间配置可以有用。此外，上述的注解的空间配置例如除了能够将注解作为图像显示于显示器外，例如也能够如上述的图16以及图17的例子那样，通过投影仪投影显示注解，例如投影仪是3D投影仪。

另一方面，注解1210b显示在放置钥匙（KEY）的桌子上且在钥匙（KEY）的附近。为了容易识别与成为注解对象的物体的关系，例如这样的注解的物体配置适于欲通过注解指示物体的情况等。此外，在物体配置注解的情况下，为了确定出成为对象的物体，可以使用通过SLAM法等检测出的特征点、密集映射的三维数据等。或者，在利用已知的物体识别技术识别有各个物体的情况下，也可以从这些物体中确定出成为对象的物体。在识别有物体的情况下，例如即便在物体（通过用户的手移动等）与空间独立地移动的情况下，也能够追随物体配置注解。

在受理注解输入的装置（以下作为例子设为平板终端300，但也可以是其它的装置）中，通过任意的方法选择上述那样的注解的空间配置和物体配置。例如，平板终端300或者服务器100的处理器可以根据用户将要输入的注解的种类，自动地初始设定空间配置或者物体配置。如上述那样，可以在方向的指示、拍摄角度的显示的情况下自动地选择空间配置，在物体的指示的情况下自动地选择对象配置。另外，注解的配置也可以通过用户对装置操作部的操作来选择。

例如，如图20所示的例子那样，也可以提供在使用触摸传感器340对显示于平板终端300的显示器330的图像1300输入注解1310的情况下，显示空间配置的注解1310a和物体配置的注解1310b这两方，用户通过触摸操作选择其中一方的GUI（Graphical User Interface）。

例如，在通过这样的GUI切换注解1310的配置的情况下，存在难以识别是将注解1310通过空间配置显示于空中，还是通过对象物配置显示于其内侧物体的表面的情况。为了这种情况，例如对于空间配置的注解1310a，也可以将图像1300所映出的实际空间的上方作为光源，使其显示阴影，从而容易识别是配置于空中。作为相同的显示，也可以显示从空间配置的注解1310到其下方的物体表面的垂线。另外，为了容易识别注解1310的纵深方向的位置，也可以在图像1300的纵深方向显示格子。对于注解1310的纵深方向的位置的调整，也可以使用利用了触摸传感器340的缩小／放大、另行设置的向正前方／内侧的移动按钮。另外，平板终端300的传感器也可以检测使平板终端300本身向从用户观察的正前方／内侧移动的动作，处理器使其动作反映于注解1310的纵深方向的位置。

5.处于可视认范围外的注解的显示

接着，参照图21～图32，对本发明的一个实施方式中的处于可视认范围外的注解的显示进行说明。在本实施方式中，如上述那样，对在发送侧的装置发送的实际空间的图像数据附加空间信息。若利用该空间信息，则在接收侧的装置中，则能够与在发送侧的装置显示的图像的显示范围无关，在实际空间的任意位置输入注解。

例如，在上述的图3A以及图3B的例子中，与在可穿戴终端200（发送侧的装置）中显示于显示器230（显示部）的图像1200的显示范围相比，通过照相机260（拍摄部）拍摄并在平板终端300（接收侧的装置）中显示的图像1300的显示范围宽。在这样的情况下，在平板终端300中，也能够针对在当前时刻不包含在由可穿戴终端200显示的图像1200的显示范围内的实际空间的位置输入注解1310、1320。将输入的注解与基于由可穿戴终端200获取的空间信息定义的实际空间的位置信息建立关联，并由平板终端300、服务器100或者可穿戴终端200保持，在之后相机260随着可穿戴终端200移动，使该位置在图像1200的显示范围内的情况下，能够作为注解1210、1220显示于图像1200。

另外，例如在上述的图7～图10C的例子中，作为3人称图像1020或者1.3人称图像1030，显示超过了在发送侧的装置视认的1人称图像1010的范围的图像，在接收侧的装置阅览这些图像的用户也能够针对处于1人称图像1010的显示范围外的实际空间输入注解。该情况下，将输入的注解与基于由发送侧的装置获取的空间信息定义的实际空间的位置信息建立关联，并进行保持，在之后1人称图像1010的显示范围移动而包含该位置的情况下，能够显示。

在上述的情况下，例如若发送侧的装置（以下作为例子设为可穿戴终端200）的用户不知道注解的存在，则存在注解不包含在图像1200的显示范围内而时间逝去的可能性。在利用了AR技术的用户间的交互中，考虑到多数的注解是接收侧的装置（以下作为例子设为平板终端300）的用户为了向可穿戴终端200的用户传达一些事情而输入的，所以优选可穿戴终端200的用户知道注解的存在。

因此，在本实施方式中，如以下的例子所示那样，能够显示与处于可视认范围外的注解相关的信息。这些信息的显示也是注解的一种，但在以下的说明中，存在将由接收侧的装置的用户输入的信息特别地称作注解而加以区分的情况。用于它们显示的显示控制例如也可以由显示注解的装置（例如可穿戴终端200、平板终端300等）的处理器执行，还可以由用于识别这些装置中的可视认范围外的服务器100的处理器执行。此外，以下的例子例如与上述的各种例子独立，在存在向实际空间的图像的可视认范围外输入注解的可能性的情况下，能够普遍适用。

第1例

图21～图23是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的第1例的图。

图21表示注解处于图像1200（可视认范围）中的情况的显示例。该情况下，以放置在桌子上的杯子（CUP）为对象显示注解，注解包括指示光标1210和注释1220。

图22表示作为注解对象的杯子（CUP）处于图像1200外的情况的显示例。该情况下，能够代替图21所示的注解，显示表示注解的对象所存在的方向的方向显示1230。例如通过基于可穿戴终端200获取的空间信息，确定出图像1200的显示范围和注解的对象的位置关系，能够显示方向显示1230。另外，此时也可以与方向显示1230一同显示注解中的注释1220。注释1220是表示注解的内容或者种类等的信息，所以即使不与指示光标1210一起显示，而与方向显示1230一起显示也有用。

图23表示可穿戴终端200的用户根据方向显示1230改变照相机260的方向等，从而使图像1200的显示范围移动，作为注解对象的杯子（CUP）的一部分包含在图像1200内的情况的显示例。该情况下，即使不是对象的全部都包含在图像1200内，也可以显示指示光标1210的一部分和注释1220作为注解。

第2例

图24以及图25是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的第2例的图。在该第2例中，除了显示在可视认范围外存在注解的对象外，还显示值注解的对象的距离。

图24是表示从可视认范围至注解的对象的距离不同的2个图像的显示的例子的图。在该例中，能够通过圆1240显示在可视认范围外存在注解。也如图25所示那样，能够以与从注解的对象至可视认范围的距离对应的半径显示圆1240。如图25A所示，在从注解的对象至可视认范围（图像1200a）的距离大的情况下，显示更大的半径r1的圆1240a。另外，如图25B所示，在从注解的对象至可视认范围（图像1200b）的距离小的情况下，显示更小的半径r2的圆1240b。也可以根据至注解的对象的距离连续地设定圆1240的半径r，还可以分阶段设定。另外，如图24所示，也可以与圆1240一起显示注解中的注释1220。

通过像这样显示圆1240，例如观看图像1200的用户不仅能够把握在可视认范围外存在注解，还能够直观地把握使图像1200的显示范围向哪个方向移动多少的话能够视认注解。

第3例

图26以及图27是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的第3例的图。

图26表示作为注解的对象的苹果（APPLE）处于图像1200外的情况的显示例。该情况下，能够与和图22的例子相同的方向显示1250一起显示对象的图标1251。图标1251例如是在现在或者过去，在照相机260拍摄的图像中包含苹果（APPLE）的情况下，服务器100或者可穿戴终端200的处理器从通过照相机260拍摄的图像剪出苹果APPLE的部分而生成的。该情况下，图标1251无需根据照相机260获取的帧图像的变化而变化，例如也可以是静态图像。或者若是苹果APPLE被物体识别的情况，则也可以与照相机260拍摄的图像无关，将表示苹果的插图、照片作为图标1251显示。另外，此时，也可以与方向显示1250以及图标1251一同显示注解中的注释1220。

图27表示可穿戴终端200的用户根据方向显示1230改变照相机260的方向等，从而使图像1200的显示范围移动，作为注解的对象的苹果（APPLE）的一部分包含在图像1200内的情况的显示例。该情况下，也可以使方向显示1250以及图标1251的显示结束，与图23的例子相同，显示指示光标1210的一部分和注释1220作为注解。

通过像这样显示图标1251，例如观看图像1200的用户不仅能够把握在可视认范围外存在注解，也能够把握注解的对象是什么，能够容易决定是马上看还是以后看这样的行动。

第4例

图28是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的第4例的图。在图示的例子中，在作为注解的对象的苹果（APPLE）处于图像1200外的情况下，更靠近苹果的图像1200的端部分1260发光。例如，在图像1200a中，由于苹果在画面的右下的方向，所以右下的端部分1260a发光。另外，在图像1200b中，由于苹果处于画面的左上的方向，所以左上的端部分1260b发光。在图像1200c中，由于苹果处于画面的左下的方向，所以左下的端部分1260c发光。

在上述的例子中，能够基于从图像1200观察，注解的对象所存在的方向来设定端部分1260的区域。在图中示出倾斜方向的例子，但在其它的例子中，也可以在苹果处于图像1200的左方向的情况下，左侧的端部分1260发光。该情况下，端部分1260也可以是图像1200的左侧边的整体。另外，在注解的对象存在于倾斜方向，包括图像1200的角的端部分1260发光的情况下，也可以根据注解的对象所存在的方向的角度来设定夹住角的端部分1260的纵部分和横部分的比率。该情况下，例如若在更靠上的左上存在对象，则与端部分1260的纵部分（沿图像1200的左边）相比，横部分（沿图像1200的上边）变长。相反，若在更靠左的左上存在对象，则与端部分1260的横部分（沿图像1200的上边）相比，纵部分（沿图像1200的左边）变长。另外，在其它的例子中，也可以代替端部分1260发光，而以规定的颜色（也可以是透过色）着色。

这样，在通过端部分1260的显示的变化通知在可视认范围外存在注解的情况下，例如也可以不进行基于箭头等的其它的方向显示，所以能够不妨碍图像1200的显示地通知注解的存在。

第5例

图29是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的第5例的图。在图示的例子中，作为注解显示有注释1220。但是，由于注释1220横向较长，所以不能完全显示于图像1200。在图中也示出由此产生的非显示部分1221。可以说该情况下的注释1220的非显示部分1221也是处于可视认范围外的注解。为了表示该非显示部分1221的存在，在注释1220与图像1200的端部抵接的部分显示发光区域1280。

这里，也可以根据非显示部分1221的长度（例如可以以长度方向的像素数等表现，还可以与注释1220的显示部分的比率、与其它的非显示部分1221的比率来表现）设定发光区域1280的长度。在图示的例子中，针对注释1220a的非显示部分1221a显示发光区域1280a，针对注释1220b的非显示部分1221b显示发光区域1280b，但也可以反映非显示部分1221b比非显示部分1221a长，显示为发光区域1280b比发光区域1280a长。

这样，在通过发光区域1280的显示通知在可视认范围外存在注解的情况下，能够在作为注解的注释1220的内部完成显示，所以不妨碍图像1200的显示就能够通知注解的存在。另外，在根据非显示部分1221的长度设定发光区域1280的长度的情况下，用户直观地把握注释1220作为整体有多长，所以容易决定是马上看还是以后看这样的行动。此外，在想要将注释1220的非显示部分1221包含于图像1200的显示的情况下，例如也可以使图像1200的显示范围移动，或者向图像1200的内侧（若是图示的例子的注释1220a则向左侧，若是注释1220b则向右侧）拖拽注释1220。

第6例

图30是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的第6例的图。在图示的例子中，显示在道路引导中表示方向的箭头的注解1210。例如在用户看图像1200b的情况下能够视认该注解1210，但在看图像1200a的情况下不能够视认。因此，用户在看图像1200a的情况下，能够显示注解1210的阴影1290。通过显示阴影1290，看图像1200a的用户能够识别在画面上方的外部存在注解。

在之后，用户看图像1200b的情况下，可以结束阴影1290的显示，也可以继续显示。在与注解1210一同继续显示阴影1290的情况下，通过显示阴影1290，用户能够容易识别配置在空中的注解1210的纵深方向的位置。

通过像这样显示阴影1290，虽然受虚拟光源的方向的制约，但能够通过协调的显示通知用户注解的存在。

应用例

图31以及图32是表示本发明的一个实施方式中的处于可视认范围外的注解的显示的应用例的图。在图示的例子中，在可穿戴终端200的用户观看的图像1200从图像1200a变化到图像1200b，再变化到图像1200c的期间，注解的显示变化。在图像1200作为注解显示有指示光标1210、方向显示1230、以及注释1220。

此外，指示光标1210与上述的几个例子不同，例如作为表示用户的注视区域的图标，继续显示于图像1200的中央附近。通过方向显示1230引导可穿戴终端200的用户，例如使用户将由平板终端300的用户输入的注解的对象（在图示的例子中为锅（PAN））放入指示光标1210。

在图像1200a以及图像1200b中，由于锅（PAN）处于用户的可视认范围外，显示有表示有锅的方向的方向显示1230a以及方向显示1230b。用户根据方向显示1230使图像1200的显示范围移动，在图像1200c中将锅捕捉到显示范围，进一步将锅放入指示光标1210中，于是，开始显示注释1220。在图32中另行表示此时的图像1200c。

为了通过将作为注解的对象的锅（PAN）放入指示光标1210中，来判断为变成了可穿戴终端200的用户能够确认针对锅的注解的状态，而产生这样的显示的变化。这样，对于需要确认的注解，在注解的对象进入用户的注视区域（或者焦点区域）的情况下，认定为变成了能够确认的状态，显示注解的整体，也可以在之前通过方向显示1230等继续引导用户，使用户将对象放入注视区域（或者焦点区域）。

此外，不仅通过注解的对象进入注视区域（或者焦点区域）来认定变成了用户能够确认注解的状态，还通过在该状态下经过规定的时间来认定变成了用户能够确认注解的状态。

6.其它的显示例

接着，参照图33～图35，对本发明的一个实施方式中的其它的显示例进行说明。

图33是表示本发明的一个实施方式中的利用了边缘检测的注解对象物体的显示例的图。在图示的例子中，以车（VEHICLE）为对象输入注解1210。在图像1200中，显示注解1210，并且在车的边缘显示发光的效果1285。例如在通过利用可穿戴终端200的空间信息的生成处理，通过特征点的解析等检测车（VEHICLE）的边缘的情况，能够进行这样的显示。

通过以边缘为基准显示效果1285，例如在对象的物体不被识别，通过“这周围”这样的位置的指定输入了注解的情况下，也能够表现注解的对象。在对象的物体被识别的情况下，也可以在该物体的边缘显示效果1285。

图34以及图35是表示本发明的一个实施方式中的流帧的回滚显示的例子的图。在该例中，如图34所示，可穿戴终端200（发送侧的装置的例子）的用户看到的图像1200从图像1200p变化成图像1200q、图像1200r、图像1200s。这些图像均作为流帧依次经由服务器100发送给平板终端300（接收侧的装置的例子）。

平板终端300的用户能够对上述的各图像输入注解。在图示的例子中，对图像1200p输入注解1210p（注解A），对图像1200q输入注解1210q（注解B）。这些注解也可以实时地显示于图像1200，或例如也可以基于图像1200的显示范围移动了等的理由，不实时地显示于图像1200。

这里，在图示的例子中，也可以利用图35所示的一览显示画面1205最后阅览如上述那样输入了注解的流帧。一览显示画面1205是输入了注解的流帧，换句话说是一览显示图像1200p、1200q。可以在图像1200p、1200q中显示例如不实时地显示（也可以实时地显示）的注解1210p、1210q。例如在服务器100检测到了有针对图像1200p的注解1210p的输入的情况下，在流帧中将图像1200p作为快照保存，并且关联注解1210p的信息，从而能够进行这样的显示。

另外，作为其它的例子，也可以代替一览显示画面1205，在图像1200显示引导可穿戴终端200的用户的导航，将用户引导至获取了图像1200p或者图像1200q的位置（换句话说，图像1200的显示范围再次与图像1200p或者图像1200q相同的位置）。该情况下，在用户根据导航视认到了与图像1200p、1200q相同的图像1200的情况下，也可以在图像1200上显示注解1210p或者注解1210q。

7.应用的例子

接着，参照图36～图44，对应用了本发明的一个实施方式的应用的例子进行说明。

图36是表示利用本发明的一个实施方式的技术共享旅行者的视点的应用的例子的图。例如，佩戴可穿戴终端200等发送侧的装置并提供旅行目的地的实际空间的图像的可以是普通的旅行者（也可以是专业的记者）。例如，使用平板终端300等接收侧的装置阅览提供的图像1300的用户例如能够对图像整体、或者图像中的特定对象、位置输入注释1320（注解的一个例子）。输入的注释1320可以显示于可穿戴终端200的显示器，用于向旅行者传达请求、建议等。或者，注释1320也可以如图示那样，显示于平板终端300的图像1300。该情况下，例如也可以通过将多个用户分别输入的注释1320均显示在图像1300上，来产生共享旅行者的视点的用户间的交流。

图37是表示利用本发明的一个实施方式的技术共享登山者的视点的应用的例子的图。与图36的例子相同，例如佩戴可穿戴终端200等并提供实际空间的图像的可以是普通的登山者（也可以是专业的记者）。例如，使用平板终端300等阅览提供的图像1300的用户例如能够对图像整体、或者图像中的特定对象、位置输入注释1320（注解的一个例子）。另外，除了注解的输入之外，阅览图像1300的用户也可以捕捉图像1300，像照片一样保存。与上述的例子相同，输入的注释1320也可以向登山者传达建议等，用于共享登山者的视点的用户间的交流。

图38是表示利用本发明的一个实施方式的技术共享烹饪的人的视点的应用的例子的图。例如佩戴可穿戴终端200等并提供旅行目的地地的实际空间的图像的例如是擅长烹饪的普通的用户（也可以是烹饪老师）。例如，使用平板终端300等阅览提供的图像1300的用户例如能够对图像整体、或者图像中的特定位置输入注释1320。注释1320例如显示于可穿戴终端200的显示器，可以用于向老师角色的用户传达问题等。通过不将注释1320与图像1300内的位置建立关联，而与可穿戴终端200的周围的实际空间的位置建立关联，例如在对特定的材料、器具（在图示的例子中，提出锅中的勺子可以是更小的吗的问题）输入了注释1320的情况下，即便图像的显示范围因可穿戴终端200的移动而变化，能够使注解显示于输入了注释1320的用户意图的位置（在上述的例子中是勺子的位置）。

图39是表示利用本发明的一个实施方式的技术共享购物的人的视点的应用的例子的图。在该例中，针对佩戴可穿戴终端200等并提供店面的图像的用户，使用平板终端300等共享该图像的用户可以是个别的允许图像共享的用户，例如是提供图像的用户的家人等。换句话说，在图39的例子中，在私人的范围共享实际空间的图像。例如可以根据提供的实际空间的图像的种类、提供图像的用户作为注解期望得到什么样的信息来适当地设定是私人共享实际空间的图像，还是大众共享实际空间的图像。

在图示的例子中，作为注释1320，输入有购物清单1320p和指定苹果中的一个的注释1320q。其中，由于期望即便图像的显示范围因可穿戴终端200的移动而变化，指定苹果的注释1320q也显示于相同的苹果，所以可以与可穿戴终端200周围的实际空间的位置建立关联。另一方面，由于期望即便图像的显示范围因可穿戴终端200的移动而变化，购物清单1320p也继续显示于图像的相同的位置，所以也可以与图像1300内的位置建立关联。这样，输入注解的装置（例如平板终端300）的处理器也可以根据注解的种类、用户操作等，对将注解与实际空间的位置建立关联，或与图像内的位置建立关联进行切换。

图40是表示利用本发明的一个实施方式的技术共享工作的人的视点的应用的例子的图。在该例中，对于佩戴可穿戴终端200等并提供工作过程的图像的用户，使用平板终端300等共享该图像的用户可以是提供图像的用户作为老师预先指定的用户。老师角色的用户阅览图像1300，例如能够输入注释1320s（提醒部件容易坏，要注意的建议）等注解。另一方面，提供图像的用户例如也能够利用声音识别等（也可以利用键盘等输入），例如输入对老师角色的用户的提问等注释1320t。

换句话说，在图示的例子中，能够借助注释1320，在提供图像的用户和老师角色的用户之间例如进行与工作有关的人机交互的会话。该情况下，通过将注释1320与实际空间的位置建立关联，能够将注解准确地显示在成为对象的部件等的位置。此外，该图像还可以在与其它的用户之间也进行共享。该情况下，也可以限制提供图像的用户以及老师角色的用户以外的其它用户的注释1320的输入。或者，只要在其它用户彼此之间，也可以将由其它用户输入的注释1320显示于图像1300。

图41～图44是表示利用本发明的一个实施方式的技术切换多个用户的视点来共享的应用的例子的图。

图41是用于概念性说明视点的切换的图。图41示出存在于相同的实际空间的2个可穿戴终端200a、200b分别具有拍摄部获取图像1200a、1200b的状态。此时，若可穿戴终端200a、200b分别获取空间信息，则能够借助实际空间的位置信息识别彼此的位置（视点位置）。因此，例如通过选择映入图像1200a的可穿戴终端200b、或者映入图像1200b的可穿戴终端200a，能够切换图像1200a的显示和图像1200b的显示。

图42是表示使用了3人称图像的视点切换的例子的图。在图示的例子中，在平板终端300的显示器330显示有3人称图像1020，在其显示有2个流帧1021a、1021b。这些流帧例如能够通过图41所示的可穿戴终端200a、200b分别获取。用户例如能够通过对显示器330上的触摸传感器340的触摸操作来选择出任意一个流帧1021，从而切换来自可穿戴终端200a的视点的图像和来自可穿戴终端200b的视点的图像进行共享。

图43以及图44是表示使用了1人称图像的视点切换的例子的图。在图43所示的例子中，在1人称图像1010显示有表示可切换的视点的指示光标1011、和与该视点相关的信息1012。指示光标1011例如可以是用于指示以其它的视点提供图像的装置的显示，如图示那样，也可以表示由该装置提供的图像的视场角。另外，信息1012例如表示由其它的装置提供的图像是什么种类的图像（在图示的例子中是“照相机视图”）、或是由谁提供的图像等。在用户借助接收侧的装置的操作部选择了指示光标1011或者信息1012的情况下，能够如图44所示那样，将显示切换为来自其它视点的1人称图像1010’。此外，图43所示的图像是来自观看表演时装展览的模特的观众的视点的图像。另一方面，图44所示出的图像是来自上述模特的视点的图像，映入有在通道旁边的观众。

此外，在上述的可切换的多个视点图像例如分别设置有公共或私人、收费或免费等这类的属性。该情况下，例如在图42所示的3人称图像1020、图43所示的1人称图像1010中，只要是公共的、或者即便是私人的也已经得到许可而可以阅览的图像，也可以显示指示光标1011、信息1012。或者，在3人称图像1020、1人称图像1010中，通过阅览图像的用户的设定，只要是免费、或即便收费也已经付款而能够阅览的图像，也可以显示指示光标1011、信息1012。

8.补充

本发明的实施方式例如包括在上述中说明的图像处理装置（服务器或者客户端）、系统、由图像处理装置或者系统执行的图像处理方法、用于使图像处理装置发挥功能的程序、以及记录了程序的永久性的有形的介质。

以上，参照附图对本发明的优选实施方式进行了详细说明，但本发明的技术范围并不局限于所述的例子。理解为，若是具有本发明的技术领域的常识的人员，当然在权利要求所记载的技术思想范围内，能够想到各种变更例或者修正例，这些也当然也属于本发明的技术范围。

此外，以下的构成也属于本发明的技术范围。

（1）一种图像处理装置，该图像处理装置具备图像处理部，该图像处理部将从第1视点拍摄实际空间得到的第1图像作为输入图像来生成输出图像，上述图像处理部基于上述第1视点在上述实际空间中的位置以及姿势，来生成从在上述实际空间中具有与上述第1视点不同的位置以及姿势的第2视点虚拟地拍摄上述实际空间得到的第2图像作为上述输出图像。

（2）根据上述（1）所述的图像处理装置，以上述第1视点的位置以及姿势为基准来设定上述第2视点的位置以及姿势。

（3）根据上述（2）所述的图像处理装置，还具备显示控制部，上述显示控制部控制终端装置的显示部显示上述输出图像，上述图像处理部基于上述第1视点在上述实际空间中的位置以及姿势，来生成从在上述实际空间中任意的设定位置以及姿势的第3视点虚拟地拍摄上述实际空间得到的第3图像作为上述输出图像，上述显示控制部使上述显示部显示上述第2图像或者上述第3图像的中任一方或者两方。

（4）根据上述（3）所述的图像处理装置，上述显示控制部使上述显示部显示至少上述第3图像，上述图像处理部在上述第2视点包含在上述第3图像的范围内的情况下，使上述第3图像显示表示上述第2视点的图标。

（5）根据上述（4）所述的图像处理装置，还具备操作获取部，上述操作获取部获取基于针对显示于上述显示部的图像的用户操作的信息，上述图像处理部在获取了基于选择表示上述第2视点的图标的用户操作的信息的情况下，使上述第2图像与上述第3图像一起或者代替上述第3图像作为上述输出图像加以提供。

（6）根据上述（2）～（5）中任意一项所述的图像处理装置，上述第2视点是使上述第1视点后退形成的视点。

（7）根据上述（2）～（6）中任意一项所述的图像处理装置，上述图像处理部基于连续地拍摄的上述第1图像连续地生成上述第2图像，上述第2视点的位置以及姿势追随上述第1视点的位置以及姿势变化。

（8）根据上述（7）所述的图像处理装置，上述图像处理部使上述第1视点的位置以及姿势的变化平滑地反映于上述第2视点的位置以及姿势。

（9）根据上述（8）所述的图像处理装置，上述图像处理部对上述第2视点的位置以及姿势的变化量设定限制，并且基于上述第1视点的位置以及姿势和上述第2视点的位置以及姿势之间的关系，在显示在上述第2图像内的上述第1图像从上述第2图像的范围偏移规定比例以上的情况下解除上述限制。

（10）根据上述（1）所述的图像处理装置，以配置于上述实际空间的物体的位置以及姿势为基准来设定上述第2视点的位置以及姿势。

（11）根据上述（1）～（10）中任意一项所述的图像处理装置，上述图像处理部在上述第1视点包含在上述第2图像的范围内的情况下，使表示上述第1视点的图标显示于上述第2图像。

（12）根据上述（11）所述的图像处理装置，还具备：显示控制部，其控制终端装置的显示部，使其显示上述输出图像；和操作获取部，其获取基于针对显示于上述显示部的图像的用户操作的信息，上述图像处理部在基于选择表示上述第1视点的图标的用户操作的信息已被获取的情况下，将第1图像与上述第2图像一起或者代替上述第2图像作为上述输出图像加以提供。

（13）根据上述（1）～（12）中任意一项所述的图像处理装置，上述图像处理部将上述实际空间中的位置以及姿势彼此不同的多个视点中的任意一个视点作为上述第2视点生成上述第2图像，并且在上述多个视点中的其它视点包含在上述第2图像的范围内的情况下，使表示上述其它视点的图标显示于上述第2图像。

（14）根据上述（13）所述的图像处理装置，还具备：显示控制部，其控制终端装置的显示部，使其显示上述输出图像；和操作获取部，其获取基于针对显示于上述显示部的图像的用户操作的信息，上述图像处理部在基于选择表示上述其它视点的图标的用户操作的信息已被获取的情况下，将与上述选择出的图标对应的上述其它视点作为上述第2视点生成上述第2图像，将新生成的上述第2图像和原来的上述第2图像一起或者代替原来的上述第2图像作为上述输出图像加以提供。

（15）根据上述（1）～（14）中任意一项所述的图像处理装置，上述图像处理部基于上述第1视点的位置以及姿势和上述第2视点的位置以及姿势之间的关系，使变形的上述第1图像显示在上述第2图像内。

（16）根据上述（15）所述的图像处理装置，上述图像处理部基于连续地拍摄的上述第1图像连续地生成上述第2图像，使最新的上述第1图像显示在上述第2图像内，并且基于过去的上述第1图像生成上述第2图像中的上述最新的第1图像以外的部分。

（17）根据上述（16）所述的图像处理装置，上述图像处理部通过上述最新的第1图像和上述过去的第1图像之间或者上述过去的第1图像彼此之间的拼接，来生成上述第2图像中的上述最新的第1图像以外的部分。

（18）根据上述（15）～（17）中任意一项所述的图像处理装置，上述图像处理部将从上述实际空间中的位置以及姿势彼此不同的多个上述第1视点拍摄上述实际空间得到的多个上述第1图像作为输入图像生成上述输出图像，并且基于上述多个第1视点各自的位置以及姿势和上述第1视点的位置以及姿势之间的关系，使变形的上述多个第1图像显示在上述第2图像内。

（19）一种图像处理方法，包括：将从第1视点拍摄实际空间得到的第1图像作为输入图像生成输出图像的处理器基于上述第1视点在上述实际空间中的位置以及姿势，来生成从在上述实际空间中具有与上述第1视点不同的位置以及姿势的第2视点虚拟地拍摄上述实际空间得到的第2图像作为上述输出图像。

（20）一种程序，该程序使将从第1视点拍摄实际空间得到的第1图像作为输入图像生成输出图像的计算机实现如下功能，即，基于上述第1视点在上述实际空间中的位置以及姿势，来生成从在上述实际空间中具有与上述第1视点不同的位置以及姿势的第2视点虚拟地拍摄上述实际空间得到的第2图像作为上述输出图像。

Claims

1.一种图像处理装置，其特征在于，

具备图像处理部，上述图像处理部将从第1视点拍摄实际空间得到的第1图像作为输入图像来生成输出图像，

上述图像处理部基于上述第1视点在上述实际空间中的位置以及姿势，来生成从在上述实际空间中具有与上述第1视点不同的位置以及姿势的第2视点虚拟地拍摄上述实际空间得到的第2图像作为上述输出图像。

2.根据权利要求1所述的图像处理装置，其特征在于，

以上述第1视点的位置以及姿势为基准来设定上述第2视点的位置以及姿势。

3.根据权利要求2所述的图像处理装置，其特征在于，

还具备显示控制部，上述显示控制部控制终端装置的显示部来显示上述输出图像，

上述图像处理部基于上述第1视点在上述实际空间中的位置以及姿势，来生成从在上述实际空间中任意地设定位置以及姿势的第3视点虚拟地拍摄上述实际空间得到的第3图像作为上述输出图像，

上述显示控制部使上述显示部显示上述第2图像和上述第3图像中的任一方或者两方。

4.根据权利要求3所述的图像处理装置，其特征在于，

上述显示控制部使上述显示部显示至少上述第3图像，

在上述第2视点被包含在上述第3图像的范围内的情况下，上述图像处理部使表示上述第2视点的图标显示在上述第3图像上。

5.根据权利要求4所述的图像处理装置，其特征在于，

还具备操作获取部，上述操作获取部获取基于针对上述显示部所显示的图像的用户操作的信息，

在基于选择表示上述第2视点的图标的用户操作的信息已被获取的情况下，上述图像处理部使上述第2图像与上述第3图像一起或者代替上述第3图像作为上述输出图像来加以提供。

6.根据权利要求2所述的图像处理装置，其特征在于，

上述第2视点是使上述第1视点后退形成的视点。

7.根据权利要求2所述的图像处理装置，其特征在于，

上述图像处理部基于连续地拍摄的上述第1图像连续地生成上述第2图像，

上述第2视点的位置以及姿势追随上述第1视点的位置以及姿势而变化。

8.根据权利要求7所述的图像处理装置，其特征在于，

上述图像处理部使上述第1视点的位置以及姿势的变化平滑地反映于上述第2视点的位置以及姿势。

9.根据权利要求8所述的图像处理装置，其特征在于，

上述图像处理部对上述第2视点的位置以及姿势的变化量设定限制，并且基于上述第1视点的位置以及姿势和上述第2视点的位置以及姿势之间的关系，在显示在上述第2图像内的上述第1图像从上述第2图像的范围偏移规定比例以上的情况下解除上述限制。

10.根据权利要求1所述的图像处理装置，其特征在于，

以配置于上述实际空间的物体的位置以及姿势为基准来设定上述第2视点的位置以及姿势。

11.根据权利要求1所述的图像处理装置，其特征在于，

在上述第1视点被包含在上述第2图像的范围内的情况下，上述图像处理部使表示上述第1视点的图标显示于上述第2图像。

12.根据权利要求11所述的图像处理装置，其特征在于，还具备：

显示控制部，其控制终端装置的显示部来显示上述输出图像；和

操作获取部，其获取基于针对上述显示部所显示的图像的用户操作的信息，

在基于选择表示上述第1视点的图标的用户操作的信息已被获取的情况下，上述图像处理部使第1图像与上述第2图像一起或者代替上述第2图像作为上述输出图像来加以提供。

13.根据权利要求1所述的图像处理装置，其特征在于，

上述图像处理部将上述实际空间中的位置以及姿势彼此不同的多个视点中的任意一个视点作为上述第2视点来生成上述第2图像，并且在上述多个视点中的其它视点被包含在上述第2图像的范围内的情况下，使表示上述其它视点的图标显示于上述第2图像。

14.根据权利要求13所述的图像处理装置，其特征在于，还具备：

在基于选择表示上述其它视点的图标的用户操作的信息已被获取的情况下，上述图像处理部将与上述选择出的图标对应的上述其它视点作为上述第2视点来生成上述第2图像，将新生成的上述第2图像和原来的上述第2图像一起或者代替原来的上述第2图像作为上述输出图像来加以提供。

15.根据权利要求1所述的图像处理装置，其特征在于，

上述图像处理部基于上述第1视点的位置以及姿势和上述第2视点的位置以及姿势之间的关系，使变形了的上述第1图像显示在上述第2图像内。

16.根据权利要求15所述的图像处理装置，其特征在于，

上述图像处理部基于连续地拍摄的上述第1图像连续地生成上述第2图像，使最新的上述第1图像显示在上述第2图像内，并且基于过去的上述第1图像来生成上述第2图像中的上述最新的第1图像以外的部分。

17.根据权利要求16所述的图像处理装置，其特征在于，

上述图像处理部通过上述最新的第1图像和上述过去的第1图像之间或者上述过去的第1图像彼此之间的拼接，来生成上述第2图像中的上述最新的第1图像以外的部分。

18.根据权利要求15所述的图像处理装置，其特征在于，

上述图像处理部将从上述实际空间中的位置以及姿势彼此不同的多个上述第1视点拍摄上述实际空间得到的多个上述第1图像作为输入图像来生成上述输出图像，并且基于上述多个第1视点各自的位置以及姿势和上述第1视点的位置以及姿势之间的关系来使变形的上述多个第1图像显示在上述第2图像内。

19.一种图像处理方法，其特征在于，包括：

将从第1视点拍摄实际空间得到的第1图像作为输入图像来生成输出图像的处理器基于上述第1视点在上述实际空间中的位置以及姿势，生成从在上述实际空间中具有与上述第1视点不同的位置以及姿势的第2视点虚拟地拍摄上述实际空间得到的第2图像作为上述输出图像。