CN108028906A

CN108028906A - 信息处理系统和信息处理方法

Info

Publication number: CN108028906A
Application number: CN201680055516.3A
Authority: CN
Inventors: 笠原俊; 笠原俊一; 历本纯; 历本纯一
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2015-09-30
Filing date: 2016-07-11
Publication date: 2018-05-11
Anticipated expiration: 2036-07-11
Also published as: KR20230049131A; KR20180064370A; EP3358836A4; WO2017056631A1; EP3358836B1; KR102647544B1; CN108028906B; US20180349083A1; JPWO2017056631A1; EP3358836A1; JP6822410B2; KR102516096B1; US10628114B2

Abstract

本发明提供一种信息处理系统和信息处理方法，用于控制由拍摄图像接收装置输入的信息的显示。第一重像和第二重像从主体接收拍摄图像(第一人称图像)，并且当根据至第一重像的输入所生成的第一信息和根据至第二重像的输入所生成的第二信息被发送至主体时，控制单元509执行控制使得通过集合第一信息和第二信息而获得的集合图像被输出并显示在显示单元503上。

Description

信息处理系统和信息处理方法

技术领域

本说明书中公开的技术涉及一种信息处理系统和信息处理方法，用于控制输入至拍摄图像的接收器的信息的显示。

背景技术

已知的技术是允许用户访问由用户之外的个人/物体看到的景象(由除了用户之外的移动体看到的景象)。

例如，已经提出了远程获取通过安装在诸如车辆的移动体上的移动照相机拍摄的图像的移动照相机系统(例如，参见专利文献1)。进一步地，已经提出了一种图像处理系统，该图像处理系统向佩戴头戴式显示器的个人提供与通过佩戴包括成像感测无线装置的眼镜的个人所获取的视觉信息相似的信息(例如，参见专利文献2)。

此外，提出了一种图像显示系统，其中，用于显示移动体的拍摄图像的显示装置相对于移动体的成像装置指定其中图像被拍摄的视点位置和视线方向以及拍摄图像时的速度(例如，参见专利文献3)。

引用列表

专利文献

专利文献1：JP 2006-186645A

专利文献2：JP 2004-222254A

专利文献3：JP 2008-154192A

专利文献4：JP 2014-104185A

专利文献5：JP 2010-15558A

发明内容

技术问题

本说明书中公开的技术目标是提供一种优良的信息处理系统和信息处理方法，能够适当控制利用拍摄图像的接收器输入的信息的显示。

问题的解决方案

考虑到上述问题设计了本说明书中公开的技术，其第一方面是一种信息处理系统，包括：控制单元，被配置为控制通过集合第一信息和第二信息而获得的集合图像的显示，第一信息是根据对第一系统的输入而生成的，第一系统接收由成像系统得到的拍摄图像，并且第二信息是根据对第二系统的输入而生成的，第二系统接收由成像系统得到的拍摄图像。

应注意，本文中的“系统”是指实现具体功能的功能模块的逻辑集合，并且该“系统”被配置为单个装置并且还被配置为共同工作的多个装置。

根据本说明书中公开的技术的第二方面，根据第一方面的信息处理系统的控制单元被配置为控制通过集合基于输入至第一系统的音频信息的第一信息与基于输入至第二系统的音频信息的第二信息而获得的集合图像的显示。

根据本说明书中公开的技术的第三方面，根据第一方面的信息处理系统的控制单元被配置为基于输入至第一系统的音频信息控制集合图像的显示。

根据本说明书中公开的技术的第四方面，根据第三方面的信息处理系统的控制单元被配置为使得包含于集合图像中的第一信息根据输入至第一系统的音频的强弱变化而变化。

根据本说明书中公开的技术的第五方面，根据第一方面的信息处理系统的控制单元被配置为控制示出由包括第一系统和第二系统、并接收拍摄图像的多个系统指示的位置的分布的集合图像的显示。

根据本说明书中公开的技术的第六方面，根据第一方面的信息处理系统的控制单元被配置为控制通过集合包括文本信息的第一信息和第二信息而获得的集合图像的显示。

根据本说明书中公开的技术的第七方面，根据第一方面的信息处理系统的控制单元被配置为从多个系统所生成的多条文本信息中提取常用词语或经常出现的词语并且使得显示该词语，多个系统包括第一系统和第二系统并接收拍摄图像。

根据本说明书中公开的技术的第八方面，根据第七方面的信息处理系统的控制单元被配置为使得所提取的词语以标签云的方式被显示。

根据本说明书中公开的技术的第九方面，根据第一方面的信息处理系统的控制单元被配置为概括多个系统所生成的多条文本信息并且使得所概括的文本信息被显示，多个系统包括第一系统和第二系统并接收拍摄图像。

根据本说明书中公开的技术的第十方面，根据第一方面的信息处理系统进一步包括：成像单元，被配置为生成拍摄图像。

根据本说明书中公开的技术的第十一方面，根据第一方面的信息处理系统进一步包括：显示单元。控制单元然后被配置为通过显示单元控制集合图像的显示。

根据本说明书中公开的技术的第十二方面，根据第十一方面的信息处理系统的控制单元被配置为通过将集合信息叠加在真实世界的场景上执行显示。

此外，本说明书中公开的技术的第十三方面是信息处理方法，包括：控制步骤，用于控制通过集合第一信息和第二信息而获得的集合图像的显示，第一信息是根据对第一系统的输入而生成的，第一系统接收由成像系统得到的拍摄图像，并且第二信息是根据对第二系统的输入而生成的，第二系统接收由成像系统得到的拍摄图像。

发明的有益效果

根据本说明书中公开的技术，可以提供一种优良的信息处理系统和信息处理方法，能够适当控制输入至拍摄图像的接收器的信息的显示。

应注意，本说明书中描述的有益效果仅用于实例的目的，并且本发明的有益效果不限于此。此外，在一些情况下，本发明还可以呈现除了以上给出的有益效果以外的额外的有益效果。

通过基于下文中讨论的示例性实施方式和附图更加详细的描述，本说明书中公开的技术的进一步目标、特征以及优点将变得清晰。

附图说明

[图1]图1示出本说明书中公开的技术应用的视觉信息共享系统100的概述。

[图2]图2示意性地示出1对N的网络拓扑。

[图3]图3示意性地示出N对1的网络拓扑。

[图4]图4示意性地示出N对N的网络拓扑。

[图5]图5示出图像提供装置101和图像显示装置102的功能配置实例。

[图6]图6例示了其中重像介入主体的视点的状态。

[图7]图7描述了其中重像视觉介入主体的机构。

[图8]图8例示了其中重像介入主体的视点的状态。

[图9]图9例示了其中重像介入主体的视点的状态。

[图10]图10描述了其中重像视觉介入主体的机构。

[图11]图11例示了其中重像介入主体的视点(视点的移动方向的显示)的状态。

[图12]图12例示了其中重像介入主体的视点(文本信息的显示)的状态。

[图13]图13例示了其中重像(以聊天的方式)介入主体的视点的状态。

[图14]图14描述了其中重像听觉介入主体的机构。

[图15]图15例示了其中多个重像同时介入主体的空间1500。

[图16]图16例示了其中作为重像的声音的音量的模式的相同闪烁模式被应用至指示物的视觉介入。

[图17]图17是示出了用于通过重像处理视觉介入的图像提供装置101中的流程的实例的流程图。

[图18]图18示出显示热图的实例，热图示出了由重像指示的位置。

[图19]图19是示出用于以热图的方式显示由多个重像视觉介入的图像提供装置101中的处理流程的流程图。

[图20]图20是示出用于显示自重像发送的文本信息的图像提供装置101中的处理流程的流程图。

具体实施方式

在下文中，参考附图将详细描述本说明书中公开的技术的实施方式。

A.系统配置

图1示出了本说明书中公开的技术应用的视觉信息共享系统100的概述。图1中示出的视觉信息共享系统100通过结合用于提供通过拍摄现场的图像所获得的图像的图像提供装置101与用于显示从图像提供装置101提供的图像的图像显示装置102而被配置。

图像提供装置101具体包括安装在现场实际行动的观察者111的头部上的配备有照相机的透视头戴式显示器。本文中的“透视”头戴式显示器主要是光学透射的，但是可以是视频透视头戴式显示器。头戴式显示器中设置的照相机拍摄观察者111的基本上视线方向的图像并且提供它的第一人称视野(FPV，first person view，第一人称视角)。

同时，图像显示装置102被假定为与现场即图像提供装置101单独地布置，并且图像提供装置101和图像显示装置102被假定为经由网络彼此通信。本文中的术语“单独地”不仅包括远程位置而且包括其中图像提供装置101和图像显示装置102在相同房间中稍微(例如，大约几米)分离的情形。进一步地，图像提供装置101和图像显示装置102还被假定为经由服务器(未示出)交换数据。

例如，图像显示装置102是由不在现场的个人(拍摄图像的观看者)112佩戴的头戴式显示器。通过使用沉浸式头戴式显示器(immersive head mounted display)作为图像显示装置102，观看者112可以体验与具有更真实性的观察者111相同的视线。然而，透视头戴式显示器可以用作图像显示装置102。

进一步地，图像显示装置102不限于头戴式显示器，并且例如可以是腕表显示器。可替换地，图像显示装置102不需要是可佩戴的终端并且可以是诸如智能电话或平板电脑的多功能信息终端、诸如计算机屏幕或电视接收器的通用监控显示器、游戏机、用于将图像投射在屏幕上的投影仪等。

因为观察者111实际在现场并且通过他/她的身体进行行动，因此在下文中作为图像提供装置101的用户的观察者111(或图像提供装置101)还将被称为“主体”。同时，观看者112不通过他/她的身体在现场行动而是通过观看观察者111的第一人称视野意识到在现场，因此在下文中作为图像显示装置102的用户的观看者112(或图像显示装置102)还将被称为“重像(ghost)”。

主体将自身周边的情形发送至重像并且进一步与重像共享该情形。重像中的之一与主体通信并且因此可以从分离位置实现诸如工作支援的交互。在下文中，使得重像沉浸在主体的第一人称体验中以允许重像在视觉信息共享系统100中执行交互还将被称为“JackIn”。

视觉信息共享系统100主要具有将来自主体的第一人称视野发送至重像以允许重像查看和体验第一人称视野的功能以及允许主体和重像互相通信的功能。通过使用后者通信功能，重像可以通过从远程位置的介入与主体交互，诸如，允许重像介入主体的视点的“视觉介入”、允许重像介入主体的听觉的“听觉介入”、允许重像移动或刺激(stimulate)主体的身体或一部分身体的“主体介入”、以及允许重像在现场代替主体讲话的“替换对话”。也可以说JackIn具有多个通信信道，诸如，“视觉介入”、“听觉介入”、“主体介入”和“替换对话”。以下将描述“视觉介入”、“听觉介入”、“主体介入”和“替换对话”的细节。

重像可以通过“视觉介入”、“听觉介入”、“主体介入”或“替换对话”指示主体在现场的行为。例如，可以利用视觉信息共享系统100用于各个工业领域中的工作支援，诸如，外科手术等的医疗现场和建筑工程等的施工现场、飞机和直升飞机的控制指令及其引导、汽车驾驶员的导航、运动中的指导或指令、以及其他用途。

例如，不仅在主体期望与另一个人共享自身视点的情况下，而且在主体期望(或者需要)被另一个人通过视觉介入等协助、指示、引导和导航关于主体当前执行的操作的情况下，主体采取自主行动与适当的重像实现JackIn(主体自主行动开始)。

进一步地，不仅在重像期望在不参观现场的情况下查看现场的视频(另一个人的第一人称视野)而且在重像期望(或者需要)对另一个人关于那个人当前执行的操作进行协助、指示、引导和导航的情况下，重像采取自主行动与对应主体实现JackIn(重像自主行动开始)。

应注意，当主体不受限制的经受视觉介入、听觉介入、主体介入或对话介入时，自身行为可能被重像中断，或者自身行为可能被阻碍并且因此是危险的，并且在一些情况下，主体的隐私被侵犯。同时，重像还可能具有重像不期望查看或者在即使重像要求的情况下也不能对主体提供诸如适当的协助、指示、引导和导航的服务的一些情况下的一些视频。因此，由重像对主体的JackIn以及在JackIn状态下由重像进行的主体中的介入可能一定程度地受到限制。

应注意，为了简化，图1示出了单个主体至单个重像的网络拓扑，即，其中，仅存在单个图像提供装置101和单个图像显示装置102。还假定以下各项：如图2所示，其中单个主体和多个(N)重像同时执行JackIn的1对N的网络拓扑；如图3所示，其中多个(N)主体和单个重像同时执行JackIn的N对1的网络拓扑；以及如图4所示，其中多个(N)主体和多个(N)重像同时执行JackIn的N对N的网络拓扑。

进一步地，还假定了从主体至重像转换单个装置、从重像至主体转换单个装置以及同时具有主体的角色和重像的角色。还假定了其中单个装置作为重像对主体执行JackIn的网络拓扑，并且同时，用作用于另一重像的主体，即，三个以上的装置被菊花链(daisy-chain)连接。在任何网络拓扑中，服务器(未示出)可以置于在主体与重像之间。

B.功能配置

图5示出了图像提供装置101和图像显示装置102的功能配置实例。

图像提供装置101是由扮演主体角色的用户(观察者112)使用的装置。在图5中示出的实例中，图像提供装置101包括成像单元501、图像处理单元502、显示单元503、第一音频输出单元504、驱动单元505、以及用作输出单元的第二音频输出单元506、位置检测单元507、通信单元508、控制单元509和认证单元510。

成像单元501包括用于拍摄主体的第一人称视野的图像的照相机。成像单元501附接至观察者111的头部以便拍摄例如主体(即，观察者111)的视线方向的图像。可替换地，全天空照相机可以用作成像单元501以提供主体周围的环境的360度全天空图像。然而，全天空图像不一定需要是360度图像，并且视野可以是比较窄的。进一步地，全天空图像可以是不包括包含少量信息的地面的半个天球图像(half celestial sphere image)(同样应用于下文中)。

图像处理单元502处理从成像单元501输出的图像信号。在通过成像单元501拍摄的主体的第一人称视野的图像照原样流传输的情况下，因为主体他/她俯瞰自身周围环境并且改变视线方向，因此重像查看到强烈摇动的视频。因此，诸如虚拟现实(VR)病和晕动病等健康危害是令人关注的问题。进一步地，重像可能期望查看主体未关注的部分。鉴于此，图像处理单元502基于通过成像单元501拍摄的主体的第一人称视野的连续图像模拟形成周围空间。具体地，图像处理单元502基于同步定位与地图构建(SLAM)识别技术等相对于通过成像单元501拍摄的视频(全天空图像)实时执行空间识别并且将当前的视频帧和过去的视频帧空间地连接在一起，从而渲染从通过重像控制的虚拟照相机的视点看到的视频。在虚拟照相机的视点处渲染的视频是从主体身体之外的模拟视点看到的视频而并非主体的第一人称视野。因此，重像可以独立于主体的运动观察主体周围的环境。这使得能够稳定视频的摇动以便防止VR病并且查看主体未关注的部分。

显示单元503显示并输出从图像显示装置102发送的信息，从而允许重像介入主体的视点。在图像提供装置101是如上所述的透视头戴式显示器的情况下，显示单元503叠加并显示表示与主体在观察者111的视点(即，真实世界的场景)上共享第一人称体验的重像意识的增强现实(AR)图像。AR图像包括由重像指示的诸如示出了位置的指示物、注释等图像。因此，重像可以与主体通信以介入其视点，从而在现场与主体交互。第一音频输出单元504例如包括耳机、头戴耳机等并且使得主体收听从图像显示装置102发送的信息，从而允许重像介入主体的听觉。图像显示装置102发送有关与主体共享第一人称体验的重像意识的信息。图像提供装置101将接收的信息转换为音频信号并且从第一音频输出单元504输出音频，从而使得主体(即，观察者111)收听音频。可替换地，通过当前具有第一人称体验的重像发出的音频信号照原样从图像显示装置102发送。图像提供装置101以音频的方式从第一音频输出单元504照原样输出接收的音频信号，从而使得主体(即，观察者111)收听音频。进一步地，可以适当调节从第一音频输出单元504输出的音频的音量、质量、输出时间等。可替换地，从图像显示装置102发送的图像信息或文本信息可以转换为音频信号并且以音频的方式从第一音频输出单元504输出。因此，重像可以与主体通信以介入其听觉，从而在现场与主体交互。

驱动单元505移动或刺激主体的身体或一部分身体，从而允许重像介入主体的身体。驱动单元505例如包括用于将触觉或电刺激(这是轻微的并且因此不危害健康)应用于观察者111的身体的致动器。可替换地，驱动单元505包括通过驱动佩戴在观察者111的手臂、手、腿等上的动力服或外骨骼(exoskeleton)辅助或限制身体的运动的装置(例如，参见专利文献5)。因此，重像可以与主体通信以介入其身体，从而在现场与主体交互。

第二音频输出单元506例如包括由主体佩戴的可佩戴扬声器等并且将从图像显示装置102发送的信息或音频信号以音频的方式输出到外部。从第二音频输出单元506输出的音频在现场被听到，如同主体他自己/她自己说的一样。因此，重像可以在主体存在的现场与人们进行谈话或者可以代替主体(替换对话)利用音频发出指令。

位置检测单元507通过例如使用全球定位系统(GPS)信号检测图像提供装置101(即，主体)的当前位置信息。在例如重像搜索象期望的位置中存在的主体的情况下使用检测到的位置信息。

经由网络相互连接至图像显示装置102的通信单元508传输通过成像单元501拍摄到的第一人称视野的图像和空间信息并且与图像显示装置102通信。通信单元508的通信方式可以是无线或有线通信方式并且不限于具体的通信标准。

认证单元510执行经由网络相互连接的图像显示装置102(或者作为它的用户的重像)的认证处理并且确定用于输出从图像显示装置102发送的信息的输出单元。然后，控制单元509基于通过认证单元510的认证结果控制从输出单元的输出操作。控制单元509具有例如对应于中央处理单元(CPU)和图形处理单元(GPU)的功能。

例如，作为认证处理的结果在允许图像显示装置102仅执行视觉介入的情况下，控制单元509仅执行从显示单元503显示输出。进一步地，在允许图像显示装置102不仅执行视觉介入而且执行听觉介入的情况下，控制单元509从显示单元503执行显示输出以及从第一音频输出单元504执行音频输出。其中主体允许重像介入的范围被定义为许可级别。同时，其中重像介入主体的范围被定义为任务级别(mission level)(如下所述)。应注意，还可以形成视觉信息共享系统100以便通过认证单元510和控制单元509执行的以上处理通过代替图像提供装置101的布置于图像提供装置101与图像显示装置102之间的服务器(未示出)执行。

同时，图像显示装置102是由扮演重像角色的用户(观看者112)使用的装置。在图5中示出的实例中，图像显示装置102包括通信单元511、图像解码单元512、显示单元513、用户输入单元514和位置姿势检测单元515。

经由网络相互连接至图像提供装置101的通信单元511从图像提供装置101接收第一人称视野并且与图像提供装置101通信。通信单元511的通信方式可以是无线或有线通信方式并且不限于具体的通信标准。然而，通信方式与图像提供装置101的通信单元508兼容。

图像解码单元512执行通信单元511从图像提供装置101接收的图像信号的解码处理。显示单元513显示并输出已在图像解码单元512中解码的全天空图像(主体的第一人称视野)。应注意，可以通过图像解码单元512代替图像提供装置101的图像处理单元502执行用于渲染从主体的第一人称视野的主体的身体(如上所述)之外的视点看到的视频的处理。

位置姿势检测单元515检测观看者112的头部的位置和姿势。检测到的位置和姿势对应于重像的当前视点位置和视线方向。可以基于通过位置姿势检测单元515检测到的观看者112的头部的位置和姿势控制虚拟照相机(如上所述)的视点位置和视线方向，以基于主体的第一人称视野创建从主体的身体之外模拟的视点看到的视频。

显示单元513包括例如由用作重像的观看者112佩戴的头戴式显示器。通过使用沉浸式头戴式显示器作为显示单元513，观看者112可以体验与具有更真实性的观察者111相同的视线。观看者112(即，重像)观看的视频不是主体本身的第一人称视野而是基于第一人称视野(从主体的身体之外模拟的视点看到的视频)(如上所述)的连续图像模拟形成的周围空间。进一步地，可以执行控制使得虚拟照相机执行重像的头部追踪，即，跟踪通过位置姿势检测单元515检测到的观看者112的视点位置和视线方向，从而在显示单元513上移动显示的视角。

显示单元513可以是代替沉浸式头戴式显示器的可佩戴终端，诸如，透视头戴式显示器或者腕表显示器。可替换地，显示单元513不需要是可佩戴的终端并且可以是诸如智能电话或平板电脑的多功能信息终端、诸如计算机屏幕或电视接收器的通用监控显示器、游戏机、用于将图像投射在屏幕上的投影仪等。

用户输入单元514是用于允许用作重像的观看者112响应于显示在显示单元513上的主体的第一人称视野的观察输入重像自身的意图或意识的装置。

用户输入单元514包括例如坐标输入装置，诸如，触摸屏、鼠标或者操纵杆。通过触摸、鼠标的敲击操作等，重像可以直接指示其中重像对显示主体的第一人称视野的屏幕上特别感兴趣的位置。重像在重像当前观看的视频的像素坐标上给出指示。然而，主体的拍摄视频一直改变，因此像素坐标上的指示无意义。鉴于此，用户输入单元514通过图像分析等在对应于像素位置的三维空间上指定位置信息并且将三维空间中的位置信息发送至图像提供装置101，像素位置由重像通过在屏幕上触摸、敲击操作等来指示。因此，重像可以执行实现在空间中的而不是像素坐标上的固定的指向(pointing)。

进一步地，用户输入单元514可以通过使用通过照相机或眼电位拍摄到的重像的面部的图像拍摄眼球运动，计算重像注视的位置，并且将指定位置的信息发送至图像提供装置101。还在那时，用户输入单元514通过图像分析等在三维空间中指定对应于重像注视的像素位置的位置信息，并且将三维空间中的位置信息发送至图像提供装置101。因此，重像可以执行实现在空间中的而不是像素坐标上的固定的指向。

进一步地，用户输入单元514包括诸如键盘的文本输入装置。当重像具有与主体相同的第一人称体验时，重像可以输入作为文本信息等的重像期望告知主体的意图、重像具有的意识等。用户输入单元514可以将通过重像输入的文本信息照原样发送至图像提供装置101或者可以将文本信息转换为其他方式的信号(诸如，音频信号)，然后将信号发送至图像提供装置101。

进一步地，用户输入单元514包括诸如麦克风的声音输入装置并且输入由重像发出的音频。用户输入单元514能够以音频信号的方式将所输入的音频照原样从通信单元511发送至图像提供装置101。可替换地，用户输入单元514可以执行输入音频的音频识别，将输入音频转换为文本信息，并且将文本信息发送至图像提供装置101。

重像被假定在观看主体的第一人称视野的同时通过使用诸如“那个”或“这个”的指示代词表示对象。在这种情况下，用户输入单元514通过语言分析、图像分析等在三维空间中指定通过指示代词表示的对象的位置信息并且将三维空间中的位置信息发送至图像提供装置101。因此，重像可以执行实现在空间中的而不是像素坐标上的固定的指向。

进一步地，用户输入单元514可以是用于输入重像的姿势和手动手势的手势输入装置。用于拍摄手势的方式不受具体限制。例如，用户输入单元514可包括用于拍摄重像的手臂和腿的移动的图像的照相机以及用于处理所拍摄的图像的图像识别装置。进一步地，为了便于执行图像识别，可将标记附接至重像的身体。用户输入单元514可以按照例如介入主体的身体的控制信号将输入手势从通信单元411发送至图像提供装置101。进一步地，用户输入单元514可以将输入手势转换为图像信息以便介入主体的视点(坐标信息、要叠加和显示的AR图像、文本信息等)或者转换为音频信号以便介入主体的听觉并且将图像信息或音频信号从通信单元511发送至图像提供装置101。进一步地，用户输入单元514通过图像分析等在三维空间中指定对应于通过重像的手势指示的像素位置的位置信息并且将三维空间中的位置信息发送至图像提供装置101。因此，重像可以执行实现在空间中的而不是像素坐标上的固定的指向。

考虑到叠加和显示AR图像，视觉信息共享系统100中开发的称为JackIn的业务类似通用的AR技术。然而，考虑到的是JackIn与通过计算机执行的正常的AR技术不同之处在于人类(重像)扩张另一个人类(主体)。

进一步地，JackIn还类似于远程监控(如上所述)。然而，正常的远程监控和JackIn的不同之处在于正常的远程监控是用于从诸如机器人的机器的视点观看世界的界面，然而，在JackIn中，人类(重像)从另一个人类(主体)的视点观看世界。进一步地，远程监控的先决条件是人类是主人并且机器是从属并且作为从属的机器真实地再现人类的运动。同时，在人类(重像)执行JackIn至另一个人类(主体)的情况下，主体不一定按照重像移动，即，是独立界面。

在上述视觉信息共享系统100中，从图像提供装置101提供至图像显示装置102的视频不限于主体在现场观察的实时视频(即，通过成像单元501拍摄的直播视频)并且可以是过去录制的视频。例如，图像提供装置101包括用于记录过去视频的大容量存储装置(未示出)，并且过去视频可以从图像提供装置101分布。可替换地，通过图像提供装置101记录的过去视频可以累积在JackIn服务器(临时名称)中用于控制主体与重像或另一记录服务器之间的JackIn，并且过去视频可以从服务器流传输至重像(图像显示装置102)。应注意，在重像观看过去视频的情况下，不允许对主体包括视觉介入和听觉介入的介入。这是因为重像观看的视频不是主体当前操作的现场的视频并且基于过去视频的介入阻碍主体的当前操作。

应注意，例如，关于两个装置之间的共享视图的细节还参见已经传送至本申请人的专利申请第2013-78893号的说明书。进一步地，例如，关于相同系统100中的视觉介入(AR图像的显示)的细节还参见已经传送至本申请人的专利申请第2013-78892号的说明书、专利申请第2013-78894号的说明书以及专利申请第2013-191464号的说明书。

C.由重像视觉介入主体

如上所述，JackIn具有多个通信信道，诸如，“视觉介入”、“听觉介入”、“主体介入”和“替换对话”。因此，通过与重像开始JackIn，主体可以与重像共享自身的视点并且能够由重像通过视觉介入等协助、指示、引导和导航关于当前执行的操作。进一步地，通过与主体开始JackIn，重像可以在不参观现场的情况下具有主体的第一人称体验并且可以通过视觉介入等协助、指示、引导和导航主体关于其操作。在下文中，将具体在视觉介入方面描述主体与重像之间的交互。

当重像经由包括诸如触摸屏、鼠标或操纵杆的坐标输入装置的用户输入单元514在显示图像中指示某个位置时，图像显示装置102将指定该位置的信息发送至图像提供装置101。然后，在图像提供装置101中，显示单元503通过在主体的视点上叠加诸如显示重像所指示的位置的指示物的AR图像来执行显示。图6的(A)例示了显示在显示单元513上的图像(通过重像体验的主体的第一人称图像)。如附图标记601所表示的，重像通过触摸指示该图像中的某个位置。图6的(B)例示了此时主体的视点。如通过附图标记602表示的，图像提供装置101的显示单元503执行显示以便示出重像所指示的位置的AR图像叠加在主体的视点上。

进一步地，如在图6中示出的实例中，还当重像利用音频或手势指示所显示的图像中的某个位置时，指定位置的信息被发送至图像提供装置101，并且图像提供装置101显示并叠加示出位置的AR图像。可替换地，例如可以拍摄重像的眼球运动以便检测视线方向，并且可以计算重像注视的位置，因此可以将指定位置的信息发送至图像提供装置101。

图7示意性地示出了其中重像视觉介入主体的机构。代替经由用户输入单元514发送有关重像所指示的屏幕上的像素坐标信息，图像显示装置102通过图像分析等在主体的第一人称图像的三维空间中指定由重像指示的位置，并且将三维空间中的位置信息发送至图像提供装置101。然后，在图像提供装置101中，显示单元503基于所接收的三维位置信息将重像所指示的位置映射到主体的视点中的相同位置上并且将呈现位置的AR图像(指示物)叠加并显示在主体的视点上。进一步地，诸如指示物的AR图像不被映射到显示单元503的显示屏幕上的像素位置上而是被映射到实际的三维空间上。因此，即使在主体摇动他/她的头部或者移动至另一位置的情况下，指示物保持叠加并显示在三维空间中的相同位置上。

在图像显示装置102执行重像的头部追踪(如上所述)的情况下，主体的视点和通过重像观察到的显示视角有可能会不匹配。例如，主体的当前视野是图8中的图像，然而因为重像转向右侧从而图9中示出的图像被显示在图像显示装置102的显示单元413上，因此该图像不与主体的视点匹配。即使在这种情况下，经由用户输入单元514由重像指示的位置被转换为主体的视点的三维空间中的位置信息并且然后被发送。因此，图像提供装置101的显示单元503可以在三维空间中的相同位置处显示AR图像并且因此将由重像指示的位置正确发送至主体。

例如，如图9中示出的显示图像中的附图标记901所表示的，重像被假定为指示停泊在运河的河岸处的单个小船。当用户输入单元514确定重像指示屏幕上的小船901时，用户输入单元514将在三维空间中指示小船901的位置的位置信息发送至图像提供装置101。在图像提供装置101中，显示单元503基于所接收的三维位置信息将由重像指示的位置映射到主体的视点上并且将诸如由附图标记801表示的指示物的AR图像叠加并显示在主体的视点中的由重像指示的小船上。因此，主体可以在视觉上理解自身视点中的小船是由重像指示，并且因此可以通过重像的视觉介入实现交互。进一步地，重像可以不仅以图8中示出的位置的指示的方式而且以指令移动视野的方式介入主体的视点。

图10示意性地示出了其中重像指令主体移动视点的机构。在图像显示装置102中，如附图标记1001表示的，重像可以通过在触摸屏上的滑动操作输入用于主体的关于视野的移动方向的指令。可以通过使用鼠标执行拖动操作或者可以通过使用操纵杆输入方向。可替换地，重像还可以通过输入诸如“稍微转向左边一点”的音频输入用于主体的关于视野的移动方向的指令。

进一步地，为了使用输入图像显示装置102中的音频，用户输入单元514仅需要识别重像的音频并且将该音频转换为用于主体的关于视野的移动方向的指令。响应于图像显示装置102中的这种指令，图像提供装置101将示出视点的移动方向(诸如，由附图标记1101表示的箭头)的AR图像叠加并显示在主体的视点上(参见图11)并且因此可以指示主体稍微转向左边一点(或者向左边移动)。

进一步地，显示单元503可以执行显示以便包括图7或图11中示出的附图的AR图像叠加在主体的视点上，并且此外，可以对示出来自重像的指令的文本信息进行显示。图12示出了其中如附图标记1201表示的显示由重像给出的作为指令的文本信息“稍微转向左边一点”的状态。可替换地，如图13所示，能够诸如聊天或公告板系统的显示方式使用主体的视点的外周上的区域1301显示由重像给出的作为指令的文本信息。

任意地确定显示单元503在主体的视点中布置文本信息的位置。应注意，为了不中断由观察者111执行的操作，优选的是如图12所示在主体的视点的外周上显示文本信息，以便尽可能地不阻挡视点。可替换地，为了主体不错失来自重像的紧急指令，显示单元503可以在主体的视点的中间处特意显示大的文本信息(即，以便使文本信息突出)。

进一步地，在从重像连续发送包含文本信息的指令的情况下，显示单元503能够以所接收的顺序切换并且显示文本信息或者可以沿竖直或水平方向执行本文信息的滚动显示。

进一步地，在从图像显示装置102接收到作为文本信息的重像的指令的情况下，图像提供装置101可以将文本信息转换为音频信号并且从第一音频输出单元504输出音频，从而将音频作为音频消息发送至主体(参见图14)，代替如上所述的在显示单元503上显示文本信息。通过非视觉上而是听觉上输出文本信息，能够在不阻挡主体的视点的情况下发送来自重像的指令。在即使阻挡用作主体的观察者111的部分视点阻碍现场的操作的情况或者在主体不收听现场上的音频而可以继续操作的情况(诸如，主体他自己/她自己执行操作的情况)下，文本信息被转换为音频信号并且以音频的方式输出。这使得能够将指令有效地提供给主体。

D.通过多个重像同时介入主体

如上所述，重像可以借助于图像显示装置102与图像提供装置101之间的通信功能通过执行“视觉介入”、“听觉介入”或“主体介入”将关于现场行为的指令给到主体。

在主体和重像具有一对一关系的情况下，主体可以从执行的指令“视觉介入”、“听觉介入”或“主体介入”清晰地了解。

同时，其中如图2所示的多个(N)重像对单个主体执行JackIn的1对N(或者N对N)的网络拓扑中，还假定了多个重像同时介入主体的视点、听觉和身体。例如，以下“干扰”是成问题的：多个重像视觉地介入单个主体，并且因此使主体的视点(AR显示)复杂；混合通过多个重像的听觉介入，并且因此来自各个重像的指令不能被听到；以及多个重像同时介入主体，并且因此主体不能移动。

例如，如图15所示，在JackIn以1对N的方式的使用情况下，使得在两个主体1510和1520在由附图标记1500表示的空间中比赛(诸如，游戏)的情况下，俯视空间1300的多个重像1511、1512和1513将指令发送至(即，介入)一个主体1511，并且类似地，背部的多个重像1521、1522和1523将指令发送至(即，介入)另一个主体1520。

在这种情况下，如谚语“三个臭皮匠顶个诸葛亮(Two heads are better thanone)”描述的，重像1511、1512和1513的组合(或者重像1521、1522和1523的组合)可以将不是每个人都可以想象的精确的和优良的指令发送至主体1510(或者主体1520)。相反，在太多人指示主体1510(或者主体1520)的情况下，人们缺乏协作并且因此不能正确地遵守规则，这可能落入通过谚语“人多反误事(Too many cooks spoil the broth)”相反描述的情形中。

鉴于此，在本实施方式中，在多个重像同时介入(即，在同时接收来自多个图像显示装置102的信息段的情况下)的情况下，图像提供装置101的输出单元(显示单元503、第一音频输出单元504、驱动单元505和第二音频输出单元)结合多个信息段然后输出信息，代替简单地输出从所有重像发送的信息段。因此，在主体侧执行干扰防止处理。

例如，在第一重像和第二重像接收通过主体拍摄的图像(第一人称视野)并且根据对第一重像输入而生成的第一信息和根据对第二重像的输入而生成的第二信息被发送至主体的情况下，控制单元509执行控制使得通过集合第一信息和第二信息所获得的集合图像被显示并且输出至显示单元503。

参考图16将描述具体实例。在多个重像执行视觉介入、即，在主体的视野中指示位置的同时他们各自发出声音的情况下，仅通过在由各个重像指示的位置上简单地执行指示物的AR显示对于主体来说难以将各个重像的声音与指示物匹配。鉴于此，如图16所示，视觉介入单元403将闪烁模式1603应用于指示物1601，闪烁模式1603与对应重像的声音的音量的模式1602相同波形同步闪烁。关于此，主体搜索与自身视点中的声音的音量变化同步闪烁的指示物1601并且因此可以容易地将重像的声音与指示物匹配。

图17是示出了用于由重像处理视觉介入的图像提供装置101中的流程的实例的流程图。

当通信单元406从图像显示装置102接收介入主体的视点的指令(例如，由重像指示的位置的信息)时(步骤S1501中的是)，进一步检查是否也已经从相同的图像显示装置102接收到重像的音频信息(步骤S1502)。

本文中，在未从相同的图像显示装置102接收到重像的音频信息的情况下(步骤S1502中的否)，显示单元503将显示由重像指示的位置的指示物的AR图像照原样(没有闪烁)叠加并显示在主体的视点上(步骤S1503)并且因此终止该处理程序。

相反地，在从相同的图像显示装置102接收到重像的音频信息的情况下(步骤S1502中的是)，显示单元503分析音频信息以提取音频的音量的模式(步骤S1504)，将具有与声音的音量的模式相同的闪烁模式的指示物的AR图像叠加并显示在主体的视点上(步骤S1505)，并且因此终止该处理程序。

进一步地，当多个重像同时视觉介入单个主体并且指示物在由各个重像指示的位置处显示时，主体的视点被指示物阻挡，从而实际指示的位置不清楚。进一步地，主体的视点被指示物的AR图像覆盖，从而主体不能在现场移动。鉴于此，显示单元503可以计算由同时在其中视觉介入的多个重像指示的位置的总数并且如图18中的附图标记1801至1804所表示的以热图的方式显示所指示的位置的分布。关于此，无论多少重像如何在其中视觉介入，都能够防止主体的视点被不受限制的阻挡，并且主体可以基于热图的显示容易地在视觉上识别由多个重像指示的位置。

热图还可以被称为集合的指示物显示器。应注意，热图不被映射到显示单元503的显示屏幕上的像素位置上而是被映射到实际的三维空间上。因此，即使在主体摇动他/她的头部或者移动至另一位置的情况下，热图保持叠加并显示在三维空间中的相同位置上。

图19是示出了用于以热图的方式显示由多个重像视觉介入的图像提供装置101中的处理流程的流程图。

首先，检查介入主体的视点的重像的数量(即，发送由重像指示的位置的信息的图像显示装置102的数量)是否超过预定数量(步骤S1701)。

本文中，当介入视点的重像的数量小于预定数量时(步骤S1701中的否)，显示单元503执行正常的视觉介入处理(步骤S1702)并且终止该处理程序。例如，根据图17中示出的处理流程实现正常的视觉介入处理并且将指示物叠加并显示在由重像指示的位置上。

相反地，当介入视点的重像的数量超过预定数量时(步骤S1701中的是)，显示单元503对示出同时在其中视觉介入的多个重像所指示的位置的热图进行显示。具体地，在主体的视点的三维空间中构成由各个重像指示的位置的分布(步骤S1703)，并且根据色标或灰度标绘制分布以制备热图(步骤S1704)。然后，将制备的热图叠加并显示在主体的视点上(步骤S1705)。

进一步地，如图13所示，还存在一种视觉介入的方式，其中，经由图像显示装置102中的键盘等输入的作为文本的文本信息或通过识别重像的音频而获得的文本信息以诸如聊天的显示方式显示在主体的视点上。然而，在从多个重像同时发送文本信息段并且这些文本信息段例如以时间序列简单排列并显示在主体的视点上的情况下，主体不能确定要做什么。这是成问题的。作为简单的实例，当指示主体执行相反行为的文本信息段(诸如，“稍微转向左边一点”和“稍微转向右边一点”)被同时显示时，主体不能确定按照哪个指令并且可能因此陷入困惑的。进一步地，主体的视点充满大量文本信息段。这也是成问题的。

鉴于此，代替显示从多个重像发送的全部文本信息段，显示单元503优选执行用于减少显示在主体的视点上的文本信息的量(或者字符的数量)的处理。

例如，显示单元503从多个重像发送的文本信息中可以仅提取常用词语、经常出现的词语、以及用作关键词的词语并且执行用于减少文本信息的处理。在提取词语时，同义词可以统一到单个词语中。然后，显示单元503可以根据出现的频率、重要性等改变多个所提取的关键词的字号、颜色、灰度等并且将多个关键词叠加并显示在主体的视点上，如同多个关键词以标签云的方式像云彩一样漂浮(例如，参见专利文献5)。

可替换地，显示单元503可以将诸如语言分析或语言识别的处理应用于大量发送的文本信息段并且在主体的视点上仅显示概括的文本信息。

图20是示出用于显示从重像发送的文本信息的图像提供装置101中的处理流程的流程图。

首先，检查从重像发送的文本信息段的数量(即，发送文本信息的图像显示装置102的数量)是否超过预定数量(步骤S1801)。

本文中，文本信息段的数量小于预定数量(步骤S1801中的否)，显示单元503执行正常的视觉介入处理(步骤S1802)并且终止该处理程序。在正常的视觉介入处理中，例如，如图12所示，照原样显示文本信息。可替换地，如图13所示，可以通过以聊天、公告板系统等方式使用主体的视点的外周上的区域显示文本信息。

相反地，当文本信息段的数量超过预定数量(步骤S1801中的是)时，显示单元503实现用于减少将显示在主体的视点上的文本信息的量(或者字符的数量)的处理。例如，显示单元503从大量发送的文本信息段中提取常用词语(步骤S1803)并且将常用词以标签云的方式叠加并显示在主体的视点上(步骤S1804)。可替换地，显示单元503将诸如语言分析或语言识别的处理应用于大量文本信息段并且在主体的视点上仅显示概括的文本信息。这种减少处理防止主体困惑。

应注意，代替图像显示装置102(例如，由主体佩戴的头戴式显示器)，可以在置于主体与重像之间的服务器中实现集合从多个重像发送至某个主体的指令信息的上述处理，并且可以将由服务器执行的处理结果提供给主体。

工业实用性

因此上述详细并参考具体实施方式描述了本说明书中公开的技术。然而，显而易见的是，在不偏离本说明书中公开的技术的精神的情况下，本领域中的技术人员可以对这些实施方式进行修改和替换。

例如，可以利用本说明书中公开的技术用于诸如外科手术等的医疗现场、建筑工程等的施工现场、飞机和直升机的控制、汽车的驾驶员的导航、运动中的指令以及其他用途的各个工业领域中的工作支援等。

进一步地，在本说明书中，主要描述了系统的实施方式，其中，共享第一人称图像的重像以视点、听觉等方式介入主体，主体利用他/她的身体在现场行动。然而，本说明书中公开的技术的范围不限于此。还可以将本说明书中公开的技术应用于各种信息处理装置，该信息处理装置用于将关于来自另一个人的协助、指示、引导和导航的信息显示在某个人的视点上。

本质上，已通过举例的方式描述了本说明书中公开的技术，并且本说明书所陈述的内容不应当解释为限制性的。本说明书中公开的技术的精神应当考虑权利要求来确定。

此外，本说明书中公开的技术特还可以进行如下配置。

(1)一种信息处理系统，包括：

控制单元，被配置为控制通过集合第一信息和第二信息而获得的集合图像的显示，第一信息是根据对第一系统的输入而生成的，第一系统接收由成像系统得到的拍摄图像，并且第二信息是根据对第二系统的输入而生成的，第二系统接收由成像系统得到的拍摄图像。

(2)根据项(1)所述的信息处理系统，其中

控制单元控制通过集合基于输入至第一系统的音频信息的第一信息与基于输入至第二系统的音频信息的第二信息而获得的集合图像的显示。

(3)根据项(1)所述的信息处理系统，其中

控制单元基于输入至第一系统的音频信息控制集合图像的显示。

(4)根据项(3)所述的信息处理系统，其中

控制单元使得包含在集合图像中的第一信息根据输入至第一系统的音频的强弱变化而变化。

(5)根据项(1)所述的信息处理系统，其中

控制单元控制示出由多个系统指示的位置的分布的集合图像的显示，多个系统包括第一系统和第二系统并接收拍摄图像。

(6)根据项(1)所述的信息处理系统，其中

控制单元控制通过集合包括文本信息的第一信息和第二信息而获得的集合图像的显示。

(7)根据项(1)所述的信息处理系统，其中

控制单元从多个系统所生成的多条文本信息中提取常用词语或经常出现的词语并且使得词语被显示，多个系统包括第一系统和第二系统并接收拍摄图像。

(8)根据项(7)所述的信息处理系统，其中

控制单元使得提取的词语以标签云的方式被显示。

(9)根据项(1)所述的信息处理系统，其中

控制单元概括多个系统所生成的多条文本信息并且使得概括的文本信息被显示，多个系统包括第一系统和第二系统并接收拍摄图像。

(10)根据项(1)所述的信息处理系统，进一步包括：

成像单元，被配置为生成拍摄图像。

(11)根据项(1)所述的信息处理系统，进一步包括：

显示单元，其中

控制单元通过显示单元控制集合图像的显示。

(12)根据项(11)所述的信息处理系统，其中

显示单元通过将集合信息叠加在真实世界的场景上执行显示。

(13)一种信息处理方法，包括：

控制步骤，用于控制通过集合第一信息和第二信息而获得的集合图像的显示，第一信息是根据对第一系统的输入而生成的，第一系统接收由成像系统得到的拍摄图像，并且第二信息是根据对第二系统的输入而生成的，第二系统接收由成像系统得到的拍摄图像。

附图标记列表

100视觉信息共享系统 101图像提供装置 102图像显示装置 501成像单元502图像处理单元 503显示单元 504第一音频输出单元 505驱动单元 506第二音频输出单元 507位置检测单元 508通信单元 509控制单元 510认证单元 511通信单元512图像解码单元 513显示单元 514用户输入单元 515位置姿势检测单元

Claims

1.一种信息处理系统，包括：

控制单元，被配置为控制通过集合第一信息和第二信息而获得的集合图像的显示，所述第一信息是根据对第一系统的输入而生成的，所述第一系统接收由成像系统得到的拍摄图像，并且所述第二信息是根据对第二系统的输入而生成的，所述第二系统接收由所述成像系统得到的所述拍摄图像。

2.根据权利要求1所述的信息处理系统，其中

所述控制单元控制通过集合基于输入至所述第一系统的音频信息的所述第一信息与基于输入至所述第二系统的音频信息的所述第二信息而获得的所述集合图像的显示。

3.根据权利要求1所述的信息处理系统，其中

所述控制单元基于输入至所述第一系统的音频信息控制所述集合图像的显示。

4.根据权利要求3所述的信息处理系统，其中

所述控制单元使得包含在所述集合图像中的所述第一信息根据输入至所述第一系统的音频的强弱变化而变化。

5.根据权利要求1所述的信息处理系统，其中

所述控制单元控制示出由多个系统指示的位置的分布的所述集合图像的显示，所述多个系统包括所述第一系统和所述第二系统并接收所述拍摄图像。

6.根据权利要求1所述的信息处理系统，其中

所述控制单元控制通过集合包括文本信息的所述第一信息和所述第二信息而获得的所述集合图像的显示。

7.根据权利要求1所述的信息处理系统，其中

所述控制单元从多个系统所生成的多条文本信息中提取常用词语或经常出现的词语并且使得所述词语被显示，所述多个系统包括所述第一系统和所述第二系统并接收所述拍摄图像。

8.根据权利要求7所述的信息处理系统，其中

所述控制单元使得提取的所述词语以标签云的方式被显示。

9.根据权利要求1所述的信息处理系统，其中

所述控制单元概括多个系统所生成的多条文本信息并且使得概括的所述文本信息被显示，所述多个系统包括所述第一系统和所述第二系统并接收所述拍摄图像。

10.根据权利要求1所述的信息处理系统，进一步包括：

成像单元，被配置为生成所述拍摄图像。

11.根据权利要求1所述的信息处理系统，进一步包括：

显示单元，其中

所述控制单元通过所述显示单元控制所述集合图像的显示。

12.根据权利要求11所述的信息处理系统，其中

所述显示单元通过将所述集合信息叠加在真实世界的场景上执行显示。

13.一种信息处理方法，包括：

控制步骤，用于控制通过集合第一信息和第二信息而获得的集合图像的显示，所述第一信息是根据对第一系统的输入而生成的，所述第一系统接收由成像系统得到的拍摄图像，并且所述第二信息是根据对第二系统的输入而生成的，所述第二系统接收由所述成像系统得到的所述拍摄图像。