CN104641413A

CN104641413A - 利用头戴式显示器来实现人际交互

Info

Publication number: CN104641413A
Application number: CN201380047724.5A
Authority: CN
Inventors: 巴巴科·福鲁坦保尔; 丹尼尔·S·贝克
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-09-18
Filing date: 2013-08-21
Publication date: 2015-05-20
Anticipated expiration: 2033-08-21
Also published as: CN104641413B; WO2014046833A1; US10347254B2; KR20150058286A; EP2898505B1; US20180047396A1; US9966075B2; US20140081634A1; KR102002979B1; EP2898505A1

Abstract

呈现用于使用扩增实境装置的各种布置。可通过扩增实境AR装置俘获由现实世界场景中的人员说出的话语。可确定第二AR装置将接收关于所述话语的数据。所述第二AR装置在最初说出所述话语时可能不在场。可将对应于所述话语的数据发射到所述第二扩增实境装置。

Description

利用头戴式显示器来实现人际交互

背景技术

随着世界成为全球共同体，可能说不同语言的人频繁地需要交互。不管场合是公司的雇员与在不同大洲的办公室之间的通信、多国首脑会议、旅游还是导致人们之间的语言差异的任何其它情境，能够有效且高效地通信都是有用的。通常，说不同语言的人员之间的此类通信可涉及使用解释器、基本身体手势或将文本输入到执行转译的装置中。此等配置中的每一者具有缺点：解释器可为昂贵的且涉及通信中所涉及的至少一个额外人员，仅有限量的信息可能够使用基本身体手势来传达，且将文本键打到计算机化装置中可为低效的且需要必要设备。

另外，会议、演讲或报告的后来者(或未集中精力的人员)可能错过说话者的重要陈述。常规上，后来者可向在场的人询问所说的内容，直接问说话者，及/或遗漏先前论述的方面。这些选项可能都不是最佳的：作为两个实例，另一人员可能会因被询问说话者的先前而恼火，及/或后来者的缓慢(或人员的注意力不集中)可能尤为明显。

发明内容

在一些实施例中，提出一种用于使用扩增实境装置的方法。所述方法可包含藉由第一扩增实境装置俘获在现实世界场景中的人员所说的话语。所述方法可包含由所述第一扩增实境装置确定第二扩增实境装置以接收对应于所述话语的文本。所述方法可包含将对应于所述话语的所述文本发射到所述第二扩增实境装置。

此类方法的实施例可包含以下各者中的一或多者：所述第二扩增实境装置对于所述话语可能不在场。所述方法可包含通过将所述文本叠加于所述现实世界场景上而由所述第二扩增实境装置的头戴式显示器显示对应于所述人员的所述话语的所述文本，使得所述文本以图形方式归于所述人员。所述文本可经由包括叠加于所述现实世界场景上的所述文本的图形话语气泡而以图形方式归于所述人员。所述方法可包含通过所述第二扩增实境装置确定分类为重要的一或多个词语。通过所述第二扩增实境装置的所述头戴式显示器显示对应于所述人员的所述话语的文本可包括强调所述文本的被确定为重要的一或多个词语。所述方法可包含将所述话语转录成对应于所述话语的所述文本。所述方法可包含通过所述第一扩增实境装置将说出所述话语的所述人员的身份的指示发射到所述第二扩增实境装置。所述方法可包含通过所述第二扩增实境装置接收来自所述第二扩增实境装置的用户的输入以存取对应于所述话语的所述文本。所述方法可包含通过所述第一扩增实境装置将对应于在所述现实世界场景中的所述人员说出的所述话语的数据发射到远程服务器。所述第一扩增实境装置的所述用户可使用第一语言。所述话语可以第二语言说出。所述方法可包含通过所述第一扩增实境装置接收所述话语的所述文本，其中所述文本呈所述第一语言形式。所述方法可包含通过将所述文本叠加于所述现实世界场景上而由所述第一扩增实境装置的头戴式显示器显示对应于所述人员的所述话语的所述文本，使得所述文本以图形方式归于所述人员，其中所述文本呈所述第一语言形式。可显示对应于所述人员的所述话语的所述文本，使得所述文本叠加在所述人员的面部上。对应于所述话语的所述文本可在所述人员的眼睛上滚动。

在一些实施例中，可提出一种扩增实境系统。所述第一扩增实境装置可包含麦克风。所述第一扩增实境装置可包含通信模块。所述第一扩增实境装置可包含第一处理器。所述第一扩增实境装置可包含存储器，所述存储器与所述第一处理器以通信方式耦合且可由所述第一处理器读取，且其中存储有第一组处理器可读指令，所述第一组处理器可读指令在由所述第一处理器执行时可致使所述第一处理器从麦克风俘获由现实世界场景中的人员说出的话语。所述第一组处理器可读指令在由所述第一处理器执行时可致使所述第一处理器确定第二扩增实境装置以接收对应于所述话语的文本。所述第一组处理器可读指令在由所述第一处理器执行时可致使所述第一处理器致使经由所述通信模块将对应于所述话语的所述文本发射到所述第二扩增实境装置。

此类系统的实施例可包含以下各者中的一或多者：所述第二扩增实境装置可能对于所述话语不在场。第二扩增实境装置，其可包含头戴式显示器、第二处理器以及第二存储器，所述第二存储器与所述第二处理器以通信方式耦合且可由所述第二处理器读取，且其中存储有第二组处理器可读指令。在由所述第二处理器执行时，所述第二组处理器可读指令可致使所述第二处理器通过将所述文本叠加于所述现实世界场景上而致使所述头戴式显示器显示对应于所述人员的所述话语的所述文本，使得所述文本以图形方式归于所述人员。所述文本可经由包括叠加于所述现实世界场景上的所述文本的图形话语气泡而以图形方式归于所述人员。所述第二组处理器可读指令在由所述第二处理器执行时可进一步经配置以致使所述第二处理器确定分类为重要的一或多个词语。所述第二组处理器可读指令中的通过将所述文本叠加于所述现实世界场景上而致使所述头戴式显示器显示对应于所述人员的所述话语的所述文本使得所述文本以图形方式归于所述人员的处理器可读指令可包含经配置以致使所述第二处理器强调所述文本的被确定为重要的一或多个词语的处理器可读指令。

另外或替代地，此类系统的实施例可包含以下各者中的一或多者：所述第一组处理器可读指令在由所述第一处理器执行时可进一步经配置以致使所述第一处理器将所述话语转录成对应于所述话语的所述文本。所述第一组处理器可读指令在由所述第一处理器执行时可进一步经配置以致使所述第一处理器致使经由所述通信模块将说出所述话语的所述人员的身份的指示发射到所述第二扩增实境装置。所述处理器可读指令在由所述第二处理器执行时可进一步经配置以致使所述第二处理器接收来自所述第二扩增实境装置的用户的输入以存取对应于所述话语的所述文本。所述第一组处理器可读指令在由所述第一处理器执行时可进一步经配置以致使所述第一处理器致使经由所述通信模块将对应于在所述现实世界场景中的所述人员说出的所述话语的数据发射到远程服务器。所述第一扩增实境装置的用户可使用第一语言。所述话语可以第二语言说出。所述第一组处理器可读指令在由所述第一处理器执行时可进一步经配置以致使所述第一处理器经由所述通信模块接收所述话语的所述文本。所述文本可呈所述第一语言形式。所述第一组处理器可读指令在由所述第一处理器执行时可进一步经配置以致使所述第一处理器致使通过将所述文本叠加于所述现实世界场景上而由所述第一扩增实境装置的头戴式显示器显示对应于所述人员的所述话语的所述文本，使得所述文本以图形方式归于所述人员，其中所述文本呈所述第一语言形式。可显示对应于所述人员的所述话语的所述文本，使得所述文本叠加在所述人员的面部上。对应于所述话语的所述文本可在所述人员的眼睛上滚动。

在一些实施例中，提出一种扩增实境设备。所述设备可包含用于俘获由现实世界场景中的人员说出的话语的装置。所述设备可包含用于确定第二扩增实境装置以接收对应于所述话语的文本的装置。所述设备可包含用于将对应于所述话语的所述文本发射到所述第二扩增实境装置的装置。

此类设备的实施例可包含以下各者中的一或多者：所述第二扩增实境装置对于所述话语可能不在场。所述设备可包含用于将所述话语转录成对应于所述话语的所述文本的装置。所述设备可包含用于将说出所述话语的所述人员的身份的指示发射到所述第二扩增实境装置的装置。所述设备可包含用于将对应于在所述现实世界场景中的所述人员说出的所述话语的数据发射到远程服务器的装置。所述第一扩增实境装置的用户可使用第一语言。所述话语可以第二语言说出。所述设备可包含用于接收所述话语的所述文本的装置，其中所述文本呈所述第一语言形式。所述设备可包含用于通过将所述文本叠加于所述现实世界场景上而显示对应于所述人员的所述话语的所述文本使得所述文本以图形方式归于所述人员的装置，其中所述文本呈所述第一语言形式。可显示对应于所述人员的所述话语的所述文本，使得所述文本叠加在所述人员的面部上。对应于所述话语的所述文本可在所述人员的眼睛上滚动。

在一些实施例中，提出一种驻留在非暂时性处理器可读媒体上用于扩增实境的计算机程序产品。所述计算机程序产品可包含经配置以致使第一扩增实境装置的处理器俘获由现实世界场景中的人员说出的话语的处理器可读指令。所述计算机程序产品可包含经配置以致使所述处理器确定第二扩增实境装置以接收对应于所述话语的文本的处理器可读指令。所述计算机程序产品可包含经配置以致使所述处理器致使将对应于所述话语的所述文本发射到所述第二扩增实境装置的处理器可读指令。

此类计算机程序产品的实施例可包含以下各者中的一或多者：所述第二扩增实境装置对于所述话语可能不在场。所述处理器可读指令可进一步包含经配置以致使所述处理器将所述话语转录成对应于所述话语的所述文本的处理器可读指令。所述处理器可读指令可进一步包含经配置以致使所述处理器致使将说出所述话语的所述人员的身份的指示发射到所述第二扩增实境装置的处理器可读指令。所述处理器可读指令可进一步包含经配置以致使所述处理器致使将对应于在所述现实世界场景中的所述人员说出的所述话语的数据发射到远程服务器的处理器可读指令。所述第一扩增实境装置的用户可使用第一语言。所述话语可以第二语言说出。所述计算机程序产品可包含经配置以致使所述处理器接收所述话语的所述文本的处理器可读指令，其中所述文本呈所述第一语言形式。所述计算机程序产品可包含经配置以致使所述处理器致使通过将所述文本叠加于所述现实世界场景上而经由头戴式显示器显示对应于所述人员的所述话语的所述文本使得所述文本以图形方式归于所述人员的处理器可读指令，其中所述文本呈所述第一语言形式。可显示对应于所述人员的所述话语的所述文本，使得所述文本叠加在所述人员的面部上。对应于所述话语的所述文本可在所述人员的眼睛上滚动。

附图说明

参考以下各图，可实现对各种实施例的性质及优点的进一步理解。在附图中，类似的组件或特征可具有相同的参考标记。此外，通过在参考标记后面加上破折号及在类似组件之间进行区分的第二标记来区分相同类型的各种组件。如果说明书中只使用第一参考标记，那么描述适用于具有相同第一参考标记的类似组件中的任一者，而与第二参考标记无关。

图1A说明经配置以经由头戴式显示器呈现虚拟对象的系统的实施例。

图1B说明经配置以准许AR装置之间及/或与远程计算机系统的通信的系统的实施例。

图2说明用以提供对应于用户不在场时的话语的文本的头戴式显示器的第一人称检视点的实施例。

图3说明用以提供对应于以不同于用户的偏好语言的语言说出的话语的文本的头戴式显示器的第一人称检视点的实施例。

图4说明用于使用扩增实境装置来提供对应于用户不在场时的话语的文本的方法的实施例。

图5说明用于使用AR装置提供语言转译服务的方法的实施例。

图6说明用以提供语言转译服务的头戴式显示器的第一人称检视点的实施例。

图7说明用于使用扩增实境装置提供语言转译服务并且还提供对应于用户不在场时的话语的文本的方法的实施例。

图8说明计算机系统的实施例。

具体实施方式

扩增实境(AR)装置(例如AR眼镜或更一般化地，包含头戴式显示器(HMD)的任何形式的可佩戴扩增实境装置)可允许用户检视通过HMD显示给用户的与虚拟对象(例如，应用、文本、图形)叠加的现实世界场景。举例而言，AR装置可使用相机来俘获由用户检视的场景的图像，且可基于所述场景内的现实世界对象的类型及/或位置来叠加虚拟对象。HMD可用以呈现用户感兴趣的信息，例如对应于在用户检视的场景中出现的话语的文本。

如果一或多个其他人员在对话期间正使用AR装置，那么对于一用户，当使用AR装置加入已经在进行中的对话时(或如果用户未集中精力)，有可能接收用户不在场或未倾听的对话的至少部分的文本。举例来说，经由装置到装置通信协议，对于对话在场的人员所拥有的另一扩增实境装置可发射所述对话的文本。此文本可通过HMD以用于存在于场景中的人员的话语气泡的形式显示给用户。还可发射所述文本应归于的人员的指示(例如，人员的面部图像及/或人员的扩增实境装置的识别)。过去对话的文本可由用户佩戴的HMD呈现给用户且以话语气泡或某一其它形式的虚拟对象显示。在所述人员说出额外话语时，可在每一话语气泡中添加文本。由此，用户可能够浏览在用户未倾听(例如，用户不在场或未集中精力)时出现的话语。

当回顾对应于一个话语气泡的过去话语的文本时，可同时显示对应于在所述话语时存在于场景中的其他人员的其它话语气泡中的文本，以使得所述用户具有在那时出现的对话的每一方的上下文。在一些实施例中，被认为重要的词语可在显示给用户时加以强调以允许用户快速识别人员的话语的关键部分。

AR装置还可适用于帮助说不同语言的两个或两个以上人进行交互。如果用户正使用AR装置的HMD，那么AR装置可能够俘获来自一人员的以不同于用户的母语的语言(或用户希望使用的某一其它语言)说出的话语。AR装置可经配置以检测人员说出的语言何时不同于用户的母语。人员的话语可经俘获且发射到远程服务器以用于转译成用户的母语(或某一其它所选、所需语言)并转录成文本。所述人员所说(以外语)的呈用户母语形式的文本可经由AR装置的HMD显示给用户。所述文本可作为由AR装置叠加到现实世界场景上的虚拟对象而呈现给用户。虚拟对象可以类似于一些连环漫画中的文本的话语“气泡”形式呈现给用户，以展示文本归于以外语说出所述词语的人员。在所述人员以外语说话的同时或不久之后，用户可能够以用户的母语阅读所述人员的话语的文本且知晓文本可归于所述人员。此类配置可允许说不同语言的两个或两个以上人员成功地沟通，同时依赖于AR装置用于辅助语言转译及转录。此外，因为用户正在倾听人员的话语而非替代音频，因此用户可更容易地确认人员的情绪水平。在一些实施例中，虚拟对象可将文本作为叠加在说出所述文本的人员的面部上的滚动文本呈现给用户。由此，AR装置的用户可维持(或至少看似维持)与说出所述话语的人员的眼神接触。在一些实施例中，虚拟对象可与说出所述话语的人员的眼睛对准。由此，对于说话者来说，不会看起来用户正在阅读显示在说话者头部上方(或说话者附近的某其它处)的话语气泡。

此类布置可能够从存在于场景中的多个人员当中区分话语的来源。AR装置可能够确定所接收话语的方向或位置(例如通过使用多个麦克风且执行飞行时间分析)，且确定哪一人员位于发起话语之处。因此，所说出的话语可归于存在于由用户检视的场景中的恰当人员。可识别存在于场景内的面部。因此，如果两个或两个以上人员存在于场景中，则话语可归于恰当人员，且因此，话语气泡可为每一人员呈现且仅含有归于那一特定人员的文本。通过跟踪存在于场景中的人员的话音及/或面部，人员的话语气泡可在所述人员在场景中四处移动及/或退场且重新进入场景时(甚至当所述人员不说话时)跟踪所述人员。

另外，可呈现组合语言转译方面与话语共享方面的布置。由此，如果AR装置的用户对于话语不在场，则用户的AR装置可能够请求并接收对应于话语的文本，即使用户的母语或所选语言不同于最初说出所述话语及/或所述话语最初转译成的语言也是如此。

图1A说明经配置以经由头戴式显示器(HMD)将虚拟对象显示给用户的系统100A的实施例。系统100可为扩增实境(AR)装置的部分。系统100可包含图像俘获模块110、面部识别及跟踪模组120、音频俘获及定位模块130、音频处理引擎135、通信模块140、用户偏好模组150、用户接口模块160、显示模块170、运动/焦点跟踪模块175，及面部叠加模块180。系统100的其它实施例可包含较少或较大数目的组件。为简单起见，已从图1省略通常已知组件，例如电力供应器组件。一或多个处理器可执行系统100A的模块中的一或多者的功能。计算机系统(例如图7的计算机系统700)可执行系统100的一或多个模块的功能。为清楚起见，“用户”是指使用AR装置(其可含有系统100)的人员，“人员”是指可能正在或可能不在使用AR装置(其可含有系统100)的某一其他人员。

图像俘获模块110可经配置以周期性地俘获正由用户检视的场景的图像。举例来说，图像俘获模块110可包含图像俘获装置，所述图像俘获装置经定位以俘获正由用户检视的场景的视场。图像俘获模块110可包含相机。所述相机可有所指向，使得其俘获由用户检视的场景的图像。图像俘获模块110可快速地俘获图像。举例来说，可由图像俘获模块110每一秒俘获多个帧。可处理一些或所有这些图像以确定在现实世界场景内的各种对象的位置，例如人员及其身份。

图像俘获模块110所俘获的图像可传递到面部识别及跟踪模块120。面部识别及跟踪模块120可首先定位存在于从图像俘获模块110接收的图像内的每一面部。面部识别及跟踪模块120可俘获并存储说话的人员的面部的图像。由此，可存储说话的人员的图像。面部识别及跟踪模块120可接着确定所述面部是否对应于先前识别的人员。面部识别及跟踪模块120可存取用户先前与之交互的人员的数据库。此类数据库可指示语言转译服务对于所述人员是否必要。一旦已定位且可能识别人员，则可随着所述人员在由用户检视的场景内移动及进出所述场景而跟踪其位置(或，更具体来说，可能是所述人员的面部的位置)。如果未识别出与所述面部相关联的人员的身份，则可将所述人员识别为陌生人。在一些实施例中，跟踪人员眼睛的位置。跟踪人员的眼睛可用于确定：其正在对谁说话，并将虚拟对象叠加在人员的面部及/或眼睛上，使得当用户检视虚拟对象时，用户至少看起来与所述人员维持眼神接触。

音频俘获及定位模块130可俘获系统100附近的音频。举例来说，音频俘获及定位模块130可经配置以俘获存在于由用户检视的场景内的人员(也称为说话者)所说出的话语。音频俘获及定位模块130可包含一或多个麦克风。可使用多个麦克风来辅助确定发起音频的位置，例如基于飞行时间分析。音频俘获及定位模块130可经配置以确定发起声音(例如话语)的方向或位置。由此，音频俘获及定位模块130可用以俘获音频且确定音频源。举例来说，如果多个人员正参与对话，则音频俘获及定位模块130可俘获人员的话语且确定哪一人员说出所述话语。在一些实施例中，音频俘获及定位模块130可用以俘获对于由用户检视的场景不在场的人员的音频。举例来说，在用户之后出现的话语仍可被俘获且确定其来源。

用户偏好模块150可为经配置以存储用户偏好的计算机可读存储媒体。用户偏好模块150可允许用户指定用户想要或不想要转译成用户的母语的语言。用户偏好模块150还可允许用户指定其母语。用户偏好模块150可允许用户指定是否可从其它AR装置请求话语的文本。例如文本大小、文本颜色及/或是否突出显示关键词等其它偏好可由用户指定且使用用户偏好模块150加以存储。举例来说，用户可能够指定用户将希望在文本中突出显示的特定关键词，例如用户的姓名(其可充当可能特定地针对所述用户的话语的线索)。

当音频俘获及定位模块130俘获到音频时，可通过音频处理引擎135在本地分析所述音频以确定话语是否呈用户的母语形式(在一些实施例中，此类处理可由系统100远程执行)。如果确定话语呈用户的母语形式，则可不对语言进行进一步处理。然而，如果确定话语呈不同于用户母语的语言形式，则可通过系统100或在远程进行额外处理以向用户提供经转译文本。在一些实施例中，远程计算机系统可用以执行转译及/或转录服务。如果确定话语并不呈用户的母语形式，则可将文本的数字表示发射到远程系统以进行转译及转录。在一些实施例中，音频处理引擎135可执行转译及/或转录服务。不管是否将话语转译成另一语言，都可将所述话语转录成文本以供存储、发射到另一AR装置及/或经由AR装置的HMD显示给用户。

通信模块140可用以发射话语(其可呈与用户母语或所选语言不同的语言形式)的数字表示以进行转译及/或转录。可经由例如因特网等一或多个网络以无线方式将音频的数字表示发射到远程服务器。远程服务器可将音频转译及/或转录成文本。通信模块140还可用来接收可由AR装置存储及/或可经由AR装置的HMD显示给用户的文本。

另外，通信模块140可用来与为其他人员提供服务的其它系统/装置(例如类似于系统100的系统)通信。此类通信可允许经由装置到装置协议或经由远程系统在AR装置之间直接交换话语的文本。此类布置可允许用户阅读对应于在用户及用户的AR装置对于话语不在场时说出的话语的文本(如果此类话语由另一AR装置俘获)。由此，系统100可经配置以经由通信模块140从例如其它AR装置等其它系统接收数字化话语或文本以供显示给用户。可使经由通信模块140从例如另一AR装置等另一系统接收的话语或文本与识别说出话语的人员的识别符相关联。所述识别符可为对应于所述人员喜欢的事物的图像或某一其它形式的数据。所述识别符可为对应于说出话语的人员所拥有的系统的某一形式的唯一识别符。由此，所述识别符可允许系统100确定应将文本归于哪一人员。

可为HMD的显示模块170可充当输出装置以将文本呈现给用户。举例来说，显示模块170可包含将光直接投影到用户的一只两只眼睛中或将光投影到用户检视的反射表面上的投影仪。在一些实施例中，用户佩戴眼镜(或单个透镜)，光由显示模块170投影到所述眼镜(或单个透镜)上。因此，用户可同时检视虚拟对象及存在于场景中的现实世界对象。因为HMD可用以将虚拟对象呈现给用户，因此用户之外的其他人员可能不能够看到所述虚拟对象。由此，如果将话语气泡呈现为虚拟对象，仅所述用户可看到文本气泡。

显示模块170可使用各种布置来将归于特定人员的文本呈现给用户。待呈现给用户的文本可能以例如话语气泡等虚拟对象形式存在。话语气泡可为指示话语气泡内的文本应归于哪一人员的图形元素。话语气泡可叠加于现实世界场景上，使得其出现在说出由所述文本表示的话语的人员附近。话语气泡可部分透明，使得用户可看到现实世界场景中在话语气泡“后方”的事物。显示模块170还可用以呈现额外信息，例如存在于场景内的人员的姓名及语言。在其它实施例中，文本可作为虚拟对象叠加在说出导致所述文本的话语的人员的面部上。由此，当用户正阅读文本时，用户将注视说出话语的人员。对于说出话语的人员，看起来好像用户正进行眼神接触。这对于针对聋人的语言转译及/或服务可尤其有用：用户可在最少地维持与说话者眼神接触的观感的同时阅读对应于话语的文本。在一些实施例中，对应于话语的文本可在说话者的眼睛上滚动以进一步促进用户与说话者之间的眼神接触的观感。

用户接口模块160可准许用户提供输入。举例来说，用户接口模块160可为上面具有一或多个按钮的手环(bracelet)。用户可能够致动这些按钮以将输入提供到系统100。举例来说，用户可能想要激活或撤销激活话语转译服务或请求对应于在用户不在场(或未集中精力)时出现的话语的文本。用户还可使用用户接口模块160滚动先前话语的文本。尽管手环为一种形式的用户接口，但应理解，可使用各种其它用户接口以供用户提供输入，例如话音辨识模块或眼睛跟踪模块。

运动/焦点跟踪模块175可用以确定用户头部的角度及/或用户眼睛的焦点的方向。为跟踪用户头部的角度，可使用加速度计或陀螺仪。在一些实施例中，取决于用户头部的角度，叠加于人员面部上的虚拟对象可从面部解除显示锚定。这在用户不关心附近的其他人员是否知晓用户正注意虚拟对象的情况下可为有用的。或者，用户可向上看，如同正在思考，同时实际上将其注意力指向虚拟对象。

运动/焦点跟踪模块175可包含相机或可用以确定用户眼睛的焦点指向何处的其它形式的眼睛跟踪装置。不需要用户的头部处于特定角度，用户眼睛的焦点方向即可确定叠加于人员面部上的虚拟对象是否可解除显示锚定。由此，如果用户的视角(可通过用户头部的角度及/或用户眼睛的焦点方向来确定)超过从地平线起的阈值角度，则叠加于人员面部上的虚拟对象可解除显示锚定，且可以替代格式呈现，例如布置成水平系列。

面部叠加模块180可从面部识别及跟踪模块120接收与面部(及/或头部)相关联的位置及身份。面部叠加模块180可确定面部(或，更具体来说，眼睛及眼睛周围的面部区域)是否应叠加虚拟对象，例如对应于由人员说出的话语的文本。举例来说，基于从用户接收的输入，面部叠加模块180可不将虚拟对象叠加在任何面部上。(即，用户可具有打开及关闭虚拟对象在面向上的叠加的能力。)面部叠加模块180可确定应将哪一虚拟对象叠加在面部上。确定应将哪一虚拟对象叠加在面部上可基于与所述面部相关联的人员的身份、与所述面部相关联的人员是否正说话、用户是否正注视所述人员、用户是否正对所述人员说话，及/或由用户定义的一组用户偏好。在一些实施例中，不致使将文本叠加在人员的面部上，面部叠加模块180可控制话语气泡的大小、颜色、透明度、清晰度及/或位置。

系统100的模块中的至少一些可使用计算机化装置，例如图7的计算机系统，来实施。系统100的模块可经组合或划分成较小或较大数目的模块。多个模块可由计算机化装置实施。举例来说，音频俘获及跟踪模块120的至少部分可实施为由计算机化装置(例如，处理器，计算机系统)执行的指令。

图1B说明经配置以准许AR装置之间及/或与远程计算机系统之间的通信的系统100B的实施例。系统100B可准许通过AR装置与远程计算机系统以及与其它AR装置的通信。在图1B中，AR装置185-1及AR装置185-2可各自包含图1A的系统100A。AR装置185-1与AR装置185-2可能够经由装置到装置协议(例如蓝牙或WI-FI直连)直接通信。因此，AR装置185-1可将数据发射到AR装置185-2且可从AR装置185-2接收数据。

AR装置185-1还可能够与网络以无线方式通信，所述网络可包含一或多个私用及/或公用网络。私用网络可包含公司内部网络，公用网络可包含因特网。通过使用网络，AR装置185-1可能够与例如远程服务器190等远程服务器通信。远程服务器190可用以在AR装置185-1远程执行服务，例如语言转译及/或转录服务。

尽管仅展示AR装置185-1与另一AR装置及网络两者通信，但应理解，AR装置185-2也可能够进行此类通信。另外，为简单起见而仅说明有限数目的AR装置185及远端伺服器；应理解，在其它实施例中，可存在较小或较大数目的AR装置185及远程计算机系统。

图2说明用以提供对应于用户不在场时的话语的文本的AR装置的头戴式显示器(HMD)的第一人称检视点200的实施例。图2是从AR装置的用户的第一人称检视点200呈现。AR装置的用户对于人员210与人员220之间的对话的至少部分可能不在场(或未倾听)。由此，AR装置的用户并未听到人员210与人员220之间说出的至少一些话语。在图2的实施例中，人员210及人员220中的至少一者也使用AR装置。在用户进入对话之后，用户可能想要即刻知晓人员210与人员220之间在用户到达之前(或在用户集中精力之前)说出的话语的内容。当用户已“进入对话”时，可基于用户与人员210及/或人员220之间的距离确定(例如)用户与人员210及/或人员220之间的眼神接触、通信链路是否存在于用户的AR装置与人员210及/或人员220的AR装置之间。用户使用的AR装置可请求且从人员210或人员220使用的AR装置获得(如果给予权限)对应于人员210与人员220之间的话语。所获得的信息可指示说出所述话语的每一人员的识别符，使得话语的文本可归于适当人员。

由用户的AR装置接收的文本可经由AR装置的HMD呈现给用户。话语气泡230可由AR装置使用以呈现对应于人员210与人员220之间在用户进入对话之前说出的话语的文本。对应于人员210说出的话语的文本可由话语气泡230-1显示。对应于人员220说出的话语的文本可经由话语气泡230-2显示。参考话语气泡230-1，人员210说出对应于文本260-1的话语。此文本可能是在AR装置的用户进入人员210与人员220之间的对话之间由人员210说出。这可能意味着文本260-1是在用户的AR装置与人员210(或人员220)的AR装置进行通信之前由人员210说出。话语气泡230可用以显示用户不在场时说出的文本，同时话语气泡230还可用以显示用户在场时说出的文本。这在以下情况下可为有用的：用户走神、用户难以听清人员210及/或人员220，及/或用户希望重新了解对话的细节。在出现新话语时，可更新话语气泡。

图形元素240可为话语气泡230的部分，且可用以指示说出对应于话语气泡内的文本的话语的特定人员。举例来说，话语气泡230-1的图形元素240-1指示人员210说出对应于文本260-1的话语。如果话语气泡230-1由经由HMD将话语气泡230-1显示给用户的AR装置重新定位，则可修改图形元素240-1的形状以便继续指示人员210说出话语气泡230-1的内容。

用户可能够回顾不同于当前经由话语气泡230显示的内容的额外文本。举例来说，滚动条250可由用户操纵(例如经由AR装置的用户输入模块)以检视对应于先前说出的话语或稍后说出的话语的文本。如果用户与滚动条250-2交互以滚动回到对应于人员220的先前话语的文本，则可修改话语气泡230-1的内容以显示对应于紧接于现在显示的话语气泡230-2内的话语之前或之后由人员210说出的话语。因此，用户可能够更好地理解话语气泡230-2内呈现的话语的上下文。举例来说，在用户不阅读文本260-1的情况下，用户可能不太理解文本260-2，文本260-2是对文本260-1的响应。应理解，话语气泡230及滚动条250的使用是用以将对应于话语的文本显示给佩戴AR装置的HMD的用户的示范性虚拟对象。可使用其它布置来呈现文本。举例来说，在一些实施例中，文本可叠加在说出文本的人员的面部上。由此，当用户正阅读文本时，用户可能够同时阅读文本且至少看起来正与说出对应于所述文本的话语的人员维持眼神接触。如果用户将其眼睛的焦点从话语气泡转移到人员，则可使得话语气泡及其文本透明、隐藏、模糊、移动或大小减小。当用户眼睛的焦点返回到文本时，可使话语气泡及文本较为不透明、清晰、移动或大小放大。

在话语气泡230内呈现的一些文本可对应于在用户进入对话之前说出的话语的同时，如果人员210与220继续说话，可将额外文本添加到话语气泡。由此，可实时或接近实时地更新话语气泡230的内容以匹配所述对话。如果用户已与滚动条250交互以回顾先前对话，则当使用滚动条250来指示应显示最近文本时，对应于最近话语的文本可供用户阅读。经由话语气泡230呈现的文本可加上时间戳记。

尽管图2的实施例说明两个人员(加用户)为对话的部分，但应理解，较大或较小数目的人员可为对话的部分。本文中详述的实施例可针对于其中存在许多人的情境，例如由一人员向听众给出的报告或演讲。为了使用户接收对应于话语的文本，说话者可能不需要使用AR装置，而只要听众中的另一成员正使用第二AR装置且正俘获话语的音频，对应于话语的文本就可从听众的第二AR装置直接或经由计算机系统间接接收，所述计算机系统从第二AR装置接收对应于所述话语的数据。

图3说明用以提供语言转译服务的AR装置的头戴式显示器的第一人称检视点300的实施例。AR装置可包含图1的系统100或经配置以提供语言转译及转录服务的某一其它系统的实施例。图3的第一人称检视点300可从用户的角度经由AR装置的HMD检视。用户可能够检视包含现实世界项目(例如人员210及人员220)的现实世界场景。虚拟对象可由AR装置叠加于现实世界场景上。在第一人称检视点200中，两个虚拟对象叠加于现实世界场景上：话语气泡330-1及话语气泡330-2。在图3中，人员210及人员220正说出不同于用户的偏好语言(例如，母语)的语言。

在图3的第一人称检视点300中，用户正与人员210及人员220说话。在所说明的实施例中，人员210刚刚说完一句话，而人员220在人员210之前已说话。这些人员中的每一者以非用户母语的语言说话。作为一实例，假定用户的母语或用户偏好检视文本的语言是英语。应理解，本文中详述的实施例可用于转译成不同于英语的语言。

话语气泡330可为经由HMD叠加在现实世界场景上的图形虚拟对象。话语气泡330可含有已经转译及转录的文本。话语气泡330中的每一话语气泡含有图形特征以识别所述话语气泡与哪一人员相关联。图形元件340-1指示话语气泡330-1与人员210说出的话语相关联。图形元件340-2指示话语气泡330-2与人员220说出的话语相关联。话语气泡可含有识别话语的译出语言的指示310。参考话语气泡330-1，人员210说话所用的语言为尼泊尔语，如由指示310-1所显示。参考话语气泡330-2，人员220说话所用的语言是印地语，如由指示310-2所指示。可由用户的AR装置执行转译及转录服务，或在一些实施例中，可将AR装置俘获的音频发射到远程计算机系统以进行转译及转录服务。AR装置可从远程计算机系统接收呈用户指定的语言(例如用户的母语)形式的文本。

除了为用户转译成不同语言的话语之外，还可准许用户检视对应于先前说出的不再显示的文本的文本的话语气泡330中的文本。举例来说，用户可提供输入，例如经由图1的系统100的用户接口模块160，用户可提供指示其希望检视与先前转译的话语相关联的文本的输入。在一些实施例中，滚动条250可经选择且可允许用户提供输入以滚动先前话语的文本。如果滚动与人员210相关联的文本，则可滚动与人员220(及可能地，存在于场景中的其他人员)相关联的文本，使得人员220在与人员210大致相同的时间说出的话语与人员210的话语的文本同时显示。此可允许用户确定对应于人员210的话语的文本的上下文。举例来说，如果用户回顾话语的先前相关联文本，且在下午1：24，人员210的话语的经转译文本仅说出“好的”，则在不理解人员响应的上下文的情况下，这对于用户没什么价值。由此，可修改用于人员220的话语气泡330-2以显示在下午1：23，人员220说过(例如)“您能够就新会议时间提醒下您的同事吗？”

在人员210及人员220移动时，其对应话语气泡可随其移动。在一些实施例中，话语气泡可保持固定；然而，可修改话语气泡330的图形元素340以便指示说出对应于文本的话语的人员。举例来说，图形元素340的地点可保持在对应于话语气泡的文本的人员的面部、口部或身体上或其附近。如果人员移动到距用户的阈值距离外及/或不面向用户，则可隐藏所述人员的话语气泡。如果人员返回到阈值距离内及/或面向用户，则可经由HMD将所述人员的话语气泡重新显示给用户。

不使用话语气泡330，可将经转译的文本通过HMD叠加在说出所述话语的人员的面部上而呈现给用户。由此，当用户正阅读经转译文本时，用户可能够维持(或至少看起来能够维持)与说出所述话语的人员的眼神接触。在一些实施例中，在转译出新话语时，对应于所述新话语的文本呈现在说出对应话语的人员的眼睛上。由此，当用户正阅读文本时，可至少维持眼神接触的观感。如果用户将其眼睛的焦点从文本转移到人员，则可使文本透明、隐藏、模糊、移动或大小减小。当用户眼睛的焦点返回到文本时，可使文本较为不透明、清晰、移动或大小放大。

除转录与转译之外，还可使用话语气泡330将对应于在用户不在场时出现的话语的文本呈现给用户。人员210及220可佩戴或以其它方式拥有能够俘获话语的一或多个系统，例如图1的系统100。当用户进入人员附近时，所述人员可准许所述用户存取其先前对话。举例来说，人员210及220可各自被要求提供输入到其系统或预先配置其系统以指示准许用户存取。可将文本或音频从人员210及220的系统中的一或两者发射到用户的系统。如果音频由用户的系统接收到，则可将音频转录及/或转译成用户的母语，接着以话语气泡的形式显示给用户。如果将文本发射到用户的系统，则在必要时可转译所述文本，且经由话语气泡将其显示给用户。文本或音频可在AR装置之间直接发射或经由远程计算机系统发射。

还可由用户所使用的AR装置接收说出文本或话语的人员的指示。此指示可为说出所述文本的人员的图片。举例来说，可使人员210的图像与将经由话语气泡330-1显示的文本相关联。所述图像可由用户的系统用来识别说出文本的人员。在一些实施例中，可使装置识别符与将经由话语气泡330-1显示的文本相关联。装置识别符可对应于人员210佩戴或以其它方式拥有的AR装置。用户的系统可能够确定与所述装置识别符相关联的AR装置的位置，且可将文本或话语归于佩戴或以其它方式拥有所述AR装置的人员。

在一些实施例中，可强调通过AR装置的HMD显示给用户的文本内的关键词。此类强调可允许用户快速回顾文本以找出文本所归于的人员所给出的关键点。可基于说出词语的人员应用的强调或基于将强调指派给特定词语的词典来确定关键词。参考图3，所强调的关键词包含关键字320-1及关键字320-2。强调可包含突出显示、变成斜体、加粗、使用不同颜色、闪动及/或以其它方式使得文本的部分从其它文本突出出来。可由AR装置的用户定义特定关键词，且可将其存储于用户偏好数据库中。举例来说，用户的姓名可由用户选择为关键字。这对于用户确定特定语句是否专门针对所述用户可为尤其有用的。

可使用图1的系统执行各种方法以将虚拟对象叠加在例如图2及3中的现实世界场景上。图4说明用于使用扩增实境装置来提供对应于用户不在场时的话语的文本的方法400的实施例。方法400可涉及由用户使用AR装置，所述AR装置可包含图1的系统100。用于执行方法400的装置包含具有HMD的AR装置。用于执行方法400的装置进一步包含：音频俘获及定位模块，其可包含一或多个麦克风；图像俘获模块，其可包含一或多个相机；面部识别及跟踪模块；面部叠加模块；用户偏好模块，其可包含计算机可读存储媒体；显示模块，其可包含头戴式显示器(HMD)，运动/焦点跟踪模块，其可包含一或多个相机；用户接口模块；通信模块；以及音频处理引擎。各种模块及引擎中的至少一些可由一或多个处理器执行。更一般地说，方法400的步骤可由例如计算机系统等计算机化装置执行。

在步骤410处，可由第一AR装置俘获由存在于现实世界场景中的人说出的话语。在现实世界场景内说出的话语可包含来自一或多个人员的话语。存在于第一AR装置上的一或多个麦克风可用以俘获所述话语并确定发起话语的方向。在一些实施例中，由第一AR装置俘获的话语中的至少一些可能是由佩戴或以其它方式使用第一AR装置的人员说出。在一些实施例中，由第一AR装置俘获的话语存储在本地。在其它实施例中，将话语的数字表示发射到远程计算机系统以进行存储及/或转录。

在步骤420处，将在步骤410处俘获的话语转录成文本。此步骤可由第一AR装置执行，或可将在步骤410处俘获的话语发射到远程计算机系统，所述远程计算机系统可接着执行话语到文本的转录。说出对应于文本的话语的人员的指示可与文本一起存储。在一些实施例中，说出所述文本的人员的指示为所述人员的图像。此图像可由第一AR装置俘获。在其它实施例中，可基于发起话语的方向而将识别符指派给说出话语的人员，或识别符可基于正由所述人员使用的AR装置。

在一些实施例中，当AR装置的用户正在说话时，AR装置的处理器可闲置(例如，不转译或转录某一其他人员的话语)。并非保持闲置，AR装置的处理器可致力于重新处理先前存储的话语以改进转译及/或转录。由此，可更新先前话语的所存储转录以更准确。这在稍后将转录提供给其他人员的情况下可尤其有用。

在步骤430处，可存储对应于所述话语的文本。可由第一AR装置存储所述文本，或可由远程计算机系统远程存储所述文本。如果转录服务由远程计算机系统执行但文本将由第一AR装置存储在本地，则可将含有文本的数据从远程计算机系统发射到第一AR装置。

在步骤440处，可从第二AR装置接收对于对应于在步骤410处俘获的话语的文本的请求。第二AR装置可能由在说出在步骤410处俘获的话语时不在场的用户佩戴或以其它方式使用。由此，当用户已进入含有在步骤410处说出的话语的对话(或演讲、报告等)时，在步骤440处接收的请求可出现。可由第一AR装置从第二AR装置接收对于对应于话语的文本的请求。对文本的请求可指示第二AR装置请求文本的一段时间。举例来说，第二AR装置的用户可将输入提供到第二AR装置，指定需要演讲的前五分钟的文本。请求文本的时间段可基于若干因素，包含：由第二AR装置的用户选择的时间段、由第一AR装置的用户选择的时间段、第一AR装置已俘获音频的时长、存储对应于话语的文本的预定义时间段，等。仅当第二扩增实境装置的用户提供请求文本的输入时才会出现在步骤440处对于话语的请求。在其它实施例中，第二AR装置可请求文本而不需要用户输入。是否需要用户输入可基于由第二AR装置存储的用户偏好。

在步骤450处，假定第一AR装置的用户已提供权限，则可将对应于在步骤410处俘获的话语的文本的数据发射到第二AR装置。此类发射可为直接的：从第一AR装置到第二AR装置。此类发射还可为间接的：含有文本的数据可通过第二AR装置从远程计算机系统接收，所述远程计算机系统已存储对应于由第一AR装置在步骤410处俘获的话语的文本。除话语的文本之外，在步骤450处发射的数据还可含有说出对应于所述文本的话语的人员的指示。由此，可将文本归于说出对应话语的适当人员。在一些实施例中，指示可为说出所述话语的一或多个人员的图像。如果指示为图像，则第二AR装置可使存在于图像中的人员与存在于现实世界场景中的人员匹配以识别说出文本的人员。在其它实施例中，可使用例如序列号或IP地址等识别符来指示由说出文本的人员所佩戴的AR装置。由此，通过确定由识别符指示的AR装置的位置，可识别文本的说话者。

在步骤460处，可以一或多个虚拟对象的形式将所述文本呈现给第二AR装置的用户。第二AR装置可使用其HMD来将文本叠加在现实世界场景上而呈现给用户。由此，如果用户正注视说出在步骤410处俘获的话语的人员中的一或多者，则对应于由此些人员说出的话语的文本中的至少一些可由HMD显示为叠加于现实世界场景上。因为HMD用以将文本呈现给用户，因此仅所述用户可能够检视文本。存在于用户附近的其他人员可能不知道此类文本正呈现给用户。呈现给用户的虚拟对象可包含一或多个话语气泡，例如在图2及3中呈现的那些话语气泡。每一话语气泡可悬浮在文本所归于的人员的头部上。在其它实施例中，文本可叠加在说出对应话语的人员的面部上，由此当用户阅读文本时，存在于用户附近的人员看起来用户正与说出对应于所述文本的话语的人员进行眼神接触。在用户附近的人员说出额外话语时，呈现文本的虚拟对象可经更新以包含对应于所述新话语的文本。对于第二AR装置在场时的此类话语，可通过第二AR装置而非经由第一AR装置直接执行对话语的俘获转录。

图5说明用于使用AR装置提供语言转译服务的方法500的实施例。在方法500中，转译服务可由说话者的AR装置或倾听者的AR装置执行，哪一者被确定更有效(例如，基于功率消耗及/或处理的总量)则由哪一者执行。方法500可涉及由用户使用AR装置，所述AR装置可包含图1的系统100。用于执行方法500的装置包含具有HMD的多个AR装置。用于执行方法500的装置进一步包含以下各者的实例：音频俘获及定位模块，其可包含一或多个麦克风；图像俘获模块，其可包含一或多个相机；面部识别及跟踪模块；面部叠加模块；用户偏好模块，其可包含计算机可读存储媒体；显示模块，其可包含头戴式显示器(HMD)，运动/焦点跟踪模块，其可包含一或多个相机；用户接口模块；通信模块；以及音频处理引擎。各种模块及引擎中的至少一些可由一或多个处理器执行。更一般地说，方法500的步骤可由例如计算机系统等计算机化装置执行。

当两个人员正进行一对一对话时，使人员中的一者的AR装置而非与另一人员相关联的AR装置执行所有语言转译服务可能没有效率增益。然而，在较大群组中，情况可能并非如此。举例来说，如果说话者以第一语言说话，而多个倾听者中的每一者都是更喜欢第二语言，则使说话者的AR装置处置转译服务且将文本提供到每一其它AR装置(而非使倾听者的每一AR装置个别地执行转译服务)可能更为有效。因此，可执行分析以确定使说话者的AR装置执行语言转译服务更为有效还是使倾听者的AR装置执行语言转译服务更为有效。作为一实例，如果说话者正进行演讲或作报告，则使说话者的AR装置执行转译服务比使每一听众成员的AR装置执行转译服务可能更为有效。

在步骤505处，可通过第一用户的AR装置从预定义距离内、通信范围内及/或面对第一用户的其它用户的AR装置接收偏好语言的指示。基于这些指示，第一用户的AR装置可能够确定需要多少转译及转译成哪些语言。可经由直接通信协议(例如，蓝牙、WiFi直连)或经由网络(例如，WIFI网络)接收所述指示。

在步骤510处，可基于预定义准则做出关于第一用户的AR装置应处置至少一些转译服务还是其它用户的AR装置应处置转译服务的确定。预定准则可指定如果特定数目的AR装置(例如，2个、3个、4个，或4个以上)与相同偏好语言相关联，则第一用户的AR装置应处置转译服务并将文本提供到其它用户的AR装置中的至少一些。额外或替代准则可用以确定哪一AR装置应执行(或管理)语言转译服务。每一AR装置的电池电量可作为考虑因素。如果其它用户的AR装置中的一或多者的电池电量低(例如，小于10％)，则为了省电，第一用户的AR装置可执行转译服务并将文本提供到其它用户的AR装置(或至少具有低电池电量的AR装置)。而且，使说话者的AR装置执行转译服务可能更准确，因为由说话者拥有的AR装置的麦克风可能够更准确地俘获说话者的话语。由此，在一些实施例中，说话者的AR装置(正在说话的任何人的AR装置)执行或管理转译服务。

步骤510可涉及用户的AR装置与一或多个其它用户的AR装置之间的通信以传达哪一(些)装置将执行语言转译服务(此类确定称为转译方案)。如果第一用户的AR装置将执行语言转译服务，则其它用户的AR装置可接收此类通知，其可触发其它用户的AR装置不执行语言转译服务，而是等待接收文本以进行显示。另外，可在AR装置之间交换电池电量信息以供用于基于可用功率确定哪一(些)装置最适合执行语言转译服务。可在步骤520处使用例如网络可用性(例如，第一用户的AR装置可接入无线网络，而其它用户的AR装置不能)等其它因素以确定转译方案。另外，如果其它用户中的多者具有不同偏好语言，则第一用户的AR装置可执行到最常见偏好语言的语言转译服务，而与其它偏好语言相关联的AR装置可执行单独转译(从所俘获音频，或从第一用户的AR装置提供的文本)。

在步骤510之后，可能确定使第一用户的AR装置执行语言转译服务中的至少一些更为有效。由此，假定第一用户正说话，则转译方案可涉及通过方法500继续到步骤515而由在话语的发起地点处的第一用户的AR装置处置转译服务。在步骤515处，可由第一AR装置(其可由第一用户佩戴或以其它方式拥有)俘获第一用户说出的话语。存在于第一AR装置上的一或多个麦克风可用以俘获来自第一用户的话语。在一些实施例中，第一AR装置俘获的话语存储在本地。在其它实施例中，将话语的数字表示发射到远程计算机系统进行存储及/或转录。

在步骤520处，可将在步骤515处俘获的话语转译并转录成文本。转译的语言可基于在步骤505处接收的偏好语言的指示(例如，多个AR装置当中最风行的偏好语言。此步骤可由第一AR装置执行，或可将在步骤515处俘获的话语发射到远程计算机系统，所述远程计算机系统可接着执行话语到文本的转译及/或转录。

在步骤525处，假定第一AR装置的用户已提供权限，可将对应于在步骤515处俘获的话语的经转译文本的数据发射到与所述话语转译成的语言相关联的其它AR装置。此类发射可为直接的：从第一AR装置到第二AR装置。此类发射还可为间接的：含有文本的数据可通过其它AR装置从远程计算机系统接收，所述远程计算机系统已存储所述文本。除话语的文本之外，在步骤525处发射的数据还可含有说出对应于所述文本的话语的人员的指示。由此，可将文本归于说出对应话语的适当人员。在一些实施例中，可使用例如序列号或IP地址等识别符来指示由说出对应于所述文本的话语的用户所佩戴的第一AR装置。

在步骤530处，可以一或多个虚拟对象的形式将所述文本呈现给所述其它AR装置的用户。其它AR装置可使用其HMD将文本叠加在现实世界场景上而呈现给相关联用户。由此，如果其它用户正注视说出在步骤515处俘获的话语的第一用户，则对应于由此些人员说出的话语的文本中的至少一些可由HMD显示为叠加于现实世界场景上。因为HMD用以将文本呈现给每一用户，因此仅佩戴HMD的用户可能够检视文本。存在于用户附近的其他人员可能不知道此类文本正呈现给用户。呈现给用户的虚拟对象可包含一或多个话语气泡，例如在图2及3中呈现的那些话语气泡。每一话语气泡可悬浮在文本所归于的人员的头部上。在其它实施例中，文本可叠加在说出对应话语的人员的面部上，由此当用户阅读文本时，存在于用户附近的人员看起来用户正与说出对应于所述文本的话语的人员进行眼神接触。在用户附近的人员说出额外话语时，呈现文本的虚拟对象可经更新以包含对应于所述新话语的文本。

返回到步骤510，如果转译服务将由不同于第一AR装置的AR装置执行，则方法500可继续进行到步骤535。在步骤535处，可撤销激活由第一AR装置执行的转译服务。然而，在一些实施例中，步骤510的起源地及目的地选项两者可由不同AR装置遵循。举例来说，第一AR装置可执行到最常见偏好语言的转译，而到特定AR装置的用户所偏好的语言的转译在目的地AR装置处执行。举例来说，

在步骤540处，可使用一或多个其它用户(其为目的地)的AR装置俘获第一AR装置的第一用户的话语。此话语可能是由AR装置的用户检视的现实世界场景中的第一用户说出。参考图1的系统100，话语可由一或多个其它用户佩戴或以其它方式拥有的AR装置中的音频俘获及定位模块130俘获。此话语可通过音频处理引擎135数字化成适于进行分析及/或发射(以进行分析)到远程计算机系统的格式。

在步骤545处，可将在步骤540处俘获的话语转译及/或转录成文本。转译的语言可基于在步骤540处俘获话语的AR装置的每一用户的偏好语言。转录与转译可由在步骤540处俘获话语的多个AR装置中的每一者执行，或可将话语发射到远程计算机系统，所述远程计算机系统可接着执行话语到文本的转译及/或转录。已由AR装置中的一者转译及/或转录的文本可与其它AR装置(例如，具有相同偏好语言的AR装置)共享。

在步骤550处，可以一或多个虚拟对象的形式将所述文本呈现给所述其它AR装置的用户。其它装置可使用其HMD来将文本叠加在现实世界场景上而呈现给相关联用户。由此，如果其它用户正注视说出在步骤540处俘获的话语的第一用户，则对应于由此些人员说出的话语的文本中的至少一些可由HMD显示为叠加于现实世界场景上。因为HMD用以将文本呈现给每一用户，因此仅佩戴HMD的用户可能够检视文本。存在于用户附近的其他人员可能不知道此类文本正呈现给用户。呈现给每一用户的虚拟对象可包含一或多个话语气泡，例如在图2及3中呈现的那些话语气泡。每一话语气泡可悬浮在文本所归于的人员的头部上。在其它实施例中，文本可叠加在说出对应话语的人员的面部上，由此当用户阅读文本时，存在于用户附近的人员看起来用户正与说出对应于所述文本的话语的人员进行眼神接触。在用户附近的人员说出额外话语时，呈现文本的虚拟对象可经更新以包含对应于所述新话语的文本。对于用户，步骤530与550可相同或接近相同，差异为哪一AR装置负责进行/管理转译及转录。

图6说明使用AR装置提供语言转译服务的方法的实施例。方法600可涉及由用户使用AR装置，所述AR装置可包含图1的系统100。用于执行方法600的装置包含具有HMD的AR装置。用于执行方法600的装置进一步包含：音频俘获及定位模块，其可包含一或多个麦克风；图像俘获模块，其可包含一或多个相机；面部识别及跟踪模块；面部叠加模块；用户偏好模块，其可包含计算机可读存储媒体；显示模块，其可包含头戴式显示器(HMD)，运动/焦点跟踪模块，其可包含一或多个相机；用户接口模块；通信模块；以及音频处理引擎。各种模块及引擎中的至少一些可由一或多个处理器执行。更一般地说，方法600的步骤可由例如计算机系统等计算机化装置执行。

在步骤610处，可使用AR装置俘获呈外语形式的话语。此话语可在由AR装置的用户检视的现实世界场景中说出。参考图1的系统100，话语可由音频俘获及定位模块130俘获。此话语可通过音频处理引擎135数字化成适于进行分析及/或发射(以进行分析)到远程计算机系统的格式。

可在AR装置处分析话语以确定话语是否呈用户的偏好语言(例如，母语)形式。此分析可基于用户的偏好语言所典型的声音模式。如果话语呈用户的偏好语言形式，则可不执行语言转译或转录服务。在一些实施例中，可仅执行转录服务。

在步骤620处，可确定所俘获的话语的位置。在多个人员存在于由AR装置的用户检视的现实世界场景内的情况下，此可尤其有用。通过确定所俘获音频的位置，可将所俘获话语归于适当人员。飞行时间分析及多个麦克风可用以确定话语发起于何处。在其它实施例中，可使用其它布置来确定话语的来源。举例来说，说话者佩戴的AR装置可发射说话者为正说话的人员的指示。

在步骤630处，可将呈外语形式的话语的数字表示发射到远程计算机系统以进行远程处理。参考图1的系统100，通信模块140可经配置以将话语的数字表示发射到远程服务器进行转译及/或转录。在一些实施例中，话语可在本地进行分析，且不必将话语的数字表示发射到远程计算机系统。

如果发射了，则远程计算机系统可接收话语的数字表示(可能随用户的母语或偏好语言的指示一起)、将话语转录成文本，并将所述文本转译成呈用户的母语(或偏好语言)形式的文本。在一些实施例中，话语转译成用户的母语(或偏好语言)，且接着转录成文本。经由用户输入到用户的AR装置的用户偏好，可由用户指定所需的译入语。话语将转译成的语言的指示可连同话语的数字表示一起发射到远程计算机系统。所述远程计算机系统可识别待显示给用户的文本内需强调的关键词。此分析可基于可能重要的词语的所存储数据库，所述词语例如姓名、地点、时间、日期，等。远程计算机系统可将呈用户的母语或偏好语言形式的文本发射回到用户使用的AR装置的系统。在一些实施例中，转译及转录由执行方法600的系统在本地执行。转译及转录服务还可由AR装置执行。

在步骤640处，如果将话语的数字表示发射到远程计算机系统进行转译及/或转录，则可从远程服务器接收呈用户的母语或偏好语言形式的文本。可随文本一起包含关于文本应归于现实世界场景中的哪一人员的指示。如果由执行方法600的系统在本地执行处理，则此步骤可为不必要的。

在步骤650处，可通过AR装置俘获由用户检视的场景的图像。此场景可包含说出在步骤610处俘获的话语的人员。基于确定发起话语的位置，可确定场景内的哪一人员说出了步骤610的话语。

在步骤660处，可将在步骤640处接收的文本叠加到用户对现实世界场景的视图上。由此，用户可直接检视现实世界场景，同时含有在步骤640处接收的文本的虚拟对象可经由头戴式显示器叠加于现实世界场景上。在步骤660处显示的文本可显示为话语气泡的部分。话语气泡可以图形方式显示以指示说出文本的人员，例如在图3中。基于话语气泡指向哪一人员或在哪一人员附近，用户可确定希望将文本归于那一人员。在一些实施例中，并非使用话语气泡来显示文本，可将文本叠加在说出文本的人员上，例如叠加在所述人员的面部上。由此，用户可能够至少维持在阅读文本的同时进行眼神接触的观感。如果用户的眼睛聚焦于人员的面部上，则可使正由AR装置经由HMD显示给用户的文本部分或完全透明、模糊或隐藏。如果用户的眼睛聚焦于文本上，则可使文本较为不透明、清晰或较明显地显示。

在所述人员或场景中的另一人员说出额外话语时，方法600可重复以向用户提供经转译文本。在新文本变得可用时，与先前话语相关联的文本可滚动出话语气泡的视图。

方法400、500及600的方面可经组合以提供语言转译服务及对应于人员不在场而听不到(或未集中精力)的话语的文本。图7说明用于使用扩增实境装置提供语言转译服务并且还提供对应于用户不在场时的话语的方法的实施例。方法700可涉及由用户使用AR装置，所述AR装置可包含图1的系统100。用于执行方法700的装置包含具有HMD的AR装置。用于执行方法700的装置进一步包含：音频俘获及定位模块，其可包含一或多个麦克风；图像俘获模块，其可包含一或多个相机；面部识别及跟踪模块；面部叠加模块；用户偏好模块，其可包含计算机可读存储媒体；显示模块，其可包含头戴式显示器(HMD)，运动/焦点跟踪模块，其可包含一或多个相机；用户接口模块；通信模块；以及音频处理引擎。各种模块及引擎中的至少一些可由一或多个处理器执行。更一般地说，方法700的步骤可由例如计算机系统等计算机化装置执行。

在步骤705处，可使用AR装置俘获呈外语形式的话语。此话语可在由AR装置的用户检视的现实世界场景中说出。参考图1的系统100，话语可由音频俘获及定位模块130俘获。此话语可通过音频处理引擎135数字化成适于进行分析及/或发射(以进行分析)到远程计算机系统的格式。

在步骤710处，可确定所俘获的话语的位置。在多个人员存在于由AR装置的用户检视的现实世界场景内的情况下，此可尤其有用。通过确定所俘获音频的位置，可将所俘获话语归于适当人员。飞行时间分析及多个麦克风可用以确定话语发起于何处。在其它实施例中，可使用其它布置来确定话语的来源。举例来说，说话者佩戴的AR装置可发射说话者为正说话的人员的指示。

在步骤715处，可将呈外语形式的话语的数字表示发射到远程计算机系统以进行远程处理。参考图1的系统100，通信模块140可经配置以将话语的数字表示发射到远程服务器进行转译及/或转录。在一些实施例中，话语可在本地进行分析，且不必将话语的数字表示发射到远程计算机系统。

如果发射了，则远程计算机系统可接收话语的数字表示(可能随用户的母语或偏好语言的指示一起)、将话语转录成文本，并将所述文本转译成呈用户的母语(或偏好语言)形式的文本。在一些实施例中，话语转译成用户的母语(或偏好语言)，且接着转录成文本。经由用户输入到用户的AR装置的用户偏好，可由用户指定所需的译入语。话语将转译成的语言的指示可连同话语的数字表示一起发射到远程计算机系统。所述远程计算机系统可识别待显示给用户的文本内需强调的关键词。此分析可基于可能重要的词语的所存储数据库，所述词语例如姓名、地点、时间、日期，等。远程计算机系统可将呈用户的母语或偏好语言形式的文本发射回到用户使用的AR装置的系统。在一些实施例中，转译及转录由执行方法700的系统在本地执行。

在步骤720处，如果将话语的数字表示发射到远程计算机系统进行转译及/或转录，则可通过最初俘获所述音频的AR装置从远程服务器接收呈用户的母语或偏好语言形式的文本。可存储此文本。由此，文本可供用于立即显示且用于稍后从AR装置检索。在一些实施例中，文本可由提供转译及转录服务的远程计算机系统存储。可随文本一起包含关于文本应归于现实世界场景中的哪一人员的指示。如果处理由执行方法700的系统在本地执行，则此步骤可为必要的。

在步骤725处，可通过AR装置俘获由用户检视的场景的图像。此场景可包含说出在步骤处705处俘获的话语的人员。基于确定发起话语的位置，可确定场景内的哪一人员说出了步骤705的话语。而且，可俘获并存储说出话语的人员的图像。此图像可在稍后时间由另一AR装置使用以确定哪一人员说出所述文本。

在步骤730处，可将在步骤720处接收的文本叠加到用户对现实世界场景的视图上。由此，用户可直接检视现实世界场景，同时含有在步骤720处接收的文本的虚拟对象可经由头戴式显示器叠加于现实世界场景上。在步骤730处显示的文本可显示为话语气泡的部分。话语气泡可以图形方式显示以指示说出文本的人员，例如在图3中。基于话语气泡指向哪一人员或在哪一人员附近，用户可确定希望将文本归于那一人员。在一些实施例中，并非使用话语气泡来显示文本，可将文本叠加在说出文本的人员上，例如叠加在所述人员的面部上。由此，用户可能够至少维持在阅读文本的同时进行眼神接触的观感。如果用户的眼睛聚焦于人员的面部上，则可使正由AR装置经由HMD显示给用户的文本透明、模糊或隐藏。如果用户的眼睛聚焦于文本上，则可使文本较为不透明、清晰或较明显地显示。在所述人员或场景中的另一人员说出额外话语时，方法700可重复以向用户提供经转译文本。在新文本变得可用时，与先前话语相关联的文本可滚动出话语气泡的视图。

在步骤735处，可从第二AR装置接收对于对应于在步骤705处俘获的话语的文本的请求。第二AR装置可能由在说出在步骤705处俘获的话语时不在场(或未集中精力)的用户佩戴或以其它方式使用。由此，当用户已进入含有在步骤705处说出的话语的对话(或演讲、报告等)时，在步骤735处接收的请求可出现。可由第一AR装置从第二AR装置以无线方式(例如经由装置到装置通信协议)接收对于对应于话语的文本的请求。对文本的请求可指示第二AR装置请求先前文本的一段时间。举例来说，第二AR装置的用户可将输入提供到第二AR装置，指定需要对应于演讲的前五分钟的文本。请求文本的时间段可基于若干因素，包含：由第二AR装置的用户选择的时间段、由第一AR装置的用户选择的时间段、第一AR装置已俘获音频的时长、存储对应于话语的文本的预定义时间段，等。仅当第二扩增实境装置的用户提供请求文本的输入时才会出现在步骤735处对于对应于话语的文本的请求。在其它实施例中，第二AR装置可请求文本而不需要用户输入。是否需要来自第二AR装置的用户的用户输入可基于由第二AR装置存储的用户偏好。

在步骤740处，可向第一AR装置的用户呈现第二AR装置正请求对应于在步骤705处俘获的话语的文本的指示。可指示第二用户需要其文本的一段时间(例如过去十分钟)的指示。第一用户可具有接受或拒绝所述请求的能力。在一些实施例中，可要求说话的每一人员提供同意。

假定在步骤745处经由第一AR装置的用户输入装置或经由始终准许此类请求的预定义用户偏好将第一用户的同意提供到第一AR装置，方法700可继续进行到步骤750。在步骤750处，可将对应于在步骤720处存储的话语的文本的数据发射到第二AR装置。因此，对应于话语的数据可由第二AR装置在步骤750处接收。此类发射可为直接的：从第一AR装置到第二AR装置。此类发射还可为间接的：含有文本的数据可通过第二AR装置从远程计算机系统(例如，为第一AR装置提供转译及转录服务的远程计算机系统)接收，所述远程计算机系统已存储对应于由第一AR装置在步骤705处俘获的话语的文本。

除话语的文本之外，在步骤755处，还可发射说出对应于所述文本的话语的人员的指示。由此，可将所述文本归于说出对应话语的适当人员。在一些实施例中，指示可为说出所述话语的一或多个人员的图像；此类图像可能已在步骤725处俘获。如果指示为图像，则第二AR装置可使存在于图像中的人员与存在于现实世界场景中的人员匹配以识别说出文本的人员。如果接收到对应于不再在场的人员的文本，则可不显示所述文本或可连同不再在场的人员的图像一起显示所述文本。显示所述文本对于呈现给用户的其它文本的上下文可为有用的。在其它实施例中，可使用例如序列号或IP地址等识别符来指示由说出文本的人员所佩戴的AR装置。由此，通过确定由识别符指示的AR装置的位置，可识别文本的说话者。

在步骤760处，第二AR装置的用户可能需要额外语言转译服务。可由远程计算机系统执行额外语言转译服务。在一些实施例中，可由第二AR装置在本地执行额外语言转译服务。举例来说，参考图3，人员210说尼泊尔语，人员220说印地语，且用户可能说英语。由此，从第一AR装置发射到第二AR装置的文本可能在先前已从尼泊尔语转译成印地语，且现在可能需要从印地语转译成英语。在一些实施例中，并不第二次转译已经从另一语言转译的文本，可将话语的初始音频转译成第二AR的用户所偏好的语言。在一些实施例中，存储呈最初说出的语言形式的文本的转录以用于后续转译。呈最初说出的语言形式的文本的初始音频或转录可由远程计算机系统或第一AR装置存储。

在步骤765处，可以一或多个虚拟对象的形式将已转译成第二AR装置的用户的偏好语言的文本呈现给第二AR装置的用户。此文本可能包含对应于在第二AR装置的用户不在场或未倾听时说出的话语的文本。第二AR装置可使用其HMD将文本叠加在现实世界场景上而呈现给用户。由此，如果用户正注视说出在步骤705处俘获的话语的人员中的一或多者(不管第二AR装置的用户是否在场)，则对应于由此些人员说出的话语的文本中的至少一些可由HMD显示为叠加于现实世界场景上。因为HMD用以将文本呈现给用户，因此仅佩戴HMD的用户可能够检视文本。存在于用户附近的其他人员可能甚至不知道此类文本正呈现给用户。呈现给用户的虚拟对象可包含一或多个话语气泡，例如在图2及3中呈现的那些话语气泡。每一话语气泡可悬浮在文本所归于的人员的头部上。在其它实施例中，文本可叠加在说出对应话语的人员的面部上，由此当用户阅读文本时，存在于用户附近的人员看起来用户正与说出对应于所述文本的话语的人员进行眼神接触。在用户附近的人员说出额外话语时，呈现文本的虚拟对象可经更新以包含对应于所述新话语的文本。对于第二AR装置在场时的此类话语，可通过第二AR装置而非经由第一AR装置直接执行对话语的俘获转录。

如图8中所说明的计算机系统可并入为先前描述的计算机系统及计算机化装置的部分。举例来说，计算机系统800可表示在本申请案中论述的系统100、扩增实境装置、HMD及远程计算机系统的组件中的一些。图8提供可执行由各种其它实施例提供的方法的计算机系统800的一个实施例的示意性说明。应注意，图8仅意欲提供各种组件的一般化说明，在适当时可利用其中的任一者或全部。因此，图8广泛地说明可如何以相对分开的或相对较为集成的方式实施个别系统元件。

计算机系统800展示为包括可经由总线805电耦合(或可在适当时以其它方式通信)的硬件元件。所述硬件元件可包含：一或多个处理器810，包含但不限于一或多个通用处理器及/或一或多个专用处理器(例如数字信号处理芯片、图形加速度处理器，及/或类似者)；一或多个输入装置815，其可包含但不限于鼠标、键盘及/或类似者；以及一或多个输出装置820，其可包含但不限于显示装置、打印机及/或类似者。

计算机系统800可进一步包含以下各者(及/或与其通信)：一或多个非暂时性存储装置825，所述非暂时性存储装置825可包括(但不限于)本地及/或网络可存取的存储装置，及/或可包含(但不限于)磁盘驱动器、驱动阵列、光学存储装置、例如随机存取存储器(“RAM”)及/或只读存储器(“ROM”)等固态存储装置，其可为可编程的、可快闪更新的及/或其类似者。此类存储装置可经配置以实施任何适当数据存储装置，包含但不限于各种文件系统、数据库结构及/或其类似者。

计算机系统800还可包含通信子系统830，其可包含(但不限于)调制解调器、网卡(无线或有线)、红外线通信装置、无线通信装置及/或芯片组(例如，Bluetooth^TM装置、802.11装置、WiFi装置、WiMax装置、蜂窝式通信设施等)及/或其类似者。通信子系统830可准许与网络(例如，作为一个实例，下文所描述的网络)、其它计算机系统及/或本文所描述的任何其它装置交换数据。在许多实施例中，计算机系统800将进一步包括工作存储器835，其可包含RAM或ROM装置，如上所述。

计算机系统800还可包括展示为当前位于工作存储器835内的软件元件，包含操作系统840、装置驱动器、可执行库及/或例如一或多个应用程序845等其它代码，其可包括通过各种实施例提供及/或可经设计以实施方法及/或配置系统、通过其它实施例提供的计算机程序，如本文所描述。仅作为实例，关于上文所论述的方法所描述的一或多个程序可实施为可由计算机(及/或计算机内的处理器)执行的代码及/或指令；接着，在一方面中，此类代码及/或指令可用以配置及/或调适通用计算机(或其它装置)以根据所描述方法执行一或多个操作。

可将一组这些指令及/或代码存储于非暂时性计算机可读存储媒体(例如，上文所描述的非暂时性储存装置825)上。在一些情况下，存储媒体可并入到例如计算机系统800等计算机系统内。在其它实施例中，存储媒体可与计算机系统(例如，可移除式媒体，例如压缩光盘)分开，及/或提供于安装包中，使得存储媒体可用以编程、配置及/或调适其上存储有指令/代码的通用计算机。这些指令可能呈可由计算机系统800执行的可执行代码形式，及/或可能呈源及/或可安装代码的形式，所述源及/或可安装代码在于计算机系统800上编译及/或安装于计算机系统800上(例如，使用多种大体可用编译程序、安装程序、压缩/解压缩公用程序等中的任一者)后，接着呈可执行代码的形式。

所属领域的技术人员将显而易见可根据特定要求作出大量变化。举例来说，还可使用定制硬件，及/或可将特定元件实施于硬件、软件(包含便携式软件，例如小程序等)或两者中。另外，可利用到其它计算装置(例如，网路输入/输出装置)的连接。

如上文所提及，在一个方面中，一些实施例可采用计算机系统(例如，计算机系统800)以执行根据本发明的各种实施例的方法。根据一组实施例，响应于处理器810执行工作存储器835中所含有的一或多个指令的一或多个序列(其可并入到操作系统840及/或其它代码中，例如应用程序845)，通过计算机系统800来执行此类方法的程序的一些或全部。此类指令可从另一计算机可读媒体(例如非暂时性存储装置825中的一或多者)读取到工作存储器835中。仅仅作为实例说明，含于工作存储器835中的指令序列的执行可致使处理器810执行本文中所描述的方法的一或多个程序。

如本文中所使用，术语“机器可读媒体”及“计算机可读媒体”指参与提供使机器以具体方式操作的数据的任何媒体。在使用计算机系统800实施的实施例中，各种计算机可读媒体可涉及将指令/代码提供到处理器810以用于执行，及/或可用以存储及/或携载此类指令/代码。在许多实施方案中，计算机可读媒体为物体及/或有形存储媒体。此类媒体可呈非易失性媒体或易失性媒体的形式。非易失性媒体包含例如光盘及/或磁盘，例如非暂时性存储装置825。易失性媒体包含但不限于动态存储器，例如工作存储器835。

常见形式的物理及/或有形计算机可读媒体包含例如软盘、柔性磁盘、硬盘、磁带，或任何其它磁性媒体、CD-ROM、任何其它光学媒体、打孔卡、纸带、具有孔图案的任何其它物理媒体、RAM、PROM、EPROM、快闪EPROM、任何其它存储器芯片或盒带，或计算机可从其读取指令及/或代码的任何其它媒体。

在将一或多个指令的一或多个序列携载到处理器810以用于执行时可涉及各种形式的计算机可读媒体。仅仅作为实例说明，最初可将指令携载于远程计算机的磁盘及/或光学光盘上。远程计算机可能将指令载入到其动态存储器中，并经由传输媒体将指令作为信号进行发送以由计算机系统800接收及/或执行。

通信子系统830(及/或其组件)大体上将接收信号，且总线805可接着将信号(及/或由信号所携载的数据、指令等)携载到处理器810从其检索并执行指令的工作存储器835。可任选地在由处理器810执行之前或之后，将由工作存储器835接收的指令存储在非暂时性存储装置825上。

上文所论述的方法、系统及装置为实例。在适当时，各种配置可省略、替代或添加各种程序或组件。举例来说，在替代配置中，所述方法可以不同于所描述的顺来执行，及/或可添加、省略及/或组合各种阶段。而且，可以各种其它配置组合关于某些配置所描述的特征。可以类似方式组合配置的不同方面及元件。而且，技术发展，且因此，元件中的许多为实例且并不限制本发明或权利要求的范围。

在描述中给出特定细节以提供对实例配置(包含实施方案)的透彻理解。然而，可在并无这些特定细节的情况下实践配置。举例来说，已在并无不必要细节的情况下展示熟知电路、过程、算法、结构及技术以便避免混淆所述配置。此描述仅提供实例配置，且并不限制权利要求的范围、适用性或配置。确切地说，配置的之前描述将向所属领域的技术人员提供用于实施所描述技术的致能性描述。在不脱离本发明的精神或范围的情况下可对元件的功能及配置作出各种改变。

而且，可将配置描述为描绘为流程图或框图的过程。尽管每一流程图或框图可将操作描述为顺序过程，但许多操作可并行地或同时执行。此外，操作的次序可以重新排列。过程可具有图中未包含的额外步骤。此外，可由硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合实施方法的实例。当以软件、固件、中间件或微码实施时，用以执行必要任务的程序代码或代码段可存储在例如存储媒体等非暂时性计算机可读媒体中。处理器可执行所描述任务。

已描述若干实例配置，可在不脱离本发明的精神的情况下使用各种修改、替代构造及等效物。举例来说，以上元件可为较大系统的组件，其中其它规则可优先于本发明的应用或以其它方式修改本发明的应用。并且，可在考虑上述元件之前、期间或之后进行数个步骤。因此，以上描述并不限制权利要求的范围。

Claims

1.一种用于使用扩增实境装置的方法，所述方法包括：

通过第一扩增实境装置俘获由现实世界场景中的人员说出的话语；

通过所述第一扩增实境装置确定第二扩增实境装置以接收对应于所述话语的文本；以及

将对应于所述话语的所述文本发射到所述第二扩增实境装置。

2.根据权利要求1所述的用于使用扩增实境装置的方法，其中所述第二扩增实境装置对于所述话语不在场。

3.根据权利要求1所述的用于使用扩增实境装置的方法，其进一步包括：

通过将所述文本叠加于所述现实世界场景上而由所述第二扩增实境装置的头戴式显示器显示对应于所述人员的所述话语的所述文本，使得所述文本以图形方式归于所述人员。

4.根据权利要求3所述的用于使用扩增实境装置的方法，其中：

所述文本经由包括叠加于所述现实世界场景上的所述文本的图形话语气泡而以图形方式归于所述人员。

5.根据权利要求3所述的用于使用扩增实境装置的方法，其进一步包括：

通过所述第二扩增实境装置确定分类为重要的一或多个词语。

6.根据权利要求5所述的用于使用扩增实境装置的方法，其中通过所述第二扩增实境装置的所述头戴式显示器显示对应于所述人员的所述话语的文本包括：

强调所述文本的被确定为重要的一或多个词语。

7.根据权利要求1所述的用于使用扩增实境装置的方法，其进一步包括：

将所述话语转录成对应于所述话语的所述文本。

8.根据权利要求1所述的用于使用扩增实境装置的方法，其进一步包括：

通过所述第一扩增实境装置将说出所述话语的所述人员的身份的指示发射到所述第二扩增实境装置。

9.根据权利要求1所述的用于使用扩增实境装置的方法，其进一步包括：

通过所述第二扩增实境装置接收来自所述第二扩增实境装置的用户的输入以存取对应于所述话语的所述文本。

10.根据权利要求1所述的用于使用扩增实境装置的方法，其进一步包括：

通过所述第一扩增实境装置将对应于在所述现实世界场景中的所述人员说出的所述话语的数据发射到远程服务器，其中：

所述第一扩增实境装置的用户使用第一语言；且

所述话语是以第二语言说出；

通过所述第一扩增实境装置接收所述话语的所述文本，其中所述文本呈所述第一语言形式；以及

通过将所述文本叠加于所述现实世界场景上而由所述第二扩增实境装置的头戴式显示器显示对应于所述人员的所述话语的所述文本，使得所述文本以图形方式归于所述人员，其中所述文本呈所述第一语言形式。

11.根据权利要求10所述的用于使用扩增实境装置的方法，其中显示对应于所述人员的所述话语的所述文本，使得所述文本叠加在所述人员的面部上。

12.根据权利要求11所述的用于使用扩增实境装置的方法，其中对应于所述话语的所述文本在所述人员的眼睛上滚动。

13.一种扩增实境系统，其包括：

第一扩增实境装置，其包括：

麦克风；

通信模块；

第一处理器；以及

存储器，其与所述第一处理器以通信方式耦合且可由所述第一处理器读取，且其中存储有第一组处理器可读指令，所述第一组处理器可读指令在由所述第一处理器执行时致使所述第一处理器：

从所述麦克风俘获由现实世界场景中的人员说出的话语；

确定第二扩增实境装置以接收对应于所述话语的文本；以及

致使经由所述通信模块将对应于所述话语的所述文本发射到所述第二扩增实境装置。

14.根据权利要求13所述的扩增实境系统，其中所述第二扩增实境装置对于所述话语不在场。

15.根据权利要求13所述的扩增实境系统，其中

所述第二扩增实境装置包括：

头戴式显示器；

第二处理器；以及

第二存储器，其与所述第二处理器以通信方式耦合且可由所述第二处理器读取，且其中存储有第二组处理器可读指令，所述第二组处理器可读指令在由所述第二处理器执行时致使所述第二处理器：

通过将所述文本叠加于所述现实世界场景上而致使所述头戴式显示器显示对应于所述人员的所述话语的所述文本，使得所述文本以图形方式归于所述人员。

16.根据权利要求15所述的扩增实境系统，其中：

17.根据权利要求15所述的扩增实境系统，其中所述第二组处理器可读指令在由所述第二处理器执行时进一步经配置以致使所述第二处理器：

确定分类为重要的一或多个词语。

18.根据权利要求17所述的扩增实境系统，其中所述第二组处理器可读指令中的通过将所述文本叠加于所述现实世界场景上而致使所述头戴式显示器显示对应于所述人员的所述话语的所述文本使得所述文本以图形方式归于所述人员的所述处理器可读指令包含经配置以致使所述第二处理器进行以下操作的处理器可读指令：

强调所述文本的被确定为重要的一或多个词语。

19.根据权利要求13所述的扩增实境系统，其中所述第一组处理器可读指令在由所述第一处理器执行时进一步经配置以致使所述第一处理器：

将所述话语转录成对应于所述话语的所述文本。

20.根据权利要求13所述的扩增实境系统，其中所述第一组处理器可读指令在由所述第一处理器执行时进一步经配置以致使所述第一处理器：

致使经由所述通信模块将说出所述话语的所述人员的身份的指示发射到所述第二扩增实境装置。

21.根据权利要求15所述的扩增实境系统，其中所述处理器可读指令在由所述第二处理器执行时进一步经配置以致使所述第二处理器：

接收来自所述第二扩增实境装置的用户的输入以存取对应于所述话语的所述文本。

22.根据权利要求13所述的扩增实境系统，其中所述第一组处理器可读指令在由所述第一处理器执行时进一步经配置以致使所述第一处理器：

致使经由所述通信模块将对应于在所述现实世界场景中的所述人员说出的所述话语的数据发射到远程服务器，其中：

所述第一扩增实境装置的用户使用第一语言；且

所述话语是以第二语言说出；

经由所述通信模块接收所述话语的所述文本，其中

所述文本呈所述第一语言形式；且

致使通过将所述文本叠加于所述现实世界场景上而由所述第二扩增实境装置的头戴式显示器显示对应于所述人员的所述话语的所述文本，使得所述文本以图形方式归于所述人员，其中所述文本呈所述第一语言形式。

23.根据权利要求22所述的扩增实境系统，其中显示对应于所述人员的所述话语的所述文本，使得所述文本叠加在所述人员的面部上。

24.根据权利要求23所述的扩增实境系统，其中对应于所述话语的所述文本在所述人员的眼睛上滚动。

25.一种扩增实境设备，其包括：

用于俘获由现实世界场景中的人员说出的话语的装置；

用于确定第二扩增实境装置以接收对应于所述话语的文本的装置；以及

用于将对应于所述话语的所述文本发射到所述第二扩增实境装置的装置。

26.根据权利要求25所述的扩增实境设备，其中所述第二扩增实境装置对于所述话语不在场。

27.根据权利要求25所述的扩增实境设备，其进一步包括：

用于将所述话语转录成对应于所述话语的所述文本的装置。

28.根据权利要求25所述的扩增实境设备，其进一步包括：

用于将说出所述话语的所述人员的身份的指示发射到所述第二扩增实境装置的装置。

29.根据权利要求25所述的扩增实境设备，其进一步包括：

用于将对应于在所述现实世界场景中的所述人员说出的所述话语的数据发射到远程服务器的装置，其中：

所述第一扩增实境装置的用户使用第一语言；且

所述话语是以第二语言说出；

用于接收所述话语的所述文本的装置，其中所述文本呈所述第一语言形式；以及

用于通过将所述文本叠加于所述现实世界场景上而显示对应于所述人员的所述话语的所述文本使得所述文本以图形方式归于所述人员的装置，其中所述文本呈所述第一语言形式。

30.根据权利要求29所述的扩增实境设备，其中显示对应于所述人员的所述话语的所述文本，使得所述文本叠加在所述人员的面部上。

31.根据权利要求30所述的扩增实境设备，其中对应于所述话语的所述文本在所述人员的眼睛上滚动。

32.一种驻留在非暂时性处理器可读媒体上用于扩增实境的计算机程序产品，所述计算机程序产品包括处理器可读指令，所述处理器可读指令经配置以致使第一扩增实境装置的处理器：

俘获由现实世界场景中的人员说出的话语；

确定第二扩增实境装置以接收对应于所述话语的文本；以及

致使将对应于所述话语的所述文本发射到所述第二扩增实境装置。

33.根据权利要求32所述的用于扩增实境的计算机程序产品，其中所述第二扩增实境装置对于所述话语不在场。

34.根据权利要求32所述的用于扩增实境的计算机程序产品，其中所述处理器可读指令进一步包括经配置以致使所述处理器进行以下操作的处理器可读指令：

将所述话语转录成对应于所述话语的所述文本。

35.根据权利要求32所述的用于扩增实境的计算机程序产品，其中所述处理器可读指令进一步包括经配置以致使所述处理器进行以下操作的处理器可读指令：

致使将说出所述话语的所述人员的身份的指示发射到所述第二扩增实境装置。

36.根据权利要求32所述的用于扩增实境的计算机程序产品，其中所述处理器可读指令进一步包括经配置以致使所述处理器进行以下操作的处理器可读指令：

致使将对应于在所述现实世界场景中的所述人员说出的所述话语的数据发射到远程服务器，其中：

所述第一扩增实境装置的用户使用第一语言；且

所述话语是以第二语言说出；

接收所述话语的所述文本，其中所述文本呈所述第一语言形式；以及

致使通过将所述文本叠加于所述现实世界场景上而经由头戴式显示器显示对应于所述人员的所述话语的所述文本使得所述文本以图形方式归于所述人员，其中所述文本呈所述第一语言形式。

37.根据权利要求36所述的用于扩增实境的计算机程序产品，其中显示对应于所述人员的所述话语的所述文本，使得所述文本叠加在所述人员的面部上。

38.根据权利要求37所述的用于扩增实境的计算机程序产品，其中对应于所述话语的所述文本在所述人员的眼睛上滚动。