CN113228029A

CN113228029A - Ar中的自然语言翻译

Info

Publication number: CN113228029A
Application number: CN201880100503.2A
Authority: CN
Inventors: 安德鲁·洛维特; 安东尼奥·约翰·米勒; 菲利普·罗宾逊; 斯科特·赛尔丰
Original assignee: Facebook Technologies LLC
Current assignee: Meta Platforms Technologies LLC
Priority date: 2018-10-25
Filing date: 2018-12-20
Publication date: 2021-08-06
Also published as: US11068668B2; JP2022510752A; KR20210065198A; JP7284252B2; WO2020086105A1; US20200134026A1; EP3871075A4; EP3871075A1

Abstract

所公开的用于在AR中执行自然语言翻译的计算机实现的方法可以包括访问音频输入流，该音频输入流包括说话的用户以第一语言说出的词语。该方法接下来可以包括对音频输入流中的词语执行主动噪声消除，使得口语词语在到达收听用户之前被抑制。此外，该方法可以包括处理音频输入流以识别说话的用户说出的词语，并将识别出的说话的用户说出的词语翻译成不同的第二语言。该方法还可以包括使用翻译后的词语生成不同的第二语言的口语词语，并且向收听用户回放所生成的第二语言的口语词语。还公开了各种其他方法、系统和计算机可读介质。

Description

AR中的自然语言翻译

相关申请的交叉引用

本申请要求2018年10月25日提交的第16/170,639号美国非临时申请的权益，其公开内容通过此引用以其整体被并入。

背景

现代智能手机和其他电子设备能够执行各种各样的功能。这些功能很多都是由手机的核心操作系统提供的，并且可以通过应用添加很多附加功能。现在大多数现代智能手机内置的一项功能是被称为“文本到语音(text-to-speech)”或TTS的功能。

TTS允许用户将词语(word)或短语键入电子设备，并且电子设备将呈现计算机化的话音(voice)来说出所写的词语。TTS功能也可用于向用户朗读文档或书籍。TTS的逆转是语音到文本(speech-to-text，STT)，这也是大多数现代智能手机通常提供的功能。

此外，许多智能手机可以运行执行语言翻译的应用。例如，在某些情况下，用户可以启动一个应用，该应用监听一种语言的话音输入，将词语翻译成另一种语言，然后将翻译后的语言的词语回放给用户。在其他情况下，应用可以翻译词语，并将词语以书面形式呈现给用户。

概述

如下文将更详细描述的，本公开描述了与说另一种语言的人交流的方法。然而，与传统技术相反，这里的实施例实现了主动噪声消除，以使用外语说话的人静音，并向收听用户回放外语说话者的词语的翻译。因此，当收听用户将看到外语说话者的嘴唇在动时，收听用户将只听到外语说话者的词语的翻译版本。通过去除外语说话者的词语并用收听者理解的词语代替它们，收听者将更容易理解说话者。这里的系统实时地操作，使得收听者基本上在外语说话者说出词语时就听到外语说话者的词语的翻译版本，而不是同时听到外语说话者和翻译，或者在外语说话者说话时必须等待，然后输出翻译版本。此外，由于实现了主动噪声消除，收听用户将只听到翻译后的词语，而不是听到外语说话者的词语和翻译后的词语。这将极大地增强收听用户对对话的理解，并使人们能够更轻松地、以更高水平的理解进行交流。

在某些情况下，可以在增强现实(AR)或虚拟现实(VR)设备上提供主动噪声消除和翻译功能。实际上，在一个示例中，佩戴AR头戴式装置的收听用户可能与说收听用户无法理解的语言的外语说话者交谈。当外语说话者说话时，收听用户的AR头戴式装置可以对外语说话者的词语应用主动噪声消除。然后，在听筒(earpiece)中或通过其他听觉装置，通过AR头戴式装置将外语说话者的翻译后的词语回放给收听用户。这可以实时发生，因此，收听用户可以清楚准确地听懂外语说话者的词语。在这样的实施例中，收听用户将只听到外语说话者的词语的翻译版本，而不必试图过滤或忽略外语说话者的口语词语。如果外语说话者也戴着这样的AR头戴式装置，则两个人可以来回交谈，每个人都用自己的母语说话，并且每个人都听到用自己的母语的回答，而不会被说话者的实际词语(无论如何，收听者都无法理解它们)所阻碍。此外，在一些实施例中，对收听者说翻译后的词语的话音可以被个性化为听起来好像它来自说外语的用户。

在一个示例中，用于在AR中执行自然语言翻译的计算机实现的方法可以包括访问从说话的用户接收的音频输入流。音频输入流可以包括说话的用户以第一语言说出的词语。该方法接下来可以包括对从说话的用户接收的音频输入流中的词语执行主动噪声消除，使得口语词语在到达收听用户之前被抑制。此外，该方法可以包括处理音频输入流以识别说话的用户说出的词语，并将识别出的说话的用户说出的词语翻译成不同的第二语言。该方法还可以包括使用翻译后的词语生成不同的第二语言的口语词语，并且向收听用户回放所生成的第二语言的口语词语。

在一些示例中，生成的口语词语可以针对说话的用户被个性化，使得所生成的第二语言的口语词语听起来好像是由说话的用户说出的。在一些示例中，个性化生成的口语词语可以进一步包括处理音频输入流以确定说话的用户对各种词语或音节如何发音，以及将确定的发音应用于生成的口语词语。在回放生成的口语词语期间，当计算机确定说话的用户对词语或音节如何发音时，个性化可以被动态地应用于被回放的词语。在一些示例中，说话的用户可以提供话音样本。在接收音频输入流之前，这些话音样本可用于确定说话的用户对词语或音节如何发音。

在一些示例中，向收听用户回放生成的口语词语可以进一步包括确定说话的用户正在从哪个方向说话，并且将生成的口语词语的回放空间化为听起来好像该口语词语来自所确定的说话的用户的方向。确定说话的用户正在从哪个方向说话可以包括接收与说话的用户相关联的设备的位置数据，基于接收到的位置数据确定说话的用户正在从哪个方向说话，以及将生成的口语词语的回放空间化为听起来好像该口语词语来自所确定的说话的用户的方向。

在一些示例中，确定说话的用户正在说话的方向还可以包括计算来自说话的用户的声波的到达方向，基于计算的到达方向确定说话的用户正在从哪个方向说话，以及将生成的口语词语的回放空间化为听起来好像该口语词语来自所确定的说话的用户的方向。

在一些示例中，确定说话的用户正在从哪个方向说话可以进一步包括跟踪收听用户的眼睛的移动，基于跟踪到的收听用户的眼睛的移动来确定说话的用户正在从哪个方向说话，以及将生成的口语词语的回放空间化为听起来好像该口语词语来自所确定的说话的用户的方向。

在一些示例中，处理音频输入流以识别说话的用户说出的词语可以包括实现语音到文本(STT)程序以识别说话的用户说出的词语，以及实现文本到语音(TTS)程序以生成翻译后的口语词语。该方法还可以包括下载与说话的用户相关联的话音简档，并使用下载的与说话的用户相关联的话音简档来个性化生成的口语词语，使得回放的第二语言生成的口语词语听起来好像是说话的用户说出的。

在一些示例中，该方法可以进一步包括访问与说话的用户相关联的存储的音频数据，然后使用访问的存储的音频数据来个性化生成的口语词语。这样，以第二语言回放的生成的口语词语可以听起来好像是由说话的用户说出的。在一些示例中，该方法可以进一步包括解析说话的用户说出的词语，确定这些词语中的至少一个是以收听用户理解的语言说出的，以及暂停对以收听用户理解的语言说出的词语的主动噪声消除。

在一些示例中，音频输入流包括由至少两个不同的说话的用户说出的词语。该方法然后可以包括根据不同的话音模式区分这两个说话的用户，并为第一说话的用户生成口语词语，同时对两个说话的用户执行主动噪声消除。此外，在一些示例中，该方法可以包括存储为第二说话的用户生成的口语词语，直到第一用户已经停止说话达指定的时间量，然后回放为第二说话的用户生成的口语词语。

在一些示例中，该方法进一步包括在第一说话的用户说话时为第二说话的用户创建话音模型。该方法还可以包括针对两个说话的用户中的每一个个性化生成的口语词语，使得生成的第二语言的口语词语听起来好像来自每个说话的用户的话音。

此外，用于在AR中执行自然语言翻译的相应系统可以包括存储在存储器中的几个模块，包括访问音频输入流的音频访问模块，该音频输入流包括说话的用户以第一语言说出的词语。该系统还可以包括噪声消除模块，该噪声消除模块对音频输入流中的词语执行主动噪声消除，以便口语词语在到达收听用户之前被抑制。该系统还可以包括音频处理模块，该音频处理模块处理音频输入流以识别说话的用户说出的词语。翻译模块可以将识别出的说话的用户说出的词语翻译成不同的第二语言，并且语音生成器可以使用翻译后的词语生成不同的第二语言的口语词语。然后，回放模块可以向收听用户回放生成的第二语言的口语词语。

在一些示例中，上述方法可以被编码为计算机可读介质上的计算机可读指令。例如，计算机可读介质可以包括一个或更多个计算机可执行指令，当由计算设备的至少一个处理器执行时，该一个或更多个计算机可执行指令可以使计算设备访问包括由说话的用户以第一语言说出的词语的音频输入流，对音频输入流中的词语执行主动噪声消除，使得口语词语在到达收听用户之前被抑制，处理音频输入流以识别说话的用户说出的词语，将识别出的说话的用户说出的词语翻译成不同的第二语言，使用翻译后的词语生成不同的第二语言的口语词语，并将生成的第二语言的口语词语回放给收听用户。

根据本文描述的一般原理，来自上面提到的实施例中的任一个的特征可以与彼此组合地被使用。当结合附图和权利要求阅读下面的详细描述时，这些和其他实施例、特征和优点将被更充分地理解。

特别地，在涉及方法、系统和存储介质的所附权利要求中公开了根据本发明的实施例，其中，在一个权利要求类别(例如方法)中提到的任何特征也可以在另一个权利要求类别(例如系统、存储介质以及计算机程序产品)中被要求保护。所附权利要求中的从属性或往回引用仅出于形式原因而被选择。然而，也可以要求保护由对任何前面权利要求的有意往回引用(特别是多项引用)而产生的任何主题，使得权利要求及其特征的任何组合被公开并可被要求保护，而不考虑在所附权利要求中选择的从属性。可以被要求保护的主题不仅包括如在所附权利要求中阐述的特征的组合，而且还包括在权利要求中的特征的任何其他组合，其中，在权利要求中提到的每个特征可以与在权利要求中的任何其他特征或其他特征的组合相结合。此外，本文描述或描绘的实施例和特征中的任一个可以在单独的权利要求中和/或以与本文描述或描绘的任何实施例或特征的任何组合或以与所附权利要求的任何特征的任何组合被要求保护。

在根据本发明的实施例中，一个或更多个计算机可读非暂时性存储介质可以体现软件，该软件在被执行时可操作来执行根据本发明或任何上面提到的实施例的方法。

在根据本发明的实施例中，一种系统可以包括：一个或更多个处理器；以及耦合到处理器并包括由处理器可执行的指令的至少一个存储器，处理器在执行指令时可操作来执行根据本发明或任何上面提到的实施例的方法。

在根据本发明的实施例中，一种优选地包括计算机可读非暂时性存储介质的计算机程序产品当在数据处理系统上被执行时可以可操作来执行根据本发明或任何上面提到的实施例的方法。

附图简述

附图示出了许多示例性实施例，并且是说明书的一部分。这些附图连同下面的描述一起展示并解释了本公开的各种原理。

图1示出了人工现实头戴式装置(headset)的实施例。

图2示出了增强现实头戴式装置和相应颈带的实施例。

图3示出了虚拟现实头戴式装置的实施例。

图4示出了一种计算架构，这里描述的实施例可以在该计算架构中操作，包括在增强现实(AR)中执行自然语言翻译。

图5示出了用于在AR中执行自然语言翻译的示例性方法的流程图。

图6示出了一种计算架构，其中AR中的自然语言翻译可以针对用户进行个性化。

图7示出了一种替代计算架构，其中AR中的自然语言翻译可以针对用户进行个性化。

图8示出了一种替代计算架构，其中AR中的自然语言翻译可以针对用户进行个性化。

图9示出了一种替代计算架构，其中AR中的自然语言翻译可以针对用户进行个性化。

图10示出了一种计算架构，其中在AR中执行自然语言翻译的过程中实现了语音到文本模块和文本到语音模块。

图11示出了一种计算架构，其中不同用户的语音被区分，以便为在AR中执行自然语言翻译做好准备。

在全部附图中，相同的参考符号和描述指示相似的但不一定相同的元件。虽然本文所述的示例性实施例容许各种修改和替代形式，但是特定的实施例在附图中作为示例被示出并且在本文将被详细描述。然而，本文描述的示例性实施例并不旨在受限于所公开的特定形式。更确切地，本公开涵盖了落在所附权利要求的范围内的所有修改、等同物和替代方案。

示例性实施例的详细描述

本公开总体上涉及在增强现实(AR)或虚拟现实(VR)中执行自然语言翻译。如下文将更详细解释的，本公开的实施例可以包括对说话的用户的话音执行噪声消除。例如，如果说话的用户说的是收听用户无法理解的语言，则当说话的用户说话时，收听用户将无法理解说话的用户。因此，这里的实施例可以对说话的用户的话音执行噪声消除，使得收听用户听不到说话的用户。当说话的用户的语音通过噪声消除被静音时，这里描述的系统可以确定说话的用户正在说什么词语，并且可以将这些词语翻译成收听用户理解的语言。这里的系统还可以将翻译后的词语转换成语音，该语音通过扬声器或其他声音换能器被回放到用户的耳朵中。以这种方式，收听用户对说话的用户的理解的容易程度可以被显著提高。代替让一个用户对着电子设备说话并等待翻译，这里的实施例可以在说话的用户说话时进行操作。因此，当说话的用户以一种语言说话时，收听用户实时听到生成的话音，该话音向收听用户说出翻译后的词语。这个过程可以是无缝的和自动的。用户可以彼此交谈，没有延迟，每个人都以自己的母语说话和听到自己的母语。

本公开的实施例可以包括各种类型的人工现实系统或结合各种类型的人工现实系统来被实现。人工现实是在呈现给用户之前已经以某种方式被调整的现实形式，其可以包括例如虚拟现实(VR)、增强现实(AR)、混合现实(mixed reality，MR)、混杂现实(hybridreality)、或其某种组合和/或衍生物。人工现实内容可以包括完全生成的内容或者与所捕获的(例如，真实世界)内容组合地生成的内容。人工现实内容可以包括视频、音频、触觉反馈、或其某种组合，其中任何一个都可以在单个通道中或在多个通道(例如向观看者产生三维效果的立体视频)中被呈现。此外，在一些实施例中，人工现实还可以与应用、产品、附件、服务或其某种组合相关联，这些应用、产品、附件、服务或其某种组合用于例如在人工现实中创建内容和/或在人工现实中以其他方式被使用(例如，以在人工现实中执行活动)。

可以在各种不同的形状因子和配置中实现人工现实系统。一些人工现实系统可以被设计成在没有近眼显示器(NED)的情况下工作，其示例是图1中的AR系统100。其他人工现实系统可以包括还提供对真实世界的可视性的NED(例如，图2中的AR系统200)或者将用户视觉地沉浸在人工现实中的NED(例如，图3中的VR系统300)。虽然一些人工现实设备可以是自主式系统，但是其他人工现实设备可以与外部设备通信和/或协作以向用户提供人工现实体验。这种外部设备的示例包括手持控制器、移动设备、台式计算机、由用户佩戴的设备、由一个或更多个其他用户佩戴的设备、和/或任何其他合适的外部系统。

转到图1，AR系统100通常表示可穿戴设备，其被设计成所需尺寸以适配在用户的身体部位(例如，头部)周围。如图1所示，系统100可以包括框架102和照相机组件104，照相机组件104耦合到框架102并被配置为通过观察本地环境来收集关于本地环境的信息。AR系统100还可以包括一个或更多个音频设备，例如输出音频换能器108(A)和108(B)以及输入音频换能器110。输出音频换能器108(A)和108(B)可以向用户提供音频反馈和/或内容，并且输入音频换能器110可以捕获在用户的环境中的音频。

如所示，AR系统100可以不必包括位于用户的眼睛前方的NED。无NED的AR系统可以采用多种形式，例如头带、帽子、发带、腰带、手表、腕带、踝带、戒指、颈带、项链、胸带、眼镜框、和/或任何其他合适类型或形式的装置。虽然AR系统100可以不包括NED，但是AR系统100可以包括其他类型的屏幕或视觉反馈设备(例如，集成到框架102的一侧内的显示屏)。

也可以在包括一个或更多个NED的AR系统中实现在本公开中讨论的实施例。例如，如图2所示，AR系统200可以包括具有框架210的眼镜设备202，框架210被配置为将左显示设备215(A)和右显示设备215(B)保持在用户的眼睛的前方。显示设备215(A)和215(B)可以一起或独立地起作用来向用户呈现图像或一系列图像。虽然AR系统200包括两个显示器，但是可以在具有单个NED或多于两个NED的AR系统中实现本公开的实施例。

在一些实施例中，AR系统200可以包括一个或更多个传感器，例如传感器240。传感器240可以响应于AR系统200的运动而生成测量信号，并且可以实质上位于框架210的任何部分上。传感器240可以包括位置传感器、惯性测量单元(IMU)、深度照相机组件、或其任何组合。在一些实施例中，AR系统200可以包括或不包括传感器240，或者可以包括多于一个的传感器。在传感器240包括IMU的实施例中，IMU可以基于来自传感器240的测量信号来生成校准数据。传感器240的示例可以包括但不限于加速度计、陀螺仪、磁力计、检测运动的其他合适类型的传感器、用于IMU的误差校正的传感器、或其某种组合。

AR系统200还可以包括具有多个声传感器220(A)-220(J)(被统称为声传感器220)的麦克风阵列。声传感器220可以是检测由声波引起的气压变化的换能器。每个声传感器220可以被配置成检测声音并将检测到的声音转换成电子格式(例如，模拟或数字格式)。图2中的麦克风阵列可以包括例如十个声传感器：220(A)和220(B)，其可以被设计成放置在用户的相应耳朵内；声传感器220(C)、220(D)、220(E)、220(F)、220(G)和220(H)，其可以被定位在框架210上的不同位置；和/或声传感器220(I)和220(J)，其可以被定位在相应的颈带205上。

麦克风阵列的声传感器220的配置可以变化。尽管AR系统200在图2中被示为具有十个声传感器220，但是声传感器220的数量可以大于或小于十。在一些实施例中，使用更高数量的声传感器220可以增加所收集的音频信息的量和/或音频信息的灵敏度和准确度。相反，使用更低数量的声传感器220可以降低控制器250处理所收集的音频信息所需的计算能力。此外，麦克风阵列的每个声传感器220的位置可以变化。例如，声传感器220的位置可以包括在用户身上的所定义的位置、在框架210上的所定义的坐标、与每个声传感器相关联的定向、或者其某种组合。

声传感器220(A)和220(B)可以位于用户的耳朵的不同部位上，例如在耳廓(pinna)后面或在耳廓(auricle)或窝(fossa)内。或者，除了在耳道内部的声传感器220之外，还可以有在耳朵上或耳朵周围的附加声传感器。将声传感器定位在用户的耳道旁边可以使麦克风阵列能够收集关于声音如何到达耳道的信息。通过将声传感器220中的至少两个定位在用户的头部的两侧上(例如，作为双耳麦克风)，AR设备200可以模拟双耳听觉并捕获在用户的头部周围的3D立体声场。在一些实施例中，声传感器220(A)和220(B)可以经由有线连接来连接到AR系统200，并且在其他实施例中，声传感器220(A)和220(B)可以经由无线连接(例如，蓝牙连接)来连接到AR系统200。在还有其他实施例中，声传感器220(A)和220(B)可以根本不与AR系统200结合来被使用。

可以沿着眼镜腿(temple)的长度、横越镜梁(bridge)、在显示设备215(A)和215(B)的上方或下方、或者其某种组合来定位框架210上的声传感器220。声传感器220可以被定向成使得麦克风阵列能够在佩戴AR系统200的用户周围的宽范围的方向上检测声音。在一些实施例中，可以在AR系统200的制造期间执行优化过程以确定在麦克风阵列中的每个声传感器220的相对位置。

AR系统200还可以包括或连接到外部设备(例如，配对设备)，例如颈带205。如所示，颈带205可以经由一个或更多个连接器230耦合到眼镜设备202。连接器230可以是有线或无线连接器，并且可以包括电气和/或非电气(例如，结构)部件。在一些情况下，眼镜设备202和颈带205可以独立地操作，而在它们之间没有任何有线或无线连接。虽然图2示出了在眼镜设备202和颈带205上的示例位置中的眼镜设备202和颈带205的部件，但是这些部件可以位于眼镜设备202和/或颈带205的其他地方和/或在眼镜设备202和/或颈带205上不同地分布。在一些实施例中，眼镜设备202和颈带205的部件可以位于与眼镜设备202、颈带205或其某种组合配对的一个或更多个附加外围设备上。此外，颈带205通常表示任何类型或形式的配对设备。因此，颈带205的下面的讨论也可以应用于各种其他配对设备，例如智能手表、智能电话、腕带、其他可穿戴设备、手持控制器、平板计算机、膝上型计算机等。

将诸如颈带205的外部设备与AR眼镜设备配对可以使眼镜设备能够实现一副眼镜的形状因子，同时仍然能够提供足够的电池和计算能力来用于扩展的能力。AR系统200的电池电力、计算资源和/或附加特征中的一些或全部可以由配对设备提供或者在配对设备和眼镜设备之间共享，因而总体上减小眼镜设备的重量、热分布和形状因子，同时仍然保持期望的功能。例如，颈带205可以允许原本将被包括在眼镜设备上的部件被包括在颈带205中，因为用户可以在他们的肩膀上容忍比在他们的头上将容忍的重量负荷更重的重量负荷。颈带205也可以具有更大的表面积，以在该表面积上将热量扩散并分散到周围环境中。因此，颈带205可以允许比以其他方式在独立眼镜设备上可能有的电池和计算容量更大的电池和计算容量。因为在颈带205中承载的重量可能比在眼镜设备202中承载的重量对用户更低创，所以相比于用户容忍佩戴重的独立眼镜设备，用户可以在更长的时间段期间容忍佩戴更轻的眼镜设备以及携带或佩戴配对设备，从而使人工现实环境能够更充分地融入用户的日常活动中。

颈带205可以与眼镜设备202和/或其他设备通信地耦合。其他设备可以向AR系统200提供某些功能(例如，跟踪、定位、深度映射、处理、存储等)。在图2的实施例中，颈带205可以包括两个声传感器(例如，220(I)和220(J))，它们是麦克风阵列的一部分(或者潜在地形成它们自己的麦克风子阵列)。颈带205还可以包括控制器225和电源235。

颈带205的声传感器220(I)和220(J)可以被配置成检测声音并将检测到的声音转换成电子格式(模拟的或数字的)。在图2的实施例中，声传感器220(I)和220(J)可以定位在颈带205上，从而增加在颈带声传感器220(I)和220(J)与定位在眼镜设备202上的其他声传感器220之间的距离。在一些情况下，增加在麦克风阵列的声传感器220之间的距离可以提高经由麦克风阵列执行的波束成形的准确度。例如，如果声音由声传感器220(C)和220(D)检测到，并且在声传感器220(C)和220(D)之间的距离大于例如在声传感器220(D)和220(E)之间的距离，则检测到的声音的所确定的源位置可以比如果声音由声传感器220(D)和220(E)检测到所确定的源位置更准确。

颈带205的控制器225可以处理由在颈带205和/或AR系统200上的传感器生成的信息。例如，控制器225可以处理来自麦克风阵列的描述由麦克风阵列检测到的声音的信息。对于每个检测到的声音，控制器225可以执行DoA估计以估计方向(检测到的声音从该方向到达麦克风阵列处)。当麦克风阵列检测到声音时，控制器225可以用该信息填充音频数据集。在AR系统200包括惯性测量单元的实施例中，控制器225可以从位于眼镜设备202上的IMU计算所有的惯性和空间计算。连接器230可以在AR系统200和颈带205之间以及在AR系统200和控制器225之间传送信息。信息可以是光数据、电数据、无线数据的形式或任何其他可传输数据形式。将由AR系统200生成的信息的处理移动到颈带205可以减少在眼镜设备202中的重量和热量，使它变得对用户来说更舒适。

颈带205中的电源235可以向眼镜设备202和/或颈带205提供电力。电源235可以包括但不限于锂离子电池、锂聚合物电池、一次锂电池、碱性电池或任何其他形式的电力储存装置。在一些情况下，电源235可以是有线电源。在颈带205上而不是在眼镜设备202上包括电源235可以帮助更好地分配由电源235产生的重量和热量。

如所提到的，一些人工现实系统可以实质上用虚拟体验代替用户对真实世界的一个或更多个感官知觉，而不是将人工现实与实际现实混合。这种类型的系统的一个示例是头戴式(head-worn)显示系统(例如图3中的VR系统300)，其主要地或完全地覆盖用户的视野。VR系统300可以包括前刚性主体302和被成形为适配在用户的头部周围的带304。VR系统300还可以包括输出音频换能器306(A)和306(B)。此外，虽然在图3中未示出，但是前刚性主体302可以包括一个或更多个电子元件，其包括一个或更多个电子显示器、一个或更多个惯性测量单元(IMU)、一个或更多个跟踪发射器或检测器、和/或用于创建人工现实体验的任何其他合适的设备或系统。

人工现实系统可以包括各种类型的视觉反馈机构。例如，在AR系统200和/或VR系统300中的显示设备可以包括一个或更多个液晶显示器(LCD)、发光二极管(LED)显示器、有机LED(OLED)显示器、和/或任何其他合适类型的显示屏。人工现实系统可以包括用于双眼的单个显示屏，或者可以为每只眼睛提供显示屏，这可以提供对变焦调节或对于校正用户的屈光不正的附加的灵活性。一些人工现实系统还可以包括具有一个或更多个透镜(例如，传统的凹透镜或凸透镜、菲涅耳(Fresnel)透镜、可调液体透镜等)的光学子系统，用户可以通过这些透镜来观看显示屏。

除了或代替使用显示屏，一些人工现实系统还可以包括一个或更多个投影系统。例如，在AR系统200和/或VR系统300中的显示设备可以包括(使用例如波导)将光投射到显示设备中的微LED(micro-LED)投影仪，例如允许环境光穿过的透明组合透镜。显示设备可以朝着用户的瞳孔折射所投射的光，并且可以使用户能够同时观看人工现实内容和真实世界。人工现实系统还可以配置有任何其他合适类型或形式的图像投影系统。

人工现实系统还可以包括各种类型的计算机视觉部件和子系统。例如，AR系统100、AR系统200和/或VR系统300可以包括一个或更多个光学传感器，例如二维(2D)或三维(3D)照相机、飞行时间深度传感器、单光束或扫频激光测距仪、3D LiDAR传感器、和/或任何其他合适类型或形式的光学传感器。人工现实系统可以处理来自这些传感器中的一个或更多个的数据以识别用户的位置、绘制真实世界的地图、向用户提供关于真实世界周围环境的背景、和/或执行各种其他功能。

人工现实系统还可以包括一个或更多个输入和/或输出音频换能器。在图1和图3所示的示例中，输出音频换能器108(A)、108(B)、306(A)和306(B)可以包括音圈扬声器、带式(ribbon)扬声器、静电扬声器、压电扬声器、骨传导换能器、软骨传导换能器、和/或任何其他合适类型或形式的音频换能器。类似地，输入音频换能器110可以包括电容式麦克风、电动式麦克风(dynamic microphone)、带式麦克风、和/或任何其他类型或形式的输入换能器。在一些实施例中，单个换能器可以用于音频输入和音频输出两者。

虽然在图1-图3中未示出，但是人工现实系统可以包括触觉(tactile)(即，触觉(haptic))反馈系统，其可以被结合到头饰、手套、紧身衣裤、手持控制器、环境设备(例如，椅子、地板垫等)、和/或任何其他类型的设备或系统中。触觉反馈系统可以提供各种类型的皮肤反馈，包括振动、力、牵引力、纹理和/或温度。触觉反馈系统还可以提供各种类型的动觉反馈，例如运动和顺应性。可以使用电机、压电致动器、射流系统和/或各种其他类型的反馈机构来实现触觉反馈。可以独立于其他人工现实设备、在其他人工现实设备内、和/或与其他人工现实设备结合来实现触觉反馈系统。

通过提供触觉感觉、可听内容和/或视觉内容，人工现实系统可以创建整个虚拟体验或者增强用户在各种背景和环境中的真实世界体验。例如，人工现实系统可以帮助或扩展用户在特定环境内的感知、记忆或认知。一些系统可以增强用户与在真实世界中的其他人的交互，或者可以实现用户与虚拟世界中的其他人的更沉浸式的交互。人工现实系统还可以用于教育目的(例如，用于在学校、医院、政府组织、军事组织、商业企业等中的教学或培训)、娱乐目的(例如，用于玩视频游戏、听音乐、观看视频内容等)和/或用于可及性目的(例如，作为助听器、助视器等)。本文公开的实施例可以在这些背景和环境中的一个或更多个中和/或在其他背景和环境中实现或增强用户的人工现实体验。

一些AR系统可以使用被称为“即时定位与地图构建”(SLAM)的技术来绘制用户的环境地图。SLAM地图构建和位置识别技术可以涉及各种硬件和软件工具，其可以创建或更新环境的地图，而同时保持跟踪用户在所绘制地图的环境内的位置。SLAM可以使用许多不同类型的传感器来创建地图并确定用户在地图内的位置。

SLAM技术可以例如实现光学传感器以确定用户的位置。包括WiFi、蓝牙、全球定位系统(GPS)、蜂窝或其他通信设备的无线电设备也可以用于确定用户相对于无线电收发器或收发器组(例如，WiFi路由器或GPS卫星组)的位置。诸如麦克风阵列的声传感器或者2D或3D声纳传感器也可以用于确定用户在环境内的位置。AR和VR设备(例如分别为图1、图2或图3的系统100、200或300)可以合并任何或所有这些类型的传感器以执行SLAM操作，例如创建并持续地更新用户的当前环境的地图。在本文描述的至少一些实施例中，由这些传感器生成的SLAM数据可以被称为“环境数据”，并且可以指示用户的当前环境。该数据可以存储在本地或远程数据储存器(例如，云数据储存器)中，并且可以按需提供给用户的AR/VR设备。

当用户在给定环境中佩戴AR头戴式装置或VR头戴式装置时，用户可能正在与其他用户或用作音频源的其他电子设备进行交互。在一些情况下，可能期望确定音频源相对于用户位于哪里且然后将音频源呈现给用户，就好像它们来自音频源的位置一样。确定音频源相对于用户位于哪里的过程在本文可以被称为“定位”，并且再现音频源信号的回放以显得好像它来自特定方向的过程在本文可以被称为“空间化”。

可以以多种不同的方式来执行定位音频源。在一些情况下，AR或VR头戴式装置可以发起到达方向(DOA)分析以确定声源的位置。DOA分析可以包括分析每个声音在AR/VR设备处的强度、频谱和/或到达时间以确定声音源自的方向。在一些情况下，DOA分析可以包括用于分析人工现实设备所位于的周围声学环境的任何合适的算法。

例如，DOA分析可以被设计成从麦克风接收输入信号，并将数字信号处理算法应用于输入信号以估计到达方向。这些算法可以包括例如，延迟算法和求和算法，其中输入信号被采样，并且所得到的采样信号的加权和延迟版本被一起取平均以确定到达方向。也可以实现最小均方(LMS)算法以创建自适应滤波器。该自适应滤波器然后可以用于例如，识别信号强度的差异或到达时间的差异。然后，这些差异可用于估计到达方向。在另一个实施例中，可以通过将输入信号转换到频域内并选择时-频(TF)域内的特定单元(bin)进行处理来确定DOA。可以处理每个选定的TF单元以确定该单元是否包括具有直接路径音频信号的音频频谱的一部分。然后可以分析具有直接路径信号的一部分的那些单元，以识别麦克风阵列接收直接路径音频信号的角度。然后，所确定的角度可以用于识别接收到的输入信号的到达方向。也可以单独地或者与上面的算法结合地使用上面没有列出的其他算法来确定DOA。

在一些实施例中，不同的用户可能将声源感知为来自稍微不同的位置。这可能是每个用户具有独特的头部相关传递函数(HRTF)的结果，该头部相关传递函数可以由用户的包括耳道长度和耳鼓膜的定位的解剖结构决定。人工现实设备可以提供对准和定向指南，用户可以遵循该指南以基于他们的独特HRTF来定制呈现给用户的声音信号。在一些实施例中，人工现实设备可以实现一个或更多个麦克风以监听在用户的环境内的声音。AR或VR头戴式装置可以使用各种不同的阵列传递函数(例如，上面识别的任一DOA算法)来估计声音的到达方向。一旦到达方向被确定，人工现实设备就可以根据用户的独特HRTF来向用户回放声音。因此，使用阵列传递函数(ATF)生成的DOA估计可以用于确定声音将从那播放的方向。回放声音可以基于特定用户如何根据HRTF听到声音被进一步改善。

除了执行DOA估计之外或者作为执行DOA估计的备选方案，人工现实设备可以基于从其他类型的传感器接收的信息来执行定位。这些传感器可以包括照相机、IR传感器、热传感器、运动传感器、GPS接收器、或者在一些情况下的检测用户的眼睛移动的传感器。例如，如上面所提到的，人工现实设备可以包括确定用户正在看哪里的眼睛跟踪器或注视检测器。用户的眼睛常常会看向声源，即使短暂地。由用户的眼睛提供的这样的线索可以进一步帮助确定声源的位置。诸如照相机、热传感器和IR传感器的其他传感器也可以指示用户的位置、电子设备的位置、或另一声源的位置。任何或所有上述方法可以被单独地或组合地使用来确定声源的位置，并且还可以用于随着时间而更新声源的位置。

一些实施例可以实现所确定的DOA来为用户生成更定制的输出音频信号。例如，“声学传递函数”可以表征或定义如何从给定位置接收声音。更具体地，声学传递函数可以定义声音在其源位置处的参数与声音信号通过其被检测到(例如，由麦克风阵列检测到或由用户的耳朵检测到)的参数之间的关系。人工现实设备可以包括检测在设备的范围内的声音的一个或更多个声传感器。人工现实设备的控制器可以(例如，使用上面识别的任一方法)估计检测到的声音的DOA，并且基于检测到的声音的参数，可以生成特定于设备的位置的声学传递函数。因此，该定制的声学传递函数可以用于生成空间化的输出音频信号，其中声音被感知为来自特定位置。

事实上，一旦一个或更多个声源的位置是已知的，人工现实设备就可以将声音信号重新再现(即，空间化)成听起来好像来自该声源的方向。人工现实设备可以应用滤波器或其他数字信号处理，其改变声音信号的强度、频谱或到达时间。数字信号处理可以以使得声音信号被感知为源自所确定的位置这样的方式被应用。人工现实设备可以放大或抑制某些频率或者改变信号到达每只耳朵的时间。在一些情况下，人工现实设备可以创建特定于设备的位置和检测到的声音信号的到达方向的声学传递函数。在一些实施例中，人工现实设备可以在立体声设备或多扬声器设备(例如，环绕声设备)中重新再现源信号。在这种情况下，可以向每个扬声器发送单独且不同的音频信号。可以根据用户的HRTF以及根据对用户的位置和声源的位置的测量来将这些音频信号中的每一个改变成听起来好像它们来自声源的所确定的位置。因此，以这种方式，人工现实设备(或与该设备相关联的扬声器)可以将音频信号重新再现成听起来好像源自特定位置。

下面将参考图4-11提供在增强现实中如何执行自然语言翻译的详细描述。例如，图4示出了计算体系结构400，本文描述的许多实施例可以在该计算体系结构400中操作。计算体系结构400可以包括计算机系统401。计算机系统401可以包括至少一个处理器402和至少一些系统存储器403。计算机系统401可以是任何类型的本地或分布式计算机系统(包括云计算机系统)。计算机系统401可以包括用于执行各种不同功能的程序模块。程序模块可以是基于硬件的、基于软件的，或者可以包括硬件和软件的组合。每个程序模块可以使用或代表计算硬件和/或软件来执行指定的功能(包括本文在下面描述的那些功能)。

例如，通信模块404可以被配置为与其他计算机系统进行通信。通信模块404可以包括能够从其他计算机系统接收数据和/或发送数据到其他计算机系统的任何有线或无线通信装置。这些通信装置可以包括无线电设备，例如包括基于硬件的接收器405、基于硬件的发射器406或能够接收和发送数据的组合的基于硬件的收发器。无线电设备可以是WIFI无线电设备、蜂窝无线电设备、蓝牙无线电设备、全球定位系统(GPS)无线电设备或其他类型的无线电设备。通信模块404可以被配置成与数据库、移动计算设备(例如移动电话或平板电脑)、嵌入式系统或其他类型的计算系统交互。

计算机系统401还可以包括其他模块，包括音频访问模块407。音频访问模块407可以被配置成访问实时的(或存储的)音频输入流409。音频输入流409可以包括说话的用户408说出的一个或更多个词语410。说话的用户408说出的词语可以是收听用户413(部分地或完全)不理解的语言。计算机系统401的噪声消除模块411可以生成噪声消除信号412，该噪声消除信号412被设计为消除从说话的用户接收的音频输入流409(即，在计算机系统401上的麦克风处接收的或者在与说话的用户408相关联的电子设备上的麦克风处接收的音频输入流)。因此，以这种方式，当说话的用户408说话时，收听用户可以听到噪声消除信号412，该噪声消除信号412消除掉说话的用户的词语并基本上使其静音。

计算机系统401的音频处理模块414可以被配置成识别说话的用户408说出的一个或更多个词语410或短语。将会认识到，词语410可以包括单个词语、词语短语或完整的句子。这些词语或词语组可以被单独识别和翻译，也可以作为短语或句子一起被识别和翻译。因此，尽管这里主要以单数形式描述词语识别和翻译，但是将会理解，这些词语410可以是短语或完整的句子。

每个词语410可以用说话的用户408所说的语言来识别。一旦音频处理模块414已经识别了说话的用户的词语中的一个或更多个，识别的词语415可以被馈送到翻译模块416。翻译模块416可以使用字典、数据库或其他本地或在线资源来将识别的词语415翻译成指定的语言(例如，收听用户413所说的语言)。翻译后的词语417然后可以被馈送到语音生成器418。语音生成器418可以生成传达说话的用户的词语410的意思的口语词语419。口语词语419可以通过计算机生成的话音被说出，或者在一些实施例中，口语词语419可以被个性化为听起来好像它们是由说话的用户408自己说出的。这些口语词语420被提供给计算机系统401的回放模块420，在那里它们被回放给收听用户413。因此，以这种方式，将主动噪声消除和语言翻译相结合，以允许说话的用户用他们的母语说话，而收听用户只听到说话的用户的词语的翻译版本。下面将参照图5的方法500更详细地描述这些实施例。

图5是用于在AR中执行自然语言翻译的示例性计算机实现的方法500的流程图。图5所示的步骤可以由任何合适的计算机可执行代码和/或计算系统(包括图4所示的系统)来执行。在一个示例中，图5所示的每个步骤可以表示其结构包括多个子步骤和/或由多个子步骤表示的算法，其示例将在下面更详细地提供。

如图5所示，在步骤510，这里描述的一个或更多个系统可以访问音频输入流，该音频输入流包括说话的用户以第一语言说出的词语。例如，音频访问模块407可以访问音频输入流409。音频输入流409可以包括说话的用户408说出的一个或更多个词语410。音频输入流409可以是实时的或预先录制的。词语410可以用任何语言来说。

方法500接下来可以包括对音频输入流409中的词语410执行主动噪声消除，以便使口语词语在到达收听用户之前被抑制(步骤520)。例如，计算机系统401的噪声消除模块411可以生成噪声消除信号412，该噪声消除信号412被设计成抑制或降低说话的用户的话音的强度或者完全消除掉说话的用户的话音。这样，当说话的用户408正在说话时，收听用户413可能听不到说话的用户的词语，或者可能只听到词语的模糊(muffled)或静音版本。当向收听用户提供回放时，噪声消除信号412可以在计算机系统401内部使用，或者噪声消除信号412可以被发送到诸如头戴式装置或耳机之类的设备，其中噪声消除信号被用来使说话的用户的话音静音。如果需要，噪声消除信号412的强度可以调高或调低，或者可以完全关闭。

方法500可以进一步包括处理音频输入流409以识别说话的用户408说出的词语410(步骤530)，并将识别出的说话的用户说出的词语翻译成不同的第二语言(步骤540)。音频处理模块414可以处理音频输入流409，以识别说话的用户408说出了哪些词语410。当识别说话的用户408说出的词语时，音频处理模块414可以使用语音到文本(STT)算法、字典、数据库、机器学习技术或其他程序或资源。这些识别的词语415然后被提供给翻译模块416。翻译模块416将识别的词语415翻译成另一种语言。该新的语言可以是收听用户413说的或至少理解的语言。这些翻译后的词语417然后可以被提供给语音生成器418以生成口语词语。

图5的方法500接下来可以包括使用翻译后的词语生成不同的第二语言的口语词语(步骤550)，以及向收听用户回放生成的第二语言的口语词语(步骤560)。例如，语音生成器418可以接收翻译后的词语417(例如，作为数字文本串)，并且可以生成与翻译后的词语对应的口语词语419。语音生成器418可以使用文本到语音(TTS)算法或其他资源(包括数据库、字典、机器学习技术或其他应用或程序)，以从翻译后的词语417生成口语词语419。口语词语可以听起来好像是通过计算机生成的话音被说出，或者可以被个性化(如下面将进一步解释的)为听起来好像是由说话的用户408自己说出的。一旦已经生成了口语词语419，就可以将它们传递给回放模块420，以便回放给收听用户413。口语词语可以被发送到作为计算机系统401的一部分、或者经由有线或无线连接被连接到计算机系统401的扬声器。以这种方式，收听用户413将听到代表说话的用户的词语410的翻译后的口语词语，而噪声消除模块411同时确保收听用户听到的唯一事物是翻译后的口语词语419。

在一些实施例中，可以经由增强现实(AR)、虚拟现实(VR)或混合现实(MR)头戴式装置(例如，分别是图1、2或3的头戴式装置100、200或300中的任何一个)上的扬声器来回放口语词语419。尽管这些改变的现实的形式中的任何一种都可以用在这里描述的任何实施例中，但是下面描述的实施例将主要处理增强现实。AR头戴式装置(例如图6中由收听用户603佩戴的头戴式装置630A，或由说话的用户606佩戴的头戴式装置630B)可以包括透明透镜，该透明透镜允许用户向外看到外部世界，同时还具有允许图像被投射和反射到用户眼睛中的内部反射表面。因此，用户可以看到他们周围的一切，但也可以看到由AR头戴式装置生成的虚拟元素。此外，AR头戴式装置可以提供内置扬声器，或者可以具有配合到用户耳朵内的有线或无线耳机。这些扬声器或耳机向用户的耳朵提供音频，无论音频是音乐、视频游戏内容、电影或视频内容、语音还是其他形式的音频内容。因此，在本文的至少一些实施例中，计算机系统401或计算机系统401的至少一些模块可以被构建到AR头戴式装置中。因此，AR头戴式装置可以通过AR头戴式装置的扬声器或耳机来执行噪声消除、音频处理、翻译、语音生成和回放。

如上面所提到的，生成的口语词语419可以针对说话的用户408被个性化，使得生成的第二语言的口语词语听起来好像是由说话的用户408说出的。在许多情况下，可能优选的是使翻译后的口语词语419听起来好像它们是由说话的用户408说出的，即使说话的用户无法用该语言说话。这种个性化为用户的词语提供了熟悉的音调和感觉。个性化使这些词语听起来不那么机械和像机器人，并且听起来更熟悉和个人化。这里的实施例被设计成将口语词语419制作成听起来就像是由说话的用户408发音和说出的一样。

在一些实施例中，个性化生成的口语词语419可以包括处理音频输入流409以确定说话的用户对各种词语或音节如何发音。例如，每个用户可能以稍微不同的方式对某些词语或音节发音。图6的计算环境650中的个性化引擎600可以从说话的用户606接收音频输入605，并且可以激活发音模块601来确定说话的用户如何对他们的词语发音。声音特征分析器(vocal characteristics analyzer)602可以分析音频输入605，以确定说话的用户的音调、词语间距和其他声音特征。个性化引擎600然后可以将所确定的发音、话音声调和其他声音特征应用于个性化的音频输出信号604中生成的口语词语。该个性化的音频输出604然后被提供给收听用户603。在(例如，通过AR头戴式装置630A)回放所生成的口语词语期间，当个性化引擎600或计算机系统401确定说话的用户606对词语或音节如何发音时，个性化可以被动态地应用于被回放的词语。

在一些情况下，如图7的计算环境700所示，说话的用户606可以提供话音样本或话音模型。例如，说话的用户606可以提供话音模型608，该话音模型608包括用户的发音、音调和其他声音特征，其可以用于形成话音简档(voice profile)。在这样的实施例中，个性化引擎600可以放弃对说话的用户的话音的实时分析，并且可以使用话音模型608中的特征和发音来个性化音频输出604。话音模型608可以包括话音样本，其可用于在从说话的用户接收音频输入流605之前确定说话的用户对词语或音节如何发音。话音模型解释器607可以解释话音模型中的数据，并在个性化发送给收听用户的口语词语时使用它。在一些实施例中，个性化引擎600可以使用来自话音模型608的数据结合说话的用户的词语的实时分析来进一步使个性化细化，而不是放弃说话的用户的话音的实时分析。在这种情况下，来自实时分析的细化可以被添加到用户的话音模型，或者可以用于更新用户的话音模型608。

在一些情况下，个性化引擎600可以访问与说话的用户606相关联的存储的音频数据613，然后使用所访问的存储的音频数据来个性化生成的口语词语。存储的音频数据613可以包括例如预先录制的由说话的用户606说出的词语。这些预先录制的词语可以用于创建与该用户相关联的话音模型或话音简档。然后，该话音模型可以用于个性化说话的用户的话音以获得发送给收听用户603的音频输出604。这样，以新的(翻译的)语言回放的生成的口语词语听起来好像是由说话的用户606说出的。

在一些情况下，个性化引擎600可以解析说话的用户606说出的词语。在一些示例中，说话的用户606和收听用户603可以说不同的语言，但是这些语言共享一些相似的词语。例如，一些语言可以共享直接从英语借用的关于计算技术的类似术语。在这种情况下，个性化引擎600可以解析说话的用户606说出的词语，并确定至少一个词语是以收听用户603理解的语言说出的。如果作出这样的确定，则个性化引擎可以导致对以收听用户理解的语言说出的词语的主动噪声消除被临时暂停。这样，那些词语可以被收听用户听到，而没有进行噪声消除，也没有进行翻译。

向收听用户603回放所生成的口语词语604可以附加地或替代地包括确定说话的用户从哪个方向说话，以及将所生成的口语词语的回放空间化为听起来好像口语词语来自所确定的说话的用户的方向。例如，如图8的计算环境800所示，说话的用户606可以提供与该用户相关联的位置信息612。位置数据可以基于全球定位系统(GPS)坐标来指示用户在哪里，或者可以指示用户在给定的房间、舞厅、体育场或其他场地内的位置。个性化引擎600的方向识别模块610可以使用位置数据612来确定说话的用户从哪个方向说话。然后，空间化模块611可以将音频输出604中生成的口语词语的回放空间化为听起来好像口语词语来自所确定的说话的用户606的方向。空间化模块611可以应用各种声学处理技术来使说话的用户的话音听起来好像在收听用户603的后面，或者在收听用户的右边或左边，或者在收听用户的前面或远离收听用户。因此，说出翻译后的词语的个性化的话音不仅可以听起来好像是由说话的用户说出的，而且可以听起来好像来自相对于收听用户的位置的说话的用户的精确位置。

在一些实施例中，确定说话的用户从哪个方向说话可以包括计算来自说话的用户的声波的到达方向。例如，图8的方向识别模块610可以计算来自说话的用户606的音频输入605中的声波的到达方向。个性化引擎600然后可以基于计算出的到达方向来确定说话的用户606正在从哪个方向说话，并且空间化模块611可以将个性化的音频输出604中生成的口语词语的回放空间化为听起来好像口语词语来自所确定的说话的用户的方向。在一些情况下，除了接收位置数据612之外，还可以执行该到达方向计算，以进一步细化说话的用户606的位置。在其他情况下，可以在不接收位置数据612的情况下执行到达方向计算。这样，可以确定说话的用户的位置，而无需用户发送指示他们当前位置的特定数据。例如，收听用户可以实现具有照相机的移动设备，或者可以佩戴具有照相机的AR头戴式装置。方向识别模块610可以分析来自照相机的视频馈送以确定说话的用户的方向，然后基于所确定的方向将音频空间化。

附加地或替代地，确定说话的用户606正在说话的方向可以包括跟踪收听用户的眼睛的移动。例如，个性化引擎600(其可以是AR头戴式装置的一部分或与AR头戴式装置通信)可以包括眼睛移动跟踪器。例如，如图9的计算环境900所示，个性化引擎600可以包括生成眼睛移动数据616的眼睛移动跟踪器615。眼睛移动跟踪器615可以是AR头戴式装置630A的一部分，并且可以被配置成跟踪用户的眼睛(例如，收听用户603的眼睛)并确定用户正在看哪里。在大多数情况下，如果一个说话的用户正在对收听用户说话，收听用户会转过身来看着说话的用户，以便主动地听他们说话。这样，跟踪收听用户的眼睛移动可以提供说话的用户606从哪里说话的线索。方向识别模块610然后可以使用眼睛移动数据616来基于所跟踪的收听用户的眼睛移动来确定说话的用户606正在从哪个方向说话。空间化模块611然后可以以上述方式将所生成的口语词语的回放空间化为听起来好像口语词语来自所确定的说话的用户的方向。

在一些实施例中，处理音频输入流以识别说话的用户说出的词语可以包括实现语音到文本(STT)程序以识别说话的用户说出的词语，并且还可以包括实现文本到语音(TTS)程序以生成翻译后的口语词语。如图10的计算环境1000中所示，说话的用户的词语(例如，在来自说话的用户1007的音频输入1006中)可以被馈送到语音到文本模块1005，在那里词语被转换成文本或词语的某种其他数字表示。翻译模块1004然后可以使用文本形式的词语来执行从一种语言到另一种语言的翻译。一旦执行了翻译，文本到语音模块1003可以将书写的词语转换成语音。该语音可以被包括在音频输出1002中。该音频输出1002然后可以被发送给收听用户1001。因此，一些实施例可以使用STT和TTS来执行语音和文本之间的转换以及文本返回到语音的转换。

图11的计算环境1100示出了多个说话的用户同时说话的示例。每个说话的用户(例如，说话的用户1105或1107)可以提供音频输入流(例如，分别为音频输入流1104或1106)，该音频输入流包括由两个不同用户说出的词语。语音区分模块1103(其可以是图6的个性化引擎600的一部分和/或图4的计算机系统401的一部分)然后可以根据不同的声音模式或其他声音特征来区分两个说话的用户1105和1107。语音区分模块1103然后可以在语音输出1102中为一个说话的用户(例如，1105)生成口语词语，同时对两个说话的用户执行主动噪声消除。以这种方式，收听用户1101(其不理解两个用户所说的语言)仍然可以接收说话的用户1105的词语的翻译版本。

在一些实施例中，来自另一说话的用户1107的音频输入流1106可以存储在数据储存器中。该存储的音频流然后可以被解析和翻译。然后，当说话的用户1105结束说话时，语音区分模块1103可以使说话的用户1107的被存储和翻译的词语被转换成口语词语。在一些情况下，语音区分模块1103可以根据策略来运行，该策略指示如果两个(或更多个)说话的用户正在说话，则一个说话者(可能基于眼睛跟踪信息来查看收听用户正在看着哪个说话的用户)将被选择，并且来自其他说话的用户的词语将被存储。然后，一旦语音区分模块1103确定第一说话的用户已经停止说话达指定的时间量，则为其他说话的用户生成的口语词语将被顺序地回放给收听用户。在某些情况下，该策略可能会基于说话的用户的身份而偏向某些说话的用户。因此，即使收听用户1101在一群人中，这里的系统也可以聚焦于单个说话的用户(例如，基于该用户的声音特征)或一组用户，并记录来自这些用户的音频。然后，该音频可以被转换成文本、被翻译、被转换回语音并被回放给收听用户1101。

在一些情况下，当多个用户正在说话时，图4的个性化引擎400可以为每个说话的用户创建话音模型，或者可以在第一说话的用户正在说话时创建第二说话的用户的话音模型。个性化引擎400还可以针对同时说话的用户中的每一个用户个性化生成的口语词语。这样，以新的(翻译的)语言的生成的口语词语可以听起来好像来自每个不同说话的用户的话音。因此，无论两个人是一对一交谈，还是在一大群人中聊天，这里的实施例都可以操作来使来自说话者的音频静音，翻译说话者的词语，并且向收听用户回放对说话者的词语的个性化的口头翻译。

此外，用于在AR中执行自然语言翻译的相应系统可以包括存储在存储器中的几个模块，包括访问音频输入流的音频访问模块，该音频输入流包括说话的用户以第一语言说出的词语。该系统还可以包括噪声消除模块，该噪声消除模块对音频输入流中的词语执行主动噪声消除，使得口语词语被抑制或者对于收听用户来说基本上听不见。该系统还可以包括音频处理模块，该音频处理模块处理音频输入流以识别说话的用户说出的词语。翻译模块可以将识别出的说话的用户说出的词语翻译成不同的第二语言，并且语音生成器可以使用翻译后的词语生成不同的第二语言的口语词语。回放模块然后可以向收听用户回放生成的第二语言的口语词语。

在一些示例中，上述方法可以被编码为计算机可读介质上的计算机可读指令。例如，计算机可读介质可以包括一个或更多个计算机可执行指令，当由计算设备的至少一个处理器执行时，该计算机可执行指令可以使计算设备访问包括说话的用户以第一语言说出的词语的音频输入流，对音频输入流中的词语执行主动噪声消除，使得口语词语被抑制或者对于收听用户来说基本上听不见，处理音频输入流以识别说话的用户说出的词语，将识别出的说话的用户说出的词语翻译成不同的第二语言，使用翻译后的词语生成不同的第二语言的口语词语，并将生成的第二语言的口语词语回放给收听用户。

因此，两个(或更多个)用户可以彼此交谈，每个用户都说自己的语言。每个用户的语音对另一个用户来说被静音，并且被翻译并以说话的用户的话音说回给收听用户。因此，说不同语言的用户可以彼此自由交谈，只听到个性化的翻译后的语音。这可以极大地帮助用户相互交流，尤其是当他们不会说同一种语言时。

如上面所详述的，本文描述和/或示出的计算设备和系统广泛地表示能够执行计算机可读指令(例如在本文描述的模块中包含的那些指令)的任何类型或形式的计算设备或系统。在它们的最基本的配置中，这些计算设备可以各自包括至少一个存储器设备和至少一个物理处理器。

在一些示例中，术语“存储器设备”通常指能够存储数据和/或计算机可读指令的任何类型或形式的易失性或非易失性存储设备或介质。在一个示例中，存储器设备可以存储、加载和/或维护本文描述的一个或更多个模块。存储器设备的示例包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、闪存、硬盘驱动器(HDD)、固态驱动器(SSD)、光盘驱动器、高速缓存、这些部件中的一个或更多个的变形或组合、或者任何其他合适的储存存储器。

在一些示例中，术语“物理处理器”通常指能够解释和/或执行计算机可读指令的任何类型或形式的硬件实现的处理单元。在一个示例中，物理处理器可以访问和/或修改存储在上述存储器设备中的一个或更多个模块。物理处理器的示例包括但不限于微处理器、微控制器、中央处理单元(CPU)、实现软核处理器的现场可编程门阵列(FPGA)、专用集成电路(ASIC)、这些部件中的一个或更多个的部分、这些部件中的一个或更多个的变形或组合、或任何其他合适的物理处理器。

尽管被示为单独的元件，但是本文描述和/或示出的模块可以表示单个模块或应用的部分。此外，在某些实施例中，这些模块中的一个或更多个可以表示一个或更多个软件应用或程序，其当由计算设备执行时可以使计算设备执行一个或更多个任务。例如，本文描述和/或示出的一个或更多个模块可以表示被存储和配置为在本文描述和/或示出的一个或更多个计算设备或系统上运行的模块。这些模块中的一个或更多个还可以表示被配置为执行一个或更多个任务的一个或更多个专用计算机的全部或部分。

此外，本文描述的一个或更多个模块可以将数据、物理设备和/或物理设备的表示从一种形式转换成另一种形式。例如，本文所述的模块中的一个或更多个可以接收待转换的数据、转换数据、输出转换的结果以执行功能、使用转换的结果来执行功能、以及存储转换的结果以执行功能。附加地或可替代地，本文所述的一个或更多个模块可以通过在计算设备上执行、在计算设备上存储数据、和/或以其他方式与计算设备交互来将处理器、易失性存储器、非易失性存储器和/或物理计算设备的任何其他部分从一种形式转换成另一种形式。

在一些实施例中，术语“计算机可读介质”通常指能够存储或携带计算机可读指令的任何形式的设备、载体或介质。计算机可读介质的示例包括但不限于传输型介质(例如，载波)以及非暂时性介质，例如，磁存储介质(例如，硬盘驱动器、磁带驱动器和软盘)、光存储介质(例如，光盘(CD)、数字视频盘(DVD)和BLU-RAY盘)、电子存储介质(例如，固态驱动器和闪存介质)以及其他分发系统。

本公开的实施例可以包括人工现实系统或结合人工现实系统来被实现。人工现实是在呈现给用户之前以某种方式被调整的现实形式，其可以包括例如虚拟现实(VR)、增强现实(AR)、混合现实(MR)、混杂现实或其某种组合和/或衍生物。人工现实内容可以包括完全生成的内容或者与所捕获的(例如，真实世界)内容组合地生成的内容。人工现实内容可以包括视频、音频、触觉反馈、或其某种组合，其中任何一个都可以在单个通道中或在多个通道(例如向观看者产生三维效果的立体视频)中被呈现。此外，在一些实施例中，人工现实还可以与用于例如在人工现实中创建内容和/或在人工现实中以其他方式被使用(例如，在人工现实中执行活动)的应用、产品、附件、服务或其某种组合相关联。可以在各种平台(包括连接到主计算机系统的头戴式显示器(HMD)、独立的HMD、移动设备或计算系统、或者能够向一个或更多个观看者提供人工现实内容的任何其他硬件平台)上实现提供人工现实内容的人工现实系统。

在本文描述和/或示出的过程参数和步骤的顺序仅作为示例被给出，并且可以根据需要而变化。例如，虽然在本文示出和/或描述的步骤可以以特定顺序被示出或讨论，但这些步骤不一定需要以所示出或讨论的顺序来被执行。本文描述和/或示出的各种示例性方法也可以省略在本文描述或示出的一个或更多个步骤，或者包括除了那些所公开的步骤之外的附加步骤。

提供前面的描述以使本领域中的其他技术人员能够最好地利用本文公开的示例性实施例的各种方面。该示例性描述并不旨在是穷尽的或受限于所公开的任何精确形式。许多修改和变化是可能的，而不偏离本公开的精神和范围。本文公开的实施例应当在所有方面被认为是说明性的而不是限制性的。在确定本公开的范围时，应当参考所附权利要求及其等同物。

除非另外提到，否则如在说明书和权利要求中使用的术语“连接到”和“耦合到”(及其派生词)应被解释为允许直接和间接(即，经由其他元件或部件)连接。此外，如在说明书和权利要求中使用的术语“一个(a)”或“一个(an)”应被解释为意指“......中的至少一个”。最后，为了容易使用，如在说明书和权利要求中使用的术语“包括(including)”和“具有”(及其派生词)与词“包括(comprising)”可互换并具有与词“包括(comprising)”相同的含义。

Claims

1.一种计算机实现的方法，包括：

访问音频输入流，所述音频输入流包括说话的用户以第一语言说出的一个或更多个词语；

对所述音频输入流中的一个或更多个词语执行主动噪声消除，使得口语词语在到达收听用户之前被抑制；

处理所述音频输入流以识别所述说话的用户说出的一个或更多个词语；

将识别出的所述说话的用户说出的词语翻译成不同的第二语言；

使用翻译后的词语生成不同的所述第二语言的口语词语；和

向所述收听用户回放所生成的所述第二语言的口语词语。

2.根据权利要求1所述的计算机实现的方法，其中，所生成的口语词语针对所述说话的用户被个性化，使得所生成的所述第二语言的口语词语听起来好像是由所述说话的用户说出的。

3.根据权利要求2所述的计算机实现的方法，其中，使所生成的口语词语个性化进一步包括：

处理所述音频输入流以确定所述说话的用户对一个或更多个词语或音节如何发音；和

将确定的发音应用于所生成的口语词语。

4.根据权利要求3所述的计算机实现的方法，其中，当所述计算机确定所述说话的用户对所述词语或音节如何发音时，在回放所生成的口语词语期间，个性化被动态地应用于被回放的词语。

5.根据权利要求3所述的计算机实现的方法，其中，所述说话的用户提供一个或更多个话音样本，在接收所述音频输入流之前，所述计算机使用所述话音样本确定所述说话的用户对所述词语或音节中的一个或更多个如何发音。

6.根据权利要求1所述的计算机实现的方法，其中，向所述收听用户回放所生成的口语词语进一步包括：

确定所述说话的用户正在从哪个方向说话；和

将所生成的口语词语的回放空间化为听起来好像所述口语词语来自所确定的所述说话的用户的方向。

7.根据权利要求6所述的计算机实现的方法，其中，确定所述说话的用户正在从哪个方向说话进一步包括：

接收与所述说话的用户相关联的设备的位置数据；

基于接收到的位置数据确定所述说话的用户正在从哪个方向说话；和

8.根据权利要求6所述的计算机实现的方法，其中，确定所述说话的用户正在从哪个方向说话进一步包括：

计算来自所述说话的用户的声波的到达方向；

基于所计算的到达方向来确定所述说话的用户正在从哪个方向说话；和

9.根据权利要求6所述的计算机实现的方法，其中，确定所述说话的用户正在从哪个方向说话进一步包括：

跟踪所述收听用户的眼睛的移动；

基于所跟踪的所述收听用户的眼睛的移动来确定所述说话的用户正在从哪个方向说话；和

10.根据权利要求1所述的计算机实现的方法，其中，处理所述音频输入流以识别所述说话的用户说出的一个或更多个词语包括实现语音到文本(STT)程序以识别所述说话的用户说出的词语，以及实现文本到语音(TTS)程序以生成翻译后的口语词语。

11.一种系统，包括：

至少一个物理处理器；

物理存储器，其包括计算机可执行指令，所述计算机可执行指令在由所述物理处理器执行时使所述物理处理器：

使用翻译后的词语生成不同的所述第二语言的口语词语；和

向所述收听用户回放所生成的所述第二语言的口语词语。

12.根据权利要求11所述的系统，进一步包括：

下载与所述说话的用户相关联的话音简档；和

使用所下载的与所述说话的用户相关联的话音简档来使所生成的口语词语个性化，使得回放的所生成的所述第二语言的口语词语听起来好像是由所述说话的用户说出的。

13.根据权利要求11所述的系统，进一步包括：

访问与所述说话的用户相关联的存储的音频数据的一个或更多个部分；和

使用所访问的存储的音频数据来使所生成的口语词语个性化，使得以所述第二语言回放的所生成的口语词语听起来好像是由所述说话的用户说出的。

14.根据权利要求11所述的系统，进一步包括：

解析所述说话的用户说出的词语；

确定所述词语中的至少一个是以所述收听用户理解的语言说出的；和

暂停对以所述收听用户理解的语言说出的词语的主动噪声消除。

15.根据权利要求11所述的系统，进一步包括：

确定所述音频输入流包括由至少两个不同的说话的用户说出的词语；

根据一个或更多个话音模式区分这两个说话的用户；和

为第一说话的用户生成口语词语，同时对两个说话的用户执行主动噪声消除。

16.根据权利要求15所述的系统，进一步包括：

存储为第二说话的用户生成的口语词语，直到所述第一用户已经停止说话指定的时间量；和

回放为所述第二说话的用户生成的口语词语。

17.根据权利要求16所述的系统，进一步包括针对所述两个说话的用户中的每一个使生成的口语词语个性化，使得生成的所述第二语言的口语词语听起来好像来自每个说话的用户的话音。

18.根据权利要求11所述的系统，其中，存储在所述物理存储器上的所述计算机可执行指令的至少一部分由与所述系统分离的至少一个远程物理处理器处理。

19.根据权利要求18所述的系统，其中，一个或更多个策略指示何时以及所述计算机可执行指令的哪些部分将在与所述系统分离的所述至少一个远程物理处理器上被处理。

20.一种非暂时性计算机可读介质，其包括一个或更多个计算机可执行指令，所述一个或更多个计算机可执行指令在由计算设备的至少一个处理器执行时使所述计算设备：

使用翻译后的词语生成不同的所述第二语言的口语词语；和

向所述收听用户回放所生成的所述第二语言的口语词语。

21.一种计算机实现的方法，包括：

使用翻译后的词语生成不同的所述第二语言的口语词语；和

向所述收听用户回放所生成的所述第二语言的口语词语。

22.根据权利要求21所述的计算机实现的方法，其中，所生成的口语词语针对所述说话的用户被个性化，使得所生成的所述第二语言的口语词语听起来好像是由所述说话的用户说出的。

23.根据权利要求22所述的计算机实现的方法，其中，使所生成的口语词语个性化进一步包括：

将确定的发音应用于所生成的口语词语。

24.根据权利要求23所述的计算机实现的方法，其中，当所述计算机确定所述说话的用户对所述词语或音节如何发音时，在回放所生成的口语单词期间，个性化被动态地应用于被回放的词语；和/或

其中，所述说话的用户提供一个或更多个话音样本，在接收所述音频输入流之前，所述计算机使用所述一个或更多个话音样本确定所述说话的用户对所述词语或音节中的一个或更多个如何发音。

25.根据权利要求21至24中任一项所述的计算机实现的方法，其中，向所述收听用户回放所生成的口语词语进一步包括：

确定所述说话的用户正在从哪个方向说话；和

26.根据权利要求25所述的计算机实现的方法，其中，确定所述说话的用户正在从哪个方向说话进一步包括：

接收与所述说话的用户相关联的设备的位置数据；

将所生成的口语词语的回放空间化为听起来好像所述口语词语来自所确定的所述说话的用户的方向；和/或

其中，确定所述说话的用户正在从哪个方向说话进一步包括：

计算来自所述说话的用户的声波的到达方向；

跟踪所述收听用户的眼睛的移动；

27.根据权利要求21至26中任一项所述的计算机实现的方法，其中，处理所述音频输入流以识别所述说话的用户说出的一个或更多个词语包括实现语音到文本(STT)程序以识别所述说话的用户说出的词语，以及实现文本到语音(TTS)程序以生成翻译后的口语词语。

28.一种系统，包括：

至少一个物理处理器；

使用翻译后的词语生成不同的所述第二语言的口语词语；和

向所述收听用户回放所生成的所述第二语言的口语词语。

29.根据权利要求28所述的系统，进一步包括：

下载与所述说话的用户相关联的话音简档；和

30.根据权利要求28或29所述的系统，进一步包括：

31.根据权利要求28至30中任一项所述的系统，进一步包括：

解析所述说话的用户说出的词语；

32.根据权利要求28至31中任一项所述的系统，进一步包括：

根据一个或更多个话音模式区分这两个说话的用户；和

为第一说话的用户生成口语词语，同时对两个说话的用户执行主动噪声消除；

可选地，进一步包括：

回放为所述第二说话的用户生成的口语词语；

可选地，进一步包括针对所述两个说话的用户中的每一个使所生成的口语词语个性化，使得所生成的所述第二语言的口语词语听起来好像来自每个说话的用户的话音。

33.根据权利要求28至32中任一项所述的系统，其中，存储在所述物理存储器上的所述计算机可执行指令的至少一部分由与所述系统分离的至少一个远程物理处理器处理；

可选地，其中，一个或更多个策略指示何时以及所述计算机可执行指令的哪些部分将在与所述系统分离的所述至少一个远程物理处理器上被处理。

34.一种非暂时性计算机可读介质，其包括一个或更多个计算机可执行指令，所述一个或更多个计算机可执行指令在由计算设备的至少一个处理器执行时使所述计算设备执行根据权利要求21至27中任一项所述的方法或者：

使用翻译后的词语生成不同的所述第二语言的口语词语；和

向所述收听用户回放所生成的所述第二语言的口语词语。