CN106462383B

CN106462383B - 具有定向接口的免提装置

Info

Publication number: CN106462383B
Application number: CN201580029277.XA
Authority: CN
Inventors: D.迪森索; S.马蒂
Original assignee: Harman International Industries Inc
Current assignee: Harman International Industries Inc
Priority date: 2014-06-03
Filing date: 2015-06-01
Publication date: 2021-09-03
Anticipated expiration: 2035-06-01
Also published as: EP3152651A4; WO2015187587A1; CN106462383A; JP2017526024A; KR20170013264A; US20150346845A1; KR102481454B1; EP3152651A1; US10318016B2; JP6585081B2

Abstract

本发明的实施方案提供一种非暂时性计算机可读介质，其包含计算机程序代码，当被运行时，所述计算机程序代码执行操作。所述操作包括检测请求与第一装置交互并且来源于源的用户动作。另外，实施方案确定所述源相对于所述第一装置的当前位置所处的方向。还基于所述第一装置的当前状态来确定对所述用户动作的响应。实施方案还包括大体上在所述源所处的所述确定方向上输出所述确定响应。

Description

具有定向接口的免提装置

相关申请的交叉引用

本申请要求2014年6月3日提交的美国专利申请第14/294,328号的优先权。这个相关申请的主题特此以引用方式并入本文。

背景

发明领域

实施方案一般来说涉及用于装置的接口，并且更具体地说涉及用于提供能够进行装置免提操作的定向接口的技术。

现有技术描述

现今的互连装置比以前更加常见，并且此类装置的普及性正快速地持续增加。例如，人们具有移动装置(例如，智能手机)、电视机、平板计算装置、媒体播放器以及车辆导航系统并非不常见。随着越来越多的装置被构造成具有与其他装置通信的能力和逻辑，开启了为用户提供完全集成体验的新的可能性。

传统上，用户可使用许多输入机构与此类装置交互。这些输入机构的示例包括装置上的按钮、键盘、触摸屏界面、远程控制件等。最近，装置已被构造成允许用户通过语音辨识来与装置进行音频通信，例如，在用户说出待由装置执行的语声命令的情况下。此类装置为用户提供许多便利，诸如通过简单地对装置说话来输入冗长的数据串的能力。然而，许多此类装置仍然依靠传统输入机构来触发语音辨识模式。例如，装置可能需要用户按压装置上的某一按钮，以便使装置处于语音辨识模式中。因此，这些装置并不提供真正的免提体验。

发明内容

一个实施方案提供一种非暂时性计算机可读介质，其包含计算机程序代码，当被运行时，所述计算机程序代码执行操作。所述操作包括检测请求与第一装置交互并且来源于某个源位置的用户动作。另外，所述操作包括确定源位置相对于第一装置的当前位置所处的方向。所述操作还包括基于第一装置的当前状态来确定对用户动作的响应。此外，所述操作包括大体上在源位置所处的确定方向上输出确定响应。

另一个实施方案提供一种非暂时性计算机可读介质，其包含计算机程序代码，当被运行时，所述计算机程序代码执行操作。所述操作包括检测触发事件，所述触发事件包括以下各项中的至少一项：(i)检测语声触发以及(ii)在第一装置的方向上检测用户目光。另外，所述操作包括确定触发事件的源相对于第一装置的当前位置的方向。所述操作还包括通过大体上在触发事件的源所处的确定方向上将可听响应输出为可操纵声束来发起交互式语声对话。

又一个实施方案提供一种包括计算机处理器和存储器的设备，所述存储器包含程序，当被计算机处理器运行时，所述程序执行操作。所述操作包括检测来源于源位置的用户动作。另外，所述操作包括确定源位置相对于所述设备的当前位置所处的方向。所述操作还包括确定对于用户动作的响应。所述操作还包括大体上在源位置所处的确定方向上输出确定响应。

附图简要说明

图1是框图，其示出根据本文所述的一个实施方案的、包括配置有定向交互部件的免提装置的系统。

图2描绘根据本文所述的一个实施方案的物理环境，在所述物理环境中用户正与免提装置交互。

图3是流程图，其示出根据本文所述的一个实施方案的、用于处理免提装置处的语声指令的方法。

图4是流程图，其示出根据本文所述的一个实施方案的、通过向查询处理部件提交查询来处理免提装置处的语声指令的方法。

图5是框图，其示出根据本文所述的一个实施方案的、配置有定向交互部件的免提装置。

具体实施方式

虽然现今许多装置使得用户能够通过使用语音辨识技术来输入命令和其他数据，但是这些装置仍然需要用户借助于另一个输入机构使所述装置处于语音辨识模式中。例如，移动装置可使得用户能够说出文本串以用于发送短消息服务(SMS)消息，但是可能需要用户首先在预先确定的一段时间内按住移动装置上的特定按钮，以便使移动装置处于语音辨识模式中。作为另一个示例，车辆可包括允许用户通过大声说出地址信息而将地址信息输入到车辆导航系统中的逻辑。然而，在用户可说出供输入的地址信息之前，可能需要用户首先按压车辆的方向盘上的按钮并且导航菜单系统。因此，这些常规装置并没有为用户提供真正的免提体验，因为它们仍然需要用户通过使用手动输入机构(例如，装置上的按钮)使装置处于语音辨识模式中。

同样地，实施方案提供用于为装置的用户提供完全免提体验的技术。例如，实施方案可检测由第一用户执行的、请求与第一装置交互的用户动作。根据一个实施方案，用户动作可以是由用户说出的可听命令。在另一个实施方案中，用户动作可以是用户直接看着装置。实施方案随后可确定第一用户相对于装置的当前位置所处的方向。因此，如果用户动作包括用户对装置说出可听命令，那么装置上的逻辑便可处理来自装置上的多个麦克风中的每一个的声音数据，以便确定可听命令来源的方向。作为另一个示例，在用户动作表示用户直接看着装置的情况下，装置上的逻辑可分析从装置的一个或多个摄像机收集的图像，并且可基于所分析的图像以及指定装置上的各个摄像机位置的预定义数据来确定用户相对于装置所处的方向。

实施方案随后可基于第一装置的当前状态来确定对用户动作的可听响应。例如，装置上的逻辑可确定装置当前处于睡眠状态中，并且当检测到用户正看向装置的方向时，逻辑可确定适当的可听响应是询问用户“今天我怎么帮助您？”。确定的可听响应也可以基于用户动作中指定的内容来确定。因此，例如，在用户动作表示由用户说出的可听命令时，装置上的逻辑可分析可听命令并且可确定用户正请求一条特定信息。逻辑随后可生成查询，所述查询被配置来检索这条特定信息、传输供执行的查询、接收对应的查询结果并且基于所接收的查询结果生成可听响应。例如，如果逻辑确定用户动作正请求2014年感恩节的日期，那么逻辑便可检索这个信息并且可生成说出“今年的感恩节是在11月27日”的可听响应。

实施方案随后可在第一用户所处的确定方向上将确定的可听响应输出为可操纵声束。例如，装置可配置有波束成形扬声器阵列或致动的定向扬声器，随后可被配置来传输定向在特定方向上的音频波，并且装置上的逻辑可配置这些音频输出装置以在接收用户动作的方向(即，用户相对于装置所处的方向)上传输可听响应。这样做会使得可听响应能够大体上仅被用户或紧邻的其他用户听见。

图1是框图，其示出根据本文所述的一个实施方案的、包括配置有定向交互部件的免提装置的系统。如图所示，系统100包括配置有定向交互部件120的免提装置110以及云计算环境130，所述云计算环境130包括经由网络125而互连的查询处理部件140。一般来说，定向交互部件120被配置来：(a)检测来自相对于定向交互部件120所位于的装置的某一方向的用户动作，并且随后(b)针对定向在所述方向上的用户动作提供可听响应。例如，用户动作的示例包括但不限于由用户说出的语声指令(例如，通过分析使用免提装置110的麦克风装置记录的音频数据来检测的)以及正看向免提装置110的方向的用户(例如，通过分析免提装置110的摄像机装置所捕捉的图像来检测的)。

由定向交互部件120提供的可听响应可根据用户请求而变化。例如，如果用户在语声指令中提出具体问题(例如，“2014年的感恩节是什么时候？”)，那么定向交互部件120可使用一个或多个麦克风装置来检测用户的语声指令，并且可分析从这些麦克风装置收集的数据以确定用户的问题(例如，使用语音辨识技术)。定向交互部件120随后可尝试确定具体问题的答案，并且定向交互部件120可呈现这个答案作为响应。例如，定向交互部件120可生成查询，所述查询被配置来返回针对语声指令所指定的具体问题的答案。定向交互部件120可将生成的查询提交给查询处理部件140，所述查询处理部件140可执行查询并且可将查询结果返回给定向交互部件120。

当接收查询结果时，定向交互部件120可生成可听响应并且可将这个响应呈现给用户。例如，定向交互部件120可将文本至语音转换算法应用到查询结果的一部分，以便生成针对用户语声指令的可听响应(例如，“感恩节将在2014年11月27日”)。定向交互部件120随后可使用免提装置的一个或多个音频输出装置来输出可听响应。

在一个实施方案中，定向交互部件120被配置来将可听响应输出为对准相对于免提装置110的位置的用户方向上的可操纵声束(例如，使用超定向扬声器)。例如，定向交互部件120可通过使用一个或多个摄像机装置捕捉用户的图像来确定用户所处的方向，并且可识别捕捉图像内的用户(例如，使用面部辨识技术)。定向交互部件120随后可基于所捕捉图像内的用户位置以及指定对应摄像机装置的位点的信息来确定用户所处的方向。定向交互部件120随后可使用确定方向上的波束成形扬声器阵列来输出可听响应，从而使得只有用户和紧邻用户的其他人可以听见所述可听响应。定向交互部件120可被配置来连续地跟踪用户当前相对于免提装置110的位置所处的方向，从而使得从免提装置投射的声束在用户的方向上连续地投射。

在一个实施方案中，定向交互部件120被配置来通过不断地监测从各个麦克风装置收集的音频数据而不断地收听来自用户的语声命令。在特定实施方案中，定向交互部件120被配置来维持睡眠状态，直到定向交互部件120检测到用户已瞥向免提装置110的方向。例如，定向交互部件120可监测免提装置110的一个或多个摄像机装置所捕捉的图像，并且可对所捕捉的图像执行面部辨识分析以确定用户何时正直接看着免提装置110。当检测到用户正看着装置110时，定向交互部件120随后可离开睡眠状态并且可开始主动地收听来自用户的语声命令。在特定实施方案中，定向交互部件120被配置来收听特定的语声触发(例如，特定的用户语声说出的字词或短语)，并且定向交互部件120被配置来维持其睡眠状态，直到检测到语声触发。

另外，定向交互部件120可被配置来在响应于来自用户的请求之前针对用户执行验证和授权操作。例如，定向交互部件120可对从免提装置110的麦克风收集的数据执行语声签名分析以确保语音与已知的充分授权用户相匹配。作为另一个示例，定向交互部件120可执行面部特征辨识分析(例如，使用免提装置110的一个或多个摄像机装置，使用辨识用户面部特征(如远处的视网膜图样)的传感器，等等)，以确保对免提装置说话的用户是已知的充分授权用户。

现将参照图2来论述一个示例，图2描绘根据本文所述的一个实施方案的物理环境，在所述物理环境中用户正与免提装置交互。如图所示，环境200包括第一用户210和第二用户240，并且第一用户210被展示为与配置有定向交互部件120的免提装置220交互。为了本示例的目的，假设免提装置220被配置来保持在睡眠状态中(即，在装置220不主动收听和处理语声指令的情况下)，直到用户210看向装置220的方向。

在这个示例中，定向交互部件120可使用免提装置220的摄像机装置连续地捕捉用户210的图像。定向交互部件120随后可执行所捕捉图像的面部辨识分析以识别图像内的用户210的面部，并且定向交互部件120随后可确定用户的眼睛250当前是否正看向免提装置220的方向。这个过程可重复，直到定向交互部件120检测到用户正看向免提装置220的方向，在这一刻，其上部署有定向交互部件120的免提装置220可退出睡眠状态。在一个实施方案中，定向交互部件120可提供睡眠状态已被打破的确认(例如，输出可听声音来证实免提装置220现被唤醒并且正收听语声命令)。

为了本示例的目的，假设定向交互部件120已检测到用户的眼睛250直接看着免提装置220(或大体上看向免提装置220的方向)并且已离开睡眠状态。一旦装置220已离开睡眠状态，用户210便已说出待由免提装置执行的、由音频波260表示的语声命令。作为另一个示例，定向交互部件120可被配置来检测视网膜反射以便检测用户眼睛与免提装置的接触。作为又一个示例，定向交互部件120还可被配置来使用免提装置上的一个或多个热传感器以便检测用户以及用户与免提装置进行的眼神接触。更一般来说，与本文所述的功能性一致，可使用适合于确定用户何时正看向免提装置的方向的任何技术。

如上文所论述的，定向交互部件120可使用一个或多个麦克风装置来检测语声命令260，并且可处理由麦克风装置记录的音频数据以识别用户正请求什么内容。定向交互部件120随后可确定对用户请求的响应，并且可在用户210相对于免提装置220的位置的方向上输出确定响应。

例如，定向交互部件120可确定用户的语声指令260是对检索一周中未来一天的天气预报信息的请求。定向交互部件120随后可生成请求天气预报信息的查询并且可将这个查询传输到查询处理部件140。定向交互部件120可接收查询结果并且可确定对语声指令的可听响应(例如，通过使用查询结果的至少一部分来执行文本至语音转换)。

另外，定向交互部件120可确定用户210相对于装置220的位置所处的方向。一般来说，与本文所述的功能性一致，可使用适用于确定用户210相对于装置220的位置而言的位置的任何技术。例如，定向交互部件120可使用多个麦克风装置来记录用户210的语声指令，并且可基于语声命令在记录的每一个中的响度以及指定麦克风装置在免提装置上位于何处的信息来推断用户210相对于装置220的位置而言的位置。

一旦定向交互部件120确定用户所处的方向，定向交互部件120便可使用超定向扬声器来在确定方向上输出确定的可听响应，正如音频波230所示的。有利地，通过使用超定向扬声器，定向交互部件120可将可听响应输出为可操纵声束，从而使得只有用户210和紧邻用户210的那些人可以听见所述可听响应。因此，在这个示例中，可听响应230对于用户240而言可以是听不见的，即使用户210和240位于同一房间中。这样做会避免来自免提装置220的可听响应的播放打扰用户240，而同时也通过不输出整个房间可听见的可听响应来维持用户210的隐私。

图3是流程图，其示出根据本文所述的一个实施方案的、用于处理免提装置处的语声指令的方法。如图所示，方法300在方框310处开始，其中定向交互部件120从第一免提装置处的用户接收语声指令。例如，定向交互部件120可通过分析由免提装置的麦克风装置记录的数据来检测语声命令。在语声命令由免提装置的多个不同麦克风装置记录的情况下，定向交互部件120可选择麦克风装置中的一个所记录的数据来分析以便检测语声指令。在一个实施方案中，定向交互部件120被配置成在检测语声指令时分析来自麦克风装置中的每一个的数据。

在接收语声指令时，定向交互部件120确定用户相对于第一装置的当前位置所处的方向(方框315)。例如，定向交互部件120可确定接收语声指令的方向并且可确定用户位于同一方向上。作为一个示例，定向交互部件120可分析来自免提装置的多个麦克风中的每一个的数据，并且可使用这个数据连同关于麦克风装置中的每一个在手提装置上定位于何处的信息来确定语声指令的原始方向。例如，对于麦克风装置中的每一个的记录数据而言，如果对应声音数据中的语声命令相对较为响亮，那么定向交互部件120可确定用户更有可能位于相应麦克风所处的方向上，并且如果对应声音数据中的语声命令相对较为安静，那么可确定用户不太可能位于相应麦克风所处的方向上。定向交互部件120可利用从麦克风装置中的每一个捕捉的音频数据来重复这个过程，以便推断用户相对于第一装置的位置。应注意，此类实施方案可配置有在特定方向上具有已知敏感性的一个或多个麦克风，这正好与在所有方向上具有大致相同敏感性的全向麦克风相反。这样做会允许定向交互部件120使用麦克风装置的已知敏感性来确定语声命令所来源的方向。

作为另一个示例，定向交互部件120可基于麦克风阵列而使用声源定位技术来确定语声命令所来源的方向。在此类实施方案中，麦克风阵列可通过处理来自麦克风阵列内的单个麦克风的信号来感测传入语声命令的方向。然而，更一般来说，与本文所述的功能性一致，可使用用于确定语声命令所来源的方向的任何技术。

另外，定向交互部件120处理语声指令以确定语声指令所指定的用户请求(方框320)。例如，定向交互部件120可执行所记录的语声指令的语音辨识分析并且可基于语音辨识分析来生成文本串。定向交互部件120随后可解析文本串以确定用户请求。一般来说，用户请求表示任何命令、问题或者用户可给予免提装置的其他指示。此类用户请求的示例包括但不限于执行特定动作的明确指令(例如，开始播放特定播放列表的指令)以及请求一条特定信息的问题(例如，对于明天天气会是什么样的请求、对于John在明天下午两点是否有空的问题，等等)。

定向交互部件120随后确定对于语声指令的可听响应(方框325)。一般来说，定向交互部件120如何确定对于语声指令的适当响应取决于语声指令的内容。例如，如果语声指令指定开始播放来自特定播放列表的音乐，那么定向交互部件120可确定适当的可听响应是请求的简短证实，紧跟的是所请求音乐的播放。作为另一个示例，如果语声指令指定确定明天天气预报的内容，那么定向交互部件120可生成被配置来检索详细描述明天天气预报的查询结果的查询，并且在接收查询结果时，可通过将文本至语音转换应用到查询结果的至少一部分来生成可听响应。

定向交互部件120随后在确定方向上输出可听响应(方框330)，并且方法300结束。例如，定向交互部件120可将可听响应输出为对准用户相对于免提装置所处的方向的可操纵声束。为了完成这一点，定向交互部件120可使用免提装置上的波束成形扬声器阵列和/或一个或多个致动的定向扬声器，以便在用户的方向上聚焦发射的音频波。也就是说，免提装置上的定向交互部件120可使用抛物面反射器以致使来自扬声器的音频波具有多个方向，从而将发射的音频波聚焦成可操纵声波(例如，定向在语声命令所来源的方向上)。通过这样做，定向交互部件120能够输出可听响应，从而使得大体上只有用户和紧邻所述用户的其他人可以听见所述可听响应，从而允许用户更容易且更舒适地使用免提装置而不打扰其他人。

图4是流程图，其示出根据本文所述的一个实施方案的、通过向查询处理部件提交查询来处理免提装置处的语声指令的方法。如图所示，方法400在方框410处开始，其中用户说出请求待由免提装置执行的动作的语声指令。定向交互部件120检测所说出的语声指令(方框415)并且处理语声指令以便进行确定(方框420)。例如，定向交互部件120可使用免提装置上的多个麦克风装置来检测所说出的语声指令，并且定向交互部件120随后可处理麦克风装置所记录的音频数据以解译语声指令。作为一个示例，定向交互部件120可执行所记录的音频数据的语音辨识分析以便生成文本串，并且定向交互部件120随后可分析文本串以便确定所说出的语声指令正请求的内容。

在这个示例中，假设用户已向免提装置询问明天的天气预报如何。在处理语声指令以确定用户正在询问关于明天的天气时，定向交互部件120基于语声指令来生成查询并且提交所述查询以供执行(方框425)。在这个实施方案中，查询是由查询处理部件接收，所述查询处理部件处理查询以产生查询结果(方框430)并且随后将查询结果返回给免提装置(方框435)。例如，查询处理部件可表示在云计算环境中运行的、能够接收和处理查询的web应用程序。

在一个实施方案中，查询处理部件表示在免提装置本身上运行的逻辑。例如，在此类实施方案中，查询处理部件可通过使用互联网搜索引擎来执行搜索并且随后处理搜索的结果(例如，由搜索引擎返回的一个或多个网页)而处理查询以便生成查询结果。例如，查询处理部件可被配置来从搜索引擎所返回的网页提取相关的天气信息并且可将天气信息作为查询结果返回。

定向交互部件120随后接收查询结果并且基于查询结果来确定响应(方框440)。例如，在这个示例中，定向交互部件120可确定向用户提供明天天气预报综述的可听响应。定向交互部件120还确定用户相对于免提装置的当前位置所处的方向(方框445)。例如，当用户说出语声指令时，定向交互部件120可基于免提装置的麦克风装置所记录的音频数据来确定用户的位置，并且可基于每个麦克风中的语声指令的响度以及指定麦克风中的每一个在免提装置上定位于何处的信息来推断用户相对于装置所处的方向。作为另一个示例，定向交互部件120可使用免提装置上的各个摄像机装置来捕捉图像，并且定向交互部件120可识别所捕捉图像中的至少一个内的用户面部。定向交互部件120随后可基于图像内的用户面部的位置以及指定各个摄像机装置的相应位置的信息来确定用户的方向。当然，此类示例仅为了说明目的而提供并且不具有限制性。更一般来说，与本文所述的功能性一致，可使用用于确定用户相对于免提装置的位置所处的方向的任何技术。

一旦确定方向，定向交互部件120便输出被投射在确定方向上的响应(方框450)，并且完成了方法400的所描绘迭代。当然，应了解，可执行方法400的任意数量的迭代，或者所述过程可继续，例如，随着定向交互部件120检测来自用户的另外语声指令。

如上文所论述的，定向交互部件120可使用免提装置的一个或多个音频输出装置，以便将响应输出为对准于确定方向的可操纵声束。此类音频输出装置的示例包括免提装置内的波束成形扬声器阵列和一个或多个致动的定向扬声器。此外，可以预料的是，定向交互部件120可使用安装在来自免提装置的单独硬件部件上和/或佩戴在用户身体上(佩戴在身体上的定向扬声器)的定向扬声器来输出确定的响应。

此外，在确定方向上投射可听响应以外，除了或代替所述可听响应，定向交互部件120还可被配置来提供其他定向输出。例如，定向交互部件120可被配置来使用(例如)可操纵微型投影仪而针对用户的请求提供视觉响应，其中所述可操纵微型投影仪可用来以用户可见的方式投射视觉内容(例如，文本、图像、视频等)。此处，定向交互部件120可基于用户相对于免提装置所处的确定方向来定向所述投射。在一个实施方案中，定向交互部件120被配置来基于用户所处的方向并且进一步基于附近物理环境中可用的多个表面而确定将要投射视觉内容的位置，其中定向交互部件120被配置来选择适合于投射的且被确定处于用户视野内的所述多个表面中的一个。

在一个实施方案中，定向交互部件120可检测到用户正戴着入耳式或贴耳式音频装置，如耳塞、头戴式耳机、头戴式受话器、入耳式监听器、入耳式助听器、入耳式音频增强器等。在此类实施方案中，不是将响应投射为用户方向上的可操纵声束，而是定向交互部件120可将响应音频传输到用户的头戴式耳机。通过这样做，定向交互部件120有助于确保用户听见所投射的音频响应并且也会降低用户附近的其他人听见音频响应的机率。因此，定向交互部件120可避免确定响应的输出打扰用户附近的其他人，同时也改善了系统的安全性(例如，在用户不希望其他人无意中听到可听响应的情况下)。

图5是框图，其示出根据本文所述的一个实施方案的、配置有定向交互部件的免提装置。在这个示例中，免提装置500非限制性地包括处理器505、存储器510、I/O装置520、网络接口525以及触敏显示装置530。一般来说，处理器505检索并执行存储在存储器510中的编程指令。处理器505被包括来代表单个CPU、多个CPU、具有多个处理核心的单个CPU、具有多个执行路径的GPU等。存储器510一般被包括来代表随机存取存储器。网络接口525使得免提装置500能够连接到数据通信网络(例如，有线以太网连接或802.11无线网络)。装置500还可包括用于与其他装置通信的蓝牙收发器模块。此外，虽然所描绘的实施方案示出免提装置500的部件，但是本领域普通技术人员将认识到，实施方案可使用各种不同的硬件结构。此外，可明确地预料到，实施方案可使用能够执行本文所述功能的任何装置或计算机系统来实施。

存储器510表示大得足以存有必要程序和数据结构的任何存储器。存储器510可以是存储装置中的一个或组合，所述存储装置包括随机存取存储器、非易失性或备份存储器(例如，可编程或快闪存储器、只读存储器等)。另外，存储器510可视为包括物理上位于其他地方的存储器；例如，处于通信地耦接到免提装置500的另一个计算机或装置上。作为说明性地，存储器510包括操作系统515和定向交互部件120。操作系统515一般控制所述装置500上的应用程序的执行。操作系统515的示例包括UNIX、Microsoft

操作系统的版本和

操作系统的分布。操作系统515的另外示例包括用于游戏控制台的定制操作系统，包括用于诸如Nintendo

和Sony

等系统的定制操作系统以及被配置用于移动装置的操作系统(如Apple

)。

I/O装置520表示各种各样的输入和输出装置，包括显示器、键盘、触摸屏等。例如，I/O装置520可包括用于控制所述装置500的一组按钮、开关或其他物理装置机构。例如，I/O装置520可包括用来控制使用装置500把玩的视频游戏的方面的一组定向按钮。在本公开的上下文中，I/O装置520可包括被配置来投射可操纵声束的至少一个音频输出装置。此类I/O装置520的示例包括波束成形扬声器阵列和致动的定向扬声器。然而，更一般来说，与本公开一致，可使用能够投射定向声束的任何装置。另外，如上文所论述的，除了或代替音频投射，一些实施方案还可投射视觉内容。例如，此类实施方案可配置有能够将视觉内容投射到物理环境中的可操纵微型投影仪。然而，更一般来说，可使用能够投射视觉内容的任何装置。此外，I/O装置520可包括用于检测用户动作和用于确定用户相对于装置500所处的方向的摄像机装置和麦克风。触敏显示器530可用于为装置500输出图形用户界面(例如，由操作系统515生成的界面)并且也可用来检测装置500的用户所执行的手势。

如上文所论述的，定向交互部件120可被配置来检测第一用户所执行的动作。此类动作的示例可包括(例如)由用户说出的可听语句以及用户注视装置500的方向。定向交互部件120可确定第一用户相对于设备的当前位置所处的方向。例如，定向交互部件120可使用I/O装置520(例如，摄像机、麦克风等)连同指定此类I/O装置520物理地定位在免提装置上何处的信息来确定接收用户动作的方向。定向交互部件120还可确定对于用户动作的可听响应。例如，定向交互部件120可确定用户所说出的可听语句是询问明天天气如何的请求，并且定向交互部件120可发出用以检索与明天的日期相关联的天气信息的查询并且可生成可听响应(例如，使用文本至语音合成器)以便将这个天气信息呈现给用户。定向交互部件120随后可使用I/O装置520来在第一用户所处的确定方向上将确定的可听响应输出为可操纵声束。这样做会为装置500的用户提供真正的免提体验。

在前述内容中，参考本发明的实施方案。然而，应理解，本公开不限于具体描述的实施方案。相反，不管是否与不同的实施方案相关，前述特征和元件的任何组合预期会实施和实践本发明。此外，尽管本发明的实施方案可达成超越其他可能解决方案和/或超越现有技术的优点，但是特定优点是否由给定实施方案达成并不限制本公开。因此，除非在权利要求书中明确指出，否则前述方面、特征、实施方案和优点仅是说明性的并且不视为所附权利要求书的要素和限制。同样地，除非在权利要求书中明确指出，对“本发明”的引用不应解释为对本文所公开的任何发明主题的概括并且不应视为所附权利要求书的要素和限制。

如本领域技术人员将了解的，本文所述的方面可体现为系统、方法或计算机程序产品。因此，本文所述的方面可以采用以下形式：完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)，或者将软件与硬件方面组合的实施方案，所述实施方案在本文中一般都可以称为“电路”、“模块”或“系统”。此外，本文所述的方面可采用体现在一个或多个计算机可读介质中的计算机程序产品的形式，所述计算机可读介质具有体现于其上的计算机可读程序代码。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是(例如)但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置或者前述系统、设备或装置的任何合适组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下各项：具有一个或多个导线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或快闪存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁性存储装置或前述各项的任何合适组合。在本文档的上下文中，计算机可读存储介质可以是可含有或存储供指令执行系统、设备或装置使用或者与所述指令执行系统、设备或装置结合使用的程序的任何有形介质。

计算机可读信号介质可以包括(例如)处于基带中或作为载波一部分的传播数据信号，而其中体现有计算机可读程序代码。此类传播信号可以采用各种形式中的任何一种形式，包括但不限于电磁、光学或其任何合适组合。计算机可读信号介质可以是任何计算机可读介质，其并非计算机可读存储介质并且可以递送、传播或传送供指令执行系统、设备或装置使用或者与所述指令执行系统、设备或装置结合使用的程序。

体现在计算机可读介质上的程序代码可以使用任何适当的介质来传输，所述介质包括但不限于无线、有线线路、光纤电缆、RF等或前述各项的任何合适组合。

用于进行本发明方面的操作的计算机程序代码可以用一种或多种编程语言的任何组合来编写，所述编程语言包括面向对象的编程语言，如Java、Smalltalk、C++等，以及常规程序性编程语言，如“C”编程语言或类似的编程语言。程序代码可以完全在用户的计算机上运行、部分地在用户的计算机上运行、作为独立的软件包运行，部分地在用户的计算机上且部分地在远程计算机上运行，或者完全在远程计算机或服务器上运行。在后一种情景中，远程计算机可通过包括局域网(LAN)或广域网(WAN)等的任何类型的网络连接到用户的计算机，或者可与外部计算机形成连接(例如，使用互联网服务提供商而通过互联网)。

上文中参考根据本发明的实施方案的方法、设备(系统)和计算机程序产品的流程图图解和/或框图来描述本发明的方面。应理解，流程图图解和/或框图的每个方框以及流程图图解和/或框图中的方框的组合可以由计算机程序指令来实施。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以便产生一种机器，从而使得经由计算机或其他可编程数据处理设备的处理器运行的指令会建立用于实施流程图和/或框图的一个或多个方框中所指定的功能/动作的方式。

还可以将这些计算机程序指令存储在可引导计算机、其他可编程数据处理设备或其他装置以特定方式发挥作用的计算机可读介质中，从而使得存储在计算机可读介质中的指令产生一种制品，所述制品包括实施流程图和/或框图的一个或多个方框中所指定的功能/动作的指令。

计算机程序指令也可以加载到计算机、其他可编程数据处理设备或其他装置上以便致使在所述计算机、其他可编程装置或其他装置上执行一系列操作步骤来产生计算机实施的过程，从而使得在计算机或其他可编程设备上运行的指令提供用于实施流程图和/或框图的一个或多个方框中所指定的功能/动作的过程。

本发明的实施方案可以通过云计算基础设施来提供给最终用户。云计算一般是指在网络上将可扩展计算资源作为服务来提供。更正式而言，云计算可以定义为一种计算能力，所述计算能力在计算资源与其底层技术架构(例如，服务器，储存器、网络)之间提供抽象概念，从而能够对可配置计算资源共享池进行便捷的按需网络访问，所述可配置计算资源共享池可以用最小的管理努力或服务提供商互动来快速提供和释放。因此，云计算允许用户访问“云”中的虚拟计算资源(例如，储存器、数据、应用程序以及甚至完整的虚拟化计算系统)，而不考虑用来提供计算资源的底层物理系统(或那些系统的位点)。

通常，云计算资源是在即用即付的基础上提供给用户，其中仅针对实际使用的计算资源(例如，用户所消耗的存储空间量或用户所实例化的虚拟化系统数量)来向用户收费。用户可以在任何时间、从互联网上的任何地方来访问驻留于云中的任何资源。在本发明的上下文中，定向交互部件120可基于用户所说出的语声命令说出生成查询，并且可将生成的查询提交给在云计算环境中运行的查询处理部件。定向交互部件120随后可从查询处理部件接收查询结果，并且可基于查询结果的至少一部分生成可听响应来输出给用户。这样做会允许用户从以真正的免提方式附接到网络的任何计算装置提交查询，其中所述网络连接到云(例如，互联网)。

图示中的流程图和框图示出根据本发明的各种实施方案的系统、方法和计算机程序产品的可能实现方式的架构、功能性和操作。在这方面，流程图或框图中的每个方框可以表示代码的模块、区段或部分，其包括用于实施所指定逻辑功能的一个或多个可执行指令。也应注意的是，在一些替代性实现方式中，方框中所注明的功能可以不按图中所注明的顺序发生。例如，取决于所涉及的功能性，连续展示的两个方框实际上可大致同时执行，或者所述方框有时可以按相反顺序或不按顺序执行。还应当注意的是，框图和/或流程图图解中的每个方框以及框图和/或流程图图解中的方框的组合可以由执行指定功能或动作的、基于专用硬件的系统或者由专用硬件和计算机指令的组合来实施。

虽然前述内容是针对本发明的实施方案，但是在不背离本发明的基本范围的情况下可以设计本发明的其他和进一步的实施方案，并且本发明的范围是由所附权利要求书来决定。

Claims

1.一种用于与用户交互的方法，包括：

检测请求与第一装置交互并且来源于源的用户动作；

基于一个或多个图像中的所述用户的面部的方向，确定所述源相对于所述第一装置的当前位置所处的方向；

基于所述第一装置的当前状态来确定对所述用户动作的响应；

在所确定的所述源所处的方向上作为可操纵声束来输出所确定的响应；

从所述第一装置附近的环境中的多个物理表面中选择第一物理表面，其中所述第一物理表面处于所述用户视野内；以及

使用可操纵投影仪，将视觉内容投射到所述第一物理表面上。

2.如权利要求1所述的方法，还包括：

通过所述第一装置的一个或多个传感器装置的操作来检测用户目光定向在所述第一装置的方向上，所述检测包括：

捕捉包括所述源的一个或多个图像；

分析所述捕捉的一个或多个图像以识别所述一个或多个图像中的一个图像内的面部；以及

基于所述一个或多个图像内的所识别的面部来确定所述用户目光是否定向在所述第一装置的所述方向上。

3.如权利要求1所述的方法，其中所述响应包括一个或多个帧，并且其中在所确定的所述源所处的方向上输出所确定的响应还包括：

在所述源的观察范围内确定物理表面；以及

使用所述第一装置的投影仪装置来将所述一个或多个帧投射到所述物理表面上。

4.如权利要求1所述的方法，其中所述用户动作包括语声命令，并且所述方法还包括：

分析所述语声命令以确定与所述语声命令对应的用户请求；以及

处理所述用户请求以产生结果，

其中所确定的响应提供所产生的结果的至少一个指示。

5.如权利要求4所述的方法，其中处理所述用户请求以产生结果还包括基于所述用户请求来生成可执行查询，并且其中处理所述用户请求以产生结果还包括执行所述可执行查询以产生查询结果，并且其中确定对所述用户动作的所述响应是基于与所述查询结果的至少一部分相关联的文本而使用文本至语音合成器来执行的。

6.一种用于与用户交互的方法，包括：

检测触发事件，包括以下至少一项：

检测语声触发；以及

检测第一装置的方向上的用户目光；

基于一个或多个图像中的所述用户的面部的方向，确定所述触发事件的源相对于所述第一装置的当前位置的方向；

通过在所确定的所述触发事件的所述源所处的方向上将可听响应作为可操纵声束输出来发起交互式语声对话；

7.如权利要求6所述的方法，还包括：

通过所述第一装置的一个或多个传感器的操作来检测所述用户目光定向在所述第一装置的所述方向上。

8.如权利要求6所述的方法，还包括：

分析所述语声触发以确定与所述语声触发对应的用户请求；以及

处理所述用户请求以产生结果，

其中所确定的可听响应提供所产生的结果的至少一个指示。

9.如权利要求8所述的方法，其中处理所述用户请求以产生结果还包括基于所述用户请求来生成可执行查询，并且其中处理所述用户请求以产生结果还包括执行所述可执行查询以产生查询结果，并且其中确定对所述用户请求的可听响应是基于与所述查询结果的至少一部分相关联的文本而使用文本至语音合成器来执行的。

10.如权利要求6所述的方法，还包括：

使用所述第一装置的一个或多个传感器装置来捕捉包括所述触发事件的所述源的描绘的一个或多个图像；以及

基于所捕捉的一个或多个图像的至少一部分与预定义图像的比较来验证所述触发事件的所述源。

11.如权利要求6所述的方法，还包括：

基于所述语声触发与预定义语声记录的比较来验证所述触发事件的所述源。

12.一种用于与用户交互的设备，其包括：

计算机处理器；

存储器，其包含程序，当由所述计算机处理器运行时，所述程序执行包括以下各项的操作：

检测来源于源的用户动作；

基于一个或多个图像中的所述用户的面部的方向，确定所述源相对于所述设备的当前位置所处的方向；

确定对所述用户动作的响应；以及

从第一装置附近的环境中的多个物理表面中选择第一物理表面，其中所述第一物理表面处于所述用户视野内；以及

13.如权利要求12所述的设备，其中所述一个或多个扬声器包括波束成形扬声器阵列。

14.如权利要求12所述的设备，其中所述一个或多个扬声器包括一个或多个被致动的定向扬声器。

15.如权利要求12所述的设备，所述操作还包括：

当检测到与关联于触发事件的所述源的、佩戴在身体上的音频输出装置的连接可用时，使用所述佩戴在身体上的音频输出装置来通过所述连接输出所确定的响应以便进行播放。

16.如权利要求12所述的设备，其中确定所述源相对于所述设备的当前位置所处的方向还包括：

使用所述设备的一个或多个传感器装置来捕捉一个或多个图像；

处理所述一个或多个图像以识别使用所述一个或多个传感器装置中的第一传感器装置捕捉的所述一个或多个图像中的第一图像内的所述源；以及

基于所述源在所述第一图像内的位置以及所述第一传感器装置在所述设备上的已知位置来确定所述源所处的方向。

17.如权利要求16所述的设备，所述操作还包括：

使用所述第一装置的一个或多个传感器装置来捕捉包括所述源的一个或多个图像；以及

基于所捕捉的一个或多个图像的至少一部分与预定义图像的比较来验证所述源。

18.如权利要求17所述的设备，其中基于所捕捉的一个或多个图像的至少一部分与第一用户的预定义图像的比较来验证所述源还包括：

基于所捕捉的一个或多个图像的至少一部分和所述第一用户的所述预定义图像来执行所述第一用户的面部辨识分析。

19.如权利要求17所述的设备，其中基于所捕捉的一个或多个图像的至少一部分与第一用户的预定义图像的比较来验证所述第一用户还包括：

基于所捕捉的一个或多个图像的所述至少一部分和所述第一用户的所述预定义图像来执行所述第一用户的视网膜扫描分析。