CN109643158A

CN109643158A - 使用多模态信号分析进行命令处理

Info

Publication number: CN109643158A
Application number: CN201780050117.2A
Authority: CN
Inventors: W·金茨勒; D·A·鲍曼
Original assignee: Apple Computer Inc
Current assignee: Apple Inc
Priority date: 2016-08-15
Filing date: 2017-08-15
Publication date: 2019-04-16
Anticipated expiration: 2037-08-15
Also published as: EP3485351A1; EP3485351B1; KR102225411B1; CN115273252A; US10832031B2; CN109643158B; US20210081650A1; WO2018035111A1; KR20190030731A; US20180046851A1

Abstract

在时间间隔期间从个体收集与第一信号模态(诸如，注视的所述方向)相对应的第一组信号。还收集与不同信号模态(诸如，由所述个体作出的手指向姿态)相对应的第二组信号。响应于命令，其中所述命令不识别所述命令所指向的特定对象，所述第一组信号和所述第二组信号用于识别所关注的候选对象，并且执行与从所述候选对象中选定对象相关联的操作。

Description

使用多模态信号分析进行命令处理

技术领域

本公开整体涉及被设计用于检测和响应自然人类移动和会话查询的系统，并且更具体地涉及被设计用于识别个体所关注的实体并对其采取动作的系统，识别方法是利用从若干类型信号(诸如，姿态和注视方向)的组合得到的可能不精确的提示。

背景技术

若干系统(包括一些计算机游戏系统)已经实现检测特定类型的人类姿态或移动的技术。然而，在许多情况下，这些系统中对移动和语音的解释通常限于非常特定的领域(诸如，正在播放的特定游戏，或需要握在手中的特定输入设备的移动)和位置(例如，与系统交互的个体可能必须位于单个房间中的特定相机角度范围内)。尽管一些虚拟现实系统可使得用户能够沉浸在选定环境中，但可在此类系统内使用自然人类行为以用于一般目的的程度也受到最大的限制。

发明内容

本发明描述了用于使用多模态信号分析来处理个人的(例如，以自然语言表达的)命令和查询的方法和装置的各种实施方案。在至少一些实施方案中，该方法可包括在至少特定时间间隔期间获取与第一信号模态(例如，个体注视的方向)相对应的第一组信号。该方法还可包括获取与不同信号模态(诸如，手指向姿态或头部移动诸如点头)相对应的第二组信号。在一些实施方案中，获取的数据组中的一者或两者可包括定时信息，例如，数据组中可指出作出各种姿态或注视方向保持稳定一段时间的特定时间。响应于命令，例如来自个体的口头命令，该命令未明确地、决定性地或最终地识别命令所指向的目标对象，该方法可包括利用第一数据组和/或第二数据组来识别所关注的一个或多个候选对象以及使得执行与一个或多个候选对象中的选定对象相关联的操作。在至少一些实施方案中，在至少某个时间段内，与模态中的一者或多者相对应的有用信号数据可能丢失，在这种情况下，可利用可用数据来识别候选对象。例如，在注视和姿态为选择的模态的实施方案中，如果在某个时间段内注视信号不可用但姿态信号可用，则可使用姿态信号(反之亦然)。如果在与命令相关联的某个时间段内注视数据和姿态数据均不可用，但个体的外部环境的视频可用，则可在没有任何定向性特征的情况下尽最大努力仅根据视频来识别所关注的候选对象。在一些实施方案中，命令可以除语音或声音之外的模态来表达：例如，经由手语或使用触摸屏界面。一般来讲，在各种实施方案中使用的技术可涉及响应命令或查询来分析与各种信号模态中的任一者相对应的信号，并且不限于特定模态诸如姿态、注视或语音。

如本文所用，术语对象通常可指无生命的事物、有生命的实体(包括例如动物、人或植物)和/或地点，其中任一者均可表示命令所指向的目标。在一些情况下，操作可简单地包括命名选定对象—例如，如果命令包括语音查询“那曾是什么？”，则响应可包括通过产生语音响应诸如“那曾是美洲驼”来提供名称或标识符。在其他情况下，可执行更复杂的操作—例如，响应于被配备为自动停放的汽车中的个体发布的命令“停放在那里”，该方法可包括识别与字词“那里”相对应的停车位以及在识别的停车位处发起车辆的停放。一般来讲，在各种实施方案中，可基于对自然移动和自然语言的分析来识别目标对象或地点并对其采取动作，而不需要个体使用受限的一组界面。不精确的语言，诸如包括“这”或“那”的指示代词或相对地点的副词诸如“这里”或“那里”可用于各种实施方案中的命令中，并且计算设备处理命令的责任之一可包括以一定的准确度和及时性水平识别命令所指向的非精确指示的对象。

在一些实施方案中，该方法可包括确定命令涉及过去的时间点，并且利用缓冲的信号数据(与在检测或处理命令的时间之前的选定时间窗口相对应)来响应命令。在一些情况下，在发起操作时，被识别为此类命令的目标的特定对象可能不再对个体可见(或者不再可供个体查看)。在各种实施方案中，可采用各种各样的信号源—例如，可使用位于车辆内的相机、麦克风等；可使用智能电话传感器；可使用虚拟现实(VR)或增强现实(AR)设备，诸如头戴式耳机或眼镜；可使用其他可穿戴设备诸如手表或健身跟踪器，等等。对于姿态信号而言，例如，除摄影机和/或静物相机之外，在不同实施方案中还可使用各种其他源，诸如深度相机、惯性传感器、电磁信号检测器、超声信号检测器、雷达信号检测器等。类似地，对于注视检测而言，除静物相机和/或摄影机之外，在一些实施方案中还可使用不是基于相机的光学传感器或EMG(肌电图)传感器。在一些情况下，可统一检查从若干不同类型的源或传感器收集的信号以处理命令—例如，可将从汽车内的相机收集的信号与从由汽车内的个体握持的电话设备收集的信号组合/相关联。在不同实施方案中，可使用各种界面或通信技术来提供对命令的响应，包括例如触摸屏、语音合成器等。在一些实施方案中，响应给定命令，可并行处理从多个源收集的信号数据。

在一个实施方案中，系统可包括一个或多个传感器设备和一个或多个命令处理设备。传感器设备可收集例如与一个或多个个体有关的注视和/或姿态数据组(或与各个信号模态相对应的其他类型的数据组)。至少一个数据组可包含指示碰巧吸引个体的注意力的一个或多个对象所曾处(或所处)的方向的信息。响应于命令，命令处理设备可分析由传感器设备收集的数据组，识别命令可指向的所关注的一个或多个候选对象或实体，并且使得与从候选对象中选择的特定对象或实体相关联的至少一个操作被执行。在一些实施方案中，可在收集传感器数据的相同设备中的一些设备处执行命令处理操作中的至少一些操作。在不同实施方案中，响应于命令，可执行各种各样的操作，诸如命名选定对象、拍摄对象照片或视频、翻译与选定对象有关的符号或字词、停放或驾驶车辆、指示街道或公路标志的内容(在一些情况下还可能涉及语言翻译)等等。在各种实施方案中，例如使用一组规则或启发法或机器学习模型，命令处理设备可将相应的预测关注性得分或相关性得分分配给不同的候选对象，并且至少部分地基于其得分从候选对象中选择对象。在一些情况下，可能不正确地识别了选定为命令的目标对象的特定对象，并且发布命令的个体可提供指示选定对象不是命令所指向的对象的反馈。在此类情景中，在一些实施方案中，可采用迭代方法，其中可按顺序对不同对象(例如，基于它们各自的关注性得分从原始的候选对象组或从新的候选对象组选择的对象)采取动作，直到命令完成(或直到处理设备、命令发布者或这两者作出避免进一步处理命令的决定)。在一些实施方案中，命令处理可包括从一个或多个相机获取静止影像或视频影像，并将选定对象识别算法应用于图像。在各种实施方案中，可利用外部数据库诸如地图数据库(其可指示各种建筑、道路、地理/地质特征部等的位置)、产品数据库(诸如，包含各种车辆模型或动物的图像的数据库)和/或其他数据库(例如，联系人列表或其他个人资料信息)来处理至少一些命令。在至少一个实施方案中，命令可包括对关于所关注的对象的特定细节的请求(例如，“那家餐馆的营业时间是多少？”)。为了响应此类命令，可采用基于互联网的数据源诸如搜索引擎。

根据一些实施方案，非暂态存储介质可包括程序指令，当在一个或多个处理器上执行时，该程序指令获取并分析指示来自一个或多个个体的相应信号模态的数据组。该分析可用于识别所关注的候选对象，并且可例如响应于命令来对所关注的选定对象执行操作。在一个实施方案中，所关注的选定对象可为在虚拟现实(VR)或增强现实(AR)环境中定义的虚拟对象。在各种实施方案中，命令的处理可包括对从不同源收集的数据组的基于时间和/或空间相关性的分析，例如，这些源包括一个或多个传感器设备，诸如附接到或结合在车辆内的相机。

附图说明

图1示出了根据至少一些实施方案的示例性系统环境，其中响应由个体发布的可能不精确的自然语言查询或命令，可统一分析从个体获取的多种类型的信号，包括姿态数据和注视数据。

图2示出了根据至少一些实施方案的示例性车辆环境，包括可收集数据的多个传感器，响应来自车辆乘员的口头请求，该数据可被分析。

图3示出了根据至少一些实施方案的示例时间线，该时间线示出了可缓冲信号以便响应涉及在处理查询时可能不再可见的对象的查询的时间段。

图4示出了根据至少一些实施方案的将相应关注性得分分配给多个所关注的候选对象的示例。

图5示出了根据至少一些实施方案的可包括姿态检测器、注视检测器和/或本地命令处理器的便携式设备的示例。

图6示出了根据至少一些实施方案的命令处理器与查询或命令的源之间的消歧相关交互的示例。

图7示出了根据至少一些实施方案的示例性命令和/或查询，该命令和/或查询可涉及被设计为解释包括姿态和注视变化的多模态信号的系统。

图8示出了根据至少一些实施方案的获取并分析多模态信号的命令处理器的示例性子部件。

图9是示出根据至少一些实施方案的操作的各方面的流程图，响应自然语言命令和查询，该操作可在检测和解释多模态信号的系统处执行。

图10是示出根据至少一些实施方案的示例性操作的各方面的流程图，可执行该示例性操作，以在其中来自一个或多个信号源的数据可能至少暂时不可用或降级的情景中识别所关注的候选对象。

图11示出了根据至少一些实施方案的示例性情景，其中可在建筑的房间内执行多模态信号分析。

图12是示出可在至少一些实施方案中使用的示例性计算设备的框图。

尽管本文借助若干实施方案和例示性附图的示例描述了实施方案，但本领域技术人员将认识到，该实施方案并不限于所述的实施方案或附图。应当理解，附图和对其的详细描述并不旨在将实施方案限制为所公开的特定形式，而相反，本发明旨在涵盖落入所附权利要求书定义的实质和范围内的所有修改、等同物和另选方案。本文所用的标题仅用于组织目的，并不旨在用于限制说明书或权利要求书的范围。如在整个本专利申请中所使用的那样，以允许的意义(即，意味着具有可能性)而非强制的意义(即，意味着必须)使用字词“可”。类似地，字词“包括”意味着包括但不限于。当在权利要求书中使用时，术语“或”用作包含性的“或”而非排他性的“或”。例如，短语“x、y或z中的至少一者”意指x、y和z中的任一者以及它们的任何组合。

具体实施方式

图1示出了根据至少一些实施方案的示例性系统环境，其中响应由个体发布的可能不精确的自然语言查询或命令，可统一分析从个体获取的多种类型的信号，包括姿态数据和注视数据。如图所示，系统100可包括用于检测人类移动和其他人类行为的若干类型的信号检测器，包括一个或多个注视检测器150、一个或多个姿态检测器154和一个或多个语音命令/查询检测器152。信号检测器中的各个信号检测器可包括例如相应的传感器设备(例如，如果是注视检测器和姿态检测器，则包括摄影机和/或静物相机；如果是命令/查询检测器，则包括麦克风等等)。对于姿态信号而言，在不同实施方案中可使用各种另外的源，诸如可采用深度相机、惯性传感器、电磁信号检测器、超声信号检测器、雷达信号检测器等。对于注视检测而言，除静物相机和/或摄影机之外，在一些实施方案中还可使用不是基于相机的光学传感器或EMG(肌电图)传感器。注视和姿态均可提供关于可能的所关注的对象的方向信息：例如，在一些实施方案中，可通过从个体眼睛之间的点延伸的三维向量来表示个体在某个时间点的注视，该向量指示个体视线所在的方向(从而可能有助于识别所关注的对象)。在一些实施方案中，可使用除语音/声音之外的信号来检测命令和/或查询—例如，手语可用于命令或者触摸屏界面可用于指示命令的至少一部分。在各种实施方案中，给定信号检测器还可包括硬件和/或软件，其能够对所收集的信号执行至少一些初始级别的分析或过滤，缓冲所收集的信号，将时间戳或其他定时指示符分配给各组信号或单独的信号，接收与信号的收集、分析或过滤相关联的配置指令或命令，以及将原始和/或经处理的信号传送到一个或多个目的地。

不同类型的信号(例如，姿态与注视与语音)可被称为相应的信令模式或信号模态，并且响应个体的请求或命令，可将对来自个体的不同模态的信号的组合进行的分析称为多模态信号分析；因此，在本文中，可将类似于图1中所示的那些的系统称为多模态信号分析系统。例如基于下述各项的某种组合，可将一种信号模态与另一种信号模态区分开来：(a)身体中作为信号源的特定部分(例如，眼睛、手、发声系统)；和/或(b)用于捕获和分析信号(例如，经由摄影机捕获物理移动，然后执行移动分析算法；捕获语音信号，然后执行语音识别和自然语言处理算法)的技术和媒体。尽管注视、姿态和语音是在本文档中最频繁用作示例的模态，但本文所述的技术可应用于与任何期望模态相对应的信号，并且不限于注视、姿态或语音。因此，在系统100中，除用于注视、姿态和语音/声音标记的检测器之外，还可使用或替代地使用用于其他模态的一个或多个检测器156，该其他模态诸如面部表情(包括微笑、皱眉等)、头部取向或移动(包括点头、头部摇晃等)、躯干取向或移动、使用除手之外的身体部位作出的姿态(诸如，耸肩)和/或无意识生理反应/行为(诸如，心率、呼吸率、皮肤电传导等的变化)。如下文在图10的上下文中所讨论的那样，在一些实施方案中，可能能够确定命令144所针对的对象，并且即使在与为系统配备以捕获信号的不同信号模态中的一者或多者相关的有用信息可能不可用的情况下，也可发起操作以完成命令。在各种实施方案中，类似于系统100的系统的一个高级目标可包括经由自动分析向使用自然或正常人类交互和行为表达的至少一些类型的命令或查询提供响应，其响应方式类似于正在会谈的人类将倾向于彼此交互的方式，不需要个体额外麻烦地使用专用命令/查询界面或受限的命令/查询语言。

在所述实施方案中，注视检测器150、姿态检测器154和命令/查询检测器152可捕获由一个或多个个体生成的信号，该一个或多个个体可在捕获信号的某个时间间隔期间处于运动状态。例如，在收集观察数据时，其头140、眼睛和手142被注视检测器150和姿态检测器154捕获的个体可能碰巧坐在移动车辆诸如汽车、摩托车、船或公共汽车中，或者可能碰巧正在行走、跑步或骑自行车。当然，当个体处于静止状态时(例如，如果/当汽车停在交通信号灯处时)，可继续从个体捕获信号。如下文所讨论，观察到的个体随时间的移动可能使得在这种情况下识别个体所提及的对象比在个体静止的情况下识别个体所提及的对象更复杂；然而，信号源的运动并不是成功使用本文所讨论的多模态信号分析技术的必要条件。至少一些信号检测器可存储时间戳或其他定时信息以及原始信号本身—例如，可以使用所收集的信号来确定作出特定姿态的时间和/或布置事件，诸如头部或颈部移动(点头或摇头)、躯干移动(诸如，身体朝向或远离一些对象的弯曲)、注视方向的改变以及按时间顺序的发声查询。

在所述的实施方案中，可检测到许多不同类型的姿态，包括手或手指指向姿态、点头或转头、身体弯曲、眉毛或前额移动等。在一些实施方案中，单独的设备或姿态检测器154可用于相应类型的姿态—例如，一个传感器可用于捕获手指向姿态，另一个传感器可用于一种或多种类型的头部移动诸如点头、倾斜头部或转动头部等。在其他实施方案中，单个相机可用于捕获几种不同的身体移动，并且可处理由该单个相机收集的数据以识别一种或多种类型的姿态。在所述实施方案中，注视检测器150可捕获关于在各个时间点处个体的眼睛正凝视的方向的信息。在一些实施方案中，注视检测器还可捕获特定类型的眼睛移动，诸如平滑跟随(其中，眼睛跟随移动的视觉目标)，自动扫视(其中眼睛在固定点之间快速移动)和/或聚散(其中，改变两只眼睛的取向之间的角度以相对于特定的一组对象保持双眼单视。

命令/查询检测器152可捕获从个体发出的语音通信，诸如所述实施方案中所述的查询“那曾是什么？”144。在一些实施方案中，还可使用或替代地使用并非基于语音的命令/查询界面—例如，可经由触摸屏界面等发布命令。在随后的大部分讨论中，术语“命令”可被认为包含关于源自个体且指向负责响应交互的部件的交互的术语“查询”。例如，查询诸如“那曾是什么？”可被认为是命令的逻辑等价，以提供对问题“那曾是什么？”的答案。如下文所讨论，在至少一些情况下，命令可涉及除对问题的回答之外的动作—例如，命令诸如“将车停放在那里”可使得车辆(由发布命令的个体占用的车辆)停放在与“那里”相对应的位置处。此外，在随后的大部分讨论中，术语“对象”(例如，在短语“所关注的对象”中使用的对象)通常可指无生命的事物、有生命的实体(包括例如动物、人或植物)、地方或它们的组合。例如，如本文所用的短语，一个所关注的对象可包括背着背包(无生命对象)正在遛狗(动物)的个人(人类)，另一所关注的对象可包括用于汽车的停车位等等。

除源自个体的信号之外，在各种实施方案中，还可收集与个体的外部环境有关的多个信号。环境数据源112可包括例如一个或多个外部取向的相机(即，不指向个体或不仅仅指向个体的相机)、全球定位系统(GPS)设备等。在一些实施方案中，至少一些天气相关的数据源(诸如，风速计、温度计等)也可有助于收集关于个体外部环境的数据。

在至少一些实施方案中，可暂时缓冲来自各种信号检测器(关注个体的移动/行为的那些检测器诸如注视、姿态和命令检测器以及关注外部环境的那些检测器)的数据。信号历史缓冲器180可被配置为例如在任何给定时间点处存储与先前的N秒相对应的信号，丢弃或覆写较旧数据。在一个实施方案中，可使用分级的一组信号数据存储设备，其中与N秒相对应的信号存储在第一层设备处，与P分钟的较长持续时间相对应的信号存储在第二层处，等等。在一些实施方案中，可在信号检测器本身处实现至少一些级别的缓冲—即，信号历史缓冲器180的至少一部分可结合在捕获信号的相机或其他设备处。在其他实施方案中，可在单独的存储设备或远程数据中心处实现至少一些缓冲—例如，信号检测器可经由任何期望的无线和/或有线通信路径将收集到的数据传送到远程数据中心以便存储/缓冲。

在所述实施方案中，一个或多个命令处理设备(CPD)185可负责分析从各种源收集的信号，以生成对个体所发布的命令/查询的响应。命令处理设备185也可在本文中称为命令处理器。可例如使用自然语言处理(NLP)算法在CPD 185处解析或解释该命令，以确定需要分析哪些其他数据以准备响应。在一些实施方案中，命令处理设备185可包括多个分布式硬件和/或软件部件—例如，在个体位于车辆中的实施方案中，一些部件可在车辆内运行，而其他部件可在后端数据中心运行。根据特定命令或查询的性质，可例如经由无线通信将处理结果中的至少一些从远程部件传送回本地命令(诸如本地用户界面)，以使得可将结果提供给发布命令的个体。

至少部分地基于对各种信号检测器(包括例如姿态检测器154、注视检测器150和/或外部环境数据源112)提供的数据的组合的分析，命令处理设备185可生成命令144中可能指向的所关注的候选对象的列表188。在至少一个实施方案中，可能能够使用对应组的计算设备来并行地执行对与不同模态相对应的信号数据的处理或分析—例如，注视信号可与姿态信号和/或语音/声音信号同时处理。在一些具体实施中，可将注视变化和/或姿态表示为原始信号经处理版本(例如，在传感器设备本身处或在命令处理设备处产生的版本)中的离散事件。例如，在手姿态数据指示方向(相对于水平面为在0度到360度的角度范围内，并且相对于垂直取向为在-90度到+90度的角度范围内)的实施方案中，姿态数据组的带时间戳离散化版本可包括以下内容：[2016-04-05-09:00:00GMT至2016-04-05-09:00:03GMT：个体A的右食指指向水平角37.5度，垂直角15.2度]、[2016-04-05-09:00:03GMT至2016-04-05-09:00:10GMT：没有来自个体A的姿态]、[2016-04-05-09:00:10GMT至2016-04-05-09:00:12GMT：个体A的左手指向水平角122度，垂直角25度]......等。

在各种实施方案中，命令/查询通常可以自然对话语言来表达，例如，使用指示代词诸如“这”或“那”，相对副词诸如“这里”或“那里”等等。因此，所关注的目标对象(即，在“那曾是什么”中的代词“那”旨在指示的对象)可能并不是直接显而易见的，这使得命令处理设备使用姿态和注视数据(如果此类数据可用)来缩小潜在对象的组，以得到列表188，如下文进一步详细讨论的那样。除由信号检测器收集的传感器数据之外，在至少一个实施方案中，命令处理设备还可利用一个或多个外部数据库诸如对象数据库181来准备候选列表188。对象数据库181可包含例如指示建筑、停车场、地理/地质特征部等的名称和位置(例如，以纬度和经度为单位)的地理地图数据、指示车辆或产品的名称的目录等等。在一些实施方案中，可使用可经由公共互联网(例如，百科全书网站、公共记录网站、政府出版物网站、词典等)访问的数据源来帮助准备对某些类型的命令的响应。在各种实施方案中，命令处理设备185可从所关注的对象的候选列表中选择特定对象，以作为命令中最可能指向的对象。在一些实施方案中，例如基于与检测到的姿态/注视的相关性，基于会话上下文，基于成员对象的预期新颖性或独特性，等等，可将相应的关注性得分或相关性得分分配给至少一些列表成员。得分可用于将特定对象选择为个体发布的命令的可能目标。在如下文进一步详细描述的一些实施方案中，命令处理器可生成消歧请求，实际上要求个体从一组候选对象中选择预期的目标对象。

在所述实施方案中，根据命令或查询的组成，命令处理设备185可生成适当的响应190。可响应于一些命令来采取与所关注的选定对象相关联的操作或动作(例如，可为选定对象拍摄照片或视频)并且/或者可提供视觉或发声响应。在各种实施方案中，响应给定的命令或查询，例如通过调用应用编程接口，命令处理设备可使得一个或多个其他设备(例如，相机、汽车的驱动机构等)或实体来执行一个操作(或多个操作)。在所述实施方案中，可向查询“那曾是什么？”144提供发声响应“那曾是美洲驼”147(大概是因为在最近的时间间隔内，由命令处理设备识别为美洲驼的动物是个体所看见或个体的姿态所指向的动物)。在一些实施方案中可使用语音合成器来响应并且/或者可使用视觉显示器或屏幕。如果响应未令人满意，则在至少一些实施方案中，个体和系统的部件之间可发生进一步的交互。例如，个体可能会说“不，我并不是指动物，我是指建筑”，或简单地说“不，我并不是指美洲驼”。在此类情景中，命令处理器可能试图找到满足个体所指示的变窄标准的另一所关注的候选对象(例如，使用原始的候选对象列表，或者通过生成新列表)，并且可使得执行用于纠正/替换对查询144的原始响应的第二操作。在各种实施方案中，可执行几次这样的迭代，例如，直到提供令人满意的响应(从命令发布者的角度来看)或者直到一方(个体或命令处理器)终止/中止进一步的交互。

图2示出了根据至少一些实施方案的示例性车辆环境，包括可收集数据的多个传感器，响应来自车辆乘员的口头请求，该数据可被分析。该图提供了车辆乘员区域的简化俯视图210。车辆可例如包括汽车、卡车、高尔夫球车、全地形车辆等。在至少一些实施方案中，车辆的至少一些移动可能不需要直接的人控制—例如，车辆可能能够自动停放，在一些条件下可不需要人引导而驾驶等等。示出了车辆中相对于彼此可位于不同深度处(并且因此可彼此遮挡或被其他对象遮挡)的对象，尽管在更逼真的描绘中，这些对象中的至少一些实际上并不同时可见。如箭头259所示，在图2中，车辆可从左向右移动。在所示实施方案中，车辆可包括两排座位区域：前座位区域202和后座位区域205。例如，在一种情景中，两名乘员可坐在座位区域中的每一个中。

车辆的信号检测部件可被设计为捕获来自乘员的姿态、注视和语音信号以及来自车辆外部的环境信号。各组面向内部的相机和麦克风(IFCM)222(诸如，IFCN 222A至222D)可被配置为捕获来自乘员的移动。尽管示出了四个IFCM，以使得相应的IFCM可在四名乘员情景中用于捕获来自相应乘员的信号，但在各种实施方案中，IFCM和乘员之间的关系并不需要是一对一的。例如，在一些实施方案中，可使用单个相机和/或单个麦克风来从多名乘员收集信号，并且相反，在一些条件下，可使用多个相机和/或麦克风来捕获单名乘员的信号。在一些情况下，IFCM 222和乘员之间的映射可随占用情况而变化—例如，如果在某个时间段期间仅存在两名乘员，则可将两个IFCM指向每名乘员；随后，如果另外两名乘员占用车辆，则可将一个IFCM指向每名乘员。

在所述实施方案中，四个面向外部的相机(EFC)221A至221D可捕获可从移动车辆的各个部分看到的场景。在至少一些实施方案中，与IFCM一样，EFC与乘员之间的关系不需要必须为1:1。相比于使用由非常接近乘员定位的EFC收集的数据来响应由乘员发布的命令，如果使用由相对地远离乘员定位的EFC收集的数据来响应由乘员发布的命令，则在一些实施方案中识别所关注的对象的准确性可能更低。本地命令处理器部件225可位于图2的车辆中，例如，附接到内部车顶或座椅下方。在一些实施方案中，本地命令处理器部件225可执行对由IFCM和EFC收集的信号的至少一些分析，以帮助识别所关注的候选对象并且/或选择所关注的特定对象以准备对乘员命令的响应。在其他实施方案中，本地命令处理器部件225可将信号分析和解释工作负载中的一些或全部分流到数据中心处的一个或多个服务器—例如，本地部件可将信号的表示传送给服务器，接收在服务器处执行的分析的结果等等。显示屏和扬声器(DS)233A至233C可用于提供对由乘员发布的至少一些类型的查询和命令的响应的指示。例如，如果后座位区域的乘员发布查询诸如“那曾是什么？”(图1的查询144)，则可经由DS 233A或233B提供语音响应“那曾是美洲驼”，并且/或者在所述情景中，可使用DS 233A或233B显示美洲驼的照片/视频。在至少一些实施方案中，从若干不同个体收集到的信号可用于响应特定查询或命令—例如，当以组合方式分析时，相比于仅单独检查一个个体的信号，车辆的两名或更多名乘员的姿态或注视变化可提供更清楚的对给定命令所针对的对象的指示。

特别是在其中其信号正在被分析的个体正在非常快速地移动的情景中，分析可包括在过去收集的信号的不同组之间生成时间相关性，因为在处理命令时或者在靠近处理命令时间的时间点处收集到的一些当前信号可能不再与命令相关。图3示出了根据至少一些实施方案的示例时间线，该时间线示出了可缓冲信号以便响应涉及在处理查询时可能不再可见的对象的查询的时间段。经过时间沿时间线305从左向右增加。在所述示例中，缓冲在前五秒的滚动窗口360内收集到的信号，并且可将其用于响应可涉及在缓冲信号窗口期间遇到或观看到的对象或场景的查询/命令。因此，在(大约)T2处检测到查询“那曾是什么？”时，在开始于T0(在所示示例中，2016年1月4日，11:00:05GMT)处并结束于T2(T0之后的5秒)的时间段内收集到的信号可用于分析。

正在使用的命令处理器(未在图3中示出)可分析在缓冲信号窗口360期间收集到的注视、姿态和语音信号。在至少一些实施方案中，命令处理器对查询的语法分析可指示，由于使用字词“曾是”而非“是”，在发布查询之前的某个过去时间点处看到的对象更有可能为所关注的目标对象。多模态信号分析可使得命令处理器能够确定，在时间T1(在T0之后的大约一秒)处，其信号正在被分析的个体具有注视方向D1(该方向在美洲驼的方向上)、物理位置P1(靠近美洲驼)，并且朝向美洲驼作出了姿态G1(例如，指向姿态)。根据各种因素(诸如，在窗口360期间在其他时间点处收集到的外部环境数据的内容相对地缺乏新颖性，在窗口360期间不存在其他姿态，或在窗口360的其他部分期间注视方向的变化)，命令处理器可在实时分析时间段350期间决定信号组310A应当用于响应查询“那曾是什么？”。因此，可将美洲驼选择为最有可能为与查询中的字词“那”相关联的目标的所关注的对象，并且可在时间T3(在查询之后的大约一秒)处提供响应342“那曾是美洲驼”。应当注意，截至检测到查询的最新信号组310B可指示：注视G2现在指向房屋，位置P2不再靠近美洲驼，并且未作出姿态(由“无”表示)。也就是说，在各种实施方案中，命令处理器可能无法仅依赖于最新的一组信号来响应至少一些查询或命令。如果，查询碰巧为“那是什么？”而不是“那曾是什么？”，命令处理器可使用信号组310B(其注视数据是在与查询紧密接近的时间点处获取的)基于“那是什么？”这句话表示现在的语气来将房屋(而不是美洲驼)选择为所关注的目标对象。在不同的实施方案中，缓冲的信令时间段持续时间和/或实时分析时间段可变化。

在许多情况下，可识别许多不同的所关注的对象，其中若干可能看起来是命令或查询的合理目标。图4示出了根据至少一些实施方案的将相应关注性得分分配给多个所关注的候选对象的示例。在一些情况下，此类关注性得分(也可称为相关性得分)可使用机器学习或人工智能算法来生成，并且可用于由命令处理器准备响应。在一些实施方案中，所用算法可包括多个上下文相关的规则或启发法的表示。

在所述的示例性情景中，个体占用道路411上的移动车辆(未示出)。从外部环境数据源(诸如，车辆的面向外部的相机)的视角来看，在某个时间点的可见场景402包括因对所收集的信号进行分析而识别到的六个所关注的候选对象：山455(距离个体相当远)、房屋446、谷仓445、美洲驼421、池塘462和道路411。

信号分析可指示个体的注视大致沿与箭头459相对应的方向取向，并且姿态(诸如手的指向姿态)指向近似角度范围412内的某处。如由稍宽的角度范围412(以及由注视可能指向若干被识别的对象，诸如山、谷仓或美洲驼这一事实)所指示，在至少一些实施方案中，单一类型的信号可能不足以无歧义地选择单个所关注的目标对象。在所示示例中，注视数据可有助于缩小仅使用姿态可识别为候选对象的对象范围。在其他示例中，姿态可有助于缩小仅使用注视识别的所关注的目标对象的范围。

除注视和姿态数据之外，命令处理器还可使用其他数据源，包括例如其条目指示与不同地理或文化上下文中的不同对象相关联的预期新颖性水平的知识库。例如，在世界的一些地方，美洲驼可能被认为是比房屋或池塘更不寻常的对象(因此对其更“关注”)。在世界的其他地方，装满水的池塘或积雪覆盖的山则可能被认为比美洲驼更不寻常或更有趣。在至少一些实施方案中，当识别到多个可能的所关注的候选对象时，可结合多模态信号数据来分析此类上下文信息，并且可为至少一些候选对象预测相应的关注性/相关性得分。可在各种实施方案中使用几种不同类型的上下文相关信息中的任一者，包括例如地理上下文、文化上下文、会话上下文(例如，在发布命令之前讨论的话题)或涉及个体中的一者或多者的个人资料信息(其可包括个体先前交互/命令的历史，关于美食、零售渠道、酒店等的偏好)。

在所示的示例性情景中，预测得分为在0到1的范围内，其中较高得分指示对应对象为待用于响应命令或查询的目标对象的较高预测概率。例如基于注视方向459、姿态角度范围412、新颖性的上下文指示、美洲驼与其信号被分析的个体的相对接近度等的组合，可为美洲驼421分配0.8的相对较高得分。基于对组合因素的类似分析，为通常位于相同注视方向上的谷仓分配0.5的稍低得分，其中山被分配0.3的得分。仅与姿态略微重叠的房屋可被分配0.1的较低得分。位于注视和姿态方向之外的池塘可被分配0.05的得分，而道路可被分配0.01的得分。响应于查询诸如“那曾是什么？”，可使用其相对于其他所关注的候选对象的得分排名来将美洲驼(至少最初)选择为查询的所关注的目标对象。

可使用在某些情况下由个体佩戴或携带的各种类型的占地面积小的设备来执行上文讨论的至少一些类型的信号收集和/或分析。图5示出了根据至少一些实施方案的可包括姿态检测器、注视检测器和/或本地命令处理器的便携式设备的示例。

在至少一个实施方案中，个体在命令或查询中所指的所关注的对象，或由多模态分析系统选择为命令或查询的目标对象的对象，可为在虚拟现实(VR)环境或增强现实(AR)环境中定义的虚拟对象。在一些实施方案中，包含用于模拟环境和/或将附加信息叠加到个体的现有外部环境的视图上的硬件和/或软件部件的可穿戴VR/AR设备502(例如，头戴式耳机、头盔或套装)可包括注视检测器505A、姿态检测器507A和/或本地命令处理器509A。在一个实施方案中，智能手表512可包括另一类型的注视检测器505B、姿态检测器507B和/或本地命令处理器509B。在一些实施方案中，健身跟踪器522可用于收集姿态和注视信号(例如，使用相应的检测器505C和/或507C)以用于在命令处理器509C处进行本地处理。在各种实施方案中，智能电话532可包括其自身的姿态检测器505D、注视检测器507D和/或本地命令处理器509D。

需注意，从示例性便携式设备到另一设备，其信号检测器和/或本地命令处理器的功能能力可各不相同。例如，在VR头戴式耳机处检测到的注视方向的准确度可能远远高于在健身跟踪器或智能电话处检测到的注视方向的准确度。在至少一些实施方案中，并非给定便携式设备处的所有信号检测器均能够连续地捕获有用数据(即使当设备碰巧与其信号待被收集的个体非常接近时)—例如，智能手表或健身跟踪器可能仅能够在手表或健身跟踪器碰巧处于个体眼睛位于手表或跟踪器的注视检测器的范围内时所处的位置时捕获注视相关的数据。在一些实施方案中，鉴于可用的信号数据，可尽最大努力生成对个体发布的命令/查询的响应—即，如果注视信号不可用，则可试图仅基于姿态信号对命令作出响应，反之亦然。在一些此类实施方案中，如果并且当命令处理器的与所关注的特定对象相关联的置信度或确定性水平低于阈值时，则可由命令处理器发起与个体的交互式对话，以试图确认已正确识别所关注的对象。根据图5中所示的设备的本地命令处理器的计算能力，在一些实施方案中，可在远程命令处理器处(例如，在位于一个或多个数据中心的服务器处)执行响应个体的命令/查询所需的分析的主要部分。可将处理结果中的至少一些从远程命令处理器传送回本地命令处理器或本地用户界面，以使得可将结果提供给发布命令的个体。

在至少一些实施方案中，可代表给定个体，采用便携式和非便携式感测设备和/或命令处理器的组合。例如，如果个体碰巧以一只手握着他们的智能电话，则智能电话的定位和移动可指示个体作出的姿态，而相机(位于个体占用的车内或者位于个体占用的房间内)可用于捕获注视数据。

如先前所述，在一些情况下，可基于多模态信号分析来识别可各自为个体的命令或查询的目标的多个候选对象。在一些情景中，几种此类对象可具有不可忽略且类似的成为所关注的目标对象的预测概率。在至少一个实施方案中，命令处理器可试图使用与个体的一个或多个程序化交互来确认其对所关注的目标对象的选择，该一个或多个程序化交互可称为消歧相关交互。图6示出了根据至少一些实施方案的命令处理器与查询或命令的源之间的消歧相关交互的示例。

在所述实施方案中，显示屏610(例如，可安装在汽车中的触摸板屏幕，或电话的屏幕，或智能手表或VR头戴式耳机的类似屏幕，AR眼镜等)可用于交互。在所述实施方案中，在将显示器610的内容呈现给个体之前不久，个体可能已经向多模态信号分析系统发布了查询“那曾是什么？”。在所述实施方案中，可在屏幕610上显示消歧查询642，其中以对话方式询问个体以确认屏幕上显示的对象(美洲驼621、谷仓645或山655)中是否有一者为查询所指向的目标对象(例如，通过触摸目标对象在屏幕上的表示来提供消歧响应，通过将个体的注视引向目标对象在屏幕上的表示并闪烁或使用一些其他反馈机制)。还可提供用于查看其他所关注的候选对象的选项，这可通过交互诸如向左轻扫屏幕或对所显示对象的发声拒绝来实现。在至少一些实施方案中，用于对所显示的消除查询642版本的替代或补充，可例如使用扬声器677来提供该查询的发声版本643。类似地，在一些实施方案中，可使用经由麦克风678检测到的来自个体的发声消歧响应(例如，“是，它曾是山。”)，而不是要求个体经由触摸界面消除对象之间的歧义。

在一个实施方案中，用于消除关于给定查询或者命令的歧义的交互界面(例如，消歧查询和相应的响应是涉及使用视觉显示610，还是使用发声交互，亦或是使用了视觉交互和发声交互两者)可由命令处理器根据各种因素来选择。此类因素可包括，例如，所请求的动作的复杂性，对与不正确地选择目标相关联的潜在成本的估计，具有类似的预测关注度/相关性得分的候选对象的数量，当天的时间(其可影响屏幕的可见性)，环境声级(其可影响侦听发声交互的能力)等等。例如，如果个体从自动驾驶汽车内发布命令“停放在那里”，则系统可能会试图以比当命令是“拍张照片”时系统必须确认“那里”意指什么的置信水平更高的置信水平确认“那里”意指什么(假定，为错误对象拍摄照片的后果可能通常小于试图停放在非期望位置处的后果)。

可使用本文所述的多模态信号分析技术来处理各种类别的可能有歧义或不精确的命令。图7示出了根据至少一些实施方案的示例性命令和/或查询，该命令和/或查询可涉及被设计为解释包括姿态和注视变化的多模态信号的系统。在示例743中，个体可生成特定领域的查询诸如“那曾是什么车？”，该查询可具有在过去几秒内从查询发布者的汽车内看见的特定汽车作为其目标。为了响应此类查询，在一些实施方案中，命令处理器可使用对应的特定领域数据库，例如各种车型号的数据库。命令处理器可从外部环境数据中过滤掉所有不能被清楚地识别为汽车的对象，基于个体的注视或姿态对过滤后剩余的汽车对象进行排名，并且以排名次序将汽车对象与数据库匹配以便响应。

第二类型的查询“那曾是什么？”744可被检测为是指过去(例如，因为“那曾是什么？”这句的语气表示过去，如先前所述)，并且缓冲的信号数据可用于响应，如先前在图3的上下文中所讨论的那样。相比之下，查询“那是什么？”745可指示在发布/检测到查询时目标对象是可见的(例如，因为“那是什么？”这句的语气表示现在)，与查询744的情况相比，这可有助于缩小不同候选对象组的范围。

在至少一些实施方案中，多模态信号分析系统可能能够基于字词诸如“这”和“那”之间的区别来推断与所关注的目标对象有关的距离相关信息。例如，查询“这是什么？”746可被解释为涉及相对靠近个体的对象(例如，与其中查询为“那是什么？”的情况相比)，并且此类距离相关解释可用于向附近的对象分配相比于向更远的对象更高的关注度/相关性得分。

在一些情况下，查询或命令可能与其他个体有关。为了响应查询诸如“那曾是谁？”747，在一些实施方案中，可检查众所周知的人物或名人的数据库，或者(如果已经授予对此类数据库的访问)可通过多模态信号分析系统检查与个体的电话、电子邮件帐户或社交媒体帐户相关联的个人化数据库诸如联系人列表。在一个实施方案中，如果系统无法响应于查询诸如“那曾是谁？”来通过名称识别目标个人，但能够表征可能为查询的候选目标的一个或多个个体，则可提供类似于以下的通用响应：“那看起来曾是一名男性，大约六英尺高，曾穿着一件薄夹克。您能告诉我任何可用来识别这个人的更多信息吗？”在其中可使用个人数据库诸如联系人列表的实施方案中，系统可事先获取访问此类数据库的许可—例如，为其采用多模态分析系统的个人可使用“选择加入”机制来授权此类访问。

在示例743、744、745、746和747中，在所述实施方案中，多模态分析系统可简单地向查询源提供选定候选目标对象的名称或标识符—即，响应于查询所执行的操作包括命名目标对象。在一些情况下，命名可能涉及翻译字词和/或符号—例如，从其接收查询的个体可能正在所讲语言与个体母语不同的国家内旅行，分析系统可以个体母语形式提供名称/标识符(或者以非母语和母语两种形式)。在一个实施方案中，可首先以本地语言形式提供目标对象的名称，然后任选地在向其提供名称的个体的请求下翻译目标对象的名称。

在至少一个实施方案中，响应于命令而采取的动作可包括产生和/或保存某类记录—例如，可拍摄照片或视频(如在命令748“拍张照片”的情况中)。在一些实施方案中，照片或视频可自动传送到某个期望目的地—例如，传送到远程照片/视频备份服务，传送给个体的请求照片/视频的朋友或联系人，传送给执法机构(如果可疑活动或场景是照片或视频中的主题)等等。

如先前所述，在一些实施方案中，多模态分析系统可部署在支持至少一些无人驾驶操作的汽车或其他车辆内—例如，在命令“停放在那里”749的情况中，系统可使得车辆停放在选定停车位或停车场(在一些情况下，在确认“那里”一词意指哪里之后)。

在各种实施方案中，多模态分析系统可用作导航助手—例如，个体可发布查询“那个标志曾指示什么”750，以检查与目的地的距离，确定过路费，确定应该从哪个出口下高速公路，等等。在一些实施方案中，如果需要，系统可将标志内容翻译成个体的优选语言或母语。在不同实施方案中，可支持各种各样类型的其他基于自然语言的命令或查询。如先前所述，多模态信号分析系统的目标之一可为利用个体的自然行为和语言模式提供关于被预测为个体所关注的对象或地点的信息(或使得相对于被预测为个体所关注的对象或地点执行其他操作)，而不会迫使个体使用受限的查询语言或界面。

图8示出了根据至少一些实施方案的获取并分析多模态信号的命令处理器的示例性子部件。如先前所述，在至少一些实施方案中，可使用本地和远程(相对于与其命令正在被处理的个体的接近度而言)计算资源的分布式组合来实现命令处理器的功能。例如，在一个实施方案中，注视和姿态信号以及查询/命令信号的收集可在个体占用的车辆内执行，而对信号的至少一些分析可在远程数据中心处执行，在车辆内的本地系统部件与该远程数据中心之间建立网络连接。在各种实施方案中，至少一些分析可在本地命令处理器部件(例如，在上述示例中，结合在由个体占用的车辆内的部件)处执行。

如图所示，在所述实施方案中，命令处理器810可包括对象识别器812、语音识别器814、关注度/相关性得分器816、响应界面类型选择器820、响应生成器822、反馈收集器824和/或通信管理器826。在一些具体实施中，图8中所示的命令处理器子部件中的单个命令处理器子部件可包括一个或多个硬件和/或软件设备、模块或过程/执行线程。在至少一个实施方案中，命令处理器的一些功能(诸如，对象识别)可涉及使用单独的框架或服务—例如，可由命令处理器810调用支持卷积神经网络模型的机器学习框架，以用于对象识别。

从外部环境数据源(例如，图1的数据源112，诸如静物相机和/或摄影机)收集的信号，以及在一些实施方案中注视和姿态信号，可以原始形式或经部分处理的形式提供为向对象识别器812的输入。所关注的候选对象可由对象识别器812使用此类输入来识别。语音识别器814可负责例如使用各种自然语言处理算法来确定由个体发布的命令或查询的内容。在至少一些实施方案中，语音识别器814可被训练以识别特定个体的语音—例如，在某个时间间隔内在一个个体的语音模式上训练的给定语音识别器，相比于辨别其他个体所讲的话语，可能能够更准确地辨别该个体所讲的话语。

关注度/相关性得分器816可例如利用所述实施方案中的上下文或新颖性分析器818来获得图4中所示的相对于各种所关注的候选对象的各类得分或排名。上下文分析可包括，例如，确定在为其准备响应的命令或查询之前(并且/或者之后不久)正在讨论的话题或对象(如果有的话)。新颖性分析可包括，例如，确定例如在当前地理、文化或会话上下文中一对候选对象中的哪一个更不寻常或更不为人所期待，这可有助于为一些类型的查询或命令选择所关注的目标对象。

在至少一些实施方案中，几种不同的通信机构或界面类型可用于提供对命令或查询的响应，包括例如图形/视觉界面诸如触摸屏(包括二维或三维显示器)、语音生成器等等。响应界面类型选择器820可至少部分地基于查询/命令的性质、使用其检测到查询/命令的界面、不正确选择所关注的目标对象的相对后果、周围环境条件(例如，噪声水平和/或屏幕可见性)等从可用界面中选择待用于响应给定查询或命令的一个或多个界面。在一些情况下，如在对停放命令或命令诸如“开到那里”的响应的情况中，多模态分析系统可使用多个界面来确认其对命令/查询的解释，以降低使用错误解释来采取实际上并不旨在采取的动作的概率。响应生成器822可适当地格式化响应的至少一部分(例如，在屏幕上显示的字词)，并且经由选定界面提供响应。

反馈收集器824可协调信号的分析，该信号指示在所述实施方案中是否正确解释了命令/查询，以及/或命令处理器选择的所关注的目标对象是否为代表其正在处理命令/查询的个体所意指的对象。在其中以分布式方式执行所收集信号的分析的那些实施方案中，通信管理器可负责选择和利用适当的通信机构(例如，使用电信提供方基础设施、Wi-Fi路由器等的无线通信，经由以太网等进行的有线通信)，来获得用于多模态信号分析的消息。在至少一些实施方案中，命令处理器可不采用图8中所示的子部件中的一者或多者或者可使用不同的一组子部件。

图9是示出根据至少一些实施方案的操作的各方面的流程图，该操作可在检测和解释多模态信号以响应自然语言命令和查询的系统处执行。在图9中，注视和姿态被用作示例性信号模态，基于该信号模态生成对命令的响应。如先前所述，在不同实施方案中，可使用其他信号模态。如元素901中所示，可识别其命令或查询待被处理的一组个体，以及负责感测关于个体的行为/移动以及个体环境中的对象/地点的信号的输入数据源。可确定用于每种信号模态(例如，注视、手姿态、头/颈/躯干姿态)的可用输入信号传感器与个体之间的映射—例如，如果车辆中存在四个手姿态检测器和两个个体，则可为每个个体指定相应的一对姿态检测器。在一些具体实施中，可基于此类映射来调整一些感测设备(例如，相机)的取向或位置—例如，可改变可调相机的镜头平面的方向以捕获已为其指定该相机的特定个体的手姿态。

在一些实施方案中，可设置与多模态分析有关的一个或多个参数值(元素904)，诸如保持姿态信号、注视信号、语音信号和/或外部环境信号以用于响应指向过去遇到的对象或地点的查询/命令所需的相应秒数，本地处理与远程处理的细分(即，哪些分析功能将在靠近个体的设备处本地执行，哪些分析功能将在远程服务器处执行)等等。

可使用注视数据收集器从目标个体收集注视信号，并且在选定滚动时间窗口持续时间内保持该注视信号(元素907)。类似地，在所述实施方案中，可收集姿态信号并在选定时间窗口内保持该姿态信号(元素910)，可收集外部环境信号并在选定时间窗口内保持该外部环境信号(元素913)。在一些实施方案中，对于所有信号类型而言，用于保持每种类型或模式的信号的时间窗口可能不一定相同—例如，根据用于信号的可用存储容量和编码算法，情况可能是，姿态信号可保持T1秒，而注视信号保持T2秒。

例如使用与语音识别器或一些其他输入界面耦接的麦克风，可检测指向所关注的对象的命令或查询(元素916)。在至少一些情况下，可能未明确指定命令或查询所指向的目标对象。相反，(如在查询“那曾是什么？”中)可使用非精确指示符，包括例如指示代词诸如“这”或“那”，或者(如在命令“停放在那里”中)可使用相对地点的副词诸如“这里”或“那里”。在各种实施方案中，给定命令有时可提供目标对象或所关注的对象的部分标识，但是命令的内容可能不足以决定性地或最终地标识一个或多个对象。需注意，多模态分析系统可能能够对具有关于目标对象或地点的广泛特征的查询或命令作出响应—例如，在至少一些实施方案中，命令诸如“那曾是什么？”、“那曾是什么车？”、“那辆红色的车曾是什么型号？”或“那辆具有加利福尼亚牌照的红色敞篷车曾是什么型号？”，其中每个命令均具有关于所关注的目标对象的不同程度的细节，并且可通过分析系统来同等成功地处理。在不同实施方案中，可采用各种类型的语音识别和/或自然语言处理算法来解释查询或命令。

使用所收集的信号数据(包括例如注视数据、姿态数据和环境数据)的某种组合，可生成查询或命令可能指向的所关注的候选对象的排名列表(元素919)。在一些实施方案中，各种类型的信号数据可具有相关联的时间戳，并且该时间戳可用于关联在不同传感器处同时或几乎同时获取的信号。在至少一个实施方案中，一种类别的信号可用于过滤掉(或排名)使用另一类别的信号识别的对象—例如，当姿态可广泛地指示预期目标对象可能为美洲驼、谷仓或山，则注视信号可能表明，相比于山，预期目标对象更可能为美洲驼。在不同实施方案中，可执行各种基于相关性的分析(例如，涉及不同数据或信号组之间的至少一定水平的时间相关性、空间相关性等)，以识别所关注的候选对象并且/或者对所关注的候选对象进行排名。

在至少一个实施方案中，如果例如针对几种不同对象预测的排名(例如，关注性得分或相关性得分)碰巧彼此接近，或者如果对目标对象的错误选择可能具有极大的负面影响，则系统可请求从其检测到查询或命令的个体消除歧义或确认系统对目标的选择(元素922)。可相对于对象列表中的选定目标对象引起或发起所请求的动作或操作(其例如可为简单地命名查询“那曾是什么？”中的字词“那”的目标，或者可为更实质的东西，诸如响应于命令“停放在那里”停放车辆)(元素925)。在一些实施方案中，可至少部分地基于分配给对象的关注性/相关性得分，来选择与执行操作有关的特定对象。在一些实施方案中，可收集关于所执行的操作的反馈—例如，是否正确地选择了目标对象，并且将其用于随时间改进系统的功能和/或性能。在一个实施方案中，如果和/或当其命令或查询被处理的个体指示系统将不正确的对象选作了所关注的目标对象时，可(例如，从原始候选对象列表中或从新生成的候选对象列表中)识别一个或多个另外的所关注的对象，并且可按顺序对这些另外的对象执行所请求的操作，直到命令/查询响应可接受或者个体或系统放弃命令/查询。

在一些实施方案中，可在接收到命令或查询之后仅执行对所关注的候选对象的识别。在其他实施方案中，多模态分析系统可被配置为持续识别所关注的候选对象(并且/或者基于关注性/相关性得分对这些候选对象相对于彼此进行排名)，例如无论是否接收到命令/查询，以使得如果/当接收到命令或查询时，可比尚未提前识别到所关注的候选对象时更快地生成响应。

图10是示出根据至少一些实施方案的示例性操作的各方面的流程图，可执行该示例性操作，以在其中来自一个或多个信号源的数据可能至少暂时不可用或降级的情景中识别所关注的候选对象。在图10所示的实施方案中收集注视、姿态和语音信号，但可在其他实施方案中使用其他模态组合。如元素1001中所示，例如在不同模态的相应缓冲间隔内，可收集和缓冲来自一个或多个个体的注视、手指向姿态和声音/语音信号。至少一些信号可包括指示所关注的对象可能所处的方向(例如，相对于个体在缓冲间隔期间的某个时间点处的位置的方向)的信息。在一些实施方案中，不同的缓冲间隔可用于不同的模态，而在其他实施方案中，相同的缓冲间隔可用于一种以上的模态。另外，还可例如使用面向外部的相机(诸如在图2的上下文中所讨论的那些)收集和缓冲外部环境信号。

可例如使用语音识别和/或自然语言处理算法来确定语音信号的某种组合表示命令(元素1004)。可对该命令进行解析，并且解析结果可指示该命令所针对的至少一些空间所关注的对象被不精确地指定—例如，使用先前所讨论的字词诸如“这个”、“那个”、“这里”或“那里”。

然后可检查包含注视相关和/或姿态相关数据的缓冲器，以试图识别相对于所述实施方案中的每种模态的“稳定方向”(元素1007)。例如，可分析在最近N秒(其中N可为分析算法的可调参数)内收集到的信号，以确定给定个体是在一段持续时间内在大致相同的方向(例如，在偏离指定方向几度的范围内)上保持注视，还是在一段持续时间内使用手在大致相同的方向上保持指向。例如，对于注视，可检测眼睛凝视(表示稳定注视方向)和/或平滑跟随眼睛移动(指示注视方向的轻微变化)以识别稳定方向。持续时间段的最小持续时间和方向轻微变化的程度(注视或姿态可能转变的最大程度量仍被认为是持续的)也可为分析的可调参数。如果发现持续注视和/或姿态方向的一个或多个此类持续时间，则可在所述实施方案中将所识别的方向标记为相应的稳定方向。然而，有时可能的情况是，在检查的一组缓冲信号内相对于一个或多个模态未识别到稳定方向。这可由各种原因造成，包括例如暂时丧失与信号源的通信，携带信号数据的网络分组损坏，或者因为有关个体的行为实际上不包括一致注视方向或姿态的任何持续时间段。至少在一些情景中，分析算法仍然能够识别所关注的一个或多个候选对象，如下所述。

如果相对于注视或姿态未识别到稳定方向(如在对应于元素1010的操作中所确定的)，则可尝试仅使用外部环境信号来生成所关注的一个或多个候选对象的列表，而不考虑特定方向(元素1013)。例如，应用于视频信号的对象识别算法可生成一组不同的对象，并且可将那些对象中的一些子集或全部指定为候选对象。

在所述的实施方案中，如果仅针对注视识别了一个或多个稳定方向(如在与元素1016相对应的操作中检测到的那样)，则可将那些稳定方向中的最新方向指定为关于识别所收集的视频信号内的对象的优选方向(元素1019)。类似地，如果仅识别关于姿态的一个或多个稳定方向(如在与元素1022相对应的操作中检测到的那样)，则可将其中的最新方向指定为优选方向(元素1025)。

如果识别到关于注视和姿态的稳定方向(即，如果在与元素1010、1016和1019相对应的操作中检查到的条件均未得到满足)，则在所述实施方案中，可在两种模态的稳定方向之间执行相关性分析，以识别优选方向方向。例如，可将与最新稳定姿态方向一致(例如，在其K度内)的最新稳定注视方向选作优选方向(元素1025)。无论使用哪种模态组合来识别优选方向，均可基于该优选方向从外部信号数据中识别所关注的一个或多个候选对象(元素1028)，当然假定，从外部信号数据中识别到的至少一个对象位于与该优选方向相同的一般方向上。如先前所讨论，可基于不同实施方案中的各种因素对候选对象进行排名，并且可使用该排名来响应命令(元素1031)。需注意，在一些情况下，命令本身可包括可有助于缩小所关注的候选对象范围的提示。例如，如果命令包含查询“那家餐馆供应些什么？”，则这可指示应该识别可被表征为餐馆的对象(如果可能的话，然后确定这家餐馆供应的菜肴的类型)。类似地，如果命令包含查询“那是什么类型的汽车？”，这不仅表明应该将所关注的对象限制于可表示汽车的那些对象上，并且还可表明，在所识别的候选汽车类型中，可能应该为不寻常(而非普通)的汽车分配更高的权重/得分。

在至少一些实施方案中，在存在丢失信号数据的情况下成功运行的多模态信号分析算法在各个方面均可比图10中所示的相对简单版本更复杂。例如，可在一些实施方案中的分析中使用指示可使用各种模态来检测的方向的相应精度的相对权重，在识别优选方向时，可将排名分配给不同的模态等等。相对于在分析期间得出的各种结论的松弛或余地，可采用迭代方法(例如，如果在D度的范围内无法找到稳定方向，则可在后续迭代中使用[D+Δ]度的范围，或者如果相对于250毫秒的持续时间无法找到稳定方向，则可在后续迭代中使用200毫秒的持续时间等等。)在一些实施方案中，可使用两种以上的信号模态—例如，在一个实施方案中，除注视和手指向姿态之外，可使用头部运动。当然，添加此类第三模态将导致相对于丢失和检测到的稳定方向必须考虑的组合的数量从图10中所示的四种组合：(1)不针对注视和手指向姿态中任一者所识别的稳定方向；(2)针对注视但不针对手指向姿态所识别的稳定方向；(3)针对手指向姿态但不针对注视所识别的稳定方向；和(4)针对注视和手指向姿态所识别的稳定方向)增加到八种组合。通常，对于N方向相关的模态而言，在算法中可能必须考虑多达2^N个此类组合。

需注意，在各种实施方案中，除图9和图10的流程图中所示的那些操作之外的至少一些操作可用于实现上文所述的多模态信号分析技术。所示操作中的一些在一些实施方案中可能无法实现，或者可以不同的顺序实现，或者并行地实现而不是顺序地实现。

一般来讲，在移动环境(如在诸如图2中所示的车辆的情况中)和静止环境中可同等成功地使用上述用于多模态信号分析的技术和算法。图11示出了根据至少一些实施方案的示例性情景，其中可在建筑的房间内执行多模态信号分析。其示出了房间1110(诸如，零售商店或个人房屋内的房间)的俯视图。图11中未示出不与执行多模态信号分析直接相关的对象，诸如起居室中的家具或零售商店中存放的产品。房间1110可包括多个输入数据源(IDS)1121A至1121B，诸如各种相机、麦克风等。可使用所述实施方案中的IDS 1121的一些组合从房间中存在的一个或多个个体捕获与上述类型的几种不同模态(例如手或身体姿态、注视、面部表情、生理反应等)相对应的信号。个体本身可以是静止的，或者可以是移动的(例如，从房间的一部分走到另一部分)。至少一些信号可提供相对于从其获取信号的个体的空间方向的指示。在一些实施方案中，至少一些输入数据源可以是可移动的(例如，可修改相机镜头或麦克风的取向，以更清晰地捕获来自可能正在房间内移动的个人的信号)。

一些IDS 1121可提供由个体发布的命令或查询的发布的指示。例如，在至少一些实施方案中，该命令可以自然语言而不是以任何受限的查询语言来表达，并且可以不必明确地、决定性地或最终地识别命令所指向的所关注的特定对象。例如，可在命令中使用不精确的指示符，诸如指示代词、相对地点的副词等。基于对所收集信号的不同模式中的一者或多者(包括例如至少一些信号中包含的方向信息)的分析，可通过所述实施方案中的命令处理器1125来识别所关注的一个或多个候选对象。可执行与从候选对象中选择的一个或多个对象相关联的一个或多个操作。在一些情况下，可经由输出设备(OD)1122A或1122B(诸如扬声器或显示器)提供关于选定一个或多个对象的信息。例如，可经由输出设备1122中的一者或多者提供对命令或查询的音频、视觉或文本响应。类似于上文相对于多模态信号分析所讨论的那些的各种算法和技术(例如，缓冲技术、输入信号数据是部分的或者不完整时使用的技术、涉及访问远程数据源的技术、候选对象的排名技术、消除歧义的各种方法等)可在所述实施方案中的静止环境中采用。

在至少一些实施方案中，实现本文所述的一种或多种技术的一部分或全部的服务器可包括通用计算机系统，该通用计算机系统包括或被配置为访问一个或多个计算机可访问介质，其中一种或多种技术包括收集、获取或处理各种类型的信号(包括来自个体的姿态、注视或语音信号以及指示个体的外部环境的信号)的技术。图12示出了此类通用计算设备9000。在例示的实施方案中，计算设备9000包括经由输入/输出(I/O)接口9030耦接到主存储器9020(其可包括非易失性和易失性存储器模块，并且还可称为系统存储器)的一个或多个处理器9010。计算设备9000还包括耦接到I/O接口9030的网络接口9040以及可包括各种类型的传感器的另外I/O设备9035。

在各种实施方案中，计算设备9000可为包括一个处理器9010的单处理器系统或包括若干处理器9010(例如，两个、四个、八个或另一适当数量)的多处理器系统。处理器9010可为能够执行指令的任何合适的处理器。例如，在各种实施方案中，处理器9010可为实现各种指令集架构(ISA)(诸如x86、PowerPC、SPARC、或MIPS ISA或任何其他合适的ISA)中任一者的通用处理器或嵌入式处理器。在多处理器系统中，处理器9010中的每一个通常可以但并非必须实现相同的ISA。在一些具体实施中，图形处理单元(GPU)可用于代替或补充常规处理器。

存储器9020可被配置为存储可由处理器9010访问的指令和数据。在至少一些实施方案中，存储器9020可包括易失性和非易失性部分两者；在其他实施方案中，仅可使用易失性存储器。在各种实施方案中，系统存储器9020的易失性部分可使用任何合适的存储器技术来实现，诸如静态随机存取存储器(SRAM)、同步动态RAM或任何其他类型的存储器。对于系统存储器(例如，其可包括一个或多个NVDIMM)的非易失性部分，在一些实施方案中，可使用基于闪存的存储器设备，包括NAND闪存设备。在至少一些实施方案中，系统存储器的非易失性部分可包括电源，例如超级电容器或其他电力存储装置(例如，电池)。在各种实施方案中，基于忆阻器的电阻式随机存取存储器(ReRAM)、三维NAND技术、铁电RAM、磁阻RAM(MRAM)或任何各种类型的相变存储器(PCM)均可至少用于系统存储器的非易失性部分。在例示的实施方案中，实现一个或多个期望功能的可执行程序指令9025和数据1926(诸如，上述那些方法、技术和数据)被示出为存储在主存储器9020内。

在一个实施方案中，I/O接口9030可被配置为协调处理器9010、主存储器9020和各种外围设备(包括网络接口9040或其他外围接口，诸如各种类型的持久和/或易失性存储设备，用于注视信号收集、姿态信号收集、外部环境信号收集、语音收集等的传感器设备)之间的I/O流量。在一些实施方案中，I/O接口9030可执行任何必要的协议、定时或其他数据转换，以将来自一个部件(例如，主存储器9020)的数据信号转换成适合由另一部件(例如，处理器9010)使用的格式。在一些实施方案中，I/O接口9030可包括对例如通过各种类型的外围设备总线(诸如，外围部件互连(PCI)总线标准或通用串行总线(USB)标准的变型)附接的设备的支持。在一些实施方案中，I/O接口9030的功能例如可被划分到两个或更多个单独部件中，诸如北桥接器和南桥接器。此外，在一些实施方案中，I/O接口9030(诸如到存储器9020的接口)的一些或所有功能可被直接并入到处理器9010中。

网络接口9040可被配置为允许在计算设备9000和附接到一个或多个网络9050的其他设备9060之间交换数据，诸如图1至图11中所示的其他计算机系统或设备。在各种实施方案中，网络接口9040可支持经由任何合适的有线或无线通用数据网络(诸如，各类型的以太网网络)进行的通信；另外，网络接口9040可支持：经由电信/电话网络诸如模拟语音网络或数字光纤通信网络进行的通信；经由存储区域网络诸如光纤信道SAN或经由任何其他合适类型的网络和/或协议进行的通信。

在一些实施方案中，主存储器9020可为计算机可访问介质的一个实施方案，该计算机可访问介质被配置为存储上文相对于图1至图11所述的程序指令和数据，以用于实现对应方法和装置的实施方案。然而，在其他实施方案中，可在不同类型的计算机可访问介质上接收、发送或存储程序指令和/或数据。一般来讲，计算机可访问介质可包括非暂态存储介质或存储器介质诸如磁性或光学介质，例如，经由I/O接口9030耦接到计算设备9000的磁盘或DVD/CD。非暂态计算机可访问存储介质还可包括任何易失性或非易失性介质诸如RAM(例如，SDRAM、DDR SDRAM、RDRAM、SRAM等)、ROM等，其可作为主存储器9020或另一类型的存储器被包括在计算设备9000的一些实施方案中。此外，计算机可访问介质可包括经由通信介质(诸如网络和/或无线链路，诸如可经由网络接口9040来实现)传送的传输介质或信号(诸如电信号、电磁信号或数字信号)。多个计算设备(诸如，图12中所示的计算设备)的一部分或全部可用于在各种实施方案中实现所述功能；例如，在各种不同设备和服务器上运行的软件部件可协作以提供功能。在一些实施方案中，可使用存储设备、网络设备或专用计算机系统来实现所述功能的一部分，以用于补充或替代使用通用计算机系统来实现所述功能的一部分。本文所用的术语“计算设备”至少是指所有这些类型的设备，并且不限于这些类型的设备。

结论

各种实施方案可进一步包括在计算机可访问介质上接收、发送或存储根据以上描述所实现的指令和/或数据。一般而言，计算机可访问介质可包括存储介质或存储器介质诸如磁介质或光介质，例如磁盘或DVD/CD-ROM、易失性介质或非易失性介质诸如RAM(例如SDRAM、DDR、RDRAM、SRAM等)、ROM等，以及传输介质或信号，诸如电信号、电磁信号或数字信号，经由通信介质诸如网络和/或无线链路来传送。

附图中所示和本文所述的各种方法表示方法的示例性实施方案。该方法可以软件、硬件或它们的组合来实现。方法的顺序可改变，并且各种元素可被添加、重新排序、组合、忽略和修改等。

可作出各种修改和改变，这对于从本公开受益的本领域的技术人员来说将是显而易见的。旨在涵盖所有此类修改和改变，并且因此上述说明被认为是说明性的而不是限制性的。

Claims

1.一种方法，包括：

在一个或多个计算设备处，执行以下操作：

在至少第一时间间隔期间从个体获取第一组一个或多个信号，其中所述第一组一个或多个信号对应于第一信号模态并且指示相对于所述个体在所述第一时间间隔期间的位置的特定方向；

在至少第二时间间隔期间从所述个体获取第二组一个或多个信号，所述第二时间间隔至少部分地与所述第一时间间隔重叠，其中所述第二组一个或多个信号对应于第二信号模态；

响应于命令，其中所述命令不决定性地识别所述命令所指向的所关注的特定对象，

至少部分地基于所述特定方向并至少部分地基于对所述第二组的分析，识别所述个体所关注的一个或多个候选对象；以及

使得与所述所关注的一个或多个候选对象中的第一选定候选对象相关联的操作被执行。

2.根据权利要求1所述的方法，还包括由所述一个或多个计算设备执行以下操作：

将所述第一组一个或多个信号的至少一个子组存储在缓冲器中，其中所述子组对应于与所述第一信号模态相关联的缓冲间隔，并且其中所述分析包括检查所述缓冲器的内容。

3.根据权利要求1所述的方法，其中所述第一组或所述第二组中的至少一组包括指示以下各项中的一者或多者的信号：指向姿态、头部取向或移动、躯干取向或移动、使用除手之外的身体部位作出的姿态、注视方向、面部表情、一个或多个语音标记或无意识的生理反应。

4.根据权利要求1所述的方法，还包括由所述一个或多个计算设备执行以下操作：

从以下各项中的一者或多者获取所述第一组一个或多个信号中的至少一个信号：(a)可穿戴设备；(b)传感器，所述传感器位于所述个体占用的移动车辆内或附接到所述个体占用的移动车辆；(c)摄影机；(d)静物相机；(e)深度相机；(f)惯性传感器；(g)电磁信号检测器；(h)超声信号检测器；(i)雷达信号检测器；(j)非相机光学传感器；(k)EMG(肌电图)传感器；或(l)智能电话。

5.根据权利要求1所述的方法，还包括由所述一个或多个计算设备执行以下操作：

至少部分地基于对以下各项的分析来确定所述命令：(a)所述第二组一个或多个信号中的一个或多个语音信号；(b)经由触摸屏界面接收的一个或多个信号；或(c)以手语表达的一个或多个信号。

6.根据权利要求1所述的方法，其中与所述第一选定候选对象相关联的所述操作包括以下各项中的一者或多者：(a)经由图形显示或自动语音指示所述第一选定候选对象的名称；(b)捕获所述第一选定候选对象的照片或视频；(c)翻译与所述第一选定候选对象相对应的一个或多个字词或符号；或(d)发起车辆的停放。

7.根据权利要求1所述的方法，还包括由所述一个或多个计算设备执行以下操作：

确定所述命令包括所关注的对象的非精确指示符，其中所述非精确指示符包括以下各项中的一者或多者：(a)指示代词；或(b)相对地点的副词。

8.一种系统，包括：

一个或多个传感器设备；和

一个或多个命令处理设备；

其中所述一个或多个传感器设备被配置为：

在第一时间间隔的至少一部分期间从个体收集与第一信号模态相对应的第一数据组，其中所述第一数据组包括相对于所述个体的位置的方向相关信息；

在至少第二时间间隔期间从所述个体收集与第二信号模态相对应的第二数据组，所述第二时间间隔至少部分地与所述第一时间间隔重叠；以及

其中所述一个或多个命令处理设备被配置为：

响应于确定已经发布命令，其中所述命令不最终识别所述命令所指向的所关注的特定对象，

至少部分地基于对所述第一数据组和所述第二数据组的分析，识别所述个体所关注的一个或多个候选对象；以及

9.根据权利要求8所述的系统，其中所述分析包括：

确定与所述第一信号模态相对应的方向相关信息在所述第一时间间隔的至少一个子间隔内是不可用的。

10.根据权利要求8所述的系统，其中所述分析包括：

与分析所述第二数据组的至少一部分并行地分析所述第一数据组的至少一部分。

11.根据权利要求8所述的系统，其中所述所关注的一个或多个候选对象包括多个所关注的候选对象，其中所述一个或多个命令处理设备被配置为：

预测与所述多个候选对象中的各个候选对象相对应的相应关注性得分；以及

至少部分地基于其预测的关注性得分，从所述多个所关注的候选对象中选择所述第一所关注的候选对象。

12.根据权利要求8所述的系统，其中所述一个或多个传感器包括多个传感器，所述多个传感器包括第一传感器和第二传感器，并且其中所述第一数据组包括从所述第一传感器和所述第二传感器收集的相应数据子集。

13.根据权利要求8所述的系统，其中，为了识别所述所关注的一个或多个候选对象，所述一个或多个命令处理设备被配置为：

获取与所述个体的环境有关的静止影像或视频影像；以及

使得使用所述静止影像或所述视频影像的至少一部分来执行对象识别算法。

14.根据权利要求8所述的系统，其中，为了识别所述所关注的一个或多个候选对象，所述一个或多个命令处理设备被配置为：

查询以下各项中的一者或多者：(a)地图数据库，所述地图数据库指示多个对象的相应位置，其中所述多个对象包括所述所关注的一个或多个候选对象中的至少一个对象；(b)产品目录；或(c)数据源，所述数据源可经由互联网访问。

15.一种存储程序指令的非暂态计算机可访问存储介质，所述程序指令在一个或多个处理器上执行时：

在至少第一时间间隔期间，从一个或多个个体获取第一数据组，所述第一数据组指示第一信号模态和第一方向；

在至少第二时间间隔期间，从所述一个或多个个体中的至少一个个体获取第二数据组，所述第二数据组指示第二信号模态，所述第二时间间隔至少部分地与所述第一时间间隔重叠；

至少部分地基于对所述第一数据组或所述第二数据组的分析，识别所述一个或多个个体中的特定个体所关注的一个或多个候选对象；以及

16.根据权利要求15所述的非暂态计算机可访问存储介质，其中，所述第一选定候选对象为在虚拟现实(VR)环境或增强现实(AR)环境中定义的虚拟对象。

17.根据权利要求15所述的非暂态计算机可访问存储介质，其中所述一个或多个个体包括第二个体，并且其中对所述第一数据组的所述分析包括检查(a)从所述特定个体获取的数据和(b)从所述第二个体获取的数据。

18.根据权利要求15所述的非暂态计算机可访问存储介质，其中对所述第一数据组或所述第二数据组的所述分析包括执行机器学习算法。.

19.根据权利要求16所述的非暂态计算机可访问存储介质，其中，为了识别所述个体所关注的所述一个或多个候选对象，所述指令在所述一个或多个处理器处执行时：

使得对所述第一数据组、所述第二数据组和第三数据组的相应部分的组合执行基于相关性的分析，其中从所述特定个体的外部环境中的一个或多个传感器收集所述第三数据组。

20.根据权利要求19所述的非暂态计算机可访问存储介质，其中所述指令在所述一个或多个处理器上执行时：

至少部分地基于以下各项中的一者或多者，从所述所关注的一个或多个候选对象中选择与所述操作相关联的所述所关注的对象：(a)地理上下文；(b)文化上下文；(c)会话上下文；或(d)个人资料信息。