CN104820488A

CN104820488A - 用户定向式个人信息助理

Info

Publication number: CN104820488A
Application number: CN201510001803.3A
Authority: CN
Inventors: D.迪森索; S.马蒂; J.E.纳曼
Original assignee: Crown Audio Inc
Current assignee: Harman International Industries Inc; Crown Audio Inc
Priority date: 2014-01-03
Filing date: 2015-01-04
Publication date: 2015-08-05
Anticipated expiration: 2035-01-04
Also published as: JP2015135674A; CN104820488B; US20150193005A1; EP2891954A1; US9720510B2; JP6851133B2; JP2019169202A; EP2891954B1

Abstract

本发明的一个实施方案阐述了用于识别对象的特性的技术。所述技术包括确定所述对象是方向性姿势的目标，以及检测在所述对象是所述方向性姿势的所述目标时发生的触发事件。所述技术还包括响应于触发事件，通过一个或多个传感器获取与所述对象相关联的传感器数据，以及分析所述传感器数据来识别所述对象的至少一个特性。

Description

用户定向式个人信息助理

相关申请的交叉引用

本申请要求2014年1月3日提交并且代理人案号为HRMN/0077USL的序列号为61/923,553的美国临时专利申请的权益。此项临时专利申请的主题据此以引用方式并入本文。

技术领域

本发明的实施方案总体上涉及信息检索，并且更具体来说涉及用户定向式个人信息助理。

背景技术

如个人计算机、智能手机、智能手表等的电子设备的使用在日常生活的所有方面变得越来越流行。这类设备为用户提供了对包括关于各种话题的信息的数据库的便利访问。为了在那些数据库内定位关于感兴趣对象的特定类型的内容，用户可以向搜索引擎提交与感兴趣对象相关联的文本查询。针对文本查询的搜索结果随后被呈现给用户，从而使得用户能够访问不同的网站，以便定位含有最相关信息的网站。

试图定位关于感兴趣对象的信息的用户所面对的一个常见障碍是：将对象的准确文本描述提供给搜索引擎。例如，在许多情形下，用户想要获悉关于用户所遇到的具体对象的特定信息，但是用户可能不能准确地为搜索引擎识别对象(例如，使用对象名称或一些其它类型的对象标识符)。因此，在这类情况下，用户必须首先通过向搜索引擎描述对象的一个或多个物理属性来确定对象的身份。随后，在对象由搜索引擎识别的程度上，用户可能需要执行其它搜索来定位关于对象的特定类型的信息。在当前搜索技术下常见的这种类型的多步骤过程为冗长的，并且时常产生不能令人满意的结果。

如前述说明，使用户能够更加有效地获取关于用户环境中各对象的信息的一种或多种技术将是有用的。

发明内容

本发明的一个实施方案阐述用于识别对象的特性的方法。技术包括确定所述对象是方向性姿势的目标，以及检测在所述对象是所述方向性姿势的所述目标时发生的触发事件。技术还包括响应于所述触发事件，通过一个或多个传感器获取与所述对象相关联的传感器数据，以及分析所述传感器数据来识别所述对象的至少一个特性。

另外的实施方案尤其提供被配置来实现以上阐述方法的系统和非暂时性计算机可读介质。

各种实施方案的至少一个优点在于，用户能够获取关于位于用户的环境中的对象的特定信息。另外，用户能够获取关于用户无法准确识别的对象的信息，所述对象如不具有官方名称的对象、可以通过多个名称指代的对象，和/或难以精确描述的对象。此外，所公开的技术使得用户能够使用便利的语音提示、姿势和/或其它类型的触发来获取关于对象的信息。

附图说明

因此，使本发明的上述特征可得到详细理解的方式，即对以上简要概述的本发明的更具体描述可参照实施方案来获得，实施方案中的一些在附图中示出。然而，应指出的是，附图只示出本发明的典型实施方案，并因此不视为对本发明范围的限制，因为本发明可承认其它同等有效的实施方案。

图1示出了被配置来实现各种实施方案的一个或多个方面的信息助理；

图2A和图2B示出了根据各种实施方案的用于操作图1的信息助理的技术；

图3示出了根据各种实施方案的可将图1的信息助理的不同组件附接到用户的位置；

图4A和图4B示出了根据各种实施方案的基于附接到用户手臂的I/O设备来检测方向性姿势和/或触发事件的技术；

图5A和图5B示出了根据各种实施方案的利用图1的信息助理来检测方向性姿势和/或触发事件的技术，所述信息助理实现于汽车环境中；

图6A至图6D示出了根据各种实施方案的用于确定正在由图1的信息助理的用户靶向(targeted)的感兴趣对象的技术，所述信息助理实现于汽车环境中；

图7示出了根据各种实施方案的基于全球定位系统(GPS)设备来确定正在由用户靶向的感兴趣对象的技术，所述全球定位系统(GPS)设备耦接至图1的信息助理；

图8为根据各种实施方案，根据各种实施方案的通过信息助理来识别正在由方向性姿势靶向的对象的特性的方法步骤的流程图；以及

图9为根据各种实施方案的可结合图1的信息助理来实现的计算设备的方框图。

具体实施方式

在以下描述中，阐述了许多特定细节以提供对实施方案的更全面理解。然而，本领域技术人员将明白的是，实施方案可在没有这些特定细节中的一个或多个细节的情况下加以实施。

图1示出了被配置来实现各种实施方案的一个或多个方面的信息助理100。信息助理100可包括但不限于设备主体104、处理单元102、存储器110、扬声器112、麦克风114、摄像机120和一个或多个输入/输出(I/O)设备(例如，I/O设备122和I/O设备124)。设备主体104可包括第一侧105和第二侧106。

麦克风114被配置来从周围环境获取声音，并且将与声音相关联的信号传输到处理单元102。例如并且无限制地，麦克风114可以获取由用户说出的语音提示。因此，在一些实施方案中，麦克风114位于设备主体104的第一侧105的一部分中，并且第一侧105在信息助理100的操作期间面向用户。在相同实施方案或其它实施方案中，麦克风114可以位于设备主体104的不同部分中，和/或一个或多个其它麦克风114可以被包括于设备主体104的各部分中(例如，包括于设备主体104的第二侧106的一部分中)。例如并且无限制地，麦克风114可以位于第二侧106的一部分中，以便从感兴趣对象获取音频样本。

另外，一个或多个麦克风114可以与设备主体104物理上分离，并且通过有线连接或无线连接耦接到处理单元102。例如并且无限制地，为了更有效地从周围环境获取声音，可以将一个或多个麦克风114定位在用户的身体(例如，头部、手臂、手部等)上，和/或定位在用户正在操作的一个或多个其它设备(例如，电子设备、车辆等)上。这类麦克风114随后可以通过有线连接或无线连接耦接到处理单元102。

扬声器112可以位于设备主体104的第一侧105的一部分中。扬声器112被配置来基于由处理单元102生成的信号和/或传输到扬声器112的其它信号来产生声音。例如并且无限制地，扬声器112可以将听觉信息输出到用户，以便描述已经由信息助理100识别的一个或多个对象。在相同实施方案或其它实施方案中，一个或多个扬声器112位于设备主体104的不同部分中。在其它实施方案中，一个或多个扬声器112可以与设备主体104物理上分离，并且通过有线连接或无线连接耦接到处理单元102。例如并且无限制地，一个或多个扬声器112可以位于由用户佩戴的头戴耳机中、位于正在由用户操作的车辆或电子设备中等。

摄像机120被配置来捕获用户的周围环境的图像，如感兴趣对象的一个或多个图像。因此，摄像机120可以位于设备主体104的一部分中，所述部分允许摄像机120从用户的视角捕获图像。摄像机120可以位于设备主体104的第二侧106的一部分中。在一些实施方案中，设备主体104的第二侧106在信息助理100的操作期间背对用户、面朝一个或多个感兴趣对象。在一些实施方案中，可以将摄像机210定位在用户的身体(例如，头部、手臂、手部等)上，和/或定位在用户正在操作的一个或多个其它设备(例如，电子设备、车辆等)上，如定位在用户行进所在的车辆上。

另外，在各种实施方案中，一个或多个摄像机120被配置来捕获用户的图像。例如并且无限制地，摄像机120可以捕获用户(例如，用户的脸、眼睛、身体、肢体等)的图像，并且将图像传输到处理单元102。处理单元102随后分析图像来确定用户的眼睛注视方向、用户指向的方向、是否正在由用户做出具体姿势(例如，手部姿势、手臂姿势、面部姿势等)、用户的手臂和/或腿的位置等。基于对图像的分析，处理单元102随后可以确定正在由用户靶向的感兴趣对象。此外，在一些实施方案中，摄像机120识别姿势和/或确定用户的手臂和/或腿部的位置。

I/O设备(例如，I/O设备122和I/O设备124)可包括一种或多种类型的传感器，所述传感器使得信息助理100能够识别感兴趣对象和/或确定感兴趣对象的一个或多个特性。例如并且无限制地，I/O设备可包括一个或多个图像传感器(例如，可见光传感器、红外传感器等)、深度传感器和/或一个或多个听觉传感器，这些传感器获取包括图像数据、热数据、深度数据和/或音频样本的不同类型的传感器数据，以用于由处理单元102分析。在相同实施方案或其它实施方案中，I/O设备可包括获取其它类型的传感器数据的一个或多个射频(RF)传感器、光谱仪、传感器阵列(例如，分子传感器、化学传感器等)、层析成像传感器等。例如并且无限制地，RF传感器、光谱仪、传感器阵列和/或层析成像传感器可以用来通过检测第一类型的传感器数据(例如，图像数据、音频数据等)和第二类型的传感器数据(例如，气味特征或气化化学组成、光谱数据、电磁能量、层析成像数据等)来确定对象的组成。随后可以将对象的组成与存储在远程数据库或本地数据库中的参考组成进行比较，以便基于一种或多种类型的传感器数据来识别对象。

在一些实施方案中，I/O设备可包括一个或多个运动传感器、加速度计、罗盘、全球定位系统(GPS)接收器、陀螺仪、生理学传感器、脑电图仪(EEG)、肌电图仪(EMG)、心电图仪(ECG)等，这些设备被配置来检测信息助理100的移动、位置和/或方位。在相同实施方案或其它实施方案中，这些类型的I/O设备可以用来检测用户姿势和/或触发对姿势或感兴趣对象的检测，如以下结合图2A进一步详细地描述。另外，在一些实施方案中，I/O设备可以用来确定正在由用户靶向哪一个对象(如果有的话)。例如并且无限制地，GPS接收器可以用来确定用户的位置，并且罗盘和/或陀螺仪可以用来确定信息助理100正在指向的方向(例如，用户正在使信息助理100指向的方向)。GPS位置和方向随后可以用来确定正在由用户靶向的感兴趣对象，如结合图7进一步详细地描述。

在一些实施方案中，I/O设备包括一个或多个通信设备，如RF通信设备(例如，802.11x设备、模块、蜂窝无线电等)、近场通信(NFC)标签、NFC阅读器、红外通信设备等。通信设备可以被配置来将信息传输到麦克风114、扬声器112、摄像机120和/或其它I/O设备，和/或从麦克风114、扬声器112、摄像机120和/或其它I/O设备接收信息。另外，通信设备可以被配置来从远程数据库中检索信息和/或将信息存储于远程数据库中(例如，通过局域连接和/或互联网来进行)。

处理单元102被配置来从麦克风114、摄像机120和一个或多个输入/输出(I/O)设备接收信号，并且单独地或以组合方式处理信号，以便确定感兴趣对象的身份和/或特性。在一些实施方案中，处理单元102还被配置来将信号传输到扬声器112和/或显示器，以便告知用户感兴趣对象的身份和/或感兴趣对象的一个或多个特性。在相同实施方案或其它实施方案中，处理单元102还被配置来将信号传输到一个或多个I/O设备，以便告知用户感兴趣对象的身份和/或感兴趣对象的一个或多个特性。例如并且无限制地，处理单元102可以将信号传输到模块，以便将听觉信息、视觉信息或触觉信息提供到正在由用户操作的设备。

存储器110可以存储一个或多个应用程序，所述一个或多个应用程序由处理单元102执行，以对从麦克风114、摄像机120和一个或多个输入/输出(I/O)设备接收的数据执行分析。另外，在一些实施方案中，存储器110存储数据库，所述数据库包括参考信息(例如，图像数据、频谱数据、查找表、音频数据、地理数据、语言模型等)，可以将从麦克风114、摄像机120和一个或多个输入/输出(I/O)设备接收的数据与所述参考信息进行比较，从而确定感兴趣对象的身份和/或特性。

图2A和图2B示出了根据各种实施方案的用于操作图1的信息助理100的技术。如图所示，在一些实施方案中，信息助理100可以使得用户能够将信息助理100定向成朝向感兴趣对象210的方式附接到用户。例如并且无限制地，可以将信息助理100附接到用户的手臂和/或手部，从而允许用户通过指向感兴趣对象210来靶向感兴趣对象210，以用于由信息助理100识别和/或表征。另外，在一些实施方案中，可以将信息助理100(和/或信息助理100的一个或多个组件)附接到用户的其它部分，如用户的头部、肩部、躯干等。

在各种实施方案中，用户可以执行多模态动作来与信息助理100交互。在一些实施方案中，多模态动作包括方向性姿势和触发事件。例如并且无限制地，如图2A所示，用户可以通过指向或看着感兴趣对象210和/或通过使信息助理100指向感兴趣对象210来做出方向性姿势。用户随后可以通过麦克风114向信息助理100说出语音提示，如通过发问：“那是什么”或“那是什么类型的海龟？”，从而口头地触发信息助理100。作为响应，信息助理100确定哪一个对象正在由用户靶向(例如，基于用户的手臂或眼睛注视的方向来确定)，并且分析从摄像机120和/或一个或多个I/O设备接收的数据(例如，从I/O设备122和/或I/O设备124接收的图像数据、声音数据、感官数据等)，以便识别和/或表征对象210。另外，提供给用户的信息的类型可取决于语音提示。例如并且无限制地，信息助理100可以分析语音提示来确定由用户请求的特定类型的信息(例如，海龟的种类)。信息助理100随后可以通过扬声器112、I/O设备、显示器等将关于感兴趣对象210的信息提供给用户。

在相同实施方案或其它实施方案中，方向性姿势可包括指示将要由信息助理100分析的感兴趣对象210的任何方式。方向性姿势的实例包括但不限于手部姿势、肢体姿势、眼睛注视姿势和利用如信息助理100、传感器、指向设备等对象的姿势。如以上所述，信息助理100可以使用包括在设备主体104中的摄像机120或I/O设备来检测方向性姿势。在相同实施方案或其它实施方案中，信息助理100可以使用与设备主体104分开并且通过有线连接或无线连接耦接到信息助理100的摄像机120或I/O设备来检测方向性姿势。例如并且无限制地，信息助理100可以通过安装在用户的头部(例如，头戴式显示器、耳机等)或身体上的眼睛注视传感器，和/或通过面向用户但是没有直接附接到用户的环境安装式眼睛注视传感器(例如，眼睛注视检测系统)来检测眼睛注视姿势。结合图5A至图7描述了方向性姿势检测传感器的其它实例。

由信息助理100辨别的触发事件可以包括但不限于语音提示、以运动为基础的触发事件、以时间为基础的触发事件、输入设备触发事件、隐式触发事件等。例如并且无限制地，语音提示可包括口头查询(例如，“X是什么？”或“那是什么类型的X？”)和/或语音命令(例如，“分析X”或“搜索X”)。在一些实施方案中，以运动为基础的触发事件包括但不限于信息助理100或耦接到信息助理100的I/O设备的移动(例如，旋转、轻敲、摇动等)。以时间为基础的触发事件可包括执行任何方向性姿势达指定的一段时间。例如并且无限制地，用户可以做出并且保持手部姿势、肢体姿势、眼睛注视姿势等达指定的一段时间，以便触发信息助理100来识别和/或表征正在由方向性姿势靶向的感兴趣对象210。

输入设备触发事件可以包括但不限于按下信息助理100上或与信息助理100相关联的按钮，和/或以意图触发信息助理来识别和/或表征感兴趣对象210的方式来与耦接到信息助理100的I/O设备交互。隐式触发事件可以包括但不限于指示用户对用户当前正在看着或指向的具体对象感兴趣的准则。在一些实施方案中，这类准则包括用户的生理状态变化，如瞳孔扩张或心率。例如并且无限制地，用户可以在他或她的瞳孔扩张时和/或在用户的心率增加时触发信息助理100。

此外，在一些实施方案中，语音提示可以改变方向性姿势，或者可以使用语音提示代替方向性姿势来靶向感兴趣对象210。例如并且无限制地，如果用户说出方向性语音提示“什么类型的车在我右侧”，那么信息助理100可以检测当前方向性姿势(例如，用户的身体位置和/或眼睛注视的方向)，并且分析与在方向性姿势的右侧的对象相关联的数据。

一旦信息助理100确定已接收到多模态动作(例如，方向性姿势和触发事件)，信息助理100就将与感兴趣对象210相关联的数据(例如，颜色数据、深度数据、光谱数据、音频数据等)与周围环境中与感兴趣对象210无关的其它数据隔离。例如并且无限制地，如图2B所示，在信息助理100包括摄像机120的实施方案中，方向性姿势可以用来捕获感兴趣对象210的一个或多个图像(例如，机械地使用云台(pan-tilt)机构或通过后处理)，和/或分析一个或多个图像以在视觉上隔离感兴趣对象210。

隔离感兴趣对象210可包括任何有效方式的图像处理，包括但不限于裁切图像、对包括在图像中的对象执行边缘检测、将对象辨别算法应用于图像、将图像与包括在数据库中的一个或多个图像进行比较等。例如并且无限制地，处理单元102(或与信息助理100通信的远程服务器)可以分析由摄像机120获取的图像来执行场景分析。在一些实施方案中，场景分析包括确定图像中的哪些部分包括感兴趣对象210和哪些部分与感兴趣对象210无关。随后可以将图像中与感兴趣对象210有关的部分与存储在数据库中的数据进行比较，以便确定感兴趣对象210为海龟和/或确定海龟的物种。关于感兴趣对象210的信息随后可以由信息助理100传达到用户。在相同实施方案或其它实施方案中，可以检测包括在由摄像机120和/或I/O设备获取的一个或多个图像中的多个对象，并且方向性姿势和/或触发事件可以用来隔离正在由用户靶向的感兴趣对象210。随后由信息助理100分析感兴趣对象210。

在一些实施方案中，从摄像机120和/或I/O设备接收的数据是通过将所述数据与存储在数据库中的数据进行比较来分析。另外，在将数据与包括在数据库中的数据进行比较之前和/或之后，处理单元102可以将一种或多种算法应用于数据。如以上所述，各种类型的数据处理技术可以用来确定感兴趣对象210的身份和/或特性，所述技术例如但不限于图像辨别技术、听觉技术、光谱技术、地理技术等。此外，可以组合本文所述的数据分析技术中的任何一种来识别和/或表征感兴趣对象210。在一些实施方案中，由信息助理100获取的数据被传输到远程服务器并且在远程分析。分析的结果随后被传输回到信息助理100并且提供给用户。

在各种实施方案中，一旦将感兴趣对象210被识别为特定对象(例如，金门大桥)或一般对象(例如，橡树或法式炸薯条)，信息助理100将查找与所识别对象相关联的信息。信息助理100可以从本地来源(例如，本地知识库、的本地副本等)和/或从远程服务器(例如，等)获取这类信息。另外，信息助理100可以基于所识别对象的类型来访问特定数据库。例如并且无限制地，如果感兴趣对象210为叶子或树，那么信息助理100可以访问已知叶子、植物和树的数据库(例如，LeafSnap^TM)。

在一些实施方案中，信息助理可以获悉感兴趣对象210位于用户的环境中的哪里，并且将来记住那些对象的位置，以便允许用于原始用户或另一用户的更有效辨别。例如并且无限制地，如果信息助理100是针对室内情境(setting)加以实现，那么信息助理100可以获悉用户的家具位于哪里，并且在初始训练阶段之后，可以基于所存储的位置来辨别家具。

如果信息助理100没有辨别出感兴趣对象210，那么用户可以训练信息助理100来辨别感兴趣对象210。这个信息则可以在本地存储或远程存储(例如，存储在云存储装置中)，以便使得信息能够在以后由用户和/或由信息助理100的其他用户访问。因此，信息助理100可以从其他用户通过远程服务器与信息助理100的交互来获悉，从而使得信息助理100能够利用社群的“集体智慧”。

图3示出了根据各种实施方案的可以将图1的信息助理100的不同组件附接到用户的位置。如图所示，信息助理100的一个或多个组件可以附接到用户的手部/手指310、手腕312、前臂314，和/或上臂/肩部316。例如并且无限制地，可以将信息助理100的设备主体104附接到用户的前臂314(如图2A所示)，使得用户能够使信息助理100指向感兴趣对象210的方向。然而，在相同实施方案或其它实施方案中，可以将摄像机120、麦克风114和/或I/O设备(例如，RF传感器、光谱仪、传感器阵列、层析成像传感器等)中的任何设备耦接到用户的手部/手指310、手腕312，和/或上臂/肩部316。在一些实施方案中，一个或多个I/O设备耦接到用户的指甲，并且任选地使用身体的电场作为电源和/或通信信道。在其它实施方案中，I/O设备可包括在放置于用户的手指上的套环中，如用于执行接近传感。

在一些实施方案中，可以将摄像机120、麦克风114和/或I/O设备耦接到用户的手部/手指310，以便使得用户能够以靠近感兴趣对象210和/或与感兴趣对象210接触的方式收集数据。例如并且无限制地，用户可以使用耦接到用户的手指的I/O设备(例如，传感器阵列、光谱仪、层析成像传感器)来从用户想要识别或表征的食物项目收集数据。用户随后可以使用如“这是什么类型的食物？”或“这是素食吗？”的语音提示来使(例如，触发)信息助理100分析正在由用户靶向的感兴趣对象210。响应于方向性姿势和触发事件，信息助理100从I/O设备、摄像机等获取数据，并且使数据在本地处理和/或远端处理，以便确定食物的身份和/或特性。一旦处理完成，信息助理100可随即通过指示例如但不限于食物的类型、食物中包括的成分和/或食物是否为素食来响应。在一些实施方案中，通过参考从其他用户接收的数据来执行这种类型的详细分析，所述其他用户已从相同或类似类型的感兴趣对象获取了数据。例如并且无限制地，当足够的用户从某一类型的食物获取数据时，与那种类型的食物相关联的数据可以被存储在合作数据库中并且由信息助理100参考，以便确定用户已靶向包括与存档食物项目中包括的那些成分相同或类似的成分的感兴趣对象210。

在相同实施方案或其它实施方案中，可以将以上所述的信息助理100的组件中的任何组件附接到用户的手腕312和/或上臂/肩部316。例如并且无限制地，可以将摄像机120附接到用户的上臂/肩部316来跟踪用户的手臂和正在由用户靶向(例如，通过手指指向)的感兴趣对象210的移动。另外，可以将一个I/O设备附接到用户的手腕312，可以将另一I/O设备附接到用户的上臂/肩部316，并且I/O设备相对于彼此的位置可以用来检测方向性姿势和/或触发事件，如以下结合图4A和图4B所述。

图4A和图4B示出了根据各种实施方案的基于附接到用户手臂的I/O设备来检测方向性姿势和/或触发事件的技术。如图所示，可以将两个或更多个I/O设备附接到用户(例如，用户的手腕312和用户的上臂/肩部316)。I/O设备的相对位置随后可以用来检测由用户做出的方向性姿势和/或触发事件。例如并且无限制地，可以确定位于用户的手腕312上的I/O设备410相对于位于用户的上臂/肩部316上的I/O设备415的位置，以便确定用户指向的方向420。另外，I/O设备410、415中的一个或多个的绝对位置(例如，地理位置)可以用来确定由用户做出的方向性姿势。在各种实施方案中，I/O设备可包括红外传感器、RF传感器、可见光传感器和/或其它类型的传感器，所述传感器使用技术(例如，三角测量、三边测量等)来确定用户的肢体相对于用户身体的其余部分在二维或三维中的相对位置。另外，在一些实施方案中，可以将I/O设备安装在戒指、智能手表、腕带、指甲等上。此外，I/O设备可以使用加速度计、陀螺仪、电极和其它类型的传感器，所述传感器测量用户肢体的加速度和速度和/或用户肌肉的活动，以便确定肢体、手部和/或手指的位置(例如，通过Thalmic Labs^TM的Myo^TM来确定)。一旦确定用户的手部/手指310、手腕312、前臂314，和/或上臂/肩部316相对于用户身体的位置，信息助理就可以生成二维矢量或三维矢量(例如，方向420)，所述二维矢量或三维矢量可以作为方向性姿势被传输到信息助理100，或另外由信息助理100处理为方向性姿势。

图5A和图5B示出了根据各种实施方案的利用图1的信息助理100来检测方向性姿势和/或触发事件的技术，所述信息助理实现于汽车环境中。如以上所述，信息助理100的一个或多个组件可以与信息助理100的设备主体104分开。例如并且无限制地，如图所示，可以在用户后方将摄像机120-1(或其它类型的I/O设备)设置在汽车的车顶上和/或汽车车厢内，以便捕获由用户做出的方向性姿势、触发事件，和/或感兴趣对象的图像。另外，在一些实施方案中，将面向用户的摄像机120-2(或其它类型的I/O设备)耦接到信息助理100，以便检测由用户做出的方向性姿势(例如，手臂指向、眼睛注视方向等)和/或触发事件。摄像机120-1和摄像机120-2中的一个或两个可包括以上所述的任何类型的传感器，如图像传感器、深度传感器、红外传感器等。此外，摄像机120-1和摄像机120-2中的一个或两个可以是能够向左和向右摇摄并且向上和向下倾斜的云台摄像机。

关于感兴趣对象210(例如，图5A和图5B中的树)的信息可以经由位于汽车车厢中的扬声器112来提供给用户。此外，尽管在图5A中未示出，但是一个或多个麦克风114可包括在汽车环境中，以便获取由用户说出的语音提示和/或从环境获取音频样本，从而辅助分析感兴趣对象210。

图6A至图6D示出了根据各种实施方案的用于确定正在由图1的信息助理100的用户靶向的感兴趣对象210的技术，所述信息助理实现于汽车环境中。如图所示，信息助理100可包括摄像机120或其它类型的I/O设备，所述摄像机或其它类型的I/O设备面向用户的环境并且捕获潜在的感兴趣对象210的图像。在一些实施方案中，摄像机120是广角摄像机，所述广角摄像机使用至少90°的视角605，并且在一些实施方案中使用至少120°或最多360°全景的视角605来捕获图像。随后使用由用户做出的方向性姿势的方向420来隔离包括在广角图像中的感兴趣对象210。

在各种实施方案中，方向420用来确定视角605的分角610(例如，图6C所示的围绕树的矩形区域)。随后，可以处理一个或多个广角图像以隔离位于分角610内的感兴趣对象210(例如，产生图6D所示的图像)。随后，分析处理过的图像(例如，图6D)(其包括所隔离的感兴趣对象210)来识别和/或表征感兴趣对象210。在一些实施方案中，使用以上结合图1至图5A所述的技术中的一种或多种来确定方向性姿势的方向420。另外，可以使用以上结合图1至图5A所述的数据分析技术中的一种或多种来分析感兴趣对象210的处理过的图像。

图7示出了根据各种实施方案的基于全球定位系统(GPS)设备来确定正在由用户靶向的感兴趣对象210的技术，所述全球定位系统(GPS)设备耦接到图1的信息助理100。如以上所述，信息助理100可包括GPS接收器，所述GPS接收器被配置来检测用户的位置705。随后，一旦已经确定用户的位置705和感兴趣对象210相对于用户的方向420，就可确定感兴趣对象的位置710。

在一些实施方案中，一旦确定用户的位置705，就使矢量在方向性姿势的方向420上从用户的位置705延伸。随后，矢量可以与地理数据(例如，地图数据，如地图或街景)交叉参考，以便确定感兴趣对象210的身份(例如，房屋或陆标)。另外，一旦确定感兴趣对象210的身份，信息助理100就可以获取关于感兴趣对象210的其它信息，并且将其它信息提供给用户。在相同实施方案或其它实施方案中，一旦确定用户的位置705，信息助理100就可以获取与位置705相关联的周围区域的缓存图像(例如，通过街景获取)，并且基于方向420来分析图像以便识别感兴趣对象210。例如并且无限制地，一旦确定用户的位置705，方向420就可以用来确定将要分析哪一个(哪些)图像方位，从而识别感兴趣对象210。

一般来说，尽管图5A至图7所示的信息助理100的组件与设备主体104分开，但是这些组件可以被配置来以与以上结合图1至图4B所述的大致上类似的方式检测方向性姿势及触发事件、将数据传输到处理单元102，和/或将关于感兴趣对象210的信息提供给用户。因此，图5A至图7所示的技术中的任何方面可以与以上结合图1至图4B所述的技术中的任何方面组合来识别和/或表征感兴趣对象210。

图8是根据各种实施方案的通过信息助理100来识别正在由方向性姿势靶向的对象的特性的方法步骤的流程图。尽管结合图1至图7的系统描述了方法步骤，但是本领域技术人员将理解的是，被配置来以任何顺序执行方法步骤的任何系统都落在本发明的范围内。

如图所示，方法800开始于步骤810，其中处理单元102确定是否正在由方向性姿势靶向对象210。可以使用以上所述的技术中的任何技术来由方向性姿势靶向感兴趣对象210。例如并且无限制地，在一些实施方案中，处理单元102分析通过一个或多个I/O设备接收的传感器数据(例如，图像数据和/或深度数据)，以便确定由用户做出的方向性姿势(例如，手部/手臂指向、眼睛注视、语音提示等)是否与周围环境中的对象相交。在一些实施方案中，语音提示包括方向性姿势(例如，方向性语音提示)，如通过提示信息助理100来识别在用户右边/左边、在相对于用户的罗盘方向(例如，北、东、南、西)上、在相对于用户的角位置(例如，相对于用户面向的方向的70°)处、在相对于用户的顺时针位置(例如，在用户的2点钟方向)处等的对象。在相同实施方案或其它实施方案中，处理单元102可以分析通过一个或多个I/O设备接收的加速度和/或方位数据，以便确定信息助理100正在指向对象210和/或用户身体的一部分正在指向对象210。例如并且无限制地，加速度计和/或陀螺仪可以确定信息助理100已从第一位置(例如，在用户的侧面，面向地面)移动到第二定位(例如，在用户前方指出，面向大致上平行于地面的方向)。因此，在各种实施方案中，当用户指向对象210、看着对象210、使信息助理100指向对象210、说出语音提示等时，处理单元102可以确定对象210正在由方向性姿势靶向—并且也可以确定与方向性姿势相关联的方向性数据。

如果处理单元102确定方向性姿势正在靶向感兴趣对象210，那么方法进行至步骤820。如果并未由方向性姿势靶向感兴趣对象210，那么处理单元102继续监视方向性姿势。

接着，在步骤820处，处理单元102确定是否在方向性姿势正在靶向对象210时接收触发事件。如以上所述，由信息助理100辨别的触发事件可以包括但不限于语音提示、以运动为基础的触发事件、以时间为基础的触发事件、输入设备触发事件、隐式触发事件等。在一些实施方案中，通过从一个或多个I/O设备(例如，从EMG和肌肉活动传感器)接收的传感器数据(例如，图像数据、音频样本、加速度计数据、陀螺仪数据等)来检测触发事件，如以上所述。例如并且无限制地，可以通过由处理单元102分析通过摄像机120获取的一个或多个图像来确定用户已眨眼、做出手部/手臂姿势等，从而检测以运动为基础的触发。在相同实施方案或其它实施方案中，可以通过分析从加速度计和/或陀螺仪接收的数据来确定信息助理100已经以具体方式移动(例如，旋转、升降、摇动等)，从而检测以运动为基础的触发。另外，在一些实施方案中，语音提示可以同时充当靶向感兴趣对象210的方向性姿势(如以上所述)以及指示将针对感兴趣对象210而获取的信息的触发事件。

另外，可以通过分析由摄像机120、麦克风114和/或一个或多个I/O设备接收的数据来确定对象210已经由方向性姿势靶向指定的一段时间(例如，1秒到3秒)，从而检测以时间为基础的触发事件。例如并且无限制地，处理单元102可以确定已靶向对象210指定的一段时间的手部姿势、肢体姿势、眼睛注视姿势等。

如果在方向性姿势正在靶向对象210时接收触发事件，那么方法800进行至步骤830。如果在方向性姿势正在靶向对象210时没有接收触发事件，那么方法800返回步骤810。

或者，在一些实施方案中，可以使步骤810和步骤820的顺序颠倒，以使得步骤820在步骤810之前执行。例如并且无限制地，在步骤820处，处理单元102可以首先确定是否已经接收触发事件。如果没有接收触发事件，那么处理单元102可以继续监视触发事件。如果接收触发事件，那么方法800随后可以进行至步骤810，其中处理单元102接着确定正在由方向性姿势靶向感兴趣对象210。如果当触发事件由信息助理100接收时方向性姿势正在靶向对象210，那么方法800进行至步骤830。

在步骤830处，信息助理100获取与正在由方向性姿势靶向的感兴趣对象210相关联的传感器数据。信息助理100可以通过一个或多个I/O设备、麦克风114和/或摄像机120获取传感器数据。例如并且无限制地，如以上所述，信息助理100可以通过一个或多个图像传感器、深度传感器和/或听觉传感器获取图像数据、深度数据和/或音频样本。另外，信息助理100可以通过一个或多个I/O设备获取传感器数据，所述一个或多个I/O设备如射频(RF)传感器、光谱仪、传感器阵列、层析成像传感器等。

随后，在步骤840处，处理单元102分析与感兴趣对象210相关联的一种或多种类型的传感器数据，以便确定感兴趣对象210的至少一个特性。在各种实施方案中，处理单元102根据以上结合图1至图7所述的技术中的任何技术来分析传感器数据，包括例如但不限于分析从一个或多个图像传感器(例如，可见光传感器、红外传感器等)、深度传感器、听觉传感器、RF传感器、光谱仪、传感器阵列(例如，分子传感器、化学传感器等)和/或层析成像传感器获取的一种或多种类型的传感器数据(例如，第一类型的传感器数据和第二类型的传感器两者)。

在一些实施方案中，由信息助理100在本地分析与感兴趣对象210相关联的传感器数据中的至少一部分。在相同实施方案或其它实施方案中，与感兴趣对象210相关联的传感器数据中的一些或全部可以被传输到远程服务器并且在远程分析。分析的结果随后可以被传输回信息助理100。另外，如以上所述，可以基于结合一个或多个其它类型的传感器数据分析第一类型的传感器数据来确定感兴趣对象210的单个特性。

在步骤850处，信息助理100将感兴趣对象210的至少一个特性(例如，身份、类型、组成等)呈现给用户。例如并且无限制地，可以通过扬声器112、I/O设备、显示器等将感兴趣对象210的至少一个特性呈现给用户。方法800随后结束。

图9为根据各种实施方案的可以结合图1的信息助理100来实现的计算设备的方框图。如图所示，计算设备900包括处理单元102、一个或多个输入/输出(I/O)设备904(例如，图像传感器、深度传感器、听觉传感器、RF传感器、光谱仪、传感器阵列、层析成像传感器等)和存储设备110。存储设备110包括应用程序912，所述应用程序被配置来与一个或多个数据库914交互。

处理单元102可包括中央处理单元(CPU)、数字信号处理单元(DSP)等。I/O设备904可包括输入设备、输出设备和能够接收输入并提供输出的设备。存储设备110可包括存储模块或存储模块的集合。存储设备110内的软件应用程序912可以由处理单元102执行来实现计算设备900的整体功能，并且因此将信息助理100的操作进行总体协调。这些操作包括但不限于以上结合图1至图7以及图8的流程图所讨论的各种技术。数据库914可以存储使得信息助理100能够识别方向性姿势和触发事件的数据，以及使得信息助理100能够将关于感兴趣对象100的信息提供给用户的数据(例如，图像和/或声音辨别算法、本地知识库、Wikipedia^TM的本地副本等)。

计算设备900总体上可以是微处理器、特殊应用集成电路(ASIC)、系统级芯片(SoC)、如平板计算机或手机的移动计算设备、媒体播放器等。一般来说，计算设备900被配置来协调信息助理100的整体操作。被配置来实现信息助理100的功能性的任何技术上可行的系统都落在本发明的范围内。

总之，信息助理100确定用户正在靶向感兴趣对象100(例如，通过方向性姿势靶向)。如果在正在靶向感兴趣对象210时信息助理100接收触发事件，那么与感兴趣对象210相关联的数据由信息助理获取。信息助理100随后分析所获取的数据来确定感兴趣对象210的至少一个特性，并且将至少一个特性提供给用户。

本文所述的技术的至少一个优点在于，用户能够获取关于位于用户的环境中的对象的特定信息。另外，用户能够获取关于用户无法准确识别的对象的信息，所述对象如不具有官方名称的对象、可以通过多个名称指代的对象，和/或难以精确描述的对象。此外，所公开的技术使得用户能够使用便利的语音提示、姿势和/或其它类型的触发来获取关于对象的信息。

已出于说明目的提出各种实施方案的描述，但是这些描述并不意图是详尽的或受限于所公开的实施方案。在不背离所描述实施方案的范围和精神的情况下，许多修改和变化对于本领域的一般技术人员来说是明显的。

本发明实施方案的各个方面可体现为系统、方法或计算机程序产品。因此，本公开的各个方面可以采用以下形式：完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或结合软件方面与硬件方面的实施方案，所述实施方案在本文中全部可总体上称为“电路”、“模块”或“系统”。另外，本公开的各个方面可采用体现在一个或多个计算机可读介质中的计算机程序产品的形式，所述一个或多个计算机可读介质上体现有计算机可读程序代码。

可使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、装置或设备或前述各项的任何适合组合。计算机可读存储介质的更具体实例(并非详尽名单)将包括以下介质：具有一个或多个导线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程序只读存储器(EPROM或闪存存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备或前述介质的任何适合组合。在本文件的上下文中，计算机可读存储介质可以是任何有形介质，所述有形介质可含有或存储供指令执行系统、装置或设备使用或结合指令执行系统、装置或设备来使用的程序。

以上参照根据本公开的实施方案的方法、装置(系统)和计算机程序产品的流程图图解和/或方框图来描述了本公开的各个方面。将理解的是，流程图图解和/或方框图中的每一个方框以及流程图图解和/或方框图中方框的组合可由计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器来产生一种机器，以使得通过计算机或其它可编程数据处理装置的处理器来执行的指令允许实现在流程图和/或方框图的一个或多个方框中指定的功能/操作。这类处理器可不限于通用处理器、专用处理器、特殊应用处理器或现场可编程处理器。

附图中的流程图和方框图示出根据本公开的各种实施方案的系统、方法和计算机程序产品的可能实现方式的体系结构、功能性和操作。在这方面，流程图或方框图中的每一个方框可以表示代码的模块、区段或部分，其包括用于实现所指定逻辑功能的一个或多个可执行指令。还应指出的是，在一些替代实现方式中，方框中提到的功能可能不按附图中提到的顺序出现。例如，连续展示的两个方框实际上可以大致上同时执行，或者这些方框有时可以按相反的顺序执行，这取决于所涉及的功能性。还将指出的是，方框图和/或流程图图解中的每一个方框以及方框图和/或流程图图解中的方框的组合可以由基于专用硬件的系统或者专用硬件与计算机指令的组合来实现，所述基于专用硬件的系统执行指定的功能或动作。

本发明已在以上参照特定实施方案加以描述。然而，本领域的一般技术人员将理解的是，在不背离如随附权利要求书阐明的本发明的更广泛精神和范围的情况下，可对所述特定实施方案做出各种修改和变化。例如并且无限制地，虽然本文中的许多描述涉及可获取与感兴趣对象相关联的数据的特定类型I/O设备，但是本领域技术人员将了解的是，本文所述的系统和技术可适用于其它类型的I/O设备。因此，将前述描述和图式视为说明性而不是限制性意义。

虽然前文针对本公开的各个实施方案，但是可在不背离本公开的基本范围的情况下设计本公开的其它和另外的实施方案，并且本公开的范围由随附的权利要求书来确定。

Claims

1.一种用于识别对象的特性的方法，所述方法包括：

确定所述对象是方向性姿势的目标；

检测在所述对象是所述方向性姿势的所述目标时发生的触发事件；

响应于所述触发事件，通过一个或多个传感器获取与所述对象相关联的传感器数据；以及

分析所述传感器数据来识别所述对象的至少一个特性。

2.如权利要求1所述的方法，其中确定所述对象是所述方向性姿势的所述目标包括确定用户的手部正在指向所述对象。

3.如权利要求1所述的方法，其中确定所述对象是所述方向性姿势的所述目标包括确定所述用户正在看着所述对象。

4.如权利要求3所述的方法，其中确定所述对象是所述方向性姿势的所述目标还包括跟踪所述用户的眼睛注视方向。

5.如权利要求1所述的方法，其中确定所述对象是所述方向性姿势的所述目标包括检测方向性语音提示。

6.如权利要求1所述的方法，其中检测所述触发事件包括检测身体姿势。

7.如权利要求1所述的方法，其中检测所述触发事件包括检测语音提示。

8.如权利要求1所述的方法，其中检测所述触发事件包括确定所述对象已由所述方向性姿势靶向了一段阈值时间。

9.如权利要求1所述的方法，其中所述传感器数据包括图像数据和声学数据中的至少一个。

10.一种用于识别对象的特性的系统，其包括：

存储器；

多个传感器，其被配置来获取与所述对象相关联的传感器数据；以及

处理器，其耦接至所述存储器和所述多个传感器，所述处理器被配置来：

确定所述对象是方向性姿势的目标；

响应于所述触发事件，使第一类型的传感器数据和第二类型的传感器数据由所述多个传感器获取；以及

分析所述第一类型的传感器数据和所述第二类型的传感器数据来识别所述对象的至少一个特性。

11.如权利要求10所述的系统，其中所述多个传感器包括图像传感器和麦克风，所述第一类型的传感器数据包括图像数据，并且所述第二类型的传感器数据包括音频样本。

12.如权利要求10所述的系统，其中所述多个传感器包括光谱仪，并且所述第一类型的传感器数据包括光谱数据。

13.如权利要求10所述的系统，其中所述多个传感器包括图像传感器和传感器阵列，所述第一类型的传感器数据包括图像数据，并且所述第二类型的传感器数据包括所述对象的气化化学组成。

14.如权利要求10所述的系统，其还包括摄像机，所述摄像机耦接到所述处理器并且被配置来获取一个或多个图像，其中所述处理器被配置来通过分析所述一个或多个图像以检测手部姿势、手臂姿势和面部姿势中的至少一个，从而检测所述触发事件。

15.如权利要求10所述的系统，其中所述多个传感器包括摄像机，所述摄像机被配置来获取一个或多个图像，并且所述处理器被配置来通过分析所述一个或多个图像以确定用户的手部正在指向所述对象，从而确定所述对象是所述方向性姿势的所述目标。

16.如权利要求10所述的系统，其中所述多个传感器包括摄像机，所述摄像机被配置来获取一个或多个图像，并且所述处理器被配置来通过分析所述一个或多个图像以确定所述用户的眼睛注视方向，从而确定所述对象是所述方向性姿势的所述目标。

17.如权利要求16所述的系统，其中所述处理器被配置来通过基于所述一个或多个图像确定所述眼睛注视方向靶向了所述对象一段阈值时间，从而检测所述触发事件。

18.如权利要求10所述的系统，其还包括耦接到所述处理器的加速度计和陀螺仪中的至少一个，其中所述处理器被配置来基于从所述加速度计和所述陀螺仪中的所述至少一个接收的方位数据而确定所述对象是所述方向性姿势的所述目标。

19.如权利要求10所述的系统，其还包括手臂安装式传感器，所述手臂安装式传感器耦接到所述处理器并且被配置来确定所述用户正在指向的方向，其中所述多个传感器包括摄像机，所述摄像机被配置来获取一个或多个图像，并且所述处理器被配置来通过基于所述用户正在指向的所述方向分析所述一个或多个图像，从而确定所述对象是所述方向性姿势的所述目标。