CN109547753B

CN109547753B - 提供由车辆的场景相机捕获的至少一个图像的方法和系统

Info

Publication number: CN109547753B
Application number: CN201910041956.9A
Authority: CN
Inventors: 王乐晶; 托马斯·昂特
Original assignee: Apple Inc
Current assignee: Apple Inc
Priority date: 2014-08-27
Filing date: 2015-02-13
Publication date: 2020-11-06
Anticipated expiration: 2035-02-13
Also published as: WO2016029939A1; US20190313063A1; US20230328207A1; US20200358984A1; CN105391970B; CN109547753A; US10375357B2; US10757373B2; CN105391970A; US20160065903A1

Abstract

本公开涉及提供由车辆的场景相机捕获的至少一个图像的方法和系统，该方法包括：提供所述多个场景相机中的相应场景相机相对于与所述车辆相关的参考坐标系的相机姿态；提供由信息捕获设备捕获的与用户有关的用户注意力数据；根据所述用户注意力数据提供相对于所述参考坐标系的至少一个注意力方向；根据所述至少一个注意力方向和所述至少一个场景相机的相应相机姿态，确定所述多个场景相机中的至少一个场景相机；以及提供由所述场景相机中的至少一个场景相机捕获的至少一个真实对象的至少一个图像。

Description

提供由车辆的场景相机捕获的至少一个图像的方法和系统

本申请是申请日为2015年2月13日、申请号为201510080928.X、发明名称为“提供由车辆的场景相机捕获的至少一个图像的方法和系统”的发明专利申请的分案申请。

该母案申请是2014年8月27日提交的PCT/EP2014/068165的部分继续申请。

技术领域

本公开涉及一种用于提供至少一个真实对象的至少一个图像的方法和系统，所述图像由安装在车辆上的多个场景相机中的至少一个场景相机捕获。

背景技术

在潜在情况中，一个人可能对真实环境中(例如，周围环境中)的对象感兴趣(通常称为“感兴趣的对象”)。这个人(这里也称为用户)可能对进一步识别出感兴趣的对象感兴趣和/或对确定类似对象感兴趣。在具体的实例中，用户可能想要查明是否可购买到相同的对象(也称为物品)和/或类似的对象。用户可能进而希望下单订购一个或多个对象(例如，相同或类似的对象)或者可能进而希望找到用于亲自检查和购买一个或多个对象的商店。

为此，例如，用户可以使用相机来捕获感兴趣的对象的图像并基于图像分析来识别相同或类似的物品。

US 8,228,364 B2公开了一种用于全方位相机的方法和系统，该全方位相机可用来记录警车周围发生的事件。该系统和方法包括全方位相机和处理由相机拍摄的图像的数字处理器。由麦克风产生的信号的方向确定感兴趣的区域。

US 6,580,373 B1公开了一种车载图像记录系统，通过记录道路表面和车辆的一部分的图像来促进安全驾驶车辆。该系统包括安装在车辆上的一个或多个相机和记录由相机捕获的图像的记录设备。在发生事故的情况下，所记录的图像可被用作安全驾驶的证据。

US 7,119,832 B1公开了一种车内视频系统，其中无线麦克风配置有双向通信能力。当接收到RF激活信号时，无线麦克风自动打开，以捕获伴随由车载视频相机捕获的图像的音频声道。安装在车内的无线麦克风控制器将RF激活信号发送到无线麦克风。当视频记录设备开始记录时，无线麦克风控制器发送RF激活信号。

此外，已知一种称为“ASAP54”的移动电话应用程序(所谓的“App”)，其允许用户在看到真实的人或杂志上的用户感兴趣的特定装束或样式时，拍摄该装束的照片。通过利用图像识别，该应用程序可以找出用户正在观察的那件衣服和许多类似的时装。采用这种方式，用户需要将他/她的移动电话上的相机聚焦在感兴趣的对象上。

发明内容

期望提供一种便于用户检索信息的方法和系统，所述信息是关于用户的周围真实环境中的感兴趣区域并且可以以电子方式存储和处理便于以后使用。

根据第一方面，公开了一种提供由安装在车辆上的多个场景相机中的至少一个场景相机捕获的至少一个真实对象的至少一个图像的方法，该方法包括：提供多个场景相机中的相应场景相机相对于与车辆相关的参考坐标系的相机姿态；提供由信息捕获设备捕获的与至少一个用户有关的用户注意力数据；从用户注意力数据中提供相对于参考坐标系的至少一个注意力方向；根据至少一个注意力方向和至少一个场景相机的相应相机姿态，确定多个场景相机中的至少一个场景相机；以及提供由至少一个场景相机捕获的至少一个真实对象的至少一个图像。

根据另一方面，公开了一种用于提供至少一个真实对象的至少一个图像的系统，包括：至少一个处理设备，所述至少一个处理设备耦接至安装在车辆上的多个场景相机和信息捕获设备，所述信息捕获设备被配置成捕获与至少一个用户相关的用户注意力数据。所述至少一个处理设备被配置成：提供多个场景相机中的相应场景相机相对于与车辆相关的参考坐标系的相机姿态；从用户注意力数据中提供相对于参考坐标系的至少一个注意力方向；根据至少一个注意力方向和至少一个场景相机的相应相机姿态，确定多个场景相机中的至少一个场景相机；以及提供由至少一个场景相机捕获的至少一个真实对象的至少一个图像。

例如，根据本公开的所述至少一个处理设备可包括一个或多个处理设备，诸如一个或多个微处理器，所述至少一个处理设备至少部分地被包含在移动设备(诸如移动电话、可穿戴式计算机、平板计算机、移动计算机(常被称为膝上型计算机)或头戴式显示器(诸如用于光学透视式增强现实应用)中、车辆中和/或适于与移动设备和/或车辆通信的服务器计算机中。所述至少一个处理设备可以被包含于这些设备的仅一种中，例如，移动设备中或服务器计算机中，或者可以是分布式系统，在该分布式系统中，由处理系统的一个或多个处理设备分配和处理一个或多个处理任务，这些处理设备被分布且彼此通信，例如通过点对点通信或经由网络。

本文针对该方法所描述的任何步骤、实施例、方面和实例可由所述至少一个处理设备等同地或类似地实施，所述至少一个处理设备被配置成(通过软件和/或硬件)执行相应的步骤、实施例、方面或实例。任何所使用的处理设备(诸如一个或多个微处理器)可以通过软件和/或硬件被配置为这样，并经由通信网络(例如经由服务器计算机或点对点通信)与一个或多个相机、显示器、传感器和/或本文所公开的任何其他部件进行通信。

根据另一方面，本公开还涉及一种计算机程序产品，其包括适于执行根据本发明的方法的软件代码部分，特别是权利要求中的任一项所阐述的方法。具体地，软件代码部分被包含在非瞬时性计算机可读介质上。软件代码部分可以被加载到如本文所描述的一个或多个处理设备(诸如微处理器)的存储器中。任何所使用的处理设备(诸如一个或多个微处理器)可以经由通信网络(例如，经由服务器计算机或点对点通信)与如本文所描述的其他设备进行通信。

附图说明

现在将参照附图描述本发明的各方面和实施例，附图中：

图1示出了根据本发明实施例的方法的流程图。

图2示出了根据本发明实施例的用于提供由安装在车辆上的至少一个相机捕获的至少一个真实对象的至少一个图像的示例性场景。

图3示出了可以结合本发明的各方面使用的一种系统格局的实施例。

图4示出了根据本发明实施例的另一示例性场景。

图5A、5B示出了根据本发明实施例的进一步的示例性场景。

图6示出了根据本发明实施例的另一示例性场景。

图7示出了根据本发明的进一步实施例的方法的流程图。

图8示出了手持移动设备的用户的场景，该移动设备具有前置相机、后置相机、以及用于识别、跟踪和/或再现感兴趣的对象的显示屏幕。

图9示出了手持移动设备的用户的另一场景，该移动设备具有前置相机、后置相机、以及用于识别、跟踪和/或再现感兴趣的对象的显示屏幕。

图10示出了根据本发明实施例的方法的流程图。

图11示出了根据本发明另一实施例的方法的流程图。

具体实施方式

现今，人们经常在车辆中花费大量时间，例如他们在前往购物、上下班或观光的路上。潜在地，当车辆沿着其道路行驶时，在车辆的周围可能存在许多不同的对象(例如，行人、行人穿着的衣服、广告海报、真实商店等)。对于坐在车辆中的人来说，使用例如配备有相机的移动设备(例如，标准相机或带有相机的移动电话)来捕获车辆周围环境中的感兴趣的对象的图像会很困难且不切实际。对于正在驾驶车辆的驾驶员来说尤其如此。驾驶员在驾驶期间不能且不允许手持移动设备以捕获图像。

在一个人正在驾车从一个地点到另一个地点的潜在示例性场景中，他或她可能发现了感兴趣的对象，例如走在车辆旁边的人行道上的行人所穿着的裙子。发明人已经发现，有利的是采用安装在车辆上的相机来捕获含有感兴趣的对象的图像，而不是驾驶员手持相机来捕获图像。

越来越多地，多个相机被安装在车辆(诸如汽车)上。发明人还认为，由每一个车载相机所捕获的图像及其处理会增加对象检测和/或识别的复杂性。因此，发明人发现，有利的是确定一个车载相机的子集(即一个或多个车载相机)并进一步处理或分析仅由所确定的车载相机的子集捕获的图像。

本公开的各方面涉及一种基于正在车辆中的用户的注意力的方向和/或位置确定多个车载相机中的至少一个来捕获真实环境的一部分的至少一个图像的方法和系统。由所确定的至少一个相机捕获的环境的至少一个图像可用来确定真实环境的一个或多个物品(即感兴趣的对象)。

根据本发明，所提供的例如由信息捕获设备捕获的用户注意力数据与用户相关。具体地，用户注意力数据表示用户的注意力是朝向真实对象(特别是感兴趣的对象)或含有该真实对象的真实环境的一部分。

根据本发明的实施例，如下面更详细阐述的，可以查看车辆周围的感兴趣的对象，并激活一个或多个车辆相机(例如通过利用声音、或手势、或凝视方向)以捕获感兴趣的对象的图像(例如，一件衣服)，然后确定是否可购买到感兴趣的对象或类似物品。

图1示出了根据本发明实施例的方法的流程图，该方法提供由安装在车辆上的至少一个相机捕获的至少一个真实对象的至少一个图像，还示出了涉及基于根据至少一个图像所确定的感兴趣的对象的示例性应用的可选步骤。图2示出了根据本发明实施例的示例性场景，用于提供由安装在车辆上的至少一个相机捕获的至少一个真实对象的至少一个图像。图3示出了可以结合本发明的各方面使用的一种系统格局的实施例。

在图2的场景中，车辆(在本实例中为汽车201)被驾驶通过真实环境220。真实环境220包括固定于环境中的真实对象，例如加油站221、树木222、建筑物223、停车标记224和道路227。真实环境220还可包括可移动的真实对象，如人226和人225。汽车201还可被看作是真实环境220的一部分。汽车201配备有安装在汽车上的多个场景相机211-214。驾驶员202正在观察或面向或指向方向203。

图3示出了用于汽车201的内部格局的实施例。设置有安装在汽车201中的两个信息捕获设备。原则上，有一个就足够了。在该实例中，信息捕获设备包括相机，这里称为用户相机205和206。汽车201还可以配备有诸如无线通信设备(例如WLAN设备或SIM卡设备)的通信设备207以及诸如微处理器的处理设备208。可以通过处理设备208单独地或与任何其他处理设备结合来执行本公开中所公开的所有步骤或部分步骤。也可以通过独立于汽车201的远程处理设备，诸如服务器计算机或移动设备，来执行所有步骤或部分步骤。在当前的情形下，汽车201可以通过通信设备207经由线缆或无线地与远程处理设备进行通信。远程处理设备可以是服务器计算机301(例如，工作站)或移动设备，例如移动电话302。

根据图1的流程图，步骤101通过信息捕获设备(诸如根据图3的相机205、206中的一个)捕获关于用户(在图2中，为驾驶员202)的用户注意力数据。用户注意力数据可以是表示用户注意力的至少一个方面的任何数据。具体地，用户注意力数据表示或编码与用户注意力的至少一个方向、至少一个位置和/或至少一个标示空间或区域相关的信息。

用户注意力可由凝视(或盯视)来标示。从用户眼睛到眼睛正在观察的方向可以表示凝视方向，这可被看作是注意力方向。此外，用户的一只眼睛或两只眼睛的视场表示凝视的用户注意力空间。用户正在观察的位置表示用户注意力的位置。

在另一实例中，用户注意力还可以由用户的脸部(例如，脸部或头部的姿态)来标示。用户脸部的姿态可以表示用户正在聚焦的位置。至少一个注意力方向可以源自脸部的姿态。在一个实施方式中，所述至少一个注意力方向可以与正面的法线方向相同。

在进一步的实例中，用户注意力可以由手指指向或指示方向、位置和/或区域的任何手势来标示。注意力方向可以通过方向轴线来建模。例如，方向轴线可以由2矢量来表示。此外，注意力方向可以通过视场来建模。例如，用户的位置可以确定视点，并且用户眼睛的视场可以限定注意力方向。在另一实例中，方向轴线的标准偏差(例如，来自脸部姿态估计的正面方向的估计误差)可以确定用于视场的一定角度(例如，垂直或水平范围)，这可以被认为是注意力方向。

例如，用户注意力数据包括但不限于以下数据中的至少一种：由一个或多个相机捕获的一个或多个图像、生物电信号(例如，眼电图)以及机械信号(例如，手压)。

在一个实施例中，信息捕获设备可包括称为用户相机的相机设备。用户相机可以捕获用户的至少一部分的至少一个用户图像。例如，安装在汽车201上的相机205(即，用户相机)可以捕获用户202的正面的图像(即，用户图像)，如图3中所示。

在另一实施例中，信息捕获设备可以是眼睛跟踪设备。眼睛跟踪设备(也称为眼睛跟踪器)可以测量用户的一个或两个眼睛的方向，并且因此可以提供用户的凝视方向。存在不同类型的眼睛跟踪方法，如眼睛附接跟踪、光学跟踪以及电势测量。眼睛附接跟踪可以实现为具有嵌入式传感器(如反射镜或磁场传感器)的特殊隐形眼镜。光学跟踪可采用相机来捕获眼睛的图像并根据图像来确定眼睛方向，例如Kaminski,Jeremy Yrmeyahu,DotanKnaan和AdiShavit发表于Machine Vision and Applications(机器视觉和应用)21.1(2009):85-98上的“Single image face orientation and gaze detection(单一图像脸部定位和凝视检测)”(下面称为“Kaminski等人的文献”)。电势测量设备可以利用置于眼睛周围的电极测量电势。一种称为眼电描计术(EOG)系统的技术可以测量电势(所测量的信号称为眼电图)。Bulling等人提出了可佩带的EOG护目镜；例如参见Bulling,Andreas,Daniel Roggen和Gerhard

发表于Journal of Ambient Intelligence and SmartEnvironments(环境智能和智能环境杂志)1.2(2009):157-171上的“Wearable EOGgoggles:Seamless sensing and context-awareness in everyday environments(可佩带的EOG护目镜：日常生活环境中的无缝感测和背景感知)”。

在另一实施例中，信息捕获设备可以是机械传感器，如压力或力传感器。例如，其测量由用户施加的力或压力。机械传感器可以是机械操纵杆。

步骤102提供用户的相对于与车辆相关的参考坐标系的至少一个注意力方向，其中所述至少一个注意力方向源自用户注意力数据。例如，用户202(即，驾驶员)的注意力方向203可以在与汽车201相关的参考坐标系209中确定或定义。注意力方向203可以指示用户202的凝视方向或脸部方向，这可以从安装在汽车201中的相机205(即，信息捕获设备)所捕获的用户202的脸部的图像(即，用户注意力数据)估计。

在一些实施方式中，注意力方向信息可包含在所捕获的用户注意力数据中。例如，眼睛跟踪器可以在输出信号中提供凝视方向。在其他实施方式中，注意力方向信息可以源自所捕获的用户注意力数据(例如，从其估计)。例如，当相机用于捕获用户脸部或眼睛的一个或多个图像时，基于如Kaminski等人的文献或Fanelli,Gabriele,Juergen Gall和LucVan Gool发表于Computer Vision and Pattern Recognition(计算机视觉和模式识别)(CVPR)2011IEEE Conference on.IEEE,2011上的“Real time head pose estimationwith random regression forests(利用随机回归森林的实时头部姿态估计)”(下面称为“Fanelli等人的文献)中所公开的计算机视觉方法，可能必须根据相机图像来估计脸部姿态或凝视光方向。根据本发明，从用户注意力数据提供相对于参考坐标系的至少一个注意力方向的步骤应该包括所有这些实施方式和实施例。

可以相对于信息捕获设备来确定注意力方向。为了使注意力方向位于与车辆相关的参考坐标系中，可能需要车辆与信息捕获设备之间的设备空间关系，例如6DOF(自由度)刚度变换。然后，可以根据相对于信息捕获设备的注意力方向以及设备空间关系来确定相对于参考坐标系的注意力方向。

可以根据校准程序来确定设备空间关系。校准程序例如是机械校准。例如，信息捕获设备(例如，相机205)可以利用机械臂以已知姿态安装在车辆(例如，汽车201)的参考坐标系中。相机205也可以以任意姿态(即，在安装时刻未知的姿态)安装。在这种情况下，相机205可捕获汽车201的一部分的图像。汽车的一部分的图像可用来基于计算机视觉方法来估计设备空间关系(例如，基于特征的姿态估计)。也可以利用另一种跟踪系统来确定车辆与信息捕获设备之间的设备空间关系。该跟踪系统可以是机械臂、光学相机系统或磁性跟踪系统，或者任何运动或位置传感器(例如，重力传感器、加速计、GPS)。

在一个实施例中，信息捕获设备是一个或多个相机或包括一个或多个相机。如图3所示，安装在汽车201内的相机205(和206)是信息捕获设备的一部分。例如，相机205和与汽车201相关的参考坐标系209具有已知的设备空间关系。可以捕获用户202脸部的至少一部分的用户图像。

可以基于各种计算机视觉方法(如Fanelli等人的文献中所提及的)根据用户图像来估计用户脸部的姿态。根据脸部姿态，可以确定正面的方向作为注意力方向。图2中所示的注意力方向203可以表示脸部方向。

根据一个实施例，多个注意力方向被确定。当用户图像包含(坐在汽车内的多个用户的)多个脸部时，可以确定多个脸部姿态。在另一实例中，用户的脸部可以移动，于是可以确定对于同一脸部的多个脸部方向。在这种情况下，可以根据多个注意力方向来估计一个主方向。可以采用不同的数学方法来从多个方向中确定主方向。例如，每个方向可具有相对于公共坐标系的角度。主方向可通过一角度确定，该角度可以计算为与多个方向相关的多个角度的平均值、最大值、最小值、中等值或均值。在图2中，注意力方向203可以是基于一个用户估计的一个方向或基于从一个或多个用户的一个或多个用户图像估计的多个注意力(例如，脸部和/或凝视)方向的主方向。

还可以从用户202的脸部的至少一部分的用户图像来估计凝视方向(例如，如Kaminski等人的文献中所提及的)。图中2所示的注意力方向203可表示凝视方向。还可以由眼睛跟踪器来估计用户202的凝视方向。

此外，当一个或多个用户图像捕获用户的手部或臂部的至少一部分时，可以根据任何适当的基于视觉的方法(例如，如de La Gorce,Martin,David J.Fleet和NikosParagios发表于Computer Vision and Image Understanding(计算机视觉和图像理解)108.1(2007):52-73的“Model-Based 3D Hand Pose Estimation from Monocular Video(从单眼视频估计的基于模型的3D手部姿态估计)”或Erol,Ali等人的“Vision-based handpose estimation:A review(基于视觉的手部姿态估计：综述)”(下面称为“Erol等人的文献”)中所提及的)从所述一个或多个用户图像中估计手部姿态。也可以如根据Erol等人的文献中所提及的方法来估计手部姿势(或通常的手势)。作为注意力方向的方向(例如指向方向)可以源自手部姿势。也可以由一个或多个用户图像来计算手部指向方向或者通常的手势。图2中所示的注意力方向203可表示这样的手部指向方向。

根据一个实施例，从同一用户注意力数据(例如，从由相机捕获的同一用户图像)估计用于一个或多个用户的脸部姿态、凝视方向和/或手部姿态。可以确定多个方向(例如，脸部方向、凝视方向和手部方向中的至少两个)。注意力方向203可以被确定为多个方向中的一个或基于多个方向所估计的主方向。

在另一实施例中，当用户图像由相机205捕获时，相机205具有相对于参考坐标系209未知的设备空间关系。可以在不知道设备空间关系的情况下根据相机205捕获的用户图像来确定相对于参考坐标系的注意力方向203。在一实例中，由相机205捕获的用户图像包含汽车的至少一部分以及用户的至少一部分。汽车的所述至少一部分具有相对于汽车的参考坐标系的已知的姿态。用户的所述至少一部分可以包含用户脸部。在这种情况下，基于利用所捕获的用户图像的像素信息的计算机视觉方法，可以在汽车的参考坐标系中确定用户脸部的姿态或凝视方向。

步骤103提供安装于车辆的处于相对于参考坐标系的相应相机姿态的多个场景相机。在图2所示的实施例中，四个场景相机211-214被安装于汽车201，并且场景相机211-214的相应相机姿态在参考坐标系209中是已知的。

步骤104根据至少一个注意力方向和至少一个相应相机姿态确定多个场景相机中的至少一个场景相机。例如，根据注意力方向203和场景相机211-214中的至少一部分的相应相机姿态，可以确定场景相机211-214中的至少一个作为期望的场景相机。这个后面的想法是，用户的注意力方向和/或用户的位置可表示感兴趣的对象在哪里或哪个区域或沿哪个方向定位在真实环境中。

在一个实施例中，安装于车辆的多个场景相机捕获真实环境的不同区域。例如，场景相机211-214捕获汽车201周围的真实环境220的不同区域(例如，四个不同侧面)。例如，它们相向地布置成彼此垂直，因此指向四个垂直侧面。用户的至少一个注意力方向可以用来确定多个场景相机中的至少一个场景相机。所确定的场景相机可捕获至少一个场景图像，所述至少一个场景图像可包含由至少一个注意力方向所指示的感兴趣的对象的至少一部分。

可通过各种计算机视觉方法来处理所述至少一个场景图像，以便识别感兴趣的对象、确定与感兴趣的对象类似的对象、再现感兴趣的对象的3D几何形状、确定感兴趣的对象相对于汽车或真实环境的位置和/或确定车辆在真实环境中的位置。此外，在计算机视觉方法中可考虑相对于汽车或相对于场景相机的注意力方向。例如，注意力方向可以用来确定所述至少一个场景图像中的感兴趣区域。在另一实例中，基于相应特征与3D空间中的注意力方向之间的距离或者图像特征与所捕获图像中的注意力方向的图像投影之间的图像距离，注意力方向可以用来确定图像特征。

根据注意力方向确定的场景相机：

可以根据用户的注意力方向来确定多个场景相机中的一个场景相机(称为期望的场景相机)。此外，根据下面提到的方法也可类似地确定多个场景相机中的多个期望场景相机。在一个实施方式中，评估注意力方向与所述多个场景相机中的至少一部分的每个相应相机方向之间的空间关系，以确定期望的场景相机。相机方向可源自相关的相机姿态。相机方向可表示相应相机光轴的方向。

在一个实例中，注意力方向与相应相机方向之间的空间关系是两个方向轴线之间的角度。可以给定一阈值，如果相关角度低于阈值，则可确定一场景相机作为期望的场景相机。如果与所选择的场景相机相关的角度小于与场景相机中的至少一部分相关的角度中的最小角度，也可以选择一场景相机作为期望的场景相机。

在另一实例中，注意力方向与相应相机方向之间的空间关系被定义为交集(intersection)。相机方向可被定义为它来自于相机的位置。如果所选择的场景相机的方向轴线与注意力方向相交，还可以选择一场景相机作为期望的场景相机。此外，当注意力方向与多个场景相机的方向轴线相交时，多个场景相机可被确定为期望的场景相机。

在进一步的实施例中，根据注意力方向与多个场景相机中的至少一部分的每个相应相机位置之间的空间关系来确定期望的场景相机。相机位置可以源自相关场景相机的相机姿态。注意力方向与相应相机位置之间的空间关系可被定义为从相机位置到注意力方向轴线的距离或从相机位置到用户的距离。

在进一步的实施例中，根据注意力方向与多个场景相机中的至少一部分的每个相应相机姿态(包括方向和位置两者)之间的空间关系来确定期望的场景相机。

在进一步的实施例中，提供场景相机的捕获覆盖范围(例如，相机的视野或人工定义)。如图2所示，场景相机211-214分别覆盖汽车201的前、左、后和右侧。当注意力方向被确定为指向汽车201的右侧时，则场景相机214被确定为期望相机。

在另一实施例中，根据注意力方向与多个场景相机中的至少一部分的每个相应相机视场之间的空间关系来确定期望场景相机。例如，注意力方向与相应相机视场之间的空间关系可被定义为(部分)被覆盖或(部分)覆盖的交集。如果相关的相机视场覆盖注意力方向或具有最大的覆盖范围(即，注意力方向的未被覆盖部分最小)或在场景相机的至少一部分中覆盖注意力方向的某一部分(例如，从用户位置开始的某一部分)，一个场景相机可被确定为期望场景相机。在另一实施方式中，当注意力方向被多个场景相机覆盖时，所述多个场景相机可被确定为期望场景相机。当可获得用于场景相机的深度信息时，基于所述深度信息，相机视场可被限定于一定深度，因为在相对于相机的一定深度后面的对象将被阻挡而不被捕获在图像中。

本文所公开的确定至少一个场景相机作为至少一个期望场景相机的一个或多个实施例可组合进行确定。

在另一实施例中，场景相机可以是安装在汽车上的全方位相机(或广角相机)。所述至少一个注意力方向可用来确定由全方位相机所捕获的至少一个场景图像中的感兴趣区域。

在进一步的实施例中，可根据多个注意力方向来确定场景相机(称为期望场景相机)。所述多个注意力方向可来自一个用户或不同的用户。可从同一个或几个不同的用户注意力数据中获得所述多个注意力方向。

在一个实施方式中，可根据多个注意力方向来估计期望注意力方向(可以是也可以不是多个注意力方向中的一个)。多个注意力方向中的每个相应注意力方向具有相对于公共坐标系(例如，汽车的参考坐标系)中的公共轴线的角度。基于多个注意力方向的角度，可估计期望注意力方向具有最大、最小、平均、中等或中间角度。

多个注意力方向可以是聚类或成组的(例如，根据它们的角度或方向轴线)。可从具有多个注意力方向中的大部分的一组来估计期望注意力方向。

在进一步的实施方式中，对于多个注意力方向中的每个相应注意力方向，可以根据上述实施例来确定相对于场景相机的角度、距离、覆盖区域。对于场景相机，可以计算与多个注意力方向的角度、距离、覆盖区域相关的统计数字。根据计算出的统计数字，可从多个场景相机的至少一部分中选择(即，确定)至少一个场景相机。例如，可以计算与场景相机相关的多个注意力方向的角度之和。具有最小值的一个或多个场景相机可被确定为期望相机。

步骤105提供由所确定的至少一个场景相机捕获的至少一个真实对象的至少一个场景图像。在一个实施例中，多个场景相机捕获多个场景图像。于是，提供由所确定的至少一个场景相机(即，期望场景相机)捕获的至少一个场景图像。例如，场景相机211-214中的每一个捕获相应的场景图像。根据注意力方向203，可确定场景相机214作为期望场景相机。可提供由场景相机214捕获的场景图像以便进一步处理。

在一个实施例中，可以使捕获多个场景图像的步骤和捕获用户注意力数据的步骤同步。

在另一实施例中，捕获多个场景图像的步骤和捕获用户注意力数据的步骤不同步。例如，可以捕获用户注意力数据并估计至少一个注意力方向。然后，根据所述至少一个注意力方向确定至少一个场景相机。之后，所确定的至少一个场景相机捕获至少一个场景图像。

存在许多被设计用于车辆中或与车辆一起使用的计算机视觉应用，其可利用由安装在车辆上的所确定的至少一个场景相机捕获的至少一个场景图像。

在一实例中，可以根据至少一个场景图像来确定至少一个感兴趣的对象，如可选步骤106中所示出的。参照图7(例如，对于步骤702)一起描述了与至少一个感兴趣的对象的确定相关的不同潜在实施例。

还可选地执行步骤107，以生成与至少一个感兴趣的对象相关的购买信息。参照图7一起描述了一个具体的潜在实施例。

进一步可选地执行步骤108，以将至少一个感兴趣的对象结合至数字地图。

当用户驾驶汽车时，他或她通常仅依靠他/她的能力来记住环境中的汽车周围的感兴趣的对象，例如，感兴趣商店的方位或特价的加油站或刚才看到的第一免费停车场。问题是人的记忆力不可能总是可靠的，并且方位和细节会丢失。

根据各实施例，可以将与所确定的至少一个感兴趣的对象相关的信息添加到数字地图，以便定制数字地图。与所确定的至少一个感兴趣的对象相关的信息可以是感兴趣的对象的方位、名字、类型。方位可以源自于汽车的当前方位(例如，源自于GPS)。通过考虑注意力方向以及沿着注意力方向的深度信息，可以进一步改进该方位(例如，改进其精确性)。可从深度传感器或从两个注意力方向或从两个光学相机提供深度信息。例如，当车辆位于两个位置时，可以捕获两个注意力方向，这在后面详细描述。

可以基于所捕获的至少一个场景图像由图像分类方法来确定感兴趣的对象的名字或类型。为此，已知的参考图像特征或对象可用来进行分类。

根据一个实施例，可在确定至少一个场景相机之后，在确定至少一个注意力方向之后，或在捕获用户注意力数据之后，捕获所述至少一个场景图像。通常，需要计算和/或处理时间来确定至少一个场景相机、确定至少一个注意力方向和/或捕获用户注意力数据。捕获用户注意力数据与捕获至少一个场景图像之间可能存在滞后。实际上，车辆可能在移动。因此，基于以上公开的各实施例，至少一个场景相机(即，期望场景相机)不能捕获通过根据用户注意力数据提供的至少一个注意力方向指示的感兴趣的对象，和/或至少一个注意力方向不能正确地表示感兴趣的对象被包含在至少一个场景图像中的感兴趣区域。

根据图4的实施例，车辆位于捕获用户注意力数据的第一车辆位置。如图4中所示，汽车201位于用户观察人226的第一车辆位置441，并捕获用户注意力数据。用户注意力数据表示可以指示感兴趣的对象(例如，人226)的用户注意力方向203。第一坐标系可源自于位于第一车辆位置441的车辆的参考坐标系。在图4中，参考坐标系209是第一坐标系。

在稍后的时间，车辆处于捕获至少一个场景图像的当前车辆位置(即，第二车辆位置)。第二坐标系可源自于处于当前车辆位置的车辆的参考坐标系。如图4所示，汽车201位于当前位置442，并且参考坐标系449为第二坐标系。在用于确定至少一个场景相机、确定至少一个注意力方向和/或捕获用户注意力数据的计算和/或处理期间，汽车201已从第一车辆位置441移动到当前位置442。基于上面公开的实施例，确定汽车201的参照坐标系449中的注意力方向443。

因此场景相机214可被确定为期望场景相机。然后，通过场景相机214捕获场景图像。然而，注意力方向443未精确地指示感兴趣的对象(例如，未指示人226)。当汽车位于当前位置442时，由场景相机214捕获的场景图像可能未包含感兴趣的对象(例如，人226)。类似地，如果汽车201配备有全方位相机，则可通过注意力方向443来确定全方位相机的图像中的感兴趣区域，并且所确定的感兴趣区域可能未包含感兴趣的对象(例如，人226)。

为了解决上述问题，根据一个实施例，考虑位于第一车辆位置441的车辆与位于当前位置442的车辆之间的车辆空间关系，以确定至少一个注意力方向和/或至少一个场景相机。该车辆空间关系可以表示位于第一车辆位置的车辆与位于当前车辆位置的车辆之间的距离和/或转动。

例如，根据但不限于安装至车辆中或包含于车辆中的GPS设备、里程表、指南针、加速计、惯性传感器、相机及其组合来确定或部分地确定车辆空间关系。例如，基于视觉的跟踪方法可以分析由车辆的至少一个场景相机捕获的一个或多个图像，以便估计车辆的运动(车辆空间关系可源自车辆的运动)。此外，可根据车辆速度或车辆的GPS位置和/或方向(例如，指南针传感器)得出车辆空间关系。

得出车辆空间关系后，可以变换在与汽车201相关的坐标系449中估计的当前位置442处的注意力方向443，以便获得注意力方向203。注意力方向203也可以在坐标系449中表示，以在汽车201处于当前位置442时确定场景相机211-214中的至少一个场景相机。在图4所示的实例中，场景相机213可被确定为期望场景相机，因为场景相机213的视场包含注意力方向203的某一开始部分(例如，距用户位置在4至0.5米之间)。然后，场景相机213用来捕获包括感兴趣的对象226的场景图像。

盲点：

也可能的是，安装于车辆的任一场景相机都不满足期望场景相机的规则。对于安装于车辆的相机，可能存在盲点。可以提供车辆坐标系中的盲点区域。图5A中示出了一个实例，其中真实环境的感兴趣的对象521未被处于位置541的安装于汽车上的任一场景相机覆盖。在该实例中，在坐标系509中确定与感兴趣的对象521有关的注意力方向503。在一个实例中，当汽车201处于位置541时，任一场景相机211-214都不满足期望场景相机的规则。例如，当汽车201处于位置541时，任一场景相机211-214都不具有相对于注意力方向503的角度低于某一阈值的光轴，和/或任一场景相机211-214都不具有包含注意力方向503的某一部分的视场。因此，确定的是，任一场景相机都不能捕获由注意力方向503指示的感兴趣的对象521，例如，汽油标号。

在另一实例中，由于坐标系509中的盲点区域是已知的，所以可直接确定的是，注意力方向503的某一部分(例如，距用户位置在4至0.5米之间)不被任一场景相机的视场覆盖。由此，还可确定的是，任一场景相机都不能捕获感兴趣的对象521。

为了解决上述问题，当汽车到达另一位置时，可捕获场景图像。例如，如图5A所示，汽车201移动至位置542。在位置542，场景相机213可捕获包含感兴趣的对象521的至少一部分的场景图像531(例如，汽油标号)。当确定注意力方向503并且汽车处于位置541时，位置542可能是未知的。

例如，首先确定位置542(等同于处于位置541的汽车和处于位置542的汽车之间的车辆空间关系)，并且连同位置542一起还确定至少一个期望场景相机。然后，当汽车处于确定的位置542时，由确定的至少一个场景相机来捕获至少一个场景图像。

提供如上所述的确定至少一个期望场景相机的一个或多个规则，以便确定位置542和至少一个期望场景相机。例如，所述规则可包括但不限于注意力方向与场景相机的相机姿态之间的空间关系和/或注意力方向与场景相机的视场之间的空间关系。

在一个实施方式中，在汽车201的运动期间，可以实时地确定位置542和/或至少一个期望场景相机。对于汽车201的新位置，可以确定一个或多个场景相机是否满足规则。在这种情况下，在安装于汽车的场景相机处于该新位置的情况下在一公共坐标系中提供注意力方向503。为此，可能需要处于新位置的汽车与处于位置541的汽车之间的变换，这可从上述方法估计。当至少一个场景相机满足规则时，所述至少一个场景相机被确定为期望场景相机以捕获至少一个场景图像，进而将新位置确定为位置542。

在另一实施方式中，位置542和/或至少一个期望场景相机是根据位置541预先确定的。例如，可以检测用于汽车的位置并在汽车处于该位置时检查一个或多个场景相机是否满足规则。还可以考虑环境地图(例如，城市街道地图)和/或汽车的移动方向来选择位置。

用于确定注意力方向的后视镜的考虑：

也可以考虑后视镜来确定所述至少一个注意力方向。例如，车辆通常具有三个已安装的后视镜。通常，用户(例如，乘客或驾驶员)可以观察车辆的其中一个后视镜，以便观察周围的感兴趣的对象。因此，可以不考虑朝向镜子的注意力方向(例如，目光方向或脸部方向)，而可以考虑镜子的反射方向以便确定至少一个场景相机。作为图5B所示的一个实例，注意力方向554朝向后视镜，并且不用来确定至少一个场景相机。作为注意力方向554的反射的注意力方向555可用来根据上述任何方法确定至少一个场景相机。

在一个实施方式中，基于光反射法则，可以根据注意力方向554和公共坐标系(例如，参考坐标系509)中的镜子姿态来估计注意力方向555。根据本发明中提出的方法，可以首先估计注意力方向554。镜子姿态可由相机提供或确定。只要注意力方向554与镜子相交，可确定注意力方向555。

在另一实施方式中，安装于汽车201内的相机206捕获包含由镜子反射的用户的至少一部分的镜子图像。可从所捕获的镜子图像直接估计注意力方向555。例如，安装于汽车201内的相机206通过镜子捕获用户的眼睛或脸部的至少一部分。

在进一步的实施方式中，例如，根据光反射法则，注意力方向555可源自注意力方向554和镜子姿态。只要注意力方向554与镜子相交，注意力方向555用来确定至少一个场景相机。

根据一个实施例，可以根据三角测量(triangulation)从两个注意力方向确定位置。在车辆从一个位置移动到另一个位置的过程中，用户可以观察感兴趣的点或对象多次。作为图6中所示的示例性场景，用户202观察人226两次，即当汽车201分别处于位置661和位置662时。分别确定注意力方向203和603。可以从注意力方向203和603的三角测量(例如，注意力方向203和603的相交区域或点)以及处于位置661和662的车辆之间的空间关系来估计人226的位置。可以在与汽车201相关的参考坐标系209和609中的至少一个中确定人226的位置。例如，当汽车的位置在真实环境220中已知时，也可以在真实环境220的坐标系中确定人226的位置。

图7示出了根据如本文所公开的安装于车辆的至少一个场景相机所捕获的至少一个场景图像而生成订单以购买至少一个物品的流程图的实施例。电子商务和在线购物是普遍技术，并使得对于买方和卖方两者来说生活简单。利用计算机或者甚至智能电话，基于关键词搜索与现代电子商务和在线购物系统，买方可以找到一些候选物品(例如，一些感兴趣的对象)进行购买。例如，用户可以找到周围环境中的感兴趣的对象，并且可能进一步发现是否可购买相同的对象(也称为物品)和/或类似的对象，然后可以下订单以购买一个或多个对象和/或找到真实商店进行亲自查看和/或购买。可以捕获感兴趣的对象的图像并基于所捕获图像的图像分析来识别可购买的相同或类似的物品。

现今，人们还在车辆中花费大量的时间，例如当他们购物、上下班或观光时。潜在地，车辆的周围可能存在许多不同的对象(例如，行人、广告海报和真实商店)。对于坐在车辆中的人来说，难以使用配备有相机的移动设备(例如，标准相机或带有相机的移动电话)来捕获车辆周围的环境的对象。对于正在驾驶车辆的驾驶员来说尤其如此。驾驶员在驾驶时不能手持移动设备以捕获图像。

因此，有利的是采用安装在汽车上的一个或多个相机来捕获包含感兴趣的对象的图像，而不是要求驾驶员手持并利用相机来捕获图像。此外，驾驶员的注意力方向(例如，凝视方向或脸部方向或手部指向方向)可以用来确定车载相机中的至少一个相机和/或确定由车载相机中的至少一个所捕获的一个或多个图像中的感兴趣区域。

再次参照图7，步骤701提供至少一个真实对象的至少一个场景图像。

在一个实例中，所述至少一个场景图像可通过安装在车辆上的至少一个场景相机来捕获。通过至少一个场景相机捕获至少一个场景图像的事件可通过用户命令和/或通过车辆的状态或状态变化来触发。用户命令可包括但不限于点击按钮、手势命令和语音命令中的至少一种。车辆的状态可包括但不限于速度、发动机状态、制动系统状态、齿轮位置、光、另一对象距前方或后方汽车的距离、驾驶员车门的打开/关闭状态、方向盘锁、手刹、行李箱的打开/关闭状态或者上述的组合。

当安装在车辆上的多个场景相机可用时，可以根据至少一个用户注意力方向来确定所有车载场景相机中的一个或多个相机。这可以基于上面公开的方法和系统(例如，如图1所示)实现。所确定的相机(即，所述至少一个场景相机)用来捕获一个或多个场景图像(即，所述至少一个场景图像)。场景相机中的所述一个或多个相机也可以根据用户命令和/或通过车辆的状态或状态变化来确定。例如，如图2所示，所述至少一个场景相机可以是根据注意力方向203在相机211-214中确定的相机214。在另一实施方式中，相机214也可以由用户手动地确定(例如，通过驾驶员给出的语音命令，例如“前方”或“前方相机”，或者通过触发相机的按钮)。

在另一实施例中，所述至少一个场景图像可由附接于移动设备(例如，移动电话或平板电脑)的至少一个相机捕获。所述至少一个场景图像可由任何相机捕获。

步骤702根据至少一个场景图像来确定多个对象中的至少一个目标对象。所述至少一个目标对象可以包含或部分地包含在所捕获的至少一个场景图像中。在图2的实例中，所确定的场景相机214将人226捕获于场景图像231中。人226(其可以是注意力方向203所指示的感兴趣的对象或感兴趣的对象的一部分)的衣服(例如，裙子)可被确定为目标对象。

所述至少一个目标对象可以不包含在所述至少一个场景图像中。例如，包含在所述至少一个场景图像中的人226的裙子可以不被确定为目标对象。然而，可以分析所述至少一个场景图像中的包含裙子232的至少一部分的图像区域(例如，如图3中所示的图像区域233)，例如，可以分析其质地或颜色。也可以根据至少一个用户注意力方向(例如，凝视方向、脸部方向和手部指向方向中的至少一种)来确定图像区域233。在一个实施例中，可以基于至少一个用户注意力方向与相机之间的空间关系来确定图像区域。例如，基于相机214与用户注意力方向203之间的空间关系，用户注意力方向203(例如，由方向轴线表示)可被投影为由相机214捕获的图像231中的点或线。本文公开了根据一个或多个投影点来确定图像231中的感兴趣区域的各种方法。因此，可以确定图像区域233。

具有与图像区域233的至少一部分类似的质地或颜色的一个或多个对象可被确定为至少一个目标对象。例如，另一裙子，甚至衬衫、裙子、杯子、汽车和/或眼镜，可被确定为至少一个目标对象。

多个对象中的一个或多个可被确定为至少一个目标对象。可由一个或多个数据库(例如，数据库711-713)提供多个对象。在一个实例中，多个对象可包括可购买(例如，在线和/或在真实商店中)的多个购物物品。多个对象中的每个相应对象可与包含相应对象的至少一个参考图像相关联。此外，相应对象可具有价格信息、制造商信息、位置信息(例如，真实商店的位置)、网络链接信息、类型或类别信息等。在本文公开的任何方法或系统中，多个对象可由它们的关联信息表示。

数据库711-713可设置在服务器计算机侧上。例如，在线商店在其在线服务器计算机上提供具有其参考图像和价格的各种衣物，例如对于裙子、牛仔裤和衬衫。所述衣物可以与人226的裙子在其颜色、形状和/或质地方面进行比较，以便确定至少一个衣物作为至少一个目标对象。为此，可采用基于匹配或相似度测量的图像进行比较，例如将图像231或仅图像区域233和与所述衣物相关联的参考图像匹配。

在一个实施例中，基于将至少一个场景图像和与多个对象相关联的参考图像的至少一部分匹配，可以自动确定多个对象中的一个或多个目标对象。可确定与至少一个场景图像匹配的一个或多个参考图像。然后，与所匹配的参考图像有关的相应对象可被确定为目标对象。图像匹配可以基于例如图像特征(例如，SIFT；SURF)、模板匹配、直方图、纹理模型(例如，共生矩阵、小波)、和/或机器学习(例如，随机森林)。

可应用计算机视觉方法，从而基于场景图像的像素信息来检测至少一个场景图像中的至少一个对象，并进一步确定至少一个对象的类型或等级。例如，可以在场景图像231中检测裙子232并识别为布的类型。所确定的类型可以用来选择多个对象中的目标对象。例如，具有所述布的类型的对象可被确定为目标对象。在另一实例中，与具有所述布的类型的对象相关的参考图像可以与至少一个场景图像匹配。

包含在至少一个场景图像中的至少一个图像区域可由用户手动地选择或自动选择(例如，根据计算机视觉方法)。所选择的图像区域可以与和多个对象相关的参考图像匹配。在一个实施方式中，可由用户手动地选择场景图像231中的图像区域233。在另一实施方式中，可基于计算机视觉方法或基于一个或多个用户注意力方向自动地确定场景图像231中的图像区域233。

在一个实施例中，多个对象包括多个衣物。所述多个衣物可以从一个或多个数据库中提供。例如，一个或多个衣服供应商(例如，布料制造商和/或(在线)购物商店)可以提供衣物。多个衣物中的每一个可以具有相关联的质地信息、形状、大小、参考图像特征(例如，由视觉单词表示，SIFT特征和/或SURF特征)和/或包含相应衣物的参考图像。多个衣物(由其相关信息表示)可以储存在车辆中，或者储存在与车辆分离的一个或多个服务器计算机中。移动设备(例如，移动电话、平板电脑或膝上型电脑)可以储存所述多个衣物。车辆、移动设备以及一个或多个服务器计算机可以经由线缆和/或无线地互相通信。

确定至少一个目标对象的步骤702或步骤702的一部分可以在车辆中、在服务器计算机中或在移动设备中执行。作为图2和3中所示的一个示例性场景，场景图像231被捕获。多个衣物(由其相关信息表示)可储存在服务器计算机301中。以下确定目标对象的计算可以在服务器计算机301中执行。在这种情况下，可将场景图像231从汽车201发送到服务器计算机301。在另一实例中，可将场景图像231从汽车201发送到移动电话302，然后从移动电话302发送到服务器计算机301。多个场景图像可由安装在汽车上的相机捕获并用来确定一个目标对象。

可执行基于视觉的可视搜索方法(例如，基于图像特征、相似度测量、模板匹配和/或机器学习)，如信号处理杂志IEEE 28.4(2011):61-76上的Girod,Bernd等人的“Mobilevisual search(移动可视搜索)”或计算机视觉和图形识别(Computer Vision andPattern Recognition)2007.CVPR'07.IEEE Conference on.IEEE,2007上的Philbin,James等人的“具有大量词汇和快速空间匹配的对象检索(Object retrieval with largevocabularies and fast spatial matching)”中所公开的，以便在多个衣物中搜索具有与场景图像231的至少一部分(例如，相交区域233)类似或相关或者与包含在场景图像231中的对象(例如，裙子232)相关的视觉信息(例如，质地、颜色和/或形状)的一个或多个衣物。为此，可将图像231的至少一部分与参考图像特征或与多个衣物相关联的参考图像匹配。

识别感兴趣的对象和/或确定包含在场景图像中的感兴趣区域是可选的。例如，自动地分析场景图像231。例如，对场景图像231执行对象识别/分类方法，以便确定感兴趣的对象或感兴趣区域。通过提供包含不同感兴趣的对象(例如，不同种类的裙子)的多个训练图像，可采用机器学习方法(例如，基于随机森林)来训练识别/分类方法(或系统)，以检测感兴趣的对象。基于所训练的识别/分类方法，可以识别场景图像231中的裙子232和/或确定包含裙子232的至少一部分的图像区域233。多个训练图像可以来自由安装在汽车201上的场景相机先前捕获的场景图像。这可以基于用户的偏好而自动生成定制的训练方法。还可以通过用户输入来人工识别裙子232和/或场景图像231中的图像区域233。

当场景图像中的至少一个感兴趣的对象和/或其类型被识别出时，可提供该信息，以搜索至少一个目标对象。例如，在多个衣物中，只有裙子可被认为是潜在的目标对象，而其他衣物不包括在后续搜索中。例如，基于图像匹配方法，可以确定多个衣物中的具有与裙子232类似的颜色或质地的裙子。

在一个实施方式中，在场景图像231中提取当前图像特征。可以仅在所确定的感兴趣区域(例如，图像区域233)中提取当前图像特征。所提取的当前图像特征可以和与多个衣物的至少一部分相关联的参考图像特征匹配，以便确定一个或多个衣物作为目标对象。图像特征可以由高级特征描述符表示，如SIFT或SURF。

在另一实施方式中，基于模板匹配，包含在场景图像231中的图像区域233可以匹配于与多个衣物的至少一部分相关联的参考图像，以便确定一个或多个衣物作为目标对象。可以采用各种相似性测量(例如，NCC、SSD和/或直方图)进行模板匹配。根据基于视觉的可视搜索方法(如上面公开的方法)，具有相同或类似的视觉质地和/或颜色的任何衣物可被确定为目标对象。例如，目标对象不限于是裙子，还可以是衬衫或裙子。此外，可确定与所识别的对象(例如，所识别的裙子232)相关的对象。例如，特殊洗涤剂或具有类似颜色的唇膏可能与所识别的裙子232相关。这可能需要将特殊洗涤剂或唇膏包括在多个对象中。

可以提供额外的优选数据，以便确定至少一个目标对象。优选数据可以包括但并不限于以下中的至少一个：优选目标对象的图像和/或文本数据库、在线商店成员信息、与车辆相关的特性(例如，类型、颜色、品牌、注册年份、维护状态、汽油机或柴油机)。例如，在线商店成员信息可用来确定应该使用哪个服务器计算机或数据库以提供多个对象或多个对象中的一部分。此外，与车辆相关的特性可用来确定与车辆有关的物品。例如，可用于这类车辆的轮胎或喷漆材料可被搜索或确定为目标对象。

步骤703创建与至少一个目标对象相关的目标对象信息。可以创建与所确定的至少一个目标对象相关的目标对象信息。在一个实例中，多个衣物中的一个或多个裙子可被确定为至少一个目标对象。所述裙子可来自一个或多个衣服供应商。目标对象信息包括至少一个图像，所述至少一个图像包含所确定的至少一个目标对象、尺寸、材料、价格、品牌、衣服供应商、在线信息链接和/或与所确定的至少一个目标对象相关的在线商店链接。在图3所示的实例场景中，可在服务器计算机301中创建目标信息并将目标信息从服务器计算机发送到汽车201和/或移动电话302。

可选的步骤704在显示设备上显示目标对象信息。目标对象信息可显示在显示设备上，例如LCD屏幕。显示设备可连接至车辆或与车辆分开。显示设备可以是安装在车辆内的屏幕。显示设备也可以是移动设备或台式计算机的屏幕。

步骤705在至少一个目标对象中确定至少一个购物物品。用户可以从所确定的至少一个目标对象中选择一个或多个目标对象作为购物物品。用户输入可以包括某些用户偏好，例如，最高限价和特定品牌。

步骤706生成订单信息以购买至少一个购物物品。与用户相关的个人数据，例如邮政地址、支付信息(例如，信用卡信息、凭证和/或虚拟货币)、联系人信息和会员身份信息(例如，在线或真实商店的会员身份)，可被考虑用于生成订单信息。在图3所示的实例场景中，可在服务器计算机301、汽车201或移动电话302中生成订单信息。可将订单信息提交给订单服务器计算机，该订单服务器计算机可以不同于或相同于服务器计算机301。例如，服务器计算机301可以是提供可购买的多个物品的信息的服务器。订单服务器计算机可以是销售相应物品的在线商店。在另一实例中，服务器计算机301可以提供可用于购买的多个物品的信息并销售多个物品。

原则上，上面描述的任何实施例可以应用于安装有多个相机的任何设备，用于确定多个相机中的至少一个相机。例如，移动设备(诸如膝上型或台式计算机)可配有一个前置相机和两个后置相机。前置相机可用来确定用户注意力方向，诸如凝视方向和/或脸部方向。所确定的凝视方向和/或脸部方向可用来从两个后置相机中选择期望相机。由期望相机捕获的图像可包含用户注意力所指示的感兴趣的对象。

本公开还涉及以下方面和实施例。这些方面和实施例可以单独且独立地应用或者与如本文所描述的本公开的各方面和实施例结合应用。

一种确定可购买的至少一个物品的方法，该方法包括：a)提供由安装在车辆上的至少一个场景相机捕获的至少一个场景图像；b)提供由信息捕获设备捕获的与至少一个用户有关的用户注意力数据；c)根据用户注意力数据提供相对于与车辆相关联的参考坐标系的至少一个注意力方向；d)提供与可购买的多个物品中的每一个物品有关的图像信息，其中所述图像信息包括参考图像和参考图像特征中的至少一种；以及e)根据至少一个注意力方向、至少一个场景图像以及与至少一个物品有关的图像信息，确定多个物品中的至少一个物品。

根据前一段落的方法还包括：根据至少一个注意力方向，选择安装在车辆中的多个场景相机中的至少一个场景相机。

根据前述段落之一的方法还包括确定至少一个场景图像中的至少一个当前图像特征。

根据前述段落之一的方法还包括：进一步根据至少一个注意力方向，确定至少一个场景图像中的至少一个当前图像特征。

根据前述段落之一的方法，其中步骤e)还包括：将至少一个场景图像的至少一部分和与至少一个物品有关的图像信息的参考图像的至少一部分相匹配，或者将至少一个当前图像特征和与至少一个物品有关的图像信息的参考图像特征的至少一部分相匹配。

根据前述段落之一的方法还包括提供与至少一个物品有关的购买信息。

对于计算机视觉中的大多数应用而言，图像由一个或多个相机捕获，操作者是人，并且显示屏幕用来显示图像，使得人能够观察图像并相应地移动相机。在这种情况下，相对于屏幕的用户注意力方向表示应当被识别、再现和/或跟踪的感兴趣的对象。与感兴趣的对象不相关的图像特征可从所有所提取的图像特征中移除，或者根据用户注意力方向仅提取与感兴趣的对象相关的图像特征。例如，相对于屏幕的凝视方向或脸部方向或手部方向可用来识别感兴趣的对象和/或包含在图像中的相关图像特征，用于识别、再现和/或跟踪应用。在另一实例中，至少一个用户注意力方向与相机之间的空间关系也可用来确定所包含的或源自相机所捕获的图像的图像特征。

此外，用户注意力方向(例如，目光方向或正面方向)在图像中的图像方位可用来确定包含在图像中的感兴趣图像特征。在另一实例中，用户注意力方向在屏幕上的屏幕方位可用来确定感兴趣图像特征。屏幕方位可被确定为屏幕平面与用户注意力方向(例如，目光或脸部的方向)之间的交点。根据图像被显示在屏幕上的位置，用户注意力方向的屏幕方位可以变换成图像中的图像方位。这些图像方位将代表用户注意力方向的图像方位。

通过提供计算机生成的虚拟信息与真实对象的视觉印象或图像重叠的可视性，增强现实系统可呈现真实对象的增强信息。为此，检测或跟踪真实对象，以便检索或生成相关的虚拟信息。利用包括相机和显示屏幕的已知视频透视设备，用户可看到虚拟和真实信息的重叠。在这种情况下，感兴趣的对象由相机捕获在图像中。虚拟信息和捕获图像的重叠在显示屏幕上被显示给用户。用户经常察看显示在屏幕上的图像中所捕获的感兴趣的对象，而不会察看图像中所捕获的其他对象。因此，用户相对于屏幕或相机的凝视信息或用户脸部的姿态可以确定感兴趣的对象。

在另一实施例中，用户在一种具有半透明玻璃的公知的光学透视装置中可看到虚拟和真实信息的重叠。在这种情况下，用户透过半透明玻璃看到真实环境中的真实对象，混合在半透明玻璃中的虚拟信息增强了该真实环境。至少一个相机通常附接到所述光学透视装置，以便通过利用计算机视觉方法来识别、跟踪或再现感兴趣的对象。在这种情况下，附接到光学透视装置的相机与用户注意力方向之间的空间关系可用来确定或检测由相机捕获的图像中的图像特征。可根据该空间关系来确定由相机捕获的一个图像中的用户注意力方向的图像方位。

由于用户注意力方向的图像位置位于一个图像中，所以可根据用户注意力方向的图像位置所限定的感兴趣图像区域来确定包含该图像的图像特征。

为了简明，这里给出的一些实施例基于凝视图像方位。然而，与凝视图像方位有关的所有实施例也可以应用于其他用户注意力方向的图像位置，例如，脸部方向图像方位和手部指向方向图像方位。

根据一个实施例，确定至少一个感兴趣图像特征的步骤包括根据至少一个凝视图像方位来确定至少一个图像中的感兴趣图像区域，其中根据感兴趣图像区域来确定至少一个感兴趣图像特征。所述至少一个感兴趣图像特征可包括感兴趣图像区域的像素信息的至少一部分的信息或源自感兴趣图像区域的像素信息的至少一部分的信息。

根据一个实施例，确定感兴趣图像区域的步骤包括：在至少一个图像上执行分割以获得多个图像区域；以及根据至少一个凝视图像方位和多个图像区域中的至少一个的位置来确定多个图像区域中的至少一个作为感兴趣图像区域。

可执行图像分割，以从至少一个目光图像方位分割出图像中的感兴趣图像区域，作为一个或多个种子点。

感兴趣图像区域也可被确定为围绕至少一个凝视图像方位的周围区域(例如，由各种2D几何形状来表示)。例如，可基于一个或多个目光图像方位，将圆形或长方形或方形确定为中心点，或角点，或边界上的点，以限制2D几何形状。

许多增强现实(AR)应用可受益于本发明。例如，在AR购物、AR维护以及AR旅行应用中，存在位于真实世界中的多个真实对象(例如，用于AR购物的衣服、用于AR维护的发动机部件、以及用于AR旅行的古迹)。用户通常每一次对一个对象感兴趣。可根据用户注意力方向(例如，此时的用户的凝视、脸部的姿态或手部指向方向)来确定用户的感兴趣的对象。然后，只能对感兴趣的对象进行检测、跟踪或再现。此外，仅与感兴趣的对象相关的数字信息将被生成并以AR视图可视地显示在对象图像的顶部。

根据一个实施例，用于执行如本文所描述的方法的处理系统可至少部分地被包含在手持设备中、车辆中和/或服务器计算机中。这种处理系统可被包含在这些设备中的仅一种中或者可以是分布式系统，在该分布式系统中，由以空间方式分布且彼此通信(例如，无线地)的一个或多个处理设备(诸如微处理器)分配和处理一个或多个处理任务(执行一个或多个方法步骤)。

通常，以下各方面和实施例可以单独应用或者与上面所公开的本发明的各方面彼此任意组合的方式应用。

根据一个实施例，用户注意力数据与用户的脸部、凝视、手部和手势中的至少一个或多个相关。

根据一个实施例，用户注意力数据包括光学图像、生物电信号(例如，眼电图)中的至少一个或多个。

根据一个实施例，信息捕获设备包括用户相机，并且提供用户注意力数据的步骤包括提供由用户相机捕获的用户的至少一部分的至少一个用户图像。

例如，至少一个用户图像还包括车辆的至少一部分，并且至少一个注意力方向根据至少一个用户图像中的用户的至少一部分的像素信息和车辆的至少一部分的像素信息来确定。

根据一个实施例，信息捕获设备包括眼睛跟踪设备，并且提供用户注意力数据的步骤包括提供与眼睛跟踪设备所捕获的用户的至少一只眼睛相关的至少一个目光信息。

根据一个实施例，提供至少一个注意力方向的步骤包括以下步骤中的至少一个或多个：确定用户脸部的至少一个脸部方向，确定用户凝视的至少一个凝视方向，以及确定用户手部的至少一个手部指向方向。

根据一个实施例，该方法还包括提供信息捕获设备在参考坐标系中的设备位置，以及根据设备位置以及至少一个注意力方向与信息捕获设备之间的空间关系提供相对于参考坐标系的至少一个注意力方向。

根据一个实施例，提供由场景相机中的至少一个捕获的至少一个真实对象的至少一个图像的步骤包括提供由多个场景相机捕获的多个图像以及从所述多个图像中选择至少一个图像。

例如，提供多个图像的步骤和提供用户注意力数据的步骤同步。

根据一个实施例，提供至少一个图像的步骤包括由场景相机中的至少一个捕获至少一个图像。

根据一个实施例，考虑安装在车辆上的至少一个镜子来确定注意力方向。

根据一个实施例，该方法还包括：当车辆处于第一车辆位置时捕获用户注意力数据；确定处于第一车辆位置的车辆和处于不同于第一车辆位置的第二车辆位置的车辆之间的空间关系；以及根据处于第一车辆位置的车辆和处于第二车辆位置的车辆之间的空间关系来确定场景相机中的至少一个。

根据一个实施例，该方法还包括：当车辆处于第二车辆位置时捕获第二用户注意力数据；从第二用户注意力数据中确定至少一个第二注意力方向；以及根据至少一个注意力方向、至少一个第二注意力方向以及处于第一车辆位置的车辆和处于第二车辆位置的车辆之间的空间关系，在参考坐标系中确定与车辆相关的位置数据。

根据一个实施例，至少一个注意力方向由轴线或视场表示。

根据一个实施例，该方法还包括根据至少一个图像来确定至少一个感兴趣的对象，其中所述至少一个感兴趣的对象被包含在所述至少一个图像中或者未包含在所述至少一个图像中。

根据一个实施例，该方法还包括：根据至少一个图像来确定至少一个感兴趣的对象；以及生成与至少一个感兴趣的对象相关的订单信息，用于传送给供应商从而购买产品。

根据一个实施例，该方法还包括：根据至少一个图像来确定至少一个感兴趣的对象；以及确定车辆在真实世界中相对于全局坐标系的方位和至少一个感兴趣的对象相对于车辆的位置。

本公开还涉及以下各方面和实施例。这些方面和实施例可以单独且独立地应用或者与本文所描述的本公开的各方面和实施例结合应用。

根据一方面，公开了一种确定至少一个图像中的至少一个图像特征的方法，该方法包括：提供由至少一个相机捕获的对象的至少一部分的至少一个图像；在至少一个显示屏幕上显示至少一个图像的至少一部分；确定至少一个图像中的至少一个用户的至少一个注意力图像方位；以及根据至少一个注意力图像方位来确定至少一个图像中的至少一个感兴趣图像特征。

根据另一方面，公开了一种确定至少一个图像中的至少一个图像特征的方法，该方法包括：提供由至少一个相机捕获的对象的至少一部分的至少一个图像；确定至少一个用户相对于捕获至少一个图像的至少一个相机的至少一个注意力方向；根据至少一个注意力方向来确定至少一个图像中的至少一个用户的至少一个注意力图像方位；以及根据至少一个注意力图像方位来确定至少一个图像中的至少一个感兴趣图像特征。

根据另一方面，公开了一种用于确定至少一个图像中的至少一个图像特征的系统，该系统包括处理系统，该处理系统被配置成提供由至少一个相机捕获的对象的至少一部分的至少一个图像，以在至少一个显示屏幕上显示至少一个图像的至少一部分，确定至少一个图像中的至少一个用户的至少一个注意力图像方位，以及根据至少一个注意力图像方位来确定至少一个图像中的至少一个感兴趣图像特征。

根据另一方面，公开了一种用于确定至少一个图像中的至少一个图像特征的系统，该系统包括处理系统，该处理系统被配置成提供由至少一个相机捕获的对象的至少一部分的至少一个图像，以确定至少一个用户的相对于捕获至少一个图像的至少一个相机的至少一个注意力方向，根据至少一个注意力方向来确定至少一个图像中的至少一个用户的至少一个注意力图像方位，以及根据至少一个凝视注意力图像方位来确定至少一个图像中的至少一个感兴趣图像特征。

具体地，根据本公开，用户一只或两只眼睛的凝视方向是用户的注意力方向。凝视屏幕方位是注意力屏幕方位。凝视图像方位是注意力图像方位。

具体地，根据本公开，用户的脸部方向是用户的注意力方向。脸部方向屏幕方位是注意力屏幕方位。脸部方向图像方位是注意力图像方位。

根据一个实施例，脸部方向是正面方向。

具体地，根据本公开，用户的手部指向方向是用户的注意力方向。手部指向屏幕方位是注意力屏幕方位。手部指向图像方位是注意力图像方位。

为了简明，这里给出的实施例是基于凝视方向、凝视屏幕方位、凝视图像位置作为用户的注意力方向、注意力屏幕方位、注意力图像方位的具体实例。

然而，与凝视方向、凝视屏幕方位、凝视图像位置相关的所有实施例还可应用于其他的用户注意力方向(例如，脸部方向和手部指向方向)、其他的用户注意力屏幕方位(例如，脸部方向屏幕方位和手部指向屏幕方位)和其他的用户注意力图像方位(例如，脸部方向图像方位和手部指向图像方位)。

具体地，根据本公开，一个或多个图像中的人眼(特别是用户的一只或两只眼睛)的凝视图像方位可被检测并用来确定一个或多个图像中的图像特征。所提取的图像特征可用来检测、跟踪和/或再现一个或多个图像中所捕获的感兴趣的对象。因此，可去除不相关的检测到的图像特征，或者仅检测图像中的感兴趣图像特征，进而在计算机视觉方法中使用。

对于计算机视觉中的多个应用，基于由一个或多个相机捕获的图像，根据本公开所描述的方法或系统的操作者是人，并且显示屏幕用来显示图像，使得人可以观察所捕获的图像并相应地移动相机。在这样的实施例中，图像中的用户的人眼的凝视方位可以指示应该被识别、再现和/或跟踪的感兴趣的对象。根据所确定的一个或多个凝视方位、或者在用于识别、再现和/或跟踪的计算机视觉方法中任何被识别的感兴趣的对象，与感兴趣的对象不相关的图像特征可从所提取的图像特征中去除，或者可以仅提取与感兴趣的对象相关的图像特征。

通过提供计算机生成的虚拟信息与真实对象的视觉印象或图像重叠的可视性，增强现实系统可以呈现真实对象的增强信息。为此，检测或跟踪真实对象，以便检索或产生相关的虚拟信息。例如，通过利用包括相机和显示屏幕的视频透视设备，用户可看到虚拟和真实信息的重叠。在这种情况下，感兴趣的对象由相机捕获在图像中。虚拟信息和捕获图像的重叠在显示屏幕上被显示给用户。用户经常察看显示在屏幕上的图像中所捕获的感兴趣的对象，而不会察看图像中所捕获的其他对象。因此，用户的凝视信息可用来确定感兴趣的对象。

用户还可借助于一种具有半透明玻璃的公知的光学透视装置看到虚拟和真实信息的重叠。在这种情况下，用户于是透过半透明玻璃看到真实环境中的对象，混合在半透明玻璃中的虚拟信息增强了该真实环境。至少一个相机通常附接到所述光学透视装置，以便通过利用计算机视觉方法识别、跟踪或再现感兴趣的对象。

根据一个实施例，该方法还包括确定至少一只眼睛在至少一个显示屏幕上的至少一个凝视屏幕方位，其中根据至少一个凝视屏幕方位来确定至少一个凝视图像方位。

例如，其还包括使确定至少一个凝视屏幕方位的步骤与在至少一个显示屏幕上显示至少一个图像的至少一部分的步骤同步。

根据一个实施例，确定至少一个凝视图像方位的步骤包括：提供由至少一个捕获设备(其可以是同一相机或不同相机)捕获的至少一只眼睛的至少一个第二图像，所述至少一个捕获设备与至少一个显示屏幕具有已知的空间关系；以及根据至少一个第二图像来确定至少一个凝视图像方位。

根据进一步的实施例，至少一个图像包括由至少一个相机捕获的多个图像，并且该方法还包括：对于多个图像中的每个相应图像，在至少一个显示屏幕之一上显示相应图像的至少一部分；以及确定相应图像中的一个或多个凝视图像方位。该方法进而还包括：在多个图像之间确定至少一个图像变换；以及根据至少一个图像变换，将所确定的一个或多个凝视图像方位从多个图像中的每个相应图像变换成多个图像中的至少一个，其中所确定的至少一个凝视图像方位包括变换后的凝视图像方位。

根据一个实施例，该方法还包括：提供与至少一个图像中的至少一部分相关联的深度信息；以及根据至少一个凝视方向和深度信息确定至少一个凝视图像方位。

根据一个实施例，该方法还包括根据所确定的至少一个图像特征执行计算机视觉算法，其中计算机视觉算法包括基于图像的识别、基于图像的跟踪、基于图像的再现以及基于图像的分类中的至少一种。

根据一个实施例，该方法还包括：使至少一个感兴趣图像特征与参考图像特征匹配；以及根据匹配来识别对象。

根据进一步的实施例，该方法包括：使至少一个感兴趣图像特征与参考图像特征匹配；以及根据匹配来估计至少一个相机相对于对象的姿态，其中参考图像特征具有3D位置。

根据一个实施例，该方法还包括：提供与至少一个图像相关联的深度信息；以及根据深度信息来确定用于至少一个感兴趣图像特征的3D位置。

根据一个实施例，至少一个图像是至少一个第一图像，并且该方法还包括：提供至少一个第二图像；确定第二图像中的与至少一个感兴趣图像特征对应的至少一个第二图像特征；以及根据至少一个第二图像特征和至少一个感兴趣图像特征的图像位置，确定用于至少一个感兴趣图像特征的3D位置。

根据一个实施例，至少一个凝视图像方位是至少一个第一凝视图像方位，并且确定至少一个第二图像中的至少一个第二图像特征的步骤包括：在至少一个显示屏幕上显示至少一个第二图像的至少一部分；确定至少一个第二图像中的至少一只眼睛的至少一个第二凝视图像方位；以及根据至少一个第二凝视图像方位来确定至少一个第二图像中的至少一个第二图像特征。

根据另一实施例，至少一个凝视方向是至少一个第一凝视方向，并且至少一个凝视图像方位是至少一个第一凝视图像方位，其中确定至少一个第二图像中的至少一个第二图像特征的步骤包括：确定至少一只眼睛相对于至少一个相机的至少一个第二凝视方向，其中至少一个相机捕获至少一个第二图像；根据至少一个第二凝视方向来确定至少一只眼睛在至少一个第二图像中的至少一个第二凝视图像方位；以及根据至少一个第二凝视图像方位来确定至少一个第二图像中的至少一个第二图像特征。

例如，至少一个感兴趣图像特征可储存在处理设备中。

根据一个实施例，对象是真实对象，并且至少一个相机是至少一个真实相机。根据另一实施例，对象是虚拟对象，并且至少一个相机是至少一个虚拟相机。

根据一个实施例，确定至少一个感兴趣图像特征的步骤包括根据至少一个凝视图像方位来确定至少一个图像中的感兴趣图像区域，其中根据感兴趣图像区域来确定至少一个感兴趣图像特征。至少一个感兴趣图像特征可包括感兴趣图像区域的像素信息的至少一部分的信息或者源自感兴趣图像区域的像素信息的至少一部分的信息。

根据一个实施例，确定感兴趣图像区域的步骤包括：对至少一个图像执行分割以获得多个图像区域；以及根据至少一个凝视图像方位和多个图像区域中的至少一个的位置来确定多个图像区域中的至少一个作为感兴趣图像区域。

例如，确定感兴趣图像区域的步骤包括：根据至少一个凝视图像方位和至少一个图像的至少一部分的像素信息，对至少一个图像执行分割。

根据一个实施例，至少一个凝视图像方位包含至少两个凝视图像方位，并且确定感兴趣图像区域的步骤包括使至少两个凝视图像方位聚类；以及根据聚类的结果来确定图像区域。

例如，根据感兴趣图像区域确定至少一个感兴趣图像特征的步骤包括在感兴趣图像区域中提取至少一个感兴趣图像特征。

根据感兴趣图像区域确定至少一个感兴趣图像特征的步骤可包括：在至少一个图像中提取多个图像特征；以及从所提取的多个图像特征中选择至少一个感兴趣图像特征，其中所提取的多个图像特征包括对象的至少一个图像特征以及与对象不相关的至少一个图像特征。

例如，根据本发明的处理系统至少部分地被包含在移动设备(诸如移动电话、可穿戴式计算机、平板电脑、移动计算机(常被称为膝上型计算机)或头戴式显示器(诸如用于光学透视式增强现实应用)和/或适于与移动设备通信的服务器计算机中。该处理系统可包含于仅一种这样的设备中，例如，包含于移动设备中或服务器计算机中，或者可以是分布式系统，在该分布式系统中，由分布的并且彼此通信的一个或多个处理设备来分配和处理一个或多个处理任务，例如通过点对点通信或经由网络。

根据一个实施例，该系统包括移动设备，该移动设备包括一个或多个相机以及例如显示屏幕。

这里所描述的关于该方法任何步骤、实施例、方面和实例可通过处理系统等同和相似地实现，所述处理系统被配置成(通过软件和/或硬件)执行相应的步骤、实施例、方面或实例。处理系统内所使用的任何处理设备可被如此配置并且经由通信网络与一个或多个相机、显示器和/或任何其他部件进行通信，例如，经由服务器计算机或点对点通信。

根据另一方面，本发明还涉及一种包括软件代码部分的计算机程序产品，所述软件代码部分适于执行根据本发明的方法。具体地，所述软件代码部分被包含在永久的计算机可读介质上。所述软件代码部分可被加载到本文所描述的一个或多个处理设备(诸如微处理器)的存储器中。

如本文所公开的，任何所使用的处理设备可以经由通信网络(例如，经由服务器计算机)或点对点通信进行通信。

眼睛跟踪本身是一种沿用已久的技术，用于检测凝视(一个人正在观看)的位置或方向或者眼睛相对于参考位置(例如头部)的运动或位置。许多眼睛跟踪器系统在商业上可获得，如Tobii技术制造的系统(例如，见http://www.tobii.com)。

眼睛跟踪器系统也可以是能够捕获眼睛的图像的相机。利用所捕获的图像也能够执行凝视方向，如Blum,Tobias等人发表于Mixed and Augmented Reality(ISMAR),20109th IEEE International Symposium on.IEEE,2010上的“The effect of out-of-focusblur on visual discomfort when using stereo displays(使用立体显示器时离焦模糊对视觉不适的影响)”(以下称为Blum等人的文献)中所提出的。

许多应用都受益于凝视检测。例如，WO 2014/052058 A1公开了通过使用Tobii眼睛跟踪器在显示屏幕上根据估计的用户的2D凝视位置获得3D凝视位置。在其应用中，根据3D凝视位置，人工离焦模糊将被添加到显示在屏幕上的图像。WO 2014/052058 A1还公开了一种提高可视性的解决方案，而这些文献没有提出或促进根据凝视位置处理或分析由相机捕获的真实环境的图像的任何方法。具体地，WO 2014/052058 A1没有提出根据凝视位置来检测图像中的图像特征，然后执行计算机视觉方法来跟踪、识别、分类和/或再现包含在图像中的真实对象。

Srinivasan等人在参考文献[16]中开发了一种基于显示屏幕上的一只或多只眼睛的检测到的凝视位置以及一只或多只手的手势的多模态触摸屏仿真器。它们使用相机来捕获一只或多只眼睛，以便在显示屏幕上确定凝视位置。

当所涉及的用户实施或使用基于包含感兴趣的对象的图像的计算机视觉产品或方法时，这些现有技术参考文献都没有公开用户凝视位置或方向与感兴趣的对象之间的关系，并且没有公开在计算机视觉产品或方法中可以采用这样的关系。

图8示出了用户806手持移动设备801的场景，该移动设备具有前置相机803、后置相机802以及显示屏幕804。通过利用后置相机802来捕获图像810，以便识别、跟踪和/或再现放置在桌子807上的塑料兔子808(在该实施例中，为感兴趣的对象)。移动设备801包括一个或多个处理设备809，诸如一个或多个微处理器。

图9示出了用户906手持移动设备901的另一场景，该移动设备具有前置相机903、后置相机902以及显示屏幕904，通过使用后置相机902，该移动设备正在捕获图像910，以便识别、跟踪和/或再现放置在桌子807上的塑料兔子808(即，感兴趣的对象)。移动设备901包括一个或多个处理设备909，诸如一个或多个微处理器。

在图8和图9所示的两个场景中，用户806和906可以相同或不同。移动设备801和901可以相同或不同。前置相机803和903、后置相机802和902、以及显示屏幕804和904分别可以相同或不同。

在一个应用中，可以基于塑料兔子808的至少一部分的一个图像(例如，图像810)，必须识别出塑料兔子808，以便检索或生成与塑料兔子808相关的数字信息(诸如其制造商信息，其CAD模型等)。所生成的数字信息可以是可视化的并覆盖在塑料兔子808的图像810的顶部上，从而具有可显示在显示屏幕(如屏幕804)上的重叠图像。这将产生增强现实可视化。

为了识别塑料兔子808，存储在数据库中(例如，包括在移动设备801、901中或包括在远程服务器计算机890中)的参考图像特征与在图像810中提取的当前图像特征匹配。所述当前图像特征可以是图像特征831、832和833，基于其相应的矩形区域的像素信息，可通过使用高级描述符(如SIFT、SURF等)来表示当前图像特征。

在一个实施例中，当图像特征的至少一部分覆盖或源自感兴趣的对象(例如，塑料兔子808)的图像区域的一部分的像素信息时，图像特征与感兴趣的对象相关且将被认为是感兴趣图像特征。例如，感兴趣图像内的高对比度纹理可被确定为与感兴趣的对象相关的图像特征，和/或感兴趣的对象的边界(例如，边缘、角部)可被确定为与感兴趣的对象相关的图像特征。在图8中，图像特征831和833与塑料兔子808相关，而表示桌子807的角部的图像特征832与塑料兔子808不相关。

根据本发明的一个实施例(见图10)可创建感兴趣图像特征。在该实施例中，仅与塑料兔子808相关的图像特征可被确定为感兴趣图像特征。在本实例中，图像特征831和833，而不是图像特征832，将被确定为感兴趣图像特征。根据真实场景，与感兴趣的对象不相关的图像特征也可被确定为感兴趣图像特征的一部分。尽管如此，本发明可从感兴趣图像特征中明显地去除与感兴趣的对象不相关的图像特征，这用于各种计算机视觉方法中，诸如增强现实应用。

此外，通过从塑料兔子808的其他图像中提取图像特征，可生成存储在数据库中的任何参考图像特征。通过利用本发明的一个实施例(见图10)，可以将从其他图像中提取的感兴趣图像特征(例如，与塑料兔子808相关的图像特征)确定为参考图像特征。

由于仅具有与感兴趣的对象相关的图像特征或在参考图像特征组和/或当前图像特征组中具有最少量的与感兴趣的对象不相关的图像特征，因此可以高精度且低操作时间的方式执行参考图像特征组与当前图像特征组之间的匹配。这可以提高基于图像的识别、基于图像的跟踪和/或基于图像的再现。

此外，在另一跟踪塑料兔子808的应用中，这将类似于识别，图像810中提取的当前特征与参考特征匹配。根据与参考特征和匹配结果相关联的3D位置，可以形成2D-3D对应关系。基于2D-3D对应关系，可以确定塑料兔子808相对于捕获图像810的后置相机802的姿态。在没有本发明的情况下，与桌子807相关的图像特征(如图像特征832)可被提取并与参考特征匹配，然后将产生2D-3D对应关系用于姿态估计。这会把误差引入跟踪兔子808的姿势估计方法中，特别是当兔子808相对于桌子807移动时。

在另一应用中，可以基于塑料兔子808的至少一部分的至少一个图像，必须再现兔子808。在一个实例中，再现过程可以从在至少一个图像中提取的多个图像特征(例如，点特征)生成多个3D点。然后，3D几何模型可源自多个3D点。当深度信息可获取时，根据图像特征的图像位置以及与图像特征相关联的深度信息，可从单一图像估计3D点。在另一实施方式中，使用至少两个图像，可基于至少两个图像中的两个对应的图像特征来估计3D点，如Davison,Andrew J.等人发表于Pattern Analysis and Machine Intelligence(样式分析和机器智能),IEEE Transactions on 29.6(2007):1052-1067中的“MonoSLAM:Real-timesingle camera SLAM.”(下面称为“Davidson等人的文献”)中所提出的。如果与兔子808不相关的图像特征不用来创建用于再现兔子808的3D点，则是有利的。例如，图像810中的图像特征832以及图像910中的图像特征932不用来创建用于兔子808的3D点。

在图8中，前置相机803、后置相机802和显示屏幕804刚性地附接于移动设备801。此外，移动设备801可具有处理设备809和无线网络单元。本文所公开的任何实施例的任何步骤或者通过处理设备809在移动设备801中本地执行或者通过无线网络单元发送到远程服务器计算机890或另一移动设备。前置相机803、后置相机802和显示屏幕804彼此之间可以具有已知的空间关系。

图10示出了根据凝视方位信息确定图像特征的实施例的流程图。

步骤1001提供由至少一个相机捕获的真实对象的至少一部分的至少一个图像。在图8所示的实例中，提供兔子808(即，真实对象)的图像810(即，至少一个图像)并由后置相机802捕获该图像。

步骤1002在至少一个显示屏幕上显示至少一个图像的至少一部分。例如，在显示屏幕804上显示图像810，如图8所示。也可以在显示屏幕804上显示图像810的一部分。

步骤1003确定至少一只眼睛在至少一个显示屏幕上的至少一个凝视屏幕方位。具体地，可以确定眼睛805在显示屏幕804上的凝视方位。

步骤1002和步骤1003可以同步，使得所确定的凝视可以与显示在屏幕上的图像相关。例如，显示图像期间所检测的凝视可与图像相关联。

步骤1004确定至少一只眼睛在至少一个图像中的至少一个凝视图像方位。在图像810中，确定了由圆圈表示的凝视图像方位。可从凝视屏幕方位来确定凝视图像方位。也可以直接确定凝视图像方位，而无需明确地计算凝视屏幕方位。例如，当从屏幕上的位置到图像中的位置的转换系数可获取时，则不必计算并存储凝视屏幕方位。

为了确定在屏幕上和图像中的凝视方位，可使用眼睛跟踪器，如Tobii眼睛跟踪器(例如，见http://www.tobii.com)或相机。

在图8所示的场景中，附接于显示屏幕804的前置相机803可以捕获眼睛805的图像。可使用各种基于视觉的方法(例如，Blum等人的文献中所公开的)以基于所捕获的眼睛805的图像来确定屏幕804上的凝视方位。

前置相机803也可以捕获用户806脸部的至少一部分。可使用各种基于视觉的脸部跟踪或检测方法，以基于相机803所捕获的用户806脸部的至少一部分的一个或多个图像来估计相对于相机803的至少一个脸部方向。根据至少一个脸部方向，可确定屏幕804上的脸部方向方位。可根据脸部方向屏幕方位来计算脸部方向图像方位。

前置相机803也可以捕获用户806的一只或两只手部的至少一部分。可使用各种基于视觉的方法以基于相机803所捕获的一个或多个图像来估计相对于相机803的至少一个手部指向方向。根据至少一个手部指向方向，可确定屏幕804上的手部指向方位。可根据手部指向屏幕方位来计算手部指向图像方位。

步骤1005根据至少一个凝视图像方位来确定至少一个图像中的至少一个感兴趣图像特征。

在本发明的一个实施例中，至少一个图像包括一个图像，且至少一个凝视图像方位包括一个凝视图像方位。可执行图像分割，以从凝视图像方位的种子点分割图像中的感兴趣图像区域。覆盖或源自感兴趣图像区域的至少一部分的像素信息的图像特征可被确定为至少一个感兴趣图像特征。在一个实施方式中，可首先确定感兴趣图像区域。然后，在感兴趣图像区域上执行特征检测方法以提取图像特征。所提取的图像特征将是感兴趣图像特征。在另一实施方式中，在原始图像上执行特征检测方法以提取多个图像特征。如果这些图像特征覆盖或源自感兴趣图像区域的至少一部分的像素信息，从多个图像特征中选择图像特征作为感兴趣图像特征。对于点特征，如果其像素位置在感兴趣图像区域内，则所述点特征将为感兴趣图像特征。

在图8中，提供图像810。兔子808(即，待识别、跟踪和/或再现的感兴趣的对象)被捕获在图像810中。桌子807也被部分地捕获在图像810中。在第一实例中，在图像810中仅确定了凝视图像方位821。凝视图像方位821可用作分割方法的输入，以分割图像801中的感兴趣图像区域。例如，凝视图像方位821用作区域生长方法的开始点。在另一实施方式中，基于凝视图像方位周围的一区域的像素信息的阈值可被确定并用于基于阈值的分割。在另一方式中，基于凝视图像方位821，2D几何形状可被确定为图像801中的感兴趣图像区域。例如，可由凝视图像方位821限定方形或圆形区域作为其中心点。在进一步的实例中，例如根据基于像素值的图像分割，可将图像810的至少一部分分成几个图像块。根据凝视图像方位821，可选择图像块中的至少一个作为感兴趣图像区域。在这种情况下，如果凝视图像方位821位于一图像块内或靠近阈值内的图像块，则可选择该图像块。而且，当图像810具有用于其像素的至少一部分的深度信息时，分割还可基于该深度信息。例如，凝视图像位置可用作区域生长方法的开始点，其中在生长过程期间将对深度信息进行比较或分析。

基于使用凝视图像方位821的区域生长或阈值分割，可以确定兔子的图像区域818。图像特征831和833被确定为感兴趣图像特征，这是由于它们位于图像区域818内，而图像特征832(即，桌子807的角部)不被确定为感兴趣图像特征，这是由于其位于图像区域818外。所确定的感兴趣图像特征(这里为图像特征831和833)可用来与参考特征(例如，源自参考图像或源自CAD模型)匹配。基于匹配结果，可估计兔子808相对于后置相机802的姿态，或者可识别出兔子808。所确定的感兴趣图像特征(即，图像特征831和833)也可以用于再现兔子808。

在第二实例中，提供图像810，并在图像810中确定多个凝视图像方位(例如，凝视图像方位821-826)。在一个实施方式中，例如根据基于像素值的图像分割，可将图像810的至少一部分分成几个图像块。根据多个凝视图像方位的位置，可选择图像块中的至少一个作为感兴趣图像区域。在这种情况下，如果一定数目的凝视图像方位位于图像块内或靠近阈值内的图像块，则可选择该图像块。因此，可选择多个图像块作为感兴趣图像区域。在另一实例中，多个凝视图像方位可以成组或聚类。在这种情况下，如果某组凝视图像方位的至少一部分位于图像块内或靠近阈值内的图像块，则可选择该图像块。

可采用点聚类方法，以根据其2D图像方位使多个凝视图像方位聚类或成组。可采用如下方法，如基于连通性的聚类(分级聚类)、基于分布的聚类(例如，用于模拟聚类的高斯函数)和基于密度的聚类。具体地，基于高斯分布的聚类可能是优选的，这是因为用户很大可能集中于显示在显示屏幕上的感兴趣的对象。此外，当图像810具有相关联的用于其像素的至少一部分的深度信息时，凝视图像方位也可以根据其深度而聚类。例如，具有类似深度的凝视图像方位被成组。在另一实例中，其对应的3D位置位于同一平面上的凝视图像方位被成组。

可从聚类方法中选择具有最大数量的凝视图像方位的一组。所选择组中的凝视图像方位被确定为多个感兴趣的凝视图像方位。可以使用分割方法，如区域生长和阈值方法，以根据多个感兴趣的凝视图像方位的至少一部分来确定感兴趣区域。此外，也可从聚类方法中确定与每个组相关联的区域，如基于高斯分布的聚类或基于密度的聚类方法。与具有最大数量的组相关联的区域将是感兴趣图像区域。

在一个实施方式中，为了使多个所确定的凝视图像方位位于一个图像中，确定凝视的频率可能必须大于在屏幕上显示不同图像的频率。例如，当显示一个图像时，应该能够检测到多于一个凝视。在另一实施方式中，通过采用变换或映射方法，在一个图像中所确定的一个或多个凝视图像方位可以映射成另一图像中的图像方位。据此，在单个图像中可获得多个凝视图像方位。例如，图像910中的凝视图像方位925和926(用十字来标记)从图像810中的凝视图像方位825和826映射而来。该映射可以是从处于分别捕获图像810和910的位置的两个后置相机802和902之间的相对运动计算出的变换(例如，仿射或投影)。该映射还可通过基于图像的像素信息对两个图像进行匹配或配准而计算出。

在本发明的另一实施例中，至少一个图像包括多个图像，并且多个图像中的每一个具有在每个相应图像中检测的至少一个凝视图像方位。可由相同或不同的相机捕获所述多个图像。此外，所述多个图像可显示在相同或不同的显示屏幕上。

与每个相应图像相关联的至少一个凝视图像方位可映射到其他多个图像中的一个中。该映射可以是基于相机捕获每个相应图像的相机姿态或捕获两个图像的相机之间的运动而估计的2D变换(例如，刚性变换、仿射变换、投影变换或单应性)。

可通过利用基于视觉的方法、传感器(如GPS、指南针、惯性传感器)或专用跟踪系统来计算相机运动或相机姿态。专用跟踪系统可以是光学跟踪系统、机械跟踪器(例如，机器人臂)或基于附近的锚(anchor)(例如，蓝牙接收器)的室内定位系统。运动或姿态可由包括平移和旋转的6自由度变换表示。

由于多个图像中的一个中具有多个凝视图像方位，可类似地应用与上述类似的实施例以检测或选择图像中的感兴趣图像特征。

在第三实例中，提供图像810和910。在图像810中确定凝视图像方位821-826，同时图像810显示在屏幕804上，并且在图像910中确定凝视图像方位921-923，同时图像910显示在屏幕904上。可基于基于计算机视觉的方法(例如，利用图像810和910)或基于定位传感器(例如，GPS、指南针、重力传感器等)来确定捕获图像810的后置相机802与捕获图像910的后置相机902之间的运动。当相机802和902附接于同一移动设备时，附接于该移动设备的惯性传感器可用来估计运动或运动的至少一部分。

根据运动的至少一部分以及相机802和902的固有参数，可计算变换，诸如单应性。然后，可以利用该变换来变换(或映射)图像810和910之间的像素坐标。

根据所计算的变换，图像810中的凝视图像方位825和826可变换成方位925和926(以“X”标记)处的图像910。当图像910中的多个凝视图像方位(921-926)可获取时，可类似地应用与上述类似的实施例以检测或选择图像910中的感兴趣特征图像。例如，图像特征931和933可被确定为感兴趣图像特征。

根据所计算的变换，图像910中的凝视图像方位923也可变换成方位827(以“X”标记)处的图像810。当图像810中的多个凝视图像方位(821-827)可获取时，根据上述实施例，图像特征831和833可被确定为感兴趣图像特征。

然后，根据一个实施例，图像910中所检测的感兴趣图像特征(例如，图像特征931和933)与图像810中所检测的感兴趣图像特征(例如，图像特征831和833)匹配。可根据相似性测量(例如，平方差之和(SSD)、绝对差之和(SAD)、归一化交叉关联(NCC)和交互信息(MI))来估计特征对应关系。由于具有对应关系，可基于三角测量来计算用于图像特征的3D位置，如Davidson等人的文献中所提出的。所述3D位置可以与相应的图像特征相关联。

根据进一步的实施例，根据至少一个凝视图像方位，可以将权重分配给至少一个图像中所检测到的图像特征。然后，具有所分配权重的图像特征可被认为是至少一个感兴趣图像特征。

例如，在图像810中检测到图像特征831、832和833。基于本文所公开的任何方法，可根据一个或多个凝视图像方位来确定兔子的图像区域818。在该实例中，图像区域818内的图像特征831和833可被分配权重A，而图像区域818外的图像特征832可被分配权重B。权重A和权重B不同。权重A也可被分配给图像区域818，而权重B被分配给图像810的其余部分。权重A可以优选地高于权重B，因为权重A表示从凝视图像方位确定的感兴趣区域。

可以根据多个凝视图像方位的聚类结果来确定权重。例如，可以根据聚类来确定一组或多组凝视图像方位，并因此可基于所确定组的凝视图像方位来确定一个或多个图像区域。可基于一组凝视图像方位来确定一个图像区域。可根据用于确定图像区域的凝视图像方位的数量来确定分配给位于图像区域内或与之重叠的图像特征的权重。凝视图像方位的数量越大，可确定的用于权重的值越高。

在另一实施方式中，源自图像区域的像素的图像特征(即，直方图)可具有从图像区域中的凝视图像方位确定的权重。例如，可从图像区域中的凝视图像方位的数量或凝视图像方位的覆盖面积的大小来计算权重。

所确定的图像特征及相关权重可提供给后续的计算机视觉方法(例如，跟踪、识别、分类和3D再现)或者可作为参考图像特征被保存在数据库中。

步骤1006根据所确定的至少一个感兴趣图像特征执行计算机视觉算法。可采用本文所公开的基于图像特征的各种计算机视觉算法和应用。

在一个实施例中，根据所确定的至少一个感兴趣图像特征及相关权重，可执行计算机视觉算法。例如，根据图像810中检测到的图像特征831、832和833及相应的参考(3D或2D)特征，可确定相机802相对于兔子808的姿态。基于与图像特征831、832和833相关联的相应权重，从图像810中检测到的图像特征及相应的参考(3D或2D)特征计算出的2D投影误差或3D误差(例如，欧氏距离)可被加权。可通过使2D投影误差或3D误差最小化来确定姿态。

步骤1007存储所确定的至少一个感兴趣图像特征。例如，所确定的至少一个感兴趣图像特征在本地计算机(例如，移动设备)或远程计算机(例如，网络服务器)中可被保存为数据库中的至少一个参考图像特征。

光学透视实施例：

在使用光学透视装置(如具有半透明玻璃的头戴式显示器，如本领域中已知的)的另一实施例中，真实对象(如兔子)将不会在显示幕上显示给用户。相反，用户将直接看到或观察到真实对象，例如通过半透明玻璃。因此，眼睛的凝视方位直接出现在真实对象上，其在此称为凝视真实方位。

为了使真实对象上的凝视真实方位与相机(例如，附接到头戴显示器)所捕获的真实对象的图像相关，凝视方向(即，从眼睛到凝视真实方位相对于捕获图像的相机的方向)可用来确定图像中的凝视真实方位的图像位置。所确定的图像位置等同于如上所述的凝视图像方位。为此，使用与图像相关的深度信息，以便找到凝视方向与相机坐标系中的真实对象的表面之间的交点(即，凝视真实方位)。该深度信息可来自深度传感器或从两个图像估计出或从相机提供。

基于眼睛跟踪器(如Tobii眼睛跟踪器(例如，见http://www.tobii.com))或相机(例如，Blum等人的文献中所提出的)，可直接确定凝视方向。

然后，根据上述的各种实施例，可从所确定的一个或多个凝视图像方位来确定在图像中提取的感兴趣图像特征。

在另一实施例中，可从凝视方向计算凝视图像方位，而无需利用深度信息。例如，可将从眼睛到凝视真实方位的凝视方向投影到相机的捕获图像的图像平面。在这种情况下，凝视方向可被投影为图像中的线。该线将为凝视图像方位。

可相对于处于一个方位的相机或相对于处于不同方位的相机来确定多个凝视方向。当相机处于不同方位时，根据不同方位之间的相机运动，可将多个凝视方向变换成处于任何不同方位的相机的相机坐标系。由于具有多个凝视方向，可以确定图像中的多条投影线。多条投影线之间的图像面积的至少一部分可用来分割图像中的对象(例如，确定感兴趣图像区域)。可从多条投影线之间的图像面积的至少一部分或从所确定的感兴趣图像区域中提取感兴趣图像特征。

图11示出了根据凝视方位信息来确定图像特征的另一实施例的流程图，其可应用在这种光学透视实施例中。

在步骤1101中，提供由至少一个相机捕获的真实对象的至少一部分的至少一个图像。根据步骤1102，相对于至少一个相机确定至少一只眼睛的至少一个凝视方向，所述至少一个相机处于捕获至少一个图像的位置。步骤1104包括根据所确定的至少一个凝视方向来确定至少一只眼睛在至少一个图像中的至少一个凝视图像方位。步骤1105至1107对应于参照图10如上所述的相应步骤1005至1007。

为了估计至少一只眼睛的至少一个凝视方向，眼睛跟踪器系统(例如，商用眼睛跟踪器(例如，见http://www.tobii.com)或捕获至少一只眼睛的相机(例如，见Blum等人的文献)可用来确定与眼睛跟踪器相关联的坐标系中的凝视方向。根据眼睛跟踪器与捕获真实对象的图像的相机之间的空间关系，可确定相对于相机的凝视方向，所述相机处于捕获真实对象的图像的位置。

在另一实施例中，用户806可能不看显示屏幕804，而是直接观察包括兔子808和桌子807的真实环境，同时用户806手持移动设备801并将后置相机802指向兔子808。基于后置相机802所捕获的兔子808的一个或多个图像，可识别、跟踪和/或再现兔子808。在这种情况下，基于由前置相机803所捕获的眼睛805的图像，利用一种方法(例如，Blum等人的文献中所提出的)可确定眼睛805相对于后置相机802的一个或多个凝视方向。在这种情况下，为了执行任何特征检测、计算机视觉处理和/或增强现实应用(例如，计算机生成图形与真实环境的视图的重叠)，可能不需要光学透视装置，而可以采用视频透视设备(例如，移动设备801)。

可能需要使由相机803捕获眼睛805的图像的过程和由相机802捕获兔子808的图像的过程的同步。

根据一个实施例，本文所描述的处理系统可至少部分地被包含在移动设备801、901之一中和/或适于与移动设备801、901例如无线通信的服务器计算机890中。该处理系统可被包含在这些设备中的仅一种中，例如，移动设备801、901中或服务器计算机890中，或者可以是分布式系统，在该分布式系统中，由分布且彼此通信的一个或多个处理设备来分配和处理一个或多个处理任务(执行一个或多个方法步骤)。

通常，以下进一步的各方面和实施例可以结合本发明的各方面来应用。

许多增强现实(AR)应用可受益于本发明。例如，在AR购物、AR维护以及AR旅行应用中，存在位于真实世界中的多个真实对象(例如，用于AR购物的T恤、用于AR维护的发动机部件、以及用于AR旅行的古迹)。用户通常每次对一个对象感兴趣(即，感兴趣的对象)。可根据此时的用户的凝视来确定用户的感兴趣的对象。然后，只能对感兴趣的对象进行检测、跟踪或再现。此外，仅与感兴趣的对象相关的数字信息将被生成并可视地以AR视图显示在对象图像中。

凝视：

本文所使用的凝视描述了用户的一只或两只眼睛所指向的位置。用户的一只或两只眼睛的凝视方向是从用户的眼睛到眼睛正在看的位置的方向。用户的一只或两只眼睛的凝视方位是用户的眼睛正在看的方位。凝视方位可以是点、区域(例如，圆形、方形等)、线等。眼睛的凝视图像方位是眼睛的凝视方位在图像中的一个图像位置(或多个图像位置)。与凝视方位类似，凝视图像方位可以是点、区域(例如，圆形、方形等)、线等。用户应该被理解为正在使用本文所描述的方法或系统的人，例如，正在看显示屏幕的人。

注意力方位：

用户的注意力方位是用户的注意力方向在真实世界中聚焦的方位。注意力方位可被计算为注意力方向与真实世界的至少一部分之间的交集。用户的注意力方向源于用户位置并且可被表示为方向轴线或锥形形状，其中顶点由用户位置定义。注意力方位可以是点、区域(例如，圆形、方形等)、线等。

用户的注意力屏幕方位是用户的注意力方位在屏幕中的屏幕位置(或图像位置)。图像可以显示在屏幕上。用户的注意力图像方位是用户的注意力方位在图像中的一个图像位置(或多个图像位置)。注意力屏幕方位可被确定为注意力方向与屏幕平面之间的交集。基于图像在屏幕上的显示位置，注意力图像方位可源自相应的注意力屏幕方位。

由相机所捕获的图像中的注意力图像方位也可以源自相应的注意力方向以及相机与相应的注意力方向之间的空间关系。

与注意力方位类似，注意力图像(或屏幕)方位可以是点、区域(例如，圆形、方形等)、线等。

凝视方向是注意力方向的一个特定实例。类似地，凝视屏幕方位是注意力屏幕方位的一个特定实例，并且凝视图像方位是注意力图像方位的一个特定实例。

脸部方向(例如，正面方向)是注意力方向的另一特定实例。类似地，脸部方向屏幕方位是注意力屏幕方位的另一特定实例，并且脸部方向图像方位是注意力图像方位的另一特定实例。

对象：

对象可以是物理地存在于真实世界中的真实对象。真实对象可以是室内办公室或室外场景。真实对象还可以是或包括另一个真实对象，诸如沙发、汽车、人、树、建筑物或图片。对象也可以是虚拟对象，其是由计算机产生的数字信息。该虚拟对象可被渲染为可位于屏幕上的虚拟图像。例如，虚拟对象可以是由计算机图形软件产生的虚拟沙发或虚拟室内房间。虚拟对象还可包括另一虚拟对象。例如，虚拟室内房间可以包括虚拟沙发。

计算机视觉算法：

潜在的计算机视觉方法或算法包括用至少一种知识处理、分析和/或理解图像，所述知识不限于相机固有和/或外在参数、几何形状、物理特性、统计和机器学习理论。计算机视觉算法包括但不限于基于图像的识别、基于图像的跟踪、基于图像的再现、基于图像的分类以及图像扭曲中的至少一种。

基于图像的识别分析在图像的至少一部分中提取的图像特征，以便识别图像或认出在图像中可视或捕获的至少一个对象。例如，在可视搜索应用中，由相机将图片(例如，CD唱片的封皮上的图片)捕获在相机图像中，并且基于图像的识别通过分析相机图像将识别出所述图片，以便触发相关的动作。为此，在一个实施例中，可首先确定图片在相机图像中的图像区域，并将图片的图像与存储在计算机系统中的一些参考图像进行对比，以便认出所述图片。一个挑战是要精确地检测出图片的图像区域。在另一实施例中，可从相机图像提取图像特征并将其与存储在计算机系统中的参考图像特征匹配。然而，所提取的不属于CD封面的图片的图像特征可能干扰匹配。

计算机视觉还包括对至少一个图像的3D分析。基于视觉的同时定位和映射(SLAM)(例如，见Davidson等人的文献)是一种已知的技术，通过利用由相机捕获的一个或多个图像而创建真实环境(或真实对象)的几何模型，而不需要真实环境(或对象)的任何预知知识。此外，SLAM可跟踪相机相对于真实环境(或对象)的位置。至少具有深度信息的几何模型也被称为真实环境的3D地图。环境模型的创建也被称为环境的再现。再现的几何模型可由多个3D图像特征(即，具有相关的3D位置的图像特征)表示，诸如3D点、3D边缘和/或3D平面。

可由相机将对象捕获在至少一个图像中。基于图像的跟踪可检测对象在3D空间中或在至少一个图像的2D空间中的位置和/或方向。基于图像的跟踪还可确定相机的姿态。为此，图像特征(例如，捕获在至少一个图像中的对象的特征)经常在至少一个图像中被检测到并用于各种基于图像的跟踪方法中，以确定对象和/或相机的姿态。然而，检测到的不属于所述对象的图像特征可能干扰跟踪方法。

基于图像的再现是根据对象的图像来计算对象或对象的一部分的几何模型。通常，再现需要由一个相机或不同相机从两个不同位置捕获的对象的至少两个图像。在所述至少两个图像中提取图像特征，并使所述图像特征在两个图像之间匹配。对于匹配的特征，可使用三角测量来确定匹配特征的3D位置，其为两条射线的交点。每条射线由两个图像中的每个图像中的图像特征位置以及相机光学中心来限定，所述相机处于捕获相应图像的位置。因此，图像特征的多个3D位置能够被确定并用来计算对象的几何形状。然而，在两个图像中提取的图像特征可能不涉及对象。这将在特征匹配过程中引入误差或附加检查。如果匹配特征与对象不相关，则匹配特征的3D位置不应被用来确定对象的几何形状。

因此，优选的是，具有除去检测到的不相关的图像特征或仅检测图像中的相关的图像特征的方法，如这里针对本发明所描述的。

通常，在下文中，将给出术语的进一步解释，并且下面的进一步方面和实施例可结合本发明的各方面应用。

相机：

相机经常被称为成像装置或捕获装置。所提出的发明通常可应用于任何能够提供图像的相机。其不限于提供RGB格式的彩色图像的相机。其还可应用于任何其他颜色格式并且还可应用于单色图像，例如提供灰度格式或YUV格式的图像的相机。

相机通常具有固有参数，包括焦距和主点。相机可以捕获对人眼可见的光。相机还可以捕获对人眼不可见的光，诸如红外光。例如，相机可以是热成像相机或红外相机。

提供具有深度数据的图像的相机通常被称为深度相机。深度相机系统可以是飞行时间(TOF)相机系统或无源立体相机或基于结构光的有源立体相机。深度相机可以提供其像素仅代表深度数据的图像。深度相机可以在单个图像(例如，RGB-D图像)中捕获光和深度数据两者。对于深度相机，不需要以与(彩色/灰度)图像相同的分辨率来提供深度数据。

对于具有简化针孔的标准相机模型或鱼眼相机模型，仅测量通过单个点(即，针孔)落下的光。

本发明还可以使用光场相机，其可从多个不同的视点并可选地对于不同视点用不同的焦距来捕获图像。光场相机不限于捕获仅通过单个点落下的光，而且还测量在不同方位入射的多个光强度。

图像：

图像是描绘或记录可视信息或感知的任何数据。图像可以是二维图像。图像也可以是三维图像，例如深度图像。图像可以捕获反射、折射和/或发出对人眼可见和/或不可见的光的对象。图像可以是RGB格式的。其还可应用于任何其他颜色格式，并且还可应用于单色图像，例如灰度格式或YUV格式。例如，红外图像能够捕获反射、折射和/或发出对人眼不可见的光的对象。

深度图像可以是具有相应深度地图的2D(彩色/灰度)图像。不需要以与2D图像相同的分辨率来提供深度图像。深度图像也可被称为3D图像。深度图像可仅提供深度数据。

显示屏幕：

显示屏幕可视地显示数字信息。显示屏幕可以是反射型或发射型屏幕，例如LCD、LED或OLED。在增强现实应用中，利用包括相机和反射型或发射型屏幕的视频透视装置，可以执行数字信息(例如，虚拟对象)和真实对象的可视集成。在这种配置中，相机捕获真实对象或环境的图像，然后在显示屏幕上显示所捕获的叠加有空间记录的计算机生成的虚拟对象的图像。这种配置被称为视频透视AR。

显示屏幕也可以是半透明屏幕，如谷歌(google)眼镜。一个实例是将光学透视装置放置在用户的眼睛与真实对象之间。然后可通过光学透视装置的这种半透明屏幕直接观察真实对象，而虚拟对象是计算机生成的并显示在半透明屏幕上。这种配置被称为光学透视AR。

显示屏幕的至少一部分可以是平面的(例如，显示器表面)，并且可具有与平面部分相关的法线方向。通常，法线方向垂直于平面部分。法线方向通常从显示装置指向在显示装置前面观察显示在显示装置的至少一部分上的可视信息的用户。显示屏幕的至少一部分也可以是弯曲的。

图像特征：

对象的特征用来表示与对象相关的一条信息。该条信息对于解剖学上的眼睛或光学成像装置可以可视地察觉。例如，真实对象可以发射或反射可通过人眼或相机捕获的可见光。真实对象还可以发射或反射不能被人眼捕获但能够由相机捕获的不可见光(即，光学上可察觉)。在另一实例中，所述特征可以与虚拟对象(即，计算机产生的对象)相关联。虚拟对象的特征可以是已知或可在计算机或计算机程序中检测，如计算机图形仿真软件。

特征可以描述特定颜色和/或结构，诸如气泡、边缘点、特定区域和/或真实对象的更复杂结构。特征可以由图像补片(patch)(例如，像素强度)或高级描述符(例如，SIFT、SURF)表示。特征在相对于真实对象的坐标系的3D欧氏空间中可具有3D位置和/或3D方向信息。这通常被称为3D特征。

特征(即，与真实对象相关的一条信息)可从相机捕获的真实对象的图像中提取，且因此特征在图像的坐标系中可具有2D图像位置和/或方向。这通常被称为一个/该图像特征。图像特征可以是2D图像特征或3D图像特征。当相机可提供深度信息时，从相机的图像中提取的特征也可具有3D位置和/或方向信息。

特征可由描述几何形状的公式描述，所述几何形状例如为点、射线、直线、圆、锥形或者圆柱形。检测图像中的特征(可用于本发明的方法中)的方法包括但不限于拉普拉斯高斯(LoG)的相对极值、高斯函数的差分(DoG)或海森矩阵的行列式(DoH)、最大稳定极值区域(MSER)、海森特征、或基于学习的拐角检测器(诸如FAST)。而且，检测边缘(边缘元素)的方法适于用在这种方法中。待使用的特征检测方法不限于在2D强度灰度图像上工作的方法，而且也可以在任何其他颜色空间(包括RGB、HSV和Lab)中的图像或范围图像上执行，所述范围图像或者仅包含深度信息或者提供深度和强度信息两者。描述特征的方法可以在上述任何类型的图像上运行，且可包括SIFT(尺度不变特征变换)、SURF(加速鲁棒特征)、GLOH(梯度位置和方向直方图)、HOG(方向梯度直方图)、2.5D-SIFT或比较局部特征的任何其他方法，包括基于分类的方法，如随机蕨算法。

真实对象：

对象可以是物理地存在于真实世界中的真实对象。真实对象可为室内或室外场景。真实对象还可以是另一个真实对象或包括另一个真实对象，诸如沙发、汽车、人、树、建筑物或图片。真实世界或真实环境也可被认为是真实对象。真实环境还可以包括一个或多个真实对象。例如，城市或街道可以是真实环境。街道还可包括建筑物、树和停车场。停车场可被认为是另一真实环境。由相机捕获的真实对象的图像可包含整个真实对象或真实对象的一部分。

对象也可以是虚拟对象，其为计算机产生的数字信息。虚拟对象可被渲染为屏幕上的虚拟图像。例如，虚拟对象可以是由计算机图形软件产生的虚拟沙发或虚拟室内房间。虚拟对象还可包括另一虚拟对象。例如，虚拟室内房间可以包括虚拟沙发。

姿态：

第一对象相对于第二对象的姿态(例如，与第二对象相关联的坐标系)描述了一种包括在第一对象与第二对象之间进行平移和/或旋转的刚性变换。在一些文献中，第一对象相对于第二对象的姿态指示从第一对象到第二对象的刚性变换，而第二对象相对于第一对象的姿态指示从第二对象到第一对象的刚性变换。基本上，第二对象相对于第一对象的姿态可被视为等同于第一对象相对于第二对象的姿态，因为它们都描述了两个对象之间的变换。

在3D空间中，姿态可包括用于六个自由度(DOF)或六个DOF的一部分的信息。这六个DOF包括三个平移DOF和三个旋转DOF。在2D空间中，姿态可包括用于三个自由度(DOF)或三个DOF的一部分的信息。这三个DOF包括两个平移DOF和一个旋转DOF。

真实对象(例如相机)的运动描述了处于一个位置的真实对象与处于公共坐标系中的另一个位置的真实对象之间的刚性变换。

相机姿态确定：

基于由相机捕获的环境的至少一部分的图像，可确定相机相对于真实世界(例如，真实对象或真实环境)的姿态。在一个实施方式中，真实对象的模型可用于基于模型的匹配。例如，基于模型的匹配可以基于点特征、边缘特征或任何尺寸和形式的图像补片。虽然点特征频繁用于高度纹理的对象，但如果真实对象具有很少的纹理，则边缘特征是优选的。基于模型的匹配需要用于姿态确定的图像包含由模型描述的真实对象的至少一部分。真实对象例如还包括环境中的基准标记。真实对象的模型可由点、边缘、多边形或它们的组合来描述。真实对象的模型还可包含纹理信息，例如颜色。

确定相机姿态还可通过使用可视标记来实现。这需要可视标记相对于真实对象位于已知位置。在这种情况下，可根据相对于可视标记的相机姿态来确定相对于真实对象的相机姿态，其基于包含可视标记的相机图像来估计。当可视标记用于相机姿态确定时，不必使图像包含真实对象的至少一部分。

两个相机位置之间的相机运动可由处于两个相机位置的相机姿态来确定。也可以根据处于两个相机位置的相机捕获的两个图像来确定相机运动。例如，可采用两个图像中的公共图像特征来确定相机运动。

空间关系：

空间关系规定了一个对象相对于另一个对象如何在2D或3D空间中定位。例如，在平移和/或旋转和/或比例方面对空间关系进行定义。空间关系可以是刚性变换。空间关系可限定第一对象与第二对象之间的拓扑关系。拓扑关系可包括但不限于以下中的至少一种：等于、不相交、相交、接触、覆盖、被覆盖以及位于…内。空间关系可限定第一对象与第二对象之间的方向关系。例如，空间关系可以指示第一对象位于第二对象的后内侧上。在另一实例中，空间关系可以指示第一对象位于第二对象的后面(外部)。空间关系可以定义第一对象与第二对象之间的距离关系，例如，处于；附近；在附近；远离。

购买信息：

与购买一个或多个物品的过程相关的任何信息可认为是一个或多个物品的购买信息。在一个实例中，夹克的购买信息可以是可购买夹克的真实商店的位置或在线商店的网络链接。购买信息也可以是价格或材料。所述购买信息还可以是订单或发票。购买信息还可以是商店中的夹克的可获取性(例如，有现货或3天内可获取)。

Claims

1.一种提供由安装在车辆上的多个场景相机中的至少一个场景相机捕获的至少一个真实对象的至少一个图像的方法，所述方法包括：

提供所述多个场景相机中的各个场景相机相对于与所述车辆相关联的参考坐标系的相机姿态；

提供由信息捕获设备捕获的与用户有关的用户注意力数据；

从所述用户注意力数据中提供相对于所述参考坐标系的注意力方向；

基于所述注意力方向和选择的场景相机的相应相机姿态，在所述多个场景相机中选择场景相机；

响应于选择所选择的场景相机，提供由所选择的场景相机捕获的图像；

确定在所提供的图像中描绘的感兴趣的对象；以及

生成针对所述感兴趣的对象的订单，以传送至所述感兴趣的对象的供应商。

2.根据权利要求1所述的方法，其中，所述用户注意力数据与用户的脸部、凝视、手部和手势中的至少一个有关。

3.根据权利要求1所述的方法，其中，所述用户注意力数据包括光学图像、生物电信号和眼电图中的至少一个。

4.根据权利要求1所述的方法，其中，所述信息捕获设备包括用户相机，并且提供用户注意力数据的步骤包括提供由所述用户相机捕获的用户的至少一部分的用户图像。

5.根据权利要求4所述的方法，其中，所述用户图像还包括所述车辆的至少一部分，并且其中根据与所述用户相关联的像素信息以及所述用户图像中的与所述车辆相关联的像素信息来确定所述注意力方向。

6.根据权利要求1所述的方法，其中，所述信息捕获设备包括眼睛跟踪设备，并且其中提供用户注意力数据包括提供与由所述眼睛跟踪设备捕获的所述用户的眼睛相关联的凝视信息。

7.根据权利要求1所述的方法，其中，提供所述注意力方向包括以下中的至少一个：确定用户脸部的脸部方向、确定用户凝视的凝视方向以及确定用户手部的手部指向方向。

8.根据权利要求1所述的方法，还包括：

提供所述信息捕获设备在所述参考坐标系中的设备位置；以及

基于所述设备位置以及所述注意力方向与所述信息捕获设备之间的空间关系，提供相对于所述参考坐标系的所述注意力方向。

9.根据权利要求1所述的方法，其中，提供由所选择的场景相机捕获的所提供的图像包括：提供由所述多个场景相机捕获的多个图像，以及从所述多个图像中选择所提供的图像。

10.根据权利要求9所述的方法，其中，提供所述多个图像和捕获所述用户注意力数据是同步的。

11.根据权利要求1所述的方法，其中，提供所提供的图像包括通过所选择的场景相机来捕获所提供的图像。

12.根据权利要求1所述的方法，其中，基于安装至所述车辆的镜子的反射方向来确定所述注意力方向。

13.根据权利要求1所述的方法，还包括：

当所述车辆处于第一车辆位置时，捕获所述用户注意力数据；

确定处于所述第一车辆位置的车辆与处于不同于所述第一车辆位置的第二车辆位置的车辆之间的空间关系；以及

根据处于所述第一车辆位置的车辆与处于所述第二车辆位置的车辆之间的空间关系，选择所选择的场景相机。

14.根据权利要求13所述的方法，还包括：

当所述车辆处于所述第二车辆位置时，捕获第二用户注意力数据；

从所述第二用户注意力数据中确定第二注意力方向；以及

基于所述注意力方向、所述第二注意力方向以及处于所述第一车辆位置的车辆与处于所述第二车辆位置的车辆之间的空间关系，确定所述参考坐标系中的与所述车辆相关联的位置。

15.根据权利要求1所述的方法，其中，所述注意力方向对应于视线或视场。

16.一种非瞬时性计算机可读介质，具有存储在其上的计算机程序，所述计算机程序在被处理器执行时使得所述处理器执行包括以下的步骤：

提供安装在车辆上的多个场景相机中的各个场景相机相对于与所述车辆相关联的参考坐标系的相机姿态；

提供由信息捕获设备捕获的与用户有关的用户注意力数据；

基于所述注意力方向和选择的场景相机的相应相机姿态，从所述多个场景相机中选择场景相机；

确定在所提供的图像中描绘的感兴趣的对象；以及

17.一种用于提供至少一个真实对象的至少一个图像的系统，包括：

至少一个处理设备，所述至少一个处理设备耦接至安装在车辆上的多个场景相机和信息捕获设备，所述信息捕获设备被配置成捕获与用户有关的用户注意力数据；

其中，所述至少一个处理设备被配置成：

确定在所提供的图像中描绘的感兴趣的对象；以及

18.一种存储指令的非暂时性计算机可读介质，所述指令可由一个或多个处理器执行以：

确定安装在车辆上的多个场景相机中的一相机的相机姿态，该相机姿态相对于与该车辆相关联的参考坐标系；

从信息捕获设备接收用户注意力数据，所述用户注意力数据与用户相关；

基于所述用户注意力数据确定相对于所述参考坐标系的注意力方向；

基于所述相机姿态和所述注意力方向确定该相机的视场与所述注意力方向重叠；和

响应所述视场与所述注意力方向重叠：

获取该相机捕获的图像；以及

通过将所述注意力方向投影到所获取的图像中以识别所述图像内的感兴趣区域，来识别所获取的图像中的感兴趣对象。

19.根据权利要求18所述的非暂时性计算机可读介质，其中，所述用户注意力数据包括所述用户的手的图像，并且其中，所述注意力方向包括所述用户的手指向的方向。

20.根据权利要求18所述的非暂时性计算机可读介质，其中所述用户注意力数据包括眼电图。

21.根据权利要求18所述的非暂时性计算机可读介质，其中，所述指令进一步可由所述一个或多个处理器执行以启动在显示设备处显示与所述感兴趣对象相关的增强信息。

22.根据权利要求21所述的非暂时性计算机可读介质，其中，与所述感兴趣对象有关的信息包括所述感兴趣对象中包括的材料的指示、所述感兴趣对象的大小、到包括与所述感兴趣对象有关的附加信息的网页的链接、或它们的组合。

23.根据权利要求21所述的非暂时性计算机可读介质，其中，所述显示设备包括安装在所述车辆内的显示器。

24.根据权利要求18所述的非暂时性计算机可读介质，其中，所述注意力方向对应于所述用户的第一注意力方向和第二用户的第二注意力方向的平均。

25.根据权利要求18所述的非暂时性计算机可读介质，其中所述指令进一步可由所述一个或多个处理器执行以确定所述信息捕获设备在所述参考坐标系中的设备位置，其中所述注意力方向进一步基于所述设备位置被确定。

26.根据权利要求18所述的非暂时性计算机可读介质，其中，所述指令进一步可由所述一个或多个处理器执行，以通过从由所述多个场景相机捕获的多个图像中选择所获取的图像来获取所述图像。

27.根据权利要求26所述的非暂时性计算机可读介质，其中，所述多个图像的捕获和所述用户注意力数据的捕获是同步的。

28.根据权利要求18所述的非暂时性计算机可读介质，其中，所述指令进一步可由所述一个或多个处理器执行，以通过启动由所述相机捕获所获取的图像来获取所述图像。

29.根据权利要求18所述的非暂时性计算机可读介质，其中，所述指令进一步可由所述一个或多个处理器执行，以基于安装到所述车辆的镜子的反射方向来确定所述注意力方向。

30.根据权利要求18所述的非暂时性计算机可读介质，其中所述指令进一步可由所述一个或多个处理器执行以：

确定所述车辆在第一车辆位置处与所述车辆在不同于第一车辆位置的第二车辆位置处之间的空间关系，

其中，当所述车辆位于第一车辆位置时捕获所述用户注意力数据，

其中，当所述车辆位于第二车辆位置时捕获所述获取的图像，并且

其中，所述注意力方向进一步基于所述车辆在第一车辆位置处与所述车辆在第二车辆位置处之间的所述空间关系来确定。

31.根据权利要求30所述的非暂时性计算机可读介质，其中，所述指令进一步可由所述一个或多个处理器执行，以接收当所述车辆处于第二车辆位置时捕获的第二用户注意力数据，并进一步基于所述第二用户注意力数据确定所述注意力方向。

32.一种用于提供至少一个真实对象的至少一个图像的系统，包括：

至少一个处理设备；

多个场景相机，耦接到所述至少一个处理设备并且安装在车辆上；

信息捕获设备，被配置为捕获与用户相关的用户注意力数据；和

存储器，包括计算机可读代码，所述计算机可读代码可由所述至少一个处理设备执行以：

确定所述多个场景相机中的一相机相对于与该车辆相关联的参考坐标系的相机姿态；

基于所述相机姿态和所述注意力方向确定该相机的视场与所述注意力方向重叠；以及

响应所述视场与所述注意力方向重叠：

获取该相机捕获的图像；以及

33.根据权利要求32所述的系统，其中，所述多个场景相机被布置为捕获所述车辆外部的环境的场景，并且其中，比较所述相机姿态和所述注意力方向包括确定所述相机姿态的轴是否与所述注意力方向相交。

34.根据权利要求32所述的系统，其中所述信息捕获设备包括另一相机，其中所述用户注意力数据表示由所述另一相机捕获的所述用户的至少一部分的图像，并且其中比较所述相机姿态和所述注意力方向包括确定所述注意力方向的第一轴与所述相机姿态的第二轴之间的角度是否满足阈值。

35.根据权利要求32所述的系统，其中所述信息捕获设备包括另一相机，其中所述用户注意力数据表示由所述另一相机捕获的附加图像，其中所述附加图像描绘所述车辆的至少一部分和所述用户的至少一部分，并且其中所述注意力方向根据所述附加图像中对应于所述用户的像素信息和对应于所述车辆的像素信息来确定。

36.根据权利要求32所述的系统，其中所述信息捕获设备包括眼睛跟踪设备，并且其中所述用户注意力数据包括由所述眼睛跟踪设备捕获的凝视信息，所述凝视信息与所述用户的眼睛相关联。

37.一种用于提供至少一个真实对象的至少一个图像的方法，包括：

响应所述视场与所述注意力方向重叠：

获取该相机捕获的图像；以及