CN106575043A

CN106575043A - 用于手势识别和交互的系统，装置和方法

Info

Publication number: CN106575043A
Application number: CN201580045628.6A
Authority: CN
Inventors: R.R.艾尔; O.蒂库; G.J.安德森
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-09-26
Filing date: 2015-09-04
Publication date: 2017-04-19
Anticipated expiration: 2035-09-04
Also published as: US20160091964A1; US10725533B2; US20200310532A1; EP3198377A1; EP3198377A4; CN106575043A8; CN106575043B; WO2016048633A1

Abstract

本文一般地讨论了用于基于手势的增强现实的系统和装置。本文还讨论了使用系统和装置的方法。根据示例，一种方法可以包括：检测图像数据中的对象和手势；响应于检测到图像数据中的手势，提供指示检测到的对象的数据；响应于检测图像数据中的手势，提供指示检测到的手势的数据；以及使用指示检测到的对象的数据和指示检测到的手势的数据来修改图像数据。

Description

用于手势识别和交互的系统，装置和方法

优先权要求

本专利申请要求于2014年9月26日提交的美国申请序列号14/498,704的优先权，该申请全部内容通过引用并入本文。

技术领域

示例一般地涉及手势识别，并且更具体地涉及使用可穿戴设备的手势识别和交互。

背景技术

增强现实（AR）包括用诸如声音或视觉增强的感觉输出来增强（例如，修改，更改或修正）的真实世界图像或图像流的呈现。增强图像数据通常是实时完成的。通常，AR代替捕获，处理和输出的真实世界视图以提供模拟视图。AR具有许多应用，除了别的之外还包括游戏、维护、娱乐、指导和引导。

附图说明

在不一定按比例绘制的附图中，相同的数字可以在不同的视图中描述类似的部件。具有不同字母后缀的相同数字可表示类似部件的不同实例。附图作为示例而非限制大体图示了本文所讨论的各种实施例。

图1示出根据一个或多个实施例的AR系统的示例的框图。

图2示出根据一个或多个实施例的AR系统的另一示例的框图。

图3示出根据一个或多个实施例的在使用中的可穿戴显示器的示例。

图4示出根据一个或多个实施例的AR用例的示例。

图5A和5B示出根据一个或多个实施例的示出手势和邻近对象的一系列图像的示例。

图6示出根据一个或多个实施例的认证用例的示例。

图7A和7B示出根据一个或多个实施例的示出对象修改用例的一系列图像的示例。

图8示出根据一个或多个实施例的手势识别或语音识别用例的示例。

图9示出根据一个或多个实施例的用于提供AR图像的方法的示例的流程图。

图10示出根据一个或多个实施例的用于提供AR图像的另一方法的示例的流程图。

图11示出可在其上执行本文所论述的一种或多种技术（例如，方法）中的任一种的设备的示例的框图。

具体实施方式

本文大体讨论了用于AR和相关联的AR用户交互的系统、设备和方法。本文所讨论的实施例可以使用诸如可头戴式显示器的可穿戴显示器或者与其他支持AR的计算设备（例如，诸如智能电话的移动计算设备）组合来实施。

如本文所描述的，可以通过使用具有相机和显示器的AR设备来提供AR用户交互的各种机制。与身体安装的相机交互的一种方式是可穿戴设备使用机器视觉来检测可被解释为命令的用户的手指或手部手势。在与对象识别结合的可穿戴相机前面的手势（例如，空中手势）可以向AR应用提供各种使用模型和适用性。

可穿戴设备大体包括诸如相机的图像（例如，视频）捕获机制以及向用户显示所捕获的图像的输出设备。可以安装图像捕获设备，使得穿戴图像捕获设备的用户可以执行图像捕获设备的透镜和作为手势的主体的对象之间的手势。手势和对象可以由设备识别。手势可以使设备基于各种数据（除了别的之外，诸如手势、对象、社交语境、说出的声音、手势选择的操作或其组合）来增强由相机捕获的图像数据。

现在将参考图来进一步描述用于AR的系统、装置和方法的细节。

图1示出根据一个或多个实施例的AR系统100的示例。AR系统100可以包括相机模块102、对象识别模块104、手势识别模块106、图像渲染模块108和输出模块110。

相机模块102可以将相机模块102的视场中的场景转换成图像数据（例如，视频、静止或其他图像数据）。相机模块102可以包括数字相机、视频相机、相机电话或其他图像捕获设备。

对象识别模块104可以检测或识别（例如，检测和标识）图像数据中的对象。对象识别模块104可以根据图像数据描绘（例如，提取）对象，诸如以便在相机模块102的视场或图像数据中将对象与周围环境隔离。对象识别模块104可以使用基于外观的方法或基于特征的方法以及其他方法中的至少一个来检测、识别或描绘对象。

基于外观的方法可以包括通常将对象的呈现与图像数据进行比较，以确定对象是否存在于图像中。基于外观的对象检测方法的示例除了别的之外还包括边缘匹配、梯度匹配、颜色（例如，灰度）匹配、“分治（divide-and-conquer）”、图像点关系的直方图、模型基础方法或其组合。边缘匹配方法可以包括边缘检测方法，该方法包括与已知对象的边缘的模板的比较。颜色匹配方法可以包括将来自图像数据的对象的像素数据与参考对象的先前确定的像素数据进行比较。梯度匹配方法可以包括将图像数据梯度与参考图像数据梯度进行比较。“分治”方法可以包括将已知对象数据与图像数据进行比较。图像点关系的直方图可以包括将对象的参考图像中的图像点的关系与所捕获的图像数据进行比较。模型基础方法可以包括将诸如可以存储在模型数据库中的对象的几何模型（例如，特征值、特征向量或“特征面”以及其他几何描述符）与图像数据进行比较。这些方法可以组合，诸如以便提供更鲁棒的对象检测方法。

基于特征的方法可以包括通常将对象的特征的呈现与图像数据进行比较，以确定特征是否存在，以及如果特征存在则推断对象存在于图像数据中。对象的特征的示例包括表面特征、角或边缘形状。基于特征的方法可以包括加速鲁棒特征（SURF）、尺度不变特征变换（SIFT）、几何散列、不变性、姿势聚类或一致性、假设和测试、解释树或者其组合，以及其他方法。

描绘对象可以包括确定对象的轮廓或剪影以及确定轮廓或剪影内的图像数据（例如，像素值）。可以显示或提供所确定的图像数据或像素值，而不显示或提供根据其描绘对象的图像的剩余图像数据。所描绘的对象可以被显示在静止图像上或使用输出模块110以其他方式加以显示。用户可以当正在显示静止图像时通过执行手势或命令而使在对象上执行一个或多个操作。关于图4讨论关于这些操作的示例的更多细节。

手势识别模块106可以标识图像数据（例如，对应于单个图像的图像数据或对应于一系列图像或多个图像的图像数据）中的手部或手指，并确定其运动或配置，以确定是否已经执行了可识别手势。手势识别模块106可以处理在线或离线的手势。在线手势通常是用于修改对象的直接操纵手势，而离线手势是在与对象交互（例如，激活菜单屏幕）之后处理的手势。

手势识别模块106可以使用三维或二维识别方法。通常，二维识别方法比三维方法需要更少的计算机资源来执行手势识别。除了别的之外，手势识别模块106还可以实施基于框架的方法或基于外观的方法。基于框架的方法包括将手指或手部建模为一个或多个段以及这些段之间的一个或多个角度。基于外观的模型包括使用手部或手指的模板，以及将模板与图像数据进行比较，以确定在图像数据中是否出现与模板基本上匹配的手部或手指。

图像渲染模块108可以修改图像数据，诸如以增强图像数据并提供AR图像。图像渲染模块108可以基于来自以下各项的数据更改图像数据：对象识别模块104、手势识别模块106、语音识别模块112、语境模块116、或认证模块118。图4、图6、图7B和图8示出诸如可以由图像渲染模块108执行的各种图像增强的示例。

输出模块110可以包括扬声器、无线电（例如蓝牙，蜂窝或其他无线电）接收器、发射器或收发器、显示器、投影仪或其他设备。输出模块110可能可操作来提供由相机模块102捕获的图像的视图或对应于诸如可以由图像渲染模块108提供的增强图像数据的增强图像的视图。除了别的之外，输出模块110还可以包括液晶显示器（LCD）、发光二极管（LED）、等离子体显示器、触摸屏显示器或投影仪或屏幕。

语音识别模块112可以解释由麦克风114捕获的声音（例如，词或短语），并提供指示解释的数据。除了别的之外，还可以使用隐马尔可夫模型（HMM）方法或神经网络方法来解释声音。

语境模块116可以确定用户的社交环境并且提供指示用户的确定社交环境的数据。除了别的之外，社交环境的示例还可以包括用户锻炼、交谈、驾驶、购物、进食、观看节目（例如，电影、电视或其他节目）、工作、访问人、地点或事物。可以基于用户的位置、速度或方向、图像数据中的一个或多个人或对象、日期或当日时间、或者在用户的可穿戴设备上运行的应用程序的应用状态中的至少一个来确定用户的社交环境。

在一个或多个实施例中，如果用户的位置是咖啡店或其他社交场所，则可以禁用话音命令（例如，语音识别模块112或麦克风114）。在一个或多个实施例中，如果用户正在第一速度范围内行进，则可以确定用户正在步行或跑步。如果另一个人的话音被麦克风持续地拾取，则可以确定用户正在与另一个人交谈或者听另一个人的话音。在一个或多个实施例中，位置和人或对象的组合可以指示用户正在访问朋友或家庭成员。

认证模块118可以给系统100提供安全机制。认证模块118可以包括定义一组一个或多个操作的策略，这些操作需要被执行以供用户访问系统100的一个或多个模块的功能。关于图6讨论认证方法的示例和由认证模块118提供的功能的示例。认证模块118可以提供可以帮助保护系统100免受恶意攻击的安全路径。在一个或多个实施例中，认证模块118可以包括对象识别模块104、手势识别模块106、语音识别模块112或语境模块108的功能。在一个或多个实施例中，认证模块118可以接收由对象识别模块104、手势识别模块106、语音识别模块112或语境模块108产生的数据，并将数据与策略进行比较以确定策略是否已被满足。

系统100可以包括到网络120（例如，互联网或蜂窝或WiFi网络等）的有线或无线连接。网络120可以提供可以诸如通过输出模块110提供给用户的数据。例如，网络120可以提供方向、关于图像数据中的对象的数据、通过语音识别模块112提出的问题的回答、所请求的图像（例如，视频或图像系列）或其他数据。

在包括无线电的一个或多个实施例中，用户可以执行使无线电装置传输呼叫另一个设备的信号的手势（或话音命令）。在一个或多个实施例中，用户可以执行使无线电装置传输打开出现在相机的视场中的设备的信号的手势（或话音命令）。设备可以与在图像数据中识别的对象（例如，人）相关联。

在一个或多个实施例中，手势可以基于所识别的对象来使对图像数据执行不同的命令。例如，靠近文本对象的下划线手势可以使文本被加下划线，并且靠近另一对象的下划线手势可以使对象被突出显示。在其他示例中，围绕对象的框手势可以使取决于对象显示对象的框架或裁剪图像，并且对远距离识别的对象的点手势可以使关于所识别的对象的附加信息（比如距离或导航信息）取决于对象而被显示。

在一个或多个实施例中，用户可以使用他们的话音或手势来命名对象或面部。例如，用户可以指向多个人或对象中的一个并说出名称。随后，可以用该名称标签和该标签的任何相关联数据来识别面部。在训练期间和识别期间二者，语境信息（例如，如由语境模块116确定的）可帮助缩小可能标签的数量。例如，厨房中的物品可以在用户烹饪时被标记，但是如果用户去到冰箱以获得饮料或小吃，则标签可以保持对用户的视图隐藏。

在一个或多个实施例中，系统100可以应用签条或可以用于向用户提供建议或推荐的其他信息。例如，手势或话音命令可以用作“语境”签条，以指示哪个图像数据包括对于用户有用的信息。例如，用户可能指向对象（如图3中那样）并说出“记住这个”。该手势或话音命令可以用作用于搜索可能对用户而言感兴趣的内容的语境签条。

在一个或多个实施例中，用户可以执行接近对象的手势（或说出话音命令），这样使相机模块102开始记录或提供聚焦在相机模块102的视场中的对象上的实况视频馈送。相机模块102可以自动聚焦在对象上，以便提供对象或者可以由用户访问的记录的视频的清晰（更清晰）视图。用户可以停止相机模块102用另一个手势（例如，相同的手势）或话音命令来记录或实况视频馈送。

在一个或多个实施例中，对象识别模块104可以识别给定场景中的多个对象，并且用户可以执行手势识别模块106识别的手势，该手势使图像渲染模块108对多个识别的对象中的一个或多个执行操作。在一个或多个实施例中，可以使用设备手势（例如，头部运动或移动可穿戴设备的其他身体运动、触摸屏输入或其他输入）来代替一个或多个手势或与一个或多个手势组合，以向图像渲染模块108提供使图像渲染模块108对图像数据执行操作的命令。

图2示出根据一个或多个实施例的AR系统200的另一示例。AR系统200可以包括一个或多个模块，可以代替AR系统100的一个或多个模块或者与AR系统100的一个或多个模块结合使用所述一个或多个模块。系统200可以包括输入202、对象识别模块204、手势识别模块206、图像渲染模块208、可穿戴显示器210、语境模块216、认证模块218、识别协调模块222和AR模块224。

输入202可以包括麦克风数据、相机数据、触摸屏数据、无线电数据、电容性表面数据或其他输入。用户可以触摸电容性表面以向系统200的模块发出命令，诸如以使系统200将图像存储到本地存储器或网络120，或者使系统200执行操作，如本文所讨论的。

对象识别模块204可以类似于对象识别模块104，并且可以包括执行与对象识别模块104相同的操作的能力，反之亦然。手势识别模块206可以类似于手势识别模块106，诸如以便包括执行与手势识别模块106相同的操作的能力，反之亦然。语境模块216可以类似于语境模块116，诸如以便包括执行与语境模块116相同的操作的能力，反之亦然。认证模块218可以类似于认证模块118，并且可以包括执行与认证模块118相同的操作的能力，反之亦然。图像渲染模块208可以类似于图像渲染模块108，并且可以包括执行与图像渲染模块108相同的操作的能力，反之亦然。

识别协调模块222可以从对象识别模块206、手势识别模块206、语境模块216和认证模块218接收数据，并协调对象识别模块206、手势识别模块206、语境模块216和认证模块218之间的通信或任务管理。识别协调模块222可以向图像渲染模块208和AR模块224提供数据。数据可以指示要由AR模块224或图像渲染模块208执行的动作。数据可以向图像渲染模块208或AR模块224指示什么图像数据要修改或传输到可穿戴显示器210。

识别协调模块222可以提供与识别的手势、认证尝试或要（例如，由AR模块224或图像渲染模块208）在所识别的对象上执行的话音命令相关联的命令。该命令可以取决于一个或多个变量，诸如由语境模块216确定的用户的社交环境、识别的对象、识别的手势、识别的话音命令或如由认证模块218确定的认证尝试的结果。例如，如果识别了第一手势（或话音命令），并且在接近第一识别的对象（或话音命令目标）（例如，从观看可穿戴显示器210的用户或者输出模块110的视点）执行手势，则可以提供第一命令。如果识别了相同的手势（或话音命令），并且在接近第二识别的对象（或话音命令目标）执行手势，则可以提供不同于第一命令的第二命令。因此，所提供的命令可以取决于所识别的对象。

在另一示例中，如果识别了第一手势（或话音命令），并且接近第一识别的对象（或话音命令目标）执行手势，并且语境模块216确定用户处于第一社交环境，则可以提供第一命令（或没有命令）。如果识别了相同的手势（或话音命令），则接近相同的识别对象（或目标）执行手势，并且语境模块216确定用户处于不同于第一社交环境的第二社交环境，则可以提供不同于第一命令的第二命令（或没有命令）。因此，所执行的命令可以取决于如由语境模块216确定的社交环境。

在又一个示例中，在认证过程期间执行的手势可以使识别协调模块222提供与在认证过程之外执行手势的情况下不同的命令。

AR模块224可以创建可以由图像渲染模块208渲染的图像数据的模型。所创建的模型可以基于由识别协调模块222、对象识别模块204、手势识别模块206、语音识别模块112、语境模块216或认证模块218提供的命令。

图像渲染模块208可以创建要在可穿戴显示器210上呈现的图像数据。图像渲染模块208可以接收定义图像或图像的一部分的参数，诸如几何形状、照明、阴影、视点、位置、大小或纹理数据，并产生包括那些参数的图像数据。图像渲染模块208可以提供对应于由输入202捕获的图像的未增强图像数据或对应于由输入202捕获的图像的增强图像数据，并且根据模型增强，诸如可以由AR模块224提供。

可穿戴显示器210可以包括可操作以提供由输入202捕获或由图像渲染模块208提供的图像视图的设备。可穿戴显示器210可以包括具有固定或附着于其的显示器或投影仪的身体可安装结构。可穿戴显示器210可以被配置为穿戴在头部、肩部、手臂、手腕或用户的其他部分上，该部分允许用户穿戴显示器并同时可视化显示器。

注意的是，关于特定模块讨论的功能可以由另一模块实施。例如，由识别协调模块222提供的功能可以由图像渲染模块108或网络120执行。类似地，由增强现实模块224提供的功能可以由图像渲染模块108或网络120提供。关于图1和图2的模块讨论的其他功能可以由图1和图2的其他模块执行。

图3示出根据一个或多个实施例的在使用中的可穿戴显示系统300的示例。可穿戴显示系统300可以包括可由用户324穿戴的相机302和显示器310。相机302可以类似于相机模块102，或者显示器310可以是输出模块110的示例。用户324可以用他们的手部326、手指或者在相机302的视场中的对象来执行手势。图3的相机302的视场在虚线330A和330B之间。由用户324执行的手势通常可以在相机302的在相机透镜和对象328之间的位置中的视场内执行。

手势可以包括：用户324执行扫掠运动（例如，从视场中的点到视场中的另一点的连续运动）；将一个或多个手指配置成特定形状（例如，手语字母、词或短语，以及其他形状）；增加或减少两个手指之间的距离；用一个或多个手指指向；用一个或多个手指执行敲击运动或其组合以及其他手势。注意的是，如所讨论的，可以使用手指、手部或在相机的视场中的对象来执行手势。

在一个或多个实施例中，诸如可以使用手势识别模块106来识别的识别手势可以使对图像数据中的对象执行操作。注意的是，可以在执行或识别手势之前或之后（例如，通过对象识别模块104）识别对象。在一个或多个实施例中，可以在不接近对象的相机302的视场中执行所识别的手势，诸如以使图像渲染模块108或208执行不同的命令，诸如显示选项菜单给用户（例如，叠加在来自图像捕获设备的图像数据上）。指向对象（例如，突出显示或以其他方式指示为被选择的对象）的手势可以使在设备或表示对象的数据上执行操作。例如，如果所选择的对象包括车辆，诸如作为用户的车辆的车辆或用户控制的车辆，并且用户朝向车辆指示适当的手势或话音命令，则可以起动车辆。这可以使用系统100或200中的可以向车辆发出命令的子系统来实现。

图4示出根据一个或多个实施例的AR系统用例400的示例。图4-8中示出的图像大体示出如可以呈现在输出模块110或可穿戴显示器210或310上的场景的视图。在用例400中，用户可以执行接近所识别的对象的手势（例如，“接近”是关于对象和手势出现在向使用输出模块110或可穿戴显示器210或310的用户显示的输出图像上的位置）。在图4的示例中，手势包括指向所显示的图像数据中的对象。手势可以使命令发出（例如，通过识别协调模块222、手势识别模块106或其他模块），该命令使对象被突出显示、轮廓化、指向、更改其对应的像素值，以便使对象在场景的显示视图中突出，或以其他方式增强，诸如以便提醒用户对象被选择。在一个或多个实施例中，所识别的手势可以使包括所选对象的静止图像显示给用户。在一个或多个实施例中，识别协调模块222或对象识别模块204可以向图像渲染模块208发出使图像渲染模块208将静止图像渲染到可穿戴显示器210的命令。

当正在显示静止图像时，输入202可以继续捕获图像数据。对象识别模块204可以根据捕获的图像数据描绘手部、手指或对象（例如，用户正在操纵的对象）。可穿戴显示器210可以在静止图像上显示所描绘的手部、手指或对象。图像渲染模块208可以使可穿戴显示器210在图像上相对于输入202的视场中的手部、手指或对象位置的位置处显示所描绘的手部、手指或对象。这可以允许用户在观看他们的手部、手指或叠加在静止图像上的对象的同时使用手势来操纵静止图像。

手势识别模块106可以继续识别手势并提供指示所识别的手势的数据，诸如以使对静止图像执行操作。在图4的示例中，用户已经在图像428中执行了接近对象432的手势。该手势已经使图像渲染模块208渲染包括用虚线434勾画的对象432的可穿戴显示器210的图像。可穿戴显示器210正在显示由对象识别模块204或叠加在静止图像上的图像渲染模块208根据其他图像数据描绘的用户的手指426。手势识别模块206检测用户正在执行手势（例如，在图4的示例中指向）并且已经提供了指示手势的数据。图像渲染模块208已经给可穿戴显示器210提供了使可穿戴显示器显示可以相对于对象432执行的一个或多个用户可选操作的控制盒436的数据。

在控制盒436中显示的操作可以包括可以使用手势或话音命令或可以对对象432的图像表示执行的附加操作而相对于对象432执行的任何操作。例如，可以对对象432的图像表示执行的操作可以包括缩小、放大、更改对象432的图像表示的像素的至少一部分的颜色、强度或对比度、命名对象432、添加关于对象432的注释、设置提醒以使系统100或200在对象（例如，或类似于对象432的对象）在相机模块102的视场中时向用户指示、显示关于对象432的信息、呈现用户可以键入的文本框以及其他操作。

图5A和5B分别示出根据一个或多个实施例的接近对象504执行的手势（由图5B中的箭头指示）的一系列图像500A和500B的示例。在图5A-B的示例中，可以通过将指针手指放置在拇指上或附近来执行手势，诸如图5A所示，并且将指针与拇指分离，如图5B所示。在图5A-B的示例中的手势可以使对对象504（例如，对应于对象的图像数据）执行操作，或者可以使执行与对象相关的操作。例如，手势可以使诸如通过网络120对对象504中的更多进行排序。对象识别模块204可以将对象上的标签与和可以订购的产品相关联的标签匹配，并且可以使网络页面启动，呈现或准备订单，或者可以使确认页面向用户呈现。用户可以指定要订购的产品的数量（例如，通过执行手势命令或话音命令）、从其购买产品的商家、支付方法、运送或帐单地址或者完成购买所需的其他信息。在另一示例中，手势可以引起信息查找，诸如以显示产品评论、说明或使用信息等。

图6示出根据一个或多个实施例的认证用户交互用例中的AR图像600的示例。如先前所讨论的，认证模块118可以访问定义在向用户提供对系统100或200的功能的访问之前必须满足的一个或多个操作的序列的一个或多个策略。在一个或多个实施例中，策略可以指示用户要执行手势以开始认证过程。在一个或多个实施例中，诸如可以由用户（例如，在认证设置过程中）选择的特定对象604可能需要执行认证。可以要求用户指向一个或多个目标608A、608B、608C或608D或者诸如以特定顺序操纵对象604以触摸或指向一个或多个目标608A-D。例如，用户可以通过操纵对象604（例如，在特定取向或取向范围中）来以特定顺序虚拟地触摸一个或多个目标608A-D来认证对系统100或200的访问。图像渲染模块208可以诸如通过增强对象的图像或以其他方式增强图像以向用户指示对象被识别为认证对象来向用户指示认证对象604被识别。在图6的示例中，以虚线606勾画对象604，诸如以便向用户指示对象604被识别（例如，通过对象识别模块204识别为认证对象）或认证过程已经开始或将要开始。在一个或多个实施例中，用户可以在用户意识到认证对象被识别或系统100或200以其他方式指示系统100或200准备好开始认证过程之后继续认证过程。在一个或多个实施例中，用户可以使用对象的其他基于手势的操纵来认证。例如，用户可以用他们的手指或手部多次圈选所标识的对象，或者执行使对象的图像上下颠倒的手势。

在一个或多个实施例中，如果认证过程失败（例如，预定次数），则替代认证过程可以向用户提供获得对系统100或200的功能的访问的替代方法。例如，可以向用户提出一系列安全问题，用户可以使用话音命令或通过提供指示安全问题的答案的数据来回答该问题。认证模块218可以允许用户响应于用户回答如策略中详述的安全问题来访问系统100或200的功能。

图7A和7B分别示出了根据一个或多个实施例的描绘另一对象增强用例的一系列图像700A和700B的示例。用户可以用他们的手指（一个或多个），手部（一个或多个）或一个或多个对象来执行手势（例如，手势识别模块206可识别的手势），以使对象在大小、形状、颜色、对比度、强度或其他外观特性上改变。在图7A-B的示例中，用户执行包括将他们的手部702的指针手指远离拇指移动的手势（类似于图5A-B中所描绘的手势）。箭头指示在该示例中包括在手势中的移动的方向。手势响应于被手势识别模块206识别，可以使图像渲染模块208增强要由可穿戴显示器210显示的图像数据。图像700B可以是增强图像700A的结果。图像700B包括来自放大并显示为对象704B的图像700A的对象704A。随后，在一个或多个实施例中，观看场景的另一用户可以看到场景的该增强版本。

图8示出根据一个或多个实施例的使用语音或手势识别更改的AR图像800的示例的示例。在一个或多个实施例中，用户可以说话，诸如以允许他们的话音由麦克风114或输入202拾取，并且他们的（一个或多个）说出的声音可以使系统100或200基于该（一个或多个）说出的声音增强图像。

在一个或多个实施例中，可以使用手势识别执行的操作可以通过用户说出的声音来执行或更改。例如，用户可以执行手势，并且在执行手势的时间或周围，用户可以发出声音。所发出的声音可以与接近所执行的手势的对象相关联，诸如以使图像渲染模块208将所发出的声音与对象相关联，并使（以文本形式的）声音被显示接近该对象。在另一示例中，还可以促使被执行使图像渲染模块208靠近对象添加文本的手势引起的操作由用户说出对象的名称来执行。在一个或多个实施例中，在用户执行手势时或大约在用户执行手势时说出的声音可以向系统100或200指示手势指向哪个对象。

在图8的示例中，用户已经执行了可由手势识别模块106接近停止标志806识别的手势，并向麦克风114说出短语“停止标志”。语音识别模块112将所说出的短语转换成文本，并且提供对应于所识别的短语的数据。然后，图像渲染模块208使可穿戴显示器210显示接近停止标志806的文本“停止标志”808。在将来，当识别为停止标志的对象在输入模块202的视场内时，或者以其他方式要使用输出模块110显示时，可以发出使图像渲染模块108增强图像数据以靠近被识别为停止标志的对象包括文本“停止标志”的命令。

在另一个示例中，用户先前已经向系统100或200指示对象802是“消防栓”，并且对象识别模块204使图像渲染模块208每当消防栓将被显示在可穿戴显示器20上时将消防栓标记为“消防栓”。在其中对象与词或短语相关联的这种情况下，用户可以向系统100或200的模块提供语言命令以执行对对象的操作。例如，用户可以说出“放大消防栓”。该短语可以被语音识别模块212识别，语音识别模块212可以产生使图像渲染模块208创建包括对象802的图像的数据。

系统100或200的另一用例可以包括提供用户可以通过其玩游戏的介质，诸如签条、寻物游戏、激光签条或其他游戏。

图9示出根据一个或多个实施例的用于提供增强现实图像的方法900的示例的流程图。该方法可以使用以下各项的一个或多个来实施：相机模块102、输入202、对象识别模块104或204、手势识别模块106或206、图像渲染模块108或208、输出模块110、可穿戴显示器210、语音识别模块112、语境模块116或216、认证模块118或218、识别协调模块222或AR模块224。如所图示的方法900包括：在操作902处识别图像数据中的对象；在操作904处识别图像数据中的手势；以及在操作906处将与手势对应的操作应用于对象。方法900可以包括确定用户的社交环境。在906处的操作可以包括对不同的社交环境应用不同的操作。

图10示出根据一个或多个实施例的用于提供增强现实图像的另一方法1000的示例的流程图。该方法可以使用一个或多个硬件处理器或以下各项的一个或多个来实施：相机模块102、输入202、对象识别模块104或204、手势识别模块106或206、图像渲染模块108或208、输出模块110、可穿戴显示器210、语音识别模块112、语境模块116或216、认证模块118或218、识别协调模块222或AR模块224。如所图示的方法1000包括：在操作1002处检测图像数据中的对象和手势；在操作1004处提供指示所检测到的对象的数据；在操作1006处提供指示所检测到的手势的数据；以及在操作1008处修改图像数据。可以响应于检测到图像数据中的对象来执行1004处的操作。可以响应于检测到图像数据中的手势来执行1006处的操作。在1008处的操作可以包括使用指示所检测到的对象的数据和指示所检测到的手势的数据来修改图像数据。

方法1000可以包括从其他图像数据提取一个或多个手指并提供指示所提取的一个或多个手指的数据。方法1000可以包括显示包括检测到的对象的静止图像，其中所提取的一个或多个手指叠加在静止图像上。1008处的操作可以用一个或多个用户可选择操作的列表来增强图像数据，当用户选择该操作时，使对图像数据执行所选择的操作。在1008处的操作可以包括修改图像数据以包括多个目标，并且操作还包括确定检测到的对象是否以指定顺序触摸多个目标中的一个或多个目标，并且响应于确定检测到的对象已经以指定顺序触摸该一个或多个目标，从而提供指示已经执行了有效认证程序的数据。

1008处的操作可以包括通过响应于检测到第一对象执行第一操作来修改图像数据，和通过响应于检测到第二不同对象执行第二不同操作来修改图像数据。方法1000可以包括通过用表示接近检测到的对象的声音的文本来增强图像数据，将由麦克风捕获的声音与所识别的对象相关联。在1008处的操作可以包括使用用户的位置、速度或方向以及图像数据中的一个或多个对象中的至少一个来确定用户的社交环境。在1008处的操作可以包括通过响应于确定社交环境是第一社交环境对图像数据执行第一操作并响应于确定社交环境是第二不同社交环境而对图像数据执行第二不同操作来修改图像数据。

如本文所讨论的，AR可以实时或接近实时地执行。本文所讨论的示例和实施例展示了相机可以如何捕获即时环境并且还捕获手指、手部或对象以在即时环境的图像上（诸如在（一个或多个）相同的图像帧中）使用指向设备。

本文所讨论的一个或多个实施例可以包括优于现有AR或标识系统、设备或方法的优点。例如，用于识别新人的即时动态训练是困难的机器学习问题。然而，使用本文所讨论的实施例，用户可以对相机框架中的人或对象作手势，并使用话音输入或另一输入方法将名称与用手势标识的面部或对象相关联。分析算法然后可以将名称与面部或对象相关联以训练可以用于各种个人用途的识别模型。考虑到在给定相机框架中可能存在多个陌生人，该方法可以减少即时动态训练复杂度。例如，用户可以通过说出“安排与xyz的会议”来安排与人的会议。在另一示例中，用户可以使用系统作为过去事件的存储器，诸如通过询问“我最后何时遇到xyz”。在另一示例中，可以使用与面部和话音命令相关联的名字来填充联系人列表。例如，用户可以访问人的房子并说出“X住在这里”。系统可以在联系人列表中在名字X下记录与用户的位置相关联的地址。人的其他联系人信息可以通过话音命令输入。

另一个优点可以包括简化或实现可以被即时动态标识的活动识别任务中的各种对象和子活动，从而实现复杂活动的更容易的建模。例如，在烹饪活动中，用户可以朝向各种对象（锅/盘子/调味品等）作手势并对其进行语音标记。该过程可以降低烹饪活动模型构建器的复杂性。该模型然后可以用于配方指导以及用户活动跟踪。

另一个优点可以包括向用户提供更准确或可靠的推荐。通过将对象标记为用户感兴趣的东西，用户可以捕获内容以用于以后分析。具有或不具有话音的不同手势可以用作与图像数据相关联的标签，因此当完成随后分析时，这些被识别为具有某种不同含义的（比如“记住个”、“为我找到该对象”、“这是什么”等）令人感兴趣的对象或场景。替代地，具有或不具有话音的手势（例如，大拇指向上或大拇指向下）也可用于将视频中的语境改变为“不感兴趣”或“感兴趣”。这些种类的标签可以用于确定用户感兴趣的内容。

图11示出根据一个或多个实施例的计算设备1100的示例的框图。设备1100（例如，机器）可以操作以便执行本文所讨论的一个或多个编程或通信技术（例如，方法）。在一些示例中，设备1100可以作为独立设备操作或者可以连接（例如，联网）到一个或多个模块，诸如相机模块102、输入202、对象识别模块104或204、手势识别模块106或206、图像渲染模块108或208、输出模块110、可穿戴显示器210、语音识别模块112、语境模块116或216、认证模块118或218、识别协调模块222或AR模块224。在其他示例中，设备1100的一个或多个项目可以是相机模块102、输入202、对象识别模块104或204、手势识别模块106或206、图像渲染模块108或208、输出模块110、可穿戴显示器210、语音识别模块112、语境模块116或216、认证模块118或218、识别协调模块222或AR模块224中的一部分，如本文所讨论的。

如本文所描述的实施例可以包括逻辑或多个组件、模块或机制或可以在逻辑或多个组件、模块或机制上操作。模块是能够在操作时执行指定操作的有形实体（例如，硬件）。模块包括硬件。在示例中，硬件可以被具体配置为执行特定操作（例如，硬连线）。在示例中，硬件可以包括可配置执行单元（例如，晶体管、电路等）和包含指令的计算机可读介质，其中指令配置执行单元以在操作时执行特定操作。配置可以在执行单元或加载机制的指导下发生。因此，当设备正在操作时，执行单元可通信地耦合到计算机可读介质。在该示例中，执行单元可以是多于一个模块的构件。例如，在操作下，执行单元可以由第一指令集配置以在一个时间点实现第一模块，并由第二指令集重新配置以实现第二模块。

设备（例如，计算机系统）1100可以包括硬件处理器1102（例如，中央处理单元（CPU）、图形处理单元（GPU）、硬件处理器核或其任何组合）、主存储器1104和静态存储器1106，其中的一些或全部可以经由互连（例如，总线）1108彼此通信。设备1100还可以包括显示单元1110、输入设备1112（例如，字母数字键盘）和用户界面（UI）导航设备1114（例如，鼠标）。在示例中，显示单元1110、输入设备1112和UI导航设备1114可以是触摸屏显示器。设备1100可以另外包括存储设备（例如，驱动单元）1116、信号生成设备1118（例如，扬声器）、网络接口设备1120和一个或多个传感器1121，诸如全球定位系统（GPS）传感器、罗盘、加速度计或其他传感器。设备1100可以包括诸如串行（例如，通用串行总线（USB）、并行或其他有线或无线（例如，红外（IR）、近场通信（NFC）等）连接的输出控制器1128以便通信或控制一个或多个外围设备（例如，打印机、读卡器等）。设备1100可以包括一个或多个无线电装置1130（例如，传输、接收或收发器设备）。无线电装置1130可以包括一个或多个天线以接收信号传输。无线电装置1130可以耦合到或包括处理器1102。处理器1102可以使无线电装置1130执行一个或多个发射或接收操作。可以考虑将无线电装置1130耦合到这种处理器从而配置无线电装置1130以执行这种操作。通常，“被使得”执行操作的项目包括项目接收数据，将数据解释为执行操作的命令，并且执行操作。信号不必由使其他项目执行操作的项目发出。通常，“使第二项目执行操作的第一项目”意味着第一项目提供已经被正确格式化以与第二项目通信或需要格式化的数据，并且该数据最终成为第二项目接收并解释为执行操作的命令的数据。

存储设备1116可以包括机器可读介质1122，在机器可读介质1122上存储体现本文所述的任何一个或多个技术或功能或由该所述的任何一个或多个技术或功能利用的一组或多组数据结构或指令1124（例如，软件）。指令1124还可以在由设备1100执行期间完全地或至少部分地驻留在主存储器1104内，在静态存储器1106内或在硬件处理器1102内。在示例中，硬件处理器1102、主存储器1104、静态存储器1106或存储设备1116中的一个或任何组合可以构成机器可读介质。

虽然机器可读介质1122被示为单个介质，但是术语“机器可读介质”可以包括单个介质或多个介质（例如，集中式或分布式数据库和/或相关联的缓存和服务器），被配置为存储一个或多个指令1124。术语“机器可读介质”可以包括下述任何有形介质：所述有形介质能够存储，编码或携带由设备1100执行的指令，并且使设备1100执行本公开的任何一个或多个技术，或能够存储，编码或携带由这种指令使用或与所述指令相关联的数据结构。因此，术语“机器可读介质”应被理解为包括但不限于固态存储器，以及光学和磁性介质。机器可读介质的特定示例可以包括：非易失性存储器，诸如半导体存储器设备（例如，电可编程只读存储器（EPROM）、电可擦除可编程只读存储器（EEPROM））和闪存设备；磁盘，诸如内部硬盘和可移动磁盘；磁光盘；以及CD-ROM和DVD-ROM盘。

还可以使用传输介质经由网络接口设备1120利用多个传送协议（例如，帧中继、互联网协议（IP）、传输控制协议（TCP）、用户数据报协议（UDP）、超文本传送协议（HTTP）等）中的任何一个通过通信网络1126发射或接收指令1124。除了别的之外，示例通信网络还可以包括局域网（LAN）、广域网（WAN）、分组数据网络（例如，互联网）、移动电话网络（例如蜂窝网络）、普通老式电话（POTS）网络和无线数据网络（例如，已知为Wi-Fi®的电气和电子工程师协会（IEEE）802.11标准系列，已知为WiMax®的IEEE 802.16标准系列）、IEEE 802.15.4标准系列、对等（P2P）网络。在示例中，网络接口设备1120可以包括一个或多个物理插孔（例如，以太网、同轴或电话插孔）或者一个或多个天线以连接到通信网络1126。在示例中，网络接口设备1120可以包括多个天线，以使用单输入多输出（SIMO）、多输入多输出（MIMO）或多输入单输出（MISO）技术中的至少一个进行无线通信。术语“传输介质”应被理解为包括能够存储，编码或携带由设备1100执行的指令的任何无形介质，并且包括数字或模拟通信信号或其他无形介质以促进这种软件的通信。

示例和注释

可以通过若干示例来描述本主题。

示例1可以包括或使用主题（诸如装置、方法、用于执行动作的构件或者包括指令的设备可读存储器，所述指令当由设备执行时，可以使设备执行动作），诸如可以包括或使用相机模块来捕获图像数据；可以包括或使用对象识别模块来分析图像数据以识别对象，并且响应于识别对象，提供指示所识别的对象的数据；可以包括或使用手势识别模块来分析图像数据以识别手势，并且响应于识别手势，提供指示所识别的手势的数据；或可以包括或使用输出设备来使用指示所识别的对象的数据和指示所识别的手势的数据来执行操作。

示例2可以包括或使用示例1的主题，或者可以可选地与示例1的主题组合，以包括或使用，其中对象识别模块还用于从通过相机捕获的其他图像数据提取指示一个或多个手指的数据，并且提供指示所述一个或多个手指的数据，或者其中所述设备包括图像渲染模块，以使用指示所识别的对象的数据和指示所识别的手势的数据来修改所述图像数据，并且其中所述图像渲染模块还使所述输出设备使用指示所述一个或多个手指的数据来显示包括所识别的对象的静止图像，其中所提取的一个或多个手指叠加在所述静止图像上。

示例3可以包括或者使用示例2的主题，或者可以可选地与示例2的主题组合，以包括或使用，其中图像渲染模块用于利用一个或多个用户可选择操作的列表来修改图像数据，所述操作在被选择时使图像渲染模块使用所选择的操作来修改图像数据。

示例4可以包括或者使用示例2-3中的至少一个的主题，或者可以可选地与示例2-3中的至少一个的主题组合，以包括或使用，其中图像渲染模块用于通过响应于所述对象识别模块确定所识别的对象是第一对象而执行第一操作来修改图像数据，并且其中所述图像渲染模块用于通过响应于所述对象识别模块确定所识别的对象是不同于第一对象的第二对象而执行与所述第一操作不同的第二操作来修改所述图像数据。

示例5可以包括或使用示例2-4中的至少一个的主题，或可以可选地与示例2-4中的至少一个的主题组合，以包括或使用语境模块来基于以下各项中的至少一个来确定用户的社交环境：用户的位置、速度或方向，图像数据中的一个或多个人、图像数据中的一个或多个对象、以及在设备上运行的应用的应用状态。示例5可以可选地包括或使用，其中图像渲染模块用于通过基于社交环境是第一社交环境对图像数据执行第一操作，并且基于社交环境是不同于第一社交环境的第二社交环境对图像数据执行第二不同的操作来修改图像。

示例6可以包括或者使用示例1-5中的至少一个的主题，或者可以可选地与示例1-5中的至少一个的主题组合，以包括或使用，其中该设备还包括认证模块，用于接收指示所识别的手势的数据以确定所识别的手势是否满足包括在允许用户访问所述设备的功能之前必须执行的一个或多个手势的策略，并且响应于确定所述策略已被满足，提供指示有效的认证程序已被执行的数据。

示例7可以包括或者使用示例1-6中的至少一个的主题，或者可以可选地与示例1-6中的至少一个的主题组合，以包括或使用麦克风和语音识别模块，其中语音识别模块用于转换由麦克风捕获的声音，并且提供指示所转换的声音的数据，其使输出设备使用所转换的声音执行操作。

示例8可以包括或者使用示例1-7中的至少一个的主题，或者可以可选地与示例1-7中的至少一个的主题组合，以包括或使用，其中该设备是可头戴式的，并且该输出模块包括显示器。

示例9可以包括或者使用示例8的主题，或者可以可选地与示例8的主题组合，以包括或使用，其中安装显示器，使得穿戴该设备的用户观看显示器并且在显示器和手势所指向的对象之间执行所述手势。

示例10可以包括或者使用示例2的主题，或者可以可选地与示例2的主题组合，以包括或使用，其中提取指示对象的数据包括隔离对应于对象的像素，以便根据周围环境描绘对象。

示例11可以包括或者使用示例5的主题，或者可以可选地与示例5的主题组合，以包括或使用，其中社交环境包括以下各项中的至少一个：用户锻炼、交谈、驾驶、购物、进食、观看节目、工作和访问人、地点或事物。

示例12可以包括或者使用示例的主题，或者可以可选地与示例的主题组合，以包括或使用，其中，所述手势包括用手指指向对象，并且其中所述设备包括图像渲染模块，以将讲话到麦克风中的声音与所指向的对象相关联。

示例13可以包括或者使用示例12的主题，或者可以可选地与示例12的主题组合，以包括或使用，其中对象识别模块用于响应于再次识别图像数据中的对象而将声音与对象相关联。

示例14可以包括或使用示例12-13中的至少一个的主题，或者可选地与示例12-13中的至少一个的主题组合，以包括或使用语境模块来确定用户的社交环境，以及图像渲染模块以修改图像数据，其中所述图像渲染模块用于响应于所述语境模块确定所述社交环境而用表示声音的文本修改所述图像数据，并且其中所述图像渲染模块响应于语境模块确定社交环境是不同于第一社交环境的第二环境而不修改所述图像数据以包括表示声音的文本。

示例15可以包括或者使用示例1-14中的至少一个的主题，或者可以可选地与示例1-14中的至少一个的主题组合，以包括或使用，其中对象识别模块用于识别图像数据中的多个对象，并且手势识别模块用于提供指示使图像渲染模块对多个识别的对象中的两个或更多个执行操作的手势的数据。

示例16可以包括或者使用示例1-15中的至少一个的主题，或者可以可选地与示例1-15中的至少一个的主题组合，以包括或使用，其中由手势识别模块识别的手势包括以下各项中的至少一个：扫掠运动、以特定形状配置的一个或多个手指、增加或减少两个手指之间的距离、用一个或多个手指指向、用一个或多个手指执行敲击运动、或其组合。

示例17可以包括或使用示例2的主题，或者可以可选地与示例2的主题组合，以包括或使用，其中手势识别模块用于识别另一手势并提供指示另一手势的另外的数据，并且其中图像渲染模块用于使用指示另一手势的另外的数据来修改静止图像的图像数据。

示例18可以包括或者使用示例1-17中的至少一个的主题，或者可以可选地与示例1-17中的至少一个的主题组合，以包括或使用，其中手势使输出模块访问和购买与对象相关联的产品相关的信息并且向用户呈现该信息。

示例19可以包括或使用主题（诸如，装置、方法、用于执行动作的构件或包括指令的设备可读存储器，所述指令当由设备执行时可以使设备执行动作），诸如可以包括或使用：检测图像数据中的对象和手势；响应于检测到图像数据中的对象而提供指示检测到的对象的数据；响应于检测到图像数据中的手势而提供数据指示检测到的手势的数据，或者使用指示检测到的对象的数据和指示检测到的手势的数据来修改图像数据。

示例20可以包括或者使用示例19的主题，或者可以可选地与示例19的主题组合，以包括或使用从其他图像数据提取一个或多个手指，并且提供指示所提取的一个或多个手指的数据，或者显示包括检测到的对象的静止图像，其中所提取的一个或多个手指叠加在静止图像上。

示例21可以包括或者使用示例19-20中的至少一个的主题，或者可以可选地与示例19-20中的至少一个的主题组合，以包括或使用，其中基于指示检测到的对象的数据和指示检测到的手势的数据修改图像数据包括：用一个或多个用户可选择操作的列表来增强所述图像数据，所述操作当由用户选择时使对所述图像数据执行所选择的操作。

示例22可以包括或者使用示例19-21中的至少一个的主题，或者可以可选地与示例19-21中的至少一个的主题组合，以包括或使用，其中基于指示检测到的对象的数据和指示检测到的手势的数据修改图像数据包括修改图像数据以包括多个目标，并且操作还包括确定检测到的对象是否以指定顺序虚拟地触摸多个目标中的一个或多个目标，并且响应于确定检测到的对象已经以指定顺序虚拟地触摸该一个或多个目标，提供指示正在执行的有效认证程序的数据。

示例23可以包括或者使用示例19-22中的至少一个的主题，或者可以可选地与示例19-22中的至少一个的主题组合，以包括或使用，其中基于指示检测到的对象的数据和指示检测到的手势的数据修改图像数据包括通过响应于检测到第一对象执行第一操作来修改图像数据以及通过响应于检测到第二不同对象执行第二不同操作来修改图像数据。

示例24可以包括或者使用示例19-23中的至少一个的主题，或者可以可选地与示例19-23中的至少一个的主题组合，以包括或使用通过以下方式将由麦克风捕获的声音与所识别的对象相关联：用表示接近检测到的对象的声音的文本增强图像数据。

示例25可以包括或者使用示例19-24中的至少一个的主题，或者可以可选地与示例19-24中的至少一个的主题组合，以包括或使用：基于用户的位置、速度或方向以及图像数据中的一个或多个对象中的至少一个来确定用户的社交环境，并且其中基于指示检测到的对象的数据和指示检测到的手势的数据修改图像数据包括通过响应于确定所述社交环境是第一社交环境对所述图像数据执行第一操作以及响应于确定所述社交环境是第二不同社交环境对所述图像数据执行第二不同操作来修改图像数据。

示例26可以包括或者使用示例20的主题，或者可以可选地与示例20的主题组合，以包括或使用，其中提取指示对象的数据包括隔离对应于对象的像素，以便根据周围环境描绘对象。

示例27可以包括或者使用示例25的主题，或者可以可选地与示例25的主题组合，以包括或使用，其中第一和第二社交环境包括以下各项中的至少一个：用户锻炼、交谈、驾驶、购物、进食、观看节目、工作和访问人、地点或事物。

示例28可以包括或者使用示例24的主题，或者可以可选地与示例24的主题组合，以包括或使用，其中手势包括用手指指向对象并且将讲话到麦克风中的声音与所指向的对象相关联。

示例29可以包括或者使用示例28的主题，或者可以可选地与示例28的主题组合，以包括或者使用：响应于再次识别图像数据中的对象，将声音与对象相关联。

示例30可以包括或者使用示例28-29中的至少一个的主题，或者可以可选地与示例28-29中的至少一个的主题组合，以包括或使用：确定用户的社交环境；和响应于确定社交环境而用表示声音的文本修改图像数据；以及响应于确定社交环境是与第一社交环境不同的第二环境不修改图像数据以包括表示声音的文本。

示例31可以包括或者使用示例19-30中的至少一个的主题，或者可以可选地与示例19-30中的至少一个的主题组合，以包括或使用，其中识别对象包括识别图像数据中的多个对象，并且其中提供指示手势的数据包括提供使对多个识别的对象中的两个或更多个执行操作的数据。

示例32可以包括或者使用示例19-31中的至少一个的主题，或者可以可选地与示例19-31中的至少一个的主题组合，以包括或使用，其中所述手势包括以下各项中的至少一个：扫掠运动、以特定形状配置的一个或多个手指、增加或减少两个手指之间的距离、用一个或多个手指指向、用一个或多个手指执行敲击运动、或其组合。

示例33可以包括或者使用示例20的主题，或者可以可选地与示例20的主题组合，以包括或使用：识别另一手势并提供指示另一手势的另外的数据，并且其中修改图像数据包括使用指示所述另一手势的另外的数据修改静止图像。

示例34可以包括或者使用示例19-33中的至少一个的主题，或者可以可选地与示例19-33中的至少一个的主题组合，以包括或使用，其中，手势使访问和购买与对象相关联的产品相关的信息并且向用户呈现该信息。

示例35可以包括或者使用示例19-34中的至少一个的主题，或者可以可选地与示例19-34中的至少一个的主题组合，以包括或使用包括指令的机器可读介质，所述指令在由机器执行时使机器执行示例19-34的任何一种方法的操作。

示例36可以包括或者使用示例19-34中至少一个的主题，或者可以可选地与示例19-34中至少一个的主题组合，以包括或使用包括用于执行示例19-34的任何一种方法的构件的装置。

示例19可以包括或使用主题（诸如装置、方法、用于执行动作的构件或者包括指令的设备可读存储器，所述指令当由设备执行时可以使设备执行动作）诸如可以包括或使用：用于检测图像数据中的对象和手势的构件；用于响应于检测到图像数据中的对象而提供指示检测到的对象的数据的构件；用于响应于检测到图像数据中的手势而提供指示检测到的手势的数据的构件；或者用于使用指示检测到的对象的数据和指示检测到的手势的数据修改图像数据的构件。

上述具体实施方式包括参考形成详细描述的一部分的附图。附图通过图示示出了其中可以实践本文所讨论的方法、装置和系统的特定实施例。这些实施例在本文中也被称为“示例”。这种示例可以包括除了所示或所描述的元件之外的元件。然而，本发明人还设想到其中仅提供所示或描述的那些元件的示例。此外，本发明人还设想到使用关于特定示例（或其一个或多个方面）或关于示出或描述的其他示例（或其一个或多个方面）的示出或描述的那些元件（或其一个或多个方面）的任何组合或排列的示例。

图中的流程图和框图图示了根据本公开的各种方面的系统、方法和计算机程序产品的可能实施方式的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示代码的模块、段或部分，其包括用于实现（一个或多个）指定的逻辑功能的一个或多个可执行指令。还应注意的是，在一些替代实施方式中，框中标注的功能可以不按照附图中所标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本同时执行，或者这些框有时可以以相反的顺序执行。还将注意的是，框图和/或流程图中的每个框以及框图和/或流程图中的框的组合可以由基于专用硬件的系统来实现，所述系统执行指定功能或动作或专用硬件和计算机指令的组合。

本文所描述的功能或技术可以在软件或软件和人实现的程序的组合中实现。软件可以由存储在诸如存储器或其他类型的存储设备的计算机可读介质上的计算机可执行指令组成。术语“计算机可读介质”还用于表示计算机可以通过其诸如通过不同形式的有线或无线传输来接收计算机可读指令的任何构件。此外，这种功能对应于模块，该模块是软件、硬件、固件或其任何组合。可以根据需要在一个或多个模块中执行多个功能，并且所描述的实施例仅仅是示例。软件可以在以下各项上执行：数字信号处理器、ASIC、微处理器或在诸如个人计算机、服务器或其他计算机系统的计算机系统上操作的其他类型的处理器。

在本文档中，如在专利文献中常见的，使用术语“一”或“一个”来独立于“至少一个”或“一个或多个”的任何其他实例或用法而包括一个或多于一个。在本文档中，除非另有指示，否则术语“或”用于指代无排他性的，或者使得“A或B”包括“A但不是B”、“B但不是A”和“A和B”。在本文档中，术语“包括”和“其中”用作相应术语“包含”和“其中”的简单英语同义词。此外，在所附权利要求中，术语“包括”和“包含”是开放式的，即包括除了权利要求中的这种术语之后列出的元件之外的元件的系统、设备、物品、组分、公式或过程仍然被认为落在该权利要求的范围内。此外，在所附权利要求中，术语“第一”、“第二”和“第三”等仅用作标记，并且不旨在对其对象强加数字要求。

以上描述旨在是说明性的，而不是限制性的。例如，上述示例（或其一个或多个方面）可以彼此组合使用。诸如由本领域的普通技术人员在回顾上述描述之后，可以使用其他实施例。提供摘要以符合联邦法规汇编37条1.72（b）款，允许读者快速确定技术公开的性质。应理解所主张的是，它将不用于解释或限制权利要求的范围或含义。此外，在上述具体实施方式中，各种特征可以被分组在一起以简化本公开。这不应被解释为意图未要求保护的公开特征对于任何权利要求是必要的。相反，发明主题可以在于少于特定公开的实施例的所有特征。因此，所附权利要求由此作为示例或实施例并入具体实施方式中，其中每个权利要求独立作为单独的实施例，并且设想的是这种实施例可以以各种组合或排列彼此组合。本发明的范围应当参考所附权利要求连同这种权利要求所赋予的等同物的全部范围来确定。

Claims

1.一种设备，包括：

相机模块，用于捕获图像数据；

对象识别模块，用于分析所述图像数据以识别对象，并且响应于识别所述对象，提供指示所识别的对象的数据；

手势识别模块，用于分析所述图像数据以识别手势，并且响应于识别所述手势，提供指示所识别的手势的数据；以及

输出设备，用于使用指示所识别的对象的数据和指示所识别的手势的数据来执行操作。

2.根据权利要求1所述的设备，其中：

所述对象识别模块还用于从由所述相机捕获的其他图像数据提取指示一个或多个手指的数据，并提供指示所述一个或多个手指的数据；以及

所述设备包括图像渲染模块，所述图像渲染模块用于使用指示所识别的对象的数据和指示所识别的手势的数据来修改图像数据，并且其中所述图像渲染模块还用于使所述输出设备显示包括所识别的对象的静止图像，其中使用指示所述一个或多个手指的数据，将所提取的一个或多个手指叠加在所述静止图像上。

3.根据权利要求2所述的设备，其中所述图像渲染模块用于利用一个或多个用户可选操作的列表修改所述图像数据，所述操作当被选择时使所述图像渲染模块使用所选择的操作修改所述图像数据。

4.根据权利要求2所述的设备，其中，所述图像渲染模块用于通过响应于所述对象识别模块确定所识别的对象是第一对象而执行第一操作来修改所述图像数据，并且其中所述图像渲染模块用于通过响应于所述对象识别模块确定所识别的对象是不同于所述第一对象的第二对象而执行与所述第一操作不同的第二操作来修改图像数据。

5.根据权利要求2所述的设备，包括语境模块，所述语境模块用于基于以下各项中的至少一个来确定用户的社交环境：用户的位置、速度或方向、图像数据中的一个或多个人、图像数据中的一个或多个对象、以及在设备上运行的应用的应用状态；并且

其中图像渲染模块用于通过基于社交环境是第一社交环境对图像数据执行第一操作，并且基于社交环境是不同于第一社交环境的第二社交环境对图像数据执行第二不同的操作来修改图像。

6.根据权利要求1所述的设备，其中，所述设备还包括认证模块，所述认证模块用于接收指示所识别的手势的数据，以确定所识别的手势是否满足包括在允许用户访问所述设备的功能之前必须执行的一个或多个手势的策略，以及响应于确定所述策略已被满足，提供指示已经执行了有效认证程序的数据。

7.根据权利要求1所述的设备，还包括麦克风和语音识别模块，其中所述语音识别模块用于转换由所述麦克风捕获的声音，并提供指示所转换的声音的数据，所述数据使所述输出设备使用转换的声音执行所述操作。

8.根据权利要求1所述的设备，其中所述设备是可头戴式的，并且所述输出模块包括显示器。

9.根据权利要求8所述的设备，其中所述显示器被安装成使得穿戴所述设备的用户观看所述显示器并且在所述显示器和手势所指向的对象之间执行所述手势。

10.根据权利要求2所述的设备，其中提取指示所述对象的数据包括隔离对应于所述对象的像素，以便根据周围环境描绘所述对象。

11.根据权利要求5所述的设备，其中所述社交环境包括以下各项中的至少一个：用户锻炼、交谈、驾驶、购物、进食、观看节目、工作和访问人、地点或事物。

12.根据权利要求7所述的设备，其中所述手势包括用手指指向所述对象，并且其中所述设备包括图像渲染模块，以将讲话到所述麦克风中的声音与所指向的对象相关联。

13.一种包括使用硬件处理器执行操作的方法，所述操作包括：

检测在图像数据中的对象和手势；

响应于检测到所述图像数据中的所述对象，提供指示所检测到的对象的数据；

响应于检测到所述图像数据中的所述手势，提供指示所检测到的手势的数据；以及

使用指示所检测到的对象的数据和指示所检测到的手势的数据来修改所述图像数据。

14.根据权利要求13所述的方法，还包括：

从其他图像数据提取一个或多个手指，并提供指示所提取的一个或多个手指的数据；以及

显示包括所检测到的对象的静止图像，其中所提取的一个或多个手指叠加在静止图像上。

15.根据权利要求13所述的方法，其中基于指示所检测到的对象的数据和指示所检测到的手势的数据来修改图像数据包括用一个或多个用户可选择的操作的列表来增强所述图像数据，所述操作当由用户选择时使对图像数据执行所选择的操作。

16.根据权利要求13所述的方法，其中基于指示检测到的对象的数据和指示检测到的手势的数据修改图像数据包括修改图像数据以包括多个目标，并且操作还包括确定检测到的对象以指定顺序虚拟地触摸所述多个目标中的一个或多个目标，并且响应于确定所检测到的对象已经以指定顺序虚拟地触摸所述一个或多个目标，提供指示正在执行的有效认证程序的数据。

17.根据权利要求13所述的方法，其中基于指示检测到的对象的数据和指示检测到的手势的数据修改图像数据包括通过响应于检测到第一对象而执行第一操作来修改图像数据，以及通过响应于检测到第二不同对象而执行第二不同操作来修改图像数据。

18.根据权利要求13所述的方法，还包括通过用表示接近所检测到的对象的声音的文本来增强所述图像数据，将由麦克风捕获的声音与所识别的对象相关联。

19.根据权利要求13所述的方法，还包括基于以下各项中的至少一个来确定用户的社交环境：用户的位置、速度或方向和图像数据中的一个或多个对象，并且其中基于指示检测到的对象的数据和指示检测到的手势的数据修改图像数据包括通过响应于确定所述社交环境是第一社交环境对所述图像数据执行第一操作以及响应于确定所述社交环境是第二不同社交环境对所述图像数据执行第二不同操作来修改图像数据。

20.根据权利要求14所述的方法，其中提取指示所述对象的数据包括隔离对应于所述对象的像素，以便根据周围环境描绘所述对象。

21.根据权利要求19所述的方法，其中第一和第二社交环境包括以下各项中的至少一个：用户锻炼、交谈、驾驶、购物、进食、观看节目、工作和访问人、地点或事物。

22.根据权利要求18所述的方法，其中所述手势包括用手指指向所述对象并将讲话到所述麦克风中的声音与所指向的对象相关联。

23.根据权利要求22所述的方法，还包括响应于再次识别在所述图像数据中的所述对象，将所述声音与所述对象相关联。

24.一种包括指令的机器可读介质，所述指令当由机器执行时使所述机器执行根据权利要求13-23所述的方法中的任一种的操作。

25.一种装置，包括用于执行根据权利要求13-23的所述方法中的任一种的构件。