CN111801680A

CN111801680A - 过程状态的视觉反馈

Info

Publication number: CN111801680A
Application number: CN201980016866.2A
Authority: CN
Inventors: 唐沛琪; 安德烈亚·泽尔; 鲁帕·查图维迪; 楼宇; 科林·乔恩·泰勒; 马克·斯科特·沃尔多; 肖恩·迈克尔·波斯特
Original assignee: A9 com Inc
Current assignee: A9 com Inc
Priority date: 2018-03-05
Filing date: 2019-03-04
Publication date: 2020-10-20
Anticipated expiration: 2039-03-04
Also published as: GB2584033B; US11093748B2; GB202210645D0; CN111801680B; US10558857B2; WO2019173185A1; GB2606947A; GB202011478D0; US20200160058A1; US20190272425A1; DE112019001175T5; GB2584033A

Abstract

本公开的各种实施方案提供了用于视觉搜索和增强现实的系统和方法，其中覆盖在界面上的视觉标记的屏幕上主体表明图像识别过程的当前状态。具体地，视觉标记主体可采取多个行为，其中特定行为指示特定状态。因此，用户可通过视觉标记主体的行为来判断扫描过程的当前状态。视觉标记主体的行为还可向用户指示可采取的用来改善扫描条件或以其他方式促进所述过程的推荐动作。在各种实施方案中，随着扫描过程从一种状态进入另一种状态，视觉标记的屏幕上主体可相应地从一个行为移动或无缝地过渡到另一行为。

Description

过程状态的视觉反馈

相关申请的交叉引用

本申请要求标题为“VISUAL FEEDBACK OF PROCESS STATE”并且于2018年3月5日提交的美国非临时专利申请号15/911,850的权益；此申请的全部公开内容出于所有目的而以引用的方式并入本文。

背景技术

用户越来越多地利用电子装置来获得各种类型的信息。例如，想要购买产品的用户可能会访问电子市场，以便搜索通过该市场提供的产品类型。然而，除非用户知道用户想要的产品的确切品牌或样式，否则用户可能不得不使用各种选项在成百上千种不同的产品中进行搜索，以尝试找出用户感兴趣的产品类型。如果用户对特定类型的产品感兴趣，则用户可能别无选择，只能筛选这些结果。此外，电子目录中的产品可能与有限数量的特定关键字或分类相关联，并且用户可能不知道确切的关键字来描述他们正在寻找的产品。因此，已开发出一种技术，该技术允许对获取有关产品的信息感兴趣的用户搜索类似的产品、捕获产品的图像并且将所捕获的图像提交给对象识别系统以获得与该产品相关联的信息或找到视觉上类似的产品。在某些其他情境中，用户可捕获场景的图像，并且可通过增强现实将产品的表示投影到场景中，这样用户可将产品可视化为场景的一部分。

附图说明

将参照附图描述根据本公开的各种实施方案，在附图中：

图1示出了根据各种实施方案的其中用户可捕获对象的图像以尝试搜索在视觉上类似于该对象的产品的示例。

图2A示出了根据各种实施方案的捕获对象的图像或实时相机视图以用于执行图像识别的计算装置的示例性界面。

图2B示出了根据各种实施方案的基于对象的所捕获图像提供搜索结果的计算装置的示例性界面。

图3示出了根据各种实施方案的图像识别过程的示例性流水线。

图4A示出了根据本公开的各种实施方案的示出了实时相机视图和表现出“空闲”行为的视觉标记主体的示例性界面。

图4B示出了根据各种实施方案的示出了实时相机视图和表现出“检测到对象”行为的视觉标记主体的示例性界面。

图4C示出了根据各种实施方案的示出了实时相机视图和表现出“错误”行为的视觉标记主体的示例性界面。

图4D示出了根据各种实施方案的示出了实时相机视图和表现出“引导”行为的视觉标记主体的示例性界面。

图4E示出了根据各种实施方案的示出了实时相机视图和在增强现实应用程序中表现出“检测到表面”行为的视觉标记主体的示例性界面。

图4F示出了根据各种实施方案的示出了实时相机视图和在增强现实应用程序中表现出“渲染”行为的视觉标记主体的示例性界面。

图5示出了根据各种实施方案的可在其中实现各种实施方案的示例性环境。

图6示出了根据各种实施方案的描述了用于提供图像识别过程状态的视觉反馈的示例性过程的流程图。

图7示出了根据各种实施方案的描述了具有经由视觉标记行为做出的视觉反馈的视觉搜索过程的流程图。

图8示出了根据各种实施方案的描述了具有经由视觉标记行为做出的视觉反馈的增强现实过程的流程图。

图9示出了根据本公开的各种实施方案的可使用的示例性计算装置。

图10示出了根据本公开的各种实施方案的本公开的一个或多个装置的一组示例性部件。

图11示出了用于实现根据本公开的各种实施方案的各方面的示例性环境。

具体实施方式

在以下描述中，将描述各种实施方案。出于解释的目的，将阐述具体的配置和细节，以便提供对实施方案的透彻理解。然而，对本领域的技术人员将显而易见的是，可在没有所述具体细节的情况下实行实施方案。此外，为了不使所描述的实施方案变得模糊，可能会省略或简化众所周知的特征。

根据本公开的各种实施方案的系统和方法可以克服在常规的图像识别方法中遇到的前述和其他缺陷中的一个或多个。具体地，各种实施方案通过动画视觉标记提供关于图像识别扫描过程的状态的视觉和直观的用户反馈，这些动画视觉标记的行为(例如，移动、色彩、形状、位置)根据图像识别扫描过程的当前状态而改变，从而让用户知道需要进行的任何调整(例如，光照、相机位置、稳定性)，并在等待时间期间保持用户的参与。

例如，为了基于视觉上相似的物理对象而初始化对电子目录中产品的视觉搜索，可使用诸如智能电话的计算装置的相机来捕获包括物理对象的场景的实时相机视图(或单一的图像)。类似地，为了在物理空间内生成产品的增强现实视图，可使用相机来捕获包括物理空间的场景的实时相机视图。为了执行这些视觉搜索和增强现实功能，使用图像识别技术来处理表示相机所捕获的场景的图像数据，以便提取用于“理解”场景(诸如感兴趣的对象或表面)的特征数据，并且启用视觉搜索或定位增强现实产品。

随着用户使用计算装置来扫描场景，无论是在计算装置上还是在相关联的服务器上，都在“后端”执行图像识别过程(例如，视觉搜索、增强现实)。该过程可能会经历几种可能的状态，诸如初始化、图像特征搜索、框架不稳定、光照不足、目录搜索、网络连接问题等。这些状态中的某些状态(例如，初始化、搜索)可能会花费一定量的处理时间，从而产生等待时间。一些状态(例如，框架不稳定、光照不足、连接问题)可能会导致不良的扫描条件，如果使用户意识到此类问题，则可由用户纠正。因此将有利的是，能够以视觉刺激和信息性方式告知用户扫描过程的当前状态以便在处理等待时间期间保持用户的参与并让用户知道是否需要进行调整来改善扫描条件。

因此，本公开的各种实施方案提供了用于视觉搜索和增强现实的系统和方法，其中覆盖在界面上的视觉标记的屏幕上主体(例如，小的动画气泡)表明图像识别过程(即，扫描过程)的当前状态。具体地，视觉标记主体可采取多个行为，其中特定行为指示特定状态。因此，用户可通过视觉标记主体的行为来判断扫描过程的当前状态。视觉标记主体的行为还可向用户指示可采取的用来改善扫描条件或以其他方式促进所述过程的推荐动作。在各种实施方案中，视觉标记主体的“行为”可以指外观(例如，色彩、不透明度、尺寸、形状)、单个标记运动、标记组的集体或有组织的运动、动画、物理性、标记的数量和分布等的任何组合。在各种实施方案中，随着扫描过程从一种状态进入另一种状态，视觉标记的屏幕上主体可相应地从一个行为移动或无缝地过渡到另一行为。尽管视觉搜索(也称为基于图像的搜索)和增强现实应用程序在本文中用作本技术的示例性应用程序，但许多其他基于相机的申请人也可利用本技术，诸如部位检测、虚拟时装或化妆、视觉信用卡检测、条形码扫描、包装标签读取等。在一些实施方案中，可提供多个此类应用程序，其中各种图像识别状态和多个虚拟标记行为之间的映射跨多个此类图像识别过程是一致的。下面关于各种实施方案呈现了各种其他应用程序、过程和使用，其中的每一个都改善了实现它们的一个或多个计算装置的操作和性能。

图1示出了根据各种实施方案的其中用户102可捕获对象的图像以尝试搜索在视觉上类似于该对象的产品的示例性情境100。尽管示出了便携式计算装置(例如，智能电话或平板计算机)，但应当理解，根据各种实施方案，也可使用能够确定和处理输入的各种其他类型的电子装置。这些装置可包括例如笔记本计算机、个人数据助理、电子书阅读器、蜂窝电话、视频游戏控制台或控制器、智能电视、机顶盒、可穿戴计算机(例如，智能手表或眼镜)和便携式媒体播放器等。在该示例中，计算装置104具有可操作以执行诸如图像和/或视频捕获的功能的至少一个相机106(或其他图像捕获传感器或元件)。每个相机都可以是例如电荷耦合装置(CCD)、运动检测传感器或红外传感器，或者可利用另一种适当的图像捕获技术。用户可将该装置定位成使得一个或多个感兴趣项目112在计算装置上的至少一个相机106的视野108内。相机可能捕获视频，使得可在计算装置的显示屏上显示所捕获的视频信息的“实时”视图，如图2A所示。在其他实施方案中，相机可能捕获静止图像124，该静止图像124示出一个或多个感兴趣项目的表示。在至少一些实施方案中，可诸如通过在装置上进行分析或跨网络上传到用于分析图像内容的服务来分析图像和/或视频帧。

图2A示出了根据各种实施方案的捕获对象204的图像或实时相机视图以用于执行图像识别的计算装置200的示例性界面。在各种实施方案中，界面202提供包括由计算装置200的相机所捕获的对象204的场景的实时相机视图。可利用各种图像识别过程和技术来处理和分析由相机所捕获的图像数据以执行上述视觉搜索或增强现实产品视图。例如，在一些实施方案中，图像可能会经历一些预处理以锐化、调整色彩因素等，从而提高图像数据的质量。例如，可增强图像以示出项目的色彩，该色彩更接近于人类在现实生活中看该项目时所感知的色彩。也可增强图像使得在实际项目中出现的某些特征(诸如轮廓、线条、纹理和文本)在视觉上或在计算机可读数据格式下更加明显。

例如，在某些情况下，在捕获图像时存在的光照条件可能会影响正捕获的特定色彩的温度或强度以及某些轮廓之间的对比度。例如，如果在多云天成像而不是在晴天成像，则在图像中所捕获的特定蓝色阴影可能在感知上有所不同。在一些实施方案中，用户可与软件应用程序交互以选择光照模型，该光照模型被校准为在捕获图像时存在的光照条件的类型。例如，用户可在针对荧光灯、多云天气、晴天天气、自然光等进行校准的光照模型之间进行选择。可基于所选择的光照模型相应地调整(例如，重新校准)图像中所捕获的色彩。

在一些实施方案中，用于测量感光灵敏度的国际标准组织(ISO)设置可用于自动调整色彩设置。例如，相机可以根据相机中的光传感器所确定的光照条件自动调整其ISO设置。较低的ISO设置可指示高的光照条件，而较高的ISO设置可指示低的光照条件。例如，在用户装置上执行的网站或应用程序可使用该观察结果来调整色彩设置，使得所捕获的图像中的色彩在视觉上类似于用户实际感知的色彩。在一些实施方案中，该网站或应用程序可提供这些设置，或者可在捕获图像时自动应用某些此类设置图像，如在给定检测环境光照条件和图像主题的情况下被确定为最佳的。

一旦捕获了图像，并且在一些实施方案中，在该图像经历了如上所提及的一些预处理之后，可通过各种模型从图像数据中确定场景的属性或特征(诸如对象、表面和空间)，这些模型包括各种计算机视觉和图像处理技术及过程。例如，机器学习模型(诸如神经网络和其他基于机器学习的方法)可基于适当的训练数据进行训练，以用于检测和识别各种类型的对象和对象特征。在一些实施方案中，可使用来自目录的图像来训练神经网络，这些图像包括元数据、描述、分类或可用于标识各种对象和对象特征的其他数据。例如，在一些实施方案中，然后可执行定位以确定与感兴趣对象(包括空间或表面)相关联的场景的相关区域。在一些实施方案中，常规训练过程可与深度神经网络一起使用，但也可使用可提供特定优点的各种其他方法。在一些实施方案中，还可分析网络的全连接层，而无需分析最终层的分类结果。在至少一些实施方案中，来自网络的中间特征可用于相似度计算。用于确定属性的技术可包括基于机器学习的方法，诸如利用卷积神经网络、特征检测和匹配(例如，滤波)技术或两者的组合和/或其他技术的那些方法。下面将进一步详细呈现有关此类模型以及可如何训练或配置所述模型以提供此类功能的细节，以免使本讨论模糊不清。在视觉搜索应用程序的各种实施方案中，在已识别出场景中的感兴趣对象并且已执行了对象识别技术来提取与该对象相关联的某些特征数据之后，可使用该特征数据来标识电子目录中在视觉上类似于感兴趣对象的产品。这可通过各种技术来执行。例如，在一些实施方案中，可采用K最近邻(KNN)技术，其中可将感兴趣对象的特征向量与电子目录中的产品的特征向量(即，产品图像)进行比较，并且基于感兴趣对象和产品各自的特征向量之间的距离来确定感兴趣对象和产品之间的视觉相似度测度。然后可基于所确定的视觉相似度来对产品进行排名和/或来选择产品作为搜索结果。这在图2B中示出，图2B示出了根据各种实施方案的基于对象的所捕获的图像提供搜索结果222的计算装置220的示例性界面。

在增强现实产品视图应用程序的各种实施方案中，在通过图像识别标识出场景中的表面或空间之后，可生成产品的图形渲染并将其叠加到场景的系统或用户选择位置上。例如，产品的图形渲染可与场景中的其他对象成比例地设定尺寸，并且可定位为提供对象被放置在场景中的特定表面上的错觉。在一些实施方案中，用户可拖动产品的图形渲染以将其置于不同的位置，或者旋转图形渲染以查看产品的不同角度。因此，产品的图形渲染的尺寸、位置或视角可根据用户输入而改变。

图3示出了根据各种实施方案的图像识别过程的示例性流水线300。在诸如视觉搜索过程或增强现实产品查看过程的图像识别过程期间，可能会出现各种状态，其中一些状态如上所提及。例如，当用户在视觉搜索或增强现实应用程序内打开相机功能时，会出现初始化状态302，在此期间，开始接收图像数据并且算法正在准备分析图像数据。在这种状态下，将有益的是，向用户指示该功能已初始化。在一些实施方案中，图像识别过程可进入空闲状态，该空闲状态表明场景的实时相机视图或扫描条件不够好而无法执行图像数据的图像分析。例如，如果框架或相机不够稳定并且相机焦点无法“锁定”到相机视图中的某些对象，则图像识别过程可进入空闲状态。如果光照不充分以及存在妨碍正确的图像分析的其他不良图像条件，则图像识别过程也可进入空闲状态。如果图像条件充分，则图像识别过程可进入分析状态306，在该分析状态中，框架稳定并且图像分析引擎开始分析图像数据以检测诸如某些角点、边缘或其他特征的对象。将有益的是，在视觉上向用户指示系统正在工作并且正在分析图像。在一些实施方案中，可检测到多个对象。因此，将有益的是，指示相机正在拾取哪些对象，使得用户可在相机视图中选择要聚焦的对象。

在一些实施方案中，图像识别过程可进入错误状态308，在该错误状态中，该过程中断。这可能是由连接问题引起的，或由导致过程被暂停或停止的其他客户端问题、服务器端问题或基于信道的系统问题引起的。图像识别过程可能在任何点进入错误状态308，并且在一些实施方案中，当恢复连接时，该过程可恢复进入错误状态308之前的状态，在该示例中该状态为分析状态306。然后，该过程可进入检测到状态310，在该检测到状态中，已完全检测到相机视图中的感兴趣对象并且提取了该感兴趣对象的特征。这在不同应用程序和用例中可能是不同类型的对象。例如，在视觉搜索应用程序中，检测到的对象可以是用户想要用作视觉搜索查询以搜索视觉上相似的产品的对象。

在增强现实应用程序中，检测到的对象可以是可将增强现实模型置于其上的表面。具体地，例如，对于视觉搜索应用程序324，在已检测到感兴趣对象之后，图像识别过程可进入搜索状态312，在该搜索状态中，正基于与检测到的对象的视觉相似度来搜索产品图像的数据库。然后，在加载结果状态314中将结果加载到用户装置上。在增强现实应用程序326中，在检测到310表面或空间之后，该过程进入位置确定状态316，在该位置确定状态中，确定表面上的位置以用于渲染增强现实模型。在一些实施方案中，该位置是自动确定的，或者可基于用户选择的位置来确定。然后，该过程进入模型渲染状态318，在该模型渲染状态期间，在所确定的位置处渲染该模型。当模型被完全渲染时，该过程进入模型已渲染状态320，该模型已渲染状态示出了所渲染的模型。在一些实施方案中，如果接收到诸如触摸或模型操纵的用户输入，则该过程进入用户输入状态322，在该用户输入状态中，该模型响应用户输入。

图4A示出了根据各种实施方案的示出了实时相机视图和表现出“空闲”行为的视觉标记主体的示例性界面400。如所提及的，在一些实施方案中，图像识别过程可进入空闲状态402a，该空闲状态表明场景的实时相机视图或扫描条件不够好而无法执行图像数据的图像分析。例如，如果框架或相机不够稳定并且相机焦点无法“锁定”到相机视图中的某些对象，则图像识别过程可进入空闲状态。如果光照不充分以及存在妨碍正确的图像分析的其他不良图像条件，则图像识别过程也可进入空闲状态。当图像识别过程处于空闲状态402a时，视觉标记主体被配置为表现出“空闲”行为404a，该“空闲”行为对应于空闲状态402a。例如，视觉标记可以是覆盖在实时相机视图上的小气泡，并且在界面406a上示出“空闲”行为。在该示例中，视觉标记的“空闲”行为可被描述为视觉标记412a跨实时相机视图406a分散，如图4A的用户装置408b上所示。在“空闲行为”的其他实施方案中，视觉标记可具有不同的外观或样式。

图4B示出了根据各种实施方案的示出了实时相机视图和表现出“检测到对象”行为的视觉标记主体的示例性界面420。然后，该过程可进入检测到对象状态402b，在该检测到对象状态中，已完全检测到相机视图中的感兴趣对象410b并且正提取该感兴趣对象的特征。当图像识别过程处于检测到对象状态402b时，视觉标记主体被配置为表现出“检测到对象”行为404b，该“检测到对象”行为对应于检测到对象状态402b。例如，“检测到对象”行为404b可示出视觉标记412b围绕实时相机视图406b中的检测到的对象410b，如图4B的用户装置408b上所示。在“检测到对象”的其他实施方案中，视觉标记可具有不同的外观或样式。

图4C示出了根据各种实施方案的示出了实时相机视图和表现出“错误”行为的视觉标记主体的示例性界面430。在一些实施方案中，图像识别过程可进入错误状态402c，在该错误状态中，该过程中断。这可能是由连接问题引起的，或由导致过程被暂停或停止的其他客户端问题、服务器端问题或基于信道的系统问题引起的。当图像识别过程处于错误状态402c时，视觉标记主体被配置为表现出“错误”行为404c，该“错误”行为对应于错误状态402c。例如，“错误”行为404c可示出视觉标记412c从对象落下并且不在视野中、最终离开实时相机视图406c，如图4C的用户装置408c上所示。在“错误”行为的其他实施方案中，视觉标记可具有不同的外观或样式。

图4D示出了根据各种实施方案的示出了实时相机视图和表现出“引导”行为的视觉标记主体的示例性界面440。该过程可进入引导状态402d，在该引导状态期间，需要进行调整以提高例如相机视图质量。例如，可能检测到环境光照太低并且用户应打开闪光灯功能。因此，将有益的是，在视觉上引导用户采取这种动作。当图像识别过程处于检测到对象状态402d时，视觉标记主体被配置为表现出“引导”行为404d，该“引导”行为对应于引导状态402d。例如，“引导”行为404d可示出视觉标记412d被聚集在界面406d上的用于突出显示诸如闪光灯按钮414等界面元素的位置中，以便将用户的注意力吸引到该元素上，如图4D的用户装置408d上所示。在“引导”的其他实施方案中，视觉标记可具有不同的外观或样式。

图4E示出了根据各种实施方案的示出了实时相机视图和在增强现实应用程序中表现出“检测到表面”行为的视觉标记主体的示例性界面450。然后，该过程可进入检测到表面状态402e，在该检测到表面状态中，已完全检测到相机视图中的感兴趣对象并且提取了该感兴趣对象的特征。这在不同应用程序和用例中可能是不同类型的对象。在增强现实应用程序中，检测到的对象可以是可将增强现实模型置于其上的表面。当图像识别过程处于检测到表面状态402e时，视觉标记主体412e被配置为表现出“检测到表面”行为404e，该“检测到表面”行为对应于检测到表面状态402e。例如，“检测到表面”行为404e可示出视觉标记跨实时相机视图406e中的检测到的表面410e分散，如图4E的用户装置408e上所示。在“错误”行为的其他实施方案中，视觉标记可具有不同的外观或样式。

图4F示出了根据各种实施方案的示出了实时相机视图和在增强现实应用程序中表现出“渲染”行为的视觉标记主体的示例性界面460。该过程可进入模型渲染状态402f，在该模型渲染状态期间，在特定位置处渲染模型。在一些实施方案中，渲染可能会花费一些时间，从而产生一定的等待时间。因此，将有益的是，在视觉上向用户指示渲染已发生并且模型将很快出现。当图像识别过程处于检测到对象状态402f时，视觉标记主体被配置为表现出“模型渲染”行为404f，该“模型渲染”行为对应于模型渲染状态402f。例如，“模型渲染”行为404f可示出视觉标记412f被聚集在实时相机视图406f中将渲染模型的位置中，如图4F的用户装置408f上所示。在“检测到对象”的其他实施方案中，视觉标记可具有不同的外观或样式。

如所讨论的，视觉标记能够根据不同的图像识别过程状态来改变它们的行为和移动。以上示例示出了图像识别过程的不同阶段。然而，除了诸如基于所检测到的场景的类型和所检测到的对象的那些阶段的阶段之外，图像识别过程还可包括其他可能的状态。例如，在视觉搜索过程中检测对象以及在增强现实过程中检测表面可以是一般图像识别过程中的相同阶段。然而，由于场景不同，因此这两个阶段可称为两种不同的状态，因此会从视觉标记得出不同的行为。场景类型的其他示例包括杂乱的场景、模糊的场景、空白的场景等，它们可从视觉标记得出不同的行为，作为向用户提供反馈和指示的手段。尽管视觉搜索(也称为基于图像的搜索)和增强现实应用程序在本文中用作本技术的示例性应用程序，但许多其他基于相机的申请人也可利用本技术，诸如部位检测、虚拟时装或化妆等。例如，本技术可以用于信用卡、条形码、城市景观、包装标签等的图像处理。

在各种实施方案中，视觉标记的行为可基于特定应用程序和将由相机所捕获的预期对象。例如，在使用相机捕获已知形状的项目(诸如信用卡、送货标签、纸张、条形码等)的图像的应用中，视觉标记主体可能会形成已知形状的框架或轮廓。这可引导用户将相机相对于对象定位成使得对象随着它出现在装置的屏幕上而基本上对准以配合在视觉标记所形成的框架内。这允许一致性和更高质量的图像捕获，从而增强对象的图像识别。

如上面所提及的，视觉标记的行为包括诸如以下各项的参数：各视觉标记的尺寸、形状、色彩和不透明度；视觉标记主体的尺寸和形状；等等。在各种实施方案中，视觉标记的行为还可包括动画。例如，各视觉标记的尺寸、形状、色彩和不透明度可能会随时间而变化，诸如默认情况下会随着标记的屏幕上生命周期的来源而变化，或随着某些事情的发生而变化，或者响应于某个事件的发生而变化。例如，单个标记可能具有一生命周期，在该生命周期中，视觉标记淡入、同时尺寸从一个像素增长到最大像素尺寸、并且淡出。不同的各视觉标记可能具有偏移的生命周期，在所述偏移的生命周期中，视觉标记在特定时间可能处于生命周期中的不同点，从而创建了动态且视觉上吸引人的体验。在一些实施方案中，视觉标记主体可被共同地动画化，其中各视觉标记的动画经协调以整体上带来主体的动画。

在各种实施方案中，尤其是在增强现实应用程序中，各视觉标记的尺寸或视觉标记主体的整体尺寸可基于相机与背景表面或空间之间的距离或缩放而改变。因此，随着用户相对于背景环境而移动相机，可保持视角。例如，如果用户将相机移近某个表面或放大，诸如该表面在屏幕上显得更大，则视觉标记也可扩展到对应的程度，从而保持视角。

图5示出了其中可实现各种实施方案的示例性环境500。在该示例中，用户能够使用计算装置502从包括一个或多个对象、表面或空间的场景的实时相机视图中捕获图像数据。在各种实施方案中，图像数据也可以是静止图像和/或视频。在计算装置502或与计算装置502通信的远程服务器上执行的应用程序可分析图像数据以对图像数据执行图像识别，诸如用于视觉搜索或增强现实产品查看。计算装置可跨至少一个适当的网络504发送至少一部分信息，该至少一个适当的网络诸如可包括互联网、局域网(LAN)、蜂窝网络等。可将请求发送到适当的服务提供商506，例如可提供一个或多个服务、系统或应用程序来处理此类请求。根据各种实施方案，可在此系统中使用附加的或替代的元件。因此，应注意，附加的服务、提供商和/或元件可被包括在此系统中，并且尽管一些服务、提供商、元件等被示出为单独的实体和/或元件，但所示出的布置是作为示例性布置来提供，并且本文描述的实施方案涵盖了本领域技术人员已知的其他布置。应当理解，每个服务和/或部件均可包括一个或多个计算部件，诸如至少一个服务器以及已知用于提供服务的其他部件，例如可包括一个或多个API、数据存储和其他适当的硬件和软件部件。应当理解，尽管这些服务在图5中被示出为提供商环境506的一部分，但这些标识服务中的一个或多个可能由向提供商提供这些服务的第三方508来操作。在该示例中，该请求被接收到服务提供商506的网络接口层510。

该网络接口层可包括已知的或用于接收跨网络的请求的任何适当的部件，诸如可包括一个或多个应用程序编程接口(API)或用于接收此类请求的其他此类接口。网络接口层510可能由提供商拥有和操作，或者可能由提供商用作共享资源或“云”产品的一部分。网络接口层可接收和分析请求，并且可致使请求中的至少一部分信息被引导到适当的系统或服务，诸如内容服务器512(例如，网络服务器或应用程序服务器)、图像分析服务518以及其他此类选项。如所描述的，图像分析服务518可分析实时相机视图的图像数据以基于从图像数据中所提取的视觉特征来确定并标识实时相机视图或场景中的各种对象、表面和空间。在一些实施方案中，图像分析服务518可包括神经网络，该神经网络可包括卷积神经网络(CNN)。可使用标注为具有某些属性(诸如色彩、样式、长度、品牌、形状、尺寸、材料、纹理等)的不同的训练图像集来训练CNN以执行图像识别，通过训练，CNN了解了某些属性如何使图像与图像的相应分类相关。在一些实施方案中，还可使用标注为不具有某些属性的训练图像来训练神经网络(称为难负样本挖掘(hard negative mining))，以便进一步训练神经网络来区分开图像是否与某个属性相关联。在某些实施方案中，训练神经网络可能涉及计算资源和时间的大量使用，使得这可对应于服务搜索请求的准备步骤和/或相对于搜索请求服务和/或根据时间表相对不频繁地执行。根据一些实施方案，训练图像、相应的标签和其他元数据可位于训练数据库中，该训练数据库包含与分类模型(包括神经网络)的训练和细化有关的数据。

神经网络在其体系结构中可能包括若干个学习层。例如，神经网络可包括特征提取层。可在特征提取层中分析来自训练数据的训练图像，以在分类层之前从网络提取特征向量。该特征向量描述了图像中示出的内容，并且可与训练该模型来确定的一个或多个属性相关联。可针对每个训练图像实现该过程，并且可将所得的内容特征向量存储在训练数据库中。在各种实施方案中，可压缩所得的内容特征向量以改进处理。例如，由神经网络生成的内容特征向量可包括具有大量维度的内容特征向量。可通过应用主元素分析(PCA)或多维标度(MDS)中的至少一种来减小这些对象特征向量的维数。有利地，此方法可减少存储需求并且显著改善等待时间性能。另外，此方法可消除或至少减少变换空间中的噪声，因为拖尾维度一般对应于噪声，并且丢弃它们有助于在测量相似度时将注意力集中在有用信号上。

通过在没有相关联的属性标签的情况下通过神经网络处理测试图像并且验证神经网络将测试图像分类为与各种属性相关联，可进一步训练或细化神经网络。具体地，神经网络可接收对分类为正确、不正确或者在一些实施方案中分类为部分正确的验证。该验证可由人工注释器进行，也可通过访问与测试图像相关联的所存储的验证答案来进行。在实施方案中，将验证分数分配给测试图像的分类，其中验证分数的值取决于神经网络将测试图像分类为与之相关联的属性与测试图像的实际正确属性之间的关系。在一些实施方案中，可将神经网络设计为使验证分数最大化或最小化，并且可通过验证评分方案的设计来鼓励神经网络表现出期望的分类行为。在某些此类实施方案中，验证分数可包括当神经网络提供不正确分类时给出的惩罚分数。例如，如果神经网络所确定的属性与正确的属性不匹配，但神经网络所确定的属性与正确的属性有很强的关联性或接近正确的属性，则可分配较低的惩罚分数。在此示例中，神经网络可被设计为使惩罚分数最小化。

在各种实施方案中，用于基于用户提供的图像来确定与用于消费的项目相关联的属性的模型可包括各种特征检测技术和图像识别技术。例如，在一些实施方案中，图像和文本识别可包括诸如特征提取和特征匹配的子过程。现实世界中的图像和文本具有多种色彩、形状、字体类型等，这些字体类型可倾斜、模糊、具有不同尺寸。特征提取技术包括用于检测和定义图像或图像段的特性的各种方法。此类技术的输出有时可称为特征描述符或签名。本文的特征不限于计算机视觉特征，而且还包括其他类型的特征，诸如产品的特征、色彩、形状等。特征可以是局部的(即，描述图像的离散部分)或全局的(即，代表整个图像)。在局部特征提取中，过程可包括用于分割图像的方法。此类方法可基于活动轮廓(例如，snakes、剪刀(scissors)、水平集(level sets))、基于图的合并(例如，分水岭、分裂聚类、凝聚聚类、基于图的分割、概率聚集)、均值平移和模式查找(例如，k均值和高斯混合)、归一化切割、图切割等。可根据色彩、纹理、形状、其他显著性特征或它们的某种组合来全局或局部提取产品图像特征。基于色彩的特征提取可能涉及计算图像的色彩元素(例如，红色、绿色和蓝色强度)的直方图。纹理特征包括图像内的表面的粒度和重复图案。例如，玻璃、砖和木材在纹理、光滑度以及图案方面有所不同，并且可使用此类特性来描述图像或图像的区域。可根据共生矩阵、Tamura特征(例如，粗度、对比度、方向性、线状性、规则性、粗糙度)、Wold特征(例如，周期性、随机性和方向性)、Gabor滤波、小波变换等来提取纹理特征。可根据纵横比、圆度、傅里叶描述子、不变矩、连续边界段等来提取图像的形状特征。其他显著性特征包括边缘(使用例如Canny边缘检测来提取)、角点(使用例如Harris角点检测或最小核值相似区(Smallest Univalue Segment Assimilating Nucleus，SUSAN)角点检测来提取)、感兴趣区域(使用例如拉普拉斯高斯金字塔或高斯金字塔差来提取)或它们的某些组合和/或变化，诸如尺度不变特征变换(SIFT)特征。

可使用各种特征匹配方法来评估图像之间的相似度。相似度测度可取决于从图像中所选择的特征描述符或签名。在一个实施方案中，相似度测度包括Minkowski距离或Mahalanobis距离。在特征向量是独立的并且每个特征向量都具有同等重要性的情况下，Minkowski距离可能是合适的。在另一个实施方案中，相似度测度包括二次式距离、Kullback-Leibler散度、Jeffrey散度、Hausdorff距离、Mallows距离、推土机距离(earthmover’s distance)、综合区域匹配距离或它们的变型。某些实施方案可使用各种索引结构或技术来有效地搜索图像数据库，包括：多维哈希，该多维哈希基于应用于每个描述符向量的某一函数将特征描述符映射到固定尺寸的箱或桶中；局部敏感哈希，该局部敏感哈希使用独立计算的哈希函数的并集来索引特征；多维搜索树，诸如k-d树，这些多维搜索树沿着交替的轴对准超平面划分多维特征空间，以最大化搜索树平衡；等等。当存在假设或推定的匹配时，可使用诸如几何对准的技术来验证哪些匹配为正常值(inlier)，哪些匹配为离群值(outlier)。在某些情况下，可期望整个查询图像被平移或旋转以匹配数据库图像中的图像，使得可对查询图像进行几何变换以仅保留那些足够接近所估计的变换的特征匹配。可使用诸如随机抽样一致性(RANSAC)或最小平方中位数(LMS)的过程进行验证。

在一些实施方案中，图像和文本处理过程可包括子过程，例如，阈值化(将灰度图像转换为黑白图像，或使用基于灰度值的分离)、分割、斑点提取、图案识别、条形码以及数据矩阵代码读取、计量(测量对象尺寸)、定位、边缘检测、色彩分析、滤波(例如，形态滤波)和模板匹配(对特定图案进行查找、匹配和/或计数)。可使用各种技术(例如，OCR和其他文本识别过程)作为主要图像和文本分析技术，或用于增强其他过程。

在各种实施方案中，图像分析服务518可针对视觉搜索应用程序以及增强现实应用程序以及其他应用程序提供图像识别。因此，环境504可任选地包括视觉搜索服务522、增强现实服务524或两者。在视觉搜索应用程序的各种实施方案中，在已识别出场景中的感兴趣对象并且已执行了对象识别技术来提取与该对象相关联的某些特征数据之后，可使用该特征数据来标识电子目录中在视觉上类似于感兴趣对象的产品。这可通过各种技术来执行。例如，在一些实施方案中，可采用K最近邻(KNN)技术，其中可将感兴趣对象的特征向量与电子目录中的产品的特征向量(即，产品图像)进行比较，并且基于感兴趣对象和产品各自的特征向量之间的距离来确定感兴趣对象和产品之间的视觉相似度测度。然后可基于所确定的视觉相似度来对产品进行排名和/或来选择产品作为搜索结果。这在图2B中示出，图2B示出了根据各种实施方案的基于对象的所捕获图像提供搜索结果的计算装置的示例性界面。在增强现实产品视图应用程序的各种实施方案中，在通过图像识别标识出场景中的表面或空间之后，可生成产品的图形渲染并将其叠加到场景的系统或用户选择位置上。例如，产品的图形渲染可与场景中的其他对象成比例地设定尺寸，并且可定位为提供对象被放置在场景中的特定表面上的错觉。在一些实施方案中，用户可拖动产品的图形渲染以将其置于不同的位置，或者旋转图形渲染以查看产品的不同角度。因此，产品的图形渲染的尺寸、位置或视角可根据用户输入而改变。

视觉状态服务526检测图像识别过程的状态是什么，这包括图像分析服务和视觉搜索或增强现实服务两者。然后，视觉状态服务基于该状态来确定视觉标记的屏幕上主体的行为，作为对用户的关于图像识别过程状态的视觉指示器。例如，可在计算装置502的屏幕上显示覆盖在实时相机视图或静止图像上的视觉标记主体，诸如图4A至图4F所示。图像分析服务518或环境的其他服务和/或部件可能访问一个或多个数据存储区，诸如包含有关各种用户的信息的用户数据存储区520，以及存储能够提供给那些用户的内容的一个或多个内容存储库514。例如，用户数据存储区516可存储关于各用户的数据，包括关于兴趣、人口统计特性、用户偏好、衣服尺寸、消费行为、浏览行为等的信息。

图6示出了根据各种实施方案的描述了用于提供图像识别过程状态的视觉反馈的示例性过程的流程图600。应当理解，对于在本文所讨论的任何过程，在各种实施方案的范围内，可能存在以相似或替代顺序或并行执行的附加的、较少的或替代的步骤。在该示例中，接收602由用户装置的相机所捕获的场景的图像数据。在一些实施方案中，可由用户装置的处理器或与用户装置通信的远程服务器接收图像数据。可从实时相机视图中获得图像数据，该实时相机视图显示604在用户装置的显示器上。可对图像数据执行606图像识别过程，诸如视觉搜索过程、增强现实过程或其他基于图像的分析应用程序。图像识别过程可能会经历若干种可能状态，诸如初始化、图像特征搜索、框架不稳定、光照不足、目录搜索、网络连接问题等。因此，可确定608图像识别过程的当前状态，并且可基于图像识别过程的当前状态来确定610视觉标记主体的行为。然后显示612覆盖在光相机视图上的表现出所确定的行为的视觉标记主体。在一些实施方案中，视觉标记主体可被配置为表现出与多种可能状态相对应的多个可能行为。因此，表现出特定行为的视觉标记主体指示图像识别过程的特定状态。在一些实施方案中，随着图像识别过程的状态从一种状态变化或过渡到另一种状态，视觉标记主体可相应地从一种行为过渡到另一行为。在一些实施方案中，视觉标记行为之间的过渡是动画的和无缝的。

图7示出了根据各种实施方案的描述了具有经由视觉标记行为做出的视觉反馈的视觉搜索过程的流程图700。在该示例中，在初始化视觉搜索过程的相机功能后，在用户装置的显示器上以初始化模式显示702视觉标记。在示例性实施方案中，这包括视觉标记从界面的边缘飞到屏幕上的动画。然后可确定704扫描条件对于图像分析是否可接受。例如，这可包括检查框架是否稳定、光照是否充分等。如果这些条件对于图像分析不可接受，则视觉标记可通过以空闲模式进行显示706来提供这些视觉标记的视觉指示，诸如图4A所示。如果这些条件可接受，则系统可分析图像。因此，以分析模式显示708视觉标记，以提供对正在分析图像的视觉指示。然后可确定710是否检测到对象。如果在分析期间未检测到对象，则继续分析图像数据并且继续以分析模式显示708视觉标记。如果检测到对象，则以检测到对象和/或搜索模式显示712视觉标记，如图4B所示，这表明已检测到对象并且搜索数据库以查找视觉上相似的图像。然后，确定714是否获得搜索结果。如果尚未获得结果，则继续以检测到对象和/或搜索模式显示712视觉标记。如果获得结果，则可以结果模式显示716视觉标记。在一些实施方案中，在结果模式中，当显示718搜索结果时，随着搜索结果出现在屏幕上，视觉标记可动画化为飞出屏幕。

图8示出了根据各种实施方案的描述了具有经由视觉标记行为做出的视觉反馈的增强现实过程的流程图。在该示例中，在初始化增强现实过程的相机功能后，在用户装置的显示器上以初始化模式显示802视觉标记。在示例性实施方案中，这包括视觉标记从界面的边缘飞到屏幕上的动画。然后可确定804扫描条件对于图像分析是否可接受。例如，这可包括检查框架是否稳定、光照是否充分等。如果这些条件对于图像分析不可接受，则视觉标记可通过以空闲模式进行显示806来提供这些视觉标记的视觉指示，诸如图4A所示。如果这些条件可接受，则系统可分析图像。因此，以分析模式显示808视觉标记，以提供对正在分析图像的视觉指示。然后确定810是否检测到表面。如果在分析期间未检测到表面(或空间)，则继续分析图像数据并且继续以分析模式显示808视觉标记。如果检测到表面，则以检测到表面模式显示812视觉标记，诸如图4E所示。然后，可确定814是否已经确定了在检测到的表面上用于放置增强现实模型的位置。可基于用户输入来确定或自动选择该位置。如果确定了位置，则可开始渲染增强现实模型，并且因此以模型渲染模式显示816视觉标记，诸如图4F所示。然后确定818模型是否被完全渲染。如果模型被完全渲染，则以已渲染模式显示820视觉指示器。在一些实施方案中，可接收用户输入。因此，确定822是否接收到用户输入。如果接收到用户输入，则可以用户输入模式显示视觉标记。在一些实施方案中，当以用户输入模式显示824视觉标记时，视觉标记主体可行进到屏幕上用户触摸的点，诸如界面的区域。视觉标记可基于用户输入的类型显示某些图案。

另外，可鉴于以下条款对本公开的实施方案进行描述：

1.一种系统，其包括：

至少一个计算装置处理器；

相机；

显示器；以及

存储器装置，所述存储器装置包括指令，所述指令当由所述一个或多个计算装置处理器执行时，致使所述系统：

使用所述相机捕获图像数据，所述图像数据包括场景的表示；

在所述显示器上显示所述场景的所述表示；

对所述图像数据执行图像识别过程的至少一部分，所述图像识别过程与多种可能状态相关联；

确定所述图像识别过程的当前状态；

从所述图像数据检测所述场景的特征；

显示叠加在所述场景的所述表示上的动画视觉标记主体，所述动画视觉标记主体具有与所述多种可能状态和检测到的特征相对应的多个可能行为；

至少部分地基于所述当前状态或所述检测到的特征中的至少一者来确定所述动画视觉标记主体的行为，所述行为指示所述当前状态；以及

至少部分地基于所述当前状态或所述检测到的特征的变化来更新所述动画视觉标记主体的所述行为。

2.如条款1所述的系统，其中所述指令在被执行时，还致使所述系统：

对所述图像数据执行图像分析以进行视觉搜索查询；

在所述图像分析期间显示所述动画视觉标记主体，所述动画视觉标记主体表现出与正在执行图像分析相关联并且指示正在执行图像分析的行为；

检测所述场景的所述表示中的对象；以及

在检测到所述对象时显示所述动画视觉标记主体，所述动画视觉标记主体表现出与已检测到所述对象相关联并且指示已检测到所述对象的行为。

3.如条款1所述的系统，其中所述指令在被执行时，还致使所述系统：

针对增强现实模型检测所述场景的所述表示中的表面；

在检测到所述表面时显示所述动画视觉标记主体，所述动画视觉标记主体表现出与检测到的表面相关联并且指示所述检测到的表面的行为；

渲染增强现实模型；

在所述渲染期间显示所述动画视觉标记主体，所述动画视觉标记主体表现出与所述渲染相关联并且指示所述渲染的行为；以及

在完成所述渲染时显示所述动画视觉标记主体，所述动画视觉标记主体表现出与完成所述渲染相关联并且指示完成所述渲染的行为。

4.如条款1所述的系统，其中所述动画视觉标记主体包括多个不同的图形元素，所述多个不同的图形元素具有至少部分地基于所述行为的外观、运动、物理性、形状、不透明度或色彩。

5.一种计算机实现的方法，其包括：

接收图像数据，所述图像数据包括场景的表示；

致使所述场景的所述表示显示在显示装置上的图形界面中；

对所述图像数据执行图像识别过程，所述图像识别过程与多种状态相关联；

在所述图形界面上显示视觉标记组；

至少部分地基于所述图像识别过程的当前状态来确定所述视觉标记组的行为；以及

至少部分地基于所述当前状态的变化来改变所述视觉标记的所述行为。

6.如条款5所述的方法，其还包括：

显示所述视觉标记组从与先前状态相关联的先前行为到与所述当前状态相关联的所述行为的动画过渡。

7.如条款5所述的方法，其还包括：

使用所述场景的所述表示来执行增强现实过程，所述增强现实过程与所述多种状态的至少一个子集相关联；

显示覆盖在所述场景的所述表示上的视觉标记组，所述视觉标记组的行为至少部分地基于所述增强现实过程的当前状态；以及

至少部分地基于所述增强现实过程的所述当前状态的变化来更新所述视觉标记组的所述行为。

8.如条款5所述的方法，其还包括：

使用所述场景的所述表示来执行基于图像的搜索过程，所述基于图像的搜索过程与所述多种状态的至少一个子集相关联；

显示覆盖在所述场景的所述表示上的视觉标记组，所述视觉标记组的行为至少部分地基于所述基于图像的搜索过程的当前状态；以及

至少部分地基于所述基于图像的搜索过程的所述当前状态的变化来更新所述视觉标记组的所述行为。

9.如条款5所述的方法，其还包括：

接收用户输入；以及

至少部分地基于所述用户输入来确定所述视觉标记组的所述行为。

10.如条款5所述的方法，其中所述多种状态和所述多个行为之间的映射跨多个不同场景类型或图像识别过程是一致的。

11.如条款5所述的方法，其中所述多种状态包括扫描过程中的阶段、场景类型或对象类型中的至少一者。

12.如条款5所述的方法，其还包括：

确定所述图像识别过程的所述当前状态为空闲状态，其中所述图像数据不足以进行所述图像识别过程；以及

显示表现出空闲状态行为的所述视觉标记组，所述空闲状态行为指示所述图像识别过程处于所述空闲状态。

13.如条款5所述的方法，其还包括：

确定所述图像识别过程的所述当前状态为引导状态，其中请求了用户输入；以及

显示表现出引导状态行为的所述视觉标记组，所述引导状态行为指示所请求的用户输入。

14.如条款5所述的方法，其还包括：

确定所述图像识别过程的所述当前状态为错误状态，其中检测到连接问题或系统问题；以及

显示表现出错误状态行为的所述视觉标记组，所述错误状态行为指示所述图像识别过程处于所述错误状态。

15.如条款5所述的方法，其还包括：

确定所述图像识别过程的所述当前状态为图像分析状态，其中正在分析所述图像数据；以及

显示表现出图像分析状态行为的所述视觉标记组，所述图像分析状态行为指示正在分析所述图像数据。

16.如条款5所述的方法，其还包括：

确定所述图像识别过程的所述当前状态为检测到对象状态，其中已从所述图像数据中检测到对象的表示；以及

显示表现出检测到对象状态行为的所述视觉标记组，所述检测到对象状态行为指示已检测到所述对象的所述表示。

17.一种系统，其包括：

至少一个计算装置处理器；以及

接收图像数据，所述图像数据包括场景的表示；

致使所述场景的所述表示显示在显示装置上的图形界面中；

在所述图形界面上显示视觉标记组；

18.如条款17所述的系统，其中所述指令在被执行时，还致使所述系统：

19.如条款17所述的系统，其中所述指令在被执行时，还致使所述系统：

20.如条款17所述的系统，其中所述指令在被执行时，还致使所述系统：

图9示出了根据各种实施方案的可使用的示例性计算装置900。尽管示出了便携式计算装置(例如，智能电话、电子书阅读器或平板计算机)，但应当理解，根据本文所讨论的各种实施方案，也可使用能够接收和处理输入的任何装置。这些装置可包括例如台式计算机、笔记本计算机、电子书阅读器、个人数据助理、蜂窝电话、视频游戏控制台或控制器、电视机顶盒和便携式媒体播放器等。

在该示例中，计算装置900具有显示屏902，该显示屏在正常操作下将向面对显示屏(例如，在计算装置的与显示屏相同的一侧)的用户显示信息。在该示例中，计算装置可包括一个或多个媒体捕获元件，在该示例中，在该装置的背面上包括一个图像捕获元件904，但应当理解，图像捕获元件也可以或者替代地放置在该装置的侧面或角落上，并且可存在任意适当数量的相似或不同类型的捕获元件。每个图像捕获元件904都可以是例如相机、电荷耦合装置(CCD)、运动检测传感器或红外传感器，或者可利用任何其他适当的图像捕获技术。计算装置还可包括至少一个传声器或能够捕获其他类型的输入数据的一个或多个其他音频捕获元件，如本领域已知的，并且可包括可用于检测该装置的位置和/或取向的变化的至少一个取向确定元件。如本领域中已知的，可利用各种其他类型的输入与此类装置一起使用。

图10示出了本公开的一个或多个装置1000的一组示例性部件。在该示例中，该装置包括用于执行可存储在存储器装置或元件1004中的指令的至少一个处理器1002。对于本领域的普通技术人员将显而易见的是，该装置可包括许多类型的存储器、数据存储装置或计算机可读介质，诸如用于供处理器1002执行的程序指令的第一数据存储装置，相同的或单独的存储装置可用于图像或数据，可移动存储器可用于与其他装置共享信息，并且任何数量的通信方法可用于与其他装置共享。该装置通常将包括某种类型的显示元件1006，诸如触摸屏、电子墨水(e-ink)、有机发光二极管(OLED)或液晶显示器(LCD)，但诸如便携式媒体播放器的装置可能会经由其他手段(诸如通过音频扬声器)传达信息。如所讨论的，在许多实施方案中，该装置将包括至少一个图像捕获元件1008，诸如能够对该装置附近的用户、人或对象进行成像的至少一个环境光相机。图像捕获元件可包括任何适当的技术，诸如具有足够的分辨率、焦距范围和可视区域的CCD图像捕获元件，以在用户操作该装置时捕获用户的图像。用于使用具有计算装置的图像捕获元件来捕获图像或视频的方法在本领域中是众所周知的，并且这里将不再详细讨论。应当理解，可使用单个图像、多个图像、周期性成像、连续图像捕获、图像流等来执行图像捕获。

该装置可包括一个或多个联网部件1014，该一个或多个联网部件使该装置能够与远程系统或服务(诸如内容提供商和权限确定系统)进行通信。这些部件可包括例如可操作以通过诸如蜂窝网络、局域网或因特网的网络进行通信的有线或无线部件。该装置还可包括能够从用户接收常规输入的至少一个附加输入元件1018。该常规输入可包括例如按钮、触摸板、触摸屏、轮、操纵杆、键盘、鼠标、轨迹球、小键盘或任何其他这样的装置或元件，由此用户可向该装置输入命令。在一些实施方案中，这些I/O装置也可通过无线红外或蓝牙或其他链路连接。然而，在一些实施方案中，此装置可能根本不包括任何按钮，并且可能仅通过视觉命令和音频命令的组合来控制，使得用户可控制该装置而不必与该装置接触。该装置还可包括一个或多个电源部件1016，诸如电池。该装置还可包括一个或多个取向确定元件1010和一个或多个定位元件1012。如所讨论的，根据所描述的实施方案，可在各种环境中实现不同的方法。

图11示出用于实现根据各种实施方案的各方面的示例性环境1100。如将了解，尽管出于解释目的使用基于网络的环境，但是可视情况使用不同环境来实现各种实施方案。该系统包括电子客户端装置1102，该电子客户端装置可包括可操作来在适当网络1104上发送和接收请求、消息或信息并且将信息传送回装置用户的任何适当装置。此类客户端装置的示例包括个人计算机、手机、手持式消息传递装置、膝上型计算机、机顶盒、个人数据助理、电子书阅读器等等。网络可包括任何适当网络，包括内部网、互联网、蜂窝网、局域网或任何其他此类网络或上述网络的组合。此类系统所用的部件可至少部分地取决于所选网络和/或环境的类型。用于经由此类网络通信的协议和部件是众所周知的，并且本文将不再详细讨论。网络上的通信可经由有线或无线连接及其组合来实现。在该示例中，网络包括互联网，因为环境包括用于接收请求并且响应于所述请求而提供内容的网络服务器1106，但对于其他网络，可使用服务于类似目的的替代装置，如本领域技术人员所显而易见的。

所示环境包括至少一个应用程序服务器1108和数据存储区1110。应当理解，可存在若干应用程序服务器、层或其他元件、过程或部件，所述应用程序服务器、层或其他元件、过程或部件可为链式的或以其他方式进行配置、可交互来执行诸如从适当数据存储区获得数据等任务。如本文所使用的，术语数据“存储区”是指能够存储、访问和检索数据的任何装置或装置组合，所述装置或装置组合可包括在任何标准、分布式或集群式环境中的数据服务器、数据库、数据存储装置和数据存储介质的任何组合和数目。应用程序服务器1108可包括任何适当硬件和软件，所述硬件和软件用于视需要而与数据存储区1110集成以执行客户端装置的一个或多个应用程序的各方面，以及用于处置应用程序的大多数数据访问和业务逻辑。应用程序服务器提供与数据存储区协作的存取控制服务，并且能够生成将要传送到用户的内容，诸如文本、图形、音频和/或视频，在这个实例中，所述内容可以HTML、XML或另一种适当结构化语言的形式由网络服务器1106提供给用户。对所有请求和响应的处置以及客户端装置1102与应用程序服务器1108之间的内容递送可由网络服务器1106来处置。应当理解，网络服务器和应用程序服务器不是必要的，且仅仅是示例性部件，因为本文所讨论的结构化代码可在如本文其他地方所讨论的任何适当装置或主机上执行。

数据存储区1110可包括若干单独的数据表、数据库或其他数据存储机制和介质，以用来存储与特定方面相关的数据。例如，所示数据存储区包括用于存储内容(例如，生产数据)1112和用户信息1116的机制，所述机制可用于为生成方提供内容。数据存储区还被示为包括用于存储日志或会话数据1114的机制。应当理解，可能存在可需要存储在数据存储区中的许多其他方面，诸如页面图像信息和访问权限信息，上述其他方面可视情况存储在上文所列机制中的任一者中或存储在数据存储区1110中的另外的机制中。数据存储区1110可通过与它相关联的逻辑来操作，以便从应用程序服务器1108接收指令，并且响应于所述指令而获得、更新或以其他方式处理数据。在一个示例中，用户可针对某种类型的项目提交搜索请求。在这种情况下，数据存储区可访问用户信息来验证用户的身份，并且可访问目录详细信息以获得有关所述类型的项目的信息。然后可将信息诸如以网页上的结果列表的形式返回给用户，用户能够经由用户装置1102上的浏览器来查看所述网页。可在浏览器的专用页面或窗口中查看感兴趣的特定项目的信息。

每个服务器通常将包括提供用于所述服务器的一般管理和操作的可执行程序指令的操作系统，并且通常将包括存储指令的计算机可读介质，所述指令当由服务器的处理器执行时允许服务器执行其期望的功能。服务器的操作系统和一般功能的合适实现方式是已知的或可商购得的，并且本领域的普通技术人员，特别是根据本公开，较易实现这些实现方式。

在一个实施方案中，环境是分布式计算环境，其利用经由通信链路、使用一个或多个计算机网络或直接连接来互连的若干计算机系统和部件。然而，本领域普通技术人员应理解，这种系统可在具有比图11所示的部件更少或更多部件的系统中同样良好地操作。因此，图11中的系统1100的描绘本质上应视为说明性的，并且不限制本公开的范围。

各种实施方案可进一步在广泛范围的操作环境中实现，在一些情况下，所述操作环境可包括可用于操作多个应用程序中的任一个的一个或多个用户计算机或计算装置。用户或客户端装置可包括多个通用个人计算机中的任一个，诸如运行标准操作系统的台式计算机或膝上型计算机，以及运行移动软件并且能够支持多个网络连接协议和消息传递协议的蜂窝装置、无线装置和手持式装置。这种系统还可包括多个工作站，所述工作站运行各种可商购得的操作系统和用于诸如开发和数据库管理等目的的其他已知应用程序中的任一个。这些装置还可包括其他电子装置，诸如虚设终端、瘦客户端、游戏系统和能够经由网络进行通信的其他装置。

大多数实施方案利用本领域技术人员熟悉的至少一个网络来支持使用多种商业可用协议(诸如TCP/IP、FTP、UPnP、NFS和CIFS)中的任一种进行通信。网络可以是例如局域网、广域网、虚拟专用网、互联网、内部网、外联网、公共交换电话网、红外网络、无线网络以及上述网络的任何组合。在利用网络服务器的实施方案中，网络服务器可以运行各种服务器或中间层应用程序中的任一种，包括HTTP服务器、FTP服务器、CGI服务器、数据服务器、Java服务器和业务应用程序服务器。一个或多个服务器还能够响应于来自用户装置的请求而执行程序或脚本，诸如通过执行可以实现为以任何编程语言(诸如

C、C#或C++)或任何脚本语言(诸如Perl、Python或TCL)以及其组合写成的一个或多个脚本或程序的一个或多个网络应用程序。一个或多个服务器还可包括数据库服务器，包括但不限于可商购自

和

的数据库服务器。

环境可包括如上文所讨论的各种各样数据存储区以及其他存储器和存储介质。这些可驻留在各种位置，诸如在一个或多个计算机本地(和/或驻留在一个或多个计算机中)的存储介质上，或远离网络上的计算机中的任何或所有计算机。在实施方案的特定集中，信息可驻留在本领域技术人员熟悉的存储区域网(SAN)中。类似地，用于执行属于计算机、服务器或其他网络装置的功能的任何必要的文件可视情况本地或远程存储。在系统包括计算机化装置的情况下，每一个这种装置可包括可经由总线电耦合的硬件元件，所述元件包括例如至少一个中央处理单元(CPU)、至少一个输入装置(例如，鼠标、键盘、控制器、触敏显示元件或小键盘)和至少一个输出装置(例如，显示装置、打印机或扬声器)。这种系统还可包括一个或多个存储装置，诸如磁盘驱动器、光学存储装置、和诸如随机存取存储器(RAM)或只读存储器(“ROM”)的固态存储装置、以及可移动介质装置、存储卡、闪存卡等。此类装置还可包括计算机可读存储介质读取器、通信装置(例如，调制解调器、网卡(无线或有线)、红外通信装置等)和工作存储器，如上文所述。计算机可读存储介质读取器可与计算机可读存储介质连接或被配置来接收计算机可读存储介质，计算机可读存储介质表示远程、本地、固定和/或可移动存储装置以及用于暂时和/或更永久地包含、存储、传输和检索计算机可读信息的存储介质。系统和各种装置通常还将包括位于至少一个工作存储器装置内的多个软件应用程序、模块、服务或其他元件，包括操作系统和应用程序，诸如客户端应用程序或网络浏览器。应当了解，替代实施方案可具有与上述实施方案不同的众多变体。例如，也可使用定制硬件，和/或特定元件可以在硬件、软件(包括可移植软件，诸如小程序)或两者中实现。此外，可采用与诸如网络输入/输出装置的其他计算装置的连接。

用于包含代码或部分代码的存储介质和其他非暂时性计算机可读介质可包括本领域已知或已使用的任何适当介质，诸如但不限于以用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术所实现的易失性和非易失性、可移动和不可移动的介质，包括RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用光盘(DVD)或其他光学存储装置、磁盒、磁带、磁盘存储装置或其他磁性存储装置，或可用于存储所需信息且可由系统装置访问的任何其他介质。基于本文所提供的公开内容和教义，本技术领域普通技术人员将了解实现各种实施方案的其他方式和/或方法。

因此，说明书和附图被认为是说明性的而不是限制性的意义。然而，将显而易见的是：在不脱离如在权利要求书中阐述的本发明的更宽广精神和范围的情况下，可以对本发明做出各种修改和改变。

Claims

1.一种系统，其包括：

至少一个计算装置处理器；

相机；

显示器；以及

在所述显示器上显示所述场景的所述表示；

确定所述图像识别过程的当前状态；

从所述图像数据检测所述场景的特征；

2.如权利要求1所述的系统，其中所述指令在被执行时，还致使所述系统：

对所述图像数据执行图像分析以进行视觉搜索查询；

检测所述场景的所述表示中的对象；以及

3.如权利要求1所述的系统，其中所述指令在被执行时，还致使所述系统：

针对增强现实模型检测所述场景的所述表示中的表面；

渲染增强现实模型；

4.如权利要求1所述的系统，其中所述动画视觉标记主体包括多个不同的图形元素，所述多个不同的图形元素具有至少部分地基于所述行为的外观、运动、物理性、形状、不透明度或色彩。

5.一种计算机实现的方法，其包括：

接收图像数据，所述图像数据包括场景的表示；

致使所述场景的所述表示显示在显示装置上的图形界面中；

在所述图形界面上显示视觉标记组；

6.如权利要求5所述的方法，其还包括：

7.如权利要求5所述的方法，其还包括：

8.如权利要求5所述的方法，其还包括：

9.如权利要求5所述的方法，其还包括：

接收用户输入；以及

10.如权利要求5所述的方法，其中所述多种状态和所述多个行为之间的映射跨多个不同场景类型或图像识别过程是一致的。

11.如权利要求5所述的方法，其中所述多种状态包括扫描过程中的阶段、场景类型或对象类型中的至少一者。

12.如权利要求5所述的方法，其还包括：

13.如权利要求5所述的方法，其还包括：

14.如权利要求5所述的方法，其还包括：

15.如权利要求5所述的方法，其还包括：