CN107851319A

CN107851319A - 区域增强现实持久性标签对象

Info

Publication number: CN107851319A
Application number: CN201780002062.8A
Authority: CN
Inventors: J·李; 罗琳捷; R·B·谢斯; N·徐; J·杨
Original assignee: Snapple Co
Current assignee: Snapple Co
Priority date: 2016-01-29
Filing date: 2017-01-27
Publication date: 2018-03-27
Anticipated expiration: 2037-01-27
Also published as: US20200410773A1; KR102511326B1; EP4325432A2; KR20190125520A; EP3408831A1; US20220358738A1; KR20180006951A; EP4325432A3; CN107851319B; US20170221272A1; EP3839889A1; EP3839889B1; KR102039505B1; US10055895B2; WO2017132506A1; US11727660B2; US11308706B2; EP3408831B1; US10748347B1

Abstract

公开了AR对象的本地增强现实(AR)跟踪。在一个示例实施例中，装置采集一系列视频图像帧。接收将视频图像帧的第一图像的第一部分与AR标签对象和目标关联的装置的用户输入。生成第一目标模板以跟踪视频图像帧的跨帧的目标。在一些实施例中，使用基于目标在边界区域之外的确定的全局跟踪。全局跟踪包括使用全局跟踪模板来跟踪在确定目标在边界区域之外之后采集的视频图像帧中的移动。当全局跟踪确定目标处于边界区域内时，恢复本地跟踪以及在装置的输出显示器上呈现AR标签对象。

Description

区域增强现实持久性标签对象

优先权要求

本专利申请要求于2016年1月29日提交的序列号为No.15/010,847的美国专利申请的优先权的权益，其全部内容通过引用并入本文。

背景技术

增强现实指示使用计算机生成的增强来以实时或接近实时的方式将新的信息添加到图像中。例如，在装置的显示器上输出的墙壁的视频图像可以采用在墙壁上不存在的显示细节来增强，但是通过增强现实系统生成为显示为如它们在墙壁上一样。这种系统使用图像采集信息的复杂混合，以试图从由图像采集装置确定的视角无缝地呈现最终图像的方式，该图像采集信息被集成并与要被添加到采集的场景的增强现实信息匹配。

附图说明

附图中的各种附图仅示出了本公开的示例实施例，而不应被认为是限制其范围。

图1是示出根据一些示例实施例的网络系统的框图。

图2示出根据一些实施例的增强现实系统的方面。

图3A示出根据一些示例实施例的增强现实对象的区域跟踪的方面。

图3B示出根据一些示例实施例的增强现实对象的区域跟踪的方面。

图3C示出根据一些示例实施例的增强现实对象的区域跟踪的方面。

图3D示出根据一些示例实施例的增强现实对象的区域跟踪的方面。

图3E示出根据一些示例实施例的增强现实对象的区域跟踪的方面。

图3F示出根据一些示例实施例的增强现实对象的区域跟踪的方面。

图3G示出根据一些示例实施例的增强现实对象的区域跟踪的方面。

图3H示出根据一些实例实施例的增强现实对象的区域跟踪的方面。

图3I示出根据一些示例实施例的增强现实对象的区域跟踪的方面。

图4描述了根据一些示例实施例的用于增强现实对象的区域跟踪的方法。

图5A示出根据一些示例实施例的增强现实对象的区域跟踪的方面。

图5B示出根据一些示例实施例的增强现实对象的区域跟踪的方面。

图5C示出根据一些示例实施例的增强现实对象的区域跟踪的方面。

图5D示出根据一些示例实施例的增强现实对象的区域跟踪的方面。

图6描述了根据一些示例实施例的用于增强现实对象的区域跟踪的方法。

图7示出根据一些实施例的增强现实对象的区域跟踪的方面。

图8示出根据一些示例实施例的可以用于增强现实系统的装置的方面。

图9是根据一些示例实施例的描绘示例移动装置和移动操作系统界面的用户界面图。

图10示出与一些示例实施例相关联的可以在增强现实系统中使用的示例装置。

图11示出根据一些示例实施例的包括用于增强现实对象的区域跟踪的处理器实施的模块的装置的示例实施方式。

图12是示出根据一些示例实施例的可以安装在机器上的软件架构的示例的框图。

图13是呈现根据示例实施例的以计算机系统的形式的机器的图形表示的框图，在该计算机系统内可执行一组指令以使机器执行在此讨论的任何方法。

具体实施方式

以下涉及区域增强现实图像处理和基于图像的跟踪。一些特定实施例描述了当图像被装置采集并呈现在装置的显示器上使用区域建模。这可以在没有先前生成的环境模型的情况下完成。实施例使增强现实(AR)对象能够被附加到视频帧的目标部分。然后，装置在区域跟踪AR对象，使得当目标和AR对象不存在于当前正被采集并呈现在装置的显示器上的图像中时，从装置上的视频帧数据区域地跟踪目标。在一些实施例中，随着目标和AR对象移入和移出视频图像，AR跟踪可从目标跟踪切换到在整个图像中移动的全局跟踪。下面描述附加细节和各种实施例。

以下描述包括示出本公开的实施例的系统、装置和方法。在以下描述中，出于解释的目的，阐述了许多具体细节以便提供对本发明主题的各种实施例的理解。然而，对于本领域技术人员显而易见的是，本发明主题的实施例可以在没有这些具体细节的情况下实施。

如在此所述，AR指示采集图像、采用附加信息增强这些图像、并且然后在显示器上呈现增强的图像的系统和装置。这使得例如用户能够拿起电话来采集场景的视频流，并且使得电话的输出显示器能够呈现与附加信息一起的对用户可见的场景。该信息可以包括如同虚拟对象在场景中存在一样而被展示的虚拟对象。如果从采集环境的图像传感器的视角显示另一真实或虚拟对象在该虚拟对象的前面通过，则处理该虚拟对象的方面以遮挡该虚拟对象。随着真实对象和虚拟对象两者随时间推移移动并且随着采集环境的图像传感器的视角改变，该虚拟对象同样被处理为来保持其与真实对象的关系。

跟踪装置的实际位置的一种方式是以高度精确的环境模型开始，并将模型与来自装置的图像数据进行比较。该系统可以使用先前生成的描述正被采集的环境或场景的AR数据库和用于将正被采集的信息与来自AR数据库的模型和数据对准的系统。从数据库访问数据并执行该对准是资源密集的过程，特别是对于较小的移动或可穿戴装置。在此描述的实施例包括用于呈现AR图像而没有此类复杂环境模型的系统。相反，在此描述的各种实施例中，由装置采集的初始视频图像被用于初始化由用户输入对放置在场景中的AR对象的跟踪。虽然该系统不能实现在没有附加系统的情况下在装置之间复杂地共享AR信息，但是在此描述的AR实施例能够在资源有限的装置上实现简单的AR功能。实施例确实能够使用由装置的用户添加到场景的AR对象来记录AR视频，随着采集的图像远离以及返回到AR对象所附加的目标，AR对象持久存在于环境中。诸如面罩、表情符号、箭头、文本、二维或三维动画AR对象或其它此类AR对象的各种类型的AR对象可以与在此描述的各种实施例一起使用。

例如，在一个实施例中，智能电话的用户可以进入AR模式，该模式启动视频图像帧的采集。当帧被采集时，它们被显示在电话的触摸屏组件上。界面使得能够选择通过用户输入放置在显示在屏幕上的视频图像的一部分上的AR箭头对象。该放置将AR箭头对象与目标相关联，该目标可以是物体、人或当前显示的图像的任何其它元素。当目标在视频图像内移动时，无论是由于目标的移动还是相机的移动，对象的区域跟踪使得在装置上显示的AR输出图像将AR对象保持在相对于目标的稳定位置中。当目标和相关联的AR对象移动到图像帧外部时，该跟踪使用图像的全局模板来估计目标的位置，该位置不再完全在显示的图像内。当目标再次进入由相机采集的图像时，全局跟踪合并回目标的区域跟踪，并且AR对象再次呈现在输出显示器上。

图1是描绘根据一个实施例的具有被配置为通过网络交换数据的客户端-服务器架构的网络系统100的网络图。该网络系统可以用于传送信息，诸如用于实现如在此所描述的区域AR的模块的数据，以及用于使用对持久性标签对象(在此称为AR对象)的区域AR跟踪来传送由客户端装置记录的AR视频的消息收发系统。在一些实施例中，网络系统100可以是短暂消息收发系统，其中客户端使用具有删除触发器的消息在网络系统100内传送和交换数据。另外，在一些实施例中，在此描述的区域AR跟踪可以与可以在消息系统中传送的其它类型的系统和数据集成。数据可以涉及与网络系统100及其用户相关联的各种功能(例如发送和接收文本和媒体通信，确定地理位置等)和方面。虽然网络系统100在此示为具有客户端-服务器架构，但是其它实施例可以包括其它网络架构，诸如对等或分布式网络环境。

如图1所示，网络系统100包括社交消息收发系统130。社交消息收发系统130通常基于三层架构，其由接口层124、应用逻辑层126和数据层128组成。如相关的计算机和互联网相关领域中的本领域技术人员理解的，在图1中所示的每个模块或引擎表示一组可执行软件指令和用于执行指令的对应硬件(例如，存储器和处理器)。为了避免不必要的细节模糊本发明的主题，与本发明主题的理解无关的各种功能模块和引擎在图1中省略。附加的功能模块和引擎可以与社交消息收发系统一起使用，诸如图1所示，以便于实现本文未具体描述的附加功能。此外，图1中所描绘的各种功能模块和引擎可以驻留在单个服务器计算机上，或者可以以各种布置横跨多个服务器计算机分布。此外，尽管图1中将社交消息收发系统130描绘为具有三层架构，但是本文所公开的主题绝不限于这种架构。

如图1所示，接口层124由接口模块(例如网页服务器)140组成，其接收来自各种客户端计算装置和服务器(诸如执行客户端应用112的客户端装置110和执行第三方应用122的第三方服务器120)的请求。响应于所接收的请求，接口模块140经由网络104向请求装置传送适当的响应。例如，接口模块140可以接收诸如超文本传输协议(HTTP)请求或其它基于网页的应用接口(API)请求的请求。

客户端装置110可以执行为特定平台开发的传统网页浏览器应用或应用(也称为“app”)，以包括各种移动计算装置和移动专用操作系统(例如IOS^TM、ANDROID^TM、)中的任一个。在示例中，客户端装置110正在执行客户端应用112，其包括实施在此描述的各种实施例的AR系统160。客户端应用112可以提供将信息呈现给用户106并且经由网络104进行通信以与社交消息收发系统130交换信息的功能。客户端装置110中的每一个可以包括计算装置，该计算装置至少包括采用网络104访问社交消息收发系统130的显示和通信能力。客户端装置110包括但不限于远程装置、工作站、计算机、通用计算机、因特网应用、手持装置、无线装置、便携式装置、可穿戴计算机、蜂窝或移动电话、个人数字助理(PDA)、带有驾驶员抬头显示器(HUD)的汽车计算装置、智能电话、平板计算机、超极本、上网本、笔记本计算机、台式机、多处理器系统、基于微处理器或可编程消费电子系统、游戏控制台、机顶盒、网络个人计算机(PC)、微型计算机等。用户106可以包括与客户端装置110交互的人、机器或其它工具。在一些实施例中，用户106经由客户端装置110与社交消息收发系统130进行交互。

如图1所示，数据层128具有便于访问信息存储库或数据库134的一个或多个数据库服务器132。数据库134是存储数据的存储装置，该数据诸如是由客户端装置110生成并发送到社交消息收发系统130的外部区域的一组图像、从包括建筑物的图像生成的一组立面数据、将图像和立面数据匹配到地理位置的地图数据、以及其它此类数据。在一个实施例中，数据库134存储由运行增强现实(AR)系统160模块的客户端装置110生成的图像，并存储包括使用如在此所述的实施例跟踪的AR对象的视频。这些视频剪辑然后可以通过社交消息收发系统130以各种方式在不同装置之间传送。另外，在一些实施例中，数据库134可以存储可以基于各种系统触发传送到不同客户端装置110的不同AR对象，使得某些AR对象可能仅对一些客户端装置110可用，并且一些AR对象可能仅在特定时间或给定的某些装置或系统状态下对特定客户端装置110可用。数据库134同样可以存储诸如成员简档数据、社交图数据(例如，社交消息收发系统130的成员之间的关系)和其他用户数据的数据。

个人可以向社交消息收发系统130注册以成为社交消息收发系统130的成员。一旦注册，成员可以在社交消息收发系统130上形成社交网络关系(例如，朋友、追随者或联系人)，并且与由社交消息收发系统130提供的广泛范围的应用进行交互。

应用逻辑层126包括各种应用逻辑模块150，其与接口模块140结合，生成具有从数据层128中的各种数据源或数据服务检索的数据的各种用户界面。各个应用逻辑模块150可用于实现与社交消息收发系统130的各种应用、服务和特征(包括AR系统160的方面)相关联的功能。例如，社交消息收发应用可以采用一个或多个应用逻辑模块150实现。社交消息收发应用为客户端装置110的用户提供消息收发机制，以发送和接收包括文本和媒体内容(诸如图片和视频)的消息。社交消息收发应用同样可以包括用于提供AR显示的机制和将图片和视频与虚拟对象集成的内容。客户端装置110可以提供AR显示，并且同样可以使得用户能够在特定的时间段(例如，有限的或无限的)内访问和查看来自社交消息收发应用的消息。在示例中，消息接收者可以访问特定的消息达到预定义的持续时间(例如，由消息发送者指定)，该持续时间在特定消息被首先访问时开始。在预定义的持续时间经过之后，消息将被删除，并且消息接收者不可再访问它。类似地，AR内容可以被提供预定义的持续时间。其它应用和服务可以分别在其自己的应用逻辑模块150中体现。如上所述，虽然可以在社交消息收发系统130上实现AR系统160的方面，但是在此描述的区域AR跟踪指示在客户端装置110处执行的AR系统160的元件或模块，该客户端装置110采集图像并将AR对象作为覆盖图或过滤器应用于区域采集的图像。AR系统160的服务器实现的方面可以修改可用的AR对象，或者实现AR视频通信，但是可以不包括用于生成在此描述的AR图像的处理。

如图1所示，社交消息收发系统130或客户端应用112包括AR系统160，其提供生成AR图像的功能。在一些实施例中，AR系统160可以被实现为客户端装置110上的独立系统，并且不一定被包括在社交消息收发系统130中。在其它实施例中，客户端装置110包括AR系统160的一部分(例如，AR系统160的一部分可以被独立地或者包括在客户端应用112中)。在客户端装置110包括AR系统160的一部分的实施例中，客户端装置110可以单独工作或者与包括在特定应用服务器中或包括在社交消息收发系统130中的AR系统160的部分结合工作。

图2示出了AR系统的方面。如上所述，AR系统将虚拟对象并入到由图像传感器采集的场景中。图2示出了包括由相机装置209的图像传感器211采集的图像数据240的AR场景202。图像数据240包括关于分布在场景中的空间中的物理对象的信息。为了生成AR场景202，修改从图像数据240生成的场景以添加虚拟对象数据。

图3A-I示出使用可被认为是由诸如客户端装置110的装置采集的一系列视频图像帧的样本图像的图像序列的实施例的方面。图像由装置的图像传感器采集并使用装置的一个或多个处理器处理，以在区域跟踪目标，以及呈现对于视频图像帧的至少一部分具有相对于目标呈现的AR对象的输出图像。由图3A-I描述的所示方面不包括将显示在输出显示中的AR对象。相反，图3A-I示出了一系列图像中的目标312的跟踪。目标312可以通过在图3A的第一图像310上放置AR对象(未示出)的用户输入来识别。目标312可以可替代地由任何其它此类用户输入或选择来识别，这些输入或选择导致目标312被装置的AR系统识别。

在如上所述识别目标312之后，图3B示出从第一图像310的第一部分316生成的第一目标模板314。在各种实施例中，可以使用第一图像310的各个部分，其中AR对象与目标312相关联。该部分可以由用户具体选择，可以基于AR对象的特性，或者可以由装置动态地确定。例如，掩码覆盖(mask overlay)AR对象可以具有被识别为目标面部的图像的部分的目标区域。箭头AR对象可以具有在箭头头部的末端处的图像集合的部分的目标区域。在一些实施例中，用户界面可以向用户示出要被设置为目标区域的区域。在其它实施例中，当目标区域被选择时，可对用户暗示目标区域，而不将其示出在输入/输出组件中。在图3B的实施例中，与目标312相关联的第一部分316是AR视频场景中的人的头部。第一目标模板314是在目标312周围的各个采样点处采样的颜色值的集合。在各种实施例中，对于不同的实施例，可以以不同的方式确定采样值和采样的模式(pattern)。虽然图3B和其它图示出了间隔的采样点的网格，但是模板可以由基于目标区域的关键特征选择的采样点构成，包括在高复杂度的区域处的更密集的采样。

在图3C的后续第二图像320中，目标312已经在视频图像的帧中移动。AR模型包括基于来自第一目标模板314的初始模板样本的计算的变化324。在一些实施例中，计算的变化324通过确定与第一目标模板314的值的最接近匹配的匹配模式来识别目标312。当视频帧被采集且目标312在帧内移动时，该匹配允许跟踪目标312，并且AR对象(未示出)相对于目标312保持恒定的相对位置。

当装置继续采集包括目标312的场景的图像时，目标312可以移动到帧的边缘，如图3D所示。在一些实施例中，可以识别边界(boundary)332。边界332可以是来自图像的边缘(edge)的设定数量的像素，或者可以是由系统设定的任何模式，用于识别目标312正在移动到帧的外部。在图3E中所示的第三图像330中，目标312正在移出第三图像330的右边缘。当与目标312相关联的区域移出由图像传感器所采集的区域时，只有一部分匹配计算的变化334可见。一旦可用的计算的变化334下降到阈值量以下，则可以启动全局跟踪模板338，如图3F所示。例如，如果对于特定帧来自第一目标模板314的少于一半的采样点与所计算的变化334相关联，则可启动全局跟踪模板338。在其它实施例中，第一目标模板314的中心样本可以被识别，并且当与该中心点相关联的计算的变化334在边界332之外时，系统可以开始全局跟踪。在一些实施例中，可以存在多个边界332，使得目标312跟踪和全局跟踪两者可针对特定中间边界发生。在该实施例中，一个或多个边界332可以在图像帧的边缘之外，目标312相对于基于由全局跟踪模板338识别的移动而估计的该外部边界332定位。模型可以继续使用与由第三图像330采集的帧之外的点以及仍然在第三图像330内的点相关联的样本位置来跟踪目标312的位置，如计算的变化334所示。在其它实施例中，仅由系统跟踪与来自第三目标模板314的仍然在帧中的点(例如计算的变化334)相关联的点，以估计第一目标312的定位。

图3F示出完全位于第四图像340的帧之外的目标312。当使用全局跟踪348采集附加图像时，使用全局跟踪348处理的整个场景中的变化被用于估计相机的动作。在目标312离开帧之前，与目标312的移动有关的附加处理可用于估计目标312相对于当前采集的图像的当前位置。在一些实施例中，目标312可具有受限的移动，或者如果目标312以未被在此描述的处理和跟踪部件采集的方式移动，则系统可呈现指示目标跟踪丢失的错误。

在图3G中，目标312在第五图像350中刚开始重新进入帧。整个第五图像350的全局跟踪358用于将相机的移动建模。在一些实施例中，目标跟踪模块同样可以使用来自第一目标模板314的数据和来自先前图像的计算的变化(例如，324、334)来针对目标312的部分处理第五图像350。在某个点处，如图3H所示，目标312可以重新进入帧，使得第一目标模板314和后续计算的变化可以用于重新获取目标312的跟踪。在第六图像360中，计算的变化364足以识别目标312。当目标312被识别时，AR对象(未示出)同样将与目标312中的一些或全部一起呈现在装置的输出显示器上。当目标312移入以及移出帧的边界332时，诸如第六图像360的特定图像的处理可以在分析整个第六图像360的全局跟踪358和使用从仅跟踪目标312的第一目标模板314导出的计算的变化的目标跟踪之间来回变化312。图3I示出其中目标312返回到边界区域内并且全局跟踪已经暂停的第七图像370。从第一目标模板314导出的计算变化374用于跟踪目标312，直到AR操作结束或者目标312移回到帧的边缘。在一些实施例中，使用计算的变化的目标跟踪和全局跟踪可以同时发生。在一些实施例中，在采集图像帧时全局跟踪358建立整个场景的AR模型，但是具有在需要时跟踪图像帧外的目标的附加处理。

图4描述了用于AR对象的持久性区域跟踪的方法400。方法400可以由在此描述的具有关联的相机和输出显示的任何客户端装置来执行。如上所述，这可以是单个集成装置，或者可以是具有使用本地无线通信连接的配对的可穿戴装置或相机的客户端装置。

在一些实施例中，装置实施方法400，其中装置包括集成显示器，以及耦接到显示器(其例如可以是触摸屏)的输入组件。该装置同样包括被耦接到显示器和输入组件的存储器以及用于采集场景的图像的图像传感器。装置进一步包括被耦接到显示器、图像传感器、输入组件和存储器的一个或多个处理器，该一个或多个处理器被配置为处理由图像传感器采集的视频图像帧，并使用“卡住(stuck)”或与场景中目标相关联的AR标签对象的区域AR跟踪来输出区域AR图像。

方法400包括在操作402中处理将视频图像帧的第一图像的第一部分与AR标签对象和目标相关联的用户输入。这例如可以涉及使用触摸屏的AR对象的用户选择，以及使用触摸屏在图像中放置靠近目标的AR对象。

操作404涉及基于用户输入和第一图像的第一部分生成与目标相关联的第一目标模板。在一个实施例中，当用户使用触摸屏放置AR对象时，使用目标模板模式处理屏幕上的图像以基于用户触摸屏输入来生成第一目标模板。在操作406中，该模式和颜色值以及任何其它图像值被用于在视频图像帧的帧之间跟踪目标。通过使用第一目标模板计算第一图像的第一部分中的变化，来实现针对第一图像之后的一些或全部图像的这种跟踪。在一些实施例中，不是计算在装置显示器上采集和显示的每一个视频的帧的变化，而是只对一些帧进行分析，使用各种图像处理技术处理其它帧来添加AR对象，以平滑地将AR对象插入由装置采集的图像数据中。

在操作408中，当来自操作406的目标的跟踪确定目标在边界区域之外时，启动全局跟踪。因为使用图像中的目标来启动目标跟踪，所以使用目标跟踪来采集场景的至少第一多个图像。全局跟踪涉及使用全局跟踪模板，其从图像帧的不同部分采集数据的模式，而不是针对目标跟踪所采集的部分。与跟踪帧内的目标移动的目标跟踪相比，全局跟踪可被认为是跟踪比目标跟踪图像帧的更大的部分，并针对移动而跟踪整个帧。在确定目标在边界区域之外之后，对采集的图像开始全局跟踪。如上所述，在一些实施例中，这可以包括全局跟踪和目标跟踪二者可以同时发生的具有多个边界的系统，或者在目标跟踪和全局跟踪之间来回切换的具有一个边界的系统。在一些实施例中，在场景的不同部分中使用多个AR对象的情况下，可以连续执行全局跟踪，以跟踪在任何给定时间可能在采集图像之外的不同AR对象，其中在使用全局跟踪估计图像之外的AR对象的位置的同时AR对象的目标在所跟踪的图像内。

在采用相关联的全局跟踪的操作408中AR对象已经移动到图像之外之后，在操作410中，一旦目标从视频帧之外移动回到视频帧之内，则系统在边界区域内恢复跟踪目标。当目标移回到帧中时，装置同样基于目标的跟踪继续在显示器上显示AR对象。

图5A示出了包括建筑物、树木、人和路的真实对象数据的AR场景500。如图5所示的AR场景500表示包括在任何特定时间由装置的图像传感器采集的外部的元素的环境，以及通过用户输入而放置在AR场景500内的AR对象。如图5A所示，图像510是由装置的单个图像帧采集的AR场景500的一部分。在AR系统的操作期间，先前的用户或系统输入已经将区域AR对象512和区域AR对象514放置在AR场景500中。区域AR对象512与目标590相关联，并且在图像510内可见。图像510是在本地装置上显示的具有真实对象数据和区域AR对象512的图像。

当装置用户移动图像传感器时，在图5B中，由装置采集的图像520改变。尽管图像520不包括区域AR对象512或区域AR对象514，但是当在图像520内没有AR对象时发生的全局跟踪被用于跟踪区域AR对象514和区域AR对象512二者的位置。因为区域AR对象514在AR场景500内是静止的，所以该对象的跟踪是简单的，并且可以基于在诸如图像520和其它中间图像的图像中识别的运动，中间图像作为采集的AR场景500的一部分从图像510移动到图像520，再移动到图5C的图像530。这些是示例图像，并且显而易见的是，处理附加图像以跟踪相机位置的移动。在图5C中，区域AR对象514在图像530内，并且使用来自当在AR场景500中区域AR对象514被放置在墙上作为“标签”时创建的跟踪模板的信息被区域跟踪。当目标590移动时，区域移动估计和到目标590的模板的匹配的组合可用于识别图5D中所示的图像540中的目标590，并且在其相对于移动目标590定位时正确地显示区域AR对象512。在一些实施例中，例如，图像传感器相对于背景(例如，作为与区域AR对象514相关联的目标的墙)可以是稳定的，并且诸如目标590的目标对象可以移动通过图像传感器的视野。在这种实施例中，AR系统可以基于目标通过相机的视野的移动从全局跟踪转换到目标的区域跟踪，并且随着目标离开相机的视野，AR系统可以转换回全局跟踪。因此，基于由于相机的运动引起的视频帧内的目标的移动，由于对象运动而相机没有运动，或者两者均运动，可以修改各种类型的跟踪。

图6描述了用于区域AR跟踪的方法600。在各种实施例中，方法600和在此描述的任何其它方法可以由装置来执行，可以被实现为硬件或固件，或者可以被实例化为非暂态计算机可读介质中的指令，该指令在由一个或多个装置的处理器执行时使装置执行方法600。诸如客户端装置110、眼镜51、移动装置800或900或机器1300的任何装置可以实现方法600或在此描述的任何其它方法。

方法600在操作602处开始，使用装置的图像传感器和一个或多个处理器采集场景的第一多个图像。在各种实施例中，当AR系统开始在装置上操作时，该图像采集自动开始，或者可以由在诸如AR系统160的AR系统的界面处的用户选择来启动。此类AR系统操作包括在操作604中在装置的显示器上显示多个图像。操作606涉及在装置的输入组件处接收AR标签对象的第一用户选择。操作608涉及在装置的输入组件处接收第二用户选择，该第二用户选择将AR标签对象相对于在装置的显示器上显示的多个图像中的第一图像进行放置。一旦在操作606中在装置处选择了AR对象并且在操作608中将其放置在场景内，则装置的处理器自动使用这些输入来开始生成并输出包括具有集成到数据中的AR对象的所采集的图像数据的图像，并且输出为AR图像。因此，在操作610中，装置使用一个或多个处理器继续处理第一多个图像的一个或多个图像，以生成场景的区域AR模型。场景的该区域AR模型包括用于与通过操作608的输入被放置在图像上的AR对象相关联的图像的一部分的目标模板。一旦该AR模型生成，则操作612包括用于实际添加AR标签对象到场景的区域AR模型的过程，以用于AR标签对象的区域跟踪以及在装置的显示器上采用AR图像对AR标签对象的呈现。在一些实施例中，当AR模型(例如，目标模板)被处理并被识别为在连续图像帧内移动时，可以添加附加AR标签对象。在由装置采集的场景的第二多个图像中，在附加的AR标签对象添加到场景的区域AR模型之后，使用场景的区域AR模型的多个AR图像可以生成，并且在装置显示器上输出当多个AR标签在由装置采集的帧中时的多个AR标签。

实施例可以涉及显示多个AR图像中的第一AR图像，其中第一AR图像包括AR标签对象；基于图像传感器远离与AR标签对象相关联的场景的一部分的第一移动，在多个AR图像中的第一AR图像的显示之后，显示多个AR图像的第二AR图像，其中第二AR图像不包括AR标签对象；以及基于图像传感器朝向与AR标签对象相关联的场景的部分的第二移动，在多个AR图像的第二AR图像的显示之后，显示多个AR图像的第三AR图像，其中第三AR图像包括AR标签对象。

其它实施例通过显示多个AR图像中的第一AR图像来操作，其中第一AR图像包括AR标签对象；基于导致AR目标对象移出图像传感器的视野的场景中的第一变化，在多个AR图像的第一AR图像的显示之后，显示多个AR图像的第二AR图像，其中第二AR图像不包括AR标签对象；以及基于导致AR目标对象移动到图像传感器的视野中的场景中的第二变化，在多个AR图像的第二AR图像的显示之后，显示多个AR图像的第三AR图像，其中第三AR图像包括AR标签对象。

AR模型可以通过处理在初始图像之后的图像来操作，以确定目标在边界区域之外。基于确定目标在边界区域之外，对一组全局图像点进行采样可用于确定在呈现的AR图像内不可见的目标对象的相关联的移动。当目标对象移回到由图像传感器采集的可见区域中时，实施例可以通过基于最终图像的关联运动和最终图像的一组全局图像点的采样，针对第三多个图像的最终图像，确定目标在边界内来操作。基于确定目标在边界内，可以在第三多个图像内恢复目标的区域跟踪。

图7示出采用在从图像710到图像720的转换的AR模型中使用的跟踪变换701的目标跟踪模板的方面。在图7中，模板712是在初始图像710中的目标周围的每个采样点处采样的颜色的集合。这可以被描述为：

(1)J_i＝I₀(s_i)；

其中J_i是与AR标签对象相关联的目标模板，目标模板包括在与第一多个图像的一个或多个图像的初始AR模型图像I₀(图像710)中的目标和目标区域相关联的多个采样点S_i处采样的一组颜色值。

变换T(n)然后在视频的后续帧中将采样点变换到不同位置。可以采用新帧更新模板712以反映外观变化。在等式2中，函数In正在跟踪在初始图像之后接收的第二多个图像In中与目标相关联的AR标签对象，其可以被表示为以下：

其中T(n)是描述由一个或多个处理器分析的第二多个图像的序列图像之间的目标的移动的变换。在某些实施例中，AR模型可涉及使能量最小化的区域跟踪以获得新帧的更新变换T(n+1)。这不需要针对由图像传感器采集的每帧来完成，而是针对涉及允许使用源自模板712的模板进行跟踪的一组帧，模板712包括变换模板722和用于每个图像In的类似模板。这可以被认为是根据迭代非线性优化来计算区域跟踪能量，以确定针对第二多个图像中的每一个的更新的目标模板：

这是非线性优化问题。T(n)可以用作T(n+1)的初始猜测。为了提高鲁棒性，同样可以使用(2)的更新模板以及先前图像的角锥形(pyramid)来使用以下等式来从粗到细级别求解：

以及

这些用于确定与第二多个图像的每一个图像相关联的模板。当跟踪的目标到边界外时，触发全局跟踪。在一些实施例中，通过确定目标的像素边限(margin)来检测这种边界外状态，确定目标的中心何时从像素边限之内移动到像素边限之外；以及基于确定目标的中心已经移动到像素边限之外，启动第二多个图像之后的第三多个图像的场景的全局移动跟踪。在一些实施例中，当目标变换的模板的中心从所处理的图像的边缘或边界进入边限在阈值数量的像素内时，检测到该边界外状态。

在一些实施例中，全局跟踪使用通过对由图像传感器生成的标准大小的图像帧内的固定的一组点{g_i}进行采样而生成的全局模板进行操作。然后使用处理器来求解相对变换ΔT，使下面最小化：

为了鲁棒性，一些实施例可以根据以下来从粗到细求解角锥形上的先前图像：

以生成目标变换，其中目标是

当隐含的变换T(n+1)指示目标返回到图像中时，恢复区域跟踪。当目标的中心从边界进入图像的中心区域至少阈值数量的像素时，检测到这种情况。在各种实施例中，可以增强该过程以适应移动的目标，如上所述。类似地，在一些实施例中，可以执行修改以使得能够使用一个装置同时跟踪多个目标。

另外，如上所述，可以基于由用户选择的AR对象来设置用于诸如模板712的目标模板的各种模式。由装置计算的用于跟踪目标并且将AR对象正确地放置在装置上输出的AR图像内的(一个或多个)后续变换的模板722可以类似地基于用户选择而被修改。

在各种实施例中，AR对象可以是各种类型的对象，包括以各种方式修改的二维对象。例如，在一些实施例中，可以执行计算以匹配来自立面(facade)的立面数据以生成匹配立面表面的二维AR对象，诸如由5A-5D的区域AR对象514所示。在一些实施例中，AR对象可以简单地是通过AR对象的初始放置而与位置相关联的二维形状。随着相机移动，无论从哪个角度观看该二维标签对象，在AR图像中总是被视为相同的形状。类似地，在某些实施例中可以使用表情符号(emoji)标签对象。在此类实施例中，用户可以访问简单的界面以图形化地选择表情符号并将表情符号放置在图像中，使得AR系统将表情符号标签对象与图像中的另一对象或设置的位置相关联。如果AR对象(例如，区域AR对象512)附加到诸如书籍的移动的对象或人之上的空间，则AR对象可以保持相对于附加对象的相对位置或作为附加对象之上的设定空间的相对位置。

在一些此类实施例中，AR标签对象可以被附加到建筑物或另一此类对象。当AR视图的视角改变时，AR对象的视角改变以保持AR对象是“卡住”到目标真实对象的二维对象的外观。

在其它实施例中，AR对象可以是3D对象，使得AR对象可以是在一侧具有面部的球体。另一此类AR对象可以是任何此类3D版本的表情符号、面部、动物或其他对象。在一个实施例中，AR对象可以是以变化模式覆盖有彩色光的3D树。任何此类AR对象同样可以包括动画。例如，树上的灯可以以不同的模式闪耀和闪烁。在一些实施例中，系统能够生成并放置该3D AR对象的相关联的二维“标签”版本。因此，如在此所述，AR对象可以包括各种面部、表情符号、动物、定制的用户制造的对象或任何其它此类可能的AR对象。此类AR对象可以具有关联的动画、声音、变换以及任何其它此类AR对象功能。这可以使得能够使用具有关联的动画、声音或其它特征的AR标签来简单地生成视频剪辑。

图8示出了可以用于AR系统的示例移动装置800。在该实施例中，装置显示区域890可以呈现如在此所述的AR图像。对在此描述的任何系统操作的输入和调节可以由用户894在装置显示区域890内使用触摸屏输入892来执行。

图9示出了与一些实施例一致的执行移动操作系统(例如，IOS^TM、ANDROID^TM、或其它移动操作系统)的示例移动装置900。在一个实施例中，移动装置900包括可操作来从用户902接收触觉数据的触摸屏。例如，用户902可物理触摸904移动装置900，并且响应于触摸904，移动装置900可以确定触觉数据，诸如触摸位置、触摸力或手势运动。在各种示例实施例中，移动装置900显示主屏幕906(例如，IOS^TM上的Springboard)，其可操作以启动应用或以其它方式管理移动装置900的各个方面。在一些示例实施例中，主屏幕906提供状态信息，诸如电池寿命、连接性或其它硬件状态。用户902可以通过触摸由相应的用户界面元素占据的区域来激活用户界面元素。以该方式，用户902与移动装置900的应用交互。例如，触摸主屏幕906中包括的特定图标所占据的区域导致启动对应于特定图标的应用。

可以在移动装置900上执行许多种应用(也称为“应用app”)，诸如本地应用(例如，以在IOS^TM上运行的Objective-C、Swift或另一种适合的语言编程的应用，或以在ANDROID^TM上运行的Java编程的应用)、移动网页应用(例如，以超文本标记语言-5(HTML5)编写的应用)或混合应用(例如，启动HTML5会话的本机壳应用)。例如，移动装置900包括消息收发应用软件、音频录制应用软件、相机应用软件、书籍阅读器应用软件、媒体应用软件、健身应用软件、文件管理应用软件、位置应用软件、浏览器应用软件、设置应用软件、联系人应用软件、电话呼叫应用软件或其它应用软件(例如，游戏应用软件、社交网络应用软件、生物特征监测应用软件)。在另一示例中，移动装置900包括诸如的社交消息收发应用软件908，其与一些实施例一致，允许用户交换包括媒体内容的短暂消息。在该示例中，社交消息收发应用软件908可以并入本文描述的实施例的方面。

某些实施例在本文中被描述为包括逻辑或多个组件、模块或机构。模块可以构成软件模块(例如，在机器可读介质上实现的代码)或硬件模块。“硬件模块”是能够执行某些操作的有形单元并且可以以某种物理方式配置或布置。在各种示例实施例中，一个或多个计算机系统(例如，单机计算机系统、客户端计算机系统或服务器计算机系统)或计算机系统的一个或多个硬件模块(例如，处理器或一组处理器)可以由软件(例如，应用或应用部分)配置为执行如本文所述的某些操作来操作的硬件模块。

在一些实施例中，硬件模块可以机械地、电子地或其任何合适的组合来实现。例如，硬件模块可以包括被永久配置为执行某些操作的专用电路或逻辑。例如，硬件模块可以是专用处理器，诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。硬件模块同样可以包括由软件临时配置以执行某些操作的可编程逻辑或电路。例如，硬件模块可以包括由通用处理器或其它可编程处理器执行的软件。一旦由此类软件配置，则硬件模块变成专用于执行配置的功能并且不再是通用处理器的特定机器(或机器的特定组件)。应当理解，在专用和永久配置的电路中或在临时配置的电路(例如，由软件配置)中机械地实现硬件模块的决定可以由成本和时间考虑来驱动。

因此，短语“硬件模块”应理解为包括有形实体，即物理构造、永久配置(例如，硬连线)或临时配置(例如，编程)以某种方式操作或执行本文所述的某些操作的实体。如在此所使用的，“硬件实现的模块”是指硬件模块。考虑到其中硬件模块被临时配置(例如，编程)的实施例，硬件模块中的每一个硬件模块不需要在任何一个时刻配置或实例化。例如，在硬件模块包括由软件配置成为专用处理器的通用处理器的情况下，通用处理器可以被配置为在不同时间分别不同的专用处理器(例如，包括不同的硬件模块)。软件因此配置特定的一个处理器或多个处理器，例如，在一个时刻构成特定的硬件模块，并且在不同的时刻构成不同的硬件模块。

硬件模块可向其它硬件模块提供信息以及从其它硬件模块接收信息。因此，所描述的硬件模块可以被认为是通信耦接的。在多个硬件模块同时存在的情况下，通信可以通过在两个或更多个硬件模块之间的信号传输(例如，通过适当的电路和总线)实现。在其中在不同时间配置或实例化多个硬件模块的实施例中，这种硬件模块之间的通信可以例如通过存储和检索多个硬件模块能够访问的存储器结构中的信息来实现。例如，一个硬件模块可以执行操作并将该操作的输出存储在其通信耦接到的存储器装置中。然后，另外的硬件模块可以在稍后的时间访问存储器装置以检索和处理存储的输出。硬件模块同样可以发起与输入或输出装置的通信，并且可以对资源(例如，信息的集合)进行操作。

本文描述的示例方法的各种操作可以至少部分地由临时配置(例如通过软件)或永久地配置为执行相关操作的一个或多个处理器来执行。无论是临时还是永久配置，此类处理器构成为执行本文所述的一个或多个操作或功能而操作的由处理器实现的模块。如在此所使用的，“处理器实现的模块”是指使用一个或多个处理器实现的硬件模块。

类似地，本文所述的方法可以是至少部分地由处理器实现的，其中特定处理器或处理器是硬件的示例。例如，方法的操作中的至少一些操作可以由一个或多个处理器或处理器实现的模块执行。此外，一个或多个处理器同样可以操作以支持在“云计算”环境中或作为“软件即服务”(SaaS)中的相关操作的性能。例如，至少一些操作可以由一组计算机(作为包括处理器的机器的示例)执行，其中这些操作可以经由网络(例如，因特网)以及经由一个或多个适当的接口(例如，API)访问。例如，在一些实施例中，装置(诸如，智能电话)确定装置的第一位置估计，并且由装置的图像传感器采集环境的第一图像。

结合以上附图描述的模块、方法、应用等在一些实施例中在机器和相关联的软件架构的背景下实现。下面的部分描述适用于所公开的实施例的代表性软件架构(多个)和机器(例如，硬件)架构。

软件架构与硬件架构结合使用，以创建适合特定目的的装置和机器。例如，与特定软件架构耦接的特定硬件架构将创建移动装置，诸如移动电话、平板装置等。稍微不同的硬件和软件架构可能会产生用于“物联网”的智能装置。而另一种组合产生用于云计算架构内的服务器计算机。并非所有这种软件和硬件架构的组合都在这里给出，因为本领域技术人员可以容易地理解如何在本文所包含的公开内容的不同背景下实施本发明主题。

图10示出了由眼镜31的前视图示出的某些实施例的方面。在一些实施例中，眼镜31可以是使用有线或无线(例如蓝牙或)通信与客户端装置110相关联地或耦接到其工作的客户端伴随(companion)装置。在其它实施例中，眼镜31可以作为独立客户端装置110操作，采集图像数据并且处理数据以使用在此所述的区域AR对象跟踪来添加AR对象。眼镜31可以包括由诸如塑料或金属的任何合适的材料(包括任何合适的形状记忆合金)制成的框架32。框架32可具有前部件33，该前部件33可包括第一或左侧透镜、显示器或光学元件支架36；以及由桥38连接的第二或右透镜、显示器或光学元件支架37。前部件33另外包括左端部分41和右端部分42。第一或左光学元件44以及第二或右光学元件43可以设置在相应的左和右光学元件支架36和37内。光学元件43和44中的每一个可以是透镜、显示器、显示组件或前述的组合。在此公开的任何显示器组件可以设置在眼镜31中。

框架32另外包括左臂或镜腿件46以及右臂或镜腿件47，该第二臂或镜腿件47通过诸如铰链(未示出)的任何合适的装置耦接到前部件33的相应的左端部41和右端部42，以便耦接到前部件33，或刚性地或可固定地固定到前部件33，以便与前部件33成一体。镜腿件46和47中的每一个可包括耦接到前部件33的相应端部41或42的第一部分51，以及任何合适的第二部分52(诸如弯曲件或弓形件)以耦合到用户的耳朵。在一个实施例中，前部件33可由单件材料形成，以便具有整体或一体结构。

眼镜31可以包括计算装置，诸如计算机61，其可以是任何合适的类型，以便由框架32承载，并且在合适的大小和形状的一个实施例中，使得至少部分地设置在镜腿件46和47中的一个镜腿件中。在一个实施例中，如图10所示，计算机61具有与镜腿件46和47中的一个镜腿件的大小和形状相似的大小和形状，并且因此如果不是完全位于该镜腿件46和47的结构和范围内则几乎全部设置。在一个实施例中，计算机61可以设置在两个镜腿件46、47两者中。计算机61可以包括具有存储器、无线通信电路和电源的一个或多个处理器。在某些实施例中，计算机61包括低功率电路、高速电路和显示处理器。各种其它实施例可以将这些元件包括在不同的配置中或以不同的方式集成在一起。

计算机61另外包括电池62或其它合适的便携式电源。在一个实施例中，电池62设置在镜腿件46或47中的一个镜腿件中。在图11中所示的眼镜31中，电池62被示为设置在左镜腿件46中并且使用连接件74电耦接到设置在右镜腿件47中的计算机61的其余部分。一个或多个输入和输出装置可以包括连接器或端口(未示出)(适用于对可从框架32外部访问的电池62进行充电)、无线接收器、发射器或收发器(未示出)或这种装置的组合。

眼镜31包括相机69。尽管描绘了两个相机，但是其它实施例考虑使用单个或另外的(即多于两个)相机。在各种实施例中，除了相机69之外，眼镜31可以包括任何数量的输入传感器或外围装置。前部件33设置有面向外的、面向前的、或者前部或者外部表面66(当眼镜31被安放在用户的面部上时朝向前方或者远离用户)，以及相对的面向内的、面向后的、或者后部或内部表面67(当眼镜31被安放在用户的面部上时面向用户的面部)。该传感器可以包括面向内部的视频传感器或数字成像模块，诸如可被安装或设置在前部件33的内表面67上或者框架32上的其它位置处以便面向用户的相机，以及面向外部的视频传感器或数字成像模块，诸如可被安装或设置在前部件33的外表面66上或框架32上的其它位置处以便背对用户的相机69。该传感器、外围装置或外围设备可以另外包括生物特征传感器、位置传感器或者任何其它此类传感器。在另外的实施例中，类似的元件可以呈现为护目镜，在头盔或基于眼珠转动(goggle)的系统内、在车辆HUD显示器中或者任何其它此类装置中。

图11是AR系统160的一个实施例的框图1100。AR系统160被示出为包括通信模块1110、呈现模块1120、配置模块1130、对准模块1140、AR对象/虚拟项目模块1150、分析和目标跟踪模块1160以及全局跟踪模块1170。模块1110-1170中的全部或一些例如经由网络耦合、共享存储器等与彼此相互通信。AR系统160的模块中的每个模块可以被实现为单个模块，组合成其它模块，或者被进一步细分成多个模块。同样可以包括与示例实施例不相关的其它模块，但是未示出。

通信模块1110提供各种通信功能。例如，通信模块1110从用户装置接收、访问或以其它方式获得图像的图像数据。在具体示例中，通信模块1110从智能电话的相机传感器接收基本上实时的图像数据(例如，由智能电话的相机传感器采集的一组帧或连续帧的接近连续流)。通信模块1110与数据库服务器132、客户端装置110和第三方服务器120交换网络通信。由通信模块1110检索的信息包括与用户相关联的数据(例如，来自在线账户的会员简档数据，或社交网络服务数据)或其它数据以便于实现在此所述的功能。

呈现模块1120提供各种呈现和用户界面功能，其可操作以交互地向用户呈现和从用户接收信息。例如，呈现模块1120用于管理AR对象的用户选择、以及将AR对象与目标相关联的视频帧的流的图像内的AR对象的放置。呈现模块1120然后从全局和目标跟踪模块1170和1160接收跟踪信息，以适当地呈现由相机采集的后续图像，其中AR对象相对于相关联目标显示在装置的显示器上。如上所述，随着图像被采集，这些图像可以被实时或接近实时地呈现，被处理以添加虚拟对象，并尽可能快地与虚拟对象一起显示。呈现模块1120同样可用于呈现用户界面、可选AR对象或用于用户界面的任何此类信息。在各种实施例中，呈现模块1120呈现或引起附加信息的呈现(例如，通过在屏幕上可视地显示信息、声音输出、触知反馈)。交互式呈现信息的过程旨在包括特定装置和用户之间的信息交换。用户可以以许多可能的方式提供输入以与用户界面交互，诸如字母数字、基于点(例如，光标)、触觉或其它输入(例如，触摸屏、触觉传感器、光传感器、红外传感器、生物特征传感器、麦克风、陀螺仪、加速度计或其它传感器)。呈现模块1120提供许多其它用户界面以便于在此所述的功能。在此使用的术语“呈现”和“显示”旨在包括将信息或指令传送给可操作来基于所传送的信息或指令来执行呈现的特定装置。这可以包括在屏幕上输出和将图像投射到用户的眼睛上二者。

配置模块1130可以用于接受和管理用户对系统选项的选择。这可以包括选择各种AR选择的选项，包括启用AR并且基于用户输入或基于输入的触发来请求提供或触发某些类型的AR信息。例如，配置模块1130可以包括由用户提供的设定，以自动呈现关于与视频剪辑的记录、通信、图像和相机设定有关的某些类型的设定的信息，或者适合于AR系统160的任何其它这种装置设定。当经由通信模块1110接收到方向输入触发时，配置模块1130同样可以接受用户设定以自动提供在AR图像中的方向信息。在其它实施例中，可以由配置模块1130管理用于实现基于图像的位置或AR图像的任何其它触发。例如，配置模块1130在系统包括诸如用于显示AR图像的触发器的分析时，从由用户装置(例如，客户端装置110)接收的图像的图像数据中提取并分析候选形状特征或候选轮廓特征。配置模块1130确定与提取的候选形状特征相关联的各种规则或标准的满足。配置模块1130将提取的候选形状特征与定制图形的参考形状特征或另一参考图像进行比较。配置模块1130可利用各种机制和技术从图像的图像数据中提取候选形状特征，并随后触发AR图像的显示。

对准模块1140提供图像处理功能，以确定和验证由图像传感器采集的图像数据与放置到图像中的虚拟对象的对准。这可以包括管理由模块1160和1170同时跟踪的多个AR对象，或者确定相机或目标对象的移动何时超过阈值以允许具有合理误差的区域AR对象跟踪。例如，可以测量在视频图像的帧中测量的模糊值，以确定AR对象的全局跟踪不够精确。这种测量或阈值比较可以向用户呈现警报，并且可以自动禁止在正在进行的AR输出的后续帧中的一个或多个AR对象的呈现。在一些实施例中，对准模块1140可以访问或生成环境的计算机模型，包括在此描述的以及由模块1160和1170跟踪的各种模板，并且可以使用计算机模型将虚拟项目插入到基于环境的计算机模型的图像中。在一些实施例中，对准模块1140可以执行阈值或规则检查以验证在AR图像中显示的虚拟项目满足某些质量度量以提供可接受的用户体验。这可以包括验证虚拟对象相对于图像中的对象以非期望的方式移动，由图像传感器采集的图像随时间推移足够稳定以启用AR功能或其它此类度量。在一些实施例中，对准模块1140从图像数据中提取空间属性。在各种实施例中，空间属性包括图像中对象的位置、取向、比例或其它空间方面中的至少一个。对准模块1140基于空间属性(例如，特定取向)确定图像对象的对准。在一个示例中，对准模块1140可以基于空间属性确定包括位置和取向的对准，并且根据对准来生成变换的图像。

AR对象/虚拟项目模块1150提供用于生成与虚拟项目相关联的图像的功能。在一些实施例中，这可以包括与虚拟位置标记、虚拟方向箭头或虚拟项目或对象有关的图形信息。在一些实施例中，这可以包括用于将移动虚拟对象插入到视频(例如，虚拟动物、机器人、恐龙、视频显示器等)中的图形信息。在一些实施例中，对于每一个虚拟对象，呈现规则可以存储在AR对象/虚拟项目模块1150中，并由其它模块使用来验证虚拟对象可以被插入到具有足够输出质量的图像数据中。

目标跟踪模块1160提供来自与如在此所述的由用户输入识别的特定目标相关联的图像传感器的数据的分析。目标跟踪模块1160既可以跟踪图像序列内存在的目标，也可以搜索目标不存在的图像以确定目标是否已经移动到意外图像中。这种操作可以包括图像处理操作以识别图像中的关键点并且将目标数据与图像的部分匹配以识别匹配。另外，当目标可随时间推移在图像帧外改变时，目标跟踪模块1160可基于目标中的预期变化来修改目标匹配的标准。例如，如果目标是面部，则目标跟踪模块可以处理用于目标面部的替代视角的图像(例如，初始目标视图直接进入面部的简档图像)。目标跟踪模块1160的该跟踪可以进一步被来自全局跟踪模块1170的信息修改。例如，当全局跟踪模块1170识别出图像帧已经从目标的位置移开时，由目标跟踪模块1160执行的跟踪可以被限制或停止，特别是如果目标被预期为静止的话。当全局跟踪模块1170识别图像帧已经移动到目标的边缘可能进入图像的区域中时，目标跟踪模块1160可以增加图像的分析以识别目标或目标的一部分。

全局跟踪模块1170处理如在此所述的与特定目标无关的图像的元素，并且同样可以将与场景背景和相机移动有关的移动信息提供给其它模块。在一些实施例中，来自全局跟踪模块1170的处理可以用于生成场景的AR模型。这可以通过例如使用存储来自视频帧的信息的全局跟踪模板来生成采集的场景的区域模型来完成。在一些实施例中，可以在图像采集操作之间存储和重用该信息。在其它实施例中，每当装置退出AR模式时，该信息被删除，使得当进入AR模式并且相机装置开始采集数据时，全局跟踪模板和AR模型以无数据开始。

图12是示出可以安装在上述任何一个或多个装置上的软件1202的架构的框图1200。图12仅仅是软件架构的非限制性示例，并且应当理解可以实现许多其它架构以便于实现在此所描述的功能。在各种实施例中，软件1202由诸如图13的机器1300的硬件执行，该机器1300包括处理器1310、存储器1330和输入/输出(I/O)组件1350。在该示例架构中，软件1202可以被概念化为层的栈(stack)，其中每个层可以提供特定的功能。例如，软件1202包括诸如操作系统1204、库1206、框架1208和应用1210的层。在操作上，应用1210通过软件栈来调用API调用1212，并且响应于API调用1212接收消息1214，与一些实施例一致。在一个示例中，AR系统160作为应用1210进行操作。

在各种实施例中，操作系统1204管理硬件资源并提供公共服务。操作系统1204包括例如内核1220、服务1222和驱动器1224。与一些实施例一致，内核1220用作硬件和其它软件层之间的抽象层。例如，内核1220提供存储器管理、处理器管理(例如，调度)、组件管理、网络连接和安全设置等其它功能。服务1222可以为其它软件层提供其它公共服务。根据一些实施例，驱动器1224负责控制底层硬件或与底层硬件接口连接。例如，驱动器1224可以包括显示器驱动器、相机驱动器、驱动器、闪存驱动器、串行通信驱动器(例如通用串行总线(USB)驱动器)、驱动器、音频驱动器、电源管理驱动器等。

在一些实施例中，库1206提供由应用1210利用的低级别公共基础设施。库1206可以包括系统库1230(例如，C标准库)，其可以提供诸如存储器分配函数、字符串操作函数、数学函数等的函数。此外，库1206可以包括API库1232，诸如媒体库(例如，支持各种媒体格式的呈现和操纵的库，诸如运动图像专家组-4(MPEG4)，高级视频编码(H.264或AVC)、动态图像专家组-3(MP3)、高级音频编码(AAC)、自适应多速率(AMR)、音频编解码器、联合图像专家组(JPEG或JPG)或便携式网络图形(PNG))、图形库(例如，用于在显示器上的图形环境中呈现二维(2D)和三维(3D)的OpenGL框架)、数据库库(例如，提供各种关系数据库函数的SQLite)、Web库(例如，提供网页浏览功能的WebKit)等。库1206同样可以包括各种其它库1234，以向应用1210提供许多其它API。

根据一些实施例，框架1208提供可由应用1210利用的高级公共基础设施。例如，框架1208提供各种图形用户界面(GUI)功能、高级资源管理、高级位置服务等。框架1208可以提供可由应用1210利用的其它API的广泛范围，其中的一些应用可专用于特定操作系统1204或平台。

在示例实施例中，应用1210包括主页应用1250、联系人应用1252、浏览器应用1254、书籍阅读器应用1256、位置应用1258、媒体应用1260、消息收发应用1262、游戏应用1264和诸如第三方应用1266的各种其它应用。根据一些实施例，应用1210是执行在程序中定义的功能的程序。可以利用各种编程语言来创建以各种方式构造的一个或多个应用1210，诸如面向对象的编程语言(例如，Objective-C、Java或C++)或过程编程语言(例如C或汇编语言)。在具体示例中，第三方应用1266(例如，由除特定平台的供应商之外的实体使用Android^TM或iOS^TM软件开发工具包(SDK)开发的应用)可以是在诸如iOS^TM、Android^TM、或其它移动操作系统的移动操作系统上运行的移动软件。在该示例中，第三方应用1266可以调用由操作系统1204提供的API调用1212，以便于在此所述的功能。

AR应用1267可以实现在此描述的任何系统或方法，包括区域AR对象放置、在输出显示器上的呈现，以及AR视频记录。此外，在一些实施例中，消息收发应用1262和AR应用1267可以作为短暂消息收发应用的一部分一起操作。这种短暂消息收发应用可以操作以生成图像，允许用户将AR元素添加到图像，并且将图像和/或AR数据中的一些或全部传送给另一个系统用户。在满足删除触发之后，发送的数据从接收用户的系统被删除，并且同样可以被同步以从涉及包括图像和/或AR数据的短暂消息的通信的任何服务器中删除图像和/或AR数据。在一些实施例中，用于从接收用户的装置删除数据的触发可以是指示AR图像显示多长时间的计时器。在其它实施例中，短暂消息收发系统可以具有用于删除的设置的日期和时间触发器，或者与接收用户已经访问数据的次数相关联的删除。

例如，在一个实施例中，用户可以发送包括使用在此所述的区域AR跟踪采集的AR对象的视频剪辑。用户可以为包括AR数据的这种消息选择短暂或非短暂状态，使得包括数据的非短暂消息将等待来自接收用户的选择以删除AR数据，并且作为消息的一部分的AR数据是可以无限期地存储在通信服务器上。

图13是示出根据一些示例实施例能够从机器可读介质(例如，机器可读存储介质)读取指令并执行在此所讨论的任何一种或多种方法的机器1300的组件的框图。具体地，图13示出了以计算机系统的示例形式的机器1300的示意图，在该计算机系统内可以执行用于使机器1300执行在此讨论的任何一种或多种方法的指令1316(例如，软件、程序、应用、小应用、应用软件或其它可执行代码)。另外或可替代地，该指令可以实现图1、图11的任何模块等。该指令将通用的未编程的机器转换成被编程为以所描述的方式执行所描述和示出的功能的特定机器。在替代实施例中，机器1300作为独立装置操作或者可以耦接(例如，联网)到其它机器。在联网部署中，机器1300可以在服务器-客户端网络环境中的服务器机器或客户端机器的容量中操作，或者作为对等(或分布式)网络环境中的对等(peer)机器操作。机器1300可以包括但不限于服务器计算机、客户端计算机、PC、平板计算机、笔记本计算机、上网本、机顶盒(STB)、PDA、娱乐媒体系统、蜂窝电话、智能电话、移动装置、可穿戴装置(例如，智能手表)、智能家居装置(例如，智能家电)、其它智能装置、网络设备、网络路由器、网络交换机、网络桥接器或按顺序或以其它方式指定机器1300将采取的动作的能够执行指令1316的任何机器。此外，虽然仅示出了单个机器1300，但是术语“机器”还应被视为包括单独或共同执行指令1316以执行在此所讨论的任何一种或多种方法的机器1300的集合。

机器1300可以包括处理器1310、存储器/存储装置1330和I/O组件1350，其可被配置为诸如经由总线1302与彼此通信。在示例实施例中，处理器1310(例如，中央处理单元(CPU)、精简指令集计算(RISC)处理器、复杂指令集计算(CISC)处理器、图形处理单元(GPU)、数字信号处理器(DSP)、ASIC、射频集成电路(RFIC)、另一个处理器或其任何合适的组合)可以包括例如可以执行指令1316的处理器1312和处理器1314。术语“处理器”旨在包括多核处理器，其包括可同时执行指令的两个或多个独立处理器(有时称为“核”)。尽管图13示出了多个处理器，但是机器1300可以包括具有单核的单个处理器、具有多核的单个处理器(例如，多核处理器)、具有单核的多个处理器、具有多核的多个处理器，或其任何组合。

存储器/存储装置1330可以包括诸如经由总线1302对处理器1310可访问的主存储器1332、静态存储器1334或其它存储装置和存储单元1336。存储单元1336和存储器1332存储体现在此所述的任何一种或多种方法或功能的指令1316。在由机器1300的其执行期间，指令1316同样可以完全或部分地驻留在存储器1332内、存储单元1334内、处理器1310中的至少一个内(例如，在处理器的高速缓冲存储器内)或其任何适当的组合。因此，存储器1332、存储单元1334和处理器1310的存储器是机器可读介质1338的示例。

如在此所使用的，术语“机器可读介质1338”是指能够临时或永久地存储指令和数据的装置，并且可以包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、缓冲存储器、闪速存储器、光学介质、磁性介质、高速缓冲存储器、其它类型的存储装置(例如，可擦除可编程只读存储器(EEPROM))或其任何合适的组合。术语“机器可读介质”应被视为包括能够存储指令1316的单个介质或多个介质(例如，集中式或分布式数据库，或相关联的高速缓存和服务器)。术语“机器可读介质”同样应被视为包括能够存储用于机器(例如，机器1300)执行的指令(例如，指令1316)的任何介质或多个介质的组合，使得指令在由机器1300的一个或多个处理器(例如，处理器1310)执行时，使机器1300执行在此所述的任何一种或多种方法。因此，“机器可读介质”是指单个存储设备或装置，以及包括多个存储设备或装置的“基于云”的存储系统或存储网络。术语“机器可读介质”排除信号本身。

I/O组件1350可以包括用于接收输入、提供输出、产生输出、发送信息、交换信息、采集测量等的各种组件。包括在特定机器中的特定I/O组件1350将取决于机器的类型。例如，诸如移动电话的便携式机器将可能包括触摸输入装置或其它此类输入机构，而无头式(headless)服务器机器将可能不包括此类触摸输入装置。应当理解，I/O组件1350可以包括图13中未示出的许多其它组件。仅为简化以下讨论，根据功能对I/O组件1350分组，并且分组决不是限制性的。在各种示例实施例中，I/O组件1350可以包括输出组件1352和输入组件1354。输出组件1352可以包括视觉组件(例如，诸如等离子体显示面板(PDP)、发光二极管(LED)显示器、液晶显示器(LCD)、投影仪或阴极射线管(CRT)的显示器)、声学组件(例如扬声器)、触觉组件(例如振动马达、电阻机构)、其它信号发生器等。输入组件1354可以包括字母数字输入组件(例如，键盘、配置为接收字母数字输入的触摸屏、光电光学键盘或其它字母数字输入组件)、基于点的输入组件(例如，鼠标、触摸板、轨迹球、操纵杆、运动传感器或其它指示仪器)、触知输入组件(例如，物理按钮、提供触摸或触摸手势的位置和力的触摸屏，或其它触知输入组件)、音频输入组件(例如，麦克风)等。

在另外的示例实施例中，I/O组件1350可以包括多个其它组件中的生物特征组件1356、运动组件1358、环境组件1360或位置组件1362。例如，生物特征组件1356可以包括检测表达(例如手的表达、面部表情、声音表达、身体姿势或眼睛跟踪)、测量生物信号(例如，血压、心率、体温、出汗或脑波)、识别人(例如，语音识别、视网膜识别、面部识别、指纹识别或基于脑电图的识别)等的组件。运动组件1358可以包括加速度传感器组件(例如，加速度计)、重力传感器组件、旋转传感器组件(例如，陀螺仪)等。环境组件1360可以包括例如照明传感器组件(例如光度计)、温度传感器组件(例如，检测环境温度的一个或多个温度计)、湿度传感器组件、压力传感器组件(例如气压计)、声学传感器组件(例如，检测背景噪声的一个或多个麦克风)、近距离传感器组件(例如，检测附近物体的红外传感器)、气体传感器组件(例如，机器嗅觉检测传感器，气体检测传感器，用于检测危险气体的安全性浓度或测量大气中的污染物的浓度)或可提供对应于周围物理环境的指示、测量或信号的其它组件。位置组件1362可以包括位置传感器组件(例如，GPS接收器组件)、高度传感器组件(例如，高度计或气压计，其检测可以从哪个高度导出空气压力)、取向传感器组件(例如磁力计)等。

可以使用各种技术来实现通信。I/O组件1350可以包括可操作以分别经由耦合1382和耦合1372将机器1300耦接到网络1380或装置1370的通信组件1364。例如，通信组件1364包括网络接口组件或与网络1380接口连接的其它合适的装置。在另外的示例中，通信组件1364包括有线通信组件、无线通信组件、蜂窝通信组件、近场通信(NFC)组件、蓝牙组件(例如，蓝牙低能耗)、组件和经由其它模式提供通信的其它通信组件。装置1370可以是另一机器、或各种外围装置(例如，经由USB耦接的外围装置)中的任一个。

此外，通信组件1364可以检测标识符或包括可操作以检测标识符的组件。例如，通信组件1364可以包括射频识别(RFID)标签读取器组件、NFC智能标签检测组件、光学读取器组件(例如，光学传感器，其用于检测诸如通用产品代码(UPC)条形码的一维条形码、诸如快速响应(QR)代码、Aztec代码、数据矩阵、Dataglyph、MaxiCode、PDF417、超码、统一商业代码缩减空格符号(UCC RSS)-2D条形码的多维条形玛和其它光学代码)、声学检测组件(例如，用于识别标记的音频信号的麦克风)，或其任何合适的组合。此外，可以经由通信组件1364来导出各种信息，诸如经由因特网协议(IP)地理位置的位置、经由信号三角测量的位置、经由检测可以指示特定位置的或NFC信标信号的位置等。

在各种示例实施例中，网络1380的一个或多个部分可以是自组织网络、内联网、外部网、虚拟专用网络(VPN)、局域网(LAN)、无线LAN(WLAN)、广域网(WAN)、无线WAN(WWAN)、城域网(MAN)、因特网、因特网的一部分、公共交换电话网(PSTN)的一部分、普通老式电话服务(POTS)网络、蜂窝电话网络、无线网络、网络、另一种类型的网络，或两个或更多个此类网络的组合。例如，网络1380或网络1380的一部分可以包括无线或蜂窝网络，并且耦合1382可以是码分多址(CDMA)连接、全球移动通信系统(GSM)连接或其它类型的蜂窝或无线耦接。在该示例中，耦合1382可以实现各种类型的数据传输技术中的任何一种，诸如单载波无线电传输技术(1xRTT)、演进数据优化(EVDO)技术、通用分组无线业务(GPRS)技术、GSM演进增强型数据速率(EDGE)无线电通信技术、包括3G的第三代合作伙伴计划(3GPP)、第四代无线(4G)网络、通用移动电信系统(UMTS)、高速分组接入(HSPA)、全球微波接入互操作性(WiMAX)、长期演进(LTE)标准、由各种标准制定组织定义的其它标准、其它远程协议或其它数据传输技术。

可以使用传输介质经由网络接口装置(例如，在通信组件1364中包括的网络接口组件)，并利用多个公知传输协议中的任何一个(例如，HTTP)，通过网络1380来发送或接收指令1316。类似地，指令1316可以经由耦合1372(例如，对等耦合)使用传输介质发送或接收装置1370。术语“传输介质”应被视为包括能够存储、编码或携带由机器1300执行的指令1316的任何无形介质，并且包括数字或模拟通信信号或其它无形介质以便于这种软件的通信。

在整个说明书中，多个实例可以实现被描述为单个实例的组件、操作或结构。虽然示出一个或多个方法的单独操作并将其描述为单独的操作，但可以并行地执行单独操作中的一个或多个，并且不需要以所示的顺序执行操作。作为示例配置中的单独组件呈现的结构和功能可以被实现为组合结构或组件。类似地，作为单个组件呈现的结构和功能可以被实现为单独的组件。这些和其它变化、修改、添加和改进落入本文主题的范围内。

虽然已经参考具体示例实施例描述了发明主题的概述，但是可以对这些实施例进行各种修改和改变而不脱离本公开的实施例的更宽范围。本发明主题的这些实施例在此可以单独地或共同地由术语“发明”来引用，这仅为方便，而不意图将本申请的范围自愿地限制为任何单个公开或发明概念，即使事实上公开了一个以上的公开或发明概念。

在此所示的实施例被足够详细地描述以使本领域技术人员能够实践所公开的教导。其它实施例可以被使用并从中导出，使得可以在不脱离本公开的范围的情况下进行结构和逻辑替换和改变。因此，具体实施方式不应被认为是限制性的，并且各种实施例的范围仅由所附权利要求以及这些权利要求所赋予的全部等同物来限定。

如在此所使用的，术语“或”可以以包括或排除的方式来解释。此外，可以为在此所述的资源、操作或结构提供多个实例作为单个实例。此外，各种资源、操作、模块、发电机和数据存储之间的边界是一定程度任意的，并且在特定说明性配置的上下文中示出了特定的操作。可以设想功能的其它分配，并且其可以落入本公开的各种实施例的范围内。通常，作为示例配置中的单独资源呈现的结构和功能可以被实现为组合的结构或资源。类似地，作为单个资源呈现的结构和功能可以被实现为单独的资源。这些和其它变化、修改、添加和改进落入由所附权利要求所表示的本公开的实施例的范围内。因此，说明书和附图被认为是说明性的而不是限制性的。

Claims

1.一种方法，用于区域增强现实(AR)跟踪，所述方法包括：

使用装置的图像传感器和一个或多个处理器采集场景的第一多个图像；

在所述装置的显示器上显示所述第一多个图像；

在所述装置的输入组件处接收AR标签对象的第一用户选择；

在所述装置的所述输入组件处接收相对于如在所述装置的所述显示器上显示的所述第一多个图像中的第一图像来放置所述AR标签对象的第二用户选择；

使用所述一个或多个处理器处理所述第一多个图像中的一个或多个图像以生成所述场景的区域AR模型；以及

将所述AR标签对象添加到所述场景的所述区域AR模型，以用于所述AR标签对象的区域跟踪以及在所述装置的所述显示器上采用AR图像对所述AR标签对象的呈现。

2.根据权利要求1所述的方法，进一步包括：

使用所述图像传感器采集所述场景的第二多个图像；以及

在将所述AR标签对象添加到所述场景的所述区域AR模型之后，使用所述一个或多个处理器生成使用所述场景的所述区域AR模型的第二多个AR图像。

3.根据权利要求2所述的方法，进一步包括：

显示所述多个AR图像中的第一AR图像，其中所述第一AR图像包括所述AR标签对象；

基于所述图像传感器远离与所述AR标签对象相关联的所述场景的一部分的第一移动，在所述多个AR图像中的所述第一AR图像的显示之后，显示所述多个AR图像中的第二AR图像，其中所述第二AR图像不包括所述AR标签对象；以及

基于所述图像传感器朝向与所述AR标签对象相关联的所述场景的所述部分的第二移动，在所述多个AR图像中的所述第二AR图像的显示之后，显示所述多个AR图像中的第三AR图像，其中所述第三AR图像包括所述AR标签对象。

4.根据权利要求2所述的方法，进一步包括：

基于导致AR目标对象移动到所述图像传感器的视野外的所述场景中的第一变化，在所述多个AR图像中的所述第一AR图像的显示之后，显示所述多个AR图像中的第二AR图像，其中所述第二AR图像不包括所述AR标签对象；以及

基于导致所述AR目标对象移动到所述图像传感器的所述视野中的所述场景中的第二变化，在所述多个AR图像中的所述第二AR图像的显示之后，显示所述多个AR图像中的第三AR图像，其中所述第三AR图像包括所述AR标签对象。

5.根据权利要求1所述的方法，其中所述区域AR模型响应于所述AR标签对象的放置而生成。

6.根据权利要求1所述的方法，其中处理所述第一多个图像中的所述一个或多个图像以生成所述场景的所述区域AR模型包括：

基于所述AR标签对象的放置，识别所述第一多个图像中的所述第一图像内的目标；以及

在由所述图像传感器采集的后续图像内跟踪所述目标的移动。

7.根据权利要求6所述的方法，其中处理所述第一多个图像的所述一个或多个图像以生成所述场景的所述区域AR模型进一步包括：

处理所述后续图像中的第二图像以确定所述目标在边界区域之外；以及

基于确定所述目标在所述边界区域之外，对于在确定所述目标在所述边界区域之外之后由所述图像传感器采集的第三多个图像：

对于所述第三多个图像中的每一个图像，对一组全局图像点进行采样；以及

确定关联的移动。

8.根据权利要求7所述的方法，进一步包括：

对于所述第三多个图像中的最终图像，基于所述最终图像的所述关联移动和所述第三多个图像中的所述最终图像的所述一组全局图像点的所述采样，确定所述目标在所述边界内；以及

基于确定所述目标在所述边界内，跟踪所述第三多个图像之后的第四多个图像内的所述目标。

9.根据权利要求1所述的方法，其中将所述AR标签对象添加到所述场景的所述区域AR模型以用于所述AR标签对象的区域跟踪包括：

识别与由J_i＝I₀(s_i)所描述的所述AR标签对象相关联的目标模板；

其中J_i是与所述AR标签对象相关联的所述目标模板，所述目标模板包括在与所述第一多个图像的所述一个或多个图像的初始AR模型图像I₀中的目标和目标区域相关联的多个采样点S_i处采样的一组颜色值。

10.根据权利要求9所述的方法，进一步包括通过以下来跟踪所述AR标签对象：

处理在所述初始AR模型图像之后接收的第二多个图像I_n，使得：

其中T(n)是描述由所述一个或多个处理器分析的所述第二多个图像的连续图像之间的所述目标的移动的变换；以及

计算区域跟踪能量，以根据迭代非线性优化来对于所述第二多个图像的每一个图像确定更新的目标模板：

使得

以及

<mrow> <msub> <mi>T</mi> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi>min</mi> </mrow> <msub> <mi>T</mi> <mi>n</mi> </msub> </munder> <mi>l</mi> <mo>=</mo> <mn>2</mn> <mo>,</mo> <mn>1</mn> <mo>,</mo> <mn>0</mn> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <mo>|</mo> <mo>|</mo> <msubsup> <mi>I</mi> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <mo>(</mo> <mi>R</mi> <mo>)</mo> </mrow> </msubsup> <mrow> <mo>(</mo> <msub> <mi>T</mi> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <msubsup> <mi>J</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>

用于确定与所述第二多个图像的每一个图像相关联的所述更新的目标模板。

11.根据权利要求10所述的方法，进一步包括：

确定所述目标的像素边限；

确定所述目标的中心何时从所述像素边限之内移动到所述像素边限之外；以及

基于确定所述目标的所述中心已经移动到所述像素边限之外，启动所述第二多个图像之后的第三多个图像的所述场景的全局移动跟踪。

12.根据权利要求11所述的方法，其中所述目标的所述中心由从触发图像的边缘移动到设定数量的像素内的所述目标模板的中心像素来识别，其中所述设定数量的像素与所述像素边限相关联。

13.根据权利要求12所述的方法，其中所述全局移动跟踪包括：

在启动所述全局移动跟踪之后，对所述第三多个图像中的每一个图像内的固定的一组点g进行采样；以及

计算变换ΔT以估计以下的最小值：

<mrow> <mi>&Delta;</mi> <mi>T</mi> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi>min</mi> </mrow> <mrow> <mi>&Delta;</mi> <mi>T</mi> </mrow> </munder> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <mo>|</mo> <mo>|</mo> <msubsup> <mi>I</mi> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>&Delta;</mi> <mi>T</mi> <mo>(</mo> <msub> <mi>g</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <msubsup> <mi>I</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>.</mo> </mrow>

14.根据权利要求13所述的方法，其中所述最小值使用如下来估计：

<mrow> <mi>&Delta;</mi> <mi>T</mi> <mo>=</mo> <munder> <mrow> <mi>arg</mi> <mi>min</mi> </mrow> <mrow> <mi>&Delta;</mi> <mi>T</mi> </mrow> </munder> <mi>l</mi> <mo>=</mo> <mn>4</mn> <mo>,</mo> <mn>3</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mn>1</mn> <mo>,</mo> <mn>0</mn> <munder> <mo>&Sigma;</mo> <mi>i</mi> </munder> <mo>|</mo> <mo>|</mo> <msubsup> <mi>I</mi> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>&Delta;</mi> <mi>T</mi> <mo>(</mo> <msub> <mi>g</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <msubsup> <mi>I</mi> <mi>n</mi> <mrow> <mo>(</mo> <mi>l</mi> <mo>)</mo> </mrow> </msubsup> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>

以生成目标变换，其中：

<mrow> <msub> <mover> <mi>T</mi> <mo>^</mo> </mover> <mrow> <mi>n</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <mi>&Delta;</mi> <mi>T</mi> <mo>&CenterDot;</mo> <msub> <mover> <mi>T</mi> <mo>^</mo> </mover> <mi>n</mi> </msub> <mo>.</mo> </mrow>

15.一种装置，包括：

显示器；

输入组件，其被耦接到所述显示器；

存储器，其被耦接到所述显示器和所述输入组件；

图像传感器；以及

一个或多个处理器，其被耦接到所述显示器、所述图像传感器、所述输入组件和所述存储器，所述一个或多个处理器被配置成处理由所述图像传感器采集的视频图像帧并且使用AR标签对象的区域AR跟踪来输出区域AR图像，通过如下：

处理将所述视频图像帧的第一图像的第一部分与所述AR标签对象和目标相关联的用户输入；

基于所述用户输入和所述第一图像的所述第一部分，生成与所述目标相关联的第一目标模板；

通过使用所述第一目标模板计算所述第一图像的所述第一部分中的变化，跟踪所述第一图像之后的所述视频图像帧的帧之间的所述目标；

基于确定所述目标在边界区域之外来启动全局跟踪，所述全局跟踪包括使用全局跟踪模板来跟踪在确定所述目标在所述边界区域之外之后采集的所述视频图像帧中的移动；以及

当所述全局跟踪确定所述目标在所述边界区域内时，恢复跟踪所述目标，并且基于所述目标的所述跟踪在所述显示器上显示所述AR标签对象。

16.根据权利要求15所述的装置，其中通过使用所述第一目标模板计算所述第一图像的所述第一部分中的所述变化，跟踪在所述第一图像之后的所述视频图像帧中的帧之间的所述目标，包括：

识别与由J_i＝I₀(s_i)所描述的所述AR标签对象相关联的所述第一目标模板；

其中J_i是与所述AR标签对象相关联的所述第一目标模板，所述第一目标模板包括在与所述第一多个图像中的一个或多个图像的初始AR模型图像I₀中的所述目标和目标区域相关联的多个采样点S_i处采样的一组颜色值。

17.根据权利要求16所述的装置，进一步包括通过以下跟踪所述AR标签对象：

其中T(n)是描述由所述一个或多个处理器分析的所述第二多个图像中的连续图像之间的所述目标的移动的变换；以及

计算区域跟踪能量，以根据迭代非线性优化来对于所述第二多个图像中的每一个图像确定更新的目标模板：

使得

以及

用于确定与所述第二多个图像中的每一个图像相关联的所述更新的目标模板。

18.一种非暂态计算机可读介质，其包括指令，所述指令在由装置的一个或多个处理器执行时使所述装置执行包括以下的方法：

处理将由图像传感器采集的视频图像帧的第一图像的第一部分与AR标签对象和目标相关联的用户输入；

基于所述用户输入和所述第一图像的所述第一部分，生成与所述目标相关联的第一目标模板；以及

通过使用所述第一目标模板计算所述第一图像的所述第一部分中的变化，跟踪在所述第一图像之后的所述视频图像帧中的帧之间的所述目标。

19.根据权利要求18所述的非暂态计算机可读介质，其中由所述装置的所述一个或多个处理器执行的所述方法进一步包括：

基于确定所述目标在边界区域之外来启动全局跟踪，所述全局跟踪包括使用全局跟踪模板来跟踪在确定所述目标在所述边界区域之外之后所采集的所述视频图像帧中的移动；以及

当所述全局跟踪确定所述目标在所述边界区域内时，恢复跟踪所述目标。

20.根据权利要求19所述的非暂态计算机可读介质，其中通过使用所述第一目标模板计算所述第一图像的所述第一部分中的所述变化，跟踪在所述第一图像之后的所述视频图像帧中的跨帧的所述目标，包括：

其中J_i是与所述AR标签对象相关联的所述第一目标模板，所述第一目标模板包括在与所述第一多个图像中的所述一个或多个图像的初始AR模型图像I₀中的所述目标和目标区域相关联的多个采样点S_i处采样的一组颜色值；

通过处理在所述初始AR模型图像之后接收的第二多个图像I_n来跟踪所述AR标签对象，使得：

其中T(n)是描述由所述一个或多个处理器分析的所述第二多个图像的顺序图像之间的所述目标的移动的变换；以及

使得

以及