CN111462185A

CN111462185A - 跟踪器辅助的图像捕获

Info

Publication number: CN111462185A
Application number: CN202010258250.0A
Authority: CN
Inventors: 钟辛; 高大山; 毕宁; 史蒂文·道格拉斯·拉韦尔; 斯科特·戴维·比思; 迪亚尔穆伊德·麦科马克
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-06-14
Filing date: 2014-05-30
Publication date: 2020-07-28
Also published as: US11538232B2; EP3008696B1; ES2869438T3; US20140369555A1; JP2016526713A; JP6522595B2; WO2014200714A1; US20200019806A1; CA2910965A1; CN105264570A; US10474921B2; KR20160020498A; EP3008696A1; KR20210014774A; BR112015031071A2; US20230077355A1; KR102349242B1

Abstract

本申请涉及跟踪器辅助的图像捕获。本发明描述一种图片处理方法。获得第一跟踪区域。同样，获得第二跟踪区域。所述方法包含开始跟踪所述第一跟踪区域和所述第二跟踪区域。在所述第一跟踪区域与所述第二跟踪区域重叠的一部分超过阈值时，执行图片处理。

Description

跟踪器辅助的图像捕获

分案申请的相关信息

本申请是申请日为2014年5月30日、发明名称为“跟踪器辅助的图像捕获”的申请号为201480032130.1的中国发明专利申请的分案申请。

相关申请案之交叉参考

本申请涉及2013年6月14日提交的标题为“跟踪器辅助的图像捕获(TRACKERASSISTED IMAGE CAPTURE)”的美国临时专利申请序列号61/835,414并且主张其优先权。

技术领域

本公开总体涉及电子装置。更具体地说，本公开涉及用于跟踪器辅助的图像捕获的系统和方法。

背景技术

在过去的几十年中，电子装置的使用已变得普遍。具体地说，电子技术的进步已降低了日益复杂且有用的电子装置的成本。成本降低和客户需求使电子装置的使用激增，从而使得它们在现代社会中无处不在。随着电子装置的使用扩展，对电子装置的新的且改进的特征的需求也增加。更具体地说，执行新功能和/或更快、更有效地执行功能或具有更高质量的电子装置是经常追求的。

一些电子装置(例如，照相机、视频照相机、数字照相机、蜂窝电话、智能电话、计算机、电视机等)捕获或利用图像。例如，数字照相机可以捕获数字图像。

电子装置的新的和/或改进的特征是经常追求的。如从这个讨论中可以观察到，添加电子装置的新的和/或改进的特征的系统和方法可为有益的。

发明内容

描述了一种用于图片处理的方法。获得第一跟踪区域。还获得第二跟踪区域。所述方法包含开始跟踪所述第一跟踪区域和所述第二跟踪区域。在所述第一跟踪区域与所述第二跟踪区域重叠的一部分超过阈值时，执行图片处理。

在所述第一跟踪区域与所述第二跟踪区域重叠的所述部分大于所述阈值，可以执行所述图片处理。在所述第一跟踪区域与所述第二跟踪区域重叠的所述部分小于所述阈值，也可以执行所述图片处理。所述图片处理可包含捕获照片。所述照片可以从预录视频镜头或从镜头捕获。所述图片处理还可以包含编辑视频序列。可以将所述第一跟踪区域所跟踪的对象从所述视频序列中移除。

可以确定的是，所述第一跟踪区域与所述第二跟踪区域的重叠在所述视频序列的第一帧中超过所述阈值。可以选择所述视频序列的第二帧。所述第一跟踪区域在所述第二帧中可以与所述第二跟踪区域不重叠。在所述第一帧中的所述第一跟踪区域可以由来自所述第二帧的对应替代区域替代。

所述第二帧可以在时间上晚于所述第一帧出现。所述第二帧也在时间上早于所述第一帧出现。所述编辑过的第一帧可以存储为编辑过的视频序列的一部分。所述第一跟踪区域和所述第二跟踪区域可以由用户经由聚焦环来进入。开始跟踪所述第一跟踪区域和所述第二跟踪区域可以在用户已经将手指从触摸屏拿开后发生。所述第二跟踪区域可包含动作线。

还描述了一种被配置用于图片处理的电子装置。所述电子装置包含处理器、与所述处理器电子通信的存储器、以及存储在存储器中的指令。所述指令可执行来获得第一跟踪区域。所述指令还可执行来获得第二跟踪区域。所述指令可进一步执行来开始跟踪所述第一跟踪区域和所述第二跟踪区域。所述指令还可执行来在所述第一跟踪区域与所述第二跟踪区域重叠的一部分超过阈值时执行图片处理。

描述了一种用于图片处理的设备。所述设备包含用于获得第一跟踪区域的装置。所述设备还包含用于获得第二跟踪区域的装置。所述设备进一步包含用于开始跟踪所述第一跟踪区域和所述第二跟踪区域的装置。所述设备还包含用于在所述第一跟踪区域与所述第二跟踪区域重叠的一部分超过阈值时执行图片处理的装置。

还描述了一种用于图片处理的计算机程序产品。所述计算机程序产品包含在其上具有指令的非暂态计算机可读媒体。所述指令包含用于致使电子装置获得第一跟踪区域的代码。所述指令还包含用于致使所述电子装置获得第二跟踪区域的代码。所述指令进一步包含用于致使所述电子装置开始跟踪所述第一跟踪区域和所述第二跟踪区域的代码。所述指令还包含用于致使所述电子装置在所述第一跟踪区域与所述第二跟踪区域重叠的一部分超过阈值时执行图片处理的代码。

附图说明

图1是示出用于在本发明的系统和方法中使用的电子装置的框图；

图2A是示出对象跟踪和检测模块的框图；

图2B示出在图2A的系统内的由处理器实现的一些组件；

图3是示出用于执行基于运动的跟踪和对象检测的方法的流程图；

图4是示出用于执行基于运动的跟踪的方法的流程图；

图5是示出用于基于向前-向后误差来估计基于运动的跟踪中的跟踪误差的方法的流程图；

图6是示出用于执行对象检测的方法的流程图；

图7是示出可以与本发明的系统和方法一起使用的不同窗大小的框图；

图8是示出对象跟踪和检测模块的另一种可能配置的框图；

图9是示出平滑模块的框图；

图10是示出用于平滑运动跟踪结果中的抖动的方法的流程图；

图11是用于使用对象跟踪来执行图片处理的方法的流程图；

图12A示出使用对象跟踪的图片处理的一个实例；

图12B也示出使用对象跟踪的图片处理的一个实例；

图13示出使用对象跟踪的图片处理的另一个实例；

图14是用于使用对象跟踪来对视频序列执行图片处理的方法的流程图；

图15示出显示在电子装置上的未编辑的视频序列和编辑过的视频序列两者的多个帧；并且

图16示出可以包含在电子装置内的某些组件。

具体实施方式

使用来自移动平台(例如，平板计算机、电话)的照相机来跟踪图像或所述图像内感兴趣的用户限定区域内的对象可能是困难的。可能需要实时性能(～30帧/秒(fps))。一些配置可以将基于光流的跟踪器和基于图像内容的检测器的输出组合以获得稳健的跟踪。然而，现有算法的计算可能对移动平台实现实时性能造成了阻碍。

本发明的系统和方法可以实现以下技术以改进跟踪和检测算法的速度：(1)在每一帧处使用可能检测窗的一部分(例如，随机选择窗位置)；(2)仅选择针对对象检测的接近先前检测到的目标大小的几个空间尺度；(3)基于先前跟踪的置信度值，确定在部分图像还是在整个图像中搜索对象；(4)基于先前的跟踪结果动态调整检测窗的数量；(5)代替并行地运行跟踪器和对象检测器，首先应用跟踪器，因为所述跟踪器在计算上较廉价；以及(6)仅在跟踪器的置信度低于特定阈值时运行对象检测器。技术优点之一是减少了跟踪和/或检测目标对象所使用的计算。

跟踪和检测算法的一个特定用途是图片处理。图片处理可包含拍摄照片和/或视频编辑。实现图片处理可提供所描述的跟踪和检测算法的实际使用应用。

如本文中所使用，术语“跟踪”及其变体是指基于运动的、不标识具体对象的过程。例如，对象跟踪和检测模块可跟踪帧间运动并且基于电子装置的移动(例如，在照相机进行摇摄的情况下)或对象的帧间移动来确定目标对象的位置、大小或帧。术语“检测”及其变体是指试图例如通过将帧的一部分与参考图像进行比较来标识目标对象的过程。例如，对象跟踪和检测模块可以将所捕获帧的部分与(目标对象的)参考图像进行比较以便标识目标对象。在一个实例中，当不能够再跟踪目标时(例如，在对象落到视野之外的情况下)，可以使用检测。下文更详细地解释执行基于运动的跟踪和对象检测的系统和方法。

图1是示出用于在本发明的系统和方法中使用的电子装置102的框图。电子装置102还可以被称为无线通信装置、移动装置、移动站、用户站、客户端、客户站、用户设备(UE)、远程站、访问终端、移动终端、终端、用户终端、用户单元等。电子装置的实例包含膝上型或桌上型计算机、蜂窝电话、智能电话、无线调制解调器、电子阅读器、平板装置、游戏系统等。这些装置中的一些可以根据一或多个工业标准进行操作。

电子装置102，如智能电话或平板计算机，可包含照相机。照相机可包含图像传感器114和光学系统118(例如，透镜)，所述光学系统118将位于光学系统118的视野内的对象的图像聚焦到图像传感器114上。电子装置102还可包含照相机软件应用程序和显示屏。当照相机应用程序正在运行时，可通过图像传感器114来记录位于光学系统118的视野内的对象的图像。可将图像传感器114正在记录的图像显示在显示屏上。这些图像可以相对高的帧速率快速连续地显示，以便在任何给定时刻，位于光学系统118的视野内的对象都被显示在显示屏上。尽管本发明的系统和方法是根据所捕获的视频帧进行描述的，但是本文所讨论的技术可用于任何数字图像。因此，术语视频帧和数字图像在本文可互换地使用。

照相机应用程序的用户接口120可容许跟踪显示在显示屏上的一或多个对象。可容许电子装置102的用户选择待跟踪的一个或多个对象。此外，所选择的对象可用作稍后检测所述对象的参考。

在一种配置中，显示器是接收来自实体触摸(例如，通过手指、铁笔或其它工具)的输入的触摸屏116。触摸屏116可接收限定待跟踪的目标对象的触摸输入。例如，如果电子装置102正在捕获包含感兴趣的动物的自然场景，那么必要时用户可在所述动物周围绘制出指示希望跟踪或检测所述动物的边界框。目标对象可以任何合适的方式进行选择。例如，可以使用面部识别、行人识别等来选择待跟踪、检测或两者的目标对象。在一种配置中，可跟踪多个对象。用户接口120可允许用户与对象跟踪和检测模块104进行交互，例如以便选择(即，限定)一个或多个目标对象。触摸屏116可包含取景器131。取景器131可以是指触摸屏116的显示视屏流或现场馈送的部分。例如，取景器131可将照相机获得的景象显示在电子装置102上。

电子装置102可包含用于跟踪所选择的对象和/或检测视频帧中的对象的对象跟踪和检测模块104。对象跟踪和检测模块104可包含用于跟踪一个或多个对象的运动跟踪器106。运动跟踪器106可以是基于运动的，以用于跟踪图像(例如，视频帧)上的点的帧间运动，以便估计在先前的视频帧与当前的视频帧之间目标对象的位置和/或位置变化。

对象跟踪和检测模块104还可包含用于检测视频帧上的对象的对象检测器108。对象检测器108可使用对象模型而不是基于运动的模型，以便通过将当前视频帧的全部或一部分与(例如，视频帧序列中的)所捕获的先前视频帧112的所选择对象或一部分进行比较来检测对象。对象检测器108可用于检测视频帧内的多个对象。

对象跟踪和检测模块104还可包含存储器缓冲器110。存储器缓冲器110可存储一或多个所捕获的帧以及与所捕获的视频帧相关联的数据。在一个实例中，存储器缓冲器110可存储先前捕获的视频帧112。对象跟踪和检测模块104可使用从存储器缓冲器110提供的关于所捕获的先前视频帧112的数据以便执行基于运动的跟踪和/或对象检测。数据可经由来自存储器缓冲器110的反馈而被提供到运动跟踪器106或对象检测器108，以便调整基于运动的跟踪和对象检测，从而更准确地跟踪和/或检测目标对象。例如，存储器缓冲器110可将位置和窗大小数据提供到运动跟踪器106和对象检测器108，以便向运动跟踪器106和对象检测器108提供可用来在跟踪或检测对象时更准确地查明对象的位置和大小的一或多个参数。

如上所述，电子装置102可执行基于运动的跟踪。可使用多种方法来执行基于运动的跟踪。在一个实例中，通过中值流方法执行跟踪，在所述方法中，运动跟踪器106接受一对图像I_t、I_t+1(例如，视频帧)和边界框β_t并且输出边界框β_t+1。可已将边界框β_t内的矩形网格上的一组点初始化并且跟踪所述点以便在I_t与I_t+1之间生成稀疏的运动流。可估计点预测的质量并且为每个点指定一个误差。最坏预测的一部分(例如，50％)可被过滤掉，而剩余的预测被用来估计整个边界框的位移。运动跟踪器106可对由电子装置102捕获的每个视频帧执行基于运动的跟踪。在类似的方法中，可通过以下步骤来执行基于运动的跟踪：计算一或多个梯度(例如，x和y梯度)并且使用一对帧之间的差异来计算时间梯度，并且使用所述多个梯度值来准确地跟踪当前视频帧内的目标对象。下文提供关于基于运动的跟踪的其它细节。

当执行基于运动的跟踪时，运动跟踪器106可基于所计算或所估计的运动跟踪方法的准确度来确定跟踪置信度值。在一些配置中，跟踪置信度值可以是在0与1之间的实数，其对应于目标对象落在当前视频帧或所述视频帧的限定窗内的可能性或概率。可以将跟踪置信度值与跟踪阈值进行比较。如果跟踪置信度值大于跟踪阈值，那么在当前视频帧内发现目标对象的可能性可能较高。可替代地，如果跟踪置信度值小于或等于跟踪阈值，那么在当前视频帧内发现目标对象的可能性可能较低或是不确定的。可使用用于确定跟踪置信度值的各种方法。在一种配置中，通过计算当前视频帧中的跟踪窗(例如，跟踪补丁窗)与来自先前捕获的视频帧的先前存储的图像补丁之间的归一化互相关(NCC)来确定跟踪置信度值。下文提供关于确定跟踪置信度值的其它细节。

电子装置102还可执行对象检测。可使用各种方法执行对象检测。在一种配置中，使用滑动窗法执行对象检测，在所述方法中，观察视频帧内的多个窗子集的内容以确定目标对象是否在当前的视频帧中或在当前的视频帧的特定窗或窗子集内。可在视频帧中搜索所有可能的窗位置和大小的全部或子集。例如，每个窗可对应于数据像素并且对象检测器108可使用所述数据像素执行一或多个计算，以便确定目标对象处于特定窗或子窗内的置信度水平(例如，二进制指示符)。基于与一或多个窗相关联的置信度水平，可获得针对当前的视频帧的检测器置信度值。此外，另外的技术可用于增加对象检测的准确度或效率。下文解释这些技术中的一些。

在一种配置中，运动跟踪器106和对象检测器108可顺序操作而不是并行操作。例如，电子装置102可执行对所选择对象(例如，目标对象)的基于运动的跟踪并且基于跟踪到的参数顺序地执行对所选择对象的对象检测。在一种配置中，电子装置102可对当前的视频帧执行基于运动的跟踪。电子装置102随后可基于跟踪到的参数对当前帧执行对象检测。在一种配置中，跟踪到的参数可基于置信度值与阈值之间的比较。例如，如果跟踪置信度值低于跟踪阈值，那么电子装置102可执行对象检测。或者，如果跟踪置信度值高于跟踪阈值，那么电子装置102可跳过针对当前的视频帧的对象检测并且基于当前的视频帧的运动跟踪结果继续针对下一视频帧执行基于运动的跟踪。换句话说，只有当基于运动的跟踪不是很好时，例如，跟踪置信度值低于跟踪阈值，可执行对象检测。当考虑是否执行对象检测和/或如何执行对象检测时，可使用其它跟踪到的参数。跟踪到的参数的实例可包含目标对象区域、窗位置、窗大小、尺度水平、目标大小、跟踪和/或检测置信度值或可用来促进目标对象的有效跟踪和/或检测的其它参数。

顺序地执行基于运动的跟踪和基于跟踪到的参数的对象检测可使得电子装置102能够在不执行大量计算的情况下跟踪和/或检测视频帧内的目标对象。具体地说，因为基于运动的跟踪的计算强度可能低于对象检测，所以电子装置102在基于运动的跟踪可用来准确地跟踪当前的视频帧内的目标对象的情况下可跳过执行对象检测。例如，如果电子装置102确定跟踪置信度值超过特定的目标阈值，那么电子装置102可确定不需要对当前的视频帧的对象检测来准确地确定目标对象在当前的视频帧内的位置或存在。此外，因为对象检测在许多情况下可为有益的，所以电子装置102可确定对象检测可用来更准确地检测目标对象的情况或确定在基于与跟踪阈值的比较的基于运动的跟踪是不充分的情况下执行对象检测。

在一些配置中，不是跳过对当前的视频帧的对象检测，而是基于运动的跟踪结果和/或由存储器缓冲器110提供的另外信息可用来缩减或调整执行对象检测的过程。例如，在使用基于运动的跟踪方法不能准确地跟踪目标对象的情况下，电子装置102仍可估计或获得关于位置、窗尺度或与目标对象相关联的其它跟踪到的参数的信息，从而可在对象检测期间比在不具有通过基于运动的跟踪提供的参数的情况下使用更少的计算能力来更准确地检测对象。因此，即使是在基于运动的跟踪不提供超过跟踪阈值的跟踪置信度值的情况下，当顺序地执行对象检测时也可使用基于运动的跟踪结果。

电子装置102上的取景器131可包含第一跟踪区域133和第二跟踪区域135。第一跟踪区域133和第二跟踪区域135两者均可由用户使用触摸屏116来指定。例如，用户可在触摸屏116上将聚焦环拖曳到第一跟踪区域133和第二跟踪区域135的期望位置。尽管不需要，但跟踪区域中的一个可以是固定的。例如，第一跟踪区域133可跟随行走的人，并且第二跟踪区域135可覆盖固定的树。在一种配置中，第二跟踪区域135可覆盖电子装置102上的整个触摸屏116。

电子装置102可包含图片处理模块137。图片处理模块137可提供不同类型的图片处理，如拍照或编辑预录的视频。图片处理模块137可包含重叠143。重叠143可反映第一跟踪区域133与第二跟踪区域135之间的重叠量。例如，如果第一跟踪区域133和第二跟踪区域135完全不重叠，那么重叠143可以是0％。同样，如果第一跟踪区域133与第二跟踪区域135完全重叠(或如果第二跟踪区域135与第一跟踪区域133完全重叠，这取决于哪个跟踪区域更大)，那么重叠143可以是100％。

图片处理模块137可包含阈值145。重叠143可与阈值145进行比较以确定是否应该执行图片处理。例如，当重叠143变得大于阈值145时，可拍摄照片149。作为另一个实例，当重叠143变得小于阈值145时，可拍摄照片149。作为又一个实例，当重叠143变得大于或小于阈值145时，可执行视频编辑。在视频编辑的一个实例中，可编辑未编辑的视频序列147中的帧以获得编辑过的视频序列151。

图2A是示出对象跟踪和检测模块204的框图。对象跟踪和检测模块204可在电子或无线装置内实施。对象跟踪和检测模块204可包含运动跟踪器206，所述运动跟踪器206具有光流模块226和跟踪置信度值228。对象跟踪和检测模块204还可包含对象检测器208，所述对象检测器208具有扫描器定位器230、扫描器定标器236、分类器238和检测置信度值240。存储器缓冲器210可存储与所捕获的先前的视频帧212相关联的数据，所述数据可被提供到运动跟踪器206和对象检测器208。对象跟踪和检测模块204、运动跟踪器206、对象检测器208和存储器缓冲器210可以是以上结合图1所述的具有对象跟踪和检测模块104、运动跟踪器106、对象检测器108和存储器缓冲器110的配置。

运动跟踪器206可用来执行对当前的视频帧(N)224的基于运动的跟踪。例如，可(例如，通过电子装置102)接收先前的视频帧(N-1)222和当前的视频帧(N)224。先前的视频帧(N-1)222在视频帧的序列中可紧接在当前的视频帧(N)224之前。可获得另外的视频帧并且通过对象跟踪和检测模块204来处理所述视频帧。可将先前的视频帧(N-1)222提供到运动跟踪器206。此外，存储器缓冲器210可存储与先前的视频帧(N-1)222相关联的数据，本文被称为所捕获的先前的视频帧212。在一些配置中，存储器缓冲器210可直接从电子装置102(例如，从摄像机)获得关于先前的视频帧(N-1)222的信息。存储器缓冲器210还可从融合模块260获得关于先前的视频帧(N-1)222的跟踪结果，所述跟踪结果可指定在先前的视频帧(N-1)222中的何处跟踪和/或检测对象。可将关于先前的视频帧(N-1)222或其它先前所捕获的视频帧的这种信息存储在存储器缓冲器210中。

运动跟踪器206可顺序地接收在视频帧的序列中的当前的视频帧(N)224。运动跟踪器206可(例如，使用由存储器缓冲器210提供的信息)将当前的视频帧(N)224与先前的视频帧(N-1)222进行比较。运动跟踪器206使用光流模块226来跟踪对象在当前的视频帧(N)224上的运动。光流模块226可包含用于执行对当前的视频帧(N)224上的对象的基于运动的跟踪的硬件和/或软件。通过将先前的视频帧(N-1)222与当前的视频帧(N)224进行比较，运动跟踪器206可确定与目标对象处于当前的视频帧(N)224中的可能性相关联的跟踪置信度值228。在一个实例中，跟踪置信度值228是基于目标对象处于当前的视频帧(N)224内或当前的视频帧(N)224内的窗内的确定性百分比的实数(例如，在0与1之间)。

对象检测器208可用来检测当前的视频帧(N)224上的对象。例如，对象检测器208可接收在视频帧的序列中的当前的视频帧(N)224。对象检测器208可基于跟踪到的参数对当前的视频帧(N)224执行对象检测。跟踪到的参数可包含对应于目标对象被正确地跟踪的可能性的跟踪置信度值228。更具体地说，跟踪到的参数可包含跟踪置信度值228与跟踪阈值250的比较。跟踪到的参数还可包含由存储器缓冲器210提供的信息。跟踪到的参数在检测对象时可使用的一些实例包含区域、窗位置、窗大小或在执行对象检测时可由对象检测器208用作参数的其它信息。

对象检测器208可包含扫描器定位器230。扫描器定位器230可包含窗位置选择器232和随机化发生器234。窗位置选择器232可选择视频帧内的多个窗。例如，视频帧可包含多个窗，每个具有相关联的位置和大小。在一种配置中，每个视频帧被分成多个(例如，近似10,000)重叠窗，每个包含视频帧中的总像素的一部分。或者，可存在任何合适数量的窗并且其可不重叠。扫描器定位器230内的窗位置选择器232可选择窗位置，在所述窗中试图识别目标对象。随机化发生器234可随机选择具有不同大小和位置的窗以用于检测对象。在一些配置中，随机化发生器234随机选择视频帧内的窗。或者，随机化发生器234可基于一或多个因素更精确地选择窗。例如，随机化发生器234可基于区域、大小或对象最可能定位的一般位置来限制窗的选择。这种信息可通过存储器缓冲器210获得或可通过基于运动的跟踪获得，所述信息虽然不是足够准确能够完全依赖的，但可提供在执行对象检测时有用的信息。因此，虽然随机化发生器234可随机选择多个窗来搜索，但是窗的选择可基于提供到对象检测器208的信息变窄并且因此不是完全随机的。

对象检测器208还可包含扫描器定标器236，所述扫描器定标器236可用来绘制或选择具有某一大小的窗。窗大小可由扫描器定标器230用来使窗大小在检测对象或将窗的选择与原始图像进行比较以便检测图像是否处于特定窗内时变窄。当限定对象时，扫描器定标器236可初始选择具有某些大小或尺度水平的一或多个窗或者基于从存储器缓冲器210提供的信息来绘制具有某些大小或尺度水平的一或多个窗。

分类器238可用来确定是否在特定窗内发现目标对象的一些或全部。在一些配置中，分类器238可针对每个窗产生二进制值，以便指示是否在特定窗或子窗内检测到目标对象。可针对对象检测器208搜索到的每个窗执行这种分类(例如，二进制分类)。具体地说，分类器238可生成用于每个窗二进制1，在所述二进制中对象被检测到；和用于每个窗的二进制0，在所述二进制中对象未被检测到。基于数字或1和0的组合，对象检测器208可确定检测置信度值240，所述检测置信度值240指示目标对象存在于当前的视频帧(N)224内的可能性。在一些配置中，检测置信度值240是在0与1之间的实数，其指示对象已被准确检测到的百分比或概率。

对象检测器208可根据各种跟踪到的参数执行对象检测，所述参数包含区域、目标大小、窗大小、尺度水平、窗位置和一或多个置信度值。一旦视频帧的窗或窗子集被搜索并且对象检测器208获得用于每个搜索过的窗的二进制值，对象检测器208就可确定窗大小以及当前的视频帧上具有最高置信度的位置或区域。这个位置和窗大小可用于下一次跟踪和检测，以便更准确地跟踪和/或检测目标对象。

如上所述，可由对象检测器208使用各种方法来检测目标对象。在一种配置中，检测目标对象可包含执行针对每个可能的窗位置和每个可能的窗大小处的窗的二进制分类。然而，搜索每个可能的窗消耗许多资源。因此，在另一种配置中，对象检测器可搜索窗位置和窗大小的子集，而不是搜索视频帧中的全部可能的窗。例如，对象检测器208可搜索全部可能的窗的1％。随后，如果检测是不成功的(例如，检测置信度值240小于检测阈值252)，那么可在下一所捕获的帧中搜索窗位置的较高百分比，例如2％。搜索的窗位置百分比的步长可以是均匀、不均匀、慢或快的，即连续帧可具有1％、2％、3％、4％或1％、2％、4％、8％。在一种配置中，响应于高检测置信度值，即，为了确保目标对象时下一视频帧，搜索的帧的百分比可被设置得很高(例如，80％、90％、100％)。例如，响应于超过检测和跟踪阈值256的检测和跟踪置信度值，搜索的帧的百分比可跳到至少80％。或者，百分比可跳到60％、70％、90％等。另外，可使用针对检测和跟踪阈值的任何合适的值，例如0.6、0.65、0.7、0.75、0.8、0.85等。此外，可基于随机化发生器234(随机数字发生器)来随机确定搜索的窗的百分比，例如，可在所捕获的帧中搜索介于1％与15％之间的窗的随机百分比。通过搜索全部窗位置的子集，对象检测可使用电子装置102中的较少资源。

此外，目前的系统和方法可搜索每个位置的窗大小的子集。每个窗大小在本文被称为尺度水平，每个尺度水平对应于特定的窗大小。例如，存在20种可能的尺度水平。不是搜索全部20种尺度水平，而是可在每个窗位置处搜索尺度水平或窗大小的子集。

目前的系统和方法还可使用来自存储器缓冲器210的反馈，以便调整搜索的窗位置和大小。换句话说，最后所捕获的视频帧(在所述视频帧中成功检测到和/或跟踪到目标对象)的位置和大小可用作用于搜索当前的视频帧(N)224的起始点。例如，如果在最近的视频帧中检测到和跟踪到目标对象(即，最近所捕获的视频帧的检测和跟踪置信度值256高于检测和跟踪阈值)，那么扫描器定标器可开始在与最近的帧相关联的位置和大小处搜索当前所捕获的帧。例如，在目标对象移出光学系统的视野或消失在一定距离处的情况下，目标对象更可能以与当目标对象离开光学系统的视野或消失在一定距离处时相同的大小重新出现。因此，当执行对象检测时，大小或大小的范围可被预测用于检测下一视频帧中的目标对象。

此外，在所捕获的视频帧(N)224中搜索的窗位置和窗大小的搜索范围可受限于类似于与最近的视频帧(例如，先前的视频帧(N-1)222))中的目标对象相关联的窗位置和窗大小的那些。如本文所使用，术语“搜索范围”是指在检测和/或跟踪视频帧中的目标对象时可利用的候选窗位置或候选窗大小(或两者)的集合。例如，基于在最近的视频帧中发现目标对象的情况下，搜索的窗位置的子集可以在当前的视频帧(N)224的一部分(例如，当前的视频帧(N)224的四分之一或二分之一)内选择。换句话说，搜索空间可被限制在最后跟踪到或检测到目标对象的位置附近。类似地，可基于窗的大小限制针对每个窗位置搜索的帧的大小，在所述窗中，在最近的视频帧中发现目标对象。例如，如果使用具有尺度水平8的窗在最近的帧中检测到对象，那么扫描器定标器236可仅针对当前的视频帧(N)224选择8加或减3的尺度水平，即，尺度水平5-11。这可进一步消除低概率搜索并且增加对象检测的效率。或者，如果最近的(非当前的)视频帧没有检测目标对象(即，最近的视频帧的检测和跟踪置信度值256低于检测和跟踪阈值)，那么对象检测器208可扩展被搜索的搜索空间(窗位置)，例如，图像的更大范围或整个图像可经受搜索。

对象跟踪和检测模块204可包含使多个窗合并以形成单个窗的融合模块260。初始存在两个置信度值：来自对象检测器208的检测置信度值240和来自运动跟踪器206的跟踪置信度值225。融合模块260可将两个置信度值(例如，挑选更大的一个)组合成检测和跟踪置信度值256。检测和跟踪置信度值256可指示是否在视频帧上识别目标对象。在一种配置中，检测和跟踪置信度值256可以是在0与1之间的实数，其中0指示在特定视频帧中识别到目标对象的最低可能置信度，并且1指示在特定视频帧中识别到目标对象的最高可能置信度。换句话说，检测和跟踪置信度值256可以充当发现目标对象的可能性的总体指示。此外，检测和跟踪置信度值256可以是用于确定窗位置、窗大小或在下一视频帧中搜索的窗百分比的参数。融合模块260可用来将关于当前的视频帧(N)224的信息提供到存储器缓冲器210。在一个实例中，融合模块260可将关于跟踪的窗242的信息(例如，窗位置244、窗大小246等)以及检测和跟踪置信度值256提供到存储器缓冲器210。融合模块260可使用来自运动跟踪器206和对象检测器208的跟踪结果(例如，边界框)来形成组合的跟踪结果(例如，边界框)并且计算检测和跟踪置信度值256。

存储器缓冲器210可存储与先前的视频帧(N-1)222、当前的视频帧(N)224或其它所捕获的视频帧相关联的一或多个值。在一种配置中，存储器缓冲器210存储所捕获的先前的视频帧212，所述视频帧212可包含对应于先前的视频帧(N-1)222的信息。所捕获的先前的视频帧212可包含关于一或多个窗242的信息，包含每个窗242的位置244、窗大小246和二进制决策层248(例如，来自分类器238)。所捕获的先前的视频帧212还可包含跟踪阈值250、检测阈值252以及检测和跟踪阈值254。可将跟踪阈值250提供到运动跟踪器206或对象跟踪和检测模块204(例如，置信级比较器)上的电路，以便确定258跟踪置信级是否大于跟踪阈值250。可将检测阈值252提供到对象检测器208或对象跟踪和检测模块204上的其它电路，以便确定检测置信度值240是否大于检测阈值252。检测和跟踪阈值254可以是基于跟踪阈值250和检测阈值252的组合值。可将检测和跟踪阈值254与检测和跟踪置信度值256进行比较，以便确定基于运动的跟踪和对象检测的组合置信度值。阈值中的每一个可以是基于目标对象处于视频帧内的可能性的。对象跟踪和检测模块204可对当前的视频帧(N)224执行基于运动的跟踪和/或检测，直到获得特定的检测和跟踪置信度值256。此外，可对多个视频帧的序列中的每个视频帧执行基于运动的跟踪和对象检测。

执行基于运动的跟踪和对象检测可包含顺序系执行基于运动的跟踪，之后基于跟踪到的参数进行对象检测。具体地说，目前的系统和方法可实施两步骤跟踪和检测方法。因为基于运动的跟踪是基于场景的相对运动，而不是如对象检测所使用的实际对象识别，所以基于运动的跟踪在电子装置中可能比执行对象检测消耗更少资源。因此，使用运动跟踪器206替代对象检测器208可能是更有效的，其中可准确地跟踪目标对象而无需还执行对象检测。

因此，不与对象检测器208并行使用运动跟踪器206，对象跟踪和检测模块204仅在运动跟踪器206不足的情况下使用对象检测器208，即，运动跟踪和对象检测(如果全部执行)被顺序地执行而不是并行执行。对于执行跟踪的每个视频帧来说，运动跟踪器206可产生跟踪置信度值228，所述跟踪置信度值228可以是在0与1之间的实数，其指示目标对象处于当前的视频帧(N)224中的可能性。

在两步骤跟踪和检测方法的一种配置中，运动跟踪器206可首先对当前的视频帧(N)224执行基于运动的跟踪。运动跟踪器206可基于所述基于运动的跟踪过程来确定跟踪置信度值228。使用由存储器缓冲器210提供的跟踪置信度值228和跟踪阈值250，对象跟踪和检测模块204(例如，置信级比较器)内的电路可确定258跟踪置信度值228是否超过跟踪阈值250。如果跟踪置信度值228大于跟踪阈值250，那么对象跟踪和检测模块204可跳过执行对象检测并且将跟踪结果提供到融合模块260以产生输出262。输出262可包含目标对象处于当前的视频帧(N)224内的指示。此外，输出262可包含关于目标对象的另外的信息。

如果跟踪置信度值228不超过跟踪阈值250，那么对象检测器208随后可对当前的视频帧(N)224执行对象检测。可对当前的视频帧(N)224内的全部窗或窗的子集执行对象检测。对象检测器208还可基于所述基于运动的跟踪结果和/或由存储器缓冲器210提供的信息来选择窗的子集、窗大小或其它检测标准。可基于提供到对象检测器208的一或多个跟踪到的参数来使用或多或少稳定的过程执行对象检测。对象检测器208可确定检测置信度值240并且将检测置信度值240与检测阈值252进行比较。如果检测置信度值240高于检测阈值252，那么对象检测器208可将检测结果提供到融合模块260以产生输出262。输出262可包含目标对象处于当前的视频帧(N)224内的指示和/或包含关于检测到的对象的另外的信息。

或者，如果检测置信度值240小于或等于检测阈值252，那么对象检测器208可使用更稳定的方法来再次执行对象检测，如搜索当前的视频帧(N)224内的较大数目的窗。对象检测器208可重复对象检测的过程，直到获得令人满意的检测置信度值240。一旦获得了令人满意的检测置信度值240，使得能识别当前的视频帧内的目标对象，对象跟踪和检测模块204就可用来对下一视频帧执行跟踪和检测。

图2B示出由处理器264实施的图2A的系统内的一些部件。如图2A中所示，对象跟踪和检测模块204可由处理器264实施。不同处理器可用来实施不同部件(例如，一个处理器可实施运动跟踪器206，另一个处理器可用来实施对象检测器208并且又一个处理器可用来实施存储器缓冲器210)。

图3是示出用于执行基于运动的跟踪和对象检测的方法300的流程图。方法300可以通过电子装置102，例如对象跟踪和检测模块104来实现。电子装置102可以通过将先前的视频帧(N-1)222与当前的视频帧(N)224进行比较，针对当前的视频帧(N)224执行302基于运动的跟踪。跟踪对象可以使用中值流方法通过跟踪多对图像之间的点来执行。也可以使用基于运动的跟踪的其它方法。另外，可以使用关于经由存储器缓冲器110提供的所捕获的先前视频帧112的信息来针对当前的视频帧(N)224执行基于运动的跟踪。

电子设备102可确定304跟踪置信度值228。跟踪置信度值228可指示目标对象已被准确地跟踪的可能性或确定性。电子装置102可确定306跟踪置信度值228是否大于跟踪阈值250。如果跟踪置信度值228大于跟踪阈值250，那么电子装置102可针对下一个视频帧执行308基于运动的跟踪。此外，电子装置102可基于基于运动的跟踪的结果而跳过对当前的视频帧(N)224执行对象检测。换句话说，可以仅在运动跟踪不是非常好时，即在跟踪置信度值228不大于跟踪阈值250的情况下，针对当前的视频帧(N)224执行对象检测。然而，如果跟踪置信度值228不大于跟踪阈值250，那么电子装置102可针对当前的视频帧(N)224执行310对象检测。电子装置102可按顺序执行对象检测和基于运动的跟踪。在一些配置中，对象检测可以不同的稳健性执行多次，以便获得更高的检测置信度值240。

图4是示出用于执行基于运动的跟踪的方法400的流程图。方法400可以通过电子装置102，例如对象跟踪和检测模块104来实现。电子装置102可使用边界框来标识402目标对象。标识402对象可以使用触摸屏116或选择感兴趣的对象的其它输入方法手动地执行。可以类似的方式标识多个对象。此外，可以使用其它输入方法来标识待跟踪的对象。在一个实例中，通过在目标对象周围手动地绘制边界框来标识对象。

电子装置102可以将边界框内的网格上的点初始化404。可以在整个边界框中将网格上的点均匀地隔开。此外，可以在两个图像(例如，先前的视频帧(N-1)222和当前的视频帧(N)224)之间的网格上跟踪406所述点。在一个实例中，通过卢卡斯-卡纳德(Lucas-Kanade)跟踪器来跟踪所述点，所述跟踪器生成图像之间的稀疏运动流。电子装置102可以估计408两个图像(例如，先前的视频帧(N-1)222和当前的视频帧(N)224)之间的跟踪误差。估计408跟踪误差可包含为跟踪点中的每个点指定误差值。此外，估计408跟踪误差可使用多种方法来执行，包含例如向前-向后误差、归一化互相关(NCC)以及方差和。可使用所估计的跟踪误差来获得跟踪置信度值228并且最终确定目标对象在当前的视频帧(N)224中的可能性。在一种配置中，可通过计算当前的视频帧(N)224和先前的视频帧(N-1)222中的跟踪窗之间的归一化互相关(NCC)来获得跟踪置信度值228。跟踪误差还可以使用另外的技术来估计，包含下文结合图5更详细地描述的向前-向后误差估计。此外，电子装置102可以过滤掉410范围之外的点预测。例如，所述电子装置可过滤掉50％的最差预测。剩余的预测可用于估计边界框的位移。

电子装置102可更新412边界框。可执行更新412边界框，使得更新的边界框变成用于下一个视频帧的新边界框。随后可针对下一个视频帧重复基于运动的跟踪过程，或者如果跟踪置信度值228小于或等于跟踪阈值250，那么可针对下一个视频帧停止基于运动的跟踪过程，直到可准确地跟踪目标对象。在一些配置中，其中针对当前的视频帧(N)224的基于运动的跟踪未提供令人满意的结果，电子装置102可对当前的视频帧(N)224执行对象检测以便在定位目标对象方面获得更高的置信度水平。在一些配置中，其中基于运动的跟踪不能提供令人满意的结果(例如，当目标对象移出视频帧的范围时)，可针对任何后续的视频帧执行对象检测，直到检测到目标对象。

图5是示出用于基于向前-向后误差来估计基于运动的跟踪中的跟踪误差的方法500的流程图。方法500可以通过电子装置102(例如对象跟踪和检测模块104)来实现。在一些配置中，电子装置102可计算所跟踪的窗之间的归一化互相关(NCC)。归一化互相关(NCC)可用于确定跟踪置信度值228。电子装置102还可使用互补于归一化互相关(NCC)的各种跟踪误差估计技术(例如，向前-向后误差、方差和)。在使用向前-向后误差估计的实例中，电子装置102可在先前的视频帧(N-1)222与当前的视频帧(N)224之间执行502向前跟踪以便确定向前轨迹。向前跟踪可包含向前跟踪图像达k个步骤。所得的向前轨迹可等于(x_t,x_t+1,...,x_t+k)，其中x_t是时间上的点位置并且k指示图像序列的长度。电子装置102可以在当前的视频帧(N)224与先前的视频帧(N-1)222之间执行504向后跟踪，以便确定向后轨迹。所得的向后轨迹可等于

其中

电子装置102可确定506向前轨迹与向后轨迹之间的向前-向后误差。向前-向后误差可被限定为向前轨迹与向后轨迹之间的距离。此外，可限定各种距离以用于轨迹比较。在一种配置中，可以在确定向前-向后误差时使用验证轨迹的初始点与终点之间的欧几里得(Euclidean)距离。在一种配置中，向前-向后误差可以被用作跟踪误差，所述跟踪误差可用于确定跟踪置信度值228。

图6是示出用于执行对象检测的方法600的流程图。方法600可以通过电子装置102(例如对象跟踪和检测模块104)来实现。电子装置102可以通过搜索当前的视频帧(N)224中的窗位置和大小的子集来对当前的视频帧(N)224执行602对象检测和基于运动的跟踪。

电子设备102可以确定604检测和跟踪置信度值256。检测和跟踪置信度值256可以提供在当前的视频帧(N)224中或在特定窗内发现目标对象的置信度水平。电子装置102还可确定606检测和置信度值256是否大于检测和跟踪阈值254。如果检测和置信度值256大于检测和跟踪阈值254，那么电子装置102可以使用下一个视频帧中的窗和大小的子集来对下一个视频帧执行608对象检测。可替代地，如果检测和置信度值256小于检测和跟踪阈值254，那么电子装置102可以使用下一个视频帧中的窗位置和大小的子集来对下一个视频帧执行610对象检测。在一些配置中，其中置信度值256小于检测和跟踪阈值254，那么电子装置102可以使用下一个视频帧的整个搜索空间和/或所有窗来对下一个视频帧执行610对象检测。

图7是示出可以与本发明的系统和方法一起使用的具有不同窗大小766的图像窗700的框图。具体地说，图7示出一组十个可能的窗大小766a-j。每个窗大小766可对应于尺度水平(例如，1-10)。尽管本文中被示出为矩形，但所搜索的窗可以是任何形状，例如正方形、矩形、圆形、椭圆形、用户定义的等。此外，任何数量的窗大小766或尺度水平可为可用的，例如5、15、20、30个等。

如上所述，搜索范围可以由用于特定位置的窗大小的子集表示，例如在当前视频帧(N)224中搜索到的窗大小可以被限制于类似于与当前帧中的目标对象相关联的窗位置和窗大小的那些。例如，在不具有反馈的情况下，对象检测器208可搜索所有十个窗大小766a-j以便查找每个选择的窗位置。然而，如果使用具有第五个窗大小766e的窗在最近的(非当前的)视频帧中检测到对象，那么扫描器定标器236可以仅选择用于当前所捕获的帧的为5加或减3的窗大小，即窗大小2-8。换句话说，可以基于来自最近或先前的视频帧(N-1)222的反馈来搜索具有第一窗大小766a、第九窗大小766i和第十窗大小766j的窗。这可进一步消除低概率搜索并且提高对象检测的效率。换句话说，使用来自最近的视频帧的反馈可以帮助减少所执行的计算。可替代地，如果最近的视频帧未检测到目标对象(即，用于最近捕获的帧的检测和跟踪置信度值256小于检测和跟踪阈值254)，那么对象检测器208可以不使用大小水平的子集来限制搜索范围。

图8是示出对象跟踪和检测模块804的另一种可能配置的框图。图8中所示的对象跟踪和检测模块804可包含与图2中所示的对象跟踪和检测模块204类似的模块并且执行类似的功能。具体地说，图8中所示的对象检测器808、运动跟踪器806、扫描定位器830、窗位置选择器832、随机化发生器834、扫描器定标器836、分类器838、融合模块860、存储器缓冲器810、所捕获的先前视频帧812、窗842、位置844、大小846、二进制决策848、跟踪阈值850、检测阈值852、检测和跟踪阈值854、检测置信度值840、跟踪置信度值828以及检测和跟踪置信度值856可对应于图2中所示的对象检测器208、运动跟踪器206、扫描定位器230、窗位置选择器232、随机化发生器234、扫描器定标器236、分类器238、融合模块260、存储器缓冲器210、所捕获的先前视频帧212、窗242、位置244、大小246、二进制决策248、跟踪阈值250、检测阈值252、检测和跟踪阈值254、检测置信度值240、跟踪置信度值228以及检测和跟踪置信度值256并且具有与它们类似的功能。

另外，对象跟踪和检测模块804可包含平滑模块861，其用于降低由于目标运动和跟踪误差造成的抖动影响。换句话说，平滑模块861使跟踪结果平滑，从而致使搜索窗在位置(x,y)844和大小(宽度、高度)846两者中具有较平滑的轨迹。平滑模块861可以是简单移动平均线(MA)滤波器或自回归(AR)滤波器。针对位置844和大小846的平滑度可不同。预测滤波器，诸如卡尔曼(Kalman)滤波器也可适用于位置844平滑。因此，平滑模块861可接收未平滑位置863和未平滑大小865作为输入并且输出平滑位置867和平滑大小869。

图9是示出平滑模块961的框图。平滑模块961可用于降低由于目标运动和跟踪误差造成的抖动影响，即，因此跟踪结果(边界框)在位(x,y)置和大小(宽度、高度)中具有较平滑的轨迹。在一种配置中，位置平滑滤波器971和大小平滑滤波器973使用用于接收未平滑位置963和未平滑大小965作为输入并且输出平滑位置967和平滑大小969的自回归(AR)模块来实现。

在自回归(AR)模块中，假定X是待平滑的变量，即位置或大小。此外，令X'为由对象跟踪器实现的X的输出。在这种配置中，在时间t处X的平滑滤波X_t可根据等式(1)进行描述：

X_t＝W*X'_t+(1-W)*X_t-1 (1)

其中是X'_t在时间t处X的跟踪器输出，X_t-1是在时间t-1处X的平滑结果，并且W(0<＝W<＝1)是控制平滑效果的平滑加权。例如，X'_t可以是针对当前视频帧(N)224所选择的窗位置或窗大小并且X_t-1可以是用于先前的视频帧(N-1)222的窗位置或窗大小。

可以针对位置平滑滤波器971和大小平滑滤波器973使用不同的平滑加权W。例如，在一种实现方式中，W_位置＝0.8并且W_大小＝0.4，使得对窗位置具有较小的平滑作用而对窗大小具有较强的平滑作用。平滑加权的选择将产生较小的跟踪延迟和较小的抖动两者。

此外，当检测和跟踪置信度值856低于特定阈值(例如，检测和跟踪阈值854)时，也可以减小平滑加权的选择。当潜在的跟踪或检测误差较高时，这可能导致更强的滤波。例如，响应于低的跟踪置信度(例如，检测和跟踪置信度值856低于检测和跟踪阈值854)，用于位置和大小的平滑加权可分别设定为W_位置＝0.65并且W_大小＝0.2。换句话说，可以减小所述加权中的一或两个，这可能导致相较于当前视频帧的那些，窗位置和大小的选择更严重地依赖于先前视频帧的窗位置和大小。

此外，加权可基于跟踪置信度值828或检测置信度值840而非检测和跟踪置信度值856。例如，平滑加权W_位置和W_大小可响应于跟踪置信度值828低于跟踪阈值850而减小，即，可响应于差的运动跟踪而使用更强的滤波。可替代地，平滑加权可响应于检测置信度值840低于检测阈值852而减小，即，可响应于差的对象检测而使用更强的滤波。

在另一种配置中，可以使用卡尔曼滤波器来使窗位置平滑。在这种配置中，滤波可根据等式(2)-(7)进行限定：

x_k＝F_kx_k-1+w_k (2)

z_k＝Hx_k-1+v_k (3)

其中x_k-1是在时间k-1处的先前状态，x_k是由

限定的当前状态，其中(x,y)是边界框中心位置，

是每个方向上的速度。此外，状态过渡模型F_k和观测模型H可以分别由等式(4)-(5)限定：

其中Δt是可调谐的参数。另外，wk是过程噪声，其假定为根据等式(6)从具有协方差Q(即，w_k～N(0,Q))的零均值多元正态分布得出：

其中σ₁是可调谐的参数。另外，wk是观察噪声，其假定为根据等式(7)从具有协方差R(即，v_k～N(0,R))的零均值高斯白噪声得出：

其中σ₂是可调谐的参数。

图10是示出用于使运动跟踪结果中的抖动平滑的方法1000的流程图。方法1000可由电子装置102、例如电子装置102中的对象跟踪和检测模块804执行。电子装置102可以确定1002与当前的视频帧224相关联的一或多个窗位置以及一或多个窗大小，例如，未平滑位置863以及未平滑大小865。电子装置102还可滤波1004一或多个窗位置以及一或多个窗大小以便产生一或多个平滑的窗位置867以及一或多个平滑的窗大小869。例如，这可包含使用移动平动滤波器、自动回归滤波器、或卡尔曼滤波器。在一个配置中，响应低跟踪置信度(例如，检测和跟踪置信度值856低于检测和跟踪阈值854)，用于位置和大小的平滑加权可以减小。可替代地，平滑加权可以基于检测置信度值840或跟踪置信度值828减小。电子装置还可使用一或多个平滑的窗位置867以及一或多个平滑大小869检测1006当前的视频帧224内的目标对象。

图11是用于使用对象跟踪执行图片处理的方法1100的流程图。方法1100可由电子装置102执行。电子装置102可以获得1102第一跟踪区域133。电子装置102可以获得1104第二跟踪区域135。在一个配置中，每个跟踪区域可由电子装置102使用触摸屏116或取景器131获得。举例来说，第二跟踪区域135可以覆盖整个取景器131。

触摸屏116内的区域(通常为正方形或圆形的，但是也可使用其它形状)可由用户限定。这个区域可被称为跟踪区域或聚焦环。该聚焦环可为用户接口UI元素，其允许电子装置102的用户快速选择将要跟踪的对象或区域。举例来说，用户可将聚焦环放置于区域或对象上，由此将聚焦环附至对象。在用户手指从触摸屏拿开时，聚焦环可开始跟踪对象。

聚焦环可改变外观，这取决于对象跟踪状态(例如，对象正被跟踪、对象未被跟踪、跟踪但对象已丢失)。该聚焦环可重新设定大小或更改形状(例如，从圆形至椭圆形或至正方形)，以便使得能够跟踪任意形状对象。在一个配置中，触摸跟踪对象上的聚焦环可致使电子装置102停止跟踪这个对象。聚焦环可围绕触摸屏116或取景器131跟随对象。

电子装置102可以开始跟踪1106第一跟踪区域133。电子装置102还可开始跟踪1108第二跟踪区域135。电子装置102可以在第一跟踪区域133与第二跟踪区域135的重叠143超过阈值145时，执行图片处理1110。根据配置，图片处理可在重叠143趋于高于阈值145或重叠143趋于低于阈值145时发生。图片处理可以包含拍摄照片和/或执行视频编辑(例如，从视频帧移除对象)。

图12A示出使用对象跟踪的图片处理的一个实例。示出多个帧1253a-b。帧1253可为预录视频序列147或通过取景器131查看的现场帧的一部分。在帧m 1253a中，第一跟踪区域1233a示为围绕行走的人，并且第二跟踪区域1235a示为围绕静止的树。用户可能希望在行走的人处于静止的树前方时拍摄照片149。在帧m 1253a中，第一跟踪区域1233a并不重叠第一跟踪区域1235a(即，重叠143是0％)。电子装置102可配置来在重叠143达到50％时执行图片处理。在这种配置中，电子装置102可配置来在重叠143达到50％时拍摄照片149。

在帧n 1253b中，自帧m 1253a起已经过了一段时间。第一跟踪区域1233b保留在行走的人上，并且第二跟踪区域1235b保留在静止的树上。由于行走的人已经移动，因此，第一跟踪区域1233b现在与第二跟踪区域1235b的重叠1243a超过50％。因此，在重叠1243a达到50％时，电子装置102被配置成拍摄照片149(在这种情况下，拍摄静止的树前方的人的照片149)。

图12B同样示出使用对象跟踪的图片处理的实例。示出多个帧1253c-b。帧1253可为预录视频序列147或通过取景器131查看的现场帧的一部分。在帧m 1253c中，第一跟踪区域1233c示为围绕行走的人，并且动作线1287示为位于静止的树附近。动作线1287可为竖直线、水平线，或是其它类型的线(例如，曲线)。第一踪区域1233c和动作线1287两者可由用户设置。用户可希望在行走的人穿过动作线1287时(即，在发生重叠1243b时)来拍摄照片(或一系列照片)或执行视频处理。

在帧n 1253d中，自帧m 1253c起已经过了一段时间。第一跟踪区域1233d保留在行走的人上，并且动作线1287保留位于静止的树附近。由于行走的人已经移动，因此，第一跟踪区域1233d现在重叠1243b动作线1287。在第一跟踪区域1233d穿过动作线1287时，电子装置102可配置成拍摄照片149或执行其它图片处理。

图13示出使用对象跟踪的图片处理的另一实例。示出多个帧1253a-b。帧1253可为预录视频序列147或通过取景器131查看的现场帧的一部分。在帧n 1353a中，第一跟踪区域1333a示为围绕行走的人，并且第二跟踪区域1335a示为围绕静止的树以及围绕树的区域。用户可希望在行走的人不再位于视野中时拍摄照片149(例如，外景拍摄)。在帧m 1353a中，第二跟踪区域1335a完全重叠第一跟踪区域1333a(即，重叠1343是100％)。电子装置102可配置来在重叠1343达到0％时执行图片处理。在这种配置中，电子装置102可配置来在重叠1343达到0％时拍摄照片149。

在帧n 1353b中，自帧m 1353a起已经过了一段时间。第一跟踪区域1333b保留在行走的人上，并且第二跟踪区域1335b保留在静止的树上。由于行走的人已经移动，因此，第一跟踪区域1333a不再重叠第二跟踪区域1335b。因此，在重叠1343达到0％时，电子装置102被配置成拍摄照片149(在这种情况下，拍摄静止的树而非行走的人的照片149)。

图14是用于使用对象跟踪在视频序列147上执行图片处理的方法1400的流程图。方法1400可由电子装置102执行。用户可以在电子装置102上选择多个跟踪区域以供用于图片处理。电子装置102可以确定1402在视频序列147的第一帧中第一跟踪区域133与第二跟踪区域135的重叠143超过阈值145。电子装置102可从视频序列147选择1404第二帧。该第二帧可选择为使得第二帧的第一跟踪区域133与对应于第一帧的第一跟踪区域133的第二帧的替代区域不重叠。第二帧的替代区域可反映出第一跟踪区域133在第一帧中的位置。因此，替代区域可显示出第一跟踪区域133后方背景。该第二帧可以是在第一帧前或后发生的帧。

电子装置102可以利用第二帧的对应替代区域替代1406第一帧的第一跟踪区域133。电子装置102可以存储1408编辑过的第一帧来作为编辑过的视频序列151的一部分。

图15示出电子装置102上显示的未编辑的视频序列1547和编辑过的视频序列1551两者的多个帧1553a-d。使用对象跟踪来进行的图片处理可对未编辑的视频序列1547执行，以便获得编辑过的视频序列1551。示出未编辑的视频序列1547的帧m1553a、帧n 1553b、以及帧o 1553c。虽然帧1553a-c是顺序的(帧n 1553b在帧m1553a后出现)，另外的帧(未示出)可也发生于帧1553a-c之间(例如，帧n 1553b可能并非在m 1553a后的中间帧)。

帧m 1553a包含行走的人以及静止的树。用户可以使用电子装置102选择包含行走的人的第一跟踪区域1533a以及包含静止的树和行走的人的第二跟踪区域1535a。在一个配置中，第二跟踪区域1535a可配置为是静止的。用户还可配置电子装置102将行走的人从未编辑的视频序列1547移除。

图片处理可配置成在第一跟踪区域1533不与第二跟踪区域1535重叠时，利用来自另一帧1553的替代区域1555替代帧m 1553a的第一跟踪区域1533a。换句话说，在行走的人已充分地移动而暴露出背景时，帧m 1553a中的行走的人可用行走的人后方的背景来替代。在这个配置中，图片处理可以在重叠143达到0％时执行。

帧n 1553b包含行走的人(被移动的第一跟踪区域1533b包围)以及静止的树(被静止的第二跟踪区域1535b包围)。由于帧n 1553b的第一跟踪区域1533b重叠帧n 1553b的第二跟踪区域1535b，因此可不将帧n 1553b选择为用于帧n 1553b的替代的合适的帧。

帧o 1553c包含行走的人(被移动的第一跟踪区域1533c包围)以及静止的树(被静止的第二跟踪区域1535c包围)。由于帧o 1553c的第一跟踪区域1533c重叠帧o 1553c的第二跟踪区域1535c，因此帧o 1553c可选择来用于帧m 1553a的替代。帧o 1553c包含替代区域1555。替代区域1555可对应于帧m 1553a的第一跟踪区域1533a。因此，替代区域1555可以包含在帧m 1553a中行走的人后方被阻挡的背景。图片处理可用帧o 1553c的替代区域1555替代帧m 1553a的第一跟踪区域1533a。因此，在编辑过的视频序列1551中，帧m 1553d示为其中行走的人已被移除。

图16示出可包含在电子装置1602内的某些组件。电子装置1602可以是移动站、用户设备(UE)、接入点等，例如图1所示电子装置102。电子装置1602包含处理器1603。处理器1603可为通用单芯片或多芯片式微处理器(例如，ARM)、专用微处理器(例如，数字信号处理器DSP)、微控制器、可编程门阵列等等。处理器1603可被称为中央处理单元CPU。虽然在电子装置1602中仅仅示出单处理器1603，但是在替代配置中，可以使用处理器1603的组合。

电子装置1602还包含了处理器1605。存储器1605可以是能够存储电子信息的任何电子组件。存储器1605可实施为随机存取存储器RAM、只读存储器ROM、磁盘存储媒体、光学存储媒体、在随机存取存储器中的闪存装置、包含有处理器的板上存储器、EPROM存储器、EEPROM存储器、寄存器等，包含以上各项的组合。

数据1607a和指令1609a可存储在存储其1605中。指令1609a可由处理器1603执行，以便实施本文所揭示的方法。执行指令1609a可以涉及使用存储器1605中存储的数据1607a。当处理器1603执行指令1609a时，指令1609b的各种部分可加载至处理器1603，并且数据1607a的各种片段可加载至处理器1603。

电子装置1602还可包含发射器1611和接收器1613以允许向电子装置1602传输信号和从所述电子装置接收信号。发射器1611和接收器1613可统称为收发器1615。天线1617可被电耦接至收发器1615。电子装置还可包含(未示出)多个发射器、多个接收器、多个收发器和/或另外天线。

电子装置1602可以包含数字信号处理器DSP 1621。电子装置1602还可包含通信接口1623。通信接口1623可允许用户与电子装置1602交互。

电子装置1602的各种组件可由一或多个总线来耦接在一起，所述一或多个总线可以包含功率总线、控制信号总线、状态信号总线、数据总线等等。为了清楚起见，各种总线在图16中示为总线系统1619。

本文所述技术可以用于各种通信系统，包含基于正交多路复用方案的通信系统。此类通信系统实例包含正交频分多址接入(OFDMA)系统、单载波频分多址接入(SC-FDMA)等。正交频分多址接入系统利用正交频分多路复用(OFDM)，其为将整个系统带宽划分为多个正交子载波的调制技术。这些子载波又可被称为音调、频段等等。利用正交频分多路复用，每一个子载波可利用数据独立地调制。单载波频分多址接入系统可以利用交错频分多址接入(IFDMA)在分布于系统带宽上的子载波上进行传输，利用定域频分多址接入(LFDMA)在一组相邻的子载波上进行传输，或是利用增强频分多址接入(EFDMA)在多组相邻的子载波上进行传输。一般来说，调制符号利用正交频分多路复用在频域中进行发送，并且利用单载波频分多址接入在时域中进行发送。

根据本揭示案，电子装置中的电路可适配来通过将先前的视频帧与当前的视频帧进行比较而来执行针对当前的视频帧的基于运动的跟踪。相同电路、不同电路、或相同或不同电路的第二部分可适配来基于跟踪到的参数在当前的视频帧中执行对象检测。第二部分可以有利地耦接至第一部分，或其可以作为第一部分实施于相同电路中。另外，相同电路、不同电路、或相同或不同电路的第三部分可适配来控制提供上述功能的电路或电路的部分的配置。

术语“确定”涵盖各种各样的动作，并且因此“确定”可以包含核算、计算、处理、推导、调查、查找(例如，在表、数据库或另一数据结构中进行查找)、推断等等。另外，“确定”可以包含接收(例如，接收信息)、评估(例如，评估在存储器中的数据)等等。另外，“确定”可以包含解析、选择、选取、建立等等。

词语“基于”不意味着“仅仅基于”，除非另外明确指明。换句话说，词语“基于”描述“仅仅基于”和“至少基于”这两者。

术语“处理器”应当广义地解释为涵盖通用处理器、中央处理单元(CPU)、微处理器、数字信号处理器(DSP)、控制器、微控制器、状态机等。在一些情况下，“处理器”可指专用集成电路(ASIC)、可编程的逻辑装置(PLD)、现场可编程门阵列(FPGA)等等。术语“处理器”可指处理装置组合，例如，数字信号处理器和微处理器的组合、多个微处理器、一或多个微处理器结合数字信号处理器芯、或任何其它此类配置。

术语“存储器”应当广义地解释为涵盖能够存储电子信息的任何电子组件。术语“存储器”可指各种类型处理器可读的媒体，例如随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存、磁或光学数据存储装置、寄存器等。如果处理器可从存储器读出信息和/或向存储器写入信息，那么就认为存储器与处理器电子通信。集成至处理器成的存储器与处理器电子通信。

术语“指令”和“代码”应当广义地解释为包含任何类型计算机可读的语句。例如，术语“指令”和“代码”可指一或多个程序、例程、子例程、功能、过程等。“指令”和“代码”可包括单个计算机可读的语句或许多计算机可读的语句。

本文所述功能可以将由硬件执行的软件或固件实施。功能可以作为一或多个指令来存储在计算机可读媒体上。术语“计算机可读媒体”或“计算机程序产品”是指可由计算机或处理器访问的任何有形存储媒体。举例来说，但非限制，计算机可读媒体可包括随机存取存储器、只读存储器、可擦除可编程只读存储器、CD-ROM、或其它光盘存储装置、磁盘存储装置、或其它磁性存储装置，或可用于携载或存储呈指令或数据结构形式的所需程序代码并可由计算机来访问的任何其它媒体。如本文所使用的磁盘和光盘包含压缩盘(CD)、激光盘、光盘、数字通用盘(DVD)、软盘、以及

光盘，其中磁盘通常磁性再现数据，而光盘则利用激光光学再现数据。应当注意，计算机可读媒体可为有形且非暂态的。术语“计算机程序产品”是指结合可由计算装置或处理器执行、处理或计算的代码或指令(例如，“程序”)的计算装置或处理器。如本文所使用，术语“代码”可指可由计算装置或处理器来执行的软件、指令、代码、或数据。

软件或指令还可经由传输媒体传输。例如，如果软件是使用同轴线缆、光纤线缆、双绞线、数字订户线路(DSL)、或无线技术(例如红外、无线电和微波)从网站、服务器或其它远程来源传输，那么同轴线缆、光纤线缆、双绞线、数字订户线路、或无线技术(例如红外、无线电和微波)可包含于传输媒体的定义中。

本文所揭示的方法包括用于实现所述方法的一或多个步骤或动作。在不背离权利要求范围的情况下，可将方法步骤和/或动作彼此互换。换句话说，除非需要特定步骤次序来实现所述方法的正确操作，否则在不背离权利要求范围的情况下，可对特定步骤和/或动作的次序和/或使用进行修改。

此外，应当了解，用于执行本文所述方法和技术的模块和/或其它适当装置(例如图2A、2B、3-6、10、11和14所示那些)可由装置下载和/或以其它方式来获得。例如，装置可耦接值服务器以促成用于执行本文所述方法的装置进行传送。可替代地，本文所述各种方法可以经由存储装置(例如，随机存取存储器(RAM)、只读存储器(ROM)、物理存储媒体如压缩盘(CD)或软盘等)提供，使得装置能够在存储装置耦接或提供至所述装置时获得各种方法。

应当理解，权利要求并不限于以上所说明的精确配置以及组件。在不背离权利要求范围的情况下，可对本文所述系统、方法、以及设备的布置、操作和细节做出各种修改、改变、以及变化。

Claims

1.一种方法，其包括：

跟踪第一跟踪区域；

跟踪第二跟踪区域，其中所述第二跟踪区域包括动作线；

在第一帧中确定所述第一帧中的所述第一跟踪区域和所述第一帧中的所述第二跟踪区域之间的重叠的量；以及

响应于确定所述重叠的量超过阈值而执行图片处理。

2.根据权利要求1所述的方法，其中一旦所述重叠的量变得大于所述阈值，则执行所述图片处理。

3.根据权利要求1所述的方法，其中一旦所述重叠的量变得小于所述阈值，则执行所述图片处理。

4.根据权利要求1所述的方法，其中确定所述重叠的量基于所述第一跟踪区域是否大于所述第二跟踪区域。

5.根据权利要求1所述的方法，其中所述图片处理包括捕获照片。

6.根据权利要求5所述的方法，其中所述照片是从现场镜头捕获的。

7.根据权利要求1所述的方法，其中所述图片处理包括编辑视频序列。

8.根据权利要求7所述的方法，其中编辑所述视频序列包含从所述视频序列中移除在所述第一跟踪区域内被跟踪的对象。

9.根据权利要求8所述的方法，其进一步包括：

选择所述视频序列的第二帧，其中所述第一跟踪区域与对应替代区域在所述第二帧中并不重叠；以及

利用来自所述第二帧的所述对应替代区域替代在所述第一帧中的所述第一跟踪区域。

10.根据权利要求9所述的方法，其中所述第二帧晚于所述第一帧出现。

11.根据权利要求9所述的方法，其中所述第二帧早于所述第一帧出现。

12.根据权利要求9所述的方法，其进一步包括：

存储所述第一帧来作为编辑过的视频序列的一部分。

13.根据权利要求1所述的方法，其进一步包括接收所述第一跟踪区域的第一用户选择。

14.根据权利要求13所述的方法，其进一步包括接收所述第二跟踪区域的第二用户选择。

15.根据权利要求13所述的方法，其中所述第一用户选择基于形状。

16.根据权利要求15所述的方法，其中所述形状由用户选择。

17.根据权利要求13所述的方法，其中所述第一用户选择基于对象的选择。

18.根据权利要求1所述的方法，其中与所述第一跟踪区域和所述第二跟踪区域中的至少一者相关联的形状基于所述第一跟踪区域和所述第二跟踪区域中的至少一者的状态而改变。

19.根据权利要求1所述的方法，其中在所述第一跟踪区域穿过所述动作线时，所述重叠的量超过所述阈值。

20.根据权利要求19所述的方法，其中所述动作线由用户设置。

21.一种装置，其包括：

存储器；及

耦合到所述存储器的处理器，所述处理器经配置以：

跟踪第一跟踪区域；

跟踪第二跟踪区域，其中所述第二跟踪区域包括动作线；

响应于确定所述重叠的量超过阈值而执行图片处理。

22.根据权利要求21所述的装置，其中一旦所述重叠的量变得大于所述阈值，则执行所述图片处理。

23.根据权利要求21所述的装置，其中一旦所述重叠的量变得小于所述阈值，则执行所述图片处理。

24.根据权利要求21所述的装置，其中确定所述重叠的量基于所述第一跟踪区域是否大于所述第二跟踪区域。

25.根据权利要求21所述的装置，其中所述图片处理包括捕获照片。

26.根据权利要求25所述的装置，其中所述照片是从现场镜头捕获的。

27.根据权利要求21所述的装置，其中所述图片处理包括编辑视频序列。

28.根据权利要求27所述的装置，其中编辑所述视频序列包含从所述视频序列中移除在所述第一跟踪区域内被跟踪的对象。

29.根据权利要求28所述的装置，其中所述处理器进一步经配置以：

30.根据权利要求29所述的装置，其中所述第二帧晚于所述第一帧出现。

31.根据权利要求29所述的装置，其中所述第二帧早于所述第一帧出现。

32.根据权利要求29所述的装置，其中所述处理器进一步经配置以：

存储所述第一帧来作为编辑过的视频序列的一部分。

33.根据权利要求21所述的装置，其中所述处理器进一步经配置以：

接收所述第一跟踪区域的第一用户选择。

34.根据权利要求33所述的装置，其中所述处理器进一步经配置以：

接收所述第二跟踪区域的第二用户选择。

35.根据权利要求33所述的装置，其中所述第一用户选择基于形状。

36.根据权利要求35所述的装置，其中所述形状由用户选择。

37.根据权利要求33所述的装置，其中所述第一用户选择基于对象的选择。

38.根据权利要求21所述的装置，其中与所述第一跟踪区域和所述第二跟踪区域中的至少一者相关联的形状基于所述第一跟踪区域和所述第二跟踪区域中的至少一者的状态而改变。

39.根据权利要求21所述的装置，其中在所述第一跟踪区域穿过所述动作线时，所述重叠的量超过所述阈值。

40.根据权利要求39所述的装置，其中所述动作线由用户设置。

41.一种设备，其包括：

用于跟踪第一跟踪区域的装置；

用于跟踪第二跟踪区域的装置，其中所述第二跟踪区域包括动作线；

用于在第一帧中确定所述第一帧中的所述第一跟踪区域和所述第一帧中的所述第二跟踪区域之间的重叠的量的装置；以及

用于响应于确定所述重叠的量超过阈值而执行图片处理的装置。

42.一种计算机程序产品，其包括其上存储有指令的非暂态计算机可读介质，，所述指令包括：

用于致使装置跟踪第一跟踪区域的代码；

用于致使装置跟踪第二跟踪区域的代码，其中所述第二跟踪区域包括动作线；

用于致使装置在第一帧中确定所述第一帧中的所述第一跟踪区域和所述第一帧中的所述第二跟踪区域之间的重叠的量的代码；以及

用于致使装置响应于确定所述重叠的量超过阈值而执行图片处理的代码。