CN107851318A

CN107851318A - 用于对象跟踪的系统和方法

Info

Publication number: CN107851318A
Application number: CN201680046425.3A
Authority: CN
Inventors: 任剑锋; 郭烽; 杨瑞多
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2015-08-18
Filing date: 2016-07-06
Publication date: 2018-03-27
Anticipated expiration: 2036-07-06
Also published as: EP3338248B1; EP3338248A1; US10586102B2; KR20180042254A; US20170053167A1; CN107851318B; JP2018523877A; WO2017034683A1

Abstract

本发明描述一种由电子装置执行的方法。所述方法包含获得场景的第一帧。所述方法还包含在所述第一帧的第一限界区内执行至少一个对象的对象辨识。所述方法进一步包含在所述第一帧的所述第一限界区内执行所述至少一个对象的对象跟踪。所述方法另外包含基于所述对象跟踪而确定第二帧的第二限界区。所述第二帧在所述第一帧之后。所述方法还包含基于预定对象模型而确定所述第二限界区是否为有效的。

Description

用于对象跟踪的系统和方法

技术领域

本发明大体上涉及电子装置。更确切地说，本发明涉及用于对象跟踪的系统和方法。

背景技术

一些电子装置(例如相机、视频摄录影机、数码相机、蜂窝式电话、智能电话、计算机、电视、汽车、个人相机、动作摄像机、监控摄像机、安装的摄像头、连接的摄像机、机器人、遥控飞机、智能应用程序、医疗保健设备、机顶盒等)捕获和/或使用图像。举例来说，智能电话可以捕获和/或处理静态图像和/或视频图像。处理图像可能需要相对较大量的时间、存储器和能量资源。所需要的资源根据处理的复杂度可能不同。

可能难以在图像中检测和/或跟踪对象。举例来说，在一些情况下，跟踪可能丢失。如可从此论述观察到，改进图像处理的系统和方法可为有益的。

发明内容

所述方法可包含执行所述至少一个对象的对象检测。所述方法还可包含获得对应于对象的预定对象模型。

所述方法可包含基于第一限界区而提取一或多个特征。所述方法还可包含基于所述一或多个特征而更新对象跟踪。

所述方法可包含如果第二限界区无效则确定对象是否在第二限界区内。所述方法还可包含如果对象在第二限界区内则精炼第二限界区。精炼第二限界区可包含对第二限界区调整大小以排除并不对应于对象的一或多个像素。所述方法可包含如果对象不在第二限界区内则在第二帧之后的第三帧中检测所述对象。

所述方法可包含基于对象而执行辅助驾驶。所述方法还可包含获得对应于对象的预定对象模型。获得预定对象模型可包含从预定对象模型选择所述预定对象模型。预定对象模型中的至少一者可包含交通标志的预定对象模型。

还描述一种电子装置。所述电子装置包含处理器。所述处理器经配置以获得场景的第一帧。所述处理器还经配置以在第一帧的第一限界区内执行至少一个对象的对象辨识。所述处理器进一步经配置以在第一帧的第一限界区内执行所述至少一个对象的对象跟踪。所述处理器另外经配置以基于对象跟踪而确定第二帧的第二限界区。所述第二帧在所述第一帧之后。所述处理器还经配置以基于预定对象模型而确定第二限界区是否为有效的。

还描述了一种计算机程序产品。所述计算机程序产品包含具有指令的非暂时性有形计算机可读媒体。所述指令包含用于致使电子装置获得场景的第一帧的代码。所述指令还包含用于致使电子装置在第一帧的第一限界区内执行至少一个对象的对象辨识的代码。所述指令进一步包含用于致使电子装置在第一帧的第一限界区内执行所述至少一个对象的对象跟踪的代码。所述指令另外包含用于致使电子装置基于对象跟踪而确定第二帧的第二限界区的代码。所述第二帧在所述第一帧之后。所述指令还包含用于致使电子装置基于预定对象模型而确定第二限界区是否为有效的代码。

还描述一种设备。所述设备包含用于获得场景的第一帧的装置。所述设备还包含用于在第一帧的第一限界区内执行至少一个对象的对象辨识的装置。所述设备进一步包含用于在第一帧的第一限界区内执行所述至少一个对象的对象跟踪的装置。所述设备另外包含用于基于对象跟踪而确定第二帧的第二限界区的装置。所述第二帧在所述第一帧之后。所述设备还包含用于基于预定对象模型而确定第二限界区是否为有效的装置。

附图说明

图1是说明用于跟踪和检测目标对象的电子装置的框图；

图2是说明对象跟踪和检测模块的框图；

图3是说明用于执行基于运动跟踪和对象检测的方法的流程图；

图4是说明用于执行基于运动的跟踪的方法的流程图；

图5是说明用于基于前向-后向误差而估计基于运动的跟踪中的跟踪误差的方法的配置的流程图；

图6是说明用于执行对象检测和跟踪的方法的流程图；

图7A是说明可与本发明系统和方法一起使用的具有不同窗口大小的图像窗口的框图；

图7B是说明可与本发明的系统和方法一起使用的若干实例图像和窗口的图；

图8是说明对象跟踪和检测模块的另一可能配置的框图；

图9是说明平滑模块的框图；

图10是说明用于平滑运动跟踪结果中的抖动的方法的流程图；

图11是说明滑动窗口和扫描步长窗口的实例的图式；

图12说明图像中的对象的实例；

图13是说明其中可实施用于对象跟踪的系统和方法的电子装置的一个实例的框图；

图14是说明用于对象跟踪的方法的一个配置的流程图；

图15是说明用于对象跟踪的方法的更特定配置的实例的流程图；

图16说明其中可实施用于对象跟踪的系统和方法的电子装置的实例；以及

图17说明可包含于电子装置内的某些组件。

具体实施方式

对象跟踪可包含定位一系列图像(例如，从帧到帧)中的目标。使用相机跟踪一系列图像(例如，图像数据、图像帧、视频等)和/或那些图像中的用户定义的关注区中的对象可为困难的。可能需要实时性能管理(约30帧每秒(fps))。一些配置可组合基于光流跟踪器与基于图像内容检测器的输出以获得稳健的跟踪。然而，现有算法的计算使得难以实现实时性能。

本发明的系统和方法可实施以下技术中的一或多种以改善跟踪和检测算法的速度：(1)在每一帧使用可能的检测(例如，扫描)窗口的一部分(例如，随机选择窗口位置或利用扫描模式)；(2)仅选择在尺度上接近于对应于先前所检测目标大小的尺度的有限范围的空间尺度(例如，仅可用空间尺度的子集)用于对象检测；(3)基于先前跟踪的置信度值，确定在部分图像或整个图像中搜索对象；(4)基于先前跟踪结果动态地调整检测窗口的数目；(5)循序地执行跟踪和检测(例如，首先应用跟踪器，因为其计算上成本较低)；(6)仅当跟踪器的置信度低于阈值时运行对象检测器；以及(7)设定与图像位置的总数目成比例的数目的扫描步长。本发明方法和系统的优点中的一个在于减少用于跟踪和/或检测目标对象的计算。

如本文中所使用，术语“跟踪”及其变化形式是指基于运动的过程，而不识别特定对象。举例来说，对象跟踪和检测模块可逐帧跟踪运动，并基于电子装置的移动(例如，如果相机摇摄)或对象的逐帧移动来确定目标对象的位置、大小或帧。术语“检测”及其变化形式是指例如通过将帧的一部分与参考图像进行比较来尝试识别目标对象和/或目标对象的类型的过程。举例来说，对象跟踪和检测模块可比较所捕获帧的部分与(目标对象的)参考图像以尝试识别目标对象。在一个实例中，当可不再跟踪目标时(例如，如果对象落于视野外部)可使用检测。下文更详细地解释执行基于运动的跟踪和对象检测的系统和方法。

图1为说明用于跟踪和检测目标对象的电子装置102的框图。电子装置102的实例包含膝上型或桌上型计算机、蜂窝式电话、智能电话、无线调制解调器、电子阅读器、平板裝置、游戏系统、机器人、飞机、无人机(UAV)、汽车、可穿戴裝置、个人相机、运动型相机、安装相机等。这些装置中的一些可以根据一或多种行业标准操作。

举例来说，例如智能电话或平板计算机等电子装置102可包含相机。相机可包含图像传感器114以及将位于光学系统118的视场内的对象的图像聚焦于图像传感器114上的光学系统118(例如，透镜)。电子装置102还可包含相机软件应用程序和显示屏幕。当相机应用程序正在运行时，位于光学系统118的视场内的对象的图像可由图像传感器114记录，且可在显示屏幕上显示。可以可互换地以术语一或多个图像和/或视频帧来描述本发明的系统和方法。

相机应用程序的用户接口120可准许跟踪显示于显示屏幕上的一或多个对象。可准许电子装置102的用户选择将跟踪和/或检测的对象。另外或替代地，待跟踪对象(例如，面部、眼睛、人员、形状、箱子等)可以预先确定和/或可以符合于模型。

在一个配置中，显示器为从物理触摸(例如，通过手指、触控笔或其它工具)接收输入的触摸屏116。在一些配置中，触摸屏116可接收触摸输入(例如，触摸点、所绘制的围封体，例如圆或框)，其定义将跟踪和/或检测的目标对象。在一些配置中，电子装置102可自动确定用于跟踪和/或检测的目标对象。在一些配置中，可跟踪多个对象。

电子装置102可包含用于跟踪所选择对象和/或在视频帧中检测对象的对象跟踪和检测模块104。对象跟踪和检测模块104可包含：用于跟踪一或多个对象的运动跟踪器106，和/或用于检测视频帧上的对象的对象检测器108。

运动跟踪器106可基于运动以用于逐帧跟踪图像(例如，视频帧)上的点的运动以估计目标对象在先前视频帧与当前视频帧之间的位置和/或位置改变。对象检测器108可使用对象模型而非基于运动的模型，以通过将当前视频帧的全部或一部分与(例如，视频帧序列中)所捕获先前视频帧112的选定对象或部分进行比较来检测对象。对象检测器108可用于检测视频帧内的多个对象。在一些配置中，对象检测器108可扫描一或多个帧和/或图像以便检测特定对象。对象检测器108可扫描一或多个帧，如本文所述。

对象跟踪和检测模块104还可以包含存储器缓冲器110。存储器缓冲器110可存储一或多个所捕获帧以及与所捕获的视频帧相关联的数据。在一个实例中，存储器缓冲器110可存储先前所捕获的视频帧112。对象跟踪和检测模块104可使用从存储器缓冲器110提供的关于所捕获先前视频帧112的数据来执行基于运动的跟踪和/或对象检测。在一些配置中，存储器缓冲器110可将位置和窗口大小数据提供到运动跟踪器106，且对象检测器108可向运动跟踪器106和对象检测器108提供可用于更准确跟踪和/或检测对象的一或多个参数。

电子装置102可执行基于运动的跟踪。一个方法是中值流方法，其中运动跟踪器106接受一对图像I_t、I_t+1(例如，视频帧)和限界框β_t且输出限界框β_t+1。可在限界框β_t内的矩形网格上初始化点集合，并跟踪所述点以在I_t与I_t+1之间产生稀疏运动流。可估计点预测的质量并为每个点指派误差。可滤除最差预测的一部分(例如，50％)，同时将剩余预测用于估计整个限界框的移位。运动跟踪器106可对由电子装置102捕获的每一视频帧执行基于运动的跟踪。在另一方法中，可通过计算一或多个梯度(例如，x和y梯度)且使用一对帧之间的差来计算时间梯度并使用多个梯度值来准确地跟踪当前视频帧内的目标对象而执行基于运动的跟踪。下文进一步提供关于基于运动跟踪的细节。

当执行基于运动的跟踪时，运动跟踪器106可基于运动跟踪方法的所计算或所估计的准确性来确定跟踪置信度值(例如，介于0与1之间)。所述跟踪置信度值可指示目标对象落在当前视频帧或所述视频帧的限定窗口内的可能性或概率。如果跟踪置信度值大于跟踪阈值，那么发现目标对象处于当前视频帧内的可能性可为较高的。否则，可能性可为低或不确定是否在当前视频帧内发现目标对象。可使用用于确定跟踪置信度值的各种方法(例如，计算当前视频帧中的所跟踪窗口(例如，跟踪片窗口)与来自先前所捕获的视频帧的先前所存储的图像片之间的经正规化的交叉相关(NCC))。

电子装置102也可执行对象检测。可使用多种方法(例如，扫描窗口、扫描步长等)来执行对象检测。举例来说，可在视频帧中搜索所有可能窗口位置和大小的全部或子集。

在一些配置中，运动跟踪器106和对象检测器108可依序而非并行操作。举例来说，电子装置102可执行选定对象(例如，目标对象)的基于运动的跟踪，且基于一或多个所跟踪参数(例如，目标对象的区、窗口位置、窗口大小、尺度水平、目标大小、跟踪和/或检测置信度值或其它参数)而循序地执行选定对象的对象检测。举例来说，如果跟踪置信度值低于跟踪阈值，那么电子装置102可执行对象检测。替代地，如果跟踪置信度值高于跟踪阈值，那么电子装置102可跳过当前视频帧的对象检测并基于当前视频帧的运动跟踪结果继续对下一视频帧执行基于运动的跟踪。因为相比对象检测，基于运动跟踪可能计算密集性较小，所以电子装置102可跳过执行对象检测，其中基于运动的跟踪可用于准确地跟踪当前视频帧内的目标对象。

图2是说明对象跟踪和检测模块204的框图。对象跟踪和检测模块204可在电子或无线装置(例如，电子装置102)内实施。对象跟踪和检测模块204可包含具有光流模块226和跟踪置信度值228的运动跟踪器206。对象跟踪和检测模块204还可包含具有检测置信度值240的对象检测器208。存储器缓冲器210可存储可提供到运动跟踪器206和对象检测器208的与所捕获先前视频帧212相关联的数据。对象跟踪和检测模块204、运动跟踪器206、对象检测器208和存储器缓冲器210可为上文结合图1所述的对应元件的配置。

运动跟踪器206可用于对当前视频帧(N)224执行基于运动的跟踪。举例来说，可(例如，由电子装置102)接收先前视频帧(N-1)222和当前视频帧(N)224。先前视频帧(N-1)222可在视频帧序列中紧接着先于当前视频帧(N)224。可由对象跟踪和检测模块204获得并处理额外视频帧。可将先前视频帧(N-1)222提供到运动跟踪器206。另外，存储器缓冲器210可存储与先前视频帧(N-1)222(在本文中被称作所捕获先前视频帧212)相关联的数据。在一些配置中，存储器缓冲器210可直接从电子装置102(例如，从相机)获得关于先前视频帧(N-1)222的信息。存储器缓冲器210也可从融合模块260获得可指定先前视频帧(N-1)222中的对象跟踪和/或检测位置的关于先前视频帧(N-1)222的跟踪结果。关于先前视频帧(N-1)222或其它先前所捕获视频帧的此信息可存储于存储器缓冲器210中。

运动跟踪器206可随后接收视频帧序列中的当前视频帧(N)224。运动跟踪器206可将当前视频帧(N)224与先前视频帧(N-1)222进行比较(例如，使用从存储器缓冲器210提供的信息)。运动跟踪器206可使用光流模块226跟踪对象在当前视频帧(N)224上的运动。光流模块226可包含用于对当前视频帧(N)224上的对象执行基于运动的跟踪的硬件和/或软件。通过将先前视频帧(N-1)222与当前视频帧(N)224进行比较，运动跟踪器206可确定与目标对象处于当前视频帧(N)224中的可能性相关联的跟踪置信度值228。在一个实例中，跟踪置信度值228是基于目标对象在当前视频帧(N)224或当前视频帧(N)224内的窗口内的确定性百分数的实数(例如，0与1之间)。

对象检测器208可用于检测当前视频帧(N)224上的对象。举例来说，对象检测器208可接收视频帧序列中的当前视频帧(N)224。对象检测器208可基于所跟踪参数(例如，与跟踪阈值250进行比较的跟踪置信度值228和/或从存储器缓冲器210提供的信息(例如，区、窗口位置、窗口大小或其它信息)执行对当前视频帧(N)224的对象检测。

对象检测器208可在视频帧内选择多个窗口。选定扫描窗口可遵循特定扫描模式(例如，滑动窗口、扫描步长等)。结合图11-16给出更多细节。对象检测器208可确定是否在特定窗口中找到目标对象的一些或全部。对象检测器208可确定检测置信度值240，其指示目标对象在当前视频帧(N)224内存在的可能性。对象检测器208可根据多种所跟踪参数(包含区、目标大小、窗口大小、尺度水平、窗口位置和/或一或多个置信度值)来执行对象检测。

对象检测器208可搜索窗口位置和/或大小的全部或子集。如果检测不成功(例如，检测置信度值240小于检测阈值252(例如，0.6、0.65、0.7、0.75、0.8、0.85等))，那么可在后续所捕获的帧中搜索较高百分比的窗口位置，例如2％。

对象跟踪和检测模块204可包含用以合并多个窗口以形成单一窗口的融合模块260。最初可存在两个置信度值：来自对象检测器208的检测置信度值240和来自运动跟踪器206的跟踪置信度值228。融合模块260可比较所述两个置信度值(例如，挑选较大的一个)和/或将其组合成检测和跟踪置信度值256。检测和跟踪置信度值256可充当找到目标对象的可能性的总体指示。另外，检测和跟踪置信度值256可为用于确定图像尺度、窗口位置、窗口大小或在下一视频帧中将搜索的窗口的百分比的参数。融合模块260可用以将关于当前视频帧(N)224的信息(例如，窗口位置、窗口大小等)和/或检测和跟踪置信度值256提供到存储器缓冲器210。融合模块260可使用来自运动跟踪器206和对象检测器208的跟踪结果(例如，限界框)来形成经组合跟踪结果(例如，限界框)，并计算检测和跟踪置信度值256。

存储器缓冲器210可存储与先前视频帧(N-1)222、当前视频帧(N)224或其它所捕获视频帧相关联的一或多个值。在一个配置中，存储器缓冲器210存储可包含对应于先前视频帧(N-1)222的信息的所捕获先前视频帧212。所捕获先前视频帧212针对每一窗口242可包含关于一或多个窗口242的信息(例如，位置244、窗口大小246、二元决策248等。另外或替代地，所捕获先前视频帧212可包含关于其中最后检测和/或跟踪对象的图像尺度(例如，尺度水平)的信息。

所捕获先前视频帧212还可包含跟踪阈值250、检测阈值252以及检测和跟踪阈值254。可将跟踪阈值250提供到对象跟踪和检测模块204上的运动跟踪器206或电路(例如，置信度水平比较器258)，以确定跟踪置信度水平是否大于跟踪阈值250。可将检测阈值252提供到对象跟踪和检测模块204上的对象检测器208或其它电路以确定检测置信度值240是否大于检测阈值252。检测和跟踪阈值254可为基于跟踪阈值250和检测阈值252的经组合值。可将检测和跟踪阈值254与检测和跟踪置信度值256进行比较以确定基于运动的跟踪和对象检测的经组合置信度值。阈值中的每一者可基于目标对象位于视频帧内的可能性。对象跟踪和检测模块204可对当前视频帧(N)224执行基于运动的跟踪和/或检测直到获得特定检测和跟踪置信度值256为止。另外，可对多个视频帧的序列中的每一视频帧执行基于运动的跟踪和对象检测。

在两步跟踪和检测方法的一个配置中，运动跟踪器206可对当前视频帧(N)224执行基于运动的跟踪。运动跟踪器206可基于基于运动的跟踪过程确定跟踪置信度值228。使用存储器缓冲器210所提供的跟踪置信度值228和跟踪阈值250，置信度水平比较器258可确定跟踪置信度值228是否超过跟踪阈值250。如果跟踪置信度值228大于跟踪阈值250，那么对象跟踪和检测模块204可跳过执行对象检测并将跟踪结果提供到融合模块260以产生输出262。输出262可包含目标对象在当前视频帧(N)224内的指示。另外，输出262可包含关于目标对象的额外信息。

如果跟踪置信度值228并不超出跟踪阈值250，那么对象检测器208可随后对当前视频帧(N)224执行对象检测。可对当前视频帧(N)224内的窗口的全部或子集执行对象检测。对象检测器208可确定检测置信度值240并比较检测置信度值240与检测阈值252。如果检测置信度值240高于检测阈值252，那么对象检测器208可将检测结果提供到融合模块260以产生输出262。输出262可包含目标对象在当前视频帧(N)224内的指示和/或包含关于所检测对象的额外信息。如果检测置信度值240小于或等于检测阈值252，那么对象检测器208可再次使用较稳健的方法(例如，搜索当前视频帧(N)224内的较大数目的窗口)执行对象检测，且可重复对象检测过程直到获得令人满意的检测置信度值240为止。可使用对象跟踪和检测模块204来对下一视频帧执行跟踪和检测。

图2中所说明的组件中的一或多个可任选地由处理器264实施。所说明的组件中的一或多个可一起或单独地在一或多个处理器上实施。

图3是说明用于执行基于运动的跟踪和对象检测的方法300的流程图。方法300可由电子装置102实施，例如对象跟踪和检测模块104。电子装置102可执行(302)如上文所描述的基于运动的跟踪。

电子装置102可确定(304)跟踪置信度值228。可如上文所描述而实现此操作。电子装置102可确定(306)跟踪置信度值228是否大于跟踪阈值250。如果跟踪置信度值228大于跟踪阈值250，那么电子装置102可对下一视频帧执行(308)基于运动的跟踪(且任选地跳过根据基于运动的跟踪的结果对当前视频帧(N)224执行对象检测)。否则，电子装置102可对当前视频帧(N)224(或例如下一视频帧)执行(310)对象检测。

图4是说明用于执行基于运动的跟踪的方法400的流程图。方法400可由电子装置102实施，例如对象跟踪和检测模块104。电子装置102可使用如上文所描述的限界框来识别(402)一或多个目标对象。

电子装置102可初始化(404)限界框内的网格上的点。网格上的点可遍及限界框均匀地间隔开。此外，可跟踪(406)两个图像(例如，先前视频帧(N-1)222和当前视频帧(N)224)之间的网格上的点(使用例如卢卡斯-卡纳德(Lucas-Kanade)跟踪器)。电子装置102可估计(408)所述两个图像之间的跟踪误差(例如，为所跟踪的点中的每一点指派误差值，估计前向-后向误差、NCC和/或平方差总和等)。所估计的跟踪误差可用于获得跟踪置信度值228。另外，电子装置102可滤除(410)外围点预测(例如，最差预测的50％)。剩余预测可用于估计限界框的移位。

电子装置102可更新(412)限界框。可执行更新(412)限界框以使得经更新限界框变成用于下一视频帧的新限界框。

图5是说明用于基于前向-后向误差而估计基于运动的跟踪中的跟踪误差的方法500的配置的流程图。方法500可由电子装置102(例如，对象跟踪和检测模块104)实施。在一些配置中，电子装置102可计算所跟踪窗口之间的NCC，其可用以确定跟踪置信度值228。电子装置102还可使用与NCC互补的各种跟踪误差估计技术(例如，前向-后向误差、平方差总和)。在使用前向-后向误差估计的实例中，电子装置102可在先前视频帧(N-1)222与当前视频帧(N)224之间执行(502)前向跟踪以确定前向轨迹。前向跟踪可包含跟踪向前k步的图像。所得前向轨迹可等于(x_t,x_t+1,...,x_t+k)，其中x_t是时间上的点位置且k指示图像序列的长度。电子装置102可在当前视频帧(N)224与先前视频帧(N-1)222之间执行(504)后向跟踪以确定后向轨迹。所得后向轨迹可等于其中

电子装置102可确定(506)前向轨迹与后向轨迹之间的前向-后向误差。前向-后向误差可定义为前向轨迹与后向轨迹之间的距离。另外，可定义各种距离以用于轨迹比较。在一个配置中，当确定前向-后向误差时，可使用验证轨迹的初始点与结束点之间的欧几里得距离。在一个配置中，前向-后向误差可用作可用于确定跟踪置信度值228的跟踪误差。

图6是说明用于执行对象检测和跟踪的方法600的流程图。方法600可由电子装置102(例如，对象跟踪和检测模块104)实施。电子装置102可通过在当前视频帧(N)224中搜索窗口位置和大小的子集来对当前视频帧(N)224执行(602)对象检测和基于运动的跟踪。

电子装置102可确定(604)检测和跟踪置信度值256。电子装置102还可确定(606)检测和置信度值256是否大于检测和跟踪阈值254。如果检测和置信度值大于检测和跟踪阈值254，那么电子装置102可使用下一视频帧中的窗口和大小的子集(例如，同一子集)来对下一视频帧执行(608)对象检测。如果检测和置信度值256小于检测和跟踪阈值254，那么电子装置102可使用下一视频帧中的窗口位置和大小的较大子集来对下一视频帧执行(610)对象检测。

图7A是说明可与本发明系统和方法一起使用的具有不同窗口大小766a-j的图像窗口700的框图。所搜索的窗口可为任何形状(例如，正方形、矩形、圆形、椭圆形、用户定义的等)。此外，任何数目的窗口大小可以是可用的，例如，5、15、20、30等。搜索范围可包含用于特定位置的窗口大小的全部或子集(例如，类似于与最近帧中的目标对象相关联的窗口位置和窗口大小的那些)。

图7B是说明可与本发明的系统和方法一起使用的若干实例图像770a-j以及窗口768a-j的图。明确地说，图7B说明可搜索不同图像大小或尺度，同时窗口大小可保持相同。举例来说，结合图7B所描述的方法可另外地或替代地通过结合图7A所描述的方法实施。

图8是说明对象跟踪和检测模块804的另一可能配置的框图。图8中说明的对象跟踪和检测模块804可包含一或多个类似组件，且执行与图2中说明的对象跟踪和检测模块204中的对应组件类似的功能性。具体地说，对象跟踪和检测模块804可包含对象检测器808、运动跟踪器806和/或存储器缓冲器810。

对象跟踪和检测模块804可任选地包含平滑模块861，其用以减少归因于目标运动和跟踪误差的抖动影响(例如，致使搜索窗口在位置(x,y)和大小(宽度，高度)两方面具有较平滑的轨迹)。平滑模块861可为简单移动平均(MA)滤波器或自动回归(AR)滤波器。针对位置和大小的平滑程度可不同。例如卡尔曼滤波器的预测性滤波器也可适于位置平滑。结合图9给出更多细节。

对象跟踪和检测模块804可任选地包含位置和大小确定模块899，其可输出运动跟踪和对象检测的组合结果，所述结果可由限界框表示。此限界框可包含由平滑模块861平滑的位置和/或大小信息。举例来说，平滑模块861可基于未经平滑的位置863和未经平滑的大小865而产生经平滑的位置867和/或经平滑的大小869。

图9是说明平滑模块961的框图。在一种配置中，使用自动回归(AR)模型，位置平滑滤波器971和大小平滑滤波器973可基于未经平滑的位置963和/或未经平滑的大小965而产生经平滑的位置967和/或经平滑的大小969。

举例来说，假定X是将平滑的变量(位置或大小)，且令X'为对象跟踪器对X的输出。在此配置中，X在时间t的经平滑滤波X_t可根据X_t＝W*X'_t+(1-W)*X_t-1描述，其中X'_t是X在时间t的跟踪器输出，X_t-1是X在时间t-1的经平滑结果，且W(0<＝W<＝1)是控制平滑效应的平滑权重。举例来说，X'_t可为针对当前视频帧所选择的窗口位置或窗口大小，且X_t-1可为用于先前视频帧的窗口位置或窗口大小。不同平滑权重W可用于位置平滑滤波器971和大小平滑滤波器973。还可基于检测和跟踪置信度值和/或基于跟踪置信度值或检测置信度值来适应平滑权重的选择。

图10是说明用于平滑运动跟踪结果中的抖动的方法1000的流程图。方法1000可由电子装置102执行，例如电子装置102中的对象跟踪和检测模块804。电子装置102可确定(1002)与当前视频帧相关联的一或多个窗口位置和一或多个窗口大小，例如未经平滑位置863和未经平滑大小865。电子装置102也可对一或多个窗口位置和一或多个窗口大小进行滤波(1004)以产生一或多个经平滑窗口位置867和一或多个经平滑窗口大小869。举例来说，这可包含使用移动平均滤波器、自动回归滤波器或卡尔曼滤波器。在一种配置中，响应于低跟踪置信度(例如，检测和跟踪置信度值低于检测和跟踪阈值)，可减少用于位置和大小的平滑权重。替代地，可基于检测置信度值或跟踪置信度值来减少平滑权重。电子装置102也可使用由一或多个经平滑窗口位置867和一或多个经平滑大小869所定义的一或多个窗口来检测(1006)当前视频帧224内的目标对象。

本文中揭示的系统和方法的一些配置可基于局部运动模式和/或全局运动模式来提供稳健的对象跟踪。举例来说，本文中揭示的系统和方法的一些配置可通过使用局部和全局运动的差异来改进跟踪质量。运动可提供用于对象跟踪的线索。然而，来自杂乱背景的运动可对对象跟踪器呈现挑战，因为其可使运动估计失真。由于所关注对象可能以不同于背景的方式移动，因此可以有利地利用对象与其背景之间在运动上的差异。运动模式可不仅本身用于跟踪，而且可增强跟踪方法且改进其性能。

在一些配置中，本文中揭示的系统和方法可使用局部与全局运动之间的差异来估计对象在跟踪关注区(ROI)内的位置的可能性。局部运动可为内容(例如，前景)在帧之间的关注区内的运动。举例来说，局部运动可指示内容在关注区中从第一帧到第二帧的移动。全局运动可为内容(例如，所有内容或一般来说的内容)在帧之间的运动。可将局部与全局运动之间的差异测量作为关注区与整个图像之间的相对运动的程度。通过分离前景和背景运动，本文中揭示的系统和方法可减少跟踪器因为背景混杂而分心的机会。使用局部运动信息可有助于维持对象周围的较紧密的关注区(例如，限界区、限界框等)，且可防止所关注区不必要地扩大和/或失去对象的跟踪。举例来说，如果关注区扩大太多，那么对象跟踪可失去。通过基于局部运动与全局运动之间的差计算权重，可并行地(例如，同时)估计对象在帧之间的尺度和平移两者。可将时间和/或空间平滑应用于所述权重，以减少和/或去除任何离群值或噪声。本文中揭示的系统和方法的一些配置可在计算上较轻，且因此可实时执行。另外或替代地，本文中揭示的系统和方法可与其它跟踪方法一起执行以促进稳健跟踪。

图11是说明滑动窗口和扫描步长窗口的实例的图式。具体地说，图像A 1176a和图像B 1176b是两个不同图像大小或尺度。滑动窗口A 1178a以Z形图案应用于图像A 1176a。类似地，滑动窗口B 1178b以Z形图案应用于图像B 1176b。在一些配置中，滑动窗口A 1178a和滑动窗口B 1178b可以是相同的或大体上相同的大小(即，固定窗口大小)。在其它配置中，可利用不同窗口大小。除Z形图案之外或替代地，扫描窗口可以扫描线图案应用。

本文中所揭示的系统和方法的一些配置可以利用扫描步长。举例来说，当扫描图像的全部可能的位置在计算上过于昂贵时，一个方法是跳过一个帧中的图像位置(例如，沿着扫描路径)，并且随后扫描在其它帧(例如，后续帧)中的跳过窗口。可应用不同扫描模式。在图11中的帧A-D 1180a-d的实例中，说明在宽度尺寸上的2的扫描步长(例如，x尺寸，X步长＝2)以及在高度尺寸上的2的扫描步长(例如，y尺寸，Y步长＝2)。每一帧1180a-d可包含像素群组。为图11中的说明方便起见，帧1180a-d可表示小图像(例如，6x6像素图像)或较大图像的部分(例如，较大图像的6x6像素区段)。

具体地说，在每一帧A-D 1180a-d中说明扫描窗口像素1182。每一扫描窗口像素1182是每一扫描窗口的左上像素(例如，开始位置)。举例来说，帧A 1180a包含9个扫描窗口像素1182，其中扫描窗口像素1182中的每一个是对应的扫描窗口的左上像素。因而，帧A1180a包含9个扫描窗口。每一扫描窗口可以覆盖若干像素(例如，16x16像素、24x24像素等)。因此，扫描窗口可重叠。具体地说，举例来说，除非扫描步长大于或等于窗口宽度，否则扫描窗口重叠。

在帧A-D 1180a-d的实例中，图像的全扫描(例如，全部扫描窗口位置)采取4个帧。举例来说，对应于扫描窗口像素1182的扫描窗口可以在每一帧处扫描。具体地说，可以扫描在帧A 1180a(例如，在第一时间或在第一帧处)在扫描窗口内的像素。随后，可以使扫描窗口移位，其中扫描窗口的像素是针对后续帧扫描的。举例来说，在帧B 1180b处包含在扫描窗口中的像素可以得到扫描等等。在一些配置中，窗口的每个群组(例如，图11中的四个窗口)可以在以Z形图案、以顺时针图案、以逆时针图案或以另一顺序(例如，左上、右下、右上、左下等)前进的帧上得到扫描。

在一些配置中，扫描步长可以被视为跳过大小(例如，跳过的窗口和/或像素的数目)。举例来说，第一尺寸(例如，宽度尺寸、x尺寸等)中为二的扫描步长以及第二尺寸(例如，高度尺寸、y尺寸等)中为二的扫描步长可导致如图11中所说明的帧A-D 1180a-d的扫描模式。举例来说，在每一帧中仅四分之一的可能的扫描窗口可以得到扫描。

在一些配置中，可能的扫描窗口位置(例如，开始位置)可以对应于少于全部的像素。举例来说，可能的扫描窗口位置(例如，开始位置)可对应于每隔一个像素(例如，在像素索引0、2、4等处的每两个像素)或更小，例如每三个像素(例如，在像素索引0、3、6等处)。如上文所描述，应注意扫描步长可被视为跳过的窗口的数目。举例来说，在可能的扫描窗口位置对应于每隔一个像素(例如，0、2、4、6、8、10等的像素索引)的配置中，对于第一帧，2的扫描步长可导致在像素索引0、4、8等处的扫描窗口的开始像素，以及对于第二帧，2的扫描步长可导致在像素索引2、6、10等处的扫描窗口的开始像素。

应注意，虽然在图像或帧方面描述图11的扫描技术，但相似扫描技术可应用于整个图像或帧的一或多个子集。举例来说，滑动窗口扫描和/或扫描步长可应用于帧或图像内的限界区。

应注意，扫描可用于一或多个目标。举例来说，可在对象检测和/或对象辨识中利用扫描。

图12说明图像1284中的对象1288的实例。对象跟踪可在许多应用中为有用的。举例来说，对象跟踪可有用于高级驾驶员辅助系统(ADAS)中的对象检测。对象跟踪可用以跟踪交通标志(例如，速度限制标志、停止标志、街道标志等)。在图12中说明的实例中，对象1288是指示45英里/小时(mph)的速度限制的交通标志(例如，速度限制标志)。跟踪交通标志(例如，速度限制标志)以便执行一或多个操作(例如，调节交通工具的速度、警告驾驶员、执行辅助停止等)可为有益的。

然而，对象跟踪可能发生一些问题。光流是高效对象跟踪器的一个实例。虽然一些对象跟踪器可为高效的，但它们会失效(例如，失去跟踪)。对于每一限界区1286(例如，限界框)，例如可选择特征(例如，尺度不变特征变换(SIFT)特征、哈里斯(Harris)特征、具有特定拐角性质的特征等)以用于下一帧中的跟踪。然而在许多情况下特征可来源于背景(例如，非目标对象)，这会有损一或多个后续帧中的跟踪。举例来说，限界区1286(例如，限界框)可能不紧密地限定对象1288。在此情况下，一或多个特征可选自背景，进而有损后续帧中的跟踪。

改善跟踪的一个方法可包含从限界区1286移除背景点(例如，背景像素)和/或对限界区1286调整大小以排除背景点。因此，特征(例如，经更新特征)可更可能基于目标对象。这可实现稳健跟踪(例如使用光流)。在本文中揭示的系统和方法的一些配置中，例如在ADAS中可利用一或多个预定交通标志模型以改善光流跟踪。

一般来说，限界区可以是限定图像的一或多个像素的封闭形状。限界区的形状可为规则或不规则的。举例来说，限界区可为矩形、正方形、圆形、椭圆形、梯形、多边形、闭合曲线等。限界区的大小可不同。在一些配置中，限界区还可被称作关注区(ROI)或限界框(例如，对于矩形限界区)。限界区可完全含有对象，可部分含有对象或可不含有对象。在一些配置中，限界区可与对象的一部分重叠。在一些配置中，对于可具有不同预定对象模型的任何数目的不同对象(例如，行人、让路标志、停止标志等)，限界区可为矩形。

图13是说明其中可实施用于对象跟踪的系统和方法的电子装置1302的一个实例的框图。电子装置1302的实例包含相机、视频摄录影机、数码相机、蜂窝式电话、智能电话、计算机(例如，桌上型计算机、膝上型计算机等)、平板装置、媒体播放器、电视机、汽车、个人相机、动作相机、监控相机、安装的相机、已连接的相机、机器人、飞机、无人机、无人驾驶飞行器(UAV)、保健设备、游戏控制台、个人数字助理(PDA)、机顶盒等。电子装置1302可包含一或多个组件或元件。所述组件或元件中的一或多个可以硬件(例如，电路)或硬件与软件的组合(例如，具有指令的处理器)来实施。

在一些配置中，电子装置1302可包含处理器1309、存储器1315、显示器1317、图像传感器1301、光学系统1303和/或通信接口1305。处理器1309可耦合到(例如，成电子连通)存储器1315、显示器1317、图像传感器1301、光学系统1303和/或通信接口1305。应注意，图13中所说明的元件中的一或多个可为任选的。特定来说，电子装置1302在一些配置中可不包含图13中所说明的元件中的一或多个。举例来说，电子装置1302可包含或可不包含图像传感器1301和/或光学系统1303。另外或替代地，电子装置1302可包含或可不包含显示器1317。另外或替代地，电子装置1302可包含或可不包含通信接口1305。

通信接口1305可使电子装置1302能够与一或多个其它电子装置通信。举例来说，通信接口1305可为有线和/或无线通信提供接口。在一些配置中，通信接口1305可耦合到一或多个天线1307以用于发射和/或接收射频(RF)信号。另外或替代地，通信接口1305可实现一或多个种类的有线(例如，通用串行总线(USB)、以太网等)通信。

在一些配置中，可实施和/或利用多个通信接口1305。举例来说，一个通信接口1305可为蜂窝式(例如，3G、长期演进(LTE)、CDMA等)通信接口1305，另一通信接口1305可为以太网接口，另一通信接口1305可为通用串行总线(USB)接口，且又一通信接口1305可为无线局域网(WLAN)接口(例如，电气电子工程师学会(IEEE)802.11接口)。

在一些配置中，电子装置1302可执行结合图1到12中的一或多者描述的功能、程序、方法、步骤等中的一或多者。另外或替代地，电子装置1302可包含结合图1到12中的一或多者描述的结构中的一或多者。在一些配置中，结合图13描述的对象跟踪可结合结合图1到12中的一或多者描述的图像扫描、对象检测和/或对象跟踪方法中的一或多者实施。应注意，除结合图1到12中的一或多者描述的图像扫描和/或对象跟踪方法中的一或多者之外或替代地，可实施结合图13描述的对象跟踪。举例来说，除结合对象跟踪和检测模块104、204、804中的一或多者描述的跟踪之外或代替于所述跟踪，可在上文所述的电子装置中的一或多者中实施结合图13描述的对象跟踪器1311。

电子装置1302可获得一或多个图像(例如，数字图像、图像帧、视频等)。所述一或多个图像(例如，帧)可为场景(例如，一或多个对象和/或背景)的图像。举例来说，电子装置1302可包含图像传感器1301和光学系统1303(例如，透镜)，其使位于光学系统1303的视场内的对象的图像聚焦到图像传感器1301上。在一些配置中，图像传感器1301可捕获所述一或多个图像。光学系统1303可耦合到处理器1309和/或由其控制。另外或替代地，电子装置1302可从另一装置(例如，耦合到电子装置1302的外部图像传感器、网络服务器、交通相机、下落相机、汽车相机、网络相机等)请求和/或接收所述一或多个图像。在一些配置中，电子装置1302可经由通信接口1305请求和/或接收一或多个图像。举例来说，电子装置1302可包含或可不包含相机(例如，图像传感器1301和/或光学系统1303)且可从远程装置接收图像。一或多个图像帧1396可存储于存储器1315中。图像帧1396中的一或多个可包含对象(例如，用于检测和/或跟踪的目标对象)。

存储器1315可存储指令和/或数据。处理器1309可存取存储器1315(例如，从其读取和/或向其写入)。存储器1315可存储的指令和/或数据的实例可包含图像数据(例如，一或多个图像帧1396)、一或多个预定对象模型1394、特征、特征向量、对象检测器指令1390、对象辨识器1392指令、对象跟踪器1311指令、限界区有效性评估器1313指令和/或用于其它元件(例如，对象移除器、裁剪器、聚焦器、图像增强器、压缩器等)的指令等。在一些配置中，电子装置1302(例如，存储器1315)可包含图像数据缓冲器(未图示)。图像数据缓冲器可缓冲(例如，存储)来自图像传感器1301的图像数据(例如，图像帧1396)。经缓冲图像数据可提供到处理器1309。

预定对象模型1394可以是预先训练的(例如，离线训练的)对象模型。换句话说，可利用用于一或多个对象(例如，例如速度限制标志、停止标志等交通标志)的预定(例如，离线训练的)模型。预定对象模型1394中的每一个可表示可由对象辨识器1392辨识的对象。举例来说，预定对象模型1394可包含用于以下各项的对象模型：交通标志、交通信号(例如，灯)、交通工具、屏障、路缘标记、人(例如，行人)、街道标记、街道标志、车道标记、面部、手(例如用于手势检测)、文字字符、建筑物、树、动物和/或其它对象。预定对象模型1394可改进对象跟踪(例如，在特定对象跟踪期间的光流跟踪)的准确性。在一些配置中，预定对象模型1394(例如，离线训练的对象模型)可包含基于用于对象辨识的深度学习的一或多个分类器。举例来说，预定对象模型1394可使用深度学习模型来离线训练。应注意在一些配置中，存储器1315可存储预定错误模型。预定错误模型可对其中未辨识出对象的情况进行建模。

在一些配置中，可利用预定对象模型1394以确定限界区(例如，限界框)是有效的还是无效的。举例来说，无效限界区可以是不包含对象和/或太大(例如相对于对象)的限界区。另外或替代地，可利用预定对象模型1394以精炼限界区(例如，从背景移除点)以用于在对象跟踪中利用的经更新特征。举例来说，可仅以基于预定对象模型1394确定的对应于对象(且例如不对应于背景)的特征来更新对象跟踪(例如，对象跟踪器1311和/或光流)。下文给出更多细节。

在一些配置中，电子装置1302可包含相机软件应用程序和/或显示器1317。当相机应用程序正在运行时，图像传感器1301可捕获位于光学系统1303的视场内的对象的图像。图像传感器1301正捕获的图像可呈现于显示器1317上。在一些配置中，这些图像可以相对较高的帧速率快速连续显示，使得在任何给定时刻处，位于光学系统1303的视场内的对象都呈现在显示器1317上。由电子装置1302获得的一或多个图像帧1396可为一或多个视频帧和/或一或多个静态图像。

处理器1309可包含和/或实施对象检测器1390、对象辨识器1392、对象跟踪器1311和/或限界区有效性评估器1313。在一些配置中，处理器1309可为结合图2描述的处理器264的实例。应注意，电子装置1302和/或处理器1309中说明的元件中的一或多个可以是任选的。举例来说，可以或可以不包含和/或实施处理器1309中说明的元件中的一或多个。另外或替代地，处理器1309中说明的元件中的一或多个可与处理器1309分开地实施(例如，在其它电路中、在另一处理器上、在单独的电子装置上等)。举例来说，对象检测器1390和/或对象辨识器1392可不实施于电子装置1302上。在一些配置中，电子装置1302可从另一装置接收对象检测信息和/或对象辨识信息。

处理器1309可包含和/或实施对象检测器1390。在一些配置中，对象检测器1390可为结合图1到2和8中的一或多个描述的对象检测器108、208、808中的一或多个的实例。对象检测器1390可检测图像帧1396中的一或多个对象。举例来说，对象检测器1390可如上文所描述检测图像帧1396中的一或多个对象。举例来说，对象检测器1390可扫描图像帧1396的全部或部分以确定图像帧1396中是否存在任何对象(例如，目标对象)。在一些配置中，检测器模型(例如，分类器)是离线训练的。对象检测器1390可在整个图像(或图像的子集)上扫描一或多个窗口且将每一区与检测器模型进行比较。应注意，在一些配置中可利用其它对象检测方法。检测方法的一个实例是基于树的检测器(例如，基于树的提升检测器)。基于树的检测器与一些其它检测器相比可提供较大效率。对象检测器1390可产生一或多个限界区(例如，所检测限界区)。举例来说，对象检测器1390可产生包含对象(例如，目标对象)的限界区。

在一些配置中，对象检测器1390可对初始图像帧1396操作。举例来说，对象检测器1390可首先检测初始图像帧1396中的对象。对象跟踪器1311可对在初始图像帧1396之后的一或多个图像帧1396操作。在一些配置中，对象跟踪器1311可对一或多个图像帧1396操作(例如在对象检测之后)直到跟踪失败(例如，直到跟踪丢失)。对象检测器1390可以当跟踪失败时操作。在一些配置中，对象检测器1390可以对在其中跟踪失败的图像帧1396之后的图像帧1396(例如，下一图像帧1396)操作。因此，对象检测器1390和对象跟踪器1311可仅在不同帧中产生限界区。在其它配置中，对象检测器1390可以对其中跟踪已失败的图像帧1396操作。在这些配置中，对象检测器1390可在其中跟踪已失败的图像帧1396中产生限界区(其中例如由对象跟踪器1311产生的限界区可以被由对象检测器1390产生的限界区代替)。

处理器1309可包含和/或实施对象辨识器1392。对象辨识器1392可对限界区(例如，所检测限界区、所跟踪限界区和/或经精炼限界区)执行对象辨识。举例来说，对象辨识器1392可将一或多个预定对象模型1394与限界区内的图像内容进行比较。举例来说，对象辨识器1392可执行所检测限界区中的一或多个对象的对象辨识。举例来说，对象辨识器1392可确定所检测对象是否为速度限制标志、停止标志、街道标志、交通灯、让路标志、停车标志、行人等。

对象辨识器1392可获得对应于对象的预定对象模型1394。当执行所检测限界区中的对象辨识时，对象辨识器1392可尝试将多个预定对象模型1394中的一者匹配于所检测限界区中的对象。举例来说，可将限界区中的对象与预定对象模型1394的数据库进行比较。如果限界区中的对象匹配于数据库中的预定对象模型1394，那么对象被辨识出。可针对一或多个种类的对象(例如，眼睛、建筑物、街道标志、人、道路、文字等)执行对象辨识。如果所述多个预定对象模型1394中的至少一者匹配于对象(具有例如至少辨识置信度水平)，那么对象可被辨识出(例如，认为被辨识出)。在所检测限界区中未辨识出对象的情况下，对象检测器1390可在稍后(例如，下一)帧中执行对象检测。

在限界区中辨识出对象的情况下，对象辨识器1392可获得对应于对象的预定对象模型1394。举例来说，对象辨识器1392可从所述多个预定对象模型1394选择预定对象模型1394(例如具有最高辨识置信度水平)。

对象辨识器1392可基于预定对象模型1394检查对象辨识。举例来说，对象辨识器1392可对所跟踪限界区的图像内容执行对象辨识以确定图像内容是否是基于预定对象模型1394而辨识。举例来说，对象辨识器1392可以检验所述图像内容是否从较早帧仍被辨识为同一种类的对象(对应于选定预定对象模型1394)。预定对象模型1394可用以确定一或多个所跟踪限界区(例如在一或多个后续帧中)是否为有效的。应注意，“所跟踪限界区”可以是通过对象跟踪(例如，对象跟踪器1311)产生的限界区。此外，“所检测限界区”可以是通过对象检测(例如，对象检测器1390)产生的限界区。

处理器1309可包含和/或实施对象跟踪器1311。在一些配置中，对象跟踪器1311可为本文所描述的运动跟踪器106、206、806中的一或多个的实例。图像帧1396中的一或多个可以提供到对象跟踪器1311。对象跟踪器1311可跟踪一或多个图像帧1396中的一或多个对象。对象跟踪器1311的一个实例是光流。

在一些配置中，对象跟踪器1311可基于(图像帧1396的)当前帧的限界区而执行对象跟踪。举例来说，对象跟踪器1311可尝试在帧之间跟踪图像内容(例如，对象)。对象跟踪可提供后续帧中的图像内容的估计位置。对象跟踪器1311可基于对象跟踪而确定(图像帧1396的)后续帧的限界区(例如，所跟踪限界区)。举例来说，对象跟踪器1311可产生对应于所跟踪图像内容的后续帧的限界区。在一些配置中，对象跟踪器1311可利用从当前帧限界区提取的一或多个特征(例如，特征向量)以确定对应后续帧限界区。举例来说，对象跟踪器1311可基于限界区(例如，所检测限界区、所跟踪限界区、经精炼限界区等)而提取一或多个特征。对象跟踪(例如，对象跟踪器1311)可基于所述一或多个特征而更新。应注意，对象跟踪器1311可基于所检测限界区(例如，由对象检测器1390产生的限界区)、所跟踪限界区(例如，由对象跟踪器1311产生的限界区)和/或经精炼限界区而执行对象跟踪。

处理器1309可包含和/或实施限界区有效性评估器1313。限界区有效性评估器1313可基于预定对象模型1394而确定限界区(例如，所跟踪限界区)是否有效。在一些配置中，如果预定对象模型1394匹配于限界区内的图像内容(例如，具有至少某一程度的概率)，那么所述限界区可以视为有效的。一般来说，无效限界区可以是不包含对象的限界区，太大而无法紧密地限定对象的限界区和/或不包含对象的足够部分的限界区。在一些配置中，有效限界区可以是至少部分地包含(例如，包含最小量的)对象且紧密地限定对象的限界区。举例来说，有效限界区可满足一或多个有效性准则。有效性准则的一个实例可以是对象辨识器1392是否辨识出限界区内的具有预定对象模型1394的对象。举例来说，当对所检测限界区执行对象辨识时可从多个预定对象模型1394选择预定对象模型1394。如果基于(选定)预定对象模型1394在所跟踪限界区中辨识出同一对象，那么所跟踪限界区可为有效的。

在一些配置中，成功对象辨识可基于辨识置信度水平。举例来说，如果以至少特定置信度水平(例如，置信度水平阈值)辨识出对象，那么对象可视为在限界框内成功地辨识。

另外或替代地，限界区有效性可基于按比例缩放、平移和/或旋转的一或多个范围(例如，有限范围)。举例来说，如果在相对于限界区的有限量的按比例缩放、平移和/或旋转内(以例如特定置信度水平)辨识出对象，那么限界区可视为有效的。举例来说，如果在相对于限界区的某一范围的尺度(例如，大小)内、在限界区内的某一范围的平移内和/或在相对于限界区的某一范围的旋转内在限界区中成功地辨识对象，那么限界区可视为有效的。有效性准则的其它实例可包含对应于所辨识对象的像素(例如，前景像素)与并不对应于对象的像素(例如，背景像素)的比例、相对于限界区尺寸的对象尺寸(例如，如果一或多个对象尺寸在限界区尺寸的某一范围或比例内)、对象的边缘与限界区之间的距离等。

在一些配置中，可利用预定分类器以确定限界区是否为有效的。举例来说，预定对象模型1394中的一或多个可包含预定分类器。预定分类器可以是使对应于对象的特征向量与并不对应于对象的特征向量分离的决策边界。

在限界区有效的情况下，对象跟踪器1311可基于限界区针对稍后帧(例如，下一帧)跟踪对象。举例来说，对象跟踪器1311可基于限界区而提取一或多个特征。对象跟踪(例如，对象跟踪器1311)可基于所述一或多个特征而更新。随后，对象跟踪器1311可基于所述一或多个特征而跟踪稍后帧中的对象。

在限界区无效的情况下，限界区有效性评估器1313可任选地精炼限界区(例如，所跟踪限界区)，或者对象检测器1390可任选地执行对象检测(例如当前帧中或后续帧中)。举例来说，如果限界区太大(例如，限界区是无效的但在限界区内辨识出对象)，那么限界区有效性评估器1313可精炼限界区。举例来说，对象辨识器1392可扫描限界区以确定对象是否在限界区内。如果对象在限界区内且限界区是无效的(例如，太大而无法紧密地限定对象)，那么可精炼限界区。精炼限界区可包含对限界区调整大小(以更紧密地限定对象)以排除一或多个非对象像素(例如，背景像素)和/或从限界区移除一或多个非对象像素(例如，背景像素)。在限界区经精炼的情况下，对象跟踪器1311可基于经精炼限界区而跟踪对象(例如，可基于经精炼限界区而产生用于后续帧的限界区)。在限界区无效且在限界区内未辨识出对象(例如，在至少特定置信度水平阈值下未辨识出)的情况下，对象检测器1390可执行对象检测(例如根据配置而在后续帧中或当前帧中)。

在一些配置中，电子装置1302可基于对象而执行辅助驾驶。举例来说，处理器1309可包含(例如，实施)高级驾驶员辅助系统(ADAS)或可与其通信。举例来说，电子装置1302(例如，ADAS)可基于对象而执行辅助驾驶。电子装置1302可基于对象(例如，所检测、所辨识和/或所跟踪对象)而执行一或多个操作。操作的实例可包含显示指示器(例如，速度限制、停止标志、行人警报、潜在碰撞警报、车道偏离警报、街道名称、地址等)，输出声音(例如，鸣响、闹钟、语音、鸣交通工具喇叭等)，控制交通工具速度(例如，以标示速度限制驾驶、制动以避免碰撞等)，控制交通工具转向(例如，转向以避免碰撞、平行停车等)，控制交通工具气候(例如，控制除霜器或除雾器等)，以及控制交通工具灯(例如，打开雾灯、激活紧急闪烁灯、控制转向信号等)。应注意，在一些配置中电子装置1302可与汽车分离或者可集成到汽车中。

在一些配置中，处理器1309可包含和/或实施一或多个其它元件。举例来说，处理器1309可包含对象移除器、图像增强器、裁剪器、压缩器、聚焦器等。在一些配置中，对象移除器可基于对象跟踪而从图像移除对象。举例来说，对象移除器可通过用来自限界区之外的区域的图像片填充在对象区域中来移除包含于限界区中的对象。

在一些配置中，图像增强器可基于对象跟踪来增强图像的质量和/或性质。举例来说，图像增强器可执行色彩校正、色彩调整、白平衡、对比度增强、去浊、红眼移除、锐度调整、降噪、透镜校正、滤波、图像合并、对象突出显示和/或图像失真(例如，扭曲)。增强图像可包含修改限界区的子集内部和/或外部的像素。

在一些配置中，裁剪器可基于对象跟踪来裁剪图像。举例来说，裁剪器可裁剪限界区之外的像素或具有裕度的限界区之外的像素。

在一些配置中，压缩器可基于对象跟踪来压缩图像。举例来说，压缩器可压缩限界区之外的像素或具有裕度的限界区之外的像素。这可允许维持包含所关注对象的一或多个区域(例如，关注区)中的图像保真度，同时允许压缩图像的其余部分以减小图像的数据大小。

在一些配置中，聚焦器可基于对象跟踪来使光学系统1303聚焦。举例来说，聚焦器可利用一或多个关注区内的图像作为用以聚焦光学系统1303的参考。这可允许一或多个限界区内的一或多个对象焦点对准。

在一些配置中，电子装置1302可在显示器1317上呈现用户接口1319。举例来说，用户接口1319可使用户能够与电子装置1302交互。在一些配置中，显示器1317可为接收来自物理触摸(例如通过手指、触笔或其它工具)的输入的触摸屏。另外或替代地，电子装置1302可包含另一输入接口或耦合到另一输入接口。举例来说，电子装置1302可包含面向用户的摄像机，且可检测用户手势(例如，手部手势、臂部手势、眼部跟踪、眨眼等)。在另一实例中，电子装置1302可耦合到鼠标且可检测鼠标点击。

应注意，在一些配置中，无用户输入可为必要的。举例来说，电子装置1302可在一或多个图像帧1396中自动检测和/或跟踪一或多个对象。

图14是说明用于对象跟踪的方法1400的一个配置的流程图。举例来说，方法1400可由本文所述的电子装置102、1302中的一或多者执行。如上文所描述，电子装置1302可获得场景的一或多个图像(例如，一或多个帧)。

电子装置1302可基于当前帧的限界区而执行(1402)对象跟踪。举例来说，电子装置1302可跟踪限界区的图像内容中的一或多个对象。电子装置1302可基于对象跟踪而确定后续帧的限界区。这可(例如)如上文结合图1到13中的一或多者所描述来实现。应注意，“后续”帧可以是比当前帧晚的任何帧。举例来说，后续帧可以是一系列帧中的下一帧或可以是比下一帧晚的帧。

电子装置1302可确定(1404)限界区(例如，后续帧的限界区)是否为有效的。举例来说，这可结合图13所描述来实现。举例来说，电子装置1302可确定对象是否包含在限界区中(例如，检查限界区内的对象辨识)和/或确定限界区是否紧密地限定对象。

如果限界区是有效的，那么电子装置1302可返回到针对稍后帧(例如，针对下一帧)执行(1402)对象跟踪。举例来说，电子装置1302可基于限界区以特征更新对象跟踪(例如，对象跟踪器1311)且针对稍后帧跟踪对象。

如果限界区是无效的，啊么电子装置1302可精炼(1406)限界区或执行对象检测。这可如结合图13所描述来实现。举例来说，如果在限界区内辨识出对象但限界区未紧密地限定对象(例如，限界区太大)，那么电子装置1302可精炼(1406)限界区。举例来说，电子装置1302可对限界区调整大小以便排除一或多个非对象(例如，背景)像素和/或可移除一或多个非对象像素。电子装置1302可随后返回到基于经精炼限界区而执行(1402)对象跟踪以确定稍后帧的限界区。

如果在限界区内未辨识出对象，那么电子装置1302可执行对象检测。举例来说，电子装置1302可前进到对稍后帧执行对象检测。

图15是说明用于对象跟踪的方法1500的更特定配置的实例的流程图。举例来说，方法1500可由本文所述的电子装置102、1302中的一或多者执行。

电子装置1302可执行(1502)一或多个对象的对象检测以产生所检测限界区。这可如结合图1到4、6到8、10到11以及13到14中的一或多者所描述而实现。举例来说，电子装置1302可在当前帧中执行对象检测。如果检测到对象，那么执行对象检测可产生限界区。

电子装置1302可在所检测限界区中执行(1504)(例如一或多个对象的)对象辨识。这可如结合图1、11以及13到14中的一或多者所描述而实现。举例来说，电子装置1302可将所检测限界区与一或多个预定对象模型1394进行比较。

电子装置1302可确定(1506)是否辨识出所述一或多个对象。这可如上结合图13所描述来实现。举例来说，电子装置1302可确定所检测限界区内的图像内容是否匹配于所述一或多个预定对象模型1394中的至少一者。举例来说，电子装置1302可确定所检测限界区内的图像内容是否匹配于具有特定辨识置信度水平(例如，达至少辨识置信度水平阈值)的预定对象模型1394。如果未辨识出对象，那么电子装置1302可返回到针对稍后(例如，下一)帧检测(1502)对象。

如果辨识出对象，那么电子装置1302可获得(1508)对应于所述一或多个对象(例如，所辨识对象)的一或多个预定对象模型1394。举例来说，电子装置1302可选择匹配于对象辨识中的对象的预定对象模型1394(例如从多个预定对象模型1394)。在一些配置中，电子装置1302可选择具有最高辨识置信度水平的预定对象模型1394。

电子装置1302可基于限界区而提取(1510)一或多个特征。这可如结合图12到13中的一或多者所描述来实现。举例来说，电子装置1302可从限界区内的图像内容提取(1510)一或多个特征。举例来说，电子装置1302可从当前帧的限界区内的图像内容确定一或多个特征(例如，SIFT特征、哈里斯特征、拐角特征、特征向量等)。

电子装置1302可基于限界区而执行(1512)对象跟踪。举例来说，电子装置1302可执行(1512)限界区中的一或多个对象的对象跟踪。电子装置1302可基于对象跟踪而确定后续帧的限界区。这可如结合图1到14中的一或多者所描述来实现。举例来说，电子装置1302可基于当前帧的限界区(例如，限界区内的图像内容)而执行(1512)对象跟踪(例如，光流跟踪)以确定后续帧的限界区。在一些配置中，可以所提取的特征更新对象跟踪(例如，对象跟踪器1311)以便执行(1512)对象跟踪。

应注意，用以执行(1512)对象跟踪的限界区可为原始限界区或经精炼限界区。举例来说，在限界区是从对象检测1502产生的情况下或者在限界区是从对象跟踪1512(从前一帧)产生且被确定1516为有效的情况下，限界区可为原始限界区。在另一实例中，在限界区是从对象跟踪1512(从前一帧)产生且限界区被确定1516为无效的但被确定1518为含有对象的情况下，限界区可为经精炼限界区。

电子装置1302可基于预定对象模型1394而检查(1514)限界区中的对象辨识。这可如结合图13所描述而实现。举例来说，电子装置1302可以基于预定对象模型1394而检查(1514)后续帧的限界区中的对象辨识。检查(1514)对象辨识可包含基于预定对象模型1394而辨识对象。举例来说，电子装置1302可尝试在后续帧的限界区中辨识对应于预定对象模型1394的对象。检查(1514)对象辨识可产生对象被辨识的概率或置信度水平。

应注意，在一些配置中，检查(1514)后续帧的限界区(例如，所跟踪限界区)中的对象辨识可以与在所检测限界区中执行(1504)对象辨识以不同方式实现。举例来说，在所检测限界区中执行(1504)对象辨识可包含尝试从多个预定对象模型1394辨识对象。举例来说，在所检测限界区中执行(1504)对象辨识可包含将多个预定对象模型1394与所检测对象进行比较以便识别对象(例如，确定对象的类型)。具体地说，执行(1504)对象辨识可指示多个预定对象模型1394中的哪些(如果存在)匹配于所检测对象。在一些配置中，基于预定对象模型1394而检查(1514)(后续帧的)限界区中的对象辨识可以将仅一个预定对象模型1394与所跟踪限界区(例如，所跟踪限界区内的图像内容)进行比较。因此，检查(1514)所跟踪限界区中的对象辨识可指示所获得(1508)预定对象模型1394是否匹配于所跟踪限界区(例如，所跟踪限界区内的图像内容)，而在所检测限界区中执行(1504)对象辨识可例如指示多个预定对象模型1394中的哪一者匹配于所检测限界区(例如，所检测限界区内的图像内容)。检查(1514)对象辨识(例如，使用仅单个预定对象模型1394的对象辨识)可以比例如使用多个预定对象模型1394的对象辨识更高效。

在其它配置中，检查(1514)后续帧的所跟踪限界区中的对象辨识可以类似于在所检测限界区中执行(1504)对象辨识而实现。举例来说，如果在所跟踪限界区中检查(1514)对象辨识与在所检测限界区中执行(1504)对象辨识产生相同目标辨识结果(例如，同一匹配预定对象模型1394)，那么所跟踪限界区可视为有效的。

电子装置1302可确定(1516)限界区(例如，后续帧的限界区)是否为有效的。这可例如如上文结合图13到14中的一或多者所描述来实现。举例来说，电子装置1302可确定对象是否包含在限界区中以及限界区是否紧密地限定对象。在一些配置中，如果在后续帧的限界区(例如，所跟踪限界区)中检查(1514)对象辨识是成功的(在按比例缩放、平移和/或旋转的一或多个范围内)，那么限界区可为有效的。举例来说，如果检查(1514)对象辨识在近似限界区(例如，所跟踪限界区)的尺度、位置和/或旋转下成功，那么限界区可为有效的。如果限界区是有效的，那么电子装置1302可返回到针对稍后帧(例如，基于所跟踪限界区而针对下一帧)提取(1510)对象跟踪。

如果限界区是无效的，那么电子装置1302可确定(1518)所述一或多个对象是否在限界区(例如，后续帧的所跟踪限界区)内。此操作可如上文结合图13到14中的一或多者所描述来实现。举例来说，电子装置1302可扫描所跟踪限界区以尝试在限界区内辨识处于不同尺度、平移和/或旋转的对象。在一些配置中，如果成功地辨识对象(在尺度、平移和/或旋转的范围内，所述范围中的一或多个可以允许比用于确定(1516)限界区有效性的一或多个范围更大的变化)，那么对象可在限界区内。

如果对象未成功地辨识，那么一或多个对象可不在限界区内。如果对象中的一或多个不在限界区内，那么电子装置1302可返回到检测(1502)稍后帧中的对象。

如果所述一或多个对象在限界区内，那么电子装置1302可任选地精炼(1520)限界区。这可如结合图13到14中的一或多者所描述来实现。举例来说，如果在限界区内辨识出对象但限界区未紧密地限定对象(例如，限界区太大)，那么电子装置1302可精炼(1520)限界区。举例来说，电子装置1302可对限界区调整大小以便排除一或多个非对象(例如，背景)像素和/或可移除一或多个非对象像素。电子装置1302可随后返回到基于经精炼限界区而提取(1510)特征以确定稍后帧的限界区。

包含对象且紧密地限定对象(如其中例如限界区是所检测限界区、是有效限界区或是经精炼限界区的情况那样)的限界区可提供对应于对象的特征。这可避免例如提取对应于非目标对象或背景的特征。对应对象特征又可改进跟踪器性能。举例来说，提取(1510)特征可较好表示目标对象以改善对象跟踪性能(例如，避免在后续帧中的跟踪期间对象的丢失)。

图16说明其中可实施用于对象跟踪的系统和方法的电子装置的实例1602a-c。实例A 1602a是无线通信装置(例如，智能电话、平板计算机装置等)。实例B 1602b是汽车。实例C是无人飞行器(例如，UAV、无人机等)。

本文所描述的电子装置102、1302、1702中的一或多个可被实施为实例A 1602a、实例B 1602b和/或实例C 1602c(或包含于其内)。另外或替代地，本文所描述的方法300、400、500、600、1000、1400、1500、操作、程序、功能和/或步骤中的一或多个可由实例A 1602a、实例B 1602b和/或实例C 1602c中的一或多个执行。另外或替代地，本文所描述的组件和/或元件中的一或多个可在实例A 1602a、实例B 1602b和/或实例C 1602c中的一或多个中实施。

举例来说，实例A 1602a(例如，智能电话)可执行上述操作中的一或多个(例如，检测对象、辨识对象、跟踪对象、确定限界区是否有效等)。在另一例子中，实例B 1602b(汽车)可包含基于所跟踪交通标志、信号和/或其它对象(例如，行人)而调节汽车的速度、转向、停车等的ADAS。在另一例子中，实例C 1602c(UAV)可当跟踪人时记录视频，可基于所跟踪对象(例如，建筑物、标志、人、包裹等)而导航，可拾取和/或递送所跟踪包裹等。根据本文中揭示的系统和方法可实施许多其它实例。举例来说，本文中揭示的系统和方法可在基于一或多个所跟踪对象而执行一或多个动作(例如，获取某物、组装某物、搜索物品等)的机器人中实施。

图17说明可包含于电子装置1702内的某些组件。电子装置1702可为(或可包含于内)摄像机、视频摄录像机、数码摄像机、蜂窝式电话、智能电话、计算机(例如，桌上型计算机、膝上型计算机等)、平板计算机装置、媒体播放器、电视、汽车、个人摄像机、运动摄像机、监控摄像机、安装式摄像机、连接式摄像机、机器人、飞机、无人机、无人飞行器(UAV)、医疗保健设备、游戏控制台、个人数字助理(PDA)、机顶盒等。电子装置1702包含处理器1735。处理器1735可为通用单芯片或多芯片微处理器(例如，ARM)、专用微处理器(例如，数字信号处理器(DSP))、微控制器、可编程门阵列等。处理器1735可被称作中央处理单元(CPU)。虽然电子装置1702中示出仅单个处理器1735，但在替代配置中，可使用处理器的组合(例如，ARM和DSP)。

电子装置1702还包含存储器1739。存储器1739可为能够存储电子信息的任何电子组件。存储器1739可体现为随机存取存储器(RAM)、只读存储器(ROM)、磁盘存储媒体、光学存储媒体、RAM中的快闪存储器装置、随处理器包含的机载存储器、EPROM存储器、EEPROM存储器、寄存器等，包含其组合。

数据1721a和指令1741a可存储于存储器1739中。指令1741a可由处理器1735执行以实施本文所描述的方法中的一或多个。执行指令1741a可涉及使用存储于存储器1739中的数据1721a。当处理器1735执行指令1741时，指令1741b的各种部分可加载到处理器1735上，且各条数据1721b可加载到处理器1735上。

电子装置1702还可包含发射器1725和接收器1727以允许信号向电子装置1702的发射以及从所述电子装置的接收。发射器1725和接收器1727可共同称为收发器1729。一个或多个天线1737a-b可电连接到收发器1729。电子装置1702还可包含(未图示)多个发射器、多个接收器、多个收发器和/或额外天线。

电子装置1702可包含数字信号处理器(DSP)1731。电子装置1702还可包含通信接口1733。通信接口1733可实现一或多个种类的输入和/或输出。举例来说，通信接口1733可包含用于将其它装置链接到电子装置1702的一或多个端口和/或通信装置。另外或替代地，通信接口1733可包含一或多个其它接口(例如，触摸屏、小键盘、键盘、麦克风、相机等)。举例来说，通信接口1733可使用户能够与电子装置1702交互。

电子装置1702的各种组件可通过一或多个总线耦合在一起，所述一或多个总线可包含电力总线、控制信号总线、状态信号总线、数据总线等。为清楚起见，各种总线在图17中被说明为总线系统1723。

根据本发明，电子装置中的电路可适于基于第一帧的第一限界区而执行对象跟踪以确定第二帧的第二限界区，其中所述第二帧在所述第一帧之后。同一电路、不同电路或者同一或不同电路的第二区段可适于基于预定对象模型而确定第二限界区是否为有效的。另外，同一电路、不同电路或者同一或不同电路的第三区段可适于控制提供上文所描述功能性的电路或电路区段的配置。

术语“确定”涵盖多种多样的动作，且因此“确定”可以包含计算、运算、处理、导出、调查、查找(例如，在表、数据库或另一数据结构中查找)、查实及类似者。并且，“确定”可包含接收(例如，接收信息)、存取(例如，存取存储器中的数据)及类似操作。此外，“确定”可包含解析、选择、挑选、建立等等。

除非另外明确地指定，否则短语“基于”并不意味着“仅基于”。换句话说，短语“基于”描述“仅基于”和“基于至少”两者。

术语“处理器”应广义上解释为涵盖通用处理器、中央处理单元(CPU)、微处理器、数字信号处理器(DSP)、控制器、微控制器、状态机等。在一些情况下，“处理器”可以指专用集成电路(ASIC)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)等。术语“处理器”可指代处理装置的组合，例如DSP和微处理器的组合、多个微处理器、一或多个微处理器结合DSP核心，或任何其它此类配置。

术语术语“存储器”应当广义地解释为涵盖能够存储电子信息的任何电子组件。术语存储器可指各种类型的处理器可读媒体，例如随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除PROM(EEPROM)、快闪存储器、磁性或光学数据存储装置、寄存器等。如果处理器可从存储器读取信息和/或写入信息到存储器，那么存储器被称为与处理器电子连通。与处理器成一体的存储器与处理器进行电子通信。

术语“指令”和“代码”应当被解释为广泛地包含任何类型的计算机可读语句。例如，术语“指令”和“代码”可指代一或多个程序、例程、子例程、函数、过程等。“指令”和“代码”可包括单个计算机可读语句或许多计算机可读语句。

本文中所描述功能可实施于由硬件执行的软件或固件中。所述功能可存储为计算机可读媒体上的一或多个指令。术语“计算机可读媒体”或“计算机程序产品”指代可由计算机或处理器存取的任何有形的存储媒体。借助于实例而非限制，计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用于携载或存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。如本文所使用，磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及Blu-光盘，其中磁盘通常以磁性方式复制数据，而光盘用激光以光学方式复制数据。应注意，计算机可读媒体可为有形的和非暂时性的。术语“计算机程序产品”是指计算装置或处理器，其与可由计算装置或处理器执行、处理或计算的代码或指令(例如，“程序”)组合。如本文中所使用，术语“代码”可指可由计算装置或处理器执行的软件、指令、代码或数据。

还可经由传输媒体传输软件或指令。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线路(DSL)或无线技术(例如，红外线、无线电及微波)从网站、服务器或其它远程源传输软件，则同轴电缆、光纤电缆、双绞线、DSL或无线技术(例如，红外线、无线电及微波)包含在传输媒体的定义中。

本文所揭示的方法包括用于实现所描述的方法的一或多个步骤或动作。在不脱离权利要求书的范围的情况下，方法步骤和/或动作可以彼此互换。换句话说，除非正描述的方法的适当操作需要步骤或动作的特定次序，否则，在不脱离权利要求书的范围的情况下，可修改特定步骤及/或动作的次序及/或使用。

另外，应了解用于执行本文中描述的方法和技术的模块和/或其它适当装置可以下载和/或通过装置获得。举例来说，装置可耦合到服务器以促进用于执行本文中所描述的方法的装置的传递。替代地，本文所描述的各种方法可经由存储装置(例如，随机存取存储器(RAM)、只读存储器(ROM)、例如压缩光盘(CD)或软性磁盘等物理存储媒体等)提供，以使得在将所述存储装置耦合或提供到装置后所述装置可即刻获得各种方法。

应理解，权利要求书不限于上文所说明的精确配置和组件。在不脱离权利要求书的范围的情况下，可在本文中所描述的系统、方法和设备的布置、操作和细节方面作出各种修改、改变和变更。

Claims

1.一种由电子装置执行的方法，其包括：

获得场景的第一帧；

在所述第一帧的第一限界区内执行至少一个对象的对象辨识；

在所述第一帧的所述第一限界区内执行所述至少一个对象的对象跟踪；

基于所述对象跟踪而确定第二帧的第二限界区，其中所述第二帧在所述第一帧之后；以及

基于预定对象模型而确定所述第二限界区是否为有效的。

2.根据权利要求1所述的方法，其进一步包括执行所述至少一个对象的对象检测。

3.根据权利要求2所述的方法，其进一步包括获得对应于所述对象的所述预定对象模型。

4.根据权利要求1所述的方法，其进一步包括：

基于所述第一限界区而提取一或多个特征；以及

基于所述一或多个特征而更新对象跟踪。

5.根据权利要求1所述的方法，其进一步包括：

如果所述第二限界区是无效的则确定所述对象是否在所述第二限界区内；以及

如果所述对象在所述第二限界区内则精炼所述第二限界区。

6.根据权利要求5所述的方法，其中精炼所述第二限界区包括对所述第二限界区调整大小以排除并不对应于所述对象的一或多个像素。

7.根据权利要求1所述的方法，其进一步包括如果所述对象不在所述第二限界区内则在所述第二帧之后的第三帧中检测所述对象。

8.根据权利要求1所述的方法，其进一步包括基于所述对象而执行辅助驾驶。

9.根据权利要求1所述的方法，其进一步包括获得对应于所述对象的所述预定对象模型，其中获得所述预定对象模型包括从多个预定对象模型选择所述预定对象模型。

10.根据权利要求9所述的方法，其中所述多个预定对象模型中的至少一者包括交通标志的预定对象模型。

11.一种电子装置，其包括：

处理器，其经配置以：

获得场景的第一帧；

基于预定对象模型而确定所述第二限界区是否为有效的。

12.根据权利要求11所述的电子装置，其中所述处理器经配置以执行所述至少一个对象的对象检测。

13.根据权利要求12所述的电子装置，其中所述处理器经配置以获得对应于所述对象的所述预定对象模型。

14.根据权利要求11所述的电子装置，其中所述处理器经配置以：

基于所述第一限界区而提取一或多个特征；以及

基于所述一或多个特征而更新对象跟踪。

15.根据权利要求11所述的电子装置，其中所述处理器经配置以：

如果所述对象在所述第二限界区内则精炼所述第二限界区。

16.根据权利要求15所述的电子装置，其中所述处理器经配置以对所述第二限界区调整大小以排除并不对应于所述对象的一或多个像素。

17.根据权利要求11所述的电子装置，其中所述处理器经配置以在所述对象不在所述第二限界区内的情况下在所述第二帧之后的第三帧中检测所述对象。

18.根据权利要求11所述的电子装置，其中所述处理器经配置以基于所述对象而执行辅助驾驶。

19.根据权利要求11所述的电子装置，其中所述处理器经配置以获得对应于所述对象的所述预定对象模型，其中所述处理器经配置以从多个预定对象模型获得选择所述预定对象模型。

20.根据权利要求19所述的电子装置，其中所述多个预定对象模型中的至少一者包括交通标志的预定对象模型。

21.一种计算机程序产品，其包括其上具有指令的非暂时性有形计算机可读媒体，所述指令包括：

用于致使电子装置获得场景的第一帧的代码；

用于致使所述电子装置在所述第一帧的第一限界区内执行至少一个对象的对象辨识的代码；

用于致使所述电子装置在所述第一帧的所述第一限界区内执行所述至少一个对象的对象跟踪的代码；

用于致使所述电子装置基于所述对象跟踪而确定第二帧的第二限界区的代码，其中所述第二帧在所述第一帧之后；以及

用于致使所述电子装置基于预定对象模型而确定所述第二限界区是否为有效的代码。

22.根据权利要求21所述的计算机程序产品，所述指令进一步包括用于致使所述电子装置执行所述至少一个对象的对象检测的代码。

23.根据权利要求21所述的计算机程序产品，所述指令进一步包括：

用于致使所述电子装置在所述第二限界区无效的情况下确定所述对象是否在所述第二限界区内的代码；以及

用于致使所述电子装置在所述对象在所述第二限界区内的情况下精炼所述第二限界区的代码。

24.根据权利要求21所述的计算机程序产品，所述指令进一步包括用于致使所述电子装置从多个预定对象模型选择所述预定对象模型的代码。

25.根据权利要求24所述的计算机程序产品，其中所述多个预定对象模型中的至少一者包括交通标志的预定对象模型。

26.一种设备，其包括：

用于获得场景的第一帧的装置；

用于在所述第一帧的第一限界区内执行至少一个对象的对象辨识的装置；

用于在所述第一帧的所述第一限界区内执行所述至少一个对象的对象跟踪的装置；

用于基于所述对象跟踪而确定第二帧的第二限界区的装置，其中所述第二帧在所述第一帧之后；以及

用于基于预定对象模型而确定所述第二限界区是否为有效的装置。

27.根据权利要求26所述的设备，其进一步包括用于执行所述至少一个对象的对象检测的装置。

28.根据权利要求26所述的设备，其进一步包括：

用于在所述第二限界区是无效的情况下确定所述对象是否在所述第二限界区内的装置；以及

用于在所述对象在所述第二限界区内的情况下精炼所述第二限界区的装置。

29.根据权利要求26所述的设备，其进一步包括用于从多个预定对象模型选择所述预定对象模型的装置。

30.根据权利要求29所述的设备，其中所述多个预定对象模型中的至少一者包括交通标志的预定对象模型。