CN104011740B

CN104011740B - 对象跟踪及处理

Info

Publication number: CN104011740B
Application number: CN201280065071.9A
Authority: CN
Inventors: 丘衡; 丘衡一; 延奇宣; 百永基
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-01-06
Filing date: 2012-11-19
Publication date: 2017-06-09
Anticipated expiration: 2032-11-19
Also published as: JP6030149B2; US9349066B2; JP2015506516A; CN104011740A; EP2801053A1; KR20140109901A; IN2014CN04315A; WO2013103450A1; US20130177203A1

Abstract

一种方法包含跟踪视频数据的多个帧中的每一者中的对象以产生跟踪结果。所述方法还包含执行根据对象检测器或对象辨识器的多帧时延选择的所述多个帧中的帧的子集的对象处理。所述方法包含组合所述跟踪结果与所述对象处理的输出以产生组合的输出。

Description

对象跟踪及处理

相关申请案的交叉参考

本申请案是基于且主张2012年8月6日申请的第13/567,412号美国申请案及2012年1月6日申请的第61/584,062号美国临时专利申请案的优先权权益，所述申请案的全部内容以引用的方式并入本文中。

技术领域

本发明通常涉及图像处理。

背景技术

技术的进步导致计算装置越来越小且越来越强大。举例来说，当前存在多种便携式个人计算装置，包含很小、重量轻且易于由用户携带的无线计算装置(例如，便携式无线手机)、个人数字助理(PDA)及寻呼装置。更具体来说，例如蜂窝式手机及因特网协议(IP)手机等便携式无线手机可经由无线网络传达语音及数据包。此外，许多此类无线手机包含并入于其中的其它类型的装置。举例来说，无线手机还可包含数字静态相机、数字摄像机、数字记录器及音频文件播放器。

可通过计算装置(例如，无线电话)执行文本检测及辨识以识别已由装置的相机俘获的图像中的文本。有时，俘获的文本可相对于相机运动(例如，在移动车辆上的文本)且可有必要在文本移动时跟踪文本，同时提供文本的准确识别。

发明内容

对象处理及跟踪技术可执行对象跟踪及对象处理(例如，对象检测、对象辨识或其任何组合)两者以从视频数据准确地识别对象(例如，文本)且跟踪识别的对象的位置。跟踪及处理的时间可重叠或至少部分重叠(例如，跟踪或跟踪方法的部分可与处理或处理方法的部分并发执行)，且处理文本的结果(例如，文本的检测及/或辨识的结果)可与跟踪的结果组合以产生文本的状态信息。

不同于利用单个图像中的文本的定位及辨识的常规文本信息提取技术，所提出的技术可利用视频流中的文本的定位及辨识以改进用户体验及改进对象跟踪及检测系统的性能(例如，较高文本辨识响应速率)。通过执行在视频流而非在单个图像中的文本的定位及辨识，所提出的技术还可将实时体验提供给用户，且可减少误警率(即，视频流中的不正确的文本检测)。另外，所提出的技术采用视频流的帧之间的时间信息达成增加的文本检测准确性。

在特定实施例中，方法包含跟踪视频数据的多个帧中的每一者中的对象以产生跟踪结果。所述方法还包含执行根据对象检测器或对象辨识器的多帧时延选择的所述多个帧中的帧的子集的对象处理。所述方法包含组合所述跟踪结果与所述对象处理的输出以产生组合的输出。

在另一特定实施例中，设备包含经配置以跟踪视频数据的多个帧中的每一者中的对象以产生跟踪结果的跟踪器。所述设备还包含对象处理器，其经配置以处理根据对象处理器的多帧时延选择的多个帧中的帧的子集中的对象。所述设备包含时间滤波器，其经配置以组合跟踪器的跟踪结果与对象处理器的输出以产生组合的输出。

由所揭示的实施例中的至少一者提供的特定优势包含通过结合对象检测及/或辨识技术利用具有高帧速率及低时延的跟踪技术以高准确性执行对象跟踪及对象检测的能力。

在检视整个申请案后，将明白本揭示案的其它方面、优点及特征，申请案包含以下部分：附图说明、具体实施方式及权利要求书。

附图说明

图1为用以执行对象跟踪及处理的系统的特定实施例的框图；

图2为用以执行对象跟踪及检测的系统的特定实施例的框图；

图3为用以执行对象跟踪及辨识的系统的另一特定实施例的框图；

图4为用以说明可由图1的系统执行的对象跟踪及处理的实例的总图；

图5为用以说明可由图1的系统执行的对象跟踪及处理的另一实例的总图；

图6为用以说明可由图1的系统执行的对象跟踪及处理的另一实例的总图；

图7为执行对象跟踪及处理的方法的流程图；

图8为执行对象跟踪及处理的另一方法的流程图；及

图9为包含可操作以执行对象跟踪及处理的处理器的无线装置的特定实施例的框图。

具体实施方式

可在包含多个视频帧的视频流中的对象(即，文本)跟踪及辨识期间执行文本定位。可执行文本定位以定位输入视频流内的文本区。在给定视频流中的第t个帧I_t的情况下，视频流中的文本框的集合可表示为：

(等式1)，

其中N_t为文本框的数目，且表示第i个框。每一文本框可模型化为平行四边形。此外，每一文本框可表示为：

(等式2)，

其中p、q、r及s为平行四边形的四个边。另外，可表示视频帧中对应于的区。X_t可表示可从观测估计的文本框的集合的隐藏状态(即，未知状态或位置)。在常规基于单个图像的算法中，仅来自单个图像的检测结果被视为获得文本框的位置X_t。在基于单个图像的算法中，检测结果可表示为：

其中 (等式3)。

等式3的基于单个图像的算法不采用额外信息，例如文本框的时间信息。然而，在给定视频流的情况下，可采用例如时间信息等额外信息。举例来说，时间信息可用以通过使用文本框的一系列观测Z_0∶t来估计文本框的最优位置，其中所述的一系列观测Z_0∶t可表示为：

Z_t、Z_t-1、Z_t-2、……、Z₀ (等式4)。

因此，文本框(或文本框的集合)的位置X_t可从观测的序列(即，Z_t、Z_t-1、Z_t-2、……、Z₀)估计。上文所描述的估计可在贝叶斯滤波框架中递归地制定为：

P(X_t|Z_0∶t-1)＝∫P(X_t|X_t-1)P(X_t-1|Z_0∶t-1)dX_t-1 (等式5a)

(等式5b)，

其中等式5a为预测步骤，且等式5b为滤波(或更新)步骤。因此，X_t可基于等式5a及等式5b来估计。在估计X_t(即，确定文本框的位置)之后，还可估计每一文本框中的词(即，可确定文本框中的文本)。词估计步骤可使用下文所描述的滤波算法来执行。

在特定实施例中，时间滤波算法可包含结合数据关联技术利用多个卡尔曼跟踪器。应注意，常规多对象检测及跟踪方法可不适于估计文本框的位置，因为文本框通常并不像人类(例如，体育比赛中的运动员、行人)及动物(例如，蚂蚁)一样是高度交互式对象。因此，时间滤波算法可用以对视频流中的文本框执行多对象检测及跟踪。

文本框的动态可表示为：

(等式6)，

其中，模型化文本框在视频流的邻近帧之间的运动(即，局部运动)，且从具有协方差的零均值多元正态分布得到在估计时，可使用图像特征而不是运动历史(例如，自回归模型)，因为文本框的运动可使用图像特征来可靠地估计。

可实施角点检测方法以检测图像中的兴趣点。举例来说，FAST(来自加速段测试的特征)角点检测方法可用以提取第t-7个帧I_t-1中的区的角点。随后，可在第t个帧I_t中使用卢卡斯-卡那德算法确定区中提取的FAST角点的对应点。接下来，可使用包含RANSAC(随机抽样一致性)算法及DLT(直接线性变换)算法的强健运动估计技术来估计来自对应点的文本框的变换。特定来说，可假定可用相似变化近似文本框的运动。当周围的变换表示为：

x→Ax+b (等式7)时，

对于A∈R^2×2及b∈R²，那么为：

(等式8)，

其中测量等式可表达为：

(等式9)，

其中为对应于第i个跟踪器的检测结果，且从具有协方差的零均值多元正态分布得到

如等式9中所示，将观测指派给第i个跟踪器可造成数据关联问题。为了解决数据关联问题，展开匹配函数以产生跟踪器与检测结果之间的标量值。因为

(等式10)

是第t个帧处的对象(即，文本框)的预测位置，所以可在第i个跟踪器与第j个观测文本框之间将匹配函数定义为规格化重叠区域，其表达为：

(等式11)。

在数据关联中，考虑展示为M(i，j)≥0.8的一对，以贪婪方式将观测指派给跟踪器。

在已执行数据关联之后，可利用独立卡尔曼滤波器。可在检测结果不对应于现有跟踪器时起始新卡尔曼滤波器，且在不确定跟踪器的运动(例如，归因于少量的内围层)时忽略跟踪器(即，跟踪器的输出)。然而，当运动估计成功(即，可用)且将新观测指派给跟踪器时，可使用卡尔曼滤波器更新状态(即，状态信息)。应注意，不同于基于低级图像特征的常规方法，有时可不将检测结果指派给跟踪器(即，当运动估计不成功或不可用时)。在存在丢失观测的状况下，设定σ₂＝∞，意谓跳过测量更新。

基于上文所描述的数据关联方法及卡尔曼滤波，可获得对应于观测的集合的跟踪器的集合。可对可用观测执行光学字符辨识(OCR)以确定文本框中的词(即，实际文本)。在每一卡尔曼滤波器的n次最近OCR结果当中，最频繁的词被视为对应跟踪器中的词。在系结的状况下，不指派结果。

为了改进精度(即，为了减少误警的次数)，仅当在最近n个帧中至少m次检测特定文本框时展示(或显示)特定文本框。假定文本框的检测概率为p，此技术可改进文本框检测的精度。改进的精度可表达为：

(等式12)。

举例来说，如果n＝6，m＝3且p＝0.7，那么f(p，n，m)变为0.9295。因此，可通过采用时间信息(或减少误警)来改进精度。此外，可强加硬约束以防止文本框在视频流的帧中显著重叠。

在特定实施例中，可实施多线程以产生更佳用户体验(例如，较高帧速率)且节约计算功率。使用单线程的常规文本检测技术及常规文本辨识技术可归因于检测及辨识阶段的低帧速率而为耗时的，可不向用户产生实时体验，且可不产生高帧速率。揭示的实施例利用多线程处理，其包含OCR线程及跟踪线程。OCR线程可处理场景文本且执行时间滤波。随后与OCR线程并发地，跟踪线程可以高帧速率更新时间滤波的结果(例如，通过产生预览)。应注意，跟踪阶段具有比检测及辨识阶段(即，OCR线程)高的帧速率(或较低时延)。因此，通过使用包含OCR线程及跟踪线程的多线程实施方案，与利用单线程的系统相比较，达成了较高帧速率。

在时间滤波过程期间，获得的文本框的坐标可归因于时间滤波过程的多帧时延而不为当前帧的坐标(例如，坐标可为先前帧中的文本框的坐标系)。因此有利地将第t个帧中的估计的文本框变换成当前帧I_t+k(k≥1)的坐标系，如等式10中所表达。参看图1到7更详细描述揭示的实施例。

参看图1，揭示用以执行对象跟踪及处理的系统的特定实施例，且其通常表示为100。系统100包含耦合到图像处理装置104的图像俘获装置102。图像处理装置104耦合到显示装置106及存储器108。图像处理装置104经配置以检测传入图像数据或视频数据中的对象151(例如，文本框152)，且跟踪及执行对象的对象处理以产生对象的更新状态信息以供显示。对象处理可包含对象检测、对象辨识或其组合。

在特定实施例中，图像俘获装置102可包含经配置以将表示具有包含文本153的文本框152的场景的输入图像150的传入光引导到图像传感器112的透镜110。图像传感器112可经配置以基于检测的传入光产生视频或图像数据160。图像俘获装置102可包含相机、视频记录装置、无线装置、便携式电子装置或其组合。应注意，文本框152是出于说明的目的且可不出现于场景中。文本框152可用以说明输入图像150中的对应对象151。尽管图1说明一个对象151，但由图像俘获装置102俘获的输入图像150可包含多个对象。

在特定实施例中，图像处理装置104可经配置以检测传入视频/图像数据160中的对象151(例如，包含文本153的文本框152)，且跟踪视频数据160的多个帧中的每一者中的对象以产生跟踪结果，且还可执行多个帧中的单个帧的对象处理(例如，对象检测及/或辨识)。图像处理装置104可进一步经配置以组合跟踪结果与对象处理的输出以产生组合的输出且基于组合的输出更新对象的状态信息。

为了进行说明，跟踪器114可产生视频数据160的多个帧中的每一帧的跟踪结果，且归因于跟踪器114的单个帧时延更新每一帧(例如，帧1结果、帧2结果、帧3结果、帧4结果，……，帧n结果)的状态信息154。因此，可在可从跟踪器114(即，在每一帧处)得到跟踪结果时更新状态信息154。相对比地，与跟踪器114相比，对象检测器/辨识器124可较不频繁地产生帧结果，且因此可与跟踪器114相比较不频繁地更新状态信息，这是归因于对象检测器/辨识器124的多帧时延。举例来说，对象检测器/辨识器124可不产生某些帧的帧结果(即，“跳过”一些帧)。因此，可基于帧的子集(即，少于所有帧)的对象检测器/辨识器124的输出更新状态信息154。举例来说，虽然跟踪器114可产生从帧1到帧n的每一帧的帧结果，但对象检测器/辨识器124可产生仅帧1、5、13，……及n的输出，如图1中所示。

可将更新的状态信息154的输出170提供给显示装置106。显示装置106可基于更新的状态信息154显示输出图像170。举例来说，状态信息154及后续更新(即，更新的状态信息)可包含关于对象151的信息，例如从帧到帧的对象的位置、从帧到帧的对象中含有的文本、关于对象的扩增内容，或其任何组合。

为了进行说明，图像处理装置104可包含对象跟踪器及辨识器101。对象跟踪器及辨识器101可包含跟踪器114、对象检测器/辨识器124及时间滤波器134。跟踪器114可经配置以跟踪视频数据160的多个帧中的每一者中的对象151以产生跟踪结果。在特定实施例中，跟踪器114可具有单个帧时延。举例来说，跟踪器114可跟踪视频数据160的多个帧中的每一者中的对象151以产生多个帧中的每一者的帧结果(例如，帧1结果、帧2结果、……、帧n结果)。对象检测器/辨识器124可经配置以处理多个帧中的帧的子集中的对象151(例如，检测对象154、辨识对象154或其任何组合)。举例来说，对象检测器/辨识器124可为经配置以检测及辨识多个帧中的帧的子集中的对象151的对象检测器及对象辨识器。

在特定实施例中，对象检测器/辨识器124可具有多帧时延。举例来说，对象检测器/辨识器124可不产生多个帧中的一或多个帧的帧结果(即，与跟踪器112相比，对象检测器/辨识器124较不频繁地产生帧结果)。对象检测器/辨识器124可产生帧1、5、13，……及n的结果，但可不产生帧2、3、4、6、7、8、9、10、11及12的帧结果，如图1中所示。

因此，当更新状态信息154时，对象处理结果(例如，对象检测结果、对象辨识结果或其任何组合)可能不可用于一或多个帧(例如，帧2、3、4、6、7、8、9、10、11及12)。举例来说，当基于帧13处理结果(即，当前帧)更新状态信息154时，时间滤波器134补偿帧5(对象检测器/辨识器124的先前帧)与帧13之间的运动。在特定实施例中，时间滤波器134可基于历史运动信息(即，运动历史)补偿当前帧与先前帧之间的运动。为了进行说明，时间滤波器134可利用帧1结果与帧5结果之间的运动信息(即，历史运动信息)来确定对象检测器/辨识器124的帧5结果与帧13结果之间的运动信息。因此，当对象检测器/辨识器124结果可用时，时间滤波器134可基于新对象检测器/辨识器124结果、对象检测器/辨识器124的先前结果、运动历史或其任何组合更新状态信息154。另外，当跟踪器114结果可用(即，对于多个帧中的每一帧)时，时间滤波器134可基于跟踪器114结果更新状态信息154。对象检测器/辨识器124及跟踪器114产生在不同频率处的结果，因此时间滤波器134可由对象检测器/辨识器124及跟踪器114非同步地存取。

与来自对象检测器/辨识器124的输出(即，对应于多个帧的子集的输出)相比，时间滤波器134可更频繁地从跟踪器114接收跟踪结果(即，对应于多个帧中的每一帧的跟踪结果)，且可经配置以组合跟踪器114的跟踪结果与对象检测器/辨识器124的输出以产生组合的输出144及基于组合的输出144更新对象151的状态信息154。因此，状态信息154可包含与组合的输出144相比较的额外信息。额外信息可包含运动历史、经重构的三维点、视点等。在特定实施例中，对象151可对应于文本框(例如，包含文本153的文本框152)及文本框152的位置。

在特定实施例中，时间滤波器134可包含如关于图6所描述的卡尔曼滤波器及最大似然估计器。卡尔曼滤波器可经配置以确定包含文本框152的坐标的文本框152的位置。举例来说，文本框152的位置可包含涵盖文本153的包围体的二维(2D)位置(例如，x及y坐标)。涵盖文本153的包围体的三维(3D)位置(例如，x、y及z坐标)可从2D位置推断或导出。在特定实施例中，可使用卡尔曼滤波器、粒子滤波器或扩展卡尔曼滤波器中的至少一者执行位置处理。在特定实施例中，可使用最大似然估计器或最大后验估计器中的至少一者获得识别信息。

最大似然估计器可经配置以经由光学字符辨识(OCR)产生提出的文本数据且存取字典以验证提出的文本数据。举例来说，最大似然估计器可存取存储于存储器108中的一或多个字典，例如代表字典140。提出的文本数据可包含多个文本候选144及与多个文本候选144中的每一者相关联的置信度数据。最大似然估计器可经配置以根据与文本候选相关联的置信度值选择对应于字典140的条目的文本候选。为了进行说明，文本153可识别为具有95％的置信度值的‘汽车(car)’，识别为具有90％的置信度值的‘猫(cat)’，且识别为具有50％的置信度值的‘载送(carry)’。因为文本候选‘汽车’具有最高置信度值，所以可由最大似然估计器选择‘汽车’。

在特定实施例中，可在将图像处理装置104集成到其中的处理器的对象处理阶段期间执行由对象检测器/辨识器124进行的对象处理(例如，对象检测、对象辨识或其任何组合)。处理器的对象处理阶段可包含对象检测阶段、对象辨识阶段或其任何组合。类似地，可在处理器的跟踪阶段期间执行由跟踪器114进行跟踪。处理器可进一步包含组合阶段，其中跟踪阶段包含时间滤波器134及更新的状态信息154的组合的输出的产生。参看图4更详细描述跟踪阶段、对象处理阶段(例如，检测阶段、辨识阶段或其任何组合)及组合阶段。

在特定实施例中，显示装置106可经配置以使用更新的状态信息154产生输出图像170。举例来说，显示装置106可包含图像预览屏或其它视觉显示装置。显示于显示装置106上的输出图像170可包含识别的文本157且还可包含基于对象状态的图像内容158。举例来说，图像内容158可包含基于识别的文本157插入到输出图像170中的扩增特征。扩增特征可包含嵌入有文本157的相关内容。举例来说，如果文本157为‘汽车’，那么输出图像170可包含文本‘汽车’及汽车的图像、‘汽车’的定义、汽车的类型、构造及/或模型、例如历史数据等其它信息或其任何组合。因此，输出图像170可包含从真实世界场景检索的文本157，且还可包含基于文本157的相关内容。通过以此方式产生输出图像170，图像处理装置104可将有用及感兴趣的信息提供给用户。

在特定实施例中，可经由专用电路来实施图像处理装置104(例如，包含跟踪器114、对象检测器/辨识器124、时间滤波器134或其任何组合)的至少一部分。在其它实施例中，可由图像处理装置104中的执行计算机可执行代码的硬件处理器(或多个处理器)实施图像处理装置104的至少一部分。为了进行说明，存储器108可包含存储可由图像处理装置104中或耦合到图像处理装置104的一或多个处理器执行的程序指令142的非暂时性计算机可读媒体。程序指令142可包含用于跟踪视频数据(例如，视频数据160)的多个帧中的每一者中的对象的代码及用于产生跟踪结果的代码。程序指令142可包含用于执行多个帧中的帧的子集中的对象的对象处理(例如，对象检测、对象辨识或其任何组合)的代码，其中根据检测器/辨识器124的多帧时延选择帧的子集。程序指令142还可包含用于组合跟踪结果与对象处理(例如，对象检测、对象辨识或其任何组合)的输出以产生组合的输出的代码及用于响应于单个帧的对象处理的完成基于组合的输出更新对象的状态信息的代码。

仅利用图像俘获装置中的对象检测器/辨识器的系统可归因于对象检测器/辨识器的多帧时延而体验到显示的输出中的闪烁。举例来说，到对象检测器/辨识器完成第一帧的检测及辨识的时间，第一帧中的第一位置(例如，x1、y1)中的对象可能已移动到第四帧中的第四位置(例如，x4、y4)，造成输出图像的跳跃或闪烁(例如，归因于丢失帧)。此外，仅使用跟踪器的系统可不准确地识别由图像俘获装置俘获的对象。图1的系统因此可通过结合对象跟踪器利用对象检测器/辨识器以与仅利用对象检测器/辨识器(例如，检测及辨识引擎)或仅利用跟踪器的图像处理装置相比较减少或消除闪烁及减少时延，将由图1的图像俘获装置俘获的对象的更准确信息及识别提供给用户。

参看图2，揭示用以执行对象跟踪及检测的系统的特定实施例，且其通常表示为200。系统200包含耦合到图像处理装置204的图1的图像俘获装置102、显示装置106及存储器108。图像俘获装置102、显示装置106及存储器108可经配置以如关于图1所描述般操作。图像处理装置204可经配置以检测传入图像数据或视频数据中的输入图像150的对象151，且跟踪及执行对象151的对象检测以产生对象151的更新的状态信息154以供显示。

图像处理装置204包含对象跟踪器及检测器201。对象跟踪器及检测器201包含跟踪器114、对象检测器224及时间滤波器134。跟踪器114可经配置以跟踪视频数据160的多个帧中的每一者中的对象151以产生跟踪结果。在特定实施例中，跟踪器114具有单个帧时延。举例来说，跟踪器114可跟踪视频数据160的多个帧中的每一者中的对象151以产生多个帧中的每一者的帧结果(例如，帧1结果、帧2结果、……、帧n结果)。对象检测器124可经配置以检测多个帧中的帧的子集中的对象151。在特定实施例中，对象检测器224不经配置以执行对象辨识。

因为图像处理装置204可执行对象跟踪及对象检测而不执行对象辨识，所以图像处理装置可消耗比执行对象跟踪、对象检测及对象辨识的图1的图像处理装置104少的计算功率。

参看图3，揭示用以执行对象跟踪及辨识的系统的另一特定实施例，且其通常表示为300。系统300包含耦合到图像处理装置304的图1的图像俘获装置102、显示装置106及存储器108。图像俘获装置102、显示装置106及存储器108可经配置以如关于图1所描述般操作。图像处理装置304可经配置以辨识传入图像数据或视频数据中的输入图像150的对象151，且跟踪及执行对象151的对象辨识以产生对象151的更新的状态信息154以供显示。

图像处理装置304包含对象跟踪器及辨识器301。对象跟踪器及辨识器301包含跟踪器114、对象辨识器324及时间滤波器134。跟踪器114可经配置以跟踪视频数据160的多个帧中的每一者中的对象151以产生跟踪结果。在特定实施例中，跟踪器114具有单个帧时延。举例来说，跟踪器114可跟踪视频数据160的多个帧中的每一者中的对象151以产生多个帧中的每一者的帧结果(例如，帧1结果、帧2结果、……、帧n结果)。对象辨识器324可经配置以辨识多个帧中的帧的子集中的对象151。在特定实施例中，对象辨识器324不经配置以执行对象检测。

因为图像处理装置304可执行对象跟踪及对象辨识而不执行对象检测，所以图像处理装置304可消耗比执行对象跟踪、对象检测及对象辨识的图1的图像处理装置104少的计算功率。

参看图4，揭示说明可由图1到3的系统100到300执行的对象跟踪及处理的实例的总图，且其通常表示为400。图4描绘图像处理装置的各种图像处理阶段。阶段可包含对象处理阶段402(例如，检测阶段、辨识阶段或其任何组合)、跟踪阶段404及组合阶段406。

在特定实施例中，由对象处理器(例如，图1的对象检测器/辨识器124、图2的对象检测器224或图3的对象辨识器324)进行的对象处理(例如，对象检测、对象辨识或其任何组合)可在对象处理阶段402期间执行，由跟踪器114进行的对象跟踪可在跟踪阶段404期间执行，且跟踪阶段404的结果与对象处理阶段402的输出的组合可在组合阶段406期间执行。组合阶段406还可包含对象的更新状态信息且可由时间滤波器134执行。

在特定实施例中，跟踪阶段404的结果可比对象处理阶段402的输出更频繁地产生，因为跟踪器114可具有单个帧时延，而对象处理器(例如，检测器/辨识器124)可具有多帧时延。组合阶段406可由时间滤波器134产生组合的输出，且更新状态信息154。应注意，跟踪阶段404及对象处理阶段402的时间可至少部分重叠(例如，并发地或同时)。举例来说，跟踪阶段404或跟踪阶段404的部分可与对象处理阶段402或对象处理阶段402的一部分并发地执行。

在操作期间，图像处理装置104可接收由图像俘获装置102俘获的视频数据160作为视频数据160的多个帧。图像处理装置104可将视频数据160的多个视频帧提供给对象跟踪器及辨识器101。对象跟踪器及辨识器101可包含图1的跟踪器114、对象检测器/辨识器124及时间滤波器134。为了进行说明，可在接收到多个帧中的第一帧151a之后起始跟踪阶段404及对象处理阶段402，其中多个帧151a到151c包含由图像俘获装置104俘获的文本153(即，“汽车”)。

在跟踪阶段404期间，跟踪器114可跟踪多个视频帧151a到151c中的每一者中的文本153以分别产生多个视频帧151a到151c中的每一者的跟踪结果414a到414c。可基于在场景中文本153或文本框152相对于图像俘获装置102的运动(例如，在移动车辆上的文本)或基于图像俘获装置102相对于文本153或相对于文本框152的运动而跟踪文本153。跟踪阶段404可产生对应于第一帧151a的第一跟踪结果414a、对应于第二帧151b的第二跟踪结果414b及对应于第三针151c的第三跟踪结果414c。可将第一跟踪结果414a、第二跟踪结果414b及第三跟踪结果414c中的每一者提供为第一跟踪输出170a、第二跟踪输出170b及第三跟踪输出170c，如图所示。

在特定实施例中，跟踪器114可具有单个帧时延。因此，跟踪器114可经配置以跟踪视频数据160的多个帧151a到151c中的每一者中的文本153的运动(例如，位置)以产生多个视频帧151a到151c中的每一者的帧结果(例如，跟踪结果)414a到414c。举例来说，跟踪器114可跟踪文本151，因为其在第一视频帧151a中垂直地定位，在第二视频帧151b中对角地定位，且在第三视频帧151c中水平地定位。为了进行说明，跟踪器114可执行第一视频帧151a的第一跟踪114a以产生第一跟踪结果414a，执行第二视频帧151b的第二跟踪114b以产生第二跟踪结果414b，及执行第三视频帧151c的第三跟踪114c以产生第三跟踪结果414c。

尽管图4说明在跟踪阶段404期间对三个视频帧执行的跟踪，但应注意，跟踪阶段404可包含在跟踪阶段404的特定出现期间小于三个或大于三个视频帧的跟踪。此外，应注意，可在多个视频帧中的每一视频帧中跟踪视频数据160中的多个对象(例如，多个文本框)。

在对象处理阶段402期间，对象检测器/辨识器124可开始检测(例如，识别)第一视频帧151a中的文本153。举例来说，检测器/辨识器124可经配置以在对象处理阶段402期间检测及辨识第一视频帧151a中的文本153。在特定实施例中，检测器/辨识器124可具有多帧时延。因此，对象处理阶段402的时间可横跨多个帧中的多个帧。举例来说，与跟踪阶段404相比，对象处理阶段402可较不频繁地产生帧结果(即，文本153的检测及辨识)。在对象处理阶段402期间，检测器/辨识器124可经配置以接收含有文本153的第一帧151a，检测第一帧151a中的文本153及经由光学字符辨识(OCR)产生提出的文本数据。因此，对象处理阶段402可包含检测第一帧151a中的文本153周围的区，辨识(即，识别)第一帧151a中的文本153或其任何组合。对象检测器/辨识器124可进一步经配置以存取字典以验证提出的文本数据。举例来说，对象检测器/辨识器124可存取存储于图1的存储器108中的一或多个字典，例如字典140。提出的文本数据可包含多个文本候选及与多个文本候选相关联的置信度数据。检测器/辨识器124可根据与文本候选相关联的置信度值选择对应于字典140的条目(例如，条目144)的文本候选。在对象处理阶段402(例如，检测阶段、辨识阶段或其任何组合)的终止(例如，完成)处，可产生对象检测器/辨识器124的输出。可将来自对象处理阶段402的输出提供给时间滤波器134。

可在结果可由跟踪阶段404或对象处理阶段402使用时触发组合阶段406。因为对象处理阶段402横跨多个视频帧，所以与对象处理阶段402的输出，来自跟踪阶段404的结果可更频繁地触发组合阶段406。举例来说，跟踪阶段404及对象处理阶段402皆可在接收到第一帧151a之后开始；然而，跟踪阶段404可继续跟踪第二视频帧151b中及第三视频帧151c中的文本153(即，在多个帧中的跟踪)，而对象处理阶段402检测/辨识第一帧151a中的文本153(即，在单个帧中的检测/辨识)。

在组合阶段406期间，时间滤波器134可经配置以组合由跟踪阶段404产生的跟踪器114(例如，第一跟踪结果414a、第二跟踪结果414b及第三跟踪结果414c)的跟踪结果与对象处理阶段402中产生的对象检测器/辨识器124的输出。时间滤波器134可进一步经配置以获得文本153的时间信息(即，基于跟踪阶段404及对象处理阶段402获得组合的输出)。在特定实施例中，组合跟踪结果与对象处理(例如，检测、辨识或其任何组合)的输出包含关于对象处理的输出集成跟踪结果以获得文本153的时间信息。与使用来自单个帧的信息(例如，仅来自对象检测及辨识的信息)的情况相比较，基于帧序列计算的时间信息可减少或消除文本153的误检测。因此，组合阶段406的时间滤波器134可经配置以通过使用连续帧之间的运动信息(即，跟踪结果)集成连续帧的对象检测器/辨识器124的输出。

在特定实施例中，集成跟踪结果与对象检测及辨识的输出可包含结合最大似然估计器使用卡尔曼滤波器。举例来说，时间滤波器134可包含卡尔曼滤波器及最大似然估计器以用于执行集成。卡尔曼滤波器可经配置以在文本在一段时间内相对于图像俘获装置102移动时或在图像俘获装置102在一段时间内相对于多个帧中的每一者中的文本153移动时，确定多个帧中的每一者中的文本153的位置。最大似然估计器可经配置以产生表示多个帧中的每一者中的文本153的提出的文本数据(例如，经由光学字符辨识(OCR))。

在完成组合阶段406之后，可产生组合的输出414d，且可基于组合的输出414d更新文本153的状态信息154。此外，可将至少部分基于更新的状态信息154的输出170d提供给图1的显示装置106。在特定实施例中，组合阶段406的输出170d可包含识别的文本153，且还可包含基于识别的文本153插入到输出170d中的一或多个扩增实境特征。扩增实境特征可包含嵌入有文本153的相关内容。举例来说，识别为“汽车”的文本153还可包含汽车的图像，如输出170d中所示。为了进行说明，更新的状态信息154可包含连续帧(例如，帧151a到151c)之间的文本153的移动，且可基于移动修改组合阶段406的输出170d，如图4中所示。时间滤波器134可基于文本153的含义、转译或其它方面选择一或多个扩增实境特征。在特定实施例中，至少一个扩增实境特征呈现为输出170中的三维对象。

在完成组合阶段406之后，即可在多个帧中的下一帧(例如，第四视频帧151d)再次起始对象处理阶段402。另外，可对第四视频帧151d及连续视频帧(例如，第五视频帧151e、……、第n视频帧151n)执行跟踪。尽管图4出于解释清楚的目的说明第三视频帧151c与第四视频帧151d之间的间隙，但可以实质上规则间隔接收及处理帧151a到151z。在第四视频帧151d中，可将先前识别为“汽车”的文本153重新识别为“手推车(cart)”。举例来说，在先前帧(例如，第一帧151a)的检测及/或辨识期间可能已包含字母‘t’，且可将文本153重新识别为“手推车”。跟踪阶段404可在对第四视频帧151d执行文本153(即，“手推车”)的检测及辨识时继续提供跟踪的结果(例如，第五跟踪结果170e、第六跟踪结果170f、……、第n跟踪结果170n)，如上文所描述。可由跟踪阶段404的终止触发组合阶段。因此，如先前所描述，可在组合阶段406期间将跟踪阶段404的结果及来自对象处理阶段402的输出提供给时间滤波器134，以产生组合的输出170z。组合的输出170z可包含校正/新的文本153(“手推车”)，其包含与文本153相关的内容(即，扩增特征)。

因此，所描述的实施例可通过使用文本的时间信息(即，相同区/文本框中的文本在多个帧中可能是相同的)提供视频数据中的文本的准确识别，其中在单个帧中的对象检测的输出与跨越多个帧的对象跟踪的结果组合。如所描述的跟踪器与检测器/辨识器的组合还可通过将在相对高帧速率下且实质上无闪烁的准确文本识别提供给图像俘获装置的用户而导致改进的用户体验。尽管关于图1的对象检测器/辨识器124描述对象处理阶段402，但在其它实施例中，对象处理阶段402可包含由图2的对象检测器224执行的对象检测或由图3的对象辨识器324执行的对象辨识。

参看图5，总图500说明可由图1到3的系统100到300执行的对象处理(例如，对象跟踪、对象辨识或其任何组合)的另一实例，其中图1的跟踪器114及对象检测器/辨识器124、图2的对象检测器224及/或图3的对象辨识器324各自具有单个帧时延。图5描绘多个视频帧510、520及530及用以产生每一视频帧的输出的由图1的系统100对多个视频帧510到530进行的处理。

在操作期间，可将第一视频帧510提供给图1的图像处理装置104。图像处理装置104可包含跟踪器114、对象检测器/辨识器124及时间滤波器134。对于每一帧510到530，对象检测器/辨识器124可执行文本的处理(例如，检测及/或辨识)以产生检测/辨识输出，跟踪器114可执行文本的跟踪以产生跟踪结果，且时间滤波器134可组合检测及/或辨识的输出与跟踪结果以产生组合的输出。

为了进行说明，对象检测器/辨识器124可对第一帧510执行对象处理(例如，对象检测及/或对象辨识)以检测第一帧510中的文本对象(或包含文本的在第一帧510中的区)，及产生对象检测器/辨识器124的第一输出(例如，辨识的文本数据)，且跟踪器114可跟踪第一帧510中的文本对象以产生第一跟踪结果。时间滤波器134可组合检测器/辨识器124的第一输出与第一跟踪结果以产生第一组合的输出511(例如，文本输出)。在特定实施例中，文本输出可包含识别的文本数据(例如，“汽车”)及文本数据的位置信息(例如，文本数据的二维或三维坐标)。类似地，对象检测器/辨识器124可对第二帧520执行文本对象处理(例如，文本对象检测及/或文本对象辨识)以产生检测器/辨识器124的第二输出，且跟踪器114可跟踪第二帧520中的文本对象以产生第二跟踪结果。时间滤波器134可组合对象检测器/辨识器124的第二输出与第二跟踪结果以产生第二组合的输出521。可对多个帧中的每一帧重复过程以产生多个组合的输出。因此，图5中所描述的实施例可组合文本处理(例如，检测及/或辨识)输出与视频数据的多个帧中的每一者的文本跟踪结果以提供视频数据中的文本对象的识别。

参看图6，揭示说明图1到3的系统100到300的操作的实例的总图，且其通常表示为600。特定来说，图6说明图1的系统100的控制流程及时序图。

相机102(即，图1的图像俘获装置102)可将视频数据160提供给跟踪器114及提供给检测器/辨识器124的检测器622。视频数据160可包含多个视频帧，所述多个视频帧包含对象151(例如，包含文本153)。检测器622可经配置以检测多个视频帧中的每一者中的文本153，及将检测的输出提供给时间滤波器134的卡尔曼滤波器632。另外，跟踪器114可经配置以(例如，通过跟踪文本框152)跟踪多个视频帧中的每一者中的文本153(即，检测连续视频帧中的文本153之间的运动)，及将跟踪的输出提供给卡尔曼滤波器632。

卡尔曼滤波器632可经配置以从时间滤波器134的最大似然估计器634存取信息，且将卡尔曼滤波器632的输出提供给最大似然估计器634。在特定实施例中，卡尔曼滤波器632可经配置以确定包含文本153的坐标的文本153的位置。举例来说，文本153的位置可包含文本框152的二维(2D)位置。涵盖文本153的包围体的三维(3D)位置(例如，x、y及z坐标)可从2D位置推断。另外，卡尔曼滤波器632可经配置以基于连续视频帧的处理随时间的流逝而更新文本153的位置(即，定位)。

最大似然估计器634可经配置以基于检测的文本及多个视频帧中的文本的运动产生提出的文本数据。最大似然估计器634可经配置以存取字典以验证提出的文本数据。举例来说，最大似然估计器可存取存储于存储器中的一或多个字典(例如，图1的字典140)。提出的文本数据可包含多个文本候选及与多个文本候选相关联的置信度数据。最大似然估计器634可经配置以根据与文本候选相关联的置信度值选择对应于字典140的条目的文本候选。举例来说，最大似然估计器634可选择文本，因为文本具有字典140中的最高对应置信度值。

检测器/辨识器124的辨识装置624可经配置以辨识(即，识别)多个帧中的每一者中的文本。辨识装置624可包含光学字符辨识(OCR)。辨识装置624可经配置以将文本像素数据转译成机器编码文本。通过将多个视频帧中的每一者中的文本转译成机器编码的文本，可存储、显示来自每一帧的文本及将其提供给最大似然估计器624以改进识别的文本的准确性。应注意，尽管检测器622及辨识装置624经展示成检测器/辨识器124的两个单独组件，但可将检测器622及辨识装置624并入到一个组件中。

可在产生显示输出650之前将时间滤波器134(包含卡尔曼滤波器632及最大似然估计器634)的输出提供给帧掺合器640。帧掺合器640可包含内插器，且可经配置以产生现有帧之间的中间帧(即，由相机102产生的视频数据160的多个帧)以使得能够在显示装置(例如，图1的显示装置106)上更流畅地显示帧。举例来说，如果由相机102俘获的视频数据160的帧速率小于显示装置106的帧速率，那么帧掺合器640可经配置以复制多个视频中的一或多者及/或在显示装置106处显示视频帧之前产生中间帧以产生流畅输出650(即，显示)。

图6还描绘可由图1的系统100执行的对象跟踪及辨识的时序图。在时序图中，在多个帧中的第一帧内的检测/辨识610a的时间可与多个帧中的第一帧的跟踪620a至少部分重叠(例如，并发地或同时)。在特定实施例中，可对多个帧中的一或多个帧执行跟踪，同时对第一帧执行检测/辨识。举例来说，在由检测器/辨识器124执行检测辨识610a时，可对第一帧620a、第二帧620b、第三帧620c及第三帧620d执行跟踪，如图所示。因此，跟踪器114可具有单个帧时延且检测器/辨识器124可具有多帧时延。

另外，可在多个帧中的每一者之间(例如，在每一跟踪620a到620d之间)执行由帧掺合器640进行的掺合660以提供显示装置106处的中间帧数据。在完成第四帧的跟踪620d之后，即可由时间滤波器134执行状态更新670。时间滤波器可经配置以基于多个帧中的每一者的跟踪620a到620d及单个帧的检测/辨识610a更新状态信息。举例来说，状态信息及后续更新可包含从帧到帧的文本153的位置、文本153(例如，“汽车”)的识别及与文本153相关的扩增内容(例如，3D图像)。在执行状态信息的更新之后，检测器/辨识器124可开始下一可用帧的检测/辨识610b。举例来说，下一帧可为第五帧。类似地，跟踪器114可开始跟踪620e第五帧，跟踪620f第六帧，跟踪620g第七帧，跟踪620h第八帧，及跟踪620i第九帧。帧掺合器640可产生中间帧且在帧之间插入中间帧(即，掺合660)。来自跟踪(620e到620i)的跟踪结果可与检测/辨识610b的输出组合以产生组合的输出及更新680状态信息。可继续执行检测/辨识及跟踪直到已处理多个帧中的所有帧为止。

参看图7，说明执行对象跟踪及处理的方法700的流程图。在说明性实施例中，方法700可在图1的图像处理装置104处，在图2的图像处理装置204处或在图3的图像处理装置304处执行。

方法700可包含在710处接收视频数据的输入帧。举例来说，图像处理装置104可从图像俘获装置102接收视频数据160。视频数据160可包含多个视频帧。视频数据160的多个视频帧中的每一者可包含含有文本153的对象151。图像处理装置104可包含对象跟踪器及辨识器101。对象跟踪器及辨识器101可包含跟踪器114、检测器/辨识器124及时间滤波器134。

方法700还可包含在决策元素720处确定对象处理是否完成。举例来说，图1的对象跟踪器及辨识器101可经配置以确定检测器/辨识器124是否已完成单个帧(例如，视频数据160的多个帧中的第一帧)的对象检测及/或对象辨识。作为另一实例，图2的对象跟踪器及检测器201可经配置以确定对象检测器224是否已完成单个帧的对象检测。作为另一实例，图3的对象跟踪器及辨识器301可经配置以确定对象辨识器324是否已完成单个帧的对象辨识。在特定实施例中，对象处理可具有多帧时延。

响应于在720处确定已完成对象处理，可在730处基于对象处理的输出更新对象的状态信息，且可在740处在视频数据的下一帧起始对象处理。举例来说，如果图1的检测器/辨识器124已完成多个帧中的当前帧的对象检测及/或对象辨识，那么检测器/辨识器124的当前输出可用以更新对象的状态信息。为了进行说明，对象检测器/辨识器124可在当前帧中将对象151重新识别(即，检测及辨识)为文本“手推车”(例如，字母“t”在先前帧中被遮蔽且文本被识别为“汽车”)，且可例如通过用当前识别的文本“手推车”替换先前识别的文本“汽车”来更新对象的状态信息。此外，检测器/辨识器124可在视频数据的下一帧(例如，第二帧)起始对象检测及/或对象辨识。

在720处检测到已完成对象处理(例如，对象检测及/或对象辨识)之前，可在750处估计特定帧与先前帧之间的对象的运动，且可在760处基于估计的运动更新对象的状态信息。举例来说，如果图1的检测器/辨识器124尚未完成第一帧的对象处理(例如，对象检测及/对象辨识)，那么跟踪器114可执行第二帧与第一帧之间的文本153的运动估计。为了进行说明，文本153可能已从第一帧中的垂直定位移动到第二帧中的对角定位。跟踪器114可经配置以跟踪第一帧及第二帧中的文本153的运动及估计从帧到帧的文本153的运动。此外，由跟踪器114进行的运动估计的跟踪结果可用以在处理完成之前更新文本153的状态信息(即，归因于检测器/辨识器124的多帧时延)。举例来说，更新的状态信息可包含从帧到帧的文本153的位置改变。为了进行说明，更新的状态信息可包含由第二帧中的文本153的第二位置(例如，坐标x2、y2)更新的第一帧中的文本153的第一位置(例如，坐标x1、y1)。

可在770处基于对象的更新的状态信息产生输出。举例来说，由图1的跟踪器114及检测器/辨识器124提供的状态信息及后续更新可包含关于对象的信息，例如从帧到帧的对象的位置、从帧到帧的对象中含有的文本、关于对象的扩增内容，或其任何组合。因此，图像处理装置104可基于更新的状态信息产生输出(例如，文本及嵌入的内容)以供在显示装置106处显示。

参看图8，说明执行对象跟踪及辨识的方法800的另一特定实施例的流程图。在说明性实施例中，方法800可在图1的图像处理装置104、图2的图像处理装置204处或图3的图像处理装置304处执行。

方法800包含在810处跟踪视频数据的多个帧中的每一者中的对象以产生跟踪结果。举例来说，图1到3的跟踪器114可经配置以跟踪视频数据160的多个帧(例如，第一帧、第二帧、第三帧等)中的每一者中的对象(例如，包含文本153的对象151)及产生多个帧中的每一者的帧结果(例如，帧1结果、帧2结果、……、帧N结果)。

方法800还包含在820处执行根据对象检测器或对象辨识器的多帧时延选择的多个帧中的帧的子集的对象处理(例如，对象检测、对象辨识或其任何组合)，其中对象处理及跟踪的时间至少部分重叠。举例来说，图1的检测器/辨识器124可经配置以检测及/或辨识多个帧中的帧的子集中(例如，在第一帧、第五帧及第十三帧中)的对象151，及产生由跟踪器114产生的每N个帧结果(例如，帧2到4)的单个帧结果(例如，帧5结果)，其中N为大于1的整数。

在830处，跟踪结果与对象处理的输出组合以产生组合的输出。举例来说，时间滤波器134可经配置以组合跟踪器114的跟踪结果(即，跟踪器114的帧1结果、帧2结果及帧3结果)与对象处理的输出(例如，检测器/辨识器124的帧1结果)以产生组合的输出(例如，组合的输出144)。

在840处基于组合的输出更新对象的状态信息。举例来说，时间滤波器134可包含图6的卡尔曼滤波器632及图6的最大似然估计器634。此外，时间滤波器134可经配置以基于组合的输出144更新对象的状态信息154。举例来说，更新的状态信息154可包含阵列，所述阵列包含对应于从帧到帧(即，在一段时间内)的对象的信息。为了进行说明，更新的状态信息154可包含对象的位置、从对象识别的文本、与文本相关的内容或其任何组合。

参看图9，描绘包含可操作以执行对象跟踪及处理的处理器的无线装置的特定说明性实施例的框图，且其通常表示为900。装置900包含耦合到存储器108的处理器，例如处理器910。处理器900可包含对象跟踪器及辨识器(例如，图1的对象跟踪器及辨识器101)。在说明性实例中，对象跟踪器及辨识器101可根据图4到8中的任何一或多者或其任何组合操作。

在特定实施例中，对象跟踪器及辨识器101可集成到处理器910中，且可包含用以执行关于图1到3所描述的功能性的至少一部分的专用电路或其它逻辑。在特定实施例中，存储器108包含可由处理器910执行以致使处理器910执行关于图1到8中的任一者描述的功能性的至少一部分的指令142。举例来说，指令142可包含可由计算机(例如，处理器910)执行以致使计算机执行图7的方法700、图8的方法800或其任何组合的指令。

在特定实施例中，对象跟踪器及辨识器101可包含跟踪器(例如，图1的跟踪器114)、检测器/辨识器(例如，图1的检测器/辨识器124)及时间滤波器(例如，图1的时间滤波器134)。跟踪器114可经配置以跟踪视频数据(例如，图1的视频数据160)的多个帧中的每一者中的对象(例如，图1的对象151)以产生跟踪结果。检测器/辨识器124可经配置以检测及辨识多个帧中的单个帧中的对象151。时间滤波器134可对由检测器/辨识器124执行的对象检测及辨识的完成作出响应，且可经配置以组合跟踪器114的跟踪结果与检测器/辨识器124的对象检测及辨识的输出以产生组合的输出144及基于更新的输出144更新对象151的状态信息。在特定实施例中，对象151可对应于文本框(例如，包含文本153的文本框152)及文本框152的位置。

图9说明相机942，其可耦合到相机控制器960，且可提供待由对象跟踪器及辨识器101处理的图像及/或视频数据以执行跟踪及执行从相机942接收的视频数据中的对象(例如，文本)的对象检测及辨识。

图9还展示可耦合到处理器910及耦合到显示器928的显示控制器926。译码器/解码器(CODEC)934(例如，音频及/或语音CODEC)可耦合到处理器910。扬声器936及麦克风938可耦合到CODEC934。图9还指示无线控制器940可耦合到处理器910及耦合到无线天线998。

在特定实施例中，处理器910、相机控制器960、显示控制器926、存储器108、CODEC934及无线控制器940包含于系统级封装或片上系统装置922中。

在特定实施例中，输入装置930及电源供应器944耦合到片上系统装置922。此外，在特定实施例中，如图9中所说明，显示器928、相机942、输入装置930、麦克风938、无线天线998及电力供应器944在片上系统装置922外部。然而，显示器928、相机942、输入装置930、扬声器936、麦克风938、无线天线998及电源供应器944中的每一者可耦合到片上系统装置922的组件，例如接口或控制器。

应注意，尽管图9描绘无线通信装置，但处理器910及存储器108还可集成到其它电子装置中，例如多媒体播放器、娱乐单元、导航装置、个人数字助理(PDA)、固定位置数据单元或便携式计算机(例如，膝上型计算机或平板计算机)。还应注意，尽管处理器910包含图1的对象跟踪器及辨识器101，但在其它实施例中，处理器910可包含图2的对象追踪器及检测器201或图3的对象跟踪器及辨识器301。

结合描述的实施例，揭示一种设备，其包含用于跟踪视频数据的多个帧中的每一者中的对象以产生跟踪结果的装置。举例来说，用于跟踪的装置可为图1到4的跟踪器114、图1到3及9的对象跟踪器及辨识器101、经配置以跟踪视频数据的多个帧中的每一者中的对象的一或多个其它装置或其任何组合。

设备还可包含用于处理(例如，用于检测的装置、用于辨识的装置或其任何组合)多个帧中的单个帧中的对象的装置。举例来说，用于处理的装置可为图1的检测器/辨识器124、图2的对象检测器224、图3的对象辨识器324、图1的对象跟踪器及辨识器101、图2的对象跟踪器及检测器201或图3的对象跟踪器及辨识器301、经配置以检测及/或辨识多个帧中的单个帧中的对象的一或多个其它装置，或其任何组合。

设备可包含用于响应于单个帧的对象处理(例如，用于对象检测及/或辨识的装置)的完成组合用于跟踪的装置的跟踪结果与用于对象处理的装置的输出以产生组合的输出的装置。举例来说，用于组合的装置可为图1到6的时间滤波器134、图1到3及9的对象跟踪器及辨识器101、图6的卡尔曼滤波器632、图6的最大似然估计器634、经配置以组合用于跟踪的装置的输出与用于检测及辨识的装置的输出以产生组合的输出的一或多个其它装置或其任何组合。

所属领域的技术人员将进一步了解到，结合本文中所揭示的实施例而描述的各种说明性逻辑块、配置、模块、电路和算法步骤可被实施为电子硬件、计算机软件或两者的组合。已大体在功能性方面描述各种说明性组件、块、配置、模块、电路和步骤。所述功能性是实施为硬件还是软件取决于特定应用及施加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式实施所描述功能性，但所述实施决策不应被解释为导致偏离本发明的范围。

可直接以硬件、以固件、以由处理器执行的软件模块或以其组合实施结合本文所揭示的实施例而描述的方法或算法的步骤。软件模块可驻存在随机存取存储器(RAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、寄存器、硬盘、可移动磁盘、压缩光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)存储器、软磁盘存储器、蓝光光盘存储器或现有技术中已知的任何其它形式的存储媒体中。示范性非暂时性(例如，有形)存储媒体耦合到处理器以使得处理器可从存储媒体读取信息，及将信息写入到存储媒体。在替代方案中，存储媒体可与处理器成一体式。处理器及存储媒体可驻留在专用集成电路(ASIC)中。ASIC可驻留在计算装置或用户终端中。在替代方案中，处理器及存储媒体可作为离散组件驻留在计算装置或用户终端中。在替代实施例中，可使用可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器及其它电子单元。

提供先前对所揭示实施例的描述以使得所属领域的技术人员能够制作或使用所揭示实施例。所属领域的技术人员将容易明白对这些实施例的各种修改，且本文中所定义的原理可在不偏离本发明的范围的情况下应用于其它实施例。因此，本发明既定不限于本文中所展示的实施例，而是应符合与如以下权利要求书所定义的原理及新颖特征相一致的可能的最广范围。

Claims

1.一种用于跟踪和处理对象的方法，所述方法包括：

跟踪视频数据的多个帧中的每一者中的对象以产生跟踪结果，其中所述跟踪结果是所述多个帧中的每一帧的帧结果；

基于由对象检测器或对象辨识器对所述多个帧中的帧子集的处理产生输出，其中所述输出是所述多个帧中的所述帧子集的帧结果，且其中所述帧子集是根据所述对象检测器的第一时延或所述对象辨识器的第二时延选择的；及

组合所述跟踪结果与所述输出以产生组合的输出。

2.根据权利要求1所述的方法，其中通过执行所述帧子集的对象检测产生所述输出，其中所述帧子集是基于所述对象检测器的所述第一时延选择的。

3.根据权利要求1所述的方法，其中通过执行所述帧子集的对象辨识产生所述输出，其中所述帧子集是基于所述对象辨识器的所述第二时延选择的。

4.根据权利要求1所述的方法，其进一步包括基于所述组合的输出更新所述对象的状态信息，其中所述状态信息包含所述对象或所述对象中含有的文本的位置。

5.根据权利要求1所述的方法，其中所述第一时延对应于一段时间以跟踪第二帧子集，其中所述第二帧子集包含所述多个帧中的至少两个帧。

6.根据权利要求1所述的方法，其进一步包含至少部分基于所述跟踪结果或所述输出更新所述对象的状态信息，其中基于所述输出的所述对象的所述状态信息的所述更新包括利用基于执行对象处理产生的当前输出、基于执行对象处理产生的先前输出、所述对象的运动历史或其任何组合，且其中所述状态信息包含所述对象或所述对象中含有的文本的位置。

7.根据权利要求1所述的方法，其中跟踪所述对象及产生所述输出在时间上部分重叠。

8.根据权利要求7所述的方法，其中在所述多个帧中的至少两个帧中跟踪所述对象，而针对所述帧子集中的第一帧产生所述输出。

9.根据权利要求7所述的方法，其中组合所述跟踪结果与所述输出在时间上与跟踪所述对象不重叠，且其中组合所述跟踪结果与所述输出在时间上与产生所述输出不重叠。

10.根据权利要求1所述的方法，其进一步包括至少基于所述跟踪结果或所述输出更新所述对象的状态信息，其中所述更新的状态信息包含所述对象的位置。

11.根据权利要求1所述的方法，其进一步包括至少基于所述跟踪结果或所述输出更新所述对象的状态信息，其中所述对象对应于文本框，且其中所述更新的状态信息包含所述文本框中的辨识的文本。

12.根据权利要求11所述的方法，其进一步包括在图像俘获装置的显示装置处至少部分基于所述对象的所述更新的状态信息显示图像内容。

13.根据权利要求1所述的方法，其进一步包括：

选择所述帧子集中的第一帧；及

在基于所述帧子集中的所述第一帧的处理产生所述输出之后选择所述帧子集中的第二帧，其中所述第二帧紧接在当产生基于所述第一帧的处理的所述输出时在其中跟踪所述对象的所跟踪帧之后，其中在所述第一帧中跟踪所述对象之后的一时间段在所述跟踪帧中跟踪所述对象，且其中所述时间段对应于所述第一时延或所述第二时延。

14.根据权利要求13所述的方法，其中关于所述输出集成所述跟踪结果包括使用卡尔曼滤波器、粒子滤波器或扩展卡尔曼滤波器中的至少一者基于所述跟踪结果产生所述对象的位置信息。

15.根据权利要求13所述的方法，其中关于所述输出集成所述跟踪结果包括使用最大似然估计器或最大后验估计器中的至少一者基于所述输出产生包含所述对象的文本数据的识别信息。

16.根据权利要求1所述的方法，其中由图像俘获装置产生所述多个帧，且其中所述图像俘获装置包括相机、视频记录装置、无线装置、便携式电子装置或其任何组合。

17.根据权利要求1所述的方法，其进一步包括：

在检测到所述帧子集中的第一帧的对象处理的完成之前：

估计所述帧子集中的所述第一帧与第二帧之间的所述对象的运动；

基于所述运动更新所述对象的状态信息，其中所述状态信息包含所述对象或所述对象中含有的文本的位置；及

基于所述对象的所述更新的状态信息产生所述输出。

18.根据权利要求1所述的方法，其中所述跟踪具有第三时延，其中所述第三时延小于所述第一时延，且其中所述第三时延小于所述第二时延。

19.一种用于跟踪和处理对象的设备，所述设备包括：

跟踪器，其经配置以跟踪视频数据的多个帧中的每一者中的对象以产生跟踪结果，其中所述跟踪结果是所述多个帧中的每一帧的帧结果；

对象处理器，其经配置以处理所述多个帧中的帧子集中的所述对象以产生输出，其中所述输出是所述多个帧中的所述帧子集的帧结果，且其中所述帧子集是根据所述对象处理器的时延选择的；及

时间滤波器，其经配置以组合所述跟踪器的所述跟踪结果与所述输出以产生组合的输出。

20.根据权利要求19所述的设备，其中所述对象处理器包含：

对象检测器，其经配置以检测所述帧子集中的所述对象；及

对象辨识器，其经配置以辨识所述帧子集中的所述对象。

21.根据权利要求19所述的设备，其中所述时间滤波器经进一步配置以基于所述组合的输出更新所述对象的状态信息，其中所述状态信息包含所述对象或所述对象中含有的文本的位置。

22.根据权利要求21所述的设备，其中所述对象对应于文本框，且其中所述更新的状态信息包含所述文本框中的辨识的文本及所述文本框的位置。

23.根据权利要求22所述的设备，其中所述时间滤波器包含卡尔曼滤波器及最大似然估计器。

24.根据权利要求23所述的设备，其中所述卡尔曼滤波器经配置以确定所述文本的所述位置，且其中所述文本的所述位置包含所述文本框的坐标。

25.根据权利要求23所述的设备，其中所述最大似然估计器经配置以：

经由光学字符辨识OCR产生提出的文本数据；及

存取字典以验证所述提出的文本数据。

26.根据权利要求25所述的设备，其中所述提出的文本数据包含多个文本候选及与所述多个文本候选相关联的置信度数据，且其中对应于所述字典的条目的特定文本候选根据与所述文本候选相关联的置信度值而被选择为经验证的文本。

27.一种用于跟踪和处理对象的设备，所述设备包括：

用于跟踪视频数据的多个帧中的每一者中的对象以产生跟踪结果的装置，其中所述跟踪结果是所述多个帧中的每一帧的帧结果；

用于处理所述多个帧中的帧子集中的所述对象以产生输出的装置，其中所述输出是所述多个帧中的所述帧子集的帧结果，且其中所述帧子集是根据所述用于处理的装置的时延选择的；及

用于组合所述用于跟踪的装置的所述跟踪结果与所述用于处理的装置的所述输出以产生组合的输出的装置。

28.根据权利要求27所述的设备，其中所述用于处理所述帧子集中的所述对象的装置包含用于检测所述帧子集中的所述对象的装置。

29.根据权利要求27所述的设备，其中所述用于处理所述帧子集中的所述对象的装置包含用于辨识所述帧子集中的所述对象的装置。

30.根据权利要求27所述的设备，其中所述用于组合的装置包含用于基于所述组合的输出更新所述对象的状态信息的装置，其中所述状态信息包含所述对象或所述对象中含有的文本的位置。

31.根据权利要求30所述的设备，其中所述对象对应于文本框，且其中所述更新的状态信息包含所述文本框中的辨识的文本及所述文本框的位置。

32.根据权利要求30所述的设备，其进一步包括用于产生所述多个帧的装置及用于至少部分基于所述对象的所述更新的状态信息显示图像内容的装置。

33.根据权利要求27所述的设备，其中所述用于组合的装置包含卡尔曼滤波器及最大似然估计器。

34.一种用于跟踪和处理对象的方法，所述方法包括：

跟踪包含视频数据的多个帧中的第一帧中的文本的区以产生跟踪结果，其中所述跟踪结果是所述第一帧的帧结果；

对所述第一帧执行文本处理，其中所述文本处理包含对检测的文本数据执行文本辨识以识别辨识的文本数据；及

组合所述跟踪结果与所述辨识的文本数据以产生组合的输出。

35.根据权利要求34所述的方法，其中对所述第一帧执行文本处理包含对所述第一帧执行文本检测以识别所述检测的文本数据。

36.根据权利要求34所述的方法，其进一步包括对所述多个帧中的第二帧执行文本处理以识别第二文本数据，其中对所述第二帧执行文本处理包含对所述第二帧执行文本辨识，其中所述第二帧为紧接在所述第一帧之后的帧。

37.根据权利要求34所述的方法，其中所述组合的输出包含所述辨识的文本数据及所述文本数据的位置信息。

38.根据权利要求34所述的方法，其中文本处理的所述执行具有第一时延，其中所述跟踪具有第二时延，且其中所述第一时延等于所述第二时延。