CN104885098B

CN104885098B - 基于移动装置的文本检测及跟踪

Info

Publication number: CN104885098B
Application number: CN201380069165.8A
Authority: CN
Inventors: 迈克尔·盖尔沃茨; 杰优恩·金; 佩尔·O·尼尔森; 罗伊·劳伦斯·阿索克·伊妮果; 潘琪; 罗曼·塔罗尼优
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-01-04
Filing date: 2013-11-22
Publication date: 2020-02-21
Anticipated expiration: 2033-11-22
Also published as: WO2014107246A1; JP6338595B2; EP2941736B1; EP2941736A1; KR20150104126A; JP2016502218A; US20140192210A1; CN104885098A

Abstract

所揭示实施例涉及基于移动装置的文本检测及跟踪。在一些实施例中，通过对通过摄像机俘获的图像帧执行光学字符辨识OCR以定位及辨识第一文本块而获得第一参考帧。可从一组后续图像帧中选择后续图像帧，所述选择是基于与所述选定后续图像帧相关联的参数，且可通过对所述选定后续图像帧执行OCR以辨识第二文本块而获得第二参考帧。基于所述第一文本块在所述第二参考帧中的位置及与所述第二参考帧相关联的姿态确定所述第一文本块与所述第二文本块之间的几何关系。

Description

基于移动装置的文本检测及跟踪

相关申请案的交叉参考

本申请案主张2013年9月9日申请的题为“基于移动装置的文本跟踪及检测(Mobile Device Based Text Tracking and Detection)”的第14/021,337号美国申请案的权益及优先权，所述美国申请案又主张2013年1月4日申请的题为“基于移动装置的文本跟踪及检测(Mobile Device Based Text Tracking and Detection)”的第61/749,248号美国临时申请案的权益及优先权，所述两个申请案以其全文引用的方式并入本文中。

技术领域

本文揭示的标的物涉及文本检测及跟踪。

背景技术

例如智能电话等移动装置越来越多地并有一或多个光学传感器，例如摄像机连同各种其它类型的传感器。移动装置上的摄像机常常能够拍摄静态图像与视频图像两者。然而，针对涉及文本的扫描的应用使用移动装置受到限制，这是因为具有许多挑战。某些挑战的实例包含由于用户手移动造成的运动模糊、由于摄像机相对于经扫描文本的定向的变化造成的透视图的失真，及移动装置光学子系统限制。举例来说，通过移动装置摄像机拍摄的视频图像相对于扫描仪来说可能具有低分辨率，且，另外，可能遭受运动模糊及透视图失真。促进进行迅速无缝文本检测及跟踪可通过实现可能能够利用文本检测及跟踪应用程序的输出的宽广范围的应用而增强移动装置的效用。

因此，需要用以促进进行文本扫描、检测及/或辨识及/或跟踪的设备、系统及方法。

发明内容

在一个方面中，一种在移动站(MS)上的方法可包括：通过对通过所述MS上的摄像机俘获的图像帧执行光学字符辨识(OCR)以定位及辨识第一文本块而获得第一参考帧；从一组后续图像帧中选择后续图像帧，所述选择是基于与所述选定后续图像帧相关联的参数；通过对所述选定后续图像帧执行OCR以辨识第二文本块而获得第二参考帧；及至少部分基于所述第一文本块在所述第二参考帧中的位置及与所述第二参考帧相关联的摄像机姿态，确定所述第一文本块与所述第二文本块之间的几何关系。

在另一方面中，一种MS可包括：摄像机，其经配置以俘获第一图像帧及一组后续图像帧；及处理器，其耦合到所述摄像机。所述处理器可包括：字词辨识模块，其经配置以：通过对所述第一图像帧执行光学字符辨识(OCR)以定位及辨识第一文本块而获得第一参考帧；从所述组后续图像帧中选择后续图像帧，所述选择是基于与所述选定后续图像帧相关联的参数；及通过对所述选定后续图像帧执行OCR以辨识第二文本块而获得第二参考帧。所述处理器可进一步包括文本汇编程序模块，其经配置以至少部分基于所述第一文本块在所述第二参考帧中的位置及与所述第二参考帧相关联的摄像机姿态，确定所述第一文本块与所述第二文本块之间的几何关系。

在另一方面中，一种设备可包括：用于俘获一序列图像帧的成像装置；用于通过对所述序列图像帧中的图像帧执行光学字符辨识(OCR)以定位及辨识第一文本块而获得第一参考帧的装置；用于从所述序列图像帧中选择后续图像帧的装置，所述选择是基于与所述选定后续图像帧相关联的参数；用于通过对所述选定后续图像帧执行OCR以辨识第二文本块而获得第二参考帧的装置；以及用于至少部分基于所述第一文本块在所述第二参考帧中的位置及与所述第二参考帧相关联的所述成像装置的姿态，确定所述第一文本块与所述第二文本块之间的几何关系的装置。

在另一方面中，一种非暂时性计算机可读媒体可包括指令，所述指令在由处理器执行时可执行在移动站(MS)上的方法，所述方法可包括：通过对通过所述MS上的摄像机俘获的图像帧执行光学字符辨识(OCR)以定位及辨识第一文本块而获得第一参考帧；从一组后续图像帧中选择后续图像帧，所述选择是基于与所述选定后续图像帧相关联的参数；通过对所述选定后续图像帧执行OCR以辨识第二文本块而获得第二参考帧；以及至少部分基于所述第一文本块在所述第二参考帧中的位置及与所述第二参考帧相关联的摄像机姿态，确定所述第一文本块与所述第二文本块之间的几何关系。

所揭示实施例还涉及由处理器使用非暂时性计算机可读媒体或计算机可读存储器创建、存储、存取、读取或修改的软件、固件及程序指令。

下文关于以下各图进一步解释这些及其它实施例。应理解，对于所属领域的技术人员来说，其它方面将从以下详细描述变得容易显而易见，其中借助于说明展示及描述各个方面。图式及详细描述应被视为本质上为说明性的而不是限制性的。

附图说明

图1展示能够执行文本跟踪及检测的实例MS的框图。

图2展示摄像机相对于表面及坐标系上的字词的位置，所述位置可用以跟踪及/或维持文本块的位置。

图3展示与所揭示实施例一致的进行文本检测及跟踪的实例方法的流程图。

图4展示与所揭示实施例一致的用于进行文本跟踪的系统的实例架构。

图5展示与所揭示实施例一致的可在移动站上执行的实例方法的流程图。

具体实施方式

将参看图式仅通过实例方式来描述本文揭示的实施例。下文结合附图阐述的详细描述希望作为对本发明的各个方面的描述，而不希望表示可在其中实践本发明的仅有方面。提供本发明中所描述的每一方面仅作为本发明的实例或说明，且不应必然地被解释为比其它方面优选或有利。详细描述包含用于提供对本发明的透彻理解的目的的特定细节。然而，所属领域的技术人员将显而易见，可在没有这些特定细节的情况下实践本发明。在一些情况下，以框图的形式展示众所周知的结构及装置以便避免混淆本发明的概念。首字母缩写词及其它描述性术语可仅出于便利及清晰性的目的而使用，且不希望限制本发明的范围。

移动装置摄像机常常遭受限制其适用性的缺点。举例来说，低摄像机分辨率及其它光学子系统限制可限制移动装置摄像机在常规扫描及光学字符辨识(OCR)相关应用中的效用。在扫描过程期间由于用户手颤动造成的运动模糊及由于摄像机倾斜变化造成的透视图失真对在常规文本扫描及OCR应用中使用移动装置摄像机提出额外障碍。另外，为了确保扫描期间的较大的相对文本大小及准确的文本俘获，常常将摄像机握持为接近于文本，由此限制了可在单个图像或帧中俘获的字母或字词的数目。另外，因为常规OCR可招致显著计算开销，所以对于通过引入不可接受的延迟进行的许多应用来说，逐个帧地使用OCR可为效率低下的及不切实际的。

本文揭示的包含设备、系统及方法的实施例促进进行高效连续文本扫描、跟踪及辨识。如本文所使用，术语“移动站(MS)”用以广泛地指包含以下各者的移动装置：蜂窝式电话、游戏装置、成像装置、移动电话或其它无线通信装置、个人通信系统(PCS)装置、个人导航装置(PND)、个人信息管理器(PIM)、个人数字助理(PDA)、膝上型计算机等等。

另外，“移动站”可省略通信元件及/或功能性。术语“移动站”还希望为可能并未经配置以连接到网络或另外与另一装置无线地或通过有线连接通信的装置。举例来说，本文描述的实施例可在独立装置中实施，例如游戏装置、手持型摄像机或可能并未经配置以连接到网络或另外与另一装置无线地或通过有线连接通信的另一装置。

在一些实施例中，移动站可呈能够接收无线通信及/或导航信号及与其它装置通信的移动装置的形式，包含短程无线、红外线及/或有线连接。并且，“移动站”希望包含能够(例如)经由因特网、Wi-Fi或另一网络与服务器通信的所有装置，包含无线通信装置、计算机、膝上型计算机等。

图1展示实例MS 100的框图。如图1中所展示，MS 100可包含摄像机110、惯性测量单元(IMU)130、显示器145、处理器150、存储器160及/或收发器170，前述各者通过连接件120操作地耦合。连接件120可包括总线、线路、光纤、链路等，或其某一组合。

收发器170可(例如)包含经启用以通过一或多种类型的无线通信网络发射一或多个信号的发射器，及接收通过所述一或多种类型的无线通信网络发射的一或多个信号的接收器。收发器170可准许基于多种技术与无线网络通信，所述多种技术例如(但不限于)：Wi-Fi网络或无线局域网(WLAN)，其可基于IEEE 802.11系列标准、蓝牙、近场通信(NFC)，无线广域网(WWAN)，例如LTE、WiMAX等。在一些实施例中，MS 100还可包含用于通过有线网络通信的一或多个端口。在一些实施例中，可省略收发器170及/或MS 100上的一或多个其它端口。

摄像机110可将所俘获图像发送到处理器150。在一些实施例中，摄像机110可包含正面拍摄及/或后置自拍摄像机及/或还可并有CMOS/光学传感器。在一个实施例中，正面拍摄摄像机在装置的正常用户操作期间可面向用户，而后置自拍摄像机在装置的正常操作期间可背向用户。在一些实施例中，摄像机110可能能够俘获静态图像与视频图像两者。摄像机110可将视频图像及/或一序列静态图像发送到处理器150。在一个实施例中，通过摄像机110俘获的图像可呈原始的未经压缩格式且可在经处理及/或储存于存储器160中之前进行压缩。在一些实施例中，可由处理器150使用无损或有损压缩技术来执行图像压缩。

在一些实施例中，处理器150还可接收来自IMU 130的输入。在一些实施例中，IMU130可包括三轴加速度计、三轴陀螺仪及/或磁力计。IMU 130可将速度、定向及/或其它位置相关信息提供给处理器150。在一些实施例中，IMU 130可与通过摄像机110俘获每一图像帧同步地输出所测量的信息。

图1中并未展示MS 100中所包括的所有模块。还可以各种方式按与本发明一致的方式修改实例MS 100，例如，通过添加、组合或省略所展示的功能块中的一或多者。举例来说，在一些配置中，MS 100可能并不包含IMU 130。另外，在某些实例实施方案中，MS 100可包含多种其它传感器(未图示)，例如环境光传感器、麦克风、声传感器、超声波传感器等。在一些实施例中，MS 100可包含可准许实况观看通过摄像机110俘获的图像帧的显示器。在一些实施例中，MS 100的部分可呈一或多个芯片组及/或其类似者的形式。

可使用硬件、固件及软件的组合来实施处理器150。处理器150可表示可经配置以执行涉及文本检测及跟踪、光学字符辨识(OCR)及/或计算机视觉及图像处理的计算程序或过程的至少一部分的一或多个电路。处理器150可从存储器160中检索指令及/或数据。处理器150可使用以下各者来实施：一或多个图形处理单元(GPU)、专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器、嵌人式处理器核心，及经设计以执行本文所描述的功能的其它电子单元，或其组合。

可在处理器150内及/或在处理器150外部实施存储器160。如本文所使用，术语“存储器”是指任何类型的长期、短期、易失性、非易失性或其它存储器，且不应限于任何特定类型的存储器或任何特定数目个存储器或上面存储有存储器的任何特定类型的物理媒体。在一些实施例中，存储器160可保持代码以促进进行图像处理、文本检测及跟踪及由处理器150执行的其它任务。举例来说，存储器160可保持数据、所俘获的静态图像、视频帧、程序结果，以及由IMU 130及其它传感器提供的数据。一般来说，存储器160可表示任何数据存储机构。存储器160可包含(例如)主存储器及/或辅助存储器。主存储器可包含(例如)随机存取存储器、只读存储器等。虽然在图1中说明为与处理器150分离，但应理解，主存储器的全部或部分可提供于处理器150内或另外与处理器150处于相同位置及/或耦合到处理器150。

辅助存储器可包含(例如)与主存储器相同或类似类型的存储器及/或一或多个数据存储装置或系统，例如闪存/USB存储器驱动器、存储卡驱动器、磁盘驱动器、光学光盘驱动器、磁带驱动器、固态存储器驱动器等。在某些实施方案中，辅助存储器可操作地接受非暂时性计算机可读媒体或另外可配置以在耦合到MS 100的装卸式媒体驱动器(未图示)中耦合到非暂时性计算机可读媒体。在一些实施例中，非暂时性计算机可读媒体可形成存储器160及/或处理器150的部分。

MS 100还可包含用以处理通过摄像机110俘获的图像的软件。在一些实施例中，处理器150可能能够执行软件以处理通过摄像机110俘获的一或多个图像以检测及解译所俘获图像中的特征。举例来说，处理器150可能能够对图像执行光学字符辨识(OCR)以辨识图像中的文本。

在一些实施例中，处理器150可使用自然特征跟踪技术来配准图像及确定摄像机姿态。在计算机视觉中，检测是指在所俘获图像帧中定位目标对象及计算相对于对象的摄像机姿态的过程。跟踪是指在一序列时间图像帧内的相对于对象的摄像机姿态估计。在特征跟踪中，可检测特征一次，且接着在后续图像中使用关于摄像机姿态的先验信息或假设直接跟踪特征。在跟踪中，相连帧之间的目标对象位置的差通常较小。摄像机的姿态是指摄像机相对于参考框架的位置及定向。配准、图像配准或图像对准是指将不同数据集变换及/或集成到单个坐标系中的过程。因此，例如，可使用图像配准或对准来确定使两个图像的坐标系对准的几何变换，同时使图像对之间的逐个像素差最小化。在图像配准中，对准可涉及具有任意或相对较大基线的两个图像。

通常，在基于特征的跟踪方法中，可使用特征来表示对象。在许多常规的基于特征的跟踪方法中，跟踪是基于接着用于定位及跟踪的人工外部标记。然而，当扫描自然界中的对象(例如，路标、对象上的标签或各种媒体上的文本)时，使用外来标记的常规方法为不切实际的。因此，本文揭示的实施例可使用固有特征来执行跟踪，固有特征例如基于文本的特征、文本出现在的媒体上的特征、纹理及所俘获图像帧中的其它相异方面。不使用外来标记的情况下的跟踪还被称作“无标记”跟踪。本文揭示的实施例促进进行无标记跟踪。

基于特征的对象跟踪可包含特征提取及特征对应。特征提取是指检测图像中的特征，而特征对应是匹配或确定两个图像中的特征之间的对应的过程。因此，在不同成像条件(例如，尺度、照明、定向等)下很可能在多个视图内突出的突出特征的使用促进进行特征对应确定。

因此，在基于特征的跟踪方法中，可在图像帧中识别一或多个对象且可跨越多个图像帧跟踪所述对象以确定摄像机相对于一或多个参考框架的姿态。所跟踪对象可构成目标或跟踪目标。在一些实施例中，可使用从图像中的对象中提取或与图像中的对象相关联的特征点来跟踪目标。举例来说，图像帧可包含多个对象且兴趣点可能与图像帧、对象群组及/或图像帧中的个别对象相关联。术语“自然”用以指通常出现在所俘获图像帧中而无任何人工或外部场景标记的特征点。

在一些实施例中，可实时或近实时地来执行所揭示方法。在一些实施例中，可使用初始当前图像帧来启动文本辨识过程。如本文所使用，在图像帧的情况下，术语“当前”是指通过摄像机110俘获且可用于供用户同时观看的图像帧。术语“初始”、“先前”及“后续”是指图像帧相对于彼此或相对于第三图像帧的时间位置。在一些实施例中，可存储其中的文本已(例如)通过OCR过程得到识别及辨识的初始当前图像帧且将其用作图像目标产生过程的基础。其中的文本已得到识别及辨识的图像帧被称为参考帧。

在一些实施例中，可接着使用图像目标产生过程来基于参考帧建置跟踪模型。在一些实施例中，可使用同时定位与映射(SLAM)技术(例如，视觉SLAM(VSLAM))来使用参考帧及包含文本的一或多个后续图像帧中的各种自然特征跟踪文本。在一些实施例中，可使用当前图像与参考帧之间的特征对应来跟踪文本。在一些实施例中，可使用SLAM变化形式来跟踪，例如并行跟踪与映射(PTAM)。

在VSLAM中，跨越多个视频帧跟踪图像分块的显著自然特征以确定特征的位置及摄像机的运动两者。基于SLAM的技术准许进行6自由度(6-DOF)摄像机姿态的跟踪，包括摄像机110的三维(3D)位置(例如，x、y、z坐标)及定向(例如，角定向滚转、俯仰及偏航)，同时确定周围环境的3-D结构。

在一些实施例中，可使用尺度不变特征变换(SIFT)技术来识别图像帧中的例如拐角点、边缘等特征。基于SIFT的描述符及其变化形式(包含多种计算上高效修改的SIFT描述符)促进进行在面对相对较大视角改变时的稳健跟踪及图像之间的特征对应。在一些实施例中，可识别图像帧中的关键点且可建置对应于个别关键点的局部描述符并使用所述局部描述符跟踪图像特征。“分块”或“图像分块”为特征点周围的像素区，其可用于进行跟踪。

上文概述的技术仅为实例，且，在一些实施例中，可使用各种其它技术来进行特征检测。举例来说，基于来自加速段测试的特征(“FAST”)或其变化形式、加速稳健特征(“SURF”)或其变化形式、混合点及/或边缘检测技术等的技术可用于进行特征检测，具有如所属领域的技术人员将显而易见的适当修改。

另外，在一些实施例中，可使用图像对准技术来计算参考图像帧与一或多个后续图像帧之间的相对运动。图像对准过程关于估计对象运动的运动参数计算参考图像帧与当前后续图像帧之间的对准度量。举例来说，可使用高效二阶最小化(ESM)来通过迭代地使参考帧与当前后续帧之间的差最小化计算当前后续帧相对于参考帧的相对运动及/或对准。

跟踪模型及/或图像对准过程可分别产生所辨识的文本的位置及当前及/或后续图像帧相对于参考帧的姿态。

在一些实施例中，可接着使用从跟踪模型获得的所辨识的文本的位置及/或从图像对准过程获得的当前后续图像帧相对于参考帧的姿态来启动并初始化分块跟踪器。术语“图像分块”一般是指对应于图像中的特征点周围的区的图像的一部分。分块跟踪算法可在参考图像分块与从当前图像中提取的当前图像分块之间匹配特征点以计算摄像机相对于文本的姿态。

在许多扩增实境(AR)应用程序中，例如，可将例如文本或图形元素等一或多个虚拟对象叠加在实况摄像机视图上且显示在显示器145上。在一些实施例中，可使用显示器145来显示通过摄像机110俘获的实况图像、AR图像、图形用户接口(GUI)、程序输出等。显示器145还被称作屏幕。当显现虚拟对象时，虚拟对象的准确配准可确保虚拟文本及/或图形对象在显示器145上的实况视频图像中的正确放置。因此，在一些实施例中，可跟踪通过摄像机110扫描的文本以使得可通过遵循文本辨识的一或多个应用程序来辨识及处理文本块。

术语“文本块”用以指一序列字符，例如(但不限于)字词、一序列字词及/或一或多行文本。术语“字符”一般用以指字母、数字及各种其它符号，而不管语言。在一些实施例中，可基于文本检测及跟踪的结果将一或多个虚拟对象覆叠在文本块上。举例来说，在AR当场文本转译应用程序中，可通过OCR过程跟踪及辨识媒体上的字符，将字符转译成另一种语言，且可对原始文本覆叠表示经转译的文本的字符，由此促进经转译的文本的实况摄像机视图。当执行AR应用程序时，例如，处理器150可将虚拟对象放置到实况摄像机视图中且可在所俘获图像中旋转及/或移置虚拟对象以对应于摄像机的姿态。

在一些实施例中，可使用图像中的一或多个自然特征及/或基于文本的特征来确定MS 100及/或摄像机110相对于图像的姿态。在一些实施例中，可在帧中检测图像中的特定特征点(例如，具有高对比度差的点、边缘及/或拐角点)且使用所述特定特征点来跨越帧跟踪摄像机110的姿态。在一些实施例中，处理器150可存储关于特征点的像素相关信息。举例来说，可将与特征点像素相关联的明度梯度值及/或明度梯度值的函数存储在存储器160中。在一些实施例中，跟踪可部分地基于自然特征，例如出现在所辨识的文本的图像中的拐角点。

在一些实施例中，可部分地基于来自IMU 130的输入确定或校正摄像机110相对于图像的姿态。在一些实施例中，可结合IMU输入及/或其它文本跟踪方案使用摄像机110的已知内在参数及特性(例如，透镜的焦距、摄像机焦点距离等)及/或来自其它传感器的输入，以辅助进行及/或优化摄像机姿态确定。

在一些实施例中，文本跟踪可促进具有当前正进行扫描的元素的先前经扫描的文本块的几何位置之间的相关性。文本跟踪可用以确定经扫描的文本块之间的几何关系，由此准许根据经扫描的图像/帧序列重新构造经扫描的文本的结构。

图2展示摄像机110相对于媒体及坐标系上的字词的位置，所述位置可用以跟踪及/或维持文本块的位置。举例来说，摄像机110可从摄像机位置230-1俘获包含文本块-1210-1的初始图像帧。摄像机位置230-1处的摄像机110的视场为虚线250内的区。

在一些实施例中，可通过使用OCR识别文本块210-1中的一或多个字符或字词且确定文本块210-1相对于参考框架275的初始姿态260来处理在摄像机位置230-1处俘获的图像帧。在一些实施例中，摄像机位置230-1处的参考框架275可包括一组正交轴线，其中所述轴线中的一或多者可与MS 100的本体及/或摄像机110的平面对准。举例来说，在一个实施例中，可存储在摄像机位置230-1处俘获的图像帧且将所述图像帧用作参考图像帧。

在一些实施例中，还可使用可表示“页坐标系”的参考框架285来维持文本块210的姿态。举例来说，在用户正面平行于文本块210所存在的媒体握持摄像机的情形中，相异限界框可与每一文本块210相关联。在一些实施例中，可将所辨识的文本块210-1的左下部点及/或与文本块210-1相关联的限界框设置为页坐标系的原点，且将文本块210-1的基线及/或相关联限界框的基线设置为x轴。可将y轴定义为在摄像机平面中正交于x轴。在一些实施例中，可基于其中辨识文本块210-1的第一图像帧定义参考框架285，且所述参考框架可充当用于后续图像帧的页坐标系。

在一些实施例中，可从参考帧开始使用参考图像帧及后续帧中的一或多个自然特征及/或特征点建置跟踪模型。一旦建置了跟踪模型，便可使用跟踪模型来确定所辨识的文本在后续帧中的位置。举例来说，摄像机110可在扫描过程期间移动到摄像机位置230-2，其中视场是通过虚线255内的区及参考框架280展示。

如图2中所展示，摄像机位置230-2反映摄像机110相对于文本块210所存在的媒体的位置及定向的改变。在一些实施例中，可部分地使用自然特征跟踪以获得摄像机110相对于参考框架275的6-DOF姿态的估计。可使用摄像机110在参考框架275中的所估计的6-DOF姿态来确定所辨识的文本块210-1在参考框架280中的位置。

另外，部分地基于在文本块1210-1中辨识的字符或其一部分，在一些实施例中，可使用图像对准技术来计算摄像机位置230-1与摄像机位置230-2的参考帧之间的图像的相对运动。举例来说，可使用例如ESM等图像对准技术来通过使用所辨识的文本块210-1的已知的估计位置确定摄像机位置230-2处的当前图像相对于在摄像机位置230-1处获得的参考图像的运动。

接着可使用通过图像对准过程及/或先前参考帧(如果先前已产生参考帧)测量的图像的相对运动初始化分块跟踪器。分块跟踪器可在参考图像分块与从当前图像中提取的当前图像分块之间匹配特征点以计算相对于文本的优化的摄像机姿态。

在一些实施例中，例如，当位置230-1处的图像帧与在摄像机位置230-2处俘获的图像帧之间存在不充分重叠时(或当尚未产生参考帧时)，接着可通过使用OCR识别文本块210-1及文本块210-2中的一或多个字符或字词来处理在位置230-2处俘获的图像帧。可基于文本块1210-1的已知姿态265及基于如通过ESM或另一图像对准技术确定的位置230-1与230-2之间的摄像机110的相对运动及定向确定文本块210-2相对于参考框架280的姿态270。在一些实施例中，ESM可对后续图像帧的低分辨率版本操作。另外，还可使用位置230-1与230-2之间的摄像机110的所计算的相对运动及定向来确定文本块210-2依据参考框架285的姿态。因此，可使用摄像机相对于第二文本块的位置来确定第一文本块与第二文本块之间的几何关系。因此，在一些实施例中，可按两种方式表示文本块210的位置：摄像机坐标系内的相对姿态，例如(i)参考框架275及/或280，及(ii)页坐标系285内的相对姿态。

图3展示与所揭示实施例一致的进行文本检测及跟踪的实例方法300的流程图。参看图3，在一些实施例中，可通过在MS 100上执行的计算机视觉及/或AR应用程序调用方法300。在一些实施例中，实例方法300可在305中开始，在305中，可执行各种初始化及内务处理例行程序。接下来，在310中，可获得第一或下一个经扫描的图像帧。举例来说，用户可通过在MS 100上滑动摄像机110跨越相对平坦表面(例如，页面)上的文本来扫描文本及/或俘获图像帧，从而产生对应于经扫描的文本的一或多个图像或帧。举例来说，在扫描过程期间，用户可俘获包括一序列时间上的若干图像帧的视频，即，所俘获帧可形成视频序列的部分。

在320中，可使用触发事件(320中的“是”)来起始325中的OCR过程。触发可包含(例如)对摄像机视图中并非先前经扫描的区域的区域的检测。在一些实施例中，由于第二经扫描的图像帧的一部分相对于先前参考图像及/或第一跟踪目标之间缺乏重叠，因此可检测未经扫描的区域。举例来说，如果重叠的缺乏超过阈值，那么可触发325中的OCR。举例来说，在320中，如果当前图像帧与第一参考帧之间的重叠区域的百分比低于阈值百分比，那么方法可继续进行到325。

在一些实施例中，当第一参考帧与后续图像帧之间的相对运动超过阈值时，可触发325中的OCR。在一些实施例中，可部分地基于先前所辨识的文本块在后续图像帧中的位置及/或使用ESM或另一图像对准技术计算第一参考帧与后续图像帧之间的相对运动。举例来说，如果当前图像帧相对于第一参考帧的旋转的量值及/或当前图像帧相对于第一参考帧的平移的量值超过某一阈值，那么可触发325中的OCR。在一些实施例中，例如，当扫描新图像时及/或当首次开始文本扫描或AR应用程序时，如果不存在参考帧，那么可自动地触发325中的OCR。

在一个实施例中，可基于所跟踪特征在新区域中的不存在确定相对于上一个参考帧来说为“新”的摄像机图像内的区域。在一些实施例中，不论何时新区域超过图像帧的阈值百分比或分数，方法均可继续进行到325。在另一实施例中，可将参考摄像机框架投影到页坐标系285上且基于当前摄像机姿态进行对准，且不论何时页平面上的“新”区域超过被当前参考帧覆盖的页平面上的阈值区域或区域的百分比，均可触发325中的新文本/OCR辨识事件。

在另一实施例中，当上一个所跟踪字词或先前所辨识的文本块中的一者的某一分数超出当前摄像机框架的范围时，可触发325。举例来说，在一个实施例中，当当前图像帧中可见的第一文本块的一分数低于某一阈值时，可触发325。可将第一文本块的可见分数确定为包括当前图像帧中的第一文本块的可见部分的区域与第一参考帧中的第一文本块的总区域的比。

在一些实施例中，如果未检测到触发(320中的“否”)，那么，算法可继续进行到355，在355中，可做出是开始/继续产生跟踪目标还是继续使用现有目标进行文本跟踪过程的确定。

如果在320中检测到触发事件(320中的“是”)，那么，在325中，可处理图像帧以查找及辨识对应于图像帧中的经扫描的文本的新字词/字符。举例来说，可调用与实例方法300相关联的OCR应用程序来处理图像帧。在一些实施例中，325中的OCR应用程序可对文本块操作，例如文本块210-1及/或210-2。在一些实施例中，可基于各种参数确定文本块的大小，各种参数例如图像帧中可见的文本的量、可用存储器160、OCR应用程序的速度、AR应用程序的类型、处理器150的数目及速度等。在一些实施例中，OCR应用程序可补偿由于用户手震颤及焦点未对准图像产生的运动模糊。

在330中，可确定OCR过程是否成功。在OCR过程不成功的情况下(330中的“否”)，方法可返回到310，在310中，获得下一个图像帧。在一些实施例中，可将关于错误的视觉或可听指示提供给用MS 100扫描文本的用户。在一些实施例中，如果通过OCR应用程序未在若干图像/帧内检测到字词，那么可触发摄像机110的自动聚焦。

在一些实施例中，如果OCR过程成功(330中的“是”)，那么，在335中，可将在330中成功地执行OCR所针对的且包含所辨识的文本块的特定摄像机图像/帧作为参考帧存储。在一些实施例中，可将参考帧存储在存储器160中。在一些实施例中，可稍后利用参考帧来初始化跟踪系统的其它模块。

在340中，可确定新字词及/或文本块相对于当前摄像机位置的姿态。举例来说，可导出文本块210-2相对于参考框架280的相对位置。在一些实施例中，可部分地通过检测至少一个其它先前所辨识的文本块(例如，文本块1210-1)来确定新文本块210-2的姿态。举例来说，部分地基于在文本块210-1中辨识的字符，在一些实施例中，可使用例如ESM等图像对准技术来计算图像的相对运动。在一些实施例中，ESM可对后续图像帧的低分辨率版本操作。因此，可基于对准确定先前所辨识的文本块相对于当前摄像机位置的姿态。因此，可基于先前所辨识的文本块的所确定的位置确定新近所辨识的字词相对于当前摄像机位置的姿态。因此，可使用摄像机相对于第二文本块的位置来确定第一文本块与第二文本块之间的几何关系。基于已知的文本块及新近所辨识的文本块的所确定的姿态，可导出页坐标系285中的新字词的姿态，由此促进根据经扫描的图像/帧序列重新构造经扫描的文本的结构。

接下来，在345中，可根据新字词的姿态将新字词插入到文本表示中。举例来说，在一个实施例中，每一所辨识的文本块可与页坐标系285中的限界框及坐标相关联，且可基于所辨识的文本块在页坐标系285中的坐标将所辨识的文本块插入到文本表示中。方法可接着继续进行到375。在一些实施例中，可使用适当数据结构来存储文本表示。

在一些实施例中，如果未检测到触发(320中的“否”)，那么，算法可继续进行到355，在355中，做出关于是否已构造自然特征目标且自然特征目标完整的确定。如果已构造自然特征目标且自然特征目标完整(355中的“是”)，那么方法继续进行到370。

如果未构造跟踪目标(例如，自然特征跟踪目标)或跟踪目标不完整(355中的“否”)，那么，在360中，可启动或继续进行产生跟踪目标(例如，自然特征跟踪目标)的过程。在一些实施例中，自然特征跟踪目标的产生可包括提取一或多个自然特征，包含一或多个图像帧中的基于文本的特征。当确定针对图像的所提取的兴趣点的数目超过某一阈值或满足某一所希望的置信水平时，目标的构造可被视为完整的。在一些情况下，此类自然特征跟踪目标的产生可能需要一个以上摄像机框架，这是因为增加所识别的特征的数目会增加使用所检测到的特征进行的稍后跟踪的准确度。在一些实施例中，可与方法300中的其它元素并行地执行自然特征跟踪目标的产生。

在一些实施例中，可在帧中检测图像中的特定特征点(例如，具有高对比度差的点及/或拐角点)且使用所述特定特征点来跨越帧跟踪摄像机110的姿态。在一些实施例中，处理器150可存储关于特征点的像素相关信息。举例来说，可将与特征点像素相关联的梯度值及/或梯度值的函数存储在存储器160中。在一些实施例中，可将参考帧中的关键点的特征向量存储在特征数据库中。在一些实施例中，自然特征跟踪可使用将个别权重指派给多个特征点的加权方案。在一些实施例中，用于每一特征点的权重可部分地基于特征点相对于一或多个文本块的位置。举例来说，加权方案可以文本块为中心且相比于摄像机图像框架中的其它特征来说更偏爱位于文本块上的特征。

在一些实施例中，可假设所提取的特征位于平行于摄像机平面的平面上。举例来说，在文本块出现在平面、几乎平面或相对平坦表面(例如，杂志页、书、报纸、产品包装或路标)上且摄像机握持为正面平行于文本(所述情形促进更好地进行文本辨识)的例子中，在可假设所提取的特征位于平行于摄像机平面的平面上的情况下，可使用自然特征跟踪来建置模型。在一些实施例中，对于平面目标，所述方法可在高稳健性及改变照明条件下按6-DOF跟踪目标。

在一些实施例中，在完成360之后，或在存在自然特征跟踪目标且自然特征跟踪目标完整的情况下，接着，方法可继续进行到370。在370中，可使用例如ESM等图像对准技术来确定230-2处的当前图像相对于在摄像机位置230-1处获得的参考图像的运动。在一些实施例中，例如ESM等图像对准/配准技术促进进行对摄像机相对于参考图像的相对运动的测量，所述测量用以触发文本辨识。在一些实施例中，可将通过摄像机俘获的图像的低分辨率版本用作ESM的输入且可按时间恒定方式计算帧间旋转。

在375中，可计算当前帧中所辨识的字词相对于参考帧的新的或优化的姿态。在一些实施例中，可启动分块跟踪器且用现有的或新近产生的图像目标初始化分块跟踪器及用通过图像对准370计算的当前姿态初始化分块跟踪器。在一些实施例中，分块跟踪器可接收(i)具有所跟踪特征的参考帧及/或(ii)摄像机相对于参考图像的相对运动作为输入。在一些实施例中，分块跟踪器可计算当前帧中所辨识的字词相对于参考帧的姿态。举例来说，分块跟踪器可在参考图像分块与从当前图像中提取的当前图像分块之间匹配特征点以计算相对于文本的摄像机位置。举例来说，分块跟踪器可能能够确定文本块1210-1相对于参考框架280的姿态265。在一些实施例中，可将参考中的关键点的所存储的特征向量与当前帧中的对应特征向量相匹配。因此，例如，可相对于基于摄像机的坐标系275及/或页坐标系285确定新字词的姿态。

在380中，可对用户给出关于所显示摄像机图像中的当前文本表示的反馈。举例来说，可突出显示所辨识的文本，使所辨识的文本经历字体改变，读出所辨识的文本，转译所辨识的文本及将所辨识的文本覆叠在经扫描的文本上，或以其它方式通过显示器向用户表示所辨识的文本。在一些实施例中，可提供视觉或可听反馈。举例来说，可通过文本转话音应用程序读出所辨识的字词。在一些实施例中，还可在发生错误时提供反馈。

在一些实施例中，在385中，如果存在作为输入的额外帧(385中的“是”)，那么方法返回到310以开始另一迭代。如果不存在额外帧(385中的“否”)，那么过程在390中终止。

在一些实施例中，可通过AR应用程序调用方法300。在一些实施例中，可在后台中执行用以从图像确定姿态信息的计算(即，作为后台计算过程)，同时俘获额外图像帧。在一些实施例中，可使用同时定位与映射(SLAM)程序方法执行摄像机移动或姿态调整的确定。举例来说，可在框360及/或375中的一或多者处使用SLAM程序以便跟踪文本的一部分及/或确定文本相对于摄像机或文本的另一部分的相对位置。

在一些实施例中，可使用MS 100上的摄像机110、处理器150、存储器160及/或IMU130的某一组合来执行方法300。在其它实施例中，可在服务器或无线地耦合到MS 100的其它计算装置上执行方法300的部分。在一些实施例中，服务器可从MS 100接收图像，处理所述图像且将处理的结果发送到通过调用实例方法300的应用程序指明的一组移动站。举例来说，在当场文本转译情形中，用户可扫描文本，可使用OCR来检测文本，跟踪文本，将文本转译成另一种语言且接着基于文本跟踪将文本覆叠在原始文本之上，并将文本发送到一或多个用户以准许若干用户在“实况摄像机”视图中观看/共享所转译的文本。在另一实施例中，可使用MS 100来扫描文本且使用实例方法300来检测及跟踪文本，且文本转话音应用程序可使用MS 100上或耦合到MS 100的扬声器读出文本。举例来说，文本转话音应用程序可供视觉有缺陷人使用，或在文本太小而不易读取的情形中，或供可能尚未学会读的人使用。在一些实施例中，自然特征跟踪的使用可促进跟踪，甚至对于空白纸上的文本中的短字词也如此。另外，有纹理材料的使用可准许实现文本跟踪中的较大稳健性。

图4展示与所揭示实施例一致的用于进行文本跟踪的系统的实例架构400。实例架构400的描述仅作为实例来提供且可按与所揭示实施例一致的方式来做出对架构的各种修改，如所属领域的技术人员将显而易见的。举例来说，可按各种方式组合、重复分布及/或修改图4中所展示的一或多个框及模块的功能。

在一些实施例中，可使用硬件、固件及/或软件或其某一组合在MS 100上实施字词辨识模块410、字词跟踪模块420、文本汇编程序430及反馈可视化工具460模块。在一些实施例中，上述模块中的一或多者的数个部分可在处理器150上使用存储在存储器160中及/或体现在耦合到MS 100的计算机可读媒体中的代码执行。

在一些实施例中，系统400可包括字词辨识模块410、字词跟踪模块420、文本汇编程序430及反馈可视化工具460。在一些实施例中，字词辨识模块410可包括OCR应用程序，其可辨识通过摄像机110俘获的图像中的文本块。另外，在一些实施例中，字词辨识模块410可确定新近所辨识的文本块的姿态。在一些实施例中，可使用页坐标系285来确定新近所辨识的文本块的位置。举例来说，在一个实施例中，字词辨识模块410可包括OCR子程序，其可在处理器150上执行以辨识通过摄像机110俘获的图像中的文本块，且将所辨识的文本块存储在存储器160中。

在一些实施例中，字词辨识模块410可包含词典、基于线性判别分析(LDA)的分类器及有限状态转换器。LDA分类器可使用多变量统计分类技术来通过使用图像帧中的像素值及分布辨识字符促进进行OCR。可在OCR校正系统中使用有限状态转换器以校正辨识器错误。在一些实施例中，还可使用有限状态转换器来解决由于经截断的字符、首字母缩写词、部分字词等引入的不明确性。可通过字词辨识模块410将具有新近所辨识的文本块的图像帧及新近所辨识的文本块的姿态发送到文本汇编程序430及字词跟踪模块420。在一些实施例中，可通过字词辨识模块410来执行方法300中的320、325、330及340的数部分。

在一些实施例中，文本汇编程序430可使用新近所辨识的文本块或字词的姿态来确定其相对于先前所辨识的文本块或字词的位置。在一些实施例中，可接着基于新近所辨识的字词的相对位置将新近所辨识的字词放置到当前所辨识的文本块的表示450中。举例来说，当前所辨识的文本块的表示450可呈连结列表或阵列的形式且可基于相对位置将新近所辨识的字词附加或插入到列表中。举例来说，可包括在处理器150上执行的应用程序或子程序的文本汇编程序模块430可使用新近所辨识的文本块或字词的姿态来确定其相对于先前所辨识的文本块或字词的位置且将当前所辨识的文本块的表示450存储在存储器160中。在一些实施例中，可通过文本汇编程序430来执行方法300中的340及/或345的部分。

在一些实施例中，跟踪模块420可使用新近所辨识的文本块的姿态来创建参考帧。在一些实施例中，跟踪模块420还可基于参考图像帧及一或多个后续帧产生跟踪目标。在一些实施例中，跟踪模块420可包含分块跟踪器，其可使用通过字词辨识模块410计算的姿态优化姿态估计。在一些实施例中，跟踪模块420可使用ESM来获得初始姿态，所述初始姿态可用以初始化分块跟踪器及获得优化的姿态估计。在一些实施例中，跟踪模块420可维持当前所跟踪字词连同其相应姿态440的列表。在一些实施例中，可通过跟踪模块420来执行355、360、370及375的部分。在一个实施例中，跟踪模块420可呈在处理器150上执行的应用程序或子程序的形式。

在一些实施例中，反馈可视化工具460可使用当前所辨识的文本的表示450及当前所跟踪字词连同其相应姿态的列表440来显示覆叠在文本块上的字词及/或经扩增对象。举例来说，经扩增对象可包含所辨识的文本的转译。在一些实施例中，可将所辨识的文本显示在MS 100上的显示器上且可通过MS 100上或耦合到MS 100的扬声器使用文本转语音应用程序读出所辨识的文本。在一些实施例中，可通过反馈可视化工具460来执行380的部分。举例来说，在一个实施例中，反馈可视化工具460可呈在处理器150上执行的应用程序或子程序的形式且可使用显示器145显示覆叠在文本块上的字词及/或经扩增对象。

图5展示与所揭示实施例一致的可在移动站上执行的实例方法500的流程图。举例来说，在一些实施例中，可在文本检测及跟踪期间执行所述方法。

参看图5，在一些实施例中，可通过在MS 100上执行的计算机视觉及/或AR应用程序调用方法500。在一些实施例中，可在505中调用实例方法500，在505中，可执行各种初始化及内务处理例行程序。

接下来，在510中，可通过对通过移动站(例如，MS 100)上的摄像机俘获的图像帧执行光学字符辨识(OCR)以定位及辨识第一文本块而获得第一参考帧。举例来说，在一些实施例中，可通过字词辨识模块410中的OCR应用程序执行510的部分。

在520中，可从一组后续图像帧中选择后续图像帧，所述选择是基于与所述选定后续图像帧相关联的参数。举例来说，在一些实施例中，可通过字词辨识模块410来执行520的部分。在一些实施例中，可(例如)在选择候选图像帧之前计算针对所述组后续图像帧的摄像机姿态。举例来说，在一些实施例中，可通过跟踪模块420来执行摄像机姿态的计算的部分。在一些实施例中，每一摄像机姿态与相异后续图像帧相关联及/或是至少部分基于使相关联的后续图像帧与第一参考帧对准来确定。因为所述选定后续图像帧是来自所述组后续图像帧，所以可在此过程期间计算针对所述选定后续图像帧的摄像机姿态。在一些实施例中，与所述组后续图像帧中的图像帧相关联的参数是至少部分基于与所述图像帧相关联的所计算的摄像机姿态来确定。因为所述选定后续图像帧是来自所述组后续图像帧，所以可在此过程期间确定与所述选定后续图像帧相关联的参数。在一些实施例中，可通过跟踪模块420执行参数的确定的部分。在一些实施例中，所述参数可包括或包含以下各者中的每一者中的一或多者或其组合：所述选定后续图像帧与第一参考帧之间的重叠区域的百分比；所述选定后续图像帧中可见的第一文本块的分数，其中所述分数经确定为所述选定后续图像帧中包括第一文本块的可见部分的区域与第一文本块的总区域的比；所述选定后续图像帧相对于第一参考帧的旋转的量值；及所述选定后续图像帧相对于第一参考帧的平移的量值。

在530中，通过对所述选定后续图像帧执行OCR以辨识第二文本块而获得第二参考帧。举例来说，在一些实施例中，可通过字词辨识模块410中的OCR应用程序执行530的部分。

接下来，在540中，可至少部分基于第一文本块在第二参考帧中的位置及与第二参考帧相关联的摄像机姿态确定第一文本块与第二文本块之间的几何关系。举例来说，在一些实施例中，可通过文本汇编程序模块430来执行540的部分。在545中，控制可返回到呼叫程序及/或例如计算机视觉及/或AR应用程序等应用程序。

提供所揭示方面的先前描述以使得所属领域的技术人员能够作出或使用与本发明一致的各种实施例。所属领域的技术人员将容易显而易见对这些方面的各种修改，且在不脱离本发明的精神或范围的情况下，本文中所界定的一般原理可应用于其它方面。

Claims

1.一种用于在移动站MS上进行文本辨识及跟踪的方法，所述方法包括：

通过对通过所述MS上的摄像机俘获的图像帧执行光学字符辨识OCR以定位及辨识第一文本块而获得第一参考帧；

从一组后续图像帧中选择后续图像帧，所述选择是基于与所述选定后续图像帧相关联的参数；

通过对所述选定后续图像帧执行OCR以辨识第二文本块而获得第二参考帧；以及

确定所述第一文本块与所述第二文本块之间的几何关系，其中所述几何关系是至少部分基于以下二者确定的：

所述第一文本块在所述第二参考帧中的位置，及

与所述第二参考帧相关联的摄像机姿态，

其中所述方法进一步包括：

估计所述摄像机相对于第一参考框架的姿态；以及

通过使用所述摄像机在所述第一参考框架中的经估计的姿态来确定所述第一文本块在第二参考框架中的位置，

其中所述第一参考框架和所述第二参考框架是摄像机坐标系。

2.根据权利要求1所述的方法，其进一步包括基于所述第一文本块与所述第二文本块之间的所述几何关系按序列汇编所述第一文本块与所述第二文本块。

3.根据权利要求2所述的方法，其中所述第一文本块与所述第二文本块之间的所述几何关系是至少部分基于参考框架，所述参考框架与所述第一文本块和所述第二文本块所出现在的媒体相关联。

4.根据权利要求2所述的方法，其进一步包括：

将所述第一文本块及所述第二文本块的所汇编的序列作为输入提供到文本转话音应用程序。

5.根据权利要求1所述的方法，其中选择所述后续图像帧进一步包括：

针对所述组后续图像帧计算摄像机姿态，每一摄像机姿态与相异后续图像帧相关联且是至少部分基于使所述相关联后续图像帧与所述第一参考帧对准来确定，以及

至少部分基于所述计算的摄像机姿态，确定与所述组后续图像帧中的对应图像帧相关联的参数。

6.根据权利要求5所述的方法，其中所述对准是使用高效二阶最小化ESM来执行。

7.根据权利要求6所述的方法，其中所述ESM对所述相关联的后续图像帧的低分辨率版本操作。

8.根据权利要求5所述的方法，其中针对所述组后续图像帧计算摄像机姿态进一步包括：

产生包括通过识别所述第一参考帧中的多个特征点获得的图像分块的跟踪目标，以及

基于所述第一参考帧与所述组中的后续图像帧之间的图像分块的对应确定所述跟踪目标在所述后续图像帧中的位置，以及

至少部分基于所述跟踪目标在所述后续图像帧中的所述位置，计算与所述后续图像帧相关联的摄像机姿态。

9.根据权利要求8所述的方法，其中所述特征点是基于所述第一参考帧中的自然特征。

10.根据权利要求8所述的方法，其中对个别特征点指派权重且相对于位于所述第一参考帧中的其它位置的特征点来说，对所述第一文本块上的特征点指派较大权重。

11.根据权利要求8所述的方法，其中所述跟踪目标的产生实质上与所述相关联后续图像帧与所述第一参考帧的所述对准并行执行。

12.根据权利要求1所述的方法，其中所述第一参考帧及所述组后续图像帧是无标记的。

13.根据权利要求1所述的方法，其中所述参数包括以下各者中的至少一者：

所述选定后续图像帧与所述第一参考帧之间的重叠区域的百分比，或

所述选定后续图像帧中可见的所述第一文本块的分数，其中所述分数经确定为所述选定后续图像帧中包括所述第一文本块的可见部分的区域与所述第一文本块的总区域的比，或

所述选定后续图像帧相对于所述第一参考帧的旋转的量值，或

所述选定后续图像帧相对于所述第一参考帧的平移的量值。

14.根据权利要求1所述的方法，其中所述摄像机姿态是按6自由度6-DoF确定，其中所述摄像机正面平行于包括所述文本块的平面媒体。

15.根据权利要求1所述的方法，其中所述方法是通过扩增实境AR应用程序调用。

16.根据权利要求15所述的方法，其中通过所述AR应用程序将虚拟对象放置在所述第一文本块及所述第二文本块上。

17.根据权利要求16所述的方法，其中所述虚拟对象包括来自所述第一文本块及所述第二文本块的经转译的文本，其中所述经转译的文本呈不同于用以表达所述第一文本块及所述第二文本块的语言的语言。

18.一种移动站MS，其包括：

摄像机，其经配置以俘获第一图像帧及一组后续图像帧，以及

处理器，其耦合到所述摄像机，所述处理器包括：

字词辨识模块，其经配置以：

通过对所述第一图像帧执行光学字符辨识OCR以定位及辨识第一文本块而获得第一参考帧；

从所述组后续图像帧中选择后续图像帧，所述选择是基于与所述选定后续图像帧相关联的参数；以及

文本汇编程序模块，其经配置以确定所述第一文本块与所述第二文本块之间的几何关系，其中所述几何关系是至少部分基于以下二者确定的：

所述第一文本块在所述第二参考帧中的位置，及

与所述第二参考帧相关联的摄像机姿态，

其中所述MS经进一步配置以执行以下操作：

估计所述摄像机相对于第一参考框架的姿态；以及

19.根据权利要求18所述的MS，其中所述文本汇编程序模块经进一步配置以进行以下操作：

基于所述第一文本块与所述第二文本块之间的所述几何关系按序列汇编所述第一文本块及所述第二文本块。

20.根据权利要求19所述的MS，其中所述文本汇编程序模块经进一步配置以进行以下操作：

21.根据权利要求18所述的MS，其中所述处理器进一步包括操作地耦合到所述字词辨识模块的跟踪模块，所述跟踪模块经配置以进行以下操作：

22.根据权利要求21所述的MS，其中所述跟踪模块经进一步配置以使用高效二阶最小化ESM执行所述对准。

23.根据权利要求22所述的MS，其中所述ESM对所述相关联后续图像帧的低分辨率版本操作。

24.根据权利要求21所述的MS，其中为了针对所述组后续图像帧计算摄像机姿态，所述跟踪模块经进一步配置以进行以下操作：

25.根据权利要求24所述的MS，其中所述特征点是基于所述第一参考帧中的自然特征。

26.根据权利要求24所述的MS，其中所述跟踪模块经配置以对个别特征点指派权重，以使得相对于位于所述第一参考帧中的其它位置的特征点来说，对所述第一文本块上的特征点指派较大权重。

27.根据权利要求24所述的MS，其中所述跟踪模块经配置以实质上与所述相关联后续图像帧与所述第一参考帧的所述对准并行地产生所述跟踪目标。

28.根据权利要求18所述的MS，其中通过所述摄像机俘获的所述第一参考帧及所述组后续图像帧是无标记的。

29.根据权利要求18所述的MS，其中所述参数包括以下各者中的至少一者：

所述选定后续图像帧相对于所述第一参考帧的平移的量值。

30.一种设备，其包括：

用于俘获一序列图像帧的成像装置，

用于通过对所述序列图像帧中的图像帧执行光学字符辨识OCR以定位及辨识第一文本块而获得第一参考帧的装置，

用于从所述序列图像帧中选择后续图像帧的装置，所述选择是基于与所述选定后续图像帧相关联的参数，

用于通过对所述选定后续图像帧执行OCR以辨识第二文本块而获得第二参考帧的装置，以及

用于确定所述第一文本块与所述第二文本块之间的几何关系的装置，其中所述几何关系是至少部分基于以下二者确定的：

所述第一文本块在所述第二参考帧中的位置，及

与所述第二参考帧相关联的所述成像装置的姿态，

其中所述设备进一步包括：

用于估计摄像机相对于第一参考框架的姿态的装置；以及

用于通过使用所述摄像机在所述第一参考框架中的经估计的姿态来确定所述第一文本块在第二参考框架中的位置的装置，

31.根据权利要求30所述的设备，其进一步包括：

用于基于所述第一文本块与所述第二文本块之间的所述几何关系按序列汇编所述第一文本块及所述第二文本块的装置。

32.根据权利要求31所述的设备，其进一步包括：

用于将所述第一文本块及所述第二文本块的所汇编的序列作为输入提供到文本转话音应用程序的装置。

33.根据权利要求30所述的设备，其中用于选择后续图像帧的所述装置包括：

用于针对所述序列图像帧中的所述图像帧计算所述成像装置的姿态的装置，所述成像装置的每一所计算的姿态与相异图像帧相关联且是至少部分基于使所述相关联图像帧与所述第一参考帧对准来确定，以及

用于至少部分基于所述成像装置的所述计算的姿态，确定与所述序列图像帧中的对应图像帧相关联的参数的装置。

34.根据权利要求33所述的设备，其中用于计算所述成像装置的姿态的所述装置包括：

用于产生包括通过识别所述第一参考帧中的多个特征点获得的图像分块的跟踪目标的装置，以及

用于基于所述第一参考帧与所述后续图像帧之间的图像分块的对应确定所述跟踪目标在所述序列图像帧中的后续图像帧中的位置的装置，以及

用于至少部分基于所述跟踪目标在所述后续图像帧中的所述位置，计算与所述后续图像帧相关联的摄像机姿态的装置。

35.根据权利要求34所述的设备，其中对个别特征点指派权重且相对于位于所述第一参考帧中的其它位置的特征点来说，对所述第一文本块上的特征点指派较大权重。

36.根据权利要求34所述的设备，其中用于产生所述跟踪目标的所述装置实质上与所述相关联图像帧与所述第一参考帧的所述对准并行操作。

37.根据权利要求30所述的设备，其中通过所述成像装置俘获的所述序列图像帧中的所述图像帧是无标记的。

38.根据权利要求30所述的设备，其中所述参数包括以下各者中的至少一者：

所述选定后续图像帧中可见的所述第一文本块的分数，或

所述选定后续图像帧相对于所述第一参考帧的平移的量值。

39.一种非暂时性计算机可读介质，其包括指令，所述指令在由处理器执行时执行在移动站MS上的方法，所述方法包括：

所述第一文本块在所述第二参考帧中的位置，及

与所述第二参考帧相关联的摄像机姿态，

其中所述方法进一步包括：

估计所述摄像机相对于第一参考框架的姿态；以及