CN103154972A

CN103154972A - 基于文本的3d扩增实境

Info

Publication number: CN103154972A
Application number: CN2011800440701A
Authority: CN
Inventors: 丘衡一; 李太元; 延奇宣; 百永基
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-10-13
Filing date: 2011-10-06
Publication date: 2013-06-12
Also published as: KR101469398B1; US20120092329A1; JP2016066360A; EP2628134A1; JP2014510958A; WO2012051040A1; KR20130056309A

Abstract

一种特定方法包含从图像捕获装置接收图像数据以及检测所述图像数据内的文本。响应于检测到所述文本，产生扩增图像数据，所述扩增图像数据包含与所述文本相关联的至少一个扩增实境特征。

Description

基于文本的3D扩增实境

技术领域

本发明大体来说涉及图像处理。

背景技术

技术的进步已产生更小且更强大的计算装置。举例来说，当前存在多种便携式个人计算装置，包含无线计算装置，例如体积小、重量轻且易于由用户携带的便携式无线电话、个人数字助理(PDA)以及寻呼装置。更具体来说，例如蜂窝式电话和因特网协议(IP)电话等便携式无线电话可经由无线网络传送话音和数据包。此外，许多此类无线电话包含并入其中的其它类型的装置。举例来说，无线电话还可包含数字静态相机、数字摄像机、数字记录器以及音频文件播放器。

发明内容

描述一种基于文本的扩增实境(AR)技术。所述基于文本的AR技术可用以从出现在真实世界场景中的文本检索信息以及通过将相关内容嵌入真实场景中来展示相关内容。举例来说，具有相机和显示屏幕的便携式装置可执行基于文本的AR以检测出现在由所述相机捕获的场景中的文本以及对与所述文本相关联的三维(3D)内容进行定位。所述3D内容可嵌有来自所述相机的图像数据以在显示时，例如在屏幕处以图像预览模式显示时，作为场景的一部分而显现。所述装置的用户可经由例如触摸屏或键盘等输入装置与所述3D内容交互。

在一特定实施例中，一种方法包含从图像捕获装置接收图像数据以及检测所述图像数据内的文本。所述方法还包含响应于检测到所述文本而产生扩增图像数据，所述扩增图像数据包含与所述文本相关联的至少一个扩增实境特征。

在另一特定实施例中，一种设备包含文本检测器，所述文本检测器经配置以检测从图像捕获装置接收到的图像数据内的文本。所述设备还包含渲染器，所述渲染器经配置以产生扩增图像数据。所述扩增图像数据包含扩增实境数据以渲染与所述文本相关联的至少一个扩增实境特征。

至少一个所揭示实施例所提供的特定优点包含与在有限数目个场景中基于识别所述场景内的预定标记或基于寄存在数据库中的自然图像来识别场景而提供AR内容相比，可在任何场景中基于所述场景中所检测到的文本来呈现AR内容的能力。

在检视完整份申请案后，将明白本发明的其它方面、优点和特征，申请案包含以下部分：附图说明、具体实施方式以及权利要求书。

附图说明

图1A是说明用以提供基于文本的三维(3D)扩增实境(AR)的系统的特定实施例的框图；

图1B是说明图1A的系统的图像处理装置的第一实施例的框图；

图1C是说明图1A的系统的图像处理装置的第二实施例的框图；

图1D是说明图1A的系统的文本检测器的特定实施例以及文本检测器的文本辨识器的特定实施例的框图；

图2是描绘可由图1A的系统执行的在图像内进行的文本检测的说明性实例的图；

图3是描绘可由图1A的系统执行的文本定向检测的说明性实例的图；

图4是描绘可由图1A的系统执行的文本区检测的说明性实例的图；

图5是描绘可由图1A的系统执行的文本区检测的说明性实例的图；

图6是描绘可由图1A的系统执行的文本区检测的说明性实例的图；

图7是图2的图像内的所检测文本区的说明性实例的图；

图8是描绘在透视变形移除之后来自所检测文本区的文本的图；

图9是说明可由图1A的系统执行的文本验证过程的特定实施例的图；

图10是描绘可由图1A的系统执行的文本区追踪的说明性实例的图；

图11是描绘可由图1A的系统执行的文本区追踪的说明性实例的图；

图12是描绘可由图1A的系统执行的文本区追踪的说明性实例的图；

图13是描绘可由图1A的系统执行的文本区追踪的说明性实例的图；

图14是描绘基于可由图1A的系统执行的文本区追踪来确定相机姿势的说明性实例的图；

图15是描绘可由图1A的系统执行的文本区追踪的说明性实例的图；

图16是描绘可由图1A的系统产生的基于文本的三维(3D)扩增实境(AR)内容的说明性实例的图；

图17是说明提供基于文本的三维(3D)扩增实境(AR)的方法的第一特定实施例的流程图；

图18是说明追踪图像数据中的文本的方法的特定实施例的流程图；

图19是说明追踪图像数据的多个帧中的文本的方法的特定实施例的流程图；

图20是说明估计图像捕获装置的姿势的方法的特定实施例的流程图；

图21A是说明提供基于文本的三维(3D)扩增实境(AR)的方法的第二特定实施例的流程图；

图21B是说明提供基于文本的三维(3D)扩增实境(AR)的方法的第三特定实施例的流程图；

图21C是说明提供基于文本的三维(3D)扩增实境(AR)的方法的第四特定实施例的流程图；以及

图21D是说明提供基于文本的三维(3D)扩增实境(AR)的方法的第五特定实施例的流程图。

具体实施方式

图1A是用以提供基于文本的三维(3D)扩增实境(AR)的系统100的特定实施例的框图。系统100包含耦合到图像处理装置104的图像捕获装置102。图像处理装置104也耦合到显示装置106、存储器108以及用户输入装置180。图像处理装置104经配置以检测传入图像数据或视频数据中的文本，并产生3D AR数据以供显示。

在一特定实施例中，图像捕获装置102包含透镜110，所述透镜经配置以将表示场景的具有文本152的图像150的传入光引导到图像传感器112。图像传感器112可经配置以基于检测到的传入光来产生视频或图像数据160。图像捕获装置102可包含一个或一个以上数字静态相机、一个或一个以上摄像机，或其任何组合。

在一特定实施例中，图像处理装置104经配置以检测传入视频/图像数据160中的文本并产生扩增图像数据170以供显示，如相对于图1B、1C和1D所描述。图像捕获装置104经配置以检测从图像捕获装置102接收到的视频/图像数据160内的文本。图像捕获装置104经配置以基于所检测到的文本来产生扩增实境(AR)数据以及相机姿势数据。AR数据包含至少一个扩增实境特征，例如AR特征154，以便与视频/图像数据160组合且以嵌入在扩增图像151内的形式来显示。图像捕获装置104基于相机姿势数据将AR数据嵌入到视频/图像数据160中以产生扩增图像数据170，所述扩增图像数据被提供到显示装置106。

在一特定实施例中，显示装置106经配置以显示扩增图像数据170。举例来说，显示装置106可包含图像预览屏幕或其它视觉显示装置。在一特定实施例中，用户输入装置180实现了对显示装置106处显示的三维物体的用户控制。举例来说，用户输入装置180可包含一个或一个以上物理控件，例如一个或一个以上开关、按钮、操纵杆或键。作为其它实例，用户输入装置180可包含显示装置106的触摸屏、语音接口、回声定位器或示意动作辨识器、另一用户输入机构，或其任何组合。

在一特定实施例中，图像处理装置104的至少一部分可经由专用电路来实施。在其它实施例中，图像处理装置104的至少一部分可通过计算机可执行代码的执行来实施，所述计算机可执行代码是由图像处理装置104执行的。为了进行说明，存储器108可包含存储程序指令142的非暂态计算机可读存储媒体，所述程序指令可由图像处理装置104执行。程序指令142可包含用于检测从图像捕获装置接收到的图像数据内的文本(例如视频/图像数据160内的文本)的代码，以及用于产生扩增图像数据的代码。所述扩增图像数据包含扩增实境数据以渲染与所述文本相关联的至少一个扩增实境特征，例如扩增图像数据170。

一种用于基于文本的AR的方法可由图1A的图像处理装置104执行。基于文本的AR表示用以(a)从真实世界场景中的文本检索信息以及(b)通过将相关内容嵌入真实场景中来展示相关内容的技术。与基于标记的AR不同，此种方法不需要预定标记，并且可使用现有词典(英语、韩语、维基百科......)。并且，通过以各种形式(叠置文本、图像、3D物体、语音和/或动画)来展示结果，基于文本的AR对许多应用(例如，旅游、教育)可非常有用。

使用范例的特定说明性实施例是餐馆菜单。当在国外旅游时，游客可能会看到可能无法在词典中查找到的外文。并且，即便在词典中找到了所述外文，也可能难以理解所述外文的含义。

举例来说，“Jajangmyeon”是一道很受欢迎的韩国菜，是从中国菜“炸酱面”衍生而来的。它是由在小麦面上浇上由春酱(咸的黑豆酱)、碎肉和蔬菜，有时还有海鲜制成的厚厚的酱料做成的。尽管这样的解释是有帮助的，但仍难以知道这道菜是否会适合个人的口味。然而，如果个人可看到已做好的Jajangmyeon这道菜的图像，那么个人将较容易理解Jajangmyeon。

如果Jajangmyeon的3D信息是可获得的，那么个人可看到其各种形状且因此对Jajangmyeon具有更好的理解。基于文本的3D AR系统可有助于从外文的3D信息来理解所述外文。

在一特定实施例中，基于文本的3D AR包含执行文本区检测。可通过使用二值化和投影轮廓分析来在图像中心四周的ROI(兴趣区)内检测文本区。举例来说，二值化和投影轮廓分析可通过文本辨识检测器来执行，例如相对于图1D所描述的文本区检测器122。

图1B是图1A的图像处理装置104的第一实施例的框图，所述图像处理装置包含文本检测器120、追踪/姿势估计模块130、AR内容产生器190以及渲染器134。图像处理装置104经配置以接收传入视频/图像数据160以及经由开关194的操作将视频/图像数据160选择性地提供到文本检测器120，所述开关的操作是响应于图像处理装置104的模式而作出的。举例来说，在检测模式下，开关194可将视频/图像数据160提供到文本检测器120，而在追踪模式下，开关194可使视频/图像数据160的处理绕过文本检测器120。可经由追踪/姿势估计模块130所提供的检测/追踪模式指示器172向开关194指示模式。

文本检测器120经配置以检测从图像捕获装置102接收到的图像数据内的文本。文本检测器120可经配置以在不检查视频/图像数据160以定位预定标记且不存取所寄存的自然图像的数据库的情况下检测视频/图像数据160的文本。文本检测器120经配置以产生经验证的文本数据166以及文本区数据167，如相对于图1D所描述。

在一特定实施例中，AR内容产生器190经配置以接收经验证的文本数据166以及产生扩增实境(AR)数据192，所述AR数据包含至少一个扩增实境特征，例如AR特征154，以便与视频/图像数据160组合且以嵌入在扩增图像151内的形式来显示。举例来说，AR内容产生器190可基于经验证的文本数据166的含义、翻译或其它方面来选择一个或一个以上扩增实境特征，例如相对于图16中所说明的菜单翻译使用范例所描述的。在一特定实施例中，所述至少一个扩增实境特征是三维物体。

在一特定实施例中，追踪/姿势估计模块130包含追踪组件131和姿势估计组件132。追踪/姿势估计模块130经配置以接收文本区数据167和视频/图像数据160。追踪/姿势估计模块130的追踪组件131可经配置以在处于追踪模式下在视频数据的多个帧期间相对于图像150中的至少一个其它显著特征来追踪文本区。追踪/姿势估计模块130的姿势估计组件132可经配置以确定图像捕获装置102的姿势。追踪/姿势估计模块130经配置以至少部分基于由姿势估计组件132确定的图像捕获装置102的姿势来产生相机姿势数据168。可在三维上追踪文本区，且可根据所追踪文本区的位置以及图像捕获装置102的姿势来将AR数据192定位在多个帧中。

在一特定实施例中，渲染器134经配置以接收来自AR内容产生器190的AR数据192以及来自追踪/姿势估计模块130的相机姿势数据168，以及产生扩增图像数据170。扩增图像数据170可包含扩增实境数据以渲染与文本相关联的至少一个扩增实境特征，例如与原始图像150的文本152以及扩增图像151的文本153相关联的扩增实境特征154。渲染器134还可响应于从用户输入装置180接收到的用户输入数据182以控制AR数据192的呈现。

在一特定实施例中，文本检测器120、AR内容产生器190、追踪/姿势估计模块130以及渲染器134中的一者或一者以上的至少一部分可经由专用电路来实施。在其它实施例中，文本检测器120、AR内容产生器190、追踪/姿势估计模块130以及渲染器134中的一者或一者以上可通过计算机可执行代码的执行来实施，所述计算机可执行代码是由包含在图像处理装置104中的处理器136执行的。为了进行说明，存储器108可包含存储程序指令142的非暂态计算机可读存储媒体，所述程序指令可由处理器136执行。程序指令142可包含用于检测从图像捕获装置接收到的图像数据内的文本(例如视频/图像数据160内的文本)的代码，以及用于产生扩增图像数据170的代码。扩增图像数据170包含扩增实境数据以渲染与所述文本相关联的至少一个扩增实境特征。

在操作期间，视频/图像数据160可以视频数据的帧的形式而被接收，所述帧包含表示图像150的数据。在文本检测模式下，图像处理装置104可将视频/图像数据160提供到文本检测器120。可对文本152进行定位，且可产生经验证的文本数据166和文本区数据167。通过渲染器134基于相机姿势数据168将AR数据192嵌入视频/图像数据160中，且将扩增图像数据170提供到显示装置106。

响应于在文本检测模式下检测到文本152，图像处理装置104可进入追踪模式。在追踪模式下，可绕过文本检测器120，且可基于确定视频/图像数据160的相继帧之间的兴趣点的运动来追踪文本区，如相对于图10到15所描述。如果文本区追踪指示文本区不再处于场景中，则检测/追踪模式指示器172可经设定以指示检测模式，且可在文本检测器120处起始文本检测。文本检测可包含文本区检测、文本辨识或其组合，例如相对于图1D所描述。

图1C是图1A的图像处理装置104的第二实施例的框图，所述图像处理装置包含文本检测器120、追踪/姿势估计模块130、AR内容产生器190以及渲染器134。图像处理装置104经配置以接收传入视频/图像数据160并将视频/图像数据160提供到文本检测器120。与图1B相反，图1C中描绘的图像处理装置104可在传入视频/图像数据160的每个帧中执行文本检测且不在检测模式与追踪模式之间转变。

图1D是图1B和1C的图像处理装置104的文本解码器120的特定实施例的框图。文本检测器120经配置以检测从图像捕获装置102接收到的视频/图像数据160内的文本。文本检测器120可经配置以在不检查视频/图像数据160以定位预定标记且不存取所寄存的自然图像的数据库的情况下检测传入图像数据中的文本。文本检测可包含检测文本的区以及辨识所述区内的文本。在一特定实施例中，文本检测器120包含文本区检测器122和文本辨识器125。可将视频/图像数据160提供到文本区检测器122和文本辨识器125。

文本区检测器122经配置以在视频/图像数据160内定位文本区。举例来说，文本区检测器122可经配置以搜索图像中心四周的兴趣区，且可使用二值化技术来定位文本区，例如相对于图2所描述。文本区检测器122可经配置以例如根据相对于图3到4所描述的投影轮廓分析或自底向上聚类法来估计文本区的定向。文本区检测器122经配置以提供初始文本区数据162，用于指示一个或一个以上所检测文本区，例如相对于图5到7所描述。在一特定实施例中，文本区检测器122可包含经配置以执行二值化技术的二值化组件，例如相对于图7所描述。

文本辨识器125经配置以接收视频/图像数据160和初始文本区数据162。文本辨识器125可经配置以调整在初始文本区数据162中识别的文本区以减少透视变形，例如相对于图8所描述。举例来说，文本152可具有因图像捕获装置102的透视而造成的变形。文本辨识器125可经配置以通过应用变换来调整文本区以产生所提议的文本数据，所述变换将文本区的边界框的角映射到矩形的角中。文本辨识器125可经配置以经由光学字符辨识来产生所提议的文本数据。

文本辨识器125可经进一步配置以存取词典以验证所提议的文本数据。举例来说，文本辨识器125可存取存储在图1A的存储器108中的一个或一个以上词典，例如代表性词典140。所提议的文本数据可包含多个文本候选者以及与所述多个文本候选者相关联的置信数据。文本辨识器125可经配置以根据与对应于词典140的条目的文本候选者相关联的置信值来选择所述文本候选者，例如相对于图9所描述。文本辨识器125经进一步配置以产生经验证的文本数据166和文本区数据167。经验证的文本数据166可被提供到AR内容产生器190，且文本区数据167可被提供到追踪/姿势估计130，例如图1B和1C中所描述。

在一特定实施例中，文本辨识器125可包含透视变形移除组件196、二值化组件197、字符辨识组件198，以及错误校正组件199。透视变形移除组件196经配置以减少透视变形，例如相对于图8所描述。二值化组件197经配置以执行二值化技术，例如相对于图7所描述。字符辨识组件198经配置以执行文本辨识，例如相对于图9所描述。错误校正组件199经配置以执行错误校正，例如相对于图9所描述。

通过根据图1B、1C和1D的一个或一个以上实施例的图1A的系统100实现的基于文本的AR提供了优于其它AR方案的显著优点。举例来说，基于标志的AR方案可包含“标记”库，所述标记是计算机相对易于在图像中识别出以及进行解码的不同图像。为了进行说明，标记在外观和功能两者上可类似于二维条形码，例如快速响应(QR)码。标记可经设计以在图像中可易于检测到以及易于与其它标记区分开。当在图像中检测到标记时，可在标记上插入相关信息。然而，设计为可检测的标记在嵌入到场景中时看起来是不自然的。在一些标记方案实施方案中，也可能需要边界标记以验证所指定标记在场景内是否可见，这进一步降低了具有额外标记的场景的自然质量。

基于标记的AR方案的另一缺点是标记必须嵌入到将在其中显示扩增实境内容的每个场景中。因此，标记方案是效率低下的。另外，因为必须预定义标记并将其插入到场景中，因此基于标记的AR方案相对不灵活。

基于文本的AR与基于自然特征的AR方案相比也提供益处。举例来说，基于自然特征的AR方案可能会需要自然特征的数据库。可使用尺度不变特征变换(SIFT)算法来搜索每一目标场景以确定数据库中的一个或一个以上自然特征是否在所述场景中。一旦在目标场景中检测到数据库中的足够类似的自然特征，便可相对于目标场景来叠置相关信息。然而，因为此种基于自然特征的方案可基于全部的图像，且可能有许多目标要检测，所以可能需要极大的数据库。

与此类基于标记的AR方案以及基于自然特征的AR方案相反，本发明的基于文本的AR方案的实施例不需要为了插入标记而对任何场景进行预先修改，且也不需要大型的图像数据库以进行比较。而是，将文本定位在场景内，且基于所定位的文本来检索相关信息。

通常，场景内的文本含有关于所述场景的重要信息。举例来说，出现在电影海报中的文本通常包含电影名称，且还可包含宣传语、电影发布日期、演员姓名、导演、制片人，或其它相关信息。在基于文本的AR系统中，存储少量信息的数据库(例如，词典)可用以识别与电影海报相关的信息(例如，电影名称、男演员/女演员姓名)。相反地，基于自然特征的AR方案可需要对应于成千张不同的电影海报的数据库。另外，基于文本的AR系统可应用于任何类型的目标场景，因为基于文本的AR系统是基于场景内检测到的文本来识别相关信息的，这与基于标记的AR方案相反，基于标记的AR方案仅对先前已经修改以纳入标记的场景有效。因此，基于文本的AR可提供与基于标记的方案相比较高的灵活性和效率，且还可提供与基于自然特征的方案相比更详细的目标检测以及降低的数据库要求。

图2描绘图像内的文本检测的说明性实例200。举例来说，图1D的文本检测器120可对视频/图像数据160的输入帧执行二值化，使得文本变黑且其它图像内容变白。左图像202说明输入图像，而右图像204说明输入图像202的二值化结果。左图像202代表彩色图像或色彩标度图像(例如，灰色标度图像)。任何二值化方法，例如基于自适应阈值的二值化方法或基于色彩聚类的方法，都可经实施以用于对相机捕获的图像进行稳健的二值化。

图3描绘可由图1D的文本检测器120执行的文本定向检测的说明性实例300。给定二值化结果，可通过使用投影轮廓分析来估计文本定向。投影轮廓分析的基本理念是在线方向与文本定向一致时“文本区(黑像素)”可覆盖有最少量的线。举例来说，具有第一定向302的线的第一数目大于具有第二定向304的线的第二数目，所述第二定向更接近地匹配下伏文本的定向。通过测试几个方向，可估计文本定向。

给定文本的定向，可找到文本区。图4描绘可由图1D的文本检测器120执行的文本区检测的说明性实例400。图4中的一些线，例如代表性线404，是不穿过黑像素(文本中的像素)的线，而例如代表性线406等其它线是划过黑像素的线。通过找到不穿过黑像素的线，便可检测到文本区的垂直界线。

图5是描绘可由图1A的系统执行的文本区检测的说明性实例的图。文本区可通过确定与文本502相关联的边界框或边界区来检测。边界框可包含大体上包围文本502的多根相交线。举例来说，为了找到文本502的词语的相对窄的边界框，可提出优化问题并加以解决。为了解决优化问题，可将形成文本502的像素表示为边界框的上线504可通过第一方程式y＝ax+b来描述，而边界框的下线506可通过第二方程式y＝cx+d来描述。为了找到第一和第二方程式的值，可施加以下准则：

\min_{a, b, c, d} {&Integral;}_{m}^{M} | (ax + b) - (cx + d) | dx

满足：

y_i≤ax_i+b(i＝1，2，...N)

y_i≥cx_i+d(i＝1，2，...N)

其中：

m = \min_{1 \leq i \leq N} x_{i}

M = \max_{1 \leq i \leq N} x_{i}

在一特定实施例中，此条件可直观地指示上线504和下线506是以减少(例如，最小化)线504、506之间的区域的方式来进行确定的。

在已检测到文本的垂直界线(例如，至少部分辨别出文本的上和下界线的线)之后，也可检测到水平界线(例如，至少部分辨别出文本的左和右界线的线)。图6是描绘可由图1A的系统执行的文本区检测的说明性实例的图。图6说明用以在已找到上线604和下线606之后找到水平界线(例如，左线608和右线610)以完成边界框的方法，例如通过参看图5所描述的方法。

左线608可通过第三方程式y＝ex+f来描述，而右线610可通过第四方程式y＝gx+h来描述。由于在边界框的左侧和右侧可能存在相对少量的像素，因此可确定左线608和右线610的斜率。举例来说，如图6所示，由左线608与顶线604形成的第一角度612可等于由左线608与底线606形成的第二角度614。同样地，由右线610与顶线604形成的第三角度616可等于由右线610与底线606形成的第四角度618。请注意，可使用与用以找到顶线604和底线606的方法类似的方法来找到线608、610；然而，这种方法可能会使线608、610的斜率不稳定。

边界框或边界区可对应于变形的边界区，所述变形的边界区至少部分对应于规则边界区的透视变形。举例来说，规则边界区可以是围封文本且因相机姿势而变形以导致图6中所说明的变形边界区的矩形。通过假定文本位于平面物体上且具有矩形边界框，可基于一个或一个以上相机参数来确定相机姿势。举例来说，可至少部分基于焦距、主点、歪斜系数、图像变形系数(例如径向和切向变形)、一个或一个以上其它参数，或其任何组合来确定相机姿势。

已参考顶线、底线、左线和右线以及参考水平和垂直线或边界来描述了参看图4到6描述的边界框或边界区，这仅是为了读者的方便起见。参看图4到6描述的方法不限于找到水平或垂直布置的文本的边界。另外，参看图4到6描述的方法可用以或适于找到与不易于由直线定界的文本(例如，以弯曲方式布置的文本)相关联的边界区。

图7描绘图2的图像内的所检测文本区702的说明性实例700。在一特定实施例中，基于文本的3D AR包含执行文本辨识。举例来说，在检测到文本区之后，可纠正文本区，使得移除或减少文本因透视而发生的一个或一个以上变形。举例来说，图1D的文本辨识器125可纠正由初始文本区数据162指示的文本区。可确定将文本区的边界框的四个角映射到矩形的四个角中的变换。透镜(例如通常在消费型相机中找到)的焦距可用以移除透视变形。或者，可使用相机捕获的图像的纵横比(如果场景是垂直捕获的，那么方法之间可能不会有很大的差异)。

图8描绘使用透视变形移除以减少透视变形来调整包含“文本”的文本区的实例800。举例来说，调整文本区可包含应用将文本区的边界框的角映射到矩形的角中的变换。在图8中所描绘的实例800中，“文本”可以是来自图7的所检测文本区702的文本。

为了辨识经纠正的字符，可应用一种或一种以上光学字符辨识(OCR)技术。因为常规OCR方法可经设计以与经扫描的图像而非相机图像一起使用，所以此些常规方法可能不会充分地处理由用户操作的相机捕获的图像中的外观变形(与平板扫描仪相反)。可通过组合若干变形模型来产生基于相机的OCR的训练样本以处理外观变形效应，例如可由图1D的文本辨识器125使用。

在一特定实施例中，基于文本的3D AR包含执行词典查找。OCR结果可能是错误的且可通过使用词典来校正。举例来说，可使用通用词典。然而，上下文信息的使用可有助于选择合适的词典，所述词典可小于通用词典以便进行更快的查找以及获得更合适的结果。举例来说，使用用户处在韩国的中餐馆中的信息使得能够选择可能由约100个词组成的词典。

在一特定实施例中，OCR引擎(例如，图1D的文本辨识器125)可返回针对每一字符的几个候选者，以及指示与每一候选者相关联的置信值的数据。图9描绘文本验证过程的实例900。来自图像902内的所检测文本区的文本可经受透视变形移除操作904以产生经纠正文本906。OCR过程可为每一字符返回五个最有可能的候选者，说明为对应于第一字符的第一群组910、对应于第二字符的第二群组912，以及对应于第三字符的第三群组914。

举例来说，第一字符的二值化结果是且根据置信度(根据群组910内的垂直位置按等级说明，从顶部处的最高置信值到底部处的最低置信值)返回几个候选者(例如，

可执行词典916处的查找操作。在图9的实例中，每一字符的五个候选者产生125(＝5*5*5)个候选词(例如，

)。可执行查找过程以在词典916中找到所述候选词中的一者或一者以上的对应词语。举例来说，当可在词典916中找到多个候选词时，可根据置信值(例如，在词典中所找到的那些候选词中具有最高置信值的候选词)来确定经验证的候选词918。

在一特定实施例中，基于文本的3D AR包含执行追踪和姿势估计。举例来说，在便携式电子装置(例如，图1A的系统100)的预览模式下，每秒可存在约15到30张图像。对每个帧应用文本区检测以及文本辨识是费时的且可使移动装置的处理资源紧张。如果正确地辨识到预览视频中的一些图像，那么每个帧的文本区检测以及文本辨识有时可能会造成可见的闪烁效应。

追踪方法可包含提取兴趣点以及计算连续图像之间的兴趣点的运动。通过分析计算出的运动，可估计真实平面(例如，真实世界中的菜单平面)与所捕获图像之间的几何关系。可从所估计的几何形态来估计相机的3D姿势。

图10描绘可由图1B的追踪/姿势估计模块130执行的文本区追踪的说明性实例。第一组代表性兴趣点1002对应于所检测文本区。第二组代表性兴趣点1004对应于与所检测文本区相同的平面内(例如，在菜单牌的同一面上)的显著特征。第三组代表性点1006对应于场景内的其它显著特征，例如菜单牌前面的碗。

在一特定实施例中，基于文本的3D AR中的文本追踪与常规技术不同，这是因为(a)在基于文本的3D AR中可基于角点来追踪文本，这提供了稳健的物体追踪，(b)在基于文本的3D AR中还可使用同一平面中的显著特征(例如，不仅是文本框中的显著特征，而且还有周围区中的显著特征，例如第二组代表性兴趣点1004)，以及(c)对显著特征进行更新，以使得丢弃不可靠的显著特征并添加新的显著特征。因此，在基于文本的3D AR中的文本追踪(例如在图1B的追踪/姿势估计模块130处执行)对于视点改变以及相机运动来说可为稳健的。

3D AR系统可对实时视频帧起作用。在实时视频中，在每个帧中执行文本检测的实施方案可能会产生不可靠的结果，例如闪烁假影。可通过追踪所检测文本来提高可靠性以及性能。追踪模块(例如，图1B的追踪/姿势估计模块130)的操作可包含初始化、追踪、相机姿势估计，以及评估停止准则。相对于图11到15来描述追踪操作的实例。

在初始化期间，追踪模块可以来自检测模块(例如，图1B的文本检测器120)的一些信息开始。初始信息可包含所检测文本区和初始相机姿势。为了进行追踪，可将显著特征(例如角、线、斑点或其它特征)用作额外信息。追踪可包含首先使用基于光流的方法来计算所提取显著特征的运动向量，如图11到12中所描述。显著特征可被修改成用于基于光流的方法的适用形式。在帧对帧匹配期间，一些显著特征可能会丢失其对应性。对于丢失了对应性的显著特征来说，可使用恢复方法来估计对应性，如图13中所描述。通过将初始匹配与经校正匹配组合，可获得最终运动向量。可在平面物体假设之下使用观测到的运动向量来执行相机姿势估计。检测相机姿势实现了3D物体的自然嵌入。相对于图14和16来描述相机姿势估计以及物体嵌入。停止准则可包含响应于落在阈值之下的所追踪显著特征的对应性的数目或计数而停止追踪模块。可使检测模块能够检测传入视频帧中的文本，以便随后进行追踪。

图11和12是说明可由图1A的系统执行的文本区追踪的特定实施例的图。图11描绘已被图像捕获装置(例如，图1A的图像捕获装置102)捕获的真实世界场景的第一图像1102的一部分。已在第一图像1102中识别出文本区1104。为了方便确定相机姿势(例如，图像捕获装置与真实世界场景的一个或一个以上要素的相对位置)，可假定文本区为矩形。另外，已在文本区1104中识别出兴趣点1106到1110。举例来说，兴趣点1106到1110可包含使用快速角辨识技术来选择的文本特征，例如文本的角或其它外形。

第一图像1102可作为参考帧来存储，以在图像处理系统进入追踪模式时实现对相机姿势的追踪，如参考图1B所描述。在相机姿势改变之后，可通过图像捕获装置来捕获真实世界场景的一个或一个以上后续图像，例如第二图像1202。可在第二图像1202中识别出兴趣点1206到1210。举例来说，可通过对第一图像1102应用角检测过滤器来对兴趣点1106到1110进行定位，而可通过对第二图像1202应用相同的角检测过滤器来对兴趣点1206到1210进行定位。如所说明，图12的兴趣点1206、1208和1210分别对应于图11的兴趣点1106、1108和1110。然而，点1207(字母“L”的顶部)不对应于点1107(字母“K”的中心)，且点1209(在字母“R”中)不对应于点1109(在字母“F”)中。

由于相机姿势改变，因此第二图像1202中的兴趣点1206、1208和1210的位置可不同于第一图像1102中的对应兴趣点1106、1108和1110的位置。可确定光流(例如，第一图像1102中的兴趣点1106到1110的位置相较于第二图像1202中的兴趣点1206到1210的位置之间的位移或位置差异)。在图12中通过分别对应于兴趣点1206到1210的流线1216到1220来说明光流，例如与第二图像1202相较于第一图像1102的第一兴趣点1106/1206的位置改变相关联的第一流线1216。胜于计算第二图像1202中的文本区的定向(例如，使用参看图3到6所描述的技术)，可基于光流来估计第二图像1202中的文本区的定向。举例来说，可使用兴趣点1106到1110的相对位置的改变来估计文本区的维度的定向。

在特定情形中，可能会在第二图像1202中引入不存在于第一图像1102中的变形。举例来说，相机姿势的改变可能会引入变形。另外，在第二图像1202中检测到的兴趣点可能不对应于在第一图像1102中检测到的兴趣点，例如点1107到1207以及点1109到1209。可使用统计技术(例如随机抽样一致性)来识别相对于其余流线为离群点的一个或一个以上流线。举例来说，图12中所说明的流线1217可为离群点，因为它明显不同于其它流线的映射。在另一实例中，流线1219可为离群点，因为它也明显不同于其它流线的映射。离群点可经由随机抽样一致性来识别出，其中随机或伪随机地选择样本的子集(例如，点1206到1210的子集)且确定对应于至少一些选定样本的位移的测试映射(例如，对应于光流1216、1218、1220的映射)。确定为不对应于映射的样本(例如，点1207和1209)可被识别为测试映射的离群点。可确定多个测试映射并将其进行比较以识别选定映射。举例来说，选定映射可以是产生最少数目的离群点的测试映射。

图13描绘基于窗匹配方法的离群点校正。可将关键帧1302用作用于追踪一个或多个后续帧(即，在关键帧之后被捕获、接收和/或处理的一个或一个以上帧)(例如当前帧1304)中的兴趣点和文本区的参考帧。实例关键帧1302包含图11的文本区1104和兴趣点1106到1110。可通过在兴趣点1107的预计位置四周的一个区1308内检查当前帧1304的窗(例如，窗1310)来在当前帧1304中检测兴趣点1107。举例来说，可通过基于非离群点的映射来估计关键帧1302与当前帧1304之间的单应性1306，例如相对于图11到12所描述。单应性是两个平面物体之间的几何变换，其可通过实矩阵(例如，3×3实矩阵)来表示。对兴趣点1107应用映射会得到兴趣点在当前帧1304内的预计位置。可搜索区1308内的窗(即，图像数据的区域)以确定兴趣点是否在区1308内。举例来说，可使用例如归一化互相关(NCC)等相似性量度来将关键帧1302的一部分1312与区1308内的当前帧1304的多个部分(例如所说明的窗1310)进行比较。NCC可用作用以补偿几何形变和照度改变的稳健的相似性量度。然而，也可使用其它相似性量度。

可因此使用窗匹配方法来恢复已丢失了其对应性的显著特征，例如兴趣点1107和1109。因此，可提供不使用预定义标记的文本区追踪，其包含对兴趣点的位移(例如，运动向量)的初始估计以及用以恢复离群点的窗匹配。逐帧追踪可继续进行，直到追踪失败为止，例如当维持其对应性的所追踪显著特征的数目由于场景改变、变焦、照度改变或其它因素而落到阈值之下时。因为文本可能包含比预定义的或自然的标记少的兴趣点(例如，较少的角或其它明显特征)，所以离群点的恢复可改善追踪并增强基于文本的AR系统的操作。

图14说明对图像捕获装置(例如，相机1402)的姿势1404的估计。在对应于点1207和1209的离群点通过基于窗的匹配进行校正(如图13所述)之后，当前帧1412对应于图12的图像1202，其中兴趣点1406到1410对应于兴趣点1206到1210。基于与经纠正图像1416的单应性1414来确定姿势1404，其中变形的边界区(对应于图13的关键帧1302的文本区1104)映射到平面规则边界区中。虽然规则边界区说明为矩形的，但在其它实施例中，规则边界区可以是三角形的、正方形的、圆形的、椭圆的、六边形的，或任何其它规则形状。

相机姿势1404可通过刚体变换来表示，所述刚体变换包含3×3旋转矩阵R以及3×1平移矩阵T。使用(i)相机的内部参数以及(ii)关键帧中的文本边界框与当前帧中的边界框之间的单应性，可经由以下方程式来对姿势进行估计：

R₁＝H₁′/||H₁′||

R₂＝H₂′/||H₂′||

R₃＝R₁xR₂

T＝2H₃′/(||H₁′||+||H₂′||)

其中每一数字1、2、3分别表示目标矩阵的第1、2、3列向量，且H′表示通过内部相机参数归一化的单应性。在估计出相机姿势1404之后，可将3D内容嵌入到图像中，使得3D内容看似场景的自然部分。

可通过处理足够数目的兴趣点和/或精确的光流结果来改善对相机姿势追踪的精确性。当可供处理的兴趣点的数目落到阈值数目之下(例如，由于检测过少的兴趣点)时，可识别额外兴趣点。

图15是描绘可由图1A的系统执行的文本区追踪的说明性实例的图。明确地说，图15说明可用以识别图像中的兴趣点(例如，图11的兴趣点1106到1110)的混合技术。图15包含图像1502，所述图像包含文本字符1504。为便于描述，仅展示单个文本字符1504；然而，图像1502可包含任何数目的文本字符。

在图15中突出显示文本字符1504的多个兴趣点(指示为框)。举例来说，第一兴趣点1506与文本字符1504的外角相关联，第二兴趣点1508与文本字符1504的内角相关联，且第三兴趣点1510与文本字符1504的弯曲部分相关联。兴趣点1506到1510可通过角检测过程来识别出，例如通过快速角检测器来进行。举例来说，快速角检测器可通过应用一个或一个以上过滤器以识别图像中的相交边缘来对角进行识别。然而，因为文本的角点通常较少或不可靠，例如在圆形的或弯曲的字符中，所以所检测的角点可能不足以进行稳健的文本追踪。

第二兴趣点1508四周的区域1512经放大以展示用于识别额外兴趣点的技术的细节。第二兴趣点1508可被识别为两根线的交点。举例来说，可检查第二兴趣点1508附近的一组像素以识别所述两根线。可确定目标或角像素p的像素值。为了进行说明，像素值可为像素强度值或灰色标度值。可使用阈值t来识别来自目标像素的线。举例来说，线的边缘可通过检查角p(第二兴趣点1508)四周的环1514中的像素以识别沿着环1514在比I(p)-t暗的像素与比I(p)+t亮的像素之间的变动点来辨别出，其中I(p)表示位置p的强度值。可识别出变动点1516和1520，其中形成角(p)1508的边缘与环1514相交。第一线或位置向量(a)1518可被识别为以角(p)1508为原点并延伸穿过第一变动点1516。第二线或位置向量(b)1522可被识别为以角(p)1508为原点并延伸穿过第二变动点1520。

可去除弱的角(例如，由形成大约180度角的相交线形成的角)。举例来说，通过使用以下方程式，计算两根线的内积：

(\frac{(a - p)}{| | a - p | |} \cdot \frac{(b - p)}{| | b - p | |}) = \cos θ = v,

其中a、b和p∈R²指代非齐次位置向量。在v低于阈值时，可将角去除。举例来说，在两个位置向量a、b之间的角度是大约180度时，可去除由所述两个向量形成的角，不作为追踪点。

在一特定实施例中，使用仅有的角来计算图像的单应性H。举例来说，使用下式：

x′＝Hx

其中x是关键帧(例如，图13的关键帧1302)中的齐次位置向量∈R3，且x′是其在当前帧(例如，图13的当前帧1304)中的对应点的齐次位置向量∈R³。

在另一特定实施例中，使用角以及其它特征(例如线)来计算图像的单应性H。举例来说，可使用下式来计算H：

x′＝Hx

l^T＝l′^TH

其中l是关键帧中的线特征，且l′是其在当前帧中的对应线特征。

特定技术可使用经由混合特征进行的模板匹配。举例来说，可将基于窗的相关方法(归一化互相关(NCC)、差值平方和(SSD)、绝对差和(SAD)等)用作成本函数，使用下式来进行：

Cost＝-COR(x，x′)

成本函数可指示x四周的块(在关键帧中)与x′四周的块(在当前帧中)之间的相似性。

然而，可通过使用成本函数来提高精确性，所述成本函数包含额外显著特征(例如，图15中的识别出的线(a)1518和线(b)1522)的几何信息，作为说明性实例，如：

Cost＝α(d(l₁，H^Tl₁′)+d(l₂，H^Tl₂′))-β·COR(x，x′)

在一些实施例中，当可供追踪用的角很少时，例如当在关键帧中所检测的角的数目少于阈值角数目时，可使用额外的显著特征(即，非角特征，例如线)进行文本追踪。在其它实施例中，可一直使用额外的显著特征。在一些实施方案中，额外的显著特征可以是线，而在其它实施方案中，额外的显著特征可包含圆圈、外形、一个或一个以上其它特征，或其任何组合。

因为文本、文本的3D位置以及相机姿势信息是已知的或可估计的，所以可将内容以现实方式提供给用户。所述内容可以是可自然放置的3D物体。举例来说，图16描绘可由图1A的系统产生的基于文本的三维(3D)扩增实境(AR)内容的说明性实例1600。对来自相机的图像或视频帧1602进行处理，且产生扩增图像或视频帧1604以供显示。扩增帧1604包含视频帧1602，其中位于图像中央的文本被英文翻译1606替换、三维物体1608置于菜单板表面上(说明为茶壶)，且对应于所检测文本的已做好的菜的图像1610展示于上角中。扩增特征1606、1608、1610中的一者或一者以上可用于经由用户接口(例如，经由图1A的用户输入装置180)进行用户交互或控制。

图17是说明提供基于文本的三维(3D)扩增实境(AR)的方法1700的第一特定实施例的流程图。在一特定实施例中，方法1700可由图1A的图像处理装置104执行。

在1702处，可从图像捕获装置接收图像数据。举例来说，图像捕获装置可包含便携式电子装置的摄像机。为了进行说明，在图像处理装置104处从图1A的图像捕获装置102接收视频/图像数据160。

在1704处，可在图像数据内检测文本。可在不检查图像数据以定位预定标记且不存取所寄存的自然图像的数据库的情况下检测文本。文本检测可包含根据(例如)相对于图3到4所描述的投影轮廓分析或自底向上聚类法来估计文本区的定向。文本检测可包含确定围封文本的至少一部分的边界区(或边界框)，例如参看图5到7所描述。

文本检测可包含调整文本区以减少透视变形，例如相对于图8所描述。举例来说，调整文本区可包含应用将文本区的边界框的角映射到矩形的角中的变换。

文本检测可包含经由光学字符辨识来产生所提议的文本数据以及存取词典以验证所提议的文本数据。所提议的文本数据可包含多个文本候选者以及与所述多个文本候选者相关联的置信数据。对应于词典的条目的文本候选者可根据与所述文本候选者相关联的置信值来被选为经验证的文本，例如相对于图9所描述。

在1706处，响应于检测到文本，可产生扩增图像数据，所述扩增图像数据包含与文本相关联的至少一个扩增实境特征。可将所述至少一个扩增实境特征并入到图像数据内，例如图16的扩增实境特征1606和1608。可在便携式电子装置的显示装置处，例如图1A的显示装置106处，显示扩增图像数据。

在一特定实施例中，图像数据可对应于视频数据的包含所述图像数据的帧，且响应于检测到文本，可执行从文本检测模式到追踪模式的转变。可在追踪模式下在视频数据的多个帧期间相对于视频数据的至少一个其它显著特征来追踪文本区，例如参看图10到15所描述。在一特定实施例中，确定图像捕获装置的姿势且在三维上追踪文本区，例如参看图14所描述。根据文本区的位置以及姿势将扩增图像数据定位在多个帧中。

图18是说明追踪图像数据中的文本的方法1800的特定实施例的流程图。在一特定实施例中，方法1800可由图1A的图像处理装置104执行。

在1802处，可从图像捕获装置接收图像数据。举例来说，图像捕获装置可包含便携式电子装置的摄像机。为了进行说明，在图像处理装置104处从图1A的图像捕获装置102接收视频/图像数据160。

图像可包含文本。在1804处，可处理图像数据的至少一部分以对文本的角特征进行定位。举例来说，方法1800可在围封文本区域的所检测边界框内执行角识别方法(例如参看图15所描述的)，以检测文本内的角。

在1806处，响应于所定位的角特征的计数不满足阈值，可处理图像数据的第一区。被处理的图像数据的第一区可包含用以对文本的额外显著特征进行定位的第一角特征。举例来说，第一区可在第一角特征上居中，且第一区可通过应用过滤器以对第一区内的边缘和外形中的至少一者进行定位来进行处理，例如参看图15的区1512所描述。可反复地处理图像数据的包含所定位的角特征中的一者或一者以上的区，直到所定位的额外显著特征以及所定位的角特征的计数满足阈值为止。在一特定实施例中，所定位的角特征以及所定位的额外显著特征位于图像数据的第一帧内。可基于所定位的角特征以及所定位的额外显著特征来追踪图像数据的第二帧中的文本，例如参看图11到15所描述。术语“第一”和“第二”在本文中用作用以区分各元件的标签，而非将元件限于任何特定的顺序。举例来说，在一些实施例中，在图像数据中，第二帧可紧跟在第一帧之后。在其它实施例中，图像数据在第一帧与第二帧之间可包含一个或一个以上其它帧。

图19是说明追踪图像数据中的文本的方法1900的特定实施例的流程图。在一特定实施例中，方法1900可由图1A的图像处理装置104执行。

在1902处，可从图像捕获装置接收图像数据。举例来说，图像捕获装置可包含便携式电子装置的摄像机。为了进行说明，在图像处理装置104处从图1A的图像捕获装置102接收视频/图像数据160。

图像数据可包含文本。在1904处，可在图像数据的第一帧中识别文本的一组显著特征。举例来说，所述组显著特征可包含第一特征组和第二特征。使用图11作为实例，所述组特征可对应于所检测兴趣点1106到1110，所述第一特征组可对应于兴趣点1106、1108和1110，且第二特征可对应于兴趣点1107或1109。所述组特征可包含文本的角，如图11中所说明，且可任选地包含文本的相交边缘或外形，例如参看图15所描述。

在1906处，可识别对应于图像数据的当前帧中的第一特征组相较于第一帧中的第一特征组的位移的映射。为了进行说明，可使用追踪方法来追踪第一特征组，例如参看图11到15所描述。使用图12作为实例，当前帧(例如，图12的图像1202)可对应于一帧，所述帧是在接收到第一帧(例如，图11的图像1102)之后的某时间接收到的且由文本追踪模块进行处理以追踪这两个帧之间的特征位移。第一特征组的位移可包含光流1216、1218和1220，分别指示第一特征组的特征1106、1108和1110中的每一者的位移。

在1908处，响应于确定映射不对应于当前帧中的第二特征相较于第一帧中的第二特征的位移，可根据映射来处理当前帧中的第二特征的预计位置四周的区，以确定第二特征是否位于所述区内。举例来说，图11的兴趣点1107对应于离群点，因为将点1106、1108和1110分别映射到点1206、1208和1210中的映射未能将点1107映射到点1207中。因此，可使用窗匹配技术处理根据映射在点1107的预计位置四周的区1308，如相对于图13所描述。在一特定实施例中，区的处理包含应用相似性量度以补偿第一帧(例如，图13的关键帧1302)与当前帧(例如，图13的当前帧1304)之间的几何形变和照度改变中的至少一者。举例来说，相似性量度可包含归一化互相关。可响应于将第二特征定位于区内来调整映射。

图20是说明追踪图像数据中的文本的方法2000的特定实施例的流程图。在一特定实施例中，方法2000可由图1A的图像处理装置104执行。

在2002处，可从图像捕获装置接收图像数据。举例来说，图像捕获装置可包含便携式电子装置的摄像机。为了进行说明，在图像处理装置104处从图1A的图像捕获装置102接收视频/图像数据160。

图像数据可包含文本。在2004处，可识别围封至少一部分文本的变形边界区。所述变形边界区可至少部分对应于围封文本部分的规则边界区的透视变形。举例来说，可使用如参看图3到6所描述的方法来识别边界区。在一特定实施例中，识别变形边界区包含识别图像数据的对应于文本部分的像素，以及确定变形边界区的界以界定包含所识别像素的大体上最小的区域。举例来说，规则边界区可为矩形的，且变形边界区的界可形成四边形。

在2006处，可基于变形边界区以及图像捕获装置的焦距来确定图像捕获装置的姿势。在2008处，可产生将在显示装置处显示的包含至少一个扩增实境特征的扩增图像数据。所述至少一个扩增实境特征可根据图像捕获装置的姿势而定位在扩增图像数据内，例如参看图16所描述。

图21A是说明提供基于文本的三维(3D)扩增实境(AR)的方法的第二特定实施例的流程图。在一特定实施例中，图21A中所描绘的方法包含确定检测模式且可由图1B的图像处理装置104执行。

从相机模块2102接收输入图像2104。在2106处，作出当前处理模式是否为检测模式的确定。在2108处，响应于当前处理模式是检测模式，执行文本区检测，以确定输入图像2104的粗略文本区2110。举例来说，文本区检测可包含如相对于图2到4所描述的二值化和投影轮廓分析。

在2112处，执行文本辨识。举例来说，文本辨识可包含经透视纠正的文本的光学字符辨识(OCR)，如相对于图8所描述。

在2116处，执行词典查找。举例来说，可相对于图9所描述般执行词典查找。响应于查找失败，图21A中所描绘的方法返回到处理来自相机模块2102的下一个图像。为了进行说明，当在词典中找不到根据由OCR引擎提供的置信数据超过预定置信阈值的词语时，可发生查找失败。

在2118处，响应于查找成功，对追踪进行初始化。可选择与所检测文本相关联的AR内容，例如翻译文本、3D物体、图片或其它内容。当前处理模式可从检测模式转变(例如，到追踪模式)。

在2120处，执行相机姿势估计。举例来说，可通过追踪平面内兴趣点和文本角以及平面外兴趣点来确定相机姿势，如相对于图10到14所描述。可将相机姿势和文本区数据提供到由3D渲染模块进行的渲染操作2122，以将AR内容嵌入或以其它方式添加到输入图像2104中以产生具有AR内容的图像2124。在2126处，经由显示模块显示具有AR内容的图像2124，且图21A中所描绘的方法返回到处理来自相机模块2102的下一个图像。

在2106处，当在接收后续图像时当前处理模式并非检测模式时，执行兴趣点追踪2128。举例来说，可追踪文本区和其它兴趣点，且可产生所追踪兴趣点的运动数据。在2130处，可作出目标文本区是否已丢失的确定。举例来说，当文本区离开场景或大体上被一个或一个以上其它物体遮住时，文本区可能丢失。当维持关键帧与当前帧之间的对应性的追踪点的数目小于阈值时，文本区可能丢失。举例来说，如相对于图15所描述，可执行混合追踪，且如相对于图13所描述，可使用窗匹配来对追踪点进行定位。当追踪点的数目落到阈值之下时，文本区可能丢失。在2120处，当文本区不丢失时，处理继续，以进行相机姿势估计。响应于文本区丢失，将当前处理模式设定为检测模式，且图21A中所描绘的方法返回到处理来自相机模块2102的下一个图像。

图21B是说明提供基于文本的三维(3D)扩增实境(AR)的方法的第三特定实施例的流程图。在一特定实施例中，图21B中所描绘的方法可由图1B的图像处理装置104执行。

在2106处，相机模块2102接收输入图像，且作出当前处理模式是否为检测模式的确定。在2108处，响应于当前处理模式是检测模式，执行文本区检测，以确定输入图像的粗略文本区。举例来说，文本区检测可包含如相对于图2到4所描述的二值化和投影轮廓分析。

在2109处，执行文本辨识。举例来说，文本辨识2109可包含如相对于图8所描述的经透视纠正的文本的光学字符辨识(OCR)，以及如相对于图9所描述的词典查找。

在2120处，执行相机姿势估计。举例来说，可通过追踪平面内兴趣点和文本角以及平面外兴趣点来确定相机姿势，如相对于图10到14所描述。可将相机姿势和文本区数据提供到由3D渲染模块进行的渲染操作2122，以将AR内容嵌入或以其它方式添加到输入图像中以产生具有AR内容的图像。在2126处，经由显示模块显示所述具有AR内容的图像。

在2106处，当在接收后续图像时当前处理模式并非检测模式时，执行文本追踪2129。在2120处，处理继续，以进行相机姿势估计。

图21C是说明提供基于文本的三维(3D)扩增实境(AR)的方法的第四特定实施例的流程图。在一特定实施例中，图21C中所描绘的方法不包含文本追踪模式且可由图1C的图像处理装置104执行。

在2108处，相机模块2102接收输入图像且执行文本区检测。由于2108处的文本区检测，在2109处执行文本辨识。举例来说，文本辨识2109可包含如相对于图8所描述的经透视纠正的文本的光学字符辨识(OCR)，以及如相对于图9所描述的词典查找。

在文本辨识之后，在2120处，执行相机姿势估计。举例来说，可通过追踪平面内兴趣点和文本角以及平面外兴趣点来确定相机姿势，如相对于图10到14所描述。可将相机姿势和文本区数据提供到由3D渲染模块进行的渲染操作2122，以将AR内容嵌入或以其它方式添加到输入图像2104中以产生具有AR内容的图像。在2126处，经由显示模块显示所述具有AR内容的图像。

图21D是说明提供基于文本的三维(3D)扩增实境(AR)的方法的第五特定实施例的流程图。在一特定实施例中，图21D中所描绘的方法可由图1A的图像处理装置104执行。

在2106处，相机模块2102接收输入图像，且作出当前处理模式是否为检测模式的确定。在2108处，响应于当前处理模式是检测模式，执行文本区检测，以确定输入图像的粗略文本区。由于文本区检测2108，在2109处执行文本辨识。举例来说，文本辨识2109可包含如相对于图8所描述的经透视纠正的文本的光学字符辨识(OCR)，以及如相对于图9所描述的词典查找。

在2106处，当在接收后续图像时当前处理模式并非检测模式时，执行3D相机追踪2130。在2122处，处理继续，以在3D渲染模块处进行渲染。

所属领域的技术人员将进一步了解，结合本文所揭示的实施例描述的各种说明性逻辑块、配置、模块、电路以及算法步骤可实施为电子硬件、由例如硬件处理器等处理装置执行的计算机软件，或两者的组合。上文已大体在功能性方面描述了各种说明性组件、块、配置、模块、电路和步骤。此种功能性是实施为硬件还是可执行软件取决于特定应用以及施加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式实施所描述功能性，但此些实施决策不应被解释为导致偏离本发明的范围。可直接以硬件、以由处理器执行的软件模块或以上述两者的组合来实施结合本文所揭示的实施例而描述的方法或算法的步骤。软件模块可驻存在非暂时存储媒体中，例如随机存取存储器(RAM)、磁阻式随机存取存储器(MRAM)、自旋扭矩转换MRAM(STT-MRAM)、快闪存储器、只读存储器(ROM)、可编程只读存储器(PROM)、可擦可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、寄存器、硬盘、可装卸磁盘、压缩光盘只读存储器(CD-ROM)，或此项技术中已知的任一其它形式的存储媒体。示范性存储媒体耦合到处理器，使得处理器可从存储媒体读取信息以及将信息写入到存储媒体。在替代方案中，存储媒体可与处理器成一体式。处理器和存储媒体可驻存在专用集成电路(ASIC)中。ASIC可驻存在计算装置或用户终端中。在替代方案中，处理器和存储媒体可作为离散组件驻存在计算装置或用户终端中。

提供对所揭示实施例的先前描述是为了使所属领域的技术人员能够制作或使用所揭示实施例。对于所属领域的技术人员来说，对这些实施例的各种修改将为显而易见的，且可在不偏离本发明的范围的情况下将本文中所界定的原理应用于其它实施例。因此，本发明无意限于本文中所展示的实施例，而是将赋予本发明与如由所附权利要求书界定的原理和新颖特征一致的可能的最广范围。

Claims

1.一种方法，其包括：

从图像捕获装置接收图像数据；

检测所述图像数据内的文本；以及

响应于检测到所述文本，产生扩增图像数据，所述扩增图像数据包含与所述文本相关联的至少一个扩增实境特征。

2.根据权利要求1所述的方法，其中所述文本是在不检查所述图像数据以定位预定标记且不存取所寄存的自然图像的数据库的情况下进行检测的。

3.根据权利要求1所述的方法，其中所述图像捕获装置包括便携式电子装置的摄像机。

4.根据权利要求3所述的方法，其进一步包括在所述便携式电子装置的显示装置处显示所述扩增图像数据。

5.根据权利要求1所述的方法，其中所述图像数据对应于包含所述图像数据的视频数据的帧，且进一步包括响应于检测到所述文本而从文本检测模式转变到追踪模式。

6.根据权利要求5所述的方法，其中在所述追踪模式下在所述视频数据的多个帧期间相对于所述视频数据的至少一个其它显著特征来追踪文本区。

7.根据权利要求6所述的方法，其进一步包括确定所述图像捕获装置的姿势，其中所述文本区是在三维上进行追踪的且其中所述扩增图像数据是根据所述文本区的位置以及所述姿势而定位在所述多个帧中。

8.根据权利要求1所述的方法，其中检测所述文本包含根据投影轮廓分析来估计文本区的定向。

9.根据权利要求1所述的方法，其中检测所述文本包含调整文本区以减少透视变形。

10..根据权利要求9所述的方法，其中调整所述文本区包含应用将所述文本区的边界框的角映射到矩形的角中的变换。

11.根据权利要求9所述的方法，其中检测所述文本包含：

经由光学字符辨识来产生所提议的文本数据；以及

存取词典以验证所述所提议的文本数据。

12.根据权利要求11所述的方法，其中所述所提议的文本数据包含多个文本候选者以及与所述多个文本候选者相关联的置信数据，且其中对应于所述词典的条目的文本候选者根据与所述文本候选者相关联的置信值被选为经验证的文本。

13.根据权利要求1所述的方法，其中所述至少一个扩增实境特征被并入到所述图像数据内。

14.一种设备，其包括：

文本检测器，其经配置以检测从图像捕获装置接收到的图像数据内的文本；以及渲染器，其经配置以产生扩增图像数据，所述扩增图像数据包含扩增实境数据以渲染与所述文本相关联的至少一个扩增实境特征。

15.根据权利要求14所述的设备，其中所述文本检测器经配置以在不检查所述图像数据以定位预定标记且不存取所寄存的自然图像的数据库的情况下检测所述文本。

16.根据权利要求14所述的设备，其进一步包括所述图像捕获装置，其中所述图像捕获装置包括摄像机。

17.根据权利要求16所述的设备，其进一步包括：

显示装置，其经配置以显示所述扩增图像数据；以及

用户输入装置，其中所述至少一个扩增实境特征是三维物体，且其中所述用户输入装置用户能够控制所述显示装置处显示的所述三维物体。

18.根据权利要求14所述的设备，其中所述图像数据对应于包含所述图像数据的视频数据的帧，且其中所述设备经配置以响应于检测到所述文本而从文本检测模式转变到追踪模式。

19.根据权利要求18所述的设备，其进一步包括追踪模块，所述追踪模块经配置以在处于所述追踪模式时在所述视频数据的多个帧期间相对于所述视频数据的至少一个其它显著特征来追踪文本区。

20.根据权利要求19所述的设备，其中所述追踪模块经进一步配置以确定所述图像捕获装置的姿势，其中所述文本区是在三维上进行追踪的且其中所述扩增图像数据是根据所述文本区的位置以及所述姿势而定位在所述多个帧中。

21.根据权利要求14所述的设备，其中所述文本检测器经配置以根据投影轮廓分析来估计文本区的定向。

22.根据权利要求14所述的设备，其中所述文本检测器经配置以调整文本区以减少透视变形。

23.根据权利要求22所述的设备，其中所述文本检测器经配置以通过应用变换来调整所述文本区，所述变换将所述文本区的边界框的角映射到矩形的角中。

24.根据权利要求22所述的设备，其中所述文本检测器进一步包括：

文本辨识器，其经配置以经由光学字符辨识来产生所提议的文本数据；以及

文本验证器，其经配置以存取词典以验证所述所提议的文本数据。

25.根据权利要求24所述的设备，其中所述所提议的文本数据包含多个文本候选者以及与所述多个文本候选者相关联的置信数据，且其中所述文本验证器经配置以根据与对应于所述词典的条目的文本候选者相关联的置信值将所述文本候选者选择为经验证的。

26.一种设备，其包括：

用于检测从图像捕获装置接收到的图像数据内的文本的装置；以及

用于产生扩增图像数据的装置，所述扩增图像数据包含扩增实境数据以渲染与所述文本相关联的至少一个扩增实境特征。

27.一种存储可由处理器执行的程序指令的计算机可读存储媒体，所述程序指令包括：

用于检测从图像捕获装置接收到的图像数据内的文本的代码；以及

用于产生扩增图像数据的代码，所述扩增图像数据包含扩增实境数据以渲染与所述文本相关联的至少一个扩增实境特征。

28.一种追踪图像数据中的文本的方法，所述方法包括：

从图像捕获装置接收图像数据，所述图像数据包含文本；

处理所述图像数据的至少一部分以对所述文本的角特征进行定位；以及

响应于所述所定位的角特征的计数不满足阈值，处理所述图像数据的第一区，所述第一区包含用以对所述文本的额外显著特征进行定位的第一角特征。

29.根据权利要求28所述的方法，其进一步包括反复地处理所述图像数据的包含所述所定位的角特征中的一者或一者以上的区，直到所述所定位的额外显著特征以及所述所定位的角特征的计数满足所述阈值为止。

30.根据权利要求28所述的方法，其中所述所定位的角特征以及所述所定位的额外显著特征位于所述图像数据的第一帧内，且进一步包括基于所述所定位的角特征以及所述所定位的额外显著特征来追踪所述图像数据的第二帧中的文本。

31.根据权利要求28所述的方法，其中所述第一区在所述第一角特征上居中，且其中处理所述第一区包含应用过滤器以对所述第一区内的边缘和外形中的至少一者进行定位。

32.一种追踪图像数据的多个帧中的文本的方法，所述方法包括：

从图像捕获装置接收图像数据，所述图像数据包含文本；

在所述图像数据的第一帧中识别所述文本的一组特征，所述组特征包含第一特征组和第二特征；

识别对应于所述图像数据的当前帧中的所述第一特征组相较于所述第一帧中的所述第一特征组的位移的映射；以及

响应于确定所述映射不对应于所述当前帧中的所述第二特征相较于所述第一帧中的所述第二特征的位移，根据所述映射来处理所述当前帧中的所述第二特征的预计位置四周的区，以确定所述第二特征是否位于所述区内。

33.根据权利要求32所述的方法，其中处理所述区包含应用相似性量度以补偿所述第一帧与所述当前帧之间的几何形变和照度改变中的至少一者。

34.根据权利要求33所述的方法，其中所述相似性量度包含归一化互相关。

35.根据权利要求32所述的方法，其进一步包括响应于将所述第二特征定位于所述区内来调整所述映射。

36.一种估计图像捕获装置的姿势的方法，所述方法包括：

从所述图像捕获装置接收图像数据，所述图像数据包含文本；

识别围封至少一部分所述文本的变形边界区，所述变形边界区至少部分对应于围封所述文本部分的规则边界区的透视变形；

基于所述变形边界区以及所述图像捕获装置的焦距来确定所述图像捕获装置的姿势；以及

产生将在显示装置处显示的包含至少一个扩增实境特征的扩增图像数据，所述至少一个扩增实境特征是根据所述图像捕获装置的所述姿势而定位在所述扩增图像数据内。

37.根据权利要求36所述的方法，其中识别所述变形边界区包含：

识别所述图像数据的对应于所述文本部分的像素；以及

确定所述变形边界区的界以界定包含所述所识别像素的大体上最小的区域。

38.根据权利要求37所述的方法，其中所述规则边界区为矩形的，且其中所述变形边界区的所述界形成四边形。