CN104428790A

CN104428790A - 经由用于梵文光学字符辨识的基于前缀树的解码来处置字的复杂变体的方法

Info

Publication number: CN104428790A
Application number: CN201380036713.7A
Authority: CN
Inventors: K·K·巴曼; P·K·拜哈提; R·K·克里希纳·库马尔
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-07-19
Filing date: 2013-06-29
Publication date: 2015-03-18
Also published as: IN2014MN02595A; US9262699B2; WO2014014640A1; US20140023274A1

Abstract

一种电子装置及方法识别移动装置相机所捕捉的现实世界图像中的文字块，从所述文字块切片出子块及识别所述子块中形成第一序列的字符，所述字符供预定序列集合使用以识别其中的第二序列。所述第二序列在不与额外信息相关联时可经识别为已辨识(为不存在修饰符的字)。当所述第二序列与额外信息相关联时，基于所述额外信息中指定的测试来对所述图像中的像素进行检查。当满足所述测试时，与所述修饰符组合的所述第二序列的副本经识别为已辨识(为存在修饰符的字)。除了字符序列集合之外，修饰符信息的存储及使用也能够辨识具有或不具有修饰符的字。

Description

经由用于梵文光学字符辨识的基于前缀树的解码来处置字的复杂变体的方法

优先权申请的交叉引用

本申请案主张来自2012年7月30日申请的且题为“经由用于梵文光学字符辨识的基于前缀树的解码来处置字的复杂变体的方法(Method Of Handling Complex VariantsOf Words Through Prefix-Tree Based Decoding For Devanagiri OCR)”的第61/677,291号美国临时申请案的优先权，所述临时申请案已转让给本案受让人，且以全文引用的方式并入本文中。

本申请案主张来自2012年7月19日申请的且题为“具有逆向遍次的基于网格的字解码器(Trellis based word decoder with reverse pass)”的第61/673,606号美国临时申请案的优先权，所述临时申请案已转让给本案受让人，且以全文引用的方式并入本文中。

本申请案主张来自2013年3月14日申请的且题为“经由用于梵文光学字符辨识的基于前缀树的解码来处置字的复杂变体的方法(Method Of Handling Complex VariantsOf Words Through Prefix-Tree Based Decoding For Devanagiri OCR)”的第13/828,060号美国申请案的优先权，所述申请案已转让给本案受让人，且以全文引用的方式并入本文中。

以引用的方式并入的美国申请案的交叉引用

本申请案涉及2013年3月14日申请且题为“具有逆向遍次的基于网格的字解码器(Trellis based word decoder with reverse pass)”的第13/829,960号美国申请案，所述申请案转让给本受让人且以引用的方式并入本文中。

技术领域

本专利申请案涉及用于在自然图像或视频帧中识别文字的字的装置及方法。

背景技术

识别经光学扫描(例如通过光复印机的平面扫描器)的纸中的文字区域显著比在可在图像(也称为“自然图像”)中捕捉的或在由具有内置式数码相机的手持式装置(例如智能电话)实时捕捉的视频帧中的现实世界的场景中检测可能含有文字的区域更容易(例如，由于竖直定向、大的尺寸及缓慢速度)。具体来说，现有技术的光学字符辨识(OCR)方法来源于文档处理领域，其中文档图像在文档中含有光学扫描页面的一连串文字行(例如30行文字)。

文档处理技术虽然成功地用于光学扫描器所产生的扫描文档，但产生了太多的假阳性及/或假阴性以致在用于含有文字的自然图像时为不实用的。因此，使用不同技术来执行由手持式相机产生的现实世界图像中的文字区域的检测。关于用于现有技术中的技术的额外信息，为了识别自然图像中的文字区域，参见以引用的方式全文并入本文中作为背景的以下论文：

(a)丽(LI)等人，“数字视频中的自动文字检测及跟踪”，关于图像处理的IEEE学报，2000年1月，第147-156页，第9卷，第1期；

(b)陈(CHEN)等人，“检测及读取自然场景中的文字”，关于计算机视觉及图案辨识的IEEE计算机社会会议(CVPR′04)，2004年，第1-8页；

(c)李(LEE)等人，“用于字符分段及辨识的新方法”，关于模式分析及机器智能的IEEE学报，1996年10月，第1045-1050页，第18卷，第10期；

(d)爱波斯坦(EPSHTEIN)等人，“使用笔划宽度变换来检测自然场景中的文字”，计算机视觉及图案辨识(CVPR)2010年，第2963-2970页(下载自“http：//research.microsoft.com/pubs/149305/1509.pdf”)；及

(e)贾恩(JAIN)等人，“图像及视频帧中的自动文字定位”，图案辨识，1998年，第2055-2076页，第31卷，第12期。

上文描述的现有技术的图像处理技术似乎主要经开发以识别图像中的含有以英语书写的文字的区域。使用此类技术以在自然图像中识别其它语言的文字区域(针对其字母表的字母使用不同的手迹)可产生假阳性及/或假阴性以致使得所述技术不实用。

图1说明在印度的现实世界场景100中的报纸。用户110(参见图1)可使用装备有相机的移动装置(例如蜂窝式电话)108来捕捉场景100的图像107(也称为“自然图像”或“现实世界图像”)。相机所捕捉图像107可显示在移动装置108的屏幕106(图1)上。此类图像107(图1)在使用现有技术图像处理技术经直接处理的情况下可导致未能区域103(参见图1)中的一或多个字。具体来说，使用现有技术方法可在与具有修饰符的字一起使用时引起问题，例如位于字顶部上的点，例如用例如使用梵文天城体手迹(Devanagari script)的印地文等语言表达的DOT maatra

取决于照明、色彩、倾斜、聚焦、字体等的变化，构成一点的像素可或可不包含在由OCR处理的图像的矩形部分中。所述点为可用于印地语中的十个(10)重音标记中的仅一者。此外，除了梵文字母中的字母表的大量字母(包含联合辅音)之外的不同字体的存在需要OCR解码器来辨识非常大量的字符，从而产生具有不良查全率精度的很复杂的系统。

因此，需要改进在自然图像或视频帧中的梵文字母(或梵文)字符所形成的字的识别，如下文描述。

发明内容

在所描述实施例的若干方面中，一种电子装置及方法使用存储在一或多个非暂时性计算机可读存储媒体上的存储库来对从相机接收的图像中的文字执行光学字符辨识(OCR)。若干实施例的存储库存储与通常用以辨识预定自然语言(例如印地文)中的字的字符的信息(例如，特征向量)分开的关于修饰符(例如，重音标记)的信息。修饰符并非自然语言的手迹中的字符(例如辅音)，且所述修饰符实际上为标记(例如点)，其在存在时根据预定语言的规则来修饰特定字符(例如，通过使用字符上的修饰符而与字符的修饰或重读相关的规则)。

在若干实施例中，通过将预定自然语言中的字(称作“存在修饰符”的字)细分(或分解或分裂)为以下各项而将关于所述字(其中修饰符出现在所述字的普通使用中)的信息存储在存储库：(1)关于包含一连串字符(也称为“基本字”或“前缀”)的基元的信息；及(2)关于一或多个修饰符的信息，所述修饰符在存在时与所述序列中的一或多个字符组合以形成所述字。除了存储关于存在修饰符的字的信息之外，若干实施例的存储库进一步存储关于字(其中没有修饰符出现在所述字的普通使用中)(称作“不存在修饰符”的字)的信息作为不具有相关联修饰符的一连串字符。

耦合到一或多个非暂时性计算机可读存储媒体的一或多个处理器经编程以使用所述存储库来在相机所捕捉图像中检测包含第一字符序列的至少一个文字区域。具体来说，一或多个处理器从存储库中的序列的预定集合选择第二字符序列(例如，通过使用对应于第二字符序列的一连串特征向量)(由于匹配第一字符序列)。此外，一或多个处理器经编程以在第二序列基于一或多个测试而与额外信息(也称为“修饰符信息”、“辅助信息”或“预定信息”)相关联的情况下分析所述图像以确定至少一个像素是否满足与修饰所述序列中的特定字符的修饰符相关联的测试。当满足所述测试时，一或多个处理器将特定修饰符添加到第二序列的副本中的特定字符，接着将文字区域中所检测的第一序列识别为具有修饰符的第二序列的副本。

在若干实施例中，电子装置及方法最初识别移动装置的相机所捕捉的现实世界的图像的一部分中的文字的矩形(也称为“块”)，将所述块切片成子块，及识别每一子块中的至少一个字符。所述装置及方法接着通过将选定的特定序列与所述块中识别符字符匹配来从序列的预定集合(所述集合包含不存在修饰符的字的序列及存在修饰符的字的序列)选择特定字符序列。所述装置及方法接着检查特定序列是否与额外信息相关联，及如果否，那么将特定字标记为辨识(为不存在修饰符的字)。

当从所述图像中的块识别的特定序列碰巧为基本字时，所述装置及方法自动地从存储库检索指示需要检查与基本字相关联的一或多个修饰符(例如，如旗标所指示)是否存在于图像中的额外信息。因此一些实施例的装置及方法接着检查是否有修饰符存在于图像中(例如，通过检查所述块上方像素的强度)，且如果有，那么将基本字与修饰符一起彼此组合识别为经辨识(为存在修饰符的字)。

取决于实施例，存储库中的额外信息可针对特定序列而将相对于像素群组需要存在于图像中所在的矩形(例如，位于序列中的特定字符上方)的预定位置识别为待辨识为预定修饰符。此类信息可另外或替代地识别待检查的群组像素的其它性质，例如预期大小(例如，所述矩形的大小的至少1/5)及/或预期形状(例如，0.9与1.1之间的纵横比)。因此，在识别一连串字符之后，存储库中的额外信息用以检查图像是否存在像素群组(例如，呈基本字或前缀的修饰符的形式)，及接着组合所述序列与经辨识为出现在所述图像中的文字的字。

应理解，本发明的若干其它方面将根据本文描述而变为所属领域的技术人员显而易见，其中以说明方式展示及描述各种方面。下文的图式及实施方式被视为本质上是说明性的而非限制性的。

附图说明

图1说明用户使用现有技术的装备有相机的移动装置来捕捉现实世界中的告示牌的图像。

图2A用高级流程图说明在若干所描述实施例中由一或多个处理器执行的动作，以对相机所捕捉图像执行OCR以辨识可为不存在修饰符的字或存在修饰符的字的字。

图2B说明包含点263及区域264的图像部分260，所述点及区域在一些实施例中通过在图2A的动作211中对图像执行MSER方法来识别。

图2C说明在一些实施例中通过执行图2A的动作212而合并图2B的块262及265来形成的块266。

图2D说明在一些实施例中通过执行图2A中的动作221而切割位于共同二进制值的像素的直线264S下方的块266的一部分而获得的子块266A-266C。

图2E-2G说明以梵文天城体手迹书写的印地语中的三个字的现有技术图像。

图2H说明用于一些实施例中的存储器501中的用以执行图2A的操作230中的一或多个动作的存储库270。

图2I说明存储器501中的表格290，其中所述表格中的一行在一些实施例用以初始化图2A的操作210的动作211中执行的MSER方法的输入参数。

图2J及2L说明以梵文天城体手迹书写的印地语中的两个字的现有技术图像。

图2K及2M说明在一些实施例用以识别图2J及2L的字中的修饰符ChandraBindu及Chandra的位置的辅助信息的数据结构。

图3A用高级流程图说明在若干实施例中通过服务器计算机1015制备的(在图2H的存储库270中的)字符的预定序列集合，所述集合包含没有修饰符的字275(在本文中也被称作不存在修饰符的字)以及必须与特定修饰符组合以形成有效字(还称为存在修饰符的字)的基本字274。

图3B用高级流程图说明在若干所描述实施例中由一或多个处理器执行的动作，以通过使用如图3A中所说明而产生的字的预定集合来实施图2A的操作240。

图3C说明在一些实施例中待经受辨识为以梵文天城体手迹书写的印地语中的字的图像331中的字符的子块332。

图3D说明在一些实施例中经提取及经受辨识为修饰符的图3C中的图像331的区域333。

图3E用图表说明在一些实施例中经识别为图3D的区域333中的文字的像素的质量中心(或面积中心)的点334。

图3F说明在一些实施例中图3C中的图像331的经受辨识为修饰符的区域336。

图3G用图表说明表示在一些实施例中经识别用于图3F的区域336的质量中心的点337。

图3H说明在一些实施例中图3C中的图像331的经受辨识为修饰符的区域339。

图3I说明在一些实施例中形成在图3H的区域339中的文字的所有像素(例如所有黑色像素)周围的限界框341。

图3J说明在一些实施例中通过与预先存储的ChandraBindu模板图像相关而经制备用于识别的调整大小的图像。

图3K说明包含在一些实施例中经辨识为修饰符的呈Chandra maatra 292形式的文字的像素的区域343。

图3L用流程图说明在一些实施例中经执行以确定ChandraBindu maatra的存在的方法。

图4用高级流程图说明在若干所描述实施例中由一或多个处理器执行以辨识可包含多个maatra中的一者以修改位于在使用梵文天城体手迹的某些语言中的字的对应变体末端的最右字符的图2A的动作。

图5用高级流程图说明在若干所描述实施例中由一或多个处理器执行以实施反馈环路以重新计算MSER及/或寻找原始图像中的特定物体及/或特定几何性质的动作。

图6用高级框图说明所描述实施例中的一些中的手持式装置的各种组件。

具体实施方式

本文所述类型的若干操作及动作通过包含在移动装置401(图6)中的一或多个处理器来实施，所述移动装置能够识别现实世界场景的图像的矩形块中的区域(例如使用MSER)，接着使每一块分段以形成子块且识别其中的字符。因此，移动装置401可包含相机405(图6)以产生现实世界中的场景的静态图像或视频的帧(也称为“自然图像”)。取决于移动装置401的实施例，相机405可为数码相机或摄像机。

移动装置401可进一步包含传感器，例如加速计、陀螺仪、GPS传感器或其类似者，其可用以辅助确定各种属性，例如移动装置401相对于相机405捕捉的现实世界场景的姿势(包含位置及定向)。所属领域的技术人员将理解本文所述的技术可适于识别图像的具有除了矩形之外的形状的部分，及识别其中的字符。在以下描述中，有时为方便起见而描述单个处理器(例如处理器404)，但应理解可取决于实施例而使用多个处理器。

因此，在本文所述类型的若干实施例中，在动作201(图2A)中，一或多个处理器接收来自相机405的场景的图像。因此，在一些实施例中，至少一个处理器，例如处理器404(例如包含在如图6中所说明的移动装置401中)可经编程以处理在多个抽象等级的图像，例如操作210中的像素等级处理低于操作220中的字符等级处理，操作220中的字符等级处理继而低于操作230中的字等级处理。在较高抽象等级的处理期间，例如操作230(图2A)中的字等级处理，处理器404可经编程以跳转执行在较低抽象等级(或使用在所述等级产生的信息)的操作，例如执行操作240中的像素等级处理(或使用来自操作220中的字符等级处理的信息)且接着返回到较高抽象等级。

因此，处理器404可经编程以执行操作230中的字等级处理以在字的辨识期间识别一连串字符，其后通过执行操作240中的像素等级处理而跳转到较低抽象等级(例如)以确认图像中的特定图案中的像素的出现或在图像的选定部分中重新进行一或多个像素等级操作，且其后返回继续再次执行操作230中的字等级处理以完成包含特定序列的字符的字的辨识。在一个实例中，在识别特定序列的字符之后，处理器404经编程以检查图像是否有可形成所述特定序列的字符中的字符的梵文天城体手迹的DOTmaatra的像素，接着识别所述字(作为特定序列与DOT maatra的组合)。

参看图2A，一些实施例的一或多个处理器执行操作210中的像素等级处理以识别分组成块的像素的区域，所述像素通过执行如下文所描述的动作211、212(及任选地动作213)而分类为文字。具体来说，可由处理器404在动作211中(在动作201中的图像捕捉之后)通过使用任何方法来检测图像(例如图像107)的一部分中的块，所述方法在图像107中检测在一或多个性质(例如强度及/或色彩)上与周围像素不同的一或多个区域(也称为“二进制大对象”)。可由一些实施例的动作201(图2A)捕捉的图像107(也称为“自然图像”)可为例如摄像机所捕捉的实况视频的帧或为数码相机所捕捉的静态图像，且这两个相机中的任一者在本文中被称作相机405(图6)。

在捕捉图像107(图1)之后，以普通方式由动作211(图2A)例如基于图像107中的像素的强度的变化来检测其中的区域。动作211中所检测的区域可由于连接分量及/或最大稳定极值区域或MSER而与现有技术中已知的区域类似或相同。具体来说，在一些实施例中，移动装置401中的处理器404(图6)通过执行图2A中的动作211来检测图像(例如图像107)的块260中的区域264(图2B)。在操作210中例如基于图像107中的像素的强度的变化来在初始化期间以普通方式检测区域264。

可通过在一些实施例中以预定方式使用MSER方法通过使用存储器501中的查找表290(图2I)以获得输入参数来检测区域264(图2B)的像素在边界处不同于周围像素的特定方式。此类查找表290可供应用于参数Δ及最大变体的值的一或多个特定组合，其为MSER方法的输入(也称为MSER输入参数)。此类查找表可提前填入，具有用于Δ及最大变体的特定值，例如通过实验确定以产生适于辨识自然图像中的文字的轮廓，如查找表290(图2I)的第一行中所示的用于Δ的值8及用于最大变体的值0.07。

在一些实施例中，在位置集合(其可经实施在列表中)中识别像素，继而识别包含图像107中的强度的局部极值(例如局部最大值或局部最小值)的区域Q_i。此类区域Q_i可在动作211(图2A)中经检测为相对于范围i-Δ到i+Δ(取决于实施例，包含上述强度i)中的一或多个强度而最大稳定，每一强度i经用作阈值(其中Δ为MSER方法的参数输入)以用于与包含在区域Q_i中的多个像素的强度进行比较以识别相应区域Q_i-Δ及Q_i+Δ。在一些实施例中，区域Q_i中的许多像素相对于范围i-Δ到i+Δ内的强度i的改变而保持在预定(例如用户指定)范围内，其中局部最小值在强度i下发生的比率[Q_i-Δ-Q_i+Δ]/Q_i中。因此，在某些实施例中，刚刚描述的位置集合指示(或识别)构成MSER(即最大稳定极值区域)的区域Q_i。

可在动作211中通过使用描述于J.马特斯(J.Matas)、O.查姆(O.Chum)、M.厄本(M.Urban)及T.帕吉德(T.Paidla)的论文中的类型的方法来检测区域，所述论文题为“来自最大稳定极值区域的稳固宽基线立体声(Robust Wide Baseline Stereo from MaximallyStable Extremal Regions)”(BMVC 2002、第384-393页)，所述论文以全文引用的方式并入本文中。或者可使用其它方法来执行动作211中的区域的连接分量分析及检测，例如发布在Kangweon-Kyungki数学杂志(14(2006)、第1期、第47-55页)中的Shin等人的题为“弗洛伊德沃肖尔标记技术的应用：二值图像中连接像素分量的识别(Application of Floyd-Warshall Labelling Technique：Identification of Connected PixelComponents In Binary Image)”中描述的类型的方法，所述方法以全文引用的方式并入本文中，或者例如描述于PARK(帕克)等人的题为“使用分治技术的快速连接分量标记算法(Fast Connected Component Labeling Algorithm Using A Divide and ConquerTechnique)”的方法，所述方法被认为发布在矩阵(Matrix)(2000)、第4卷、第1期、出版商：爱思维尔有限公司(Elsevier Ltd)，第4-7页，所述论文也以全文引用的方式并入本文中。

因此，取决于实施例，在动作211中通过所描述实施例中的移动装置401检测图像107的区域的特定方式可为不同的。在若干实施例中，通过动作211将通过使用上述类型的MSER方法检测的图像107的每一区域按像素列表的形式来表示，其中每一像素两个坐标，即(图像的)二维空间中的x坐标及y坐标。在通过MSER识别区域之后，每一区域最初包含在可通过一些实施例的移动装置401在动作211中自动地识别的单个长方体(例如块262中的区域264)中，例如通过识别所述区域内所有像素的最大x坐标、最大y坐标、最小x坐标及最小y坐标而识别为区域264(图2B)的最小限界矩形(未图示)。刚刚描述的四个坐标可用于动作211中，或随后在需要时用以识别紧密地配合所述区域的长方体的拐角。具体来说，可识别形状为矩形且包含区域264(图2B)的块262(图2B)的四个拐角，如下：

(最大x坐标，最大y坐标)，

(最大x坐标，最小y坐标)，

(最小x坐标，最大y坐标)及

(最小x坐标，最小y坐标)。

在一些实施例中，此类块262可为紧密地配合图2B中的区域264的限界框。在若干实施例中，以类似或与现有技术的对应操作相同的方式在操作210(图2A)中的初始化中执行上述动作211及212。可在动作212(图2A)中使用块262(及其四个拐角)来检查是否满足规则(也称为“集群”规则)，例如通过块262的一或多个几何属性及/或相对于其邻近块265的属性，且当满足时将块262及265合并(例如以形成图2B中的块266)。

在应用一或多个规则以合并如上所述的块之后，一些实施例的动作212(图2A)使块266中的所有像素二进制化，接着产生共同二进制值(例如用于色彩黑色的值1)的像素的计数的量变曲线。接着通过动作212(使用预定测试)来检测量变曲线中的峰值的存在，可在一些实施例中使用所述峰值相对于块266(图2C)的高度的位置来确定块266中像素的直线的存在。当确定共同二进制值的像素的线264S存在于块266(图2C)中时，通过动作212将块266分类为文字(例如，在满足一或多个额外测试的情况下，例如笔划宽度的方差)。线264S可为在相对于指示印地文中的字的图像中的区域264的限界框(例如块262)的纵向方向(例如水平)上对准的直线，如图2C中所示的“shiro-rekha”。在动作212中分类为文字的块可经受操作220，在操作220中执行动作221、222及223中的一或多者，如下文所描述。

参看图2A，一些实施例的一或多个处理器通过执行操作220中的字符等级处理来处理通过操作210中的像素等级处理而产生的块266(图2C)，以在块260内识别预定手迹的一连串字符，例如梵文字母。具体来说，在动作221中，使位于线264S下方的块266的一部分再分(或切片或分段)以按普通方式在动作221(图2A)中产生一连串子块266A-266C(图2C)。因此，根据图2A中的动作222，处理器404通常接收(例如来自存储器501，参见图6)一连串子块中的子块，所述子块已从相机405所捕捉的现实世界的场景的图像的一部分中的矩形内切片。

可(例如)基于块266的高度及字符的预定纵横比及/或基于经识别为形成位于线264S(图2C)下方的区域264(其可为MSER)的部分的像素的边界外部的空间的出现而使用任何已知方法由块266(图2C)形成子块266A-266C(图2D)。在动作221(图2A)中按普通方式对所述块266(图2C)切片的结果为一连串子块266A-266C(图2D)。每一子块接着按普通方式个别地经受动作222(图2A)中的光学字符辨识(OCR)。举例来说，动作222的一些实施例比较子块中的像素的特征向量与用于例如梵文字母的预定手迹的语言的字符组的特征向量。

处理器404接着检查在动作223中是否处理所有子块266A-266C，且当否时返回到动作222。可在环路中执行动作222及223以识别块266中的字符，所述字符对应于从块266切片的子块266A-266C的序列。当块266的所有子块266A-266C已如上所述经处理(以识别其中的字符)时，控制经由分支224(图2A)转移到操作230，在操作230中在一些实施例中执行动作231、232、234、235及236中的一或多者，如下文所描述。请注意在一些实施例中，分支224可根据分支246(在图2A中用虚线展示)转变到操作240，在操作240中执行动作以识别修饰符，所述识别及临时存储只好随后检查所述修饰符，如参考图4所描述。

在动作231中，处理器404使用操作220所识别的字符作为在块266的子块266A-266中辨识，以选择第二字符序列。在一些实施例中，对例如子块266A(图2D)的第一子块执行动作231以识别为彼此的替代的第一字符群组(例如三个字符)，其中第一群组中的每一字符与子块266A中的辨识的精度的概率相关联。类似地，对例如子块266B(图2D)的第二子块执行动作231以识别同样为彼此的替代的第二字符群组(例如三个字符)，其中第二群组中的每一字符与子块266B中的辨识的精度的概率相关联。类似地，对例如子块266C(图2D)的第三子块执行动作231以识别第三字符群组。

接着，处理器404可使用在图像107中的所检测文字区域中的一连串子块266A-266C以通过包含来自每一子块的每一群组的一个字符而形成多个字符序列。举例来说，可通过处理器404来选择每一群组中的第一字符以形成一个序列。在此实例中，处理器404可使用除了最后群组之外的每一群组中的第一字符与最后群组中的第二字符以形成另一序列。通过一些实施例的处理器404反复地进行此类序列形成，使得存储器501保持多个字符序列，其中每一序列为用于在块262中辨识的候选者(也称为“候选者序列”)。

随后，处理器404(同样在图2A中的动作231中)比较候选者序列(例如多个候选者序列中的一者)与(存储在存储库270中)预定字符序列集合271(图2H)，以选择来自序列271的集合的第二序列作为匹配图像107中的所检测文字区域中的子块的序列(即，作为匹配第一字符序列)。举例来说，当发现子块266A-266C中的第二序列276的辨识的概率大于阈值(例如0.90)时，可在动作231中选择第二序列276(图2H)。通过处理器404基于每一字符在节点276A、276B及276C(图2H)的辨识的精度相对于一些实施例所使用的经过网格271T(图2H)的对应路径中的预定值的概率来计算子块266A-266C(图2D)中的第二序列276的辨识的概率。在刚刚描述的实例中，如果经过网格271T(对应于第二序列)的特定路径的概率低于阈值，那么不进行选择，且可通过比较另一候选者序列与存储在网格271T(图2H)中的多个序列来重复动作231。

在选择第二序列276(图2H)之后，处理器404在存储库270中检查(参见图2A的动作232)第二序列276是否具有待检查的修饰符信息280(也称为“额外信息”或辅助信息”)。举例来说，当设定(例如为逻辑值真(TRUE))指示存在识别待进行的测试的数据结构285时，第二序列276中的前缀树的节点276C处的最后字符可与修饰符信息280中的旗标282相关联。代替旗标282，可在一些实施例中直接使用指针，其中修饰符信息280中的空指针指示没有待进行的测试，及修饰符信息280中的非空指针指向数据结构285(及需要进一步测试)。

如果存储库270指示不存在用于第二序列的数据结构(且因此不需要进行进一步测试)，那么处理器404将第二序列存储(在图2A的动作234中)在存储器501中，作为现今已在块262中辨识且其后返回到操作210(到其中的动作211)的字。因此，当从动作232采用分支233(标为“否”)到动作234时，存储在存储器501中的字为通过动作231选择的第二字符序列。

用于一些实施例的动作231(及从存储库270检索)中的序列集合包含不具有修饰符的预定语言的普通字的字符序列，及进一步包含在像素的一或多个群组组合时产生预定语言中的普通字的字符序列(也称为“基本字”)。在图2E及2F中说明的实例中，印地文字272及278(即及)两者具有共同的第一字符其为通过将修饰符(称作DOT maatra)添加到字符(也称为“基础”字符或“未修饰”字符)而获得的梵文天城体手迹中的修饰字符。

在一些实施例中，刚刚描述的印地文中的两个字及存储在具有基本字的树中的网格271T中的存储库270中，其中所有三个字所共有的字符形成根节点，例如树(也称为前缀树)的节点276A。更具体来说，在网格271T中的树中通过用于基本字中的三个未修饰字符及中的每一者的三个节点276A、276B及276C来表示基本字此外，如图2H中的旗标282所指示，第二字符序列276 与数据结构285相关联，所述数据结构指示需要在图2H中展示的位置285P(在此实例中，值1或第一位置)处检查类型285T(在此实例中，值DOT maatra)的修饰符。在上述实例中，处理器404测试在基元中的第一字符顶部的点(或句点)的存在。

相同数据结构285可在辨识两个未修饰字符及(在网格271T中在相应节点276A及277A处展示)之后另外用以辨识另一字接着检查修饰符信息280中的旗标283(在使用旗标281的实施例中)。类似地，可在辨识两个未修饰字符及(在网格271T中在相应节点276A及276B处展示)之后检查修饰符信息280中的旗标284。因此，在图2H的实例中，数据结构285与三个基元或字符序列及中的每一者相关联。当在动作231中通过处理器404选择这三个基元中的任一者时，处理器404接着在动作241中发现表示DOT maatra的像素存在于图像中(例如，在相应基元或序列中的字符顶部上)，接着在动作236中，处理器404辨识对应的字(分别展示于图2C、2E及2F中)。

因此，如图2A中所示，处理器404可通过使用存储库270而在动作232中寻找在动作231选择的与含有待检查的修饰符信息的数据结构相关联的第二序列276(图2H)。因此，如果在动作232(图2A)中回答为是，那么在若干实施例中暂停操作230中的字等级处理，且控制转移到操作240中的像素等级处理。在操作240中的像素等级处理期间的动作241(图2A)中，处理器404分析图像以确定至少一个像素是否满足数据结构285中的修饰符信息280中指定的测试。具体来说，在一些实施例中，动作241检查图像是否具有满足与修饰符信息280相关联的预定测试的至少一个像素(其中预定测试是基于例如梵文字母的特定手迹中的特定修饰符)。

当在动作241(图2A)中发现满足预定测试(针对指示特定修饰符的一或多个像素)时，且如果没有更多修饰符待检查(例如参见图2H中的位置287P及类型287T)，那么控制经由分支242转移到动作235，所述动作235恢复操作230中的字等级处理。在动作235中，处理器404将修饰符添加到第二字符序列的副本中的特定字符。具体来说，在动作235(图2A)中，处理器404将通过使用修饰符信息280而识别的特定修饰符的数字表示添加到特定字符(在动作231中选择的特定序列的副本中)的数字表示，例如修饰符的数字表示与字符的数字表示串接以获得梵文天城体手迹中的修饰字符的数字表示。其后，在动作236中一起识别(且存储在存储器501中)(所辨识的特定序列及例如的修饰符的)组合，如辨识为包括在预定语言中的图像107(例如中的文字区域中的第一字符序列的字，且控制转移到动作211。在一些实施例中，当将检查额外修饰符时(例如，如在修饰符信息280中的数据结构285中指示)，动作235(或动作236)可转变到操作240(例如经由分支247，参见图2A)。

取决于所述字及/或取决于实施例，修饰符信息280(图2H)可指示一或多个不同修饰符或无修饰符。举例来说，在其中已辨识字符的特定序列279的图像区域中，处理器404可使用前缀树中的最后节点279A来检查修饰符信息280中的指示不存在修饰符的旗标286，使得接着辨识字(图2G)作为没有修饰符的一连串字符。而且，旗标283在设定时识别数据结构285，而另一旗标284在设定时可识别不同的数据结构(未图示)。此外，修饰符信息280中的数据结构285可指示一连串字符中的不同位置处的不同修饰符，例如类型285T(用于位置285P)所指示的第一修饰符可不同于类型287T(用于位置287P)所指示的第二修饰符。取决于实施例，一连串字符中的许多位置(及在每一位置处的任何类型的修饰符)可存储在此类数据结构285中。

在若干实施例中，修饰符信息280中的数据结构285中的位置285P及类型285T需要动作241(图2A)以检查共同二进制值的像素群组的形状及大小是否类似或相同于句点或点263(例如，以检测称作DOT maatra的修饰符)，所述修饰符如果存在可位于自然语言(例如印地文)中的字中的像素的线264S上方的特定位置(例如，在第一字符的位置)处。

为鉴于此详细描述将容易显而易见的，虽然图2C、2E及2F中说明的实例说明数据结构285中的DOT maatra(也称为bindu或bindi)但此类数据结构的其它实施例可指示其它类型的修饰符。作为一个实例，可通过在此类数据结构(参见图2K)中包含位置291P及类型291T来检查由在最后字符(参见图2J)的顶部上的修饰符291说明的Chandra bindu maatra(还拼为Candrabindu或Chandra bindi)作为另一实例，可通过在此类数据结构(参见图2M)中包含位置292P及类型292T而检查如由第一字符(参见图2L)顶部上的修饰符292说明的Chandra在一些实施例中，尽管数据结构285的单个列表用以保持关于如图2H中所示的修饰符的多个类型的信息，但在其它实施例中，数据结构的多个列表可用以保持关于修饰符的对应类型的信息。在某些实施例中，在前缀树的叶子处的网格271T(图2H中)中的每一序列的最后字符具有指向不具有旗标(即无旗标281)单个数据结构的指针，且此指针是空指示不存在用于前缀字(或字符序列)的修饰符信息。在一个此类实施例中，存储库270中的数据结构仅识别单个类型的修饰符(例如，DOT maatra)，且因此不存在数据结构中的类型285T，且实际上所述数据结构识别位置285P、287P...，在所述位置必须在图像中发现相对于字符序列的修饰符的单个类型(例如，DOT maatra)待经辨识为字典中的有效字。

同样取决于实施例，代替或除此之外，上述修饰符(上述类型的数据结构285中的修饰符信息)可需要动作241来检查图像是否有与其它模式一致的共同二进制值的像素的出现，例如表示如在通过组合修饰符与基本字(或字符序列)而获得的以下字(在印地语中)中在一连串字符(在辨识与其相关联的特定字符序列之后，如存在于图像中)的末端的三个不同maatra中的任一者。

参看图2A，当动作241中的回答为否时，控制可经由分支244L转移到动作234(其恢复操作230中的字等级处理)，例如当数据结构285中的修饰符信息具有指示特定字(或字符序列)可本身作为预定语言中的普通字出现的另一旗标时。举例来说，在例如印地文的一些语言中，特定字可具有随着及未随着修饰符两者出现的变体，且因此辨识此类语言的某些实施例可经编程以辨识出现在具有或不具有表示一或多个修饰符的像素的存在的图像中的一连串字符。

在某些实施例中，当动作241中的回答为否，且发现块262中的特定序列的辨识的概率低于另一阈值(例如0.50)时，控制经由分支244R(图2A)转移到动作213(其通过重复操作210而继续像素等级处理)。具体来说，在若干此类实施例中，动作213从存储器501检索某些MSER输入参数的值的替代集合，例如来自查找表290(图2I)中的第二行(如果尚未使用)，且如果已使用那么来自查找表290中的第三行。

因此，在一些实施例使用查找表290(图2I)的第二行及第三行中的信息以在二进制化之前重新检验所述的原始版本，且再次执行方法以使用不同输入参数来识别连接分量及/或最大稳定极值区域(MSER)。在一些实施例中，所述方法及装置使用例如通过减少一个输入参数Δ(“德耳塔”)及增加另一输入参数最大变体而改进分辨率的输入参数，其使得能够相对于对整个图像执行MSER方法而在执行相同MSER方法的同时形成更多轮廓(使用默认输入参数，例如在查找表290的第一行中)。当查找表290(图2I)的所有三行已用于图像的一部分时，未执行进一步像素等级操作，及实际上处理器404在移动装置401的屏幕上显示错误消息。取决于实施例，此类错误消息可展示为屏幕上的多个选项、图像部分可经解码成的多个字以及用以选择选项中的一者或手动识别一字的请求用户输入。

在辨识图像中的字之前通过离线计算(例如，在执行图3A中说明的方法的服务器计算机1015或处理器404中)来提前准备在若干实施例中在动作231中用以辨识图像的块中的字符序列(也称为“基本字”)的存储库270。具体来说，处理器404可经编程以通过从正常出现在例如印地文的预定语言的文字中的字(也称为“普通字”或“字典字”)移除预定修饰符，例如变音标记或重音标记(也称为“matraa”)而准备存储库270中的序列271的预定集合或前缀字及对应的修饰符信息280(图2H)。总体来说，刚刚描述的离线计算形成基本字274(或字符序列)及包含识别被移除的预定修饰符的一或多个数据结构285的对应修饰符信息280。

在一些实施例中，服务器计算机1015通过使用图3A中说明的类型的填入模块300来执行离线计算，以如下建立具有字符序列及与其相关联的修饰符信息的存储库270(图2H)。填入模块300在动作311中接收以预定语言正常出现的字的列表(也称为“普通”字)，例如从印地语的字的任何字典检索。在某些实施例中，动作311中接收的列表中的每一字的字符(及修饰符(如果存在))以同样用于图2A的方法中的预定方式表达为一连串数字(例如十六进制数字，例如以Unicode表示或任何类似整数表示)。

接着，在动作312中，填入模块300从所述列表选择一字。接着，在动作313中，填入模块300检查选定字中的修饰符(或任选地字符，取决于实施例)是否满足预定测试。举例来说，可在动作313中通过填入模块300检查选定字是否存在表示以数字表示的DOT maatra的预定数目。如果动作313中的回答为否，那么控制转移到动作315，在所述动作315中奖来自字典字的字符序列添加到不具有修饰符信息的网格271T(图2H)作为若干普通字275中的一者。

如果动作313中的回答为是，那么执行动作314以移除字符或修饰符(例如DOTmaatra)，接着每当在发现字符序列时准备(例如)指示将在所述图像中检查的修饰符的相对位置、形状等的修饰符信息280(图2H)。在动作314之后，执行动作315以将不具有修饰符信息的字符序列添加到网格271T，及与所述序列相关联地分开存储所述修饰符信息280以用于检查。在动作315之后，填入模块300在动作316中检查动作311中所接收的列表中的所有字是否已处理，且如果否，那么返回到动作312。当动作316发现列表中的所有字经处理时，填入模块300结束。

在说明性实例中，在印地语中，执行动作314(图3A)以从普通字移除DOTmaatra产生在本文中被称作“基元”字(也称为“前缀”)的一连串字符，所述字符包含在以普通方式使用的网格271T中的序列的预定集合中以例如通过字解码器来辨识图像中的文字。在另一实例中，可通过动作314(图3A)移除在拉丁手迹(例如英文)中的字中的字母“e”上形成特定变音标记(称作分音符)的两点，以获得一连串四个字符“Noel”，其在本文中被称作基本字且包含在字的预定集合做(字典中)。

在一些实施例中，尽管本文所述的从块262(图2B)排除的点263为梵文字母中的DOT maatra但在其它实施例中可排除小于字符的任何其它标记。取决于实施例，变音标记，例如表示重音的“高音”标记或“抑音”标记，如在英语中的字saké中，其中字母“e”上的高音标记可从本文所述类型的块内的辨识排除。因此，虽然本文所述的各种实例使用梵文字母来说明某些概念，但所属领域的技术人员将理解这些概念可应用于除了梵文字母之外的语言或手迹。举例来说，本文所述的实施例可用以识别韩文、中文、日文及/或其它语言中的字符。

在一些实施例中，处理器404经编程以在在线计算期间通过如图3B中的动作321-324所说明的移动装置401来执行操作240。具体来说，在动作321(图3B)中，处理器404从存储器501(图2H)检索修饰符信息280(或其一部分)，及使用数据结构285来识别位置285P，将在图像中的所述位置来检查类型285T的修饰符的像素。如上所述，存储库270可保持形成在离线计算期间通过填入模块300存储在其中的基本字的一连串字符，以及用于在在线计算中由移动装置401使用的与其相关联的修饰符信息280(或辅助信息)(用于辨识相机所捕捉图像中的文字的字)。

因此，在动作322(图3B)中的相机所捕捉图像的块331(图3C)的处理期间，移动装置401使用第一字符的子块332的位置以识别位于子块332上方的图像的部分333(其含有共同二进制值的像素直线)。可选择图像的部分333以具有与子块332相同的尺寸，例如相同高度及相同宽度。然而，取决于实施例，可将部分333的尺寸选择为子块332的对应尺寸的任何分数。接着，在动作323中，处理器404执行预定测试以通过在动作323中计算部分333(图3D)中的所有文字像素(例如黑色像素)的质量中心或中心及检查所述中心是否满足预定测试(例如，如下文参考动作324所描述)来检查是否存在DOT maatra

在说明性实例中，在动作323期间，部分333中的每一像素的位置乘以其二进制值以获得乘积，接着使每一行中的所有乘积求和以获得每一行中的x坐标的值，对所有行的值求平均值以获得值Xc。类似地，每一列中所有乘积的求和产生每一列中的y坐标的值，对所有列的值求平均值以获得值Yc。坐标(Xc，Yc)识别为部分333的质量中心的点334(图3E)。当像素的群组335(图3D)形成DOT maatra时，其具有值1(因为其全部是黑色的)，且因此其质量中心与部分333(其中部分333中的在群组335之外的所有像素都是白色的，且具有值0)的质量中心一致。

在一些实施例中，移动装置401在动作324中检查在动作323中计算的中心周围是否存在文字像素的集中(或质量)。此类实施例的移动装置401可遍历所述中心周围的区域，其中所述区域的大小取决于部分333的总质量(例如，部分333中的文字像素的总数)。在一些实施例中，移动装置401经编程以从动作323中所计算的中心开始，及遍历同心环中的相邻像素(例如，在顺时针方向上)，直到所遍历像素的数目达到部分333中的文字像素的数目。在此类遍历期间，移动装置401维持所遭遇文字像素的数目的计数。当完成遍历时，移动装置401比较遍历末端的计数与区域333中的文字像素的总数(即比较所述中心周围的质量与部分333中的质量)。当所述计数与区域333中的文字像素的总数相当时(例如，计数为总数至少50％)，确定存在DOT maatra，及处理器404从动作324进行到动作235。如果动作324中的结果为否，那么处理器404从动作324进行到动作234，因为确定DOT maatra不存在。

图3F说明位于块331(图3C)中的梵文天城体手迹中的字母顶部上的区域336。如果对区域336执行动作323，那么在点337(图3G)的质量中心不满足动作324，且因此处理器404确定在区域336中不存在DOT maatra。如鉴于此详细描述将容易显而易见，可使用类似测试来识别其它修饰符的存在，例如区域339(图3H)中的Chandra-bindu maatra或区域343(图3K)中的Chandra maatra，如上述类型的辅助信息(例如，在图2H的数据结构285中)所指示。下文参看图3L描述一个此类测试作为说明性实例。

作为另一实例，用于在移动装置401所进行的相机所捕捉图像的块的在线解码期间识别的字符序列的修饰符信息的存在触发执行移动装置401中的动作323及324的替代方案，以检查存在于第一字符上方的特定相对位置的像素群组，且此检查可测试所述群组像素是否形成待辨识为梵文字母中的DOT maatra的特定大小(例如，相对于字符)及/或特定形状(例如，圆圈或方块)的点。

在另一实例中，移动装置401中的动作323及324的替代方案可使用用于在图像的此类在线解码期间识别的字符序列“Noel”的修饰符信息来检查其中刚好存在于第三字符“e”上方的特定位置的像素的两个群组，及此检查可测试像素的两个群组具有特定大小、特定形状且彼此之间分开特定距离，且距字符“e”的另一特定距离将辨识为拉丁手迹中的分音符标记。

取决于实施例，修饰符信息280中的数据结构285中的测试的类型不需要严格地检查像素的两个群组的存在，这是因为所述检查可基于字符序列“Noel”的检测而较宽松，例如允许存在对于移动装置401足够的单个群组像素来辨识为字的图像的矩形部分。因此，在动作323及324中用以检测修饰符的存在的特定预定信息可不同于修饰符本身的特定描述。

请注意，取决于块265(图2B)的大小，形成修饰符(例如，图2B中的点263)的像素群组可存在于块262的矩形内、块262的矩形外部、或部分在块262的矩形内及部分在外部，已识别所述块262的基本字(例如，序列)。因此，图像中的修饰符(例如，图2B中的点263)相对于块262的矩形的位置可取决于(例如)已在块262的矩形中辨识为基本字的连接分量或区域264(其可为MSER)的大小及形状。

在一些实施例中，移动装置401经编程以在操作240中的像素等级处理期间确定Chandrabindu maatra的存在，如图3L中所说明。具体来说，在动作351中，处理器404从含有文字的字的块提取位于字符上方的区域，如辅助信息中所指示。举例来说，图2K中的辅助信息指示将提取包含Chandrabindu 291的一连串子块(参见图2J)中的位置3处的子块的顶部部分中的区域。类似地，在动作351中通过处理器404提取图3C中的图像331的区域339，如图3H中所说明。

其后，在动作352(图3L)中，经提取区域通过处理器404改变边界的每一侧通过将所述侧移动接近中心而“收紧”，以在所述边界排除非文字像素，其产生图3I中说明的区域341。接着，在动作353(图3L)中，所述区域341例如通过按比例扩大或按比例缩小(取决于原始图像的大小)而调整大小到预定的特定大小(例如40像素×40像素)，使得所述结果为调整大小的区域342(图3J)。因此，当完成动作353时，调整大小的区域342具有与Chandrabindu maatra的预先存储的模板(例如参考图像)的大小相同的大小。

调整大小的区域342接着在动作354中经受与每一预先存储的模板(例如，在数据库中)的相关。在动作355中检查相关的结果。当动作355发现存在足够的相关(例如，大于或等于80％相关)时，将指示存储(例如，根据图3L中的动作356)在存储器501中，所述指示将ChandraBindu识别为存在于经提取区域中的预期位置处(在经辨识的文字的字的子块的序列中)。当动作355发现存在不充分相关(例如，小于80％相关)时，执行另一动作357，所述动作可取决于实施例而检查另一maatra，例如Chandramaatra。举例来说，处理器404可使用模板图像的另一集合(用于Chandra maatra)再次执行动作354。

若干实施例的移动装置401经配置以从存储库270(图2H)寻找最可能(有效)字(给定来自字符解码器的输出)。在某些实施例中，使用一方法来识别最可能字(或字符序列)，所述方法使用具有图2H中展示类型的前缀或基本字的树(称作“前缀树”)的网格271T。在一些实施例中，转变的密度在节点的数目如图2H中所展示从左到右经过网格前进而增加的同时减小。在此类实施例中，不同长度的字(或字符序列)可存储为不同网格的部分。

在一些实施例中，如题为“具有逆向遍次的基于网格的字解码器(Trellis based worddecoder with reverse pass)”的美国临时申请案第61/673,606号中以及题为“具有逆向遍次的基于网格的字解码器(Trellis based word decoder with reverse pass)”的美国申请案第13/829,960号中所描述来制造及使用网格271T，两申请案以引用的方式并入上文中。

服务器计算机1015可经编程以读取每一字典字，通过从左到右(参见图2H)处理每一字来产生基于前缀树的网格(在离线计算中)，并且还在反向方向通过从右到左处理每一字来产生(未展示类型的)两个基于前缀树的网格。在解码期间，若干实施例的移动装置401经配置以通过存储每一阶段的M(通常较小)个最佳路径而基于字符解码器输出来限制每一阶段的转变。一些实施例的移动装置401同样能够在结束时传回M个最佳字，及还可组合逆向遍次解码。

尽管上述类型的标记位于一连串字符上方，但取决于实施例，可以类似方式处理位于字符序列的其它侧上的其它标记。举例来说，在执行图4中说明的类型的方法的某些实施例中，通过服务器计算机1015从以预定语言(例如，印地文)出现的普通字的任一端或两端(在左边及右边)移除某些修饰符而获得基本字。具体来说，当移除三个普通字(在印地语中)中的每一者的末端处的呈元音maatra形式的修饰符时，在每一情况下获得共同基本字因此，填入模块(例如，由服务器计算机1015或处理器404执行)将基本字存储在存储库270中，且用指示需要检查一或多个元音maatra的预定信息来对此字的输入项进行注释。举例来说，与基本字相关联的修饰符信息(存储库270中)可通过填入模块配置以识别三个不同修饰符或元音maatra中的每一者，使得可在处理器404进行的在线计算期间发生与此基本字(或特定字符序列)组合时辨识图像中的这三个修饰符中的任一者。

在一些实施例中，移动装置以类似于上文参看图2A描述的方式来执行操作210、220、230及240，除了图4中所说明及/或如下描述的差异之外。在动作223中，当回答为是时，控制转移到动作223A，在动作223A中处理器404检查子块的序列中所辨识的最后子块是否为三个修饰符中的一者，例如三个maatra中的一者，且如果否，那么采用分支224进行到动作231。当动作223A中的回答为是时，控制转移到动作223B(图4)，在所述动作223B中，从序列移除修饰符(所述序列在移除之前包含修饰符)，及所移除修饰符存储在存储器501中的临时位置中用于在动作241(下文描述)A中使用。

动作223B中的修饰符移除的结果为匹配动作231中的基元的序列。动作231中的匹配的结果由如上所述参看图2A的动作232使用，接着为图4中的动作241A(代替图2A的动作241)。图4的动作241A检查当前存储在存储器501中的临时位置的移除修饰符是否匹配与所述基元相关联的预定修饰符的群组中的一者，且如果是，那么控制转移到动作235。在动作235中，将匹配移除修饰符的预定修饰符附加到基元中的最后字符，且接着在动作236中存储添加的结果。

具体来说，当动作241A的结果为是时，例如指示在动作223B中存储的字符为maatra(其为在动作241A中可辨识的三个预定maatra中的一者)，且如果在动作231中选择的特定字符序列为那么在动作235通过将在动作223B中存储的maatra添加到此序列中的最后字符以获得存在修饰符的字(其因此在动作236中存储为经辨识的)来修饰此序列中的最后字符如果动作241A的结果为否，那么控制可转移到动作234(在适当时，例如根据另一测试)，在所述动作234中将不具有修饰符的序列存储在存储器501。

在上述实例中，基本字(或字符序列)本身并非印地语中的普通字，且其本身不可辨识为字典中的有效字，但此字符序列已故意存储在存储库270中的网格271T中，用于辨识(通过使用修饰符信息280)通过与maatra中的相应一者(其中的每一者本身为字符)组合而获得其三个变体中的一者。

在基本字(或特定字符序列)的上述实例中，为印地语中的法定字的另一字由基本字与仅位于所述字的顶部上的另一maatra(具体来说maatra)的组合形成。因此，当字在离线计算期间首次被服务器计算机1015遭遇且需要存储在存储库270中时，可例如基于具有三个不同maatra中的任一者的字先前被遭遇而可已发现其基本字存在于网格271T中，且在此情况下，此字的识别符与相同基元相关联(连同其它字的任何其它识别符)，且用于maatra的对应maatra信息同样存储在修饰符信息280中。

类似地，当网格271T已保持不具有DOT maatra的现有字时及当遭遇由DOTmaatra与与普通字相同的基本字的组合形成的新字时，通过服务器计算机1015使用网格271T中的单个输入项来识别现有字及新字两者，但maatra信息另外存储在存储库270中用于辨识所述组合(即，新字)。

如将显而易见，取决于修饰符在语言(例如印地文)中出现的对应法定字，修饰符可不仅位于基本字的上方及/或右边，但或者或另外可位于基本字的下方及/或左边。不管修饰符相对于基本字定位在哪，其组合可如上所述通过使用修饰符信息280而容易解码。

或者或另外，在若干实施例中使用修饰符信息280来检验原始图像的二进制化版本是否有特定形状的像素群组，例如凸状的轮廓(例如，圆形、方形、三角形)，其确认可预期的点或句点或DOT maatra或任何其它形状的存在(根据修饰符信息)。举例来说，如上所述，当修饰符为元音maatra时，例如maatra(也称为字符)，可通过仅检查原始图像的二进制化版本是否存在紧挨着被解码的矩形部分的右侧(即，在所述字的末端)的垂直线来实施动作241。在若干此类实施例中，可对连接分量或最大稳定极值区域(MSER)直接进行上述检查。

移动装置401的若干实施例通过使用子块中辨识的每一字符的置信度值以及通过连接块中的连续子块的字符而形成的一连串字符的置信度值而执行图4中说明的方法。在此类实施例的动作231中，进行关于此类字符序列的置信度值是否大于预设限值(阈值)的额外检查，及如果是，那么执行动作232，否则执行动作213。

在通过动作231进行的检查中，可执行以下检查中的一或多者：(a)基于字解码器置信度值的检查；(b)基于字符解码器可能性的检查；(c)是否已用修饰符信息标记所识别的字。此外，在动作241中，移动装置401可经编程以执行以下动作中的任何一或多者：(1)使用改变的输入参数Δ及最大变体(如上所述)来重新计算图像的此部分中的MSER；(2)寻找特定物体(例如，以确认点或其它物体的存在)；(3)寻找图像中的特定几何性质(例如，以确认表示maatra的特定字符)；(4)使用不同阈值来二进制化；(5)检查偏斜及正确；(6)检查遗漏的字符或maatra。

在若干所描述实施例中，移动装置401的一或多个处理器可经编程以实施如图5中所说明的反馈环路，以重新计算MSER及/或寻找可通过手持式相机捕捉的图像511中的特定物体及/或特定几何性质。具体来说，在阶段512中，处理器404从图像511提取可能的文字区域(例如，基于MSER输出)。其后，在阶段513(图5)中，处理器404二进制化可能的文字区域以获得二进制化图像514(图5)。其后，在阶段515(图5)中，处理器404如下逐个地处理二进制化图像514。在阶段517(图5)中，处理器执行文字验证及OCR，接着执行动作518以检查最后可信度是否在阈值以上。如果动作518中的回答为是，那么处理器404转到动作516。在动作516中，处理器404检查所有二进制化图像514是否已被处理，且如果所述回答为是，那么所述过程结束。当动作516中的回答为否时，处理器404接着返回到阶段515以处理二进制化图像514中的另一图像。当动作518中的回答为否时，处理器404转到动作519。

在动作519中，取决于实施例，可使用查找表290(图2I)中的行2及3中所说明的类型的改变的参数来重新计算图像部分的MSER。同样在动作519中，取决于实施例，处理器404可寻找图像中的特定物体，例如以确认DOT或其它物体的存在。同样取决于实施例，在动作519中，处理器404可寻找图像中的特定几何性质，例如以确认(maatra的)特定字符。在完成动作519时，处理器404返回到阶段517。请注意在阶段517及动作518及519所形成的环路中的迭代的预定数目(例如，两个迭代)之后，处理器404可确定在经处理的图像部分中不存在文字，或替代地在屏幕上显示消息及请求用户输入。

在一些实施例中，移动装置401所接收的字的列表中的每一字包含通过唯一识别符识别的一连串字符。举例来说，字通过表示为一连串数字而由移动装置401中的唯一识别符识别，其中每一数字表示序列中的字符。因此，在若干实施例中，存储库270包含若干普通字275以及基本字274，其中每一字表示为一连串字符(如上所述)。此外，在一些实施例中，移动装置401中的字符解码器输出用于每一字符的N个近似可能性(例如，在一个说明性实例中的3个最可能候选字符)及其对应可能性(或概率)。在此类实施例中，剩余概率可在字典中的所有其它字符中均等地划分。

执行图2A或4中所示的方法的一些实施例的移动装置401(图6)为手持式装置，例如包含上述类型的相机405(图6)以产生现实世界场景的图像的智能电话，所述图像接着经处理以识别其中的梵文字母字母表的任何字符。如上所述，移动装置401可进一步包含提供关于移动装置401的移动的信息的传感器406，例如加速计、陀螺仪、指南针或其类似者。移动装置401可使用加速计及指南针及/或其它传感器来以普通方式感测倾斜及/或转向，以辅助处理器404确定在移动装置401中捕捉的图像中的预定符号的定向及位置。代替或除了传感器406以外，移动装置401可使用来自相机405的图像来辅助处理器404确定移动装置401相对于成像的预定符号的定向及位置。

而且，移动装置401可另外包含以普通方式使用的图形引擎1004及图像处理器1005。移动装置401可任选地包含OCR模块614(例如由执行存储器501中的软件510的处理器404实施)，以识别作为OCR模块614(当其中的软件由处理器404执行时)的输入而接收的块中的文字的字符。

除了存储器501以外，移动装置401可包含一或多个其它类型的存储器，例如快闪存储器(或SD卡)或其它存储器1008(图6)及/或硬盘及/或光盘(也称为“辅助存储器”)，以存储用于载入到存储器501(也称为“主存储器”)中的及/或用于由处理器404使用的数据及/或软件。移动装置401可进一步包含在收发器1010及/或任何其它通信接口1009中的无线发射器及接收器。应理解移动装置401可为任何便携式电子装置，例如蜂窝式或其它无线通信装置、个人通信系统(PCS)装置、个人导航装置(PND)、个人信息管理器(PIM)、个人数字助理(PDA)、膝上型计算机、相机、智能电话、平板计算机(例如购自苹果公司的iPad)或能够产生扩增实境(AR)环境的其它合适的移动平台或设备。

上述类型的移动装置401可包含其它位置确定方法，例如使用“计算机视觉”技术的对象辨识。移动装置401还可包含用于响应于例如通过使用移动装置401中的触摸屏而在移动装置401上进行的用户输入来选择待经受OCR的图像的一部分的用户接口。移动装置401还可包含收发器1010，其可为经启用以经由一或多个类型的无线通信网络(例如因特网、WiFi、蜂窝式无线网络或其它网路)来发射一或多个信号的IR或RF发射器或无线发射器，例如用于从服务器计算机1015接收字典。移动装置401可在用户接口中进一步包含麦克风及扬声器(未标记)。当然，移动装置401可包含与本发明无关的其它元件，例如可用以存储处理器404所使用的固件的只读存储器1007。

而且，取决于实施例，移动装置401可在操作OCR模块614以识别例如图像中的梵文字母表的字符的实施方案中检测图像中的文字的字。具体来说，移动装置401可在存储器501中包含软件510，所述软件呈以下形式：具有使处理器404执行上述操作210的指令的MSER模块610(图6)、具有使处理器404执行操作220的指令的字符解码器620(图6)、具有使处理器404执行操作230的指令的字解码器630(图6)等。字解码器630可包含执行动作231的字符序列解码器631(图6)。此外，OCR模块614可包含执行操作240以实施反馈的修饰符检查器640(图6)。取决于实施例，MSER模块610、字符解码器620、字解码器630及修饰符检查器640中的一或多者可实施于软件(由一或多个处理器或处理器核心执行)中、或硬件中或固件中、或其任何组合中。

如上所述，在移动装置401的一些实施例中，上述OCR模块614中的功能性通过处理器404执行移动装置401的存储器501中的软件510来实施，但在其它实施例中，此类功能性实施在移动装置401中的硬件电路及/或固件及/或软件的任何组合中。因此，取决于实施例，本文所述类型的各种功能可实施于软件(由一或多个处理器或处理器核心执行)中、或专用硬件电路中或固件中、或其任何组合中。

因此，取决于实施例，OCR模块614中的任何一或多者可(但未必需要)包含一或多个微处理器、嵌入式处理器、控制器、专用集成电路(ASIC)、数字信号处理器(DSP)及其类似物。术语处理器意欲描述由系统而非特定硬件所实施的功能。此外，如本文中所使用，术语“存储器”指代任何类型的非暂时性计算机存储媒体，其包含与移动平台相关联的长期、短期或其它存储器，且并不限于任何特定类型的存储器或特定数目的存储器，或特定类型的其上存储有存储器的媒体。

因此，取决于应用，可通过各种装置来实施本文中所描述的方法。举例来说，这些方法可在固件1013(图6)或软件510或硬件1012或其任何组合中实施。对于硬件实施方案，处理单元可实施于一或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文所描述的功能的其它电子单元，或其组合内。对于固件及/或软件实施方案，可用执行本文中所描述的功能的模块(例如，程序、功能等等)实施方法。

有形地体现软件指令(也称为“计算机指令”)的至少一个任何非暂时性机器可读存储媒体可用于实施本文所述的方法。举例来说，软件510(图6)可包含存储在存储器501中且由处理器404执行的程序代码。此类存储器可实施在处理器404内或外部。如果在固件及/或软件中实施，那么可将所述功能作为一或多个指令或代码存储在计算机可读媒体上。实例包含用数据结构编码的非暂时性计算机可读存储媒体以及用计算机程序编码的非暂时性计算机可读存储媒体。

非暂时性计算机可读媒体包含物理计算机存储媒体。存储媒体可为可由计算机存取的任何可用非暂时性媒体。借助于实例而非限制，此类非暂时性计算机可读媒体可包括RAM、ROM、快闪存储器、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用于存储呈指令或数据结构形式的所要程序代码且可由计算机访问的任何其它媒体；如本文中所使用的磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。上文的组合也应包含在计算机可读媒体的范围内。

尽管出于指导性目的而结合特定实施例来说明本发明，但本发明不限于此。因此，尽管一些实施例的图6中展示的移动装置401为智能电话，但在其它实施例中移动装置401通过使用不同的外观尺寸来实施，例如在特定其它实施例中，物品401为移动平台(例如平板计算机，例如购自苹果公司的iPad)，而在其它实施例中移动装置401为任何电子装置或系统。此类电子装置或系统的说明性实施例可包含无线地互相通信的多个物理部分，例如为静止计算机的部分的处理器及存储器，例如膝上型计算机、桌上型计算机或经由一或多个无线链路通信的服务器计算机1015，其中传感器及用户输入电路密封在足够小以保持在手中的外壳中。

取决于在手持式相机所捕捉图像中辨识的特定符号，用户可取决于实施例而接收不同类型的反馈。在一些实施例中，额外触觉反馈(例如通过移动装置401的振动)通过触发触觉反馈电路1018(图6)而提供，从而当在图像中辨识文字时提供反馈给用户。代替刚刚描述的触觉反馈，在其它实施例中，可经由移动装置401中的扬声器来提供音频反馈。

本文所述类型的一些实施例使用至少一个非暂时性计算机可读存储媒体，例如包括待被处理器404执行的多个指令(例如软件510)的存储器501。此类复数个指令包含：第一指令，其用以接收移动装置401的相机405所捕捉的现实世界的场景的图像(例如图像107)；第二指令，其用以识别图像中的(或其一部分中的)用预定语言(例如印地文)表达的预定手迹(例如梵文字母)的多个字符；第三指令，其用以基于匹配已识别的多个字符的特定字符序列来从序列271的预定集合选择特定字符序列(例如特定序列276)；第四指令，其用以检查所述图像是否有至少一个像素满足与特定字符序列相关联的预定测试；第五指令，其用以在满足预定测试时将修饰符添加到特定字符序列中的特定字符；第六指令，其用以在存储器中存储执行添加的指令的结果；及第七指令，其用以基于特定字符序列来确定预定测试。

在一些实施例中，上述第二指令在由一或多个处理器执行时可构成用于识别图像中的多个字符的装置。在一些实施例中，上述第三指令在由一或多个处理器执行时可构成用于选择特定字符序列的装置。在一些实施例中，上述第四指令在由一或多个处理器执行时可构成用于检查至少一个像素是否满足预定测试的装置。在一些实施例中，刚刚描述的第四指令可包含用以确定包含至少一个像素的像素群组的质量中心的指令(其在由一或多个处理器执行时可构成用于确定的装置)。此外，在一些实施例中，上述第五指令在由一或多个处理器执行时可构成用于添加修饰符的装置。存储媒体的某些实施例另外包含用以进一步检查包括多个字符的区域中的共同二进制值的像素行的存在的指令群组(其在由一或多个处理器执行时可构成用于进一步检查的装置)。

在不脱离所描述实施例的范围的情况下可作出各种调适及修改。所描述实施例的大量修改及调适将由随附权利要求书包含。

Claims

1.一种用以解码现实世界图像中的文字的方法，所述方法包括：

接收移动装置的相机所捕捉的现实世界场景的图像，所述图像包括一或多个文字区域；

在所述图像中检测包括表达预定语言的预定手迹的第一字符序列的至少一个文字区域；

基于与所述第一字符序列匹配的第二字符序列而从预定序列集合选择所述第二字符序列，其中所述预定序列集合中的一或多者与关于一或多个修饰符的位置信息相关联；

如果所述第二序列与所述信息相关联，则分析所述图像以确定至少一个像素是否满足与所述信息相关联的预定测试；

当满足所述预定测试时，将修饰符添加到所述第二字符序列的副本中的特定字符；及

将所述文字区域中检测的所述第一字符序列识别为在所述预定语言中的字，其包括具有所述修饰符的所述第二字符序列的所述副本；

其中所述接收、所述检测、所述选择、所述分析、所述添加及所述识别中的一或多者通过耦合到存储器的至少一个处理器来执行。

2.根据权利要求1所述的方法，其进一步包括：

检查在包括所述第一字符序列的所述文字区域中的共同二进制值的像素行的存在。

3.根据权利要求2所述的方法，其中：

当所述文字区域的限界框的纵向方向为水平时，检查所述至少一个像素在所述图像中所述像素行上方的位置。

4.根据权利要求3所述的方法，其中：

所述预定手迹为梵文字母；

所述像素行包括在由所述第一字符序列形成的所述字shiro-rekha中；及

当所述文字区域的所述纵向方向为水平时，所述图像中的所述至少一个像素包括在对应于位于所述文字区域的右侧的元音maatra的像素群组中。

5.根据权利要求4所述的方法，其中：

所述元音maatra为matraa或之一。

6.根据权利要求2所述的方法，其中：

所述预定手迹为梵文字母；

所述预定测试识别位于所述shiro-rekha上方的DOT maatra

7.根据权利要求1所述的方法，其中：

所述检查包括确定包含所述至少一个像素的像素群组的质量中心。

8.根据权利要求1所述的方法，其进一步包括：

基于所述第二字符序列确定所述预定测试；及

当通过所述确定发现所述第二字符序列不与任何测试相关联时，在所述存储器中将所述第二字符序列存储为以所述预定语言辨识的另一字。

9.至少一个非暂时性计算机可读存储媒体，其包括待被至少一个处理器执行以解码现实世界图像中的文字的多个指令，所述多个指令包括：

第一指令，其用以接收移动装置的相机所捕捉的现实世界的场景的图像，所述图像包括一或多个文字区域；

第二指令，其用以在所述图像中检测包括表达预定语言的预定手迹的第一字符序列的至少一个文字区域；

第三指令，其用以基于与所述第一字符序列匹配的第二字符序列而从预定序列集合选择所述第二字符序列，其中一或多个预定序列集合与关于一或多个修饰符的位置信息相关联；

第四指令，其用以在所述第二序列与所述信息相关联的情况下分析所述图像以确定至少一个像素是否满足与所述信息相关联的预定测试；

第五指令，其用以在满足所述预定测试时将修饰符添加到所述第二字符序列的副本中的特定字符；及

第六指令，其用以将所述文字区域中所检测的所述第一字符序列识别为所述预定语言中的字，其包括具有所述修饰符的所述第二字符序列的所述副本。

10.根据权利要求9所述的至少一个非暂时性计算机可读存储媒体，其中所述多个指令进一步包括：

指令群组，其用以进一步检查在包括所述第一字符序列的文字区域中的共同二进制值的像素行的存在。

11.根据权利要求10所述的至少一个非暂时性计算机可读存储媒体，其中：

12.根据权利要求11所述的至少一个非暂时性计算机可读存储媒体，其中：

所述预定手迹为梵文字母；

所述像素行包括在字的shiro-rekha中；及

当所述限界框的所述纵向方向为水平时，所述至少一个像素包括在对应于位于所述限界框的右侧的元音maatra的像素群组中。

13.根据权利要求12所述的至少一个非暂时性计算机可读存储媒体，其中：

所述元音maatra为matraa或之一。

14.根据权利要求10所述的至少一个非暂时性计算机可读存储媒体，其中：

所述预定手迹为梵文字母；

所述像素行包括在字的shiro-rekha中；及

所述预定测试识别位于所述shiro-rekha上方的DOT maatra

15.根据权利要求9所述的至少一个非暂时性计算机可读存储媒体，其中：

所述第四指令在被执行时确定包含所述至少一个像素的像素群组的质量中心。

16.根据权利要求9所述的至少一个非暂时性计算机可读存储媒体，其中所述多个指令进一步包括：

第七指令，其用以基于所述第二字符序列来确定所述预定测试；

其中当通过执行所述第七指令而发现所述第二字符序列不与任何测试相关联时，将所述第二字符序列存储为以所述预定语言辨识的另一字。

17.一种用以解码现实世界图像中的文字的移动装置，所述移动装置包括：

相机；

存储器，其以操作方式连接到所述相机以从其至少接收图像，所述图像包括一或多个文字区域；

至少一个处理器，其以操作方式连接到所述存储器以执行存储在所述存储器中的多个指令；

其中所述多个指令致使所述至少一个处理器：

如果所述第二序列与所述信息相关联，则分析所述图像以确定至少一个像素是否满足与所述信息相关联的预定测试；及

将所述文字区域中检测的所述第一字符序列识别为在所述预定语言中的字，其包括具有所述修饰符的所述第二字符序列的所述副本。

18.根据权利要求17所述的移动装置，其中所述至少一个处理器经进一步配置以：

进一步检查在包括所述多个字符的文字区域中的共同二进制值的像素行的存在。

19.根据权利要求18所述的移动装置，其中：

当所述文字区域的限界框的纵向方向为水平时，检查所述至少一个像素在所述像素行上方的位置。

20.根据权利要求19所述的移动装置，其中：

所述预定手迹为梵文字母；

所述像素行包括在字的shiro-rekha中；及

21.根据权利要求18所述的移动装置，其中：

所述预定手迹为梵文字母；

所述像素行包括在字的shiro-rekha中；及

所述预定测试识别位于所述shiro-rekha上方的DOT maatra

22.根据权利要求17所述的移动装置，其中所述至少一个处理器经配置以：

确定包含所述至少一个像素的像素群组的质量中心。

23.一种用以解码现实世界图像中的文字的设备，所述设备包括：

存储器，其存储所述设备外部的环境的图像，所述图像包括一或多个文字区域；

用于在所述图像中检测包括表达预定语言的预定手迹的第一字符序列的至少一个文字区域的装置；

用于基于与所述第一字符序列匹配的第二字符序列而从预定序列集合选择所述第二字符序列的装置，其中所述预定序列集合中的一或多者与关于一或多个修饰符的位置信息相关联；

用于在所述第二序列与所述信息相关联的情况下分析所述图像以确定至少一个像素是否满足与所述信息相关联的预定测试的装置；及

用于当满足所述预定测试时将修饰符添加到所述第二字符序列的副本中的特定字符的装置；及

用于将所述文字区域中检测的所述第一字符序列识别为在所述预定语言中的字的装置，所述字包括具有所述修饰符的所述第二字符序列的所述副本。

24.根据权利要求23所述的设备，其进一步包括：

用于进一步检查在包括所述第一字符序列的所述第一区域中的共同二进制值的像素行的存在的装置。

25.根据权利要求24所述的设备，其中：

26.根据权利要求25所述的设备，其中：

所述预定手迹为梵文字母；

所述像素行包括在字的shiro-rekha中；及

27.根据权利要求26所述的设备，其中：

所述元音maatra为matraa或之一。

28.根据权利要求24所述的设备，其中：

所述预定手迹为梵文字母；

所述像素行包括在字的shiro-rekha中；及

所述预定测试识别位于所述shiro-rekha上方的DOT maatra

29.根据权利要求23所述的设备，其进一步包括：

用于确定包含所述至少一个像素的像素群组的质量中心的装置。