CN104871180A

CN104871180A - 用于ocr的基于文本图像质量的反馈

Info

Publication number: CN104871180A
Application number: CN201380064784.8A
Authority: CN
Inventors: P·K·拜哈提; A·S·比塞恩; R·桑德拉拉简; D·A·戈尔
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-12-13
Filing date: 2013-11-22
Publication date: 2015-08-26
Anticipated expiration: 2033-11-22
Also published as: JP2015537325A; EP2932437A1; US20140168478A1; US9317764B2; CN104871180B; WO2014092978A1; JP6129987B2

Abstract

一种电子装置和方法按若干变焦等级捕捉现实世界的场景的多个图像，现实世界的所述场景含有一或多个大小的文本。接着所述电子装置和方法从所述多个图像中的每一者提取一或多个文本区域，接着分析与如从所述多个图像中的一或多者提取的第一文本区域的一或多个版本中的OCR相关的属性。当属性具有符合所述第一文本区域的版本中的光学字符辨识OCR的限制的值时，将所述第一文本区域的所述版本作为输入提供到OCR。

Description

用于OCR的基于文本图像质量的反馈

对相关申请案的交叉参考

本申请案主张2013年3月15日申请且题目为“用于改善OCR的基于文本图像质量的反馈(Text Image Quality Based Feedback For Improving OCR)”的美国申请案第13/843,637号的优先权，所述美国申请案又主张2012年12月13日在印度专利局申请且题目为“用于改善OCR的基于文本图像质量的反馈(Text Image Quality Based FeedbackFor Improving OCR)”的印度临时专利申请案第5200/CHE/2012号的优先权，所述两个申请案被以引用的方式全部并入本文中。

技术领域

本专利申请案涉及用于在自然图像或视频帧中识别文本的字符的装置和方法。

背景技术

识别经光学扫描(例如，通过光复印机的平面扫描器)的纸中的文本区域显著比在可在图像(也称为“自然图像”)中捕捉的或在由具有内置式数码相机的手持式装置(例如，智能电话)实时捕捉的视频帧中的现实世界的场景中检测可含有文本的区域更容易(例如，归因于竖直定向、大的尺寸和缓慢速度)。具体来说，现有技术的光学字符辨识(OCR)方法来源于文档处理领域，其中文档图像在文档中含有光学扫描页面的一连串文本行(例如，30行文本)。文档处理技术虽然成功地用于由光学扫描仪创建的经扫描的文档上，但却产生过多的假阳性和/或假阴性，以致当用于含有呈各种字体(归因于照明、色彩、倾斜、焦点、字体等的变化)的文本的自然图像(例如，交通标识、商店门面、车辆牌照)上时不可行。

图1说明在印度的现实世界场景100中的告示牌。用户110(见图1)可使用装备有相机的移动装置(例如，蜂窝式电话)108来捕捉场景100的图像107(也称为“自然图像”或“现实世界图像”)。相机捕捉的图像107可显示在移动装置108的屏幕106上。此图像107(图1)在使用现有技术图像处理技术经直接处理的情况下可导致未能辨识区域103(图1)中的一或多个字词。然而，当图像质量针对上文提到的一或多个原因(例如，归因于照明、色彩、倾斜、焦点、字体等的变化)而不良时，现有技术方法的使用可造成问题。

因此，存在在识别自然图像或视频帧中的文本的区域的块中的字符前改善图像质量的需求，如下所描述。

发明内容

在所描述实施例的若干方面中，一种电子装置和方法使用具有一或多个大小的相同文本的多个图像来改善文本辨识。具体来说，电子装置和方法获得由相机(例如，在例如智能电话或平板计算机的手持式装置中)在多个变焦等级下捕捉的多个图像或视频帧(也称为“图像”)中的区域，且确定图像中的区域是否满足测试。由电子装置和方法使用的测试指示区域中的文本的存在，且也称为“文本存在”测试。此文本存在测试可检测(例如)表示标头行(在梵文本母中也称为“shiro-rekha”)的共用二进制值的一行像素的存在，和/或笔划或标志符号的宽度的方差(指示区域中的字符的存在)。如果所述区域含有文本和/或非文本，那么在其不为电子装置和方法所知的阶段应用“文本存在”测试。注意，在若干实施例中，将“文本存在”测试个别地应用于每一区域，且因此，此测试为区域级测试(且并非图像级测试)。

因此，在获得含有一或多个大小的文本的场景的多个图像后，从多个图像中的每一者自动提取一或多个区域，接着为应用上文所描述的类型的测试以识别有可能为文本的区域(也称为“潜在文本区域”或简单地“文本区域”)。接着，所述电子装置和方法分析与如从多个图像中的一或多者提取的第一文本区域的一或多个版本中的OCR相关的属性(在以上描述的测试前或后)。此属性的一个实例为第一文本区域的高度。如果因为第一文本区域的属性不符合光学字符辨识(OCR)的限制(例如，如果第一文本区域的高度低于对于OCR所需的的最小数目个像素，例如，40个像素)而一个图像中的第一文本区域具有对于文本辨识不可接受的属性的值，那么类似地分析同一场景的另一图像。注意，在若干实施例中检查的图像的质量个别地处于每一区域中，且因此此检查为区域级检查(且非图像级检查)。因此，在这些实施例中可提供的反馈处于区域级(非图像级)。

当第一文本区域具有可接受的属性的值时，进一步处理第一文本区域的那个版本，以辨识其中的文本，例如，通过对通过细分(例如，通过切分)所述区域获得的一连串块当中的每一块执行OCR，且在存储器中存储所述OCR的结果。其后，OCR的结果用以对用户显示经辨识的文本或通过使用经辨识的文本(例如，将字词从印地语翻译成英语)获得的任何其它信息。

应理解，所描述实施例的若干其它方面将从本文中的描述而变得易于对所属领域的技术人员显而易见，其中以说明方式展示和描述各种方面。下文的图式和实施方式应被视为本质上是说明性的，而非限制性的。

附图说明

图1说明用户使用现有技术的装备有相机的移动装置来捕捉现实世界中的告示牌的图像。

图2以高阶流程图说明在若干所描述实施例中由一或多个处理器404执行以从图像提取有可能为文本的一或多个区域、检查潜在文本区域是否满足针对图像质量的测试且当文本区域需要重新成像以用于在文本辨识中使用时产生反馈的动作。

图3A以中阶流程图说明在图2中说明的类型的一些实施例中的一或多个处理器404执行的动作。

图3B和3C说明在一些实施例中用以验证图像中的如含有文本的区域的笔划宽度的计算。

图3D说明执行图3A的操作220的文本图像质量反馈模块。

图3E以高阶框图说明指示文本图像的质量的一或多个参数的提取器，和图4A中说明的类型的反馈模块的在一些实施例中使用的伪影分类器。

图3F以表说明由图4C中说明的类型的提取器提取的文本图像质量参数和在一些实施例中产生的对应的反馈的实例。

图4A说明执行图3A的操作210的文本区域提取器。

图4B说明执行图3A的操作230中的文本辨识的OCR模块330。

图5A以高阶数据流图说明图3D中说明的类型的伪影分类器的训练。

图5B以高阶数据流图说明图5A的伪影分类器的使用，其中大小作为文本图像质量参数。

图6A以高阶数据流图说明使用一或多个伪影分类器识别在一些实施例中为图2中说明的类型的单一图像的两个不同潜在文本区域中的假影。

图6B以流程图说明在一些说明性实施例由图6A的伪影分类器681执行的动作。

图7说明现实世界(现有技术)中的告示牌1100，其中文本区域1101、1102、1103和1104在不同位置处具有不同大小。

图8A以高阶框图说明一些实施例的移动装置，其中通过使用相同文本的多个图像来改善文本辨识。

图8B以高阶流程图说明在一些实施例中经实施以允许通过使用多个图像在较小大小潜在文本区域1102和1103的位置处放大来按较高分辨率捕捉其的自动多分辨率捕捉。

图9以高阶框图说明所描述实施例中的一些中的手持式装置的各种组件。

图10A以中阶流程图说明在一些实施例中由一或多个处理器404执行以评估从相机接收的图像中的有可能为文本的每一区域且确定变焦等级(针对每一潜在文本区域)的动作。

图10B以中阶流程图说明在一些实施例中由一或多个处理器404执行以按降序对关于变焦等级的列表排序且在相机视野中识别来自此列表的保留所有文本区域的最大变焦等级(Z)的动作。

图10C以中阶流程图说明在一些实施例中由一或多个处理器404执行以放大到适当变焦等级同时在视野内保留将重新成像的文本区域的动作。

图10D说明相对于由相机捕捉的图像的在图10B的方法中使用的“h”和“w”。

图11A说明在一些实施例中在手持式装置401的屏幕406上显示的消息1510，例如，句子“检测的字词极小。请放大或走近”(其可叠加于屏幕406上的相机所捕捉图像的变暗版本(未图示)上)。

图11B说明在一些实施例中在如图11B中所说明的消息显示后由手持式装置的相机捕捉的(图1的)图像107的放大版本1517。

图11C说明在一些实施例中在字词已在(图11B的)版本1517中辨识后的呈英语的经翻译字词的显示。

图12A说明(图7的)告示牌1100的图像1518，其中图像1518中的文本区域1104R1和1102R1过小而不能在OCR中使用。

图12B说明(图7的)告示牌1100的放大版本1519，在一些实施例中，其通过相机的自动放大以获得图像1518中的较大大小的潜在文本区域1104R2和1102R2来捕捉。

具体实施方式

本文中描述的类型的若干操作和动作由移动装置401(图9)中包含的一或多个处理器404实施，所述一或多个处理器能够识别现实世界场景的图像的矩形部分(或块)，接着将每一矩形部分(或块)分段以形成一连串子块且识别每一子块中的字符。因此，移动装置401可包含相机405(图9)以产生现实世界中的场景的图像或视频的帧。移动装置401可进一步包含传感器(例如，加速计、陀螺仪、GPS传感器或类似者)，其可用以辅助确定移动装置401相对于现实世界场景的姿态(包含位置和定向)。

所属领域的技术人员将了解，本文中描述的技术可经调适以识别图像的具有除了矩形之外的形状的部分，和识别其中的字符。虽然本文中描述的各种实例使用梵文本母来说明某些概念，但所属领域的技术人员将了解，这些概念可应用于除了梵文本母之外的语言或手迹。举例来说，本文中描述的实施例可用以识别韩文、中文、日文和/或其它语言中的字符。此外，注意，在以下描述中，有时为方便起见而描述单一处理器，但应理解，可取决于实施例而使用多个处理器。

因此，按照图2中的动作201，一或多个处理器404通常按多个变焦等级(例如，其可预定)获得(例如，从相机405，见图9)现实世界的场景的多个图像。现实世界的场景含有一或多个大小的文本，例如，在告示牌上。其后，处理器404执行操作210以从多个图像中的每一者提取一或多个文本区域。随后，在操作220中，处理器404分析与如从多个图像中的一或多者提取的第一文本区域的一或多个版本中的OCR相关的属性。当属性具有符合第一文本区域的一版本中的光学字符辨识(OCR)的限制的值时，处理器404将第一文本区域的所述版本作为输入提供到OCR。

在执行操作210时，在动作211中，处理器404应用预定方法(例如，MSER)以识别图像中相互连接且在一或多个性质(例如，强度和/或色彩)方面不同于周围像素的像素的区域。上文所描述的类型的区域可由于连接分量和/或最大稳定极值区域或MSER而与现有技术中已知的区域类似或相同。在动作211完成后，将这些区域存储在存储器中。取决于实施例，动作211可包含多个区域(包含一或多个文本区域)的偏斜校正，接着为经偏斜校正的区域中的shiro-rekha检测。在一些实施例中，shiro-rekha的检测后接着为应用群集规则以将shiro-rekha区域与其在轴线(例如，x轴)上的突起重叠的邻近区域合并。

在操作210期间，在动作212中，接收提取的区域中的一者(例如，从存储器)，接着为动作216，其中针对文本的存在测试所述区域，例如，通过检查所述区域是否含有满足针对shiro-rekha的识别的测试(且如果存在，与邻近区域合并)的一行像素。在动作216，取决于实施例，可通过验证子系统馈入所述区域(例如，基于神经网络和/或笔划宽度)。因此，这些实施例的处理器404可经编程以执行软件610(见图9)中包含的第一指令以验证在由相机捕捉的现实世界的场景的图像的区域中的文本的存在(此实施用于确定的方式)。

在动作216中发现符合针对文本的存在的区域级测试(也称为“文本存在”测试)的每一区域接着存储在存储器501中，接着为其在操作220中的使用。具体来说，操作220包含动作222以检查潜在文本区域是否满足针对图像质量的另一区域级测试，它是(例如)基于针对文本的辨识(OCR)指定的准确度的等级所预定。因此，在动作212中接收(从存储器501)通过动作211的执行获得的一或多个文本区域(由像素的列表识别)，且在若干实施例中，在操作220中，满足文本存在测试(在动作216中)的每一区域(由指示文本的像素的对应列表识别)个别地经受局部处于所述区域内的文本图像质量的评估。具体来说，在操作220中的动作222中，处理器404检查区域的属性(例如，由表示所述区域的像素列表中的y坐标中的最大值和最小值界定的边界框的高度)是否大于或等于预设定限制，例如，40个像素。因此，处理器404当用软件610中包含的第二指令编程时，检查已识别为含有文本的区域中的图像质量(此实施用于检查的方式)。

在动作222中的文本图像质量的评估(且将检查的结果存储于存储器501中)后，当结果指示所述区域的属性确实符合动作222中使用的OCR限制时，处理器404执行将所述区域的像素(现在已知为OCR可接受)的列表作为输入提供到OCR的操作230，其接着按正常方式执行自动文本辨识。举例来说，在操作230中，处理器404可调用OCR以识别文本区域中的字词(例如，通过将选定文本区域的块切分成一连串子块，接着使用每一子块形成特征向量，将所述特征向量与一组预定特征向量比较以辨识字符)。因此，在操作230中，当发现区域满足文本存在测试(在动作216)且发现所述区域的属性符合光学字符辨识的限制(在动作222中)时，某些实施例的处理器404执行软件610中包含的第三指令，以将区域作为输入提供到光学字符辨识(OCR)，且将光学字符辨识(OCR)的结果存储在存储器501中。

如果在动作222中发现图像质量对于文本辨识不可接受(例如，如果高度低于对于OCR所需要的像素的最小数目)，那么在动作223中，反馈由处理器404自动产生。随后，在于动作223中产生反馈后，处理器404可获得场景的另一图像(在动作201中)。在动作223中产生的刚描述的反馈可到用户(例如，移动得更靠近正成像的文本的消息，如在图11A和11B中所说明)或到自动控制相机(例如，朝向正成像的文本放大，如在图12A和12B中所说明)的系统(在移动装置401中)。在图11B中，用户已移动更靠近告示牌，足够用于版本1517中的呈印地语的字词的高度h2变得比此字词在图像107(图1)的区域103中的对应高度h1大(例如，按像素的数目测量)。当图像质量可接受时，识别为含有文本的像素的区域经受OCR。可使用OCR的输出(如图11C中所说明)显示信息，例如，当呈印地语的对应的字词和已在如图11B中所展示捕捉的区域的放大版本中辨识时，呈英语的字词“Maruti”和“Suzuki”。

类似地，在图12B中，移动装置401中的反馈已操作其中的自动变焦电路以使告示牌在图像1519中放大得足够用于呈印地语的字词的高度h4变得比此字词在图像1518(图12A)中的对应高度h3大(例如，按像素的数目测量)。注意，场景中的球1121(图12A)或其它特征在图像1519中未成像，所述图像包括含有字词的文本区域(也称为“第一文本区域”)的放大版本，但球1121在包括含有字词的文本区域的较小版本的图像1518中成像。注意，图像1518为一开始由移动装置401捕捉的较小版本，具有对于触发自动变焦电路的操作的OCR来说过小的高度h3的文本，随着变焦增大以捕捉作为图像1519的放大版本，图像接着改变视野。在此操作期间，当视野的改变使文本的一部分消失时，移动装置401可在一些实施例中经配置以通知用户对移动装置401中的相机摇镜头以捕捉可缝合到全景图像以获得放大版本的多个图像，用于在识别文本的具有可接受为到OCR的输入的足够图像质量的区域中使用。

因此，在动作223中，某些实施例的处理器604执行软件610中包含的第四指令以产生反馈(此实施用于反馈的产生的方式)。总而言之，在一些实施例的动作223中，当在动作216中发现区域满足文本存在测试且在动作222中发现区域的属性不符合光学字符辨识的限制时，处理器604产生指示对于相机405捕捉包含文本的新图像的需求(例如，以便获得具有相对于不所述OCR限制的区域的属性改善的属性的对应区域)的反馈信号。如在图2由分支224说明，在捕捉场景的多个图像(例如，处于不同分辨率、景深、视野等)且将其存储在存储器中的某些实施例中，可通过直接进入动作201(上文所描述)来跳过动作223。

因此，在选取分支224时，当发现区域满足文本存在测试(在动作216中)且发现区域的属性不符合光学字符辨识的限制(在动作222中)时，某些实施例的处理器604执行软件610中包含的第四指令，以对多个新区域中的一个新区域重复动作216中的确定、动作222中的检查和动作223中的执行。

在于文本区域中辨识了一连串字符(例如，在操作230中)且将辨识的结果存储在存储器501后，处理器404可在动作240中检查是否已按以上描述的方式(例如，动作216，和操作220和230)处理从图像提取的所有区域，且如果未返回到动作212来接收文本的存在经测试的另一区域，那么接着为评估文本质量，接着为文本辨识。在文本辨识后，可按正常方式使用所述结果。具体来说，在操作250中，在操作230中的文本辨识的结果由处理器404用以在屏幕407上显示经辨识的文本或通过使用经辨识的文本获得的任何其它信息。

在图2中说明的类型的一些实施例中，可按循环反复地执行动作212、216及操作220、230和240。因此，独立于在循环的另一反复中类似地处理的任一其它区域，在循环的一个反复中辨识(OCR处理)一个区域中的像素的坐标列表。鉴于此描述，如将易于对所属领域的技术人员显而易见，可展开此循环，且可独立地处理每一区域(例如，在处理器的单独核心中或在单独的处理器中)。

在一些实施例中的一或多个处理器404可经编程以如下执行图3A中说明的类型的许多动作或步骤。具体来说，可通过如下执行动作211、212和216来实施操作210(图2)。在动作211中，图像(例如，图像107)的一部分可由此处理器404使用从图像107识别在一或多个性质方面(例如，强度和/或色彩)不同于周围像素的一或多个区域(也称为“二进制大对象”)的任一方法来识别。上文所描述的类型的区域可由于连接分量和/或最大稳定极值区域或MSER而与现有技术中已知的区域类似或相同。

所述区域通常通过处理器404识别紧紧拟合通过使用识别MSER或识别连接分量的任一已知方法识别的区域的边界框而识别为矩形部分，例如，图1中的区域103。紧紧拟合的边界框可由处理器404以正常方式使用此区域的最大和最小坐标来识别。边界框可接着由处理器404用以计算局部地在区域内的偏斜的指示符。一或多个此类偏斜指示符可由处理器404使用(在动作213中)以确定在图像107全部中的全局偏斜的存在，接着为校正偏斜(如果存在)。

其后，在动作214中，一些实施例通过应用确定文本的存在的一或多个测试识别有可能为文本的一或多个矩形区域。举例来说，在动作214中，处理器404可检查在矩形区域的顶部三分之一内的一行像素的存在(其可指示呈梵文本母文本的shiro-rekha的存在)。因此，在一些实施例中，动作214可检查在像素强度的直方图中的顶峰的顶部三分之一中的存在，例如，通过识别矩形区域的所有行上的含有最大数目个二进制化到值1的像素的行。

随后，在动作215(图3A)中，两个或两个以上区域可由处理器404基于几何形状的测试而群集(例如，当在轴线(例如，x轴)上的两个区域的突起重叠且两个区域相互邻近、在其间无其它插入的区域时)。刚描述的群集使各种修饰语(例如，上maatra和/或下maatra)能够与由修饰语修改的特定字符包含在一起(例如，通过附加到其)。其后，处理器404执行动作216(图3A)以将区域(不管是否合并)分类为文本或非文本，例如，通过使用神经网络和/或基于笔划宽度，这可实施于图4A中说明的类型的文本验证块250中。

在一些实施例中，通过多次计算笔划宽度(字符中)且检查其方差，将验证区域329(图3B)为文本的动作216实施于文本验证块250中，如由图3C中的动作331-335所说明。图3B说明笔划宽度的确定，其是通过选择区域329(通过使用(例如)MSER来识别)内的固定数目个点(例如，3个点)且计算预定数目个方向(例如，4个方向)中的每一者上的区域329的尺寸，接着为选择计算的最小尺寸(例如，在4个方向当中)作为笔划宽度。在一些实施例中的笔划宽度的特定方式由接下来描述的图3C的方法说明。

具体来说，在一些说明性实施例中，处理器404执行动作331到333(图3C)以计算笔划宽度，如下。在动作331中，移动装置401选择区域329(图3B)内部的N个点，例如，点321。接下来，在动作332中，移动装置401计算在所述N个点中的每一者的笔划的宽度。举例来说，在点321，处理器404计算四条射线321A、321B、321C和321D的长度，且接着使用最短射线321B的长度作为在点321处的笔划的宽度。接着，在动作333中，移动装置401计算用于区域329的N个这些笔划宽度的平均值。最后，在动作334中，移动装置401计算N个笔划宽度的标准差和/或方差(从平均值)。接着，在动作335中，移动装置401检查方差是否小于预定阈值，且如果是，那么已验证区域作为文本的分类。

一些实施例的操作220(图3A)由包含选择器310以选择两个输入中的一者的文本图像质量反馈模块300(图3D)实施，其中第一输入来自文本验证块250(见图3B)，且第二输入来自自动校正伪影的系统(在移动装置401中)。一开始，第一输入由接收同一区域的两个版本(即，灰度级版本和二进制化版本)的选择器310选择。当区域由伪影分类器320发现不具有假影时，将文本区域的二进制化版本供应到OCR模块330用于在其中的文本辨识。然而，如果文本区域由伪影分类器320发现具有一些伪影(如由图3F中展示的表中的行说明)，那么产生到用户或到操作相机的系统(在移动装置401中)的反馈。伪影分类器320可实施为神经网络，对可由OCR接受或不可由OCR接受的区域的一或多个属性训练。

在一些实施例中，文本图像质量反馈模块300(图3D)包含文本图像质量参数提取器350(图3E)，其提取指示局部地在区域内的图像的质量(例如，区域的高度)。这些实施例的文本图像质量反馈模块300也包含伪影分类器320，其使用由文本图像质量参数提取器350产生的参数值且又产生在图3F中展示的表中说明的类型的适当反馈。可产生自动聚焦和/或自动曝光统计，如在(例如)以引用的方式全部并入本文中的http://omappedia.org/wiki/Camera-ISP_Driver处所描述。此外，可使用去模糊算法，如在(例如)以引用的方式全部并入本文中的以下论文中所描述：A.莱文、R.费格斯、F.杜兰德和W.T.弗里曼，“使用自然图像先验信息的反卷积(Deconvolution using natural imagepriors)”，ACM SIGGRAPH，2007。

在若干说明性实施例中，发现由图3D的文本区域提取器290(其执行上文所描述的操作210)提取的文本区域在尺寸上过小而不能由移动装置401的文本辨识子系统恰当地辨识。举例来说，在一些实施例中，移动装置401具有对于将经受辨识的文本区域的40个像素高度的下限，且具有低于此限制的高度的图像区域导致不良性能。因此，图3D的伪影分类器320可确定公告牌1100(图7)上的区域1102和1104将被重新成像(例如，归因于高度小于40个像素)。

在一些此类实施例中，伪影分类器320可产生到用户的反馈消息，要求用户移动得更靠近文本。在其它这些实施例中，伪影分类器320可产生自动操作相机以放大到公告牌1100(图7)的信号。变焦的量可由此伪影分类器320基于按比例扩大文本区域的当前高度以达到预定数目个像素(例如，如果文本高度为30个像素，那么按1.34倍按比例扩大达到40个像素高度)来自动计算，且此按比例扩大因数用以放大(但注意，视野减小了)。当在自动变焦距(例如，以捕捉区域1104)后先前存在的文本区域(例如，区域1101)不再存在于图像中后，接着一些实施例的伪影分类器320另外产生到用户的反馈以身体移动得更靠近图像。在一些实施例中，从不同图像提取的文本区域用在一起，以辨识场景(图7)中的文本，所述场景在响应于伪影分类器320的一或多个反馈获得的图像上是共用的。

在操作220(图3A)的执行后，执行操作230(由OCR模块330)以按照出自动作221(图3A)的“是”分支辨识文本区域中的文本。具体来说，处理器404以正常方式从此文本区域获得一连串子块，例如，通过操作231(图3A)中的细分(或切分)。可使用任何已知方法(例如，基于文本区域的高度和字符的预定纵横比，和/或基于在识别为形成MSER区域的像素的边界外但在文本区域内的空间的出现)从区域切分子块。在动作231(图3A)中的切分的结果为一连串子块，且每一子块(或块的切片)接着经受光学字符辨识(OCR)，如下所描述。

具体来说，在动作232(图3A)中，处理器404针对文本区域的每一子块(或切片)形成特征向量，接着为动作233。取决于实施例，在动作232中形成的特定特征向量可不同。在动作233中，处理器404通过与预定字母表的字母的对应的特征向量相比，对进行解码特征向量以识别一或多个字符(例如，用于每一子块的替代字符，伴有每一字符的概率)。随后，在动作234中，处理器404使用识别的字符的一或多个序列与字符序列的存储库，以识别经识别为存在于文本区域中的字词且将其存储于存储器(和/或屏幕上的显示器)中。

如在接下来描述的图4A和4B中的一或多者中所说明来实施移动装置401的若干实施例。在若干实施例中，移动装置401包含在存储器501中的软件610中的多个指令，所述指令当由处理器404执行时实施文本区域提取器611，例如，通过执行操作410(图4A)，其中从图像提取一或多个区域，例如，基于图像中的像素的强度的变化，接着为操作420、430、440、450、452和460，如下所描述。在操作410中，在集合(其可实施为列表)中识别图像中的像素，所述集合又识别包含图像中的强度的局部极值(例如，局部最大值或局部最小值)的区域Q_i。此区域Q_i可在操作510中识别为相对于在范围i-Δ到i+Δ中的一或多个强度最大限度地稳定，每一强度ⅰ被用作与区域Q_i中包含的多个像素的强度比较的阈值(其中Δ为输入到MSER方法的参数)，以识别各别区域Q_i-Δ和Q_i+Δ。

可通过使用任一MSER方法在操作410(图4A)中识别此区域(其可构成“连接组件”)，例如，如在以引用的方式全部并入本文中的J.马塔斯、O.查姆、M.乌本和T.帕亚德拉的题目为“来自最大稳定极值区域的稳固宽基线立体声(Robust Wide BaselineStereo from Maximally Stable Extremal Regions)”的论文(BMVC 2002，第10页)中所描述。可使用其它方法执行在操作510中的连接组件分析和区域的识别，例如，如在以引用的方式全部并入本文中的申炫景和申重尚的题目为“弗洛伊德-沃肖尔标记技术的应用：二值图像中的连接像素组件的识别(Application of Floyd-Warshall LabellingTechnique:Identification of Connected Pixel Components In Binary Image)”的论文(在Kangweon-Kyungki数学期刊发布，14(2006)，第1期，第47到55页)中所描述，或如在以引用的方式全部并入本文中的朴正美、卡尔G.鲁尼和陈慧娟的题目为“使用分治技术的快速连接组件标记算法(Fast Connected Component Labeling Algorithm Using ADivide and Conquer Technique)”的论文(矩阵(Matrix)(2000)发布，卷号：4，期号：1，出版商：埃尔塞维尔有限公司，第4到7页)中所描述。

在识别了图像中的一或多个区域后，一些实施例的移动装置401中的文本区域提取器611在操作420(见图4A)中执行偏斜存在检测，接着为偏斜校正。在于操作460(下文描述)中将像素分类成文本或非文本前执行操作420。此外，在相互邻近的区域的合并(例如，在操作440中)前，且还在二进制化(例如，在操作450中)前，执行操作420。在操作420期间，移动装置401计算在特定区域中局部的偏斜的指示符的值。处理器404的一些实施例针对每一区域Q_i计算偏斜的指示符的值，其通过使用(a)紧紧地拟合区域Q_i的矩形的面积(也称为“最小限界矩形”)，和(b)区域Q_i中的像素的计数以获得度量M_i，其可用以确定区域i的偏斜。在若干这些实施例中，将度量M_i与阈值t1比较以确定区域Q_i中的偏斜是否可接受(例如，当区域的偏斜角度大于±5度时，不可接受)，由此以获得每一区域Q_i中的偏斜的二元值指示符。在其它这些实施例中，直接使用度量M_i，作为每一区域i中的偏斜的实值指示符。

在操作420中针对每一区域计算的偏斜的指示符的值个别地(针对每一区域)或按集合(跨多个区域)存储在存储器501中的特定位置处。每当将区域标记为偏斜存在时，移动装置401的一些实施例在存储器501中增加针对整个图像的偏斜计数。其它实施例在存储器中将每一区域个别地地标注为偏斜存在或偏斜不存在。在此阶段(例如，在操作420中)并不知晓由所述区域形成的特征是否为文本或非文本，虽然正针对所述区域确定偏斜的指示符的值。在若干方面中，移动装置401应用预定测试到针对图像中的多个区域分别地计算的偏斜的指示符(和/或偏斜的度量)的多个值，且所述多个值用以确定总体上在图像中是否全局存在偏斜。操作420的某些实施例可使用统计方法计算多个值的平均值或中值，接着为过滤多个值当中的离群值，接着为重新计算经过滤的值的平均值或中值，且与阈值(例如，大于±5度)比较以确定图像中的偏斜是否总体上可接受。

在操作420后，当发现跨图像的多个区域的偏斜可接受时，一些实施例的移动装置401中的文本区域提取器611执行检查共用二进制值的一行像素的存在的操作430(图4A)，且其后，当区域中的一者满足针对行存在的测试(在操作530中)时，执行使用预定规则合并相互邻近的区域的操作440。操作440后接着为在二进制化模块中的操作450，其二进制化从操作540产生的区域(经合并或未合并)的限界框。

操作450后接着为在文本区域提取器611中的操作452(图4A)以验证共用二进制值的一行像素存在于区域(不管是否合并)的经二进制化块中，接着为操作460(图4A)以将经二进制化的块分类为文本或非文本(例如，通过使用神经网络和/或基于笔划宽度的方差)。操作452可不同地实施于文本区域提取器611的不同实施例中的验证模块中。在操作460中的分类后，经分类为文本的一或多个块由文本区域提取器611供应到选择器310，在图3D中所说明。

图像的区域中的文本的字词的辨识在一些实施例中由接下来描述的图4B中说明的类型的OCR模块330执行。具体来说，移动装置401的若干实施例包含实施执行本文中描述的类型的方法的逻辑的模块621、622、623、624、625、628和629(图4B)。这些模块可实施于硬件中或由处理器604执行的软件中或按其组合实施，如下关于图4B所描述。具体来说，一些实施例的移动装置401包含模块622(图4B)中的字符分段逻辑，其基于移动装置401的存储器501中的模块621中的语言特定规则切分文本区域的块(其中块由其边界框识别)。

将由模块622产生的一连串子块输入到模块623(图4B)中的特征表示逻辑，所述特征表示逻辑针对序列中的每一块准备N个元素的特征向量。取决于实施例，任何类型的特征向量可由模块623用以表示每一子块(含有指示将经OCR处理的文本的字符的像素，包含shiro-rekha和可如图4B中针对字母所示的任一上maatra)中的像素。

一些实施例可将含有字符的像素的每一子块细分成预定数目个子子块，例如，2×2或4个子子块、4×4或16个子子块或甚至5×4或20个子子块。接着，针对一特征向量形成两个尺寸以保持在沿着子块的每一子子块中的像素行的水平方向(例如，从左到右)上的黑到白和白到黑转变的计数，且针对所述特征向量形成两个额外尺寸以保持在沿着子块的一列的垂直方向(例如，从底部到顶部)上的黑到白和白到黑转变的计数。

取决于实施例，可包含于此特征向量中的额外计数为像素的强度值的改变不存在的计数。举例来说，这些额外计数可跟踪在沿着子块中的像素行的水平方向(例如，从左到右)上的黑到黑(即，无改变)强度值的出现数目和白到白(也无改变)强度值的出现数目。类似地，在沿着子块中的像素列的垂直方向(例如，从顶部到底部)上的黑到黑强度值的出现数目和白到白(也无改变)强度值的出现数目。

由模块623形成的一或多个特征向量可在一些实施例中用以识别在同一场景的对应的多个图像中(例如，在图12A中的图像1518中和在图12B中的图像1519中)的特定文本区域(例如，在图12A中的告示牌1100上含有字词的文本区域1102)的多个版本。因为图12A中的图像1518中的字词具有不同于图12B中的图像1519中的同一字词的高度h4的高度h3，所以用以使跨图像的文本区域相关的特征向量比例不变。

在执行此相关(例如，使用图像中的关键点位置和/或地图点位置)的移动装置401的若干实施例中，当属性具有不符合第一文本区域的版本中的光学字符辨识(OCR)的限制的值时，移动装置401可自动分析从本文中描述的类型的同时或连续捕捉的图像提取的第一文本区域的额外版本。此外，移动装置401的某些实施例分析与如从一或多个图像提取的第二文本区域的一或多个版本中的OCR相关的属性，且当所述属性具有符合特定图像中的第二文本区域的版本中的光学字符辨识(OCR)的限制的值时，移动装置401将从特定图像提取的第二文本区域作为输入提供到OCR。此过程可针对从多个图像提取的文本的一或多个额外区域而继续，直到已将识别的文本区域中的每一者的版本输入到OCR，用于辨识其中含有的文本。在若干这些实施例中，此移动装置401可另外或替代地输出在第一文本区域中和在第二文本区域中辨识的文本。

将由一些实施例的模块623形成的特征向量输入到多级字符解码器624(图4B)，所述解码器产生作为对彼此的替代的一群字符，作为其输出，任选地，针对所述群组中的每一字符的置信度量作为表示特定子块中的文本的字符。在以下描述的类型的一些实施例中，多级字符解码器624包含在一组预定特征向量当中搜索针对每一经识别的字符的已知不正确地彼此识别的一组对应的字符(叫作“混淆集”，其包含经识别的字符)的第一级和搜索所述对应的字符的第二级。刚描述的预定特征向量的集合和刚描述的混淆集存储在数据库中，作为由多级字符解码器624在两个级中使用的信息628的两个部分。取决于实施例，刚描述的信息的任一或两个部分可由来自字词解码器625的反馈改变。

在若干实施例中，信息628包含其叶节点保持特征向量的树，作为在第一级中使用的第一部分，且使所述树穿越第一级，例如，通过使用欧几里得距离将子块的特征向量与在一或多个中间节点处的对应的特征向量比较，以识别特定叶节点。在某些实施例中，树中的叶节点包含表示字符的特征向量的平均值(例如，在通常出现的字符的不同字体中的多个形状上的平均值)，以及经选择用于表示字符的特征向量当中的离群值的一或多个特征向量。在一些实施例中，信息628包含识别已知足以在混淆集中的字符之间区分的特征向量的元素的一组权数，作为在第二级中使用的第二部分。将由多级字符解码器624针对对应的子块识别的每一群字符输入到字词解码器625(图4B)，所述解码器针对文本区域的块中的所有子块收集这些群组，且接着输出已从词典629选择的字词。一些实施例的词典629保持已通过去除重音标记获得(例如，从现有技术词典)的一组预定字词和/或一连串预定字符。

图5A以高阶数据流图说明通过离线计算进行的图3D中说明的类型的伪影分类器的训练，以确定使辨识性能最大化的文本大小。具体来说，在设计时间期间使用图3E的文本图像质量参数提取器350，以提取样本图像中的区域的高度(或文本大小)。此外，在设计时间期间使用OCR模块330，以对样本图像的同一区域执行文本辨识。OCR模块330的输出由逻辑511(其可实施为硬件或软件或组合)与地面实况(其识别用以创建样本图像的区域中的文本的特定字词)比较，以确定辨识准确度。辨识准确度和高度(或文本大小)由逻辑512用以识别OCR的限制(在区域级)。其后，在运行时间期间，如图5B中所说明，由逻辑512产生的限制在逻辑515中用以确定所述区域是否将输入到OCR(按照上文所描述的动作222)。

图6A以高阶数据流图说明在图2中说明的类型的单一图像(在一些实施例中)的两个不同潜在文本区域中识别的两个不同假影。具体来说，在一些实施例中，伪影分类器681(图6A)接收由文本验证块250识别为含有文本的像素的区域。接收到的文本的区域由伪影分类器681(图6A)评估，其检查所述区域是否符合关于模糊的限制，且进一步检查所述区域是否符合关于文本大小的限制。举例来说，如图6B中所说明，一些实施例的伪影分类器681在动作662中检查接收到的区域的高度是否小于限制，且当发现接收到的区域的大小过小时，反馈由反馈模块612U(图6A)提供(按照图6B中的动作672)到用户，例如，要求用户放大或移动得更靠近目标。伪影分类器681在动作663(图6B)中进一步检查接收到的文本的区域是否模糊，且当发现所述区域具有模糊时，反馈由反馈模块612S(图6A)提供(按照图6B中的动作673)到系统(在移动装置401中)以操作模块683(见图6A；也在移动装置401中)以增强所述区域中的图像，例如，通过使用去模糊方法改变接收到的区域中的像素的强度，任选地，接着为如上所述的OCR模块330中的文本辨识。

一些实施例的伪影分类器681在动作664(图6B)中另外检查文本是否具有不良对比度，且当发现所述区域具有不良对比度时，反馈由反馈模块612S(图6A)提供(按照图6B中的动作674)到移动装置401中的系统以操作模块683以增强所述区域中的图像，例如，通过改变所述区域中的像素的强度以改善对比度，任选地，接着为OCR模块330中的文本辨识。伪影分类器681可在动作665(图6B)中进一步检查接收到的文本的区域曝光过度还是曝光不足，且当发现所述区域不具有恰当曝光时，反馈由反馈模块612S(图6A)提供(按照图6B中的动作675)到系统以操作模块683以通过改善其曝光来增强所述区域中的图像，任选地，接着为OCR模块330中的文本辨识。

虽然在一些实施例中单一伪影分类器681执行动作662到665中的每一者(使得伪影分类器681自身能够在一种情况下将伪影识别为模糊且在另一情况下识别小文本大小，且提供适当反馈)，但在其它实施例中，图6B的动作可在多个伪影分类器中执行。举例来说，如图6A中所说明，伪影分类器681和682(皆实施在移动装置401中)可分别识别模糊和小文本大小的两个问题。因此，鉴于此描述应易于显而易见，取决于实施例，可使用任何数目个伪影分类器，且这些伪影分类器可相互并行地或依序或按其任何组合操作。

一些所描述实施例的移动装置401包含如下使用相同文本的多个图像改善文本辨识的一或多个块(以硬件或软件或其任何组合实施)。具体来说，一些实施例的移动装置401包含多图像捕捉块801(图8A)，其与相机405互操作以从那里获取现实世界的场景的不同分辨率(例如，在不同变焦等级下)的多个图像。现实世界场景可具有不同大小的文本，例如，在图7中说明的告示牌上，所述告示牌具有不同大小的文本区域1101、1102、1103和1104。这些文本区域由从多图像捕捉块801接收现实世界场景的多个图像的提取块802在移动装置401中自动提取。

移动装置401也包含从提取块802接收文本区域中的一或多者的分析块803。分析块803分析与从多个图像中的一者提取(由提取块802)的第一文本区域的版本的OCR(例如，高度)相关的属性。移动装置401也包含决策块804，所述决策块自动检查所述属性(由分析块803分析)是否具有符合OCR的预定限值的值，例如，文本区域的高度是否大于40个像素。

当决策块804中的回答为是时，移动装置401操作文本辨识块805以识别文本区域中的字词。移动装置401包含另一决策块806，以检查是否已辨识所有文本区域。当回答为否时，移动装置401在另一分析块807中分析从多个图像中的一者提取的额外文本区域的版本，接着返回到决策块804(上文所描述)。在决策块804中，当回答为否时，移动装置401操作再一决策块809以检查是否已分析所有版本，且如果否，那么再次操作分析块803(上文所描述)。

当决策块809中的回答为是时，移动装置401任选地操作反馈模块810，接着在具有或无反馈的情况下操作块801。反馈模块810当经操作时在图12A和12B(以下描述)中说明的类型的移动装置401(在一些实施例中)的系统内部产生反馈信号。因此，在一些实施例中，反馈完全在系统内部，对多图像捕捉块801而言，这可识别可动态计算(例如，如在图10A到10D(以下描述)中所说明)或预定的一或多个变焦等级。在其中一或多个变焦等级是预定的实施例中，多图像捕捉块801可操作相机405以连续地、一个接一个地自动(且不通知用户)捕捉在一连串对应的分辨率(或变焦等级)下的一连串图像。在其中变焦等级经动态计算地实施例中，多图像捕捉块801可操作相机405以当场景的一或多个捕捉的图像具有不符合OCR的限制的文本区域时，获得额外图像。替代地或另外，取决于实施例，可使用反馈信号明确地通知用户，例如，通过对用户播放音频消息或显示视觉消息，例如，如在图11A和11B(以下描述)中所说明。当决策块806中的回答为是时，移动装置401操作输出块808，以识别场景中的通过使用场景的多个图像辨识的不同大小的文本的字词。

图8B中说明的类型的某些实施例包含块824，其接连地自动捕捉场景的图像的初始集合(例如，10个图像)，例如，连续地一个接一个，同时以在一些实施例中类似于用于捕捉动作序列的突发模式的方式自动改变(例如，增大)放大的等级。在此初始集合中的图像存储于移动装置401的存储器501中，且经由选择个别图像处理的选择器310可用(例如，一开始场景的第一图像，且随后，同一场景的第二图像，两者皆按相对于彼此的不同分辨率捕捉于图像的初始集合中)。由选择器310选择的图像经传递到提取有可能为不同大小的文本(例如，在图7中的海报1100中)的一或多个区域的文本区域提取器611，文本区域1102小于文本区域1101，文本区域1101又小于文本区域1103。

潜在文本区域由文本区域提取器611供应到图4A中说明的类型的文本验证块250(上文所描述)，所述文本验证块测试文本的存在(例如，使用神经网络)。针对在由移动装置401中的处理器404执行的动作222(以上关于图2所描述)中的特定属性检查已知为由文本验证块250输出的文本的区域。以正常方式将具有符合限制的特定属性的区域供应到OCR模块330。当动作222发现一或多个区域不具有符合限制的属性时，接着反馈模块612在移动装置401内产生内部反馈信号，所述内部反馈信号识别图像质量对于OCR不足够的一或多个区域(例如，具有图像中的小文本的区域的位置)，和其大小。来自反馈模块612的此内部反馈信号在一些实施例中用以自动检索来自在一些实施例的块824中按不同分辨率捕捉的多个图像的初始集合的另一图像，且可为选择器310(上文所描述)所用。

在一些实施例中按不同分辨率捕捉多个图像的初始集合消除了对另外重新选取一或多个这些图像(自动或手动)以仅响应于发现在所捕捉图像中的一或多个文本区域恰好过小而不能经受OCR来放大文本区域的大小的需求。取而代之，通过预先捕捉预定数目(例如，10)个图像，随后使较高解析度的一或多个图像可用，例如，当需要较大高度的文本区域用于OCR时。举例来说，一捕捉到一个图像，就也可以按增大分辨率连续地捕捉九个额外图像，以便捕捉在对应增大大小下的文本区域(如果仍在视野内)。

取决于实施例，当图像中的文本的辨识成功地完成时，可抛弃在此集合中的一或多个多分辨率图像(同时保留所述集合中一开始由用户选取的图像)，以便使移动装置401中的存储器501可用于存储下一组图像(一捕捉到一个图像，就可在突发模式中在多个分辨率下捕捉自动捕捉所述一组图像)。在一些实施例中，每当用户操作移动装置401中的相机405时，在预定数目个变焦等级下自动捕捉预定数目个图像，而不使用户意识到捕捉到了多个图像，例如，响应于单一用户输入(例如，移动装置401上的单一按钮按压，以操作其中的相机)。

因此，本文中描述的类型的电子装置和方法检查图像的区域是否具有符合用于所述区域中的文本的辨识的限制(例如，由电子装置和方法中的OCR的实施方案强加)的属性(例如，高度)。具体来说，在若干实施例中，由电子装置和方法施加的限制处于区域的级别，即，正检查区域的属性，且因此在这些实施例中，限制也可叫作区域级限制。在以上提到的实例中，区域可能需要在高度上为至少40个像素，以使按足够的准确度来辨识所述区域中的一连串字符。对区域的属性的限制取决于电子装置和方法中的OCR的特定实施方案，和可指定的准确度等级(例如，90％准确度)。对电子装置和方法的在一实施例中所需的区域的高度的限制可凭经验预定，例如，通过按目标用于辨识的特定语言(例如，印地语)对字词(其中的每一者具有单一字符的高度)的图像中的区域重复使用电子装置和方法。

当区域符合针对文本的存在的测试时且当所述区域的属性满足对其的限制时，本文中描述的类型的电子装置和方法可将所述区域作为输入提供到OCR模块330，接着为在存储器501中存储光学字符辨识的结果(例如，经辨识为存在于区域中的一或多个字词，任选地，按指示辨识中的可信度的概率)。其后可按正常方式使用此结果，例如，以将在图像中辨识的印地语文本的字词翻译成英语(例如，如图11C中所说明)。

当图像的区域符合针对文本的存在的测试但区域的属性不满足对其的限制时，本文中描述的类型的电子装置和方法可经配置以取决于实施例，执行各种动作。一些实施例对含有对应于特定区域的区域的额外图像重复以上描述的动作中的一或多者。额外图像可为现实世界中的同一场景的捕捉的且具有针对对应的区域的属性(例如，高度)的不同值的多个这些图像中的一者。具体来说，如上所指出，一些实施例预先、在捕捉单一图像的同时、在于图像内识别任何区域前和在已知任何区域不够(以任一方式)输入到OCR前捕捉现实世界的场景的预定数目个图像(例如，10个图像)的集合。按增大的变焦等级捕捉一组图像实现在所述集合中的较早所捕捉图像中的对于OCR过小的文本区域的OCR，以通过对所述集合中的稍后捕捉的图像中的这些相同文本区域的放大版本执行OCR来仍经受OCR。一开始一组图像(而非单一图像)的捕捉消除了在发现文本区域过小而不能输入到OCR后重新选取图像的需求。另外，一开始在含有多个文本大小的集合中选取多个图像允许这些实施例辨识/OCR文本的不同大小的区域，接着为跨图像的第一文本区域的内部相关，接着为对用户呈现经辨识的文本，而不需要选取额外图像以便辨识文本。

如上所指出，某些实施例可产生指示捕捉含有特定区域的另一图像的需求的反馈信号，以改善区域的属性以便符合OCR的限制。反馈信号可由电子装置和方法用以自动操作相机(例如，变焦到同一场景)以获得额外图像，或提示用户(例如，通过在屏幕上显示消息，或通过播放音频消息)操作相机以获得额外图像。

因此，若干实施例提供基于图像质量的反馈，以用于改善在相机捕捉的图像的个别区域中的文本的辨识。针对个别区域的此反馈消除了从相机捕捉的文本图像的低质量引起的问题，所述问题导致在一些区域(例如，图7中的1102和1104)中的不良文本辨识对在同一图像(例如，告示牌1100的图像)的其它区域(例如，图7中的1101和1103)中的良好文本辨识。更具体言之，基于图像中的文本区域的图像质量，到用户(见图11A和11B)或上文所描述的类型的系统(见图12A和12B)的反馈导致合适的控制动作以改善识别为文本的区域中的图像质量，这又改善了辨识性能。因此，若干实施例使用可帮助改善相机图像中的文本辨识的机制来将反馈提供到用户或系统。这些实施例可包含以下各者中的一或多者：1)确定对图像中抑制文本辨识的伪影敏感的特征，2)识别因建置伪影分类器而造成不良辨识的伪影类型，3)取决于伪影类型，将反馈提供到用户或系统。到用户的反馈包含可由用户采取的一组推荐动作。到系统的反馈包含用于图像增强、接着为辨识的指令。这些实施例显得具有以下益处：通过提供对各种成像条件的进一步稳固性来改善用户体验，且图像质量反馈有助于实现在现实世界情境的较宽范围中的文本辨识。

一些实施例的执行图2、3A、3D、10A、10B和10C中展示的类型的方法的移动装置401(图9)可为任何手持式装置，例如，智能电话，其包含上文所描述的类型的相机405(图9)以产生现实世界场景的图像，所述图像接着经处理以识别其中的梵文本母的任何字符。如上所指出，移动装置401可进一步包含提供关于移动装置401的移动的信息的传感器406，例如，加速计、陀螺仪、指南针或类似者。移动装置401可以正常方式使用加速计和指南针和/或其它传感器感测倾斜和/或转向，以辅助处理器404确定在移动装置401中捕捉的图像中的预定符号的定向和位置。替代传感器406，或除了所述传感器之外，移动装置401也可使用来自相机405的图像以辅助处理器404确定移动装置401相对于正成像的预定符号的定向和位置。

并且，移动装置401可另外包含以正常方式使用的图形引擎1004和图像处理器1005。移动装置401可任选地包含OCR模块330(例如，由执行存储器501中的软件610的一或多个处理器404实施)以识别如由OCR模块330输入的所接收的块中的文本的字符(当其中的软件由处理器404执行时)。

除了存储器501以外，移动装置401也可包含一或多个其它类型的存储器，例如，快闪存储器(或SD卡)1008和/或硬盘和/或光盘(也称为“辅助存储器”)，以存储用于载入到存储器501(也称为“主存储器”)中的和/或用于由处理器404使用的数据和/或软件。移动装置401可进一步包含在收发器1010和/或任何其它通信接口1009中的无线发射器和接收器。应理解，移动装置401可为任何便携式电子装置，例如，蜂窝式或其它无线通信装置、个人通信系统(PCS)装置、个人导航装置(PND)、个人信息管理器(PIM)、个人数字助理(PDA)、膝上型计算机、相机、智能电话、平板计算机(例如，购自苹果公司的iPad)或能够产生扩增实境(AR)环境的其它合适的移动平台。

上文所描述的类型的移动装置401可包含其它位置确定方法，例如，使用“计算机视觉”技术的对象辨识。移动装置401还可包含用于响应于移动装置401上的用户输入(例如，通过使用收发器1010中的发射器)而远程控制现实世界对象(其可为玩具)的装置，所述发射器可为经启用以经由一或多个类型的无线通信网络(例如，因特网、WiFi、蜂窝式无线网络或其它网路)来发射一或多个信号的IR或RF发射器或无线发射器。移动装置401可进一步在用户接口中包含麦克风和扬声器(未标记)。当然，移动装置401可包含与本发明无关的其它元件，例如，可用以存储供处理器404使用的固件的只读存储器1007。

并且，取决于实施例，在操作OCR模块330以识别(例如)图像中的梵文字母字母表的字符的实施方案中，移动装置401可检测图像中的文本的字符。任何一或多个字符解码器、词典和反馈模块可以软件(由一或多个处理器或处理器核心执行)或以硬件或以固件或按其任何组合实施。

在移动装置401的一些实施例中，以上描述的OCR模块330中的功能性通过处理器404执行移动装置401的存储器501中的软件610来实施，但在其它实施例中，此功能性实施在移动装置401中的硬件电路和/或固件和/或软件的任何组合中。因此，取决于实施例，本文中描述的类型的各种功能可以软件(由一或多个处理器或处理器核心执行)或以专用硬件电路或以固件或按其任何组合实施。

移动装置401的一些实施例包含处理器404，其执行存储器501中的软件610以执行图10A的动作1401到1407、图10B的动作1411到1421和图10C的动作1431到1435。具体来说，在动作1401中，处理器404提取图像中的潜在文本区域，连同其位置(例如，使用MSER--接着使用群集规则)。接着，在动作1402中，处理器404验证文本区域是否含有文本(使用shiro-rekha测试和神经网络分类器)，且初始化list_of_images_to_be_zoomed作为空列表，且设定i＝0。接着，在动作1403中，处理器404进入循环(对于每一经验证的文本区域)，以如下执行动作1404到1407。在动作1404中，处理器404检查是否text_region_height>阈值，且如果回答为是，那么在动作1406中执行OCR，接着为动作1407以检查是否可终止for循环，且如果不，那么返回到动作1403。当在动作1404中回答为否时，接着处理器404计算zoom_level[i]＝阈值/text_region_height，且将text_region_location[i]和zoom_level[i]存储在list_of_images_to_be_zoomed中，且接着增加i＝i+1。接着，处理器404转到动作1407。在动作1407中，如果回答为是，那么处理器404转到图10B中展示的方法。

在图10B的方法中，处理器404经编程以按降序对关于变焦等级的图10A的方法的列表排序，且识别在相机视野中的保留来自此列表的所有文本区域的最大变焦等级(Z)。此最大变焦等级(Z)可其后用以捕捉一或多个图像，用于在将经受OCR的文本区域的提取中使用。具体来说，在动作1411中，处理器404设定zoom_level_found＝假，接着在动作1412中进入外循环，将ⅰ用作从i＝1到sorted_list_of_images_to_be_zoomed的长度的循环变量。接下来，在动作1413中，处理器404设定number_of_images_within_field_of_view＝0，接着在动作1414中进入内循环，将j用作从j＝1到list_of_images_to_be_zoomed的长度的循环变量。

其后，在动作1415中，处理器404检查文本的区域的x坐标是否大于w/zoom_level，或区域的y坐标是否大于h/zoom_level，其中w为区域的宽度且h为区域1410的高度，如图10D中所说明。一些实施例的在动作1415中检查的x坐标为区域的“极值”x坐标(例如，在区域中的像素的一列坐标中的x坐标当中的最大值(在正x方向上)或最小值(在负x方向上))。使用极值x坐标或最远x坐标解决了区域的中心处于视野内但不在极值x坐标内的情形。类似地，检查的y坐标也为区域中的像素的所述一列坐标中的y坐标当中的最大值或最小值。注意，在一些实施例中，关于原始图像的中心，测量文本区域的位置。并且，注意，取决于文本区域处于原始图像的右半边还是左半边，极值可指极右或极左。

如果动作1415中的回答为是，那么处理器404转到动作1418，以检查视野中的图像的数目是否等于待变焦的图像的列表的长度(例如，由伪影分类器320发现不符合对于OCR的限制的区域的数目)。如果动作1418中的回答为否，那么处理器404转到动作1421(以下描述)。

如果动作1415中的回答为否，那么处理器404将变量number_of_images_within_field_of_view增加1，且转到动作1417以检查内循环是否完成，且如果未完成，那么返回到动作1414。当在动作1417中完成内for循环时，接着处理器404转到动作1418(以上所描述)。如果在动作1418中，回答为是，那么处理器404转到动作1419，且设定旗标zoom_level_found＝真，接着为动作1420以设定变量Z＝zoom_level[i]，接着为动作1421以检查外循环是否完成，且如果未完成，那么返回到动作1412。当外for循环完成时，处理器404转到图10C的方法。

在图10C的方法中，处理器404经编程以取决于图10A和10B的方法中的处理的结果，执行自动变焦或将反馈提供到用户。具体来说，在动作1431中，如果zoom_level_found为假，那么执行动作1436以对用户显示消息，以将相机移动得更靠近目标且在目标上的所要的位置处放大。如果动作1431中的回答为是，那么执行动作1432以检查是否启用自动变焦，且如果不，那么以类似于上文所描述的动作1436的方式执行动作1435，接着为动作1434以重复图10A和10B的方法。当动作1432中的回答为是时，接着在动作1433中，自动操作相机以增大变焦等级到由变量Z指示的量，且捕捉新图像，接着为动作1434(上文所描述)。

因此，取决于实施例，OCR模块330的任何一或多个组件可(但非必要)包含一或多个微处理器、嵌入式处理器、控制器、专用集成电路(ASIC)、数字信号处理器(DSP)和类似者。术语处理器希望描述由系统而非特定硬件实施的功能。此外，如本文中所使用，术语“存储器”指任何类型的计算机存储媒体，其包含与移动平台相关联的长期、短期或其它存储器，且并不限于任何特定类型的存储器或特定数目个存储器，或特定类型的其上存储有存储器的媒体。

因此，取决于应用，可通过各种方式来实施本文中所描述的方法。举例来说，这些方法可以固件1013(图9)或软件610、或硬件1012或其任何组合实施。对于硬件实施方案，处理单元可以在一或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元或其组合内实施。对于固件和/或软件实施方案，可用执行本文中所描述的功能的模块(例如，程序、函数等等)实施方法。

有形地体现软件指令(也称为“计算机指令”)的任何机器可读媒体可用于实施本文中描述的方法时。举例来说，软件610(图9)可包含存储在存储器501中且由处理器404执行的程序代码。存储器可实施于处理器404内或外部。如果以固件和/或软件实施，那么可将所述功能作为一或多个指令或代码存储在计算机可读媒体上。实例包含用数据结构编码的非暂时性计算机可读存储媒体和用计算机程序编码的非暂时性计算机可读存储媒体。

一或多个非暂时性计算机可读存储媒体包含物理计算机存储媒体。非暂时性计算机可读存储媒体可为可由计算机存取且保持信息(例如，软件和/或数据)的任何可用非暂时性媒体。借助于实例而非限制，此非暂时性计算机可读媒体可包括RAM、ROM、快闪存储器、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用以存储呈指令或数据结构形式的程序代码且可由计算机存取的任何其它非暂时性媒体；如本文中所使用的磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。当然，以上的组合也应包含在本文中描述的非暂时性计算机可读媒体的范围内。

虽然已为了指导性目的而描述特定实施例，但鉴于此描述，其它实施例将易于显而易见。因此，虽然一些实施例的图2中展示的物品为移动装置401，但在其它实施例中，通过使用不同的外观尺寸来实施所述物品(其包含存储器501和处理器404)，例如，在某些其它实施例中，所述物品为移动平台(例如，平板计算机，例如，购自苹果公司的iPad)，而在再其它实施例中，所述物品为任何电子装置或系统。此电子装置或系统的说明性实施例可包含无线地互相通信的多个物理部分，例如，为静止计算机的部分的处理器和存储器，例如，膝上型计算机、桌上型计算机或经由一或多个无线链路通信的服务器计算机1015，其中传感器和用户输入电路密封在足够小以拿在手中的外壳中。

取决于在手持式相机所捕捉图像中辨识的特定伪影，用户可取决于实施例而接收不同类型的反馈。另外，在一些实施例中，通过触发触觉反馈电路1018(图9)来提供触觉反馈(例如，通过移动装置401的振动)，以将反馈提供到用户以将相机移动得更靠近目标和/或在所述目标上的所要的位置上放大。代替刚描述的触觉反馈，在其它实施例中，可经由移动装置601中的扬声器来提供音频反馈。

在不脱离所描述实施例的范围的情况下，可进行各种改编和修改，如鉴于此描述将易于对所属领域的技术人员显而易见。因此，众多这些实施例由随附权利要求书所涵盖。

Claims

1.一种通过使用相同文本的多个图像改善文本辨识的方法，所述方法包括：

按多个变焦等级捕捉现实世界的场景的多个图像，现实世界的所述场景含有一或多个大小的文本；

从所述多个图像中的每一者提取一或多个文本区域；

分析与如从所述多个图像中的一或多者提取的第一文本区域的一或多个版本中的OCR相关的属性；以及

当所述属性具有符合所述第一文本区域的版本中的光学字符辨识OCR的限制的值时，将所述第一文本区域的所述版本作为输入提供到OCR。

2.根据权利要求1所述的方法，其中：

所述属性包括在所述一或多个文本区域中的每一区域的高度。

3.根据权利要求1所述的方法，其中：

所述提取包括检查所述一或多个文本区域中的共用二进制值的一行像素的存在。

4.根据权利要求1所述的方法，其中：

所述提取包括检查所述一或多个文本区域中的字符的笔划的宽度的方差。

5.根据权利要求1所述的方法，其进一步包括：

检查所述第一文本区域的极值x坐标是否大于w/zoom_level，其中w为所述第一文本区域的宽度，且zoom_level为包括所述第一文本区域的图像由相机捕捉的变焦的等级。

6.根据权利要求1所述的方法，其进一步包括：

检查所述第一文本区域的极值y坐标是否大于h/zoom_level，其中h为所述第一文本区域的高度，且zoom_level为包括所述第一文本区域的图像由相机捕捉的变焦的等级。

7.根据权利要求1所述的方法，其中：

所述多个图像是按序列连续地、一个接一个地捕捉。

8.根据权利要求7所述的方法，其中：

在所述提取前捕捉所述多个图像。

9.根据权利要求7所述的方法，其中：

响应于单一用户输入自动捕捉所述多个图像。

10.根据权利要求1所述的方法，其中：

包括所述第一文本区域的经放大版本的图像中的未捕捉的现实世界的所述场景中的特征捕捉于包括所述第一文本区域的较小版本的另一图像中。

11.根据权利要求1所述的方法，其进一步包括：

当所述属性具有不符合所述第一文本区域的版本中的光学字符辨识OCR的限制的值时，自动分析如从所述一或多个图像提取的所述第一文本区域的额外版本。

12.根据权利要求1所述的方法，其进一步包括：

分析与如从所述多个图像中的一或多者提取的第二文本区域的一或多个版本中的OCR相关的属性；以及

当所述属性具有符合所述第二文本区域的版本中的光学字符辨识OCR的限制的值时，将所述第二文本区域的所述版本作为输入提供到OCR。

13.根据权利要求12所述的方法，其进一步包括：

输出在所述第一和第二区域中辨识的文本。

14.一种非暂时性计算机可读存储媒体，所述至少一个非暂时性计算机可读存储媒体包括待由至少一个处理器执行以校正现实世界的场景的图像中的偏斜的多个指令，所述多个指令包括：

按多个变焦等级捕捉现实世界的场景的多个图像的第一指令，现实世界的所述场景含有一或多个大小的文本；

从所述多个图像中的每一者提取一或多个文本区域的第二指令；

分析与如从所述多个图像中的一或多者提取的第一文本区域的一或多个版本中的OCR相关的属性的第三指令；以及

当所述属性具有符合所述第一文本区域的版本中的光学字符辨识OCR的限制的值时将所述第一文本区域的所述版本作为输入提供到OCR的第四指令。

15.根据权利要求14所述的至少一个非暂时性计算机可读存储媒体，其中：

16.根据权利要求14所述的至少一个非暂时性计算机可读存储媒体，其中：

所述第二指令包括检查所述一或多个文本区域中的共用二进制值的一行像素的存在的指令。

17.根据权利要求14所述的至少一个非暂时性计算机可读存储媒体，其中：

所述第二指令包括检查所述一或多个文本区域中的字符的笔划的宽度的方差的指令。

18.根据权利要求14所述的至少一个非暂时性计算机可读存储媒体，其进一步包括：

检查所述第一文本区域的极值x坐标是否大于w/zoom_level的第五指令，其中w为所述第一文本区域的宽度，且zoom_level为包括所述第一文本区域的图像由相机捕捉的变焦的等级。

19.根据权利要求14所述的至少一个非暂时性计算机可读存储媒体，其进一步包括：

检查所述第一文本区域的极值y坐标是否大于h/zoom_level的第五指令，其中h为所述第一文本区域的高度，且zoom_level为包括所述第一文本区域的图像由相机捕捉的变焦的等级。

20.根据权利要求14所述的至少一个非暂时性计算机可读存储媒体，其中：

所述多个图像是按序列连续地、一个接一个地捕捉。

21.根据权利要求14所述的至少一个非暂时性计算机可读存储媒体，其中：

22.一种解码现实世界图像中的文本的移动装置，所述移动装置包括：

相机；

存储器，其操作性地连接到所述相机以从其接收至少一图像，所述图像包括一或多个文本区域；

至少一个处理器，其操作性地连接到所述存储器以执行存储在所述存储器中的多个指令；

其中所述多个指令使所述至少一个处理器：

从所述多个图像中的每一者提取一或多个文本区域；

23.根据权利要求22所述的移动装置，其中：

24.根据权利要求22所述的移动装置，其中：

25.根据权利要求22所述的移动装置，其中所述至少一个处理器经进一步配置以：

检查所述一或多个文本区域中的字符的笔划的宽度的方差。

26.根据权利要求22所述的移动装置，其中：

所述多个图像是按序列连续地、一个接一个地捕捉。

27.根据权利要求22所述的移动装置，其中：

28.一种移动装置，其包括：

相机，其经配置以按多个变焦等级捕捉现实世界的场景的多个图像，现实世界的所述场景含有一或多个大小的文本；

存储器，其耦合到所述相机用于存储所述多个图像；

耦合到所述存储器、用于从所述多个图像中的每一者提取一或多个文本区域的装置；

用于分析与如从所述多个图像中的一或多者提取的第一文本区域的一或多个版本中的OCR相关的属性的装置；以及

响应于所述属性具有符合所述第一文本区域的版本中的光学字符辨识OCR的限制的值，用于将所述第一文本区域的所述版本作为输入提供到OCR的装置。