CN104428792B

CN104428792B - 用于最大稳定极值区域处理的兴趣区域的参数选择及粗略定位

Info

Publication number: CN104428792B
Application number: CN201380037023.3A
Authority: CN
Inventors: 帕温·库玛·拜哈提; 基肖尔·K·巴曼; 达纳恩杰伊·阿肖克·戈尔; 森蒂尔库马尔·孙达拉姆
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-07-19
Filing date: 2013-07-06
Publication date: 2018-01-30
Anticipated expiration: 2033-07-06
Also published as: EP2875470A1; US20140023271A1; WO2014014686A1; CN104428792A; US20140023270A1; US9183458B2; US9014480B2; WO2014014687A1

Abstract

基于现实世界的图像中的像素强度来计算属性，且所述属性用以识别用于处理所述图像的至少一个输入以识别至少第一最大稳定极值区域MSER。所述至少一个输入为(A)用于MSER处理的参数或(B)待经受MSER处理的所述图像的一部分中的一者。所述属性可为像素强度的方差，或根据像素强度的直方图来计算。所述属性可与查找表一起使用以识别用于MSER处理的参数。所述属性可为所述图像的经子取样版本的第二MSER的笔划宽度。所述属性可用于检查所述图像的一部分是否满足预定测试，且如果是，那么在经受MSER处理的区域中包含所述部分。

Description

用于最大稳定极值区域处理的兴趣区域的参数选择及粗略定位

优先权申请的交叉引用

本申请案主张来自2012年7月19日申请的且题为“用于最大稳定极值区域处理的兴趣区域的参数选择及粗略定位(Parameter Selection and Coarse Localization ofInterest Regions for MSER Processing)”的第61/673,700号美国临时申请案的优先权，所述临时申请案已转让给本案受让人，且以全文引用的方式并入本文中。

本申请案主张来自2012年7月23日申请的且题为“通过跳跃比较区域中的像素来识别图像中的最大稳定极值区域(MSER)(Identifying A Maximally Stable ExtremalRegion(MSER)In An Image By Skipping Comparison Of Pixels In The Region)”的第61/674,846号美国临时申请案的优先权，所述临时申请案已转让给本案受让人，且以全文引用的方式并入本文中。

本申请案主张来自2013年3月12日申请的且题为“用于最大稳定极值区域处理的兴趣区域的参数选择及粗略定位(Parameter Selection and Coarse Localization ofInterest Regions for MSER Processing)”的第13/796,729号美国申请案的优先权，所述申请案已转让给本案受让人，且以全文引用的方式并入本文中。

以引用的方式并入的美国申请案的交叉引用

本申请案涉及2013年3月12日申请的题为“通过跳跃比较区域中的像素来识别图像中的最大稳定极值区域(MSER)(Identifying A Maximally Stable Extremal Region(MSER)In An Image By Skipping Comparison Of Pixels In The Region)”的第13/797,433号美国申请案，所述申请案已转让给本案受让人，且以全文引用的方式并入本文中。

技术领域

本专利申请案涉及处理来自手持式装置的相机的图像以识别其中的符号的设备及方法。

背景技术

例如蜂窝电话108(图1A)的手持式装置包含用于由人110用其手来使用以捕捉现实世界场景100的图像(例如图像107)的数码相机，所述图像经展示显示在图1中的蜂窝电话108的屏幕106上。图像107还称为手持式相机所捕捉图像，或自然图像或现实世界图像，从而使其与由光学扫描器根据印刷在纸上的文档而形成的图像(例如，由光复印机的平面扫描器所扫描)进行区分。

手持式相机所捕捉图像107(图1A)中的文字的辨识可基于具有在一或多个性质(例如强度及/或色彩)方面与周围像素显著不同的边界的区域(也称为“二进制大对象”)。一些现有技术方法首先识别图像中局部最小值或最大值(也称为“极值”)的特性(例如强度)的像素(根据图1B中的动作112)，接着识别在所述特性的值的预定范围内的定位在所识别极值像素周围的像素，以便识别现有技术中已知为最大稳定极值区域或MSER的区域(根据图1B中的动作113)。

MSER为特性值单调变换的几何连续的区域(且一者可通过穿越相邻者而从一个像素到达任一其它像素)，且不变以仿射变换(保持直线及所述直线上的多点之间的距离比率的变换)。MSER的边界可在现有技术中用作连接分量(参见图1B中的动作114)，以识别候选者用于辨识为文字。连接分量可经受一或多个几何测试，以识别此类区域中的矩形部分103(图1A)，所述区域接着被切片或分段为许多块，其中每一块为待辨识为文字的字符的候选者。可使用光学字符辨识(OCR)方法来辨识此类候选块。

一个此类方法描述于(例如)陈(Chen)等人的题为“具有边缘增强最大稳定极值区域的自然图像中的稳固文字检测(Robust Text Detection In Natural Images WithEdge-Enhanced Maximally Stable Extremal Regions)论文中，所述论文被认为公开于2011年9月的IEEE图像处理国际会议(ICIP)中，所述论文以全文引用的方式并入本文中作为先前技术。MSER被认为由马特斯(Matas)等人首次描述于(例如)题为“来自最大稳定极值区域的稳固宽基线立体声(Robust Wide Baseline Stereo from Maximally StableExtremal Regions)”的论文中(机器视觉会议会刊，2002年，第384-393页)，所述论文以全文引用的方式并入本文中。已知马特斯等人描述的方法由于用来识别图像中的MSER的时间而为计算昂贵的。用以识别图像中的MSER的时间可通过使用尼斯特尔(Nister)等人描述的方法而得以减少，所述方法名为“线性时间最大稳定机制区域(Linear Time MaximallyStable Extremal Regions)”(ECCV、2008年、第II部分、LNCS 5303、第183-196页)，由施普林格出版社柏林海德堡出版，且同样以全文引用的方式并入本文中。

本发明人注意到，由陈等人或由马特斯等人或由尼斯特尔等人描述的类型的现有技术方法识别图像107(图1A)中的数百个MSER及有时识别数千个MSER，所述MSER包含自然特征的细节，例如树的叶子或植物的叶子、灌木及矮树丛。举例来说，可通过使用上文关于自然图像107描述的类型的方法而从一个版本的图像(也称为MSER+图像)产生大量MSER。而且，可在反转图像107中的像素的强度值以获得大量额外MSER之后通过使用刚刚描述的方法而类似地产生另一图像(也称为MSER-图像)。

现有技术的OCR方法来源于文档处理的领域，其中所述文档图像含有彼此平行定向的一连串文字行(例如，一页上20行文字)。此类OCR方法从每一块中的二进制值提取向量(称作“特征向量”)，且接着将此向量与提前产生的参考向量的库比较(基于待辨识字母表的字母的训练图像)。接着，由库中的最紧密匹配所述块的向量的参考向量来表示字母表的字母经识别为经辨识以断定OCR(“文档”OCR)。

本发明人认为用以检测用于OCR中的连接分量的上述类型的MSER处理需要现今的手持式装置(例如智能手机)中正常不可用的存储器及处理功率。因此，似乎存在加速下文描述的类型的MSER处理的方法及设备的需要。

发明内容

在若干实施例中，现实世界中的场景的图像中的像素的强度用以依据每一强度等级的像素的数目来计算强度的直方图的属性。因此，直方图属性可用于从所述图像自动选择一或多个区域(在称为粗略定位的过程中)，在所述区域上将执行处理以识别待经受OCR的最大稳定极值区域(MSER)。此类属性的实例为直方图中的双峰性(更确切地说，存在彼此不同的两个峰值)，其检测产生用于MSER处理的区域的选择。

另一此类直方图属性可用于自动选择用于MSER处理的一或多个参数，例如参数Δ及最大变化。此类直方图属性的第一实例(“支持”)为直方图的像素的对应计数超过阈值的组格的数目。在一些实施例中，刚刚描述的支持属性(1)与MSER参数Δ成反比变化，及(2)与MSER参数最大变化成正比变化。第二实例属性为像素强度的直方图中的方差，其同样(1)与MSER参数Δ成反比变化及(2)与MSER参数最大变化成正比变化。第三实例属性为像素强度的直方图中的平均值以上的面积，其与：(1)MSER参数Δ成正比变化及(2)与MSER参数最大变化成反比变化。

一些实施例使用如上所述的直方图属性两者，具体来说通过使用一或多个属性以选择用于MSER处理的区域，并且还使用一或多个属性以选择MSER参数Δ及最大变化。然而，其它实施例仅单个使用此类直方图属性，如接着所描述。某些实施例使用上述类型的属性以选择用于MSER处理的区域，及使用任何方法来选择参数Δ及最大变化。在其他实施例中，通过任何方法来选择用于MSER处理的区域，接着使用上述类型的属性以选择MSER参数Δ及最大变化。

因此，应理解所描述实施例的若干其它方面将根据本文描述而变得为所属领域的技术人员显而易见，其中以说明方式展示及描述各种方面。图式和实施方式被视为本质上是说明性的而非限制性的。

附图说明

图1A说明用户使用现有技术的装备有相机的移动装置来捕捉现实世界中的告示牌的图像。

图1B用高级流程图来说明由现有技术的计算机使用来自动作111(如图1A中所说明)中操作的相机的图像来进行的动作112-114。

图2A-2D用流程图说明由特定描述的实施例中的移动装置401中的一或多个处理器404执行的操作。

图3A及3B说明在图2A的动作211A的一些实施例中在剪切阈值下区域302之前及之后的图像的一部分的两个直方图。

图4用另一图像的一部分的直方图来说明在图2B的动作211B的一些实施例中计算的平均值以上的面积402。

在替代实施例中，图5A及5B说明图像的剪切以识别根据图2C的动作212的图像部分。

图5C及5D说明在一些实施例使用的笔划宽度的计算。

图6用高级框图说明所描述实施例中的一些中的手持式装置的各种组件。

图7用流程图说明由一些所描述实施例中的移动装置401中的一或多个处理器404执行的操作。

具体实施方式

在所描述实施例的若干方面中，在由执行(例如)来自移动装置401的相机405的第一指令的一或多个处理器404(图6)执行的动作201(图2)中接收现实世界(例如参见图1)的场景的图像(也称为“手持式相机所捕捉图像”)。接着，在动作211A中，一或多个处理器404通过使用所接收图像来基于像素强度计算属性而执行第二指令，例如图像或其中一部分中的像素强度的直方图的双峰性(例如，在图像再分为许多块的情况下，根据动作202)。接着，根据动作212A，一或多个处理器404执行第三指令来识别MSER处理的输入，例如使用直方图属性来确定所述图像部分(或块)是否满足待选择用于MSER处理的图像部分(或块)的测试。具体来说，在一些实施例中，当直方图中峰值的数目为至少两个时，所述图像部分(或块)经标记为在一或多个存储器214中选定。

接着，在动作215中，一或多个处理器404执行第四指令以(例如)使用已在动作212A中选择的至少一个部分(或块)来执行MSER处理。通过第四指令的执行而进行的MSER处理可使用存储器329中的查找表以获得除了通过第三指令的执行而识别的输入以外的一或多个输入参数。第四指令中使用的查找表可供应用于参数Δ及最大变化的值的一或多个特定组合，参数Δ及最大变化为MSER方法的输入(也称为MSER输入参数)。此类查找表可提前填充，具有用于Δ及最大变化的特定值，例如通过实验确定以产生适于辨识自然图像(例如图像501)中的文字的轮廓，例如用于Δ的值8及用于最大变化的值0.07。取决于所述实施例，所述查找表可使用例如基于像素强度计算的(本文所述的类型的)任何属性作为索引来查找。

在一些实施例中，通过执行第四指令而执行的动作215中的MSER处理包含比较图像501中的一对像素的强度差与预定限值，接着执行第五指令以响应于发现所述限值被超过而将所述对像素中的像素的一对坐标添加到存储器329(图6)中的列表中。具体来说，在第五指令的某些实施例中，在位置集合(其可经实施为列表)中识别像素，继而在包含图像501中的强度的局部极值(例如局部最大值或局部最小值)的区域Q_i中识别像素。

此类区域Q_i可通过在动作215(图2A)中执行第五指令而经识别为相对于范围i-Δ到i+Δ(取决于实施例，包含上述强度i)中的一或多个强度而最大稳定，每一强度i经用作阈值(其中Δ为MSER方法的参数输入)以用于与包含在区域Q_i中的多个像素的强度进行比较以识别相应区域Q_i-Δ及Q_i+Δ。在一些实施例中，区域Q_i中的许多像素相对于范围i-Δ到i+Δ内的强度i的改变而保持在预定(例如用户指定)范围内，其中局部最小值在强度i下发生的比率[Q_i-Δ-Q_i+Δ]/Q_i中。因此，在某些实施例中，刚刚描述的位置集合指示(或识别)构成MSER(即最大稳定极值区域)的区域Q_i。

可在动作215中通过使用马特斯等人在题为“来自最大稳定极值区域的稳固宽基线立体声(Robust Wide Baseline Stereo from Maximally Stable Extremal Regions)”的论文中描述的类型的方法来进行识别，所述论文在上文以引用的方式并入。或者，可使用其它方法来在动作215中执行连接分量分析及区域的识别，例如在发布在Kangweon-Kyungki数学杂志(14(2006)、第1期、第47-55页)中的Hyunkyung Shin及Joong Sang Shin的题为“弗洛伊德沃肖尔标记技术的应用：二进值图像中连接像素分量的识别(Application of Floyd-Warshall Labelling Technique：Identification ofConnected Pixel Components In Binary Image)”的论文中描述的类型的方法，所述论文以引用的全文方式并入本文中，或者例如描述于Jung-Me Park、Carl G.Looney及Hui-Chuan Chen的题为“使用分治技术的快速连接分量标记算法(Fast Connected ComponentLabeling Algorithm Using A Divide and Conquer Technique)”的论文中的方法，所述论文被认为发布在矩阵(Matrix)(2000)、第4卷、第1期、出版商：爱思维尔有限公司(Elsevier Ltd)，第4-7页，所述论文也以引用的全文方式并入本文中。

因此，取决于实施例，在动作215中通过所描述实施例中的移动装置401识别图像501的区域的特定方式可为不同的。如上所述，在若干实施例中，通过动作215将通过使用上述类型的MSER方法识别的图像501的每一区域按像素列表的形式表示在存储器329中，其中每一像素两个坐标，即(图像的)二维空间中的x坐标及y坐标。通过动作215将像素列表存储在一或多个存储器中，作为为最大稳定极值区域(MSER)的区域Q_i的表示。

在一些实施例中，通过一或多个MSER处理器352(图6)执行动作215。可用此项技术中已知的任何方式来实施MSER处理器352。举例来说，此类MSER处理器可使用若干阈值中的每一者来识别对应连接分量，接着计算每一阈值i下的连接分量的面积A(i)，及分析此函数A(i)的稳定性，识别所述函数A(i)在阈值i的多个值上未显著改变的值所在的阈值(且因此其连接分量)。

在动作217中，一或多个处理器检查整个图像的多个部分是否已被处理(经评估用于MSER处理)，且如果否，那么返回到动作212A(上述)。如果整个图像已被处理，那么通过一或多个处理器404执行动作218以分析MSER来(例如)通过与符号的库进行比较而识别图像中的一或多个符号。举例来说，在若干所描述实施例中使用此类MSER的二进制化版本作为输入到光学字符辨识(OCR)的连接分量。接着，无论在动作218中发现哪一或多个符号最接近匹配均在一或多个存储器中标记为在图像中识别，接着返回到动作201。具体来说，在一些实施例中，通过OCR识别被发现最接近OCR的输入的预定数目(例如3)个符号作为彼此的替代，而OCR的其它实施例识别被发现最接近OCR输入的单个符号。

在一些实施例中，在动作212B(图2B)中使用在动作211B中计算的直方图属性以查找查找表1023(图6)，所述查找表提供用于MSER处理中的一或多个输入参数213，例如Δ及最大变化中的任一者或两者。其后，一或多个图像部分在动作215中使用输入参数213而经受MSER处理。取决于实施例，上述动作211B及212B(图2B)可在MSER输入产生器351(图6)中执行，所述MSER输入产生器可用任何硬件与软件的组合(包含多个指令)来实施。

图3B中展示在动作211B(上述)中计算的直方图属性的一个说明，如像素强度的直方图301中的阈值302(图3A)处的支持309(其可为数目N，例如N＝256)。直方图301沿着y轴展示每一可能亮度等级下的图像像素的数目的一连串计数，所述计数通过亮度等级来分类，例如沿着x轴从0到255。直方图301中的峰值303指示在特定亮度等级下(在其处出现峰值303)存在大量像素。因此，在某些实施例中，所述属性是基于直方图中具有在阈值以上的像素的对应计数的多个组格。在一些实施例中，在硬件(例如在执行前端处理的集成电路(IC)芯片中)中计算直方图301，以产生若干统计，例如像素强度的平均值及直方图的面积。在某些实施例中，所述属性为在直方图的组格中的像素计数的平均值以上的直方图的面积。

以预定方式来识别阈值302，例如设定成固定百分比(或分数)，例如直方图301的N个组格中的最大计数或峰值303的10％。举例来说，如果最大计数或峰值303为80，那么阈值302具有值8且因此将支持309确定为直方图301的组格(来自N个组格中)的数目S，所述组格具有超过(阈值302的)值8的像素的对应计数。处理器404的一些实施例通过使用阈值302而执行第七指令来裁剪直方图以便确定支持309。

如前述段落中描述的呈组格的数目S形式的支持309为可在动作212B(上述)中与查找表1023(图6)一起通过执行第六指令而使用以获得用于Δ及最大变化的值的属性，所述值构成输入到MSER处理的呈输入参数213形式的输入(A)(也称为MSER输入参数)。因此，一些实施例使用两个MSER输入参数，及查找表1023(图6)在查找支持作为输入时供应两个值(在此类实施例中其可为唯一输入，但其它实施例可使用额外属性作为查找表1023的额外输入)。MSER处理的其它实施例可在执行第六指令时使用仅一个MSER输入参数，例如在查找表1023针对此单个MSER输入参数仅得到一个值的情况下仅使用Δ。

上述一些实施例执行图2A的方法，而其它实施例执行图2B的方法，而再其它实施例执行图2C的方法。请注意取决于实施例，这些方法中的一或多者可彼此组合。因此，在图2D中说明这些方法，其中动作212说明动作212A、212B及212C中的任一者的性能。因此，动作212执行一些实施例的第六指令以使用直方图属性来识别待用于处理图像的至少一个输入，识别至少一个MSER，其中所述至少一个输入为(A)用于所述处理中的参数或(B)待经受所述处理的图像的一部分中的一者、或(A)与(B)两者。然而，某些实施例执行图2A及2B的方法的组合，具体地说通过执行动作212A及动作212B中的每一者，如图7中所说明(下文描述)。

图3B中的支持309为三个分量309A、309B及309C的总和，所述分量继而形成直方图311的三个面积311A、311B及311C的支持(继而通过对直方图301进行阈值处理而获得)。在一些实施例中，面积311C的高度310C(图3B)除以面积311C的支持(或宽度)309C以获得一比率(其为逆纵横比)，所述比率与预定阈值一起用以辨识峰值的存在。举例来说，当刚刚描述的直方图的面积的高度宽度比率大于预定倍数(例如2)时一或多个处理器404确定峰值存在于直方图中。

可在一些实施例的预定测试中使用支持309，以确定是否应选择对应图像部分(从其提取直方图301)用于MSER处理，根据在图2A中的动作212A。举例来说，此类实施例可检查动作211B(图2B)所确定的支持309是否大于固定阈值，例如S＞30，且如果成立，那么将(在一或多个存储器214中)所述图像部分标记为经选择用于MSER处理。刚刚描述的图像部分接着在动作215(上述)中经受MSER处理，例如在通过处理器404执行第八指令时单独本身或与可包含在矩形区域中的一或多个其它此类部分组合地进行。

在图4的直方图301中展示在动作211中计算且用于动作212B(图2B)中的此类属性的另一说明，如平均值以上的面积。具体来说，首先计算在直方图301的N个组格中的每一者中的计数的数目的平均值402(图4)，且接着确定平均值402以上的面积403。图4中用阴影展示面积403。取决于实施例，刚刚描述的平均值以上的面积可经归一化，(例如)通过使其除以直方图301的总面积以获得用于动作212B中的属性，从而执行查找表1023的查找以获得用于Δ及最大变化的值。

在动作211B(图2B)的一些实施例中计算的另一此类属性为像素强度的方差。具体来说，首先计算所有像素的强度的平均值，且接着将所述平均值从每一像素的强度减去，及将所述差进行平方且与其它像素的对应结果求和，及在动作212B中将总和的平方根用作属性。

上文参看图2A描述的类型的若干实施例在动作212A中执行粗略定位以选择待经受如图5A中的实例展示的MSER处理的一或多个图像部分。具体来说，使用网格502对图像501进行分段，且针对通过使用网格而产生的每一片段来计算直方图(如上文所描述)。接着，每一片段的强度直方图用以确定上述属性中的一或多者，所述属性接着与一或多个预定测试(例如与阈值进行比较)一起使用以确定是否选择所述分段用于MSER处理。在图5A中所示的实例中，已识别右上拐角中的八个分段(例如在图5A中一起标记为分段503)通过此类测试。因此，此类实施例从图像501裁剪出配合在可保持所有八个分段的最小矩形内的一部分504，且正是此图像部分接着经受MSER处理。MSER处理的结果经最终分析以辨识符号(根据在图2A中的动作218)，从而产生字母505(图5A)。

某些实施例在动作212中执行粗略定位以产生呈待经受如图5B中所示的MSER处理的一或多个图像部分的形式的输入(B)。具体来说，在动作211C(图2C)中使图像501经子取样(或降低取样)以获得尺寸比图像501小的经子取样图像512。在一些实施例中，以鉴于本描述将容易显而易见的任何方式，处理器404用软件配置以对图像子取样以获得经子取样版本。举例来说，如果子取样因数为2，那么经子取样图像512为图像501的大小的1/4。接着，经子取样图像512在动作212C(图2C)中本身经受MSER处理以识别其中的MSER区域(也称为“经子取样MSER区域”)。接着，在动作212C中，每一经子取样MSER区域经受一或多个预定测试。举例来说，可计算每一经子取样MSER区域的笔划宽度(如图5C中所示)，且使其与阈值(最小笔划宽度，在所述最小笔划宽度以上将所述区域处理为OCR的候选者)进行比较。以此方式，在动作212C(图2C)中识别通过所述测试的一或多个经子取样MSER区域513(例如待以普通方式选择用于MSER处理)。此后接着从图像501裁剪最小矩形(也称为“限界框”)所界定的矩形部分514(其配合通过测试的经子取样MSER区域513)，且接着将图像501的此矩形部分514在一或多个存储器214(图2C)中标记为MSER处理的输入。

图5C说明笔划宽度的确定(例如用于测试中以选择用于MSER处理的分段)，所述确定通过以下操作：通过选择经子取样MSER区域520内的固定数目个点(例如3个点)，及计算经子取样MSER区域520在预定数目个方向(例如4个方向)中的每一者中的尺寸，接着选择所计算的最小尺寸(例如在4个方向中)作为笔划宽度。在一些实施例中由图5D的方法来说明笔划宽度的特定方式。具体来说，在一些说明性实施例中，处理器404执行动作531-534(图5D)以如下计算笔划宽度。在动作531中，移动装置401选择经子取样MSER区域520(图5A)内部的N个点，例如点521。接着，在动作532中，移动装置401计算在所述N个点中的每一者的笔划的宽度。举例来说，在点521，处理器404计算四个射线521A、521B、521C及521D的长度，且接着使用射线521B(其由于最短而经选择)的长度作为在点521的笔划的宽度。接着，在动作533中，移动装置401计算用于所述经子取样MSER区域520的N个此类笔划宽度的平均值。最终，在动作534中，移动装置401计算N个笔划宽度的标准偏差及/或方差(与平均值相比)。接着移动装置401检查方差是否小于预定阈值，且如果是，那么选择所述区域且在一或多个存储器214(图2C)中标记为MSER处理的输入，如上所述。

执行图2中展示的方法的一些实施例的移动装置401为移动装置(例如智能电话)，其包含上述类型的相机405(图6)以产生现实世界场景的图像，所述图像接着经处理以识别其中的任何预定符号。移动装置401可进一步包含提供关于移动装置401的移动的信息的传感器406，例如加速计、陀螺仪、指南针、或其类似者。移动装置401可使用加速计及指南针及/或其它传感器来以普通方式来感测倾斜及/或转向，以辅助处理器404确定在移动装置401中捕捉的图像中的预定符号的定向及位置。代替或除了传感器406以外，移动装置401可使用来自相机405的图像来辅助处理器404确定移动装置401相对于成像的预定符号的定向及位置。而且，移动装置401可另外包含以普通方式使用的图形引擎1004及图像处理器1005。移动装置401可任选地包含MSER输入产生器351及MSER处理器352(例如由执行存储器329中的软件的一或多个处理器404实施)，以识别作为OCR软件1014(在由处理器404执行时)的输入而接收的块中的预定符号的存在。

除了存储器329以外，移动装置401可包含一或多个其它类型的存储器，例如快闪存储器(或SD卡)1008及/或硬盘及/或光盘(也称为“辅助存储器”)，以存储用于载入到存储器329(也称为“主存储器”)中的及/或用于由处理器404使用的数据及/或软件。移动装置401可进一步包含在收发器1010及/或任何其它通信接口1009中的无线发射器及接收器。应理解移动装置401可为任何便携式电子装置，例如蜂窝式或其它无线通信装置、个人通信系统(PCS)装置、个人导航装置(PND)、个人信息管理器(PIM)、个人数字助理(PDA)、膝上型计算机、相机、智能电话、平板计算机(例如购自苹果公司的iPad)或能够产生扩增实境(AR)环境的其它合适的移动平台。

上述类型的移动装置401可包含其它位置确定方法，例如使用“计算机视觉”技术的对象辨识。移动装置401还可包含用于响应于移动装置401上的用户输入(例如通过使用收发器1010中的发射器)而远程控制现实世界物品(其可为玩具)的装置，所述发射器可为经启用以经由一或多个类型的无线通信网络(例如因特网、WiFi、蜂窝式无线网络或其它网路)来发射一或多个信号的IR或RF发射器或无线发射器。移动装置401可进一步在用户接口中包含麦克风及扬声器(未标记)。当然，移动装置401可包含与本发明无关的其它元件，例如可用以存储供处理器404使用的固件的只读存储器1007。

而且，取决于实施例，移动装置401可使用移动装置401中的本地检测器来执行无参考跟踪及/或基于参考的跟踪，以检测图像中的预定符号，在执行OCR软件1014的实施方案中识别(例如)图像中的文字的字符。用于由OCR软件1014使用的块的上述识别可执行在软件(由一或多个处理器或处理器核心执行)中或在硬件中或在固件中，或在其任何组合中。

在移动装置401的一些实施例中，上述MSER输入产生器351及MSER处理器352包含在OCR软件1014中，所述OCR软件由执行移动装置401的存储器329中的软件320的处理器404实施，但在其它实施例中MSER输入产生器351及MSER处理器352中的任何一或多者实施在移动装置401中的硬件电路及/或固件及/或软件的任何组合中。因此，取决于实施例，OCR软件的本文所述类型的各种功能可实施在软件(由一或多个处理器或处理器核心执行)中或在专用硬件电路中或在固件中，或在其任何组合中。

虽然一或多个处理器404的一些实施例在执行任一动作212A(图2A)或动作212B(图2B)之后执行MSER处理，但其它实施例执行动作212A及212B两者，如图7中所说明。具体来说，在上述动作201(参见图2A或2B)之后，在动作711(图7)中用处理器404将输入图像划分成多个矩形部分(所述矩形部分可或可不彼此重叠)，接着在动作712中选择所述矩形部分中的一者。随后，在动作713中，类似于上述动作212A，用处理器404计算选择矩形部分中的像素强度的直方图的属性。接着，使用阈值的查找表1022(图6)(也称为“第一表”)，由处理器404使用此属性(也称为“第一属性”)以确定(在动作714中)是否将对选定矩形部分执行MSER方法，且若干否，那么控制返回到动作712。如上所述，处理器404可计算直方图的面积的高度宽度比率，及检查所述比率是否大于例如2，且如果是，那么执行MSER方法。

如果动作714中的决策为将执行MSER方法，那么由处理器404执行动作715。在动作715中，由处理器404计算选定矩形部分中的像素强度的直方图的另一属性。接着，在类似于上述动作212B的动作中，阈值的另一查找表1023(也称为“第二表”)与此属性(也称为“第二属性”)一起由处理器404使用以识别(在动作715中)输入到MSER方法的一或多个参数(例如Δ及最大变化)。其后，在动作716中，例如如上文参考动作215所描述来执行MSER方法。随后，在动作717中，一或多个处理器404检查所有矩形部分是否已被处理，且如果否，那么返回到动作712以选择另一矩形部分用于处理。当所有矩形部分已被处理时，一或多个处理器404从动作717进行到动作718以分析MSER区域，从而识别图像中的一或多个符号，其后将图像中所识别的符号存储在一或多个存储器中。

因此，取决于实施例，MSER输入产生器351及MSER处理器352中的任何一或多者可(但未必需要)包含一或多个微处理器、嵌入式处理器、控制器、专用集成电路(ASIC)、数字信号处理器(DSP)及其类似物。术语处理器意图描述由系统而非特定硬件所实施的功能。此外，如本文中所使用，术语“存储器”指代任何类型的计算机存储媒体，其包含与移动平台相关联的长期、短期或其他存储器，且并不限于任何特定类型的存储器或特定数目个存储器，或特定类型的其上存储有存储器的媒体。

因此，可取决于应用通过各种装置来实施本文中所描述的方法。举例来说，这些方法可实施在固件1013(图6)或软件320、或硬件1012或其任何组合中。对于硬件实施方案，处理单元可实施于一或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文所描述的功能的其它电子单元，或其组合内。对于固件及/或软件实施方案，可用执行本文中所描述的功能的模块(例如，程序、功能等等)来实施方法。

有形地体现软件指令(也称为“计算机指令”)的任何非暂时性机器可读媒体可用于实施本文所述的方法。举例来说，软件320(图6)可包含存储在存储器329中且由处理器404执行的程序代码，以实施(例如)MSER输入产生器351或MSER处理器352或两者或每一者的部分。取决于实施例，存储器329可实施在处理器404内或外部。如果实施在固件及/或软件中，那么MSER输入产生器351及/或MSER处理器352的逻辑可作为一或多个指令或代码存储在非暂时性计算机可读存储媒体上。实例包含用数据结构(例如查找表1022及/或查找表1023)编码的一或多个非暂时性计算机可读存储媒体以及用经配置以实施MSER输入产生器351及/或MSER处理器352的逻辑计算机程序编码的一或多个非暂时性计算机可读存储媒体。

非暂时性计算机可读媒体包含物理计算机存储媒体。非暂时存储媒体可为可由计算机存取的任何可用的非暂时性媒体。借助于实例而非限制，此类非暂时性计算机可读媒体可包括RAM、ROM、快闪存储器、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用以存储呈指令或数据结构形式的程序代码且可由计算机访问的任何其它非暂时性媒体；如本文中所使用的磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。以上各项的组合也应包含在非暂时计算机可读媒体的范围内。

尽管出于指导性目的而结合特定实施例来说明特定实例，但所描述实施例不限于此。因此，虽然一些实施例的图2A-2C及6中展示的物品401为移动装置，但在其它实施例中项目401通过使用不同的外观尺寸来实施，例如在特定其它实施例中，物品401为移动平台(例如平板计算机，例如购自苹果公司的iPad)，而在其它实施例中物品401为任何电子装置或系统。此类电子装置或系统的说明性实施例可包含无线地互相通信的多个物理部分，例如为静止计算机的部分的处理器及存储器，例如膝上型计算机、桌上型计算机或经由一或多个无线链路通信的服务器计算机1015，其中传感器及用户输入电路密封在足够小以保持在手中的外壳中。

取决于在手持式相机所捕捉图像中辨识的特定符号，用户可取决于实施例而接收不同类型的反馈。在一些实施例中，额外触觉反馈(例如通过移动装置401的振动)通过触发触觉反馈电路1018(图6)而提供，从而当在图像中辨识文字时提供反馈给用户。代替刚刚描述的触觉反馈，在其它实施例中，可经由移动装置401中的扬声器来提供音频反馈。

因此，在一些实施例中，一或多个处理器404用设备中的软件320编程以操作为：用于接收现实世界的场景的图像的装置、用于计算图像中的基于像素强度的属性的装置、用于使用所述属性来识别待用于处理所述图像的至少一个输入以识别其中的至少一个最大稳定极值区域的装置、用于执行所述处理以基于所述至少一个输入来识别所述至少一个最大稳定极值区域的装置，以及用于存储在一或多个存储器中的装置，所述至少一个最大稳定极值区域由所述处理来识别。在刚刚描述的实施例中的一些中，一或多个处理器404用软件320编程以操作为用于对图像子取样以获得经子取样版本的装置、用于识别经子取样版本中的额外最大稳定极值区域(也称为“第二最大稳定极值区域”)的装置，以及用于使用额外最大稳定极值区域的笔划宽度来识别待经受所述处理的所述部分的装置。

在不脱离所描述实施例的范围的情况下可作出各种调适及修改。因此，不应将所附权利要求书的精神及范围限于前述描述。应理解所描述实施例的若干其它方面将根据本文描述而变得为所属领域的技术人员显而易见，其中以说明方式展示及描述各种方面。图式以及实施方式将被认为在本质上是说明性的。所描述实施例的大量修改及调适将由随附权利要求书包含。

Claims

1.一种用以识别图像中的区域的方法，所述方法包括：

接收现实世界的场景的图像；

利用一或多个处理器基于所述图像中的像素强度来计算属性；

利用所述一或多个处理器将所述属性与查找表或预定测试一起使用来识别待用于处理所述图像的至少一个输入以识别其中的至少一个最大稳定极值区域；

其中所述至少一个输入为(A)或(B)中的一者、或(A)与(B)两者，(A)为通过使用至少所述属性从所述查找表获得的且在所述处理中使用的参数Δ或最大变化或参数Δ和最大变化两者，(B)为通过将所述预定测试应用于所述图像中的经子取样区而在所述处理之前所获得的所述图像的一部分，所述部分待经受所述处理；

利用所述一或多个处理器执行所述处理来基于所述至少一个输入识别所述至少一个最大稳定极值区域；

其中所述处理至少包括比较所述图像中的一对像素的强度差与预定限值，响应于发现超过所述预定限值而将所述对像素中的像素的一对坐标添加到列表，及重复所述比较及所述添加；及

利用所述一或多个处理器在一或多个存储器中存储所述列表作为所述处理识别的所述至少一个最大稳定极值区域的表示。

2.根据权利要求1所述的方法，其中：

依据所述像素强度中的每一强度的像素数目而根据所述像素强度的直方图来计算所述属性。

3.根据权利要求2所述的方法，其中：

所述属性是基于所述直方图中的具有阈值以上的像素的对应计数的多个组格。

4.根据权利要求3所述的方法，其中：

所述阈值为所述直方图中的所述多个组格中的最大计数的分数。

5.根据权利要求3所述的方法，其中：

所述属性为在所述直方图的所述多个组格中的像素计数的平均值以上的所述直方图的面积。

6.根据权利要求1所述的方法，其中：

所述属性为所述像素强度的方差。

7.根据权利要求1所述的方法，其中：

所述属性与查找表一起用来识别所述参数。

8.根据权利要求1所述的方法，其中：

所述属性用于检查所述部分是否满足所述预定测试。

9.根据权利要求8所述的方法，其中当发现所述部分满足所述预定测试时：

在利用所述一或多个处理器执行所述处理前从所述图像裁剪由与所述部分配合的最小矩形所界定的矩形区域。

10.根据权利要求1所述的方法，其中所述至少一个最大稳定极值区域为下文的第一最大稳定极值区域，所述方法进一步包括：

对所述图像子取样以获得经子取样版本；

处理所述经子取样版本以识别所述图像的所述经子取样版本中的第二最大稳定极值区域；及

使用所述第二最大稳定极值区域的最小尺寸来识别待经受所述处理的所述部分。

11.一种用以识别图像中的区域的移动装置，所述移动装置包括：

一或多个存储器，其包括现实世界的场景的图像的多个部分；

一或多个处理器，其经配置以：

基于所述图像中的像素强度计算属性；

将所述属性与查找表或预定测试一起使用来识别待用于处理所述图像的至少一个输入以识别其中的至少一个最大稳定极值区域；其中所述至少一个输入为(A)或(B)中的一者、或(A)与(B)两者，(A)为从所述查找表获得的且在所述处理中使用的参数Δ或最大变化或参数Δ和最大变化两者，(B)为待经受所述处理的所述图像的一部分，通过将所述预定测试应用于所述图像中的经子取样区而在所述处理之前而获得所述部分；

执行所述处理以基于所述至少一个输入识别所述至少一个最大稳定极值区域；

在所述一或多个存储器存储所述列表作为由所述处理识别的所述至少一个最大稳定极值区域的表示。

12.根据权利要求11所述的移动装置，其中：

13.根据权利要求12所述的移动装置，其中：

14.根据权利要求13所述的移动装置，其中：

15.根据权利要求13所述的移动装置，其中：

16.根据权利要求11所述的移动装置，其中：

所述属性为所述像素强度的方差。

17.根据权利要求11所述的移动装置，其中：

所述一或多个处理器经进一步配置以使用所述属性与查找表以识别所述参数。

18.根据权利要求11所述的移动装置，其中：

所述一或多个处理器经进一步配置以使用所述属性来检查所述部分是否满足所述预定测试。

19.根据权利要求18所述的移动装置，其中所述一或多个处理器经进一步配置以响应于发现所述部分满足所述预定测试而进行以下操作：

在所述处理之前，从所述图像裁剪由与所述部分配合的最小矩形所界定的矩形区域。

20.根据权利要求18所述的移动装置，其中所述至少一个最大稳定极值区域为下文的第一最大稳定极值区域，及所述一或多个处理器经进一步配置以：

对所述图像子取样以获得经子取样版本；

识别所述图像的所述经子取样版本中的第二最大稳定极值区域；及

21.一或多个非暂时性计算机可读媒体，其包括多个指令以使一或多个处理器执行方法，所述多个指令包括：

第一指令，其用以接收现实世界的场景的图像；

第二指令，其用以基于所述图像中的像素强度来计算属性；

第三指令，其用以将所述属性与查找表或预定测试一起使用来识别待用于处理所述图像的至少一个输入以识别其中的至少一个最大稳定极值区域；

其中所述至少一个输入为(A)或(B)中的一者、或(A)与(B)两者，(A)为从所述查找表获得的且在所述处理中使用的参数Δ或最大变化或参数Δ和最大变化两者，(B)为待经受所述处理的所述图像的一部分，通过将所述预定测试应用于所述图像中的经子取样区而在所述处理之前而获得所述部分；

第四指令，其用以执行所述处理来基于所述至少一个输入识别所述至少一个最大稳定极值区域；

第五指令，其用以在一或多个存储器中存储所述列表作为所述处理识别的所述至少一个最大稳定极值区域的表示。

22.根据权利要求21所述的一或多个非暂时性计算机可读媒体，其中：

23.根据权利要求22所述的一或多个非暂时性计算机可读媒体，其中：

24.根据权利要求23所述的一或多个非暂时性计算机可读媒体，其中：

25.根据权利要求23所述的一或多个非暂时性计算机可读媒体，其中：

26.根据权利要求21所述的一或多个非暂时性计算机可读媒体，其中：

所述属性为所述像素强度的方差。

27.根据权利要求21所述的一或多个非暂时性计算机可读媒体，其进一步包括：

第六指令，其用以使用所述属性与查找表以识别所述参数。

28.根据权利要求21所述的一或多个非暂时性计算机可读媒体，其进一步包括：

第六指令，其用以使用所述属性来检查所述部分是否满足所述预定测试。

29.根据权利要求28所述的一或多个非暂时性计算机可读媒体，其进一步包括：

第七指令，其用以在执行所述第四指令之前从所述图像裁剪由与所述部分配合的最小矩形所界定的矩形区域。

30.根据权利要求21所述的一或多个非暂时性计算机可读媒体，其中所述至少一个最大稳定极值区域为下文的第一最大稳定极值区域，所述一或多个非暂时性计算机可读媒体进一步包括：

第六指令，其用以对所述图像子取样以获得经子取样版本；

第七指令，其用以处理所述图像的所述经子取样版本以识别所述经子取样版本中的第二最大稳定极值区域；及

第八指令，其用以使用所述第二最大稳定极值区域的最小尺寸以识别待经受所述处理的所述部分。

31.一种用以识别图像中的区域的设备，所述设备包括：

用于接收现实世界的场景的图像的装置；

用于基于所述图像中的像素强度计算属性的装置；

用于将所述属性与查找表或预定测试一起使用来识别待用于处理所述图像的至少一个输入以识别其中的至少一个最大稳定极值区域的装置；其中所述至少一个输入为(A)或(B)中的一者、或(A)与(B)两者，(A)为从所述查找表获得的且在用于所述处理中使用的参数Δ或最大变化或参数Δ和最大变化两者，(B)为待经受所述处理的所述图像的一部分，通过将所述预定测试应用于所述图像中的经子取样区而在所述处理之前而获得所述部分；

用于执行所述处理来基于所述至少一个输入来识别所述至少一个最大稳定极值区域的装置；

用于在一或多个存储器中存储所述列表作为由所述处理识别的所述至少一个最大稳定极值区域的表示的装置。

32.根据权利要求31所述的设备，其中：

33.根据权利要求31所述的设备，其中：

所述属性与查找表一起用来识别所述参数。

34.根据权利要求31所述的设备，其进一步包括：

用于对所述图像子取样以获得经子取样版本的装置；

用于识别所述图像的所述经子取样版本中的额外最大稳定极值区域的装置；及

用于使用所述额外最大稳定极值区域的最小尺寸以识别待经受所述处理的所述部分的装置。