CN103597500A

CN103597500A - 用于辨识对象中的文本信息的系统和方法

Info

Publication number: CN103597500A
Application number: CN201280026582.XA
Authority: CN
Inventors: 丘衡一; 延奇宣; 朝玄默
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-06-29
Filing date: 2012-06-01
Publication date: 2014-02-19
Also published as: US9418304B2; US20130004076A1; EP2727048A1; JP2016167273A; KR20140010164A; KR101499379B1; WO2013002955A1; JP2014524085A

Abstract

揭示一种用于辨识对象中的文本块的方法。所述文本块包含字符组。俘获并接收所述对象的多个图像。接着通过提取所述对象图像中的一者中的图案并比较所述所提取图案与预定图案来识别所述所接收图像中的所述对象。另外，基于所述所识别对象的预定大小信息来检测并验证所述对象图像中的每一者中的所述对象的边界。基于所述所识别对象的预定位置信息识别所述对象图像中的文本块。基于所述所识别对象的格式信息产生所述所识别文本块中的临时字符组。基于所述临时字符组，确定所述对象中的所述文本块中的字符组。

Description

用于辨识对象中的文本信息的系统和方法

对相关申请案的交叉参考

本申请案是基于2011年6月29日申请的第61/502,781号美国临时专利申请案及2012年2月7日申请的第13/367,764号美国非临时专利申请案且主张其优先权权利，所述两申请案的全部内容以引用的方式并入本文。

技术领域

本发明大体上涉及辨识文本信息。更具体来说，本发明涉及用于辨识具有指定形式的对象中的文本块的系统和方法。

背景技术

现代移动装置已演变到经由使用相机以及高速处理器而包含图像俘获能力。利用此些特征，一些移动装置已提供文本辨识能力以辨识来自文档的所俘获影像的文本。此些移动装置的用户已将此些能力的使用扩展到超出纸质文档的对象，例如信用卡、身份证等，以辨识所述对象中的文本信息。

移动装置中的常规文本辨识方法一般基于单个对象图像辨识对象中的文本块。举例来说，具有常规文本辨识能力的移动装置通常允许用户俘获对象的单个图像。接着通过处理所述对象图像来辨识所述对象图像中的文本块。

然而，基于单个对象图像的此些常规文本辨识方法常常归因于可俘获图像的不同条件而在辨识文本块中的字符时不准确。举例来说，对象的图像可能是在并非最佳的光照条件(例如光反射、不良照明，等)下来俘获，此可使所俘获图像的质量降级。另外，在移动装置设定中，图像的一些部分可能是在散焦的情况下俘获，或可能归因于用户控制中的移动装置的不必要运动而模糊。

因此，需要一种允许在俘获对象图像的各种条件中较准确地辨识对象中的文本块的方法和系统。

发明内容

本发明提供用于使用时间滤波来辨识对象中的文本块的系统和方法。

根据本发明的一个方面，揭示一种用于辨识对象中的文本块的方法。所述文本块具有字符组。所述方法包含接收对象的多个图像。所述对象的每一图像包含所述文本块。识别所述对象的所述图像中的所述文本块。基于所述对象的所述多个图像中的所述所识别文本块来确定所述字符组。本发明还描述与此方法有关的装置、设备、装置组合和计算机可读媒体。

附图说明

图1说明根据本发明的一个实施例的用于从对象图像辨识对象中的文本块的系统的框图，其包含客户端装置及服务器。

图2说明根据本发明的另一实施例的用于从对象图像辨识对象中的文本块的客户端装置系统的框图。

图3描绘根据本发明的一个实施例的呈包含可辨识的文本块的信用卡的形式的示范性对象的图像。

图4描绘根据本发明的一个实施例的呈包含可辨识的文本块的驾照的形式的示范性对象的图像。

图5为根据本发明的一个实施例的包含用于具有文本块的各种对象的识别及配置信息的示范性对象数据库的图。

图6说明根据本发明的一个实施例的用于从对象图像辨识文本块的客户端装置的详细框图。

图7为根据本发明的一个实施例的用于辨识对象中的文本块的方法的流程图。

图8说明根据本发明的一个实施例的用于基于对象的预定图案从对象的图像识别对象的方法的流程图。

图9说明根据本发明的另一实施例的用于基于对象数据库从对象的图像识别对象的方法的流程图。

图10说明根据本发明的一个实施例的用于检测对象的边界及识别对象的图像中的文本块的方法的流程图。

图11和12展示根据本发明的一些实施例的对象的所检测边界。

图13为展示根据本发明的一个实施例的对象的所检测边界与对象的实际边界之间的关系的图。

图14说明根据本发明的一个实施例的对象的所识别文本块。

图15说明根据本发明的一个实施例的用于基于临时字符组推断对象中的文本块中的字符组的方法的流程图。

图16说明根据本发明的一个实施例的用于确定对象中的文本块中的字符组的时间滤波器的框图。

图17说明根据本发明的一个实施例的基于临时字符组推断对象中的文本块中的字符组的图。

图18描绘根据本发明的一个实施例的供用于推断对象中的文本块中的字符组的以字符为基础的一群临时字符组。

图19描绘根据本发明的另一实施例的供用于推断对象中的文本块中的字符组的以字为基础的一群临时字符组。

图20为根据本发明的一个实施例的用于通过用户验证辨识结果的方法的流程图。

图21说明根据本发明的一个实施例的在显示器上显示中间辨识结果的图。

图22说明根据本发明的一个实施例的在显示器上显示最终辨识结果的图。

图23展示在无线通信系统中的示范性移动装置的配置。

具体实施方式

现将参看图式描述各种实施例，其中相同参考数字始终用以指代相同元件。在以下描述中，为达成解释的目的，阐述许多特定细节以便提供对一个或一个以上实施例的透彻理解。然而，可显而易见，此(此些)实施例可在无此等特定细节的情况下得以实践。在其它例子中，以框图形式展示熟知的结构和装置以促进描述一个或一个以上实施例。

图1说明根据本发明的一个实施例的用于从对象的多个图像辨识对象中的文本块的系统100的框图。系统100包含经由网络130通信的客户端装置110及服务器120。客户端装置110经配置以俘获具有字符的一个或一个以上指定文本块的对象(例如信用卡、名片、驾照、护照、识别文档，等)的多个图像，且辨识所述对象中的文本块。在一个实施例中，客户端装置110可基于对象图像中的指定图案来识别所述对象，且向服务器120提供对象识别信息。客户端装置110可为配备有图像俘获能力(例如，相机或摄像机)及经由通信网络的通信能力的任何适当计算机或移动装置，例如智能电话、膝上型计算机、平板计算机，或其类似者。

服务器120从客户端装置110接收对象识别信息，且基于所述对象识别信息存取对象数据库140。对象数据库140提供关于多个对象的信息，包含例如对象识别及配置信息(例如对象布局及文本块信息)等关于对象的信息。举例来说，在信用卡的情况下，对象识别信息可包含关于信用卡的类型(例如，Visa卡或万事达卡)、发卡银行的名称等的信息。对象配置信息包含关于对象的布局(包含对象的大小、文本块的位置及字符格式，等)的信息。对象数据库140可包括如稍后将参考图5描述的额外信息。服务器120将所识别对象的配置信息提供到客户端装置110。

客户端装置110可经由网络130从服务器120接收所识别对象的配置信息，包含关于对象配置及文本块的相关联信息。基于所接收的配置信息，客户端装置110识别并辨识文本块，且推断文本块中的字符。

在另一实施例中，对象数据库140可提供在客户端装置110而非服务器120中。图2说明根据本发明的另一实施例的用于从对象的多个图像辨识对象中的文本块的客户端装置系统200(包含对象数据库140)的框图。在此实施例中，客户端装置210以与客户端装置110类似的方式操作。客户端装置210可基于对象图像中的指定图案来识别对象。另外，从存储在客户端装置210中的对象数据库140，客户端装置210检索所识别对象的配置信息，包含关于对象的大小、文本块的位置及格式等的信息。

本发明的方法和系统适用于包含文本信息的任何对象。举例来说，对象可为呈电子或纸质格式的文档对象，或例如信用卡、名片、驾照、识别文档等的物理对象。一般来说，对象可具有识别，且可与将其与其它对象区别开来的配置信息相关联。

图3说明根据本发明的一个实施例的呈信用卡300的形式的示范性对象的图像，所述图像可经俘获以用于辨识文本块304、306及308。如图所示，信用卡300包含多个文本块304、306及308，其包含可辨识的文字数字字符。文本块304包含唯一卡号，而文本块306含有由月/年组成的到期日期。另外，文本块308包含持卡人姓名。

信用卡300还包含具有发卡单位的识别信息的块302。举例来说，所述块302可含有文本信息和/或图像，例如发卡单位(例如，ABC银行)的图案或徽标，其可将对象300识别为信用卡。可通过辨识块302中的识别信息和/或卡300中所提供的其它识别信息或图案来确定信用卡300的特定类型。

一般来说，信用卡300的布局及格式由发卡单位预先确定，且对于来自相同发行方的相同类型的信用卡是相同的。明确地说，例如卡300的大小及方块302到308的位置、布局及格式等配置信息对于相同类型的卡通常是相同的。举例来说，可通过指定点界定文本块304到308的位置，例如相对于信用卡300的参考位置的左手顶部拐角点及右手底部拐角点。信用卡300的配置信息及识别信息预先存储在对象数据库140中，如下文中将参考图5更详细地描述。

图4描绘根据本发明的一个实施例的呈驾照400的形式的另一示范性对象的图像，所述图像可经俘获以用于辨识文本块404、406、408及410。驾照400包含块402，其提供发卡单位的名称的识别信息。举例来说，块402包含文本信息和/或例如图案或徽标等图像，其可将对象400识别为特定发行机构(例如，ABC州)的驾照。

如图所示，驾照400还包含多个文本块404到410。文本块404包含证照号码，而文本块406含有由月-日-年组成的到期日期。另外，文本块408包含拥有者的姓名，且文本块410包含拥有者的地址。

通常，例如驾照400的布局及格式等配置信息由发卡单位预先确定，且对于来自相同发行方的相同类型的其它证照卡是相同的。此配置信息随识别信息一起存储在对象数据库140中，如稍后将更详细地描述。在一些实施例中，客户端装置110(或客户端装置210)从对象数据库140检索此配置信息以基于所述配置信息辨识文本块。

图5说明根据本发明的一个实施例的包含用于具有一个或一个以上文本块的多个对象的识别及配置信息的示范性对象数据库140。对象数据库140可经产生且存储在服务器120和/或客户端装置210中。对于每一对象，数据库140包含所述对象的识别信息及配置信息。

如图5中所示，对象数据库140包含图3中的信用卡300、图4中的驾照400等的识别及配置信息。每一对象的识别信息包含对象类型及对象发行方或来源的名称。举例来说，在信用卡300的情况下，发行方的名称“ABC银行”连同对象类型“信用卡”一起存储在对象数据库140中。类似地，对象类型“驾照”及发行方名称“ABC州”存储在对象数据库140中以识别所述对象。此外，数据库140还可存储每一对象的其它类型的识别信息，例如徽标或图案。

对象数据库140还含有对象中的每一者的配置信息，包含对象的大小及可辨识的每一文本块的位置、布局及格式。大小信息可提供例如信用卡300及驾照400等对象的纵横比。大小信息可提供到客户端装置110，其可验证与来自数据库140的大小信息相比，图像中的对象的所检测边界是否正确。信用卡300的文本块I、II及III分别包含图3中的文本块304、306及308的位置信息，而驾照400的文本块I、II、III及IV分别含有图4中的文本块404、406、408及410的位置信息。在此布置中，文本块I、II、III及IV中的每一者提供具有指定单位(例如，对象图像中的像素)的两个坐标以指示各别块的左上部顶点及右下部顶点相对于对象的参考位置的位置。在此情况下，可通过使用相对于对象的左手顶部拐角处的参考位置的两个坐标来识别每一文本块的位置，因为每一文本块配置为矩形。举例来说，从信用卡300的文本块I的两个坐标(1.2，4.4)及(12，5.4)，可通过四个顶点的坐标(1.2，4.4)、(12，4.4)、(1.2，5.4)及(12，5.4)来界定信用卡300的文本块I的位置。因此，文本块I的宽度及高度分别确定为10.8(=12-1.2)及1(=5.4-4.4)。文本块的此位置信息可提供到客户端装置110，使得可在例如信用卡300、驾照等的对象中识别文本块的几何位置。

数据库140还包含文本块I、II、III及IV中的每一者的字符格式，例如每一文本块内的字符的数目、字符的布置，和/或字符的类型。举例来说，信用卡300的文本块I的字符格式提供字符格式“****************”(其指示文本块304中的字符的数目及布置)及“号码”(其指示文本块中的字符为数字)。文本块的字符格式可提供到客户端装置110以供用于辨识文本块中的字符。在一些实施例中，配置信息还可包含对象的形状、文本字符的色彩/字体、字符的语言，等。

图6说明根据本发明的一个实施例的图1中的客户端装置110的详细框图。客户端装置110包含图像俘获单元610、对象辨识单元620、边界检测器630、矫正单元640、遮蔽单元650、OCR引擎660、时间滤波器670，及图形处理单元680。图像俘获单元610包含图像传感器(例如，摄像机或数码相机)以俘获对象的具有指定配置或布局的多个图像(例如，一连串图像)。图像俘获单元610将对象的图像提供到对象辨识单元620以用于识别所述对象。从所述对象图像，对象辨识单元620提取图案，并将所述图案与服务器120或客户端装置110所提供的各种已知对象的预定图案进行比较。当发现所述图案匹配已知对象的图案时，将所述对象识别为已知对象。或者，对象辨识单元620可经由客户端装置110所提供的用户接口(未图示)来从用户输入接收所述对象的识别。如下文中将更详细地描述，对象识别信息提供到服务器120以从对象数据库140中检索对象配置信息。

图像俘获单元610将对象的图像提供到边界检测器630以用于检测图像中的所识别对象的边界。边界检测器630还从服务器120接收所述对象的配置信息(例如，对象大小或纵横比)。对于每一图像，边界检测器630通过基于所接收的配置信息确定对象区域的边界特征(例如拐角及边缘)来识别界定所述对象区域的图像中的对象的边界。基于所识别边界，边界检测器630从所述图像中的每一者提取对象区域的图像，且将对象区域的图像提供到矫正单元640。

因为来自所俘获对象图像的对象区域的图像不可能准确地反映对象的大小、形状和/或定向，因此在矫正单元640中矫正每一对象区域图像。矫正单元640经配置以从服务器120接收对象的配置信息(例如大小信息(例如，纵横比、长度，及宽度))，且基于对象的大小信息矫正对象区域的图像。举例来说，可变换图像中的对象区域以匹配对象的纵横比。经矫正对象区域的图像可被提供到遮蔽单元650。

从所提取且经矫正的对象区域，通过遮蔽其位置而识别文本块。遮蔽单元650从服务器120接收对象中的文本块的配置信息，例如文本块的位置及大小等。基于文本块的配置信息，遮蔽单元650识别图像中的每一者中的对象区域中的文本块。在一些实施例中，遮蔽单元650使用关于对象区域中的文本块的位置的信息来识别所述对象区域内的每一文本块的几何位置。通过识别文本块的几何位置，遮蔽单元650可避免读取或处理来自对象图像中的其它区域的不必要信息。

对于对象区域中的所识别文本块中的每一者，OCR引擎660辨识所述文本块中的字符。OCR引擎660经配置以从遮蔽单元650接收图像中的每一者中的所识别文本块，且从服务器120接收对象配置信息(包含文本块的字符格式)。基于所述对象配置信息，OCR引擎660辨识所述文本块中的每一者中的字符以针对每一文本块产生一临时字符组。来自图像的文本块的所述临时字符组接着由时间滤波器670用以确定所述文本块的一组最终字符。字符格式信息可包含文本块中的每一者中的字符的数目、字符的布置、字符的文本色彩/字体、字符的语言类型，等。在此配置中，可使用稍后将详细描述的整体方法或分段方法辨识临时字符组。

时间滤波器670基于来自在一段时间内俘获的对象的多个图像的临时字符组来针对对象中的文本块中的每一者确定一组最终字符。最初，时间滤波器670从OCR引擎660接收对应于对象图像中的每一文本块的临时字符组。时间滤波器670通过从用于所述对象的文本块中的每一者的临时字符组推断字符组来确定一组最终字符。在确定所述组最终字符时，可基于每一字符或每一字在所述临时字符组中的出现次数而逐字符或逐字地推断所述字符。因此，当字符或字的出现次数超出预定阈值时，可从所述临时字符组推断出文本块中的每一字符或每一字。

在一个实施例中，基于所述临时字符组反映文本块中的字符的清晰度的置信度水平来推断所述字符组。当OCR引擎660产生一临时字符组时，其比较存储在OCR引擎660中的参考字符或字与对象图像中的文本块中的每一字符或字之间的相似度值。基于所述相似度值，将具有最大相似度值的字符或字识别为所述临时字符组中的字符或字。在此情况下，字符或字的相似度值可在确定文本块中的一组最终字符时用作置信度水平。

此外，时间滤波器670可在执行文本辨识的同时将字符辨识结果提供到图形处理单元680以待显示。客户端装置110可包含用于显示对象中的至少一个文本块的辨识结果的显示器。或者，所述显示器可安装在与客户端装置110分离的另一装置中，且经由网络连接到客户端装置110。所述显示器可为用以输出对象中的文本块的对象图像和/或辨识结果的任何适当电子视觉显示器，包含LCD(液晶显示器)、PDP(等离子显示面板)，或LED(发光二极管)等。

尽管图6描述与服务器120通信的图1中的客户端装置110，但图6中的客户端装置110的配置及操作可适用于具有图2中的系统200中的数据库140的客户端装置210。

图7为根据本发明的一个实施例的用于辨识对象中的文本块的方法的流程图。在710，图像俘获单元610俘获并接收包含一个或一个以上文本块的对象的多个图像。对象的图像可为在一段时间内俘获的一连串图像(例如，对象的视频帧)。在720，将所俘获图像提供到对象辨识单元620，其经配置以识别所接收图像中的对象。一旦已识别所述对象，对象辨识单元620就将对象的识别信息提供到服务器120，服务器120将所识别对象的配置信息发送到客户端装置110。在730，通过基于配置信息(例如文本块的位置信息)确定文本块的位置来识别对象的图像中的每一者中的文本块。在识别对象中的文本块之前，可通过边界检测器630基于大小信息(例如对象的纵横比，等)检测并验证每一图像中的对象的边界，如将参考图10所详细描述。

在740，基于对象图像中的所识别文本块来确定用于对象图像中的每一文本块的字符组。具体地说，通过OCR引擎660辨识所识别文本块中的每一者以产生一临时字符组，所述临时字符组提供到时间滤波器670以确定用于每一文本块的一组最终字符。在750，图形处理单元680接收所述组最终字符以用于输出到显示器，在所述显示器上显示所述组最终字符。

图8说明根据本发明的一个实施例的用于识别所接收图像的对象的图7中的720的更详细流程图。在810，将识别多个对象的预定图案的数据库存储在客户端装置110中，且其可由对象辨识单元620存取。在820，对象辨识单元620从图像俘获单元610接收所俘获图像，且从可识别对象的图像提取图案。一般来说，例如徽标和/或一组特征点等图案由对象的来源(例如，信用卡发卡银行)预先确定，且提供在相同类型的对象上。因此，对象的预定图案一般来说不同于不同类型的其它对象的图案。

在一些实施例中，可在构建数据库时从对于对象的类型为唯一的参考对象的一部分提取预定图案。具体地说，参考对象的所述部分可位于反掩蔽区域(inversemaskregion)中，反掩蔽区域是指参考对象中的文本块所不位于的区域。以此方式，可从对象的反掩蔽区域提取预定图案以构建与多个参考对象相关联的数据库。

在对象的识别期间，可提取对象的任何区域作为图案的一部分。当从对象图像提取包含文本块的掩蔽区域中的图案时，在识别对象时不需要考虑所述图案，因为预定图案是从对象的文本块所不位于的反遮蔽区域提取。即，可假定此类掩蔽区域不含有可用于识别对象的任何图案。因此，可改进识别对象时的准确度，同时减少处理时间。

给定所提取图案，在830，对象辨识单元620从匹配所述所提取图案的图案数据库识别预定图案。具体地说，通过比较所提取图案与数据库中的预定图案来确定所述预定图案。在840，对象辨识单元620基于匹配的预定图案从图案数据库识别所接收图像中的对象。在850，接着将关于所识别对象的信息提供到服务器120，服务器120将所识别对象的配置信息发送到客户端装置110。

在另一实施例中，可将图案数据库提供在对象数据库140中。图9说明根据本发明的另一实施例的用于通过存取对象数据库140识别所接收图像的对象的图7中的720的更详细流程图。在910，将预定图案存储在对象数据库140中，对象数据库140可存储在客户端装置110或服务器120中。在920，通过对象辨识单元620以与图8中的步骤820类似的方式从对象的一部分(例如，反掩蔽区域)提取对象的图像中的图案。在此情况下，在930，对象辨识单元620从对象数据库140获得对应于所提取图案的预定图案。

在940，基于所述预定图案，对象辨识单元620识别所接收图像中的对象。接着将关于所识别对象的信息提供到服务器120，服务器120将所识别对象的配置信息发送到客户端装置110。客户端装置110接着从存储在客户端装置110中的对象数据库140获得所识别对象的配置信息。或者，在对象数据库140存储在服务器120中的情况下，对象辨识单元620将所识别对象提供到服务器120，且从服务器120接收与所识别对象有关的配置信息。尽管图8及9描述从单个图像对象，但对象辨识单元620还可经配置以从多个所接收图像识别对象。

或者，可基于用户输入识别对象。在此情况下，对象辨识单元620根据经由在客户端装置110中提供的用户接口(未图示)进行的用户输入来识别对象。在一个实施例中，对象辨识单元620可提供可用对象的列表，使得用户可经由所述用户接口选择所述对象中的一者。因此，对象辨识单元620可在没有从所接收图像提取图案所需的处理的情况下准确地识别所接收图像中的对象。

一旦已识别所接收图像的对象，就可处理所述图像以识别文本块。图10说明根据本发明的一个实施例的用于识别对象中的文本块的730的更详细流程图。在1010，客户端装置110从对象数据库140接收关于所识别的对象的配置信息。所述配置信息包含对象的大小信息(例如，纵横比、实际大小，等)、对象中的文本块的位置信息、文本块的字符格式，等。在对象数据库140存储在服务器120中的情况下，所接收配置信息可存储在客户端装置110中的存储器(未图示)中以供用于识别及辨识对象中的文本块。举例来说，边界检测器630、矫正单元640、遮蔽单元650及OCR引擎660可从客户端装置110中的存储器存取所述配置。

在1020，边界检测器630通过确定对象区域的边界特征(例如拐角及边缘)来检测每一图像中的对象的边界。在1030，可验证每一图像中的对象的所检测边界以基于边界特征、用于俘获图像的焦距及对象纵横比来确定是否已正确地识别所述边界。可将对象的所识别边界内的对象图像中的每一者提供到遮蔽单元650以用于识别对象图像中的文本块。在1040，遮蔽单元650接收对象中的文本块的位置信息，且识别对象的每一所接收图像中的每一文本块。在一些实施例中，在识别文本块之前，矫正单元640可矫正每一图像中的对象区域以匹配作为配置信息的部分而接收的对象的纵横比。

图11和12展示根据一个实施例的分别从信用卡300的对象图像1100及1200检测到的对象边界1110及1210。在图11中，信用卡300的所检测边界1110并不匹配对象300的边界，且因此并未正确地识别。在此情况下，边界检测器630可丢弃所述所检测边界，且从信用卡300的另一对象图像检测信用卡300的边界。因此，如果已不正确地识别来自信用卡300的一个图像的边界，则可从另一图像检测边界。可重复此边界检测直到检测到准确边界为止。图12展示准确边界检测的情况，其中信用卡300的所检测边界1210匹配对象300的实际边界。

图13为根据本发明的一个实施例的展示所接收图像1310中的具有四个点a、b、c及d的对象区域1320的所检测边界1330与具有四个点A、B、C及D的矩形对象1340的实际边界之间的关系的图。对象区域1320展示为具有透视失真，其可由俘获图像时相机相对于对象的非平行对准而引起。如图所示，点a、b、c及d对应于对象区域1320的所检测边界1330的四个拐角点。从相机的参考原点1300(例如，相机中央)，各线分别经由点a、b、c及d投影到点A、B、C及D。在此情况下，点A、B、C及D界定对象的矩形1340的四个拐角点。在相机的焦距f及四个拐角点a、b、c及d的坐标(x₁，y₁)、(x₂，y₂)、(x₃，y₃)及(x₄，y₄)处于对象区域1320的所检测边界1330处的情况下，可如下用三维坐标表达所述四个拐角点a、b、c及d的坐标：

O_a＝(x₁，y₁，f) [1]

O_b＝(x₂，y₂，f) [2]

O_c＝(x₃，y₃，f) [3]

O_d＝(x₄，y₄，f) [4]

如图所示，可如下基于相机的参考原点1300、由拐角点a、b、c及d组成的所检测边界1330及由拐角点A、B、C及D组成的矩形1340之间的几何关系计算矩形1340的向量

及

\overset{&RightArrow;}{AB} &equiv; (O_{a} \times O_{b}) \times (O_{d} \times O_{c}) - - - [5]

\overset{&RightArrow;}{AD} &equiv; (O_{b} \times O_{c}) \times (O_{a} \times O_{d}) - - - [6]

另外，可如下用参数t₁表达穿过矩形1340中的点A及B的线的方程式：

(\begin{matrix} X_{1} (t_{1}) \\ Y_{1} (t_{1}) \\ Z_{1} (t_{1}) \end{matrix}) = A + t_{1} \overset{ρ}{h} - - - [7]

\overset{ρ}{h} = \frac{\overset{&RightArrow;}{AB}}{| \overset{&RightArrow;}{AB} |} - - - [8]

其中点A的坐标可设定为O_a，其等于点a的坐标而不具有实质差异，因为将计算由点A、B、C、D组成的矩形的纵横比而非其实际大小。另外，可根据方程式[5]及[8]计算向量

类似地，可如下用参数t₂表达矩形1340中的线AD的方程式:

(\begin{matrix} X_{2} (t_{2}) \\ Y_{2} (t_{2}) \\ Z_{2} (t_{2}) \end{matrix}) = A + t_{2} \overset{ρ}{v} - - - [9]

\overset{ρ}{v} = \frac{\overset{&RightArrow;}{AD}}{| \overset{&RightArrow;}{AD} |} - - - [10]

其中点的坐标亦可设定为如上所述的O_a，且可根据方程式[6]及[10]计算向量

可如下分别就由参数t₁及t₂组成的方程式[7]及[9]的坐标来表达点b及d的二维坐标：

(f \frac{X_{1} (t_{1})}{Z_{1} (t_{1})}, f \frac{Y_{1} (t_{1})}{Z_{1} (t_{1})}) = (x_{2}, y_{2}) - - - [11]

(f \frac{X_{2} (t_{2})}{Z_{2} (t_{2})}, f \frac{Y_{2} (t_{2})}{Z_{2} (t_{2})}) = (x_{4}, y_{4}) - - - [12]

根据以上方程式[9]到[12]，可确定未知量t₁及t₂，且可获得B及D的坐标。利用所计算出的A、B及D的坐标，可计算纵横比

因此，如果所计算的纵横比与从对象数据库140接收的实际纵横比之间的差在阈值内，则边界检测器630可验证所检测边界为正确的。

在已检测并验证边界之后，边界检测器630可提取位于对象图像的所检测边界内的对象的图像。此图像对应于对象图像的对象区域。在一些实施例中，所提取图像可提供到矫正单元640，矫正单元640矫正所述对象区域。举例来说，矫正单元640可从服务器120接收配置信息(例如对象的纵横比)，且通过变换对象区域以匹配所述对象的纵横比来矫正所述对象区域。

在已矫正对象的每一图像中的对象区域之后，处理经矫正图像以识别所述经矫正图像中的一个或一个以上文本块。图14描绘根据本发明的一个实施例的在经验证边界1410内的具有可识别的文本块1420、1430、1440的信用卡300的图像1400。在此情况下，遮蔽单元650接收文本块1420、1430及1440在信用卡图像1400中的位置信息。举例来说，所述位置信息可包含文本块1420、1430及1440的几何位置及大小。基于所述位置信息，遮蔽单元650接着识别信用卡300的图像1400中的可辨识的文本块1420、1430及1440。具有所识别文本块1420、1430及1440的信用卡300的此图像1400可提供到OCR引擎660以用于辨识文本块1420、1430及1440的字符。

图15说明根据一个实施例的用于基于对象的多个图像中的对应文本块的临时字符组来确定对象中的文本块中的字符组的图7中的740的更详细流程图。OCR引擎660最初从遮蔽单元650接收对象的多个图像，每一图像具有所识别的文本块。另外，在1510，OCR引擎660从客户端装置110或服务器120接收关于对象的文本块中的字符组的格式信息。举例来说，所述格式信息包含文本块的字符格式，例如文本块中的字符的数目、布置、类型，字符的语言等。

在1520，OCR引擎660基于所述格式信息辨识对象图像中的文本块中的每一者以产生临时字符组。在一个实施例中，所述临时字符组是基于整体方法而产生，整体方法是指作为整体辨识对象中的文本块中的每一字。在另一实施例中，所述临时字符组是基于分段方法而产生，所述分段方法将文本块中的每一字分段成个别字符，且接着辨识所述字中的每一字符。整体方法及分段方法两者皆可基于所接收的格式信息产生对象图像中的文本块中的临时字符组。在1530，时间滤波器670从OCR引擎660接收所述文本块的所述临时字符组，且接着基于所接收的临时字符组推断对象中的文本块的字符组，如将参考图16到19所详细描述的。

图16说明根据本发明的一个实施例的用于基于从对象的多个图像中的文本块产生的临时字符组确定对象的文本块中的字符组的时间滤波器670的框图。时间滤波器670包含缓冲器1610、文本推断单元1630及文本显示单元1650。缓冲器1610存储从OCR引擎660接收的多个对象图像中的文本块产生的临时字符组。基于所述临时字符组，文本推断单元1630确定对象中的文本块的字符组。文本显示单元1650接收由文本推断单元1630辨识出的文本块中的所述字符组，其被提供到图形处理单元680，用于在显示器上显示对象中的文本块的所述字符组。尽管时间滤波器670确定文本块的字符组，但对象可包含多个文本块，对于其中的每一者，可从对应的临时字符组确定字符组。即，时间滤波器670可针对对象中的每一文本块从对应于对象图像中的所述文本块的临时字符组确定字符组。

在一些实施例中，可增加对象的样本图像的数目以增强文本块的辨识准确度。在此情况下，文本推断单元1630可发送请求到图像俘获单元610以俘获对象的额外图像，使得可从OCR引擎660产生对象中的文本块的额外临时字符组。此过程可继续，直到已实现文本块中的所要准确度。

文本推断单元1630可基于存储在缓冲器1610中的临时字符组中的每一字符或字的出现次数来以字符或字为基础推断文本块中的字符组。此外，可考虑所述临时字符组中的每一者置信度水平(例如文本块中的字符的清晰度或所述临时字符组中的所识别字符或字的相似度值)以用于推断所述字符组。

图17描绘根据本发明的一个实施例的从一段时间内俘获的多个对象图像1700、1702及1704推断信用卡300中的示范性文本块304中的字符组1718的图。最初，OCR引擎660依序或同时接收所述多个信用卡图像1700、1702及1704。对于对象图像1700、1702及1704中的每一者，OCR引擎660分别产生用于文本块1706、1708及1710的一临时字符组1712、1714及1716。在此过程中，所述临时字符组1712、1714及1716是使用字符格式信息(例如如图5中所示的文本块304中的字符的数目、文本块304中的字符的布置，及文本块304中的字符的类型)而产生的。

在一些实施例中，所述临时字符组1712、1714及1716是基于如上文所提及的整体方法或分段方法而产生。在整体方法下，举例来说，以字为基础辨识文本块1706中的多个字(例如“1234”、“5678”、“9876”及“5432”)，且组合所述字以形成所述临时字符组1712。或者，在分段方法中，通过分别将文本块1706、1708或1710中的字符分段成个别字符(例如，1、2、3，等)且个别地辨识每一字符来产生每一临时字符组1712、1714或1716。

接着使用所述多个临时字符组1712、1714及1716来推断时间滤波器670中的文本块304的所述组最终字符1718。时间滤波器670从OCR引擎660接收所述临时字符组1712、1714及1716及所述临时字符组1712、1714及1716中的每一者的置信度水平。接着基于所述临时字符组1712、1714及1716以字符或字为基础推断文本块304的所述组最终字符1718。在以字符为基础的方法中，举例来说，可基于所述临时字符组1712、1714及1716中的相应第一字符“1”、“4”及“1”推断所述组最终字符1718的第一字符(例如，数字)。可以类似方式基于所述临时字符组1712、1714及1716中的对应位置中的字符来确定所述组最终字符1718中的其它字符。在以字为基础的方法中，基于所述临时字符组1712、1714及1716中的第一字“1234”、“4234”、“1234”来推断文本块304的所述组最终字符1718的第一字。以类似方式，从所述临时字符组1712、1714及1716中的对应位置中的字来推断所述组最终字符1718中的其它字。在一些实施例中，可基于字符或字在所述临时字符组1712、1714及1716中的出现次数和/或临时字符组1712、1714及1716的置信度水平来推断所述组最终字符1718，如下文中将更详细地描述。尽管说明了三临时字符组1712、1714及1716来推断所述组最终字符1718，但可使用多于或少于三临时字符组来确定对象中的文本块中的字符组。

图18说明根据本发明的一个实施例的供用于逐字符地推断信用卡300中的文本块304的最终字符组中的字符的多个临时字符组1810、1820、1830、1840、1850、1860及1870。如图所示，临时组1810到1870中的字符根据其在文本块304中的位置而分组成多个群组1800、1802、1804及1806。举例来说，群组1800由临时字符组1810到1870中的第一字符组成。类似地，群组1802、1804及1806分别包含临时组1810到1870中的第二、第三及第四字符。

基于处于相同位置中的字符的分组，从字符在对象的多个图像的文本块中的临时字符组中的每一位置中的出现次数来推断对象中的文本块的字符。举例来说，在第一字符群组1800中，文本推断单元1630推断文本块304的第一字符为“1”，因为“1”在临时字符1810到1870中的第一字符位置中的出现多于任何其它字符。

以确保进一步准确度，文本推断单元1630可经配置以仅当字符在一位置处的出现次数超过预定阈值(例如，3)时才推断一字符。在第一字符群组1800的情况下，字符“1”的出现为四，且因此，确定字符“1”为文本块304中的第一字符。在尚未超过预定阈值的情况下，文本推断单元1630可经配置以发送请求到图像俘获单元610以俘获信用卡300的额外图像。一旦基于所述额外对象图像产生新的临时字符组，文本推断单元1630就基于包含所述新临时字符组的近期临时字符组来推断文本块304的最终字符组的字符。

在一些实施例中，基于临时字符的置信度水平以及在文本块中的临时字符组中的对应位置中的出现次数从对象的多个图像推断对象中的文本块的字符组中的字符。举例来说，在第一字符群组1800中，第一字符“4”、“4”及“4”的置信度水平的平均值(例如，90)可高于第一字符“1”、“1”、“1”、及“1”的置信度水平的平均值(例如，60)。在此情况下，文本推断单元1630可推断第一字符为“4”，因为置信度水平的平均值乘以第一字符“4”的出现次数高于第一字符“1”(即，90*3＝270＞60*4＝240)。因此，用于文本块304的第一字符的推断过程可适用于文本块304中的其它字符中的每一者。此外，可以类似方式从依据多个对象图像辨识出的临时字符组推断信用卡300中的其它文本块306及308中的字符。

图19说明根据本发明的另一实施例的供用于逐字地推断信用卡300中的文本块304的最终字符组中的字的多个临时字符组1910、1920、1930、1940、1950、1960及1970。如图所示，临时组1910到1970中的字根据其在文本块304中的位置而分组成多个群组1900、1902、1904及1906。举例来说，群组1900由临时字符组1910到1970中的第一字组成。类似地，群组1902、1904及1906可分别包含临时组1910到1970中的第二、第三及第四字。

基于处于相同位置中的字的分组，从字在对象的多个图像的文本块中的临时字符组中的每一位置中的出现次数来推断对象中的文本块的字。举例来说，在第一字群组1900中，文本推断单元1630推断文本块304的第一字为“1234”，因为“1234”在临时字1910到1970中的第一字符位置中的出现多于任何其它字。在此情况下，如果尚未超过出现次数的预定阈值，则文本推断单元1630可经配置以发送请求到图像俘获单元610以俘获信用卡300的额外图像。在此情况下，从所述额外对象图像产生新的临时字符组，且利用所述新临时字符组来推断文本块304的最终字符组的字。

在一些实施例中，还基于临时字符组的置信度水平来推断对象中的文本块的字符组中的字。举例来说，在第一字群组1900中，可确定“4234”的置信度水平的平均值高于“1234”的置信度水平的平均值。在一些情况下，即使“1234”的出现次数高于第一字“4234”的出现次数，文本推断单元1630仍可推断字符组中的第一字为“4234”，因为“4234”的置信度水平的平均值高于“1234”的置信度水平的平均值。因此，用于文本块304的第一字的推断过程可适用于文本块304中的其它字中的每一者。此外，可以类似方式从依据多个对象图像辨识出的临时字符组推断信用卡300中的其它文本块306及308中的字。

一旦推断出对象中的每一文本块中的最终字符组，即可将所述字符组显示在显示器上作为辨识结果，所述辨识结果可由用户验证。图20为根据本发明的一个实施例的用于由用户验证在显示器上显示的辨识结果的图7中的750的更详细流程图。在2010，图形处理单元680从时间滤波器670中的文本显示单元1650接收文本块中的最终字符组。在2020，图形处理单元680将所述最终字符组发送到显示器，所述显示器显示所述字符作为辨识结果。在一个实施例中，每当通过文本推断单元1630确定每一文本块的最终字符组中的字符或字时，将所确定的字符或字提供到显示器以经由图形处理单元680显示所确定的字符或字。另外，文本推断单元1630可通过基于使用对象的新俘获图像产生的临时字符组执行字符组的新推断而更新对象中的每一文本块的字符或字，且提供经更新的辨识信息以供显示。可执行此更新过程，直到对象中的每一文本块的字符组中的所有字符被辨识且显示在显示器上为止。在2030，接着由用户验证显示在显示器上的辨识结果。如果所述辨识结果未通过用户的验证，则可俘获对象的额外图像以用于文本块辨识，直到用户最终验证所述结果。

图21说明根据本发明的一个实施例的在显示器上显示信用卡300的中间辨识结果的图2100。如图所示，多个块2110、2120及2130分别含有用于文本块304、306及308的中间辨识结果。在此情况下，中间辨识结果包含一个或一个以上未辨识出的字符，其中的每一者展示为星号(即，“*”)，从而指示字符正处在辨识过程中或推断字符失败。当辨识出且显示用于所述未辨识出的字符的字符时，星号可改变为辨识出的字符。以此方式，可显示并更新临时辨识结果，直到辨识出文本块304、306及308中的所有字符为止。

图22说明根据本发明的一个实施例的在显示器上显示信用卡300的最终辨识结果的图2200。多个块2210、2220及2230含有已被辨识出的文本块304、306及308中的字符。在此情况下，与文本块304、306及308中的实际字符相比较，用户可验证所述最终辨识结果为正确的。

图23展示无线通信系统中的示范性移动装置2300的配置。移动装置2300的配置可实施在客户端装置110及210中。移动装置2300可为蜂窝电话、终端、手持机、个人数字助理(PDA)、无线调制解调器、无绳电话，等。所述无线通信系统可为码分多址(CDMA)系统、全球移动通信系统(GSM)系统、宽带CDMA(WCDMA)系统、长期演进(LTE)系统、高级LTE系统，等。另外，移动装置2300可例如使用Wi-Fi直连、蓝牙或FlashLinq技术而直接与另一移动装置通信。

移动装置2300能够经由接收路径和发射路径提供双向通信。在接收路径上，基站所发射的信号被天线2312接收，且被提供到接收器(RCVR)2314。

接收器2314调节并数字化所接收信号，且将例如经调节和经数字化数字信号等样本提供到数字区段用于进一步处理。在传输路径上，发射器(TMTR)2316从数字区段2320接收待发射的数据，处理并调节所述数据，且产生经调制信号，所述经调制信号经由天线2312发射到基站。接收器2314和发射器2316可为可支持CDMA、GSM、LTE、高级LTE等的收发器的部分。

数字区段2320包含各种处理、接口及存储器单元，例如调制解调器处理器2322、精简指令集计算机/数字信号处理器(RISC/DSP)2324、控制器/处理器2326、内部存储器2328、广义音频编码器2332、广义音频解码器2334、图形/显示处理器2336，及外部总线接口(EBI)2338。调制解调器处理器2322可执行处理以用于数据发射及接收，例如编码、调制、解调及解码。RISC/DSP2324可执行移动装置2300的一般及专门的处理。控制器/处理器2326可执行数字区段2320内的各种处理及接口单元的操作。内部存储器2328可存储用于数字区段2320内的各种单元的数据和/或指令。

广义音频编码器2332可对来自音频源2342、麦克风2343等的输入信号执行编码。广义音频解码器2334可对经译码音频数据执行解码，且可将输出信号提供到扬声器/头戴式耳机2344。图形/显示处理器2336可对可呈现给显示单元2346的图形、视频、图像及文本执行处理。EBI2338可促进数据在数字区段2320与主存储器2348之间的传送。

数字区段2320可用一个或一个以上处理器、DSP、微处理器、RISC等来实施。数字区段2320还可制造于一个或一个以上专用集成电路(ASIC)和/或一些其它类型的集成电路(IC)上。

一般来说，本文所述的任何装置均可表示各种类型的装置，例如无线电话、蜂窝电话、膝上型计算机、无线多媒体装置、无线通信个人计算机(PC)卡、PDA、外部或内部调制解调器、通过无线信道通信的装置等。装置可具有各种名称，例如接入终端(AT)、存取单元、订户单元、移动台、移动装置、移动单元、移动电话、移动设备、远端台、远程终端、远程单元、用户装置、用户设备、手持式装置等。本文所述的任何装置均可具有用于存储指令和数据的存储器以及硬件、软件、固件或其组合。

可通过各种装置来实施本文中所描述的技术。举例来说，此等技术可以硬件、固件、软件或其组合来实施。所属领域的技术人员将进一步了解，结合本文中的揭示内容描述的各种说明性逻辑块、模块、电路和算法步骤可实施为电子硬件、计算机软件或两者的组合。为清楚说明硬件与软件的此可互换性，上文已大体上关于其功能性而描述了各种说明性组件、块、模块、电路及步骤。此功能性是实施为硬件还是软件取决于特定应用及外加于整个系统的设计约束。所属领域的技术人员可针对每一特定应用以不同方式实施所描述的功能性，但此类实施决策不应被解释为引起对本发明的范围的偏离。

对于硬件实施方案，用以执行所述技术的处理单元可实施在以下各者内：一个或一个以上ASIC、DSP、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、电子装置、经设计以执行本文中所描述的功能的其它电子单元、计算机，或其组合。

因此，结合本文中的揭示内容描述的各种说明性逻辑块、模块和电路可以用通用处理器、DSP、ASIC、FPGA或经设计以执行本文所述的功能的其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合来实施或执行。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器，或任何其它此类配置。

对于固件和/或软件实施方案，所述技术可以体现为存储于计算机可读媒体上的指令，所述计算机可读媒体例如是随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、可编程只读存储器(PROM)、电可擦除PROM(EEPROM)、快闪存储器、压缩光盘(CD)、磁性或光学数据存储装置，或其类似者。指令可通过一个或一个以上处理器执行，且可致使处理器执行本文所述的功能性的某些方面。

如果实施于软件中，则可将功能作为一个或一个以上指令或代码而存储在计算机可读媒体上或经由计算机可读媒体进行传输。计算机可读媒体包含计算机存储媒体与包含促进将计算机程序从一处传送到另一处的任何媒体的通信媒体两者。存储媒体可为可由计算机存取的任何可用媒体。借助于实例而非限制，此些计算机可读媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用于运载或存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。而且，可恰当地将任何连接称作计算机可读媒体。举例来说，如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输软件，那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电和微波等无线技术包含在媒体的定义中。如本文所使用，磁盘和光盘包含CD、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范围内。

软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移除式磁盘、CD-ROM，或此项技术中已知的任何其它形式的存储媒体中。示范性存储媒体耦合到处理器，使得处理器可从存储媒体读取信息并将信息写入到存储媒体。或者，存储媒体可以与处理器形成一体。处理器及存储媒体可驻留于ASIC中。ASIC可驻留于用户终端中。或者，处理器与存储媒体可作为离散组件驻留在用户终端中。

提供对本发明的先前描述以使得所属领域的技术人员能够进行或使用本发明。所属领域的技术人员将易于了解对本发明的各种修改，且本文中界定的一般原理可应用于其它变体而不脱离本发明的精神或范围。因此，本发明并不既定限于本文中所描述之的实例，而应符合与本文中所揭示的原理及新颖特征相一致的最广泛范围。

虽然示范性实施方案可能参考利用在一个或一个以上独立计算机系统的上下文中的目前揭露的标的物的方面，但所述标的物不限于此，而是可结合任何计算环境(例如网络或分布式计算环境)来实施。再者，目前揭露的标的物的方面可在多个处理芯片或装置中或跨越多个处理芯片或装置而实施，且可类似地跨越多个装置实现存储。此些装置可包含PC、网络服务器和手持式装置。

虽然已以特定地针对结构特征和/或方法动作的语言来描述标的物，但应理解，所附权利要求书中所界定的标的物未必限于上文所描述的特定特征或动作。确切地说，以实施权利要求书的实例形式来揭示上文所描述的特定特征及动作。

Claims

1.一种用于辨识对象中的文本块的方法，所述文本块具有字符组，所述方法包括

接收所述对象的多个图像，所述对象的每一图像包含所述文本块；

识别所述对象的所述多个图像中的所述文本块；以及

基于所述对象的所述多个图像中的所述所识别文本块确定所述字符组。

2.根据权利要求1所述的方法，其中确定所述字符组包含：

针对所述所识别文本块中的每一者产生临时字符组；以及

基于所述临时字符组推断所述字符组。

3.根据权利要求2所述的方法，其中产生所述临时字符组包含基于整体方法产生所述临时字符组。

4.根据权利要求2所述的方法，其中产生所述临时字符组包含基于分段方法产生所述临时字符组。

5.根据权利要求2所述的方法，其中推断所述字符组包含基于所述临时字符组的置信度水平推断所述字符组。

6.根据权利要求5所述的方法，其中所述字符组中的字符是基于在所述临时字符组中的对应位置中的出现次数而推断。

7.根据权利要求6所述的方法，其中当所述出现次数超过预定阈值时推断所述字符组中的所述字符。

8.根据权利要求2所述的方法，其中产生所述临时字符组包含

接收关于所述文本块中的所述字符组的格式信息；以及

基于所述所接收的格式信息产生所述临时字符组。

9.根据权利要求1所述的方法，其中识别所述文本块包含

检测所述对象的所述多个图像中的每一者中的所述对象的边界；

基于所述对象的预定大小信息验证所述所检测边界；以及

基于所述对象的所述文本块的预定位置信息识别所述文本块。

10.根据权利要求9所述的方法，其中验证所述所检测边界包含在所述所检测边界不匹配所述预定大小信息的情况下接收所述对象的新图像。

11.根据权利要求1所述的方法，其进一步包括基于从参考对象图像的一部分提取的预定图案确定所述对象的类型，所述预定图案对于所述对象的所述类型是唯一的。

12.根据权利要求1所述的方法，其中所述对象的所述多个图像包含所述对象的视频帧。

13.根据权利要求1所述的方法，其进一步包括显示所述所确定的字符组。

14.一种用于辨识对象中的文本块的装置，所述文本块具有字符组，所述装置包括：

图像俘获单元，其经配置以俘获所述对象的多个图像，所述对象的每一图像包含所述文本块；

遮蔽单元，其经配置以识别所述对象的所述多个图像中的所述文本块；以及

时间滤波器，其经配置以基于所述对象的所述多个图像中的所述所识别文本块确定所述字符组。

15.根据权利要求14所述的装置，其进一步包括OCR(光学字符读取器)引擎，所述OCR引擎经配置以针对所述所识别文本块中的每一者产生临时字符组，

其中所述字符组是通过所述时间滤波器基于所述临时字符组而推断。

16.根据权利要求15所述的装置，其中所述OCR引擎进一步经配置以基于整体方法产生所述临时字符组。

17.根据权利要求15所述的装置，其中所述OCR引擎进一步经配置以基于分段方法产生所述临时字符组。

18.根据权利要求15所述的装置，其中所述时间滤波器进一步经配置以基于所述临时字符组的置信度水平推断所述字符组。

19.根据权利要求18所述的装置，其中所述字符组中的字符是基于在所述临时字符组中的对应位置中的出现次数而推断。

20.根据权利要求19所述的装置，其中当所述出现次数超过预定阈值时推断所述字符组中的所述字符。

21.根据权利要求15所述的装置，其中所述OCR引擎进一步经配置以接收关于所述文本块中的所述字符组的格式信息，且基于所述所接收的格式信息产生所述临时字符组。

22.根据权利要求14所述的装置，其进一步包括边界检测器，所述边界检测器经配置以检测所述对象的所述多个图像中的每一者中的所述对象的边界且基于所述对象的预定大小信息验证所述所检测边界，其中所述遮蔽单元进一步经配置以基于所述对象的所述文本块的预定位置信息识别所述文本块。

23.根据权利要求22所述的装置，其中所述图像俘获单元进一步经配置以在所述所检测边界不匹配所述预定大小信息的情况下接收所述对象的新图像。

24.根据权利要求14所述的装置，其进一步包括对象辨识单元，所述对象辨识单元经配置以基于从参考对象图像的一部分提取的预定图案确定所述对象的类型，所述预定图案对于所述对象的所述类型是唯一的。

25.根据权利要求13所述的装置，其中所述对象的所述多个图像包含所述对象的视频帧。

26.根据权利要求13所述的装置，其进一步包括显示器，所述显示器经配置以显示所述所确定的字符组。

27.一种包括用于辨识对象中的文本块的指令的非暂时性计算机可读媒体，所述指令致使处理器执行以下操作：

识别所述对象的所述多个图像中的所述文本块；以及

基于所述对象的所述多个图像中的所述所识别文本块确定所述文本块中的字符组。

28.根据权利要求27所述的媒体，其中确定所述字符组包含：

针对所述所识别文本块中的每一者产生临时字符组；以及

基于所述临时字符组推断所述字符组。

29.根据权利要求28所述的媒体，其中产生所述临时字符组包含基于整体方法产生所述临时字符组。

30.根据权利要求28所述的媒体，其中产生所述临时字符组包含基于分段方法产生所述临时字符组。

31.根据权利要求28所述的媒体，其中推断所述字符组包含基于所述临时字符组的置信度水平推断所述字符组。

32.根据权利要求31所述的媒体，其中所述字符组中的字符是基于在所述临时字符组中的对应位置中的出现次数而推断。

33.根据权利要求32所述的媒体，其中当所述出现次数超过预定阈值时推断所述字符组中的所述字符。

34.根据权利要求28所述的媒体，其中产生所述临时字符组包含

接收关于所述文本块中的所述字符组的格式信息；以及

基于所述所接收的格式信息产生所述临时字符组。

35.根据权利要求27所述的媒体，其中识别所述文本块包含：

基于所述对象的预定大小信息验证所述所检测边界；以及

36.根据权利要求35所述的媒体，其中验证所述所检测边界包含在所述所检测边界不匹配所述预定大小信息的情况下接收所述对象的新图像。

37.根据权利要求27所述的媒体，其中所述操作进一步包括基于从参考对象图像的一部分提取的预定图案确定所述对象的类型，所述预定图案对于所述对象的所述类型是唯一的。

38.根据权利要求27所述的媒体，其中所述对象的所述多个图像包含所述对象的视频帧。

39.根据权利要求27所述的媒体，其中所述操作进一步包括显示所述所确定的字符组。

40.一种用于辨识对象中的文本块的设备，所述文本块具有字符组，所述设备包括：

用于俘获所述对象的多个图像的装置，所述对象的每一图像包含所述文本块；

用于识别所述对象的所述多个图像中的所述文本块的装置；以及

用于基于所述对象的所述多个图像中的所述所识别文本块确定所述字符组的装置。

41.根据权利要求40所述的设备，其进一步包括用于针对所述所识别文本块中的每一者产生临时字符组的装置，

其中所述字符组是通过所述确定装置基于所述临时字符组而推断。

42.根据权利要求41所述的设备，其中所述确定装置基于所述临时字符组的置信度水平推断所述字符组。

43.根据权利要求42所述的设备，其中所述字符组中的字符是基于在所述临时字符组中的对应位置中的出现次数而推断。

44.根据权利要求43所述的设备，其中当所述出现次数超过预定阈值时推断所述字符组中的所述字符。

45.根据权利要求41所述的设备，其中所述产生装置接收关于所述文本块中的所述字符组的格式信息，且基于所述所接收的格式信息产生所述临时字符组。

46.根据权利要求40所述的设备，其进一步包括：

用于检测所述对象的所述多个图像中的每一者中的所述对象的边界的装置；以及

用于基于所述对象的预定大小信息验证所述所检测边界的装置，

其中所述识别装置基于所述对象的所述文本块的预定位置信息识别所述文本块。

47.根据权利要求46所述的设备，其中所述俘获装置在所述所检测边界不匹配所述预定大小信息的情况下接收所述对象的新图像。

48.根据权利要求40所述的设备，其进一步包括用于基于从参考对象图像的一部分提取的预定图案确定所述对象的类型的装置，所述预定图案对于所述对象的所述类型是唯一的。