CN105283884A

CN105283884A - 对移动设备捕获的数字图像中的对象进行分类

Info

Publication number: CN105283884A
Application number: CN201480013621.1A
Authority: CN
Inventors: 简·W·阿姆特鲁普; 安东尼·马乔拉; 斯蒂芬·迈克尔·汤普森; 马继勇
Original assignee: Kofax Image Products Inc
Current assignee: Kofax Inc
Priority date: 2013-03-13
Filing date: 2014-03-13
Publication date: 2016-01-27
Also published as: US20140270536A1; EP2973226A4; US20150339526A1; WO2014160426A1; EP2973226A1; US9754164B2; JP2016517587A; US9311531B2

Abstract

一种方法，包括：利用移动设备接收或捕获数字图像；利用移动设备的处理器：确定数字图像中描述的对象是否属于多个对象类别中的特定对象类别；至少部分响应于确定对象属于特定对象类别，至少部分基于特定对象类别确定对象的一个或多个对象特征；至少部分基于一个或多个确定的对象特征建立或选择提取模型；并且利用提取模型从数字图像中提取数据。还公开了相关的系统和计算机程序产品。

Description

对移动设备捕获的数字图像中的对象进行分类

技术领域

本发明涉及移动图像捕获以及图像处理，并且具体地，涉及利用移动设备捕获并处理数字图像以及对此数字图像中检测到的对象进行分类。

背景技术

其中描绘了包括例如信件、支票、钞票、账单等文档的数字图像的对象惯常由扫描仪或耦合至计算机工作站(例如笔记本电脑或台式电脑)的多功能外围设备捕获并处理。本领域中能够执行这种捕获和处理的方法和系统是公知的，并且很好地适于它们用来做的工作。

然而，在日常的活动、计算以及商业越来越多地使用移动设备的年代，提供类似的文档捕获和处理系统以及方法以用于部署并使用在移动平台(例如智能手机、数码相机、平板计算机等)上是非常有益的。

传统上，数字图像已经是几乎无限种应用的数据的宝贵资源。在商业上下文中，数字图像已经广泛用于交流以及处理信息，典型地表现在文档和/或相关联图像数据中(例如，与保险索赔、车辆登记、抵押证券等的数字图像相关联的车辆的数字图像)。越来越多地强大的移动设备为将数字图像处理扩展到移动领域提供了机会，并且提供了利用移动技术实时捕获并处理数字图像数据的改进的性能。

传统的用于目前的移动和非移动设备的数据提取方法依靠对象模板，典型地由专家用户生成和/或组织，为提取引擎提供信息，指导引擎将信息置于何处以用于提取。在文档的特例中，传统的提取技术，提供给其文档的一个或多个(典型地，矩形的)区域的位置，指导其在一个或多个区域上执行光学字符识别(OCR)，并且然后将确定的字符输出给另一个过程或文档。

然而传统的提取引擎和方法能够可靠地从对象中提取信息，其事先已经确定了模板，不存在关于对象的模板，则不可能从对象中动态地提取信息。这是一个不期望的限制，限制用户在现代世界中遇到的越来越多不同的文档阵列上利用强大的提取技术。

而且，传统的提取引擎要求专家管理者的大量输入以限定模板并且随着对象类别的演进而维持模板定义。基于模板提取的性能因此是管理者恰当地规定模板的能力以及管理者的确定哪些信息是“值得”提取的起直接作用。因此，就提取准确性和精确度以及可以提取数据的对象范围而言，专家管理者在数据提取的鲁棒性上充当了不受欢迎的瓶颈角色。

仍然进一步地，传统的提取方法主要地或唯一地依靠OCR技术从图像数据中提取文本字符。OCR引擎被迫进行关于文本字符同一性的预测，当图像质量较差时，当字符与预定的“已知”字符集不匹配时，当可见字符显现模糊时，其不可避免地导致错误的字符报告，这样的话OCR引擎不能可靠地识别多个候选字符(例如，句号“.”对逗号“，”，或者字母“l”对数字“1”)。当期望某一已知的字符模式时，专家管理者能够通过促使OCR引擎做出正确决定来减轻这些问题，但这种减轻局限于不期望的最终要求终端用户交互的范围和错误。

因此，提供用于利用移动设备从数字图像中提取信息的新的方法、系统和/或计算机程序产品技术将非常有益。使得信息提取不用依靠模板，因此绕过专家管理者的需求并且使得用户能够动态地生成并修改提取方法以从多种多样的且易变的对象类别中提取数据，将是更加有益的。提供用于提取数据而不依靠OCR技术的方法以克服预定字符类别、较差图像质量的限制，并且减少或移除用户改正OCR错误的需求，将仍然更加有益。

发明内容

在一个实施例中，方法包括：利用移动设备接收或捕获数字图像；利用移动设备的处理器：确定数字图像中描述的对象是否属于多个对象类别中的特定对象类别；至少部分响应于确定该对象属于特定对象类别，至少部分基于特定对象类别确定对象的一个或多个对象特征；至少部分基于一个或多个确定的对象特征建立或选择提取模型；并且利用提取模型从数字图像中提取数据，其中提取模型不包括光学字符识别。

在另一个实施例中，方法包括：利用移动设备接收或捕获数字图像；并且利用移动设备的处理器：确定数字图像中描述的对象是否属于多个对象类别中的特定对象类别；当确定该对象不属于任何多个对象类别时，将数字图像显示在移动设备的显示器上；通过移动设备的显示器接收用户输入，用户输入识别对象中的一个或多个感兴趣区域；至少部分基于用户输入建立和/或选择提取模型；并且至少部分基于提取模型从数字图像中提取数据，其中提取不包括光学字符识别(OCR)。

仍然在另一个实施例中，计算机程序产品包括其中嵌入了程序代码的计算机可读存储介质，程序代码可由处理器读取和/或执行，从而：接收移动设备捕获的数字图像；确定数字图像中描述的对象是否属于多个对象类别中的特定对象类别；当确定该对象属于特定对象类别时，确定至少部分基于特定对象类别的对象的一个或多个对象特征；至少部分基于一个或多个对象特征建立或选择提取模型；并且至少部分基于提取模型从数字图像中提取数据，其中计算机可读程序代码配置为提取数据，不包括计算机可读程序代码配置为利用光学字符识别(OCR)提取数据。

目前公开的有创造性的观点的其他方面以及特征将从下面的详细说明中变得显而易见，其应理解为本质上是解说性的并且不局限于现在的公开。

附图说明

图1阐释了根据一个实施例的网络体系架构。

图2示出了根据一个实施例的可与图1中的服务器和/或客户端相关联的典型的硬件环境。

图3A描绘了根据一个实施例的对象的数字图像。

图3B描绘了根据一个实施例的图3A中示出的为了生成数字图像的第一表现而被分成多个截面的数字图像的图示。

图3C描绘了图3A中示出的数字图像的第一表现，第一表现的特点是相对于数字图像其分辨率降低了。

图4A是根据一个实施例的文档的数字图像中描绘的多个子分区的图示。

图4B是根据一个实施例的图4A中示出的数字图像的掩膜表现。

图4C是根据一个实施例的图4A中示出的数字图像的掩膜表现。

图4D是根据一个实施例的图4A中示出的数字图像的掩膜表现。

图5是根据一个实施例的方法的流程图。

图6是根据一个实施例的方法的流程图。

图7是根据一个实施例的方法的流程图。

图8是根据一个实施例的方法的流程图。

具体实施方式

进行下面的描述是出于阐释本发明的总则的目的，并且并不意味着限定其中要求保护的创造性概念。进一步地，在各种可能的组合和排列的每一个中，此处描述的特定特征可以和描述的其他特征组合使用。

除非其中进行了特别限定，否则给予所有术语它们最宽的可能解释，包括说明书中隐含的意思以及本领域技术人员能够理解和/或字典、论文等限定的意思。

也必须注意到，除非另有说明，如在说明书和所附权利要求书中使用的，单数形式的“一”、“一个”和“所述一个”包括复数指示物。

本申请涉及由照相机，尤其是移动设备的照相机，捕获的图像(图片，图解，图形示意图，电影、视频、影片、剪辑等的一帧)的图像处理。如此处所理解的，移动设备是指能够不需要通过物理连接(如，导线、电线、电缆等)供应能量而能接收数据或不需要物理数据连接(如，导线、电线、电缆等)而能接收数据的任何设备。本公开范围内的移动设备包括示例性的设备，例如移动电话、智能手机、平板、个人数字助理、设备等。

然而，由于对各种功能的描述而将变得显而易见，现在公开的移动图像处理算法可以应用于(有时需要某些修改)来自扫描仪和多功能外围设备(MFPs)的图像。类似地，在某些方法中，由现在公开的处理算法处理的图像可以进一步由传统的扫描仪处理算法处理。

当然，此处给出的各种实施例可以利用硬件、软件或任何所希望的组合来实现。关于此点，可以利用能够实现此处给出的各种功能的任何类型的逻辑。

使用移动设备的一个好处是，利用数据计划，基于捕获的图像的图像处理和信息处理相比以前依靠扫描仪的方法能够以更方便、更流线型的以及一体化的方式完成。然而，利用移动设备作为一个或多个文档捕获和/或处理设备，由于多种原因，在此之前都被认为难以实施。

在一种方法中，可以由移动设备的照相机捕获图像。术语“照相机”应该被广泛理解成包括能够捕获处于设备外部的物理对象(例如一片纸)的图像的任何类型的设备。术语“照相机”不涵盖外围扫描仪或多功能设备。可以使用任何类型的照相机。优选的实施例可以使用更高分辨率照相机，例如，8MP或更高，理想地，12MP或更高。可以以彩色、灰度级、黑和白，或任何其他已知的光学效果来捕获图像。此处涉及的术语“图像”意思涵盖对应于照相机输出的任何类型的数据，包括原始数据、经处理的数据等。

如本领域技术人员可以领会的，本发明的某些方面可以具体化为系统、方法或计算机程序产品。因此，本发明的某些方面可以采取全部硬件实施、全部软件实施(包括计算机固件、常驻软件、微码等)或此处可以全部概括称为“逻辑”、“电路”、“模块”或“系统”的软件和硬件组合实施的形式。另外，本发明的某些方面可以采取具体化为一个或多个其上具有计算机可读程序代码的计算机可读介质的计算机程序产品的形式。

可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是，例如但不限于，电子、磁、光学、电磁、红外线或半导体系统、装置或设备，或前述任何合适的组合。计算机可读存储介质的更具体的例子(不穷尽的清单)包括如下：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、便携式紧致盘只读存储器(CD-ROM)、光存储设备、磁存储设备，或前述任何合适的组合。在此文档的上下文中，计算机可读存储介质可以是能够包括或存储由指令执行系统、装置、处理器或设备使用或与其关联的程序的任何有形介质。

计算机可读信号介质可以包括具有其中体现为计算机可读程序代码的传播来的数据信号，例如，在基带中作为载波、具有一根或多根金属线的电连接、光纤等的一部分。这样传播来的数据可以采取多种形式的任何一种，包括但不限于电磁、光或其任何合适的组合。计算机可读信号介质可以是任何不是计算机可读存储介质的计算机可读介质，并且能够通信、传播或传输由指令执行系统、装置、处理器或设备使用或与其关联的程序。

具体化在计算机可读介质上的程序代码可以利用任何合适的介质传送，包括但不限于无线、有线、光纤电缆、RF等，或前述任何合适的组合。

用于实施本发明的方面的操作的计算机程序代码可以以一个或多个编程语言的组合来写入，其包括面向对象编程语言，例如Java,Smalltalk,C++等等，以及传统的面向过程的编程语言，例如C编程语言或类似的编程语言。程序代码可以完全在用户计算机上执行或部分在用户计算机上执行，作为独立软件包，部分在用户计算机且部分在远程计算机上执行，或完全在远程计算机或服务器上执行。在后面的情景中，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机，或可与外部计算机(例如，通过利用互联网服务供应商的因特网)连接。

参照根据本发明的实施例的方法、装置(系统)以及计算机程序产品的流程图和/或框图，在下面描述本发明的方面。将理解，流程图和/或框图的每一块以及流程图和/或框图中块的组合能够由计算机程序指令实现。这些计算机程序指令可以提供至通用计算机、专业计算机或其他可编程数据处理装置的处理器，以产生一个机器，这样，经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一块或多块中限定的功能/动作的手段。

这些计算机程序指令也可以存储在计算机可读介质中，计算机可读介质能够指导计算机、其他可编程数据处理装置或其他设备以特别的方式行使职责，这样存储在计算机可读介质中的指令产生了一件产品，其包括实现流程图和/或框图的一块或多块中限定的功能/动作的指令。

计算机程序指令也可以下载到计算机、其他可编程数据处理装置或其他设备，使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤以产生计算机实现处理，这样在计算机或其他可编程装置上执行的指令提供用于实现流程图和/或框图的一块或多块中限定的功能/动作的处理。

图中的流程图和框图说明了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现方式的体系架构、功能和操作。在这点上，流程图或框图的每一块都代表包括用于实现一个或多个特定逻辑功能的一个或多个可执行指令的模块、片段或部分代码。也应该注意到，在一些可替换的实现方式中，块中记载的功能可不以图中记载的顺序发生。例如，顺序示出的两块实际上可以大体上同时执行，或各块有时可以按照相反顺序执行，这取决于所涉及的功能。也将注意到，框图和/或流程图的每一块以及框图和/或流程图中各块的组合，可以由执行特定功能或动作的专用基于硬件的系统实现，或由专用硬件和计算机指令组合来实现。

图1说明了根据一个实施例的体系架构100。图1中提供了多个远程网络102，包括第一远程网络104以及第二远程网络106。网关101可以耦合在远程网络102和邻近网络108之间。在本体系架构100的上下文中，网络104、106的每个可以采取，包括但不限于LAN、WAN，例如因特网、公共交换电话网(PSTN)、内部电话网等的任何形式。

在使用中，网关101充当从远程网络102到邻近网络108的入口端。如此，网关101本身可以作为路由器，其能够引导到达网关101的给定的数据包，以及作为交换器，其为给定的包提供进出网关101的实际路径。

进一步包括至少一个耦合至邻近网络108的数据服务器114，并且通过网关101从远程网络102可以访问邻近网络108。应注意到，一个或多个数据服务器114可以包括任何类型的计算设备/群件。耦合到每个数据服务器114的是多个用户设备116。这样的用户设备116可以包括台式电脑、膝上型电脑、掌上电脑、打印机或任何其他类型的逻辑。在一个实施例中，应注意到，用户设备111也可以直接耦合至任何网络。

外围设备120或一系列外围设备120，例如传真机、打印机、联网的和/或本地的存储单元或系统等，可以耦合至一个或多个网络104、106、108。应注意到，数据库和/或附加组件与耦合至网络104、106、108的任何类型的网络元件一起利用或集成一体。在本说明书的上下文中，网络元件可以涉及网络的任何组件。

根据一些方法，此处描述的方法和系统可以用和/或在虚拟系统和/或模拟一个或多个其他系统的系统上实现，例如模拟了IBMz/OS环境的UNIX系统、实际上宿主了微软视窗环境的UNIX系统、模拟了IBMz/OS环境的微软视窗系统等。在一些实施例中，这种虚拟化和/或模拟可以通过VMWARE软件的使用得到加强。

在更多的方法中，一个或多个网络104、106、108可以代表通常称为“云”的系统群集。在云计算中，共享的资源，例如处理电源、外围设备、软件、数据、服务器等，根据按需关系被提供给云内的任何系统，从而允许跨越许多计算系统对服务进行访问和分配。云计算典型地包含云内操作的系统间的互联网连接，但是也可以使用其他连接系统的技术。

图2示出了根据一个实施例的与图1中的用户设备116和/或服务器114相关联的典型的硬件环境。此图阐释了具有中央处理单元210的工作站的典型的硬件配置，例如微处理器以及经由系统总线212互联的许多其他单元。

图2中示出的工作站包括随机访问存储器(RAM)214，只读存储器(ROM)216，用于连接外部设备(例如磁盘存储单元220)到总线212的I/O适配器218，用于连接键盘224、鼠标226、扬声器228、话筒232，和/或其他用户接口设备，例如触屏和数码相机(未示出)到总线212的用户接口适配器222，用于将工作站连接到通信网络235(例如，数据处理网络)的通信适配器234，以及将总线212连接到显示设备238的显示适配器236。

在工作站上可以具有驻于其上的操作系统，例如操作系统(OS)、MACOS、UNIXOS等。将意识到，优选的实施例也可以在不同于那些提到的平台以及操作系统上实现。优选的实施例可以由JAVA,XML,C和/或C++语言，或其他可编程语言连同面向对象程序设计方法写入。可以使用越来越多地用于开发复杂应用程序的面向对象程序设计(OOP)。

应用程序可以安装到移动设备上，例如可以存储在设备的非易失存储器中。在一种方法中，应用程序包括指令，以在移动设备上执行图像处理。在另一种方法中，应用程序包括指令，以将图像送至远程服务器，例如网络服务器。还在另一个实施例中，应用程序可以包括指令，以确定是否在移动设备上执行某些或所有处理和/或将图像送至远程站点。

在多个实施例中，目前公开的方法、系统和/或计算机程序产品可以利用和/或包括功能，例如页面检测、矩形化、不均匀照明的检测、照明正常化、分辨率估计、模糊检测等。

页面检测的各种实施例

现在描述说明了执行页面检测的示例性方法的一个示例性实施例。

在一种方法中，边缘检测算法从数字图像的边界开始进行至图像的中部，查找足够不同于已知的背景特性的点。

尤其是，甚至用相同的移动设备捕获的图像的背景每次也可能不同，所以提供了识别图像中一个或多个文档的新技术。

根据本公开，在照相机捕获的图像中找到页面边缘，可以帮助容纳由移动设备捕获的图像相对于由例如扫描仪捕获的图像特性的重要不同之处。例如，由于投影效果，照片中的矩形文档的图像不显示真正的矩形，并且图像中的文档的相对边不具有相同的长度。第二，即使最好的镜头都具有一些非线性，其导致对象中的直线，例如，实质上矩形文档的直边，在对象的捕获图像中会显现轻微弯曲。第三，用照相机捕获的图像不可避免地趋向于引入不均匀的照明效果。照明的这种不均匀性甚至使得与文档放置位置相对的表面的完美均一背景在图像中显现出变化的亮度，并且经常有阴影，尤其是在页面没有完全放平时围绕页面边缘。

在示例性的方法中，为了避免搞错页面边缘背景中的变化，当前的算法使用一个或多个下列功能。

在许多实施例中，图像帧包括具有周围背景边缘的文档的数字表示。在优选的实现方式中，对单个页面边缘的搜索可以执行彻底地分析图像的行和列的跨步方法。在一个实施例中，跨步方法可以限定多个数字图像中的分析窗口，例如此处的理解，分析窗口可以包括一个或多个“背景窗口”，即仅涵盖描绘数字图像的背景的像素的窗口，以及一个或多个“测试窗口”，即涵盖描绘数字图像背景像素、文档的数字表现或二者的窗口。

在优选的实施例中，，文档的数字表现可以通过在对应于文档放置表面的背景的图像边缘中限定第一分析窗口(即背景分析窗口)在数字图像中检测到。在第一分析窗口中，多个小分析窗口(例如测试窗口)可以限定于第一分析窗口中。利用多个测试窗口，可以估计一个或多个描述背景的统计特性的一个或多个分布。

继续参照紧接上面讨论的优选实施例，检测文档的数字表现的边界的下一步可以包括限定数字图像中的多个测试窗口，并且分析数字图像的对应区域。对每个数字测试窗口，可以计算出一个或多个描述图像的对应区域的统计值。进一步地，这些统计值可以与对应的描述背景的统计分布相比较。

在优选的方法中，多个测试窗口可以沿路径限定，尤其是沿线性路径。在具体的优选方法中，可以在水平方向和/或垂直方向限定多个测试窗口，例如沿数字图像的行和列。而且，可以采取逐步进行的方式来沿着路径和/或在行和/或列之间限定测试窗口。在一些实施例中，如本领域技术人员在阅读本说明书时将领会到的，利用逐步进行可以有利地增加文档检测处理的计算效率。

而且，在一些实施例中，可以基于图像的分辨率或像素大小预估开始步的幅度，但是如果文档侧的可靠检测是有利的，此步可以减小，如下面的进一步讨论。

在更多的实施例中，算法估计处于文档周围背景中的大分析窗口中发现的描述了图像性质的若干统计分布。在一种方法中，在大分析窗口中可以限定多个小窗口，并且可以估计描述了小测试窗口的统计分布。在一个实施例中，大分析窗口限定于数字图像的背景区域，例如图像的左上角。

如本领域技术人员在阅读本说明书时可以理解的，描述了背景像素的统计数字可以包括任何由数字图像数据生成的统计值，例如最小值、最大值、中间值、平均值、值的跨度或范围、方差、标准偏差等。如本领域技术人员在阅读本说明书时可以理解的，值可以从任何描述了数字图像的数据中取样，例如一个或多个颜色通道中的亮度值，例如红绿蓝或RGB、青-品红、黄、黑或四分色(CMYK)、色彩饱和值或HSV等。

每个小分析窗口可以包括大分析窗口中的多个像素的子集。而且，小分析窗口可以具有能够适合大分析窗口的边界以内的任何大小和/或形状。在优选的实施例中，小分析窗口的特点在于矩形形状，并且更加优选的是，特点为在第一方向上(如高)为3个像素长以及在第二方向上(如宽)为7个像素长的矩形。当然，其他小分析窗口的大小、形状和维度也适于在目前公开的处理算法中实现。

在一个实施例中，可以利用测试窗口来分析图像以及检测图像中描绘的文档的数字表示的边界。背景窗口用于估计背景的原始统计特性和/或重新估计背景的局部统计特性。为了处理伪像(例如不均匀的照明和/或背景纹理变化)，重新估计是必须的和/或有利的。

优选地，在一些方法中，可以对文档页面边缘外的范围内的大分析窗口中的一些或所有的多个小分析窗口执行统计估计。这样的估计可以利用大分析窗口中的小分析窗口的逐步移动完成，并且逐步移动可以适当递增以便改变对给定像素取样的数目。例如，为了提高计算效率，分析过程可以限定大分析窗口中的多个小分析窗口，以足够保证每个像素被取样一次。因此，限定在这个计算效率方法中的多个小分析窗口将共享公共边界而并不重叠。

在另一种设计为提高统计估计的鲁棒性的方法中，分析处理可以限定大分析窗口中的多个小分析窗口，以足够保证对每个像素取样最多次数，例如通过减小步长，从而在限定的小分析窗口间进行仅单个像素在给定方向上的位移。当然，如本领域技术人员在阅读本说明书时可以理解的，在目前公开的处理算法的多个实施例中可以使用任何步长递增。

技术人员会领会到，用于重新估计数字图像中局部背景的统计数字的大分析窗口以及测试窗口可以以任何想要的方式置于数字图像中。

例如，根据一个实施例，对给定行i左侧边缘的搜索从与围绕给定行i为中心的的图像左侧帧边线的大分析窗口中上述统计的计算开始。

仍然在更多的实施例中，当遇到可能的非背景测试窗口(例如估计统计结果不同于最后已知局部背景的统计特征分布的测试窗口)，在一些实施例中，因为算法从图像的外部区域朝向其一个或多个内部区域前进，该算法可回溯至之前确定的背景区域，形成了新的大分析窗口，并且为了重新评估在小分析窗口内选定的统计和大分析窗口内对应的统计的局部分布间的不同之处的有效性，重新估计背景统计分布。

如本领域技术人员在阅读本说明书时可以领会的，算法可以以多种方式从图像的外部区域至到图像的内部区域。例如，在一种方法中，算法以大致螺旋的模式来限定测试窗口。在其他方法中，模式可以大致沿着垂直或水平方向蜿蜒。仍然在更多的方法中，模式可以是大致重叠模式。如本领域技术人员在阅读本说明书时可以理解的，模式也可以由覆盖部分或全部数字图像的“顺序掩膜”限定，例如棋盘形模式，垂直、水平或对角线斜条模式，同轴形状等。在其他实施例中，如本领域技术人员在阅读本说明书时可以理解的，根据一些限定的流程，分析窗口(例如大分析窗口和/或小分析窗口)可以以随机方式、伪随机方式、任意地等遍布数字图像而被限定。算法可以以任何想要的方式进行一系列测试窗口，只要路径允许回溯至已知背景，并且路径以想要的粒度覆盖整个图像。

有利地，如此重新计算统计数字可以帮助容纳数字图像和/或背景内部的任何照明漂移，否则其会导致图像中非背景点(例如离群候选边缘点)的错误识别。

仍然在更多的实施例中，如本领域技术人员在阅读本说明书时可以理解的，当不同之处在统计上有效时，为了重新核查，算法可以沿着它的路径跳跃一定距离，并且因此绕过背景纹理的小变化，例如木材纹理、表面的刮痕、表面的图案、小阴影等。

在附加的和/或可替换的实施例中，在发现潜在的非背景点以后，算法确定该点是否位于阴影的边缘(尤其是如果页面边缘被提至背景表面上方则具有可能性)并且试着到达实际页面边缘。这个过程依靠如下观察：接近真实边缘处阴影通常会变暗，真实边缘处通常伴随图像的突然亮度。

由于若干原因，因为标准边缘检测器的使用是不必要的甚至不受欢迎的，上面描述的页面边缘测试方法得到了利用。首先，大多数标准边缘检测器包括耗时操作，第二，目前的算法不考虑附加要求，像监测边缘有多薄、它们沿着什么方向等。更加重要的是，查找页面边缘不必包含页面监测本身，即根据本公开的页面边缘检测可以以一种方式执行，这种方式不搜索文档边界(如页面边缘)，相反地，搜索与从背景到文档的转变相关联的图像特征。例如，转变的特点是光面纸内米白色亮度(off-whitebrightness)水平的平滑，即纹理的变化，而不是平均灰度或颜色水平的变化。

结果是，可能获得候选边缘点(例如，候选边缘点)，其本质上是网格的每个行和列中第一和最后的非背景像素。为了估计随机离群值(例如候选边缘点)以及确定哪些候选边缘点对应页面的每个边，在一个方法中，分析邻近的候选边缘点是有益的。

在一个实施例中，如本领域技术人员在阅读本说明书时可以理解的，“点”可以认为是数字图像中的任何区域，例如像素、像素间的位置(例如，具有分数坐标的点，例如2个像素乘2像素的正方形中心)、像素的小窗口等。在优选的实施例中，候选边缘点与测试窗口的中心相关联(3像素×7像素窗口)，已发现其特点为统计，其被确定为不同于描述的局部背景的统计分布。

如此处理解的，“邻近的”候选边缘点或“邻近的”像素被认为是分别邻近或紧邻感兴趣(例如像素)的点或像素的点或像素，例如点或像素至少部分位于感兴趣的点或像素的边界，点或像素位于感兴趣的点或像素的阈值距离之内(例如位于2、10、64像素以内等，在给定的方向，在感兴趣的点或像素的一行之内，在感兴趣的点或像素的一列之内)等，如本领域技术人员在阅读本说明书时可以理解的。在优选的方法中，“邻近的”点或像素可以是沿特定方向(例如，水平方向和/或垂直方向)最靠近感兴趣点的候选边缘点。

每个“好”边缘点理想地至少具有两个最接近的邻近点(每侧有一个)，并且没有偏离连接这些邻近点和“好”边缘点的直线段很远，例如，候选边缘点和至少两个最接近邻近点可以适应于线性回归，结果的特点是计算系数(R²)不少于0.95。这条线段关于数字图像的一个或多个边界的角，和它的相对位置一起，确定边缘点是否分配给页面的上、左、右或底边。在优选的实施例中，候选边缘点以及两个邻近边缘点可以分配给三角形的各个角。如果在候选边缘点的三角形的角接近180度，则候选边缘点可以认为是“好”候选边缘点。如果在候选边缘点的三角形的角偏离180度多于阈值(例如20度或更多)，则候选边缘点可以从“好”候选边缘点集合中除去。这种启发式背后的基本理论是基于希望去除行和列内第一和最后非背景像素的确定中的随机错误。这些像素不大可能存在于连续线条内，所以，在一些方法中，根据距离和方向核查邻近点是特别有利的。

针对速度，此网格的步长可以从大数目开始，例如32，但可以减小为2的因子，并且搜索边缘点将不断重复，直到有足够的边缘点来基于页面边缘方程式(如下)确定最小均方值(LMS)。即使在利用图像中的所有行和列后，这个过程还不能可靠确定面，则放弃并且整个图像被看作为页面。

在一个实施例中，页面各边的方程式确定如下。首先，算法使最好的LMS直线适于每个边，其利用了去除最差离群值直到余下的所有支持边缘都位于LXS线的小距离内的策略。例如，离本质上的直线最大距离的点可以指定为“最差”离群值，该直线沿文档的特定边界连接多个候选边缘点。这个过程可迭代地重复，以指定和/或从多个候选边缘点中移除一个或多个“最差”离群值。在一些方法中，候选边缘点偏离连接多个候选边缘点的直线的距离至少部分基于数字图像的大小和/或分辨率。

如果这条线沿它的延伸都不能很好地得到支持，算法会尝试使最佳二级多项式(抛物线)适于相同的原始候选点。找到最佳抛物线vs.最佳直线间的算法差异是较小的：代替两个确定线的方向和偏移的未知系数，有三个确定曲率、方向和抛物线偏移的系数；然而，在一个实施例中，在其他方面，处理本质上相同。

如果抛物线的支持强于直线的支持，尤其是更加接近候选边缘跨度的末端，算法更加青睐于抛物线作为图像中页面边的更好的模型。否则，在多种方法中利用线性模型。

为了找到(可能轻微弯曲)四边形(下面将进一步详细讨论的四边形)页面的角，可以计算出找到的文档的四条边的交叉点。在优选的实现方式中，为了这么做，必须考虑三种情况：计算两条直线的交叉点，计算直线和抛物线的交叉点，以及计算两条抛物线的交叉点。

第一种情况中，有单个解决方案(因为页面的上边缘和下边缘大多水平延伸，而页面的左边缘和右边缘大多垂直延伸，对应的LMS线不能平行)并且这个解决方案确定对应页面角的坐标。

第二种情况，计算直线和抛物线的交叉点，稍微更复杂一些：二次方程的结果可以是0、1或2个答案。如果没有交叉点，可指示页面监测出现致命问题，并且结果会遭到拒绝。唯一答案有点不可能，但不会呈现更多问题。两个交叉点会呈现选择，这种情况离对应帧角更近的交叉点是更好的候选点——在实践中，方程的其他解离图像帧的坐标范围非常远。

第三种情况，计算两条抛物线的交叉点，导致出现四阶多项式方程，(原则上)可以利用分析法求解。然而，实践中，得到结果所必须的计算的数量比也可以保证想要的子像素精度的近似的迭代算法要大得多。

根据一种方法，用于这个目的的、关于文档的数字表示的矩形化的一个示例性程序在下面详细描述。

作为结果的对象四边形的有效性有若干限制(例如，下面将进一步讨论的四边形)。也就是，优选地，四边形不要太小(例如，低于任何期望值的预定阈值，例如图像的总区域的25％)，四边形的角优选地不要位于离图像帧外面太远(例如，不要远于100像素)，并且角本身可判断为左上、右上、左下和右下，其对角线在四边形内部相交等。如果这些限制没有满足，在一些实施例中，给定的页面检测结果可以被拒绝。

在一个说明性实施例中，检测出的文档的数字表示的四边形有效，算法可以确定目标矩形。目标矩形的宽和高可以分别设置为四边形的上下边的平均值和左右边的平均值。

在一个实施例中，如果执行歪斜校正，目标矩形的歪斜角度可以设置为0，以便页面边将变成水平和垂直的。否则，歪斜角度可以设置为上下边相对水平轴的角度和左右边相对垂直轴的角度的平均值。

在一个附加的实施例中，在类似的方法中，如果未执行裁剪校正，可以指定目标矩形的中心，以便和四边形的四个角的坐标平均值相匹配；否则可以计算出中心，以便目标矩形结束于图像帧的左上方。

在一些方法中，如果页面检测结果由于任何原因被拒绝，为了得到更多的候选边缘点并且有利地取得更合理的结果，在此描述的过程的一些或全部步骤可以以较小的步长递增重复。在最坏的情景中，即使用最少允许的步长，问题也持续，检测出的页面设置为整个图像帧并且原始图像可原样未动。

现在，特别参照在此描述的有创造性的页面检测的示例性实现方式，在一种方法中，如本领域技术人员通过阅读本说明书可以领会的，页面检测包括执行这样的方法，该方法可以在任何环境中执行，包括本公开中在此描述的以及图中表现的环境。

在一个实施例中，限定了多个对应于数字图像背景到文档的数字表示的转换的候选边缘点。

在多个实施例中，限定在操作中的多个候选边缘点可以包括一个或多个附加操作，例如下面描述的操作。

根据一个实施例，大分析窗口(例如，大分析窗口)限定于数字图像中。优选地，为了得到数字图像背景的信息特征，以与非背景(例如，文档的数字表示，例如，下面将进一步详细讨论的背景统计)信息特征进行比较和对比，第一大分析窗口限定在描绘了多个数字图像背景像素但未描绘非背景(例如，文档的数字表示)的区域。例如，第一大分析窗口可以限定在数字图像的角(例如左上角)处。当然，第一大分析窗口可以限定在数字图像的任何部分而不脱离本公开的范围。

而且，如本领域技术人员通过阅读本说明书可以理解的，大分析窗口可以具有任何大小和/或特点为任何合适的尺寸，但在优选的实施例中，大分析窗口大约40像素高并且大约40像素宽。

特别地，在优选的方法中，大分析窗口限定在数字图像的角区域。例如，数字图像包括具有多个边和背景的文档的数字表现。如上描述的，大分析窗口可以限定在包括多个背景像素以及不包括对应于文档的数字表现的像素的区域。而且在一些方法中，大分析窗口可以限定在数字图像的角处。

根据一个实施例，多个小分析窗口可以限定在数字图像中，例如在大分析窗口中。小分析窗口可以与一个或多个其他小分析窗口至少部分重叠，例如特征为包括一个或多个重叠区域。在优选的方法中，所有可能的小分析窗口都限定在大分析窗口中。当然，小分析窗口可以限定在数字图像的任何部分，例如，优选地，小分析窗口可以被限定，以便每个小分析窗口以单一中心像素为特征。

在操作中，根据一个实施例，针对一个或多个小分析窗口(例如，大分析窗口中的一个或多个小分析窗口)，计算出一个或多个统计数字，并且估计出一个或多个对应的统计分布(例如，根据多个小分析窗口估计出统计分布)。在另一个实施例中，统计分布可以根据一个或多个大分析窗口以及其可选合并估计出。

而且，如本领域技术人员通过阅读本说明书可以理解的，值可以描述与数字图像的背景相关联的任何特征，例如背景亮度值、背景颜色通道值、背景纹理值、背景色彩值、背景对比值、背景锐度值等。而且，统计数字可以包括通过大分析窗口中的多个小分析窗口描绘了数字图像背景的多个像素的一个或多个颜色通道中的亮度值的最小值、最大值和/或范围。

在操作中，根据一个实施例，估计出一个或多个背景统计分布。通过估计一个或多个统计分布，可以获得描述例如大分析窗口中数字图像背景的特性的一个或多个描述性分布。

如本领域技术人员通过阅读本说明书可以领会的，优选地，一个或多个分布与对每个小分析窗口计算出的背景统计结果对应，并且可以包括，例如亮度最小值分布、亮度最大值分布等，由此可以得到分布统计描述符，例如最小亮度值的最小值和/或最大值、最大亮度值的最小值和/或最大值、亮度值的最小和/或最大扩展、最小颜色通道值的最小值和/或最大值、最大颜色通道值的最小值和/或最大值、颜色通道值的最小和/或最大扩展等。当然，计算出的任何背景统计结果(例如，对亮度值、颜色通道值、对比值、纹理值、色彩值、锐度值等)可以集合成分布，并且描述分布的任何值都可以利用而不脱离本公开的范围。

在操作中，根据一个实施例，大分析窗口(例如分析窗口)被限定在数字图像中。

而且，窗口形状可以通过主动地将窗口的边界设置为数字图像一部分来进行限定，可以通过例如对数字图像应用掩膜以及通过限定未进行掩膜的数字图像区域作为分析窗口进行被动限定。而且，可以根据模式限定窗口，尤其是在通过对图像应用掩膜从而被动限定窗口的实施例中。当然，可以运用其他限定窗口的方式而不脱离本公开的范围。

如本领域技术人员通过阅读本说明书可以理解的，在操作中，根据一个实施例，针对分析窗口计算出一个或多个统计结果。而且，在优选的实施例中，每个分析窗口统计结果与估计出的大分析窗口的背景统计分布相对应。例如，在一个实施例中，最大亮度与背景亮度最大值分布相对应，最小亮度与背景亮度最小值分布相对应，亮度扩展与背景亮度扩展分布相对应等。

如本领域技术人员通过阅读本说明书可以领会的，在操作中，根据一个实施例，统计上的显著差异是否存在于至少一个分析窗口统计数据和对应的背景统计分布之间是确定的。如本领域技术人员通过阅读本说明书可以领会的，确定是否存在统计上的显著差异可以利用任何已知的统计显著性评估方法或标准执行，例如，p值方法(p-value)、z-拣选(z-test)、X方形相关(chi-squaredcorrelation)等。

在操作中，根据一个实施例，分析窗口中的一个或多个点(例如，正中心像素或点)被指定为候选边缘点，对此分析窗口，统计上的显著差异存在于描述像素的值和对应的背景统计分布之间。该指定可以由本领域中已知的任何合适的方法完成，例如，设置对应于像素的标志、存储像素的坐标、制作像素坐标阵列、修改描述像素(例如亮度、色调、对比度等)的一个或多个值，或任何其他合适的方法。

如本领域技术人员通过阅读本说明书可以理解的，根据一个实施例，一个或多个操作可以重复一次或多次。在优选的实施例中，可以执行多次这样的重复，其中每次重复在数字图像的不同部分上进行。优选地，可以进行重复，直到评估完文档的数字表现的每条边。在多种方法中，限定分析窗口会导致多个分析窗口，其共享一个或多个边界，其整个或部分重叠，和/或其不共享任何公共边界以及不重叠等。

特别地，在优选的实施例中，以如下方式执行多次重复：一旦检测可能的非背景窗口(例如包含候选边缘点的窗口或包含伪像例如不均匀照明、背景纹理变化等的窗口)时，重新估计局部背景统计。

在操作中，根据一个实施例，四边形的四条边基于多个候选边缘点被限定。优选地，四边形的边涵盖数字图像中文档的数字表现的边缘。限定四边形的边包括，在一些方法中，执行一次或多次最小均方值(LMS)近似。

在更多的方法中，限定四边形的边可以包括识别一个或多个离群候选边缘点，以及从多个候选边缘点中移除一个或多个离群候选边缘点。进一步地，限定四边形的边可以包括执行至少一次排除一个或多个离群候选边缘点的附加的LMS近似。

仍然进一步地，在一个实施例中，四边形的每条边的特点是从一类函数中选出的方程式，并且执行至少一次LMS近似包括确定每个方程式的一个或多个系数，例如在优选的实现方式中二级多项式的最佳系数。根据这些方法，限定四边形的边可以包括确定文档的数字表现的每条边是否落入给定类别函数中，例如二级多项式或更加简单的函数，例如线性函数而不是二级多项式。

在优选的方法中，执行方法可以精确地限定围绕文档的四条主要边的四边形而忽略文档主要边的偏离部分，例如裂口和/或突出。

现在公开的四边形的附加和/或可替代实施例的特点是具有四条边，并且每条边的特点在于一个或多个方程式，例如上面讨论的多项式函数。例如，在四边形的边的特点是超过一个方程式的实施例中，可以包括将一条或多条边分成多个部分，每个部分的特点在于方程式，例如上面讨论的多项式函数。

如本领域技术人员通过阅读本说明书可以理解的，限定四边形，在多个实施例中，可选择地和/或附加地包括限定四边形的一个或多个角。例如，四边形的角可以通过计算四边形的邻边间的交点，以及在计算出了多个交点的情形中，从一个或多个计算出的交点中指定合适的交点进行限定。仍然在更多的实施例中，限定角可以包括解出一个或多个方程式，其中每个方程式的特点是属于选出的一类函数，例如，N^th级多项式等。

在多个实施例中，四边形的角可以通过以下中的一个或多个来进行限定：四边形的两条曲线邻边的交点；两条大致直线的交点；以及一条大致直线和一条大致曲线的交点。

在操作中，根据一个实施例，文档的数字表现以及四边形输出到移动设备的显示器。输出可以通过任何方式执行，并且依赖于移动设备硬件和/或软件的配置。

而且，如本领域技术人员通过阅读本说明书可以理解的，输出可以以多种方法执行，以便辅助进一步的处理和/或用户与输出的交互。例如，在一个实施例中，四边形以设计为区别四边形和数字图像的其他特征的方式显示，例如，以特别的颜色、花样、图案、动画等显示四边形的边。

仍然进一步地，在一些实施例中，输出四边形以及文档的数字表现可以辅助用户以任何合适的方式手动调节和/或限定四边形。例如，用户可以与移动设备的显示器交互以转译四边形，即沿一个或多个方向移动四边形的位置而保持四边形的纵横比、形状、边缘长度、面积等不变。附加地和/或可替代地，用户可以与移动设备的显示器交互以手动限定或调节四边形角的位置，例如点击四边形的角并且拖曳到数字图像中的想去的位置，例如文档的数字表现的角。

再次提及描述了页面检测的理想结果的一个特别例子，其展示了数字图像中文档的数字表现，并且具有涵盖了文档的数字表现的边缘的四边形。

在一些方法中，页面检测，如上面描述的，可以包括一个或多个附加和/或可替代的操作，例如将在下面描述的。

如本领域技术人员通过阅读本说明书可以理解的，在一种方法中，方法可以进一步包括捕获一个或多个包含文档的数字表现的图像数据以及关于文档的数字表现的音频数据。捕获可以利用一个或多个耦合至移动设备的捕获组件执行，例如麦克风、照相机、加速计、传感器等。

在另一种方法中，当确定存在统计上的显著差异时，方法可以包括限定新的大分析窗口以及重新估计新的大分析窗口的背景统计分布，即本质上是，和/或在靠近已识别出的可能的非背景点之处的点(例如，靠近文档边缘的一个点)的数字图像的不同区域重复操作。

在若干示例性实施例中，大分析窗口可以位于行内靠近非背景像素或在非背景像素的最左侧，或位于行内靠近非背景像素或位于非背景像素最右侧，位于列内靠近非背景像素或在非背景像素的最上侧，或位于列内靠近非背景像素或位于非背景像素最下侧。

涉及这样的重新估计的方法可以进一步包括确定统计上的显著差异是否存在于至少一个小分析窗口(例如，测试窗口)统计结果和对应的重新估计的大分析窗口统计分布之间。通过这种方式，可能获得是否存在统计上的显著差异的更高置信的确认，并且因此更好地区分从数字图像背景到与其相对的文档的数字表现的正确转换，相较于例如纹理、照明、畸形和/或其他数字图像中的伪像的变化。

而且，执行或不执行上述的重新估计辅助该方法避免了一个或多个伪像，例如数字图像中照明和/或背景纹理等的变化，伪像不与从数字图像背景到文档的数字表现的正确转换相对应。在一些方法中，避免伪像可以采取绕过数字图像的一个或多个区域(例如，特点为将区域与真正背景区分开的纹理、变化等的区域)。

在一些方法中，一旦确定对大分析窗口估计的统计分布和对应的计算出的小分析窗口的统计结果之间存在统计上的显著差异，限定小分析窗口附近的新的大分析窗口，重新估计新的大分析窗口的统计分布，并且确定重新估计的统计分布和对应的计算出的小分析窗口的统计结果之间不存在统计上的显著差异，可以绕过一个或多个区域。

在其他方法中，一旦确定此核查的窗口的统计结果没有明显不同于背景的已知统计特性时，例如就像统计显著性测试中表明的，绕过可以通过核查沿路径较远的另一个分析窗口并且重新搜索向非背景的转换实现。

如本领域技术人员通过阅读本说明书可以领会的，绕过可以通过核查沿路径较远的另一个分析窗口实现。

仍然在进一步的方法中，页面检测可以附加地和/或可替代地包括，确定四边形是否满足一个或多个质量控制度量；以及在确定四边形不满足一个或多个质量控制度量时拒绝四边形。而且，质量控制度量可以包括例如LMS支持度量、最小四边形面积度量、四边形角位置度量以及四边形对角线交点位置度量之类的测量。

实践中，确定四边形是否满足一个或多个这些度量起到核查方法性能的作用。例如，核查可以包括确定四边形是否至少覆盖数字图像总面积的阈值，例如，是否四边形包括总图像面积的至少25％。而且，核查可以包括，确定四边形的对角线是否在四边形的边界以内相交，确定一个或多个LMS近似是否由足够多的数据计算出来，以从中得到对统计结果的鲁棒的置信度，即是否LMS近似有足够的“支持”(在多种方法中，例如由至少5个数据点计算出的近似，或至少数据点总数的四分之一)，和/或确定是否四边形角的位置(由表示了四边形各条边的特点的方程限定)在数字图像边缘的阈值距离以内，例如，四边形的角是否位于离给定方向上数字图像边缘超过100像素远的位置。当然，可以利用其他质量度量和/或核查而不脱离这些公开的范围，如本领域技术人员通过阅读本说明书可以领会的。

在一种方法中，质量度量和/或核查可以辅助拒绝次最优的四边形限定，并且进一步辅助改进四边形边的限定。例如，一种方法包括接收基于多个未能限定有效四边形即未能满足一个或多个质量控制度量的候选边缘点来限定四边形的四条边的指示；并且重新限定多个候选边缘点。尤其是，在这个实施例中，重新限定多个候选边缘点包括，取样比以前失败的尝试的取样点的数目更大数目的点。在一种方法中，为了分析更大数目的候选边缘点，这将通过减少对数字图像的一个或多个行或列的执行步长以及重复算法的所有步骤实现。步长可以在垂直方向、水平方向或两个方向减少。当然，重新限定候选边缘点和/或重新取样数字图像中的点的其他方法也可以利用而不脱离本公开的范围。

仍然进一步的，页面检测可以包括指定整个数字图像作为文档的数字表现，特别是多次重复方法而未能限定有效四边形的地方，甚至在数字图像分析中相继显著减少了步长的地方。在一种方法中，指定整个数字图像作为文档的数字表现可以包括，限定图像的角作为文档的角，限定图像的边作为文档的边等，如本领域技术人员通过阅读本说明书可以理解的。

就像此处描述的，四边形的对角线的特征为，第一条线连接计算出的四边形的左上角和计算出的四边形的右下角，并且第二条线连接计算出的四边形的右上角和计算出的四边形的左下角。而且，第一条线和第二条线优选地在四边形内部交叉。

在多种方法中，一个或多个前述操作可以利用处理器执行，并且处理器可以是移动设备的一部分，特别是具有一体式照相机的移动设备。

矩形化

本说明书涉及数字图像中文档的数字表现的矩形化，下面将详细描述多种方法。

在一个实施例中，矩形化算法的目的是将四边形(例如在页面检测方法中限定的)平滑地转换为矩形(这样的)。尤其是，特点在于多个方程式的四边形，每个方程式对应于四边形的边并且从一类选定的函数中选出。例如，四边形的每条边的特点在于一级多项式、二级多项式、三级多项式等，如本领域技术人员通过阅读本说明书可以领会的。

在一种方法中，四边形的边可以由方程式描述，并且在优选的实施例中，四边形的左边的特点是二级多项式：x＝a₂*y²+a₁*y+a₀；四边形的右边的特点是二级多项式：x＝b₂*y²+b₁*y+b₀；四边形的上边的特点是二级多项式：y＝c₂*x²+c₁*x+c₀；四边形的下边的特点是二级多项式：y＝d₂*x²+d₁*x+d₀。

下面呈现的页面矩形化算法的说明利用四边形内多个基于四边形的本征坐标对(p,q)的定义，通过将所有对应的系数都组合到从上到下的曲线系数比p到1–p中，每个与从上到下的曲线的交点对应的本征坐标对(p,q)的特点为一个取自它的左右边的方程式中的方程式，并且通过将所有对应的系数组合到左右曲线系数比q到1–q中，从左到右的曲线的特点为一个取自它的上下边的方程式中的方程式，其中0<p<1，并且其中0<q<1。

在优选的实施例中，四边形的边的特点是二级多项式，与本征坐标p对应的上到下的曲线的特点是方程式：x＝((1–p)*a₂+p*b₂)*y²+((1–p)*a₁+p*b₁)*y+((1–p)*a₀+p*b₀)，并且与本征坐标q对应的左到右的曲线的特点是方程式：y＝((1–q)*c₂+q*d₂)*y²+((1–q)*c₁+q*d₁)*y+((1–q)*c₀+q*d₀)。当然，其他方程式可以描述上述任何边和/或曲线的特点，如本领域技术人员通过阅读本说明书可以领会的。

对于一个矩形，其是四边形的特殊情况，本征坐标变得尤其简单：在矩形内部，每个本征坐标对(p,q)与平行于矩形的左边的每条边和矩形的右边的每条边的线的交点相对应，例如，将上下边都按p与1–p的比例进行分割的线；以及平行于矩形的上边的每条边和矩形的下边的每条边的线，例如将上下边都按q与1–q的比例进行分割的线，其中0<p<1，并且其中0<q<1。

下面描述的矩形化算法的目的是将经矩形化的图像中的每个点与原始图像中对应的点相匹配，并且按照这样的方法做：将四边形的四条边中的每条边转换成大致上的直线，而四边形的对边应变成彼此平行并且与另一对边相正交；即四边形的上下边变成彼此平行；以及四边形的左右边变成彼此平行并且与新的上下边相正交。因此，四边形被转换成具有四个角的真正的矩形，每个角包括两条相交的直线以形成90度角。

下面描述的矩形化算法的主要想法是实现此目的，通过，首先，在经矩形化的目标图像中对每个点(未示出)计算基于矩形的本征坐标(p,q)，第二，将这些坐标与原始图像中基于四边形的本征坐标的相同对(p,q)相匹配，第三，分别计算对应于这些本征坐标的左到右以及上到下曲线交点的坐标，并且最后，将在原始图像中找到的点的颜色或灰度值分配到点上。

根据一个实施例，现在参考描述了页面矩形化算法的第一迭代的图示，数字图像中的每个点可以与对应于与点关联的本征坐标(如上面描述的)的上到下曲线和左到右曲线(曲线可以包括直线、曲线，例如抛物线等，如本领域技术人员通过阅读本说明书可以理解的)的交点相对应。

如根据本说明书将变得显而易见的，矩形化可以包含限定多个这样的左到右的线和上到下的线。

而且，矩形化可以包括将基于矩形的对象坐标与文档的数字表示的基于四边形的本征坐标相匹配。

这个匹配可以包括迭代搜索给定的左到右曲线以及给定的上到下曲线的交点。迭代搜索，关于根据下面进一步详细讨论的一种方法的，包括指定坐标为(x₀,y₀)的开始点，开始点可以位于文档的数字表现中的任何位置，但优选地位于对象矩形上或靠近其中心。

迭代搜索可以包括将开始点投影到两条交叉曲线上，而开始点可以投影到其中一条曲线上，在一种方法中，迭代搜索中的第一迭代的前半部分包括将开始点投影到上到下曲线以得到下个点的x坐标(x₁)，投影结果用坐标为(x₁,y₀)的点表示。类似地，在一些实施例中，迭代搜索中的第一迭代的后半部分包括将点投影到左到右曲线以得到下个点的y坐标(y₁)，投影结果用坐标为(x₁,y₁)点表示。

矩形化涉及将页面检测中限定的四边形转换成真正的矩形。根据一个实施例，这个过程的结果是执行页面矩形化算法后的输出的图示。

在一些实施例中，进一步的迭代可以利用类似的方法，例如下面进一步的详细描述中谈到的方法。

用于修改数字图像中文档的数字表现的一个或多个空间特性的方法，可以包括此处描述的任何技术。如本领域技术人员通过阅读本说明书可以领会的，该方法可以在任何合适的环境中执行，包括那些示出的和/或在本公开的图中以及对应的说明书中描述的。

在一个实施例中，四边形(例如在上面的页面检测方法中限定的)被转换成矩形。尤其是，四边形的特点在于多个方程式，每个方程式对应于四边形的边并且从选定的一类函数中选出。例如，四边形的每条边的特点是一级多项式、二级多项式、三级多项式等，如本领域技术人员通过阅读本说明书可以领会的。

在一个实施例中，四边形的边可以用方程式描述，并且在优选的实施例中，四边形的左边的特点是二级多项式：x＝a₂*y²+a₁*y+a₀；四边形的右边的特点是二级多项式：x＝b₂*y²+b₁*y+b₀；四边形的上边的特点是二级多项式：y＝c₂*x²+c₁*x+c₀；四边形的下边的特点是二级多项式：y＝d₂*x²+d₁*x+d₀。而且，上到下曲线的方程式是：x＝((1–p)*a₂+p*b₂)*y²+((1–p)*a₁+p*b₁)*y+((1–p)*a₀+p*b₀)，并且左到右曲线的方程式是：y＝((1–q)*c₂+q*d₂)*y²+((1–q)*c₁+q*d₁)*y+((1–q)*c₀+q*d₀)。当然，其他方程式可以描述上述任何边和/或曲线的特点，如本领域技术人员通过阅读本说明书可以领会的。

在一个实施例中，曲线可以由适合一个或多个下列一般形式的示例性

多项式函数描述。x₁＝u₂*y₀ ²+u₁*y₀+u₀；

y₁＝v₂*x₁ ²+v₁*x₁+v₀,

其中u_i＝(1–p)*a_i+p*b_i,并且v_i＝(1–q)*c_i+q*d_i，并且其中a_i是四边形的左边的方程式中的系数，b_i是四边形的右边的方程式中的系数，c_i是四边形的上边的方程式中的系数，d_i是四边形的下边的方程式中的系数，并且p和q是对应于曲线的基于四边形的本征坐标。在一些方法中，系数例如a_i、b_i、c_i、d_i等可以从计算、估计和/或在执行页面检测，例如上面讨论的页面检测，方法期间完成的测定中得到。

当然，如本领域技术人员可以理解的，将四边形转换成矩形可以包括一个或多个附加操作，例如将在下面更加详细描述的。

在一个实施例中，方法附加地和/或可替代地包括延展四边形的一个或多个区域以完成更加接近矩形的或是真正矩形的形状。优选地，这种延展以足够平滑的方式执行，以避免将伪影引入到矩形中。

在一些方法中，将四边形转换成矩形可以包括确定矩形的高度、矩形的宽度、矩形的歪斜角和/或矩形的中心位置。例如，这样的转换可以包括限定对象矩形的宽度作为四边形的上边宽度和下边宽度的平均值；限定对象矩形的高度作为四边形的左边高度和右边高度的平均值；根据图像中矩形想要的布置来限定对象矩形的中心；以及限定对象矩形的歪斜角，例如响应于用户要求来对文档的数字表示校正歪斜。

在一些方法中，转换可以附加地和/或可替代地包括由原始数字图像生成经矩形化的数字图像；对经矩形化的数字图像中的多个点(例如在对象矩形内部和外部的点)确定p坐标和q坐标，其中位于矩形左侧的每个点具有p坐标值p<0，其中位于矩形右侧的每个点具有p坐标值p>1，其中位于矩形上侧的每个点具有q坐标值q<0，其中位于矩形下侧的每个点具有q坐标值q>1。

在一些方法中，转换可以附加地和/或可替代地包括由原始数字图像生成经矩形化的数字图像；对经矩形化的数字图像中的每个点确定基于矩形的一对本征坐标；并且将每对基于矩形的本征坐标与原始数字图像中基于四边形的对等的本征坐标相匹配。

在优选的方法中，将基于矩形的本征坐标与基于四边形的本征坐标相匹配可以包括：对上到下曲线和左到右曲线的交点执行迭代搜索。而且，迭代搜索本身可以包括指定开始点(x₀,y₀)，例如，对象矩形的中心；将开始点(x₀,y₀)投影到左到右曲线上：x₁＝u₂*y₀ ²+u₁*y₀+u0；并且将下个点(x₁,y₀)投影到上到下曲线上：y₁＝v₂*x₁ ²+v₁*x₁+v0,其中u_i＝(1–p)*a_i+p*b_i,并且其中v_i＝(1–q)*c_i+q*d_i。此后，迭代搜索可以包括重复地将(x_k,y_k)投影到左到右曲线上：x_k+1＝u₂*y_k ²+u₁*y_k+u₀；并且将(x_k+1,y_k)投影到上到下曲线上：y_k+1＝v₂*x_k+1 ²+v₁*x_k+1+v₀。

仍然在更多的实施例中，将基于矩形的本征坐标与基于四边形的本征坐标相匹配可以包括确定(x_k,y_k)和(x_k+1,y_k+1)之间的距离；确定该距离是否小于预定的阈值；并且当确定该距离小于预定的阈值时，终止迭代搜索。

歪斜角检测和校正的多个实施例

在一些实施例中，此处公开的图像处理算法可以附加地和/或可替代地包括设计为检测和/或校正数字图像中文档的数字表现的歪斜角的功能。下面描述了校正歪斜的一个优选的方法。当然，校正数字图像中歪斜的其他方法落入这些公开的范围内，如本领域技术人员通过阅读本说明书可以领会的。

数字图像中文档的数字表现的特点可以是一个或多个歪斜角α。如本领域技术人员通过阅读和观看这些说明可以领会到的，水平的歪斜角α表示水平线和文档的数字表现的边缘之间的角，该边缘具有沿大致水平方向(即文档的数字表现的上边缘或下边缘)的纵轴。类似地，α表示垂直线和文档的数字表现的边缘之间的角，该边缘具有沿大致垂直方向(即文档的数字表现的左边缘或右边缘)的纵轴。

而且，文档的数字表现可以由上边缘、下边缘、右边缘和左边缘限定。这些边缘中的每个的特点是大体上的线性方程，这样对于上边缘：y＝-tan(α_-)x+dt；对于下边缘：y＝-tan(α)x+db；对于右边缘：x＝tan(α)y+dr；对于左边缘：x＝tan(α)y+dl，其中dt和db是分别描述了文档的数字表现的上和下边缘的线性方程的y轴截距，并且其中dr和dl是分别描述了文档的数字表现的右和左边缘的线性方程的x轴截距。

在一种方法中，已经限定了的描述文档的数字表现的每条边的线性方程，例如矩形文档，它的歪斜角，可以通过设置α＝0进行校正，这样对于上边：y＝dt；对于下边：y＝db；对于右边：x＝dr；对于左边：x＝dl。

检测照明问题的多个实施例

仍然在更多的实施例中，目前描述的图像处理算法可以包括用于检测文档的数字表现是否包括一个或多个照明问题的特征。

例如，照明问题可以包括数字图像此处未饱和的区域，当数字图像中亮度值从像素到像素改变很大时，例如特点是在周围照明不足和/或提供的照明不足的环境中捕获的图像，以及数字图像此处过饱和的区域，当数字图像中的一些区域褪色，例如在闪光反射中。

下面描述了根据一个实施例的、检测数字图像包括文档的数字表现中照明问题的一种示例性方法；并且其描绘了确定文档的数字表现中是否存在照明问题的方法。如本领域技术人员通过阅读本说明书可以领会的，该方法可以在任何合适的环境中执行，例如，此处描述的以及一起提交的多个图中表示的那些。当然，其他也适于操作方法的环境也落入本公开的范围，就像本领域技术人员阅读此说明书可以领会的。

在一个实施例中，处理方法包括(优选地利用移动设备处理器)将包括文档的数字表现的四边形分成多个部分，每个部分包括多个像素。

在更多的方法中，确定每个部分的亮度值分布。如本领域技术人员理解的，亮度值分布可以通过任何已知的方式编译和/或收集，并且适合任何已知的标准分布模型，例如高斯分布、双峰式分布、偏斜分布等。

仍然在更多的方法中，确定每个部分的亮度值范围。如本领域技术人员领会的，在给定的分布中被限定为最大值和最小值间的差数。此处亮度值范围将被限定为给定部分特有的最大亮度值和相同部分特有的最小亮度值之间的差数。例如，这些特有的值可以分别与整个分布的第2和第98个百分数值相对应。

在许多的方法中，确定每个部分的多个亮度值。

在多种方法中，确定每个部分是否过饱和。例如，根据一个实施例的，操作可以包括确定描绘文档的数字表现的数字图像的区域是过饱和的。确定每个部分是否是过饱和的可以包括对每个部分确定过饱和部分的比例。尤其是，在优选的实施例中，每个部分过饱和的比例被限定为此部分中展示最大亮度值的像素的总数除以此部分中像素的总数。

不均匀照明的图像可以描绘或特点为多个暗点，这些暗点在数字图像的对应像素、点或区域的亮度级比图像或文档的其他区域的亮度级低和/或比图像或文档的平均亮度级低的区域中更加浓密。在一些实施例中，不均匀照明的特点是亮度梯度，例如从图像的右上角(附近区域)开始到图像的较低的左侧角(附近区域)的梯度，这样亮度沿着梯度降低，伴随着相对地图像的右上角(附近区域)的亮区以及相对地图像的较低的左侧角(附近区域)的暗区。

在一些方法中，确定每个部分是否过饱和可以进一步包括，针对每个部分，确定该部分的过饱和度是否比预定阈值更大，例如10％；并且当确定该部分的饱和度比预定的阈值更大时，将该部分标签为过饱和。而目前描述的实施例使用10％的阈值，可以使用其他过饱和度的预定阈值而不脱离本公开的范围。尤其是，准确值是一个视觉感知和专业判断问题，在多个实施例中，可以由用户调节和/或设置。

在更多的方法中，确定每个部分是否是未饱和的。例如，根据一个实施例，操作可以包括确定描述文档的数字表现的数字图像的区域是未饱和的。确定每个部分是否是未饱和的可以包括附加操作，例如确定每部分的亮度值分布的中值变化；确定每个中值变化是否比预定的变化阈值更大，例如中值亮度变化18来自0-255的整数值范围；并且对每个部分，当确定某部分的中值变化比预定的变化阈值更大时，确定该部分是未饱和的。尤其是，准确值是视觉感知和专业判断问题，在多个实施例中，可以由用户调节和/或设置。

在一种特别的方法中，确定某部分的变化可以包括，确定多个像素中对象像素的亮度值；计算对象像素的亮度值和一个或多个邻近像素的亮度值之间的差数，每个邻近像素是距离对象像素一个或多个(例如，2)像素远的像素；对多个像素中的每个像素重复进行确定和计算，以得到每个对象像素变化；并且生成对象像素变化值分布，其中每个对象像素亮度值和对象像素变化值是从0到255范围内的一个整数。这种方法可以通过，例如，自增在0到255的范围内所有可能变化值的阵列中的对应计数器实现，例如生成变化值的柱状图。

尤其是，当利用邻近像素确定特别部分的变化时，邻近像素可以在对象像素沿着或者垂直方向、水平方向或二者(例如，对角线方向)的两个像素以内。当然，可以利用其他像素接近限制而不脱离本发明的范围。

在一些方法中，方法可以进一步包括从对象像素变化值分布中移除一个或多个对象像素变化值，以生成经校正的分布；以及基于经校正的分布限定特有的背景变化。例如，在一个实施例中，生成经校正的分布以及限定特有的背景变化可以包括，移除总计数值的最高35％(或任何足够覆盖与从背景到前景的转换相关联的重大亮度变化的其他值)，并且基于分布中余下的值(即从文档的数字表现的相对平坦的背景区域取得的值)来限定特有的背景变化。

在更多的方法中，确定多个过饱和部分。这个操作可以包括确定过饱和部分总数的任何方法，例如通过图像处理期间自增计数器，通过对每个过饱和部分设置标志，以及在处理期间计数某些点的标志等，如本领域技术人员在阅读本说明书时可以理解的。

在更多的方法中，确定多个未饱和部分。这个操作可以包括确定未饱和部分的全部方法，例如通过图像处理期间自增计数器，通过对每个未饱和部分设置标志，以及在处理期间计数某些点的标志等，如本领域技术人员在阅读本说明书时可以理解的。

在更多的方法中，当确定过饱和部分的数目相对部分的总数的比例超过过饱和阈值时，确定数字图像是过饱和的，过饱和阈值可以由用户限定，其可以是一个预定值等，如本领域技术人员在阅读本说明书时可以理解的。

在更多的方法中，当确定未饱和部分的数目相对部分的总数的比例超过未饱和阈值时，确定数字图像是未饱和的，未饱和阈值可以由用户限定，可以是一个预定值等，如本领域技术人员在阅读本说明书时可以理解的。

在更多的方法中，当确定数字图像或者未饱和或者过饱和时，可以确定数字图像中存在照明问题。

仍然在更多的方法中，方法可以包括一个或多个附加的和/或可替代的操作，例如，将在下面详细描述的。

在一个实施例中，方法可以包括对每个部分执行下列操作。通过将文档的高度分成水平部分的预先确定的数目，限定部分的高度；以及通过将文档的宽度分成垂直部分的预先确定的数目，限定部分的宽度。在优选的方法中，部分的高度和宽度基于产生一定数目的部分并且通过将文档的高度分成一定数目的水平部分以及通过将文档的宽度分成一定数目的垂直部分来使得这些部分组成近似正方形的目的来确定。

因此，在一些实施例中，每个部分具有部分高度和部分宽度的特征，其中，数字图像的特征是图像宽度w和图像高度h，其中h≥w，其中部分的大小具有部分宽度w_s和部分高度h_s，其中w_s＝w/m，其中h_s＝h/n，其中m和n被限定，以便w_s近似等于h_s。例如，在优选的实施例中，m>＝3,n>＝4。

在另一种方法中，确定文档的数字表现中是否存在照明问题的方法包括下列操作，部分或所有这些操作可以在此处描述的和/或目前公开的图中表示的任何环境中执行。

校正不均匀照明的多个实施例

在一些方法中，校正数字图像中照明的不均匀包括使数字图像的全部亮度正常化。正常化全部亮度可以是对数字图像，将特征为如上讨论的亮度梯度的数字图像转换成特征为亮度分布相对平坦、均匀的数字图像。这样可以注意到，一些区域的特点是：比特点是大体相似的暗点密度区域更加明显浓密的暗点分布。

依照本公开，照明的不均匀性可以校正。尤其是，此处提供了校正数字图像的一个或多个区域中不均匀照明的方法，以用于任何合适的环境，包括那些在此处描述的以及在多个图中表示的，在其他本领域技术人员阅读本说明书时将知道的合适的环境中。

在一个实施例中，方法包括利用处理器将二维照明模型从数字图像中导出的操作。

在一个实施例中，二维照明模型应用于数字图像中的每个像素。

在更多的方法中，可以将数字图像分成多个部分，并且一个部分中的一些或所有像素可以基于颜色，例如一个或多个颜色通道中的亮度值、色调中值等聚类(cluster)，如本领域技术人员在阅读本说明书时可以理解的。而且，可以分析几个最大数目的聚类，以确定一个或多个可能的局部背景的特点。为了指定一个聚类作为部分的局部背景，属于这个聚类的像素数目必须超过某一预先确定的阈值，例如总的部分面积的阈值百分数。

在不同的方法中，可以利用任何已知的方法进行聚类，包括马尔可夫链蒙特卡罗法(Markov-chainMonteCarlomethods)、最近邻接法、基于分布的聚类方法例如期望值-最大化，基于密度的聚类方法例如基于空间密度的群以噪声发现聚类算法(DBCSAN)、通过对象排序识别聚类结构算法(OPTICS)等，如本领域技术人员在阅读本说明书时可以理解的。

在一个实施例中，方法可以包括，针对背景聚类中的每个颜色通道值分布，确定对应部分的主要背景的一个或多个平均颜色以及对应部分的次要背景的一个或多个平均值颜色，如果一个或两个存在于部分中。

在一个实施例中，方法包括对每个部分指定主要背景颜色或次要背景颜色作为文档的数字表现的主要背景的局部表示，每个局部表示或者以对应部分的主要背景的平均颜色为特点或者以对应部分的次要背景的平均颜色为特点。

在一个实施例中，方法包括使选择的图像背景的局部表示的多个平均颜色通道值适合于二维照明模型。在一些方法中，二维照明模型是特征为方程式v＝ax²+bxy+cy²+dx+ey+f的二级多项式；其中v是多个颜色通道中一个的平均颜色通道值；a,b,c,d,e和f是二维照明模型的每个未知参数，每个未知参数a,b,c,d,e和f是利用最小均方逼近得到的近似值，x是部分中中点像素的x坐标，并且y是部分中中点像素的y坐标。

在一种方法中，二维照明模型的导出可以包括，对多个背景聚类：计算每个背景聚类的平均颜色通道值，计算每个背景聚类的色调比例，以及对多个背景聚类计算色调中值比例。而且，导出也可以包括将每个背景聚类的色调比例与多个聚类的色调中值比例相比较；基于比较结果选择两个可能背景中更加可能的作为文档背景的局部表现；将至少一个二维照明模型适于局部表现的平均通道值；以及通过多个局部表现计算多个主要背景颜色平均通道值。

方法的应用可以包括，计算一个或多个预测背景通道值和主要背景颜色平均通道值间的差数；以及对数字图像中的每个像素将差数的一小部分加到一个或多个颜色通道值中。例如，加入一部分可以包括加入差数的从0到1范围内的值，例如，在优选的实施例中，将差数的3/4加到真正像素值中。

仍然在更多的方法中，方法可以包括附加的和/或可替代的操作，例如下即将讨论的那些。

例如，在一个方法中，方法进一步包括以下中的一个或多个：对每个部分，确定多个颜色聚类；确定多个众多颜色聚类，每个众多颜色聚类对应于部分中表现的高频率(例如，颜色聚类是具有属于那个聚类的部分中最高数目像素的一个聚类)；确定部分的总面积；确定多个部分的部分面积，每个部分的部分面积对应于由多个众多颜色聚类中的一个表示的面积；通过总面积将每个部分的部分面积分开，以得到每个众多颜色聚类的聚类百分比面积(例如，通过像素的总数将属于众多颜色聚类的部分中的像素数目分开，以得到由对应的最多的众多颜色聚类占用的部分的总面积的百分比)，以及基于聚类百分比区域，将每个众多颜色聚类分类为背景聚类或非背景聚类。

尤其是，在优选的方法中，分类操作识别：部分中没有背景、部分中有单个最多的背景，或者部分中有两个最多的背景。而且，分类包括对每个属于包含比背景阈值更大数目的像素的聚类进行分类，作为背景像素。在一些方法中，背景阈值在0到100％的范围内(例如，在优选的方法中为15％)。背景阈值可以由用户限定，可以是个预先确定的值等，如本领域技术人员在阅读本说明书时可以理解的。

分辨率估计的多个实施例

作为现在公开的有创造性的实施例的进一步对象，移动图像处理可以包括估计文档的数字表示的分辨率的方法。当然，这些方法可以在合适的环境中执行，包括那些在此处描述的以及在随同呈现的多个图中表现的。而且，该方法可以与此处描述的其他方法一起使用，并且可以包括下面描述的那些附加的和/或替代的操作，如本领域技术人员在阅读本说明书时可以理解的。

在一个实施例中，在数字图像中检测多个非背景成分的多个连通区域。在一些方法中，数字图像的特点可以是双调图像，即图像仅包含两个色调，并且优选地仅包括黑色和白色图像。

在另一个实施例中，基于多个连通区域确定多个可能的特征。可能的特征可以是特点为在给定方向预定数目的亮到暗转换的数字图像区域，例如就像会遇到的在垂直方向的三个亮到暗转换对数字图像的小区域描写大写字母“E”，每个亮到暗转换对应于从文档的背景(亮)到字母“E”的一道水平笔画。当然，可以利用其他数目的亮到暗的转换，例如对字母“o”为两个垂直和/或水平亮到暗的转换，对字母“l”为一个垂直的亮到暗的转换等，如本领域技术人员在阅读本说明书时可以理解的。

仍然在另一个实施例中，一个或多个平均字符尺寸基于多个可能的文本字符被确定。如此处理解的，平均字符尺寸可以包括一个或多个平均字符宽度以及平均字符高度，但是当然可以利用其他合适的字符尺寸，就像技术人员阅读说明书时会承认的。

仍然在另一个实施例中，数字图像的分辨率基于一个或多个平均字符尺寸被确定。

在更多的实施例中，方法可以可选择地和/或替代地包括一个或多个附加操作，例如下面描述的。

例如，在一个实施例中，方法可以进一步包括以下中的一个或多个的：基于数字图像的估计的分辨率估计文档的数字表示的一个或多个尺寸；将一个或多个文档的数字表现的估计的尺寸与多个已知文档类型的一个或多个已知的尺寸进行比较；基于比较，将文档的数字表现与多个已知文档类型的一个或多个相匹配；确定匹配是否满足一个或多个质量管理标准；并且当确定匹配满足一个或多个质量管理标准时，基于已知文档类型的已知尺寸调节文档的数字表现的估计的分辨率。在一些方法中，仅仅如果发现文档的数字表现和一种已知文档类型匹配良好，才调节估计的分辨率。

在一些方法中，一个或多个已知文档类型包括：信纸尺寸文档(8.5x11英寸)；法定尺寸文档(8.5x14英寸)；A3文档(11.69x16.54英寸)；A4(欧洲信纸尺寸)文档(8.27x11.69)；A5文档(5.83x8.27英寸)；账目/小报(ledger/tabloid)文档(11x17英寸)；驾驶证(3x7.25英寸)；名片(2x3.5英寸)；个人支票(2.75x6英寸)；商用支票(3x7.25英寸)；商用支票(3x8.25英寸)；商用支票(2.75x8.5英寸)；商用支票(3.5x8.5英寸)；商用支票(3.66x8.5英寸)；商用支票(4x8.5英寸)；2.25英寸宽的收据；以及3.125英寸宽的收据。

仍然在更多的方法中，方法进一步和/或可选择地包括，对一个或多个连通组件，计算以下中的一个或多个：连通组件内的多个通断转换(例如，从字符到文档背景的转换，例如从黑到白、白到黑等的转换，如技术人员在阅读说明书时理解的)；连通组件内的黑色像素密度；连通组件的纵横比；一个或多个连通组件基于一个或多个黑色像素密度、通断转换的数目以及纵横比表示文本字符的似然值。

仍然在更多的方法中，方法可以进一步和/或可选择地包括，确定多个文本字符中的至少两个的字符高度；基于至少两个文本字符中的每个字符的高度计算平均字符高度；确定多个文本字符中的至少两个的字符宽度；基于至少两个文本字符中的每个字符的宽度计算平均字符宽度；执行至少一次比较。尤其是，比较可以从以下中选择：将平均字符高度与参考平均字符高度相比较；以及将平均字符宽度与参考平均字符宽度相比较。

在这样的方法中，方法可以进一步包括，基于至少一个比较结果估计数字图像的分辨率，其中参考平均字符高度和参考平均字符宽度中的每个与一个或多个参考字符相对应，每个参考字符的特点为已知的平均字符宽度和已知的平均字符高度。

在多个实施例中，每个参考字符与在一些可选择的分辨率例如300DPI下扫描一个或多个商业文档的有代表性的样本得到的字符的数字表现相对应，并且每个参考字符进一步与一个或多个通用字体相对应，例如Arial,TimesNewRoman,Helvetica,Courier,CourierNew,Tahoma等，如本领域技术人员在阅读本说明书时理解的。当然，商业文档的有代表性的样本可以在其他分辨率下扫描，只要作为结果的图像分辨率适于辨认文档上的字符。在一些方法中，分辨率必须足够高，以提供最小字符尺寸，例如在一个实施例中，最小的字符高度不小于12像素。当然，本领域技术人员可以理解，最小字符高度可以根据图像类型改变。例如，处理灰度级图像相比处理二进制(例如双调)图像需要不同的字符高度。在更多的方法中，字符必须足够大以能够由光学字符识别法(OCR)识别。

仍然在更多的实施例中，方法可以包括以下中的一个或多个的：基于估计的文档的数字表示的分辨率，估计文档的数字表示的一个或多个尺寸；由平均字符尺寸计算平均字符宽度；由平均字符尺寸计算平均字符高度；比较平均字符宽度和平均字符高度；基于比较结果估计文档的数字表现的方位；以及基于估计的尺寸和估计的方位，将文档的数字表现与已知的文档类型相匹配。

在替代性的实施例中，估计分辨率可以用相反的方法执行，即通过处理文档的数字表现来确定文档的内容，例如支票的数字表示的支付数额、信件的收件人、表格的样式、条形码等，如本领域的技术人员在阅读说明书时可以理解的。基于确定的内容，可以确定文档的数字表现，以与一个或多个已知的文档类型相对应，并且利用已知的一个或多个文档类型的信息，可以确定和/或估计文档的数字表现的分辨率。

模糊检测的多个实施例

根据多个实施例，将描述检测数字图像中一个或多个模糊区域的方法。如本领域技术人员在阅读本说明书时将理解并领会的，方法可以在任何合适的环境中执行，例如此处讨论的以及随同提交的大量图中表示的。进一步地，方法可以单独和/或连同此处描述的其他方法(包括但不限于图像)中的任何其他操作一起执行。

在一个实施例中，方法包括操作，其中，利用处理器将数字图像中包括文档的数字表现的四边形分成多个部分，每个部分包括多个像素。

在一个实施例中，方法包括操作，其中，对每个部分，确定该部分在第一方向上是否包含一个或多个准确的像素到像素的转换。

在一个实施例中，方法包括操作，其中，对每个部分，计数第一方向上急剧的(sharp)像素到像素转换的总数(S_S1)。

在一个实施例中，方法包括操作，其中，对每个部分，确定第一方向上该部分是否包含一个或多个模糊的像素到像素的转换。

在一个实施例中，方法包括操作，其中，对每个部分，计数第一方向上模糊的像素到像素转换的总数(S_B1)。

在一个实施例中，方法包括操作，其中，对每个部分，确定该部分在第二方向上是否包含一个或多个急剧的像素到像素的转换。

在一个实施例中，方法包括操作，其中，对每个部分，计数第二方向上准确的像素到像素转换的总数(S_S2)。

在一个实施例中，方法包括操作，其中，对每个部分，确定第二方向上该部分是否包含一个或多个模糊的像素到像素的转换。

在一个实施例中，方法包括操作，其中，对每个部分，计数第二方向上模糊的像素到像素转换的总数(S_B2)。

在一个实施例中，对每个部分，当确定：S_S1比预定的急剧的转换阈值小，S_B1比预定的模糊转换阈值小，S_S2比预定的急剧的转换阈值小，S_B2比预定的模糊转换阈值小时，确定该部分是空白的。

在一个实施例中，对每个非空白部分，确定第一方向模糊比例r₁＝S_S1/S_B1。

在一个实施例中，对每个非空白部分，确定第二方向模糊比例r₂＝S_S2/S_B2。

在一个实施例中，对每个非空白部分，在确定r₁比预定的部分模糊比例阈值小时，确定非空白部分在第一方向是模糊的。

在一个实施例中，对每个非空白部分，在确定r₂比预定的部分模糊比例阈值小时，确定非空白部分在第二方向是模糊的。

在一些方法中，“第一方向”和“第二方向”可以具有相互垂直的特点，例如，垂直方向和水平方向，或正方形相互垂直的对角线。在其他方法中，“第一方向”和“第二方向”可以与穿过数字图像的任何路线相对应，但优选地，每个方向与穿过数字图像的线性路线相对应。本领域技术人员在阅读本说明书时会领会到，此处公开的具有创造性的实施例的范围不应该仅仅限制于这些例子，而是包括本领域已知的任何等同方式。

在一个实施例中，对每个非空白部分，在确定以下中的一个或多个的：在第一方向该部分是模糊的，以及在第二方向该部分是模糊的时，可以确定非空白部分是模糊的。

在一个实施例中，模糊部分的总数是确定的。

在一个实施例中，图像的模糊比例R限定为：由模糊部分的总数除以部分的总数计算。

在一个实施例中，方法包括操作，其中，当确定图像模糊的比例比预定的图像模糊阈值大时，则确定数字图像是模糊的。

在多个实施例中，方法可以包括一个或多个附加的和/或可替代的操作，例如下面描述的。例如，在一个实施例中，方法还包括，对每个部分确定多个像素的亮度值的分布；确定亮度值的分布的特点变化v；基于(例如η＝3_*v，但是不大于某个值，例如16)计算明显的亮度转换阈值η；基于η计算大亮度转换阈值μ(例如μ＝2*η，但是不大于某个值，例如亮度范围的半值)；对多个像素中的每个像素，分析像素周围窗口中亮度变化的方向性图(例如，水平地、垂直地、对角线地等)；以及识别一个或多个的：基于分析结果的急剧的像素到像素的转换以及模糊的像素到像素的转换。

在另一个实施例中，方法也可以包括，限定多个中心像素；继而分析中心像素周围(例如前后两个像素)的一个或多个像素的小窗口中多个中心像素的每一个；当确定：大亮度转换存在于中心像素的紧邻(例如，直接从前面的像素到其后的像素)，在大亮度转换之前存在第一小(比明显的小一些)亮度变化；以及在大亮度转换之后存在第二小亮度变化时，识别急剧的像素到像素的转换；当确定：大转换存在于一个或多个小窗口中，大转换中存在亮度的单调变化时，检测急剧的像素到像素的转换；以及当确定：在小窗口中发生明显的转换以及在明显的转换中存在亮度的单调变化时，检测模糊的像素到像素的转换。

仍然在另一个实施例中，方法也可以包括，对每个部分：计数一个或多个选择的方向上每个方向的急剧的转换的总数；在每个选择的方向计数模糊的转换的总数；在确定：急剧转换的总数比预定的急剧转换的阈值(例如，50)小；以及模糊转换的总数比预定的模糊转换阈值小时，确定部分是空白的；当确定部分模糊的比例，包括急剧转换的总数到模糊转换的总数，比至少一个选定方向上部分模糊比例阈值(例如，24％)小时，确定非空白部分是模糊的；以及当确定部分既不是空白的也不是模糊的时，确定该部分是急剧的。

然而在另一个实施例中，方法也可以包括，确定多个部分中空白部分的总数(N_blank)；确定多个部分中模糊部分的总数(N_blur)；确定多个部分中急剧部分的总数(N_sharp)；确定模糊比例(R_B)＝N_blur/(N_blur+N_sharp)；以及如果R_B比模糊阈值(优选地用百分数表示，例如30％)小，确定数字图像是急剧的。

进一步领会到，为了应客户的需求提供服务，此处呈现的实施例以展开服务的形式提供。

进一步领会到，为了应客户的需求提供服务，此处展示的实施例以展开服务的形式提供。

文档分类

根据与本公开范围相当的一个具有创造性的实施例，如图5所示，图5示出了方法500。方法500可以在任何期望的环境中执行，并且可以包括图1-4D中描述的实施例和/或方法。当然，可以按照方法500执行比图5中示出的或多或少的操作，如本领域技术人员在阅读本说明书时可以领会的。

在操作502中，接收移动设备捕获的数字图像。

在一个实施例中，数字图像的特点是天然的分辨率。如此处的理解，“天然的分辨率”可以是最初捕获的图像的原始的、天然存在的分辨率，但也可以是进行一些预分类处理(例如上述的任何图像处理操作)后数字图像的分辨率，如本领域技术人员在阅读本描述后将理解的。在一个实施例中，在进行分类之前，对受到虚拟重扫描VRS处理的驾驶证的数字图像，天然的分辨率大约是500像素乘600像素(即500x600数字图像)。而且，在一些方法中，数字图像的特点是彩色图像，并且仍然在更多的方法中，数字图像可以是经裁剪颜色的图像，即数字图像仅大致描绘了要分类的对象，没有描绘图像背景。

在操作504中，利用移动设备的处理器生成数字图像的第一表现。在一种方法中，第一表现的特点可以是减小的分辨率，如此处理解的，“减小的分辨率”可以是比图像的天然分辨率小的任何分辨率，并且根据此处详释的原则，尤其是，适于第一表现接下来分析的任何分辨率。

在优选的实施例中，减小的分辨率足够低，以最小化处理费用并且最大化计算效率和在各自的移动设备、主机设备和/或服务平台上执行算法的鲁棒性。例如，在一种方法中，第一表现的特点是大约25像素乘25像素的分辨率，其经试验确定是对处理相对地小文档，例如名片、驾驶证、收据等特别有效和鲁棒的减小的分辨率，如本领域技术人员在阅读本说明书时可以领会的。

当然，在其他的实施例中，可以利用不同的分辨率而不脱离本公开的范围。例如，为了鲁棒的分类和最大化计算效率，较大文档或对象的分类可以从利用更高的分辨率例如50像素乘50像素，100像素乘100像素等来更好地表现较大文档或对象中获得益处。每个维度中利用的分辨率可以具有或不具有相同数目的像素。而且，用于分类对象类别广大范围内的不同对象的最想要的分辨率，可以根据用户在计算效率和分类鲁棒性间优选的平衡数字经实验确定。仍然在更多的实施例中，可以利用任何分辨率，并且优选地，分辨率的特点是包括第一维度的1像素到约1000像素间的像素，以及第二维度的1像素到约1000像素间的像素。

用于生成第一表现的处理流程的输入、输出和/或结果的一个示例性实施例，将在特别提到的图3A-3C中展示，其分别描绘了：被分成多个部分之前的数字图像(例如，图3A中示出的数字图像300)；分成多个部分的数字图像(例如，图3B中示出的部分304)；以及特点为减小的分辨率的数字图像的第一表现(图3C中示出的表现310)。

如图3A-3B所示，由移动设备捕获的数字图像300可以分成多个部分304。每个部分可以包括多个像素306，其可以包括像素的大致矩形的网格，这样该部分具有水平像素p_S(x)(如图3B所示p_S(x)＝4)乘垂直像素p_S(y)(如图3B所示p_S(y)＝4)的尺寸。

在一个一般的实施例中，方法包括：利用移动设备接收或捕获数字图像；利用移动设备的处理器：确定数字图像中描绘的对象是否属于多个对象类别中的特定对象类别；至少部分响应于确定该对象属于特定对象类别，确定一个或多个至少部分基于特定对象类别的对象的对象特征；至少部分基于一个或多个确定的对象特征建立或选择提取模型；并且利用提取模型从数字图像中提取数据。

在另一个一般实施例中，方法包括：利用移动设备接收或捕获数字图像；并且利用移动设备的处理器：确定数字图像中描绘的对象是否属于多个对象类别中的特定对象类别；当确定该对象不属于任何多个对象类别时，将数字图像显示在移动设备的显示器上；通过移动设备的显示器接收用户输入，用户输入识别对象中的一个或多个感兴趣区域；至少部分基于用户输入建立和/或选择提取模型；并且至少部分基于提取模型从数字图像中提取数据。

仍然在另一个实施例中，计算机程序产品包括其中嵌入了程序代码的计算机可读存储介质，程序代码可由处理器读取和/或执行，从而：接收移动设备捕获的数字图像；确定数字图像中描绘的对象是否属于多个对象类别中的特定对象类别；当确定该对象属于特定对象类别时，确定一个或多个至少部分基于特定对象类别的对象的对象特征；至少部分基于一个或多个对象特征建立或选择提取模型；并且至少部分基于提取模型从数字图像中提取数据。

第一表现可以通过将数字图像R分成(具有分辨率像素x_R乘像素y_R)水平部分S_x和垂直部分S_y生成，并且因此其特点是减小的分辨率r为像素S_x乘像素S_y。因此，生成第一表现本质上包括生成数字图像的少颗粒状的表现。

例如，在一种方法中，数字图像300被分成S部分，每个部分304与s乘s像素网格302的一部分对应。生成第一表现包括生成s像素乘s像素的第一表现310，其中，第一表现310中的每个像素312与数字图像的S部分304对应，并且其中每个像素312位于与数字图像中的对应部分304的位置相对应的第一表现310的位置处，即第一表现中最左上角的像素312与数字图像中最左上角的部分304对应。

当然，第一表现可以利用其他减小的分辨率，理想地但不必根据用来执行处理的移动设备、主机设备、和/或服务器平台的限制和/或特征，被检测和/或分类的数字图像的特征(分辨率、照明、存在模糊等)和/或对象的特征(与背景截然不同，文本或其他符号的存在，与一般模板配合紧密)，如本领域技术人员在阅读本说明书时将理解的。

在一些方法中，生成第一表现可以包括一个或多个可替代的和/或附加的子操作，例如将数字图像分成多个部分。可以通过任何合适的方式将数字图像分成多个部分，并且在一个实施例中，数字图像被分成多个矩形部分。当然，各部分的特征可以是任何形状，并且在可替代的方法中，多个部分可以或不可以表示整个数字图像，可以表示图像的一些区域的重复采样，或可以表示数字图像中描述的每个像素的单个采样。在优选的实施例中，就像上面讨论的关于图3A-3C，数字图像被分成S个大致正方形部分304，以形成sxs网格302。

在进一步的方法中，生成第一表现也可以包括，对数字图像的每个部分确定至少一个特征值，其中每个特征值与描述该部分的一个或多个特征相对应。在本公开的范围内，任何表达为数字值的特征适于用在生成第一表现中，例如，部分中每个像素的平均亮度或密度(0-255)、部分中每个像素的每个颜色通道的平均值(0-255)，例如，红绿蓝(RGB)图像的平均红色通道值，以及平均绿色通道值，以及平均蓝色通道值等，如本领域技术人员在阅读本说明书时将理解的。

继续参照图像3A-3C，在一些实施例中，第一表现310的每个像素312与S个部分304的一个部分相对应，不仅仅是位置对应，还有特征对应。例如，在一种方法中，生成第一表现310可以附加地包括，通过计算部分304中每个像素306的个别密度值i_P的平均值，确定特有的部分密度值i_S。然后，第一表现310中的每个像素312被分配给一个密度值，其等于对数字图像300的对应部分304计算出的平均密度值i_S。用这种方法，第一表现310显示出数字图像300中描绘的较少颗粒、归一化的特征表现。

当然，包括第一表现310的像素312可以用任何特征值或特征值的组合表示而不脱离本公开的分类方法的范围。进一步地，特征值可以利用任何合适的方法计算和/或确定，例如通过随机选择值的分布中的特征值，通过统计方法或测量，例如平均值、值的扩展、最小值、最大值、值的标准偏差、值的方差，或通过技术人员阅读本说明书将已知的任何其他方法。

在操作506中，基于第一表现生成第一特征矢量。

第一特征矢量和/或参考特征矩阵可以包括多个特征矢量，其中，每个特征矢量与对应的对象类别的特征相对应，例如特征最小值、最大值、平均值等、特殊位置(像素或部分)的一个或多个颜色通道中的亮度、在特殊位置存在特殊符号或其他参考对象、尺寸、纵横比、像素密度(尤其是黑色像素密度，并且任何其他颜色通道的像素密度)等。

如本领域技术人员在阅读本说明书时将理解的，适于包含在第一特征矢量和/或参考特征矩阵中的特征矢量包括任何类型，特征矢量的数目和/或长度。

在操作508中，第一特征矢量与多个参考特征矩阵进行比较。

比较操作508可以根据任何合适的向量矩阵比较执行。

因此，在这样的方法中，比较可以包括N维特征空间比较。在至少一种方法中，N大于50，但是当然，N是任何足够大的值，以保证将对象鲁棒地分类成单一、准确的对象类别，本领域技术人员在阅读本说明书时将领会到，该类别会根据许多因素而改变，例如对象的复杂性、对象类别间的相似性或不同性、对象类别的数目等。

就像此处理解的，“对象”包括图像中表现的任何有形的东西，并且其可以根据至少一个独一无二的对象特征或特点例如颜色、大小、尺寸、形状、纹理、亮度、密度、存在或不存在一个或多个或有代表性的标志或其他特征、一个或多个有代表性的标志或其他特征的位置、多个有代表性的标志或其他特征间的位置关系等进行描述，如本领域技术人员在阅读本说明书时将领会的。此外，对象包括任何表现在图像中的可触知的东西，其可以根据这种特征的至少一个独一无二的组合进行分类。例如，在多个实施例中，对象可以包括但决不限于人、动物、车辆、建筑物、界标、文档、家具、植物等，如本领域技术人员在阅读本说明书时将理解的。

例如，在一个实施例中，其中尝试分类数字图像中描绘的对象，仅仅作为小数目的对象类别(例如，3-5个对象类别)中的一个，每个对象类别的特点是很大数目的完全地区别特征或特征矢量(例如，每个对象类别与特征为非常不同的大小、形状、颜色简档和/或颜色方案的一个或多个对象相对应，并且容易区别的参考符号位于每个对象类别上的独一无二的位置等)，N的相对较低的值可以足够大以保证鲁棒的分类。

另一方面，尝试分类数字图像中描绘的对象，作为大数目的对象类别(例如，30个或更多的对象类别)中的一个，每个对象类别的特点是很大数目的类似的特征或特征矢量，以及仅仅少数的区别特征或特征矢量，N的相对较高的值是更好的，以保证鲁棒的分类。类似地，N值被优选地选择或确定，使得分类不仅是鲁棒的，而且还是计算高效的，即，一个或多个分类处理仅向被用以执行分类算法的一个或多个设备或系统引入最小的处理费用。

实现分类鲁棒性和处理费用之间想要的平衡的N值依赖于许多因素，例如上面描述的以及其他本领域技术人员在阅读本说明书时将领会的。而且，确定合适的N值以实现想要的平衡，可以利用任何已知的方法或技术人员在阅读本公开时理解的其等同方法完成。

在具体的实现方法中，根据国家指示用于分类驾驶证以及将驾驶证与无数其他文档类型分开，625维的比较是确定的，其向利用当代移动设备进行的处理提供了更好地鲁棒的分类，而没有引起不令人满意的高费用。

在操作510中，数字图像中描绘的对象作为至少部分基于比较操作508的特定对象类别的一员被分类。更具体地，比较操作508可以包括评价每个特征矢量和/或特征矩阵的参考清单中的每个特征矢量，或可替代地，对属于特别对象类别的对象评价多个特征矩阵，以及识别将特征矢量和/或特征矩阵的一个参考清单中的特征矢量与其他参考特征矩阵中的特征矢量分开的N维特征空间中的超平面。用这种方法，分类算法限定了对象类别间具体的超平面边界，以及基于特征矢量与特定对象类别的相似性和/或与特征矢量和/或特征矩阵轮廓的其他参考清单的不同性将未知的对象分配到特定对象类别中。

在这样的特征空间辨别的最简单的例子中，设想一个二维特征空间，其一个特征沿纵轴划分，并且另一个特征沿横轴划分，属于一个特定类别的对象的特征可以是具有在特征空间的右下角部分中聚类的值分布的特征矢量的特点，而对象的另一个类别的特征可以是展示在特征空间的左上角部分中聚类的值分布的特征矢量的特点，并且分类算法可以通过识别每个将特征空间分成两个类别—“左上角”和“右下角”的聚类之间的线来识别二者间的不同。当然，随着特征空间中考虑的维度数目增加，分类的复杂性增长很快，而且为分类的鲁棒性提供了重大改进，如本领域技术人员在阅读本说明书时将领会的。

附加的处理过程

在一些方法中，根据现在公开的方法的实施例，分类可以包括一个或多个附加的和/或可替代的特征和/或操作，例如下面描述的。

在一个实施例中，例如上面描述的分类可以附加地和/或可替代地包括，基于现在公开的分类方法中的比较操作(例如，如方法500的操作508中执行的)，将置信值分配到多个假定的对象类别中，系统和/或计算程序产品可以附加地和/或可替代地确定移动设备的位置，接收指示移动设备位置的位置信息等，并且基于确定的位置，可以调节与特别位置对应的分类结果的置信值。例如，如果基于GPS信号确定移动设备位于特别州中(例如，马里兰)，则在分类期间，可以调节对应于特别州(例如，马里兰驾驶证、马里兰机动车所有权/登记部门的表格、马里兰交通违章罚单等，如本领域技术人员在阅读本说明书时将理解的)的任何对象类别的置信值。

置信值可以用任何合适的方法调节，例如增加与特别位置对应的任何对象类别的置信值，减小与特别位置不对应的任何对象类别的置信值，基于与特别位置的对应/不对应正常化一个或多个置信值等，如技术人员在阅读本公开书时将理解的。

移动设备的位置可以利用任何已知的方法，以及利用移动设备的硬件组件或与移动设备通信的许多其他设备，例如一个或多个卫星、无线通信网、服务器等确定，如本领域技术人员在阅读本说明书时将理解的。

例如，可以整个或部分基于一个或多个全球定位系统(GPS)信号、与无线通信网的连接、已知位置的数据库(例如，联系人数据库、与导航工具联系的数据库，例如谷歌地图等)、社交媒体工具(例如，“登记进入”特征，例如通过脸书，谷歌Plus，Yelp等提供的特征)、IP地址等确定移动设备的位置，如本领域技术人员在阅读本说明书时将理解的。

在更多的实施例中，分类附加地和/或可替代地包括，向移动设备的显示器输出特定对象类别的指示；并且响应于输出指示，通过移动设备的显示器接收用户输入。虽然用户输入可以是任何已知的类型并且涉及任何此处描述的特征和/或操作，但是优选地，用户输入涉及确认、取消或修改特定对象类别，其通过分类算法将对象分配到此类别。

指示可以用任何合适的方法输出到显示器，例如通过推送通知、文本信息、移动设备的显示器上的显示窗口、电子邮件等，如本领域技术人员将理解的。而且，用户输入可以采取任何形式并且用任何已知的方法接收，例如检测用户敲击或按压移动设备显示器的某部分(例如，通过检测电阻、触屏设备的电容的变化，通过检查用户与一个或多个移动设备的按钮或开关的互动等)。

在一个实施例中，分类进一步包括，至少部分基于特定对象类别，确定经分类的对象的一个或多个对象特征。因此，分类可以包括利用任何合适的机制或方法确定这样的对象特征，例如接收对象类别识别码并且利用对象类别识别码作为问题和/或在对象特征数据库中进行查找，对象特征数据库根据对象类别以及键控的、经散列的、编入索引的对象类别识别码组织。

本公开范围内的对象特征可以包括能够在数字图像中识别的任何特征，并且优选地，能够用数字形式(标量、矢量中的一个，或其他形式)表示的任何特征，例如包含一个或多个参考对象的子区域位置(尤其是在一个或多个对象方位状态中，例如地形、肖像等)、对象颜色简档、或颜色方案、对象子区域颜色简档或颜色方案、文本位置等，如本领域技术人员在阅读本说明书时将理解的。

根据另一个在范围上与本公开相当的有创造性的实施例，如图6所示，图6中示出了方法600。方法600可以在任何想要的环境中执行，并且可以包括图1-4D中描述的实施例和/或方法。当然，与图6中示出的那些差不多的操作可以用与方法600一致的方法执行，如本领域技术人员在阅读本说明书时将领会的。

在操作602中，基于移动设备捕获的数字图像生成第一特征矢量。

在操作604中，将第一特征矢量与多个参考特征矩阵进行比较。

在操作606中，数字图像中描述的对象作为特定对象类别的成员至少部分基于比较(例如，在操作604中进行的比较)进行分类。

在操作608中，对象的一个或多个对象特征至少部分基于特定对象类别确定。

在操作610中，执行处理操作。处理操作包括执行一个或多个下列子处理：至少部分基于一个或多个对象特征检测数字图像中描绘的对象；至少部分基于一个或多个对象特征矩形化数字图像中描绘的对象；至少部分基于一个或多个对象特征裁剪数字图像；并且至少部分基于一个或多个对象特征二进制化数字对象。

如本领域技术人员在阅读文档分类的上述说明书时将进一步领会的，在多个实施例中，执行一个或多个附加的处理操作是有利的，例如上面描述的通过文档分类确定的关于操作610至少部分基于对象特征的子处理。

例如，在对数字图像中描述的对象分类后，例如文档，可能提炼其他处理参数、功能等和/或利用已知正确的经分类的对象属于哪个对象类别的信息，例如对象形状、大小、维度，感兴趣对象的区域位置，例如描绘一个或多个符号、图案、文本等的区域，如本领域技术人员在阅读本说明书时将理解的。

关于基于分类执行页面检测，在一些方法中，为了改进对象检测能力，利用属于特定对象类别的对象的已知信息是有利的。例如，如本领域技术人员将领会的，将可能识别数字图像中对象的一组特征限制成一个或少数离散的、已知的特征，并且搜索那些一个或多个特征，可以具有较少的计算成本，和/或导致更高的置信度或更高质量的结果。

可以用于改进对象检测的典型特征可以包括特征，例如对象尺寸、对象形状、对象颜色、对象类别的一个或多个参考特征(例如，位于文档的已知位置的参考符号)。

在另一种方法中，通过帮助对象检测算法将描述一个对象的数字图像区域与描绘其他对象，图像背景、伪像等的数字图像区域区分开，可以基于一个或多个已知特征改进对象检测，如本领域技术人员在阅读本说明书时将理解的。例如，如果属于特定对象类别的对象已知展示了特定颜色简档或方案，尝试检测数字图像内的特定颜色简档或方案可能比检测从一个颜色简档或方案(例如，背景颜色简档或方案)到另一个颜色简档或方案(例如，对象颜色简档或主题)要更加简单和/或更加可靠，尤其是如果两个颜色简档或方案不具有明显相对的特征的特点。

关于基于分类执行矩形化，在一些方法中，为了改进对象矩形化的性能，利用关于对象属于特定对象类别的已知信息是有利的。例如并且本领域技术人员将领会的，基于一组决定性地表示了真正的对象构造的已知的对象特征，将对象的数字表现从天然的外貌变换成真正的构造，而不是尝试从自然的外貌估计真正的对象构造并且将自然的外貌投影到估计的对象构造上，可以具有较低的计算成本和/或可以导致更高的置信度或更高质量的结果。

在一种方法中，分类可以识别对象的已知的尺寸，并且基于这些已知的尺寸可以将数字对象矩形化(例如，以通过移除利用移动设备的照相机而不是传统平板扫描仪、进纸扫描仪或其他类似的多功能外围设备(MFP)捕获图像的过程中引入的投影效果)，将数字图像中对象的变形的表现变换成不变形的表现。

关于基于分类进行裁剪，与上面讨论的关于矩形化的原则类似，在一些方法中，利用关于对象属于特定对象类别的已知信息，对改进描述对象的数字图像的裁剪是有利的，这样所有经裁剪的图像的所有或大部分描述了对象并且没描绘图像背景(或其他图像中描绘的对象、伪像等)。

作为一个简单的例子，根据对象类别确定对象的已知的大小、维度、配置等，并且利用这个信息从没有描述对象的图像区域识别描述对象的图像区域，并且限制对象周围的裁剪线以移除没有描绘对象的图像区域，是有利的。

关于基于分类执行二值化，现在公开的分类算法具有若干对移动图像处理有用的改进。这种改进的若干示例性实施例现在将在图4A-4D中描述。

例如，二值化算法一般地将多色调的数字图像(例如，灰度级、颜色或任何其他图像，例如展示了多于两个色调的图像400)变换成二值化图像，即仅展示两个色调(典型地，白色和黑色)的图像。本领域技术人员将领会，试图二值化描述对象的数字图像，其区域展示了两个或更多不同的颜色简档和/或颜色方案(例如，描绘彩色图片402的区域与描绘黑/白文本区域404的区域对比，彩色文本区域406，符号408，例如参考对象、水印等，对象背景区域410等)，会产生不成功或不能令人满意的结果。

根据一种说明，这些困难可能至少部分是由于颜色简档、方案等间的不同，其将反向影响单向二值化变换。因此，提供区分具有完全不同颜色方案或简档的每个区域的能力，并且限制每个分离的二值化参数，可以大大改进作为结果的整个双调图像的质量，特别是关于每个各自区域中变换的质量。

根据图4A-4B中示出的一个示例性实施例，改进的二值化可以包括，确定对象类别颜色简档和/或方案(例如，确定对象背景区域410的颜色简档和/或方案)；基于对象类别颜色简档和/或颜色方案调节一个或多个二值化参数；并且利用一个或多个经调节的二值化参数对数字图像设置阈值。

如本领域技术人员在阅读本说明书时可以领会的，二值化参数可以包括任何合适的二值化过程的任何参数，并且二值化参数可以根据任何合适的方法进行调节。例如，关于基于对象类别颜色简档和/或颜色方案调节二值化参数，二值化参数可以调节为依照对象类别颜色简档/方案(例如强调不够红色调等相对饱和的对象类别颜色简档/方案的红色通道)过于强调和/或强调不够一个或多个颜色通道、强度等的贡献。

类似地，在其他实施例中，例如尤其是在图4B-4D中示出的，改进的二值化可以包括，确定对象类别掩膜，将对象类别掩膜应用于数字图像，并且基于对象类别掩膜对数字图像的子区域设置阈值。在对象类别掩膜为属于该类的对象提供关于感兴趣的特征的特别区域位置的信息(例如，描述彩色图片402的区域，描述黑/白文本区域404、彩色文本区域406的区域，描述符号408的符号区域，例如参考对象、水印等，对象背景区域410等)并且使得可以从一个或多个二值化操作中选择这种区域的包含物和/或排除物的条件下，对象类别掩膜可以是任何类型的掩膜。

例如，如图4B所示，改进的二值化包括，确定识别区域(例如紧接上面讨论)的对象类别掩膜420，并且将对象类别掩膜420用于将所有数字图像400从二值化中排除，除了感兴趣的单个区域，例如对象背景区域410。可替代地，整个数字图像可以被遮盖，并且感兴趣的区域例如对象背景区域410随后被透明遮盖，以用于二值化过程。而且，无论怎样，现在关于图4B中描述的遮盖功能可以与上面描述的示例性的颜色简档和/或颜色方案信息功能结合在一起，例如通过获得对象类别掩膜和对象颜色简档和/或颜色方案，除了对象背景区域410以外将对象类别掩膜应用于从二值化中排除所有的数字对象，基于对象背景区域颜色简档和/或颜色方案调节一个或多个二值化参数，并且利用经调节的二值化参数为对象背景区域410设置阈值。

延伸图4B中示出的原理，感兴趣的多个区域可以利用对象类别掩膜420进行透明遮盖和/或遮盖，以在设计为生成高质量的双调图像的分层的方法中可选择地为二值化指定区域和/或参数。例如，在应用对象类别掩膜420之后，如图4C所示，图4C中的多个文本区域404、406可以为二值化保留(可能地，利用经调节的参数)，例如，在一些方法中，用于从二值化中排除所有非文本区域。

类似地，仅简单地从二值化中排除图像的一部分是有利的，无论是否调节任何参数。例如，关于图4D，利用对象类别掩膜420遮盖数字图像400的唯一区域是想要的，例如描述彩色图片402的区域。然后，特别地在方法中，其中数字图像400的余下部分的特点是单个颜色简档和/或颜色方案，或小数目的(即不大于3)本质上类似的颜色简档和/或颜色方案，可以进行二值化以对数字图像400余下的部分进行分类。随后，被遮盖的唯一区域可以可选择地恢复给数字图像400，其结果是受到二值化的数字图像400的所有区域内改进的双调图像质量加上未受到二值化的图像区域内未受到打扰的彩色图片402。

仍然在更多的实施例中，至少部分基于分类和/或分类结果执行光学字符识别(OCR)是有利的。特别地，确定关于属于特别类别的对象中描绘的文字的位置、形式和/或内容的信息，并且基于期望的文本位置、形式和/或内容修改通过传统的OCR方法估计的预测是有利的。例如，在一个实施例中，其中OCR预测估计对应于文档的“日期”地方的区域读取“Jan,14,201l”，现在公开的算法可以确定此文本期望的形式采用形式，例如“[缩写月份][.][##][,][####]”。该算法可以改正错误的OCR预测，例如，将“Jan”后面的逗号转换成句号和/或将“201l”末尾的字母“l”转换成数字字符。类似地，现在公开的算法可以确定相同文本的期望形式用“[##]/[##]/[####]”代替，并且将“Jan”转换成“01”，并且将每套逗号间隔字符“,“转换成斜线“/”，以改正错误的OCR预测。

当然，改进和/或校正OCR预测的其他方法，技术人员在阅读这些说明时将领会，也完全落入本公开的范围。

数据提取

除了基于对象类别执行改进的图像处理以外，用户希望收集关于一个或多个数字图像中描述的对象的信息。在一些实施例中，为了从数字图像中提取数据，促使对象分类是有利的。如下面进一步详述的，目前公开的方法、系统和计算机程序产品于是包括基于对象类别从数字图像中提取数据的功能。

此处讨论的数据提取实施例可以利用一个或多个支持向量机(SVM)技术、示例学习(LEB)技术、特征矢量、特征矩阵、文档验证技术、数据集组织技术、直推式分类技术、最大熵判别(MED)技术等，如本领域技术人员在阅读本说明书时将理解的。

现在参考图7，示出了根据一个实施例的方法700。该方法可以在任何合适的环境中和/或利用任何合适的装置执行，包括那些在图1-4D中、在多种方法中描述的。

在一种方法中，方法700包括操作702，其接收移动设备捕获的数字图像。在一些实施例中，数字图像接收和/或存储在此移动设备和/或另一个移动设备的存储器中。而且，可以从多种渠道接收数字图像，例如包括摄像头、存储器、无线电接收机、天线等的移动设备的组件，如本领域技术人员在阅读本说明书时将理解的。在其他方法中，可以从远程设备接收数字图像，例如远程服务器、另一个移动设备、具有综合数据传输能力的照相机、传真件或其他多功能打印机等。数字图像可以可选择地通过在线服务、数据库等接收，如技术人员在阅读本公开时将理解的。

方法700进一步包括利用移动设备的处理器执行操作704-710，其在下面被进一步详细描述，如本领域技术人员在阅读本说明书将理解的，方法700的多个实施例可以包含利用移动设备的处理器、云计算环境等以及它们的任何组合执行任何操作704-710。

在操作704中，移动设备的处理器用于确定数字图像中描绘的对象是否属于多个对象类别中的特定对象类别。确定描绘的对象是否属于特定对象类别可以利用此处描述的任何方法，特别是关于上面讨论的关于图5和6的对象分类方法实现。

在操作706中，移动设备的处理器用于至少部分基于特定对象类别确定对象的一个或多个对象特征。在一个实施例中，可以利用特征矢量、特征矢量清单、特征矩阵和/或提取模型确定对象特征。这个确定响应于确定该对象属于特定对象类别而进行。如此处讨论的，对象特征包括任何独一无二的特点或足以识别多个可能对象中的对象的特点的独一无二的组合或任何独一无二的特点或足以识别属于多个对象类别中的特定对象类别的对象的特点的独一无二的组合。例如，在多种方法中，对象特征可以包括对象颜色、大小、维度、形状、纹理、亮度、密度、一个或多个有代表性的标志或其他特征的存在或不存在、一个或多个有代表性的或其他特征的位置、多个有代表性的标志或其他特征间的位置关系等，如本领域技术人员在阅读本说明书时将理解的。

在优选的实施例中，一个或多个对象特征包括一个或多个对象的感兴趣区域。如此处理解的，感兴趣区域可以包括描绘、表示、包含等用户想要提取信息的对象的任何部分。因此，在一些方法中，一个或多个感兴趣区域包括一个或多个文本字符、符号、图片、图像等。

例如，在一个例子中，用户想要进行信用核查，申请贷款或租借等。为了进行想要的行动，用户需要收集数据，例如申请人姓名、地址、社会安全号码、生日等。移动设备可以接收一个或多个识别文档，例如物业账单、驾驶证、社会安全卡、护照、支付票根等的数字图像，其包含/描绘了关于表现信用核查、贷款或租借申请等的信息。在这种情况下，感兴趣区域可以包括描述了相关数据，例如申请人姓名、地址、社会安全号码、生日等的识别文档的任何部分。

在另一个实施例中，用户希望进行电子资金转账、建立重复账单付款、参与财务交易等。在这种情况中，用户需要收集数据，例如账户号、汇款路径号码、收款人姓名、地址、开账单人的姓名和/或地址、签名、支付账户、支付日期和/或明细表等，如本领域技术人员在阅读本说明书时将理解的。移动设备可以接收一个或多个财务文档，例如账单、汇款票、支票、信用卡、驾驶证、社会安全卡、护照、支付票根等的数字图像，其包含/描绘了关于表现信用核查、贷款或租借申请等的信息。在这种情况下，感兴趣区域可以包括描绘了相关数据，例如账户号、汇款路径号码、收款人姓名、地址、开账单人的姓名和/或地址、签名、支付账户、支付日期和/或明细表等的识别文档的任何部分。

仍然在另一个实施例中，用户想要证实申请机动车登记或新的银行账户等的个人的身份。申请人提供了驾驶证作为身份证明。用户可以捕获驾驶证的图像，并且从包括文本信息例如姓名、地址、驾驶证号码等的图像中提取数据。用户也可以从图像中提取驾驶证的图片，并且将提取的图片和驾驶证参考图片进行比较。参考图片可以用多种方法从由机动车管理办公室、银行、政府机构维持的数据库等维持的本地数据库中取出。可替代地，参考图片可以是事先从证件持有人处得到的图片，例如在先前需要身份证明的交易中得到的图片。在一个实施例中，根据比较结果，可以提交给用户提取的图片是否与参考图片相匹配的指示以及可选择的置信分数。

操作708包括利用移动设备的处理器至少部分基于一个或多个对象特征建立或选择提取模型。在一个实施例中，对象类别确定提取模型。如此处理解的，提取模型涵盖可以用于从其中提取数据的数字图像的任何模型。在优选的方法中，提取模型包括指令和/或参数集，用于从数字图像中收集数据。在特定优选的实施例中，提取模型利用特征矢量和/或特征矢量清单和/或特征矩阵生成和/或修改指令，以从数字图像中提取数据。

例如，在一种方法中，此处描述的示范性数据提取过程配置为基于对象和/或其对象特征(可以具体化为一个或多个特征矢量)从多种形式的身份证明中提取数据。说明性的身份证明的形式可以包括例如多个驾驶员的证件形式。而且，说明性的身份证明(ID)可以根据一个或多个不同标准进行分类，例如与ID对应的颁发实体(州、管理机构等)。可以基于确定谈论的ID属于一个预定ID类型(例如，谈论的ID是马里兰驾驶证)来选择提取模型。优选地，选择的提取模型利用来自对应的类型/类别中的多个原型建立。

在一个示范性的方法中，基于用户输入识别感兴趣区域，操作708可以包括检验一个或多个存在的对象类别规定，以判定确定的对象特征是否限定了模式，该模式匹配、对应或类似于限定了属于存在对象类别的对象的特征的模式。当确定模式匹配、对应或类似时，操作708可以包括，选择为匹配的对象类别限定的存在的提取模型，并且利用该提取模型从数字图像中提取数据。存在的对象类别定义和/或提取模型可以从移动设备的存储器、与移动设备通信的存储器、服务器、本地或在线数据库等中取出，如本领域技术人员在阅读本说明书时将理解的。

可替代地，操作708可以包括分析图像及其特点，以限定描述图像特点的特征矢量。这个新的特征矢量可以用于修改描述了具有感兴趣区域的匹配、对应或类似的模式的存在对象类别的特征矢量、特征矢量清单和/或特征矩阵。例如，建立提取模型可以包括将对象特征映射到特征矢量、特征矢量清单和/或特征矩阵，其已经经由上面描述的新的特征矢量进行了修改。作为结果的提取模型配置为从描述属于存在对象类别的对象的图像中提取数据。

附加地和/或可替代地，在一些方法中，操作708可以包括基于对象特征建立新的提取模型。更加特别地，利用移动设备的处理器，分析图像以及利用其特点限定特征矢量和/或描述图像特点的特征矢量清单。例如，一个或多个特征矢量可以与图像特点例如一个或多个颜色通道中的像素亮度和/或密度、一个或多个颜色通道中的一个或多个邻近像素的亮度和/或密度、图像或图像的子区域中的像素的位置关系等相对应。图像分析以及特征矢量定义可以用任何合适的方式执行，并且优选地，可以大致作为上面描述的关于“文档分类”和“附加处理”执行。利用特征矢量，操作708可以包括建立与感兴趣区域中描述的图像特点相对应的、配置为提取数据的提取模型。

仍然在更过的实施例中，建立提取模型可以包括映射特征矢量、特征矢量清单和/或特征矩阵，以及将一个或多个元数据标签与每个经映射的对象特征建立联系。在一种方法中，将特征矢量、特征矢量清单和/或特征矩阵映射到对象特征包括处理特征矢量，以由此确定图像的相关位置信息、颜色轮廓信息等。

元数据标签可以包括任何类型的信息并且可以与任何类型的对象特征相关联。例如，在一些实施例中，元数据标签可以根据描述的数据类型例如文本、字母数字字符、符号、数字字符、图片、背景、前景、领域、形状、尺寸、颜色轮廓或主题等识别对象特征，如本领域技术人员在阅读本说明书时将理解的。

如果例如发票，元数据标签可以包括文本和/或相对的或绝对的位置信息。例如，元数据标签可以识别文本为在发票的右下角包含绝对位置的发票号。而且，另一个元数据标签可以识别文本为发票上直接位于发票号下面的包含相对位置的发票日期等。

附加地和/或可替代地，元数据标签可以根据后续处理操作的相关性识别对象特征，例如识别特定数据形式或信息内容。例如，元数据标签可以包括个人信息标签，例如“姓名”、“地址”、“社会安全号码”、“驾驶证号码”、“生日”、“信用分数”、“账户号”、“汇款路径号码”、“图片”等，如本领域技术人员在阅读本说明书时将理解的。

在操作710中，移动设备的处理器用于至少部分基于提取模型从数字图像中提取数据。尤其是，提取数据不利用光学字符识别(OCR)技术。然而，就像下面进一步详细描述的，光学字符识别技术可以在数据提取环境以外使用，就像操作710中执行的一样。

现在参考图8，示出了根据一个实施例的方法800。该方法可以在任何合适的环境中和/或利用任何合适的一个或多个机制执行，在多种方法中，包括在图1-4D中描绘的那些。在一种意图中，方法800可以将数据提取过程的实现方式考虑为此处描述的那样；该实现方式是可以吸引用户的移动应用的形式。

在一种方法中，方法800包括操作802，其接收移动设备捕获的数字图像。在一些实施例中，数字图像可以接收和/或存储在该移动设备或另一个移动设备的存储器中。而且，数字图像可以从多种源头捕获，例如，包括摄像头、存储器、无线电接收机、天线等的移动设备的元件，如本领域技术人员在阅读本说明书时将理解的。在其他方法中，数字图像可以从远程设备接收，例如远程服务器、另一个移动设备、具有一体化数据传输能力的照相机、传真机或其他多功能打印机等。数字图像可以可选择性地通过在线服务、数据库等接收，如技术人员在阅读本公开时将理解的。

方法800进一步包括利用一个或多个移动设备的处理器、服务器的处理器、远程云计算环境的一个或多个处理器等，其在下面被进一步详细描述。

在操作804中，移动设备的处理器用于确定数字图像中描绘的对象是否属于多个对象类别中的特定对象类别。确定对象是否属于特定对象类别可以根据任何合适的方法执行，并且优选地用与上面关于文档分类的说明相当的方式执行，例如，在多个实施例中，如关于图5&6的详细解释。

在操作806中，再次利用移动设备的处理器，将数字图像显示在移动设备的显示器上。响应于确定该对象不属于多个对象类别中的任何特定对象类别显示该数字图像。附加地和/或可替代地，响应于确定该对象属于多个对象类别中的特定对象类别可以显示该数字图像。

在移动设备的显示器上显示该数字图像使得进一步的动作有助于利用处理器从数字图像中有效并且鲁棒地提取数据。例如，在多种方法中，数字图像可以显示在移动设备的显示器上，以提供关于数字图像的反馈，例如图像质量、对象分类(或缺少对象分类)、提取的数据等。类似地，可以显示数字图像以帮助接收来自用户的附加输入，例如，关于分类和/或提取结果的用户反馈；关联于或被关联于数字图像的元数据，其中描绘了对象，和/或确定描述的对象属于的特定对象类别等；执行附加处理、提取或数字图像的其他操纵的指令等，如本领域技术人员在阅读本说明书时将理解的。

操作808包括利用移动设备的处理器经由移动设备的显示器接收用户输入。更具体地，用户输入识别一个或多个对象中的感兴趣区域。在包括操作808的方法800的一个实施例中，识别的文档的图像可以通过移动设备的显示器呈现给用户。基于对象类别识别，可以促使用户确认、取消和/或修改感兴趣区域。在多个实施例中，基于分类，可以附加地和/或可替代地促使用户限定、确认、取消和/或修改未被识别的一个或多个感兴趣区域。

在操作810中，至少部分基于在操作808中接收的用户输入建立和/或选择提取模型。在一种示范性方法中，基于识别一个或多个感兴趣区域的用户输入，操作810可以包括检验一个或多个存在的对象类别定义，以判定识别的感兴趣区域是否限定了匹配、对应或类似于限定了属于存在的对象类别的对象的感兴趣区域的模式的模式。当确定模式匹配、对应或类似时，操作810可以包括，选择针对匹配的对象类别限定的现有的提取模型，并且利用该提取模型从数字图像中提取数据。可替代地，操作810可以包括分析图像及其特点，以限定描述了图像特点的特征矢量。这个新的特征矢量可以用于修改描述了具有感兴趣区域的匹配、对应或类似模式的存在对象类别的特征矢量清单和/或特征矩阵。作为结果的提取模型配置为从描述属于存在对象类别的对象的图像中提取数据，包括原始图像数据，与文本、图像、图片、符号等对应的数据，如本领域技术人员在阅读本说明书时将理解的。

附加地和/或可替代地，在一些方法中，操作810可以包括基于限定感兴趣区域的用户输入建立新的提取模型。更加特别地，利用移动设备的处理器，分析图像并且其特点用于限定描述了图像特点的特征矢量。例如，特征矢量可以与图像特点例如一个或多个颜色通道中的像素亮度和/或强度、一个或多个颜色通道中的一个或多个邻近像素的亮度和/或强度、图像或图像的子区域中的像素的位置关系、可能描绘文本的文档区域、可能描述图片的文档区域等相对应。图像分析以及特征矢量定义可以用任何合适的方法执行，并且优选地可以大体上按照上面描述的关于“文档分类”和“附加操作”执行。利用特征矢量，操作810可以包括建立配置为提取与感兴趣区域中描述的图像特点相对应的数据的提取模型。

在操作812中，至少部分基于提取模型从图像中提取数据。尤其是，提取过程没有利用任何OCR技术。而是，分别基于描述了对象或对象类别的特征矢量的特征矢量清单和/或特征矩阵限定提取模型。

在一个说明性的实施例中，经由适于帮助执行此处描述的数据分类和/或提取的移动应用程序，用户可以执行分类操作，以尝试对数字图像中描述的对象进行分类。取决于分类算法是否被训练成识别对象属于特定对象类别，该算法可以或不可以成功地对数字图像中描述的特定对象进行分类。在完成一次或多次分类尝试后，识别文档的图像可以经由移动设备的显示器呈现给用户。可以促使用户确认、取消和/或修改基于对象类别识别的感兴趣区域。附加地和/或可替代地可以促使用户限定基于分类未被识别的一个或多个感兴趣区域。

类似地，如果分类尝试未能识别对象分类，可以促使用户限定新的对象类别，并且进一步通过与移动设备的显示器相互作用限定属于新的对象类别的对象中的一个或多个感兴趣区域。例如，通过移动设备的显示器提供反馈用户可以围绕感兴趣区域绘制一个或多个界限盒。然后用户可以知道移动应用程序从数字图像中提取数据，并且应用程序至少部分基于用户限定的感兴趣区域可选择地利用移动设备的处理器、服务器等建立和/或选择提取模型并且全部或部分基于提取模型从数字图像中提取数据。

在多种方法中，方法700和/或方法800可选择地包括如下面描述的一个或多个附加的功能、特征和/或操作。

在一种方法中，方法700和/或方法800可以进一步包括训练提取模型。训练提取模型可以利用任何已知的方法、模型、机制等完成，如本领域技术人员在阅读本说明书时将理解的。在优选的实施例中，训练包括示例学习(LBE)过程。具体地，对于特定对象类别，多个有代表性的对象可以具有或不具有相关联的元数据标签。至少部分基于提供的有代表性的对象的对象特征，提取模型可以训练成修改并且因此改进从属于对象类别的对象中提取数据的鲁棒性。

本领域技术人员可以领会，在一些方法中，提取模型训练可以特定设计为改进提取模型的能力，以精确地并且准确地从对应于为其建立提取模型的特定对象类别的对象中提取数据。通过提供一组特点为基本完全相同的对象特征的对象，例如，相同对象类型例如标准化形式、文档类型、相同对象的多个图像等的多个复制品，这样的训练可以通过训练模型来改进提取精确度和/或准确度。利用这个训练集，提取模型可以加强特征矢量清单和/或特征矩阵表示类别中的对象，并且改进从属于该类别的对象中提取数据的鲁棒性。

可替代地，训练可以特定地设计为改进提取模型从特点为变化的对象特征的对象类别内或跨越若干对象类别的对象集中提取数据的能力。这样的训练包括提供给对象集多种特点，以改进提取模型通常从多种对象类别或若干对象类别中提取数据的能力。

在更多的方法中，可以利用移动设备的处理器训练提取模型。而且，经训练的提取模型可以存储和/或输出到存储器、缓冲器、另一个过程或处理器等中。经训练的提取模型优选地可以存储和/或输出到移动设备的存储器、移动设备的处理器或另一个利用移动设备的处理器执行的过程中。在多个实施例中，经训练的提取模型可以被标签和/或取回以为移动设备或另一个移动设备接下来使用。类似地，提取模型可以存储和/或送至另一个设备的存储器和/或处理器，例如另一个移动设备、服务器、云计算环境等。

优选地，此处描述的训练利用包括多个对象的训练集，并且更加优选地训练集包括不少于5个对象。

除了训练提取模型以外，方法700的一些实施例可以附加地和/或可替代地包括在一个或多个数字图像的区域执行至少一个OCR技术。一个或多个执行了OCR的区域可以与一个或多个对象特征(例如，利用对象类别定义和/或提取模型识别的对象特征)和/或其他对象特征(例如之前利用对象类别定义和/或提取模型未能识别的特征)相对应。

方法700和/或方法800的仍然更多的实施例可以进一步包括检测对象(例如文档)中一个或多个文本行。在一些方法中，检测文本的行包括将数字图像投影到单个维度。在示范性的方法中，投影可以沿着与文本行方向的主轴垂直的维度进行，这样文本行之间的文本行和面积能够根据暗区密度(例如黑色像素密度、计数等)容易区分。因此，如果文档的方位为竖向，检测文本包括沿着垂直维度(y轴)投影，并且如果文档为横向，检测文本包括沿着水平维度(x轴)投影。在其他方法中，投影也可以用于确定和/或操纵文档的方向(竖向、横向或任何其他倾斜角度)。例如，在配置为分类并提取与标准ID(例如驾驶证)对应的文档图像的数据的示范性实施例中，可以利用检测文本行等从多个可能的方位(例如，在一种方法中，0°,90°,180°或270°旋转角)中确定最有可能的文本方向。

检测文本行可以附加地包括沿着投影确定亮区和暗区分布；确定多个暗像素密度。而且，每个暗像素密度可以与沿着投影的位置相对应。当确定多个暗像素密度时，可以根据对应的暗像素密度是否比可能的文本行阈值大来确定可能的文本行，可能的文本行阈值可以由用户预定义、由实验方法确定、自动确定等。在利用了可能的文本行阈值的实施例中，检测文本行进一步包括，当确定对应的暗像素密度比可能的文本行阈值大时，指定每个位置作为文本行。

在另一个实施例中，检测文本行可以包括检测数字图像中多个非背景成分的互连组分，并且基于对个互连组分确定多个可能的字符。可能的字符可以是数字图像的区域，其特点是在给定方向上预定数目的亮到暗转换，例如，就像在数字图像描绘了大写字母“E”的小区域会遇到的，在垂直方向的3个亮到暗转换，每个亮到暗的转换与从文档背景(亮)到字母“E”的一道水平笔画的转换相对应。当然，可以利用其他数目的亮到暗的转换，例如，字母“o”的两个垂直和/或水平的亮到暗的转换，字母“l”的一个垂直的亮到暗的转换等，如本领域技术人员在阅读本说明书时将理解的。当确定可能的字符时，文本行可以通过识别具有多个邻近字符的图像区域确定，并且在一个实施例中可以根据多个邻近字符的文本基线确定文本行。

在一些方法中，基于沿着一个维度投影图像的结果确定和/或操纵图像方位是可能的。例如，如果投影生成了一个维度的暗像素高密度区域其中点缀着暗像素低密度区域的模型，则沿着与文本行方向的纵轴垂直的轴(即沿着处于“竖”向的文档的y轴投影，“竖”即文档沿着图像的x轴从左到右定向；或沿着处于“横”向的文档的x轴投影，“横”即文档沿着图像的y轴从上到下定向)进行投影是可能的。基于这个概率性的确定，可以基于投影结果可选择地旋转和/或重新定向图像。

本领域技术人员将领会到，基于暗像素密度沿着一个维度投影检测文本行对于颜色图像是特别具有挑战性的。例如，一些文档可以在颜色比背景相对较淡的区域描绘文本，在这种情况下暗像素密度将指示可能的文本行不存在，而不是存在。在那种情况下，当确定该位置的特点是暗像素密度比暗像素密度阈值小时，检测文本行可以包括指定沿投影的任何位置附近的可能的文本行。

而且，文本可以呈现为多种颜色，并且仅仅暗像素密度可以是不足以由其识别可能的文本行的特征。为了解决这些挑战，检测彩色图像中的文本行优选地包括将数字图像的每个颜色通道投影到沿单一维度的单个通道。换句话说，颜色通道强度值(例如，0-255间的整数值)被转换成单一强度值。该转换可以根据任何合适的函数完成，并且在优选的实施例中，计算给定像素或像素集的每个颜色通道的强度的平均值，并且根据颜色通道强度值的平均值分配给该像素或像素集一个有代表性的强度值。

在另一个实施例中，数据提取可以包括将对象分类与包含感兴趣信息的一个或多个对象区域清单相关联，例如文档的矩形区域清单，其包含文本，或可以包含文本和期望文本的颜色。

在一个说明性例子中，经由移动设备的显示器将对象的图像呈现给用户。用户通过移动设备的显示器与图像进行交互，以及限定一个或多个感兴趣区域，例如表明了显示用户的姓名、地址、证件号等的区域。对大量图像用户可以重复处理，并且因此或者有意地或者作为透明处理的一部分提供训练图像。一旦限定了足够数目的训练例子(例如，对于小文档例如驾驶证，大约5个)，训练算法可以自动或者由用户自由决定执行。训练的结果是提取模型可以用于自动提取相关位置并且随后呈现未知文档的矩形，全部不利用OCR技术。

在其他方法中，在根据上述方法提取数据后，OCR技术可以用于仅仅除了数据提取以外的目的。例如，OCR可以利用移动设备的处理器运行，并且仅仅对整个图像的小子集进行OCR。可替代地，OCR可以利用服务器的处理器运行。为了减少移动设备和服务器间的通信时间，仅仅利用OCR处理的一个或多个部分图像被传送给服务器。

在附加的实施例中，分类和/或提取结果可以呈现给用户确认，例如，分配的类别的确认、取消、修改等。例如，当不完全或全部利用自动处理连同区分标准例如此处限定的分类对象时，分类以及与分类相关的数字图像可以显示给用户(例如，在移动设备的显示器上)，这样用户可以确认或取消分类。当取消分类时，用户可以手动限定数字图像中描绘的“合适的”对象分类。在优选的方法中，这个用户输入可以用于向一个或多个分类器提供的不间断的“训练”。当然，可以提供与此处描述的任何数目的操作有关的用户输入而不脱离本公开的范围。

在更加优选的实施例中，可以不需要用户输入而执行前述确认。例如，通过执行提取结果自动确认来减轻用户检验和/或校正提取结果的需求是可能的。一般地，为了确认提取值是否已知是正确的，这个技术包含参考外部系统或数据库。例如，如果提取了姓名和地址，在一些例子中，确认谈论的个人确实居住在确定的地址是可能的。

在更多的实施例中，这个确认原则延伸至分类。例如，如果提取正确，在一些方法中，推断分类也是正确的是合适的。这个推断依赖于仅仅有一种方法可以实现“正确的”提取结果(例如，值与参考数据源中的期望值相匹配，值与讨论的值的期望形式相匹配，值与期望的符号或其他值相关联等，如本领域技术人员在阅读本说明书时将理解的)。

当对落入本公开范围内的提取数据的主要方法进行了说明时，本领域技术人员应领会，此处描述的有创造性的观点可以等同地实现为系统和/或计算机程序产品。

例如，本说明书范围内的系统可以包括处理器以及处理器中和/或由处理器执行的逻辑，使得处理器执行此处描述的方法的步骤，例如方法700和800。

类似地，本说明书范围内的计算机程序产品可以包括其中体现了程序代码的计算机可读存储介质，程序代码可以由处理器读取/执行，使得处理器执行此处描述的方法的步骤，例如方法700和800。

在一种方法中，处理涉及：利用移动设备接收或捕获数字图像；并且，利用移动设备的处理器：确定数字图像中描绘的对象是否属于多个对象类别中的特定对象类别；至少部分响应于确定该对象属于特定对象类别，至少部分基于特定对象类别确定对象的一个或多个对象特征；至少部分基于一个或多个确定的对象特征建立或选择提取模型；并且利用提取模型从数字图像中提取数据，其中提取模型不包括光学字符识别(OCR)功能。

一个或多个对象类别包括对象的一个或多个感兴趣区域，并且优选地一个或多个感兴趣区域包括一个或多个文本字符。而且，建立提取模型，并且建立提取模型包括：将一个或多个特征矢量、特征矢量清单以及特征矩阵映射到一个或多个对象特征；并且将至少一个元数据标签与每个映射的对象特征相关联。仍然进一步地，训练提取模型，其中训练提取模型基于属于对象类别的至少一个附加对象的一个或多个(例如至少4个)附加对象特征进行。利用移动设备的处理器训练提取模型；并且随后储存和/或输出到存储器、另一个移动设备、服务器、数据库、日志文档、输出信号等。虽然提取模型不包括OCR，可以在应用提取模型之后执行OCR，例如通过在一个或多个数字图像区域执行OCR，与一个或多个对象特征和/或其他对象特征相对应。对象内的一个或多个文本行通过将数字图像投影到单一维度进行检测；沿着投影确定亮区和暗区分布；确定多个暗像素密度，每个暗像素密度与沿投影的位置相对应；确定每个暗像素密度是否比可能的文本行阈值大；当确定对应的暗像素密度比可能的文本行阈值大时，指定每个位置作为文本行。数字图像的每个颜色通道可以沿单一维度投影到单个通道。

在一种方法中，方法包括，利用移动设备接收或捕获数字图像；并且利用移动设备的处理器：确定数字图像中描绘的对象是否属于多个对象类别中的特定对象类别；当确定该对象不属于任何多个对象类别时，将数字图像显示在移动设备的显示器上；通过移动设备的显示器接收用户输入，用户输入识别对象中的一个或多个感兴趣区域；至少部分基于用户输入建立和/或选择提取模型；并且至少部分基于提取模型从数字图像中提取数据，其中提取不包括光学字符识别(OCR)。感兴趣区域包括一个或多个文本字符。方法包括，至少部分基于用户输入生成新的对象类别。提取模型配置为从属于新的对象类别的多个对象中提取数据。用户输入可选择地包括多个对象中的多个感兴趣区域。建立提取模型包括：将一个或多个特征矢量、特征矢量清单以及特征矩阵映射到一个或多个对象特征；并且将至少一个元数据标签与每个经映射的对象特征相关联。而且，方法包括：基于一个或多个(例如至少4个)附加对象和/或属于对象类别的至少一个附加对象的对象特征训练提取模型。方法涵盖，在与一个或多个对象特征和/或其他对象特征相对应的数字图像的一个或多个区域执行OCR。方法可以涉及：检测对象中的一个或多个文本行。检测可以包括：将数字图像投影到单一维度；沿着投影确定亮区和暗区分布；确定多个暗像素密度，每个暗像素密度与沿投影的位置相对应；确定每个暗像素密度是否比可能的文本行阈值大；当确定对应的暗像素密度比可能的文本行阈值大时，指定每个位置作为文本行。方法可以可选择地包括，将数字图像的每个颜色通道沿单一维度投影到单个通道。

在另一种方法中，计算机程序产品包括其中体现了程序代码的计算机可读存储介质，程序代码可以由处理器读取/执行，以接收移动设备捕获的数字图像；确定数字图像中描述的对象是否属于多个对象类别中的特定对象类别；当确定该对象属于特定对象类别时，至少部分基于特定对象类别确定对象的一个或多个对象特征；至少部分基于一个或多个对象特征建立或选择提取模型；并且至少部分基于提取模型从数字图像中提取数据。配置为提取数据的计算机可读程序代码不包括配置为利用光学字符识别(OCR)的计算机可读程序代码。

此处公开的有创造性的概念作为例子呈现，以说明多个说明性情境、实施例和/或实现方式中的无数个特征。应领会，普遍公开的观点应视为模块化的，并且可以以其任何组合、排列或综合实现。此外，本公开的特征、功能和观点的任何修改、变化或等价，本领域技术人员在阅读本说明书时将领会，也应该视为落入本公开的范围。

因此，本发明的一个实施例包括此处公开的所有特征，包括那些示出的以及连同图中描述的。其他实施例包括此处公开的特征的子集和/或连同任何图中示出和描述的。这样的特征或其子集，可以利用已知的技术以任何方式组合，其在本领域技术人员阅读本说明书后将变得显而易见。

虽然上面描述了多个实施例，但是应理解，它们仅作为例子介绍，并且不是限制。因此，本发明的实施例的宽度和范围不应该受到上面描述的任何示例性实施例的限制，但仅根据下面的权利要求和它们的等价物进行限制。

Claims

1.一种方法，包括：

利用移动设备接收或捕获数字图像；

利用所述移动设备的处理器：

确定所述数字图像中描述的对象是否属于多个对象类别中的特定对象类别；

至少部分响应于确定所述对象属于所述特定对象类别，至少部分基于所述特定对象类别确定所述对象的一个或多个对象特征；

至少部分基于一个或多个确定的对象特征建立或选择提取模型；并且

利用提取模型从数字图像中提取数据。

2.根据权利要求1所述的方法，其中所述提取模型进一步包括：执行光学字符识别(OCR)，其中所述OCR在所选择的所述数字图像的部分上执行，所述所选择的所述数字图像的部分不包括接收或捕获的图像的一个或多个部分。

3.根据权利要求1所述的方法，其中所述一个或多个所述对象特征包括所述对象的一个或多个感兴趣区域。

4.根据权利要求3所述的方法，其中所述一个或多个所述感兴趣区域包括一个或多个文本字符。

5.根据权利要求1所述的方法，其中建立所述提取模型，其中建立所述提取模型包括：

将一个或多个特征矢量、特征矢量清单以及特征矩阵映射到一个或多个所述对象特征；并且

将至少一个元数据标签与每个经映射的对象特征相关联。

6.根据权利要求1所述的方法，进一步包括：基于属于所述对象类别的至少一个附加对象的一个或多个附加对象特征训练提取模型。

7.根据权利要求6所述的方法，其中所述提取模型利用所述移动设备的所述处理器进行训练；并且进一步包括储存和/或输出所述经训练的提取模型。

8.根据权利要求7所述的方法，其中所述至少一个所述附加对象包括至少4个附加对象。

9.根据权利要求1所述的方法，进一步包括：在对应于一个或多个所述对象特征和/或其他对象特征的所述数字图像的一个或多个区域上执行OCR。

10.根据权利要求1所述的方法，进一步包括：检测所述对象中的一个或多个文本行。

11.根据权利要求10所述的方法，所述检测包括：

将所述数字图像投影到单一维度；沿着所述投影确定亮区和暗区分布；

确定多个暗像素密度，每个暗像素密度与沿所述投影的位置相对应；

确定每个暗像素密度是否比可能的文本行阈值大；

并且

当确定对应的暗像素密度比可能的所述文本行阈值大时，指定每个位置作为文本行。

12.根据权利要求11所述的方法，进一步包括：将所述数字图像的每个颜色通道沿所述单一维度投影到单个通道。

13.一种方法，包括：

利用移动设备接收或捕获数字图像；

利用所述移动设备的处理器：

确定所述数字图像中描绘的对象是否属于多个对象类别中的特定对象类别；

当确定所述对象不属于任何多个对象类别时，将所述数字图像显示在所述移动设备的显示器上；

经由所述移动设备的所述显示器接收用户输入，所述用户输入识别所述对象中的一个或多个感兴趣区域；

至少部分基于所述用户输入建立和/或选择提取模型；并且

至少部分基于所述提取模型从所述数字图像中提取数据。

14.根据权利要求13所述的方法，其中所述提取进一步包括执行光学字符识别(OCR)，其中所述OCR在不包括接收或捕获的图像的一个或多个部分的所选择的所述数字图像的部分上执行。

15.根据权利要求13所述的方法，其中一个或多个所述感兴趣区域包括一个或多个文本字符。

16.根据权利要求13所述的方法，进一步包括至少部分基于所述用户输入生成新的对象类别。

17.根据权利要求16所述的方法，其中所述提取模型配置为从属于所述新的对象类别的多个对象中提取数据。

18.根据权利要求16所述的方法，其中所述用户输入包括指定多个对象中的多个感兴趣区域。

19.根据权利要求16所述的方法，其中建立所述提取模型包括：

将至少一个元数据标签与每个经映射的对象特征相关联。

20.根据权利要求16所述的方法，进一步包括：基于属于所述对象类别的至少一个附加对象的一个或多个附加对象特征训练所述提取模型。

21.根据权利要求20所述的方法，其中所述至少一个所述附加对象包括至少4个附加对象。

22.根据权利要求16所述的方法，进一步包括：在与一个或多个所述对象特征和/或其他对象特征相对应的所述数字图像的一个或多个区域执行OCR。

23.根据权利要求16所述的方法，进一步包括：检测所述对象中的一个或多个文本行。

24.根据权利要求16所述的方法，所述检测包括：

将所述数字图像投影到单一维度；

沿着所述投影确定亮区和暗区分布；

确定每个暗像素密度是否比可能的文本行阈值大；

并且

25.根据权利要求24所述的方法，进一步包括：将所述数字图像的每个颜色通道沿所述单一维度投影到单个通道。

26.一种计算机程序产品，包括：其中体现了程序代码的计算机可读存储介质，所述程序代码可以由处理器读取/执行，以：

接收移动设备捕获的数字图像；

当确定所述对象属于所述特定对象类别时，至少部分基于所述特定对象类别确定所述对象的一个或多个对象特征；至少部分基于一个或多个所述对象特征建立或选择提取模型；并且

至少部分基于所述提取模型从所述数字图像中提取数据。