CN105283884A - 对移动设备捕获的数字图像中的对象进行分类 - Google Patents

对移动设备捕获的数字图像中的对象进行分类 Download PDF

Info

Publication number
CN105283884A
CN105283884A CN201480013621.1A CN201480013621A CN105283884A CN 105283884 A CN105283884 A CN 105283884A CN 201480013621 A CN201480013621 A CN 201480013621A CN 105283884 A CN105283884 A CN 105283884A
Authority
CN
China
Prior art keywords
digital picture
objects
mobile device
image
extraction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480013621.1A
Other languages
English (en)
Inventor
简·W·阿姆特鲁普
安东尼·马乔拉
斯蒂芬·迈克尔·汤普森
马继勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kofax Inc
Original Assignee
Kofax Image Products Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kofax Image Products Inc filed Critical Kofax Image Products Inc
Publication of CN105283884A publication Critical patent/CN105283884A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20092Interactive image processing based on input by user
    • G06T2207/20104Interactive definition of region of interest [ROI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

一种方法,包括:利用移动设备接收或捕获数字图像;利用移动设备的处理器:确定数字图像中描述的对象是否属于多个对象类别中的特定对象类别;至少部分响应于确定对象属于特定对象类别,至少部分基于特定对象类别确定对象的一个或多个对象特征;至少部分基于一个或多个确定的对象特征建立或选择提取模型;并且利用提取模型从数字图像中提取数据。还公开了相关的系统和计算机程序产品。

Description

对移动设备捕获的数字图像中的对象进行分类
技术领域
本发明涉及移动图像捕获以及图像处理,并且具体地,涉及利用移动设备捕获并处理数字图像以及对此数字图像中检测到的对象进行分类。
背景技术
其中描绘了包括例如信件、支票、钞票、账单等文档的数字图像的对象惯常由扫描仪或耦合至计算机工作站(例如笔记本电脑或台式电脑)的多功能外围设备捕获并处理。本领域中能够执行这种捕获和处理的方法和系统是公知的,并且很好地适于它们用来做的工作。
然而,在日常的活动、计算以及商业越来越多地使用移动设备的年代,提供类似的文档捕获和处理系统以及方法以用于部署并使用在移动平台(例如智能手机、数码相机、平板计算机等)上是非常有益的。
传统上,数字图像已经是几乎无限种应用的数据的宝贵资源。在商业上下文中,数字图像已经广泛用于交流以及处理信息,典型地表现在文档和/或相关联图像数据中(例如,与保险索赔、车辆登记、抵押证券等的数字图像相关联的车辆的数字图像)。越来越多地强大的移动设备为将数字图像处理扩展到移动领域提供了机会,并且提供了利用移动技术实时捕获并处理数字图像数据的改进的性能。
传统的用于目前的移动和非移动设备的数据提取方法依靠对象模板,典型地由专家用户生成和/或组织,为提取引擎提供信息,指导引擎将信息置于何处以用于提取。在文档的特例中,传统的提取技术,提供给其文档的一个或多个(典型地,矩形的)区域的位置,指导其在一个或多个区域上执行光学字符识别(OCR),并且然后将确定的字符输出给另一个过程或文档。
然而传统的提取引擎和方法能够可靠地从对象中提取信息,其事先已经确定了模板,不存在关于对象的模板,则不可能从对象中动态地提取信息。这是一个不期望的限制,限制用户在现代世界中遇到的越来越多不同的文档阵列上利用强大的提取技术。
而且,传统的提取引擎要求专家管理者的大量输入以限定模板并且随着对象类别的演进而维持模板定义。基于模板提取的性能因此是管理者恰当地规定模板的能力以及管理者的确定哪些信息是“值得”提取的起直接作用。因此,就提取准确性和精确度以及可以提取数据的对象范围而言,专家管理者在数据提取的鲁棒性上充当了不受欢迎的瓶颈角色。
仍然进一步地,传统的提取方法主要地或唯一地依靠OCR技术从图像数据中提取文本字符。OCR引擎被迫进行关于文本字符同一性的预测,当图像质量较差时,当字符与预定的“已知”字符集不匹配时,当可见字符显现模糊时,其不可避免地导致错误的字符报告,这样的话OCR引擎不能可靠地识别多个候选字符(例如,句号“.”对逗号“,”,或者字母“l”对数字“1”)。当期望某一已知的字符模式时,专家管理者能够通过促使OCR引擎做出正确决定来减轻这些问题,但这种减轻局限于不期望的最终要求终端用户交互的范围和错误。
因此,提供用于利用移动设备从数字图像中提取信息的新的方法、系统和/或计算机程序产品技术将非常有益。使得信息提取不用依靠模板,因此绕过专家管理者的需求并且使得用户能够动态地生成并修改提取方法以从多种多样的且易变的对象类别中提取数据,将是更加有益的。提供用于提取数据而不依靠OCR技术的方法以克服预定字符类别、较差图像质量的限制,并且减少或移除用户改正OCR错误的需求,将仍然更加有益。
发明内容
在一个实施例中,方法包括:利用移动设备接收或捕获数字图像;利用移动设备的处理器:确定数字图像中描述的对象是否属于多个对象类别中的特定对象类别;至少部分响应于确定该对象属于特定对象类别,至少部分基于特定对象类别确定对象的一个或多个对象特征;至少部分基于一个或多个确定的对象特征建立或选择提取模型;并且利用提取模型从数字图像中提取数据,其中提取模型不包括光学字符识别。
在另一个实施例中,方法包括:利用移动设备接收或捕获数字图像;并且利用移动设备的处理器:确定数字图像中描述的对象是否属于多个对象类别中的特定对象类别;当确定该对象不属于任何多个对象类别时,将数字图像显示在移动设备的显示器上;通过移动设备的显示器接收用户输入,用户输入识别对象中的一个或多个感兴趣区域;至少部分基于用户输入建立和/或选择提取模型;并且至少部分基于提取模型从数字图像中提取数据,其中提取不包括光学字符识别(OCR)。
仍然在另一个实施例中,计算机程序产品包括其中嵌入了程序代码的计算机可读存储介质,程序代码可由处理器读取和/或执行,从而:接收移动设备捕获的数字图像;确定数字图像中描述的对象是否属于多个对象类别中的特定对象类别;当确定该对象属于特定对象类别时,确定至少部分基于特定对象类别的对象的一个或多个对象特征;至少部分基于一个或多个对象特征建立或选择提取模型;并且至少部分基于提取模型从数字图像中提取数据,其中计算机可读程序代码配置为提取数据,不包括计算机可读程序代码配置为利用光学字符识别(OCR)提取数据。
目前公开的有创造性的观点的其他方面以及特征将从下面的详细说明中变得显而易见,其应理解为本质上是解说性的并且不局限于现在的公开。
附图说明
图1阐释了根据一个实施例的网络体系架构。
图2示出了根据一个实施例的可与图1中的服务器和/或客户端相关联的典型的硬件环境。
图3A描绘了根据一个实施例的对象的数字图像。
图3B描绘了根据一个实施例的图3A中示出的为了生成数字图像的第一表现而被分成多个截面的数字图像的图示。
图3C描绘了图3A中示出的数字图像的第一表现,第一表现的特点是相对于数字图像其分辨率降低了。
图4A是根据一个实施例的文档的数字图像中描绘的多个子分区的图示。
图4B是根据一个实施例的图4A中示出的数字图像的掩膜表现。
图4C是根据一个实施例的图4A中示出的数字图像的掩膜表现。
图4D是根据一个实施例的图4A中示出的数字图像的掩膜表现。
图5是根据一个实施例的方法的流程图。
图6是根据一个实施例的方法的流程图。
图7是根据一个实施例的方法的流程图。
图8是根据一个实施例的方法的流程图。
具体实施方式
进行下面的描述是出于阐释本发明的总则的目的,并且并不意味着限定其中要求保护的创造性概念。进一步地,在各种可能的组合和排列的每一个中,此处描述的特定特征可以和描述的其他特征组合使用。
除非其中进行了特别限定,否则给予所有术语它们最宽的可能解释,包括说明书中隐含的意思以及本领域技术人员能够理解和/或字典、论文等限定的意思。
也必须注意到,除非另有说明,如在说明书和所附权利要求书中使用的,单数形式的“一”、“一个”和“所述一个”包括复数指示物。
本申请涉及由照相机,尤其是移动设备的照相机,捕获的图像(图片,图解,图形示意图,电影、视频、影片、剪辑等的一帧)的图像处理。如此处所理解的,移动设备是指能够不需要通过物理连接(如,导线、电线、电缆等)供应能量而能接收数据或不需要物理数据连接(如,导线、电线、电缆等)而能接收数据的任何设备。本公开范围内的移动设备包括示例性的设备,例如移动电话、智能手机、平板、个人数字助理、 设备等。
然而,由于对各种功能的描述而将变得显而易见,现在公开的移动图像处理算法可以应用于(有时需要某些修改)来自扫描仪和多功能外围设备(MFPs)的图像。类似地,在某些方法中,由现在公开的处理算法处理的图像可以进一步由传统的扫描仪处理算法处理。
当然,此处给出的各种实施例可以利用硬件、软件或任何所希望的组合来实现。关于此点,可以利用能够实现此处给出的各种功能的任何类型的逻辑。
使用移动设备的一个好处是,利用数据计划,基于捕获的图像的图像处理和信息处理相比以前依靠扫描仪的方法能够以更方便、更流线型的以及一体化的方式完成。然而,利用移动设备作为一个或多个文档捕获和/或处理设备,由于多种原因,在此之前都被认为难以实施。
在一种方法中,可以由移动设备的照相机捕获图像。术语“照相机”应该被广泛理解成包括能够捕获处于设备外部的物理对象(例如一片纸)的图像的任何类型的设备。术语“照相机”不涵盖外围扫描仪或多功能设备。可以使用任何类型的照相机。优选的实施例可以使用更高分辨率照相机,例如,8MP或更高,理想地,12MP或更高。可以以彩色、灰度级、黑和白,或任何其他已知的光学效果来捕获图像。此处涉及的术语“图像”意思涵盖对应于照相机输出的任何类型的数据,包括原始数据、经处理的数据等。
如本领域技术人员可以领会的,本发明的某些方面可以具体化为系统、方法或计算机程序产品。因此,本发明的某些方面可以采取全部硬件实施、全部软件实施(包括计算机固件、常驻软件、微码等)或此处可以全部概括称为“逻辑”、“电路”、“模块”或“系统”的软件和硬件组合实施的形式。另外,本发明的某些方面可以采取具体化为一个或多个其上具有计算机可读程序代码的计算机可读介质的计算机程序产品的形式。
可以利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是,例如但不限于,电子、磁、光学、电磁、红外线或半导体系统、装置或设备,或前述任何合适的组合。计算机可读存储介质的更具体的例子(不穷尽的清单)包括如下:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、便携式紧致盘只读存储器(CD-ROM)、光存储设备、磁存储设备,或前述任何合适的组合。在此文档的上下文中,计算机可读存储介质可以是能够包括或存储由指令执行系统、装置、处理器或设备使用或与其关联的程序的任何有形介质。
计算机可读信号介质可以包括具有其中体现为计算机可读程序代码的传播来的数据信号,例如,在基带中作为载波、具有一根或多根金属线的电连接、光纤等的一部分。这样传播来的数据可以采取多种形式的任何一种,包括但不限于电磁、光或其任何合适的组合。计算机可读信号介质可以是任何不是计算机可读存储介质的计算机可读介质,并且能够通信、传播或传输由指令执行系统、装置、处理器或设备使用或与其关联的程序。
具体化在计算机可读介质上的程序代码可以利用任何合适的介质传送,包括但不限于无线、有线、光纤电缆、RF等,或前述任何合适的组合。
用于实施本发明的方面的操作的计算机程序代码可以以一个或多个编程语言的组合来写入,其包括面向对象编程语言,例如Java,Smalltalk,C++等等,以及传统的面向过程的编程语言,例如C编程语言或类似的编程语言。程序代码可以完全在用户计算机上执行或部分在用户计算机上执行,作为独立软件包,部分在用户计算机且部分在远程计算机上执行,或完全在远程计算机或服务器上执行。在后面的情景中,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机,或可与外部计算机(例如,通过利用互联网服务供应商的因特网)连接。
参照根据本发明的实施例的方法、装置(系统)以及计算机程序产品的流程图和/或框图,在下面描述本发明的方面。将理解,流程图和/或框图的每一块以及流程图和/或框图中块的组合能够由计算机程序指令实现。这些计算机程序指令可以提供至通用计算机、专业计算机或其他可编程数据处理装置的处理器,以产生一个机器,这样,经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一块或多块中限定的功能/动作的手段。
这些计算机程序指令也可以存储在计算机可读介质中,计算机可读介质能够指导计算机、其他可编程数据处理装置或其他设备以特别的方式行使职责,这样存储在计算机可读介质中的指令产生了一件产品,其包括实现流程图和/或框图的一块或多块中限定的功能/动作的指令。
计算机程序指令也可以下载到计算机、其他可编程数据处理装置或其他设备,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤以产生计算机实现处理,这样在计算机或其他可编程装置上执行的指令提供用于实现流程图和/或框图的一块或多块中限定的功能/动作的处理。
图中的流程图和框图说明了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现方式的体系架构、功能和操作。在这点上,流程图或框图的每一块都代表包括用于实现一个或多个特定逻辑功能的一个或多个可执行指令的模块、片段或部分代码。也应该注意到,在一些可替换的实现方式中,块中记载的功能可不以图中记载的顺序发生。例如,顺序示出的两块实际上可以大体上同时执行,或各块有时可以按照相反顺序执行,这取决于所涉及的功能。也将注意到,框图和/或流程图的每一块以及框图和/或流程图中各块的组合,可以由执行特定功能或动作的专用基于硬件的系统实现,或由专用硬件和计算机指令组合来实现。
图1说明了根据一个实施例的体系架构100。图1中提供了多个远程网络102,包括第一远程网络104以及第二远程网络106。网关101可以耦合在远程网络102和邻近网络108之间。在本体系架构100的上下文中,网络104、106的每个可以采取,包括但不限于LAN、WAN,例如因特网、公共交换电话网(PSTN)、内部电话网等的任何形式。
在使用中,网关101充当从远程网络102到邻近网络108的入口端。如此,网关101本身可以作为路由器,其能够引导到达网关101的给定的数据包,以及作为交换器,其为给定的包提供进出网关101的实际路径。
进一步包括至少一个耦合至邻近网络108的数据服务器114,并且通过网关101从远程网络102可以访问邻近网络108。应注意到,一个或多个数据服务器114可以包括任何类型的计算设备/群件。耦合到每个数据服务器114的是多个用户设备116。这样的用户设备116可以包括台式电脑、膝上型电脑、掌上电脑、打印机或任何其他类型的逻辑。在一个实施例中,应注意到,用户设备111也可以直接耦合至任何网络。
外围设备120或一系列外围设备120,例如传真机、打印机、联网的和/或本地的存储单元或系统等,可以耦合至一个或多个网络104、106、108。应注意到,数据库和/或附加组件与耦合至网络104、106、108的任何类型的网络元件一起利用或集成一体。在本说明书的上下文中,网络元件可以涉及网络的任何组件。
根据一些方法,此处描述的方法和系统可以用和/或在虚拟系统和/或模拟一个或多个其他系统的系统上实现,例如模拟了IBMz/OS环境的UNIX系统、实际上宿主了微软视窗环境的UNIX系统、模拟了IBMz/OS环境的微软视窗系统等。在一些实施例中,这种虚拟化和/或模拟可以通过VMWARE软件的使用得到加强。
在更多的方法中,一个或多个网络104、106、108可以代表通常称为“云”的系统群集。在云计算中,共享的资源,例如处理电源、外围设备、软件、数据、服务器等,根据按需关系被提供给云内的任何系统,从而允许跨越许多计算系统对服务进行访问和分配。云计算典型地包含云内操作的系统间的互联网连接,但是也可以使用其他连接系统的技术。
图2示出了根据一个实施例的与图1中的用户设备116和/或服务器114相关联的典型的硬件环境。此图阐释了具有中央处理单元210的工作站的典型的硬件配置,例如微处理器以及经由系统总线212互联的许多其他单元。
图2中示出的工作站包括随机访问存储器(RAM)214,只读存储器(ROM)216,用于连接外部设备(例如磁盘存储单元220)到总线212的I/O适配器218,用于连接键盘224、鼠标226、扬声器228、话筒232,和/或其他用户接口设备,例如触屏和数码相机(未示出)到总线212的用户接口适配器222,用于将工作站连接到通信网络235(例如,数据处理网络)的通信适配器234,以及将总线212连接到显示设备238的显示适配器236。
在工作站上可以具有驻于其上的操作系统,例如操作系统(OS)、MACOS、UNIXOS等。将意识到,优选的实施例也可以在不同于那些提到的平台以及操作系统上实现。优选的实施例可以由JAVA,XML,C和/或C++语言,或其他可编程语言连同面向对象程序设计方法写入。可以使用越来越多地用于开发复杂应用程序的面向对象程序设计(OOP)。
应用程序可以安装到移动设备上,例如可以存储在设备的非易失存储器中。在一种方法中,应用程序包括指令,以在移动设备上执行图像处理。在另一种方法中,应用程序包括指令,以将图像送至远程服务器,例如网络服务器。还在另一个实施例中,应用程序可以包括指令,以确定是否在移动设备上执行某些或所有处理和/或将图像送至远程站点。
在多个实施例中,目前公开的方法、系统和/或计算机程序产品可以利用和/或包括功能,例如页面检测、矩形化、不均匀照明的检测、照明正常化、分辨率估计、模糊检测等。
页面检测的各种实施例
现在描述说明了执行页面检测的示例性方法的一个示例性实施例。
在一种方法中,边缘检测算法从数字图像的边界开始进行至图像的中部,查找足够不同于已知的背景特性的点。
尤其是,甚至用相同的移动设备捕获的图像的背景每次也可能不同,所以提供了识别图像中一个或多个文档的新技术。
根据本公开,在照相机捕获的图像中找到页面边缘,可以帮助容纳由移动设备捕获的图像相对于由例如扫描仪捕获的图像特性的重要不同之处。例如,由于投影效果,照片中的矩形文档的图像不显示真正的矩形,并且图像中的文档的相对边不具有相同的长度。第二,即使最好的镜头都具有一些非线性,其导致对象中的直线,例如,实质上矩形文档的直边,在对象的捕获图像中会显现轻微弯曲。第三,用照相机捕获的图像不可避免地趋向于引入不均匀的照明效果。照明的这种不均匀性甚至使得与文档放置位置相对的表面的完美均一背景在图像中显现出变化的亮度,并且经常有阴影,尤其是在页面没有完全放平时围绕页面边缘。
在示例性的方法中,为了避免搞错页面边缘背景中的变化,当前的算法使用一个或多个下列功能。
在许多实施例中,图像帧包括具有周围背景边缘的文档的数字表示。在优选的实现方式中,对单个页面边缘的搜索可以执行彻底地分析图像的行和列的跨步方法。在一个实施例中,跨步方法可以限定多个数字图像中的分析窗口,例如此处的理解,分析窗口可以包括一个或多个“背景窗口”,即仅涵盖描绘数字图像的背景的像素的窗口,以及一个或多个“测试窗口”,即涵盖描绘数字图像背景像素、文档的数字表现或二者的窗口。
在优选的实施例中,,文档的数字表现可以通过在对应于文档放置表面的背景的图像边缘中限定第一分析窗口(即背景分析窗口)在数字图像中检测到。在第一分析窗口中,多个小分析窗口(例如测试窗口)可以限定于第一分析窗口中。利用多个测试窗口,可以估计一个或多个描述背景的统计特性的一个或多个分布。
继续参照紧接上面讨论的优选实施例,检测文档的数字表现的边界的下一步可以包括限定数字图像中的多个测试窗口,并且分析数字图像的对应区域。对每个数字测试窗口,可以计算出一个或多个描述图像的对应区域的统计值。进一步地,这些统计值可以与对应的描述背景的统计分布相比较。
在优选的方法中,多个测试窗口可以沿路径限定,尤其是沿线性路径。在具体的优选方法中,可以在水平方向和/或垂直方向限定多个测试窗口,例如沿数字图像的行和列。而且,可以采取逐步进行的方式来沿着路径和/或在行和/或列之间限定测试窗口。在一些实施例中,如本领域技术人员在阅读本说明书时将领会到的,利用逐步进行可以有利地增加文档检测处理的计算效率。
而且,在一些实施例中,可以基于图像的分辨率或像素大小预估开始步的幅度,但是如果文档侧的可靠检测是有利的,此步可以减小,如下面的进一步讨论。
在更多的实施例中,算法估计处于文档周围背景中的大分析窗口中发现的描述了图像性质的若干统计分布。在一种方法中,在大分析窗口中可以限定多个小窗口,并且可以估计描述了小测试窗口的统计分布。在一个实施例中,大分析窗口限定于数字图像的背景区域,例如图像的左上角。
如本领域技术人员在阅读本说明书时可以理解的,描述了背景像素的统计数字可以包括任何由数字图像数据生成的统计值,例如最小值、最大值、中间值、平均值、值的跨度或范围、方差、标准偏差等。如本领域技术人员在阅读本说明书时可以理解的,值可以从任何描述了数字图像的数据中取样,例如一个或多个颜色通道中的亮度值,例如红绿蓝或RGB、青-品红、黄、黑或四分色(CMYK)、色彩饱和值或HSV等。
每个小分析窗口可以包括大分析窗口中的多个像素的子集。而且,小分析窗口可以具有能够适合大分析窗口的边界以内的任何大小和/或形状。在优选的实施例中,小分析窗口的特点在于矩形形状,并且更加优选的是,特点为在第一方向上(如高)为3个像素长以及在第二方向上(如宽)为7个像素长的矩形。当然,其他小分析窗口的大小、形状和维度也适于在目前公开的处理算法中实现。
在一个实施例中,可以利用测试窗口来分析图像以及检测图像中描绘的文档的数字表示的边界。背景窗口用于估计背景的原始统计特性和/或重新估计背景的局部统计特性。为了处理伪像(例如不均匀的照明和/或背景纹理变化),重新估计是必须的和/或有利的。
优选地,在一些方法中,可以对文档页面边缘外的范围内的大分析窗口中的一些或所有的多个小分析窗口执行统计估计。这样的估计可以利用大分析窗口中的小分析窗口的逐步移动完成,并且逐步移动可以适当递增以便改变对给定像素取样的数目。例如,为了提高计算效率,分析过程可以限定大分析窗口中的多个小分析窗口,以足够保证每个像素被取样一次。因此,限定在这个计算效率方法中的多个小分析窗口将共享公共边界而并不重叠。
在另一种设计为提高统计估计的鲁棒性的方法中,分析处理可以限定大分析窗口中的多个小分析窗口,以足够保证对每个像素取样最多次数,例如通过减小步长,从而在限定的小分析窗口间进行仅单个像素在给定方向上的位移。当然,如本领域技术人员在阅读本说明书时可以理解的,在目前公开的处理算法的多个实施例中可以使用任何步长递增。
技术人员会领会到,用于重新估计数字图像中局部背景的统计数字的大分析窗口以及测试窗口可以以任何想要的方式置于数字图像中。
例如,根据一个实施例,对给定行i左侧边缘的搜索从与围绕给定行i为中心的的图像左侧帧边线的大分析窗口中上述统计的计算开始。
仍然在更多的实施例中,当遇到可能的非背景测试窗口(例如估计统计结果不同于最后已知局部背景的统计特征分布的测试窗口),在一些实施例中,因为算法从图像的外部区域朝向其一个或多个内部区域前进,该算法可回溯至之前确定的背景区域,形成了新的大分析窗口,并且为了重新评估在小分析窗口内选定的统计和大分析窗口内对应的统计的局部分布间的不同之处的有效性,重新估计背景统计分布。
如本领域技术人员在阅读本说明书时可以领会的,算法可以以多种方式从图像的外部区域至到图像的内部区域。例如,在一种方法中,算法以大致螺旋的模式来限定测试窗口。在其他方法中,模式可以大致沿着垂直或水平方向蜿蜒。仍然在更多的方法中,模式可以是大致重叠模式。如本领域技术人员在阅读本说明书时可以理解的,模式也可以由覆盖部分或全部数字图像的“顺序掩膜”限定,例如棋盘形模式,垂直、水平或对角线斜条模式,同轴形状等。在其他实施例中,如本领域技术人员在阅读本说明书时可以理解的,根据一些限定的流程,分析窗口(例如大分析窗口和/或小分析窗口)可以以随机方式、伪随机方式、任意地等遍布数字图像而被限定。算法可以以任何想要的方式进行一系列测试窗口,只要路径允许回溯至已知背景,并且路径以想要的粒度覆盖整个图像。
有利地,如此重新计算统计数字可以帮助容纳数字图像和/或背景内部的任何照明漂移,否则其会导致图像中非背景点(例如离群候选边缘点)的错误识别。
仍然在更多的实施例中,如本领域技术人员在阅读本说明书时可以理解的,当不同之处在统计上有效时,为了重新核查,算法可以沿着它的路径跳跃一定距离,并且因此绕过背景纹理的小变化,例如木材纹理、表面的刮痕、表面的图案、小阴影等。
在附加的和/或可替换的实施例中,在发现潜在的非背景点以后,算法确定该点是否位于阴影的边缘(尤其是如果页面边缘被提至背景表面上方则具有可能性)并且试着到达实际页面边缘。这个过程依靠如下观察:接近真实边缘处阴影通常会变暗,真实边缘处通常伴随图像的突然亮度。
由于若干原因,因为标准边缘检测器的使用是不必要的甚至不受欢迎的,上面描述的页面边缘测试方法得到了利用。首先,大多数标准边缘检测器包括耗时操作,第二,目前的算法不考虑附加要求,像监测边缘有多薄、它们沿着什么方向等。更加重要的是,查找页面边缘不必包含页面监测本身,即根据本公开的页面边缘检测可以以一种方式执行,这种方式不搜索文档边界(如页面边缘),相反地,搜索与从背景到文档的转变相关联的图像特征。例如,转变的特点是光面纸内米白色亮度(off-whitebrightness)水平的平滑,即纹理的变化,而不是平均灰度或颜色水平的变化。
结果是,可能获得候选边缘点(例如,候选边缘点),其本质上是网格的每个行和列中第一和最后的非背景像素。为了估计随机离群值(例如候选边缘点)以及确定哪些候选边缘点对应页面的每个边,在一个方法中,分析邻近的候选边缘点是有益的。
在一个实施例中,如本领域技术人员在阅读本说明书时可以理解的,“点”可以认为是数字图像中的任何区域,例如像素、像素间的位置(例如,具有分数坐标的点,例如2个像素乘2像素的正方形中心)、像素的小窗口等。在优选的实施例中,候选边缘点与测试窗口的中心相关联(3像素×7像素窗口),已发现其特点为统计,其被确定为不同于描述的局部背景的统计分布。
如此处理解的,“邻近的”候选边缘点或“邻近的”像素被认为是分别邻近或紧邻感兴趣(例如像素)的点或像素的点或像素,例如点或像素至少部分位于感兴趣的点或像素的边界,点或像素位于感兴趣的点或像素的阈值距离之内(例如位于2、10、64像素以内等,在给定的方向,在感兴趣的点或像素的一行之内,在感兴趣的点或像素的一列之内)等,如本领域技术人员在阅读本说明书时可以理解的。在优选的方法中,“邻近的”点或像素可以是沿特定方向(例如,水平方向和/或垂直方向)最靠近感兴趣点的候选边缘点。
每个“好”边缘点理想地至少具有两个最接近的邻近点(每侧有一个),并且没有偏离连接这些邻近点和“好”边缘点的直线段很远,例如,候选边缘点和至少两个最接近邻近点可以适应于线性回归,结果的特点是计算系数(R2)不少于0.95。这条线段关于数字图像的一个或多个边界的角,和它的相对位置一起,确定边缘点是否分配给页面的上、左、右或底边。在优选的实施例中,候选边缘点以及两个邻近边缘点可以分配给三角形的各个角。如果在候选边缘点的三角形的角接近180度,则候选边缘点可以认为是“好”候选边缘点。如果在候选边缘点的三角形的角偏离180度多于阈值(例如20度或更多),则候选边缘点可以从“好”候选边缘点集合中除去。这种启发式背后的基本理论是基于希望去除行和列内第一和最后非背景像素的确定中的随机错误。这些像素不大可能存在于连续线条内,所以,在一些方法中,根据距离和方向核查邻近点是特别有利的。
针对速度,此网格的步长可以从大数目开始,例如32,但可以减小为2的因子,并且搜索边缘点将不断重复,直到有足够的边缘点来基于页面边缘方程式(如下)确定最小均方值(LMS)。即使在利用图像中的所有行和列后,这个过程还不能可靠确定面,则放弃并且整个图像被看作为页面。
在一个实施例中,页面各边的方程式确定如下。首先,算法使最好的LMS直线适于每个边,其利用了去除最差离群值直到余下的所有支持边缘都位于LXS线的小距离内的策略。例如,离本质上的直线最大距离的点可以指定为“最差”离群值,该直线沿文档的特定边界连接多个候选边缘点。这个过程可迭代地重复,以指定和/或从多个候选边缘点中移除一个或多个“最差”离群值。在一些方法中,候选边缘点偏离连接多个候选边缘点的直线的距离至少部分基于数字图像的大小和/或分辨率。
如果这条线沿它的延伸都不能很好地得到支持,算法会尝试使最佳二级多项式(抛物线)适于相同的原始候选点。找到最佳抛物线vs.最佳直线间的算法差异是较小的:代替两个确定线的方向和偏移的未知系数,有三个确定曲率、方向和抛物线偏移的系数;然而,在一个实施例中,在其他方面,处理本质上相同。
如果抛物线的支持强于直线的支持,尤其是更加接近候选边缘跨度的末端,算法更加青睐于抛物线作为图像中页面边的更好的模型。否则,在多种方法中利用线性模型。
为了找到(可能轻微弯曲)四边形(下面将进一步详细讨论的四边形)页面的角,可以计算出找到的文档的四条边的交叉点。在优选的实现方式中,为了这么做,必须考虑三种情况:计算两条直线的交叉点,计算直线和抛物线的交叉点,以及计算两条抛物线的交叉点。
第一种情况中,有单个解决方案(因为页面的上边缘和下边缘大多水平延伸,而页面的左边缘和右边缘大多垂直延伸,对应的LMS线不能平行)并且这个解决方案确定对应页面角的坐标。
第二种情况,计算直线和抛物线的交叉点,稍微更复杂一些:二次方程的结果可以是0、1或2个答案。如果没有交叉点,可指示页面监测出现致命问题,并且结果会遭到拒绝。唯一答案有点不可能,但不会呈现更多问题。两个交叉点会呈现选择,这种情况离对应帧角更近的交叉点是更好的候选点——在实践中,方程的其他解离图像帧的坐标范围非常远。
第三种情况,计算两条抛物线的交叉点,导致出现四阶多项式方程,(原则上)可以利用分析法求解。然而,实践中,得到结果所必须的计算的数量比也可以保证想要的子像素精度的近似的迭代算法要大得多。
根据一种方法,用于这个目的的、关于文档的数字表示的矩形化的一个示例性程序在下面详细描述。
作为结果的对象四边形的有效性有若干限制(例如,下面将进一步讨论的四边形)。也就是,优选地,四边形不要太小(例如,低于任何期望值的预定阈值,例如图像的总区域的25%),四边形的角优选地不要位于离图像帧外面太远(例如,不要远于100像素),并且角本身可判断为左上、右上、左下和右下,其对角线在四边形内部相交等。如果这些限制没有满足,在一些实施例中,给定的页面检测结果可以被拒绝。
在一个说明性实施例中,检测出的文档的数字表示的四边形有效,算法可以确定目标矩形。目标矩形的宽和高可以分别设置为四边形的上下边的平均值和左右边的平均值。
在一个实施例中,如果执行歪斜校正,目标矩形的歪斜角度可以设置为0,以便页面边将变成水平和垂直的。否则,歪斜角度可以设置为上下边相对水平轴的角度和左右边相对垂直轴的角度的平均值。
在一个附加的实施例中,在类似的方法中,如果未执行裁剪校正,可以指定目标矩形的中心,以便和四边形的四个角的坐标平均值相匹配;否则可以计算出中心,以便目标矩形结束于图像帧的左上方。
在一些方法中,如果页面检测结果由于任何原因被拒绝,为了得到更多的候选边缘点并且有利地取得更合理的结果,在此描述的过程的一些或全部步骤可以以较小的步长递增重复。在最坏的情景中,即使用最少允许的步长,问题也持续,检测出的页面设置为整个图像帧并且原始图像可原样未动。
现在,特别参照在此描述的有创造性的页面检测的示例性实现方式,在一种方法中,如本领域技术人员通过阅读本说明书可以领会的,页面检测包括执行这样的方法,该方法可以在任何环境中执行,包括本公开中在此描述的以及图中表现的环境。
在一个实施例中,限定了多个对应于数字图像背景到文档的数字表示的转换的候选边缘点。
在多个实施例中,限定在操作中的多个候选边缘点可以包括一个或多个附加操作,例如下面描述的操作。
根据一个实施例,大分析窗口(例如,大分析窗口)限定于数字图像中。优选地,为了得到数字图像背景的信息特征,以与非背景(例如,文档的数字表示,例如,下面将进一步详细讨论的背景统计)信息特征进行比较和对比,第一大分析窗口限定在描绘了多个数字图像背景像素但未描绘非背景(例如,文档的数字表示)的区域。例如,第一大分析窗口可以限定在数字图像的角(例如左上角)处。当然,第一大分析窗口可以限定在数字图像的任何部分而不脱离本公开的范围。
而且,如本领域技术人员通过阅读本说明书可以理解的,大分析窗口可以具有任何大小和/或特点为任何合适的尺寸,但在优选的实施例中,大分析窗口大约40像素高并且大约40像素宽。
特别地,在优选的方法中,大分析窗口限定在数字图像的角区域。例如,数字图像包括具有多个边和背景的文档的数字表现。如上描述的,大分析窗口可以限定在包括多个背景像素以及不包括对应于文档的数字表现的像素的区域。而且在一些方法中,大分析窗口可以限定在数字图像的角处。
根据一个实施例,多个小分析窗口可以限定在数字图像中,例如在大分析窗口中。小分析窗口可以与一个或多个其他小分析窗口至少部分重叠,例如特征为包括一个或多个重叠区域。在优选的方法中,所有可能的小分析窗口都限定在大分析窗口中。当然,小分析窗口可以限定在数字图像的任何部分,例如,优选地,小分析窗口可以被限定,以便每个小分析窗口以单一中心像素为特征。
在操作中,根据一个实施例,针对一个或多个小分析窗口(例如,大分析窗口中的一个或多个小分析窗口),计算出一个或多个统计数字,并且估计出一个或多个对应的统计分布(例如,根据多个小分析窗口估计出统计分布)。在另一个实施例中,统计分布可以根据一个或多个大分析窗口以及其可选合并估计出。
而且,如本领域技术人员通过阅读本说明书可以理解的,值可以描述与数字图像的背景相关联的任何特征,例如背景亮度值、背景颜色通道值、背景纹理值、背景色彩值、背景对比值、背景锐度值等。而且,统计数字可以包括通过大分析窗口中的多个小分析窗口描绘了数字图像背景的多个像素的一个或多个颜色通道中的亮度值的最小值、最大值和/或范围。
在操作中,根据一个实施例,估计出一个或多个背景统计分布。通过估计一个或多个统计分布,可以获得描述例如大分析窗口中数字图像背景的特性的一个或多个描述性分布。
如本领域技术人员通过阅读本说明书可以领会的,优选地,一个或多个分布与对每个小分析窗口计算出的背景统计结果对应,并且可以包括,例如亮度最小值分布、亮度最大值分布等,由此可以得到分布统计描述符,例如最小亮度值的最小值和/或最大值、最大亮度值的最小值和/或最大值、亮度值的最小和/或最大扩展、最小颜色通道值的最小值和/或最大值、最大颜色通道值的最小值和/或最大值、颜色通道值的最小和/或最大扩展等。当然,计算出的任何背景统计结果(例如,对亮度值、颜色通道值、对比值、纹理值、色彩值、锐度值等)可以集合成分布,并且描述分布的任何值都可以利用而不脱离本公开的范围。
在操作中,根据一个实施例,大分析窗口(例如分析窗口)被限定在数字图像中。
而且,窗口形状可以通过主动地将窗口的边界设置为数字图像一部分来进行限定,可以通过例如对数字图像应用掩膜以及通过限定未进行掩膜的数字图像区域作为分析窗口进行被动限定。而且,可以根据模式限定窗口,尤其是在通过对图像应用掩膜从而被动限定窗口的实施例中。当然,可以运用其他限定窗口的方式而不脱离本公开的范围。
如本领域技术人员通过阅读本说明书可以理解的,在操作中,根据一个实施例,针对分析窗口计算出一个或多个统计结果。而且,在优选的实施例中,每个分析窗口统计结果与估计出的大分析窗口的背景统计分布相对应。例如,在一个实施例中,最大亮度与背景亮度最大值分布相对应,最小亮度与背景亮度最小值分布相对应,亮度扩展与背景亮度扩展分布相对应等。
如本领域技术人员通过阅读本说明书可以领会的,在操作中,根据一个实施例,统计上的显著差异是否存在于至少一个分析窗口统计数据和对应的背景统计分布之间是确定的。如本领域技术人员通过阅读本说明书可以领会的,确定是否存在统计上的显著差异可以利用任何已知的统计显著性评估方法或标准执行,例如,p值方法(p-value)、z-拣选(z-test)、X方形相关(chi-squaredcorrelation)等。
在操作中,根据一个实施例,分析窗口中的一个或多个点(例如,正中心像素或点)被指定为候选边缘点,对此分析窗口,统计上的显著差异存在于描述像素的值和对应的背景统计分布之间。该指定可以由本领域中已知的任何合适的方法完成,例如,设置对应于像素的标志、存储像素的坐标、制作像素坐标阵列、修改描述像素(例如亮度、色调、对比度等)的一个或多个值,或任何其他合适的方法。
如本领域技术人员通过阅读本说明书可以理解的,根据一个实施例,一个或多个操作可以重复一次或多次。在优选的实施例中,可以执行多次这样的重复,其中每次重复在数字图像的不同部分上进行。优选地,可以进行重复,直到评估完文档的数字表现的每条边。在多种方法中,限定分析窗口会导致多个分析窗口,其共享一个或多个边界,其整个或部分重叠,和/或其不共享任何公共边界以及不重叠等。
特别地,在优选的实施例中,以如下方式执行多次重复:一旦检测可能的非背景窗口(例如包含候选边缘点的窗口或包含伪像例如不均匀照明、背景纹理变化等的窗口)时,重新估计局部背景统计。
在操作中,根据一个实施例,四边形的四条边基于多个候选边缘点被限定。优选地,四边形的边涵盖数字图像中文档的数字表现的边缘。限定四边形的边包括,在一些方法中,执行一次或多次最小均方值(LMS)近似。
在更多的方法中,限定四边形的边可以包括识别一个或多个离群候选边缘点,以及从多个候选边缘点中移除一个或多个离群候选边缘点。进一步地,限定四边形的边可以包括执行至少一次排除一个或多个离群候选边缘点的附加的LMS近似。
仍然进一步地,在一个实施例中,四边形的每条边的特点是从一类函数中选出的方程式,并且执行至少一次LMS近似包括确定每个方程式的一个或多个系数,例如在优选的实现方式中二级多项式的最佳系数。根据这些方法,限定四边形的边可以包括确定文档的数字表现的每条边是否落入给定类别函数中,例如二级多项式或更加简单的函数,例如线性函数而不是二级多项式。
在优选的方法中,执行方法可以精确地限定围绕文档的四条主要边的四边形而忽略文档主要边的偏离部分,例如裂口和/或突出。
现在公开的四边形的附加和/或可替代实施例的特点是具有四条边,并且每条边的特点在于一个或多个方程式,例如上面讨论的多项式函数。例如,在四边形的边的特点是超过一个方程式的实施例中,可以包括将一条或多条边分成多个部分,每个部分的特点在于方程式,例如上面讨论的多项式函数。
如本领域技术人员通过阅读本说明书可以理解的,限定四边形,在多个实施例中,可选择地和/或附加地包括限定四边形的一个或多个角。例如,四边形的角可以通过计算四边形的邻边间的交点,以及在计算出了多个交点的情形中,从一个或多个计算出的交点中指定合适的交点进行限定。仍然在更多的实施例中,限定角可以包括解出一个或多个方程式,其中每个方程式的特点是属于选出的一类函数,例如,Nth级多项式等。
在多个实施例中,四边形的角可以通过以下中的一个或多个来进行限定:四边形的两条曲线邻边的交点;两条大致直线的交点;以及一条大致直线和一条大致曲线的交点。
在操作中,根据一个实施例,文档的数字表现以及四边形输出到移动设备的显示器。输出可以通过任何方式执行,并且依赖于移动设备硬件和/或软件的配置。
而且,如本领域技术人员通过阅读本说明书可以理解的,输出可以以多种方法执行,以便辅助进一步的处理和/或用户与输出的交互。例如,在一个实施例中,四边形以设计为区别四边形和数字图像的其他特征的方式显示,例如,以特别的颜色、花样、图案、动画等显示四边形的边。
仍然进一步地,在一些实施例中,输出四边形以及文档的数字表现可以辅助用户以任何合适的方式手动调节和/或限定四边形。例如,用户可以与移动设备的显示器交互以转译四边形,即沿一个或多个方向移动四边形的位置而保持四边形的纵横比、形状、边缘长度、面积等不变。附加地和/或可替代地,用户可以与移动设备的显示器交互以手动限定或调节四边形角的位置,例如点击四边形的角并且拖曳到数字图像中的想去的位置,例如文档的数字表现的角。
再次提及描述了页面检测的理想结果的一个特别例子,其展示了数字图像中文档的数字表现,并且具有涵盖了文档的数字表现的边缘的四边形。
在一些方法中,页面检测,如上面描述的,可以包括一个或多个附加和/或可替代的操作,例如将在下面描述的。
如本领域技术人员通过阅读本说明书可以理解的,在一种方法中,方法可以进一步包括捕获一个或多个包含文档的数字表现的图像数据以及关于文档的数字表现的音频数据。捕获可以利用一个或多个耦合至移动设备的捕获组件执行,例如麦克风、照相机、加速计、传感器等。
在另一种方法中,当确定存在统计上的显著差异时,方法可以包括限定新的大分析窗口以及重新估计新的大分析窗口的背景统计分布,即本质上是,和/或在靠近已识别出的可能的非背景点之处的点(例如,靠近文档边缘的一个点)的数字图像的不同区域重复操作。
在若干示例性实施例中,大分析窗口可以位于行内靠近非背景像素或在非背景像素的最左侧,或位于行内靠近非背景像素或位于非背景像素最右侧,位于列内靠近非背景像素或在非背景像素的最上侧,或位于列内靠近非背景像素或位于非背景像素最下侧。
涉及这样的重新估计的方法可以进一步包括确定统计上的显著差异是否存在于至少一个小分析窗口(例如,测试窗口)统计结果和对应的重新估计的大分析窗口统计分布之间。通过这种方式,可能获得是否存在统计上的显著差异的更高置信的确认,并且因此更好地区分从数字图像背景到与其相对的文档的数字表现的正确转换,相较于例如纹理、照明、畸形和/或其他数字图像中的伪像的变化。
而且,执行或不执行上述的重新估计辅助该方法避免了一个或多个伪像,例如数字图像中照明和/或背景纹理等的变化,伪像不与从数字图像背景到文档的数字表现的正确转换相对应。在一些方法中,避免伪像可以采取绕过数字图像的一个或多个区域(例如,特点为将区域与真正背景区分开的纹理、变化等的区域)。
在一些方法中,一旦确定对大分析窗口估计的统计分布和对应的计算出的小分析窗口的统计结果之间存在统计上的显著差异,限定小分析窗口附近的新的大分析窗口,重新估计新的大分析窗口的统计分布,并且确定重新估计的统计分布和对应的计算出的小分析窗口的统计结果之间不存在统计上的显著差异,可以绕过一个或多个区域。
在其他方法中,一旦确定此核查的窗口的统计结果没有明显不同于背景的已知统计特性时,例如就像统计显著性测试中表明的,绕过可以通过核查沿路径较远的另一个分析窗口并且重新搜索向非背景的转换实现。
如本领域技术人员通过阅读本说明书可以领会的,绕过可以通过核查沿路径较远的另一个分析窗口实现。
仍然在进一步的方法中,页面检测可以附加地和/或可替代地包括,确定四边形是否满足一个或多个质量控制度量;以及在确定四边形不满足一个或多个质量控制度量时拒绝四边形。而且,质量控制度量可以包括例如LMS支持度量、最小四边形面积度量、四边形角位置度量以及四边形对角线交点位置度量之类的测量。
实践中,确定四边形是否满足一个或多个这些度量起到核查方法性能的作用。例如,核查可以包括确定四边形是否至少覆盖数字图像总面积的阈值,例如,是否四边形包括总图像面积的至少25%。而且,核查可以包括,确定四边形的对角线是否在四边形的边界以内相交,确定一个或多个LMS近似是否由足够多的数据计算出来,以从中得到对统计结果的鲁棒的置信度,即是否LMS近似有足够的“支持”(在多种方法中,例如由至少5个数据点计算出的近似,或至少数据点总数的四分之一),和/或确定是否四边形角的位置(由表示了四边形各条边的特点的方程限定)在数字图像边缘的阈值距离以内,例如,四边形的角是否位于离给定方向上数字图像边缘超过100像素远的位置。当然,可以利用其他质量度量和/或核查而不脱离这些公开的范围,如本领域技术人员通过阅读本说明书可以领会的。
在一种方法中,质量度量和/或核查可以辅助拒绝次最优的四边形限定,并且进一步辅助改进四边形边的限定。例如,一种方法包括接收基于多个未能限定有效四边形即未能满足一个或多个质量控制度量的候选边缘点来限定四边形的四条边的指示;并且重新限定多个候选边缘点。尤其是,在这个实施例中,重新限定多个候选边缘点包括,取样比以前失败的尝试的取样点的数目更大数目的点。在一种方法中,为了分析更大数目的候选边缘点,这将通过减少对数字图像的一个或多个行或列的执行步长以及重复算法的所有步骤实现。步长可以在垂直方向、水平方向或两个方向减少。当然,重新限定候选边缘点和/或重新取样数字图像中的点的其他方法也可以利用而不脱离本公开的范围。
仍然进一步的,页面检测可以包括指定整个数字图像作为文档的数字表现,特别是多次重复方法而未能限定有效四边形的地方,甚至在数字图像分析中相继显著减少了步长的地方。在一种方法中,指定整个数字图像作为文档的数字表现可以包括,限定图像的角作为文档的角,限定图像的边作为文档的边等,如本领域技术人员通过阅读本说明书可以理解的。
就像此处描述的,四边形的对角线的特征为,第一条线连接计算出的四边形的左上角和计算出的四边形的右下角,并且第二条线连接计算出的四边形的右上角和计算出的四边形的左下角。而且,第一条线和第二条线优选地在四边形内部交叉。
在多种方法中,一个或多个前述操作可以利用处理器执行,并且处理器可以是移动设备的一部分,特别是具有一体式照相机的移动设备。
矩形化
本说明书涉及数字图像中文档的数字表现的矩形化,下面将详细描述多种方法。
在一个实施例中,矩形化算法的目的是将四边形(例如在页面检测方法中限定的)平滑地转换为矩形(这样的)。尤其是,特点在于多个方程式的四边形,每个方程式对应于四边形的边并且从一类选定的函数中选出。例如,四边形的每条边的特点在于一级多项式、二级多项式、三级多项式等,如本领域技术人员通过阅读本说明书可以领会的。
在一种方法中,四边形的边可以由方程式描述,并且在优选的实施例中,四边形的左边的特点是二级多项式:x=a2*y2+a1*y+a0;四边形的右边的特点是二级多项式:x=b2*y2+b1*y+b0;四边形的上边的特点是二级多项式:y=c2*x2+c1*x+c0;四边形的下边的特点是二级多项式:y=d2*x2+d1*x+d0
下面呈现的页面矩形化算法的说明利用四边形内多个基于四边形的本征坐标对(p,q)的定义,通过将所有对应的系数都组合到从上到下的曲线系数比p到1–p中,每个与从上到下的曲线的交点对应的本征坐标对(p,q)的特点为一个取自它的左右边的方程式中的方程式,并且通过将所有对应的系数组合到左右曲线系数比q到1–q中,从左到右的曲线的特点为一个取自它的上下边的方程式中的方程式,其中0<p<1,并且其中0<q<1。
在优选的实施例中,四边形的边的特点是二级多项式,与本征坐标p对应的上到下的曲线的特点是方程式:x=((1–p)*a2+p*b2)*y2+((1–p)*a1+p*b1)*y+((1–p)*a0+p*b0),并且与本征坐标q对应的左到右的曲线的特点是方程式:y=((1–q)*c2+q*d2)*y2+((1–q)*c1+q*d1)*y+((1–q)*c0+q*d0)。当然,其他方程式可以描述上述任何边和/或曲线的特点,如本领域技术人员通过阅读本说明书可以领会的。
对于一个矩形,其是四边形的特殊情况,本征坐标变得尤其简单:在矩形内部,每个本征坐标对(p,q)与平行于矩形的左边的每条边和矩形的右边的每条边的线的交点相对应,例如,将上下边都按p与1–p的比例进行分割的线;以及平行于矩形的上边的每条边和矩形的下边的每条边的线,例如将上下边都按q与1–q的比例进行分割的线,其中0<p<1,并且其中0<q<1。
下面描述的矩形化算法的目的是将经矩形化的图像中的每个点与原始图像中对应的点相匹配,并且按照这样的方法做:将四边形的四条边中的每条边转换成大致上的直线,而四边形的对边应变成彼此平行并且与另一对边相正交;即四边形的上下边变成彼此平行;以及四边形的左右边变成彼此平行并且与新的上下边相正交。因此,四边形被转换成具有四个角的真正的矩形,每个角包括两条相交的直线以形成90度角。
下面描述的矩形化算法的主要想法是实现此目的,通过,首先,在经矩形化的目标图像中对每个点(未示出)计算基于矩形的本征坐标(p,q),第二,将这些坐标与原始图像中基于四边形的本征坐标的相同对(p,q)相匹配,第三,分别计算对应于这些本征坐标的左到右以及上到下曲线交点的坐标,并且最后,将在原始图像中找到的点的颜色或灰度值分配到点上。
根据一个实施例,现在参考描述了页面矩形化算法的第一迭代的图示,数字图像中的每个点可以与对应于与点关联的本征坐标(如上面描述的)的上到下曲线和左到右曲线(曲线可以包括直线、曲线,例如抛物线等,如本领域技术人员通过阅读本说明书可以理解的)的交点相对应。
如根据本说明书将变得显而易见的,矩形化可以包含限定多个这样的左到右的线和上到下的线。
而且,矩形化可以包括将基于矩形的对象坐标与文档的数字表示的基于四边形的本征坐标相匹配。
这个匹配可以包括迭代搜索给定的左到右曲线以及给定的上到下曲线的交点。迭代搜索,关于根据下面进一步详细讨论的一种方法的,包括指定坐标为(x0,y0)的开始点,开始点可以位于文档的数字表现中的任何位置,但优选地位于对象矩形上或靠近其中心。
迭代搜索可以包括将开始点投影到两条交叉曲线上,而开始点可以投影到其中一条曲线上,在一种方法中,迭代搜索中的第一迭代的前半部分包括将开始点投影到上到下曲线以得到下个点的x坐标(x1),投影结果用坐标为(x1,y0)的点表示。类似地,在一些实施例中,迭代搜索中的第一迭代的后半部分包括将点投影到左到右曲线以得到下个点的y坐标(y1),投影结果用坐标为(x1,y1)点表示。
矩形化涉及将页面检测中限定的四边形转换成真正的矩形。根据一个实施例,这个过程的结果是执行页面矩形化算法后的输出的图示。
在一些实施例中,进一步的迭代可以利用类似的方法,例如下面进一步的详细描述中谈到的方法。
用于修改数字图像中文档的数字表现的一个或多个空间特性的方法,可以包括此处描述的任何技术。如本领域技术人员通过阅读本说明书可以领会的,该方法可以在任何合适的环境中执行,包括那些示出的和/或在本公开的图中以及对应的说明书中描述的。
在一个实施例中,四边形(例如在上面的页面检测方法中限定的)被转换成矩形。尤其是,四边形的特点在于多个方程式,每个方程式对应于四边形的边并且从选定的一类函数中选出。例如,四边形的每条边的特点是一级多项式、二级多项式、三级多项式等,如本领域技术人员通过阅读本说明书可以领会的。
在一个实施例中,四边形的边可以用方程式描述,并且在优选的实施例中,四边形的左边的特点是二级多项式:x=a2*y2+a1*y+a0;四边形的右边的特点是二级多项式:x=b2*y2+b1*y+b0;四边形的上边的特点是二级多项式:y=c2*x2+c1*x+c0;四边形的下边的特点是二级多项式:y=d2*x2+d1*x+d0。而且,上到下曲线的方程式是:x=((1–p)*a2+p*b2)*y2+((1–p)*a1+p*b1)*y+((1–p)*a0+p*b0),并且左到右曲线的方程式是:y=((1–q)*c2+q*d2)*y2+((1–q)*c1+q*d1)*y+((1–q)*c0+q*d0)。当然,其他方程式可以描述上述任何边和/或曲线的特点,如本领域技术人员通过阅读本说明书可以领会的。
在一个实施例中,曲线可以由适合一个或多个下列一般形式的示例性
多项式函数描述。x1=u2*y0 2+u1*y0+u0
y1=v2*x1 2+v1*x1+v0,
其中ui=(1–p)*ai+p*bi,并且vi=(1–q)*ci+q*di,并且其中ai是四边形的左边的方程式中的系数,bi是四边形的右边的方程式中的系数,ci是四边形的上边的方程式中的系数,di是四边形的下边的方程式中的系数,并且p和q是对应于曲线的基于四边形的本征坐标。在一些方法中,系数例如ai、bi、ci、di等可以从计算、估计和/或在执行页面检测,例如上面讨论的页面检测,方法期间完成的测定中得到。
当然,如本领域技术人员可以理解的,将四边形转换成矩形可以包括一个或多个附加操作,例如将在下面更加详细描述的。
在一个实施例中,方法附加地和/或可替代地包括延展四边形的一个或多个区域以完成更加接近矩形的或是真正矩形的形状。优选地,这种延展以足够平滑的方式执行,以避免将伪影引入到矩形中。
在一些方法中,将四边形转换成矩形可以包括确定矩形的高度、矩形的宽度、矩形的歪斜角和/或矩形的中心位置。例如,这样的转换可以包括限定对象矩形的宽度作为四边形的上边宽度和下边宽度的平均值;限定对象矩形的高度作为四边形的左边高度和右边高度的平均值;根据图像中矩形想要的布置来限定对象矩形的中心;以及限定对象矩形的歪斜角,例如响应于用户要求来对文档的数字表示校正歪斜。
在一些方法中,转换可以附加地和/或可替代地包括由原始数字图像生成经矩形化的数字图像;对经矩形化的数字图像中的多个点(例如在对象矩形内部和外部的点)确定p坐标和q坐标,其中位于矩形左侧的每个点具有p坐标值p<0,其中位于矩形右侧的每个点具有p坐标值p>1,其中位于矩形上侧的每个点具有q坐标值q<0,其中位于矩形下侧的每个点具有q坐标值q>1。
在一些方法中,转换可以附加地和/或可替代地包括由原始数字图像生成经矩形化的数字图像;对经矩形化的数字图像中的每个点确定基于矩形的一对本征坐标;并且将每对基于矩形的本征坐标与原始数字图像中基于四边形的对等的本征坐标相匹配。
在优选的方法中,将基于矩形的本征坐标与基于四边形的本征坐标相匹配可以包括:对上到下曲线和左到右曲线的交点执行迭代搜索。而且,迭代搜索本身可以包括指定开始点(x0,y0),例如,对象矩形的中心;将开始点(x0,y0)投影到左到右曲线上:x1=u2*y0 2+u1*y0+u0;并且将下个点(x1,y0)投影到上到下曲线上:y1=v2*x1 2+v1*x1+v0,其中ui=(1–p)*ai+p*bi,并且其中vi=(1–q)*ci+q*di。此后,迭代搜索可以包括重复地将(xk,yk)投影到左到右曲线上:xk+1=u2*yk 2+u1*yk+u0;并且将(xk+1,yk)投影到上到下曲线上:yk+1=v2*xk+1 2+v1*xk+1+v0
仍然在更多的实施例中,将基于矩形的本征坐标与基于四边形的本征坐标相匹配可以包括确定(xk,yk)和(xk+1,yk+1)之间的距离;确定该距离是否小于预定的阈值;并且当确定该距离小于预定的阈值时,终止迭代搜索。
歪斜角检测和校正的多个实施例
在一些实施例中,此处公开的图像处理算法可以附加地和/或可替代地包括设计为检测和/或校正数字图像中文档的数字表现的歪斜角的功能。下面描述了校正歪斜的一个优选的方法。当然,校正数字图像中歪斜的其他方法落入这些公开的范围内,如本领域技术人员通过阅读本说明书可以领会的。
数字图像中文档的数字表现的特点可以是一个或多个歪斜角α。如本领域技术人员通过阅读和观看这些说明可以领会到的,水平的歪斜角α表示水平线和文档的数字表现的边缘之间的角,该边缘具有沿大致水平方向(即文档的数字表现的上边缘或下边缘)的纵轴。类似地,α表示垂直线和文档的数字表现的边缘之间的角,该边缘具有沿大致垂直方向(即文档的数字表现的左边缘或右边缘)的纵轴。
而且,文档的数字表现可以由上边缘、下边缘、右边缘和左边缘限定。这些边缘中的每个的特点是大体上的线性方程,这样对于上边缘:y=-tan(α-)x+dt;对于下边缘:y=-tan(α)x+db;对于右边缘:x=tan(α)y+dr;对于左边缘:x=tan(α)y+dl,其中dt和db是分别描述了文档的数字表现的上和下边缘的线性方程的y轴截距,并且其中dr和dl是分别描述了文档的数字表现的右和左边缘的线性方程的x轴截距。
在一种方法中,已经限定了的描述文档的数字表现的每条边的线性方程,例如矩形文档,它的歪斜角,可以通过设置α=0进行校正,这样对于上边:y=dt;对于下边:y=db;对于右边:x=dr;对于左边:x=dl。
检测照明问题的多个实施例
仍然在更多的实施例中,目前描述的图像处理算法可以包括用于检测文档的数字表现是否包括一个或多个照明问题的特征。
例如,照明问题可以包括数字图像此处未饱和的区域,当数字图像中亮度值从像素到像素改变很大时,例如特点是在周围照明不足和/或提供的照明不足的环境中捕获的图像,以及数字图像此处过饱和的区域,当数字图像中的一些区域褪色,例如在闪光反射中。
下面描述了根据一个实施例的、检测数字图像包括文档的数字表现中照明问题的一种示例性方法;并且其描绘了确定文档的数字表现中是否存在照明问题的方法。如本领域技术人员通过阅读本说明书可以领会的,该方法可以在任何合适的环境中执行,例如,此处描述的以及一起提交的多个图中表示的那些。当然,其他也适于操作方法的环境也落入本公开的范围,就像本领域技术人员阅读此说明书可以领会的。
在一个实施例中,处理方法包括(优选地利用移动设备处理器)将包括文档的数字表现的四边形分成多个部分,每个部分包括多个像素。
在更多的方法中,确定每个部分的亮度值分布。如本领域技术人员理解的,亮度值分布可以通过任何已知的方式编译和/或收集,并且适合任何已知的标准分布模型,例如高斯分布、双峰式分布、偏斜分布等。
仍然在更多的方法中,确定每个部分的亮度值范围。如本领域技术人员领会的,在给定的分布中被限定为最大值和最小值间的差数。此处亮度值范围将被限定为给定部分特有的最大亮度值和相同部分特有的最小亮度值之间的差数。例如,这些特有的值可以分别与整个分布的第2和第98个百分数值相对应。
在许多的方法中,确定每个部分的多个亮度值。
在多种方法中,确定每个部分是否过饱和。例如,根据一个实施例的,操作可以包括确定描绘文档的数字表现的数字图像的区域是过饱和的。确定每个部分是否是过饱和的可以包括对每个部分确定过饱和部分的比例。尤其是,在优选的实施例中,每个部分过饱和的比例被限定为此部分中展示最大亮度值的像素的总数除以此部分中像素的总数。
不均匀照明的图像可以描绘或特点为多个暗点,这些暗点在数字图像的对应像素、点或区域的亮度级比图像或文档的其他区域的亮度级低和/或比图像或文档的平均亮度级低的区域中更加浓密。在一些实施例中,不均匀照明的特点是亮度梯度,例如从图像的右上角(附近区域)开始到图像的较低的左侧角(附近区域)的梯度,这样亮度沿着梯度降低,伴随着相对地图像的右上角(附近区域)的亮区以及相对地图像的较低的左侧角(附近区域)的暗区。
在一些方法中,确定每个部分是否过饱和可以进一步包括,针对每个部分,确定该部分的过饱和度是否比预定阈值更大,例如10%;并且当确定该部分的饱和度比预定的阈值更大时,将该部分标签为过饱和。而目前描述的实施例使用10%的阈值,可以使用其他过饱和度的预定阈值而不脱离本公开的范围。尤其是,准确值是一个视觉感知和专业判断问题,在多个实施例中,可以由用户调节和/或设置。
在更多的方法中,确定每个部分是否是未饱和的。例如,根据一个实施例,操作可以包括确定描述文档的数字表现的数字图像的区域是未饱和的。确定每个部分是否是未饱和的可以包括附加操作,例如确定每部分的亮度值分布的中值变化;确定每个中值变化是否比预定的变化阈值更大,例如中值亮度变化18来自0-255的整数值范围;并且对每个部分,当确定某部分的中值变化比预定的变化阈值更大时,确定该部分是未饱和的。尤其是,准确值是视觉感知和专业判断问题,在多个实施例中,可以由用户调节和/或设置。
在一种特别的方法中,确定某部分的变化可以包括,确定多个像素中对象像素的亮度值;计算对象像素的亮度值和一个或多个邻近像素的亮度值之间的差数,每个邻近像素是距离对象像素一个或多个(例如,2)像素远的像素;对多个像素中的每个像素重复进行确定和计算,以得到每个对象像素变化;并且生成对象像素变化值分布,其中每个对象像素亮度值和对象像素变化值是从0到255范围内的一个整数。这种方法可以通过,例如,自增在0到255的范围内所有可能变化值的阵列中的对应计数器实现,例如生成变化值的柱状图。
尤其是,当利用邻近像素确定特别部分的变化时,邻近像素可以在对象像素沿着或者垂直方向、水平方向或二者(例如,对角线方向)的两个像素以内。当然,可以利用其他像素接近限制而不脱离本发明的范围。
在一些方法中,方法可以进一步包括从对象像素变化值分布中移除一个或多个对象像素变化值,以生成经校正的分布;以及基于经校正的分布限定特有的背景变化。例如,在一个实施例中,生成经校正的分布以及限定特有的背景变化可以包括,移除总计数值的最高35%(或任何足够覆盖与从背景到前景的转换相关联的重大亮度变化的其他值),并且基于分布中余下的值(即从文档的数字表现的相对平坦的背景区域取得的值)来限定特有的背景变化。
在更多的方法中,确定多个过饱和部分。这个操作可以包括确定过饱和部分总数的任何方法,例如通过图像处理期间自增计数器,通过对每个过饱和部分设置标志,以及在处理期间计数某些点的标志等,如本领域技术人员在阅读本说明书时可以理解的。
在更多的方法中,确定多个未饱和部分。这个操作可以包括确定未饱和部分的全部方法,例如通过图像处理期间自增计数器,通过对每个未饱和部分设置标志,以及在处理期间计数某些点的标志等,如本领域技术人员在阅读本说明书时可以理解的。
在更多的方法中,当确定过饱和部分的数目相对部分的总数的比例超过过饱和阈值时,确定数字图像是过饱和的,过饱和阈值可以由用户限定,其可以是一个预定值等,如本领域技术人员在阅读本说明书时可以理解的。
在更多的方法中,当确定未饱和部分的数目相对部分的总数的比例超过未饱和阈值时,确定数字图像是未饱和的,未饱和阈值可以由用户限定,可以是一个预定值等,如本领域技术人员在阅读本说明书时可以理解的。
在更多的方法中,当确定数字图像或者未饱和或者过饱和时,可以确定数字图像中存在照明问题。
仍然在更多的方法中,方法可以包括一个或多个附加的和/或可替代的操作,例如,将在下面详细描述的。
在一个实施例中,方法可以包括对每个部分执行下列操作。通过将文档的高度分成水平部分的预先确定的数目,限定部分的高度;以及通过将文档的宽度分成垂直部分的预先确定的数目,限定部分的宽度。在优选的方法中,部分的高度和宽度基于产生一定数目的部分并且通过将文档的高度分成一定数目的水平部分以及通过将文档的宽度分成一定数目的垂直部分来使得这些部分组成近似正方形的目的来确定。
因此,在一些实施例中,每个部分具有部分高度和部分宽度的特征,其中,数字图像的特征是图像宽度w和图像高度h,其中h≥w,其中部分的大小具有部分宽度ws和部分高度hs,其中ws=w/m,其中hs=h/n,其中m和n被限定,以便ws近似等于hs。例如,在优选的实施例中,m>=3,n>=4。
在另一种方法中,确定文档的数字表现中是否存在照明问题的方法包括下列操作,部分或所有这些操作可以在此处描述的和/或目前公开的图中表示的任何环境中执行。
校正不均匀照明的多个实施例
在一些方法中,校正数字图像中照明的不均匀包括使数字图像的全部亮度正常化。正常化全部亮度可以是对数字图像,将特征为如上讨论的亮度梯度的数字图像转换成特征为亮度分布相对平坦、均匀的数字图像。这样可以注意到,一些区域的特点是:比特点是大体相似的暗点密度区域更加明显浓密的暗点分布。
依照本公开,照明的不均匀性可以校正。尤其是,此处提供了校正数字图像的一个或多个区域中不均匀照明的方法,以用于任何合适的环境,包括那些在此处描述的以及在多个图中表示的,在其他本领域技术人员阅读本说明书时将知道的合适的环境中。
在一个实施例中,方法包括利用处理器将二维照明模型从数字图像中导出的操作。
在一个实施例中,二维照明模型应用于数字图像中的每个像素。
在更多的方法中,可以将数字图像分成多个部分,并且一个部分中的一些或所有像素可以基于颜色,例如一个或多个颜色通道中的亮度值、色调中值等聚类(cluster),如本领域技术人员在阅读本说明书时可以理解的。而且,可以分析几个最大数目的聚类,以确定一个或多个可能的局部背景的特点。为了指定一个聚类作为部分的局部背景,属于这个聚类的像素数目必须超过某一预先确定的阈值,例如总的部分面积的阈值百分数。
在不同的方法中,可以利用任何已知的方法进行聚类,包括马尔可夫链蒙特卡罗法(Markov-chainMonteCarlomethods)、最近邻接法、基于分布的聚类方法例如期望值-最大化,基于密度的聚类方法例如基于空间密度的群以噪声发现聚类算法(DBCSAN)、通过对象排序识别聚类结构算法(OPTICS)等,如本领域技术人员在阅读本说明书时可以理解的。
在一个实施例中,方法可以包括,针对背景聚类中的每个颜色通道值分布,确定对应部分的主要背景的一个或多个平均颜色以及对应部分的次要背景的一个或多个平均值颜色,如果一个或两个存在于部分中。
在一个实施例中,方法包括对每个部分指定主要背景颜色或次要背景颜色作为文档的数字表现的主要背景的局部表示,每个局部表示或者以对应部分的主要背景的平均颜色为特点或者以对应部分的次要背景的平均颜色为特点。
在一个实施例中,方法包括使选择的图像背景的局部表示的多个平均颜色通道值适合于二维照明模型。在一些方法中,二维照明模型是特征为方程式v=ax2+bxy+cy2+dx+ey+f的二级多项式;其中v是多个颜色通道中一个的平均颜色通道值;a,b,c,d,e和f是二维照明模型的每个未知参数,每个未知参数a,b,c,d,e和f是利用最小均方逼近得到的近似值,x是部分中中点像素的x坐标,并且y是部分中中点像素的y坐标。
在一种方法中,二维照明模型的导出可以包括,对多个背景聚类:计算每个背景聚类的平均颜色通道值,计算每个背景聚类的色调比例,以及对多个背景聚类计算色调中值比例。而且,导出也可以包括将每个背景聚类的色调比例与多个聚类的色调中值比例相比较;基于比较结果选择两个可能背景中更加可能的作为文档背景的局部表现;将至少一个二维照明模型适于局部表现的平均通道值;以及通过多个局部表现计算多个主要背景颜色平均通道值。
方法的应用可以包括,计算一个或多个预测背景通道值和主要背景颜色平均通道值间的差数;以及对数字图像中的每个像素将差数的一小部分加到一个或多个颜色通道值中。例如,加入一部分可以包括加入差数的从0到1范围内的值,例如,在优选的实施例中,将差数的3/4加到真正像素值中。
仍然在更多的方法中,方法可以包括附加的和/或可替代的操作,例如下即将讨论的那些。
例如,在一个方法中,方法进一步包括以下中的一个或多个:对每个部分,确定多个颜色聚类;确定多个众多颜色聚类,每个众多颜色聚类对应于部分中表现的高频率(例如,颜色聚类是具有属于那个聚类的部分中最高数目像素的一个聚类);确定部分的总面积;确定多个部分的部分面积,每个部分的部分面积对应于由多个众多颜色聚类中的一个表示的面积;通过总面积将每个部分的部分面积分开,以得到每个众多颜色聚类的聚类百分比面积(例如,通过像素的总数将属于众多颜色聚类的部分中的像素数目分开,以得到由对应的最多的众多颜色聚类占用的部分的总面积的百分比),以及基于聚类百分比区域,将每个众多颜色聚类分类为背景聚类或非背景聚类。
尤其是,在优选的方法中,分类操作识别:部分中没有背景、部分中有单个最多的背景,或者部分中有两个最多的背景。而且,分类包括对每个属于包含比背景阈值更大数目的像素的聚类进行分类,作为背景像素。在一些方法中,背景阈值在0到100%的范围内(例如,在优选的方法中为15%)。背景阈值可以由用户限定,可以是个预先确定的值等,如本领域技术人员在阅读本说明书时可以理解的。
分辨率估计的多个实施例
作为现在公开的有创造性的实施例的进一步对象,移动图像处理可以包括估计文档的数字表示的分辨率的方法。当然,这些方法可以在合适的环境中执行,包括那些在此处描述的以及在随同呈现的多个图中表现的。而且,该方法可以与此处描述的其他方法一起使用,并且可以包括下面描述的那些附加的和/或替代的操作,如本领域技术人员在阅读本说明书时可以理解的。
在一个实施例中,在数字图像中检测多个非背景成分的多个连通区域。在一些方法中,数字图像的特点可以是双调图像,即图像仅包含两个色调,并且优选地仅包括黑色和白色图像。
在另一个实施例中,基于多个连通区域确定多个可能的特征。可能的特征可以是特点为在给定方向预定数目的亮到暗转换的数字图像区域,例如就像会遇到的在垂直方向的三个亮到暗转换对数字图像的小区域描写大写字母“E”,每个亮到暗转换对应于从文档的背景(亮)到字母“E”的一道水平笔画。当然,可以利用其他数目的亮到暗的转换,例如对字母“o”为两个垂直和/或水平亮到暗的转换,对字母“l”为一个垂直的亮到暗的转换等,如本领域技术人员在阅读本说明书时可以理解的。
仍然在另一个实施例中,一个或多个平均字符尺寸基于多个可能的文本字符被确定。如此处理解的,平均字符尺寸可以包括一个或多个平均字符宽度以及平均字符高度,但是当然可以利用其他合适的字符尺寸,就像技术人员阅读说明书时会承认的。
仍然在另一个实施例中,数字图像的分辨率基于一个或多个平均字符尺寸被确定。
在更多的实施例中,方法可以可选择地和/或替代地包括一个或多个附加操作,例如下面描述的。
例如,在一个实施例中,方法可以进一步包括以下中的一个或多个的:基于数字图像的估计的分辨率估计文档的数字表示的一个或多个尺寸;将一个或多个文档的数字表现的估计的尺寸与多个已知文档类型的一个或多个已知的尺寸进行比较;基于比较,将文档的数字表现与多个已知文档类型的一个或多个相匹配;确定匹配是否满足一个或多个质量管理标准;并且当确定匹配满足一个或多个质量管理标准时,基于已知文档类型的已知尺寸调节文档的数字表现的估计的分辨率。在一些方法中,仅仅如果发现文档的数字表现和一种已知文档类型匹配良好,才调节估计的分辨率。
在一些方法中,一个或多个已知文档类型包括:信纸尺寸文档(8.5x11英寸);法定尺寸文档(8.5x14英寸);A3文档(11.69x16.54英寸);A4(欧洲信纸尺寸)文档(8.27x11.69);A5文档(5.83x8.27英寸);账目/小报(ledger/tabloid)文档(11x17英寸);驾驶证(3x7.25英寸);名片(2x3.5英寸);个人支票(2.75x6英寸);商用支票(3x7.25英寸);商用支票(3x8.25英寸);商用支票(2.75x8.5英寸);商用支票(3.5x8.5英寸);商用支票(3.66x8.5英寸);商用支票(4x8.5英寸);2.25英寸宽的收据;以及3.125英寸宽的收据。
仍然在更多的方法中,方法进一步和/或可选择地包括,对一个或多个连通组件,计算以下中的一个或多个:连通组件内的多个通断转换(例如,从字符到文档背景的转换,例如从黑到白、白到黑等的转换,如技术人员在阅读说明书时理解的);连通组件内的黑色像素密度;连通组件的纵横比;一个或多个连通组件基于一个或多个黑色像素密度、通断转换的数目以及纵横比表示文本字符的似然值。
仍然在更多的方法中,方法可以进一步和/或可选择地包括,确定多个文本字符中的至少两个的字符高度;基于至少两个文本字符中的每个字符的高度计算平均字符高度;确定多个文本字符中的至少两个的字符宽度;基于至少两个文本字符中的每个字符的宽度计算平均字符宽度;执行至少一次比较。尤其是,比较可以从以下中选择:将平均字符高度与参考平均字符高度相比较;以及将平均字符宽度与参考平均字符宽度相比较。
在这样的方法中,方法可以进一步包括,基于至少一个比较结果估计数字图像的分辨率,其中参考平均字符高度和参考平均字符宽度中的每个与一个或多个参考字符相对应,每个参考字符的特点为已知的平均字符宽度和已知的平均字符高度。
在多个实施例中,每个参考字符与在一些可选择的分辨率例如300DPI下扫描一个或多个商业文档的有代表性的样本得到的字符的数字表现相对应,并且每个参考字符进一步与一个或多个通用字体相对应,例如Arial,TimesNewRoman,Helvetica,Courier,CourierNew,Tahoma等,如本领域技术人员在阅读本说明书时理解的。当然,商业文档的有代表性的样本可以在其他分辨率下扫描,只要作为结果的图像分辨率适于辨认文档上的字符。在一些方法中,分辨率必须足够高,以提供最小字符尺寸,例如在一个实施例中,最小的字符高度不小于12像素。当然,本领域技术人员可以理解,最小字符高度可以根据图像类型改变。例如,处理灰度级图像相比处理二进制(例如双调)图像需要不同的字符高度。在更多的方法中,字符必须足够大以能够由光学字符识别法(OCR)识别。
仍然在更多的实施例中,方法可以包括以下中的一个或多个的:基于估计的文档的数字表示的分辨率,估计文档的数字表示的一个或多个尺寸;由平均字符尺寸计算平均字符宽度;由平均字符尺寸计算平均字符高度;比较平均字符宽度和平均字符高度;基于比较结果估计文档的数字表现的方位;以及基于估计的尺寸和估计的方位,将文档的数字表现与已知的文档类型相匹配。
在替代性的实施例中,估计分辨率可以用相反的方法执行,即通过处理文档的数字表现来确定文档的内容,例如支票的数字表示的支付数额、信件的收件人、表格的样式、条形码等,如本领域的技术人员在阅读说明书时可以理解的。基于确定的内容,可以确定文档的数字表现,以与一个或多个已知的文档类型相对应,并且利用已知的一个或多个文档类型的信息,可以确定和/或估计文档的数字表现的分辨率。
模糊检测的多个实施例
根据多个实施例,将描述检测数字图像中一个或多个模糊区域的方法。如本领域技术人员在阅读本说明书时将理解并领会的,方法可以在任何合适的环境中执行,例如此处讨论的以及随同提交的大量图中表示的。进一步地,方法可以单独和/或连同此处描述的其他方法(包括但不限于图像)中的任何其他操作一起执行。
在一个实施例中,方法包括操作,其中,利用处理器将数字图像中包括文档的数字表现的四边形分成多个部分,每个部分包括多个像素。
在一个实施例中,方法包括操作,其中,对每个部分,确定该部分在第一方向上是否包含一个或多个准确的像素到像素的转换。
在一个实施例中,方法包括操作,其中,对每个部分,计数第一方向上急剧的(sharp)像素到像素转换的总数(SS1)。
在一个实施例中,方法包括操作,其中,对每个部分,确定第一方向上该部分是否包含一个或多个模糊的像素到像素的转换。
在一个实施例中,方法包括操作,其中,对每个部分,计数第一方向上模糊的像素到像素转换的总数(SB1)。
在一个实施例中,方法包括操作,其中,对每个部分,确定该部分在第二方向上是否包含一个或多个急剧的像素到像素的转换。
在一个实施例中,方法包括操作,其中,对每个部分,计数第二方向上准确的像素到像素转换的总数(SS2)。
在一个实施例中,方法包括操作,其中,对每个部分,确定第二方向上该部分是否包含一个或多个模糊的像素到像素的转换。
在一个实施例中,方法包括操作,其中,对每个部分,计数第二方向上模糊的像素到像素转换的总数(SB2)。
在一个实施例中,对每个部分,当确定:SS1比预定的急剧的转换阈值小,SB1比预定的模糊转换阈值小,SS2比预定的急剧的转换阈值小,SB2比预定的模糊转换阈值小时,确定该部分是空白的。
在一个实施例中,对每个非空白部分,确定第一方向模糊比例r1=SS1/SB1
在一个实施例中,对每个非空白部分,确定第二方向模糊比例r2=SS2/SB2
在一个实施例中,对每个非空白部分,在确定r1比预定的部分模糊比例阈值小时,确定非空白部分在第一方向是模糊的。
在一个实施例中,对每个非空白部分,在确定r2比预定的部分模糊比例阈值小时,确定非空白部分在第二方向是模糊的。
在一些方法中,“第一方向”和“第二方向”可以具有相互垂直的特点,例如,垂直方向和水平方向,或正方形相互垂直的对角线。在其他方法中,“第一方向”和“第二方向”可以与穿过数字图像的任何路线相对应,但优选地,每个方向与穿过数字图像的线性路线相对应。本领域技术人员在阅读本说明书时会领会到,此处公开的具有创造性的实施例的范围不应该仅仅限制于这些例子,而是包括本领域已知的任何等同方式。
在一个实施例中,对每个非空白部分,在确定以下中的一个或多个的:在第一方向该部分是模糊的,以及在第二方向该部分是模糊的时,可以确定非空白部分是模糊的。
在一个实施例中,模糊部分的总数是确定的。
在一个实施例中,图像的模糊比例R限定为:由模糊部分的总数除以部分的总数计算。
在一个实施例中,方法包括操作,其中,当确定图像模糊的比例比预定的图像模糊阈值大时,则确定数字图像是模糊的。
在多个实施例中,方法可以包括一个或多个附加的和/或可替代的操作,例如下面描述的。例如,在一个实施例中,方法还包括,对每个部分确定多个像素的亮度值的分布;确定亮度值的分布的特点变化v;基于(例如η=3*v,但是不大于某个值,例如16)计算明显的亮度转换阈值η;基于η计算大亮度转换阈值μ(例如μ=2*η,但是不大于某个值,例如亮度范围的半值);对多个像素中的每个像素,分析像素周围窗口中亮度变化的方向性图(例如,水平地、垂直地、对角线地等);以及识别一个或多个的:基于分析结果的急剧的像素到像素的转换以及模糊的像素到像素的转换。
在另一个实施例中,方法也可以包括,限定多个中心像素;继而分析中心像素周围(例如前后两个像素)的一个或多个像素的小窗口中多个中心像素的每一个;当确定:大亮度转换存在于中心像素的紧邻(例如,直接从前面的像素到其后的像素),在大亮度转换之前存在第一小(比明显的小一些)亮度变化;以及在大亮度转换之后存在第二小亮度变化时,识别急剧的像素到像素的转换;当确定:大转换存在于一个或多个小窗口中,大转换中存在亮度的单调变化时,检测急剧的像素到像素的转换;以及当确定:在小窗口中发生明显的转换以及在明显的转换中存在亮度的单调变化时,检测模糊的像素到像素的转换。
仍然在另一个实施例中,方法也可以包括,对每个部分:计数一个或多个选择的方向上每个方向的急剧的转换的总数;在每个选择的方向计数模糊的转换的总数;在确定:急剧转换的总数比预定的急剧转换的阈值(例如,50)小;以及模糊转换的总数比预定的模糊转换阈值小时,确定部分是空白的;当确定部分模糊的比例,包括急剧转换的总数到模糊转换的总数,比至少一个选定方向上部分模糊比例阈值(例如,24%)小时,确定非空白部分是模糊的;以及当确定部分既不是空白的也不是模糊的时,确定该部分是急剧的。
然而在另一个实施例中,方法也可以包括,确定多个部分中空白部分的总数(Nblank);确定多个部分中模糊部分的总数(Nblur);确定多个部分中急剧部分的总数(Nsharp);确定模糊比例(RB)=Nblur/(Nblur+Nsharp);以及如果RB比模糊阈值(优选地用百分数表示,例如30%)小,确定数字图像是急剧的。
进一步领会到,为了应客户的需求提供服务,此处呈现的实施例以展开服务的形式提供。
进一步领会到,为了应客户的需求提供服务,此处展示的实施例以展开服务的形式提供。
文档分类
根据与本公开范围相当的一个具有创造性的实施例,如图5所示,图5示出了方法500。方法500可以在任何期望的环境中执行,并且可以包括图1-4D中描述的实施例和/或方法。当然,可以按照方法500执行比图5中示出的或多或少的操作,如本领域技术人员在阅读本说明书时可以领会的。
在操作502中,接收移动设备捕获的数字图像。
在一个实施例中,数字图像的特点是天然的分辨率。如此处的理解,“天然的分辨率”可以是最初捕获的图像的原始的、天然存在的分辨率,但也可以是进行一些预分类处理(例如上述的任何图像处理操作)后数字图像的分辨率,如本领域技术人员在阅读本描述后将理解的。在一个实施例中,在进行分类之前,对受到虚拟重扫描VRS处理的驾驶证的数字图像,天然的分辨率大约是500像素乘600像素(即500x600数字图像)。而且,在一些方法中,数字图像的特点是彩色图像,并且仍然在更多的方法中,数字图像可以是经裁剪颜色的图像,即数字图像仅大致描绘了要分类的对象,没有描绘图像背景。
在操作504中,利用移动设备的处理器生成数字图像的第一表现。在一种方法中,第一表现的特点可以是减小的分辨率,如此处理解的,“减小的分辨率”可以是比图像的天然分辨率小的任何分辨率,并且根据此处详释的原则,尤其是,适于第一表现接下来分析的任何分辨率。
在优选的实施例中,减小的分辨率足够低,以最小化处理费用并且最大化计算效率和在各自的移动设备、主机设备和/或服务平台上执行算法的鲁棒性。例如,在一种方法中,第一表现的特点是大约25像素乘25像素的分辨率,其经试验确定是对处理相对地小文档,例如名片、驾驶证、收据等特别有效和鲁棒的减小的分辨率,如本领域技术人员在阅读本说明书时可以领会的。
当然,在其他的实施例中,可以利用不同的分辨率而不脱离本公开的范围。例如,为了鲁棒的分类和最大化计算效率,较大文档或对象的分类可以从利用更高的分辨率例如50像素乘50像素,100像素乘100像素等来更好地表现较大文档或对象中获得益处。每个维度中利用的分辨率可以具有或不具有相同数目的像素。而且,用于分类对象类别广大范围内的不同对象的最想要的分辨率,可以根据用户在计算效率和分类鲁棒性间优选的平衡数字经实验确定。仍然在更多的实施例中,可以利用任何分辨率,并且优选地,分辨率的特点是包括第一维度的1像素到约1000像素间的像素,以及第二维度的1像素到约1000像素间的像素。
用于生成第一表现的处理流程的输入、输出和/或结果的一个示例性实施例,将在特别提到的图3A-3C中展示,其分别描绘了:被分成多个部分之前的数字图像(例如,图3A中示出的数字图像300);分成多个部分的数字图像(例如,图3B中示出的部分304);以及特点为减小的分辨率的数字图像的第一表现(图3C中示出的表现310)。
如图3A-3B所示,由移动设备捕获的数字图像300可以分成多个部分304。每个部分可以包括多个像素306,其可以包括像素的大致矩形的网格,这样该部分具有水平像素pS(x)(如图3B所示pS(x)=4)乘垂直像素pS(y)(如图3B所示pS(y)=4)的尺寸。
在一个一般的实施例中,方法包括:利用移动设备接收或捕获数字图像;利用移动设备的处理器:确定数字图像中描绘的对象是否属于多个对象类别中的特定对象类别;至少部分响应于确定该对象属于特定对象类别,确定一个或多个至少部分基于特定对象类别的对象的对象特征;至少部分基于一个或多个确定的对象特征建立或选择提取模型;并且利用提取模型从数字图像中提取数据。
在另一个一般实施例中,方法包括:利用移动设备接收或捕获数字图像;并且利用移动设备的处理器:确定数字图像中描绘的对象是否属于多个对象类别中的特定对象类别;当确定该对象不属于任何多个对象类别时,将数字图像显示在移动设备的显示器上;通过移动设备的显示器接收用户输入,用户输入识别对象中的一个或多个感兴趣区域;至少部分基于用户输入建立和/或选择提取模型;并且至少部分基于提取模型从数字图像中提取数据。
仍然在另一个实施例中,计算机程序产品包括其中嵌入了程序代码的计算机可读存储介质,程序代码可由处理器读取和/或执行,从而:接收移动设备捕获的数字图像;确定数字图像中描绘的对象是否属于多个对象类别中的特定对象类别;当确定该对象属于特定对象类别时,确定一个或多个至少部分基于特定对象类别的对象的对象特征;至少部分基于一个或多个对象特征建立或选择提取模型;并且至少部分基于提取模型从数字图像中提取数据。
第一表现可以通过将数字图像R分成(具有分辨率像素xR乘像素yR)水平部分Sx和垂直部分Sy生成,并且因此其特点是减小的分辨率r为像素Sx乘像素Sy。因此,生成第一表现本质上包括生成数字图像的少颗粒状的表现。
例如,在一种方法中,数字图像300被分成S部分,每个部分304与s乘s像素网格302的一部分对应。生成第一表现包括生成s像素乘s像素的第一表现310,其中,第一表现310中的每个像素312与数字图像的S部分304对应,并且其中每个像素312位于与数字图像中的对应部分304的位置相对应的第一表现310的位置处,即第一表现中最左上角的像素312与数字图像中最左上角的部分304对应。
当然,第一表现可以利用其他减小的分辨率,理想地但不必根据用来执行处理的移动设备、主机设备、和/或服务器平台的限制和/或特征,被检测和/或分类的数字图像的特征(分辨率、照明、存在模糊等)和/或对象的特征(与背景截然不同,文本或其他符号的存在,与一般模板配合紧密),如本领域技术人员在阅读本说明书时将理解的。
在一些方法中,生成第一表现可以包括一个或多个可替代的和/或附加的子操作,例如将数字图像分成多个部分。可以通过任何合适的方式将数字图像分成多个部分,并且在一个实施例中,数字图像被分成多个矩形部分。当然,各部分的特征可以是任何形状,并且在可替代的方法中,多个部分可以或不可以表示整个数字图像,可以表示图像的一些区域的重复采样,或可以表示数字图像中描述的每个像素的单个采样。在优选的实施例中,就像上面讨论的关于图3A-3C,数字图像被分成S个大致正方形部分304,以形成sxs网格302。
在进一步的方法中,生成第一表现也可以包括,对数字图像的每个部分确定至少一个特征值,其中每个特征值与描述该部分的一个或多个特征相对应。在本公开的范围内,任何表达为数字值的特征适于用在生成第一表现中,例如,部分中每个像素的平均亮度或密度(0-255)、部分中每个像素的每个颜色通道的平均值(0-255),例如,红绿蓝(RGB)图像的平均红色通道值,以及平均绿色通道值,以及平均蓝色通道值等,如本领域技术人员在阅读本说明书时将理解的。
继续参照图像3A-3C,在一些实施例中,第一表现310的每个像素312与S个部分304的一个部分相对应,不仅仅是位置对应,还有特征对应。例如,在一种方法中,生成第一表现310可以附加地包括,通过计算部分304中每个像素306的个别密度值iP的平均值,确定特有的部分密度值iS。然后,第一表现310中的每个像素312被分配给一个密度值,其等于对数字图像300的对应部分304计算出的平均密度值iS。用这种方法,第一表现310显示出数字图像300中描绘的较少颗粒、归一化的特征表现。
当然,包括第一表现310的像素312可以用任何特征值或特征值的组合表示而不脱离本公开的分类方法的范围。进一步地,特征值可以利用任何合适的方法计算和/或确定,例如通过随机选择值的分布中的特征值,通过统计方法或测量,例如平均值、值的扩展、最小值、最大值、值的标准偏差、值的方差,或通过技术人员阅读本说明书将已知的任何其他方法。
在操作506中,基于第一表现生成第一特征矢量。
第一特征矢量和/或参考特征矩阵可以包括多个特征矢量,其中,每个特征矢量与对应的对象类别的特征相对应,例如特征最小值、最大值、平均值等、特殊位置(像素或部分)的一个或多个颜色通道中的亮度、在特殊位置存在特殊符号或其他参考对象、尺寸、纵横比、像素密度(尤其是黑色像素密度,并且任何其他颜色通道的像素密度)等。
如本领域技术人员在阅读本说明书时将理解的,适于包含在第一特征矢量和/或参考特征矩阵中的特征矢量包括任何类型,特征矢量的数目和/或长度。
在操作508中,第一特征矢量与多个参考特征矩阵进行比较。
比较操作508可以根据任何合适的向量矩阵比较执行。
因此,在这样的方法中,比较可以包括N维特征空间比较。在至少一种方法中,N大于50,但是当然,N是任何足够大的值,以保证将对象鲁棒地分类成单一、准确的对象类别,本领域技术人员在阅读本说明书时将领会到,该类别会根据许多因素而改变,例如对象的复杂性、对象类别间的相似性或不同性、对象类别的数目等。
就像此处理解的,“对象”包括图像中表现的任何有形的东西,并且其可以根据至少一个独一无二的对象特征或特点例如颜色、大小、尺寸、形状、纹理、亮度、密度、存在或不存在一个或多个或有代表性的标志或其他特征、一个或多个有代表性的标志或其他特征的位置、多个有代表性的标志或其他特征间的位置关系等进行描述,如本领域技术人员在阅读本说明书时将领会的。此外,对象包括任何表现在图像中的可触知的东西,其可以根据这种特征的至少一个独一无二的组合进行分类。例如,在多个实施例中,对象可以包括但决不限于人、动物、车辆、建筑物、界标、文档、家具、植物等,如本领域技术人员在阅读本说明书时将理解的。
例如,在一个实施例中,其中尝试分类数字图像中描绘的对象,仅仅作为小数目的对象类别(例如,3-5个对象类别)中的一个,每个对象类别的特点是很大数目的完全地区别特征或特征矢量(例如,每个对象类别与特征为非常不同的大小、形状、颜色简档和/或颜色方案的一个或多个对象相对应,并且容易区别的参考符号位于每个对象类别上的独一无二的位置等),N的相对较低的值可以足够大以保证鲁棒的分类。
另一方面,尝试分类数字图像中描绘的对象,作为大数目的对象类别(例如,30个或更多的对象类别)中的一个,每个对象类别的特点是很大数目的类似的特征或特征矢量,以及仅仅少数的区别特征或特征矢量,N的相对较高的值是更好的,以保证鲁棒的分类。类似地,N值被优选地选择或确定,使得分类不仅是鲁棒的,而且还是计算高效的,即,一个或多个分类处理仅向被用以执行分类算法的一个或多个设备或系统引入最小的处理费用。
实现分类鲁棒性和处理费用之间想要的平衡的N值依赖于许多因素,例如上面描述的以及其他本领域技术人员在阅读本说明书时将领会的。而且,确定合适的N值以实现想要的平衡,可以利用任何已知的方法或技术人员在阅读本公开时理解的其等同方法完成。
在具体的实现方法中,根据国家指示用于分类驾驶证以及将驾驶证与无数其他文档类型分开,625维的比较是确定的,其向利用当代移动设备进行的处理提供了更好地鲁棒的分类,而没有引起不令人满意的高费用。
在操作510中,数字图像中描绘的对象作为至少部分基于比较操作508的特定对象类别的一员被分类。更具体地,比较操作508可以包括评价每个特征矢量和/或特征矩阵的参考清单中的每个特征矢量,或可替代地,对属于特别对象类别的对象评价多个特征矩阵,以及识别将特征矢量和/或特征矩阵的一个参考清单中的特征矢量与其他参考特征矩阵中的特征矢量分开的N维特征空间中的超平面。用这种方法,分类算法限定了对象类别间具体的超平面边界,以及基于特征矢量与特定对象类别的相似性和/或与特征矢量和/或特征矩阵轮廓的其他参考清单的不同性将未知的对象分配到特定对象类别中。
在这样的特征空间辨别的最简单的例子中,设想一个二维特征空间,其一个特征沿纵轴划分,并且另一个特征沿横轴划分,属于一个特定类别的对象的特征可以是具有在特征空间的右下角部分中聚类的值分布的特征矢量的特点,而对象的另一个类别的特征可以是展示在特征空间的左上角部分中聚类的值分布的特征矢量的特点,并且分类算法可以通过识别每个将特征空间分成两个类别—“左上角”和“右下角”的聚类之间的线来识别二者间的不同。当然,随着特征空间中考虑的维度数目增加,分类的复杂性增长很快,而且为分类的鲁棒性提供了重大改进,如本领域技术人员在阅读本说明书时将领会的。
附加的处理过程
在一些方法中,根据现在公开的方法的实施例,分类可以包括一个或多个附加的和/或可替代的特征和/或操作,例如下面描述的。
在一个实施例中,例如上面描述的分类可以附加地和/或可替代地包括,基于现在公开的分类方法中的比较操作(例如,如方法500的操作508中执行的),将置信值分配到多个假定的对象类别中,系统和/或计算程序产品可以附加地和/或可替代地确定移动设备的位置,接收指示移动设备位置的位置信息等,并且基于确定的位置,可以调节与特别位置对应的分类结果的置信值。例如,如果基于GPS信号确定移动设备位于特别州中(例如,马里兰),则在分类期间,可以调节对应于特别州(例如,马里兰驾驶证、马里兰机动车所有权/登记部门的表格、马里兰交通违章罚单等,如本领域技术人员在阅读本说明书时将理解的)的任何对象类别的置信值。
置信值可以用任何合适的方法调节,例如增加与特别位置对应的任何对象类别的置信值,减小与特别位置不对应的任何对象类别的置信值,基于与特别位置的对应/不对应正常化一个或多个置信值等,如技术人员在阅读本公开书时将理解的。
移动设备的位置可以利用任何已知的方法,以及利用移动设备的硬件组件或与移动设备通信的许多其他设备,例如一个或多个卫星、无线通信网、服务器等确定,如本领域技术人员在阅读本说明书时将理解的。
例如,可以整个或部分基于一个或多个全球定位系统(GPS)信号、与无线通信网的连接、已知位置的数据库(例如,联系人数据库、与导航工具联系的数据库,例如谷歌地图等)、社交媒体工具(例如,“登记进入”特征,例如通过脸书,谷歌Plus,Yelp等提供的特征)、IP地址等确定移动设备的位置,如本领域技术人员在阅读本说明书时将理解的。
在更多的实施例中,分类附加地和/或可替代地包括,向移动设备的显示器输出特定对象类别的指示;并且响应于输出指示,通过移动设备的显示器接收用户输入。虽然用户输入可以是任何已知的类型并且涉及任何此处描述的特征和/或操作,但是优选地,用户输入涉及确认、取消或修改特定对象类别,其通过分类算法将对象分配到此类别。
指示可以用任何合适的方法输出到显示器,例如通过推送通知、文本信息、移动设备的显示器上的显示窗口、电子邮件等,如本领域技术人员将理解的。而且,用户输入可以采取任何形式并且用任何已知的方法接收,例如检测用户敲击或按压移动设备显示器的某部分(例如,通过检测电阻、触屏设备的电容的变化,通过检查用户与一个或多个移动设备的按钮或开关的互动等)。
在一个实施例中,分类进一步包括,至少部分基于特定对象类别,确定经分类的对象的一个或多个对象特征。因此,分类可以包括利用任何合适的机制或方法确定这样的对象特征,例如接收对象类别识别码并且利用对象类别识别码作为问题和/或在对象特征数据库中进行查找,对象特征数据库根据对象类别以及键控的、经散列的、编入索引的对象类别识别码组织。
本公开范围内的对象特征可以包括能够在数字图像中识别的任何特征,并且优选地,能够用数字形式(标量、矢量中的一个,或其他形式)表示的任何特征,例如包含一个或多个参考对象的子区域位置(尤其是在一个或多个对象方位状态中,例如地形、肖像等)、对象颜色简档、或颜色方案、对象子区域颜色简档或颜色方案、文本位置等,如本领域技术人员在阅读本说明书时将理解的。
根据另一个在范围上与本公开相当的有创造性的实施例,如图6所示,图6中示出了方法600。方法600可以在任何想要的环境中执行,并且可以包括图1-4D中描述的实施例和/或方法。当然,与图6中示出的那些差不多的操作可以用与方法600一致的方法执行,如本领域技术人员在阅读本说明书时将领会的。
在操作602中,基于移动设备捕获的数字图像生成第一特征矢量。
在操作604中,将第一特征矢量与多个参考特征矩阵进行比较。
在操作606中,数字图像中描述的对象作为特定对象类别的成员至少部分基于比较(例如,在操作604中进行的比较)进行分类。
在操作608中,对象的一个或多个对象特征至少部分基于特定对象类别确定。
在操作610中,执行处理操作。处理操作包括执行一个或多个下列子处理:至少部分基于一个或多个对象特征检测数字图像中描绘的对象;至少部分基于一个或多个对象特征矩形化数字图像中描绘的对象;至少部分基于一个或多个对象特征裁剪数字图像;并且至少部分基于一个或多个对象特征二进制化数字对象。
如本领域技术人员在阅读文档分类的上述说明书时将进一步领会的,在多个实施例中,执行一个或多个附加的处理操作是有利的,例如上面描述的通过文档分类确定的关于操作610至少部分基于对象特征的子处理。
例如,在对数字图像中描述的对象分类后,例如文档,可能提炼其他处理参数、功能等和/或利用已知正确的经分类的对象属于哪个对象类别的信息,例如对象形状、大小、维度,感兴趣对象的区域位置,例如描绘一个或多个符号、图案、文本等的区域,如本领域技术人员在阅读本说明书时将理解的。
关于基于分类执行页面检测,在一些方法中,为了改进对象检测能力,利用属于特定对象类别的对象的已知信息是有利的。例如,如本领域技术人员将领会的,将可能识别数字图像中对象的一组特征限制成一个或少数离散的、已知的特征,并且搜索那些一个或多个特征,可以具有较少的计算成本,和/或导致更高的置信度或更高质量的结果。
可以用于改进对象检测的典型特征可以包括特征,例如对象尺寸、对象形状、对象颜色、对象类别的一个或多个参考特征(例如,位于文档的已知位置的参考符号)。
在另一种方法中,通过帮助对象检测算法将描述一个对象的数字图像区域与描绘其他对象,图像背景、伪像等的数字图像区域区分开,可以基于一个或多个已知特征改进对象检测,如本领域技术人员在阅读本说明书时将理解的。例如,如果属于特定对象类别的对象已知展示了特定颜色简档或方案,尝试检测数字图像内的特定颜色简档或方案可能比检测从一个颜色简档或方案(例如,背景颜色简档或方案)到另一个颜色简档或方案(例如,对象颜色简档或主题)要更加简单和/或更加可靠,尤其是如果两个颜色简档或方案不具有明显相对的特征的特点。
关于基于分类执行矩形化,在一些方法中,为了改进对象矩形化的性能,利用关于对象属于特定对象类别的已知信息是有利的。例如并且本领域技术人员将领会的,基于一组决定性地表示了真正的对象构造的已知的对象特征,将对象的数字表现从天然的外貌变换成真正的构造,而不是尝试从自然的外貌估计真正的对象构造并且将自然的外貌投影到估计的对象构造上,可以具有较低的计算成本和/或可以导致更高的置信度或更高质量的结果。
在一种方法中,分类可以识别对象的已知的尺寸,并且基于这些已知的尺寸可以将数字对象矩形化(例如,以通过移除利用移动设备的照相机而不是传统平板扫描仪、进纸扫描仪或其他类似的多功能外围设备(MFP)捕获图像的过程中引入的投影效果),将数字图像中对象的变形的表现变换成不变形的表现。
关于基于分类进行裁剪,与上面讨论的关于矩形化的原则类似,在一些方法中,利用关于对象属于特定对象类别的已知信息,对改进描述对象的数字图像的裁剪是有利的,这样所有经裁剪的图像的所有或大部分描述了对象并且没描绘图像背景(或其他图像中描绘的对象、伪像等)。
作为一个简单的例子,根据对象类别确定对象的已知的大小、维度、配置等,并且利用这个信息从没有描述对象的图像区域识别描述对象的图像区域,并且限制对象周围的裁剪线以移除没有描绘对象的图像区域,是有利的。
关于基于分类执行二值化,现在公开的分类算法具有若干对移动图像处理有用的改进。这种改进的若干示例性实施例现在将在图4A-4D中描述。
例如,二值化算法一般地将多色调的数字图像(例如,灰度级、颜色或任何其他图像,例如展示了多于两个色调的图像400)变换成二值化图像,即仅展示两个色调(典型地,白色和黑色)的图像。本领域技术人员将领会,试图二值化描述对象的数字图像,其区域展示了两个或更多不同的颜色简档和/或颜色方案(例如,描绘彩色图片402的区域与描绘黑/白文本区域404的区域对比,彩色文本区域406,符号408,例如参考对象、水印等,对象背景区域410等),会产生不成功或不能令人满意的结果。
根据一种说明,这些困难可能至少部分是由于颜色简档、方案等间的不同,其将反向影响单向二值化变换。因此,提供区分具有完全不同颜色方案或简档的每个区域的能力,并且限制每个分离的二值化参数,可以大大改进作为结果的整个双调图像的质量,特别是关于每个各自区域中变换的质量。
根据图4A-4B中示出的一个示例性实施例,改进的二值化可以包括,确定对象类别颜色简档和/或方案(例如,确定对象背景区域410的颜色简档和/或方案);基于对象类别颜色简档和/或颜色方案调节一个或多个二值化参数;并且利用一个或多个经调节的二值化参数对数字图像设置阈值。
如本领域技术人员在阅读本说明书时可以领会的,二值化参数可以包括任何合适的二值化过程的任何参数,并且二值化参数可以根据任何合适的方法进行调节。例如,关于基于对象类别颜色简档和/或颜色方案调节二值化参数,二值化参数可以调节为依照对象类别颜色简档/方案(例如强调不够红色调等相对饱和的对象类别颜色简档/方案的红色通道)过于强调和/或强调不够一个或多个颜色通道、强度等的贡献。
类似地,在其他实施例中,例如尤其是在图4B-4D中示出的,改进的二值化可以包括,确定对象类别掩膜,将对象类别掩膜应用于数字图像,并且基于对象类别掩膜对数字图像的子区域设置阈值。在对象类别掩膜为属于该类的对象提供关于感兴趣的特征的特别区域位置的信息(例如,描述彩色图片402的区域,描述黑/白文本区域404、彩色文本区域406的区域,描述符号408的符号区域,例如参考对象、水印等,对象背景区域410等)并且使得可以从一个或多个二值化操作中选择这种区域的包含物和/或排除物的条件下,对象类别掩膜可以是任何类型的掩膜。
例如,如图4B所示,改进的二值化包括,确定识别区域(例如紧接上面讨论)的对象类别掩膜420,并且将对象类别掩膜420用于将所有数字图像400从二值化中排除,除了感兴趣的单个区域,例如对象背景区域410。可替代地,整个数字图像可以被遮盖,并且感兴趣的区域例如对象背景区域410随后被透明遮盖,以用于二值化过程。而且,无论怎样,现在关于图4B中描述的遮盖功能可以与上面描述的示例性的颜色简档和/或颜色方案信息功能结合在一起,例如通过获得对象类别掩膜和对象颜色简档和/或颜色方案,除了对象背景区域410以外将对象类别掩膜应用于从二值化中排除所有的数字对象,基于对象背景区域颜色简档和/或颜色方案调节一个或多个二值化参数,并且利用经调节的二值化参数为对象背景区域410设置阈值。
延伸图4B中示出的原理,感兴趣的多个区域可以利用对象类别掩膜420进行透明遮盖和/或遮盖,以在设计为生成高质量的双调图像的分层的方法中可选择地为二值化指定区域和/或参数。例如,在应用对象类别掩膜420之后,如图4C所示,图4C中的多个文本区域404、406可以为二值化保留(可能地,利用经调节的参数),例如,在一些方法中,用于从二值化中排除所有非文本区域。
类似地,仅简单地从二值化中排除图像的一部分是有利的,无论是否调节任何参数。例如,关于图4D,利用对象类别掩膜420遮盖数字图像400的唯一区域是想要的,例如描述彩色图片402的区域。然后,特别地在方法中,其中数字图像400的余下部分的特点是单个颜色简档和/或颜色方案,或小数目的(即不大于3)本质上类似的颜色简档和/或颜色方案,可以进行二值化以对数字图像400余下的部分进行分类。随后,被遮盖的唯一区域可以可选择地恢复给数字图像400,其结果是受到二值化的数字图像400的所有区域内改进的双调图像质量加上未受到二值化的图像区域内未受到打扰的彩色图片402。
仍然在更多的实施例中,至少部分基于分类和/或分类结果执行光学字符识别(OCR)是有利的。特别地,确定关于属于特别类别的对象中描绘的文字的位置、形式和/或内容的信息,并且基于期望的文本位置、形式和/或内容修改通过传统的OCR方法估计的预测是有利的。例如,在一个实施例中,其中OCR预测估计对应于文档的“日期”地方的区域读取“Jan,14,201l”,现在公开的算法可以确定此文本期望的形式采用形式,例如“[缩写月份][.][##][,][####]”。该算法可以改正错误的OCR预测,例如,将“Jan”后面的逗号转换成句号和/或将“201l”末尾的字母“l”转换成数字字符。类似地,现在公开的算法可以确定相同文本的期望形式用“[##]/[##]/[####]”代替,并且将“Jan”转换成“01”,并且将每套逗号间隔字符“,“转换成斜线“/”,以改正错误的OCR预测。
当然,改进和/或校正OCR预测的其他方法,技术人员在阅读这些说明时将领会,也完全落入本公开的范围。
数据提取
除了基于对象类别执行改进的图像处理以外,用户希望收集关于一个或多个数字图像中描述的对象的信息。在一些实施例中,为了从数字图像中提取数据,促使对象分类是有利的。如下面进一步详述的,目前公开的方法、系统和计算机程序产品于是包括基于对象类别从数字图像中提取数据的功能。
此处讨论的数据提取实施例可以利用一个或多个支持向量机(SVM)技术、示例学习(LEB)技术、特征矢量、特征矩阵、文档验证技术、数据集组织技术、直推式分类技术、最大熵判别(MED)技术等,如本领域技术人员在阅读本说明书时将理解的。
现在参考图7,示出了根据一个实施例的方法700。该方法可以在任何合适的环境中和/或利用任何合适的装置执行,包括那些在图1-4D中、在多种方法中描述的。
在一种方法中,方法700包括操作702,其接收移动设备捕获的数字图像。在一些实施例中,数字图像接收和/或存储在此移动设备和/或另一个移动设备的存储器中。而且,可以从多种渠道接收数字图像,例如包括摄像头、存储器、无线电接收机、天线等的移动设备的组件,如本领域技术人员在阅读本说明书时将理解的。在其他方法中,可以从远程设备接收数字图像,例如远程服务器、另一个移动设备、具有综合数据传输能力的照相机、传真件或其他多功能打印机等。数字图像可以可选择地通过在线服务、数据库等接收,如技术人员在阅读本公开时将理解的。
方法700进一步包括利用移动设备的处理器执行操作704-710,其在下面被进一步详细描述,如本领域技术人员在阅读本说明书将理解的,方法700的多个实施例可以包含利用移动设备的处理器、云计算环境等以及它们的任何组合执行任何操作704-710。
在操作704中,移动设备的处理器用于确定数字图像中描绘的对象是否属于多个对象类别中的特定对象类别。确定描绘的对象是否属于特定对象类别可以利用此处描述的任何方法,特别是关于上面讨论的关于图5和6的对象分类方法实现。
在操作706中,移动设备的处理器用于至少部分基于特定对象类别确定对象的一个或多个对象特征。在一个实施例中,可以利用特征矢量、特征矢量清单、特征矩阵和/或提取模型确定对象特征。这个确定响应于确定该对象属于特定对象类别而进行。如此处讨论的,对象特征包括任何独一无二的特点或足以识别多个可能对象中的对象的特点的独一无二的组合或任何独一无二的特点或足以识别属于多个对象类别中的特定对象类别的对象的特点的独一无二的组合。例如,在多种方法中,对象特征可以包括对象颜色、大小、维度、形状、纹理、亮度、密度、一个或多个有代表性的标志或其他特征的存在或不存在、一个或多个有代表性的或其他特征的位置、多个有代表性的标志或其他特征间的位置关系等,如本领域技术人员在阅读本说明书时将理解的。
在优选的实施例中,一个或多个对象特征包括一个或多个对象的感兴趣区域。如此处理解的,感兴趣区域可以包括描绘、表示、包含等用户想要提取信息的对象的任何部分。因此,在一些方法中,一个或多个感兴趣区域包括一个或多个文本字符、符号、图片、图像等。
例如,在一个例子中,用户想要进行信用核查,申请贷款或租借等。为了进行想要的行动,用户需要收集数据,例如申请人姓名、地址、社会安全号码、生日等。移动设备可以接收一个或多个识别文档,例如物业账单、驾驶证、社会安全卡、护照、支付票根等的数字图像,其包含/描绘了关于表现信用核查、贷款或租借申请等的信息。在这种情况下,感兴趣区域可以包括描述了相关数据,例如申请人姓名、地址、社会安全号码、生日等的识别文档的任何部分。
在另一个实施例中,用户希望进行电子资金转账、建立重复账单付款、参与财务交易等。在这种情况中,用户需要收集数据,例如账户号、汇款路径号码、收款人姓名、地址、开账单人的姓名和/或地址、签名、支付账户、支付日期和/或明细表等,如本领域技术人员在阅读本说明书时将理解的。移动设备可以接收一个或多个财务文档,例如账单、汇款票、支票、信用卡、驾驶证、社会安全卡、护照、支付票根等的数字图像,其包含/描绘了关于表现信用核查、贷款或租借申请等的信息。在这种情况下,感兴趣区域可以包括描绘了相关数据,例如账户号、汇款路径号码、收款人姓名、地址、开账单人的姓名和/或地址、签名、支付账户、支付日期和/或明细表等的识别文档的任何部分。
仍然在另一个实施例中,用户想要证实申请机动车登记或新的银行账户等的个人的身份。申请人提供了驾驶证作为身份证明。用户可以捕获驾驶证的图像,并且从包括文本信息例如姓名、地址、驾驶证号码等的图像中提取数据。用户也可以从图像中提取驾驶证的图片,并且将提取的图片和驾驶证参考图片进行比较。参考图片可以用多种方法从由机动车管理办公室、银行、政府机构维持的数据库等维持的本地数据库中取出。可替代地,参考图片可以是事先从证件持有人处得到的图片,例如在先前需要身份证明的交易中得到的图片。在一个实施例中,根据比较结果,可以提交给用户提取的图片是否与参考图片相匹配的指示以及可选择的置信分数。
操作708包括利用移动设备的处理器至少部分基于一个或多个对象特征建立或选择提取模型。在一个实施例中,对象类别确定提取模型。如此处理解的,提取模型涵盖可以用于从其中提取数据的数字图像的任何模型。在优选的方法中,提取模型包括指令和/或参数集,用于从数字图像中收集数据。在特定优选的实施例中,提取模型利用特征矢量和/或特征矢量清单和/或特征矩阵生成和/或修改指令,以从数字图像中提取数据。
例如,在一种方法中,此处描述的示范性数据提取过程配置为基于对象和/或其对象特征(可以具体化为一个或多个特征矢量)从多种形式的身份证明中提取数据。说明性的身份证明的形式可以包括例如多个驾驶员的证件形式。而且,说明性的身份证明(ID)可以根据一个或多个不同标准进行分类,例如与ID对应的颁发实体(州、管理机构等)。可以基于确定谈论的ID属于一个预定ID类型(例如,谈论的ID是马里兰驾驶证)来选择提取模型。优选地,选择的提取模型利用来自对应的类型/类别中的多个原型建立。
在一个示范性的方法中,基于用户输入识别感兴趣区域,操作708可以包括检验一个或多个存在的对象类别规定,以判定确定的对象特征是否限定了模式,该模式匹配、对应或类似于限定了属于存在对象类别的对象的特征的模式。当确定模式匹配、对应或类似时,操作708可以包括,选择为匹配的对象类别限定的存在的提取模型,并且利用该提取模型从数字图像中提取数据。存在的对象类别定义和/或提取模型可以从移动设备的存储器、与移动设备通信的存储器、服务器、本地或在线数据库等中取出,如本领域技术人员在阅读本说明书时将理解的。
可替代地,操作708可以包括分析图像及其特点,以限定描述图像特点的特征矢量。这个新的特征矢量可以用于修改描述了具有感兴趣区域的匹配、对应或类似的模式的存在对象类别的特征矢量、特征矢量清单和/或特征矩阵。例如,建立提取模型可以包括将对象特征映射到特征矢量、特征矢量清单和/或特征矩阵,其已经经由上面描述的新的特征矢量进行了修改。作为结果的提取模型配置为从描述属于存在对象类别的对象的图像中提取数据。
附加地和/或可替代地,在一些方法中,操作708可以包括基于对象特征建立新的提取模型。更加特别地,利用移动设备的处理器,分析图像以及利用其特点限定特征矢量和/或描述图像特点的特征矢量清单。例如,一个或多个特征矢量可以与图像特点例如一个或多个颜色通道中的像素亮度和/或密度、一个或多个颜色通道中的一个或多个邻近像素的亮度和/或密度、图像或图像的子区域中的像素的位置关系等相对应。图像分析以及特征矢量定义可以用任何合适的方式执行,并且优选地,可以大致作为上面描述的关于“文档分类”和“附加处理”执行。利用特征矢量,操作708可以包括建立与感兴趣区域中描述的图像特点相对应的、配置为提取数据的提取模型。
仍然在更过的实施例中,建立提取模型可以包括映射特征矢量、特征矢量清单和/或特征矩阵,以及将一个或多个元数据标签与每个经映射的对象特征建立联系。在一种方法中,将特征矢量、特征矢量清单和/或特征矩阵映射到对象特征包括处理特征矢量,以由此确定图像的相关位置信息、颜色轮廓信息等。
元数据标签可以包括任何类型的信息并且可以与任何类型的对象特征相关联。例如,在一些实施例中,元数据标签可以根据描述的数据类型例如文本、字母数字字符、符号、数字字符、图片、背景、前景、领域、形状、尺寸、颜色轮廓或主题等识别对象特征,如本领域技术人员在阅读本说明书时将理解的。
如果例如发票,元数据标签可以包括文本和/或相对的或绝对的位置信息。例如,元数据标签可以识别文本为在发票的右下角包含绝对位置的发票号。而且,另一个元数据标签可以识别文本为发票上直接位于发票号下面的包含相对位置的发票日期等。
附加地和/或可替代地,元数据标签可以根据后续处理操作的相关性识别对象特征,例如识别特定数据形式或信息内容。例如,元数据标签可以包括个人信息标签,例如“姓名”、“地址”、“社会安全号码”、“驾驶证号码”、“生日”、“信用分数”、“账户号”、“汇款路径号码”、“图片”等,如本领域技术人员在阅读本说明书时将理解的。
在操作710中,移动设备的处理器用于至少部分基于提取模型从数字图像中提取数据。尤其是,提取数据不利用光学字符识别(OCR)技术。然而,就像下面进一步详细描述的,光学字符识别技术可以在数据提取环境以外使用,就像操作710中执行的一样。
现在参考图8,示出了根据一个实施例的方法800。该方法可以在任何合适的环境中和/或利用任何合适的一个或多个机制执行,在多种方法中,包括在图1-4D中描绘的那些。在一种意图中,方法800可以将数据提取过程的实现方式考虑为此处描述的那样;该实现方式是可以吸引用户的移动应用的形式。
在一种方法中,方法800包括操作802,其接收移动设备捕获的数字图像。在一些实施例中,数字图像可以接收和/或存储在该移动设备或另一个移动设备的存储器中。而且,数字图像可以从多种源头捕获,例如,包括摄像头、存储器、无线电接收机、天线等的移动设备的元件,如本领域技术人员在阅读本说明书时将理解的。在其他方法中,数字图像可以从远程设备接收,例如远程服务器、另一个移动设备、具有一体化数据传输能力的照相机、传真机或其他多功能打印机等。数字图像可以可选择性地通过在线服务、数据库等接收,如技术人员在阅读本公开时将理解的。
方法800进一步包括利用一个或多个移动设备的处理器、服务器的处理器、远程云计算环境的一个或多个处理器等,其在下面被进一步详细描述。
在操作804中,移动设备的处理器用于确定数字图像中描绘的对象是否属于多个对象类别中的特定对象类别。确定对象是否属于特定对象类别可以根据任何合适的方法执行,并且优选地用与上面关于文档分类的说明相当的方式执行,例如,在多个实施例中,如关于图5&6的详细解释。
在操作806中,再次利用移动设备的处理器,将数字图像显示在移动设备的显示器上。响应于确定该对象不属于多个对象类别中的任何特定对象类别显示该数字图像。附加地和/或可替代地,响应于确定该对象属于多个对象类别中的特定对象类别可以显示该数字图像。
在移动设备的显示器上显示该数字图像使得进一步的动作有助于利用处理器从数字图像中有效并且鲁棒地提取数据。例如,在多种方法中,数字图像可以显示在移动设备的显示器上,以提供关于数字图像的反馈,例如图像质量、对象分类(或缺少对象分类)、提取的数据等。类似地,可以显示数字图像以帮助接收来自用户的附加输入,例如,关于分类和/或提取结果的用户反馈;关联于或被关联于数字图像的元数据,其中描绘了对象,和/或确定描述的对象属于的特定对象类别等;执行附加处理、提取或数字图像的其他操纵的指令等,如本领域技术人员在阅读本说明书时将理解的。
操作808包括利用移动设备的处理器经由移动设备的显示器接收用户输入。更具体地,用户输入识别一个或多个对象中的感兴趣区域。在包括操作808的方法800的一个实施例中,识别的文档的图像可以通过移动设备的显示器呈现给用户。基于对象类别识别,可以促使用户确认、取消和/或修改感兴趣区域。在多个实施例中,基于分类,可以附加地和/或可替代地促使用户限定、确认、取消和/或修改未被识别的一个或多个感兴趣区域。
在操作810中,至少部分基于在操作808中接收的用户输入建立和/或选择提取模型。在一种示范性方法中,基于识别一个或多个感兴趣区域的用户输入,操作810可以包括检验一个或多个存在的对象类别定义,以判定识别的感兴趣区域是否限定了匹配、对应或类似于限定了属于存在的对象类别的对象的感兴趣区域的模式的模式。当确定模式匹配、对应或类似时,操作810可以包括,选择针对匹配的对象类别限定的现有的提取模型,并且利用该提取模型从数字图像中提取数据。可替代地,操作810可以包括分析图像及其特点,以限定描述了图像特点的特征矢量。这个新的特征矢量可以用于修改描述了具有感兴趣区域的匹配、对应或类似模式的存在对象类别的特征矢量清单和/或特征矩阵。作为结果的提取模型配置为从描述属于存在对象类别的对象的图像中提取数据,包括原始图像数据,与文本、图像、图片、符号等对应的数据,如本领域技术人员在阅读本说明书时将理解的。
附加地和/或可替代地,在一些方法中,操作810可以包括基于限定感兴趣区域的用户输入建立新的提取模型。更加特别地,利用移动设备的处理器,分析图像并且其特点用于限定描述了图像特点的特征矢量。例如,特征矢量可以与图像特点例如一个或多个颜色通道中的像素亮度和/或强度、一个或多个颜色通道中的一个或多个邻近像素的亮度和/或强度、图像或图像的子区域中的像素的位置关系、可能描绘文本的文档区域、可能描述图片的文档区域等相对应。图像分析以及特征矢量定义可以用任何合适的方法执行,并且优选地可以大体上按照上面描述的关于“文档分类”和“附加操作”执行。利用特征矢量,操作810可以包括建立配置为提取与感兴趣区域中描述的图像特点相对应的数据的提取模型。
在操作812中,至少部分基于提取模型从图像中提取数据。尤其是,提取过程没有利用任何OCR技术。而是,分别基于描述了对象或对象类别的特征矢量的特征矢量清单和/或特征矩阵限定提取模型。
在一个说明性的实施例中,经由适于帮助执行此处描述的数据分类和/或提取的移动应用程序,用户可以执行分类操作,以尝试对数字图像中描述的对象进行分类。取决于分类算法是否被训练成识别对象属于特定对象类别,该算法可以或不可以成功地对数字图像中描述的特定对象进行分类。在完成一次或多次分类尝试后,识别文档的图像可以经由移动设备的显示器呈现给用户。可以促使用户确认、取消和/或修改基于对象类别识别的感兴趣区域。附加地和/或可替代地可以促使用户限定基于分类未被识别的一个或多个感兴趣区域。
类似地,如果分类尝试未能识别对象分类,可以促使用户限定新的对象类别,并且进一步通过与移动设备的显示器相互作用限定属于新的对象类别的对象中的一个或多个感兴趣区域。例如,通过移动设备的显示器提供反馈用户可以围绕感兴趣区域绘制一个或多个界限盒。然后用户可以知道移动应用程序从数字图像中提取数据,并且应用程序至少部分基于用户限定的感兴趣区域可选择地利用移动设备的处理器、服务器等建立和/或选择提取模型并且全部或部分基于提取模型从数字图像中提取数据。
在多种方法中,方法700和/或方法800可选择地包括如下面描述的一个或多个附加的功能、特征和/或操作。
在一种方法中,方法700和/或方法800可以进一步包括训练提取模型。训练提取模型可以利用任何已知的方法、模型、机制等完成,如本领域技术人员在阅读本说明书时将理解的。在优选的实施例中,训练包括示例学习(LBE)过程。具体地,对于特定对象类别,多个有代表性的对象可以具有或不具有相关联的元数据标签。至少部分基于提供的有代表性的对象的对象特征,提取模型可以训练成修改并且因此改进从属于对象类别的对象中提取数据的鲁棒性。
本领域技术人员可以领会,在一些方法中,提取模型训练可以特定设计为改进提取模型的能力,以精确地并且准确地从对应于为其建立提取模型的特定对象类别的对象中提取数据。通过提供一组特点为基本完全相同的对象特征的对象,例如,相同对象类型例如标准化形式、文档类型、相同对象的多个图像等的多个复制品,这样的训练可以通过训练模型来改进提取精确度和/或准确度。利用这个训练集,提取模型可以加强特征矢量清单和/或特征矩阵表示类别中的对象,并且改进从属于该类别的对象中提取数据的鲁棒性。
可替代地,训练可以特定地设计为改进提取模型从特点为变化的对象特征的对象类别内或跨越若干对象类别的对象集中提取数据的能力。这样的训练包括提供给对象集多种特点,以改进提取模型通常从多种对象类别或若干对象类别中提取数据的能力。
在更多的方法中,可以利用移动设备的处理器训练提取模型。而且,经训练的提取模型可以存储和/或输出到存储器、缓冲器、另一个过程或处理器等中。经训练的提取模型优选地可以存储和/或输出到移动设备的存储器、移动设备的处理器或另一个利用移动设备的处理器执行的过程中。在多个实施例中,经训练的提取模型可以被标签和/或取回以为移动设备或另一个移动设备接下来使用。类似地,提取模型可以存储和/或送至另一个设备的存储器和/或处理器,例如另一个移动设备、服务器、云计算环境等。
优选地,此处描述的训练利用包括多个对象的训练集,并且更加优选地训练集包括不少于5个对象。
除了训练提取模型以外,方法700的一些实施例可以附加地和/或可替代地包括在一个或多个数字图像的区域执行至少一个OCR技术。一个或多个执行了OCR的区域可以与一个或多个对象特征(例如,利用对象类别定义和/或提取模型识别的对象特征)和/或其他对象特征(例如之前利用对象类别定义和/或提取模型未能识别的特征)相对应。
方法700和/或方法800的仍然更多的实施例可以进一步包括检测对象(例如文档)中一个或多个文本行。在一些方法中,检测文本的行包括将数字图像投影到单个维度。在示范性的方法中,投影可以沿着与文本行方向的主轴垂直的维度进行,这样文本行之间的文本行和面积能够根据暗区密度(例如黑色像素密度、计数等)容易区分。因此,如果文档的方位为竖向,检测文本包括沿着垂直维度(y轴)投影,并且如果文档为横向,检测文本包括沿着水平维度(x轴)投影。在其他方法中,投影也可以用于确定和/或操纵文档的方向(竖向、横向或任何其他倾斜角度)。例如,在配置为分类并提取与标准ID(例如驾驶证)对应的文档图像的数据的示范性实施例中,可以利用检测文本行等从多个可能的方位(例如,在一种方法中,0°,90°,180°或270°旋转角)中确定最有可能的文本方向。
检测文本行可以附加地包括沿着投影确定亮区和暗区分布;确定多个暗像素密度。而且,每个暗像素密度可以与沿着投影的位置相对应。当确定多个暗像素密度时,可以根据对应的暗像素密度是否比可能的文本行阈值大来确定可能的文本行,可能的文本行阈值可以由用户预定义、由实验方法确定、自动确定等。在利用了可能的文本行阈值的实施例中,检测文本行进一步包括,当确定对应的暗像素密度比可能的文本行阈值大时,指定每个位置作为文本行。
在另一个实施例中,检测文本行可以包括检测数字图像中多个非背景成分的互连组分,并且基于对个互连组分确定多个可能的字符。可能的字符可以是数字图像的区域,其特点是在给定方向上预定数目的亮到暗转换,例如,就像在数字图像描绘了大写字母“E”的小区域会遇到的,在垂直方向的3个亮到暗转换,每个亮到暗的转换与从文档背景(亮)到字母“E”的一道水平笔画的转换相对应。当然,可以利用其他数目的亮到暗的转换,例如,字母“o”的两个垂直和/或水平的亮到暗的转换,字母“l”的一个垂直的亮到暗的转换等,如本领域技术人员在阅读本说明书时将理解的。当确定可能的字符时,文本行可以通过识别具有多个邻近字符的图像区域确定,并且在一个实施例中可以根据多个邻近字符的文本基线确定文本行。
在一些方法中,基于沿着一个维度投影图像的结果确定和/或操纵图像方位是可能的。例如,如果投影生成了一个维度的暗像素高密度区域其中点缀着暗像素低密度区域的模型,则沿着与文本行方向的纵轴垂直的轴(即沿着处于“竖”向的文档的y轴投影,“竖”即文档沿着图像的x轴从左到右定向;或沿着处于“横”向的文档的x轴投影,“横”即文档沿着图像的y轴从上到下定向)进行投影是可能的。基于这个概率性的确定,可以基于投影结果可选择地旋转和/或重新定向图像。
本领域技术人员将领会到,基于暗像素密度沿着一个维度投影检测文本行对于颜色图像是特别具有挑战性的。例如,一些文档可以在颜色比背景相对较淡的区域描绘文本,在这种情况下暗像素密度将指示可能的文本行不存在,而不是存在。在那种情况下,当确定该位置的特点是暗像素密度比暗像素密度阈值小时,检测文本行可以包括指定沿投影的任何位置附近的可能的文本行。
而且,文本可以呈现为多种颜色,并且仅仅暗像素密度可以是不足以由其识别可能的文本行的特征。为了解决这些挑战,检测彩色图像中的文本行优选地包括将数字图像的每个颜色通道投影到沿单一维度的单个通道。换句话说,颜色通道强度值(例如,0-255间的整数值)被转换成单一强度值。该转换可以根据任何合适的函数完成,并且在优选的实施例中,计算给定像素或像素集的每个颜色通道的强度的平均值,并且根据颜色通道强度值的平均值分配给该像素或像素集一个有代表性的强度值。
在另一个实施例中,数据提取可以包括将对象分类与包含感兴趣信息的一个或多个对象区域清单相关联,例如文档的矩形区域清单,其包含文本,或可以包含文本和期望文本的颜色。
在一个说明性例子中,经由移动设备的显示器将对象的图像呈现给用户。用户通过移动设备的显示器与图像进行交互,以及限定一个或多个感兴趣区域,例如表明了显示用户的姓名、地址、证件号等的区域。对大量图像用户可以重复处理,并且因此或者有意地或者作为透明处理的一部分提供训练图像。一旦限定了足够数目的训练例子(例如,对于小文档例如驾驶证,大约5个),训练算法可以自动或者由用户自由决定执行。训练的结果是提取模型可以用于自动提取相关位置并且随后呈现未知文档的矩形,全部不利用OCR技术。
在其他方法中,在根据上述方法提取数据后,OCR技术可以用于仅仅除了数据提取以外的目的。例如,OCR可以利用移动设备的处理器运行,并且仅仅对整个图像的小子集进行OCR。可替代地,OCR可以利用服务器的处理器运行。为了减少移动设备和服务器间的通信时间,仅仅利用OCR处理的一个或多个部分图像被传送给服务器。
在附加的实施例中,分类和/或提取结果可以呈现给用户确认,例如,分配的类别的确认、取消、修改等。例如,当不完全或全部利用自动处理连同区分标准例如此处限定的分类对象时,分类以及与分类相关的数字图像可以显示给用户(例如,在移动设备的显示器上),这样用户可以确认或取消分类。当取消分类时,用户可以手动限定数字图像中描绘的“合适的”对象分类。在优选的方法中,这个用户输入可以用于向一个或多个分类器提供的不间断的“训练”。当然,可以提供与此处描述的任何数目的操作有关的用户输入而不脱离本公开的范围。
在更加优选的实施例中,可以不需要用户输入而执行前述确认。例如,通过执行提取结果自动确认来减轻用户检验和/或校正提取结果的需求是可能的。一般地,为了确认提取值是否已知是正确的,这个技术包含参考外部系统或数据库。例如,如果提取了姓名和地址,在一些例子中,确认谈论的个人确实居住在确定的地址是可能的。
在更多的实施例中,这个确认原则延伸至分类。例如,如果提取正确,在一些方法中,推断分类也是正确的是合适的。这个推断依赖于仅仅有一种方法可以实现“正确的”提取结果(例如,值与参考数据源中的期望值相匹配,值与讨论的值的期望形式相匹配,值与期望的符号或其他值相关联等,如本领域技术人员在阅读本说明书时将理解的)。
当对落入本公开范围内的提取数据的主要方法进行了说明时,本领域技术人员应领会,此处描述的有创造性的观点可以等同地实现为系统和/或计算机程序产品。
例如,本说明书范围内的系统可以包括处理器以及处理器中和/或由处理器执行的逻辑,使得处理器执行此处描述的方法的步骤,例如方法700和800。
类似地,本说明书范围内的计算机程序产品可以包括其中体现了程序代码的计算机可读存储介质,程序代码可以由处理器读取/执行,使得处理器执行此处描述的方法的步骤,例如方法700和800。
在一种方法中,处理涉及:利用移动设备接收或捕获数字图像;并且,利用移动设备的处理器:确定数字图像中描绘的对象是否属于多个对象类别中的特定对象类别;至少部分响应于确定该对象属于特定对象类别,至少部分基于特定对象类别确定对象的一个或多个对象特征;至少部分基于一个或多个确定的对象特征建立或选择提取模型;并且利用提取模型从数字图像中提取数据,其中提取模型不包括光学字符识别(OCR)功能。
一个或多个对象类别包括对象的一个或多个感兴趣区域,并且优选地一个或多个感兴趣区域包括一个或多个文本字符。而且,建立提取模型,并且建立提取模型包括:将一个或多个特征矢量、特征矢量清单以及特征矩阵映射到一个或多个对象特征;并且将至少一个元数据标签与每个映射的对象特征相关联。仍然进一步地,训练提取模型,其中训练提取模型基于属于对象类别的至少一个附加对象的一个或多个(例如至少4个)附加对象特征进行。利用移动设备的处理器训练提取模型;并且随后储存和/或输出到存储器、另一个移动设备、服务器、数据库、日志文档、输出信号等。虽然提取模型不包括OCR,可以在应用提取模型之后执行OCR,例如通过在一个或多个数字图像区域执行OCR,与一个或多个对象特征和/或其他对象特征相对应。对象内的一个或多个文本行通过将数字图像投影到单一维度进行检测;沿着投影确定亮区和暗区分布;确定多个暗像素密度,每个暗像素密度与沿投影的位置相对应;确定每个暗像素密度是否比可能的文本行阈值大;当确定对应的暗像素密度比可能的文本行阈值大时,指定每个位置作为文本行。数字图像的每个颜色通道可以沿单一维度投影到单个通道。
在一种方法中,方法包括,利用移动设备接收或捕获数字图像;并且利用移动设备的处理器:确定数字图像中描绘的对象是否属于多个对象类别中的特定对象类别;当确定该对象不属于任何多个对象类别时,将数字图像显示在移动设备的显示器上;通过移动设备的显示器接收用户输入,用户输入识别对象中的一个或多个感兴趣区域;至少部分基于用户输入建立和/或选择提取模型;并且至少部分基于提取模型从数字图像中提取数据,其中提取不包括光学字符识别(OCR)。感兴趣区域包括一个或多个文本字符。方法包括,至少部分基于用户输入生成新的对象类别。提取模型配置为从属于新的对象类别的多个对象中提取数据。用户输入可选择地包括多个对象中的多个感兴趣区域。建立提取模型包括:将一个或多个特征矢量、特征矢量清单以及特征矩阵映射到一个或多个对象特征;并且将至少一个元数据标签与每个经映射的对象特征相关联。而且,方法包括:基于一个或多个(例如至少4个)附加对象和/或属于对象类别的至少一个附加对象的对象特征训练提取模型。方法涵盖,在与一个或多个对象特征和/或其他对象特征相对应的数字图像的一个或多个区域执行OCR。方法可以涉及:检测对象中的一个或多个文本行。检测可以包括:将数字图像投影到单一维度;沿着投影确定亮区和暗区分布;确定多个暗像素密度,每个暗像素密度与沿投影的位置相对应;确定每个暗像素密度是否比可能的文本行阈值大;当确定对应的暗像素密度比可能的文本行阈值大时,指定每个位置作为文本行。方法可以可选择地包括,将数字图像的每个颜色通道沿单一维度投影到单个通道。
在另一种方法中,计算机程序产品包括其中体现了程序代码的计算机可读存储介质,程序代码可以由处理器读取/执行,以接收移动设备捕获的数字图像;确定数字图像中描述的对象是否属于多个对象类别中的特定对象类别;当确定该对象属于特定对象类别时,至少部分基于特定对象类别确定对象的一个或多个对象特征;至少部分基于一个或多个对象特征建立或选择提取模型;并且至少部分基于提取模型从数字图像中提取数据。配置为提取数据的计算机可读程序代码不包括配置为利用光学字符识别(OCR)的计算机可读程序代码。
此处公开的有创造性的概念作为例子呈现,以说明多个说明性情境、实施例和/或实现方式中的无数个特征。应领会,普遍公开的观点应视为模块化的,并且可以以其任何组合、排列或综合实现。此外,本公开的特征、功能和观点的任何修改、变化或等价,本领域技术人员在阅读本说明书时将领会,也应该视为落入本公开的范围。
因此,本发明的一个实施例包括此处公开的所有特征,包括那些示出的以及连同图中描述的。其他实施例包括此处公开的特征的子集和/或连同任何图中示出和描述的。这样的特征或其子集,可以利用已知的技术以任何方式组合,其在本领域技术人员阅读本说明书后将变得显而易见。
虽然上面描述了多个实施例,但是应理解,它们仅作为例子介绍,并且不是限制。因此,本发明的实施例的宽度和范围不应该受到上面描述的任何示例性实施例的限制,但仅根据下面的权利要求和它们的等价物进行限制。

Claims (26)

1.一种方法,包括:
利用移动设备接收或捕获数字图像;
利用所述移动设备的处理器:
确定所述数字图像中描述的对象是否属于多个对象类别中的特定对象类别;
至少部分响应于确定所述对象属于所述特定对象类别,至少部分基于所述特定对象类别确定所述对象的一个或多个对象特征;
至少部分基于一个或多个确定的对象特征建立或选择提取模型;并且
利用提取模型从数字图像中提取数据。
2.根据权利要求1所述的方法,其中所述提取模型进一步包括:执行光学字符识别(OCR),其中所述OCR在所选择的所述数字图像的部分上执行,所述所选择的所述数字图像的部分不包括接收或捕获的图像的一个或多个部分。
3.根据权利要求1所述的方法,其中所述一个或多个所述对象特征包括所述对象的一个或多个感兴趣区域。
4.根据权利要求3所述的方法,其中所述一个或多个所述感兴趣区域包括一个或多个文本字符。
5.根据权利要求1所述的方法,其中建立所述提取模型,其中建立所述提取模型包括:
将一个或多个特征矢量、特征矢量清单以及特征矩阵映射到一个或多个所述对象特征;并且
将至少一个元数据标签与每个经映射的对象特征相关联。
6.根据权利要求1所述的方法,进一步包括:基于属于所述对象类别的至少一个附加对象的一个或多个附加对象特征训练提取模型。
7.根据权利要求6所述的方法,其中所述提取模型利用所述移动设备的所述处理器进行训练;并且进一步包括储存和/或输出所述经训练的提取模型。
8.根据权利要求7所述的方法,其中所述至少一个所述附加对象包括至少4个附加对象。
9.根据权利要求1所述的方法,进一步包括:在对应于一个或多个所述对象特征和/或其他对象特征的所述数字图像的一个或多个区域上执行OCR。
10.根据权利要求1所述的方法,进一步包括:检测所述对象中的一个或多个文本行。
11.根据权利要求10所述的方法,所述检测包括:
将所述数字图像投影到单一维度;沿着所述投影确定亮区和暗区分布;
确定多个暗像素密度,每个暗像素密度与沿所述投影的位置相对应;
确定每个暗像素密度是否比可能的文本行阈值大;
并且
当确定对应的暗像素密度比可能的所述文本行阈值大时,指定每个位置作为文本行。
12.根据权利要求11所述的方法,进一步包括:将所述数字图像的每个颜色通道沿所述单一维度投影到单个通道。
13.一种方法,包括:
利用移动设备接收或捕获数字图像;
利用所述移动设备的处理器:
确定所述数字图像中描绘的对象是否属于多个对象类别中的特定对象类别;
当确定所述对象不属于任何多个对象类别时,将所述数字图像显示在所述移动设备的显示器上;
经由所述移动设备的所述显示器接收用户输入,所述用户输入识别所述对象中的一个或多个感兴趣区域;
至少部分基于所述用户输入建立和/或选择提取模型;并且
至少部分基于所述提取模型从所述数字图像中提取数据。
14.根据权利要求13所述的方法,其中所述提取进一步包括执行光学字符识别(OCR),其中所述OCR在不包括接收或捕获的图像的一个或多个部分的所选择的所述数字图像的部分上执行。
15.根据权利要求13所述的方法,其中一个或多个所述感兴趣区域包括一个或多个文本字符。
16.根据权利要求13所述的方法,进一步包括至少部分基于所述用户输入生成新的对象类别。
17.根据权利要求16所述的方法,其中所述提取模型配置为从属于所述新的对象类别的多个对象中提取数据。
18.根据权利要求16所述的方法,其中所述用户输入包括指定多个对象中的多个感兴趣区域。
19.根据权利要求16所述的方法,其中建立所述提取模型包括:
将一个或多个特征矢量、特征矢量清单以及特征矩阵映射到一个或多个所述对象特征;并且
将至少一个元数据标签与每个经映射的对象特征相关联。
20.根据权利要求16所述的方法,进一步包括:基于属于所述对象类别的至少一个附加对象的一个或多个附加对象特征训练所述提取模型。
21.根据权利要求20所述的方法,其中所述至少一个所述附加对象包括至少4个附加对象。
22.根据权利要求16所述的方法,进一步包括:在与一个或多个所述对象特征和/或其他对象特征相对应的所述数字图像的一个或多个区域执行OCR。
23.根据权利要求16所述的方法,进一步包括:检测所述对象中的一个或多个文本行。
24.根据权利要求16所述的方法,所述检测包括:
将所述数字图像投影到单一维度;
沿着所述投影确定亮区和暗区分布;
确定多个暗像素密度,每个暗像素密度与沿所述投影的位置相对应;
确定每个暗像素密度是否比可能的文本行阈值大;
并且
当确定对应的暗像素密度比可能的所述文本行阈值大时,指定每个位置作为文本行。
25.根据权利要求24所述的方法,进一步包括:将所述数字图像的每个颜色通道沿所述单一维度投影到单个通道。
26.一种计算机程序产品,包括:其中体现了程序代码的计算机可读存储介质,所述程序代码可以由处理器读取/执行,以:
接收移动设备捕获的数字图像;
确定所述数字图像中描绘的对象是否属于多个对象类别中的特定对象类别;
当确定所述对象属于所述特定对象类别时,至少部分基于所述特定对象类别确定所述对象的一个或多个对象特征;至少部分基于一个或多个所述对象特征建立或选择提取模型;并且
至少部分基于所述提取模型从所述数字图像中提取数据。
CN201480013621.1A 2013-03-13 2014-03-13 对移动设备捕获的数字图像中的对象进行分类 Pending CN105283884A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361780747P 2013-03-13 2013-03-13
US61/780,747 2013-03-13
PCT/US2014/026569 WO2014160426A1 (en) 2013-03-13 2014-03-13 Classifying objects in digital images captured using mobile devices

Publications (1)

Publication Number Publication Date
CN105283884A true CN105283884A (zh) 2016-01-27

Family

ID=51527335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480013621.1A Pending CN105283884A (zh) 2013-03-13 2014-03-13 对移动设备捕获的数字图像中的对象进行分类

Country Status (5)

Country Link
US (2) US9311531B2 (zh)
EP (1) EP2973226A4 (zh)
JP (1) JP2016517587A (zh)
CN (1) CN105283884A (zh)
WO (1) WO2014160426A1 (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106407997A (zh) * 2016-07-14 2017-02-15 昆山饰爱阿智能科技有限公司 一种使用移动设备识别对象的系统及其识别方法
CN107871130A (zh) * 2016-09-27 2018-04-03 顶级公司 图像处理
CN108073927A (zh) * 2016-11-18 2018-05-25 深圳怡化电脑股份有限公司 一种字符识别方法及装置
CN108604368A (zh) * 2016-03-04 2018-09-28 系统股份公司 图像旋转方法/装置及包括所述旋转方法/装置的印刷方法/系统
CN109557109A (zh) * 2018-12-29 2019-04-02 中国肉类食品综合研究中心 冷冻肉品包装状态的检测方法及装置
CN110100251A (zh) * 2016-12-30 2019-08-06 华为技术有限公司 用于处理文档的设备、方法和图形用户界面
CN110168606A (zh) * 2016-06-08 2019-08-23 谷歌有限责任公司 从实体物品生成合成图像
CN110619343A (zh) * 2018-06-20 2019-12-27 亚摩信息技术股份有限公司 基于机器学习的自动缺陷分类方法
CN110869942A (zh) * 2017-07-10 2020-03-06 通用电气公司 自馈深度学习方法和系统
CN111311550A (zh) * 2020-01-20 2020-06-19 支付宝实验室(新加坡)有限公司 伪造证件的识别方法、装置及电子设备
CN111369923A (zh) * 2020-02-26 2020-07-03 歌尔股份有限公司 显示屏幕异常点检测方法、检测设备和可读存储介质
CN111445433A (zh) * 2019-10-14 2020-07-24 北京华宇信息技术有限公司 一种电子卷宗的空白页和模糊页的检测方法及装置
CN111738026A (zh) * 2019-03-19 2020-10-02 康耐视公司 用于评估符号的系统和方法
CN112232335A (zh) * 2019-07-15 2021-01-15 德国邮政股份公司 对自动化分配和/或分拣寄送物的分配信息和/或分拣信息的确定
WO2021147222A1 (zh) * 2020-01-22 2021-07-29 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置、电子设备及存储介质
CN113378634A (zh) * 2016-02-15 2021-09-10 电子湾有限公司 数字图像呈现
CN114581786A (zh) * 2021-12-28 2022-06-03 深圳市城市产业发展集团有限公司 一种根据地面图像估测建筑面积的方法和装置
US12008034B2 (en) 2016-02-15 2024-06-11 Ebay Inc. Digital image presentation

Families Citing this family (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9137417B2 (en) 2005-03-24 2015-09-15 Kofax, Inc. Systems and methods for processing video data
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
US9767354B2 (en) 2009-02-10 2017-09-19 Kofax, Inc. Global geographic information retrieval, validation, and normalization
US9349046B2 (en) 2009-02-10 2016-05-24 Kofax, Inc. Smart optical input/output (I/O) extension for context-dependent workflows
US8774516B2 (en) 2009-02-10 2014-07-08 Kofax, Inc. Systems, methods and computer program products for determining document validity
US8879846B2 (en) 2009-02-10 2014-11-04 Kofax, Inc. Systems, methods and computer program products for processing financial documents
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9576272B2 (en) 2009-02-10 2017-02-21 Kofax, Inc. Systems, methods and computer program products for determining document validity
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US9058515B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9483794B2 (en) 2012-01-12 2016-11-01 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9058580B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9165188B2 (en) 2012-01-12 2015-10-20 Kofax, Inc. Systems and methods for mobile image capture and processing
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US9208536B2 (en) 2013-09-27 2015-12-08 Kofax, Inc. Systems and methods for three dimensional geometric reconstruction of captured image data
JP2016517587A (ja) 2013-03-13 2016-06-16 コファックス, インコーポレイテッド モバイル装置を用いて取込まれたデジタル画像におけるオブジェクトの分類
US10783615B2 (en) * 2013-03-13 2020-09-22 Kofax, Inc. Content-based object detection, 3D reconstruction, and data extraction from digital images
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
DE202014011407U1 (de) 2013-05-03 2020-04-20 Kofax, Inc. Systeme zum Erkennen und Klassifizieren von Objekten in durch Mobilgeräte aufgenommenen Videos
EP3023808A4 (en) * 2013-07-18 2017-09-06 Mitsubishi Electric Corporation Target type identification device
US9749414B2 (en) * 2013-08-29 2017-08-29 International Business Machines Corporation Storing low retention priority data in a dispersed storage network
US11423370B2 (en) * 2013-09-04 2022-08-23 Raise Marketplace, Llc Systems and methods for transferring value to and managing user selected accounts
US11423371B2 (en) * 2013-09-04 2022-08-23 Raise Marketplace, Llc Systems and methods for managing prepaid cards in a digital wallet, including transferring value from prepaid cards and managing user selected accounts
JP2016538783A (ja) 2013-11-15 2016-12-08 コファックス, インコーポレイテッド モバイル映像データを用いて長尺文書の合成画像を生成するためのシステムおよび方法
US9544655B2 (en) 2013-12-13 2017-01-10 Nant Holdings Ip, Llc Visual hash tags via trending recognition activities, systems and methods
US9946931B2 (en) 2015-04-20 2018-04-17 Los Alamos National Security, Llc Change detection and change monitoring of natural and man-made features in multispectral and hyperspectral satellite imagery
US9858502B2 (en) * 2014-03-31 2018-01-02 Los Alamos National Security, Llc Classification of multispectral or hyperspectral satellite imagery using clustering of sparse approximations on sparse representations in learned dictionaries obtained using efficient convolutional sparse coding
US9346168B2 (en) * 2014-05-20 2016-05-24 International Business Machines Corporation Information technology asset type identification using a mobile vision-enabled robot
US9940511B2 (en) * 2014-05-30 2018-04-10 Kofax, Inc. Machine print, hand print, and signature discrimination
CN104023249B (zh) * 2014-06-12 2015-10-21 腾讯科技(深圳)有限公司 电视频道识别方法和装置
US10572758B1 (en) 2014-06-27 2020-02-25 Blinker, Inc. Method and apparatus for receiving a financing offer from an image
US9563814B1 (en) 2014-06-27 2017-02-07 Blinker, Inc. Method and apparatus for recovering a vehicle identification number from an image
US10733471B1 (en) 2014-06-27 2020-08-04 Blinker, Inc. Method and apparatus for receiving recall information from an image
US10867327B1 (en) 2014-06-27 2020-12-15 Blinker, Inc. System and method for electronic processing of vehicle transactions based on image detection of vehicle license plate
US9594971B1 (en) 2014-06-27 2017-03-14 Blinker, Inc. Method and apparatus for receiving listings of similar vehicles from an image
US9892337B1 (en) 2014-06-27 2018-02-13 Blinker, Inc. Method and apparatus for receiving a refinancing offer from an image
US10540564B2 (en) 2014-06-27 2020-01-21 Blinker, Inc. Method and apparatus for identifying vehicle information from an image
US9589201B1 (en) 2014-06-27 2017-03-07 Blinker, Inc. Method and apparatus for recovering a vehicle value from an image
US9760776B1 (en) 2014-06-27 2017-09-12 Blinker, Inc. Method and apparatus for obtaining a vehicle history report from an image
US9607236B1 (en) 2014-06-27 2017-03-28 Blinker, Inc. Method and apparatus for providing loan verification from an image
US10515285B2 (en) 2014-06-27 2019-12-24 Blinker, Inc. Method and apparatus for blocking information from an image
US9818154B1 (en) 2014-06-27 2017-11-14 Blinker, Inc. System and method for electronic processing of vehicle transactions based on image detection of vehicle license plate
US9754171B1 (en) 2014-06-27 2017-09-05 Blinker, Inc. Method and apparatus for receiving vehicle information from an image and posting the vehicle information to a website
US9589202B1 (en) 2014-06-27 2017-03-07 Blinker, Inc. Method and apparatus for receiving an insurance quote from an image
US9558419B1 (en) 2014-06-27 2017-01-31 Blinker, Inc. Method and apparatus for receiving a location of a vehicle service center from an image
US10579892B1 (en) 2014-06-27 2020-03-03 Blinker, Inc. Method and apparatus for recovering license plate information from an image
US9773184B1 (en) 2014-06-27 2017-09-26 Blinker, Inc. Method and apparatus for receiving a broadcast radio service offer from an image
US9779318B1 (en) 2014-06-27 2017-10-03 Blinker, Inc. Method and apparatus for verifying vehicle ownership from an image
US9600733B1 (en) 2014-06-27 2017-03-21 Blinker, Inc. Method and apparatus for receiving car parts data from an image
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
CN105630817B (zh) * 2014-11-03 2019-06-25 航天信息股份有限公司 一种电子发票内容解析的方法及系统
CN115357818A (zh) * 2014-12-29 2022-11-18 创新先进技术有限公司 一种信息展示方法及装置
US10268886B2 (en) * 2015-03-11 2019-04-23 Microsoft Technology Licensing, Llc Context-awareness through biased on-device image classifiers
US10055672B2 (en) * 2015-03-11 2018-08-21 Microsoft Technology Licensing, Llc Methods and systems for low-energy image classification
EP3283983A4 (en) 2015-04-16 2018-10-31 Docauthority Ltd. Structural document classification
US9390315B1 (en) * 2015-06-25 2016-07-12 A9.Com, Inc. Image match for featureless objects
US10242285B2 (en) * 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
US10007898B2 (en) * 2015-08-25 2018-06-26 Bank Of America Corporation Database retrieval system
WO2017058252A1 (en) * 2015-10-02 2017-04-06 Hewlett-Packard Development Company, L.P. Detecting document objects
US9779296B1 (en) 2016-04-01 2017-10-03 Kofax, Inc. Content-based detection and three dimensional geometric reconstruction of objects in image and video data
US10235585B2 (en) * 2016-04-11 2019-03-19 The Nielsen Company (US) Methods and apparatus to determine the dimensions of a region of interest of a target object from an image using target object landmarks
JP6690089B2 (ja) * 2016-04-25 2020-04-28 富士通株式会社 帳票認識方法、帳票認識装置、及び帳票認識プログラム
US9858476B1 (en) * 2016-06-30 2018-01-02 Konica Minolta Laboratory U.S.A., Inc. Method for recognizing table, flowchart and text in document images
US10169649B2 (en) * 2016-07-28 2019-01-01 International Business Machines Corporation Smart image filtering method with domain rules application
CN106327448A (zh) * 2016-08-31 2017-01-11 上海交通大学 一种基于深度学习的图片风格化处理方法
US10083353B2 (en) * 2016-10-28 2018-09-25 Intuit Inc. Identifying document forms using digital fingerprints
CN108255862B (zh) * 2016-12-29 2019-09-17 北京国双科技有限公司 一种裁判文书的检索方法及装置
US11042586B2 (en) * 2016-12-29 2021-06-22 Shutterstock, Inc. Clustering search results based on image composition
US10803013B2 (en) 2017-02-10 2020-10-13 Smugmug, Inc. Efficient similarity detection
JP6401806B2 (ja) * 2017-02-14 2018-10-10 株式会社Pfu 日付識別装置、日付識別方法及び日付識別プログラム
CN106919954A (zh) * 2017-03-02 2017-07-04 深圳明创自控技术有限公司 一种用于商品分类的云计算系统
US10733482B1 (en) * 2017-03-08 2020-08-04 Zoox, Inc. Object height estimation from monocular images
US10819699B2 (en) * 2017-03-30 2020-10-27 Optim Corporation System, method, and program for remotely supporting work
KR102444148B1 (ko) * 2017-04-17 2022-09-19 삼성전자주식회사 전자 장치 및 그 동작 방법
US11217344B2 (en) * 2017-06-23 2022-01-04 Abiomed, Inc. Systems and methods for capturing data from a medical device
US11176363B2 (en) * 2017-09-29 2021-11-16 AO Kaspersky Lab System and method of training a classifier for determining the category of a document
US10679101B2 (en) * 2017-10-25 2020-06-09 Hand Held Products, Inc. Optical character recognition systems and methods
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
US10636186B2 (en) * 2017-12-04 2020-04-28 International Business Machines Corporation Filling in an entity within a video
US10614604B2 (en) * 2017-12-04 2020-04-07 International Business Machines Corporation Filling in an entity within an image
US20190180097A1 (en) * 2017-12-10 2019-06-13 Walmart Apollo, Llc Systems and methods for automated classification of regulatory reports
CN108564099A (zh) * 2017-12-11 2018-09-21 徐飞 基于标识纤维随机分布的图像识别区分药用植物的方法
WO2019133980A1 (en) * 2017-12-30 2019-07-04 Wu Yecheng Backdrop color detection
US10838968B2 (en) * 2018-01-10 2020-11-17 International Business Machines Corporation Recommending exemplars of an unlabeled data-set
RU2715515C2 (ru) 2018-03-30 2020-02-28 Акционерное общество "Лаборатория Касперского" Система и способ выявления изображения, содержащего идентификационный документ
DE102018109392A1 (de) 2018-04-19 2019-10-24 Beckhoff Automation Gmbh Verfahren zum erfassen optischer codes, automatisierungssystem und computerprogrammprodukt zum durchführen des verfahrens
US10366293B1 (en) * 2018-04-24 2019-07-30 Synapse Technology Corporation Computer system and method for improving security screening
CN110647603B (zh) * 2018-06-27 2022-05-27 百度在线网络技术(北京)有限公司 图像标注信息的处理方法、装置和系统
CA3112540A1 (en) * 2018-09-12 2020-03-19 PlantSnap, Inc. Systems and methods for electronically identifying plant species
CN109190594A (zh) * 2018-09-21 2019-01-11 广东蔚海数问大数据科技有限公司 光学字符识别系统及信息提取方法
CN109670507B (zh) * 2018-11-27 2020-11-06 维沃移动通信有限公司 图片处理方法、装置及移动终端
US11462037B2 (en) 2019-01-11 2022-10-04 Walmart Apollo, Llc System and method for automated analysis of electronic travel data
CN111435432B (zh) * 2019-01-15 2023-05-26 北京市商汤科技开发有限公司 网络优化方法及装置、图像处理方法及装置、存储介质
CN109977832B (zh) * 2019-03-19 2024-03-29 腾讯科技(深圳)有限公司 一种图像处理方法、装置及存储介质
US11113838B2 (en) * 2019-03-26 2021-09-07 Nec Corporation Deep learning based tattoo detection system with optimized data labeling for offline and real-time processing
US11501548B2 (en) * 2019-04-02 2022-11-15 Edgeverve Systems Limited Method and system for determining one or more target objects in an image
US11055528B2 (en) * 2019-06-06 2021-07-06 Bank Of America Corporation Real-time image capture correction device
CN110705382A (zh) * 2019-09-12 2020-01-17 武汉儒松科技有限公司 基于发票类别的电子发票管理方法、装置、设备及介质
US20230082381A1 (en) * 2019-10-29 2023-03-16 Healthpointe Solutions, Inc. Image and information extraction to make decisions using curated medical knowledge
CN111026937B (zh) * 2019-11-13 2021-02-19 百度在线网络技术(北京)有限公司 提取poi名称的方法、装置、设备和计算机存储介质
US11328170B2 (en) * 2020-02-19 2022-05-10 Toyota Research Institute, Inc. Unknown object identification for robotic device
US11513669B2 (en) 2020-02-28 2022-11-29 Micron Technology, Inc. User interface for modifying pictures
US11494886B2 (en) * 2020-05-29 2022-11-08 Adobe Inc. Hierarchical multiclass exposure defects classification in images
RU2739059C1 (ru) * 2020-06-30 2020-12-21 Анатолий Сергеевич Гавердовский Способ проверки подлинности маркировки
CN113761249A (zh) * 2020-08-03 2021-12-07 北京沃东天骏信息技术有限公司 一种确定图片类型的方法和装置
JP7019007B1 (ja) * 2020-09-28 2022-02-14 楽天グループ株式会社 照合システム、照合方法及びプログラム
US11295483B1 (en) * 2020-10-01 2022-04-05 Bank Of America Corporation System for immersive deep learning in a virtual reality environment
JP2022146125A (ja) * 2021-03-22 2022-10-05 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11816909B2 (en) 2021-08-04 2023-11-14 Abbyy Development Inc. Document clusterization using neural networks
CN114882040B (zh) * 2022-07-12 2022-09-06 山东中治环境工程设备有限公司 一种基于模板匹配的污水处理检测方法
WO2024028450A1 (en) * 2022-08-03 2024-02-08 Amadeus S.A.S. Data extraction system and method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101295305A (zh) * 2007-04-25 2008-10-29 富士通株式会社 图像检索装置
CN101329731A (zh) * 2008-06-06 2008-12-24 南开大学 图像中数学公式的自动识别方法
CN101493830A (zh) * 2004-04-29 2009-07-29 Nec软件有限公司 结构化自然语言查询和知识系统
US20110129153A1 (en) * 2009-12-02 2011-06-02 David Petrou Identifying Matching Canonical Documents in Response to a Visual Query
US20120294524A1 (en) * 2007-09-28 2012-11-22 Abbyy Software Ltd. Enhanced Multilayer Compression of Image Files Using OCR Systems

Family Cites Families (525)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1660102A (en) 1923-06-04 1928-02-21 William H Smyth High-speed tracklaying tractor
US3069654A (en) 1960-03-25 1962-12-18 Paul V C Hough Method and means for recognizing complex patterns
US3696599A (en) 1971-07-16 1972-10-10 Us Navy Cable fairing system
US4558461A (en) * 1983-06-17 1985-12-10 Litton Systems, Inc. Text line bounding system
US4836026A (en) 1984-06-01 1989-06-06 Science Applications International Corporation Ultrasonic imaging system
US4656665A (en) 1985-01-15 1987-04-07 International Business Machines Corporation Thresholding technique for graphics images using histogram analysis
GB2190778B (en) 1986-05-19 1990-04-25 Ricoh Kk Character recognition with variable subdivisions of a character region
US4992863A (en) 1987-12-22 1991-02-12 Minolta Camera Kabushiki Kaisha Colored image reading apparatus
US5101448A (en) 1988-08-24 1992-03-31 Hitachi, Ltd. Method and apparatus for processing a document by utilizing an image
JPH02311083A (ja) 1989-05-26 1990-12-26 Ricoh Co Ltd 原稿読取装置
US5159667A (en) 1989-05-31 1992-10-27 Borrey Roland G Document identification by characteristics matching
JP2940960B2 (ja) 1989-10-31 1999-08-25 株式会社日立製作所 画像の傾き検出方法および補正方法ならびに画像情報処理装置
US5020112A (en) 1989-10-31 1991-05-28 At&T Bell Laboratories Image recognition method using two-dimensional stochastic grammars
US5063604A (en) 1989-11-08 1991-11-05 Transitions Research Corporation Method and means for recognizing patterns represented in logarithmic polar coordinates
IT1237803B (it) 1989-12-21 1993-06-17 Temav Spa Procedimento per la preparazione di polveri fini di alluminio nitruro
US5344132A (en) 1990-01-16 1994-09-06 Digital Image Systems Image based document processing and information management system and apparatus
JP2708263B2 (ja) 1990-06-22 1998-02-04 富士写真フイルム株式会社 画像読取装置
JPH0488489A (ja) 1990-08-01 1992-03-23 Internatl Business Mach Corp <Ibm> 一般化ハフ変換を用いた文字認識装置および方法
JPH04287290A (ja) 1990-11-20 1992-10-12 Imra America Inc ハフ変換画像処理装置
KR930010845B1 (ko) 1990-12-31 1993-11-12 주식회사 금성사 화상정보의 그림/문자 자동분리방법
JPH04270565A (ja) 1991-02-20 1992-09-25 Fuji Xerox Co Ltd 画像圧縮装置
US5313527A (en) 1991-06-07 1994-05-17 Paragraph International Method and apparatus for recognizing cursive writing from sequential input information
US5293429A (en) * 1991-08-06 1994-03-08 Ricoh Company, Ltd. System and method for automatically classifying heterogeneous business forms
US5680525A (en) 1991-08-08 1997-10-21 Hitachi, Ltd. Three-dimensional graphic system with an editor for generating a textrue mapping image
EP0559919B1 (en) 1991-10-02 1999-03-24 Fujitsu Limited Method for determining orientation of contour line segment in local area and for determining straight line and corner
US5321770A (en) * 1991-11-19 1994-06-14 Xerox Corporation Method for determining boundaries of words in text
JP3191057B2 (ja) 1991-11-22 2001-07-23 株式会社日立製作所 符号化画像データの処理方法および装置
US5359673A (en) 1991-12-27 1994-10-25 Xerox Corporation Method and apparatus for converting bitmap image documents to editable coded data using a standard notation to record document recognition ambiguities
DE9202508U1 (de) 1992-02-27 1992-04-09 Georg Karl geka-brush GmbH, 8809 Bechhofen Zahnreinigungsbürste
US5317646A (en) 1992-03-24 1994-05-31 Xerox Corporation Automated method for creating templates in a forms recognition and processing system
DE4310727C2 (de) 1992-04-06 1996-07-11 Hell Ag Linotype Verfahren und Einrichtung zur Analyse von Bildvorlagen
US5268967A (en) 1992-06-29 1993-12-07 Eastman Kodak Company Method for automatic foreground and background detection in digital radiographic images
US5596655A (en) 1992-08-18 1997-01-21 Hewlett-Packard Company Method for finding and classifying scanned information
US5625719A (en) 1992-10-19 1997-04-29 Fast; Bruce B. OCR image preprocessing method for image enhancement of scanned documents
US5848184A (en) 1993-03-15 1998-12-08 Unisys Corporation Document page analyzer and method
JPH06274680A (ja) 1993-03-17 1994-09-30 Hitachi Ltd 文書認識方法およびシステム
US6002489A (en) 1993-04-02 1999-12-14 Fujitsu Limited Product catalog having image evaluation chart
JPH06314339A (ja) 1993-04-27 1994-11-08 Honda Motor Co Ltd 画像の直線成分抽出装置
US5602964A (en) 1993-05-21 1997-02-11 Autometric, Incorporated Automata networks and methods for obtaining optimized dynamically reconfigurable computational architectures and controls
US7082426B2 (en) 1993-06-18 2006-07-25 Cnet Networks, Inc. Content aggregation method and apparatus for an on-line product catalog
US5353673A (en) 1993-09-07 1994-10-11 Lynch John H Brass-wind musical instrument mouthpiece with radially asymmetric lip restrictor
JP2720924B2 (ja) 1993-09-21 1998-03-04 富士ゼロックス株式会社 画像信号の符号化装置
US6219773B1 (en) 1993-10-18 2001-04-17 Via-Cyrix, Inc. System and method of retiring misaligned write operands from a write buffer
EP0654746B1 (en) 1993-11-24 2003-02-12 Canon Kabushiki Kaisha Form identification and processing system
US5546474A (en) 1993-12-21 1996-08-13 Hewlett-Packard Company Detection of photo regions in digital images
US5671463A (en) 1993-12-28 1997-09-23 Minolta Co., Ltd. Image forming apparatus capable of forming a plurality of images from different originals on a single copy sheet
US5473742A (en) 1994-02-22 1995-12-05 Paragraph International Method and apparatus for representing image data using polynomial approximation method and iterative transformation-reparametrization technique
US5699244A (en) 1994-03-07 1997-12-16 Monsanto Company Hand-held GUI PDA with GPS/DGPS receiver for collecting agronomic and GPS position data
JP3163215B2 (ja) 1994-03-07 2001-05-08 日本電信電話株式会社 直線抽出ハフ変換画像処理装置
JP3311135B2 (ja) 1994-03-23 2002-08-05 積水化学工業株式会社 検査範囲認識方法
DE69516751T2 (de) 1994-04-15 2000-10-05 Canon Kk Bildvorverarbeitung für Zeichenerkennungsanlage
US5652663A (en) 1994-07-29 1997-07-29 Polaroid Corporation Preview buffer for electronic scanner
US5563723A (en) 1994-08-31 1996-10-08 Eastman Kodak Company Method of calibration of image scanner signal processing circuits
US5757963A (en) 1994-09-30 1998-05-26 Xerox Corporation Method and apparatus for complex column segmentation by major white region pattern matching
JP3494326B2 (ja) 1994-10-19 2004-02-09 ミノルタ株式会社 画像形成装置
US5696611A (en) 1994-11-08 1997-12-09 Matsushita Graphic Communication Systems, Inc. Color picture processing apparatus for reproducing a color picture having a smoothly changed gradation
DE69600461T2 (de) 1995-01-17 1999-03-11 Eastman Kodak Co System und Verfahren zur Bewertung der Abbildung eines Formulars
US5822454A (en) 1995-04-10 1998-10-13 Rebus Technology, Inc. System and method for automatic page registration and automatic zone detection during forms processing
US5857029A (en) 1995-06-05 1999-01-05 United Parcel Service Of America, Inc. Method and apparatus for non-contact signature imaging
DK71495A (da) 1995-06-22 1996-12-23 Purup Prepress As Fremgangsmåde og apparat til korrektion af farvestik i digitalt billede
JPH0962826A (ja) 1995-08-22 1997-03-07 Fuji Photo Film Co Ltd 画像読取装置
US5781665A (en) 1995-08-28 1998-07-14 Pitney Bowes Inc. Apparatus and method for cropping an image
US5825915A (en) 1995-09-12 1998-10-20 Matsushita Electric Industrial Co., Ltd. Object detecting apparatus in which the position of a planar object is estimated by using hough transform
EP0870246B1 (en) 1995-09-25 2007-06-06 Adobe Systems Incorporated Optimum access to electronic documents
EP0767578B1 (en) 1995-10-04 2002-04-10 Canon Kabushiki Kaisha Image processing method
JPH09116720A (ja) 1995-10-20 1997-05-02 Matsushita Graphic Commun Syst Inc Ocrファクシミリ装置とこの通信システム
US6009196A (en) 1995-11-28 1999-12-28 Xerox Corporation Method for classifying non-running text in an image
US5987172A (en) 1995-12-06 1999-11-16 Cognex Corp. Edge peak contour tracker
US6009191A (en) 1996-02-15 1999-12-28 Intel Corporation Computer implemented method for compressing 48-bit pixels to 16-bit pixels
US5937084A (en) 1996-05-22 1999-08-10 Ncr Corporation Knowledge-based document analysis system
US8204293B2 (en) 2007-03-09 2012-06-19 Cummins-Allison Corp. Document imaging and processing system
SE510310C2 (sv) 1996-07-19 1999-05-10 Ericsson Telefon Ab L M Förfarande jämte anordning för rörelse-esimering och segmentering
US6038348A (en) 1996-07-24 2000-03-14 Oak Technology, Inc. Pixel image enhancement system and method
US5696805A (en) 1996-09-17 1997-12-09 Eastman Kodak Company Apparatus and method for identifying specific bone regions in digital X-ray images
JP3685421B2 (ja) 1996-09-18 2005-08-17 富士写真フイルム株式会社 画像処理装置
US5899978A (en) 1996-10-07 1999-05-04 Title America Titling system and method therefor
JPH10117262A (ja) 1996-10-09 1998-05-06 Fuji Photo Film Co Ltd 画像処理装置
JP2940496B2 (ja) 1996-11-05 1999-08-25 日本電気株式会社 パタンマッチング符号化装置及び方法
US6104840A (en) 1996-11-08 2000-08-15 Ricoh Company, Ltd. Method and system for generating a composite image from partially overlapping adjacent images taken along a plurality of axes
US6512848B2 (en) 1996-11-18 2003-01-28 Canon Kabushiki Kaisha Page analysis system
JP3748141B2 (ja) 1996-12-26 2006-02-22 株式会社東芝 画像形成装置
US6098065A (en) 1997-02-13 2000-08-01 Nortel Networks Corporation Associative search engine
EP0860989B1 (en) 1997-02-19 2006-11-22 Canon Kabushiki Kaisha Scanner device and control method thereof, and image input system
JP2927350B2 (ja) 1997-03-27 1999-07-28 株式会社モノリス 多重解像度フィルタ処理方法およびその方法を利用することのできる画像マッチング方法
SE511242C2 (sv) 1997-04-01 1999-08-30 Readsoft Ab Förfarande och anordning för automatisk datafångst hos formulär
US6154217A (en) 1997-04-15 2000-11-28 Software Architects, Inc. Gamut restriction of color image
US6005958A (en) 1997-04-23 1999-12-21 Automotive Systems Laboratory, Inc. Occupant type and position detection system
US6067385A (en) 1997-05-07 2000-05-23 Ricoh Company Limited System for aligning document images when scanned in duplex mode
US6433896B1 (en) 1997-06-10 2002-08-13 Minolta Co., Ltd. Image processing apparatus
CN1182699C (zh) 1997-06-25 2004-12-29 松下电器产业株式会社 图像显示方法
JP3877385B2 (ja) 1997-07-04 2007-02-07 大日本スクリーン製造株式会社 画像処理パラメータ決定装置およびその方法
JP3061019B2 (ja) 1997-08-04 2000-07-10 トヨタ自動車株式会社 内燃機関
US5953388A (en) 1997-08-18 1999-09-14 George Mason University Method and apparatus for processing data from a tomographic imaging system
JP3891654B2 (ja) 1997-08-20 2007-03-14 株式会社東芝 画像形成装置
US6005968A (en) 1997-08-29 1999-12-21 X-Rite, Incorporated Scanner calibration and correction techniques using scaled lightness values
JPH1186021A (ja) 1997-09-09 1999-03-30 Fuji Photo Film Co Ltd 画像処理装置
JPH1178112A (ja) 1997-09-09 1999-03-23 Konica Corp 画像形成装置及び画像形成方法
JPH1191169A (ja) 1997-09-19 1999-04-06 Fuji Photo Film Co Ltd 画像処理装置
US6011595A (en) 1997-09-19 2000-01-04 Eastman Kodak Company Method for segmenting a digital image into a foreground region and a key color region
US6480624B1 (en) 1997-09-30 2002-11-12 Minolta Co., Ltd. Color discrimination apparatus and method
US6434620B1 (en) 1998-08-27 2002-08-13 Alacritech, Inc. TCP/IP offload network interface device
JP3608920B2 (ja) 1997-10-14 2005-01-12 株式会社ミツトヨ 非接触画像計測システム
US5867264A (en) 1997-10-15 1999-02-02 Pacific Advanced Technology Apparatus for image multispectral sensing employing addressable spatial mask
US6243722B1 (en) 1997-11-24 2001-06-05 International Business Machines Corporation Method and system for a network-based document review tool utilizing comment classification
US6222613B1 (en) 1998-02-10 2001-04-24 Konica Corporation Image processing method and apparatus
DE19809790B4 (de) 1998-03-09 2005-12-22 Daimlerchrysler Ag Verfahren zur Ermittlung einer Drallstruktur in der Oberfläche eines feinbearbeiteten zylindrischen Werkstücks
JPH11261821A (ja) 1998-03-12 1999-09-24 Fuji Photo Film Co Ltd 画像処理方法
US6327581B1 (en) 1998-04-06 2001-12-04 Microsoft Corporation Methods and apparatus for building a support vector machine classifier
JP3457562B2 (ja) 1998-04-06 2003-10-20 富士写真フイルム株式会社 画像処理装置及び方法
US7194471B1 (en) 1998-04-10 2007-03-20 Ricoh Company, Ltd. Document classification system and method for classifying a document according to contents of the document
US6393147B2 (en) 1998-04-13 2002-05-21 Intel Corporation Color region based recognition of unidentified objects
US8955743B1 (en) 1998-04-17 2015-02-17 Diebold Self-Service Systems Division Of Diebold, Incorporated Automated banking machine with remote user assistance
US7617163B2 (en) 1998-05-01 2009-11-10 Health Discovery Corporation Kernels and kernel methods for spectral data
WO2002095534A2 (en) 2001-05-18 2002-11-28 Biowulf Technologies, Llc Methods for feature selection in a learning machine
US6789069B1 (en) 1998-05-01 2004-09-07 Biowulf Technologies Llc Method for enhancing knowledge discovered from biological data using a learning machine
JPH11328408A (ja) 1998-05-12 1999-11-30 Advantest Corp データ処理装置および方法、情報記憶媒体
US6748109B1 (en) 1998-06-16 2004-06-08 Fuji Photo Film Co., Ltd Digital laboratory system for processing photographic images
US6161130A (en) 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US6192360B1 (en) 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
EP0967792B1 (en) 1998-06-26 2011-08-03 Sony Corporation Printer having image correcting capability
US7253836B1 (en) 1998-06-30 2007-08-07 Nikon Corporation Digital camera, storage medium for image signal processing, carrier wave and electronic camera
US6456738B1 (en) 1998-07-16 2002-09-24 Ricoh Company, Ltd. Method of and system for extracting predetermined elements from input document based upon model which is adaptively modified according to variable amount in the input document
FR2781475B1 (fr) 1998-07-23 2000-09-08 Alsthom Cge Alcatel Utilisation d'un creuset en graphite poreux pour traiter des granules de silice
US6219158B1 (en) 1998-07-31 2001-04-17 Hewlett-Packard Company Method and apparatus for a dynamically variable scanner, copier or facsimile secondary reflective surface
US6385346B1 (en) 1998-08-04 2002-05-07 Sharp Laboratories Of America, Inc. Method of display and control of adjustable parameters for a digital scanner device
US6292168B1 (en) 1998-08-13 2001-09-18 Xerox Corporation Period-based bit conversion method and apparatus for digital image processing
JP2000067065A (ja) 1998-08-20 2000-03-03 Ricoh Co Ltd 文書画像識別方法および記録媒体
US6373507B1 (en) 1998-09-14 2002-04-16 Microsoft Corporation Computer-implemented image acquistion system
US7017108B1 (en) 1998-09-15 2006-03-21 Canon Kabushiki Kaisha Method and apparatus for reproducing a linear document having non-linear referential links
US6263122B1 (en) 1998-09-23 2001-07-17 Hewlett Packard Company System and method for manipulating regions in a scanned image
US6223223B1 (en) 1998-09-30 2001-04-24 Hewlett-Packard Company Network scanner contention handling method
US6575367B1 (en) 1998-11-05 2003-06-10 Welch Allyn Data Collection, Inc. Image data binarization methods enabling optical reader to read fine print indicia
US6370277B1 (en) 1998-12-07 2002-04-09 Kofax Image Products, Inc. Virtual rescanning: a method for interactive document image quality enhancement
US6480304B1 (en) 1998-12-09 2002-11-12 Scansoft, Inc. Scanning system and method
US6396599B1 (en) 1998-12-21 2002-05-28 Eastman Kodak Company Method and apparatus for modifying a portion of an image in accordance with colorimetric parameters
US6765685B1 (en) 1999-01-22 2004-07-20 Ricoh Company, Ltd. Printing electronic documents with automatically interleaved separation sheets
US7003719B1 (en) 1999-01-25 2006-02-21 West Publishing Company, Dba West Group System, method, and software for inserting hyperlinks into documents
US6614930B1 (en) 1999-01-28 2003-09-02 Koninklijke Philips Electronics N.V. Video stream classifiable symbol isolation method and system
JP2000227316A (ja) 1999-02-04 2000-08-15 Keyence Corp 検査装置
US6646765B1 (en) 1999-02-19 2003-11-11 Hewlett-Packard Development Company, L.P. Selective document scanning method and apparatus
JP2000251012A (ja) 1999-03-01 2000-09-14 Hitachi Ltd 帳票処理方法およびシステム
JP2000298702A (ja) * 1999-04-15 2000-10-24 Canon Inc 画像処理装置及びその方法、コンピュータ可読メモリ
EP1049030A1 (en) 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
US6590676B1 (en) 1999-05-18 2003-07-08 Electronics For Imaging, Inc. Image reconstruction architecture
EP1054331A3 (en) 1999-05-21 2003-11-12 Hewlett-Packard Company, A Delaware Corporation System and method for storing and retrieving document data
JP2000354144A (ja) 1999-06-11 2000-12-19 Ricoh Co Ltd 文書読取装置
JP4626007B2 (ja) 1999-06-14 2011-02-02 株式会社ニコン 画像処理方法、画像処理プログラムを記録した機械読み取り可能な記録媒体、および画像処理装置
US7051274B1 (en) 1999-06-24 2006-05-23 Microsoft Corporation Scalable computing system for managing annotations
JP4114279B2 (ja) 1999-06-25 2008-07-09 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置
US6501855B1 (en) 1999-07-20 2002-12-31 Parascript, Llc Manual-search restriction on documents not having an ASCII index
IL131092A (en) 1999-07-25 2006-08-01 Orbotech Ltd Optical inspection system
US6628808B1 (en) 1999-07-28 2003-09-30 Datacard Corporation Apparatus and method for verifying a scanned image
US6628416B1 (en) 1999-10-13 2003-09-30 Umax Data Systems, Inc. Method and user interface for performing a scan operation for a scanner coupled to a computer system
JP3501031B2 (ja) 1999-08-24 2004-02-23 日本電気株式会社 画像領域判定装置、画像領域判定方法及びそのプログラムを記憶した記憶媒体
JP3587506B2 (ja) 1999-08-30 2004-11-10 富士重工業株式会社 ステレオカメラの調整装置
US6633857B1 (en) 1999-09-04 2003-10-14 Microsoft Corporation Relevance vector machine
US6601026B2 (en) 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
JP2001103255A (ja) 1999-09-30 2001-04-13 Minolta Co Ltd 画像処理システム
US6839466B2 (en) 1999-10-04 2005-01-04 Xerox Corporation Detecting overlapping images in an automatic image segmentation device with the presence of severe bleeding
US7430066B2 (en) 1999-10-13 2008-09-30 Transpacific Ip, Ltd. Method and user interface for performing an automatic scan operation for a scanner coupled to a computer system
JP4377494B2 (ja) 1999-10-22 2009-12-02 東芝テック株式会社 情報入力装置
JP4094789B2 (ja) 1999-11-26 2008-06-04 富士通株式会社 画像処理装置及び画像処理方法
US7735721B1 (en) 1999-11-30 2010-06-15 Diebold Self-Service Systems Division Of Diebold, Incorporated Method of evaluating checks deposited into a cash dispensing automated banking machine
US6751349B2 (en) 1999-11-30 2004-06-15 Fuji Photo Film Co., Ltd. Image processing system
US7337389B1 (en) 1999-12-07 2008-02-26 Microsoft Corporation System and method for annotating an electronic document independently of its content
US6665425B1 (en) 1999-12-16 2003-12-16 Xerox Corporation Systems and methods for automated image quality based diagnostics and remediation of document processing systems
US20010027420A1 (en) 1999-12-21 2001-10-04 Miroslav Boublik Method and apparatus for capturing transaction data
US6724916B1 (en) 2000-01-05 2004-04-20 The United States Of America As Represented By The Secretary Of The Navy Composite hough transform for multitarget multisensor tracking
US6778684B1 (en) 2000-01-20 2004-08-17 Xerox Corporation Systems and methods for checking image/document quality
JP2001218047A (ja) 2000-02-04 2001-08-10 Fuji Photo Film Co Ltd 画像処理装置
JP2001309128A (ja) 2000-02-24 2001-11-02 Xerox Corp 画像取得制御システム
US7149347B1 (en) 2000-03-02 2006-12-12 Science Applications International Corporation Machine learning of document templates for data extraction
US6859909B1 (en) 2000-03-07 2005-02-22 Microsoft Corporation System and method for annotating web-based documents
US6643413B1 (en) 2000-03-27 2003-11-04 Microsoft Corporation Manifold mosaic hopping for image-based rendering
US6757081B1 (en) 2000-04-07 2004-06-29 Hewlett-Packard Development Company, L.P. Methods and apparatus for analyzing and image and for controlling a scanner
SE0001312D0 (sv) 2000-04-10 2000-04-10 Abb Ab Industrirobot
US6337925B1 (en) 2000-05-08 2002-01-08 Adobe Systems Incorporated Method for determining a border in a complex scene with applications to image masking
US20020030831A1 (en) 2000-05-10 2002-03-14 Fuji Photo Film Co., Ltd. Image correction method
US6469801B1 (en) 2000-05-17 2002-10-22 Heidelberger Druckmaschinen Ag Scanner with prepress scaling mode
US6763515B1 (en) 2000-06-05 2004-07-13 National Instruments Corporation System and method for automatically generating a graphical program to perform an image processing algorithm
US6701009B1 (en) 2000-06-06 2004-03-02 Sharp Laboratories Of America, Inc. Method of separated color foreground and background pixel improvement
US20030120653A1 (en) 2000-07-05 2003-06-26 Sean Brady Trainable internet search engine and methods of using
US6463430B1 (en) 2000-07-10 2002-10-08 Mohomine, Inc. Devices and methods for generating and managing a database
JP4023075B2 (ja) 2000-07-10 2007-12-19 富士ゼロックス株式会社 画像取得装置
JP4171574B2 (ja) 2000-07-21 2008-10-22 富士フイルム株式会社 画像処理条件決定装置および画像処理条件決定プログラム記憶媒体
WO2002008948A2 (en) 2000-07-24 2002-01-31 Vivcom, Inc. System and method for indexing, searching, identifying, and editing portions of electronic multimedia files
US6675159B1 (en) 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
US7031519B2 (en) 2000-07-28 2006-04-18 Raf Technology, Inc. Orthogonal technology for character recognition
US6850653B2 (en) 2000-08-08 2005-02-01 Canon Kabushiki Kaisha Image reading system, image reading setting determination apparatus, reading setting determination method, recording medium, and program
US6901170B1 (en) 2000-09-05 2005-05-31 Fuji Xerox Co., Ltd. Image processing device and recording medium
JP3720740B2 (ja) 2000-09-12 2005-11-30 キヤノン株式会社 分散印刷システム、分散印刷制御方法、記憶媒体、及びプログラム
US7002700B1 (en) 2000-09-14 2006-02-21 Electronics For Imaging, Inc. Method and system for merging scan files into a color workflow
US7738706B2 (en) 2000-09-22 2010-06-15 Sri International Method and apparatus for recognition of symbols in images of three-dimensional scenes
DE10047219A1 (de) 2000-09-23 2002-06-06 Wuerth Adolf Gmbh & Co Kg Blechklammer
JP4472847B2 (ja) 2000-09-28 2010-06-02 キヤノン電子株式会社 画像処理装置及びその制御方法、画像入力装置及びその制御方法、並びに記憶媒体
US6621595B1 (en) 2000-11-01 2003-09-16 Hewlett-Packard Development Company, L.P. System and method for enhancing scanned document images for color printing
US20050060162A1 (en) 2000-11-10 2005-03-17 Farhad Mohit Systems and methods for automatic identification and hyperlinking of words or other data items and for information retrieval using hyperlinked words or data items
US7043080B1 (en) 2000-11-21 2006-05-09 Sharp Laboratories Of America, Inc. Methods and systems for text detection in mixed-context documents using local geometric signatures
US6788308B2 (en) 2000-11-29 2004-09-07 Tvgateway,Llc System and method for improving the readability of text
EP1211594A3 (en) 2000-11-30 2006-05-24 Canon Kabushiki Kaisha Apparatus and method for controlling user interface
US6921220B2 (en) 2000-12-19 2005-07-26 Canon Kabushiki Kaisha Image processing system, data processing apparatus, data processing method, computer program and storage medium
US6826311B2 (en) 2001-01-04 2004-11-30 Microsoft Corporation Hough transform supporting methods and arrangements
US7266768B2 (en) 2001-01-09 2007-09-04 Sharp Laboratories Of America, Inc. Systems and methods for manipulating electronic information using a three-dimensional iconic representation
US6522791B2 (en) 2001-01-23 2003-02-18 Xerox Corporation Dynamic user interface with scanned image improvement assist
US6882983B2 (en) 2001-02-05 2005-04-19 Notiva Corporation Method and system for processing transactions
US6950555B2 (en) 2001-02-16 2005-09-27 Parascript Llc Holistic-analytical recognition of handwritten text
JP2002247371A (ja) 2001-02-21 2002-08-30 Ricoh Co Ltd 画像処理装置および画像処理プログラムを記録した記録媒体
EP1384155A4 (en) 2001-03-01 2007-02-28 Health Discovery Corp SPECTRAL KNIVES FOR LEARNING MACHINES
US7145699B2 (en) 2001-03-30 2006-12-05 Sharp Laboratories Of America, Inc. System and method for digital document alignment
JP2002300386A (ja) 2001-03-30 2002-10-11 Fuji Photo Film Co Ltd 画像処理方法
US20020165717A1 (en) 2001-04-06 2002-11-07 Solmer Robert P. Efficient method for information extraction
US6658147B2 (en) 2001-04-16 2003-12-02 Parascript Llc Reshaping freehand drawn lines and shapes in an electronic document
JP3824209B2 (ja) 2001-04-18 2006-09-20 三菱電機株式会社 文書自動分割装置
US7023447B2 (en) 2001-05-02 2006-04-04 Eastman Kodak Company Block sampling based method and apparatus for texture synthesis
US7006707B2 (en) 2001-05-03 2006-02-28 Adobe Systems Incorporated Projecting images onto a surface
US6944357B2 (en) 2001-05-24 2005-09-13 Microsoft Corporation System and process for automatically determining optimal image compression methods for reducing file size
FR2825817B1 (fr) 2001-06-07 2003-09-19 Commissariat Energie Atomique Procede de traitement d'images pour l'extraction automatique d'elements semantiques
US20030030638A1 (en) 2001-06-07 2003-02-13 Karl Astrom Method and apparatus for extracting information from a target area within a two-dimensional graphical object in an image
US7403313B2 (en) 2001-09-27 2008-07-22 Transpacific Ip, Ltd. Automatic scanning parameter setting device and method
US7154622B2 (en) 2001-06-27 2006-12-26 Sharp Laboratories Of America, Inc. Method of routing and processing document images sent using a digital scanner and transceiver
US7298903B2 (en) * 2001-06-28 2007-11-20 Microsoft Corporation Method and system for separating text and drawings in digital ink
US7013047B2 (en) 2001-06-28 2006-03-14 National Instruments Corporation System and method for performing edge detection in an image
WO2003017150A2 (en) 2001-08-13 2003-02-27 Accenture Global Services Gmbh A computer system for managing accounting data
US7506062B2 (en) 2001-08-30 2009-03-17 Xerox Corporation Scanner-initiated network-based image input scanning
US20030044012A1 (en) 2001-08-31 2003-03-06 Sharp Laboratories Of America, Inc. System and method for using a profile to encrypt documents in a digital scanner
JP5002099B2 (ja) 2001-08-31 2012-08-15 株式会社東芝 磁気共鳴イメージング装置
JP4564693B2 (ja) 2001-09-14 2010-10-20 キヤノン株式会社 文書処理装置及び方法
US7515313B2 (en) 2001-09-20 2009-04-07 Stone Cheng Method and system for scanning with one-scan-and-done feature
US6732046B1 (en) 2001-10-03 2004-05-04 Navigation Technologies Corp. Application of the hough transform to modeling the horizontal component of road geometry and computing heading and curvature
US7430002B2 (en) 2001-10-03 2008-09-30 Micron Technology, Inc. Digital imaging system and method for adjusting image-capturing parameters using image comparisons
US6922487B2 (en) * 2001-11-02 2005-07-26 Xerox Corporation Method and apparatus for capturing text images
US6667774B2 (en) 2001-11-02 2003-12-23 Imatte, Inc. Method and apparatus for the automatic generation of subject to background transition area boundary lines and subject shadow retention
US6898316B2 (en) 2001-11-09 2005-05-24 Arcsoft, Inc. Multiple image area detection in a digital image
US6944616B2 (en) 2001-11-28 2005-09-13 Pavilion Technologies, Inc. System and method for historical database training of support vector machines
EP1317133A1 (en) 2001-12-03 2003-06-04 Kofax Image Products, Inc. Virtual rescanning a method for interactive document image quality enhancement
US7937281B2 (en) 2001-12-07 2011-05-03 Accenture Global Services Limited Accelerated process improvement framework
US7286177B2 (en) 2001-12-19 2007-10-23 Nokia Corporation Digital camera
US7053953B2 (en) 2001-12-21 2006-05-30 Eastman Kodak Company Method and camera system for blurring portions of a verification image to show out of focus areas in a captured archival image
JP2003196357A (ja) 2001-12-27 2003-07-11 Hitachi Software Eng Co Ltd 文書ファイリング方法及びシステム
US7346215B2 (en) 2001-12-31 2008-03-18 Transpacific Ip, Ltd. Apparatus and method for capturing a document
US7054036B2 (en) 2002-01-25 2006-05-30 Kabushiki Kaisha Toshiba Image processing method and image forming apparatus
US20030142328A1 (en) 2002-01-31 2003-07-31 Mcdaniel Stanley Eugene Evaluation of image processing operations
JP3891408B2 (ja) 2002-02-08 2007-03-14 株式会社リコー 画像補正装置、プログラム、記憶媒体及び画像補正方法
US7362354B2 (en) 2002-02-12 2008-04-22 Hewlett-Packard Development Company, L.P. Method and system for assessing the photo quality of a captured image in a digital still camera
US6985631B2 (en) 2002-02-20 2006-01-10 Hewlett-Packard Development Company, L.P. Systems and methods for automatically detecting a corner in a digitally captured image
US7020320B2 (en) 2002-03-06 2006-03-28 Parascript, Llc Extracting text written on a check
EP1529272A1 (en) 2002-04-05 2005-05-11 Unbounded Access Ltd. Networked accessibility enhancer system
JP4185699B2 (ja) 2002-04-12 2008-11-26 日立オムロンターミナルソリューションズ株式会社 帳票読み取りシステム、帳票読み取り方法及びそのためのプログラム
US20030210428A1 (en) 2002-05-07 2003-11-13 Alex Bevlin Non-OCR method for capture of computer filled-in forms
WO2003100631A1 (en) 2002-05-23 2003-12-04 Phochron, Inc. System and method for digital content processing and distribution
US7636455B2 (en) 2002-06-04 2009-12-22 Raytheon Company Digital image edge detection and road network tracking method and system
US7409092B2 (en) 2002-06-20 2008-08-05 Hrl Laboratories, Llc Method and apparatus for the surveillance of objects in images
US7197158B2 (en) 2002-06-28 2007-03-27 Microsoft Corporation Generation of metadata for acquired images
US20040143547A1 (en) 2002-07-02 2004-07-22 Dean Mersky Automated accounts payable using image typing and type specific processing
US7209599B2 (en) 2002-07-12 2007-04-24 Hewlett-Packard Development Company, L.P. System and method for scanned image bleedthrough processing
JP2004054640A (ja) 2002-07-19 2004-02-19 Sharp Corp 画像情報配信方法、画像情報配信システム、中央装置、端末装置、スキャナ装置、コンピュータプログラム、及び記録媒体
US7031525B2 (en) 2002-07-30 2006-04-18 Mitsubishi Electric Research Laboratories, Inc. Edge detection based on background change
US7365881B2 (en) 2002-08-19 2008-04-29 Eastman Kodak Company Halftone dot-growth technique based on morphological filtering
US7123387B2 (en) 2002-08-23 2006-10-17 Chung-Wei Cheng Image scanning method
US20040083119A1 (en) 2002-09-04 2004-04-29 Schunder Lawrence V. System and method for implementing a vendor contract management system
JP3741090B2 (ja) 2002-09-09 2006-02-01 コニカミノルタビジネステクノロジーズ株式会社 画像処理装置
US7349888B1 (en) 2003-11-10 2008-03-25 Zxibix, Inc. System and method to customize the facilitation of development of user thinking about and documenting of an arbitrary problem
US20040090458A1 (en) 2002-11-12 2004-05-13 Yu John Chung Wah Method and apparatus for previewing GUI design and providing screen-to-source association
DE10253903A1 (de) 2002-11-19 2004-06-17 OCé PRINTING SYSTEMS GMBH Verfahren, Anordnung und Computersoftware zum Bedrucken eines Trennblattes mit Hilfe eines elektrofotografischen Druckers oder Kopierers
EP1422920B1 (en) 2002-11-19 2013-01-23 Canon Denshi Kabushiki Kaisha Network scanning system
KR100446538B1 (ko) 2002-11-21 2004-09-01 삼성전자주식회사 디지털 카메라 대여 시스템을 위한 온라인 디지털 사진처리 시스템
US7386527B2 (en) 2002-12-06 2008-06-10 Kofax, Inc. Effective multi-class support vector machine classification
BR0317326A (pt) 2002-12-16 2005-11-16 King Pharmaceuticals Inc Método de reduzir doença cardiovascular em um indivìduo em risco
US7181082B2 (en) 2002-12-18 2007-02-20 Sharp Laboratories Of America, Inc. Blur detection system
AU2003303499A1 (en) 2002-12-26 2004-07-29 The Trustees Of Columbia University In The City Of New York Ordered data compression system and methods
US20070128899A1 (en) 2003-01-12 2007-06-07 Yaron Mayer System and method for improving the efficiency, comfort, and/or reliability in Operating Systems, such as for example Windows
US7174043B2 (en) 2003-02-25 2007-02-06 Evernote Corp. On-line handwriting recognizer
US20040169889A1 (en) 2003-02-27 2004-09-02 Toshiba Tec Kabushiki Kaisha Image processing apparatus and controller apparatus using thereof
US20040169873A1 (en) 2003-02-28 2004-09-02 Xerox Corporation Automatic determination of custom parameters based on scanned image data
US7765155B2 (en) 2003-03-13 2010-07-27 International Business Machines Corporation Invoice processing approval and storage system method and apparatus
US7639392B2 (en) 2003-03-28 2009-12-29 Infoprint Solutions Company, Llc Methods, systems, and media to enhance image processing in a color reprographic system
US7665061B2 (en) 2003-04-08 2010-02-16 Microsoft Corporation Code builders
US7251777B1 (en) 2003-04-16 2007-07-31 Hypervision, Ltd. Method and system for automated structuring of textual documents
US7406183B2 (en) 2003-04-28 2008-07-29 International Business Machines Corporation System and method of sorting document images based on image quality
JP4864295B2 (ja) 2003-06-02 2012-02-01 富士フイルム株式会社 画像表示システム、画像表示装置およびプログラム
EP1636672A4 (en) 2003-06-09 2008-03-12 Greenline Systems Inc SYSTEM AND METHODS FOR RISK DETECTION, REPORTS AND INFRASTRUCTURE
US7389516B2 (en) 2003-06-19 2008-06-17 Microsoft Corporation System and method for facilitating interaction between a computer and a network scanner
US20040263639A1 (en) 2003-06-26 2004-12-30 Vladimir Sadovsky System and method for intelligent image acquisition
US7616233B2 (en) 2003-06-26 2009-11-10 Fotonation Vision Limited Perfecting of digital image capture parameters within acquisition devices using face detection
JP4289040B2 (ja) 2003-06-26 2009-07-01 富士ゼロックス株式会社 画像処理装置及び方法
JP2005018678A (ja) 2003-06-30 2005-01-20 Casio Comput Co Ltd 帳票データ入力処理装置、帳票データ入力処理方法及びプログラム
US7362892B2 (en) 2003-07-02 2008-04-22 Lockheed Martin Corporation Self-optimizing classifier
US20060242180A1 (en) 2003-07-23 2006-10-26 Graf James A Extracting data from semi-structured text documents
US20050030602A1 (en) 2003-08-06 2005-02-10 Gregson Daniel P. Scan templates
US20050050060A1 (en) 2003-08-27 2005-03-03 Gerard Damm Data structure for range-specified algorithms
US8937731B2 (en) 2003-09-01 2015-01-20 Konica Minolta Business Technologies, Inc. Image processing apparatus for receiving a request relating to image processing from an external source and executing the received request
JP3951990B2 (ja) 2003-09-05 2007-08-01 ブラザー工業株式会社 無線ステーション,プログラムおよび動作制御方法
JP4725057B2 (ja) 2003-09-09 2011-07-13 セイコーエプソン株式会社 画質調整情報の生成および画質調整情報を用いた画質調整
JP2005085173A (ja) 2003-09-10 2005-03-31 Toshiba Corp データ管理システム
US7797381B2 (en) 2003-09-19 2010-09-14 International Business Machines Corporation Methods and apparatus for information hyperchain management for on-demand business collaboration
US7844109B2 (en) 2003-09-24 2010-11-30 Canon Kabushiki Kaisha Image processing method and apparatus
JP4139760B2 (ja) 2003-10-10 2008-08-27 富士フイルム株式会社 画像処理方法および装置ならびに画像処理プログラム
US20050080844A1 (en) 2003-10-10 2005-04-14 Sridhar Dathathraya System and method for managing scan destination profiles
EP1530357A1 (en) 2003-11-06 2005-05-11 Ricoh Company, Ltd. Method, computer program, and apparatus for detecting specific information included in image data of original image with accuracy, and computer readable storing medium storing the program
WO2005048079A2 (en) 2003-11-12 2005-05-26 California Institute Of Technology Mobile content engine with enhanced features
US7553095B2 (en) 2003-11-27 2009-06-30 Konica Minolta Business Technologies, Inc. Print data transmitting apparatus, image forming system, printing condition setting method and printer driver program
JP4347677B2 (ja) 2003-12-08 2009-10-21 富士フイルム株式会社 帳票ocrプログラム、方法及び装置
US8693043B2 (en) 2003-12-19 2014-04-08 Kofax, Inc. Automatic document separation
US7184929B2 (en) 2004-01-28 2007-02-27 Microsoft Corporation Exponential priors for maximum entropy models
US9229540B2 (en) 2004-01-30 2016-01-05 Electronic Scripting Products, Inc. Deriving input from six degrees of freedom interfaces
US7298897B1 (en) 2004-02-11 2007-11-20 United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Optimal binarization of gray-scaled digital images via fuzzy reasoning
US7379587B2 (en) 2004-02-12 2008-05-27 Xerox Corporation Systems and methods for identifying regions within an image having similar continuity values
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
JP2005267457A (ja) 2004-03-19 2005-09-29 Casio Comput Co Ltd 画像処理装置、撮影装置、画像処理方法及びプログラム
FR2868185B1 (fr) 2004-03-23 2006-06-30 Realeyes3D Sa Procede d'extraction de donnees brutes d'une image resultant d'une prise de vue
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
JP5238249B2 (ja) 2004-04-01 2013-07-17 グーグル インコーポレイテッド レンダリングされた文書からのハンドヘルド装置を用いたデータ取得
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
TWI240067B (en) 2004-04-06 2005-09-21 Sunplus Technology Co Ltd Rapid color recognition method
US7366705B2 (en) 2004-04-15 2008-04-29 Microsoft Corporation Clustering based text classification
US20050246262A1 (en) 2004-04-29 2005-11-03 Aggarwal Charu C Enabling interoperability between participants in a network
JP3800227B2 (ja) 2004-05-17 2006-07-26 コニカミノルタビジネステクノロジーズ株式会社 画像形成装置及びそれに用いる情報処理方法並びに情報処理プログラム
US7430059B2 (en) 2004-05-24 2008-09-30 Xerox Corporation Systems, methods and graphical user interfaces for interactively previewing a scanned document
US7496218B2 (en) 2004-05-26 2009-02-24 Ramsay Thomas E System and method for identifying objects of interest in image data
GB2432448A (en) 2004-05-28 2007-05-23 Agency Science Tech & Res Method and system for word sequence processing
US7272261B2 (en) 2004-06-04 2007-09-18 Xerox Corporation Method and system for classifying scanned-media
US7392426B2 (en) 2004-06-15 2008-06-24 Honeywell International Inc. Redundant processing architecture for single fault tolerance
US20060219773A1 (en) 2004-06-18 2006-10-05 Richardson Joseph L System and method for correcting data in financial documents
JP2006031379A (ja) 2004-07-15 2006-02-02 Sony Corp 情報提示装置及び情報提示方法
US7339585B2 (en) 2004-07-19 2008-03-04 Pie Medical Imaging B.V. Method and apparatus for visualization of biological structures with use of 3D position information from segmentation results
US20060023271A1 (en) 2004-07-30 2006-02-02 Boay Yoke P Scanner with color profile matching mechanism
WO2006015379A2 (en) 2004-08-02 2006-02-09 Cornell Research Foundation, Inc. Electron spin resonance microscope for imaging with micron resolution
US7515772B2 (en) 2004-08-21 2009-04-07 Xerox Corp Document registration and skew detection system
US7299407B2 (en) 2004-08-24 2007-11-20 International Business Machines Corporation Marking and annotating electronic documents
US7643665B2 (en) 2004-08-31 2010-01-05 Semiconductor Insights Inc. Method of design analysis of existing integrated circuits
EP1789920A1 (en) 2004-09-02 2007-05-30 Koninklijke Philips Electronics N.V. Feature weighted medical object contouring using distance coordinates
US20070118794A1 (en) 2004-09-08 2007-05-24 Josef Hollander Shared annotation system and method
US7739127B1 (en) 2004-09-23 2010-06-15 Stephen Don Hall Automated system for filing prescription drug claims
US8332401B2 (en) 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US7991778B2 (en) 2005-08-23 2011-08-02 Ricoh Co., Ltd. Triggering actions with captured input in a mixed media environment
US7639387B2 (en) 2005-08-23 2009-12-29 Ricoh Co., Ltd. Authoring tools using a mixed media environment
US8005831B2 (en) 2005-08-23 2011-08-23 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment with geographic location information
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US20060089907A1 (en) 2004-10-22 2006-04-27 Klaus Kohlmaier Invoice verification process
US7464066B2 (en) 2004-10-26 2008-12-09 Applied Intelligence Solutions, Llc Multi-dimensional, expert behavior-emulation system
US7492943B2 (en) 2004-10-29 2009-02-17 George Mason Intellectual Properties, Inc. Open set recognition using transduction
US20060095372A1 (en) 2004-11-01 2006-05-04 Sap Aktiengesellschaft System and method for management and verification of invoices
US20060095374A1 (en) 2004-11-01 2006-05-04 Jp Morgan Chase System and method for supply chain financing
KR100653886B1 (ko) 2004-11-05 2006-12-05 주식회사 칼라짚미디어 혼합코드 및 혼합코드 인코딩 방법과 장치
US7782384B2 (en) 2004-11-05 2010-08-24 Kelly Douglas J Digital camera having system for digital image composition and related method
US20060112340A1 (en) 2004-11-22 2006-05-25 Julia Mohr Portal page conversion and annotation
JP4345651B2 (ja) 2004-11-29 2009-10-14 セイコーエプソン株式会社 画像情報の評価方法、画像情報の評価プログラム及び画像情報評価装置
US7428331B2 (en) 2004-11-30 2008-09-23 Seiko Epson Corporation Page background estimation using color, texture and edge features
US7742641B2 (en) 2004-12-06 2010-06-22 Honda Motor Co., Ltd. Confidence weighted classifier combination for multi-modal identification
JP2006190259A (ja) 2004-12-06 2006-07-20 Canon Inc 手ぶれ判定装置及び画像処理装置及びその制御方法及びプログラム
US7168614B2 (en) 2004-12-10 2007-01-30 Mitek Systems, Inc. System and method for check fraud detection using signature validation
US7201323B2 (en) 2004-12-10 2007-04-10 Mitek Systems, Inc. System and method for check fraud detection using signature validation
US7249717B2 (en) 2004-12-10 2007-07-31 Mitek Systems, Inc. System and method for check fraud detection using signature validation
KR100670003B1 (ko) 2004-12-28 2007-01-19 삼성전자주식회사 적응형 문턱치를 이용한 영상의 평탄 영역 검출장치 및 그방법
EP1842140A4 (en) 2005-01-19 2012-01-04 Truecontext Corp APPLICATIONS BASED ON MOBILE FORMS ORDERED BY RULES
JP2006209588A (ja) 2005-01-31 2006-08-10 Casio Electronics Co Ltd 証憑書類発行装置、及び証憑書類情報のデータベース化装置
US20060195491A1 (en) 2005-02-11 2006-08-31 Lexmark International, Inc. System and method of importing documents into a document management system
GB0503970D0 (en) 2005-02-25 2005-04-06 Firstondemand Ltd Method and apparatus for authentication of invoices
US7487438B1 (en) 2005-03-08 2009-02-03 Pegasus Imaging Corporation Method and apparatus for recognizing a digitized form, extracting information from a filled-in form, and generating a corrected filled-in form
US7822880B2 (en) 2005-03-10 2010-10-26 Konica Minolta Systems Laboratory, Inc. User interfaces for peripheral configuration
US20070002348A1 (en) 2005-03-15 2007-01-04 Kabushiki Kaisha Toshiba Method and apparatus for producing images by using finely optimized image processing parameters
US8749839B2 (en) 2005-03-24 2014-06-10 Kofax, Inc. Systems and methods of processing scanned data
US9769354B2 (en) 2005-03-24 2017-09-19 Kofax, Inc. Systems and methods of processing scanned data
US9137417B2 (en) 2005-03-24 2015-09-15 Kofax, Inc. Systems and methods for processing video data
US7545529B2 (en) 2005-03-24 2009-06-09 Kofax, Inc. Systems and methods of accessing random access cache for rescanning
US7570816B2 (en) 2005-03-31 2009-08-04 Microsoft Corporation Systems and methods for detecting text
US7412425B2 (en) 2005-04-14 2008-08-12 Honda Motor Co., Ltd. Partially supervised machine learning of data classification based on local-neighborhood Laplacian Eigenmaps
CA2604490C (en) 2005-04-18 2012-04-24 Research In Motion Limited System and method for enabling assisted visual development of workflow for application tasks
JP2006301835A (ja) 2005-04-19 2006-11-02 Fuji Xerox Co Ltd 取引書類管理方法及びシステム
AU2005201758B2 (en) 2005-04-27 2008-12-18 Canon Kabushiki Kaisha Method of learning associations between documents and data sets
US20060256392A1 (en) 2005-05-13 2006-11-16 Microsoft Corporation Scanning systems and methods
US7636883B2 (en) 2005-05-18 2009-12-22 International Business Machines Corporation User form based automated and guided data collection
JP4561474B2 (ja) 2005-05-24 2010-10-13 株式会社日立製作所 電子化文書保管システム
US20060282463A1 (en) 2005-06-10 2006-12-14 Lexmark International, Inc. Virtual coversheet association application
US7957018B2 (en) 2005-06-10 2011-06-07 Lexmark International, Inc. Coversheet manager application
US20060282762A1 (en) 2005-06-10 2006-12-14 Oracle International Corporation Collaborative document review system
US20060288015A1 (en) 2005-06-15 2006-12-21 Schirripa Steven R Electronic content classification
JP4756930B2 (ja) 2005-06-23 2011-08-24 キヤノン株式会社 ドキュメント管理システム、ドキュメント管理方法、画像形成装置および情報処理装置
US7937264B2 (en) 2005-06-30 2011-05-03 Microsoft Corporation Leveraging unlabeled data with a probabilistic graphical model
US7515767B2 (en) 2005-07-01 2009-04-07 Flir Systems, Inc. Image correction across multiple spectral regimes
US20070035780A1 (en) 2005-08-02 2007-02-15 Kabushiki Kaisha Toshiba System and method for defining characteristic data of a scanned document
US8643892B2 (en) 2005-08-29 2014-02-04 Xerox Corporation User configured page chromaticity determination and splitting method
US7801382B2 (en) 2005-09-22 2010-09-21 Compressus, Inc. Method and apparatus for adjustable image compression
US7831107B2 (en) 2005-10-17 2010-11-09 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and program
US8176004B2 (en) 2005-10-24 2012-05-08 Capsilon Corporation Systems and methods for intelligent paperless document management
US7495784B2 (en) 2005-11-14 2009-02-24 Kabushiki Kiasha Toshiba Printer with print order calculation based on print creation time and process ratio
US7720206B2 (en) 2006-01-18 2010-05-18 Teoco Corporation System and method for intelligent data extraction for telecommunications invoices
US8385647B2 (en) 2006-01-25 2013-02-26 Kofax, Inc. Method of image analysis using sparse Hough transform
US7738730B2 (en) 2006-01-25 2010-06-15 Atalasoft, Inc. Method of image analysis using sparse hough transform
JP4341629B2 (ja) 2006-01-27 2009-10-07 カシオ計算機株式会社 撮像装置、画像処理方法及びプログラム
US7657091B2 (en) 2006-03-06 2010-02-02 Mitek Systems, Inc. Method for automatic removal of text from a signature area
US7562060B2 (en) 2006-03-31 2009-07-14 Yahoo! Inc. Large scale semi-supervised linear support vector machines
US8775277B2 (en) 2006-04-21 2014-07-08 International Business Machines Corporation Method, system, and program product for electronically validating invoices
US8213687B2 (en) 2006-04-28 2012-07-03 Hewlett-Packard Development Company, L.P. Image processing methods, image processing systems, and articles of manufacture
TWI311679B (en) 2006-04-28 2009-07-01 Primax Electronics Ltd A method of evaluating minimum sampling steps of auto focus
US20070260588A1 (en) 2006-05-08 2007-11-08 International Business Machines Corporation Selective, contextual review for documents
JP2007306259A (ja) 2006-05-10 2007-11-22 Sony Corp 設定画面表示制御装置、サーバー装置、画像処理システム、印刷装置、撮像装置、表示装置、設定画面表示制御方法、プログラム及びデータ構造
US7478332B2 (en) 2006-05-24 2009-01-13 170 Systems Inc. System for and method of providing a user interface for a computer-based software application
US7787695B2 (en) 2006-06-06 2010-08-31 Mitek Systems, Inc. Method for applying a signature simplicity analysis for improving the accuracy of signature validation
US20080005081A1 (en) 2006-06-28 2008-01-03 Sun Microsystems, Inc. Method and apparatus for searching and resource discovery in a distributed enterprise system
US20080086432A1 (en) 2006-07-12 2008-04-10 Schmidtler Mauritius A R Data classification methods using machine learning techniques
US7958067B2 (en) 2006-07-12 2011-06-07 Kofax, Inc. Data classification methods using machine learning techniques
US7937345B2 (en) 2006-07-12 2011-05-03 Kofax, Inc. Data classification methods using machine learning techniques
US7761391B2 (en) 2006-07-12 2010-07-20 Kofax, Inc. Methods and systems for improved transductive maximum entropy discrimination classification
WO2008008142A2 (en) 2006-07-12 2008-01-17 Kofax Image Products, Inc. Machine learning techniques and transductive data classification
US8073263B2 (en) 2006-07-31 2011-12-06 Ricoh Co., Ltd. Multi-classifier selection and monitoring for MMR-based image recognition
US20080235766A1 (en) 2006-09-01 2008-09-25 Wallos Robert Apparatus and method for document certification
JP2008134683A (ja) 2006-11-27 2008-06-12 Fuji Xerox Co Ltd 画像処理装置および画像処理プログラム
US8081227B1 (en) 2006-11-30 2011-12-20 Adobe Systems Incorporated Image quality visual indicator
US20080133388A1 (en) 2006-12-01 2008-06-05 Sergey Alekseev Invoice exception management
US7416131B2 (en) 2006-12-13 2008-08-26 Bottom Line Technologies (De), Inc. Electronic transaction processing server with automated transaction evaluation
US20080147561A1 (en) 2006-12-18 2008-06-19 Pitney Bowes Incorporated Image based invoice payment with digital signature verification
US9282446B2 (en) 2009-08-06 2016-03-08 Golba Llc Location-aware content and location-based advertising with a mobile device
US20080177643A1 (en) 2007-01-22 2008-07-24 Matthews Clifton W System and method for invoice management
US7899247B2 (en) 2007-01-24 2011-03-01 Samsung Electronics Co., Ltd. Apparatus and method of segmenting an image according to a cost function and/or feature vector and/or receiving a signal representing the segmented image in an image coding and/or decoding system
WO2008094470A1 (en) 2007-01-26 2008-08-07 Magtek, Inc. Card reader for use with web based transactions
US20080183576A1 (en) 2007-01-30 2008-07-31 Sang Hun Kim Mobile service system and method using two-dimensional coupon code
EP1956517A1 (en) 2007-02-07 2008-08-13 WinBooks s.a. Computer assisted method for processing accounting operations and software product for implementing such method
US8320683B2 (en) 2007-02-13 2012-11-27 Sharp Kabushiki Kaisha Image processing method, image processing apparatus, image reading apparatus, and image forming apparatus
US20080201617A1 (en) 2007-02-16 2008-08-21 Brother Kogyo Kabushiki Kaisha Network device and network system
JP4123299B1 (ja) 2007-02-21 2008-07-23 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP4877013B2 (ja) 2007-03-30 2012-02-15 ブラザー工業株式会社 スキャナ
US8244031B2 (en) 2007-04-13 2012-08-14 Kofax, Inc. System and method for identifying and classifying color regions from a digital image
US8279465B2 (en) 2007-05-01 2012-10-02 Kofax, Inc. Systems and methods for routing facsimiles based on content
CN101681432B (zh) 2007-05-01 2013-11-06 计算机连接管理中心公司 图片文档分割方法和系统
KR101157654B1 (ko) 2007-05-21 2012-06-18 삼성전자주식회사 화상형성장치에서 전자메일을 전송하는 방법 및 전자메일의전송이 가능한 화상형성장치
JP2009014836A (ja) 2007-07-02 2009-01-22 Canon Inc アクティブマトリクス型表示装置及びその駆動方法
JP4363468B2 (ja) 2007-07-12 2009-11-11 ソニー株式会社 撮像装置及び撮像方法並びに映像信号処理プログラム
WO2009018445A1 (en) 2007-08-01 2009-02-05 Yeda Research & Development Co. Ltd. Multiscale edge detection and fiber enhancement using differences of oriented means
US8503797B2 (en) 2007-09-05 2013-08-06 The Neat Company, Inc. Automatic document classification using lexical and physical features
US20090089078A1 (en) 2007-09-28 2009-04-02 Great-Circle Technologies, Inc. Bundling of automated work flow
US8094976B2 (en) 2007-10-03 2012-01-10 Esker, Inc. One-screen reconciliation of business document image data, optical character recognition extracted data, and enterprise resource planning data
US8244062B2 (en) 2007-10-22 2012-08-14 Hewlett-Packard Development Company, L.P. Correction of distortion in captured images
US7655685B2 (en) 2007-11-02 2010-02-02 Jenrin Discovery, Inc. Cannabinoid receptor antagonists/inverse agonists useful for treating metabolic disorders, including obesity and diabetes
US8194965B2 (en) 2007-11-19 2012-06-05 Parascript, Llc Method and system of providing a probability distribution to aid the detection of tumors in mammogram images
US8311296B2 (en) 2007-11-21 2012-11-13 Parascript, Llc Voting in mammography processing
US8103048B2 (en) * 2007-12-04 2012-01-24 Mcafee, Inc. Detection of spam images
US8194933B2 (en) * 2007-12-12 2012-06-05 3M Innovative Properties Company Identification and verification of an unknown document according to an eigen image process
US8582862B2 (en) 2010-05-12 2013-11-12 Mitek Systems Mobile image quality assurance in mobile document image processing applications
US8483473B2 (en) 2008-01-18 2013-07-09 Mitek Systems, Inc. Systems and methods for obtaining financial offers using mobile image capture
US9298979B2 (en) 2008-01-18 2016-03-29 Mitek Systems, Inc. Systems and methods for mobile image capture and content processing of driver's licenses
US10528925B2 (en) 2008-01-18 2020-01-07 Mitek Systems, Inc. Systems and methods for mobile automated clearing house enrollment
US10102583B2 (en) 2008-01-18 2018-10-16 Mitek Systems, Inc. System and methods for obtaining insurance offers using mobile image capture
US7953268B2 (en) 2008-01-18 2011-05-31 Mitek Systems, Inc. Methods for mobile image capture and processing of documents
US9292737B2 (en) 2008-01-18 2016-03-22 Mitek Systems, Inc. Systems and methods for classifying payment documents during mobile image processing
US20130297353A1 (en) 2008-01-18 2013-11-07 Mitek Systems Systems and methods for filing insurance claims using mobile imaging
US8379914B2 (en) 2008-01-18 2013-02-19 Mitek Systems, Inc. Systems and methods for mobile image capture and remittance processing
US8577118B2 (en) 2008-01-18 2013-11-05 Mitek Systems Systems for mobile image capture and remittance processing
US20090204530A1 (en) 2008-01-31 2009-08-13 Payscan America, Inc. Bar coded monetary transaction system and method
US9082080B2 (en) 2008-03-05 2015-07-14 Kofax, Inc. Systems and methods for organizing data sets
US8135656B2 (en) 2008-04-22 2012-03-13 Xerox Corporation Online management service for identification documents which prompts a user for a category of an official document
US7949167B2 (en) 2008-06-12 2011-05-24 Siemens Medical Solutions Usa, Inc. Automatic learning of image features to predict disease
US8520979B2 (en) 2008-08-19 2013-08-27 Digimarc Corporation Methods and systems for content processing
US9177218B2 (en) 2008-09-08 2015-11-03 Kofax, Inc. System and method, and computer program product for detecting an edge in scan data
JP4623388B2 (ja) 2008-09-08 2011-02-02 ソニー株式会社 画像処理装置および方法、並びにプログラム
WO2010030056A1 (en) 2008-09-10 2010-03-18 Bionet Co., Ltd Automatic contour detection method for ultrasonic diagnosis appartus
US8306327B2 (en) 2008-12-30 2012-11-06 International Business Machines Corporation Adaptive partial character recognition
US8879846B2 (en) 2009-02-10 2014-11-04 Kofax, Inc. Systems, methods and computer program products for processing financial documents
US8345981B2 (en) 2009-02-10 2013-01-01 Kofax, Inc. Systems, methods, and computer program products for determining document validity
US8958605B2 (en) 2009-02-10 2015-02-17 Kofax, Inc. Systems, methods and computer program products for determining document validity
US8774516B2 (en) 2009-02-10 2014-07-08 Kofax, Inc. Systems, methods and computer program products for determining document validity
US8406480B2 (en) 2009-02-17 2013-03-26 International Business Machines Corporation Visual credential verification
DE202010018601U1 (de) 2009-02-18 2018-04-30 Google LLC (n.d.Ges.d. Staates Delaware) Automatisches Erfassen von Informationen, wie etwa Erfassen von Informationen unter Verwendung einer dokumentenerkennenden Vorrichtung
US8498486B2 (en) 2009-03-12 2013-07-30 Qualcomm Incorporated Response to detection of blur in an image
US20100280859A1 (en) 2009-04-30 2010-11-04 Bank Of America Corporation Future checks integration
RS51531B (en) 2009-05-29 2011-06-30 Vlatacom D.O.O. MANUAL PORTABLE DEVICE FOR VERIFICATION OF PASSENGERS AND PERSONAL DOCUMENTS, READING BIOMETRIC DATA
US20100331043A1 (en) 2009-06-23 2010-12-30 K-Nfb Reading Technology, Inc. Document and image processing
JP5397059B2 (ja) 2009-07-17 2014-01-22 ソニー株式会社 画像処理装置および方法、プログラム、並びに記録媒体
JP4772894B2 (ja) 2009-08-03 2011-09-14 シャープ株式会社 画像出力装置、携帯端末装置、撮像画像処理システム、画像出力方法、プログラムおよび記録媒体
JP4856263B2 (ja) 2009-08-07 2012-01-18 シャープ株式会社 撮像画像処理システム、画像出力方法、プログラムおよび記録媒体
US8819172B2 (en) 2010-11-04 2014-08-26 Digimarc Corporation Smartphone-based methods and systems
KR101611440B1 (ko) 2009-11-16 2016-04-11 삼성전자주식회사 이미지 처리 방법 및 장치
JP2011118513A (ja) * 2009-12-01 2011-06-16 Toshiba Corp 文字認識装置および帳票識別方法
US8406554B1 (en) 2009-12-02 2013-03-26 Jadavpur University Image binarization based on grey membership parameters of pixels
US8532419B2 (en) 2010-01-13 2013-09-10 iParse, LLC Automatic image capture
US20110249905A1 (en) 2010-01-15 2011-10-13 Copanion, Inc. Systems and methods for automatically extracting data from electronic documents including tables
US8600173B2 (en) * 2010-01-27 2013-12-03 Dst Technologies, Inc. Contextualization of machine indeterminable information based on machine determinable information
JP5426422B2 (ja) 2010-02-10 2014-02-26 株式会社Pfu 画像処理装置、画像処理方法及び画像処理プログラム
US8515208B2 (en) 2010-04-05 2013-08-20 Kofax, Inc. Method for document to template alignment
US8600167B2 (en) 2010-05-21 2013-12-03 Hand Held Products, Inc. System for capturing a document in an image signal
US9047531B2 (en) 2010-05-21 2015-06-02 Hand Held Products, Inc. Interactive user interface for capturing a document in an image signal
EP2395461A1 (de) 2010-06-08 2011-12-14 Deutsche Post AG System zur Optimierung von Abhol- und/oder Lieferfahrten
US8548201B2 (en) 2010-09-02 2013-10-01 Electronics And Telecommunications Research Institute Apparatus and method for recognizing identifier of vehicle
US20120116957A1 (en) 2010-11-04 2012-05-10 Bank Of America Corporation System and method for populating a list of transaction participants
US8995012B2 (en) 2010-11-05 2015-03-31 Rdm Corporation System for mobile image capture and processing of financial documents
US8754988B2 (en) 2010-12-22 2014-06-17 Tektronix, Inc. Blur detection with local sharpness map
US20120194692A1 (en) 2011-01-31 2012-08-02 Hand Held Products, Inc. Terminal operative for display of electronic record
US8811711B2 (en) 2011-03-08 2014-08-19 Bank Of America Corporation Recognizing financial document images
US8533595B2 (en) 2011-04-19 2013-09-10 Autodesk, Inc Hierarchical display and navigation of document revision histories
US9400806B2 (en) 2011-06-08 2016-07-26 Hewlett-Packard Development Company, L.P. Image triggered transactions
US9418304B2 (en) * 2011-06-29 2016-08-16 Qualcomm Incorporated System and method for recognizing text information in object
US20130027757A1 (en) 2011-07-29 2013-01-31 Qualcomm Incorporated Mobile fax machine with image stitching and degradation removal processing
US8559766B2 (en) 2011-08-16 2013-10-15 iParse, LLC Automatic image capture
US8660943B1 (en) 2011-08-31 2014-02-25 Btpatent Llc Methods and systems for financial transactions
CN102982396B (zh) 2011-09-06 2017-12-26 Sap欧洲公司 通用过程建模框架
US9710821B2 (en) 2011-09-15 2017-07-18 Stephan HEATH Systems and methods for mobile and online payment systems for purchases related to mobile and online promotions or offers provided using impressions tracking and analysis, location information, 2D and 3D mapping, mobile mapping, social media, and user behavior and
US8768834B2 (en) 2011-09-20 2014-07-01 E2Interactive, Inc. Digital exchange and mobile wallet for digital currency
US9123005B2 (en) 2011-10-11 2015-09-01 Mobiwork, Llc Method and system to define implement and enforce workflow of a mobile workforce
US9087262B2 (en) 2011-11-10 2015-07-21 Fuji Xerox Co., Ltd. Sharpness estimation in document and scene images
US8701166B2 (en) 2011-12-09 2014-04-15 Blackberry Limited Secure authentication
US9058515B1 (en) 2012-01-12 2015-06-16 Kofax, Inc. Systems and methods for identification document processing and business workflow integration
US9165188B2 (en) 2012-01-12 2015-10-20 Kofax, Inc. Systems and methods for mobile image capture and processing
US9275281B2 (en) 2012-01-12 2016-03-01 Kofax, Inc. Mobile image capture, processing, and electronic form generation
TWI588778B (zh) * 2012-01-17 2017-06-21 國立臺灣科技大學 動作辨識方法
JP5914045B2 (ja) 2012-02-28 2016-05-11 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
US8990112B2 (en) 2012-03-01 2015-03-24 Ricoh Company, Ltd. Expense report system with receipt image processing
JP5734902B2 (ja) 2012-03-19 2015-06-17 株式会社東芝 建設工程管理システムおよびその管理方法
US20130268430A1 (en) 2012-04-05 2013-10-10 Ziftit, Inc. Method and apparatus for dynamic gift card processing
US20130268378A1 (en) 2012-04-06 2013-10-10 Microsoft Corporation Transaction validation between a mobile communication device and a terminal using location data
US8639621B1 (en) 2012-04-25 2014-01-28 Wells Fargo Bank, N.A. System and method for a mobile wallet
US8441548B1 (en) 2012-06-15 2013-05-14 Google Inc. Facial image quality assessment
US8781229B2 (en) * 2012-06-29 2014-07-15 Palo Alto Research Center Incorporated System and method for localizing data fields on structured and semi-structured forms
US9092773B2 (en) 2012-06-30 2015-07-28 At&T Intellectual Property I, L.P. Generating and categorizing transaction records
US20140012754A1 (en) 2012-07-06 2014-01-09 Bank Of America Corporation Financial document processing system
US8705836B2 (en) 2012-08-06 2014-04-22 A2iA S.A. Systems and methods for recognizing information in objects using a mobile device
US9928406B2 (en) 2012-10-01 2018-03-27 The Regents Of The University Of California Unified face representation for individual recognition in surveillance videos and vehicle logo super-resolution system
US9355312B2 (en) 2013-03-13 2016-05-31 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
JP2016517587A (ja) 2013-03-13 2016-06-16 コファックス, インコーポレイテッド モバイル装置を用いて取込まれたデジタル画像におけるオブジェクトの分類
US9384566B2 (en) 2013-03-14 2016-07-05 Wisconsin Alumni Research Foundation System and method for simulataneous image artifact reduction and tomographic reconstruction
US20140316841A1 (en) 2013-04-23 2014-10-23 Kofax, Inc. Location-based workflows and services
DE202014011407U1 (de) 2013-05-03 2020-04-20 Kofax, Inc. Systeme zum Erkennen und Klassifizieren von Objekten in durch Mobilgeräte aufgenommenen Videos
RU2541353C2 (ru) 2013-06-19 2015-02-10 Общество с ограниченной ответственностью "Аби Девелопмент" Автоматическая съемка документа с заданными пропорциями
US20150120564A1 (en) 2013-10-29 2015-04-30 Bank Of America Corporation Check memo line data lift
US20150161765A1 (en) 2013-12-06 2015-06-11 Emc Corporation Scaling mobile check photos to physical dimensions
US9760788B2 (en) 2014-10-30 2017-09-12 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101493830A (zh) * 2004-04-29 2009-07-29 Nec软件有限公司 结构化自然语言查询和知识系统
CN101295305A (zh) * 2007-04-25 2008-10-29 富士通株式会社 图像检索装置
US20120294524A1 (en) * 2007-09-28 2012-11-22 Abbyy Software Ltd. Enhanced Multilayer Compression of Image Files Using OCR Systems
CN101329731A (zh) * 2008-06-06 2008-12-24 南开大学 图像中数学公式的自动识别方法
US20110129153A1 (en) * 2009-12-02 2011-06-02 David Petrou Identifying Matching Canonical Documents in Response to a Visual Query

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378634A (zh) * 2016-02-15 2021-09-10 电子湾有限公司 数字图像呈现
US12008034B2 (en) 2016-02-15 2024-06-11 Ebay Inc. Digital image presentation
CN113378634B (zh) * 2016-02-15 2024-05-07 电子湾有限公司 数字图像呈现
CN108604368A (zh) * 2016-03-04 2018-09-28 系统股份公司 图像旋转方法/装置及包括所述旋转方法/装置的印刷方法/系统
CN110168606A (zh) * 2016-06-08 2019-08-23 谷歌有限责任公司 从实体物品生成合成图像
CN110168606B (zh) * 2016-06-08 2023-09-26 谷歌有限责任公司 生成实体物品的合成图像的方法和系统
CN106407997A (zh) * 2016-07-14 2017-02-15 昆山饰爱阿智能科技有限公司 一种使用移动设备识别对象的系统及其识别方法
CN107871130A (zh) * 2016-09-27 2018-04-03 顶级公司 图像处理
CN107871130B (zh) * 2016-09-27 2023-04-18 Arm有限公司 图像处理
CN108073927A (zh) * 2016-11-18 2018-05-25 深圳怡化电脑股份有限公司 一种字符识别方法及装置
US11158057B2 (en) 2016-12-30 2021-10-26 Huawei Technologies Co., Ltd. Device, method, and graphical user interface for processing document
CN110100251A (zh) * 2016-12-30 2019-08-06 华为技术有限公司 用于处理文档的设备、方法和图形用户界面
CN110869942A (zh) * 2017-07-10 2020-03-06 通用电气公司 自馈深度学习方法和系统
CN110869942B (zh) * 2017-07-10 2023-05-09 通用电气公司 自馈深度学习方法和系统
CN110619343B (zh) * 2018-06-20 2023-06-06 亚摩信息技术(上海)有限公司 基于机器学习的自动缺陷分类方法
CN110619343A (zh) * 2018-06-20 2019-12-27 亚摩信息技术股份有限公司 基于机器学习的自动缺陷分类方法
CN109557109A (zh) * 2018-12-29 2019-04-02 中国肉类食品综合研究中心 冷冻肉品包装状态的检测方法及装置
CN111738026A (zh) * 2019-03-19 2020-10-02 康耐视公司 用于评估符号的系统和方法
CN112232335A (zh) * 2019-07-15 2021-01-15 德国邮政股份公司 对自动化分配和/或分拣寄送物的分配信息和/或分拣信息的确定
CN111445433A (zh) * 2019-10-14 2020-07-24 北京华宇信息技术有限公司 一种电子卷宗的空白页和模糊页的检测方法及装置
CN111311550B (zh) * 2020-01-20 2024-01-05 支付宝实验室(新加坡)有限公司 伪造证件的识别方法、装置及电子设备
CN111311550A (zh) * 2020-01-20 2020-06-19 支付宝实验室(新加坡)有限公司 伪造证件的识别方法、装置及电子设备
WO2021147222A1 (zh) * 2020-01-22 2021-07-29 平安科技(深圳)有限公司 基于ocr的表格版式恢复方法、装置、电子设备及存储介质
CN111369923B (zh) * 2020-02-26 2023-09-29 歌尔光学科技有限公司 显示屏幕异常点检测方法、检测设备和可读存储介质
CN111369923A (zh) * 2020-02-26 2020-07-03 歌尔股份有限公司 显示屏幕异常点检测方法、检测设备和可读存储介质
CN114581786B (zh) * 2021-12-28 2022-11-25 深圳市城市产业发展集团有限公司 一种根据地面图像估测建筑面积的方法和装置
CN114581786A (zh) * 2021-12-28 2022-06-03 深圳市城市产业发展集团有限公司 一种根据地面图像估测建筑面积的方法和装置

Also Published As

Publication number Publication date
US20140270536A1 (en) 2014-09-18
EP2973226A4 (en) 2016-06-29
US20150339526A1 (en) 2015-11-26
WO2014160426A1 (en) 2014-10-02
EP2973226A1 (en) 2016-01-20
US9754164B2 (en) 2017-09-05
JP2016517587A (ja) 2016-06-16
US9311531B2 (en) 2016-04-12

Similar Documents

Publication Publication Date Title
CN105283884A (zh) 对移动设备捕获的数字图像中的对象进行分类
CN105308944A (zh) 对移动设备捕获的数字图像中的对象进行分类的系统和方法
Bukhari et al. Layout analysis for arabic historical document images using machine learning
CN103975342A (zh) 用于移动图像捕获和处理的系统和方法
CN107491730A (zh) 一种基于图像处理的化验单识别方法
RU2695054C1 (ru) Детектирование баркодов на изображениях
CN111860525B (zh) 一种适用于端子排的自底向上光学字符识别方法
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的系统及方法
KR20100101141A (ko) 동적 문서 식별 프레임워크를 사용한 문서 검증
CN101925905A (zh) 根据特征图像流程识别和验证未知文档
US20040086153A1 (en) Methods and systems for recognizing road signs in a digital image
CN108681735A (zh) 基于卷积神经网络深度学习模型的光学字符识别方法
CN109635805A (zh) 图像文本定位方法及装置、图像文本识别方法及装置
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
CN106203454A (zh) 证件版式分析的方法及装置
CN112052845A (zh) 图像识别方法、装置、设备及存储介质
CN105404868A (zh) 一种基于交互平台的复杂背景中文本的快速检测方法
Vil’kin et al. Algorithm for segmentation of documents based on texture features
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN113792659B (zh) 文档识别方法、装置及电子设备
CN111507119B (zh) 标识码识别方法、装置、电子设备及计算机可读存储介质
CN110210467A (zh) 一种文本图像的公式定位方法、图像处理装置、存储介质
CN110766001B (zh) 基于cnn和rnn的银行卡卡号定位与端到端识别方法
CN1207673C (zh) 半色调点消除方法及其系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160127