CN101611406A - 文档存档系统 - Google Patents

文档存档系统 Download PDF

Info

Publication number
CN101611406A
CN101611406A CNA200780051599XA CN200780051599A CN101611406A CN 101611406 A CN101611406 A CN 101611406A CN A200780051599X A CNA200780051599X A CN A200780051599XA CN 200780051599 A CN200780051599 A CN 200780051599A CN 101611406 A CN101611406 A CN 101611406A
Authority
CN
China
Prior art keywords
text document
document
picture
file
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA200780051599XA
Other languages
English (en)
Inventor
阿舒托什·加尔格
马尤尔·达塔尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN101611406A publication Critical patent/CN101611406A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)

Abstract

一种系统根据接收的文档图像生成文本文档。可以通过用户或者通过用于生成文本文档的模板将可搜索的元数据元素分配给全部或部分文本文档。文本文档和关联的元数据元素可以被存储以便于根据文本文档的内容和/或其关联的元数据元素对文本文档随后进行搜索与检索。

Description

文档存档系统
技术领域
在此描述的系统和方法通常涉及信息检索,更具体地,涉及存档用户信息用于随后的搜索与检索。
背景技术
现代的计算机网络,以及具体地,因特网,已经产生广泛和容易获得的大量信息。因特网搜索引擎例如索引链接到因特网的成千上百万的web文档。连接到因特网的用户可以输入简单的搜索查询以很快地定位与搜索查询有关的web文档。
除诸如网站及其他联机文档的公开可获得的文档之外,最近做出努力以便于索引以及存储用户文档,诸如文字处理文档、电子邮件、音乐等等。诸如Google桌面搜索、Copernic桌面搜索以及苹果计算机公司的Safari的应用通常爬取(crawl)用户的本地存储的指定部分以及维护在其中识别的可搜索文档的索引。遗憾地是,传统的文档索引工具不提供基于非文本的文档的存储或高效索引。
发明内容
根据一个方面,一种方法可以包括接收文档图像。文档图像可以被转换为文本文档。可以获得关于文本文档的可搜索信息。至少一个可搜索元数据元素可以与所述文本文档相关联。所述文本文档和所述至少一个可搜索元数据元素可以被存储用于随后的根据所述至少一个可搜索元数据元素的检索。
根据另一个方面,一种系统可以包括被配置为捕捉文档的图像的文档捕捉系统和处理器系统。处理器系统可以被配置为识别包含在所述图像内的文本;根据所识别的文本生成文本文档;获得关于所述文本文档的可搜索信息;将至少一个可搜索元数据元素与所述文本文档相关联;以及经由计算机网络将所述文本文档和所述至少一个可搜索元数据元素传送到数据库用于随后的根据所述至少一个可搜索元数据元素的检索。
根据另一个方面,一种方法可以包括接收图像文档;识别包含在所述图像文档内的文本;根据所识别的文本生成文本文档;获得关于所述文本文档的可搜索信息;根据所述可搜索信息将至少一个可搜索元数据元素与所述文本文档相关联;以及将所述文本文档和所述至少一个可搜索元数据元素存储在数据库中用于随后的根据所述至少一个可搜索元数据元素的检索。
附图说明
并入本发明书并组成本发明书的一部分的附图图示了本发明的实施例以及和说明书一起解释本发明。在附图中:
图1是其中可以实现与在此描述的方面一致的系统和方法的示例系统100的图;
图2是图1的客户端或服务器实体的示例图;
图3是可以由图1的处理系统使用的示例计算机可读介质的一部分的图;
图4是示例的光学字符识别模板的示例图;以及
图5是用于捕捉、处理以及管理文档的示例处理的流程图。
具体实施方式
本发明的以下详细描述参考附图。在不同附图中,相同参考标记可以标示相同或相似的元素。此外,以下的详细描述不限制本发明。
概述
越来越多类型的文档变得可经由搜索引擎搜索。例如,诸如个人文档、金融文档、收据、信件等等的一些文档可以被扫描并且他们的文本可以经由光学字符识别(OCR)来识别。与在此描述的实施方式一致,使得能够以有效并简单的方式存档和搜索这些文档可以是有益的。
与在此描述的实施例一致的系统和方法可以有助于捕捉或检索文档和向文档分配相关元数据信息。文档可以是被OCR化或以另外方式被处理以生成被捕捉文档的文本版本。文档以及它的关联的元数据和文本版本可以被存储在联机储存库或服务器上,使得文档信息可以被多个设备根据包括在文本版本和关联的元数据内的信息轻易地搜索或检索。
示例系统
图1是在其中可以实现与在此描述的方面一致的系统和方法的示例系统100的图。系统100可以包括文档捕捉系统110、处理系统120、网络130、文档数据库服务器140以及模板数据库服务器150。在一个实施例中,文档捕捉系统110可以包括扫描仪或类似的图像捕捉设备,其被配置为扫描文档的页面。扫描仪可以使用用于扫描或捕捉文档的传统技术。在另一个实施例中,文档捕捉系统110可以被配置为检索和/或导入可以包括或可以不包括计算机可读的文本信息的数字文档。例如,文档捕捉系统110可以被配置为通过网络130从银行web服务器(未示出)检索联机银行对账单。这样的联机银行对帐单初始可以以图像或非本文地识别的电子文档格式(例如,pdf、tiff、jpeg等等)被检索。如在此使用的术语“文档”应被广泛地解释为包括任何机器可读的以及机器可储存的产品、电子媒体、印刷媒体等等。文档可以包括例如包含在印刷媒体(例如,报纸、杂志、书、百科全书等等)、电子报纸、电子图书、电子杂志、在线百科全书、电子媒体(例如,图像文件、音频文件、视频文件、web广播、播客等等)等等中的信息。
如以下更详细描述的,处理系统120可以被配置为对由文档捕捉系统110捕捉的或以另外方式检索的文档执行OCR以识别与文档相关联的文本。处理系统120可以包括客户端实体,其中实体可以被定义为诸如个人计算机、无线电话、个人数字助理(PDA)、膝上型计算机或另一类型的计算或通信设备的设备,在这些设备中的一个上运行的线程或过程和/或由这些设备中的一个可执行的对象。在其它方面中,处理系统120可以包括收集、处理、搜索和/或维护文档的服务器实体。在这样的方面中,“瘦客户端”设备可以被配置为与基于服务器的处理系统120交互,其中对文档的处理可以相对客户端设备远程地执行。
在一个实施方式中,由处理系统120进行的OCR处理可以对每个被捕捉文档的整体执行,而没有与之相关联的预先配置的元数据。在替选的实施方式中,OCR处理可以基于可以由处理系统120自动选择的或者由用户选择和/或配置的模板或初步配置。模板可以向文档的各部分分配可搜索的元数据或可以指示处理系统120仅仅对文档的预定部分进行OCR。
使用上述银行对帐单示例,提供OCR模板的银行可以将关于对账单的什么部分涉及什么类型的信息指示给处理系统120。例如,对账单文档的第一部分可以包括账户信息,而第二部分可以包括交易信息。模板可以进一步表示只有对账单的交易信息部分应该被OCR化。通过在OCR或文档的其它处理之前提供关于文档的信息,可以更有效地执行信息捕捉。在一个示例的实施方式中,模板可以被存储或以另外方式被维护在模板数据库服务器150的模板数据库155上,并且可以经由网络130访问。在另一个实施例(未示出)中,模板数据库服务器150和/或模板数据库155对于处理系统120可以是本地的。下面详细地阐述关于以上所述实施方式的附加细节。
文档数据库服务器140可以包括文档数据库145,被配置为存储与文档相关联的被OCR的文本以及分配给被捕捉文档的或与被捕捉文档相关联的任何元数据。在一个实施方式中,被捕捉文档的电子副本也可以被保存在文档数据库145中。如所示,在一个实施方式中,文档数据库服务器140可以经由网络130连接到处理系统120。然而,在替选实施方式中,文档数据库服务器140和/或文档数据库145可以相对于处理系统120被本地存储。
文档数据库服务器140可以在文档数据库145的数据库记录内存储文档的文本信息和元数据信息。在一个实施方式中,虽然可以根据在此描述的方面实现任何适当的数据库结构,但是可以安排文档数据库145的记录以形成关系数据库。
网络130可以包括局域网(LAN)、广域网(WAN)、诸如公共电话交换网(PSTN)的电话网络、内联网、因特网或网络的组合。处理系统120和数据库服务器140和150可以经由有线、无线和/或光学连接来连接到网络130。
示例的处理系统/扫描系统体系结构
图2是客户端或服务器实体(在下文中称为“系统110/120”)的示例图,其可以对应于文档捕捉系统110、处理系统120、文档数据库服务器140和/或模板数据库服务器150中的一个或多个。在该实施方式中,系统110/120可以采取计算机的形式。在另一个实施方式中,系统110/120可以包括一组协作计算机。系统110/120可以包括总线210、处理器220、主存储器230、只读存储器(ROM)240、存储设备250、输入设备260、输出设备270和通信接口280。总线210可以包括允许在系统110/120的元件之中进行通信的路径。
处理器220可以包括处理器、微处理器或可以解释和执行指令的处理逻辑。主存储器230可以包括随机存取存储器(RAM)或可以存储供处理器220执行的信息和指令的另一类型的动态存储设备。ROM 240可以包括ROM设备或可以存储用于由处理器220使用的静态信息和指令的另一类型的静态存储设备。存储设备250可以包括磁和/或光学记录介质和它的相应驱动。
输入设备260可以包括允许操作者输入信息给系统110/120的机制,例如键盘、鼠标、笔语音识别和/或生物测定机制等等。输出设备270可以包括输出信息给操作者的机制,包括显示器、打印机、扬声器等等。通信接口280可以包括使系统110/120能够与其他设备和/或系统进行通信的任何类收发机机制。例如,通信接口280可以包括用于经由诸如网络130的网络与另一个设备或系统进行通信的机制。
如以下将详细描述的,系统110/120可以执行与某种文档处理有关的操作。响应于处理器220执行包含在诸如存储器230的计算机可读介质中的软件指令,系统110/120可以执行这些操作。计算机可读介质可以被定义为物理或逻辑存储设备和/或载波。
软件指令可以经由通信接口280从诸如数据存储设备250的另一个计算机可读介质或从另一个设备读取到存储器230。包含在存储器230中的软件指令可以使处理器220执行后面将描述的过程。替选地,硬连接的电路可以用于替代软件指令或与软件指令结合以实现在本发明的各种方面中的过程。因此,本发明的实施方式不局限于硬件电路和软件的任何特定组合。
示例的计算机可读介质
图3是可以由处理系统120使用的示例计算机可读介质300的一部分的图。在一个实施方式中,计算机可读介质300可以对应于客户端120的存储器230。在图3中图示的部分计算机可读介质300可以包括操作系统310、OCR软件320和文档管理软件330。
更具体地,操作系统310可以包括操作系统软件,诸如微软公司
Figure G200780051599XD00061
Unix或Linux操作系统。OCR软件320可以包括或使用软件(例如,驱动)用于与文档捕捉系统110交互以发起通过文档捕捉系统110对文档图像进行捕捉。另外,OCR软件320可以包括用于将被捕捉文档的图像转换为文本版本的软件。如上面简短地描述的,OCR软件320可以使用从模板数据库服务器150获取的模板以帮助文档的有效识别和对其分配元数据元素。
图4是关于如上所述银行对帐单示例的OCR模板400的示例的图形表述的示例图。如所示,模板400可以识别关于头部和底部信息的几个非OCR区405和410,其可以指示处理系统120不对被捕捉文档的与这些区的位置有关的部分执行OCR处理。账户区415可以指示处理系统120将“帐号信息”元数据元素分配给在被捕捉文档的与区415的位置有关的部分中识别的任何文本信息。类似地,交易区420可以指示处理系统120将“交易”元数据元素分配给在被捕捉文档的与区420的位置有关的部分中识别的任何文本信息。通过对使用模板处理的文档指定OCR处理和元数据分配,可以比通过手动实现更高效地执行识别和元数据分配。
在与在此描述的方面一致的一个实施方式中,OCR软件320可以确定用于被转换的文档的OCR置信度,其表示或以其它方式确定文档图像已经被精确地转换为文本版本的可能性。在一个实施例中,OCR软件可以在OCR置信度低于预定水平时发起重新扫描或重新捕捉文档图像。在一个实施方式中,以增加的分辨率执行重新扫描或重新捕捉。在进一步实施方式中,可以利用仅在用于预定区域的OCR置信度低于预定水平时执行重新扫描或重新捕捉,对在模板中识别的每个区域生成OCR置信度。替选地,用于文档的不同区域的OCR置信度阈值可以基于包含在其中的信息的相对重要性而不同。这消除由从不重要的或次要的区域重新扫描或重新捕捉数据所引起的不必要的延迟,同时对于更重要的区域维持高精确转换。
文档管理软件330可以包括用于使得能够手动校阅通过OCR软件320输出的文档的文本版本的软件。文档管理软件330可以提供对文本版本的校正或编辑,以及对文本版本的一个或多个部分的元数据元素的分配。例如,继续如上所述的银行对帐单示例,对账单日期或日期范围和银行或帐户名可以被分配给文件。另外,文档的某些部分可以被分配“借方”元数据元素,而文档的其他部分可以被分配“贷方”元数据元素。文档管理软件330可以提供将文本版本、它的关联的元数据元素和/或它的关联的文档图像到文档数据库服务器140的存储用于随后的搜索与检索。在一个实施方式中,文档管理软件330可以包括图像管理应用,诸如LighthouseTM
Figure G200780051599XD00082
使用文档数据和一个或多个元数据元素的组合,将元数据元素分配给文档的可搜索文本版本可以有助于高效地检索包含在文档中的信息。例如,响应于用户搜索文本版本中的特定收款人以及文档日期范围内的日期和交易类型,可以更容易地检索包括特定交易的文档。
示例处理
图5是用于捕捉、处理以及管理文档的示例处理的流程图。图5的处理可以由在文档捕捉系统11 0或处理系统120或其组合内的一个或多个软件和/或硬件组件执行。在另一个实施方式中,处理可以由在从文档捕捉系统110和/或处理系统120分离出来的另一个设备或一组设备内的或者在包括文档捕捉系统110和/或处理系统120的另一个设备或一组设备内的一个或多个软件和/或硬件组件执行。
处理可以从文档捕捉系统110捕捉表示文档的一个或多个图像开始(动作510)。如上所述,一个实施方式可以使用传统的扫描技术来捕捉文档的各页面的图像。替选地,可以从本地可访问的电子源或者从经由网络130可访问的远程资源检索或捕捉文档图像。
一旦被捕捉,可以对文档图像执行OCR处理以生成文档的文本或可搜索版本(动作515)。OCR处理可以包括根据文档的页面的图像对图像分析包括在其中的可识别的文本和文本的特性(例如,字体、大小、格式等等)以及关于文本位于页面的什么地方的信息。
在一个实施方式中,可以对每个文档图像的整体执行OCR处理。在另一个实施方式中,可以根据从模板数据库服务器150检索的模板或替选地从本地存储(例如,数据存储设备250)检索的模板对部分文档图像执行OCR处理。例如,在一个实施方式中,银行可以提供来自托管在服务器150上的网站的模板。在另一个示例中,用户可以配置或保存随后用于相似类型的文档的模板。如上所述,模板可以表示一种类型的文档中的各种区域和可以用来建立元数据元素或将元数据元素分配给那些区域或总体上分配给文档。在与在此描述的方面一致的另一个实施方式中,模板可以指示OCR处理执行对某一置信水平的识别。
一旦已经生成文档的文本版本,可以确定用于转换的置信水平(动作520)。然后可以确定置信水平是否满足或超过表示精确转换的预定阈值水平(动作525)。如果不满足预定阈值(动作525-否),处理可以返回动作510用于以同样的或提高的分辨率进行重新捕捉。然而,如果已满足预定阈值(动作525-是),生成的文本版本可以被呈现给用户用于手动校阅和/或编辑(动作530)。可以接收对文本版本的任何变化、增加或删除(动作535)。通过提供对生成的文本版本的手动校阅,用户可以高效地校正OCR错误和从文本版本移除被认为是敏感的或机密的信息。
接下来,可以将一个或多个元数据元素与文本版本相关联或分配给文本版本以帮助对文本版本的增强的搜索和/或检索(动作540)。如上所述,在文档的文本中不存在但表示文档内容的信息可以作为元数据元素被添加到整个文档或者添加到文本文档的指定部分。例如,使用上面初始呈现的银行对帐单示例,诸如“银行对帐单”、文档日期或日期范围、账户别名等等的元数据元素可以被分配给文档的文本版本。另外,元数据元素可以分配给文档的文本版本的被选择部分。例如,贷方交易可以被分配“贷方”元数据元素,而在银行对帐单中的借方交易可以被分配“借方”元数据元素。用这种方式,关于被OCR的内容的信息可以与文本文档相关联。
一旦期望的元数据元素已经被分配或者如果通过模板被初始分配、移除或编辑,文本版本和它的关联的元数据元素可以被存储在文档数据库服务器140上的文档数据库145(动作545)。在示例的实施方式中,文档数据库服务器140可以是web服务器,被配置为维护用于用户的OCR的文档的联机存储环境。在其它实施方式中,用户还可以在文档数据库145中存储捕捉的图像,从而使得能够对实际图象文档以及它的文本版本的随后检索。
结论
在此描述的系统和方法可以自动地识别与文档相关联的元数据并且可以创造在元数据和文档的图像和/或文本版本之间的关联,使得文档内容和它的关联元数据可用于搜索和/或其它处理。
本发明的优选实施例的先前描述提供了图示和说明,但不是意指穷举的或将本发明限制为公开的精确形式。考虑到以上所述教导,改型和变化是可行的或者可以从本发明的实践中获得。
例如,尽管已经就图5描述了一系列动作,但是在与本发明的原则一致的其他实施方式中,动作的顺序可以被修改。更进一步,可以并行执行非依赖的动作。
如上所述,明显地,本发明的方面可以在附图中图示的实施方式中的软件、固件和硬件中的许多不同形式实现。用于实现与本发明的原理一致的方面的实际的软件代码或专门的控制硬件不限制本发明。因此,没有参考特定的软件代码描述各方面的操作和行为,可以理解技术人员能够设计软件和控制硬件以实现根据在此的描述的多个方面。
除非明确表示,用于本申请的元素、动作或指令不应该被认为对本发明是关键的或是必要的。此外,如在此使用的,不加数词的项旨在包括一个或多个项。在仅意指一个项的情况下,使用术语“一个”或相似语言。更进一步,除非以另外方式明确地说明,否则短语“根据”意指“至少部分地根据”。

Claims (23)

1.一种方法,包括:
接收文档图像;
将所述文档图像转换为文本文档;
获得关于所述文本文档的可搜索信息;
根据所述可搜索信息将至少一个可搜索元数据元素与所述文本文档相关联;以及
存储所述文本文档和所述至少一个可搜索元数据元素用于随后的根据所述至少一个可搜索元数据元素的检索。
2.根据权利要求1所述的方法,其中接收所述文档图像包括利用光扫描仪设备捕捉所述文档图像。
3.根据权利要求1所述的方法,其中接收所述文档图像包括从存储介质接收所述文档图像的电子版本。
4.根据权利要求3所述的方法,其中所述存储介质是可经由计算机网络访问的。
5.根据权利要求1所述的方法,其中将所述文档图像转换为所述文本文档包括:
对所述文档图像执行光学字符识别以识别所述文档的文本;以及
生成所述文本文档以包括所述文档的已识别文本。
6.根据权利要求1所述的方法,进一步包括:
检索包括用于将所述文档图像的部分转换为所述文本文档的指令的模板;以及
根据所述模板将所述文档图像转换为所述文本文档。
7.根据权利要求6所述的方法,其中检索所述模板包括从经由计算机网络可访问的模板数据库检索所述模板。
8.根据权利要求1所述的方法,进一步包括:
检索包括用于将所述至少一个可搜索元数据元素分配给与所述文档图像的至少一个部分相对应的所述文本文档的至少一个部分的指令的模板;以及
根据所述模板将所述至少一个可搜索元数据元素关联到所述文本文档的所述至少一个部分。
9.根据权利要求1所述的方法,其中存储所述文本文档和所述至少一个可搜索元数据元素用于随后的检索包括:
将所述文本文档和所述至少一个可搜索元数据元素存储在经由计算机网络可访问的服务器上。
10.根据权利要求9所述的方法,进一步包括:
将所述文档图像与所述文本文档和所述至少一个可搜索元数据元素一起存储。
11.根据权利要求1所述的方法,进一步包括:
接收修改所述文本文档的指令;
响应于所接收的指令,修改所述文本文档,以生成修改的文本文档;以及
存储所修改的文本文档和所述至少一个可搜索元数据元素用于随后的根据所述至少一个可搜索元数据元素的检索。
12.根据权利要求11所述的方法,其中所述指令包括移除所述文本文档的至少一部分的指令。
13.根据权利要求12所述的方法,其中所述指令包括改正所述文本文档的至少一部分的指令。
14.根据权利要求1所述的方法,包括:
确定表示所述文本文档相对于所述文档图像的准确度的置信水平;以及
当确定所述置信水平低于预定阈值时重新捕捉所述文档图像。
15.一种系统,包括:
用于接收文档图像的装置;
用于将所述文档图像转换为文本文档的装置;
用于获得与所述文本文档有关的可搜索信息的装置;
用于根据所述可搜索信息将至少一个可搜索元数据元素与所述文本文档相关联的装置;以及
用于存储所述文本文档和所述至少一个可搜索元数据元素用于随后的根据所述至少一个可搜索元数据元素的检索的装置。
16.一种系统,包括:
文档捕捉系统,被配置为捕捉文档的图像;以及
处理器系统,被配置为:
识别在所述图像内包含的文本;
根据所识别的文本生成文本文档;
获得关于所述文本文档的可搜索信息;
根据所述可搜索信息将至少一个可搜索元数据元素与所述文本文档相关联;以及
将所述文本文档和所述至少一个可搜索元数据元素传送到数据库用于随后的根据所述至少一个可搜索元数据元素的检索。
17.根据权利要求16所述的系统,其中所述文档捕捉系统包括光扫描仪。
18.根据权利要求16所述的系统,其中所述处理器系统进一步被配置为:
根据模板将至少一个初始元数据元素分配给所述文本文档。
19.根据权利要求18所述的系统,其中所述至少一个初始元数据元素与所述文本文档的整体相关联。
20.根据权利要求18所述的系统,其中所述至少一个初始元数据元素与在所述模板中识别的所述文本文档的一部分相关联。
21.一种方法,包括:
接收图像文档;
识别在所述图像文档内包含的文本;
根据所识别的文本生成文本文档;
获得关于所述文本文档的可搜索信息;
根据所述可搜索信息将至少一个可搜索元数据元素与所述文本文档相关联;以及
将所述文本文档和所述至少一个可搜索元数据元素存储在数据库中用于随后的根据所述至少一个可搜索元数据元素的检索。
22.一种包含计算机可执行指令的计算机可读介质,包括:
用于接收文档图像的一个或多个指令;
用于将所述文档图像转换为文本文档的一个或多个指令;
用于获得关于所述文本文档的可搜索信息的一个或多个指令;
用于根据所述可搜索信息将至少一个可搜索元数据元素与所述文本文档相关联的一个或多个指令;以及
用于存储所述文本文档和所述至少一个可搜索元数据元素用于随后的根据所述至少一个可搜索元数据元素的检索的一个或多个指令。
23.一种方法,包括:
从扫描设备接收文档图像;
对所述文档图像执行光学字符识别以根据所述文档图像生成文本文档;
接收对所述文本文档的修改;
根据所接收的修改生成修改的文本文档;
识别关于所修改的文本文档的可搜索信息;
根据所述可搜索信息将至少一个可搜索元数据元素与所修改的文本文档的至少一部分相关联;以及
存储所修改的文本文档和所述至少一个可搜索元数据元素用于随后的根据所述至少一个可搜索元数据元素的检索。
CNA200780051599XA 2006-12-28 2007-12-21 文档存档系统 Pending CN101611406A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/617,537 2006-12-28
US11/617,537 US20080162602A1 (en) 2006-12-28 2006-12-28 Document archiving system

Publications (1)

Publication Number Publication Date
CN101611406A true CN101611406A (zh) 2009-12-23

Family

ID=39271252

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA200780051599XA Pending CN101611406A (zh) 2006-12-28 2007-12-21 文档存档系统

Country Status (5)

Country Link
US (1) US20080162602A1 (zh)
EP (1) EP2100233A1 (zh)
JP (1) JP5124885B2 (zh)
CN (1) CN101611406A (zh)
WO (1) WO2008083083A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102654874A (zh) * 2011-03-02 2012-09-05 顾菊林 单据数据管理方法及系统
CN107066428A (zh) * 2010-05-27 2017-08-18 微软技术许可有限责任公司 多个线程对文档的并发利用
CN112883249A (zh) * 2021-03-26 2021-06-01 瀚高基础软件股份有限公司 版式文档处理方法、装置以及装置的应用方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7986843B2 (en) * 2006-11-29 2011-07-26 Google Inc. Digital image archiving and retrieval in a mobile device system
US8520888B2 (en) * 2007-04-26 2013-08-27 Bell And Howell, Llc Apparatus, method and programmable product for identification of a document with feature analysis
JP5550959B2 (ja) * 2010-03-23 2014-07-16 株式会社日立ソリューションズ 文書処理システム、及びプログラム
WO2014018614A2 (en) * 2012-07-27 2014-01-30 Safelyfiled.Com, Llc System for the unified organization, secure storage and secure retrieval of digital and paper documents
JP5954691B2 (ja) * 2012-09-28 2016-07-20 ブラザー工業株式会社 テンプレート処理プログラム及びテンプレート処理方法
JP6250307B2 (ja) * 2013-06-03 2017-12-20 株式会社プリマジェスト 画像情報処理装置及び画像情報処理方法
CN105701527A (zh) * 2014-11-26 2016-06-22 方正国际软件(北京)有限公司 一种模板识别的方法和设备
CN104537058A (zh) * 2014-12-27 2015-04-22 宁波江东远通计算机有限公司 一种文档查询、上传方法及装置
US20170098192A1 (en) * 2015-10-02 2017-04-06 Adobe Systems Incorporated Content aware contract importation
US10929461B2 (en) * 2016-07-25 2021-02-23 Evernote Corporation Automatic detection and transfer of relevant image data to content collections
US11250500B2 (en) * 2017-03-31 2022-02-15 Loancraft, Llc Method and system for performing income analysis from source documents
KR102467096B1 (ko) * 2020-10-30 2022-11-15 한국과학기술정보연구원 논문 메타데이터 영역 분류 모델을 학습하기 위한 데이터셋의 검수 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4949392A (en) * 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition
US20060050996A1 (en) * 2004-02-15 2006-03-09 King Martin T Archive of text captures from rendered documents

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3641495A (en) * 1966-08-31 1972-02-08 Nippon Electric Co Character recognition system having a rejected character recognition capability
US3872433A (en) * 1973-06-07 1975-03-18 Optical Business Machines Optical character recognition system
US6002798A (en) * 1993-01-19 1999-12-14 Canon Kabushiki Kaisha Method and apparatus for creating, indexing and viewing abstracted documents
US5748780A (en) * 1994-04-07 1998-05-05 Stolfo; Salvatore J. Method and apparatus for imaging, image processing and data compression
CA2155891A1 (en) * 1994-10-18 1996-04-19 Raymond Amand Lorie Optical character recognition system having context analyzer
US5963966A (en) * 1995-11-08 1999-10-05 Cybernet Systems Corporation Automated capture of technical documents for electronic review and distribution
JPH11102414A (ja) * 1997-07-25 1999-04-13 Kuraritec Corp ヒートマップを用いて光学式文字認識の訂正を行うための方法および装置、並びに、ocr出力の誤りを発見するための一連の命令を記録したコンピュータ読み取り可能な記録媒体
JPH11120185A (ja) * 1997-10-09 1999-04-30 Canon Inc 情報処理装置及びその方法
JP3773642B2 (ja) * 1997-12-18 2006-05-10 株式会社東芝 画像処理装置および画像形成装置
US6646765B1 (en) * 1999-02-19 2003-11-11 Hewlett-Packard Development Company, L.P. Selective document scanning method and apparatus
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
JP2001084254A (ja) * 1999-09-10 2001-03-30 Toshiba Corp 電子ファイリングシステムおよびファイリング方法
US6775665B1 (en) * 1999-09-30 2004-08-10 Ricoh Co., Ltd. System for treating saved queries as searchable documents in a document management system
US6704120B1 (en) * 1999-12-01 2004-03-09 Xerox Corporation Product template for a personalized printed product incorporating image processing operations
US6362895B1 (en) * 2000-01-10 2002-03-26 Imagex, Inc. PDF to PostScript conversion of graphic image files
US7324139B2 (en) * 2000-01-20 2008-01-29 Ricoh Company, Ltd. Digital camera, a method of shooting and transferring text
FR2806814B1 (fr) * 2000-03-22 2006-02-03 Oce Ind Sa Procede de reconnaissance et d'indexation de documents
US6993205B1 (en) * 2000-04-12 2006-01-31 International Business Machines Corporation Automatic method of detection of incorrectly oriented text blocks using results from character recognition
US20040049737A1 (en) * 2000-04-26 2004-03-11 Novarra, Inc. System and method for displaying information content with selective horizontal scrolling
US20010051998A1 (en) * 2000-06-09 2001-12-13 Henderson Hendrick P. Network interface having client-specific information and associated method
US20020053020A1 (en) * 2000-06-30 2002-05-02 Raytheon Company Secure compartmented mode knowledge management portal
JP4603658B2 (ja) * 2000-07-07 2010-12-22 キヤノン株式会社 画像処理装置及び画像処理方法並びに記憶媒体
US7054508B2 (en) * 2000-08-03 2006-05-30 Canon Kabushiki Kaisha Data editing apparatus and method
JP2002073598A (ja) * 2000-08-24 2002-03-12 Canon Inc 文書処理装置および方法
US7092870B1 (en) * 2000-09-15 2006-08-15 International Business Machines Corporation System and method for managing a textual archive using semantic units
US7426513B2 (en) * 2000-10-12 2008-09-16 Sap Portals Israel Ltd. Client-based objectifying of text pages
US20020135816A1 (en) * 2001-03-20 2002-09-26 Masahiro Ohwa Image forming apparatus
US7149784B2 (en) * 2001-04-23 2006-12-12 Ricoh Company, Ltd. System, computer program product and method for exchanging documents with an application service provider at a predetermined time
US7284191B2 (en) * 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
US20030110158A1 (en) * 2001-11-13 2003-06-12 Seals Michael P. Search engine visibility system
US20030125929A1 (en) * 2001-12-10 2003-07-03 Thomas Bergstraesser Services for context-sensitive flagging of information in natural language text and central management of metadata relating that information over a computer network
US6768816B2 (en) * 2002-02-13 2004-07-27 Convey Corporation Method and system for interactive ground-truthing of document images
US20030189603A1 (en) * 2002-04-09 2003-10-09 Microsoft Corporation Assignment and use of confidence levels for recognized text
US6868424B2 (en) * 2002-07-25 2005-03-15 Xerox Corporation Electronic filing system with file-placeholders
AU2003287495A1 (en) * 2002-11-04 2004-06-07 Deepq Technologies, A General Partnership Document processing based on a digital document image input with a confirmatory receipt output
US20040252197A1 (en) * 2003-05-05 2004-12-16 News Iq Inc. Mobile device management system
EP1661064B1 (en) * 2003-08-20 2007-03-07 Océ-Technologies B.V. Document scanner
CN100382096C (zh) * 2003-08-20 2008-04-16 奥西-技术有限公司 文档扫描设备及方法
US7287037B2 (en) * 2003-08-28 2007-10-23 International Business Machines Corporation Method and apparatus for generating service oriented state data mapping between extensible meta-data model and state data including logical abstraction
US7424672B2 (en) * 2003-10-03 2008-09-09 Hewlett-Packard Development Company, L.P. System and method of specifying image document layout definition
US7493322B2 (en) * 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
US7466875B1 (en) * 2004-03-01 2008-12-16 Amazon Technologies, Inc. Method and system for determining the legibility of text in an image
US7814155B2 (en) * 2004-03-31 2010-10-12 Google Inc. Email conversation management system
US7912904B2 (en) * 2004-03-31 2011-03-22 Google Inc. Email system with conversation-centric user interface
US20050289182A1 (en) * 2004-06-15 2005-12-29 Sand Hill Systems Inc. Document management system with enhanced intelligent document recognition capabilities
US20050289016A1 (en) * 2004-06-15 2005-12-29 Cay Horstmann Personal electronic repository
US7911655B2 (en) * 2004-10-06 2011-03-22 Iuval Hatzav System for extracting information from an identity card
JP2006202081A (ja) * 2005-01-21 2006-08-03 Seiko Epson Corp メタデータ生成装置
US20060206462A1 (en) * 2005-03-13 2006-09-14 Logic Flows, Llc Method and system for document manipulation, analysis and tracking
WO2008033926A2 (en) * 2006-09-12 2008-03-20 Stanley, Morgan Document handling

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4949392A (en) * 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition
US20060050996A1 (en) * 2004-02-15 2006-03-09 King Martin T Archive of text captures from rendered documents

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066428A (zh) * 2010-05-27 2017-08-18 微软技术许可有限责任公司 多个线程对文档的并发利用
CN107066428B (zh) * 2010-05-27 2024-04-26 微软技术许可有限责任公司 多个线程对文档的并发利用
CN102654874A (zh) * 2011-03-02 2012-09-05 顾菊林 单据数据管理方法及系统
CN112883249A (zh) * 2021-03-26 2021-06-01 瀚高基础软件股份有限公司 版式文档处理方法、装置以及装置的应用方法
CN112883249B (zh) * 2021-03-26 2022-10-14 瀚高基础软件股份有限公司 版式文档处理方法、装置以及装置的应用方法

Also Published As

Publication number Publication date
EP2100233A1 (en) 2009-09-16
US20080162602A1 (en) 2008-07-03
JP2010515167A (ja) 2010-05-06
JP5124885B2 (ja) 2013-01-23
WO2008083083A1 (en) 2008-07-10

Similar Documents

Publication Publication Date Title
CN101611406A (zh) 文档存档系统
US20080162603A1 (en) Document archiving system
US8250469B2 (en) Document layout extraction
US8200642B2 (en) System and method for managing electronic documents in a litigation context
US8244037B2 (en) Image-based data management method and system
JP2010073114A6 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
EA003619B1 (ru) Система и способ поиска электронных документов, созданных с помощью оптического распознавания знаков
US20080243818A1 (en) Content-based accounting method implemented in image reproduction devices
JP2006072744A (ja) 文書処理装置、その制御方法、プログラム、及び記憶媒体
US20040010556A1 (en) Electronic document information expansion apparatus, electronic document information expansion method , electronic document information expansion program, and recording medium which records electronic document information expansion program
CN113495874A (zh) 信息处理装置和计算机可读取介质
JP2009075678A (ja) 画像処理装置、画像処理方法、画像処理プログラム及び記憶媒体
JP2004110834A (ja) 情報記憶検索システム及び方法
US20200311059A1 (en) Multi-layer word search option
JP2004240488A (ja) 文書管理装置
US11363162B2 (en) System and method for automated organization of scanned text documents
JP2016018279A (ja) 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法
WO1997004409A1 (fr) Dispositif de recherche de fichiers
JP2004213091A (ja) 文書画像検索装置及びその方法、文書画像検索システム、プログラム
JP2001256256A (ja) 電子文書検索装置および電子文書検索方法
CN113032518A (zh) 信息处理装置、存储介质及信息处理方法
JP2021114225A (ja) ファイル検索システム、ファイル検索方法及びプログラム
JP7272540B2 (ja) 情報提供システム、情報提供方法、及びデータ構造
JP2932667B2 (ja) 情報の検索方法および情報蓄積装置
US20230244677A1 (en) Method of retrieving data and computer-readable recording medium storing data retrieval program

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20091223