CN115204110A

CN115204110A - 从数字化文档提取可搜索的信息

Info

Publication number: CN115204110A
Application number: CN202210769512.9A
Authority: CN
Inventors: P·格哈泰吉; N·桑帕特; K·维斯瓦纳坦; S·K·玛哈帕特拉; S·纳拉亚南; R·玛尼; A·克里什南; R·科特纳拉; K·拉克什米纳拉亚南; A·贾因
Original assignee: Accenture Global Solutions Ltd
Current assignee: Accenture Global Solutions Ltd
Priority date: 2017-06-21
Filing date: 2018-06-21
Publication date: 2022-10-18
Also published as: US20180373711A1; CN109101469B; US10318593B2; CN109101469A

Abstract

本公开内容的各实施例涉及从数字化文档提取可搜索的信息。公开了以不可编辑格式从数字化文档进行数据提取和自动验证。纸质文档被数字化或转换成适合用于存储在计算机或其他数字设备上的格式。数字化文档被分类为多种文档类型中的一种文档类型，并且基于文档类型，文档处理规则被选择用于分析数字化文档以实现数据提取和自动验证。数字化文档中的数据字段的位置和值使用机器学习技术而被获取。数据字段值被自动地验证并且被指派置信度得分。具有低置信度得分的数据字段被标记用于手动检查。

Description

从数字化文档提取可搜索的信息

分案申请说明

本申请是申请日为2018年6月21日、申请号为201810646248.3、名称为“从数字化文档提取可搜索的信息”的中国发明专利申请的分案申请。

技术领域

本公开内容的各实施例涉及从数字化文档提取可搜索的信息。

背景技术

各种类型的表单或文件被广泛地用于出于各种目的来收集信息。商业、教育和政府组织使用表单以用于收集信息和用于记录保存目的。计算机和网络的出现导致表单被移动到网上，从而使得人们不再需要在纸上填写表单。相反，人们访问网站并且在线填写表单以进行各种活动。在线表单被赋予诸如标签、标记等属性，这使得能够容易地自动地处理由用户经由计算机录入的数据。如此接收的在线表单可以被自动地处理以提取其中的数据以用于存储。然而，被印在纸上的表单继续被广泛地用于各种目的。开发了包括硬件和软件的不同文档处理系统，以解决对由用户手动地填写的纸质表单的处理。

发明内容

根据本公开内容的一个方面，公开了一种从数字化文档提取可搜索数据的系统，包括：一个或多个处理器；以及非暂态数据存储装置，其包括使得所述处理器进行以下操作的指令：访问包括从多个纸质文档生成的多个数字化文档的根文件，其中所述数字化文档包括所述纸质文档中的一个或多个纸质文档的多个版本和重复副本中的一个或多个；基于与所述纸质文档相关联的目的，将所述根文件分类在选自多个文档类型的文档类型下；根据对所述根文件的所述分类来选择文档处理规则；通过从所述根文件排除所述纸质文档中的一个或多个纸质文档的所述重复副本和多个版本，来从所述多个数字化文档选择重要文档的子集，从而使得所述一个或多个纸质文档的独特副本从所述根文件被选择；生成包括重要文档的所述子集的输入文件，从而使得所述重要文档中的每个重要文档对应于选自所述根文件的所述独特副本中的一个独特副本；从被包括在所述文档处理规则中的数据字段信息访问要从所述输入文件标识的数据字段的列表；基于所述数据字段信息来确定所述输入文件内的所述数据字段中的一个或多个数据字段的值和位置；构建索引结构，所述索引结构支持在所述输入文件内定位所述一个或多个数据字段；验证所述一个或多个数据字段中的至少一个数据字段，所述位置和值针对所述至少一个数据字段从所述输入文件被标识；以及支持经由用户界面对所述一个或多个数据字段和所述输入文件的访问，所述用户界面被配置为经由用于手动验证的颜色编码显示尚未被验证的所述一个或多个数据字段的至少子集。

根据本公开内容的另一方面，公开了一种提取和验证数据的方法，包括：接收根文件，所述根文件包括通过对来自文档包的相应纸质文档成像而被获取的多个数字化文档；基于与所述文档包相关联的目的，来将所述根文件分类为多个文档类型中的一个文档类型；基于所述根文件被分类在其下的所述文档类型来选择用于处理所述根文件的文档处理规则；基于所述文档处理规则来将所述根文件分割成各个数字化文档，所述各个数字化文档包括至少一个文档的多个版本；基于被包括在所述文档处理规则中的文档标识信息来选择所述各个数字化文档的子集以形成输入文件；提取被包括在所述输入文件中的多个数据字段中的一个或多个数据字段的数据值和位置；计算用于所述一个或多个数据字段的相应置信度得分，所述置信度得分指示所述一个或多个数据字段与相应验证条件的符合程度；从所述输入文件生成索引结构，所述索引结构包括用于所述一个或多个数据字段中的每个数据字段的所述数据值、所述位置和所述置信度得分；在用户界面的源图像部分内显示所述输入文件的图像；以及在所述用户界面的提取的数据部分内显示所述一个或多个数据字段的所述值和位置。

根据本公开内容的又一方面，公开了一种被包括在用户设备中的非暂态计算机可读存储介质，所述计算机可读存储介质包括使得处理器进行以下操作的机器可读指令：访问包括从多个纸质文档生成的多个数字化文档的根文件，其中所述数字化文档包括所述纸质文档中的一个或多个纸质文档的多个版本和重复副本中的一个或多个；基于与所述纸质文档相关联的目的，来将所述根文件分类在选自多个文档类型的文档类型下；根据对所述根文件的所述分类来选择文档处理规则；通过从所述根文件排除所述一个或多个纸质文档的所述重复副本和多个版本，来从所述多个数字化文档选择重要文档的子集，从而使得所述一个或多个纸质文档的独特副本被包括在所述根文件中；生成包括重要文档的所述子集的输入文件，从而使得重要文档的所述子集中的每个重要文档对应于所述纸质文档中的一个纸质文档的选择的版本；从被包括在所述文档处理规则中的数据字段信息访问要从所述输入文件标识的数据字段的列表；基于所述数据字段信息来确定所述输入文件内的所述数据字段中的一个或多个数据字段的值和位置；构建索引结构，所述索引结构支持在所述输入文件内定位所述一个或多个数据字段；验证所述一个或多个数据字段中的至少一个数据字段，所述位置和值针对所述至少一个数据字段从所述输入文件被标识；以及支持经由用户界面对所述一个或多个数据字段和所述输入文件的访问，所述用户界面被配置为经由用于手动验证的颜色编码显示尚未被验证的所述一个或多个数据字段的至少子集。

附图说明

通过以下附图中所示的示例来说明本公开内容的特征。在下面的图中，相同的数字表示相同的元素，在附图中：

图1是示出根据一个示例的文档处理和验证系统的框图；

图2是示出根据一个示例的文档处理器的细节的框图；

图3是示出根据一个示例的字段处理器的细节的框图；

图4是示出根据本文中公开的示例的索引结构的开发的示意图；

图5是示出了本文中讨论的文档处理规则的一些示例的框图；

图6是根据一个示例的详细描述从多个数字化文档自动地获取和验证数据字段的方法的流程图；

图7是根据一个示例的详细描述使用ML技术将根文件自动地分类为多个文档类型中的一个文档类型的方法的流程图；

图8是根据一个示例的详细描述从根文件获取重要文档的方法的流程图；

图9是根据一个示例的详细描述从输入文件提取数据字段的过程的流程图；

图10是根据一个示例的详细描述验证数据字段并且计算置信度得分的方法的流程图；

图11是根据一个示例的详细描述了训练和使用字段分类器的方法的流程图；

图12示出了根据一个示例的与文档处理和验证系统相关联的用户界面；

图13示出了根据一些示例的用于传送提取的数据的特性的颜色编码；

图14A和图14B示出了根据一个示例的来自贷款包的经验证的数据字段的提取和显示；

图15A和图15B示出了根据本文中描述的示例的数据字段的验证；

图16示出了在从文档处理和验证系统上传数据时在外部系统中生成的屏幕；以及

图17是示出用于实现文档处理和验证系统的计算机系统的示例的框图。

具体实施方式

为了简化和说明的目的，本公开内容主要通过参考其示例而被描述。在以下描述中，阐述了很多具体细节以提供对本公开内容的透彻理解。然而，很清楚的是，可以实践本公开内容而不限于这些具体细节。在其他情况下，一些方法和结构未被详细描述以免不必要地模糊本公开内容。贯穿本公开内容，术语“一个(a)”和“一个(an)”旨在表示特定元素中的至少一个。如本文中使用的，术语“包括(includes)”表示包括但不限于，术语“包括(including)”表示包括但不限于。术语“基于”表示至少部分基于。

根据本文中描述的一个或多个示例，描述了一种文档处理和验证系统，其分析以不可编辑格式而被数字化的文档集合以提取和验证其中的数据字段。数字化文档集合在本文中也被称为包。因此包包含针对特定目的(诸如贷款申请、大学入学申请、商业或个人银行账户等)而生成的多个数字化文档。数字化文档可以包括但不限于指定表单的数字副本(其中手动地提供一些数据)、信件、证书、打印件或其他单页或多页纸质文档(其可能已经被手动地处理以包含键入或手写输入)。可以采用诸如扫描仪等图像处理装置从相应的纸质文档生成数字化文档。

数字化文档集合可以由文档处理和验证系统在文件中接收，该文件在本文中被称为根文件。基于与包相关联的目的，可以将根文件初始地分类为多个文档类型。例如，为保证贷款而被生成的包含数字化文档集合的根文件可以在文档类型下被分类为贷款申请。类似地，诸如但不限于大学入学、健康记录、一篇文献、银行账户申请等文件类型可以在文档验证和处理系统内定义。

基于根文件的文档类型分类，可以应用用于处理数字化文档的规则的集合。由于根文件中包含的文档不同，因此可能需要对上述文档中的每种文档类型进行不同的处理。文档处理规则不仅可以包括用于处理各个数字化文档的规则，还可以包括处理各个数据字段的规则。文档处理规则可以包括文档标识材料，诸如但不限于徽标或图像、题目和页面布局信息，包括在数字化文档中可以被预期的页数。类似地，关于每个数字化文档中的数据字段的信息(诸如但不限于数据类型、值范围、位置信息等)也可以被包括在文档处理规则中。

文档标识信息被用于标识根文件内的各个数字化文档。可以理解，根文件可以包括相似材料的多个版本，诸如可以按照不同方式而被填充的相同表单，其中版本在一个或多个数据字段中不同。根文件也可以包括相同材料的相同重复副本。文档处理规则也可以被用于选择一个或多个版本并且消除重复副本以用于进一步处理。例如，文档处理规则可以规定，公证、签字或以其他方式带有标记或批准图像的数字化文档应当被用于数据提取。因此，与可以从进一步处理被消除的其他数字化文档相比，可以选择承载诸如标记的数字化文档的版本。数字化文档的选择可以经由分类器而被实现，分类器关于图像分析和识别技术而被训练，以便区分各种数字化文档，标识多个版本和重复。本文中被称为重要文档的选择的数字化文档被打包在一起以形成输入文件。根文件因此被处理为以减小到输入文件，该输入文件可以包括由文档处理规则规定的数字化文档的集合。

逐页处理输入文件以标识和提取关于各种数据字段的信息。再次，文档处理规则包括关于数据字段的信息(诸如被包括在重要文档中的数据字段的列表)、位置信息(包括重要文档的标识和其中可以预期数据字段的部分)、关于数据字段的值的信息(诸如数据字段的数据类型、模式、值范围等)。机器学习(ML)技术可以被用于在输入文件的页面之中标识数据字段并且提取数据字段值。提取包括它们的位置和值的关于数据字段的信息并且将其存储在索引结构中。另外，测试数据字段以验证它们是否满足一个或多个验证条件。基于来自验证测试的统计，每个数据字段可以被指派置信度得分，从而使得不符合所有验证条件的数据字段可以被标记用于进一步手动地检查。

与文档处理和验证系统相关联的用户界面可以被耦合到索引结构。用户界面可以被配置为从索引结构中检索和显示信息，从而便于手动地检查提取的数据。用户界面被划分为两部分，其中输入文件被显示在图像部分中，而从文档提取的数据被显示在提取的数据部分中。提取的数据部分中的数据字段的选择使得作为提取的数据值的源的输入文件的相应部分被显示在图像部分中。如果用户界面未能在图像部分中显示所提取数据的来源，则用户可以在使用期间通过经由在图像部分中滚动并且点击它来手动地搜索输入文件内的数据字段来明确地训练字段分类器。接收提供字段的位置的用户输入并且关于用户输入训练数据字段的字段分类器，从而使得在后续使用期间，数据处理和提取系统可以在输入文件内定位数据字段。

本文中描述的文档处理和验证系统提供了对现有文档处理系统和方法的技术改进。尽管使用了有助于存储到数字硬件的数字化表单、信函和证书，但是诸如申请贷款、开设银行账户、申请大学入学等很多任务可能需要提交大量文件的纸质副本，包括某些规定的表单、信函、证书等。当接收到具有布局不同的文档的大文档集合或包时，计算设备仅被用于存储诸如扫描图像等数字化格式的文档。然而，这样的扫描和存储系统不提供自动数据提取和数据字段验证，因为扫描和存储系统未被配置为分析各种布局以提取其内的数据字段。尽管光学字符识别(OCR)技术被用于字符标识，但是当使用具有不同布局和复杂数据组织结构(包括表单、列表等)的很多文档时，它们不能产生准确的输出。文档处理任务因此由数据输入操作员手动地执行，因为扫描纸张的输出以不可编辑的格式(诸如图像文件)而被获取。

本文中公开的文档处理和验证系统被预编程以基于其预期任务来对文档进行初始分类，并且继续以基于分类来应用文档处理规则。因此，使用不同的文档处理规则处理出于不同目的而被放置在一起的不同文档包。因此，文档的检查、数据值的比较以及关于文档和/或数据值是否符合验证规则的结论由文档处理和验证系统更准确地执行，从而减少了对这些任务的人工干预的需要。

图1是示出根据一个示例的文档处理和验证系统100的框图。文档处理和验证系统100接收或访问根文件102，根文件102包括根据文档处理规则、基于根文件的文档类型而被处理的不可编辑的数字化文档，以便以如下格式来验证和提取字段：该格式使得能够经由与文档处理和验证系统100相关联的UI来搜索不可编辑的数字化文档以获取特定值。在一个示例中，根文件102可以包括经由扫描仪110而被数字化的表单、证书、文档和其他文件152，以便被馈送到文档处理和验证系统100。根文件102可以包括数字化文档的集合，诸如但不限于评估、销售契约、批准、票据、付款信函、交易摘要、证书和等，其被扫描并且作为输入被提供给文档处理和验证系统100。典型的根文件的范围可以超过400至800页面并且包括70至80种不同类型的文档。根文件102内的每个文档可以包括一个或多个页面。此外，根文件102还可以包括文档的多个版本。例如，根文件102可以包括文档的未执行版本和相同文档的已执行版本。

文档处理和验证系统100被通信地耦合到数据存储库170，数据存储库170可以临时或永久地存储由本文中所述的各种过程访问、修改或生成的数据。文档处理和验证系统100包括文档处理器120，文档处理器120将根文件102分类为多个文档类型中的一个文档类型并且基于选择的文档类型，经由文档处理规则的集合122处理根文件102以细化根文件102以形成可以在300至700页面范围内的输入文件104。因此，输入文件104也是文档的不可编辑的数字化集合。在一个示例中，输入文件104的格式可以与从扫描仪110获取的图像格式类似，尽管与根文件102相比具有更少的页面。文档处理规则122可以指定要被包括在输入文件104中的文档和文档版本。在一个示例中，输入文件104因此可以包括来自可以被包括在根文件102中的多个文档版本的单个版本。在一些示例中，并非来自根文件102的所有文档都被包括在输入文件104中。例如，来自根文件102的不需要字段的特定文档可以从输入文件104中完全排除。

字段处理器130解析并且分析输入文件104以获取多个数据字段106的值。另外，输入文件104内的多个数据字段106中的每个的位置也由字段处理器130获取。在一个示例中，数据字段的位置不仅可以由输入文件104内数据字段被包括在其上的页码定义，而且还可以包括数据字段所在的页面内的位置坐标。在一个示例中，位置坐标可以定义数据字段相对于页面边缘的位置。另外，字段处理器130可以包括分别对应于多个数据字段106中的每个数据字段的多个字段模型108。多个字段模型108结合文档处理规则122不仅被用于从输入文件104标识数据字段106，而且还被用于验证数据字段106。文档处理规则122可以包括针对数据字段预期的数据类型、数据模式或确定值、日期范围中的一个或多个的规则。在一个示例中，文档处理规则122还可以包括涉及使得能够验证多个数据字段中的一个或多个数据字段的多个数据字段的计算。由字段处理器130从输入文件104提取和验证的数据字段的数目可以取决于文档处理规则122中所述的要求。通过说明而非限制的方式，多于300个数据字段以及其值和位置可以从输入文件104被提取。字段处理器130另外能够向用户发信号通知多个数据字段106中的每个数据字段的有效性。多个数据字段106中的每个数据字段可以共同或单独地需要满足单个或多个有效性测试或条件。基于数据字段满足的条件，字段处理器130可以向用户指示与数据字段相关联的置信度得分，由此在一些示例中标记具有较低置信度得分的数据字段以用于另外的手动检查。

被包括在文档处理和验证系统100中的输出生成器140被配置为生成索引结构150，索引结构150在其中存储值、与输入文件104内的多个数据字段中的每个的值和位置相关联的置信度得分。例如，索引结构150可以被存储在与文档处理和验证系统100相关联的数据存储装置170中。另外，输出生成器140还包括具有填充有来自索引结构150的数据的控件的用户界面(UI)160。当使用数据字段的值填充控件时，点击该控件使得能够导航到输入文件104内从其提取数据字段的值的源位置。

PAUSEUI 160和索引结构150被启用以用于双向更新，从而使得索引结构150可以在需要时从UI 160改变。如果输出生成器140未能导航到输入文件104内的数据字段的位置，则用户可以手动地导航到输入文件104内的数据字段的源位置，并且向输出生成器140指出数据字段的位置，例如通过点击输入文件104中的数据字段。下次用户看起来点击或以其他方式选择数据字段时，索引结构150现在包括数据字段位置信息，从而使得在输入文件104内的正确位置可以由UI 160显示。此外，可以基于置信度得分对多个数据字段106进行颜色编码，从而使得具有低置信度得分的数据字段可以被标记以用于手动验证。来自索引结构150的经验证的数据也可以被上传到外部系统180以用于进一步处理。外部系统可以包括诸如从经验证的数据生成一个或多个数据文件等功能。

图2是示出根据一个示例的文档处理器120的细节的框图。文档处理器120包括文档分割器202，分割器202从扫描器110访问根文件102并且将其分割成分离的数字化文档及其相应版本以用于进一步选择特定文档和特定版本。当最初接收到根文件102时，文档分割器202最初至少基于可以是文档处理规则122的一部分的文档信息212来将根文件102分类为多个文档类型中的一个文档类型。各种文档类型(诸如但不限于贷款文件、批准文件、销售契约、收入证书、结婚证书、教育证书等)可以被包括在根文件102中。基于各种标准，诸如但不限于包括的各种文档、文档的版本、文档的布置等，根文件102可以被分类为文档类型中的一个文档类型。作为说明而非限制，根文件102可以被分类为住房贷款申请、教育贷款、商业贷款或批准包、或其他类型的文档，诸如大学入学包、申请银行账户、税务文件等。

被用于分类根文件102的文档信息212可以包括预期具有文档包的数字化文档的标识和页数、标识、图像、表单布局等，其可以帮助标识将根文件102表征为文档类型中的一个文档类型的各种数字化文档等。类型标识器222可以包括诸如支持向量机(SVM)等文档分类器2222，其被训练以基于文档信息212来标识文档类型。文档分类器2222不仅可以被训练以标识根文件102的文档类型，而且也被训练以标识构成根文件102的特定文档。在一个示例中，文档分类器2222还可以包括实现光学字符识别、图案和梯度匹配以及其他类似技术以标识被包括在根文件102中的特定文档的图像分类器。例如，类型标识器222不仅可以将根文件102标识为住房贷款申请，而且还可以被配置为自动地标识构成根文件102的各种文档，诸如贷款申请表、收入证明书、财产评估表和这些文件的多个版本。还可以理解，文档可以包含多个页面。例如，诸如申请表等数字化文档可以包含多个页面，并且基于文档信息212，类型标识器222可以被配置为标识数字化文档的多个页面。类型标识器222可以被进一步配置为确定在根文件102中是否包括文档的多个版本或同一文档的重复副本。文档可以具有多个版本，其中在一个版本与另一版本之间存在细微差异。例如，用户输入的信息而不是表单布局可能存在差异。如果表单布局和用户输入的信息在根文件102内的两个文档之间相同，则文档可以被确定为复制副本，复制副本中的一个复制副本可以在另外的处理中被丢弃，除非由文档处理规则122标识为必要。

在通过类型标识器222标识根文件102的文档类型和其内的各种文档的细节之后，文件夹生成器224使用文档处理规则122来确定将要被包括在待生成的输入文件104中的文档的数目。文件夹生成器224生成等于特定文档的多个版本和副本被放置在相同文件夹内在其中的独特文档的数目的文档文件夹210。在一个示例中，文件夹生成器224可以为被放置在其各自的文件夹内的每个数字化文档创建一个文件夹。同样，使用来自对根文件102内的文档进行分类的文档分类器2222的数据，页面组织器226可以标识根文件102内的各种组成文档，并且将每个文档存储在由文档处理规则122确定的文档文件夹210内。

文档处理器120包括文档选择器204，文档选择器204访问文档文件夹210并且选择在本文中将被称为重要文档以用于被包括在输入文件104中的特定文档的特定版本。文档选择器204可以再次基于文档处理规则122选择文档版本。例如，文档处理规则122可能需要被加戳或以其他方式被标记以用于批准以被包括在输入文件104中的文档版本。文档分类器2222可以使用标识文档的批准版本的图像或图案标记的文档处理规则122。文档选择器204采用来自文档分类器2222的信息来标识文档的批准版本以被包括在输入文件104中。还可以理解，输入文件104因此可以包含重要文档214，重要文档214是至少基于文档处理规则122而选择的来自根文件102的数字化文档的子集，从而使得由扫描仪110数字化并且由文档处理规则122指定的文档的独特副本能够被包括在输入文件104中。

关于重要文档214的信息由输入文件生成器206接收。每个重要文档214可以由输入文件生成器206从相应的文档文件夹210中访问。被选择以用于被包括到输入文件104中的重要文档因此是特定文档的特定版本。输入文件生成器206可以进一步访问文档处理规则122以按照特定顺序布置重要文档以形成输入文件104。输入文件104被进一步处理以用于在下游处理中从中标识和提取字段，如下文详细描述的。

图3是示出根据一个示例的字段处理器130的细节的框图。字段处理器130解析和分析输入文件104以标识多个数据字段106及其在输入文件104内的位置，从输入文件104提取数据字段的值，这将使得能够构建索引结构150。字段位置标识器302基于文档信息212分析输入文件104，文档信息212还可以包括字段信息312。对于文档信息212中的每个文档，字段信息312可以包括关于该文档中的数据字段的信息，诸如但不限于文档内预期的数据字段的列表、数据类型、模式、值范围和关于文档布局的信息，其可以包括不可编辑文档内字段的可能位置。本文中可以理解，输入文件104保持与根文件102的格式类似，因为输入文件104也是包括非结构化数据的不可编辑文件。因此，构成字段模型108的分类器等机器学习(ML)元素(其基于字段信息312标识给定文档内的场及其值)也被包括在字段处理器130中。字段模型108采用机器学习(ML)技术，诸如模式标识或本文提到的其他图像识别技术来标识输入文件104内的数据字段106。作为说明而非限制，字段位置标识器302可以关于页码和坐标或其他值输出多个数据字段中的每个数据字段的位置，其使得能够明确标识输入文件104的给定页面内的数据字段位置。在一个示例中，字段模型108可以关于训练数据集而被预先训练以用于标识输入文件104内的数据字段的位置。在一个示例中，如果字段位置标识器302未能标识用户正在查找的数据字段的位置，则在文档处理和验证系统100的使用期间，字段模型108可以由用户使用本文中详细描述的技术来训练。

字段模型108的子集可以采用上面概述的ML学习技术来进一步标识数据字段的值。每个数据字段可以使用相应的一个字段模型108来标识。输入文件104内的各种数据字段可以包括接收(而非限于)文本数据类型的值、数字数据类型、信函数字数据类型、布尔数据类型、符号等的数据字段。基于文档信息212和字段信息312，可以训练字段模型108的子集以查找表示特定数据字段的值的特定模式。此外，由于关于输入文件104内的数据字段的位置的信息可从字段位置标识器302获取，所以字段提取器304可以被配置为解析、提取或以其他方式获取在输入文件104内在所标识的位置处的特定数据字段的值。

输入文件104内的位置被标识的数据字段以及从其中提取的值随后由字段验证器306验证。字段可以基于其他文档处理规则122来验证，诸如但不限于预期的数据类型、模式匹配、值范围等。字段验证器306也可以被配置为验证多个数据字段的组合。相应地，字段计算器310可以被包括在字段验证器306内以用于验证一个或多个数据字段。例如，来自诸如利率、贷款期间和总金额等数据字段的值的组合可以被用于验证这些数据字段中的一个或多个。关于数据字段106、输入文件104内的数据字段106的值和位置的信息被传输到输出生成器140，输出生成器140生成索引结构150以存储来自字段处理器130的信息。如此被存储在索引结构150中的信息经由用户界面160向用户显示，以用于手动检查和/或验证。作为说明而非限制，字段处理器130可以处理具有多于35个文档的输入文件以提取大约267至325个独特数据字段的集合以构建索引结构150。

图4是示出根据本文中公开的示例的从根文件102开发索引结构的示意图400。如上所述，根文件102是通过数字化纸质文档或文件152而获取的。在一个示例中，扫描仪110可以被用于通过扫描文件152来创建数字化文档：文档1、...、文档n。扫描仪110可以被配置为将文件152或根文件102的扫描图像传输到文档处理和验证系统100。因此，根文件102包括独特文档：文档1、文档2、...文档N。诸如文档1、文档N等一些文档可以具有多个版本，如版本1、版本2、...版本x所示。每个数字化文档可以包括多个数据字段中的一个或多个，诸如数据字段1到数据字段n，其中N、n和x是取值为1、2、...的自然数。给定文档的不同版本可以在一个或多个数据字段中变化。例如，一个版本的一个或多个数据字段可能未被填充，而数据字段值则以另一版本提供。在诸如文档2的一些情况下，只有一个版本被包括在根文件102中。在一些示例中，根文件102还可以包括其中两个数字化文档彼此相同的副本。

输入文件104由文档处理器120经由减少根文件102以排除重复、多个版本(除非文档处理规则122另有规定)等来生成。文档处理规则122可以标识数据提取和验证目的所需要的某些重要的数字化文档。在某些情况下，某些数字化文档也可以在减少根文件102期间被排除。输入文件104因此是不可编辑的数字化文档，诸如扫描图像，其包括来自根文件的数字化文档的子集。在所示示例中，选择包括文档1的版本2、文档2的版本1、...、文档N的版本x的重要文档以用于被包括在输入文件104中。

输入文件104由字段处理器130进一步处理，以从输入文件104的数字化文档标识和验证各种数据字段106。对于每个经验证的数据字段，诸如数据字段402，字段处理器130进一步获取输入文件104内的字段的位置信息422、输入文件104中给出的数据字段1的值424以及从输入文件104计算出的数据字段402的置信度得分426。根据上面讨论的示例，处理器130提取并且在索引结构150内存储输入文件104内的数据字段402的位置信息422。数据字段402的置信度得分可以基于数据字段402的值424满足的验证测试或条件来计算。数据字段值的验证条件可以包括但不限于遵从数据类型、模式、值或日期范围，单独地或与其他数据字段等相结合。如果数据字段值424满足所有验证条件，则其可以具有高置信度得分，而未通过一个或多个验证条件的数据字段可以具有较低置信度得分。此外，如果数据字段402要满足多个验证条件，则可以对验证条件进行加权，从而使得验证条件中的一个验证条件的满足或失败与另一验证条件相比可以具有更高的贡献置信度得分。因此，具有较低置信度得分的索引结构150内的数据字段被标记以用于手动检查。

图5是示出经由诸如字段模型108、文档分类器2222等各种组件实现的本文中讨论的文档处理规则122的一些示例的框图。文档处理规则122包括文档信息212，诸如文档标识材料502，其不仅被用于将根文件分类在文档类型下，而且也是被用于对根文件102内的数字化文档进行逐页标识的规则。文档标识材料502可以包括但不限于可以打印或粘贴在文件152上的徽标和图像522、可以包括表单编号、组织名称等的页面的题目524、以及页面布局数据526。页面布局数据526可以包括但不限于页面中的字段的数目、字段的布置顺序、字段的位置、被包括在页面中的任何表单、列表和其他数据组织结构等。文档处理规则122中还包括被用于在减少根文件102期间生成文件夹504的规则以及被用于选择和布置重要文档506的规则。文档处理规则122还可以包括关于在数字化文档内的字段312的信息。字段信息312可以包括但不限于数字化文档的标识信息，包括数据字段、数据字段的数据类型582、数据字段的值范围584、描述数据字段定位在数字化文档的页面内的位置的字段位置信息586、以及验证某些字段而可能需要的各种计算588。在一个示例中，字段位置信息586可以是页面布局数据526的子集。文档处理规则122还可以包括验证条件510，验证条件510可以与字段级条件512和文档级条件514有关。字段级条件512单独地被应用于各个字段或者被应用于多个字段，而与文档相关联的文档级条件514作为一个整体。字段级条件512可以包括模式匹配、特定值范围、涉及多个字段的计算等。文档级条件514还可以涉及例如验证文档中的多个字段、文档是否被签名等。文档级条件514还可以涉及验证来自多个文档的特定字段的值并且如果检测到任何差异则标记文档或字段以用于查看。可以理解，本文中讨论的文档处理规则122的列表不是详尽的列表，并且根据本文详细描述的示例，可以包括更多的文档处理规则以用于处理各种文档。

图6是根据一个示例的详细描述从多个数字化文档自动地获取和验证数据字段106的方法的流程图600。该方法在602处开始，在602处，接收包括多个数字化文档的根文件102。根文件102可以经由自动地生成的通信从诸如扫描仪110等硬件设备接收，该硬件设备被用于对文件152进行数字化，其中的一些文件152可以例如经由键入或用手写输入手动地完成。在604处，基于文档处理规则122将根文件102分类为多个文档类型中的一个文档类型。在606处，基于文档类型分类，选择被用于处理根文件102的规则。不同文档类型可以与不同的处理规则相关联。例如，与健康记录相比，贷款申请中的表单、证书、信函、图像等是不同的。相应地，文档类型分类使得文档处理和验证系统100能够确定用于根文件102的处理规则。

在608处，根据根文件102的分类将根文件分割成组成数字化文档。在分割根文件102时，根文件102内预期的数字化文档是已知的，因为在604处从文档信息212获取信息以用于分类。因此，在610处，在根文件102内标识具有相同文档的较小差异或重复的相同文档的不同版本。在612处，基于文档处理规则122，选择数字化文档的子集作为以用于被包括在输入文件104中的重要文档。文档处理规则122可能要求填写某些强制性数据字段或对某些文件进行签名或公证或加戳以便批准等。在614处，将数字化文档放置在一起或打包以形成输入文件104，其结果是根文件102被缩减到输入文件104，输入文件104具有与根文件102类似的格式，但是消除了重复和多个文档版本。在616处，创建存储关于输入文件104中的数据字段的信息的索引结构150。索引结构150可以存储各种信息，诸如但不限于输入文件104内的数据字段的位置、数据字段的值等。当数据字段被检查以用于验证时，在618处，为数据字段计算置信度得分。具有低置信度得分的数据字段在620被指示给用户进行手动检查。在622处，可以将经验证的数据上传到外部应用以用于另外的用途。另外的用途可以包括例如生成包括来自应用的经验证的数据的数据文件。

图7是根据一个示例的详细描述使用ML技术将根文件102自动地分类为多个文档类型中的一个文档类型的方法的流程图700。多种文件类型可以包括但不限于贷款包(其包括由商业关注和证书提供的标准化表单)、用于大学招生的文件(诸如入场表单和证书)、与业务相关的文件(诸如用于开设银行账户或企业的文件)、向税务机关的提交(包括税务表单)、收据、健康记录或在文档处理和验证系统100中定义的其他业务或私人文件类型。每种文件类型可以具有文件列表和与之相关联的相关信息。例如，对于贷款包，列表可以包括但不限于所有要被包括在包中的文件并且相关信息可以包括但不限于表单的格式或布局、不同或独特的表单信函的数目、贷款包中的证书等、表单、证书、信件等要在贷款包中布置的顺序等。因此，在702处，访问多个文档类型和相关信息。在704处，使用例如图像分析技术(诸如但不限于模式匹配、颜色/梯度变化等)来分析根文件102，如本文中详细描述。在706处，基于704处的分析，标识根文件102内的数字化文档。在708处，将在706处标识的数字化文档的组合与每个文档类型的预期文档的列表比较。在710处，将根文件分类为文档的列表与被包括在文档102中的不同/独特数字化文档匹配的文档类型。因此，可以在对根文件102进行分类的同时忽略重复、多个版本。

图8是根据一个示例的详细描述从根文件102获取重要文档的方法的流程图800。该方法开始于802，在802处，使用文档处理规则122来标识根文件102中的每个页面。文档处理规则122可以包括各种辅助，诸如徽标、题目、表单/信函布局、数据字段及其期望值、数据字段值、数据字段值的数据类型等。文档分类器2222可以使用来自商业规则的辅助来标识根文件102内的每个页面。因此，在802处，标识具有多个页面的表单、信函、证书或文档，其可以包括在两面具有事物的页面的第二面。在一个示例中，在802处标识的页面可以属于在根文件102内不具有其他版本或副本的独特的数字化文档。在另一示例中，根文件102中的数字化文档的子集可以是相同文档的不同版本或者可以是相同文档的相同副本。

在804处，创建各种文件夹以用于将独特文档放置在根文件102内。在这样的情况下，文档的不同版本或相同副本被放置在同一文件夹内。在另一示例中，所创建的文件夹的总数可以等于根文件102内的数字化文档的总数。在806处，基于所创建的文件夹的数目，可以将在802处标识的数字化文档中的每个文件布置到相应的文件夹中。在808，选择由文档处理规则122指定的与文档版本对应的数字化文档页面组成的重要文档以用于被包括在输入文件104中。通常，尽管文档的一个版本可以被包括在输入文件104中，但是如果在文档处理规则122中被如此指定，则也可以包括对应于文档的多个版本的数字化文档。在810处，将构成重要文档的选择页面按照由用于重要文档选择和布置506的规则指定的顺序布置以生成输入文件。

图9是根据一个示例的详细描述从输入文件104提取数据字段的过程的流程图900。该方法在902处开始，在902处，访问输入文件104。在904处，选择来自输入文件104的页面以用于处理，并且在906处，获取页面布局数据526。在908处，使用页面布局数据526标识页面内的数据字段和数据字段的位置。在910处，从页面提取数据字段值。在910处，使用关于模式，数据值及其范围等而被训练的字段模型108来提取数据字段值。在912处，验证所提取的数据字段值。在914处，确定是否还有页面要处理以用于数据字段提取。如果是，则该方法返回到904以选择下一页面，并且如果没有更多页面仍有待处理，则该方法终止于结束框。可以理解，为了说明的目的，来自输入文件104的页面的处理被连续地描述，并且根据一些示例，输入文件104的页面可以被同时并行地处理。

图10是根据一个示例的详细描述验证数据字段并且计算置信度得分的方法的流程图1000。该方法在1002处开始，在1002处，针对输入文件104的页面中的数据字段获取验证条件或规则。页面中的数据字段可以具有一个或多个验证条件，其可以进一步涉及其他数据字段。例如，单个数据字段可能需要满足多个条件才能被验证。一些数据字段需要同时满足一些验证条件。例如，可以定义验证条件，从而使得在总金额的计算中利率、持续时间和原始金额一起应当等于贷款申请包的其他页面中给出的总金额。在1004处，测试数据字段的验证条件。在1006处，确定是否还有其他验证条件以用于测试数据字段。如果是，则该方法返回到1004以测试下一验证条件。如果没有另外的验证条件以用于测试，则收集关于由数据字段满足的验证条件的统计1008。统计可以涉及为数据字段定义的验证条件的数目、为数据字段满足的验证条件的数目、每个验证条件的权重(如果有的话)、数据字段的置信度的平均值/中值或其他度量。因此，置信度得分度量数据字段与各种验证条件的符合程度。在1010处，基于统计信息为数据字段计算置信度得分。在1012处，确定置信度得分是否大于某个预定阈值得分。如果置信度得分大于阈值得分，则在1014处，确定数据字段有效并且该方法终止于结束框。如果在1012处确定置信度得分小于预定阈值得分，则在1016处，例如可以经由对UI 160上的数据字段进行颜色编码来将数据字段标记为无效，从而将其标记以用于进一步的手动检查并且该方法终止于结束框。

图11是详细描述训练和使用字段分类器来获取输入文件104的页面内的数据字段的位置的方法的流程图1100。最初，在1102处，在一个示例中，可以经由标记的训练数据来训练字段模型108。如此训练的字段模型108被用于标识输入文件104内的数据字段。因此，在1104处，使用字段模型108以用于标识输入文件的页面内的数据字段及其位置。例如，用户可以使用UI 160，其中用户选择数据字段值以标识其在输入文件104内的位置。在1106处，确定数据字段的位置是否被正确标识。如果位置被正确标识，该方法终止于结束框。如果在1106处确定对于数据字段不能标识位置，则在1108处接收指示输入文件104内的数据字段的位置的用户输入。例如，用户可以点击或以其他方式选择输入文件104内的数据字段源位置。文档处理和验证系统100可以接收用户在输入文件104内的点击位置以训练字段模型108。在1110处，添加用户输入以更新训练数据，训练数据现在包括数据字段以及用户在输入文件中指出的其位置。在1112处，利用更新的训练数据对字段模型108进行训练以指出数据字段的位置，从而使得当用户随后尝试定位数据字段将导致文档处理和验证系统100在1108处导航到由用户指出的位置。即使当用户使用文档处理和验证系统100以用于提取和验证目的，文档处理和验证系统100内的AI元件也在使用期间被训练，从而使得文档处理和验证系统100在继续使用时更好地执行。

以下参考对应于贷款包的输入文件104来讨论用户界面。然而，可以理解，可以使用本文中讨论的类似用户界面、系统和方法来处理被数字化为不可编辑格式的其他文档图像或文档以提取和验证数据。图12示出了根据一个示例的UI 160。用户界面160具有两个部分：UI 160的左侧(LHS)所示的源图像部分1202和提取的数据部分1204。源图像部分1202以不可编辑的格式显示输入文件104，诸如扫描图像。提取的数据部分在UI 160的右侧(RHS)显示从源图像或输入文件104提取的数据。UI 160的提取的数据部分1204还包括帮助导航到被包括在UI 160中的各种屏幕的工具栏1212。页面导航控件1214使得用户能够导航到提取的数据部分1204内示出从输入文件104提取的数据的各个页面。如从页码看到的，标签1206可以显示在源图像部分1202上，366页面中的页面1被显示，其中可以使用题目1208“Uniform Residential Loan Application(统一住宅贷款申请)”和组织的名称1210作为一些特征以用于对相应根文件分类并且检索用于提取和验证数据字段的相应的文档处理规则122。

图13示出了根据一些示例的用于基于数据字段的置信度得分来传送提取的数据的特性的颜色编码。当点击信息图标1310时，在下拉菜单1320中示出与各种颜色相关联的颜色编码和状态，从而使得用户可以基于从验证条件计算出的置信度得分来立即标识以相应颜色显示的数据字段的状态。状态可以包括但不限于修改的、可疑、无数据、无书签、未找到模式、不适用和要求的。在图13中，与利率1330有关的数据字段示出在蓝色背景上的文本框中，从而将其状态指示为“修改”。

图14A和图14B示出了文档处理和验证系统100从贷款包提取和显示经验证的字段。在图14A中，在1404处，用户选择与贷款额有关的数据字段。在用户界面160上提供关于提取贷款额1404的贷款包内的位置1402的信息或提取的数据的源位置。例如，贷款额数据字段的值是499,000.00，这是数字化文档题目“注释”的第223页。这是从UI 160的源图像部分1202看到的。因此，当用户在UI 160的提取的数据部分1204内选择贷款额1404时，贷款包的第223页上的“注释”文档的相应部分自动地显示在UI 160的源图像部分1202上。

类似地，图14B示出了到显示有贷款包的第7页的数据字段的贷款期限1452的源位置1454的用户导航。类似地，UI 160使得用户能够导航到每个数据字段的来源位置，诸如抵押公司名称1456、持有方式1458、抵押贷款代表NMLS id 1462、预定结账日期1464和基础收入1466，这些数据字段是从显示在UI 160的源图像部分1202内的数字化文档提取的。

图15A和图15B示出了根据本文中描述的示例的数据字段的验证。图15A示出了UI160的屏幕1500，其中文档状态FNMA数据字段1502的值在UI 160的提取的数据部分1204内从“成功”改变为新值“成功1”。在接收到文档状态FNMA数据字段1502的新值时，文档处理和验证系统100确定新值不符合文档状态FNMA数据字段1502只能接收字母表值的文档处理规则122中的一个文档处理规则。为此，在UI 160上向用户显示通知1504。响应于通知1504，文档状态FNMA数据字段1502的值被更改为“成功”。这显示在图15B中的屏幕1550上，其中经修改的日志1552示出UI 160上的修改活动包括条目1554，条目1554示出对文档状态FNMA数据字段1502所做的更改。

图16示出了在从文档处理和验证系统上传数据时在外部系统180中生成的屏幕1600。外部系统180可以是例如贷款处理努力中的利益相关者的专有或私人数据系统。文档处理和验证系统100处理的贷款包的细节示出在头部1604中。来自索引结构150的数据可以自动地上传到外部系统180中，并且现在在各种部分1602内在外部系统180内被分类.可以理解，屏幕1600和各个子部分仅通过说明而非限制的方式示出，并且根据本文中讨论的示例，具有更多或更少的子部分的具有不同布局的屏幕也可以被用于访问经验证的数据。

图17示出了可以被用于实现文档处理和验证系统100的计算机系统1700。更具体地，可以被用于生成或访问报告的诸如台式计算机、膝上型计算机、智能手机、平板计算机、可穿戴设备等计算机器可以具有计算机系统1700的结构。计算机系统1700可以包括未示出的附加组件，并且所描述的一些组件可以被移除和/或修改。

计算机系统1700包括(多个)处理器1702(诸如中央处理单元、ASIC或其他类型的处理电路)、输入/输出设备1712(诸如显示器、鼠标、键盘等)、网络接口1704(诸如局域网(LAN)、无线802.11x LAN、3G或4G移动WAN或WiMax WAN)、以及计算机可读介质1706。这些组件中的每个可以被可操作地耦合到总线1708。计算机可读介质1706可以是参与向(多个)处理器1702提供指令用于执行的任何合适的介质。例如，计算机可读介质1706可以是非暂态或非易失性介质(诸如磁盘或固态非易失性存储器)或易失性介质(诸如RAM)。被存储在计算机可读介质1706上的指令或模块可以包括由(多个)处理器1702执行以执行文档处理和验证系统100的方法和功能的机器可读指令1764。

文档处理和验证系统100可以被实现为被存储在非暂态计算机可读介质上并且由一个或多个处理器执行的软件。例如，计算机可读介质1706可以存储操作系统1762，诸如MAC OS、MS WINDOWS、UNIX或LINUX、以及用于文档处理和验证系统100的代码或机器可读指令1764。操作系统1762可以是多用户、多处理、多任务、多线程、实时等。例如，在运行期间，操作系统1762正在运行，并且由(多个)处理器1702执行用于文档处理和验证系统100的代码。

计算机系统1700可以包括数据存储装置1710，其可以包括非易失性数据存储装置。数据存储装置1710存储由文档处理和验证系统100使用的任何数据。数据存储装置1710可以被用于存储来自文档数据提取和验证过程的实时数据，以自动地提取数据值，验证这些值，计算置信度得分，实现对低置信度得分数据字段的人工检查，等等。

网络接口1704例如经由LAN将计算机系统1700连接到内部系统。而且，网络接口1704可以将计算机系统1700连接到因特网。例如，计算机系统1700可以经由网络接口1704连接到web浏览器和其他外部应用程序和系统。

本文中已经被描述和说明的是示例以及其一些变体。本文中使用的术语、描述和附图仅仅是为了说明并且并不表示限制。在本主题内容的精神和范围内可以做出很多变化，本主题内容旨在由以下权利要求及其等同物限定。

Claims

1.一种提取和验证数据的方法，包括：

接收根文件，所述根文件包括通过对来自文档包的相应纸质文档成像而被获取的多个数字化文档；

基于与所述文档包相关联的目的，来将所述根文件分类为多个文档类型中的一个文档类型；

基于所述根文件被分类在其下的所述文档类型来选择用于处理所述根文件的文档处理规则；

基于所述文档处理规则来将所述根文件分割成各个数字化文档，所述各个数字化文档包括至少一个文档的多个版本；

基于被包括在所述文档处理规则中的文档标识信息来选择所述各个数字化文档的子集以形成输入文件；

提取被包括在所述输入文件中的多个数据字段中的一个或多个数据字段的数据值和位置；

计算用于所述一个或多个数据字段的相应置信度得分，所述置信度得分指示所述一个或多个数据字段与相应验证条件的符合程度；

从所述输入文件生成索引结构，所述索引结构包括用于所述一个或多个数据字段中的每个数据字段的所述数据值、所述位置和所述置信度得分；

在用户界面的源图像部分内显示所述输入文件的图像；以及

在所述用户界面的提取的数据部分内显示所述一个或多个数据字段的所述值和位置。

2.根据权利要求1所述的方法，其中将所述根文件分割成各个数字化文档还包括：

标识所述根文件的每个页面；

针对所述根文件中的每个个体文档创建相应文件夹；以及

将所述数字化文档的页面放置入所述相应文件夹中。

3.根据权利要求2所述的方法，其中选择所述各个数字化文档的子集以形成所述输入文件还包括：

基于所述文档标识信息来从所述各个数字化文档标识重要文档以用于数据字段提取；以及

选择与所述重要文档对应的所述各个数字化文档的所述页面；以及

通过按照由所述文档处理规则指定的顺序放置选择的所述页面来生成所述输入文件。

4.根据权利要求2所述的方法，其中提取多个数据字段中的一个或多个数据字段的数据值和位置还包括：

使用训练的字段分类器以用于标识来自所述输入文件的所述一个或多个数据字段的所述位置。

5.根据权利要求4所述的方法，还包括：

确定所述字段分类器未标识所述一个或多个数据字段中的至少一个数据字段的位置。

6.根据权利要求5所述的方法，还包括：

接收准确地标识所述至少一个数据字段的所述位置的用户输入；以及

关于所述用户输入训练所述字段分类器以准确地标识所述至少一个数据字段的所述位置。

7.根据权利要求1所述的方法，还包括：

接收对所述一个或多个数据字段中的一个数据字段的用户选择；以及

显示所述输入文件内的选择的所述数据字段的源位置。

8.根据权利要求1所述的方法，其中显示源图像部分和提取的数据部分还包括：

在所述用户界面上显示与提取的所述数据部分相邻的所述源图像部分。