CN117813601A - 用于能够使得相关数据从多个文档中被提取的系统和方法 - Google Patents
用于能够使得相关数据从多个文档中被提取的系统和方法 Download PDFInfo
- Publication number
- CN117813601A CN117813601A CN202180081294.3A CN202180081294A CN117813601A CN 117813601 A CN117813601 A CN 117813601A CN 202180081294 A CN202180081294 A CN 202180081294A CN 117813601 A CN117813601 A CN 117813601A
- Authority
- CN
- China
- Prior art keywords
- document
- target data
- documents
- tensor
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 106
- 238000000605 extraction Methods 0.000 claims abstract description 96
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 30
- 230000008901 benefit Effects 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000003467 diminishing effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Business, Economics & Management (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本文公开了能够从文档中提取目标数据的系统和方法。在实施例中,一种能够从文档中提取目标数据的方法包括:访问包括多个文档的数据库,所述多个文档包括目标数据;对于所述多个文档中的每个文档,基于包括所述目标数据的所提取的文本来创建区域张量;对于所述多个文档中的每个文档,基于包括所述目标数据的区来创建标签张量;以及使用所述区域张量和所述标签张量来训练所述提取算法以从附加文档中提取所述目标数据。
Description
背景技术
优先权
本专利申请要求享受于2020年10月19日递交的标题为“Systems and Methodsfor Training an Extraction Algorithm and/or Extracting Relevant Data from aPlurality of Documents”(用于训练提取算法和/或从多个文档提取相关数据的系统和方法)的美国临时专利申请No.63/093,425的优先权,其完整内容通过引用的方式被并入本文并作为依据。
技术领域
概括地说,本公开内容涉及用于使目标数据能够从多个文档中被提取的系统和方法。更具体地说,本公开内容涉及利用来自传统数据库中的文档的信息来训练提取算法以从当前数据库中的文档中提取目标数据的系统和方法。
背景信息
许多企业在传统数据库中拥有大量旧数据。然而,在某些情况下,这些数据除了保留旧记录外几乎没有什么价值,尤其是在维护传统数据库的技术变得过时的情况下。
发明内容
本公开内容提供了可以利用来自传统数据库的旧数据来训练提取算法的系统和方法,所述提取算法然后可以从较新数据库中的附加文档中提取目标数据。因此,本文讨论的系统和方法允许传统数据库中的旧数据提供记录保存之外的价值,同时还提高处理速度并减少从大量文档中提取目标数据所需的存储器空间。
根据本公开内容的第一方面,一种能够从文档中提取目标数据的系统包括数据库和控制器。所述数据库包括多个文档,该多个文档包含目标数据。所述控制器包括处理器和存储器,所述处理器被编程为执行存储在所述存储器中的指令以使所述控制器用于:(i)对于所述多个文档中的每个文档,基于包括所述目标数据的所提取的文本来创建区域张量;(ii)对于所述多个文档中的每个文档,基于包括所述目标数据的区来创建标签张量;(iii)使用所述区域张量和所述标签张量来训练所述提取算法以从附加文档中提取所述目标数据。
根据本公开内容的第二方面,所述第二方面可以与所述第一方面组合,一种能够从文档中提取目标数据的系统包括数据库和控制器。所述数据库包括多个文档,所述多个文档包含目标数据。所述控制器包括处理器和存储器,所述处理器被编程为执行存储在所述存储器中的指令以使所述控制器用于:(i)对于所述多个文档中的每个文档,提取包括所述目标数据的目标文本;(ii)对于所述多个文档中的每个文档,识别所述目标文本周围的固定区域;(iii)对于所述多个文档中的每个文档,基于所述固定区域而创建区域张量;以及(iv)使用所述区域张量,训练提取算法以从附加文档中提取所述目标数据。
根据本公开内容的第三方面,所述第三方面可以与所述先前方面中的任意一个或多个方面组合,一种能够从文档中提取目标数据的系统包括数据库和控制器。所述数据库包括多个文档,所述多个文档包含目标数据。所述控制器包括处理器和存储器,所述处理器被编程为执行存储在所述存储器中的指令以使所述控制器用于:(i)对于所述多个文档中的每个文档,向包括所述目标数据的区分配标签;(ii)对于所述多个文档中的每个文档,将所述区转换为坐标数据;(iii)对于所述多个文档中的每个文档,使用所述坐标数据创建标签张量;以及(iv)使用所述标签张量,训练提取算法以从附加文档中提取所述目标数据。
根据本公开内容的第四方面,所述第四方面可以与所述先前方面中的任意一个或多个方面组合,一种能够从文档中提取目标数据的系统包括数据库和控制器。所述数据库包括多个文档,所述多个文档包含目标数据。所述控制器包括处理器和存储器,所述处理器被编程为执行存储在所述存储器中的指令以使所述控制器用于:(i)在所述多个文档中的每个文档之内提取文本;(ii)对于所述多个文档中的每个文档,创建键值映射,该键值映射包括至少一个类别和所述类别的至少一个相对应的目标数据值;以及(iii)使用来自所述键值映射的信息,训练提取算法以从附加文档中提取所述目标数据。
根据本公开内容的第五方面,所述第五方面可以与所述先前方面中的任意一个或多个方面组合,所述控制器还被编程为:使用来自所述键值映射的信息创建标签张量或区域张量中的至少一个;以及使用所述标签张量或所述区域张量中的至少一个来训练所述提取算法以从所述附加文档中提取所述目标数据。
根据本公开内容的第六方面,所述第六方面可以与所述先前方面中的任意一个或多个方面组合,一种能够从文档中提取目标数据的系统可以包括控制器,所述控制器被编程为使用本文讨论的任何提取算法来从所述附加文档中提取所述目标数据。
根据本公开内容的第七方面,所述第七方面可以与所述先前方面中的任意一个或多个方面组合,一种能够从文档中提取目标数据的方法包括:(i)访问包括多个文档的数据库,所述多个文档包括目标数据;(ii)对于所述多个文档中的每个文档,基于包括所述目标数据的所提取的文本来创建区域张量;(iii)对于所述多个文档中的每个文档,基于包括所述目标数据的区来创建标签张量;以及(iv)使用所述区域张量和所述标签张量来训练所述提取算法以从附加文档中提取所述目标数据。
根据本公开内容的第八方面,所述第八方面可以与所述先前方面中的任意一个或多个方面组合,一种能够从文档中提取目标数据的方法包括:(i)访问包括多个文档的数据库,所述多个文档包括目标数据;(ii)对于所述多个文档中的每个文档,提取包括所述目标数据的目标文本;(iii)对于所述多个文档中的每个文档,识别所述目标文本周围的固定区域;(iv)对于所述多个文档中的每个文档,基于所述固定区域来创建区域张量;以及(v)使用所述区域张量来训练提取算法以从附加文档中提取所述目标数据。
根据本公开内容的第九方面,所述第九方面可以与所述先前方面中的任意一个或多个方面组合,一种能够从文档中提取目标数据的方法包括:(i)访问包括多个文档的数据库,所述多个文档包括目标数据;(ii)对于所述多个文档中的每个文档,向包括所述目标数据的区分配标签;(iii)对于所述多个文档中的每个文档,将区转换为坐标数据;(iv)对于所述多个文档中的每个文档,使用所述坐标数据创建标签张量;以及(v)使用所述标签张量来训练提取算法以从附加文档中提取所述目标数据。
根据本公开内容的第十方面,所述第十方面可以与所述先前方面中的任意一个或多个方面组合,一种能够从文档中提取目标数据的方法包括:(i)访问包括多个文档的数据库,所述多个文档包括目标数据;(ii)在所述多个文档中的每个文档之内提取文本;(iii)对于所述多个文档中的每个文档,创建键值映射,该键值映射包括至少一个类别和所述类别的至少一个相对应的目标数据值;以及(v)使用来自所述键值映射的信息,训练提取算法以从附加文档中提取所述目标数据。
根据本公开内容的第十一方面,所述第十一方面可以与所述先前方面中的任意一个或多个方面组合,所述方法包括:使用来自所述键值映射的信息创建标签张量或区域张量中的至少一个;以及使用所述标签张量或所述区域张量中的至少一个来训练所述提取算法以从所述附加文档中提取所述目标数据。
根据本公开内容的第十二方面,所述第十二方面可以与所述先前方面中的任意一个或多个方面组合,一种能够从文档中提取目标数据的方法包括:使用本文讨论的任何提取算法从附加文档中提取目标数据。
根据本公开内容的第十三方面,所述第十三方面可以与所述先前方面中的任意一个或多个方面组合,所述方法包括:使用所述提取算法而能够从附加文档中提取所述目标数据。
根据本公开内容的第十四方面,所述第十四方面可以与所述先前方面中的任意一个或多个方面组合,一种存储器存储指令,所述指令被配置为使处理器执行本文所讨论的方法。
根据以下结合附图公开了所公开的系统和方法的示例性实施例的具体实施方式,本文所公开的系统和方法的其他目的、特征、方面和优点对于本领域技术人员来说将变得显而易见。
附图说明
现在参考构成本原始公开的一部分的附图:
图1示出了根据本公开内容的、能够从多个文档中提取目标数据的系统的示例实施例;
图2A示出了图1的系统的示例实施例;
图2B示出了图1的系统的另一示例实施例;
图3示出了根据本公开内容的、能够从多个文档中提取目标数据的方法的示例实施例;
图4示出了可以在图3的方法期间执行的文档转换的示例实施例;
图5A至图5C示出了可以在图3的方法期间执行的区域标签分配的示例实施例;
图6A和图6B示出了可以在图3的方法期间执行的区域标签提取的示例实施例;
图7A和图7B示出了可以在图3的方法期间执行的文本提取的示例实施例;
图8示出了可以在图3的方法期间执行的区域张量的创建的示例实施例;
图9A至图9F示出了可以在图3的方法期间执行的张量调整的示例实施例;
图10A至图10C示出了可以在图3的方法期间执行的文本识别阶段提取的示例实施例;
图11A至图11G示出了可以在图3的方法期间执行的创建标签张量的示例实施例;
图12A和图12B示出了可以在图3的方法期间执行的算法训练准备的示例实施例;
图13A至图13G示出了可以在图3的方法期间执行的算法训练的示例实施例;
图14A和图14B示出了可以在图3的方法期间执行的数据库创建的示例实施例;
图15示出了可以在图3的方法期间执行的数据库创建的另一示例实施例;
图16示出了根据本公开内容的、能够从多个文档中提取目标数据的方法的另一示例实施例;
图17示出了可以在图16的方法期间执行的文本提取的示例实施例;
图18示出了可以在图16的方法期间执行的纯文本文档的创建的示例实施例;以及
图19示出了可以在图16的方法期间执行的键值映射的创建的示例实施例。
具体实施方式
现在将参考附图来解释选取的实施方式。根据本公开内容,对本领域技术人员来说显而易见的是,以下对实施例的描述仅用于说明目的,而不是为了限制由所附权利要求及其等价物所限定的本发明。
图1示出了能够从多个文档30中提取目标数据的系统10的示例实施例。在图示实施例中,系统10包括至少一个用户接口12、控制器14和传统数据库16。系统10还可以包括电流数据库18。在使用中,控制器14被配置为使用来自存储在传统数据库16中的文档30的数据来开发提取算法EA。然后系统10可以应用提取算法EA以从传统数据库中的大量附加文档30和/或当前数据库18中的附加文档30中提取目标数据32。更具体地说,EA算法能够对附加文档30中的目标数据32进行定位、提取和分类。下面更详细地解释了训练提取算法EA和/或提取目标数据32的方法。
用户接口12和控制器14可以是同一用户终端UT的一部分,或者可以是被置为相互通信的独立元件。在图2A中,同一用户终端UT包括用户接口12和控制器14,并且用户终端UT与传统数据库16和/或当前数据库18通信。在图2B中,用户终端UT包括用户接口12,而中央服务器CS包括控制器14,其中,中央服务器CS与传统数据库16和/或当前数据库18通信。用户终端UT可以是例如,手机、平板电脑、个人电脑或其他电子设备。用户终端UT可包括处理器和存储器,其可用作控制器14(例如,图2A)或被置于与控制器14通信(例如,图2B)。
根据本文讨论的方法,用户接口12可用于训练提取算法EA和/或查看提取的目标数据32。用户接口12可以包括显示屏和输入设备,例如触摸屏或按钮板。在训练期间,用户可以通过用户接口12向系统10提供反馈,以提高系统10从多个文档30中提取目标数据32的准确度。在提取目标数据32期间或之后,用户可以利用用户接口12以简单配置查看提取的目标数据32,与其他方法相比,这减少了加载时间、处理功率和存储器空间。
控制器14可以包括处理器20和存储器22。处理器20被配置为执行编程到存储器22中和/或由存储器22存储的指令。指令可以包括使处理器20执行下文讨论的方法100、200的步骤的编程指令。存储器22可以包括例如非暂时性计算机可读存储介质。控制器14还可以包括数据传输设备24,其使得能够在用户接口12、传统数据库16和/或当前数据库18之间进行通信,例如,经由有线或无线网络。
传统数据库16可以包括任何数据库,该任何数据库包含多个文档30。在实施例中,传统数据库16可以包括数据库,该数据库包含文档30和/或企业在正常业务过程中访问或利用的其他信息。文档30可以包括公共信息或私人信息。在实施例中,传统数据库16可以包括多个文档30以及已经从那些文档30中提取的具有过去重要性的目标数据32。过去重要的信息可以包括例如姓名、日期、地址、号码、财务数额和/或之前从每个文档30中提取的其他数据。在实施例中,根据下文讨论的方法,使用该先前提取的目标数据32,本文讨论的系统10可以训练提取算法EA以从当前数据库18访问相同类型的目标数据32。
当前数据库18可以包括任何数据库,任何数据库包含多个文档30。在实施例中,当前数据库18可以包括数据库,该数据库包含文档30和/或企业在正常业务过程中利用的其他信息。文档30可以包括公共信息或私人信息。在实施例中,当前数据库18包括多个文档30,这些文档30具有尚未从这些文档30中提取的具有未来重要性的目标数据32。具有未来重要性的信息可以包括例如尚未从每个文档30中提取的姓名、日期、地址、号码、财务金额和/或其他数据。在实施例中,当前数据库18可以是在线公共数据库,企业可以访问该在线公共数据库以在多个文档30被创建和/或存档时从多个文档30中提取目标数据32。
在实施例中,传统数据库16可以包括例如一种或多种旧技术(例如,旧计算机系统、基于旧软件的应用等),其不同于当前数据库18使用的较新的技术。也就是说,传统数据库16可以包括在与用于管理当前数据库18的软件或硬件不同的过时软件或硬件上运行的系统。因此,传统数据库16可以包括比当前数据库18使用的第二软件和/或第二硬件更旧或不同版本的第一软件和/或第一硬件。在实施例中,传统数据库16存储在当前数据库18的创建和/或实施之前创建的信息和/或数据。当前公开的系统10的示例优势是能够使用来自过时的传统数据库16的文档30来从较新的当前数据库18中提取重要的目标数据32的能力。
图3示出了能够从多个文档中提取目标数据的方法100的示例实施例。方法100的步骤可以作为指令存储在存储器22上并且可以由处理器20执行。应当理解,在不脱离方法100的精神或范围的情况下,可以重新排序或省略本文描述的一些步骤。
方法100开始于访问数据库,例如系统10的传统数据库16。传统数据库16包括多个文档30,其中这些文档30中的每个文档30包括目标数据32。目标数据可以是先前提取的,或者也可以在方法100开始时是未知的。目标数据32可以包括例如姓名、日期、地址、号码、财务金额和/或文档中列出的其他数据。因此,在实施例中,传统数据库16可以包括目标数据32,例如姓名、日期、地址、号码、财务金额和/或已经从存储在其中的文档30中提取的其他数据。例如,传统数据库16可以包括目标数据32的列表(例如,名称、日期、数量、地址等)以及对从中提取该信息的相对应文档30的指示或链接。
在图示实施例中,数据库中的多个文档30为初始格式,例如可移植文档格式(PDF)。PDF是使用最少存储器来存储文档30的常用格式。在另一实施例中,文档30可以包括HTML文档。虽然本公开内容一般涉及PDF文档30,但本领域的普通技术人员将从本公开内容中认识到,除了PDF之外,还有可以受益于当前公开的系统和方法的其他格式。
在步骤102处,初始格式(例如,PDF)被转换成一个或多个图像34。以初始格式的文档30可以被转换为单个图像34或多个图像34。在图像格式中,图像34中显示的信息可能无法被计算机读取。在实施例中,可以为文档30的每一页创建单独的图像34。图4示出了多页PDF文档30被转换成多个页面图像34的示例实施例。
在步骤104处,对在步骤102期间创建的图像32执行区域标签分配。这里,对于每个文档30,一个或多个标签36被分配给包括目标数据32的区38。可以例如通过突出显示位于图像34内的目标数据32并将目标数据32链接到相对应标签36来分配标签36。更具体地,可以围绕目标数据32创建方框40并且可以将标签36与该框40相关联。因此,在实施例中,区38可以对应于方框40。该分配可以由用户使用用户接口12手动执行。该分配也可以由控制器14自动执行,特别是如果控制器14由于传统数据库16中的先前提取和/或存储而已经知道目标数据32的位置和/或类型。在实施例中,可以使用图形工具来创建方框40。图5A至图5C示出了示例实施例,其中标签36是通过形成方框40来分配的,方框40与目标数据32周围的区38相对应。
在实施例中,例如当使用已经从文档30中提取目标数据32的传统数据库16时,控制器14被配置为基于先前提取的目标数据32自动定位和/或分配标签36。例如,在图5C中,75,130.14美元的财务金额可以是先前已从该文档30中找到和/或提取的信息。在知道该信息先前已被提取为目标数据32的情况下,控制器14被配置为寻找“75.130.14”并为其分配标签36。对于先前提取的目标数据32,与标签36相对应的类别可以是先前已知的,使得控制器14被配置为将正确的标签36分配给图像34。或者,控制器14被配置为基于先前提取的信息来定位目标数据32和/或创建区38/方框40,并且用户可以使用用户接口12手动分配标签36。
在步骤106处,基于在步骤104期间分配的标签36来执行区域标签提取。这里,控制器14从步骤104确定突出显示区38的标签坐标数据42。如图6A和图6B所示,区域标签提取可以包括:为来自步骤104的每个突出显示的区38创建边界条件44,然后可以将其与先前分配的标签36相关联。标签坐标数据42可以包括边界条件44或从边界条件创建的数据。标签坐标数据42可以包括一个或多个X和Y坐标。例如,在图6A和6B中,每个标签36(例如,“AmountOfClaim”,“BasisForClaim”,“AmountOfArrearage”等)被赋予Xmin值、Ymin值、Xmax值和Ymax值。坐标数据42可以标记在步骤104中在相应图像34内创建的每个方框40的区38的边界,使得数值表示在图像34内的区38的x和y位置。
在步骤108处,对图像34执行文本提取,例如,使用光学字符识别(OCR)或其他文本提取方法。可以在步骤104或106没有向图像34应用标签36的情况下对图像34执行文本提取。如图7A和7B所示,然后可以创建数据库50,其中,数据库50列出每条所提取的文本48(例如,图7B中的“文本列”中所示)以及图像中该文本的X和Y位置(例如,图7B中的“左”、“上”、“宽度”和“高度”列)。数据库50可以包括例如以电子表格格式创建的文档。
在步骤110处,使用从初始文档30创建的图像34创建区域张量52。可以在没有在步骤104或106处向图像34应用标签36和/或没有在步骤108处执行文本提取的情况下,使用图像34创建区域张量52。如图8所示,区域张量52可以包括描述图像34中一个或多个对象的关系的一个或多个数据矩阵。
在步骤112处,在步骤108处执行的文本提取用于调整在步骤110处创建的区域张量52。如图9A至图9F所示,这可以例如通过对在步骤108处从图像中提取的文本48进行定位并通过创建围绕该文本48的固定区域54来执行。在图9C中,系统10专注于财务金额文本(此处为财务金额“$365.315.99”)。在图9D中,围绕文本48形成固定区域54(例如,800×200固定区域)。固定区域54的边界可以被保存为文本坐标数据。如图9E和图9F所示,然后可以基于固定区域54的大小来调整在步骤110处创建的区域张量52。具体地,然后可以基于文本坐标数据来更新和/或调整在步骤110处创建的区域张量52。然后可以存储区域张量52供以后用作特征向量,以用于使用各种机器学习技术来训练提取算法EA。
在步骤114处,执行文本识别(例如,OCR)阶段提取。可以以本领域理解的任何合适的方式执行文本识别阶段提取(例如,使用填充图像)。图10A至图10C示出了可以在步骤114处执行的文本识别阶段提取的示例实施例。可以使用来自步骤112的文本坐标数据来执行文本识别阶段提取。
在步骤116处,合并步骤106、112和/或114的结果以创建标签张量60。如图11A所示,在步骤108和/或114处执行的文本和/或阶段提取已经能够识别页面上重要文本的文本坐标数据(即位置),而在步骤106处执行的标记已经标识了页面上的一个或多个目标类别(例如,标签36)的标签坐标数据(即,位置)。如图11B所示,控制器14然后使用该坐标数据来标识已经由X和Y坐标标识的重叠区域。也就是说,文本坐标数据和标签坐标数据中的每一个都被分配了指定图像34内的固定区的X和Y坐标,并且系统10被配置为确定公共坐标的重叠区域。如图11C所示,每个目标类别(例如,标签36)然后可以与相对应所提取的文本48相关联。在实施例中,控制器14被配置为然后在如图所示的同一数据库中列出标签36和相对应的所提取的文本48。这里,控制器14已经将标签36添加到先前针对所提取的文本48创建的文档50。如图11D和图11E所示,然后可以将在步骤112处创建的相对应的区域54与标签36相关联。在实施例中,相对应的区域54可以在与如图所示的标签36和相对应的所提取的文本48相同的数据库50中列出。如图11F和图11G所示,系统10已经存储了在步骤112处创建的区域张量52(图11F),并且被配置为基于来自步骤116的组合信息进一步创建标签张量60(图11G)。在图11G中,标签张量60是一维数据矩阵,其示出图像中的文本在何处被分配了特定标签36(此处,例如,对应于“AmountofClaim”文档条目的数量“1”)。
在步骤118处,系统10准备区域张量52和标签张量60以用于训练算法EA。更具体地,系统10准备区域张量52和标签张量60以用作用于训练算法EA的输入。此处,文档30的每对张量52,60(例如,区域张量52和相对应的标签张量60)可以被认为是数据集(例如,分别在图12A和图12B中的“示例”或“数据集”)。控制器14被配置为将来自多个文档30的数据集划分成训练集和测试集。例如,60-90%的数据集可以被移动到用于训练提取算法EA的训练集类别中,而其余10-40%的数据集可以被移动到测试集类别中,测试集类别用于测试经训练的提取算法EA以确保训练成功。
在步骤120处,控制器14使用包括单独数据集的训练集来训练算法EA,每个单独的数据集包括区域张量52和相对应的标签张量60。例如,使用神经网络训练等机器学习技术,控制器14被配置为训练提取算法EA。正在被训练的神经网络可以是例如卷积神经网络。
如图13A所示,区域张量52和标签张量60可以用作用于训练提取算法EA(例如,以训练神经网络)的输入。如图13B所示,算法EA被训练为在未来使用输入的区域张量52然后输出标签张量60。图13C至图13G示出了这种训练的示例实施例。一旦提取算法EA已经被训练,控制器14被配置为使用来自步骤118的测试集来测试提取算法EA,例如,通过将来自测试集的区域张量52作为输入被输入到经训练的提取算法EA中,并且然后确定经训练的提取算法EA是否输出正确的相对应的标签张量60。
在实施例中,提取算法EA可以被训练为K最近邻(KNN)算法。KNN算法是一种存储现有案例并基于相似性度量(例如,距离)对新案例进行分类的算法。KNN算法是一种有监督的机器学习技术,它可以与使用方法100创建的数据一起使用,因为当数据点被分成几个类别以预测新样本点的分类时,KNN算法很有用。使用KNN算法,该预测可以基于加权的平均值/投票的K最近(通常是欧几里德距离)邻居。
在步骤122处,然后可以将提取算法EA应用于附加文档30,例如,来自当前数据库18的附加文档30。附加文档30也可以来自传统数据库16。控制器14被配置为:将从附加文档30中提取的目标数据32放置到单个数据库中,例如图14A和图14B中所示的数据库70。如图所示,数据库70可以包括文档,例如总结目标数据32的电子表格。在这里,由于使用了提取算法EA,系统10被配置为:在文档30内找到目标数据32并以用户可以使用用户接口12快速且容易地查看的方式来标记该数据。在各种实施例中,可以训练提取算法EA来对文档30进行分类,以对实体进行分类并提取值,和/或生成包含提取的值和类别的电子表格。
如图15所示,在创建数据库70时,提取算法EA可以使用类别标签36作为列标题(heading)。然后,提取算法EA可以填充图15中的提取数据32(例如,财务金额)。
图16示出了能够从多个文档中提取目标数据的方法200的替代示例实施例。更具体地说,方法200可用于构建数据集以训练提取算法EA。方法200的步骤可以作为指令存储在存储器22上并且可以由处理器20执行。应当理解,在不脱离方法200的精神或范围的情况下,可以重新排序或省略本文描述的一些步骤。方法200的一个或多个步骤还可以与方法100的一个或多个步骤组合。
与方法100一样,方法200开始于访问数据库,例如系统10的传统数据库16。同样,传统数据库16包括多个文档30,其中这些文档中的每个文档都包括目标数据32。目标数据32可以是先前提取的,或者也可以在方法200的开始时是未知的。目标数据32可以包括例如姓名、日期、地址、号码、财务金额和/或文档中列出的其他数据。因此,在实施例中,传统数据库16可以包括目标数据32,例如姓名、日期、地址、号码、财务金额和/或已经从存储在其中的文档中提取的其他数据。例如,传统数据库16可以包括目标数据32的列表(例如,名称、日期、数量、地址等)以及对从中提取该信息的相对应文档30的指示或链接。
在图示实施例中,数据库中的多个文档30为初始格式,例如可移植文档格式(PDF)。但本领域普通技术人员将从本公开内容中认识到,除了PDF之外,还有可以受益于当前公开的系统和方法的其他格式。在另一实施例中,文档30可以包括HTML文档。
在步骤202处,下载文档30,并将与其相关联的元数据保存到数据库D,该数据库D可以是包括存储器的临时数据库。可以例如从传统数据库16下载文档30。如果文档30不处于正确的格式(例如,PDF),则它们也可以被转换为该格式。
在步骤204处,文档30被放置到“未处理的”目录中,以表明它们尚未根据方法200被处理。在实施例中,只有来自方法200的“已处理”文档30将最终被用于创建数据集以训练提取算法EA。
在步骤206处,控制器14被配置为开始处理文档30中的每个文档30。
在步骤208处,控制器14基于在步骤106做出的确定来确定每个文档30是有效的还是无效的。例如,如果系统10确定文档30不能根据方法200被处理,则文档30可以是无效的。如果无效,则在步骤210处将文档30移动到“无效”文件夹。
如果文档30有效并因此能够根据方法200进行处理,则在步骤212处确定文档30的类型。在图示实施例中,文档30是PDF,并且文档的类型30可以是例如,基于文本的PDF(例如机器可读的)或者基于图像的PDF。
在步骤214处,如果控制器14确定文档30是基于图像的,则系统10执行文本提取过程。对图像执行文本提取,例如,使用光学字符识别(OCR)或其他文本提取方法。图17示出了步骤214的示例实施例。在示例实施例中,可以使用Tesseract和/或Apache TiKA OCR软件来执行OCR。在实施例中,控制器14被配置为生成如所示的文本文档72。
在步骤216处,文档30包括可读文本,因为可读文本存在于原始文档30中或者因为可读文本是在步骤214处被添加的。因此,控制器14被配置为从文档30中提取所有文本,例如,以创建纯文本文档74。图18示出了步骤216的示例实施例。
在步骤218处,控制器14执行自然语言理解(NLU)过程。例如,控制器14可以被配置为执行基于分区(zone)的NLU过程。在这里,可以为存在必填字段的部分选择相关的开始和结束索引。可以搜索字段名称,例如,在所选择的分区上使用命名的实体识别(NER)。例如,如图19所示,可以从每个文档中提取各种字段74及其相对应的目标数据32。在图19中,字段74的示例实施例包括“Amount of Claim(索赔金额)”、“Social Security(社会保障)”、“Annual Interest Rate(年利率)”、“Case Number(案件编号)”、“Amount of SecuredClaim(担保索赔金额)”、“Principal Balance Due(到期本金余额)”、“Due Interest Rate(到期利率)”、“Combined interest Due(到期综合利息)”、“Total Principal andInterest Due(本金和利息总额)”、“Late Charges(滞纳金)”、“Non-Sufficicnt Funds(资金不足)”、“Attorney Fees(律师费)”、“Filing Fees(申请费)”、“Advertisement Costs(广告费用)”、“Sheriff Costs(治安官费用)”、“Title Costs(产权成本)”、“RecordingFees(备案费)”、“Appraisal Fees(评估费)”、“Property Inspection Fees(验房费)”、“Tax Advances(税收预付款)”、“Insurance Advances(保险预付款)”、“Escrow Shortages(托管短缺)”、“Property Preservation Expenses(财产保全费用)”、“Total PrepetitionFees(预申请费用总额)”、“Installments Due(应付分期付款)”、“Total InstallmentPayment(分期付款总额)”、“Total Amt to Cure(要治愈的总金额)”、“Statement Due(到期报表)”和“Ea Total Payment(Ea总付款)”。
以“Amount of Claim(索赔金额)”作为字段74的示例实施例,控制器14可以被配置为在所选择分区的相关开始和结束索引之间找到词语“Amount(金额)”和“Claim(索赔)”,并且可以记录相对应的美元金额。随着相关部分被过滤,准确度和性能会提高。在示例实施例中,可以例如使用Rasa和/或Spacy软件来执行NLU过程。
在实施例中,在步骤218处执行的NLU/NER可以是检测拼写错误或替代拼写的容错或“模糊”搜索。在实施例中,每个类别可以具有用于容错搜索的不同参数(例如,名称可能需要比地址更准确),这可以由用户使用用户接口12进行调整。
在步骤220处,控制器14为从文档中寻找的一个或多个所需字段74构建键值映射76。必填字段74可以包括例如姓名、日期、财务金额等,例如,如上文讨论的。图19示出了键值映射76的示例实施例,其中键是上文在步骤218处讨论的字段,而值是相对应的条目,其包括名称、日期、美元金额、标识号等。
在步骤222处,控制器14确定在步骤220处填充了多少所需字段74。如果没有填充所需字段74,则在步骤224处将文档30移动到“失败”目录。在另一实施例中,如果填充字段74的数量小于预定数量,则在步骤224处将文档30移动到“失败”目录。同样,如果填充字段74的数量大于预定数量,则控制器14在步骤226处将文档30与原始元数据一起保存到数据库D,并在步骤228处将文档30移动到“已处理”文件夹。在步骤230处,还可以用各种形式导出文档30。
在实施例中,从所需字段74构建的数据集随后可用于训练如上所述的提取算法EA。例如,控制器14可以被配置为类似于图11G中所示的那样为字段74中的每个字段构建标签张量60。使用该标签张量60和与该标签张量60相对应的所提取的值,控制器14可以如上文所讨论的训练提取算法EA。在该实施例中,字段74是如上所述的标签36。
在实施例中,控制器14可以使用为每个所需字段74提取的值来构建区域张量52,如上所述。例如,在知道与字段74(即标签36)相对应的提取值的情况下,如上所述,控制器14可以被配置为围绕该提取值构建区域张量52。然后控制器14可以被配置为使用区域张量52和/或标签张量60来训练提取算法EA。
在实施例中,方法100和方法200二者都可以由系统10执行以提高系统10的准确度。例如,系统10可以使用方法100训练第一提取算法EA并且可以使用方法200训练第二提取算法EA。然后,当从附加文档30中提取新的目标数据32时,系统10可以要求使用第一提取算法EA从文档30提取的目标数据32与使用第二提取算法EA从文档30提取的目标数据32之间的对应关系。在实施例中,只有当第一提取算法EA和第二提取算法EA找到相同的目标数据32时,系统10才会将该目标数据32构建到数据库/电子表格中和/或将该目标数据32呈现给用户。
当使用来自方法100和/或方法200的训练数据创建的提取算法EA从附加文档30中提取目标数据时,附加文档30可用于进一步训练提取算法EA。例如,用户可以查看提取算法EA从附加文档30中拉取的所提取的目标数据32,并且可以确定提取算法EA是否已经准确地提取了目标数据32。如果所提取的目标数据32是准确的,则可以使用该目标数据32作为正例进一步训练提取算法EA(例如,通过如上所述构建张量)。如果所提取的目标数据32不准确,则可以使用该目标数据32作为反例进一步训练提取算法EA。因此,控制器14可以在其整个使用过程中连续地训练提取算法EA。通过这种方式,提取算法的EA、准确度和性能会随着更多地应用于各种文档30而增加。
附图已经说明了本文讨论的使用抵押数据作为目标数据32的方法。但是从本公开内容中应当理解,这只是示例,并且本文讨论的系统和方法适用于各种各样的目标数据32。
本文描述的实施例提供了能够从多个文档30中提取目标数据的改进的系统和方法。通过训练和/或使用本文所讨论的提取算法EA,与提取数据的其他系统相比,可以提高处理速度和准确度并且可以节省存储器空间。此外,对于存储大量传统数据的商业企业,系统和方法使得能够使用传统数据而不仅仅是记录维护。应当理解,对本文描述的系统和方法的各种改变和修改对于本领域技术人员来说将是显而易见的,并且可以在不减少预期优点的情况下进行。
术语的一般性解释
在理解本发明的范围时,术语“包括”及其派生词,如本文所用,意在是开放式术语,其指定所阐述的特征、元素、组件、组和/或步骤的存在,但不排除存在其他未阐述的特征、元素、组件、组、整数和/或步骤。前述内容也适用于具有类似含义的词语,例如术语“包括”、“具有”及其派生词。此外,术语“部件”、“部分”或“元素”以单数形式使用时可具有单个部分或多个部分的双重含义。
如本文中用于描述设备的组件、部分或部件的术语“配置的”包括被构造和/或编程以执行期望的功能的硬件和/或软件。
虽然仅选择了选定的实施例来说明本发明,但是对于本领域技术人员来说,根据本公开内容将显而易见的是,在不脱离所附权利要求所限定的本发明的范围的情况下,可以在本文中进行各种改变和修改。例如,可以根据需要和/或期望改变各种组件的尺寸、形状、位置或方向。显示为彼此直接连接或接触的组件可以具有设置在它们之间的中间结构。一个元素的功能可以由两个元素执行,反之亦然。一个实施例的结构和功能可以在另一个实施例中被采用。没有必要在特定实施例中同时呈现所有优点。与现有技术不同的每个特征,无论是单独的还是与其他特征的组合,也应被视为申请人对进一步发明的单独描述,包括这些特征所体现的结构和/或功能构思。因此,根据本发明的实施例的前述描述仅用于说明,而不是用于限制由所附权利要求及其等价物限定的本发明的目的。
Claims (20)
1.一种能够使得目标数据从文档中被提取的方法,所述方法包括:
访问包括多个文档的数据库,所述多个文档包括目标数据;
对于所述多个文档中的每个文档,基于包括所述目标数据的所提取的文本来创建区域张量;
对于所述多个文档中的每个文档,基于包括所述目标数据的区来创建标签张量;以及
使用所述区域张量和所述标签张量来训练提取算法以从附加文档中提取所述目标数据。
2.根据权利要求1所述的方法,包括
使用所述提取算法而使得能够从所述附加文档中提取所述目标数据。
3.根据权利要求1所述的方法,包括
创建与所述多个文档中的每个文档相对应的至少一个图像;以及
使用所述至少一个图像创建所述区域张量和所述标签张量中的至少一个。
4.根据权利要求1所述的方法,其中,
所述区域张量和所述标签张量中的至少一个包括数据矩阵。
5.根据权利要求1所述的方法,其中,
创建所述区域张量包括:识别所提取的文本周围的固定区域以及基于所述固定区域来创建所述区域张量。
6.根据权利要求1所述的方法,其中,
创建所述标签张量包括:向包括所述目标数据的所述区分配标签,将所述区转换为坐标数据,以及使用所述坐标数据来创建所述标签张量。
7.根据权利要求1所述的方法,包括
通过输出与所述附加文档相对应的新标签张量,基于与所述附加文档相对应的新输入区域张量来训练所述提取算法以从所述附加文档中提取所述目标数据。
8.一种存储指令的存储器,所述指令被配置为使处理器执行根据权利要求1所述的方法。
9.一种用于能够使得目标数据从文档中被提取的方法,所述方法包括:
访问包括多个文档的数据库,所述多个文档包括目标数据;
对于所述多个文档中的每个文档,提取包括所述目标数据的目标文本;
对于所述多个文档中的每个文档,识别所述目标文本周围的固定区域;
对于所述多个文档中的每个文档,基于所述固定区域来创建区域张量;以及
使用所述区域张量来训练提取算法以从附加文档中提取所述目标数据。
10.根据权利要求9所述的方法,包括
使用所述提取算法而使得能够从所述附加文档中提取所述目标数据。
11.根据权利要求9所述的方法,包括
根据所述多个文档中的每个文档创建至少一个图像;以及
使用所述至少一个图像来创建所述区域张量。
12.根据权利要求9所述的方法,其中,
所述区域张量包括数据矩阵。
13.根据权利要求9所述的方法,包括
使用与所述固定区域相对应的坐标数据来创建所述区域张量。
14.一种存储指令的存储器,所述指令被配置为使处理器执行根据权利要求9所述的方法。
15.一种用于能够使得目标数据从文档中被提取的方法,所述方法包括:
访问包括多个文档的数据库,所述多个文档包括目标数据;
对于所述多个文档中的每个文档,向包括所述目标数据的区分配标签;
对于所述多个文档中的每个文档,将所述区转换为坐标数据;
对于所述多个文档中的每个文档,使用所述坐标数据来创建标签张量;以及
使用所述标签张量来训练提取算法以从附加文档中提取所述目标数据。
16.根据权利要求15所述的方法,包括
使用所述提取算法而使得能够从所述附加文档中提取所述目标数据。
17.根据权利要求15所述的方法,包括
根据所述多个文档中的每个文档创建至少一个图像,并且
使用所述至少一个图像来创建所述标签张量。
18.根据权利要求15所述的方法,包括
所述标签张量包括数据矩阵。
19.根据权利要求15所述的方法,包括
通过输出与所述附加文档相对应的新标签张量,训练所述提取算法以从所述附加文档中提取所述目标数据。
20.一种存储指令的存储器,所述指令被配置为使处理器执行根据权利要求15所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063093425P | 2020-10-19 | 2020-10-19 | |
US63/093,425 | 2020-10-19 | ||
US17/501,681 | 2021-10-14 | ||
US17/501,681 US20220121881A1 (en) | 2020-10-19 | 2021-10-14 | Systems and methods for enabling relevant data to be extracted from a plurality of documents |
PCT/US2021/055198 WO2022086813A1 (en) | 2020-10-19 | 2021-10-15 | Systems and methods for enabling relevant data to be extracted from a plurality of documents |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117813601A true CN117813601A (zh) | 2024-04-02 |
Family
ID=81186308
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180081294.3A Pending CN117813601A (zh) | 2020-10-19 | 2021-10-15 | 用于能够使得相关数据从多个文档中被提取的系统和方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220121881A1 (zh) |
EP (1) | EP4226297A1 (zh) |
CN (1) | CN117813601A (zh) |
AU (1) | AU2021364331A1 (zh) |
WO (1) | WO2022086813A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11776068B1 (en) * | 2022-07-29 | 2023-10-03 | Intuit, Inc. | Voice enabled content tracker |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7031909B2 (en) * | 2002-03-12 | 2006-04-18 | Verity, Inc. | Method and system for naming a cluster of words and phrases |
JP5448105B2 (ja) * | 2009-12-09 | 2014-03-19 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 検索キーワードから文書データを検索する方法、並びにそのコンピュータ・システム及びコンピュータ・プログラム |
US20110255794A1 (en) * | 2010-01-15 | 2011-10-20 | Copanion, Inc. | Systems and methods for automatically extracting data by narrowing data search scope using contour matching |
-
2021
- 2021-10-14 US US17/501,681 patent/US20220121881A1/en active Pending
- 2021-10-15 WO PCT/US2021/055198 patent/WO2022086813A1/en active Application Filing
- 2021-10-15 CN CN202180081294.3A patent/CN117813601A/zh active Pending
- 2021-10-15 EP EP21883603.9A patent/EP4226297A1/en active Pending
- 2021-10-15 AU AU2021364331A patent/AU2021364331A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2022086813A9 (en) | 2022-06-16 |
WO2022086813A1 (en) | 2022-04-28 |
EP4226297A1 (en) | 2023-08-16 |
AU2021364331A1 (en) | 2023-06-22 |
US20220121881A1 (en) | 2022-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210383067A1 (en) | Data-driven structure extraction from text documents | |
US20150032645A1 (en) | Computer-implemented systems and methods of performing contract review | |
CN111125343A (zh) | 适用于人岗匹配推荐系统的文本解析方法及装置 | |
US11501549B2 (en) | Document processing using hybrid rule-based artificial intelligence (AI) mechanisms | |
US11568284B2 (en) | System and method for determining a structured representation of a form document utilizing multiple machine learning models | |
CN115017272B (zh) | 基于登记数据的智能核验方法及装置 | |
CN112418812A (zh) | 分布式全链路自动化智能通关系统、方法及存储介质 | |
Ha et al. | Recognition of OCR invoice metadata block types | |
US11386263B2 (en) | Automatic generation of form application | |
US20220121881A1 (en) | Systems and methods for enabling relevant data to be extracted from a plurality of documents | |
CN113255498A (zh) | 基于区块链技术的财务报销发票管理方法 | |
EP4141818A1 (en) | Document digitization, transformation and validation | |
US20230134218A1 (en) | Continuous learning for document processing and analysis | |
US20230138491A1 (en) | Continuous learning for document processing and analysis | |
Pustulka et al. | Text mining innovation for business | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
US11475686B2 (en) | Extracting data from tables detected in electronic documents | |
Chakraborty et al. | Automating the process of taxonomy creation and comparison of taxonomy structures | |
WO2016060551A1 (en) | A method for mining electronic documents and system thereof | |
Magapu | Development and customization of in-house developed OCR and its evaluation | |
Boillet et al. | The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses | |
CA3210419C (en) | Method and system for extracting data from tables within regulatory content | |
US11783605B1 (en) | Generalizable key-value set extraction from documents using machine learning models | |
Kempf et al. | KIETA: Key-insight extraction from scientific tables | |
Sara et al. | Label-Value Extraction from Documents Using Co-SSL Framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |