CN117882081A

CN117882081A - 包括自动评估核单证据的技术的ai增强审计平台

Info

Publication number: CN117882081A
Application number: CN202280057790.XA
Authority: CN
Inventors: 李中生; W·程; M·J·弗拉维尔; L·M·霍尔马克; N·A·利佐特; K·M·梁; 朱迪; K·M·欧洛尔克; 权恩京; V·纳鲁拉; 陈伟超; M·J·P·拉米瑞兹
Original assignee: Pwc Product Sales Co ltd
Current assignee: Pwc Product Sales Co ltd
Priority date: 2021-06-30
Filing date: 2022-06-30
Publication date: 2024-04-12
Also published as: CN117897705A; CN117859122A; CN117882041A; CN117751362A

Abstract

提供了用于判定电子文档是否构成核单证据的系统和方法。所述系统可以接收ERP项目数据并基于其生成假设数据，并且可以接收电子文档数据并从中提取ERP信息。所述系统然后可以应用一个或多个模型来比较假设数据和提取的ERP信息，以判定电子文档是否构成ERP项目的核单证据。提供了用于参照源文档核实断言的系统和方法。所述系统可以接收指示未经核实的断言的第一数据和包括多个源文档的第二数据。所述系统可以应用一个或多个提取模型从多个源文档中提取一组关键数据，并且可以应用一个或多个匹配模型将第一数据与该组关键数据进行比较，以判定是否满足核单标准。

Description

包括自动评估核单证据的技术的AI增强审计平台

相关申请的交叉引用

本申请要求2021年6月30日提交的美国临时申请No.63/217,119；2021年6月30日提交的美国临时申请No.63/217,123；2021年6月30日提交的美国临时申请No.63/217,127；2021年6月30日提交的美国临时申请No.63/217,131；以及2021年6月30日提交的美国临时申请No.63/217,134的优先权，这些申请的全部内容均通过引用并入本文中。

技术领域

本申请通常涉及自动数据处理和数据的验证，更具体地，涉及包括评估核单证据的技术的AI增强审计平台。

背景技术

在进行审计时，或在以其他方式摄取、审查和分析文档或其他数据时，通常需要确定一个或多个报表、断言或其他事实陈述已得到书面证据的充分证实。在进行审计的背景下，确定一个或多个报表(例如，财务报表行项目(FSLI))得到书面证据的充分支持被称为核单。

发明内容

在寻求摄取和理解书面证据以担保一个或多个报表(例如，FSLI)的自动审计系统中，已知的文档理解技术对摄取和分析的文挡的结构敏感。因而，例如，归因于对一个或多个摄取文档的结构或布局的误解，已知的文档理解技术可能无法正确识别和辨认文档中引用的某些实体。因而，需要改进的文档理解(例如，文档摄取和分析)技术，所述技术对各种文档结构和布局更鲁棒，并且为文档中的实体识别提供更高的准确性。需要配置为能够应用于自动审计系统，以判定一个或多个文档是否构成充足的核单证据来证实一个或多个断言(例如，FSLI)的此类改进的文档理解技术。

本文中公开了可以解决上述需求中的一个或多个的改进的文档理解技术。在一些实施例中，如本文中所述，本文中公开的文档理解技术可以在从一个或多个文档提取和/或分析信息时，充分利用一个或多个实体的先验知识(例如，可以从与正被评估用于核单目的的充分性的文档分离的数据源获得的信息)。在一些实施例中，文档理解技术可以在从一个或多个文档提取和/或分析信息时分析文档中的字词、段落或其他内容的空间构成。

此外，根据进行自动核单的需要，需要用于参照银行结单数据担保ERP条目，以便核实支付的改进的系统和方法。

在一些实施例中，系统被配置为参照证据数据来担保支付数据。更具体地，系统可被配置为提供参照物理银行结单，进行ERP支付活动核单的框架。系统可以包括从银行结单进行信息提取和特征提取的流水线，并且系统可以充分利用一个或多个高级数据结构和匹配算法来进行ERP数据和银行结单数据之间的一对多匹配。因此，本文中提供的支付核单系统可以使寻找物证，比如汇款通知或银行结单，以证实ERP支付条目的过程自动化。

在一些实施例中，提供了第一系统，所述第一系统用于判定电子文档内的数据是否构成企业资源规划(ERP)项目的核单证据，所述第一系统包括一个或多个处理器，所述一个或多个处理器被配置为使所述第一系统：接收表示ERP项目的数据；基于接收的表示ERP项目的数据生成假设数据；接收电子文档；从所述文档中提取ERP信息；将一个或多个模型应用于所述假设数据和提取的ERP信息，以便生成指示提取的ERP信息是否构成所述ERP项目的核单证据的输出数据。

在所述第一系统的一些实施例中，提取ERP信息的实例包括生成表示ERP信息的实例的信息内容的第一数据和表示ERP信息的实例的文档位置的第二数据。

在所述第一系统的一些实施例中，ERP信息包括以下中的一个或多个：采购订单号、顾客名称、日期、交货条款、装运条款、单价和数量。

在所述第一系统的一些实施例中，应用一个或多个模型来生成输出数据基于的是关于文档中的ERP信息的实例之间的空间关系的预先存在的信息。

在所述第一系统的一些实施例中，所述预先存在的信息包括表示文档中的ERP信息的实例之间的空间关系的图表。

在所述第一系统的一些实施例中，所述一个或多个处理器被配置为使系统基于表示上下文数据的一个或多个模型来增强所述假设数据。

在所述第一系统的一些实施例中，所述上下文数据包括关于ERP信息的实例的信息内容的一个或多个同义词的信息。

在所述第一系统的一些实施例中，ERP信息的实例包括文档中的单个字词。

在所述第一系统的一些实施例中，ERP信息的实例包括文档中的多个字词。

在所述第一系统的一些实施例中，所述一个或多个处理器被配置为判定ERP信息是否担保ERP项目。

在所述第一系统的一些实施例中，判定ERP信息是否担保ERP项目包括生成和评估表示ERP信息和ERP项目的比较的相似性得分。

在所述第一系统的一些实施例中，所述相似性是通过将与ERP信息关联的实体图表和与ERP项目关联的实体图表进行比较来生成的。

在所述第一系统的一些实施例中，从文档中提取ERP信息包括应用指纹识别操作，以基于表示ERP项目的接收数据来确定要应用于电子文档的数据提取操作的特性。

在一些实施例中，提供了第一非临时性计算机可读存储介质，所述第一非临时性计算机可读存储介质存储用于判定电子文档内的数据是否构成企业资源规划(ERP)项目的核单证据的指令，所述指令被配置为由包括一个或多个处理器的系统执行，以使所述系统：接收表示ERP项目的数据；基于接收的表示ERP项目的数据生成假设数据；接收电子文档；从所述文档中提取ERP信息；将一个或多个模型应用于所述假设数据和提取的ERP信息，以便生成指示提取的ERP信息是否构成所述ERP项目的核单证据的输出数据。

在一些实施例中，提供了第一方法，所述第一方法用于判定电子文档内的数据是否构成企业资源规划(ERP)项目的核单证据，其中所述第一方法由包括一个或多个处理器的系统进行，所述第一方法包括：接收表示ERP项目的数据；基于接收的表示ERP项目的数据生成假设数据；接收电子文档；从所述文档中提取ERP信息；将一个或多个模型应用于所述假设数据和提取的ERP信息，以便生成指示提取的ERP信息是否构成所述ERP项目的核单证据的输出数据。

在一些实施例中，提供了第二系统，所述第二系统用于参照源文档核实断言，所述第二系统包括一个或多个处理器，所述一个或多个处理器被配置为使所述第二系统：接收指示未经核实的断言的第一数据；接收包括多个源文档的第二数据；应用一个或多个提取模型从所述多个源文档中提取一组关键数据；以及应用一个或多个匹配模型将所述第一数据与所述一组关键数据进行比较，以生成指示所述多个源文档中的一个或多个是否满足用于核实未经核实的断言的一个或多个核实标准的输出。

在所述第二系统的一些实施例中，所述一个或多个提取模型包括一个或多个机器学习模型。

在所述第二系统的一些实施例中，所述一个或多个匹配模型包括一个或多个近似模型。

在所述第二系统的一些实施例中，所述一个或多个匹配模型被配置为在所述第一数据和所述一组关键数据之间进行一对多匹配。

在所述第二系统的一些实施例中，所述一个或多个处理器被配置为使所述系统在不修改一个或多个所述匹配模型的情况下修改一个或多个所述提取模型。

在所述第二系统的一些实施例中，所述一个或多个处理器被配置为使所述系统在不修改一个或多个所述提取模型的情况下修改一个或多个所述匹配模型。

在所述第二系统的一些实施例中，所述未经核实的断言包括ERP支付条目。

在所述第二系统的一些实施例中，所述多个源文档包括银行结单。

在所述第二系统的一些实施例中，应用一个或多个匹配模型包括生成匹配得分和生成置信度得分。

在所述第二系统的一些实施例中，应用一个或多个匹配模型包括：应用第一匹配模型；如果第一匹配模型指示匹配，则基于第一匹配模型生成匹配得分和置信度得分；如果第二匹配模型没有指示匹配：则应用第二匹配模型；如果第二匹配模型指示匹配，则基于第二匹配模型生成匹配得分和置信度得分；而如果第二匹配模型没有指示匹配，则生成匹配得分0。

在一些实施例中，提供了第二非临时性计算机可读存储介质，所述第二非临时性计算机可读存储介质存储用于参照源文档核实断言的指令，所述指令被配置为由包括一个或多个处理器的系统执行，以使所述系统：接收指示未经核实的断言的第一数据；接收包括多个源文档的第二数据；应用一个或多个提取模型从所述多个源文档中提取一组关键数据；以及应用一个或多个匹配模型将所述第一数据与所述一组关键数据进行比较，以生成指示所述多个源文档中的一个或多个是否满足用于核实未经核实的断言的一个或多个核实标准的输出。

在一些实施例中，提供了一种第二方法，所述第二方法用于参照源文档核实断言，其中所述第二方法由包括一个或多个处理器的系统执行，所述第二方法包括：接收指示未经核实的断言的第一数据；接收包括多个源文档的第二数据；应用一个或多个提取模型从所述多个源文档中提取一组关键数据；以及应用一个或多个匹配模型将所述第一数据与所述一组关键数据进行比较，以生成指示所述多个源文档中的一个或多个是否满足用于核实未经核实的断言的一个或多个核实标准的输出。

在一些实施例中，提供了第三系统，所述第三系统用于判定电子文档内的数据是否构成企业资源规划(ERP)项目的核单证据，所述第三系统包括一个或多个处理器，所述一个或多个处理器被配置为使所述第三系统：接收表示ERP项目的数据；基于接收的表示ERP项目的数据生成假设数据；接收电子文档；从所述文档中提取ERP信息；将第一组一个或多个模型应用于所述假设数据和提取的ERP信息，以便生成指示提取的ERP信息是否构成所述ERP项目的核单证据的第一输出数据；将第二组一个或多个模型应用于提取的ERP信息，以便生成指示提取的ERP信息是否构成所述ERP项目的核单证据的第二输出数据；基于所述第一输出数据和所述第二输出数据生成组合的判定数据，所述组合的判定数据指示提取的ERP信息是否构成所述ERP项目的核单证据。

在一些实施例中，提供了第三非临时性计算机可读存储介质，所述第三非临时性计算机可读存储介质存储用于判定电子文档内的数据是否构成企业资源规划(ERP)项目的核单证据的指令，所述指令被配置为由包括一个或多个处理器的系统执行，以使所述系统：接收表示ERP项目的数据；基于接收的表示ERP项目的数据生成假设数据；接收电子文档；从所述文档中提取ERP信息；将第一组一个或多个模型应用于所述假设数据和提取的ERP信息，以便生成指示提取的ERP信息是否构成所述ERP项目的核单证据的第一输出数据；将第二组一个或多个模型应用于提取的ERP信息，以便生成指示提取的ERP信息是否构成所述ERP项目的核单证据的第二输出数据；基于所述第一输出数据和所述第二输出数据生成组合的判定数据，所述组合的判定数据指示提取的ERP信息是否构成所述ERP项目的核单证据。

在一些实施例中，提供了第三方法，所述第三方法用于判定电子文档内的数据是否构成企业资源规划(ERP)项目的核单证据，其中所述第三方法由包括一个或多个处理器的系统进行，所述第三方法包括：接收表示ERP项目的数据；基于接收的表示ERP项目的数据生成假设数据；接收电子文档；从所述文档中提取ERP信息；将第一组一个或多个模型应用于所述假设数据和提取的ERP信息，以便生成指示提取的ERP信息是否构成所述ERP项目的核单证据的第一输出数据；将第二组一个或多个模型应用于提取的ERP信息，以便生成指示提取的ERP信息是否构成所述ERP项目的核单证据的第二输出数据；基于所述第一输出数据和所述第二输出数据生成组合的判定数据，所述组合的判定数据指示提取的ERP信息是否构成所述ERP项目的核单证据。

在一些实施例中，上述系统、方法或非临时性计算机可读存储介质中的任何一个或多个的任何一个或多个特征、特性或方面可以全部或部分地彼此组合，和/或与本文中的任何其他实施例或公开的任何一个或多个特征、特性、或方面(全部或部分)组合。

附图说明

参考附图描述了各个实施例，附图中：

图1示出了按照一些实施例的从文档中提取实体的两个例子。

图2示出了按照一些实施例的用于AI增强审计平台的数据处理的系统。

图3A-图3B描绘了按照一些实施例的可以如何将指纹识别算法用作呈现关于采购订单是否得到担保的决策的过程的一部分的示图。

图4示出了按照一些实施例的指纹识别算法、文档理解和核单算法的示图。

图5A-图5B示出了按照一些实施例的支付核单方法的示图。

图6图解说明了按照一些实施例的计算机的例子。

具体实施方式

主动文档理解以保证

在进行审计时，或在以其他方式摄取、审查和分析文档或其他数据时，通常需要确定一个或多个报表、断言或其他事实陈述已得到书面证据的充分证实。在进行审计的背景下，确定一个或多个报表(例如，财务报表行项目(FSLI))得到书页证据的足够支持被称为核单。

在寻求摄取和理解书面证据以担保一个或多个报表(例如，FSLI)的自动审计系统中，已知的文件理解技术对摄取和分析的文档的结构敏感。因而，例如，归因于对一个或多个摄取文档的结构或布局的误解，已知的文档理解技术可能无法正确识别和辨认文档中引用的某些实体。因而，需要改进的文档理解(例如，文档摄取和分析)技术，所述技术对各种文档结构和布局更鲁棒，并且为文档中的实体识别提供更高的准确性。需要配置为能够应用于自动审计系统，以判定一个或多个文档是否构成充足的核单证据来证实一个或多个断言(例如，FSLI)的此类改进的文档理解技术。

在一些实施例中，文档理解系统被配置为基于一个或多个数据集进行自动假设生成。假设生成所基于的数据集可以包括一组或多组摄取的文档，例如按照本文中所述的一个或多个文档理解技术摄取的文档。在一些实施例中，假设生成所基于的数据集可以包括企业资源规划(ERP)数据。在一些实施例中，数据(例如，ERP数据)可以指示一个或多个实体，例如PO#、顾客名称、日期、交货条款、装运条款、单价和/或数量。系统可被配置为应用关于数据中所指示的一个或多个实体的先验知识(例如，可以从与正被评估用于核单目的的充分性的文档分离的数据源获得的信息)。本文中公开的假设生成技术可以使得能够利用来自非结构化文档和其他证据源的证据更准确地担保ERP数据。

系统可被配置为分析数据中所指示的实体之间的空间关系和星座。例如，可以分析在文档中指示实体的位置(例如，在文档的同一行指示的单价和数量与在文档的不同行指示的单价和数量)。在一些实施例中，系统可被配置为生成、存储和/或分析表示一个或多个文档中的多个实体之间的空间关系的数据结构，例如图形数据结构。

系统可被配置为应用一个或多个AI模型来理解文档，以识别和评估证据，从而担保在ERP中报告的财务信息的有效性。系统可以使用ERP数据对作为可能证据的候选者的文档进行弱标记并提供假设。系统还可以应用一个或多个名称实体提取模型来提供附加的无偏见信息以覆盖在这些文档之上。这些特征的组合可以使系统能够验证候选证据是否确实是给定ERP条目的核单证据(例如，它是否满足核单标准)，包括通过提供系统对候选证据构成或不构成核单证据的结论的置信度的量化/得分。

在一些实施例中，系统可被配置为接收ERP数据，并对接收的数据应用一个或多个数据处理操作(例如，AI模型)，以便生成假设数据。(本文中引用的任何数据处理操作可以包括通过机器学习训练的一个或多个模型的应用。)假设数据可以由系统假设在接收的数据中指示的一个或多个内容实体组成，例如：PO#、顾客名称、日期、交货条款、装运条款、单价和/或数量。在生成假设数据时和/或在一旦生成假设数据就对其进行评估时，系统可以评估以下中的一个或多个：先验知识(例如，来自除了ERP数据源之外的一个或多个数据源的知识)；ERP数据内的字词、段落或实体的其他指示之间的空间关系(例如，文档内的字词的空间关系)，和/或实体之间的星座(例如，出现在同一行的单价&数量)。

在假设生成之后，系统可以应用一个或多个数据处理操作(例如，AI模型)，以便增强生成的假设中的一个或多个。在一些实施例中，系统可以基于系统可用的上下文数据来增强(或以其他方式修改)生成的假设。在一些实施例中，上下文数据可以包括同义词数据，使得系统可以按照同义词数据来增强假设。例如，包括“IBM”一词的假设数据可能会被增强为额外包括术语“国际商业机器”。

系统可被配置为执行空间实体提取。在一些实施例中，空间实体提取包括从文档中提取实体(在字词级别和在多字词级别)以生成关于(a)实体内容/身份的信息和(b)关于实体的空间位置(例如，文档内的绝对空间位置和/或相对于文档内的一个或多个其他实体的空间位置/接近度/对齐/定向)的信息。

系统可被配置为进行一个或多个假设测试操作，以便评估匹配的可能性，例如基于计算相似性得分。可以在一方面的ERP数据和另一方面的多个文档之间评估匹配的可能性。在一些实施例中，匹配的可能性可以基于计算表示假设的实体(或多个实体)和表示文档内的组件的实体(或实体图表)之间的相似性得分。

本文中提供的系统和方法可以提供对现有方法的改进，包括通过提供使用由审计过程引导的上下文信息来帮助理解，使用上下文信息来形成关于将从文档中提取的预期信息的假设，允许这些假设的测试以指导文档理解，和/或应用方法来减轻和解释由上下文信息引入的偏见的可能性(例如，通过相应地调整置信度得分)的能力。

图1描绘了按照一些实施例的从文档中提取实体的两个例子。

图2描绘了按照一些实施例的用于AI增强审计平台的数据处理的系统200。在一些实施例中，标记为“假设生成”和“主动核单”的组件可以包括本文中所述的任何一个或多个系统(和/或可以应用任何一个或多个方法)。

在一些实施例中，图2中所示的每个示意方框可以表示配置为进行关联功能的不同模块(例如，每个不同模块包括一个或多个不同的计算机系统，所述计算机系统包括存储设备和/或一个或多个物理和/或虚拟处理器)。在一些实施例中，图2中所示的任何一个或多个示意方框可以表示由同一模块(例如，由同一计算机系统)进行的功能。

如下所述，系统200可被配置为进行用于主动核单；被动核单和追踪；和/或数据完整性集成的任何一个或多个过程，例如本文中所述。

如图2中所示，系统100可以包括文档源202，文档源202可以包括任何一个或多个计算机存储设备，比如数据库、数据仓库、数据储存库、实时数据馈送等。文档源202可以通信地耦接到系统200的一个或多个其他组件，并被配置为向系统200提供多个文档，使得可以评估文档以判定是否满足一个或多个数据完整性标准，例如，文档是否足以担保由一组ERP数据做出的一个或多个表示。在一些实施例中，系统200可以按照预定的时间表、响应于用户输入、响应于满足一个或多个触发条件和/或响应于手动发送文档，从文档源202接收文档。从文档源202接收的文档可以以任何合适的电子数据格式提供，例如作为结构化、非结构化和/或半结构化数据。这些文档例如可以包括电子表格、文字处理文档和/或PDF。

系统200可以包括OCR模块204，OCR模块204可以包括配置为基于从文档源202接收的文档进行OCR分析和/或任何其他文本或字符识别/提取的任何一个或多个处理器。OCR模块204可以生成表示在所接收的文档中识别的字符的数据。

系统200可以包括文档分类模块206，文档分类模块206可以包括配置为进行从文档源202和/或从OCR模块204所接收文档的文档分类的一个或多个处理器。文档分类模块206可以从文档源202接收文档数据，和/或可以从OCR模块204接收表示文档中的字符的数据，并且可以将一种或多种分类算法应用于所接收的数据，以将一种或者多种分类应用于从文件源202接收的文档。表示所确定的分类的数据可以作为元数据与文档本身关联地存储，和/或可以用于以所确定的文档的相应分类相应的方式存储文档。

系统200可以包括ERP数据源208，ERP数据源208可以包括任何一个或多个计算机存储设备，比如数据库、数据仓库、数据储存库、实时数据馈送等。文档源202可以通信地耦接到系统200的一个或多个其他组件，并被配置为向系统200提供ERP数据，使得可以评估ERP数据以判定是否满足一个或多个数据完整性标准，例如，ERP数据是否足以由一个或多个文档(例如，文档源202提供的文档)担保。在一些实施例中，系统200的一个或多个组件可以按照预定的时间表、响应于用户输入、响应于满足一个或多个触发条件和/或响应于手动发送数据，从ERP数据源208接收ERP数据。从ERP数据源208接收的ERP数据可以以任何合适的电子数据格式提供。在一些实施例中，ERP数据可以以表格数据格式提供，包括定义数据的结构的数据模型。

系统200可以包括知识基底210，知识基底210可以包括任何一个或多个数据源，比如主数据源210a、本体数据源210b和外部知识数据源210c。包括在知识基底210中的数据源可以作为单个计算机系统、多个计算机系统、单个网络或多个网络的一部分来提供。包括在知识基底210中的数据源可被配置为向系统200的一个或多个组件(例如，假设生成模块212、规范化和情境化模块222和/或被动核单和追踪模块224)提供数据。在一些实施例中，系统200的一个或多个组件可以按照预定的时间表、响应于用户输入、响应于满足一个或多个触发条件，和/或响应于手动发送数据，从知识基底210接收数据。从知识基底210接收的数据可以以任何合适的数据格式提供。

在一些实施例中，与知识基底210的交互可以是基于查询的。与知识基底210的交互可以是以下形式中的一种或多种：问题回答、信息检索、知识图谱引擎查询和/或推理引擎(例如，参照推理规则)。

知识基底210可以包括诸如本体/分类数据、知识图谱数据和/或推理规则数据之类的数据。从主数据源210a接收的主数据例如可以包括主顾客数据、主供应商数据和/或主产品数据。从本体数据源210b接收的本体数据例如可以包括定义卖方、买方和托运人之间用于运输产品的成本、责任和/或保险的国际商业术语的IncoTerms数据。从外部知识数据源210c接收的外部知识数据源例如可以包括特定审计客户外部的知识。这些知识可能与客户的行业、客户的地理区域和/或整个经济相关。

系统200可以包括假设生成模块212，假设生成模块212可以包括配置为生成假设数据的一个或多个处理器。假设生成模块212可以从以下中的任何一个或多个接收输入数据：(a)文档分类模块206、(b)ERP数据源208和(c)知识基底210。假设生成模块212可以将一个或多个假设生成算法应用于接收的数据中的一些或全部，并且由此可以生成假设数据。假设生成可以基于以下中的任何一个和/或它们的组合：(1)ERP数据，(2)文档类型数据，(3)关于对一个或多个文档的先前理解的数据。基于以前对类似文档的接触，生成的假设可以表示预期在文档数据中找到的位置和内容。用于一个文档和/或一组文档的文档分类数据(例如，来自文档分类模块206)可以用于确定、增强和/或加权由假设生成模块212生成的假设数据。在一些实施例中，与文档分类数据(例如，由文档分类模块206生成的)不同的文档内容本身(例如，从文档源202接收的文档数据)可以不用于假设生成。在一些实施例中，除了文档分类数据之外，文档内容本身也可以用于假设生成。由假设生成模块212生成的假设数据可以以任何合适的数据格式提供。在一些实施例中，在文档理解的背景下的假设数据可以表示为元组(例如，表示实体、位置和值)的集合，每个元组表示预期从文档数据中找到的内容。

如图2中所示，系统200可以提供“主动核单”流水线和“被动核单”流水线，它们都可以通过使用一些或全部相同的底层数据相互并行地应用。这两条流水线可以同时应用，也可以一个接一个地应用。下面，关于元件214描述主动核单流水线，而关于元件216-224描述被动核单流水线。

系统200可以包括主动核单模块214，主动核单模块214可以包括配置为应用任何一个或多个主动核单分析操作的一个或多个处理器。主动核单模块214可以从以下中的一个或多个接收输入数据：OCR模块204、文档分类模块206和假设生成模块212。主动核单模块214可以将一个或多个主动核单分析操作应用于一些或全部接收到的数据，并且可以由此生成主动核单输出数据。在一些实施例中，主动核单分析操作可以包括“指纹识别”分析操作。在一些实施例中，主动核单或指纹识别可以包括配置为判定是否存在从文档数据中提取的可以匹配假设数据的一个(或多个)元组(例如，表示实体、位置和值)的数据处理操作。指纹识别分析操作的一些实施例在下面参考图3和图4来描述。在一些实施例中，由主动核单模块214生成的主动核单输出数据可以以任何合适的数据格式提供。在一些实施例中，主动核单输出可以包括指示以下中的一个或多个的数据：指示关于是否存在匹配(例如，是否满足核单标准，是否存在对假设的匹配)的置信度水平的置信度得分；可以迭代地反馈到指纹识别过程中的关于是否存在对假设的任何匹配的二进制指示；和/或文档内与对其生成置信度和/或二进制指示的假设对应的位置。在一些实施例中，主动核单输出可以包括四个值：实体名称、实体值、位置(指示实体的确切或相对位置)和置信度值，所述置信度值指示所确定的匹配的置信度值。

在一些实施例中，模块214进行的主动核单操作可以充分利用上下文知识来告知在底层文档中寻求什么信息。在一些实施例中，模块214进行的主动核单操作可以被认为是“上下文感知的”，因为它们能够借鉴通过假设生成模块212借鉴从知识基底210接收的数据而注入的上下文信息。

在一些实施例中，主动核单操作可以包括一个或多个演绎推理操作，所述演绎推理操作可以包括应用一种或多种基于规则的方法来评估文档信息(例如，从OCR模块204接收的信息)。例如，基于规则的方法可以用于确定如果文档是某种文档类型，则该文档将已知包括某些关联的数据字段。在一些实施例中，演绎推理操作可以用于计算和/或调整总体加权。在一些实施例中，加权可以用于整合来自多种方法(例如，归纳法和演绎法)的结果。加权可以使用各种机器学习方法来训练。

在一些实施例中，主动核单操作可以包括一个或多个归纳推理操作，所述归纳推理操作可以基于先前的计算或判定、历史信息或一个或多个附加见解。在一些实施例中，归纳推理操作可以基于从相似数据的先前实例(例如，样本文档)中学习，以确定可以从未来的数据中预期什么。

在一些实施例中，主动核单模块214可以一起应用上下文感知、演绎推理和归纳推理来进行假设检验。

现在转向被动核单流水线(元件216-224)，系统200可以包括被动核单流水线内的三个并行流水线，如基于模板的流水线216、无模板的流水线218和专用流水线220所示。流水线216-220中的每一个可以包括配置为从OCR模块204和/或从文档分类模块206接收输入数据并处理所接收的输入数据的一个或多个处理器。流水线216-220中的每一个可以将相应的数据分析操作应用于所接收的输入数据，并且可以生成相应的输出数据。

基于模板的流水线216可被配置为将任何一个或多个基于模板的分析操作应用于所接收的文档数据和/或文档分类数据，并生成表示文档内容的输出数据，比如表示从文档中提取的内容的实体、位置和值的一个或多个元组。基于模板的流水线216可被配置为应用针对特定已知格式训练的一个或多个文档理解模型。Abbyy Flexicapture是此类基于模板的工具的例子。

无模板流水线218可被配置为对所接收的文档数据和/或文档分类数据应用任何一个或多个分析操作，并生成表示文档内容的输出数据，比如表示从文档中提取的内容的实体、位置和值的一个或多个元组。无模板流水线218可被配置为在不假设正被分析的文档具有用于文档理解的假定“模板”的情况下进行操作。在一些实施例中，无模板方法可能不如基于模板的工具准确，并且与基于模板的工具相比，可能需要参照更大训练集的更多训练。

专用流水线220可被配置为对所接收的文档数据和/或文档分类数据应用任何一个或多个分析操作，并生成表示文档内容的输出数据。在一些实施例中，专用流水线220可被配置为应用签名分析。在一些实施例中，签名分析可以包括签名检测，例如使用配置为判定是否存在签名的机器学习算法。在一些实施例中，除了签名检测之外或可替选地，签名分析可以包括签名匹配，例如使用一个或多个数据处理操作来确定其签名与检测到的签名匹配的人(例如通过充分利用与已知签名库的比较)。

在一些实施例中，当系统200可以访问外部信息，比如除了来自文档源202和来自ERP数据源208的信息之外的信息时，可以使用专用流水线220。例如，专用流水线可被配置为在分析所接收的数据和生成输出数据时使用来自知识基底210的信息。

在一些实施例中，流水线220可被配置为从文档中提取与流水线216和218所提取的数据相比，包括附加数据(或不同格式的数据)的数据。例如，流水线220可以提取不同于表示实体、位置和值的元组的数据(或除此之外的数据)。所提取的数据可以包括徽标数据、签名数据(例如，签名的图像或其他表示、关于是否存在签名的指示等)、图形、图画等。对于提取的徽标，输出数据可以包括徽标本身(例如，签名的图像或其他表示)、文档内的位置和/或与徽标匹配的顾客名称。对于提取的签名，输出数据可以包括签名本身(例如，签名的图像或其他表示)、文档内的位置和/或与签名匹配的顾客名称。对于提取的手写体，输出数据可以包括手写体本身(例如，手写体的图像或其他表示)、文档内的位置、与手写体匹配的顾客名称和/或从手写体提取的文本。对于提取的图形，输出数据可以包括图形本身(例如，图形的图像或其他表示)、文档内的位置和/或图形的边界框。

系统200可以包括规范化和情境化模块222，规范化和情境化模块222可以包括配置为进行一个或多个数据规范化和/或情境化操作的一个或多个处理器。规范化和情境化模块222可以从以下中的任何一个或多个接收输入数据：(a)基于模板的流水线216、(b)无模板流水线218、(c)专用流水线220；和知识基底210。规范化和情境化模块222可以将一个或多个规范化和情境化操作应用于一些或全部所接收的数据，并且可以由此生成规范化和/或情境化的输出数据。

规范化和情境化数据处理操作可以确定实体的情境和/或可以规范化实体值，以便可以将其用于后续的比较或分类。例子包括(但不限于)以下内容：基于主顾客/供应商数据的顾客名称数据(比如别名、缩写，以及在支付的背景下使用名称时可能包括父母/兄弟/子公司)的规范化；地址数据的规范化(例如，基于地理编码、基于来自邮局的标准化地址和/或基于顾客/供应商数据)；基于主产品数据的产品名称和SKU的规范化；基于术语(例如，基于国际商务术语)的装运和支付术语的规范化；和/或货币兑换代码的规范化(例如，基于ISO 4217)。

由规范化和情境化模块222生成的规范化和/或情境化输出数据可以以任何合适的数据格式提供，例如作为表示实体、实体位置、规范化实体值和置信度得分的元组的集合。

系统200可包括被动核单和追踪模块224，被动核单和追踪模块224可以包括配置为进行一个或多个被动核单和追踪操作的一个或多个处理器。被动核单和追踪模块224可以从以下中的任何一个或多个接收输入数据：(a)规范化和情境化模块222、(b)知识基底210和(c)ERP数据源208。被动核单和追踪模块224可以将一个或多个被动核单和/或追踪操作应用于所接收的一些或全部数据，并且可以由此生成被动核单和追踪输出数据。被动核单可以包括将来自给定交易记录(例如，如ERP数据中所示)的值与从文档数据(可被假设为与交易记录关联的证据)中提取的实体值进行比较。被动追踪可以包括将来自给定文档的值与对应的交易记录(例如，来自ERP)进行比较。实体值的比较可以是精确的，使得生成的结果指示匹配或不匹配，或者所述比较可以是模糊的，使得生成的结果包括相似性得分。

被动核单和追踪模块224生成的被动核单和追踪输出数据可以以任何合适的数据格式提供。模块224进行的被动核单和追踪操作可以被认为是“上下文感知的”，因为它们能够借鉴从知识基底210接收的上下文信息。在一些实施例中，被动核单输出可以包括四个值：实体名称、实体值、位置(指示实体的确切或相对位置)和置信度值，所述置信度值指示所确定的匹配的置信度值。

在主动核单流水线和被动核单流水线二者的下游，系统200可被配置为组合主动核单流水线的结果和被动核单流水线的结果，以生成组合结果。

系统200可以包括数据完整性集成模块226，数据完整性集成模块226可以包括配置为进行一个或多个数据完整性集成操作的一个或多个处理器。数据完整性集成模块226可以从以下中的任何一个或多个接收输入数据：(a)主动核单模块214和(b)被动核单和追踪模块224。数据完整性集成模块226可以将一个或多个数据完整性集成操作应用于所接收的一些或全部数据，并且可以由此生成数据完整性集成输出数据。由数据完整性集成模块226生成的数据完整性集成输出数据可以以任何合适的数据格式提供，并且例如可以包括指示置信度水平(例如，百分比置信度)的组合置信度得分，依据所述置信度水平，系统200确定底层文档担保ERP信息。在一些实施例中，数据完整性集成输出数据可以包括已经分析的每个实体的元组的集合-例如，表示实体、匹配得分和置信度。关于证据是否被认为支持记录(例如ERP记录)的存在和准确性的决定(例如初步决定)可以作为数据完整性集成输出数据的一部分来呈现。

在一些实施例中，模块226应用的一个或多个数据完整性集成操作可以按照以下四种场景之一处理来自主动核单模块214和被动核单模块224的输入数据：

·场景1-在主动核单模块214和被动核单模块224分别确认实体的实施例中，与这两种核单方法关联的两个置信度值可以相互组合(例如，通过平均和/或通过乘法运算)，包括可选地通过用于相互提升，以生成总体置信度水平，或者这两个置信度水平中的较高者可以被选择为总体置信度水平；

·场景2-在主动核单模块214确认实体但被动核单模块224不确认实体的实施例中，来自主动核单模块214的置信度水平可以用作总体置信度水平(有或没有反映缺少被动核单模块224的确认的向下调整)；

·场景3-在被动核单模块224确认实体但主动核单模块214不确认实体的实施例中，来自被动核单模块224的置信度水平可被用作总体置信度水平(有或没有反映缺少主动核单模块214的确认的向下调整)；

·场景4-在主动核单模块214和被动核单模块224生成冲突结果的实施例中，系统可以应用一个或多个操作来调和冲突结果。在一些实施例中，集成来自被动核单和主动核单的结果可以包括例如基于从被动方法和主动方法获得的置信度水平来解析实体值。可以对每个单独的实体进行该解析。

图3A-图3B描绘了在一些实施例中，本公开中公开的系统可以如何将指纹识别算法用作呈现关于采购订单是否得到担保的决策(例如，置信度值)的过程的一部分的示图。图3A-图3B描述了可以如何使用两个证据集来生成指示核单置信度水平的总体结果。在图3A-图3B的例子中，“证据集1”可以包括由主动核单算法生成的输出数据，并且可以与系统200中的主动核单模块214生成的输出数据共享任何一个或多个共同特征。在图3A-图3B的例子中，“证据集2”可以包括由一个或多个文档处理流水线生成的输出数据，并且可以与系统200中的流水线216、218和/或220生成的输出数据共享任何一个或多个共同特征。在一些实施例中，如图3A-图3B中所示，用于生成核单决策和/或置信度值(例如，如图3B中所示)的证据集1和证据集2的组合可以对应于系统200中的模块222、224和226中的任何一个或多个。

指纹识别是一种可以充分利用ERP数据来帮助文档理解和核单的技术。指纹识别使用来自ERP的上下文作为系统如何搜索非结构化文档以寻找匹配项的证据的指纹。通过了解要从ERP条目中查找什么PO特征(例如，特定的PO#、与该PO关联的一组项目编号、该PO的总金额等)，系统可以在所附的PO(非结构化文档)中查找这些证据。

指纹识别的一个优点在于它可以提供重要的上下文，使AI算法可以更好地判断它在文档上看到的内容，使得系统可以实现更高的提取精度和匹配率。指纹识别的一个缺点在于如果不小心使用，它可能会引入偏见-例如，导致系统“只看到你想看到的东西”。例如，可能存在与ERP没有关系、但仍应仔细审查的其他附件(PO、交易、报表)。因此，在一些实施例中，指纹识别不应单独使用，而是应与其他核单逻辑和算法结合使用，以确保准确性和有效性。

在一些实施例中，指纹识别可以包括对预期值，例如特定的PO编号的简单搜索。由于PO编号非常独特，这在大多数情况下都可以表现良好，使系统确信如果它找到PBC2145XC01，则它确实与预期的PO编号匹配。然而，其他字段可能不那么简单，例如字段“数量”。搜索值'1'可能会在单个文档上返回多个匹配项，甚至在整个一组文档中返回更多匹配项，这使系统对它在“数量”上确实匹配缺乏信心。因此，重要的是要包括测量系统置信度的能力，以及设计额外的算法和ML模型来帮助提高置信度和锁定正确的匹配项。例如，如果系统认为具有该数量的PO行的项目#、单价位于附近或位于同一PO行上，则这会使匹配项具有更高的置信度，并且可以删除值为“1”的其他虚假匹配项。指纹识别的置信度可以通过在搜索结果之上结合从1)基于模板的提取、2)无模板的提取和3)附加的ML模型和算法中学到的知识来改进，以去除虚假匹配项并增加匹配项的置信度。

图3A-图3B示出了按照一些实施例，各种文档理解组件如何与指纹识别一起起作用。图3A-图3B中所示的功能的组合可以实现改进的总体目标，包括得到担保的条目的百分比的增加和对得到担保的条目的置信度的增加。

图4示出了按照一些实施例的指纹识别算法的示图。

在一些实施例中，指纹识别算法可以生成PO标头和/或PO行的输出。该算法可以支持精确匹配(fuzzy＝1.0)和模糊匹配。该算法可以使用Elasticsearch对非结构化文档的OCR文本提取进行索引，以用于搜索和/或查找。该算法可以使用实体提取来识别和规范化日期。该算法可以使用一个或多个空间模型来识别PO行，以减少虚假匹配项。该算法可以支持派生总量搜索。该算法可以支持交货条款同义词。

在一些实施例中，指纹识别算法可以包括以下步骤、子步骤和/或特征中的一个或多个：

1)准备用于搜索的ERP数据(Prepare_master.ipynb)。

a)这使它成为针对非结构化文档搜索字段内容的标准格式。如果遵循相同的格式，则这可以应用于其他ERP条目(发票、装运跟踪编号等)。

b)此外，计算PO行的总金额，并在步骤6中通过“PO标头”时查找该派生的总金额。

2)使用Abbyy Finereder FRE进行PDF的文本提取。

a)这生成具有所有文本块的a_basic.XML。

3)从这些文本块创建序连的文本文档

4)对文本文档进行实体提取

5)将文本文档索引到Elasticsearch中(文本加上实体以及一些元数据)

a)合并文档分类模型结果，使系统知道哪些是PO

i)可选系统是否排除索引非PO或在elasticsearch中标记它

6)对PO标头运行指纹识别搜索

a)对于每个字段，分析预期的ERP数据并生成候选文本值

i)例如，交货条款将具有ERP中的术语的一组同义词作为搜索候选项

ii)例如，日期将被规范化，以针对文档的日期实体进行搜索

b)针对elasticsearch发出适当的查询

i)以具有相同SO的文档为目标

ii)如果包括非PO，可选地限制为docclass＝PO

c)评估elasticsearch结果

i)从elasticsearch突出显示的文本中解释和查找模糊匹配

ii)计算搜索候选项的模糊得分

iii)如果模糊得分等于或高于配置的阈值，则匹配

iv)计算置信度(1/匹配次数)

7)对PO行运行指纹识别搜索

a)与PO标头分开地运行PO行搜索

b)运行算法以识别PO行

i)对于每个SO，

(1)从ERP中，找出所有的项目编号，项目编号被用作锚点

(2)对于该SO并且对于每个文档找出所有的PO(文档分类结果)

(a)识别所有锚点值在文本中的位置(即在项目编号中)

(b)计算锚点值之间的间距(字词标记部分的数量)

(c)计算这些间距的平均值作为行窗口宽度

(3)通过行窗口宽度和锚点的位置，系统知道给定PO行的值附近

c)对于每个ERP PO行运行搜索，仅限于在前一步中识别的文本的PO行窗口

i)对于ERP中的每个PO行，在对应的PO行窗口中查找行值(例如，项目#、单价、数量等)

(1)窗口可以定义为：(锚点位置-窗口大小，锚点位置+窗口大小)

(2)这可以通过更多的实验来完善

(3)如果模糊得分等于或高于配置的阈值，则匹配

(4)计算置信度(1/匹配次数)

支付核单以保证

根据进行自动核单的需要，需要用于参照银行结单数据担保ERP条目，以便核实支付的改进的系统和方法。

系统可被配置为接收包括银行结单数据的数据集，其中银行结单数据例如可以以银行结单的PDF文件或JPG文件的形式提供。系统可以将一个或多个数据处理操作(例如，AI模型)应用于接收的银行结单数据，以便从所述数据中提取信息(例如，关键内容和特性)。提取的信息可以以任何合适的输出格式存储，和/或可以用于生成表示银行结单数据中的一个或多个银行结单的一个或多个特征向量。

系统可被配置为接收包括ERP数据的数据集，其中ERP数据可以包括一个或多个ERP条目。系统可以将一个或多个数据处理操作(例如，AI模型)应用于接收的ERP数据，以便从所述数据中提取信息(例如，关键内容和特性)。提取的信息可以以任何合适的输出格式存储，和/或可以用于生成表示ERP数据中的一个或多个ERP条目的一个或多个特征向量。

系统可被配置为应用一个或多个算法(例如，匹配算法)，将从银行结单中提取的信息与从ERP条目中提取的信息进行比较，从而判定银行结单是否足以担保ERP条目。在一些实施例中，进行比较可以包括应用近似算法，所述近似算法被配置为在数字差异较小的情况下，在ERP记录和银行结单之间实现更好的匹配率，所述数字差异例如可能是由于货币转换引起的，而不是指示实质性差异。系统可以基于由两个信息集指示的信息的相似性或不相似性来判定是否满足一个或多个核单标准。系统可以生成指示银行结单和ERP条目之间的匹配水平的输出(例如，相似性得分)、是否满足一个或多个核单标准(例如，阈值相似性得分和/或阈值置信度水平)的指示、所识别的任何差异的指示、和/或系统得出的一个或多个结论的置信度水平(例如，置信度得分)。在一些实施例中，输出数据可以被存储、发送、呈现给用户，用于生成一个或多个可视化，和/或用于触发一个或多个自动化系统动作。

在一些实施例中，系统可以以模块化的方式配置，使得可以在不修改一个或多个特征工程和/或数据比较操作的情况下修改一个或多个数据处理操作，反之亦然。这可以允许按照业务优先级的变化、要求的新特征或者法律或监管要求的演变来配置和微调系统。

图5A-图5B示出了按照一些实施例的支付核单方法500的示图。在一些实施例中，图5A-图5B中描绘的方法的全部或部分可以由本文中描述的系统(例如，系统200)应用。在一些实施例中，支付核单方法可以寻求匹配表示以下中的一个或多个的数据：日期、金额、顾客名称和发票编号。如图5A中所示，系统可以接受ERP支付日记账数据和银行结单数据作为输入(可选地在数据预处理和格式化之后)。银行结单数据可能经历一个或多个AI信息提取模型，以提取关于交易类别、顾客名称和发票的信息。然后，系统可以应用第一匹配算法，例如模糊匹配算法，将ERP数据与从银行结单中提取的数据进行比较。如果检测到匹配项，则在一个或多个其他操作中，系统可以应用一个或多个比较和/或评分操作，以便生成总体匹配得分数据和总体置信度数据。如果没有检测到匹配项，则系统可以应用第二匹配算法，例如已经提出的用于解决背包问题的优化算法。如果第二算法没有检测到匹配项，则可以生成为0的总体匹配得分。如果第二算法检测到匹配项，则系统可以选择最优子集候选者，并且可以在一个或多个其他操作中应用一个或多个比较和/或评分操作，以便生成总体匹配得分和总体置信度得分。下面是更详细的描述。

在框502，在一些实施例中，系统可以接收表示ERP信息的数据，例如通过从ERP支付日记账数据源接收数据。表示ERP信息的数据可以按照预先定义的时间表、响应于满足一个或多个触发条件、作为抓取方法的一部分和/或响应于用户输入而被自动接收。系统可以接收任何可接受格式的ERP数据。在一些实施例中，ERP数据可以以表格数据格式提供，包括定义数据结构的数据模型。ERP数据可以从“应收账款”数据或从“收到的现金”数据中接收。ERP数据可能采用表格格式，包括顾客名称、发票数据和发票金额。

在框504，在一些实施例中，系统可以接收表示一个或多个银行结单的数据。表示银行结单的数据可以按照预先定义的时间表、响应于满足一个或多个触发条件、作为抓取方法的一部分和/或响应于用户输入而被自动接收。系统可以接收任何可接受格式的银行结单数据，例如作为结构化和/或非结构化文档，例如包括PDF文档。在一些实施例中，系统可以接收PDF格式和/或CSV格式的银行结单数据。在一些实施例中，系统可以下载电子银行结单数据(例如BAI/BAI2、Multicash、MT940)。在一些实施例中，系统可以通过EDI和/或ISO20022接收银行结单数据。在一些实施例中，系统可以通过诸如Plaid和Yodlee之类的一个或多个API聚合器来接收银行结单数据。

在框506，在一些实施例中，系统可以将一个或多个信息提取模型应用于表示一个或多个银行结单的数据。所述一个信息提取模型可以生成交易类别数据508、顾客名称数据510和/或发票数据512。提取的信息可以被存储、显示给用户、发送和/或用于例如如本文中公开的进一步处理。

在框514，在一些实施例中，系统可以应用一个或多个模糊匹配算法。一个或多个模糊匹配算法可以接受输入数据，所述输入数据包括(但不限于)表示来自框502的ERP信息的数据、交易类别数据508、顾客名称数据510和/或发票数据512。一个或多个模糊匹配算法可以以多对多的方式比较数据。一个或多个模糊匹配算法可以处理接收的输入数据，以判定表示ERP信息的数据与交易类别数据508、顾客名称数据510和/或发票数据512之间是否存在匹配或接近匹配(例如，“模糊匹配”)。一个或多个模糊匹配算法可以生成表示关于是否已经确定匹配的指示的数据。该指示可以包括关于是否已经确定了匹配的二进制指示和/或可以包括表示已经确定了匹配的置信度水平的置信度得分。

在框516，在一些实施例中，系统可以判定是否在框514确定了匹配。在一些实施例中，系统可以参考由一个或多个模糊匹配算法生成的输出数据来判定是否确定了匹配，例如通过参考输出数据是否基于二进制指示匹配。在一些实施例中，系统可以判定在框514生成的匹配得分是否超过一个或多个预先确定的或动态确定的阈值，以便判定是否满足匹配标准，从而判定是否确定了匹配。按照确定了匹配的判定，方法500可以前进到框518-538。按照未确定匹配的判定，方法500可以前进到框540并继续。

首先转到在框516判定确定了匹配的情况，注意力被吸引到框518。在框518，系统可以判定所确定的匹配是否是一对一匹配。在一些实施例中，系统可以参考由一个或多个模糊匹配算法生成的输出数据来判定所确定的匹配是否是一对一匹配。按照所确定的匹配是一对一匹配的判定，方法可以进行到框510和/或框524。

在框520，在一些实施例中，系统可以将模糊比较算法应用于表示顾客名称信息的数据。在一些实施例中，系统可以将(在框502接收的)表示ERP信息的数据中的顾客名称数据与(在框504接收的)表示一个或多个银行结单的数据中的顾客名称数据进行比较。顾客名称数据的比较可以生成包括顾客名称匹配得分522的输出数据，顾客名称匹配得分522可以指示所比较的顾客名称数据匹配的程度和/或置信度。

在框524，在一些实施例中，系统可以将模糊比较算法应用于表示发票信息的数据。在一些实施例中，系统可以将(在框502接收的)表示ERP信息的数据中的发票数据与(在框504接收的)表示一个或多个银行结单的数据中的发票数据进行比较。发票数据的比较可以生成包括发票匹配得分526的输出数据，发票匹配得分526可以指示所比较的发票数据匹配的程度和/或置信度。

在一些实施例中，由框518、520和524表示的过程可以如下进行。系统可能会针对以下三个属性测试在从银行结单提取的数据与ERP数据之间是否存在匹配：我们需要针对以下三个属性测试在从银行结单提取的数据与ERP数据之间是否存在匹配：模糊日期比较，其中银行结单与ERP数据之间的日期数据的微小偏差可能被认为是可以接受的；模糊顾客名称比较，它可以允许将来自银行结单的规范化顾客名称数据(如果存在的话)与来自ERP数据的顾客名称数据进行比较；以及发票编号比较，其中模糊发票编号比较允许在银行结单之间比较发票编号(如果存在的话)。应注意的是，顾客名称和发票编号在银行结单数据中可能并不总是可用的。

在一些实施例中，除顾客名称匹配得分和发票匹配得分以外，或者除此之外，还可以计算一个或多个其他分量得分。

除了顾客名称匹配得分522和发票匹配得分526之外，或者替代顾客名称匹配得分522和发票匹配得分526，系统可以生成包括时间匹配得分528的数据，例如通过进行日期数据的模糊比较，如在方框527所示。时间匹配得分528可以基于比较数据中的时间差异(例如天数差异)来计算。例如，系统可以将(在框502接收的)表示ERP信息的数据中所指示的日期与(在框504接收的)表示一个或多个银行结单的数据中所指示的日期进行比较，并且可以基于这两个比较的日期之间的差异来生成时间匹配得分528。

在生成例如包括顾客名称匹配得分522、发票匹配得分526和/或时间匹配得分528的分量得分之后，系统可以基于分量得分生成总体匹配得分和/或总体置信度得分。

在框532，在一些实施例中，系统可以计算总体匹配得分534。总体匹配得分534的计算可以包括应用平均算法(例如，对非零分量得分求平均)，例如通过计算一个或多个基础分量得分的加权或未加权平均值。在一些实施例中，总体匹配得分534可以被计算为三项的总和：加权的模糊日期比较得分(例如，加权的528)、加权的模糊顾客名称比较得分(例如，加权的522)和加权的模糊发票编号比较得分(例如，加权的526)。计算相加的总体匹配得分534可以意味着总体匹配得分532在其基于更多(例如，所有三个)基础项的比较时比其不基于更多(例如，所有三个)基础项的比较时更高。

在框536，在一些实施例中，系统可以计算总体置信度得分538。总体置信度得分538的计算可以包括应用基于一个或多个基础置信度得分(比如与基础分量得分中的一个或多个关联的置信度得分)的算法。在一些实施例中，最高的基础置信度得分可以被选择为总体置信度得分538。在一些实施例中，最低的基础置信度得分可以被选择为总体置信度得分538。在一些实施例中，基础置信度得分的加权或未加权平均值可以被计算为总体置信度得分538。在一些实施例中，基于基础置信度得分的乘积可以被计算为总体置信度得分538。

总体匹配得分534和/或总体置信度得分538可以被存储、发送、呈现给用户，用于生成一个或多个可视化和/或用于触发一个或多个自动化系统动作。

现在转到在框516判定未确定匹配的情况，注意力被吸引到框540。在框540，在一些实施例中，系统可以应用一个或多个金额匹配算法，例如包括已经提出的用于解决背包问题的一个或多个优化算法。一个或多个金额匹配算法可以接受输入数据，所述输入数据包括(但不限于)来自框502的表示ERP信息的数据、交易类别数据508、顾客名称数据510和/或发票数据512。一个或多个金额匹配算法可以以一对多的方式比较数据。一个或多个金额匹配算法可以将来自一个银行交易的数据(例如，在框504接收的数据)与许多凭单的数据(如，在框502接收的数据)进行比较。一个或多个金额匹配算法可以处理接收的输入数据，以便判定表示ERP信息的数据与交易类别数据508、顾客名称数据510和/或发票数据512之间是否存在匹配。一个或多个金额匹配算法可以生成表示关于是否已经确定匹配的指示的数据。该指示可以包括关于是否已经确定了匹配的二进制指示和/或可以包括表示已经确定了匹配的置信度水平的置信度得分。

在框542，在一些实施例中，系统可以判定是否在框540确定了匹配。在一些实施例中，系统可以参考由一个或多个金额匹配算法生成的输出数据来判定是否确定了匹配，例如通过参考输出数据是否基于二进制指示匹配。在一些实施例中，系统可以判定在框540生成的匹配得分是否超过一个或多个预先确定的或动态确定的阈值，以便判定是否满足匹配标准，从而判定是否确定了匹配。按照确定了匹配的判定，方法500可以前进到框544-564。按照未确定匹配的判定，方法500可以前进到框566并继续。

在方框544，在一些实施例中，系统可以从在框502接收的数据和/或框504接收的数据中选择数据的候选子集。在框546-564进行的分析可以是关于所选择的数据的候选子集进行的。在一些实施例中，为了进行候选子集选择，系统可以识别可能是匹配项的一组银行交易，然后可以评估该子集中的每个项目以判定哪个是最佳匹配项。在一些实施例中，候选子集可以包括候选子集中不同数量的项目。例如，一个候选子集可能是“可能与凭单匹配的三个交易”，而另一个候选子集可能是“可能与凭单匹配的两个交易”。

在一些实施例中，候选子集选择可以如下进行：候选项可以从最大到最小排序；然后可以消除排序列表中已经大于目标金额的那些项目，并且仅保留小于或等于目标金额的那些项目；然后，可以计算来自所有剩余项目的总金额，并且可以识别与目标金额匹配的那些项目。在一些实施例中，总体目标可以包括判定来自支付的金额C是否与{A1、A2、A3}中的两个或更多的元素匹配。如果A1、A2、A3已从最大到最小排序，则可能需要检验是否

C＝A1+A2；或

C＝A2+A3；或

C＝A1+A2+A3。

因此，如果已知A1大于C，则可能已知包括A1的其他加性组合大于C，因此可能不需要进行检验，并且可能需要进行检验的唯一剩余可能性为是否C＝A2+A3。

基于所选择的候选子集，系统可以生成一个或多个分量得分，比如下面描述的分量得分548、552和/或556。

在框546，在一些实施例中，系统可以将一个或多个子集匹配得分算法应用于所选择的数据的候选子集，从而生成子集匹配得分548，子集匹配得分548可以指示所选择的子集的两个或更多组件(例如，数据点)彼此匹配的程度和/或置信度。框546可以将凭单金额与银行金额进行比较。框546可以将出现于在框502接收的数据中的金额与出现于在框504接收的数据中的金额进行比较。

在框550，在一些实施例中，系统可以将一个或多个模糊名称比较算法应用于所选择的数据的候选子集，从而生成顾客名称匹配得分552，顾客名称匹配得分552可以指示所选择的子集中的两个或更多顾客名称彼此匹配的程度和/或置信度。框550可以将凭单数据中的顾客名称与结单数据中的顾客名称进行比较。框550可以将出现于在框502接收的数据中的顾客名称与出现于在框504接收的数据中的顾客名称进行比较。

在框554，在一些实施例中，系统可以将一个或多个模糊发票比较算法应用于所选择的数据的候选子集，从而生成发票匹配得分556，发票匹配得分556可以指示所选择的子集中的两个或更多发票彼此匹配的程度和/或置信度。框554可以将发票数据的两个实例彼此进行比较。框550可以将出现于在框502接收的数据中的发票数据与出现于在框504接收的数据中的发票数据进行比较。

在生成例如包括子集匹配得分548、顾客名称匹配得分552和/或发票匹配得分556的分量得分之后，系统可以基于分量得分生成总体匹配得分和/或总体置信度得分。

在框558，在一些实施例中，系统可以计算总体匹配得分560。总体匹配得分560的计算可以包括应用平均算法(例如，对非零分量得分求平均)，例如通过计算一个或多个基础分量得分的加权或未加权平均值。

在框562，在一些实施例中，系统可以计算总体置信度得分564。总体置信度得分564的计算可以包括应用基于一个或多个基础置信度得分，比如与基础分量得分中的一个或多个关联的置信度得分的算法。在一些实施例中，最高的基础置信度得分可以被选择为总体置信度得分564。在一些实施例中，最低的基础置信度得分可以被选择为总体置信度得分564。在一些实施例中，基础置信度得分的加权或未加权平均值可以被计算为总体置信度得分564。在一些实施例中，基于基础置信度得分的乘积可以被计算为总体置信度得分564。

总体匹配得分560和/或总体置信度得分564可以被存储、发送、呈现给用户、用于生成一个或多个可视化和/或用于触发一个或多个自动化系统动作。

现在转到在框542判定没有确定匹配的情况，注意力被吸引到框564。在框564，在一些实施例中，系统可以确定总体匹配得分为0。为0的总体匹配得分可以被存储、发送、呈现给用户、用于生成一个或多个可视化和/或用于触发一个或多个自动化系统动作。

在一些实施例中，系统可被配置为应用多种不同的算法(例如，两种不同的算法、三种不同的算法等)作为支付核单过程的一部分。在一些实施例中，可以并行地应用这些算法。在一些实施例中，可以串行地应用这些算法。在一些实施例中，可以根据彼此的结果有选择地应用这些算法；例如，系统可以首先应用一种算法，然后可以根据第一算法的结果(例如，第一算法是否指示匹配)有选择地应用另一种算法。在一些实施例中，系统可被配置为应用瀑布算法、模糊日期-金额算法和已经提出的用于解决背包问题的优化算法。

计算机

图6图解说明按照一些实施例的计算机的例子。计算机600可以是用于提供AI增强审计平台的系统的组件，所述AI增强审计平台包括用于为通过多层处理数据提供AI可解释性的技术。在一些实施例中，计算机600可以执行本文中描述的方法中的任何一个或多个。

计算机600可以是连接到网络的主计算机。计算机600可以是客户端计算机或服务器。如图6中所示，计算机600可以是任何合适类型的基于微处理器的设备，比如个人计算机、工作站、服务器或手持计算设备，比如电话机或平板电脑。计算机例如可以包括处理器610、输入设备620、输出设备630、存储装置640和通信设备660中的一个或多个。输入设备620和输出设备630可以对应于上面描述的那些，并且可以是可连接的或者与计算机集成。

输入设备620可以是提供输入的任何合适的设备，比如触摸屏或监视器、键盘、鼠标或语音识别设备。输出设备630可以是提供输出的任何合适的设备，比如触摸屏、监视器、打印机、磁盘驱动器或扬声器。

存储装置640可以是提供存储的任何合适的设备，比如电存储器、磁存储器或光存储器，包括随机存取存储器(RAM)、高速缓冲存储器、硬盘驱动器、CD-ROM驱动器、磁带驱动器或可移动存储盘。通信设备660可以包括能够通过网络发送和接收信号的任何合适的设备，比如网络接口芯片或卡。计算机的组件可以以任何合适的方式连接，比如经由物理总线连接或无线连接。存储装置640可以是包括一个或多个程序的非临时性计算机可读存储介质，所述一个或多个程序当由诸如处理器610之类的一个或多个处理器执行时，使所述一个或多个处理器执行本文中所述的方法。

可以存储在存储装置640中并由处理器610执行的软件650例如可以包括体现本公开的功能的编程(例如，体现在如上所述的系统、计算机、服务器和/或设备中)。在一些实施例中，软件650可以包括诸如应用服务器和数据库服务器之类的服务器的组合。

软件650也可以在任何计算机可读存储介质内存储和/或传输，以供诸如上面所述之类的指令执行系统、装置或设备使用或与之结合使用，所述指令执行系统、装置或设备可以从指令执行系统，装置或设备获取和执行与软件关联的指令。在本公开的上下文中，计算机可读存储介质可以是可以包含或存储供指令执行系统、装置或设备使用或与之结合使用的编程的任何介质，比如存储装置640。

软件650也可以在任何传输介质内传播，以供诸如上面所述之类的指令执行系统、装置或设备使用或与之结合使用，所述指令执行系统、装置或设备可以从指令执行系统，装置或设备获取并执行与软件关联的指令。在本公开的上下文中，传输介质可以是能够通信、传播或传输编程，以供指令执行系统、装置或设备使用或与之结合使用的任何介质。传输可读介质可以包括但不限于电子、磁、光、电磁或红外有线或无线传播介质。

计算机600可以连接到网络，该网络可以是任何合适类型的互连通信系统。该网络可以实现任何合适的通信协议，并且可以由任何合适的安全协议来保护。该网络可以包括可以实现网络信号的发送和接收的任何合适布置的网络链路，比如无线网络连接、T1或T3线路、有线网络、DSL或电话线路。

计算机600可以实现适合于在网络上操作的任何操作系统。软件650可以用任何合适的编程语言编写，比如C、C++、Java或Python。在各个实施例中，体现本公开的功能的应用软件可以以不同的配置来部署，比如部署在客户端/服务器布置中或者通过Web浏览器作为基于Web的应用或Web服务来部署。

以下是列举的实施例的列表：

实施例1.一种用于判定电子文档内的数据是否构成企业资源规划(ERP)项目的核单证据的系统，所述系统包括一个或多个处理器，所述一个或多个处理器被配置为使所述系统：

接收表示ERP项目的数据；

基于接收的表示ERP项目的数据生成假设数据；

接收电子文档；

从所述文档中提取ERP信息；

将第一组一个或多个模型应用于所述假设数据和所提取的ERP信息，以便生成指示提取的ERP信息是否构成所述ERP项目的核单证据的第一输出数据；

将第二组一个或多个模型应用于提取的ERP信息，以便生成指示提取的ERP信息是否构成所述ERP项目的核单证据的第二输出数据；以及

基于所述第一输出数据和所述第二输出数据生成组合的判定数据，所述组合的判定数据指示提取的ERP信息是否构成所述ERP项目的核单证据。

实施例2.按照实施例1所述的系统，其中提取所述ERP信息包括生成表示所述ERP的信息内容的第一数据和表示所述ERP信息的文档位置的第二数据。

实施例3.按照实施例1-2任意之一所述的系统，其中所述ERP信息包括以下中的一个或多个：采购订单号、顾客名称、日期、交货条款、装运条款、单价和数量。

实施例4.按照实施例1-3任意之一所述的系统，其中应用所述第一组一个或多个模型来生成输出数据基于的是关于文档中ERP信息的实例之间的空间关系的预先存在的信息。

实施例5.按照实施例4所述的系统，其中所述预先存在的信息包括表示文档中的ERP信息的实例之间的空间关系的图表。

实施例6.按照实施例1-5任意之一所述的系统，其中所述一个或多个处理器被配置为使所述系统基于表示上下文数据的一个或多个模型来增强所述假设数据。

实施例7.按照实施例6所述的系统，其中所述上下文数据包括关于ERP信息的信息内容的一个或多个同义词的信息。

实施例8.按照实施例1-7任意之一所述的系统，其中所述ERP信息包括所述文档中的单个字词。

实施例9.按照实施例1-8任意之一所述的系统，其中所述ERP信息包括所述文档中的多个字词。

实施例10.按照实施例1-9任意之一所述的系统，其中所述第二输出数据包括以下中的一个或多个：

置信度得分，所述置信度得分指示关于所提取的ERP信息是否构成ERP项目的核单证据的置信度水平；

关于所提取的ERP信息是否构成ERP项目的核单证据的二进制指示；以及

电子文档内与关于所提取的ERP信息是否构成ERP项目的核单证据的判定对应的位置。

实施例11.按照实施例1所述的系统，其中生成所述第二输出数据包括生成表示所述ERP信息与所述ERP项目的比较的相似性得分。

实施例12.按照实施例11所述的系统，其中所述相似性得分是基于表示上下文数据的实体图表生成的。

实施例13.按照实施例1-12任意之一所述的系统，其中从所述文档中提取所述ERP信息包括应用指纹识别操作，以基于表示ERP项目的所述接收数据来确定要应用于所述电子文档的数据提取操作的特性。

实施例14.按照实施例1-13任意之一所述的系统，其中应用所述第二组一个或多个模型至少部分地基于所述上下文数据。

实施例15.按照实施例1-14任意之一所述的系统，其中应用所述第二组一个或多个模型包括：

并行地应用一组文档处理流水线以生成多个处理流水线输出数据；

将一个或多个数据规范化操作应用于所述多个处理流水线输出数据以生成规范化的数据；以及

基于所述规范化数据生成所述第二输出数据。

实施例16.一种非临时性计算机可读存储介质，所述非临时性计算机可读存储介质存储用于判定电子文档内的数据是否构成企业资源规划(ERP)项目的核单证据的指令，所述指令被配置为由包括一个或多个处理器的系统执行，以使所述系统：

接收表示ERP项目的数据；

基于接收的表示ERP项目的数据生成假设数据；

接收电子文档；

从所述文档中提取ERP信息；

将第一组一个或多个模型应用于所述假设数据和提取的ERP信息，以便生成指示提取的ERP信息是否构成所述ERP项目的核单证据的第一输出数据；

实施例17.一种用于判定电子文档内的数据是否构成企业资源规划(ERP)项目的核单证据的方法，其中所述方法由包括一个或多个处理器的系统进行，所述方法包括：

接收表示ERP项目的数据；

基于接收的表示ERP项目的数据生成假设数据；

接收电子文档；

从所述文档中提取ERP信息；

实施例18.一种用于参照源文档核实断言的系统，所述系统包括一个或多个处理器，所述一个或多个处理器被配置为使所述系统：

接收指示未经核实的断言的第一数据；

接收包括多个源文档的第二数据；

应用一个或多个提取模型从所述多个源文档中提取一组关键数据；以及

应用一个或多个匹配模型将所述第一数据与所述一组关键数据进行比较，以生成指示所述多个源文档中的一个或多个源文档是否满足用于核实未经核实的断言的一个或多个核实标准的输出。

实施例19.按照实施例18所述的系统，其中所述一个或多个提取模型包括一个或多个机器学习模型。

实施例20.按照实施例18-19任意之一所述的系统，其中所述一个或多个匹配模型包括一个或多个近似模型。

实施例21.按照实施例18-20任意之一所述的系统，其中所述一个或多个匹配模型被配置为在所述第一数据和所述一组关键数据之间进行一对多匹配。

实施例22.按照实施例16-21任意之一所述的系统，其中所述一个或多个处理器被配置为使所述系统在不修改所述匹配模型中的一个或多个的情况下修改所述提取模型中的一个或多个。

实施例23.按照实施例18-22任意之一所述的系统，其中，所述一个或多个处理器被配置为使所述系统在不修改所述提取模型中的一个或多个的情况下修改所述匹配模型中的多个匹配模型。

实施例24.按照实施例18-23任意之一所述的系统，其中所述未经核实的断言包括ERP支付条目。

实施例25.按照实施例18-24任意之一所述的系统，其中所述多个源文档包括银行结单。

实施例26.按照实施例18-25任意之一所述的系统，其中应用一个或多个匹配模型包括生成匹配得分和生成置信度得分。

实施例27.按照实施例18-26任意之一所述的系统，其中应用一个或多个匹配模型包括：应用第一匹配模型；

如果第一匹配模型指示匹配，则基于第一匹配模型生成匹配得分和置信得分；

如果第二匹配模型没有指示匹配：

则应用第二匹配模型；

如果第二匹配模型指示匹配，则基于第二匹配模式生成匹配得分和置信得分；而

如果第二匹配模型没有指示匹配，则生成匹配得分0。

实施例28.一种非临时性计算机可读存储介质，所述非临时性计算机可读存储介质存储用于参照源文档核实断言的指令，所述指令被配置为由包括一个或多个处理器的系统执行，以使所述系统：

接收指示未经核实的断言的第一数据；

接收包括多个源文档的第二数据；

应用一个或多个提取模型以从所述多个源文档提取一组关键数据；以及

应用一个或多个匹配模型将所述第一数据与所述一组关键数据进行比较，以生成指示所述多个源文档中的一个或多个是否满足用于核实所述未经核实的断言的一个或多个核实标准的输出。

实施例29.一种用于参照源文档核实断言的方法，其中所述方法由包括一个或多个处理器的系统执行，所述方法包括：

接收指示未经核实的断言的第一数据；

接收包括多个源文档的第二数据；

本申请通过引用并入2022年6月30日提交的题为“AI-AUGMENTED AUDITINGPLATFORM INCLUDING TECHNIQUES FOR AUTOMATED ADJUDICATION OF COMMERCIALSUBSTANCE，RELATED PARTIES，AND COLLECTABILITY”的美国专利申请(代理人案号13574-20069.00)的全部内容。

本申请通过引用并入2022年6月30日提交的题为“AI-AUGMENTED AUDITINGPLATFORM INCLUDING TECHNIQUES FOR APPLYING A COMPOSABLE ASSURANCE INTEGRITYFRAMEWORK”的美国专利申请(代理人案号13574-20070.00)的全部内容。

本申请通过引用并入2022年6月30日提交的题为“AI-AUGMENTED AUDITINGPLATFORM INCLUDING TECHNIQUES FOR AUTOMATED DOCUMENT PROCESSING”的美国专利申请(代理人案号13574-20071.00)的全部内容。

本申请通过引用并入2022年6月30日提交的题为“AI-AUGMENTED AUDITINGPLATFORM INCLUDING TECHNIQUES FOR PROVIDING AI-EXPLAINABILITY FOR PROCESSINGDATA THROUGH MULTIPLE LAYERS”的美国专利申请(代理人案号13574-20072.00)的全部内容。

Claims

1.一种用于判定电子文档内的数据是否构成企业资源规划(ERP)项目的核单证据的系统，所述系统包括一个或多个处理器，所述一个或多个处理器被配置为使所述系统：

接收表示ERP项目的数据；

基于接收的表示ERP项目的数据生成假设数据；

接收电子文档；

从所述文档中提取ERP信息；

2.按照权利要求1所述的系统，其中提取所述ERP信息包括生成表示所述ERP信息的信息内容的第一数据和表示所述ERP信息的文档位置的第二数据。

3.按照权利要求1-2任意之一所述的系统，其中所述ERP信息包括以下中的一个或多个：采购订单号、顾客名称、日期、交货条款、装运条款、单价和数量。

4.按照权利要求1-3任意之一所述的系统，其中应用所述第一组一个或多个模型来生成输出数据基于的是关于文档中ERP信息的实例之间的空间关系的预先存在的信息。

5.按照权利要求4所述的系统，其中所述预先存在的信息包括表示文档中的ERP信息的实例之间的空间关系的图表。

6.按照权利要求1-5任意之一所述的系统，其中所述一个或多个处理器被配置为使所述系统基于表示上下文数据的一个或多个模型来增强所述假设数据。

7.按照权利要求6所述的系统，其中所述上下文数据包括关于ERP信息的信息内容的一个或多个同义词的信息。

8.按照权利要求1-7任意之一所述的系统，其中所述ERP信息包括所述文档中的单个字词。

9.按照权利要求1-8任意之一所述的系统，其中所述ERP信息包括所述文档中的多个字词。

10.按照权利要求1-9任意之一所述的系统，其中所述第二输出数据包括以下中的一个或多个：

11.按照权利要求1所述的系统，其中生成所述第二输出数据包括生成表示所述ERP信息与所述ERP项目的比较的相似性得分。

12.按照权利要求11所述的系统，其中所述相似性得分是基于表示上下文数据的实体图表生成的。

13.按照权利要求1-12任意之一所述的系统，其中从所述文档中提取所述ERP信息包括应用指纹识别操作，以基于表示ERP项目的接收数据来判定要应用于所述电子文档的数据提取操作的特性。

14.按照权利要求1-13任意之一所述的系统，其中应用所述第二组一个或多个模型至少部分地基于所述上下文数据。

15.按照权利要求1-14任意之一所述的系统，其中应用所述第二组一个或多个模型包括：

基于所述规范化数据生成所述第二输出数据。

16.一种非临时性计算机可读存储介质，所述非临时性计算机可读存储介质存储用于判定电子文档内的数据是否构成企业资源规划(ERP)项目的核单证据的指令，所述指令被配置为由包括一个或多个处理器的系统执行，以使所述系统：

接收表示ERP项目的数据；

基于接收的表示ERP项目的数据生成假设数据；

接收电子文档；

从所述文档中提取ERP信息；

17.一种用于判定电子文档内的数据是否构成企业资源规划(ERP)项目的核单证据的方法，其中所述方法由包括一个或多个处理器的系统进行，所述方法包括：

接收表示ERP项目的数据；

基于接收的表示ERP项目的数据生成假设数据；

接收电子文档；

从所述文档中提取ERP信息；