CN109791548A - 匹配交易电子文档和证明电子文档 - Google Patents
匹配交易电子文档和证明电子文档 Download PDFInfo
- Publication number
- CN109791548A CN109791548A CN201780058542.6A CN201780058542A CN109791548A CN 109791548 A CN109791548 A CN 109791548A CN 201780058542 A CN201780058542 A CN 201780058542A CN 109791548 A CN109791548 A CN 109791548A
- Authority
- CN
- China
- Prior art keywords
- electronic document
- template
- data
- transaction
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/84—Mapping; Conversion
- G06F16/86—Mapping to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/04—Payment circuits
- G06Q20/047—Payment circuits using payment protocols involving electronic receipts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/389—Keeping log of transactions for guaranteeing non-repudiation of a transaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/04—Billing or invoicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/123—Tax preparation or submission
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Finance (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Human Resources & Organizations (AREA)
- Technology Law (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种用于将第二电子文档与第一电子文档进行匹配的系统和方法,所述第一电子文档包括交易的至少部分非结构化数据。该方法包括:分析所述至少部分非结构化数据以确定至少一个交易参数;为第一电子文档创建模板,其中模板是包括所确定的至少一个交易参数的结构化数据集;基于所述模板确定要求证据的第一电子文档的一部分;基于所述模板搜索第二电子文档,其中第二电子文档指示证据要求部分;以及关联第二电子文档与第一电子文档。
Description
相关申请的交叉引用
本申请要求2016年7月31日提交的美国临时申请No.62/369,113的优先权。本申请也是2016年11月28日提交的、现在正处于审查阶段的美国专利申请No.15/361,934的部分继续申请。上述申请的内容在此引入作为参考。
技术领域
本公开一般涉及分析至少部分非结构化电子文档,并且更具体地涉及将证明交易的电子文档与表示交易的电子文档相匹配。
背景技术
顾客可以通过网络实时地订购商家提供的旅行和住宿等服务。这些订单可以被立即接收和处理。然而,订单付款通常需要更多时间才能完成,尤其是为了保障正在转移的资金。因此,商家通常要求顾客在下订单时实时提供付款保证。例如,顾客可以根据支付输入信用卡信息,并且商家可以在授权销售之前实时验证该信用卡信息。验证通常包括确定所提供的信息是否有效(即,信用卡号、有效期、PIN码和/或顾客名是否与已知信息匹配)。
一旦接收到此类保证后,便为顾客生成采购订单。采购订单提供订单的证明,例如采购价格、订购的商品和/或服务等。之后,生成订单的发票。采购订单通常用于指示需求的产品以及估算或提供的价格,而发票则通常用于指示实际提供的产品以及产品的最终价格。通常,订单发票所显示的购买价格与采购订单所显示的购买价格不同。例如,如果酒店的客人最初订购三晚住宿但最终第四晚继续入住,则采购订单的总价会反映出与后续发票不同的总价。发票总价与采购订单总价不同的情况是很难跟踪的,特别是对于每天接收大量订单的大型企业(例如,管理特定地区的数百或数千家酒店的大型连锁酒店)。这些差异可能会导致企业的记录保存发生错误。
随着企业越来越依赖技术来管理与运营相关的数据(例如发票和采购订单数据),能够适当地管理和验证数据的合适系统早已成为成功的关键。特别是对于大型企业而言,企业每天使用的数据量是非常巨大的。因此,手动审查和验证此类数据是不切实际的。然而,记录保存文档之间的差异可能会给企业带来严重问题,例如,未能向税务机关正确报告收益。
目前存在一些解决方案能够自动识别扫描文档(例如,发票和收据)或其他非结构化电子文档(例如,非结构化文本文档)中的信息。而这些解决方案在准确标识和识别电子文档的字符和其他特征方面经常面临挑战。此外,输入的非结构化电子文档内容的降级通常会导致更高的错误率。结果,现有的图像识别技术在理想情况下(即,图像非常清晰)也并不能完全准确,而当输入图像清晰度不够时,它们的准确度通常更会急剧下降。此外,丢失的或不完整的数据可能在随后的数据使用期间导致错误。许多现有的解决方案无法识别丢失的数据,除非例如结构化数据集中的字段并非是不完整的。
另外,现有的图像识别解决方案无法准确识别某些或所有特殊字符(例如,“!”、“@”、“#”、“$”、“%”、“&”等)。例如,一些现有的图像识别解决方案可能无法准确地将扫描的收据中包括的短划线识别为数字“1”。作为另一示例,一些现有的图像识别解决方案无法识别诸如美元符号、日元符号等特殊字符。
此外,这些解决方案在准备用于后续使用的识别信息时可能面临挑战。具体而言,许多这样的解决方案或者是以非结构化格式产生输出,或者只有在输入的电子文档被特定地格式化以供图像识别系统识别时,才能产生结构化输出。所产生的非结构化输出通常无法有效地处理。特别地,这种非结构化输出可以包含副本,并且可以包括在使用之前需要后续处理的数据。
通常,为了对交易期间支付的增值税要求退税,必须将文件形式的证据(例如发票或收据,其表明与交易有关的信息)提交给相应的退税机构(例如,该国的税务机构以退还增值税)。如果提交的文件中的信息与退还请求中提交的信息不匹配,则拒绝该请求并且不授予退税。为此,企业机构的员工通常手动选择和提交退还增值税所需的、以电子文档形式的文件(例如,能够表明是发票或收据的扫描图像文档)。该手动选择会引入人为错误的可能性,例如,由于员工在请求中提供了不正确的信息和/或提交了非预期的文件(例如,另一个交易的发票)。用于自动验证交易的现有解决方案在利用包含至少部分非结构化数据的电子文档时面临着挑战。
因此,提供一种克服现有技术缺陷的解决方案将是有利的。
发明内容
以下是本公开的若干示例实施例的概述。在此提供的本概述是为了方便读者对这些实施例有个基本的理解,而并非完全限定本发明的范围。本概述并非所有预期实施例的广泛概述,并且既不旨在标识所有实施例的关键或重要元素,也不旨在描绘任何或所有方面的范围。其唯一目的是以简化形式呈现一个或多个实施例的一些概念,作为稍后呈现的更详细描述的序言。为方便起见,本文可使用术语“一些实施例”来指代本公开的单个实施例或多个实施例。
本文公开的特定实施例包括用于将第二电子文档与第一电子文档匹配的方法,其中第一电子文档包括交易的至少部分非结构化数据。该方法包括:分析该至少部分非结构化数据以确定至少一个交易参数;为第一电子文档创建模板,其中该模板是包括所确定的至少一个交易参数的结构化数据集;基于该模板确定要求证据的第一电子文档的一部分;基于该模板搜索第二电子文档,其中第二电子文档指示证据要求部分;以及,将第二电子文档与第一电子文档相关联。
本文公开的特定实施例还包括用于将第二电子文档与第一电子文档相匹配的系统,其中第一电子文档包括交易的至少部分非结构化数据。该系统包括:处理电路;以及内存,该内存包含的指令为当由处理电路执行时,将系统配置为:该方法包括:分析该至少部分非结构化数据以确定至少一个交易参数;为第一电子文档创建模板,其中该模板是包括所确定的至少一个交易参数的结构化数据集;基于该模板确定要求证据的第一电子文档的一部分;基于该模板搜索第二电子文档,其中第二电子文档指示证据要求部分;以及,将第二电子文档与第一电子文档相关联。
附图说明
本文所公开的主题由说明书结尾处的权利要求特别指出并清楚地要求保护。通过以下结合附图的详细描述,所公开实施例的前述以及其他的目的、特征和优点将变得显而易见。
图1是用于描述各种公开的实施例的网络示意图;
图2是根据一实施例的电子文档分析器的示意图;
图3示出了根据一实施例的用于将证明电子文档与交易电子文档进行匹配的方法的流程图;
图4示出了根据一实施例的用于基于至少一个电子文档来创建数据集的方法的流程图。
具体实施方式
重要的是应当注意,本文公开的实施例仅是本文创新教导的许多有利用途的示意例。一般而言,在本申请的说明书中做出的陈述不一定限制任何所需要保护的实施例。此外,一些陈述可能适用于某些发明特征而不适用于其他特征。通常,除非另有说明,否则单数要件可以是复数,反之亦然,不失一般性。附图中,若干视图中的相同的标号表示相同的部件。
各种公开的实施例包括用于将第二证明电子文档与第一交易电子文档进行匹配的方法和系统。交易电子文档包括与交易有关的信息(例如,日期、价格、买方、卖方等),而证明电子文档则提供交易的证据。在一示例实施例中,交易电子文档可以是费用报表,而证明电子文档可以是费用证据,例如收据或发票。在一实施例中,数据集基于交易电子文档进行创建。通过在交易电子文档上执行光学字符识别(OCR)并识别OCR结果的关键字段和值来创建数据集。交易属性的模板基于交易电子文档数据集创建。
基于交易电子文档创建的模板,确定要求证据的交易电子文档的一个或多个部分。搜索数据库以供证明电子文档查明该确定的部分。可确定指示交易电子文档和证明电子文档之间的兼容性的兼容性级别并将其提供给用户。
本公开的实施例允许自动检索在费用报表中表明的交易所提供的证明性证据文档。更具体地,本公开的实施例包括提供用于电子文档的结构化数据集模板,从而允许基于非结构化、半结构化或其他不具有已知结构的电子费用报表来检索证明文档。例如,本公开的实施例可以用于有效地分析交易的费用报表的扫描图像,从而允许更准确地识别要求证据的费用报表的部分,并且因此允许更准确地识别用以证明交易的适当文件。
图1示出了用于描述各种公开的实施例的示例网络图100。在示例网络图100中,电子文档分析器120、客户端设备130、数据库140以及多个数据源150-1到150-N(下文中分别称为数据源150以及统称为数据源150,仅是出于简化的目的),均经由网络110通信地连接。该网络110可以是但不限于无线、蜂窝或有线网络、局域网(LAN)、广域网(WAN)、城域网(MAN)、因特网、全球网络(WWW)、类似网络及其任何组合。
客户端设备130通常与企业相关联,并且存储与企业或企业的代表进行的购买有关的数据以及与企业自身相关的数据。客户端设备130还可以存储与费用报表和指示交易信息的其他电子文档(例如,增值税退还请求)有关的数据。企业可以是但不限于雇员可以购买商品和服务(特别是在国外需要缴纳增值税的商品和服务)的公司。客户端设备130可以是但不限于服务器、数据库、企业资源规划系统、客户关系管理系统、个人计算机(PC)、个人数字助理(PDA)、移动电话、智能手机、平板电脑或用以存储相关数据的任何其他系统。
由客户端设备130存储的数据可以包括但不限于电子文档,诸如指示与交易相关的信息的交易电子文档、提供交易证据的证明电子文档、或两者。每个电子文档可以显示例如发票、税收收据、费用报表、购买编号记录、增值税退还请求等。每个电子文档中包括的数据可以是结构化的、半结构化的、非结构化的或其组合。结构化或半结构化数据可以是电子文档分析器120无法识别的格式,因此被视为是非结构化数据。
数据库140可以存储提供交易记录的交易电子文档以及提供交易证据的证明电子文档。包含交易证据的每个证明电子文档可与指示交易的交易电子文档相关联。为此,数据库140可以存储例如电子文档集,每个集包括指示交易的交易电子文档以及用作交易证据的一个或多个相关的证明电子文档。
数据源150至少存储可以用作准许请求的证据的电子文档。一些数据源150可以进一步存储定义要求证据的交易参数(或交易参数集)的证明要求规则。数据源150可以包括但不限于商家的服务器或设备、税务机关服务器、会计服务器、与企业相关联的数据库等。作为非限制性示例,数据源150-1可以是存储图像文件的商家服务器,该图像文件示出由与商家服务器相关联的商家进行的交易的发票。
在一实施例中,电子文档分析器120配置为基于使用机器视觉识别出的第一交易电子文档的交易参数来创建模板。在另一实施例中,电子文档分析器120可以配置为检索来自例如客户端设备130的交易电子文档。基于所创建的模板,电子文档分析器120配置为检索用以指示证明交易的信息的第二证明电子文档。
在一实施例中,电子文档分析器120配置为基于电子文档创建数据集,该电子文档包括至少部分缺少已知结构的数据(例如,非结构化数据、半结构化数据或具有未知结构的结构化数据)。为此,电子文档分析器120还可以配置为利用光学字符识别(OCR)或其他图像处理来确定电子文档中的数据。因此,电子文档分析器可以包括或通信地连接到识别处理器(例如,图2所示的识别处理器235)。
在一实施例中,电子文档分析器120配置为分析所创建的数据集以识别与电子文档中指示的交易相关的交易参数。在一实施例中,电子文档分析器120配置为基于所创建的数据集创建模板。每个模板均是包括有用于交易的已识别的交易参数的结构化数据集。
在一实施例中,电子文档分析器120配置为基于交易电子文档创建模板。基于所创建的模板,电子文档分析器120配置为检索证明电子文档以用作授予请求所需的证据。为此,电子文档分析器配置为基于证明要求规则和所创建的模板来确定要求证据的交易电子文档的一个或多个部分。证明要求规则可以定义需要由证明电子文档支持的交易参数的类型、特定交易参数、交易参数的组合等。相对于所创建的模板的字段可以进一步分析该证明要求规则。例如,证明要求规则指示出:在所创建的模板的“购买类型”字段中表明的“酒店住宿”的购买类型与“价格”字段中的交易参数的组合所需的证据。
利用结构化模板以确定是否要求有证明电子文档,允许了比例如利用非结构化数据更有效和准确的确定。具体地,可以仅针对交易电子文档的相关部分(例如,包括在结构化模板的特定字段中的部分)来分析相应的证明要求规则,从而减少了每个规则的应用实例数量,并减少了由于将规则应用于可能与每个规则无关的数据而导致的误报。此外,从电子文档提取并整理成模板的数据所需要的内存比例如扫描文档的图像更少。
在一实施例中,电子文档分析器120还可以配置为从例如一个或多个数据源150获取证明要求规则。为此,电子文档分析器120可以配置为基于所创建的模板来查询数据源150。根据创建的模板来获取证明要求规则允许了应用最新的规则,例如当税务报告要求发生变化或者来自新辖区的先前未知规则将被应用时。
电子文档分析器120还配置为基于所创建的模板中的数据在数据源150中进行搜索。作为非限制性示例,如果模板中的数据指示在以色列进行的购买,则可以从与以色列税务机关相关联的数据源150-2检索证明电子文档。作为另一非限制性示例,如果模板中的数据表示基于从ABC公司购买商品的增值税退还请求,则可以从与ABC公司相关联的数据源150-3检索第二电子文档。
在一实施例中,电子文档分析器120配置为通过将交易电子文档的数据与证明电子文档的数据进行比较来确定兼容性级别。兼容性级别表示交易电子文档的一部分与证明电子文档之间的关系。兼容性级别可以但不限于完全匹配、部分匹配、不匹配等。例如,如果比较的数据之间确定没有差异,则可以确定为完全匹配。如果确定有差异,则可以基于预定阈值确定兼容性级别。例如,欧元价格的阈值可以是5欧元,这样使得当交易电子文档中表示的价格是90欧元并且证明电子文档中的价格是91欧元时确定为部分匹配,而当交易电子文档中表示的价格是90欧元而证明电子文档中的价格是80欧元时则确定为不匹配。
兼容性级别的确定还可以包括基于第二电子文档的机器成像分析来生成用于证明电子文档的模板。对交易电子文档模板中的数据与证明电子文档模板中的对应数据进行比较。例如,可以比较模板的各个“价格”字段中的值,并且可以将差异(如果有的话)与部分匹配的位置阈值进行比较。
在一实施例中,电子文档分析器120可以配置为将兼容性级别发送到例如客户端设备130,从而促成在客户端设备130上显示出兼容性级别。电子文档分析器120还可以发送支持交易电子文档的每个部分的证明电子文档。基于兼容性级别、证明电子文档或两者来接受或拒绝每个证明电子文档的选项可以呈现给客户端设备130的用户。如果用户接受证明电子文档,则它可以与数据库140中的相应交易电子文档相关联。
应当注意,上述所描述的关于图1中一个客户端设备130的实施例,仅是出于简化目的且不限制本公开的实施例。在不脱离本公开的范围的情况下,可以同等地利用多个客户端设备。
图2是根据实施例的电子文档分析器120的示例示意图。电子文档分析器120包括处理电路210,该处理电路210与内存215、存储器220和网络接口240耦合。电子文档分析器120还可以包括光学字符识别(OCR)处理器230。电子文档分析器120的组件可以经由总线250通信地连接。
处理电路210可以实现为一个或多个硬件逻辑组件和电路。例如但不限于,可以使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(FPGAs)、专用集成电路(ASIC)、专用标准产品(ASSPs)、片上系统(SOCs)、通用微处理器、微控制器、数字信号处理器(DSPs)等、或可以执行信息的计算或其他操作的任何其他硬件逻辑组件。
内存215可以是易失性的(例如,RAM等)、非易失性的(例如,ROM、闪存等)或其组合。在一种配置中,用于实现本文公开的一个或多个实施例的计算机可读指令可以存储在存储器220中。
在另一实施例中,内存215配置为用以存储软件。软件应广义地解释为表示任何类型的指令,无论是指软件、固件、中间件、微代码、硬件描述语言或是其他。指令可以包括代码(例如,以源代码格式、二进制代码格式、可执行代码格式或任何其他合适的代码格式)。当由一个或多个处理器执行时,指令使得处理电路210能够执行本文描述的各种过程。具体地,如本文所讨论的,指令在被执行时能够令处理电路210将证明电子文档与交易电子文档相匹配。
存储器220可以是磁存储器、光存储器等,并且可以实现为例如闪存或其他存储器技术,CD-ROM、数字通用光盘(DVD)或任何可以存储所需信息的其他介质。
OCR处理器230可以包括但不限于特征和/或模式识别处理器(RP)235,其配置为识别非结构化数据集中的模式、特征或两者。具体地,在一实施例中,OCR处理器230配置为至少识别非结构化数据中的字符。利用所识别的字符来创建用于匹配电子文档的数据集。
网络接口240允许电子文档分析器120与客户端设备130、数据库140、数据源150或其组合进行通信,以便例如获得电子文档、获得证明要求规则、存储数据等。
应当理解,本文描述的实施例不限于图2中所示的特定架构,并且在不脱离所公开实施例的范围的情况下,可以同等地使用其他架构。
图3示出了根据一实施例的用于将证明电子文档与交易电子文档进行匹配的方法的示例流程图300。在一实施例中,该方法可以由电子文档分析器120执行。
在S310,基于包括有与交易相关的信息的交易电子文档来创建数据集。交易电子文档可以包括但不限于非结构化数据、半结构化数据、具有未预料或未宣布的结构的结构化数据、或其组合。在一实施例中,S310还可以包括使用光学字符识别(OCR)分析交易电子文档以确定交易电子文档中的数据、识别数据中的关键字段、识别数据中的值、或其组合。下文中将参考图4进一步描述基于电子文档创建数据集。
在S320,分析为交易电子文档创建的数据集。在一实施例中,分析数据集可以包括但不限于确定交易参数(该交易参数例如但不限于实体标识符(例如,顾客企业标识符、商家企业标识符或两者))、与交易相关的信息(例如,日期、时间、价格、商品的类型或销售的服务等)、或以上两者。第一数据集的分析还可以包括基于数据集识别交易。
在S330,基于数据集创建模板。该模板可以是但不限于包括多个字段的数据结构。该字段可以包括所识别的交易参数。字段可以是预定义的。
由于创建的模板的结构化特性,从电子文档创建模板允许了更快速的处理。例如,在结构化数据集上比在缺乏这种结构的数据集上能够更有效地执行查询和操纵操作。此外,将来自电子文档的信息组织形成结构化数据集,可以显著减少保存包含在电子文档中的信息所需的存储量。电子文档通常是指比包含相同信息的数据集需要更多存储空间的图像。例如,表示100000个图像电子文档的数据的数据集可以作为数据记录保存在文本文件中。这样的文本文件的大小将显著小于100000个图像的大小。
在可选的S340,可以获取证明要求规则。证明要求规则定义了要求证据支持的交易(例如,以发票、收据或纪录交易的其他文件的形式)。该证明规则可以相对于例如,交易参数的类型(例如,价格、支付的税额)、特定交易参数(例如,证明购买商品的规则可能与证明购买服务的规则不同)、以及它们的组合等进一步定义要求证据支持的交易。
基于所创建的模板的数据来检索证明要求规则。为此,S340可以包括基于模板查询一个或多个数据源(例如,图1所示的数据源150)。例如,对于模板的“交易类型”字段所指示的“酒店住宿”的购买交易,该查询可以返回与酒店住宿相关的信息的规则,其中与酒店住宿相关的信息必须由例如企业管理系统(例如,用于公司的记录保存)、税务报告机构(例如,用于提交增值税退还请求)等中的文件证据支持。
创建模板时证明要求规则的获取允许了将当前规则应用于创建的模板。例如,如果税法发生变化,证明交易的要求可能也会改变。可选地,可以使用预定的证明要求规则。
在S350,基于证明要求规则,确定要求证明电子文档的交易电子文档的一部分。该确定的部分可以包括但不限于包括在模板的特定字段中的交易参数、特定交易参数、它们的组合等。作为非限制性示例,特定费用类型(例如,购买电子产品)和购买价格可能需要证明电子文档。
在S360,基于模板来检索证明电子文档。在一实施例中,S360包括基于模板中的数据在至少一个数据源(例如,图1所示的数据源150)中进行搜索。可以针对要求证据的该确定部分进行进一步的搜索。作为非限制性示例,在模板的“交易ID”字段中所指示的被确定为要求证明电子文档的交易标识号“123456789”可以用作搜索查询,以基于例如包括交易标识号“123456789”的第二电子文档的元数据来查找证明电子文档。在另一实施例中,S360还包括基于模板来选择至少一个数据源。
在可选的S370,确定交易电子文档和证明电子文档之间的兼容性级别。通过将交易电子文档的数据与证明电子文档的数据进行比较来确定兼容性级别。在一实施例中,S370包括生成用于证明电子文档的模板(例如,使用下面参考图4进一步描述的方法)。为此,S370还可以包括将交易电子文档模板中的数据与证明电子文档模板中的数据进行比较。
兼容性级别表示交易电子文档的一部分与对应的证明电子文档之间的关系程度,例如可以是完全匹配、部分匹配、不匹配等。例如,当比较的数据相同或在预定的完全匹配阈值内时,确定为完全匹配。部分匹配或不匹配可以基于例如预定的部分匹配阈值来确定。当使用两个阈值时,部分匹配的阈值低于完全匹配的阈值。阈值例如可以是阈值的值、阈值比例等。
在可选的S380,发送该确定的兼容性级别以在例如客户端设备上显示。在一实施例中,还可以发送证明电子文档。
在S390,将交易电子文档和证明电子文档相关联。为此,S390还可以包括将交易电子文档、证明电子文档或两者存储在数据库中,并且将存储的电子文档相关联。在一实施例中,证明电子文档还可以与交易电子文档的特定部分(例如,为电子文档创建的模板的特定字段中所指示的部分)相关联。
作为非限制性示例,使用光学字符识别来分析包括美国汽车租赁的费用报表的扫描图像,以创建该图像的数据集。分析数据集以识别包括价格“$80.00”和费用类型“汽车租赁”的交易参数。创建结构化数据集模板,该结构化数据集模板包括在相应关键字段中识别的交易参数。
基于模板和证明要求规则,费用报表包括价格和汽车租赁费用类型的部分可以确定要求了证据。使用该模板的交易标识号,在商家服务器中找到指示价格为“$80.67”的汽车租赁的交易发票。将费用报表的价格与发票中指示的价格进行比较,以确定部分匹配的兼容性级别。发送兼容性级别以在客户端设备上显示。费用报表和发票均存储在数据库中并相互关联,从而确保一致的记录保存。
应当注意,图3所描述的实施例被论述为交易电子文档的一个证据要求部分和一个对应的证明电子文档,仅仅是为了简化目的而不是对所公开的实施例的限制。交易电子文档的多个部分可以确定为要求证据,并且每个部分可以与不同的证明电子文档相关联。这些部分可以串行或并行处理。此外,找到多个证明电子文档并将其用作每个部分的证据。例如,发票的两个扫描页可用作证明酒店住宿价格的电子文档。
图4示出了根据一实施例的基于电子文档创建数据集的方法的示例流程图S310。
在S410,获取电子文档。电子文档的获取可以包括但不限于接收电子文档(例如,接收扫描图像)或检索电子文档(例如,从消费者企业系统、商家企业系统或数据库或检索电子文档)。
在S420,分析电子文档。分析可以包括但不限于使用光学字符识别(OCR)来确定电子文档中的字符。
在S430,基于该分析,识别电子文档中的关键字段和值。关键字段可以包括但不限于商家的姓名和地址、日期、货币、销售的商品或服务、交易标识符、发票号等。电子文档可能包含不被视为关键值的不必要细节。例如,商家的徽标可能是不需要的,因此不是关键值。在一实施例中,可以预定义关键字段列表,并且提取可以与关键字段匹配的多条数据。然后,执行清理过程以确保准确地呈现信息。例如,如果OCR导致数据显示为“1211212005”,则清理过程会将此数据转换为12/12/2005。另一示例,如果名称显示为“Mo$den”,则将更改为“Mosden”。可以使用诸如字典、日历等外部信息资源来执行清理过程。
在另一实施例中,检查所提取的数据片段是否完整。例如,如果商家名称可以识别但其地址丢失,则商家地址的关键字段不完整。尝试补齐缺失的关键字段值。该尝试可以包括查询外部系统和数据库、关联先前分析的发票,或其组合。外部系统和数据库的示例可以包括商业目录、通用产品代码(UPC)数据库、包裹递送和跟踪系统等。在一实施例中,S430产生一组完整的预定义关键字段及它们各自的值。
在S440,生成结构化数据集。生成的数据集包括标识的关键字段和值。
应当理解,使用诸如“第一”、“第二”等名称对本文中元件的任何引用一般不限制这些元件的数量或顺序。相反,这些名称在本文中通常用以便利地区分两个或更多个元件或元件的多个实例。因此,第一元件和第二元件的引用并不意味着仅能够使用两个元件、或者第一元件必须以某种方式在第二元件之前。而且,除非另有说明,否则一组元件包括一个或多个元件。
如本文所使用的,在短语“至少一个”后接的项目列表意味着可以单独使用任何列出的项目、或者可以利用所列项目中的两个或更多个的任意组合。例如,如果系统被描述为包括“A、B和C中的至少一个”,则系统可以是仅包括A;仅包括B;仅包括C;A和B组合;B和C组合;A和C组合;或A、B和C组合。
本文公开的各种实施例可以实现为硬件、固件、软件或其任何组合。此外,软件优选地实现为有形地体现在程序存储单元或计算机可读介质上的应用程序,该计算机可读介质包括部件、或特定设备和/或设备的组合。应用程序可以上传到包括有任何合适架构的机器并由其执行。优选地,该机器在具有诸如一个或多个中央处理单元(“CPU”)、内存和输入/输出接口等硬件的计算机平台上实现。计算机平台还可以包括操作系统和微指令代码。在此描述的各种过程和功能可以是微指令代码的一部分或者应用程序的一部分、或者它们的任何组合,其可以由CPU执行,无论是否明确地示出了这样的计算机或处理器。另外,可以设置连接到计算机平台的各种其他外围单元,例如附加数据存储单元和打印单元。此外,非暂时性计算机可读介质是除暂时传播信号之外的任何计算机可读介质。
本文引用的所有示例和条件语言均旨在用于教学目的以帮助读者理解所公开实施例的原理和发明人为促进技术而提供的概念,并且应被解释为不限于这些具体列举的实例和条件。此外,本文公开的实施例的原理、方面和实施例的所有陈述以及其具体示例均旨在包括其结构和功能的等同物。另外,这些等同物旨在包括当前已知的等同物以及将来开发的等同物,即,开发的执行相同功能的任何元件,而不管结构如何。
Claims (19)
1.用于将第二电子文档与第一电子文档匹配的方法,所述第一电子文档包括交易的至少部分非结构化数据,所述方法包括:
分析所述至少部分非结构化数据以确定至少一个交易参数;
为第一电子文档创建模板,其中模板是包括所确定的至少一个交易参数的结构化数据集;
基于所述模板确定要求证据的第一电子文档的一部分;
基于所述模板搜索第二电子文档,其中第二电子文档指示证据要求部分;以及
关联第二电子文档与第一电子文档。
2.根据权利要求1所述的方法,其中,确定所述至少一个交易参数还包括:
在第一电子文档中识别至少一个关键字段和至少一个值;
基于所述第一电子文档创建数据集,其中创建的数据集包括所述至少一个关键字段和所述至少一个值;以及
分析所创建的数据集,其中基于该分析确定至少一个交易参数。
3.根据权利要求2所述的方法,其中,识别所述至少一个关键字段和所述至少一个值还包括:
分析第一电子文档以确定第一电子文档中的数据;以及
基于预定的关键字段列表,提取确定的数据的至少一部分,其中,确定的数据的该至少一部分与预定的关键字段列表中的至少一个关键字段匹配。
4.根据权利要求3所述的方法,其中,分析第一电子文档还包括:
在第一电子文档上执行光学字符识别,其中所述确定的数据包括光学字符识别的结果。
5.根据权利要求1所述的方法,还包括:
将第一电子文档的至少一部分与第二电子文档进行比较以确定兼容性级别,其中兼容性级别指示第二电子文档与证据要求部分的关系。
6.根据权利要求5所述的方法,其中,所述兼容性级别选自完全匹配、部分匹配和不匹配中的至少一个。
7.根据权利要求5所述的方法,其中,比较所述第一电子文档的至少一部分与所述第二电子文档还包括:
基于第二电子文档创建模板,其中第二模板是包括第二电子文档的数据的结构化数据集;以及
比较第一电子文档的模板的至少一部分和第二电子文档的模板的至少一部分。
8.根据权利要求7所述的方法,其中,比较第一模板和第二模板还包括:
将第一模板的每个部分与第二模板的对应部分进行比较;以及
确定第一模板的每个部分是否匹配第二模板的对应部分。
9.根据权利要求1所述的方法,其中,所述第一电子文档是费用报表,其中,所述第二电子文档是表示发票和收据中的至少一个的图像。
10.一种非暂时性计算机可读介质,其上存储有用于使处理电路执行将第二电子文档与第一电子文档匹配的过程的指令,所述第一电子文档包括交易的至少部分非结构化数据,所述过程包括:
分析所述至少部分非结构化数据以确定至少一个交易参数;
为第一电子文档创建模板,其中模板是包括确定的至少一个交易参数的结构化数据集;
基于所述模板确定要求证据的第一电子文档的一部分;
基于所述模板搜索第二电子文档,其中第二电子文档指示证据要求部分;以及
关联第二电子文档与第一电子文档。
11.用于将第二电子文档与第一电子文档进行匹配的系统,所述第一电子文档包括至少部分非结构化交易数据,所述系统包括:
处理电路;以及
内存,所述内存包含指令,所述指令当由处理电路执行时,将系统配置为:
分析所述至少部分非结构化数据以确定至少一个交易参数;
为第一电子文档创建模板,其中模板是包括确定的至少一个交易参数的结构化数据集;
基于所述模板确定要求证据的第一电子文档的一部分;
基于所述模板搜索第二电子文档,其中第二电子文档指示证据要求部分;以及
关联第二电子文档与第一电子文档。
12.根据权利要求11所述的系统,其中,所述系统还配置为:
在第一电子文档中识别至少一个关键字段和至少一个值;
基于第一电子文档创建数据集,其中创建的数据集包括所述至少一个关键字段和所述至少一个值;以及
分析所创建的数据集,其中基于该分析确定至少一个交易参数。
13.根据权利要求12所述的系统,其中,所述系统还配置为:
分析第一电子文档以确定第一电子文档中的数据;以及
基于预定的关键字段列表提取确定的数据的至少一部分,其中所述确定的数据的至少一部分与预定的关键字段列表中的至少一个关键字段匹配。
14.根据权利要求13所述的系统,其中,所述系统还配置为:
在第一电子文档上执行光学字符识别,其中所述确定的数据包括光学字符识别的结果。
15.根据权利要求11所述的系统,其中,所述系统还配置为:
将第一电子文档的至少一部分与第二电子文档进行比较以确定兼容性级别,其中兼容性级别指示第二电子文档与证据要求部分的关系。
16.根据权利要求15所述的系统,其中,所述兼容性级别选自完全匹配、部分匹配和不匹配中的至少一个。
17.根据权利要求15所述的系统,其中,所述系统还配置为:
基于第二电子文档创建模板,其中第二模板是包括第二电子文档的数据的结构化数据集;以及
比较第一电子文档的模板的至少一部分和第二电子文档的模板的至少一部分。
18.根据权利要求17所述的系统,其中,所述系统还配置为:
比较第一模板的每个部分与第二模板的对应部分;以及
确定第一模板的每个部分是否匹配第二模板的对应部分。
19.根据权利要求11所述的系统,其中,所述第一电子文档是费用报表,其中,所述第二电子文档是表示发票和收据中的至少一个的图像。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662369113P | 2016-07-31 | 2016-07-31 | |
US62/369,113 | 2016-07-31 | ||
US15/361,934 US20170154385A1 (en) | 2015-11-29 | 2016-11-28 | System and method for automatic validation |
US15/361,934 | 2016-11-28 | ||
PCT/US2017/043644 WO2018048512A1 (en) | 2016-07-31 | 2017-07-25 | Matching transaction electronic documents to evidencing electronic |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109791548A true CN109791548A (zh) | 2019-05-21 |
Family
ID=61562796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780058542.6A Pending CN109791548A (zh) | 2016-07-31 | 2017-07-25 | 匹配交易电子文档和证明电子文档 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3491554A4 (zh) |
CN (1) | CN109791548A (zh) |
WO (1) | WO2018048512A1 (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7363308B2 (en) * | 2000-12-28 | 2008-04-22 | Fair Isaac Corporation | System and method for obtaining keyword descriptions of records from a large database |
US7818657B1 (en) * | 2002-04-01 | 2010-10-19 | Fannie Mae | Electronic document for mortgage transactions |
US20090063470A1 (en) * | 2007-08-28 | 2009-03-05 | Nogacom Ltd. | Document management using business objects |
US20100161616A1 (en) * | 2008-12-16 | 2010-06-24 | Carol Mitchell | Systems and methods for coupling structured content with unstructured content |
US8879846B2 (en) * | 2009-02-10 | 2014-11-04 | Kofax, Inc. | Systems, methods and computer program products for processing financial documents |
US8774516B2 (en) * | 2009-02-10 | 2014-07-08 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
WO2015175722A1 (en) * | 2014-05-13 | 2015-11-19 | Nant Holdings Ip, Llc | Healthcare transaction validation via blockchain proof-of-work, systems and methods |
-
2017
- 2017-07-25 EP EP17849248.4A patent/EP3491554A4/en not_active Withdrawn
- 2017-07-25 CN CN201780058542.6A patent/CN109791548A/zh active Pending
- 2017-07-25 WO PCT/US2017/043644 patent/WO2018048512A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
EP3491554A4 (en) | 2020-04-15 |
EP3491554A1 (en) | 2019-06-05 |
WO2018048512A1 (en) | 2018-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062132B2 (en) | System and method for identification of missing data elements in electronic documents | |
US11138372B2 (en) | System and method for reporting based on electronic documents | |
US20170323006A1 (en) | System and method for providing analytics in real-time based on unstructured electronic documents | |
US20180011846A1 (en) | System and method for matching transaction electronic documents to evidencing electronic documents | |
US20170169292A1 (en) | System and method for automatically verifying requests based on electronic documents | |
CN109791537A (zh) | 将电子文档补充完整的系统和方法 | |
US20170323157A1 (en) | System and method for determining an entity status based on unstructured electronic documents | |
US20180025225A1 (en) | System and method for generating consolidated data for electronic documents | |
CN109219809A (zh) | 基于电子文档的自动生成报告数据的方法和系统 | |
US20180046663A1 (en) | System and method for completing electronic documents | |
CN109154949A (zh) | 基于未结构化电子文档而实时提供分析 | |
US10387561B2 (en) | System and method for obtaining reissues of electronic documents lacking required data | |
CN109791548A (zh) | 匹配交易电子文档和证明电子文档 | |
CN109791643A (zh) | 用于生成电子文档的合并数据的系统和方法 | |
CN109791540A (zh) | 基于电子文件进行报告的系统和方法 | |
CN108713198A (zh) | 基于电子文件的自动验证请求 | |
US20180025224A1 (en) | System and method for identifying unclaimed electronic documents | |
US20180025438A1 (en) | System and method for generating analytics based on electronic documents | |
US20170169519A1 (en) | System and method for automatically verifying transactions based on electronic documents | |
CN110023970A (zh) | 用于验证非结构化的企业资源计划数据的系统和方法 | |
CN109313765A (zh) | 基于电子文件进行自动验证交易的系统与方法 | |
US20170323395A1 (en) | System and method for creating historical records based on unstructured electronic documents | |
CN109791560A (zh) | 监视电子文件的系统和方法 | |
WO2018027133A1 (en) | Obtaining reissues of electronic documents lacking required data | |
WO2018031402A1 (en) | System and method for identifying unclaimed electronic documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190521 |