CN109791540A - 基于电子文件进行报告的系统和方法 - Google Patents
基于电子文件进行报告的系统和方法 Download PDFInfo
- Publication number
- CN109791540A CN109791540A CN201780060462.4A CN201780060462A CN109791540A CN 109791540 A CN109791540 A CN 109791540A CN 201780060462 A CN201780060462 A CN 201780060462A CN 109791540 A CN109791540 A CN 109791540A
- Authority
- CN
- China
- Prior art keywords
- electronic document
- template
- data
- report
- expense item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/04—Billing or invoicing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/123—Tax preparation or submission
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/389—Keeping log of transactions for guaranteeing non-repudiation of a transaction
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Technology Law (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
一种基于第一电子文件和至少一个第二电子文件进行报告的方法和系统。该方法包括分析该第一电子文件,以确定至少一个费用项目中每一个的至少一个交易参数,该第一电子文件指示该至少一个费用项目,其中该第一电子文件包括至少部分非结构化的数据;为该第一电子文件创建至少一个模板,其中每个第一电子文件模板为包括所确定的至少一个交易参数的结构化数据集;基于该至少一个第一电子文件模板检索该至少一个第二电子文件;以及当该至少一个第二电子文件与该至少一个费用项目匹配时生成报告,其中该报告指示该至少一个费用项目并包括该至少一个第二电子文件。
Description
相关申请的交叉引用
本申请要求于2016年8月5日提交的、序列号为62/371,233的美国临时申请的优先权。本申请同时也是于2016年11月28日提交的、序列号为15/361,934的待决美国专利申请的部分延续案。上述申请的内容通过引用并入本文。
技术领域
本发明总体上涉及分析电子文件,更具体地涉及对非结构化的电子文件进行情景分析。
背景技术
客户可以通过网络实时向商家订购旅游和住宿等服务。这些订单可以立即被接收和处理。然而,订单的付款通常需要更多的时间来完成,特别是需要更多的时间来确保正在转移的资金的安全。因此,商家通常要求客户在下订单时提供实时的付款保证。例如,客户可以依照支付输入信用卡信息,并且商家可以在授权出售之前实时地验证信用卡信息。验证通常包括确定所提供的信息是否有效(即,信用卡号码、有效日期、密码和/或客户名称是否跟已知信息相匹配)。
在收到这样的保证后,可以为客户生成一份订购单。订购单提供了该订单的证明,例如,购买价格、订购的货物和/或服务等。稍后,可能会生成订单的发票。虽然订购单通常用来指示需要哪些产品以及对价格的估计或报价,但发票通常用来指示实际提供了哪些产品以及产品的最终价格。通常,订单的发票所显示的购买价格与订购单所显示的购买价格不同。例如,如果一位住在酒店的客人最初订了3晚的住宿,但最后却住了第四晚,那么订购单的总价格可能会与随后的发票上的总价格不同。对于发票总价格与订购单总价格不同的情况很难跟踪,特别是在大型企业每天接收许多订单的情况下(例如,在给定国家中的管理着数百家或数千家酒店的大型连锁酒店)。这些价格差异可能会导致企业的记录出现错误。
随着企业越来越多地依靠技术来管理与发票和订购单数据等业务有关的数据,用于适当地管理和验证数据的合适系统已成为成功的关键。特别是对于大型企业来说,企业每天使用的数据量可能是巨大的。因此,人工审查和验证这些数据是不现实的。然而,记录文件之间的差异可能给企业造成重大问题,例如,未能向税务局适当地报告收入。
一些解决方案用于自动识别扫描文件(如发票和收据)或其他非结构化电子文件(例如,非结构化的文本文件)中的信息。在准确地辨认和识别电子文件的字母和其他特征这些方面,这种解决方案常常面临挑战。此外,输入的非结构化电子文件的内容质量下降通常会导致较高的错误率。因此,现有的图像识别技术在理想情况下(即非常清晰的图像)并不完全准确,而且当输入图像不太清晰时,这些技术的准确性往往会急剧下降。此外,丢失或其他不完整的数据可能导致在随后使用数据时出现错误。许多现有解决方案无法识别丢失的数据,除非,例如结构化数据集中的字段是不完整的。
此外,现有的图像识别解决方案可能无法准确地识别某些或全部特殊字符(例如“!”“@”“#”“$”“%”“&”等。例如,一些现有的图像识别解决方案可能不准确地将扫描收据中的破折号识别为数字“1”。在另一示例中,一些现有的图像识别解决方案不能识别诸如美元符号、日元符号等的特殊字符。
此外,在准备识别资料以供后续使用的方面,这些解决方案可能面临挑战。具体来说,许多这样的解决方案要么以非结构化格式生成输出,要么只能在输入电子文件被具体格式化以供图像识别系统识别的情况下才能生成结构化输出。生成的非结构化输出通常无法被有效处理。特别地,这种非结构化输出可能包含重复项,并且可能包括在使用前需要后续处理的数据。
当员工要求报销代表企业支付的费用时,该员工可以提交一份费用报告,其中包括与费用有关的信息。为了使企业减少费用或回收为这些费用所付的增值税,企业通常要求员工提交收据或发票等费用的相应证据。将费用报告与相应的证据进行匹配对于企业减税或回收税款来说是非常重要的。
通常,当企业员工提交记录了应得到补偿的费用的费用报告时,该报告中指示的费用与证明该费用已支付的相应证明文件(如收据、发票等)无关。当员工提交与多笔交易相关的费用报告时,此问题将进一步复杂化。例如,在费用报告中提到的600美元的单笔费用可能是指住宿费,但实际上,600美元是指在3间不同的酒店住宿期间在每间酒店花费了200美元。
目前存在一些用于管理不同交易的费用报告的解决方案,但这些解决方案通常要求费用报告采用已知的结构化格式,或为不同的交易提交单独的费用报告。因此,当费用报告本身是非结构化的或缺乏已知结构时(例如当员工手工填写费用报告并扫描已完成的费用报告时),这些解决方案将面临额外的挑战。
因此,提供能够克服现有技术缺陷的解决方案将是有利的。
发明内容
本文公开的几个示例性实施例的发明内容如下。本发明内容提供对这些实施例的基本理解以为读者提供方便,但不限定本发明的范围。本发明内容不是对所有设想的实施例的广泛概述,其目的是既不确定所有实施例的关键或决定性的要素,也不描述任意方面或所有方面的范围。它的唯一目的是以简化的形式呈现一个或多个实施例的一些概念,作为之后提出的更详细描述的铺垫。为方便起见,在本文使用的术语“一些实施例”可以用于指代本文公开的单个实施例或多个实施例。
本文公开的实施例包括基于第一电子文件和至少一个第二电子文件进行报告的方法。该方法包括:分析该第一电子文件,以确定用于至少一个费用项目中的每一个的至少一个交易参数,该第一电子文件指示该至少一个费用项目,其中该第一电子文件包括至少部分非结构化的数据;为第一电子文件创建至少一个模板,其中每个第一电子文件模板是包括所确定的至少一个交易参数的结构化数据集;基于该至少一个第一电子文件模板取回该至少一个第二电子文件;以及当该至少一个第二电子文件与该至少一个费用项目匹配时生成报告,其中该报告指示该至少一个费用项目并且该报告包括该至少一个第二电子文件。
本文公开的一些实施例还包括非暂时性计算机可读介质,该非暂时性计算机可读介质具有存储在其中的指令,这些指令用于使处理电路执行基于第一电子文件和至少一个第二电子文件进行报告的处理,所述处理包括:分析该第一电子文件,以确定用于至少一个费用项目中的每一个的至少一个交易参数,该第一电子文件指示该至少一个费用项目,其中该第一电子文件包括至少部分非结构化的数据;为第一电子文件创建至少一个模板,其中每个第一电子文件模板是包括所确定的至少一个交易参数的结构化数据集;基于该至少一个第一电子文件模板取回该至少一个第二电子文件;以及当该至少一个第二电子文件与该至少一个费用项目匹配时生成报告,其中该报告指示该至少一个费用项目并且该报告包括该至少一个第二电子文件。
本文公开的实施例还包括基于第一电子文件和至少一个第二电子文件进行报告的系统。该系统包括:处理电路;和记忆体,该记忆体包含指令,当由该处理电路执行该指令时,该系统配置为:分析该第一电子文件,以确定用于至少一个费用项目中的每一个的至少一个交易参数,该第一电子文件指示该至少一个费用项目,其中该第一电子文件包括至少部分非结构化的数据;为第一电子文件创建至少一个模板,其中每个第一电子文件模板是包括所确定的至少一个交易参数的结构化数据集;基于该至少一个第一电子文件模板取回该至少一个第二电子文件;以及当该至少一个第二电子文件与该至少一个费用项目匹配时生成报告,其中该报告指示该至少一个费用项目并且该报告包括该至少一个第二电子文件。
附图说明
在说明书结尾处的权利要求中特别指出并明确要求了本文所公开的主题。以下与附图相结合的详细描述能够使所公开的实施例的前述目标和其他目标、特征和优点变得显而易见。
图1为描述所公开的多个实施例的网络图;
图2为根据一个实施例中的验证系统的示意图;
图3为根据一个实施例中的基于电子文件进行报告的方法的流程图;
图4为根据一个实施例中的基于至少一个电子文件创建数据集的方法的流程图;
图5为根据另一个实施例中的基于电子文件进行报告的方法的流程图。
具体实施方式
应当注意,本文公开的实施例仅仅是本文中的创新方法的多个具有有利用途的示例。一般而言,在本申请的说明书中所作的陈述不限制多个所要求保护的实施例中的任何一个。此外,一些陈述可能适用于一些创造性的特征,但不适用于其他特征。一般情况下,除非另有说明,单数的元素可以是复数,反之亦然,并不失一般性。在附图中,相似的数字表示多个附图中相似的部分。
本文所公开的多个实施例包括用于基于电子文件进行报告的方法和系统。在一个实施例中,基于从第一费用报告电子文件中提取的数据创建数据集,该第一费用报告电子文件指示与一个或多个费用项目相关的信息。基于费用报告电子文件数据集创建交易属性的模板。每个模板包括交易的交易参数,更具体地说,每个模板可以包括与费用项目相关的数据。在示例性实施例中,每个模板可以包括但不限于交易金额(例如,价格)和交易描述。基于所创建的模板执行检索以找到一个或多个第二证明电子文件。
将这些模板与证明电子文件的数据进行比较。基于所述比较,确定模板中指示的费用项目是否在与高于一预定阈值的证明电子文件相匹配。当确定这些证明电子文件与这些费用项目匹配时,生成包括这些模板和匹配的证据电子文件的报告。
在一些实施例中,报告可以与费用报告电子文件和证明电子文件倒转地执行。也就是说,在一些实施例中,模板可以是本文所述的一个或多个第一证明电子文件并且是用于检索第二费用报告电子文件和将费用报告电子文件的数据与所创建的模板的数据进行比较,以确定费用报告电子文件是否与高于一预定阈值的模板匹配,并且如果是的话,则生成包括证明电子文件和模板的报告。
本文所公开的实施例允许自动取回文件,这些文件提供在费用报告中指出的交易的证据证明,以及自动取回费用报告,这些费用报告指示包括在证明电子文件中的费用,使得在同一报告中指示出这些交易和相应的文件。更具体地说,本文公开的实施例包括为电子文件提供结构化数据集模板,从而允许有效且准确地将来自非结构化、半结构化或其它缺乏已知结构的电子文件的相应部分的数据进行比较。例如,本文公开的实施例可用于有效地分析示出扫描的费用报告和收据的图像。
图1示出了用于描述多个公开实施例的示例网络图100。在示例网络图100中,报告生成器120、企业系统130、数据库140、多个web源150-1到150-N(只是为了简单起见。在下文单独地称为web源150以及整体称为web源150)和用户设备160通过网络110通信连接。网络110可以是(但不限于)无线、蜂窝或有线网络、局域网(LAN)、广域网(WAN)、城域网(MAN)、因特网、万维网(WWW)、类似网络及其任意组合。
企业系统130与企业相关联,可以存储与企业或企业代表的采购有关的数据以及与企业本身有关的数据。企业可以是但不限于,一家其员工可以代表企业购买商品和服务的企业,因此,可以通过提交描述了要退还的费用的费用报告来寻求退还。企业系统130可以是(但不限于)服务器、数据库、企业资源规划系统、客户关系管理系统或存储相关数据的任何其他系统。
企业系统130存储的数据可以包括但不限于电子文件(例如,发票的扫描图像文件、文本文件、电子表格文件)。每个电子文件可以显示,例如,费用报告、发票、税单、采购号码记录,等等。包括在每个电子文件中的数据可以是结构化的、半结构化的、非结构化的或它们的组合。这些结构化或半结构化数据可采用不能被报告生成器120识别的格式,因此可被视为非结构化数据。
数据库140可以存储由报告生成器120生成的报告。这些报告可以包括例如,模板,这些模板包括费用项目的数据以及与证明电子文件相关联的数据。
web源150至少存储可用作批准请求的证据的电子文件。Web源150可以包括但不限于商家的服务器或设备、税局服务器、会计服务器、与企业相关的数据库等。作为非限制性示例,web源150-1可以是商家服务器,存储用于显示与商家服务器关联的商家所做的交易的发票的图像文件。
用户设备160可以是但不限于个人计算机(PC)、个人掌上电脑(PDA)、移动电话、智能电话、平板计算机、可穿戴计算设备和其它类型的有线和移动设备。用户设备160可被配置为存储电子文件,这些电子文件是例如显示费用报告、扫描的发票等的图像。
在一个实施例中,报告生成器120被配置为基于利用一个或多个第一电子文件中的每一个的机器视觉进行识别的交易参数来创建模板,其中电子文件指示与一个或多个交易相关的信息。报告生成器120可被配置为例如从企业系统130中检索第一电子文件,或从用户设备160处接收第一电子文件。基于所创建的模板,将报告生成器120配置为检索一个或多个第二电子文件。将第二电子文件的数据与模板进行比较,以确定是否有匹配,如果匹配,则生成包括模板和第一电子文件、第二电子文件或以上两者的报告。
每个电子文件包括与一个或多个交易相关的数据。与交易有关的数据可能包括但不限于费用描述、费用类型、日期、时间、金额(例如单位价格或总价)、其他费用、支付实体、卖方实体等。示例交易描述包括“出租车”、“住宿”、“餐厅”等。每个电子文件还可以包括识别数据的文件,例如但不限于文件标识号(例如发票的标识号)、提交实体标识符(例如,提交费用报告的员工的姓名或识别号)等。
在一个在示例性实施例中,这些第一电子文件包括费用报告电子文件,该费用报告电子文件指示员工寻求补偿的一个或多个费用项目,以及第二电子文件包括针对每个指示的费用项目的相应电子文件。在另一个实施例中,第一电子文件包括提供交易证据的一个或多个电子文件,第二电子文件包括费用报告电子文件,该费用报告电子文件指示在电子文件中示出的每笔交易。
在一个实施例中,报告生成器120被配置为利用基于电子文件的数据集创建模板,这些电子文件包括至少部分缺少已知结构的数据(例如,非结构化数据、半结构化数据或具有未知结构的结构化数据)。为此,报告生成器120可进一步配置为利用光学字符识别(OCR)或其他图像处理来确定电子文件中的数据。因此,报告生成器120可因此包括识别处理器或通信连接到识别处理器(例如,图2中的识别处理器235)。
在一个实施例中,报告生成器120被配置为分析所创建的数据集以识别与该第一电子文件中所指示的交易相关的交易参数。在实施例中,报告生成器120被配置为基于所创建的数据集创建模板。每个模板都是一个结构化数据集,包括这些交易中的一个交易的已识别交易参数。在一个示例实施例中,每个模板包括至少字段和费用金额的值(例如,一个交易的价格)以及费用描述。
对比例如利用非结构化的数据,使用结构化模板来确定匹配的电子文件能够进行更有效和准确的判定。具体地,可以将费用报告的数据与模板字段相关的相应证明文件数据进行比较,从而减少比较的次数,以及减少由于比较彼此可能无关的数据而产生的错误。此外,例如相对于扫描文件的图像,从电子文件中提取并组织成模板的数据所需的记忆体更少。
在一个实施例中,基于这些模板,将报告生成器120配置为在web源150中搜索一个或多个第二电子文件。该搜索可以包括基于每个模板中包含的一个或多个交易参数对web源查询,并且还可以包括利用要被搜索的一个或多个预定字段(例如,唯一地识别费用的字段组合)中的交易参数。例如,该搜索可能基于模板的“日期”和“描述”字段中的数据。搜索带来一个或多个第二电子文件。
在一个实施例中,可以仅基于创建的模板中的一部分来执行搜索。具体地,该搜索可以排除使用先前报告过的模板。或者,报告生成器120可被配置为将用于模板的唯一标识交易参数集与具有元数据的模板中的对应交易参数集进行比较,这些元数据将在该模板中指示的费用项目标记为先前使用过。将先前使用过的费用项目排除在搜索之外,防止重复报告同一费用项目。例如,如果费用报告电子文件包括采购的交易标识号“1234”和“5678”,分别描述“食品”和“酒店住宿”,当包括交易标识号“基本”和描述“酒店住宿”的模板具有将该费用项目标记为已使用的元数据时,搜索可能只基于包括交易参数“1234”和“食品”的模板。
在一个实施例中,报告生成器120被配置为将第一电子文件的创建模板与在搜索期间发现的至少与金额和描述类交易参数相关的第二电子文件数据进行比较,以确定第二电子文件是否与模板匹配,例如高于一预定阈值。这种匹配可进一步基于建立匹配值的一条或多条匹配规则(例如,对“酒店”的描述可被视为与“住宿”的描述相匹配,金额在5美元以内,则可视为匹配,等等)。例如,如果第一电子文件是费用报告,指示费用金额为“600美元”,而费用描述为“餐馆”,则可将这些交易参数与在搜索过程中发现的6张发票中每一张发票中分别显示的金额和描述进行比较。例如,每张发票的金额为100美元,描述为“餐厅”、“餐厅酒吧”或“食品”。由于发票总额和每张发票的描述与费用报告的金额和描述匹配,因此确定这些发票与这些模板匹配。
在一个实施例中,比较还可以包括为每个第二电子文件创建一个或多个模板,并将第一电子文件模板中的数据与第二电子文件模板的相应字段中的数据进行比较。当这些第二电子文件是至少部分非结构化时,可为这些第二电子文件创建模板,从而允许进行更准确和有效的比较。例如,如果电子文件是显示扫描的发票的图像,则其中的数据是非结构化的。
在一个实施例中,当确定第一电子文件与高过一预定阈值的第二电子文件匹配时,报告生成器120被配置为生成报告。每个报告可以指示每个搜索到的费用项目,并且可以包括,例如,每个搜索的费用项目的一个或多个相应的证明电子文件。报告还可以包括每个费用项目的模板。
在一个实施例中,当生成报告时,报告生成器120被配置为将报告中指示的每个费用项标记为已使用的费用项目。标记可以包括但不限于在每个已使用过的费用项目上植入代码。例如,标记代码可以包括在指示费用项目的模板的元数据中。如上文所述,标记可用于识别不应该被搜索到的先前使用过的费用项目,从而通过减少费用项目的不正确或重复报告的情况来节约计算资源和提高报告数据的准确性。
应当注意的是,上面针对图1中的企业系统130的描述的实施例仅是为了简单起见而进行描述的,并不限于所公开的实施例。在不偏离本发明的范围的情况下,多个企业系统能被平等地利用。
图2是根据一个实施例的报告生成器120的示例示意图。报告生成器120包括连接到记忆体215、存储器220和网络接口240的处理电路210。在一个实施例中,报告生成器120可以包括光学字符识别(OCR)处理器230。在另一个实施例中,报告生成器120的组件可以通过总线250以通信方式连接。
处理电路210可以作为一个或多个硬件逻辑部件和电路来实现。例如,可以使用的硬件逻辑元件的类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、通用微处理器、微控制器、数字信号处理器(DSP)等,或者可以执行计算或其他信息处理的任何其他硬件逻辑组件。
记忆体215可以是易失的(例如,RAM等)、非易失的(例如ROM、快闪记忆体等)或其组合。在一种配置中,用于实现本文公开的一个或多个实施例的计算机可读指令可以存储在存储器220中。
在另一个实施例中,记忆体215被配置为存储软件。软件应被广义地解释为任何类型的指令,无论是软件、固件、中间件、微码、硬件描述语言还是其他。指令可以包括代码(例如,源代码格式、二进制代码格式、可执行代码格式或任何其他合适的代码格式)。当由一个或多个处理器执行指令时,使处理电路210执行本文描述的多种处理。具体地,当指令被执行时,这些指令使处理电路210如本文所述基于电子文件生成报告。
存储器220可以是磁存储器、光存储器等,并且可以实现作为例如快闪记忆体或其他记忆体、CD-ROM、数字多功能磁盘(DVD)或可用于存储有用信息的任何其他介质。
OCR处理器230可以包括但不限于被配置为识别非结构化数据集中的模式、特征或两者的特征识别处理器和/或模式识别处理器(RP)235。具体来说,在实施例中,OCR处理器230被配置为至少识别非结构化数据中的字符。识别的字符可用于创建包括验证请求所需的数据的数据集。
网络接口240允许报告生成器120与企业系统130、数据库140、Web源150或其组合进行通信,用于例如收集元数据、检索数据、存储数据等。
应当理解,本文描述的实施例不限于图2中所示的特定架构。另外,可以在不偏离本文所公开实施例的范围的情况下同样地使用其他架构。
图3是根据一个实施例的基于电子文件进行报告的方法的示例流程图300。在实施例中,该方法可由报告生成器(例如,报告生成器120)执行。在示例实施例中,该方法包括报告在第一费用报告电子文件和在一个或多个第二辅助电子文件中指示的费用项目。
在S310处,基于包括与至少一个费用项目相关的信息的费用报告电子文件来创建数据集。该费用报告电子文件可以包括但不限于非结构化数据、半结构化数据、具有未预料的或未公布的结构或两者都具备的结构化数据。在实施例中,S310还可以包括使用光学字符识别(OCR)来分析费用报告电子文件以确定电子文件中的数据、识别数据中的关键字段、识别数据中的值或其组合。下面针对图4进一步描述基于电子文件来创建数据集。
在S320处,对费用报告数据集进行了分析。在实施例中,分析费用报告数据集可以包括但不限于确定交易参数,交易参数是例如但不限于至少一个实体标识(例如,消费企业标识、商家企业标识,或两者)、与交易有关的信息(例如,但不限于:日期、时间、价格、出售的商品或服务的类型等)或这两者。在另一个实施例中,分析费用报告数据集还可以包括基于费用报告数据集识别该交易。
在S330处,基于费用报告数据集创建一个或多个模板。每个模板可以是但不限于包括多个字段的数据结构。这些字段可以包括所识别的交易参数。字段可以是预定义的。每个模板可以包括交易参数,这些交易参数指示费用报告中包含的不同费用项目。
从电子文件创建模板,由于所创建的模板的结构化性质,使得处理速度更快。例如,相对于缺乏这种结构的数据集,在结构化数据集上执行查询和处理操作的执行效率会更高。此外,将来自电子文件的信息组织成结构化数据集,可以显著地减少用于保存电子文件中包含的信息所需的存储量。电子文件通常是图像,相比包含相同信息的数据集需要更多存储空间。例如,表示来自100000个图像电子文件的数据的数据集可以作为数据记录保存在文本文件中。这样的一个文本文件的大小将大大小于100000幅图像的大小。
在S340处,这些证明电子文件是根据费用报告电子文件的模板被取回的。在一个实施例中,S340包括基于费用报告模板中的交易参数在一个或多个web源中进行搜索。作为非限制性示例,在第一模板的“交易ID”字段中指示的交易标识号“123456789”可用作搜索查询,以基于例如包括交易标识号“123456789”的电子文件的元数据查找证明电子文件。在另一个实施例中,S340还包括基于费用报告模板选择至少一个web源(例如,可以基于模板中的商家标识符选择特定商家的web源)。
在一个实施例中,S340可进一步包括确定用于搜索的模板。具体地,当例如一个或多个模板指示先前使用过的费用项目时,则只能使用这些模板中的一部分。例如,如果员工以前报告了该费用项目,则该费用项目可能被排除在搜索之外,使得不会被报告两次。排除的模板可以通过例如将这些模板与先前创建的模板进行比较来确定,其中每个被比较的先前创建的模板包括将该模板的费用项目标记为已使用的元数据。
在S350处,将用于搜索的费用报告模板与取回的证明电子文件的数据进行比较,以确定各个的费用项目是否与这些证明电子文件相匹配,如果匹配,则继续执行;否则,执行终止。在一个实施例中,可以基于一个或多个交易参数的预定阈值进行比较。该比较可以进一步基于定义匹配参数的一个或多个匹配规则。在示例实施例中,该比较至少相对于费用金额和费用描述值来执行。
在一个实施例中,S350可进一步包括为每个电子文件创建模板,并将费用报告模板字段中的交易参数与证明模板相应字段中的交易参数进行比较。这些模板可以,例如,如本文所述那样创建。
在S360处,当确定费用报告模板与证明模板匹配时,生成报告。该报告指示在用于搜索的模板中所指示的每一项费用项目,并包括在搜索过程中发现的证明电子文件。该报告还可以包括为所指示的费用项目创建的模板。
作为一个非限制性的示例,费用报告指示交易参数,这些交易参数包括2016年8月花费的1000美元的金额,并具有一描述为“住宿”。该模板包括交易参数,这些参数是为费用报告而创建的并用于搜索10张2016年8月的住宿花费发票。发票显示交易总额为1000美元。费用报告模板的金额和描述与总金额和发票上总金额和描述相比较。由于发票上总金额等于费用报告模板的金额,而且每张发票的描述与费用报告模板的描述相匹配,因此确定费用报告中的费用项目与找到的发票相匹配。生成一份报告,该报告指示出该费用项目并包含相匹配的发票。
图4是S310的示例流程图,描述了根据一个实施例基于电子文件创建数据集的方法。
在S410处,获取该电子文件。获取电子文件可包括但不限于接收电子文件(例如,接收扫描图像)或检索电子文件(例如,从消费企业系统、商业企业系统或数据库中检索电子文件)。
在S420上,对该电子文件进行了分析。分析可以包括但不限于使用光学字符识别(OCR)来确定电子文件中的字符。
在S430上,根据分析确定电子文件中的关键字段和值。关键字段可以包括但不限于商家的姓名和地址、日期、货币、出售的商品或服务、交易标识、发票号码等。一份电子文件可能包含不必要的细节,而这些细节不会被认为是关键值。例如,商家的商标可能是不需要的,因此,它不是一个关键值。在实施例中,可以预定义一个关键字段列表,并提取与这些关键字段匹配的数据块。然后,洁净处理以确保信息准确地显示。例如,如果OCR将产生一个“1211212005”的数据,则洁净处理将此数据转换为12/12/2005的数据。另一个例子是,如果名称表示为“Mo$den”,则将更改为“Mosden”。清洁处理可以是使用外部信息资源(例如字典、日历等)来执行。
在另一实施例中,检查提取的数据块是否完整。例如,如果识别到商家名称但缺少商家地址,则商家地址的关键字段是不完整的。执行尝试令缺失的关键字段值完整。这种尝试可以包括查询外部系统和数据库、与之前分析过的发票相关性或查询以上因素的组合。外部系统和数据库可以包括业务目录、通用产品代码(UPC)数据库、包裹派送及跟踪系统等。在实施例中,S430得到预定义关键字段及其各自的值的完整集合。
在S440处,生成结构化数据集。生成的数据集包括已识别的关键字段和值。
图5是根据另一实施例的基于电子文件进行报告的方法的流程图。在实施例中,该方法可由报告生成器(例如,报告生成器120)执行。在示例实施例中,该方法包括报告在一个或多个第一电子文件和一个或多个第二费用报告电子文件中指示的费用项目。
在S510处,基于包括与交易相关的信息的每个证明电子文件来创建数据集。每个证明电子文件可以包括但不限于非结构化数据、半结构化数据、具有未预料的或未公布的结构或两者都具备的结构化数据。在实施例中,S510还可以包括使用光学字符识别(OCR)来分析证明电子文件以确定证明电子文件中的数据、识别数据中的关键字段、识别数据中的值或其组合。参考图4进一步描述基于电子文件创建数据集。
在某些实施例中,每个证明电子文件可以与用户相关联,以便可以将更多的证明电子文件数据与用户所关联的费用报告数据进行比较。为此,每个证明电子文件可包括用户标识符。
在S520处,分析证明数据集。在实施例中,分析每个证明数据集可以包括但不限于确定交易参数,交易参数是例如但不限于至少一个实体标识(例如,消费企业标识、商家企业标识,或两者)、与交易有关的信息(例如,但不限于:日期、时间、价格、出售的商品或服务的类型等)或这两者。在另一个实施例中,分析证明数据集还可以包括基于该证明数据集识别所述交易。该分析还可包括识别每个证明电子文件的用户标识符。
在S530处,基于每个证明数据集创建一个或多个模板。每个模板可以是但不限于包括多个字段的数据结构。这些字段可以包括所识别的交易参数。字段可以是预定义的。每个模板可以包括交易参数,这些交易参数指示在证明电子文件中示出的不同的费用项目。
从电子文件创建模板,由于所创建的模板的结构化性质,使得处理速度更快。例如,相对于缺乏这种结构的数据集,在结构化数据集上执行查询和处理操作的执行效率会更高。此外,将来自电子文件的信息组织成结构化数据集,可以显著地减少用于保存电子文件中包含的信息所需的存储量。电子文件通常是图像,相比包含相同信息的数据集需要更多存储空间。例如,表示来自100000个图像电子文件的数据的数据集可以作为数据记录保存在文本文件中。这样的一个文本文件的大小将大大小于100000幅图像的大小。
在S540处,基于这些证明电子文件的模板检索一个或多个费用报告电子文件。在实施例中,S540包括基于在证明模板中的交易参数在一个或多个web源中进行搜索。可替换地或共同地,该搜索可以基于这些证明电子文件的用户标识符,从而使每个检索到的费用报告电子文件与同一用户相关联。
在实施例中,S540可进一步包括确定用于搜索的模板。具体地,当例如一个或多个模板指示先前使用过的费用项目时,则只能使用这些模板中的一部分。例如,如果员工以前报告了该费用项目,则该费用项目可能被排除在搜索之外,使得不会被报告两次。排除的模板可以通过例如将这些模板与先前创建的模板进行比较来确定,其中每个被比较的先前创建的模板包括将该模板的费用项目标记为先前已使用的元数据。
在S550处,将用于搜索的证明模板与检索到的费用报告电子文件的数据进行比较,以确定在费用报告电子文件中指示的各个的费用项目是否与这些费用报告电子文件相匹配,如果匹配,则继续执行S560;否则,执行终止。在实施例中,可以基于一个或多个交易参数的预定阈值进行比较。该比较可以进一步基于定义匹配参数的一个或多个匹配规则。在示例实施例中,该比较至少相对于费用金额和费用描述值来执行。
在实施例中,S550可进一步包括为每个在费用报告电子文件中指示的费用项目创建模板,并将费用项目模板字段中的交易参数与证明模板相应字段中的交易参数进行比较。这些模板可以,例如,如本文所述的那样创建。
当确定在费用报告电子文件中指示的费用项目与费用报告电子文件相匹配时,生成报告。该报告指示在用于搜索的模板中所指示的每一项费用项目,并包括在搜索过程中发现的证明电子文件。该报告还可以包括为所指示的费用项目创建的模板。
应当理解的是,本文使用“第一”、“第二”等名称来命名的元素一般情况下不限制这些元素的数量或顺序。相反,本文通常使用这些名称是作为区分两个或多个元素或一个元素的多个例子的简便方法。因此,对第一和第二元素的引用并不意味着只能使用两个元素,也不意味着第一元素必须以某种方式排在第二元素之前。另外,除非另有说明,一组元素包括一个或多个元素。
如本文所使用的短语“至少一个”后加上项目列表,意味着可以单独使用所列项目中的任何一个,或者可以使用两个或两个以上所列项目的任何组合。例如,如果一个系统被描述为包括“A、B和C中的至少一个”,系统可以包括单独一个A;单独一个B;单独一个C;A和B组合;B和C组合;A和C组合;或A、B和C组合。
本文公开的多个实施例能够以硬件、固件、软件或其中的任何组合来实现。此外,优选地将软件实现为具体呈现在程序存储单元或计算机可读介质上的应用程序,程序存储单元或计算机可读介质由部分或某些设备和/或设备组合组成的。应用程序可以上传到包括任何适当架构的机器上,并由该机器执行。优选地,该机器在计算机平台上实现,计算机平台具有诸如一个或多个中央处理单元(“CPU”)、记忆体和输入/输出接口等硬件。计算机平台还可以包括操作系统和微指令代码。本文中描述的各种处理和功能可以是微指令代码的一部分或应用程序的一部分或者是它们的任意组合,不管这种计算机或处理器是否有被清楚地示出,这些微指令代码或应用程序都可以由CPU执行。此外,多种其他外部单元可以连接到计算机平台,例如附加的数据存储单元和打印单元。此外,非临时计算机可读介质是除了临时传播信号之外的任何计算机可读介质。
在本文引用的所有示例和条件表达都是出于讲解的目的,以帮助读者理解所公开的实施例的原则和发明人所传递的概念,以进一步发展该技术,并且应被理解为不限于这些具体引用的示例和条件。此外,本文中所有关于公开实施例的原则、方面和体现的陈述以及其中具体的示例,旨在包含这些陈述中的结构等效物和功能等效物。此外,这类等效物包括目前已知的等效物以及未来开发的等效物,即无论结构如何,能执行相同功能的任意元素。
Claims (19)
1.一种基于第一电子文件和至少一个第二电子文件进行报告的方法,包括:
分析所述第一电子文件,以确定至少一个费用项目中每一个的至少一个交易参数,所述第一电子文件指出所述至少一个费用项目,其中所述第一电子文件包括至少部分非结构化的数据;
为所述第一电子文件创建至少一个模板,其中每个第一电子文件模板为包括确定的至少一个交易参数的结构化数据集;
基于所述至少一个第一电子文件模板取回所述至少一个第二电子文件;以及
当所述至少一个第二电子文件与所述至少一个费用项目匹配时生成报告,其中所述报告指示所述至少一个费用项目并且所述报告包括所述至少一个第二电子文件。
2.根据权利要求1所述的方法,其中确定至少一个交易参数还包括:
在所述第一电子文件中识别至少一个关键字段和至少一个值;
基于所述第一电子文件创建数据集,其中创建的数据集包括所述至少一个关键字段和所述至少一个值;以及
分析所述创建的数据集,其中基于所述分析确定至少一个交易参数。
3.根据权利要求2所述的方法,其中识别所述至少一个关键字段和至少一个值还包括:
分析所述第一电子文件以确定所述第一电子文件中的数据;
基于预定义的关键字段列表,提取确定的数据的至少一部分,其中所述确定的数据的至少一部分与所述预定义的关键字段列表中的至少一个关键字段相匹配。
4.根据权利要求3所述的方法,其中分析所述第一电子文件还包括:
对所述第一电子文件执行光学字符识别。
5.根据权利要求4所述的方法,还包括:
对提取的确定的数据的至少一部分执行洁净处理。
6.根据权利要求1所述的方法,还包括:
为所述至少一个第二电子文件中的每一个创建模板,其中每个第二电子文件模板为包括各自的第二电子文件的数据的结构化数据集;
将所述至少一个第一电子文件模板与所述至少一个第二电子文件模板进行比较,其中当所述至少一个第一模板与高于一预定阈值的至少一个第二模板匹配时,所述至少一个第二电子文件与所述至少一个费用项目匹配。
7.根据权利要求6所述的方法,其中将至少一个第一电子文件模板和至少一个第二电子文件模板进行比较进一步包括:
将第一电子文件模板的至少一部分与所述至少一个第二电子文件模板的相应部分进行比较。
8.根据权利要求1所述的方法,其中所述第一电子文件为费用报告电子文件,其中每个第二电子文件为显示出以下至少一项的图像:发票、收据和采购号码记录。
9.根据权利要求1所述的方法,其中所述至少一个交易参数包括费用金额和费用描述,其中,当所述费用金额等于所述至少一个第二电子文件中指示的总金额时,所述至少一个第二电子文件与所述第一电子文件匹配。
10.一种非暂时性计算机可读介质,具有存储在其上的指令,所述指令致使一处理电路执行基于第一电子文件和至少一个第二电子文件进行报告的处理,所述处理包括:
分析所述第一电子文件,以确定至少一个费用项目中每一个的至少一个交易参数,所述第一电子文件指示所述至少一个费用项目,其中所述第一电子文件包括至少部分非结构化的数据;
为所述第一电子文件创建至少一个模板,其中每个第一电子文件模板为包括确定的至少一个交易参数的结构化数据集;
基于所述至少一个第一电子文件模板取回所述至少一个第二电子文件;以及
当所述至少一个第二电子文件与所述至少一个费用项目匹配时生成报告,其中所述报告指示所述至少一个费用项目并包括所述至少一个第二电子文件。
11.一种基于第一电子文件和至少一个第二电子文件进行报告的系统,包括:
处理电路;和
记忆体,所述记忆体包含指令,当所述指令由所述处理电路执行时,所述系统被配置为:
分析所述第一电子文件,以确定至少一个费用项目中每一个的至少一个交易参数,所述第一电子文件指示所述至少一个费用项目,其中所述第一电子文件包括至少部分非结构化的数据;
为所述第一电子文件创建至少一个模板,其中每个第一电子文件模板为包括确定的至少一个交易参数的结构化数据集;
基于所述至少一个第一电子文件模板取回所述至少一个第二电子文件;以及
当所述至少一个第二电子文件与所述至少一个费用项目匹配时生成报告,其中所述报告指示所述至少一个费用项目并包括所述至少一个第二电子文件。
12.根据权利要求11所述的系统,其中所述系统进一步被配置为:
在所述第一电子文件中识别至少一个关键字段和至少一个值;
基于所述第一电子文件创建数据集,其中创建的数据集包括所述至少一个关键字段和所述至少一个值;以及
分析所述创建的数据集,其中基于所述分析确定所述至少一个交易参数。
13.根据权利要求12所述的系统,其中所述系统进一步被配置为:
分析所述第一电子文件以确定所述第一电子文件中的数据;
基于一预定义的关键字段列表,提取确定的数据的至少一部分,其中所述确定的数据的至少一部分与所述预定义的关键字段列表中的至少一个关键字段匹配。
14.根据权利要求13所述的系统,其中所述系统进一步被配置为:
对所述第一电子文件执行光学字符识别。
15.根据权利要求14所述的系统,其中所述系统进一步被配置为:
对提取的确定的数据的至少一部分执行洁净处理。
16.根据权利要求14所述的系统,其中所述系统进一步被配置为:
检查提取的确定的数据的至少一部分中的每个数据是否完整;
对于每个不完整的数据,执行至少以下各项其中之一:查询至少一个外部源,和将确定的数据与至少一个之前分析的电子文件的数据相关联。
17.根据权利要求11所述的系统,其中所述系统进一步被配置为:
基于所述第二电子文件创建第二模板,其中所述第二模板是结构化数据集,所述结构化数据集包括所述第二电子文件的数据;
比较所述第一模板和所述第二模板,其中基于所述比较确定请求是否被验证。
18.根据权利要求17所述的系统,其中所述系统进一步被配置为:
将所述第一模板的每一部分与所述第二模板的相应部分进行比较;
确定所述第一模板的每一部分是否与所述第二模板的相应部分相匹配。
19.根据权利要求11所述的系统,其中所述第一电子文件为显示增值税退税请求的图像,其中所述第二电子文件为显示出以下至少一项的图像:发票、收据和采购号码记录。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662371233P | 2016-08-05 | 2016-08-05 | |
US62/371,233 | 2016-08-05 | ||
US15/361,934 US20170154385A1 (en) | 2015-11-29 | 2016-11-28 | System and method for automatic validation |
US15/361,934 | 2016-11-28 | ||
PCT/US2017/045491 WO2018027130A1 (en) | 2016-08-05 | 2017-08-04 | System and method for reporting based on electronic documents |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109791540A true CN109791540A (zh) | 2019-05-21 |
Family
ID=61073883
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780060462.4A Pending CN109791540A (zh) | 2016-08-05 | 2017-08-04 | 基于电子文件进行报告的系统和方法 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3494496A4 (zh) |
CN (1) | CN109791540A (zh) |
WO (1) | WO2018027130A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109308657A (zh) * | 2018-08-02 | 2019-02-05 | 平安科技(深圳)有限公司 | 单证报销结算方法、装置、计算机设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100161616A1 (en) * | 2008-12-16 | 2010-06-24 | Carol Mitchell | Systems and methods for coupling structured content with unstructured content |
US8774516B2 (en) * | 2009-02-10 | 2014-07-08 | Kofax, Inc. | Systems, methods and computer program products for determining document validity |
US8438089B1 (en) * | 2012-02-10 | 2013-05-07 | Nice Systems Ltd. | Method and apparatus for transaction verification |
US20160203564A1 (en) * | 2015-01-13 | 2016-07-14 | Vatbox, Ltd. | System and method for consolidating expense records |
-
2017
- 2017-08-04 CN CN201780060462.4A patent/CN109791540A/zh active Pending
- 2017-08-04 EP EP17837759.4A patent/EP3494496A4/en not_active Ceased
- 2017-08-04 WO PCT/US2017/045491 patent/WO2018027130A1/en unknown
Also Published As
Publication number | Publication date |
---|---|
EP3494496A4 (en) | 2020-02-26 |
WO2018027130A1 (en) | 2018-02-08 |
EP3494496A1 (en) | 2019-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11062132B2 (en) | System and method for identification of missing data elements in electronic documents | |
US20170154385A1 (en) | System and method for automatic validation | |
US11138372B2 (en) | System and method for reporting based on electronic documents | |
US20170323006A1 (en) | System and method for providing analytics in real-time based on unstructured electronic documents | |
US20180011846A1 (en) | System and method for matching transaction electronic documents to evidencing electronic documents | |
EP3526760A1 (en) | Generating a modified evidencing electronic document including missing elements | |
CN109791537A (zh) | 将电子文档补充完整的系统和方法 | |
US20170169518A1 (en) | System and method for automatically tagging electronic documents | |
CN109219809A (zh) | 基于电子文档的自动生成报告数据的方法和系统 | |
CN109791540A (zh) | 基于电子文件进行报告的系统和方法 | |
US20180046663A1 (en) | System and method for completing electronic documents | |
CN109154949A (zh) | 基于未结构化电子文档而实时提供分析 | |
US10387561B2 (en) | System and method for obtaining reissues of electronic documents lacking required data | |
CN109791643A (zh) | 用于生成电子文档的合并数据的系统和方法 | |
US20170323395A1 (en) | System and method for creating historical records based on unstructured electronic documents | |
CN108713198A (zh) | 基于电子文件的自动验证请求 | |
CN110023970A (zh) | 用于验证非结构化的企业资源计划数据的系统和方法 | |
CN109313765A (zh) | 基于电子文件进行自动验证交易的系统与方法 | |
CN109791548A (zh) | 匹配交易电子文档和证明电子文档 | |
CN109791641A (zh) | 获取缺少必需数据的电子文件的重发的系统和方法 | |
CN109983489A (zh) | 基于非结构化的数据查找证明电子文件 | |
WO2017201013A1 (en) | System and method for creating historical records based on unstructured electronic documents | |
WO2017142624A1 (en) | System and method for automatically tagging electronic documents | |
WO2018034941A1 (en) | System and method for generating analytics based on electronic documents | |
WO2017201163A1 (en) | System and method for determining an entity status based on unstructured electronic documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190521 |