CN104321738B - 文档处理 - Google Patents

文档处理 Download PDF

Info

Publication number
CN104321738B
CN104321738B CN201380025135.7A CN201380025135A CN104321738B CN 104321738 B CN104321738 B CN 104321738B CN 201380025135 A CN201380025135 A CN 201380025135A CN 104321738 B CN104321738 B CN 104321738B
Authority
CN
China
Prior art keywords
data
mapping
document
address
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380025135.7A
Other languages
English (en)
Other versions
CN104321738A (zh
Inventor
R·J·格雷格
M·B·J·哈里森
D·萨瓦格
C·E·米切尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intuit Inc
Original Assignee
Intuit Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from AU2012901095A external-priority patent/AU2012901095A0/en
Application filed by Intuit Inc filed Critical Intuit Inc
Publication of CN104321738A publication Critical patent/CN104321738A/zh
Application granted granted Critical
Publication of CN104321738B publication Critical patent/CN104321738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/04Billing or invoicing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/07User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
    • H04L51/08Annexed information, e.g. attachments

Abstract

本公开涉及用于从文档中提取数据的系统和方法。计算机接收来自发送方的消息。所述消息具有电子文档和发送方的电子地址。该计算机基于所述发送方的地址,选择包括数据字段的位置数据的映射,并且通过使用选择的映射的位置数据从所述电子文档中提取数据,来确定所述数据字段的值。由于所述计算机基于所述发送方的地址来选择映射,所以计算机不需要依赖电子文档的内容来选择要使用的正确映射,这使得选择更不易出错,并且本方法可以与现有电子邮件系统一起使用。

Description

文档处理
技术领域
本公开涉及用于处理文档、也即从文档中提取数据的计算系统。本公开包括对方法、计算机系统和软件的描述。
背景技术
随着业务过程的计算机化,文档是以诸如来自扫描设备的图像文件的电子形式处理。几乎在所有的情况下,对于不同供应商,文档的格式是不同的,并且难以从文件中提取所需要的数据。
大多数公司,并且特别是从大量供应商那里购买商品或服务的公司,面临着处理大量不同发票的问题。
对已包括在本说明书中的文档、动作、材料、设备、物品等的任何讨论不应被理解为由于它在本申请的每项权利要求的优先权日之前存在,就承认任何或所有这些事项形成现有技术基础的一部分,或者是与本公开相关的领域中的公知常识。
贯穿本说明书,词语“包括”或者诸如“包含”或“含有”之类的变体将被理解为意味着包括所陈述的元件、整体或步骤,或者元件、整体或步骤的群组,但是不排除任何其它元件、整体或步骤,或者元件、整体或步骤的群组。
发明内容
在第一方面中,提供了一种用于从具有文档数据的电子文档中提取数据的计算机实现的方法,该方法包括:
(a)接收来自发送方的消息,所述消息具有所述电子文档和所述消息的发送方的电子地址;
(b)基于发送方的地址,选择包括数据字段的位置数据的多个映射其中一个映射;
(c)通过基于选择的映射的位置数据从所述电子文档中提取数据,确定选择的所述映射的数据字段的值;以及
(d)将所述数据字段的值存储在数据存储设备上。
优点在于,基于所述发送方的地址选择映射。结果,所述方法不需要依赖电子文档的内容来选择要使用的正确映射。同时,通过依赖发送方的电子地址,与在使用电子文档的内容时相比,选择映射更不易出错。同时,本方法可以与诸如电子邮件之类的发送文档的现有方法一起使用,这意味着本方法不要求任何额外的信息或定制,从而允许容易地与当前的文档通信系统集成。
电子文档可以包括发票元素的位置数据,并且其中该方法包括:
确定选择的映射的至少一个数据字段的位置数据和至少一个文档元素的位置数据是否标识相同位置;以及
如果选择的映射的至少一个数据字段的位置数据和至少一个文档元素的位置数据标识相同位置,则通过从至少一个文档元素中提取文档数据,来确定选择的映射的至少一个数据字段的值。
优点在于,通过确定位置数据是否标识相同位置,可以将多个映射用于特定文档。结果,并不适合于该文档的映射根本没有给出结果,并且可以使用下一映射。
电子地址可以是电子邮件地址。电子地址可以是传真号码。
电子文档可以是结构化文档。优点在于,结构化文档被标准化,并且针对这些文档的处理器是广泛可用的。结果,对文件中的位置数据的访问被简化。
电子文档可以是XML文档,并且文档元素可以是包括位置数据的XML元素。
映射可以是XML映射。
选择多个映射中一个映射可以包括基于所述发送方的地址,从所述多个映射中选择映射的子集。优点在于,选择映射子集。结果,所述方法可以在使用转发服务器并且发送方的地址并没有明确标识映射的情况下执行。以这种方式,选择与所述转发服务器的地址关联的所有映射。
所述方法可以包括:
接收针对第一接收方的消息;以及
接收来自其他接收方的多个映射,以使得第一接收方并非其他接收方之一。优点在于,选择从其他接收方那里接收的映射。结果,许多接收方的映射被共享,并且针对发布者的文档的映射需要由任一接收方创建仅一次。
消息可以具有接收方地址,并且选择所述多个映射其中一个映射是基于所述接收方地址。基于所述接收方的地址来选择映射是具有优势的。结果,针对相同发送方,不同接收方可以具有不同映射。这允许每个接收方从来自相同发送方的文档中提取不同的数据。
在第二方面中,提供了用于从具有文档数据的电子文档中提取数据的计算机系统,所述系统包括:
一个或多个通信端口;
一个或多个处理器,以操作用于
在通信端口处接收来自发送方的消息,所述消息具有电子文档和消息的发送方的电子地址,
基于所述发送方的地址,选择包括数据字段的位置数据的多个映射其中一个映射,以及
通过基于选择的映射的位置数据从所述电子文档中提取数据,来确定选择的映射的数据字段的值;以及
一个或多个数据存储设备,用于存储与所述文档关联的数据字段的值。
在第三方面中,提供了一种软件,也就是记录在计算机可读介质上的计算机可读指令,在由计算机执行时所述软件使得计算机执行刚在上面描述的方法。
在第四方面中,提供了用于创建用于从电子文档中提取数据的映射的计算机实现的方法,所述方法包括:
接收来自发送方的消息,所述消息具有电子文档和消息的发送方的电子地址;
使得所述电子文档被显示给用户;
从所述用户接收对一个或多个数据字段的选择;
确定与每个数据字段关联的位置数据;
将与一个或多个数据字段中的每个关联的位置数据连同到发送方的地址的关联一起存储为映射。
在第五方面中,用于创建用于从电子文档中提取数据的映射的计算机系统,所述系统包括:
一个或多个通信端口;
一个或多个处理器,以操作用于
接收来自发送方的消息,所述消息具有电子文档和所述消息的发送方的电子地址;
使得所述电子文档被显示给用户;
从所述用户接收对一个或多个数据字段的选择;
确定与每个数据字段关联的位置数据;以及
一个或多个数据存储设备,用于将与一个或多个数据字段中的每个关联的位置数据连同到发送方的地址的关联一起存储为映射。
在第六方面中,提供了一种软件,即记录在计算机可读介质上的计算机可读指令,所述软件在由计算机执行时使得计算机执行刚在上面描述的方法。
在适当的情况下,上面阐述的第一方面的可选特征也是其它方面的可选特征。
附图说明
现在将参照附图描述示例,其中:
图1图示了用于文档处理的系统。
图2更加详细地图示了发票和映射的呈现显示。
图3图示了文档的XML代码。
图4图示了映射的XML代码400。
图5图示了用于从文档中提取数据的方法。
图6图示了计算机网络。
图7图示了来自图6的处理服务器的另一示例。
图8图示了另一计算机网络。
图9至图16图示了用于创建映射的图形界面。
具体实施方式
图1图示了用于从文档(在该示例中为发票)中提取数据的系统100,其包括诸如开具发票的公司之类的开具方102和开具方服务器104。开具方服务器104经由诸如因特网之类的计算机网络连接到处理服务器110。处理服务器110连接到数据存储设备112,诸如通过局域网或因特网。处理服务器110还连接到应付账款服务器114。在其它示例中,处理服务器110连接到库存系统或ERP系统。在又一示例中,服务器之间的连接经由USB或者通过从一个服务器到另一个服务器寄送存储卡来实现。
虽然以下示例描述了从发票中提取数据的各种实施例,相同的叙述同样适用于诸如信用证、财务报表、采购订单、发货明细表、填写的表格或装箱单之类的具有文档数据的任何其它文档。
图1还图示了具有发票118的电子消息116。在一个示例中,消息116是电子邮件并且发票118是附于该电子邮件上的pdf格式的电子文档。在一个替代方案中,文档可以是结构化文本文件或图形,诸如发票的图像。在另一示例中,发票是在电子邮件的正文中的纯文本消息。发票是可以包含发票数据的任何文档,该发票数据可以被显示(也就是被呈现)、打印或者另外以可重复的方式显示,该可重复方式使得发票中的所有发票数据值均可以通过其在该显示中的几何位置来标识。
在一个示例中,几何位置或位置数据是取自所呈现的发票的左上角或右上角的像素坐标,或者距离预定基准位置的像素偏移。在不同示例中,几何位置或位置数据指的是诸如“左上”或“在顶部和到右边的四分之一宽度处”之类的描述性措辞。在不同示例中,几何位置或位置数据指的是作为从描述性措辞或发票数据值(这两者自身可以是几何位置或位置数据)的偏移的像素坐标。该位置必须是可重复的,也就是说,在用相同的方式显示时,相同的数据值必须在相同位置处是可标识的。
在又一示例中,消息116是传真,其包括作为传真被发送的作为图形的发票118。对于技术人员来说,将是显而易见的是,任何其它电子消息也可以具有发票,诸如从手机发送的包括文档的消息,并且发送方地址是发送方的手机号码。
消息具有与其关联的发送方地址120,诸如在消息内捕获或者作为与消息关联的元数据的电子邮件地址或传真号码。在该示例中,发送方地址120是开具方102的电子邮件地址。在其它示例中,发送方地址120不同于开具方102的地址,诸如像在下面进一步描述的转发服务器的地址。在它到达处理服务器110之前,发票可以发送通过许多电子邮件地址,并且发送方地址是该链中的最后的电子邮件地址。
在一个示例中,传入的传真由传真服务器数字化,传真服务器可以是第三方传真服务器、由传真的发送方提供的传真服务器或者由处理服务器的提供方提供的传真服务器。传入的传真被转换成附有一个或多个图像附件(其是发票或发票的页面)的电子邮件。发送方传真号码或者由传真服务器创建的另一类型的发送方地址(诸如唯一标识符之类)可以被包括在电子邮件的正文内或者在电子邮件的主题行中。
在进一步的应用中,该系统可以将这些图像的一个或多个呈现给系统的用户,以允许用户将图像彼此分割(形成多个发票)和/或允许用户将图像组合在一起(形成多页面发票)。
在另一示例中,如果该系统不能从图像中提取数据,则系统于是可以允许用户将从图像读取的发票数据手动输入至系统中。
在另一示例中,该系统可以允许用户将这些图像路由到将图像转换为结构化文档的另一数据提取系统(可以在该系统的外部),诸如光学字符识别(OCR)或智能字符识别(ICR)过程。然后,可以转换后的文档返回到该系统。
在另一示例中,系统另外可以允许用户将这些图像路由到处理工作流程,其采用人工操作者的使用来手动地将来自图像的数据输入系统。
在另一示例中,在处理服务器接收消息中的图像时,处理服务器采用OCR、ICR或一些其它方法自动将图像转换为结构化文档。
在一个示例中,处理服务器110与其它服务器一起定位在接收方的服务器基础架构中。在不同示例中,处理服务器110是与其它虚拟服务器一起正在接收方的处理器之一上执行的虚拟服务器,或者服务器是与接收方的其它服务在相同的操作系统上执行的软件。在又一不同示例中,处理服务器位于处理服务提供方所在位置,并且经由诸如因特网之类的计算机网络与应付账款服务器114连接。还可以使用替代类型的连接,诸如无线网络或者通过存储卡的数据传输。
在使用时,开具方102开具发票118,并使用在开具方服务器104上运行的标准会计软件将发票放置到开具方服务器104上。开具方服务器104将发票118嵌入到消息116中,并将消息发送到处理服务器110。
在不同示例中,开具方102登陆到处理服务器110,并且从处理服务器110的内部生成发票。处理服务器110将发票发送给可能有处理服务器110的账号的客户。服务器维护针对有能力登录到处理服务器并且用这种方式生成发票的每个开具方102的地址。以这种方式,从与该发票的开具方关联的地址发送要发送给客户的包括发票的消息。
在接收到消息116之后,处理服务器执行图3的方法,以用于从发票中提取数据。也就是说,处理服务器110读取发送方地址并且访问数据存储设备112以选择与该发送方地址关联的映射。在一个示例中,映射与发送方地址之间的关联由发票的接收方创建。处理服务器110将映射应用到发票118以提取发票数据并且将发票数据保存到数据存储设备112。在不同示例中,接收方将多个映射与发送方地址关联,并且处理服务器110对这些多个映射进行迭代,以找到适合特定发票的格式的一个映射。
在数据提取完成时,处理服务器112将提取的数据发送到应付账款服务器114,使得支付发票或由应付账款部门以其它方式处理。在一个示例中,提取的数据被转换成一个如由应付账款服务器114要求的指定XML结构,以使得数据以相同的格式被发送到应付账款服务器114,而不管所接收的发票的格式。应付账款服务器114可以是具有附接着应付账款服务器的ERP,或者它可以是独立的ERP,或者它可以是库存系统,或者另一类型的系统。备选地,一旦数据提取完成,数据和发票被标记以在供系统中核准。一旦由用户核准(并且可能提取的数据被编辑),用户选择什么时候将数据发送到应付账款服务器114。
图2更加详细地图示了发票118和映射250的呈现显示。发票118是发票的一个示例,并且要理解的是,使用了当前存在于发票中的范围广泛的不同格式和数据字段。现有技术的问题在于,由于范围广泛的不同发票格式,从发票中提取数据是不准确的。
在该示例中,发票118包括针对发票号码205、开票公司(也就是开具方102)的名称和商业号码206、如在项目的列表207中示出的项目、小计金额208、商品和服务税(GST)金额209和到期日210的数据字段值。
映射是数据字段的一组定义(诸如使用XML),所述数据字段包括针对每个数据字段的位置数据,诸如坐标。通过使用位置数据,映射可以被呈现以将映射显示给用户,诸如图2中的映射250的呈现显示。映射250包括三个部分:页头部分251、项目部分252和页尾部分253。来自相同开具方的每个发票可以具有不同数目的所列项目,并且因此具有不同长度的项目列表。因此,页头部分251具有固定的大小和固定的位置,项目部分252具有可变的大小和固定的位置,而页尾部分253具有固定的大小和可变的位置。
映射250包括许多诸如发票号码字段255之类的数据字段。发票号码字段255包括发票号码标签字段256和发票号码值字段257。标签是对于来自相同开具方的不同发票并不改变的文本标识符,并且被用于定位和验证值字段257中的值,值字段257定义发票中的感兴趣的数据并且在不同的发票中通常具有不同的值。
诸如公司名称字段258之类的一些数据字段不包括标签字段并且只有值字段。在该示例中,从发票118中提取公司名称206以用于验证目的,虽然公司名称对于来自相同公司的发票并不改变。
在该示例中,映射250的项目部分252在每个项目/每行中仅包括值字段,也就是针对每个项目/每行四个值字段。由于项目的数目在发票之间变化,在应用映射时,行的数目是动态改变的。在该示例中,假设项目的数目是在页头部分251与页尾部分253之间的行数。然而,在一些发票中的一些项目可能占据多行,而其它项目仅占据一行。并且在一些情景中,一些行可以不等同于实际的行项目,而是可以简单地是指令或者非关键的或不相关的文本。在那种情况下,需要将更复杂的规则集成到该方法中。
在一个示例中,规则包括诸如针对发票的列之类的特定准则,其对于被认为是行的行来说,这些特定准则是强制性的,诸如“价格”列中的数字。如果行中的信息与准则不匹配或者映射在那些坐标处没有找到信息,那么该行被忽略。类似地,如果从行上的列中提取的数据不被认为是预期格式的,那么该行可以被忽略。
在诸如发票118之类的结构化文本文档中,诸如发票号码205之类的每个文本元素在物理文件中被存储为与位置数据关联的文本框。映射250还将位置数据与诸如发票号码字段255之类的每个数据字段关联。在发票118上,数据发票号码字段255的位置数据基本上匹配与发票号码205关联的位置数据。
图3图示了示例发票的XML代码300,其包括发票号码区段310、表标题区段320、第一项目区段330和第二项目区段340。发票号码语句310包括发票号码标签元素312和发票号码值元素314。在该示例中,每个元素与位置数据(以距文档的左边界和顶边界的像素坐标的形式)关联。每个元素进一步包括以像素为单位的宽度和高度以及可选地诸如发票号码标签元素312的粗体之类的格式信息。要注意的是,元素不包括诸如id="invno"XML参数之类的标识符,并且结果,不能通过在XML树中搜索标识符来定位元素。
表标题区段320仅包括标签元素并且没有值元素。表标题区段320的每个标签元素与位置数据关联,该位置数据是表示该元素关联的列的左坐标。例如,单价标签元素321与位于距左侧533像素处的列关联。
与表标题区段320不同,第一项目区段330和第二项目区段340仅包括值元素,例如第一项目单价值元素331。该元素位于距左侧533像素处,并且因此与单价标签元素321关联。通过这种方式,项目区段330和340的每个值元素与表标题区段320的一个标签元素关联,并且这种关联由相应元素的坐标来表示。
在一个示例中,使用诸如“pdftohtml”之类的第三方工具创建XML代码300,并且处理服务器110并不改变XML。
图4图示了对填充有提取数据的映射的XML代码400的提取。代码400包括通用部分410、页头部分420、项目部分430和页尾部分440。在该示例中,已经将映射应用到发票。在将映射应用到发票之前,元素的“文本”的值是空的。也就是说,映射在数据存储设备上被存储为XML。在另一示例中,映射在数据库上被存储为包括字段信息的记录,该字段信息包含位置数据。
页头部分420包括发票号码数据字段421,其定义了发票号码标签字段的坐标422和423以及发票号码值字段的坐标424和425。在该示例中,映射400中的x坐标对应于发票300中的左坐标,并且映射400中的y坐标对应于发票300中的顶坐标。
项目部分430包括具有x坐标533的单价数据字段,并且因此该元素对应于具有与左坐标相同数字的发票300的单价值元素331。通过这种方式,映射在发票的XML文件中指定了标签和值元素的坐标,并且处理器可以使用该映射定位发票中的数据字段。
通常,不同开具方之间,发票布局是不同的。结果,该映射特定于一个特定的开具方(虽然开具方可以具有不止一个发送方地址),并且在接收到发票时,需要确定开具方,以便从潜在的大的现有映射集中选出适当的映射。另一方面,如果映射被应用到发票并且该映射并不适于该开具方,映射的结果将是映射错误。不适当的映射提取不正确的数据而非映射错误的可能性非常低。结果,可以针对一个发票尝试一组不同映射,并且该组映射中只有一个映射将不会生成映射错误。
图5图示了由处理服务器执行的用于从发票中提取数据的方法500。如参照图1描述,该方法500开始于直接或者间接从开具方接收502消息。该消息包括作为该电子文档的发票作为附件,以及包括诸如电子邮件地址之类的发送方的电子地址。在一个示例中,发票是结构化文档,诸如像PDF那样的结构化文档类型,例如,其然后由处理服务器110使用诸如“pdftohtml”之类的第三方工具转换为XML。文档还可以是不同格式的,诸如MicrosoftWord(.doc)格式,并且被首先转换成PDF且然后转换成XML或者直接从.doc转换成XML。
在不同示例中,文档是XML文档,该XML文档要么被包括在消息主体中作为纯文本,要么作为文本文件或作为压缩文本文件被附加到该消息。接收发票还包括生成新的发票标识符,使得通过使用发票标识符将从该发票中提取的数据能够与该发票关联。发票标识符是由数据库生成并且自动递增的号码,使得每个发票标识符恰好与一个发票关联。该方法500然后基于发送方的电子地址选择504与该发送方关联的映射或一组映射。
在一个示例中,映射数据存储设备上被存储在诸如SQL之类的数据库中。在数据存储设备中,一个或多个电子邮件地址与该映射关联。基于发送方的地址确定映射包括用地址作为查询参数来执行数据库查询,以使得与该地址关联的所有映射均被返回。本领域技术人员将会理解,储存与电子邮件地址关联的映射的其它方式也是可能的,诸如将每个映射和电子邮件地址存储在文本文件中,或者将映射存储在SQL数据库的一条记录中的文本字段中,同时将电子邮件地址存储在相同记录的不同字段中。
在另一示例中,映射与发送方地址以及接收方地址关联。在这种情况下,查询还包括接收方地址,以使得仅返回特定接收方已经被标识成与该特定发送方关联的那些映射。
在一个示例中,直接从开具方接收发票,并且存在与开具方的地址关联的一个单一的映射。在相同情景的不同示例中,多个映射与开具方地址关联,诸如一个映射针对信用证、一个映射针对服务发票以及一个映射针对行项目发票。在不同示例中,针对单个接收方,若干不同的开具方将发票发送给转发服务器上的接收方的单个邮箱。转发服务器将这些发票发送到处理服务器。结果,来自不同开具方的所有发票包括相同发送方地址,也就是转发服务器的地址。转发服务器上的邮箱的地址不一定唯一地与接收方关联,以使得两个不同的接收方可以使用相同的转发服务器。在这种情况下,接收方指定许多映射,每个开具方一个映射。然后该方法500基于包括在消息中的地址来选择映射的子集,该映射包括该接收方针对不同开具方的所有映射。
在一个示例中,消息包括多个附件,并且该方法使用505第一附件。然后,该方法继续选择506映射的子集中的第一映射。尝试的第一映射接收方已经将其标识为优选映射且每次来自该发送方时接收方都想尝试使用的映射。如果这些都失败了,则处理服务器110将尝试先前用于该发送方地址的但没有被标识为优选的其它映射。
该方法500确定507是否该映射是有效映射。如果映射不是有效映射,该方法检查532是否存在另一可用映射并且继续使用534下一映射。如果发现映射是有效的,该方法500继续使用508映射的第一数据字段。该方法500访问数据字段的位置数据并且在发票内搜索510元素,以使得映射的数据字段的位置数据(也就是坐标)和发票的元素的位置数据标识相同位置,即它们指向相同位置。在一个示例中,标识相同位置意指,坐标在数值上是相同的。在另一示例中,标识相同位置意指,坐标差异不超出预定阈值,诸如两个像素。
在另一示例中,该方法根据映射400中确定发票号码值字段的x坐标424与发票号码标签字段的x坐标422之间暗含的增量偏移,并且对于y坐标也同样如此,也就是说根据附图标记,该增量偏移是{(424-422),(425-423)}。
将映射400应用到发票300,并且如果在312中存在诸如421“发票号码”之类的标签,那么该方法查找与标签对应的值。
该方法取得它已经找到的匹配的标签的坐标,并且将根据映射确定的增量偏移加到其上。然后,该方法取得所得到的坐标,并且在XML代码300中搜索与该坐标重叠的值。
如果只有一个值与该坐标重叠,那该值将是被选择的值。然而,如果不止一个值与该坐标重叠,那么采用考虑中心点坐标的第二方法。这是更准确、但稍微略慢的过程。基于这两种方法的使用,值被提取。
如果找到512元素,该方法500提取514数据,也就是发票的值元素中的文本,并且将数据存储516在与发票关联的临时数据存储设备上,诸如通过将数据存储设备在SQL数据库中,并且每条数据记录包含数据和发票标识符。数据可以被存储为文本字符串或,转换为不同的类型,诸如整型。然后该方法500检查518是否在映射中存在尚未处理的另一数据字段。如果存在另一数据字段,该方法500使用519下一映射元素,并且使用下一数据字段的位置数据从步骤510重复该方法。如果检查518确定映射中不存在其它数据字段,则该方法500检索520已被存储在诸如计算机RAM或数据库之类的临时数据存储设备上的发票数据,执行521发票计算522(其可以加到提取的发票数据),并且假如那些发票计算返回强制性结果的完整集,以诸如XML之类的通用格式将发票数据存储524在数据存储设备上。
在一个示例中,将发票数据存储在数据存储设备上还包括将发票数据发送到应付账款服务器114。由于该方法500现在已经处理完当前的发票,该方法500检查526在接收到的消息中是否存在另一文档,诸如附件。如果存在另一附件,该方法500使用528下一附件,并且返回使用506第一映射。
一旦所有附件都被处理,该方法结束540,并且系统关注下一接收到的电子邮件以便进行处理502。
一旦数据被成功地提取并存储在数据存储设备上的数据库中,通过查询数据存储设备可以访问数据。在一个示例中,随后处理执行针对与特定发票标识符关联的所有数据的查询,诸如“SELECT*IN INVOICE_DATA WHERE INVOICE_ID=123456”。该随后处理接收该发票的数据,根据数据以标准格式创建XML消息,并且将XML消息发送给应付账款服务器或者一些其它外部系统。
如果该搜索在发票内没有找到512匹配元素,该方法检查529映射的元素是否是关键的。如果元素不是关键的,该方法继续检查518是否存在另一映射元素。如果当前映射元素是关键的,该方法发布530映射错误。这意指当前使用的映射不适合用于该发票。在一些示例中,在发票元素与映射的数据字段之间不存在一对一的关系。这是如下情况:相同发票元素在发票中包括不止一次。在这种情况下,该方法比较两种情况,并且如果两种情况的提取数据是相同的,该方法正常进行。如果两种情况的提取数据不同,该方法发出映射错误。在另一种情况下,相同数据字段已经不止一次地包括在映射中。在这种情况下,针对数据字段的所有实例简单地重复该方法。
该方法检查532在映射子集中是否存在可以尝试的另一映射。如果存在另一映射,该方法500使用534下一映射,并且使用下一映射的第一数据字段从步骤508重复该方法500。如果不存在其它映射,该方法将发票存储533在数据存储设备上作为未知发票,并且该方法结束540。结果,该方法500尝试映射子集中的与发送方的电子邮件地址关联的所有映射,直到一个映射产生正的映射结果,也就是没有映射错误。所存储的未知发票然后由操作者进行处理,如下面参照图9至图16所述。
图6图示了包括五个发票开具方611至615和处理服务器620的计算机网络600。本领域技术人员将理解,处理可以分布在许多服务器之上,它们各自可以是单独的物理机器,或者作为虚拟服务器托管在一个单一或多个物理机器上,或者由云计算服务提供商托管。处理服务器620托管与第一数据存储设备624关联的第一收件箱622,第一数据存储设备624存储由如参照图4描述的XML代码表示的第一组三个映射。处理服务器进一步包括第一处理器625,其执行安装在数据存储设备624上的软件以从数据存储设备624中选择一个或多个映射用于处理发票,如参照图5所描述。
类似地,处理服务器620托管第二收件箱626和第二处理器629,第二收件箱626与存储第二组三个映射的数据存储设备628关联,第二处理器629执行安装在数据存储设备628上的软件以用于从数据存储设备628中选择一个或多个映射。当然,处理服务器可以托管两个以上的收件箱,诸如1000个。
每个开具方与一个电子邮件地址关联,诸如账号@issuer_a.com,并且每个收件箱也与一个电子邮件地址关联,诸如issuer_a@invoiceserver.com。在该示例中,收件箱622和626两者具有相同的主机名称,也就是在‘@’符号之后的部分。数据存储设备624和628上的每个映射与开具方的一个电子邮件地址关联,以使得处理器625和629可以基于包括发票的电子邮件消息的地址选择适当的映射。
电子邮件地址与数据存储设备624和628上的映射之间的关联由接收方提供,其可以由管理员用户代表,管理员用户批准开具方作为供应商并且标识接收方希望与开具方的地址关联的映射。
在该示例中,前三个开具方611至613将发票发送到第一收件箱622,而后三个开具方613至615将发票发送到第二收件箱626。结果,开具方613将发票发送到收件箱622和626两者。处理器625和629基于开具方电子邮件地址选择适当的映射。
在该示例中,关联于第一收件箱622的第一接收方与关联于第二收件箱626的第二接收方要求来自开具方613的发票中的不同信息。结果,由第一处理器625选择的映射和由第二处理器629选择的映射是不同的。
在不同示例中,两个接收方要求相同的信息,并且映射的重复并非是最佳的。
图7图示了来自图6的处理服务器620的另一示例。代替针对每个收件箱的一个数据存储设备,处理服务器620仅包括存储所有接收方的所有映射的一个共同的数据存储设备710。在一个示例中,从开具方接收发票,针对该开具方相应的接收方尚未创建映射但是不同的接收方已经创建针对该开具方的映射。通过在不同接收方之间共享映射,映射由一个接收方创建一次并且然后与其它接收方共享。
在另一示例中,由所有接收方要求的映射的共同部分在接收方之间共享,诸如针对发票号码和小计金额的映射。在这种情况下,每个接收方具有针对每个部分共享的映射的附加部分,其定义了由该接收方单独要求的专用字段。映射还可以被自动创建,诸如基于概率,并且接收方确认已经创建的映射是正确的。
在又一示例中,处理器625首先使用来自针对第一接收方的数据存储设备624的映射,并且如果使用数据存储设备624上的映射导致错误或者处理器625并未在数据存储设备624上找到映射,则处理器625在第二接收方的数据存储设备628中搜索映射。
图8图示了不同于图6的示例的另一计算机网络800,其中计算机网络800包括两个转发服务器810和820,每个收件箱622和626一个。每个转发服务器具有不同的电子邮件地址。由于收件箱622和626现在从相同发送方地址接收所有发票,处理器625和629不能根据包括发票的消息的发送方地址来确定一个单一映射。因此,数据存储设备824和828将对多个映射的子集的引用存储在共同数据存储设备710上,也就是说,数据存储设备824和828存储对关联接收方预期到来自其发票的所有开具方的映射的引用。所有开具方的这些映射形成所有可用映射的子集,并且结果,处理器625和629各自基于发送方地址(在这种情况下也就是转发服务器的地址)选择映射的不同子集。
在不同示例中,来自发送方的消息具有接收方地址,并且基于接收方地址来选择映射或映射子集。通过这种方式,发送到一个接收方的所有消息通过针对该接收方的映射或映射子集来映射。如参照图5所描述,处理器625和629尝试将所选择的映射子集中的每个映射到接收到的发票。只有正确的映射(也就是与该发票的开具方关联的映射)才不会导致映射错误,而是产生提取的数据。类似地,可以基于接收方地址和发送方地址两者来选择映射子集。
当发票(或其它文档)从发送方到达进入处理服务器110,并且没有映射被分配给在图5的数据提取方法尚未成功的该发送方时,处理服务器110的用户可以选择找到已由处理服务器110的另一用户创建的现有映射,或者他们可以选择从头开始创建新的映射。
图9图示了图形用户界面900以启动用于创建映射的过程。它显示了原始PDF发票的图像的JPEG。如果用户选择“创建映射”902,文档的PDF版本转换为XML,并且然后在屏幕上呈现为HTML。HTML被分组成单元格(在左手侧904),并且它们以紧密或完全匹配原始发票布局的视觉风格被呈现。
图10图示了第二图形界面1000。在第二图形界面1000的右手侧1002,到顶部,用户首先从映射助理模板的选择中选择一个,映射助理模板定义了特定的文档类型,诸如发票—行项目和发票—服务,仅作为几个示例。
然后在右手侧下方呈现给用户一系列字段,其中一些字段要求被赋予来自左手侧的关于值的单元格的信息,并且其中一些字段要求来自左手侧的关于标签的单元格的信息。这些单元格中的一些单元格要求信息与它们关联——它们是强制性的并且如此被标识给用户。
用户然后标识他们接着想用标签或者值信息填充哪个单元格。系统“监听”在左手侧要被选择的单元格。一旦单元格被点击,整个单元格被标识和突出显示,诸如通过绘制围绕单元格的框,如在图11中所示。通过在该单元格中进一步点击,然后单元格的一些或所有内容被突出显示,并且OK按钮被激活,如在图12中所示。
一旦用户已经标识了他们希望与字段关联的单元格内的整个文本字符串,然后他们点击OK,并且字符串值被分配给右手侧的单元格。
标识可以接受信息的下一单元格(如由附图标记1104所指示的),但是用户可以选择向前或向后跳过字段到左手侧,从而以他们认为合适的任何顺序填充他们认为合适的任何单元格。
一旦用户已经将单元格信息分配给他们选择的字段,他们选择完成、复位或取消过程,如在图13中所示。
如果他们选择完成过程,那么系统从客户的浏览器取得信息,并且对已经被映射的运行检查,以便确保系统已经能够从发票中提取最小强制量的数据。系统已经能够提取的信息连同原始发票的再次呈现显示再次被呈现在右手侧下方,以允许用户一个一个地检查。
在该阶段,用户可以决定是否接受可能的映射结果,或者他们可以选择取消并返回到先前的映射屏,以调整或添加可能的映射,如在图14中所示。
如在图15中所示,如果他们选择接受这些结果,他们首先需要将供应商名称分配给该映射结果集。该供应商名称是为了他们自己内部使用。他们通过如下措施来执行这一操作:将该可能的映射分配给现有供应商(通过从图15中的下拉列表1502中选择一个),或者他们可以选择添加新的开具方,如图16中多示,通过选择图15中的+按钮1504。
只有在他们已经为可能的映射选择现有的开具方或所分配的开具方之后,他们最后才能够选择OK,这将在系统中创建映射并且然后从映射的发票中提取数据。
该映射通过已经在创建映射过程中从发票中提取的标识符,或者通过已经在上面的最后两个步骤中手动添加的标识符,现在是可搜索的。
映射然后被存储在数据库中,并且在数据中与曾用于将它们的发票发送到系统中的电子邮件地址关联。所以今后在该特定用户接收到来自该特定发送方电子邮件地址的发票时,该映射将是用于尝试从发票中提取数据的映射之一。在一些实施例中,该映射可以与针对不同开具方的不同电子邮件地址关联。
用于创建映射的所讨论的发票在用户的系统中移动以便它们的批准过程。
应当理解的是,本公开的技术可以使用各种技术来实现。例如,本文中描述的方法可以通过驻留在合适的计算机可读介质上的一系列计算机可执行指令来实现。合适的计算机存储是可读介质,其可以包括易失性(例如RAM)和/或非易失性(例如ROM、磁盘)存储器、载波和传输介质。示例载波可以采取电、电磁或光信号的形式,其沿着局域网或广域网或者诸如因特网之类的可公开访问的网络输送数字数据流。
还应当理解的是,除非特别指出,否则如根据以下讨论显而易见的,要理解贯穿说明书利用诸如“接收”、“发送”、“处理”或“计算”或“运算”、“优化”或“估计”或“确定”或“显示”等之类的术语的讨论,是指计算机系统或类似电子计算设备的动作和过程,该计算机系统或类似电子计算设备将计算机系统的寄存器和存储器内的表示为物理(电子)量的数据进行处理,并且将其变换成计算机系统存储器或寄存器或其它此类信息存储、传输或显示设备内的类似地表示为物理量的其它数据。
本领域技术人员将会理解的是,可以对上述实施例做出大量变化和/或修改,而不脱离本公开的广泛范围。因此,本实施例应在各方面被看作是说明性的而非限制性的。

Claims (22)

1.一种用于从具有文档数据的电子文档中提取数据的计算机实现的方法,所述方法包括:
(a)接收来自发送方的消息,所述消息具有所述电子文档和所述消息的所述发送方的电子地址;
(b)基于所述发送方的所述地址,从包括数据字段的位置数据的多个映射中选择映射子集;
(c)从所述子集中选择映射,其中所述映射包括电子文档中至少一个数据字段的位置数据;
(d)通过基于选择的所述映射的所述位置数据从所述电子文档中提取数据,来确定选择的所述映射的所述数据字段的值;以及
(e)将所述数据字段的所述值存储在数据存储设备上。
2.根据权利要求1所述的计算机实现的方法,其中所述电子文档包括发票元素的位置数据并且其中所述方法包括:
确定选择的所述映射的至少一个数据字段的所述位置数据和至少一个文档元素的所述位置数据是否标识相同位置;以及
如果选择的所述映射的至少一个数据字段的所述位置数据和至少一个文档元素的所述位置数据标识所述相同位置,则通过从所述至少一个文档元素中提取文档数据,来确定选择的所述映射的所述至少一个数据字段的所述值。
3.根据权利要求1或2所述的计算机实现的方法,其中所述电子地址是电子邮件地址。
4.根据权利要求1所述的计算机实现的方法,其中所述电子地址是传真号码。
5.根据权利要求1所述的计算机实现的方法,其中所述电子文档是结构化文档。
6.根据权利要求2所述的计算机实现的方法,其中所述电子文档是XML文档并且所述文档元素是包括所述位置数据的XML元素。
7.根据权利要求1所述的计算机实现的方法,其中所述映射是XML映射。
8.根据权利要求1所述的计算机实现的方法,其中所述方法包括:
接收针对第一接收方的所述消息;以及
接收来自其它接收方的所述多个映射,所述第一接收方并非所述其它接收方其中之一。
9.根据权利要求1所述的计算机实现的方法,其中所述消息具有接收方地址,并且选择多个映射其中一个映射基于所述接收方地址。
10.一种用于从具有文档数据的电子文档中提取数据的计算机系统,所述系统包括:
一个或多个通信端口;
一个或多个处理器,以操作用于
在所述通信端口处接收来自发送方的消息,所述消息具有所述电子文档和所述消息的所述发送方的电子地址,
基于所述发送方的所述地址,从包括数据字段的位置数据的多个映射中选择映射子集,
从所述子集中选择映射,其中所述映射包括电子文档中至少一个数据字段的位置数据,以及通过基于选择的所述映射的所述位置数据从所述电子文档中提取数据,来确定选择的所述映射的所述数据字段的值;以及
一个或多个数据存储设备,用于存储与所述文档关联的所述数据字段的所述值。
11.一种用于从具有文档数据的电子文档中提取数据的设备,所述设备包括:
用于接收来自发送方的消息的装置,所述消息具有所述电子文档和所述消息的所述发送方的电子地址;
用于基于所述发送方的所述地址,从包括数据字段的位置数据的多个映射中选择映射子集的装置;
用于从所述子集中选择映射的装置,其中所述映射包括电子文档中至少一个数据字段的位置数据;
用于通过基于选择的所述映射的所述位置数据从所述电子文档中提取数据,来确定选择的所述映射的所述数据字段的值的装置;以及
用于将所述数据字段的所述值存储在数据存储设备上的装置。
12.一种用于创建用于从电子文档中提取数据的映射的计算机实现的方法,所述方法包括:
接收来自发送方的消息,所述消息具有所述电子文档和所述消息的所述发送方的电子地址;
使得所述电子文档被显示给用户;
从所述用户接收对一个或多个数据字段的选择;
确定与每个数据字段关联的位置数据;
确定值字段和对应标签字段之间的偏移;和
将与所述一个或多个数据字段中的每个数据字段关联的所述位置数据连同到所述发送方的所述地址的关联一起存储为所述映射。
13.一种用于创建用于从电子文档中提取数据的映射的计算机系统,所述系统包括:
一个或多个通信端口;
一个或多个处理器,以操作用于
接收来自发送方的消息,所述消息具有所述电子文档和所述消息的所述发送方的电子地址;
使得所述电子文档被显示给用户;
从所述用户接收对一个或多个数据字段的选择;
确定与每个数据字段关联的位置数据;以及
确定值字段和对应标签字段之间的偏移;和
一个或多个数据存储设备,用于将与所述一个或多个数据字段中的每个数据字段关联的所述位置数据连同到所述发送方的所述地址的关联一起存储为所述映射。
14.一种用于创建用于从电子文档中提取数据的映射的设备,所述设备包括:
用于接收来自发送方的消息的装置,所述消息具有所述电子文档和所述消息的所述发送方的电子地址;
用于使得所述电子文档被显示给用户的装置;
用于从所述用户接收对一个或多个数据字段的选择的装置;
用于确定与每个数据字段关联的位置数据的装置;
用于确定值字段和对应标签字段之间的偏移的装置;和
用于将与所述一个或多个数据字段中的每个数据字段关联的所述位置数据连同到所述发送方的所述地址的关联一起存储为所述映射的装置。
15.根据权利要求11所述的设备,其中所述电子文档包括发票元素的位置数据并且其中所述设备包括:
用于确定选择的所述映射的至少一个数据字段的所述位置数据和至少一个文档元素的所述位置数据是否标识相同位置的装置;以及
用于如果选择的所述映射的至少一个数据字段的所述位置数据和至少一个文档元素的所述位置数据标识所述相同位置,则通过从所述至少一个文档元素中提取文档数据,来确定选择的所述映射的所述至少一个数据字段的所述值的装置。
16.根据权利要求11或15所述的设备,其中所述电子地址是电子邮件地址。
17.根据权利要求11所述的设备,其中所述电子地址是传真号码。
18.根据权利要求11所述的设备,其中所述电子文档是结构化文档。
19.根据权利要求15所述的设备,其中所述电子文档是XML文档并且所述文档元素是包括所述位置数据的XML元素。
20.根据权利要求11所述的设备,其中所述映射是XML映射。
21.根据权利要求11所述的设备,其中所述设备还包括:
用于接收针对第一接收方的所述消息的装置;以及
用于接收来自其它接收方的所述多个映射的装置,使得所述第一接收方并非所述其它接收方其中之一。
22.根据权利要求11所述的设备,其中所述消息具有接收方地址,并且选择多个映射其中一个映射是基于所述接收方地址。
CN201380025135.7A 2012-03-19 2013-03-19 文档处理 Active CN104321738B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
AU2012901095 2012-03-19
AU2012901095A AU2012901095A0 (en) 2012-03-19 Document Processing
PCT/AU2013/000274 WO2013138851A1 (en) 2012-03-19 2013-03-19 Document processing

Publications (2)

Publication Number Publication Date
CN104321738A CN104321738A (zh) 2015-01-28
CN104321738B true CN104321738B (zh) 2018-06-26

Family

ID=49221696

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380025135.7A Active CN104321738B (zh) 2012-03-19 2013-03-19 文档处理

Country Status (5)

Country Link
US (1) US10528626B2 (zh)
CN (1) CN104321738B (zh)
DE (1) DE112013001225T5 (zh)
GB (1) GB2514963A (zh)
WO (1) WO2013138851A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220414656A1 (en) * 2020-08-10 2022-12-29 The Toronto-Dominion Bank Real-time determination of counterparty geolocation based on structured messaging data

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10740372B2 (en) * 2015-04-02 2020-08-11 Canon Information And Imaging Solutions, Inc. System and method for extracting data from a non-structured document
WO2017067579A1 (en) * 2015-10-20 2017-04-27 Rwe Ag Method and apparatus for creating a supplier data set containing information about a service supplier
WO2019003575A1 (en) * 2017-06-29 2019-01-03 Canon Kabushiki Kaisha FIXING APPARATUS
US20190086453A1 (en) 2017-09-19 2019-03-21 innogy New Ventures LLC Method, System and Computer Program Product for Transmitting Consumption Information to a User
US10878195B2 (en) * 2018-05-03 2020-12-29 Microsoft Technology Licensing, Llc Automated extraction of unstructured tables and semantic information from arbitrary documents
US11416674B2 (en) * 2018-07-20 2022-08-16 Ricoh Company, Ltd. Information processing apparatus, method of processing information and storage medium
US11138426B2 (en) * 2018-08-24 2021-10-05 Sap Se Template matching, rules building and token extraction
EP3662767A1 (en) 2018-12-07 2020-06-10 SWM Luxembourg S.à.R.L. Paper sheet and method of making it
WO2021009751A1 (en) * 2019-07-14 2021-01-21 Ai Dock Ltd Method and system for processing electronic documents
JP7434001B2 (ja) * 2020-03-13 2024-02-20 キヤノン株式会社 情報処理装置、プログラム、情報処理方法
US11501549B2 (en) * 2020-05-13 2022-11-15 Accenture Global Solutions Limited Document processing using hybrid rule-based artificial intelligence (AI) mechanisms
CN112989779B (zh) * 2021-05-20 2021-08-10 北京世纪好未来教育科技有限公司 一种表格生成方法、电子设备及其存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法
EP1594072A2 (en) * 2004-05-06 2005-11-09 Siemens Corporate Research, Inc. A system and method for GUI supported specifications for automating form field extraction with database mapping

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5416849A (en) * 1992-10-21 1995-05-16 International Business Machines Corporation Data processing system and method for field extraction of scanned images of document forms
US6816274B1 (en) * 1999-05-25 2004-11-09 Silverbrook Research Pty Ltd Method and system for composition and delivery of electronic mail
US6651217B1 (en) * 1999-09-01 2003-11-18 Microsoft Corporation System and method for populating forms with previously used data values
US7200551B1 (en) * 2000-02-28 2007-04-03 Telpay, Inc. Automated bill payment system
US7620889B2 (en) * 2004-12-20 2009-11-17 Microsoft Corporation Method and system for linking data ranges of a computer-generated document with associated extensible markup language elements
US20070174306A1 (en) * 2006-01-11 2007-07-26 Battelle Memorial Institute Data extraction and conversion methods and apparatuses
US8195748B2 (en) * 2007-01-09 2012-06-05 International Business Machines Corporation Geographical email presentation
US8271590B2 (en) * 2007-10-19 2012-09-18 International Business Machines Corporation Processing electronic messages according to sender classification
US8825592B2 (en) * 2008-03-12 2014-09-02 Web Access, Inc. Systems and methods for extracting data from a document in an electronic format
US8345981B2 (en) * 2009-02-10 2013-01-01 Kofax, Inc. Systems, methods, and computer program products for determining document validity
ITTV20100122A1 (it) * 2010-09-03 2012-03-04 B & B Holding S R L Metodo e sistema per convertire documenti digitali
US8792141B2 (en) * 2011-06-09 2014-07-29 Xerox Corporation Embedded form extraction definition to enable automatic workflow configuration
US8635156B2 (en) * 2011-09-06 2014-01-21 Rawllin International Inc. Converting paper invoice to electronic form for processing of electronic payment thereof
US9008443B2 (en) * 2012-06-22 2015-04-14 Xerox Corporation System and method for identifying regular geometric structures in document pages

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1594072A2 (en) * 2004-05-06 2005-11-09 Siemens Corporate Research, Inc. A system and method for GUI supported specifications for automating form field extraction with database mapping
CN1687926A (zh) * 2005-04-18 2005-10-26 福州大学 一种基于xml的pdf文档信息抽取系统的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220414656A1 (en) * 2020-08-10 2022-12-29 The Toronto-Dominion Bank Real-time determination of counterparty geolocation based on structured messaging data

Also Published As

Publication number Publication date
WO2013138851A1 (en) 2013-09-26
US20150039707A1 (en) 2015-02-05
US10528626B2 (en) 2020-01-07
CN104321738A (zh) 2015-01-28
GB201416583D0 (en) 2014-11-05
DE112013001225T5 (de) 2015-04-02
GB2514963A (en) 2014-12-10

Similar Documents

Publication Publication Date Title
CN104321738B (zh) 文档处理
US9563915B2 (en) Extracting purchase-related information from digital documents
US7798417B2 (en) Method for data interchange
US11636553B2 (en) Electronic receipt-linking database system
US9268763B1 (en) Automatic interpretive processing of electronic transaction documents
US9213893B2 (en) Extracting data from semi-structured electronic documents
US20150287005A1 (en) Bar coded monetary transaction system and method
US20170308517A1 (en) Automatic generation of templates for parsing electronic documents
US20120037700A1 (en) Electronic device and method for image files with embedded inventory data
KR20090084968A (ko) 모바일 장치 시스템을 이용한 디지탈 이미지 아카이빙 및 검색
CN101582083A (zh) 基于万维网的图像内容的检测、提取以及识别
US20110052075A1 (en) Remote receipt analysis
CN110999264B (zh) 用于将消息内容集成到目标数据处理设备中的系统和方法
CN107784533A (zh) 一种生成二维码的方法、基于二维码的开票方法
WO2013043739A1 (en) Systems, methods and articles to automatically transform documents transmitted between senders and recipients
JP2017134768A (ja) 紙文書管理システム
US20120158583A1 (en) Automated bank transfers using identifier tokens
US10114906B1 (en) Modeling and extracting elements in semi-structured documents
EP2884448A1 (en) Information processing apparatus, information processing method and recording medium storing information processing program
JP5113238B2 (ja) Faxocr装置およびfaxocrプログラム
US20130300562A1 (en) Generating delivery notification
US20060218186A1 (en) Automated data processing using optical character recognition
Rajalakshmi et al. Smart Ration System using Application Development with MONGO Database
TW202223828A (zh) 處理貨品提單的資訊系統與其方法及伺服處理方法
AU2013101569A4 (en) Document Processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant