CN106489156A

CN106489156A - 用于从表征多个文档的图像中提取文档图像的系统和方法

Info

Publication number: CN106489156A
Application number: CN201680001946.7A
Authority: CN
Inventors: I·萨夫特; N·古兹曼
Original assignee: Vatbox Ltd
Current assignee: Vatbox Ltd
Priority date: 2015-02-04
Filing date: 2016-02-02
Publication date: 2017-03-08
Also published as: US10621676B2; WO2016126665A1; EP3149659A4; EP3149659A1; US20160225101A1; JP2018506087A

Abstract

提出了一种用于从表征多文档的图像中提取文档图像的系统和方法。所述方法包括接收包括多个文档图像的多文档图像，其中每个文档图像与文档相关联；从所述多文档图像中提取多个视觉标识符，其中每个视觉标识符与所述多个文档图像中的一个文档图像相关联；分析所述多个视觉标识符以识别每个文档图像；基于该分析来确定每个文档图像的图像区域；基于它的图像区域提取每个文档图像。

Description

用于从表征多个文档的图像中提取文档图像的系统和方法

相关申请的交叉引用

本申请要求2015年2月4日提交的美国临时申请No.62/111,690的权益，该临时申请的内容通过引用并入本文中。

技术领域

本公开总体上涉及分析包含图像的文档，并且更具体地涉及基于包含多文档的图像来生成多个文件。

背景技术

增值税(VAT)或销售税是对商品和服务的附加值进行评估的基础广泛的消费税。特定增值税应用于在给定国家或州内购买或出售的大多数商品和服务。当某人在国外旅行并进行需要支付VAT(或任何适用税)的购买时，该人可能有权获得由于购买而支付的VAT的后续退税。在特定情况下，同样可以退还应用于购买的其他税。进一步地，卖方可以为在某些地点且在特定情况下销售的产品的购买提供回扣。这种购买价格的退税可以按照退税实体制定的程序进行返还。

许多国家的法律和法规允许外国旅客获得某些税收的报销或退税的权利，例如在国外为商品和/或服务支付的VAT。由于这些法律和法规在不同国家有所不同，一个人有资格获得的实际VAT退税的确定通常要求退税的寻求者在国外税法方面拥有大量的知识。此外，旅客可能在无资格获得这样的退税时寻求VAT的退税，从而花费时间和精力在徒劳的努力上。进一步地，VAT退税的可用性可能会因所进行的购买类型和合格的VAT收据的存在而变化。

请求退税的一个程序是在机场身体上接近海关官员，填写表格，并分别记录在访问期间发生的费用的原始收据。该程序应该在检入或登机到下一个目的地之前执行。此外，特别是对于在国外购买的商品，请求退税的程序可能要求付款人向海关官员示出未使用的商品，以核实出口商品与付款人支付VAT的商品相匹配。

由于旅客不熟悉要求退税的特定法律和法规，因此即使旅客不符合资格，他们也可能会提交退税申请。如果旅客最终获知他或她没有资格获得退税，则该程序进一步不必要地浪费时间。因此，有利的是，通过提供一种有效的方式来电子地并且优选地通过因特网来处理VAT退税，以提供一种克服现有技术的缺陷的解决方案。

此外，由于要求退税且特别是VAT退税相关的麻烦，客户可能没有动机去寻求这种退税。特别是对于潜在的大额退税，正确管理的退税平台可能对于节省资金是至关重要的。例如，VAT退税平台对于需要其员工出于商业目的旅行的大型企业可能很重要。由于典型企业产生的大量发票，其中许多可能有资格获得VAT退税，企业可能在发票的收取和验证时容易出错。

此外，由典型企业产生的大量发票最终导致对应于发票的多个文件的创建。现有的解决方案通常要求每张发票包含在各自的文件中，并且因此需要每张发票的单独扫描或其他的捕获方式。这种手动单独扫描浪费时间和资源，并且最终使得过程具有更多的潜在的人为错误。

因此，提供一种克服现有技术的缺陷的解决方案将是有利的。

发明内容

本公开的几个示例实施例的概要如下。提供本概要是为了读者的方便，以提供对这些实施例的基本理解而不是完全地定义本发明的范围。本概要不是所有预期实施例的广泛综述，并且既不旨在标识所有实施例的关键或重要元素，也不旨在描绘任何或所有方面的范围。其唯一目的在于以简化的形式呈现一个或多个实施例的一些概念，作为稍后呈现的更详细描述的前奏。为了方便，在本文中术语“一些实施例”可用于指本公开的单一实施例或者多个实施例。

在本文公开的一些示例性实施例包括用于从表征多个文档的图像中提取文档图像的方法。所述方法包括接收包括多个文档图像的多文档图像，其中每个文档图像与文档相关联；从所述多文档图像中提取多个视觉标识符，其中每个视觉标识符与所述多个文档图像中的一个相关联；分析所述多个视觉标识符以识别每个文档图像；基于所述分析，确定每个文档图像的图像区域；基于其图像区域提取每个文档图像。

在本文公开的一些示例性实施例还包括用于从表征多个文档的图像中提取文档图像的系统。所述系统包括：处理系统；和存储器，所述存储器包含指令，当通过处理单元执行所述指令时，配置所述系统以：接收包括多个文档图像的多文档图像，其中每个文档图像与文档相关联；从所述多文档图像中提取多个视觉标识符，其中每个视觉标识符与所述多个文档图像中的一个相关联；分析所述多个视觉标识符以识别每个文档图像；基于所述分析，确定每个文档图像的图像区域；以及基于其图像区域提取每个文档图像。

附图说明

本文所公开的主题会在说明书结束后的权利要求书中特别指出并清楚地声明。结合附图进行以下详细描述，所公开实施例的前述以及其它目标、特征以及优势将变得显而易见。

图1是用于描述各种公开实施例的网络图；

图2是根据一实施例的用于从表征多张发票的图像中产生多个发票图像的方法流程图；

图3A至3C是根据不同实施例的从表征多张发票的图像中提取发票图像的方法流程图；

图4A至4E是用于描述不同公开实施例的表征发票的图像的示例性屏幕截图。

具体实施方式

重要的是要注意在本文公开的实施例仅是本文的创新教导的许多有利使用的示例。一般而言，本申请说明书中的陈述没有必要对各个要求保护的实施例中的任一个进行限制。此外，一些陈述可能适用于某些发明特征，但不适用其它特征。一般而言，除非另有指明，单数元件可以是以复数形式，反之亦然，这不会失去一般性。在附图中，多个视图中的相同标记指相同部分。

图1示出了用于描述不同公开实施例的示例性和非限制性网络图100。在一实施例中，网络图100包括通信连接到服务器120的网络110、用户设备150、企业设备160、多个web源170-1至170-n(以下分别称为web源170并且共同称为web源170，仅仅出于简化目的)、和数据库180。网络110可以是但不限于无线、蜂窝或有线网络，局域网(LAN)、广域网(WAN)、城域网(MAN)、因特网、万维网(WWW)，类似网络及其任何组合。

用户设备150和每个企业设备160可以是但不限于个人电脑(PC)、笔记本电脑、蜂窝电话、智能电话、平板设备、可穿戴计算设备、扫描仪等等。用户设备150可以包括或者通信连接到用来捕获图像的图像传感器155。操作企业设备160的企业可以是但不限制于酒店、商店、服务提供商等等。

在一实施例中，用户设备150捕获包含多张发票和/或其他文档的图像(例如，通过图像传感器155)。每张发票通常包括潜在可退税购买的付款证明。文档可以是以无组织的形式，即发票不需要以特定方式排列、定向或以其它特定方式组织，只要在每个文档的信息(例如，字、符号、数字、字符、形状、矩阵、标签、条形码等等)在多发票图像中可见。

用户设备150发送捕获的多发票图像到服务器120。服务器120配置为从多发票图像提取视觉标识符。视觉标识符可以包括但不限制于文档标识号(例如，发票号)、代码(例如，QR码、条形码等)、交易号、商家名称、商家地址、商家标识号、总价格、货币、支付方法(例如，现金、支票、信用卡、借记卡、数字货币等)、日期、产品类型、每个产品的价格等等。

为了此目的，服务器120可以包括或者可以通信连接到识别单元(RU)125。识别单元125配置为执行机器成像处理。识别单元125进一步配置为通过使用一种或多种计算机视觉技术，例如但不限于图像识别、模式识别、信号处理、字符识别和类似的，使得能够识别多发票图像中示出的视觉标识符。识别单元125可以包括但不限于光学字符识别单元、图像识别单元以及其组合。

服务器120配置为分析所提取的视觉标识符以识别在多发票图像中示出的发票图像。所述识别可以基于视觉标识符的阈值，该阈值为基于视觉标识符确定发票所需的。视觉标识符阈值可以表示识别多发票图像中的发票所需的最少视觉标识符。阈值可以包括但不限制于最小数量的视觉标识符、特定视觉标识符、视觉标识符的特定组合等等。例如，用于基于视觉标识符来识别图像中的发票的阈值要求可以包括总价格、商家标识符和产品类型。在该例子中，在多发票图像中的每张识别的发票将包括总价格、商家标识符和产品类型。

在一实施例中，服务器120可以配置为确定是否需要任何视觉标识符，并且如果需要，则检索所需的视觉标识符。所需的视觉标识符可以是预先定义的，使得被识别的每张发票将适合于进一步处理。例如，对于增值税(VAT)返还，购买的地点可以是所需的视觉标识符。因此，如果发票不包括表明交易地点的视觉标识符，则可以检索与发票相关联的地点。

可以从例如企业设备160和/或web源170检索所需的视觉标识符。web源170可以是但不限制于在其中储存关于返还信息的数据的数据库。这样的数据库可以包括，例如VAT信息交换系统(VIESs)、税务机关数据库、回扣分享系统等等。每个web源170可以由比如但不限于税务机构、VAT退税机构等类似的实体操作。

服务器120配置为基于分析来确定与每个识别的发票图像相关联的图像区域。每个图像区域包括其相应发票图像的视觉标识符，并且表明多发票图像内的发票图像的边界。该确定可以包括但不限制于识别发票的中心、识别每张发票图像的边界等等。在一实施例中，识别每张发票图像的边界可以基于多发票图像中的干净区域，即捕获的图像中没有文本出现的部分可以识别为发票图像的边界。每个图像区域可以是由其边界限定的特定形状，例如矩形(即，典型的发票包含矩形区域内的文本)。图像区域可以是通过它们各自的边界限定的相同或不同的形状。

服务器120配置为基于其各自确定的图像区域提取每个识别的发票图像。所述提取可以包括为每个发票图像创建文件。所述提取还可以包括但不限制于剪切、复制、裁剪每张识别的发票图像。通过剪切的提取可以包括从捕获的图像中移除每个发票图像，并且为每个移除的发票图像生成新文件，使得在提取之后，多发票图像不表征任何发票。通过复制的提取可以包括为每个发票图像生成包括发票图像的副本的新文件，使得在提取之后，多发票图像仍然包含所有复制的发票图像。通过裁剪的提取包括为每个识别的发票图像生成包含多发票图像副本的文件，并且基于其各自的发票图像收缩每个文件，使得每个文件仅包含各自的裁剪的发票图像。

服务器120可以配置为将每个提取的发票图像单独存储在例如数据库180中。储存在数据库180中的发票图像可以随后被访问以用于处理(例如，VAT返还处理)。在一实施例中，服务器120可以进一步配置为自动提交用于任何或所有提取的发票图像的VAT返还。VAT返还可以通过例如在转让给共同受让人的美国专利申请No.14/836,230中进一步描述的web源170中的一个提交给退税机构，该申请包含的所有内容通过引用并入本文。

服务器120通常包括耦合到存储器124的处理系统122。处理系统122可以包括或者是耦合到存储器124的处理器(未示出)或处理器阵列的组件。存储器124包含能够通过处理系统122执行的指令。指令在通过处理系统122执行时，致使处理系统122执行本文所述的各种功能。所述一个或多个处理器可以使用通用微处理器、多核处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、状态机、门控逻辑、离散硬件组件、专用硬件有限状态机或任何可执行信息的计算或其它操纵的其它合适实体的任意组合。

处理系统122还可以包括用于储存软件的机器可读介质。软件应被广泛地解释为指任何类型的指令，无论是指软件、固件、中间件、微代码、硬件描述语言还是其他。指令可以包括代码(例如，以源代码格式、二进制代码格式、可执行代码格式或任何其他合适的代码格式)。指令在通过一个或多个处理器执行时，致使处理系统执行本文所述的各种功能。

应当注意，上文关于图1所描述的实施例是关于单个用户设备150和单个企业设备160讨论的，这仅出于简化目的而不限制各个公开实施例。在不脱离本公开的范围的情况下，可以使用多个用户设备150和/或企业设备160。

图2是根据一实施例的用于基于多发票图像生成多个发票图像文件的方法的示例性和非限制性流程图200。在一实施例中，该方法可以通过服务器(例如，服务器120)执行。

在S210中，接收表征多张发票的图像。多发票图像中的发票可能是无组织的，使得它们不适于立即处理。

在图4A中可以看到示例性且非限制性的多发票图像，图4A示出示例性且非限制性的屏幕截图400A，屏幕截图400A示出包括多张发票的多发票图像410。所述发票是无组织的，使得一些发票倒置、旋转和定位在多发票图像410内的随机部分。每张发票包括与商品或服务的购买相关的信息。

在S220中，从多发票图像提取视觉标识符。每个视觉标识符表明与多发票图像中的发票相关的信息。视觉标识符可以包括但不限制于文档标识号(例如，发票号)、代码(例如，QR码、条形码等)、交易号、商家名称、商家地址、商家标识号、总价格、货币、支付方法(例如，现金、支票、信用卡、借记卡、数字货币等)、日期、产品类型、每个产品的价格等等。可以基于捕获多发票图像的实体类型来识别阈值视觉标识符要求(例如，多个视觉标识符或特定组的视觉标识符)。

在S230中，分析所提取的视觉标识符。该分析可以产生与多发票图像相关联的元数据的识别。这样的元数据可以包括但不限于多发票图像中的多个发票图像、表明可经由一个或多个存储单元(例如，企业设备160或web源170)获得的发票图像的指针数据、交易的购买者，等等。

在S240中，基于分析来确定多发票图像中表征的发票图像的图像区域。在一实施例中，所述确定可以包括识别在多发票图像中示出的每个发票的边界。发票的图像区域可以被定义为包含在发票边界内的区域。

示例性确定的图像区域可以在图4B中看到，图4B示出了示例性且非限制性屏幕截图400B，所述屏幕截图400B示出了包括多个发票的多发票图像410，其中每个发票的发票图像通过在边界420-1直到420-9内的图像区域确定(在下文中单独地称为边界420并且统称为边界420，仅出于简化的目的)。在示例性屏幕截图400B中，每个边界420是矩形的并且占据围绕每个发票的无文本边框。

在S250中，从其图像区域的各自多发票图像提取发票图像。提取可以包括为发票图像生成新文件，并且可以进一步包括在捕获的图像中剪切、裁剪和/或复制发票图像。用于从多发票图像提取发票图像的示例性方法在下文中对应于图3A至图3C进一步进行描述。

可以在图4C中看到通过剪切从多发票图像提取发票图像，图4C示出了示例性且非限制性的屏幕截图400C，屏幕截图400C示出了包括具有多张发票的多发票图像410，其中发票图像通过边界420限定。在示例性屏幕截图400C中，已经从捕获的图像中剪切通过边界420-7包围的发票图像425-7。如在图4E所示的，可以从捕获的图像进一步剪切额外的发票图像，直到在多发票图像中识别的所有发票图像已经被移除。

图4D示出示例性且非限制性屏幕截图400D，所述屏幕截图400D示出剪切的发票图像425-7。可以基于剪切生成仅包括剪切的发票图像425-7的新文件。

在可选的S260中，提取的发票图像可以作为文件储存在例如数据库(例如，数据库180)中。储存的发票图像可以随后进一步处理。例如，可以分析储存的发票图像的增值税(VAT)返还资格和/或发送给退税机构。

在S270中，确定是否要从多发票图像提取额外的发票图像，并且如果是，则继续执行S210；否则，终止执行。

在图4E中可以看到从多发票图像中提取额外的发票图像，图4E示出了示例性和非限制性屏幕截图400E，所述示例性和非限制性屏幕截图400E示出了包括具有多张发票的多发票图像410，其中发票图像通过边界420限定。在示例性屏幕截图400E中，除了由边界420-7包围的发票图像425-7之外，还从多发票图像剪切由边界420-9包围的发票图像425-9。因此，额外的剪切将去除由边界420-1至420-6和420-8包围的每个发票图像，直到多发票图像不包含发票图像。

图3A示出根据一实施例的用于通过剪切从多发票图像提取发票图像的方法的示例性且非限制性流程图S250A。

在S310A中，基于其图像区域识别在多发票图像中表征的发票图像。在S320A中，从多发票图像剪切识别的发票图像。从捕获的图像中移除剪切的图像，使得其不再在多发票图像中表征。在S330A中，生成包括剪切的发票图像的新文件。在S340A中，生成的文件可以储存在例如数据库中。

图3B示出根据一实施例的用于通过裁剪从多发票文件提取发票图像的方法的示例性且非限制性流程图S250B。

在S310B中，基于其图像区域识别在多发票图像中表征的发票图像。在S320B中，生成包括多发票图像的文件。在S330B中，新文件相应于识别的发票图像进行裁剪。所述裁剪可以包括缩小生成的文件的大小，使得裁剪的文件仅包括发票图像。在S340B中，裁剪的新文件可以储存在例如数据库中。

图3C示出根据一实施例的用于通过复制从多发票文件提取发票图像的方法的示例性且非限制性流程图S250C。

在S310C中，基于其图像区域识别在多发票图像中表征的发票图像。在S320C中，从多发票图像复制识别的发票图像。在S330C中，生成包括复制的发票图像的文件。在S340C中，生成的文件可以储存在例如数据库中。

应当注意，上文描述的实施例针对表征多发票的图像进行讨论，仅仅出于简化目的而不限制在所公开的实施例上。在不脱离本公开的范围的情况下，可以使用表征其他文档的图像。还应当注意，根据所公开的实施例，可以利用除了与VAT返还有关的视觉标识符之外的视觉标识符来识别在图像内捕获的文档。还应当注意，在不脱离本公开的范围的情况下，可以捕获分析的图像并发送(例如，发送到服务器120)以进行发票图像提取，或者可以从数据库中检索分析的图像。

本文公开的多个实施例，可以通过硬件、固件、软件、或者上述任意组合实现。此外，软件优选在程序存储单元或者计算机可读介质上作为有形实施的应用程序执行，所述计算机可读介质由部件或者某些设备和/或设备组合构成。该应用程序可以上传至包括任意合适架构的机器上，并由其执行。优选地，所述机器在具有比如一个或多个中央处理单元(“CPU”)、存储器和输入/输出接口的硬件的计算机平台上执行。计算机平台还包括操作系统和微指令代码。本文描述的多个过程和功能可能是微指令的一部分或者应用程序的一部分、或者是上述组合，不管这些计算机或者处理器是否明确示出，都能够通过CPU执行。此外，各种其它外围单元可以连接到计算机平台，例如附加数据存储单元和打印单元。进一步地，非暂时性计算机可读介质是除了暂时传播信号之外的任何计算机可读介质。

本文所述的所有示例和条件语言旨在用于教导目的，以帮助读者理解所公开的实施例的原理和发明人为促进本领域所贡献的概念，并且应当解释为不对此类具体引用的实例和条件做出限制。此外，本文叙述的公开的实施例的原理、方面和实施例以及其具体示例的所有陈述旨在包括其结构和功能等同物。另外，这样的等同物旨在包括当前已知的等同物以及将来开发的等同物，即，开发的执行相同功能的任何元件，而不管结构如何。

Claims

1.一种用于从表征多个文档的图像中提取文档图像的方法，包括：

接收包含多个文档图像的多文档图像，其中每个文档图像与文档相关联；

从所述多文档图像中提取多个视觉标识符，其中每个视觉标识符与所述多个文档图像中的一个文档图像相关联；

分析所述多个视觉标识符以识别每个文档图像；

基于该分析来确定每个文档图像的图像区域；

基于其图像区域提取每个文档图像。

2.根据权利要求1所述的方法，其中，分析所述多个视觉标识符进一步包括：

执行至少一个机器成像过程以识别与每个视觉标识符相关联的元数据。

3.根据权利要求1所述的方法，其中，确定每个图像区域进一步包括：

基于所述分析，为每个文档图像识别边界，所述边界包括所述文档图像的所有视觉标识符，其中所述文档的图像区域由所述边界限定。

4.根据权利要求3所述的方法，其中，基于所述多发票图像中没有出现文本的部分来识别每个边界。

5.根据权利要求1所述的方法，进一步包括：

生成多个文件，每个文件包括所提取的文档图像中的一个。

6.根据权利要求1所述的方法，其中，提取每个文档图像进一步包括以下操作中的至少一个：剪切所述文档图像、复制所述文档图像、以及裁剪所述文档图像。

7.根据权利要求1所述的方法，其中，基于视觉标识符阈值来识别每个文档图像，其中，所述视觉标识符阈值是以下中的任一种：多个视觉标识符、特定视觉标识符和视觉标识符的组合。

8.根据权利要求7所述的方法，进一步包括：

为每个文档图像确定是否有尚未提取的任何所需的视觉标识符；和

在确定有至少一个所需视觉标识符尚未提取时，检索所述至少一个所需视觉标识符。

9.根据权利要求8所述的方法，进一步包括：

基于所述视觉标识符为每个文档图像确定潜在增值税(VAT)退税的资格。

10.一种计算机可读介质，在其上储存用于使一个或多个处理单元执行根据权利要求1所述的方法的指令。

11.一种用于从表征多个文档的图像中提取文档图像的系统，包括：

处理系统；和

存储器，所述存储器包含指令，当通过所述处理单元执行所述指令时，将所述系统配置为：

分析所述多个视觉标识符以识别每个文档图像；

基于该分析来确定每个文档图像的图像区域；并

基于其图像区域提取每个文档图像。

12.根据权利要求11所述的系统，其中，所述系统进一步配置为：

13.根据权利要求11所述的系统，其中，所述系统进一步配置为：

14.根据权利要求13所述的系统，其中，基于所述多发票图像中没有出现文本的部分来识别每个边界。

15.根据权利要求11所述的系统，其中，所述系统进一步配置为：

生成多个文件，每个文件包括所提取的文档图像中的一个。

16.根据权利要求11所述的系统，其中，所述系统进一步配置为执行以下操作中的至少一个：剪切所述文档图像、复制所述文档图像、以及裁剪所述文档图像。

17.根据权利要求11所述的系统，其中，基于视觉标识符阈值来识别每个文档图像，其中，所述视觉标识符阈值是以下中的任一种：多个视觉标识符、特定视觉标识符和视觉标识符的组合。

18.根据权利要求17所述的系统，其中所述系统进一步配置为：

为每个文档图像确定是否有尚未提取的任何所需的视觉标识符；以及

19.根据权利要求18所述的系统，其中所述系统进一步配置为：