CN114925088A

CN114925088A - 发票电子文件的处理方法

Info

Publication number: CN114925088A
Application number: CN202210105267.1A
Authority: CN
Inventors: 陈杰; 杨正道; 顾军
Original assignee: Baiwang Co ltd
Current assignee: Baiwang Co ltd
Priority date: 2022-01-27
Filing date: 2022-01-27
Publication date: 2022-08-19

Abstract

本申请公开了一种发票电子文件的处理方法，包括：将发票电子文件转为图像数据；对所述图像数据进行二维码解析和OCR识别，形成结构化的数据模型；基于规则引擎，针对所述结构化的数据模型进行数据的自动分析与关联。本申请实施例提供的发票电子文件的处理方法，在高效准确的二维码解析、OCR图片处理的基础上，集成了搜索引擎、规则引擎技术，形成结构化数据模型，然后进行一步进行分析与数据对接，进而解决了发票信息通过人工录入与分析，效率不高、出错率高，难以进行复杂的检索查询、业务单据的关联自动化水平低的问题。

Description

发票电子文件的处理方法

技术领域

本申请涉及发票技术领域，具体涉及一种发票电子文件的处理方法。

背景技术

现有技术中，发票信息是通过人工方式进行录入与分析的，效率不高、出错率高，难以进行复杂的检索查询、业务单据的关联自动化水平低的问题。平台单一，当前技术一般分为两类：一类是通过扫描仪，直接通过专有驱动解析发票，完成单一的发票采集流程；或者通过微信公共号，只扫描二维码，得到发票部分信息。需要手工关联单据与发票，当前的发票系统，需要用户自己分别查询单据、查询发票，然后进行复杂的手工计算与匹配。查询速度慢，当前技术一般采用单机C/S部署的模式，在响应时间、数据库检索方面达不到很好的效果。

发明内容

本申请的目的是提供一种发票电子文件的处理方法。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本申请实施例的一个方面，提供一种发票电子文件的处理方法，其特征在于，包括：

将发票电子文件转为图像数据；

对所述图像数据进行二维码解析和OCR识别，形成结构化的数据模型；

基于规则引擎，针对所述结构化的数据模型进行数据的自动分析与关联。

进一步地，所述方法还包括：

将所述自动分析与关联的结果与用户端的软件进行交互。

进一步地，在所述对图像数据进行二维码解析和OCR识别之前，所述方法还包括对所述图像数据进行图像预处理，得到预处理后的图像数据；所述对图像数据进行二维码解析和OCR识别替换为对所述预处理后的图像数据进行二维码解析和OCR识别。

进一步地，对所述预处理后的图像数据进行二维码解析包括：

针对预处理后的图像数据，根据发票的版式与深度学习训练数据，定位切割出二维码的大致区域；

利用二维码特征寻找定位符；

将二维码二值化数据，根据二维码规范转换为文字。

进一步地，所述利用二维码特征寻找定位符，包括：在灰度化、二值化的数据中，采用MapReduce的方式，先多线程并行查找嵌套矩阵形状，之后汇总查到的数据中尺寸一致的三个嵌套矩阵。

进一步地，对所述预处理后的图像数据进行OCR识别包括：

进行发票区域剪裁，基于扫描仪、拍照的行为，识别明暗变化边界，以及识别图像中的直长线段；

基于发票版式规范、历史分析数据，对所有的数据字段根据横纵坐标进行识别；

根据字段左边的说明文字进行定位校正，最终获得精确的位置与数据。

根据本申请实施例的另一个方面，提供一种发票电子文件的处理装置，包括：

转换模块，用于将发票电子文件转为图像数据；

解析识别模块，用于对所述图像数据进行二维码解析和OCR识别，形成结构化的数据模型；

分析关联模块，用于基于规则引擎，针对所述结构化的数据模型进行数据的自动分析与关联。

根据本申请实施例的另一个方面，提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述的发票电子文件的处理方法。

根据本申请实施例的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述的发票电子文件的处理方法。

本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果：

本申请实施例提供的发票电子文件的处理方法，在高效准确的二维码解析、OCR图片处理的基础上，集成了搜索引擎、规则引擎技术，形成结构化数据模型，然后进行一步进行分析与数据对接，进而解决了发票信息通过人工录入与分析，效率不高、出错率高，难以进行复杂的检索查询、业务单据的关联自动化水平低的问题。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者，部分特征和优点可以从说明书中推知或毫无疑义地确定，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了一个实施例一个实施方式的一种发票电子文件的处理方法流程图；

图2示出了一个实施例另一实施方式的一种发票电子文件的处理方法流程图；

图3示出了另一个实施例的一种发票电子文件的处理方法流程图；

图4示出了一个实施例一个实施方式的一种发票电子文件的处理装置结构框图；

图5示出了一个实施例另一实施方式的一种发票电子文件的处理装置结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本申请做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本申请的一个实施例提供了一种发票电子文件的处理方法，在高效准确的二维码解析、OCR图片处理的基础上，集成了搜索引擎、规则引擎技术，形成结构化数据模型，然后进行一步进行分析与数据对接，进而解决了发票信息通过人工录入与分析，效率不高、出错率高，难以进行复杂的检索查询、业务单据的关联自动化水平低的问题。

如图1所示，本申请的一个实施例提供的一种发票电子文件的处理方法，包括以下步骤：

S10、将发票电子文件的文件流转为图像数据。

将原始的发票或票据图像文件，在保证二维码、核心信息的基础上进行压缩处理，便于文件传输与存储。发票电子文件以文件流、下载链接、Base64编码等形式，传输至接口；接口将文件流解析为图像数据。

S20、对图像数据进行二维码解析和OCR识别，形成结构化的数据模型。

在某些实施方式中，在对图像数据进行二维码解析和OCR识别之前，所述方法还包括对所述图像数据进行图像预处理，得到预处理后的图像数据。

图像数据的图像预处理包括对图像数据进行灰度化、二值化处理，以及翻转、剪裁图像数据的有效区域。

二维码解析包括：针对预处理后的图像数据，根据发票的版式与深度学习训练数据，定位切割出二维码的大致区域；然后利用二维码特征寻找定位符，其实现方式是在灰度化、二值化数据中，采用MapReduce的方式，先多线程并行查找嵌套矩阵形状(即“回字型”)；之后汇总查到的数据中尺寸一致的三个嵌套矩阵，即可快速定位二维码；最后再将二维码二值化数据，根据二维码规范转换为文字。

在某些实施方式中，二维码解析还包括：多线程并行查找嵌套矩阵形状，并汇总比对数据，进而快速识别二维码。

OCR文本识别的步骤包括：先进行发票区域剪裁，基于扫描仪、拍照的行为，识别明暗变化边界，以及识别图像中的直长线段；基于发票版式规范、历史分析数据，对所有的数据字段根据横纵坐标进行识别；根据字段左边的说明文字进行定位校正，最终获得精确的位置与数据。

在某些实施方式中，OCR文本识别的步骤还包括基于明暗变化边界、直长线段检索的区域计算方法，基于发票与票据的版式与深度学习训练数据的二维码与数据字段的坐标识别。

S30、基于规则引擎，针对上述结构化的数据模型进行数据的自动分析与关联。

步骤S30包括搜索引擎存取与检索的步骤；

搜索引擎存取与检索包括：

将所有的发票数据，进行数据格式化，并进行分析、切词，存入搜索引擎数据；针对发票信息，以“发票代码，发票号码”的组合，作为主键；根据行为分析结果，备注字段是关联业务的重要字段，在存储时进行拆分与正则匹配，将单据编号等数据，也进行解析存储。查询时，根据发票的票面信息，反向找到可能的发票主键，进而展示发票。为确保搜索结果集最小，应尽量使用发票代码、发票号码、购买方信息、销售方信息、开具日期等字段筛选。

在某些实施方式中，步骤S30还包括利用搜索引擎的数据处理、规则引擎录入数据，形成格式化的数据模型。

在某些实施方式中，基于规则引擎，针对所述结构化的数据模型进行数据的自动分析与关联，包括：

将发票的数据进行数据格式化，并进行分析、切词，存入搜索引擎数据；

针对发票信息，以“发票代码，发票号码”的组合，作为主键；

根据行为分析结果，备注字段是关联业务的重要字段，在存储时进行拆分与正则匹配，将单据编号等数据进行解析存储。

如图2所示，在某些实施方式中，本实施例的方法还包括：S40、将自动分析与关联得到的结果，与用户端的业务系统或财务软件进行交互。

步骤S40包括数据自动匹配与业务财务软件对接的步骤；

完成了备注字段分析、发票金额税额、购买方信息、销售方信息等步骤之后，基于规则引擎进行匹配规则的配置。在规则配置完成后，会自动运行任务，基于前面步骤解析好的结构化数据与搜索引擎检索，快速完成数据匹配。

获取的数据，与国税平台的发票查验数据、发票认证数据、征信系统进行比对补全，包括检查和补全金额、税额、购买方信息、销售方信息、开具日期、发票明细等数据字段，还包括检测提醒发票红冲、发票作废、发票异常、销方行为异常、稽查结果异常或风险。

由此实现发票的自动归集，以及通过接口、WEB应用、APP、微信、支付宝、扫码枪、扫描仪、客户端等跨平台方式，与业务数据的自动关联，实现发票信息的识别、追踪，以及归集、报销、验真等功能。

在某些实施方式中，发票备注提取规则包括：

标识：定义字符串提取时，特殊标志，为空时表示没有标志，直接就是号码字符串；

单据号码or合同号码长度：定义号码长度；

分隔符：定义多个号码字段之间的分隔，为空时表示发票备注里不包含多个号码；

说明：

若匹配项选择单据号码或者合同号码时，校验是否设置发票备注提取规则(只校验号码长度即可)强控；

若匹配项选择供应商税号+价税合计时，不校验是否设置发票备注提取规则；

允差设置，默认值为0；

允差值客户自定义设置；

允差值为绝对值，包含正负；

允差使用场景，匹配一致情况；

单据-发票≤|允差|；

发票-单据≤|允差|；

允差使用场景，匹配不一致情况；

单据-发票＞|允差|；

发票-单据＞|允差|；

备注：可填写不超过300字的备注，来描述本规则的一些内容。

在某些实施方式中，步骤S40还包括通过与发票查验数据、发票认证数据、征信系统进行比对补全、以及风险提示。

在某些实施方式中，步骤S40还包括通过接口、WEB应用、APP、微信、支付宝、扫码枪、扫描仪、客户端等跨平台方式，进行数据读写与对接。

如图3所示，在另一个实施例中提供了一种发票电子文件的处理方法，包括：

S1、文件输入；文件输入包括文件流上传、文件下载链接和/或文件Base64；

S2、图像预处理；图像预处理包括：压缩图像，然后对压缩后的图像进行灰度化、二值化、翻转和/或剪裁的处理。

S3、二维码解析；二维码解析包括：针对图像预处理后的图像，依次进行二维码查找和二维码内容解析的处理；

S4、OCR文档识别；OCR文档识别包括：针对二维码内容解析后的数据依次进行发票区域裁剪、数据字段定位矫正和数据解析。

S5、搜索引擎处理；搜索引擎处理包括：依次进行基于搜索引擎进行数据解析以及元数据读写的处理。

在某些实施方式中，本实施例还包括：S6、数据匹配与对接；数据匹配与对接包括：对搜索引擎处理后得到的数据分别进行规则引擎与配置、发票池、征信系统的数据的关联、归集与对接。

如图4所示，本申请的另一个实施例提供了一种发票电子文件的处理装置，包括：

转换模块，用于将发票电子文件转为图像数据；

如图5所示，在某些实施方式中，该处理装置还包括：

交互模块，用于将所述自动分析与关联的结果与用户端的软件进行交互。

在某些实施方式中，该处理装置还包括：预处理模块；预处理模块用于在所述对图像数据进行二维码解析和OCR识别之前，对所述图像数据进行图像预处理，得到预处理后的图像数据；所述对图像数据进行二维码解析和OCR识别替换为对所述预处理后的图像数据进行二维码解析和OCR识别。

在某些实施方式中，对所述预处理后的图像数据进行二维码解析包括：

利用二维码特征寻找定位符；

将二维码二值化数据，根据二维码规范转换为文字。

在某些实施方式中，所述利用二维码特征寻找定位符，包括：在灰度化、二值化的数据中，采用MapReduce的方式，先多线程并行查找嵌套矩阵形状，之后汇总查到的数据中尺寸一致的三个嵌套矩阵。

在某些实施方式中，对所述预处理后的图像数据进行OCR识别包括：

本申请的另一个实施例提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现上述任一实施方式的发票电子文件的处理方法。

本申请的另一个实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现上述任一实施方式的发票电子文件的处理方法。

需要说明的是：

术语“模块”并非意图受限于特定物理形式。取决于具体应用，模块可以实现为硬件、固件、软件和/或其组合。此外，不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例仅表达了本申请的实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种发票电子文件的处理方法，其特征在于，包括：

将发票电子文件转为图像数据；

对所述图像数据进行二维码解析和OCR识别，形成结构化的数据模型。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于规则引擎，针对所述结构化的数据模型进行数据的自动分析与关联；

将所述自动分析与关联的结果与用户端的软件进行交互。

3.根据权利要求1所述的方法，其特征在于，在所述对图像数据进行二维码解析和OCR识别之前，所述方法还包括对所述图像数据进行图像预处理，得到预处理后的图像数据；所述对图像数据进行二维码解析和OCR识别替换为对所述预处理后的图像数据进行二维码解析和OCR识别。

4.根据权利要求3所述的方法，其特征在于，对所述预处理后的图像数据进行二维码解析包括：

利用二维码特征寻找定位符；

将二维码二值化数据，根据二维码规范转换为文字。

5.根据权利要求4所述的方法，其特征在于，所述利用二维码特征寻找定位符，包括：在灰度化、二值化的数据中，采用MapReduce的方式，先多线程并行查找嵌套矩阵形状，之后汇总查到的数据中尺寸一致的三个嵌套矩阵。

6.根据权利要求4所述的方法，其特征在于，对所述预处理后的图像数据进行OCR识别包括：

7.一种发票电子文件的处理装置，其特征在于，包括：

转换模块，用于将发票电子文件转为图像数据；

8.一种电子设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-6中任一所述的方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以实现如权利要求1-6中任一所述的方法。