CN112651289B

CN112651289B - 一种增值税普通发票智能识别与校验系统及其方法

Info

Publication number: CN112651289B
Application number: CN202011119283.3A
Authority: CN
Inventors: 王漳; 梁祖红
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2023-10-13
Anticipated expiration: 2040-10-19
Also published as: CN112651289A

Abstract

本发明公开了一种增值税普通发票智能识别与校验系统及其方法，采用传统图像处理技术并且融合最新的深度学习网络，将增值税普通发票中需要提取的关键字段精准的定位，并获得其位置坐标信息；通过坐标信息截取文本区域并将其送入预训练好的深度学习网络模型中进行文本识别；最后通过增强的二维码识别技术解码增值税发票中二维码信息，与识别的内容进行对比，完成发票的验证和金额等字段的校正，最后将处理后的信息化输出保存，实现发票的信息化管理。本发明不但解决了传统人员手动录入和查询的低效率、耗时长、出错率高等缺点，而且可以降低企业的人力成本和管理成本。

Description

一种增值税普通发票智能识别与校验系统及其方法

技术领域

本发明涉及OCR票据识别的技术领域，尤其涉及到一种增值税普通发票智能识别与校验系统及其方法。

背景技术

随着社会经济的发展，发票的地位及作用显的越来越重要；在各行各业，消费者通过发票去报账的人数也在剧增，这也直接导致财务人员在面对大量发票后续的管理工作时显得尤为吃力。以学校为例，报账使用的增值税发票后期被粘贴在发票册中集中管理，以便后续财务人员的查阅以及核对，但面对成堆的发票册，当财务人员需要查找某一位人员曾经报过的账目时，需要翻阅大量的书册，这种方式的效率极其低下。为了将发票数据信息化管理，光学字符识别(OCR)技术在发票领域的应用就显得尤为重要。

由于深度学习时代的到来，OCR技术也得到了良好地发展，到目前也有一些技术方案。

公开号CN108171127A的发明专利《一种基于深度学习的发票自动识别方法》公开了利用深度AlexNet网络对发票进行识别；其字采用传统的方法，先将字符切割，再对单个字符进行识别，这种单个字符识别的方法效率并不高；另外，其字符定位采用了模板匹配算法定位到数字子区域，但是发票中存在太多数字干扰，没有具体介绍定位到某一块区域。

还有的是，在现有的发票OCR技术中，现有技术采用的发票原始数据都是版面整洁、没有背景污染并且发票版面大小一致的数据；倘若发票存在大小不一致、有背景污染的情况时，胡等人提出的经验定位和模板匹配算法就会失去作用；另外，其对于如何定位到文本区域没有进行详细的陈述，识别算法采用卷积神经网络(CNN)只能在空间上提取特征。

发明内容

本发明的目的在于克服现有技术的不足，提供一种增值税普通发票智能识别与校验系统，不但解决了传统人员手动录入和查询的低效率、耗时长、出错率高等缺点，而且可以降低企业的人力成本和管理成本。

为实现上述目的，本发明所提供的技术方案为：

一种增值税普通发票智能识别与校验系统，包括顺序连接的图像采集模块、图像预处理模块、二维码解码模块、文本区域定位模块、文本检测识别模块、校验模块以及结果输出模块；

其中，所述图像采集模块，用于扫描单张票据，将单张票据转换为计算机数字图像数据；

所述图像预处理模块，用于利用增值税普通发票与底座之间形成的色差边界，使用霍夫变换检测出边界直线的倾斜度，通过仿射变换完成发票的水平校正，再对校正后的图像进行边缘检测，完成增值税普通发票图像的提取；

所述二维码解码模块，用于对增值税普通发票图像进行二维码扫描解码；

所述文本区域定位模块，用于对文本区域一和文本区域二进行定位；

所述文本检测识别模块，用于进行端对端的文本区域检测及识别；

所述校验模块，用于对识别出的内容进行校验；

所述结果输出模块，用于将识别后的各个字段的结果整理，以面向对象编程的思想，将票据的内容发送、保存在数据库中，实现数据的持久化，方便了财务人员后期的管理与查询。

为实现上述目的，本发明另外提供一种用于增值税普通发票智能识别与校验系统的方法，包括以下步骤：

S1、通过图像采集模块扫描单张票据，将单张票据转换为计算机数字图像数据；

S2、通过图像预处理模块对计算机数字图像数据进行预处理，完成增值税普通发票图像的提取；

S3、通过二维码解码模块对增值税普通发票图像进行二维码扫描解码；

S4、对于增值税普通发票图像中需要提取的文本区域，划分为两个区域；文本区域一为：表格框中的内容信息；文本区域二为：表格框右上角的发票代码、发票号码、开票日期和校验码区域；通过文本区域定位模块对文本区域一和文本区域二进行定位；

S5、通过文本检测识别模块进行端对端的文本区域检测及识别；

S6、通过校验模块识别出的内容进行校验；

S7、结果输出模块将识别后的各个字段的结果整理，以面向对象编程的思想，将票据的内容发送、保存在数据库中，实现数据的持久化，方便了财务人员后期的管理与查询。

进一步地，所述步骤S2的具体过程为：

利用增值税普通发票与底座之间形成的色差边界，使用霍夫变换检测出边界直线的倾斜度，通过仿射变换完成发票的水平校正，再对校正后的图像进行边缘检测，从而完成发票图像的提取。

进一步地，所述步骤S3扫描二维码过程中，采用三次识别算法进行二维码识别，具体包括：

首先对原图进行识别，如果原图识别失败，对图像进行OTSU算法再识别，如果阈值OTSU失败，则对图像进行限制对比度的自适应直方图均衡化处理。

进一步地，所述步骤S4中，对于文本区域一的定位，采用边缘检测和角点检测将整个信息框提取出来，而整个信息框中小框的位置信息则采用等比例切割的方法初步获取。

进一步地，所述步骤S4中，对于文本区域二的定位，采用缩放坐标位置的方法获取其坐标位置信息：由于发票的规格统一，通过先验知识获取标准发票中二维码位置信息(x₀₁,y₀₁,w₀₁,h₀₁)，区域二的位置信息(x₀₂,y₀₂,w₀₂,h₀₂)；目标区域的位置信息为(x₁₃,y₁₃,w₁₃,h₁₃)，由于该区域与二维码在同一水平线上，故将y₁₃取为y₁₁的值，y₁₁为当前采集的增值税普通发票二维码左上角的y坐标信息；在二维码解码模块，测得输入图像二维码宽度w₁₁，通过计算w₀₁/w₁₁获取当前采集的发票与标准发票之间的放缩比例大小a；通过该缩放比例，获得x₁₃该的值为x₁₁+a*(x₀₂-x₀₁)，w₁₃的值为a*w₀₂，h₁₃的值为a*h₀₂；上述各个位置信息中，对应的x和y分别为所在对应位置左上角的x、y坐标，对应的w和h分别为所在对应位置的宽和高。

进一步地，所述步骤S5中，文本检测识别模块采用CTPN+CRNN文本检测识别模型进行端对端的文本区域检测及识别,具体如下：

对CTPN网络的训练，包括：

网络为vgg前5层，获得conv5的特征图，在此特征图上做3*3的卷积，此时通过卷积神经网学习到的只有空间特征；再将该特征输入到双向长短期记忆网络中，获得学习到的序列特征；然后通过一个全连接层和区域生成网层预测出一系列的文本框，最后通过非极大值抑制过滤掉得分较小的多余文本框，剩下的文本框通过中心点拟合直线，生成最终的文本框位置信息；

对CRNN网络的训练，包括：

卷积层：卷积层采用微调过后的VGG网络来完成特征提取；将第三、第四个后的maxpooling的核尺度从2×2改为1×2；在第五、第六卷积层后加入BatchNormalization，加速模型的收敛速度；

循环层：使用一个BLSTM，对特征序列进行预测，对序列中的每个特征向量进行学习，最终输出预测标签分布；

转录层：使用CTC模型，将RNN循环层每帧预测转换为标签序列，通过去重整合等操作转换成最终的识别结果；

模型训练完以后，通过文本定位区域输出文本位置信息，精准切割出文本区域送去CTPN+CRNN文本检测识别模型中完成内容的识别。

与现有技术相比，本方案原理及优点如下：

本方案采用传统图像处理技术并且融合最新的深度学习网络，将增值税普通发票中需要提取的关键字段精准的定位，并获得其位置坐标信息；通过坐标信息截取文本区域并将其送入预训练好的深度学习网络模型中进行文本识别；最后通过增强的二维码识别技术解码增值税发票中二维码信息，与识别的内容进行对比，完成发票的验证和金额等字段的校正，最后将处理后的信息化输出保存，实现发票的信息化管理。

本方案使得财务人员关注的重点只需要转移到增值税普通发票图像的采集工作上面来，并将采集的图像上传到智能识别与校验系统中，便能够得到详细的内容信息。智能识别与校验系统代替传统财务人员手动录入发票的繁琐工作，不但解决了传统人员手动录入和查询的低效率、耗时长、出错率高等缺点，而且可以降低企业的人力成本和管理成本。

具体分析地，本方案采用三次识别算法，避免了传统一次扫描失败就结束的影响，提高了二维码解码的成功率。根据相对坐标位置，提出了缩放法和等比例切割的方法来对增值税普通发票的版面进行剖析，避免了发票其他区域的干扰。最后，采用CTPN+CRNN的端到端的识别网络，避免了先将文本切割为单个字符、再分类、再对单个字符进行识别的繁琐步骤，并且提高了文本的识别速率和正确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种增值税普通发票智能识别与校验系统中各模块的连接示意图；

图2为用于本发明一种增值税普通发票智能识别与校验系统的方法的原理流程图；

图3为实施例图像采集模块采集到的增值税普通发票图像；

图4为实施例文本信息的分类区域示意图；

图5为实施例识别输出结果示意图。

具体实施方式

下面结合具体实施例对本发明作进一步说明：

如图1所示，本实施例所述的一种增值税普通发票智能识别与校验系统，包括顺序连接的图像采集模块1、图像预处理模块2、二维码解码模块3、文本区域定位模块4、文本检测识别模块5、校验模块6以及结果输出模块7；

如图2所示，该系统的工作原理如下：

S1、通过图像采集模块1扫描单张票据，将单张票据转换为计算机数字图像数据；扫描采集到的增值税普通图像如图3所示。

S2、通过图像预处理模块2对计算机数字图像数据进行预处理：

S3、通过二维码解码模块3对增值税普通发票图像进行二维码扫描解码：

由于图像存在噪音的干扰，对增值税普通发票图像进行二维码扫描解码可能存在识别无效的情况；二维码解码模块3采用三次识别算法，流程大致如下：首先对原图进行识别，如果原图识别失败，对图像进行大津二值化算法(OTSU)再识别，如果阈值OTSU失败，则采用则将图像进行限制对比度的自适应直方图均衡化处理；通过该算法提高了二维码识别准确率。

解码出来的信息不仅包括：发票号码、发票代码、开票金额、开票日期和校验码等信息，这一部分信息用于文本识别完成以后的内容纠正；除此之外，解码出来的信息还包含二维码的位置信息(x₁₁,y₁₁,w₁₁,h₁₁)，x₁₁、y₁₁表示左上角位置坐标，w₁₁、h₁₁表示二维码宽度和高度，可用于后续文本定位使用。

S4、如图4所示，对于增值税普通发票图像中需要提取的文本区域，划分为两个区域；文本区域一为：表格框中的内容信息；文本区域二为：表格框右上角的发票代码、发票号码、开票日期和校验码区域；通过文本区域定位模块4对文本区域一和文本区域二进行定位；

对于文本区域一的定位，采用边缘检测和角点检测将整个信息框提取出来，由于发票的版面是固定的，每一个小框在版面中的比例是一定的，所以可以采用等比例切割的方法初步获取小框的位置信息：由于表格边框的纹理特征明显，通过边缘检测可以检测出表格的外边框，并获取其位置信息，通过位置信息将表格截取出来，获取其宽度W和高度H；按照国家增值税发票版面的大小特征来看，每一个小框在表格中的大小比例是固定的，通过该比例可以将区域一中需要提取的文本区域定位，所要提取的购买方区域位置信息即可推出(0,0,w₁₂,h₁₂)，0、0分别为区域左上角顶点x,y轴的位置，w₁₂＝λ₁W，h₁₂＝λ₂H，其中λ₁为购买方文本区域占表格宽度的比例，λ₂为购买方文本区域占表格高度的比例，其他区域位置信息以此类推；

对于文本区域二的定位，采用缩放坐标位置的方法获取其坐标位置信息：由于发票的规格统一，通过先验知识获取标准发票中二维码位置信息(x₀₁,y₀₁,w₀₁,h₀₁)，区域二的位置信息(x₀₂,y₀₂,w₀₂,h₀₂)；目标区域的位置信息为(x₁₃,y₁₃,w₁₃,h₁₃)，由于该区域与二维码在同一水平线上，故将y₁₃取为y₁₁的值，y₁₁为当前采集的增值税普通发票二维码左上角的y坐标信息；在二维码解码模块，测得输入图像二维码宽度w₁₁，通过计算w₀₁/w₁₁获取当前采集的增值税普通发票与标准发票之间的放缩比例大小a；通过该缩放比例，获得x₁₃该的值为x₁₁+a*(x₀₂-x₀₁)，w₁₃的值为a*w₀₂，h₁₃的值为a*h₀₂；上述各个位置信息中，对应的x和y分别为所在对应位置左上角的x、y坐标，对应的w和h分别为所在对应位置的宽和高。

S5、文本检测识别模块5采用CTPN+CRNN文本检测识别模型进行端对端的文本区域检测及识别,具体如下：

对CTPN网络的训练，包括：

对CRNN网络的训练，包括：

S6、通过校验模块6识别出的内容进行校验；在二维码解码模块3信息包括：发票号码、发票代码、开票金额、开票日期和校验码等信息；将其与深度模型OCR识别出来的内容进行比对；若出现差别，以解码出来的信息为准，将识别的内容进行更改完成校对。

S7、如图5所示，结果输出模块7将识别后的各个字段的结果整理，以面向对象编程的思想，将票据的内容发送、保存在数据库中，实现数据的持久化，方便了财务人员后期的管理与查询。

为证实本实施例的有效性和优越性，技术人员已进行过相应的验证实验，具体如下：

二维码解码模块3，以能够解码出区域中的发票代码、发票号码、开票日期、校验码这些信息为解码成功的标准。

文本区域定位模块4，通过缩放坐标位置得到的文本框，以文本框将需要提取的文本区域框住为定位成功。

文本检测识别模块5，随机抽取增值税普通发票，统计文本区域总字数、识别到字符的数量、识别到字符中正确识别的字符数，计算其识别率，正确识别率。

以上模块经过验证，能够达到一较高的成功率，具体如下表1、2、3所示：

表1

表2

表3

以上所述之实施例子只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种增值税普通发票智能识别与校验系统，其特征在于，包括顺序连接的图像采集模块、图像预处理模块、二维码解码模块、文本区域定位模块、文本检测识别模块、校验模块以及结果输出模块；

所述校验模块，用于对识别出的内容进行校验；

所述结果输出模块，用于将识别后的各个字段的结果整理，以面向对象编程的思想，将票据的内容发送、保存在数据库中，实现数据的持久化，方便了财务人员后期的管理与查询；

用于增值税普通发票智能识别与校验系统的方法，包括以下步骤：

S6、通过校验模块识别出的内容进行校验；

S7、结果输出模块将识别后的各个字段的结果整理，以面向对象编程的思想，将票据的内容发送、保存在数据库中，实现数据的持久化，方便了财务人员后期的管理与查询；

所述步骤S4中，对于文本区域二的定位，采用缩放坐标位置的方法获取其坐标位置信息：由于发票的规格统一，通过先验知识获取标准发票中二维码位置信息(x₀₁,y₀₁,w₀₁,h₀₁)，区域二的位置信息(x₀₂,y₀₂,w₀₂,h₀₂)；目标区域的位置信息为(x₁₃,y₁₃,w₁₃,h₁₃)，由于该区域与二维码在同一水平线上，故将y₁₃取为y₁₁的值，y₁₁为当前采集的增值税普通发票二维码左上角的y坐标信息；在二维码解码模块，测得输入图像二维码宽度w₁₁，通过计算w₀₁/w₁₁获取当前采集的增值税普通发票与标准发票之间的放缩比例大小a；通过该缩放比例，获得x₁₃该的值为x₁₁+a*(x₀₂-x₀₁)，w₁₃的值为a*w₀₂，h₁₃的值为a*h₀₂；上述各个位置信息中，对应的x和y分别为所在对应位置左上角的x、y坐标，对应的w和h分别为所在对应位置的宽和高。

2.一种用于权利要求1所述的增值税普通发票智能识别与校验系统的方法，其特征在于，包括以下步骤：

S6、通过校验模块识别出的内容进行校验；

3.根据权利要求2所述的一种用于增值税普通发票智能识别与校验系统的方法，其特征在于，所述步骤S2的具体过程为：

4.根据权利要求2所述的一种用于增值税普通发票智能识别与校验系统的方法，其特征在于，所述步骤S3扫描二维码过程中，采用三次识别算法进行二维码识别，具体包括：

5.根据权利要求2所述的一种用于增值税普通发票智能识别与校验系统的方法，其特征在于，所述步骤S4中，对于文本区域一的定位，采用边缘检测和角点检测将整个信息框提取出来，而整个信息框中小框的位置信息则采用等比例切割的方法初步获取。

6.根据权利要求2所述的一种用于增值税普通发票智能识别与校验系统的方法，其特征在于，所述步骤S5中，文本检测识别模块采用CTPN+CRNN文本检测识别模型进行端对端的文本区域检测及识别,具体如下：

对CTPN网络的训练，包括：

网络为vgg前5层，获得conv5的特征图，在此特征图上做3*3的卷积，此时通过卷积神经网学习到的只有空间特征；再将该特征输入到双向长短期记忆网络中，获得学习到的序列特征；然后通过一个全连接层和区域生成网层预测出一系列的文本框，最后通过非极大值抑制过滤掉得分小的多余文本框，剩下的文本框通过中心点拟合直线，生成最终的文本框位置信息；

对CRNN网络的训练，包括：

转录层：使用CTC模型，将RNN循环层每帧预测转换为标签序列，通过去重整合操作转换成最终的识别结果；