CN112149654A

CN112149654A - 基于深度学习的发票文本信息识别方法

Info

Publication number: CN112149654A
Application number: CN202011008285.5A
Authority: CN
Inventors: 杨懿龄; 肖欣庭; 池明辉; 刘楚雄
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2020-12-29
Anticipated expiration: 2040-09-23
Also published as: CN112149654B

Abstract

本发明涉及票据处理领域，公开了一种基于深度学习的发票文本信息识别方法，解决字段和信息的不能智能匹配问题，导致人工对票据信息进行匹配标定耗时耗力的问题。本发明的方案为：首先将图片导入深度学习网络进行通用文字检测；再结合检测结果对原图进行裁剪；再将裁剪后的图片送入深度学习网络进行通用文字识别；再结合通用文字检测识别结果进行后处理；最后结合后处理结果，得到票据字段及其对应信息，并保存结果到数据库。本发明适用于发票文本信息识别。

Description

基于深度学习的发票文本信息识别方法

技术领域

本发明涉及票据处理领域，特别涉及基于深度学习的发票文本信息识别方法。

背景技术

在票据识别方面，随着社会发展和经济进步，票据的识别检测工作量也逐步变大，智能化识别票据成为迫切的需求。在过去，票据上的各种关键字段信息全部由人工筛选识别，这种单一繁复的工作耗时巨大，随着深度学习方法的进步，票据的文本可以通过神经网络来进行通用识别和通用检测。但是此处存在一个缺陷，具体就是文本检测后的结果，仍然需要人工来进行筛选和修改，这仍然需要耗时耗力。产生缺陷的另一个原因是票据多种多样。票据上信息的复杂性成为了票据检测识别的瓶颈，包括字段文字类型的多样，字段边框的不定长宽比以及待检测识别的票据种类繁多等。主要体现为：文字类型有不同语言，不同符号，字段可能很长或是很短，票据种类包括统一发票，机票，火车票等等。

随着深度学习技术发展，此技术正在被应用于越来越多的领域，工程、信息技术、金融、医疗等等。在财务电子化领域中，深度学习技术可以用于报表、发票、文件的识别和检测。但是由于票据的名录多种多样，票据内容更是纷繁复杂，仅仅使用深度学习方法不足以将复杂票据的关键信息和字段名完全对应。

发明内容

本发明要解决的技术问题是：提供一种基于深度学习的发票文本信息识别方法，解决字段和信息的不能智能匹配问题，导致人工对票据信息进行匹配标定耗时耗力的问题。

为解决上述问题，本发明采用的技术方案是：基于深度学习的发票文本信息识别方法，包括如下步骤：

步骤一：将图片导入第一深度学习网络进行通用文字检测；

步骤二：结合步骤一的检测结果对原图进行裁剪；

步骤三：将裁剪后的图片送入第二深度学习网络进行通用文字识别；

步骤四：结合通用文字检测识别结果进行后处理操作，所述后处理包括通用后处理，所述通用后处理包括正则匹配、范围检索、信息提取及坐标边界；

所述正则匹配的步骤包括：对于给定的待匹配字段和相应的文本信息，制定正则表达式，然后在步骤二得到的文本内容列表中进行正则匹配，完成匹配后获取该文本的文本框序列号；

所述范围检索的步骤包括：给定一个检索范围I，在正则匹配得到的序列号前后I个单位检索字段对应的文本内容；

所述信息提取的步骤包括：对检索的文本内容，首先提取其中的字母或数字类型的字符，并定义其为有用文本信息，通过有用文本信息再结合正则表达式进行进一步的文本匹配；

所述坐标边界的步骤包括：结合匹配目标字段周围的其他的字段，并获取这些字段的坐标信息，利用坐标信息框定一个目标文本框，将文本内容限定在目标框内；

步骤五：结合后处理结果，得到票据字段及其对应信息；

步骤六：保存结果到数据库。

进一步的，所述第一深度学习网络为ctpn网络。

进一步的，所述第二深度学习网络为RCNN网络。

进一步的，所述后处理还包括局部后处理。对于部分特殊字段，例如印章上的文本字段检测识别及印章位置框定，可使用单独的局部后处理进行目标框位置的框定和文本筛选，其具体方法为：根据印章的内容指定正则表达式，然后根据成功匹配的字段序列号，获取已识别的所有印章内容，并且利用其坐标，经过计算可大致框定印章的位置。

本发明的有益效果是：本发明通过将深度学习技术和通用后处理编码相结合的方法，相比人工筛选匹配，提升了机动车销售统一发票识别的效率和准确率。

附图说明

图1为本发明流程图；

图2为本发明通用文字检测效果图；

图3为本发明裁剪步骤示例图；

图4为本发明通用文字识别效果图；

图5为本发明后处理步骤中，通用后处理坐标边界示例图；

图6为本发明后处理步骤中，局部后处理示例图。

具体实施方式

本发明申请针对的问题是：对于有固定票面规格的发票，人工对票据信息进行匹配标定的方法耗时耗力，但目前公开的方法中又缺失字段和信息的智能匹配，无法直接获取某一字段的信息。本发明解决问题的方法技术本质是深度学习与后处理匹配结合。和现有技术相比，字段的识别更加方便省时省力。

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

在本实施例中，本发明展示一张机动车销售统一发票的识别过程，如图1所示，本发明公开的一种基于深度学习的发票文本信息识别方法，具体实施方式包括以下步骤：

步骤一：通用文字检测

首先读取机动车销售统一发票图片，导入部署的通用文字检测服务中进行文本位置的检测，将会得到的结果可视化对比为图2，图片中的文本区域将会被检测出，如图2右侧所框区域即为检测出的文本区域。本步骤使用的是基于ctpn原理搭建的深度学习网络，该网络主要有三个流程：检测小尺度文本框，连接文本框及细化文本行。

在该网络中，首先使用VGG19作为主干网进行特征提取，滑动窗口大小为3x3。并将得到的特征图送入一个双向LSTM中，后接全连接层进行输出。在输出层中，每一个预测的文本框都有两个anchor的位置高度参数和分数，以及一个水平平移量。然后使用一个标准的非极大值抑制算法来滤除多余的文本框，最后使用基于图的文本行构造算法来合并文本段。由于引入了双向LSTM，因此该模型对水平文本识别能力很强。

步骤二：裁剪

由步骤一可以得到一张机动车销售统一发票中的文本框位置及分数，根据结果中每一个文本框的坐标计算出图片倾斜角度，然后对图片进行小角度调整及坐标变换。最后根据坐标对检测出的文本框进行裁剪，本步骤将得到所有检测出的文本矩形框，其示例效果为图3，如图3为裁剪的部分文本对象。

步骤三：通用文字识别

读取由步骤二得到的文本框结果后，导入部署的通用文字识别服务中进行文本内容的识别，其结果可视化对比为图4，图4右侧图片中文字部分为原图对应位置识别出的文本。本步骤使用的是基于RCNN原理搭建的深度学习网络，该网络首先使用根据选择性搜索算法生成文本候选区域之后，使用CNN卷积神经网络提取区域特征，然后通过SVM进行分类，最后进行目标文本框的边框回归。

步骤四：通用后处理

由步骤三可以得到一张机动车销售统一发票的通用文字检测识别结果：即目标文本框的内容、坐标、置信分数及文本框序列号。使用深度学习场景文字检测技术得到文本内容后，往往需要人工来将文本进行逐一匹配，筛选和纠错。本专利采用了深度学习及通用后处理结合的方式，实现智能化匹配票据信息，步骤四灵活使用正则匹配、范围检索、信息提取及坐标边界四个方法，其中正则匹配用于匹配筛选目标目录的文本；范围检索将根据目标目录文本框的序列号缩小检索范围，进一步排除干扰项；信息提取用于筛选提取文本框中有意义的文本，利于进一步匹配信息；坐标边界示例图如图5所示，根据相邻目录文本框的坐标框定目标文本的大致范围，结合通用文字检测识别中目标文本框的坐标进行信息的筛选匹配。

通用后处理的具体步骤包含如下几个部分：

1.正则匹配

对于给定的待匹配字段和相应的文本信息，制定正则表达式，然后在步骤二得到的文本内容列表中进行正则匹配。此部分旨在匹配字段信息后，获取匹配成功的文本的文本框序列号。

2.范围检索

给定一个检索范围I，在正则匹配得到的序列号前后I个单位检索字段对应的文本内容。这一处理将检索内容限定在范围内，排除多余干扰项。

3.信息提取

对检索的文本内容进行文本处理，提取其中的有用文本信息并结合正则表达式进行内容匹配。例如，由于印刷错误导致的本应全是数字字母的编号类文本，夹杂部分被检测为汉字的字符，此处增加一步文本提取，旨在提取其中的字母或数字类型的字符，并定义其为有用文本信息。然后再结合正则表达式进行进一步的文本匹配。

4.坐标边界

根据该票据的结构组成，结合待匹配目标字段，获取该字段周围的其他的字段的坐标，利用坐标信息框定一个大概的目标框，将检索的文本范围限定在目标框内。例如带匹配的字段名称为“开户银行”，则获取“开户银行”周围的其他字段名称的坐标信息，并利用若干其他字段的坐标框定一个“开户银行”的大致范围，最后在该范围中进行检索。该处理进一步排除干扰项。

步骤五：局部后处理

对于部分特殊字段，例如印章上的文本字段检测识别及印章位置框定，需使用单独的局部后处理进行目标框位置的检测和文本筛选，其具体方法为：根据印章的内容指定正则表达式，然后根据成功匹配的字段序列号，获取已识别的所有印章内容，并且利用其坐标，经过计算可大致框定印章的位置，如图6所示。

步骤六：输出保存

本步骤将由步骤四、五得到的结果格式化输出并保存于数据库，用于后续人工纠偏处理。

经过以上步骤，即可通过深度学习技术和后处理过程快速得到一张激动测销售统一发票的各种名录信息，相比人工筛选匹配更加省时省力。

Claims

1.基于深度学习的发票文本信息识别方法，其特征在于，包括如下步骤：

步骤一：将图片导入第一深度学习网络进行通用文字检测；

步骤二：结合步骤一的检测结果对原图进行裁剪；

步骤五：结合后处理结果，得到票据字段及其对应信息；

步骤六：保存结果到数据库。

2.如权利要求1所述基于深度学习的发票文本信息识别方法，其特征在于，所述第一深度学习网络为ctpn网络。

3.如权利要求1所述基于深度学习的发票文本信息识别方法，其特征在于，所述第二深度学习网络为RCNN网络。

4.如权利要求1所述基于深度学习的发票文本信息识别方法，其特征在于，所述后处理还包括局部后处理。

5.如权利要求4所述基于深度学习的发票文本信息识别方法，其特征在于，所述局部后处理包括：根据印章的内容指定正则表达式，然后根据成功匹配的字段序列号，获取已识别的所有印章内容，并且利用其坐标，经过计算框定印章的位置。