CN112364837A

CN112364837A - 一种基于目标检测和文本识别的票据信息识别方法

Info

Publication number: CN112364837A
Application number: CN202011428503.0A
Authority: CN
Inventors: 杨懿龄; 刘楚雄; 肖欣庭; 池明辉
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2020-12-09
Filing date: 2020-12-09
Publication date: 2021-02-12

Abstract

本发明公开了一种基于目标检测和文本识别的票据信息识别方法，包括步骤A，票据图像收集及票据图像集准备；步骤B，文本目标检测；步骤C，文本目标裁剪；步骤D,文字目标识别；步骤E，票据文本信息整理及输出。本发明的基于目标检测和文本识别的票据信息识别方法，将有固定票面规格的票据图像通过OLOv4目标检测模型进行文本目标检测，并进行文本目标裁剪、识别、整理、输出，实现对票据进行特定信息的提取、识别，提高票据信息识别的准确性，并减少代码的维护成本，提高票据信息的识别效率。

Description

一种基于目标检测和文本识别的票据信息识别方法

技术领域

本发明涉及人工智能深度学习、财务电子化技术领域，具体涉及一种基于目标检测和文本识别的票据信息识别方法。

背景技术

在票据识别方面，随着社会发展和经济进步，票据的识别检测工作量也逐步变大，智能化识别票据成为迫切的需求。在过去，票据上的各种关键字段信息全部由人工筛选识别，这种单一繁复的工作耗时巨大。随着深度学习方法的进步，在票据识别领域一般采用卷积神经网络模型的方法，例如一些基于深度学习神经网络的文本检测和文字识别。但是目前使用的此类方法都有一些缺陷，他们通常无法达到类似端到端的票据信息提取效果，经过文本检测和文字识别后，无法将票据中的具体信息进行有效的区分和匹配，如对于经过文字识别后的文本信息，仍然需要人工来对字段进行分析。产生缺陷的技术原因是目前市场上缺乏可用于票据的高性能的端到端识别网络，票面文本信息的复杂和密集使得其最终的识别效果不好，从而不得不增加人工干预的一步。

综上，现有技术中仍然存在以下问题：对于有固定票面规格的发票，仍然需要对已识别出的文本进行字段信息的人工分析，工作量较大，且对于每一种不同票面的票据，人工进行后处理分析的方法都不同，当票据识别服务需要新增或修改，业务代码将具有很大的维护成本。

发明内容

本发明的目的在于提供一种基于目标检测和文本识别的票据信息识别方法，采用基于深度学习神经网络的目标检测和文本识别方法，来对票据进行特定的信息提取识别，解决现有对于有固定票面规格的发票识别解决方案中存在的代码维护成本高，时间成本高的问题。

为实现上述目的，本发明采用的技术方案为一种基于目标检测和文本识别的票据信息识别方法，包括：

步骤A，票据图像收集及票据图像集准备；对某一固定票面的票据图像进行收集，剔除存在印刷信息严重错位及不可用的票据图像，作为票据图像集；然后对票据中的字段分别进行数据标注；将数据集按9:1的比例划分为训练集和测试集，并对训练集进行数据增强；

步骤B，文本目标检测；利用训练集的票据图像对OLOv4目标检测模型进行训练；将待检测的票据图像导入训练后的OLOv4目标检测模型进行文本的检测，检测到票据图像的文本目标字段，并将检测结果按数据标注的标签进行分类保存；

步骤C，文本目标裁剪；提取步骤B所检测到的文本目标字段的边框坐标信息，并以此对检测后的票据图像进行裁剪，得到检测出的不同字段的票据字段文本图像；

步骤D,文字目标识别；将步骤C所得到的票据字段文本图像导入文本识别网络CRNN进行文字识别，得到文本信息并将结果保存至步骤B的标签相对应的数据中；

步骤E，票据文本信息整理及输出；对文字识别后的文本信息进行整理，将整理后的文本信息与对应的标签格式化输出，完成对票据信息的提取识别。

进一步地，所述数据增强的方法，包括：步骤A100,利用传统数字图像处理方法，将划分后的训练集按照一定阈值进行随机缩放、平移、旋转和放射变换。

进一步地，所述数据增强的方法，还包括：步骤A200,利用随机擦除方法，对利用传统数字图像处理方法处理前的训练集票据图像随机擦除一个矩形区域。

进一步地，所述步骤E中，对文本信息进行整理的方法包括：对部分特定输出格式的文本使用正则匹配的方式进行约束输出；对非法格式输出进行修正。

本发明的有益效果是：

本发明的基于目标检测和文本识别的票据信息识别方法，将有固定票面规格的票据图像通过OLOv4目标检测模型进行文本目标检测，并进行文本目标裁剪、识别、整理、输出，实现对票据进行特定信息的提取、识别，提高票据信息识别的准确性，并减少代码的维护成本，提高票据信息识别的效率。

附图说明

图1为本发明实施例基于目标检测和文本识别的票据信息识别方法流程图；

图2为本发明实施例YOLOv4目标检测模型的结构示意图。

具体实施方式

下面将结合本发明实施例的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参见附图1，本发明的一种基于目标检测和文本识别的票据信息识别方法，包括以下步骤：

步骤A,票据图像收集及票据图像集准备

首先，对某一固定票面的票据图像进行收集，剔除其中印刷信息严重错位的不可用的票据图像，作为票据图像集；然后进行数据标注，此处将不同的票据字段分别标注，数据标注后对票据图像集进行划分，将票据图像集划分为训练集和测试集，优选比例为9:1，由于票据数据数量的不足，其中训练集进行一定程度的数据增强，以弥补数据不充分的缺陷。数据增强方式包括：

A1.传统数字图像处理方法

将划分好的训练集以一定阈值进行随机缩放、平移、旋转和放射变换，以规避可能出现的模型过拟合的弊端。

A2.随机擦除(Random Erasing)

为增强模型的泛化能力，增强模型鲁棒性，降低过拟合风险，本实施例采用随机擦除的方式，对方法A1处理前的原票据图像随机擦除一个矩形区域。当然，还可对方法A1处理后的票据图像进行随机擦除一定区域，目的在于对不同的票据字段的内容进行全部擦除。

步骤B，文本目标检测

B1.YOLOv4目标检测模型训练

本步骤将训练集的票据图像导入YOLOv4目标检测模型进行训练。

采用的YOLOv4目标检测模型与YOLOv3目标检测模型的差别不大，但是对YOLOv3目标检测模型的各方面都进行了改进优化。附图1为YOLOv4目标检测模型的结构图，YOLOv4目标检测模型输入端主要包括Mosaic数据增强、cmBN和SAT自对抗训练，Mosaic是将四张图像混合为一张的数据增强方式，该方法的优点是使得YOLOv4目标检测模型可以检测上下文之外的信息，与SAT自对抗训练、cmBN共同提升YOLOv4目标检测模型的鲁棒性；YOLOv4目标检测模型的主干网络主要包括CSPDarknet53、Mish激活函数和Dropblock，CSPDarknet53模块主要解决工作中需要大量推理计算的问题；在主干网络和输出层之间，YOLOv4目标检测模型插入了SPP模块、FPN+PAN结构，最后在输出层保持了YOLOv3目标检测模型的锚框机制，改进了训练的损失函数CIOU_loss，和预测框筛选的DIOU_nms。YOLOv4目标检测模型是各种先进算法集成后的模型，精度和速度兼备。

B2.文本目标字段检测

将待检测的票据图像导入YOLOv4目标检测模型进行文本的检测，检测到的票据图像的文本目标字段，并将检测结果按数据标注的标签进行分类保存。此处根据不同字段的数据标注进行保存或在结果数据处设置一个标志位，目的是将图像按不同字段进行区分，以便后续信息整合步骤通过标签进行对应使用。

步骤C,文本目标裁剪

在YOLOv4目标检测模型后添加目标裁剪逻辑。提取步骤B得到的票据图像中的文本目标字段的边框坐标信息，并以此对检测后的票据图像进行裁剪，得到检测出的不同字段的票据字段文本图像。

步骤D,文字目标识别

D1.端到端文本识别网络CRNN训练

本专利采用的是文本识别网络CRNN，该网络主要分为三个部分：卷积层CNN、循环层RNN和翻译层CTC。CNN结构用于特征提取，RNN结构采用LSTM的双向网络，CTC翻译层将RNN结构的输出转换为字符串。

D2.票据字段文本识别

将步骤C得到的已检测出的不同字段的票据字段文本图像导入文本识别网络CRNN进行文字识别，得到文本信息，并将文本信息保存至与步骤B的标签相对应的数据中。

步骤E，票据文本信息整理及输出

本步骤E在文本识别网络CRNN后添加信息整理逻辑，其目的在于过滤部分错误识别结果，提高最后输出信息的准确性。具体方法为：对部分特定输出格式的文本使用正则匹配的方式约束输出结果，例如，编号类字段仅筛选数字和字母进行输出，日期类字段匹配某一固定正则表达式，并对非法格式输出进行修正。信息整理后，将所有的已检测识别的字段与对应的标签格式化输出，完成对票据信息的识别及提取。

本发明的一种基于目标检测和文本识别的票据信息识别方法，采用基于深度学习神经网络的目标检测和文本识别方法，来对票据进行特定的信息提取识别，对有固定票面规格的发票进行识别，代码维护成本低，并通过智能化提取节约时间。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于目标检测和文本识别的票据信息识别方法，其特征在于，包括：

2.根据权利要求1所述的票据信息识别方法，其特征在于，所述数据增强的方法，包括：步骤A100，利用传统数字图像处理方法，将划分后的训练集按照一定阈值进行随机缩放、平移、旋转和放射变换。

3.根据权利要求2所述的票据信息识别方法，其特征在于，所述数据增强的方法，还包括：步骤A200，利用随机擦除方法，对利用传统数字图像处理方法处理前的训练集票据图像随机擦除一个矩形区域。

4.根据权利要求1所述的票据信息识别方法，其特征在于，所述步骤E中，对文本信息进行整理的方法包括：对部分特定输出格式的文本使用正则匹配的方式进行约束输出；对非法格式输出进行修正。