CN109858414A

CN109858414A - 一种发票分块检测方法

Info

Publication number: CN109858414A
Application number: CN201910051813.6A
Authority: CN
Inventors: 桂冠; 孟洋; 孙颖异; 李懋阳; 杨洁
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2019-06-07

Abstract

本发明公开了一种发票分块检测方法，所述方法包括以下步骤：采集待检测发票图像；将待检测发票图像输入至已训练好的深度学习模型中，回归得到发票图像的块区域和对应的分类类别；根据分类类别从块区域中提取目标块区域，输出被检测发票图像及对应的目标块区域图像，本发明结合Yolov3深度学习算法、K‑means聚类方式、采用全卷积与residual结构相结合的Darknet‑53网络结构对特征值进行提取，实现了对发票块区域精准定位和提取，本发明对图片的智能定位产生深远影响和重要意义，也为发票的进一步文字识别提高了准确性。

Description

一种发票分块检测方法

技术领域

本发明属于计算机视觉图像处理领域，具体涉及一种发票分块检测方法。

背景技术：

发票是财务管理中一项重要却又难整理的一项任务，大量的纸质发票若不及时整理，在空间和管理上会存在很多问题；人工录入和采集发票信息虽能扩大空间，但时间和准确率却不能很好的保证。随着科技的飞速发展，OCR对扫描出来的发票图像进行文字识别，给办公人员带来方便。在现有的发票文字识别技术中，办公人员需将增值税发票通过扫描仪进行图片扫描，然后对图片进行预处理、文字识别等操作。由于一整张的发票包含的信息极多，OCR对其进行文字识别时，有些内容无法精准的识别出来，采用基于深度学习的发票分块检测方法可以解决这一问题，对扫描出来的发票图像智能定位并提取，

以提高文字识别的准确度。

发明内容

本发明的目的在于提供一种发票分块检测方法，以解决现有技术中导致的上述多项缺陷。

一种发票分块检测方法，所述方法包括以下步骤：

采集待检测发票图像；

将待检测发票图像输入至已训练好的深度学习模型中，回归得到发票图像的块区域和对应的分类类别；

根据分类类别从块区域中提取目标块区域，输出被检测发票图像及对应的目标块区域图像。

优选的，所述深度学习模型为Yolov3网络中的Darknet-53神经网络模型。

优选的，所述深度学习模型的训练方法包括：

采集发票图像构建训练样本集；

为训练样本集中发票图像标记标签，使标签边框与发票图像的待检测区域重合；

针对标记后的发票图像，创建训练数据，生成对应的索引文件；

将训练样本集中发票图像对应的训练数据和标签输入至Darknet-53神经网络模型中，获取权重文件；

将索引文件及权重文件加载至Darknet-53神经网络模型的测试脚本中，完成深度学习模型的训练。

优选的，采用Label Img进行标签标记。

优选的，所述索引文件包括：my.cfg、my.data、my.name、train.txt文件。

优选的，方法还包括为Yolov3网络创建发票类别，Yolov3网络中无关类别全部屏蔽，不予检测。

优选的，所述目标区域通过调用Python-OpenCV的cv2模块提取。

优选的，所述分类类别的分类方法包括以下步骤：

采用Label Img为被检测发票图像打标签时，按块区域的不同，划分成不同的类别；给不同类别取相应的变量名，即类别名称；根据类别名称确定分类类别。

本发明的优点在于：本发明创造性地引入深度学习的方法，通过计算机迭代训练提取发票块区域的特征，能够准确地检测并精准定位到同类型发票的相同区域。本发明克服了传统利用图像匹配或利用坐标按行查找发票块区域的不普适性和不精准性，大大减少冗余度，具有较高的稳定性和鲁棒性。

附图说明

图1为本发明的方法流程示意图；

图2为本发明中Yolov3网络结构图；

图3为本发明中基于深度学习的发票分块检测方法效果图；

图4为本发明中基于深度学习的发票分块检测方法截取图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施方式，进一步阐述本发明。

如图1至图4所示，一种发票分块检测方法，所述方法包括以下步骤：

采集待检测发票图像；

在本实施例中，所述深度学习模型为Yolov3网络中的Darknet-53神经网络模型。

在本实施例中，所述深度学习模型的训练方法包括：

采集发票图像构建训练样本集；

针对标记后的发票图像，创建训练数据，生成对应的索引文件，索引文件是将VOC格式的.xml文件转换成Yolov3的.txt文件；

将训练样本集中发票图像对应的训练数据和标签输入至Darknet-53神经网络模型中，对网络进行重新训练，获取各层网络的权重文件。

将训练样本和标签输入到Darknet-53神经网络模型中，对网络进行重新训练后得到的各层网络的权重文件。

在本实施例中，采用Label Img进行标签标记。

在本实施例中，所述索引文件包括：my.cfg、my.data、my.name、train.txt文件，其中：

my.cfg:存储YOLOv3网络配置文件，卷积层的个数及卷积层所在的位置；

my.data:存储训练样本类别的个数、训练样本所在位置、类别名字所在的位置，该文件主要存储生成文件所在路径，即位置；

my.name:存储训练样本的名称；

train.txt:存储训练样本图片。

在本实施例中，方法还包括为Yolov3网络创建发票类别，Yolov3网络中无关类别全部屏蔽，不予检测。

在本实施例中，所述目标区域通过调用Python-OpenCV的cv2模块提取。

所述分类类别的分类方法包括以下步骤：

采用Label Img为被检测发票图像打标签时，按块区域的不同，

划分成不同的类别；给不同类别取相应的变量名，即类别名称；

根据类别名称确定分类类别。

关于深度学习模型的介绍如下：

本发明关于深度学习的模型采用Yolov3模型，Yolov3是Yolo和Yolov2上的进化版本，Yolo将目标检测问题转换成回归问题，给定输入图像，直接在图像的多个位置上回归出目标的边界框以及其分类类别。Yolo采用卷积网络来提取特征，然后使用全连接层来得到预测值，对于卷积层和全连接层，采用ReLU激活函数。最后一层采用线性激活函数。而Yolov3则是Yolo的基础上加了四个创新点：第一使用了金字塔网络；第二是用LogisticLoss代替Softmax Loss；第三是网络结构采用了全卷积与residual结构相结合的Darknet-53网络结构；第四是采用多个scale融合的方式做预测，主要是将原来的单标签分类改进为多标签分类。

Yolov3的网络结构如图2所示。

Bounding Box的坐标预测方式：

b_x＝σ(t_x)+c_x (1)；

b_y＝σ(t_y)+c_y (2)；

b_w＝p_we^tw (3)；

b_h＝p_he^th (4)；

其中t_x、t_y、t_w、t_h是模型的预测输出。c_x和c_y表示grid cell的坐标，第0行第1列的grid cell的坐标c_x就是0，c_y就是1。p_w和p_h表示预测前bounding box的size。b_x、b_y、b_w和b_h就是预测得到的boundingbox的中心的坐标和size。σ(t_x)、σ(t_y)是坐标的损失采用的是平方误差损失。

Yolov3模型中的损失函数为：

其中式是第一行对box中心坐标(x,y)的预测，第二行是对宽和高的预测，用宽和高的开根号代替原来的宽和高，这样做主要是因为相同的宽和高误差对于小的目标精度影响比大的目标要大，第三行是对含有目标的bounding box的置信度的预测，第四行是对不含有目标的bounding box的置信度的预测，第五行是对类别的预测。

其中λ_coord和λ_noobj是用来平衡网络失衡问题，对没有object的box的confidenceloss，赋予小的loss weight记为λ_noobj，相对应的对于有object的box的confidence loss，赋予的大loss weight记为λ_coord。

以上式子中，i:表示第i个网格，i是一个变量；

如果没有object(预测物体)的网格单元的confidence loss权值为0；

如果包含objet(预测物体)的网格单元的confidence loss权值为1；判断是否有object(预测物体)的中心落在网格单元中，有为1，没有为0；

s²：预测物体所占的网络单元格的个数：长占s个网络单元格，宽占s个网络单元格，即占s²个网络单元格；

B：一个定值(每一个边界框预测值j＝0,….,B)；

x_i：预测物体中心的行坐标；

从训练数据中得到的实际位置的行坐标；

y_i：预测物体中心的纵坐标；

从训练数据中得到的实际位置的纵坐标；

逻辑回归函数，将预测的行坐标逼近实际的行坐标；

逻辑回归函数，将预测的纵坐标逼近实际的纵坐标；

w_i：预测位置的宽；

从训练数据中得到的实际位置的宽；

h_i：预测位置的高；

从训练数据中得到的实际位置的高；

逻辑回归函数，将预测位置的宽逼近实际的宽；

C_i：预测位置的所在的单元格；

从训练数据中得到的实际位置所在的单元格；

逻辑回归函数，将预测位置所在的单元格逼近实际位置所在单元格；

p_i(c)：预测物体的类别；

实际物体的类别；

逻辑回归函数，将预测物体的类别逼近实际物体的类别。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种发票分块检测方法，其特征在于，所述方法包括以下步骤：

采集待检测发票图像；

2.根据权利要求1所述的一种发票分块检测方法，其特征在于：所述深度学习模型为Yolov3网络中的Darknet-53神经网络模型。

3.根据权利要求2所述的一种发票分块检测方法，其特征在于：所述深度学习模型的训练方法包括：

采集发票图像构建训练样本集；

4.根据权利要求3所述的一种发票分块检测方法，其特征在于：采用Label Img进行标签标记。

5.根据权利要求1所述的一种发票分块检测方法，其特征在于：所述索引文件包括：my.cfg、my.data、my.name、train.txt文件。

6.根据权利要求1所述的一种发票分块检测方法，其特征在于：方法还包括为Yolov3网络创建发票类别，Yolov3网络中无关类别全部屏蔽，不予检测。

7.根据权利要求1所述的一种发票分块检测方法，其特征在于：所述目标区域通过调用Python-OpenCV的cv2模块提取。

8.根据权利要求1所述的一种发票分块检测方法，其特征在于：所述分类类别的分类方法包括以下步骤：

采用Label Img为被检测发票图像打标签时，按块区域的不同，

根据类别名称确定分类类别。