CN109858414A - 一种发票分块检测方法 - Google Patents

一种发票分块检测方法 Download PDF

Info

Publication number
CN109858414A
CN109858414A CN201910051813.6A CN201910051813A CN109858414A CN 109858414 A CN109858414 A CN 109858414A CN 201910051813 A CN201910051813 A CN 201910051813A CN 109858414 A CN109858414 A CN 109858414A
Authority
CN
China
Prior art keywords
invoice
image
label
detection method
block region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910051813.6A
Other languages
English (en)
Inventor
桂冠
孟洋
孙颖异
李懋阳
杨洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910051813.6A priority Critical patent/CN109858414A/zh
Publication of CN109858414A publication Critical patent/CN109858414A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种发票分块检测方法,所述方法包括以下步骤:采集待检测发票图像;将待检测发票图像输入至已训练好的深度学习模型中,回归得到发票图像的块区域和对应的分类类别;根据分类类别从块区域中提取目标块区域,输出被检测发票图像及对应的目标块区域图像,本发明结合Yolov3深度学习算法、K‑means聚类方式、采用全卷积与residual结构相结合的Darknet‑53网络结构对特征值进行提取,实现了对发票块区域精准定位和提取,本发明对图片的智能定位产生深远影响和重要意义,也为发票的进一步文字识别提高了准确性。

Description

一种发票分块检测方法
技术领域
本发明属于计算机视觉图像处理领域,具体涉及一种发票分块检测方法。
背景技术:
发票是财务管理中一项重要却又难整理的一项任务,大量的纸质发票若不及时整理,在空间和管理上会存在很多问题;人工录入和采集发票信息虽能扩大空间,但时间和准确率却不能很好的保证。随着科技的飞速发展,OCR对扫描出来的发票图像进行文字识别,给办公人员带来方便。在现有的发票文字识别技术中,办公人员需将增值税发票通过扫描仪进行图片扫描,然后对图片进行预处理、文字识别等操作。由于一整张的发票包含的信息极多,OCR对其进行文字识别时,有些内容无法精准的识别出来,采用基于深度学习的发票分块检测方法可以解决这一问题,对扫描出来的发票图像智能定位并提取,
以提高文字识别的准确度。
发明内容
本发明的目的在于提供一种发票分块检测方法,以解决现有技术中导致的上述多项缺陷。
一种发票分块检测方法,所述方法包括以下步骤:
采集待检测发票图像;
将待检测发票图像输入至已训练好的深度学习模型中,回归得到发票图像的块区域和对应的分类类别;
根据分类类别从块区域中提取目标块区域,输出被检测发票图像及对应的目标块区域图像。
优选的,所述深度学习模型为Yolov3网络中的Darknet-53神经网络模型。
优选的,所述深度学习模型的训练方法包括:
采集发票图像构建训练样本集;
为训练样本集中发票图像标记标签,使标签边框与发票图像的待检测区域重合;
针对标记后的发票图像,创建训练数据,生成对应的索引文件;
将训练样本集中发票图像对应的训练数据和标签输入至Darknet-53神经网络模型中,获取权重文件;
将索引文件及权重文件加载至Darknet-53神经网络模型的测试脚本中,完成深度学习模型的训练。
优选的,采用Label Img进行标签标记。
优选的,所述索引文件包括:my.cfg、my.data、my.name、train.txt文件。
优选的,方法还包括为Yolov3网络创建发票类别,Yolov3网络中无关类别全部屏蔽,不予检测。
优选的,所述目标区域通过调用Python-OpenCV的cv2模块提取。
优选的,所述分类类别的分类方法包括以下步骤:
采用Label Img为被检测发票图像打标签时,按块区域的不同,划分成不同的类别;给不同类别取相应的变量名,即类别名称;根据类别名称确定分类类别。
本发明的优点在于:本发明创造性地引入深度学习的方法,通过计算机迭代训练提取发票块区域的特征,能够准确地检测并精准定位到同类型发票的相同区域。本发明克服了传统利用图像匹配或利用坐标按行查找发票块区域的不普适性和不精准性,大大减少冗余度,具有较高的稳定性和鲁棒性。
附图说明
图1为本发明的方法流程示意图;
图2为本发明中Yolov3网络结构图;
图3为本发明中基于深度学习的发票分块检测方法效果图;
图4为本发明中基于深度学习的发票分块检测方法截取图。
具体实施方式
为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
如图1至图4所示,一种发票分块检测方法,所述方法包括以下步骤:
采集待检测发票图像;
将待检测发票图像输入至已训练好的深度学习模型中,回归得到发票图像的块区域和对应的分类类别;
根据分类类别从块区域中提取目标块区域,输出被检测发票图像及对应的目标块区域图像。
在本实施例中,所述深度学习模型为Yolov3网络中的Darknet-53神经网络模型。
在本实施例中,所述深度学习模型的训练方法包括:
采集发票图像构建训练样本集;
为训练样本集中发票图像标记标签,使标签边框与发票图像的待检测区域重合;
针对标记后的发票图像,创建训练数据,生成对应的索引文件,索引文件是将VOC格式的.xml文件转换成Yolov3的.txt文件;
将训练样本集中发票图像对应的训练数据和标签输入至Darknet-53神经网络模型中,对网络进行重新训练,获取各层网络的权重文件。
将训练样本和标签输入到Darknet-53神经网络模型中,对网络进行重新训练后得到的各层网络的权重文件。
将索引文件及权重文件加载至Darknet-53神经网络模型的测试脚本中,完成深度学习模型的训练。
在本实施例中,采用Label Img进行标签标记。
在本实施例中,所述索引文件包括:my.cfg、my.data、my.name、train.txt文件,其中:
my.cfg:存储YOLOv3网络配置文件,卷积层的个数及卷积层所在的位置;
my.data:存储训练样本类别的个数、训练样本所在位置、类别名字所在的位置,该文件主要存储生成文件所在路径,即位置;
my.name:存储训练样本的名称;
train.txt:存储训练样本图片。
在本实施例中,方法还包括为Yolov3网络创建发票类别,Yolov3网络中无关类别全部屏蔽,不予检测。
在本实施例中,所述目标区域通过调用Python-OpenCV的cv2模块提取。
所述分类类别的分类方法包括以下步骤:
采用Label Img为被检测发票图像打标签时,按块区域的不同,
划分成不同的类别;给不同类别取相应的变量名,即类别名称;
根据类别名称确定分类类别。
关于深度学习模型的介绍如下:
本发明关于深度学习的模型采用Yolov3模型,Yolov3是Yolo和Yolov2上的进化版本,Yolo将目标检测问题转换成回归问题,给定输入图像,直接在图像的多个位置上回归出目标的边界框以及其分类类别。Yolo采用卷积网络来提取特征,然后使用全连接层来得到预测值,对于卷积层和全连接层,采用ReLU激活函数。最后一层采用线性激活函数。而Yolov3则是Yolo的基础上加了四个创新点:第一使用了金字塔网络;第二是用LogisticLoss代替Softmax Loss;第三是网络结构采用了全卷积与residual结构相结合的Darknet-53网络结构;第四是采用多个scale融合的方式做预测,主要是将原来的单标签分类改进为多标签分类。
Yolov3的网络结构如图2所示。
Bounding Box的坐标预测方式:
bx=σ(tx)+cx (1);
by=σ(ty)+cy (2);
bw=pwetw (3);
bh=pheth (4);
其中tx、ty、tw、th是模型的预测输出。cx和cy表示grid cell的坐标,第0行第1列的grid cell的坐标cx就是0,cy就是1。pw和ph表示预测前bounding box的size。bx、by、bw和bh就是预测得到的boundingbox的中心的坐标和size。σ(tx)、σ(ty)是坐标的损失采用的是平方误差损失。
Yolov3模型中的损失函数为:
其中式是第一行对box中心坐标(x,y)的预测,第二行是对宽和高的预测,用宽和高的开根号代替原来的宽和高,这样做主要是因为相同的宽和高误差对于小的目标精度影响比大的目标要大,第三行是对含有目标的bounding box的置信度的预测,第四行是对不含有目标的bounding box的置信度的预测,第五行是对类别的预测。
其中λcoord和λnoobj是用来平衡网络失衡问题,对没有object的box的confidenceloss,赋予小的loss weight记为λnoobj,相对应的对于有object的box的confidence loss,赋予的大loss weight记为λcoord
以上式子中,i:表示第i个网格,i是一个变量;
如果没有object(预测物体)的网格单元的confidence loss权值为0;
如果包含objet(预测物体)的网格单元的confidence loss权值为1;判断是否有object(预测物体)的中心落在网格单元中,有为1,没有为0;
s2:预测物体所占的网络单元格的个数:长占s个网络单元格,宽占s个网络单元格,即占s2个网络单元格;
B:一个定值(每一个边界框预测值j=0,….,B);
xi:预测物体中心的行坐标;
从训练数据中得到的实际位置的行坐标;
yi:预测物体中心的纵坐标;
从训练数据中得到的实际位置的纵坐标;
逻辑回归函数,将预测的行坐标逼近实际的行坐标;
逻辑回归函数,将预测的纵坐标逼近实际的纵坐标;
wi:预测位置的宽;
从训练数据中得到的实际位置的宽;
hi:预测位置的高;
从训练数据中得到的实际位置的高;
逻辑回归函数,将预测位置的宽逼近实际的宽;
Ci:预测位置的所在的单元格;
从训练数据中得到的实际位置所在的单元格;
逻辑回归函数,将预测位置所在的单元格逼近实际位置所在单元格;
pi(c):预测物体的类别;
实际物体的类别;
逻辑回归函数,将预测物体的类别逼近实际物体的类别。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims (8)

1.一种发票分块检测方法,其特征在于,所述方法包括以下步骤:
采集待检测发票图像;
将待检测发票图像输入至已训练好的深度学习模型中,回归得到发票图像的块区域和对应的分类类别;
根据分类类别从块区域中提取目标块区域,输出被检测发票图像及对应的目标块区域图像。
2.根据权利要求1所述的一种发票分块检测方法,其特征在于:所述深度学习模型为Yolov3网络中的Darknet-53神经网络模型。
3.根据权利要求2所述的一种发票分块检测方法,其特征在于:所述深度学习模型的训练方法包括:
采集发票图像构建训练样本集;
为训练样本集中发票图像标记标签,使标签边框与发票图像的待检测区域重合;
针对标记后的发票图像,创建训练数据,生成对应的索引文件;
将训练样本集中发票图像对应的训练数据和标签输入至Darknet-53神经网络模型中,获取权重文件;
将索引文件及权重文件加载至Darknet-53神经网络模型的测试脚本中,完成深度学习模型的训练。
4.根据权利要求3所述的一种发票分块检测方法,其特征在于:采用Label Img进行标签标记。
5.根据权利要求1所述的一种发票分块检测方法,其特征在于:所述索引文件包括:my.cfg、my.data、my.name、train.txt文件。
6.根据权利要求1所述的一种发票分块检测方法,其特征在于:方法还包括为Yolov3网络创建发票类别,Yolov3网络中无关类别全部屏蔽,不予检测。
7.根据权利要求1所述的一种发票分块检测方法,其特征在于:所述目标区域通过调用Python-OpenCV的cv2模块提取。
8.根据权利要求1所述的一种发票分块检测方法,其特征在于:所述分类类别的分类方法包括以下步骤:
采用Label Img为被检测发票图像打标签时,按块区域的不同,
划分成不同的类别;给不同类别取相应的变量名,即类别名称;
根据类别名称确定分类类别。
CN201910051813.6A 2019-01-21 2019-01-21 一种发票分块检测方法 Withdrawn CN109858414A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910051813.6A CN109858414A (zh) 2019-01-21 2019-01-21 一种发票分块检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910051813.6A CN109858414A (zh) 2019-01-21 2019-01-21 一种发票分块检测方法

Publications (1)

Publication Number Publication Date
CN109858414A true CN109858414A (zh) 2019-06-07

Family

ID=66895291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910051813.6A Withdrawn CN109858414A (zh) 2019-01-21 2019-01-21 一种发票分块检测方法

Country Status (1)

Country Link
CN (1) CN109858414A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490100A (zh) * 2019-07-31 2019-11-22 中铁二院工程集团有限责任公司 基于深度学习的岩土自动识别定名方法及系统
CN110516541A (zh) * 2019-07-19 2019-11-29 金蝶软件(中国)有限公司 文本定位方法、装置、计算机可读存储介质和计算机设备
CN110569874A (zh) * 2019-08-05 2019-12-13 深圳大学 一种垃圾分类方法、装置、智能终端及存储介质
CN110895690A (zh) * 2019-10-11 2020-03-20 南京邮电大学 一种基于openCV形态学的发票定位方法
CN111126319A (zh) * 2019-12-27 2020-05-08 山东旗帜信息有限公司 一种发票识别方法及装置
CN111241966A (zh) * 2020-01-06 2020-06-05 广东工业大学 一种发票目标区域的定位方法、装置、设备及介质
CN111368828A (zh) * 2020-02-27 2020-07-03 大象慧云信息技术有限公司 一种多票据的识别方法及装置
CN112257712A (zh) * 2020-10-29 2021-01-22 湖南星汉数智科技有限公司 一种火车票图像摆正方法、装置、计算机装置及计算机可读存储介质
WO2021151270A1 (zh) * 2020-05-20 2021-08-05 平安科技(深圳)有限公司 图像结构化数据提取方法、装置、设备及存储介质
WO2022147965A1 (zh) * 2021-01-09 2022-07-14 江苏拓邮信息智能技术研究院有限公司 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516541A (zh) * 2019-07-19 2019-11-29 金蝶软件(中国)有限公司 文本定位方法、装置、计算机可读存储介质和计算机设备
CN110516541B (zh) * 2019-07-19 2022-06-10 金蝶软件(中国)有限公司 文本定位方法、装置、计算机可读存储介质和计算机设备
CN110490100A (zh) * 2019-07-31 2019-11-22 中铁二院工程集团有限责任公司 基于深度学习的岩土自动识别定名方法及系统
CN110569874A (zh) * 2019-08-05 2019-12-13 深圳大学 一种垃圾分类方法、装置、智能终端及存储介质
CN110895690A (zh) * 2019-10-11 2020-03-20 南京邮电大学 一种基于openCV形态学的发票定位方法
CN111126319A (zh) * 2019-12-27 2020-05-08 山东旗帜信息有限公司 一种发票识别方法及装置
CN111241966A (zh) * 2020-01-06 2020-06-05 广东工业大学 一种发票目标区域的定位方法、装置、设备及介质
CN111368828A (zh) * 2020-02-27 2020-07-03 大象慧云信息技术有限公司 一种多票据的识别方法及装置
WO2021151270A1 (zh) * 2020-05-20 2021-08-05 平安科技(深圳)有限公司 图像结构化数据提取方法、装置、设备及存储介质
CN112257712A (zh) * 2020-10-29 2021-01-22 湖南星汉数智科技有限公司 一种火车票图像摆正方法、装置、计算机装置及计算机可读存储介质
CN112257712B (zh) * 2020-10-29 2024-02-27 湖南星汉数智科技有限公司 一种火车票图像摆正方法、装置、计算机装置及计算机可读存储介质
WO2022147965A1 (zh) * 2021-01-09 2022-07-14 江苏拓邮信息智能技术研究院有限公司 基于MixNet-YOLOv3和卷积递归神经网络CRNN的算术题批阅系统

Similar Documents

Publication Publication Date Title
CN109858414A (zh) 一种发票分块检测方法
CN109886359B (zh) 基于卷积神经网络的小目标检测方法及检测系统
RU2695489C1 (ru) Идентификация полей на изображении с использованием искусственного интеллекта
CN108537269B (zh) 一种弱交互式的物体检测深度学习方法及其系统
CN110490100A (zh) 基于深度学习的岩土自动识别定名方法及系统
CN109523520A (zh) 一种基于深度学习的染色体自动计数方法
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN109859163A (zh) 一种基于特征金字塔卷积神经网络的lcd缺陷检测方法
CN110472597A (zh) 基于深度学习的岩石图像风化程度检测方法及系统
CN110059734A (zh) 一种目标识别分类模型的训练方法、物体识别方法、装置、机器人和介质
CN108520273A (zh) 一种基于目标检测的稠密小商品快速检测识别方法
CN109978872B (zh) 基于白质纤维束的白质微结构特征筛选系统及方法
CN108596274A (zh) 基于卷积神经网络的图像分类方法
CN110287806A (zh) 一种基于改进ssd网络的交通标志识别方法
Liu et al. Subtler mixed attention network on fine-grained image classification
CN114387499A (zh) 一种海岛滨海湿地水鸟识别方法、分布查询系统及介质
CN111949535A (zh) 基于开源社区知识的软件缺陷预测装置及方法
CN116645586A (zh) 一种基于改进YOLOv5的港口集装箱损伤检测方法及系统
CN115034200A (zh) 图纸信息提取方法、装置、电子设备及存储介质
CN113762269A (zh) 基于神经网络的中文字符ocr识别方法、系统、介质及应用
CN111651361A (zh) 一种基于可视化页面的无脚本自动化测试方法
Li et al. Small Object Detection Algorithm Based on Feature Pyramid‐Enhanced Fusion SSD
CN115690549A (zh) 一种基于并联交互架构模型实现多维度特征融合的目标检测方法
CN113221855B (zh) 基于尺度敏感损失与特征融合的小目标检测方法和系统
Zhang et al. All-content text recognition method for financial ticket images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190607

WW01 Invention patent application withdrawn after publication