CN109657665A - 一种基于深度学习的发票批量自动识别系统 - Google Patents

一种基于深度学习的发票批量自动识别系统 Download PDF

Info

Publication number
CN109657665A
CN109657665A CN201811285202.XA CN201811285202A CN109657665A CN 109657665 A CN109657665 A CN 109657665A CN 201811285202 A CN201811285202 A CN 201811285202A CN 109657665 A CN109657665 A CN 109657665A
Authority
CN
China
Prior art keywords
invoice
character
image
invoice image
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811285202.XA
Other languages
English (en)
Other versions
CN109657665B (zh
Inventor
江熠铧
张学习
吴观河
孙志平
方博楷
张扬
罗健炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201811285202.XA priority Critical patent/CN109657665B/zh
Publication of CN109657665A publication Critical patent/CN109657665A/zh
Application granted granted Critical
Publication of CN109657665B publication Critical patent/CN109657665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07DHANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
    • G07D7/00Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
    • G07D7/20Testing patterns thereon
    • G07D7/202Testing patterns thereon using pattern matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于深度学习的发票批量自动识别系统,包括:发票图像获取模块,用于获取发票的扫描图并进行格式转换,得到发票图像进行保存;然后对发票图像进行摆正处理和归一化处理;预处理与定位模块,用于对归一化后的发票图像进行倾斜校正和数字区域定位;字符切割模块,用于对所述的数字区域中的字符进行切割,得到切割后的字符图像;字符识别模块,用于通过CNN卷积神经网络对切割后的字符图像进行字符识别;输出模块,用于将识别出的字符记录到Excel表格的对应位置,并对字符进行准确性判定与人工更正。本发明能快速、高效地完成发票上主要信息的识别,克服了以往只能靠人工对发票进行管理而存在的速度慢、效率低、出错率高的问题。

Description

一种基于深度学习的发票批量自动识别系统
技术领域
本发明涉及信息技术领域,具体涉及一种基于深度学习的发票批量自动识别系统。
背景技术
发票是日常生活中经常使用的一种凭据,如商业机构、政府机构、医疗机构、公安机构等都需要开具大量的发票。如今互联网技术发展迅猛,线上支付大量普及,随即也出现了相对应的电子发票,但电子发票还是有些弊端,如由于消费者自行打印的电子发票纸质以及打印效果都有差异,容易导致防伪性能消失,或者由于电子发票可以重复打印导致重复报销的风险增大,所以目前传统纸质发票还是广为使用。
发票主要是公司做账的依据,同时也是缴税的费用凭证,因此通常需要财务部门进行发票的管理工作。然而发票管理工作繁琐且乏味,其工作量大、需记录数据多,人为记录需要消耗大量的人力物力。随着技术的发展,现采用图像识别技术,可以快速,准确地提取发票的信息。从而大大减少发票处理时间,节省人力物力,且提高发票信息记录的准确率。
发明内容
本发明的目的是提供一种基于深度学习的发票批量自动识别系统,用以解决传统人工对发票管理记录存在的速度慢、效率低、出错率高的问题。
为了实现上述任务,本发明采用以下技术方案:
一种基于深度学习的发票批量自动识别系统,包括:
发票图像获取模块,用于获取发票的扫描图并进行格式转换,得到发票图像进行保存;然后对发票图像进行摆正处理和归一化处理;
预处理与定位模块,用于对归一化后的发票图像进行倾斜校正和数字区域定位;
字符切割模块,用于对所述的数字区域中的字符进行切割,得到切割后的字符图像;
字符识别模块,用于通过CNN卷积神经网络对切割后的字符图像进行字符识别;
输出模块,用于将识别出的字符记录到Excel表格的对应位置,并对字符进行准确性判定与人工更正。
进一步地,所述的对发票图像进行摆正处理和归一化处理,包括:
利用openCV的最小轮廓定位与仿射变换方法,得到摆正后的发票图像;
所述的归一化处理为:
检测发票图像的长度L、宽度R,计算长宽比例K=L/R;
若比例K<1.75,表示发票图像所对应的发票正常,将发票图像归一化至1200×700像素;
若比例K>1.75,表示发票图像所对应的发票不正常,即发票两侧带圆孔的纸条被撕掉;此时在发票图像左右两端分别填充长度为(1.714*R-L)/2、宽度为R的白色纸条图像,再将所述的发票图像与白色纸条图像共同归一化至1200×700像素;
将发票图像转换至R通道,若在发票图像的表头位置检测不到像素点,表示发票图像中发票进行了倒置,此时将发票图像旋转180°。
进一步地,所述的发票图像进行倾斜校正,包括:
读取归一化后的发票图像并进行灰度转换;
利用sobel算子在y方向上的差分阶数,去掉发票图像中的竖线,只检测横线;
利用OpenCV提供的HoughLinesP()函数,检测所述的横线中长度大于550像素的直线;
计算所述直线的平均斜率,根据平均斜率对所述的发票图像进行旋转校正。
进一步地,所述的数字区域定位,包括:
数字区域定位包括两个步骤:首先设定初始范围以进行粗定位,然后采用模板匹配法进行细定位,具体过程如下:
粗定位:对于发票图像上的每一个主要信息,设定一个包含该主要信息所在位置的初始范围,以对每一个主要信息进行粗定位;
细定位:建立每一个主要信息中特定标记的图像模块,利用图像模块在该主要信息的初始范围内采用标准平方差匹配法进行匹配,以匹配度最高的位置右侧的数字区域作为主要信息的图像。
进一步地,对所述的数字区域中的字符进行切割,得到切割后的字符图像,包括:
对于每个细定位得到的主要信息的图像,进行竖直方向的投影,即计算每列存在的像素点数V(x);
从左向右开始对一行字符进行水平扫描,一开始投影V(x)为0,直到V(x)不为0时,即为一个字符的起点,继续向右扫描至V(x)再次为0时,即为字符的终点;向右继续扫描,可扫描出每一个字符;对水平扫描到的每个字符进行标记,将每个字符起点、终点作为竖直切割点;根据每个字符的竖直切割点,对每个字符进行竖直切割;
对于每个经过竖直切割后的字符,再进行水平方向的投影,然后由上向下进行竖直扫描,以获得每个字符的水平切割点;然后根据水平切割点再对字符进行水平切割,由此得到切割后的字符图像。
进一步地,所述的CNN卷积神经网络采用AlexNet卷积神经网络,AlexNet的参数设置为:batch大小为256,迭代1000次,Learning rate初始化为0.001,采用step算法,每500次迭代衰减一次;Momentum值为0.9,weight decay为0.0005,每500个迭代输出一个snapshot。
进一步地,所述的对字符进行准确性判定与人工更正,包括:
若在Excel表格中识别出的一张发票图像的所有字符信息中:
发票金额+发票税额≠价税合计,则说明发票金额、发票税额、价税合计三个信息至少一个识别错误,则输出错误信息;
将购买方纳税人识别号、销售方纳税人识别号分别在纳税人信息表格中进行匹配,匹配度高于89%时,认为匹配成功,此时记录购买方纳税人识别号、销售方纳税人识别号在纳税人信息表格中对应的购买方纳税人名称、销售方纳税人名称;如匹配不成功,则输出错误信息;
对于所述的错误信息,在输出模块的显示界面进行人工检查和更正。
进一步地,所述的对字符进行准确性判定与人工更正,还包括:
识别出的两个发票号码相同,若不同,则至少一个识别错误,输出错误信息,进行人工检查和更正;
计算开票日期与当前日期的差值,大于设定的日期时,进行记录。
本发明具有以下技术特点:
1.本发明提出了一种自动识别发票上主要信息的系统,能快速、高效地完成发票上主要信息的识别,克服了以往只能靠人工对发票进行管理而存在的速度慢、效率低、出错率高的问题。
2.本发明系统将发票识别的主要信息录入到Excel表中,方便人工校正和后期使用。
附图说明
图1为本发明系统的结构示意图;
图2为增值税发票图像的版面图;
图3为发票的扫描图;
图4为发票两侧附带有可撕掉的白色带圆孔纸条的示意图;
图5为发票图像中各主要信息的特定标记示意图;
图6为发票图像采集至字符切割过程的流程示意图;
图7为边缘检测过程中检测横线的效果图;
图8为AlexNet网络模型图。
具体实施方式
本发明的总体设计思想是:采用扫描仪批量扫描发票获得发票图像并输入,对发票进行归一化处理,基于模板匹配算法的信息定位,投影算法的字符切割,再用CNN卷积神经网络进行字符识别,并加入判断与人工修改模块,可根据信息间的相互联系,自动判断信息识别是否有误,并可进行人工修改,提高系统的容错性。最后,将识别正确的信息自动记录到Excel相应的位置。
一种基于深度学习的发票批量自动识别系统,如图1所示,包括以下依次连接的模块:
1.发票图像获取模块
发票图像获取模块用于获取发票的扫描图,如图3所示,并将扫描图进行格式转换,转换为JPG格式的发票图像,保存在文件库中;利用openCV的最小轮廓定位与仿射变换方法,得到摆正后的发票图像,以完成发票图像的获取,然后对获取的发票图像进行归一化处理。
本实施例中,发票图像获取模块采用具有自动识别功能(OCR)和滤红功能(R通道)的扫描仪对发票进行扫描,得到pdf格式的发票扫描图,然后利用mupdf库将pdf格式的发票扫描图转换为JPG格式的发票图像。
获取到的发票图像中,普遍存在以下两种情况:第一种情况:对于增值税发票,其左右两侧附带有可撕掉的白色带圆孔纸条,如图4所示;一些情况下带圆孔纸条会被撕掉,使得撕掉后的发票尺寸与未撕时有差异;如直接将这种发票图像进行同样大小的归一化处理,发票图像会在水平方向上进行拉伸,字符宽度发生变化,不利于后续处理过程;第二种情况:发票在扫描时倒置,使得获取的发票图像中发票处于倒置状态,即旋转了180°。
从图3可以看到,获取发票图像后,为了避免上述两情况,以更好地进行发票图像的信息定位,需要对获取的发票图像进行归一化处理。
所述的发票图像获取模块还用于实现以下归一化功能:
(1)检测发票图像的长度L、宽度R,计算长宽比例K=L/R;
(2)若比例K<1.75,表示发票图像所对应的发票正常,将发票图像归一化至1200×700像素;
(3)若比例K>1.75,表示发票图像所对应的发票不正常,即发票两侧带圆孔的纸条被撕掉;此时:
在发票图像左右两端分别填充长度为(1.714*R-L)/2、宽度为R的白色纸条图像,再将所述的发票图像与白色纸条图像共同归一化至1200×700像素;
(4)由于发票表头盖有红色印章,因此将发票图像转换至R通道,若在发票图像的表头位置检测不到像素点,表示发票图像中发票进行了倒置,此时将发票图像旋转180°。
上述过程将发票图像归一化至同样的尺寸;具体地,由于目前发票的标准尺寸为长24cm,宽14cm,因此为减少发票图像处理时的计算量,同时能切割出清晰的字符,发明人经过大量的实验,设定归一化后发票图像的尺寸为1200×700像素。
2.预处理与定位模块
预处理与定位模块用于对归一化后的发票图像进行倾斜校正和数字区域定位;
2.1倾斜校正
尽管在发票图像获取模块中对图像进行了仿射变换,但发票图像还可能存在轻微倾斜。倾斜的发票图像会给数字分割和识别带来较大的干扰,识别率大幅降低。因此需要对发票图像进行倾斜校正。由于发票具有固定数目的等长的横线、竖线,因此可以通过计算发票中横线的角度来确定发票倾斜的角度。本方案利用Hough变换的方法检测发票图像中满足预设条件的直线,然后计算满足条件的直线的平均斜率,用求得的平均斜率作为图像倾斜校正的旋转角度,达到预期目标。具体步骤如下:
2.1.1读取归一化后的发票图像并进行灰度转换;
2.1.2边缘检测:利用sobel算子在y方向上的差分阶数,去掉发票图像中的竖线,只检测横线,如图7所示;
2.1.3Hough直线检测:利用OpenCV提供的HoughLinesP()函数,检测所述的横线中长度大于550像素的直线;
2.1.4计算所述直线的平均斜率,根据平均斜率对所述的发票图像进行旋转校正。
当发票图像倾斜角较小或者出现皱褶的情况,求最长直线的斜率可能会出现误检的情况,这时再旋转校正就达不到预期的效果。本方案选取多条满足给定长度的直线求斜率,再求均值,可以有效地避免直线误检的情况,从而准确的校正图像的倾斜。
2.2数字区域定位
数字区域定位包括两个步骤:首先设定初始范围以进行粗定位,然后采用模板匹配法进行细定位,具体过程如下:
如图2、图5所示,在发票上的各类信息众多,而财务人员只需要记录其中的几个主要信息(包含文字及数字),即购买方纳税人识别号、销售方纳税人识别号、发票号码(2个,其中一个为发票右上角“No”之后的一串数字,另一个为该串数字右下方的一串数字,如图2中的INO_1和INO_2)、开票日期、发票金额、发票税额以及价税合计。由于在前面的归一化和倾斜校正处理后,发票图像上各主要信息之间的相对位置几乎已经绝对固定,因此进行采用以下的方法进行粗定位和细定位:
2.2.1粗定位:对于发票图像上的每一个主要信息,设定一个包含该主要信息所在位置的初始范围,以对每一个主要信息进行粗定位。
例如对于销售方纳税人识别号(包含“纳税人识别号”这几个文字以及这几个文字之后的数字)这条主要信息,其在发票上的位置为左下角,经过前面的处理过程后,每个发票图像中该主要信息的位置基本上是固定的。因此对于该主要信息,可在发票图像的左下角画定一块包含该主要信息的矩形初始范围(矩形框),作为对该主要信息的粗定位。其他的主要信息也按相同的方法进行粗定位。
2.2.2细定位:建立每一个主要信息中特定标记的图像模块,利用图像模块在该主要信息的初始范围内采用标准平方差匹配法进行匹配,以匹配度最高的位置右侧的数字区域作为主要信息的图像;并且可确认几个主要信息之间的相互位置通过图像模块进行验证。
细定位所采用的方法是模板匹配法,例如对于“开票日期:2018年1月5日”这条主要信息,将这条主要信息中的文字“开票日期”作为该条主要信息的特定标记进行图像模块的建立。例如可选取“开票日期”这几个文字最小外接矩形框范围内的图像块作为特定标记的图像模块。
对于其他的主要信息,一般选取主要信息中数字前方或斜前方的文字或符号作为该主要信息的特定标记,如图5所示,例如“开票日期”、“¥”、“No”等。
由于每张发票图像中都包含“开票日期”,因此在前面的粗定位过程中,设定了每个主要信息的初始范围,细定位时在每个主要信息的初始范围内采用标准平方差匹配法进行匹配,匹配度最高的位置即特定标记的所在位置,特定标记右侧的数字区域的图像即为主要信息的图像,即要进行识别的具体数字信息。例如采用“开票日期”作为特定标记进行匹配时,发票图像上该主要信息的初始范围内进行匹配后,找到匹配度最高的位置即发票图像上“开票日期”这几个字所在的位置,则这几个字右侧的数字区域即为“2018年1月5日”这条数字信息。
所述的特定标记右侧的数字区域的大小根据不同的数字信息设定不同的大小,例如纳税人识别号较长,则右侧数字区域设定大一些,以包含所有数字信息;而发票税额的特定标记右侧区域可以设定小一些,每一种特定标记右侧数字区域的大小以能完全包含该区域的最大数字长度为准。
3.字符切割模块
字符切割模块用于对所述的主要信息的图像中的字符进行切割,得到切割后的字符图像,具体的切割步骤如下:
3.1对于每个细定位得到的主要信息的图像,进行竖直方向的投影,即计算每列存在的像素点数V(x);
3.2从左向右开始对一行字符进行水平扫描,一开始投影V(x)为0,直到V(x)不为0时,即为一个字符(汉字或数字)的起点X1,继续向右扫描至V(x)再次为0时,即为字符的终点X2;按照同样的方法向右继续扫描,可扫描出每一个字符;对水平扫描到的每个字符进行标记,将每个字符起点、终点作为竖直切割点;
同理,逐行对字符进行扫描,可得到每个字符的竖直切割点;
3.3根据每个字符的竖直切割点,对每个字符进行竖直切割;
3.4对于每个经过竖直切割后的字符,再进行水平方向的投影,然后由上向下进行竖直扫描,以获得每个字符的水平切割点;然后根据水平切割点再对字符进行水平切割,由此得到切割后的字符图像。
步骤3.4中进行竖直扫描时,采用和步骤3.1—3.3相同的方法,不同之处在于扫描方向不同,即将3.1-3.3中的“竖直”改为“水平”,在此不赘述。
4.字符识别模块
用于通过CNN卷积神经网络对切割后的字符图像进行字符识别。
Caffe是一个清晰且高效的深度学习框架,字符识别模块在进行字符识别时采用caffe框架进行训练后的AlexNet模型,如图8所示。AlexNet是一个卷积神经网络,其结构包括:
卷积层,一个卷积层包含多个卷积面,每个卷积面又关联一个卷积核。由上一层级的map经过卷积核处理,再通过激励函数就可以得到新一层的特征map,计算公式如下:
其中,Mj为输入特征图,为第l-1层的特征,为卷积核,为偏置,为输出的特征图,f(·)表示激活函数。
下采样层,也称为池化层,该层是对上一层的特征图做压缩处理,因此输出特征图的个数与上层特征图个数一致。计算公式为:
其中,为偏置,down(·)表示池化核函数,表示上一层输出特征图,为输出的特征图,f(·)表示激活函数。
全连接层,其向前传递与BP神经网络算法类似,计算前需要将输入的二维特征图展开成一维,再进行全连接计算,计算公式为:
其中,表示上一层输出特征图,为全连接偏置,为输出特征向量,为偏置,f(·)表示激活函数。
输出层,采用softmax分类器,以对本方案中的字符图像进行识别。
AlexNet训练采用随机梯度下降算法,使得互熵损失函数达到最小。本方案的训练过程为:建立不同主要信息所对应字符的文件夹,将切割后得到的字符图像进行人工分类,再在其中选出训练样本、测试样本。本方案的AlexNet共有8层,前五层为卷积层,后三层是全连接层,最后一个全连接层的输出具有10个输出,分别为0-9。其中卷积层用于特征提取,其中卷积是进行特征提取,池化作用是降维,全连接层用于图像分类。
AlexNet模型的参数设置为:batch大小为256,迭代1000次。Learning rate初始化为0.001,采用step算法,每500次迭代衰减一次。Momentum值为0.9,weight decay为0.0005,每500个迭代输出一个snapshot。
本实施例中,AlexNet模型的输入图片大小为224×224×3;
第一层卷积层,采用96个11×11的卷积核,滑动步长为4个像素,即输出96个特征图,作为比像素更为高级的特征;再进行最大值池化降维,得到大小55×55的特征图。
第二层,采用256个5×5的卷积核,产生256个特征图,再进行最大值池化降维,得到大小27×27的特征组;
第三、四层,采用384个3×3的卷积核,得到384个特征图;
第五层,采用256个3×3的卷积核,再进行最大值池化降维。得到256个大小为6×6的特征图;
第六、七层为全连接层,各有4096个节点;
第八层为最终分类结果层。
本实施例中,对数字字符进行0-9的分组,并各选取180张字符图片作为训练样本,60张作为测试样本,并归一化大小为28×28分别绑定标签为0,1,2,…,9。
5.输出模块
输出模块用于将识别出的字符记录到Excel表格的对应位置,并对字符进行准确性判定和人工更正;输出模块具有显示界面,例如显示屏,以便于人工核查修改。具体可借助libxl库,将识别出的字符自动记录到excel中对应位置。所述的对应位置是指,在Excel表格中,例如以第一列作为“购买方纳税人识别号”的记录列,第二列作为“销售方纳税人识别号”的记录列,则对第一张发票图像识别后,将“购买方纳税人识别号”该主要信息识别出的数字字符填写到第一列的第一行,对第二张发票图像识别后将“购买方纳税人识别号”该主要信息识别出的数字字符填写到第一列的第二行,以此类推。Excel表格中每一行记录的信息即为一张发票图像识别出的所有信息。
所述的准确性判定和人工更正包括:
若在Excel表格中识别出的一张发票图像的所有字符信息中:
5.1发票金额+发票税额≠价税合计,则说明发票金额、发票税额、价税合计三个信息至少一个识别错误,则输出错误信息,然后在输出模块的显示界面进行人工检查和更正。
5.2将购买方纳税人识别号、销售方纳税人识别号分别在纳税人信息表格中进行匹配,匹配度高于89%时,认为匹配成功,此时记录购买方纳税人识别号、销售方纳税人识别号在纳税人信息表格中对应的购买方纳税人名称、销售方纳税人名称;如匹配不成功,则输出错误信息,然后在输出模块的显示界面进行人工检查和更正。
由于纳税人识别号和纳税人名称存在一一对应关系,而财务人员处会有记录该信息的纳税人信息表格。该步骤的思路是,对于识别出的纳税人识别号(购买方、销售方),在纳税人信息表格进行匹配,纳税人识别号18位,允许2位识别错误,即识别率89%以上时,认为该纳税人识别号存在于纳税人信息表格中,将纳税人信息表格中该纳税人识别号对应的纳税人名称记录到所述的Excel表格中,并与Excel表格中的纳税人识别号进行对应关联。
5.3识别出的两个发票号码相同,若不同,则至少一个识别错误,输出错误信息,进行人工检查和更正;
所述的两个发票号码是指发票右上角“No”之后的一串数字,以及该串数字右下方的一串数字,两个都是发票号码,数字是相同的,如图2所示。
5.4计算开票日期与当前日期的差值,大于设定的日期时,进行记录。
有部分规定发票超过一定日期,例如180天时不能报销,则记录该发票,以便于后期查找。

Claims (8)

1.一种基于深度学习的发票批量自动识别系统,其特征在于,包括:
发票图像获取模块,用于获取发票的扫描图并进行格式转换,得到发票图像进行保存;然后对发票图像进行摆正处理和归一化处理;
预处理与定位模块,用于对归一化后的发票图像进行倾斜校正和数字区域定位;
字符切割模块,用于对所述的数字区域中的字符进行切割,得到切割后的字符图像;
字符识别模块,用于通过CNN卷积神经网络对切割后的字符图像进行字符识别;
输出模块,用于将识别出的字符记录到Excel表格的对应位置,并对字符进行准确性判定与人工更正。
2.如权利要求1所述的基于深度学习的发票批量自动识别系统,其特征在于,所述的对发票图像进行摆正处理和归一化处理,包括:
利用openCV的最小轮廓定位与仿射变换方法,得到摆正后的发票图像;
所述的归一化处理为:
检测发票图像的长度L、宽度R,计算长宽比例K=L/R;
若比例K<1.75,表示发票图像所对应的发票正常,将发票图像归一化至1200×700像素;
若比例K>1.75,表示发票图像所对应的发票不正常,即发票两侧带圆孔的纸条被撕掉;此时在发票图像左右两端分别填充长度为(1.714*R-L)/2、宽度为R的白色纸条图像,再将所述的发票图像与白色纸条图像共同归一化至1200×700像素;
将发票图像转换至R通道,若在发票图像的表头位置检测不到像素点,表示发票图像中发票进行了倒置,此时将发票图像旋转180°。
3.如权利要求1所述的基于深度学习的发票批量自动识别系统,所述的发票图像进行倾斜校正,包括:
读取归一化后的发票图像并进行灰度转换;
利用sobel算子在y方向上的差分阶数,去掉发票图像中的竖线,只检测横线;
利用OpenCV提供的HoughLinesP()函数,检测所述的横线中长度大于550像素的直线;
计算所述直线的平均斜率,根据平均斜率对所述的发票图像进行旋转校正。
4.如权利要求1所述的基于深度学习的发票批量自动识别系统,所述的数字区域定位,包括:
数字区域定位包括两个步骤:首先设定初始范围以进行粗定位,然后采用模板匹配法进行细定位,具体过程如下:
粗定位:对于发票图像上的每一个主要信息,设定一个包含该主要信息所在位置的初始范围,以对每一个主要信息进行粗定位;
细定位:建立每一个主要信息中特定标记的图像模块,利用图像模块在该主要信息的初始范围内采用标准平方差匹配法进行匹配,以匹配度最高的位置右侧的数字区域作为主要信息的图像。
5.如权利要求1所述的基于深度学习的发票批量自动识别系统,对所述的数字区域中的字符进行切割,得到切割后的字符图像,包括:
对于每个细定位得到的主要信息的图像,进行竖直方向的投影,即计算每列存在的像素点数V(x);
从左向右开始对一行字符进行水平扫描,一开始投影V(x)为0,直到V(x)不为0时,即为一个字符的起点,继续向右扫描至V(x)再次为0时,即为字符的终点;向右继续扫描,可扫描出每一个字符;对水平扫描到的每个字符进行标记,将每个字符起点、终点作为竖直切割点;根据每个字符的竖直切割点,对每个字符进行竖直切割;
对于每个经过竖直切割后的字符,再进行水平方向的投影,然后由上向下进行竖直扫描,以获得每个字符的水平切割点;然后根据水平切割点再对字符进行水平切割,由此得到切割后的字符图像。
6.如权利要求1所述的基于深度学习的发票批量自动识别系统,所述的CNN卷积神经网络采用AlexNet卷积神经网络,AlexNet的参数设置为:batch大小为256,迭代1000次,Learning rate初始化为0.001,采用step算法,每500次迭代衰减一次;Momentum值为0.9,weight decay为0.0005,每500个迭代输出一个snapshot。
7.如权利要求1所述的基于深度学习的发票批量自动识别系统,所述的对字符进行准确性判定与人工更正,包括:
若在Excel表格中识别出的一张发票图像的所有字符信息中:
发票金额+发票税额≠价税合计,则说明发票金额、发票税额、价税合计三个信息至少一个识别错误,则输出错误信息;
将购买方纳税人识别号、销售方纳税人识别号分别在纳税人信息表格中进行匹配,匹配度高于89%时,认为匹配成功,此时记录购买方纳税人识别号、销售方纳税人识别号在纳税人信息表格中对应的购买方纳税人名称、销售方纳税人名称;如匹配不成功,则输出错误信息;
对于所述的错误信息,在输出模块的显示界面进行人工检查和更正。
8.如权利要求1所述的基于深度学习的发票批量自动识别系统,所述的对字符进行准确性判定与人工更正,还包括:
识别出的两个发票号码相同,若不同,则至少一个识别错误,输出错误信息,进行人工检查和更正;
计算开票日期与当前日期的差值,大于设定的日期时,进行记录。
CN201811285202.XA 2018-10-31 2018-10-31 一种基于深度学习的发票批量自动识别系统 Active CN109657665B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811285202.XA CN109657665B (zh) 2018-10-31 2018-10-31 一种基于深度学习的发票批量自动识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811285202.XA CN109657665B (zh) 2018-10-31 2018-10-31 一种基于深度学习的发票批量自动识别系统

Publications (2)

Publication Number Publication Date
CN109657665A true CN109657665A (zh) 2019-04-19
CN109657665B CN109657665B (zh) 2023-01-20

Family

ID=66110489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811285202.XA Active CN109657665B (zh) 2018-10-31 2018-10-31 一种基于深度学习的发票批量自动识别系统

Country Status (1)

Country Link
CN (1) CN109657665B (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188743A (zh) * 2019-05-13 2019-08-30 武汉大学 一种出租车发票识别系统及方法
CN110287911A (zh) * 2019-06-28 2019-09-27 广东工业大学 一种发票的内容识别方法、装置、设备及存储介质
CN110472524A (zh) * 2019-07-25 2019-11-19 广东工业大学 基于深度学习的发票信息管理方法、系统和可读介质
CN110472505A (zh) * 2019-07-11 2019-11-19 深圳怡化电脑股份有限公司 票据流水号的识别方法、识别装置及终端
CN110533030A (zh) * 2019-08-19 2019-12-03 三峡大学 基于深度学习的太阳胶片图像时间戳信息提取方法
CN110647824A (zh) * 2019-09-03 2020-01-03 四川大学 基于计算机视觉技术的增值税发票版面提取方法
CN110751143A (zh) * 2019-09-26 2020-02-04 中电万维信息技术有限责任公司 一种电子发票信息的提取方法及电子设备
CN110991265A (zh) * 2019-11-13 2020-04-10 四川大学 一种火车票图像的版面提取方法
CN111104844A (zh) * 2019-10-12 2020-05-05 中国平安财产保险股份有限公司 多发票信息录入方法、装置、电子设备及存储介质
CN111209792A (zh) * 2019-12-02 2020-05-29 河南科技学院 增值税普通发票的图像识别方法及装置
CN111368828A (zh) * 2020-02-27 2020-07-03 大象慧云信息技术有限公司 一种多票据的识别方法及装置
CN111476109A (zh) * 2020-03-18 2020-07-31 深圳中兴网信科技有限公司 票据处理方法、票据处理装置和计算机可读存储介质
CN111652162A (zh) * 2020-06-08 2020-09-11 成都知识视觉科技有限公司 一种医疗单证结构化知识提取的文本检测与识别方法
CN112257712A (zh) * 2020-10-29 2021-01-22 湖南星汉数智科技有限公司 一种火车票图像摆正方法、装置、计算机装置及计算机可读存储介质
CN112329118A (zh) * 2020-11-25 2021-02-05 无锡市建筑设计研究院有限责任公司 提取结构计算图中最大值的方法、装置、终端和存储介质
CN112446346A (zh) * 2020-12-10 2021-03-05 国网辽宁省电力有限公司丹东供电公司 一种图像数据扫描处理方法
CN112949455A (zh) * 2021-02-26 2021-06-11 武汉天喻信息产业股份有限公司 一种增值税发票识别系统及方法
CN113011407A (zh) * 2021-02-05 2021-06-22 国网浙江义乌市供电有限公司 一种电费复核单据自动识别、分拣投递的系统和方法
CN113469166A (zh) * 2021-07-19 2021-10-01 国网冀北电力有限公司唐山供电公司 一种基于ai技术的变电站二次设备图文台账识别方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010108113A (ja) * 2008-10-29 2010-05-13 Hitachi Computer Peripherals Co Ltd 文字認識装置
CN103208004A (zh) * 2013-03-15 2013-07-17 北京英迈杰科技有限公司 票据信息区域自动识别和提取方法及设备
CN105825212A (zh) * 2016-02-18 2016-08-03 江西洪都航空工业集团有限责任公司 一种基于Hadoop的分布式车牌识别方法
US20170083792A1 (en) * 2015-09-22 2017-03-23 Xerox Corporation Similarity-based detection of prominent objects using deep cnn pooling layers as features
CN107545239A (zh) * 2017-07-06 2018-01-05 南京理工大学 一种基于车牌识别与车辆特征匹配的套牌检测方法
CN107945194A (zh) * 2017-10-31 2018-04-20 四川长虹电器股份有限公司 基于OpenCV技术的票据分割方法
WO2018105062A1 (ja) * 2016-12-07 2018-06-14 オリンパス株式会社 画像処理装置及び画像処理方法
CN108171127A (zh) * 2017-12-13 2018-06-15 广东电网有限责任公司清远供电局 一种基于深度学习的发票自动识别方法
CN108549843A (zh) * 2018-03-22 2018-09-18 南京邮电大学 一种基于图像处理的增值税发票识别方法
CN108596066A (zh) * 2018-04-13 2018-09-28 武汉大学 一种基于卷积神经网络的字符识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010108113A (ja) * 2008-10-29 2010-05-13 Hitachi Computer Peripherals Co Ltd 文字認識装置
CN103208004A (zh) * 2013-03-15 2013-07-17 北京英迈杰科技有限公司 票据信息区域自动识别和提取方法及设备
US20170083792A1 (en) * 2015-09-22 2017-03-23 Xerox Corporation Similarity-based detection of prominent objects using deep cnn pooling layers as features
CN105825212A (zh) * 2016-02-18 2016-08-03 江西洪都航空工业集团有限责任公司 一种基于Hadoop的分布式车牌识别方法
WO2018105062A1 (ja) * 2016-12-07 2018-06-14 オリンパス株式会社 画像処理装置及び画像処理方法
CN107545239A (zh) * 2017-07-06 2018-01-05 南京理工大学 一种基于车牌识别与车辆特征匹配的套牌检测方法
CN107945194A (zh) * 2017-10-31 2018-04-20 四川长虹电器股份有限公司 基于OpenCV技术的票据分割方法
CN108171127A (zh) * 2017-12-13 2018-06-15 广东电网有限责任公司清远供电局 一种基于深度学习的发票自动识别方法
CN108549843A (zh) * 2018-03-22 2018-09-18 南京邮电大学 一种基于图像处理的增值税发票识别方法
CN108596066A (zh) * 2018-04-13 2018-09-28 武汉大学 一种基于卷积神经网络的字符识别方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188743A (zh) * 2019-05-13 2019-08-30 武汉大学 一种出租车发票识别系统及方法
CN110287911A (zh) * 2019-06-28 2019-09-27 广东工业大学 一种发票的内容识别方法、装置、设备及存储介质
CN110472505A (zh) * 2019-07-11 2019-11-19 深圳怡化电脑股份有限公司 票据流水号的识别方法、识别装置及终端
CN110472505B (zh) * 2019-07-11 2022-03-08 深圳怡化电脑股份有限公司 票据流水号的识别方法、识别装置及终端
CN110472524A (zh) * 2019-07-25 2019-11-19 广东工业大学 基于深度学习的发票信息管理方法、系统和可读介质
CN110472524B (zh) * 2019-07-25 2022-09-13 广东工业大学 基于深度学习的发票信息管理方法、系统和可读介质
CN110533030A (zh) * 2019-08-19 2019-12-03 三峡大学 基于深度学习的太阳胶片图像时间戳信息提取方法
CN110647824A (zh) * 2019-09-03 2020-01-03 四川大学 基于计算机视觉技术的增值税发票版面提取方法
CN110647824B (zh) * 2019-09-03 2022-06-28 四川大学 基于计算机视觉技术的增值税发票版面提取方法
CN110751143A (zh) * 2019-09-26 2020-02-04 中电万维信息技术有限责任公司 一种电子发票信息的提取方法及电子设备
CN111104844A (zh) * 2019-10-12 2020-05-05 中国平安财产保险股份有限公司 多发票信息录入方法、装置、电子设备及存储介质
CN111104844B (zh) * 2019-10-12 2023-11-14 中国平安财产保险股份有限公司 多发票信息录入方法、装置、电子设备及存储介质
CN110991265A (zh) * 2019-11-13 2020-04-10 四川大学 一种火车票图像的版面提取方法
CN110991265B (zh) * 2019-11-13 2022-03-04 四川大学 一种火车票图像的版面提取方法
CN111209792A (zh) * 2019-12-02 2020-05-29 河南科技学院 增值税普通发票的图像识别方法及装置
CN111368828A (zh) * 2020-02-27 2020-07-03 大象慧云信息技术有限公司 一种多票据的识别方法及装置
CN111476109A (zh) * 2020-03-18 2020-07-31 深圳中兴网信科技有限公司 票据处理方法、票据处理装置和计算机可读存储介质
CN111652162A (zh) * 2020-06-08 2020-09-11 成都知识视觉科技有限公司 一种医疗单证结构化知识提取的文本检测与识别方法
CN112257712A (zh) * 2020-10-29 2021-01-22 湖南星汉数智科技有限公司 一种火车票图像摆正方法、装置、计算机装置及计算机可读存储介质
CN112257712B (zh) * 2020-10-29 2024-02-27 湖南星汉数智科技有限公司 一种火车票图像摆正方法、装置、计算机装置及计算机可读存储介质
CN112329118A (zh) * 2020-11-25 2021-02-05 无锡市建筑设计研究院有限责任公司 提取结构计算图中最大值的方法、装置、终端和存储介质
CN112329118B (zh) * 2020-11-25 2024-05-24 无锡市建筑设计研究院有限责任公司 提取结构计算图中最大值的方法、装置、终端和存储介质
CN112446346A (zh) * 2020-12-10 2021-03-05 国网辽宁省电力有限公司丹东供电公司 一种图像数据扫描处理方法
CN113011407A (zh) * 2021-02-05 2021-06-22 国网浙江义乌市供电有限公司 一种电费复核单据自动识别、分拣投递的系统和方法
CN112949455A (zh) * 2021-02-26 2021-06-11 武汉天喻信息产业股份有限公司 一种增值税发票识别系统及方法
CN112949455B (zh) * 2021-02-26 2024-04-05 武汉天喻信息产业股份有限公司 一种增值税发票识别系统及方法
CN113469166A (zh) * 2021-07-19 2021-10-01 国网冀北电力有限公司唐山供电公司 一种基于ai技术的变电站二次设备图文台账识别方法

Also Published As

Publication number Publication date
CN109657665B (zh) 2023-01-20

Similar Documents

Publication Publication Date Title
CN109657665A (zh) 一种基于深度学习的发票批量自动识别系统
US9639751B2 (en) Property record document data verification systems and methods
CN108960223B (zh) 基于票据智能识别自动生成凭证的方法
US6400845B1 (en) System and method for data extraction from digital images
EP0969407B1 (en) A method and apparatus for processing documents in an image-based document processing system
US8064703B2 (en) Property record document data validation systems and methods
KR101515256B1 (ko) 동적 문서 식별 프레임워크를 사용한 문서 검증
JP2575539B2 (ja) 書類上の金額フィールドの位置特定方法および識別方法
CN103995904B (zh) 一种影像档案电子资料的识别系统
CN110442744A (zh) 提取图像中目标信息的方法、装置、电子设备及可读介质
CN110427853B (zh) 一种智能票据信息提取处理的方法
CN108681735A (zh) 基于卷积神经网络深度学习模型的光学字符识别方法
CN111597958B (zh) 一种高度自动化的票据分类方法及系统
US20140268250A1 (en) Systems and methods for receipt-based mobile image capture
CN110263616A (zh) 一种文字识别方法、装置、电子设备及存储介质
CN108364037A (zh) 识别手写汉字的方法、系统及设备
CN114998905A (zh) 一种复杂结构化文档内容的校验方法、装置与设备
CN114202759A (zh) 基于深度学习的多币种纸币冠字号识别方法和装置
CN110210467A (zh) 一种文本图像的公式定位方法、图像处理装置、存储介质
US20070217691A1 (en) Property record document title determination systems and methods
CN111881880A (zh) 一种基于新型网络的票据文本识别方法
CN116798061A (zh) 一种票据审核识别方法、装置、终端和存储介质
CN105956590A (zh) 字符识别方法和字符识别系统
CN109918679A (zh) 一种解析纸质保单数据的方法
Sylwester et al. A trainable, single-pass algorithm for column segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant