CN107194400B - 一种财务报销全票据图片识别处理方法 - Google Patents
一种财务报销全票据图片识别处理方法 Download PDFInfo
- Publication number
- CN107194400B CN107194400B CN201710399045.4A CN201710399045A CN107194400B CN 107194400 B CN107194400 B CN 107194400B CN 201710399045 A CN201710399045 A CN 201710399045A CN 107194400 B CN107194400 B CN 107194400B
- Authority
- CN
- China
- Prior art keywords
- character
- picture
- invoice
- matrix
- row
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 239000011159 matrix material Substances 0.000 claims description 45
- 238000012549 training Methods 0.000 claims description 32
- 230000009466 transformation Effects 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 238000003708 edge detection Methods 0.000 claims description 3
- 230000002087 whitening effect Effects 0.000 claims description 3
- 238000012015 optical character recognition Methods 0.000 description 10
- 238000007726 management method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013145 classification model Methods 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10008—Still image; Photographic image from scanner, fax or copier
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
一种财务报销全票据图片识别处理方法,针对发票识别的特定场景做了一些优化,扩大发票识别类型,能识别所有类型的发票,并且识别更准确、效率更高,主要用于对各种类型的发票扫描成图片后进行识别和处理。具体包括:对扫描后的发票图片进行色彩预处理,为图片轮廓预处理提供输入数据;对经过色彩预处理的图片进行轮廓检测,排除发票纸张范围外的像素干扰;对经过轮廓检测的图片进行文字预处理,识别发票上的字符,形成字符集并输出;对输出的字符集进行图片识别处理,将识别处理结果按发票识别的语义组织为具有语义的结果对象,作为最终识别结果。
Description
技术领域
本发明涉及一种财务报销全票据图片识别处理方法,适用于公司人员的报销纸介发票的电子转换。
背景技术
企业中的财务票据是会计信息的主要的来源,也是会计对企业财务账目进行管理的基础。同时,也是国家有关部门管理、监督检查企业资金运作的有效方式和重要依据。因此企业的财务票据管理已成为会计管理中的一种重要规范。在市场经济快速发展和市场经济体制逐步完善的今天,企业的资金来源呈现出多元化。票据管理作为资金管理的重要环节,在财务管理中起着举足轻重的作用,是能否使企业内部监管得到强化,财务制度得到健全的重要保障。随着各行业企事业单位都在争相建立财务数据共享中心,以期望通过财务数据共享完善企业运营管理,加快发展步伐,企业与企业、企业与管理机构之间,利用电子数据、票据凭证影像来传递贸易信息越来越频繁,而传统人工审核发票、录入发票数据工作量大,效率低且易出错,事后查找困难。
传统数据采集是人工整理原始报销票据,然后进行扫描影像,再到会计人工录入,再到凭证审核,而智能数据采集方式是采用OCR(光学字符识别)扫描识别技术,自动采集发票上的会计要素,自动对票据建立索引并归档,提高凭证信息查阅的一致性与准确性,与传统的会计人工录入数据方案相比,OCR扫描识别方案可以减少70%的工作量。
目前,常用的OCR系统只能完成部分类型发票的扫描录入,且识别准确率不高,已不能满足当前财务报销的需要,更无法为建设财务数据共享中心提供有效的、全面的基础数据支撑。
发明内容
本发明的技术解决问题是:克服现有技术的不足,提出了一种财务报销全票据图片识别处理方法,不同类型的发票可统一扫描录入,实现了单位报销发票的电子化集中管理,提升了财务部门处理财务报销工作效率和准确性。
本发明的技术解决方案是:
一种财务报销全票据图片识别处理方法,包括如下步骤:
(1)对扫描后的发票图片进行色彩预处理,为图片轮廓预处理提供输入数据;
(2)对经过色彩预处理的图片进行轮廓检测,排除发票纸张范围外的像素干扰;
(3)对经过轮廓检测的图片进行文字预处理,识别发票上的字符,形成字符集并输出;
(4)对步骤(3)输出的字符集进行图片识别处理,将识别处理结果按发票识别的语义组织为具有语义的结果对象,作为最终识别结果。
所述步骤(1)对扫描后的发票图片进行色彩预处理,包括:
(1.1)将扫描后的发票图片进行RGB转换,生成RGB颜色空间数据;
(1.2)对所述RGB颜色空间数据进行白化二值处理,即识别在RGB颜色空间数据中色调为白色的像素,并产生结果掩码位图矩阵,作为图片轮廓预处理的输入数据。
将扫描后的发票图片进行RGB转换,使用PNG或JPG图片解析算法解析原始文件,产生内存位图I(m*n),其中,m为位图I的行数,n为I的列数,从而转换为RGB颜色空间数据,输出数据为m*n的矩阵,矩阵元素为R3={0-255,0-255,0-255},表示为RGB颜色空间的三元组向量。
所述步骤(2)对经过色彩预处理的图片进行轮廓检测,排除发票纸张范围外的像素干扰,具体为:
(2.1)使用Canny边缘检测算法对结果掩码位图矩阵进行轮廓检测,即对每个多边形计算环绕矩形,取面积最大者为环绕纸张的矩形,其矩形边缘即为轮廓;
(2.2)根据进行轮廓检测后的数据,对结果掩码位图矩阵计算其长边和水平线的夹角,并对RGB颜色空间数据以该角度作旋转变换,以校正纸张的偏角;
(2.3)对所述旋转变换后的数据进行蓝化二值处理,即识别在RGB颜色空间数据中色调为蓝色的像素,并产生前景矩阵Mtext,作为文字预处理的输入数据。
所述步骤(2.2)进行旋转变换具体为:对产生的纸张轮廓包围矩形R取其任意三点P1、P2、P3,求点间距离D12=D(P1,P2),D23=D(P2,P3),取长边,并求其与水平线夹角Ap=|Atan(x2-x1,y2-y1)|,如果Ap小于5度,则变为0;将位图矩阵I,即RGB颜色空间数据旋转Ap角度,以纠正其偏角;定义旋转后产生的新位图矩阵为I’。
所述步骤(3)对经过轮廓检测的图片进行文字预处理,具体为:
(3.1)对前景矩阵Mtext进行逐行扫描,确定行的个数以及每行的起始和终止位置;
(3.2)进行行内纵扫描以确定文字范围,从而得到分离后的文字矩形集合;
(3.3)将分离后的文字矩形集合中的文字矩形按照从上到下,从左到右的顺序排序,形成字符集并输出。
所述步骤(3.1)对前景矩阵Mtext进行逐行扫描,确定行的个数以及每行的起始和终止位置,具体为:对掩码矩阵Mtext进行间距为1的横向扫描线Reduction操作,根据每一行为1的像素数量,得出自变量为行索引的方波曲线,将每一个方波脉冲的范围[x0,x1]作为一行的行索引范围,从而检测到行的位置。
所述步骤(3.2)进行行内纵扫描以确定文字范围,从而得到分离后的文字矩形集合,具体为:对每一行进行列间距为1的纵向扫描线操作,得出列索引为自变量的曲线;将曲线范围正规化至[0,1]区间,并将小于0.05的值设置为0,根据方波脉冲波谷的位置确定文字之间的边界,从而得到分离后的文字矩形集合。
所述步骤(4)对输出的字符集进行图片识别处理,将识别处理结果按发票识别的语义组织为具有语义的结果对象,具体为:
(4.1)构建文字识别所用的神经网络模型结构;
(4.2)构建训练模型所用的训练集和验证集,训练集用于更新模型的权重,验证集用于跟踪训练效果;
(4.3)根据所述训练集,使用监督学习方法对构建的神经网络模型进行训练,并使其验证准确率达到预定标准或训练轮数达到预定最大轮数;
(4.4)将训练后的模型权重进行保存;
(4.5)选用权重最大的模型,对所述输出的字符集进行文字识别,得到在标签空间中的概率分布矩阵;
(4.6)按行循环访问概率分布矩阵中的每一行,扫描每一行最大峰值处得到其标签索引,从而转换为相应的字符,即识别结果;
(4.7)将识别结果按发票识别的语义组织为具有语义的结果对象,作为最终识别结果。
所述步骤(4.1)构建文字识别所用的神经网络模型结构,采用深度卷积神经网络。
所述构建训练集具体为:使用绘图指令以制定的字体在32*32位图中绘制标签字符;将前景矩阵Mtext转换为32*32的布尔掩码矩阵M’,将所有数据进行序列化。
本发明与现有技术相比的有益效果是:
(1)本发明方法针对发票识别的特定场景做了一些优化,扩大发票识别类型,能识别所有类型的发票,并且识别更准确、效率更高。与通用OCR算法相比,特定场景下,本算法可以根据图像特性、文字特性、色彩、清晰度等属性最大化执行效率和准确度;
(2)在训练模型上采取10种不同的字体对如下字符绘制训练集:0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUV WXYZ,因此每种字符产生10个样本。在训练时随机应用如下变化,以减少过拟合,提高神经网络的测试准确率,准确度可以达到95%以上;
(3)在识别模型方面采用深度卷积神经网络,其准确率远超过最近邻分类等传统统计分类模型,其效果已得到学术界的普遍认可。模型可以很好的缓冲输入图形的细节差别和移位问题,因此可以很好的解决文字识别中输入多变的问题;
(4)采取基于发票识别的场景进行建模,在这种模型下,文字分割步骤可以采取相对固定的方式,而无需采用监督学习的统计模型,因此无需准备人工标注的训练集,极大的减少了OCR研发的前期时间;
(5)可根据各种类型的发票内容自动进行基于语义的文本校正,相对上下文无关的OCR算法,可以利用上下文和语境信息最大程度上避免识别错误,从而提高准确率。
附图说明
图1为本发明OCR流程示意图;
图2为本发明图片色彩预处理流程示意图;
图3为本发明图片轮廓预处理流程示意图;
图4为本发明图片文字预处理流程示意图;
图5为本发明图片识别处理流程示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行进一步的详细描述。
如图1所示,本发明提出了一种对全票据发票图片进行识别和处理的方法,具体为包括如下步骤:
(1)如图2所示,对扫描后的发票图片进行色彩预处理,为图片轮廓预处理提供输入数据;
所述步骤(1)对扫描后的发票图片进行色彩预处理,包括:
(1.1)将扫描后的发票图片进行RGB转换,生成RGB颜色空间数据;
(1.2)对所述RGB颜色空间数据进行白化二值处理,即识别在RGB颜色空间数据中色调为白色的像素,并产生结果掩码位图矩阵,作为图片轮廓预处理的输入数据。
将扫描后的发票图片进行RGB转换,使用PNG或JPG图片解析算法解析原始文件,产生内存位图I(m*n),其中,m为位图I的行数,n为I的列数,从而转换为RGB颜色空间数据,输出数据为m*n的矩阵,矩阵元素为R3={0-255,0-255,0-255},表示为RGB颜色空间的三元组向量。
(2)如图3所示,对经过色彩预处理的图片进行轮廓检测,排除发票纸张范围外的像素干扰;
所述步骤(2)对经过色彩预处理的图片进行轮廓检测,排除发票纸张范围外的像素干扰,具体为:
(2.1)使用Canny边缘检测算法对结果掩码位图矩阵进行轮廓检测,点图产生强度为k的高斯模糊拷贝,随后采取DBSCAN聚类得到离群点。将离群点从原始点图中删除,完成去噪处理过程,对每个多边形计算环绕矩形,取面积最大者为环绕纸张的矩形,其矩形边缘即为轮廓;
(2.2)根据进行轮廓检测后的数据,对结果掩码位图矩阵计算其长边和水平线的夹角,并对RGB颜色空间数据以该角度作旋转变换,以校正纸张的偏角;
(2.3)对所述旋转变换后的数据进行蓝化二值处理,即识别在RGB颜色空间数据中色调为蓝色的像素,并产生前景矩阵Mtext,作为文字预处理的输入数据。
所述步骤(2.2)进行旋转变换具体为:对产生的纸张轮廓包围矩形R取其任意三点P1、P2、P3,求点间距离D12=D(P1,P2),D23=D(P2,P3),取长边,并求其与水平线夹角Ap=|Atan(x2-x1,y2-y1)|,如果Ap小于5度,则变为0;将位图矩阵I,即RGB颜色空间数据旋转Ap角度,以纠正其偏角;定义旋转后产生的新位图矩阵为I’。
(3)如图4所示,对经过轮廓检测的图片进行文字预处理,识别发票上的字符,形成字符集并输出;
所述步骤(3)对经过轮廓检测的图片进行文字预处理,具体为:
(3.1)对前景矩阵Mtext进行逐行扫描,确定行的个数以及每行的起始和终止位置;
所述步骤(3.1)对前景矩阵Mtext进行逐行扫描,确定行的个数以及每行的起始和终止位置,具体为:对掩码矩阵Mtext进行间距为1的横向扫描线Reduction操作,根据每一行为1的像素数量,得出自变量为行索引的方波曲线,将每一个方波脉冲的范围[x0,x1]作为一行的行索引范围,从而检测到行的位置。
(3.2)进行行内纵扫描以确定文字范围,从而得到分离后的文字矩形集合;所述步骤(3.2)进行行内纵扫描以确定文字范围,从而得到分离后的文字矩形集合,具体为:对每一行进行列间距为1的纵向扫描线操作,得出列索引为自变量的曲线;将曲线范围正规化至[0,1]区间,并将小于0.05的值设置为0,根据方波脉冲波谷的位置确定文字之间的边界,从而得到分离后的文字矩形集合。
(3.3)将分离后的文字矩形集合中的文字矩形按照从上到下,从左到右的顺序排序,形成字符集并输出。文本按照原有顺序(即左至右,上至下)进行排序。基本步骤为:
(3.3.1)在矩形集合中选出距离左上角最近的矩形,作为新行的首字符;
(3.3.2)搜索距离行尾字符最近的矩形,要求其X坐标增加,Y坐标与行尾矩形相比在某一范围内,将其加入行尾;
(3.3.3)当无法找到满足条件的矩形时,该行结束,进入下一行的识别。
(4)如图5所示,对步骤(3)输出的字符集进行图片识别处理,将识别处理结果按发票识别的语义组织为具有语义的结果对象,作为最终识别结果。
所述步骤(4)对输出的字符集进行图片识别处理,将识别处理结果按发票识别的语义组织为具有语义的结果对象,具体为:
(4.1)构建文字识别所用的神经网络模型结构;采用深度卷积神经网络,其准确率远超过最近邻分类等传统统计分类模型,其效果已得到学术界的普遍认可。模型可以很好的缓冲输入图形的细节差别和移位问题,因此可以很好的解决文字识别中输入多变的问题。;对发票识别的场景做如下建模:
(4.1.1)文字为打印体,因此相对工整、清晰;
(4.1.2)文字大小基本近似;
(4.1.3)可较容易的区分前景文字和背景文字;
在这种模型下,文字分割步骤可以采取相对固定的方式,而无需采用监督学习的统计模型,因此无需准备人工标注的训练集,极大的减少了OCR研发的前期时间。
(4.2)构建训练模型所用的训练集和验证集,训练集用于更新模型的权重,验证集用于跟踪训练效果;
所述构建训练集具体为:使用绘图指令以制定的字体在32*32位图中绘制标签字符;将前景矩阵Mtext转换为32*32的布尔掩码矩阵M’,将所有数据进行序列化。在训练模型上采取10种不同的字体对如下字符绘制训练集:0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTU VWXYZ,因此每种字符产生10个样本。在训练时随机应用如下变化,以减少过拟合,提高神经网络的测试准确率,准确度可以达到95%以上。
(4.3)根据所述训练集,使用监督学习方法对构建的神经网络模型进行训练,并使其验证准确率达到预定标准或训练轮数达到预定最大轮数;
(4.4)将训练后的模型权重进行保存;
(4.5)选用权重最大的模型,对所述输出的字符集进行文字识别,得到在标签空间中的概率分布矩阵;
(4.6)按行循环访问概率分布矩阵中的每一行,扫描每一行最大峰值处得到其标签索引,从而转换为相应的字符,即识别结果;
(4.7)将识别结果按发票识别的语义组织为具有语义的结果对象,作为最终识别结果。
实施例:
按照本发明方法对不同格式的发票图片进行识别处理,以十种不同格式的发票为例,通过扫描仪扫描成图片,扫描成图片的发票经过本发明方法识别处理全部识别成功,在通过内控检查后,符合内控要求的发票,自动生成报销单二维码编号。对于比如出租车票连号、重号等问题,都能够精确的进行识别和筛选,对不同格式、纸张大小的发票,全兼容,识别率超过现有OCR技术识别率,取得良好的效果。
Claims (8)
1.一种财务报销全票据图片识别处理方法,其特征在于包括如下步骤:
(1)对扫描后的发票图片进行色彩预处理,为图片轮廓预处理提供输入数据;
(2)对经过色彩预处理的图片进行轮廓检测,排除发票纸张范围外的像素干扰;具体为:
(2.1)使用Canny边缘检测算法对结果掩码位图矩阵进行轮廓检测,即对每个多边形计算环绕矩形,取面积最大者为环绕纸张的矩形,其矩形边缘即为轮廓;
(2.2)根据进行轮廓检测后的数据,对结果掩码位图矩阵计算其长边和水平线的夹角,并对RGB颜色空间数据以该角度作旋转变换,以校正纸张的偏角;
(2.3)对所述旋转变换后的数据进行蓝化二值处理,即识别在RGB颜色空间数据中色调为蓝色的像素,并产生前景矩阵Mtext,作为文字预处理的输入数据;
(3)对经过轮廓检测的图片进行文字预处理,识别发票上的字符,形成字符集并输出;具体为:
(3.1)对前景矩阵Mtext进行逐行扫描,确定行的个数以及每行的起始和终止位置;
(3.2)进行行内纵扫描以确定文字范围,从而得到分离后的文字矩形集合;
(3.3)将分离后的文字矩形集合中的文字矩形按照从上到下,从左到右的顺序排序,形成字符集并输出;
(4)对步骤(3)输出的字符集进行图片识别处理,将识别处理结果按发票识别的语义组织为具有语义的结果对象,作为最终识别结果,具体为:
(4.1)构建文字识别所用的神经网络模型结构;
(4.2)构建训练模型所用的训练集和验证集,训练集用于更新模型的权重,验证集用于跟踪训练效果;
(4.3)根据所述训练集,使用监督学习方法对构建的神经网络模型进行训练,并使其验证准确率达到预定标准或训练轮数达到预定最大轮数;
(4.4)将训练后的模型权重进行保存;
(4.5)选用权重最大的模型,对所述输出的字符集进行文字识别,得到在标签空间中的概率分布矩阵;
(4.6)按行循环访问概率分布矩阵中的每一行,扫描每一行最大峰值处得到其标签索引,从而转换为相应的字符,即识别结果;
(4.7)将识别结果按发票识别的语义组织为具有语义的结果对象,作为最终识别结果。
2.根据权利要求1所述的一种财务报销全票据图片识别处理方法,其特征在于:所述步骤(1)对扫描后的发票图片进行色彩预处理,包括:
(1.1)将扫描后的发票图片进行RGB转换,生成RGB颜色空间数据;
(1.2)对所述RGB颜色空间数据进行白化二值处理,即识别在RGB颜色空间数据中色调为白色的像素,并产生结果掩码位图矩阵,作为图片轮廓预处理的输入数据。
3.根据权利要求2所述的一种财务报销全票据图片识别处理方法,其特征在于:将扫描后的发票图片进行RGB转换,使用PNG或JPG图片解析算法解析原始文件,产生内存位图I(m*n),其中,m为位图I的行数,n为I的列数,从而转换为RGB颜色空间数据,输出数据为m*n的矩阵,矩阵元素为R3={0-255,0-255,0-255},表示为RGB颜色空间的三元组向量。
4.根据权利要求1所述的一种财务报销全票据图片识别处理方法,其特征在于:所述步骤(2.2)进行旋转变换具体为:对产生的纸张轮廓包围矩形R取其任意三点P1、P2、P3,求点间距离D12=D(P1,P2),D23=D(P2,P3),取长边,并求其与水平线夹角Ap=|arctan(x2-x1,y2-y1)|,如果Ap小于5度,则变为0;将位图矩阵I,即RGB颜色空间数据旋转Ap角度,以纠正其偏角;定义旋转后产生的新位图矩阵为I’。
5.根据权利要求1所述的一种财务报销全票据图片识别处理方法,其特征在于:所述步骤(3.1)对前景矩阵Mtext进行逐行扫描,确定行的个数以及每行的起始和终止位置,具体为:对掩码矩阵Mtext进行间距为1的横向扫描线Reduction操作,根据每一行为1的像素数量,得出自变量为行索引的方波曲线,将每一个方波脉冲的范围[x0,x1]作为一行的行索引范围,从而检测到行的位置。
6.根据权利要求1所述的一种财务报销全票据图片识别处理方法,其特征在于:所述步骤(3.2)进行行内纵扫描以确定文字范围,从而得到分离后的文字矩形集合,具体为:对每一行进行列间距为1的纵向扫描线操作,得出列索引为自变量的曲线;将曲线范围正规化至[0,1]区间,并将小于0.05的值设置为0,根据方波脉冲波谷的位置确定文字之间的边界,从而得到分离后的文字矩形集合。
7.根据权利要求1所述的一种财务报销全票据图片识别处理方法,其特征在于:所述步骤(4.1)构建文字识别所用的神经网络模型结构,采用深度卷积神经网络。
8.根据权利要求1所述的一种财务报销全票据图片识别处理方法,其特征在于:所述构建训练集具体为:使用绘图指令以制定的字体在32*32位图中绘制标签字符;将前景矩阵Mtext转换为32*32的布尔掩码矩阵M’,将所有数据进行序列化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710399045.4A CN107194400B (zh) | 2017-05-31 | 2017-05-31 | 一种财务报销全票据图片识别处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710399045.4A CN107194400B (zh) | 2017-05-31 | 2017-05-31 | 一种财务报销全票据图片识别处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107194400A CN107194400A (zh) | 2017-09-22 |
CN107194400B true CN107194400B (zh) | 2019-12-20 |
Family
ID=59876131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710399045.4A Expired - Fee Related CN107194400B (zh) | 2017-05-31 | 2017-05-31 | 一种财务报销全票据图片识别处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107194400B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108305262A (zh) * | 2017-11-22 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 文件扫描方法、装置及设备 |
CN108171127A (zh) * | 2017-12-13 | 2018-06-15 | 广东电网有限责任公司清远供电局 | 一种基于深度学习的发票自动识别方法 |
CN109741161B (zh) * | 2018-07-03 | 2023-08-15 | 平安科技(深圳)有限公司 | 商务卡关联监督方法、系统、终端及可读存储介质 |
CN108985287B (zh) * | 2018-07-09 | 2021-05-25 | 杭州圣吉奥软件有限公司 | 笔记本纸张和分类图标识别方法 |
CN109117814B (zh) * | 2018-08-27 | 2020-11-03 | 京东数字科技控股有限公司 | 图像处理方法、装置、电子设备及介质 |
CN109299259A (zh) * | 2018-09-26 | 2019-02-01 | 深圳壹账通智能科技有限公司 | 企业发票数据监测方法、装置、计算机设备和存储介质 |
CN111079735B (zh) * | 2018-10-22 | 2023-12-22 | 莱芜钢铁集团电子有限公司 | 一种铸坯端面字符识别方法及装置 |
CN109522900B (zh) * | 2018-10-30 | 2020-12-18 | 北京陌上花科技有限公司 | 自然场景文字识别方法及装置 |
CN109344815B (zh) * | 2018-12-13 | 2021-08-13 | 深源恒际科技有限公司 | 一种文档图像分类方法 |
CN109740548B (zh) * | 2019-01-08 | 2020-12-08 | 北京易道博识科技有限公司 | 一种报销票据图像分割方法及系统 |
CN109977957A (zh) * | 2019-03-04 | 2019-07-05 | 苏宁易购集团股份有限公司 | 一种基于深度学习的发票识别方法及系统 |
CN110188714A (zh) * | 2019-06-04 | 2019-08-30 | 言图科技有限公司 | 一种在聊天场景下实现财务管理的方法、系统及存储介质 |
CN110427853B (zh) * | 2019-07-24 | 2022-11-01 | 北京一诺前景财税科技有限公司 | 一种智能票据信息提取处理的方法 |
CN110991974A (zh) * | 2019-12-20 | 2020-04-10 | 贵州黔岸科技有限公司 | 基于gps的运输成本智能核算系统及方法 |
CN111582115B (zh) * | 2020-04-29 | 2024-02-02 | 广东电力信息科技有限公司 | 一种财务票据处理方法、装置、设备和可读存储介质 |
CN111695554B (zh) * | 2020-06-09 | 2023-02-21 | 广东小天才科技有限公司 | 一种文本矫正的方法、装置、电子设备和存储介质 |
CN112699867A (zh) * | 2020-09-27 | 2021-04-23 | 民生科技有限责任公司 | 一种固定版式目标图像要素信息提取方法及其系统 |
CN112801041A (zh) * | 2021-03-08 | 2021-05-14 | 北京市商汤科技开发有限公司 | 财务数据的报销方法、装置、设备及存储介质 |
CN114118949B (zh) * | 2021-11-09 | 2023-06-27 | 北京市燃气集团有限责任公司 | 一种票据的信息处理系统和方法 |
CN114463352A (zh) * | 2022-01-12 | 2022-05-10 | 济南超级计算技术研究院 | 玻片扫描图像目标分割提取方法及系统 |
CN114677566B (zh) * | 2022-04-08 | 2023-10-17 | 北京百度网讯科技有限公司 | 深度学习模型的训练方法、对象识别方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102208092A (zh) * | 2011-05-25 | 2011-10-05 | 重庆市电力公司永川供电局 | 财务票据报销自动处理方法 |
CN103617415A (zh) * | 2013-11-19 | 2014-03-05 | 北京京东尚科信息技术有限公司 | 一种自动识别发票的装置和方法 |
CN104751194A (zh) * | 2015-04-27 | 2015-07-01 | 陈包容 | 一种财务费用报销的处理方法及装置 |
CN106446954A (zh) * | 2016-09-29 | 2017-02-22 | 南京维睛视空信息科技有限公司 | 一种基于深度学习的字符识别方法 |
CN106650736A (zh) * | 2016-09-28 | 2017-05-10 | 浪潮软件集团有限公司 | 一种基于深度学习的汉字识别系统的实现方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101533517B (zh) * | 2009-04-15 | 2012-05-23 | 北京联合大学 | 一种基于结构特征的中国书画印章图像自动提取方法 |
CN103208004A (zh) * | 2013-03-15 | 2013-07-17 | 北京英迈杰科技有限公司 | 票据信息区域自动识别和提取方法及设备 |
CN104112128B (zh) * | 2014-06-19 | 2018-01-26 | 中国工商银行股份有限公司 | 应用于票据影像字符识别的数字图像处理系统及方法 |
RU2679209C2 (ru) * | 2014-12-15 | 2019-02-06 | Общество с ограниченной ответственностью "Аби Продакшн" | Обработка электронных документов для распознавания инвойсов |
CN105528604B (zh) * | 2016-01-31 | 2018-12-11 | 华南理工大学 | 一种基于ocr的票据自动识别与处理系统 |
CN105654072B (zh) * | 2016-03-24 | 2019-03-01 | 哈尔滨工业大学 | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 |
CN106096601B (zh) * | 2016-06-06 | 2019-06-18 | 深圳辰通智能股份有限公司 | 一种自动检测票据中字符类型的方法和系统 |
CN106557768B (zh) * | 2016-11-25 | 2021-07-06 | 北京小米移动软件有限公司 | 对图片中的文字进行识别的方法及装置 |
-
2017
- 2017-05-31 CN CN201710399045.4A patent/CN107194400B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102208092A (zh) * | 2011-05-25 | 2011-10-05 | 重庆市电力公司永川供电局 | 财务票据报销自动处理方法 |
CN103617415A (zh) * | 2013-11-19 | 2014-03-05 | 北京京东尚科信息技术有限公司 | 一种自动识别发票的装置和方法 |
CN104751194A (zh) * | 2015-04-27 | 2015-07-01 | 陈包容 | 一种财务费用报销的处理方法及装置 |
CN106650736A (zh) * | 2016-09-28 | 2017-05-10 | 浪潮软件集团有限公司 | 一种基于深度学习的汉字识别系统的实现方法 |
CN106446954A (zh) * | 2016-09-29 | 2017-02-22 | 南京维睛视空信息科技有限公司 | 一种基于深度学习的字符识别方法 |
Non-Patent Citations (3)
Title |
---|
Research on Chinese financial invoice recognition technology;Delie Ming et al;《Pattern Recognition Letters》;20030131;第24卷(第1-3期);第489-497页 * |
一种改进的自适应增值税发票字符识别方法研究;刘峰;《中国优秀硕士学位论文全文数据库信息科技辑》;20150315;第2015年卷(第3期);第I138-2225页 * |
饮食业地方税收发票识别算法研究与实现;尤权锋;《中国优秀硕士学位论文全文数据库信息科技辑》;20150115;第2015年卷(第1期);第I138-895页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107194400A (zh) | 2017-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107194400B (zh) | 一种财务报销全票据图片识别处理方法 | |
CN107067044B (zh) | 一种财务报销全票据智能审核系统 | |
EP1854051B1 (en) | Intelligent importation of information from foreign application user interface using artificial intelligence | |
US7295694B2 (en) | MICR-based optical character recognition system and method | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
US11436852B2 (en) | Document information extraction for computer manipulation | |
CN206975668U (zh) | 一种财务报销全票据智能审核系统 | |
CN109784341A (zh) | 一种基于lstm神经网络的医疗单据识别方法 | |
Caldeira et al. | Industrial optical character recognition system in printing quality control of hot-rolled coils identification | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN113158895B (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN107240185B (zh) | 一种冠字号识别方法、装置、设备及存储介质 | |
CN114004984B (zh) | 一种高压电缆附件工艺库图纸比对方法和系统 | |
CN113780087A (zh) | 一种基于深度学习的邮政包裹文本检测方法及设备 | |
CN114581928A (zh) | 一种表格识别方法及系统 | |
CN111553361B (zh) | 一种病理切片标签识别方法 | |
CN111414889B (zh) | 基于文字识别的财务报表识别方法及装置 | |
Yao et al. | Invoice detection and recognition system based on deep learning | |
CN112200789A (zh) | 一种图像识别的方法及装置、电子设备和存储介质 | |
Lincy et al. | An Enhanced Deep Learning Model for Handwritten Tamil Character Identification | |
RU2582064C1 (ru) | Способы и системы эффективного автоматического распознавания символов с использованием леса решений | |
KR20210034869A (ko) | 수기 표 이미지의 디지털 이미지 변환 방법 | |
CN111046874A (zh) | 一种基于模板匹配的单号识别方法 | |
Savitha et al. | Detection of single and multi-character Tulu text blocks | |
CN113792780B (zh) | 基于深度学习和图像后处理的集装箱号识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191220 |
|
CF01 | Termination of patent right due to non-payment of annual fee |