CN109977723A - 大票据图片文字识别方法 - Google Patents
大票据图片文字识别方法 Download PDFInfo
- Publication number
- CN109977723A CN109977723A CN201711403971.0A CN201711403971A CN109977723A CN 109977723 A CN109977723 A CN 109977723A CN 201711403971 A CN201711403971 A CN 201711403971A CN 109977723 A CN109977723 A CN 109977723A
- Authority
- CN
- China
- Prior art keywords
- picture
- bill
- region
- line
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000001514 detection method Methods 0.000 claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 13
- 238000013135 deep learning Methods 0.000 claims description 7
- 230000004927 fusion Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 230000001755 vocal effect Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 2
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 13
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000003909 pattern recognition Methods 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 239000000758 substrate Substances 0.000 description 3
- 230000002146 bilateral effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 238000011551 log transformation method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000004304 visual acuity Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/125—Finance or payroll
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
Abstract
本发明属于模式识别与人工智能技术领域,公开了一种大票据图片文字识别方法,所述方法包括:所述方法包括:将纸质票据转化为图片格式;对形成为图片格式的票据进行图像预处理;对预处理后的票据图片进行区域分割,得到该票据图片的多个图片块;对票据图片的多个图片块进行文本行区域的目标检测;对多个图片块中获取的各文本行区域进行融合,得到完整的文本行区域;获取票据图片中完整的文本行区域,进行图片文字转计算机文字;基于不同纸质票据的需求,给出特定区域的计算机文字结果。本发明解决了原有的票据识别耗时较长、易出错且识别过程复杂的问题。
Description
技术领域
本发明属于模式识别与人工智能技术领域,尤其是涉及一种大票据图片文字识别方法。
背景技术
随着企业的不断壮大以及企业流水的日益增长,企业票据数量也在不断增多,其中涉及到供应商开出的票据,企业员工出差需要报销的票据等等。而面对成千上万的企业票据,如何基于计算机技术,快速且高效的进行企业票据的自动识别成了大家关心的热点。现有处理企业纸质票据有以下几种方式:(1)通过招募对应岗位的人员,在基于人工肉眼识别基础上,开发一定的录入系统,通过人工的方式对票据所需要录入的信息进行手工录入和后续操作;(2)基于数字图像处理的方法,通过对纸质票据的图片进行预先分析,采用模版的方法对票据的固定区域进行操作,如图像二值化,前背景分离,前景轮廓提取,然后采用模式识别方法如图片文字分类,或者现有成熟的光学字符识别库,如谷歌维护的tesseract等对检测到的图片文字转换成计算机文字。
但是,上述方法都有着较为严重的缺陷:对于方法(1)来说,该方法不适用大规模票据的自动处理,且人工容易疲劳,随着人工工作时间的变长,疲劳会导致无论是票据处理的数量还是质量都会有所下降;对于方法(2)来说,这种方法虽然解决了方法(1)中的数量问题,然而基于不同类型的纸质票据,需要编写不同的模版处理流程,对于程序的开发以及后续维护问题较大,且基于传统的数字图像处理方法对图片本身包含的光照,字符清晰程度等属性有着非常严格的限制,并且针对图片本身大小也有一定的限制。
发明内容
针对现有技术中存在的上述缺陷,本发明的目的是提供一种大票据图片文字识别方法,以解决原有的票据识别耗时较长、易出错且识别过程复杂的问题。
本发明采用的技术方案如下:
一种大票据图片文字识别方法,所述方法包括:
S1、对纸质票据进行扫描,获取纸质票据图片;
S2、对纸质票据图片进行图像预处理;
S3、对图像预处理后的纸质票据图片进行区域分割,得到该纸质票据图片的多个图片块;
S4、对纸质票据图片的多个图片块进行文本行区域的目标检测;
S5、对多个图片块中获取的文本行区域进行融合,得到完整的文本行区域;
S6、获取纸质票据图片中完整的文本行区域,进行图片文字转计算机文字;
S7、基于不同纸质票据的需求,给出特定区域的计算机文字结果。
进一步的,在上述步骤S1中,对票据进行扫描的具体过程为:
基于字迹清晰,文字之间没有重叠的纸质票据基础上,设置扫描仪的dpi为300,并且正面对齐不要旋转,扫描出来的图片为I,其中I∈[0,255]H×W×3,是一个高度为H,宽度为W的3通道RGB图片,其中每个像素点取值为[0,255]。
进一步的,在获取纸质票据图片的基础上,对图片进行一定程度的图像预处理,包括:
采用OpenCV库中已有的操作函数,对纸质票据图片进行图像的双边滤波去噪,得到噪点较少的图片,然后针对某些表格式的票据,如增值税专用发票等,先进行傅立叶的快速变换,将图片的空间域信息转换到频域上,并基于频域结果进行图片角度的提取,依据提取到的角度对图片进行一定程度的旋转角度纠正,并可选的针对图片中的画质进行画质增强。
进一步的,在对纸质票据图片进行图像预处理之后,对纸质票据图片进行区域分割的过程具体包括:
通过将预处理后的纸质票据图片进行从左到右,从上到下的顺序,且重叠区域为N个像素,窗口大小为C×C进行区域分割,得到M个图片块,每个图片块的区域为:bi,j=I[i*(C-N):i*(C-N)+C,j*(C-N):j*(C-N)+C,:],其中,I表示图片,i表示行,j表示列,且
进一步的,对区域分割后的图片块进行文本行区域的目标检测的过程具体包括:
采用深度学习目标检测中的SSD模型对图片块进行文本行区域的目标检测,获取每个图片块中文本行区域的坐标。
进一步的,在获取到每个图片块中文本行区域的坐标后,进行文本行区域的融合的过程具体包括:
按照每个图片块原本位于纸质票据图片中的相对位置,对这M个图片块从下到上,从右到左的顺序进行处理。基于与当前图片块的左边和上边两个邻近图片块中N个像素的重叠区域,将检测到的文本行区域的坐标进行联通,并为了减去检测到的冗余重叠区域,先基于当前,邻近的左边,邻近的下边,邻近的左下四个图片块中过滤掉完全包含的子区域,并基于当前图片块与下边两个邻近图片块中N个像素的重叠区域,将检测到的文本行区域的坐标进行联通,最终得到完整的文本行区域的坐标。
进一步的,所述的图片文字转计算机文字,包括:
基于完整的文本行区域的坐标,获取纸质票据图片中每个完整的文本行区域。然后,采用深度学习中基于注意力机制的图片转文字模型,对获取的文字区域转计算机文字。
进一步的,在获取到了每个文本行区域的坐标及其对应的计算机文字基础上,基于特定的票据识别需求,给出不同区域的计算机文字结果。
与现有技术相比,本发明所述的一种大票据图片文字识别方法,达到了如下技术效果:
(1)本发明通过计算机技术处理由扫描仪扫描的纸质票据的图片,解决了以往需要人工录入纸质发票文字内容的麻烦。
(2)本发明基于现有的模式识别与人工智能中泛化性能优异的深度学习技术进行文本行区域检测和图片文字转计算机文字,解决了传统基于数字图像处理技术需要的图片多种预处理手段,以及对图片的光照、字体、文字与背景的对比度等各种属性强先验的要求。
(3)本发明摒弃了数字图像处理技术中的模版方案,在减少人工录入的需要和增加处理票据类型的种类基础上,从而能够适用于更广泛的纸质票据识别,达到节省企业开支和快速处理纸质票据的目的。
(4)通过对大图片进行区域分割和文本行区域融合,对扫描图片本身的要求只限于不小于500×500,从而能够适用于较大的票据扫描图片。
附图说明
图1为本发明一个实施例中的纸质票据的文字识别方法的流程图。
图2为本发明一个实施例中的纸质票据图片获取过程的流程图。
图3为本发明一个实施例中的纸质票据图片预处理过程的流程图。
图4为本发明一个实施例中的文本行区域检测过程的流程图。
图5为本发明一个实施例中的文本行区域识别过程的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出。其中,下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
图1是根据本发明一个实施例的一种大票据图片文字识别方法的流程图。
参照图1所示,一种大票据图片文字识别方法,包括步骤:
S100、获取纸质票据的图片。本实施例中,可通过扫描仪对纸质发票进行扫描,或者通过拍照的方式,进而得到图片,图片的格式包括但不限于JPEG、TIFF、RAW、BMP、GIF、PNG等。本发明实施例中所指的大票据图片是指满足2000像素点*2000像素点及以上的票据图片。
具体的,如图2所示,以扫描纸质票据为例,基于字迹清晰,文字之间没有重叠的纸质票据基础上,设置扫描仪的dpi为300,并且正面对齐不要旋转,放入扫描仪中进行扫描;当然,如果某纸质票据的字迹不清晰,则可设置的扫描仪分辨力更高。设定经扫描仪扫描出来的图片为I,其中I∈[0,255]H×W×3,是一个高度为H,宽度为W的3通道RGB图片,例如H=4000,W=3000,其中每个像素点取值为[0,255]。
S200、对扫描后的纸质票据图片进行图像预处理。
具体的,在获取纸质票据图片的基础上,对图片进行一定程度的图像预处理。如图3所示,在得到图片I之后,如步骤S201,采用OpenCV库中的bilateralFilter(双边滤波)函数对图片进行去噪处理,其中设置函数第二个窗口大小参数为d=5,如此来保证该函数的实时性。在得到去噪后的图片之后,因为在发票获取过程中,受到发票放入时候的人手抖动等环境因素导致的少量发票在经过扫描仪时会产生轻微的旋转。因此,针对某些表格式的票据,如增值税专用发票等,因其中的文字均是行排列,且上下有序,从而可以进行轻微的角度逆旋转来作为发票本身的角度修复,而针对其他非表格式的票据,因文字排布非严格的行排列,故而并无角度逆旋转这一步骤,即无下述的步骤S202及后续步骤。如步骤S202,先进行傅立叶的快速变换,将图片的空间域信息转换到频域上,再采用步骤S203并基于此进行hough直线检测,通过对图片的频域中高亮的线条进行拟合找到符合条件的那条斜线,从而得到对应的角度信息,再采用步骤S204根据提取到的角度对倾斜的图片进行一定程度的旋转角度纠正,比如构建一个仿射变换矩阵,然后调用warpAffine函数进行变换,就得到校正后的图像。可选的,还包括针对图片中的画质进行画质增强的步骤S205,其中本实施例中画质增强的方法包括但不限于如基于直方图均衡化的图像增强、基于拉普拉斯算子的图像增强、基于对数Log变换的图像增强、基于伽马变换的图像增强等等。S300、对图像预处理后的票据图片进行区域分割,得到该纸质票据图片的多个图片块。
在本实施例中,后续涉及到的单位皆以数字图像处理中通用的像素为单位。具体的,先将预处理后的票据图片按照顺序,按照从左到右,从上到下的顺序,且重叠区域为N个像素,窗口大小为C×C的正方形进行区域分割,得到M个图片块,其中一个图片块就对应着一个窗口划过图片时候获取的结果,如上述窗口大小为500×500,则基于该窗口获取的图片块大小也为500×500,故而当图片大小固定,窗口大小固定,则图片块的数量也可以计算得出。而窗口大小的选取是针对后续进行文字行区域检测时候选择的模型不同而定,如针对faster rcnn resnet101模型,则可选取1000×1000大小的窗口。基于准确度和速度之间的权衡,本发明选取了SSD模型作为文字行区域的检测模型。当然,窗口的轻微大小变化并不影响最后的文字行区域的检测结果。其中,每个图片块的区域为:bi,j=I[i*(C-N):i*(C-N)+C,j*(C-N):j*(C-N)+C,:],其中i表示行,j表示列,且例如选取N=50,C=500,则基于H=4000,W=3000基础上,可以得到63个图片块,计算得到每个图片块的区域为bi,j=I[i*450:i*450+500,j*450:j*450+500,:],其中,i∈[0,9],j∈[0,7]本领域技术人员应当理解的是,本实施例中对纸质票据图片是严格按照从左到右,从上到下的顺序进行区域分割的;为了满足后续的区域联通规则,基于此顺序进行分割,才能更好的使用倒序形式来进行分割区域的联通。当然,不排除采用其它分割的顺序。
S400、对纸质票据图片的多个图片块进行文字区域的目标检测。
具体的,在本实施例中,基于谷歌开源的Tensorflow框架,采用深度学习中的目标检测模型,如SSD模型对图片块进行文字区域的目标检测,获取每个图片块中文字区域的坐标。由于传统的VGG 16作为SSD的基底模型时,VGG本身参数量过大,即不利于模型的部署,也不利于模型的收敛,故更优选地,本实施例采用了Inception V2作为SSD模型的基底模型,在当选取基底模型时,还可选取如Mobile Net等其它模型。当然,本领域技术人员应当理解的,目标的深度检测不限于本实施例所列举的SSD检测模型,还可以采用诸如FasterR-CNN、R-FCN等检测模型。
如图4所示,具体来说,首先,基于步骤S401,先准备一些票据图片进行人工区域标注,优选以行为单位进行标注,通过鼠标在单行文本行区域从左上角划到右下角,使得以当前为对角线生成的长方形可以完全包含当前的单行文本区域,通过记录当前长方形的左上角的坐标点坐标(xmin,ymin)和右下角的坐标点坐标(xmax,ymax)以及其中包含的文字作为当前区域的采集信息,并将其组成训练集,然后通过SSD模型进行训练,直至收敛;再基于步骤S402,通过对所需要检测的图片进行图片预处理和后续的区域分割,然后对这些图片块通过目标检测模型进行文本行区域检测,最后如步骤S403,导出检测到的文本行区域的坐标。
S500、对多个图片块中获取的文本行区域进行融合,得到完整的文本行区域。
具体的,在获取到每个图片块中文字区域的坐标后,需要进行文字区域的融合,包括:按照每个图片块原本位于纸质票据图片中的相对位置,对这M个图片块从下到上,从右到左的顺序进行处理,该顺序为原来划定分割顺序的逆顺序。基于与当前图片块的左边和上边两个邻近图片块中N个像素的重叠区域,将检测到的文字区域的坐标进行联通,得到完整的文字区域的坐标。
如基于上述假设,其中H=4000,W=3000,N=50,C=500,M=63,此时i=5,j=6,因本发明皆是从0开始计数,故而当前图片块为原始纸质票据图片中第6行第7列网格对应的图片块。
融合过程具体包括如下:
(1)基于当前图片块从上往下50个像素的区域,即b5,6[0:50,:,:],与其相邻的上部图片块从下往上50个像素b4,6[450:500,:,:]区域,如果当前图片块该区域中某个文本区域与上部图片块该区域中的某个文本区域有相交,则将当前图片块中该文本区域融入到上部图片块对应的文本区域并删除当前图片块中该文本区域;
(2)基于当前图片块从左往右50个像素的区域,即b5,6[:,0:50,:],与其相邻的左部图片块从右往左50个像素b5,5[:,450:500,:]区域,如果当前图片块该区域中某个文本区域与左部图片块该区域中的某个文本区域有相交,则将当前图片块中该文本区域融入到左部图片块对应的文本区域并删除当前图片块中该文本区域;
(3)基于当前图片块相对位置,以当前图片块左下角为中心,选取四个图片块中重叠区域,即当前的b5,6[450:500,:,:],邻近的左边b5,5[450:500,:,:],邻近的下边b6,6[0:50,:,:],邻近的左下b6,5[0:50,:,:],选取这4个图片块中文本行区域与对应区域有相交的所有区域,在这所有的区域中,当某个区域完全位于另一个区域之内,则删除较小的那个;
(4)基于当前图片块从下到上50个像素的区域,即b5,6[450:500,:,:],与其相邻的下部图片块从上往下50个像素b6,6[0:50,:,:]区域,如果当前图片块该区域中某个文本区域与下边图片块该区域中的某个文本区域有相交,则将当前图片块中该文本区域融入到下面图片块对应的文本区域并删除当前图片块中该文本区域。
最后,经过上述融合和删除操作之后,收集所有图片块中的文本区域作为原始票据图片中的完整文本行区域。
S600、获取纸质票据图片中完整的文字区域,进行图片文字转计算机文字。
具体的,基于完整的文字区域的坐标,获取纸质票据图片中每个完整的文本行区域。然后,采用深度学习中基于注意力机制的图片转文字模型,对获取的文本行区域转计算机文字。
如图5所示,在实施步骤S601时,先通过人工标注这些票据图片,即基于上述步骤S401中区域标注的基础上标注其中的文本行内容,并将其组成训练集。接着基于深度学习中的注意力机制,通过对由CNN(卷积神经网络模型)和LSTM(长短时记忆网络)组成的CNN+LSTM组合网络进行训练,直至收敛;再基于步骤S602,通过由步骤S403输出并由后续坐标融合得到的完整文字区域基础上,对票据图片进行文本行区域提取,将该文本行区域放入CNN+LSTM模型进行文本行识别;最后如步骤S603,导出检测到的该行区域中的文字内容。
S700、基于不同纸质票据的需求,给出特定区域的计算机文字结果。
具体的,在获取到了每个文字区域的坐标及其对应的计算机文字基础上,基于特定的票据识别需求,给出不同区域的计算机文字结果。如对于票据来说,企业只需要其中的发票号码和发票代码,那么就通过坐标以及数字位数等规则,将其匹配,并输出所需要的结果。
本发明在基于扫描仪扫描得到的纸质票据图片基础上,能够自动的从中提取所需要的文字信息,提出了利用现有处理目标检测的深度学习模型来进行文字行区域的检测,并且提出了大图片的分割和文本行区域融合方法,对扫描图片本身的要求只限于不小于500×500,从而能够处理相对较大的图片。在减少人工录入的需要和增加处理票据类型的种类基础上,达到节省企业开支和快速处理纸质票据的目的。
上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (10)
1.一种大票据图片文字识别方法,其特征在于,所述方法包括:
步骤S1、将纸质票据转化为图片格式;
步骤S2、对形成为图片格式的票据进行图像预处理;
步骤S3、对预处理后的票据图片进行区域分割,得到该票据图片的多个图片块;
步骤S4、对票据图片的多个图片块进行文本行区域的目标检测;
步骤S5、对多个图片块中获取的各文本行区域进行融合,得到完整的文本行区域;
步骤S6、获取票据图片中完整的文本行区域,进行图片文字转计算机文字;
步骤S7、基于不同纸质票据的需求,给出特定区域的计算机文字结果。
2.根据权利要求1所述的方法,其特征在于,在步骤S2中,所述预处理包括:
对票据图片进行去噪处理;
其中,针对非表格式的票据图片,直接进入步骤S3进行图片分割;
针对表格式的票据图片,则进行图片角度修正的步骤。
3.根据权利要求2所述的方法,其特征在于,所述图片修正的步骤包括:
采用傅里叶变换,将图片的空间域信息转换到频域上;
通过Hough线检测,得到旋转角度;
进行角度逆旋转,恢复为原图片角度。
4.根据权利要求3所述的方法,其特征在于,在步骤S3中,对票据图片的分割具体包括:
将预处理后的票据图片设定分割顺序,且以重叠区域为N个像素,窗口大小为C×C进行区域分割,得到多个图片块,设定每个图片块的区域为:bi,j=I[i*(C-N):i*(C-N)+C,j*(C-N):j*(C-N)+C,:],其中,I表示图片,i表示行,j表示列,H表示高度,W表示宽度,且
5.根据权利要求4所述的方法,其特征在于,在所述步骤S4中,对区域分割后的图片块进行文本行区域的目标检测,包括:
以行为单位,对票据图片进行人工区域标注;
将标注好的图片组成训练集,通过目标检测模型进行训练,直至收敛;
将分割后的图片块放入训练好的目标检测模型进行文本行区域的目标检测,获取每个图片块中文本行区域的坐标并输出。
6.根据权利要求5所述的方法,其特征在于,在所述步骤S5中,对文本行区域的融合,包括:
按照每个图片块原本位于纸质票据图片中的相对位置,对每个图片块按照之前设定分割顺序的逆顺序进行处理;所述处理包括:
基于当前图片块,以及当前图片块邻近三个方位区域的共四个图片块,进行过滤,过滤掉完全包含的子区域;
基于当前图片块与邻近任一图片块中N个像素的区域存在相交的重叠区域,将当前图片块的文本区域融入到另一个区域,删除当前图片块的该重叠区域;
经过上述删除、过滤之后,收集所有图片块中的文本区域作为原始票据图片中的完整文本行区域。
7.根据权利要求6所述的方法,其特征在于,在所述步骤S6中,所述的图片文字转计算机文字,包括:
基于完整的文本行区域的坐标,获取票据图片中每个完整的文本行区域;
采用深度学习中基于注意力机制的图片转文字模型,对获取的文字区域转计算机文字。
8.根据权利要求7所述的方法,其特征在于,所述注意力机制的图片转文字模型由如下步骤所得:
基于票据文本行内容,人工标注票据图片的区域坐标,并将其组成训练集;
对基于深度学习的注意力机制的CNN与LSTM组成的混合模型进行训练,直至收敛;
将分割后的图片块的文本行区域放入训练完成的混合模型进行文本行识别。
9.根据权利要求3所述的方法,其特征在于,在恢复为原图片角度之后,还包括对图片画质进行增强处理的步骤。
10.如权利要求4所述的方法,其特征在于,所述目标检测模型为SSD模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711403971.0A CN109977723B (zh) | 2017-12-22 | 2017-12-22 | 大票据图片文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711403971.0A CN109977723B (zh) | 2017-12-22 | 2017-12-22 | 大票据图片文字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109977723A true CN109977723A (zh) | 2019-07-05 |
CN109977723B CN109977723B (zh) | 2021-10-22 |
Family
ID=67072096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711403971.0A Active CN109977723B (zh) | 2017-12-22 | 2017-12-22 | 大票据图片文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109977723B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689658A (zh) * | 2019-10-08 | 2020-01-14 | 北京邮电大学 | 一种基于深度学习的出租车票据识别方法和系统 |
CN111027443A (zh) * | 2019-12-04 | 2020-04-17 | 华南理工大学 | 一种基于多任务深度学习的票据文本检测方法 |
CN111144355A (zh) * | 2019-12-31 | 2020-05-12 | 北京师范大学 | 数据采集方法、装置、设备及计算机可读存储介质 |
CN111241955A (zh) * | 2020-01-03 | 2020-06-05 | 北京一览群智数据科技有限责任公司 | 一种票据信息提取方法及系统 |
CN111259882A (zh) * | 2020-01-14 | 2020-06-09 | 平安科技(深圳)有限公司 | 票据识别的方法、装置及计算机设备 |
CN111523537A (zh) * | 2020-04-13 | 2020-08-11 | 联讯益康医疗信息技术(武汉)有限公司 | 一种文字识别方法、存储介质及系统 |
CN111797827A (zh) * | 2020-05-18 | 2020-10-20 | 冠群信息技术(南京)有限公司 | 一种文字方向混排的自动化ocr识别方法 |
CN112541443A (zh) * | 2020-12-16 | 2021-03-23 | 平安科技(深圳)有限公司 | 发票信息抽取方法、装置、计算机设备及存储介质 |
CN112926564A (zh) * | 2021-02-25 | 2021-06-08 | 中国平安人寿保险股份有限公司 | 图片分析方法、系统、计算机设备和计算机可读存储介质 |
CN112949471A (zh) * | 2021-02-27 | 2021-06-11 | 浪潮云信息技术股份公司 | 基于国产cpu的电子公文识别复现方法及系统 |
TWI736230B (zh) * | 2019-12-27 | 2021-08-11 | 大陸商深圳市商湯科技有限公司 | 圖像處理方法、電子設備和儲存媒體 |
TWI747450B (zh) * | 2020-08-19 | 2021-11-21 | 中國鋼鐵股份有限公司 | 字元辨識方法、電子裝置與電腦程式產品 |
CN113780254A (zh) * | 2021-11-12 | 2021-12-10 | 阿里巴巴达摩院(杭州)科技有限公司 | 图片处理方法、装置、电子设备及计算机存储介质 |
CN112541443B (zh) * | 2020-12-16 | 2024-05-10 | 平安科技(深圳)有限公司 | 发票信息抽取方法、装置、计算机设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080310722A1 (en) * | 2007-06-15 | 2008-12-18 | Microsoft Corporation | Identifying character information in media content |
CN105608454A (zh) * | 2015-12-21 | 2016-05-25 | 上海交通大学 | 基于文字结构部件检测神经网络的文字检测方法及系统 |
CN107491730A (zh) * | 2017-07-14 | 2017-12-19 | 浙江大学 | 一种基于图像处理的化验单识别方法 |
-
2017
- 2017-12-22 CN CN201711403971.0A patent/CN109977723B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080310722A1 (en) * | 2007-06-15 | 2008-12-18 | Microsoft Corporation | Identifying character information in media content |
CN105608454A (zh) * | 2015-12-21 | 2016-05-25 | 上海交通大学 | 基于文字结构部件检测神经网络的文字检测方法及系统 |
CN107491730A (zh) * | 2017-07-14 | 2017-12-19 | 浙江大学 | 一种基于图像处理的化验单识别方法 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110689658A (zh) * | 2019-10-08 | 2020-01-14 | 北京邮电大学 | 一种基于深度学习的出租车票据识别方法和系统 |
CN111027443A (zh) * | 2019-12-04 | 2020-04-17 | 华南理工大学 | 一种基于多任务深度学习的票据文本检测方法 |
CN111027443B (zh) * | 2019-12-04 | 2023-04-07 | 华南理工大学 | 一种基于多任务深度学习的票据文本检测方法 |
TWI736230B (zh) * | 2019-12-27 | 2021-08-11 | 大陸商深圳市商湯科技有限公司 | 圖像處理方法、電子設備和儲存媒體 |
CN111144355A (zh) * | 2019-12-31 | 2020-05-12 | 北京师范大学 | 数据采集方法、装置、设备及计算机可读存储介质 |
CN111241955A (zh) * | 2020-01-03 | 2020-06-05 | 北京一览群智数据科技有限责任公司 | 一种票据信息提取方法及系统 |
CN111241955B (zh) * | 2020-01-03 | 2023-05-16 | 北京一览群智数据科技有限责任公司 | 一种票据信息提取方法及系统 |
CN111259882A (zh) * | 2020-01-14 | 2020-06-09 | 平安科技(深圳)有限公司 | 票据识别的方法、装置及计算机设备 |
CN111259882B (zh) * | 2020-01-14 | 2023-12-26 | 平安科技(深圳)有限公司 | 票据识别的方法、装置及计算机设备 |
CN111523537A (zh) * | 2020-04-13 | 2020-08-11 | 联讯益康医疗信息技术(武汉)有限公司 | 一种文字识别方法、存储介质及系统 |
CN111797827A (zh) * | 2020-05-18 | 2020-10-20 | 冠群信息技术(南京)有限公司 | 一种文字方向混排的自动化ocr识别方法 |
TWI747450B (zh) * | 2020-08-19 | 2021-11-21 | 中國鋼鐵股份有限公司 | 字元辨識方法、電子裝置與電腦程式產品 |
CN112541443B (zh) * | 2020-12-16 | 2024-05-10 | 平安科技(深圳)有限公司 | 发票信息抽取方法、装置、计算机设备及存储介质 |
CN112541443A (zh) * | 2020-12-16 | 2021-03-23 | 平安科技(深圳)有限公司 | 发票信息抽取方法、装置、计算机设备及存储介质 |
CN112926564A (zh) * | 2021-02-25 | 2021-06-08 | 中国平安人寿保险股份有限公司 | 图片分析方法、系统、计算机设备和计算机可读存储介质 |
CN112949471A (zh) * | 2021-02-27 | 2021-06-11 | 浪潮云信息技术股份公司 | 基于国产cpu的电子公文识别复现方法及系统 |
CN113780254A (zh) * | 2021-11-12 | 2021-12-10 | 阿里巴巴达摩院(杭州)科技有限公司 | 图片处理方法、装置、电子设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109977723B (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109977723A (zh) | 大票据图片文字识别方法 | |
CN109241894B (zh) | 一种基于表格定位和深度学习的票据内容识别系统和方法 | |
CN102567300B (zh) | 图片文档的处理方法及装置 | |
CN103034848B (zh) | 一种表单类型的识别方法 | |
CN110427853B (zh) | 一种智能票据信息提取处理的方法 | |
CN113706464A (zh) | 一种印刷品外观质量检测方法及系统 | |
CN111626145B (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
Xia et al. | Refined extraction of buildings with the semantic edge-assisted approach from very high-resolution remotely sensed imagery | |
CN110414517A (zh) | 一种用于配合拍照场景的快速高精度身份证文本识别算法 | |
CN107066997B (zh) | 一种基于图像识别的电气元件报价方法 | |
CN112364863A (zh) | 证照文档的文字定位方法及系统 | |
CN113743159A (zh) | 一种应用于电力企业的ocr方法 | |
Abdalla et al. | A vast dataset for Kurdish handwritten digits and isolated characters recognition | |
CN111539312A (zh) | 一种从图像中抽取表格的方法 | |
CN116363655A (zh) | 一种财务票据识别方法及系统 | |
Swaileh et al. | Versailles-FP dataset: wall detection in ancient floor plans | |
Peller | From paper map to geospatial vector layer: Demystifying the process | |
Zhang et al. | Text extraction for historical Tibetan document images based on connected component analysis and corner point detection | |
CN114066861A (zh) | 一种基于交叉算法边缘检测理论和视觉特征的煤矸识别方法 | |
CN114565749A (zh) | 一种电力建设现场签证文档关键内容识别方法及系统 | |
CN107886808B (zh) | 一种盲文方辅助标注方法及系统 | |
JP2004094427A (ja) | 帳票画像処理装置及び該装置を実現するためのプログラム | |
Liu et al. | Layout analysis of historical Tibetan documents | |
Chendage et al. | Study on Ancient Marathi Script Improvement using Digital Image Processing Techniques | |
CN116129456B (zh) | 一种产权权属信息识别录入方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 210042 Suning Headquarters, No. 1 Suning Avenue, Xuanwu District, Nanjing City, Jiangsu Province Patentee after: SUNING.COM Co.,Ltd. Address before: 210042 Suning Headquarters, No. 1 Suning Avenue, Xuanwu District, Nanjing City, Jiangsu Province Patentee before: SUNING COMMERCE GROUP Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |