CN110738092B - 一种发票文本检测方法 - Google Patents

一种发票文本检测方法 Download PDF

Info

Publication number
CN110738092B
CN110738092B CN201910723111.8A CN201910723111A CN110738092B CN 110738092 B CN110738092 B CN 110738092B CN 201910723111 A CN201910723111 A CN 201910723111A CN 110738092 B CN110738092 B CN 110738092B
Authority
CN
China
Prior art keywords
invoice
text
detection method
image
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910723111.8A
Other languages
English (en)
Other versions
CN110738092A (zh
Inventor
张欢
李爱林
张仕洋
周先得
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huafu Technology Co ltd
Original Assignee
Shenzhen Huafu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huafu Information Technology Co ltd filed Critical Shenzhen Huafu Information Technology Co ltd
Priority to CN201910723111.8A priority Critical patent/CN110738092B/zh
Publication of CN110738092A publication Critical patent/CN110738092A/zh
Application granted granted Critical
Publication of CN110738092B publication Critical patent/CN110738092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明公开的属于发票文本检测技术领域,具体为一种发票文本检测方法,该发票文本检测方法的具体检测步骤如下:S1:输入图像:将需要检测发票文本的图像信息采集输入;S2:发票关键点检测与发票关键区域剪裁对齐;S3:发票文本框检测;S4:发票分类与坐标逆映射;S5:输出图像,准确度高:得益于选取发票上最明显的两个位置作为关键点,本方法第一步的关键点检测较为稳定与精确。在获取关键点后,发票中关键位置区域也能够迅速得出。鲁棒性高:即使发票图像发生旋转等变化,发票关键点仍能被稳定检出,保证了结果输出的稳定性。速度快:本方法的步骤S2和步骤S3是较为简单的任务,可用轻量网络进行解决,相对来说速度较快。

Description

一种发票文本检测方法
技术领域
本发明涉及发票文本检测技术领域,具体为一种发票文本检测方法。
背景技术
普通发票和专用发票是日常生活中经常使用的两种发票,两者票据面上的信息模式有相同部分也存在一定的差异,如何对这两种发票中的关键文本进行准确快速的检测是票据识别技术的关键。
现有方法之一是使用传统机器学习方法,如先对图像进行去噪处理,再进行灰度化,二值化,轮廓提取,形态学变换等方法确定票据位置以及文本位置,但该方法鲁棒性差、准确率低,不适合商用。
现有方法之二是使用深度学习方法中的通用物体检测方法对发票文本框进行检测,如使用物体检测网络先对发票进行分类与检测,然后在检测到的发票区域再使用检测网络对文本框进行检测,该方法的准确率大大高于传统方法,但通用物体检测方法往往只能检测水平矩形框,当文本发生倾斜时,水平矩形框里会留下太多空白无效区域,给检测效果带来影响。
现有方法之三是使用深度学习方法中的专用文本检测网络对发票进行文本检测,不少专用文本检测方法支持倾斜文本框检测,但这种网络往往十分臃肿,模型体积较大,对硬件要求高,对移动端部署不方便。
发明内容
本发明的目的在于提供一种发票文本检测方法,以解决上述背景技术中提出的现有的识别方法鲁棒性差、准确率低、不适合商用,通用物体检测方法往往只能检测水平矩形框,十分臃肿,模型体积较大,对硬件要求高,对移动端部署不方便的问题。
为实现上述目的,本发明提供如下技术方案:一种发票文本检测方法,该发票文本检测方法的具体检测步骤如下:
S1:输入图像:将需要检测发票文本的图像信息采集输入,使得输入的图像信息在显示区域内;
S2:发票关键点检测与发票关键区域剪裁对齐:对这关键点的检测,使用关键点检测方法或者先对关键点进行语义分割再求区域坐标均值,最终可得到关键区域的水平对齐图像;
S3:发票文本框检测:在获得水平对齐好的图像后,使用文本检测方法对该图像文本进行检测,包括传统检测方法或深度学习检测方法;
S4:发票分类与坐标逆映射:检测到文本框后,可以根据文本框的数目判断该发票是普票还是专票,由于普票比专票多一个校验码,统计检测框有6个即为专用发票,有7个则为普通发票,检测到文本框后,将文本框顶点坐标先映射回原图,在原图上再进行裁减,用之前求得投影矩阵的逆矩阵左乘坐标即可得到原图坐标,文本框顶点坐标映射回原图后,在原图上裁剪文字框;
S5:输出图像:将上述处理后的图像保存输出。
优选的,所述S2中取发票代码和发票号码的中心点作为检测的发票的关键点。
优选的,所述对关键点进行语义分割再求区域坐标均值的具体步骤为:用语义分割网络先分割出发票代码和发票号码的区域,再对分割出区域的像素集合坐标求均值,可得到关键点的坐标。
优选的,所述步骤S2和步骤S3均采用轻量级的文本检测模型进行图像处理。
优选的,所述S2中关键点检测方法的具体步骤为:将需要检测发票文本的图像信息输入到预设的卷积神经网络模型中,其中,所述卷积神经网络模型包括至少两个通道;获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对需要检测发票文本的图像信息进行内容理解,其中,所述分类数据为所述至少两个通道的输出值的均值。
与现有技术相比,本发明的有益效果是:
1)准确度高:得益于选取发票上最明显的两个位置作为关键点,本方法第一步的关键点检测较为稳定与精确。在获取关键点后,发票中关键位置区域也能够迅速得出。
2)鲁棒性高:即使发票图像发生旋转等变化,发票关键点仍能被稳定检出,保证了结果输出的稳定性。
3)速度快:本方法的步骤S2和步骤S3是较为简单的任务,可用轻量网络进行解决,相对来说速度较快。
附图说明
图1为本发明检测方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例:
请参阅图1,本发明提供一种技术方案:一种发票文本检测方法,该发票文本检测方法的具体检测步骤如下:
S1:输入图像:将需要检测发票文本的图像信息采集输入,使得输入的图像信息在显示区域内;
S2:发票关键点检测与发票关键区域剪裁对齐:对这关键点的检测,使用但不限于用关键点检测方法或者先对关键点进行语义分割再求区域坐标均值,最终可得到关键区域的水平对齐图像;
普通发票和专用发票的版面上均有发票代码和发票号码,它们是发票上字号最大的数字,即使发票图片发生倾斜或者模糊等状况,这两个位置仍然是比较显著的特征,取这两个位置的中心点作为我们要检测的发票关键点。
以先对关键点进行语义分割再求区域坐标均值为例,可先用语义分割网络先分割出发票代码和发票号码的区域,再对分割出区域的像素集合坐标求均值,可得到两个关键点的坐标。对两个位置语义分割,在对这两个区域的坐标求均值可得关键点坐标。
即使发票发生了旋转尺度等变换,我们所需检测文本框的相对位置还是比较固定的,在求得发票关键点后,可以用关键点大致推送出发票关键区域(指包含所要识别字符的区域)的位置。
将这两个关键点命名为PointCode和PointNum,以它们为基础,可求出从发票代码到发票号码的向量VecCode2Num=PointNum–PointCode。
由该向量再进一步推出其他四个向量(下图)。VecLeft(红),VecRight(灰),VecDown(绿),VecUp(蓝),其中VecLeft,VecRight是与VecCode2Num平行的向量,VecDown,VeUp则是与VecCode2Num垂直的向量。VecRight和VecLeft可通过VecCode2Num分别乘上正、负常数得出,VecDown,VecUp可先通过求VecCode2Num的法向量再乘上正、负常数得出。用两个关键点结合这四个向量可以确定发票关键区域的边界。
虽然选定了关键区域,但实际上我们需要检测的文本框只是区域中文本框的少数,而这些文本框主要集中在发票关键区域的上下两端,而中间区域不包含我们需要的信息,因此先将中间区域挖空再进行后续处理。在这里,我们选择6个点确定我们的挖空区域与剩余区域,并设定为1-6标号的6个点,其坐标计算方式如下:
PointOne=PointCode+VecLeft+VecUp
PointTwo=PointNum+VecRight+VecUp
PointFive=PointNum+VecRight+VecDown
PointSix=PointCode+VecLeft+VecDown
PointThree=PointTwo+ratio_1*(PointFive-PointTwo)
PointFour=PointTwo+(1-ratio_2)*(PointFive-PointTwo)
在这里,我们用两个参数ratio_1和ratio_2来控制无效区域的大小,它们对应上下两部分高度分别占总高度的比例,这两个参数是固定的常数。
中间区域被去掉后,发票关键区域被分成上下两块,我们将这上下两块分别通过投影变换映射到一张新图像的上下两部分。
新图像的尺寸并不一定要和原图所检测到关键区域尺寸相同,一般面积会缩小便于后续处理,但长宽在比例上应保持一致,以防图像过度失真。设新图像宽为width,高为height,设1’,2’,3’,4’,5’,6’这六个点为原图六个点映射后的坐标:(注意y轴的正方向是向下的):
PointOne’=(0,0)
PointTwo’=(width-1,0)
PointFive’=(width-1,height-1)
PointSix’=(0,height-1)
PointThree’=(width-1,ratio_1/(ratio_1+ratio_2)*height-1)
PointFour’=PointThree’
求投影变换矩阵需要三对坐标,原图的1,2,3号点对应新图像上的1’,2’,3’号点,原图4,5,6号点对应新图像4’,5’,6’号点。要求两个投影变换矩阵,坐标投影变换公式如下:
每代入三对坐标即可解出一个投影矩阵的6个参数,最终可解出两个投影矩阵,有了投影矩阵,新图像上下部分的每一个坐标都可在原图上找到对应的位置,再通过插值可得坐标RGB相应数值。最终可得到关键区域的水平对齐图像。
S3:发票文本框检测:在获得水平对齐好的图像后,使用文本检测方法对该图像文本进行检测,包括但不限于传统检测方法或深度学习检测方法;
由于新图像此时已经对齐至水平位置,其包含的文本框也基本处于水平,相对位置也基本固定,使得检测难度大大降低。可使用轻量级的文本检测模型。
注意有两个投影矩阵,先要判断文本框处于图片的上部还是下部来决定使用哪一个投影矩阵。
S4:发票分类与坐标逆映射:检测到文本框后,可以根据文本框的数目判断该发票是普票还是专票,由于普票比专票多一个校验码,统计检测框有6个即为专用发票,有7个则为普通发票,检测到文本框后,将文本框顶点坐标先映射回原图,在原图上再进行裁减,用之前求得投影矩阵的逆矩阵左乘坐标即可得到原图坐标,文本框顶点坐标映射回原图后,在原图上裁剪文字框;
S5:输出图像:将上述处理后的图像保存输出。
所述S2中取发票代码和发票号码的中心点作为检测的发票的关键点。
所述对关键点进行语义分割再求区域坐标均值的具体步骤为:用语义分割网络先分割出发票代码和发票号码的区域,再对分割出区域的像素集合坐标求均值,可得到关键点的坐标。
所述步骤S2和步骤S3均采用轻量级的文本检测模型进行图像处理。
所述S2中关键点检测方法的具体步骤为:将需要检测发票文本的图像信息输入到预设的卷积神经网络模型中,其中,所述卷积神经网络模型包括至少两个通道;获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对需要检测发票文本的图像信息进行内容理解,其中,所述分类数据为所述至少两个通道的输出值的均值。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明;因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种发票文本检测方法,其特征在于:该发票文本检测方法的具体检测步骤如下:
S1:输入图像:将需要检测发票文本的图像信息采集输入,使得输入的图像信息在显示区域内;
S2:发票关键点检测与发票关键区域剪裁对齐:对这关键点的检测,使用关键点检测方法或者先对关键点进行语义分割再求区域坐标均值,最终可得到关键区域的水平对齐图像;
S3:发票文本框检测:在获得水平对齐好的图像后,使用文本检测方法对该图像文本进行检测,包括传统检测方法或深度学习检测方法;
S4:发票分类与坐标逆映射:检测到文本框后,可以根据文本框的数目判断该发票是普票还是专票,由于普票比专票多一个校验码,统计检测框有6个即为专用发票,有7个则为普通发票,检测到文本框后,将文本框顶点坐标先映射回原图,在原图上再进行裁减,用之前求得投影矩阵的逆矩阵左乘坐标即可得到原图坐标,文本框顶点坐标映射回原图后,在原图上裁剪文字框;
S5:输出图像:将上述处理后的图像保存输出。
2.根据权利要求1所述的一种发票文本检测方法,其特征在于:所述S2中取发票代码和发票号码的中心点作为检测的发票的关键点。
3.根据权利要求1所述的一种发票文本检测方法,其特征在于:所述对关键点进行语义分割再求区域坐标均值的具体步骤为:用语义分割网络先分割出发票代码和发票号码的区域,再对分割出区域的像素集合坐标求均值,可得到关键点的坐标。
4.根据权利要求1所述的一种发票文本检测方法,其特征在于:所述步骤S2和步骤S3均采用轻量级的文本检测模型进行图像处理。
5.根据权利要求1所述的一种发票文本检测方法,其特征在于:所述S2中关键点检测方法的具体步骤为:将需要检测发票文本的图像信息输入到预设的卷积神经网络模型中,其中,所述卷积神经网络模型包括至少两个通道;
获取所述卷积神经网络模型输出的分类数据,并根据所述分类数据对需要检测发票文本的图像信息进行内容理解,其中,所述分类数据为所述至少两个通道的输出值的均值。
CN201910723111.8A 2019-08-06 2019-08-06 一种发票文本检测方法 Active CN110738092B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910723111.8A CN110738092B (zh) 2019-08-06 2019-08-06 一种发票文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910723111.8A CN110738092B (zh) 2019-08-06 2019-08-06 一种发票文本检测方法

Publications (2)

Publication Number Publication Date
CN110738092A CN110738092A (zh) 2020-01-31
CN110738092B true CN110738092B (zh) 2024-04-02

Family

ID=69267397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910723111.8A Active CN110738092B (zh) 2019-08-06 2019-08-06 一种发票文本检测方法

Country Status (1)

Country Link
CN (1) CN110738092B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753727B (zh) * 2020-06-24 2023-06-23 北京百度网讯科技有限公司 用于提取结构化信息的方法、装置、设备及可读存储介质
CN112200107A (zh) * 2020-10-16 2021-01-08 深圳市华付信息技术有限公司 一种发票文本检测方法
CN112347865A (zh) * 2020-10-21 2021-02-09 四川长虹电器股份有限公司 一种基于关键点检测的票据矫正方法
CN114267002B (zh) * 2022-03-02 2022-05-24 深圳市华付信息技术有限公司 卷烟厂制丝车间工况监测方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549843A (zh) * 2018-03-22 2018-09-18 南京邮电大学 一种基于图像处理的增值税发票识别方法
CN109741517A (zh) * 2018-12-26 2019-05-10 大象慧云信息技术有限公司 一种发票查验方法、装置和系统
CN110008956A (zh) * 2019-04-01 2019-07-12 深圳市华付信息技术有限公司 发票关键信息定位方法、装置、计算机设备及存储介质
CN110033000A (zh) * 2019-03-21 2019-07-19 华中科技大学 一种票据图像的文本检测与识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549843A (zh) * 2018-03-22 2018-09-18 南京邮电大学 一种基于图像处理的增值税发票识别方法
CN109741517A (zh) * 2018-12-26 2019-05-10 大象慧云信息技术有限公司 一种发票查验方法、装置和系统
CN110033000A (zh) * 2019-03-21 2019-07-19 华中科技大学 一种票据图像的文本检测与识别方法
CN110008956A (zh) * 2019-04-01 2019-07-12 深圳市华付信息技术有限公司 发票关键信息定位方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110738092A (zh) 2020-01-31

Similar Documents

Publication Publication Date Title
CN110738092B (zh) 一种发票文本检测方法
US8965127B2 (en) Method for segmenting text words in document images
CN103942797B (zh) 基于直方图和超像素的场景图像文字检测方法及系统
CN103310211B (zh) 一种基于图像处理的填注标记识别方法
CN115082419A (zh) 一种吹塑箱包生产缺陷检测方法
CN109685870B (zh) 信息标注方法及装置、标注设备及存储介质
WO2011123189A1 (en) Determining the scale of images
JP2021524976A (ja) カラーバーコード及びその色補正方法
CN102999886A (zh) 图像边缘检测器及标尺光栅栅线精度检测系统
CN112200117A (zh) 表格识别方法及装置
EP2110758B1 (en) Searching method based on layout information
CN109447117A (zh) 双层车牌识别方法、装置、计算机设备及存储介质
CN110288612A (zh) 铭牌定位与校正方法及设备
CN113609984A (zh) 一种指针式仪表读数识别方法、装置及电子设备
CN108288061A (zh) 一种基于mser快速在自然场景中定位倾斜文本的方法
CN105786957A (zh) 一种基于单元格邻接关系与深度优先遍历的表格排序方法
CN113392819B (zh) 一种批量化学术图像自动分割标注装置和方法
CN104881641B (zh) 基于移动设备的问卷和表格数字化识别方法及系统
CN112699704B (zh) 一种条形码的检测方法、装置、设备、存储装置
CN106056575B (zh) 一种基于似物性推荐算法的图像匹配方法
CN112329641A (zh) 一种表格识别方法、装置、设备及可读存储介质
JP2011087144A (ja) テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム
CN111814801A (zh) 一种机械图中标注串的提取方法
Salunkhe et al. Recognition of multilingual text from signage boards
CN103679170B (zh) 一种基于局部特征的显著区域检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee after: Shenzhen Huafu Technology Co.,Ltd.

Country or region after: China

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee before: SHENZHEN HUAFU INFORMATION TECHNOLOGY Co.,Ltd.

Country or region before: China