CN103034848A - 一种表单类型的识别方法 - Google Patents

一种表单类型的识别方法 Download PDF

Info

Publication number
CN103034848A
CN103034848A CN2012105528594A CN201210552859A CN103034848A CN 103034848 A CN103034848 A CN 103034848A CN 2012105528594 A CN2012105528594 A CN 2012105528594A CN 201210552859 A CN201210552859 A CN 201210552859A CN 103034848 A CN103034848 A CN 103034848A
Authority
CN
China
Prior art keywords
list
identified
summit
special characteristic
templat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105528594A
Other languages
English (en)
Other versions
CN103034848B (zh
Inventor
胡希驰
史培培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Founder International Co Ltd
Founder International Beijing Co Ltd
Original Assignee
Founder International Co Ltd
Founder International Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder International Co Ltd, Founder International Beijing Co Ltd filed Critical Founder International Co Ltd
Priority to CN201210552859.4A priority Critical patent/CN103034848B/zh
Publication of CN103034848A publication Critical patent/CN103034848A/zh
Application granted granted Critical
Publication of CN103034848B publication Critical patent/CN103034848B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本发明公开了一种表单类型的识别方法,该方法首先根据已知表单类型制作表单模板,并提取表单模板的特定特征;然后获取待识别表单的图像,并对齐表单顶点;最后提取图像中待识别表单的特定特征,比对待识别表单的特定特征与各个表单模板的特定特征,统计各个表单模板的得票,得票最高的表单模板为待识别表单的类型。本发明所述的方法是利用图像特征的表单类型识别方法,该方法属于局部比对、整体投票方案,不用设计复杂的相似度函数,对于大部分相似,局部不同的情况也能有较好的区分,且该方法无需利用OCR结果的识别方法,易于实现,效率更高。

Description

一种表单类型的识别方法
技术领域
本发明涉及图像处理领域,具体涉及一种利用图像的表单类型的识别方法。
背景技术
在实际的应用中,有许多的表单需要自动识别内容、切分等工作。由计算机自动进行的内容识别、切分,能大大加快相关业务中的处理速度,减少人的干预。不但可以节约人力成本,提高效率,也有助于某些场合下的信息保密工作。整版文档的识别中,在每个字符进行OCR(Optical CharacterRecognition,光学字符识别)之前,还有一个重要的版面分析过程。即,需要让计算机知道,哪些区域是文字,哪些区域是图像;更进一步,可以分析出哪些区域识别出的内容,对应什么项目。版面分析本身是一个较稳复杂、困难的工作,且正确率有限,因为版面的样式多种多样。我们注意到,表单的识别中,表单的类型往往较为固定。如果能先识别表单类型,则很容易就能将待识别的表单需要识别的信息文字标记出来,方便后续的OCR工作。
在现有技术中,专注于表单类型识别的方法较少,大多技术集中于整体系统的设计、如何提高单张表单内的识别率、如何分配表单给更适合的人员等。较少涉及表单类型的识别。部分类似方法也只是针对银行的票据,主要有以下几种:
1.专利申请号为200710141024.9的中国专利申请,公开了“票据处理设备”,该设备虽然能够对多个面值混合的票据进行分类,但是该并未对表单类型识别方面有详细说明。
2.专利申请号为00124172.9的中国专利申请,公开了“票据处理系统”,该系统虽然能够对传票、支票、付款传单等各种金融机构票据的种类进行识别,但是对一般图像中的表单类型识别方面未由详细说明。
3.专利申请号为97100414.5的中国专利申请,公开了“光学扫描表单识别及更正方法:该方法主要涉及的是如何提高单张票据内的识别率,但对表单类型识别方面未有详细说明
4.专利申请号为201010596814.8的中国专利申请,公开了“票据处理系统”,该申请设计了一种根据录入人员特性,合理分配表单的系统,在进行票据数据输入处理之前,无需针对每个操作员预先登记表示擅长领域和/或能力的信息,即可对操作员分配最适合的应该处理的票据,即如何分配表单给更合适的人,并未涉及表单类型的识别。
5.专利申请号为96106616.4的中国专利申请,公开了“中英文表单的识别系统及识别方法”,该方法需要利用OCR信息,仅通过栏位信息进行区别。但在实际应用中,有许多不同类型的表单栏位完全相同,如前后联,该方法无法处理该情况。
6.专利申请号为201210236228.1的中国专利申请,公开了“一种票据自动录入系统及其应用方法”,该方法需要利用二维码,增加了识别系统的构建难度,降低了易用性。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种表单类型的识别方法,实现表单类型的快速识别。
为实现上述目的,本发明采用的技术方案如下:
一种表单类型的识别方法,包括以下步骤:
(1)根据已知表单类型提取各表单的特定特征,制作表单模板;所述表单的特定特征是指表单之间的差异特征;
(2)获取待识别表单的数字图像,并对数字图像进行预处理得到二值图像;
(3)对齐二值图像的表单顶点,将表单顶点作为二值图像的原点;所述的表单顶点是指表单中表格最左端的垂直线和最顶端的水平线的交点,对齐表单定点是指将表单顶点作为二值图像的原点;
(4)提取二值图像中待识别表单的特定特征,比对待识别表单的特定特征与各个表单模板的特定特征,统计各个表单模板的得票,得票最高的表单模板为待识别表单的类型。
进一步,如上所述的一种表单类型的识别方法,步骤(1)中,根据已知表单类型制作表单模板的具体方式为:
a.根据已有表单,分析已有表单之间的差异特征,提取出特定特征及特定特征的位置;
b.利用与各特定特征关联的已知算法计算特定特征的属性,并存储特定特征及其属性。
进一步,如上所述的一种表单类型的识别方法,所述的特定特征包括表单局部区域内的黑像素密度、表单内超过设定长度的线段以及超过设定长度的线段长度、LBP特征、梯度统计特征和边缘链码特征;所述的局部区域由用户指定。
进一步,如上所述的一种表单类型的识别方法,局部区域内的黑像素密度的计算公式为: ρ = Σ i = 1 N B i N
黑像素密度
其中,N表示局部区域内的像素总数;所述的黑像素是指像素值为0的点,如果当前像素i为黑像素,则Bi=1,否则Bi=0。
进一步,如上所述的一种表单类型的识别方法,通过表单水平方向和垂直方向上的投影计算线段的长度。
进一步,如上所述的一种表单类型的识别方法,步骤(1)中,利用扫描仪获取待识别表单的数字图像;所述的数字图像为彩色图像或二值图像;如果数字图像为彩色图像,所述的预处理包括彩色图像的二值化、降噪和倾斜校正;如果数字图像为二值图像,所述的预处理包括降噪和倾斜校正。
进一步,如上所述的一种表单类型的识别方法,步骤(3)中,对齐二值图像表单顶点的具体方式为:
1)对二值图像分别进行水平方向和垂直方向投影,得到投影曲线;
2)在投影曲线中寻找表单顶点;寻找表单顶点的具体方式为:在表单最左侧设定范围内,大于设定阈值的第一根水平线和第一根垂直线的交点为表单顶点;
3)在垂直方向投影曲线上检测表单顶点的位置为cX,在水平方向投影曲线上检测表单顶点的位置为cY,则表单顶点坐标为(cX,cY);
4)将(cX,cY)作为二值图像中表单的新原点,原始图像上的所有点坐标为x′=x-cX,y′=y-cY;其中(x,y)表示顶点对齐前二值图像中任意一点的坐标,(x′,y')表示顶点对齐后的二值图像中该点的坐标。
进一步,如上所述的一种表单类型的识别方法,步骤2)中,所述的设定阈值包括宽度阈值和高度阈值,表单顶点是指表单最左侧设定范围内,大于宽度阈值的第一根水平线和大于高度阈值的第一根垂直线的交点。
进一步,如上所述的一种表单类型的识别方法,设定阈值的宽度阈值为二值图像宽度的M倍;设定阈值的高度阈值为二值图像高度的N倍;其中,0.5<M<0.7,0.5<N<0.7。
进一步,如上所述的一种表单类型的识别方法,M的优选值为0.6,N的优选值为0.6。
进一步,如上所述的一种表单类型的识别方法,步骤(4)中,统计各个表单模板的得票时,如果待识别表单的特定特征与表单模板的某一特定特征相同,对应表单模板得票加分,如果待识别表单的特征与表单模板的某一特定特征不相同,对应表单模板得票减分。
进一步,如上所述的一种表单类型的识别方法,步骤(4)中,统计各个表单模板得票多少的具体方式为:
①确定待识别表单与表单模板相同局部区域的黑像素密度是否相同,若是则表单模板得票加1,若否则表单模板的得票减0.5;
②确定待识别表单与表单模板相应位置超过设定长度的线段长度是否相同,如是则表单模板得票加1,若否则表单模板的得票减0.5;
③比较完所有特定特征后,统计各个表单模板的得票结果,得票最高的表单模板类型为待识别表单的类型。
再进一步,如上所述的一种表单类型的识别方法,步骤①中,如果待识别表单局部区域的黑像素密度ρ1与表单模板相同局部区域的黑像素密度ρ2满足a112<a2,则两黑像素密度相同;其中,0.8≤a1<a2≤1.2。
更进一步,如上所述的一种表单类型的识别方法,步骤②中,如果待识别表单超过设定长度的线段长度L1与表单模板相应位置超过设定长度的线段长度L2满足b1<L1/L2<b2,则两线段长度相同,其中,0.8≤b1<b2≤1.2。
本发明的有益效果在于:本发明所述的方法提供了一种直接利用图像特征的表单类型识别方法,该方法无需利用OCR结果的识别方法,易于实现,效率更高。同时,由于本方法提供的特征匹配方法属于局部比对、整体投票方案,不用设计复杂的相似度函数,对于大部分相似,局部不同的情况也能有较好的区分。
附图说明
图1为本发明具体实施方式中一种表单类型的识别方法的流程图;
图2为本发明具体实施方式中比对待识别表单与表单模板特定特征,确定待识别表单类型的流程图;
图3-图5为本发明实施例中现有的三种表单示意图;
图6-图8为提取的图3-图5中三种表单的特定特征制作的三种表单模板的示意图;
图9为本发明实施例中待识别的表单的二值图像;
图10为图9进行顶点对齐后的图像。
具体实施方式
下面结合说明书附图与具体实施方式对本发明做进一步的详细说明。
图1示出了本发明一种表单类型识别方法的流程图,由图中可以看出,该方法主要包括以下步骤:
步骤S11:提取已知表单的特定特征,制作表单模板;
根据已知表单类型提取表单特定特征,制作表单模板。本发明表单类型识别的方法是基于局部图像特征实现的,该方法通过待识别表单与表单模板局部特征的比对、整体投票从而确定出待识别表单的类型。因此,在进行待识别表单的处理之前,首先要制作表单模板。
对于固定的应用,表单类型是已知的,根据专业人员的专家知识,可以对现有的表单构建模板。当应用中出现新的模板时,可以使用同样的方法重新添加、更新所有模板。本实施方式中表单的制作方式如下:
a.根据已有表单,分析已有表单之间的差异特征,提取出特定特征及特定特征的位置;
b.利用与各特定特征关联的已知算法计算特定特征的属性,并存储特定特征及其属性。
其中,所述的特定特征是指表单之间的显著差异特征,显著差异特征的判定主要是由用户进行判断的,比如两个表单的表格线明显位置、长短不同,那么位置、长度明显不同的表格线即可作为特定特征的判断。在选定特定特征时,用户根据其经验及其现有的模板制作方法提取特定特征后构建表单模板。特定特征是可选的,包括但不限于以下特征:表单局部区域内的黑像素密度、表单内超过设定长度的线段以及超过设定长度的线段长度、LBP特征、梯度统计特征和边缘链码特征等;所述的局部区域由用户指定。提取特定特征后,采用各特征已有的相关算法计算其属性。算法的选定根据特征而定,例如选用线段,则需计算线段的位置、长度;如果使用黑像素密度,则需要统计一定区域内像素值等于0(黑色)的像素个数占区域面积的比例。本实施方式中特定特征选为表单局部区域内的黑像素密度、表单内超过设定长度的线段以及超过设定长度的线段长度,计算方式如下:
a.表单局部区域内的黑像素密度;黑像素密度的计算公式为:
黑像素密度
Figure BDA00002613180000071
其中,N表示局部区域内的像素总数,如果当前像素i为黑像素,则Bi=1,否则Bi=0;
例如局部区域内为横坐标100<=x<200,纵坐标50<=y<100的矩形,该区域共有(200-100)×(100-50)=100×50==5000个像素,其中像素值为0的像素个数为500个,则黑像素密度为0.1。
b.表单内超过设定长度的线段的长度L可通过表单水平和垂直方向上的投影计算;计算时首先得到表单在水平方向或者垂直方向上的投影,得到线段的投影曲线,在竖直方向上的线段,根据线段的起始点位置坐标累计所有竖直坐标(y坐标)上的黑像素点,该值即为其线段长短;在水平方向上的线段,根据线段的起始点位置坐标,累计所有水平坐标(x坐标)上的黑像素点,该值即为其线段长短。
步骤S12:获取待识别表单的二值图像;
获取待识别表单的数字图像,并对数字图像进行预处理得到二值图像。本实施方式中将实际的待识别表单利用扫描仪得到数字图像,并对数字图像进行预处理。根据实际所能获得的图像的不同,采取的预处理方式也有所不同。通过扫描仪得到的数字图像有可能是彩色图像,也有可能是二值图像,如果数字图像为彩色图像,所述的预处理一般包括彩色图像的二值化、降噪和倾斜校正;由于现在的扫描仪,许多可知直出二值图像,此时所述的预处理包括降噪和倾斜校正,如果扫描仪直出的是倾斜校正后的二值图像,预处理只需降噪等相关处理即可。因此,该步骤中的预处理根据实际情况进行相应的调整。一般来说,
a.彩色图像二值化,可以使用最普通的彩色图像转灰度图像方法,然后使用通用的OTSU分割算法得到二值图像(即黑白图像)
b.降噪。由于表单实际的质量、扫描仪质量等影响,会在扫描过程中产生噪声。使用降噪过程可以提高后续处理图像的质量,提高识别率。降噪可以采用在灰度图像时,利用一般的高斯滤波器,进行降噪。也可以在二值化之后,筛除小的连通域。连通域可采用常用的4联通或8联通方式,利用种子点搜索的方式即可计算。
c.倾斜校正。如果扫描时表单放偏了,图像是倾斜的,需要转正。倾斜校正的方法有很多,比如可以使用Canny算子检测边缘,然后利用Hough变换计算倾斜角度,再旋转。
以上预处理均是图像处理领域的常用算法,不再展开叙述。
步骤S13:对齐二值图像的表单顶点,将表单顶点作为二值图像的原点
表单顶点(原点)对齐是表单识别过程中的一个重要过程,只有表单进行顶点对齐后,后续的特征提取与比对才有意义。由于在前面步骤已经使得表单进行了倾斜校正处理,因此,表单上的绝大多数表格线、框线都是水平或垂直的。绝大多数的表单中基本都有都会有一条最长的水平和垂直线。我们就检测最靠近左上角的一定范围内的,达到一定长度以上的第一根水平和第一根垂直线的交点,作为表单图像的新原点。将图像的坐标原点移至此点的过程,我们称作表单顶点对齐。表单顶点是指表单中表格最左端的垂直线和最顶端的水平线的交点,对齐表单顶点是指将表单顶点作为二值图像的原点,即表单顶点对齐前的图像的原点是图像坐标的原点,本实施方式对齐前的原点为二值图像最左上角的点,顶点对齐后的新原点一般为表单的左上角顶点。本实施方式中所述的表单顶点是通过计算在表单左上角(最左侧)设定范围内,大于设定阈值的第一根水平线和第一根垂直线的交点得到的。
对齐二值图像表单顶点的具体方式为:
1)对二值图像分别进行水平方向和垂直方向投影,得到投影曲线;
2)在投影曲线中寻找表单顶点;寻找表单顶点的具体方式为:在表单最左侧设定范围内,大于设定阈值的第一根水平线和第一根垂直线的交点为表单顶点;
3)在垂直方向投影曲线上检测表单顶点的位置为cX,在水平方向投影曲线上检测表单顶点的位置为cY,则表单顶点坐标为(cX,cY);
4)将(cX,cY)作为二值图像中表单的新原点,原始图像上的所有点坐标为x′=x-cX,y′=y-cY;其中(x,y)表示顶点对齐前二值图像中任意一点的坐标,(x′,y')表示顶点对齐后的二值图像中该点的坐标。
其中,设定阈值可以是一个值也可以是两个值,如果设定阈值为一个值,这时表单最左侧大于该值的第一根水平线与大于该值的第一根垂直线的交点作为表单顶点;如果设定阈值为两个值,即设定阈值包括宽度阈值和高度阈值,这时表单最左侧设定范围内,大于宽度阈值的第一根水平线和大于高度阈值的第一根垂直线的交点作为表单顶点。设定阈值的大小可以由用户根据需要设定。本实施方式中的设定阈值包括宽度阈值和高度阈值,设定阈值的宽度阈值为二值图像宽度的M倍,0.6倍;设定阈值的高度阈值为二值图像高度的N倍,其中,M、N为经验值,0.5<M<0.7,0.5<N<0.7;M的优选值为0.6,N的优选值为0.6。
步骤S14:比对待识别表单的特定特征与各个表单模板的特定特征,统计各个表单模板的得票确定待识别表单的类型;
提取二值图像中待识别表单的特定特征,比对待识别表单的特定特征与各个表单模板的特定特征,统计各个表单模板的得票,得票最高的表单模板为待识别表单的类型。统计各个表单模板的得票时,如果待识别表单的特定特征与表单模板的某一特定特征相同,对应表单模板得票加分,如果待识别表单的特征与表单模板的某一特定特征不相同,对应表单模板得票加分,具体加分与减分的多少可以由用户进行设置,本实施方式中如果相同,则得票加1,如果不同则减0.5。通过比对特定特征统计各个表单模板得票多少的具体流程如图2所示,包括以下步骤:
①确定待识别表单与表单模板相同局部区域的黑像素密度是否相同,如是则表单模板得票加1,若否则表单模板的得票减0.5;本实施方式中如果待识别表单局部区域的黑像素密度ρ1与表单模板相同局部区域的黑像素密度ρ2满足a112<a2,则两黑像素密度相同;其中,0.8≤α1<a2≤1.2;
②确定待识别表单与表单模板超过设定长度的线段长度是否相同,如是则表单模板得票加1,若否则表单模板的得票减0.5;本实施方式中如果待识别表单超过设定长度的线段长度L1与表单模板相应位置超过设定长度的线段长度L2满足b1<L1/L2<b2,则两线段长度相同,其中,0.8≤b1<b2≤1.2。
③比较完所有特定特征后,统计各个表单模板的得票结果,得票结果最高的表单模板类型为待识别表单的类型。
如果有一处特征与某个模板的相同,则对该模板的投票加1,如不同,则减去0.5。最后,所有的特征均比较完成后,比较哪个模板的投票数多,则当前表单即属于哪个模板。本实施方式中的特定特征选用的是黑像素密度和超过设定长度的线段及线段的长度,当然用户可以根据以及表单及待识别表单的具体情况选择其它的特定特征。以步骤②中线段长度为例进行说明中,如果存在一张待识别表单A,有3个表单模板C1,C2,C3,判断A是否为C1时,将模板C1中标记好的线段位置、长度信息取出来,即特定特征的属性信息。例如在C1中横坐标x=100的地方有一个竖直的长度为900的线段,则不论A中是什么样子,均在A中x=100的地方检测线段长度,由于用的是二值图,线段为黑色(像素值=0),简单的,可以在x=100的位置,累计所有y坐标上的黑像素,则该值为A中对应位置的线段长度,如果该线段长度L1与模板相应位置线段长度L2=900的关系满足b1<L1/L2<b2,则说明两者该特定特征相同,C1加分;当然待识别表单x=100的地方线段长度也可能等于0,即不存在线段,也可能不满足上述关系式,则减分。最后通过A与C1,C2,C3的匹配程度(C1,C2,C3的得票结果)来判断A属于哪一种。
本实施方式中,在提取待识别表单的特定特征时,是基于表单的二值化图像进行提取的,即步骤S12中是将获取的表单的数字图像处理成而二值图像进行相应特征的提取。在实际的识别过程中,如果所获取的数字图像并不是直接的二值图像,例如灰度图像或彩色图像,这时也可以基于灰度图像进行表单特定特征的提取,这时的特定特征可以是所述的梯度统计特征,通过提取灰度图像中表单的特定特征,然后将提取的特征与表单模板中相应的特定特征比对,统计每种表单模板的得票,最后确定出待识别表单的类型。
下面结合实施例对本发明的方法进行进一步说明。
实施例
首先制作表单模板。本是实力中假设存在图3-图5中所述的三种表单,根据专业人员的专业知识,通过步骤S11中的表单模板制作方法设计了三个模板,如图6-图8所示,其中,图3中表单对应的表单模板为图6,图4中表单对应的表单模板为图7,图5中表单对应的表单模板为图8,三个模板的特定特征分别如下:
a.第一个模板,图6,包括四条竖直的线段,记录线段长度;两个矩形区域,记录两个矩形区域的黑像素密度;
b.第二个模板,图7,包括四条竖直的线段,记录线段长度;
c.第三个模板,图8,包括三条竖直的线段,记录线段长度。
图9所示的为通过扫描仪得到的本实施例中待识别表单的二值图像,进行倾斜校正并顶点对齐后图像如图10所示,其中图10中A点为表单顶点。之后提取图10中表单的特定特征,并分别比对待识别表单与各个表单模板的特定特征,并统计投票得票,具体如下:
按第一个表单模板相应位置计算,表单模板一的特定特征包括超过设定长度的四条线段和两个区域的黑像素密度:
待识别表单相对表单模板一(图6),在相应位置有四条线段存在,投票加4;相对模板一,在相应位置没有两个黑像素密度较高的区域,投票减1(0.5×2);总投票数为3。
按第二个表单模板相应位置计算,表单模板二的特定特征包括超过设定长度的四条线段:
待识别表单相对模板二,在待识别表单与表单模板二相应位置有四条线段存在,投票加4;总投票数为4。
按第三个表单模板相应位置计算,表单模板二的特定特征包括超过设定长度的三条线段;
待识别表单相对模板三,在相应位置有两条条线段存在,投票加2,有一条线段不存在,投票减0.5;总投票数为1.5。
综合以上,对第二个表单模板投票最高,因此该待识别表单为第二类表单。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.一种表单类型的识别方法,包括以下步骤:
(1)根据已知表单类型提取各表单的特定特征,制作表单模板;所述表单的特定特征是指表单之间的差异特征;
(2)获取待识别表单的数字图像,并对数字图像进行预处理得到二值图像;
(3)对齐二值图像的表单顶点,将表单顶点作为二值图像的原点;所述的表单顶点是指表单中表格最左端的垂直线和最顶端的水平线的交点,对齐表单定点是指将表单顶点作为二值图像的原点;
(4)提取二值图像中待识别表单的特定特征,比对待识别表单的特定特征与各个表单模板的特定特征,统计各个表单模板的得票,得票最高的表单模板为待识别表单的类型。
2.如权利要求1所述的一种表单类型的识别方法,其特征在于:步骤(1)中,根据已知表单类型制作表单模板的具体方式为:
a.根据已有表单,分析已有表单之间的差异特征,提取出特定特征及特定特征的位置;
b.利用与各特定特征关联的已知算法计算特定特征的属性,并存储特定特征及其属性。
3.如权利要求2所述的一种表单类型的识别方法,其特征在于:所述的特定特征包括表单局部区域内的黑像素密度、表单内超过设定长度的线段以及超过设定长度的线段长度、边缘链码特征、LBP特征和梯度统计特征;所述的局部区域由用户指定。
4.如权利要求3所述的一种表单类型的识别方法,其特征在于:局部区域内的黑像素密度的计算公式为:
黑像素密度
Figure FDA00002613179900011
其中,N表示局部区域内的像素总数;所述的黑像素是指像素值为0的点,如果当前像素i为黑像素,则Bi=1,否则Bi=0。
5.如权利要求3所述的一种表单类型的识别方法,其特征在于:通过表单水平方向和垂直方向上的投影计算线段的长度。
6.如权利要求1所述的一种表单类型的识别方法,其特征在于:步骤(1)中,利用扫描仪获取待识别表单的数字图像;所述的数字图像为彩色图像或二值图像;如果数字图像为彩色图像,所述的预处理包括彩色图像的二值化、降噪和倾斜校正;如果数字图像为二值图像,所述的预处理包括降噪和倾斜校正。
7.如权利要求1或6所述的一种表单类型的识别方法,其特征在于:步骤(3)中,对齐二值图像表单顶点的具体方式为:
1)对二值图像分别进行水平方向和垂直方向投影,得到投影曲线;
2)在投影曲线中寻找表单顶点;寻找表单顶点的具体方式为:在表单最左侧设定范围内,大于设定阈值的第一根水平线和第一根垂直线的交点为表单顶点;
3)在垂直方向投影曲线上检测表单顶点的位置为cX,在水平方向投影曲线上检测表单顶点的位置为cY,则表单顶点坐标为(cX,cY)
4)将(cX,cY)作为二值图像中表单的新原点,原始图像上的所有点坐标为x′=x-cX,y′=y-cY;其中(x,y)表示顶点对齐前二值图像中任意一点的坐标,(x′,y')表示顶点对齐后的二值图像中该点的坐标。
8.如权利要求7所述的一种表单类型的识别方法,其特征在于:步骤2)中,所述的设定阈值包括宽度阈值和高度阈值,表单顶点是指表单最左侧设定范围内,大于宽度阈值的第一根水平线和大于高度阈值的第一根垂直线的交点。
9.如权利要求8所述的一种表单类型的识别方法,其特征在于:设定阈值的宽度阈值为二值图像宽度的M倍;设定阈值的高度阈值为二值图像高度的N倍;其中,0.5<M<0.7,0.5<N<0.7。
10.如权利要求9所述的一种表单类型的识别方法,其特征在于:M的优选值为0.6,N的优选值为0.6。
11.如权利要求1至3之一所述的一种表单类型的识别方法,其特征在于:步骤(4)中,统计各个表单模板的得票时,如果待识别表单的特定特征与表单模板的某一特定特征相同,对应表单模板得票加分,如果待识别表单的特征与表单模板的某一特定特征不相同,对应表单模板得票减分。
12.如权利要求11所述的一种表单类型的识别方法,其特征在于:步骤(4)中,统计各个表单模板得票多少的具体方式为:
①确定待识别表单与表单模板相同局部区域的黑像素密度是否相同,若是则表单模板得票加1,若否则表单模板的得票减0.5;
②确定待识别表单与表单模板相应位置超过设定长度的线段长度是否相同,如是则表单模板得票加1,若否则表单模板的得票减0.5;
③比较完所有特定特征后,统计各个表单模板的得票结果,得票最高的表单模板类型为待识别表单的类型。
13.如权利要求12所述的一种表单类型的识别方法,其特征在于:步骤①中,如果待识别表单局部区域的黑像素密度ρ1与表单模板相同局部区域的黑像素密度ρ2满足a112<a2,则两黑像素密度相同;其中,0.8≤α1<a2≤1.2。
14.如权利要求13所述的一种表单类型的识别方法,其特征在于:步骤②中,如果待识别表单超过设定长度的线段长度L1与表单模板相应位置超过设定长度的线段长度L2满足b1<L1/L2<b2,则两线段长度相同,其中,0.8≤b1<b2≤1.2。
CN201210552859.4A 2012-12-19 2012-12-19 一种表单类型的识别方法 Active CN103034848B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210552859.4A CN103034848B (zh) 2012-12-19 2012-12-19 一种表单类型的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210552859.4A CN103034848B (zh) 2012-12-19 2012-12-19 一种表单类型的识别方法

Publications (2)

Publication Number Publication Date
CN103034848A true CN103034848A (zh) 2013-04-10
CN103034848B CN103034848B (zh) 2016-07-06

Family

ID=48021727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210552859.4A Active CN103034848B (zh) 2012-12-19 2012-12-19 一种表单类型的识别方法

Country Status (1)

Country Link
CN (1) CN103034848B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544475A (zh) * 2013-09-23 2014-01-29 方正国际软件有限公司 一种版面类型的识别方法及系统
CN104899551A (zh) * 2015-04-30 2015-09-09 北京大学 一种表单图像分类方法
CN105095842A (zh) * 2014-05-22 2015-11-25 阿里巴巴集团控股有限公司 一种单据的信息识别的方法和装置
CN105808174A (zh) * 2015-01-16 2016-07-27 富士施乐株式会社 打印指令设备、打印系统和打印指令方法
CN107169488A (zh) * 2017-05-03 2017-09-15 四川长虹电器股份有限公司 一种票据扫描图像的矫正系统及矫正方法
CN107451569A (zh) * 2017-08-04 2017-12-08 深圳易嘉恩科技有限公司 一种自动识别并裁切扫描件中票据的方法
CN107633239A (zh) * 2017-10-18 2018-01-26 江苏鸿信系统集成有限公司 基于深度学习和ocr的票据分类及票据字段提取方法
CN107679442A (zh) * 2017-06-23 2018-02-09 平安科技(深圳)有限公司 单证信息录入的方法、装置、计算机设备及存储介质
CN107808154A (zh) * 2017-12-08 2018-03-16 上海慧银信息科技有限公司 提取收银票据信息的方法和装置
CN108090068A (zh) * 2016-11-21 2018-05-29 医渡云(北京)技术有限公司 医院数据库中的表的分类方法及装置
CN109389595A (zh) * 2018-10-11 2019-02-26 广东工业大学 一种表格线交点检测方法、电子设备及可读存储介质
CN110619252A (zh) * 2018-06-19 2019-12-27 百度在线网络技术(北京)有限公司 识别图片中表单数据的方法、装置、设备及存储介质
CN110738185A (zh) * 2019-10-23 2020-01-31 腾讯科技(深圳)有限公司 表单对象的识别方法、装置及存储介质
CN111091499A (zh) * 2018-10-24 2020-05-01 方正国际软件(北京)有限公司 一种移动终端图像修正的方法及装置
CN112560847A (zh) * 2020-12-25 2021-03-26 中国建设银行股份有限公司 图像文本区域定位方法及装置、存储介质及电子设备
CN113505745A (zh) * 2021-07-27 2021-10-15 京东科技控股股份有限公司 一种文字识别方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1460961A (zh) * 2003-06-27 2003-12-10 杭州信雅达系统工程股份有限公司 票据图象版面识别方法
US20040042660A1 (en) * 1999-12-22 2004-03-04 Hitachi, Ltd. Sheet handling system
CN1482572A (zh) * 2003-06-27 2004-03-17 杭州信雅达系统工程股份有限公司 票据图象处理装置
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040042660A1 (en) * 1999-12-22 2004-03-04 Hitachi, Ltd. Sheet handling system
CN1460961A (zh) * 2003-06-27 2003-12-10 杭州信雅达系统工程股份有限公司 票据图象版面识别方法
CN1482572A (zh) * 2003-06-27 2004-03-17 杭州信雅达系统工程股份有限公司 票据图象处理装置
CN102750541A (zh) * 2011-04-22 2012-10-24 北京文通科技有限公司 一种文档图像分类识别方法及装置

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544475A (zh) * 2013-09-23 2014-01-29 方正国际软件有限公司 一种版面类型的识别方法及系统
CN105095842A (zh) * 2014-05-22 2015-11-25 阿里巴巴集团控股有限公司 一种单据的信息识别的方法和装置
CN105095842B (zh) * 2014-05-22 2018-12-11 口碑控股有限公司 一种单据的信息识别的方法和装置
CN105808174A (zh) * 2015-01-16 2016-07-27 富士施乐株式会社 打印指令设备、打印系统和打印指令方法
CN104899551A (zh) * 2015-04-30 2015-09-09 北京大学 一种表单图像分类方法
CN104899551B (zh) * 2015-04-30 2018-08-14 北京大学 一种表单图像分类方法
CN108090068B (zh) * 2016-11-21 2021-05-25 医渡云(北京)技术有限公司 医院数据库中的表的分类方法及装置
CN108090068A (zh) * 2016-11-21 2018-05-29 医渡云(北京)技术有限公司 医院数据库中的表的分类方法及装置
CN107169488A (zh) * 2017-05-03 2017-09-15 四川长虹电器股份有限公司 一种票据扫描图像的矫正系统及矫正方法
WO2018233171A1 (zh) * 2017-06-23 2018-12-27 平安科技(深圳)有限公司 单证信息录入的方法、装置、计算机设备及存储介质
CN107679442A (zh) * 2017-06-23 2018-02-09 平安科技(深圳)有限公司 单证信息录入的方法、装置、计算机设备及存储介质
CN107451569A (zh) * 2017-08-04 2017-12-08 深圳易嘉恩科技有限公司 一种自动识别并裁切扫描件中票据的方法
CN107633239A (zh) * 2017-10-18 2018-01-26 江苏鸿信系统集成有限公司 基于深度学习和ocr的票据分类及票据字段提取方法
CN107808154B (zh) * 2017-12-08 2021-03-30 上海慧银信息科技有限公司 提取收银票据信息的方法和装置
CN107808154A (zh) * 2017-12-08 2018-03-16 上海慧银信息科技有限公司 提取收银票据信息的方法和装置
CN110619252A (zh) * 2018-06-19 2019-12-27 百度在线网络技术(北京)有限公司 识别图片中表单数据的方法、装置、设备及存储介质
CN110619252B (zh) * 2018-06-19 2022-11-04 百度在线网络技术(北京)有限公司 识别图片中表单数据的方法、装置、设备及存储介质
CN109389595A (zh) * 2018-10-11 2019-02-26 广东工业大学 一种表格线交点检测方法、电子设备及可读存储介质
CN109389595B (zh) * 2018-10-11 2022-02-15 广东工业大学 一种表格线交点检测方法、电子设备及可读存储介质
CN111091499A (zh) * 2018-10-24 2020-05-01 方正国际软件(北京)有限公司 一种移动终端图像修正的方法及装置
CN111091499B (zh) * 2018-10-24 2023-05-23 方正国际软件(北京)有限公司 一种移动终端图像修正的方法及装置
CN110738185A (zh) * 2019-10-23 2020-01-31 腾讯科技(深圳)有限公司 表单对象的识别方法、装置及存储介质
CN110738185B (zh) * 2019-10-23 2023-07-07 腾讯科技(深圳)有限公司 表单对象的识别方法、装置及存储介质
CN112560847A (zh) * 2020-12-25 2021-03-26 中国建设银行股份有限公司 图像文本区域定位方法及装置、存储介质及电子设备
CN113505745A (zh) * 2021-07-27 2021-10-15 京东科技控股股份有限公司 一种文字识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN103034848B (zh) 2016-07-06

Similar Documents

Publication Publication Date Title
CN103034848B (zh) 一种表单类型的识别方法
CN110766014B (zh) 票据信息定位方法、系统及计算机可读存储介质
Garz et al. Binarization-free text line segmentation for historical documents based on interest point clustering
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
Casey et al. Intelligent forms processing system
Alaei et al. A new scheme for unconstrained handwritten text-line segmentation
CN101923741B (zh) 一种基于验钞机的纸币号码识别方法
CN111814722A (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
CN104680161A (zh) 一种身份证数字识别方法
CN106875546A (zh) 一种增值税发票的识别方法
CN104966051A (zh) 一种文档图像的版式识别方法
CN102024144A (zh) 集装箱箱号自动识别方法
CN105913057B (zh) 一种结合投影和结构特征进行图像中数学公式检测方法
CN108830275B (zh) 点阵字符、点阵数字的识别方法及装置
Garz et al. A binarization-free clustering approach to segment curved text lines in historical manuscripts
CN103886319A (zh) 一种基于机器视觉的举牌智能识别方法
CN106295627A (zh) 用于识别文字牛皮癣图片的方法及装置
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
CN111583156B (zh) 文档图像底纹去除方法及系统
Lue et al. A novel character segmentation method for text images captured by cameras
CN102682308B (zh) 图像处理方法和图像处理设备
CN102332088B (zh) 一种基于游程特征的选票符号机器视觉识别方法
KR101001693B1 (ko) 지로 장표 수납기의 문자인식방법
CN114627457A (zh) 一种票面信息识别方法及装置
Tsai et al. Efficiently extracting and classifying objects for analyzing color documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant