CN103577817A - 表单识别方法与装置 - Google Patents

表单识别方法与装置 Download PDF

Info

Publication number
CN103577817A
CN103577817A CN201210258883.7A CN201210258883A CN103577817A CN 103577817 A CN103577817 A CN 103577817A CN 201210258883 A CN201210258883 A CN 201210258883A CN 103577817 A CN103577817 A CN 103577817A
Authority
CN
China
Prior art keywords
list
line
frame line
list frame
straight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210258883.7A
Other languages
English (en)
Other versions
CN103577817B (zh
Inventor
薛晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210258883.7A priority Critical patent/CN103577817B/zh
Priority to TW101142227A priority patent/TWI536277B/zh
Priority to US13/947,412 priority patent/US9047529B2/en
Priority to KR1020157000030A priority patent/KR101690981B1/ko
Priority to JP2015524373A priority patent/JP6000455B2/ja
Priority to PCT/US2013/051576 priority patent/WO2014018482A2/en
Publication of CN103577817A publication Critical patent/CN103577817A/zh
Application granted granted Critical
Publication of CN103577817B publication Critical patent/CN103577817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/224Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本申请提供了一种表单识别方法与装置,其中,表单识别方法包括:对表单二值图像中的表单进行直线检测,获取所述表单的各个表单框线和所述各个表单框线之间的位置关系;根据所述各个表单框线和所述各个表单框线之间的位置关系,对所述表单进行特征提取,获取所述表单的特征向量,其中,所述特征向量用于指示所述表单的结构特征;根据所述表单的特征向量,计算所述表单与模板表单的相似度;根据所述相似度的计算结果,识别所述表单。通过本申请,达到了能够准确识别图像文件中的表格或表格图像中的表格,以便将表格方便、快速地输入到计算机中的效果。

Description

表单识别方法与装置
技术领域
本申请涉及计算机技术领域,特别是涉及一种表单识别方法与装置。
背景技术
模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。随着计算机技术的发展,人们开始应用计算机进行模式识别,对一组事件或过程进行辨识和分类,所识别的事件或过程可以是文字、声音、图像等具体对象,也可以是状态、程度等抽象对象。
例如,应用计算机进行文字识别。以OCR为例,OCR(Optical CharacterRecognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。即,对文本资料进行扫描,生成图像文件,然后对图像文件进行分析处理,获取文字及版面信息的过程。通过OCR文字识别,能够识别大部分的文本文字。
然而,目前应用计算机识别文字还存在着一些问题。例如,OCR不能够对文本资料扫描成的图像文件中的表格进行识别,当遇到表格时,OCR常会出现乱码,无法对表格进行正确识别。
因此,如何正确对图像文件中的表格或表格图像进行识别,将表格方便、快速地输入到计算机中,已成为一个亟待解决的问题。
发明内容
本申请提供了一种表单识别方法与装置,以解决现有技术无法对图像文件中的表格或表格图像进行正确识别的问题。
为了解决上述问题,本申请公开了一种表单识别方法,包括:对表单二值图像中的表单进行直线检测,获取所述表单的各个表单框线和所述各个表单框线之间的位置关系;根据所述各个表单框线和所述各个表单框线之间的位置关系,对所述表单进行特征提取,获取所述表单的特征向量,其中,所述特征向量用于指示所述表单的结构特征;根据所述表单的特征向量,计算所述表单与模板表单的相似度;根据所述相似度的计算结果,识别所述表单。
为了解决上述问题,本申请还公开了一种表单识别装置,包括:直线检测模块,用于对表单二值图像中的表单进行直线检测,获取所述表单的各个表单框线和所述各个表单框线之间的位置关系;特征提取模块,用于根据所述各个表单框线和所述各个表单框线之间的位置关系,对所述表单进行特征提取,获取所述表单的特征向量,其中,所述特征向量用于指示所述表单的结构特征;相似度计算模块,用于根据所述表单的特征向量,计算所述表单与模板表单的相似度;表单识别模块,用于根据所述相似度的计算结果,识别所述表单。
与现有技术相比,本申请具有以下优点:
本申请根据表单的结构特性,首先对表单二值图像中的表单进行直线检测,得到表单的各条线段和各条线段间的关系,也即,得到表单的各个表单框线和各个表单框线之间的位置关系;然后,根据这些信息对表单进行特征提取,获取表单的特征向量,以获取表单的结构特征;进而,根据表单的结构特征将该表单与模板表单进行匹配,以确定与该表单相似度最高的表单,也即结构最为相似的表单,根据匹配结果识别该表单的类别。可见,通过本申请,有效解决了现有技术无法对图像文件中的表格或表格图像进行正确识别的问题,达到了能够准确识别图像文件中的表格或表格图像中的表格,以便将表格方便、快速地输入到计算机中的效果。
附图说明
图1是根据本申请实施例一的一种表单识别方法的步骤流程图;
图2是根据本申请实施例二的一种表单识别方法的步骤流程图;
图3是图2所示实施例中提取的一条水平直线的示意图;
图4是图2所示实施例中的一种表单特征点示意图;
图5是图2所示实施例中的一种通过距离相似度识别表单的示意图;
图6是图2所示实施例中的另一种通过距离相似度识别表单的示意图;
图7是根据本申请实施例三的一种表单直线检测的流程图;
图8是图7所示表单直线检测中的线段合并中的距离判断示意图;
图9是图7所示表单直线检测中的线段合并中的夹角判断示意图;
图10是图7所示表单直线检测中的线段合并中的平行距离判断示意图;
图11是图7所示表单直线检测中的字符线段过滤示意图;
图12是根据本申请实施例三的一种表单类型识别的流程图;
图13是图12所示表单类型识别中的一种多级分层示意图;
图14是图13所示表单进行直线检测后的输出结果图;
图15是图14所示表单输出结果进行特征点提取后的特征点示意图;
图16是根据本申请实施例三的一种表单模型建立的流程图;
图17是根据本申请实施例四的一种表单识别装置的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
参照图1,示出了根据本申请实施例一的一种表单识别方法的步骤流程图。
本实施例的表单识别方法包括以下步骤:
步骤S102:对表单二值图像中的表单进行直线检测,获取表单的各个表单框线和各个表单框线之间的位置关系。
对于表单来说,其线段多为规整的直线,对其进行直线检测可获得表单的各个表单框线和各个表单框线之间的位置关系。其中,表单框线表示表格中的每一条线段。
步骤S104:根据各个表单框线和各个表单框线之间的位置关系,对表单进行特征提取,获取表单的特征向量。
其中,特征向量用于指示表单的结构特征。
步骤S106:根据表单的特征向量,计算表单与模板表单的相似度。
其中,模板表单是系统中存储的表单,可以通过对样本表单图像进行直线检测和特征提取后,建立相应的表单模型实现,也可以通过人工生成实现,当然,也可以由本领域技术人员通过其它适当方式实现。
步骤S108:根据相似度的计算结果,识别表单。
本实施例根据表单的结构特性,首先对表单二值图像中的表单进行直线检测,得到表单的各条线段和各条线段间的关系,也即,得到表单的各个表单框线和各个表单框线之间的位置关系;然后,根据这些信息对表单进行特征提取,获取表单的特征向量,以获取表单的结构特征;进而,根据表单的结构特征将该表单与模板表单进行匹配,以确定与该表单相似度最高的表单,也即结构最为相似的表单,根据匹配结果识别该表单的类别。可见,通过本实施例,有效解决了现有技术无法对图像文件中的表格或表格图像进行正确识别的问题,达到了能够准确识别图像文件中的表格或表格图像中的表格,以便将表格方便、快速地输入到计算机中的效果。为描述方便,下文中将图像文件中的表格或表格图像统称为表格图像。
实施例二
参照图2,示出了根据本申请实施例二的一种表单识别方法的步骤流程图。
本实施例对实施例一的表单识别方法进行了进一步地优化,首先,通过连通分量分析实现表单的直线检测,并对获取的表单框线进行了进一步地优化处理;其次,在进行表单的特征提取前,对表单框线进行字符线段过滤;再者,通过特征交叉点提取实现了表单的特征提取;此外,通过表单与模板表单的最相近距离和次相近距离的比值判定,实现了表单的精确识别。
本实施例中,以简单的“田”字形表单为例,对本申请的表单识别方法进行说明。
本实施例的表单识别方法包括以下步骤:
步骤S202:通过对表单二值图像中的表单的每条线段进行连通分量分析实现直线检测,获取表单的各个表单框线,以及获取各个表单框线之间的位置关系。
具体地,在对每条线段,也即表单的每一条直线,进行连通分量分析时,可以以本直线上的设定点为起点(如本直线的起始点或结束点或任意其它设定点),对本直线上的相邻像素进行连通分量分析,获取本直线的连通分量;然后,获取本直线的连通分量上的每一个像素在与本直线垂直方向上的连通分量的像素个数;根据本直线的连通分量上的每一个像素在与本直线垂直方向上的连通分量的像素个数,获取本直线的平均线宽;判断本直线的连通分量上的每一个像素所在处的线宽是否大于平均线宽,若是,则对大于平均线宽的像素所在处的线宽进行线宽去除处理。在进行了线宽去除处理后,系统可以根据进行了线宽去除处理的每一条直线,获取表单的各个表单框线。同时,还可以依据连通分量间的位置关系获取各个表单框线之间的位置关系,如表单框线A在线段起始端与表单框线B垂直等。
优选地,在对大于平均线宽的像素所在处的线宽进行线宽去除处理时,可以将大于平均线宽的像素从本直线的连通分量中去除;进而判断去除的像素的位置是否在本直线的内部,若是,则对去除的像素两侧的线段进行线段合并。
通过上述方式进行直线检测,能够有效处理质量较差的表单图像,尤其是存在模糊、毛刺的情况。
以下,以“田”字形表单中第二条水平直线为例,结合图3,对通过连通分量分析实现表单的直线检测进行说明。
以第二条水平直线的起始点(如图3中的像素1)为起点,进行该直线的连通分量分析。例如,设定当前像素为第二条水平直线的起始点像素(即像素1),判断在水平方向上(左侧或右侧,本实施例中为右侧)是否存在下一个像素与当前像素邻接,如果存在,则将其添加至连通域,将该下一个像素作为当前像素,继续判断是否存在与其相邻接的像素,直至没有像素与当前像素邻接,获得该直线的连通分量(如图3中的像素1-2-3-4-5-6-7-8)。需要说明的是,在表单简单且清楚的情况下,如本实施例中,第二条水平直线的连通分量可能覆盖整条直线,但在某些复杂表单的情况下,对一条直线进行连通分量分析,可能获得多个连通分量。
对于连通分量上的每一个像素,将与本直线垂直方向上连通的像素统一作为直线上的一个点来处理(如图3中像素1垂直方向上的像素均采用像素1的标号),以兼容不同线宽。通过该方式,可以获取本直线的连通分量上的每一个像素在与本直线垂直方向上的连通分量的像素个数。需要说明的是,本步骤也可以在对直线进行连通分量分析之前进行,这时,可以获取本直线上的每一个像素在与本直线垂直方向上的连通分量的像素个数。第二水平直线的连通分量在获取了垂直方向上的连通分量后,如图3所示。
根据与本直线垂直方向上的连通分量的像素个数,计算本直线的平均线宽(本实施例中为水平直线在纵向的平均像素个数),假设为N(像素)。针对连通分量上的每一个像素点,如果其所在处即当前位置的线宽(纵向像素个数)大于N,或者,与N的比例超过一定的阈值,则对该像素点所在处的线宽进行线宽去除处理。如,将造成多余线宽的像素点去除,或者,将该像素点从连通分量中去除;如果这个像素点的位置在直线的内部,则该直线将被打断为两段,再对该两段直线进行线段合并。以图3为例,N为水平直线的平均线宽,在本实施例中为(2+3+3+4+2+3+3+1)/8=21/8=2.625;假设阈值取为1.2,则1.2×2.625=3.15,即垂直方向上的像素数目如果超过3.15,则将其剔除(比如图3中的像素4);如果剔除点出现在直线的中间(比如图3中的像素4),则将直线打断为两条直线(1-2-3)和(5-6-7-8)。通过本步骤,可以消除噪音、文字以及垂直线的影响。
对垂直直线的直线检测可以仿照上述水平直线的直线检测进行,在此不再赘述。
步骤S204:对获取的表单的各个表单框线进行字符线段过滤。
包括:判断表单的各个表单框线的线段长度是否小于或等于设定的第四阈值,若是,则去除线段长度小于或等于第四阈值的表单框线。
其中,第四阈值可以通过多种方式设定,如根据试验结果,或者根据经验值,或者其它适当方式设定。优选地,本实施例的第四阈值通过以下方式设定:获取表单的各个表单框线中的最大连通分量的长度,并将长度划分为多个长度区间;将各个表单框线的每一个连通分量按照其长度划分到多个长度区间中的一个长度区间;根据多个长度区间的长度值和每一个长度区间的连通分量的个数,生成线段长度分布直方图;将直方图中纵坐标最高的点对应的长度值作为第四阈值。
获取的表单的表单框线中可能会存在许多字符线段,一般说来,这类线段的长度(对应字符的笔画)往往比较小,可以通过设定阈值的方式加以过滤。通过字符线段过滤,能够有效提高表单识别精度,减少字符对表单识别的影响。
需要说明的是,本步骤为可选步骤,对于某些纯表格图像中的表格(仅有表格,表格中无文字或字符),该步骤可省略。
步骤S206:根据进行了字符线段过滤后的各个表单框线和各个表单框线之间的位置关系,对表单进行特征提取,获取表单的特征向量。
优选地,可以根据各个表单框线和各个表单框线之间的位置关系,提取表单框线的各个交叉点,获取各个交叉点的信息,以及,获取各个表单框线中水平方向表单框线的信息、和垂直方向表单框线的信息;根据各个交叉点的信息、水平方向表单框线的信息、和垂直方向表单框线的信息,获取表单的特征向量。
仍以简单的“田”字形表单为例,如图4所示,常见的表单总共有九类交叉点也即特征点可供提取,根据表单的特性,可以提取的九类特征点包括:西北部特征点(图4中的NW类特征点)、北部特征点(图4中的N类特征点)、东北部特征点(图4中的NE类特征点)、东部特征点(图4中的E类特征点)、东南部特征点(图4中的SE类特征点)、南部特征点(图4中的S类特征点)、西南部特征点(图4中的SW类特征点)、西部特征点(图4中的W类特征点)、中部特征点(图4中的M类特征点)。
除了上述提取的九类特征点,本实施例还提取水平方向和垂直方向直线(也即表单框线)的信息如数量信息,共提取11类特征,将这些特征作为描述该表单的结构特征的特征向量输出。
特征点不是坐标点,而是各类框线特征的统计值。经过直线检测之后的表单图像,所有的元素必定是以下11种情况之一:西北部元素、北部元素、东北部元素、东部元素、东南部元素、南部元素、西南部元素、西部元素、中部元素以及水平、垂直直线。不必关心具体的坐标值,只需统计11类情况的出现频次,即可获取表单图像中表格的结构特征。
步骤S208:计算表单的特征向量与各个模板表单的特征向量之间的最相近距离和次相近距离的比值,根据计算结果识别表单。
其中,最相近距离是指表单的特征向量与各个模板表单的特征向量的所有距离数值中,数值最小的那个距离,该距离对应的模板表单在所有模板表单中与待识别的表单最为相似;而次相近距离是指所有距离数值中,数值第二小的那个距离,只有最相近距离小于次相近距离。
若最相近距离和次相近距离的比值大于或等于设定比值,则确定表单与最相近距离对应的模板表单的相似度最高,可以认为该表单属于模板表单类别;若比值小于设定比值,则确定表单与各个模板表单均不相似。
使用最相近距离和次相近距离的比值识别表单是因为:假设已经提取了“最相近距离”,如何衡量输入表单确实是属于该类别的?因为即使输入表单不属于样本,也会计算出一个最相近的值。一种方法是,设定一个阈值s,如果最相近距离小于s,说明确实是属于该类别表单的;反之则说明不属于表单库中任何一个类目。该方法的缺点是,较难给出明确的s值,需要通过大量人工测试才能确定。另一种方法是,设定一个阈值s,同时求出次相近,并计算最相近点和次相近点比例;如果该比例大于s,则认为属于“最相近”类别的表单;反之,反之则说明不属于表单库中任何一个类目,如图5和图6所示。如果最相近和次相近差别很大,则输入表单很有可能属于S0类别,如图5所示,T0和T1差别很大,输入表单属于S0类别;如果最相近和次相近差别很小,则输入表单很有可能不属于样本集合中的任何一个类别,如图6所示,T0和T1差别不大,输入表单很有可能不属于样本集合中的任何一个类别。通过这种方式,能够简单有效地识别出表单所属类别。
通过本实施例,对表单图像线段进行连通分量分析获取表单框线,对表单框线进行线宽去除处理以及字符线段过滤,以使表单框线更为精准有效;通过提取表单特征点获取表单有效的结构特征,进而通过相似度分析确定与表单最为相似的模板表单,实现表单识别。可见,通过本实施例,有效解决了现有技术无法对图像文件中的表格或表格图像进行正确识别的问题,达到了能够准确识别图像文件中的表格或表格图像中的表格,以便将表格方便、快速地输入到计算机中的效果。
实施例三
本实施例以实施例二为基础,从表单直线检测和表单类型识别方面对本申请的表单识别方法进行说明。其中,在表单直线检测过程中,进一步进行了表单框线合并的优化处理;在表单类型识别过程中,进一步进行了表单的多分辨率处理的优化。同时,对表单模型的建立也进行了说明。
以下,从上述方面对本实施例的表单识别方法进行说明。
首先,本实施例的表单直线检测流程如图7所示,包括:输入表单图像、表单图像预处理、表单图像连通分量提取、表单图像线段合并、表单图像字符线段过滤和表单图像直线检测结果输出几部分。
下面分别对表单直线检测流程的各部分进行详细描述:
步骤S302:输入表单图像。
本申请支持输入的图像来源包括屏幕截图、照片上传、扫描仪上传或者其它方式,输入表单的类型可以是电子表单、纸质票据或者工业图纸。
步骤S304:表单图像预处理。
主要是对输入的表单图像进行灰度化和二值化,经过预处理的输出图像仅包含黑、白两种颜色。
步骤S306:表单图像连通分量提取。
采用连通分量分析的方式提取直线可以有效地解决倾斜直线的问题。由于表格框线一般呈近似水平或者垂直的结构,因此本实施例采用的连通分量提取方案如下:
以检测水平直线为例,
(a1)垂直方向上连通的像素统一作为直线上的一个点来处理(兼容不同线宽);
考虑到处理的表单图像可能质量较差,存在模糊、毛刺等情况,所以在检测水平直线的时候,将每一个像素连同垂直方向上的像素都作为直线的元素。
(b1)如果在水平方向上(左侧或右侧)存在一个像素与当前像素邻接,则将其添加至连通域。
(c1)针对上述提取出来的连通分量,计算平均线宽(即水平直线在纵向的平均像素个数),假设为N。针对区域的每一个横坐标,如果当前位置的线宽(纵向像素个数)与N的比例超过一定的阈值,则从连通分量中去除;如果这个位置在直线的内部,则将直线打断为两段。该步骤主要是用来消除噪音、文字以及垂直线的影响。
垂直直线检测的方法与此相似,可仿照该水平直线检测方法进行。
步骤S308:表单图像线段合并。
本步骤主要是针对原本是同一条,但经各种原因断裂的直线进行合并。在合并时,需要按照设定规则判断同一方向上相邻的两条表单框线是否需要线段合并,若是,则对所述相邻的两条表单框线进行线段合并。优选地,可以获取同一方向上相邻的两条表单框线的距离,根据所述距离与设定的第一阈值的比较结果判断是否需要线段合并;和/或,获取同一方向上相邻的两条表单框线的相似度,根据所述相似度判断是否需要线段合并。优选地,在获取同一方向上相邻的两条表单框线的相似度,根据所述相似度判断是否需要线段合并时,获取同一方向上相邻的两条表单框线之间的夹角,根据所述夹角与设定的第二阈值的比较结果判断是否需要线段合并;和/或,获取同一方向上相邻的两条表单框线之间的平行距离,根据所述平行距离与设定的第三阈值的比较结果判断是否需要线段合并。
也即,两段直线合并要求满足以下条件至少之一:
条件A:两段线段间的最近距离(即左边直线的右端和右边直线的左端)小于一定的阈值。优选地,该阈值设置为12个像素,低于这个阈值则认为是正常的直线断裂,两条线段参与合并,否则认为是原本分离的两条直线,不参与合并。如图8所示,当T1小于一定的阈值时,两条线段(左侧连通分量1-2-3-4-5-6-7-8和右侧连通分量1-2-3-4-5-6-7-8)参与合并,否则不参与合并。
条件B:计算两条线段间的相似度,即它们为同一直线的可能性。
具体方法为,计算各直线的中心像素位置,然后通过直线拟合的方法(例如最小二乘法)获得各直线的逼近表达式。本实施例通过两个指标来衡量两条线段为同一直线的可能性。第一个指标是两者之间的夹角(可通过余弦定理获得),如图9所示,针对提取到的任意两个连通分量,计算其纵向的中心点,根据这些中心点可以拟合出最接近的直线,然后通过几何知识计算出两者之间的夹角,实现连通分量间夹角的计算,夹角越小表示两条直线属于同一条直线的可能性越大;第二个指标是两者之间的平行距离,可以通过计算第二条线段各像素中心相对于第一条线段的点线距的均方和来表示,如图10所示,针对提取到的任意两个连通分量,针对左边区域的中心拟合出直线,并计算其右边连通分量各中心点相对于延长线距离的平方和,从而实现连通分量间平行距离的计算,该值越小说明两条直线为同一条直线的可能性越大。优选地,第一个指标的阈值为5度,第二个指标的阈值为第二连通分量平均线宽平方值的两倍,即只有同时满足这两个条件的两条线段,才被合并为同一条直线。
线段合并主要是针对一些复杂的、图像质量较差的表单图片出现“原本是同一条表单直线由于各种原因断裂”的现象,而出现的一种补救措施。对于简单、并且较清晰的表单图像,该步骤为可选步骤。
步骤S310:表单图像字符线段过滤。
经过上述的线段合并后,结果中可能仍然会存在许多字符线段,一般说来,这类线段的长度(对应字符的笔画)往往比较小,可以通过设定阈值的方式加以过滤。
本实施例采用了一种自动化提取阈值的方式,针对前述步骤的输出结果,统计其直线长度的直方图,具体如下:
(a2)针对前面的输出结果,首先获得最长连通域的长度;
(b2)将其按照相等的间隔分成M个区间;
(c2)针对每一条线段,根据其长度将其划分到某一个区间中去,并将该区间的计数器累加一;
(d2)对各线段进行如上操作即可形成线段长度分布的直方图,取最高点对应的长度作为字符线段的长度。在水平和垂直两个方向可以分别得到字符宽度和字符高度,作为筛选线段的阈值;
(e2)只保留高于阈值的线段(也即,被划分到阈值右侧的区间的线段)。
以下,结合图11,对上述字符线段过滤进行说明。
本实施例中所有长度均以像素来表示,假设最长连通分量(代表检测出的最长的直线)的长度为500,取M=100,即将整个空间划分为0、5、10、...、495、500总共100个区间。将整个表单图像中检测到的直线,按照像素长度统计成直方图,如图11所示,其中,横坐标为像素区间,纵坐标为出现的次数。需要说明的是,M=100仅为示例性说明,在实际应用中,M的取值可以按照实际情况来定,如果图片大,像素自然就多,M可以相应调大,反之则可以调小。
在前述的直线检测中,将会输出许多直线段(包含真实的表格框线以及字符笔划线段)。绝大多数情况下,表格的框线长度较长并且数量较少,而字符笔划长度较短并且数量较多(特别是包含密集文字的情况)。因此通过本步骤检测出峰值情况下的阈值(如图11中椭圆线框部分对应的字符线段的长度),并且只保留高于阈值的线段(真正的表格框线)。
字符线段过滤主要是针对以下的情况:即训练过程或者待识别过程中的输入表单图片包含了大量文字性输入内容。除非输入表单包含极少的输入,否者那些输入的文字也会产生细小的直线,对后续步骤造成影响。通过字符线段过滤可以有效提高精度,减小文字性输入内容对表单识别的影响。
步骤S312:表单图像直线检测结果输出。
此外,针对每条线段,可以保留以下信息:Pstart:起点坐标;Pend:终点坐标;L:长度;W:平均线宽。
在对表单进行直线检测后,进行表单类型识别。本实施例的表单类型识别流程如图12所示,包括:表单特征提取、计算与各模板表单的相似度、判断表单所属的表单类别几部分。
下面分别对表单类型识别流程的各部分进行详细描述:
步骤S314:表单特征提取。
不同种类的表单具有不同的结构,本实施例通过一种通用的方式来描述表单,获得表单的结构特征,并以此作为判断表单类型的依据。
具体方法如下所述:
(a3)交叉点(特征点)提取:常见的表单总共有九类交叉点可供提取,之前提取的每条线段都包含有起点坐标和终点坐标,可以用于进行特征点的提取。再次参考图4,对特征点的提取可以根据表单的特性,提取九类特征点:西北部特征点、北部特征点、东北部特征点、东部特征点、东南部特征点、南部特征点、西南部特征点、西部特征点、中部特征点。
以图13的表单为例,进行了直线检测后输出的表单如图14所示,对图14所示的表单进行交叉点提取,如图15所示,其中,NW表示西北部特征点,N表示北部特征点,NE表示东北部特征点,E表示东部特征点,SE表示东南部特征点,S表示南部特征点,SW表示西南部特征点,W表示西部特征点,M表示中部特征点。另外,水平直线条数H=8,垂直直线V=12,统计各维度(N、NE、E、SE、S、SW、W、NW、M、H、V)的出现次数,得出该表单在此维度下的11维特征(10,1,6,1,10,1,6,1,13,8,12)。
为了求得更高的精度,对该表单进行下述多分辨率处理。在多分辨率处理下,该表单的特征向量就是在不同子窗口下上述各维度特征的统计次数。
(b3)表单外框区域确定:根据上面提取到的四个角上的特征点,可以确定出表单的区域。
(c3)多分辨率处理:得到表单所在区域之后,首先对表单的大小作归一化的处理,比如统一缩放到640×480。对归一化之后的图像进行多级分层的N×N划块。如图13所示,比如3层的图像,每层进行2×2划块,总共可以划分为1+4+16=21个子区域(窗口)。
(d3)特征提取:本实施例总共提取11类特征,包括(a3)中提取的九个特征的数量,以及水平和垂直直线的数量。也即,对多块表单中的每一块表单,分别根据本块表单内的各个表单框线和各个表单框线之间的位置关系,进行本块表单的交叉点提取,提取本块表单中的表单框线的各个交叉点,获取本块表单中的各个交叉点的信息,并且获取本块表单中的水平方向表单框线的信息、和垂直方向表单框线的信息。
(e3)特征直方图统计:针对图13中的多级分层,提取各图像子窗口的特征数量,然后合并为直方图。对于图13中的三层直方图,总共可以提取(1+4+16)×11=232维特征。
(f3)特征输出:将上述232维特征作为描述该类表单结构的特征向量输出。
由上述可见,如果用11维向量用于表单识别容易产生较大的误差(维度太少,信息不够丰富),而通过多分辨率处理可以提高识别的精度,例如,采用文中的1、2×2、4×4三种分辨率,最后的结果就成为了11×21=231维,识别的精度更高了。
步骤S316:计算与各模型(模板表单)的相似度及判断所属的表单类别。
例如,计算表单的特征向量与各模板表单的特征向量之间的欧氏距离。如果已知输入表单一定属于表单模板库,可以直接返回欧氏距离最短的表单类型;否则,可以采用以下的方法来判断:
(a4)计算各模板表单与输入表单图片中的表单的特征向量欧氏距离次相近以及最相近的比值;
(b4)如果该值大于或等于T,则返回与输入表单图片距离最相近的模板表单;
(c4)如果该值小于T,则认为输入表单图片不符合任一模板表单。
优选地,T取3。
此外,本实施例中表单模型(也即模板表单)可以通过图16的流程建立,包括:样本图片(表单模板)输入、样本图片直线检测和提取、样本图片特征提取和表单模型建立。其中,样本图片(表单模板)输入和样本图片直线检测和提取可以参照本实施例中表单直线检测流程的相应部分进行,而样本图片特征提取则可以参照本实施例中表单类型识别流程中的特征提取部分进行,在对样本图片中的表单进行了特征提取,获取了特征向量后,将该特征向量作为描述该类表单的模型输出,从而生成模板表单。例如,准备不同的表单模板(比如发票A、表格B、报销单C),采用本实施例中的方式进行直线检测和特征提取,最后训练输出的结果就是每个表单模型对应一个高维向量(如232维),如下所示:A:{232维向量};B:{232维向量};C:{232维向量}。
通过本实施例,提供了一种表单图片的结构自动识别方案,其对表单图像的直线检测对光照亮度、倾斜、断裂、噪音、不同线段宽度等都具有较强的抵抗性,输入表单图的获取方式可以是屏幕截屏、照片拍摄、或者扫描仪上传,来源可能是电子表格或是手绘图表,并且对图片质量没有很严格的要求;当样本库中含有多个模板表单时,提供了一种表单特征的描述方法,可以通过实现训练的方式,自动识别输入表单各自归属类别;并且,除去训练过程,整个识别过程都可以自动化,不需要任何人工的干预。
实施例四
参照图17,示出了根据本申请实施例四的一种表单识别装置的结构框图。
本实施例的表单识别装置包括:直线检测模块402,用于对表单二值图像中的表单进行直线检测,获取表单的各个表单框线和各个表单框线之间的位置关系;特征提取模块404,用于根据各个表单框线和各个表单框线之间的位置关系,对表单进行特征提取,获取表单的特征向量,其中,特征向量用于指示表单的结构特征;相似度计算模块406,用于根据表单的特征向量,计算所述表单与模板表单的相似度;表单识别模块408,用于根据相似度的计算结果,识别所述表单。
优选地,直线检测模块402,用于对于所述表单上的每一条直线,以本直线上的设定点为起点,对本直线上的相邻像素进行连通分量分析,获取本直线的连通分量;获取本直线的连通分量上的每一个像素在与本直线垂直方向上的连通分量的像素个数;根据本直线的连通分量上的每一个像素在与本直线垂直方向上的连通分量的像素个数,获取本直线的平均线宽;判断本直线的连通分量上的每一个像素所在处的线宽是否大于平均线宽,若是,则对大于平均线宽的像素所在处的线宽进行线宽去除处理;根据进行了线宽去除处理的每一条直线,获取表单的各个表单框线和各个表单框线之间的位置关系。
优选地,直线检测模块402在对大于平均线宽的像素所在处的线宽进行线宽去除处理时,将大于平均线宽的像素从本直线的连通分量中去除;判断去除的像素的位置是否在本直线的内部,若是,则对去除的像素两侧的线段进行线段合并。
优选地,特征提取模块404,用于根据各个表单框线和各个表单框线之间的位置关系,提取表单框线的各个交叉点,获取各个交叉点的信息,以及,获取各个表单框线中水平方向表单框线的信息、和垂直方向表单框线的信息;根据各个交叉点的信息、水平方向表单框线的信息、和垂直方向表单框线的信息,获取表单的特征向量。
优选地,本实施例的表单识别装置还包括:表单处理模块410,用于在特征提取模块404根据各个表单框线和各个表单框线之间的位置关系,提取表单框线的各个交叉点之前,确定表单的区域;根据表单的区域,对表单做归一化处理。
优选地,表单处理模块410,还用于将归一化处理后的表单划分为多块;特征提取模块404,用于对多块表单中的每一块表单,分别根据本块表单内的各个表单框线和各个表单框线之间的位置关系,进行本块表单的交叉点提取,提取本块表单中的表单框线的各个交叉点,获取本块表单中的各个交叉点的信息,并且获取本块表单中的水平方向表单框线的信息、和垂直方向表单框线的信息;根据获取的每一块表单中的各个交叉点的信息、水平方向表单框线的信息、和垂直方向表单框线的信息,获取表单的特征向量。
优选地,相似度计算模块406,用于计算表单的特征向量与各个模板表单的特征向量之间的最相近距离和次相近距离的比值;若比值大于或等于设定比值,则确定表单与最相近距离对应的模板表单的相似度最高;若比值小于设定比值,则确定表单与各个模板表单均不相似。
优选地,本实施例的表单识别装置还包括:线段合并模块412,用于在特征提取模块404根据各个表单框线和各个表单框线之间的位置关系,对表单进行特征提取,获取所述表单的特征向量之前,按照设定规则判断同一方向上相邻的两条表单框线是否需要线段合并,若是,则对所述相邻的两条表单框线进行线段合并。
优选地,线段合并模块412,用于获取同一方向上相邻的两条表单框线的距离,根据所述距离与设定的第一阈值的比较结果判断是否需要线段合并,和/或,获取同一方向上相邻的两条表单框线的相似度,根据所述相似度判断是否需要线段合并;若是,则对所述相邻的两条表单框线进行线段合并。
优选地,线段合并模块412在获取同一方向上相邻的两条表单框线的相似度,根据所述相似度判断是否需要线段合并时,获取同一方向上相邻的两条表单框线之间的夹角,根据所述夹角与设定的第二阈值的比较结果判断是否需要线段合并;和/或,获取同一方向上相邻的两条表单框线之间的平行距离,根据所述平行距离与设定的第三阈值的比较结果判断是否需要线段合并。
优选地,本实施例的表单识别装置还包括:字符线段过滤模块414,用于在特征提取模块404根据各个表单框线和各个表单框线之间的位置关系,对表单进行特征提取,获取所述表单的特征向量之前,对获取的表单的各个表单框线进行字符线段过滤。
优选地,字符线段过滤模块414,用于判断表单的各个表单框线的线段长度是否小于或等于设定的第四阈值,若是,则去除线段长度小于或等于第四阈值的表单框线。
优选地,第四阈值通过以下方式设定:获取表单的各个表单框线中的最大连通分量的长度,并将所述长度划分为多个长度区间;将各个表单框线的每一个连通分量按照其长度划分到多个长度区间中的一个长度区间;根据多个长度区间的长度值和每一个长度区间的连通分量的个数,生成线段长度分布直方图;将直方图中纵坐标最高的点对应的长度值作为第四阈值。
本实施例的表单识别装置用于实现前述多个方法实施例中相应的表单识别方法,并具有相应的方法实施例的有益效果,在此不再赘述。
本申请提供了一种表单图像的自动识别方案,其主要包括直线检测和输入表单图片中的表单类型判断两部分。在直线检测中,提供了一种通过连通分量分析提取直线的优选方案,通过该方案,能够对表单框线进行准确、清晰地提取;在表单类型判断中,提供了一种对表单进行多分辨率特征提取的优选方案,通过该方案,能够提高表单识别的精度。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的一种表单识别方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (20)

1.一种表单识别方法,其特征在于,包括:
对表单二值图像中的表单进行直线检测,获取所述表单的各个表单框线和所述各个表单框线之间的位置关系;
根据所述各个表单框线和所述各个表单框线之间的位置关系,对所述表单进行特征提取,获取所述表单的特征向量,其中,所述特征向量用于指示所述表单的结构特征;
根据所述表单的特征向量,计算所述表单与模板表单的相似度;
根据所述相似度的计算结果,识别所述表单。
2.根据权利要求1所述的方法,其特征在于,所述对表单二值图像中的表单进行直线检测,获取所述表单的各个表单框线和所述各个表单框线之间的位置关系的步骤包括:
对于所述表单上的每一条直线,以本直线上的设定点为起点,对本直线上的相邻像素进行连通分量分析,获取本直线的连通分量;获取所述本直线的连通分量上的每一个像素在与本直线垂直方向上的连通分量的像素个数;根据所述本直线的连通分量上的每一个像素在与本直线垂直方向上的连通分量的像素个数,获取本直线的平均线宽;判断本直线的连通分量上的每一个像素所在处的线宽是否大于所述平均线宽,若是,则对大于所述平均线宽的像素所在处的线宽进行线宽去除处理;
根据进行了所述线宽去除处理的每一条直线,获取所述表单的各个表单框线和所述各个表单框线之间的位置关系。
3.根据权利要求2所述的方法,其特征在于,所述对大于所述平均线宽的像素所在处的线宽进行线宽去除处理的步骤包括:
将所述大于平均线宽的像素从本直线的连通分量中去除;
判断去除的所述像素的位置是否在本直线的内部,若是,则对去除的所述像素两侧的线段进行线段合并。
4.根据权利要求1所述的方法,其特征在于,在根据所述各个表单框线和所述各个表单框线之间的位置关系,对所述表单进行特征提取,获取所述表单的特征向量的步骤之前,还包括:
按照设定规则判断同一方向上相邻的两条表单框线是否需要线段合并,若是,则对所述相邻的两条表单框线进行线段合并。
5.根据权利要求4所述的方法,其特征在于,所述按照设定规则判断同一方向上相邻的两条表单框线是否需要线段合并的步骤包括:
获取同一方向上相邻的两条表单框线的距离,根据所述距离与设定的第一阈值的比较结果判断是否需要线段合并;
和/或,
获取同一方向上相邻的两条表单框线的相似度,根据所述相似度判断是否需要线段合并。
6.根据权利要求5所述的方法,其特征在于,所述获取同一方向上相邻的两条表单框线的相似度,根据所述相似度判断是否需要线段合并的步骤包括:
获取同一方向上相邻的两条表单框线之间的夹角,根据所述夹角与设定的第二阈值的比较结果判断是否需要线段合并;
和/或,
获取同一方向上相邻的两条表单框线之间的平行距离,根据所述平行距离与设定的第三阈值的比较结果判断是否需要线段合并。
7.根据权利要求2所述的方法,其特征在于,在根据所述各个表单框线和所述各个表单框线之间的位置关系,对所述表单进行特征提取,获取所述表单的特征向量的步骤之前,还包括:
对获取的所述表单的各个表单框线进行字符线段过滤。
8.根据权利要求7所述的方法,其特征在于,所述对获取的所述表单的各个表单框线进行字符线段过滤的步骤包括:
判断所述表单的各个表单框线的线段长度是否小于或等于设定的第四阈值,若是,则去除线段长度小于或等于所述第四阈值的表单框线。
9.根据权利要求8所述的方法,其特征在于,所述第四阈值通过以下方式设定:
获取所述表单的各个表单框线中的最大连通分量的长度,并将所述长度划分为多个长度区间;
将所述各个表单框线的每一个连通分量按照其长度划分到所述多个长度区间中的一个长度区间;
根据所述多个长度区间的长度值和每一个所述长度区间的连通分量的个数,生成线段长度分布直方图;
将所述直方图中纵坐标最高的点对应的长度值作为所述第四阈值。
10.根据权利要求1所述的方法,其特征在于,根据所述各个表单框线和所述各个表单框线之间的位置关系,对所述表单进行特征提取,获取所述表单的特征向量的步骤包括:
根据所述各个表单框线和所述各个表单框线之间的位置关系,提取所述表单框线的各个交叉点,获取所述各个交叉点的信息,以及,获取所述各个表单框线中水平方向表单框线的信息、和垂直方向表单框线的信息;
根据所述各个交叉点的信息、所述水平方向表单框线的信息、和所述垂直方向表单框线的信息,获取所述表单的特征向量。
11.根据权利要求10所述的方法,其特征在于,在根据所述各个表单框线和所述各个表单框线之间的位置关系,提取所述表单框线的各个交叉点的步骤之前,还包括:
确定所述表单的区域;
根据所述表单的区域,对所述表单做归一化处理。
12.根据权利要求11所述的方法,其特征在于,
在对所述表单做归一化处理的步骤之后,还包括:将归一化处理后的所述表单划分为多块;
所述根据所述各个表单框线和所述各个表单框线之间的位置关系,提取所述表单框线的各个交叉点,获取所述各个交叉点的信息,以及,获取所述各个表单框线中水平方向表单框线的信息、和垂直方向表单框线的信息的步骤包括:对所述多块表单中的每一块表单,分别根据本块表单内的各个表单框线和各个表单框线之间的位置关系,进行本块表单的交叉点提取,提取本块表单中的表单框线的各个交叉点,获取本块表单中的各个交叉点的信息,并且获取本块表单中的水平方向表单框线的信息、和垂直方向表单框线的信息。
13.根据权利要求1所述的方法,其特征在于,根据所述表单的特征向量,计算所述表单与模板表单的相似度的步骤包括:
计算所述表单的特征向量与各个所述模板表单的特征向量之间的最相近距离和次相近距离的比值;
若所述比值大于或等于设定比值,则确定所述表单与所述最相近距离对应的模板表单的相似度最高;
若所述比值小于所述设定比值,则确定所述表单与所述各个模板表单均不相似。
14.一种表单识别装置,其特征在于,包括:
直线检测模块,用于对表单二值图像中的表单进行直线检测,获取所述表单的各个表单框线和所述各个表单框线之间的位置关系;
特征提取模块,用于根据所述各个表单框线和所述各个表单框线之间的位置关系,对所述表单进行特征提取,获取所述表单的特征向量,其中,所述特征向量用于指示所述表单的结构特征;
相似度计算模块,用于根据所述表单的特征向量,计算所述表单与模板表单的相似度;
表单识别模块,用于根据所述相似度的计算结果,识别所述表单。
15.根据权利要求14所述的装置,其特征在于,所述直线检测模块,用于对于所述表单上的每一条直线,以本直线上的设定点为起点,对本直线上的相邻像素进行连通分量分析,获取本直线的连通分量;获取所述本直线的连通分量上的每一个像素在与本直线垂直方向上的连通分量的像素个数;根据所述本直线的连通分量上的每一个像素在与本直线垂直方向上的连通分量的像素个数,获取本直线的平均线宽;判断本直线的连通分量上的每一个像素所在处的线宽是否大于所述平均线宽,若是,则对大于所述平均线宽的像素所在处的线宽进行线宽去除处理;根据进行了所述线宽去除处理的每一条直线,获取所述表单的各个表单框线和所述各个表单框线之间的位置关系。
16.根据权利要求15所述的装置,其特征在于,所述直线检测模块在对大于所述平均线宽的像素所在处的线宽进行线宽去除处理时,将所述大于平均线宽的像素从本直线的连通分量中去除;判断去除的所述像素的位置是否在本直线的内部,若是,则对去除的所述像素两侧的线段进行线段合并。
17.根据权利要求14所述的装置,其特征在于,所述特征提取模块,用于根据所述各个表单框线和所述各个表单框线之间的位置关系,提取所述表单框线的各个交叉点,获取所述各个交叉点的信息,以及,获取所述各个表单框线中水平方向表单框线的信息、和垂直方向表单框线的信息;根据所述各个交叉点的信息、所述水平方向表单框线的信息、和所述垂直方向表单框线的信息,获取所述表单的特征向量。
18.根据权利要求17所述的装置,其特征在于,还包括:
表单处理模块,用于在所述特征提取模块根据所述各个表单框线和所述各个表单框线之间的位置关系,提取所述表单框线的各个交叉点之前,确定所述表单的区域;根据所述表单的区域,对所述表单做归一化处理。
19.根据权利要求18所述的装置,其特征在于,
所述表单处理模块,还用于将归一化处理后的所述表单划分为多块;
所述特征提取模块,用于对所述多块表单中的每一块表单,分别根据本块表单内的各个表单框线和各个表单框线之间的位置关系,进行本块表单的交叉点提取,提取本块表单中的表单框线的各个交叉点,获取本块表单中的各个交叉点的信息,并且获取本块表单中的水平方向表单框线的信息、和垂直方向表单框线的信息;根据获取的所述每一块表单中的所述各个交叉点的信息、所述水平方向表单框线的信息、和所述垂直方向表单框线的信息,获取所述表单的特征向量。
20.根据权利要求14所述的装置,其特征在于,所述相似度计算模块,用于计算所述表单的特征向量与各个所述模板表单的特征向量之间的最相近距离和次相近距离的比值;若所述比值大于或等于设定比值,则确定所述表单与所述最相近距离对应的模板表单的相似度最高;若所述比值小于所述设定比值,则确定所述表单与所述各个模板表单均不相似。
CN201210258883.7A 2012-07-24 2012-07-24 表单识别方法与装置 Active CN103577817B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201210258883.7A CN103577817B (zh) 2012-07-24 2012-07-24 表单识别方法与装置
TW101142227A TWI536277B (zh) 2012-07-24 2012-11-13 Form identification method and device
US13/947,412 US9047529B2 (en) 2012-07-24 2013-07-22 Form recognition method and device
KR1020157000030A KR101690981B1 (ko) 2012-07-24 2013-07-23 형태 인식 방법 및 디바이스
JP2015524373A JP6000455B2 (ja) 2012-07-24 2013-07-23 フォーム認識方法及びフォーム認識装置
PCT/US2013/051576 WO2014018482A2 (en) 2012-07-24 2013-07-23 Form recognition method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210258883.7A CN103577817B (zh) 2012-07-24 2012-07-24 表单识别方法与装置

Publications (2)

Publication Number Publication Date
CN103577817A true CN103577817A (zh) 2014-02-12
CN103577817B CN103577817B (zh) 2017-03-01

Family

ID=49994954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210258883.7A Active CN103577817B (zh) 2012-07-24 2012-07-24 表单识别方法与装置

Country Status (6)

Country Link
US (1) US9047529B2 (zh)
JP (1) JP6000455B2 (zh)
KR (1) KR101690981B1 (zh)
CN (1) CN103577817B (zh)
TW (1) TWI536277B (zh)
WO (1) WO2014018482A2 (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106875408A (zh) * 2017-02-27 2017-06-20 网易(杭州)网络有限公司 用于截图的方法、装置及终端设备
CN107085734A (zh) * 2017-05-24 2017-08-22 南京华设科技股份有限公司 智能业务受理机器人
CN107679024A (zh) * 2017-09-11 2018-02-09 畅捷通信息技术股份有限公司 识别表格的方法、系统、计算机设备、可读存储介质
CN108090068A (zh) * 2016-11-21 2018-05-29 医渡云(北京)技术有限公司 医院数据库中的表的分类方法及装置
CN108416377A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 柱状图中的信息提取方法及装置
CN109214385A (zh) * 2018-08-15 2019-01-15 腾讯科技(深圳)有限公司 数据采集方法、数据采集装置及存储介质
CN109460544A (zh) * 2018-10-26 2019-03-12 长沙通诺信息科技有限责任公司 电子表单生成方法及装置、计算机设备及存储介质
CN109635633A (zh) * 2018-10-26 2019-04-16 平安科技(深圳)有限公司 电子装置、票据识别方法及存储介质
CN109684957A (zh) * 2018-12-14 2019-04-26 新博卓畅技术(北京)有限公司 一种自动按照纸质表单展现系统数据的方法及系统
CN109934160A (zh) * 2019-03-12 2019-06-25 天津瑟威兰斯科技有限公司 基于表格识别的表格文字信息提取的方法及系统
CN109977910A (zh) * 2019-04-04 2019-07-05 厦门商集网络科技有限责任公司 基于彩色线段的票据快速定位方法及其系统
CN110084117A (zh) * 2019-03-22 2019-08-02 中国科学院自动化研究所 基于二值图分段投影的文档表格线检测方法、系统
CN111553187A (zh) * 2020-03-20 2020-08-18 广联达科技股份有限公司 识别cad图纸中表格的方法及系统
CN111989692A (zh) * 2019-09-30 2020-11-24 北京市商汤科技开发有限公司 表单识别方法、表格提取方法及相关装置
WO2021062896A1 (zh) * 2019-09-30 2021-04-08 北京市商汤科技开发有限公司 表单识别方法、表格提取方法及相关装置
WO2021143629A1 (zh) * 2020-01-16 2021-07-22 京东方科技集团股份有限公司 一种表格提取方法、装置及触控显示装置
US11443504B2 (en) * 2015-05-08 2022-09-13 Open Text Corporation Image box filtering for optical character recognition
CN117454859A (zh) * 2023-12-19 2024-01-26 四川弘和数智集团有限公司 油气站数据自动录入方法、装置、电子设备及存储介质

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9235755B2 (en) * 2013-08-15 2016-01-12 Konica Minolta Laboratory U.S.A., Inc. Removal of underlines and table lines in document images while preserving intersecting character strokes
AU2013273778A1 (en) * 2013-12-20 2015-07-09 Canon Kabushiki Kaisha Text line fragments for text line analysis
US9256780B1 (en) * 2014-09-22 2016-02-09 Intel Corporation Facilitating dynamic computations for performing intelligent body segmentations for enhanced gesture recognition on computing devices
WO2017058252A1 (en) * 2015-10-02 2017-04-06 Hewlett-Packard Development Company, L.P. Detecting document objects
CN105550633B (zh) 2015-10-30 2018-12-11 小米科技有限责任公司 区域识别方法及装置
US9865038B2 (en) * 2015-11-25 2018-01-09 Konica Minolta Laboratory U.S.A., Inc. Offsetting rotated tables in images
US9697423B1 (en) * 2015-12-31 2017-07-04 Konica Minolta Laboratory U.S.A., Inc. Identifying the lines of a table
US10002306B2 (en) * 2016-06-30 2018-06-19 Konica Minolta Laboratory U.S.A., Inc. Merging overlapping broken lines of a table
JP7059514B2 (ja) * 2017-03-15 2022-04-26 オムロン株式会社 文字認識装置、文字認識方法、および、文字認識プログラム
CN108734687B (zh) * 2017-04-21 2020-04-28 游诚曦 一种斜拉线不受力缺陷识别方法及装置
US10331949B2 (en) * 2017-07-25 2019-06-25 Konica Minolta Laboratory U.S.A., Inc. Splitting merged table cells
US10268920B2 (en) * 2017-08-31 2019-04-23 Konica Minolta Laboratory U.S.A., Inc. Detection of near rectangular cells
TWI682327B (zh) * 2018-01-02 2020-01-11 虹光精密工業股份有限公司 影像整合列印系統以及影像整合列印方法
CN108763606B (zh) * 2018-03-12 2019-12-10 江苏艾佳家居用品有限公司 一种基于机器视觉的户型图元素自动提取方法与系统
JP6487100B1 (ja) * 2018-05-24 2019-03-20 株式会社東芝 帳票処理装置及び帳票処理方法
CN110188336B (zh) * 2019-05-27 2022-06-10 厦门商集网络科技有限责任公司 一种基于oa申请单生成报销单的方法和装置
CN110598575B (zh) * 2019-08-21 2023-06-02 科大讯飞股份有限公司 表格版面分析与提取方法及相关装置
KR102645291B1 (ko) * 2019-10-30 2024-03-07 선문대학교 산학협력단 상품 정보 제공 및 상품 주문이 가능한 어플리케이션과 연동되는 스마트 자판기 관리 장치
CN111144081B (zh) * 2019-12-10 2024-05-24 东软集团股份有限公司 表单生成方法、装置、存储介质及电子设备
CN111091090A (zh) * 2019-12-11 2020-05-01 上海眼控科技股份有限公司 一种银行报表ocr识别方法、装置、平台和终端
CN111626027B (zh) * 2020-05-20 2023-03-24 北京百度网讯科技有限公司 表格结构还原方法、装置、设备、系统和可读存储介质
CN111695553B (zh) * 2020-06-05 2023-09-08 北京百度网讯科技有限公司 表格识别方法、装置、设备和介质
US11990214B2 (en) 2020-07-21 2024-05-21 International Business Machines Corporation Handling form data errors arising from natural language processing
US11816913B2 (en) 2021-03-02 2023-11-14 Tata Consultancy Services Limited Methods and systems for extracting information from document images
CN113065536B (zh) * 2021-06-03 2021-09-14 北京欧应信息技术有限公司 处理表格的方法、计算设备和计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5841905A (en) * 1996-10-25 1998-11-24 Eastman Kodak Company Business form image identification using projected profiles of graphical lines and text string lines
CN101366020A (zh) * 2005-12-21 2009-02-11 微软公司 墨水笔记中的表格检测
CN101676930A (zh) * 2008-09-17 2010-03-24 北大方正集团有限公司 一种识别扫描图像中表格单元的方法及装置
CN101908136A (zh) * 2009-06-08 2010-12-08 比亚迪股份有限公司 一种表格识别处理方法及系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5851372A (ja) * 1981-09-22 1983-03-26 Ricoh Co Ltd 高画質化方法
JPS61877A (ja) * 1984-06-14 1986-01-06 Amada Co Ltd 形状認識装置
JPS6232581A (ja) * 1985-08-05 1987-02-12 Nippon Telegr & Teleph Corp <Ntt> 掌形認識方法
JPH027183A (ja) * 1988-06-25 1990-01-11 Toshiba Corp 文字切出装置
JP3096481B2 (ja) * 1991-02-22 2000-10-10 グローリー工業株式会社 帳票類の種類判別方法
EP0601107A4 (en) * 1991-08-30 1995-03-15 Trw Financial Systems Inc METHOD AND APPARATUS FOR CONVERTING DOCUMENT BETWEEN PAPER MEDIUM AND ELECTRONIC MEDIA.
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
JPH07141471A (ja) * 1993-11-19 1995-06-02 Sharp Corp 文字認識方法
JPH0877294A (ja) * 1994-09-06 1996-03-22 Toshiba Corp 文書画像処理装置
JP4382074B2 (ja) * 1996-12-27 2009-12-09 富士通株式会社 フォーム識別方法
JPH11232382A (ja) * 1998-02-10 1999-08-27 Hitachi Ltd 罫線抽出方法及び罫線除去方法
JP2002324236A (ja) 2001-04-25 2002-11-08 Hitachi Ltd 帳票識別方法及び帳票登録方法
US6898317B2 (en) 2001-05-07 2005-05-24 Hewlett-Packard Development Company, L.P. Method and system for fit-to-form scanning with a scanning device
US7725834B2 (en) 2005-03-04 2010-05-25 Microsoft Corporation Designer-created aspect for an electronic form template
US8320674B2 (en) * 2008-09-03 2012-11-27 Sony Corporation Text localization for image and video OCR
US8274523B2 (en) 2009-07-30 2012-09-25 Eastman Kodak Company Processing digital templates for image display

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5841905A (en) * 1996-10-25 1998-11-24 Eastman Kodak Company Business form image identification using projected profiles of graphical lines and text string lines
CN101366020A (zh) * 2005-12-21 2009-02-11 微软公司 墨水笔记中的表格检测
CN101676930A (zh) * 2008-09-17 2010-03-24 北大方正集团有限公司 一种识别扫描图像中表格单元的方法及装置
CN101908136A (zh) * 2009-06-08 2010-12-08 比亚迪股份有限公司 一种表格识别处理方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ARTURO PIZANO等: "A business form recognition system", 《PROCEEDINGS OF THE FIFTEENTH ANNUAL INTERNATIONAL COMPUTER SOFTWARE AND APPLICATIONS CONFERENCE》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11443504B2 (en) * 2015-05-08 2022-09-13 Open Text Corporation Image box filtering for optical character recognition
CN108090068A (zh) * 2016-11-21 2018-05-29 医渡云(北京)技术有限公司 医院数据库中的表的分类方法及装置
CN108090068B (zh) * 2016-11-21 2021-05-25 医渡云(北京)技术有限公司 医院数据库中的表的分类方法及装置
CN106875408B (zh) * 2017-02-27 2020-03-17 网易(杭州)网络有限公司 用于截图的方法、装置及终端设备
CN106875408A (zh) * 2017-02-27 2017-06-20 网易(杭州)网络有限公司 用于截图的方法、装置及终端设备
CN107085734A (zh) * 2017-05-24 2017-08-22 南京华设科技股份有限公司 智能业务受理机器人
CN107679024A (zh) * 2017-09-11 2018-02-09 畅捷通信息技术股份有限公司 识别表格的方法、系统、计算机设备、可读存储介质
CN108416377A (zh) * 2018-02-26 2018-08-17 阿博茨德(北京)科技有限公司 柱状图中的信息提取方法及装置
CN108416377B (zh) * 2018-02-26 2021-12-10 阿博茨德(北京)科技有限公司 柱状图中的信息提取方法及装置
CN109214385A (zh) * 2018-08-15 2019-01-15 腾讯科技(深圳)有限公司 数据采集方法、数据采集装置及存储介质
CN109214385B (zh) * 2018-08-15 2021-06-08 腾讯科技(深圳)有限公司 数据采集方法、数据采集装置及存储介质
CN109460544A (zh) * 2018-10-26 2019-03-12 长沙通诺信息科技有限责任公司 电子表单生成方法及装置、计算机设备及存储介质
CN109635633A (zh) * 2018-10-26 2019-04-16 平安科技(深圳)有限公司 电子装置、票据识别方法及存储介质
CN109684957A (zh) * 2018-12-14 2019-04-26 新博卓畅技术(北京)有限公司 一种自动按照纸质表单展现系统数据的方法及系统
CN109934160A (zh) * 2019-03-12 2019-06-25 天津瑟威兰斯科技有限公司 基于表格识别的表格文字信息提取的方法及系统
CN109934160B (zh) * 2019-03-12 2023-06-02 天津瑟威兰斯科技有限公司 基于表格识别的表格文字信息提取的方法及系统
CN110084117B (zh) * 2019-03-22 2021-07-20 中国科学院自动化研究所 基于二值图分段投影的文档表格线检测方法、系统
CN110084117A (zh) * 2019-03-22 2019-08-02 中国科学院自动化研究所 基于二值图分段投影的文档表格线检测方法、系统
CN109977910A (zh) * 2019-04-04 2019-07-05 厦门商集网络科技有限责任公司 基于彩色线段的票据快速定位方法及其系统
CN109977910B (zh) * 2019-04-04 2021-08-20 厦门商集网络科技有限责任公司 基于彩色线段的票据快速定位方法及其系统
WO2021062896A1 (zh) * 2019-09-30 2021-04-08 北京市商汤科技开发有限公司 表单识别方法、表格提取方法及相关装置
CN111989692A (zh) * 2019-09-30 2020-11-24 北京市商汤科技开发有限公司 表单识别方法、表格提取方法及相关装置
WO2021143629A1 (zh) * 2020-01-16 2021-07-22 京东方科技集团股份有限公司 一种表格提取方法、装置及触控显示装置
CN111553187A (zh) * 2020-03-20 2020-08-18 广联达科技股份有限公司 识别cad图纸中表格的方法及系统
CN117454859A (zh) * 2023-12-19 2024-01-26 四川弘和数智集团有限公司 油气站数据自动录入方法、装置、电子设备及存储介质
CN117454859B (zh) * 2023-12-19 2024-04-02 四川弘和数智集团有限公司 油气站数据自动录入方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
TWI536277B (zh) 2016-06-01
JP2015528960A (ja) 2015-10-01
KR101690981B1 (ko) 2016-12-29
TW201405440A (zh) 2014-02-01
WO2014018482A3 (en) 2014-03-20
JP6000455B2 (ja) 2016-09-28
US9047529B2 (en) 2015-06-02
WO2014018482A2 (en) 2014-01-30
KR20150017755A (ko) 2015-02-17
US20140029853A1 (en) 2014-01-30
CN103577817B (zh) 2017-03-01

Similar Documents

Publication Publication Date Title
CN103577817B (zh) 表单识别方法与装置
CN104182750B (zh) 一种在自然场景图像中基于极值连通域的中文检测方法
CN106650740B (zh) 一种车牌识别方法及终端
CN101122953B (zh) 一种图片文字分割的方法
Saha et al. License Plate localization from vehicle images: An edge based multi-stage approach
CN109753953B (zh) 图像中定位文本的方法、装置、电子设备和存储介质
CN102867418B (zh) 一种判断车牌识别准确性的方法和装置
CN111311542A (zh) 一种产品质量检测方法及装置
CN106960208A (zh) 一种仪表液晶数字自动切分和识别的方法及系统
CN106203454B (zh) 证件版式分析的方法及装置
CN101122952A (zh) 一种图片文字检测的方法
KR101246120B1 (ko) 전후면 번호판 영상 기반 차량번호 인식 시스템
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN109165643A (zh) 一种基于深度学习的车牌识别方法
Saha et al. Automatic localization and recognition of license plate characters for Indian vehicles
CN103336961A (zh) 一种交互式的自然场景文本检测方法
CN109378279A (zh) 晶圆检测方法及晶圆检测系统
CN115082776A (zh) 一种基于图像识别的电能表自动检测系统及方法
CN113538603A (zh) 一种基于阵列产品的光学检测方法、系统和可读存储介质
CN115761773A (zh) 基于深度学习的图像内表格识别方法及系统
Ismail License plate Recognition for moving vehicles case: At night and under rain condition
CN101615255B (zh) 一种视频文字多帧融合的方法
CN117854402A (zh) 显示屏的异常显示检测方法、装置、终端设备
CN112967224A (zh) 一种基于人工智能的电子电路板检测系统、方法及介质
CN103927312A (zh) 一种cis 图像传感器的失效信息自动分类方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1193212

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1193212

Country of ref document: HK