CN110084117A - 基于二值图分段投影的文档表格线检测方法、系统 - Google Patents

基于二值图分段投影的文档表格线检测方法、系统 Download PDF

Info

Publication number
CN110084117A
CN110084117A CN201910223004.9A CN201910223004A CN110084117A CN 110084117 A CN110084117 A CN 110084117A CN 201910223004 A CN201910223004 A CN 201910223004A CN 110084117 A CN110084117 A CN 110084117A
Authority
CN
China
Prior art keywords
table line
subgraph
rectangle frame
projection
pixel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910223004.9A
Other languages
English (en)
Other versions
CN110084117B (zh
Inventor
王春恒
贾馥溪
赵晋媛
肖柏华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201910223004.9A priority Critical patent/CN110084117B/zh
Publication of CN110084117A publication Critical patent/CN110084117A/zh
Application granted granted Critical
Publication of CN110084117B publication Critical patent/CN110084117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)

Abstract

本发明属于文本图像识别技术领域,具体涉及一种基于二值图分段投影的文档表格线检测方法、系统,旨在为了解决解决文档图像图像质量不稳定带来的表格线识别的准确度和鲁棒性不足的问题。本发明方法包括:输入图像的二值化处理;沿水平方向切分等宽等长的矩形子图,并计算各像素行投影值;获取各子图中表示表格线段的矩形框;基于所有子图,获取表格线候选路径;依据长度信息选择表格线候选路径对应的矩形框得到第一表格线集合,对第一图像旋转后经上述方法得到表格线,你旋转后得到第二表格线集合。本发明且不会受到具体表格类型的影响,具有较好的通用性,且对文档图像图像质量不稳定情况下进行表格线识别,提高了识别准确度和鲁棒性。

Description

基于二值图分段投影的文档表格线检测方法、系统
技术领域
本发明属于文本图像识别技术领域,具体涉及一种基于二值图分段投影的文档表格线检测方法、系统。
背景技术
科技的发展使信息处理方式突飞猛进,为了实现对信息的编辑、搜索和数据分析等处理,将纸质材料文字信息快速输入计算机有很重要的意义,OCR(光学字符识别)技术由此产生。文档图像广泛存在于交通、金融、物流、税务、行政管理等各个领域中,借助于智能终端的快速普及,文档的拍照自动识别技术具有极大的经济效益和广泛的社会价值。
在这些的文档资料中,有一类特殊的资料文档——表格文档,例如银行流水单,增值税发票,公司报表等等,其在我们的日常生活工作有着非常广泛的应用。文档表格线将整个文档划分为不同区域,是文档版面分析与识别信息结构化处理的重要的依据,因此对文档图像表格线的检测与去除的研究具有重要意义。然而,由于纸质文档本身通常包含一些干扰,如纸张变形和折痕。拍照采像又容易受到复杂背景、文档变形和不均匀光照等各种因素的影响。因此造成表格线的检测结果的准确度较低、鲁棒性较差。
发明内容
为了解决现有技术中的上述问题,即为了解决文档图像图像质量不稳定带来的表格线识别的准确度和鲁棒性不足的问题,本发明的第一方面,提出了一种基于二值图分段投影的文档表格线检测方法,该方法包括:
步骤S10,对输入的矩形文档图像进行二值化处理,得到第一图像;
步骤S20,沿预设方向将所述第一图像切分为等宽等长的多个矩形子图,并对每个子图各像素行在其长度方向上进行投影,得到各像素行的投影值;
步骤S30,对于每个子图,选取投影值大于第一阈值的像素行,并将其中行号连续像素行进行融合,得到表示表格线段的矩形框;
步骤S40,对于所有子图,将相邻子图中相邻的矩形框放入同一条表格线候选路径;
步骤S50,选取路径长度大于第二阈值的表格线候选路径,并通过其对应矩形框表示第一表格线,获得第一表格线集合;
步骤S60,将所述第一图像按照第一方向进行九十度旋转,通过步骤S20至步骤S50的方法获得表格线,按照与第一方向相反的方向旋转九十度后得到第二表格线,获得第二表格线集合。
一些优选的实施方式中,在步骤S60之后还包括:
步骤S70,基于所述第一表格线集、所述第二表格线集合中各表格线的集合分布信息,通过步骤S50中未选取路径对应的矩形框,补全相邻两条平行表格线之间的表格线。
一些优选的实施方式中,在步骤S70之后还包括:
步骤S80,步骤S70补全后的表格线中,检测并去除粘连字符的表格线像素。
一些优选的实施方式中,步骤S10“对输入的矩形文档图像进行二值化处理,得到第一图像”,其方法为:
获取所输入矩形文档图像的灰度图;
在得到的灰度图中,将其灰度值小于局部阈值的中心像素在二值图中置为0,否则置为255;其中,所述局部阈值为对应中心点像素邻域值加权求和后与预设常数的差值。
一些优选的实施方式中,步骤S20中“各像素行的投影值”,其计算该方法为:
其中,Pn(i)为第n个子图中第i像素行的投影值,Wn为第n个子图的像素宽度,H为子图的像素长度,In(i,j)为第n个子图In中像素点(i,j)的像素值。
一些优选的实施方式中,步骤S30中,对于每个子图,获取其表示表格线段的矩形框的方法为:
将子图In每一像素行的投影值与所述第一阈值进行对比,识别大于所述第一阈值的像素行作为待处理像素行,并将不间隔相邻的待处理像素行进行合并,并获取其外接的矩形框来表示表格线段。
一些优选的实施方式中,步骤S70“补全相邻两条平行表格线之间的表格线”,其方法为:
从步骤S50中未选取的表格线路径中,选取能连接所述第一表格线集合和/或所述第二表格线集合中任意两条平行的表格线的表格线路径,增补入相应的表格线集合。
一些优选的实施方式中,步骤S80“检测并去除粘连字符的表格线像素”,其方法为分别对所述第一表格线集合、所述第二表格线集合中的表格线,通过以下步骤进行检测和去除:
基于所述第一图像,对表格线两侧按照设定范围进行扩展,在扩展后的图像进行8邻域连通分量提取;
若连通分量所在的矩形框Rcc(i)与表格线上的表示表格线段的矩形框Rn(j)上下相邻,则判定位于矩形框Rcc(i)内部的表格线段属于粘连文字而非表格线,将该部分表格线段的像素删除。
本发明的第二方面,本发明提出了一种基于二值图分段投影的文档表格线检测系统,该系统包括二值化处理单元、子图划分及投影值计算单元、表格线段矩形框获取单元、表格线候选路径生成单元、表格线集合获取单元、检测结果生成单元;
所述二值化处理单元,配置为对输入的矩形文档图像进行二值化处理,得到第一图像;
所述子图划分及投影值计算单元,配置为沿预设方向将所述第一图像切分为等宽等长的多个矩形子图,并对每个子图各像素行在其长度方向上进行投影,得到各像素行的投影值;
所述表格线段矩形框获取单元,配置为对于每个子图,选取投影值大于第一阈值的像素行,并将其中行号连续像素行进行融合,得到表示表格线段的矩形框;
所述表格线候选路径生成单元,配置为对于所有子图,将相邻子图中相邻的矩形框放入同一条表格线候选路径;
所述表格线集合获取单元,配置为选取路径长度大于第二阈值的表格线候选路径,并通过其对应矩形框表示表格线,获得表格线集合;
所述检测结果生成单元,配置为按照第一预设方向,将所述第一图像依次通过子图划分及投影值计算单元、表格线段矩形框获取单元、表格线候选路径生成单元、表格线集合获取单元获取第一表格线集合;将所述第一图像按照第一旋转方向进行九十度旋转,依次通过子图划分及投影值计算单元、表格线段矩形框获取单元、表格线候选路径生成单元、表格线集合获取单元获得表格线,然后按照与第一旋转方向相反的方向旋转九十度后得到第二表格线,获得第二表格线集合。
一些优选的实施方式中,该系统还包括表格线补全单元和/或粘连字符去除单元;
所述表格线补全单元,配置为基于所述第一表格线集、所述第二表格线集合中各表格线的集合分布信息,通过所述表格线集合获取单元中未选取路径对应的矩形框,补全相邻两条平行表格线之间的表格线;
所述粘连字符去除单元,配置为对所述检测结果生成单元和/或所述表格线补全单元的表格线中,检测并去除粘连字符的表格线像素。
本发明的有益效果:
本发明采用分段投影的方法进行文档表格线的检测,能够有效适应文档倾斜与弯曲变形,并且不会受到具体表格类型的影响,具有较好的通用性。表格线去除环节充分考虑表格线对粘连字符的影响,尽量减少粘连字符损失,对于后期的文档图像版面分析与识别工作有着重要的意义。本发明对文档图像图像质量不稳定情况下进行表格线识别,提高了识别准确度,增强了图像质量不一致的情况下准确识别表格现的鲁棒性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明一种实施例的基于二值图分段投影的文档表格线检测方法流程示意图;
图2是本发明一种实施例中的输入文档图像示例图;
图3是本发明一种实施例中的输入文档图像的二值化图像示例图;
图4是本发明一种实施例中的表格线初始检测结果的表格线二值图示例图;
图5是本发明一种实施例的表格线粘连字符像素去除后的表格线二值图示例图;
图6是是本发明一种实施例的去除表格线后的文档二值图示例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的一种基于二值图分段投影的文档表格线检测方法,该方法包括:
步骤S10,对输入的矩形文档图像进行二值化处理,得到第一图像;
步骤S20,沿预设方向将所述第一图像切分为等宽等长的多个矩形子图,并对每个子图各像素行在其长度方向上进行投影,得到各像素行的投影值;
步骤S30,对于每个子图,选取投影值大于第一阈值的像素行,并将其中行号连续像素行进行融合,得到表示表格线段的矩形框;
步骤S40,对于所有子图,将相邻子图中相邻的矩形框放入同一条表格线候选路径;
步骤S50,选取路径长度大于第二阈值的表格线候选路径,并通过其对应矩形框表示第一表格线,获得第一表格线集合;
步骤S60,将所述第一图像按照第一方向进行九十度旋转,通过步骤S20至步骤S50的方法获得表格线,按照与第一方向相反的方向旋转九十度后得到第二表格线,获得第二表格线集合。
为了对表格的完整性进一步补全,本发明方法在步骤S60之后还包括步骤S70,基于所述第一表格线集、所述第二表格线集合中各表格线的集合分布信息,通过步骤S50中未选取路径对应的矩形框,补全相邻两条平行表格线之间的表格线。
为了在一些应用中更完整的提取文档图像中的字符,本发明方法在步骤S70之后还包括步骤S80,步骤S70补全后的表格线中,检测并去除粘连字符的表格线像素。
为了更清晰地对本发明基于二值图分段投影的文档表格线检测方法进行说明,下面结合附图对本方发明方法一种实施例中各步骤进行展开详述。
本发明一种实施例的基于二值图分段投影的文档表格线检测方法,如图1所示,该方法包括:
步骤S10,对输入的矩形文档图像进行二值化处理,得到第一图像。
输入图像一般为彩色图像,若获取的文档图像位置倾斜时,需要对文档图像进行纠偏,以使表格线在矩形的文档图像中与宽度方向的边或高度方向的边近似平行,已到达更准确的检测结果。对于彩色图像的输入,需要先进性灰度处理,在进行二值化处理,其方法包括步骤S101、S102。
如图2中示出了本实施例中的输入文本图像,常规输入应该为直接拍照获取的彩色图。
步骤S101,获取所输入矩形文档图像的灰度图。
将彩色图像灰度化,首先输入一张原始彩色图像Src,宽为W,高为H。对彩色图像进行灰度化处理,本实施例中灰度化采取规则:
Igray(i,j)=0.30R(i,j)+0.59G(i,j)+0.11B(i,j),
i=1,…H,j=1,…W.
其中Igray表示灰度图像,R、G、B分别表示图像Src的红色通道,绿色通道以及蓝色通道,(i,j)表示元素在图像中的位置。
步骤S102,在得到的灰度图中,将其灰度值小于局部阈值的中心像素在二值图中置为0,否则置为255;其中,所述局部阈值为对应中心点像素邻域值加权求和后与预设常数的差值。
在本实施例的灰度图中,对于每个中心像素来说,邻域窗口尺寸为101×101,局部阈值是邻域的加权和(与高斯窗口卷积)减去一个常数(本实施例中预设值为5.0),若中心像素灰度值小于该阈值,则此像素在二值图中被置为前景像素0,否则置为背景像素255。如图3所示,其为图2的二值化结果。
步骤S20,沿预设方向将所述第一图像切分为等宽等长的多个矩形子图,并对每个子图各像素行在其长度方向上进行投影,得到各像素行的投影值。
设置子图的像素宽度subW,将二值化的第一图像沿着水平方向从左到右每隔subW个像素切分一个高为H宽为subW的子块图像,最后不足subW个像素的子图与前一个子图合并。本实施例得到的等高等长的子图像素宽度为subW个像素、像素高度(即长度)为H个像素。记第n个子图为In,其高为H宽为Wn,对子图In中各像素行在其长度方向上进行投影,各像素行的水平投影计算方法为:
其中,Pn(i)为第n个子图中第i像素行的投影值,Wn为第n个子图的像素宽度,H为子图的像素长度,In(i,j)为第n个子图In中像素点(i,j)的像素值。
对子图中每一行像素进行投影计算,可以获得更准确的识别结果。
步骤S30,对于每个子图,选取投影值大于第一阈值的像素行,并将其中行号连续像素行进行融合,得到表示表格线段的矩形框。
对于每个子图,获取其表示表格线段的矩形框的方法为:将子图In每一像素行的投影值与所述第一阈值进行对比,识别大于所述第一阈值的像素行作为待处理像素行,并将不间隔相邻的待处理像素行进行合并,并获取其外接的矩形框来表示表格线段。
本实施例中,将子图In每一像素行的投影值与阈值PThren进行比较,若投影值大于该阈值,则将该像素行的投影值置为1,否则置为0,计算第n个子图中第i像素行新的投影值P* n(i)。从上到下遍历投影每一像素行取值,将取值为1的不间隔相邻行分别融合形成矩形框,用矩形框来表示表格线位于该子图的线段,记第n个子图中的矩形框共有Kn个,则这些矩形框的集合就称为表格线候选矩形框集合Rn,如下面的公式所示。
PThren=0.6*Wn
Rn={Rn(1),…Rn(Kn)}
其中,Rn(Kn)为第Kn个矩形框。
步骤S40,对于所有子图,将相邻子图中相邻的矩形框放入同一条表格线候选路径。
比较相邻子图中的表格线候选矩形框集合Rn与Rn-1,若存在两个候选框Rn(k)与Rn-1(l)是左右相邻的,则将这两个矩形框放入同一条表格线候选路径中。判断两个候选框相邻的条件如下,其中函数T(·)和B(·)分别表示取矩形框的上边界和下边界坐标值。
步骤S50,选取路径长度大于第二阈值的表格线候选路径,并通过其对应矩形框表示第一表格线,获得第一表格线集合。
本实施例中,在同一条表格线候选路径中,选择具有最小左边界的矩形框和具有最大右边界的矩形框,两者之间的距离记为该表格线候选路径的长度。若该长度小于预设的阈值,则认为该候选路径不是一条水平表格线,将该路径移动到噪声表格线的集合中。最终余下的表格线则为水平表格线的初步检测结果,即第一表格线集合。
步骤S60,将所述第一图像按照第一方向进行九十度旋转,通过步骤S20至步骤S50的方法获得表格线,按照与第一方向相反的方向旋转九十度后得到第二表格线,获得第二表格线集合。
本实施例中,将第一图像逆时针旋转九十度,形成一张新的二值图,针对新二值图重复步骤S20至步骤S50的处理,检测到新二值图的水平表格线后,将代表表格线的矩形框顺时针旋转90度,形成原始二值图(第一图像)的竖直表格线初步检测结果,即第二表格线集合。
由于步骤S60采用的方法与步骤S20至S50一样,所以在图1的流程示意图中为了更清晰的表示整个过程,分左、右两个流程同步展示,在一些实施例中可以按照本发明方法获取第一表格线集合后,再通过图的旋转、得到表格线的逆旋转来获取第二表格线集合,在另一些实施例中,也可以在得到第一图像之后通过旋转获取第二图像,然后第一图像、第二图像分别通过步骤S20至S50的方法进行相应的表格线的获取,在第二图像分支,需要对得到的表格线进行相应的逆旋转才可获得第一图像对应的第二表格线集合,才可以和第一表格线集合共同构建第一图像的表格线。
步骤S70,基于所述第一表格线集、所述第二表格线集合中各表格线的集合分布信息,通过步骤S50中未选取路径对应的矩形框,补全相邻两条平行表格线之间的表格线。
文档表格线的形式多种多样,例如,有些竖直表格线很短,只起到了两条相隔很近的水平表格线之间的连接作用。对于这种情况,步骤S60会将这种表格线移动到噪声表格线集合中(在一些实施例中,若文档图像横向显示,例如本实施例中文档图像旋转90度后的图像,则行间短的表格线主要从步骤S50中获取)。为了弥补这种错误,在本步骤中结合水平表格线的检测结果,对竖直表格线进行补充,将能连接任意两条水平表格线的竖直表格线从噪声表格线集合中取回至表格线检测结果中。同理,再结合竖直表格线的检测结果,对水平表格线进行同样的补充。至此,完成对第一表格线集、第二表格线集中缺失的短表格线进行补全,整张文档图像的表格线检测完毕,如图4所示,白色像素代表表格线。
本实施例步骤S10-S70的优选技术方案可以得到检测的比较准确的表格线,但在一些应用,检测表格线并不是最终目的,其更是为了之后的表格文档图像中字符的提取,因此可以再增设步骤S80将表格线与字符粘连的部分从所检测到的表格线中去除,从而使的在将所检测得到的表格线从二值图像中去除时保证了字符的像素完整性。
步骤S80,步骤S70补全后的表格线中,检测并去除粘连字符的表格线像素。
在检测得到的表格线的周围探测相邻字符是否粘连。具体来说,对于水平表格线来说,向上和向下扩展一个固定范围,在该范围内,对二值图进行8邻域连通分量提取。如果某连通分量所在的矩形框Rcc(i)与表格线上的某个矩形框Rn(j)上下相邻,则认为位于矩形框Rcc(i)内部的表格线段属于粘连文字而非表格线,将该部分表格线像素从原始表格线像素中删除。对于竖直表格线来说,则需要向左和向右扩展一定范围进行上述方法的检测,同样将粘连字符像素从原始表格线像素中删除。最终保留下的表格线像素即为表格线去除时需要被去除的像素,如图5所示。图6展示了去除表格线后的文档二值图。
本发明一种实施例的基于二值图分段投影的文档表格线检测系统,包括二值化处理单元、子图划分及投影值计算单元、表格线段矩形框获取单元、表格线候选路径生成单元、表格线集合获取单元、检测结果生成单元;
所述二值化处理单元,配置为对输入的矩形文档图像进行二值化处理,得到第一图像;
所述子图划分及投影值计算单元,配置为沿预设方向将所述第一图像切分为等宽等长的多个矩形子图,并对每个子图各像素行在其长度方向上进行投影,得到各像素行的投影值;
所述表格线段矩形框获取单元,配置为对于每个子图,选取投影值大于第一阈值的像素行,并将其中行号连续像素行进行融合,得到表示表格线段的矩形框;
所述表格线候选路径生成单元,配置为对于所有子图,将相邻子图中相邻的矩形框放入同一条表格线候选路径;
所述表格线集合获取单元,配置为选取路径长度大于第二阈值的表格线候选路径,并通过其对应矩形框表示表格线,获得表格线集合;
所述检测结果生成单元,配置为按照第一预设方向,将所述第一图像依次通过子图划分及投影值计算单元、表格线段矩形框获取单元、表格线候选路径生成单元、表格线集合获取单元获取第一表格线集合;将所述第一图像按照第一旋转方向进行九十度旋转,依次通过子图划分及投影值计算单元、表格线段矩形框获取单元、表格线候选路径生成单元、表格线集合获取单元获得表格线,然后按照与第一旋转方向相反的方向旋转九十度后得到第二表格线,获得第二表格线集合。
为了进一步提高检测表格线的完整性,该系统还包括表格线补全单元和/或粘连字符去除单元;
所述表格线补全单元,配置为基于所述第一表格线集、所述第二表格线集合中各表格线的集合分布信息,通过所述表格线集合获取单元中未选取路径对应的矩形框,补全相邻两条平行表格线之间的表格线;
所述粘连字符去除单元,配置为对所述检测结果生成单元和/或所述表格线补全单元的表格线中,检测并去除粘连字符的表格线像素。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于二值图分段投影的文档表格线检测系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于二值图分段投影的文档表格线检测方法,其特征在于,该方法包括:
步骤S10,对输入的矩形文档图像进行二值化处理,得到第一图像;
步骤S20,沿预设方向将所述第一图像切分为等宽等长的多个矩形子图,并对每个子图各像素行在其长度方向上进行投影,得到各像素行的投影值;
步骤S30,对于每个子图,选取投影值大于第一阈值的像素行,并将其中行号连续像素行进行融合,得到表示表格线段的矩形框;
步骤S40,对于所有子图,将相邻子图中相邻的矩形框放入同一条表格线候选路径;
步骤S50,选取路径长度大于第二阈值的表格线候选路径,并通过其对应矩形框表示第一表格线,获得第一表格线集合;
步骤S60,将所述第一图像按照第一方向进行九十度旋转,通过步骤S20至步骤S50的方法获得表格线,按照与第一方向相反的方向旋转九十度后得到第二表格线,获得第二表格线集合。
2.根据权利要求1所述的基于二值图分段投影的文档表格线检测方法,其特征在于,在步骤S60之后还包括:
步骤S70,基于所述第一表格线集、所述第二表格线集合中各表格线的集合分布信息,通过步骤S50中未选取路径对应的矩形框,补全相邻两条平行表格线之间的表格线。
3.根据权利要求2所述的基于二值图分段投影的文档表格线检测方法,其特征在于,在步骤S70之后还包括:
步骤S80,步骤S70补全后的表格线中,检测并去除粘连字符的表格线像素。
4.根据权利要求1-3任一项所述的基于二值图分段投影的文档表格线检测方法,其特征在于,步骤S10“对输入的矩形文档图像进行二值化处理,得到第一图像”,其方法为:
获取所输入矩形文档图像的灰度图;
在得到的灰度图中,将其灰度值小于局部阈值的中心像素在二值图中置为0,否则置为255;其中,所述局部阈值为对应中心点像素邻域值加权求和后与预设常数的差值。
5.根据权利要求1-3任一项所述的基于二值图分段投影的文档表格线检测方法,其特征在于,步骤S20中“各像素行的投影值”,其计算该方法为:
其中,Pn(i)为第n个子图中第i像素行的投影值,Wn为第n个子图的像素宽度,H为子图的像素长度,In(i,j)为第n个子图In中像素点(i,j)的像素值。
6.根据权利要求5所述的基于二值图分段投影的文档表格线检测方法,其特征在于,步骤S30中,对于每个子图,获取其表示表格线段的矩形框的方法为:
将子图In每一像素行的投影值与所述第一阈值进行对比,识别大于所述第一阈值的像素行作为待处理像素行,并将不间隔相邻的待处理像素行进行合并,并获取其外接的矩形框来表示表格线段。
7.根据权利要求2或3所述的基于二值图分段投影的文档表格线检测方法,其特征在于,步骤S70“补全相邻两条平行表格线之间的表格线”,其方法为:
从步骤S50中未选取的表格线路径中,选取能连接所述第一表格线集合和/或所述第二表格线集合中任意两条平行的表格线的表格线路径,增补入相应的表格线集合。
8.根据权利要求3所述的基于二值图分段投影的文档表格线检测方法,其特征在于,步骤S80“检测并去除粘连字符的表格线像素”,其方法为分别对所述第一表格线集合、所述第二表格线集合中的表格线,通过以下步骤进行检测和去除:
基于所述第一图像,对表格线两侧按照设定范围进行扩展,在扩展后的图像进行8邻域连通分量提取;
若连通分量所在的矩形框Rcc(i)与表格线上的表示表格线段的矩形框Rn(j)上下相邻,则判定位于矩形框Rcc(i)内部的表格线段属于粘连文字而非表格线,将该部分表格线段的像素删除。
9.一种基于二值图分段投影的文档表格线检测系统,其特征在于,该系统包括二值化处理单元、子图划分及投影值计算单元、表格线段矩形框获取单元、表格线候选路径生成单元、表格线集合获取单元、检测结果生成单元;
所述二值化处理单元,配置为对输入的矩形文档图像进行二值化处理,得到第一图像;
所述子图划分及投影值计算单元,配置为沿预设方向将所述第一图像切分为等宽等长的多个矩形子图,并对每个子图各像素行在其长度方向上进行投影,得到各像素行的投影值;
所述表格线段矩形框获取单元,配置为对于每个子图,选取投影值大于第一阈值的像素行,并将其中行号连续像素行进行融合,得到表示表格线段的矩形框;
所述表格线候选路径生成单元,配置为对于所有子图,将相邻子图中相邻的矩形框放入同一条表格线候选路径;
所述表格线集合获取单元,配置为选取路径长度大于第二阈值的表格线候选路径,并通过其对应矩形框表示表格线,获得表格线集合;
所述检测结果生成单元,配置为按照第一预设方向,将所述第一图像依次通过子图划分及投影值计算单元、表格线段矩形框获取单元、表格线候选路径生成单元、表格线集合获取单元获取第一表格线集合;将所述第一图像按照第一旋转方向进行九十度旋转,依次通过子图划分及投影值计算单元、表格线段矩形框获取单元、表格线候选路径生成单元、表格线集合获取单元获得表格线,然后按照与第一旋转方向相反的方向旋转九十度后得到第二表格线,获得第二表格线集合。
10.根据权利要求9所述的基于二值图分段投影的文档表格线检测系统,其特征在于,该系统还包括表格线补全单元和/或粘连字符去除单元;
所述表格线补全单元,配置为基于所述第一表格线集、所述第二表格线集合中各表格线的集合分布信息,通过所述表格线集合获取单元中未选取路径对应的矩形框,补全相邻两条平行表格线之间的表格线;
所述粘连字符去除单元,配置为对所述检测结果生成单元和/或所述表格线补全单元的表格线中,检测并去除粘连字符的表格线像素。
CN201910223004.9A 2019-03-22 2019-03-22 基于二值图分段投影的文档表格线检测方法、系统 Active CN110084117B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910223004.9A CN110084117B (zh) 2019-03-22 2019-03-22 基于二值图分段投影的文档表格线检测方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910223004.9A CN110084117B (zh) 2019-03-22 2019-03-22 基于二值图分段投影的文档表格线检测方法、系统

Publications (2)

Publication Number Publication Date
CN110084117A true CN110084117A (zh) 2019-08-02
CN110084117B CN110084117B (zh) 2021-07-20

Family

ID=67413477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910223004.9A Active CN110084117B (zh) 2019-03-22 2019-03-22 基于二值图分段投影的文档表格线检测方法、系统

Country Status (1)

Country Link
CN (1) CN110084117B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111466905A (zh) * 2020-04-10 2020-07-31 西安交通大学 一种基于双向连通的心电波形提取方法
WO2022134771A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 表格处理方法、装置、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02264386A (ja) * 1989-04-05 1990-10-29 Ricoh Co Ltd 表認識方法
JPH0721310A (ja) * 1993-06-30 1995-01-24 Matsushita Electric Ind Co Ltd 文書認識装置
CN101908136A (zh) * 2009-06-08 2010-12-08 比亚迪股份有限公司 一种表格识别处理方法及系统
CN101930544A (zh) * 2010-09-07 2010-12-29 东南大学 基于行游程邻接表的乐谱快速连通域分析方法
CN103577817A (zh) * 2012-07-24 2014-02-12 阿里巴巴集团控股有限公司 表单识别方法与装置
CN104951755A (zh) * 2015-06-04 2015-09-30 广东工业大学 一种基于emd的智能文档图像块检测方法
US9275030B1 (en) * 2014-09-30 2016-03-01 Konica Minolta Laboratory U.S.A., Inc. Horizontal and vertical line detection and removal for document images
CN105589841B (zh) * 2016-01-15 2018-03-30 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN108655571A (zh) * 2018-05-21 2018-10-16 广东水利电力职业技术学院(广东省水利电力技工学校) 一种数控激光雕刻机、控制系统及控制方法、计算机
CN109308465A (zh) * 2018-09-14 2019-02-05 百度在线网络技术(北京)有限公司 表格线检测方法、装置、设备及计算机可读介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02264386A (ja) * 1989-04-05 1990-10-29 Ricoh Co Ltd 表認識方法
JPH0721310A (ja) * 1993-06-30 1995-01-24 Matsushita Electric Ind Co Ltd 文書認識装置
CN101908136A (zh) * 2009-06-08 2010-12-08 比亚迪股份有限公司 一种表格识别处理方法及系统
CN101930544A (zh) * 2010-09-07 2010-12-29 东南大学 基于行游程邻接表的乐谱快速连通域分析方法
CN103577817A (zh) * 2012-07-24 2014-02-12 阿里巴巴集团控股有限公司 表单识别方法与装置
US9275030B1 (en) * 2014-09-30 2016-03-01 Konica Minolta Laboratory U.S.A., Inc. Horizontal and vertical line detection and removal for document images
CN104951755A (zh) * 2015-06-04 2015-09-30 广东工业大学 一种基于emd的智能文档图像块检测方法
CN105589841B (zh) * 2016-01-15 2018-03-30 同方知网(北京)技术有限公司 一种pdf文档表格识别的方法
CN108655571A (zh) * 2018-05-21 2018-10-16 广东水利电力职业技术学院(广东省水利电力技工学校) 一种数控激光雕刻机、控制系统及控制方法、计算机
CN109308465A (zh) * 2018-09-14 2019-02-05 百度在线网络技术(北京)有限公司 表格线检测方法、装置、设备及计算机可读介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FUXI JIA等: "Degraded document image binarization using structural symmetry of strokes", 《PATTERN RECOGNITION》 *
JINYUAN ZHAO 等: "An effective Binarization method for disturbed", 《2018 16TH INTERNATIONAL CONFERENCE ON FRONTIERS IN HANDWRITING RECOGNITION》 *
卞静潇: "复杂版面文档图像中表格与图的提取及分析", 《中国优秀硕士论文集》 *
白伟 等: "基于游程聚类的表格框线检测算法", 《计算机应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111466905A (zh) * 2020-04-10 2020-07-31 西安交通大学 一种基于双向连通的心电波形提取方法
CN111466905B (zh) * 2020-04-10 2021-01-22 西安交通大学 一种基于双向连通的心电波形提取方法
WO2022134771A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 表格处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110084117B (zh) 2021-07-20

Similar Documents

Publication Publication Date Title
TWI631514B (zh) Method and system for marking recognition based on mobile terminal
CN105868758B (zh) 图像中文本区域检测方法、装置及电子设备
CN105913093B (zh) 一种用于文字识别处理的模板匹配方法
JP3748172B2 (ja) 画像処理装置
CN110008809A (zh) 表格数据的获取方法、装置和服务器
CN107590447A (zh) 一种文字标题识别方法及装置
CN110334709B (zh) 基于端到端多任务深度学习的车牌检测方法
CN112418216A (zh) 一种复杂自然场景图像中的文字检测方法
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN111079641B (zh) 作答内容识别方法、相关设备及可读存储介质
CN114155527A (zh) 一种场景文本识别方法和装置
CN111680690A (zh) 一种文字识别方法及装置
CN107622268A (zh) 一种身份证字符分割的方法
CN104598907A (zh) 一种基于笔画宽度图的图像中文字数据提取方法
CN110084117A (zh) 基于二值图分段投影的文档表格线检测方法、系统
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN109741273A (zh) 一种手机拍照低质图像的自动处理与评分方法
JP2005317042A (ja) 画像処理装置
CN106033534A (zh) 基于直线检测的电子阅卷方法
CN112132750B (zh) 一种视频处理方法与装置
CN110046618B (zh) 基于机器学习和最大极值稳定区域的车牌识别方法
CN115019310B (zh) 图文识别方法及设备
CN111274863A (zh) 一种基于文本山峰概率密度的文本预测方法
CN110619331A (zh) 一种基于颜色距离的彩色影像字段定位方法
CN116030472A (zh) 文字坐标确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant