CN112200053A - 一种融合局部特征的表格识别方法 - Google Patents

一种融合局部特征的表格识别方法 Download PDF

Info

Publication number
CN112200053A
CN112200053A CN202011062634.1A CN202011062634A CN112200053A CN 112200053 A CN112200053 A CN 112200053A CN 202011062634 A CN202011062634 A CN 202011062634A CN 112200053 A CN112200053 A CN 112200053A
Authority
CN
China
Prior art keywords
extraction
line segments
processing
extracting
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011062634.1A
Other languages
English (en)
Other versions
CN112200053B (zh
Inventor
吕志刚
李亮亮
王鹏
邸若海
许韫韬
李晓艳
李超
郭翔宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Technological University
Original Assignee
Xian Technological University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Technological University filed Critical Xian Technological University
Priority to CN202011062634.1A priority Critical patent/CN112200053B/zh
Publication of CN112200053A publication Critical patent/CN112200053A/zh
Application granted granted Critical
Publication of CN112200053B publication Critical patent/CN112200053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合局部特征的表格识别方法。首先进行区域分块提取及横向线段检测、聚类行距均值求解、基于行距阈值的分块区域纵向线段检测;其次,采用自适应阈值的图像腐蚀灰度二值化,使用自适应阈值的横向线段提取及基于行距阈值的纵向线段提取,同时采用基于纵向线段的分块区域融合掩膜处理;最后,对融合掩膜输出图进行基于轮廓提取得到预提取区域,并使用区域重检测算法进行预提取区域的精准检测。经试验验证,该方法可以有效的解决未矫正复杂表格的准确定位提取,在倾斜未矫正复杂测试集样本中,平均准确率可达98.25%以上,该方法简洁有效,具有一定的实际可行性。

Description

一种融合局部特征的表格识别方法
技术领域
本发明涉及模式识别及图像处理技术领域,特别是一种融合局部特征的表格识别方法。
背景技术
随着图像处理技术的不断发展,表格信息自动化处理成为目前很多组织机构构建信息化系统的关键所在。
表格文档作为业务数据的重要载体,研究如何实现表格文档图像的自动化提取对实现自动化数据采集而言有重要意义,其中最为关键的是如何从文档中准确定位表格区域。目前将纸质表格存储为电子表格大多采用人工录入,存在工作量大、繁琐和准确率低等问题。尤其对于倾斜未矫正的表格、纵向方向存在不连续表格框线、表格顶部及底部存在不完整区域的复杂表格不能很好准确识别处理等问题。
现有对表格文档图像自动化提取的方法主要有传统的基于轮廓的检测方法,均是针对正常表格做出的相应方法,但对于倾斜未矫正的表格、纵向方向存在不连续表格框线、表格顶部及底部存在不完整区域,并不能很好的取得闭合轮廓区域,甚至提取不到闭合轮廓。因此现有技术存在如下问题:1、表格区域无法准确定位的问题,2、倾斜未矫正表格不能处理的问题。
发明内容
本发明提供一种融合局部特征的表格识别方法,以解决现有方法对未矫正的表格、纵向方向存在不连续表格框线及表格顶部底部存在不完整区域的复杂表格不能很好准确识别的问题。
为了达到本发明的目的,本发明提出的方案如下:
一种融合局部特征的表格识别方法,包括如下步骤:
步骤1、区域分块阈值求解阶段,包括以下步骤:
步骤101、对源表格图像进行灰度OTSU二值化处理;
步骤102、根据区域分块规则的分块区域提取;
步骤103、指定分块区域的形态学横向线段预提取;
步骤104、对预提取横向线段的霍夫横向线段重构处理;
步骤105、横向线段的Y坐标集合的聚类提取及行距均值计算;
步骤106、基于行距均值阈值的指定分块区域的纵向线段提取处理。
步骤2、表格区域检测预提取阶段,包括以下步骤:
步骤201、基于源表格图像的腐蚀灰度OTSU二值化处理;
步骤202、基于自适应阈值的形态学横向线段提取处理;
步骤203、基于行距均值阈值的形态学纵向线段提取处理;
步骤204、基于提取纵向线段处理图像的分块区域图像融合处理,
步骤205、进行横向线段及纵向线段的掩膜处理;
步骤206、对处理后的图像进行最大外轮廓的提取处理,得到预提取表格区域。
步骤3、对步骤2得到的预提取表格区域进行重检测,输出准确的表格定位区域。
进一步的,步骤3具体包括以下步骤:
步骤301、对预提取表格区域进行灰度OTSU二值化处理;
步骤302、预提表格区域的形态学横向线段的提取;
步骤303、预提取表格区域的霍夫横向线段的重构处理;
步骤304、横向线段的Y坐标集合的聚类提取及行距均值计算;
步骤305、输出准确的表格定位区域。
与现有技术相比,本发明的有益效果是:
1)针对纵向方向存在不连续表格框线、表格顶部底部存在不完整区域的复杂表格采用基于分块区域图像局部特征融合及掩膜处理的表格轮廓提取处理,确保复杂表格的准确识别,同时解决了现有算法对于倾斜未矫正表格不能识别的问题。
2)本方法提出的基于分块处理的复杂表格识别方法,将复杂表格识别问题转化为基于分块融合处理图中闭合区域轮廓查找问题,将复杂问题分解为多个简单问题,极大的简化了未矫正的表格、纵向方向存在不连续表格框线、表格顶部及底部存在不完整区域的复杂表格不能准确定位识别问题。为大量库存的纸质版特殊文本表格数字化提供了理论依据,具有较好的实际可行性,为多种复杂表格的数字化定位识别提供了可行方案,具备较强的可拓展性。
3)通过本文设计的区域分块阈值求解模块实现了多种分辨率表格图像输入阈值计算,确保复杂表格识别的鲁棒性。经试验验证,该方法可以有效的解决未矫正复杂表格的准确定位提取,在12840张倾斜未矫正复杂测试集样本中,平均准确率可达98.25%以上,该方法简洁有效,具有一定的实际可行性。
附图说明
图1为方法实现框图;
图2为图像分块示意图;
图3为Acenter区域的横向线段提取输出图;
图4为A0和A10纵向直线处理图;
图5为表格区域检测预提取过程输出图;
图6为区域重检测定位输出的表格图;
图7为倾斜未矫正表格输出图;
图8为复杂表格检测输出图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附和实施例对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
参见图1,本发明方法的基本思路是首先进行区域分块提取及横向线段检测、聚类行距均值求解、基于行距阈值的分块区域纵向线段检测;其次,采用自适应阈值的图像腐蚀灰度二值化,使用自适应阈值的横向线段提取及基于行距阈值的纵向线段提取,同时采用基于纵向线段的分块区域融合掩膜处理;最后,对融合掩膜输出图进行基于轮廓提取得到预提取区域,并使用区域重检测算法进行预提取区域的精准检测。
基于上述基本思路,本发明提供的一种融合局部特征的表格识别方法,包括如下步骤:
步骤1:区域分块阈值求解阶段:是将多分辨率的图像数据进行压缩灰度化,并进行OTSU二值化处理,通过制定的区域分块规则对二值化图像进行分块提取,对指定分块区域采用形态学及霍夫重构提取横向线段,并通过横向直线的Y 坐标聚类求解行距均值,基于行距均值阈值的分块区域纵向线段提取,输出处理后的图像便于后续融合处理;主要步骤如下所示:
(1)输入源表格图像的灰度OTSU二值化;
(2)根据区域分块规则的分块区域提取;
如图2所示,为本文设计的区域分块示意图,其中图2中P1-P9为16等分输入图像直线的交叉点;A0为点1、5、6、7组成的局部区域,A10为点10、 11、12、16组成的局部区域,A0和A10用来做图像融合处理;Acenter为点P1 和2、P3和4、P7和13、P9和15连线中点组成的局部区域,用于计算行距均值;
(3)指定分块区域的形态学横向线段预提取,采用形态学预提取Acenter区域中的横向线段。
(4)Acenter区域的横向线段提取
对(3)预提取的横向线段再采用Hough进行横向线段重构处理,进而得到横向线段的纵向坐标集合Y。如图3所示为Acenter区域的横向线段提取输出图。
(5)横向线段的Y坐标集合的聚类提取及行距均值计算,通过对(4)得到的 Y集合进行聚类提取进而得到行距均值meanrowledge。
(6)基于行距均值阈值的A0和A10纵向直线处理
设置纵向直线检测阈值为0.1*meanrowledge,即形态学纵向检测算子尺寸为size(1,0.1*meanrowledge),对处理后的图像再次进行膨胀处理,设置膨胀算子尺寸为size(10,25);进而实现对区域A0和A10的纵向直线的提取处理,如图4所示为A0和A10区域纵向直线处理结果图,即A0和A10为后续操作待融合输入图。
第2步:表格区域检测预提取
将输入待识别的表格图像进行自适应阈值的腐蚀灰度OTSU二值化,并采用自适应阈值的横向线段提取及基于行距阈值的纵向线段提取,同时基于纵向线段提取图像的分块区域图像融合掩膜处理,最终使用处理后的图像进行轮廓预提取处理;主要步骤如下所示:
(1)腐蚀灰度OTSU二值化
采用形态学处理输入原始的源表格图像进行腐蚀化,就是对图像的高亮部分的侵蚀,经过腐蚀操作之后图像的高亮部分变得更少了,将纵向方向上不连续线段变得连续,处理阈值为0.25*meanrowledge,即腐蚀算子尺寸为 size(0.25*meanrowledge,0.25*meanrowledge);对腐蚀后的图像进行灰度二值化,如图5所示(a)为输入待识别表格图像,(b)为腐蚀化处理后图像,(c)为灰度 OTSU二值化处理后图像;
(2)自适应阈值的形态学横向线段提取
采用形态学处理OTSU二值化图像中的横向线段,横向检测算子尺寸为 size(0.05*width,1),width为输入图像的宽度,得到如图5(d);
(3)基于行距阈值的形态学纵向线段提取
采用形态学处理OTSU二值化图像,其中纵向线段中对于部分短线不能很好的检测,因此采用基于行距阈值的纵向线段提取。纵向检测阈值为 0.5*meanrowledge,即形态学纵向检测算子尺寸为size(1,0.5*meanrowledge),对处理后的图像再次进行膨胀处理,设置膨胀算子尺寸为size(10,25),得到如图5(e);
(4)基于纵向线段的分块区域图像融合
直接采用形态学提取纵向线段,容易产生很多干扰线段,因此,本文设计了一种基于纵向线段的分块区域图像融合检测纵向线段。通过第一步基于行距均值阈值的纵向直线处理得到的A0和A10区域,再根据融合规则分别线性叠加在图5(e)中,得到图5(f);
(5)掩膜处理
通过对提取的横向线段及融合处理后的纵向线段进行掩膜处理,得到横纵叠加图,定义掩膜算子尺寸为size(3,3),得到图5(g);
(6)表格预提取
将图5(d)、(f)、(g)作为输入图像,进行轮廓提取,设置提取规则:轮廓面积不能小于40且轮廓内交点至少为4,使用OPENCV中的函数进行查找闭合轮廓,预框选出表格区域,如图5(h)所示为预框选的表格区域。
第3步:区域重检测阶段,包括以下步骤:
(1)预提取表格区域图像的灰度OTSU二值化;
(2)预提取表格区域的形态学横向线段预提取;
(3)预提取表格区域的横向线段的霍夫重构处理;
(4)横向线段的Y坐标集合的聚类提取及行距均值计算;
(5)判断当前区域是否存在直线,如果存在直线证明属于表格区域且行距均值与meanrowledge差值在20之内,如果当前存在一条直线不进行行距均值计算。
如图6所示为图5(a)区域重检测定位输出的表格图像。
本发明通过对现有非规则表样本进行多次扫描,进行反复测试。现有261 张测试样本,共856个表格,通过在两种扫描仪多种成像分辨率下进行鲁棒性测试。对原始261张测试样本进行平移、旋转处理,Translation(±100)表示水平方向和竖直方向平移100像素,Rotate(±2)表示顺时针/逆时针旋转2°。解决了现有算法对于倾斜未矫正表格不能识别的问题。如图7所示为本发明倾斜未矫正表格测试输出图。如图8所示为本发明针对复杂表格检测输出结果图,从图7和图8检测分析得知,本发明提供的复杂表格识别方法能够弥补现有算法的不足,可实现未矫正倾斜表格、不完整残缺表格、纵向线段不连续、纵向错位等复杂表格的识别定位提取。

Claims (2)

1.一种融合局部特征的表格识别方法,其特征在于,包括如下步骤:
步骤1、区域分块阈值求解阶段,包括以下步骤:
步骤101、对源表格图像进行灰度OTSU二值化处理;
步骤102、根据区域分块规则的分块区域提取;
步骤103、指定分块区域的形态学横向线段预提取;
步骤104、对预提取横向线段的霍夫横向线段重构处理;
步骤105、横向线段的Y坐标集合的聚类提取及行距均值计算;
步骤106、基于行距均值阈值的指定分块区域的纵向线段提取处理;
步骤2、表格区域检测预提取阶段,包括以下步骤:
步骤201、基于源表格图像的腐蚀灰度OTSU二值化处理;
步骤202、基于自适应阈值的形态学横向线段提取处理;
步骤203、基于行距均值阈值的形态学纵向线段提取处理;
步骤204、基于提取纵向线段处理图像的分块区域图像融合处理;
步骤205、进行横向线段及纵向线段的掩膜处理;
步骤206、对处理后的图像进行最大外轮廓的提取处理,得到预提取表格区域;
步骤3、对步骤2得到的预提取表格区域进行重检测,输出准确的表格定位区域。
2.根据权利要求1所述一种融合局部特征的表格识别方法,其特征在于,步骤3具体包括以下步骤:
步骤301、对预提取表格区域进行灰度OTSU二值化处理;
步骤302、预提表格区域的形态学横向线段的提取;
步骤303、预提取表格区域的霍夫横向线段的重构处理;
步骤304、横向线段的Y坐标集合的聚类提取及行距均值计算;
步骤305、输出准确的表格定位区域。
CN202011062634.1A 2020-09-30 2020-09-30 一种融合局部特征的表格识别方法 Active CN112200053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011062634.1A CN112200053B (zh) 2020-09-30 2020-09-30 一种融合局部特征的表格识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011062634.1A CN112200053B (zh) 2020-09-30 2020-09-30 一种融合局部特征的表格识别方法

Publications (2)

Publication Number Publication Date
CN112200053A true CN112200053A (zh) 2021-01-08
CN112200053B CN112200053B (zh) 2023-08-22

Family

ID=74012581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011062634.1A Active CN112200053B (zh) 2020-09-30 2020-09-30 一种融合局部特征的表格识别方法

Country Status (1)

Country Link
CN (1) CN112200053B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901936A (zh) * 2021-10-19 2022-01-07 中国科学院自动化研究所 硬笔书法田字格切片图像提取方法、系统、设备
CN116434071A (zh) * 2023-06-07 2023-07-14 浙江国遥地理信息技术有限公司 一种规整化建筑掩膜的确定方法、确定装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070177825A1 (en) * 2006-02-02 2007-08-02 Fujitsu Limited Image processing method and image processor
US20090016608A1 (en) * 2007-07-10 2009-01-15 Fujitsu Limited Character recognition method
CN104484643A (zh) * 2014-10-27 2015-04-01 中国科学技术大学 一种手写表格的智能识别方法及系统
CN111626146A (zh) * 2020-05-08 2020-09-04 西安工业大学 一种基于模板匹配的合并单元格表格分割识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070177825A1 (en) * 2006-02-02 2007-08-02 Fujitsu Limited Image processing method and image processor
US20090016608A1 (en) * 2007-07-10 2009-01-15 Fujitsu Limited Character recognition method
CN104484643A (zh) * 2014-10-27 2015-04-01 中国科学技术大学 一种手写表格的智能识别方法及系统
CN111626146A (zh) * 2020-05-08 2020-09-04 西安工业大学 一种基于模板匹配的合并单元格表格分割识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
代威;官磊;韩啸;: "选票版面结构识别相关技术", 计算机应用, no. 2 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901936A (zh) * 2021-10-19 2022-01-07 中国科学院自动化研究所 硬笔书法田字格切片图像提取方法、系统、设备
CN116434071A (zh) * 2023-06-07 2023-07-14 浙江国遥地理信息技术有限公司 一种规整化建筑掩膜的确定方法、确定装置、设备及介质
CN116434071B (zh) * 2023-06-07 2023-09-12 浙江国遥地理信息技术有限公司 一种规整化建筑掩膜的确定方法、确定装置、设备及介质

Also Published As

Publication number Publication date
CN112200053B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN106960208B (zh) 一种仪表液晶数字自动切分和识别的方法及系统
CN111626146B (zh) 一种基于模板匹配的合并单元格表格分割识别方法
WO2003090155A1 (en) System and method for identifying and extracting character strings from captured image data
CN112183038A (zh) 一种表格识别套打方法、计算机设备及计算机可读存储介质
CN111753706B (zh) 一种基于图像统计学的复杂表格交点聚类提取方法
CN116433666B (zh) 板卡线路缺陷在线识别方法、系统、电子设备及存储介质
CN111814673B (zh) 一种修正文本检测边界框的方法、装置、设备及存储介质
CN112200053A (zh) 一种融合局部特征的表格识别方法
CN112364834A (zh) 一种基于深度学习和图像处理的表格识别的还原方法
Malik et al. An efficient skewed line segmentation technique for cursive script OCR
JP2008011484A (ja) 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
JP4011646B2 (ja) 行検出方法および文字認識装置
CN111611783B (zh) 一种图形表格的定位分割方法及装置
KR102167433B1 (ko) 다중 패턴 문자 영상 자동 생성 기반 문자 인식 장치 및 그 방법
CN117333893A (zh) 基于ocr的自定义模板图像识别方法、系统及存储介质
CN112101351A (zh) 一种基于投影的文本行旋转校正方法及装置
CN116030472A (zh) 文字坐标确定方法及装置
Jin et al. Research on correction and recognition of QR code on cylinder
JPH0256688A (ja) 文字切出し装置
CN111814780B (zh) 一种票据图像处理方法、装置、设备及存储介质
CN114038000A (zh) 一种图像表格的结构化方法、系统和电子设备
KR20000025647A (ko) 쉐이딩 알고리즘을 이용한 영상 처리 방법
JP2001109887A (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
Soumya et al. Enhancement and segmentation of historical records
Shekar Skeleton matching based approach for text localization in scene images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant