CN111223109A - 一种复杂的表格图像解析方法 - Google Patents

一种复杂的表格图像解析方法 Download PDF

Info

Publication number
CN111223109A
CN111223109A CN202010004174.0A CN202010004174A CN111223109A CN 111223109 A CN111223109 A CN 111223109A CN 202010004174 A CN202010004174 A CN 202010004174A CN 111223109 A CN111223109 A CN 111223109A
Authority
CN
China
Prior art keywords
image
longest
line
grid
form image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010004174.0A
Other languages
English (en)
Other versions
CN111223109B (zh
Inventor
汤文青
李永进
何思佑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan XW Bank Co Ltd
Original Assignee
Sichuan XW Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan XW Bank Co Ltd filed Critical Sichuan XW Bank Co Ltd
Priority to CN202010004174.0A priority Critical patent/CN111223109B/zh
Publication of CN111223109A publication Critical patent/CN111223109A/zh
Application granted granted Critical
Publication of CN111223109B publication Critical patent/CN111223109B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种复杂的表格图像解析方法,属于图像处理、复杂表格解析技术领域,解决现有技术中,基于规则模板的表格定位方法和基于机器学习的表格定位方法会造成定位灵活性差、精确度低等问题。本发明具体为:步骤1:对复杂的表格图像进行预处理,即从表格图像外边沿处的白色区域进行切割:步骤2:对预处理后的表格图像进行膨胀腐蚀操作找到表格图像中表格的最长行线和最长列线;步骤3:根据最长行线和最长列线的交点对表格图像中的表格进行切分,切分后得到格子集;步骤4:判断格子集中的每个格子是否是一个普通表格,如果是,则结束,否则,跳转至步骤2,对该格子进行解析。用于解析图像中的复杂表格。

Description

一种复杂的表格图像解析方法
技术领域
一种复杂的表格图像解析方法,用于解析图像中的复杂表格,属于图像处理、复杂表格解析技术领域。
背景技术
在物体检测和定位方面,常用的技术有:边缘检测技术(canny边缘检测)和rcnn/faster-rcnn/yolo/ssd;
在ocr(光学字符识别)方面,主要技术有:基于监督学习的文字分类、cnn(卷积神经网络)和crnn+ctc等。在图像处理领域,人们对含有表格文档识别的研究取得了很大的进展,如“https://blog.csdn.net/qq_43093708/article/details/82988061”中所公开的内容。
对表格识别之前,需要先对文档进行版面分析,提取出文档中的表格,然后对表格进行定位,最后根据定位结果识别出表格中的文本。现有技术中,人们对表格的定位主要采用以下方法:
(1)基于规则模板的表格定位方法,如公开的专利名称为:一种基于投影特征与结构特征进行表格图像检测的方法,申请号为201510786025.3的专利,此专利是对任意文本图像进行灰度变换、二值化、水平投影,通过水平投影直方图计算与图像实际宽度相近的直线行数和图像中与最大峰值相近的直线的分布,判断是否为有线表格;若不是有线表格则进行水平分割,通过字串行高度、字串行间高度以及垂直投影获得的相邻字串列间宽度,判断是否为无线表格。本发明对图像只进行简单的预处理,当图像出现轻微倾斜、轻微断点等问题时,图像投影的角度相同,投影过程中产生的损失也相同。丢弃这部分损失并不会对表格检测结果造成干扰,从而忽略此类问题同时避免进行复杂预处理操作。该发明能够提高表格图像检测的效率同时简化表格图像检测操作步骤。
基于规则模板的表格定位方法做法就是收集各种表格,从不同类别的表格提取出不同的规则模板。在解析新表格的时候,先对新表格进行类别划分,然后利用该类别的规则模板进行表格解析。
(2)基于机器学习的表格定位方法,链接“http://www.doc88.com/p-8065395912761.html”中公开的“金融票据版面的自动识别技术研究与原型系统再设计”
本方法利用机器学习的方法进行表格定位,分为训练和预测两个过程。在训练阶段,首先要构建一个数据集,然后让机器学习模型在该训练集上学习一个固定模式,以便在预测阶段使用。在预测阶段,把要解析的新表格输入模型,模型自动完成表格的解析,最后输出识别结果。具体流程如图1所示。
针对上述两种常用的表格定位方法,存在如下不足之处:
(1)基于规则模板的表格定位方法
本方案的思想是枚举。即如果一个新表格不在已有类别中,就会定位失败,即造成定位灵活性差、精确度低的问题,再者,随着表格类别的增多,系统处理效率也会逐渐降低。
(2)基于机器学习的表格定位方法
本方法是基于机器学习的策略。机器学习的一个最大的缺点就是不能达到百分之百正确,在某些应用场景中,对识别结果要求非常高,如果有百分之零点一的差错就会造成很大损失,很显然基于本策略的系统不是理想的选择方案。再者,系统需要提前训练,进行特征提取,这些都会消耗一定资源。最后,如果样本集缺乏代表性和普遍性,这就会造成系统学习不到某些模式,最终导致模型对某些表格定位失败,即会造成定位灵活性差、精确度低的问题。
发明内容
针对上述研究的问题,本发明的目的在于提供一种复杂的表格图像解析方法,解决现有技术中,基于规则模板的表格定位方法,会造成定位灵活性差、精确度低,以及随着表格类别的增多,系统处理效率也会逐渐降低的问题;基于机器学习的表格定位方法,系统需要提前训练,进行特征提取,会消耗一定资源,若样本集缺乏代表性和普遍性会造成定位灵活性差、精确度低等问题。
为了达到上述目的,本发明采用如下技术方案:
一种复杂的表格图像解析方法,如下步骤:
步骤1:对复杂的表格图像进行预处理,即从表格图像外边沿处的白色区域进行切割;
步骤2:对预处理后的表格图像进行膨胀腐蚀操作找到表格图像中表格的最长行线和最长列线;
步骤3:根据最长行线和最长列线的交点对表格图像中的表格进行切分,切分后得到格子集;
步骤4:判断格子集中的每个格子是否是一个普通表格,如果是,则结束,否则,跳转至步骤2,对该格子进行解析。
进一步,所述步骤1的具体步骤为:
步骤1.1:根据行投影,裁剪掉表格图像中表身上面和下面的空白边沿,其中,空白边沿是以表格的外沿线为边沿;
步骤1.2:根据列投影,裁剪掉表格图像中表身左边和右边的空白边沿,得到预处理后的表格图像,其中,表格图像的存储是一个点阵,通过选取不同的点,就能选取出表格图像中的任何一个位置的图像子块,来实现表格图像中表的裁剪。
进一步,所述步骤2的具体步骤为:
步骤2.1:定位最长行线,以“1x3/4n”的移动核在表格图像上滑动进行膨胀和腐蚀操作,得到一条或多条最长行线,其中,n为行像素的个数;
步骤2.2:定位最长列线,以“3/4nx1”的移动核在表格图像上滑动进行膨胀和腐蚀操作,得到一条或多条最长列线。
进一步,所述步骤3的具体步骤为:
步骤3.1:根据最长行线和最长列线定位交点;
步骤3.2:若最长行线和最长列线各为一条,转到步骤3.4,否则,转到步骤3.3;
步骤3.3:调整交点,得到最长行线和最长列线的所有调整后的交点,即得到同一行上的交点在同一水平线上,或/和同一列上的交点在同一条垂直线上;
步骤3.4:根据交点对表格图像中的表格进行切分,切分后得到格子集。
本发明同现有技术相比,其有益效果表现在:
一、本发明中采用膨胀腐蚀操作找到最长行线和最长列线的方式进行表格切分,定位切分的正确率能够保证达到百分之百,适合某些要求较高的领域,即本发明通过对切分块儿进行进一步探索的方式来达到百分之百的图像表格定位切分效果,在要求高切分准确率的应用场景中有很好的应用作用;
二、本发明除了高精度表格定位优势,也具备操作简洁灵活性强的优势;与基于规则模板的表格定位方法相比,本发明无须预存大量不同形式的表格,节约计算机资源,且使用灵活;与基于机器学习的表格定位方法相比,本发明无须进行提前训练与特征提取等步骤,因此节约了前期的训练资源,且不需要前期的表格图像收集与储备。
附图说明
图1为背景技术中基于机器学习的表格定位流程示意图;
图2为本发明的流程示意图;
图3为普通表格示意图;
图4为复杂表格示意图。
具体实施方式
下面将结合附图及具体实施方式对本发明作进一步的描述。
本发明中的普通表格是指任意一条行线或者列线都起始于边界并且结束于边界,如图3所示。
本发明中的复杂表格:指普通表格的格子中又套一个普通表格的表格,如图4所示。
本发明中提及的复杂的表格图像是指图像的中表格为复杂表格。
一种复杂的表格图像解析方法,如下步骤:
步骤1:对复杂的表格图像进行预处理,即从表格图像外边沿处的白色区域进行切割;具体步骤为:
步骤1.1:根据行投影,裁剪掉表格图像中表身上面和下面的空白边沿,其中空白边沿是以表格的外沿线为边沿;
步骤1.2:根据列投影,裁剪掉表格图像中表身左边和右边的空白边沿,得到预处理后的表格图像,其中,表格图像的存储是一个点阵,通过选取不同的点,就能选取出表格图像中的任何一个位置的图像子块,来实现表格图像中表的裁剪。
步骤2:对预处理后的表格图像进行膨胀腐蚀操作找到表格图像中表格的最长行线和最长列线;具体步骤为:
步骤2.1:定位最长行线,以“1x3/4n”的移动核在表格图像上滑动进行膨胀和腐蚀操作,得到一条或多条最长行线,其中,n为行像素的个数,其中,滑动方向无要求。
步骤2.2:定位最长列线,以“3/4nx1”的移动核在表格图像上滑动进行膨胀和腐蚀操作,得到一条或多条最长列线,其中,滑动方向无要求。
步骤3:根据最长行线和最长列线的交点对表格图像中的表格进行切分,切分后得到格子集;具体步骤为:
步骤3.1:根据最长行线和最长列线定位交点,即图像中,“0”表示纯黑色,白色为“1”或者“255”(若图像进行了数值二值化,则1表示白色,否则,“255”表示白色),将表格图像上进行膨胀和腐蚀得到的行线与列线进行相加可以得到对应的交点,具体相加过程为:0+0=0(因此依旧为黑色),0+非0=非0(因此不为黑色)。行线与列线中,只有行线与列线的交点位置对应数值相加后才为0,因此,可以通过行线与列线相加得到对应的交点;
步骤3.2:若最长行线和最长列线各为一条,转到步骤3.4,否则,转到步骤3.3;
步骤3.3:调整交点,得到最长行线和最长列线的所有调整后的交点,即得到同一行上的交点在同一水平线上,或/和同一列上的交点在同一条垂直线上;
步骤3.4:根据交点对表格图像中的表格进行切分,切分后得到格子集。
实施例
如图4所示为一个典型的订货单,根据步骤1首先对订货单进行空白边沿切除,提取出图像中仅包含表格部分的图像,然后使用步骤2对表格图像进行寻找最长行列线操作,根据图4,可以看出提取出来的最长行列线应为:最长行线13条,最长列线3条,对这总计16条的行列线进行交点提取,根据图4,可看出,左上角得到的表格子块为仅包含“客户名称”的格子,该格子内无子表格,依照图2,结束对该格子的探索。其他格子的探索都依照图2所示流程进行判断。
以上仅是本发明众多具体应用范围中的代表性实施例,对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案,均落在本发明权利保护范围之内。

Claims (4)

1.一种复杂的表格图像解析方法,其特征在于,如下步骤:
步骤1:对复杂的表格图像进行预处理,即从表格图像外边沿处的白色区域进行切割;
步骤2:对预处理后的表格图像进行膨胀腐蚀操作找到表格图像中表格的最长行线和最长列线;
步骤3:根据最长行线和最长列线的交点对表格图像中的表格进行切分,切分后得到格子集;
步骤4:判断格子集中的每个格子是否是一个普通表格,如果是,则结束,否则,跳转至步骤2,对该格子进行解析。
2.根据权利要求1所述的一种复杂的表格图像解析方法,其特征在于,所述步骤1的具体步骤为:
步骤1.1:根据行投影,裁剪掉表格图像中表身上面和下面的空白边沿,其中,空白边沿是以表格的外沿线为边沿;
步骤1.2:根据列投影,裁剪掉表格图像中表身左边和右边的空白边沿,得到预处理后的表格图像,其中,表格图像的存储是一个点阵,通过选取不同的点,就能选取出表格图像中的任何一个位置的图像子块,来实现表格图像中表的裁剪。
3.根据权利要求2所述的一种复杂的表格图像解析方法,其特征在于,所述步骤2的具体步骤为:
步骤2.1:定位最长行线,以“1×3/4n”的移动核在表格图像上滑动进行膨胀和腐蚀操作,得到一条或多条最长行线,其中,n为行像素的个数;
步骤2.2:定位最长列线,以“3/4n×1”的移动核在表格图像上滑动进行膨胀和腐蚀操作,得到一条或多条最长列线。
4.根据权利要求2所述的一种复杂的表格图像解析方法,其特征在于,所述步骤3的具体步骤为:
步骤3.1:根据最长行线和最长列线定位交点;
步骤3.2:若最长行线和最长列线各为一条,转到步骤3.4,否则,转到步骤3.3;
步骤3.3:调整交点,得到最长行线和最长列线的所有调整后的交点,即得到同一行上的交点在同一水平线上,或/和同一列上的交点在同一条垂直线上;
步骤3.4:根据交点对表格图像中的表格进行切分,切分后得到格子集。
CN202010004174.0A 2020-01-03 2020-01-03 一种复杂的表格图像解析方法 Active CN111223109B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010004174.0A CN111223109B (zh) 2020-01-03 2020-01-03 一种复杂的表格图像解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010004174.0A CN111223109B (zh) 2020-01-03 2020-01-03 一种复杂的表格图像解析方法

Publications (2)

Publication Number Publication Date
CN111223109A true CN111223109A (zh) 2020-06-02
CN111223109B CN111223109B (zh) 2023-06-06

Family

ID=70829328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010004174.0A Active CN111223109B (zh) 2020-01-03 2020-01-03 一种复杂的表格图像解析方法

Country Status (1)

Country Link
CN (1) CN111223109B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6219908A (ja) * 1985-07-17 1987-01-28 Fanuc Ltd 領域加工方法
US5034991A (en) * 1989-04-10 1991-07-23 Hitachi, Ltd. Character recognition method and system
CN106503711A (zh) * 2016-11-16 2017-03-15 广西大学 一种文字识别方法
CN106897690A (zh) * 2017-02-22 2017-06-27 南京述酷信息技术有限公司 Pdf表格提取方法
CN107248152A (zh) * 2017-05-18 2017-10-13 常州大学 基于类格图案及其面积特征的纺织品瑕疵检测方法
CN108470021A (zh) * 2018-03-26 2018-08-31 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
CN109063178A (zh) * 2018-08-22 2018-12-21 四川新网银行股份有限公司 一种自动扩展的自助分析报表的方法及装置
CN109726628A (zh) * 2018-11-05 2019-05-07 东北大学 一种表格图像的识别方法及系统
CN110263739A (zh) * 2019-06-26 2019-09-20 四川新网银行股份有限公司 基于ocr技术的图片表格识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6219908A (ja) * 1985-07-17 1987-01-28 Fanuc Ltd 領域加工方法
US5034991A (en) * 1989-04-10 1991-07-23 Hitachi, Ltd. Character recognition method and system
CN106503711A (zh) * 2016-11-16 2017-03-15 广西大学 一种文字识别方法
CN106897690A (zh) * 2017-02-22 2017-06-27 南京述酷信息技术有限公司 Pdf表格提取方法
CN107248152A (zh) * 2017-05-18 2017-10-13 常州大学 基于类格图案及其面积特征的纺织品瑕疵检测方法
CN108470021A (zh) * 2018-03-26 2018-08-31 阿博茨德(北京)科技有限公司 Pdf文档中表格的定位方法及装置
CN109063178A (zh) * 2018-08-22 2018-12-21 四川新网银行股份有限公司 一种自动扩展的自助分析报表的方法及装置
CN109726628A (zh) * 2018-11-05 2019-05-07 东北大学 一种表格图像的识别方法及系统
CN110263739A (zh) * 2019-06-26 2019-09-20 四川新网银行股份有限公司 基于ocr技术的图片表格识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杜世宏: ""基于栅格数据提取主骨架线的新算法"" *

Also Published As

Publication number Publication date
CN111223109B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
Huang et al. A YOLO-based table detection method
CN109800761B (zh) 基于深度学习模型创建纸质文档结构化数据的方法和终端
CN107622230B (zh) 一种基于区域识别与分割的pdf表格数据解析方法
Dong et al. Tablesense: Spreadsheet table detection with convolutional neural networks
Ray Choudhury et al. An architecture for information extraction from figures in digital libraries
CN102298696B (zh) 一种字符识别方法及系统
CN107316049A (zh) 一种基于半监督自训练的迁移学习分类方法
CN111027443B (zh) 一种基于多任务深度学习的票据文本检测方法
CN105469047A (zh) 基于无监督学习深度学习网络的中文检测方法及系统
CN105512611A (zh) 一种表格图像检测识别方法
CN111091124B (zh) 一种书脊文字识别方法
CN113762269B (zh) 基于神经网络的中文字符ocr识别方法、系统及介质
CN109344355B (zh) 针对网页变化的自动回归检测与块匹配自适应方法和装置
CN113537227B (zh) 一种结构化文本识别方法及系统
CN111144300B (zh) 一种基于图像识别的pdf表格结构识别方法
CN109389050B (zh) 一种流程图连接关系识别方法
CN111340020A (zh) 一种公式识别方法、装置、设备及存储介质
CN112101237A (zh) 一种柱状图数据提取和转化方法
CN114782970A (zh) 一种表格提取方法、系统及可读介质
CN111539417B (zh) 一种基于深度神经网络的文本识别训练优化方法
CN101452531B (zh) 一种自由手写拉丁字母识别方法
Jun et al. Automatic classification and recognition of complex documents based on Faster RCNN
CN116543391A (zh) 一种结合图像校正的文本数据采集系统及方法
CN111652117A (zh) 一种对多文档图像分割的方法及介质
CN116994282B (zh) 一种用于桥梁设计图的钢筋数量识别归集方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant