CN112861603A - 一种有限表格自动识别与解析方法 - Google Patents
一种有限表格自动识别与解析方法 Download PDFInfo
- Publication number
- CN112861603A CN112861603A CN202011494671.XA CN202011494671A CN112861603A CN 112861603 A CN112861603 A CN 112861603A CN 202011494671 A CN202011494671 A CN 202011494671A CN 112861603 A CN112861603 A CN 112861603A
- Authority
- CN
- China
- Prior art keywords
- screening
- image
- picture
- follows
- contour
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 17
- 238000012216 screening Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 241000287196 Asthenes Species 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000007797 corrosion Effects 0.000 claims description 3
- 238000005260 corrosion Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种有限表格自动识别与解析方法,具体按照以下步骤实施:步骤1、对表格进行筛选;步骤2、使用opencv库对筛选出的表格进行定位。先将所有的pdf文件转化为图片集合,再进行筛选定位,筛选过程分为了两部分,第一部分对一行以上的较大表格进行筛选,第二部分对只有一行或者左半部分只有一行的特殊情况进行筛选,防止只有一行的表格在第一部分因为面积过小而被删减,以及左半部分只有一行的表格在第一部分因为情况特殊而缺失部分信息,最后再将所有筛选出来的表格进行定位,输出。两次筛选过程,使得该发明具有可观的正确性,以及实用性。
Description
技术领域
本发明属于图像识别技术领域,涉及一种有限表格自动识别与解析方法。
背景技术
图像识别技术是人工智能的一个重要领域,它是立体视觉、运动分析、数据融合等实用技术的基础,在导航、地图与地形配准、自然资源分析、天气预报、环境监测、生理病变研究等许多领域具有重要的应用价值。图片目标识别对行人、车牌、人脸等特征识别已经较为成熟。对文本的研究是建立在已有的文本上,对词义转换,词频统计等方面。
虽然目前研究已有对PDF文本表格信息处理等纯文字或者高度统一的弱图像分析,但是正确率,适用性等方面依然无法保证。人们在通讯交流、科学研究以及数据分析活动当中广泛采用着形形色色的表格,对于各种形态和结构的表格,实体关系建模需要考虑周全,深度学习在本项目上的应用也需要灵活多变。
发明内容
本发明的目的是提供一种有限表格自动识别与解析方法,具有对PDF 中的表格进行筛选定位,并将有效表格进行输出的特点。
本发明所采用的技术方案是,一种有限表格自动识别与解析方法,具体按照以下步骤实施:
步骤1、对表格进行筛选;
步骤2、使用opencv库对筛选出的表格进行定位。
步骤1具体按照以下步骤实施:
步骤1.1、输入原文档记为A,经过图片转换函数F(X),将pdf文件A 转化成图片集B=F(A);
步骤1.2、利用灰度化和自适应阈值及二值化处理图片;
步骤1.3、通过腐蚀膨胀对处理后的图片进行筛选;
步骤1.4、使用opencv库二次进行筛选。
步骤1.2具体为:
先将图片集合B进行灰度化处理,找到阈值,再进行高斯滤波,最后用自适应阈值函数进行二值化处理,将图片集B中的图片转化为新的二值化图片集C=M(B)。
步骤1.3具体为:
通过在二值化图片集C的基础上,用长横条、长竖条进行操作,将图片分别化为全横线与全竖线,叠加后获取该图片所有的交点,然后提取出表格框中的各个交点,寻找出图像的轮廓,记录为接着求出各个轮廓的面积,并对过小面积的轮廓利用条件H(x)进行排除,得到第一次筛选过后的目标图像Mp1=H(Dp1);
表达式为:
步骤1.4针对的是只有一行和左半部分是一行的特殊表格,具体为:提取出表格框中的各个交点,寻找出图像的轮廓,记录为接着求出各个轮廓的面积,并对过小面积的轮廓利用条件J(x)进行排除,得到第二次筛选过后的目标图像Mp2=J(Dp2);
表达式为:
步骤1具体按照以下步骤实施:
将文档记为A,按照固定的DPI,经过转化函数T(X),将PDF转化为图片 B=T(A),再经过筛选函数F(X),得到含有目标图像的图片C=F(B)。表达式为:
所述固定的DPI为25。
步骤2具体按照以下步骤实施:
步骤2.1、通过在步骤1的基础上分别进行定位,第一次进行定位,首先用矩形去包围各个轮廓,即可得到该表格图片中各个矩形框的位置数据,之后遍历整个图像轮廓,用尺寸数据对矩形框进行筛选即可得到表格中所需的框的集合,记录为:表达式为:
当遍历完所有二值化图片集合C时,即可得到所需要的所有有线表格的图片集合Arq=Arq1+Arq2
本发明的有益效果是:
本方法在具体操作时,先将所有的pdf文件转化为图片集合,再进行筛选定位,筛选过程分为了两部分,第一部分对一行以上的较大表格进行筛选,第二部分对只有一行或者左半部分只有一行的特殊情况进行筛选,防止只有一行的表格在第一部分因为面积过小而被删减,以及左半部分只有一行的表格在第一部分因为情况特殊而缺失部分信息,最后再将所有筛选出来的表格进行定位,输出。两次筛选过程,使得该发明具有可观的正确性,以及实用性。
附图说明
图1是本发明有限表格自动识别与解析方法中方法一筛选表格的流程图;
图2是本发明有限表格自动识别与解析方法中方法二筛选表格的流程图;
图3是本发明有限表格自动识别与解析方法中定位表格的流程图;
图4是本发明有限表格自动识别与解析方法中缩放大小识别目标时每 1000张识别错误数随图片清晰度和训练集大小变化的三维曲面图;
图5是本发明有限表格自动识别与解析方法中缩放大小识别目标时每 1000张识别错误数随图片清晰度和训练集大小变化的散点图;
图6是本发明有限表格自动识别与解析方法中缩放大小识别目标时每 1000张识别错误数随图片清晰度和训练集大小变化的等高线图;
图7是本发明有限表格自动识别与解析方法中的系统流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
如图7所示,一种有限表格自动识别与解析方法,具体按照以下步骤实施:
步骤1、对表格进行筛选;
步骤2、使用opencv库对筛选出的表格进行定位。
如图1所示,步骤1具体按照以下步骤实施:
步骤1.1、输入原文档记为A,经过图片转换函数F(x),将pdf文件A 转化成图片集B=F(A);
步骤1.2、利用灰度化和自适应阈值及二值化处理图片;
步骤1.3、通过腐蚀膨胀对处理后的图片进行筛选;
步骤1.4、使用opencv库二次进行筛选。
步骤1.2具体为:
先将图片集合B进行灰度化处理,找到阈值,再进行高斯滤波,最后用自适应阈值函数进行二值化处理,将图片集B中的图片转化为新的二值化图片集C=M(B)。每个像素位置处的二值化阈值不是固定不变的,而是由其周围邻域像素的分布来决定的,亮度较高的图像区域的二值化阈值通常会较高,而亮度低的图像区域的二值化阈值则会相适应的变小,且不同亮度、对比度、纹理的局部图像区域将会拥有相对应的局部二值化阈值,所以,用灰度化和利用阈值做二值化处理图片集,是为了在筛选部分提取轮廓时,防止矩形外部轮廓并未闭合而造成误差。
步骤1.3具体为:
通过在二值化图片集C的基础上,用长横条、长竖条进行操作,将图片分别化为全横线与全竖线,叠加后获取该图片所有的交点,然后提取出表格框中的各个交点,寻找出图像的轮廓,记录为接着求出各个轮廓的面积,并对过小面积的轮廓利用条件H(x)进行排除,得到第一次筛选过后的目标图像Mp1=H(Dp1);
表达式为:
步骤1.4针对的是只有一行和左半部分是一行的特殊表格,具体为:提取出表格框中的各个交点,寻找出图像的轮廓,记录为接着求出各个轮廓的面积,并对过小面积的轮廓利用条件J(x)进行排除,得到第二次筛选过后的目标图像Mp2=J(Dp2);
表达式为:
如图2所示,第二种筛选方式为:步骤1具体按照以下步骤实施,
将文档记为A,按照固定的DPI,经过转化函数T(X),将PDF转化为图片 B=T(A),再经过筛选函数F(X),得到含有目标图像的图片C=F(B)。表达式为:
所述固定的DPI为25。据观察发现,在PDF缩小的时候,文字等字符信息开始变得模糊,原有噪声影响减弱。而直线、表格等图像却会变得凸显起来。但如果PDF文档比例过小,会影响之后目标图像的定位,进而影响到准确率。
针对上述情况,在DPI不同大小下,对大量PDF文件进行测试,将PDF 按照固定的DPI转化成图片,转化出来的图片提取HOG特征,最后用SVM训练所有图片的特征得到模型。
根据样本数量的不同和DPI大小的不同,分别训练出若干模型。样本集中样本的数量分别为1000,1500,,,5000,以500递增。
样本的大小分别为2,4,6以2为步长递增。
经过实验结果分析可知,在同一个DPI下所训练的样本数递增时,正确率高,但是DPI递增时,同样样本数量下,正确率开始明显下降,25及以后就下降不明显,所以选DPI为25时进行样本的分类。
如图3所示,步骤2具体按照以下步骤实施:
步骤2.1、通过在步骤1的基础上分别进行定位,第一次进行定位,首先用矩形去包围各个轮廓,即可得到该表格图片中各个矩形框的位置数据,之后遍历整个图像轮廓,用尺寸数据对矩形框进行筛选即可得到表格中所需的框的集合,记录为:表达式为:
当遍历完所有二值化图片集合C时,即可得到所需要的所有有线表格的图片集合Arq=Arq1+Arq2。
图1中,每个节点分别表示自动化筛选目标表格的各个步骤,分别标记为:A,B,C,Mp1,Mp2。两个图的五个节点之间的有向边表示为下一个步骤实现的方向,各条边上的标注为前后步骤实现的条件函数或者方法,其中,A→B的条件函数是F(x),B→C的条件函数是 M(x),的方法为 的方法为 的条件函数H(x),的条件函数J(x)。
图2中,每个节点分别表示自动化筛选目标表格的各个步骤,分别标记为:A,B,C。三个节点之间的有向边表示为下一个步骤实现的方向,各条边上的标注为前后步骤实现的条件函数或者方法,其中,A→B的条件函数是 T(x),B→C的条件函数是F(x)。
图3中,每个节点分别表示定位目标表格的步骤,分别标记为:Mp1,Mp2,Arq。主要分为两次筛选定位,第一次为利用opencv等方法,得到第一次定位后的表格信息,第二次同理,为得到第二次定位后的表格信息,汇总两次结果,得到所有表格的信息为Arq。
图4、图5、图6是同一三维图像的不同展示,其中两个变量为:图像的清晰度和训练集的大小。在探索图像的大小对目标识别的影响时,缩放图片大小与不断调整训练集的大小来训练生产新的模型,测试模型的效果。
Claims (9)
1.一种有限表格自动识别与解析方法,其特征在于,具体按照以下步骤实施:
步骤1、对表格进行筛选;
步骤2、使用opencv库对筛选出的表格进行定位。
2.根据权利要求1所述的一种有限表格自动识别与解析方法,其特征在于,所述步骤1具体按照以下步骤实施:
步骤1.1、输入原文档记为A,经过图片转换函数F(X),将pdf文件A转化成图片集B=F(A);
步骤1.2、利用灰度化和自适应阈值及二值化处理图片;
步骤1.3、通过腐蚀膨胀对处理后的图片进行筛选;
步骤1.4、使用opencv库二次进行筛选。
3.根据权利要求2所述的一种有限表格自动识别与解析方法,其特征在于,所述步骤1.2具体为:
先将图片集合B进行灰度化处理,找到阈值,再进行高斯滤波,最后用自适应阈值函数进行二值化处理,将图片集B中的图片转化为新的二值化图片集C=M(B)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011494671.XA CN112861603B (zh) | 2020-12-17 | 2020-12-17 | 一种有限表格自动识别与解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011494671.XA CN112861603B (zh) | 2020-12-17 | 2020-12-17 | 一种有限表格自动识别与解析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112861603A true CN112861603A (zh) | 2021-05-28 |
CN112861603B CN112861603B (zh) | 2023-12-22 |
Family
ID=75997415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011494671.XA Active CN112861603B (zh) | 2020-12-17 | 2020-12-17 | 一种有限表格自动识别与解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861603B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800625A (zh) * | 2018-11-27 | 2019-05-24 | 上海眼控科技股份有限公司 | 一种基于区域生长的表格框线检测方法 |
US20190266394A1 (en) * | 2018-02-26 | 2019-08-29 | Abc Fintech Co., Ltd. | Method and device for parsing table in document image |
CN110309746A (zh) * | 2019-06-21 | 2019-10-08 | 国网辽宁省电力有限公司鞍山供电公司 | 无通信互联的高等级信息安全区表格数据信息提取方法 |
CN110348397A (zh) * | 2019-07-15 | 2019-10-18 | 山东旗帜信息有限公司 | 一种电子表格的分割方法及利用该分割方法的ocr识别方法 |
CN110516208A (zh) * | 2019-08-12 | 2019-11-29 | 深圳智能思创科技有限公司 | 一种针对pdf文档表格提取的系统及方法 |
WO2020232872A1 (zh) * | 2019-05-22 | 2020-11-26 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN112069991A (zh) * | 2020-09-04 | 2020-12-11 | 税友软件集团股份有限公司 | 一种pdf的表格信息提取方法及相关装置 |
-
2020
- 2020-12-17 CN CN202011494671.XA patent/CN112861603B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190266394A1 (en) * | 2018-02-26 | 2019-08-29 | Abc Fintech Co., Ltd. | Method and device for parsing table in document image |
CN109800625A (zh) * | 2018-11-27 | 2019-05-24 | 上海眼控科技股份有限公司 | 一种基于区域生长的表格框线检测方法 |
WO2020232872A1 (zh) * | 2019-05-22 | 2020-11-26 | 平安科技(深圳)有限公司 | 表格识别方法、装置、计算机设备和存储介质 |
CN110309746A (zh) * | 2019-06-21 | 2019-10-08 | 国网辽宁省电力有限公司鞍山供电公司 | 无通信互联的高等级信息安全区表格数据信息提取方法 |
CN110348397A (zh) * | 2019-07-15 | 2019-10-18 | 山东旗帜信息有限公司 | 一种电子表格的分割方法及利用该分割方法的ocr识别方法 |
CN110516208A (zh) * | 2019-08-12 | 2019-11-29 | 深圳智能思创科技有限公司 | 一种针对pdf文档表格提取的系统及方法 |
CN112069991A (zh) * | 2020-09-04 | 2020-12-11 | 税友软件集团股份有限公司 | 一种pdf的表格信息提取方法及相关装置 |
Non-Patent Citations (4)
Title |
---|
JIAYI YUAN等: ""An OpenCV-based Framework for Table Information Extraction"", 《2020 IEEE INTERNATIONAL CONFERENCE ON KNOWLEDGE GRAPH (ICKG)》 * |
JIAYI YUAN等: ""An OpenCV-based Framework for Table Information Extraction"", 《2020 IEEE INTERNATIONAL CONFERENCE ON KNOWLEDGE GRAPH (ICKG)》, 11 September 2020 (2020-09-11), pages 621 - 628 * |
窦方坤等: ""基于文本元素的PDF表格区域识别方法研究"", 《软件导刊》 * |
窦方坤等: ""基于文本元素的PDF表格区域识别方法研究"", 《软件导刊》, vol. 19, no. 1, 31 January 2020 (2020-01-31), pages 113 - 116 * |
Also Published As
Publication number | Publication date |
---|---|
CN112861603B (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108460764B (zh) | 基于自动上下文和数据增强的超声图像智能分割方法 | |
CN108334881B (zh) | 一种基于深度学习的车牌识别方法 | |
US7835578B2 (en) | Automated video-to-text system | |
CN109902748A (zh) | 一种基于多层信息融合全卷积神经网络的图像语义分割方法 | |
CN111539370A (zh) | 一种基于多注意力联合学习的图像行人重识别方法和系统 | |
CN108241854B (zh) | 一种基于运动和记忆信息的深度视频显著性检测方法 | |
CN107358195B (zh) | 基于重建误差的非特定异常事件检测及定位方法、计算机 | |
CN106570874B (zh) | 一种结合图像局部约束与对象全局约束的图像标记方法 | |
CN110838105B (zh) | 一种业务流程模型图像识别与再构方法 | |
CN111967313B (zh) | 一种深度学习目标检测算法辅助的无人机图像标注方法 | |
CN112287941B (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
CN114022759A (zh) | 一种融合神经网络时空特性的空域有限像素目标检测系统及方法 | |
CN110263794B (zh) | 基于数据增强的目标识别模型的训练方法 | |
CN111259783A (zh) | 视频行为检测方法与系统、精彩视频回播系统及存储介质 | |
CN109886978B (zh) | 一种基于深度学习的端到端告警信息识别方法 | |
CN103198479A (zh) | 基于语义信息分类的sar图像分割方法 | |
CN111339902A (zh) | 一种数显仪表的液晶屏示数识别方法及装置 | |
CN111738164B (zh) | 一种基于深度学习的行人检测方法 | |
Fang et al. | Background subtraction based on random superpixels under multiple scales for video analytics | |
Tang et al. | HRCenterNet: An anchorless approach to Chinese character segmentation in historical documents | |
Khan et al. | LRDNet: Lightweight LiDAR aided cascaded feature pools for free road space detection | |
CN111581568A (zh) | 一种网页端人物换背景的方法 | |
Feng | Mask RCNN-based single shot multibox detector for gesture recognition in physical education | |
CN117475353A (zh) | 基于视频的异常烟雾识别方法及系统 | |
Divya et al. | Segmentation of Defected Regions in Leaves using K-Means and OTSU's Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |