CN111753706B - 一种基于图像统计学的复杂表格交点聚类提取方法 - Google Patents
一种基于图像统计学的复杂表格交点聚类提取方法 Download PDFInfo
- Publication number
- CN111753706B CN111753706B CN202010564503.7A CN202010564503A CN111753706B CN 111753706 B CN111753706 B CN 111753706B CN 202010564503 A CN202010564503 A CN 202010564503A CN 111753706 B CN111753706 B CN 111753706B
- Authority
- CN
- China
- Prior art keywords
- longitudinal
- statistics
- image
- transverse
- linear equation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000032823 cell division Effects 0.000 claims abstract description 5
- 230000003287 optical effect Effects 0.000 claims abstract description 3
- 238000001514 detection method Methods 0.000 claims description 11
- 238000010586 diagram Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000005530 etching Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 description 4
- 238000005260 corrosion Methods 0.000 description 3
- 230000007797 corrosion Effects 0.000 description 3
- 101100400452 Caenorhabditis elegans map-2 gene Proteins 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/50—Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于图像统计学的复杂表格交点聚类提取方法。其采用的方法步骤为1:待分割表格图像预处理阶段:将多分辨率的图像数据进行压缩灰度化,使用OTSU进行二值化图像,为后续直线拟合阶段鉴定基础;2:横向直线方程拟合阶段:通过横向投影直方图统计,结合统计学计量得到横向长直线方程;3:纵向直线方程拟合阶段:通过纵向投影直方图统计,结合统计学计量得到纵向长直线方程;4:单元格分割处理阶段:通过直线方程的横纵交叉确定横纵坐标,实现单元格的分割并进行非文字区域的剔除。该方法经过实际测试具备较强的鲁棒性和自适应性,提高了表格交点检测准确率,在输入纵向有效聚类数目的前提下,交点检测率可达100%,具有一定的创新可拓展性和实际可行性。
Description
技术领域:
本发明涉及图像处理领域,特别是一种基于图像统计学的复杂表格交点聚类提取方法。
背景技术:
随着图像处理技术和光学字符识别(OCR)技术的不断发展,表格信息自动化处理成为目前很多组织机构构建信息化系统的关键所在。
大量文本表格信息的数字化,对于表格信息录入研究至关重要;研究如何将纸质表格数字化,以及复杂多种表格(纵向直线不连续)的数字化,具有指导性意义。当下因大量纸质表格均为人工录入,部分表格数字化仅仅局限于正常表格,复杂数字化依旧存在大量问题;均存在工作量大、繁琐、准确率低、鲁棒性差等问题;其中最为关键的是表格单元格的分割,涉及表格交点检测问题,现有方法针对正常表格交点检测效果较佳,针对复杂多样的表格交点检测存在不稳定,准确率低等问题。
发明内容:
本发明提供为解决解决传统表格交点提取算法鲁棒性差、自适应能力弱、检测不确定性的问题,提供一种基于图像统计学的复杂表格交点聚类提取方法,可提高了表格交叉点检测准确率。
为解决现有技术存在问题,本发明的技术方案是:1、一种基于图像统计学的复杂表格交点聚类提取方法,其特征在于:包括如下步骤:
步骤1:待分割表格图像预处理阶段:将多分辨率的图像数据进行压缩灰度化,使用OTSU进行二值化图像,为后续直线拟合阶段鉴定基础;
步骤2:横向直线方程拟合阶段:通过横向投影直方图统计,结合统计学计量得到横向长直线方程;
步骤3:纵向直线方程拟合阶段:通过纵向投影直方图统计,结合统计学计量得到纵向长直线方程;
步骤4:单元格分割处理阶段:通过直线方程的横纵交叉确定横纵坐标,实现单元格的分割并进行非文字区域的剔除。
所述步骤1的具体步骤为:
步骤101:多分辨率的图像压缩灰度化,检查是否为灰度图,如果不是,转化为灰度图;
步骤102:腐蚀处理,使得黑色区域变大;
步骤103:OTSU二值化处理。
所述步骤2的具体步骤为:
步骤201:通过形态学进行横向线段的预提取并通过霍夫检测进行重构直线,得到小短线段的起始终止坐标;
步骤202:对重构直线进行横向直方图投影统计,得到Y方向上像素区域集中分布图及Y坐标集合,对集中分布图进行波峰阈值预分类提取,得到符合条件的局部区域分布及横向坐标区域分布;
步骤203:对预提取横向坐标集合进行顺序排序,根据同一聚类中相邻坐标差值及区间极差偏移量较小,进行各聚类的筛选处理,并进行聚类结果的均值处理,输出横向坐标的聚类数量及区间均值坐标,即可得到横向长直线的直线方程。
步骤3的具体步骤为:
步骤301:通过形态学尽可能多的预提取纵向线段,使用霍夫检测进行竖线线段的重构处理,得到小短线段的起始终止坐标;
步骤302:基于拟合的横向直线方程进行重构竖线预处理,对处理后的图像进行纵向直方图投影统计,得到X方向上像素区域集中分布图及X坐标集合;
步骤303:对预提取的纵向坐标集合进行顺序排序,根据同一聚类中相邻坐标差值及区间极差偏移量较小,进行各聚类的筛选处理,根据输入的表格列数及波峰提取聚类数目,并进行区间均值处理,输出纵向区间均值坐标,即可得到纵向长直线的直线方程。
与现有技术相比,本发明的优点如下:
1)本发明可自适应多种复杂表格交点聚类提取,稳定性较高,具有很强的鲁棒性;
2)本发明通过交点聚类提取,可极大的提高复杂表格交点检测准确率。
3)本发明通过横纵方向进行直方图统计,极差阈值筛选,对预聚类进行区间分割并加以均值处理,得到有效聚类的直线方程,采用直线方程的横纵交叉实现单元格的分割;
4)本发明将复杂表格交点检测的问题转化为图像统计学的聚类提取问题为复杂表格交点提取提供了一种创新可拓展性和实际可行性实现方案。
附图说明:
图1本发明方法实现框图;
图2本发明横向直方图统计过程输出图;
图3本发明复杂表格纵向直方图统计过程输出图;
图4本发明X方向上像素区域集中分布对比图;
图5本发明图4(a)单元格分割及非文字区域剔除输出图;
图6本发明合并单元格分样本输入图。
具体实施方式:
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明一种基于图像统计学的复杂表格交点聚类提取方法,首先通过横纵方向进行直方图统计,极差阈值筛选,对预聚类进行区间分割并加以均值处理,得到有效聚类的直线方程;其次采用直线方程的横纵交叉确定横纵坐标,实现单元格的分割。
本发明采用的具体步骤为:
第一步 待分割表格图像预处理:
将多分辨率的图像数据进行压缩灰度化,腐蚀处理,使得黑色区域变大,并进行OTSU二值化处理,为后续直线方程拟合鉴定基础;
第二步 横向直线方程拟合:
通过形态学进行横向线段的预提取并通过霍夫检测进行重构直线,得到小短线段的起始终止坐标;图像形态学操作时候,可以通过自定义的结构元素实现结构元素对输入图像一些对象敏感,另外一些对象不敏感,这样就会让敏感的对象改变,而不敏感的对象输出,通过使用最基本的两个形态学操作-膨胀和腐蚀,使用不同的结构元素实现对输入图像的操作、得到想要的结果。
主要步骤如下所示:
(1)定义水平直线结构元素;
(2)开操作(腐蚀+膨胀)提取横向直线;
(3)霍夫检测横向线段并进行重构处理即图2(b);
对重构直线进行横向直方图投影统计,得到Y方向上像素区域集中分布图2(c)及Y坐标集合,对集中分布图进行波峰阈值预分类提取,得到符合条件的局部区域分布及横向坐标区域分布图2(d);进一步处理即可得到横向直线方程。
基于横向投影直方图统计的横向线段方程拟合主要步骤如下:
(1)重构图像的横向投影;
(2)集中分布图的波峰阈值预分类提取;
(3)预提取横向坐标集合进行顺序排序;
(4)同一聚类中相邻坐标差值及区间极差偏移量较小,进行各聚类的筛选处理;
(5)聚类结果的均值处理,输出横向坐标的聚类数量及区间均值坐标;
(6)根据输出横向均值坐标建立横向直线方程;
如图2所示为横向直方图统计过程输出图,图2(c)为横向投影直方图输出,图2(d)为集中分布图进行波峰阈值预分类提取输出图,选择0.5*peak作为阈值均可得到横向长直线的有效聚类,即图2(a)的有效聚类根据图2(d)可知数量为14。
第三步 纵向直线方程拟合
通过形态学尽可能多的预提取纵向线段,使用霍夫检测进行竖线线段的重构处理,得到小短线段的起始终止坐标;主要步骤如下所示:
(1)定义竖线直线结构元素;
(2)开操作(腐蚀+膨胀)提取纵向直线;
(3)霍夫检测横向线段并进行重构处理即图3(b);
基于拟合的横向直线方程进行重构竖线预处理,如图3(c)所示,对处理后的图像进行纵向直方图投影统计,得到X方向上像素区域集中分布图及X坐标集合,如图3(d)所示;进一步处理即可得到纵向直线方程。
基于纵向投影直方图统计的纵向线段方程拟合主要步骤如下:
(1)基于拟合的横向直线方程进行重构竖线预处理;
(2)处理后图像的纵向投影;
(3)预提取的纵向坐标集合进行顺序排序;
(4)同一聚类中相邻坐标差值及区间极差偏移量较小,进行各聚类的筛选处理;
(5)根据输入的表格列数及波峰提取聚类数目,根据输入的表格列数及波峰提取聚类数目;例如当前输入表格列数为5列,即有效聚类数目为6;
(6)聚类结果的均值处理,输出纵向区间均值坐标;
(7)根据输出纵向均值坐标建立纵向直线方程;
如图3所示为复杂表格纵向直方图统计过程输出图,图3(a)自上而下前3个图为输入的复杂表格,图3(e)同一条件下横向直线与纵向直线与操作后的输出交点图,图3(d)所示,为本文提出算法处理后的X方向上像素区域集中分布图,根据当前输入有效聚类数目为5,取其波峰最高前5+1个作为最终聚类输出。对比四种不同类型的复杂表格,均能有效的得到输出聚类,如图4(c)所示为直接对4(b)进行纵向投影结果图,可见很难得到有效聚类,图4(d)为本文算法得到的纵向投影图,可以得到有效聚类。证明本文的算法在各种复杂表格下均能准确得到有效聚类,具有一定的自适应性和鲁棒性。
第四步 表格单元格分割
通过直线方程的横纵交叉确定横纵坐标,实现单元格的分割。以图5所示复杂表格为例进行表格单元格分割。
(1)横向直线方程拟合:
表1横向直线方程拟合表
(2)纵向直线方程拟合:
表2纵向直线方程拟合表
数量 | 均值坐标 | 列间距 | 直线方程 |
1 | 15 | --- | x=15 |
2 | 420 | 405 | x=420 |
3 | 825 | 405 | x=825 |
4 | 1042 | 217 | x=1042 |
5 | 1267 | 225 | x=1267 |
6 | 1451 | 184 | x=1451 |
(3)横纵直线方程交叉,单元格横纵坐标确定:
表3单元格横纵坐标表
(4)根据单元格横纵坐标表进行单元格的分割,如图5所示为图4(a)单元格分割并进行非文字区域剔除输出图,输出为8行5列表格,共8*5=40个单元格。
(5)合并单元格分割处理:对于如图6所示的合并单元格的表格分割,采用正常表格进行交点提取,并根据输入的单元格合并规则再进行分割处理。
下表4所示为合并单元格横纵直线方程交叉点坐标,其中虚线框中区域为合并单元格区域,采用左上角及右下角顶点坐标{(12,50),(80,110)}和{(12,130),(80,212)}进行两个合并单元格的分割处理,其他区域正常处理即可。
表4合并单元格横纵坐标处理表
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (2)
1.一种基于图像统计学的复杂表格交点聚类提取方法,其特征在于:包括如下步骤:
步骤1:待分割表格图像预处理阶段:将多分辨率的图像数据进行压缩灰度化,使用OTSU进行二值化图像,为后续直线拟合阶段鉴定基础;
步骤2:横向直线方程拟合阶段:通过横向投影直方图统计,结合统计学计量得到横向长直线方程;
所述步骤2的具体步骤为:
步骤201:通过形态学进行横向线段的预提取并通过霍夫检测进行重构直线,得到小短线段的起始终止坐标;
步骤202:对重构直线进行横向直方图投影统计,得到Y方向上像素区域集中分布图及Y坐标集合,对集中分布图进行波峰阈值预分类提取,得到符合条件的局部区域分布及横向坐标区域分布;
步骤203:对预提取横向坐标集合进行顺序排序,根据同一聚类中相邻坐标差值及区间极差偏移量较小,进行各聚类的筛选处理,并进行聚类结果的均值处理,输出横向坐标的聚类数量及区间均值坐标,即可得到横向长直线的直线方程;
步骤3:纵向直线方程拟合阶段:通过纵向投影直方图统计,结合统计学计量得到纵向长直线方程;
所述步骤3的具体步骤为:
步骤301:通过形态学尽可能多的预提取纵向线段,使用霍夫检测进行竖线线段的重构处理,得到小短线段的起始终止坐标;
步骤302:基于拟合的横向直线方程进行重构竖线预处理,对处理后的图像进行纵向直方图投影统计,得到X方向上像素区域集中分布图及X坐标集合;
步骤303:对预提取的纵向坐标集合进行顺序排序,根据同一聚类中相邻坐标差值及区间极差偏移量较小,进行各聚类的筛选处理,根据输入的表格列数及波峰提取聚类数目,并进行区间均值处理,输出纵向区间均值坐标,即可得到纵向长直线的直线方程;
步骤4:单元格分割处理阶段:通过直线方程的横纵交叉确定横纵坐标,实现单元格的分割并进行非文字区域的剔除。
2.根据权利要求1所述一种基于图像统计学的复杂表格交点聚类提取方法,其特征在于:所述步骤1的具体步骤为:
步骤101:多分辨率的图像压缩灰度化,检查是否为灰度图,如果不是,转化为灰度图;
步骤102:腐蚀处理,使得黑色区域变大;
步骤103:OTSU二值化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010564503.7A CN111753706B (zh) | 2020-06-19 | 2020-06-19 | 一种基于图像统计学的复杂表格交点聚类提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010564503.7A CN111753706B (zh) | 2020-06-19 | 2020-06-19 | 一种基于图像统计学的复杂表格交点聚类提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111753706A CN111753706A (zh) | 2020-10-09 |
CN111753706B true CN111753706B (zh) | 2024-02-02 |
Family
ID=72675505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010564503.7A Active CN111753706B (zh) | 2020-06-19 | 2020-06-19 | 一种基于图像统计学的复杂表格交点聚类提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753706B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113158755A (zh) * | 2021-02-07 | 2021-07-23 | 上海孚厘科技有限公司 | 一种提高银行流水识别准确率的方法 |
CN113688684B (zh) * | 2021-07-26 | 2022-04-05 | 国网电商科技有限公司 | 一种基于聚类的表格重构方法及系统 |
CN113989823B (zh) * | 2021-09-14 | 2022-10-18 | 北京左医科技有限公司 | 基于ocr坐标的图片表格还原方法及系统 |
CN114445483B (zh) * | 2022-01-28 | 2023-03-24 | 泗阳三江橡塑有限公司 | 基于图像金字塔的注塑件质量分析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104392240A (zh) * | 2014-10-28 | 2015-03-04 | 中国疾病预防控制中心寄生虫病预防控制所 | 一种基于多特征融合的寄生虫虫卵识别方法 |
CN110210409A (zh) * | 2019-06-04 | 2019-09-06 | 南昌市微轲联信息技术有限公司 | 表格单据中表格框线检测方法及系统 |
CN110377640A (zh) * | 2019-07-23 | 2019-10-25 | 江南大学 | 一种基于深度学习投票统计方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446264B (zh) * | 2018-03-26 | 2022-02-15 | 阿博茨德(北京)科技有限公司 | Pdf文档中的表格矢量解析方法及装置 |
-
2020
- 2020-06-19 CN CN202010564503.7A patent/CN111753706B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104392240A (zh) * | 2014-10-28 | 2015-03-04 | 中国疾病预防控制中心寄生虫病预防控制所 | 一种基于多特征融合的寄生虫虫卵识别方法 |
CN110210409A (zh) * | 2019-06-04 | 2019-09-06 | 南昌市微轲联信息技术有限公司 | 表格单据中表格框线检测方法及系统 |
CN110377640A (zh) * | 2019-07-23 | 2019-10-25 | 江南大学 | 一种基于深度学习投票统计方法 |
Non-Patent Citations (1)
Title |
---|
吴俊盼 ; 王智 ; 张侃健 ; .雷达故障表格处理系统.信息技术与信息化.2020,(01),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111753706A (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753706B (zh) | 一种基于图像统计学的复杂表格交点聚类提取方法 | |
CN111626146B (zh) | 一种基于模板匹配的合并单元格表格分割识别方法 | |
Moghaddam et al. | Application of multi-level classifiers and clustering for automatic word spotting in historical document images | |
CN112183511A (zh) | 一种图像导出表格的方法、系统、存储介质及设备 | |
CN114820625B (zh) | 一种汽车顶块缺陷检测方法 | |
CN112364834A (zh) | 一种基于深度学习和图像处理的表格识别的还原方法 | |
CN109389050B (zh) | 一种流程图连接关系识别方法 | |
CN114004204A (zh) | 基于计算机视觉的表格结构重建与文字提取方法和系统 | |
CN111626145B (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN111914805A (zh) | 表格结构化方法、装置、电子设备及存储介质 | |
CN109271882B (zh) | 一种区分颜色的手写体汉字提取方法 | |
CN112200053B (zh) | 一种融合局部特征的表格识别方法 | |
Kumar et al. | Text line segmentation of handwritten documents using clustering method based on thresholding approach | |
Firdaus et al. | Arabic letter segmentation using modified connected component labeling | |
Kumar et al. | An efficient algorithm for text localization and extraction in complex video text images | |
CN114038000A (zh) | 一种图像表格的结构化方法、系统和电子设备 | |
CN113378837A (zh) | 车牌遮挡识别方法、装置、电子设备和存储介质 | |
CN116994261B (zh) | 一种大数据精准教学智能题卡图像智能识别系统 | |
Su et al. | Decomposing Chinese characters into stroke segments using SOGD filters and orientation normalization | |
Radzid et al. | Framework of page segmentation for mushaf Al-Quran based on multiphase level segmentation | |
Biller et al. | Evolution maps and applications | |
Zhigang et al. | Processing Algorithm of Irregular Table Image in Tobacco Package Based on Dual-coding Difference of Gaussians Method | |
Chen et al. | A robust algorithm for separation of Chinese characters from line drawings | |
CN115240206A (zh) | 手写字迹鉴别方法及系统 | |
Zhao et al. | Multivariable Recognition Method for Visual Symbols of Environmental Sign Based on Sequential Similarity. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |