CN111626145A - 一种简捷有效的残缺表格识别及跨页拼接方法 - Google Patents
一种简捷有效的残缺表格识别及跨页拼接方法 Download PDFInfo
- Publication number
- CN111626145A CN111626145A CN202010380528.1A CN202010380528A CN111626145A CN 111626145 A CN111626145 A CN 111626145A CN 202010380528 A CN202010380528 A CN 202010380528A CN 111626145 A CN111626145 A CN 111626145A
- Authority
- CN
- China
- Prior art keywords
- page
- carrying
- splicing
- incomplete
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 230000000877 morphologic effect Effects 0.000 claims abstract description 11
- 230000011218 segmentation Effects 0.000 claims abstract description 9
- 238000012937 correction Methods 0.000 claims abstract description 4
- 238000009432 framing Methods 0.000 claims abstract description 3
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012015 optical character recognition Methods 0.000 abstract description 12
- 238000012545 processing Methods 0.000 abstract description 11
- 102100032202 Cornulin Human genes 0.000 abstract description 8
- 101000920981 Homo sapiens Cornulin Proteins 0.000 abstract description 8
- 230000007547 defect Effects 0.000 abstract description 6
- 238000000605 extraction Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 9
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明公开了一种简捷有效的残缺表格识别及跨页拼接方法,通过直线提取检测表格矫正,采用提出的残缺表格定位识别算法,得到残缺表格的准确位置,出现上下页残缺时,对残缺表格进行跨页拼接并进行单元格分割等处理。首先采用形态学投影实现直线检测并进行表格矫正;然后使用Harris进行角点检测,预框选出感兴趣区域,判断预框选区域是否存在直线得到准确的表格区域;其次,对确定表格区域中的首尾表格进行完整状态检测并根据拼接规则进行跨页拼接;最后,将分割表格进行单元格分割并使用CRNN实现OCR识别及表格数字化复现数据库存储等操作。该方法能有效的识别特殊残缺表格,并能进行跨页拼接,使用方法简洁有效。
Description
技术领域
本发明涉及表格识别及深度学习领域,特别是一种简捷有效的残缺表格识别及跨页拼接方法。
背景技术
随着图像处理技术和光学字符识别(OCR)技术的不断发展,表格信息自动化处理成为目前很多组织机构构建信息化系统的关键所在。
表格文档作为业务数据的重要载体,研究如何实现表格文档图像的自动化提取对实现自动化数据采集而言有重要意义。目前将纸质表格存储为电子表格目前大多采用人工录入,存在工作量大、繁琐和准确率低等问题;同时对于特殊残缺不完整表格识别效果不佳、跨页表格不能完整拼接等问题。
发明内容
本发明提供一种简捷有效的残缺表格识别及跨页拼接方法,以解决现有方法对不完整表格识别准确率低、跨页表格不能完整拼接的问题。
为了达到本发明的目的,本发明提出的方案如下:
一种简捷有效的残缺表格识别及跨页拼接方法,包括如下步骤:
步骤1、图像预处理阶段:将多分辨率的图像数据进行压缩灰度化,将OTSU二值化处理后的图像进行形态学进行预处理,得到仅含有水平横线的二值化图像,采用投影法进行水平直线增强并得到相应的直线横向坐标,最后进行表格矫正;
步骤2、检测定位表格识别阶段;使用Harris进行角点检测,预框选出感兴趣表格区域,判断预框选区域是否存在直线的横向坐标,进而判定表格区域的准确性;
步骤3、残缺表格的跨页拼接:对确定表格区域中的首尾表格进行完整状态检测并根据拼接规则进行跨页拼接;
步骤4、将定位分割的表格进行单元格分割并进行OCR识别及表格数字化复现。
与现有技术相比,本发明的有益效果是:
1)图像预处理阶段中,现有的方案是直接进行直线检测,再进行处理,而本发明是先进行预直线检测,再进行准确的直线检测,这样就有效提高了直线坐标的提取准确性;
2)通过形态学直线提取检测,并进行投影法进行直线重绘增强;采用Harris角点检测结合形态学投影得到的直线坐标进行文本区域与表格区域的检测分割;根据Harris确定的感兴趣区域上下界限值、第一条直线、最后一条直线之间的对应关系及拼接规则进行跨页拼接;采用形态学方法检测表格中横线与竖线的交点进而实现单元格的分割;采用投影法进行处理分割后的单元格便于CRNN更好的OCR识别。该方法可以有效的识别特殊残缺表格,并能进行跨页拼接,使用方法简洁有效。
3)本方法提出的残缺表格识别及跨页拼接方法,将特殊残缺表格识别的问题转化为区域划分及水平直线检测的问题,将复杂问题分解为多个简单问题,极大的简化了复杂表格不能准确识别分割的问题,为大量库存的纸质版特殊文本表格数字化提供了理论依据,为多种复杂表格的数字化提供了可行方案。
附图说明
图1为本发明方法实现框图;
图2为本发明整体工作流程图;
图3为本发明形态学法水平直线检测结果与投影法增强结果;
图4为本发明A4纸张大小表格图像样本;
图5为本发明部分特殊表格图像角点检测及表格识别结果;
图6为本发明跨页拼接实现规则;
图7为本发明跨页拼接实现(a)待拼接上下页(b)跨页拼接实现图;
图8为本发明特殊表格类型;
图9为本发明表格单元格横竖线检测结果图;
图10为本发明表格单元格横竖线交点显示结果图;
图11为本发明表格单元格交点检测结果图;
图12为本发明表格单元格边界处理流程图;
图13为本发明CRNN网络架构图。
具体实施方式
通过Harris角点检测的方式确定感兴趣区域,进而根据文本区域与表格区域的特殊性进行单独分割处理。将表格区域进行单元格的分割处理,文字区域以行为标准进行划分处理,将分割划分处理后的图像数据传入卷积循环神经网络(CRNN)进行OCR文字识别,进而进行数据库存储等后续操作。
参见图1和图2,本发明的提供的一种简捷有效的残缺表格识别及跨页拼接方法,包括如下步骤:
步骤1、图像预处理阶段:
步骤101、多分辨率的图像压缩灰度化,包括以下步骤:
(1)输入图像彩色图像
(2)转换为灰度图像
步骤102、OTSU二值化处理;使用OTSU算法实现对输入灰度图像的二值化处理。
步骤103、形态学处理,预提取直线;
图像形态学操作时候,可以通过自定义的结构元素实现结构元素对输入图像一些对象敏感,另外一些对象不敏感,这样就会让敏感的对象改变。而不敏感的对象输出,通过使用最基本的两个形态学操作-膨胀和腐蚀,使用不同的结构元素实现对输入图像的操作、得到想要的结果。主要步骤如下所示:
(1)输入OTSU二值化后的图像
(2)定义水平结构元素
(3)开操作(腐蚀+膨胀)提取水平直线
步骤104、投影法进行水平直线增强,得到相应的直线横向坐标;针对形态学检测水平直线存在直线中的部分区域未显示及显示不连续等问题,采用投影法对形态学检测的结果进行再次检测重绘,增强线条的连续完整性。如图3所示为形态学法水平直线检测结果与投影法增强结果。
投影法就是数字图像在某个方向上进行像素累加。通过水平和垂直方向的投影,可以得到表格图像投影的几个特点:
(1)表格区域的水平与竖直投影分布通常出现周期性的尖峰
(2)在文字投影的行与行之间或列与列之间常会出现明显的空白区
因此,求图像水平以及竖直投影,根据特点分别设以阈值就可以将横线以及竖直线所在位置确定。
(1)求图像的水平投影、竖直投影;
(2)设定合理阈值,求取大于阈值的坐标(水平投影记录纵坐标,垂直投影记录横坐标)
(3)根据记录纵坐标恢复水平线,根据记录横坐标恢复竖直线。
步骤105、根据横向坐标进行表格矫正。根据得到的横向坐标,计算直线的斜率,进而实现基于直线检测的倾斜表格矫正。
步骤2、检测定位表格识别阶段
由于检测对象是具有一定特征的A4大小的纸张,感兴趣区域为上下页边距以及左右边距所围成的矩形区域。在感兴趣之外部分几乎不存在任何黑色像素等图像可处理对象。选用Harris进行角点检测,确定感兴趣区域。
Harris角点检测的过程如下:
(1)求出I(x,y)在x、y方向上的梯度Ix,Iy
(3)对Ix,Iy,Ixy进行高斯加权,从而产生A,B,C三个元素,如下:
(4)求出每个像素的Harris响应值R,令小于阈值(阈值一般为0.01*np.max(R))的响应值R为0
(5)进行3*3邻域非极大值抑制,即如果该点的值比3*3邻域的其他角点小,则删除该角点
(6)记录下角点在原图像的位置,即图像角点所在的位置
如图4所示的表格图像的A4纸张大小样本,需要将感兴趣区域进行预框选:
图4中,虚线区域内为本文的感兴趣区域。
如图5中(c)为正常表格的识别结果,(a)和(b)为特殊残缺表格的识别结果,现有方法针对图5(c)的正常表格可以很好的进行识别,对于图5(a)和(b)识别效果不佳,主要是因为图5(a)和(b)的表格纵向方向上的不完整。通过实际实验,可见本文提出的基于Harris及形态学投影法检测表格针对特殊残缺表格也能很好的识别。
步骤3、残缺表格的跨页拼接
表明残缺的状态分为四种,根据Harris确定的感兴趣区域上下界限值、直线检测确定下一页第一条直线起点顶部小区域内是否存在白色像素和上一页最后一条直线起点底部小区域内是否存在白色像素即可判定当前页中是否存在顶页及底页的残缺。如图6,拼接时遵循下一页的顶补上一页的底的规则,依次实现跨页表格的拼接问题,根据残缺状态矩阵实现跨页的拼接。
如图7,(a)为两张跨页表格,上一页的底部残缺表格和下一页的顶部残缺表格,根据跨页拼接算法及拼接规则进行跨页拼接,得到图(b)。
步骤4、表格单元格分割及OCR识别及表格数字化复现:
如图8所示,为本文所研究的特殊复杂表格类型。针对此表格研究发现,其横线是完整的,竖线不完整,但是竖线与横线均有交点,根据此特性进行复杂表格的单元格分割。采用形态学的方法进行交点检测,并根据交点依次进行表格分割。
如图9所示,为两种特殊表格横线和竖线的叠加检测结果图,首先进行横线的检测,再进行竖线的检测,叠加即可得到如图9所示的结果图。通过横向图像与纵向图像的与操作即可得到如图10所示的表格交点,所有的交点均能很好的检测。
找到表格线之间的节点,从图片中区分表格(表格将包含4个以上的节点,图片仅包含4个边界角点),如图11所示为上述表格的交点检测结果图,通过对图10进一步检测处理得到图11,所有的表格交点均能检测,得到相应的横纵坐标。
针对由此方法分割出来的单元格,文字左右两边存在非文字的空白区域。对于OCR识别及数字化复现会造成相应的错误文本。因此通过投影法做进一步处理。如图12所示为表格单元格边界处理流程图,图(a)为输入分割后的单元格图像,图(d)为输出的处理后的单元格图像。
对图12(d)进行OCR识别,对识别结果进行数据库存储,实现文本表格的数字化复现。对于OCR识别选用一种卷积循环神经网络结构,用于解决基于图像的序列识别问题,特别是场景文字识别问题。即选择端到端的CRNN作为OCR字符识别的网络框架。
如图13所示为CRNN的网络模型架构图,该网络是由三个主要部分组成的:卷积层、循环层、转录层。这三个部分的作用为,卷积对图像进行卷积操作提取出图像的深层特征;循环层产生特征序列每一帧的预测值;转录层将循环层生成的帧预测序列转换为标签序列。将前级处理后的图12(b)的单元格图像输入CRNN网络模型,得到识别字符录入数据库,实现文本表格的数字化复现。
Claims (1)
1.一种简捷有效的残缺表格识别及跨页拼接方法,其特征在于,包括如下步骤:
步骤1、图像预处理阶段:将多分辨率的图像数据进行压缩灰度化,将OTSU二值化处理后的图像进行形态学进行预处理,得到仅含有水平横线的二值化图像,采用投影法进行水平直线增强并得到相应的直线横向坐标,最后进行表格矫正;
步骤2、检测定位表格识别阶段;使用Harris进行角点检测,预框选出感兴趣表格区域,判断预框选区域是否存在直线的横向坐标,进而判定表格区域的准确性;
步骤3、残缺表格的跨页拼接:对确定表格区域中的首尾表格进行完整状态检测并根据拼接规则进行跨页拼接;
步骤4、将定位分割的表格进行单元格分割并进行OCR识别及表格数字化复现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010380528.1A CN111626145B (zh) | 2020-05-08 | 2020-05-08 | 一种简捷有效的残缺表格识别及跨页拼接方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010380528.1A CN111626145B (zh) | 2020-05-08 | 2020-05-08 | 一种简捷有效的残缺表格识别及跨页拼接方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111626145A true CN111626145A (zh) | 2020-09-04 |
CN111626145B CN111626145B (zh) | 2024-01-23 |
Family
ID=72259018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010380528.1A Active CN111626145B (zh) | 2020-05-08 | 2020-05-08 | 一种简捷有效的残缺表格识别及跨页拼接方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626145B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200117A (zh) * | 2020-10-22 | 2021-01-08 | 长城计算机软件与系统有限公司 | 表格识别方法及装置 |
CN112818785A (zh) * | 2021-01-22 | 2021-05-18 | 国家气象信息中心(中国气象局气象数据中心) | 一种气象纸质表格文档的快速数字化方法及系统 |
CN117115082A (zh) * | 2023-07-12 | 2023-11-24 | 钛玛科(北京)工业科技有限公司 | 一种轮胎搭接质量检测方法和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08320914A (ja) * | 1995-05-24 | 1996-12-03 | Hitachi Ltd | 表認識方法および装置 |
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
CN109086714A (zh) * | 2018-07-31 | 2018-12-25 | 国科赛思(北京)科技有限公司 | 表格识别方法、识别系统及计算机装置 |
CN109635268A (zh) * | 2018-12-29 | 2019-04-16 | 南京吾道知信信息技术有限公司 | Pdf文件中表格信息的提取方法 |
-
2020
- 2020-05-08 CN CN202010380528.1A patent/CN111626145B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08320914A (ja) * | 1995-05-24 | 1996-12-03 | Hitachi Ltd | 表認識方法および装置 |
CN106156761A (zh) * | 2016-08-10 | 2016-11-23 | 北京交通大学 | 面向移动终端拍摄的图像表格检测与识别方法 |
CN109086714A (zh) * | 2018-07-31 | 2018-12-25 | 国科赛思(北京)科技有限公司 | 表格识别方法、识别系统及计算机装置 |
CN109635268A (zh) * | 2018-12-29 | 2019-04-16 | 南京吾道知信信息技术有限公司 | Pdf文件中表格信息的提取方法 |
Non-Patent Citations (2)
Title |
---|
刘艳顺;邱泽阳;: "一种基于自适用结构元素的表格框线去除形态学算法", 贵州大学学报(自然科学版), no. 04 * |
邓小宁;孙琳;陈念年;张玉浦;: "基于HOG特征的财务报表图像识别", 电子设计工程, no. 10 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112200117A (zh) * | 2020-10-22 | 2021-01-08 | 长城计算机软件与系统有限公司 | 表格识别方法及装置 |
CN112200117B (zh) * | 2020-10-22 | 2023-10-13 | 长城计算机软件与系统有限公司 | 表格识别方法及装置 |
CN112818785A (zh) * | 2021-01-22 | 2021-05-18 | 国家气象信息中心(中国气象局气象数据中心) | 一种气象纸质表格文档的快速数字化方法及系统 |
CN117115082A (zh) * | 2023-07-12 | 2023-11-24 | 钛玛科(北京)工业科技有限公司 | 一种轮胎搭接质量检测方法和设备 |
CN117115082B (zh) * | 2023-07-12 | 2024-04-05 | 钛玛科(北京)工业科技有限公司 | 一种轮胎搭接质量检测方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111626145B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814722B (zh) | 一种图像中的表格识别方法、装置、电子设备及存储介质 | |
CN109902622B (zh) | 一种用于登机牌信息验证的文字检测识别方法 | |
CN101453575B (zh) | 一种视频字幕信息提取方法 | |
CN109977723B (zh) | 大票据图片文字识别方法 | |
CN108596166A (zh) | 一种基于卷积神经网络分类的集装箱箱号识别方法 | |
CN109784342B (zh) | 一种基于深度学习模型的ocr识别方法及终端 | |
CN111626145B (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN110738030A (zh) | 表格重建方法、装置、电子设备及存储介质 | |
CN113033558B (zh) | 一种用于自然场景的文本检测方法及装置、存储介质 | |
CN112241730A (zh) | 一种基于机器学习的表格提取方法和系统 | |
CN112307919A (zh) | 一种基于改进YOLOv3的单证图像中数字信息区域识别方法 | |
CN111814576A (zh) | 一种基于深度学习的购物小票图片识别方法 | |
CN114663897A (zh) | 表格提取方法与表格提取系统 | |
CN111126266A (zh) | 文本处理方法、文本处理系统、设备及介质 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
CN112215266B (zh) | 一种基于小样本学习的x光图像违禁物品检测方法 | |
WO2022121021A1 (zh) | 一种身份证号码检测方法、装置、可读存储介质和终端 | |
CN113361467A (zh) | 基于领域适应的车牌识别方法 | |
US20230326035A1 (en) | Target object segmentation method and related device | |
CN111046770B (zh) | 一种照片档案人物自动标注方法 | |
CN115019310B (zh) | 图文识别方法及设备 | |
CN112036294A (zh) | 一种纸质表格结构自动识别的方法及装置 | |
CN116030472A (zh) | 文字坐标确定方法及装置 | |
CN113065559B (zh) | 图像比对方法、装置、电子设备及存储介质 | |
CN112837329B (zh) | 一种藏文古籍文档图像二值化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |