CN111626145A

CN111626145A - 一种简捷有效的残缺表格识别及跨页拼接方法

Info

Publication number: CN111626145A
Application number: CN202010380528.1A
Authority: CN
Inventors: 吕志刚; 李亮亮; 王鹏; 高武奇; 岳鑫; 李晓艳; 郭翔宇; 李超
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2020-09-04
Anticipated expiration: 2040-05-08
Also published as: CN111626145B

Abstract

本发明公开了一种简捷有效的残缺表格识别及跨页拼接方法，通过直线提取检测表格矫正，采用提出的残缺表格定位识别算法，得到残缺表格的准确位置，出现上下页残缺时，对残缺表格进行跨页拼接并进行单元格分割等处理。首先采用形态学投影实现直线检测并进行表格矫正；然后使用Harris进行角点检测，预框选出感兴趣区域，判断预框选区域是否存在直线得到准确的表格区域；其次，对确定表格区域中的首尾表格进行完整状态检测并根据拼接规则进行跨页拼接；最后，将分割表格进行单元格分割并使用CRNN实现OCR识别及表格数字化复现数据库存储等操作。该方法能有效的识别特殊残缺表格，并能进行跨页拼接，使用方法简洁有效。

Description

一种简捷有效的残缺表格识别及跨页拼接方法

技术领域

本发明涉及表格识别及深度学习领域，特别是一种简捷有效的残缺表格识别及跨页拼接方法。

背景技术

随着图像处理技术和光学字符识别(OCR)技术的不断发展，表格信息自动化处理成为目前很多组织机构构建信息化系统的关键所在。

表格文档作为业务数据的重要载体，研究如何实现表格文档图像的自动化提取对实现自动化数据采集而言有重要意义。目前将纸质表格存储为电子表格目前大多采用人工录入，存在工作量大、繁琐和准确率低等问题；同时对于特殊残缺不完整表格识别效果不佳、跨页表格不能完整拼接等问题。

发明内容

本发明提供一种简捷有效的残缺表格识别及跨页拼接方法，以解决现有方法对不完整表格识别准确率低、跨页表格不能完整拼接的问题。

为了达到本发明的目的，本发明提出的方案如下：

一种简捷有效的残缺表格识别及跨页拼接方法，包括如下步骤：

步骤1、图像预处理阶段：将多分辨率的图像数据进行压缩灰度化，将OTSU二值化处理后的图像进行形态学进行预处理，得到仅含有水平横线的二值化图像，采用投影法进行水平直线增强并得到相应的直线横向坐标，最后进行表格矫正；

步骤2、检测定位表格识别阶段；使用Harris进行角点检测，预框选出感兴趣表格区域，判断预框选区域是否存在直线的横向坐标，进而判定表格区域的准确性；

步骤3、残缺表格的跨页拼接：对确定表格区域中的首尾表格进行完整状态检测并根据拼接规则进行跨页拼接；

步骤4、将定位分割的表格进行单元格分割并进行OCR识别及表格数字化复现。

与现有技术相比，本发明的有益效果是：

1)图像预处理阶段中，现有的方案是直接进行直线检测，再进行处理，而本发明是先进行预直线检测，再进行准确的直线检测，这样就有效提高了直线坐标的提取准确性；

2)通过形态学直线提取检测，并进行投影法进行直线重绘增强；采用Harris角点检测结合形态学投影得到的直线坐标进行文本区域与表格区域的检测分割；根据Harris确定的感兴趣区域上下界限值、第一条直线、最后一条直线之间的对应关系及拼接规则进行跨页拼接；采用形态学方法检测表格中横线与竖线的交点进而实现单元格的分割；采用投影法进行处理分割后的单元格便于CRNN更好的OCR识别。该方法可以有效的识别特殊残缺表格，并能进行跨页拼接，使用方法简洁有效。

3)本方法提出的残缺表格识别及跨页拼接方法，将特殊残缺表格识别的问题转化为区域划分及水平直线检测的问题，将复杂问题分解为多个简单问题，极大的简化了复杂表格不能准确识别分割的问题，为大量库存的纸质版特殊文本表格数字化提供了理论依据，为多种复杂表格的数字化提供了可行方案。

附图说明

图1为本发明方法实现框图；

图2为本发明整体工作流程图；

图3为本发明形态学法水平直线检测结果与投影法增强结果；

图4为本发明A4纸张大小表格图像样本；

图5为本发明部分特殊表格图像角点检测及表格识别结果；

图6为本发明跨页拼接实现规则；

图7为本发明跨页拼接实现(a)待拼接上下页(b)跨页拼接实现图；

图8为本发明特殊表格类型；

图9为本发明表格单元格横竖线检测结果图；

图10为本发明表格单元格横竖线交点显示结果图；

图11为本发明表格单元格交点检测结果图；

图12为本发明表格单元格边界处理流程图；

图13为本发明CRNN网络架构图。

具体实施方式

通过Harris角点检测的方式确定感兴趣区域，进而根据文本区域与表格区域的特殊性进行单独分割处理。将表格区域进行单元格的分割处理，文字区域以行为标准进行划分处理，将分割划分处理后的图像数据传入卷积循环神经网络(CRNN)进行OCR文字识别，进而进行数据库存储等后续操作。

参见图1和图2，本发明的提供的一种简捷有效的残缺表格识别及跨页拼接方法，包括如下步骤：

步骤1、图像预处理阶段：

步骤101、多分辨率的图像压缩灰度化，包括以下步骤：

(1)输入图像彩色图像

(2)转换为灰度图像

步骤102、OTSU二值化处理；使用OTSU算法实现对输入灰度图像的二值化处理。

步骤103、形态学处理，预提取直线；

图像形态学操作时候，可以通过自定义的结构元素实现结构元素对输入图像一些对象敏感，另外一些对象不敏感，这样就会让敏感的对象改变。而不敏感的对象输出，通过使用最基本的两个形态学操作-膨胀和腐蚀，使用不同的结构元素实现对输入图像的操作、得到想要的结果。主要步骤如下所示：

(1)输入OTSU二值化后的图像

(2)定义水平结构元素

(3)开操作(腐蚀+膨胀)提取水平直线

步骤104、投影法进行水平直线增强，得到相应的直线横向坐标；针对形态学检测水平直线存在直线中的部分区域未显示及显示不连续等问题，采用投影法对形态学检测的结果进行再次检测重绘，增强线条的连续完整性。如图3所示为形态学法水平直线检测结果与投影法增强结果。

投影法就是数字图像在某个方向上进行像素累加。通过水平和垂直方向的投影，可以得到表格图像投影的几个特点：

(1)表格区域的水平与竖直投影分布通常出现周期性的尖峰

(2)在文字投影的行与行之间或列与列之间常会出现明显的空白区

因此，求图像水平以及竖直投影，根据特点分别设以阈值就可以将横线以及竖直线所在位置确定。

(1)求图像的水平投影、竖直投影；

(2)设定合理阈值，求取大于阈值的坐标(水平投影记录纵坐标，垂直投影记录横坐标)

(3)根据记录纵坐标恢复水平线，根据记录横坐标恢复竖直线。

步骤105、根据横向坐标进行表格矫正。根据得到的横向坐标，计算直线的斜率，进而实现基于直线检测的倾斜表格矫正。

步骤2、检测定位表格识别阶段

由于检测对象是具有一定特征的A4大小的纸张，感兴趣区域为上下页边距以及左右边距所围成的矩形区域。在感兴趣之外部分几乎不存在任何黑色像素等图像可处理对象。选用Harris进行角点检测，确定感兴趣区域。

Harris角点检测的过程如下：

(1)求出I(x,y)在x、y方向上的梯度I_x，I_y

(2)求出在x、y方向上的梯度乘积，

I_xy＝I_x*I_y

(3)对I_x，I_y，I_xy进行高斯加权，从而产生A，B，C三个元素，如下：

(4)求出每个像素的Harris响应值R，令小于阈值(阈值一般为0.01^*np.max(R))的响应值R为0

(5)进行3*3邻域非极大值抑制，即如果该点的值比3*3邻域的其他角点小，则删除该角点

(6)记录下角点在原图像的位置，即图像角点所在的位置

如图4所示的表格图像的A4纸张大小样本，需要将感兴趣区域进行预框选：

图4中，虚线区域内为本文的感兴趣区域。

如图5中(c)为正常表格的识别结果，(a)和(b)为特殊残缺表格的识别结果，现有方法针对图5(c)的正常表格可以很好的进行识别，对于图5(a)和(b)识别效果不佳，主要是因为图5(a)和(b)的表格纵向方向上的不完整。通过实际实验，可见本文提出的基于Harris及形态学投影法检测表格针对特殊残缺表格也能很好的识别。

步骤3、残缺表格的跨页拼接

在此本文设第i顶页残缺为Ti，底页残缺为Bi，为判别方便设残缺的状态为1，需要跨页拼接的状态为1，反之状态为0，根据以上即可得到残缺状态矩阵为：

表明残缺的状态分为四种，根据Harris确定的感兴趣区域上下界限值、直线检测确定下一页第一条直线起点顶部小区域内是否存在白色像素和上一页最后一条直线起点底部小区域内是否存在白色像素即可判定当前页中是否存在顶页及底页的残缺。如图6，拼接时遵循下一页的顶补上一页的底的规则，依次实现跨页表格的拼接问题，根据残缺状态矩阵实现跨页的拼接。

如图7，(a)为两张跨页表格，上一页的底部残缺表格和下一页的顶部残缺表格，根据跨页拼接算法及拼接规则进行跨页拼接，得到图(b)。

步骤4、表格单元格分割及OCR识别及表格数字化复现：

如图8所示，为本文所研究的特殊复杂表格类型。针对此表格研究发现，其横线是完整的，竖线不完整，但是竖线与横线均有交点，根据此特性进行复杂表格的单元格分割。采用形态学的方法进行交点检测，并根据交点依次进行表格分割。

如图9所示，为两种特殊表格横线和竖线的叠加检测结果图，首先进行横线的检测，再进行竖线的检测，叠加即可得到如图9所示的结果图。通过横向图像与纵向图像的与操作即可得到如图10所示的表格交点，所有的交点均能很好的检测。

找到表格线之间的节点，从图片中区分表格(表格将包含4个以上的节点，图片仅包含4个边界角点)，如图11所示为上述表格的交点检测结果图，通过对图10进一步检测处理得到图11，所有的表格交点均能检测，得到相应的横纵坐标。

针对由此方法分割出来的单元格，文字左右两边存在非文字的空白区域。对于OCR识别及数字化复现会造成相应的错误文本。因此通过投影法做进一步处理。如图12所示为表格单元格边界处理流程图，图(a)为输入分割后的单元格图像，图(d)为输出的处理后的单元格图像。

对图12(d)进行OCR识别，对识别结果进行数据库存储，实现文本表格的数字化复现。对于OCR识别选用一种卷积循环神经网络结构，用于解决基于图像的序列识别问题，特别是场景文字识别问题。即选择端到端的CRNN作为OCR字符识别的网络框架。

如图13所示为CRNN的网络模型架构图，该网络是由三个主要部分组成的：卷积层、循环层、转录层。这三个部分的作用为，卷积对图像进行卷积操作提取出图像的深层特征；循环层产生特征序列每一帧的预测值；转录层将循环层生成的帧预测序列转换为标签序列。将前级处理后的图12(b)的单元格图像输入CRNN网络模型，得到识别字符录入数据库，实现文本表格的数字化复现。

Claims

1.一种简捷有效的残缺表格识别及跨页拼接方法，其特征在于，包括如下步骤：