CN111223109A

CN111223109A - 一种复杂的表格图像解析方法

Info

Publication number: CN111223109A
Application number: CN202010004174.0A
Authority: CN
Inventors: 汤文青; 李永进; 何思佑
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2020-01-03
Filing date: 2020-01-03
Publication date: 2020-06-02
Anticipated expiration: 2040-01-03
Also published as: CN111223109B

Abstract

本发明公开了一种复杂的表格图像解析方法，属于图像处理、复杂表格解析技术领域，解决现有技术中，基于规则模板的表格定位方法和基于机器学习的表格定位方法会造成定位灵活性差、精确度低等问题。本发明具体为：步骤1：对复杂的表格图像进行预处理，即从表格图像外边沿处的白色区域进行切割：步骤2：对预处理后的表格图像进行膨胀腐蚀操作找到表格图像中表格的最长行线和最长列线；步骤3：根据最长行线和最长列线的交点对表格图像中的表格进行切分，切分后得到格子集；步骤4：判断格子集中的每个格子是否是一个普通表格，如果是，则结束，否则，跳转至步骤2，对该格子进行解析。用于解析图像中的复杂表格。

Description

一种复杂的表格图像解析方法

技术领域

一种复杂的表格图像解析方法，用于解析图像中的复杂表格，属于图像处理、复杂表格解析技术领域。

背景技术

在物体检测和定位方面，常用的技术有：边缘检测技术(canny边缘检测)和rcnn/faster-rcnn/yolo/ssd；

在ocr(光学字符识别)方面，主要技术有：基于监督学习的文字分类、cnn(卷积神经网络)和crnn+ctc等。在图像处理领域，人们对含有表格文档识别的研究取得了很大的进展，如“https：//blog.csdn.net/qq_43093708/article/details/82988061”中所公开的内容。

对表格识别之前，需要先对文档进行版面分析，提取出文档中的表格，然后对表格进行定位，最后根据定位结果识别出表格中的文本。现有技术中，人们对表格的定位主要采用以下方法：

(1)基于规则模板的表格定位方法，如公开的专利名称为：一种基于投影特征与结构特征进行表格图像检测的方法，申请号为201510786025.3的专利，此专利是对任意文本图像进行灰度变换、二值化、水平投影，通过水平投影直方图计算与图像实际宽度相近的直线行数和图像中与最大峰值相近的直线的分布，判断是否为有线表格；若不是有线表格则进行水平分割，通过字串行高度、字串行间高度以及垂直投影获得的相邻字串列间宽度，判断是否为无线表格。本发明对图像只进行简单的预处理，当图像出现轻微倾斜、轻微断点等问题时，图像投影的角度相同，投影过程中产生的损失也相同。丢弃这部分损失并不会对表格检测结果造成干扰，从而忽略此类问题同时避免进行复杂预处理操作。该发明能够提高表格图像检测的效率同时简化表格图像检测操作步骤。

基于规则模板的表格定位方法做法就是收集各种表格，从不同类别的表格提取出不同的规则模板。在解析新表格的时候，先对新表格进行类别划分，然后利用该类别的规则模板进行表格解析。

(2)基于机器学习的表格定位方法，链接“http://www.doc88.com/p-8065395912761.html”中公开的“金融票据版面的自动识别技术研究与原型系统再设计”

本方法利用机器学习的方法进行表格定位，分为训练和预测两个过程。在训练阶段，首先要构建一个数据集，然后让机器学习模型在该训练集上学习一个固定模式，以便在预测阶段使用。在预测阶段，把要解析的新表格输入模型，模型自动完成表格的解析，最后输出识别结果。具体流程如图1所示。

针对上述两种常用的表格定位方法，存在如下不足之处：

(1)基于规则模板的表格定位方法

本方案的思想是枚举。即如果一个新表格不在已有类别中，就会定位失败，即造成定位灵活性差、精确度低的问题，再者，随着表格类别的增多，系统处理效率也会逐渐降低。

(2)基于机器学习的表格定位方法

本方法是基于机器学习的策略。机器学习的一个最大的缺点就是不能达到百分之百正确，在某些应用场景中，对识别结果要求非常高，如果有百分之零点一的差错就会造成很大损失，很显然基于本策略的系统不是理想的选择方案。再者，系统需要提前训练，进行特征提取，这些都会消耗一定资源。最后，如果样本集缺乏代表性和普遍性，这就会造成系统学习不到某些模式，最终导致模型对某些表格定位失败，即会造成定位灵活性差、精确度低的问题。

发明内容

针对上述研究的问题，本发明的目的在于提供一种复杂的表格图像解析方法，解决现有技术中，基于规则模板的表格定位方法，会造成定位灵活性差、精确度低，以及随着表格类别的增多，系统处理效率也会逐渐降低的问题；基于机器学习的表格定位方法，系统需要提前训练，进行特征提取，会消耗一定资源，若样本集缺乏代表性和普遍性会造成定位灵活性差、精确度低等问题。

为了达到上述目的，本发明采用如下技术方案：

一种复杂的表格图像解析方法，如下步骤：

步骤1：对复杂的表格图像进行预处理，即从表格图像外边沿处的白色区域进行切割；

步骤2：对预处理后的表格图像进行膨胀腐蚀操作找到表格图像中表格的最长行线和最长列线；

步骤3：根据最长行线和最长列线的交点对表格图像中的表格进行切分，切分后得到格子集；

步骤4：判断格子集中的每个格子是否是一个普通表格，如果是，则结束，否则，跳转至步骤2，对该格子进行解析。

进一步，所述步骤1的具体步骤为：

步骤1.1：根据行投影，裁剪掉表格图像中表身上面和下面的空白边沿，其中，空白边沿是以表格的外沿线为边沿；

步骤1.2：根据列投影，裁剪掉表格图像中表身左边和右边的空白边沿，得到预处理后的表格图像，其中，表格图像的存储是一个点阵，通过选取不同的点，就能选取出表格图像中的任何一个位置的图像子块，来实现表格图像中表的裁剪。

进一步，所述步骤2的具体步骤为：

步骤2.1：定位最长行线，以“1x3/4n”的移动核在表格图像上滑动进行膨胀和腐蚀操作，得到一条或多条最长行线，其中，n为行像素的个数；

步骤2.2：定位最长列线，以“3/4nx1”的移动核在表格图像上滑动进行膨胀和腐蚀操作，得到一条或多条最长列线。

进一步，所述步骤3的具体步骤为：

步骤3.1：根据最长行线和最长列线定位交点；

步骤3.2：若最长行线和最长列线各为一条，转到步骤3.4，否则，转到步骤3.3；

步骤3.3：调整交点，得到最长行线和最长列线的所有调整后的交点，即得到同一行上的交点在同一水平线上，或/和同一列上的交点在同一条垂直线上；

步骤3.4：根据交点对表格图像中的表格进行切分，切分后得到格子集。

本发明同现有技术相比，其有益效果表现在：

一、本发明中采用膨胀腐蚀操作找到最长行线和最长列线的方式进行表格切分，定位切分的正确率能够保证达到百分之百，适合某些要求较高的领域，即本发明通过对切分块儿进行进一步探索的方式来达到百分之百的图像表格定位切分效果，在要求高切分准确率的应用场景中有很好的应用作用；

二、本发明除了高精度表格定位优势，也具备操作简洁灵活性强的优势；与基于规则模板的表格定位方法相比，本发明无须预存大量不同形式的表格，节约计算机资源，且使用灵活；与基于机器学习的表格定位方法相比，本发明无须进行提前训练与特征提取等步骤，因此节约了前期的训练资源，且不需要前期的表格图像收集与储备。

附图说明

图1为背景技术中基于机器学习的表格定位流程示意图；

图2为本发明的流程示意图；

图3为普通表格示意图；

图4为复杂表格示意图。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

本发明中的普通表格是指任意一条行线或者列线都起始于边界并且结束于边界，如图3所示。

本发明中的复杂表格：指普通表格的格子中又套一个普通表格的表格，如图4所示。

本发明中提及的复杂的表格图像是指图像的中表格为复杂表格。

一种复杂的表格图像解析方法，如下步骤：

步骤1：对复杂的表格图像进行预处理，即从表格图像外边沿处的白色区域进行切割；具体步骤为：

步骤1.1：根据行投影，裁剪掉表格图像中表身上面和下面的空白边沿，其中空白边沿是以表格的外沿线为边沿；

步骤2：对预处理后的表格图像进行膨胀腐蚀操作找到表格图像中表格的最长行线和最长列线；具体步骤为：

步骤2.1：定位最长行线，以“1x3/4n”的移动核在表格图像上滑动进行膨胀和腐蚀操作，得到一条或多条最长行线，其中，n为行像素的个数，其中，滑动方向无要求。

步骤2.2：定位最长列线，以“3/4nx1”的移动核在表格图像上滑动进行膨胀和腐蚀操作，得到一条或多条最长列线，其中，滑动方向无要求。

步骤3：根据最长行线和最长列线的交点对表格图像中的表格进行切分，切分后得到格子集；具体步骤为：

步骤3.1：根据最长行线和最长列线定位交点，即图像中，“0”表示纯黑色，白色为“1”或者“255”(若图像进行了数值二值化，则1表示白色，否则，“255”表示白色)，将表格图像上进行膨胀和腐蚀得到的行线与列线进行相加可以得到对应的交点，具体相加过程为：0+0＝0(因此依旧为黑色)，0+非0＝非0(因此不为黑色)。行线与列线中，只有行线与列线的交点位置对应数值相加后才为0，因此，可以通过行线与列线相加得到对应的交点；

实施例

如图4所示为一个典型的订货单，根据步骤1首先对订货单进行空白边沿切除，提取出图像中仅包含表格部分的图像，然后使用步骤2对表格图像进行寻找最长行列线操作，根据图4，可以看出提取出来的最长行列线应为：最长行线13条，最长列线3条，对这总计16条的行列线进行交点提取，根据图4，可看出，左上角得到的表格子块为仅包含“客户名称”的格子，该格子内无子表格，依照图2，结束对该格子的探索。其他格子的探索都依照图2所示流程进行判断。

以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种复杂的表格图像解析方法，其特征在于，如下步骤：

2.根据权利要求1所述的一种复杂的表格图像解析方法，其特征在于，所述步骤1的具体步骤为：

3.根据权利要求2所述的一种复杂的表格图像解析方法，其特征在于，所述步骤2的具体步骤为：

步骤2.1：定位最长行线，以“1×3/4n”的移动核在表格图像上滑动进行膨胀和腐蚀操作，得到一条或多条最长行线，其中，n为行像素的个数；

步骤2.2：定位最长列线，以“3/4n×1”的移动核在表格图像上滑动进行膨胀和腐蚀操作，得到一条或多条最长列线。

4.根据权利要求2所述的一种复杂的表格图像解析方法，其特征在于，所述步骤3的具体步骤为：

步骤3.1：根据最长行线和最长列线定位交点；