CN111626146B

CN111626146B - 一种基于模板匹配的合并单元格表格分割识别方法

Info

Publication number: CN111626146B
Application number: CN202010380849.1A
Authority: CN
Inventors: 王鹏; 李亮亮; 高武奇; 岳鑫; 李晓艳; 吕志刚; 郭翔宇; 李超
Original assignee: Xian Technological University
Current assignee: Xian Technological University
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2023-06-09
Anticipated expiration: 2040-05-08
Also published as: CN111626146A

Abstract

本发明公开了一种基于模板匹配的合并单元格表格分割识别方法，首先采用本方法提出的基于直线检测的表格矫正算法，矫正倾斜表格；然后，使用基于轮廓检测的表格区域检测算法，分割感兴趣表格区域；其次，对确定表格区域采用本发明提出的基于模板匹配的合并单元格表格分割算法进行模板匹配等操作，同时对感兴趣单元格区域进行分割处理，得到每一个cell单元格图像；最后，对每一个cell单元格图像进行BP神经网络识别，结合模板文件以及BP识别结果进行表格数字化复现等操作。经试验验证，该方法可以有效的解决具有多个单元格合并的倾斜表格图像的分割识别，该方法简洁有效，具有一定的实际可行性，该方法也适用于复杂表格的分割处理，具备一定的可拓展性。

Description

一种基于模板匹配的合并单元格表格分割识别方法

技术领域

本发明涉及模式识别及图像处理技术领域，特别是一种基于模板匹配的合并单元格表格分割识别方法。

背景技术

随着图像处理技术和光学字符识别(OCR)技术的不断发展，表格信息自动化处理成为目前很多组织机构构建信息化系统的关键所在。

表格文档作为业务数据的重要载体，研究如何实现表格文档图像的自动化提取对实现自动化数据采集而言有重要意义。目前将纸质表格存储为电子表格大多采用人工录入，存在工作量大、繁琐和准确率低等问题，尤其存在合并单元格时，缺乏一种针对性的处理方法；其中目前基于文字位置信息进行表格解析的，能够解析大多数正常表格的解析，但是存在当表格中无文字信息或者存在合并单元格时无法进行准确解析的问题；针对合并单元格的表格识别效果不佳、倾斜表格不能正常识别处理等问题。

为了克服现有方法的缺陷，本发明提出一种基于模板匹配的合并单元格表格分割识别方法。

发明内容

本发明提供一种基于模板匹配的合并单元格表格分割识别方法，以解决现有方法对合并单元格表格分割识别准确率低、倾斜表格不能正常识别的问题。

为了达到本发明的目的，本发明提出的方案如下：

一种基于模板匹配的合并单元格表格分割识别方法，首先通过基于直线检测的矫正算法进行倾斜表格的矫正，经过基于轮廓检测的表格区域检测算法，得到感兴趣表格区域；然后对分割的感兴趣表格区域使用基于模板文件匹配的单元格分割算法，对感兴趣cell单元格进行分割提取处理；最后使用训练好的BP神经网络模型进行字符识别、表格数字化的复现及数据库存储。

进一步的，具体包括如下步骤：

步骤1、图像预处理阶段：将多分辨率的图像数据进行压缩灰度化处理，使用OTSU进行二值化图像处理；

步骤2、直线探测矫正阶段：使用形态学算法进行横向直线的提取，再次使用Hough进行直线提取，通过霍夫变换计算旋转角度，计算二维旋转仿射变换矩阵，基于原尺寸逆时针旋转图像角度，最终得到矫正后的图像；

步骤3、表格区域检测阶段：对矫正后的图像进行灰度化处理、形态学腐蚀处理，使得输入图像的黑色区域变大并进行OTSU二值化处理，通过形态学算法进行横向线段与纵向线段的检测及交叉点的检测，使用轮廓检测进行表格矩形区域的检测，进而得到表格区域；

步骤4、模板匹配的表格分割阶段：首先根据模板建立规则进行建立模板文件，进而加载解析模板文件，对表格的标题进行识别并与模板文件中的表格标题进行对比，进而确定预加载的图像模板，使用基于最大相似性的图像模板匹配算法进行模板匹配，结合模板文件进行感兴趣区域的分割处理；

步骤5、字符识别阶段：通过预先训练的BP神经网络进行分割区域的识别。

进一步的，步骤5具体包括如下步骤：

步骤501、提取训练字符模板；

步骤502、进行BP神经网络的训练；

步骤503、进行分割区域的BP神经网络识别；

步骤504、进行表格数字化的复现及数据库存储。

与现有技术相比，本发明的有益效果是：

1)、本发明方法提出的模板匹配的合并单元格表格分割方法，将合并单元格的识别问题转化为基于模板文件的图像匹配感兴趣区域提取识别问题，将复杂问题分解为多个简单问题，极大的简化了包含合并单元格表格不能准确分割识别问题，为大量库存的纸质版特殊文本表格数字化提供了理论依据，具有一定的实际可行性，为多种复杂表格的数字化提供了可行方案，具备一定的可拓展性。

2)、针对倾斜表格难以正常处理问题，本发明方法提出了基于直线探测的表格矫正算法，解决了倾斜表格不能正常识别的问题

3)、针对含有合并单元格的表格图像不能准确分割问题，本发明方法提出了基于模板文件匹配的合并单元格分割算法，确保含有合并单元格表格的数字化复现。

附图说明

图1为本发明方法实现框图；

图2为本发明表格检测过程输出结果图；

图3为本发明模板构建流程图；

图4为本发明模板制作软件界面图；

图5为本发明模板、待匹配表格及感兴趣区域分割样本图像；

图6为本发明BP神经网络结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附和实施例对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参见图1，本发明方法的基本思路是首先通过基于直线检测的矫正算法进行倾斜表格的矫正，经过基于轮廓检测的表格区域检测算法，得到感兴趣表格区域；然后对分割的感兴趣表格区域使用基于模板文件匹配的单元格分割算法，对感兴趣cell单元格进行分割提取处理；最后使用训练好的BP神经网络模型进行字符识别、表格数字化的复现及数据库存储。

具体包括如下步骤：

第1步、图像预处理

将多分辨率的图像数据进行压缩灰度化，并进行OTSU二值化处理后的图像进行形态学进行处理，得到仅含有水平横线的二值化图像，再次使用Hough进行直线提取，通过霍夫变换计算旋转角度，计算二维旋转仿射变换矩阵，基于原尺寸逆时针旋转图像角度，最终得到矫正后的图像。

图像形态学操作时候，可以通过自定义的结构元素实现结构元素对输入图像一些对象敏感，另外一些对象不敏感，这样就会让敏感的对象改变。而不敏感的对象输出，通过使用最基本的两个形态学操作-膨胀和腐蚀，使用不同的结构元素实现对输入图像的操作、得到想要的结果，主要步骤如下所示：

(1)输入图像彩色图像；

(2)转换为灰度图像；

(3)转换为二值图像；

(4)定义结构元素；

(5)开操作(腐蚀+膨胀)提取水平于垂直线；

第2步、直线探测的表格矫正

基于直线探测的表格矫正算法的主要步骤如下：

(1)Hough进行直线提取；

(2)霍夫变换计算旋转角度；

(3)计算二维旋转仿射变换矩阵；

(4)基于原尺寸逆时针旋转图像角度。

第3步、表格区域检测阶段

对矫正后的图像进行灰度化、腐蚀、OTSU二值化处理，通过形态学算法进行横向线段与纵向线段的检测及交叉点的检测，使用轮廓检测进行表格矩形区域的检测，进而得到表格区域。

该部分形态学操作去掉横向线段的提取，直接采用基于直线探测的矫正部分提取后的横向线段，加以纵向线段的检测，如图2图(a)(d)所示为输出图像，进而得到横线与纵向的交叉点，如图2图(b)(e)所示为表格交叉点的检测输出图像。

根据检测到的表格交叉点，通过使用外轮廓提取，得到感兴趣表格区域，如图2图(c)(f)所示，白色框选出来的就是感兴趣表格区域。

基本步骤如下：

其中mask图对应图2中的(a)和(d)，findContours、approxPolyDP、boundingRect均为Opencv库函数，分别实现轮廓查找、闭合区域逼近以及矩形区域转化。

(1)在横纵向线段mask图上通过findContours找到轮廓，判断轮廓形状和大小是否为表格；

(2)使用approxPolyDP函数用来逼近区域成为一个形状，结果为true值表示产生的区域为闭合区域；

(3)boundingRect为将这片区域转化为矩形，此矩形包含输入的形状。

第4步、模板匹配的表格分割阶段

该部分首先应该根据模板建立规则进行建立模板文件，进而加载解析模板文件，对表格的标题进行识别并与模板文件中的表格标题进行对比，进而确定预加载的图像模板，使用基于最大相似性的图像模板匹配算法进行模板匹配，结合模板文件进行感兴趣区域的分割处理；

(1)根据如图3所示的模板构建流程图，进行模板文件的构建。

(2)基于模板构建流程图开发基于QT的模板制作软件，如图4所示为模板制作软件的界面图。

(3)通过建立模板规则，在模板制作软件的辅助下输出模板文件，模板建立规则表如下表1所示：

表1模板建立规则表

单元格合并规则：当前合并单元格从row行开始横向合并row_span列，当前合并单元格从col列开始纵向合并col_span行；

感兴趣cell区域提取规则：左上角的xy坐标、右下角的xy坐标、感兴趣行列标识；

单元格赋值规则：当前单元格内容为空时赋值为null即(row,col:null)，对于包含合并单元格的表格其对应的拆分单元格内容一致，数字化复现时再对其进行合并处理；

如下所示为一个完整的模板输出文件：

{

table_title:状态参数；

table_image:template_0.jpg；

table_rows:14；

table_cols:5；

merge_count:2；

merge_rule:(row:1,col:0,row_span:0,col_span:5)；(row:6,col:0,row_span:0,col_span:8)；

cut_count:2；

cut_pixel:(x:662,y:55,x:805,y:93,row:1,col:4)；(x:662,y:93,x:805,y:133,row:2,col:4)；

cell_content:(0,0:null)；(0,1:测试项目)；(0,2:指标)；(0,3:实测值)；(0,4:判断)；

}；

(4)根据标题的识别结果与模板文件解析的table_title标识符进行对比，进而确定table_image的标识内容。根据解析模板文件的cut_pixel对应内容，实现感兴趣cell区域的提取；

将模板图像和待匹配表格图像进行基于最大相似度的模板匹配，如图5所示为模板图像与待匹配的表格图像，右边的cell单元格图像为根据模板文件及模板匹配得到的感兴趣区域分割样本图像。

第5步、BP神经网络字符识别

由于模板文件的存在，需要字符识别的部分数据量不大，因此选用一种轻量级多层前馈神经网络，采用误差反向传播算法的BP(Back Propagation)神经网络。用于解决感兴趣区域字符以及table_title表格标识的识别问题。输入为前级处理后的感兴趣cell图像，经网络模型进行文字识别并将识别结果存入数据库。

基于BP算法的前馈网络由输入层、隐层、输出层三个部分组成。神经网络是基于输入-输出的一种直觉性反射，也叫形象思维、经验思维，适于发挥经验知识的作用，进行浅层次的经验推理。如图6所示为BP神经网络结构图。

本发明方法基于模板文件的图像匹配、配合BP神经网络模型，解决了以往传统方法对合并单元格表格不能分割识别及倾斜表格不能正常处理问题。首先采用本发明提出的基于直线检测的表格矫正算法，矫正倾斜表格；然后，使用基于轮廓检测的表格区域检测算法，分割感兴趣表格区域；其次，对确定表格区域采用本发明提出的基于模板匹配的合并单元格表格分割算法进行模板匹配等操作，同时对感兴趣单元格区域进行分割处理，得到每一个cell单元格图像；最后，对每一个cell单元格图像进行BP神经网络识别，结合模板文件以及BP识别结果进行表格数字化复现等操作。

本方法提出的模板匹配的合并单元格表格分割方法，将合并单元格的识别问题转化为基于模板文件的图像匹配感兴趣区域提取识别问题，将复杂问题分解为多个简单问题，极大的简化了包含合并单元格表格不能准确分割识别问题，为大量库存的纸质版特殊文本表格数字化提供了理论依据，具有一定的实际可行性，为多种复杂表格的数字化提供了可行方案，具备一定的可拓展性。

以上应用了具体个例对本发明进行阐述，只是用于帮助理解本发明，并不用以限制本发明。任何熟悉该技术的人在本发明所揭露的技术范围内的局部修改或替换，都应涵盖在本发明的包含范围之内。

Claims

1.一种基于模板匹配的合并单元格表格分割识别方法，其特征在于，首先通过基于直线检测的矫正算法进行倾斜表格的矫正，经过基于轮廓检测的表格区域检测算法，得到感兴趣表格区域；然后对分割的感兴趣表格区域使用基于模板文件匹配的单元格分割算法，对感兴趣cell单元格进行分割提取处理；最后使用训练好的BP神经网络模型进行字符识别、表格数字化的复现及数据库存储；具体包括如下步骤：

步骤1、图像预处理阶段：将多分辨率的图像数据进行压缩灰度化处理，使用OTSU进行二值化图像处理

将多分辨率的图像数据进行压缩灰度化，并进行OTSU二值化处理后的图像进行形态学进行处理，得到仅含有水平横线的二值化图像，再次使用Hough进行直线提取，通过霍夫变换计算旋转角度，计算二维旋转仿射变换矩阵，基于原尺寸逆时针旋转图像角度，最终得到矫正后的图像；

图像形态学操作时，通过自定义的结构元素实现结构元素对输入图像一些对象敏感，另外一些对象不敏感，这样就会让敏感的对象改变；而不敏感的对象输出，通过使用最基本的两个形态学操作-膨胀和腐蚀，使用不同的结构元素实现对输入图像的操作、得到想要的结果，步骤包括如下：

(1)输入图像彩色图像；

(2)转换为灰度图像；

(3)转换为二值图像；

(4)定义结构元素；

(5)开操作，包括腐蚀和膨胀提取水平于垂直线；

步骤包括如下：

findContours、approxPolyDP、boundingRect均为Opencv库函数，分别实现轮廓查找、闭合区域逼近以及矩形区域转化；

(3)boundingRect为将这片区域转化为矩形，此矩形包含输入的形状；

步骤4、模板匹配的表格分割阶段：首先根据模板建立规则进行建立模板文件，进而加载解析模板文件，对表格的标题进行识别并与模板文件中的表格标题进行对比，进而确定预加载的图像模板，使用基于最大相似性的图像模板匹配算法进行模板匹配，结合模板文件进行感兴趣区域的分割处理

(1)根据模板构建流程图，进行模板文件的构建；

(2)基于模板构建流程图开发基于QT的模板制作软件；

(3)通过建立模板规则，在模板制作软件的辅助下输出模板文件；

(4)根据标题的识别结果与模板文件解析的table_title标识符进行对比，进而确定table_image的标识内容，根据解析模板文件的cut_pixel对应内容，实现感兴趣cell区域的提取；

将模板图像和待匹配表格图像进行基于最大相似度的模板匹配，根据模板文件及模板匹配得到的感兴趣区域分割样本图像；

步骤5、字符识别阶段：通过预先训练的BP神经网络进行分割区域的识别采用误差反向传播算法的BP(Back Propagation)神经网络，输入为前级处理后的感兴趣cell图像，经网络模型进行文字识别并将识别结果存入数据库步骤5具体包括如下步骤：

步骤501、提取训练字符模板；

步骤502、进行BP神经网络的训练；

步骤503、进行分割区域的BP神经网络识别；

步骤504、进行表格数字化的复现及数据库存储。