CN112036259A

CN112036259A - 一种基于图像处理与深度学习相结合的表格矫正与识别的方法

Info

Publication number: CN112036259A
Application number: CN202010792739.6A
Authority: CN
Inventors: 罗宝娟; 李进文; 严京旗; 卞志强; 张成栋
Original assignee: Jingpu Shanghai Artificial Intelligence Technology Co Ltd
Current assignee: Jingpu Shanghai Artificial Intelligence Technology Co Ltd
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-12-04

Abstract

本发明涉及图像处理和图像识别技术领域，尤其为一种基于图像处理与深度学习相结合的表格矫正与识别的方法，包括如下步骤：步骤110，获取表格原始图像数据；步骤120，图像预处理；步骤130，定位文字区域；步骤140，重构表格信息；本发明通过设计改进现有的表格识别方法，对表格图像进行识别时进行文字方向判断，倾斜度校正及透视畸变的处理提高表格识别的准确率，解决了目前识别图像中表格的方法是使用设备获取表格图像后，通过分析整页数字图像的光学特征来检测表格行列框线位置以检测表格的版式结构，一般仅适用于输入图像质量比较好、表格位置和版式比较固定、表格框线比较显著的情况，对于图像存在文字方向翻转颠倒，倾斜、透视畸变等问题。

Description

一种基于图像处理与深度学习相结合的表格矫正与识别的方法

技术领域

本发明涉及图像处理和图像识别技术领域，具体为一种基于图像处理与深度学习相结合的表格矫正与识别的方法。

背景技术

表格是一种信息高度精炼集中表达的手段，具有可视化方便交流的特性，表格被广泛用于各种数据的采集，随着无纸化办公的推进，将纸质化的表格转为电子档的表格是信息化的必然趋势，目前识别图像中表格的方法是使用设备获取表格图像后，通过分析整页数字图像的光学特征来检测表格行列框线位置以检测表格的版式结构，一般仅适用于输入图像质量比较好、表格位置和版式比较固定、表格框线比较显著的情况，对于图像存在文字方向翻转颠倒，倾斜、透视畸变等问题，此种检测准确率则较低。

综上所述，本发明通过设计一种基于图像处理与深度学习相结合的表格矫正与识别的方法来解决存在的问题。

发明内容

本发明的目的在于提供一种基于图像处理与深度学习相结合的表格矫正与识别的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于图像处理与深度学习相结合的表格矫正与识别的方法，包括如下步骤：

步骤110，获取表格原始图像数据；

步骤120，图像预处理；

步骤130，定位文字区域；

步骤140，重构表格信息；

步骤150，文字块与表格关联，文字识别；

步骤160结束。

进一步的，所述步骤110获取原始图像数据的方法，包括如下三种之一：

方法之一是用数码相机拍摄得到的图像数据；

方法之二是用手机拍摄得到的图像数据；

方法之三是用扫描仪得到的图像数据。

进一步的，所述步骤120具体包括如下步骤：

步骤210，文字方向检测：利用轻量级卷积神经网络MobileNet训练出检测文字4个方向(0度，90度，180度，270度)的模型，原始图像经过文字方向检测模型，得到文字的正确方向，将原始图像进行旋转；

步骤220，倾斜图像矫正：通过canny边缘检测算子来检测边界，在二值图中寻找直线，过滤掉一些角度过于大的直线和非法角度得到图像旋转的角度，利用该角度对图像进行仿射变换得到旋转后的图像；

步骤230，透视畸变图像矫正：表格一般会有4个角点和线段相交的交点，利用YOLOV3神经网络训练检测表格角点和交点的模型，经过角点和交点的模型检测，若能找到表格的4个角点，则用得到的4个角点构成透视矩阵对图像进行透视变换处理，若未找到4个角点，则找出4条直线相交的4个交点构成透视矩阵变换图像。

进一步的，所述步骤130具体包括如下步骤：

步骤310，利用YOLOV3检测出所有文字区域的候选框；

步骤320，算出候选框的高度的众值，取该值为文字的高度；

步骤320，将候选框的水平间隔距离(两候选框水平之间的距离)和垂直相交率(两候选框垂直方向相交区域的高度与候选框的高度的比)在一定范围内的候选框连接为一个文字块，水平间隔距离取值一般设为文字的高度，垂直相交率一般设为0.5。

进一步的，所述步骤140具体包括如下步骤：

步骤410，使用LSD直线方法检测出图像中所有的竖直和垂直方向的直线；

步骤420，使用形态学操作检测出图像中所有的竖直和垂直方向的直线；

步骤430，过滤掉小于文字高度的直线；

步骤440，根据直线和节点信息，重构出表格信息：表格的列数和行数，每个单元格所在的行号和列号。

进一步的，所述步骤150将文字和表格相关联，使用卷积神经网络对每个表格区域的各行文本行进行识别，具体包括如下步骤：

步骤510，根据文字块将文字与表格进行关联，从而得知第某行第某列的单元格中有几行字；

步骤520，ResNet深度学习模型识别出各个文字区域的文字内容；

步骤530，输出带有表格信息的识别结果。

与现有技术相比，本发明的有益效果是：

1、本发明中，通过设计改进现有的表格识别方法，对表格图像进行识别时进行文字方向判断，倾斜度校正及透视畸变的处理提高表格识别的准确率，解决了目前识别图像中表格的方法是使用设备获取表格图像后，通过分析整页数字图像的光学特征来检测表格行列框线位置以检测表格的版式结构，一般仅适用于输入图像质量比较好、表格位置和版式比较固定、表格框线比较显著的情况，对于图像存在文字方向翻转颠倒，倾斜、透视畸变等问题。

附图说明

图1是本发明表格矫正与识别的方法流程图；

图2是图像预处理流程图；

图3是定位文字区域流程图；

图4是重构表格信息流程图；

图5是文字区域与表格相关联，文字识别流程图。

图6是扫描仪所扫描得到的原始表格图像；

图7是图6文字块与表格关联的示意图，每个单元格标识了行号和列号；

图8是图6最终输出到excel的截图；

图9是手机拍摄得到的原始表格图像；

图10是图9文字块与表格关联的示意图，每个单元格标识了行号和列号；

图11是图9最终输出到excel的截图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例,基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-11，本发明提供一种技术方案：

步骤110，获取表格原始图像数据；

步骤120，图像预处理；

步骤130，定位文字区域；

步骤140，重构表格信息；

步骤150，文字块与表格关联，文字识别；

步骤160结束。

具体实施案例：

实施例1：

请参阅图1，本发明揭示了一种基于图像处理与深度学习相结合的表格矫正与识别的方法，所述方法包括如下步骤：

【步骤110】获取表格原始图像数据。

获取原始表格图像，用扫描仪所得，如图6所示。

【步骤120】表格图像的预处理。

请参阅图2，步骤120具体包含如下步骤：

步骤210，判断文字方向。利用轻量级卷积神经网络MobileNet训练出检测文字4个方向(0度，90度，180度，270度)的模型，原始图像经过文字方向检测模型，得到文字的正确方向，将原始图像进行旋转；

步骤220，旋转倾斜图像。通过canny边缘检测算子来检测边界，在二值图中寻找直线，过滤掉一些角度过于大的直线和非法角度得到图像旋转的角度，利用该角度对图像进行仿射变换得到旋转后的图像；

步骤230，透视变换透视畸变图像。表格一般会有4个角点和线段相交的交点，利用YOLOV3神经网络训练检测表格角点和交点的模型，经过角点和交点的模型检测，若能找到表格的4个角点，则用得到的4个角点构成透视矩阵对图像进行透视变换处理，若未找到4个角点，则找出4条直线相交的4个交点构成透视矩阵变换图像。

【步骤130】定位文字区域；

请参阅图3，步骤130具体包含如下步骤：

步骤310，利用YOLOV3检测出所有文字区域的候选框；

步骤320，算出候选框的高度的众值，取该值为文字的高度；

步骤330，将候选框的水平间隔距离(两候选框水平之间的距离)和垂直相交率(两候选框垂直方向相交区域的高度与候选框的高度的比)在一定范围内的候选框连接为一个文字块，水平间隔距离取值一般设为文字的高度，垂直相交率一般设为0.5；

【步骤140】重构表格信息；

请参阅图4，步骤140具体包含如下步骤：

步骤430，过滤掉小于文字高度的直线；

【步骤150】文字块与表格关联，文字识别。

请参阅图5，步骤150具体包含如下步骤：

步骤510，根据文字的位置信息将文字与表格进行匹配，从而得知第某行第某列的单元格中有几行字，如图7所示；

步骤530，输出带有表格信息的识别结果，如图8所示，显示的为excel文件中保存的内容。

实施例2：

在智能手机上，手机自带72万像素的摄像头，使用本发明的方法，对拍摄得到的表格图像，能够进行矫正和识别。图9是手机拍摄的表格图像，图10是文字块与表格关联的示意图，图11是最终保存到excel文件中的截图。

实施例3：

在数码相机上，使用本发明的方法，对拍摄得到的表格图像也能够进行表格图像矫正和识别。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于图像处理与深度学习相结合的表格矫正与识别的方法，包括如下步骤：

步骤110，获取表格原始图像数据；

步骤120，图像预处理；

步骤130，定位文字区域；

步骤140，重构表格信息；

步骤150，文字块与表格关联，文字识别；

步骤160结束。

2.根据权利要求1所述的一种基于图像处理与深度学习相结合的表格矫正与识别的方法，其特征在于：所述步骤110获取原始图像数据的方法，包括如下三种之一：

方法之一是用数码相机拍摄得到的图像数据；

方法之二是用手机拍摄得到的图像数据；

方法之三是用扫描仪得到的图像数据。

3.根据权利要求1所述的一种基于图像处理与深度学习相结合的表格矫正与识别的方法，其特征在于：所述步骤120具体包括如下步骤：

4.根据权利要求1所述的一种基于图像处理与深度学习相结合的表格矫正与识别的方法，其特征在于：所述步骤130具体包括如下步骤：

步骤310，利用YOLOV3检测出所有文字区域的候选框；

步骤320，算出候选框的高度的众值，取该值为文字的高度；

5.根据权利要求1所述的一种基于图像处理与深度学习相结合的表格矫正与识别的方法，其特征在于：所述步骤140具体包括如下步骤：

步骤430，过滤掉小于文字高度的直线；

6.根据权利要求1所述的一种基于图像处理与深度学习相结合的表格矫正与识别的方法，其特征在于：所述步骤150将文字和表格相关联，使用卷积神经网络对每个表格区域的各行文本行进行识别，具体包括如下步骤：

步骤530，输出带有表格信息的识别结果。