CN113221778A

CN113221778A - 手写表格的检测与识别方法及装置

Info

Publication number: CN113221778A
Application number: CN202110546506.2A
Authority: CN
Inventors: 金一舟; 叶志翔; 刘庆杰; 王蕴红
Original assignee: Hangzhou Innovation Research Institute of Beihang University
Current assignee: Hangzhou Innovation Research Institute of Beihang University
Priority date: 2021-05-19
Filing date: 2021-05-19
Publication date: 2021-08-06
Anticipated expiration: 2041-05-19
Also published as: CN113221778B

Abstract

本申请涉及一种手写表格的检测与识别方法及装置，手写表格的检测与识别方法包括获取表格图像，在表格图像中获取白色连通域信息，根据白色连通域信息确定多个白色连通域的外接矩形框，统计各个外接矩形框的面积大小及数量，根据各个外接矩形框的面积大小及数量筛选出单元格内容的连通域，根据单元格内容的连通域检测识别表格结构。本申请对获取的表格图像质量要求低，简单易操作，并且通过各个外接矩形框的面积大小及数量筛选出单元格内容的连通域，在文字与表格框出现粘连时仍能有效识别且识别准确性高。

Description

手写表格的检测与识别方法及装置

技术领域

本申请属于人工智能技术领域，具体涉及一种手写表格的检测与识别方法及装置。

背景技术

随着计算机技术、网络技术和大容量存储技术的不断发展，人们通常需要利用计算机完成纸质信息向数字化信息的转换与识别。纸质文档向电子文档的转换过程主要包括：利用移动终端或扫描仪等设备完成文档图像的采集，并将文档的文字信息识别出来后存储到计算机中的过程。而在传统的转换识别技术中，人们通常运用光学原理的方式来完成从目标图像到文字信息转换的处理过程，例如OCR(Optical Character Recognition，光学字符识别)技术，可以从图片中自动提取文本信息，但是对于表格文件中的表格结构却不能够复原，需要用户手动还原成表格形式。相关技术采用传统图像处理的方式提取表格，如采用投影法检测手写表格，投影法主要使用水平投影和竖直投影的信息来寻找表格的直线的位置，该方法容易受到图像表格的变形和字符粘连表格线的影响，识别准确性较低，对手写图像要求质量高，不利于操作。

发明内容

为至少在一定程度上克服相关技术采用传统图像处理的方式提取表格，如采用投影法检测手写表格，容易受到图像表格的变形和字符粘连表格线的影响，识别准确性较低，对手写图像要求质量高，不利于操作的问题，本申请提供一种手写表格的检测与识别方法及装置。

第一方面，本申请提供一种手写表格的检测与识别方法，包括：

获取表格图像；

在表格图像中获取白色连通域信息；

根据白色连通域信息确定多个白色连通域的外接矩形框；

统计各个外接矩形框的面积大小及数量，根据所述各个外接矩形框的面积大小及数量筛选出单元格内容的连通域；

根据单元格内容的连通域检测识别表格结构。

进一步的，所述获取表格图像包括：

获取手写表格所在的混合文档图像；

对所述混合文档图像进行图像预处理得到表格图像；所述图像预处理包括倾斜矫正、去阴影和降噪。

进一步的，所述根据单元格内容的连通域检测识别表格结构包括：

根据单元格内容的连通域确定每个单元格内容的连通域的最小外接矩形框；

获取单元格内容的连通域的最小外接矩形框的尺寸和位置；

根据每个单元格内容的连通域的最小外接矩形框尺寸和位置按照预设顺序对单元格进行排序以检测识别表格结构。

进一步的，所述获取单元格内容的连通域的最小外接矩形框的尺寸和位置，包括：

获取每个单元格内容的连通域的最小外接矩形框的左上角顶点的坐标及最小外接矩形框的长和宽；

根据单元格内容的连通域的最小外接矩形框的左上角顶点的坐标确定每个单元格内容的连通域的最小外接矩形框的位置；

根据单元格内容的连通域的最小外接矩形框的长和宽确定单元格内容的连通域的最小外接矩形框的尺寸。

进一步的，还包括：

根据单元格内容的连通域的最小外接矩形框的尺寸和位置补全表格图像中所有单元格边框。

进一步的，还包括：

根据单元格内容的连通域的最小外接矩形框获取单元格内文本内容；

根据文本内容利用连通域分析法获取每个单元格对应的文本块。

进一步的，所述根据单元格内容的连通域的最小外接矩形框获取单元格内文本内容，包括：

获取单元格内容的连通域的最小外接矩形框的中心点；

以所述中心点为对称中心点对单元格内容的连通域的最小外接矩形框中白色点进行对称操作以去除文字部分与表格线的粘连；

再次对表格图像进行连通域分析，保留最大的黑色连通域以获取整个表格线；

将单元格内容的连通域减去整个表格线以获取每个单元格内文本内容区域；

对每个单元格内文本内容区域使用连通域分析法获取每个单元格对应的文本块。

进一步的，还包括：

设置缩减比例；

以所述中心点为对称中心点对单元格内容的连通域的最小外接矩形框中白色点进行对称处理，包括：

对单元格内容的连通域的最小外接矩形框中白色点按照缩减比例进行缩减后，以所述中心点为对称中心点进行对称操作，去除文字部分与表格线的粘连。

第二方面，本申请提供一种写表格的检测与识别装置，包括：

第一获取模块，用于获取表格图像；

第二获取模块，用于在表格图像中获取白色连通域信息；

确定模块，用于根据白色连通域信息确定多个白色连通域的外接矩形框；

筛选模块，用于统计各个外接矩形框的面积大小及数量，根据所述各个外接矩形框的面积大小及数量筛选出单元格内容的连通域；

识别模块，用于根据单元格内容的连通域检测识别表格结构。

本申请的实施例提供的技术方案可以包括以下有益效果：

本发明实施例提供的手写表格的检测与识别方法及装置，通过获取表格图像，在表格图像中获取白色连通域信息，根据白色连通域信息确定多个白色连通域的外接矩形框，统计各个外接矩形框的面积大小及数量，根据各个外接矩形框的面积大小及数量筛选出单元格内容的连通域，根据单元格内容的连通域检测识别表格结构，对获取的表格图像质量要求低，简单易操作，并且通过各个外接矩形框的面积大小及数量筛选出单元格内容的连通域，在文字与表格框出现粘连时仍能有效识别且识别准确性高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请一个实施例提供的一种手写表格的检测与识别方法的流程图。

图2为本申请另一个实施例提供的一种手写表格的检测与识别方法的流程图。

图3为本申请一个实施例提供的一种原始混合文档图。

图4为本申请一个实施例提供的一种经过预处理后的表格图。

图5为本申请一个实施例提供的一种手写表格的检测与识别方法的中间结果图。

图6为本申请一个实施例提供的另一种手写表格的检测与识别方法的中间结果图。

图7为本申请一个实施例提供的；另一种手写表格的检测与识别方法的中间结果图。

图8为本申请一个实施例提供的一种手写表格的检测与识别方法的最终结果图。

图9为本申请一个实施例提供的另一种手写表格的检测与识别方法的中间结果图。

图10为本申请一个实施例提供的另一种手写表格的检测与识别方法的中间结果图。

图11为本申请一个实施例提供的另一种手写表格的检测与识别方法的最终结果图。

图12-1为本申请一个实施例提供的一种文本块获取中间结果图。

图12-2为本申请一个实施例提供的另一种文本块获取中间结果图。

图12-3为本申请一个实施例提供的一种文本块获取最终结果图。

图13为本申请一个实施例提供的一种写表格的检测与识别装置的功能结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将对本申请的技术方案进行详细的描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本申请所保护的范围。

图1为本申请一个实施例提供的手写表格的检测与识别方法的流程图，如图1所示，该手写表格的检测与识别方法，包括：

S11：获取表格图像；

S12：在表格图像中获取白色连通域信息；

S13：根据白色连通域信息确定多个白色连通域的外接矩形框；

S14：统计各个外接矩形框的面积大小及数量，根据所述各个外接矩形框的面积大小及数量筛选出单元格内容的连通域；

S15：根据单元格内容的连通域检测识别表格结构。

传统手写表格识别方法是采用图像处理的方式提取表格，如采用投影法检测手写表格，投影法主要使用水平投影和竖直投影的信息来寻找表格的直线的位置，该方法容易受到图像表格的变形和字符粘连表格线的影响，识别准确性较低，对手写图像要求质量高，不利于操作。

本实施例中，通过获取表格图像，在表格图像中获取白色连通域信息，根据白色连通域信息确定多个白色连通域的外接矩形框，统计各个外接矩形框的面积大小及数量，根据各个外接矩形框的面积大小及数量筛选出单元格内容的连通域，根据单元格内容的连通域检测识别表格结构，对获取的表格图像质量要求低，简单易操作，并且通过各个外接矩形框的面积大小及数量筛选出单元格内容的连通域，在文字与表格框出现粘连时仍能有效识别且识别准确性高。

图2为本申请另一个实施例提供的一种手写表格的检测与识别方法的流程图，如图2所示，该手写表格的检测与识别方法，包括：

S201：获取手写表格所在的混合文档图像；

一些实施例中，可以通过移动终端的摄像机获取手写表格所在的混合文档图像。混合文档可以为学生笔记。

S202：对混合文档图像进行图像预处理得到表格图像，图像预处理包括倾斜矫正、去阴影和降噪；

通过图像预处理可以降低图像质量要求，在混合文档图像中表格出现变形时可以修正表格，降低拍照成本，方便使用。

S203：在表格图像中获取白色连通域信息；

S204：根据白色连通域信息确定多个白色连通域的外接矩形框；

S205：统计各个外接矩形框的面积大小及数量，根据各个外接矩形框的面积大小及数量筛选出单元格内容的连通域；

例如将面积较小数量最多的外接矩形框作为单元格内容的连通域。

识别简单，抗干扰能力强，不需复杂算法进行计算或重新投影，根据各个外接矩形框的面积大小及数量筛选出单元格内容的连通域，可以克服传统图像提取方法存在的字符粘连表格线时无法识别的缺点。

S206：根据单元格内容的连通域确定每个单元格内容的连通域的最小外接矩形框；

S207：获取单元格内容的连通域的最小外接矩形框的尺寸和位置；

S208：根据每个单元格内容的连通域的最小外接矩形框尺寸和位置按照预设顺序对单元格进行排序以检测识别表格结构。

一些实施例中，获取单元格内容的连通域的最小外接矩形框的尺寸和位置，包括：

进一步的，还包括：

S209：根据单元格内容的连通域的最小外接矩形框获取单元格内文本内容；

S210：根据文本内容利用连通域分析法获取每个单元格对应的文本块。

一些实施例中，根据单元格内容的连通域的最小外接矩形框获取单元格内文本内容，包括：

S2091：获取单元格内容的连通域的最小外接矩形框的中心点；

S2092：以中心点为对称中心点对单元格内容的连通域的最小外接矩形框中白色点进行对称操作以去除文字部分与表格线的粘连；

处理后的表格图像如图9所示；

S2093：再次对表格图像进行连通域分析，保留最大的黑色连通域以获取整个表格线；

处理后的表格图像如图10所示；

S2094：将单元格内容的连通域减去整个表格线以获取每个单元格内文本内容区域；

处理后的表格图像如图11所示；

S2095：对每个单元格内文本内容区域使用连通域分析法获取每个单元格对应的文本块。

需要说明的是，文本块可以直接输入一些神经网络模型识别模型的，通过神经网络识别模型提取文字内容，具体提取过程为现有技术，本申请不再赘述。

一些实施例中，还包括：

设置缩减比例；

以中心点为对称中心点对单元格内容的连通域的最小外接矩形框中白色点进行对称处理，包括：

举例说明手写表格的检测与识别方法的具体步骤如下：

步骤1：获取拍摄的纸质表格图像，如图3所示，

步骤2：图像预处理，包括但不限于以下步骤：

基于霍夫变换检测直线对图片进行倾斜校正

基于局部自适应阈值的图像二值化，进行去阴影处理

基于高斯模糊方法进行降噪处理

预处理后的图片如图4所示。

步骤3：根据表格图中无文字的白色部分获取白色连通域信息，找出每个白色连通域的外接矩形框，如图5所示；

步骤4：通过统计各个外接矩形框的面积大小及数量，如图6所示，(连通域统计图中横坐标为连通域面积，纵坐标为该面积的连通域个数)筛选出单元格内容的连通域；

步骤5：根据单元格内容的连通域确定单元格内容的连通域的最小外接矩形框，如图7所示；

步骤6：获取单元格内容的连通域的最小外接矩形框的尺寸和位置；补全整个表格，并通过位置信息，将每个单元格按顺序排序得到版面分析结果，如图8所示；

步骤7：根据单元格内容的连通域的最小外接矩形框获取单元格内文本内容；

步骤8：根据文本内容利用连通域分析法获取每个单元格对应的文本块

例如，直接获取的连通域最小外接矩形框(图12-1)有较大的空白区域及一定的表格线残留，对后续的文字识别造成较大的影响，且手写文字较为随意，经常会与表格线有所粘结，影响后续连通域的判断，我们设定白色点的保留阈值，对连通域外接矩形框进行一定的裁剪得到(图12-2)，排除表格线的影响，然后，对裁剪后矩形框内的文本进行膨胀，在每一个矩形框内，获取一个包含所有文本的最小外接文本矩形框(图12-3)。先对单元格进行适当的剪裁，裁除表格线后，可以排除残留表格线对文本连通域的干扰之后对其表格内的文本进行膨胀，让文本形成一个连通域，找出文本连通域的外接矩形，确定文本块可以排除白色背景的干扰，以便于其他文字提取模型快速提取文本中文字内容。

需要说明的是，本申请不仅适用于手写笔记的表格检测及内容提取，亦适用于纯电子表格，且电子表格内文字更加规范、公正，不会产生表格线与文字的粘连，无需进行额外的裁剪，可直接通过膨胀获取文字的连通域，识别效果会好于手写表格的识别结果。

本实施例中，通过连通域分析技术提取表格框线及表格内容适用场景更广，无需进行数据搜集、标注等前期准备工作，成本大幅降低；对图像进行预处理，兼顾了各种条件下的影响因素(倾斜、阴影等)，具有更好的鲁棒性。

本发明实施例提供一种写表格的检测与识别装置，如图13所示的功能结构图，该写表格的检测与识别装置包括：

第一获取模块131，用于获取表格图像；

第二获取模块132，用于在表格图像中获取白色连通域信息；

确定模块133，用于根据白色连通域信息确定多个白色连通域的外接矩形框；

筛选模块134，用于统计各个外接矩形框的面积大小及数量，根据各个外接矩形框的面积大小及数量筛选出单元格内容的连通域；

识别模块135，用于根据单元格内容的连通域检测识别表格结构。

一些实施例中，识别模块135，还用于识别单元格中的文本块。

本实施例中，通过第一获取模块获取表格图像，第二获取模块在表格图像中获取白色连通域信息，确定模块根据白色连通域信息确定多个白色连通域的外接矩形框，筛选模块统计各个外接矩形框的面积大小及数量，根据各个外接矩形框的面积大小及数量筛选出单元格内容的连通域，识别模块根据单元格内容的连通域检测识别表格结构，对获取的表格图像质量要求低，简单易操作，并且通过各个外接矩形框的面积大小及数量筛选出单元格内容的连通域，在文字与表格框出现粘连时仍能有效识别且识别准确性高。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能组件的形式实现。所述集成的模块如果以软件功能组件的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

需要说明的是，本发明不局限于上述最佳实施方式，本领域技术人员在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是具有与本申请相同或相近似的技术方案，均落在本发明的保护范围之内。

Claims

1.一种手写表格的检测与识别方法，其特征在于，包括：

获取表格图像；

在表格图像中获取白色连通域信息；

根据白色连通域信息确定多个白色连通域的外接矩形框；

根据单元格内容的连通域检测识别表格结构。

2.根据权利要求1所述的手写表格的检测与识别方法，其特征在于，所述获取表格图像包括：

获取手写表格所在的混合文档图像；

3.根据权利要求1所述的手写表格的检测与识别方法，其特征在于，所述根据单元格内容的连通域检测识别表格结构包括：

获取单元格内容的连通域的最小外接矩形框的尺寸和位置；

4.根据权利要求3所述的手写表格的检测与识别方法，其特征在于，所述获取单元格内容的连通域的最小外接矩形框的尺寸和位置，包括：

5.根据权利要求3或4所述的手写表格的检测与识别方法，其特征在于，还包括：

6.根据权利要求3所述的手写表格的检测与识别方法，其特征在于，还包括：

7.根据权利要求6所述的手写表格的检测与识别方法，其特征在于，所述根据单元格内容的连通域的最小外接矩形框获取单元格内文本内容，包括：

获取单元格内容的连通域的最小外接矩形框的中心点；

8.根据权利要求7所述的手写表格的检测与识别方法，其特征在于，还包括：

设置缩减比例；

9.一种写表格的检测与识别装置，其特征在于，包括：

第一获取模块，用于获取表格图像；

第二获取模块，用于在表格图像中获取白色连通域信息；