CN114724154A

CN114724154A - 表格识别方法及装置、存储介质及电子设备

Info

Publication number: CN114724154A
Application number: CN202210404542.XA
Authority: CN
Inventors: 胡金水; 李立夫; 刘驰; 凌震华
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-04-18
Filing date: 2022-04-18
Publication date: 2022-07-08
Anticipated expiration: 2042-04-18
Also published as: CN114724154B

Abstract

本发明提供了一种表格识别方法及装置、存储介质及电子设备，该方法包括：对待识别的表格图像进行表格元素检测，获得单元格图像和线条图像；对单元格图像进行处理，以获得表格区域；在线条图像中，确定表格区域对应的表格线条图像，并经细化处理获得细化表格图像；确定表格区域对应的交叉点集合，基于单元格图像确定表格区域对应的各个目标单元格区域；依据交叉点集合和各个目标单元格区域，确定各个单元格顶点；依据各个单元格顶点，生成各个单元格线段；依据各个单元格线段，确定结构化表格。应用本发明的方法，可结合单元格和线条交叉点进行映射，提高单元格顶点的识别准确率，继而得到准确的单元格线段，可提高表格识别的准确性。

Description

表格识别方法及装置、存储介质及电子设备

技术领域

本发明涉及光学字符识别技术领域，特别是涉及一种表格识别方法及装置、存储介质及电子设备。

背景技术

随着计算机技术的发展，文字识别技术已广泛应用于各个领域的各类数据信息的识别过程。其中，对图像中的表格进行结构化识别是常见的识别内容之一。

现有的表格识别方法，通常是基于传统的计算机视觉算法或是深度神经网络模型将图像中的线条提取出来，进而以提取出来的线条绘制表格，实现对图像中表格的识别。

在实际的应用场景中，待识别的表格图像的质量并不稳定，可能会出现表格部分被遮挡，表格未拍全，纸张褶皱导致的表格扭曲等等情况。基于现有提取表格线条以绘制表格的方式进行表格识别，若受到表格图像质量等因素的影响，提取出来的表格线条可能会不连续或是检测错误，继而会导致识别得到的表格结构有误，识别准确率较低。

发明内容

有鉴于此，本发明实施例提供了一种表格识别方法，以解决现有直接通过图像提取得到的线条生成表格，识别准确率较低的问题。

本发明实施例还提供了一种表格识别装置，用以保证上述方法实际中的实现及应用。

为实现上述目的，本发明实施例提供如下技术方案：

一种表格识别方法，包括：

对待识别的表格图像进行表格元素检测，获得所述待识别的表格图像对应的单元格图像和线条图像；所述单元格图像中包含多个单元格区域，所述线条图像中包含多个线条；

对每个所述单元格区域进行膨胀处理，获得至少一个表格区域；

在所述线条图像中，确定每个所述表格区域对应的表格线条图像；

对每个所述表格线条图像进行细化处理，获得每个所述表格区域对应的细化表格图像；

确定每个所述表格区域对应的交叉点集合，每个所述表格区域对应的交叉点集合包括该表格区域对应的细化表格图像中的各个线条交叉点；

在各个所述单元格区域中，确定每个所述表格区域对应的各个目标单元格区域；

对于每个所述表格区域，依据该表格区域对应的交叉点集合和该表格区域对应的各个目标单元格区域，确定该表格区域对应的各个单元格顶点；

依据每个所述表格区域对应的各个单元格顶点，生成每个所述表格区域对应的各个单元格线段；

依据每个所述表格区域对应的各个单元格线段，确定每个所述表格区域对应的结构化表格，完成所述待识别的表格图像的表格识别过程。

上述的方法，可选的，所述确定每个所述表格区域对应的交叉点集合，包括：

确定每个所述表格区域对应的细化表格图像所对应的线条路径，每个所述线条路径中包含其对应的细化表格图像中的所有线条像素点；

对于每个所述表格区域对应的细化表格图像所对应的线条路径，基于预设的卷积核沿该线条路径进行卷积运算，以判断该线条路径中的每个线条像素点是否为交叉点，并将确定为交叉点的线条像素点作为该细化表格图像中的初始交叉点；

对每个所述表格区域对应的细化表格图像中的各个初始交叉点进行重复点筛除操作，获得每个所述表格区域对应的细化表格图像中的各个线条交叉点，并由每个所述表格区域对应的细化表格图像中的各个线条交叉点组成每个所述表格区域对应的交叉点集合。

上述的方法，可选的，所述在各个所述单元格区域中，确定每个所述表格区域对应的各个目标单元格区域，包括：

在所述单元格图像上，确定每个所述表格区域对应的映射区域；

确定每个所述单元格区域的单元格面积；

对于每个所述单元格区域，确定该单元格区域对应的各个交集面积，所述各个交集面积与各个所述映射区域一一对应；

确定每个所述单元格区域对应的各个交集比例，每个所述单元格区域对应的各个交集比例与该单元格区域对应的各个交集面积一一对应，每个所述单元格区域对应的每个交集比例为其对应的交集面积与该单元格区域的单元格面积的比值；

对于每个所述单元格区域，在该单元格区域对应的各个交集比例中确定目标交集比例，并在各个所述表格区域中确定所述目标交集比例对应的目标表格区域，建立该目标表格区域与该单元格区域的关联关系；

对于每个所述表格区域，将与该表格区域具有关联关系的每个单元格区域作为该表格区域对应的目标单元格区域。

上述的方法，可选的，所述依据该表格区域对应的交叉点集合和该表格区域对应的各个目标单元格区域，确定该表格区域对应的各个单元格顶点，包括：

确定该表格区域对应的每个目标单元格区域所对应的各个轮廓点顶点；

对于该表格区域对应的每个目标单元格区域所对应的每个轮廓点顶点，判断该表格区域对应的交叉点集合中是否存在与该轮廓点顶点相匹配的线条交叉点，若该交叉点集合中存在与该轮廓点顶点相匹配的线条交叉点，则将与该轮廓点顶点相匹配的线条交叉点作为该轮廓点顶点对应的单元格顶点；

对于该表格区域对应的每个目标单元格区域，将该目标单元格区域对应的每个轮廓点顶点所对应的单元格顶点，作为该表格区域对应的单元格顶点。

上述的方法，可选的，所述确定该表格区域对应的每个目标单元格区域所对应的各个轮廓点顶点，包括：

对于该表格区域对应的每个目标单元格区域，确定该目标单元格区域的外轮廓，并确定该目标单元格区域对应的最小外接四边形；

对于该表格区域对应的每个目标单元格区域，在该目标单元格区域的外轮廓上，确定该目标单元格区域对应的最小外接四边形的每个顶点所对应的轮廓点，并将每个所述顶点所对应的轮廓点作为该目标单元格区域对应的轮廓点顶点。

上述的方法，可选的，所述依据每个所述表格区域对应的各个单元格线段，确定每个所述表格区域对应的结构化表格，包括：

对于每个所述表格区域，将该表格区域对应的各个单元格线段划分为多个线段集合，所述多个线段集合与该表格区域对应的各个预设行列位置标签一一对应；

对每个所述线段集合中的各个单元格线段进行线段合并，获得每个所述预设行列位置标签对应的表格线段；

依据每个所述预设行列位置标签对应的表格线段，确定该表格区域对应的表格结构；

基于每个所述预设行列位置标签对应的表格线段和所述表格结构，生成该表格区域对应的结构化表格。

上述的方法，可选的，所述将该表格区域对应的各个单元格线段划分为多个线段集合，包括：

确定该表格区域对应的每个单元格线段所对应的线段位置；

确定多个行列线段集合，每个所述行列线段集合包含至少一个该表格区域对应的单元格线段，每个所述行列线段集合中的各个单元格线段对应的线段位置符合预设的行列方向条件；

对于每个所述行列线段集合，建立该行列线段集合中的每个单元格线段与该行列线段集合对应的标签的关联关系；

将每个所述行列线段集合对应的标签作为该表格区域对应的预设行列位置标签，并由每个所述行列线段集合中的各个单元格线段分别组成线段集合。

一种表格识别装置，包括：

检测单元，用于对待识别的表格图像进行表格元素检测，获得所述待识别的表格图像对应的单元格图像和线条图像；所述单元格图像中包含多个单元格区域，所述线条图像中包含多个线条；

膨胀单元，用于对每个所述单元格区域进行膨胀处理，获得至少一个表格区域；

第一确定单元，用于在所述线条图像中，确定每个所述表格区域对应的表格线条图像；

细化处理单元，用于对每个所述表格线条图像进行细化处理，获得每个所述表格区域对应的细化表格图像；

第二确定单元，用于确定每个所述表格区域对应的交叉点集合，每个所述表格区域对应的交叉点集合包括该表格区域对应的细化表格图像中的各个线条交叉点；

第三确定单元，用于在各个所述单元格区域中，确定每个所述表格区域对应的各个目标单元格区域；

第四确定单元，用于对于每个所述表格区域，依据该表格区域对应的交叉点集合和该表格区域对应的各个目标单元格区域，确定该表格区域对应的各个单元格顶点；

生成单元，用于依据每个所述表格区域对应的各个单元格顶点，生成每个所述表格区域对应的各个单元格线段；

第五确定单元，用于依据每个所述表格区域对应的各个单元格线段，确定每个所述表格区域对应的结构化表格，完成所述待识别的表格图像的表格识别过程。

一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的表格识别方法。

一种电子设备，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上述的表格识别方法。

基于上述本发明实施例提供的一种表格识别方法，包括：对待识别的表格图像进行表格元素检测，获得该表格图像对应的单元格图像和线条图像；所述单元格图像中包含多个单元格区域，所述线条图像中包含多个线条；对每个单元格区域进行膨胀处理，获得至少一个表格区域；在线条图像中，确定每个表格区域对应的表格线条图像；对每个表格线条图像进行细化处理，获得每个表格区域对应的细化表格图像；确定每个表格区域对应的交叉点集合，每个表格区域对应的交叉点集合包括该表格区域对应的细化表格图像中的各个线条交叉点；在各个单元格区域中，确定每个表格区域对应的各个目标单元格区域；对于每个表格区域，依据该表格区域对应的交叉点集合和该表格区域对应的各个目标单元格区域，确定该表格区域对应的各个单元格顶点；依据每个表格区域对应的各个单元格顶点，生成每个表格区域对应的各个单元格线段；依据每个表格区域对应的各个单元格线段，确定每个表格区域对应的结构化表格，完成表格识别过程。应用本发明实施例提供的方法，通过检测将表格图像中的线条和单元格分别提取出来，并结合单元格和线条的处理，确定表格区域中的各个单元格顶点，以生成单元格线段。将单元格与线条交叉点进行映射，有利于准确识别出单元格顶点，进而得到准确的单元格线段，有利于识别出精准的表格结构，提高表格识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种表格识别方法的方法流程图；

图2为本发明实施例提供的一种单元格图像的示例图；

图3为本发明实施例提供的一种线条图像的示例图；

图4为本发明实施例提供的一种表格区域的示例图；

图5为本发明实施例提供的一种表格区域对应的表格线条图像的示例图；

图6为本发明实施例提供的一种表格区域对应的细化表格图像的示例图；

图7为本发明实施例提供的一种表格区域对应的交叉点集合的图像示例图；

图8为本发明实施例提供的一种单元格区域的示例图；

图9为本发明实施例提供的一种表格识别装置的结构示意图；

图10为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，目前的表格识别方案，通常采用两种模式，一是采用传统的计算机视觉算法或者基于规则的算法(如连通域算法)将表格图像中的线条提取出来，二是采用深度神经网络算法根据表格图像中的特征提取出线条，继而根据提取出来的线条构建结构化表格。而在自然场景下拍摄的表格图像，可能会出现表格部分被遮挡，表格未拍全，纸张褶皱导致的表格扭曲等情况，导致表格识别过程中提取出的表格或单元格线会出现一定程度的不连续或者检测错误，即提取出来的线条不准确，继而导致表格识别的准确性较差。其次，基于深度神经网络算法的识别方法，受到训练集的数量种类限制、标注误差、训练效果或是载入表格图像质量等因素的影响，亦会导致线条提取效果较差的情况，需要进一步采取一定的规则对结果进行修正。另外，深度神经网络算法通常仅提取一种表格特征来对表格信息进行结构化，这会丢失大部分细节特征，亦不利于识别出准确的表格结构。

因此，本发明实施例提供了一种表格识别方法，在表格图像中提取出单元格图像和线条图像，通过单元格与线条交叉点之间的映射，准确识别出单元格顶点，继而得到精确的单元格线段，以生成结构化表格，有利于提高表格识别的准确性。

本发明实施例提供了一种表格识别方法，所述方法可应用于各类具有表格识别需求的系统平台，其执行主体可以为系统平台的服务器，所述方法的方法流程图如图1所示，包括：

S101：对待识别的表格图像进行表格元素检测，获得所述待识别的表格图像对应的单元格图像和线条图像；所述单元格图像中包含多个单元格区域，所述线条图像中包含多个线条；

本发明实施例提供的方法中，当需要识别表格图像中的表格时，可以基于深度学习算法对待识别的表格图像中的单元格和线条进行检测，以对待识别的表格图像进行表格元素检测。具体的，可以使用resNet，hrNet或dbNet网络等深度神经网络模型提取单元格和线条信息，获得表格图像对应的单元格图像和线条图像。

本发明实施例提供的方法中通过dbNet网络进行表格元素检测，对自然场景下拍摄的表格图像进行检测，检测得到的单元格图像，例如图2所示，其中每个白色的四边形区域为一个单元格区域，单元格图像中包含多个单元格区域。检测得到的线条图像，例如图3所示，其中，每个白色直线为一个线条，线条图像中包含多个线条。

需要说明的是，本发明实施例中提及的具体网络模型仅为一个具体实施例，在实际的应用过程中，可以根据需求选择表格元素检测的网络模型，不影响本发明实施例提供的方法实现功能。

S102：对每个所述单元格区域进行膨胀处理，获得至少一个表格区域；

本发明实施例提供的方法中，对单元格图像中的每个单元格区域进行膨胀操作，使得相近的单元格和单元格之间融合成一个大的连通域，将该连通域作为一个表格区域。在具体的应用过程中，表格图像中可能会存在多个表格，故对单元格区域进行膨胀处理后，可以获得至少一个表格区域，具体的表格区域的数量，由实际的膨胀操作所得到的连通域的个数确定，不影响本发明实施例提供的方法实现功能。例如对图2所示单元格图像中的每个单元格区域进行膨胀处理，可以得到如图4所示的表格区域图像，图4中的白色区域则为表格区域。

S103：在所述线条图像中，确定每个所述表格区域对应的表格线条图像；

本发明实施例提供的方法中，可以在线条图像中，匹配出每个表格区域对应的图像区域，作为该表格区域对应的表格线条图像。具体的，可以将每个表格区域作为一个子掩膜，对线条图像进行蒙版扣除操作，过滤掉线条图像中该表格区域以外的线条，保留该表格区域中的线条，得到该表格区域对应的表格线条图像。例如，在图3所示的线条图像中，结合图4所示的表格区域进行处理，可以得到如图5所示的表格线条图像。

需要说明的是，图4所示示例图中，仅包含一个表格区域，故处理得到对应图5的一个表格线条图像。在具体的实现过程中，若是表格图像中包含多个表格，故在对单元格区域进行膨胀处理时，会对应得到多个表格区域，可采用连通域算法将每个表格区域单独切分出来，分别进行处理，得到每个表格区域对应的表格线条图像。

S104：对每个所述表格线条图像进行细化处理，获得每个所述表格区域对应的细化表格图像；

本发明实施例提供的方法中，可以采用预设的细化算法对每个表格线条图像进行骨架抽取等细化处理，将经过细化处理的表格线条图像作为表格区域对应的细化表格图像。具体的，可以使用rosenfeld算法等图像细化算法进行细化处理。通常情况下，处理获得的细化表格图像为二值图，图中每个像素点与其相邻的8个像素点的像素值不会同时为255。例如，对图5所示表格线条图像进行细化处理后，可获得如图6所示的细化表格图像。图2～图6所示的图像，仅是举例说明图像处理过程的具体示例图，不对实际识别效果进行限定。

S105：确定每个所述表格区域对应的交叉点集合，每个所述表格区域对应的交叉点集合包括该表格区域对应的细化表格图像中的各个线条交叉点；

本发明实施例提供的方法中，可以对每个细化表格图像进行扫描，即遍历整个图片的像素位置，将图像中表征线条像素点的像素点添加到线条路径集合中，例如，图像中的线条以白色进行显示，故将像素值255的像素点坐标添加到线条路径集合中。可基于预设的交叉点识别策略，在每个细化表格图像的线条路径集合中，确定每个细化表格图像中的各个线条交叉点，以获得每个表格区域的交叉点集合。

S106：在各个所述单元格区域中，确定每个所述表格区域对应的各个目标单元格区域；

本发明实施例提供的方法中，可通过预设的区域识别策略，判断每个单元格区域所归属的表格区域，得到每个表格区域对应的各个目标单元格区域，每个表格区域对应的各个目标单元格区域即为归属该表格区域的各个单元格区域。

S107：对于每个所述表格区域，依据该表格区域对应的交叉点集合和该表格区域对应的各个目标单元格区域，确定该表格区域对应的各个单元格顶点；

本发明实施例提供的方法中，对于每个表格区域，可以根据该表格区域对应的各个目标单元格区域的轮廓和该表格区域对应的交叉点集合，将交叉点集合中的线条交叉点映射到对应的目标单元格区域上，以确定各个单元格顶点。

S108：依据每个所述表格区域对应的各个单元格顶点，生成每个所述表格区域对应的各个单元格线段；

本发明实施例提供的方法中，对于每个表格区域，可基于其对应的各个单元格顶点中，对应同一个单元格区域的四个单元格顶点，按照顺时针顺序进行排序，按顺序将四个单元格顶点组合成四条线段(每个线段用两个点表示)，将组合成的每个线段作为该表格区域对应的单元格线段。可以根据单元格顶点的坐标位置，确定每个单元格区域对应的四个单元格线段之间的左右关系和上下关系，可以分别设置标签，如记作top，below，left，right。

S109：依据每个所述表格区域对应的各个单元格线段，确定每个所述表格区域对应的结构化表格，完成所述待识别的表格图像的表格识别过程。

本发明实施例提供的方法中，可以根据每个表格区域对应的各个单元格线段，确定每个表格区域所对应的表格的结构信息，如表格线段位置、行高、列宽、行列数等信息，继而可根据这些信息生成每个表格区域对应的结构化表格，实现对表格图像的识别。

基于本发明实施例提供的方法，在需要识别表格图像中的表格时，可对待识别的表格图像进行表格元素检测，获得表格图像对应的单元格图像和线条图像；对单元格图像中的每个单元格区域进行膨胀处理，获得至少一个表格区域；在线条图像中，确定每个表格区域对应的表格线条图像；对每个表格线条图像进行细化处理，获得每个表格区域对应的细化表格图像；确定每个表格区域对应的交叉点集合，并确定每个表格区域对应的各个目标单元格区域；依据每个表格区域对应的交叉点集合和各个目标单元格区域，确定每个表格区域对应的各个单元格顶点；依据每个表格区域对应的各个单元格顶点，生成每个表格区域对应的各个单元格线段，继而确定每个表格区域对应的结构化表格。应用本发明实施例提供的方法，通过检测将表格图像中的线条和单元格分别提取出来，并结合单元格和线条的处理，确定表格区域中的各个单元格顶点，以生成单元格线段。将单元格与线条交叉点进行映射，有利于准确识别出单元格顶点，进而得到准确的单元格线段，有利于识别出精准的表格结构，提高表格识别的准确性。

本发明实施例提供了又一种表格识别方法，在图1所示方法的基础上，本发明实施例提供的方法中，步骤S105中提及的确定每个所述表格区域对应的交叉点集合的过程，包括：

本发明实施例提供的方法中，可对细化表格图像进行扫描，将像素值为255的像素点添加到路径集合中，以确定线条路径。路径集合中的各个像素点表征线条路径上的点，即其中的各个像素点组成了表示线条的图像。本发明实施例提供的方法中，细化表格图像中像素值为255的像素点(即白色的点)表征线条上的点。

本发明实施例提供的方法中，对于细化表格图像对应的线条路径，可基于预设的卷积核沿路径进行卷积运算，以识别交叉点。具体的，可以用一个数值全为1的3*3的卷积核沿着线条路径进行卷积运算，每次卷积运算得到一个3*3矩阵，确定矩阵中不为0的元素个数，若矩阵中不为0的元素个数超过2个，则将当前运算针对的像素点确定为交叉点，其本质是求像素值为255的点的八邻域有几个像素值为255的点，当超过两个说明该点是两条线的交点。例如图7所示示例图，黑色线条表示线条路径，通过判断可确定黑色实心圆所标识的像素点为交叉点。记录所有识别为交叉点的线条像素点，得到初始交叉点集合，可记为crosspoints。

需要说明的是，图7所示示例仅是为了更好地说明本发明实施例提供的方法所提供的示意性的实施例，图7中并未标识出所有交叉点，亦不限制实际的细化表格图像的图像效果。

本发明实施例提供的方法中，对于每个细化表格图像，可以基于预设的筛除规则，对各个初始交叉点进行重复点筛除操作。具体的，可以遍历所有初始交叉点，计算每两个交叉点之间的距离。若两个交叉点之间的距离小于预先确定的误差值，则认为这两个点表示的是真实表格中同一个交叉点，这时可保留其中一个点作为真实表格的交叉点，即线条交叉点，以得到细化表格图像的各个线条交叉点，得到交叉点集合，可记为merged_crosspoints。

本发明实施例提供的方法中，上述误差值的确定方式，可以基于单元格图像中的单元格区域进行确定。具体的，可以利用轮廓识别的相关算法，求取每个单元格区域的外轮廓的轮廓点，根据外轮廓的轮廓点，计算每个单元格区域的最小外接四边形rrect，遍历所有的最小外接四边形rrect，计算所有最小外接四边形最小的高或者宽长度min_len，基于min_len确定误差值。例如误差error为min_len平均值的0.5倍(经验值)。

需要说明的是，本发明实施例提供的误差值的确定方式仅是为了更好地说明本发明实施例的方法所提供的一个具体实施例，在具体的实现过程中，可以基于其他指标确定误差值，不影响本发明实施例提供的方法实现功能。

基于本发明实施例提供的方法，可将各个初始交叉点中表征同一个实际交叉点的初始交叉点进行合并。对于自然场景下拍摄得到的表格图像，由于细化算法的本身原因，有时会出现多个交叉点表示的是真实表格的同一个交叉点，此时对交叉点进行合并，可进一步提高后续确定的单元格顶点的准确性，继而提高表格识别的准确性。

进一步的，在图1所示方法的基础上，本发明实施例提供了又一种表格识别方法，其中，步骤S106中所提及的在各个所述单元格区域中，确定每个所述表格区域对应的各个目标单元格区域的过程，包括：

本发明实施例提供的方法中，对于每个表格区域，可将该表格区域对应映射到单元格图像上。每个表格区域是以单元格图像中的单元格区域进行膨胀得到的，故每个表格区域相对于单元格图像亦有其对应的形成位置，可按照每个表格区域的形成位置进行映射。

确定每个所述单元格区域的单元格面积；

本发明实施例提供的方法中，可通过预设的面积计算方法，计算每个单元格区域的单元格面积。

本发明实施例提供的方法中，识别每个单元格区域与每个表格区域对应的映射区域的相重叠的区域，即交集区域。对于每个单元格区域，分别计算该单元格区域与每个映射区域的交集区域的交集面积，得到该单元格区域对应的各个交集面积。

本发明实施例提供的方法中，对于每个单元格区域，将该单元格区域对应的每个交集面积分别与该单元格区域的单元格面积相比，得到相比的两个面积的比值，作为该单元格区域对应的一个交集比例，继而得到该单元格区域对应的各个交集比例。

本发明实施例提供的方法中，可以预先设置一个阈值，当单元格区域与表格区域的交集占比大于该阈值时，视为该单元格区域归属该表格区域。对于每个单元格区域，将该单元格区域对应的每个交集比例与预设阈值进行比较，以判断是否存在大于所述预设阈值的交集比例，若存在大于所述预设阈值的交集比例，则将大于所述预设阈值的交集比例确定为目标交集比例，建立该目标交集比例对应的目标表格区域与该单元格区域的关联关系。可选的，预设阈值可为0.5。

需要说明的是，在具体的实现过程中，一般情况下，识别得到的每个单元格区域归属一个表格区域，故单元格区域对应的各个交集比例中仅有一个交集比例大于所述预设阈值。若是存在多个交集比例大于预设阈值，可以选取其中数值最大的交集比例作为目标交集比例。若是单元格区域对应的各个交集比例中不存在大于预设阈值的交集比例，则该单元格区域可能并非真实表格中的单元格，可以不对该单元格区域进行后续处理。

本发明实施例提供的方法中，当对各个单元格区域进行关联处理后，可得到与每个表格区域具有关联关系的各个单元格区域，将与表格区域具有关联关系的每个单元格区域作为该表格区域对应的目标单元格区域。

进一步的，本发明实施例提供了又一种表格识别方法，在图1所示方法的基础上，本发明实施例提供的方法中，步骤S107中提及的依据该表格区域对应的交叉点集合和该表格区域对应的各个目标单元格区域，确定该表格区域对应的各个单元格顶点的过程，包括：

本发明实施例提供的方法中，在每个目标单元格区域的外轮廓上，确定出每个目标单元格区域对应的各个轮廓点顶点。目标单元格区域对应的轮廓点顶点指的是在该外轮廓上类比单元格的四个顶点的点。每个目标单元格区域对应的四个轮廓点顶点。

本发明实施例提供的方法中，遍历目标单元格区域对应的每个轮廓点顶点，在对应的交叉点集合中寻找是否存在与该轮廓点顶点相匹配的线条交叉点。具体的，可以将该轮廓点顶点与交叉点集合中的各个线条交叉点进行比较，找出满足以下条件的点：该线条交叉点与该轮廓点顶点之间的距离最近，该线条交叉点与该轮廓点顶点的距离不超过预设的误差值。若找到满足上述条件的点，该点则为与轮廓点顶点相匹配的线条交叉点，并将该线条交叉点作为该轮廓点顶点对应的单元格顶点。目标单元格区域对应的各个轮廓点顶点所对应的单元格顶点不重复。

本发明实施例提供的方法中，一般情况下，交叉点集合中会存在一个与该轮廓点顶点相匹配的线条交叉点。若是对于某个轮廓点顶点，对应的交叉点集合中不存在与该轮廓点顶点相匹配的线条交叉点，可再进行特殊处理，例如将该轮廓点顶点本身作为其对应的单元格顶点，或是以最小外接四边形上的对应顶点作为该轮廓点顶点对应的单元格顶点等等。

本发明实施例提供的方法中，将每个目标单元格区域对应的每个轮廓点顶点所对应的单元格顶点，作为该表格区域对应的单元格顶点。

为了更好地说明本发明实施例提供的方法，在上述实施例提供的方法的基础上，本发明实施例提供的方法中，所述确定该表格区域对应的每个目标单元格区域所对应的各个轮廓点顶点的过程，包括：

本发明实施例提供的方法中，可识别每个目标单元格区域的外轮廓，并基于每个目标单元格区域的外轮廓确定每个目标单元格区域对应的最小外接四边形，进而可识别得到每个最小外接四边形的四个顶点。

本发明实施例提供的方法中，对于每个目标单元格区域，可遍历其对应的最小外接四边形的四个顶点，在其对应的外轮廓上求出与每个顶点最近的点作为轮廓顶点。

例如图8所示的单元格区域的示例图，图中的曲线轮廓为一个目标单元格区域的外轮廓，图中的四边形则为该目标单元格区域的最小外接四边形。图中的空心圆圈表征该最小外接四边形的顶点，通过识别得到图中黑色实心圆圈表征的轮廓点顶点。

进一步的，本发明实施例提供了又一种表格识别方法，在图1所示方法的基础上，本发明实施例提供的方法中，步骤S109中提及的依据每个所述表格区域对应的各个单元格线段，确定每个所述表格区域对应的结构化表格的过程，包括：

本发明实施例提供的方法中，表格区域对应的各个单元格线段，与该表格区域对应的各个目标单元格区域具有对应的关联关系，每个目标单元格区域对应有四条单元格线段。遍历每个单元格线段，给每个单元格线段分配标签，并通过每个单元格线段的标签将各个单元格线段划分为多个线段集合，每个线段集合中包含至少一个单元格线段，每个单元格线段归属一个线段集合，各个线段集合中的单元格线段互不重复。每个线段集合对应一个预设行列位置标签，每个线段集合中的各个单元格线段的标签与该线段集合对应的预设行列位置标签相同，每个线段集合中的各个单元格线段具有相同的行列位置关系，也就是各个单元格线段处于同一水平位置或是处于同一竖直位置。

本发明实施例提供的方法中，对于每个线段集合，将该线段集合中的各个单元格线段，按照线段端点的首尾顺序进行连接，融合成一个长边，即表格线段。在实际的应用过程中，可能会存在合并单元格的情况，处于同一水平方向或是同一竖直方向上的表格线段并不连贯，故在线段合并时，可能会得到多个表格线段。例如图7所示示例图，在接近中部竖直方向上，存在有两条处于相同竖直方向的表格线段。

本发明实施例提供的方法中，每个预设行列位置标签对应的表格线段是由各个单元格线段合并得到的，表格线段上包含组成该表格线段的各个单元格线段的端点，可根据单元格线段的端点对表格线段上的单元格线段进行标记。例如，以沿着水平方向的表格线段为例，根据其包含的每个单元格线段的端点坐标对所有的单元格线段从左到右进行排序，排序完成后重新按照顺序进行标记，标记为0，1，2…等。沿着竖直方向的线段同理。

本发明实施例提供的方法中，可根据每个表格线段的位置坐标，依次将线段方向一致(如均为水平方向或是均为竖直方向的线段)的相邻的表格线段取出，计算这两个表格线段之间的距离，得到这两个表格线段对应的预设行列位置标签所对应的距离。基于各个表格线段的位置、所有单元格线段的标记，预设行列位置标签对应的距离等信息，可以得到所需构建的表格中的单元格位置、横跨的单元格数目(合并单元格的情况)、行高、列宽等等表格结构化信息，基于这些表格结构化信息可确定表格结构。

本发明实施例提供的方法中，按照各个表格线段和确定的表格结构，可以绘制生成该表格区域的结构化表格。

进一步的，在上述实施例提供的方法的基础上，本发明实施例提供的方法中，所述将该表格区域对应的各个单元格线段划分为多个线段集合的过程，包括：

确定该表格区域对应的每个单元格线段所对应的线段位置；

本发明实施例提供的方法中，可以识别每个单元格线段的端点坐标等信息，以确定每个单元格线段的线段位置。

本发明实施例提供的方法中，可以根据各个单元格线段的线段位置，筛选出多个行列线段集合，每个行列线段集合中的各个单元格线段对应的线段位置之间符合预设的行列方向条件，也就是其中的各个单元格线段之间满足一定的条件。具体的，可以通过遍历单元格线段，判断每两个单元格线段之间是否符合预设的行列方向条件，为符合条件的单元格线段分配相同的标签，将分配有相同标签的单元格线段组成一个行列线段集合，每个行列线段集合对应的标签可以为分配给其中的单元格线段的标签，也可以独立设置一个标签，建立该行列线段集合对应的标签与各个单元格线段之间的关联关系即可。

本发明实施例提供的方法中，分配给单元格线段的标签与该单元格线段在表格中的水平方向位置或是竖直方向位置相关联，当不同的单元格线段分配有相同的标签时，说明这些单元格线段在表格中处于同一个水平位置或是同一个竖直位置。

具体的，行列方向条件的判断和标签的分配过程，可以按照以下方式进行：

可以遍历每个目标单元格区域，将单元格与单元格之间的单元格线段进行比较，例如：选取一个单元格区域1，初始设定其单元格线段top的标签为1，单元格线段below的标签为2，单元格线段left的标签为1，单元格线段right的标签为2(本发明实施例提供中，水平方向线段的标签与竖直方向线段的标签相区分，例如水平方向线段的标签1与竖直方向线段的标签1视为不同的标签)。选取另一个任意单元格2，提取单元格1的单元格线段top和单元格线段below，以及提取单元格2的单元格线段top和单元格线段below，比较单元格1的top和单元格2的top，单元格1的top和单元格2的below，单元格1的below和单元格2的top，单元格1的below和单元格2的below，判断两个单元格线段之间是否有公共的点，若有公共点，则将单元格2的对应单元格线段标记成和单元格1中对应的单元格线段一样的标签，若没有公共点，则基于预设的相交识别方法，判断两个单元格线段是否属于同向线段，若属于同向线段，则进行与存在公共点的标记处理的相同处理，若没有公共点且不属于同向线段，则将单元格2的对应单元格线段标记为一个新的标签3，其余单元格线段的标签设置同理。

本发明实施例提供的方法中，判断两个单元格线段是否属于同向线段，可以通过直线拟合的方法，或是采用以下方式进行判断：

判断两个单元格线段是否相交，可采用快速排斥算法和跨立实验算法等算法判断，如果这两个单元格线段相交，可以确定这两个单元格线段属于同向线段。若这两个单元格线段不相交，则根据单元格线段的端点，求取其到另一个单元格线段的距离，通过两个单元格线段的四个端点的计算，可以得到四个距离值，选取其中最小的距离值，将该距离值与预设的误差值进行比较，若该距离值小于预设的误差值，则确定这两个单元格属于同向线段，反之，则确定这两个单元格线段不属于同向线段。

本发明实施例提供的方法中，每个行列线段集合对应的标签为该表格区域对应的一个预设行列位置标签，每个行列线段集合为一个线段集合。

为了更好地说明本发明实施例提供的方法，本发明实施例提供了又一种表格识别方法，接下来结合图2～图8所示示例图，对本发明实施例提供的表格识别过程进行简要的整体概括说明。本发明实施例提供的表格识别过程，主要包括：

对图像中的单元格和线条进行检测；

本发明实施例提供的方法中，采用深度学习方法对图像中的单元格和线条进行检测，包括但不局限于使用resNet，hrNet或dbNet网络等提取单元格和线条信息，这里采用dbNet算法检测图片，检测结果如图2，图3所示。

求取表格区域；

本发明实施例提供的方法中，对提取到的单元格信息中的每个单元格进行膨胀操作，让相近的单元格和单元格之间融合成一个大的连通域，该连通域为表格所在的区域，如图4所示。

表格中的线条信息提取；

本发明实施例提供的方法中，将上述表格区域作为一个子掩膜，结合图3所示的表格线条图，进行蒙版扣除操作，过滤掉表格区域以外的线条，保留每个表格区域中的线条(示例图只有一个表格，当多表格存在时，会采用连通域算法将每个表格区域单独切分出来)。切分出的表格区域的线条图如图5所示。

抽取表格骨架及相应点；

本发明实施例提供的方法中，采用细化算法对表格线条图进行骨架抽取，可以使用rosenfeld算法(不限于该算法)对图片进行处理，得到细化后的图片(此时图片中的二值图中每个像素点保证与其相邻的8个像素点不同时都为255)，如图6所示。进一步的，扫描细化后的图片(遍历整个图片的像素位置)，将像素值为255的像素点坐标添加到路径集合path中。

计算误差；

本发明实施例提供的方法中，对图2所示的单元格检测结果进行处理，利用相关算法，求取每个单元格的外轮廓的轮廓点，根据外轮廓的轮廓点，计算每个单元格的最小外接四边形rrect，遍历所有的最小外接四边形rrect，计算所有外接四边形最小的高或者宽长度min_len，误差error为min_len的平均值的0.5倍(经验值)。

求取交叉点并融合；

本发明实施例提供的方法中，可基于卷积运算识别交叉点，并将重复的交叉点进行融合，得到交叉点集合merged_crosspoints。具体过程可参见上述结合图7对于步骤S105进行说明的实施例中的叙述，在此不再赘述。

判断单元格在表格中的归属；

本发明实施例提供的方法中，计算每个单元格区域的面积s1，将每个单元格区域画在图片上与上述每个表格的区域求交集面积s2，计算比值k＝s2/s1，若k值超过0.5(经验值)，则该单元格属于该表格，反之则不属于该表格。

将交叉点映射到每个单元格上；

本发明实施例提供的方法中，结合单元格检测结果图，可以求出每个单元格外轮廓contour，如图8所示，通过每个单元格的外轮廓，可以求出每个单元格的最小外接四边形以及四个顶点rrect_vertex，如图中空心圆圈所示，遍历每个顶点，在contour上求出与顶点最近的点作为轮廓点顶点，轮廓点顶点集合为contour_vertex，如图中的黑色点表示。遍历contour_vertex，将每个点和合并后的交叉点集合merged_points进行比较，找出满足以下条件的点：merged_points中的p点与该点最近；p点到该点的距离不能超过误差。若满足上述条件，则将contour_vertex中的对应点用p点进行替换，替换完成后保证contour_vertex中的四个顶点不重复。

求出单元格的四条边；

本发明实施例提供的方法中，将contour_vertex中的四个点按照顺时针进行排序，排序完成后按顺序组合成四条线段(每个线段用两个点表示)，根据坐标位置判断每一个单元格内四条线段之间的左右关系和上下关系，分别记作top，below，left，right。

判断边在表格中的位置归属；

本发明实施例提供的方法中，对每个单元格的每条边设置标签，以确定边在表格中的位置的归属。具体的过程，可以参见对于“将该表格区域对应的各个单元格线段划分为多个线段集合”的过程进行说明的上述实施例中，关于标签的分配过程的说明，在此不再赘述。

本发明实施例提供的方法中，通过边与边的判断两条边是否属于同一标签时，预设的误差值为上述误差值error。

表格信息结构化；

本发明实施例提供的方法中，将属于同一标签的所有边头尾进行连接，融合成一个长边，此时每个长边都对应一个标签，以沿着水平方向的边为例，根据每个边的端点坐标对所有的水平边从左到右进行排序，排序完成后重新按照顺序进行标记，标记为0，1，2…等。沿着竖直方向的边同理。

接着，依次将相邻的边取出，计算两个长边之间的距离，两个长边的距离计算方法可通过对“将该表格区域对应的各个单元格线段划分为多个线段集合”的过程进行说明的上述实施例中提及的，求取单元格线段之间的距离的方法实现，可以选取最小的距离值。

最后，依次遍历所有的单元格，已知每个单元格四条边的标签，即可知道单元格的位置以及横跨的单元格数目，同时可知标签与标签之间的距离(即行高、列宽)，可实现表格信息结构化。

本发明实施例提供的方法，采用深度学习方法对图像中的单元格和图像中的线条进行检测，提取出单元格信息与线条信息；对单元格进行连通域计算，得到表格的区域；利用上述的表格区域信息提取出表格区域中的线条信息；将提取出的线条信息进一步处理，得到表格线条信息的骨架以及对应的点；求取表格线条信息的交叉点并融合相似的交叉点；判断单元格信息与表格信息的关系；将交叉点映射到每个单元格上，作为单元格四个点；利用上述四个点，求出每个单元格的上下左右四个边；通过边与边之间的逻辑关系，判断边在表格中的位置归属；利用位置归属对表格信息进行结构化。本发明实施例提供的方法，采用线条检测与单元格检测同时进行的方式，增加了结果的鲁棒性，采用该方法可以解决自然场景图片下的表格缺失，表格未拍全，表格扭曲等问题所导致的表格识别缺陷，具有更好的泛化性能。

与图1所示的一种表格识别方法相对应的，本发明实施例还提供了一种表格识别装置，用于对图1中所示方法的具体实现，其结构示意图如图9所示，包括：

检测单元201，用于对待识别的表格图像进行表格元素检测，获得所述待识别的表格图像对应的单元格图像和线条图像；所述单元格图像中包含多个单元格区域，所述线条图像中包含多个线条；

膨胀单元202，用于对每个所述单元格区域进行膨胀处理，获得至少一个表格区域；

第一确定单元203，用于在所述线条图像中，确定每个所述表格区域对应的表格线条图像；

细化处理单元204，用于对每个所述表格线条图像进行细化处理，获得每个所述表格区域对应的细化表格图像；

第二确定单元205，用于确定每个所述表格区域对应的交叉点集合，每个所述表格区域对应的交叉点集合包括该表格区域对应的细化表格图像中的各个线条交叉点；

第三确定单元206，用于在各个所述单元格区域中，确定每个所述表格区域对应的各个目标单元格区域；

第四确定单元207，用于对于每个所述表格区域，依据该表格区域对应的交叉点集合和该表格区域对应的各个目标单元格区域，确定该表格区域对应的各个单元格顶点；

生成单元208，用于依据每个所述表格区域对应的各个单元格顶点，生成每个所述表格区域对应的各个单元格线段；

第五确定单元209，用于依据每个所述表格区域对应的各个单元格线段，确定每个所述表格区域对应的结构化表格，完成所述待识别的表格图像的表格识别过程。

基于本发明实施例提供的装置，在需要识别表格图像中的表格时，可对待识别的表格图像进行表格元素检测，获得表格图像对应的单元格图像和线条图像；对单元格图像中的每个单元格区域进行膨胀处理，获得至少一个表格区域；在线条图像中，确定每个表格区域对应的表格线条图像；对每个表格线条图像进行细化处理，获得每个表格区域对应的细化表格图像；确定每个表格区域对应的交叉点集合，并确定每个表格区域对应的各个目标单元格区域；依据每个表格区域对应的交叉点集合和各个目标单元格区域，确定每个表格区域对应的各个单元格顶点；依据每个表格区域对应的各个单元格顶点，生成每个表格区域对应的各个单元格线段，继而确定每个表格区域对应的结构化表格。应用本发明实施例提供的装置，通过检测将表格图像中的线条和单元格分别提取出来，并结合单元格和线条的处理，确定表格区域中的各个单元格顶点，以生成单元格线段。将单元格与线条交叉点进行映射，有利于准确识别出单元格顶点，进而得到准确的单元格线段，有利于识别出精准的表格结构，提高表格识别的准确性。

本发明实施例提供的装置，可以进一步细化为各个单元，具体的单元功能可参见上述表格识别方法，在此不进行详细举例说明。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上述的表格识别方法。

本发明实施例还提供了一种电子设备，其结构示意图如图10所示，具体包括存储器301，以及一个或者一个以上的指令302，其中一个或者一个以上指令302存储于存储器301中，且经配置以由一个或者一个以上处理器303执行所述一个或者一个以上指令302进行以下操作：

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种表格识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定每个所述表格区域对应的交叉点集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述在各个所述单元格区域中，确定每个所述表格区域对应的各个目标单元格区域，包括：

确定每个所述单元格区域的单元格面积；

4.根据权利要求1所述的方法，其特征在于，所述依据该表格区域对应的交叉点集合和该表格区域对应的各个目标单元格区域，确定该表格区域对应的各个单元格顶点，包括：

5.根据权利要求4所述的方法，其特征在于，所述确定该表格区域对应的每个目标单元格区域所对应的各个轮廓点顶点，包括：

6.根据权利要求1所述的方法，其特征在于，所述依据每个所述表格区域对应的各个单元格线段，确定每个所述表格区域对应的结构化表格，包括：

7.根据权利要求6所述的方法，其特征在于，所述将该表格区域对应的各个单元格线段划分为多个线段集合，包括：

确定该表格区域对应的每个单元格线段所对应的线段位置；

8.一种表格识别装置，其特征在于，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1～7任意一项所述的表格识别方法。

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或者一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1～7任意一项所述的表格识别方法。