CN113343740A

CN113343740A - 表格检测方法、装置、设备和存储介质

Info

Publication number: CN113343740A
Application number: CN202010137085.3A
Authority: CN
Inventors: 杨志博; 龙如蛟; 高飞宇; 罗未萌; 王永攀
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-03-02
Filing date: 2020-03-02
Publication date: 2021-09-03
Anticipated expiration: 2040-03-02
Also published as: CN113343740B

Abstract

本发明实施例提供一种表格检测方法、装置、设备和存储介质，该方法包括：获取表格图像；将表格图像输入到表格检测模型中，以通过表格检测模型获取表格图像对应的多种单元格信息和多个线交叉点信息；根据多种单元格信息确定表格图像中包含的多个单元格区域；根据多个线交叉点信息对多个单元格区域进行边界校正，以获得边界校正后的多个单元格区域。在该方案中，结合包含单元格信息和线交叉点信息的多种维度信息，可以实现表格图像中单元格边界的准确检测。

Description

表格检测方法、装置、设备和存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种表格检测方法、装置、设备和存储介质。

背景技术

随着办公自动化和光学字符识别(Optical Character Recognition，简称OCR)技术的普及，将诸如工作等场景中存在的表格图像中包含的文字信息转换为以文档、Excel等格式输出的需求应运而生，基于这种转换处理，可以方便相关人员对表格图像中包含的文字信息进行存储、计算处理。表格图像例如为增值税发票、银行流水单、飞机行程单等。

为了实现上述转换目的，除了需要通过OCR技术识别表格图像中包含的文字外，还需要能够准确地检测出表格图像中包含的各个单元格的边界。因为需要基于单元格之间的邻接关系确定不同单元格内的文字之间的语义相关性，以理解不同单元格内的文字的物理含义。

基于此，准确地检测出表格图像中包含的各个单元格的边界是首先要解决的问题。

发明内容

本发明实施例提供一种表格检测方法、装置、设备和存储介质，能够准确地检测出表格图像中包含的各单元格的边框。

第一方面，本发明实施例提供一种表格检测方法，该方法包括：

获取表格图像；

将所述表格图像输入到表格检测模型中，以通过所述表格检测模型获取所述表格图像对应的多种单元格信息和多个线交叉点信息；

根据所述多种单元格信息确定所述表格图像中包含的多个单元格区域；

根据所述多个线交叉点信息对所述多个单元格区域进行边界校正，以获得边界校正后的多个单元格区域。

第二方面，本发明实施例提供一种表格检测装置，该装置包括：

获取模块，用于获取表格图像；

确定模块，用于将所述表格图像输入到表格检测模型中，以通过所述表格检测模型获取所述表格图像对应的多种单元格信息和多个线交叉点信息；根据所述多种单元格信息确定所述表格图像中包含的多个单元格区域；根据所述多个线交叉点信息对所述多个单元格区域进行边界校正，以获得边界校正后的多个单元格区域。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器；其中，存储器上存储有可执行代码，当所述可执行代码被处理器执行时，使处理器至少可以实现如第一方面所述的表格检测方法。

本发明实施例提供了一种非暂时性机器可读存储介质，非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使处理器至少可以实现如第一方面所述的表格检测方法。

在本发明实施例中，预先训练一个表格检测模型，以便结合该表格检测模型的输出信息，对表格图像中包含的单元格进行边界的准确检测。具体地，将表格图像输入到表格检测模型后，该表格检测模型可以输出多种单元格信息和多个线交叉点信息，其中，多种单元格信息是指从表格图像中识别出的各个单元格对应的多种信息，是对表格图像进行单元格粒度的识别得到的相关信息；多个线交叉点信息是指从表格图像中识别出的所有线交叉点的相关信息，是对表格图像进行全局的像素粒度的识别得到的相关信息。根据表格检测模型输出的多种单元格信息可以初步确定出表格图像中包含的多个单元格区域，此时确定出的多个单元格区域的边界可能不准确，为进一步提高准确性，需要根据表格检测模型输出的多个线交叉点信息对该多个单元格区域进行边界校正，以最终得到表格图像中包含的经过校正的多个单元格区域。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种表格检测方法的流程图；

图2为本发明实施例提供的一种根据单元格信息检测出的多个单元格区域的示意图；

图3为本发明实施例提供的一种线交叉点识别结果的示意图；

图4为本发明实施例提供的一种经过线交叉点进行边界校正后的多个单元格区域的示意图；

图5为本发明实施例提供的一种相邻单元格区域的不共边情形示意图；

图6为本发明实施例提供的一种表格检测方法的应用场景的示意图；

图7为本发明实施例提供的一种表格检测模型的结构示意图；

图8为本发明实施例提供的一种表格检测装置的结构示意图；

图9为与图8所示实施例提供的表格检测装置对应的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

本发明实施例提供的表格检测方法可以由一电子设备来执行，该电子设备可以是诸如PC机、笔记本电脑、智能手机等终端设备，也可以是服务器。该服务器可以是包含一独立主机的物理服务器，或者也可以为虚拟服务器，或者也可以为云端服务器或服务器集群。

本发明实施例提供的表格检测方法可以适用于需要对任一种表格图像进行单元格边界的准确检测的应用场景。其中，这里的表格图像是指包含有表格的图像。实际应用中，表格图像可以是对纸质票据进行拍照、扫描得到的图像，其中，纸质票据中包含有表格。例如，纸质票据为增值税发票、银行流水单、飞机行程单、施工单，等等。

举例来说，一种需要对表格图像进行单元格边界的准确检测的应用场景为：需要生成与表格图像中包含的表格相对应的一个Excel表格。可以理解的是，生成的Excel表格与表格图像中包含的表格，在对应单元格的尺寸和整个表格的尺寸上并不一定完全一致，但是，单元格的位置关系、对应单元格中包含的文字却是一致的，比如，表格图像中表格的第i行第j列的单元格A_ij与生成的Excel表格中的第i行第j列的单元格B_ij对应，单元格A_ij与单元格B_ij的尺寸未必相同，但是其中填充的文字内容却是相同的，只是文字大小可以不同。

下面结合以下实施例对本文提供的表格检测方法的执行过程进行示例性说明。

图1为本发明实施例提供的一种表格检测方法的流程图，如图1所示，该方法包括如下步骤：

101、获取表格图像，将表格图像输入到表格检测模型中，以通过表格检测模型获取表格图像对应的多种单元格信息和多个线交叉点信息。

102、根据多种单元格信息确定表格图像中包含的多个单元格区域。

103、根据多个线交叉点信息对多个单元格区域进行边界校正，以获得边界校正后的多个单元格区域。

在本发明实施例中，预先训练一个表格检测模型，以便结合该表格检测模型的输出信息，对表格图像中包含的单元格进行边界的准确检测。本实施例中先不对表格检测模型的训练过程进行说明，训练过程将在后续其他实施例中说明，这里先对该表格检测模型的作用进行说明。

将表格图像输入到表格检测模型后，该表格检测模型可以输出多种单元格信息和多个线交叉点信息。

其中，多种单元格信息是指从表格图像中识别出的用以表征各个单元格的多种信息，是对表格图像进行单元格粒度的识别得到的相关信息。实际上，该表格检测模型具体可以通过边框回归方式输出这多种单元格信息。

其中，多个线交叉点信息是指从表格图像中识别出的所有线交叉点的相关信息，是对表格图像进行全局的像素粒度的识别得到的相关信息。实际上，该表格检测模型具体可以通过像素分类方式输出多个线交叉点信息，其中，像素分类方式是指确定表格图像中的像素是否位于线交叉点上，也就是对表格图像中的像素进行二分类处理——位于线交叉点上，或者，不位于线交叉点上。其中，这里的线是指表格图像中表格区域中的所有线条。

由此可见，将单元格检测(通过边框回归方式进行单元格检测)和关键点检测(该关键点是指线交叉点)的过程整合在同一表格检测模型中，不仅可以提高表格检测效率，由于表格检测模型可以输出多种维度的信息来进行表格图像中单元格区域的检测(亦即单元格边界的检测)，还可以保证单元格区域的检测结果更加准确。

概括来说，在对表格图像进行单元格区域检测的过程中，首先，根据表格检测模型输出的多种单元格信息可以初步确定出表格图像中包含的多个单元格区域，即初步得到多个单元格的边界。此时得到的多个单元格区域的边界的准确度可能不佳，为进一步提高准确性，其次，需要根据表格检测模型输出的多个线交叉点信息对该多个单元格区域进行边界校正，以最终得到表格图像中包含的校正后的各个单元格区域，即最终确定表格图像中各个单元格的边界。

需要说明的是：本文中所说的表格图像中包含的多个单元格区域与表格图像中包含的各个单元格区域，是同一含义。另外，单元格区域与单元格边界也可以做同一理解，因为单元格区域即为由相应边界围城的区域。

下面来具体阐述如何根据上述多种单元格信息和多个线交叉点信息来检测出表格图像中包含的多个单元格区域。

可选地，上述多种单元格信息可以包括：表格图像中多个单元格各自对应的中心点坐标及四个顶点相距中心点坐标的距离。

可选地，该多种单元格信息中除了上述两种信息外，还可以包括：多个单元格各自对应的中心点坐标偏移量。

也就是说，表格检测模型可以输出其检测到的所有单元格的相关信息，针对任一单元格来说，该相关信息包括：该单元格的中心点坐标、中心点坐标偏移量、该单元格的四个顶点相距该中心点坐标的距离。

本文中，坐标是指相对应像素的坐标，距离是指像素间距离。

基于上述多种单元格信息，在根据多种单元格信息确定表格图像中包含的多个单元格区域的过程中，如果上述多种单元格信息中包括中心点坐标偏移量，那么需要先根据多个单元格各自对应的中心点坐标偏移量修正多个单元格各自对应的中心点坐标。之后，基于多个单元格各自对应的修正后的中心点坐标以及多个单元格各自对应的四个顶点相距中心点坐标的距离，确定多个单元格的四个顶点坐标，从而，根据多个单元格的四个顶点坐标确定出多个单元格区域，即每个单元格的四个顶点坐标做围成的矩形区域即为相应单元格区域。当然，若不包含中心点坐标偏移量，则直接根据多个单元格各自对应的中心点坐标以及四个顶点相距中心点坐标的距离，确定多个单元格的四个顶点坐标，根据多个单元格的四个顶点坐标确定出多个单元格区域。

其中，针对任一单元格来说，根据该单元格对应的中心点坐标偏移量对其中心点坐标进行修正，可以是将该中心点坐标与中心点坐标偏移量的加和结果作为修正后的中心点坐标。

为便于直观地感知基于多种单元格信息对表格图像进行单元格区域检测得到的结果，下面结合图2来进行示例性说明。在图2中，假设表格图像为图中示意的某工程报价单图像，在该图像中包括的表格如图中所示。将该表格图像输入到表格检测模型后，表格检测模型输出的多种单元格信息。基于这些单元格信息，如图2中所示，可以从表格图像中检测出多个单元格区域，在图2中，黑点表示这些单元格区域的顶点，连接每个单元格区域的四个顶点所形成的矩形区域即为单元格区域。

以上根据多种单元格信息从表格图像中检测出的多个单元格区域，可以认为是初始得到的检测结果。由于仅使用了表格检测模型基于边框回归方式识别出的单元格信息，如果识别出的单元格信息不准确，将导致上述多个单元格区域的检测结果不准确。因为，为了保证表格图像中单元格区域的检测结果准确性，需要结合表格检测模型输出的另一个维度的特征——多个线交叉点信息，对已经得到的多个单元格区域进行边界校正。

可选地，上述多个线交叉点信息可以包括：多个线交叉点坐标，即从表格图像中识别出的所有线交叉点的坐标。可选地，该多个线交叉点信息中除了上述多个线交叉点坐标外，还可以包括：多个线交叉点坐标各自对应的偏移量。基于此，当包含该多个线交叉点坐标各自对应的偏移量时，可以根据多个线交叉点坐标各自对应的偏移量修正多个线交叉点坐标，再根据修正后的多个线交叉点坐标对已经得到的上述多个单元格区域进行边界校正。当然，若不包含该多个线交叉点坐标各自对应的偏移量，则直接根据多个线交叉点坐标对已经得到的上述多个单元格区域进行边界校正。

其中，针对任一线交叉点坐标来说，根据该线交叉点坐标对应的偏移量对其进行修正，可以是将该线交叉点坐标与其对应的偏移量的加和结果作为修正后的线交叉点坐标。

为便于理解，结合图3示例性说明了表格检测模型对表格图像的线交叉点的识别结果。在图3中，假设表格图像仍为图2中示意的某工程报价单图像。将该表格图像输入到表格检测模型后，表格检测模型输出的多个线交叉点信息可以是图3中以黑点示意的众多线交叉点的坐标。

在一可选实施例中，在根据多个线交叉点坐标(可以是修正后的多个线交叉点坐标)对多个单元格区域进行边界校正之前，还可以包括如下对多个线交叉点坐标进行去重的步骤：

对多个线交叉点坐标中的第一线交叉点坐标，若在设定距离范围内存在至少一个第二线交叉点坐标，则将第一线交叉点坐标和该至少一个第二线交叉点坐标合并为第三线交叉点坐标，其中，第一线交叉点坐标为多个线交叉点坐标中的任一个。其上述预设距离范围比如为5-10个像素的距离。

可选地，第三线交叉点坐标可以是第一线交叉点坐标和所述至少一个第二线交叉点坐标对应的中心坐标，比如对第一线交叉点坐标和至少一个第二线交叉点坐标的横坐标和纵坐标分别取平均得到横坐标均值和纵坐标均值，由横坐标均值和纵坐标均值构成第三线交叉点坐标。

在实际应用中，表格图像中的某个单元格内的文字可能压线到某个线交叉点，此时，受到该文字的干扰，表格检测模型可能输出与该线交叉点对应的m个线交叉点坐标，m大于1，也就是说，表格检测模型输出的结果为：在很小距离范围存在m个线交叉点坐标，此时，需要对这m个线交叉点坐标进行去重处理。如图3中所示，假设单元格301中的文字压线到了该单元格右下角的线交叉点，从而表格检测模型输出了如图3中示意的m个线交叉点坐标。

下面对根据多个线交叉点坐标(可以是经过去重处理后剩余的多个线交叉点坐标)对已经得到的上述多个单元格区域进行边界校正的过程进行说明。具体地，该边界校正过程可以实现为如下步骤：

对于多个单元格区域中的第一单元格区域，分别以第一单元格区域对应的四个顶点坐标为圆心，以预设距离为半径，从多个线交叉点坐标中筛选出位于该半径覆盖范围内的多个候选线交叉点坐标，第一单元格区域是多个单元格区域中的任一个；

对于第一单元格区域的四个顶点坐标中的任一顶点坐标，从多个候选线交叉点坐标中确定与该任一顶点坐标距离最近的目标候选线交叉点坐标；

确定该目标候选线交叉点坐标与该任一顶点坐标之间的距离小于第一阈值，以目标候选线交叉点坐标更新该任一顶点坐标。

其中，作为上述半径的预设距离比如为20个像素，上述第一阈值比如为10个像素。

其中，可选地，在进行多个候选线交叉点坐标的选取过程中，除了以上述四个顶点坐标为圆心外，还可以进一步加上以第一单元格区域对应的中心点坐标为圆心，从而，最终得到的多个候选线交叉点坐标中还包括以该中心点坐标为圆心，以上述预设距离为半径界定的圆形区域内包含的线交叉点坐标。

其中，假设一共获得K个候选线交叉点坐标，假设上述任一顶点坐标表示为Lxy，分别计算Lxy与K个候选线交叉点坐标之间的距离，从中选择距离最小的一个候选线交叉点坐标作为与Lxy对应的目标候选线交叉点坐标。如果Lxy与距离其最近的目标候选线交叉点坐标之间的距离小于第一阈值，则认为该目标候选线交叉点可以替换Lxy。针对第一单元格区域对应的四个顶点坐标都进行该计算过程的处理，便可以确定是否需要更新其中的某个顶点坐标。可以理解的是，如果这四个顶点坐标中的某个顶点坐标与相距其最近的目标候选线交叉点坐标之间的距离大于第一阈值，则说明此时该顶点坐标无需更新，保留即可。

仍以上述顶点坐标Lxy为例，之所以以Lxy对应的满足上述阈值条件的目标候选线交叉点坐标替换Lxy，是因为本文中认为线交叉点信息的识别准确性高于单元格信息的识别准确性，因为线交叉点信息是基于图像分割即像素分类的方式得到的。

另外，可选地，在更新了第一单元格区域对应的顶点坐标之后，还可以基于更新后得到的四个顶点坐标更新该第一单元格区域对应的中心点坐标。

针对从表格图像中已经得到的多个单元格区域都进行上述以第一单元格区域示例的边界校正处理过程，即完成了对多个单元格区域的边界校正。

为便于直观地感知经过上述边界校正处理过程得到的结果，下面结合图4来进行示例性说明。图4中仍以图2中所示意的表格图像为例来说明，如图4中所示，经过图3中示意的多个线交叉点坐标对图2中示意的多个单元格区域进行边界校正处理后，会得到以图4中示意的多个单元格区域，这些单元格区域的顶点以图4中的黑点示意，从而，连接每个单元格区域对应的四个顶点坐标，便得到各单元格区域。

值得说明的是，图4所示意的边界校正结果是一种比较理想的情形，实际上，还有可能存在如图5中所示的情况：

假设某表格图像中存在如图5中示意的左右邻接的两个单元格501和502，但是，假设基于上述边界校正处理过程得到的与这两个单元格对应的顶点坐标如图5中的黑点所示，由这些顶点坐标可以得到图5中示意的两个单元格区域503和504。由此可见，由于单元格501和502在表格图像中是左右邻接的，存在一条公共的边界线L，但是上述边界校正结果却显示单元格区域503和504并不存在这条公共的边界线，而是单元格区域503的右边界线为L1，单元格区域504的左边界线为L2，这显然是不对的，因此，需要对单元格区域503和504进行单元格行列对齐处理。其中，边界线L1上的两个顶点坐标分别表示为A1、B1，边界线L2上的两个顶点坐标分别表示为A2、B2。

单元格行列对齐处理的过程可以实现为如下步骤：

确定与第一单元格区域邻接的第二单元格区域；

确定第一单元格区域中与第二单元格区域邻接的第一边界线，以及确定第二单元格区域中与第一单元格区域邻接的第二边界线；

对于第一边界线上的两个顶点坐标中的第一顶点坐标，从第二边界线上的两个顶点坐标中确定与第一顶点坐标距离最近的第二顶点坐标，其中，第一顶点坐标是第一边界线上的两个顶点坐标中的任一个；

确定第一顶点坐标与第二顶点坐标之间的距离小于第二阈值，将第一边界线与第二边界线合并。

仍结合图5中的举例对上述单元格行列对齐过程进行说明。上述第一单元格区域对应于图5中的单元格区域503，第二单元格区域对应于图5中的单元格区域504，第一边界线对应于图4中的边界线L1，第二边界线对应于图5中的边界线L2。假设第一顶点坐标为A1，分别计算A1与边界线L2上的两个顶点坐标A2和B2之间的距离，选取距离最小的坐标A2作为与A1对应的第二顶点坐标。同样地，假设第一顶点坐标为B1，分别计算B1与边界线L2上的两个顶点坐标A2和B2之间的距离，选取距离最小的坐标B2作为与B1对应的第二顶点坐标。

基于上述假设，如果A1与A2之间的距离，以及B1与B2之间的距离都小于上述第二阈值，则认为A1与A2应该合并、B1与B2应该合并。从而，将边界线L1与边界线L2合并为一条边界线L。

实际应用中，可选地，如果第一单元格区域与第二单元格区域为图5中示意的左右邻接情况(第一单元格区域位于左侧，第二单元格区域位于右侧)，则可以将第二单元格区域的左边界线以第一单元格区域的右边界线替换。

类似地，如果第一单元格区域与第二单元格区域为上下邻接情况(第一单元格区域位于上侧，第二单元格区域位于下侧)，则可以将第二单元格区域的上边界线以第一单元格区域的下边界线替换。

可以理解的是，在得到经过边界校正处理的多个单元格区域后，可以根据相邻两个单元格区域各自对应的中心点坐标的位置关系确定这两个单元格区域之间的邻接关系是左右邻接还是上下邻接。

另外，考虑到边框回归方式识别出的边界精度与单元格边界线的长度相关，即边界线较长的单元格的识别结果更为不准，故本发明实施例中采用了动态阈值算法来确定上述第二阈值。具体来说，可以根据上述第一边界线和第二边界线的长度确定第二阈值，比如第二阈值确定为第一边界线和第二边界线中的最大长度值的0.1倍。

在上述实施例中说明了通过多个线交叉点信息对根据多种单元格信息从表格图像中检测出的多个单元格区域进行边界校正的过程。实际上，除此之外，可选地，还可以根据包含于表格图像中的表格所对应的类型来辅助进行多个单元格区域的校正过程。也就是说，可以先识别出表格图像中包含的表格类型，再根据该表格类型对应的表格模板对上述多个单元格区域(该多个单元格区域可以是根据多种单元格信息从表格图像中检测出的多个单元格区域，也可以是经过多个线交叉点信息校正后的多个单元格区域)进行校正。

其中，可选地，可以通过OCR技术识别表格图像中目标区域的文字。该目标区域往往是表格名称的所处的位置区域，从而，在该目标区域识别出的文字即为表格名称，根据表格名称可以确定表格类型。

在一些实际场景中，该目标区域的文字可能并不是直接包含表格名称，此时，为了识别出表格类型，可选地，还可以通过OCR技术识别出表格图像中包含的全部文字或某些位置区域内的文字，并且，预先建立表格类型与关键词的对应关系，从而，如果从表格图像中识别出的文字中包含与某表格类型对应的关键词匹配的文字，则认为该表格类型为该表格图像对应的表格类型。

表格类型比如为：增值税发票、飞机行程单、银行流水单，等等。

一些表格类型的表格往往具有标准的样式，不可修改。这样，可以针对不同表格类型设置相应的表格模板，该表格模板是指不填充内容的空白表格。

假设确定当前的表格图像对应的表格类型为类型a，根据类型对应的表格模板对从该表格图像中识别出的多个单元格区域进行校正的过程，简单来说就是：根据表格模板中各个单元格(为区别，称为参考单元格)的位置关系以及多个单元格区域彼此的位置关系，确定多个单元格区域在表格模板中各自对应的参考单元格，根据参考单元格的边界修正相应单元格区域的边界。

综上，至此可以得到表格图像中包含的各个单元格区域，即得知每个单元格的边界。

在基于上述方案完成了对表格图像中包含的多个单元格区域进行检测之后，还可以根据不同需求，对该表格图像进行其他处理，以最终获得想要得到的输出结果。在本发明实施例中，对表格图像进行的其他处理，概括来说是：识别表格图像中包含的多个文字块以及多个文字块各自对应的位置信息；根据多个文字块各自对应的位置信息，确定多个文字块与最终检测出的多个单元格区域间的对应关系；根据该对应关系，输出与表格图像对应的文本信息。

具体地，通过OCR技术对表格图像进行文字块的提取。其中，所谓文字块可以认为是由横向上位置相邻的多个文字构成的。在通过OCR技术识别表格图像中的文字的过程中，如果识别出的左右相邻的两个字之间的间隙小于设定距离，则认为这两个文字属于同一文字块。而且，在对表格图像进行OCR识别的过程中，也会得到每个文字在表格图像中的位置信息，基于此，由同一文字块中各文字的位置信息便可以得到该文字块对应的位置信息。由于经过上文中的方案已经检测出表格图像中包含的各个单元格区域即得知各单元格区域的位置信息，因此，基于文字块的位置信息与单元格区域的位置信息的匹配性便可以得到文字块与单元格区域的对应关系。可以理解的是，该匹配性是指：若某个文字块与某个单元格区域匹配，则该文字块的位置信息所界定出的覆盖区域位于该单元格区域内。

可选地，根据多个文字块与多个单元格区域间的对应关系，输出与表格图像对应的文本信息，可以实现为：

生成与多个单元格区域对应的表格；根据上述对应关系，将多个文字块填充到所述表格中，输出该表格。

在该实现方式中，最终目的是将表格图像转换为一个Excel表格，在该表格中体现了表格图像中多个单元格区域之间的位置关系，也体现了表格图像中包含的文字与多个单元格区域的对应关系。

为便于理解，下面结合图6来示例上述两种应用场景。

在图6中，仍以图2中示意的表格图像为例，如前文所述，将表格图像输入到表格检测模型后，表格检测模型输出多种单元格信息和多个线交叉点信息，基于多种单元格信息可以得到初始的多个单元格区域，通过多个线交叉点信息对该多个单元格区域进行边界校正得到校正后的多个单元格区域。除了对表格图像进行单元格区域的检测外，还识别其中包含的多个文字块，确定多个文字块与多个单元格区域的对应关系。在图6中，该文字块即为表格图像中每个单元格内包含的文字。

之后，在图6中，可以基于多个单元格区域的检测结果得知多个单元格区域的位置关系，从而，根据该位置关系特征可以生成图中示意的Excel表格。可以理解的是，该Excel表格中的单元格与表格图像中检测出的单元格区域一一对应，但是，该对应并不要求Excel表格中的某个单元格的尺寸一定要与对应的单元格区域的尺寸完全一致。也就是说，Excel表格中的多个单元格只要能够再现表格图像中的多个单元格区域的位置关系即可。另外，根据已经得到的多个文字块和多个单元格区域的对应关系，将这些文字块填充到Excel表格中的对应单元格内。可以理解的是，该文字块在填充到Excel表格中的对应单元格内时，字体和字号都可以预先设定。

除此之外，可选地，根据多个文字块与多个单元格区域间的对应关系，输出与表格图像对应的文本信息，还可以实现为：根据上述对应关系以及多个单元格区域的邻接关系，确定多个文字块之间的键值关系；根据该键值关系输出多个文字块，其实也就是输出表格图像对应的文本统计信息。

在该实现方式中，最终目的是输出表格图像中包含的文字内容——上述多个文字块，只是，如果仅仅将OCR识别出的多个文字块直接地输出，这些文字块是孤立的，并不能感知到这些文字块的物理含义，而在表格图像中，这些文字块的物理含义是通过各自对应的多个单元格区域的邻接关系体现的，因此，根据单元格区域的邻接关系，对相邻的几个单元格内的文字块进行语义分析，以便得出具有键值(Key-Value)关系的多组文字块，进而按照该键值关系输出这些文字块。

仍以图2中示意的表格图像为例，此时输出的文本信息可以是：

工程地址：

客户名称：

工程总价款：壹拾伍万肆仟贰佰玖拾柒元整；

包括如下工程项目：

实木地板：18.5平米，单价306；

墙面贴砖：24.6平米，单价68；

吊板雕花：18.5平米，单价380。

下面对本发明实施例中涉及到的表格检测模型的训练过程和结构进行说明。

表格检测模型可以包括主干网络和输出网络，其中，主干网络可以实现为多种神经网络模型，比如：卷积神经网络(Convolutional Neural Network，简称CNN)模型；残差网络(Residual Network，简称ResNet)模型，如ResNet-18；DLA-34模型，等等。

以ResNet-18为例，该网络模型具有多层结构，为了能够将低层的特征引入到高层，以提高表格检测模型的检测性能，还可以将特征图金字塔网络(Feature PyramidNetworks，简称FPN)加入到ResNet-18中，以形成如图8中示意的ResNet18-FPN结构。

如图7中所示，表格检测模型的输出网络可以包括图中示意的五个输出层，这五个输出层分别用于输出前述实施例中提到的多种单元格信息和线交叉点信息，具体为：单元格的中心点坐标、单元格的中心点坐标偏移量、单元格的四个顶点相距中心点坐标的距离、线交叉点坐标、线交叉点坐标的偏移量。

在图7中，与这五个输出层连接的是主干网络最后一层输出的特征图。该特征图可以是相对输入的表格图像，经过n次下采样的特征图，n比如为2、3。

实际应用中，由于输入的表格图像有可能存在表格尺寸很大的情况，比如某些单元格的长度很长。为了能够让表格检测模型具有更大的感受野，可选地，可以在ResNet-18的第一个残差模块中加上几次下采样操作，从而扩大模型的感受野，比如为1024x1024。

以上对表格检测模型的结构进行了介绍，下面对表格检测模型的训练过程进行说明。

在训练过程中，首先需要获取用于训练表格检测模型的训练样本图像，该训练样本图像中包括表格，即为表格图像。之后，需要根据上述五个输出层的需求，对训练样本图像进行标注，以便基于标注信息(即监督信息)对表格检测模型进行有监督训练。

对应于上述五个输出层，可以理解的是，需要对训练样本图像进行标注的监督信息包括：单元格的中心点坐标、中心点坐标偏移量、单元格的四个顶点坐标、线交叉点坐标、线交叉点坐标的偏移量。

其中，单元格的中心点坐标的标注，通过测量每个单元格的中心点，在中心点上打上标记即可。同理，通过在每个单元格的顶点上打上标记即可完成单元格的四个顶点坐标的标注。

根据表格检测模型对训练样本图像的下采样倍数，生成与中心点坐标偏移量对应的标注信息。具体地，对中心点坐标偏移量的标注可以通过计算的方式得到：

x₁＝x₀/2ⁿ-int(x₀/2ⁿ)，y₁＝y₀/2ⁿ-int(y₀/2ⁿ)；

其中，(x₀,y₀)分别是某单元格的中心点坐标的横坐标和纵坐标，(x₁,y₁)分别是所述横坐标和所述纵坐标对应的偏移量，int()为向下取整运算符，n表示表格检测模型对训练样本图像进行了2ⁿ倍的下采样处理。可以理解为是图7中示意的与五个输出层连接的特征图的维数是训练样本图像的维数的1/2ⁿ倍。

之所以以(x₁,y₁)作为中心点坐标偏移量的监督信息是因为，训练样本图像经过表格检测模型的多次下采样处理后，中心点坐标的准确度由于下采样的操作会有丢失，需要将该丢失补回，该丢失即体现为上述中心点坐标偏移量。

针对训练样本图像中的表格的线交叉点对应的监督信息的标注，可以实现为：标注出线交叉点坐标，之后，确定以该线交叉点坐标为中心，预设数值为半径的高斯分布作为该线交叉点坐标对应的监督信息。其中，该预设数值比如为2个像素、3个像素。

之所以以上述高斯分布作为线交叉点的监督信息，是因为实际上，表格中的线是具有一定宽度的，两条线的交叉点的宽度(或者说面积)相比于这两条线各自的宽度来说更大，因为，为了体现线交叉点的这种特征，进行了上述监督信息的标注。

与中心点坐标偏移量相似地，也可以根据表格检测模型对训练样本图像的下采样倍数，生成与线交叉点坐标的偏移量对应的标注信息。具体地，针对线交叉点坐标的偏移量的监督信息的标注，可以实现为：

x’＝x/2ⁿ-int(x/2ⁿ)，y’＝y/2ⁿ-int(y/2ⁿ)；

其中，(x,y)分别是所述线交叉点坐标的横坐标和纵坐标，(x’,y’)分别是横坐标和纵坐标对应的偏移量，int()为向下取整运算符，n表示表格检测模型对训练样本图像进行了2ⁿ倍的下采样处理。

在上述监督信息的监督下，对表格检测模型进行训练，最终可以得到收敛的表格检测模型。

以下将详细描述本发明的一个或多个实施例的表格检测装置。本领域技术人员可以理解，这些表格检测装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图8为本发明实施例提供的一种表格检测装置的结构示意图，如图8所示，该装置包括：获取模块11、确定模块12。

获取模块11，用于获取表格图像。

确定模块12，用于将所述表格图像输入到表格检测模型中，以通过所述表格检测模型获取所述表格图像对应的多种单元格信息和多个线交叉点信息；根据所述多种单元格信息确定所述表格图像中包含的多个单元格区域；根据所述多个线交叉点信息对所述多个单元格区域进行边界校正，以获得边界校正后的多个单元格区域。

可选地，所述表格检测模型通过边框回归方式输出所述多种单元格信息，所述表格检测模型通过像素分类方式输出所述多个线交叉点信息，所述像素分类方式是指确定像素是否位于线交叉点。

可选地，所述多种单元格信息包括：多个单元格各自对应的中心点坐标及四个顶点相距所述中心点坐标的距离。从而，在根据所述多种单元格信息确定所述表格图像中包含的多个单元格区域的过程中，确定模块12具体可以用于：根据所述多个单元格各自对应的中心点坐标及四个顶点相距所述中心点坐标的距离，确定所述多个单元格的四个顶点坐标；根据所述多个单元格的四个顶点坐标确定所述多个单元格区域。

可选地，所述多种单元格信息包括：多个单元格各自对应的中心点坐标偏移量。从而，确定模块12还可以用于：根据所述多个单元格各自对应的中心点坐标偏移量修正所述多个单元格各自对应的中心点坐标。

可选地，所述多个线交叉点信息包括：多个线交叉点坐标。从而，在根据所述多个线交叉点信息对所述多个单元格区域进行边界校正的过程中，确定模块12具体可以用于：根据所述多个线交叉点坐标对所述多个单元格区域进行边界校正。

可选地，所述多个线交叉点信息包括：所述多个线交叉点各自对应的偏移量。从而，确定模块12还可以用于：根据所述多个线交叉点坐标各自对应的偏移量修正所述多个线交叉点坐标。

可选地，所述装置还可以包括：去重模块，用于对所述多个线交叉点坐标中的第一线交叉点坐标，若在设定距离范围内存在至少一个第二线交叉点坐标，则将所述第一线交叉点坐标和所述至少一个第二线交叉点坐标合并为第三线交叉点坐标，所述第一线交叉点坐标为所述多个线交叉点坐标中的任一个。

其中，可选地，去重模块具体可以用于：确定所述第三线交叉点坐标包括所述第一线交叉点坐标和所述至少一个第二线交叉点坐标对应的中心坐标。

可选地，在根据所述多个线交叉点坐标对所述多个单元格区域进行边界校正的过程中，确定模块12具体可以用于：对于所述多个单元格区域中的第一单元格区域，分别以所述第一单元格区域对应的四个顶点坐标为圆心，以预设距离为半径，从所述多个线交叉点坐标中筛选出位于所述半径覆盖范围内的多个候选线交叉点坐标；所述第一单元格区域是所述多个单元格区域中的任一个；对于所述第一单元格区域的四个顶点坐标中的任一顶点坐标，从所述多个候选线交叉点坐标中确定与所述任一顶点坐标距离最近的目标候选线交叉点坐标；确定所述目标候选线交叉点坐标与所述任一顶点坐标之间的距离小于第一阈值，以所述目标候选线交叉点坐标更新所述任一顶点坐标。

确定模块12还可以用于：根据第一单元格区域对应的更新后的四个顶点坐标，更新所述第一单元格区域对应的中心点坐标。

可选地，所述装置还可以包括：对齐模块，用于确定与所述第一单元格区域邻接的第二单元格区域；确定所述第一单元格区域中与所述第二单元格区域邻接的第一边界线，以及确定所述第二单元格区域中与所述第一单元格区域邻接的第二边界线；对于所述第一边界线上的两个顶点坐标中的第一顶点坐标，从所述第二边界线上的两个顶点坐标中确定与所述第一顶点坐标距离最近的第二顶点坐标，所述第一顶点坐标是所述第一边界线上的两个顶点坐标中的任一个；确定所述第一顶点坐标与所述第二顶点坐标之间的距离小于第二阈值；将所述第一边界线与所述第二边界线合并。

可选地，对齐模块还可以用于：根据所述第一边界线和所述第二边界线的长度，确定所述第二阈值。

可选地，所述装置还可以包括：训练模块，用于获取用于训练所述表格检测模型的训练样本图像，所述训练样本图像中包括表格；接收对所述训练样本图像的标注信息，所述标注信息包括所述表格中的线交叉点坐标；确定以所述线交叉点坐标为中心，预设数值为半径的高斯分布，作为所述线交叉点坐标对应的监督信息。

可选地，训练模块还可以用于：根据表格检测模型对训练样本图像的下采样倍数，生成与线交叉点坐标的偏移量对应的标注信息。具体地，可以根据如下方式确定所述线交叉点坐标对应的偏移量：

x’＝x/2ⁿ-int(x/2ⁿ)，y’＝y/2ⁿ-int(y/2ⁿ)；

其中，(x,y)分别是所述线交叉点坐标的横坐标和纵坐标，(x’,y’)分别是所述横坐标和所述纵坐标对应的偏移量，int()为向下取整运算符，n表示所述表格检测模型对训练样本图像进行了2ⁿ倍的下采样处理。

可选地，确定模块12还可以用于：识别所述表格图像中包含的表格类型；根据所述表格类型对应的表格模板对所述多个单元格区域进行校正。

可选地，所述装置还可以包括：文本处理模块，用于识别所述表格图像中包含的多个文字块以及所述多个文字块各自对应的位置信息；根据所述多个文字块各自对应的位置信息，确定所述多个文字块与所述多个单元格区域间的对应关系；根据所述对应关系，输出与所述表格图像对应的文本信息。

可选地，在根据所述对应关系，输出与所述表格图像对应的文本信息的过程中，文本处理模块可以用于：生成与所述多个单元格区域对应的表格；根据所述对应关系，将所述多个文字块填充到所述表格中；输出所述表格。

可选地，在根据所述对应关系，输出与所述表格图像对应的文本信息的过程中，文本处理模块可以用于：根据所述对应关系以及所述多个单元格区域的邻接关系，确定所述多个文字块之间的键值关系；根据所述键值关系输出所述多个文字块。

图8所示装置可以执行前述图1至图7所示实施例中提供的表格检测方法，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

在一个可能的设计中，上述图8所示表格检测装置的结构可实现为一电子设备，如图9所示，该电子设备可以包括：处理器21、存储器22。其中，存储器22上存储有可执行代码，当所述可执行代码被处理器21执行时，使处理器21至少可以实现如前述图1至图7所示实施例中提供的表格检测方法。

可选地，该电子设备中还可以包括通信接口23，用于与其他设备进行通信。

另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述图1至图7所示实施例中提供的表格检测方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例提供的表格检测方法可以由某种程序/软件来执行，该程序/软件可以由网络侧提供，前述实施例中提及的电子设备可以将该程序/软件下载到本地的非易失性存储介质中，并在其需要执行前述表格检测方法时，通过CPU将该程序/软件读取到内存中，进而由CPU执行该程序/软件以实现前述实施例中所提供的表格检测方法，执行过程可以参见前述图1至图7中的示意。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种表格检测方法，其特征在于，包括：

获取表格图像；

2.根据权利要求1所述的方法，其特征在于，所述表格检测模型通过边框回归方式输出所述多种单元格信息，所述表格检测模型通过像素分类方式输出所述多个线交叉点信息，所述像素分类方式是指确定像素是否位于线交叉点。

3.根据权利要求1所述的方法，其特征在于，所述多种单元格信息包括：多个单元格各自对应的中心点坐标及四个顶点相距所述中心点坐标的距离；

所述根据所述多种单元格信息确定所述表格图像中包含的多个单元格区域，包括：

根据所述多个单元格各自对应的中心点坐标及四个顶点相距所述中心点坐标的距离，确定所述多个单元格的四个顶点坐标；

根据所述多个单元格的四个顶点坐标确定所述多个单元格区域。

4.根据权利要求3所述的方法，其特征在于，所述多种单元格信息包括：多个单元格各自对应的中心点坐标偏移量；

所述确定所述多个单元格的四个顶点坐标之前，还包括：

根据所述多个单元格各自对应的中心点坐标偏移量修正所述多个单元格各自对应的中心点坐标。

5.根据权利要求1所述的方法，其特征在于，所述多个线交叉点信息包括：多个线交叉点坐标；

所述根据所述多个线交叉点信息对所述多个单元格区域进行边界校正，包括：

根据所述多个线交叉点坐标对所述多个单元格区域进行边界校正。

6.根据权利要求5所述的方法，其特征在于，所述多个线交叉点信息包括：所述多个线交叉点各自对应的偏移量；

所述根据所述多个线交叉点坐标对所述多个单元格区域进行边界校正之前，还包括：

根据所述多个线交叉点坐标各自对应的偏移量修正所述多个线交叉点坐标。

7.根据权利要求5所述的方法，其特征在于，所述根据所述多个线交叉点坐标对所述多个单元格区域进行边界校正之前，还包括：

对所述多个线交叉点坐标中的第一线交叉点坐标，若在设定距离范围内存在至少一个第二线交叉点坐标，则将所述第一线交叉点坐标和所述至少一个第二线交叉点坐标合并为第三线交叉点坐标，所述第一线交叉点坐标为所述多个线交叉点坐标中的任一个。

8.根据权利要求7所述的方法，其特征在于，所述第三线交叉点坐标包括所述第一线交叉点坐标和所述至少一个第二线交叉点坐标对应的中心坐标。

9.根据权利要求5所述的方法，其特征在于，所述根据所述多个线交叉点坐标对所述多个单元格区域进行边界校正，包括：

对于所述多个单元格区域中的第一单元格区域，分别以所述第一单元格区域对应的四个顶点坐标为圆心，以预设距离为半径，从所述多个线交叉点坐标中筛选出位于所述半径覆盖范围内的多个候选线交叉点坐标；所述第一单元格区域是所述多个单元格区域中的任一个；

对于所述第一单元格区域的四个顶点坐标中的任一顶点坐标，从所述多个候选线交叉点坐标中确定与所述任一顶点坐标距离最近的目标候选线交叉点坐标；

确定所述目标候选线交叉点坐标与所述任一顶点坐标之间的距离小于第一阈值，以所述目标候选线交叉点坐标更新所述任一顶点坐标。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

根据第一单元格区域对应的更新后的四个顶点坐标，更新所述第一单元格区域对应的中心点坐标。

11.根据权利要求9所述的方法，其特征在于，所述方法还包括：

确定与所述第一单元格区域邻接的第二单元格区域；

确定所述第一单元格区域中与所述第二单元格区域邻接的第一边界线，以及确定所述第二单元格区域中与所述第一单元格区域邻接的第二边界线；

对于所述第一边界线上的两个顶点坐标中的第一顶点坐标，从所述第二边界线上的两个顶点坐标中确定与所述第一顶点坐标距离最近的第二顶点坐标，所述第一顶点坐标是所述第一边界线上的两个顶点坐标中的任一个；

确定所述第一顶点坐标与所述第二顶点坐标之间的距离小于第二阈值；

将所述第一边界线与所述第二边界线合并。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

根据所述第一边界线和所述第二边界线的长度，确定所述第二阈值。

13.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取用于训练所述表格检测模型的训练样本图像，所述训练样本图像中包括表格；

接收对所述训练样本图像的标注信息，所述标注信息包括所述表格中的线交叉点坐标；

确定以所述线交叉点坐标为中心，预设数值为半径的高斯分布，作为所述线交叉点坐标对应的监督信息。

14.根据权利要求13所述的方法，其特征在于，所述方法还包括：

根据所述表格检测模型对所述训练样本图像的下采样倍数，生成所述线交叉点坐标对应的偏移量的标注信息。

15.根据权利要求1所述的方法，其特征在于，所述方法还包括：

识别所述表格图像中包含的表格类型；

根据所述表格类型对应的表格模板对所述多个单元格区域进行校正。

16.根据权利要求1至15中任一项所述的方法，其特征在于，所述方法还包括：

识别所述表格图像中包含的多个文字块以及所述多个文字块各自对应的位置信息；

根据所述多个文字块各自对应的位置信息，确定所述多个文字块与所述多个单元格区域间的对应关系；

根据所述对应关系，输出与所述表格图像对应的文本信息。

17.根据权利要求16所述的方法，其特征在于，所述根据所述对应关系，输出与所述表格图像对应的文本信息，包括：

生成与所述多个单元格区域对应的表格；

根据所述对应关系，将所述多个文字块填充到所述表格中；

输出所述表格。

18.根据权利要求16所述的方法，其特征在于，所述根据所述对应关系，输出与所述表格图像对应的文本信息，包括：

根据所述对应关系以及所述多个单元格区域的邻接关系，确定所述多个文字块之间的键值关系；

根据所述键值关系输出所述多个文字块。

19.一种表格检测装置，其特征在于，包括：

获取模块，用于获取表格图像；

20.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至18中任一项所述的表格检测方法。

21.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至18中任一项所述的表格检测方法。