CN114973282A

CN114973282A - 表格识别方法、装置、电子设备及存储介质

Info

Publication number: CN114973282A
Application number: CN202210498911.6A
Authority: CN
Inventors: 程龙; 梁鼎
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2022-05-09
Filing date: 2022-05-09
Publication date: 2022-08-30

Abstract

本公开提供了一种表格识别方法、装置、电子设备及存储介质，其中，该方法包括：获取目标文档图像；对目标文档图像中的目标表格进行单元格检测，确定各个单元格在目标表格中的坐标信息；以及对目标文档图像进行文字检测，确定目标表格中各个单元格对应的文字内容；基于各个单元格在目标表格中的坐标信息，确定各个单元格之间的排列关系；按照排列关系将对应单元格的文字内容进行组合，得到针对目标文档图像的表格识别结果。本公开基于单元格这一最小识别维度进行表格识别，可以确保所识别表格的完整性，与此同时，由于重构出的表格识别结果是依照排列关系产生的，从而更具标准规范化。

Description

表格识别方法、装置、电子设备及存储介质

技术领域

本公开涉及图像识别技术领域，具体而言，涉及一种表格识别方法、装置、电子设备及存储介质。

背景技术

表格作为文档中常见且极为重要的一种表达方式，它能够将复杂的文档信息切分成多个单元格的组成部分，将单元格组织成标准的对应关系，从而方便信息的快速查找。因此表格识别是文档版面理解领域的重要任务。

一般地，可以通过人工录入或者传统简单规则来处理表格，例如，可以通过预先配置的表格模板获取表格特定位置的感兴趣区域，进而对感兴趣区域进行实时处理。

然而，在实际应用中，表格的格式和内容千差万别，不管是人工录入还是通过人工配置模板的方法进行识别，均会带来较大的工作量，且无法确保较高的识别准确率。

发明内容

本公开实施例至少提供一种表格识别方法、装置、电子设备及存储介质。

第一方面，本公开实施例提供了一种表格识别方法，包括：

获取目标文档图像；

对所述目标文档图像中的目标表格进行单元格检测，确定各个单元格在所述目标表格中的坐标信息；以及对所述目标文档图像进行文字检测，确定所述目标表格中各个单元格对应的文字内容；

基于所述各个单元格在所述目标表格中的坐标信息，确定所述各个单元格之间的排列关系；

按照所述排列关系将对应单元格的文字内容进行组合，得到针对所述目标文档图像的表格识别结果。

采用上述表格识别方法，在获取到目标文档图像的情况下，一方面可以对目标文档图像中的目标表格进行单元格间隔，另一方面可以对目标文档图像进行文字检测，这样，在基于各个单元格在目标表格中的坐标信息，确定各个单元格之间的排列关系的情况下，可以按照排列关系进行单元格文字内容的组合，从而可以得到表格识别结果。本公开基于单元格这一最小识别维度进行表格识别，可以确保所识别表格的完整性，与此同时，在基于各个单元格之间的排列关系进行表格重构的过程中，由于排列关系是基于单元格的坐标信息来确定的，这使得各单元格的排列位置的准确性得以保证，且重构出的表格识别结果是依照排列关系产生的，从而更具标准规范化。

在一种可能的实施方式中，在所述对所述目标文档图像中的目标表格进行单元格检测之前，所述方法还包括：

基于所述目标文档图像进行角点检测，确定目标表格包括的多个角点在所述目标文档图像中的图像位置信息以及所述各个角点之间的角点顺序信息；

基于所述多个角点在所述目标文档图像中的图像位置信息以及所述各个角点之间的角点顺序信息对所述目标表格进行矫正处理，得到处理后的目标表格对应的表格图像区域在所述目标文档图像中的图像位置范围信息。

这里，在对目标表格进行单元格检测之前，首先可以结合角点检测和矫正处理，得到目标表格对应的表格图像区域在目标文档图像中的图像位置范围信息，从而便于后续从目标文档图像中提取出目标表格。

在一种可能的实施方式中，所述对所述目标文档图像中的目标表格进行单元格检测，确定各个单元格在所述目标表格中的坐标信息，包括：

基于所述图像位置范围信息，从所述目标文档图像中提取出所述目标表格对应的表格图像区域；

对所述目标表格对应的表格图像区域进行单元格检测，确定各个单元格在所述表格图像区域中的图像位置信息；

将所述各个单元格在所述表格图像区域中的图像位置信息，确定为所述各个单元格在所述目标表格中的坐标信息。

这里，利用表格图像区域的单元格检测方法可以确定出各个单元格的坐标信息，检测准确度和检测效率均较高。

在一种可能的实施方式中，所述对所述目标表格对应的表格图像区域进行单元格检测，确定各个单元格在所述表格图像区域中的图像位置信息，包括：

利用训练好的单元格检测神经网络对所述目标表格对应的表格图像区域进行单元格检测，确定各个单元格在所述表格图像区域中的图像位置信息；

其中，所述单元格检测神经网络是由图像样本以及针对所述图像样本中的不同单元格进行位置标注所得到的位置标注结果训练得到的。

这里的单元格检测可以是基于训练好的单元格检测神经网络实现的，由于单元格检测神经网络可以挖掘出更为深层次的图像特征，这在确保检测效率的前提下，进一步提升了检测准确度。

在一种可能的实施方式中，按照如下步骤训练所述单元格检测神经网络：

获取图像样本；

将所述图像样本输入到待训练的单元格检测神经网络包括的多层级特征提取层，确定每个层级特征提取层输出的单元格特征信息；每个层级特征提取层对应提取一个尺寸范围内的单元格的特征信息；

将所述单元格特征信息输入到对应层级特征提取层所连接的预测层，确定所述预测层输出的预测结果，并将所述预测结果与对应层级特征提取层所对应的单元格的位置标注结果进行匹配；

响应于所述预测结果与对应层级特征提取层所对应的单元格的位置标注结果不匹配，对所述单元格检测神经网络的网络参数值进行调整，直至所述预测结果与对应层级特征提取层所对应的单元格的位置标注结果相匹配。

这里的单元格检测神经网络可以利用不同层级特征提取层提取不同尺寸范围内的单元格的特征信息，也即，可以将不同尺寸范围内的单元格分配到不同层级的特征提取层上进行特征提取，这样所提取到的特征可以更为有利于检测不同尺寸的单元格，防止单元格漏检的问题，进一步确保了检测的准确率。

在一种可能的实施方式中，所述基于所述目标文档图像进行角点检测，确定目标表格包括的多个角点在所述目标文档图像中的图像位置信息，包括：

对所述目标文档图像进行表格检测，确定所述目标表格所在的候选矩形区域；所述候选矩形区域是由多个候选角点所构成的矩形区域；

基于训练好的偏移量检测神经网络对所述候选矩形区域进行角点检测，确定所述目标表格包括的多个角点中每个角点与对应候选角点之间的偏移量；

针对所述目标表格包括的多个角点中的每个角点，基于所述角点与对应候选角点之间的偏移量以及所述候选角点在所述目标文档图像中的图像位置信息，确定所述角点在所述目标文档图像中的图像位置信息。

这里，可以结合表格检测和角点检测确定目标表格包括的每个角点所对应的偏移量，该偏移量一方面用于指示目标表格相对候选矩形区域的偏差情况，从而便于基于候选矩形区域对应的图像位置信息确定目标表格对应的图像位置信息，另一方面用于指示需要表格矫正的程度大小，例如，在偏移量比较大的情况下，需要较大程度的矫正，从而更佳便于后续的表格矫正。

在一种可能的实施方式中，所述基于所述各个单元格在所述目标表格中的坐标信息，确定所述各个单元格之间的排列关系，包括：

针对所述各个单元格中的第一单元格，基于所述各个单元格在所述目标表格中的坐标信息，确定所述第一单元格与相邻的其他单元格之间的结构关系；

基于所述各个单元格分别确定的结构关系，确定所述各个单元格中的每个所述单元格在所述目标表格中的排列位置；

基于所述各个单元格中的每个所述单元格在所述目标表格中的排列位置，确定所述各个单元格之间的排列关系。

这里，可以基于各个单元格中的每个单元格与相邻的其他单元格之间的结构关系来确定每个单元格在目标表格中的排列位置，利用这里的排列位置可以将对应单元格的文字内容填充进来，这确保了表格识别结果的完整性和规范性。

在一种可能的实施方式中，所述结构关系包括横向结构关系和纵向结构关系；所述基于所述各个单元格在所述目标表格中的坐标信息，确定所述第一单元格与相邻的其他单元格之间的结构关系，包括：

基于所述各个单元格在所述目标表格中的坐标信息包括的纵向坐标范围，确定所述第一单元格与相邻的其他单元格之间的横向结构关系；以及，

基于所述各个单元格在所述目标表格中的坐标信息包括的横向坐标范围，确定所述第一单元格与相邻的其他单元格之间的纵向结构关系。

在一种可能的实施方式中，所述按照所述排列关系将对应单元格的文字内容进行组合，得到针对所述目标文档图像的表格识别结果，包括：

针对所述多个单元格中的每个所述单元格，按照所述排列关系指示的所述单元格在所述目标表格中的排列位置，将所述单元格对应的文字内容填充到所述排列位置处；

在基于所述多个单元格分别指示的排列位置填充完成文字内容的情况下，得到针对所述目标文档图像的表格识别结果。

第二方面，本公开实施例还提供了一种表格识别装置，包括：

获取模块，用于获取目标文档图像；

检测模块，用于对所述目标文档图像中的目标表格进行单元格检测，确定各个单元格在所述目标表格中的坐标信息；以及对所述目标文档图像进行文字检测，确定所述目标表格中各个单元格对应的文字内容；

确定模块，用于基于所述各个单元格在所述目标表格中的坐标信息，确定所述各个单元格之间的排列关系；

识别模块，用于按照所述排列关系将对应单元格的文字内容进行组合，得到针对所述目标文档图像的表格识别结果。

第三方面，本公开实施例还提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式任一所述的表格识别方法的步骤。

第四方面，本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如第一方面及其各种实施方式任一所述的表格识别方法的步骤。

关于上述表格识别装置、电子设备、及计算机可读存储介质的效果描述参见上述表格识别方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种表格识别方法的流程图；

图2示出了本公开实施例所提供的表格识别方法中，重构表格的示意图；

图3示出了本公开实施例所提供的一种表格识别装置的示意图；

图4示出了本公开实施例所提供的一种电子设备的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

本文中术语“和/或”，仅仅是描述一种关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

经研究发现，可以通过人工录入或者传统简单规则来处理表格，例如，可以通过预先配置的表格模板获取表格特定位置的感兴趣区域，进而对感兴趣区域进行实时处理。

为了解决上述问题，现阶段已经存在一些基于深度学习来识别表格结构的方案，该方案在识别出表格中所有的行和列的情况下，提取出表格单元格中的数据信息，从而得到标准的重构表格。主要是包括以下几种方案：其一是将表格结构识别视为行与列分割线的预测。在行的维度上，预测若干个分割线作为表格行的分割线，列同理。但是这种方法对于真实情况下存在倾斜或者弯曲的表格无法适用。而且这种方法会根据分割线是否穿过文字来判断分割线是否存在，因此会将合并的空单元格分割开。其二是将表格结构解析为超文本标记语言(HyperText Markup Language,HTML)编码，从而直接利用序列编码与解码来预测表格图像对应的HTML序列。但是这种方法对于表格结构本身约束很小，预测结果不稳定，极容易出现错行错列的现象。可见，上述方法都存在明显的不足。

基于上述研究，本公开提供了至少一种基于单元格检测实现表格识别的方案，所识别表格的完整性更好，更具标准规范化。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种表格识别方法进行详细介绍，本公开实施例所提供的表格识别方法的执行主体一般为具有一定计算能力的电子设备，该电子设备例如包括：终端设备或服务器或其它处理设备，终端设备可以为用户设备(User Equipment，UE)、移动设备、用户终端、个人数字助理(Personal DigitalAssistant，PDA)、手持设备、计算设备等。在一些可能的实现方式中，该表格识别方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

参见图1所示，为本公开实施例提供的表格识别方法的流程图，方法包括步骤S101～S104，其中：

S101：获取目标文档图像；

S102：对目标文档图像中的目标表格进行单元格检测，确定各个单元格在目标表格中的坐标信息；以及对目标文档图像进行文字检测，确定目标表格中各个单元格对应的文字内容；

S103：基于各个单元格在目标表格中的坐标信息，确定各个单元格之间的排列关系；

S104：按照排列关系将对应单元格的文字内容进行组合，得到针对目标文档图像的表格识别结果。

为了便于理解本公开实施例提供的表格识别方法，接下来首先对该方法的应用场景进行说明。本公开实施例中的表格识别方法主要可以应用于任何需要对图像中表格进行识别的应用场景。在实际应用中，可以广泛应用于政府、税务、保险、医疗、金融、厂矿等各行业的发票、支票、合同等的识别任务中。

本公开实施例提供的表格识别方法，一方面可以是针对表格中单元格的识别，另一方面可以是针对单元格对应的文字内容的识别，继而可以重构出整个表格。

针对不同的识别任务，这里所对应获取的目标文档图像也不同，例如，可以是包括发票的图像，还可以是包括合同文件的图像，还可以是其它文档图像，这里不做具体的限制。在实际应用中，可以是利用摄像头、扫描仪等设备对银行发票、合同文件等进行拍摄或扫描所得到的相关图像。

为了重构出目标文档图像中的目标表格，这里一方面可以对目标文档图像中的目标表格进行单元格识别以确定各个单元格在目标表格中的坐标信息，另一方面可以对目标文档图像进行文字检测以确定目标表格中各个单元格对应的文字内容。在基于坐标信息确定各个单元格之间的排列关系的情况下，可以按照排列关系将对应单元格的文字内容进行组合，从而得到整个目标表格的表格识别结果。

其中，有关排列关系可以对应的各个单元格在目标表格中的行位置以及列位置，也即，在确定各个单元格在目标表格中的行列位置的情况下，可以结合单元格的文字内容重构出目标表格。

本公开实施例中，可以基于对目标文档图像中的目标表格进行单元格检测得到的各个单元格的坐标信息来确定排列关系，这主要是考虑到对应于不同排列位置的单元格的坐标信息之间存在一定的包含、被包含等关系，利用这些关系将有助于重构出更为标准化、规范化的表格。

这里的坐标信息可以是基于对目标文档图像中的目标表格进行单元格检测确定的。在实际应用中，这里的坐标信息可以是针对目标表格对应的表格图像区域进行单元格检测所确定的各个单元格的图像位置信息。

本公开实施例在进行单元格检测之前，可以首先进行表格定位，也即，可以从目标文档图像中检测出目标表格对应的表格图像区域。这里的目标表格可以有一个，也可以有多个，可以是目标文档图像中的任一表格，也可以是目标图像中的所有表格，也可以是目标文档图像中的特定表格，这里不做具体的限制。

在进行单元格检测的过程中，这里还可以进行文字检测以确定各个单元格对应的文字内容。在实际应用中，这里可以基于光学字符识别(Optical Character Recognition,OCR)从目标文档图像中识别出单元格对应的文字内容。

为了实现有关单元格排列方式与单元格内的文字内容之间的重组，这里可以在基于各个单元格在目标表格中的坐标信息，确定各个单元格之间的排列关系的情况下，按照排列关系将对应单元格的文字内容进行组合，即可得到表格识别结果。

在按照排列关系进行文字内容组合的过程中，可以将各个单元格的文字内容添加到对应的排列位置处，从而可以得到包括有表格内容的表格识别结果，使表格结构更加标准规范化，除此之外，这里的排列关系更为简化，这将进一步提升有关表格识别的效率。

考虑到单元格检测对于本公开实施例提供的表格识别方法的关键作用，接下来将具体说明有关检测单元格的相关内容。

本公开实施例中，可以按照如下步骤对目标表格中的单元格进行检测：

步骤一、基于目标文档图像进行角点检测，确定目标表格包括的多个角点在目标文档图像中的图像位置信息以及各个角点之间的角点顺序信息；

步骤二、基于多个角点在目标文档图像中的图像位置信息以及各个角点之间的角点顺序信息对目标表格进行矫正处理，得到处理后的目标表格对应的表格图像区域在目标文档图像中的图像位置范围信息；

步骤三、基于图像位置范围信息，从目标文档图像中提取出目标表格对应的表格图像区域；

步骤四、对目标表格对应的表格图像区域进行单元格检测，确定各个单元格在表格图像区域中的图像位置信息；

步骤五、将各个单元格在表格图像区域中的图像位置信息，确定为各个单元格在目标表格中的坐标信息。

这里，在进行单元格检测之前，需要进行表格定位，也即可以基于目标表格对应的表格图像区域在目标文档图像中的图像位置范围信息从目标文档图像中提取出目标表格对应的表格图像区域，而后对这一表格图像区域进行单元格检测，继而可以得到各个单元格在目标表格中的坐标信息。

在进行表格定位的过程中，可以结合角点检测确定目标表格包括的多个角点在目标文档图像中的图像位置信息，基于这里的图像位置信息可以初步确定目标表格在目标文档图像中的位置。本公开实施例具体可以通过如下步骤确定目标表格包括的多个角点在目标文档图像中的图像位置信息：

步骤一、对目标文档图像进行表格检测，确定目标表格所在的候选矩形区域；候选矩形区域是由多个候选角点所构成的矩形区域；

步骤二、基于训练好的偏移量检测神经网络对候选矩形区域进行角点检测，确定目标表格包括的多个角点中每个角点与对应候选角点之间的偏移量；

步骤三、针对目标表格包括的多个角点中的每个角点，基于角点与对应候选角点之间的偏移量以及候选角点在目标文档图像中的图像位置信息，确定角点在目标文档图像中的图像位置信息。

这里，首先可以基于表格检测确定目标表格所在的候选矩形区域，而后可以利用训练好的偏移量检测神经网络对候选矩形区域进行角点检测，最后可以基于偏移量以及候选矩形区域的图像位置信息来确定目标表格包括的多个角点的图像位置信息。

在进行表格定位的过程中，可以基于任意四边形的检测算法来具体实现。首先可以生成目标矩形的候选区域(即候选矩形区域)。然后可以预测目标表格的四个角点在候选矩形区域边上的偏移量。将候选矩形区域与坐标偏移量相结合即可构成任意四边形，该任意四边形的四个顶点分别对应基于目标表格的四个角点。可知的是，利用本申请实施例提供的表格定位方法可以定位到处于任意位置的表格。

需要说明的是，上述有关偏移量检测可以是利用训练好的偏移量检测神经网络确定的。该偏移量检测网络可以利用标注有角点偏移量以及角点顺序的表格图样样本训练得到的，通过网络输出的偏移量与标注的偏移量之间的对比关系，可以对偏移量检测网络进行多轮训练，直至达到网络收敛，得到训练好的偏移量检测网络，这样，在确定出候选矩形区域的情况下，直接基于训练好的偏移量检测网络即可快速确定出目标表格包括的多个角点中每个角点与对应候选角点之间的偏移量。

在进行表格定位的过程中，同时可以预测目标表格的四个角点中哪个是表格自身的左上角点，从而确定表格的方向，而后可以通过透视变换将表格图像区域进行矫正，例如可以按照确定的表格方向进行旋转以得到矫正后的目标表格。

在进行目标表格矫正的过程中，目标表格对应的表格图像区域也随之发生变化，继而可以确定出矫正后的目标表格在在目标文档图像中的图像位置范围信息。

本公开实施例中，基于图像位置范围信息可以从目标文档图像中提取出目标表格对应的表格图像区域，而后可以基于单元格检测确定各个单元格在表格图像区域中的图像位置信息。

在本公开实施例中，可以利用训练好的单元格检测神经网络对目标表格对应的表格图像区域进行单元格检测，确定各个单元格在表格图像区域中的图像位置信息。

其中，本公开实施例中的单元格检测指的是输入转正后的单个目标表格对应的表格图像区域，输出各个单元格在表格图像区域中的图像位置信息。针对单元格较多的密集场景，本公开实施例中的单元格检测神经网络可以使用级联网络搭配特征金字塔结构，构建充足的预设框覆盖所有的单元格场景，将不同尺寸的单元格分配到不同的特征层上，从而提高神经网络对单元格检测的召回率，防止单元格漏检。

这里的单元格检测神经网络可以按照如下步骤训练得到：

步骤一、获取图像样本；

步骤二、将图像样本输入到待训练的单元格检测神经网络包括的多层级特征提取层，确定每个层级特征提取层输出的单元格特征信息；每个层级特征提取层对应提取一个尺寸范围内的单元格的特征信息；

步骤三、将单元格特征信息输入到对应层级特征提取层所连接的预测层，确定预测层输出的预测结果，并将预测结果与对应层级特征提取层所对应的单元格的位置标注结果进行匹配；

步骤四、响应于预测结果与对应层级特征提取层所对应的单元格的位置标注结果不匹配，对单元格检测神经网络的网络参数值进行调整，直至预测结果与对应层级特征提取层所对应的单元格的位置标注结果相匹配。

这里的单元格检测神经网络可以包括多层级特征提取层，每个层级特征提取层对应提取一个尺寸范围内的单元格的特征信息。在确定出每个层级特征提取层输出的单元格特征信息的情况下，可以将单元格特征信息输入到对应层级特征提取层所连接的预测层，确定预测层输出的预测结果，并进行预测结果与对应层级特征提取层所对应的单元格的位置标注结果之间的匹配验证。在两个结果不匹配的情况下，一定程度上可以说明对应层的检测能力越弱，需要再次进行网络训练，在两个结果相匹配的情况下，一定程度上可以说明对应层的检测能力越强，这种情况下，可以结束网络训练。

在具体应用中，可以利用包括有三个层级特征提取层的特征金字塔结构实现不同尺寸范围的单元格的特征提取。例如，对于较高层级的特征提取层而言，其对应的特征维度更小，所能够提取的特征信息更为深层次，此时可以适应于较大尺寸的单元格的特征提取，再如，对于较低层级的特征提取层而言，其对应的特征维度更大，所能够提取的特征信息更为浅层次，此时可以适应于较小尺寸的单元格的特征提取。

在基于单元格检测确定出各个单元格在目标表格中的坐标信息，可以确定各个单元格之间的排列关系，具体可以通过如下步骤来实现：

步骤一、针对各个单元格中的第一单元格，基于各个单元格在目标表格中的坐标信息，确定第一单元格与相邻的其他单元格之间的结构关系；

步骤二、基于各个单元格分别确定的结构关系，确定各个单元格中的每个单元格在目标表格中的排列位置；

步骤三、基于各个单元格中的每个单元格在目标表格中的排列位置，确定各个单元格之间的排列关系。

这里的第一单元格可以是目标表格中的每个单元格，也可以是目标表格中的任一单元格，还可以是目标表格中的特定单元格，在具体应用中，可以选取每个单元格作为第一单元格。

针对每个单元格，这里可以基于基于各个单元格在目标表格中的坐标信息，确定第一单元格与相邻的其他单元格之间的结构关系，这里的结构关系可以包括包含、被包含、交叉、相等等关系。而后可以基于各个单元格分别确定的结构关系，确定各个单元格中的每个单元格在目标表格中的排列位置以根据排列位置确定排列关系。

其中，在确定结构关系的过程中，可以在横向和纵向两个方面来确定。也即，可以基于各个单元格在目标表格中的坐标信息包括的纵向坐标范围，确定第一单元格与相邻的其他单元格之间的横向结构关系；以及，基于各个单元格在目标表格中的坐标信息包括的横向坐标范围，确定第一单元格与相邻的其他单元格之间的纵向结构关系。

在确定各个单元格的横向结构关系以及纵向结构关系的情况下，可以对应实现在表格行和表格列的重构。

为了便于理解上述表格重构的过程，可以结合图2进行示例说明。

如图2所示，对于包括2行4列的目标表格而言，该目标表格具有5个单元格。在确定出每个单元格的坐标信息的情况下，可以针对5个单元格中的每个单元格确定其与相邻的单元格之间的横向结构关系和纵向结构关系。

以构建横向结构关系为例，对于第1行第1列的单元格A而言，该单元格A的相邻单元格有单元格B和单元格C，由于单元格A的横向坐标信息包含了单元格B和单元格C的横向坐标信息，因而，这里的单元格A包含单元格B和单元格C，类似的，可以确定单元格C与单元格D属于相同的结构关系，依次类推，可以确定出每个单元格与其相邻单元格之间的结构关系。

这样，在确定出最小单位单元格(即不被任何单元格包含的单元格)的情况下，可以利用上述结构关系构建出各个单元格之间的排列关系，这里的最小单元单元格为单元格B、C、D，这里的单元格B包含于单元格A和单元格E，单元格C与单元格D相等，且包含于单元格A，单元格D包含于单元格E，继而可以确定出各个单元格在横向上的排列位置。

按照上述横向结构关系的构建方法，可以同理构建纵向结构关系，从而可以确定出各个单元格之间的排列关系。

本公开实施例中，基于上述重构出的排列关系，可以针对每个单元格，按照排列关系指示的单元格在目标表格中的排列位置，将单元格对应的文字内容填充到排列位置处，继而得到针对目标文档图像的表格识别结果。

在具体应用中，可以将表格识别结果转化成excel格式，以便于更好的进行表格编辑等各种操作，具有更好的实用性。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与表格识别方法对应的表格识别装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述表格识别方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图3所示，为本公开实施例提供的一种表格识别装置的示意图，装置包括：获取模块301、检测模块302、确定模块303及识别模块304；其中，

获取模块301，用于获取目标文档图像；

检测模块302，用于对目标文档图像中的目标表格进行单元格检测，确定各个单元格在目标表格中的坐标信息；以及对目标文档图像进行文字检测，确定目标表格中各个单元格对应的文字内容；

确定模块303，用于基于各个单元格在目标表格中的坐标信息，确定各个单元格之间的排列关系；

识别模块304，用于按照排列关系将对应单元格的文字内容进行组合，得到针对目标文档图像的表格识别结果。

采用上述表格识别装置，在获取到目标文档图像的情况下，一方面可以对目标文档图像中的目标表格进行单元格间隔，另一方面可以对目标文档图像进行文字检测，这样，在基于各个单元格在目标表格中的坐标信息，确定各个单元格之间的排列关系的情况下，可以按照排列关系进行单元格文字内容的组合，从而可以得到表格识别结果。本公开基于单元格这一最小识别维度进行表格识别，可以确保所识别表格的完整性，与此同时，在基于各个单元格之间的排列关系进行表格重构的过程中，由于排列关系是基于单元格的坐标信息来确定的，这使得各单元格的排列位置的准确性得以保证，且重构出的表格识别结果是依照排列关系产生的，从而更具标准规范化。

在一种可能的实施方式中，检测模块302，还用于：

在对目标文档图像中的目标表格进行单元格检测之前，基于目标文档图像进行角点检测，确定目标表格包括的多个角点在目标文档图像中的图像位置信息以及各个角点之间的角点顺序信息；

基于多个角点在目标文档图像中的图像位置信息以及各个角点之间的角点顺序信息对目标表格进行矫正处理，得到处理后的目标表格对应的表格图像区域在目标文档图像中的图像位置范围信息。

在一种可能的实施方式中，检测模块302，用于按照如下步骤对目标文档图像中的目标表格进行单元格检测，确定各个单元格在目标表格中的坐标信息：

基于图像位置范围信息，从目标文档图像中提取出目标表格对应的表格图像区域；

对目标表格对应的表格图像区域进行单元格检测，确定各个单元格在表格图像区域中的图像位置信息；

将各个单元格在表格图像区域中的图像位置信息，确定为各个单元格在目标表格中的坐标信息。

在一种可能的实施方式中，检测模块302，用于按照如下步骤对目标表格对应的表格图像区域进行单元格检测，确定各个单元格在表格图像区域中的图像位置信息：

利用训练好的单元格检测神经网络对目标表格对应的表格图像区域进行单元格检测，确定各个单元格在表格图像区域中的图像位置信息；

其中，单元格检测神经网络是由图像样本以及针对图像样本中的不同单元格进行位置标注所得到的位置标注结果训练得到的。

在一种可能的实施方式中，上述装置还包括：

训练模块，用于按照如下步骤训练单元格检测神经网络：

获取图像样本；

将图像样本输入到待训练的单元格检测神经网络包括的多层级特征提取层，确定每个层级特征提取层输出的单元格特征信息；每个层级特征提取层对应提取一个尺寸范围内的单元格的特征信息；

将单元格特征信息输入到对应层级特征提取层所连接的预测层，确定预测层输出的预测结果，并将预测结果与对应层级特征提取层所对应的单元格的位置标注结果进行匹配；

响应于预测结果与对应层级特征提取层所对应的单元格的位置标注结果不匹配，对单元格检测神经网络的网络参数值进行调整，直至预测结果与对应层级特征提取层所对应的单元格的位置标注结果相匹配。

在一种可能的实施方式中，检测模块302，用于按照如下步骤基于目标文档图像进行角点检测，确定目标表格包括的多个角点在目标文档图像中的图像位置信息：

对目标文档图像进行表格检测，确定目标表格所在的候选矩形区域；候选矩形区域是由多个候选角点所构成的矩形区域；

基于训练好的偏移量检测神经网络对候选矩形区域进行角点检测，确定目标表格包括的多个角点中每个角点与对应候选角点之间的偏移量；

针对目标表格包括的多个角点中的每个角点，基于角点与对应候选角点之间的偏移量以及候选角点在目标文档图像中的图像位置信息，确定角点在目标文档图像中的图像位置信息。

在一种可能的实施方式中，确定模块303，用于按照如下步骤基于各个单元格在目标表格中的坐标信息，确定各个单元格之间的排列关系：

针对各个单元格中的第一单元格，基于各个单元格在目标表格中的坐标信息，确定第一单元格与相邻的其他单元格之间的结构关系；

基于各个单元格分别确定的结构关系，确定各个单元格中的每个单元格在目标表格中的排列位置；

基于各个单元格中的每个单元格在目标表格中的排列位置，确定各个单元格之间的排列关系。

在一种可能的实施方式中，结构关系包括横向结构关系和纵向结构关系；确定模块303，用于按照方式确定第一单元格与相邻的其他单元格之间的结构关系：

基于各个单元格在目标表格中的坐标信息包括的纵向坐标范围，确定第一单元格与相邻的其他单元格之间的横向结构关系；以及，

基于各个单元格在目标表格中的坐标信息包括的横向坐标范围，确定第一单元格与相邻的其他单元格之间的纵向结构关系。

在一种可能的实施方式中，识别模块304，用于按照如下步骤按照排列关系将对应单元格的文字内容进行组合，得到针对目标文档图像的表格识别结果：

针对多个单元格中的每个单元格，按照排列关系指示的单元格在目标表格中的排列位置，将单元格对应的文字内容填充到排列位置处；

在基于多个单元格分别指示的排列位置填充完成文字内容的情况下，得到针对目标文档图像的表格识别结果。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种电子设备，如图4所示，为本公开实施例提供的电子设备结构示意图，包括：处理器401、存储器402、和总线403。存储器402存储有处理器401可执行的机器可读指令(比如，图3中的装置中获取模块301、检测模块302、确定模块303以及识别模块304对应的执行指令等)，当电子设备运行时，处理器401与存储器402之间通过总线403通信，机器可读指令被处理器401执行时执行如下处理：

获取目标文档图像；

对目标文档图像中的目标表格进行单元格检测，确定各个单元格在目标表格中的坐标信息；以及对目标文档图像进行文字检测，确定目标表格中各个单元格对应的文字内容；

基于各个单元格在目标表格中的坐标信息，确定各个单元格之间的排列关系；

按照排列关系将对应单元格的文字内容进行组合，得到针对目标文档图像的表格识别结果。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的表格识别方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例还提供一种计算机程序产品，该计算机程序产品承载有程序代码，所述程序代码包括的指令可用于执行上述方法实施例中所述的表格识别方法的步骤，具体可参见上述方法实施例，在此不再赘述。

其中，上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台电子设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种表格识别方法，其特征在于，包括：

获取目标文档图像；

2.根据权利要求1所述的方法，其特征在于，在所述对所述目标文档图像中的目标表格进行单元格检测之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述目标文档图像中的目标表格进行单元格检测，确定各个单元格在所述目标表格中的坐标信息，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述目标表格对应的表格图像区域进行单元格检测，确定各个单元格在所述表格图像区域中的图像位置信息，包括：

5.根据权利要求4所述的方法，其特征在于，按照如下步骤训练所述单元格检测神经网络：

获取图像样本；

6.根据权利要求2至5任一所述的方法，其特征在于，所述基于所述目标文档图像进行角点检测，确定目标表格包括的多个角点在所述目标文档图像中的图像位置信息，包括：

7.根据权利要求1至6任一所述的方法，其特征在于，所述基于所述各个单元格在所述目标表格中的坐标信息，确定所述各个单元格之间的排列关系，包括：

8.根据权利要求7所述的方法，其特征在于，所述结构关系包括横向结构关系和纵向结构关系；所述基于所述各个单元格在所述目标表格中的坐标信息，确定所述第一单元格与相邻的其他单元格之间的结构关系，包括：

9.根据权利要求7或8所述的方法，其特征在于，所述按照所述排列关系将对应单元格的文字内容进行组合，得到针对所述目标文档图像的表格识别结果，包括：

10.一种表格识别装置，其特征在于，包括：

获取模块，用于获取目标文档图像；

11.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至9任一所述的表格识别方法的步骤。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至9任一所述的表格识别方法的步骤。