CN114359938A

CN114359938A - 一种表格识别方法及装置

Info

Publication number: CN114359938A
Application number: CN202210018252.1A
Authority: CN
Inventors: 张文强; 黄灿
Original assignee: Beijing Youzhuju Network Technology Co Ltd
Current assignee: Beijing Youzhuju Network Technology Co Ltd
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2022-04-15
Anticipated expiration: 2042-01-07
Also published as: WO2023130915A1; CN114359938B

Abstract

本申请公开了一种表格识别方法，可以获取包括表格的待处理图像，并确定所述待处理图像中各个单元格的信息，所述各个单元格的信息，包括所述各个单元格的包围框的位置。而后，根据所述各个单元格的信息，得到所述各个单元格在行方向上的父单元格和所述各个单元格在列方向的父单元格。进一步地，可以根据所述各个单元格在行方向上的父子关系和所述各个单元格在列方向上的父子关系，得到所述各个单元格的结构坐标，其中，所述结构坐标包括：起始行、起始列、终止行和终止列。由于与图结构相比，单元格在行方向的父子关系和单元格在列方向的父子关系更为简单。因此，利用本方案，能够减少确定单元格的结构坐标的计算量。

Description

一种表格识别方法及装置

技术领域

本申请涉及图像处理领域，特别是涉及一种表格识别方法及装置。

背景技术

表格识别包括表格结构识别(Table Structure Recognition，TSR)和表格内容识别(Table Content Recognition，TCR)两部分。其中：结构识别是指从包括表格的图像中解析出每个单元格所在的行列位置和具体的包围框物理位置。内容识别指的是将每个单元格内的文本识别出来。通过结构识别和内容识别两个步骤，即可得到每个单元格的结构坐标和其中的文本内容，进而可将该表格转换为excel或word等格式，便于进一步人工校对和编辑，大大方便了表格信息的数字化处理流程。

目前识别表格结构的方法比较复杂，会耗费较多的计算资源。

因此，急需一种方案，能够解决上述问题。

发明内容

本申请所要解决的技术问题是如何简单的识别出表格结构，提供一种表格识别方法及装置。

第一方面，本申请实施例提供了一种表格识别方法，所述方法包括：

获取包括表格的待处理图像，并确定所述待处理图像中各个单元格的信息，所述各个单元格的信息，包括所述各个单元格的包围框的位置；

根据所述各个单元格的信息，得到所述各个单元格在行方向上的父单元格和所述各个单元格在列方向的父单元格；

根据所述各个单元格在行方向上的父子关系和所述各个单元格在列方向上的父子关系，得到所述各个单元格的结构坐标，其中，所述结构坐标包括：起始行、起始列、终止行和终止列。

可选的，所述各个单元格的信息，还包括：

所述各个单元格内的文本的词嵌入向量，和/或，所述各个单元格的视觉特征。

可选的，所述根据所述各个单元格的信息，得到所述各个单元格在行方向上的父单元格和所述各个单元格在列方向的父单元格，包括：

将所述各个单元格的信息输入机器学习模型，得到所述各个单元格在行方向上的父单元格和所述各个单元格在列方向的父单元格。

可选的，所述机器学习模型包括：

特征提取模块、第一决策模块和第二决策模块；

所述特征提取模块，用于对所述各个单元格的信息进行处理，得到特性序列；

所述第一决策模块用于根据所述特征序列，得到所述各个单元格在行方向上的父单元格；

所述第二决策模块用于根据所述特征序列，得到所述各个单元格在列方向上的父单元格。

可选的，所述特征提取模块为Transformer模型的编码器。

可选的，所述第一决策模块和第二决策模块均为自注意力self-attention模块。

可选的，所述根据所述各个单元格在行方向上的父子关系和所述各个单元格在列方向上的父子关系，得到所述各个单元格的结构坐标，包括：

根据所述各个单元格在行方向上的父子关系，确定所述各个单元格的起始行和终止行；根据所述各个单元格在列方向上的父子关系，确定所述各个单元格的起始列和终止列。

可选的，至少一棵树结构用于指示所述各个单元格在行方向上的父子关系，一个单元格对应树上的一个节点，所述根据所述各个单元格在行方向上的父子关系，确定所述各个单元格的起始行和终止行，包括：

确定单元格i对应的起始行坐标b_i；确定单元格i所跨越的行数r_i；

根据所述b_i和所述r_i，确定单元格i对应的终止行坐标为b_i+r_i-1；其中：

若单元格i在其所在的树中对应的节点没有子分支，则所述r_i为1；否则，单元格i对应行数为其各个子分支的对应行数之和；

若单元格i对应表头节点，则起始行b_i等于单元格i所在的树的前一棵树的终止行加1；

若该单元格i对应节点q的第k个子节点，则起始行b_i等于b_q+sum1，其中，b_q为节点q的起始行，sum1为节点q的(k-1)个子分支的总跨越行数之和。

可选的，至少一棵树结构用于指示所述各个单元格在行方向上的父子关系，一个单元格对应树上的一个节点，所述根据所述各个单元格在列方向上的父子关系，确定所述各个单元格的起始列和终止列，包括：

确定单元格i所跨越的列数s_i；确定单元格i对应的起始列坐标a_i；

根据所述s_i和a_i，确定单元格i对应的终止列坐标为a_i+s_i-1；其中：

若单元格i在其所在的树中对应的节点没有子分支，则所述s_i为1；否则，单元格i对应列数为其各个子分支的对应列数之和；

若该单元格i对应表头节点，则起始列a_i等于单元格i所在的树的前一棵树的表头节点的终止列加1；

若该单元格i对应节点p的第j个子节点，则起始列a_i等于a_p+sum2，其中，a_p为节点p的起始列，sum2为节点p的(j-1)个子分支的总跨越列数之和。

可选的，所述方法还包括：

根据所述各个单元格的结构坐标以及所述各个单元格内的文本，生成目标表格。

第二方面，本申请实施例提供了一种表格识别装置，所述装置包括：

获取单元，用于获取包括表格的待处理图像，并确定所述待处理图像中各个单元格的信息，所述各个单元格的信息，包括所述各个单元格的包围框的位置；

第一确定单元，用于根据所述各个单元格的信息，得到所述各个单元格在行方向上的父单元格和所述各个单元格在列方向的父单元格；

第二确定单元，用于根据所述各个单元格在行方向上的父子关系和所述各个单元格在列方向上的父子关系，得到所述各个单元格的结构坐标，其中，所述结构坐标包括：起始行、起始列、终止行和终止列。

可选的，所述各个单元格的信息，还包括：

可选的，所述第一确定单元，用于：

可选的，所述机器学习模型包括：

特征提取模块、第一决策模块和第二决策模块；

可选的，所述特征提取模块为Transformer模型的编码器。

可选的，所述第二确定单元，用于：

可选的，所述装置还包括：

生成单元，用于根据所述各个单元格的结构坐标以及所述各个单元格内的文本，生成目标表格。

第三方面，本申请实施例提供了一种设备，所述设备包括处理器和存储器；

所述处理器用于执行所述存储器中存储的指令，以使得所述设备执行如以上第一方面中任一项所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，包括指令，所述指令指示设备执行如以上第一方面中任一项所述的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行以上第一方面任一项所述的方法。

与现有技术相比，本申请实施例具有以下优点：

本申请实施例提供了一种表格识别方法，在一个示例中，可以获取包括表格的待处理图像，并确定所述待处理图像中各个单元格的信息，所述各个单元格的信息，包括所述各个单元格的包围框的位置。而后，根据所述各个单元格的信息，得到所述各个单元格在行方向上的父单元格和所述各个单元格在列方向的父单元格。得到各个单元格在行方向上的父单元格，即获得了所述各个单元格在行方向上的父子关系。得到各个单元格在列方向上的父单元格，即获得了所述各个单元格在列方向上的父子关系。进一步地，可以根据所述各个单元格在行方向上的父子关系和所述各个单元格在列方向上的父子关系，得到所述各个单元格的结构坐标，其中，所述结构坐标包括：起始行、起始列、终止行和终止列。由此可见，利用本方案，可以根据各个单元格在行方向上的父子关系和所述各个单元格在列方向上的父子关系，得到所述各个单元格的结构坐标。与图结构相比，单元格在行方向的父子关系和单元格在列方向的父子关系更为简单。因此，利用本方案，能够减少确定单元格的结构坐标的计算量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种表格识别方法的流程示意图；

图2为本申请实施例提供的一个示例性场景示意图；

图3为本申请实施例提供的又一个示例性场景示意图；

图4为本申请实施例提供的一种表格识别装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的发明人经过研究发现，在一些方法中，可以将单元格视作节点，将表格建模为图(Graph)结构，利用图神经网络(Graph Neural Networks，GNN)对单元格之间的关系进行建模，如判断两个单元格是否同行、同列等，然后基于单元格是否同行以及单元格是否同列，利用逻辑处理方法得到表格的结构坐标。

不难理解的是，对于图结构而言，任意两个节点之间都可能存在关系，因此，以图来建模，得到的图结构中节点之间的关系较为复杂，甚至有可能会存在环形结构。因此，利用图结构得到表格的结构坐标，需要使用的较为复杂的逻辑处理方法，相应的需要耗费较多的计算资源。

为了解决上述问题，在本申请实施例提供了一种表格识别方法，可以根据各个单元格在行方向上的父子关系和所述各个单元格在列方向上的父子关系，得到所述各个单元格的结构坐标。与图结构相比，单元格在行方向的父子关系和单元格在列方向的父子关系更为简单。因此，利用本方案，采用较为简单的逻辑处理方法，就能够确定各个单元格的结构坐标，能够减少计算资源的消耗。

下面结合附图，详细说明本申请的各种非限制性实施方式。

示例性方法

参见图1，该图为本申请实施例提供的一种表格识别方法的流程示意图。图1所示的方法，可以由客户端执行，也可以由服务端执行，本申请实施例不做具体限定。在本实施例中，所述方法例如可以包括以下步骤：S101-S103。

S101：获取包括表格的待处理图像，并确定所述待处理图像中各个单元格的信息，所述各个单元格的信息，包括所述各个单元格的包围框的位置。

在本申请实施例中，获取所述待处理图像在具体实现时，可以获取拍摄设备拍摄得到的所述待处理图像，也可以从网络资源中获取所述待处理图像，还可以通过其它方式获得所述待处理图像，本申请实施例不做具体限定。

在本申请实施例中，所述各个单元格的信息，指的是与各个单元格相关的信息。

在一个示例中，可以利用光学字符识别(Optical Character Recognition，OCR)技术识别所述待处理图像中的文本，而后，基于识别到的文本，确定各个单元格的包围框的位置。其中，为方便描述，将所述各个单元格中的任意一个单元格称为“第一单元格”。则第一单元格的包围框的位置，可以是将所述第一单元格中的文本包围起来的文本框的位置。

在一个示例中，所述各个单元格的信息，除了包括所述各个单元格的包围框的位置之外，还可以包括所述各个单元格内的文本的词嵌入向量。作为一个示例，可以利用OCR技术识别得到各个单元中的文本，而后，利用bert或者word2vec等词嵌入向量模型对所述各个单元格中的文本进行处理，得到所述各个单元格内的文本的词嵌入向量。

在又一个示例中，所述各个单元格的信息，除了包括所述各个单元格的包围框的位置之外，还可以包括所述各个单元格的视觉特征，其中，所述各个单元格的视觉特征，可以是通过对所述各个单元格所在的图像区域进行计算(例如卷积计算)得到的特征，所述各个单元格的视觉特征，可以体现所述各个单元格的背景颜色和/或纹理等视觉信息。

S102：根据所述各个单元格的信息，得到所述各个单元格在行方向上的父单元格和所述各个单元格在列方向的父单元格。

在一个示例中，可以根据所述各个单元格的横轴坐标之间的大小关系以及所述各个单元格的纵轴坐标之间的大小关系，确定所述各个单元格在行方向上的父单元格和所述各个单元格在列方向上的父单元格。

在又一个示例中，可以预先训练机器学习模型，利用该机器学习模型来确定所述各个单元格在行方向上的父单元格和所述各个单元格在列方向上的父单元格。具体地，可以将所述各个单元格的信息输入机器学习模型，得到所述各个单元格在行方向上的父单元格和所述各个单元格在列方向的父单元格。

关于所述机器学习模型，需要说明的是，在一个示例中，所述机器学习模型可以包括特征提取模块、第一决策模块和第二决策模块，所述特征提取模块用于对输入的各个单元格的信息进行处理，得到特征序列，所述特征序列同时作为所述第一决策模块和第二决策模块的输入。所述第一决策模块，用于根据所述特征序列，得到所述各个单元格在行方向上的父单元格，所述第二决策模块，用于根据所述特征序列，得到所述各个单元格在列方向上的父单元格。

在一个示例中，考虑到利用机器学习模型来确定各个节点在行方向上的父单元格以及各个节点在列方向上的单元格而言，机器学习模型的输出依赖于机器学习模型的输入，因此，所述机器学习模型可以采用自然语言处理(Natural Language Processing，NLP)中常用的PointerNet的计算方式。另外，传统的PointerNet基于循环神经网络(RecurrentNeural Network，RNN)，为了增强该机器学习模型的长距离依赖建模能力，使得在表格中的单元格数量较多时，该机器学习模型也能够准确的确定出各单元格在行方向上的父单元格以及各个单元格在列方向上的父单元格，在本申请实施例中，可以将PointerNet优化为基于Transformer的编码器(encoder)。换言之，在一个示例中，所述特征提取模块为Transformer模型的编码器。

其中，所述编码器可以包括自注意力模块(self-attention)和前馈神经网络(feedforward neural network)模块。该自注意力模块和前馈神经网络模块的计算方式，与传统Transformer模型的编码器中的计算方式类似，此处不做详细说明。

在一个示例中，所述各个单元格的信息经过所述特征提取模块之后，可以得到特征矩阵Q和K，其中，假设输入到机器学习模型中的信息包括n个单元格的信息，则所述Q和K均为n*m的矩阵。

在一个示例中，所述第一决策模块和第二决策模块均为自注意力模块。

在一个示例中，第一决策模块可以计算出Q和K的相关矩阵QK^T，而后，分别对相关矩阵的每一行进行softmax运算，得到n*n的α矩阵。其中，α矩阵的元素α_ij用于指示单元格j在行方向上作为单元格i的父单元格的概率值。

类似的，第二决策模块也可以基于Q和K计算得到一个n*n的β矩阵，β矩阵的元素β_ij用于指示单元格j在列方向上作为单元格i的父单元格的概率值。

需要说明的是，对于作为根节点的单元格而言，可以引入一个虚拟节点(例如标号为-1)来表示该根节点的父节点。

关于各个单元格在行方向上的父节点，现结合图2进行说明，图2为本申请实施例提供的一个示例性场景示意图。在图2中，以节点表示单元格。

如图2所示，节点0的父节点为节点-1，节点1和节点2的父节点均为节点0，节点3的父节点为节点2，节点4的父节点为节点3，根据图2所示的各个节点在行方向上的父节点，可以得到图2所示的树结构。

关于各个单元格在列方向上的父节点、以及根据各个单元格在列方向上的父节点所确定的树结构，此处不再举例说明。

在一个示例中，可以利用结构坐标已知的训练表格来训练所述机器学习模型。由于所述训练表格的结构坐标已知，因此，该训练表格的各个单元格信息以及各个单元格在行方向上的父单元格是已知的，该训练表格的各个单元格在列方向上的父单元格也是已知的。因此，基于所述训练表格能够训练得到前述提及的机器学习模型。

S103：根据所述各个单元格在行方向上的父子关系和所述各个单元格在列方向上的父子关系，得到所述各个单元格的结构坐标，其中，所述结构坐标包括：起始行、起始列、终止行和终止列。

执行S102之后得到各个单元格在行方向上的父单元格，即获得了所述各个单元格在行方向上的父子关系；相应的，得到各个单元格在列方向上的父单元格，即获得了所述各个单元格在列方向上的父子关系。进一步地，可以执行S103，从而得到所述各个单元格的结构坐标。

其中，所述各个单元格在行方向上的父子关系，可以体现为行森林，该行森林可以包括多棵树。所述各个单元格在列方向上的父子关系，可以体现为列森林，该列森林可以包括多棵树。

在一个示例中，S103在具体实现时，可以根据所述各个单元格在行方向上的父子关系，确定所述各个单元格的起始行和终止行；根据所述各个单元格在列方向上的父子关系，确定所述各个单元格的起始列和终止列。

首先“根据所述各个单元格在行方向上的父子关系，确定所述各个单元格的起始行和终止行”的具体实现方式。

对于所述各个单元格中的单元格i，可以确定单元格i对应的起始行坐标b_i，并确定单元格i所跨越的行数r_i，根据b_i和r_i，可以确定单元格i的终止行坐标为b_i+r_i-1。其中，单元格i是所述各个单元格中的任意一个单元格。

关于r_i，需要说明的是：

若单元格i在其所在的树中对应的节点没有子分支，则说明该单元格i是最细粒度的单元格。此时，所述r_i为1；

若单元格i在其所在的树中对应的节点有子分支，即：单元格i包括多个子单元格，此时，单元格i对应行数为其各个子分支的对应行数之和。

在确定单元格i所跨越的行数r_i时，可以采用自右向左的方式确定所述单元格i所在的树中各个节点跨越的行数。

关于b_i，需要说明的是：

若单元格i对应表头节点，则起始行b_i等于单元格i所在的树的前一棵树的表头节点的终止行加1。其中，表头节点的父节点为虚拟节点。

如前所述，根据所述各个单元格在行方向上的父子关系，可以得到行森林，行森林可以包括多个树。在一个示例中，可以按照该多个树结构中的表头节点的纵坐标由小到大的顺序对该多个树结构进行排序。前述单元格i所在的树的前一棵树，指的是按照前述顺序对该多个树结构进行排序之后，排序在单元格i所在的树的前一棵树。

若该单元格i对应节点q的第k个子节点，则起始行b_i等于b_q+sum1，其中，b_q为节点q的起始行，sum1为节点q的(k-1)个子分支的总跨越行数之和。其中：

节点q可以包括一个子节点，此时，k的取值为1，sum1＝0，b_i＝b_q；

节点q也可以包括多个子节点，此时，k的取值可以大于或者等于1，当k取值为1时，sum1＝0，b_i＝b_q，当k取值大于1时，b_i＝b_q+sum1。

可以按照从左到右的顺序依此确定各个单元格对应的节点的起始行，即可以首先确定表头节点的起始行，而后，确定表头节点的各个子节点的起始行，依此类推，即可获取节点q的起始行，相应的，作为对应节点q的第k个子节点的单元格i的起始行也可以随之确定。

关于“根据所述各个单元格在行方向上的父子关系，确定所述各个单元格的起始行和终止行”，现结合图3进行说明。图3为本申请实施例提供的又一个示例性场景示意图。

如图3所示，对于包括图3所示的表格的图像而言，根据机器学习模型，可以得到图3左下部分区域的行森林。该行森林包括4棵树。图3中一个节点对应一个单元格。

采用自右向左的方式，确定第一课树中各个节点所跨越的行数。其中：

节点5在第一棵树中没有分支，则节点5跨越的行数为1；

同样的，节点6、节点7和节点8在第一棵树中没有分支，则节点6、节点7和节点8跨越的行数为1；

节点1对应在第一棵树中有两个分支，分别为以节点5作为根节点的分支和以节点6作为根节点的分支，该两个分支跨越的行数均为1，则节点1跨越的行数为2。

节点1为第一棵树的表头节点，则节点1的起始行为0(或者1，本申请中以节点1的起始行为0为例进行说明)，节点1的终止行为0+2-1＝1。

节点5是节点1的第一个子节点，则节点5的起始行等于节点1的起始行，即节点5的起始行为0，而节点5跨越的行数为1，故而，节点5的终止行为0。

节点6是节点1的第二个子节点，则节点6的起始行等于节点1的起始行加上节点1的第一个子节点跨越的行数，即：节点6的起始行等于0+1＝1，而节点6跨越的行数为1，则节点6的终止行为1。

节点7是节点6的第一个子节点，则节点7的起始行等于节点6的起始行，即节点7的起始行为1，而节点7跨越的行数为1，故而，节点7的终止行为1。

节点8是节点7的第一个子节点，则节点8的起始行等于节点7的起始行，即节点8的起始行为1，而节点8跨越的行数为1，故而，节点8的终止行为1。

采用自右向左的方式，确定第二课树中各个节点所跨越的行数。其中：

节点2、节点9、节点10以及节点11在第二棵树中没有分支，则节点2、节点9、节点10以及节点11跨越的行数为1；

节点2为第二棵树的表头节点，则节点2的起始行为2(第一棵树的表头节点的终止行1加1)，节点2的终止行为2+1-1＝2。

节点9是节点2的第一个子节点，则节点9的起始行等于节点2的起始行，即节点9的起始行为2，而节点9跨越的行数为1，故而，节点9的终止行为2。

节点10是节点9的第一个子节点，则节点10的起始行等于节点9的起始行，即节点10的起始行为2，而节点10跨越的行数为1，故而，节点10的终止行为2。

节点11是节点10的第一个子节点，则节点11的起始行等于节点10的起始行，即节点11的起始行为2，而节点11跨越的行数为1，故而，节点11的终止行为2。

以此类推，可以得到节点3、节点12、节点13以及节点14的起始行为3，终止行为3，得到节点4、节点15、节点16以及节点17的起始行为4，终止行为4。

接下来，介绍“根据所述各个单元格在列方向上的父子关系，确定所述各个单元格的起始列和终止列”的具体实现方式。

对于所述各个单元格中的单元格i，可以确定单元格i所跨越的列数s_i；确定单元格i对应的起始列坐标a_i，而后，根据所述s_i和a_i，确定单元格i对应的终止列坐标为a_i+s_i-1。

关于所述s_i，需要说明的是：

若单元格i在其所在的树中对应的节点没有子分支，则说明单元格i为最细粒度的单元格，此时所述s_i为1；

若单元格i在其所在的树中对应的节点有子分支，单元格i对应列数为其各个子分支的对应列数之和。

关于a_i，需要说明的是：

若该单元格i对应表头节点，则起始列a_i等于单元格i所在的树的前一棵树的表头节点的终止列加1。

如前所述，根据所述各个单元格在列方向上的父子关系，可以得到列森林，列森林可以包括多个树。在一个示例中，可以按照该多个树结构中的表头节点的横坐标由小到大的顺序对该多个树结构进行排序。前述单元格i所在的树的前一棵树，指的是按照前述顺序对该多个树结构进行排序之后，排序在单元格i所在的树的前一棵树。

若该单元格i对应节点p的第j个子节点，则起始列a_i等于a_p+sum2，其中，a_p为节点p的起始列，sum2为节点p的(j-1)个子分支的总跨越列数之和。其中：

节点p可以包括一个子节点，此时，j的取值为1，sum2＝0，a_i＝a_p；

节点p也可以包括多个子节点，此时，j的取值可以大于或者等于1，当j的取值等于1时，sum2＝0，a_i＝a_p，当j的取值大于1时，a_i＝a_p+sum2。

可以按照从上到下的顺序依此确定各个单元格对应的节点的起始列，即可以首先确定表头节点的起始列，而后，确定表头节点的各个子节点的起始列，依此类推，即可获取节点p的起始列，相应的，作为对应节点p的第j个子节点的单元格i的起始列也可以随之确定。

关于“根据所述各个单元格在列方向上的父子关系，确定所述各个单元格的起始列和终止列”，现结合图3进行举例说明。

如图3所示，对于包括图3所示的表格的图像而言，根据机器学习模型，可以得到图3右下部分区域的行森林。该行森林包括2棵树。

采用自下向上的方式，确定第一棵树中各个节点所跨越的列数。其中：

节点4、节点3、节点2和节点1在第一棵树中没有分支，则节点4、节点3、节点2和节点1跨越的列数为1；

节点1为第一棵树的表头节点，则节点1的起始列为0(或者1，本申请中以节点1的起始列为0为例进行说明)，节点1的终止列为0+1-1＝0。

节点2是节点1的第一个子节点，则节点2的起始列等于节点1的起始列，即节点2的起始列为0，而节点2跨越的列数为1，故而，节点2的终止列为0。

节点3是节点2的第一个子节点，则节点3的起始列等于节点2的起始列，即节点3的起始列为0，而节点3跨越的列数为1，故而，节点3的终止列为0。

节点4是节点3的第一个子节点，则节点4的起始列等于节点3的起始列，即节点4的起始列为0，而节点4跨越的列数为1，故而，节点4的终止列为0。

采用自下向上的方式，确定第二棵树中各个节点所跨越的列数。其中：

节点6、节点7、节点8、节点9、节点10、节点11、节点12、节点13、节点14、节点15、节点16以及节点17均没有子分支，故而节点6、节点7、节点8、节点9、节点10、节点11、节点12、节点13、节点14、节点15、节点16以及节点17跨越的列数均为1；

节点5跨越的列数为其3个子节点(节点6、节点7以及节点8)跨越的列数之和，即节点5跨越的列数为3。

按照由上到下的顺序，确定第二棵树中各个节点的起始列和终止列。

节点5的起始列为第一棵树的表头节点的终止列加1，即为节点1的终止列0加1，得到节点5的起始列为1，而节点5跨越的列数为3，则节点5的终止列为1+3-1＝3。

节点6对应节点5的第一个子节点，则节点6的起始列等于节点5的起始列，即节点6的起始列为1，节点6跨越的列数为1，故而节点6的终止列也为1。

节点9是节点6的第一个子节点，则节点9的起始列等于节点6的起始列，即节点9的起始列为1，节点9跨越的列数为1，故而节点9的终止列也为1。以此类推，可以得到节点12和节点15的起始列和终止列均为1。

节点7对应节点5的第二个子节点，则节点7的起始列等于节点5的起始列1加上节点5的第一个子分支跨越的列数1，故而节点7的起始列为2，节点7跨越的列数为1，故而节点7的终止列也为2。

节点10是节点7的第一个子节点，则节点10的起始列等于节点7的起始列，即节点10的起始列为2，节点10跨越的列数为1，故而节点10的终止列也为2。以此类推，可以得到节点13和节点16的起始列和终止列均为2。

节点8对应节点5的第三个子节点，则节点8的起始列等于节点5起始列1加上节点5的前两个分支跨越的列数之和2，即节点8的起始列为3，节点8跨越的列数为1，故而节点8的终止列也为3。

节点11是节点8的第一个子节点，则节点11的起始列等于节点8的起始列，即节点11的起始列为3，节点11跨越的列数为1，故而节点11的终止列也为3。以此类推，可以得到节点14和节点17的起始列和终止列均为3。

通过以上描述可知，利用本方案，可以根据各个单元格在行方向上的父子关系和所述各个单元格在列方向上的父子关系，得到所述各个单元格的结构坐标。与图结构相比，单元格在行方向的父子关系和单元格在列方向的父子关系更为简单。因此，利用本方案，能够减少确定单元格的结构坐标的计算量。

在一个示例中，确定各个单元格的结构坐标之后，可以结合单元格的坐标结构以及各个单元格内的文本，生成目标表格。其中，所述各个单元格内的文本可以通过OCR技术得到。

本申请实施例不具体限定所述目标表格的格式，所述目标表格可以是excel格式，也可以是word格式，还可以是其它格式，此处不做限定。

当所述目标表格是excel格式时，还可以根据所述各个单元格的结构坐标，确定表格的总列数和总行数，以便于在生成目标表格时，首先按照总列数和总行数划分单元格，而后，再根据各个单元格的结构坐标，执行合并单元格的操作，从而得到目标表格中的各个单元格。其中：

所述总列数为各个单元格的终止列的最大值减去各个单元格的起始列的最小值所得到的差值加1。对于图3所示的场景，各个单元格的终止列的最大值为3，各个单元格的起始列的最小值为0，则总列数为3-0+1＝4。

所述总行数为各个单元格的终止行的最大值减去各个单元格的起始行的最小值所得到的差值加1。对于图3所示的场景，各个单元格的终止行的最大值为4，各个单元格的起始行的最小值为0，则总行数为4-0+1＝5。

示例性设备

基于以上实施例提供的方法，本申请实施例还提供了一种装置，以下结合附图介绍该装置。

参见图4，该图为本申请实施例提供的一种表格识别装置的结构示意图。所述装置400例如可以具体包括：获取单元401、第一确定单元402和第二确定单元403。

获取单元401，用于获取包括表格的待处理图像，并确定所述待处理图像中各个单元格的信息，所述各个单元格的信息，包括所述各个单元格的包围框的位置；

第一确定单元402，用于根据所述各个单元格的信息，得到所述各个单元格在行方向上的父单元格和所述各个单元格在列方向的父单元格；

第二确定单元403，用于根据所述各个单元格在行方向上的父子关系和所述各个单元格在列方向上的父子关系，得到所述各个单元格的结构坐标，其中，所述结构坐标包括：起始行、起始列、终止行和终止列。

可选的，所述各个单元格的信息，还包括：

可选的，所述第一确定单元402，用于：

可选的，所述机器学习模型包括：

特征提取模块、第一决策模块和第二决策模块；

可选的，所述特征提取模块为Transformer模型的编码器。

可选的，所述第二确定单元403，用于：

可选的，所述装置还包括：

由于所述装置400是与以上方法实施例提供的表格识别方法对应的装置，所述装置400的各个单元的具体实现，均与以上方法实施例所述的表格识别方法为同一构思，因此，关于所述装置400的各个单元的具体实现，可以参考以上方法实施例的相关描述部分，此处不再赘述。

本申请实施例还提供了一种设备，所述设备包括处理器和存储器；

所述处理器用于执行所述存储器中存储的指令，以使得所述设备执行以上方法实施例提供的表格识别方法。

本申请实施例提供了一种计算机可读存储介质，包括指令，所述指令指示设备执行以上方法实施例提供的表格识别方法。

本申请实施例还提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行以上方法实施例提供的表格识别方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种表格识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述各个单元格的信息，还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述各个单元格的信息，得到所述各个单元格在行方向上的父单元格和所述各个单元格在列方向的父单元格，包括：

4.根据权利要求3所述的方法，其特征在于，所述机器学习模型包括：

特征提取模块、第一决策模块和第二决策模块；

5.根据权利要求4所述的方法，其特征在于，所述特征提取模块为Transformer模型的编码器。

6.根据权利要求4所述的方法，其特征在于，所述第一决策模块和第二决策模块均为自注意力self-attention模块。

7.根据权利要求1所述的方法，其特征在于，所述根据所述各个单元格在行方向上的父子关系和所述各个单元格在列方向上的父子关系，得到所述各个单元格的结构坐标，包括：

8.根据权利要求7所述的方法，其特征在于，至少一棵树结构用于指示所述各个单元格在行方向上的父子关系，一个单元格对应树上的一个节点，所述根据所述各个单元格在行方向上的父子关系，确定所述各个单元格的起始行和终止行，包括：

9.根据权利要求7所述的方法，其特征在于，至少一棵树结构用于指示所述各个单元格在行方向上的父子关系，一个单元格对应树上的一个节点，所述根据所述各个单元格在列方向上的父子关系，确定所述各个单元格的起始列和终止列，包括：

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

11.一种表格识别装置，其特征在于，所述装置包括：

12.一种设备，其特征在于，所述设备包括处理器和存储器；

所述处理器用于执行所述存储器中存储的指令，以使得所述设备执行如权利要求1至10中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，包括指令，所述指令指示设备执行如权利要求1至10中任一项所述的方法。