CN114005125A

CN114005125A - 一种表格识别方法、装置、计算机设备和存储介质

Info

Publication number: CN114005125A
Application number: CN202111262550.7A
Authority: CN
Inventors: 程龙; 梁鼎
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-02-01

Abstract

本公开提供了一种表格识别方法、装置、计算机设备和存储介质，其中，该方法包括：获取待识别的表格图像；确定表格图像的图像视觉特征，以及各个文本块在表格图像中的文本位置特征；基于各个文本块的文本位置特征和图像视觉特征，确定各个文本块的目标融合特征；基于各个文本块的目标融合特征，生成表格图像对应的目标表格。本公开实施例利用由文本位置特征和图像视觉特征结合得到目标融合特征生成目标表格的方式，提高了生成的目标表格的准确性和普适性。

Description

一种表格识别方法、装置、计算机设备和存储介质

技术领域

本公开涉及文档识别以及图像处理技术领域，具体而言，涉及一种表格识别方法、装置、计算机设备和存储介质。

背景技术

随着计算机视觉技术的发展，文档识别分析技术的应用越来越普遍，而文档中的表格作为表达文档信息的一种重要方式，其中往往包括重要的文档信息，因此，表格识别是文档识别分析技术中的一个重要任务，其识别结果的准确性更关系到文档识别分析结果的准确性。现有的表格识别方式，大多为针对表格线的识别，根据识别到的表格线重构表格，再按照既定的匹配规则，将识别到文本信息填入重构表格，从而完成对表格的识别。

但针对无线表和部分有线表的识别，上述方式的识别精准度较低，进而，影响了文档识别分析结果的准确性。并且，表格的样式复杂且多变，既定的匹配规则无法适用于所有的表格，导致现有的表格识别方式的普适性较差。

发明内容

本公开实施例至少提供一种表格识别方法、装置、计算机设备和存储介质。

第一方面，本公开实施例提供了一种表格识别方法，包括：

获取待识别的表格图像；

确定所述表格图像的图像视觉特征，以及各个文本块在所述表格图像中的文本位置特征；

基于各个所述文本块的文本位置特征和所述图像视觉特征，确定各个所述文本块的目标融合特征；

基于各个所述文本块的所述目标融合特征，生成所述表格图像对应的目标表格。

该实施方式，基于确定的图像视觉特征，能够准确地获取表格图像中的特征信息，表格中的文本以文本块的形式存在，文本块的位置特征能够反映表格中各个单元格的位置信息，通过确定各个文本块在表格图像中的文本位置特征，有利于准确地确定各个单元格的位置，再通过将文本块的文本位置特征和图像视觉特征结合得到各个文本块的目标融合特征的方式，可以提高各个文本块的目标融合特征中包含的信息的丰富性，从而，可以使得目标融合特征能够更加准确的表征各个文本块在表格中的位置，因此，基于各个文本块的目标融合特征，能够更加精确的确定出表格图像中的表格信息，生成准确的目标表格，相对于现有技术中根据表格线和既定的匹配规则生成目标表格的方式，利用由文本位置特征和图像视觉特征结合得到目标融合特征生成目标表格的方式，提高了生成的目标表格的准确性和普适性。

在一种可能的实施方式中，所述基于各个所述文本块的文本位置特征和所述图像视觉特征，确定各个所述文本块的目标融合特征，包括：

针对每个文本块，基于所述文本块在所述表格图像中的文本位置特征，从所述图像视觉特征中提取所述文本块对应的子视觉特征；

基于所述文本块对应的子视觉特征和所述文本块对应的文本位置特征，确定所述文本块的目标融合特征。

该实施方式，基于文本块在表格图像中的文本位置特征，能够准确地确定出文本块在图像视觉特征对应的特征图中的位置范围，即能够准确地提取出文本块的子视觉特征，进而，基于准确的子视觉特征和文本位置特征，能够使得到的目标融合特征可以更为准确地表征文本块在表格中的位置，从而，有利于得到准确的目标表格。

在一种可能的实施方式中，所述基于各个文本块对应的子视觉特征和各个文本块对应的文本位置特征，分别确定各个所述文本块的目标融合特征，包括：

分别将各个文本块的子视觉特征对应的初始特征图设置为预设尺寸，得到每个文本块对应的目标特征图；

针对每个所述文本块，对所述文本块对应的目标特征图中的视觉特征和所述文本块的文本位置特征进行特征融合，得到所述文本块的目标融合特征。

该实施方式中，通过将视觉特征对应的初始特征图设置为预设尺寸，能够实现对各个文本块对应的初始特征图的尺寸统一，进而，利用统一尺寸的目标特征图进行特征融合，相比对尺寸不一初始特征图进行特征融合而言，降低了融合难度，有利于提高特征融合的速度和效率。

在一种可能的实施方式中，所述基于各个所述文本块的所述目标融合特征，生成所述表格图像对应的目标表格，包括：

基于各个所述文本块对应的目标融合特征，确定各个所述文本块对应的位置关系信息；

基于所述位置关系信息，对各个所述目标融合特征进行特征编码，得到目标编码特征；

基于所述目标编码特征，生成所述表格图像对应的目标表格。

该实施方式，基于各个文本块对应的目标融合特征，能够准确地确定出各个文本块之间的位置关联关系，即位置关系信息，基于位置关系信息，对目标融合特征进行特征编码，能够实现对目标融合特征的量化，得到便于目标神经网络处理的目标编码特征，实现对数据的转化。

在一种可能的实施方式中，所述基于各个所述文本块对应的目标融合特征，确定各个所述文本块对应的位置关系信息，包括：

基于各个所述文本块对应的目标融合特征，确定每两个文本块对应的目标融合特征之间的关联关系；

基于得到的所述关联关系，确定各个所述文本块对应的位置关系信息。

该实施方式，关联关系能够表征两个文本块之间的位置接近程度，基于确定的每两个文本块之间的关联关系，能够确定出每两个文本块之间的位置接近程度，从而，基于确定的文本块之间的位置接近程度，能够准确地确定出各个文本块对应的位置关系信息。

在一种可能的实施方式中，所述基于所述目标编码特征，生成所述表格图像对应的目标表格，包括：

对各个所述文本块对应的目标编码特征进行特征解码，确定各个所述文本块对应于所述目标表格的预测位置信息；

基于所述预测位置信息和所述文本位置特征，生成所述表格图像对应的目标表格。

该实施方式，通过特征解码得到的文本块对应于目标表格的预测位置信息和文本块在表格图像中的文本位置特征，能够得到文本块的预测位置信息对应的预测位置和文本位置特征对应的图像位置之间的匹配程度，基于匹配程度可以实现对预测位置信息对应的预测位置的校准和检验，从而，提高生成的目标表格的准确性。

在一种可能的实施方式中，所述基于所述预测位置信息和所述文本位置特征，生成所述表格图像对应的目标表格，包括：

基于各个所述文本块的文本位置特征，确定各个所述文本块在所述表格图像中的行列位置信息；

基于所述预测位置信息和所述行列位置信息，生成所述表格图像对应的目标表格。

该实施方式，基于文本位置特征确定的行列位置信息，能够粗略的反映各个文本块在表格图像上的相对位置关系，利用行列位置信息和预测位置信息，能够确定出预测的文本块在目标表格中的行列位置信息和该文本块在表格图像上的行列位置信息之间的匹配程度，从而，能够实现对预测位置信息的校验，进一步提高了生成的目标表格的准确性。

在一种可能的实施方式中，所述基于所述预测位置信息和所述行列位置信息，生成所述表格图像对应的目标表格，包括：

在所述文本块对应的预测位置信息与所述文本块对应的行列位置信息不匹配的情况下，基于所述文本块对应的行列位置信息，确定与所述文本块的行列位置信息相对应的各个目标文本块；

基于各个所述目标文本块的预测位置信息，确定所述文本块对应于所述目标表格的目标位置信息；

基于所述目标位置信息，生成所述表格图像对应的目标表格。

该实施方式，在表格图像中行列位置信息相对应的各个文本块在表格中的行列位置相似度较高，通过预测位置信息和行列位置信息不匹配的文本块对应的目标文本块的预测位置信息，可以实现利用目标文本块的预测位置信息对预测位置信息和行列位置信息不匹配的文本块的预测位置信息的纠正，得到目标位置信息，提高了确定的该文本块的位置信息的准确性，从而，提高了生成的目标表格的准确性。

在一种可能的实施方式中，所述基于所述目标位置信息，生成所述表格图像对应的目标表格，包括：

根据所述目标位置信息，确定所述目标表格对应的行分割线和列分割线；

基于所述行分割线、所述列分割线和各个文本块对应的文本信息，生成所述目标表格。

该实施方式，根据文本块的目标位置信息，可以确定出在表格中处于同一行和列的各个文本块，从而，基于同一行和列的各个文本块的文本块大小，能够得到目标表格对应的准确的行分割线和列分割线，从而，再根据文本信息，能够生成准确的目标表格。

在一种可能的实施方式中，利用训练好的目标神经网络执行所述表格识别方法，得到所述表格图像对应的目标表格。

该实施方式，训练好的目标神经网络具有可靠的检测精度，从而，利用训练好的目标神经网络能够准确地生成表格图像对应的目标表格。

在一种可能的实施方式中，所述表格图像包括入库单表格图像，所述目标表格包括入库单表格图像对应的入库单表格；

所述生成所述表格图像对应的目标表格之后，包括：

基于所述入库单表格对应的各个文本块的文本信息，确定所述入库单表格图像对应的入库物品信息。

第二方面，本公开实施例还提供一种表格识别装置，包括：

获取模块，用于获取待识别的表格图像；

第一确定模块，用于确定所述表格图像的图像视觉特征，以及各个文本块在所述表格图像中的文本位置特征；

第二确定模块，用于基于各个所述文本块的文本位置特征和所述图像视觉特征，确定各个所述文本块的目标融合特征；

生成模块，用于基于各个所述文本块的所述目标融合特征，生成所述表格图像对应的目标表格。

在一种可能的实施方式中，所述第二确定模块，用于针对每个文本块，基于所述文本块在所述表格图像中的文本位置特征，从所述图像视觉特征中提取所述文本块对应的子视觉特征；

在一种可能的实施方式中，所述第二确定模块，用于分别将各个文本块的子视觉特征对应的初始特征图设置为预设尺寸，得到每个文本块对应的目标特征图；

在一种可能的实施方式中，所述生成模块，用于基于各个所述文本块对应的目标融合特征，确定各个所述文本块对应的位置关系信息；

在一种可能的实施方式中，所述生成模块，用于基于各个所述文本块对应的目标融合特征，确定每两个文本块对应的目标融合特征之间的关联关系；

基于得到的所述关联关系，确定各个所述文本块对应的位置关系信息。在一种可能的实施方式中，所述生成模块，用于对各个所述文本块对应的目标编码特征进行特征解码，确定各个所述文本块对应于所述目标表格的预测位置信息；

在一种可能的实施方式中，所述生成模块，用于基于各个所述文本块的文本位置特征，确定各个所述文本块在所述表格图像中的行列位置信息；

在一种可能的实施方式中，所述生成模块，用于在所述文本块对应的预测位置信息与所述文本块对应的行列位置信息不匹配的情况下，基于所述文本块对应的行列位置信息，确定与所述文本块的行列位置信息相对应的各个目标文本块；

在一种可能的实施方式中，所述生成模块，用于根据所述目标位置信息，确定所述目标表格对应的行分割线和列分割线；

所述生成模块，还用于所述生成所述表格图像对应的目标表格之后，基于所述入库单表格对应的各个文本块的文本信息，确定所述入库单表格图像对应的入库物品信息。

第三方面，本公开可选实现方式还提供一种计算机设备，处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

第四方面，本公开可选实现方式还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被运行时执行上述第一方面，或第一方面中任一种可能的实施方式中的步骤。

关于上述表格识别装置、计算机设备、及计算机可读存储介质的效果描述参见上述表格识别方法的说明，这里不再赘述。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种表格识别方法的流程图；

图2示出了本公开实施例所提供的一种表格图像的示意图；

图3示出了本公开实施例所提供的另一种表格图像的示意图；

图4示出了本公开实施例所提供的一种表格图像及其包括的目标表格的示意图；

图5示出了本公开实施例所提供的一种生成表格图像对应的目标表格的具体流程示意图；

图6示出了本公开实施例所提供的一种表格识别装置的示意图；

图7示出了本公开实施例所提供的一种计算机设备结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

另外，本公开实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

经研究发现，随着计算机视觉技术的发展，文档识别分析技术的应用越来越普遍，而文档中的表格作为表达文档信息的一种重要方式，其中往往包括重要的文档信息，因此，表格识别是文档识别分析技术中的一个重要任务，其识别结果的准确性更关系到文档识别分析结果的准确性。现有的表格识别方式，大多为针对表格线的识别，根据识别到的表格线重构表格，再按照既定的匹配规则，将识别到文本信息填入重构表格，从而完成对表格的识别。

基于上述研究，本公开提供了一种表格识别方法、装置、计算机设备和存储介质，基于确定的图像视觉特征，能够准确地获取表格图像中的特征信息，表格中的文本以文本块的形式存在，文本块的位置特征能够反映表格中各个单元格的位置信息，通过确定各个文本块在表格图像中的文本位置特征，有利于准确地确定各个单元格的位置，再通过将文本块的文本位置特征和图像视觉特征结合得到各个文本块的目标融合特征的方式，可以提高各个文本块的目标融合特征中包含的信息的丰富性，从而，可以使得目标融合特征能够更加准确的表征各个文本块在表格中的位置，因此，基于各个文本块的目标融合特征，能够更加精确的确定出表格图像中的表格信息，生成准确的目标表格，相对于现有技术中根据表格线和既定的匹配规则生成目标表格的方式，利用由文本位置特征和图像视觉特征结合得到目标融合特征生成目标表格的方式，提高了生成的目标表格的准确性和普适性。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该是发明人在本公开过程中对本公开做出的贡献。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

需要说明的是，本公开实施例中所提到的特定名词包括：

OCR技术：光学字符识别(Optical Character Recognition，OCR)是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的一种技术。

Transformer模型：是一种基于encoder-decoder(编码器-解码器)结构的模型。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种表格识别方法进行详细介绍，本公开实施例所提供的表格识别方法的执行主体一般为具有一定计算能力的计算机设备，在一些可能的实现方式中，该表格识别方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

下面以执行主体为计算机设备为例对本公开实施例提供的表格识别方法加以说明。

如图1所示，为本公开实施例提供的一种表格识别方法的流程图，包括：

S101：获取待识别的表格图像。

表格图像为包含待识别的表格的图像，表格中包括若干个单元格，多个单元格中的至少部分单元格存在文本信息，每个单元格中的文本信息可以包括但不限于文字、数字、特殊符号等中一种或多种。

表格的类型包括多种，例如，可以包括电子表格、诸如手写表格或机打表格等扫描文档中的表格等；表格可以存在多种格式，例如，N×N的表格，M×N(M、N不同)的表格等，每种类型的表格中的单元格的大小可以一致，也可以存在区别，并且，每种类型的表格的版面样式可以包括多种，具体的，表格中的单元格可以存在不同类型的背景填充，如不同类型的背景颜色、不同类型的背景图片等；表格的行列合并方式不同，即表格中单元格的大小不一；表格中单元格的内容类型不同，即表格中的文本块对应的文本的内容和格式不同。在具体实施时，本公开实施例所提供的表格识别方式适用于对任一种类型、任一种格式的表格，这里不进行限定。

待识别的表格图像的图像格式可以不同，例如，图像格式可以为JPG格式、PNG格式、Bitmap格式等，待识别的表格图像可以为在各种光照环境下拍摄的图像。

S102：确定表格图像的图像视觉特征，以及各个文本块在表格图像中的文本位置特征。

这里，图像视觉特征用于表征表格图像的视觉属性，具体的，图像视觉特征可以包括图像的色彩、纹理、形状、图像中的文本信息等。文本块由文本表格中的文本信息组成，具体的，每个文本块可以对应于表格图像中某一图像范围内的文本信息，每个文本块对应的图像范围可以为表格图像中的一个矩形范围。

如图2所示，为本公开实施例所提供的一种表格图像的示意图，其中，文本信息1对应于表格图像中的文本块1，文本信息2对应于表格图像中的文本块2，文本信息3对应于表格图像中的文本块3，文本块1对应于表格图像中的矩形范围1，文本块2对应于表格图像中的矩形范围2，文本块3对应于表格图像中的矩形范围3。

文本位置特征为用于表征文本块在表格图像中的位置的特征，在文本块对应于表格图像中的矩形范围的情况下，每个文本块的文本位置特征可以为该文本块对应的矩形范围的四个顶点在图像中的位置坐标。

具体实施时，在获取待识别的表格图像之后，可以对表格图像进行图像识别，确定表格图像的图像视觉特征，并且，利用图像文字识别技术，确定表格图像中所包括的文本信息，根据多个文本信息(比如，图2所示文本信息1与文本信息2)之间的相对位置关系，确定表格图像中所包括的文本块。这里，确定出的每个文本块可以对应于一个单元格，确定出的文本块中的数量不少于表格图像中的表格的单元格的数量。

进而，可以确定出每个文本块在表格图像中的位置坐标，并基于确定的位置坐标，确定出每个文本块在表格图像中的文本位置特征。

另外，在具体实施时，本公开实施例所提供的表格识别方法可以利用预先训练好的目标神经网络执行的，其中，目标神经网络中可以包括用于确定图像视觉特征的卷积神经网络，用于识别表格图像中的文本块及其对应的文本位置特征的文字识别神经网络，其中，文字识别神经网络可以是基于OCR识别技术搭建的神经网络，以及下述将提及的用于输出文本块的预测位置信息的、基于注意力机制的注意力模型，具体的，注意力模型可以为Transformer模型。

当用户存在进行表格识别的需求时，可以将待识别的表格图像输入到卷积神经网络中，由卷积神经网络对表格图像进行识别处理，确定出表格图像的图像视觉特征，并可以利用文字识别神经网络，对表格图像进行文字识别，确定出表格图像中的文本块、文本块对应的文本信息以及每个文本块在表格图像中的文本位置特征。

S103：基于各个文本块的文本位置特征和图像视觉特征，确定各个文本块的目标融合特征。

这里，目标融合特征为融合了文本块的图像视觉特征和文本位置特征的特征。

具体实施时，针对每个文本块，可以从图像视觉特征中确定出该文本块对应的图像视觉特征，进而，可以将该文本块对应的图像视觉特征和文本位置特征进行特征融合，得到该文本块对应的目标融合特征，基于上述步骤，可以确定出每个文本块对应的图像视觉特征，进而，得到每个文本块的目标融合特征。

S104：基于各个文本块的目标融合特征，生成表格图像对应的目标表格。

这里，目标表格为识别出的表格图像中的待识别的表格，具体的，生成的目标表格可以为excel电子表格。

本步骤中，在确定各个文本块的目标融合特征之后，可以根据每个文本块的目标融合特征，确定出每个文本块在目标表格中所对应的单元格的位置，例如，分别基于文本块A、文本块B、文本块C的目标融合特征，确定出文本块A在目标表格中所对应的单元格的位置为第1行第1列，文本块B对应的单元格的位置为第3行第4列，文本块C对应的单元格位置为第1行第3列。

进一步的，可以根据确定出的每个文本块在目标表格中所对应的单元格的位置，确定出目标表格所包括的行数及列数，再根据每个文本块的位置及其对应的矩形范围的大小，确定出目标表格对应的行列线(即在表格中用于区分不同行及不同列的线条)的位置，进而，基于确定出行列线的位置、每个文本块的文本信息和位置，生成表格图像对应的、包括各个文本块的文本信息的目标表格。

这样，基于确定的图像视觉特征，能够准确地获取表格图像中的特征信息，表格中的文本以文本块的形式存在，文本块的位置特征能够反映表格中各个单元格的位置信息，通过确定各个文本块在表格图像中的文本位置特征，有利于准确地确定各个单元格的位置，再通过将文本块的文本位置特征和图像视觉特征结合得到各个文本块的目标融合特征的方式，可以提高各个文本块的目标融合特征中包含的信息的丰富性，从而，可以使得目标融合特征能够更加准确的表征各个文本块在表格中的位置，因此，基于各个文本块的目标融合特征，能够更加精确的确定出表格图像中的表格信息，生成准确的目标表格，相对于现有技术中根据表格线和既定的匹配规则生成目标表格的方式，利用由文本位置特征和图像视觉特征结合得到目标融合特征生成目标表格的方式，提高了生成的目标表格的准确性和普适性。

在一种实施例中，针对S103，可以按照以下的步骤实施：

步骤一、针对每个文本块，基于文本块在表格图像中的文本位置特征，从图像视觉特征中提取文本块对应的子视觉特征。

这里，子视觉特征为文本块对应于表格图像的图像范围处的图像视觉特征。

本步骤中，在利用卷积神经网络对表格图像进行识别处理之后，卷积神经网络输出的图像视觉特征可以对应于一个图像视觉特征图，进而，可以确定图像视觉特征图和表格图像之间的大小关系，确定出两个图像之间的位置转换关系。然后，针对每个文本块，可以按照位置转化关系，将该本块对应的文本位置特征，转换为在图像视觉特征图中的文本位置特征，具体的，可以将该文本块对应的矩形范围的四个顶点在表格图像中的位置坐标，转换为在图像视觉特征图中的特征图坐标，并将确定的特征图坐标作为该文本块在图像视觉特征图中的文本位置特征。

进一步的，可以根据确定特征图坐标，确定出该文本块在图像视觉特征图中的图像范围，并根据该图像范围，从图像视觉特征图提取出与该图像范围相匹配的初始特征图，将该初始特征图对应的图像视觉特征作为从图像视觉特征中提取出的该文本块对应的子视觉特征。

从而，基于上述步骤，可以从图像视觉特征中，提取出每个文本块对应的子视觉特征。

步骤二、基于文本块对应的子视觉特征和文本块对应的文本位置特征，确定文本块的目标融合特征。

这里，针对每个文本块，可以将该文本块对应的子视觉特征和该文本块对应的文本位置特征进行特征融合，具体的，可以先确定该文本块的子视觉特征对应的维度和文本位置特征对应的维度，然后根据子视觉特征对应的维度和文本位置特征对应的维度进行维度融合，得到该文本块对应的目标融合特征。

例如，子视觉特征对应于500维的特征向量，文本位置特征对应于4维的特征向量，则得到的目标融合特征可以为一个504维度的特征向量。

进而，基于本实例中的上述步骤，可以确定出各个文本块的目标融合特征。

在一种实施例中，针对上述步骤二，由于不同的文本块所包括的文本信息所对应的文本数量不同，文本块对应的图像范围的大小也就不同，从而，每个文本块对应的初始特征图的特征图尺寸不同，所以在对各个文本块的子视觉特征及其对应的文本位置特征进行融合之前，为了保证得到的目标融合特征具有一致的特征维度，以及减少特征融合的复杂度，可以先对各个文本块对应的初始特征图的特征图尺寸进行统一，再对统一尺寸后的初始特征图进行特征融合。

具体实施时，可以在确定各个文本块对应的初始特征图之后，将各个文本块的初始特征图像设置为预设尺寸，并在将初始特征图像设置为预设尺寸的过程中，对各个初始特征图对应的子视觉特征进行转换，转换为与预设尺寸相匹配的视觉特征，从而，得到每个文本块对应的目标特征图。

其中，预设尺寸可以根据具体的开发需要进行设置，这里不进行限定。

在一种实施方式中，可以利用预先设置在目标神经网络中的感兴趣区域(Regionof Interest Pooling，ROI)池化层(Pooling层)对各个文本块对应的初始特征图进行尺寸统一，得到每个文本块对应的目标特征图。

之后，针对每个文本块，可以分别对每个文本块对应的目标特征图中的视觉特征及其对应的文本位置特征进行特征融合，从而，得到每个文本块对应的目标融合特征。

在一种实施例中，针对S104，可以按照以下步骤生成表格图像对应的目标表格：

步骤P1：基于各个文本块对应的目标融合特征，确定各个文本块对应的位置关系信息。

这里，位置关系信息为反映每个文本块在表格图像中及目标表格中的位置关联关系的信息，位置关联关系用于表征文本块与表格图像中的至少部分其他文本块之间的相对位置关系，具体的，位置关联关系可以表征文本块与周围各个文本块之间的相对位置关系。如图3所示，为本公开实施例所提供的另一种表格图像的示意图，其中，该表格图像中包括目标表格，目标表格包括文本块L、文本块M、文本块N、文本块O、文本块P和文本块Q，在图3中，文本块L对应的周围各个文本块可以包括文本块M、文本块N、文本块O、文本块P和文本块Q，文本块L对应的位置关系信息为：文本块L与文本块M位于同一列且位于文本块M上方，与文本块N位于同一列且位于文本块N下方，与文本块P位于同一行相邻列、且位于文本块P的左边列，文本块L位于文本块O的下一行，左边一列，文本块L位于文本块Q的上一行，左边一列。类似的，文本块N对应的周围各个文本块也可以包括文本块M、文本块O、文本块P和文本块Q，文本块N对应的位置关系信息为：与文本块O位于同一行相邻列、且位于文本块O的左边列，与文本块L位于同一列相邻行、且位于文本块L的上一行，与文本块M位于相同列，且文本块N位于文本块M的上两行，文本块N位于文本块P的上一行，左边一列，文本块N位于文本块Q的上两行，左边一列。关于图3中的其他文本块对应的位置关系信息，此处不再一一列举。

具体实施时，可以根据各个文本块对应的目标融合特征，确定各个文本块在目标表格中所对应的单元格的位置以及在表格图像中的位置，进而，根据确定的上述位置，构建出各个文本块对应的位置关系信息。

在一种实施例中，在确定位置关系信息的过程中，针对各个文本块，可以依次利用每两个文本块分别对应的目标融合特征，确定出每两个目标融合特征之间的关联关系。其中，关联关系用于表征两个文本块之间的位置接近程度以及相对位置关系。

进而，可以根据得到的每两个目标融合特征之间的关联关系，确定每个文本块周围的各个文本块，从而，可以确定各个文本块对应的位置关联关系，即可以得到位置关系信息。

步骤P2：基于位置关系信息，对各个目标融合特征进行特征编码，得到目标编码特征。

这里，目标编码特征为对目标融合特征进行编码之后转化得到的数据，是一种便于目标神经网络进行处理的数据，能够反映位置关系信息。

具体实施时，在得到位置关系信息之后，可以将各个目标融合特征输入至注意力模型，注意力模型在获取到各个目标融合特征之后，可以利用其中的编码器，按照位置关系信息，对各个目标融合特征进行特征编码，得到每个文本块对应的目标编码特征。

步骤P3：基于目标编码特征，生成表格图像对应的目标表格。

这里，在得到每个文本块对应的目标编码特征之后，可以利用注意力模型中的特征解码器对每个目标编码特征进行特征解码，基于解码得到的结果，生成表格图像对应的目标表格。

在一种实施例中，可以利用注意力模型中的特征解码器对每个目标编码特征进行特征解码，确定出各个文本块对应于目标表格的预测位置信息。这里，预测位置信息为注意力模型预测输出的各个文本块在目标表格中的坐标位置，具体的，可以为预测的文本块对应于目标表格中的单元格的坐标，如文本块A对应的预测位置信息为文本块A为第1行第1列处的单元格。

进一步的，可以基于每个文本块对应的预测位置信息及其对应的文本位置特征，生成表格图像中对应的目标表格。

这里，在得到每个文本块对应的预测位置信息及其对应的文本位置特征之后，可以对预测位置信息和文本位置特征进行后处理，具体的，可以将每个文本块对应的预测位置信息及其对应的文本位置特征进行比较，确定文本块对应于目标表格中的单元格的坐标和文本位置特征对应的坐标在表格图像中的相对位置是否相匹配，例如，针对文本块A，确定文本位置特征对应的坐标在表格图像中的相对位置为左上角第一个文本块，对应于目标表格中的单元格的坐标为第1行第1列，则可以确定两个位置相匹配，确定文本块A的预测位置信息为正确的，若对应于目标表格中的单元格的坐标为第3行第3列，则说明两个位置不相匹配，需要对其进行纠正，得到纠正后的预测位置信息，最后，根据确定的各个文本块对应的最终的预测位置信息，生成目标表格。这里，对预测位置信息和文本位置特征进行后处理的操作可以是在目标神经网络输出预测位置信息之后，利用计算机设备执行的，也可以是目标神经网络直接执行的，这里不进行限定。

在一种实施例中，上述基于每个文本块对应的预测位置信息及其对应的文本位置特征，生成表格图像中对应的目标表格的步骤，可以按照如下的步骤具体实施：

步骤T1：基于各个文本块的文本位置特征，确定各个文本块在表格图像中的行列位置信息。

这里，行列位置信息用于表征文本块在表格图像中所位于的行列位置。具体实施时，可以根据各个文本块的文本位置特征，确定各个文本块在表格图像中的位置及位置关系，以及各个文本块对应的图像范围，其中，文本块对应的图像范围可以根据其对应的矩形范围的四个顶点的坐标确定。

例如，文本块1和文本块2上下相邻位于右上角，文本块3与文本块1和文本块2左右相邻，文本块1对应的图像范围的高属于0～100区间，宽属于700～800区间，文本块1对应的图像范围的高属于100～200区间，宽属于700～800区间，文本块3对应的图像范围的高属于0～200区间，宽属于500～700区间。

然后，可以根据各个文本块在表格图像中的位置及位置关系，以及各个文本块对应的图像范围，确定出每个文本块对应的行列位置信息。

如图4所示，为本公开实施例所提供的一种表格图像及其包括的目标表格的示意图，延续上例，基于确定的文本块1、文本块2和文本块3的位置及位置关系，以及三个文本块分别对应的图像范围，可以确定文本块1和文本块2对应的行列位置相同，进而，可以确定文本块1和文本块2在表格图像中均位于第1行第5列，文本块3在表格图像中位于第1行第4列。

步骤T2：基于预测位置信息和行列位置信息，生成表格图像对应的目标表格。

这里，针对每个文本块，可以将文本块的预测位置信息对应的、文本块所属于的单元格的坐标位置和行列位置信息对应的在表格图像中的行列位置进行匹配，确定坐标位置和行列位置是否匹配，在确定匹配的情况下，说明预测位置信息为正确的，则可以根据文本块对应的预测位置信息和文本块对应的图像范围，确定目标表格对应的行分割线和列分割线，进而，可以根据确定的行分割线和列分割线生成目标表格，并根据文本块对应的预测位置信息，将每个文本块对应的文本信息填入生成的目标表格，得到包括文字信息的最终的目标表格。

在一种实施例中，在文本块对应的预测位置信息与文本块对应的行列位置信息不匹配的情况下，也即，在确定出文本块对应的坐标位置和行列位置不匹配的情况下，基于文本块对应的行列位置信息，可以确定出该文本块在表格图像中所对应的行列位置，进而，可以基于该文本块对应的行列位置，以及其他每个文本块对应的行列位置信息对应的行列位置，确定出行(或列)位置与该文本块对应的行(或列)位置相同的目标文本块。然后，可以基于各个的目标文本块的预测位置信息，对该文本块对应的预测位置信息进行纠正，确定该文本块对应于目标表格的目标位置信息。这里，目标位置信息为文本块纠正后的预测位置信息，为最终确定的文本块对应于目标表格的位置信息。

在图4中，文本块1、2、3、4、5、6、7对应于表格图像中的行列位置相同，均为第一行，以文本块2的预测位置信息对应于在目标表格的单元格的位置坐标为第2行第5列，文本块1、3、4、5、6、7对应的单元格的位置坐标中的行信息均为第1行，则可以利用少数服从多数的原则，对文本块2的预测位置信息进行纠正，得到文本块2的目标位置信息为第1行第5列。

进一步的，可以基于目标位置信息，生成表格图像对应的目标表格。

在一种实施例中，在完成各个文本块对应的预测位置信息及其对应的行列位置信息的匹配的情况下，可以基于确定的每个文本块的预测位置信息或目标位置信息，以及每个文本块对应的图像范围，确定目标表格对应的行分割线和列分割线。行分割线和列分割线为在表格中用于区分不同行及不同列的线条，具体的，行分割线可以为行列线中的行线，列分割线可以为行列线中的列线。行分割线和列分割线可以参照图4所示，但图4中的目标表格对应的行分割线和列分割线未全部标注。

然后，可以先根据行分割线和列分割线，确定出目标表格，并基于每个文本块对应的预测位置信息或目标位置信息，分别将每个文本块对应的文本信息填入目标表格中的单元格中，得到最终的目标表格。

或者，也可以在利用行分割线和列分割线生成目标表格的过程中，直接将每个文本块对应的文本信息填入目标表格中的单元格中，以得到目标表格，这里不进行限定。

如图5所示，为本公开实施例所提供的一种生成表格图像对应的目标表格的具体流程示意图。其中，在得到表格图像之后，将其输入卷积神经网络和文字识别神经网络，利用卷积神经网络确定图像视觉特征，利用文字识别神经网络确定表格图像中的文本块以及文本块的文本位置特征，之后，可以根据文本位置特征和图像视觉特征，确定出每个文本块对应的子视觉特征，然后，利用ROI Pooling层将子视觉特征对应的初始特征图进行尺寸统一，得到每个文本块对应的目标特征图，之后，将目标特征图的视觉特征和文本位置特征进行特征融合，得到每个文本块的目标融合特征。再将目标融合特征输入注意力模型，确定出每个文本块对应的预测位置信息，并对每个文本块对应的预测位置信息和文本位置特征进行后处理，确定每个文本块对应的最终的预测位置信息(或目标位置信息)，进而生成表格图像对应的目标表格。

另外，由上述实施例可知，本公开实施例所提供的表格识别方法可以由预先训练好的目标神经网络执行，所以本公开实施例还提供了一种训练目标神经网络的方法。

具体实施时，在目标神经网络仅输出预测位置信息的情况下，可以将样本表格图像输入待训练的目标神经网络中，由待训练的目标神经网络对样本表格图像进行处理，输出每个样本文本块对应的样本预测位置信息，然后可以根据每个样本文本块对应的标准位置信息和样本预测位置信息，确定待训练的目标神经网络的第一预测损失，利用第一预测损失对待训练的目标神经网络进行迭代训练，在满足训练截止条件的情况下，得到训练好的目标神经网络。其中，训练截止条件可以包括迭代训练的轮数达到预设轮数和/或训练完成的目标神经网络的预测精度满足预设精度。

或者，在目标神经网络输出目标表格的情况下，可以将样本表格图像输入待训练的目标神经网络中，由待训练的目标神经网络对样本表格图像进行处理，输出样本表格图像对应的样本预测表格，然后可以根据样本表格图像对应的标准表格和样本预测表格，确定待训练的目标神经网络的第二预测损失，利用第二预测损失对待训练的目标神经网络进行迭代训练，在满足训练截止条件的情况下，得到训练好的目标神经网络。

在一种实施例中，表格图像包括入库单表格图像，目标表格包括入库单表格图像对应的入库单表格。这里，入库单表格图像为拍摄的包含入库物品信息对应的表格的图像，入库单表格图像对应于一个入库单表格，该表格中包含各种入库物品的入库物品信息，入库物品信息例如可以为入库电话机的规格型号信息、发票信息、数量信息、金额信息等等，入库笔记本的规格型号信息、发票信息、数量信息、金额信息等等。

在生成表格图像对应的目标表格之后，也即在利用本公开实施例所提供的表格识别方法对入库单表格图像进行识别，生成入库单表格之后，还可以基于入库单表格对应的各个文本块的文本信息，确定入库单表格图像对应的入库物品信息。具体的，可以基于入库单表格对应的各个文本块的文本信息以及各个文本块对应的目标位置信息，确定每个入库物品对应的入库物品信息。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与表格识别方法对应的表格识别装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述表格识别方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

如图6所示，为本公开实施例提供的一种表格识别装置的示意图，包括：

获取模块601，用于获取待识别的表格图像；

第一确定模块602，用于确定所述表格图像的图像视觉特征，以及各个文本块在所述表格图像中的文本位置特征；

第二确定模块603，用于基于各个所述文本块的文本位置特征和所述图像视觉特征，确定各个所述文本块的目标融合特征；

生成模块604，用于基于各个所述文本块的所述目标融合特征，生成所述表格图像对应的目标表格。

在一种可能的实施方式中，所述第二确定模块602，用于针对每个文本块，基于所述文本块在所述表格图像中的文本位置特征，从所述图像视觉特征中提取所述文本块对应的子视觉特征；

在一种可能的实施方式中，所述第二确定模块602，用于分别将各个文本块的子视觉特征对应的初始特征图设置为预设尺寸，得到每个文本块对应的目标特征图；

在一种可能的实施方式中，所述生成模块604，用于基于各个所述文本块对应的目标融合特征，确定各个所述文本块对应的位置关系信息；

在一种可能的实施方式中，所述生成模块604，用于基于各个所述文本块对应的目标融合特征，确定每两个文本块对应的目标融合特征之间的关联关系；

在一种可能的实施方式中，所述生成模块604，用于对各个所述文本块对应的目标编码特征进行特征解码，确定各个所述文本块对应于所述目标表格的预测位置信息；

在一种可能的实施方式中，所述生成模块604，用于基于各个所述文本块的文本位置特征，确定各个所述文本块在所述表格图像中的行列位置信息；

在一种可能的实施方式中，所述生成模块604，用于在所述文本块对应的预测位置信息与所述文本块对应的行列位置信息不匹配的情况下，基于所述文本块对应的行列位置信息，确定与所述文本块的行列位置信息相对应的各个目标文本块；

在一种可能的实施方式中，所述生成模块604，用于根据所述目标位置信息，确定所述目标表格对应的行分割线和列分割线；

所述生成模块604，还用于所述生成所述表格图像对应的目标表格之后，基于所述入库单表格对应的各个文本块的文本信息，确定所述入库单表格图像对应的入库物品信息。

关于装置中的各模块的处理流程、以及各模块之间的交互流程的描述可以参照上述方法实施例中的相关说明，这里不再详述。

本公开实施例还提供了一种计算机设备，如图7所示，为本公开实施例提供的一种计算机设备结构示意图，包括：

处理器71和存储器72；所述存储器72存储有处理器71可执行的机器可读指令，处理器71用于执行存储器72中存储的机器可读指令，所述机器可读指令被处理器71执行时，处理器71执行下述步骤：S101：获取待识别的表格图像；S102：确定表格图像的图像视觉特征，以及各个文本块在表格图像中的文本位置特征；S103：基于各个文本块的文本位置特征和图像视觉特征，确定各个文本块的目标融合特征以及S104：基于各个文本块的目标融合特征，生成表格图像对应的目标表格。

上述存储器72包括内存721和外部存储器722；这里的内存721也称内存储器，用于暂时存放处理器71中的运算数据，以及与硬盘等外部存储器722交换的数据，处理器71通过内存721与外部存储器722进行数据交换。

上述指令的具体执行过程可以参考本公开实施例中所述的表格识别方法的步骤，此处不再赘述。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的表格识别方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的表格识别方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行上述方法实施例中所述的表格识别方法的步骤，具体可参见上述方法实施例，在此不再赘述。

该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品具体体现为计算机存储介质，在另一个可选实施例中，计算机程序产品具体体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种表格识别方法，其特征在于，包括：

获取待识别的表格图像；

2.根据权利要求1所述的方法，其特征在于，所述基于各个所述文本块的文本位置特征和所述图像视觉特征，确定各个所述文本块的目标融合特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于各个文本块对应的子视觉特征和各个文本块对应的文本位置特征，分别确定各个所述文本块的目标融合特征，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述基于各个所述文本块的所述目标融合特征，生成所述表格图像对应的目标表格，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于各个所述文本块对应的目标融合特征，确定各个所述文本块对应的位置关系信息，包括：

6.根据权利要求4或5所述的方法，其特征在于，所述基于所述目标编码特征，生成所述表格图像对应的目标表格，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述预测位置信息和所述文本位置特征，生成所述表格图像对应的目标表格，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述预测位置信息和所述行列位置信息，生成所述表格图像对应的目标表格，包括：

9.根据权利要求8所述的方法，所述基于所述目标位置信息，生成所述表格图像对应的目标表格，包括：

10.根据权利要求1至9任一项所述的方法，其特征在于，利用训练好的目标神经网络执行所述表格识别方法，得到所述表格图像对应的目标表格。

11.根据权利要求1至10任一项所述的方法，其特征在于，所述表格图像包括入库单表格图像，所述目标表格包括入库单表格图像对应的入库单表格；

所述生成所述表格图像对应的目标表格之后，包括：

12.一种表格识别装置，其特征在于，包括：

获取模块，用于获取待识别的表格图像；

13.一种计算机设备，其特征在于，包括：处理器、存储器，所述存储器存储有所述处理器可执行的机器可读指令，所述处理器用于执行所述存储器中存储的机器可读指令，所述机器可读指令被所述处理器执行时，所述处理器执行如权利要求1至11任意一项所述的表格识别方法的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被计算机设备运行时，所述计算机设备执行如权利要求1至11任意一项所述的表格识别方法的步骤。