CN115240213A

CN115240213A - 表格图像识别方法、装置、电子设备及存储介质

Info

Publication number: CN115240213A
Application number: CN202210831690.XA
Authority: CN
Inventors: 张荷花; 刘静平
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-10-25

Abstract

本申请提供的一种表格图像识别方法、装置、电子设备及存储介质，通过对获取到的表格像素图进行单元格提取，并对该像素图进行内容识别，得到像素图中各个文本及文本的位置信息。然后根据各个单元格的位置信息对各个单元格进行像素图位置解析，得到单元格在像素图中的行列位置信息，以确定各个单元格所属的行和列。然后根据各个文本对应的位置信息与各个单元格的位置信息进行匹配，得到各个单元格对应的文本，并基于各个单元格的行列位置信息，确定像素图中的表头位置及其对应的文本、表体位置及其对应的文本，根据该表头、表体以及对应的文本，可识别出该像素图的表格，提高了识别结果的精确度，使得该像素图中的表格可以直接应用于其他任务。

Description

表格图像识别方法、装置、电子设备及存储介质

技术领域

本申请涉及图像识别技术领域，尤其涉及一种表格图像识别方法、装置、电子设备及存储介质。

背景技术

对于以图像的形式存在的表格，例如，在建筑设计施工图等像素图中的表格，通常需要对表格图像进行表格识别，以获得表格的相关信息，即表格中的各列的列名、各列数据以及表格各行的数据等。

目前，对表格图像的识别，通常是分别提取表格中的横线与竖线，然后将横线和竖线等权叠加得到不含有文字的表格框架图像，并对该表格框架图像进行轮廓线检测，得到各个单元格，再使用光学字符识别(Optical Character Recognition，简称OCR)对表格图像进行识别，得到文本的位置信息，最后对各个单元格以及文本的位置信息进行匹配，得到各个单元格内的文本。

但是，上述表格图像的识别方法得到的结果，无法得到表格的具体结构，即无法区分表头和表体，以及表格的行列结构，识别结果精确度不高，影响对像素图中表格的使用。

发明内容

本申请提供一种表格图像识别方法、装置、电子设备及存储介质，用以解决现有技术中表格图像的识别结果无法区分表头和表体，以及表格的行列结构，识别结果精确度不高，影响对像素图中表格的使用的问题。

第一方面，本申请提供一种表格图像的识别方法，包括：

获取表格像素图，并对所述像素图进行单元格提取得到所述像素图包括的多个单元格的位置信息；

对所述像素图进行内容识别，得到所述像素图中的文本识别内容，所述文本识别内容中包括各个文本及各个文本的位置信息；

根据各个所述单元格的位置信息对各个所述单元格进行像素图位置解析，得到各个所述单元格在所述像素图中的行列位置信息；

根据各个所述文本对应的位置信息与所述各个单元格的位置信息进行匹配，得到各个单元格对应的文本；

基于各个所述单元格在所述像素图中的行列位置信息以及各个所述单元格对应的文本，确定所述像素图中的表头位置及其对应的文本、表体位置及其对应的文本；

根据所述表头位置及其对应的文本、所述表体位置及其对应的文本，识别出所述像素图的表格。

第二方面，本申请提供一种表格图像的识别装置，包括：

获取模块，用于获取表格像素图，并对所述像素图进行单元格提取得到所述像素图包括的多个单元格的位置信息；

第一识别模块，用于对所述像素图进行内容识别，得到所述像素图中的文本识别结果，所述内文本识别结果中包括各个文本及各个文本的位置信息；

位置解析模块，用于根据各个所述单元格的位置信息对各个所述单元格进行像素图位置解析，得到各个所述单元格在所述像素图中的行列位置信息；

匹配模块，用于根据各个所述文本对应的位置信息与所述各个单元格的位置信息进行匹配，得到各个单元格对应的文本；

确定模块，用于基于各个所述单元格在所述像素图中的行列位置信息以及各个所述单元格对应的文本，确定所述像素图中的表头位置及其对应的文本、表体位置及其对应的文本；

第二识别模块，用于根据所述表头位置及其对应的文本、所述表体位置及其对应的文本，识别出所述像素图的表格。

第三方面，本申请提供一种电子设备，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现第一方面所述的表格图像的识别方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如第一方面所述的表格图像的识别方法。

第五方面，本申请提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现第一方面所述的表格图像的识别方法。

本申请提供的一种表格图像识别方法、装置、电子设备及存储介质，通过对获取到的表格像素图进行单元格提取，并对该像素图进行内容识别，得到像素图中各个文本以及各个文本的位置信息。然后根据各个单元格的位置信息对各个单元格进行像素图位置解析，得到单元格在像素图中的行列位置信息，以确定各个单元格所属的行和列。然后根据各个文本对应的位置信息与各个单元格的位置信息进行匹配，得到各个单元格对应的文本，并基于各个单元格的行列位置信息以及各个单元格对应的文本，确定像素图中的表头位置及其对应的文本、表体位置及其对应的文本，根据该表头、表体以及对应的文本，可识别出该像素图的表格，提高了识别结果的精确度，使得该像素图中的表格可以直接应用于其他任务。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例一提供的一种表格图像识别方法的流程示意图；

图2为本申请实施例一示例的像素图的单元格示意图；

图3为本申请实施例二提供的另一种表格图像识别方法的流程示意图；

图4为本申请实施例三提供的另一种表格图像识别方法的流程示意图；

图5为本申请实施例四提供的另一种表格图像识别方法的流程示意图；

图6为本申请实施例五提供的另一种表格图像识别方法的流程示意图；

图7为本申请实施例六提供的一种表格图像识别装置的结构示意图；

图8为本发明实施例七提供的一种电子设备的结构示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在建筑施工图、工程制图等像素图中，表格并不是以可编辑的文档格式(例如，word或者excel等)呈现，而是以图像的格式呈现，在这种情况下，使用该图像中的表格信息时，需要将其从图像中识别出来，形成可编辑的表格格式。

在现有技术中，对像素图中的表格图像的识别，通常是通过传统的腐蚀膨胀等方法识别表格中的横线与竖线，然后将横线和竖线等权叠加得到不含有文字的表格框架图像，并对该表格框架图像进行轮廓线检测，得到各个单元格，再使用光学字符识别对表格图像进行识别，得到文本的位置信息，最后对各个单元格以及文本的位置信息进行匹配，得到各个单元格内的文本。

基于上述现有技术得到的识别结果，无法得到表格的具体结构，即无法区分表头和表体，以及表格的行列结构，识别结果精确度不高，影响对像素图中表格的使用。

而且利用上述识别方法在对一些复杂的图像中进行表格识别时，会出现文本漏检测和误识别等问题。例如，对于一个单元格内只有一个字符的情况，往往会漏识别，或者，对于多个单元格内文本紧凑的情况，则容易将多个单元格的文本识别成一个单元格的文本，导致后续单元格与文本匹配错误。又或者，对于表格通常会出现紧贴在一起的情况，使得两个表格区域形成一个非矩形区域，对表格的识别带来了很大的挑战。

所以，针对现有技术的上述技术问题，本申请提出一种表格图像识别方法、装置、电子设备及存储介质，在获取到表格像素图中的单元格以及识别到该像素图中的文本，并对单元格和文本进行匹配后，对各个单元格进行行列位置解析，确定各个单元格的行列位置信息，然后基于该行列位置信息确定表头和表体，以得到该像素图对应的表格，提高了识别结果的精确度，使得该像素图中的表格可以直接应用于其他任务。

本申请的应用场景可以是对建筑领域的施工图或者设计图等像素图中的表格识别，也可以是其他领域的图纸中的表格识别，本申请对此不进行限制。可以理解的是，本申请所提供的表格图像识别方法，包括但不限于以上应用场景。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以独立存在，也可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

参考图1，图1为本申请实施例一提供的一种表格图像识别方法的流程示意图，该方法可以由表格图像识别装置执行，该装置可以是服务器，该方法包括如下步骤。

S101、获取表格像素图，并对表格像素图进行单元格提取得到像素图包括的多个单元格的位置信息。

服务器在获取表格像素图时，如果获取到的待提取表格的图纸不是像素图格式，例如，该像素图格式为JPEG、PSD、PNG或者TIFF等，服务器需要将图纸的格式转换为像素图格式。或者，当上述待提取表格的图纸中还包括表格以外的内容，服务器可以利用深度学习的目标检测模型等方法对该图纸中的表格进行提取，使得得到的表格像素图只包含表格区域。

服务器获取到表格像素图后，对该像素图进行单元格提取，得到像素图的多个单元格的位置信息，位置信息可以以各种形式表示，例如：可以采用四元组坐标表示，四元组坐标表示为(x，y，w，h)，其中，x和y表示单元格左上角的横坐标和纵坐标，w表示单元格的宽度，h表示单元格的高度。示例性的，像素图的单元格如图2所示，图中仅示出“类别”和“洞口尺寸”的单元格。

具体的，上述对单元格提取的方式如下：

服务器读取像素图后，对该像素图二值化处理后得到二值图像，分别使用竖直和水平卷积核对二值图像进行闭运算提取横线竖线，然后对提取的横线和竖线进行等权重相加计算，再对计算处理后得到的图像进行轮廓线检测，检测后的矩形轮廓即为单元格，根据检测结果可以得到单元格的位置信息。

可选的，对于检测到的矩形轮廓，轮廓过小的删除，具体的，当矩形轮廓的宽度和高度均小于预设阈值，则确定该矩形轮廓过小，不应该被视为单元格。

S102、对像素图进行内容识别，得到像素图的文本识别结果，文本识别结果中包括各个文本及各个文本的位置信息。

为了识别出像素图中的文本，服务器对像素图进行内容识别，以识别出像素中的文本，服务器可以将的文本识别结果存储在文本识别列表中，该文本识别列表中包括各个文本和以及各个文本对应的位置信息。

可选的，为了提高文本识别的效率，当像素图大于预设像素阈值(例如1000像素)时，即表格太大时，可以将像素图进行切片，然后再对切片后的像素图进行内容识别，最后将各个切片对应的识别结果进行合并，可以快速得到像素图的识别结果。

可选的，为了提高文本识别的准确率，服务器可以对像素图进行放大处理，即服务器可以将各个单元格的四元组坐标乘以预设比例常数，得到变换后的坐标，并将各个单元格对应的文本图像映射到变换后的坐标对应的位置，得到间距增大后的像素图。

然后再对间距增大后的像素图进行内容识别，得到识别结果后，对识别得到的文本的位置信息除以上述预设比例常数，得到每个文本在原像素图中的位置信息，该预设比例常数大于1。

示例性的，上述文字识别方法可以使用光学字符识别，也可以使用其他文本识别方法进行识别，本申请对此不进行限定。

S103、根据各个单元格的位置信息对各个单元格进行像素图位置解析，得到各个单元格在像素图中的行列位置信息。

为了确定各个单元格所属的行和列，服务器对各个单元格进行像素图位置解析，得到各个单元格在像素图中的行列位置信息。

解析的过程例如可以是：识别各单元格的顶点位置在像素图中的坐标，通过四个顶点坐标来确定各个单元格中相同的行、相同的列，从而识别出单元格的行列位置。

S104、根据各个文本对应的位置信息与各个单元格的位置信息进行匹配，得到各个单元格对应的文本。

为了确定各个单元格对应的文本，服务器可以将文本对应的位置信息与各个单元格的位置信息进行匹配，以确定各个单元格对应的文本。

例如：可以识别出各单元格的顶点位置在像素图中的坐标，再识别出文本所占的文本区域的区域轮廓上点的坐标信息，通过识别出的单元格顶点坐标和文本区域轮廓上点的坐标进行匹配，得到位置对应的单元格及文本。

S105、基于各个单元格在像素图中的行列位置信息以及各个单元格对应的文本，确定像素图中的表头位置及其对应的文本、表体位置及其对应的文本。

将单元格与文本进行匹配后，服务器可以基于该行列位置信息，确定该像素图的表头位置和表体位置，具体如下：

服务器可以将每一行对应的单元格存储在一个行集合中，该集合中包括多个列表，每个列表用于存储每一行对应的单元格。

然后服务器将行集合中的列表按照每一行中第一个单元格的纵坐标从小到大排序，当有单元格同时属于多行，出现纵坐标相同的情况时，当纵坐标相当时，可以按照该行中下一个单元格的纵坐标从小到大排序，以此类推。需要说明的是，在按照纵坐标从小达到进行排序之前，每一行中的单元格是按照横坐标从小达到排序存储的，上述第一个单元格可以理解为每一行中横坐标最小的单元格。

然后服务器可以从行集合中按照上述排序寻找列数最多的行，示例性的，

表一

可知，表一对应的行集合中包括4个列表并且每行的先后顺序是：[1，2]、[3、4、2]、[5、6、7]、[8、9、10]。从第一个行开始遍历，从第二行开始，列数均为3个，那么将第一次出现的列数最多的行(即第二行[3、4、2])作为表头的最后一行，且第一次出现的列数最多的行在预设行数范围内，也就是说，第二行所在的位置在预设行数范围内，由于表头一般不会超过5行，示例性的，该预设行数范围可以设置为5，其具体数值可以根据需求自行设置。

确定第一次出现的列数最多的行后，服务器可以将该行以及其前面的行(例如上述示例中的第一行)的单元格以及对应的文本作为表头位置及其对应的文本，将该行后面的行(例如上述示例中的第三行和第四行)的单元格以及对应的文本作为表体位置及其对应的文本。

S106、根据表头位置及其对应的文本、表体位置及其对应的文本，识别出像素图的表格。

确定表头位置及其对应的文本、表体位置及其对应的文本后，服务器可以根据表头位置及其对应的文本、表体位置及其对应的文本，识别出像素图的表格。

识别过程例如可以是：根据表头位置及其对应的文本，确定像素图的表格的列名，可以通过单元格的顶点坐标确定表头位置和表体位置中属于同一列的单元格，以建立表头位置的列名与表体位置的文本的映射关系，从而实现将表体位置的每一列与表头位置的列名对应，根据该映射关系以及表头位置及其对应的文本、表体位置及其对应的文本，得到像素图的表格。

在本实施例中，通过对获取到的像素图进行单元格提取，并对该像素图进行内容识别，得到像素图中各个文本以及各个文本的位置信息。然后根据各个单元格的位置信息对各个单元格进行像素图位置解析，得到单元格在像素图中的行列位置信息，以确定各个单元格所属的行和列。然后根据各个文本对应的位置信息与各个单元格的位置信息进行匹配，得到各个单元格对应的文本，并基于各个单元格的行列位置信息以及各个单元格对应的文本，确定像素图中的表头位置及其对应的文本、表体位置及其对应的文本，根据该表头、表体以及对应的文本，可识别出该像素图的表格，提高了识别结果的精确度，使得该像素图中的表格可以直接应用于其他任务。

下面通过实施例二对实施例一中的步骤S103的像素图位置解析得到行列位置信息进行详细说明。

参考图3，图3为本申请实施例二提供的另一种表格图像识别方法的流程示意图，该方法可以由表格图像识别装置执行，该装置可以是服务器，该方法包括如下步骤。

S301、根据各个单元格的四元组坐标中的横坐标，确定各个单元格所属的列。

服务器可以构造一个空的列集合，然后根据各个单元格的左上角顶点的四元组坐标的横坐标，确定各个单元格所属的列，并将各个单元格存储到该列集合中其所属的列表中。

具体的，首先将单元格按照纵坐标从小到大排序，当纵坐标相当时，按照横坐标从小到大排序。然后根据该排序按顺序依次遍历所有的单元格，将第一个单元格的横坐标范围作为第一列的横坐标范围，示例性的，第一个单元格的横坐标范围为[x，x+w)，那么第一列的横坐标范围为[x，x+w)。然后获取第二个单元格，判断该单元格的横坐标是否在上述横坐标范围，如果是，则将第二个单元格加入第一列，否则，将第二个单元格的横坐标范围作为第二列的横坐标范围，以此类推。遍历所有的单元格后，确定了各个单元格所属的列，得到的列集合中包括多个列表，每一个列表中存储一列单元格的位置信息。

为了避免将不属于同一列的单元格分类为同一列，服务器对该列集合中的每一列的单元格进行检查，当目标列中存在横坐标范围不相同的单元格，则将横坐标范围相同的单元格从这一列中分出来单独形成一列，例如形成的列有三列：1、2、3，确定剩余单元格的横坐标范围所包含的形成的列的横坐标范围，例如，当某个剩余单元格的横坐标范围包含1列和2列的横坐标范围，那么将该剩余单元格分别加入到1列和2列中，可以理解，此时目标列所有的单元格均分到新的列中，该目标列为空，删除目标列。

为了使得上述描述更清楚，以下根据示例的表二，对上述处理进行示例说明。

表二

可知，按照横坐标确定各个单元格所属的列，表二对应的列集合中，包括一个列表：[1，2，3，4，5，6，7，8，9]，但是从表格中可知，单元格1、3、6和9属于一列，单元格1、2、4和7属于一列，单元格1、2、5和8属于一列。

为了避免将不属于同一列的单元格分类为同一列，由于单元格4和7的横坐标范围相同，单元格5和8的横坐标范围相同，单元格3、6和9的横坐标范围相同，则将横坐标范围相同的单元格分离出来形成一列，那么这里形成3列，分别为第一列：[4，7]、第二列：[5，8]和第三列：[3，6，9]。对于表一的剩余单元格1、2和3，单元格2的横坐标范围包含第一列和第二列的横坐标范围，则将单元格2分别加入到第一列和第二列中，单元格1的横坐标范围均包含第一列、第二列和第三列的横坐标范围，则将单元格1分别加入这三列中。最后得到的第一列为[1，2，4，7]，第二列为[1，2，5，8]，第三列为[1，3，6，9]。

经过上述操作，得到第一列、第二列和第三列，那么可以将列集合中原始的一列删除，并将这三列存储到列集合中。

S302、根据各个单元格的四元组坐标中的纵坐标以及各个单元格所属的列，确定各个单元格所属的行。

服务器确定各个单元格所属的列后，可以根据各个单元格的四元组坐标中的纵坐标以及各个单元格所属的列，确定各个单元格所属的行。

具体的，服务器得到列集合后，可以从该列集合中确定行数最多的列，并以该列中各个单元格的纵坐标范围作为每一行的纵坐标范围，然后可以根据上述确定列集合时排序的单元格的顺序，遍历每一个单元格以确定单元格所属的行，即判断单元格的四元组坐标的纵坐标所在的纵坐标范围，以确定该单元格所属的行。

服务器得到行集合后，同样的，为了避免将不属于同一行的单元格分类为同一行，服务器对该行集合中的每一行的单元格进行检查，当目标行中存在纵坐标范围不相同的单元格，则将纵坐标范围相同的单元格从这一行中分离出来形成一行，例如形成的行有两行：1和2，确定剩余单元格的纵坐标范围是否所包含的1行和/或2行的纵坐标范围，例如，当某个剩余单元格的纵坐标范围包含1行和2行的纵坐标范围，那么将该剩余单元格分别加入到1行和2行中，可以理解，此时目标行所有的单元格均分到新的行中，该目标行为空，删除目标行。

在本实施例中，服务器根据各个单元格的四元组坐标横坐标，确定各个单元格所属的列，然后根据各个单元格的四元组坐标中的纵坐标以及各个单元格所属的列，确定各个单元格所属的行，使得后续可以根据行划分表体和表头，从而得到像素图的表格，提高了识别结果的精确度，使得该像素图中的表格可以直接应用于其他任务。

下面通过实施例三对实施例一中步骤S104中的文本与各个单元格的匹配进行详细说明。

参考图4，图4为本申请实施例三提供的另一种表格图像识别方法的流程示意图，该方法可以由表格图像识别装置执行，该装置可以是服务器，该方法包括如下步骤。

S401、将识别置信度大于或者等于预设阈值的文本作为候选文本。

服务器在进行单元格与文本匹配之前，可以根据像素图进行内容识别时得到的文本识别结果中的各个文本的识别置信度筛选候选文本，以排除识别错误的干扰文本。

具体的，服务器可以根据文本识别结果中的识别置信度，筛选候选文本，即服务器可以从文本识别列表中选择识别置信度大于或者等于预设阈值的文本作为候选文本，该置信度越高表示识别结果的可信度越高，示例性的，预设阈值可以设置为0.7，将识别置信度较低的文本丢弃，以排除识别错误的干扰文本，提高匹配结果的准确率。

可选的，服务器还可以将高度和宽度的比值小于预设比值的文本丢弃，示例性的，该预设比值可以设置为0.3，比值大于该0.3的文本高度远大于宽度，该文本的识别结果不可信。

S402、根据候选文本的位置信息与各个单元格的位置信息进行匹配，确定各个候选文本所属的单元格，得到各个单元格对应的文本。

服务器可以对行集合中存储的每一行逐行判断，即从行集合中获取待匹配的行，将文本识别列表中各个文本的位置信息与待匹配的行中的单元格逐个进行匹配。

具体的，文本的位置信息可以以各种形式表示，例如：可以采用四元组坐标表示该文本轮廓的左上角的顶点的坐标，服务器可以将候选文本的坐标与对该待匹配的行中的单元格的左上角的顶点的坐标进行匹配，即判断文本的坐标是否位于单元格内，从而确定属于各个单元格的文本。当两个文本的横坐标相差较小，例如，横坐标的差值小于80像素，则确定两个文本属于用一个单元格，即单元格包括多行文本，对于一个单元格内有多行文本的情况，为了避免多行文本上下位置颠倒，在匹配之前，可以将文本识别列表中的文本按照纵坐标从小打大排序，纵坐标相同时，按照横坐标从小到大排序，然后可以使用字符串拼接将一个单元格中的多行文本按照上述排序进行拼接。示例性的，如图2所示，“防火门窗索引”和“参见国标12J609”属于同一个单元格，按照上述排序为：“防火门窗索引”、“参见国标12J609”，则将这两行文本进行拼接得到“防火门窗索引参见国标12J609”。

可选的，服务器可以对各个单元格匹配到的文本进行文本纠错，以准确得到各个单元格对应的文本，例如对一些难以区分的大小写字母进行统一，对中英文标点进行统一等。

可选的，对于没有与文本的位置信息相匹配的目标单元格，服务器可以获取目标单元格对应的目标文本图像，然后对目标文本图像进行二次内容识别，得到目标单元格对应的文本。

或者，为了避免目标单元格中包括多行文本而出现识别错误的情况，服务器可以对目标文本图像进行图像处理，当确定目标文本图像中包括多行文本，则获取目标文本图像中每一行文本的文本图像。再对每一行文本的文本图像进行内容识别，得到目标单元格的每一行的文本，然后将每一行的文本进行拼接，得到目标单元格对应的文本。

具体实现如下：

首先，服务器判断各个目标文本图像中是否有斜线，如果有斜线，则说明这个单元格就是没有文本，不需要进行后续处理。

如果目标文本图像中没有斜线，则对目标文本图像进行二值化后取反，其中，二值化阈值可以设置为90像素，然后再对二值化图像进行膨胀和腐蚀操作，此时，目标文本图像膨胀成一块连续的白色区域。

服务器可以使用轮廓检测算法对目标文本图像进行检测，得到文本的矩形外轮廓，该外轮廓同样以左上角点的四元组坐标表示，而当文本之间有空格时，得到的一个文本的矩形外轮廓可能有多个。服务器可以将上述矩形外轮廓按照横坐标排序，以解决文本的语序问题。然后将长度和高度小于预设阈值的矩形外轮廓去除，从而去除非正常文本，并筛选出有重叠的矩形外轮廓，保留横纵坐标最小的矩形外轮廓。

但是上述的矩形外轮廓的位置不是文本准确的位置，为了得到文本的准确位置信息，服务器可以将筛选后的矩形外轮廓对应的二值化图像投影到纵坐标轴上，示例性的，对于一个高度为h的图像，得到一个长度为h的列表，列表的每个元素表示在这个高度上有多少个白色像素点，同时可以确定每个文本具体的纵坐标和高度。一般每行文本在投影后都会形成一个峰，所以判断峰的数量即可知道文本的行数和每一行具体的高度，其中，峰，指的是列表里数值大于某个阈值的位置，反之，谷就是小于某个阈值的位置。

当上述投影结果确定文本的行数大于2，则服务器对每一行文本进行剪裁，得到每一行文本的文本图像，并将其投影到横坐标轴上，可得到文本的横坐标和宽度，即可以得到文本具体的位置坐标(x，y，w，h)。然后，对每一行文本的文本图像进行内容识别，得到目标单元格的每一行的文本，将每一行文本拼接起来，就可以得到单元格的文本。

可选的，经过上述处理，当对目标文本图像进行二次内容识别没有得到文本时，进一步的，服务器可以根据上述处理得到的目标文本图像的位置信息将目标文本图像进行复制，得到多个目标文本图像，并将多个目标文本图像进行拼接。然后服务器对拼接后的文本图像进行内容识别，得到识别结果，即拼接后的文本图像的文本。为了去除重复文本，服务器将识别结果中重复文本删除，即可得到目标单元格对应的文本。

在本实施例中，服务器将置信度大于或者等于预设阈值的文本作为候选文本，然后根据候选文本的位置信息与各个单元格的位置信息进行匹配，确定各个候选文本所属的单元格，得到各个单元格对应的文本。而且对于没有与文本的位置信息相匹配的目标单元格进行二次内容识别，以及考虑了单元格有多行文本的情况，进一步提高了文本识别的准确率，准确得到单元格对应的文本。

下面通过实施例四对实施例一中的步骤S106的表格识别进行详细说明。

参考图5，图5为本申请实施例四提供的另一种表格图像识别方法的流程示意图，该方法可以由表格图像识别装置执行，该装置可以是服务器，该方法包括如下步骤。

S501、确定表头位置的列名。

在实施例二的基础上，当确定表头位置中存在同时属于多列的单元格，服务器可以将表头位置中同时属于多列的单元格，与其在表头位置中同一列的单元格的文本进行拼接，得到表头位置中的列名。

示例性的，如图2中，“洞口尺寸”同时属于“宽”和“高”所在的列，那么文本拼接后的列名为“洞口尺寸：宽”和“洞口尺寸：高”，其中的冒号可以替换为其他任意符号。经过上述处理后，每一列都是不可分割的，符合第一范式的数据结构，便于后续任务使用该表格数据。

S502、建立表头位置的列名与表体位置的文本的映射关系。

确定表体位置的列名后，服务器可以将表头位置和表体位置中属于同一列的列名与单元格的文本建立映射关系，以将表头位置的列名和表体位置的每一列单元格对应起来。

例如，服务器可以通过构建键值对来表示映射关系，具体的，对表体位置的每个单元格的文本和其所在的列的列名构建键值对，其中，键为列名，值为单元格的文本。当表体位置中存在未建立映射关系的单元格，说明可能出现多表格的情况，示例性的，如表三所示，当以左上三个单元格(层数，标高(H)和层高)为表头，那么服务器在构建键值对时，右边的表格中文本不会与表头的列名构建键值对。

对于未建立映射关系的单元格的处理，请参考实施例五。

S503、根据映射关系以及表头位置及其对应的文本、表体位置及其对应的文本，得到像素图的表格。

建立映射关系后，服务器可以使用第一列表存储该表头位置的列名，第一列表可以为字符串类型的列表。使用第二列表存储表体的所有行，每一行包括多个键值对，其中，键为列名，值为该列对应的文本。

示例性的，以图2的表格为例，第二列表存储有表体的三行，第一行的数据为{类别：门，设计编号：FM1，洞口尺寸(mm)：宽：1100，洞口尺寸(mm)：高：2100，樘数：2，备注：成品甲级钢质防火门，防火门窗索引参见国标12J609：GFM3-1121(A1.50甲级)}。

然后可以使用第三列表存储表头位置和表体位置对应的所有的列，每一列用键值对表示，其中，键为列名，值为文本列表，该文本列表中包括表体位置中该列对应的文本，示例性的，以图1的表格为例，第一列的数据为{类别，[门，窗]}，第二列的数据为{设计编号，[FM1，FM1，C1]}，第三列的数据为{洞口尺寸：宽，[1100，1800，1500]}。

表三

基于上述第一列表，第二列表和第三列表，可以确定表格像素图的结构化数据，使得后续任务可以直接根据该结构化数据提取表格中的数据。

当然，服务器也可以在数据库中对该结构化数据进行可视化，识别得到像素图的表格，以得到可编辑的表格格式。

在本实施例中，服务器可以先确定表头位置每一列的列名，然后建立表头位置的列名与表体位置的文本的映射关系，将表头位置的列名和表体位置的每一列单元格对应起来。再根据映射关系以及表头位置及其对应的文本、表体位置及其对应的文本，确定像素图的表格的结构化数据，得到像素图的表格，提高了识别结果的精确度，使得该像素图中的表格可以直接应用于其他任务。

下面通过实施例五对上述实施例四中表体位置中存在未建立映射关系的单元格的处理进行描述，即对表格像素图中出现多个表格的情况进行处理。

参考图6，图6为本申请实施例五提供的另一种表格图像识别方法的流程示意图，该方法可以由表格图像识别装置执行，该装置可以是服务器，该方法包括如下步骤。

S601、基于未建立映射关系的单元格在像素图中的行列位置信息以及未建立映射关系的单元格对应的文本，确定未建立映射关系的单元格对应的目标表头位置及其对应的文本、目标表体位置及其对应的文本。

具体的，当存在未建立映射关系的单元格，服务器可以基于未建立映射关系的单元格在像素图中的行列位置信息，确定未建立映射关系的单元格对应的目标表头位置及其对应的文本、目标表体位置及其对应的文本。

上述处理的相关描述可以参考以上实施例，这里不再赘述。

S602、对比目标表头位置对应的文本与像素图的表头位置对应的文本是否相同，当文本均相同，则将目标表体位置及其对应的文本合并到像素图对应的表格中。

当目标表头位置的文本与上述实施例中像素图对应的表头位置的文本均相同，则说明不存在多表格的情况，而是同一个表格出现了换行的情况，示例性的，如表三所示。服务器可以将目标表体位置及其对应的文本合并到像素图对应的表格中，具体的，服务器可以将目标表体位置的各个单元格的文本拼接到像素图的表体位置中。

S603、当任意一个文本不相同，则根据目标表头位置及其对应的文本、目标表体位置及其对应的文本，识别出未建立映射关系的单元格对应的表格。

当目标表头位置的文本与像素图对应的表头位置的文本任意一个不相同，则说明存在多表格的情况，则服务器可以基于目标表头位置及其对应的文本、目标表体位置及其对应的文本，识别出未建立映射关系的单元格对应的表格。

上述处理的相关描述可以参考以上实施例，这里不再赘述。

在本实施例中，服务器基于未建立映射关系的单元格在像素图中的行列位置信息以及未建立映射关系的单元格对应的文本，确定未建立映射关系的单元格对应的目标表头位置及其对应的文本、目标表体位置及其对应的文本。然后对比目标表头位置对应的文本与像素图的表头位置对应的文本是否相同，当文本均相同，则将目标表体位置及其对应的文本合并到像素图对应的表格中。当任意一个文本不相同，则根据目标表头位置及其对应的文本、目标表体位置及其对应的文本，识别出未建立映射关系的单元格对应的表格，实现对像素图中出现多表格相邻的情况的处理，对于相同表头和不同表头两种情况确定相应的表格数据，进一步提高了表格图像识别的准确率。

参考图7，图7为本申请实施例六提供的一种表格图像识别装置的结构示意图。表格图像识别装置70包括：处理模块701，识别模块702、位置解析模块703、匹配模块704、确定模块705和识别模块706。

获取模块701，用于获取表格像素图，并对像素图进行单元格提取得到像素图包括的多个单元格的位置信息。

第一识别模块702，用于对像素图进行内容识别，得到像素图中的文本识别结果，文本识别结果中包括各个文本及各个文本的位置信息。

位置解析模块703，用于根据各个单元格的位置信息对各个单元格进行像素图位置解析，得到各个单元格在像素图中的行列位置信息。

匹配模块704，用于根据各个文本对应的位置信息与各个单元格的位置信息进行匹配，得到各个单元格对应的文本。

确定模块705，用于基于各个单元格在像素图中的行列位置信息以及各个单元格对应的文本，确定像素图中的表头位置及其对应的文本、表体位置及其对应的文本。

第二识别模块706，用于根据表头位置及其对应的文本、表体位置及其对应的文本，识别出像素图的表格。

可选的，确定模块705具体用于：

将像素图中的行按照单元格的纵坐标从小到大进行排序。

基于排序，确定列数最多的行。

将第一次出现的列数最多的行作为表头的最后一行，且第一次出现的列数最多的行在预设行数范围内。

将第一次出现的列数最多的行以及其前面的行的单元格和对应的文本作为表头位置及其对应的文本，将表头位置以外的单元格和对应的文本作为表体位置及其对应的文本。

可选的，第一识别模块702具体用于：

对像素图进行放大处理，得到处理后的像素图。

对处理后的像素图进行光学字符识别，得到像素图的文本识别结果。可选的，位置解析模块703具体用于：

根据各个单元格的四元组坐标中的横坐标，确定各个单元格所属的列。

根据各个单元格的四元组坐标中的纵坐标以及各个单元格所属的列，确定各个单元格所属的行。

可选的，像素图中的文本识别结果还包括各个文本的识别的置信度，匹配模块704具体用于：

将置信度大于或者等于预设阈值的文本作为候选文本。

根据候选文本的位置信息与各个单元格的位置信息进行匹配，确定各个候选文本所属的单元格，得到各个单元格对应的文本。

可选的，表格图像的识别装置70还包括：第一处理模块。

第一处理模块具体用于：

对于没有与文本的位置信息相匹配的目标单元格，获取目标单元格对应的目标文本图像。

对目标文本图像进行二次内容识别，得到目标单元格的文本。

可选的，第一处理模块还用于：

对目标文本图像进行图像处理，当确定目标文本图像中包括多行文本，则获取目标文本图像中每一行文本的文本图像。

对每一行文本的文本图像进行内容识别，得到目标单元格的每一行的文本。

将每一行的文本进行拼接，得到目标单元格对应的文本。

可选的，表格图像的识别装置70还包括：第二处理模块。

第二处理模块具体用于：

当对目标文本图像进行二次内容识别没有识别到文本时，将目标文本图像进行复制，得到多个目标文本图像，并将多个目标文本图像进行拼接。

将拼接后的文本图像进行内容识别，得到识别结果。

可选的，第二识别模块706具体用于：

当表头位置中存在同时属于多列的单元格，将同时属于多列的单元格的文本与同一列的单元格的文本进行拼接，确定表头位置中的列名。

将表头位置和表体位置中属于同一列的列名与单元格的文本建立映射关系。

基于映射关系、表头位置及其对应的文本和表体位置及其对应的文本，得到像素图对应的表格。

可选的，表格图像的识别装置70还包括：第三处理模块。

第三处理模块具体用于：

当表体位置中存在未建立映射关系的单元格，基于未建立映射关系的单元格在像素图中的行列位置信息以及未建立映射关系的单元格对应的文本，确定未建立映射关系的单元格对应的目标表头位置及其对应的文本、目标表体位置及其对应的文本。

对比目标表头位置对应的文本与像素图的表头位置对应的文本是否相同，当文本均相同，则将目标表体位置及其对应的文本合并到像素图对应的表格中。

当任意一个文本不相同，则根据目标表头位置及其对应的文本、目标表体位置及其对应的文本，识别出未建立映射关系的单元格对应的表格。

本实施例的装置，可用于执行实施例一至实施例五中任意的一种表格图像的识别方法的步骤，具体实现方式和技术效果类似，这里不再赘述。

图8为本发明实施例七提供的一种电子设备的结构示意图，如图8所示，该设备可以包括：至少一个处理器801和存储器802。

存储器802，用于存放程序。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。

存储器802可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

处理器801用于执行存储器802存储的计算机执行指令，以实现前述方法实施例所描述的方法。其中，处理器801可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

可选的，该设备还可以包括通信接口803。在具体实现上，如果通信接口803、存储器802和处理器801独立实现，则通信接口803、存储器802和处理器801可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry StandardArchitecture，简称为ISA)总线、外部设备互连(Peripheral Component，简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果通信接口803、存储器802和处理器801集成在一块芯片上实现，则通信接口803、存储器802和处理器801可以通过内部接口完成通信。

本实施例的电子设备，可用于执行实施例一至实施例五中任意的一种表格图像的识别方法的步骤，具体实现方式和技术效果类似，这里不再赘述。

本申请实施例八提供了一种计算机可读存储介质，该计算机可读存储介质可以包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或者光盘等各种可以存储计算机程序的介质，具体的，该计算机可读存储介质中存储有计算机程序，该计算机程序被处理器执行时用于实现如上述实施例一至实施例五中任意一种表格图像的识别方法的步骤，具体实现方式和技术效果类似，这里不再赘述。

本发明实施例九提供一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时，实现如上述实施例一至实施例五中任意的一种表格图像的识别方法的步骤，具体实现方式和技术效果类似，这里不再赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种表格图像的识别方法，其特征在于，所述方法包括：

对所述像素图进行内容识别，得到所述像素图的文本识别结果，所述文本识别结果中包括各个文本及各个文本的位置信息；

2.根据权利要求1所述的方法，其特征在于，所述基于各个所述单元格在所述像素图中的行列位置信息以及各个所述单元格对应的文本，确定所述像素图中的表头位置及其对应的文本、表体位置及其对应的文本，包括：

将所述像素图中的行按照单元格的纵坐标从小到大进行排序；

基于所述排序，确定列数最多的行；

将第一次出现的列数最多的行作为表头的最后一行，且所述第一次出现的列数最多的行在预设行数范围内；

将所述第一次出现的列数最多的行以及其前面的行的单元格和对应的文本作为所述表头位置及其对应的文本，将所述表头位置以外的单元格和对应的文本作为所述表体位置及其对应的文本。

3.根据权利要求2所述的方法，其特征在于，所述对所述像素图进行内容识别，得到所述像素图中的文本识别结果，包括：

对所述像素图进行放大处理，得到处理后的像素图；

对所述处理后的像素图进行光学字符识别，得到所述像素图的文本识别结果。

4.根据权利要求3所述的方法，其特征在于，所述位置信息为四元组坐标，所述对各个所述单元格进行像素图位置解析，得到各个所述单元格在所述像素图中的行列位置信息，包括：

根据各个单元格的四元组坐标中的横坐标，确定各个所述单元格所属的列；

根据各个单元格的四元组坐标中的纵坐标以及各个所述单元格所属的列，确定各个单元格所属的行。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述像素图的文本识别结果还包括各个文本的识别置信度，所述根据各个所述文本对应的位置信息与各个所述单元格的位置信息进行匹配，得到各个单元格对应的文本，包括：

将所述识别置信度大于或者等于预设阈值的文本作为候选文本；

根据所述候选文本的位置信息与各个所述单元格的位置信息进行匹配，确定各个候选文本所属的单元格，得到各个所述单元格对应的文本。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

对于没有与文本的位置信息相匹配的目标单元格，获取所述目标单元格对应的目标文本图像；

对所述目标文本图像进行二次内容识别，得到所述目标单元格的文本。

7.根据权利要求6所述的方法，其特征在于，所述对所述目标文本图像进行二次内容识别，得到所述目标单元格的文本，包括：

对所述目标文本图像进行图像处理，当确定所述目标文本图像中包括多行文本，则获取所述目标文本图像中每一行文本的文本图像；

对所述每一行文本的文本图像进行内容识别，得到所述目标单元格的每一行的文本；

将每一行的文本进行拼接，得到所述目标单元格对应的文本。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

当对所述目标文本图像进行二次内容识别没有识别到文本时，将所述目标文本图像进行复制，得到多个目标文本图像，并将多个所述目标文本图像进行拼接；

将拼接后的文本图像进行内容识别，得到识别结果。

9.根据权利要求1-4或6-8任一项所述的方法，其特征在于，所述根据所述表头位置及其对应的文本、所述表体位置及其对应的文本，识别出所述像素图中的表格，包括：

当所述表头位置中存在同时属于多列的单元格，将所述同时属于多列的单元格的文本与同一列的单元格的文本进行拼接，确定所述表头位置中的列名；

将所述表头位置和所述表体位置中属于同一列的列名与单元格的文本建立映射关系；

基于所述映射关系、所述表头位置及其对应的文本和所述表体位置及其对应的文本，得到所述像素图对应的表格。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

当所述表体位置中存在未建立映射关系的单元格，基于所述未建立映射关系的单元格在所述像素图中的行列位置信息以及所述未建立映射关系的单元格对应的文本，确定所述未建立映射关系的单元格对应的目标表头位置及其对应的文本、目标表体位置及其对应的文本；

对比所述目标表头位置对应的文本与所述像素图的表头位置对应的文本是否相同，当文本均相同，则将所述目标表体位置及其对应的文本合并到所述像素图对应的表格中；

当任意一个文本不相同，则根据所述目标表头位置及其对应的文本、目标表体位置及其对应的文本，识别出所述未建立映射关系的单元格对应的表格。

11.一种表格图像的识别装置，其特征在于，所述装置包括：

第一识别模块，用于对所述像素图进行内容识别，得到所述像素图中的文本识别结果，所述文本识别结果中包括各个文本及各个文本的位置信息；

12.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1至10中任一项所述的表格图像的识别方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1至10任一项所述的表格图像的识别方法。