CN114005126A

CN114005126A - 表格重构方法、装置、计算机设备及可读存储介质

Info

Publication number: CN114005126A
Application number: CN202111417747.3A
Authority: CN
Inventors: 不公告发明人
Original assignee: Chengdu Shulian Cloud Computing Technology Co ltd
Current assignee: Chengdu Shulian Cloud Computing Technology Co ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-02-01

Abstract

本发明提供的表格重构方法、装置、计算机设备及可读存储介质，方法包括：获取表格图像；对所述表格图像进行检测与识别，获得多个文本框各自对应的文本内容和布局信息，以及行表格线的坐标和列表格线的坐标；其中，所述布局信息包括位置信息、行序号和列序号；根据所述文本内容、所述布局信息以及所述行表格线的坐标和所述列表格线的坐标，进行表格重构。本发明获得了每个文本内容对应的行序号和列序号，因此，可以结合行序号和列序号以及检测出来的表格线重构表格，与仅依赖检测到的表格线重构表格的现有技术相比较，本发明可以准确的还原出表格的实际结构，提高了重构表格的准确度。

Description

表格重构方法、装置、计算机设备及可读存储介质

技术领域

本发明涉及表格处理技术领域，具体而言，涉及一种表格重构方法、装置、计算机设备及可读存储介质。

背景技术

表格是一种常见的文档形式，常用的可编辑的表格文档有excel表格、word插入表格。表格的类型较多，例如有线表、半无线表，用户常常需要将各种类型的文字资料转化为可编辑的表格文档进行保存。

目前，在获得可编辑的表格文档之前，相关技术仅仅采用检测表格线的方法来重建表格，但是这种方式往往对有线表格检测效果较好，但针对半无线表(例如三线表)，这种方式检测结果不准确，导致重构的表格与实际的表格不符。

发明内容

本发明的目的之一在于提供一种表格重构方法、装置、计算机设备及可读存储介质，用以解决上述技术问题，本发明的实施例可以这样实现：

第一方面，本发明提供一种表格重构方法，方法包括：获取表格图像；对表格图像进行检测与识别，获得多个文本框各自对应的文本内容和布局信息，以及行表格线的坐标和列表格线的坐标；其中，布局信息包括位置信息、行序号和列序号；根据文本内容、布局信息以及行表格线的坐标和列表格线的坐标，进行表格重构。

上述技术方案提供的表格重构方法，通过由于事先确定的每个文本内容对应的布局信息，因此，在重构表格尤其是半无线表格时，可以准确的还原出表格的实际结构，提高了重构后的表格的准确度。

在可选的实施例中，对表格图像进行识别，获得表格中多个文本框各自对应的文本内容和布局信息，以及表格的行表格线的坐标和列表格线的坐标，包括：对表格图像进行文本识别，分别获得多个文本框各自对应的位置信息和文本内容；根据多个文本框各自对应的位置信息，确定多个文本框各自对应的行序号和列序号；对表格图像进行直线检测，获得行表格线的坐标和列表格线的坐标。

通过上述技术方案可以快速、准确确定每个文本框的布局信息以及行表格线的坐标和列表格线的坐标，为后续进行表格重构提供可靠的基础，能够提高重构后的表格的准确度。

在可选的实施例中，根据多个文本框各自对应的位置信息，确定多个文本框各自对应的行序号和列序号，包括：将多个文本框分别沿第一方向和第二方向编号，并按照编号顺序，分别获得第一文本框序列和第二文本框序列；其中，第一方向和第二方向垂直；将第一文本框序列内多个文本框的位置信息输入行预测模型，获得多个文本框对应的行标签序列；其中，行标签序列的序列顺序与第一文本框序列的序列顺序一致；将第二文本框序列内多个文本框的位置信息输入列预测模型，获得多个文本框对应列标签序列；列标签序列的序列顺序与第二文本框序列的序列顺序一致；分别对行标签序列和列标签序列进行解析，确定多个文本框各自对应的行序号和列序号。

通过上述技术方案中的行预测模型和列预测模型可以迅速、准确的确定出每个文本框对应的行序号和列序号。

在可选的实施例中，分别对行标签序列和列标签序列进行解析，确定多个文本框各自对应的行序号和列序号，包括：分别从行标签序列和列标签序列中确定行分界位置和列分界位置；根据行分界位置，确定多个文本框各自对应的行序号，并根据列分界位置，确定多个文本框各自对应的列序号。

通过上述技术方案中可以迅速、准确的确定出每个文本框对应的行序号和列序号，为后续进行表格重构提供可靠的数据基础。

在可选的实施例中，将多个文本框分别沿第一方向和第二方向编号，包括：根据多个文本框各自对应的位置信息，确定多个文本框各自对应的中心坐标；中心坐标包括第一方向上的子坐标和第二方向上子坐标；将多个文本框按照第一方向上的子坐标的大小进行排序，并对排序后的多个文本框依次进行编号；将多个文本框按照第二方向上的子坐标的大小进行排序，并对排序后的多个文本框依次进行编号。

通过上述方案中对文本框进行编号，可以在模型输出结果中迅速定位出每个文本框的预测结果，提高后续表格重构的效率。

在可选的实施例中，对表格图像进行直线检测，获得行表格线的坐标和列表格线的坐标，包括：对表格图像进行语义分割，获得第一特征图和第二特征图，其中，第一特征图中包含行表格线，第二特征图中包含列表格线；分别对第一特征图和第二特征图进行直线检测，分别获得行表格线的坐标和列表格线的坐标。

通过上述技术方案，可以快速、准确的检测出表格中行表格线的坐标和列表格线的坐标，提高表格重构的效率，为后续进行表格重构提供了可靠的数据基础。

在可选的实施例中，根据文本内容、布局信息以及行表格线的坐标和列表格线的坐标，进行表格重构，包括：根据行序号和列序号，生成文本矩阵，并将文本内容按照文本内容对应的文本框的行序号和列序号写入文本矩阵；根据文本矩阵中每一行和每一列存在的文本框的位置信息、表格的行表格线的坐标和列表格线的坐标，确定表格的边界线、行表格线和列表格线各自对应的表格位置；根据表格内容、表格的边界线、行表格线和列表格线各自对应的表格位置，进行表格重构。

通过上述技术方案，可以准确的确定每条行表格线和每条列表格线在表格中的位置，以及表格中边界线信息，结合这些信息以及预先确定的布局信息，可以准确的重构出表格，使得重构的表格与实际表格相符合。

在可选的实施例中，根据文本矩阵中每一行和每一列存在的文本框的位置信息、表格的行表格线的坐标和列表格线的坐标，确定表格的边界线、行表格线和列表格线各自对应的表格位置，包括：根据文本矩阵中每一行和每一列存在的文本框的位置信息，确定文本矩阵内每一行的行平均中心坐标和每一列的列平均中心坐标；将行表格线的坐标分别与每一行的行平均中心坐标和每一列的列平均中心坐标进行比较，确定表格的行边界线、每个行表格线所在行，以及每个行表格线沿列方向上的起始位置和终止位置；将列表格线的坐标分别与每一列的列平均中心坐标和每一行的行平均中心坐标进行比较，确定表格的列边界线、每个列表格线所在列，以及每个列表格线沿行方向上的起始位置和终止位置。

通过上述技术方案，可以准确的确定每条行表格线和每条列表格线在表格中的位置，为后续重构表格提供数据基础，以使重构的表格与实际表格相符合，提高表格重构的效率。

在可选的实施例中，根据表格内容、表格的边界线、行表格线和列表格线各自对应的表格位置，进行表格重构，包括：根据表格的边界线、行表格线和列表格线各自对应的表格位置，生成可编辑表格；将文本内容，依次写入可编辑表格，获得重构的表格。

通过上述技术方案可以获得与实际表格相符合的可编辑表格文档，方便用户后期对表格的操作。

在可选的实施例中，获取表格图像，包括：获取待识别图像，其中，待识别图像中包含表格；对待识别图像进行语义分割，获得表格区域特征图；对表格区域特征图进行轮廓分析，确定包含表格的图像区域；根据图像区域，对待识别图像进行截取，获得表格图像。

通过上述技术方案，可以快速、准确的定位出表格所在区域，进而获得表格图像。

在可选的实施例中，根据图像区域，对待识别图像进行截取，获得表格图像，包括：根据图像区域，确定包含表格的最小外接矩形的坐标信息；根据最小外接矩形的坐标信息，对待识别图像进行截取，获得表格图像。

通过上述技术方案，可以快速、准确的获得完整的表格图像。

第二方面，本发明提供一种表格重构装置，包括：获取模块，用于获取表格图像；识别模块，用于对表格图像进行检测与识别，获得多个文本框各自对应的文本内容和布局信息，以及行表格线的坐标和列表格线的坐标；其中，布局信息包括位置信息、行序号和列序号；重构模块，用于根据文本内容、布局信息以及行表格线的坐标和列表格线的坐标，进行表格重构。

第三方面，本发明提供一种计算机设备，包括处理器和存储器，存储器存储有能够被处理器执行的计算机程序，处理器可执行计算机程序以实现前述实施方式任一项的表格重构方法。

第四方面，本发明提供一种可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如前述实施方式任一项的表格重构方法。

本发明实施例提供的表格重构方法、装置、计算机设备及可读存储介质，方法包括：获取表格图像；对表格图像进行检测与识别，获得多个文本框各自对应的文本内容和布局信息，以及行表格线的坐标和列表格线的坐标；其中，布局信息包括位置信息、行序号和列序号；根据文本内容、布局信息以及行表格线的坐标和列表格线的坐标，进行表格重构。可以看出，由于获得了每个文本内容对应的行序号和列序号，因此，可以结合行序号和列序号以及检测出来的表格线重构表格，与仅仅依赖检测到的表格线重构表格的现有技术相比较，由于这种检测方式很容易错误的将半无线表中实际位于不同行中文本内容识别到同一行中，造成重构出来的表格与实际表格不符合，而本实施例提供的重构表格的方法由于事先确定的每个文本内容对应的布局信息，因此，在重构表格尤其是半无线表格时，可以准确的还原出表格的实际结构，提高了重构表格的准确度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的一种表格重构方法的应用环境图；

图2为本发明实施例提供的表格重构方法的示意性流程图；

图3为本发明实施例提供的一种待识别图像；

图4为本发明实施例提供的一种表格图像的示例图；

图5为本发明实施例提供的一种表格区域特征图；

图6为本发明实施例提供的步骤S202的实现方式的示意性流程图；

图7为本发明实施例提供的表格图像的文本识别结果示意图；

图8为本发明实施例提供的步骤S202-2的实现方式的示意性流程图；

图9为本发明实施例提供的一种按垂直方向和水平方向对文本框进行排序的示例图；

图10为本发明实施例提供的一种行预测模型的示意图；

图11为本发明实施例提供的一种行标签的预测结果示意图；

图12为本发明实施例提供的一种列标签的预测结果示意图；

图13为本发明实施例提供的第一特征图的示意图；

图14为本发明实施例提供的第二特征图的示意图；

图15为本发明实施例提供的步骤S203的实施方式的示意性流程图；

图16为本发明实施例提供的一种文本矩阵的示例图；

图17为本发明实施例提供的一种重构表格的示例图；

图18为本发明实施例提供的表格重构装置的功能模块图；

图19为本发明实施例提供的一种计算机设备的方框示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。此外，若出现术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

表格是一种常见的文档形式，日常工作中会产生很多费用清单、发票票据、财务报表的扫描件或打印文档的文字资料，需要将它们转化为可编辑的表格文档并保存，常用的可编辑的表格文档有excel表格、word插入表格。

请参见图1，图1为本发明实施例提供的一种表格重构方法的应用环境图，其中包括：数据库110、终端120、计算机设备130和网络140。

数据库110可以用于存储各种形式的具有表格信息的文字资料，比如收据、票据、保单、通知单、确认书、申请表等，这些文字资料的格式可以但不限于包括于jpg、jpeg、ppm、bmp、png等各类图片、截图、截屏、扫描件、PDF文档等。

终端120可以实时制作或者生成上述文字资料，并将文字资料实时上传到数据库中进行存储，或者将文字资料实时上传到计算机设备130进行处理。

计算机设备130可以是对上述文字资料进行处理的设备，具体地，计算机设备130可以从数据库110中获取上述文字资料，或者，计算机设备130实时接收终端120上传的上述文字资料，然后执行本发明实施例提供的表格重构方法以实现相应地技术效果。

在一些可能的实施方式中，上述计算机设备130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统。上述网络140可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、Wi-Fi及其他实现无线通信的网络。上述终端120可以但不限于是智能手机、平板电脑、个人计算机(Personal Computer，简称PC)、智能穿戴设备等等。

请继续参见图1，针对上述具有表格信息的文字资料，为了获得可编辑的表格文档，最常用的方法是通过OCR识别技术来处理，而目前大多数OCR识别技术，只能识别表格中文本位置及其内容，不能识别表格的结构信息。如果要转化为可编辑的表格文档，需要人工参与，将识别出的文本手动还原成可编辑表格，将耗费大量的人力成本。因此，相关技术提出了一种采用检测表格线的方法来获得可编辑的表格文档，但是这种方式往往对有线表格检测效果较好，但针对半无线表(例如三线表)，这种方式检测结果不准确，导致重构的表格与实际的表格不符。

为了解决上述技术问题，以上述图1所示的应用环境为例，本发明实施例提供了一种表格重构方法，可以理解的是，该表格重构方法可以应用在如图1所示的计算机设备130中，请参见图2，图2为本发明实施例提供的表格重构方法的示意性流程图，该方法可以包括以下步骤：

S201，获取表格图像。

在一种可能的实施方式中，上述表格图像的获取方式可以是：首先获得待识别图像，然后从待识别图像中识别出表格所在区域，并获得相应地表格图像。例如，参见图3，图3为本发明实施例提供的一种待识别图像，可以看出，在待识别图像中存在表格，通过识别出表格所在区域，进而对该区域进行截取可以获得表格图像，获得的表格图像如图4所示，图4为本发明实施例提供的一种表格图像的示例图。

在另一种可能的实施方式中，上述表格图像的获取方式还可以是：由其他具有识别能力的电子设备获得如图4所示的表格图像，进而发送给本发明实施例提供的计算机设备，或者，由用户直接将预先存储的如图4所示的表格图像输入计算机设备中。

S202，对表格图像进行检测与识别，获得多个文本框各自对应的文本内容和布局信息，以及行表格线的坐标和列表格线的坐标；

其中，布局信息包括位置信息、行序号和列序号。本实施例中，文本框的位置信息可以用文本框对应的中心坐标来表征，行序号和列序号可以分别通过行预测模型和列预测模型一一确定，行表格线的坐标和列表格线的坐标可以通过现有任何一种直线检测方法获得。

S203，根据文本内容、布局信息以及行表格线的坐标和列表格线的坐标，进行表格重构。

本实施例中，由于获得了每个文本内容对应的行序号和列序号，因此，可以结合行序号和列序号以及检测出来的表格线重构表格，与仅仅依赖检测到的表格线重构表格的现有技术相比较，由于这种检测方式很容易错误的将半无线表中实际位于不同行中文本内容识别到同一行中，造成重构出来的表格与实际表格不符合，而本实施例提供的重构表格的方法由于事先确定的每个文本内容对应的布局信息，因此，在重构表格尤其是半无线表格时，可以准确的还原出表格的实际结构，提高了重构表格的准确度。

可选的，在上述实施例中可以看出，本实施例可以采取多种实施方式来获取表格图像，下面本实施例就其中一种获得表格图像的实施方式进行详细介绍，即上述步骤S201可以包括：

步骤1，获取待识别图像，其中，待识别图像中包含表格。

可以理解的是，上述待识别图像可以是如图3所示的待识别图像，也可以是其他形式的具有表格的图像，此处不再限定。

步骤2，对待识别图像进行语义分割，获得表格区域特征图；表格区域特征图中包含表格。

本实施例中，以图3所示的待识别图像为例，对该待识别图像语义分割后获得的表格区域特征图可以如图5所示，图5为本发明实施例提供的一种表格区域特征图，可以看出，该表格区域特征图是采用二值化处理的待识别图像，其中图像中的白色区域即为表格区域。

步骤3，对表格区域特征图进行轮廓分析，确定包含表格的图像区域；

步骤4，根据图像区域，对待识别图像进行截取，获得表格图像。

具体地，在一种可能的实施方式中，从待识别图像中截取表格图像的方式可以是：根据图像区域，确定包含表格的最小外接矩形的坐标信息；根据最小外接矩形的坐标信息，对待识别图像进行截取，获得表格图像。

可选的，针对上述步骤S202，本实施例还给出了一种可能的实施方式，请参见图6，图6为本发明实施例提供的步骤S202的实现方式的示意性流程图，步骤S202可以包括以下步骤：

S202-1，对表格图像进行文本识别，分别获得多个文本框各自对应的位置信息和文本内容；

在一种可能的实施方式中，以图4所示的表格图像为例，可以将表格图像输入预先训练好的文本检测模型中，检测出表格中文本框，进而将检测出来的文本行输入预先训练的文本识别模型中，识别出每个文本框对应的文本内容，通过模型可以提高文本识别效率和准确度，识别结果可以如图7所示，图7为本发明实施例提供的表格图像的文本识别结果示意图。

本实施例中，上述文本框对应的位置信息可以用文本框的中心坐标来表征，具体地，获得每个文本框的中心坐标可以用文本框的四个顶点坐标来计算，顶点坐标可以按照顺时针也可以按照逆时针排序，此处不做限定，例如，以顺时针排序时，可以将左上角的顶点作为第一个顶点。

假设：四个顶点的坐标为(x₁，y₁，x₂，y₂，x₃，y₃，x₄，y₄)，则中心坐标记为(x_c，y_c)，其中，x_c和y_c的计算方式为：

以图4和图6中的“Age(years”为例，假设该文本内容对应的四个顶点坐标分别为：(180，5，220，5，220，20，180，20)，那么通过上述中心坐标的计算公式可以得到“Age(years”对应的中心坐标为：(x_c＝200，y_c＝12)。

S202-2，根据多个文本框各自对应的位置信息，确定多个文本框各自对应的行序号和列序号。

S202-3，对表格图像进行直线检测，获得行表格线的坐标和列表格线的坐标。

下面将分别将上述步骤S202-2和步骤S202-3进行详细的介绍。

在一种可能的实施方式中，上述步骤S202-2可以通过预先训练好的模型来实现，可以提高识别的效率和准确度，因此，步骤S202-2的可能的实现方式可以如图8所示，图8为本发明实施例提供的步骤S202-2的实现方式的示意性流程图，步骤S202-2可以包括：

S202-2-1，将多个文本框分别沿第一方向和第二方向编号，并按照编号顺序，分别获得第一文本框序列和第二文本框序列；其中，第一方向和第二方向垂直。

可以理解的是，在获得多个文本框各自对应的位置信息之后，可以基于位置信息在不同方向上的子坐标的大小对文本框进行排序并分配编号，分配编号的目的是便于后续快速从行预测模型和列预测模型的输出结果中迅速定位确定每个文本框对应的文本标签。

在一种可能的实施方式中，上述步骤S202-2-1可以这样实现：根据多个文本框各自对应的位置信息，确定多个文本框各自对应的中心坐标；中心坐标包括第一方向上的子坐标和第二方向上子坐标；将多个文本框按照第一方向上的子坐标的大小进行排序，并对排序后的多个文本框依次进行编号；将多个文本框按照第二方向上的子坐标的大小进行排序，并对排序后的多个文本框依次进行编号。

需要说明的是，在上述对文本框进行编号之前，本实施例中对于表格图像建立的坐标系是：以表格图像的坐上角为原点，由左上角向右上角沿升的方向为横坐标，由左上角向左下角沿升的方向为纵坐标，后续在获得行表格线的坐标以及列表格线的坐标也是在这个坐标系中标定的。当然用户也可以按照其他方式进行建立坐标系，在以其他方式建立坐标系时，本实施例中提及的各个位置信息也可以相应地的进行调整。

在一种可能的实施方式中，上述第一方向可以是垂直于水平面的垂直方向，第二方向是平行于水平面的水平方向，在对多个文本框进行编号的过程中，可以按照中心点坐标中竖直方向(y_c)的大小进行由上到下排序并编号，在第二方向，可以按照中心点坐标中垂直方向(x_c)的大小进行由左到右排序并编号，因此，以图7所示的表格图像为例，排序和编号结果可以如图9所示，图9为本发明实施例提供的一种按垂直方向和水平方向对文本框进行排序的示例图，可以看出，在不同方向上，每个文本框对应的排序结果不同，以“Age(years”为例，该文本框在垂直方向对应的编号为1，在水平方向对应的编号为13。

S202-2-2，将第一文本框序列内多个文本框的位置信息输入行预测模型，获得多个文本框对应的行标签序列；其中，行标签序列的序列顺序与第一文本框序列的序列顺序一致。

为了方便理解第一文本框序列和第二文本框序列，继续以图9为例，首先，在垂直方向，存在编号1至编号21个文本框，将每个文本框按照编号顺序依次组成文本框序列，得到第一文本框序列；同理，在水平方向，存在编号1至编号21的文本框，需要注意的是，水平方向的编号1至编号27对应的文本框与垂直方向上编号1至编号27对应的文本框不同，将水平方向上按照编号顺序，依次得到第二文本框序列。

本实施例中的行预测模型可以如图10所示，图10为本发明实施例提供的一种行预测模型的示意图，行预测模型的输入是第一文本框序列内每个文本框对应的位置信息，输出结果是行标签序列，行标签序列的序列顺序与第一文本框序列的序列顺序一致，也就是第一个行标签对应编号1的文本框，以此类推。其中，行标签序列包含两个值，例如以“S”和“O”进行区分，其中，用“S”表示此文本框为行分界点，此文本框以后的文本框位于下一行，“O”表示其他。

例如，以图9所示的垂直方向上的第一文本框序列为例，将第一文本框序列中各个文本框对应的位置信息输入行预测模型，得到行标签序列可以参见图11，图11为本发明实施例提供的一种行标签的预测结果示意图，最终得到的行标签序列可以为(S，O，O，O，O，S，O，O，O，O，S，O，O，O，O，S，O，O，O，O，S)，对于第一个“S”，其对应的是编号1的文本“Age(years”，说明在编号1以后的编号2至编号6对应的文本位于下一行，这与图9所示的垂直方向上的结果一致。

S202-2-3，将第二文本框序列内多个文本框的位置信息输入列预测模型，获得多个文本框对应列标签序列；列标签序列的序列顺序与第二文本框序列的序列顺序一致。

本实施例中，获得第二文本框序列的方式与上述获得第一文本框序列的方式类似，此处不再赘述，其中，列预测模型与行预测模型的结构相同，在可能的实施方式中，列标签序列与行标签序列类似，包含两个值，如以“S”和“O”进行区分，其中，用“S”表示此文本框为列分界点，此文本框以后的文本框位于下一列，“O”表示其他。

例如，以图9所示的水平方向上的第二文本框序列为例，将第二文本框序列中各个文本框对应的位置信息输入行预测模型，得到列标签序列可以参见图12，图12为本发明实施例提供的一种列标签的预测结果示意图，最终得到的列标签序列可以为(O，O，O，S，O，O，O，S，O，O，O，O，S，O，O，O，S，O，O，O，S)，对于第一个“S”，其对应的是编号4的文本“Age(years”，说明在编号1至编号4的文本在第一列，编号4以后的文本在后续列中，这与图9所示的水平方向上的结果一致。

S202-2-4，分别对行标签序列和列标签序列进行解析，确定多个文本框各自对应的行序号和列序号。

由上述内容可知，行标签序列和列标签序列内各自包含了行分界位置和列分界位置，因此，可以基于行分界位置和列分界位置进行解析，例如，继续以上述行标签序列(S，O，O，O，O，S，O，O，O，O，S，O，O，O，O，S，O，O，O，O，S)为例，最终解析得到垂直方向上编号1值编号21各个文本框对应的行序号为(0，1，1，1，1，1，2，2，2，2，2，3，3，3，3，3，4，4，4，4，4)，其中，0-4分别表征第1行至第5行。同理，对列标签序列(O，O，O，S，O，O，O，S，O，O，O，O，S，O，O，O，S，O，O，O，S)进行解析，最终得到的水平方向上编号1至编号21各个文本框对应的列序号为(0，0，0，0，1，1，1，1，2，2，2，2，2，3，3，3，3，4，4，4，4)，其中，0-4分别表征第1列至第5列，这样就得到每个文本框对应的行序号和列序号。

下面针对上述步骤S202-3进行介绍，其中，上述步骤S202-3可以包括以下实现流程：

步骤1，对表格图像进行语义分割，获得第一特征图和第二特征图，其中，第一特征图中包含行表格线，第二特征图中包含列表格线。

本实施例中，以图4所示的表格图像为例，获得的第一特征图可以如图13所示，图13为本发明实施例提供的第一特征图的示意图，其中，在第一特征图中的白色直线即为行表格线，第二特征图可以如图14所示，图14为本发明实施例提供的第二特征图的示意图，其中，在第二特征图中的白色直线即为列表格线。

步骤2，分别对第一特征图和第二特征图进行直线检测，分别获得行表格线的坐标和列表格线的坐标。

本实施例中，直线检测的方式可以但不限于是霍夫变换直线检测方法，通过对第一特征图和第二特征图进行直线检测，可以得到每条直线的端点坐标，例如，在图11所示的第一特征图中，第一、二条行直线的坐标点分别为：(x₁＝5，y₁＝5，x₂＝295，y₂＝5)，(x₁＝6，y₁＝23，x₂＝295，y₂＝25)；在图12所示的第二特征图中，第一、二条列直线的坐标点分别为：(x₁＝5，y₁＝6，x₂＝6，y₂＝55)、(x₁＝5，y₁＝6，x₂＝48，y₂＝54)。

可选的，在获得文本框的位置信息、行序号、列序号以及表格线中行表格线的坐标和列表格线的坐标之后，即可以结合上述所有信息，重构表格，获得可编辑表格文档，因此，下面还给出一种重构表格的实施方式，请参见图15，图15为本发明实施例提供的步骤S203的实施方式的示意性流程图，其中，步骤S203可以包括以下步骤：

S203-1，根据行序号和列序号，生成文本矩阵，并将文本内容按照文本内容对应的文本框的行序号和列序号写入文本矩阵。

本实施例中，可以根据行序号和列序号生成文本矩阵，以图9所示的结果得到的每个文本框对应的行序号为(0，1，1，1，1，1，2，2，2，2，2，3，3，3，3，3，4，4，4，4，4)、列序号为(0，0，0，0，1，1，1，1，2，2，2，2，2，3，3，3，3，4，4，4，4)，也就是说可以生成一个5行5列的文本矩阵，然后一一将文本内容写入文本矩阵中的位置，以文本框“Age(years”为例，它对应的行序号和列序号分别为“0”和“2”，则在第1行第3列，以此类推，可以确定全部文本框在文本矩阵的位置，获得文本矩阵可以如图16所示，图16为本发明实施例提供的一种文本矩阵的示例图。

S203-2，根据文本矩阵中每一行和每一列存在的文本框的位置信息、表格的行表格线的坐标和列表格线的坐标，确定表格的边界线、行表格线和列表格线各自对应的表格位置。

本实施例中，表格的边界线可以包括上边界线、下边界线、左边界线和右边界线。行表格线和列表格线各自对应的表格位置，表征的是行表格线穿越的列数、和列表格线穿越的行数，还可以理解为行表格线或者列表格线的起始位置和终止位置，这里的起始位置和终止位置指得的是某一行或者是某一列。

S203-3，根据表格内容、表格的边界线、行表格线和列表格线各自对应的表格位置，进行表格重构。

通过上述方式即可以确定表格是否存在边界线以及每个表格线实际穿越范围，从而可以使得最终重构出来的表格与实际情况更加符合。

针对上述步骤S203-2，本发明实施例给出一种可能的实施方式，即上述步骤S203-2可以这样实现：

步骤1，根据文本矩阵中每一行和每一列存在的文本框的位置信息，确定文本矩阵内每一行的行平均中心坐标和每一列的列平均中心坐标。

如图16所示，在文本矩阵的第一行，存在文本框为“Age(years”，则行平均中心坐标即为该文本框的中心坐标(x_c＝200，y_c＝12)，在最后一行存在4个文本框，假设获得行平均中心坐标为(x_c＝150，y_c＝50)，以此类推，获得每一行对应的行平均中心坐标；针对每一列，假设计算第一列文本框的中心点坐标的平均值为(x_c＝35，y_c＝30)，最后一列文本框的中心点坐标的平均值为(x_c＝282，y_c＝32)。

步骤2，将行表格线的坐标分别与每一行的行平均中心坐标和每一列的列平均中心坐标进行比较，确定表格的行边界线、每个行表格线所在行，以及每个行表格线沿列方向上的起始位置和终止位置。

本实施例中，在进行比较之前，可以先将行表格线按照垂直方向y₁进行坐标排序，这样可以先将最小坐标与最小行平均中心坐标进行比较、将最大坐标与最大行平均中心坐标进行比较，从而可以快速准确确定出表格是否存在行边界线，也就是表格的上边界线和下边界线，进而按照排序后的行表格线开始逐行比较。

例如，取第一条行表格线(x₁＝5，y₁＝5，x₂＝295，y₂＝5)与第一行的行平均中心坐标(x_c＝200，y_c＝12)进行比较，由于y₁＝y₂＜y_c，则确定第一条行表格线为第一行文本框上边，也就是说，第一条行直线为表格的上边界线，这样一来，第一条行表格线就不需要再与剩余的行平均中心坐标进行比较了，然后该第一条行表格线的坐标与每个列平均中心坐标进行比较，由于第一列的列平均中心坐标(x_c＝35，y_c＝30)中x_c＞x₁，且最后一列的列平均中心坐标(x_c＝282，y_c＝32)中的x_c＜x₂，则确定第一条行表格线穿越所有的列，依次类推，完成所有行直线的判断，确定每条行表格线所在行以及穿越哪些列。

步骤3，将列表格线的坐标分别与每一列的列平均中心坐标和每一行的行平均中心坐标进行比较，确定表格的列边界线、每个列表格线所在列，以及每个列表格线沿行方向上的起始位置和终止位置。

本实施例中，与确定行边界线的确定方式类似，也可以先将列表格线按照水平方向x₁进行坐标排序，这样可以先将最小坐标与最小列平均中心坐标进行比较、将最大坐标与最大列平均中心坐标进行比较，从而可以快速准确确定出表格是否存在列边界线，也就是表格的左边界线和右边界线，进而按照排序后的列表格线开始逐列比较。

与上述行表格直线的处理方式类似，例如，取第一条列表格线(x₁＝5，y₁＝6，x₂＝6，y₂＝55)与第一列的列平均中心坐标(x_c＝35，y_c＝30)进行比较，由于x₁＜x₂＜x_c，则确定第一条列表格线第一列文本框左边，也就是说，第一条列表格线是表格的左边界线；然后，将第一条列表格线与每一行的行平均中心坐标进行比较，其中，针对第一行的行平均中心点坐标(x_c＝200，y_c＝12)，由于y₁＜y_c，针对最后一行的行平均中心点坐标(x_c＝150，y_c＝50)，存在y₂＞y_c，则可以确定第一条列表格线穿越所有的行，依次类推，完成所有列直线的判断，确定每条列表格线所在列以及穿越哪些行。

通过上述方式，可以确定表格的边界线，当然也可以确定表格是否存在边界线，还可以确定每条行表格线位于第几行以及穿越哪些行，列表格线同理，进而可以结合上述信息，进行表格重构。

可选的，本发明实施例可以获得每条行表格线、列表格线在表格中的起始位置和终止位置，以及行表格线位于哪一行以及每条列表格线位于哪一列，在获得上述信息后，重构表格的方式可以是：根据表格的边界线、行表格线和列表格线各自对应的表格位置，生成可编辑表格；将文本内容，依次写入可编辑表格，获得重构的表格。

本实施例中，以图4所示表格图像为例，最终重构的表格可以如图17所示，图17为本发明实施例提供的一种重构表格的示例图，结合图16和图17可以看出，虽然在图16中，第二行和第三行的文本是两个不同的行，但是在上述确定行表格线和列表格线在表格中的位置的过程中，可以识别出这两行文本之间存在分行的情况，但是不存在行表格线，通过上述比较方式可以识别出这种情况，从而使得最终重构的表格与实际图4中的表格一致，提高了表格重构的准确度。

为了实现上述实施例中的各个步骤以实现相应的技术效果，本发明实施例提供的表格重构方法可以在硬件设备或者以软件模块的形式实现中执行，当表格重构方法以软件模块的形式实现时，本发明实施例还提供一种表格重构装置，请参见图18，图18为本发明实施例提供的表格重构装置的功能模块图，该表格重构装置300可以包括：

获取模块310，用于获取表格图像；

识别模块320，用于对表格图像进行检测与识别，获得多个文本框各自对应的文本内容和布局信息，以及行表格线的坐标和列表格线的坐标；其中，布局信息包括位置信息、行序号和列序号；

重构模块330，用于根据文本内容、布局信息以及行表格线的坐标和列表格线的坐标，进行表格重构。

在可选的实施例中，识别模块320，具体用于：对表格图像进行文本识别，分别获得多个文本框各自对应的位置信息和文本内容；根据多个文本框各自对应的位置信息，确定多个文本框各自对应的行序号和列序号；对表格图像进行直线检测，获得行表格线的坐标和列表格线的坐标。

在可选的实施例中，识别模块320，还具体用于将多个文本框分别沿第一方向和第二方向编号，并按照编号顺序，分别获得第一文本框序列和第二文本框序列；其中，第一方向和第二方向垂直；将第一文本框序列内多个文本框的位置信息输入行预测模型，获得多个文本框对应的行标签序列；其中，行标签序列的序列顺序与第一文本框序列的序列顺序一致；将第二文本框序列内多个文本框的位置信息输入列预测模型，获得多个文本框对应列标签序列；列标签序列的序列顺序与第二文本框序列的序列顺序一致；分别对行标签序列和列标签序列进行解析，确定多个文本框各自对应的行序号和列序号。

在可选的实施例中，识别模块320，还具体用于分别从行标签序列和列标签序列中确定行分界位置和列分界位置；根据行分界位置，确定多个文本框各自对应的行序号，并根据列分界位置，确定多个文本框各自对应的列序号。

在可选的实施例中，识别模块320，还具体用于根据多个文本框各自对应的位置信息，确定多个文本框各自对应的中心坐标；中心坐标包括第一方向上的子坐标和第二方向上子坐标；将多个文本框按照第一方向上的子坐标的大小进行排序，并对排序后的多个文本框依次进行编号；将多个文本框按照第二方向上的子坐标的大小进行排序，并对排序后的多个文本框依次进行编号。

在可选的实施例中，识别模块320，还具体用于对表格图像进行语义分割，获得第一特征图和第二特征图，其中，第一特征图中包含行表格线，第二特征图中包含列表格线；分别对第一特征图和第二特征图进行直线检测，分别获得行表格线的坐标和列表格线的坐标。

在可选的实施例中，重构模块330，具体用于：根据行序号和列序号，生成文本矩阵，并将文本内容按照文本内容对应的文本框的行序号和列序号写入文本矩阵；根据文本矩阵中每一行和每一列存在的文本框的位置信息、表格的行表格线的坐标和列表格线的坐标，确定表格的边界线、行表格线和列表格线各自对应的表格位置；根据表格内容、表格的边界线、行表格线和列表格线各自对应的表格位置，进行表格重构。

在可选的实施例中，重构模块330，具体用于：根据文本矩阵中每一行和每一列存在的文本框的位置信息，确定文本矩阵内每一行的行平均中心坐标和每一列的列平均中心坐标；将行表格线的坐标分别与每一行的行平均中心坐标和每一列的列平均中心坐标进行比较，确定表格的行边界线、每个行表格线所在行，以及每个行表格线沿列方向上的起始位置和终止位置；将列表格线的坐标分别与每一列的列平均中心坐标和每一行的行平均中心坐标进行比较，确定表格的列边界线、每个列表格线所在列，以及每个列表格线沿行方向上的起始位置和终止位置。

在可选的实施例中，重构模块330，具体用于根据表格的边界线、行表格线和列表格线各自对应的表格位置，生成可编辑表格；将文本内容，依次写入可编辑表格，获得重构的表格。

在可选的实施例中，获取模块310，具体用于：获取待识别图像，其中，待识别图像中包含表格；对待识别图像进行语义分割，获得表格区域特征图；对表格区域特征图进行轮廓分析，确定包含表格的图像区域；根据图像区域，对待识别图像进行截取，获得所述表格图像。

可选的实施例中，获取模块310，具体用于根据所述图像区域，确定所述包含所述表格的最小外接矩形的坐标信息；根据所述最小外接矩形的坐标信息，对所述待识别图像进行截取，获得所述表格图像。

需要说明的是，本发明实施例提供的表格重构装置300中的各个功能模块可以软件或固件(Firmware)的形式存储于存储器中或固化于计算机设备的操作系统(OperatingSystem，OS)中，并可由计算机设备中的处理器执行。同时，执行上述模块所需的数据、程序的代码等可以存储在存储器中。因此，本发明实施例还提供一种计算机设备，该计算机设备可以是图1所示的计算机设备130，或者是其他具有数据处理功能的计算机设备，本发明不作限定。

如图19，图19为本发明实施例提供的一种计算机设备的方框示意图。该计算机设备130包括通信接口131、处理器132和存储器133。该处理器132、存储器133和通信接口131相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器133可用于存储软件程序及模块，如本发明实施例所提供的表格重构方法对应的程序指令/模块，处理器132通过执行存储在存储器133内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口131可用于与其他节点设备进行信令或数据的通信。在本发明中该计算机设备130可以具有多个通信接口131。

其中，存储器133可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器132可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

本发明实施例还提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述实施方式中任一项的表格重构方法。该计算机可读存储介质可以是，但不限于，U盘、移动硬盘、ROM、RAM、PROM、EPROM、EEPROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种表格重构方法，其特征在于，所述方法包括：

获取表格图像；

对所述表格图像进行检测与识别，获得多个文本框各自对应的文本内容和布局信息，以及行表格线的坐标和列表格线的坐标；其中，所述布局信息包括位置信息、行序号和列序号；

根据所述文本内容、所述布局信息以及所述行表格线的坐标和所述列表格线的坐标，进行表格重构。

2.根据权利要求1所述的表格重构方法，其特征在于，对所述表格图像进行检测与识别，获得多个文本框各自对应的文本内容和布局信息，以及行表格线的坐标和列表格线的坐标，包括：

对所述表格图像进行文本识别，分别获得所述多个文本框各自对应的位置信息和所述文本内容；

根据所述多个文本框各自对应的所述位置信息，确定所述多个文本框各自对应的行序号和列序号；

对所述表格图像进行直线检测，获得所述行表格线的坐标和所述列表格线的坐标。

3.根据权利要求2所述的表格重构方法，其特征在于，根据所述多个文本框各自对应的所述位置信息，确定所述多个文本框各自对应的行序号和列序号，包括：

将所述多个文本框分别沿第一方向和第二方向编号，并按照编号顺序，分别获得第一文本框序列和第二文本框序列；其中，所述第一方向和所述第二方向垂直；

将所述第一文本框序列内所述多个文本框的所述位置信息输入行预测模型，获得所述多个文本框对应的行标签序列；其中，所述行标签序列的序列顺序与所述第一文本框序列的序列顺序一致；

将所述第二文本框序列内所述多个文本框的所述位置信息输入列预测模型，获得所述多个文本框对应列标签序列；所述列标签序列的序列顺序与所述第二文本框序列的序列顺序一致；

分别对所述行标签序列和列标签序列进行解析，确定所述多个文本框各自对应的所述行序号和所述列序号。

4.根据权利要求3所述的表格重构方法，其特征在于，分别对所述行标签序列和列标签序列进行解析，确定所述多个文本框各自对应的所述行序号和所述列序号，包括：

分别从所述行标签序列和所述列标签序列中确定行分界位置和列分界位置；

根据所述行分界位置，确定所述多个文本框各自对应的所述行序号，并根据所述列分界位置，确定所述多个文本框各自对应的所述列序号。

5.根据权利要求3所述的表格重构方法，其特征在于，将所述多个文本框分别沿第一方向和第二方向编号，包括：

根据所述多个文本框各自对应的所述位置信息，确定所述多个文本框各自对应的中心坐标；所述中心坐标包括所述第一方向上的子坐标和所述第二方向上子坐标；

将所述多个文本框按照所述第一方向上的子坐标的大小进行排序，并对排序后的所述多个文本框依次进行编号；

将所述多个文本框按照所述第二方向上的子坐标的大小进行排序，并对排序后的所述多个文本框依次进行编号。

6.根据权利要求2所述的表格重构方法，其特征在于，对所述表格图像进行直线检测，获得所述行表格线的坐标和所述列表格线的坐标，包括：

对所述表格图像进行语义分割，获得第一特征图和第二特征图，其中，所述第一特征图中包含行表格线，所述第二特征图中包含列表格线；

分别对所述第一特征图和所述第二特征图进行直线检测，分别获得所述行表格线的坐标和所述列表格线的坐标。

7.根据权利要求1所述的表格重构方法，其特征在于，根据所述文本内容、所述布局信息以及所述行表格线的坐标和所述列表格线的坐标，进行表格重构，包括：

根据所述行序号和所述列序号，生成文本矩阵，并将所述文本内容按照所述文本内容对应的文本框的行序号和列序号写入所述文本矩阵；

根据所述文本矩阵中每一行和每一列存在的文本框的位置信息、所述表格的行表格线的坐标和列表格线的坐标，确定所述表格的边界线、行表格线和列表格线各自对应的表格位置；

根据所述表格内容、所述表格的边界线、行表格线和列表格线各自对应的表格位置，进行表格重构。

8.根据权利要求7所述的表格重构方法，其特征在于，根据所述文本矩阵中每一行和每一列存在的文本框的位置信息、所述表格的行表格线的坐标和列表格线的坐标，确定所述表格的边界线、行表格线和列表格线各自对应的表格位置，包括：

根据所述文本矩阵中每一行和每一列存在的文本框的位置信息，确定所述文本矩阵内每一行的行平均中心坐标和每一列的列平均中心坐标；

将所述行表格线的坐标分别与所述每一行的行平均中心坐标和所述每一列的列平均中心坐标进行比较，确定所述表格的行边界线、每个所述行表格线所在行，以及每个所述行表格线沿列方向上的起始位置和终止位置；

将所述列表格线的坐标分别与每一列的列平均中心坐标和每一行的行平均中心坐标进行比较，确定所述表格的列边界线、每个所述列表格线所在列，以及每个所述列表格线沿行方向上的起始位置和终止位置。

9.根据权利要求8所述的表格重构方法，其特征在于，根据所述表格内容、所述表格的边界线、行表格线和列表格线各自对应的表格位置，进行表格重构，包括：

根据所述表格的边界线、行表格线和列表格线各自对应的表格位置，生成可编辑表格；

将所述文本内容，依次写入所述可编辑表格，获得重构的表格。

10.根据权利要求1所述的表格重构方法，其特征在于，获取表格图像，包括：

获取待识别图像，其中，所述待识别图像中包含所述表格；

对所述待识别图像进行语义分割，获得表格区域特征图；

对所述表格区域特征图进行轮廓分析，确定包含所述表格的图像区域；

根据所述图像区域，对所述待识别图像进行截取，获得所述表格图像。

11.根据权利要求10所述的表格重构方法，其特征在于，根据所述图像区域，对所述待识别图像进行截取，获得所述表格图像，包括：

根据所述图像区域，确定所述包含所述表格的最小外接矩形的坐标信息；

根据所述最小外接矩形的坐标信息，对所述待识别图像进行截取，获得所述表格图像。

12.一种表格重构装置，其特征在于，包括：

获取模块，用于获取表格图像；

识别模块，用于对所述表格图像进行检测与识别，获得多个文本框各自对应的文本内容和布局信息，以及行表格线的坐标和列表格线的坐标；其中，所述布局信息包括位置信息、行序号和列序号；

重构模块，用于根据所述文本内容、所述布局信息以及所述行表格线的坐标和所述列表格线的坐标，进行表格重构。

13.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的计算机程序，所述处理器可执行所述计算机程序以实现权利要求1-11任一项所述的表格重构方法。

14.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-11任一项所述的表格重构方法。