CN111914805A

CN111914805A - 表格结构化方法、装置、电子设备及存储介质

Info

Publication number: CN111914805A
Application number: CN202010831851.6A
Authority: CN
Inventors: 李立夫; 张银田; 刘驰; 王冲; 谢名亮; 殷兵
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-11-10

Abstract

本发明实施例提供一种表格结构化方法、装置、电子设备及存储介质，所述方法包括：确定待结构化图像所包含表格的单元格信息和文本信息；基于单元格信息，对表格中各个线段进行延伸，得到表格的最小单元尺寸，基于最小单元尺寸建立网格；基于单元格信息和文本信息，将表格中的各个单元格以及各个文本行映射到网格中，得到表格的结构化信息。本发明实施例提供的表格结构化方法、装置、电子设备及存储介质，实现了不同结构的表格的统一形式的结构化表示，有利于实现对电子化后的表格的统一管理。

Description

表格结构化方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种表格结构化方法、装置、电子设备及存储介质。

背景技术

随着计算机的普及和电子信息技术的快速发展，纸质文档也逐渐电子化，表格文档是一种常见的文档形式。现有技术主要是通过自动提取表格文档中的表格结构信息和文本信息，以实现表格文档的电子化。

然而实际应用中大部分表格的结构是不标准的，例如单元格跨行、跨列合并或者表格部分残缺等，而且不同的表格的表格结构是不统一的，对于不同的表格，现有技术仅能提取各个表格的表格结构信息和文本信息，无法通过一种统一的形式对不同的表格进行结构化表示，不便于对电子化后的表格进行统一管理。

发明内容

本发明实施例提供一种表格结构化方法、装置、电子设备及存储介质，用以解决现有技术中无法通过一种统一的形式对不同的表格进行结构化表示的缺陷。

本发明实施例提供一种表格结构化方法，包括：

确定待结构化图像所包含表格的单元格信息和文本信息；

基于所述单元格信息，对所述表格中各个线段进行延伸，得到所述表格的最小单元尺寸，基于所述最小单元尺寸建立网格；

基于所述单元格信息和所述文本信息，将所述表格中的各个单元格以及各个文本行映射到所述网格中，得到所述表格的结构化信息。

本发明实施例还提供一种表格结构化装置，包括：

表格信息确定单元，用于确定待结构化图像所包含表格的单元格信息和文本信息；

网格构建单元，用于基于所述单元格信息，对所述表格中各个线段进行延伸，得到所述表格的最小单元尺寸，基于所述最小单元尺寸建立网格；

结构化信息输出单元，用于基于所述单元格信息和所述文本信息，将所述表格中的各个单元格以及各个文本行映射到所述网格中，得到所述表格的结构化信息。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述表格结构化方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述表格结构化方法的步骤。

本发明实施例提供的表格结构化方法、装置、电子设备及存储介质，基于单元格信息，得到表格的最小单元尺寸，并基于最小单元尺寸建立网格，通过将表格中的各个单元格以及各个文本行映射到网格中，得到表格的结构化信息，实现了不同结构的表格的统一形式的结构化表示，有利于实现对电子化后的表格的统一管理。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的表格结构化方法的流程示意图；

图2为本发明实施例提供的表格示意图；

图3为本发明实施例提供的最小单位尺寸示意图；

图4为本发明实施例提供的网格示意图；

图5为本发明实施例提供的表格的单元格信息和文本信息确定方法的流程示意图；

图6为本发明实施例提供的表格的文本信息确定方法的流程示意图；

图7为本发明实施例提供的表格的单元格信息修正方法流程示意图；

图8为本发明实施例提供的表格的结构化信息确定方法的流程示意图；

图9为本发明另一实施例提供的表格结构化方法的流程示意图；

图10为本发明另一实施例提供的表格示意图；

图11为本发明另一实施例提供的最小单元尺寸示意图；

图12为本发明另一实施提供的网格示意图；

图13为本发明实施例提供的表格结构化装置的结构示意图；

图14是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着计算机的普及和电子信息技术的快速发展，纸质文档也逐渐电子化，表格文档是一种常见的文档形式，表格作为一种高度精炼、集中的信息表达形式，广泛应用于科研文章、报刊杂志、工作报告等文件中，表格文档的电子化极大地便捷了表格文档的管理以及基于表格文档的数据分析。现有技术主要是通过自动提取表格文档中的表格结构信息和文本信息，以实现表格文档的电子化。

然而实际应用中大部分表格的结构是不标准的，例如单元格跨行、跨列合并或者表格部分残缺等，而且不同的表格的表格结构是不统一的。对于不同的表格，现有技术仅能提取各个表格的表格结构信息和文本信息，无法通过一种统一的形式对不同的表格进行结构化表示，不便于对电子化后的表格进行统一管理。

对比，本发明实施例提供一种表格结构化方法，图1为本发明实施例提供的表格结构化方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待结构化图像所包含表格的单元格信息和文本信息。

具体地，待结构化图像可以为需要进行表格结构化的图像，待结构化图像包含至少一个表格。例如，在银行业务的场景下，待结构化图像可以为需要录入系统的人工填写的表格。

待结构化图像所包含的表格的形状可以是规则的，例如机器打印的票据或单据中的表格，待结构化图像所包含的表格的形状也可以是不规则的，例如人为绘制的表格，本发明实施例对此不作具体限定。待结构化图像可以通过扫描仪对待结构化的表格文档扫描得到，也可以通过相机、手机等拍照设备对待结构化的表格文档拍照得到，本发明实施例对此不作具体限定。

表格的单元格信息可以包括表格中各个单元格的位置信息，也可以包括表格整体的位置信息，表格的文本信息可以包括表格中各个文本行的位置信息，也可以包括各个文本行的文本内容及其位置信息，文本行可以为表格中的一行文本，表格中一个单元格可以包含一个文本行，也可以包含多个文本行。此处的位置信息可以包含对象在图像中位置，也可以包含对象在图像中的尺寸大小等，本发明实施例对此不作具体限定。

另外，步骤110中，可以分别确定待结构化图像所包含的表格的单元格信息和文本信息，也可以依次确定待结构化图像所包含的表格的单元格信息和文本信息，例如，可以首先提取待结构化图像所包含的表格中的各个单元格，得到任一表格的单元格信息，然后对该表格中的各个单元格的区域进行文字识别，得到该表格的文本信息，本发明实施例对表格的单元格信息和文本信息的确定方式不作具体限定。

在执行步骤110之后，还可以基于待结构化图像所包含的表格的单元格信息，采用连通域算法，确定待结构化图像中包含的表格的数量。

步骤120，基于单元格信息，对表格中各个线段进行延伸，得到表格的最小单元尺寸，基于最小单元尺寸建立网格。

具体地，对于待结构化图像中的任一表格，在得到表格的单元格信息之后，基于单元格信息对表格中各个单元格的边框进行定位，并在此基础上对表格中的各个单元格的横向或者纵向的边框所对应的线段朝着对应的方向延伸，表格中各个线段的延伸线重新对表格进行了划分，在重新划分后的表格中的各个单元格中，选取水平方向宽度最小的单元格宽度作为最小单元宽度，选取垂直方向高度最小的单元格高度作为最小单元高度，最小单元宽度和最小单元高度组成表格的最小单元尺寸。

以最小单元尺寸为基准构建网格，网格的行数为网格水平方向网格单元的数量，网格的列数为网格垂直方向网格单元的数量。网格的行数可以基于表格的宽度和最小单元尺寸确定，网格的列数可以基于表格的高度和最小单元尺寸确定。可选地，将表格的宽度与最小单元宽度的比值向下取整的结果作为网格的行数，将表格的高度与最小单元高度的比值向下取整的结果作为网格的列数。例如，表格的宽度为300mm，最小单元宽度为27mm，则网格的行数为

进一步地，在对表格中各个线段进行延伸之后，可以对重新划分后的表格进行修正，例如，若重新划分后的表格中两条横线或竖线之间的间隔小于预设间隔，则将两条横线或竖线进行合并操作，以排除单元格信息的误差造成的影响。

图2为本发明实施例提供的表格示意图，如图2所示，表格包括8个单元格，图3为本发明实施例提供的最小单位尺寸示意图，如图3所示，将表格中的单元格3或单元格4，单元格7或单元格8，以及单元格1和单元格6的纵向线段朝着垂直方向延伸，将单元格3或单元格4的横向线段朝着水平方向延伸，图3中的实线为基于单元格信息确定的各个单元格的边框，图3中的虚线为各个单元格的边框对应的线段的延伸线，各个线段的延伸线对表格进行了重新划分，重新划分后的表格中每一行的单元格的数量是相同的，每一列的单元格的数量也是相同的，重新划分后的表格包括20个单元格，从中选取水平方向宽度最小的单元格宽度作为最小单元宽度block_width，选取垂直方向高度最小的单元格高度作为最小单元高度block_height，block_width和block_height组成最小单元尺寸。图4为本发明实施例提供的网格示意图，如图4所示，虚线构成的网格的行数block_col_count为11，网格的列数block_row_count为6，图4中的实线为基于单元格信息确定的各个单元格的边框，图4中的虚线为网格中的网格线。

步骤130，基于单元格信息和文本信息，将表格中的各个单元格以及各个文本行映射到网格中，得到表格的结构化信息。

具体地，在得到网格之后，可以基于单元格信息和文本信息，分别将表格中的各个单元格和各个文本行映射到网格中；也可以基于单元格信息，将表格中的各个单元格映射到网格中，然后基于文本信息，将表格中的各个文本行映射到网格中；还可以基于单元格信息，将表格中的各个单元格映射到网格中，然后基于单元格信息和文本信息，确定表格中各个单元格和各个文本行的对应关系，并基于表格中各个单元格和各个文本行的对应关系，将表格中的各个文本行映射到网格中。

完成表格中的各个单元格和各个文本行到网格的映射之后，可以得到各个单元格和各个文本行分别与网络中的各个网格单元之间的映射关系，进而可以得到表格的结构化信息，其中，表格的结构化信息可以为表格结构信息和文本信息的结构化表示。

此处，表格的结构化信息可以包括表格中的各个单元格在网格中的位置信息，表格中各个文本行在网格中的位置关系，还可以包含表格中的各个单元格和各个文本行分别与网格的之间映射关系。待结构化图像的结构化信息可以包括待结构化图像包含的每一表格的结构化信息，还可以待结构化图像包含的表格的数量。

基于表格的最小单元尺寸重构表格，通过若干个网格单元组成的网格对表格进行离散化，并基于网格，得到表格的结构化信息，对于不同结构的表格，均可以采用统一格式的表格的结构化信息进行表示，以使得基于结构化信息可以将不同结构的表格转换为规范格式的电子表格，极大地方便了对电子化后的表格的管理，使得数据分析人员可以基于规范格式的电子表格快速地进行不同表格之间的数据分析。

本发明实施例提供的表格结构化方法，基于单元格信息，得到表格的最小单元尺寸，并基于最小单元尺寸建立网格，通过将表格中的各个单元格以及各个文本行映射到网格中，得到表格的结构化信息，实现了不同结构的表格的统一形式的结构化表示，有利于实现对电子化后的表格的统一管理。

基于上述任一实施例，图5为本发明实施例提供的表格的单元格信息和文本信息确定方法的流程示意图，如图5所示，该方法包括：

步骤111，将待结构化图像输入至单元格信息提取模型，得到单元格信息提取模型输出的待结构化图像所包含表格的单元格信息；单元格信息提取模型是基于样本图像及其对应的样本单元格信息训练得到的。

具体地，单元格信息提取模型用于提取待结构化图像所包含表格的单元格信息，此处，表格的单元格信息可以包括表格中的各个单元格的位置信息，任一单元格的位置信息可以为包含该单元格的检出框的坐标信息，也可以为包含该单元格的检出区域的坐标信息，本发明实施例对此不作具体限定。若待结构化图像包含多个表格，单元格信息提取模型基于待结构化图像，可以输出待结构化图像中的每一表格的单元格信息。

在执行步骤111之前，还可以预先训练得到单元格信息提取模型，具体可通过如下方式训练得到单元格信息提取模型：首先收集大量包含至少一个表格的样本图像，并标注出样本图像中各个单元格的位置，作为样本单元格信息。然后，基于样本图像及其对应的样本单元格信息对初始模型进行训练，从而得到单元格信息提取模型。

由于提取到的表格的单元格信息的准确性会受到单元格信息提取模型的精度的影响，在执行步骤111之后，还可以对提取的表格的单元格信息的准确性进行初步判断，例如，若提取到的表格的单元格信息中仅包含一个单元格，则可以判断该表格的单元格信息是错误的，并将该表格的单元格信息删除。

步骤112，将待结构化图像输入至文本信息提取模型，得到文本信息提取模型输出的待结构化图像所包含表格的文本信息；文本信息提取模型是基于样本图像及其对应的样本文本信息训练得到的。

具体地，文本信息提取模型用于提取待结构化图像所包含表格的文本信息，此处，表格的文本信息可以包括表格中的各个文本行的的位置信息，和/或，各个文本行中各个单字的位置信息。任一文本行的位置信息可以表示为包含该文本行的检出框的坐标信息，也可以表示为包含该文本行的检出区域的坐标信息。任一单字的位置信息可以表示为包含该单字的检出框的坐标信息，也可以表示为包含该单字的检出区域的坐标信息，本发明实施例对此不作具体限定。若待结构化图像包含多个表格，文本信息提取模型基于待结构化图像，可以输出待结构化图像中的每一表格的文本信息。

在执行步骤112之前，还可以预先训练得到文本信息提取模型，具体可通过如下方式训练得到文本信息提取模型：首先收集大量包含至少一个表格的样本图像，并标注出样本图像中各个文本行的位置和/或各个文本行中各个单字的位置，作为样本文本信息。然后，基于样本图像及其对应的样本文本信息对初始模型进行训练，从而得到文本信息提取模型。

需要说明的是，步骤111和步骤112可以同时执行，也可以依次执行，本发明实施例对步骤111和步骤112的执行顺序不作具体限定。

相比于现有技术中首先提取表格的单元格区域，然后对提取得到的单元格区域进行文字识别，本发明实施例中，通过单元格信息提取模型和文本信息提取模型分别提取待结构化图像所包含的表格的单元格信息和文本信息，采用不同的模型有针对性地提取表格的单元格信息和文本信息，使得提取到的表格的单元格信息和文本信息更准确。

进一步地，由于单元格信息提取模型和文本信息提取模型是两个独立的模型，通过单元格信息提取模型或文本信息提取模型可以单独提取待结构化图像所包含的表格的单元格信息或文本信息。若需要表格的单元格信息，可以仅执行步骤111；若需要表格的文本信息，可以仅执行步骤112，无需依赖表格的单元格信息，确定表格的文本信息，实现了表格的结构信息和文本信息的模块化提取，增强了模型的复用性。

基于上述任一实施例，图6为本发明实施例提供的表格的文本信息确定方法的流程示意图，如图6所示，该方法包括：

步骤1121，将待结构化图像输入至文本信息提取模型的文本检测层，得到文本检测层输出的待结构化图像所包含的表格中的每一文本行的位置信息；

步骤1122，将任一文本行的区域图像输入至文本信息提取模型的文本识别层，得到文本识别层输出的该文本行中的每一单字及其位置信息；该文本行的区域图像是基于该文本行的位置信息在待结构化图像中定位得到的。

具体地，文本检测层用于检测待结构化图像中的各个文本行，并输出待结构化图像所包含的表格中每一文本行的位置信息。基于任一文本行的位置信息，在待结构化图像中定位该文本行所处的区域，并提取该文本行的区域图像，然后将该文本行的区域图像输入至文本识别层，由文本识别层对该文本行进行文字识别，输出该文本行中每一单字及其位置信息。

例如，将任一文本行的区域图像输入至文本识别层，由文本识别层对该文本行进行文字编码，基于编码字典，确定每一单字的文本内容，然后基于每一单字的文本内容进行注意力变换，确定每一单字的位置信息。

此处，文本检测层和文本识别层均可以是单独训练得到的，具体可通过如下方式训练得到文本检测层：首先收集大量样本图像，并标注出样本图像中文本行的位置信息，作为样本文本行位置信息。然后，基于样本图像及其对应的样本文本行位置信息对初始模型进行训练，从而得到文本检测层；具体可通过如下方式训练得到文本识别层：首先收集大量样本图像，并标注出样本图像中文本内容，作为样本文本内容。然后，基于样本图像及其对应的样本文本内容对初始模型进行训练，从而得到文本识别层。

现有的表格检测方法通常是采用深度神经网络模型提取表格的表格线框或单元格线框，深度神经网络模型的精度往往会受到模型训练数据的数量、质量和种类的限制、训练数据的标注误差、模型的训练效果等因素的影响，导致提取出的表格线框或单元格线框出现一定程度的不连续或检测错误。

对此，基于上述任一实施例，图7为本发明实施例提供的表格的单元格信息修正方法流程示意图，如图7所示，该方法包括：

步骤210，基于单元格信息包含的表格中的各个单元格的位置信息，确定表格中各个单元格之间的拓扑关系。

具体地，基于单元格信息的表格中的各个单元格的位置信息，将表格中的各个单元格的位置信息进行相互比较，确定表格中的各个单元格之间的拓扑关系，各个单元格之间的拓扑关系用于表征各个单元格位置的相互关系，各个单元格之间的拓扑关系可以包括上下相邻、左右相邻、上边界相同、下边界相同、左边界相同和右边界相同等。

此处，任一个单元格的位置信息可以表示为包含该单元格的检出框或检出区域的四个顶点的坐标或两个对角顶点的坐标，本发明实施例对比不作具体限定。

例如，当任一单元格的位置信息表示为包含该单元格的检出框的左上对角顶点l和右下对角顶点r的坐标时，单元格A的位置信息可以表示为

单元格B的位置信息可以表示为

若单元格A的

与单元格B的

之差的绝对值小于第一阈值，则确定单元格A和单元格B左右相邻；若单元格A的

与单元格B的

之差的绝对值小于第二阈值，则确定单元格A和单元格B上下相邻；若单元格A的

与单元格B的

之差的绝对值小于第三阈值，则确定单元格A和单元格B左边界相同；若单元格A的

与单元格B的

之差的绝对值小于第四阈值，则确定单元格A和单元格B上边界相同。

此处，第一阈值、第二阈值、第三阈值和第四阈值可以基于单元格A和单元格B的大小进行适应性调整。单元格A和单元格B越大，将各个阈值设置得越大；单元格A和单元格B越小，将各个阈值设置得越小。

步骤220，基于表格中各个单元格之间的拓扑关系，对单元格信息进行修正。

具体地，由于表格中各个单元格是规则排列的，存在特定拓扑关系的两个单元格的位置信息是相互关联的。例如，上边界相同的两个单元格中，一个单元格上边界的顶点的纵坐标和另一个单元格上边界的顶点的纵坐标是相同的。

基于表格中各个单元格之间的拓扑关系，确定表格中各个单元格的位置信息之间的关联性，基于各个单元格的位置信息之间的关联性，对单元格信息进行修正，使得修正后的单元格信息中各个单元格的位置信息之间的关系符合各个单元格之间的拓扑关系。

例如，当单元格A和单元格B上边界相同时，计算单元格A的上边界顶点的纵坐标

和单元格B的上边界顶点的纵坐标

之差的绝对值

若

则将

修正为

将

修正为

本发明实施例提供的表格结构化方法，基于表格中各个单元格之间的拓扑关系，对单元格信息进行修正，消除了模型精度不高对提取到的单元格信息造成的误差，提高了单元格信息的准确性。

基于上述任一实施例，图8为本发明实施例提供的表格的结构化信息确定方法的流程示意图，如图8所示，该方法包括：

步骤131，基于单元格信息，将表格中的各个单元格映射到网格中。

具体地，基于单元格信息，确定表格中的任一单元格与网格中网格单元的对应关系，并基于该单元格与网格单元的对应关系，得到该单元格在网格中映射所得的单元格区域，该单元格在网格中映射所得的单元格区域可以是该单元格对应的所有网格单元确定的。

以图4为例，建立以网格的左上角为原点的坐标系，以网格单元所在的行为网格单元的纵坐标，以网格单元所在的列为网格单元的横坐标，图2表格中的单元格1对应图4网格中的坐标(1,1)的网格单元至坐标(5,2)的网格单元的10个网格单元，将该10个网格单元组成的区域，作为表格中的单元格1在网格中对应的单元格区域。

若在映射过程中出现网格中的网格线与单元格线不完全对齐时，将网格中与网格单元交集最大的单元格区域对应的单元格，作为该网格单元对应的单元格，例如，在图4中，坐标(1,4)的网格单元对应图2中的单元格4，坐标(1,5)的网格单元对应图2中的单元格7。

步骤132，基于文本信息包含的表格中的各个文本行的位置信息和/或各个文本行中各个单字的位置信息，将表格中的各个文本行映射到网格的单元格区域中，得到表格的结构化信息。

具体地，基于文本信息，确定表格中的任一文本行与网格中的单元格区域的对应关系，并基于该文本行与网格中的单元格区域的对应关系，将该文本行映射到该文本行在网格中对应的单元格区域中，其中，文本信息可以包括表格中的各个文本行的位置信息和/或各个文本行中各个单字的位置信息。

相较于直接将文本行映射到网格中的方案，本发明实施例中，通过先将表格中的各个单元格映射到网格中，得到表格中各个单元格在网格中映射所得的单元格区域，然后将表格中各个文本行映射到网格的单元格区域中，能够有效避免单独映射单元格和文本行，导致单元格的划分会导致文本行被切分开的问题。

任一文本行与网格中的单元格区域的对应关系的确定方式可以为：基于文本信息中任一文本行的位置信息，确定该文本行的文本行区域，并基于该文本行的文本行区域与网格中每一单元格区域的交集的面积，确定该文本行在网格中对应的单元格区域，例如，将交集的面积最大的单元格区域作为该文本行在网格中对应的单元格区域。

任一文本行与网格中的单元格区域的对应关系的确定方式也可以为：基于文本信息中任一文本行中任一单字的位置信息，确定该单字的单字区域，并基于该单字的单字区域与网格中每一单元格区域的交集的面积，确定该单字在网格中对应的单元格区域，例如，将交集的面积最大的单元格区域作为该单字在网格中对应的单元格区域。基于该文本行中每一单字在网格中对应的单元格区域，确定该文本行与网格中的单元格区域的对应关系。

完成表格中的各个单元格和各个文本行到网格的映射之后，基于网格，可以得到表格的结构化信息。此处，表格的结构化信息还可以包括：表格中的各个文本行与网格中的各个单元格区域的对应关系、表格中各个文本行中各个单字在网格中的位置关系和表格中的各个文本行中各个单字与网格中的各个单元格区域的对应关系中的至少一种。

大部分表格中各个单元格中的文本行是存在一定间距的，一个文本行通常对应一个单元格，但是当表格中文本行分布比较紧凑时，会出现一个文本行横跨多个单元格的情况，如果仅判断一个文本行和一个单元格的一一对应关系，可能导致将文本行映射到错误的单元格中，进而导致重新构建的表格与原始的表格不符。

对此，基于上述任一实施例，该方法中，步骤132具体包括：

若任一文本行与任一单元格之间的文本行区域占比大于第一预设阈值，则确定该文本行属于该单元格在网格中映射所得的单元格区域；

若文本行区域占比小于第二预设阈值，则确定该文本行不属于该单元格在网格中映射所得的单元格区域；

否则，基于该文本行中的任一单字的位置信息，将该文本行映射到网格的单元格区域中；

其中，文本行区域占比为该文本行的位置信息所指示的文本行区域和该单元格在网格中映射所得的单元格区域的交集，与文本行区域的面积之比。

具体地，将表格中各个单元格映射到网格中，得到表格中任一单元格在网格中映射所得的单元格区域，该单元格区域可以为该单元格对应的所有网格单元组成的区域的最小外接矩形。基于表格中的任一文本行的位置信息，可以确定该文本行的文本行区域，该文本行的文本行区域可以为该文本行的最小外接矩形。

基于该文本行的文本行区域和网格中的该单元格区域，将该文本行区域和该单元格区域的交集与该文本行区域的面积之比，作为该文本行与表格中的该单元格之间的文本行区域占比。

若文本行区域占比大于第一预设阈值，表示该文本行区域与网格中的该单元格区域重叠的区域占该文本行的文本行区域的比重较大，该文本行属于网格中的该单元格区域的可能性较大，则确定该文本行属于网格中的该单元格区域；若文本行区域占比小于第二预设阈值，表示该文本行区域与该单元格区域重叠的区域占该文本行的文本行区域的比重较小，该文本行属于网格中的该单元格区域的可能性较小，则确定该文本行不属于网格中的该单元格区域。

若文本行区域占比在第一预设阈值和第二预设阈值之间，表示该文本行在表格中可能占据多个单元格，将该文本行拆分为多个单字分别进行处理，基于该文本行中任一单字的位置信息，确定该单字在网格中对应的单元格区域，并基于该文本行中每一单字在网格中对应的单元格区域，将该文本行映射到网格中。

例如，基于该文本行中任一单字的位置信息，确定包含该单字的单字区域与网格中每一单元格区域的交集的面积，将交集的面积最大的单元格区域作为该单字在网格中对应的单元格区域。

本发明实施例提供的表格结构化方法，基于表格中的各个文本行的位置信息，通过设置多个阈值对表格中的各个文本行与网格中各个单元格区域的对应关系进行判断，实现了表格中的各个文本行与网格中各个单元格区域之间的准确匹配。基于表格中的各个文本行中各个单字的位置信息，能够将跨单元格的文本行准确地映射到网格中。

基于上述任一实施例，该方法中，所述基于该文本行中的任一单字的位置信息，将该文本行映射到网格的单元格区域中，具体包括：

若该单字与该单元格之间的单字区域占比大于第三预设阈值，则确定该单字属于该单元格在网格中映射所得的单元格区域；

若单字区域占比小于第四预设阈值，则确定该单字不属于该单元格在网格中映射所得的单元格区域；

其中，单字区域占比为该单字的位置信息所指示的单字区域和该单元格在网格中映射所得的单元格区域的交集，与单字区域的面积之比。

具体地，基于任一文本行中任一单字的位置信息，确定该文本行中该单字的单字区域，其中，任一单字的单字区域可以为该单字的最小外接矩形。基于该单字的单字区域与表格中任一单元格在网格中映射所得的单元格区域的交集，将该单字区域与该单元格区域的交集与该单字区域的面积之比，作为该单字与该单元格之间的单字区域占比。

若单字区域占比大于第三预设阈值，表示该单字区域与该单元格区域重叠的区域占该单字整个单字区域的比重较大，该单字属于网格中的该单元格区域的可能性较大，则确定该单字属于网格中的该单元格区域；若单字区域占比小于第四预设阈值，表示该单字区域与该单元格区域重叠的区域占该单字整个单字区域的比重较小，该单字属于网格中的该单元格区域的可能性较小，则确定该单字不属于网格中的该单元格区域。此处，第三预设阈值可以大于第四预设阈值，也可以与第四预设阈值相等。

在第三预设阈值大于第四预设阈值的情况下，若单字区域占比在第三预设阈值和第四预设阈值之间，则可以通过人为判断该单字与网格中的单元格区域的对应关系。

本发明实施例提供的表格结构化方法，基于表格中的各个文本行中各个单字的位置信息，通过设置第三预设阈值和第四预设阈值对表格中各个文本行中各个单字与网格中各个单元格区域的对应关系进行判断，实现了表格中跨单元格的文本行与网格中单元格区域的准确匹配。

基于上述任一实施例，图9为本发明实施例提供的表格结构化方法的流程示意图，如图9所示，该方法包括以下步骤：

首先，通过扫描仪或相机、手机等拍照设备获取原始表格图像Ori_img。为了提升待结构化图像的质量，需要对原始表格图像进行预处理。拍摄角度的倾斜会造成图像出现一定程度的变形，导致图像中包含的表格线框也会发生扭曲，需要对此类图像进行透视变换或旋转矫正；拍摄环境的光线较暗会导致图像的色彩饱和度、亮度和对比度较低，需要对此类图像进行色彩增强处理。如果原始表格图像中表格线较细，表格的单元格数量较多，表格中单元格的边界难以区分，需要对此类图像进行适当放缩。此处，图像预处理方法可以包括上述方法中的至少一种。

经过图像预处理之后，将预处理后的表格图像Pre_img输入至单元格信息提取模型，由单元格信息提取模型提取Pre_img所包含的表格的单元格信息。此处，单元格信息提取模型可以是基于PSE(Progressive Scale Expansion)算法或CTPN(Connectionist TextProposal Network)算法实现单元格信息的提取，单元格信息提取模型的主干网络可以为hrNet(High Resolution Network)、resNet(Residual Network)或dbNet(DifferentiableBinarization Network)等。

将Pre_img输入至文本信息提取模型，由文本信息提取模型的文本检测层提取Pre_img所包含的表格的各个文本行的位置信息。此处，文本检测层可以是基于PSE或CTPN算法实现文本行的检测，文本检测层的主干网络可以为hrNet、resNet或dbNet等。

在得到表格中的各个文本行的位置信息之后，提取出各个文本行，并将任一文本行输入至文本信息提取模型的文本识别层，由文本识别层对该文本行对该文本行进行文字编码，基于编码字典，确定每一单字的文本内容，然后基于每一单字的文本内容进行注意力变换，确定每一单字的位置信息。此处，文本识别层可以是基于CTC(ConnectionistTemporal Classification)和CRNN(Convolutional Recurrent Neural Network)算法实现文本行的文字识别，文本识别层的主干网络可以为encode-decode编码解码器。

在得到表格的单元格信息之后，基于Pre_img所包含的表格的单元格信息，采用连通域算法，确定Pre_img中包含的表格的数量。

随即，对提取的表格的单元格信息的准确性进行初步判断，例如，若提取到的表格的单元格信息中仅包含一个单元格，则可以判断该表格的单元格信息是错误的，并将该表格的单元格信息删除。然后基于单元格信息的表格中的各个单元格的位置信息，将表格中的各个单元格的位置信息进行相互比较，确定表格中各个单元格之间的拓扑关系，并基于表格中各个单元格之间的拓扑关系，对表格的单元格信息进行修正。

在得到修正后的单元格信息之后，基于单元格信息，对表格中各个线段进行延伸，表格中各个线段的延伸线重新对表格进行了划分，对重新划分后的表格中相近的表格线进行合并操作。在重新划分后的表格中的各个单元格中，选取水平方向宽度最小的单元格宽度作为最小单元宽度，选取垂直方向高度最小的单元格高度作为最小单元高度，最小单元宽度和最小单元高度组成表格的最小单元尺寸，并以最小单元尺寸为基准，构建网格。

在得到网格之后，基于表格的单元格信息，将表格中的各个单元格映射到网格中。基于表格的文本信息中各个文本行的位置信息和各个文本行中各个单字的位置信息，将表格中的各个文本行映射到网格的单元格区域中。

将表格中的任一文本行的文本行区域和表格中任一单元格在网格中映射所得的单元格区域的交集与文本行区域的面积之比，作为该文本行与该单元格之间的文本行区域占比。若文本行区域占比大于第一预设阈值，则确定该文本行属于网格中的该单元格区域；若文本行区域占比小于第二预设阈值，则确定该文本行不属于网格中的该单元格区域。

若文本行区域和单元格区域的交集与文本行区域的面积之比在第一预设阈值和第二预设阈值之间，将该文本行中任一单字的单字区域与表格中任一单元格在网格中映射所得的单元格区域的交集与该单字区域的面积之比，作为该单字与该单元格之间的单字区域占比。

若单字区域占比大于第三预设阈值，则确定该单字属于网格中的该单元格区域；若单字区域占比小于第四预设阈值，则确定该单字不属于网格中的该单元格区域；若单字区域占比在第三预设阈值和第四预设阈值之间，则通过人为判断该单字与网格中的单元格区域的对应关系。

图10为本发明实施例提供的表格示意图，如图10所示，该表格为一个不规则的表格，该表格中包含两个单字“科”和“迅”，每一单字占据一个单元格。图11为本发明实施例提供的最小单元尺寸示意图，如图11所示，将表格中各个线段进行延伸，各个线段的延伸线对表格进行了重新划分，图11中的细实线为图10中的表格的边框，图11中的粗实线为基于单元格信息确定的各个单元格的边框，图11中的虚线为各个单元格的边框对应的线段的延伸线。将重新划分后的表格中水平方向宽度最小的单元格宽度作为最小单元宽度block_width，垂直方向高度最小的单元格高度作为最小单元高度block_height，block_width和block_height组成表格的最小单元尺寸。以表格的最小单元尺寸为基准，构建网格。图12为本发明实施提供的网格示意图，如图12所示，虚线构成的网格的行数block_col_count为6，网格的列数block_row_count为2，即通过一个6×2的网格对图10中的表格进行离散化，图12中的实线为基于单元格信息确定的各个单元格的边框，图12中虚线为网格中网格线。将表格中的各个单元格和各个文本行映射到网格中，表格中“科”字所在的单元格对应网格中坐标(1,1)的网格单元至坐标(3,1)的网格单元，“迅”字所在的单元格对应网格中坐标(5,2)的网格单元至坐标(6,2)的网格单元。

完成表格中的各个单元格和各个文本行到网格的映射之后，基于网格，可以得到表格的结构化信息，表格的结构化信息可以包括表格的单元格信息、表格的文本信息、表格的最小单元尺寸、网格的行数和列数、表格中的各个单元格在网格中的位置信息，表格中各个文本行在网格中的位置关系，表格中的各个文本行与网格中的各个单元格区域的对应关系。Pre_img的结构化信息可以包括Pre_img包含的每一表格的结构化信息，以及Pre_img包含的表格的数量。

在得到表格的结构化信息之后，采用json(JavaScript Object Notation)或xml(Extensible Markup Language)数据格式表示表格的结构化信息。将得到的json或xml文件输入至表格恢复系统，表格恢复系统包括读取模块、解析模块和导出模块，读取模块用于读取json或xml文件，解析模块用于对json或xml文件进行解析，并得到表格的结构化信息，导出模块用于基于解析后的表格的结构化信息，使用开源库如xlnt导出Excel文件或Word文件。

基于上述任一实施例，图13为本发明实施例提供的表格结构化装置的结构示意图，如图13所示，该装置包括：

表格信息确定单元1310，用于确定待结构化图像所包含表格的单元格信息和文本信息；

网格构建单元1320，用于基于单元格信息，对表格中各个线段进行延伸，得到表格的最小单元尺寸，基于最小单元尺寸建立网格；

结构化信息输出单元1330，用于基于单元格信息和文本信息，将表格中的各个单元格以及各个文本行映射到网格中，得到表格的结构化信息。

本发明实施例提供的表格结构化装置，基于单元格信息，得到表格的最小单元尺寸，并基于最小单元尺寸建立网格，通过将表格中的各个单元格以及各个文本行映射到网格中，得到表格的结构化信息，实现了不同结构的表格的统一形式的结构化表示，有利于实现对电子化后的表格的统一管理。

基于上述任一实施例，该装置中，表格信息确定单元1310具体包括：

单元格信息提取子单元，用于将待结构化图像输入至单元格信息提取模型，得到单元格信息提取模型输出的待结构化图像所包含表格的单元格信息；单元格信息提取模型是基于样本图像及其对应的样本单元格信息训练得到的；

文本信息提取子单元，用于将待结构化图像输入至文本信息提取模型，得到文本信息提取模型输出的待结构化图像所包含表格的文本信息；文本信息提取模型是基于样本图像及其对应的样本文本信息训练得到的。

基于上述任一实施例，该装置中，文本信息提取子单元具体包括：

文本检测模块，用于将待结构化图像输入至文本信息提取模型的文本检测层，得到文本检测层输出的待结构化图像所包含的表格中的每一文本行的位置信息；

文本识别模块，用于将任一文本行的区域图像输入至文本信息提取模型的文本识别层，得到文本识别层输出的该文本行中的每一单字及其位置信息；该文本行的区域图像是基于该文本行的位置信息在待结构化图像中定位得到的。

基于上述任一实施例，该装置还包括：

单元格信息修正单元，用于基于单元格信息包含的表格中的各个单元格的位置信息，确定表格中各个单元格之间的拓扑关系；

基于表格中各个单元格之间的拓扑关系，对单元格信息进行修正。

基于上述任一实施例，该装置中，结构化信息输出单元1330具体包括：

单元格映射子单元，用于基于单元格信息，将表格中的各个单元格映射到网格中；

文本行映射子单元，用于基于文本信息包含的表格中的各个文本行的位置信息和/或各个文本行中各个单字的位置信息，将表格中的各个文本行映射到网格的单元格区域中，得到表格的结构化信息。

基于上述任一实施例，该装置中，文本行映射子单元具体用于：

基于上述任一实施例，该装置中，所述基于该文本行中的任一单字的位置信息，将该文本行映射到网格的单元格区域中，具体包括：

若单字区域占比小于第四预设阈值，则确定该单字不属于该单元格在所述网格中映射所得的单元格区域；

图14示例了一种电子设备的实体结构示意图，如图14所示，该电子设备可以包括：处理器(processor)1410、通信接口(Communications Interface)1420、存储器(memory)1430和通信总线1440，其中，处理器1410，通信接口1420，存储器1430通过通信总线1440完成相互间的通信。处理器1410可以调用存储器1430中的逻辑指令，以执行表格结构化方法，该方法包括：确定待结构化图像所包含表格的单元格信息和文本信息；基于单元格信息，对表格中各个线段进行延伸，得到表格的最小单元尺寸，基于最小单元尺寸建立网格；基于单元格信息和文本信息，将表格中的各个单元格以及各个文本行映射到网格中，得到表格的结构化信息。

此外，上述的存储器1430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的表格结构化方法，该方法包括：确定待结构化图像所包含表格的单元格信息和文本信息；基于单元格信息，对表格中各个线段进行延伸，得到表格的最小单元尺寸，基于最小单元尺寸建立网格；基于单元格信息和文本信息，将表格中的各个单元格以及各个文本行映射到网格中，得到表格的结构化信息。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的表格结构化方法，该方法包括：确定待结构化图像所包含表格的单元格信息和文本信息；基于单元格信息，对表格中各个线段进行延伸，得到表格的最小单元尺寸，基于最小单元尺寸建立网格；基于单元格信息和文本信息，将表格中的各个单元格以及各个文本行映射到网格中，得到表格的结构化信息。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种表格结构化方法，其特征在于，包括：

确定待结构化图像所包含表格的单元格信息和文本信息；

2.根据权利要求1所述的表格结构化方法，其特征在于，所述确定待结构化图像所包含表格的单元格信息和文本信息，具体包括：

将所述待结构化图像输入至单元格信息提取模型，得到所述单元格信息提取模型输出的所述待结构化图像所包含表格的单元格信息；所述单元格信息提取模型是基于样本图像及其对应的样本单元格信息训练得到的；

将所述待结构化图像输入至文本信息提取模型，得到所述文本信息提取模型输出的所述待结构化图像所包含表格的文本信息；所述文本信息提取模型是基于所述样本图像及其对应的样本文本信息训练得到的。

3.根据权利要求2所述的表格结构化方法，其特征在于，所述将所述待结构化图像输入至文本信息提取模型，得到所述文本信息提取模型输出的所述待结构化图像的文本信息，具体包括：

将所述待结构化图像输入至所述文本信息提取模型的文本检测层，得到所述文本检测层输出的所述待结构化图像所包含的所述表格中的每一文本行的位置信息；

将任一文本行的区域图像输入至所述文本信息提取模型的文本识别层，得到所述文本识别层输出的所述任一文本行中的每一单字及其位置信息；所述任一文本行的区域图像是基于所述任一文本行的位置信息在所述待结构化图像中定位得到的。

4.根据权利要求2所述的表格结构化方法，其特征在于，所述得到所述单元格信息提取模型输出的所述待结构化图像所包含表格的单元格信息，之后还包括：

基于所述单元格信息包含的所述表格中的各个单元格的位置信息，确定所述表格中各个单元格之间的拓扑关系；

基于所述表格中各个单元格之间的拓扑关系，对所述单元格信息进行修正。

5.根据权利要求1所述的表格结构化方法，其特征在于，所述基于所述单元格信息和所述文本信息，将所述表格中的各个单元格以及各个文本行映射到所述网格中，得到所述表格的结构化信息，具体包括：

基于所述单元格信息，将所述表格中的各个单元格映射到所述网格中；

基于所述文本信息包含的所述表格中的各个文本行的位置信息和/或各个文本行中各个单字的位置信息，将所述表格中的各个文本行映射到所述网格的单元格区域中，得到所述表格的结构化信息。

6.根据权利要求5所述的表格结构化方法，其特征在于，所述基于所述文本信息包含的所述表格中的各个文本行的位置信息和各个文本行中各个单字的位置信息，将所述表格中的各个文本行映射到所述网格的单元格区域中，得到所述表格的结构化信息，具体包括：

若任一文本行与任一单元格之间的文本行区域占比大于第一预设阈值，则确定所述任一文本行属于所述任一单元格在所述网格中映射所得的单元格区域；

若所述文本行区域占比小于第二预设阈值，则确定所述任一文本行不属于所述任一单元格在所述网格中映射所得的单元格区域；

否则，基于所述任一文本行中的任一单字的位置信息，将所述任一文本行映射到所述网格的单元格区域中；

其中，所述文本行区域占比为所述任一文本行的位置信息所指示的文本行区域和所述任一单元格在所述网格中映射所得的单元格区域的交集，与所述文本行区域的面积之比。

7.根据权利要求6所述的表格结构化方法，其特征在于，所述基于所述任一文本行中的任一单字的位置信息，将所述任一文本行映射到所述网格的单元格区域中，具体包括：

若所述任一单字与所述任一单元格之间的单字区域占比大于第三预设阈值，则确定所述任一单字属于所述任一单元格在所述网格中映射所得的单元格区域；

若所述单字区域占比小于第四预设阈值，则确定所述任一单字不属于所述任一单元格在所述网格中映射所得的单元格区域；

其中，所述单字区域占比为所述任一单字的位置信息所指示的单字区域和所述任一单元格在所述网格中映射所得的单元格区域的交集，与所述单字区域的面积之比。

8.一种表格结构化装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述表格结构化方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述表格结构化方法的步骤。