CN115359501A

CN115359501A - 一种表格数据增强方法、表格识别方法、装置及存储介质

Info

Publication number: CN115359501A
Application number: CN202210900596.5A
Authority: CN
Inventors: 金连文; 陈邦栋; 张沛荣; 张家鑫; 任峪瑾
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-18

Abstract

本发明公开了一种表格数据增强方法、表格识别方法、装置及存储介质，其中表格数据增强方法包括：获取表格图片数据，对表格图片数据进行标注，获得标注信息；根据所述标注信息计算并生成表格的行标识矩阵和列标识矩阵；根据生成的标识矩阵获取表格的可切割位置，根据可切割位置对表格图片进行切割；将切割出来的每个表格图片的特征进行更正，获得增强的表格图片数据。本发明可以从一张表格上获取多个表格数据，不会破坏表格本身的结构，实现高质量的数据增强，对于现存的稀缺但又难以扩充的表格数据具有重大的意义；且适用于各种类型的表格，尤其是具有跨行跨列单元格的复杂表格。本发明可广泛应用于计算机视觉领域和表格识别领域。

Description

一种表格数据增强方法、表格识别方法、装置及存储介质

技术领域

本发明涉及计算机视觉领域和表格识别领域，尤其涉及一种表格数据增强方法、表格识别方法、装置及存储介质。

背景技术

表格是信息整理以及信息可视化的一种重要形式，极大地方便了使用者对信息的获取和分析。在当今的数字化时代，电子表格成为最主流的表格呈现方式，人们将表格以电子文档、图片或网页的形式进行传播共享。

由于表格具有丰富的信息，为了提高表格信息的获取效率，减少人工整理的成本，自动化的表格识别和信息抽取被广泛使用，其中基于计算机视觉和深度学习的方法在最近几年尤其流行。深度学习技术需要标注好的表格图片数据以供模型学习，但某些特定类型的复杂表格图片数据集规模很小，如拍照型表格图片(原因包括表格图片标注难度很大等等)，严重阻碍了通用的自动化表格信息提取技术的发展。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种表格数据增强方法、表格识别方法、装置及存储介质。

本发明所采用的技术方案是：

一种表格数据增强方法，包括以下步骤：

获取表格图片数据，对表格图片数据进行标注，获得标注信息；

根据所述标注信息计算并生成表格的行标识矩阵和列标识矩阵；

根据生成的标识矩阵获取表格的可切割位置，根据可切割位置对表格图片进行切割；

将切割出来的每个表格图片的特征进行更正，获得增强的表格图片数据。

进一步地，所述表格图片数据中的表格图片包括拍照型图片和电子版导出型图片，所述标注信息为.html格式文件、.xml格式文件或.json格式文件。

进一步地，所述根据所述标注信息计算并生成表格的行标识矩阵和列标识矩阵，包括：

从所述标注信息中获取当前表格的总行数M和总列数N，分别建立M行N列的行标识矩阵M_r和列标识矩阵M_c；

根据单元格是否出现跨行，对行标识矩阵M_r上的每个单元进行赋值，遍历表格的所有行，获得最终的行标识矩阵M_r；

根据单元格是否出现跨列，对列标识矩阵M_c上的每个单元进行赋值，遍历表格的所有列，获得最终的列标识矩阵M_c。

进一步地，所述根据单元格是否出现跨行，对行标识矩阵M_r上的每个单元进行赋值，遍历表格的所有行，获得最终的行标识矩阵M_r，包括：

对于第i行j列的单元格，如果该单元格没有跨越多行，则将该单元格在M_r中置1，即M_r[i][j]＝1；

如果该单元格跨越n行，则M_r[i][j]＝n，且M_r[i:i+n][j]＝0，i:i+n表示区间[i,i+n)，即将该单元格在M_r的该单元格所属列的第一行的位置中填入数字n，该单元格所属列的其他行填入0。

进一步地，所述根据生成的标识矩阵获取表格的可切割位置，根据可切割位置对表格图片进行切割，包括：

获取行标识矩阵M_r和列标识矩阵M_c中标识不为0的位置作为可切割位置；

在表格的行和列两个方向上，获取出所有的可切割位置，对获得的可切割位置进行组合，获得组合切割位置；

根据组合切割位置和标注信息获取图片坐标，根据图片坐标对表格图片进行切割。

进一步地，所述对获得的可切割位置进行组合，包括：

采用随机组合方式或迭代组合方式对获得的可切割位置进行组合。

进一步地，所述将切割出来的每个表格图片的特征进行更正，包括：

在对行标识矩阵和列标识矩阵切割后，出现全行为0的行标识矩阵，或者全列为0的列标识矩阵；

在行标识矩阵中，删除全行为0的行，并对应地修正行标识矩阵的数值；

在列标识矩阵中，删除全列为0的列，并对应地修正列标识矩阵的数值；

根据修正获得的标识矩阵获取新的标注信息。

本发明所采用的另一技术方案是：

一种表格识别方法，包括以下步骤：

获取训练集，采用如上所述的一种表格数据增强方法对训练集进行数据增强；

采用数据增强后的训练集对表格识别模型进行训练；

获取待识别图片，将待识别图片输入训练后的表格识别模型，输出识别结果。

本发明所采用的另一技术方案是：

一种装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明可以从一张表格上获取多个表格数据，不会破坏表格本身的结构，实现高质量的数据增强，对于现存的稀缺但又难以扩充(如标注成本过高)的表格数据具有重大的意义；且适用于各种类型的表格，尤其是具有跨行跨列单元格的复杂表格。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中标识矩阵生成示意图；

图2是本发明实施例中可切割位置的示意图；

图3是本发明实施例中切割后的表格图片及标识矩阵示例的示意图；

图4是本发明实施例中切割下来的子表格相对原表格的位置关系的示意图；

图5是本发明实施例中切割后表格图片的特征错误示例的示意图；

图6是本发明实施例中标识矩阵更新过程的示意图；

图7是本发明实施例中数据增强结果示例的示意图；

图8是本发明实施例中一种表格数据增强方法的步骤流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

基于现有存有的问题，本实施例提出了一种基于标识矩阵表征的通用的复杂表格图片数据增强方法。本发明基于表格中单元格跨行跨列、位置可合并等特点，计算行方向与列方向的标识矩阵以表示表格本身的特征，该矩阵免除了表格不同的标注格式(如.html、.xml等)的差异性带来的不便，提供了一种统一的、可双向转化的表格特征描述。然后根据标识矩阵在不破坏表格本身的复杂结构的情况下寻找表格的可切分点，并在切分后自适应地进行表格的特征修正，在增强了数据多样性的同时保持了表格数据本身的结构完整性。增强后的表格数据能够直接应用于表格识别系统中，大幅度提高表格识别的准确性和有效性。

如图8所示，本实施例提供一种表格数据增强方法，该方法可以从一张表格上获得大量精准、正确的表格数据，不会破坏表格本身的结构，实现高质量的数据增强，对于现存的稀缺但又难以扩充(如标注成本过高)的表格数据具有重大的意义；且适用于各种类型的表格，尤其是具有跨行跨列单元格的复杂表格。该方法具体包括以下步骤：

S1、获取表格图片数据，对表格图片数据进行标注，获得标注信息。

数据准备：获取表格图片数据和对应的标注信息。作为可选的实施方式，表格图片数据中的表格图片包括拍照型图片和电子版导出型图片，标注信息为.html格式文件、.xml格式文件或.json格式文件。

S2、根据所述标注信息计算并生成表格的行标识矩阵和列标识矩阵。

标识矩阵生成：使用图片对应的标注信息计算生成表格行和列的标识矩阵。通用的表格数据标注文件格式为.html、.xml和.json等等，下面为方便描述，以.html格式的标注文件为例，其他格式的文件的标识矩阵生成过程类似。

S21、从.html文件中获取当前表格的总行数M和总列数N，分别建立M行N列的行矩阵M_r和列矩阵M_c；

S22、遍历所有行和所有列的开始位置以及跨度，以行矩阵M_r为例，对于第i行j列的单元格，如果该单元格没有跨越多行，则该将该单元格在M_r中置1，即M_r[i][j]＝1；如果该单元格跨越n行，则M_r[i][j]＝n，且M_r[i:i+n][j]＝0，i:i+n表示区间[i,i+n)，即将该单元格在M_r的该单元格所属列的第一行的位置中填入数字n，该单元格所属列的其他行填入0。列矩阵的填充方法与上述类似。

S23、图1为标识矩阵生成的示意图。对于绿色框的“4.3×1012”所在单元格，在行矩阵M_r中置为1，即M_r[1][3]＝1；对于蓝色框的“血常规”所在单元格，由于跨越了6行，该单元格所属列的第一行填入数字6，即M_r[1][0]＝6，其他行填入0，即M_r[2][0]～M_r[6][0]＝0。其他位置依次类推。

S3、根据生成的标识矩阵获取表格的可切割位置，根据可切割位置对表格图片进行切割。

步骤S3具体包括步骤S31-S33：

S31、获取步骤S2中生成的标识矩阵M_r和M_c，两个矩阵中标识不为0的位置是可切割位置。如图2中的红色箭头和橙色箭头所示。

S32、将所有的可切割位置(包括行和列)筛选出来，将这些可切割位置进行组合(可随机或迭代组合)。然后获取可切割位置在原标注.html文件中的图片坐标，对表格图片进行切割，并根据可切割位置直接对标识矩阵进行切割，图3为切割下来的子表格图片和对应的标识矩阵，图4为子表格相对原表格的位置关系。

S4、将切割出来的每个表格图片的特征进行更正，获得增强的表格图片数据。

由于切割下来的子表格图片的属性可能发生变化，因此我们需要修正标识矩阵以修正表格图片的特征。以图5为例，图5中红色框部分的内容在原来的表格中跨两行，行标识矩阵上(绿色框)有一行为全0；由于现在只占一行，所以全0行应该删除，并将相应标识跨行数的值减1，具体步骤如图6所示。即不断查找全0的行，并将相邻第一个不为0的值减1(图5中粉色区域的值)，一直到没有全0行为止。列标识矩阵也做相同的处理。在最终获得的行列标识矩阵基础上，通过步骤S2的逆步骤可以还原成.html格式的标注信息。

因此，通过步骤S3，可以在给定一张表格和其对应的标注文件的情况下，切割出多个子表格；再通过步骤S4修正子表格的特征，将修正后的标识矩阵重新转换为原格式的标注信息文件，即可完成数据增强。数据增强的示例如图7。

综上所述，本实施例相对于现有技术，具有如下优点及有益效果：

(1)本发明提出的数据增强算法过程简洁易懂，方便实现；使用该算法得到的数据可以直接应用，对于因为难以标注或其他原因导致稀缺的表格数据有巨大的应用价值，同时也能大幅度提升表格识别系统的性能。

(2)本发明新提出了标识矩阵作为一种通用的表格特征描述方式，标识矩阵可以使用任意格式(.html,.xml,.json)的标注文件生成，不受格式限制；同时对于各种表格尤其是具有跨行跨列单元格的复杂表格能够清晰、全面地描述，适应性强。

(3)本发明容易根据标识矩阵找到表格图片行和列的可切割位置，根据这些位置切割出来的子表格不会破坏表格本身的结构，再经过特征修正算法纠正可能出错的表格，可以生成精准、正确的新表格数据，进行高质量的数据增强；同时，行和列可切割位置的组合方式没有限制，可随机组合也可迭代组合，因此可以产生大量的组合以获得大量的数据。

(4)本发明提出的标识矩阵表征作为一种通用的表格特征描述方式，不仅适用于表格数据增强，还可以与其他表格处理方法结合，具有很强的可拓展性。

本实施例还提供一种表格识别方法，包括以下步骤：

S101、获取训练集，采用如图8所示的一种表格数据增强方法对训练集进行数据增强；

S102、采用数据增强后的训练集对表格识别模型进行训练；

S103、获取待识别图片，将待识别图片输入训练后的表格识别模型，输出识别结果。

本实施例的一种表格识别方法与上所述的一种表格数据增强方法具有对应关系，因此具备相应的功能和有益效果。

本实施例还提供一种装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如图8所示方法以及上所述的一种表格识别方法。

本实施例的一种装置，可执行本发明方法实施例所提供的一种表格数据增强方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图8所示的方法以及上所述的一种表格识别方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种表格数据增强方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种表格数据增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种表格数据增强方法，其特征在于，所述表格图片数据中的表格图片包括拍照型图片和电子版导出型图片，所述标注信息为.html格式文件、.xml格式文件或.json格式文件。

3.根据权利要求1所述的一种表格数据增强方法，其特征在于，所述根据所述标注信息计算并生成表格的行标识矩阵和列标识矩阵，包括：

4.根据权利要求3所述的一种表格数据增强方法，其特征在于，所述根据单元格是否出现跨行，对行标识矩阵M_r上的每个单元进行赋值，遍历表格的所有行，获得最终的行标识矩阵M_r，包括：

如果该单元格跨越n行，则M_r[i][j]＝n，且M_r[i：i+n][j]＝0，i：i+n表示区间[i，i+n)，即将该单元格在M_r的该单元格所属列的第一行的位置中填入数字n，该单元格所属列的其他行填入0。

5.根据权利要求4所述的一种表格数据增强方法，其特征在于，所述根据生成的标识矩阵获取表格的可切割位置，根据可切割位置对表格图片进行切割，包括：

6.根据权利要求5所述的一种表格数据增强方法，其特征在于，所述对获得的可切割位置进行组合，包括：

7.根据权利要求5所述的一种表格数据增强方法，其特征在于，所述将切割出来的每个表格图片的特征进行更正，包括：

根据修正获得的标识矩阵获取新的标注信息。

8.一种表格识别方法，其特征在于，包括以下步骤：

获取训练集，采用如权利要求1-7任一项所述的一种表格数据增强方法对训练集进行数据增强；

采用数据增强后的训练集对表格识别模型进行训练；

9.一种装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现权利要求1-8任一项所述方法。

10.一种计算机可读存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-8任一项所述方法。