CN112241730A

CN112241730A - 一种基于机器学习的表格提取方法和系统

Info

Publication number: CN112241730A
Application number: CN202011315774.5A
Authority: CN
Inventors: 刘洋; 侯启予
Original assignee: Hangzhou Touzhi Information Technology Co ltd
Current assignee: Hangzhou Touzhi Information Technology Co ltd
Priority date: 2020-11-21
Filing date: 2020-11-21
Publication date: 2021-01-19

Abstract

本发明公开了一种基于机器学习的表格提取方法和系统，所述方法包括：获取表格模板集；根据表格模板集生成第一实例；获取第一实例中表格的单元格坐标；随机隐藏表格的边框线，获得第二实例；基于单元格坐标为第二实例的表格打标签；基于实例分割模型对第二实例进行训练，获得预测模型；基于预测模型分析预测文档；提取单元格坐标区域内的单元格内容；根据单元格坐标恢复预测表格的结构；基于单元格内容、单元格坐标和预测表格的结构，结构化预测表格。预测模型可以识别预测文档中的单元格及其坐标，从而获得复杂单元格的区域和表格的结构，再提取单元格的内容，使预测表格结构化。

Description

一种基于机器学习的表格提取方法和系统

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于机器学习表格提取的方法和系统。

背景技术

在日常生活或工作中涉及到大量的表格及其文档，尤其是金融行业中的金融表格，相关人员可以从这些表格中读取到有用的数据，而对于复杂的表格，需要检索表格中的某一个特定内容或数据，通常需要将文档中含有的表格进行结构化，以便于内容检索。

当表格结构较为复杂时，如含有合并单元格或无表格边框，此类表格的结构化十分困难：含有大量的复杂合并单元格，甚至有多层次的合并单元格，准确识别表格结构十分困难；无外表格边框，甚至有的表格内部都没有边框线，这样精确区分每一个单元格所在位置十分困难，准确提取每一个单元格的内容也十分困难。

发明内容

针对现有技术中存在的上述技术问题，本发明提供一种基于机器学习的表格提取方法和系统，便于识别复杂表格的结构及其内容。

本发明公开了一种基于机器学习的表格提取方法，所述方法包括：获取表格模板集；根据所述表格模板集生成第一实例；获取第一实例中表格的单元格坐标；随机隐藏第一实例中表格的边框线，获得第二实例；基于所述单元格坐标为第二实例的表格及其单元格打标签；基于实例分割模型对第二实例进行训练，获得预测模型；基于所述预测模型分析预测文档，所述预测文档包括预测表格，获得预测表格的单元格坐标；提取所述单元格坐标区域内的单元格内容；根据所述单元格坐标恢复预测表格的结构；基于所述单元格内容、单元格坐标和预测表格的结构，结构化预测表格。

优选的，所述表格模板集的模板包括以下情形之一或它们的组合：含有多层次的合并单元格、缺少表格外边框线和缺少内边框线。

优选的，所述第一实例基于弱监督学习的方法生成。

优选的，获取第一实例中表格的单元格坐标的方法包括：根据表格模板生成训练表格；根据训练表格生成PDF文档；获取所述PDF文档的矢量化信息；基于所述矢量化信息识别表格、表格坐标和单元格坐标。

优选的，获得第二实例的方法包括：随机删除表格的边框线或使用白色粗线覆盖表格的边框线；将所述表格保存为图片，作为第二实例。

优选的，所述基于实例分割模型对第二实例进行训练的方法包括：将所述第二实例划分为预训练实例和复杂训练实例；基于实例分割模型对预训练实例进行训练，获得第一模型；基于第一模型训练复杂训练实例进行训练，获得预测模型。

优选的，提取单元格内容的方法包括：矢量化提取法或光学字符识别法。

优选的，本发明的方法还包括分割所述预测文档的预测表格的方法：通过连通域分析方法获取预测文档中的预测表格及其坐标范围；将每个识别的单元格按所属的预测表格进行归类。

优选的，恢复预测表格结构的方法包括：根据单元格坐标恢复所述预测表格的边框线；根据所述单元格坐标和预测表格的边框线获取单元格的行列；根据所述单元格的行列恢复预测表格的结构。

本发明还提供一种用于实现上述方法的表格提取系统，包括第一获取模块、第一实例模块、单元格坐标获取模块、第二实例模块、标签模块、训练模块、预测模块、内容提取模块、表格结构恢复模块和表格结构化模块，所述第一获取模块用于获取表格模板集；所述第一实例模块用于根据所述表格模板集生成第一实例；所述单元格坐标获取模块用于获取第一实例中表格的单元格坐标；所述第二实例模块用于随机隐藏第一实例中表格的边框线，获得第二实例；所述标签模块用于基于所述单元格坐标为第二实例的表格及其单元格打标签；所述训练模块用于基于实例分割模型对第二实例进行训练，获得预测模型；所述预测模块用于基于所述预测模型分析预测文档，所述预测文档包括预测表格，获得预测表格的单元格坐标；所述内容提取模块用于提取单元格坐标区域内的单元格内容；所述表格结构恢复模块用于根据单元格坐标恢复预测表格的结构；所述表格结构化模块用于基于单元格内容、单元格坐标和预测表格的结构，结构化预测表格。

与现有技术相比，本发明的有益效果为：

通过构建表格结构复杂的训练实例，基于实例分割算法对第二实例进行训练，使预测模型可以识别预测文档中的表格、单元格及其坐标，从而获得复杂单元格的区域和表格的结构，再提取单元格的内容，从而恢复单元格，根据单元格恢复预测表格，使预测表格结构化。预测表格的结构化，包括预测表结构、单元格结构和每个单元格的内容，便于检索表格的内容，并获得单元格的坐标或位置，

附图说明

图1是本发明的表格提取方法流程图；

图2是获取第一实例中表格的单元格坐标的方法流程图；

图3是获得第二实例的方法流程图；

图4是基于实例分割模型对第二实例进行训练的方法流程图；

图5是基于预测模型分析预测文档的方法流程图；

图6是标记坐标区域的效果图；

图7是为预测文档分割预测表格的方法流程图；

图8是恢复预测表格结构的方法流程图；

图9是本发明的表格提取系统的逻辑框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

一种基于机器学习的表格提取方法，如图1所示，所述方法包括：

步骤S1：获取表格模板集。其中，模板集中的模板可以根据表格的种类进行设定，如金融表格中的含有：含有多层次的合并单元格、缺少表格外边框线或缺少内边框线，则模板集中的模板应当反应表格所属种类的特性。

步骤S2：根据所述表格模板集生成第一实例。可以通过弱监督学习的方法根据所述表格模板集的模板生成定义大量复杂的表格模板或表格，使第一实例中的表格具有待预测表格的属性，如具有复杂的合并单元格，缺少部分外边框，但不限于此，本发明也可以用于其它特殊表格形式。其中第一实例可以是文档格式的，如word文档、excel文档、LaTeX文档或PDF文档。

步骤S3：获取第一实例中表格的单元格坐标。可以通过矢量化分析方法分析文档元信息，获取文档中表格的坐标。

步骤S4：随机隐藏第一实例中所述表格的边框线，并保存为第二实例。通过随机隐藏边框线的方式，提高训练的复杂程序，使第二实例中的表格更符合所属种类的特性，第二实例可以是图片格式。

步骤S5：基于所述单元格坐标为第二实例的表格及其单元格打标签。其中，标签可以包括单元格标签和表格标签，分别用于标记单元格和表格。

步骤S6：基于实例分割模型对第二实例进行训练，获得预测模型。可以以每个单元格作为一个训练实例，通过训练并筛选出预测准确率高的模型，其中实例分割模型包括：Mask R-CNN模型，但不限于此，基于实例分割模型进行训练为现有技术，本发明中不再赘述。

步骤S7：基于所述预测模型分析预测文档，所述预测文档包括预测表格，获得预测表格的单元格坐标。输入预测文档，通过所述预测模型分析预测文档中包括的表格和单元格坐标。

步骤S8：提取所述单元格坐标区域内的单元格内容。可以通过矢量化分析方法或OCR(光学字符识别，Optical Character Recognition)技术提取单元格内容。其中，预测文档为PDF文档时，可以使用矢量化分析的方法，识别点线信息，得到单元格里的内容；预测文档为Word文档图片、PDF影印文档或图片，可以使用OCR技术识别每个单元格坐标范围内的内容。通过矢量化分析方法或OCR技术提取单元，可以有效提取含有空白或省略符的单元格的内容。

步骤S9：根据所述单元格坐标恢复预测表格的结构。

步骤S10：基于所述单元格内容、单元格坐标和预测表格的结构，结构化预测表格。

预测表格的结构化，包括预测表结构、单元格结构和每个单元格的内容，便于检索表格的内容，以提高内容检索的工作效率，并获得单元格的坐标或位置。通过构建表格结构复杂的训练实例，基于实例分割算法对第二实例进行训练，使预测模型可以识别预测文档中的表格、单元格及其坐标，从而获得复杂单元格的区域和表格的结构，再提取单元格的内容，从而恢复单元格，根据单元格恢复预测表格，使预测表格结构化。

实施例1

如图2所示，步骤S3中，获取第一实例中表格的单元格坐标的方法包括：

步骤S301：根据表格模板生成训练表格。在一个具体实施例，训练表格保存在LaTeX文档中，LaTeX文档跨平台性较好，使文档在不同平台编译出来效果一致，但不限于此，也可以通过word或excel生成训练表格。

步骤S302：根据训练表格生成PDF文档。

步骤S303：获取所述PDF文档的矢量化信息。

步骤S304：基于所述矢量化信息识别表格、表格坐标和单元格坐标。可以通过矢量化分析的方法获得PDF文档底层的矢量化点线信息获得表格、表格坐标和单元格坐标。

其中，可以将PDF文档的矢量化信息转换为结构化的标签，使第二实例可以用于模型训练，从而定义标签体系。

如图3所示，步骤S4中，获得第二实例的方法包括：

步骤S401：随机删除第一实例中表格的边框线或使用白色粗线覆盖表格的边框线。可以通过矢量化技术隐藏表格边框线，如使用白色粗线覆盖边框线，使所述边框线视觉上不可被识别。第一实例或表格模板中的表格，也存在缺少部分边框线的情况，步骤S4与之形成互补，使第二实例复杂化。

步骤S402：将隐藏边框线的表格保存为图片，作为第二实例。图片格式可以是Jpeg、gif或png的格式，但不限于此。

相应的，预测文档可以转为指定像素大小的图片，与第二实例中的图片相符。

实施例2

如图4所示，步骤S6中，基于实例分割模型对第二实例进行训练的方法包括：

步骤S601：将所述第二实例划分为预训练实例和复杂训练实例。

步骤S602：基于实例分割模型对预训练实例的表格或单元格进行训练，获得第一模型。选取视实例分割模型，并进行预训练。

步骤S603：基于第一模型训练复杂训练实例的表格或单元格进行训练，获得预测模型。在复杂训练实例的的基础上优化模型效果，调节各类参数。

先通过预训练技术得到第一模型，使第一模型可以适应表格或单元格识别的任务，然后采用迁移训练的方法对复杂训练实例进行训练，以增加预测模型的泛化效果。

可以通过交叉验证和可视化技术筛选预测准确率高的预测模型，以增加泛化效果。

实施例3

如图5所示，步骤S7所述，基于预测模型分析预测文档的方法包括：

步骤S701：将预测文档通过矢量化技术转为指定像素大小的矢量图。

步骤S702：使用预测模型预测所述矢量图中单元格的坐标区域。

在一个具体实施例，可以通过实例分割测评的方法评估预测准确率：

通过可视化的技术标记每个坐标区域的颜色。

通过实例分割评测标准评估识别准确率。其中，实例分割评测标准可以包括AP、AP50、AP75、Aps、APm或APl，但不限于此。相邻坐标区域的颜色不相同，从而可以通过色彩区别来查看识别效果。

在一个具体实施例中，如图6所示，以灰度深浅标记不同的坐标区域，但不限于此，可以通过多种颜色标记不同的坐标区域，经测试，图6中各个表格预测准确率为100％。

实施例4

对于预测文档一个页面内包含两个或多个表格的情况，如图7所示，本实施例提供分割预测文档的预测表格的方法：

步骤S111：通过连通域分析方法获取预测文档中的预测表格及其坐标范围。连通域分析(connected component analysis)将图像中的连通区域找出来并标记，图像中的表格具有连续性，因此可以通过分析相同像素值的连通域获取预测表格的数量和坐标范围。

步骤S112：将每个识别的单元格按所属的预测表格进行归类。从而分割预测表格，并获得每个表格的单元格。便于准确恢复各个预测表格的结构。

如图8所示，步骤S9中，恢复预测表格结构的方法包括：

步骤S901：根据单元格坐标或表格坐标恢复所述预测表格的边框线。其中，表格坐标可以由预测模型预测获得，也可以通过连通分析方法获得。

步骤S902：根据所述单元格坐标和预测表格的边框线获取单元格的行列。其中合并单元格可以跨越多个行或多个列。

步骤S903：根据所述行列恢复预测表格的结构。从而恢复具有复杂合并单元格的表格结构。

本发明还提供一种用于实现上述方法的表格提取系统，如图9所示，包括第一获取模块1、第一实例模块2、单元格坐标获取模块3、第二实例模块4、标签模块5、训练模块6、预测模块7、内容提取模块8、表格结构恢复模块9和表格结构化模块10，

第一获取模块1用于获取表格模板集；

第一实例模块2用于根据所述表格模板集生成第一实例；

单元格坐标获取模块3用于获取第一实例中表格的单元格坐标；

第二实例模块4用于随机隐藏第一实例中表格的边框线，获得第二实例；标签模块5用于基于所述单元格坐标为第二实例的表格打标签

训练模块6用于基于实例分割模型对第二实例进行训练，获得预测模型；

预测模块7用于基于所述预测模型分析预测文档，所述预测文档包括预测表格，获取预测表格的单元格坐标；

内容提取模块8用于提取单元格坐标区域内的单元格内容；

表格结构恢复模块9用于根据单元格坐标恢复预测表格的结构；

表格结构化模块10用于基于单元格内容、单元格坐标和预测表格的结构，结构化预测表格。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习的表格提取方法，其特征在于，所述方法包括：

获取表格模板集；

根据所述表格模板集生成第一实例；

获取第一实例中表格的单元格坐标；

随机隐藏第一实例中表格的边框线，获得第二实例；

基于所述单元格坐标为第二实例的表格及其单元格打标签；

基于实例分割模型对第二实例进行训练，获得预测模型；

基于所述预测模型分析预测文档，所述预测文档包括预测表格，获得预测表格的单元格坐标；

提取所述单元格坐标区域内的单元格内容；

根据所述单元格坐标恢复预测表格的结构；

基于所述单元格内容、单元格坐标和预测表格的结构，结构化预测表格。

2.根据权利要求1所述的表格提取方法，其特征在于，所述表格模板集的模板包括以下情形之一或它们的组合：含有多层次的合并单元格、缺少表格外边框线和缺少内边框线。

3.根据权利要求1所述的表格提取方法，其特征在于，所述第一实例基于弱监督学习的方法生成。

4.根据权利要求1所述的表格提取方法，其特征在于，获取第一实例中表格的单元格坐标的方法包括：

根据表格模板生成训练表格；

根据训练表格生成PDF文档；

获取所述PDF文档的矢量化信息；

基于所述矢量化信息识别表格、表格坐标和单元格坐标。

5.根据权利要求4所述的表格提取方法，其特征在于，获得第二实例的方法包括：

随机删除表格的边框线或使用白色粗线覆盖表格的边框线；

将所述表格保存为图片，作为第二实例。

6.根据权利要求1所述的表格提取方法，其特征在于，所述基于实例分割模型对第二实例进行训练的方法包括：

将所述第二实例划分为预训练实例和复杂训练实例；

基于实例分割模型对预训练实例进行训练，获得第一模型；

基于第一模型训练复杂训练实例进行训练，获得预测模型。

7.根据权利要求1所述的表格提取方法，其特征在于，提取单元格内容的方法包括：矢量化提取法或光学字符识别法。

8.根据权利要求1所述的表格提取方法，其特征在于，还包括分割所述预测文档的预测表格的方法：

通过连通域分析方法获取预测文档中的预测表格及其坐标范围；

将每个识别的单元格按所属的预测表格进行归类。

9.根据权利要求1或8所述的表格提取方法，其特征在于，恢复预测表格结构的方法包括：

根据单元格坐标恢复所述预测表格的边框线；

根据所述单元格坐标和预测表格的边框线获取单元格的行列；

根据所述单元格的行列恢复预测表格的结构。

10.一种用于实现权利要求1-9任一项所述方法的表格提取系统，其特征在于，包括第一获取模块、第一实例模块、单元格坐标获取模块、第二实例模块、标签模块、训练模块、预测模块、内容提取模块、表格结构恢复模块和表格结构化模块，

所述第一获取模块用于获取表格模板集；

所述第一实例模块用于根据所述表格模板集生成第一实例；

所述单元格坐标获取模块用于获取第一实例中表格的单元格坐标；

所述第二实例模块用于随机隐藏第一实例中表格的边框线，获得第二实例；

所述标签模块用于基于所述单元格坐标为第二实例的表格及其单元格打标签；

所述训练模块用于基于实例分割模型对第二实例进行训练，获得预测模型；

所述预测模块用于基于所述预测模型分析预测文档，所述预测文档包括预测表格，获得预测表格的单元格坐标；

所述内容提取模块用于提取单元格坐标区域内的单元格内容；

所述表格结构恢复模块用于根据单元格坐标恢复预测表格的结构；

所述表格结构化模块用于基于单元格内容、单元格坐标和预测表格的结构，结构化预测表格。