CN112651331A

CN112651331A - 文本表格提取方法、系统、计算机设备及存储介质

Info

Publication number: CN112651331A
Application number: CN202011547839.9A
Authority: CN
Inventors: 林鉴鹏
Original assignee: Wanxing Technology Group Co ltd
Current assignee: Wanxing Technology Group Co ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-13
Anticipated expiration: 2040-12-24
Also published as: CN112651331B

Abstract

本发明实施例公开了文本表格提取方法、系统、计算机设备及存储介质，方法包括：获取文本页面中的表格结构，并确定所述表格结构中的单元格；获取所述单元格中包含有文本数据的内容块对象，并对所述内容块对象进行划分，获得行对象列表；对所述行对象列表中的行对象进行Y轴排序，并将在Y轴方向上重叠度大于预设阈值的相邻所述行对象进行合并，并将合并后的行对象保存至所述行对象列表内；关联所述内容块对象与合并后的行对象，并获取所述单元格中文本数据并进行提取。本发明实施例通过将表格结构中的内容块对象与行对象进行关联，使每一个单元格与文本数据一一对应，更加精确的获取了表格结构，提高了转换精度。

Description

文本表格提取方法、系统、计算机设备及存储介质

技术领域

本发明实施例涉及表格提取技术领域，特别涉及文本表格提取方法、系统、计算机设备及存储介质。

背景技术

在一个文本页面中存在各种各样的页面结构，例如：表格结构、图像等。在文本页面转换为其他格式文本时，由于表格结构样式多变，不仅存在具有表格线的表格结构，也有纯文字型的表格结构以及表格线与文字混合的混合型表格结构，因此在进行转换时难以实现对表格结构的精确捕捉，纯文字型表格结构与混合型表格结构难以准确识别并进行转换，使得文本页面不能很好地将表格结构提取并进行转换。

发明内容

本发明实施例提供了文本表格提取方法、系统、计算机设备及存储介质，旨在解决现有技术中提取表格结构不够精确，格式转换过程不够准确的问题。

第一方面，本发明实施例提供了一种文本表格提取方法，其包括：

获取文本页面中的表格结构，并确定所述表格结构中的单元格；

获取所述单元格中包含有文本数据的内容块对象，并对所述内容块对象进行划分，获得行对象列表；

对所述行对象列表中的行对象进行Y轴排序，并将在Y轴方向上重叠度大于预设阈值的相邻所述行对象进行合并，并将合并后的行对象保存至所述行对象列表内；

关联所述内容块对象与合并后的行对象，并获取所述单元格中文本数据并进行提取。

第二方面，本发明实施例提供了一种文本表格提取系统，其包括：

表格结构获取单元，用于获取文本页面中的表格结构，并确定所述表格结构中的单元格；

内容块对象划分单元，用于获取所述单元格中包含有文本数据的内容块对象，并对所述内容块对象进行划分，获得行对象列表；

行对象合并单元，用于对所述行对象列表中的行对象进行Y轴排序，并将在Y轴方向上重叠度大于预设阈值的相邻所述行对象进行合并，并将合并后的行对象保存至所述行对象列表内；

对象关联单元，用于关联所述内容块对象与合并后的行对象，并获取所述单元格中文本数据并进行提取。

第三方面，本发明实施例又提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的文本表格提取方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的文本表格提取方法。

本发明实施例提供了文本表格提取方法、系统、计算机设备及存储介质，其中，方法包括：获取文本页面中的表格结构，并确定所述表格结构中的单元格；获取所述单元格中包含有文本数据的内容块对象，并对所述内容块对象进行划分，获得行对象列表；对所述行对象列表中的行对象进行Y轴排序，并将在Y轴方向上重叠度大于预设阈值的相邻所述行对象进行合并，并将合并后的行对象保存至所述行对象列表内；关联所述内容块对象与合并后的行对象，并获取所述单元格中文本数据并进行提取。本发明实施例通过将表格结构中的内容块对象与行对象进行关联，使每一个单元格与文本数据一一对应，更加精确的获取了表格结构，提高了转换精度。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所提供的一种文本表格提取方法的流程示意图；

图2为本发明实施例所提供的一种文本表格提取系统的示意性框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅图1，图1为本发明实施例提供的一种文本表格提取方法的流程示意图，该方法可以包括步骤S101～S104：

S101、获取文本页面中的表格结构，并确定表格结构中的单元格；

在本步骤中，通过识别出文本页面的表格结构，从而确定表格结构中的单元格，以便从单元格中获取对应的文本数据。

在一实施例中，步骤S101包括：

基于文本行及路径的无边框表格识别算法获取文本页面中的表格结构，并对表格结构进行调整优化，并将优化后的表格结构导入表格模板文件中；

遍历并切分文本页面，并确定表格结构中的单元格及单元格中的文本数据。

在本实施例中，利用基于文本行及路径的无边框表格识别算法获取文本页面中的表格结构后，根据用户需求对表格结构进行调整优化，然后再将表格结构导入表格模板文件中，先对文本页面进行遍历，然后对遍历后的文本页面进行切分，从而确定表格结构中的单元格及单元格中的文本数据。对表格结构的调整优化策略可以是调整表格坐标、插入或删除表格线、修改合并或拆分单元格等。表格模板文件可以从外部存储设备获取表格的坐标位置和单元格的矩形结构信息，并进行记录。

S102、获取单元格中包含有文本数据的内容块对象，并对内容块对象进行划分，获得行对象列表；

在本步骤中，通过对单元格区域中的对象进行分析，获取单元格中的内容块对象，再对内容块对象进行按行划分，获得行对象列表。

在一实施例中，步骤S102包括：

获取文本页面中包含于单元格或与单元格重叠面积大于预设阈值的文本对象列表，并对文本对象列表进行排版，得到对应的内容块对象；

对单元格进行拆分获取字符对象，并依据字符对象对内容块对象按行划分，获得行对象列表。

在本实施例中，获取文本页面中包含于单元格内的文本对象，或与单元格的重叠面积大于预设阈值的文本对象，并将所有的文本对象保存至文本对象列表内，然后对文本对象列表进行排版布局，得到内容块对象，为保证内容块对象的排版合理性，需要对单元格进行拆分，再组合成字符对象，根据字符对象对内容块对象按行划分，获得行对象列表。在获取文本对象列表时，获取包含于单独的单元格内的文本对象，或单元格的重叠面积大于预设阈值的文本对象，本实施例中预设阈值为50％，即文本对象与单元格重叠面积大于50％，也就是说该文本对象保存在多个单元格内，因此需要将单元格进行合并。特别的，内容块对象由段落对象组成，段落对象由行对象组成，行对象由单词对象组成，单词对象由字符对象组成。

S103、对行对象列表中的行对象进行Y轴排序，并将在Y轴方向上重叠度大于预设阈值的相邻行对象进行合并，并将合并后的行对象保存至行对象列表内；

在本步骤中，通过对行对象进行Y轴排序，筛选出需要进行合并的行对象进行合并，并将合并后的行对象保存至行对象列表内。在进行合并时，获取相邻行对象之间的重叠度，设置阈值为50％，当重叠度大于阈值时，则将相邻行对象进行合并处理。同理，也可采用上述方法在X轴方向上进行合并。

在一实施例中，对行对象列表中的行对象进行Y轴排序包括：

以文本页面的水平方向为X轴，垂直方向为Y轴，对行对象进行排序；

将行对象由上到下沿Y轴的反方向进行排序，将行对象由左到右沿X轴方向进行排序。

在本实施例中，先将坐标轴方向设置为文本页面的水平方向和垂直方向，将行对象沿Y轴的反方向排序，沿X轴的正方向排序。在进行排序时，优先进行Y轴方向上的排序，按照Y轴反方向由上到下排序，然后再按照X轴方向由左到右排序。

S104、关联内容块对象与合并后的行对象，并获取单元格中文本数据并进行提取。

在本步骤中，在行对象进行合并后，每一行对象内都对应有一个内容块对象，将每个内容块对象与对应的行对象进行关联，使每一单元格中都具有对应的文本数据，然后再对单元格中的文本数据进行提取。

在一实施例中，关联内容块对象与合并后的行对象之后包括：

判断表格结构是否修改；

若表格结构已修改，则获取修改后的表格结构，并对表格结构的单元格及单元格中的文本数据进行更新。

在本实施例中，在进行关联后，判断表格结构是否修改，若已修改，则需要重新获取表格结构，然后更新表格结构中的单元格以及文本数据。具体的，重新获取新的表格结构的内容块对象，以及对应的行对象列表，然后再进行关联。

在一实施例中，步骤S104之后包括：

将文本数据导入至指定格式文本中，以生成新的文本页面。

在本实施例中，在提取表格结构的文本数据后，将文本数据导入至指定格式文本中，生成新格式的文本页面。指定格式文本可以是Excel文件格式，也可以是其他具有表格功能的文件格式。

在一实施例中，文本页面为PDF页面。

在本实施例中，文本页面可以是PDF页面，还可以是其他具有表格显示功能的文本页面。且该文本页面可以是由单张页面，也可以是由多张页面组合而成。

请参阅图2，图2为本发明实施例提供的一种文本表格提取系统的示意性框图，该文本表格提取系统200包括：

表格结构获取单元201，用于获取文本页面中的表格结构，并确定表格结构中的单元格；

内容块对象划分单元202，用于获取单元格中包含有文本数据的内容块对象，并对内容块对象进行划分，获得行对象列表；

行对象合并单元203，用于对行对象列表中的行对象进行Y轴排序，并将在Y轴方向上重叠度大于预设阈值的相邻行对象进行合并，并将合并后的行对象保存至行对象列表内；

对象关联单元204，用于关联内容块对象与合并后的行对象，并获取单元格中文本数据并进行提取。

在一实施例中，表格结构获取单元201包括：

表格模板导入单元，用于基于文本行及路径的无边框表格识别算法获取文本页面中的表格结构，并对表格结构进行调整优化，并将优化后的表格结构导入表格模板文件中；

文本页面处理单元，用于遍历并切分文本页面，并确定表格结构中的单元格及单元格中的文本数据。

在一实施例中，内容块对象划分单元202包括：

内容块对象获取单元，用于获取文本页面中包含于单元格或与单元格重叠面积大于预设阈值的文本对象列表，并对文本对象列表进行排版，得到对应的内容块对象；

行对象列表获取单元，用于对单元格进行拆分获取字符对象，并依据字符对象对内容块对象按行划分，获得行对象列表。

在一实施例中，行对象合并单元203包括：

坐标轴确认单元，用于以文本页面的水平方向为X轴，垂直方向为Y轴，对行对象进行排序；

行对象排序单元，用于将行对象由上到下沿Y轴的反方向进行排序，将行对象由左到右沿X轴方向进行排序。

在一实施例中，对象关联单元204包括：

修改判断单元，用于判断表格结构是否修改；

表格结构更新单元，用于若表格结构已修改，则获取修改后的表格结构，并对表格结构的单元格及单元格中的文本数据进行更新。

在一实施例中，对象关联单元204之后包括：

文本数据导入单元，用于将文本数据导入至指定格式文本中，以生成新的文本页面。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上的一种文本表格提取方法。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上的一种文本表格提取方法。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种文本表格提取方法，其特征在于，包括：

2.根据权利要求1所述的文本表格提取方法，其特征在于，所述获取文本页面中的表格结构，并确定所述表格结构中的单元格，包括：

基于文本行及路径的无边框表格识别算法获取文本页面中的表格结构，并对所述表格结构进行调整优化，并将优化后的表格结构导入表格模板文件中；

遍历并切分所述文本页面，并确定所述表格结构中的单元格及所述单元格中的文本数据。

3.根据权利要求1所述的文本表格提取方法，其特征在于，所述获取所述单元格中包含有文本数据的内容块对象，并对所述内容块对象进行划分，获得行对象列表，包括：

获取所述文本页面中包含于所述单元格或与所述单元格重叠面积大于预设阈值的文本对象列表，并对所述文本对象列表进行排版，得到对应的内容块对象；

对所述单元格进行拆分获取字符对象，并依据所述字符对象对所述内容块对象按行划分，获得行对象列表。

4.根据权利要求1所述的文本表格提取方法，其特征在于，所述对所述行对象列表中的行对象进行Y轴排序，包括：

以文本页面的水平方向为X轴，垂直方向为Y轴，对所述行对象进行排序；

将所述行对象由上到下沿所述Y轴的反方向进行排序，将所述行对象由左到右沿X轴方向进行排序。

5.根据权利要求1所述的文本表格提取方法，其特征在于，所述关联所述内容块对象与合并后的行对象之后，包括：

判断所述表格结构是否修改；

若所述表格结构已修改，则获取修改后的表格结构，并对所述表格结构的单元格及所述单元格中的文本数据进行更新。

6.根据权利要求1所述的文本表格提取方法，其特征在于，所述关联所述内容块对象与合并后的行对象，并获取所述单元格中文本数据并进行提取之后，包括：

将所述文本数据导入至指定格式文本中，以生成新的文本页面。

7.根据权利要求1所述的文本表格提取方法，其特征在于，所述文本页面为PDF页面。

8.一种文本表格提取系统，其特征在于，包括：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的文本表格提取方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的文本表格提取方法。