CN116569159A

CN116569159A - 使用图神经网络自动描绘和提取可移植文档格式的表格数据

Info

Publication number: CN116569159A
Application number: CN202180081600.3A
Authority: CN
Inventors: 钟旭; A·J·吉梅诺·耶佩斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-12-03
Filing date: 2021-11-17
Publication date: 2023-08-08
Also published as: GB2616556A; US11599711B2; WO2022116827A1; JP2024502400A; US20220180044A1; GB202308890D0; DE112021006273T5

Abstract

公开了一种用于自动描绘和提取可移植文档格式(PDF)的表格数据的方法。该方法包括一个或多个处理器提取与基于文本的可移植文档格式(PDF)的表格数据相对应的元数据，其中元数据与表格数据的字符和边界线相关联。该方法还包括至少部分地基于元数据来生成与基于文本的PDF中的表格数据相对应的图结构。该方法还包括生成图结构的向量表示。该方法还包括至少部分地基于该向量表示来构建与该表格数据相对应的树结构。

Description

使用图神经网络自动描绘和提取可移植文档格式的表格数据

背景技术

本发明总体涉及机器学习领域，尤其涉及描绘和提取可移植文档格式的表格数据。

许多学习任务需要处理包含元素之间的丰富关系信息的图数据。图神经网络(GNNs)是连接模型，其经由在图的节点之间传递的消息来捕获图的依赖性。与标准神经网络不同，图神经网络保持可以表示来自其邻域的具有任意深度的信息的状态。虽然发现原始GNN难以针对固定点训练，但网络架构、优化技术和并行计算的最新进展已使得能够成功学习它们。近年来，基于诸如图卷积网络(GCN)、图注意力网络(GAT)、门控图神经网络(GGNN)之类的图神经网络的变体的系统已经证明了对上述许多任务的突破性的性能。

图注意力网络(GAP)，即对图结构化数据进行操作的新颖的神经网络架构，利用经掩码的自注意力层。其中节点能够在其邻域的特征上参与的层的堆叠使得能够(例如，隐含地)向邻域中的不同节点指定不同的权重，而不需要任何种类的昂贵的矩阵运算(例如，求逆)或不依赖于预先知道图结构。

对于平面中的离散点的给定集合“P”的德劳内(Delaunay)三角剖分(也称为德隆(Delone)三角剖分)是三角剖分DT(P)，使得“P”中的任何点都不在DT(P)中的任何三角形的外接圆内。在一般位置的离散点集合“P”的德劳内三角剖分对应于“P”的沃洛诺伊(Voronoi)图的对偶图。德劳内三角形的外心是沃洛诺伊图的顶点。在2D情况下，沃洛诺伊顶点经由边连接，该边可以从德劳内三角形的邻接关系导出。

发明内容

本发明的各方面公开了一种用于自动描绘和提取可移植文档格式(PDF)的表格数据的方法、计算机程序产品和系统。该方法包括一个或多个处理器提取与基于文本的可移植文档格式(PDF)的表格数据相对应的元数据，其中元数据与表格数据的字符和边界线相关联。该方法还包括一个或多个处理器至少部分地基于元数据来生成与基于文本的PDF中的表格数据相对应的图结构。该方法还包括一个或多个处理器生成图结构的向量表示。该方法还包括一个或多个处理器至少部分地基于向量表示来构建与表格数据相对应的树结构。

附图说明

图1是根据本发明的实施例的数据处理环境的功能框图。

图2是描述根据本发明实施例的在图1的数据处理环境内用于自动描绘和提取可移植文档格式(PDF)的表格数据的程序的操作步骤的流程图。

图3A是描述根据本发明实施例的基于文本的PDF文档的表的图示的图。

图3B是描述根据本发明实施例的基于文本的PDF文档的表的分解图图示的图。

图3C是描述根据本发明实施例的与基于文本的PDF文档的表相对应的树结构的图示的图。

图4是根据本发明的实施例的图1的组件的框图

具体实施方式

本发明的实施例允许自动描绘和提取可移植文档格式(PDF)的表格数据。本发明实施例将基于文本的PDF格式的表格数据转换为结构格式，该结构格式将表格数据的PDF文件格式化为图，其中每个字符被视作节点。本发明的实施例将所生成的图的节点编码成向量表示。本发明的其他实施例创建与来自一个或多个节点嵌入和邻接关系的表格数据相对应的树结构。本发明的其他实施例向所生成的树结构的叶子分配属性。

三万亿以上的文档可以以可移植文档格式(PDF)获得，并且这些文档可以包括多个表，这些表概括信息比以自然语言传达更有效。PDF文档准备好打印在屏幕或纸张上，但不是机器可读的。结果，已经努力使这些文档成为机器可读的，这将允许通过自然语言处理算法来进行自动处理。

本发明的一些实施例认识到，用于理解PDF文档的表的基于规则的方法受限于规则构造器的能力，不是可训练的，并且因此不能针对新的文档领域自动优化。另外，机器学习方法需要将PDF文档的表格区域转换成图像并利用计算机视觉模型进行分析，这面临着分辨率和图形处理单元(GPU)存储器的挑战，该存储器不利用PDF文档文件的有价值的元数据。本发明的各种实施例通过利用PDF文档的元数据来制定表格数据的图并编码图的节点和边，来补救这些挑战。此外，本发明的实施例利用所编码的图特征来重建表格数据的树结构，并确定树结构的叶子的属性。

本发明的各实施例认识到，计算系统在经由计算机视觉模型处理表格数据时会经历GPU存储器问题。本发明的各种实施例可操作以通过利用基于图神经网络(GNN)的解决方案来将基于文本的PDF格式的表格数据转换成使用与该表格数据相对应的元数据的结构格式来提高计算系统的效率。结果，通过消除与将PDF文件的表格数据转换成图像以及从转换后的图像中提取信息相关联的GPU存储器问题，减少了所使用的处理资源的数量。

本发明的实施例的实现可以采取各种形式，并且随后参考附图讨论示例性实现细节。

现在将参照附图详细描述本发明。图1是示出根据本发明一个实施例的分布式数据处理环境的功能框图，通常指定为100。图1仅提供了一种实现的图示，并且不暗示对其中可实现不同实施例的环境的任何限制。本领域技术人员可以对所描述的环境进行多种修改，而不偏离权利要求所陈述的本发明的范围。

本发明可以包括各种可访问的数据源，诸如数据库144，其可以包括个人数据、内容或用户希望不被处理的信息。个人数据包括个人标识信息或敏感的个人信息以及用户信息，诸如跟踪或地理位置信息。处理是指任何自动化或非自动化的操作或操作集合，例如收集、记录、组织、结构化、存储、适配、更改、检索、咨询、使用、通过传输、分发的公开，或以其他方式使得对个人数据执行的组合、限制、擦除或破坏可用。表程序200使得个人数据能够经授权并且安全地处理。表程序200提供知情同意，通知个人数据的收集，允许用户选择处理个人数据或选择退出处理个人数据。同意可以采取多种形式。选择性加入同意可以强制用户在处理个人数据之前采取肯定动作。或者，选择性退出同意可强制用户采取肯定动作以防止在处理个人数据之前处理个人数据。表程序200提供关于个人数据和处理的性质(例如，类型、范围、目的、持续时间等)的信息。表程序200向用户提供所存储的个人数据的副本。表程序200允许纠正或完成不正确或不完整的个人数据。表程序200允许立即删除个人数据。

分布式数据处理环境100包括服务器140和客户端设备120，它们都通过网络110互连。网络110可以是例如电信网络、局域网(LAN)、城域网(MAN)、诸如互联网的广域网(WAN)或这三者的组合，并且可以包括有线、无线或光纤连接。网络110可以包括一个或多个能够接收和发送数据、语音和/或视频信号的有线和/或无线网络，该信号包括多媒体信号，该多媒体信号包括语音、数据和视频信息。通常，网络110可以是支持服务器140和客户端设备120以及分布式数据处理环境100内的其他计算设备(未示出)之间的通信的连接和协议的任何组合。

客户端设备120可以是膝上型计算机、平板计算机、智能电话、智能手表、智能扬声器、虚拟助理或能够经由网络110与分布式数据处理环境100内的各种组件和设备通信的任何可编程电子设备中的一个或多个。通常，客户端设备120表示能够执行机器可读程序指令并经由诸如网络110的网络与分布式数据处理环境100内的其他计算设备(未示出)通信的一个或多个可编程电子设备或可编程电子设备的组合。根据本发明的实施例，客户端设备120可包括关于图4进一步详细描绘和描述的组件。

客户端设备120包括用户界面122和应用124。在本发明的各种实施例中，用户界面是提供设备的用户和驻留在客户端设备上的多个应用之间的界面的程序。诸如用户界面122的用户界面涉及程序表示给用户的信息(诸如图形、文本和声音)，以及用户用来控制程序的控制序列。存在各种类型的用户界面。在一个实施例中，用户界面122是图形用户界面。图形用户界面(GUI)是一种用户界面，其允许用户通过图形图标和视觉指示符(诸如辅助符号)与电子设备(诸如计算机键盘和鼠标)交互，这与基于文本的界面、键入的命令标签或文本导航相反。在计算中，GUI是作为对需要在键盘上键入命令的命令行界面的感知的陡峭学习曲线的反应而引入的。GUI中的动作通常通过直接操纵图形元素来执行。在另一实施例中，用户界面122是脚本或应用编程接口(API)。

应用124是设计成在客户端设备120上运行的计算机程序。应用经常用于向用户提供在个人计算机上访问的类似服务(例如，web浏览器、播放音乐、电子邮件程序或其他媒体等)。在一个实施例中，应用124是移动应用软件。例如，移动应用软件或“app”是被设计成在智能电话、平板计算机和其他移动设备上运行的计算机程序。在另一实施例中，应用124是web用户界面(WUI)，并且可以显示文本、文档、web浏览器窗口、用户选项、应用界面和操作指令，并且包括程序表示给用户的信息(诸如图、文本和声音)以及用户用来控制程序的控制序列。在另一实施例中，应用124是表程序200的客户端侧应用。

在本发明的各种实施例中，服务器140可以是台式计算机、计算机服务器或本领域已知的任何其他计算机系统。通常，服务器140表示能够执行计算机可读程序指令的任何电子设备或电子设备的组合。根据本发明的实施例，服务器140可以包括关于图4进一步详细描绘和描述的组件。

服务器140可以是独立的计算设备、管理服务器、web服务器、移动计算设备、或能够接收、发送和处理数据的任何其他电子设备或计算系统。在一个实施例中，服务器140可以表示利用多个计算机作为服务器系统的服务器计算系统，诸如在云计算环境中。在另一实施例中，服务器140可以是膝上型计算机、平板计算机、上网本计算机、个人计算机(PC)、台式计算机、个人数字助理(PDA)、智能电话或能够经由网络110与分布式数据处理环境100内的客户端设备120和其他计算设备(未示出)通信的任何可编程电子设备。在另一个实施例中，服务器140表示利用集群计算机和组件(例如，数据库服务器计算机、应用服务器计算机等)的计算系统，当在分布式数据处理环境100内访问时，集群计算机和组件充当单个无缝资源池。

服务器140包括存储设备142、数据库144和表程序200。存储设备142可以用任何类型的存储设备来实现，例如，能够存储可以由客户端设备120和服务器140访问和利用的数据的持久性存储设备405，诸如数据库服务器、硬盘驱动器或闪存。在一个实施例中，存储设备142可以表示服务器140内的多个存储设备。在本发明的各种实施例中，存储设备142存储可以包括数据库144的多种类型的数据。数据库144可以表示从服务器140存储和访问的一个或多个有组织的数据集合。例如，数据库144包括PDF文件、PDF文件的元数据、表格数据等。在一个实施例中，数据处理环境100可以包括附加服务器(未示出)，其托管可经由网络110访问的附加信息。

通常，表程序200可以将基于文本的PDF格式的表格数据转换为结构格式，同时避免使用启发法来解析PDF数据(例如，词、行、文本框等)，这使得能够进行端到端的训练和处理。在一个实施例中，表程序200生成数据库144的文档的表的树结构。例如，表程序200使用PDF信息(例如，PDF的表的元数据)和德劳内三角剖分来生成PDF文档的表的图。在该示例中，表程序200利用机器学习算法(例如，注意力GNN)将图的节点和边编码到特征空间中。表程序200利用图的编码特征来重建表的树结构，其中表程序200预测树操作的序列。另外，表程序200预测树结构的叶子(例如，表单元)的属性。结果，将PDF数据建模为图并使用机器学习算法从图中导出洞察力允许利用PDF信息。表程序200的机器学习算法可以包括顺序的树构造器模型和单元构造器模型，其可以利用状态信息节点，该状态信息节点允许在进行预测时考虑状态历史。

图2是描述根据本发明实施例的表程序200的操作步骤的流程图，该程序是将基于文本的PDF格式的表格数据转换成结构格式的程序。在一个实施例中，响应于用户通过网络110将客户端设备120连接到表程序200，表程序200启动。例如，响应于用户经由WLAN(例如，网络110)向桌面程序200注册(例如，选择进入)膝上型计算机(例如，客户端设备120)而启动桌面程序200。在另一实施例中，表程序200是连续监测客户端设备120的后台应用。例如，表程序200是客户端侧应用(例如，应用124)，其在用户的膝上型计算机(例如，客户端设备120)引导时启动，并且监测膝上型计算机以检测用户访问包括表格数据(例如，表)的PDF文件。

在步骤202中，表程序200提取文档的表的元数据。在一个实施例中，表程序200提取与数据库144的PDF文档的表格数据相对应的元数据。例如，表程序200从基于文本的PDF文档中提取对应于表(例如，表格数据)的信息(例如，元数据)。在该示例中，表程序200标识包括字符的位置和字体信息以及表的行的位置的信息。另外，表程序200可以利用PDF解析来提取基于文本的PDF文档的元数据，这排除了用户试探法来解析基于文本的PDF文档。

图3A描述了表310，其是根据本发明的示例性实施例的表程序200转换的基于文本的PDF文档的表的实例的示例性说明。表310包括行312、行314、行316、头部313和主体315。行312、行314和行316(以下称为行)是表310的边界。头部313对应于行312和行314之间的表格数据表310的行，用来标记主体315的每一列。主体315是表310的主要部分，其包含关于行和列说明文字被分类的数字信息。在关于图3A的示例实施例中，表程序200利用来自客户端设备120的接收表310，并将表310存储在数据库144中。

图3B描述了根据本发明的示例性实施例的处理的表320，其是在表程序200已经启动元数据的提取之后的表310的分解图的示例性图示。表320包括行312、行314和边界框322。边界框322是指示在元数据提取期间标识的字符的边界框。在关于图3B的示例实施例中，表程序200包括边界框322的一个或多个实例，其对应于如图3B所示的图3A的表310的每个字符。在该示例实施例中，表程序200收集表310的边界框322的每个实例的字体和位置信息以及表310的(多个)行的位置信息。

在步骤204中，表程序200生成与该表相对应的图。在一个实施例中，表程序200生成与数据库144的PDF文档的表格数据相对应的图。例如，表程序200利用三角剖分技术(例如，德劳内三角剖分)和基于文本的PDF文档的表(例如，表格数据)的每个字符的位置信息(例如，元数据)来生成对应于该表的字符的图结构。在该示例中，表程序200计算“P”个离散点(例如，表的每个字符)集合的德劳内三角剖分“DT”(“DT(P)”)，使得该集合“P”中没有点在DT(P)中的任何三角形的外接圆内。在一般位置的离散点集合“P”的德劳内三角剖分对应于沃洛诺伊图的“P”的对偶图，其中德劳内三角形的外心是沃洛诺伊图的顶点“V”，并且在二维(2D)情况下，沃洛诺伊顶点“V”经由边“E”连接，边“E”可以从德劳内三角形的邻接关系导出。另外，表程序200利用顶点“V”和边“E”(例如，Graph(V，E))生成对应于表的图结构，顶点“V”和边“E”表示表的每个字符的位置和邻接关系。现在参考图3B，在示例实施例中，表程序200利用边界框322的一个或多个实例作为外心(例如，顶点“V”)德劳内三角形，以基于边界框322的一个或多个实例的邻接关系生成作为表320的字符的外心的图结构。

在步骤206中，表程序200嵌入图的节点和边。在一个实施例中，表程序200利用机器学习算法来生成所生成的图的向量表示。例如，表程序200利用注意力图神经网络(例如，机器学习算法)来将所生成的图结构(例如，Graph(V，E))的节点和边编码到特征空间中。在该示例中，表程序200生成与所生成的图结构的相应集合的每个节点“V”(例如，字符)和每个边“E”相对应的特征向量集合。另外，表程序200利用表的元数据和“DT”的信息来生成对应于节点集合“V”中的节点的特征向量集合，该特征向量集合可以包括诸如字符、位置信息(例如，边界框)、字体特征(例如，粗体、斜体等)等特征。

在另一个实施例中，表程序200训练机器学习算法以构建对应于数据库144的PDF文档的表格数据的所生成的图的树结构。例如，表程序200训练机器学习算法(例如，注意力图神经网络、图神经网络等)以利用节点嵌入和节点嵌入的邻接关系来创建表(例如，表格数据)的树表示(例如，树结构)。在该示例中，机器学习算法可以包括表程序200顺序配置的两个或更多个模型(例如，树构造器网络、树构造器模型、单元构造器模型等)，这允许第一模型(例如，单元构造器模型)可以利用第二模型(例如，树构造器模型节点)的状态信息来预测树表示的单元(例如，叶子)的内容(即，联合训练树构造器模型和单元构造器模型来重建PDF文档的表格数据的结构化表示)。

另外，表程序200可用动作的序列丢失来训练树构造器模型，其中动作包括在构建树表示中的诸如插入头部、插入主体、插入行、插入单元、转到父、结束等任务。此外，表程序200可用动作的序列丢失、单元内容丢失的序列、以及列/行跨度回归丢失的加权和来训练单元构造器模型以分配单元属性，该单元属性可包括对应于列跨度的量的值、对应于行跨度的量的值、以及单元的内容。此外，机器学习算法表200训练可以包括与两个或更多个模型相关的两个或更多个注意力机制，其中注意力机制使神经网络(例如，机器学习算法)配备有聚焦于神经网络的输入(例如，特征)的子集的能力。

在步骤208中，表程序200重建表的树结构。在一个实施例中，表程序200生成与数据库144的PDF文档的表格数据的生成图相对应的树结构。例如，表程序200构建PDF文档的表格数据(例如，表)的树结构表示(例如，树表示)。在该示例中，表程序200利用机器学习算法(例如，树构造器模型、神经网络、AGNN等)的输出来确定动作(例如，插入头部、插入主体、插入行、插入单元等)以在构建树结构表示时进行选择。另外，表程序200利用所生成的图(例如，Graph[V，E])的邻接关系(例如，边)来确定父节点和子节点之间的树结构表示的分支分配。

图3C描述了根据本发明的示例实施例的结构330，其是表程序200转换为树结构的基于文本的PDF文档的表格的实例的示例图示。结构330包括表节点331、头部节点332、主体节点333、行节点334的多个实例、单元节点335的多个实例和分支336的多个实例。表节点331是对应于图3A的表310的根节点。头部节点332是对应于图3A的头部313的父节点。行节点334是对应于表310的表格数据(例如，行)的子节点，其可以包括叶子的一个或多个实例(例如，单元节点335)。单元节点335是可以包括图3A的表310的内容(例如，字符、值等)的叶子节点。分支336是结构330的元素，其指示节点之间的邻接关系。另外，结构330包括多个省略号，其指示树结构的一个或多个元素(例如，节点、行、单元等)缺失(即，未被表示但被包括)。在关于图3A的示例实施例中，表程序200利用机器学习算法来选择动作以结构330的形式(即，形成树结构)重建表310。

在步骤210中，表程序200向树结构分配属性。在一个实施例中，表程序200向所生成的树结构分配属性，该树结构对应于数据库144的PDF文档的表格数据。例如，表程序200确定PDF文档的表格数据(例如，表格)的树结构表示(例如，树表示)的一个或多个叶子(例如，单元)的单元属性。在该示例中，表程序200利用机器学习算法(例如，单元构造器模型、神经网络、AGNN等)的输出来确定在填充树结构表示的叶子时要分配的属性(例如，列跨度、行跨度、内容等)。

参考图3C，在示例实施例中，表程序200利用机器学习算法来限定单元节点335的属性。在该示例中，表程序200基于机器学习算法的输出来分配对应于单元属性(例如，列跨度、行跨度、内容等)的字符和/或整数值。另外，列跨度是图3B的一个或多个节点的集合的内容所包含的图3B的经处理的表320的列的数目。行跨度是图3B的一个或多个节点的集合的内容所包含的图3B的经处理的表320的行数。内容是数据库144的PDF文档的表格数据的字符/值(例如，处理的表320的一个或多个节点)的集合。在一种情况下，如果内容是包括图3B的“Mean”的节点的集合，则表程序200将如下为单元节点335分配单元属性：列跨度：(1)；行跨度：(1)；内容：“Mean”。

图4描述了根据本发明的说明性实施例的客户端设备120和服务器140的组件的框图。应当理解，图4仅提供了一种实现的说明，而不暗示对其中可实现不同实施例的环境的任何限制。可以对所描述的环境进行许多修改。

图4包括处理器401、高速缓存403、存储器402、持久性存储405、通信单元407、(多个)输入/输出(I/O)接口406和通信结构404。通信结构404提供高速缓存403、存储器402、持久性存储405、通信单元407和输入/输出(I/O)接口406之间的通信。通信结构404可以用被设计用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其他硬件组件之间传递数据和/或控制信息的任何架构来实现。例如，通信结构404可以用一个或多个总线或纵横开关来实现。

存储器402和持久性存储405是计算机可读存储介质。在该实施例中，存储器402包括随机存取存储器(RAM)。通常，存储器402可以包括任何合适的易失性或非易失性计算机可读存储介质。高速缓存403是通过保存来自存储器402的最近访问的数据和最近访问的数据附近的数据来增强处理器401的性能的快速存储器。

用于实践本发明的实施例的程序指令和数据(例如，软件和数据410)可以存储在持久性存储405和存储器402中，以便由一个或多个相应的处理器401经由高速缓存403来执行。在一个实施例中，持久性存储405包括磁硬盘驱动器。作为磁硬盘驱动器的替代或补充，持久性存储405可包括固态硬盘驱动器、半导体存储设备、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存或能够存储程序指令或数字信息的任何其他计算机可读存储介质。

持久性存储405所使用的介质也可以是可移动的。例如，可移动硬盘驱动器可以用于持久性存储装置405。其他示例包括光盘和磁盘、拇指驱动器和智能卡，它们被插入到驱动器中以便传送到也是持久存储405的一部分的另一计算机可读存储介质上。软件和数据410可以存储在持久性存储405中，以便由一个或多个相应的处理器401经由高速缓存403访问和/或执行。关于客户端设备120，软件和数据410包括用户界面122和应用124的数据。关于服务器140，软件和数据410包括存储设备142和表程序200的数据。

在这些例子中，通信单元407提供与其他数据处理系统或设备的通信。在这些示例中，通信单元407包括一个或多个网络接口卡。通信单元407可以通过使用物理和无线通信链路中的一种或两种来提供通信。用于实施本发明的实施例的程序指令和数据(例如，软件和数据410)可以通过通信单元407下载到持久性存储器405。

I/O接口406允许与可连接到每个计算机系统的其他设备输入和输出数据。例如，I/O接口406可以提供到外部设备408的连接，所述外部设备诸如键盘、小键盘、触摸屏和/或一些其他合适的输入设备。外部设备408还可以包括便携式计算机可读存储介质，诸如，例如，拇指驱动器、便携式光盘或磁盘、以及存储卡。用于实践本发明的实施例的程序指令和数据(例如，软件和数据410)可以存储在这样的便携式计算机可读存储介质上，并且可以经由I/O接口406加载到持久性存储装置405上。(一个或多个)I/O接口406还连接到显示器409。

显示器409提供向用户显示数据的机制，并且可以是例如计算机监视器。

这里描述的程序是基于在本发明的特定实施例中实现它们的应用来标识的。然而，应当理解，这里的任何特定程序术语仅是为了方便而使用，因此本发明不应当限于仅在由这样的术语标识和/或暗示的任何特定应用中使用。

本发明可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，所述计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络，例如互联网、局域网、广域网和/或无线网络，下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据，或者以一种或多种编程语言(包括面向对象的编程语言，例如Smalltalk、C++等)和过程编程语言(例如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所注明的功能可不按图中所注明的次序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。

已经出于说明的目的给出了本发明的各种实施例的描述，但是其不旨在是穷尽的或限于所公开的实施例。在不背离本发明范围的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。选择本文所使用的术语是为了最好地解释实施例的原理、实际应用或对市场上存在的技术改进，或为了使本领域的其他普通技术人员能够理解本文所公开的实施例。

Claims

1.一种方法，包括：

由一个或多个处理器提取与基于文本的可移植文档格式(PDF)中的表格数据相对应的元数据，其中所述元数据与所述表格数据的字符和边界线相关联；

由一个或多个处理器至少部分地基于所述元数据来生成与所述基于文本的PDF中的所述表格数据相对应的图结构；

由一个或多个处理器生成所述图结构的向量表示；以及

由一个或多个处理器至少部分地基于所述向量表示来构建与所述表格数据相对应的树结构。

2.根据权利要求1所述的方法，还包括：

由一个或多个处理器至少部分地基于所述基于文本的PDF中的所述表格数据来向所述树结构的一个或多个叶子分配属性。

3.根据权利要求1所述的方法，其中提取与所述基于文本的PDF中的所述表格数据相对应的所述元数据还包括：

由一个或多个处理器标识与所述基于文本的PDF中的所述表格数据的每个字符相对应的字符信息，其中所述字符信息包括所述基于文本的PDF中的所述表格数据的每个字符的位置；以及

由一个或多个处理器标识与所述基于文本的PDF中的所述表格数据的每个边界线相对应的边界信息，其中所述边界信息包括所述基于文本的PDF中的所述表格数据的每个边界线的位置。

4.根据权利要求1所述的方法，其中生成与所述基于文本的PDF中的所述表格数据相对应的所述图结构还包括：

由一个或多个处理器至少部分地基于所述元数据的字符位置信息来生成与所述基于文本的PDF中的所述表格数据的每个字符相对应的节点；

由一个或多个处理器至少部分地基于三角剖分技术来标识与相应节点集合相关的多个顶点，其中所述节点集合中的每个所生成的节点与所述表格数据的字符相对应；以及

由一个或多个处理器确定与所述多个顶点相关的多个边，其中所述多个边表示所述相应节点集合之间的邻接关系。

5.根据权利要求1所述的方法，其中生成所述图结构的所述向量表示还包括：

由一个或多个处理器至少部分地基于与所述表格数据相对应的所述元数据来生成与所述图结构的节点集合中的节点相对应的第一特征向量集合，其中所述节点与所述表格数据的字符相对应；

由一个或多个处理器至少部分地基于与所述表格数据相对应的所述元数据来生成与所述图结构的边集合中的边相对应的第二特征向量集合；以及

由一个或多个处理器利用机器学习算法来将所述图结构的所述节点集合和所述边集合编码到特征空间中，其中所述机器学习算法是注意力图神经网络。

6.根据权利要求5所述的方法，还包括：

由一个或多个处理器基于所述图结构的所述向量表示的多个节点和多个顶点来创建一个或多个训练集；

由一个或多个处理器基于所述图结构的所述向量表示的多个节点和多个顶点来创建一个或多个测试集；以及

由一个或多个处理器利用一个或多个有监督训练方法来训练所述机器学习算法，其中所述机器学习算法包括树构造器模型和单元构造器模型。

7.根据权利要求1所述的方法，其中至少部分地基于所述向量表示来构建与所述表格数据相对应的所述树结构还包括：

由一个或多个处理器选择配置所述树结构的父节点和子节点的动作，其中所述动作与所述表格数据的元素相对应；以及

由一个或多个处理器确定所述树结构的所配置的所述父节点和所述子节点之间的分支分配。

8.一种计算机程序产品，包括：

一个或多个计算机可读存储介质和被存储在所述一个或多个计算机可读存储介质上的程序指令，所述程序指令包括：

用以提取与基于文本的可移植文档格式(PDF)的表格数据相对应的元数据的程序指令，其中所述元数据与所述表格数据的字符和边界线相关联；

用以至少部分地基于所述元数据来生成与所述基于文本的PDF中的所述表格数据相对应的图结构的程序指令；

用以生成所述图结构的向量表示的程序指令；以及

用以至少部分地基于所述向量表示来构建与所述表格数据相对应的树结构的程序指令。

9.根据权利要求8所述的计算机程序产品，还包括被存储在所述一个或多个计算机可读存储介质上的程序指令，用以：

至少部分地基于所述基于文本的PDF中的所述表格数据来向所述树结构的一个或多个叶子分配属性。

10.根据权利要求8所述的计算机程序产品，其中用以提取与所述基于文本的PDF中的所述表格数据相对应的元数据的程序指令还包括用以以下操作的程序指令：

标识与所述基于文本的PDF中的所述表格数据的每个字符相对应的字符信息，其中所述字符信息包括所述基于文本的PDF中的所述表格数据的每个字符的位置；以及

标识与所述基于文本的PDF中的所述表格数据的每个边界线相对应的边界信息，其中所述边界信息包括所述基于文本的PDF中的所述表格数据的每个边界线的位置。

11.根据权利要求8所述的计算机程序产品，其中用以生成与所述基于文本的PDF中的所述表格数据相对应的所述图结构的程序指令还包括用以以下操作的程序指令：

至少部分地基于所述元数据的字符位置信息来生成与所述基于文本的PDF中的所述表格数据的每个字符相对应的节点；

至少部分地基于三角剖分技术来标识与相应节点集合相关的多个顶点，其中所述节点集合中的每个所生成的节点与所述表格数据的字符相对应；以及

确定与所述多个顶点相关的多个边，其中所述多个边表示所述相应节点集合之间的邻接关系。

12.根据权利要求8所述的计算机程序产品，其中用以生成所述图结构的所述向量表示的程序指令还包括用以以下操作的程序指令：

至少部分地基于与所述表格数据相对应的所述元数据来生成与所述图结构的节点集合中的节点相对应的第一特征向量集合，其中所述节点与所述表格数据的字符相对应；

至少部分地基于与所述表格数据相对应的所述元数据来生成与所述图结构的边集合中的边相对应的第二特征向量集合；以及

利用机器学习算法来将所述图结构的所述节点集合和所述边集合编码到特征空间中，其中所述机器学习算法是注意力图神经网络。

13.根据权利要求12所述的计算机程序产品，还包括被存储在所述一个或多个计算机可读存储介质上的程序指令，用以：

基于所述图结构的所述向量表示的多个节点和多个顶点来创建一个或多个训练集；

基于所述图结构的所述向量表示的多个节点和多个顶点来创建一个或多个测试集；以及

利用一个或多个有监督训练方法来训练所述机器学习算法，其中所述机器学习算法包括树构造器模型和单元构造器模型。

14.根据权利要求8所述的计算机程序产品，其中用以至少部分地基于所述向量表示来构建与所述表格数据相对应的所述树结构的程序指令还包括用以以下操作的程序指令：

选择配置所述树结构的父节点和子节点的动作，其中所述动作与所述表格数据的元素相对应；以及

确定所述树结构的所配置的父节点和子节点之间的分支分配。

15.一种计算机系统，包括：

一个或多个计算机处理器；

一个或多个计算机可读存储介质；以及

被存储在所述计算机可读存储介质上以用于由所述一个或多个处理器中的至少一个处理器执行的程序指令，所述程序指令包括：

用以生成所述图结构的向量表示的程序指令；以及

16.根据权利要求15所述的计算机系统，还包括被存储在所述一个或多个计算机可读存储介质上以用于由所述一个或多个处理器中的至少一个处理器执行的程序指令，用以：

17.根据权利要求15所述的计算机系统，其中用以提取与所述基于文本的PDF中的所述表格数据相对应的所述元数据的程序指令还包括用以以下操作的程序指令：

18.根据权利要求15所述的计算机系统，其中用以生成与所述基于文本的PDF中的所述表格数据相对应的所述图结构的程序指令还包括用以以下操作的程序指令：

19.根据权利要求15所述的计算机系统，其中用以生成所述图结构的所述向量表示的程序指令还包括用以以下操作的程序指令：

20.根据权利要求19所述的计算机系统，还包括被存储在所述一个或多个计算机可读存储介质上以用于由所述一个或多个处理器中的至少一个处理器执行的程序指令，用以：