CN110751038A

CN110751038A - 一种基于图注意力机制的pdf表格结构识别方法

Info

Publication number: CN110751038A
Application number: CN201910875019.3A
Authority: CN
Inventors: 毛先领; 迟泽闻; 徐恒达
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology; Beijing Institute of Technology BIT
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2020-02-04

Abstract

本发明涉及一种基于图注意力机制的PDF表格结构识别方法，属于数据挖掘技术中的文档分析技术领域；包括以下步骤：一、预处理：获取表格中的所有单元格以及它们的位置坐标；二、图构建：对得到的单元格建立无向图；三、关系预测：通过对构建的无向图上的边进行分类，使用神经网络模型预测出单元格之间的邻接关系。对比现有技术，本发明首次提出解决PDF中复杂表格结构的识别方法，在两个表格结构识别数据集上都取得了最好的效果，尤其在复杂表格结构识别上，效果有明显的提高。

Description

一种基于图注意力机制的PDF表格结构识别方法

技术领域

本发明涉及一种表格结构识别方法，具体涉及基于图注意力机制的PDF表格结构识别技术，属于数据挖掘技术中的文档分析技术领域。

背景技术

表格结构识别，是识别表格的内部结构的任务，它是让机器能够理解表格的一个重要步骤。识别出的机器可理解的表格有非常多的应用，如问答系统、对话系统、表格生成文本。

如今，在诸如文本、HTML和图片等格式上进行表格结构识别都有相关研究。作为一种流行并广泛使用的文件格式，PDF上进行表格结构识别也引起了广泛关注。现有方法可以分为基于规则的方法和数据驱动的方法。基于规则的方法主要通过人工设定一些规则来确定表格结构。例如，通过文本的垂直重合长度，来确定是否在同一列。数据驱动的方法则利用深度学习的技术来处理这一任务。现有的数据驱动方法有两个，一个是利用图像语义分割技术将表格图片分割为若干行和列作为识别出的表格结构。另一个方法是使用图像描述技术，通过训练一个图片到序列的模型，将输入的表格图片编码为中间表示，然后解码为一个标记符号序列，这个标记符号序列就描述了表格的结构。

然而，现有方法都难以准确识别出PDF文件中的复杂表格的结构。复杂表格在这里指至少有一个跨行或跨列单元格的表格。这种跨行、跨列单元格虽然在复杂表格中只占有很小的比例，但是这些单元格更倾向于成为表头，而理解表头对理解整个表格是至关重要的。因此复杂表格的结构识别是一个需要解决的重要问题。

发明内容

本发明的目的是为了解决现有方法难以准确识别出PDF格式的复杂表格的结构问题，为了提高复杂表格上的结构识别的准确率和召回率，提出了一种基于图注意力机制的PDF表格结构识别方法。本方法将PDF格式的表格作为输入，最终识别出表格中单元格之间的邻接关系，作为表格结构识别的结果。

为实现上述目的，本发明所采用的技术方案如下：

一种基于图注意力机制的PDF表格结构关系识别方法，包括以下步骤：

一、预处理：获取表格中的所有单元格以及它们的位置坐标；

二、图构建：对得到的单元格建立无向图；

三、关系预测：通过对构建的无向图上的边进行分类，使用神经网络模型预测出单元格之间的邻接关系。

作为优选，所述获取表格中的所有单元格及其位置坐标为根据PDF的存储格式，抽取出文档中所有的文本字符，并将所有距离小于阈值d的字符组成一个单元格，记录下每个单元格的位置坐标。

作为优选，所述对获取的所述单元格建立无向图为采用K近邻的方法对所述单元格建立无向图。

作为优选，所述分类为垂直相邻、水平相邻、不相邻。

作为优选，所述神经网络模型为基于图注意力机制的边分类模型。

作为优选，所述基于图注意力机制的边分类模型由两个处理点特征和边特征的线性层、2N个图注意力构件、最后的线性层和Softmax层组成，其中，2N个图注意力构件包括N个点到边注意力构件和N个边到点注意力构件，点到边注意力构件负责将点的特征信息融入到边的特征中，边到点注意力构件负责将边的特征信息融入到点的特征中，点到边注意力构件和边到点注意力构件内部结构完全相同；输入的点特征矩阵与边特征矩阵分别输入两个线性层后的输出均与第一层点到边注意力构件和边到点注意力构件相连，每一层点到边注意力构件和边到点注意力构件都与下一层点到边注意力构件和边到点注意力构件相连，最后一层的点到边注意力构件与最后的线性层相连，最后的线性层与Softmax 层相连，输入的点和边的邻接关系矩阵B分别与每一层的点到边注意力构件和边到点注意力构件相连。

作为优选，所述图注意力构件由线性层、图注意力层、Add&Norm层、前馈神经网络层和Add&Norm层依次连接而成，输入的边特征矩阵H_E经过线性变换后，得到“查询”特征矩阵Q，点特征矩阵H_V分别经过两个线性层后，得到“键”特征矩阵K和“值”特征矩阵V，Q、K、V和输入的点和边的邻接关系矩阵B在图注意力层使用下述公式进行计算得到H′_E：

其中，K^T表示K矩阵的转置，d表示特征的维度，softmax_B表示以邻接矩阵B为掩码的softmax操作，即只对B矩阵中值为1的位置计算，忽略掉B矩阵中值为0的位置；

将H′_E依次经过一个Add&Norm层、一个前馈神经网络和另一个的 Add&Norm层后，得到最终的边特征隐表示

各层的计算公式如下：

H_E″＝Add&Norm(H_E,H_E′)＝LayerNorm(H_E+H_E′) H″′_E＝FFN(H″_E)

其中，LayerNorm是层标准化(Layer Normalization)运算；FFN(x)＝ W₂ max(0,W₁x+b₁)+b₂,W₁,W₂,b₁,b₂是可学习的参数。

有益效果

本发明方法，对比现有技术，首次提出解决PDF中复杂表格结构的识别方法，在两个表格结构识别数据集上都取得了最好的效果，尤其在复杂表格结构识别上，效果有明显的提高。

附图说明

图1为本发明实施例一种基于图注意力机制的PDF表格结构关系识别方法流程示意图；

图2为本发明的基于图注意力机制的边分类模型结构示意图；

图3为图注意力构件结构示意图。

具体实施方式

下面结合附图和实施例，对本发明方法作进一步详细说明。

实施例1

如图1所示，一种基于图注意力机制的PDF表格结构关系识别方法，包括以下步骤：

步骤一、预处理：获取表格中的所有单元格以及它们的位置坐标。

步骤1：根据PDF的存储格式，抽取出文档中所有的文本字符，所有距离小于阈值d的字符组成一个单元格，记录下每个单元格的位置坐标和大小。设共得到n个单元格，我们将这n个单元格记为w₁,w₂,…,w_n。如图1(步骤一)所示。

步骤二、图构建：对得到的单元格建立无向图。

步骤2：使用K近邻的方法，对得到的单元格建立无向图。如图1(步骤二) 所示。

步骤2.1：将每个单元格作为图中的一个节点，节点在图1的右上图中用圆圈表示。

步骤2.2：对于每个节点，计算它到其它节点之间的欧式距离，找到与它距离最近的K个点，将这个点与这K个点用边连接，记得到的边的总数为m，这样就将整个表格转换为了一个n个点m条边无向图。

步骤三、关系预测：通过对构建的无向图上的边进行分类，使用神经网络模型预测出单元格之间的邻接关系。

步骤3：首先提取出每个单元格(节点)以及每条边的特征信息，然后将这些特征输入我们提出的基于图注意力机制的边分类模型，模型将每个边分类为三种邻接关系中的一种，分别是：垂直相邻、水平相邻、不相邻，这样就得到了单元格之间的邻接关系，也就是识别出了表格的结构信息。如图1(步骤三) 所示，右下图中去掉了被标记为不相邻的边，用不同线型标记了垂直相邻的边和水平相邻的边。

步骤3.1：提取每个单元格和每条边的特征信息。

根据无向图中点的空间位置关系，提取点和边上的特征。记点特征的维度为d_v，边特征的维度为d_e，将每个点的特征向量作为点特征矩阵中的一行，得到点特征矩阵为

将每条边的特征向量作为边特征矩阵中一行，得到边特征矩阵

用一个B∈{0,1}^n×m记录点和边的邻接关系，矩阵中只有0和1两种值，矩阵的每一行表示一个节点，每一列表示一条边，如果节点i与节点j之间有边相连，边的编号为k，那么有B_ik＝1，B_jk＝1。下面具体介绍节点和边的特征。

点特征有三种，分别是单元格的大小，位置，相对于表格大小的相对位置。边特征包括边的长度，水平方向长度和竖直方向长度，每个长度都包括实际的长度和相对于表格大小的相对长度。

例如，假设单元格w_i在PDF文档中的坐标为

其中

表示单元格左上顶点的坐标，

表示文字块右下顶点的坐标。又设单元格w_j在PDF文档中的坐标为表格宽度为W＝20，高度为H＝10，那么单元格w_i和连接单元格w_i和w_j的边的特征如下表所示。

表1单元格特征举例

表2边特征举例

步骤3.2：将上一步得到的点特征矩阵N，边特征矩阵E作为输入，通过基于图注意力机制的边分类模型将所有边进行分类。邻接矩阵B的作用是记录无向图的结构信息，也就是图中节点和边之间的连接关系。在模型内部的计算中使用到矩阵B，其值在整个计算过程中不发生改变。

本发明提出的基于图注意力机制的边分类模型，如图2所示，由两个处理点特征和边特征的线性层、2N个图注意力构件，和最后的线性层和Softmax层组成。2N个图注意力构件包括N个点到边注意力构件和N个边到点注意力构件，点到边注意力构件负责将点的特征信息融入到边的特征中，边到点注意力构件负责将边的特征信息融入到点的特征中。这两种构件的内部结构完全相同，图注意力构件的内部结构在下文中详细介绍。

点特征向量的维度d_v和边特征向量的维度d_e可能并不相等，因此首先将点特征矩阵N和边特征矩阵E分别经过线性层处理，将它们的特征向量映射到相同的维度d，从而得到新的点特征矩阵

和边特征矩阵

其中

将上一层的点特征矩阵

和边特征矩阵

依次通过每一层的点到边注意力构件和边到点注意力构件，得到当前层的特征矩阵

和

最后，将最后一层的边特征矩阵

经过线性层和softmax计算后，得到每条边的类别，也就是将每条边分类为水平邻接边、垂直邻接边和不邻接边三类，完成表格结构识别。

下面具体介绍图注意力构件的内部细节，因为两种构件内部结构完全相同，这里就以点到边的注意力构件为例介绍，如图3所示。

为叙述方便，这里将特征矩阵的上标省略。输入的边特征矩阵H_E经过线性层(图中标记L的组件)的变换之后，得到“查询”特征矩阵Q，点特征矩阵H_V分别经过两个线性层变换后，得到“键”特征矩阵K和“值”特征矩阵V。

Q＝Linear_Q(H_E)

K＝Linear_K(H_N)

V＝Linear(H_N)

图注意力构件的核心是其中的图注意力层。点到边图注意力构件中的图注意力层负责将点的特征信息融合到边的特征信息中，执行的计算如下式所示，其中用到了邻接矩阵B。

其中K^T表示K矩阵的转置，d表示特征的维度，softmax_B表示以邻接矩阵B 为掩码的softmax操作，即只对B矩阵中值为1的位置计算，忽略掉B矩阵中值为 0的位置。边特征矩阵E经过图注意力操作后的隐表示用H′_E来表示。

具体的计算过程如下所示。

H_E″＝Add&Norm(H_E,H_E′)＝LayerNorm(H_E+H_E′)

H″′_E＝FFN(H″_E)

其中LayerNorm是层标准化(Layer Normalization)运算；FFN(x)＝ W₂ max(0,W₁x+b₁)+b₂,W₁,W₂,b₁,b₂是可学习的参数。

对第i层的点到边注意力构件来说，输入是上一层得到的边特征矩阵

和点特征矩阵

输出得到当前层边特征矩阵

经过N层计算后，就得到了边特征的最终表示

实施例2

本实施例阐述了本发明在两个公共表格结构识别数据集上进行表格结构识别，所采用的流程，涉及的参数设计与实验结果。

在本实施例中，涉及三个阶段，首先在公共表格结构识别数据集上对基于图注意力机制的边分类模型进行训练，得到模型的参数；然后，实施本发明的技术方案中的四个步骤对测试集中的表格进行结构识别；最后，将识别出的表格结构与正确结果进行比对，对本发明和现有方法进行比较。

(A)模型训练

步骤A：使用训练集对基于图注意力机制的边分类模型进行训练，得到模型的参数。

步骤A.1：准备数据集。

在本实施例中，使用SciTSR数据集作为训练集和测试集，ICDAR-2013作为测试集。SciTSR总共包含15,000个PDF格式的表格以及它们对应的表格结构标签，其中12,000个表格作为训练集，3,000个作为测试集。SciTSR还提供了一个只包含复杂表格的子测试集SciTSR-COMP，包含716个复杂表格。 ICDAR-2013提供了156个PDF格式的表格作为测试集。

步骤A.2：实现基于图注意力机制的边分类模型，配置模型参数。

在本实施例中使用Python3.6编程语言，基于PyTorch 0.4.1深度学习库进行了基于图注意力机制的边分类模型的实现。基于图注意力机制的边分类模型使用了N＝4个注意力构件，并且每个构件中q,k,v维度设置为d＝64。模型通过最小化交叉熵损失函数来进行参数优化，参数优化使用Adam优化器，并设置初始学习率为0.0005。大多数边的标签是“不相邻”，因此对交叉熵目标函数在不同标签上进行了缩放，设置“垂直相邻”和“水平相邻”类别权重为1.0，设置“不相邻”类别权重为0.2。为了防止过拟合，训练过程中增加了L₂正则化损失和在每个子层使用p＝0.4的dropout。

步骤A.3：执行模型训练文件，对模型进行训练。训练时，使用批大小为1 的分批梯度下降，在Intel Xeon处理器上训练15轮，每一轮训练集中全部12,000 个表格，需要约20分钟。

(B)表格结构识别

步骤B：按照技术方案中的四个步骤对测试集中的表格进行结构识别。

步骤B.1：预处理：从测试集的PDF文件中读取每个字符的内容和其对应的四个顶点的坐标，然后合并相邻字符内容和坐标得到单元格内容和对应的边界坐标。

步骤B.2：图构建，以步骤B.1得到的每个单元格作为点，使用K近邻的方法设置K＝20连接单元格，得到了以单元格为点的且每个点度不大于20的无向图。

步骤B.3：在构建好的无向图上进行特征提取，然后使用步骤A训练好的基于图注意力机制的边分类模型，对所有边进行分类。

步骤B.4：在完成边分类的图上进行后处理，得到最终的表格结构。

(C)结果比对与比较

步骤C：将识别出的表格结构与数据集中标注的表格结构进行转换，然后计算不同方法在测试数据上的宏/微平均准确率、召回率和F1值。

步骤C.1：分析表格单元格之间的位置关系，得到表格中相邻单元格三元组集合，表示为：<单元格1内容，垂直/水平相邻，单元格2内容>。

步骤C.2：将方法得出的相邻单元格三元组集合与数据集给出的准确相邻单元格三元组集合进行比对，计算出宏/微平均准确率、召回率和F1值。

在ICDAR-2013和SciTSR表格结构识别数据集上，实验结果如表1-6所示，其中Tabby、DeepDeSRT和Adobe为现有方法。

表1：ICDAR-2013数据集上的宏平均准确率/召回率/F1值

	准确率	召回率	F1值
				Tabby	0.789	0.845	0.816
DeepDeSRT	0.573	0.564	0.568
				Adobe	-	-	-
本发明	0.819	0.855	0.837

表2：ICDAR-2013数据集上的微平均准确率/召回率/F1值

表3：SciTSR数据集上的宏平均准确率/召回率/F1值

	准确率	召回率	F1值
				Tabby	0.914	0.910	0.912
DeepDeSRT	0.898	0.897	0.897
				Adobe	0.829	0.796	0.812
本发明	0.936	0.931	0.934

表4：SciTSR数据集上的微平均准确率/召回率/F1值

	准确率	召回率	F1值
				Tabby	0.926	0.920	0.921
DeepDeSRT	0.906	0.887	0.890
				Adobe	0.930	0.784	0.851
本发明	0.959	0.948	0.953

表5：SciTSR-COMP数据集上的宏平均准确率/召回率/F1值

	准确率	召回率	F1值
				Tabby	0.869	0.841	0.855
DeepDeSRT	0.811	0.813	0.812
				Adobe	0.796	0.737	0.765
本发明	0.943	0.925	0.934

表6：SciTSR-COMP数据集上的微平均准确率/召回率/F1值

测试结果表明，本发明所采用的方法在两个数据集上一致地超越了现有方法。在复杂表格测试集SciTSR-COMP上，现有方法的效果均出现不同程度的下降，而本发明仍保持很高的准确率/召回率/F1值。此外，由于ICDAR-2013数据集没有提供训练数据，因此在本实施例中使用了SciTSR的训练集作为模型训练数据，但是从结果来看，本发明在ICDAR-2013得到了最好的效果，说明本发明方法更具有泛化性。

Claims

1.一种基于图注意力机制的PDF表格结构关系识别方法，其特征在于：包括以下步骤：

步骤一、预处理：获取表格中的所有单元格及其位置坐标；

步骤二、图构建：对获取的所述单元格建立无向图；

步骤三、关系预测：通过对所述无向图上的边进行分类，使用神经网络模型预测单元格之间的邻接关系。

2.根据权利要求1所述的方法，其特征在于：所述获取表格中的所有单元格及其位置坐标为根据PDF的存储格式，抽取出文档中所有的文本字符，并将所有距离小于阈值d的字符组成一个单元格，记录下每个单元格的位置坐标。

3.根据权利要求1所述的方法，其特征在于：所述对获取的所述单元格建立无向图为采用K近邻的方法对所述单元格建立无向图。

4.根据权利要求1所述的方法，其特征在于：所述分类为垂直相邻、水平相邻、不相邻。

5.根据权利要求4所述的方法，其特征在于：所述神经网络模型为基于图注意力机制的边分类模型。

6.根据权利要求5所述的方法，其特征在于：所述基于图注意力机制的边分类模型由两个处理点特征和边特征的线性层、2N个图注意力构件、最后的线性层和Softmax层组成，其中，2N个图注意力构件包括N个点到边注意力构件和N个边到点注意力构件，点到边注意力构件负责将点的特征信息融入到边的特征中，边到点注意力构件负责将边的特征信息融入到点的特征中，点到边注意力构件和边到点注意力构件内部结构完全相同；输入的点特征矩阵与边特征矩阵分别输入两个线性层后的输出均与第一层点到边注意力构件和边到点注意力构件相连，每一层点到边注意力构件和边到点注意力构件都与下一层点到边注意力构件和边到点注意力构件相连，最后一层的点到边注意力构件与最后的线性层相连，最后的线性层与Softmax层相连，输入的点和边的邻接关系矩阵B分别与每一层的点到边注意力构件和边到点注意力构件相连。

7.根据权利要求6所述的方法，其特征在于：所述图注意力构件由线性层、图注意力层、Add&Norm层、前馈神经网络层和Add&Norm层依次连接而成，输入的边特征矩阵H_E经过线性变换后，得到“查询”特征矩阵Q，点特征矩阵H_V分别经过两个线性层后，得到“键”特征矩阵K和“值”特征矩阵V，Q、K、V和输入的点和边的邻接关系矩阵B在图注意力层使用下述公式进行计算得到H_E′：

将H_E′依次经过一个Add&Norm层、一个前馈神经网络和另一个的Add&Norm层后，得到最终的边特征隐表示

各层的计算公式如下：

H_E″＝Add&Norm(H_E,H_E′)＝LayerNorm(H_E+H_E′)

H_E″′＝FFN(H_E″)

其中，LayerNorm是层标准化(Layer Normalization)运算；FFN(x)＝W₂ max(0,W₁x+b₁)+b₂,W₁,W₂,b₁,b₂是可学习的参数。