CN114387608A

CN114387608A - 一种联合卷积与图神经网络的表格结构识别方法

Info

Publication number: CN114387608A
Application number: CN202210293274.9A
Authority: CN
Inventors: 黄双萍; 杨帆
Original assignee: Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou; South China University of Technology SCUT
Current assignee: Guangdong Provincial Laboratory Of Artificial Intelligence And Digital Economy Guangzhou; South China University of Technology SCUT
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-04-22
Anticipated expiration: 2042-03-24
Also published as: CN114387608B

Abstract

本发明公开了一种联合卷积与图神经网络的表格结构识别方法，其特征在于，所述方法包括：构建联合卷积图神经网络，所述的联合卷积神经网络包括深度二维卷积神经网络、二维卷积神经网络和图神经网络；利用不确定度加权的多任务学习损失函数训练所述的联合卷积图神经网络；使用二维卷积神经网络预测表格各单元格中心点坐标，基于中心点构建表格结构的图，利用所述的图神经网络对图的每条边进行分类；后处理算法处理分好类的表格结构的图，得到各单元格的结构属性，并转换为描述表格结构的标记语言。本发明方法提供一种端到端可训练的基于图神经网络显示建模表格结构的方法来高效识别表格结构。

Description

一种联合卷积与图神经网络的表格结构识别方法

技术领域

本发明属于图像处理及模式识别技术领域，尤其涉及一种联合卷积与图神经网络的表格结构识别方法。

背景技术

表格是易于人理解的，强有力的信息展现工具，常出现在纸张照片或电子扫描图片形式的文档中，用于直观展示信息。但图像中的表格为非结构化数据，无法直接被计算机解析理解。而且表格存在共用行列单元格的情况，具有复杂的结构，加大了表格结构解析算法的开发难度。这些困难阻碍了文档中表格信息自动解析、识别及数字化技术的发展，因此亟需发明具有高精度识别图像中表格结构的计算机算法，以解决上述问题。

深度学习技术在表格结构识别任务上取得长足进展，目前基于深度学习的表格结构识别方法可以分为三种：基于分割及后处理的方式、基于图像到序列端到端的方式和基于图神经网络的方式。基于分割的方式得到的是各单元格、行或列的位置信息，还须依赖进一步的复杂后处理才能得到表格结构，这增加了算法的步骤以及引入了复杂后处理出错时新的识别误差。基于图像到序列端到端的方式，虽然省略了后续的处理步骤，一步到位地实现了图像结构的标记语言(如Latex、HTML等)的预测输出，但是现有模型没有显示地利用表格结构天然的逻辑关系信息，限制了模型的精度上限。基于图神经网络的方式，根据表格单元格结构关系，显示地建立图后应用图神经网络对图顶点、边进行分类或回归得到各单元格结构属性，实现表格结构的预测，但是该方法通常需要使用文本检测算法预先得到单元格各文本行的区域，然后再利用这些区域坐标来构建图，而非端到端可训练的方式，这导致一方面降低了模型的识别效率，另一方面没有在训练过程中结合单元格分割任务及图分类任务的标签信息以提高精度。

综上所述，现有表格结构识别方法还没有能显示建模表格结构的端到端识别方法，以同时提高模型识别精度及效率。因此，需要提供一种端到端可训练的基于图神经网络显示建模表格结构的方法来识别表格结构。

发明内容

有鉴于此，有必要针对上述技术问题，提供一种联合卷积与图神经网络的表格结构识别方法，所述方法提供了一种端到端可训练的基于图神经网络显示建模表格结构的方式，能够高精度、高效地识别表格结构。

一种联合卷积与图神经网络的表格结构识别方法，包括以下步骤：

步骤1，构建联合卷积图神经网络，所述的联合卷积神经网络包括深度二维卷积神经网络、二维卷积神经网络和图神经网络，所述的深度二维卷积神经网络输出的图像特征，作为所述的二维卷积神经网络和所述的图神经网络的输入；

步骤2，利用不确定度加权的多任务学习损失函数训练所述的联合卷积图神经网络；

步骤3，所述的深度二维卷积神经网络用于提取表格图像高维语义特征，使用二维卷积神经网络预测表格各单元格中心点坐标，基于中心点构建表格结构的图，利用所述的图神经网络对图的每条边进行分类；

步骤4，后处理算法处理分好类的表格结构的图，得到各单元格的结构属性，并转换为描述表格结构的标记语言。

具体地，所述的深度二维卷积神经网络

为关键点识别深度卷积神经网络HRNet的前3个阶段：

，

其中，

为输入3通道RGB图像，stage _i为HRNet网络中第i个包含图像不同分辨率特征提取分支的卷积模块；

所述的二维卷积神经网络为

为关键点识别深度卷积神经网络HRNet的第4阶段部分：

。

可选地，所述的图神经网络

采用图注意力网络：

，

其中，g为基于中心点构建的表达表格结构的图，

表示图注意力网络。

可选地，所述图神经网络

采用图卷积神经网络：

，

其中，g为基于中心点构建的表达表格结构的图，

表示图卷积神经网络。

进一步地，所述的基于中心点构建表格结构的图，包括如下步骤：

计算CNN特征张量

，其中

为与

结构相同，权重不共享的卷积模块；

对每个顶点采用K-NN算法，构建图g的边；

根据各中心点坐标

索引CNN特征张量

得到图每个顶点的CNN特征向量

，其中h，w为图像高与宽方向上的坐标；

拼接CNN特征向量

与中心点坐标及中心点相对坐标，得到每个顶点的特征向量f _n，其中n为顶点编号；

根据边两个顶点的CNN特征向量，取均值得边的CNN特征向量，并拼接两顶点的x轴绝对与相对距离、y轴绝对与相对距离和绝对与相对欧式距离，得到每个边的特征向量v _m，其中m为边的编号：

其中H,W分别为图像的高与宽，由此获得图g=({f _n}, {v _m}, A)，其中A为图g的邻接矩阵。

更进一步地，所述的训练联合卷积图神经网络的过程中，单元格中心点坐标预测网络的损失函数

采用均方误差损失：

，

其中

为单元格中心点坐标预测网络的输出，为二阶张量，W、H分别为

的宽与高，

为各单元格中心点对应的热力图标签；

图分类任务的损失函数

采用交叉熵损失函数：

其中

为图神经网络的输出，为二阶张量，高等于类别数3，宽为边的个数

，

为每条边的类别标签，3种类别分别是相邻同行、相邻同列和不相邻；

总损失函数

采用如下以任务不确定度倒数平方

和

为权重的

和

的加权求和形式：

；

以最小化

为目标，利用Adam优化算法数值求解

、

和

、

、

网络参数的最优解。

优选地，所述的预测表格各单元格中心点坐标，包括以下步骤：

二值化单元格中心点坐标预测网络

的输出

；

寻找二值图

中所有连通区域的轮廓；

利用轮廓中心矩求解每个轮廓的几何中心得到各单元格中心点的预测坐标。

具体地，所述利用图神经网络

对构建的图g的每条边进行分类，具体包括，第j条边的分类预测结果为

。

具体地，所述各单元格的结构属性，包括起始行、列号和结束行列、列号。

更进一步地，所述后处理算法，包括以下步骤：

对分好类的图g的每个顶点按行进行排序，对于跨多行的节点，将行号取值为所有左同行相邻顶点中y值最小的顶点的行号，得到每个单元格起始行号；

对g每个顶点按行进行排序，对于跨多行的节点，将行号取值为所有左同行相邻顶点中y值最大的顶点的行号，得到每个单元格结束行号；

对g每个顶点按列进行排序，对于跨多列的节点，将列号取值为所有下同列相邻顶点中x值最小的顶点的列号，得到每个单元格起始列号；

对g每个顶点按列进行排序，对于跨多列的节点，将列号取值为所有下同列相邻顶点中x值最大的顶点的列号，得到每个单元格结束列号。

与现有技术相比，本发明的有益效果在于，本发明方法能够同时完成表格各单元格中心点坐标预测任务与表格结构的图分类任务，通过多任务学习方式联合训练中心点预测卷积神经网络与用于表格结构图分类的图神经网络，提高了网络整体预测的性能，能够高精度地对表格各单元格中心点连接构成的图的边关系进行分类，基于边分好类的图通过后处理计算各单元格结构属性，完成表格（全线表、各类省线表）结构的识别。

附图说明

图1示出了本发明实施方法的流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了更好地理解本实施例的技术内容，先介绍一下本实施例中涉及到的术语解释。

端到端可训练：深度学习提供了一种端到端的学习范式，整个学习的流程并不进行人为的子问题划分，而是完全交给深度学习模型直接学习从原始数据到期望输出的映射。

卷积神经网络：卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一。

图神经网络：图神经网络(GNNs)是一种连接主义模型，它通过图节点之间的消息传递来捕获图的依赖性。

图卷积神经网络（GCN, Graph Convolutional Network）：模型由图上的卷积操作构成的一种图神经网络。

图注意力网络（GAT, Graph Attention Network）：模型由自注意力模块构成的一种图神经网络。

多任务学习：多任务学习（Multi-task learning）是和单任务学习（single-tasklearning）相对的一种机器学习方法。在机器学习领域，标准的算法理论是一次学习一个任务，也就是系统的输出为实数的情况，而多任务学习是一种联合学习，多个任务并行学习，结果相互影响。

损失函数：损失函数（loss function）或代价函数（cost function）是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中，损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。

表格结构：一般用表格各单元格的结构属性来表示。结构属性包括单元格的起始行号、起始列号，结束行号、结束列号。

标记语言：是一种将文本以及文本相关的其他信息结合起来，展现出关于文档结构和数据处理细节的电脑文字编码。

HTML语言：超文本标记语言（HTML,Hyper Text Markup Language）是一种标记语言。它包括一系列标签，通过这些标签可以将网络上的文档格式统一，使分散的Internet资源连接为一个逻辑整体。

HRNet（High Resolution Net）：高分辨率网络模型。

图1示出了本发明实施例的流程示意图。一种联合卷积与图神经网络的表格结构识别方法，包括以下步骤：

步骤1，构建联合卷积图神经网络，所述的联合卷积神经网络包括深度二维卷积神经网络、二维卷积神经网络和图神经网络，所述的深度二维卷积神经网络，分别接入所述的二维卷积神经网络和所述的图神经网络；

下面结合实例具体说明联合卷积与图神经网络的表格结构识别过程。

执行步骤1，构建联合卷积图神经网络，所述的联合卷积神经网络包括深度二维卷积神经网络、二维卷积神经网络和图神经网络，所述的深度二维卷积神经网络，分别接入所述的二维卷积神经网络和所述的图神经网络。

所述的深度二维卷积神经网络

为关键点识别深度卷积神经网络HRNet的前3个阶段：

，

其中，

为输入3通道RGB图像，stagei为HRNet网络中第i个包含图像不同分辨率特征提取分支的卷积模块；

所述的二维卷积神经网络为

为关键点识别深度卷积神经网络HRNet的第4阶段部分：

。

可选地，所述的图神经网络

采用图注意力网络：

，

其中，g为基于中心点构建的表达表格结构的图，

表示图注意力网络。

可选地，所述图神经网络

采用图卷积神经网络：

，

其中，g为基于中心点构建的表达表格结构的图，

表示图卷积神经网络。

计算CNN特征张量

，其中

为与

结构相同，权重不共享的卷积模块。

对每个顶点采用K-NN算法，构建图g的边。首先取K值为20，然后构建以中心点为图顶点的完全图，并计算每条边的欧式距离；下一步，裁剪距离较远的边，以减少图的边数从而提高算法的计算速度，具体地，遍历完全图的每个顶点，遍历到某顶点时，具体的处理方式为，对该顶点的每条边按距离从小到大排序，仅保留前20条边（包括20），去除后20条边，当总边数小于20时则保留全部边，遍历地处理完所有顶点后，便完成图g的构建。

根据各中心点坐标

索引CNN特征张量

得到图每个顶点的CNN特征向量

，其中h，w为图像高与宽方向上的坐标。

拼接CNN特征向量

与中心点坐标及中心点相对坐标，得到每个顶点的特征向量fn，其中n为顶点编号。

根据边两个顶点的CNN特征向量，取均值得边的CNN特征向量，并拼接两顶点的x轴绝对与相对距离、y轴绝对与相对距离和绝对与相对欧式距离，得到每个边的特征向量vm，其中m为边的编号：

其中H,W分别为图像的高与宽，由此获得图g=({fn}, {vm}, A)，其中A为图g的邻接矩阵。

执行步骤2，利用不确定度加权的多任务学习损失函数训练所述的联合卷积图神经网络。

所述的训练联合卷积图神经网络的过程中，单元格中心点坐标预测网络的损失函数

采用均方误差损失：

，

其中

的宽与高，

为各单元格中心点对应的热力图标签；

图分类任务的损失函数

采用交叉熵损失函数：

其中

，

总损失函数

采用如下以任务不确定度倒数平方

和

为权重的

和

的加权求和形式：

；

以最小化

为目标，利用Adam优化算法数值求解

、

和

、

、

网络参数的最优解。

执行步骤3，使用二维卷积神经网络预测表格各单元格中心点坐标，基于中心点构建表格结构的图，利用所述的图神经网络对图的每条边进行分类。

所述的预测表格各单元格中心点坐标，包括以下步骤：

采用基于自适应阈值的二值化方法大津法，对单元格中心点坐标预测网络

的输出

进行二值化，得到二值图；

寻找二值图中所有连通区域的轮廓；

具体地，所述利用图神经网络

。

更进一步地，所述后处理算法，包括以下步骤：

本发明方法的技术原理是：本发明实施例中提出一个联合卷积神经网络及图神经网络的统一框架，支持端到的训练，从而提高了模型的预测以及训练效率。因为本方法显示地构建了表达表格结构的图，并用图神经网络进行边的分类，因此提升了模型整体识别结构的精度，且同时利用多任务损失函数联合训练了卷积神经网络以及图神经网络，充分地利用了各任务标签信息，因此进一步提升了识别精度。

执行步骤4，后处理算法处理分好类的表格结构的图，得到各单元格的结构属性，并转换为描述表格结构的标记语言。

具体的，基于各单元格的结构属性，转换成HTML语法描述的表格（HTML表格）。首先根据所有单元格的最大起始行号，确定HTML的<tr></tr>标签对个数，得到HTML表格的行数，然后依次根据每行的单元格数量，确定每个<tr></tr>标签对中<td></td>标签对的个数，最后根据结束行/列号与起始行/列号的差值得到各单元格的跨行/列属性值并回填到对应<td></td>标签对的属性赋值区，得到表格结构的完整HTML描述，完成标记语言HTML的转换过程。

以上实施例的各技术特征或步骤可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征或步骤所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。