CN111860257A

CN111860257A - 融合多种文本特征及几何信息的表格识别方法及系统

Info

Publication number: CN111860257A
Application number: CN202010663170.3A
Authority: CN
Inventors: 李一仁; 黄征; 周异; 陈凯
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-10-30
Anticipated expiration: 2040-07-10
Also published as: CN111860257B

Abstract

本发明提供了一种融合多种文本特征及几何信息的表格识别方法，包括：数据处理步骤：获取表格区域的图片，分别对获取的图片进行OCR识别与直线识别，获得关键特征信息；图卷积神经网络训练步骤：根据获得的关键特征信息，进行图卷积神经网络训练，构建表格结构识别模型；表格识别步骤：根据构建的表格结构识别模型，对图片格式的表格进行结构识别。本发明提出了一种融合多种文本特征及几何信息的表格识别方法，从采用数据的多样性方面和对数据进行特征提取的方法等方面进行改进，有效提升了表格识别的准确率，获得了更加准确的表格结构重建结果，相对现有基于传统规则的表格识别机制及基于图片的传统深度学习方法有了很大的提升效果。

Description

融合多种文本特征及几何信息的表格识别方法及系统

技术领域

本发明涉及图片识别技术领域，具体地，涉及融合多种文本特征及几何信息的表格识别方法及系统。

背景技术

在信息时代，如何快速获取信息并从海量而复杂的信息中提取关键的知识是一个重要问题。而表格作为结构化数据的一种形式，具有简单与标准化的特性。对于用户来说，由于它的规范性，信息查询与比较较为简单；对于计算机来说，一旦数字化的表格结构被提供，所需要的数据也能快速地被提取。然而，许多表格在发布时被封装成了图片格式，从而丢失了结构化信息。因此，如何从图片格式的表格中重新识别表格结构成为了一个重要的问题。

现有的表格识别技术包括传统的规则方法，预定义的基于布局的方法，基于统计或优化的方法等，而这些方法无法对于表格图片中多样化的信息，例如图像信息、文本信息、位置信息等统一建模，因而本文提出了一套基于图卷积神经网络的表格识别方法，来充分融合这些可用的信息。

近年来使用规则方法和深度学习方法来解决表格识别问题的研究取得了一定进展，然而现有方法仍然难以准确地恢复相对复杂的表格的结构，图4给出了一个非常典型的例子。现有的难点包括：

(1)许多表格为了美观会省略表格的两侧框线，甚至流行的三线表仅包括表头部分的两条框线与表格底部的框线，给依靠框线识别表格结构的方法提出了很大的挑战。

(2)有些表格的表头包含多个合并单元格，以便于标识不同分类或时间阶段的数据，但是给表格识别增加了难度。

现有的方法大多只单独使用到图像信息或位置信息等，没有把所有可用的特征都结合起来，损失了原有的信息。而本文提出的基于图卷积神经网络的方法很好的解决了这个问题，通过融合图片信息、文本信息、位置信息等表格特征弥补现有方法的缺陷。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种融合多种文本特征及几何信息的表格识别方法及系统。

根据本发明提供的一种融合多种文本特征及几何信息的表格识别方法，包括：

数据处理步骤：获取表格区域的图片，分别对获取的图片进行OCR识别与直线识别，获得关键特征信息；

图卷积神经网络训练步骤：根据获得的关键特征信息，进行图卷积神经网络训练，构建表格结构识别模型；

表格识别步骤：根据构建的表格结构识别模型，对图片格式的表格进行结构识别。

优选地，所述数据处理步骤包括：

通过OCR识别，获得字符的具体信息，进一步可处理成文本框字符串，对于每一个文本框，可获得它的文本内容、文本字体、文本颜色、文本大小，同时也可计算得到每个文本框的矩形坐标，记为四点坐标；

通过直线识别，获得表格框线的起止点位置，通过直线位置信息，可以确定表格中单元格的位置，对于缺省框线的表格来说，省略直线识别步骤；

根据单元格位置和各个文本框的四点坐标，经过人工核实后，可以得到每个文本框的表格结构信息，作为真实标注值Ground Truth。

优选地，所述关键特征信息包括：

文本格式特征：对于文本字体、文本颜色以及文本大小具象化的文本格式，将其投射至自定义的向量空间后，利用多层感知机MLP将它们融合为文本格式特征；

文本内容特征：对于每个文本框的文本内容，采用了Bert Encoding技术，将字符串转换为丰富的文本语义向量，作为文本内容特征；

局部图像特征：根据经过OCR识别得到的文本框四点坐标，可以通过一个卷机神经网络CNN获取该文本框的局部图像特征；

文本框的直线信息：通过OCR识别得到的直线信息，针对每个文本边界框BoundingBox的四点坐标，计算得文本边界框周围最近4条包络直线。

优选地，所述图卷积神经网络训练步骤：

所述图卷积神经网络的预测过程如下：

根据所有文本框的四点坐标计算得每个文本框的中心点位置，依据每个文本框的位置，通过计算得到与每个文本框最近的K个文本框并将每个文本框与相应的K个最近的文本框添加连接的边，构建空间关系图；所述计算的方法包括：聚类的算法；

根据数据集中的表格结构的真实标注值Ground Truth，为空间关系图中的每条边添加两个文本框是否同行和是否同列的标签；

所述进行图卷积神经网络训练包括：

在训练阶段，对于图中的每条边所指示的两个文本框，获得它们各自的文本内容特征、文本格式特征、文本框四点坐标、局部图像特征与每个文本框周围的4条包络直线信息；

将局部图像特征与直线信息利用MLP提取特征后，利用GCN将所述文本内容特征、文本格式特征、文本框四点坐标、局部图像特征与每个文本框周围的4条包络直线信息进行统一建模，并给出针对这两个文本框的结构位置预测，即同列或不同列、同行或不同行；

根据PyTorch Geometric的GCNConv，经过构建自循环、线性变换降维、特征归一化以及聚合步骤，提取到本次计算的特征向量，再通过多层感知机给出图网络中每条边所指示的两个文本框是否同列或不同列以及同行或不同行的预测；

最后，利用Ground Truth数据集中的标签，计算得到预测的误差即NLLLoss，根据该误差计算得梯度，并对GCN网络进行一次优化。

优选地，所述表格识别步骤：

根据构建的表格结构识别模型，对图片格式的表格进行结构识别，包括：

提取原始信息，对图片格式的表格进行OCR识别和直线识别，获得文本内容、文本字体、文本颜色、文本大小、文本框位置和直线起止点信息。

提取特征，对数据进行预处理，获得文本内容特征、文本格式特征、文本框坐标、图像特征和直线特征；

构建关系图，将表格中的每个文本框视为一个节点，则每个节点都具有5种特征。为每个节点和与之最近的K个邻居节点连线，K的大小可以视实际情况而定；

融合特征，对于每条边上的一对节点，将它们各自的5种特征融合，作为图网络的输入；

预测节点关系，利用基于图卷积网络的模型给出预测，并根据MLP的投射将节点对分类为同行或异行、同列或异列；

重构表格，根据每个节点与它的K个邻居节点之间的关系，结合文本框的坐标，可以恢复每个文本框所在的行和列，进一步根据文本内容，可以重新构建数字格式的表格。

根据本发明提供的一种融合多种文本特征及几何信息的表格识别系统，包括：

数据处理模块：获取表格区域的图片，分别对获取的图片进行OCR识别与直线识别，获得关键特征信息；

图卷积神经网络训练模块：根据获得的关键特征信息，进行图卷积神经网络训练，构建表格结构识别模型；

表格识别模块：根据构建的表格结构识别模型，对图片格式的表格进行结构识别。

优选地，所述数据处理模块包括：

优选地，所述关键特征信息包括：

优选地，所述图卷积神经网络训练模块：

所述图卷积神经网络的预测过程如下：

所述进行图卷积神经网络训练包括：

优选地，所述表格识别模块：

与现有技术相比，本发明具有如下的有益效果：

本发明提出了一种融合多种文本特征及几何信息的表格识别方法，从采用数据的多样性方面和对数据进行特征提取的方法等方面进行改进，有效提升了表格识别的准确率，获得了更加准确的表格结构重建结果，相对现有基于传统规则的表格识别机制及基于图片的传统深度学习方法有了很大的提升效果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明提供的数据集生成过程示意图。

图2为本发明提供的在进入深度学习网络训练阶段前数据预处理的过程示意图。

图3为本发明的图卷积神经网络预测过程示意图。

图4为本发明提供的省略框线且包含合并了单元格的表头的难点表格示意图。

图5为本发明提供的难点表格的表格识别模型重建结果示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

具体地，所述数据处理步骤包括：

具体地，所述关键特征信息包括：

具体地，所述图卷积神经网络训练步骤：

所述图卷积神经网络的预测过程如下：

所述进行图卷积神经网络训练包括：

具体地，所述表格识别步骤：

本发明提供的融合多种文本特征及几何信息的表格识别系统，可以通过本发明给的融合多种文本特征及几何信息的表格识别方法的步骤流程实现。本领域技术人员可以将所述融合多种文本特征及几何信息的表格识别方法，理解为所述融合多种文本特征及几何信息的表格识别系统的一个优选例。

具体地，所述数据处理模块包括：

具体地，所述关键特征信息包括：

具体地，所述图卷积神经网络训练模块：

所述图卷积神经网络的预测过程如下：

所述进行图卷积神经网络训练包括：

具体地，所述表格识别模块：

下面通过优选例对本发明进行更为具体地说明。

优选例1：

在上述发明的融合多种文本特征及几何信息的表格识别方法基础上，采用具体的设置进行了实验，有效证明了本发明技术的有效性。

网络结构设置信息：

CNN网络的结构如下表所示，利用了一个3层的卷积网络，用于提取大小归一化后的每个文本框小图片的图像特征。

实验中CNN网络模块参数。

本发明中还利用到多个多层感知器对特征向量进行聚合，用于提取文本格式特征、局部图像特征和直线信息的MLP都将各自的输入维度规范至64维，最终用于对输出预测的MLP则投射至2x2维，分别给出[[同行,异行],[同列,异列]]的预测分数，而每行中获得更高分数的输出，被作为最终预测。

部分结果实验图：

图5中给出了对于图4所示难点表格的表格识别模型重建结果。我们的方法可以正确地重构表格的结构并正确识别所有的数字、符号以及文字等内容并将它们正确放置到相应的单元格，并且对于出现合并单元格情况的表头也正确识别。

优选例2：

针对现有表格识别方法的问题，为了使表格结构识别模型更好地攻克现有的难点，提高表格识别的准确率，本发明对现有的表格识别机制的方案提出了改进，包括以下主要改进：

(1)以往的表格识别方法在使用表格的文本信息时，一般只考虑到表格中的文本内容，而丢失了许多文本的固有特征。为了弥补这一点，本发明结合了多种文本的格式特征，包括文本字体、文本颜色、文本大小等，更好地识别表格结构。

(2)以往的方法在处理文本内容时，有些会将文本字符串投射到预定义的向量空间，而本发明则应用近年来在自然语言处理(NLP)领域中表现最为突出的语言表示模型Bert来计算文本内容的语义向量，更好地提取表格内的文本的视觉特征，提高了表格结构识别的性能。

(3)现有的方法大多忽略了表格单元格的位置和空间上的相互关系，而本发明构建关系图网络，提取和利用表格的图网络特征，提高了表格结构识别的准确性。

本设计提出了一种融合多种文本特征及几何信息的表格识别方法，以图卷积神经网络(GCN)作为模型预测表格结构的主干。采用GCN架构的原因是因为传统方法无法有效地对于多样化的表格信息进行统一建模，而GCN能将丰富的表格固有信息很好地融合。

本设计基于这种思想，构建了包括表格图像、文本框信息(包括四点坐标、文本字体、文本颜色、文本大小、文本内容等)、可选的表格框线信息(直线起止点位置)、表格结构正确标注值等的数据集，并用数据集训练了GCN模型。

在网络模型中，本设计将一个文本框视为图中的一个节点，并根据文本框位置信息构造图的链接，利用多层感知机(MLP)融合不同格式的特征，并最终给出针对任意两个表格文本框是否同行和是否同列的结构预测信息。根据同行、同列的结构预测信息，可以最终重建表格的数据模型。具体包括：

1、数据处理：

图1所示为构建数据集生成的流程，构建的数据集将用于深度学习模型的训练。在获得表格区域的图片后，本设计分别对其进行OCR识别(必要的数据信息)与直线识别 (可选的操作和信息)。

(1)通过OCR识别，获得字符的具体信息，进一步可处理成文本框字符串，对于每一个文本框，可获得它的文本内容、文本字体、文本颜色、文本大小，同时也可计算得到每个文本框的矩形坐标(称为四点坐标)。

(2)通过直线识别，获得表格框线的起止点位置，通过直线位置信息，可以确定表格中单元格的位置。值得注意的是，对于缺省框线的表格来说，这一步可以被省略，而由于本发明利用到的原始数据的多样性，仅仅缺失表格框线不会导致最终预测的失败。

更进一步地，根据单元格位置和各个文本框的四点坐标，经过人工核实后，可以得到每个文本框的表格结构信息，作为Ground Truth真实标注值，以用于后续的训练。

图2所示为在进入深度学习网络训练阶段前数据预处理的过程，将获取下述关键的特征信息：

文本格式特征：对于文本字体、文本颜色、文本大小等具象化的文本格式，本设计将其投射至自定义的向量空间后，利用多层感知机(MLP)将它们融合为文本格式特征；

文本内容特征：对于每个文本框的文本内容，本设计采用了目前领先的BertEncoding技术，将字符串转换为丰富的文本语义向量，作为文本内容特征。

局部图像特征：根据上文中经过OCR识别得到的文本框四点坐标，可以通过一个卷机神经网络(CNN)获取该文本框的局部图像特征。

文本框的直线信息：此外，通过OCR识别得到的直线信息，针对每个文本边界框(Bounding Box)的四点坐标，可以计算得该文本框周围最近4条包络直线。

数据集中的信息及预处理后的信息，将被进一步用于训练GCN图卷积神经网络。同样的特征提取的操作(不包括人工复核部分)，也将被用于在线的模型推理过程用于预测表格的结构。

2、图卷积神经网络结构：

图3所示为本发明的图卷积神经网络预测过程。首先根据所有文本框的四点坐标计算得每个文本框的中心点位置，依据每个文本框的位置，通过计算(包括聚类的算法) 得到与每个文本框最近的K个文本框并将每个文本框与相应的K个最近的文本框添加连接的边，构建空间关系图。根据数据集中的表格结构的真实标注信息(Ground Truth)，为关系图中的每条边添加两个文本框是否同行和是否同列的标签。

在训练阶段，对于图中的每条边所指示的两个文本框，可获得它们各自的文本内容特征、文本格式特征、文本框四点坐标、局部图像特征与每个文本框周围的4条包络直线信息。将局部图像特征与直线信息利用MLP提取特征后，本发明利用GCN将这些多样化的特征统一建模，并给出针对这两个文本框的结构位置预测，即同列/不同列以及同行/不同行。

根据PyTorch geometric的GCNConv，首先对输入的邻接矩阵，即图中边的关系，构建自循环；

而后利用定义好的线性变换的结构(torch.nn.Linear(in_channels,out_channels))进行降维，例如输入维度为(S,in_channels)的节点，将会输出为(S,out_channels)的维度，其中S为节点个数；然后对特征进行归一化，对于有E条边的图，以边矩阵为索引，将被归一化为(E,out_channels)维；构建图网络后我们有边矩阵edge_index，形状为(2,E)，第一行表示边的source节点，第二行表示边的target节点。然后，以target节点作为索引，从线性变换后的特征矩阵中索引得到target节点的特征矩阵，拼接后得到(E,out_channels) 维度的x_j。然后根据source和target的度计算得所有边的标准化系数。最后的节点特征为每一条边的标准化系数与这条边target这一端的节点特征的乘积。

最后，对于i节点根据其邻居节点特征进行聚合操作可得GCN最终的输出。具体的计算公式如下所示，其中Θ是权重矩阵(即要更新的参数)，

表示节点i第k次迭代的特征向量，deg(i)表示节点i的度，N(i)表示节点i的所有邻居节点的集合。

其中，

i、j表示节点；

Θ是权重矩阵(即要更新的参数)；

表示节点i第k次迭代的特征向量；

deg(i)表示节点i的度；

N(i)表示节点i的所有邻居节点的集合；

最后，利用Ground Truth数据集中的标签，我们可以计算得到预测的误差即NLLLoss，根据该误差可以计算得梯度，并对GCN网络进行一次优化。通过不断地利用数据训练搭建好的GCN网络，可以使本发明的表格结构识别模型变得准确而鲁棒。

3、推理过程：

训练完成后，可以利用本发明的表格结构识别模型对图片格式的表格进行结构识别。与上文中说明的一样，表格结构识别的推理过程如下所述：

1.提取原始信息。对图片格式的表格进行OCR识别和直线识别，获得文本内容、文本字体、文本颜色、文本大小、文本框位置和直线起止点信息。

2.提取特征。对数据进行如图3所示的预处理，获得文本内容特征、文本格式特征、文本框坐标、图像特征和直线特征。

3.构建关系图。将表格中的每个文本框视为一个节点，则每个节点都具有5种特征。为每个节点和与之最近的K个邻居节点连线，K的大小可以视实际情况而定。

4.融合特征。对于每条边上的一对节点，将它们各自的5种特征融合，作为图网络的输入。

5.预测节点关系。利用基于图卷积网络的模型给出预测，并根据MLP的投射将节点对分类为同行或异行、同列或异列。

6.重构表格。根据每个节点与它的K个邻居节点之间的关系，结合文本框的坐标，可以恢复每个文本框所在的行和列。进一步根据文本内容，可以重新构建数字格式的表格，例如json格式或Excel格式都将成为可能。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种融合多种文本特征及几何信息的表格识别方法，其特征在于，包括：

2.根据权利要求1所述的融合多种文本特征及几何信息的表格识别方法，其特征在于，所述数据处理步骤包括：

3.根据权利要求2所述的融合多种文本特征及几何信息的表格识别方法，其特征在于，所述关键特征信息包括：

文本框的直线信息：通过OCR识别得到的直线信息，针对每个文本边界框Bounding Box的四点坐标，计算得文本边界框周围最近4条包络直线。

4.根据权利要求3所述的融合多种文本特征及几何信息的表格识别方法，其特征在于，所述图卷积神经网络训练步骤：

所述图卷积神经网络的预测过程如下：

所述进行图卷积神经网络训练包括：

5.根据权利要求4所述的融合多种文本特征及几何信息的表格识别方法，其特征在于，所述表格识别步骤：

6.一种融合多种文本特征及几何信息的表格识别系统，其特征在于，包括：

7.根据权利要求6所述的融合多种文本特征及几何信息的表格识别系统，其特征在于，所述数据处理模块包括：

8.根据权利要求7所述的融合多种文本特征及几何信息的表格识别系统，其特征在于，所述关键特征信息包括：

9.根据权利要求8所述的融合多种文本特征及几何信息的表格识别系统，其特征在于，所述图卷积神经网络训练模块：

所述图卷积神经网络的预测过程如下：

所述进行图卷积神经网络训练包括：

10.根据权利要求9所述的融合多种文本特征及几何信息的表格识别系统，其特征在于，所述表格识别模块：