CN111178154B

CN111178154B - 表格边框预测模型生成方法、装置及表格定位方法、装置

Info

Publication number: CN111178154B
Application number: CN201911254485.6A
Authority: CN
Inventors: 李倩兰; 袁灿; 于政
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Beijing Mininglamp Software System Co ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2023-04-07
Anticipated expiration: 2039-12-10
Also published as: CN111178154A

Abstract

一种表格边框预测模型生成方法、装置及表格定位方法、装置，包括：获取多张包含表格的样本文档页面，并将样本文档页面转换为样本图像；将每张样本文档页面和每张样本图像分别划分为S*S个第一网格和S*S个第二网格；获取S*S个第一网格所包含文本的语义信息，作为S*S个第一网格的语义信息；获取S*S个第二网格的预测边框信息；将获得的上述信息作为训练样本集，迭代训练图像识别模型，生成用于预测表格边框信息的表格边框预测模型。由于图像识别模型在训练过程中采用了大量训练样本并且融合了语义信息，因此能够较好地预测表格边框信息，从而提高了表格边框确定的成功率，保证了后续表格定位过程的顺利进行。

Description

表格边框预测模型生成方法、装置及表格定位方法、装置

技术领域

本文涉及图像处理技术，尤指一种表格边框预测模型生成方法、装置及表格定位方法、装置。

背景技术

信息分析往往需要从文档，例如便携式文档格式(Portable Document Format，PDF)中进行文本、表格和图片等信息的抽取，而实现信息的抽取首先要确定表格的边框，进而基于所确定的表格边框进行表格的定位，由于PDF中数据的存储采用的是非结构化数据存储方式，因此表格边框的确定较为较为复杂。

相关技术中，表格边框的确定往往是基于表格与其非表格字体不相同的特点或者表格的字符流按列对齐的特点进行的。

然而，这种方法是基于特殊情况才能进行，当表格不具备上述特点时表格边框仍然无法确定，因此表格边框的确定成功率十分低下，从而进一步影响表格的定位。

发明内容

本申请提供了一种表格边框预测模型生成方法、装置及表格定位方法、装置，能够提供一个稳定的表格边框预测模型，从而提高表格边框确定的成功率，保证后续表格定位过程的顺利进行。

本申请提供了一种表格边框预测模型生成方法，包括：

获取多张包含表格的样本文档页面，并将所述样本文档页面转换为图像作为样本图像；

将每张样本文档页面划分为S*S个第一网格，并将每张样本图像划分为S*S个第二网格；

获取每张样本文档页面的S*S个第一网格所包含文本的语义信息，作为所述S*S个第一网格的语义信息；

获取每张样本图像的S*S个第二网格的预测边框信息；其中，每个所述第二网格的预测边框信息包括：表格存在于所述第二网格的概率、所述第二网格的B个预测边框的位置信息以及所述第二网格的B个预测边框的置信度；

将所有样本文档页面的S*S个第一网格的语义信息，以及所有样本图像的S*S个第二网格和S*S个预测边框信息作为训练样本集，迭代训练图像识别模型，生成用于预测表格边框信息的表格边框预测模型。

所述获取每张样本文档页面的S*S个第一网格所包含文本的语义信息，作为S*S个第一网格的语义信息，包括：

对每张样本文档页面的每个第一网格执行以下操作：

获取所述第一网格所包含文本的每种文本属性的数量、每种文本字体的字数、每种文本字号的字数、由多个文本组成的连续文本块的数量以及每种文本词性的分词所包含的字数；

将获得的信息作为所述第一网格的语义信息。

所述文本属性种类包括：中文、英文、数字、空格、序号和其他属性。

组成所述连续文本块的多个文本满足以下条件：任意两个位于左右位置的文本中左文本的右边界与右文本的左边界的距离小于第一阈值，且上边界的距离差小于第二阈值，且下边界的距离差小于第三阈值。

当获得的第一网格所包含文本的语义信息满足以下至少一个条件：获得的文本属性的种类数不足P个，获得的文本字体的种类数不足Q个，获得的文本字号的种类数不足R个，获得的文本词性的种类数不足S个；其中，所述P、Q、R、S分别预定义的文本属性、文本字体、文本字号和文本词性存在的种类数；

所述获取第一网格所包含文本的每种文本属性的数量、每种文本字体的字数、每种文本字号的字数、由多个文本组成的连续文本块的数量以及每种文本词性的分词所包含的字数之后，且所述将获得的信息作为第一网格的语义信息之前，还包括：

用0补足所缺少的种类对应的位置。

所述预测边框的位置信息包括：

所述预测边框的中心点相对于所属第二网格左上角坐标的偏移值，以及所述预测边框的宽与高。

所述预测边框的置信度包括：所述预测边框含有表格的概率*所述预测边框与表格的实际边框的交并比IoU。

图像识别模型包括：两个输入层，其中一个输入层后连接多个卷积池化及全连接层，一个输入层后连接多个全连接层，两个输入层经过各自的结构后连接一个融合层进行融合，所述融合层后再连接全连接层与输出层。

所述将所有样本文档页面的S*S个第一网格的语义信息，以及所有样本图像的S*S个第二网格和S*S个预测边框信息作为训练样本集，迭代训练对象识别和定位模型，生成用于预测表格边框信息的表格边框预测模型，包括：

将所述所有样本文档页面的S*S个第一网格的语义信息输入至所述图像识别模型的一个输入层；

将所述所有样本文档页面的S*S个第二网格输入至所述图像识别模型的另一个输入层；

将所述所有样本图像的S*S个预测边框信息输入至所述图像识别模型的输出层；

根据预先设定的损失函数，利用反向传播算法对所述图像识别模型进行迭代训练、调整所述模型的参数，直到损失函数的损失值收敛，得到所述预测边框模型。

本申请还提供了一种表格定位方法，包括：

获取包含待定位表格的待处理文档页面，并将所述待处理文档页面转换为图像作为待处理图像；

将所述待处理文档页面划分为S*S个第一网格，并将所述待处理图像划分为S*S个第二网格；

获取S*S个第一网格所包含文本的语义信息，作为所述S*S个第一网格的语义信息；

将所述S*S个第一网格语义信息和所述S*S个第二网格输入至如权利要求上述任一项所述的表格边框预测模型生成方法生成的表格边框预测模型，得到S*S个第二网格的预测边框信息；其中，每个所述第二网格的预测边框信息包括：表格存在于所述第二网格的概率、所述第二网格的B个预测边框的位置信息以及所述第二网格的B个预测边框的置信度；

根据获得的S*S个第二网格的预测边框信息进行表格定位。

所述获取S*S个第一网格所包含文本的语义信息，作为S*S个第一网格的语义信息，包括：

对每个第一网格执行以下操作：

将获得的信息作为所述第一网格的语义信息。

用0补足所缺少的种类对应的位置。

所述根据获得的S*S个第二网格的预测边框信息进行表格定位，包括：

根据获得的S*S个第二网格的预测边框信息计算S*S*B个预测边框的得分；

根据获得的S*S*B个预测边框的得分获取预测边框输出列表；

根据所述预测边框输出列表中预测边框的位置信息计算所述待定位表格在所述待处理图像中的坐标；

根据所述待处理文档页面的规格信息、所述待处理图像的规格信息以及获得的表格在待处理图像中的坐标获取所述待定位表格在所述待处理文档页面中的坐标；

根据获得的待定位表格在所述待处理文档页面中的坐标定位所述待定位表格。

所述根据获得的S*S个第二网格的预测边框信息计算S*S*B个预测边框的得分，包括：

对获得的每个第二网格的预测边框信息都进行如下操作：

在所述第二网格的预测边框信息中分别计算表格存在于该第二网格的概率与所述第二网格的B个预测边框的置信度的乘积，得到所述第二网格的B个预测边框的得分。

所述根据获得的S*S*B个预测边框的得分获取预测边框输出列表，包括：

获取S*S*B个预测边框的得分中得分最高的预测边框，添加到预先建立的过渡输出列表；

进行预测边框整合操作：计算得分最高的预测边框分别与不存在于所述过渡输出列表的预测边框的IoU值；将IoU值大于第四阈值的预测边框与得分最高的预测边框进行合并，以得到新的预测边框替换原得分最高的预测边框添加到所述预测边框输出列表，并将被合并的预测边框得分置为0；将IoU值大于第五阈值小于所述第四阈值的预测边框排除，并将排除的预测边框的得分置为0；

获取不存在于所述预测边框输出列表且得分最高的预测边框，对获得的预测边框进行所述预测边框整合操作，直到所有不存在于所述预测边框输出列表中的预测边框得分都为0，得到所述预测边框输出列表。

本申请还提供了一种表格边框预测模型的生成装置，包括：

第一获取模块，用于获取多张包含表格的样本文档页面，并将所述样本文档页面转换为图像作为样本图像；

第一处理模块，用于将每张样本文档页面划分为S*S个第一网格，并将每张样本图像划分为S*S个第二网格；

所述第一获取模块，还用于获取每张样本文档页面的S*S个第一网格所包含文本的语义信息，作为所述S*S个第一网格的语义信息；

所述第一获取模块，还用于获取每张样本图像的S*S个第二网格的预测边框信息；其中，每个所述第二网格的预测边框信息包括：表格存在于所述第二网格的概率、所述第二网格的B个预测边框的位置信息以及所述第二网格的B个预测边框的置信度；

所述第一处理模块，还用于将所有样本文档页面的S*S个第一网格的语义信息，以及所有样本图像的S*S个第二网格和S*S个预测边框信息作为训练样本集，迭代训练对象识别和定位模型，生成用于预测表格边框信息的表格边框预测模型。

本申请还提供了一种表格定位装置，包括：

第二获取模块，用于获取包含待定位表格的待处理文档页面，并将所述待处理文档页面转换为图像作为待处理图像；

第二处理模块，用于将所述待处理文档页面划分为S*S个第一网格，并将所述待处理图像划分为S*S个第二网格；

所述第二获取模块，还用于获取S*S个第一网格所包含文本的语义信息，作为所述S*S个第一网格的语义信息；

所述第二处理模块，还用于将所述S*S个第一网格语义信息和所述S*S个第二网格输入至上述所述的表格边框预测模型生成装置生成的表格边框预测模型，得到S*S个第二网格的预测边框信息；其中，每个所述第二网格的预测边框信息包括：表格存在于所述第二网格的概率、所述第二网格的B个预测边框的位置信息以及所述第二网格的B个预测边框的置信度；

所述第二处理模块，还用于根据获得的S*S个第二网格的预测边框信息进行表格定位。

与相关技术相比，本申请包括：获取多张包含表格的样本文档页面，并将所述样本文档页面转换为图像作为样本图像；将每张样本文档页面划分为S*S个第一网格，并将每张样本图像划分为S*S个第二网格；获取每张样本文档页面的S*S个第一网格所包含文本的语义信息，作为所述S*S个第一网格的语义信息；获取每张样本图像的S*S个第二网格的预测边框信息；其中，每个所述第二网格的预测边框信息包括：表格存在于所述第二网格的概率、所述第二网格的B个预测边框的位置信息以及所述第二网格的B个预测边框的置信度；将所有样本文档页面的S*S个第一网格的语义信息，以及所有样本图像的S*S个第二网格和S*S个预测边框信息作为训练样本集，迭代训练对象识别和定位模型，生成用于预测表格边框信息的表格边框预测模型。由于图像识别模型在训练过程中采用了大量训练样本并且融合了语义信息，而加入语义融合的图像识别网络对比普通图像识别网络能够从图像特征与语义特征两方面进行表格与其他文本或图片的区分，因此解决了在图像纹理特征相似情况下表格边框确定不佳的问题，实现了表格边框信息地较好预测，从而提高了表格边框确定的成功率，保证了后续表格定位过程的顺利进行。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请技术方案的理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本申请实施例提供的一种表格边框预测模型生成方法的流程示意图；

图2为相关技术中YOLO模型输出向量示意图；

图3为本申请实施例提供的图像识别模型的结构示意图；

图4为本申请实施例提供的表格定位方法的流程示意图；

图5为本申请实施例提供的一种表格边框预测模型生成装置的结构示意图；

图6为本申请实施例提供的一种表格定位装置的结构示意图。

具体实施方式

本申请描述了多个实施例，但是该描述是示例性的，而不是限制性的，并且对于本领域的普通技术人员来说显而易见的是，在本申请所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合，并在具体实施方式中进行了讨论，但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外，任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用，或可以替代任何其它实施例中的任何其他特征或元件。

本申请包括并设想了与本领域普通技术人员已知的特征和元件的组合。本申请已经公开的实施例、特征和元件也可以与任何常规特征或元件组合，以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合，以形成另一个由权利要求限定的独特的发明方案。因此，应当理解，在本申请中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此，除了根据所附权利要求及其等同替换所做的限制以外，实施例不受其它限制。此外，可以在所附权利要求的保护范围内进行各种修改和改变。

此外，在描述具有代表性的实施例时，说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而，在该方法或过程不依赖于本文所述步骤的特定顺序的程度上，该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的，其它的步骤顺序也是可能的。因此，说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外，针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤，本领域技术人员可以容易地理解，这些顺序可以变化，并且仍然保持在本申请实施例的精神和范围内。

本申请实施例提供一种表格边框预测模型生成方法，如图1所示，包括：

步骤101、获取多张包含表格的样本文档页面，并将样本文档页面转换为图像作为样本图像。

在一种示例性实例中，文档页面为PDF，将PDF转换为图像可以采用工具pdf2image实现。

步骤102、将每张样本文档页面划分为S*S个第一网格，并将每张样本图像划分为S*S个第二网格。

在一种示例性实例中，S＝7。

在一种示例性实例中，由于样本图像的第二网格要输入至图像识别模型，图像识别模型是经过改造的YOLO模型，而YOLO模型要求图像大小为448*448，因此将每张样本图像划分为S*S个第二网格之前，需要将每张样本图像变为448*448的大小。

步骤103、获取每张样本文档页面的S*S个第一网格所包含文本的语义信息，作为S*S个第一网格的语义信息。

在一种示例性实例中，获取每张样本文档页面的S*S个第一网格所包含文本的语义信息，作为S*S个第一网格的语义信息，包括：

对每张样本文档页面的每个第一网格执行以下操作：

首先、获取第一网格所包含文本的每种文本属性的数量、每种文本字体的字数、每种文本字号的字数、由多个文本组成的连续文本块的数量以及每种文本词性的分词所包含的字数。

其次、将获得的信息作为第一网格的语义信息。

在一种示例性实例中，文本属性种类包括：中文、英文、数字、空格、序号和其他属性。

在一种示例性实例中，组成连续文本块的多个文本满足以下条件：任意两个位于左右位置的文本中左文本的右边界与右文本的左边界的距离小于第一阈值，且上边界的距离差小于第二阈值，且下边界的距离差小于第三阈值。

在一种示例性实例中，当获得的第一网格所包含文本的语义信息满足以下至少一个条件：获得的文本属性的种类数不足P个，获得的文本字体的种类数不足Q个，获得的文本字号的种类数不足R个，获得的文本词性的种类数不足S个；其中，P、Q、R、S分别预定义的文本属性、文本字体、文本字号和文本词性存在的种类数。

获取第一网格所包含文本的每种文本属性的数量、每种文本字体的字数、每种文本字号的字数、由多个文本组成的连续文本块的数量以及每种文本词性的分词所包含的字数之后，且将获得的信息作为第一网格的语义信息之前，还包括：

用0补足所缺少的种类对应的位置。

在一种示例性实例中，词性包括：名词、动词、形容词、副词、代词、量词、介词、连词、助词。

在一种示例性实例中，语义信息可以以向量的形式进行表示。

在一种示例性实例中，假设(即预定义的文本属性为6种)，6种文本属性分别为：中文、英文、数字、空格、序号和其他属性；Q＝5(即预定义的文本字体为5种)，5种文本字体分别为：宋体、楷体、Times new Romar、黑体、隶书；R＝5(即预定义的文本字号为5种)，5种文本字号分别为：二号字体、小二号字体、三号字体、小三号字体和四号字体；S＝9(即预定义的文本词性为9种)，9种文本词性分别为：名词、动词、形容词、副词、代词、量词、介词、连词、助词。假设获得的第一网络所包含文本的文本属性只有两种，分别是中文和数字，且中文的文本数量为2，数字的文本数量为8；获得的第一网格所包含文本的文本字体只有2种，分别是宋体和Times new Romar，宋体的字体个数为5个，Times new Romar的字体个数为5个；获得的第一网格所包含文本的文本字号只有小三号字体和四号字体两种，且小三号字体的字数为6个，四号字体的个数为4个；获得的第一网格所包含的连续文本块的数量为2；获得的第一网格所包含文本的文本词性有1种，为名词，名词词性的分词所包含的字数为10。则当该第一网格的语义信息以向量的形式表示时，该向量为：(2，0，8，0，0，0，5，0，5，0，0，0，0，0，6，4，2，10，0，0，0，0，0，0，0，0)一组26维向量，其中：(2，0，8，0，0，0)表示每种文本属性的数量，(5，0，5，0，0)表示每种文本字体的字数，(0，0，0，6，4)表示每种文本字号的字数，(2)表示由多个文本组成的连续文本块的数量，(10，0，0，0，0，0，0，0，0)表示每种文本词性的分词所包含的字数。

步骤104、获取每张样本图像的S*S个第二网格的预测边框信息；其中，每个第二网格的预测边框信息包括：表格存在于第二网格的概率、第二网格的B个预测边框的位置信息以及第二网格的B个预测边框的置信度。

在一种示例性实例中，预测边框的位置信息包括：

预测边框的中心点相对于所属第二网格左上角坐标的偏移值，以及预测边框的宽与高。

在一种示例性实例中，预测边框信息可以以向量的形式进行表示。

在一种示例性实例中，预测边框的置信度包括：预测边框含有表格的概率*预测边框与表格的实际边框的交并比(Intersection over Union，IoU)。

步骤105、将所有样本文档页面的S*S个第一网格的语义信息，以及所有样本图像的S*S个第二网格和S*S个预测边框信息作为训练样本集，迭代训练图像识别模型，生成用于预测表格边框信息的表格边框预测模型。

在一种示例性实例中，图像识别模型包括：两个输入层，其中一个输入层后连接多个卷积池化及全连接层，一个输入层后连接多个全连接层，两个输入层经过各自的结构后连接一个融合层进行融合，融合层后再连接全连接层与输出层。

在一种示例性实例中，图像识别模型的图像输入层与输出层参考YOLO算法的输入输出。原始的YOLO算法的输入输出设置包括：

首先、将图片resize为448*448，划分成7*7的网格。

其次、.输出向量构造：每个网格要预测落在该网格的物体类别概率及2个边框(bounding box)信息，每个bounding box预测信息包含自身位置信息(坐标由四位组成(x，y，w，h)，(x，y)是bounding box中心点相对于每个网格左上角坐标点的偏移值，而w和h预测值是bounding box的宽与高)和置信度(confidence)值。因此，输出向量示意图可以如图2所示。在本实施例中，输入选择的参数是7*7网格，输出2个bounding box，1种对象，因此输出向量长度＝1+2*(4+1)＝11。整个输出的张量(tensor)就是7*7*11。

在一种示例性实例中，本申请实施例提供的图像识别模型的结构示意图可以如图3所示，包含多层卷积池化层和全连接层，对于卷积层和全连接层，采用Leaky ReLU激活函数：max(x，0.1x)；语义输入层后连接2个全连接层，采用Leaky ReLU激活函数：max(x，0.1x)。在两个全连接层后连接一个融合层，将两边的全连接层输出融合，再接一个全连接层，最后是输出层。

在一种示例性实例中，将所有样本文档页面的S*S个第一网格的语义信息，以及所有样本图像的S*S个第二网格和S*S个预测边框信息作为训练样本集，迭代训练图像识别模型，生成用于预测表格边框信息的表格边框预测模型，包括：

首先、将所有样本文档页面的S*S个第一网格的语义信息输入至图像识别模型的一个输入层。

其次、将所有样本文档页面的S*S个第二网格输入至图像识别模型的另一个输入层。

再次、将所有样本图像的S*S个预测边框信息输入至图像识别模型的输出层。

最后、根据预先设定的损失函数，利用反向传播算法对图像识别模型进行迭代训练、调整图像识别模型的参数，直到损失函数的损失值收敛，得到预测边框模型。

本申请实施例提供的表格边框预测模型生成方法，由于图像识别模型在训练过程中采用了大量训练样本并且融合了语义信息，而加入语义融合的图像识别网络对比普通图像识别网络能够从图像特征与语义特征两方面进行表格与其他文本或图片的区分，因此解决了在图像纹理特征相似情况下表格边框确定不佳的问题，实现了表格边框信息地较好预测，从而提高了表格边框确定的成功率，保证了后续表格定位过程的顺利进行。

本申请实施例还提供一种表格定位方法，如图4所示，包括：

步骤201、获取包含待定位表格的待处理文档页面，并将待处理文档页面转换为图像作为待处理图像。

步骤202、将待处理文档页面划分为S*S个第一网格，并将待处理图像划分为S*S个第二网格。

步骤203、获取S*S个第一网格所包含文本的语义信息，作为S*S个第一网格的语义信息。

在一种示例性实例中，获取S*S个第一网格所包含文本的语义信息，作为S*S个第一网格的语义信息，包括：

对每个第一网格执行以下操作：

其次、将获得的信息作为第一网格的语义信息。

步骤204、将S*S个第一网格语义信息和S*S个第二网格输入至上述任意一种实施例描述的表格边框预测模型生成方法生成的表格边框预测模型，得到S*S个第二网格的预测边框信息；其中，每个第二网格的预测边框信息包括：表格存在于第二网格的概率、第二网格的B个预测边框的位置信息以及第二网格的B个预测边框的置信度。

用0补足所缺少的种类对应的位置。

步骤205、根据获得的S*S个第二网格的预测边框信息进行表格定位。

在一种示例性实例中，根据获得的S*S个第二网格的预测边框信息进行表格定位，包括：

首先、根据获得的S*S*B个预测边框的得分获取预测边框输出列表。

其次、根据预测边框输出列表中预测边框的位置信息计算待定位表格在待处理图像中的坐标。

再次、根据待处理文档页面的规格信息、待处理图像的规格信息以及获得的表格在待处理图像中的坐标获取待定位表格在待处理文档页面中的坐标。

在一种示例性实例中，当待处理文档页面为PDF，待处理图像为JPEG，假设PDF的规格信息为长a宽b，JPEG的规格信息为长c宽d，获得的表格在待处理图像(JPEG)中的坐标为[l，t，r，b]，则待定位表格在待处理文档(PDF)中的坐标坐标为：

loc'[0]＝loc[0]*b/d

loc'[1]＝loc[1]*a/c

loc'[2]＝loc[2]*b/d

loc'[3]＝loc[3]*a/c

最后、根据获得的待定位表格在待处理文档页面中的坐标定位待定位表格。

在一种示例性实例中，根据获得的S*S个第二网格的预测边框信息计算S*S*B个预测边框的得分，包括：

对获得的每个第二网格的预测边框信息都进行如下操作：

在第二网格的预测边框信息中分别计算表格存在于该第二网格的概率与第二网格的B个预测边框的置信度的乘积，得到第二网格的B个预测边框的得分。

在一种示例性实例中，根据获得的S*S*B个预测边框的得分获取预测边框输出列表，包括：

首先、获取S*S*B个预测边框的得分中得分最高的预测边框，添加到预先建立的过渡输出列表；

其次、计算得分最高的预测边框分别与不存在于过渡输出列表的预测边框的IoU值；将IoU值大于第四阈值的预测边框与得分最高的预测边框进行合并，以得到新的预测边框替换原得分最高的预测边框添加到预测边框输出列表，并将被合并的预测边框得分置为0；将IoU值大于第五阈值小于第四阈值的预测边框排除，并将排除的预测边框的得分置为0。

最后、获取不存在于预测边框输出列表且得分最高的预测边框，对获得的预测边框进行预测边框整合操作，直到所有不存在于预测边框输出列表中的预测边框得分都为0，得到预测边框输出列表。

在一种示例性实例中，根据获得的S*S*B个预测边框的得分获取预测边框输出列表采用的改进的非极大值抑制(Non-Maximal Suppression，NMS)算法，由于表格与表格之间不能重叠，相比于原始的NMS，改进的NMS在筛选表格目标时，设定两个阈值：第三阈值和第四阈值，第三阈值可以等于0.7，第四阈值可以等于0。

本申请实施例提供的表格定位方法，由于图像识别模型在训练过程中采用了大量训练样本并且融合了语义信息，而加入语义融合的图像识别网络对比普通图像识别网络能够从图像特征与语义特征两方面进行表格与其他文本或图片的区分，因此解决了在图像纹理特征相似情况下表格边框确定不佳的问题，基于所预测的表格边框信息实现了表格边框的确定，从而实现了表格地定位，保证了后续表格抽取过程的顺利进行。

本申请实施例还提供一种表格边框预测模型生成装置，如图5所示，该表格边框预测模型生成装置3包括：

第一获取模块31，用于获取多张包含表格的样本文档页面，并将样本文档页面转换为图像作为样本图像。

第一处理模块32，用于将每张样本文档页面划分为S*S个第一网格，并将每张样本图像划分为S*S个第二网格。

第一获取模块31，还用于获取每张样本文档页面的S*S个第一网格所包含文本的语义信息，作为S*S个第一网格的语义信息。

第一获取模块31，还用于获取每张样本图像的S*S个第二网格的预测边框信息；其中，每个第二网格的预测边框信息包括：表格存在于第二网格的概率、第二网格的B个预测边框的位置信息以及第二网格的B个预测边框的置信度。

第一处理模块32，还用于将所有样本文档页面的S*S个第一网格的语义信息，以及所有样本图像的S*S个第二网格和S*S个预测边框信息作为训练样本集，迭代训练图像识别模型，生成用于预测表格边框信息的表格边框预测模型。

在一种示例性实例中，第一获取模块31具体用于：

对每张样本文档页面的每个第一网格执行以下操作：

获取第一网格所包含文本的每种文本属性的数量、每种文本字体的字数、每种文本字号的字数、由多个文本组成的连续文本块的数量以及每种文本词性的分词所包含的字数；

将获得的信息作为第一网格的语义信息。

在一种示例性实例中，预测边框的位置信息包括：

在一种示例性实例中，预测边框的置信度包括：预测边框含有表格的概率*预测边框与表格的实际边框的交并比IoU。

在一种示例性实例中，第一处理模块32具体用于：

将所有样本文档页面的S*S个第一网格的语义信息输入至图像识别模型的一个输入层。

将所有样本文档页面的S*S个第二网格输入至图像识别模型的另一个输入层。

将所有样本图像的S*S个预测边框信息输入至图像识别模型的输出层。

根据预先设定的损失函数，利用反向传播算法对图像识别模型进行迭代训练、调整图像识别模型的参数，直到损失函数的损失值收敛，得到预测边框模型。

本申请实施例提供的表格边框预测模型生成装置，由于图像识别模型在训练过程中采用了大量训练样本并且融合了语义信息，而加入语义融合的图像识别网络对比普通图像识别网络能够从图像特征与语义特征两方面进行表格与其他文本或图片的区分，因此解决了在图像纹理特征相似情况下表格边框确定不佳的问题，实现了表格边框信息地较好预测，从而提高了表格边框确定的成功率，保证了后续表格定位过程的顺利进行。

在实际应用中，所述第一获取模块31和第一处理模块32由位于表格边框预测模型生成装置中的中央处理器(Central Processing Unit，CPU)、微处理器(Micro ProcessorUnit，MPU)、数字信号处理器(Digital Signal Processor，DSP)或现场可编程门阵列(Field Programmable Gate Array，FPGA)等实现。

本申请实施例还提供一种表格定位装置，如图4所示，该表格定位装置4包括：

第二获取模块41，用于获取包含待定位表格的待处理文档页面，并将待处理文档页面转换为图像作为待处理图像。

第二处理模块42，用于将待处理文档页面划分为S*S个第一网格，并将待处理图像划分为S*S个第二网格。

第二获取模块41，还用于获取S*S个第一网格所包含文本的语义信息，作为S*S个第一网格的语义信息。

第二处理模块42，还用于将S*S个第一网格语义信息和S*S个第二网格输入至至上述任意一种实施例描述的表格边框预测模型生成方法生成的表格边框预测模型，得到S*S个第二网格的预测边框信息；其中，每个第二网格的预测边框信息包括：表格存在于第二网格的概率、第二网格的B个预测边框的位置信息以及第二网格的B个预测边框的置信度。

第二处理模块42，还用于根据获得的S*S个第二网格的预测边框信息进行表格定位。

在一种示例性实例中，第二处理模块42具体用于：

对每个第一网格执行以下操作：

获取所述第一网格所包含文本的每种文本属性的数量、每种文本字体的字数、每种文本字号的字数、由多个文本组成的连续文本块的数量以及每种文本词性的分词所包含的字数。

将获得的信息作为第一网格的语义信息。

在一种示例性实例中，当获得的第一网格所包含文本的语义信息满足以下至少一个条件：获得的文本属性的种类数不足P个，获得的文本字体的种类数不足Q个，获得的文本字号的种类数不足R个，获得的文本词性的种类数不足S个；其中，所述P、Q、R、S分别预定义的文本属性、文本字体、文本字号和文本词性存在的种类数。

在一种示例性实例中，第二处理模块42具体用于：

根据获得的S*S个第二网格的预测边框信息计算S*S*B个预测边框的得分。

根据获得的S*S*B个预测边框的得分获取预测边框输出列表。

根据预测边框输出列表中预测边框的位置信息计算待定位表格在待处理图像中的坐标。

根据待处理文档页面的规格信息、待处理图像的规格信息以及获得的表格在待处理图像中的坐标获取待定位表格在待处理文档页面中的坐标。

根据获得的待定位表格在待处理文档页面中的坐标定位待定位表格。

在一种示例性实例中，第二处理模块42具体还用于：

对获得的每个第二网格的预测边框信息都进行如下操作：

在一种示例性实例中，第二处理模块42具体还用于：

获取S*S*B个预测边框的得分中得分最高的预测边框，添加到预先建立的过渡输出列表。

进行预测边框整合操作：计算得分最高的预测边框分别与不存在于所述过渡输出列表的预测边框的IoU值；将IoU值大于第四阈值的预测边框与得分最高的预测边框进行合并，以得到新的预测边框替换原得分最高的预测边框添加到所述预测边框输出列表，并将被合并的预测边框得分置为0；将IoU值大于第五阈值小于所述第四阈值的预测边框排除，并将排除的预测边框的得分置为0。

本申请实施例提供的表格定位装置，由于图像识别模型在训练过程中采用了大量训练样本并且融合了语义信息，而加入语义融合的图像识别网络对比普通图像识别网络能够从图像特征与语义特征两方面进行表格与其他文本或图片的区分，因此解决了在图像纹理特征相似情况下表格边框确定不佳的问题，基于所预测的表格边框信息实现了表格边框的确定，从而实现了表格地定位，保证了后续表格抽取过程的顺利进行。

在实际应用中，所述第二获取模块41和第二处理模块42位于表格定位装置中的CPU、MPU、DSP或FPGA等实现。

本申请实施例还提供一种表格处理装置，包括：处理器和存储器，其中，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时实现如上述任意一种所述的方法的处理。

本申请实施例还提供一种存储介质，存储介质上存储有计算机可执行命令，计算机可执行命令用于执行如上述任意一种所述的方法的处理。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

1.一种表格边框预测模型生成方法，其特征在于，包括：

将所有样本文档页面的S*S个第一网格的语义信息，以及所有样本图像的S*S个第二网格和S*S个预测边框信息作为训练样本集，迭代训练图像识别模型，生成用于预测表格边框信息的表格边框预测模型；

所述图像识别模型包括：两个输入层，其中一个输入层后连接多个卷积池化及全连接层，一个输入层后连接多个全连接层，两个输入层经过各自的结构后连接一个融合层进行融合，所述融合层后再连接全连接层与输出层；

所述将所有样本文档页面的S*S个第一网格的语义信息，以及所有样本图像的S*S个第二网格和S*S个预测边框信息作为训练样本集，迭代训练图像识别模型，生成用于预测表格边框信息的表格边框预测模型，包括：

将所述所有样本文档页面的S*S个第二网格输入至所述图像识别模型另一个输入层；

根据预先设定的损失函数，利用反向传播算法对所述图像识别模型进行迭代训练、调整所述图像识别模型的参数，直到损失函数的损失值收敛，得到所述预测边框模型。

2.根据权利要求1所述的方法，其特征在于，所述获取每张样本文档页面的S*S个第一网格所包含文本的语义信息，作为S*S个第一网格的语义信息，包括：

对每张样本文档页面的每个第一网格执行以下操作：

将获得的信息作为所述第一网格的语义信息。

3.根据权利要求2所述的方法，其特征在于，所述文本属性种类包括：中文、英文、数字、空格、序号和其他属性。

4.根据权利要求2所述的方法，其特征在于，组成所述连续文本块的多个文本满足以下条件：任意两个位于左右位置的文本中左文本的右边界与右文本的左边界的距离小于第一阈值，且上边界的距离差小于第二阈值，且下边界的距离差小于第三阈值。

5.根据权利要求2所述的方法，其特征在于，当获得的第一网格所包含文本的语义信息满足以下至少一个条件：获得的文本属性的种类数不足P个，获得的文本字体的种类数不足Q个，获得的文本字号的种类数不足R个，获得的文本词性的种类数不足S个；其中，所述P、Q、R、S分别预定义的文本属性、文本字体、文本字号和文本词性存在的种类数；

用0补足所缺少的种类对应的位置。

6.根据权利要求1所述的方法，其特征在于，所述预测边框的位置信息包括：

7.根据权利要求1所述的方法，其特征在于，所述预测边框的置信度包括：所述预测边框含有表格的概率*所述预测边框与表格的实际边框的交并比IoU。

8.一种表格定位方法，其特征在于，包括：

将所述S*S个第一网格语义信息和所述S*S个第二网格输入至如权利要求1-7任一项所述的表格边框预测模型生成方法生成的表格边框预测模型，得到S*S个第二网格的预测边框信息；其中，每个所述第二网格的预测边框信息包括：表格存在于所述第二网格的概率、所述第二网格的B个预测边框的位置信息以及所述第二网格的B个预测边框的置信度；

根据获得的S*S个第二网格的预测边框信息进行表格定位。

9.根据权利要求8所述的方法，其特征在于，所述获取S*S个第一网格所包含文本的语义信息，作为S*S个第一网格的语义信息，包括：

对每个第一网格执行以下操作：

将获得的信息作为所述第一网格的语义信息。

10.根据权利要求9所述的方法，其特征在于，所述文本属性种类包括：中文、英文、数字、空格、序号和其他属性。

11.根据权利要求9所述的方法，其特征在于，组成所述连续文本块的多个文本满足以下条件：任意两个位于左右位置的文本中左文本的右边界与右文本的左边界的距离小于第一阈值，且上边界的距离差小于第二阈值，且下边界的距离差小于第三阈值。

12.根据权利要求9所述的方法，其特征在于，当获得的第一网格所包含文本的语义信息满足以下至少一个条件：获得的文本属性的种类数不足P个，获得的文本字体的种类数不足Q个，获得的文本字号的种类数不足R个，获得的文本词性的种类数不足S个；其中，所述P、Q、R、S分别预定义的文本属性、文本字体、文本字号和文本词性存在的种类数；

用0补足所缺少的种类对应的位置。

13.根据权利要求8所述的方法，其特征在于，所述根据获得的S*S个第二网格的预测边框信息进行表格定位，包括：

根据获得的S*S*B个预测边框的得分获取预测边框输出列表；

14.根据权利要求13所述的方法，其特征在于，所述根据获得的S*S个第二网格的预测边框信息计算S*S*B个预测边框的得分，包括：

对获得的每个第二网格的预测边框信息都进行如下操作：

15.根据权利要求13所述的方法，其特征在于，所述根据获得的S*S*B个预测边框的得分获取预测边框输出列表，包括：

16.一种表格边框预测模型的生成装置，其特征在于，包括：

所述第一处理模块，还用于将所有样本文档页面的S*S个第一网格的语义信息，以及所有样本图像的S*S个第二网格和S*S个预测边框信息作为训练样本集，迭代训练图像识别模型，生成用于预测表格边框信息的表格边框预测模型；

图像识别模型包括：两个输入层，其中一个输入层后连接多个卷积池化及全连接层，一个输入层后连接多个全连接层，两个输入层经过各自的结构后连接一个融合层进行融合，融合层后再连接全连接层与输出层；

第一处理模块具体用于：

将所有样本文档页面的S*S个第一网格的语义信息输入至图像识别模型的一个输入层；

将所有样本文档页面的S*S个第二网格输入至图像识别模型的另一个输入层；

将所有样本图像的S*S个预测边框信息输入至图像识别模型的输出层；

17.一种表格定位装置，其特征在于，包括：

所述第二处理模块，还用于将所述S*S个第一网格语义信息和所述S*S个第二网格输入至如权利要求16所述的表格边框预测模型生成装置生成的表格边框预测模型，得到S*S个第二网格的预测边框信息；其中，每个所述第二网格的预测边框信息包括：表格存在于所述第二网格的概率、所述第二网格的B个预测边框的位置信息以及所述第二网格的B个预测边框的置信度；