CN110532834A

CN110532834A - 基于富文本格式文档的表格提取方法、装置、设备和介质

Info

Publication number: CN110532834A
Application number: CN201810507514.4A
Authority: CN
Inventors: 林得苗
Original assignee: Beijing Paoding Technology Co Ltd
Current assignee: Beijing Paoding Technology Co Ltd
Priority date: 2018-05-24
Filing date: 2018-05-24
Publication date: 2019-12-03
Anticipated expiration: 2038-05-24
Also published as: US10963632B2; US20190361972A1; CN110532834B

Abstract

本发明公开了基于富文本格式文档的表格提取方法、装置、设备和介质。所述方法包括：获取页面内容；通过预设表格检测模型，对页面内容进行表格检测处理，得到表格标签列表，以及得到第一表格内容；依据预设画贯穿线模型，对第一表格内容进行画贯穿线处理，得到惯穿线标签列表，以及得到第二表格内容；基于预设单元表格合并模型，对第二表格内容进行表格单元合并处理，得到短线标签列表，以及得到显性表格内容。根据本发明实施例提供的方案，通过预先训练出预设表格检测模型、预设画贯穿线模型和预设单元表格合并模型的这3个模型，可以将隐性表格内容提出出来，以得到显性表格内容。

Description

基于富文本格式文档的表格提取方法、装置、设备和介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于富文本格式文档的表格提取方法、装置、设备和介质。

背景技术

现有技术中富文本格式文档是包括但不限于文件扫描件、跨平台文件格式和网页等，其中跨平台文件格式包括PDF文档、Word文档等，它们是标题、文字章节和段落、表格和图像等组成成分的复合有机排版。

表格是一种对于人而言包含丰富的信息，并且对于机器而言有高度的结构化形式的数据结构，因此提取富文本格式文档中的表格数据有很大的研究价值和应用价值。

但是，目前对富文本格式文档中的隐性表格并没有很好的提取方法，无法准确地提取富文本格式文档中的隐性表格。

发明内容

本发明实施例提供基于富文本格式文档的表格提取方法、装置、设备和介质，可以准确地提取富文本格式文档中的隐性表格。

根据本发明实施例的一方面，提供一种基于富文本格式文档的表格提取方法，所述表格提取方法包括：

获取富文本格式文档，所述富文本格式文档包括至少一张页面内容；

通过预设表格检测模型，对所述富文本格式文档中所述页面内容进行表格检测处理，得到表格标签列表，以及依据所述页面内容和所述表格标签列表，得到第一表格内容；

依据预设画贯穿线模型，对所述第一表格内容进行画贯穿线处理，得到惯穿线标签列表，以及依据所述第一表格内容和所述惯穿线标签列表，得到第二表格内容；

基于预设单元表格合并模型，对所述第二表格内容进行表格单元合并处理，得到短线标签列表，以及依据短线标签列表和所述第二表格内容，得到显性表格内容。

根据本发明实施例的另一方面，提供一种基于富文本格式文档的表格提取装置，所述表格提取装置包括：

获取模块、预设表格检测模块、预设画贯穿线模块和预设单元表格合并模块；

所述获取模块，用于获取富文本格式文档，所述富文本格式文档包括至少一张页面内容；

所述预设表格检测模块，用于对所述富文本格式文档中所述页面内容进行表格检测处理，得到表格标签列表，以及依据所述页面内容和所述表格标签列表，得到表格内容；

所述预设画贯穿线模块，用于对所述表格内容进行画贯穿线处理，得到惯穿线标签列表，以及依据所述表格内容和所述惯穿线标签列表，得到第二表格内容；

所述预设单元表格合并模块，用于对所述第二表格内容进行表格单元合并处理，得到短线标签列表，以及依据短线标签列表和所述第二表格内容，得到显性表格内容。

根据本发明实施例的再一方面，提供一种设备，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如第一方面所述的表格提取方法。

根据本发明实施例的再一方面，提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现第一方面所述的表格提取方法。

根据本发明实施例中的表格提取方法、装置、设备和介质，通过预设表格检测模型、预设画贯穿线模型和预设单元表格合并模型，可以提取富文本格式文档中的隐性表格内容，以得到显性表格内容。不但提高了提取的效率，同时也提高了提取的精度，能够准确地将隐性表格内容提取出来。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作简单地介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术中深度卷积神经网络的网络结构的结构示意图；

图2是示出本发明实施例的基于富文本格式文档的表格提取方法的流程图；

图3是示出本发明实施例的页面内容的示意图；

图4是示出本发明实施例检测的隐性表格的示意图；

图5是示出本发明实施例画贯穿线处理的示意图；

图6是示出本发明实施例表格单元合并处理的示意图；

图7是示出本发明实施例的页面内容分区的示意图；

图8示出本发明实施例的基于富文本格式文档的表格提取装置的结构示意图；

图9示出本发明实施例的预设表格检测模块的结构示意图；

图10示出本发明另一实施例的预设表格检测模块的详细结构示意图；

图11是示出能够实现根据本发明实施例的表格提取方法和装置的计算设备的示例性硬件架构的结构图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在本发明实施例中主要是采用如下三个模型，如：预设表格检测模型、预设画贯穿线模型和预设单元表格合并模型。这三个模型都可以通过深度卷积神经网络的训练方法训练得到的，当然在本申请中并不限制采用深度卷积神经网络，也可以采用其他的训练方法可以得到。

图1是现有技术中深度卷积神经网络的网络结构的结构示意图。

深度卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。

可以理解的是，如图1所示，例如：输入图像通过和三个可训练的滤波器和可加偏置进行卷积。卷积后在C1层产生三个特征映射图，然后特征映射图中每组的四个像素再进行求和，加权值，加偏置，通过一个Sigmoid函数得到三个S2层的特征映射图。这些映射图再经过滤波得到C3层。这个层级结构再和S2一样产生S4。最终，这些像素值被光栅化，并连接成一个向量输入到传统的神经网络，得到输出。

一般的，C层为特征提取层，C层可以包括C1层和C3层。每个神经元的输入与前一层的局部感受野相连，并提取该局部的特征，一旦该局部特征被提取后，它与其他特征间的位置关系也随之确定下来。

S层是特征映射层，S层包括S2层和S4层。网络的每个特征映射层由多个特征映射组成，每个特征映射为一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。

此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数，降低了网络参数选择的复杂度。卷积神经网络中的每一个特征提取层都紧跟着一个用来求局部平均与二次提取的特征映射层，这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力。

在本发明实施例中通过采用深度卷积神经网络训练出3个模型，通过这3个模型，可以将富文本格式文档中的隐性表格内容提出出来，以得到显性表格内容。

为了更好的理解本发明，下面将结合附图，详细描述根据本发明实施例的表格提取方法、装置、设备和介质，应注意，这些实施例并不是用来限制本发明公开的范围。

图2是示出本发明实施例的基于富文本格式文档的表格提取方法的流程图。图3是示出本发明实施例的页面内容的示意图。图4是示出本发明实施例检测的隐性表格的示意图。图5是示出本发明实施例画贯穿线处理的示意图。图6是示出本发明实施例表格单元合并处理的示意图。

如图2所示，本实施例中的基于富文本格式文档的表格提取方法100包括以下步骤：

步骤S110，获取富文本格式文档，富文本格式文档包括至少一张页面内容。

在该步骤中，富文本格式文档是包括但不限于文件扫描件、跨平台文件格式和网页等，其中跨平台文件格式包括PDF文档、Word文档等，它们是标题、文字章节和段落、表格和图像等组成成分的复合有机排版。

在本申请发明实施例中是以图片的形式获取富文本格式文档中的每页页面内容。如图3所示，每页的页面内容包括该页面中的所有线条；色块如：红色和黑色；文本框的位置，如：第24页第一个表格；文本框的内容以及一些其他的视觉信息。

步骤S120，通过预设表格检测模型，对富文本格式文档中页面内容进行表格检测处理，得到表格标签列表，以及依据页面内容和表格标签列表，得到第一表格内容。

在该步骤中，预设表格检测模型先检测富文本格式文档中页面内容是否有隐性表格，若是有隐性表格，则需要将该隐性表格的位置信息提取出来，形成表格标签列表。

在一示例中，表格标签列表是包括：该隐性表格的左上角的横坐标、该隐性表格的左上角的纵坐标、隐性表格的宽度和隐性表格的高度。

如图4所示，检测隐性表格是通过预设表格检测模型区域预测出来的。

检测第一个隐性表格区域和第二个隐性表格区域，将第一个隐性表格区域的左上角的横坐标、纵坐标、宽度和高度检测出来，做成第一个隐性表格的表格标签。第二个隐性表格区域的左上角的横坐标、纵坐标、宽度和高度检测出来，做成第二个隐性表格的表格标签。然后将第一个隐性表格的表格标签和第二个隐性表格的表格标签组成表格标签列表。

步骤S130，依据预设画贯穿线模型，对表格内容进行画贯穿线处理，得到惯穿线标签列表，以及依据表格内容和惯穿线标签列表，得到第二表格内容。

在该步骤中，如图5所示，主要将步骤S120中检测出的隐性表格进行画贯穿线，贯穿线包括：横贯穿线和纵贯穿线。在画完贯穿线后，会记录每条横贯穿线和每条纵贯穿线的坐标，从形成惯穿线标签列表。

步骤S140，基于预设单元表格合并模型，对第二表格内容进行表格单元合并处理，得到短线标签列表，以及依据短线标签列表和第二表格内容，得到显性表格内容。

在该步骤中，如图6所示，将步骤S130中第二表格内容进行表格单元合并处理。即：先将惯穿线分成短线，得到短线标签列表，通过短线标签列表确定合并的短线，得到显性表格，将隐性表格的内容填充到显性表格中，得到显性表格内容。

根据本发明实施例的方法，通过预设表格检测模型、预设画贯穿线模型和预设单元表格合并模型，可以将富文本格式文档中的隐性表格内容提出出来，以得到显性表格内容。不但提高了提取的效率，同时也提高了提取的精度，能够准确地将隐性表格内容提取出来。

下面通过实施例说明关于预设表格检测模型、预设画贯穿线模型和预设单元表格合并模型的训练处理过程。

在一实施例中步骤120包括：

步骤121，对页面内容进行渲染处理，得到页面内容的页面内容张量。

在该步骤中，从页面内容中提取文本信息和视觉信息，将文本信息做成文本信息张量，将视觉信息做成视觉信息张量。其中视觉信息诸如：色块信息、线条信息等，是人眼视觉所能察觉感知到的用于排版或区分的信息。将文本信息张量和视觉信息张量拼起来，组成最终的页面内容张量。

步骤122，根据第一预设训练参数和页面内容张量，得到表格标签列表。

在该步骤中，将页面内容张量输入到预设表格检测模型中，可以输出表格标签张量，通过输出的表格标签张量对应得到表格标签列表。

需要说明的是，该表格标签张量的第一个维度代表的是行数m，该表格标签张量的第二个维度代表的是列数n，该表格标签张量的第三个维度代表的是5维，这5个维度的分量分别表示该区域中是否有表格、表格的中心点横坐标、表格的中心点纵坐标、表格的高度和表格的宽度，且m和n均为大于0的整数。例如：可以使用标码0和1表示，有表格的标码为1，没有表格的标码为0，剩下的4个维度的分量标码都为0。

图7是示出本发明实施例的页面内容分区的示意图。

在一示例中，将每张页面内容划分成m×n个区域，确定每个包含表格的区域的表格标签张量，m和n确定每个区域只包含一个表格且每个表格只属于一个区域。

如图7所示，在一张页面内容中有4个表格，每个区域只包含一个表格且每个表格只属于一个区域，所以只能够最小划分成2×2个区域。

因此，该表格标签列表由这四个区域的每个区域的左上角的横坐标、纵坐标、宽度和高度组成。

在一实施例中，对于步骤122可以通过以下步骤进行说明。

步骤1221，根据第一预设训练参数计算页面内容张量，确定页面内容的特征张量。

在该步骤中，通过使用预先训练好的第一预设训练参数来计算输入的页面内容张量。而第一预设训练参数可以是通过训练深度卷积神经网络得到的参数。

该第一预设训练参数是通过预先将页面内容张量作为深度卷积神经网络的输入，将表格标签张量作为深度卷积神经网络的输出训练得到的。

而在深度卷积神经网络训练时，会根据第一预设训练参数提取输入的页面内容张量，得到页面内容的特征张量。

进一步地，在一示例中，该第一预设训练参数是通过页面内容的特征张量和预设表格标签张量构建第一目标函数时，确定的参数。

可以理解的是，在本发明实施例中该第一目标函数可以为平方误差J(θ)损失函数，即通过对页面内容的特征张量和表格标签张量计算的最小二乘损失函数，通过最小化该损失函数J(θ)来极大化数据的似然估计。

下面公式(1)是J(θ)损失函数。

xⁱ表示第i个页面内容张量，h_θ(xⁱ)表示第i个页面内容张量经过深度卷积神经网络后得到页面内容的特征张量，θ是神经网络的参数，yⁱ表示表格标签张量，n表示页面内容张量的总数，avg是将第i个页面内容张量中所有元素的平均值。

使用批处理梯度下降法进行深度卷积神经网络的参数更新，得到第一预设训练参数。参数更新的过程如下：

第一步，求导，即求出第一目标函数对神经网络中每个参数的导数。如按照公式(2)将J(θ)对θ求偏导，得到每个θ对应的梯度。

第二步，由于需要最小化该损失函数J(θ)，所以按照公式(3)也就是每个参数θ的梯度负方向，来更新每个θ，从而确定第一预设训练参数。

其中，η是超参学习率，θ_i表示是第i个神经网络的参数，表示损失函数J(θ)对第i个神经网络的参数的导数，θ_i′表示更新后的第i个神经网络的参数。

当然还可以使用随机梯度下降法进行深度卷积神经网络的参数更新，本发明实施例对此不再做详细的过程解析。

步骤1222，遍历特征张量中每个区域的表格信息，确定预测值，

当预测值大于预设信度阈值时，则判断该区域包含表格，或者，当预测值小于预设信度阈值时，则判断该区域不包含表格。在该步骤中，通过遍历该特征张量每个区域中的表格信息,确定预测向量，该预测向量的维度为5维，如果该预测向量的第1维的预测值大于预设信度阈值，预设信度阈值可以为0.5，则该预设表格检测模型认为此区域中包含表格，而且该表格的中心点横坐标、中心点纵坐标、宽度和高度是该预测向量的第2至5维。如果第1维的预测值小于预设信度阈值，则该预设表格检测模型认为此区域不包含表格。

步骤1223，确定每个包含表格的区域的表格标签，得到表格标签列表。

在该步骤中，通过确定每个包含表格的区域的表格标签张量，可以得到该包含表格的区域的表格标签，通过所有包含表格的区域的表格标签，得到表格标签列表。

在一实施例中，页面内容的特征张量的维度与预设表格标签张量的维度相同。比如：预设表格标签张量的维度是K维，则页面内容的特征张量的维度也是K维。

在一实施例中，步骤130可以通过以下步骤实现。

步骤131，对第一表格内容进行渲染处理，得到第二表格内容张量。

在该步骤中，该渲染处理的过程与步骤121中的渲染处理是相同的，只是在此是对表格内容进行渲染处理，而步骤121中是对页面内容进行渲染处理。

步骤132，根据第二表格内容张量和第二预设训练参数，得到惯穿线标签列表。

在本发明实施例中，通过将第二表格内容张量作为深度卷积神经网络的输入，将贯穿线标签张量作为输出，训练得到的第二预设训练参数，通过该第二预设训练参数和第二表格内容张量，可以预测到的惯穿线标签列表。

在一实施例中，第二预设训练参数是由第二表格内容的特征张量和预设贯穿线标签张量确定的参数，第二表格内容的特征张量是通过对第一表格内容进行特征提取得到的参数，预设贯穿线标签张量是由多条贯穿线向量组成，每条贯穿线向量是指每个区域的中心线向量。

需要理解的是，由于一条横贯穿线向上或向下偏移一点对表格划分没有影响，也就是在一个纵坐标区域内任意选一条横贯穿线就可以，因此为了简化预设画贯穿线模型的学习训练难度，每条贯穿线向量是每个区域的中心线。每个区域的纵坐标可以用一个二维的向量表示，例如：若该区域的纵坐标的向量是(0,1)表示在该纵坐标区域画一条横贯穿线，若该区域的纵坐标的向量是(1，0)表示不在该纵坐标区域画。横贯穿线的坐标对应的张量为横贯穿线标签张量。同理横贯穿线的坐标对应的张量为纵贯穿线标签张量。

在该实施例中，第二表格内容的特征张量是通过深度卷积神经网络通过逐层地对特征提取得到的。

在一示例中，第二预设训练参数是通过第二表格内容的特征张量和预设贯穿线标签张量构建第二目标函数时确定的参数。第二目标函数可以设计成负对数似然函数。如公式(4)所示为负对数似然函数J(θ)，

用于z表示h_θ(xⁱ)，则softmax(h_θ(xⁱ))为公式(5)如下：

其中xⁱ表示第i个第二表格内容张量，

h_θ(xⁱ)表示第i个第二表格内容张量经过深度神经网络后得到的第二表格内容的特征张量，其中θ是深度神经网络的参数，

yⁱ表示第i个第二表格内容张量的表格标签张量，

n表示第二表格内容张量的总数，avg是将第二表格内容张量的所有元素的平均值。

softmax函数是指对每个第二表格内容的特征张量进行运算，z_j是第二表格内容的特征张量的第j个维度，k是第二表格内容的特征张量的维度数，本发明实施例中k＝2，h_θ(xⁱ)可以看成是横向线数个第二表格内容的特征张量或者是纵向线数个第二表格内容的特征张量。

通过最小化横贯穿线目标函数和纵贯穿线目标函数，极大化数据的似然估计，从而确定第二预设训练参数。需要理解的是，在这里同上述预设表格检测模型一样，都是使用批处理梯度下降法进行深度卷积神经网络的参数更新。因此不再对使用批处理梯度下降法进行深度卷积神经网络的参数更新进行描述。

通过表格内容张量输入预设画惯穿线模型，根据该预设画惯穿线模型更新的参数，输出预测的惯穿线标签列表，该惯穿线标签列表包括：横贯穿线标签列表和纵贯穿线标签列表。横贯穿线标签列表记录表格的每个纵坐标上是否是一条横贯穿线，纵贯穿线标签列表记录表格的每个横坐标上是否是一条纵贯穿线。

在一实施例中，表格内容的特征张量的维度和预设贯穿线标签张量的维度相同。

在一实施例中，步骤140可以通过以下步骤实现。

步骤141，对第二表格内容进行渲染处理，得到第三表格内容张量。

在该步骤中，将步骤S130在中得到的第二表格内容进行渲染处理，这里的渲染处理主要是对画有惯穿线的表格内容进行渲染处理。

步骤142，对第三表格内容张量进行特征处理，得到表格特征图。

在该步骤中，是通过深度卷积神经网络层次地对第三表格内容张量特征提取，得到表格特征图。在该步骤中深度卷积神经网络逐层地对第三表格内容张量特征提取的过程与上述步骤中的特征提取的过程相同，因此，在这里也不再进行描述。

步骤143，根据表格特征图和第三预设训练参数，得到短线标签列表。

在一实施例中，第三预设训练参数是由短线特征张量和预设短线标签张量确定的参数，短线特征张量是由每个单元格的特征向量拼接得到的参数，每个单元格的特征向量是通过对每个单元格进行特征提取得到的参数，单元格是通过将表格特征图分割成(S+1)×(W+1)个表格得到的，S表示横贯穿线数和W表示纵贯穿线数，预设短线标签张量是通过预先采用深度卷积网络对第二表格内容进行训练得到的参数。

在该步骤中，需要理解的是，预设短线标签张量包括：预设横向短线标签张量和预设纵向短线标签张量。

预设横向短线标签张量是由所有横向短线的向量构成。预设纵向短线标签张量是由所有纵向短线的向量构成。每条横向短线或者每条纵向短线可以用一个二维的向量表示。横向短线总共有(横贯穿线数)×(纵贯穿线数+1)条，构成(横贯穿线数)×(纵贯穿线数+1)的矩阵，同理，横向短线总共有(横贯穿线数+1)×(纵贯穿线数)条纵向短线构成(横贯穿线数+1)×(纵贯穿线数)的矩阵。

在该实施例中，依据横贯穿线和纵贯穿线，将表格特征图分成(横贯穿线数+1)×(纵贯穿线数+1)个单元格。通过深度卷积神经网络对每个单元格进行特征提取，得到每个单元格的特征向量。预设短线标签张量是通过预先采用深度卷积网络对第二表格内容进行训练得到的，该训练过程与上述的训练过程相同，在此也不再进行描述。

在一实施例中，短线特征张量包括：横向短线特征张量和纵向短线特征张量。

横向短线特征张量是由多条横贯穿短线的特征向量组成，每条横贯穿短线的特征向量是通过将上下两个相邻单元格的特征向量进行拼接得到的。

纵向短线特征张量是由多条纵贯穿短线的特征向量组成，每条纵贯穿短线的特征向量是通过将左右两个相邻单元格的特征向量进行拼接得到的。

可以理解的是，通过短线特征张量和预设短线标签张量，构建第三目标函数，本发明实施例中将第三目标函数也是负对数似然函数，通过最小化该第三目标函数，极大化数据的似然估计。然后使用批处理梯度下降法进行深度卷积神经网络的参数更新。

第三目标函数和第二目标函数的构建过程是相同的，因此在此不再重复描述。使用批处理梯度下降法进行深度卷积神经网络的参数更新的过程与上述的实施例相同，在此也不再进行描述。

下面结合附图，详细介绍根据本发明实施例的装置。

图8示出本发明实施例的基于富文本格式文档的表格提取装置的结构示意图。如图8所示，该基于富文本格式文档的表格提取装置800包括：

获取模块810、预设表格检测模块820、预设画贯穿线模块830和预设单元表格合并模块840。

获取模块810，用于获取富文本格式文档，富文本格式文档包括至少一张页面内容。

预设表格检测模块820，用于对富文本格式文档中每张页面内容进行表格检测处理，得到表格标签列表，以及依据页面内容和表格标签列表，得到表格内容。

预设画贯穿线模块830，用于对表格内容进行画贯穿线处理，得到惯穿线标签列表，以及依据表格内容和惯穿线标签列表，得到第二表格内容。

预设单元表格合并模块840，用于对第二表格内容进行表格单元合并处理，得到短线标签列表，以及依据短线标签列表和第二表格内容，得到显性表格内容。

通过本发明实施例中的表格提取装置，预先训练出预设表格检测模块、预设画贯穿线模块和预设单元表格合并模块，通过这3个模块，可以将富文本格式文档中的隐性表格内容提出出来，以得到显性表格内容。不但提高了提取的效率，同时也提高了提取的精度，能够准确地将隐性表格内容提取出来。

图9示出本发明实施例的预设表格检测模块的结构示意图。

在一实施例中，如图9所示，预设表格检测模块820包括：第一渲染处理单元821和训练预测单元822。

第一渲染处理单元821，用于对页面内容进行渲染处理，得到页面内容的页面内容张量。

训练预测单元822，用于根据第一预设训练参数和页面内容张量，得到表格标签列表。

图10示出本发明另一实施例的预设表格检测模块的详细结构示意图。

在一实施例中，如图10所示，训练预测单元822可以包括：页面内容的特征张量生成单元8221、确定预测值单元8222和表格标签列表生成单元8223。

页面内容的特征张量生成单元8221，用于根据第一预设训练参数计算页面内容张量，确定页面内容的特征张量。

确定预测值单元8222，用于遍历特征张量中每个区域的表格信息，确定预测值；当预测值大于预设信度阈值时，则判断该区域包含表格，

或者，当预测值小于预设信度阈值时，则判断该区域不包含表格。

表格标签列表生成单元8223，用于确定每个包含表格的区域的表格标签，得到表格标签列表。

在一实施例中，第一预设训练参数是由页面内容的特征张量和预设表格标签张量确定的参数，预设表格标签张量是通过对页面内容进行区域划分处理得到的参数。

在一实施例中，区域划分处理是指将每张页面内容划分成m×n个区域，确定每个包含表格的区域的表格标签张量，m和n确定每个区域只包含一个表格且每个表格只属于一个区域，且m和n均为大于0的整数。

在一实施例中，页面内容的特征张量的维度与预设表格标签张量的维度相同。

在一实施例中，预设画贯穿线模块830可以包括：第二渲染处理单元831和第二训练预测单元832。

第二渲染处理单元831，用于对第一表格内容进行渲染处理，得到第二表格内容张量。

第二训练预测单元832，根据第二表格内容张量和第二预设训练参数，得到惯穿线标签列表。

在一实施例中，预设单元表格合并模块840可以包括：第三渲染处理单元841、第三特征处理单元842和第三训练预测单元843。

第三渲染处理单元841，用于对第二表格内容进行渲染处理，得到第三表格内容张量。

第三特征处理单元842，用于对第三表格内容张量进行特征处理，得到表格特征图。

第三训练预测单元843，用于根据表格特征图和第三预设训练参数，得到短线标签列表。

在一实施例中，第三预设训练参数是由短线特征张量和预设短线标签张量确定的参数，短线特征张量是由每个单元格的特征向量拼接得到的参数，每个单元格的特征向量是通过对每个所述单元格进行特征提取得到的参数，单元格是通过将表格特征图分割成(S+1)×(W+1)个表格得到的，S表示横贯穿线数和W表示纵贯穿线数，预设短线标签张量是通过预先采用深度卷积网络对所述第二表格内容进行训练得到的参数。

根据本发明实施例的表格提取装置的其他细节与以上结合图1至图7描述的根据本发明实施例的方法类似，在此不再赘述。

如图11所示，计算设备1100包括输入设备1101、输入接口1102、中央处理器1103、存储器1104、输出接口1105、以及输出设备1106。其中，输入接口1102、中央处理器1103、存储器1104、以及输出接口1105通过总线1110相互连接，输入设备1101和输出设备1106分别通过输入接口1102和输出接口1105与总线1110连接，进而与计算设备1100的其他组件连接。具体地，输入设备1101接收来自外部的输入信息，并通过输入接口1102将输入信息传送到中央处理器1103；中央处理器1103基于存储器1104中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器1104中，然后通过输出接口1105将输出信息传送到输出设备1106；输出设备1106将输出信息输出到计算设备1100的外部供用户使用。

在一个实施例中，图11所示的计算设备1100可以被实现为一种表格提取系统，包括：存储器和处理器；存储器用于储存有可执行程序代码；处理器用于读取存储器中存储的可执行程序代码以执行上述实施例的表格提取方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品或计算机可读存储介质的形式实现。所述计算机程序产品或计算机可读存储介质包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述，仅为本发明的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于富文本格式文档的表格提取方法，其特征在于，所述表格提取方法包括：

2.根据权利要求1所述的表格提取方法，其特征在于，所述通过预设表格检测模型，对所述富文本格式文档中所述页面内容进行表格检测处理，得到表格标签列表，包括：

对所述页面内容进行渲染处理，得到所述页面内容的页面内容张量；

根据第一预设训练参数和所述页面内容张量，得到所述表格标签列表。

3.根据权利要求2所述的表格提取方法，其特征在于，所述根据第一预设训练参数和所述页面内容张量，得到所述表格标签列表，包括：

根据所述第一预设训练参数计算所述页面内容张量，确定所述页面内容的特征张量；

遍历所述特征张量中每个区域的表格信息，确定预测值；

当所述预测值大于预设信度阈值时，则判断该区域包含表格，

或者，

当所述预测值小于预设信度阈值时，则判断该区域不包含表格；

确定每个包含表格的区域的表格标签，得到所述表格标签列表。

4.根据权利要求3所述的表格提取方法，其特征在于，所述第一预设训练参数是由所述页面内容的特征张量和预设表格标签张量确定的参数，所述预设表格标签张量是通过对所述页面内容进行区域划分处理得到的参数。

5.根据权利要求4所述的表格提取方法，其特征在于，所述区域划分处理是指将每张所述页面内容划分成m×n个区域，确定每个包含表格的区域的表格标签张量，m和n确定每个区域只包含一个表格且每个表格只属于一个区域，且m和n均为大于0的整数。

6.根据权利要求4所述的表格提取方法，其特征在于，所述页面内容的特征张量的维度与所述预设表格标签张量的维度相同。

7.根据权利要求1所述的表格提取方法，其特征在于，所述依据预设画贯穿线模型，对所述第一表格内容进行画贯穿线处理，得到惯穿线标签列表，包括；

对所述第一表格内容进行渲染处理，得到第二表格内容张量；

根据所述第二表格内容张量和第二预设训练参数，得到所述惯穿线标签列表。

8.根据权利要求7所述的表格提取方法，其特征在于，所述第二预设训练参数是由所述第二表格内容的特征张量和预设贯穿线标签张量确定的参数，所述第二表格内容的特征张量是通过对所述第一表格内容进行特征提取得到的参数，所述预设贯穿线标签张量是由多条贯穿线向量组成，每条贯穿线向量是指每个区域的中心线向量。

9.根据权利要求8所述的表格提取方法，其特征在于，所述表格内容的特征张量的维度和所述预设贯穿线标签张量的维度相同。

10.根据权利要求1所述的表格提取方法，其特征在于，所述基于预设单元表格合并模型，对所述第二表格内容进行表格单元合并处理，得到短线标签列表，包括：

对所述第二表格内容进行渲染处理，得到第三表格内容张量；

对所述第三表格内容张量进行特征处理，得到表格特征图；

根据所述表格特征图和第三预设训练参数，得到所述短线标签列表。

11.根据权利要求10所述的表格提取方法，其特征在于，所述第三预设训练参数是由短线特征张量和预设短线标签张量确定的参数，所述短线特征张量是由每个单元格的特征向量拼接得到的参数，每个单元格的特征向量是通过对每个所述单元格进行特征提取得到的参数，所述单元格是通过将所述表格特征图分割成(S+1)×(W+1)个表格得到的，S表示横贯穿线数和W表示纵贯穿线数，所述预设短线标签张量是通过预先采用深度卷积网络对所述第二表格内容进行训练得到的参数。

12.根据权利要求11所述的表格提取方法，其特征在于，所述短线特征张量包括：横向短线特征张量和纵向短线特征张量；

所述横向短线特征张量是由多条横贯穿短线的特征向量组成，每条所述横贯穿短线的特征向量是通过将上下两个相邻所述单元格的特征向量进行拼接得到的；

所述纵向短线特征张量是由多条纵贯穿短线的特征向量组成，每条所述纵贯穿短线的特征向量是通过将左右两个相邻所述单元格的特征向量进行拼接得到的。

13.根据权利要求1所述的方法，其特征在于，所述页面内容，包括以下至少一种：该页面中的所有线条、色块、文本框位置和文本框内容。

14.根据权利要求1所述的方法，其特征在于，所述表格内容，包括以下至少一种：该表格中的所有线条、色块、文本框位置和文本框内容。

15.根据权利要求1所述的方法，其特征在于，所述表格标签列表用于记录所述富文本格式文档中所有表格的位置信息，所述表格的位置信息包括：所述表格的左上角的横坐标、所述表格的左上角的纵坐标、所述表格的宽度和所述表格的高度。

16.一种基于富文本格式文档的表格提取装置，其特征在于，所述表格提取装置包括：

所述预设表格检测模块，用于对所述富文本格式文档中每张所述页面内容进行表格检测处理，得到表格标签列表，以及依据所述页面内容和所述表格标签列表，得到表格内容；

17.一种设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-15任一所述的表格提取方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-15任一所述的表格提取方法。