CN111241365A

CN111241365A - 表格图片解析方法及系统

Info

Publication number: CN111241365A
Application number: CN201911334971.9A
Authority: CN
Inventors: 齐昱; 曹海峰
Original assignee: Wanghai Kangxin Beijing Technology Co Ltd
Current assignee: Wanghai Kangxin Beijing Technology Co Ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-06-05
Anticipated expiration: 2039-12-23
Also published as: CN111241365B

Abstract

本申请公开了表格图片解析方法及系统，其中所述方法包括：对表格图片中的文字内容和文字位置进行识别得到三元组集合，每一三元组由文字和位置横、纵坐标组成；将表格图片输入包含经训练的卷积神经网络的分割模型得到表格的分割线信息；将分割线信息与三元组集合根据预设规则进行结合，形成结构化表格文档。本发明能自动把表格图片转化为结构化数据，极大节省了人工成本和时间。

Description

表格图片解析方法及系统

技术领域

本申请涉及电数字数据处理领域，尤其涉及表格图片解析方法及系统。

背景技术

互联网上有很多数据都是以图片形式呈现的。在从互联网上爬取数据过程中，会遇到大量图片形式的表格，看着很规整，但是在数据抓取回来之后，要将其转化为表格型数据或者要将其录入到数据库中，则需要对图片进行解析。目前尚无好的技术处理方案来自动将表格图片自动解析成标准的文本数据(结构化)格式，只能人工整理，较为耗时。因此，急需一种方法来解决这个问题。

发明内容

为了克服现有技术中存在的不足，本发明提供一种表格图片解析方法及系统，其使能自动把表格图片转化为结构化数据，极大节省了人工成本和时间。

为解决上述技术问题，根据本发明的第一方面，提供一种表格图片解析方法，该方法包括：

对表格图片中的文字内容和文字位置进行识别得到三元组集合，每一三元组由文字和位置横、纵坐标组成；

将表格图片输入包含经训练的卷积神经网络的分割模型得到表格的分割线信息；

将分割线信息与三元组集合根据预设规则进行结合，形成结构化表格文档。

作为本发明所述方法的改进，所述卷积神经网络包括：输入层、卷积层、池化层、全连接层和输出层，输入层用于接收表格图片，卷积层用于处理表格图片得到特征图，池化层用于根据定义的阈值和ReLu激活函数进一步处理卷积层的输出，全连接层使用ReLu激活函数对池化层的输出进行处理，输出层用于标识表格图片的分割线的位置坐标。

作为本发明所述方法的另一种改进，所述卷积神经网络的训练如下：对表格图片数据集中的各个表格图片的文字内容和文字位置进行识别得到三元组集合；将表格图片数据集传入卷积神经网络得到分割线集合；根据分割线集合确定数据点集合，每一数据点由至少一横向分割线和至少一竖向分割线确定；响应于数据点集合与三元组集合的匹配率大于80％，训练结束。

作为本发明所述方法的又一种改进，所述根据预设规则进行结合包括：将每一三元组与每一分割线进行坐标比较，在分割线为横向分割线时分别确定分割线上方和下方的三元组子集，在分割线为竖向分割线时分别确定分割线左边和右边的三元组子集；根据确定的所有三元组子集形成的每一交叉确定每一三元组的位置；将每一三元组对应的文字在CSV格式的表格中输出在相应位置。

为解决上述技术问题，根据本发明的第二方面，提供一种表格图片解析系统，该系统包括：

识别模块，用于对表格图片中的文字内容和文字位置进行识别得到三元组集合，每一三元组由文字和位置横、纵坐标组成；

分割模块，用于将表格图片输入包含经训练的卷积神经网络的分割模型得到表格的分割线信息；

结合模块，用于将分割线信息与三元组集合根据预设规则进行结合，形成结构化表格文档。

为解决上述技术问题，根据本发明的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明的表格图片解析方法的步骤。

为解决上述技术问题，根据本发明的第四方面，提供一种计算机设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中所述处理器执行所述计算机程序时实现本发明的表格图片解析方法的步骤。

本发明应用目前流行的机器学习技术，巧妙地将表格图片解析问题进行分解。将图片数据粗处理为文字、位置三元组，将二进制输入转化为数值型输入；采用目前效果最好的神经网络算法对数值型输入进行解析，而后通过预设规则对数据表格进行还原，最终还原出表格型的结构化输出，实现表格图片的自动解析。

结合附图阅读本发明实施方式的详细描述后，本发明的其它特点和优点将变得更加清楚。

附图说明

图1为表格图片的示例；

图2为根据本发明方法的一实施例的流程图；

图3示意性地示出了表格图片的分割线；

图4为根据本发明系统的一实施例的框图。

为清晰起见，这些附图均为示意性及简化的图，它们只给出了对于理解本发明所必要的细节，而省略其他细节。

具体实施方式

下面参照附图对本发明的实施方式和实施例进行详细说明。

通过下面给出的详细描述，本发明的适用范围将显而易见。然而，应当理解，在详细描述和具体例子表明本发明优选实施例的同时，它们仅为说明目的给出。

图2示出了根据本发明的表格图片解析方法的一优选实施例的流程图。

在步骤S202，对待解析的表格图片例如图1中所示的表格图片应用OCR(光学字符识别)技术进行表格图片中的文字内容和文字位置的识别以得到三元组集合，每一三元组由文字和文字所在位置横、纵坐标组成。OCR技术可使用现在已知的任何适当的OCR技术，在此不再赘述。

在步骤S204，将待解析的表格图片输入经训练的卷积神经网络分割模型得到表格的分割线信息。分割线的输出形式为坐标形式，以二元组的形式输出，该二元组表示直线表达式Ax+By+1＝0中的A和B。如果A＝0或近似等于0例如小于0.05，则说明分割线是一条横线。如果B＝0或近似等于0例如小于0.05，则说明分割线是一条竖线。图3示意性地示出了表格图片的分割线。

分割模型采用一个卷积神经网络(CNN)作为底层架构，该卷积神经网络包括：输入层、卷积层、池化层、全连接层和输出层。表格图片在拆分为像素点后，以像素点的形式传入输入层。

卷积层用于对输入的图片和位置进行模糊处理，加强模型的泛化能力。例如，使用3*3或5*5的卷积核，用该卷积核与原图卷积，得到特征图，以像素点形式传入池化层。

池化层定义阈值(使卷积结果不至于太过模糊)和激活函数，进一步处理卷积结果。激活函数选用ReLu函数，可以大幅度加快性能。阈值应当根据像素点数值标准化的系数而定。一般而言，可以定在0.2至0.3之间。

池化层后搭建全连接层，将卷积和池化的结果输入至一个类似于传统神经网络的隐含层的结构之中。这一步的神经元个数尽量选择在200-500个，以保证计算量控制在一个高效的范围内，性能更快，也意味着更容易维护。全连接层的激活函数选择ReLu函数，以提高训练性能。

输出层根据需要设置多个例如30个神经元，用来标识分割线的位置坐标。神经元的个数可根据需要进行调整。

在训练上面的卷积神经网络时，收集各种各样的表格图片作为训练表格图片集。对训练表格图片数据集中的各个表格图片的文字内容和文字位置使用OCR技术进行识别得到三元组集合并传入分割模型。将训练表格图片数据集传入卷积神经网络得到分割线集合。然后根据分割线集合确定数据点集合，各条分割线相交会确定相应的数据点，边缘的每一数据点由至少一横向分割线和至少一竖向分割线确定，中间的每一数据点由两条横向分割线和两条竖向分割线确定；判定数据点集合与三元组集合之间的数据点坐标和三元组坐标的匹配率，通过调整卷积神经网络的参数如卷积层的卷积核大小、池化层的阈值、全连接层的学习速率参数，来综合调整神经网络的准确度和性能，使得匹配率高于60％例如高于70％例如高于80％甚至90％时，训练结束。在优选实施例中，数据点集合与三元组集合的匹配率大于80％时，训练结束。卷积核大小用来控制图片模糊化程度。池化层的阈值用来控制图片的明暗敏感度。全连接层的学习速率用来权衡性能和准确度，速率越高，性能越好，但准确度也相应有所降低。

在步骤S206，将分割线信息与三元组集合根据预设规则进行结合，还原为我们需要的结构化表格。具体地，通过识别好的三元组坐标来判定三元组与分割线的关系，将每一三元组的坐标与每一分割线坐标进行比较，在分割线为横向分割线时分别确定分割线上方和下方的三元组子集，在分割线为竖向分割线时分别确定分割线左边和右边的三元组子集。确定的所有三元组子集形成的每一交叉确定每一三元组的位置。任何将每一三元组对应的文字在CSV格式的表格中输出在相应位置，将每一三元组精确匹配到单元格，从而达到成功匹配的目的。最终成功匹配后将匹配为表格数据，供数据库调用或Excel编辑。

图4示出了根据本发明的表格图片解析系统的一优选实施例的框图。该系统包括：识别模块402，用于对表格图片中的文字内容和文字位置进行识别得到三元组集合，每一三元组由文字和位置横、纵坐标组成；分割模块404，用于将表格图片输入包含经训练的卷积神经网络的分割模型得到表格的分割线信息；结合模块406，用于将分割线信息与三元组集合根据预设规则进行结合，形成结构化表格文档。

在实施例中，结合模块包括：比较子模块，用于将每一三元组与每一分割线进行坐标比较，在分割线为横向分割线时分别确定分割线上方和下方的三元组子集，在分割线为竖向分割线时分别确定分割线左边和右边的三元组子集；确定子模块，用于根据确定的所有三元组子集形成的每一交叉确定每一三元组的位置；输出子模块，用于将每一三元组对应的文字在CSV格式的表格中输出在相应位置。

在此所述的多个不同实施方式或者其特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。另外，在某些情形下，只要适当，流程图中和/或流水处理描述的步骤顺序可修改，并不必须精确按照所描述的顺序执行。另外，本发明的多个不同方面可使用软件、硬件、固件或者其组合和/或执行所述功能的其它计算机实施的模块或装置进行实施。本发明的软件实施可包括保存在计算机可读介质中并由一个或多个处理器执行的可执行代码。计算机可读介质可包括计算机硬盘驱动器、ROM、RAM、闪存、便携计算机存储介质如CD-ROM、DVD-ROM、闪盘驱动器和/或具有通用串行总线(USB)接口的其它装置，和/或任何其它适当的有形或非短暂计算机可读介质或可执行代码可保存于其上并由处理器执行的计算机存储器。本发明可结合任何适当的操作系统使用。

除非明确指出，在此所用的单数形式“一”、“该”均包括复数含义(即具有“至少一”的意思)。应当进一步理解，说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、步骤、操作、元件和/或部件，但不排除存在或增加一个或多个其他特征、步骤、操作、元件、部件和/或其组合。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。

前面说明了本发明的一些优选实施例，但是应当强调的是，本发明不局限于这些实施例，而是可以本发明主题范围内的其它方式实现。本领域技术人员可以在本发明技术构思的启发和不脱离本发明内容的基础上对本发明做出各种变型和修改，这些变型或修改仍落入本发明的保护范围之内。

Claims

1.一种表格图片解析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述卷积神经网络包括：输入层、卷积层、池化层、全连接层和输出层，输入层用于接收表格图片，卷积层用于处理表格图片得到特征图，池化层用于根据定义的阈值和ReLu激活函数进一步处理卷积层的输出，全连接层使用ReLu激活函数对池化层的输出进行处理，输出层用于标识表格图片的分割线的位置坐标。

3.根据权利要求2所述的方法，其特征在于，所述卷积神经网络的训练如下：

对表格图片数据集中的各个表格图片的文字内容和文字位置进行识别得到三元组集合；

将表格图片数据集传入卷积神经网络得到分割线集合；

根据分割线集合确定数据点集合，每一数据点由至少一横向分割线和至少一竖向分割线确定；

响应于数据点集合与三元组集合的匹配率大于80％，训练结束。

4.根据权利要求1所述的方法，其特征在于，所述根据预设规则进行结合包括：

将每一三元组与每一分割线进行坐标比较，在分割线为横向分割线时分别确定分割线上方和下方的三元组子集，在分割线为竖向分割线时分别确定分割线左边和右边的三元组子集；

根据确定的所有三元组子集形成的每一交叉确定每一三元组的位置；

将每一三元组对应的文字在CSV格式的表格中输出在相应位置。

5.根据权利要求2所述的方法，其特征在于，全连接层的神经元个数在200到500个之间。

6.一种表格图片解析系统，其特征在于，所述系统包括：

7.根据权利要求6所述的系统，其特征在于，所述卷积神经网络包括：输入层、卷积层、池化层、全连接层和输出层，输入层用于接收表格图片，卷积层用于处理表格图片得到特征图，池化层用于根据定义的阈值和ReLu激活函数进一步处理卷积层的输出，全连接层使用ReLu激活函数对池化层的输出进行处理，输出层用于标识表格图片的分割线的位置坐标。

8.根据权利要求7所述的系统，其特征在于，所述卷积神经网络的训练如下：

将表格图片数据集传入卷积神经网络得到分割线集合；

9.根据权利要求6所述的系统，其特征在于，所述结合模块包括：

比较子模块，用于将每一三元组与每一分割线进行坐标比较，在分割线为横向分割线时分别确定分割线上方和下方的三元组子集，在分割线为竖向分割线时分别确定分割线左边和右边的三元组子集；

确定子模块，用于根据确定的所有三元组子集形成的每一交叉确定每一三元组的位置；

输出子模块，用于将每一三元组对应的文字在CSV格式的表格中输出在相应位置。

10.根据权利要求7所述的系统，其特征在于，全连接层的神经元个数在200到500个之间。