CN117275026A

CN117275026A - 基于卷积神经网络的对投资金额类表格识别方法

Info

Publication number: CN117275026A
Application number: CN202311144711.1A
Authority: CN
Inventors: 吴颖; 游勇; 李怀沛; 唐坚强; 周慧明
Original assignee: Wuhan Tianheng Information Technology Co ltd
Current assignee: Wuhan Tianheng Information Technology Co ltd
Priority date: 2023-09-06
Filing date: 2023-09-06
Publication date: 2023-12-22

Abstract

本发明公开了一种基于卷积神经网络的对投资金额类表格识别方法，方法包括以下步骤：表格识别阶段和反向推理阶段；表格识别阶段过程如下：将pdf文件转成图片，并将图片输入至预训练好的表格识别模型，得到pdf文件中的表格区域；对表格的组成部分进行标识；根据标识获取表格中的单元格，并识别单元格中的内容；利用标识及单元格中的内容，对表格进行还原；反向推理阶段过程如下：通过表格对应的图片视觉特征，计算表格线对应的x、y坐标，将此结果与先前结果进行比较，当相差超过预设阈值时，认为表格识别阶段结果不准确，调整训练参数重新对表格识别模型进行训练。本发明有益效果是：提高表格识别的精度。

Description

基于卷积神经网络的对投资金额类表格识别方法

技术领域

本发明涉及表格识别领域，尤其涉及一种基于卷积神经网络的对投资金额类表格识别方法。

背景技术

表格是一种结构化的信息表述形式，pdf是便携式文档格式。在实际生活中，经常将这两者结合来表达相似度高的、结构化程度高的数据。

以往的技术对表格进行识别主要依赖于图像处理技术，将pdf文件转换为图片，然后人工确定待识别识别图像的特征，或者通过形态学开或关等操作对图片进行处理，或者使用特定的核函数对图像进行扫描，从而期望能精确定位出各单元格、表格的坐标，然后对单元格内容进行识别；

其它的思路还包括，直接忽略表格线，识别图片中的所有字符内容，然后对字符进行聚合操作，根据获取到的短语来确定表格中单元格的位置等。

以上方案均是以图像处理技术为核心对表格进行识别，相对于以神经网络为主，以图像处理技术为辅的方案，其准确率相对不足；另外，过往技术对于表格存在跨页的情况重视程度不足，使得对存在跨页情况的表格的识别率较低；最后，当pdf中的表格是通过扫描得来，同时扫描后的表格存在偏斜的情况时，计算单元格坐标的方案在识别表格时效果也不太理想。

发明内容

为了解决现有方法表格识别不准确，无法应对个别特殊情况的技术问题，本发明提出一种基于卷积神经网络的对投资金额类表格识别方法，具体包括以下步骤：

表格识别阶段和反向推理阶段；

所述表格识别阶段用于对pdf文件中的表格进行还原；

所述反向推理阶段，用于判断表格识别阶段的还原结果是否准确；

所述表格识别阶段过程如下：

S101、将pdf文件转成图片，并将图片输入至预训练好的表格识别模型，得到pdf文件中的表格区域；

S102、在表格区域内，对表格的组成部分进行标识；

S103、根据标识获取表格中的单元格，并识别单元格中的内容；

S104、利用标识及单元格中的内容，对表格进行还原；

所述反向推理阶段过程如下：

通过表格对应的图片视觉特征，计算表格线对应的x、y坐标，将此结果与步骤S1中的结果进行比较，当相差超过预设阈值时，认为表格识别阶段结果不准确，调整训练参数重新对表格识别模型进行训练，否则，认为表格识别阶段结果准确。

一种存储设备，所述存储设备存储指令及数据用于实现一种基于卷积神经网络的对投资金额类表格识别方法。

一种基于卷积神经网络的对投资金额类表格识别设备，包括：处理器及所述存储设备；所述处理器加载并执行所述存储设备中的指令及数据用于实现一种基于卷积神经网络的对投资金额类表格识别方法。

本发明提供的有益效果是：提高了表格识别的准确度。

附图说明

图1是本发明方法流程示意图；

图2是本发明实施例的硬件设备工作示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，图1是本发明方法流程示意图。

本发明提供了一种基于卷积神经网络的对投资金额类表格识别方法，包括以下步骤：

表格识别阶段和反向推理阶段；

所述表格识别阶段用于对pdf文件中的表格进行还原；

所述表格识别阶段过程如下：

所述表格识别模型的训练过程如下：

S201、获取投资金额类表格的pdf文件，并转换成图片；

作为一种实施例，对于包含投资金额类表格的pdf文件来说，颜色特征对于识别表格在什么位置提供的帮助不大；其次，对于样本大小，本申请参考的是A4纸张的word文档转为pdf后，再将pdf转换为图片得到的图片大小。因此样本的输入为2480×3580分辨率的灰度图像。

S202、对图片中表格的个组成部分打标签，形成样本集；

作为一种实施例，本申请中将图片上的表名、表头、表注释、单元格都用矩形框框起来，然后为每一个矩形框加上类别信息。最终的效果是一张图片对应一个txt文件，txt文件中每行包含矩形框的坐标及其类别。

S203、将样本集划分为训练集和测试集；

本申请中，将样本按照8:2的比例随机划分为训练集和测试集。

S204、构建基于VGG神经网络的表格识别模型；

作为一种实施例，本发明中表格识别模型采用类似VGG(Visual Geometry Group)模式的神经网络，具体地，按如下方式构造神经网络，卷积层（其中filter个数为64）-卷积层（其中filter个数为64）-池化层-卷积层（其中filter个数为128）-卷积层（其中filter个数为128）-池化层-卷积层（其中filter个数为256）-卷积层（其中filter个数为256，）-卷积层（其中filter个数为256）-池化层-池化层-卷积层（其中filter个数为512）-卷积层（其中filter个数为512）-卷积层（其中filter个数为512）-池化层-池化层-卷积层（其中filter个数为512）-卷积层（其中filter个数为512）-卷积层（其中filter个数为512）-池化层（随后向量展开）-全连接层-softmax层的方式构造神经网络，其中，所有卷积层使用的filter大小均为3×3，stride=1×1，padding=0；所有池化层的kernel大小均为2×2，stride=2，padding=2。

S205、利用训练集和测试集对表格识别模型进行训练，得到训练完成的表格识别模型。

将样本、测试集按照比例分别输入按前述构造的神经网络模型中分别得到模型在训练集和测试集上的识别结果。

S102、在表格区域内，对表格的组成部分进行标识；

需要说明的是，此处标识主要是在所推断出的区域内判断哪些内容是表格的组成部分（如表头、单元格等），并标识这些组成部分。

对于待识别的表格，预先假设：

表格是正序且连续的。即不会出现表格前半部分出现在第二页，后半部分出现在第一页；也不会出现表格的前半部分在第一页，后半部分在第三页。

将图片直接以三通道的形式输入最初训练好的表格识别的模型中，将结果转换成对应的坐标点位，得到表格中每个单元格在图片中对应的坐标。

当获取完整个pdf中所有表格后，进行表格的跨页判定。当将测到连续两页均存在表格时，按照如下描述进行判定。

首先利用表格的特征，制定以下规则，快速过滤非跨页表格：

（1）前后两页表格列数不一致。

（2）前一页表格最底部位置对应的y坐标，以及后一页表格最顶部对应的y坐标，距离页面的边距超过了整个页面的20%的高度。

然后根据以下规则，判定表格是否跨页：

（1）前一页表格有表头，后一页表格没有表头。

（2）根据用户配置，前一页表格和后一页表格均存在表头。

当判定表格存在跨页情况时，对前后表格进行标记，以便后续合并。

步骤S103具体如下：

S401、建立文本区域检测模型和光学文字识别模型；

作为一种实施例，对于文本区域检测，构建卷积神经网络，在网络中引入RPN(Region Proposal Network)，最后再通过softmax将结果输出。具体地，按如下方式构造神经网络，卷积层（其中filter个数为64）-卷积层（其中filter个数为64）-池化层-卷积层（其中filter个数为128）-卷积层（其中filter个数为128）-池化层-卷积层（其中filter个数为256）-卷积层（其中filter个数为256）-卷积层（其中filter个数为256）-池化层-卷积层（其中filter个数为512）-卷积层（其中filter个数为512）-卷积层（其中filter个数为512）-池化层-卷积层（其中filter个数为512）-卷积层（其中filter个数为512）-卷积层（其中filter个数为512）-RPN-softmax层的方式构造神经网络，其中，所有卷积层使用的filter大小均为3×3，stride=1×1，padding=0；所有池化层的kernel大小均为2×2，stride=2，padding=2。

对于OCR,构造VGG模式的神经网络，具体地，按如下方式构造神经网络，卷积层（其中filter个数为64）-卷积层（其中filter个数为64）-池化层-卷积层（其中filter个数为128）-卷积层（其中filter个数为128）-池化层-卷积层（其中filter个数为256）-卷积层（其中filter个数为256）-卷积层（其中filter个数为256）-池化层-卷积层（其中filter个数为512）-卷积层（其中filter个数为512）-卷积层（其中filter个数为512）-池化层-卷积层（其中filter个数为512）-卷积层（其中filter个数为512）-卷积层（其中filter个数为512）-池化层（随后向量展开）-全连接层-softmax层的方式构造神经网络，其中，所有卷积层使用的filter大小均为3×3，stride=1×1，padding= same padding；所有池化层的kernel大小均为2×2，stride=2，padding=2。

S402、利用数据集分别训练文本区域检测模型和光学文字识别模型，获得训练完成的文本区域检测模型和光学文字识别模型；

需要说明的是，文本区域检测以及光学文字识别对应的技术相对成熟，得益于开源的数据集，这对两个模型进行训练所使用的数据集是直接使用的开源文本区域检测以及OCR的字符集，分别是任务“ICDAR2017 Competition on Multi-lingual scene textdetection and script identification”对应的训练数据以及中文识别数据集“YCG09”。

对于文本区域检测，其数据集的样本是街边、墙上等各个场景中的对应的图片，图中有各种语言的文字，数据集的标签是使用矩形将这些文字区域框选起来后，矩形对应的四个点位坐标；

对于OCR字符集，数据集的样本是从中文语料库中，通过对文字的字体、大小、透视、拉伸等变化随机生成的图片，且样本大小均为280*32，数据集的标签就是图片中的文字。

当然，在处理过程中，对这些数据进行解析，并对其中的数据做简单的数据正确保证，对于文本区域检测任务：删除没有大小的矩形坐标、重构坐标上有重合的矩形的坐标、对各坐标进行基本的值大小校验以及各坐标之间基本的关系校验等；对于OCR任务：校验所有图片的通道数均相同、确保每个图片都有对应的文字。

需要说明的是，在实际的投资金额类表格中，常会在pdf中看到，有大概总页数的10%左右的页面大小和其他页面不一致，因此有必要提前处理这些即将输入程序中的数据。将pdf按照页面本身的大小转换成图片，然后再将图片统一缩放至2480×3580，同时记录下长和宽各自缩放的倍数用于后续还原图像。

S403、将单元格图片输入至文本区域检测模型和光学文字识别模型，完成单元格文字内容和光学文字的识别。

由于字符集本身已按99:1的比例划分成了训练集和测试集，因此模型在训练时也按照此比例对样本和测试集进行划分。随后将样本、测试集输入按前述构造的文本区域检测模型和光学文字识别模型中即开始训练，得到训练完成后的两个模型，并利用训练完成的两个模型进行识别。

根据获取到的单元格坐标，对原页面进行裁剪，获取单元格对应的图片，然后将图片统一等比缩放至328像素宽的大小。

将缩放后的图片输入文本区域检测模型中，得到待识别区域对应的坐标，再按坐标对单元格进行裁剪，裁剪后的图片输入OCR模型中，得到单元格的文字内容。

S104、利用标识及单元格中的内容，对表格进行还原；

步骤S104中，表格还原的具体过程如下：

S501、预设规则如下：一行只有一个表格，不存在两个较小的表格并排放在同一行；

S502、将各页面的表格内容组织起来，根据单元格坐标，从左上角的点位开始，依次把这个单元格附近的单元格组织为同一行，以此类推将整行的单元格组织起来；再根据左上角的点位，获取相邻的纵向单元格，再组织整列的单元格；

S503、根据单元格内的子单元格合并后，每一行的列数相等、行数也相等这个规则，筛选出未被识别的单元格；

S504、将未被识别的单元格进行填补，得到还原后的完整表格。

需要说明的是，在重建表格时，有一个预先的假设：一行只有一个表格。即不存在两个较小的表格并排放在同一行。

将各页面的表格内容组织起来，根据坐标，从左上角的点位开始，依次把这个单元格附近的单元格组织为同一行，以此类推将整行的单元格组织起来；再根据左上角的点位，获取相邻的纵向单元格，再像前面一样组织整行的单元格；类似地，组织整个表格。

在对表格识别完毕后，表格的大部分都被正确识别出来了，但会有少部分情况，整个页面中有部分单元格未识别到，即模型并未把表格中部分应识别的单元格标注出来，因此识别完成后，还需要增加一个额外的填补过程。

对于这个填补过程，有一个预先的假设：表格是规整的。

即将单元格内的子单元格（如果存在子单元格）合并后，每一行的列数相等，每一列的行数也相等。

根据这个假设，就可以推算出是否有单元格未被识别出来，如果有没识别出来的单元格，则由程序将计算后空缺出的单元格位置补充到表格中。

在最后，根据上述的缩放倍数，取缩放倍数的倒数把表格坐标进行还原。

所述反向推理阶段过程如下：

所述反向推理阶段的具体过程如下：

S601、对表格对应的图片进行预处理，得到预处理后的图片；

S602、通过步骤S101中获得的表格区域，得到表格边界的x，y坐标，并将表格边界扩充若干像素后，裁剪得到一个新区域；

S603、对新区域，求区域内每行之和和每列之和，得到行数组和列数组；

S604、对行数组和列数组的元素开平方，并进行平滑处理，得到行数组的峰值个数和列数组的峰值个数；

S605、将行数组的峰值个数减1、列数组峰值个数减1后，与表格识别模型预测得到的表格行数、列数对应相比较，若相等或相差小于预设值，则认为表格识别模型预测准确，否则表示表格识别模型预测不准确。

作为一种实施例，将已处理的图片恢复为原图，将图片按比例缩放至宽1920像素。再使用较大的核函数对图像进行形态学操作，从而获取到表格的整体位置。

然后再获取处理后的图像的最大外接矩形，可以根据这个矩形，计算出图片是否发生了整体的偏转，如果此矩形存在超过10°的偏转角度，就对图片整体进行仿射变换，来解决扫描版图片发生偏转的情况。

然后对图片进行轻微的高斯模糊和椒盐去噪，再将图片转入灰度空间，使用自适应高斯阈值的方案将图片二值化，随后将二值化的图片分别按行以及按列累加，从而分别得到每行之与每列之和的一维数组。

因此，通过神经网络推算出各单元格坐标后，将所推断的表格的边界的x、y坐标值（四个点）向上下左右四个方向扩大50个像素，将原图按此区域裁剪，对所得区域求每行之和以及每列之和，对所得数组各元素进行开平方，随后对数组进行平滑化处理，可以计算出数组中的峰值个数。

当根据（每行之和的数组所得的峰值个数-1）与神经网络所预测的表格的行数相等或相差不大时，认为表格的列数预测成功；

同理，当根据（每列之和的数组所得的峰值个数-1）与神经网络所预测的表格的列数相等或相差不大时，认为表格的行数预测成功。

请参见图2，图2是本发明实施例的硬件设备工作示意图，所述硬件设备具体包括：一种基于卷积神经网络的对投资金额类表格识别设备401、处理器402及存储设备403。

一种基于卷积神经网络的对投资金额类表格识别设备401：所述一种基于卷积神经网络的对投资金额类表格识别设备401实现所述一种基于卷积神经网络的对投资金额类表格识别方法。

处理器402：所述处理器402加载并执行所述存储设备403中的指令及数据用于实现所述一种基于卷积神经网络的对投资金额类表格识别方法。

存储设备403：所述存储设备403存储指令及数据；所述存储设备403用于实现所述一种基于卷积神经网络的对投资金额类表格识别方法。

本发明的有益效果是：提高了表格识别的准确度。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于卷积神经网络的对投资金额类表格识别方法，其特征在于：包括：

表格识别阶段和反向推理阶段；

所述表格识别阶段用于对pdf文件中的表格进行还原；

所述表格识别阶段过程如下：

S102、在表格区域内，对表格的组成部分进行标识；

S104、利用标识及单元格中的内容，对表格进行还原；

所述反向推理阶段过程如下：

通过表格对应的图片视觉特征，计算表格线对应的x、y坐标，将此结果与步骤S1中的结果进行比较，当相差超过预设阈值时，认为表格识别阶段结果不准确，调整训练参数重新对表格识别模型进行训练，否则，认为表格识别阶段结果准确；

所述反向推理阶段的具体过程如下：

S601、对表格对应的图片进行预处理，得到预处理后的图片；

2.如权利要求1所述的一种基于卷积神经网络的对投资金额类表格识别方法，其特征在于：所述表格识别模型的训练过程如下：

S201、获取投资金额类表格的pdf文件，并转换成图片；

S202、对图片中表格的个组成部分打标签，形成样本集；

S203、将样本集划分为训练集和测试集；

S204、构建基于VGG神经网络的表格识别模型；

3.如权利要求1所述的一种基于卷积神经网络的对投资金额类表格识别方法，其特征在于：步骤S101具体如下：

S301、将图片输入至预训练的表格识别模型，得到表格中每个单元格在图片中对应的坐标；

S302、利用表格特征，过滤非跨页表格；

S303、针对剩余表格，进一步进行跨页判定，对存在跨页的表格进行标记，待重建时进行还原。

4.如权利要求1所述的一种基于卷积神经网络的对投资金额类表格识别方法，其特征在于：步骤S302中过滤非跨页表格的过程如下：

若满足下列特征之一，则表示表格为非跨页表格：

（1）前后两页表格列数不一致；

5.如权利要求4所述的一种基于卷积神经网络的对投资金额类表格识别方法，其特征在于：步骤S303中所述跨页判定的过程如下：

若满足下列规则之一，则表示表格存在跨页，规则如下：

（1）前一页表格有表头，后一页表格没有表头；

（2）根据用户配置，前一页表格和后一页表格均存在表头。

6.如权利要求1所述的一种基于卷积神经网络的对投资金额类表格识别方法，其特征在于：步骤S103具体如下：

S401、建立文本区域检测模型和光学文字识别模型；

7.如权利要求1所述的一种基于卷积神经网络的对投资金额类表格识别方法，其特征在于：步骤S104中，表格还原的具体过程如下：

8.一种存储设备，其特征在于：所述存储设备存储指令及数据用于实现权利要求1~7任一项所述的一种基于卷积神经网络的对投资金额类表格识别方法。

9.一种基于卷积神经网络的对投资金额类表格识别设备，其特征在于：包括：处理器及存储设备；所述处理器加载并执行存储设备中的指令及数据用于实现权利要求1~7任一项所述的一种基于卷积神经网络的对投资金额类表格识别方法。