CN113723252A

CN113723252A - 一种表格型文本图片的识别方法和系统

Info

Publication number: CN113723252A
Application number: CN202110969330.1A
Authority: CN
Inventors: 朱迦榕; 柳奉奇; 徐洪义; 龚靖渝; 马利庄
Original assignee: Shanghai Finance Union Financial Technology Co ltd
Current assignee: Shanghai Finance Union Financial Technology Co ltd
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2021-11-30

Abstract

本发明公开了一种表格型文本图片的识别方法，首先将表格型文本图片进行灰度化处理得到灰度图，对灰度图运用自动阈值的二值化处理，然后使用霍夫变换提取表格横竖线结构，得到横竖线坐标及单元格；然后对表格型文本图片中的文本内容进行检测并得到具有标签的文本图像，所述标签具有坐标；对文本图像进行字符识别；再将步骤S1的单元格与步骤S2的标签进行自动坐标匹配，并将步骤S2的字符识别结果输出到相应单元格内。该方法用于实现金融资讯扫描文件等内容的识别，能够准备识别表格和其中的文本内容。

Description

一种表格型文本图片的识别方法和系统

技术领域

本发明属于自然语言处理、模式识别、图像处理技术结合领域,涉及一种适合识别金融资讯扫描文件等的表格型文本图片内容的识别方法与系统。

背景技术

随着计算机视觉的飞速发展，作为计算机视觉的经典问题之一的光学字符识别(optical character recognition,OCR)技术迅速突破了传统技术框架的瓶颈，在自然场景文本识别、车牌识别、证件票据识别等诸多领域得到了广泛的应用。传统的光学字符识别技术是一个经典的模式识别问题，包括对图片的预处理、特征提取、利用分类器分类等几个步骤，已经形成了较为完善的技术体系。但随着深度学习的发展，传统光学字符识别框架被打破，基于深度学习的光学字符识别作为新的研究热点展现出更多的活力和更广阔的应用场景。因此，光学字符识别技术目前正面临着巨大的机遇和挑战。现有的文件内容识别方法大多采用传统的扫描匹配算法，缺乏对文件内表格、段落等复杂结构的特殊处理、对检测识别产生的错误内容的二次校准等技术。

发明内容

本发明的目的是提供一种表格型文本图片的识别方法，用于实现金融资讯扫描文件等内容的识别，能够准备识别表格和其中的文本内容，并可以识别版式和页眉页脚，识别精准度高。

为实现上述目的，本发明采取以下技术方案：

一种表格型文本图片的识别方法，包括如下步骤：

S1：将表格型文本图片进行灰度化处理得到灰度图，对灰度图运用自动阈值的二值化处理，然后使用霍夫变换提取表格横竖线结构，得到横竖线坐标及单元格；

S2：对表格型文本图片中的文本内容进行检测并得到具有标签的文本图像，所述标签具有坐标；对文本图像进行字符识别；

S3：将S1的单元格与S2的标签进行自动坐标匹配，并将S2的字符识别结果输出到相应单元格内。

进一步的，还包括如下步骤：

S4：在S2中对文本图像进行字符识别后，利用基于交并比的文本序列相似度的计算函数对相邻两页的表格型文本图片以行为单位计算相似度，遍历所有表格型文本图片得到全局文本相似度；

S5：根据全局文本相似度对所有表格型文本图片进行全局搜索，进而提取出页眉和页脚。

更进一步的，还包括如下步骤：

S6：对步骤S2的文本图像的标签进行全局遍历来确定横坐标的取值范围；

S7：利用自适应阈值来对正文文本内容进行分段，若当前行的两端点横坐标均大于阈值坐标，则该行为标题；若当前行只有一个端点的横坐标大于阈值坐标，则被确定为新的段落，据此进行排版输出。

优选的，所述步骤S2具体通过如下步骤实现：

S21：将所述表格型文本图片输入到特征金字塔网络中，特征金字塔网络按相同比例采样并级联生成特征F；

S22：将所述特征F用于预测概率图P和阈值图T；

S23：用概率图P和阈值图T计算近似二元图

其中，P∈R^H*W是由分割网络生成的概率图，H代表图片高度，W代表图片宽度，T为网络学习到的自适应阈值图；K表示放大因子，(i,j)表示图中的坐标点；

S24：采用可变形卷积为模型提供灵活的感受野，来助力极端长宽比的文本实例；

S25：为文本图像生成标签：用一组线段描述文本图像区域的每个多边形G：

其中，S_k为一组线段，n是顶点的个数，

然后通过使用Vatti裁剪算法将多边形G缩小为第一多边形Gs来生成正区域，其中缩小的偏移量D是根据原始多边形的周长L和面积A计算得出：

r为收缩比；

S26：为阈值图T生成标签：以相同的偏移量D到第二多边形G_d扩展所述多边形G，然后通过计算到所述多边形G中最接近的线段的距离来生成阈值图T的标签；

S27：利用CNN提取输入文本图像的卷积特征图，利用深层双向LSTM网络在卷积特征的基础上继续提取文字序列特征，再将输出做softmax后得到字符输出。

优选的，所述步骤S3中，在将S1的单元格与S2的标签进行自动坐标匹配，并将S2的字符识别结果输出到相应单元格内之后，利用重识别技术对检测识别产生的错误内容的二次校准，所述重识别技术为将识别为空的单元格裁剪出来再进行识别。

同时，本发明还提供一种表格型文本图片的识别系统，所述识别系统能够执行上述的表格型文本图片的识别方法。

上述技术方案中，通过识别表格中的横竖线及横竖线的坐标实现了对单元格的识别，并为文本内容添加了具有坐标的标签，通过自动坐标匹配实现了对单元格内文本内容的复原，同时也给出了页眉和页脚以及版式的识别方法。本发明可被应用于大量表格型文本图片如金融资讯扫描文件等的识别场景，在节省人力的同时提高了识别精度。

具体实施方式

下面对本发明做进一步说明：

本发明识别的对象为表格型的文本图片，如果开始扫描得到pdf类型的文件，首先要转换为图片。

S1：针对结构化数据恢复的表格识别技术，具体步骤为：

对表格型文本图片中的文本图像进行灰度化处理，在灰度图的基础上运用自动阈值的二值化处理，然后使用霍夫变换来提取表格的横竖线结构，并确定横竖线的坐标，由此划分出各个单元格。

S2：文本检测及识别，具体步骤为：

将需要检测的表格型文本图片的文本图像输入到特征金字塔网络中，特征金字塔网络包含卷子算子和两个反卷积算子；利用特征金字塔网络按相同比例采样并级联以生成特征F。

将特征F用于预测概率图P和阈值图T。

用概率图P和阈值图T计算近似二元图

其中，P∈R^H*W是由分割网络生成的概率图，H代表图片高度，W代表图片宽度，

是近似二元图，T为网络学习到的自适应阈值映射；K表示放大因子，根据经验设为50，(i,j)表示图中的坐标点。

采用可变形卷积为模型提供灵活的感受野，来助力极端长宽比的文本实例；

为文本图像生成标签：用一组线段描述文本图像区域的每个多边形：

其中，S_k为一组分段，G为文本区域的每个多边形，n是顶点的个数，在不同的数据集中可能不同。

然后通过使用Vatti裁剪算法将多边形G缩小为Gs来生成正区域，其中缩小的偏移量D是根据原始多边形的周长L和面积A计算得出：

其中，D为缩小的偏移量，L为周长，A为面积，r为收缩比，根据经验值设为0.4。

为阈值图T生成标签：以相同的偏移量D扩展文本多边形G到一个新的多边形，记为G_d，然后通过计算到G中最接近的线段的距离来生成阈值图的标签。

然后再进行文本识别，具体步骤为：

利用CNN提取输入图像的卷积特征图，利用深层双向LSTM网络在卷积特征的基础上继续提取文字序列特征，再将输出做softmax后得到字符输出。

然后利用Connectionist Temporal Classification(CTC)，通过梯度来调整LSTM的参数，让训练样本无需对齐，通过递推，快速计算梯度，解决训练时字符无法对齐的问题。

S3：将S2中得到的文本标签和S1中得到的表格的单元格进行自动坐标匹配，从而恢复出表格的结构化文本内容。进一步的，利用重识别技术对检测识别产生的错误内容的二次校准，提高表格数据的识别精确度和准确度。

然后，进行页眉页脚的识别，包括：

S4：基于全局文本相似度搜索的页眉页脚处理方案：

设计了基于交并比的文本序列相似度的计算函数，对相邻两页的文本文件以行为单位计算相似度，遍历整个文本后就得到全局文本的相似度。

S5：根据全局文本的相似度对待识别的所有表格型文本图片进行全局搜索，进而提取出整个文本的页眉和页脚。

进一步，进行排版版式识别：

S6：自适应的正文排版分段：对文本图像的检测框进行全局遍历来确定横坐标的取值范围；

S7：利用自适应的阈值来对正文文本内容进行分段，若当前行的两端点横坐标均大于阈值坐标，则被确定为标题部分，若当前行只有一个顶点的横坐标大于阈值坐标，则被确定为新的段落，并据此进行排版输出。

本发明还提供一种实现上述方法的系统，如按照上述程序并具有相应硬件的计算机系统。

本实施例只是对发明构思和实现的说明，并非对其进行限制，在本发明构思下，未经实质变换的技术方案仍然在保护范围内。

Claims

1.一种表格型文本图片的识别方法，其特征在于包括如下步骤：

S3：将步骤S1的单元格与步骤S2的标签进行自动坐标匹配，并将步骤S2的字符识别结果输出到相应单元格内。

2.如权利要求1所述的表格型文本图片的识别方法，其特征在于还包括如下步骤：

S4：在步骤S2中对文本图像进行字符识别后，利用基于交并比的文本序列相似度的计算函数对相邻两页的表格型文本图片以行为单位计算相似度，遍历所有表格型文本图片得到全局文本相似度；

3.如权利要求2所述的表格型文本图片的识别方法，其特征在于还包括如下步骤：

4.如权利要求1所述的表格型文本图片的识别方法，其特征在于，所述步骤S2具体通过如下步骤实现：

S22：将所述特征F用于预测概率图P和阈值图T；

S23：用概率图P和阈值图T计算近似二元图

其中，S_k为一组线段，n是顶点的个数，

r为收缩比；

5.如权利要求1所述的表格型文本图片的识别方法，其特征在于：

所述步骤S3中，在将步骤S1的单元格与步骤S2的标签进行自动坐标匹配，并将步骤S2的字符识别结果输出到相应单元格内之后，利用重识别技术对检测识别产生的错误内容二次校准，所述重识别技术为将识别为空的单元格裁剪出来再进行识别。

6.一种表格型文本图片的识别系统，其特征在于所述识别系统能够执行如权利要求1至5任一项所述的表格型文本图片的识别方法。