CN110413979A

CN110413979A - 基于图像识别技术的行业表格数字化处理方法

Info

Publication number: CN110413979A
Application number: CN201910715902.6A
Authority: CN
Inventors: 李炯梅; 李婵一; 杨彦; 薛龙江; 王祥
Original assignee: Golden Tax Bridge Big Data Technology Co Ltd
Current assignee: Golden Tax Bridge Big Data Technology Co Ltd
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2019-11-05
Also published as: CN115828874A

Abstract

本发明公开了一种基于图像识别技术的行业表格数字化处理方法，通过加载深度学习训练出的OCR文字检测模型和文字识别模型以及各行业相关各类表格的模型数据，区分普通的图片或者pdf类型的文件，对于pdf类型文件还可以根据每页的内容区分每页的表格属于那种报表类型；其次检测表格中的文字区域，预测表格的形态，对于没有表格的文件根据文本预测出排列的规则，根据用户指定的类型，或者系统内置类型自动生成新的表格。对检测出的表格内容进行文字识别，提取关键字以及数值，形成数字化的输出结果；从而为后续的应用提供可靠的数据支持，应用在财税类型这个最为复杂的行业中，可大大提高工作效率。

Description

基于图像识别技术的行业表格数字化处理方法

技术领域

本发明涉及计算机信息处理技术领域，特别是一种表格的数字化处理方法。

背景技术

伴随各行各业信息化进程地不断加快，产生了大量多源、异构、多维、海量的业务数据，而很多历史数据是纸质的并且包含各式各样的表格，或者本身文件中没有表格，但是在后续处理中行业分析人员需要将数据按表格分布的规则进行处理，将这类纸质文件进行识别，并根据各行业不同类型文件的特殊性质进行进一步的处理，将关键字和其相对应的数值提取出来，最终将纸质文件数字化并进行后续的分析处理。因此表格的数字化处理具有非常大的现实意义和应用空间。

相关的技术包括阿里云通用OCR识别接口、百度OCR识别接口以及有道表格识别接口等。但是这些识别接口对于表格的处理功能非常有限，有的无法识别出带表格的文件，有的支持表格类专项识别，但是只能处理非常简单的二维行列表格，一遇到合并单元格的情况就无法正确的进行识别，对于专业行业类表格也没有专门提供接口支持，大部分文件都不能够正确的返回识别结果，所以更加无法参与下一步数据与键值相对应、进行数字化处理分析的过程中去。

中国专利CN105589841B公开了一种PDF文档表格识别的方法，首先获取页面中字符集，并将所述字符集合并成行，建立行集合；再提取页面路径中水平线与垂直线，建立线集合；之后检测行集合中的疑似表标题与线集合中的疑似表格线；若同时存在疑似表标题和疑似表格线，则采用基于表标题和线集合的区域生长法识别表格；若仅存在疑似表格线，则用线集合和行集合先检测全线表再检测三线表；若仅存在疑似表标题，则用基于表标题和行集合的区域生长法识别表格；若既无疑似表格线也无疑似表标题，则判定该页无表格；检测表头、表注表格附属元素，输出该页表格识别结果。

中国专利申请CN109522816A提供了一种表格识别方法及装置、计算机存储介质。所述方法包括：检测待处理图像中第一表格的表格结构获得表格结构信息，并识别第一表格的表格内容获得与所述表格内容相对应的文本信息；根据所述表格结构信息绘制第二表格；将所述文本信息填充到第二表格中。

上述两篇文件虽然能够对表格进行专项处理，但是只适用于普通的表格，无法实现对复杂业务表格例如财税类型复杂多样的表格类型进行归纳处理，并且不能将识别出的结果进行进一步关键字和数值对应的处理，这样就难对复杂的表格类文件输出完全符合要求的数据，也就无法进行后续数字化的应用。同时，对于没有表格的文件就会直接输出无表格的结果，并没有考虑到如果仅仅是在形式上没有表格，但是数据的排列还是按照表的规则排列的这种更为复杂的情况。

发明内容

本发明需要解决的技术问题是提供一种行业表格的数字化处理方法，能够针对不同类型的表格进行处理，并形成数字化的处理结果，为后续工作提供基础。

为解决上述技术问题，本发明所采取的技术方案如下。

基于图像识别技术的行业表格数字化处理方法，主要包括以下步骤：

A.初始化系统，加载OCR文字检测模型、文字识别模型、行业报表数据模以及行业规范数据模型；

B.输入文件，并对文件进行预处理；

C.判断文件类型，如为PDF文件进行步骤D，如非，直接进行步骤E；

D.拆分PDF文件，预测文字位置，切割小部分图片进行识别判断表格类型；

E.判断是否包含表格，如包含表格，则加载表格模型数据，进行文本识别；如不包含表格，则进行图片文本识别，并根据文本预测出排列的规则；

F.根据用户指定的类型，或者系统内置类型自动生成新的表格，将步骤E 中的文本填充到表格中，进行表格修复修正；

G.对步骤F中表格的内容进行文字识别，提取关键字和数值，生成excel 表，输出数字化结果。

上述图像识别技术的行业表格数字化处理方法，步骤C判断文件类型非PDF 文件时，首先预测表格类型，再进行步骤E。

上述图像识别技术的行业表格数字化处理方法，步骤A中所述OCR文字检测模型为CTPN,PIXEL_LINK模型，文字识别模型采用的是CRNN,DENSENET 模型，行业报表数据模型为自编基于四则运算已经符合行业计算方法的数学计算模型。

由于采用了以上技术方案，本发明所取得技术进步如下。

本发明不但可以处理普通的图片或者pdf类型的文件，同时还能够对复杂多样的表格类型进行归纳处理，对于普通表格可以完全复原表格的结构，对于没有表格的文件根据文本预测出排列的规则，并能够根据用户指定的类型或者系统内置类型自动生成新的表格，之后进行进一步关键字和数值对应的处理，形成数字化的输出结果，为后续的应用提供可靠的数据支持，应用在财税类型这个最为复杂的行业中，可大大提高工作效率。

附图说明

图1为本发明的流程图；

图2为本发明实施例中输入文件拆分后的原图；

图3为本发明实施例中对文件处理后的示意图；

图4为本发明实施例中产生的结果图。

具体实施方式

下面将结合附图和具体实施例对本发明进行进一步详细说明。

一种基于图像识别技术的行业表格数字化处理方法，用于对纸质文档中的表格数据进行数字化处理，并形成电子版的excel表格，为后续工作提供数据支持，该方法的流程如图1所示，主要包括以下步骤。

A.初始化系统，加载OCR文字检测模型、文字识别模型、行业报表数据模以及行业规范数据模型。OCR文字检测模型为CTPN,PIXEL_LINK模型，文字识别模型采用的是CRNN,DENSENET模型，行业报表数据模型为自编基于四则运算已经符合行业计算方法的数学计算模型。

B.输入文件，并对文件进行预处理。预处理的方式包括去水印，旋转矫正，噪点去除。

C.判断文件类型，即输入的文件是PDF文件还是普通的图片文件，如为PDF 文件进行步骤D，如为图片文件，首先预测表格类型，再进行步骤E。

D.拆分PDF文件，预测文字位置，切割小部分图片进行识别判断表格类型。

本实施例，输入一个pdf文件，该pdf文件包含3张图片，按照步骤D中将pdf按页数拆分成分别的图片，之后在对每张图片进行单独处理。

E.判断是否包含表格，如包含表格，则加载表格模型数据，进行文本识别；如不包含表格，则进行图片文本识别，并根据文本预测出排列的规则。

本实施例中，图片中的2幅图本身没有表格，但是使用者可以指定他需要按照表格进行识别，所以根据文件类型来为图片添加上表格。例如原图如图2 所示，自动添加线后预览图如图3所示。

F.根据用户指定的类型，或者系统内置类型自动生成新的表格，将步骤E 中的文本填充到表格中，进行表格修复修正。

本步骤对新的带表格的图片进行识别，提取关键字和竖直，生成Excel格式的识别结果，如图4所示。

Claims

1.基于图像识别技术的行业表格数字化处理方法，其特征在于，主要包括以下步骤：

B.输入文件，并对文件进行预处理；

F.根据用户指定的类型，或者系统内置类型自动生成新的表格，将步骤E中的文本填充到表格中，进行表格修复修正；

G.对步骤F中表格的内容进行文字识别，提取关键字和数值，生成excel表，输出数字化结果。

2.根据权利要求1所述的图像识别技术的行业表格数字化处理方法，其特征在于：步骤C判断文件类型非PDF文件时，首先预测表格类型，再进行步骤E。

3.根据权利要求1所述的图像识别技术的行业表格数字化处理方法，其特征在于：步骤A中所述OCR文字检测模型为CTPN,PIXEL_LINK模型，文字识别模型采用的是CRNN,DENSENET模型，行业报表数据模型为自编基于四则运算已经符合行业计算方法的数学计算模型。