CN110210440A

CN110210440A - 一种表格图像版面分析方法及系统

Info

Publication number: CN110210440A
Application number: CN201910501444.6A
Authority: CN
Inventors: 王佳; 赵焕芳; 杨声钢; 高峰; 田瑞云; 赵思远; 张愉婧
Original assignee: Agricultural Bank of China
Current assignee: Agricultural Bank Of China Financial Technology Co ltd; Agricultural Bank of China
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-09-06
Anticipated expiration: 2039-06-11
Also published as: CN110210440B

Abstract

本发明公开了一种表格图像版面分析方法及系统，该方法包括：对第一图像进行图像处理，获得第二图像，第一图像表征图像的至少部分区域无表格线，第二图像表征纯文本图像；对第二图像进行图像投影处理，获得投影结果；基于预设阈值对投影结果进行分析，获得表格信息；基于表格信息对第一图像进行转换，获得目标图像，目标图像表征有表格线的表格图像；对目标图像进行文字识别，获得目标图像的文字信息。由于表格信息为行列相关数据及坐标情况，可以将部分区域无表格线的表格图像转换为具有表格线的目标图像，因此可以利用文字识别技术目标图像进行版面分析，从而实现了对无表格线的表格图像的文字识别。

Description

一种表格图像版面分析方法及系统

技术领域

本发明涉及信息处理技术领域，特别是涉及一种表格图像版面分析方法及系统。

背景技术

企业财务报表数据作为企业的重要参考数据，通常采用手工录入的方式，会带来效率低以及错误率较高的问题，因此现有技术中会采用文字识别技术来解决手工录入带来的问题。

从应用场景上进行划分，文字识别技术一般会分为通用识别和版面识别。通用识别是单纯提取图像中所有文字信息；版面识别则是针对有特定格式的图像，提取文字信息，并对数据进行结构化，即明确目标区域的数据含义。表格图像作为一个典型的版面识别场景，有着大量的应用场景和迫切的文字识别需求，其中，企业财务报表就是其中的一种。但由于其种类较多，难以有统一的识别模型。例如，现有的识别模型无法对无表格线的表格图像进行版面分析，使得无表格线的表格图像无法利用文字识别技术来获得相关信息。

发明内容

针对于上述问题，本发明提供一种表格图像版面分析方法及系统，实现了对无表格线的表格图像的文字识别。

为了实现上述目的，本发明提供了如下技术方案：

一种表格图像版面分析方法，该方法包括：

对第一图像进行图像处理，获得第二图像，所述第一图像表征图像的至少部分区域无表格线，所述第二图像表征纯文本图像；

对所述第二图像进行图像投影处理，获得投影结果；

基于预设阈值对所述投影结果进行分析，获得表格信息；

基于所述表格信息对所述第一图像进行转换，获得目标图像，所述目标图像表征有表格线的表格图像；

对所述目标图像进行文字识别，获得所述目标图像的文字信息。

可选地，所述对第一图像进行图像处理，获得第二图像包括：

判断所述第一图像中是否包括满足预设条件的目标区域，如果是，则获取所述目标区域，所述目标区域表征具有表格线的区域；

对所述目标区域进行水平直线和垂直直线的提取，并根据提取结果对所述目标区域进行表格线消除处理，获得处理后的第一图像；

将所述处理后的第一图像进行像进行图像预处理，生成第二图像，所述图像预处理包括灰度处理、二值化处理、图像纠偏处理、图像腐蚀处理和膨胀处理中的一种或多种；

可选地，所述对所述第二图像进行图像投影处理，获得投影结果，包括：

对所述第二图像进行水平投影和垂直投影，获得所述第二图像的像素数据。

可选地，所述基于预设阈值对所述投影结果进行分析，获得表格信息，包括：

基于预设阈值对所述像素数据进行分析，获得文字区域和背景区域；

基于所述文字区域和所述背景区域，生成表格信息。

可选地，所述表格信息包括行列数据和坐标数据，所述基于所述表格信息对所述第一图像进行转换，获得目标图像，包括：

基于所述行列数据和坐标数据，确定所述第一图像的行列位置；

根据所述行列位置对所述第一图像添加表格线，获得目标图像。

一种表格图像版面分析系统，该系统包括：

图像处理单元，用于对第一图像进行图像处理，获得第二图像，所述第一图像表征图像的至少部分区域无表格线，所述第二图像表征纯文本图像；

投影单元，用于对所述第二图像进行图像投影处理，获得投影结果；

分析单元，用于基于预设阈值对所述投影结果进行分析，获得表格信息；

转换单元，用于基于所述表格信息对所述第一图像进行转换，获得目标图像，所述目标图像表征有表格线的表格图像；

文字识别单元，用于对所述目标图像进行文字识别，获得所述目标图像的文字信息。

可选地，所述图像处理单元包括：

判断子单元，用于判断所述第一图像中是否包括满足预设条件的目标区域，如果是，则获取所述目标区域，所述目标区域表征具有表格线的区域；

提取子单元，用于对所述目标区域进行水平直线和垂直直线的提取，并根据提取结果对所述目标区域进行表格线消除处理，获得处理后的第一图像；

预处理子单元，用于将所述处理后的第一图像进行像进行图像预处理，生成第二图像，所述图像预处理包括灰度处理、二值化处理、图像纠偏处理、图像腐蚀处理和膨胀处理中的一种或多种。

可选地，所述投影单元具体用于：

可选地，所述分析单元包括：

区域分析子单元，用于基于预设阈值对所述像素数据进行分析，获得文字区域和背景区域；

信息生成子单元，用于基于所述文字区域和所述背景区域，生成表格信息。

可选地，所述转换单元包括：

位置确定子单元，用于基于所述行列数据和坐标数据，确定所述第一图像的行列位置，其中，所述表格信息包括行列数据和坐标数据；

添加子单元，用于根据所述行列位置对所述第一图像添加表格线，获得目标图像。

相较于现有技术，本发明提供了一种表格图像版面分析方法及系统，通过对至少部分区域无表格线的第一图像进行图像处理和投影处理，可以获得投影结果，从而获得该类表格的表格信息，即行列相关数据及坐标情况，可以将部分区域无表格线的表格图像转换为具有表格线的目标图像，因此可以利用文字识别技术目标图像进行版面分析，从而实现了对无表格线的表格图像的文字识别。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种表格图像版面分析方法的流程示意图；

图2为本发明实施例提供的一种表格图像版面分析系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在本发明实施例中提供了一种表格图像版面分析方法，参见图1，该方法包括：

S101、对第一图像进行图像处理，获得第二图像；

本发明提供的表格图像版面分析方法，对无完整表格线的表格图像添加表格线，使其能够转化为较容易处理的有表格线图像。因此，本发明中第一图像表征图像的至少部分区域无表格线，第二图像表征纯文本图像；即第一图像可以是完全没有表格线的表格图像，也可以是有部分区域有表格线的表格图像。

在本发明的另一实施例中还提供了一种对第一图像进行处理的方法，包括以下步骤：

S1011、判断所述第一图像中是否包括满足预设条件的目标区域，如果是，则获取所述目标区域，所述目标区域表征具有表格线的区域；

S1012、对所述目标区域进行水平直线和垂直直线的提取，并根据提取结果对所述目标区域进行表格线消除处理，获得处理后的第一图像；

S1013、将所述处理后的第一图像进行像进行图像预处理，生成第二图像，所述图像预处理包括灰度处理、二值化处理、图像纠偏处理、图像腐蚀处理和膨胀处理中的一种或多种。

第一图像为对应的待处理的原始表格图像，在实际应用中由于无表格线财报可能有部分表格线，为了防止其产生不必要的干扰，要对部分表格线进行消除，从而将图像转换为纯文本图像。用目标区域表征第一图像中具有表格线的区域，需要对目标区域采用Hough变换进行水平和垂直直线提取，然后将二者进行叠加，并将二者进行异或操作或减法操作，从而完成对目标区域的表格线的消除。

为了提升图像处理效果和准确率，需要对第一图像进行图像预处理，其中，预处理主要包括灰度处理、二值化处理、图像纠偏处理、图像腐蚀处理和膨胀处理中的一种或多种。例如，可以通过图像腐蚀、膨胀的方式将文字区域去燥，并进行一定程度的扩展增强，从而填充文字间隙。

S102、对所述第二图像进行图像投影处理，获得投影结果；

具体的，对第二图像进行水平投影和垂直投影，获得第二图像的像素数据。

S103、基于预设阈值对所述投影结果进行分析，获得表格信息。

基于预设阈值对所述像素数据进行分析，获得文字区域和背景区域；基于文字区域和背景区域，生成表格信息。

在对原始的第一图像进行处理后，将分别通过水平投影和垂直投影的方式对第二图像或者第二图像中的目标区域进行行列位置判断。由图像投影的原理可知，有文字的区域，其像素积累值较高，没有文字的区域，则投影值较低或为0。同时，对图像动态设置一个阈值，高于阈值，认为是文字区域，低于阈值，认为是背景区域，从而可以知道有多少行、多少列，以及每行每列的坐标。因此，在本申请中的投影后获得的第二图像的像素数据，表征的是像素积累值即投影值，表格信息包括行列数量信息和每行每列的坐标。

需要说明的是，由于字符间存在间隔，因此在垂直投影时，会将文字间的间隙误判为列分隔，为解决这一问题，本方案将通过图像腐蚀、膨胀的方式将文字区域去燥，并进行一定程度的扩增，从而填充文字间隙。阈值的设置会直接影响行列划分的准确性，本方法利用深度学习原理，根据波峰、波谷、投影像素均值与行、列切分点关系进行迭代训练，从而提升划分准确率。

S104、基于所述表格信息对所述第一图像进行转换，获得目标图像；

所述目标图像表征有表格线的表格图像。

S105、对所述目标图像进行文字识别，获得所述目标图像的文字信息。

由于表格信息中包括了行列数据和坐标数据，因此可以基于该信息确定原始图像中的行列位置，从而根据行列位置添加表格线，获得目标图像，即具有表格线的表格图像。

然后利用文字识别技术对目标图像进行识别，获得文字信息，从而实现了对任何表格图像的文字提取。

本发明提供了一种表格图像版面分析方法，通过对至少部分区域无表格线的第一图像进行图像处理和投影处理，可以获得投影结果，从而获得该类表格的表格信息，即行列相关数据及坐标情况，可以将部分区域无表格线的表格图像转换为具有表格线的目标图像，因此可以利用文字识别技术目标图像进行版面分析，从而实现了对无表格线的表格图像的文字识别。

本发明提供了一种表格图像版面分析方法，对无完整表格线表格图像添加表格线，转化为较容易处理的有表格线图像，并输出所有行、列、单元格坐标信息，便于后续进行文字识别等操作。该方法利用图像投影技术，判别该类表格的行列数并计算坐标情况，从而完成该类图像的版面分析工作。弥补了图像处理及文字识别领域在此方面的不足和空白，并可为类似需求的外部系统提供标准化服务。

图像处理过程中涉及部分处理参数的设置，如二值化阈值、行列投影甄别阈值等，利用深度学习模型自适应调整，进一步提升图像处理效果和准确率。

由于企业财务报表中有较大比例属于无表格线表格，将该方法应用于银行财务报表处理平台并进行文字识别，再加上相对成熟的有表格线表格文字识别引擎，基本实现了对企业财务报表智能识别、录入场景的全覆盖，提升财务报表处理效率。

具体的该表格图像版面分析方法主要是对表格图像进行二值化、腐蚀、膨胀等图像预处理后，然后分别进行水平投影和垂直投影，根据投影结果及动态设置的阈值，判断表格行列数，从而可获取每个单元格的坐标信息，或将无表格线表格转换为有表格线进行识别。

下面将本发明中利用的相关技术术语进行解释说明。

文字识别技术(简称OCR)是利用计算机自动识别图像中文字信息及版面信息的技术，是模式识别应用的一个重要领域。

灰度化：将彩色图像转化为灰度图像的过程称为图像灰度化。彩色图像中的像素值由RGB三个分量决定，每个分量都有0-255(256种)选择，这样一个像素点的像素值可以有1600万种可能(256*256*256)，而灰度图的像素点的像素值是RGB三个分量值相同的一种特殊的彩色图像，只有256种可能。所以在图像处理中，往往将各种图像首先灰度化成灰度图像以便后续处理，降低计算量。灰度是指只含亮度信息，不含色彩信息的图像。黑白照片就是灰度图，特点是亮度由暗到明，变化是连续的。

二值化：图像的二值化是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果。将256个亮度等级的灰度图像通过适当的阀值选取而获得仍然可以反映图像整体和局部特征的二值化图像。所有灰度大于或等于阀值的像素被判定为属于特定物体，其灰度值为255，否则这些像素点被排除在物体区域以外，灰度值为0，表示背景或者例外的物体区域。

图像纠偏：扫描图片发生倾斜时，需要纠偏。基本思路是找到倾斜角，然后旋转图片。倾斜角一般根据特征最明显的直线斜率或轮廓与水平线夹角获得。

轮廓提取：轮廓可以简单认为将连续的点(连着边界)连在一起的曲线，具有相同的颜色或者灰度。

膨胀：将灰度值较大(视觉上比较亮)的区域增强扩展，用来连通相似颜色或强度的区域

腐蚀：将灰度值较小(视觉上比较暗)的区域增强扩展，用来除去比较亮的噪点。

直线提取：从图像中分离出水平线或垂直线。

图像投影：一般是对二值图像而用的，水平方向的投影就是每行的非零像素值的个数，垂直投影就是每列图像数据中非零像素值的个数。

在本发明实施例中，完成了无表格线的版面分析过程后，可以进行最后的文字识别。对于文字识别可以有两种方式：

一是，根据版面分析结果，可以定位所有单元格坐标，然后采用并发线程的模式调用文字识别通用识别接口，从而获得结果。

二是，可根据获取的行列坐标对图像绘制表格线，从而将无表格线财报转换为有表格线财报，而有表格线表格可通过寻找表格线交点的方式进行识别或可通过现有表格线表格识别方案解决。

第一种方式是前端并发，第二种方式是后端并发，在实际应用过程中可根据情况自行选择。

在本发明实施例中可以根据识别结果对相关设置的阈值和参数等迭代训练，从而提升版面分析质量。

本发明提供的无表格线图像版面分析方法，解决了无表格线表格无法结构化，进而不能有效文字识别的难题，版面分析准确率可达80％以上，从而丰富了表格类图像进行文字识别的场景。通过该技术，为类似场景提供了一种处理思路。

在本发明实施例中还提供了一种表格图像版面分析系统，参见图2，该系统包括：

图像处理单元10，用于对第一图像进行图像处理，获得第二图像，所述第一图像表征图像的至少部分区域无表格线，所述第二图像表征纯文本图像；

投影单元20，用于对所述第二图像进行图像投影处理，获得投影结果；

分析单元30，用于基于预设阈值对所述投影结果进行分析，获得表格信息；

转换单元40，用于基于所述表格信息对所述第一图像进行转换，获得目标图像，所述目标图像表征有表格线的表格图像；

文字识别单元50，用于对所述目标图像进行文字识别，获得所述目标图像的文字信息。

在上述实施例的基础上，所述图像处理单元包括：

预处理子单元，用于将所述处理后的第一图像进行像进行图像预处理，生成第二图像，所述图像预处理包括灰度处理、二值化处理、图像纠偏处理、图像腐蚀处理和膨胀处理中的一种或多种；

在上述实施例的基础上，所述投影单元具体用于：

在上述实施例的基础上，所述分析单元包括：

在上述实施例的基础上，所述转换单元包括：

本发明提供了一种表格图像版面分析系统，通过图像处理单元、投影单元、分析单元、转换单元和文字识别单元等，实现了对至少部分区域无表格线的第一图像进行图像处理和投影处理，可以获得投影结果，从而获得该类表格的表格信息，即行列相关数据及坐标情况，可以将部分区域无表格线的表格图像转换为具有表格线的目标图像，因此可以利用文字识别技术目标图像进行版面分析，从而实现了对无表格线的表格图像的文字识别。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种表格图像版面分析方法，其特征在于，该方法包括：

对所述第二图像进行图像投影处理，获得投影结果；

基于预设阈值对所述投影结果进行分析，获得表格信息；

2.根据权利要求1所述的方法，其特征在于，所述对第一图像进行图像处理，获得第二图像包括：

将所述处理后的第一图像进行像进行图像预处理，生成第二图像，所述图像预处理包括灰度处理、二值化处理、图像纠偏处理、图像腐蚀处理和膨胀处理中的一种或多种。

3.根据权利要求1所述的方法，其特征在于，所述对所述第二图像进行图像投影处理，获得投影结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述基于预设阈值对所述投影结果进行分析，获得表格信息，包括：

基于所述文字区域和所述背景区域，生成表格信息。

5.根据权利要求4所述的方法，其特征在于，所述表格信息包括行列数据和坐标数据，所述基于所述表格信息对所述第一图像进行转换，获得目标图像，包括：

6.一种表格图像版面分析系统，其特征在于，该系统包括：

7.根据权利要求6所述的系统，其特征在于，所述图像处理单元包括：

8.根据权利要求6所述的系统，其特征在于，所述投影单元具体用于：

9.根据权利要求8所述的系统，其特征在于，所述分析单元包括：

10.根据权利要求9所述的系统，其特征在于，所述转换单元包括：