CN116524527A

CN116524527A - 一种表格图像文本识别方法及系统

Info

Publication number: CN116524527A
Application number: CN202310289145.7A
Authority: CN
Inventors: 杨彤; 宁方刚; 李雪; 张连超; 段强; 姜凯
Original assignee: Shandong Inspur Science Research Institute Co Ltd
Current assignee: Shandong Inspur Science Research Institute Co Ltd
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-08-01

Abstract

本发明涉及图像处理和OCR领域，具体提供了一种表格图像文本识别方法及系统，包括以下步骤：S1、构建标准化表格模板；S2、获取待识别图像并进行预处理；S3、模板匹配校准，区域文本识别；S4、识别文本智能纠正和规范；S5、结果输出，数据存储。与现有技术相比，本发明针对一些版式相对固定的表格图像，通过制作标准化模板，分析表格相邻单元格的文本语义约束关系，实现对不同版式表格图片的自动分类和特定区域的信息提取，提高对表格识别的效率和识别结果的准确度。

Description

一种表格图像文本识别方法及系统

技术领域

本发明涉及图像处理和OCR领域，具体提供一种表格图像文本识别方法及装置。

背景技术

人们在日常工作、学习和生活中经常需要填写各种各样的表格：如信息登记表，财务报表、调查问卷、银行的存/汇款单等，成为了记录信息的一种重要方式。随着无纸化办公的普及，大量纸质文档需要录入到计算机中，依靠人工进行信息提取及核查准确性，既耗费时间，又耗费人力资源。随着数字化建设的快速发展，如何高效准确提取纸质单据中的关键信息就显得尤为重要。

发明内容

本发明是针对上述现有技术的不足，提供一种实用性强的表格图像文本识别方法。

本发明进一步的技术任务是提供一种设计合理，安全适用的表格图像文本识别系统。

本发明解决其技术问题所采用的技术方案是：

一种表格图像文本识别方法，包括以下步骤：

S1、构建标准化表格模板；

S2、获取待识别图像并进行预处理；

S3、模板匹配校准，区域文本识别；

S4、识别文本智能纠正和规范；

S5、结果输出，数据存储。

进一步的，在步骤S1中，进一步包括：

S1-1、样表结构提取及识别；

S1-2、获取表格模板信息；

S1-3、确定标准表单的参照锚点。

进一步的，在步骤S1-1中，制作模板所需的样本表格图像，为未填入任何信息的表格，标准的word和pdf形式文件转换为的图像；

对所述样表图像进行行和列表的区域检测，从页面中检测出水平方向和竖直方向可能用于构成表格的直线；

具体地对图像进行灰度处理，对二值化图像进行膨胀腐蚀，通过图像连通域确定表格外框及表中的横线和竖线；基于表中的横线和竖线的交点获取表格中的角点坐标，角点坐标按规则排序；

根据水平、竖直方向的表格线及各交点坐标解析表格结构，得到组成表格的N个单元格位置信息；位置信息格式为[[x1,y1],[x2,y2],[x3,y3],[x4,y4]]，表示单元格区域的四个角点；

对所述样表图像的N个单元格进行文本内容检测，表格单元格分为两类：原有项和用户输入项；

所述原有项信息进行所在单元格的文本内容检测，用户输入项单元格为空白单元格，文本内容检测统一值为空。

进一步的，在步骤S1-2中，最终得到M个原有项单元格的位置信息及文本信息；及N-M个空白单元格的位置信息及文本信息；

将N个单元格的坐标及位置信息按横向顺序进行排序保存，将原有项与用户输入项进行逻辑关联，即为用户输入项单元格增加标签属性，标签属性可选左邻或上邻的原有项单元格的文本检测内容。

进一步的，在步骤S1-3中，框选n个，所述n大于等于8，标准图像中位置和内容固定不变的字段区域，用做对后续输入图像进行模板匹配和矫正的参照锚点。

进一步的，在步骤S2中，获取待识别图像并进行预处理，具体步骤如下，

依据步骤S1-3中选取的参照锚点，将新输入的图像与样表图像进行位置匹配，锚点匹配合格视为规则图像，不合格视为不规则图像；

首先将文档图像切分成图像块，使用卷积模块对每一个图像块进行特征提取，通过自注意力机制捕获文档图像的全局上下文，将提取的特征图展平后，输入基于Transformer块构建的一个分层的编解码网络，进行编码、解码，输出几何、光照恢复的图像块；

最后，我们将每一个恢复的图像块进行空间上的拼接，完成文档图像的矫正。

进一步的，在步骤S3中，将待识别的表格图像和模板库中的每一个模板进行关键点对齐，根据S1-3步骤中提取的每一个锚点区域，将待识别的图像与每一个模板中的进行匹配，获取匹配度阈值最高的模板，所述匹配阈值依据每个锚点区域内的文本识别准确度而定；

依据步骤S1中构建的模板信息，依据标签信息指示的表示输入项区域的坐标点组，截取待识别图像中输入项单元格的检测框位置的图像，并进行文本识别，得到输入项单元格中的文本内容；

依据标签信息指示的区域坐标组，对输入项区域进行定位及文本识别。

进一步的，在步骤S4中，针对识别结果存在误差的情况，基于构建的表格信息库，对识别出的表格文本信息进行检验并纠正，然后替换原文本内容中的错误字符。

进一步的，在步骤S5中，最终输出的表格信息以键值对表示；

某一类表格模板信息直接输入到数据库中进行存储，建立表格知识库；不同类型的表格模板存入数据库，用于表格类型的自动分类；

存储的信息为将数据表示为<Key,Value>键值对的形式，存入数据库。

一种表格图像文本识别系统，包括模板构建单元、模板匹配单元、文本提取单元、文本规范单元和数据存储单元；

所述模板构建单元用于构建标准化表格模板；

所述模板匹配单元用于为待识别的表格图像匹配到最合适的模板；

所述文本提取单元用于依据模板信息，用来对校准后的待识别图像进行区域文本识别；

所述文本规范单元用于对识别出的表格文本信息进行检验并纠正，得到最终输出结果；

所述数据存储单元用于将不同类型的表格模板信息存入表格数据库。

本发明的一种表格图像文本识别方法及系统和现有技术相比，具有以下突出的有益效果：

本发明针对一些版式相对固定的表格图像，通过制作标准化模板，分析表格相邻单元格的文本语义约束关系，实现对不同版式表格图片的自动分类和特定区域的信息提取，提高对表格识别的效率和识别结果的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

附图1是一种表格图像文本识别方法的流程示意图；

附图2是一种表格图像文本识别方法中基于Transformer的图像校正方法流程图；

附图3是一种表格图像文本识别方法中表格实例部分截图。

具体实施方式

为了使本技术领域的人员更好的理解本发明的方案，下面结合具体的实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

下面给出一个最佳实施例：

如图1所示，本实施例中的一种表格图像文本识别方法，包括以下步骤：

S1、构建标准化表格模板；

进一步包括：

S1-1、样表结构提取及识别；

制作模板所需的样本表格图像，为未填入任何信息的表格，标准的word，pdf等形式的文件转换为的图像；

对所述样表图像进行行和列表的区域检测，从页面中检测出水平方向和竖直方向可能用于构成表格的直线，包括全线框、非全线框、无线框等格式。

具体地对图像进行灰度处理，对二值化图像进行膨胀腐蚀，通过图像连通域确定表格外框及表中的横线和竖线；基于表中的横线和竖线的交点获取表格中的角点坐标，角点坐标按规则排序。

根据水平、竖直方向的表格线及各交点坐标解析表格结构，得到组成表格的N个单元格位置信息；位置信息格式为[[x1,y1],[x2,y2],[x3,y3],[x4,y4]]，表示单元格区域的四个角点。

对样表图像的N个单元格的进行文本内容检测，表格单元格分为两类：原有项和用户输入项；

其中，原有项信息所在单元格的文本内容检测，如图3应聘登记表中的：姓名、性别、出生日期、婚姻状况、家庭住址等；用户输入项单元格为空白单元格，文本内容检测统一值为空。

S1-2、获取表格模板信息；

最终得到M个原有项单元格的位置信息及文本信息，及N-M个空白单元格的位置信息及文本信息；

将N个单元格的坐标及大小等位置信息按横向顺序进行排序保存。将原有项与用户输入项的进行逻辑关联；即为用户输入项单元格增加标签属性，标签属性可选其左邻或上邻的原有项单元格的文本检测内容；

如图3，N个单元格的排序信息：1、基本情况，[[x1,y1],[x2,y2],[x3,y3],[x4,y4]]；2、姓名，[[x1,y1],[x2,y2],[x3,y3],[x4,y4]]；3、空，[[x1,y1],[x2,y2],[x3,y3],[x4,y4]]；4、性别，[[x1,y1],[x2,y2],[x3,y3],[x4,y4]]；5、空，[[x1,y1],[x2,y2],[x3,y3],[x4,y4]]；……。

序号3的空白单元格填入信息为序号2中姓名的指示；为3号空白单元格增加标签属性为2号单元格的文本检测内容，即“姓名”。

提取返回N-M个空白单元格的位置信息及标签信息；以图1为例：1、“姓名”，[[x1,y1],[x2,y2],[x3,y3],[x4,y4]]；2、“性别”，[[x1,y1],[x2,y2],[x3,y3],[x4,y4]]；3、“民族”，[[x1,y1],[x2,y2],[x3,y3],[x4,y4]]；……。

依次将不同类型的表格模板信息存入表格数据库中；输入的新图像进行信息提取时，需要与数据库中的模板进行间分类匹配。

S1-3、确定标准表单的参照锚点；

框选n个(n>＝8,分布图片四周、不重复、无换行)标准图像中位置和内容固定不变的字段区域，用做对后续输入图像进行模板匹配和矫正的参照锚点。

S2、获取待识别图像并进行预处理；

如图2，依据步骤S1-3中选取的参照锚点，将新输入的图像(已填入信息)与样表图像进行位置匹配，锚点匹配合格视为规则图像，不合格视为不规则图像；

首先将文档图像切分成图像块，使用卷积模块对每一个图像块进行特征提取，通过自注意力机制捕获文档图像的全局上下文，将提取的特征图展平后，输入基于Transformer块构建的一个分层的编解码网络，进行编码、解码，输出几何、光照恢复的图像块。最后，我们将每一个恢复的图像块进行空间上的拼接，完成文档图像的矫正。

其中，具体地匹配标准：新输入图像与样表图像的n个锚点区域，进行区域文本内容比对，文本内容相同则为合格。

若待识别图像为不规则图像，则将其通过神经网络进行矫正，具体地做几何矫正和光照恢复处理；矫正的标准为：直到新输入图像与样表图像的n个锚点区域内文本内容相同；

此处的不规则图像，指由形变(弯曲、折叠、褶皱)，不同方位或角度拍摄、不均匀光照等造成的。

S3、模板匹配校准，区域文本识别；

将待识别的表格图像和模板库中的每一个模板进行关键点对齐，这是根据S1-3步骤中提取的每一个锚点区域，将待识别的图像与每一个模板中的进行匹配，获取匹配度阈值最高的模板，此处的匹配阈值依据每个锚点区域内的文本识别准确度而定。

依据步骤S1中构建的模板信息，依据标签信息指示的表示输入项区域的坐标点组，截取待识别图像中输入项单元格的检测框位置的图像，并进行文本识别，得到输入项单元格中的文本内容。依据标签信息指示的区域坐标组，对输入项区域进行定位及文本识别；

文本检测和文本识别部分使用百度的PP-OCRv3提供的通用检测和识别算法，适用于打印、手写和场景文本识别等多个任务。

S4、识别文本智能纠正和规范；

针对识别结果存在误差的情况，基于构建的表格信息库(此信息库涵盖姓名、地址等广泛信息)；对识别出的表格文本信息进行检验并纠正，然后替换原文本内容中的错误字符。

S5、结果输出，数据存储；

最终输出的表格信息以键值对表示，模板中的原始项文本：待识别图像的输入项文本；比如：姓名：张三；

某一类表格模板信息直接输入到数据库中进行存储；建立表格知识库，不同类型的表格模板存入数据库，用于表格类型的自动分类；

存储的信息为将数据表示为<Key,Value>键值对的形式，存入数据库。例如：<姓名：[[x1,y1],[x2,y2],[x3,y3],[x4,y4]]>。

基于上述方法，本实施例中的一种表格图像文本识别系统，包括模板构建单元、模板匹配单元、文本提取单元、文本规范单元和数据存储单元；

模板构建单元用于构建标准化表格模板；

模板匹配单元用于为待识别的表格图像匹配到最合适的模板；

文本提取单元用于依据模板信息，用来对校准后的待识别图像进行区域文本识别；

文本规范单元用于对识别出的表格文本信息进行检验并纠正，得到最终输出结果；

数据存储单元用于将不同类型的表格模板信息存入表格数据库。

上述具体的实施方式仅是本发明具体的个案，本发明的专利保护范围包括但不限于上述具体的实施方式，任何符合本发明的一种表格图像文本识别方法及系统权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换，皆应落入本发明的专利保护范围。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种表格图像文本识别方法，其特征在于,包括以下步骤：

S1、构建标准化表格模板；

S2、获取待识别图像并进行预处理；

S3、模板匹配校准，区域文本识别；

S4、识别文本智能纠正和规范；

S5、结果输出，数据存储。

2.根据权利要求1所述的一种表格图像文本识别方法，其特征在于，在步骤S1中，进一步包括：

S1-1、样表结构提取及识别；

S1-2、获取表格模板信息；

S1-3、确定标准表单的参照锚点。

3.根据权利要求2所述的一种表格图像文本识别方法，其特征在于，在步骤S1-1中，制作模板所需的样本表格图像，为未填入任何信息的表格，标准的word和pdf形式文件转换为的图像；

4.根据权利要求3所述的一种表格图像文本识别方法，其特征在于，在步骤S1-2中，最终得到M个原有项单元格的位置信息及文本信息；及N-M个空白单元格的位置信息及文本信息；

5.根据权利要求4所述的一种表格图像文本识别方法，其特征在于，在步骤S1-3中，框选n个，所述n大于等于8，标准图像中位置和内容固定不变的字段区域，用做对后续输入图像进行模板匹配和矫正的参照锚点。

6.根据权利要求5所述的一种表格图像文本识别方法，其特征在于，在步骤S2中，获取待识别图像并进行预处理，具体步骤如下，

7.根据权利要求6所述的一种表格图像文本识别方法，其特征在于，在步骤S3中，将待识别的表格图像和模板库中的每一个模板进行关键点对齐，根据S1-3步骤中提取的每一个锚点区域，将待识别的图像与每一个模板中的进行匹配，获取匹配度阈值最高的模板，所述匹配阈值依据每个锚点区域内的文本识别准确度而定；

8.根据权利要求7所述的一种表格图像文本识别方法，其特征在于，在步骤S4中，针对识别结果存在误差的情况，基于构建的表格信息库，对识别出的表格文本信息进行检验并纠正，然后替换原文本内容中的错误字符。

9.根据权利要求7所述的一种表格图像文本识别方法，其特征在于，在步骤S5中，最终输出的表格信息以键值对表示；

10.一种表格图像文本识别系统，其特征在于，包括模板构建单元、模板匹配单元、文本提取单元、文本规范单元和数据存储单元；

所述模板构建单元用于构建标准化表格模板；