CN117711004A

CN117711004A - 一种基于图像识别的表格文档信息抽取方法

Info

Publication number: CN117711004A
Application number: CN202311542261.1A
Authority: CN
Inventors: 张才俊; 孙满利; 孙良飞; 韩维; 王晨飞
Original assignee: State Grid Co ltd Customer Service Center
Current assignee: State Grid Co ltd Customer Service Center
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2024-03-15

Abstract

本发明涉及面向文档的基于图像的模式识别技术领域，具体涉及一种基于图像识别的表格文档信息抽取方法。表格文档信息抽取方法包括如下过程：将打分完毕的纸质评价表扫描或拍照为可以数字化解析的文件格式；图像预处理；关键区域定位与提取；切分单元表格；复杂场景下的手写体标记识别；输出表格信息。本发明设计了一套表格文档信息自动化抽取与统计系统。该系统的输入是纸质版本打分文件的扫描图片，输出是统计好的明细表格。能支持批量文件的导入、识别、数据归集等操作，大幅降低人力成本，高效完成结果统计。

Description

一种基于图像识别的表格文档信息抽取方法

技术领域

本发明涉及面向文档的基于图像的模式识别技术领域，具体涉及一种基于图像识别的表格文档信息抽取方法。

背景技术

纸质版本的打分评价表格如附图1所示，打分时规定必须用黑色签字笔在方框处画圆圈。

现有的企业打分评价工作，尤其是较为重视打分评价的企业。会在关键时间节点，如年中、年底等，进行员工的工作打分评价。现有的答题卡如附图1所示，现有技术的第一种识别过程如下：

扫描或拍照：将填涂完毕的答题卡扫描为数字图像，如图1所示；预处理：对输入的数字图像进行预处理操作，包括灰度转换、高斯去噪；区域分割：对第二步输出的数字图像进行轮廓检测，通过遍历拿到最大的轮廓也就是答题卡的部分，接着执行透视变换使图像只保留答题卡且规整，输出结果如图2所示；标记识别：对透视变换后的图像再执行轮廓检测，检测每一个选项，最后，使用mask掩模来判断结果，此处为纯白色圆形像素块，与答题卡中圆圈图像大小一致，位置与整体轮廓一致，由于填涂后的答题卡在二值图像中像素值大于0的像素点较多，而且掩模中的圆圈部分的像素值为255，其余部分的像素值为0，将掩模与原图像进行“与”操作，得到每一个圆圈的“与”运算结果，判断该选项的圆圈是否被填涂了；结果统计：根据识别结果，进行得分数据统计，输出结果分数。这种识别方法识别类型单一，只能对涂黑的圆圈识别准确率较高，该方法对企业打分评价场景，如要求手写画圈，识别准确率较差，不具备实用性。

现有技术的第二种识别过程：通过答题卡读卡机识别，高考常用的答题卡读卡设备，使用商业成熟设备，通过检测纸张透光率或检测红外反射率，得到结果分数。答题卡读卡机，需要购买商用硬件设备，成本较高。

现有技术打分评价工作有以下三个难点：

(一)耗费人力成本。企业的打分评价工作中，单次会产出上万，乃至10万以上的纸质打分表。需要人力核对打分明细，统计分析各个打分结果。年度工作中，评价次数较多，且要求结果统计产出时间短，会耗费大量的人力成本。

(二)表格文档的模板较多，打分选项多样，如空白方框样式“□”、分数方框样式“[6]”等，对程序的自动化识别带了一定困难。

(三)表格文档的打分，要求员工用黑色签字笔手工画圈标记，手写体复杂多样，识别难度高。

因此，亟需通过基于图像识别的表格文档信息抽取方法，对表格文档的打分标记进行自动化识别与统计，达到了便捷、准确、高效地进行智能化办公的目的。

相关术语解释：

OCR(Optical Character Recognition)：光学字符识别，用来把图像形状转变为文本字符。

IOU(Intersection Over Union)：全称为交并比,是目标检测中使用的一个概念,计算的是“预测的边框”和“真实的边框”的交叠率,即它们的交集和并集的比值。

边缘检测：边缘检测是图形图像处理、计算机视觉和机器视觉中的一个基本工具,通常用于特征提取和特征检测,旨在检测一张数字图像中有明显变化的边缘或者不连续的区域。

角点检测：角点通常被定义为两条边的交点,或者说,角点的局部邻域应该具有两个不同区域的不同方向的边界。角点检测(Corner Detection)是计算机视觉系统中获取图像特征的一种方法,广泛应用于运动检测、图像匹配、视频跟踪、三维建模和目标识别等领域中,页称为特征点检测。

霍夫直线检测：霍夫变换用来检测任意能够用数学公式表达的形状，即使这个形状被破坏或者有点扭曲。霍夫变换可用来检测直线，叫做霍夫直线检测

'\\[\\s*([1-9]|10)\\s*\\]'：通用正则表达式，由三部分组成，左方括号+1～10任选的一个数字+右方括号。

发明内容

本发明基于一套表格文档信息自动化抽取与统计系统，表格文档信息是指图像中特定位置的复杂背景下的手写体内容信息识别；提实现批量纸质打分文件的自动化解析处理，输出统计分析结果。具体技术方案如下：

一种基于图像识别的表格文档信息抽取方法，包括如下过程：

步骤1：将打分完毕的纸质评价表扫描或拍照为可以数字化解析的文件格式；数字化解析的文件格式不限于图片格式文件，也可以是PDF文件等等；

步骤2：图像预处理；为矫正图像在扫描或拍照过程中的畸变，对数字图像进行以下六项操作中的一项或多项，即：灰度图转化、图像高斯模糊、边缘检测、角点检测、表格轮廓识别、表格区域仿射变换；

步骤3：关键区域定位与提取；利用表格关键区域检测技术，识别出标准化图像中包含数据的关键区域，为区域分割和单元格检测提供基础；在关键区域检测时通过霍夫变换检测表格中所有矩形框，并通过交并比IOU操作找到最大矩形框，实现关键区域定位；

关键区域分割指的是在识别到表格关键区域之后，需要单元格识别；单元格识别时首先采用霍夫直线检测方法获得所有竖线和横线，然后对横竖线进行去重和修复，获得相对准确的横竖线坐标。最后利用横竖线坐标分割得到的单元格图片，分割出来的单元格图片就是需要定位的关键区域；

步骤4：切分单元表格；标记出表格区域相对坐标位置；

步骤5：复杂场景下的手写体标记识别；复杂场景下的手写体标记识别算法，需要解决以上两个典型场景的标记识别问题。场景1：分数方框上的手写体圆圈标记识别；场景2：空白方框上的手写体圆圈标记识别；

所述分数方框上的手写体圆圈标记识别案包括如下过程：

步骤5.1：识别印刷体背景；首先通过OCR技术，识别图片中的字符；

步骤5.2：将图像转为字符串，然后基于正则表达式解析字符串；

步骤5.3：判断字符串是否符合印刷体字符规则，符合则判定没有被圆圈标记，否则属于标记项，统计对应得分；

所述空白方框上的手写体圆圈标记识别方案包括如下过程：

本发明提出一种空白方框上的手写体圆圈标记识别方法，提出一种基于像素密度计算结果和方框检测结果相结合的综合决策方案。具体实施例如下：

步骤5.11：对关键区域进行方框检测算法，检测该区域的方框数量，并计算方框面积；

步骤5.12：使用筛选规则，如面积大于a且小与b，进行初步筛选；a、b为人工设立的阈值；

步骤5.13：然后基于剩余方框数量，进行初步决策，如剩余方框数量为1，且面积符合要求，则进行进一步的像素密度计算；否则判定为画圈标记选项；

步骤5.14：像素密度计算，主要覆盖三种问题场景；手写体圆圈较小，画在方框内部；手写体圆圈较大，画在方框外部；手写体圆圈与方框相重叠交叉；此处主要计算方框数量为1且面积符合要求场景，计算方框内是否有小圆圈标记，进一步判定出是否属于手写标记选项；

步骤6：输出表格信息。

本发明设计了一套表格文档信息自动化抽取与统计系统。该系统的输入是纸质版本打分文件的扫描图片，输出是统计好的明细表格。能支持批量文件的导入、识别、数据归集等操作，大幅降低人力成本，高效完成结果统计。

附图说明

图1为现有技术种答题卡示例图。

图2为现有技术中，图1经过预处理和区域分割后的图像处理效果。

图3为本发明实施例2分割后的单元格图片，即关键区域，本图代表分数方框的表格。

图4为分数方框上的手写体圆圈标记识别方案流程示意图。

图5为本发明表格文档信息抽取方法流程图。

图6表格横线与竖线提取示意图。

图7切分小块示意图。

具体实施方式

结合图3-图7，说明本发明的实施过程。

本发明提出了一种图像中表格信息的提取方法。主要提取的表格信息是指图像中特定位置的复杂背景下的手写体内容信息识别。特定位置指的是评分表中，含有手写评分标记的位置。复杂背景指的是手写体标记的识别背景，有空方框背景；有阿拉伯数字背景，如图3示。

手写体内容信息指的是员工手写评分标记符号所代表的具体信息。特定位置的标记内容代表不同的评分分数或者选中项。如图3中的分数“10”选项标

记

实施例1

如图5所示，该方法包括：

步骤1：将打分完毕的纸质评价表扫描或拍照为可以数字化解析的文件格式；

步骤2：对图像进行预处理；

步骤3：对预处理后的图像进行表格关键区域定位与提取操作；包括提取表格中的所有横线，得到横线二值图像，再提取表格中额度所有竖线，得到竖线二值图像。将横线二值图像和竖线二值图像进行或运算，得到包含表格的图像；

步骤4：切分图中的表格单元，标记出相对坐标位置；向下方向为横坐标，向右方向为纵坐标；将步骤4所有切分出的表格单元，按照坐标循环依次输入“手写体标记信息识别”模块，进行信息提取；

步骤5：输入是切分出的不同坐标的表格单元；要识别坐标(2,3)表格单元的评价信息，传统的OCR识别技术难以识别出手写圆圈标记，传统的圆形检测技术也因为背景混乱，“[10]”作为背景，影响圆形识别，难以识别出准确的圆形打分标记；此处传统技术已经难以准确识别；同时深度学习技术需要大量的训练样本，且图像识别速度较慢，满足不了表格信息抽取需求；

本实施例采用图4的方法进行坐标(2,3)表格单元的评价信息识别；首先提取出框住部分图像，即坐标(2,3)的表格单元，按固定步长平均切分为10份，其中每一份进行图7中的OCR识别，如果能识别出“[”+“数字”+“]”的格式信息，如“[9]”，则表示没有圆圈标记；如果不能识别出“[”+“数字”+“]”的格式信息，则判定为有手写体圆圈标记，则根据该处位置的坐标点和切分序号，可以推断出打分数值，如评分为10分；

对预处理后的图像进行表格关键区域定位与提取；对提取的表格切分表格单元；在切分出的每个表格单元中进行手写体标记信息识别；根据手写体标记信息识别的结果以及每个表格单元的行列坐标，判断表格标记代表的具体信息，输出员工打分评价结果；

步骤6：批量输入图像，根据系统输出的评价结果，进行表格信息的统计分析，输出不同维度的评分结果，如对员工A“工作态度”的评价结果为“优秀”。

实施例2

如图5所示，该方法包括：

步骤2：对图像进行预处理；

步骤4：切分图中的表格单元，标记出相对坐标位置；向右方向为横坐标，向下方向为纵坐标；不同坐标的表格有不同的评分信息，比如(5,5)方格内容为图3内容，比如(3,3)方格内容为图5内容；将步骤4所有切分出的表格单元，按照坐标循环依次输入“手写体标记信息识别”模块，进行信息提取；

步骤5：输入是切分出的不同坐标的表格单元，如第二行的长方框标注部分，该表格单元坐标为(2,2)；进一步地，对坐标为(2,2)的表格单元进一步切分图7进行手写圆圈标记与否的判定；判定算法如下：

输入为图7的图像小块，并进行二值化处理，二值化图像输入以下计算流程；

计算流程为：

方框检测&方框面积阈值筛选：对输入二值化图像进行方框检测算法，检测该区域的方框数量，并计算方框面积；使用筛选规则，如面积大于a&&小与b，进行初步筛选，a、b为人工设立的阈值数值；然后基于剩余方框数量，进行初步决策；如剩余方框数量为1，且面积符合要求，则进行进一步的像素密度计算；否则判定为画圈标记选项；

像素密度筛选：像素密度计算，主要覆盖三种问题场景，即：手写体圆圈较小，画在方框内部；手写体圆圈较大，画在方框外部；手写体圆圈与方框相重叠交叉；此处主要计算方框数量为1且面积符合要求场景，计算方框内是否有小圆圈标记，进一步判定出是否属于手写标记选项；

无标记方框判断条件：同时满足下面三个条件；

条件一：方框检测，存在独立方框；

条件二：方框像素面积计算，符合人工设立阈值筛选条件；且筛选后符合条件的方框数量为1；

条件三：如白色像素值为255，那么条件二中筛选后方框内部像素密度数值需要等于255*像素点的数值，后者大于某个人工设定数值；

当以上三个条件满足时，表示没有手写体圆圈标记；否则为评价选中项；

输出为是/否有手写体圆圈标记。

Claims

1.一种基于图像识别的表格文档信息抽取方法，其特征在于，包括如下过程：

步骤3：关键区域定位与提取；利用表格关键区域检测技术，识别出标准化图像中包含数据的关键区域，为区域分割和单元格检测提供基础；

单元格识别时首先采用霍夫直线检测方法获得所有竖线和横线，然后对横竖线进行去重和修复，获得相对准确的横竖线坐标；最后利用横竖线坐标分割得到的单元格图片，分割出来的单元格图片就是需要定位的关键区域；

步骤4：切分单元表格；标记出表格区域相对坐标位置；

步骤5：复杂场景下的手写体标记识别；场景1：分数方框上的手写体圆圈标记识别；场景2：空白方框上的手写体圆圈标记识别；

所述分数方框上的手写体圆圈标记识别案包括如下过程：

所述空白方框上的手写体圆圈标记识别方案包括如下过程：

步骤6：输出表格信息。