CN114782975A

CN114782975A - 一种电子卷宗表格式ocr识别的方法

Info

Publication number: CN114782975A
Application number: CN202210571646.XA
Authority: CN
Inventors: 葛季栋; 朱宇煊; 朱润之; 骆斌
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2022-05-24
Filing date: 2022-05-24
Publication date: 2022-07-22

Abstract

本发明公开了一种电子卷宗表格式OCR识别的方法，包括以下步骤：图像预处理，包括图像二值化，灰度化，倾斜矫正；表格线检测，使用Canny进行边缘检测之后，采用形态学变换的方法分别提取横线图和竖线图，之后相交得到线图；单元格定位，根据交点，收缩点团，确定单元格顶点和对角点坐标；在Word上进行表格重绘；文字内容回填，训练文字识别引擎，切分单元格内容分别进行文字识别，最后回填入表格。本发明旨在处理电子卷宗OCR识别过程中对于带表格图像的处理，将表格转换为易于后续处理的Word文档格式，提高了其可修改性和可处理性。

Description

一种电子卷宗表格式OCR识别的方法

技术领域

本发明涉及一种OCR图像识别方法，具体涉及一种电子卷宗表格式OCR识别的方法，属于数字图像处理技术领域。

背景技术

随着社会的不断发展，信息技术已经全面融入到人们的工作与生活中。信息技术和社会的高速发展同时伴随着信息爆炸，尤其在法律系统中，需要记录和存储的文书越来越多，各式各样的卷宗资料出现了爆炸式的增长，为了对这些资料中的关键信息进行有效利用，人们需要将这些文档进行合理的储存、筛选、分类以及关键信息的抽取和检索。显然，传统的纸质材料以及人工分拣的方式已经满足不了现在的需求，而基于电子文档，由程序进行的存储分类提取工作在效率和成本上都有着无可比拟的优势。

目前的文档资料主要由纸质和电子两种存储形式存在。纸质资料有着上千年的历史，而电子资料是在近几十年才逐步发展起来的。同时由于纸质资料有着易书写，不易篡改等特征，现在，很多场合依然使用各种纸质的文档资料。在人类历史中，纸质资料在知识保存和传播中发挥了非常重要的作用，其内容丰富，数量巨大。为了有效利用这规模庞大的纸质资料，并且将纸质版的特征和电子版易保存易处理的优点相结合，光学识别技术(Optical Character Recognition，OCR)应运而生。可以通过OCR方便快捷的将纸质文书转换为电子文档，为之后的信息提取和整理提供了极大地便利，有效的结合了这两类出版物的优势，摒弃各自的劣势，大大提高了工作效率。

在使用OCR技术处理法院相关文书的时候，纸质文书中有着大量的表格文档。而在OCR识别过程中，表格框线往往会对文字的识别造成很大的干扰。尤其是在法院文书的电子卷宗中，常常会出现手写体，例如签名，日期等等，手写文字因表格单元格紧凑，可能会超出单元格，这使得框线的存在进一步加大了对此类文书进行OCR识别的难度。由于印刷表格结构的复杂多样性，很难找到一种适用于任何表格的通用识别方法。如何正确的识别表格框线，并将其复现在识别后的文档中，以及如何定位表格中的文字并将其准确填入复现的表格中是目前急需解决的难点。

本发明将以处理法院文书中的表格为主要目标，设计一个能复现电子卷宗图片中表格文档的模块，取代传统的手工录入表格数据的方式，生成便于处理的Word形式，方便后续对文本内容进行处理。

发明内容

本发明是一种电子卷宗表格式OCR识别的方法，提供一种电子卷宗图像预处理方法，包括图像灰度化，图像二值化，倾斜图像矫正。并对预处理之后的图像进行表格线的提取，通过Canny边缘检测结合形态学变换的方法分别提取出图像的横线图和竖线图，以进一步得到图像的线图。之后通过线图定位单元格，使用单元格坐标信息在Word上重绘表格，并切分图像单元格内容进行文字识别，最终回填表格。该方法能有效的提取图像中的表格框线，将图片表格内容重现到Word文档中，便于对电子卷宗文件内容的进一步处理。

1.本发明所述的一种电子卷宗表格式OCR识别的方法，其特征在于包含以下步骤：

步骤(1)卷宗图像预处理；

步骤(2)表格线检测与提取；

步骤(3)单元格定位；

步骤(4)在Word上重绘表格；

步骤(5)文字内容识别与回填。

2.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法，其特征在于步骤(1)中卷宗图像预

处理，具体子步骤包括：

步骤(1.1)使用加权平均数灰度化的方式将图像进行灰度化，得到去除了彩色分量的灰度图像；

步骤(1.2)使用Sauvola算法对灰度图像进行二值化，得到呈现非黑即白特征的二值图像；

步骤(1.3)对于图像主体倾斜的图像，使用OpenCV求取其主体邻接矩阵，计算邻接矩阵相对图像的

倾斜角，旋转图像主体。

3.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法，其特征在于步骤(2)中表格线检测与提取，具体子步骤包括：

步骤(2.1)对二值图像采用Canny算法，进行边缘检测，将边缘凸显出来；

步骤(2.2)取长为p，高为1的横向形态核区间，对步骤(2.1)中的图像进行先腐蚀后膨胀的形态学变换操作，得到横线图。不断改变p的取值以改变检测到的最短线段长度，并计算识别的精确度，以得到最合适的p值；

步骤(2.3)取高为1，长为p的纵向形态核区间，对步骤(2.1)中的图像进行先腐蚀后膨胀的形态学变换操作，得到竖线图。不断改变p的取值以改变检测到的最短线段长度，并计算识别的精确度，以得到最合适的p值；

步骤(2.4)将步骤(2.2)得到的横线图和步骤(2.3)得到的竖线图进行相交，得到线图。

4.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法，其特征在于步骤(3)中单元格定位，，具体子步骤包括：

步骤(3.1)提取步骤(2)中线图的交点，得到交点图；

步骤(3.2)使用阈值法收缩交点图中的点团，使每个交点由单个像素代表，得到交点像素的坐标序列，根据其横纵坐标，按照横竖线排列；

步骤(3.3)遍历交点的坐标序列，下一条横线和下一条竖线上存在邻接点的交点视为单元格的顶点，根据邻接点确定对角点。

5.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法，其特征在于步骤(4)中在Word上重绘表格。具体子步骤包括：

步骤(4.1)根据左上角单元格顶点坐标和右下角单元格对角点坐标计算整个表格长宽；

步骤(4.2)寻找最短的单元格长宽，设定为基础长宽值；

步骤(4.3)根据表格长宽和基础长宽，使用python-docx在Word文件上绘制标准表格；

步骤(4.4)根据单元格坐标计算单元格长宽，以及单元格向左和向下的合并单元格的数目，从左上角开始合并单元格。

6.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法，其特征在于步骤(5)中根据步骤(3)中得到的单元格坐标信息，切分单元格识别文字内容，并回填入步骤(4)绘制的表格。具体子步骤包括：

步骤(5.1)训练Tesseract引擎；

步骤(5.2)根据单元格坐标，截取图像中对应单元格内的图像；

步骤(5.3)使用Tesseract引擎识别步骤(5.1)中截取的图像，得到单元格内文字内容；

步骤(5.4)将识别的内容根据单元格位置信息，回填入步骤(4)绘制的表格中。

本发明与现有技术相比，其显著优点是：使用加权平均数灰度化的方法使图片灰度化，去除了RGB色彩分量对图片处理的干扰。采用Sauvola局部阈值法将图片二值化，使图片黑白分明，相较于传统二值化方法的图片更加清晰。邻接矩阵法矫正了主体图像的倾斜，排除了拍摄或扫描造成的主体倾斜对表格线检测的干扰，同时相较于投影图法，计算量更小，处理速度更快。本发明使用Canny边缘检测结合形态学变换的方法，分别提取图像的横线图和竖线图，之后相交得到点图，计算量更小，速度更快，同时不容易受图像噪声的干扰。分别求取横线图和竖线图也避免了横竖线交点对直线检测的干扰，同时可以相交之后得到的交点根据横竖线分组，便于确定顶点和对角点的操作。重绘表格时先绘制标准表格，再进行单元格合并的方式，可以保证绘制的表格规整，不会出现表格上下或者左右不对齐的现象，同时便于进行单元格文字内容的回填操作。识别文字内容时先将单元格裁剪拆分，只对单元格内文字区域进行文字识别，避免了表格框线在文字识别过程中对识别结果的干扰，同时保证了识别结果一一对应于每个单元格，方便之后的回填操作。

附图说明

图1电子卷宗表格式OCR识别方法流程图

图2二值化图

图3识别精确度q/划分区间数s折线图

图4表格识别横线图

图5表格识别竖线图

图6表格绘制示意图

图7合并单元格示意图

图8 Tesseract训练流程图

图9表格识别结果图

具体实施方式

为使本发明的目的、技术方案和优点更加清晰，下面将结合附图及具体实施例对本发明进行详细描述。

本发明的目的在于解决电子卷宗OCR识别过程中对带表格图片的识别处理，提出一种电子卷宗表格式OCR识别的方法。首先提供一种电子卷宗图像预处理方法，包括图像灰度化，图像二值化，倾斜图像矫正。并对预处理之后的图像进行表格线的提取，通过Canny边缘检测结合形态学变换的方法分别提取出图像的横线图和竖线图，以进一步得到图像的线图。之后通过线图定位单元格，使用单元格坐标信息在Word上重绘表格，并切分图像单元格内容进行文字识别，最终回填表格。该方法能有效的提取图像中的表格框线，将图片表格内容重现到Word文档中，便于对电子卷宗文件内容的进一步处理。本发明概括来说主要包括以下步骤：

步骤(1)卷宗图像预处理；

步骤(2)表格线检测与提取；

步骤(3)单元格定位；

步骤(4)Word上重绘表格；

步骤(5)文字内容识别与回填。

上述一种电子卷宗表格式OCR识别的方法的详细工作流程如图1所示。这里将对上述步骤进行详细描述。

1.由于电子卷宗的来源众多，包括拍摄、扫描等多种不同来源，图像的质量参差不齐，而表格识别要对框线进行处理，意味着对于框线倾斜和颜色等干扰因素更加敏感，因此首先要对电子卷宗图片进行预处理，排除各种干扰，尽量只保留有用的表格框线部分。具体步骤是：

步骤(1.1)图像的灰度化处理。对于拍摄采集的电子卷宗文件，往往是彩色的三通道图片，而颜色信息在表格识别工作中并没有作用，会起到很大的干扰，处理起来对准确度和效率的影响都会很大，而扫描文件往往已经是灰度图，无需进一步处理。因此在预处理阶段，需要将部分彩色照片进行灰度化处理，生成灰度图像再进行后续操作。也就是将每个像素原先的R(红色)G(绿色)B(蓝色)三通道分量转换成只有一个黑色或白色的通道分量。

在常用的灰度化方法中，有加权平均法、最大值法、平均值法等，同时OpenCV库也提供了封装好的灰度化方法。本发明对比使用几种方法之后，采用了加权平均法对图片进行灰度化，参考文献及实验数据，得到了最佳的加权参数为：0.299，0.587，0.114。对拍摄的表格图片进行灰度化处理之后得到了灰度图像。

步骤(1.2)图像的二值化处理。图片转化为灰度图像后，虽然是每个像素是单通道，但是灰度值仍有0-255的取值，而表格线检测的过程中，只需要知道该点是不是表格线的一部分就足够了，也就是说只需要两种取值就可以了，灰度图仍然存在着冗余和干扰。因此更好的做法是将图片转化为所有像素只有0或255的黑白分明的图像，也就是二值图。

灰度图像二值化的方法是阈值法，即设定一个阈值，超过阈值的像素点灰度设为灰度极大值，小于等于阈值的像素点灰度设为灰度极小值。而阈值的取值就是二值化处理中的关键，影响着二值化的好坏，理论上越复杂的图像阈值越多，不同的区域都要有不同的阈值。对比不同阈值化方法后，本发明采用Sauvola局部阈值化算法。在Sauvola算法中，对于每一个像素点，Sauvola算法取的是以当前像素点为中心，领域内像素点灰度的均值和方差来动态计算该点的阈值，其计算如公式1所示：

T(x，y)＝m(x，y)·[1+k·(s(x，y)÷R-1)] (公式1)

其m(x，y)为灰度均值，s(x，y)s为标准方差，R为标准方差的动态范围，k为修正参数，取值一般在(0，1)，对灰度图像进行二值化处理后的效果图如图2所示。

步骤(1.3)倾斜图像矫正。扫描和拍摄图片都容易出现的一个问题是图片的倾斜，即图片主体部分与图片上下边缘不平行。在表格线检测的算法中，提取的框线都默认是垂直和水平的，因此图片的倾斜度会极大的影响检测的准确性，在预处理过程中，需要先将图片进行旋转，使其与上下边缘平行。

本发明采用邻接矩阵的方法，有表格的电子卷宗一个特点就是，其主体边框绝大多数都可拟合为一个矩形，而矩形的方向就是其倾角的方向，因此我们可以在二值化之后求出主体的邻接矩阵，计算矩阵的旋转角度，即可得出主体的倾角。之后根据倾斜角度对图片主体进行反向旋转，即可矫正倾斜。

2.通过步骤(1)得到了预处理过的图像之后，我们需要提取出图片中的表格框线，之后才能根据框线得出表格单元格的信息。具体步骤是：

步骤(2.1)Canny边缘检测突出图片边缘。边缘检测主要是识别出图像中灰度差异明显的像素点，以此为依据来检测主体的边缘。目前运用最广并公认最有效的边缘检测算法为John Canny于1986年提出的Canny算法。其主要是根据图像的灰度梯度变化来识别图像边缘。Canny算法采用的灰度梯度计算公式如公式2所示：

其中G_x，G_y分别代表x方向和y方向的卷积阵列。Canny算法中设置了两个阈值，分别为minVal和maxVal，用于判断哪些是边缘。对于任何强度梯度的大于maxVal的轮廓确定为边缘，对于任何强度梯度小于minVal的轮廓确定为非边缘，而强度梯度介于minVal和maxVal的轮廓分为待分类边缘。对于所有的待分类边缘，使用连续性进行进一步甄别。如果待分类边缘的像素连接着确定边缘，则认为该边缘也是确定边缘，否则，认为其为非边缘。由此可见minVal和maxVal对识别效果影响较大，本发明通过设置不同的阈值进行比较，得出了最佳的阈值50，200；

步骤(2.2)横向形态核区间先腐蚀后膨胀得到横线图。对于标准的表格线，我们可以将其分类为横线和竖线，那么可以分别将横线和竖线检测出来，再拼接成线图。

膨胀是将结构核区间内的背景像素和主体像素合并，将主体变“胖”，而腐蚀操作则是将核区间内的主体像素和背景像素合并，将主体变“瘦”。利用这一特性，我们检测横线的时候，指定一个长度为1，宽度为最短线断阈值minL的水平结构核区间，对步骤(2.1)中得到的图像做先腐蚀再膨胀操作，即可得到图像的所有横线，构成图像的横线图。

形态学方法的关键在于结构核区间的选取，若设置的最短线断阈值太小，则会将非线段也识别为线段；若阈值太大，则会使得短线无法被识别。由于不同图片尺寸不同，需要设置的阈值也会变化，我们定义划分的区间数s，设定minL＝图片宽度(图片高度)/s以此满足对不同比例图像的阈值处理。选取不同组s进行实验，同时使用(公式2)计算识别精确度，得到的识别精确度q/划分区间数s的折线图如图3所示。

由图3可知，当划分区间数s取20的时候，能取到最佳的识别精确度。故将s取20，对步骤(2.1)中的图像进行横线检测，得到的结果如图4所示

步骤(2.3)纵向形态核区间先腐蚀后膨胀得到竖线图。同步骤(2.2)所示，我们可以指定一个宽度为1，长度为最短线段阈值minL的竖直水平结构核区间，对步骤(2.1)中得到的图像做先腐蚀再膨胀的操作，即可得到图像的所有竖线，构成图像的竖线图。

同样采用划分区间数s＝20，对步骤(2.1)中得到的图像进行竖线检测，得到的结果如图5所示。

步骤(2.4)根据交叉横线图和竖线图得到线图。我们将步骤(2.2)中得到的横线图和步骤(2.3)中得到的竖线图进行交叉操作，即可得到原始图像的线图。

3.上一步骤得到线图后，我们要根据线图的信息得到单元格信息。单元格主要的信息包含在左上角顶点坐标以及右下角对角点坐标中，因此该步骤主要是为了确定这两个点的坐标信息。具体步骤包括：

步骤(3.1)提取线图交点。在步骤(2.4)将横线图和竖线图交叉之后，可以使用异或操作得到线图相交的部分，即构成交点图；

步骤(3.2)收缩交点团得到交点坐标。步骤(3.1)中得到的交点图中的每一个交点并不一个单个像素点，原因在于实际图片中的线宽度并不是像素1，为了得到更加准确的交点像素坐标，我们需要将交点团收缩为单个交点像素。具体操作是先设定阈值m，取交点团的中心点，与中心点距离相差大于阈值m的点不作处理，与中心点距离相差小于阈值m的视为同一点，将其删去。阈值m的选取基于步骤2中的最短线段阈值minL，选取minL的一半作为收缩点团的阈值m。将每个点团进行收缩之后，我们得到了一系列交点坐标，之后取同样的阈值m，对于横坐标差小于m视为在同一竖线上，对于纵坐标差小于m的点视为在同一横线上，根据横纵线分别排列点序列；

步骤(3.3)单元格顶点的一个特性是，其有向下和向右延伸的线，转换为点序列中，即可理解其下一个竖线与下一个横线上有邻接点。由于点序列是通过收缩点图得到的，相同线上的点可能坐标有微小差距，我们设定一个阈值来消除这个差距的影响。算法如下所示：

①将点序列根据横纵坐标，划分出两组点序列，根据横线段排序的点序列Pr和根据竖线段排序的点序列Pc。

②设定阈值s，遍历横向点序列，取点p，查找其下一行的横向点序列Pr_i中是否有和点p横坐标相差小于阈值的点，若没有，重复2直到最后一行。

③查找其下一列的纵向点序列Pc_i中是否有和点p纵坐标相差小于阈值的点，若没有，重复3直到最后一行。

④将2中找到的点的纵坐标y和3中找到的点的横坐标x组成点p₁，将点p作为顶点，点p₁作为对角点加入结果集。

⑤回到①。

通过以上算法，我们就得到了一个单元格序列，该序列包含了所有单元格在图像中的位置以及大小。且是按照单元格从左到右，从上到下的横向顺序排列的；

4.我们目前得到的单元格信息是难以做进一步处理的，为了将表格信息有效利用，将其复现在Word文档上是非常好的方式。本发明主要采用python-docx模块操作Word文档，python-docx是一个开源的python库，主要用于创建和操作Word文档，相比于win32com模块，有着跨平台，轻量的优势。具体步骤包括：

步骤(4.1)根据左上角单元格顶点坐标和右下角单元格对角点坐标计算表格长宽；

步骤(4.2)寻找最小单元格长宽作为基础表格长宽；

步骤(4.3)根据表格长宽和基础长宽绘制基础表格，如图6所示；

步骤(4.4)根据单元格信息合并单元格。我们知道电子卷宗的表格并不都是标准的n*m表格，其中有很多单元格是由多个基础单元格合并而来的。本步骤的目的就是根据单元格长宽信息合并单元格。首先计算每个单元格的长宽，之后根据步骤(4.2)得到的基础表格长宽，计算其向右和向下分别合并了几个单元格，除法计算使用向下取整。之后从左上角开始，依次合并单元格，并将以合并的单元格标记，避免之后错误合并，示意图如图7所示。

5.文字内容识别与回填。通过以上步骤我们已经将表格复现在了Word文档中，但电子卷宗表格文档中真正有价值的是表格的文字内容，直接将图像放入OCR文字识别引擎进行识别会出现表格线干扰，以及无法定位回填文字的问题，本发明采用先切分后识别再回填的方式来解决该问题，具体子步骤包括：

步骤(5.1)训练Tesseract引擎。本发明采用了市面上广泛使用的Tesseract引擎进行文字识别操作，该引擎由Google公司研发，其数字和英文识别率良好，但中文识别率不佳，为提高识别率，本发明使用了电子卷宗中的常用字对其进行简单的训练，以达到提高文字识别准确率的目的，训练流程如图8所示；

步骤(5.2)根据单元格坐标切割图像。为了排除表格框线对文字识别的干扰，并方便之后的回填操作，本发明采用了切割图像的方法。根据步骤(3)中得到的单元格顶点和对角点坐标，将每个单元格内的矩形部分切分出来，分别进行之后的识别；

步骤(5.3)使用步骤(5.1)中训练的Tesseract引擎，对步骤(5.2)中切割出的图像块分别进行文字识别操作；；

步骤(5.4)根据步骤(5.3)中得到的文字识别内容，将其回填到步骤(4)绘制的Word文档表格中，结果如图9所示。

上面已经参考附图对根据本发明实施的一种电子卷宗表格式OCR识别的方法进行了详细描述。本发明具有如下优点：使用加权平均数灰度化的方法使图片灰度化，去除了RGB色彩分量对图片处理的干扰。采用Sauvola局部阈值法将图片二值化，使图片黑白分明，相较于传统二值化方法的图片更加清晰。邻接矩阵法矫正了主体图像的倾斜，排除了拍摄或扫描造成的主体倾斜对表格线检测的干扰，同时相较于投影图法，计算量更小，处理速度更快。本发明使用Canny边缘检测结合形态学变换的方法，分别提取图像的横线图和竖线图，之后相交得到点图，计算量更小，速度更快，同时不容易受图像噪声的干扰。分别求取横线图和竖线图也避免了横竖线交点对直线检测的干扰，同时可以相交之后得到的交点根据横竖线分组，便于确定顶点和对角点的操作。重绘表格时先绘制标准表格，再进行单元格合并的方式，可以保证绘制的表格规整，不会出现表格上下或者左右不对齐的现象，同时便于进行单元格文字内容的回填操作。识别文字内容时先将单元格裁剪拆分，只对单元格内文字区域进行文字识别，避免了表格框线在文字识别过程中对识别结果的干扰，同时保证了识别结果一一对应于每个单元格，方便之后的回填操作。

需要明确，本发明并不局限于上文所描述并在图中示出的特定配置和处理。并且，为了简明起见，这里省略对已知方法技术的详细描述。当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种电子卷宗表格式OCR识别的方法，其特征在于包含以下步骤：

步骤(1)卷宗图像预处理；

步骤(2)表格线检测与提取；

步骤(3)单元格定位；

步骤(4)在Word上重绘表格；

步骤(5)文字内容识别与回填。

2.根据权利要求1所述的一种电子卷宗表格式OCR识别的方法，其特征在于步骤(1)中卷宗图像预处理，具体子步骤包括：

步骤(1.3)对于图像主体倾斜的图像，使用OpenCV求取其主体邻接矩阵，计算邻接矩阵相对图像的倾斜角，旋转图像主体。

步骤(2.2)取长为p，高为1的横向形态核区间，对步骤(21)中的图像进行先腐蚀后膨胀的形态学变换操作，得到横线图。不断改变p的取值以改变检测到的最短线段长度，并计算识别的精确度，以得到最合适的p值；

步骤(3.1)提取步骤(2)中线图的交点，得到交点图；

步骤(4.2)寻找最短的单元格长宽，设定为基础长宽值；

步骤(5.1)训练Tesseract引擎；