CN111126382B

CN111126382B - 一种用于ocr识别的基于关键点定位的票据矫正方法

Info

Publication number: CN111126382B
Application number: CN201911224712.0A
Authority: CN
Inventors: 段强; 李锐; 金长新; 王芳
Original assignee: Shandong Inspur Scientific Research Institute Co Ltd
Current assignee: Shandong Inspur Scientific Research Institute Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2023-12-05
Anticipated expiration: 2039-12-04
Also published as: CN111126382A

Abstract

本发明提供一种用于OCR识别的基于关键点定位的票据矫正方法，属于图像识别，目标检测，图像几何矫正技术领域，本发明通过综合两种关键定定位的方法，包括基于二值化图像做连通域分析并找到最小生成矩形的关键点定位方法，以及基于局部特征匹配PatchMatch的关键点定位方法。对图像做矫正可以保证文字的规范性，有助于提升后续文字识别的效果。

Description

一种用于OCR识别的基于关键点定位的票据矫正方法

技术领域

本发明涉及图像识别，目标检测，图像几何矫正技术，尤其涉及一种用于OCR识别的基于关键点定位的票据矫正方法。

背景技术

目前用于OCR识别中的主流的图像矫正技术仍集中于提取图像中的感兴趣区域(ROI，region of interests)的边缘并做一系列直线拟合、模式识别等工作，找到四边形区域，并做矫正。这样做存在两个不足，一是处理不了没有明显边界或边界与背景区分度不足的图像，二是基于直线拟合的方法是从一个低阈值的结果中遍历可能存在的四边形模式，计算复杂且存在一定误差。

在人工智能发展的浪潮当中，将重复且机械的工作用机器替代人类是一个必然的趋势。在目前已有的人工智能应用中，文字识别已经非常成熟，而且不仅限于打印字体的识别，还包括手写体的识别。但是如果想做到更加智能化、自动化，在文字识别之前，还要有一步图像的规范化，如图像的视角矫正和去畸变。当图像中视角倾斜时，文字也会随之倾斜，而往往文字识别的训练数据中都是规范的文字。如果考虑倾斜的情况，训练集的大小可能会成倍的增加，训练时间和训练效果也会随之下降。

现有的技术存在如下劣势：

1、计算复杂，直线拟合需要遍历n^2次以求得最优解

2、不适用于没有明显边界的图像

因此，对图像做矫正可以保证文字的规范性，有助于提升后续文字识别的效果。

发明内容

为了解决以上技术问题，本发明提出了一种用于OCR识别的基于关键点定位的票据矫正方法，灵活使用现有技术，扬长避短，提出一种简洁可行且适用性较广的票据图像矫正方法，结果较为稳定可靠。

本方法中使用到的技术主要包括一些基本的图像处理操作，如图像的二值化，图像形态学处理，图像的连通域分析，生成最小矩形区域，局部特征匹配，图像的单应性变换(投影变换)等技术。

本发明的技术方案是：

一种用于OCR识别的基于关键点定位的票据矫正方法，通过综合两种关键定定位的方法(包括基于二值化图像做连通域分析并找到最小生成矩形的关键点定位方法，以及基于局部特征匹配PatchMatch的关键点定位方法)找到至少四个关键点，并定义出它们矫正后的坐标，通过投影变换将票据进行矫正。

得益于票据图像的规则排版和固定的边框位置，该方法可用性较强，效果普遍较好，不受制于边缘检测的准确度，且计算过程不复杂。该方法需要至少四个关键点的坐标，提供更多关键点且关键点分布的越均匀，矫正的效果越好。

给定一个已知的票据模板和需要矫正的图像，首先对图像进行二值化，得到一个便于进行处理的二值化图像，这里采用OpenCV的自适应二值化方法，调整合适的阈值对图像进行二值化。

由于这里综合采用两种关键点定位的方法，因此需要根据情况进行分别处理。

对于基于连通域分析和最小生成矩形的关键点定位方法

首先要对二值化图像进行图像形态学操作，例如膨胀/腐蚀，或开/闭操作。将二值化图像中所有元素在某个小区域内连成一整个连通域。

然后对二值图像做连通域分析，并使用寻找最小矩形区域的方法(如OpenCV中的minAreaRect)将各个连通域标注出来。

由于矩形框只包含宽、高和位置信息，因此适用于定位某个相对位置特征明显的，或宽高数值、比例独特的关键区域的定位，例如增值税发票的标题、二维码、购买物品的文字区域等。定位到文本框之后，关键点可以选取边缘、角点、中心点等。

对于基于局部区域特征匹配的PatchMatch方法

首先要定义出局部特征的模板，该模板应该为图像上较为独特的特征，如二维码的角点，发票专用章的曲形边缘等。通过使用局部特征描述子(如SIFT，SURF，FAST，ORB等)对模板和图像分别进行处理，得到两批候选描述子。这些描述子通常是一些多维向量，包含对某个点特征的描述，具有尺度和旋转不变形。

然后在目标图像中做遍历，寻找最近邻的一个点或者最近邻的多个点。然后依然将图像进行二值化并做图像形态学处理，将二值图像进行连通域分析。如果大多数模板中的点落入了某个连通域，就定义这个连通域为要寻找的模板所在区域。该区域的边、角或中心的坐标就可以作为关键点被提取出来。

找到关键点后，定义好它们所对应的矫正坐标，通过投影变换算法计算出矫正所需要的投影矩阵，例如OpenCV中的findHomography或getPerspectiveTransform函数。得到投影矩阵后，使用OpenCV的warpPerspective函数可以将图像进行矫正。

本发明使用了自适应阈值检测和投影变换，可以得到稳定且可靠的结果；且可以处理没有边缘信息的图像，方法简单明了；基于局部特征的描述子有较强通用性；计算量较小，不需要强大硬件支持；综合了两种方法，结果稳定，适用性较强。

本发明的有益效果是

本发明灵活利用已有技术，规避其缺点，发挥其长处，提出了综合两种关键点定位的方法，并结合投影变换票据矫正方法，有以下优势：

1、使用了自适应阈值检测和投影变换，可以得到稳定且可靠的结果

2、可以处理没有边缘信息的图像，

3、方法简单明了，基于局部特征的描述子有较强通用性

4、计算量较小，不需要强大硬件支持

5、综合了两种方法，结果稳定，适用性较强。

附图说明

图1是本发明的工作流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种用于OCR识别的基于关键点定位的票据矫正方法，通过综合两种关键定定位的方法(包括基于二值化图像做连通域分析并找到最小生成矩形的关键点定位方法，以及基于局部特征匹配PatchMatch的关键点定位方法)找到至少四个关键点，并定义出它们矫正后的坐标，通过投影变换将票据进行矫正。得益于票据图像的规则排版和固定的边框位置，该方法可用性较强，效果普遍较好，不受制于边缘检测的准确度，且计算过程不复杂。该方法需要至少四个关键点的坐标，提供更多关键点且关键点分布的越均匀，矫正的效果越好。

具体实施步骤如下

第一步，获得输入图像，拍照或者扫描均可；

第二步，将图像进行自适应二值化，得到二值化图；

第三步，通过图像形态学操作将相邻区域闭合成不同连通域，并进行连通域分析；

第四步，通过最小矩形区域算法找生成矩形框，并根据所定义的矩形框特征找到目标矩形框；

第五步，定义出局部特征匹配所需要的模板，并返回执行第二、第三步；

第六步，找到大多数模板中的描述子所在的目标区域的连通域；

第七步，综合第四步和第六步的结果，找出边角或中心点作为关键点；

第八步，定义出所找关键点对应校正后图像中的位置坐标，并计算投影矩阵；

第九步，根据第八步中的投影矩阵将票据图像进行矫正。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种用于OCR识别的基于关键点定位的票据矫正方法，其特征在于，

通过综合两种关键定位的方法包括基于二值化图像做连通域分析并找到最小生成矩形的关键点定位方法，以及基于局部特征匹配PatchMatch的关键点定位方法，找到至少四个关键点，并定义出它们矫正后的坐标，通过投影变换将票据进行矫正；

给定一个已知的票据模板和需要矫正的图像，首先对图像进行二值化，得到一个便于进行处理的二值化图像，采用OpenCV的自适应二值化方法，调整合适的阈值对图像进行二值化；

对于基于连通域分析和最小生成矩形的关键点定位方法，

首先要对二值化图像进行图像形态学操作，将二值化图像中所有元素在某个小区域内连成一整个连通域；

然后对二值图像做连通域分析，并使用寻找最小矩形区域的方法将各个连通域标注出来；

对于基于局部区域特征匹配的PatchMatch方法，首先定义出局部特征的模板，通过使用局部特征描述子对模板和图像分别进行处理，得到两批候选描述子；

在目标图像中做遍历，寻找最近邻的一个点或者最近邻的一个以上的点，然后依然将图像进行二值化并做图像形态学处理，将二值图像进行连通域分析；

如果一半以上模板中的点落入了某个连通域，那就定义这个连通域为寻找的模板所在区域；该区域的边、角或中心的坐标就作为关键点被提取出来；

所述描述子是多维向量，包含对一个点特征的描述，具有尺度和旋转不变形；

具体实施步骤如下

第一步，获得输入图像，拍照或者扫描均可；

第二步，将图像进行自适应二值化，得到二值化图；

第九步，根据第八步中的投影矩阵将票据图像进行矫正。

2.根据权利要求1所述的方法，其特征在于，

找到关键点后，定义它们所对应的矫正坐标，通过投影变换算法计算出矫正所需要的投影矩阵，得到投影矩阵后，使用OpenCV的warpPerspective函数将图像进行矫正。