CN110097054A

CN110097054A - 一种基于图像投影变换的文本图像纠偏方法

Info

Publication number: CN110097054A
Application number: CN201910355195.4A
Authority: CN
Inventors: 段强; 李锐; 于治楼; 王相成; 宗云兵
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-06

Abstract

本发明特别涉及一种基于图像投影变换的文本图像纠偏方法。该基于图像投影变换的文本图像纠偏方法，首先通过图像二值化后对含文本区域的四条边框的提取获得四个坐标点，根据给定宽高比选择一条边作为标准边并计算出规范矩形的四个角点的坐标，计算投影矩阵对原图像进行投影变换；使用OpenCV生成最小外接矩形和偏转角度；然后根据偏转角度旋转图像使文字方向变为水平方向。该基于图像投影变换的文本图像纠偏方法，使用自适应阈值检测和投影变换自动处理输入图像，计算量较小，不需要强大硬件支持，不仅能得到稳定且可靠的结果，对于规范排版的文本图像场景有较强通用性，同时还省去了人工处理的流程，提高了图像识别效率和处理能力。

Description

一种基于图像投影变换的文本图像纠偏方法

技术领域

本发明涉及OCR图像识别技术领域，特别涉及一种基于图像投影变换的文本图像纠偏方法。

背景技术

在人工智能发展的浪潮当中，将重复且机械的工作用机器替代人类是一个必然的趋势。在目前已有的人工智能应用中，文字识别已经非常成熟，而且不仅限于打印字体的识别，还包括手写体的识别。但是如果想做到更加智能化、自动化，在文字识别之前，还要有一步图像的规范化，如找出文字的正确方向，以保证后续文本框标注、文字分隔、文字识别等一系列步骤的可靠性和准确度。

目前主流的OCR((Optical Character Recognition，光学字符识别)识别算法和框架中，对图像的文字方向要求比较高，通常上要求文字方向水平。因此在传统的OCR应用中，往往通过人为规定图片的输入格式和方向对图像进行规范，并设置标准框和手动旋转按钮以方便调节。但是，这样做需要耗费人力且不适用于大批量的文字识别场景，不适用于目前大数据发展的自动化的趋势。

给定一幅包含规范排版文字的图像，由于照片拍摄的视角差异，可能会导致矩形的证件、票据等变形为不规则的四边形，且方向偏转，不利于OCR的识别。例如，火车票的常规宽高比约为1.574，但摄像头拍摄的图像和文字会发生变形。此时，传统的OCR应用识别火车票图像时就会发生文字识别错误。

基于此，本发明提出了一种基于图像投影变换的文本图像纠偏方法。用于给定宽高比的OCR图像识别的预处理部分，目的是消除照片的拍摄视角差异导致的图片形状不规则和图片方向偏转。

发明内容

本发明为了弥补现有技术的缺陷，提供了一种简单高效的基于图像投影变换的文本图像纠偏方法。

本发明是通过如下技术方案实现的：

一种基于图像投影变换的文本图像纠偏方法，其特征在于，包括以下步骤：

(1)首先通过自适应的阈值获得原始图像的二值化图像；

(2)通过图像二值化后对含文本区域的四条边框的提取获得四个坐标点，根据给定宽高比选择一条边作为标准边并计算出规范矩形的四个角点的坐标，计算投影矩阵对原图像进行投影变换(projective transformation)；

(3)使用OpenCV的MinAreaRect函数生成最小外接矩形，并以此获得该矩形的偏转角度；

(4)然后根据计算得到的偏转角度旋转图像使文字方向变为水平方向。

所述步骤(1)中，使用OpenCV的adaptiveThreshold函数根据图像某个区域的图像明暗变化自动设置的阈值将图像二值化。

所述步骤(2)中，获取二值化后图像中文字排版的四个方向的边缘所在的直线，根据四条直线延长线相交所围成的不规则四边形，得到投影变换前的ROI((region ofinterest，感兴趣区域)。

通过边缘检测或者霍夫变换(Hough transformation)找到图像中文字排版的四个方向的边缘所在的直线。

所述步骤(2)中，当获得或者选定了一条标准边后，根据给定的宽高比绘制出一个标准的矩形，所述标准矩形的四个角点作为投影变换的目标位置。

所述步骤(2)中，得到不规则四边形四个角点的坐标以及符合设定宽高比的标准矩形的四个角点的坐标后，通过投影变换(projective transformation)得到一个3×3的投影矩阵，通过构建齐次矩阵并运用矩阵乘法即可将不规则的四边形变为标准矩形。

所述步骤(3)中，使用OpenCV的minAreaRect函数生成包含文字区域的最小外接矩形，返回最小外接矩形的中心点，宽度，高度和偏转角度。

所述步骤(4)中，将偏转角度输入get Rotation Matrix 2D函数，即可得到水平标准化的图像。

本发明的有益效果是：该基于图像投影变换的文本图像纠偏方法，使用自适应阈值检测和投影变换自动处理输入图像，计算量较小，不需要强大硬件支持，不仅能得到稳定且可靠的结果，对于规范排版的文本图像场景有较强通用性，同时还省去了人工处理的流程，提高了图像识别效率和处理能力。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白，以下结合实施例，对本发明进行详细的说明。应当说明的是，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

该基于图像投影变换的文本图像纠偏方法，包括以下步骤：

(1)首先通过自适应的阈值获得原始图像的二值化图像；

所述步骤(2)中，当获得或者选定了一条标准边后，根据给定的宽高比绘制出一个标准的矩形，所述标准矩形的四个角点作为投影变换的目标位置。例如，火车票的常规宽高比约为1.574。

综上所述，该基于图像投影变换的文本图像纠偏方法，具体步骤如下：

第一步，获得输入含有完整目标文本区域的图像，拍照或者扫描均可，确保其包含目标文字区域且包含边框；

第二步，设定图像二值化的阈值，通过利用OpenCV的adaptiveThreshold函数设定自适应阈值，尽可能的减小噪音，最终将图像背景和文字部分分别用0，1表示为一个二值图像；

第三步，通过霍夫变换或边缘检测将文本对齐形成的边框提取出来，四个方向上的边框可以围出一个四边形区域，提取该不规则四边形区域的四个角点坐标；

第四步，选择出不规则四边形区域的一条边作为标准边，并根据给定的宽高比确定标准矩形所对应的四个角点坐标；

第五步，根据两组角点坐标通过投影变换(projective transformation)得到一个3×3的投影矩阵，并根据投影变换，将不规则四边形变换为规则的矩形；

第六步，利用OpenCV的minAreaRect函数生成包含文字区域的最小外接矩形，并获得偏转角度；

第七步，使用OpenCV的getRotationMatrix2D函数，根据偏转角度将图像通过旋转变换等操作旋转至水平方向。

该基于图像投影变换的文本图像纠偏方法，输入一幅含有完整目标文本区域的图像(该图像可以与水平方向不平行且存在透视视角差异)，并给出其宽高比(否则不保证纠偏效果较好)，经过文本图像纠偏处理后，输出结果为一个纠正文字排版方向且规范化到标准矩形的图像。该基于图像投影变换的文本图像纠偏过程可以作为OCR识别的预处理步骤，提高OCR识别的准确率和可靠性。

目前，现有的技术不仅需要人工进行图片的旋转和角度纠正，同时早纠正时不考虑文本区域的规范化，会影响到OCR识别的效果和性能。与现有及时相比，该基于图像投影变换的文本图像纠偏方法，具有以下特点：

1.自动处理输入图像，省去了人工处理的流程，提高了效率和处理能力。

2.使用了自适应阈值检测和投影变换，可以得到稳定且可靠的结果。

3.方法简单明了，对于规范排版的文本图像场景有较强通用性。

4.计算量较小，不需要强大硬件支持。

Claims

1.一种基于图像投影变换的文本图像纠偏方法，其特征在于，包括以下步骤：

(1)首先通过自适应的阈值获得原始图像的二值化图像；

(2)通过图像二值化后对含文本区域的四条边框的提取获得四个坐标点，根据给定宽高比选择一条边作为标准边并计算出规范矩形的四个角点的坐标，计算投影矩阵对原图像进行投影变换；

2.根据权利要求1所述的基于图像投影变换的文本图像纠偏方法，其特征在于：所述步骤(1)中，使用OpenCV的adaptiveThreshold函数根据图像某个区域的图像明暗变化自动设置的阈值将图像二值化。

3.根据权利要求1所述的基于图像投影变换的文本图像纠偏方法，其特征在于：所述步骤(2)中，获取二值化后图像中文字排版的四个方向的边缘所在的直线，根据四条直线延长线相交所围成的不规则四边形，得到投影变换前的ROI。

4.根据权利要求3所述的基于图像投影变换的文本图像纠偏方法，其特征在于：通过边缘检测或者霍夫变换找到图像中文字排版的四个方向的边缘所在的直线。

5.根据权利要求1所述的基于图像投影变换的文本图像纠偏方法，其特征在于：所述步骤(2)中，当获得或者选定了一条标准边后，根据给定的宽高比绘制出一个标准的矩形，所述标准矩形的四个角点作为投影变换的目标位置。

6.根据权利要求1所述的基于图像投影变换的文本图像纠偏方法，其特征在于：所述步骤(2)中，得到不规则四边形四个角点的坐标以及符合设定宽高比的标准矩形的四个角点的坐标后，通过投影变换得到一个3×3的投影矩阵，通过构建齐次矩阵并运用矩阵乘法即可将不规则的四边形变为标准矩形。

7.根据权利要求1所述的基于图像投影变换的文本图像纠偏方法，其特征在于：所述步骤(3)中，使用OpenCV的minAreaRect函数生成包含文字区域的最小外接矩形，返回最小外接矩形的中心点，宽度，高度和偏转角度。

8.根据权利要求1所述的基于图像投影变换的文本图像纠偏方法，其特征在于：所述步骤(4)中，将偏转角度输入get Rotation Matrix 2D函数，即可得到水平标准化的图像。