CN114140794A

CN114140794A - 一种基于ocr的通用图像校正方法

Info

Publication number: CN114140794A
Application number: CN202111419219.1A
Authority: CN
Inventors: 孙阳; 陈坤; 张欣; 王铎; 张磊; 李磊; 时孟旭
Original assignee: Beijing Bite Yipai Information Technology Co ltd
Current assignee: Beijing Bite Yipai Information Technology Co ltd
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-04

Abstract

本申请公开了一种基于OCR的通用图像校正方法，所述图像校正方法包括：输入待校正图片；图像粗校正；图像精校正；获取前景区域；方向分类，所述步骤(1)中待校正图像中有文本框；且图像中的文本框大部分是同一个方向的；图像中的文本大多都是水平书写的。通过对原图像进行旋转的方式实现图像校正，极大幅度提高了工作效率；通过透视变换裁剪前景区域，区分要识别的前景和背景，去除无关背景，减少了背景的干扰，通用性好，对于不同的数据类型均可进行处理，自动找到一个最佳的旋转角度，速度快，解决了现有的图像校正方法对于拍摄角度影响的情况下难以校正的问题，不仅可以提高图像校正的效率，还可以提高OCR图像校正的鲁棒性。

Description

一种基于OCR的通用图像校正方法

技术领域

本申请涉及图像校正方法，尤其是一种基于OCR的通用图像校正方法。

背景技术

科学技术的迅猛发展带来了对信息的巨大需求，大量信息是以纸质的形式进行存储的。相比于计算机，传统的存储方式不利于保存、管理与应用，因此需要将它们存储到计算机中。传统的手工录入方式耗时费力远远不能达到实际需求，随着人工智能的发展，OCR(Optical Character Recognition)技术应运而生，但是在处理包含文字的图像时经常遇到一种问题，人们在拍摄图像时由于相机角度倾斜或纸张倾斜等问题，可能导致采集到的图片或文本的方向不是正向的，通过透视变换校正图像扭曲，获取图像过程中很难保证每张图片都是在正前方(或正上方)拍摄，因此时常出现照片扭曲导致模型识别有误的现象，这会给后续的OCR识别带来困难。

目前对于OCR图像的校正，多数基于Hough变换、基于投影等思想，Hough变换是图像处理中常用的一种方法，它利用点和线之间的对偶性，即图像空间中的每个点都对应参数空间中的一条线。因此将图像空间中的直线y＝kx+b上所有的点映射到参数空间得到的所有直线会相交于一点(k，b)，即图像空间中直线的斜率和截距。在倾角检测算法过程中，一般使用极坐标方程ρ＝xcosθ+ysinθ来表示一条直线，在检测中，将θ固定在某一范围内，对图像上θ范围内的所有像素点求取ρ值，然后累加ρ值出现的次数，图像像素点遍历完后得到最大ρ值和θ值就是对应图像的倾斜直线的ρ和θ，基于投影的方法是一种较为简单的角度检测算法，它的思路是先确定一个评价函数，然后将检测出的文本框沿任意方向进行投影，然后使用评价函数计算该方向的值，选择评价函数最大的方向即为文本的正向，Hough变换需要对所有像素点进行逐点检查，因此会产生大量冗余数据，并且时间复杂度与空间复杂度都很高，实时性差；现实中的图像一般都受到外界噪声的干扰，信噪比较低，此时Hough变换的性能将急剧下降，进行参数空间极大值的搜索时由于合适的阈值难以确定，往往出现“虚峰”和“漏检”的问题。基于投影的方法需要对文本框向各个方向投影，因此同样计算量大、算法耗时，除此之外现有方法对于受拍摄角度影响的情况下难以校正。因此，针对上述问题提出一种基于OCR的通用图像校正方法。

发明内容

在本实施例中提供了一种基于OCR的通用图像校正方法用于解决现有技术中的图像校正方法对于拍摄角度影响的情况下难以校正的问题。

根据本申请的一个方面，提供了一种基于OCR的通用图像校正方法，所述图像校正方法包括：

(1)输入待校正图片；

(2)图像粗校正；

(3)图像精校正；

(4)获取前景区域；

(5)方向分类。

进一步地，所述步骤(1)中待校正图像中有文本框；且图像中的文本框大部分是同一个方向的；图像中的文本大多都是水平书写的。

进一步地，所述步骤(1)中输入图片img，为了加快大图片的处理，对于太大的待校正的图片进行缩放，先获取图片的宽和高，比较照片的宽和高，在代码中对于待校正的图片的长边设置限制为2000，短边按照长边等比缩放处理。

进一步地，所述步骤(2)中输入图片img分别旋转0、22.5、45、67.5、90度，从而对应得到5张不同角度的图片，并将得到的5张图片存储到img_list中，对img_list中的5张图片分别进行文本检测，每张图片都可以得到一系列文本框。

进一步地，所述步骤(2)然后通过文本框评价函数对一系列文本框进行检测，检测出文本框水平角度最小的图片，即图片中文本框是相对水平的，从而完成图片较粗的角度旋转，得到img_r1。

进一步地，所述步骤(3)中根据上一步得到img_r1中文本框的倾斜角度，对其再进行一次旋转，完成图片精校正。

进一步地，所述步骤(3)具体为获取img_r1图片的文本框，通过将img_r1图片的文本框与水平线比较，得到文本框的倾斜角度，然后根据文本框的倾斜角度再进行一次详细角度旋转，得到img_r2。

进一步地，所述步骤(4)中获取前景区域是根据最上端文本框所在直线和最下端文本框所在直线构造等腰梯形；将得到的梯形进行透视变换，裁剪出前景区域，裁剪时应扩大一定比例，将无关的前景区域裁出，避免前景区域影响后续识别。

进一步地，所述步骤(4)中具体为：找到img_r2图片中最上边文本框的上边界线和最下面文本框的下边界线，延长两条线至交于一点，此时得到一个夹角，构造到该角的角平分线，在文本框所处范围内做角平分线的多条垂线，垂线与文本框的上下边界线共同构造多个等腰梯形，然后对构造的等腰梯形做透视变换，从而能够解决图片的扭曲问题，将透视变换后图片的裁剪，得到需要的前景区域，并在裁剪时扩大图片的一定比例，得到校正后的图片img_r3。

进一步地，所述步骤(5)中通过文本行方向分类器，判断上述图片img_r3的前景区域文本行是否颠倒，不颠倒，可以直接得到OCR图像校正后的图片，若颠倒，则将图片旋转180度，最终得到OCR图像校正后的图片。

通过本申请上述实施例，采用了对原图像进行旋转的方式实现图像校正，极大幅度提高了工作效率；通过透视变换裁剪前景区域，区分要识别的前景和背景，去除无关背景，减少了背景的干扰，通用性好，对于不同的数据类型均可进行处理，自动找到一个最佳的旋转角度，速度快，解决了现有的图像校正方法对于拍摄角度影响的情况下难以校正的问题，不仅可以提高图像校正的效率，还可以提高OCR图像校正的鲁棒性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请一种实施例的结构立体示意图；

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

本实施例中的图像校正方法可以适用于文字识别装置，例如，在本实施例提供了如下一种基于OCR的通用图像校正方法，本实施例中的图像校正方法可以用于一种基于文字风格识别的文字识别方法及装置。

所述文字识别方法包括：对输入的文字图像进行文字风格的识别，并输出与所述文字图像相关联的文字风格信息；以及基于不同的文字风格训练不同的文字识别数据库，在训练好的用于不同文字风格的多个文字识别数据库中选择与所述文字风格信息相对应的文字识别数据库用于对所述文字图像进行文字识别，其中所述文字风格包括文字的字体、文字的语种和呈现文字的对象，并且其中，所述方法还包括先进行一种文字风格的识别，再结合所述一种文字风格的识别结果进行另一种文字风格的识别，并且其中，所述对输入的文字图像进行文字风格的识别是基于训练好的神经网络。

当然本实施例也可以用于其他文字识别装置。在此不再一一赘述，下面对本申请实施例的图像校正方法进行介绍。

请参阅图1所示，一种基于OCR的通用图像校正方法，所述图像校正方法包括：

(1)输入待校正图片；

(2)图像粗校正；

(3)图像精校正；

(4)获取前景区域；

(5)方向分类。

所述步骤(1)中待校正图像中有文本框；且图像中的文本框大部分是同一个方向的；图像中的文本大多都是水平书写的。

所述步骤(1)中输入图片img，为了加快大图片的处理，对于太大的待校正的图片进行缩放，先获取图片的宽和高，比较照片的宽和高，在代码中对于待校正的图片的长边设置限制为2000，短边按照长边等比缩放处理。

所述步骤(2)中输入图片img分别旋转0、22.5、45、67.5、90度，从而对应得到5张不同角度的图片，并将得到的5张图片存储到img_list中，对img_list中的5张图片分别进行文本检测，每张图片都可以得到一系列文本框。

所述步骤(2)然后通过文本框评价函数对一系列文本框进行检测，检测出文本框水平角度最小的图片，即图片中文本框是相对水平的，从而完成图片较粗的角度旋转，得到img_r1。

所述步骤(3)中根据上一步得到img_r1中文本框的倾斜角度，对其再进行一次旋转，完成图片精校正。

所述步骤(3)具体为获取img_r1图片的文本框，通过将img_r1图片的文本框与水平线比较，得到文本框的倾斜角度，然后根据文本框的倾斜角度再进行一次详细角度旋转，得到img_r2。

所述步骤(4)中获取前景区域是根据最上端文本框所在直线和最下端文本框所在直线构造等腰梯形；将得到的梯形进行透视变换，裁剪出前景区域，裁剪时应扩大一定比例，将无关的前景区域裁出，避免前景区域影响后续识别。

所述步骤(4)中具体为：找到img_r2图片中最上边文本框的上边界线和最下面文本框的下边界线，延长两条线至交于一点，此时得到一个夹角，构造到该角的角平分线，在文本框所处范围内做角平分线的多条垂线，垂线与文本框的上下边界线共同构造多个等腰梯形，然后对构造的等腰梯形做透视变换，从而能够解决图片的扭曲问题，将透视变换后图片的裁剪，得到需要的前景区域，并在裁剪时扩大图片的一定比例，得到校正后的图片img_r3。

所述步骤(5)中通过文本行方向分类器，判断上述图片img_r3的前景区域文本行是否颠倒，不颠倒，可以直接得到OCR图像校正后的图片，若颠倒，则将图片旋转180度，最终得到OCR图像校正后的图片。

涉及到电路和电子元器件和模块均为现有技术，本领域技术人员完全可以实现，无需赘言，本申请保护的内容也不涉及对于软件和方法的改进。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于OCR的通用图像校正方法，其特征在于：所述图像校正方法包括：

(1)输入待校正图片；

(2)图像粗校正；

(3)图像精校正；

(4)获取前景区域；

(5)方向分类。

2.根据权利要求1所述的一种基于OCR的通用图像校正方法，其特征在于：所述步骤(1)中待校正图像中有文本框；且图像中的文本框大部分是同一个方向的；图像中的文本大多都是水平书写的。

3.根据权利要求1所述的一种基于OCR的通用图像校正方法，其特征在于：所述步骤(1)中输入图片img，为了加快大图片的处理，对于太大的待校正的图片进行缩放，先获取图片的宽和高，比较照片的宽和高，在代码中对于待校正的图片的长边设置限制为2000，短边按照长边等比缩放处理。

4.根据权利要求1所述的一种基于OCR的通用图像校正方法，其特征在于：所述步骤(2)中输入图片img分别旋转0、22.5、45、67.5、90度，从而对应得到5张不同角度的图片，并将得到的5张图片存储到img_list中，对img_list中的5张图片分别进行文本检测，每张图片都可以得到一系列文本框。

5.根据权利要求1所述的一种基于OCR的通用图像校正方法，其特征在于：所述步骤(2)然后通过文本框评价函数对一系列文本框进行检测，检测出文本框水平角度最小的图片，即图片中文本框是相对水平的，从而完成图片较粗的角度旋转，得到img_r1。

6.根据权利要求1所述的一种基于OCR的通用图像校正方法，其特征在于：所述步骤(3)中根据上一步得到img_r1中文本框的倾斜角度，对其再进行一次旋转，完成图片精校正。

7.根据权利要求1所述的一种基于OCR的通用图像校正方法，其特征在于：所述步骤(3)具体为获取img_r1图片的文本框，通过将img_r1图片的文本框与水平线比较，得到文本框的倾斜角度，然后根据文本框的倾斜角度再进行一次详细角度旋转，得到img_r2。

8.根据权利要求1所述的一种基于OCR的通用图像校正方法，其特征在于：所述步骤(4)中获取前景区域是根据最上端文本框所在直线和最下端文本框所在直线构造等腰梯形；将得到的梯形进行透视变换，裁剪出前景区域，裁剪时应扩大一定比例，将无关的前景区域裁出，避免前景区域影响后续识别。

9.根据权利要求1所述的一种基于OCR的通用图像校正方法，其特征在于：所述步骤(4)中具体为：找到img_r2图片中最上边文本框的上边界线和最下面文本框的下边界线，延长两条线至交于一点，此时得到一个夹角，构造到该角的角平分线，在文本框所处范围内做角平分线的多条垂线，垂线与文本框的上下边界线共同构造多个等腰梯形，然后对构造的等腰梯形做透视变换，从而能够解决图片的扭曲问题，将透视变换后图片的裁剪，得到需要的前景区域，并在裁剪时扩大图片的一定比例，得到校正后的图片img_r3。

10.根据权利要求1所述的一种基于OCR的通用图像校正方法，其特征在于：所述步骤(5)中通过文本行方向分类器，判断上述图片img_r3的前景区域文本行是否颠倒，不颠倒，可以直接得到OCR图像校正后的图片，若颠倒，则将图片旋转180度，最终得到OCR图像校正后的图片。