CN112101351B

CN112101351B - 一种基于投影的文本行旋转校正方法及装置

Info

Publication number: CN112101351B
Application number: CN202010931310.0A
Authority: CN
Inventors: 王玉娇
Original assignee: Luster LightTech Co Ltd
Current assignee: Luster LightTech Co Ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2024-04-19
Anticipated expiration: 2040-09-07
Also published as: CN112101351A

Abstract

本申请属于图像识别技术领域，具体涉及一种基于投影的文本行旋转校正方法及装置。目前常用的光学字符识别算法多采用路径搜索、连通域分析等算法直接进行字符分割，易受噪声干扰、出错率较高且效率相对较低。本申请采用投影技术，根据投影曲线的宽高比与文本行倾斜角度的对应关系，能够快速精确定位到文本行方向并计算旋转校正角度，从而获得水平方向的文本行图像，本申请的投影方法高效精确，具有良好的稳定性；通过粗定位和精细定位过程，提高运算速率，提升了算法的准确性；本申请易于实施、算法复杂度低，具有普适性，适于行业内推广应用。

Description

一种基于投影的文本行旋转校正方法及装置

技术领域

本申请涉及图像识别技术领域，尤其涉及一种基于投影的文本行旋转校正方法及装置。

背景技术

在图像识别技术领域，光学字符识别是一种重要的识别技术。光学字符识别是指利用电子设备确定字符形状，然后用字符识别方法将形状翻译成计算机文字的过程，即对文本图像进行扫描，然后对文本行进行分析处理，获取文字字符的过程，主要包括图像获取、预处理、特征提取和字符识别四个环节。

然而，在进行光学字符识别时，图像中所包含的文本行方向的不水平会增加单字符分割的难度，同时也会降低字符识别的精度。为了提高文本识别的准确性，对非水平方向的文本行进行光学字符识别，通常先通过图像的旋转校正使图像中所包含的文本行的方向为水平，然后再进行单字符的分割与识别。

目前，常用的光学字符识别算法多采用路径搜索、连通域分析等算法直接进行字符分割，易受噪声干扰、出错率较高且效率相对较低。

发明内容

本申请提供了一种基于投影的文本行旋转校正方法及装置，以解决目前光学字符识别中存在的精度较差以及效率较低的问题。

本申请采用的技术方案如下：

本申请的第一方面，提供一种基于投影的文本行旋转校正方法，包括以下步骤：

获取待校正文本图像；

旋转所述待校正文本图像，沿水平方向对初始状态以及旋转后的所述待校正文本图像进行像素点累积投影，获取各组水平方向投影曲线；

根据所述各组水平方向投影曲线，计算各组投影曲线的宽高比；

根据所述各组投影曲线的宽高比，将所述各组投影曲线的宽高比最大值所对应的旋转的角度确定为旋转校正角度；

将所述待校正文本图像旋转所述旋转校正角度，获得校正后的文本图像。

可选的，在所述获取待校正文本图像的步骤之后，还包括：

对所述待校正文本图像进行预处理，获得二值化文本图像。

可选的，所述对所述待校正文本图像进行预处理，包括：

对所述待校正文本图像进行阈值分割，获得二值化文本图像。

可选的，在所述对所述待校正文本图像进行预处理，获得二值化文本图像的步骤之后，还包括：

对所述二值化文本图像进行降采样处理，获得降采样文本图像。

可选的，所述对所述待校正文本图像进行预处理，包括：

对所述待校正文本图像进行边缘特征提取或聚类分析处理，获得二值化文本图像。

可选的，在所述根据所述投影曲线的宽高比，将所述投影曲线的宽高比最大值所对应的角度确定为旋转校正角度的步骤中，包括：

先进行粗定位，然后进行精确定位后确定旋转校正角度；

所述粗定位过程包括：先输入角度搜索范围，再计算各个角度下投影曲线的宽高比，从中挑选出宽高比最大值所对应的角度确定为粗定位旋转角度；

所述精确定位过程包括：先计算精确定位角度搜索范围，再计算各个角度下投影曲线的宽高比，从中挑选出宽高比最大值所对应的角度确定为精确定位旋转角度；所述精确定位旋转角度即为文本行的旋转校正角度。

本申请的第二方面，提供一种基于投影的文本行旋转校正装置，所述装置包括：

待校正文本图像获取模块，用于获取待校正文本图像；

投影曲线获取模块，用于旋转所述待校正文本图像，沿水平方向对初始状态以及旋转后的所述待校正文本图像进行像素点累积投影，获取各组水平方向投影曲线；

投影曲线计算模块，用于根据所述各组水平方向投影曲线，计算各组投影曲线的宽高比；

旋转校正角度确定模块，用于根据所述各组投影曲线的宽高比，将所述各组投影曲线的宽高比最大值所对应的旋转的角度确定为旋转校正角度；

文本图像校正模块，用于将所述待校正文本图像旋转所述旋转校正角度，获得校正后的文本图像。

可选的，所述待校正文本图像获取模块中，还包括二值化子模块和降采样子模块，所述二值化子模块用于对所述待校正文本图像进行阈值分割，获得二值化文本图像，所述降采样子模块用于对所述二值化文本图像进行降采样处理，获得降采样文本图像。

可选的，所述待校正文本图像获取模块中，还包括预处理子模块，所述预处理子模块用于对所述待校正文本图像进行边缘特征提取或聚类分析处理，获得二值化文本图像。

可选的，所述旋转校正角度确定模块中包括粗定位子模块和精确定位子模块；

所述粗定位子模块用于先输入角度搜索范围，再计算各个角度下投影曲线的宽高比，从中挑选出宽高比最大值所对应的角度确定为粗定位旋转角度；

所述精确定位子模块用于先计算精确定位角度搜索范围，再计算各个角度下投影曲线的宽高比，从中挑选出宽高比最大值所对应的角度确定为精确定位旋转角度，所述精确定位旋转角度即为文本行的旋转校正角度。

采用本申请的技术方案的有益效果如下：

本申请采用投影技术，根据投影曲线的宽高比与文本行倾斜角度的对应关系，能够快速精确定位到文本行方向并计算旋转校正角度，从而获得水平方向的文本行图像，本申请的投影方法高效精确，具有良好的稳定性；通过粗定位和精细定位过程，提高运算速率，提升了算法的准确性；本申请易于实施、算法复杂度低，具有普适性，适于行业内推广应用。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请第一方面的实施例的流程框图；

图2为本申请实施例的降采样处理示意图；

图3为本申请实施例中粗定位过程和精确定位过程示意图；

图4为本申请实施例中水平方向投影曲线生成示意图。

具体实施方式

下面将详细地对实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。

参见图1，为本申请第一方面的实施例的流程框图，以便于理解下述实施例的技术方案。

S101，获取待校正文本图像；

S102，旋转所述待校正文本图像，沿水平方向对初始状态以及旋转后的所述待校正文本图像进行像素点累积投影，获取各组水平方向投影曲线；

S103，根据所述各组水平方向投影曲线，计算各组投影曲线的宽高比；

S104，根据所述各组投影曲线的宽高比，将所述各组投影曲线的宽高比最大值所对应的旋转的角度确定为旋转校正角度；

S105，将所述待校正文本图像旋转所述旋转校正角度，获得校正后的文本图像。

本实施例中，通过水平方向进行像素点累积投影，可针对单行或多行文本，利用投影技术获取水平方向投影曲线，在水平方向投影曲线中，曲线的点位数据反映了文本的方向信息，本申请通过投影曲线的宽高比与文本行的倾斜角度的对应关系，将两者的数据信息相结合，确定投影曲线的宽高比数据信息以搜索并确定文本行的方向，从而完成文本行的旋转校正工作。

本实施例中的“初始状态”，是指没有旋转的待校正文本图像的状态。这里的“旋转”，是指将待校正文本图像在其本身所处的平面内进行旋转，示例性地，旋转可以选择一定的预设角度范围，也可以是旋转360度，旋转的目的是使待校正文本图像经过旋转后的某一状态为文本行水平状态。旋转的角度是已知的，每一个旋转角度对应一组投影曲线，当投影曲线的宽高比呈最大值时，其对应的旋转角度即为旋转校正角度。换句话说，当投影曲线的宽高比为最大值时，此时待校正文本图像的文本行处于水平状态，如果此投影曲线是待校正文本图像旋转了θ角度后投影得到的，那么θ角度即为旋转校正角度。

本实施例的S105步骤中，将待校正文本图像旋转所述旋转校正角度，需要指出的是，此步骤中旋转的是初始状态的待校正文本图像，即没有旋转的初始状态。

可选的，在所述获取待校正文本图像的步骤之后，还包括：

对所述待校正文本图像进行预处理，获得二值化文本图像。

可选的，所述对所述待校正文本图像进行预处理，包括：

本实施例中，对待校正文本图像进行阈值分割：为了避免噪声等信息干扰文本行定位，将待校正文本图像进行前景背景分割；阈值分割技术的应用，有利于进一步排除干扰，避免错误识别，同时提取出有用的图像信息，有利于减少数据运算量，提高识别以及旋转校正的效率。

本实施例中，对二值化文本图像进行降采样处理，降采样是一种多速率数字信号处理的技术或是降低信号采样率的过程，通常用于降低数据传输速率或者数据大小。参见图2，为本申请实施例的降采样处理示意图，其中，a为示例性的原图，尺寸为598pixel(像素)×1103pixel(像素)，经过降采样处理后的图像b为降采样文本图像，尺寸为105pixel(像素)×193pixel(像素)，大幅度地减少了数据的总量，提高了数据处理效率。

可选的，所述对所述待校正文本图像进行预处理，包括：

本实施例中，边缘特征提取和聚类分析均属于常规算法。通过边缘特征提取可以获取到数据差异较大区域的信息，二值化凸显的目标多数与非目标区域存在差异较大的灰度信息。聚类分析则是通过聚类的方法将差异较大的数据分成多个类别，在二值化应用中，聚类分析可以将目标(前景)和非目标区域(背景)分成两类从而达到二值化的目的。

先进行粗定位，然后进行精确定位后确定旋转校正角度；

参见图3，为本申请实施例中粗定位过程和精确定位过程示意图；在本实施例中，通过先进行粗定位，再实施精确定位，可以更加精准快捷的确定出文本行的旋转校正角度。为了进一步提高识别的准确度和效率，需要降低运算量，粗定位可以缩小旋转校正角度的确定范围。通过输入角度搜索范围，在此范围内旋转待校正文本图像，不必遍历所有角度值，精简运算量，只需要粗定位的角度搜索范围涵盖了旋转校正角度即可。示例性地，在角度搜索范围中，可以适当增加角度的刻度，例如，每间隔一度进行一次投影，可以增加至每间隔两度进行一次投影，以求加快运算速度。

为了在加快运算的同时保证数据的准确度，本实施例采取了精确定位过程，在精确定位过程中，确定一个精确定位角度搜索范围，在已获得粗定位旋转角度的基础上，左右浮动一定范围从而确定精确定位角度搜索范围。示例性地，浮动的范围可以以粗定位过程中间隔的度数为基准，在此范围内为了获得更精准的数据，可以采用较小的角度间隔值进行投影计算。使最终获得的旋转校正角度精度更高。

待校正文本图像获取模块，用于获取待校正文本图像；

本申请提供的实施例之间的相似部分相互参见即可，以上提供的具体实施方式只是本申请总的构思下的几个示例，并不构成本申请保护范围的限定。对于本领域的技术人员而言，在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims

1.一种基于投影的文本行旋转校正方法，其特征在于，包括以下步骤：

获取待校正文本图像；

根据所述各组投影曲线的宽高比，将所述各组投影曲线的宽高比最大值所对应的旋转的角度确定为旋转校正角度，包括：

先进行粗定位，然后进行精确定位后确定旋转校正角度；

所述精确定位过程包括：先计算精确定位角度搜索范围，再计算各个角度下投影曲线的宽高比，从中挑选出宽高比最大值所对应的角度确定为精确定位旋转角度；所述精确定位旋转角度即为文本行的旋转校正角度；

2.根据权利要求1所述的基于投影的文本行旋转校正方法，其特征在于，在所述获取待校正文本图像的步骤之后，还包括：

对所述待校正文本图像进行预处理，获得二值化文本图像。

3.根据权利要求2所述的基于投影的文本行旋转校正方法，其特征在于，所述对所述待校正文本图像进行预处理，包括：

4.根据权利要求2所述的基于投影的文本行旋转校正方法，其特征在于，在所述对所述待校正文本图像进行预处理，获得二值化文本图像的步骤之后，还包括：

5.根据权利要求2所述的基于投影的文本行旋转校正方法，其特征在于，所述对所述待校正文本图像进行预处理，包括：

6.一种基于投影的文本行旋转校正装置，其特征在于，所述装置包括：

待校正文本图像获取模块，用于获取待校正文本图像；

所述旋转校正角度确定模块中包括粗定位子模块和精确定位子模块；

所述精确定位子模块用于先计算精确定位角度搜索范围，再计算各个角度下投影曲线的宽高比，从中挑选出宽高比最大值所对应的角度确定为精确定位旋转角度，所述精确定位旋转角度即为文本行的旋转校正角度；

7.根据权利要求6所述的基于投影的文本行旋转校正装置，其特征在于，所述待校正文本图像获取模块中，还包括二值化子模块和降采样子模块，所述二值化子模块用于对所述待校正文本图像进行阈值分割，获得二值化文本图像，所述降采样子模块用于对所述二值化文本图像进行降采样处理，获得降采样文本图像。

8.根据权利要求6或7任一所述的基于投影的文本行旋转校正装置，其特征在于，所述待校正文本图像获取模块中，还包括预处理子模块，所述预处理子模块用于对所述待校正文本图像进行边缘特征提取或聚类分析处理，获得二值化文本图像。