CN108681729B

CN108681729B - 文本图像矫正方法、装置、存储介质及设备

Info

Publication number: CN108681729B
Application number: CN201810431074.9A
Authority: CN
Inventors: 袁同根
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2023-06-23
Anticipated expiration: 2038-05-08
Also published as: CN108681729A

Abstract

本申请实施例公开了一种文本图像矫正方法、装置、存储介质及设备，属于图像处理技术领域。所述方法包括：获取待矫正的文本图像，所述文本图像中包含文本；所述文本图像进行二值化处理，得到二值化区域；通过字符分类模型对所述文本图像中非文本区域所对应的二值化区域进行过滤，根据过滤后得到的二值化区域生成二值化图像，所述过滤后得到的二值化区域为所述文本图像中文本区域所对应的二值化区域；对所述二值化图像进行投影，得到所述文本的倾斜角度；根据所述倾斜角度对所述文本图像进行矫正。本申请实施例可以提高对文本图像的矫正的准确率。

Description

文本图像矫正方法、装置、存储介质及设备

技术领域

本申请实施例涉及图像处理技术领域，特别涉及一种文本图像矫正方法、装置、存储介质及设备。

背景技术

对于在自然场景下拍摄的文本图像，由于人为因素和终端的限制，拍摄到的文本图像中的文本不可避免地存在某种程度的倾斜。所以，需要先对文本图像进行倾斜矫正，再对矫正后的文本图像进行OCR(Optical Character Recognition，光学字符识别)识别。

在对文本图像进行矫正时，终端先对文本图像进行二值化处理，得到二值化图像；通过霍夫变换算法提取二值化图像中的各条直线；基于同一行文本在一条直线上的特点，从各条直线中确定一个最优的文本行所在的直线；将该最优的文本行的倾斜角度作为文本的倾斜角度；根据该倾斜角度对文本图像进行矫正。

霍夫变换算法对文本图像的质量要求较高，对质量不好的文本图像的矫正的准确率较低。

发明内容

本申请实施例提供了一种文本图像矫正方法、装置、存储介质及设备，用于解决霍夫变换算法对对质量不好的文本图像的矫正的准确率较低的问题。所述技术方案如下：

一方面，提供了一种文本图像矫正方法，所述方法包括：

获取待矫正的文本图像，所述文本图像中包含文本；

对所述文本图像进行二值化处理，得到二值化区域；

通过字符分类模型对所述文本图像中非文本区域所对应的二值化区域进行过滤，根据过滤后得到的二值化区域生成二值化图像_，所述过滤后得到的二值化区域为所述文本图像中文本区域所对应的二值化区域；

对所述二值化图像进行投影，得到所述文本的倾斜角度；

根据所述倾斜角度对所述文本图像进行矫正。

一方面，提供了一种文本图像矫正装置，所述装置包括：

获取模块，用于获取待矫正的文本图像，所述文本图像中包含文本；

二值化模块，用于对所述获取模块得到的所述文本图像进行二值化处理，得到二值化区域；

过滤模块，用于通过字符分类模型对所述二值化模块得到的所述文本图像中非文本区域所对应的二值化区域进行过滤，根据过滤后得到的二值化区域生成二值化图像_，所述过滤后得到的二值化区域为所述文本图像中文本区域所对应的二值化区域；

生成模块，用于对所述过滤模块得到的所述二值化图像进行投影，得到所述文本的倾斜角度；

矫正模块，用于根据所述生成模块得到的所述倾斜角度对所述文本图像进行矫正。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的文本图像矫正方法。

一方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上所述的文本图像矫正方法。

本申请实施例提供的技术方案的有益效果至少包括：

通过字符分类模型对文本图像中非文本区域所对应的二值化区域进行过滤，根据过滤后得到的二值化区域生成二值化图像，此时二值化图像中的每个二值化区域都对应于文本图像中的一个文本区域，由于文本的倾斜角度是根据文本确定的，所以，这里相当于通过字符分类模型对文本图像中的干扰进行了过滤，使得终端对质量不好的文本图像的矫正的准确率较高，从而解决了终端根据霍夫变换算法对质量不好的文本图像进行矫正时，准确率较低的问题。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据部分示例性实施例示出的一种文本图像矫正前后的对比示意图；

图2是根据部分示例性实施例示出的一种文本图像矫正前后的对比示意图；

图3是本申请一个实施例提供的文本图像矫正方法的方法流程图；

图4是本申请另一实施例提供的文本图像矫正方法的方法流程图；

图5是本申请一个实施例提供的文本图像矫正装置的结构框图；

图6是本申请一个实施例提供的终端的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例进行详细地解释说明之前，先对本申请实施例的应用场景进行说明。

本申请实施例应用于对自然场景下拍摄的文本图像进行矫正的应用场景中，由于自然场景具有多样性和不确定性，所以，自然场景下拍摄的文本图像中的字符识别难于扫描仪扫描得到的文本图像中的字符识别。比如，由于拍摄的随意性，文本图像中的文本存在一定的倾斜角度；文本区域附近有复杂的纹理和噪点等等，这些干扰都会加大文本图像中文本的识别难度。

本实施例中，终端先对自然场景下拍摄的文本图像进行矫正，再对矫正后的文本图像进行OCR识别，以提高文本识别的召回率。其中，召回率是指准确识别出的字符数与总字符数的比值。

这里所说的矫正是指对文本图像进行旋转，使得旋转后的文本图像中的文本处于水平方向，也即文本图像中的文本行处于水平方向。请参考图1和图2，其中，图1中的左侧视图是矫正前的文本图像，该文本图像中的文本向左倾斜一定角度，图1中的右侧视图是矫正后的文本图像。图2中的左侧视图是矫正前的文本图像，该文本图像中的文本向右倾斜一定角度，图2中的右侧视图是矫正后的文本图像。

在一个典型的实例中，本申请实施例可以应用于OCR引擎的预处理环节，通过高性能和高准确性的预处理，助力OCR识别的召回率和准确率上一个更好的台阶。这里的OCR引擎大量应用于通用OCR识别，身份证OCR识别、驾驶证OCR识别、行驶证OCR识别、车牌OCR识别等等。

由于根据霍夫变换算法对文本图像进行文本矫正时，计算过程高度依赖文本图像的质量，对于模糊或噪点等干扰较多的文本图像中文本行所在的直线的识别并不精确，导致文本图像的矫正的准确率较差；甚至无法对干扰较多的文本图像进行矫正。

基于霍夫变换算法的上述缺点，本实施例中，终端并不根据霍夫变换算法对文本图像进行矫正，而是训练得到一个字符分类模型，通过字符分类模型对文本图像中的干扰进行过滤，再对得到的二值化图像进行投影，得到倾斜角度。由于剔除了干扰的影响，所以可以提高矫正的准确率。

请参考图3，其示出了本申请一个实施例提供的文本图像矫正方法的方法流程图，该文本图像矫正方法可以应用于终端中，该终端可以是智能电视、智能手机或者平板电脑等等。该文本图像矫正方法，包括：

步骤301，获取待矫正的文本图像。

其中，文本图像中包含文本。

终端获取文本图像的方式可以有很多种，比如，终端启动摄像头对自然场景下的文本进行拍摄，得到文本图像，或者，终端可以从相册中获取文本图像，或者，终端可以从网络中下载文本图像，本实施例不限定文本图像的获取方式。

步骤302，对文本图像进行二值化处理，得到二值化区域。

本实施例中，终端需要先对文本图像进行灰度化处理，得到灰度图像，再对灰度图像进行二值化处理。

二值化处理是指将灰度图像中的每个像素点的灰度值设置为0或255，即通过选取适当的二值化阈值，根据二值化阈值将灰度图像中每个像素点的灰度值设置为0或255，得到仍然能够反映灰度图像的整体和局部特征的图像。

本实施例中，终端可以根据任意一种算法对文本图像进行二值化处理，得到二值化区域。需要说明的是，终端在进行二值化处理后得到至少一个二值化区域，且得到的每个二值化区域对应于文本图像中的一个文本区域或非文本区域。其中，文本区域是文本所覆盖的区域。文本区域不仅包括文本中的字符本身占用的区域，还包括字符与字符之间的空白区域，请参考图2，其中“百年银屏”所在的田字格区域可以称为一个文本区域。

在一种可能的实现方式中，终端根据MSER(Maximally Stable ExternalRegions，最大稳定极值区域)算法对文本图像进行二值化处理。其中，MSER是基于分水岭的概念得到的。即，终端对灰度图像进行二值化处理，二值化阈值取[0,255]，这样，得到的灰度图像会经历一个从全黑到全白的过程，该过程就像水位不断上升的俯瞰图。在这个过程中，有些连通区域的面积随二值化阈值上升的变化很小，这样的连通区域称为MSER。其中，MSER具有以下三个特点：1)对于图像灰度的仿射变化具有不变形；2)稳定性，区域的支持集相对灰度变化稳定；3)可以检测不同精细程度的区域。

简单来说，根据MSER算法对文本图像进行二值化处理的过程为：先将二值化阈值设置为0，对灰度图像进行二值化处理，得到各个连通区域的面积；再将二值化阈值设置为1，对灰度图像进行二值化处理，得到各个连通区域的面积；再将二值化阈值设置为2，对灰度图像进行二值化处理，得到各个连通区域的面积；依此类推，最后将二值化阈值设置为255，对灰度图像进行二值化处理，得到各个连通区域的面积。终端从所有的连通区域中选取，随着二值化阈值的增大，面积变化很小的各个连通区域，将每个连通区域称为一个MSER，即二值化区域。

本实施例中，终端可以通过公式

确定MSER。其中，Q_i表示第i个连通区域的面积，Δ表示二值化阈值的变化(相当于注水)，当v_i小于给定阈值时，终端确定该连通区域为MSER。

需要说明的是，在终端对文本图像进行灰度化处理后，会得到一个用矩阵表示的灰度图像，每个像素对应于矩阵中的一个元素；在对文本图像进行二值化处理后，该矩阵中各个二值化区域内的元素的数值为1，其余元素的数值为0。

步骤303，通过字符分类模型对文本图像中非文本区域所对应的二值化区域进行过滤，根据过滤后得到的二值化区域生成二值化图像_，过滤后得到的二值化区域为文本图像中文本区域所对应的二值化区域。

其中，字符分类模型是基于CNN(Convolutional Neural Network，卷积神经网络)的模型，用于区分字符和非字符。

字符分类模型用于过滤文本图像中非文本区域所对应的二值化区域，使得剩下的每个二值化区域都对应于文本图像中的一个文本区域。换句话说，字符分类模型可以对文本图像中干扰对应的二值化区域进行剔除，只保留文本区域对应的二值化区域，这样，后续对过滤后得到的二值化区域所组成的二值化图像进行处理时，可以不受干扰的影响，从而提高对文本图像的矫正的准确率。

其中，字符分类模型的训练流程详见步骤403中的描述，通过字符分类模型得到二值化图像的流程详见步骤403-405中的描述，此处不作赘述。

步骤304，对二值化图像进行投影，得到文本的倾斜角度。

本实施例中，终端可以根据任意一种算法对二值化图像进行投影，以得到文本的倾斜角度。这里所说的文本的倾斜角度是指文本图像中文本行的倾斜角度。

在一种可能的实现方式中，终端根据投影算法对二值化图像进行投影。其中，投影算法是指对二值化图像进行不同角度的投影，每个角度的投影得到一个投影值，由各个投影值组成的曲线具有二次抛物线的特点，曲线的最大值位于抛物线的顶点，所以，可以将位于抛物线的顶点的投影值所对应的角度作为文本的倾斜角度。

其中，终端根据投影算法得到倾斜角度的流程详见步骤406中的描述，此处不作赘述。

需要说明的是，这里得到的倾斜角度有正负。在实现时，终端可以设定倾斜方向，将向该方向倾斜的倾斜角度设置为正值，将向该倾斜方向的反方向倾斜的倾斜角度设置为负值。比如，倾斜方向为左，则向左倾斜的倾斜角度为正，向右倾斜的倾斜角度为负。

由于终端对二值化图像进行了投影，相比于将一个文本行的倾斜角度作为文本的倾斜角度的方案来说，具有大数据量的特点，从而提高了文本图像的矫正的鲁棒性。

步骤305，根据倾斜角度对文本图像进行矫正。

以倾斜方向是左为例进行说明，假设倾斜角度为+5°，则终端将文本图像向右旋转5°，完成对文本图像的矫正；假设倾斜角度为-5°，则终端将文本图像向左旋转5°，完成对文本图像的矫正。

综上所述，本申请实施例提供的文本图像矫正方法，通过字符分类模型对文本图像中非文本区域所对应的二值化区域进行过滤，根据过滤后得到的二值化区域生成二值化图像，此时二值化图像中的每个二值化区域都对应于文本图像中的一个文本区域，由于文本的倾斜角度是根据文本确定的，所以，这里相当于通过字符分类模型对文本图像中的干扰进行了过滤，使得终端对质量不好的文本图像的矫正的准确率较高，从而解决了终端根据霍夫变换算法对质量不好的文本图像进行矫正时，准确率较低的问题。另外，由于终端未根据霍夫变换算法对文本图像进行矫正，还可以提高对文本图像的矫正的效率。

请参考图4，其示出了本申请另一实施例提供的文本图像矫正方法的方法流程图，该文本图像矫正方法可以应用于终端中，该终端可以是智能电视、智能手机或者平板电脑等等。该文本图像矫正方法，包括：

步骤401，获取待矫正的文本图像。

其中，文本图像中包含文本。

步骤402，对文本图像进行二值化处理，得到二值化区域。

其中，步骤401-402的实现流程与步骤301-302的实现流程相同，此处不作赘述。

步骤403，通过字符分类模型对文本图像和二值化处理后得到的二值化区域进行处理，得到该二值化区域中每个二值化区域的概率，概率用于指示该概率所对应的二值化区域对应于文本区域的概率。

其中，字符分类模型可以由终端训练得到，也可以由诸如服务器之类的其他设备训练得到，本实施例不对字符分类模型的来源作限定。

当字符分类模型由终端训练得到时，在通过字符分类模型对文本图像中非文本区域所对应的二值化区域进行过滤，根据过滤后得到的二值化区域生成二值化图像之前，该方法还包括：创建字符分类模型；获取第二训练样本，第二训练样本包括文本图像和用于标注文本图像中每个字符所占用的区域的信息；根据第二训练样本对字符分类模型进行训练。

终端可以以任一卷积神经网络的结构模型创建字符分类模型，在一种可能的实现方式中，终端以alexnet卷积神经网络的结构模型创建字符分类模型。

终端获取海量第二训练样本，每个第二训练样本包括文本图像和标注信息，该标注信息用于标注文本图像中每个字符所占用的区域。在一种可能的实现方式中，标注信息可以是文本图像中每个字符的包围盒的四个角点的信息。

终端根据海量的第二训练样本对字符分类模型进行训练，最终得到具有高鲁棒性和高准确性的字符分类模型。

在得到字符分类模型后，终端将二值化处理后得到的二值化区域和文本图像输入字符分类模型中。对于二值化处理后得到的二值化区域中的每个二值化区域，字符分类模型确定文本图像中该二值化区域对应的区域，对该对应的区域进行识别，得到该对应的区域是文字区域的概率，将该概率与二值化区域对应。最终，字符分类模型输出每个二值化区域对应的一个概率。

步骤404，根据概率对对应的二值化区域进行过滤。

在一种可能的实现方式中，根据概率对对应的二值化区域进行过滤，包括：在概率中查找低于概率阈值的概率；对查找到的概率对应的二值化区域进行剔除。这里的概率阈值可以是所有概率的平均值，也可以是设置的一个经验值，本实施例不作限定。

其中，终端可以根据一些规则设置一个字符过滤器，字符分类模型将结果输出至字符过滤器中，由字符过滤器执行步骤404来对二值化区域进行过滤。

可选的，除了根据概率过滤二值化区域，字符过滤器还可以剔除边缘的二值化区域，根据宽高比、面积等参数剔除不合理的二值化区域，本实施例不作限定。

相关技术中，霍夫变换算法无法识别字间距较大的文本行，从而无法对文本图像进行矫正。本实施例中，基于CNN的字符分类模型和字符过滤引擎可以降低对二值化的高度依赖性，从而提高了质量不好的文本图像的矫正的准确性。

步骤405，根据过滤后得到的二值化区域生成二值化图像_，过滤后得到的二值化区域为文本图像中文本区域所对应的二值化区域。

终端可以将过滤后得到的各个二值化区域组合在一起，得到二值化图像。

步骤406，对二值化图像进行投影，得到文本的倾斜角度。

在一种可能的实现方式中，终端根据投影算法对二值化图像进行投影。此时，对二值化图像进行投影，得到文本的倾斜角度，可以包括如下几个步骤：

步骤4061，读取角度区间。

根据先验统计知识可知，文本的倾斜角度通常较小，为了提高运算速度，可以先设定一个较小的角度区间，终端在投影时读取该角度区间，在该角度区间中查找倾斜角度。

比如，文本的倾斜角度一般分布在(-5°,5°)内，所以，可以先将角度区间设定为(-5°,5°)，则终端读取的角度区间为(-5°,5°)。

步骤4062，计算二值化图像在角度区间中每个角度的投影值。

对于角度区间中的每个角度，终端计算该二值化图像在该角度的投影值。在一种可能的实现方式中，终端可以根据投影算法计算该二值化图像在该角度的投影值。

可选的，在执行本步骤之前，终端还可以根据高斯金字塔算法对二值化图像进行降采样，得到尺寸缩小后的二值化图像。

高斯金字塔本质上为信号的多尺度表示法，亦即将同一信号或图像多次进行高斯模糊，并进行降采样，藉以产生不同尺度下的多组信号或图像以进行后续的处理。其中，降采样是降低信号或图像的采样率的过程，通常用于降低减少数据量。在每次降采样后，得到的图像的尺寸是取样前图像的二分之一。

本实施例中，终端可以根据尺寸缩小后的二值化图像进行后续的投影，以减少数据的运算量，从而提高运算速度。

步骤4063，当最大的投影值所对应的角度是角度区间中的边界值时，扩大角度区间，继续执行步骤4062。

在扩大角度区间时，终端可以以一定步长扩大角度区间，比如，步长为5°，则第一次扩大后的角度区间为(-10°,10°)、第二次扩大后的角度区间为(-15°,15°)，依此类推；终端也可以以一定倍数扩大角度区间，比如，倍数为2，则第一次扩大后的角度区间为(-10°,10°)、第二次扩大后的角度区间为(-20°,20°)，依此类推，本实施例不对角度区间的扩大方式作限定。

步骤4064，当最大的投影值所对应的角度不是角度区间中的边界值时，将角度确定为文本的倾斜角度。

相关技术中，将一个文本行的倾斜角度作为文本的倾斜角度时，鲁棒性较差，且自然场景下的准确率较低。本实施例中，由于终端对二值化图像进行了投影，相比于将一个文本行的倾斜角度作为文本的倾斜角度的方案来说，具有大数据量的特点，从而提高了文本图像的矫正的鲁棒性。

相关技术中，霍夫变换算法较为耗时，导致矫正的效率较低。本实施例中，通过高斯金字塔进行降采样，以及通过逐步扩大角度区间来查找倾斜角度，都可以对算法进行优化，从而提高了文本图像的矫正的效率。

步骤407，根据倾斜角度对文本图像进行矫正。

在通过步骤407对文本图像进行矫正后，文本图像中的文本可能是水平的，也可能是竖直的，所以，终端还需要再次对文本图像进行矫正，使文本水平。此时，终端可以执行步骤408对文本图像进行矫正，也可以执行步骤409对文本图像进行矫正，还可以执行步骤408和409对文本图像进行矫正。

步骤408，对文本图像进行N次腐蚀操作，每次腐蚀操作包括水平方向的腐蚀操作和垂直方向的腐蚀操作，且腐蚀操作用于腐蚀字符间的间距，N为正整数；根据最先相连的各个字符的方向，确定文本与标定方向之间的夹角度数，标定方向为水平方向或垂直方向；根据夹角度数对矫正后的文本图像进行矫正。

腐蚀操作是指将二值化图像中各个数值为1的像素点连接成的边界点去掉，从而缩小二值化区域，通过腐蚀操作可以提取骨干信息，去掉毛刺，去掉孤立的数值为0的像素点。本实施例中，腐蚀操作的作用是腐蚀字符间的间距。

本实施例中，腐蚀操作的执行次数为N，该N为经验值，在执行N次腐蚀操作后，字符间的间距被腐蚀掉，使得各个字符相连。在一种可能的实现方式中，N为4。

通常文本的行间距大于字间距，所以，如果进行了多次腐蚀操作，通常是字间距比行间距先被腐蚀掉，使得一行文本中的各个字符最先相连。即，如果第N次腐蚀操作后，水平方向的各字符最先相连，则确定文本行的方向为水平方向，可以认为该文本的方向为水平方向。若标定方向为水平方向，则终端确定文本与水平方向之间的夹角度数为0°，无需对文本图像进行矫正；若标定方向为垂直方向，则终端确定文本与垂直方向之间的夹角度数为90°，无需对文本图像进行矫正。如果第N次腐蚀操作后，垂直方向的各字符最先相连，则确定文本行的方向为垂直方向，可以认为该文本的方向为垂直方向。若标定方向为水平方向，则终端确定文本与水平方向之间的夹角度数为90°，需要对文本图像逆时针旋转90°进行矫正；若标定方向为垂直方向，则终端确定文本与垂直方向之间的夹角度数为0°，需要对文本图像逆时针旋转90°进行矫正。

需要说明的是，通过腐蚀操作来矫正文本图像的速度较快，能适应大部分使用场景，且准确率也很高。

步骤409，通过角度分类模型对矫正后的文本图像进行处理，得到文本与标定方向之间的夹角度数，标定方向为水平方向或垂直方向；根据夹角度数对矫正后的文本图像进行矫正。

其中，角度分类模型可以由终端训练得到，也可以由诸如服务器之类的其他设备训练得到，本实施例不对角度分类模型的来源作限定。

当角度分类模型由终端训练得到时，在通过角度分类模型对矫正后的文本图像进行处理，得到文本与标定方向之间的夹角度数之前，该方法还包括：创建角度分类模型；获取第一训练样本，第一训练样本包括文本图像和用于标注文本图像中的文本与标定方向之间的夹角度数的信息；根据第一训练样本对角度分类模型进行训练。

其中，角度分类模型是基于CNN的模型，用于识别文本与标定方向之间的夹角角度。

终端可以以任一卷积神经网络的结构模型创建角度分类模型。

终端获取海量第一训练样本，每个第一训练样本包括文本图像和标注信息，该标注信息用于标注文本图像中的文本与标定方向之间的夹角度数。这里的第一训练样本包括两种，一种是文本为水平方向的文本图像，对应的标注信息为0°；一种是文本为垂直方向的文本图像，对应的标注信息为90°。

终端根据海量的第一训练样本对角度分类模型进行训练，最终得到具有高鲁棒性和高准确性的角度分类模型。

在得到角度分类模型后，终端将文本图像输入角度分类模型中。角度分类模型对该文本图像进行识别，得到该文本图像中的文本与标定方向之间的夹角度数。

若标定方向为水平方向，则终端确定文本与水平方向之间的夹角度数为0°，无需对文本图像进行矫正；若标定方向为垂直方向，则终端确定文本与垂直方向之间的夹角度数为90°，无需对文本图像进行矫正。若标定方向为水平方向，则终端确定文本与水平方向之间的夹角度数为90°，需要对文本图像逆时针旋转90°进行矫正；若标定方向为垂直方向，则终端确定文本与垂直方向之间的夹角度数为0°，需要对文本图像逆时针旋转90°进行矫正。

通过高斯金字塔进行降采样，以及通过逐步扩大角度区间来查找倾斜角度，都可以对算法进行优化，从而提高了文本图像的矫正的效率。

通过腐蚀操作和/或角度分类操作可以将文本矫正为水平方向，以便于OCR识别。

请参考图5，其示出了本申请一个实施例提供的文本图像矫正装置的结构框图，该文本图像矫正装置可以应用于终端中，该终端可以是智能电视、智能手机或者平板电脑等等。该文本图像矫正装置，包括：

获取模块510，用于获取待矫正的文本图像，文本图像中包含文本；

二值化模块520，用于对获取模块510得到的文本图像进行二值化处理，得到二值化区域；

过滤模块530，用于通过字符分类模型对二值化模块520得到的文本图像中非文本区域所对应的二值化区域进行过滤，根据过滤后得到的二值化区域生成二值化图像，过滤后得到的二值化区域为文本图像中文本区域所对应的二值化区域；

生成模块540，用于对过滤模块530得到的二值化图像进行投影，得到文本的倾斜角度；

矫正模块550，用于根据生成模块540得到的倾斜角度对文本图像进行矫正。

可选的，二值化模块520，还用于：

通过字符分类模型对文本图像和二值化处理后得到的二值化区域进行处理，得到该二值化区域中每个二值化区域的概率，概率用于指示该概率所对应的二值化区域对应于文本区域的概率；

根据概率对对应的二值化区域进行过滤；

根据过滤后得到的二值化区域生成二值化图像。

可选的，二值化模块520，还用于：

在概率中查找低于概率阈值的概率；

对查找到的概率对应的二值化区域进行剔除。

可选的，生成模块540，还用于：

读取角度区间；

计算二值化图像在角度区间中每个角度的投影值；

当最大的投影值所对应的角度是角度区间中的边界值时，扩大角度区间，继续执行计算二值化图像在角度区间中每个角度的投影值的步骤；

当最大的投影值所对应的角度不是角度区间中的边界值时，将角度确定为文本的倾斜角度。

可选的，生成模块540，还用于在计算二值化图像在角度区间中每个角度的投影值之前，根据高斯金字塔算法对二值化图像进行降采样，得到尺寸缩小后的二值化图像。

可选的，生成模块540，用于在矫正模块550根据倾斜角度对文本图像进行矫正之后，通过角度分类模型对矫正后的文本图像进行处理，得到文本与标定方向之间的夹角度数，标定方向为水平方向或垂直方向；

矫正模块550，还用于根据生成模块540得到的夹角度数对矫正后的文本图像进行矫正。

可选的，该装置还包括：

创建模块，用于在生成模块540通过角度分类模型对矫正后的文本图像进行处理，得到文本与标定方向之间的夹角度数之前，创建角度分类模型；

获取模块510，还用于获取第一训练样本，第一训练样本包括文本图像和用于标注文本图像中的文本与标定方向之间的夹角度数的信息；

训练模块，用于根据第一训练样本对角度分类模型进行训练。

可选的，该装置还包括：

腐蚀模块，用于在矫正模块550根据倾斜角度对文本图像进行矫正之后，对文本图像进行N次腐蚀操作，每次腐蚀操作包括水平方向的腐蚀操作和垂直方向的腐蚀操作，且腐蚀操作用于腐蚀字符间的间距，N为正整数；

生成模块540，还用于根据最先相连的各个字符的方向，确定文本与标定方向之间的夹角度数，标定方向为水平方向或垂直方向；

矫正模块550，还用于根据夹角度数对矫正后的文本图像进行矫正。

可选的，创建模块，还用于在过滤模块520通过字符分类模型对文本图像中非文本区域所对应的二值化区域进行过滤，根据过滤后得到的二值化区域生成二值化图像之前，创建字符分类模型；

获取模块510，还用于获取第二训练样本，第二训练样本包括文本图像和用于标注文本图像中每个字符所占用的区域的信息；

训练模块，还用于根据第二训练样本对字符分类模型进行训练。

综上所述，本申请实施例提供的文本图像矫正装置，通过字符分类模型对文本图像中非文本区域所对应的二值化区域进行过滤，根据过滤后得到的二值化区域生成二值化图像，此时二值化图像中的每个二值化区域都对应于文本图像中的一个文本区域，由于文本的倾斜角度是根据文本确定的，所以，这里相当于通过字符分类模型对文本图像中的干扰进行了过滤，使得终端对质量不好的文本图像的矫正的准确率较高，从而解决了终端根据霍夫变换算法对质量不好的文本图像进行矫正时，准确率较低的问题。另外，由于终端未根据霍夫变换算法对文本图像进行矫正，还可以提高对文本图像的矫正的效率。

图6示出了本申请一个示例性实施例提供的终端600的结构框图。该终端600可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的文本图像矫正方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607和电源608中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、光学传感器614以及接近传感器615。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器614用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器614采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器614采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器615，也称距离传感器，通常设置在终端600的前面板。接近传感器615用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器615检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器615检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请一个实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的文本图像矫正方法。

本申请一个实施例提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如上所述的文本图像矫正方法。

需要说明的是：上述实施例提供的文本图像矫正装置在进行文本矫正时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将文本图像矫正装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本图像矫正装置与文本图像矫正方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种文本图像矫正方法，其特征在于，所述方法包括：

获取待矫正的文本图像，所述文本图像中包含文本；

对所述文本图像进行二值化处理，得到二值化区域；

读取角度区间，所述角度区间是根据先验统计知识确定的；

计算所述二值化图像在所述角度区间中每个角度的投影值；

当最大的投影值所对应的角度不是所述角度区间中的边界值时，将所述角度确定为所述文本的倾斜角度，所述倾斜角度用于指示所述文本图像中文本行的倾斜角度；

根据所述倾斜角度对所述文本图像进行矫正；

对所述文本图像进行N次腐蚀操作，每次腐蚀操作包括水平方向的腐蚀操作和垂直方向的腐蚀操作，且所述腐蚀操作用于腐蚀字符间的间距，所述N为正整数；

根据最先相连的各个字符的方向，确定所述文本与标定方向之间的第一夹角度数，所述标定方向为水平方向或垂直方向，所述标定方向为所述文本行的方向；

根据所述第一夹角度数对第一矫正后文本图像进行矫正，所述第一矫正后文本图像是根据所述倾斜角度进行矫正后的文本图像；

通过角度分类模型对第二矫正后文本图像进行处理，得到所述文本与标定方向之间的第二夹角度数，所述第二矫正后文本图像根据所述第一夹角度数进行矫正后的文本图像；

根据所述第二夹角度数对第二矫正后文本图像进行矫正。

2.根据权利要求1所述的方法，其特征在于，所述通过字符分类模型对所述文本图像中非文本区域所对应的二值化区域进行过滤，根据过滤后得到的二值化区域生成二值化图像，包括：

通过所述字符分类模型对所述文本图像和二值化处理后得到的所述二值化区域进行处理，得到所述二值化区域中每个二值化区域的概率，所述概率用于指示所述概率所对应的二值化区域对应于所述文本区域的概率；

根据所述概率对对应的二值化区域进行过滤；

根据过滤后得到的二值化区域生成所述二值化图像。

3.根据权利要求2所述的方法，其特征在于，所述根据所述概率对对应的二值化区域进行过滤，包括：

在所述概率中查找低于概率阈值的概率；

对查找到的所述概率对应的二值化区域进行剔除。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当最大的投影值所对应的角度是所述角度区间中的边界值时，扩大所述角度区间，继续执行所述计算所述二值化图像在所述角度区间中每个角度的投影值的步骤。

5.根据权利要求4所述的方法，其特征在于，在所述计算所述二值化图像在所述角度区间中每个角度的投影值之前，所述方法还包括：

根据高斯金字塔算法对所述二值化图像进行降采样，得到尺寸缩小后的所述二值化图像。

6.根据权利要求1至5任一所述的方法，其特征在于，在所述通过角度分类模型对第二矫正后所述文本图像进行处理，得到所述文本与标定方向之间的第二夹角度数之前，所述方法还包括：

创建所述角度分类模型；

获取第一训练样本，所述第一训练样本包括文本图像和用于标注所述文本图像中的文本与所述标定方向之间的夹角度数的信息；

根据所述第一训练样本对所述角度分类模型进行训练。

7.根据权利要求1所述的方法，其特征在于，在所述通过字符分类模型对所述文本图像中非文本区域所对应的二值化区域进行过滤，根据过滤后得到的二值化区域生成二值化图像之前，所述方法还包括：

创建所述字符分类模型；

获取第二训练样本，所述第二训练样本包括文本图像和用于标注所述文本图像中每个字符所占用的区域的信息；

根据所述第二训练样本对所述字符分类模型进行训练。

8.一种文本图像矫正装置，其特征在于，所述装置包括：

过滤模块，用于通过字符分类模型对所述二值化模块得到的所述文本图像中非文本区域所对应的二值化区域进行过滤，根据过滤后得到的二值化区域生成二值化图像，所述过滤后得到的二值化区域为所述文本图像中文本区域所对应的二值化区域；

生成模块，用于读取角度区间，所述角度区间是根据先验统计知识确定的；

计算所述二值化图像在所述角度区间中每个角度的投影值；

矫正模块，用于根据所述生成模块得到的所述倾斜角度对所述文本图像进行矫正；

腐蚀模块，用于对所述文本图像进行N次腐蚀操作，每次腐蚀操作包括水平方向的腐蚀操作和垂直方向的腐蚀操作，且所述腐蚀操作用于腐蚀字符间的间距，所述N为正整数；

所述生成模块，还用于根据最先相连的各个字符的方向，确定所述文本与标定方向之间的第一夹角度数，所述标定方向为水平方向或垂直方向，所述标定方向为所述文本行的方向；

所述矫正模块，还用于根据所述第一夹角度数对第一矫正后文本图像进行矫正，所述第一矫正后文本图像是根据所述倾斜角度进行矫正后的文本图像；

所述生成模块，还用于通过角度分类模型对第二矫正后文本图像进行处理，得到所述文本与标定方向之间的第二夹角度数，所述第二矫正后文本图像根据所述第一夹角度数进行矫正后的文本图像；

所述矫正模块，还用于根据所述第二夹角度数对第二矫正后文本图像进行矫正。

9.根据权利要求8所述的装置，其特征在于，所述过滤模块，还用于：

根据所述概率对对应的二值化区域进行过滤；

根据过滤后得到的二值化区域生成所述二值化图像。

10.根据权利要求8所述的装置，其特征在于，所述生成模块，还用于：

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的文本图像矫正方法。

12.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至7任一所述的文本图像矫正方法。