CN111325199A

CN111325199A - 一种文字倾斜角度检测方法及装置

Info

Publication number: CN111325199A
Application number: CN201811537089.XA
Authority: CN
Inventors: 沙源; 刘亮元; 章婷婷; 罗红; 李先荣
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd; China Mobile Group Shandong Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd; China Mobile Group Shandong Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2020-06-23
Anticipated expiration: 2038-12-14
Also published as: CN111325199B

Abstract

本申请提供一种文字倾斜角度检测方法及装置，其中方法包括：根据待处理图像的灰度信息，从待处理图像中获取至少一个稳定区域；根据预设的文字笔画特征，从所获取的至少一个稳定区域中获取至少一个备选文字区域；确定至少一个备选文字区域的直线特征，并根据直线特征确定文字倾斜角度。有利于提高对具有复杂背景的待处理图像中文字倾斜角度的检测的准确性。

Description

一种文字倾斜角度检测方法及装置

技术领域

本申请涉及文字识别技术领域，尤其涉及一种文字倾斜角度检测方法及装置。

背景技术

随着自动化、人工智能等领域的发展，文字识别技术得到了越来越广泛的应用。采用文字识别技术，计算设备可以自行识别图像中的文字以及文字的含义。

现有的文字识别技术多基于光学字符识别(optical character recognition，OCR)实现。然而，计算设备中的OCR模块只能识别图像中近似水平排列的文字，对于文字具有倾斜角度的图像，无法直接采用OCR模块识别其中的文字。

基于此，在采用OCR模块识别图像中的文字之前，还可以先计算图像中文字的倾斜角度，利用所计算的倾斜角度纠正图像中的文字，再采用OCR模块识别图像中的文字。

然而，现有的文字倾斜角度计算方法需要图像中背景较为简单的情况，如名片、扫描文本等。对于背景较为复杂的图像，现有的文字倾斜角度计算方法还无法完全适用。

发明内容

本申请提供一种文字倾斜角度检测方法及装置，用以提高对具有复杂背景的图像中，文字倾斜角度检测的准确性。

第一方面，本申请实施例提供一种文字倾斜角度检测方法，包括：根据待处理图像中像素的灰度信息，从待处理图像中获取至少一个稳定区域；稳定区域中像素之间的灰度差值不大于预设的第一门限的连通区域，且稳定区域的相邻像素与稳定区域中的任一像素之间的灰度差值不小于预设的第二门限；根据预设的文字笔画特征，从所获取的至少一个稳定区域中确定至少一个满足文字笔画特征的备选文字区域；获取至少一个备选文字区域的直线特征，并根据所获取的直线特征确定文字倾斜角度。

通常，一个文字多具有闭合稳定的结构特征，采用上述方法，通过从待处理图像中获取稳定区域，排除了待处理图像中部分复杂背景的影响，减少了获取备选文字区域过程中的计算量，并且提高了所获取的备选文字区域的准确性。之后，根据预设的文字笔画特征从所获取的稳定区域中进一步获取至少一个备选文字区域，并进一步根据至少一个备选文字区域的直线特征确定文字倾斜角度，有利于提高对具有复杂背景的待处理图像中文字倾斜角度的检测的准确性。

基于第一方面，在一种可能的实现方式中，根据待处理图像中像素的灰度信息，从待处理图像中获取至少一个稳定区域，包括：获取预设的多个灰度阈值；针对每个灰度阈值，根据灰度阈值以及待处理图像中像素的灰度信息，获取待处理图像的二值图；确定二值图中的连通区域为灰度阈值对应的备选稳定区域；根据多个灰度阈值分别对应的备选稳定区域之间的嵌套关系，以及每个备选稳定区域的区域面积，从多个灰度阈值分别对应的备选稳定区域中确定至少一个稳定区域。

基于第一方面，在一种可能的实现方式中，根据预设的文字笔画特征，从至少一个稳定区域中确定至少一个满足文字笔画特征的备选文字区域，包括：针对第一稳定区域，通过笔画宽度变换SWT检测获取第一稳定区域中的多个边缘像素、多个边缘像素中边缘像素对的笔画宽度，以及根据多个边缘像素中边缘像素对的笔画宽度所确定的至少一个备选文字区域；其中，第一稳定区域为至少一个稳定区域中的任一稳定区域。

基于第一方面，在一种可能的实现方式中，获取至少一个备选文字区域的直线特征之前，还包括：若第一备选文字区域中边缘像素对的宽度值的平均差值大于预设的第四阈值，和/或，第一备选文字区域的宽度与高度比值超过预设的第二比值范围，和/或，第一备选文字区域中包括多个其它备选文字区域，和/或，第一备选文字区域的面积大于预设的第五阈值，和/或，第一备选文字区域的面积小于预设的第六阈值，则从至少一个备选文字区域中删除第一备选文字区域；其中，第一备选文字区域为至少一个备选文字区域中的任一备选文字区域。

基于第一方面，在一种可能的实现方式中，获取至少一个备选文字区域的直线特征，包括：确定至少一个备选文字区域构成的至少一个文字行；通过霍夫直线检测，从至少一个文字行中获取至少一个备选文字区域的直线特征。

基于第一方面，在一种可能的实现方式中，确定至少一个备选文字区域构成的至少一个文字行，包括：若第一备选文字区域与第二备选文字区域之间的距离不大于预设的第二阈值，和/或，第一备选文字区域的高度，与第二备选文字区域的高度之间的比值属于预设的第一比值范围，和/或，第一备选文字区域的宽度，与第二备选文字区域的宽度之间的比值属于预设的第一比值范围，和/或，第一备选文字区域中边缘像素对的平均宽度值，与第二备选文字区域中边缘像素对的平均宽度值不大于预设的第三阈值，和/或，第一备选文字区域中像素的三原色通道的灰度值，与第二备选文字区域中像素的三原色通道的灰度值不大于预设的第四阈值，则确定第一备选文字区域和第二备选文字区域属于同一文字行；其中，第一备选文字区域为至少一个备选文字区域中的任一备选文字区域；第二备选文字区域为至少一个备选文字区域中，除第一备选文字区域之外的任一备选文字区域。

基于第一方面，在一种可能的实现方式中，若从多个文字行中获取多个直线特征，则根据直线特征确定文字倾斜角度，包括：对多个直线特征进行聚类处理，获取至少一个聚类角度；根据至少一个聚类角度分别获取对应的备选文字区域的倾斜角度；其中，与聚类角度对应的备选文字区域为用于聚类处理，获取聚类角度的备选文字区域。

第二方面，本申请实施例提供一种文字倾斜角度检测装置，包括：稳定区域检测模块、笔画特征模块和直线特征模块；其中：

稳定区域检测模块，用于根据待处理图像中像素的灰度信息，从待处理图像中获取至少一个稳定区域；稳定区域中像素之间的灰度差值不大于预设的第一门限的连通区域，且稳定区域的相邻像素与稳定区域中的任一像素之间的灰度差值不小于预设的第二门限；笔画特征模块，用于根据预设的文字笔画特征，从至少一个稳定区域中确定至少一个满足文字笔画特征的备选文字区域；直线特征模块，用于获取至少一个备选文字区域的直线特征，并根据直线特征确定文字倾斜角度。

基于第二方面，在一种可能的实现方式中，稳定区域检测模块具体用于：获取预设的多个灰度阈值；针对每个灰度阈值，根据灰度阈值以及待处理图像中像素的灰度信息，获取待处理图像的二值图；确定二值图中的连通区域为灰度阈值对应的备选稳定区域；根据多个灰度阈值分别对应的备选稳定区域之间的嵌套关系，以及每个备选稳定区域的区域面积，从多个灰度阈值分别对应的备选稳定区域中确定至少一个稳定区域。

基于第二方面，在一种可能的实现方式中，笔画特征模块具体用于：针对第一稳定区域，通过笔画宽度变换SWT检测获取第一稳定区域中的多个边缘像素、多个边缘像素中边缘像素对的笔画宽度，以及根据多个边缘像素中边缘像素对的笔画宽度所确定的至少一个备选文字区域；第一稳定区域为至少一个稳定区域中的任一稳定区域。

基于第二方面，在一种可能的实现方式中，笔画特征模块还用于：若第一备选文字区域中边缘像素对的宽度值的平均差值大于预设的第四阈值，和/或，第一备选文字区域的宽度与高度比值超过预设的第二比值范围，和/或，第一备选文字区域中包括多个其它备选文字区域，和/或，第一备选文字区域的面积大于预设的第五阈值，和/或，第一备选文字区域的面积小于预设的第六阈值，则从至少一个备选文字区域中删除第一备选文字区域；第一备选文字区域为至少一个备选文字区域中的任一备选文字区域。

基于第二方面，在一种可能的实现方式中，直线特征模块具体用于：确定至少一个备选文字区域构成的至少一个文字行；通过霍夫直线检测，从至少一个文字行中获取至少一个备选文字区域的直线特征。

基于第二方面，在一种可能的实现方式中，直线特征模块具体用于：若第一备选文字区域与第二备选文字区域之间的距离不大于预设的第二阈值，和/或，第一备选文字区域的高度，与第二备选文字区域的高度之间的比值属于预设的第一比值范围，和/或，第一备选文字区域的宽度，与第二备选文字区域的宽度之间的比值属于预设的第一比值范围，和/或，第一备选文字区域中边缘像素对的平均宽度值，与第二备选文字区域中边缘像素对的平均宽度值不大于预设的第三阈值，和/或，第一备选文字区域中像素的三原色通道的灰度值，与第二备选文字区域中像素的三原色通道的灰度值不大于预设的第四阈值，则确定第一备选文字区域和第二备选文字区域属于同一文字行；其中，第一备选文字区域为至少一个备选文字区域中的任一备选文字区域；第二备选文字区域为至少一个备选文字区域中，除第一备选文字区域之外的任一备选文字区域。

基于第二方面，在一种可能的实现方式中，若从多个文字行中获取多个直线特征，则直线特征模块具体用于：对多个直线特征进行聚类处理，获取至少一个聚类角度；根据至少一个聚类角度分别获取对应的备选文字区域的倾斜角度；其中，与聚类角度对应的备选文字区域为用于聚类处理，获取聚类角度的备选文字区域。

第三方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行如第一方面中任一项所提供的方法。

第四方面，本申请实施例提供一种计算设备，包括：存储器，用于存储程序指令；处理器，用于调用存储器中存储的程序指令，按照获得的程序执行如第一方面中任一项所提供的方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文字倾斜角度检测方法流程示意图；

图2为本申请实施例提供的一种SWT检测流程示意图；

图3为本申请实施例提供的一种边缘像素对宽度值示意图；

图4为本申请实施例提供的一种文字倾斜角度检测装置结构示意图；

图5为本发明实施例提供的一种计算设备结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本申请实施例提供的一种文字倾斜角度检测方法流程示意图，如图1所示，主要包括以下步骤：

S101：根据待处理图像中像素的灰度信息，从待处理图像中获取至少一个稳定区域。

在本申请实施例中，所获取的稳定区域为连通区域，而且稳定区域中任意两个像素之间的灰度差值不大于预设的第一门限，即稳定区域内部的像素具有较为稳定的灰度。此外，稳定区域的相邻像素与稳定区域中的任一像素之间的灰度差值不小于预设的第二门限，即稳定区域与该稳定区域的相邻区域之间具有明显的灰度分界。

通常，待处理图像中构成一个文字的多个像素一般具有相同或相近的灰度信息，且文字具有闭合的完整边界，而待处理图像中背景较为复杂的情况下，先从待处理图像中获取稳定区域，可以一定程度上去除背景中灰度波动较大的部分区域的干扰。在一种可能的实现方式中，若待处理图像为彩色图像，则可以先将待处理图像转换为灰度图像之后，再从待处理图像中获取至少一个稳定区域。

S102：根据预设的文字笔画特征，从至少一个稳定区域中确定至少一个满足文字笔画特征的备选文字区域。

基于S101所获取的稳定区域，可以进一步根据文字笔画特征从中确定备选文字区域。例如，文字一般具有连贯、宽度变化较小等特点，根据这些特征便可以从稳定区域中进一步确定备选文字区域。

S103：获取至少一个备选文字区域的直线特征，并根据直线特征确定文字倾斜角度。

在本申请实施例中，至少一个备选文字区的直线特征可以是备选文字区域中的直线特征，也可以是至少一个备选文字区所共同构成的直线特征，如至少一个备选文字区排列形成的行或列所对应的直线特征。基于至少一个备选文字区的直线特征确定文字倾斜角度，可以充分适应各种倾斜角度的文字。

采用图1所示的方法，通过从待处理图像中获取稳定区域，排除了待处理图像中部分复杂背景的影响，减少了获取备选文字区域过程中的计算量，并且提高了所获取的备选文字区域的准确性。之后，根据预设的文字笔画特征从所获取的稳定区域中进一步获取至少一个备选文字区域，并进一步根据至少一个备选文字区域的直线特征确定文字倾斜角度，有利于提高对具有复杂背景的待处理图像中文字倾斜角度的检测。

在S101的一种可能的实现方式中，可以通过改进的最大极值稳定区域(maximallystable extremal regions，MSER)检测获取上述至少一个稳定区域。具体的，获取预设的多个灰度阈值；针对每个灰度阈值，根据灰度阈值以及待处理图像中像素的灰度信息，获取待处理图像的二值图；确定二值图中的连通区域为灰度阈值对应的备选稳定区域；根据多个灰度阈值分别对应的备选稳定区域之间的嵌套关系，以及每个备选稳定区域的区域面积，从多个灰度阈值分别对应的备选稳定区域中确定至少一个稳定区域。

从文字检测按照其发展历程来说，主要可以分为：滑动窗口分类方法、连通分量分析方法(connected component analysis，CCA)和基于深度学习的方法。其中CCA方法可以视作一种图形算法，它的出发点是根据文字图像本身在颜色或笔划粗细上具有极强的一致性，而且存在很多的连接关系。连通分量(connected component)是通过启发式算法根据特征一致性(例如颜色相似性或者空间分布相似性)确定的独立子区域，它与滑动窗口分类方法的最大区别就是：CCA方法一般是通过特定算法将整幅图像分解成备选区域，而不像滑动窗口机械地截取固定大小形状的规整区域。早期的连通分量还是通过二值化、边缘检测、颜色聚类等方法初步提取出来，再通过这些特征分布的大小、宽高比、密集程度等几何分析去构造启发式规则，将不符合规则的区域层层剔除，剩下的连通分量再通过一定的规则组成最终的文字区域。在不断的研究过程中，出现的两种方法因其独特新颖的思路与优秀出色的效果被视为经典，它们就是MSER检测和笔画宽度变换(stroke width transform，SWT)检测。

在本申请实施例中，可以通过改进的MSER检测获取多个备选稳定区域，以及每个备选稳定区域的稳定度。MSER检测通常用于确定最大极值稳定区域，该区域是一种鲁棒的局部仿射不变区域，简单来说是使用逐渐递增或递减的阈值对灰度图像进行二值化过程中得到的变化最小的区域。

MSER检测的基本原理是对一幅灰度图像(灰度值为0～255)将其亮度作为高度看作一张3D地形图进行二值化处理，灰度阈值从0到255依次递增(或递减)。灰度阈值的递增过程类似分水岭算法中不断往里灌水的过程，如果从天空往下看，则地形图分为陆地和水域两个部分，随着水平面的上升，盆地和有一些较矮的山峰会被水逐渐淹没。在这过程中，二值化后的二值图中区域面积变化最小的区域便被称为最大极值稳定区域。

在本申请实施例中，从0～255中确定多个灰度值作为灰度阈值，通过与MSER检测类似的过程获取多个备选稳定区域以及每个备选稳定区域对应的稳定度。由于备选稳定区域可以是根据不同的灰度阈值获取的，因此每个备选稳定区域很可能是好几个二值化后二值图的一个连通区域，即多个备选稳定区域构成一系列的嵌套区域。

在具体实施中，为了简化计算过程，可以先将图像中的所有像素根据其灰度值进行排序，然后将排序后的像素依次按照在图中的位置搜索邻域像素生成备选稳定区域，用并查集构造备选稳定区域成分树来组织嵌套的备选稳定区域之间的层级关系。最后根据树结构中各备选稳定区域之间区域面积的变化率确定各备选稳定区域的稳定度，并进一步根据多个备选稳定区域的稳定度确定至少一个稳定区域。

在一种可能的实现方式中，根据预设的第一阈值从多个备选稳定区域中确定稳定度满足第一阈值的备选稳定区域为稳定区域。

在另一种可能的实现方式中，还可以根据任一备选稳定区域、该备选稳定区域的父节点以及该备选稳定区域的父节点的父节点的稳定度确定该备选稳定区域是否为稳定区域。例如，备选稳定区域a在树结构中的父节点为备选稳定区域b，备选稳定区域b在树结构中的父节点为备选稳定区域c，则若备选稳定区域a的稳定度满足第一阈值，且备选稳定区域b的稳定度满足第一阈值，且备选稳定区域c的稳定度满足第一阈值，则可以确定备选稳定区域a为稳定区域。

在S102的一种可能的实现方式中，根据预设的文字笔画特征，从至少一个稳定区域中确定至少一个满足文字笔画特征的备选文字区域，包括：针对第一稳定区域，通过SWT检测获取第一稳定区域中的多个边缘像素、多个边缘像素中边缘像素对的笔画宽度，以及根据多个边缘像素中边缘像素对的笔画宽度所确定的至少一个备选文字区域，其中，第一稳定区域为至少一个稳定区域中的任一稳定区域。

在文字检测中采用的特征很大一部分是通用的图像特征，很少有针对文字特性专门设计的特征。文字是由不同走向笔画组成的，而笔画一般具有统一的宽度，即使有粗细变化，那也是在一定的波动范围内不会相差太远。这些是文字独有的特征，通过这些特征可以排除掉相当大一部分的干扰。

图2为本申请实施例提供的一种SWT检测流程示意图。如图2所示，主要包括以下步骤：

S201：对上述至少一个稳定区域进行边缘检测。

在一种可能的实现方式中，可以先根据上一步骤检测出的至少一个稳定区域获取待处理图像的二值图像作为掩码图，再对叠加了掩码图的原始的待处理图像进行边缘检测，即排除掉待处理图像中非稳定区域的区域，只对稳定区域进行边缘检测。与直接对待处理图像的原图进行边缘检测相比，大量的非文字区域边缘信息可以被滤除，大大提高了计算效率。

S202：确定边缘像素对的宽度值。

经过S201中的边缘检测，可以获得上述至少一个稳定区域中图像的边缘图，该边缘图包括多个边缘像素。

之后，分别计算多个边缘像素对的宽度值。图3为本申请实施例提供的一种边缘像素对宽度值示意图，其中，一个小方格代表一个像素，黑色像素为边缘像素。如图3所示，像素p为多个边缘像素中的任一边缘像素，沿着像素p的梯度方向(图3中箭头所示方向)至对侧边缘像素，即像素q，之间经过的像素数量即为像素p和像素q所构成的像素对的宽度值w。若像素q为某一笔画边缘上的边缘像素，则像素q的梯度方向应该是与该笔画方向近乎垂直的，即一定会在沿梯度方向上找到与之对应的另一边界像素q。

在一种可能的实现方式中，还可以对比像素p与像素q的梯度方向的角度值，若像素q的梯度方向的角度值d_q与像素p的梯度方向的角度值d_p近似满足公式一：

则认为像素q与像素p构成像素对[p，q]，同时将路径上包括的像素数作为像素对[p，q]的宽度值w。如果没有找到与像素p对应的像素q，或者d_q与d_p不满足公式一，则可以认为像素q并未文字的边界像素，进而可以将像素q删除。

S203：根据多个边缘像素中边缘像素对的宽度值形成至少一个备选文字区域。

通常，SWT检测会生成多个备选文字区域，为了提高所确定的备选文字区域的准确性以及提高后续处理效率，在一种可能的实现方式中，如图2所示，还包括S204：对备选文字区域进行过滤。

在一种可能的实现方式中，可以通过以下条件对备选文字区域进行过滤：若第一备选文字区域中边缘像素对的宽度值的平均差值大于预设的第四阈值，和/或，第一备选文字区域的宽度与高度比值超过预设的第二比值范围，和/或，第一备选文字区域中包括多个其它备选文字区域，和/或，第一备选文字区域的面积大于预设的第五阈值，和/或，第一备选文字区域的面积小于预设的第六阈值，则从至少一个备选文字区域中删除第一备选文字区域；第一备选文字区域为至少一个备选文字区域中的任一备选文字区域。

以备选文字区域a为例进行说明。当备选文字区域a中各边缘像素对的宽度值之间的平均差值大于预设的第四阈值时，说明备选文字区域a可能是两个文字之间的非文字区域，因此将备选文字区域a排除。

当备选文字区域a的宽度与高度比值超过预设的第二比值范围时，说明备选文字区域a的宽高比与常见文字不同。通常，汉字的宽高比多在0.1到10之间，因此可以将第二比值范围设置为[0.1,10]。

当备选文字区域a中还包括其它备选文字区域，如备选文字区域b和备选文字区域c时，说明备选文字区域a可能是围绕备选文字区域b和备选文字区域c的边框，并不是真正的文字区域，因此可以将备选文字区域a排除。

当备选文字区域a的面积大于预设的第五阈值时，说明备选文字区域a的面积超过了常规文字所占的面积，因此可以将备选文字区域a排除。同样的，当备选文字区域a的面积小于预设的第六阈值时，也可以将备选文字区域a排除。其中，第五阈值和第六阈值可以根据实际应用场景设置。

综合上述全部或部分判断条件，便可以从多个备选文字区域中删除部分非文字区域，有利于精简后续处理过程，并提高最终所获得的文字倾斜角度的准确性。

在一种可能的实现方式中，本申请实施例还提供一种S103的具体实现方式，包括：确定至少一个备选文字区域构成的至少一个文字行；通过霍夫直线检测，从至少一个文字行中获取上述至少一个备选文字区域的直线特征。

在具体实现过程中，针对多个备选文字区域的情况，可以根据以下方式判断两个相邻的备选文字区域是否属于同一文字行：

若第一备选文字区域与第二备选文字区域之间的距离不大于预设的第二阈值，和/或，第一备选文字区域的高度，与第二备选文字区域的高度之间的比值属于预设的第一比值范围，和/或，第一备选文字区域的宽度，与第二备选文字区域的宽度之间的比值属于预设的第一比值范围，和/或，第一备选文字区域中边缘像素对的平均宽度值，与第二备选文字区域中边缘像素对的平均宽度值不大于预设的第三阈值，和/或，第一备选文字区域中像素的三原色通道的灰度值，与第二备选文字区域中像素的三原色通道的灰度值不大于预设的第四阈值，则确定第一备选文字区域和第二备选文字区域属于同一文字行；其中，第一备选文字区域为至少一个备选文字区域中的任一备选文字区域；第二备选文字区域为至少一个备选文字区域中，除第一备选文字区域之外的任一备选文字区域。

以备选文字区域a和备选文字区域b为例，通常属于同一文字行的备选文字区域之间的距离较小，因此当备选文字区域a和备选文字区域b之间的距离不大于预设的第二阈值时，说明备选文字区域a和备选文字区域b之间距离较近，有可能属于同一文字行。

通常，属于同一文字行的文字区域应具有相似的高度。因此，当备选文字区域a与备选文字区域b的高度之间的比值(或差值)属于预设的第一比值范围时，说明备选文字区域a和备选文字区域b之间具有相似的高度，有可能属于同一文字行。

通常，属于同一文字行中的文字区域应具有相近的笔画宽度。因此，当备选文字区域a中边缘像素对的平均宽度值，与备选文字区域b中边缘像素对的平均宽度值不大于预设的第三阈值时，说明备选文字区域a和备选文字区域b之间具有相似的笔画宽度，有可能属于同一文字行。

通常，属于同一文字行中的文字区域应具有相近的灰度值。因此，当备选文字区域a中像素的三原色通道的灰度值，与备选文字区域b中像素的三原色通道的灰度值不大于预设的第四阈值时，说明备选文字区域a和备选文字区域b之间具有相似的灰度值，有可能属于同一文字行。当然，也可以直接比对备选文字区域a和备选文字区域b的平均灰度值，本申请实施例对此不再赘述。

采用上述全部或部分条件依次判断多个备选文字区域，最终获取至少一个文字行。

在获取了至少一个文字行后，便可以通过霍夫直线检测得到文字行潜在的直线段，即构成至少一个文字行的多个备选文字区域的直线特征。

霍夫直线检测一般步骤为：

步骤一：随机抽取图像中的一个边缘像素，如果该边缘像素已经被标定为是某一条直线上的像素，则继续在剩下的边缘像素中随机抽取一个边缘点，直到所有边缘像素都抽取完了为止或抽取到尚未被标定的边缘像素；

步骤二：对边缘像素进行霍夫变换，并进行累加和计算，获取边缘像素在霍夫空间内的值；

步骤三：选取在霍夫空间内的值最大的边缘像素，如果该边缘像素在霍夫空间内的值大于设定的阈值，则执行步骤四，否则返回步骤一；

步骤四：根据霍夫变换得到的最大值，从该边缘像素出发，沿着直线的方向位移，从而找到直线的两个端点；

步骤五：计算直线的长度，如果大于某个阈值，则输出该直线，并返回到步骤一。

通过上述方法，便可以获取多个备选文字区域的至少一个直线特征。在获取了多个直线特征的情况下，还可以对所获取的多个直线特征进行聚类处理，获取至少一个聚类角度；之后，再根据所获取的至少一个聚类角度分别获取对应的所述备选文字区域的倾斜角度；其中，与聚类角度对应的备选文字区域为用于聚类处理，获取该聚类角度的备选文字区域。

在本申请实施例中，可以采用K均值(K-means)聚类，均值漂移(Mean shift)聚类等聚类方式对直线特征进行聚类。采用K-means聚类的运算速度快，计算简便。采用Meanshift算法，不需要预知聚类结果中类或组的数量，当图片中有多个不同倾斜角度的备选文字区域时，通过该算法可以得到每个备选文字区域各自的倾斜角度。

在获取备选文字区域各自的倾斜角度之后，便可以利用该倾斜角度纠正备选文字区域。在一种可能的实现方式中，可以纠正S204中获取的经过过滤的备选文字区域，以精简操作。

基于相同的技术构思，本申请实施例还提供一种文字倾斜角度检测装置，该装置可以实现上述任一实施例所提供的文字倾斜角度。图4为本申请实施例提供的一种文字倾斜角度检测装置结构示意图，如图4所示，文字倾斜角度检测装置400包括：

稳定区域检测模块401，用于根据待处理图像的灰度信息，从待处理图像中获取至少一个稳定区域；稳定区域中像素之间的灰度差值不大于预设的第一门限的连通区域，且稳定区域的相邻像素与稳定区域中的任一像素之间的灰度差值不小于预设的第二门限。

笔画特征模块402，用于根据预设的文字笔画特征，从至少一个稳定区域中确定至少一个满足文字笔画特征的备选文字区域。

直线特征模块403，用于获取至少一个备选文字区域的直线特征，并根据直线特征确定文字倾斜角度。

在一种可能的实现方式中，稳定区域检测模块401具体用于：

获取预设的多个灰度阈值；针对每个灰度阈值，根据灰度阈值以及待处理图像中像素的灰度信息，获取待处理图像的二值图；确定二值图中的连通区域为灰度阈值对应的备选稳定区域；根据多个灰度阈值分别对应的备选稳定区域之间的嵌套关系，以及每个备选稳定区域的区域面积，从多个灰度阈值分别对应的备选稳定区域中确定至少一个稳定区域。

在一种可能的实现方式中，笔画特征模块402具体用于：

针对第一稳定区域，通过笔画宽度变换SWT检测获取第一稳定区域中的多个边缘像素、多个边缘像素中边缘像素对的笔画宽度，以及根据多个边缘像素中边缘像素对的笔画宽度所确定的至少一个备选文字区域；第一稳定区域为至少一个稳定区域中的任一稳定区域。

在一种可能的实现方式中，笔画特征模块402还用于：

若第一备选文字区域中边缘像素对的宽度值的平均差值大于预设的第四阈值，和/或，第一备选文字区域的宽度与高度比值超过预设的第二比值范围，和/或，第一备选文字区域中包括多个其它备选文字区域，和/或，第一备选文字区域的面积大于预设的第五阈值，和/或，第一备选文字区域的面积小于预设的第六阈值，则从至少一个备选文字区域中删除第一备选文字区域；第一备选文字区域为至少一个备选文字区域中的任一备选文字区域。

在一种可能的实现方式中，直线特征模块403具体用于：

确定至少一个备选文字区域构成的至少一个文字行；

通过霍夫直线检测，从至少一个文字行中获取至少一个备选文字区域的直线特征。

在一种可能的实现方式中，直线特征模块403具体用于：

在一种可能的实现方式中，若从多个文字行中获取多个直线特征，则直线特征模块403具体用于：

对多个直线特征进行聚类处理，获取至少一个聚类角度；

根据至少一个聚类角度分别获取对应的备选文字区域的倾斜角度；其中，与聚类角度对应的备选文字区域为用于聚类处理，获取聚类角度的备选文字区域。

基于相同的技术构思，本发明实施例还提供一种计算设备，该计算设备用于执行配置数据确认，图5为本发明实施例提供的一种计算设备结构示意图。图5中计算设备包括处理器500，用于读取存储器520中的程序，执行上述任一实施例提供的文字倾斜角度检测方法。

在图5中，总线接口可以包括任意数量的互联的总线和桥，具体由处理器500代表的一个或多个处理器和存储器520代表的存储器的各种电路链接在一起。总线接口还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。收发器510可以是多个元件，即包括发送器和接收器，提供用于在传输介质上与各种其他装置通信的单元。

处理器500负责管理总线接口和通常的处理，存储器520可以存储处理器500在执行操作时所使用的数据。

可选的，处理器500可以是CPU(中央处埋器)、ASIC(Application SpecificIntegrated Circuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或CPLD(Complex Programmable Logic Device，复杂可编程逻辑器件)。

基于相同的技术构思，本发明实施例还提供一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算设备执行上述任一实施方式中的文字倾斜角度检测方法。

所述非易失性计算机可读存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种文字倾斜角度检测方法，其特征在于，包括：

根据待处理图像中像素的灰度信息，从所述待处理图像中获取至少一个稳定区域；所述稳定区域中像素之间的灰度差值不大于预设的第一门限的连通区域，且所述稳定区域的相邻像素与所述稳定区域中的任一像素之间的灰度差值不小于预设的第二门限；

根据预设的文字笔画特征，从所述至少一个稳定区域中确定至少一个满足所述文字笔画特征的备选文字区域；

获取所述至少一个备选文字区域的直线特征，并根据所述直线特征确定所述文字倾斜角度。

2.如权利要求1所述的方法，其特征在于，根据所述待处理图像中像素的灰度信息，从所述待处理图像中获取至少一个稳定区域，包括：

获取预设的多个灰度阈值；

针对每个灰度阈值，根据所述灰度阈值以及所述待处理图像中像素的灰度信息，获取所述待处理图像的二值图；确定所述二值图中的连通区域为所述灰度阈值对应的备选稳定区域；

根据所述多个灰度阈值分别对应的备选稳定区域之间的嵌套关系，以及每个备选稳定区域的区域面积，从所述多个灰度阈值分别对应的备选稳定区域中确定所述至少一个稳定区域。

3.如权利要求1所述的方法，其特征在于，根据预设的文字笔画特征，从所述至少一个稳定区域中确定至少一个满足所述文字笔画特征的备选文字区域，包括：

针对第一稳定区域，通过笔画宽度变换SWT检测获取所述第一稳定区域中的多个边缘像素、所述多个边缘像素中边缘像素对的笔画宽度，以及根据所述多个边缘像素中边缘像素对的笔画宽度所确定的所述至少一个备选文字区域；所述第一稳定区域为所述至少一个稳定区域中的任一稳定区域。

4.如权利要求3所述的方法，其特征在于，获取所述至少一个备选文字区域的直线特征之前，还包括：

若第一备选文字区域中边缘像素对的宽度值的平均差值大于预设的第四阈值，和/或，所述第一备选文字区域的宽度与高度比值超过预设的第二比值范围，和/或，所述第一备选文字区域中包括多个其它备选文字区域，和/或，所述第一备选文字区域的面积大于预设的第五阈值，和/或，所述第一备选文字区域的面积小于预设的第六阈值，则从所述至少一个备选文字区域中删除所述第一备选文字区域；所述第一备选文字区域为所述至少一个备选文字区域中的任一备选文字区域。

5.如权利要求1所述的方法，其特征在于，获取所述至少一个备选文字区域的直线特征，包括：

确定所述至少一个备选文字区域构成的至少一个文字行；

通过霍夫直线检测，从所述至少一个文字行中获取所述至少一个备选文字区域的直线特征。

6.如权利要求5所述的方法，其特征在于，确定所述至少一个备选文字区域构成的至少一个文字行，包括：

若第一备选文字区域与第二备选文字区域之间的距离不大于预设的第二阈值，和/或，所述第一备选文字区域的高度，与所述第二备选文字区域的高度之间的比值属于预设的第一比值范围，和/或，所述第一备选文字区域的宽度，与所述第二备选文字区域的宽度之间的比值属于预设的第一比值范围，和/或，所述第一备选文字区域中边缘像素对的平均宽度值，与所述第二备选文字区域中边缘像素对的平均宽度值不大于预设的第三阈值，和/或，所述第一备选文字区域中像素的三原色通道的灰度值，与所述第二备选文字区域中像素的三原色通道的灰度值不大于预设的第四阈值，则确定所述第一备选文字区域和所述第二备选文字区域属于同一文字行；其中，所述第一备选文字区域为所述至少一个备选文字区域中的任一备选文字区域；所述第二备选文字区域为所述至少一个备选文字区域中，除所述第一备选文字区域之外的任一备选文字区域。

7.如权利要求5所述的方法，其特征在于，若从多个文字行中获取多个直线特征，则根据所述直线特征确定所述文字倾斜角度，包括：

对所述多个直线特征进行聚类处理，获取至少一个聚类角度；

根据所述至少一个聚类角度分别获取对应的所述备选文字区域的倾斜角度；其中，与所述聚类角度对应的备选文字区域为用于聚类处理，获取所述聚类角度的备选文字区域。

8.一种文字倾斜角度检测装置，其特征在于，包括：

稳定区域检测模块，用于根据待处理图像中像素的灰度信息，从所述待处理图像中获取至少一个稳定区域；所述稳定区域中像素之间的灰度差值不大于预设的第一门限的连通区域，且所述稳定区域的相邻像素与所述稳定区域中的任一像素之间的灰度差值不小于预设的第二门限；

笔画特征模块，用于根据预设的文字笔画特征，从所述至少一个稳定区域中确定至少一个满足所述文字笔画特征的备选文字区域；

直线特征模块，用于获取所述至少一个备选文字区域的直线特征，并根据所述直线特征确定所述文字倾斜角度。

9.如权利要求8所述的装置，其特征在于，所述稳定区域检测模块具体用于：

获取预设的多个灰度阈值；

10.如权利要求8所述的装置，其特征在于，所述笔画特征模块具体用于：

11.如权利要求10所述的装置，其特征在于，所述笔画特征模块还用于：

12.如权利要求8所述的装置，其特征在于，所述直线特征模块具体用于：

确定所述至少一个备选文字区域构成的至少一个文字行；

13.如权利要求12所述的装置，其特征在于，所述直线特征模块具体用于：

14.如权利要求12所述的装置，其特征在于，若从多个文字行中获取多个直线特征，则所述直线特征模块具体用于：

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行如权利要求1至7中任一项所述的方法。

16.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行如权利要求1至7中任一项所述的方法。