CN105740774A

CN105740774A - 一种图像的文本区域定位方法及装置

Info

Publication number: CN105740774A
Application number: CN201610047701.XA
Authority: CN
Inventors: 马骁; 陈安猛; 王洪添; 郭运艳
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2016-01-25
Filing date: 2016-01-25
Publication date: 2016-07-06

Abstract

本发明提供了一种图像的文本区域定位方法和装置，图像为RGB图像，所述方法包括：将所述图像灰度化，获取图像的灰度图；将所述图像转化为HSV空间，获取所述图像的H通道图和S通道图；计算所述图像梯度，获取所述图像的梯度图；分别获取所述灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域；合并所述灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域，作为候选文本区域；使用神经网络判断所述候选文本区域是否为文本，删除非文本区域；根据所述删除非文本区域的候选文本区域的位置确定所述图像的文本区域。本发明能够根据图像的亮度信息和色彩信息定位图像的文本区域。

Description

一种图像的文本区域定位方法及装置

技术领域

本发明涉及图像处理技术领域，特别涉及一种图像的文本区域定位方法及装置。

背景技术

随着人们日常生活水平的提高，人们使用手机、数码相机等设备拍摄自然场景中的文字图像进行保存越来越普遍。自然场景中的文字识别OCR(OpticalCharacterRecognition，光学字符识别)已经成为人们日常生活中的一种需求。对于复杂自然场景，文本区域定位是OCR必不可少的前提环节。

现有的文本区域定位方法，大部分是基于灰度图像，通过获取RGB图像的灰度图进行文本区域的定位。

但是，灰度图只含亮度信息，和原RGB图像相比，灰度图所含信息量大大减少，很多文本信息无法检测出来。

发明内容

本发明实施例提供了一种图像的文本区域定位方法及装置，可以根据图像的亮度信息和色彩信息定位图像的文本区域。

第一方面，本发明实施例提出了一种图像的文本区域定位方法，所述图像为RGB图像，包括：

将所述图像灰度化，获取图像的灰度图；将所述图像转化为HSV空间，获取所述图像的H(色调)通道图和S(饱和度)通道图；计算所述图像梯度，获取所述图像的梯度图；

分别获取所述灰度图、H(色调)通道图、S(饱和度)通道图和梯度图的全部最大稳定极值区域；

合并所述灰度图、H(色调)通道图、S(饱和度)通道图和梯度图的全部最大稳定极值区域，作为候选文本区域；

使用神经网络判断所述候选文本区域是否为文本，删除非文本区域；

根据所述删除非文本区域的候选文本区域的位置确定所述图像的文本区域。

优选地，

所述将所述图像灰度化包括：

计算所述图像各像素点的灰度：

Gray＝R*0.299+G*0.587+B*0.114；

其中，Gray为灰度图中的灰度值，R为RGB图像中像素点的红色分量的值，G为RGB图像中像素点的绿色分量的值，B为RGB图像中像素点的蓝色分量的值。

优选地，

所述获取所述灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域包括：

使用一系列灰度阈值对所述灰度图、H通道图、S通道图和梯度图进行二值化处理；对于每个阈值得到的二值图像，得到相应的黑色区域与白色区域；获取在比较宽的灰度阈值范围内保持形状稳定的区域。

优选地，

在所述使用神经网络判断判断所述候选文本区域是否为文本之前，进一步包括：

建立文本区域和非文本区域分类神经网络模型。

第二方面，本发明实施例提出了一种图像的文本区域定位装置，包括：

图像转换模块，用于将所述图像灰度化，获取图像的灰度图；将所述图像转化为HSV空间，获取所述图像的H通道图和S通道图；计算所述图像梯度，获取所述图像的梯度图，将所述灰度图、H通道图、S通道图和梯度图输出给获取模块；

获取模块，用于分别获取所述灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域，将所述灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域输出给合并模块；

合并模块，用于合并所述灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域，作为候选文本区域，将所述候选文本区域输出给判断模块；

判断模块，用于使用神经网络判断所述候选文本区域是否为文本，删除非文本区域；

定位模块，用于根据所述删除非文本区域的候选文本区域的位置确定所述图像的文本区域。

优选地，

所述图像转换模块具体用于：

计算所述图像各像素点的灰度：

Gray＝R*0.299+G*0.587+B*0.114；

优选地，

所述获取模块具体用于：

优选地，

在所述判断模块之前，进一步包括：

建立模块，用于建立文本区域和非文本区域分类神经网络模型。

本发明实施例提出的图像的文本区域定位方法及装置，通过获取RGB图像的灰度图，H通道图、S通道图和梯度图，并获取RGB图像的灰度图，H通道图、S通道图和梯度图的最大稳定极值区域，从而可以根据RGB图像的亮度信息和色彩信息确定图像的文本区域，增加了定位到的文本区域范围。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的图像的文本区域定位方法的流程图；

图2是本发明另一个实施例提供的图像的文本区域定位方法的流程图；

图3是本发明一个实施例提供的图像的文本区域定位装置的结构图；

图4是本发明另一个实施例提供的图像的文本区域定位装置的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种图像的文本区域定位方法，所述图像为RGB图像，如图1所示，该方法可以包括以下步骤：

步骤101：将所述图像灰度化，获取图像的灰度图；将所述图像转化为HSV空间，获取所述图像的H(色调)通道图和S(饱和度)通道图；计算所述图像梯度，获取所述图像的梯度图；

步骤102：分别获取所述灰度图、H(色调)通道图、S(饱和度)通道图和梯度图的全部最大稳定极值区域；

步骤103：合并所述灰度图、H(色调)通道图、S(饱和度)通道图和梯度图的全部最大稳定极值区域，作为候选文本区域；

步骤104：使用神经网络判断所述候选文本区域是否为文本，删除非文本区域；

步骤105：根据所述删除非文本区域的候选文本区域的位置确定所述图像的文本区域。

可见，由于本发明实施例提出的图像的文本区域定位方法，通过获取RGB图像的灰度图，H通道图、S通道图和梯度图，并获取RGB图像的灰度图，H通道图、S通道图和梯度图的最大稳定极值区域，从而可以根据RGB图像的亮度信息和色彩信息确定图像的文本区域，增加了定位到的文本区域范围。

在本发明一个优选实施例中，为了获取灰度图，所述将所述图像灰度化包括：

计算所述图像各像素点的灰度：

Gray＝R*0.299+G*0.587+B*0.114；

其中，Gray为灰度图中的灰度值，R为RGB图像中像素点的红色分量的值，G为RGB图像中像素点的绿色分量的值，B为RGB图像中像素点的蓝色分量的值，从而可以根据RGB图像的像素点中各颜色分量的值确定灰度图中的灰度值，从而获取所述图像的灰度图。

在本发明一个优选实施例中，为了确定灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域，所述获取所述灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域包括：

使用一系列灰度阈值对所述灰度图、H通道图、S通道图和梯度图进行二值化处理；对于每个阈值得到的二值图像，得到相应的黑色区域与白色区域；获取在比较宽的灰度阈值范围内保持形状稳定的区域，从而可以通过灰度阈值确定灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域。

在本发明一个优选实施例中，为了能够判断候选文本区域是否为文本，在所述使用神经网络判断所述候选文本区域是否为文本之前，进一步包括：建立文本区域和非文本区域分类神经网络模型，从而可以根据建立的神经网络进行文本区域的判断。

为使本发明的目的、技术方案和优点更加清楚，下面结合附图及具体实施例对本发明作进一步地详细描述。

本发明实施例提供了一种图像的文本区域定位方法，所述图像为RGB图像，如图2所示，该方法可以包括以下步骤：

步骤201：将图像灰度化，获取图像的灰度图；将所述图像转化为HSV空间，获取所述图像的H(色调)通道图和S(饱和度)通道图；计算所述图像梯度，获取所述图像的梯度图。

具体地，灰度图是只含亮度信息，不含色彩信息，其亮度由暗到明，亮度变化是连续的，和原彩色图像相比，灰度图不含色彩信息，故灰度化之后的图像所含信息量大大减少，图像处理计算量也相应大幅减少，方便后续计算。可以通过计算图像各像素点的灰度获取图像的灰度图，其中，计算方法可以如下:

Gray＝R*0.299+G*0.587+B*0.114；

具体地，HSV(Hue,Saturation,Value)是根据颜色的直观特性创建的一种颜色空间,也称六角锥体模型(HexconeModel)。

这个模型中颜色的参数分别是：色调(H)，饱和度(S)，明度(V)。

HSV空间能够非常直观的表达色彩的明暗，色调，以及鲜艳程度，方便进行颜色之间的对比。将彩色图像从RGB空间变换到HSV空间，经过H分割对文本信息进行提取得到分割结果，增加了颜色信息，解决了灰度图中无色彩信息的问题。根据饱和度对亮度进行变换，可以解决灰度图下根据距离无法准确进行区域检测问题。空间转化后可以解决灰度图无法解决的光照不均问题。

详细地，RGB图像转化为HSV的算法为：

max＝max(R,G,B)；

min＝min(R,G,B)；

V＝max(R,G,B)/255；

S＝(max-min)/max；

if(R＝max)；H＝(G-B)/(max-min)*60；

if(G＝max)；H＝120+(B-R)/(max-min)*60；

if(B＝max)；H＝240+(R-G)/(max-min)*60；

if(H<0)；H＝H+360；

其中，R为RGB图像中像素点的红色分量的值，G为RGB图像中像素点的绿色分量的值，B为RGB图像中像素点的蓝色分量的值，H表示HSV中的色调，S表示HSV中的饱和度，V表示HSV中的明度。

步骤202：使用一系列灰度阈值对所述灰度图、H通道图、S通道图和梯度图进行二值化处理；对于每个阈值得到的二值图像，得到相应的黑色区域与白色区域；分别获取灰度图、H(色调)通道图、S(饱和度)通道图和梯度图的在比较宽的灰度阈值范围内保持形状稳定的全部区域，即最大稳定极值区域。

具体地，最大稳定极值区域(MSER)(MaximallyStableExtremalRegions)是一种用于在图像中进行斑点检测的方法，用于在两个不同视角的图片中寻找对应关系(correspondenceproblem)。这种方法从图像中提取全面的元素对应关系，有助于宽基线匹配(wide-baselinematching)，以及更好的立体匹配和物体识别算法。

其提取的区域内部灰度几乎不变但是和背景的对比十分强烈，并且该区域能够在多重阈值下保持形状不变。一般文本内部的灰度变化都比较小，而文本和背景的灰度对比度则比较大，符合最大极值稳定区域的特性，因此利用这一特性可以确定图像的文本区域。

步骤203：合并所述灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域，作为候选文本区域。

详细地，由于灰度图、H通道图、S通道图和梯度图所反映出的图像的信息不相同，灰度图反映了图像的亮度信息，H通道图和S通道图反应了图像的色彩信息，并根据空间转换解决灰度图无法解决的光照不均问题，同时，文本区域与背景之间是有对比变化的，通过梯度可以找到这种变化。因此，灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域不完全相同，合并灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域可以根据图像的亮度、色彩、饱和度等信息获取到更多的文本区域，从而使定位的文本区域更加完整。

同时，由于获取的灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域可能有部分不是文本区域，所以将获取的灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域作为候选文本区域。

步骤204：建立文本区域和非文本区域分类神经网络模型。

具体地，神经网络，是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力，特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。

神经网络具有学习能力，在建立预测模型的时候，建立一个学习过程，将预测结果与“训练数据”的实际结果进行比较，不断的调整预测模型，直到模型的预测结果达到一个预期的准确率。

通过建立文本区域和非文本区域分类神经网络模型，并不断的使用神经网络对文本区域和非文本区域的分类判断，设置网络层数与节点数来找到最适合判断文本区域和非文本区域的网络模式，更换一些函数进行调试，从而可以使神经网络模型实现对文本区域和非文本区域进行准确判断和分类。

步骤205：使用神经网络判断所述候选文本区域是否为文本，删除非文本区域。

详细地，由于获取的灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域可能有部分为图形区域，而非文本区域，所以需要对候选文本区域进行判断。例如，RGB图像中的类似文本的图形，比如一些标志，形状规则的图形，可能会被获取，作为候选文本区域。

通过文本区域和非文本区域分类神经网络，可以对候选文本区域进行判断，根据判断结果删除非文本区域，从而提高了文本区域的准确率。

步骤206：根据删除非文本区域的候选文本区域的位置确定所述图像的文本区域。

详细地，删除非文本区域的候选文本区域对应着根据灰度图、H通道图、S通道图和梯度图获取的最大稳定极值区域，灰度图、H通道图、S通道图和梯度图都是根据RGB图像所得，根据灰度图、H通道图、S通道图和梯度图获取的最大稳定极值区域的位置也对应RGB图像相同的位置，所以根据删除非文本区域的候选文本区域的位置确定所述图像的文本区域，即可完成RGB图像中文本区域的定位。

本发明实施例提供了一种图像的文本区域定位装置，如图3所示，该装置包括：

图像转换模块301，用于将所述图像灰度化，获取图像的灰度图；将所述图像转化为HSV空间，获取所述图像的H通道图和S通道图；计算所述图像梯度，获取所述图像的梯度图，将所述灰度图、H通道图、S通道图和梯度图输出给获取模块302；

获取模块302，用于分别获取所述灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域，将所述灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域输出给合并模块303；

合并模块303，用于合并所述灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域，作为候选文本区域，将所述候选文本区域输出给判断模块304；

判断模块304，用于使用神经网络判断所述候选文本区域是否为文本，删除非文本区域；

定位模块305，用于根据所述删除非文本区域的候选文本区域的位置确定所述图像的文本区域。

在本发明的一个优选实施例中，图像转换模块301具体用于：

计算所述图像各像素点的灰度：

Gray＝R*0.299+G*0.587+B*0.114；

在本发明的一个优选实施例中，获取模块302具体用于：

在本发明实施例中，为了能够判断候选文本区域是否为文本，如图4所示，本装置还包括：

建立模块401，用于建立文本区域和非文本区域分类神经网络模型。

综上所述，本发明实施例至少可以实现如下效果：

1、在本发明实施例中，通过获取RGB图像的灰度图，H通道图、S通道图和梯度图，并获取RGB图像的灰度图，H通道图、S通道图和梯度图的最大稳定极值区域，从而可以根据RGB图像的亮度信息和色彩信息确定图像的文本区域，增加了定位到的文本区域范围。

2、在本发明实施例中，通过计算RGB图像各像素点的灰度，从而可以得到RGB图像的灰度图，从而可以根据RGB图像的亮度信息确定图像的文本区域。

3、在本发明实施例中，通过将RGB图像转化到HSV空间，获取所述图像的H(色调)通道图和S(饱和度)通道图，从而增加了颜色信息，解决了灰度图中无色彩信息的问题。根据饱和度对亮度进行变换，可以解决灰度图下根据距离无法准确进行区域检测问题，空间转化后可以解决灰度图无法解决的光照不均问题，从而可以获取RGB图像更多的信息，增加了检测到的文本区域范围。

4、在本发明实施例中，通过建立文本区域和非文本区域分类神经网络模型，并根据神经网络判断非文本区域并删除非文本区域，从而在保证增加定位到文本区域的范围的同时，增加了定位到的文本区域的准确率。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个〃·····”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像的文本区域定位方法，其特征在于，所述图像为RGB图像，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述图像灰度化包括：

计算所述图像各像素点的灰度：

Gray＝R*0.299+G*0.587+B*0.114；

3.根据权利要求1所述的方法，其特征在于，所述获取所述灰度图、H通道图、S通道图和梯度图的全部最大稳定极值区域包括：

4.根据权利要求1-3任一所述的方法，其特征在于，在所述使用神经网络判断判断所述候选文本区域是否为文本之前，进一步包括：

建立文本区域和非文本区域分类神经网络模型。

5.一种图像的文本区域定位装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，所述图像转换模块具体用于：

计算所述图像各像素点的灰度：

Gray＝R*0.299+G*0.587+B*0.114；

7.根据权利要求5所述的装置，其特征在于，所述获取模块具体用于：

8.根据权利要求5-7任一所述的装置，其特征在于，在所述判断模块之前，进一步包括：