CN111368842A

CN111368842A - 一种基于多层次最大稳定极值区域的自然场景文本检测方法

Info

Publication number: CN111368842A
Application number: CN202010132444.6A
Authority: CN
Inventors: 王彦; 张薇薇; 张承模; 张庆伟; 胡星; 周在邦; 韩胜国; 王勋; 田恩勇; 付龙明; 黄辉; 魏子欣
Original assignee: Guizhou Power Grid Co Ltd
Current assignee: Guizhou Power Grid Co Ltd
Priority date: 2020-02-29
Filing date: 2020-02-29
Publication date: 2020-07-03

Abstract

本发明提供一种基于多层次最大稳定极值区域的自然场景文本检测方法。所述方法包括：对待检测图像进行锐化处理；对所述锐化后图像进行候选文本区域的提取；对所述候选文本区域进行筛选，得到最终的文本区域。使用本方法可以有效提高传统MSER文本检测方法的文本召回率及检测准确率，且实时性较强。

Description

一种基于多层次最大稳定极值区域的自然场景文本检测方法

技术领域

本发明涉及自然场景下的文本检测技术领域，特别是，涉及一种基于多层次最大稳定极值区域的自然场景文本检测方法。

背景技术

目前，基于文本具有高度的概括性和抽象的描述能力，自然场景文本检测技术在智能交通系统、视障人导盲、基于内容的图像检索以及便携式视觉系统等方面具有重要的应用，随着互联网技术以及便携式移动设备的高速发展,越来越多的应用场景需要利用图像中的文本信息，目前自然场景文本检测已成为计算机视觉与模式识别、文档分析与识别领域的一个研究热点。

最大稳定极值区域(MSER)基于分水岭的概念，该方法取[0，255]范围的阈值对图像进行二值化处理，有些连通区域面积随阈值上升的变化很小，定义该类区域为最大稳定极值区域(MSER)，根据此原理来初步获取图像的文本区域，是一种综合性能比较好的传统自然场景文本检测方法，但存在着文本召回率较低，且夹杂大量非文本区域的问题，基于此，设计了一种基于多层次最大稳定极值区域(MSER)的自然场景文本检测方法，着重解决上述两个问题。

发明内容

本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。

因此，本发明要解决的技术问题在于克服现有技术中的文本召回率较低，且夹杂大量非文本区域的缺陷，从而提供一种基于多层次最大稳定极值区域的自然场景文本检测方法。

为解决上述技术问题，本发明提供如下技术方案：一种基于多层次最大稳定极值区域的自然场景文本检测方法，包括如下步骤：

对待检测图像进行锐化处理；

对锐化后图像进行候选文本区域的提取；

对候选文本区域进行筛选，得到最终的文本区域。

作为本发明所述一种基于多层次最大稳定极值区域的自然场景文本检测方法的一种优选方案，其中：对所述图像进行基于拉普拉斯变换的图像锐化，可以起到对图像的文本区域边界的增强效果，其拉普拉斯算子如下所示：

0 -1 0

-1 4 -1

0 -1 0

则得到锐化图像：

其中：g(x,y)为锐化后的图像；f(x,y)为输入图像,

作为本发明所述一种基于多层次最大稳定极值区域的自然场景文本检测方法的一种优选方案，其中：对所述锐化后的图像进行尺寸统一。

作为本发明所述一种基于多层次最大稳定极值区域的自然场景文本检测方法的一种优选方案，其中：对所述尺寸统一后图像(RGB图像)，进行颜色通道的分离，具体为将其转化为R、G、B、H、S、I、Gray七种单颜色通道图像，具体为：

R＝(r)

G＝(g)

B＝(b)

Gray＝r*0.299+g*0.587+b*0.114；

其中：r，g，b分别为原RGB图像的三通道像素值。

作为本发明所述一种基于多层次最大稳定极值区域的自然场景文本检测方法的一种优选方案，其中：：将所述七种单颜色通道图像，通过高斯卷积核构造尺度空间，获得不同尺度下的图像，高斯卷积核的求取公式为：

其中：H(i,j)为卷积核坐标；k为卷积核大小；σ为变量，通过调整σ为三种不同大小来改变高斯核的取值。

作为本发明所述一种基于多层次最大稳定极值区域的自然场景文本检测方法的一种优选方案，其中：将所述高斯卷积核与上述七种单颜色通道图像进行卷积操作，至此，对于原待测图像，共得到若干张不同尺度与不同颜色空间下的多层次图像。

作为本发明所述一种基于多层次最大稳定极值区域的自然场景文本检测方法的一种优选方案，其中：将所述多层次图像，根据最大稳定极值区域算法，分别进行候选文本区域的提取，并最后进行合并，具体如下：

MSER₍₁₎＝MSER_(R,1)∪MSER_(G,1)∪MSER_(B,1)∪MSER_(H,1)∪MSER_(S,1)∪MSER_(I,1)∪MSER_(Gray,1)

MSER₍₃₎＝MSER_(R,3)∪MSER_(G,3)∪MSER_(B,3)∪MSER_(H,3)∪MSER_(S,3)∪MSER_(I,3)∪MSER_(Gray,3)

MSER₍₅₎＝MSER_(R,5)∪MSER_(G,5)∪MSER_(B,5)∪MSER_(H,5)∪MSER_(S,5)∪MSER_(I,5)∪MSER_(Gray,5)

MSER_(mix)＝MSER₍₁₎∪MSER₍₃₎∪MSER₍₅₎

其中：MSER(,)表示不同颜色通道图像在不同尺度下根据最大稳定极值区域算法所求得的文本候选区域，MSER_(mix)所有的文本候选区域。

作为本发明所述一种基于多层次最大稳定极值区域的自然场景文本检测方法的一种优选方案，其中：所述候选文本区域进行筛选具体有如下步骤：

基于卷积神经网络设计一个文本区域的判别网络，用于从上述候选文本区域中筛选出文本区域，网络结构采用VGG-16模型，损失函数采用softmax函数，可将网络近似看成一个二分类器；

准备上述判别网络的训练数据，使用ICDAR2015竞赛数据集，其已完成了对图像内文本区域的标注，用矩形框裁剪出，作为训练集的正样本，再通过人工标注，随机生成多处非文本区域矩形框，作为负样本。将训练集样进行缩放，统一大小；

导入上述训练数据，开始网络训练，保存训练好的网络模型。该网络模型可以判断上述候选文本区域是否为文本区域；

将所述所有候选文本区域输入所述判别网络，得到最终的文本区域。

本发明的有益效果：

本发明提供一种基于多层次最大稳定极值区域的自然场景文本检测方法，本发明可以有效提高传统MSER文本检测方法的文本召回率及检测准确率，且实时性较强。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。其中：

图1为本发明实施例的基于多层次最大稳定极值区域(MSER)的自然场景文本检测方法的流程图；

图2为本发明实施例的对所述锐化后图像进行候选文本区域的提取的流程图；

图3为是本发明实施例的对所述候选文本区域进行筛选，得到最终的文本区域的流程图；

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

本实施例提供了一种基于多层次最大稳定极值区域的自然场景文本检测方法，如图1～3所示，一种基于多层次最大稳定极值区域(MSER)的自然场景文本检测方法，包括以下步骤：

S1：对待检测图像进行锐化处理；

S2：对所述锐化后图像进行候选文本区域的提取；

S3：对所述候选文本区域进行筛选，得到最终的文本区域。

在其中一个实施例中，对待检测图像进行锐化处理包括以下步骤：

S101：对所述图像进行基于拉普拉斯变换的图像锐化，可以起到图像的文本区域边界增强效果。其拉普拉斯算子如下所示：

0 -1 0

-1 4 -1

0 -1 0

则得到锐化图像：

其中，g(x,y)和f(x,y)分别代表锐化后的图像和输入像,

S102：对所述锐化后图像进行尺寸统一，裁剪为128*128大小。

如图2所示，在其中一个实施例中，对所述锐化后图像进行候选文本区域的提取包括以下步骤：

S201：对所述裁剪后图像(RGB图像)，进行颜色通道的分离，具体为将其转化为R,G,B,H,S,I,Gray七种单颜色通道图像分别为：

R＝(r)；

G＝(g)；

B＝(b)；

Gray＝r*0.299+g*0.587+b*0.114；；

其中.r，g，b分别为原RGB图像的三通道像素值。

S202：将上述所得的七种单颜色通道图像，通过高斯卷积核构造尺度空间，获得不同尺度下的图像，其中，高斯卷积核的求取公式为

其中：H(i,j)为卷积核坐标，k为卷积核大小，σ为变量，通过调整σ大小来改变高斯核的取值，分别取σ值为1,3,5，则得到三种不同的高斯卷积核。

S203：将上述所得高斯卷积核与上述七种单颜色通道图像进行卷积操作，至此，对于原1张待测图像，共得到7*3＝21张不同尺度与不同颜色空间下的多层次图像。

S204：对所述21张多层次图像，根据最大稳定极值区域(MSER)算法，分别进行候选文本区域的提取，并最后进行合并：

MSER_(mix)＝MSER₍₁₎∪MSER₍₃₎∪MSER₍₅₎

其中：MSER(,)表示不同颜色通道图像在不同尺度下根据MSER算法所求得的文本候选区域，MSER_(mix)为所有的文本候选区域。

如图3所示，在其中一个实施例中，对所述候选文本区域进行筛选，得到最终的文本区域包括以下步骤：

S301：基于卷积神经网络(CNN)设计一个文本区域的判别网络，用于从上述候选文本区域中筛选出文本区域。网络结构采用VGG-16模型(是通过反复堆叠3*3的小型卷积核和2*2的最大池化层而构建的16层深的卷积神经网络，是目前最为流行的卷积神经网络模型)，损失函数采用softmax函数，其作用是将候选文本区域是文本区域和非文本区域的概率映射到0-1之间，且相加和为1。以此，可将网络近似看成一个二分类器。

S302：准备上述判别网络的训练数据。使用国际文档分析与识别竞赛所提供的ICDAR2015数据集，其包含1000张随机拍摄的自然图像，且已完成了对图像内文本区域的标注，用矩形框将其文本区域裁剪出，作为训练集的正样本，再通过人工标注，随机生成多处非文本区域矩形框，作为负样本。将训练集样进行缩放，统一大小。S303：导入上述训练数据，开始网络训练，保存训练好的网络模型。该网络模型可以判断上述候选文本区域是否为文本区域。

S304：将所述所有候选文本区域输入所述判别网络，得到最终的文本区域。

采用数据库对应的竞赛评价准则来对本方法和传统MSER文本检测方法进行性能评价，所采用的评价指标分别为准确率P、召回率R、和F综合指标。准确率是指正确检测到的文本数与所有检测到的文本总数的比值，召回率是指正确检测到的文本数与真实文本总数的比值，而综合指标则是准确率和召回率之间的调和平均数，具体表达为

本方法与传统MSER文本检测方法的对比结果如下表所示：

由此结果可知，本专利方法的文本检测效果，明显优于传统MSER文本检测方法

重要的是，应注意，在多个不同示例性实施方案中示出的本申请的构造和布置仅是例示性的。尽管在此公开内容中仅详细描述了几个实施方案，但参阅此公开内容的人员应容易理解，在实质上不偏离该申请中所描述的主题的新颖教导和优点的前提下，许多改型是可能的(例如，各种元件的尺寸、尺度、结构、形状和比例、以及参数值(例如，温度、压力等)、安装布置、材料的使用、颜色、定向的变化等)。例如，示出为整体成形的元件可以由多个部分或元件构成，元件的位置可被倒置或以其它方式改变，并且分立元件的性质或数目或位置可被更改或改变。因此，所有这样的改型旨在被包含在本发明的范围内。可以根据替代的实施方案改变或重新排序任何过程或方法步骤的次序或顺序。在权利要求中，任何“装置加功能”的条款都旨在覆盖在本文中所描述的执行所述功能的结构，且不仅是结构等同而且还是等同结构。在不背离本发明的范围的前提下，可以在示例性实施方案的设计、运行状况和布置中做出其他替换、改型、改变和省略。因此，本发明不限制于特定的实施方案，而是扩展至仍落在所附的权利要求书的范围内的多种改型。

此外，为了提供示例性实施方案的简练描述，可以不描述实际实施方案的所有特征(即，与当前考虑的执行本发明的最佳模式不相关的那些特征，或于实现本发明不相关的那些特征)。

应理解的是，在任何实际实施方式的开发过程中，如在任何工程或设计项目中，可做出大量的具体实施方式决定。这样的开发努力可能是复杂的且耗时的，但对于那些得益于此公开内容的普通技术人员来说，不需要过多实验，所述开发努力将是一个设计、制造和生产的常规工作。

应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于多层次最大稳定极值区域的自然场景文本检测方法，其特征在于，包括以下步骤：

对待检测图像进行锐化处理；

对锐化后图像进行候选文本区域的提取；

对候选文本区域进行筛选，得到最终的文本区域。

2.根据权利要求1所述一种基于多层次最大稳定极值区域的自然场景文本检测方法，其特征在于：对所述图像进行基于拉普拉斯变换的图像锐化，可以起到对图像的文本区域边界的增强效果，其拉普拉斯算子如下所示：

则得到锐化图像：

其中：g(x,y)为锐化后的图像；f(x,y)为输入图像,

3.根据权利要求2所述一种基于多层次最大稳定极值区域的自然场景文本检测方法，其特征在于：对所述锐化后的图像进行尺寸统一。

4.根据权利要求1所述一种基于多层次最大稳定极值区域的自然场景文本检测方法，其特征在于：对所述尺寸统一后图像(RGB图像)，进行颜色通道的分离，具体为将其转化为R、G、B、H、S、I、Gray七种单颜色通道图像，具体为：

R＝(r)

G＝(g)

B＝(b)

Gray＝r*0.299+g*0.587+b*0.114；

其中：r，g，b分别为原RGB图像的三通道像素值。

5.根据权利要求4所述一种基于多层次最大稳定极值区域的自然场景文本检测方法，其特征在于：将所述七种单颜色通道图像，通过高斯卷积核构造尺度空间，获得不同尺度下的图像，高斯卷积核的求取公式为：

6.根据权利要求5所述一种基于多层次最大稳定极值区域的自然场景文本检测方法，其特征在于：将所述高斯卷积核与上述七种单颜色通道图像进行卷积操作，至此，对于原待测图像，共得到若干张不同尺度与不同颜色空间下的多层次图像。

7.根据权利要求6所述一种基于多层次最大稳定极值区域的自然场景文本检测方法，其特征在于：将所述多层次图像，根据最大稳定极值区域算法，分别进行候选文本区域的提取，并最后进行合并，具体如下：

MSER_(mix)＝MSER₍₁₎∪MSER₍₃₎∪MSER₍₅₎

8.根据权利要求1所述一种基于多层次最大稳定极值区域的自然场景文本检测方法，其特征在于：所述候选文本区域进行筛选具体有如下步骤：