CN106384112A

CN106384112A - 基于多通道多尺度与级联过滤器的快速图像文本检测方法

Info

Publication number: CN106384112A
Application number: CN201610808517.2A
Authority: CN
Inventors: 田春娜; 夏勇; 高新波; 张相南
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2016-09-08
Filing date: 2016-09-08
Publication date: 2017-02-08

Abstract

本发明公开了一种基于多通道多尺度与级联过滤器的快速图像文本检测方法，主要解决现有技术查全率低和速度慢的问题。其过程是：1)在输入图像的不同通道和尺度下提取最大稳定极值区域作为字符候选区域；2)用由粗到细的级联过滤器去除字符候选区域中的背景区域，即先为字符候选区域的形态学特征设置阈值，进行第一级粗过滤；再为字符候选区域的笔画宽度和笔画宽度变异系数设置阈值，进行第二次级粗过滤，之后去除重叠的区域，利用卷积神经网络二分类器进行细过滤；3)根据级联过滤后的字符候选区域的几何和位置特征，用图模型将该区域聚合成字符串。本发明具有很高的查全率、较高的准确率和较快的速度，可用于各种干扰下的图像文本的检测。

Description

基于多通道多尺度与级联过滤器的快速图像文本检测方法

技术领域

本发明属于图像处理技术领域，特别涉及图像文本检测方法，可用车牌，路标等自然场景图像中的文本检测。

背景技术

随着计算机、手持移动拍照设备的高速发展和web 2.0技术的普及，包含文本的网络图像数量激增。通过从图像中提取文本信息，有助于加深图像理解，从海量数据中检索所需信息，有效节约时间和提升效率。传统的文档文本检测技术已趋成熟，但图像文本由于其复杂性，仍存在诸多挑战，比如，字体的多变性，背景的复杂性和其他干扰因素等。因此，有关图像中的文本检测逐渐成为图像处理领域的热点。

目前图像文本检测的方法主要分为以下两类：

第一类是基于滑动窗口检测。该方法使用子窗口多尺度在图像上滑动，然后通过一个预先训练的分类器判断子窗内是否含有文本信息。传统的分类器使用手工设计的特征。中国华中科技大学的Zhang等提出了一种基于对称性的文本行检测方法，该方法利用文本的对称特征和外观特征训练文本检测器。基于卷积神经网络的分类器能够自动提取高层和底层的特征，相比于传统的手工参数更加准确和有效。谷歌Deep Mind的Jaderberg等通过训练一个卷积神经网络CNN二分类器，多尺度滑动得到文本置信度图，从而定位文本。然而，基于滑动窗口的方法一般只能检测水平文本，并且对旋转和尺度很敏感。此外，这类方法要遍历所有的位置和尺度，故其速度一般很慢。

第二类是基于连通分量的方法。该方法成为自然场景中文本定位的主流方向。其实现方案是：首先计算图像中每个像素点的局部特征，然后使用连通分量分析把具有相似局部特征的像素点聚合成一个连通区域，连通区域通常是一个分割完整的字符。该方法主要分为两类：一类是微软公司的Epshteine针对一个字符具有相似的笔画宽度，提出的基于笔画宽度转换SWT的方法；另一类是捷克科技大学的Neumann针对一个字符具有相似的颜色信息，提出的在灰度，HSI,RGB和等8个通道下提取最大稳定极值区域MSER的方法。

上述已有的图像文本检测方法主要存在以下四个主要问题：

1)检测速度较慢。

2)对于大字符，点阵字体、半透明和非均匀光照等文本的检测性能较差。

3)字符串合成时容易产生断裂和丢失，且文本检测的查全率较低。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于多通道多尺度与级联过滤器的快速图像文本检测方法，以提高文本检测速度，加强对大字符，点阵字体和非均匀光照干扰文本的检测效果，提高单词合并的完整性和检测查全率。

为实现上述目的，本发明的技术方案包括如下：

A.分别在输入图像的不同通道和尺度下提取最大稳定极值区域，并将得到的最大稳定极值区域作为字符候选区域；

B.收集包含字符与背景两类样本的非平衡数据集，用该数据集对卷积神经网络进行训练，得到卷积神经网络二分类器；

C.采用由粗到细的级联过滤器去除字符候选区域中的背景区域，即先依据字符候选区域的形态学和笔画宽度特征进行粗过滤，再用卷积神经网络二分类器对粗过滤后的字符候选区域进行细过滤，得到级联过滤后的字符候选区域；

D.根据级联过滤后的字符候选区域的几何和位置特征，对该区域进行聚类；

D1)在级联过滤后的字符候选区域的左右方向上，将与其笔画宽度S、骨架灰度强度均值C和尺度H特征相似的级联过滤后的字符候选区域，归为邻近字符候选；

D2)利用图模型对邻近字符候选聚类，并去除没有邻近字符候选的级联过滤后的字符候选区域；

D3)用一个最小外接矩形将聚为一类的邻近字符候选框起，得到最终的文本检测框。

本发明与现有技术相比具有如下优点：

(1)本发明由于采用在输入图像的不同通道和尺度下提取字符候选区域，因而对于大字符、点阵字体、遮挡文本和透明文本有着很好的检测效果，相比现有技术有效提升了文本检测查全率。

(2)本发明由于采用由粗到细的级联过滤器滤除字符候选区域中的背景区域，相比于现有技术可有效去除误检，提高文本检测的准确性。

(3)本发明由于采用多种有效的几何特征和图模型用于单词合成，相比于现有技术可有效的避免字符串合成阶段产生的断裂，保证了合成的字符串的完整性。

(4)本发明结构简单明了，且采用相对于当前存在方法更大的Δ和更少的通道提取字符候选区域，有效的提高了本发明的速度。

附图说明

图1是本发明的实现流程图；

图2是本发明在不同通道下提取字符候选区域的示意图；

图3是本发明在不同尺度下提取字符候选区域的示意图；

图4是本发明在字符候选区域提取的骨架和笔画宽度示意图；

图5是本发明中使用的卷积神经网络二分类器示意图。

具体实施方式

参照图1，本发明的实现步骤如下：

步骤1：在输入图像的不同通道和尺度下，提取最大稳定极值区域作为字符候选区域。

1a)将输入图像I的长和宽均缩小至原来的0.125倍，得到缩小后的图像I₁；

1b)将输入图像I和缩小后的图像I₁从RGB颜色空间转换到YUV颜色空间，其中Y表示亮度分量，U是蓝色色度分量，V是红色色度分量；

1c)分别在输入图像I和缩小后图像I₁的RGBUV通道中，按如下公式提取最大稳定极值区域作为字符候选，

其中，Q_m表示灰度强度为m的区域，Δ是灰度强度变化量，本发明中将其设置为3，当q(m)为局部极小值时，则Q_m称为最大稳定极值区域。

图2为本实例在不同通道下提取的字符候选区域，其中图2(a)表示输入图像I，图2(b)表示在R通道提取的字符候选区域，图2(c)表示在G通道下提取的字符候选区域，图2(d)表示在B通道下提取的字符候选区域，图2(e)表示在通道U下提取的字符候选区域，图2(f)表示在V通道下提取的字符候选区域；

图3为本实例在不同尺度下提取的字符候选区域，其中图3(a)表示输入图像I，图3(b)表示在输入图像I的灰度通道下提取的字符候选区域，图3(c)表示缩小后的图像I₁在灰度通道提取的字符候选区域。

步骤2：为字符候选区域的形态学特征设定阈值，实现对字符候选区域中背景区域的第一级粗过滤。

2a)计算字符候选区域的长宽比，设置该长宽比的阈值为0.2～2.5；

2b)计算字符候选区域的最小凸多边形像素比，设置该最小凸多边形像素比的最小阈值的为0.25；

2c)计算字符候选区域的最小边界矩形的像素比，设置该最小边界矩形的像素比的阈值为0.15～0.85；

2d)计算字符候选区域的几何拓扑不变量——欧拉数，设置该欧拉数的最小阈值为-4；

2e)将上述特征值在阈值之外的字符候选区域滤除，完成第一级粗过滤。

步骤3：完成第二级粗过滤

3a)提取第一级粗过滤后字符候选区域的笔画特征，如图4。

3a1)提取第一级粗过滤后字符候选区域的二值图，并将其四周各扩充一个像素，得到扩充二值图，如图4(a)所示；

3a2)依次计算二值图中前景像素和与之最近的0像素的距离，得到距离图，如图4(b)所示；

3a3)根据距离图得到字符候选区域的骨架，如图4(c)所示；

3a4)依据字符候选区域的骨架，计算字符候选区域的笔画宽度S和笔画宽度变异系数V；

S = \frac{2}{n} Σ_{i = 1}^{n} x_{i},

V = \frac{\sqrt{\frac{1}{n} Σ_{i = 1}^{n} {(2 x_{i} - S)}^{2}}}{S},

其中i表示字符候选区域中骨架的第i个像素，n表示骨架像素的数目，x_i表示骨架像素i处笔画宽度值的一半，如图4(d)所示；

3b)将笔画宽度变异系数的阈值T₁设置为0.45，笔画宽度的阈值T₂设置为0.1×h，其中h为字符候选区域的高度；将V或S大于阈值T₁或T₂的第一级粗过滤后的字符候选区域滤除，完成第二级粗过滤；

步骤4：去除第二级粗过滤后字符候选区域中的重叠区域，完成粗过滤。

依次计算第二级粗过滤后字符候选区域之间的重叠率，若两者之间重叠率大于90％，则滤除最小凸多边形像素比最小的区域，完成粗过滤。

步骤5：设计非平衡数据集，对卷积神经网络二分类器进行训练。

5a)通过人工合成以及从自然场景图片中剪切，得到相同数量的字符与背景两类样本的数据集；

5b)利用自展法Bootstrap，迭代提取出B1)数据集中错误识别的背景样本，并将提取出的背景样本添加到B1)数据集中，最终得到一个字符与背景二分类的非平衡数据集，其中字符样本与背景样本的比例为1:2。

5c)将得到的非平衡数据集输入到卷积神经网络中进行训练，得到卷积神经网络二分类器，如图5所示。图5中的(a)为输入图，其大小为32×32，卷积核大小为5×5，(b)为第一次卷积后的图，其大小为28×28×20，卷积核大小为2×2，(c)为第一次池化后的图，其大小为14×14×20，卷积核大小为5×5，(d)为第二次卷积后的图，其大小为10×10×50，卷积核大小为2×2,(e)为第二次池化后的图，其大小为5×5×50，卷积核大小为5×5，(f)为全连接层，其大小为500×1，(g)为分类数目，其大小为2×1。

步骤6：利用卷积神经网络二分类器实现细过滤。

6a)将粗过滤后剩余的字符候选的四周均扩大0.1×h，得到扩大后的字符候选区域；

6b)将扩大后的字符候选区域的大小缩放到32×32；

6c)将缩放后的字符候选区域输入到卷积神经网络二分类器中，得到其属于字符或背景的分类结果；

6d)去除分类为背景的字符候选区域，得到级联过滤后的字符候选区域。

步骤7：字符串的合成。

7a)在级联过滤过滤器过滤后的字符候选区域的左右方向上，将与其笔画宽度S、骨架灰度强度均值C和尺度H相似的区域，归为邻近字符候选；

7b)利用图模型对邻近字符候选聚类，并去除没有邻近字符候选的级联过滤后的字符候选区域；

7c)用一个最小的矩形框将聚为一类的邻近字符框起，即为合成的字符串。

本发明的效果可通过以下实验进一步说明：

1.实验条件

本发明的实验在ICDAR2015的Challenge2——自然场景文本定位竞赛的官方网站上测得，该测试集一共包含233张自然场景文本图像，大小介于355×200与3888×2592之间，包含自然场景文本定位的各种干扰因素。

本发明的测试环境是Ubuntu下的MATLAB2015b，CNN模型的训练基于深度学习框架caffe。本发明依据DetEval规则，共三个评价标准，即查全率Recall，准确率Precision和综合评价F-score。

2.实验内容：

实验1：用本发明与当前Zhang的方法，在ICDAR2015测试集上进行运行速度的对比，如表1所示：

表1.本发明与当前Zhang的方法在运行速度上的对比

	运行时间(秒)	运行环境
			本发明	856.8	Core i7CPU,3.4GHZ,16GRAM
Zhang	1376.6	Core i7CPU,3.4GHZ,16GRAM

表中Zhang的方法是：提取文本的对称性特征，设计文本对称性检测器，并使用文本对称性检测器多尺度在图像上滑动，实现文本检测。

通过表1的对比可见，在相同运行环境下，本发明对检测速度有很大提升。

实验2：用本发明与当前Zhang的方法，在ICDAR2015测试集上进行测试效果的对比，如表2所示；

表2.本发明与Zhang的方法在测试集上结果的对比

方法	年度	Recall(％)	Precision(％)	F-score(％)
					本发明	2016	80.42	84.91	82.60
Zhang	2015	76.05	87.96	81.58

通过表2的对比可见，可发现本发明在Recall和F-score两项评价标准上取得了最好的结果，尤其是Recall，较Zhang的方法有了较大的提升。

Claims

1.一种基于多通道多尺度与级联过滤器的快速图像文本检测方法，包括如下：

C.采用由粗到细的级联过滤器去除字符候选区域中的背景区域，即先依据字符候选区域的形态学和笔画宽度S特征进行粗过滤，再用卷积神经网络二分类器对粗过滤后的字符候选区域进行细过滤，得到级联过滤后的字符候选区域；

2.根据权利要求1所述的方法，其特征在于所述步骤A中在输入图像的不同通道和尺度下提取最大稳定极值区域，按如下步骤进行：

A1)将输入图像I的长和宽均缩小至原来的0.125倍，得到缩小后的图像I₁；

A2)将输入图像I和缩小后的图像I₁从RGB颜色空间转换到YUV颜色空间；

A3)分别在输入图像I和缩小后的图像I₁的RGBUV通道中，提取最大稳定极值区域。

3.根据权利要求1所述的方法，其特征在于步骤B中收集包含字符与背景两类样本的非平衡数据集，按如下步骤进行：

B1)通过人工合成以及从自然场景图片中剪切，得到相同数量的字符与背景两类样本的数据集；

B2)利用自展法Bootstrap，迭代提取出B1)数据集中错误识别的背景样本，并将提取出的背景样本添加到B1)数据集中，最终得到一个字符与背景二分类的非平衡数据集，其中字符样本与背景样本的比例为1:2。

4.根据权利要求1所述的方法，其特征在于步骤C中依据字符候选区域的形态学和笔画宽度特征进行粗过滤，按如下步骤进行：

C1)提取字符候选区域的几何特征：长宽比、最小凸多边形像素比、最小边界矩形像素比和欧拉数，分别设置这些特征的阈值，将特征值阈值之外的字符候选区域滤除，完成第一级粗过滤；

C2)提取第一级粗过滤后字符候选区域的骨架，进而得到其笔画宽度S和笔画宽度变异系数V，分别为这两个特征设置阈值，将特征值大于阈值的第一级粗过滤后的字符候选区域滤除，完成第二级粗过滤；

C3)依次计算第二级粗过滤后字符候选区域之间的重叠率，若两者之间重叠率大于90％，则滤除最小凸多边形像素比最小的区域，完成粗过滤。

5.根据权利要求1所述的方法，其特征在于步骤C中用卷积神经网络字符与背景二分类器对粗过滤后的字符候选区域进行细过滤，按如下步骤进行：

C4)提取粗过滤后的字符候选区域的高度h；

C5)将粗过滤后的字符候选区域的四周均扩大0.1×h，得到扩大后的字符候选区域，并将扩大后的字符候选区域的大小缩放为32×32；

C6)将缩放后的字符候选区域输入到卷积神经网络字符与背景二分类器中，得到其属于字符或背景的分类结果；

C7)将分类为背景的字符候选区域去除，完成细过滤。

6.根据权利要求4所示方法，其中C2)中的笔画宽度S，笔画宽度变异系数V，其计算公式如下：

S = \frac{2}{n} Σ_{i = 1}^{n} x_{i}

V = \frac{\sqrt{\frac{1}{n} Σ_{i = 1}^{n} {(2 x_{i} - S)}^{2}}}{S}

其中i表示字符候选区域中骨架的第i个像素，n表示骨架像素的数目，x_i表示骨架像素i处笔画宽度值的一半。

7.根据权利要求1所示方法，其中步骤D1)中的骨架灰度强度均值C，其公式如下：

C = \frac{1}{n} Σ_{i = 1}^{n} \frac{C_{i R} + C_{i G} + C_{i B}}{3}

其中C_iR，C_iG，C_iB分别表示骨架像素i在R,G,B颜色通道下的强度值。