CN107045634B

CN107045634B - 一种基于最大稳定极值区域与笔画宽度的文本定位方法

Info

Publication number: CN107045634B
Application number: CN201710299524.9A
Authority: CN
Inventors: 崔国龙; 陈树东; 黎明; 熊丁丁; 黄华宾; 曾冬冬; 顾钦; 孔令讲
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-05-02
Filing date: 2017-05-02
Publication date: 2020-07-21
Anticipated expiration: 2037-05-02
Also published as: CN107045634A

Abstract

该发明公开了一种基于最大稳定极值区域与笔画宽度相结合的铁路场景文本定位方法，属于计算机视觉技术领域，具体涉及复杂场景下的文本定位研究。本发明基于改进的直方图均衡算法对原始图像进行预处理，有效的提高了图像的对比度，然后利用MSER算法有效的将铁路场景下的微弱目标区域检测出来，接着通过字符的笔画宽度特征有效的去除了非文本区域，降低误检率，从而解决了铁路场景下的文本检测困难、准确定位文本难以实现的问题。本发明的优点是利用文本行的空间结构特点，采取了区块滑窗搜索策略，有效的降低了计算复杂度。本发明可以应用于复杂的铁路字符定位场景。

Description

一种基于最大稳定极值区域与笔画宽度的文本定位方法

技术领域

本发明属于计算机视觉技术领域，具体涉及复杂场景下的文本定位研究。

背景技术

文本定位是指将场景图像中的文本精确地定位出来，它是获取场景图像中文本信息的基础和前提，也是光学字符识别(Optical Character Recognition)的一个关键组成部分；因此，文本定位算法作为当今计算机视觉领域研究热点之一，一直受到研究者重视，并在纸质文档的字符分割识别，车牌号码的定位识别等方面具有广泛的应用。

现今对于简单场景下的文本定位算法都有很出色的表现，尤其是背景单一、干净的人工文档文本定位应用，基本都有95％以上的定位准确率；然而，针对复杂场景下的文本定位算法仍存在定位准确率低的问题，尤其是铁路场景，其具有背景复杂、目标微弱和对比度低等特点，目前还没有一种针对此特定应用场景下的有效文本定位算法。

现有的文本检测方法主要有：基于边缘的方法、基于纹理的方法和基于区域的方法。在文献“Text localization in real-world images using efficiently prunedexhaustive search.2011:687-691”中，利用最大稳定极值区域(MSER:maximum stableextremal regions)的稳定性和仿射不变性，以检测出的MSER作为文本候选区域然后进行文本定位，该方法在简单应用场景中检测率高，但在复杂场景中，虚警特别多；在文献“Detecting text in natural scenes with stroke width transform.2010,119(5):2963-2970”中，提出了笔画宽度变换的概念，首先在Canny边缘图像上寻找边缘像素对，两个像素间的欧式距离就是两者及之间像素的笔画宽度，然后根据笔画宽度的变化来检测文本，此方法能有效的利用字符特有的笔画特征实现准确的检测，但由于依赖于边缘检测的效果，在复杂场景下笔画宽度难以准确获得。综上，单独使用上述方法是无法适用于复杂场景下的文本定位，由此提出一种综合二者优点的复杂场景文本定位算法。

发明内容

本发明的目的是针对现有的文本定位方法只能应用于简单场景的局限，研究一种应用场景为铁路场景的文本定位算法，针对铁路号牌文本检测场景具有背景复杂、目标微弱和对比度低等特点，提出了一种基于最大稳定极值区域与笔画宽度相结合的文本定位算法。

本发明的技术方案为：采用局部直方图均衡算法提高图像的对比度，通过检测预处理图像中的最大稳定极值区域获得文本候选区域，进一步采取文本笔画宽度等特征去除非文本区域，最后通过文本行生成策略得到文本定位结果。该方法有效解决了在复杂的铁路场景下无法有效检测到文本和受环境干扰严重的问题，从而实现对铁路场景中的文本进行有效检测和准确定位。

本发明提出了一种基于最大稳定极值区域与笔画宽度相结合的铁路场景文本定位方法，具体包括如下步骤：

S1.采集待检图像，将数字摄像采集装置固定于车辆前视挡风玻璃上，视角平行于地面，持续采集待检图像；

S2.图像预处理：将待检图像转换成灰度图，采用局部直方图均衡化算法对灰度图像进行对比度增强；

S3.获取全图的最大极值稳定区域：通过对步骤S2获得的图像用0到255的变化阈值分别进行二值化，在阈值变化过程中，有一些区域会在一定范围的阈值变化中保持稳定，这些稳定的区域就是最大稳定极值区域；经过上述操作只能检测出暗文本区域，对原图进行反转后再检测一次MSER，检测出亮文本区域；

S4.初步形成字符候选区域：

步骤4.1：对步骤S3得到的最大稳定极值区域标记一个外接的检测框，根据检测框的大小和连通区域的占有率去除明显不是字符的区域，连通区域的占有率表示连通区域面积与该连通区域外接检测框面积的比值；

步骤4.2：去重复检测框：若两个检测框的左上角坐标接近，检测框尺寸也接近，则认为这两个区域重复，任意去除一个；

步骤4.3：去除具有包含关系的检测框：若两个区域具有包含关系，则将大面积检测框保留，到此留存的检测框内的区域为字符候选区域；

S5.获取笔画宽度图像：提取出各字符候选区域的骨架图像，对骨架图像进行距离变换得到笔画宽度图像；

S6.笔画特征过滤：利用笔画宽度和骨架端点数目来滤除非文本区域；

S7.文本行生成：铁路号牌文本只有两个方向：水平方向和垂直方向，通过并行的文本行生成策略将相邻的文本连接起来得到文本行；

S8.步骤7判断完成后输出的文本行中会有重复的文本行，将重复的文本行删除，得到原始图像中文本行的最终结果。

进一步的，所述步骤S5的具体方法为：

步骤5.1：获取字符候选区域的灰度图像，对灰度图像进行二值化，二值化的方法为将字符候选区域的前景像素点的位置赋值为0，背景像素点的位置赋值为255；

步骤5.2：在二值图的基础上，遍历值为0的像素点，与两侧背景像素点距离最近或相等的点即为骨架中心点，从而获取候选区域骨架图像；

步骤5.3：获取候选区域笔画宽度图像的方法：在二值图中寻找出骨架中心_p到与其最近的背景像素点q的欧式距离||p-q||，将数值2||p-q||替换图像前景中射线qp经过的每个像素点的灰度值，遍历整个骨架图像，获得该候选区域的笔画宽度图像。

进一步的，所述步骤S6的具体方法为：

步骤6.1：利用笔画宽度变异系数滤除非文本区域；

笔画宽度的变异系数可以用来度量笔画宽度变化的大小，其定义为笔画宽度的标准差与均值的比值：

式中的mean_sw是在笔画宽度图像中求得的笔画宽度的均值，N是笔画宽度图像中前景像素的个数，x_i是图像中某一点像素的笔画宽度；由于一个连通区域内文本的笔画宽度一般都会保持稳定，var_sw值越小就表示笔画宽度的变化越小，此区域是文本的概率就越高；

步骤6.2：根据骨架图像的端点数目滤除非文本区域；

骨架端点的判断方法为：遍历每一个骨架中心像素，若该像素的八邻域中只有一个连通像素点则认为它是笔画端点。

进一步的，所述步骤S7的具体方法为：

步骤7.1：将整个原图像划分为若干行，按照候选区域中心点横坐标位置从左至右依次提取出属于第1,2行的候选区域；

步骤7.2：对两两相邻的候选区域从左至右依次判断是否符合水平文本行关联规则，得出所有相邻候选区的判断结果，将判断为文本行的相邻候选区进行组合输出；

步骤7.3：按照步骤7.2相同的方法输出划分图像第2、3行中的文本行；依次类推，直到遍历完整张图像，至此完成水平文本行的提取；

步骤7.4：再将整个原图像划分为若干列，按照候选区域中心点纵坐标位置从上至下依次提取出属于第1,2列的候选区域；

步骤7.5：对两两相邻的候选区域从上至下依次判断是否符合垂直文本行关联规则，得出所有相邻候选区的判断结果，将判断为文本行的相邻候选区进行组合输出；

步骤7.6：按照步骤7.5相同的方法输出划分图像第2、3列中的文本行；依次类推，直到遍历完整张图像，至此完成垂直文本行的提取；

进一步的，所述步骤S7中判断水平/垂直的相邻候选区域是否为文本行的方法为：

1)相邻候选区的检测框中心点横/纵坐标的距离是否小于规定阈值；

2)相邻候选区的检测框的高度/宽度的差值是否小于规定阈值；

3)相邻候选区的距离是否小于规定阈值；

4)相邻候选区中前景的笔画宽度的均值和平均灰度值的差值是否小于阈值；

满足上述所有条件则认为相邻区域为文本行。

本发明的有益效果：本发明基于改进的直方图均衡算法对原始图像进行预处理，有效的提高了图像的对比度，然后利用MSER算法有效的将铁路场景下的微弱目标区域检测出来，接着通过字符的笔画宽度特征有效的去除了非文本区域，降低误检率，从而解决了铁路场景下的文本检测困难、准确定位文本难以实现的问题。本发明的优点是利用文本行的空间结构特点，采取了区块滑窗搜索策略，有效的降低了计算复杂度。本发明可以应用于复杂的铁路字符定位场景。

附图说明

图1为本发明的基于MSER与笔画宽度相结合的铁路场景文本定位方法示意图。

图2为图1方法以某几帧图像为例，进行图像预处理、MSER提取以及文本定位效果图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明

实施例

一种基于MSER与笔画宽度相结合的铁路场景文本定位方法，该方法如图1所示，以图2中的第一帧样本为例，进行文本定位，其具体步骤如下：

S2：图像预处理：将原始图像(a)转换成灰度图，采用局部直方图均衡化算法对灰度图像进行对比度增强，得到图像(b)；

S3.获取全图的最大极值稳定区域：通过对灰度图像用0到255的阈值分别进行二值化，在阈值变化过程中，有一些区域会在一定范围的阈值变化中保持稳定，这些稳定的区域就是最大稳定极值区域；它的数学定义为

q(i)＝|Q_i+Δ-Q_i-Δ|/Q_i

Q_i表示阈值为i时的某一连通区域，Δ为灰度阈值的微小变化量,q(i)为阈值是i时的区域的变化率；当q(i)为局部极小值时，Q_i为最大稳定极值区域；

经过上述操作只能检测出暗文本，对原图进行反转后再检测一次MSER，就可以检测出亮文本；

S4.初步形成字符候选区域：首先利用一些简单的启发式规则可以将明显不是字符的区域去除；MSER算法会对同一个连通区域形成多个检测框，有必要设置去重复策略去除重复的区域；另外，具有相互包含关系的矩形框也要选择只保留一个；

(1)连通区域矩形框面积大小：铁路号牌单个字符区域的矩形面积满足一定的大小，考虑到粘连字符情况下矩形区域面积的上限难以确定，采用单字符的下限值过滤小面积的非字符区域，一个经验值大小为200；

(2)区域占有率：区域占有率的定义是

ratio＝P_fg/P_re

式中的P_fg指连通区域的前景像素数目，P_re是区域外接矩形框的面积；字符区域占有率的经验取值范围：0.3≤ratio≤0.65；

(3)去重复策略：若两个矩形区域的左上角坐标相差无几，且区域的宽高几乎一致，则认为这两个区域重复，任意去除一个即可。

(4)具有包含关系的区域：若两个区域具有包含关系，则将大面积区域保留，这样可以确保字符区域不被去除；在具体实现时，首先需要根据矩形区域的中心点将数据划分到不同的区块中，因为只有相邻的区块中的区域才有可能具有包含关系，利用区块进行操作可以减少计算复杂度；然后以4个区块为单位进行滑窗处理，这样做的好处是不会出现漏检；在每一次滑窗的过程中，都需要对大区块内的区域按照面积大小进行升序排序，方便后续的大小比较；最后，遍历全图去除包含关系中小面积区域，并将保留下来的区域保存在相应的区块中。

S5.获取笔画宽度图像：提取候选区域的骨架图像，并在二值图的基础上进行距离变换得到笔画宽度图像。

获取候选区域二值图像的方法：候选连通区域中前景像素点的位置赋值为0，背景像素点的位置赋值为255；

获取候选区域骨架图像的方法：在二值图的基础上，遍历值为0的像素点，与两侧背景像素点距离最近且相等的点即为骨架中心点；

获取候选区域笔画宽度图像的方法：在二值图中计算骨架中心p到与其最近的背景像素点q的欧式距离||p-q||，可以近似认为该距离值相当于笔画宽度的一半，将此距离值的2倍标记像素点p及在[p,q]这条线路上的每个像素点，遍历整个骨架图像即可获得此区域的笔画宽度图像。

S6.笔画特征过滤：利用笔画宽度变异系数(上限值为0.65)和笔画端点数目(上限值为7)来滤除非文本区域，得到图2中的图(c)；

式中的mean_sw是在笔画宽度图像中求得的笔画宽度的均值，N是笔画宽度图像中前景像素的个数，x_i是图像中某一点像素的笔画宽度。由于一个连通区域内文本的笔画宽度一般都会保持稳定，var_sw值越小就表示笔画宽度的变化越小，此区域是文本的概率就越高，而一般的杂草、树叶等干扰区域不满足此特征。

针对阿拉伯数字0到9的笔画端点数极少，而杂草、象形区域的端点数较多的特点，可以采用连通区域的笔画端点数κ来滤除非文本区域。一种比较简单粗略的计算方法是在骨架图像中遍历每一个骨架中心像素，若该像素的八邻域中只有一个连通像素点则认为它是笔画端点。

S7.文本行生成：铁路号牌文本只有两个方向：水平方向和垂直方向，通过并行的文本行生成策略将相邻的文本连接起来得到文本行。

(1)区块滑窗式搜索策略

真正的文本行肯定是在相邻的区块内才可能存在相邻关系。水平方向上，以由横向小区块组成的两个水平长形区块为单位，自上而下遍历整张图像，执行水平方向文本行生成策略；垂直方向上，以由竖向小区块组成的两个垂直长形区块为单位，自左向右遍历整张图像，执行垂直方向文本行生成策略。

(2)水平方向的文本行生成策略

首先针对第一个字符和第二个字符进行如下判断：

1)两个矩形区域的中心点纵坐标是否一致

2)两个矩形区域的高度是否一致

3)左边区域横坐标的最大值与右边区域横坐标的最小值之差Δx是否满足区域相邻的条件

4)两个矩形区域的笔画宽度的均值、灰度值是否一致；

若满足上述条件，则继续对第二个字符和第三个字符进行同样的判断，依次类推，直到最后一个字符结点，完成文本行的生成。

(3)垂直方向的文本行生成策略

首先针对第一个字符和第二个字符进行如下判断：

1)两个矩形区域的中心点横坐标是否一致

2)两个矩形区域的宽度是否一致

3)上边区域纵坐标的最大值与下边区域纵坐标的最小值之差是否满足区域相邻的条件

4)两个矩形区域的笔画宽度的均值、灰度值是否一致；

S8.去除重复的文本行：区块滑窗式搜索策略虽然减少了计算复杂度，却存在文本行重复的问题。两个文本行进行比较，若同时满足下述条件：

1)文本行包含的区域数目相等

2)所有相应区域的左上角的坐标都相同

则删除任意一个文本行。

Claims

1.一种基于最大稳定极值区域与笔画宽度相结合的铁路场景文本定位方法，具体包括如下步骤：

S3.获取全图的最大稳定极值区域：通过对步骤S2获得的图像用0到255的变化阈值分别进行二值化，在阈值变化过程中，有一些区域会在一定范围的阈值变化中保持稳定，这些稳定的区域就是最大稳定极值区域；经过上述操作只能检测出暗文本区域，对原图进行反转后再检测一次MSER，检测出亮文本区域；

S4.初步形成字符候选区域：

S8.步骤S7判断完成后输出的文本行中会有重复的文本行，将重复的文本行删除，得到原始图像中文本行的最终结果；

其特征在于步骤S7中判断水平/垂直的相邻候选区域是否为文本行的方法为：

3)相邻候选区的距离是否小于规定阈值；

满足上述所有条件则认为相邻区域为文本行。

2.如权利要求1所述的一种基于最大稳定极值区域与笔画宽度相结合的铁路场景文本定位方法，其特征在于所述步骤S5的具体方法为：

步骤5.3：获取候选区域笔画宽度图像的方法：在二值图中寻找出骨架中心p到与其最近的背景像素点q的欧式距离||p-q||，将数值2||p-q||替换图像前景中射线qp经过的每个像素点的灰度值，遍历整个骨架图像，获得该候选区域的笔画宽度图像。

3.如权利要求1所述的一种基于最大稳定极值区域与笔画宽度相结合的铁路场景文本定位方法，其特征在于所述步骤S6的具体方法为：

步骤6.1：利用笔画宽度变异系数滤除非文本区域；

式中的mean_sw是在笔画宽度图像中求得的笔画宽度的均值，N是笔画宽度图像中前景像素的个数，x_i是图像中某一点像素的笔画宽度；由于一个连通区域内文本的笔画宽度都会保持稳定，var_sw值越小就表示笔画宽度的变化越小，此区域是文本的概率就越高；

步骤6.2：根据骨架图像的端点数目滤除非文本区域；