CN104794479B

CN104794479B - 基于局部笔画宽度变换的自然场景图片中文本检测方法

Info

Publication number: CN104794479B
Application number: CN201410026091.6A
Authority: CN
Inventors: 董文妍; 连宙辉; 唐英敏; 肖建国
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2014-01-20
Filing date: 2014-01-20
Publication date: 2018-06-29
Anticipated expiration: 2034-01-20
Also published as: CN104794479A

Abstract

本发明涉及一种基于局部笔画宽度变换的自然场景图片中文本检测方法，其步骤包括：1）对待检测的自然场景图片进行预先处理以得到灰度图，然后求出灰度图的边缘图；2）根据边缘图与灰度图，采用二值化方法生成相应的二值图；3）根据二值图将含有相同值的相邻像素集合成候选部件；4）对候选部件进行笔画宽度计算，得出每个像素点所在文字笔画的宽度值；5）根据计算出的笔画宽度值使用滤波器对候选部件进行过滤，筛选出文本部件；6）将筛选出的文本部件连接成文本行，并显示最后结果。本发明方法是一种计算成本低、高效直观的文本检测方法，可以有效提高自然场景图片中的文本检测的准确性和精确度。

Description

基于局部笔画宽度变换的自然场景图片中文本检测方法

技术领域

本发明属于人工智能中模式识别技术领域，具体涉及一种基于局部笔画宽度变换的自然场景图片中文本检测方法。

背景技术

自然场景中的图片，是指由各种拍摄设备如照相机、手机等，没有特定限制的条件下，直接对生活中真实存在的场景拍摄下来的图片。在自然场景图像中寻找文字区域很有必要，这些文字数据承载着人们日常生活中的非常有用和重要的信息，如街道牌、广告牌、交通指示牌等，对于辅助人们获取场景信息很有帮助。文字的出现主要是为了提示人们注意一些有用信息，用我们身边的便携设备提取、识别并记录，乃至上网搜索相关内容，可以大大方便我们的生活。文字是我们生活中最直接最明确的信息载体，文字检测识别对于科研和生活都有很大的应用价值。在自然场景有文本有它自己独有的特点，如语言、字体、颜色、大小、方向等方面。因此自然场景中的文字检测识别需要与自身特点相适应的研究方法。并保证一定的提取成功率，在实际应用中将有很好的前景。

在现有技术中主要有三个基本方法：根据颜色相关性的连通域方法、运用机器学习进行图像纹理分析方法、根据图像文字与背景对比度的检测边缘方法以及它们的综合应用。基于连通域的方法原理比较直观，只适合处理背景较为简单的图像；基于纹理分析方法的基本思想是将文字区域作为一种特殊的纹理对象来考虑，其检测精度高但需要对整幅图像进行扫描和纹理分割，事先进行大量训练，计算代价比较高，检测效果也与训练样本有关；基于边缘的方法容易产生较高的虚警，因此如何有效滤除背景边缘需要较多的后续处理。

发明内容

针对现有技术中存在的缺陷，本发明的目的是提出一种计算成本低、高效直观的基于局部笔画宽度变换的文本检测方法，从而提高了场景图片中的文本检测精准度。

为达到以上目的，本发明采用的技术方案是：

一种基于局部笔画宽度变换的自然场景图片中文本检测方法，包括以下步骤：

1）对待检测的自然场景图片进行预先处理以得到灰度图，然后求出灰度图的边缘图；

2）根据边缘图与灰度图采用二值化方法生成相应的二值图；

3）根据二值图，将含有相同值1的相邻像素集合成候选部件；

4）对候选部件进行笔画宽度计算，得出每个像素点所在文字笔画的宽度值；

5）根据计算出的笔画宽度值使用滤波器对候选部件进行过滤，筛选出文本部件；

6）将筛选出的文本部件连接成文本行，并显示最后结果。

进一步地，步骤1）所述预先处理的步骤依次包括图像大小调整（保持长宽比，缩小到不大于1600*1200）、图像平滑（高斯模糊）和图像灰度化处理。

进一步地，步骤1）使用Canny算子求出灰度图的边缘图。

进一步地，步骤2）所述二值化方法为自适应的二值化方法，其具体步骤包括：

2-1）对原图像的灰度图矩阵G_g与原图像的边缘图矩阵G_e计算点乘，保留灰度图上是边缘点像素的数值：

G_s(i,j)=G_g(i.j)G_e(i,j)，

其中(i,j)表示第i行第j列的元素，同时保留灰度图上下左右四边界像素值，其它位置值为零，即生成骨架图G_s；

2-2）对骨架图G_s使用下面公式，在骨架图G_s中非边缘非边界的位置计算出相应的加权值填充，即生成新图G_p：

其中，x₁x₂,y₁和y₂为当前点与在水平方向和垂直方向的正反向的最近的4个边缘或边界点距离，x_1p,x_2p,y_1p和y_2p为四个最近点在灰度图上的数值；

2-3）将新图G_p与灰度图G_g相减得到差图G_d：

G_d=G_p-G_g，

在新生成的二值图上，如果相应点在差图G_d上的像素值大于正阈值的则标记为1，其余为0，或者将小于负阈值的位置标记为1，其余为0，

其中，pt为正阈值，nt为负阈值，二者皆为正整数。所述阈值pt和nt根据边缘点的数量不同取1或9。

进一步地，步骤2）生成两幅Gb二值图，以便找出前景比背景亮的文字与背景相对亮的文字，步骤3）在两幅二值图中分别聚集四连通且值为1的像素，生成各个候选部件，得出各自的候选部件图。

进一步地，步骤4）进行笔画宽度计算的方法是：在每个部件的边缘图上，沿着当前边缘像素点梯度方向射线找到所在笔画另一端的对应边缘点，这个对应的边缘点与当前像素点的梯度方向相反。初始化建立全零的笔画宽度图，将这个图上两对应点连线之间的所有像素分别置为两点距离的数值。若当前像素有多个笔画宽度的连线经过，则将各连线距离的最小值作为当前像素的笔画宽度值。

进一步地，步骤5）计算每个候选部件的特征值向量，该特征向量包括包围矩形的长宽及中心坐标，笔画宽度值的均值、方差、中值，然后使用启发式规则设置滤波器，所述启发式规则是：如果候选部件有一个或多个特征不符合要求即被去除；进行评判的属性值包括：文本部件的像素数目与包围矩形像素数目比、包围矩形对角线值与笔画中值比、部件标准差与均值的比。

进一步地，步骤5）使用滤波器对候选部件进行过滤时，检测每个部件的SIFT关键点的数目。使用每个部件的像素占有比及包围矩形的长、宽作为特征训练出一个支持向量机，用来判别部件是否属于特殊字符。删除没有SIFT关键点且不属于特殊字符的部件。

进一步地，步骤5）通过滤波器得到常规的文字后，将所有满足包围矩形的中心距离小于两部件中较大宽度的两倍的两两部件组合成部件对，记下所有可能的组合，并根据两部件的包围矩形的中心位置计算出每对组合的方向向量；之后将所有方向相近、含有相同部件的部件对整合成字符串，直到没有可以继续整合的字符串为止；之后对属于多个方向的文本行的部件进行判断，使其归入行间距最小文本行中；之后寻找文本行中间距过大的位置，切割出各个单词。

本发明的基于局部笔画宽度变换的自然场景图片中文本检测方法，结合文字自身的特点，首先使用自适应二值化方法将原图处理成二值图像，然后将各个连通区域作为候选部件，并计算笔画宽度值图，然后通过一系列滤波器之后将留存的部件连接成文本行。本发明方法是一种计算成本低、高效直观的文本检测方法，可以有效提高自然场景图片中的文本检测的准确性和精确度。

附图说明

图1是实施例中的原始输入图像；

图2是本发明的基于局部笔画宽度变换的文本检测方法的流程示意图；

图3是实施例中输入原图像的灰度图矩阵Gg；

图4是实施例中输入原图像的边缘图矩阵Ge；

图5是实施例中二值化过程中的骨架图Gs；

图6是实施例中二值化过程中的差图Gd；

图7是实施例中自适应二值化后的图像；

图8是实施例中候选部件示意图；

图9是实施例中笔画宽度值计算示意图；

图10是实施例中笔画宽度值图像；

图11是实施例中候选部件过滤后的图像；

图12是实施例中输出以文本行显示的检测结果。

具体实施方式

下面结合实施例和附图对本发明作进一步详细的描述。

图1是本实施例的原始输入图像，对其采用本发明的方法进行文本检测的流程如图2所示。以下提到的每个图都是二维矩阵，即使用二维矩阵存储每个像素点的数值构成图片，像素值为矩阵各位置的数值。

第一步，首先对图像进行预先处理，预处理的步骤依次包括图像大小调整（保持长宽比，缩小到不大于1600*1200）、图像平滑（高斯模糊）、图像灰度化处理，然后生成边缘图。

本实施例中，对像素过高的图像进行降采样，然后平滑图像，再使用一个尽量保持高对比的灰度化方法产生灰度图（M.Grundland,N.Dodgson,Decolorize:fast,contrastenhancing,color to grayscale conversion.Pattern Recogn.40,11(2007),2891–2896.），灰度值取值范围为0到255。之后在灰度图上使用边缘检测算子提取到文字边缘，生成边缘图。边缘图上边缘像素点的值为1，其余非边缘点为0。其中边缘检测算子优选采用Canny算子，其它还可以是Roberts算子、Sobel算子、Prewitt算子、Krisch算子、高斯-拉普拉斯算子等。

第二步，使用本发明新提出的自适应二值化方法得到二值图，方法如下：

2-1）对原图像的灰度图矩阵G_g（见图3）与原图像的边缘图矩阵G_e（见图4）计算点乘，保留灰度图上是边缘点像素的数值：

G_s(i,j)=G_g(i.j)G_e(i,j)，其中(i,j)表示第i行第j列的元素，

同时也保留灰度图上下左右四边界像素值，其它位置值为零，即生成骨架图G_s（见图5）。

2-2）然后对于骨架图G_s使用下面公式，在骨架图G_s中非边缘非边界的位置计算出相应的加权值填充，即生成新图G_p：

在公式中，x₁x₂,y₁和y₂为当前点与在水平方向和垂直方向的正反向的最近的4个边缘或边界点距离，x_1p,x_2p,y_1p和y_2p为四个最近点在灰度图上的数值。

2-3）新图G_p与灰度图G_g相减得到差图G_d（见图6）：

G_d=G_p-G_g

其中，pt为正阈值，nt为负阈值，二者皆为正整数。pt和nt根据边缘点的数量不同取1或9。

由上式生成两张G_b二值图，以便找出前景比背景亮的文字与背景相对亮的文字。之后流程分别应用于这两个图像。下边只显示包含文字的图（详见图7）。

第三步，在两幅二值图中分别聚集四连通且值为1的像素，生成各个候选部件，得出各自的候选部件图。计算每个候选部件的包围矩形，并将一些像素占有比、包围矩形长宽比不合要求的候选部件删除（详见图8），生成两个候选部件图。

第四步，在两个候选部件图中的每个候选部件内分别计算所有像素点所在笔画的笔画宽度值（参考并改进自B.Epshtein,E.Ofek,Y.Wexler,Detecting text in naturalscenes with stroke width transform.In Proc.CVPR,2010.）。具体方法如下：在每个部件的边缘图上，沿着当前边缘像素点梯度方向射线找到所在笔画另一端的对应边缘点，这个对应的边缘点与当前像素点的梯度方向相反（方向差大于90度）。初始化建立全零的笔画宽度图，将这个图上两对应点连线之间的所有像素分别置为两点距离的数值。若当前像素有多个笔画宽度的连线经过，则将各连线距离的最小值作为笔画的宽度值。图9是笔画宽度值计算示意图，其中(a)中的黑色像素部分表示文字的笔画部分，(b)表示当前边缘点沿着梯度方向寻找对应的边缘点，(c)表示两点连线的笔画宽度。图10是生成原图像的笔画宽度示意图（灰度越深表示宽度值越大）。

第五步，计算每个候选部件的特征值向量，该特征向量包括包围矩形的长宽及中心坐标，笔画宽度值的均值、方差、中值。使用下述启发式规则设置一个滤波器，来筛选出文本部件，如图11所示。

启发式规则是：如果候选部件有一个或多个特征不符合要求即被去除。评判的属性值包括文本部件的像素数目与包围矩形像素数目比、包围矩形对角线值与笔画中值比、部件标准差与均值的比、最终文字部件保留比例。检测每个部件的SIFT(Scale-invariantfeature transform，尺度不变特征转换)关键点的数目。使用每个部件的像素占有比及包围矩形的长、宽作为特征训练出一个SVM（Support Vector Machine，支持向量机），用来判别部件是否属于特殊字符“I”，“l”，“i”，属于的部件标记为1，不属于的标记为0。删除掉没有SIFT关键点且不属于特殊字符的部件。

第六步，在第五步中通过滤波器得到了常规的文字，需要首先将所有满足包围矩形的中心距离小于两部件中较大宽度的2倍的两两部件组合成部件对，记下所有可能的组合，并根据两部件的包围矩形的中心位置计算出每对组合的方向向量。配对的两字符部件需要满足其包围矩形的宽度比小于特定值。之后将所有方向相近、含有相同部件的部件对整合成字符串，直到没有可以继续整合的字符串为止。之后对属于多个方向相差很大的文本行的部件进行判断，使其归入行间距更小字符行中。寻找文本行中间距过大的位置，切割出各个单词。最终合并两图中的文本行，显示结果，见图12。

为了检验基于笔画宽度变换的文本检测方法的有效性，以ICDAR2013竞赛提供的数据集为测试平台来进行文本检测实验，Recall（召回率）、Precision（准确率）及F-measure作为评价指标，其定义如下：

Precision=|TP|/|E|,

Recall=|TP|/|T|,

F=2×Precision×Recall/(Precision+Recall).

TP是检测正确矩形的集合，T和E分别为真实矩形集合和估计矩形集合.

下表是我们的结果与ICDAR2013文本阅读竞赛结果相比较，可以看出我们的方法的F-measure达到76.05%，Precision达到67.82%，在现有的方法中是最高的。结果对比如表1所示。

表1.文本阅读结果比较

	Precision	Recall	F-measure
				本发明的方法	67.82%	86.56%	76.05%
USTB_TexStar	66.45%	88.47%	75.89%
				CASIA_NLPR	68.24%	78.89%	73.18%
Text_detector_CASIA	62.85%	84.70%	72.16%
				Epshtein et al.	57.70%	57.31%	57.50%
Baseline	34.74%	60.76%	44.21%

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求所述为准。

Claims

1.一种基于局部笔画宽度变换的自然场景图片中文本检测方法，其步骤包括：

1)对待检测的自然场景图片进行预先处理以得到灰度图，然后求出灰度图的边缘图；

2)根据边缘图与灰度图，采用二值化方法生成相应的二值图；所述二值化方法的步骤包括：

2-1)对原图像的灰度图矩阵G_g与原图像的边缘图矩阵G_e计算点乘，保留灰度图上是边缘点像素的数值：

G_s(i,j)＝G_g(i,j)G_e(i,j)，

2-2)对骨架图G_s使用下面公式，在骨架图G_s中非边缘非边界的位置计算出相应的加权值填充，即生成新图G_p：

其中，x₁，x₂,y₁和y₂为当前点与在水平方向和垂直方向的正向和反向的最近的4个边缘或边界点距离，x_1p,x_2p,y_1p和y_2p为四个最近点在灰度图上的数值；

2-3)将新图G_p与灰度图G_g相减得到差图G_d：

G_d＝G_p-G_g，

其中，pt为正阈值，nt为负阈值，二者皆为正整数；

3)根据二值图将含有相同值的相邻像素集合成候选部件；

4)对候选部件进行笔画宽度计算，得出每个像素点所在文字笔画的宽度值；

5)根据计算出的笔画宽度值使用滤波器对候选部件进行过滤，筛选出文本部件；

6)将筛选出的文本部件连接成文本行，并显示最后结果。

2.如权利要求1所述的方法，其特征在于，步骤1)所述预先处理包括：图像大小调整、图像平滑和图像灰度化处理。

3.如权利要求1所述的方法，其特征在于，步骤1)使用Canny算子求出灰度图的边缘图。

4.如权利要求1所述的方法，其特征在于：所述阈值pt和nt根据边缘点的数量不同取1或9。

5.如权利要求1所述的方法，其特征在于：步骤2)生成两幅G_b二值图，以便找出前景比背景亮的文字与背景相对亮的文字，步骤3)在两幅二值图中分别聚集四连通且值为1的像素，生成各个候选部件，得出各自的候选部件图。

6.如权利要求1所述的方法，其特征在于：步骤4)进行笔画宽度计算的方法是：在每个部件的边缘图上，沿着当前边缘像素点的梯度方向射线找到所在笔画另一端的对应边缘点，这个对应的边缘点与当前像素点的梯度方向相反；初始化建立全零的笔画宽度图，将这个图上两对应点连线之间的所有像素分别置为两点距离的数值，若当前像素有多个笔画宽度的连线经过，则将各连线距离的最小值作为当前像素的笔画宽度值。

7.如权利要求1所述的方法，其特征在于：步骤5)计算每个候选部件的特征值向量，该特征向量包括包围矩形的长宽及中心坐标，笔画宽度值的均值、方差、中值，然后使用启发式规则设置滤波器，所述启发式规则是：如果候选部件有一个或多个特征不符合要求即被去除；进行评判的属性值包括：文本部件的像素数目与包围矩形像素数目比、包围矩形对角线值与笔画中值比、部件标准差与均值的比。

8.如权利要求7所述的方法，其特征在于：步骤5)使用滤波器对候选部件进行过滤时，检测每个部件的SIFT关键点的数目；使用每个部件的像素占有比及包围矩形的长、宽作为特征训练出一个支持向量机，用来判别部件是否属于特殊字符；删除没有SIFT关键点且不属于特殊字符的部件。

9.如权利要求7所述的方法，其特征在于：步骤5)通过滤波器得到常规的文字后，将所有满足包围矩形的中心距离小于两部件中较大宽度的两倍的两两部件组合成部件对，记下所有可能的组合，并根据两部件的包围矩形的中心位置计算出每对组合的方向向量；之后将所有方向相近、含有相同部件的部件对整合成字符串，直到没有可以继续整合的字符串为止；之后对属于多个方向的文本行的部件进行判断，使其归入行间距最小文本行中；之后寻找文本行中间距过大的位置，切割出各个单词。