CN109117841B

CN109117841B - 基于笔画宽度变换与卷积神经网络的场景文本检测方法

Info

Publication number: CN109117841B
Application number: CN201811021712.6A
Authority: CN
Inventors: 肖苹苹; 柯志达; 林春敏; 彭振文; 苏亮; 陈卫强; 周方明
Original assignee: Xiamen King Long United Automotive Industry Co Ltd
Current assignee: Xiamen King Long United Automotive Industry Co Ltd
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2020-12-11
Anticipated expiration: 2038-09-03
Also published as: CN109117841A

Abstract

本发明公开了一种基于笔画宽度变换与卷积神经网络的场景文本检测方法，涉及场景文本检测领域，包括以下步骤：准备训练数据集，通过卷积神经网络基于Bootstrap策略训练文本二分类器；利用最大稳定极值区域算法从图像中获得候选文本区域；利用所述文本二分类器对所述候选文本区域进行分类；在候选文本区域中，基于笔画宽度变换算法获得候选字符，通过几何约束过滤候选字符。本发明的有益效果：本方法基于Bootstrap策略的训练丰富了样本图像的数量与质量；利用笔画宽度变换算法基于确定的候选文本区域提高了检测性能，并将检测级别确定为字符级；基于区域的算法以及大量中文训练样本使得方法有效地检测出中文文本。

Description

基于笔画宽度变换与卷积神经网络的场景文本检测方法

技术领域

本发明涉及场景文本检测领域，尤其是指一种基于笔画宽度变换与卷积神经网络的场景文本检测方法。

背景技术

在无人驾驶技术中，通过感知技术来进行三维环境建模是一项重要的工作。在真实道路场景中存在着许多相关的建模数据，如交通标志牌、车牌、路牌、广告牌中的文本信息。而自然场景图像中的文本检测与识别可用于自动提取其中的文本信息，是计算机视觉中的重要研究方向之一。近年来，研究学者们的研究已经取得了一定的突破，并且搭建了一系列评估数据库。然而，由于图像场景多变、文本多样等因素，在场景图像中进行文本检测与识别仍然存在诸多挑战。

在过去几十年中，许多用于文档文本提取与识别的方法以及光学识别系统已经得到充分开发。Burns 等人（T. J. Burns, J. J. Corso. Robust UnsupervisedSegmentation of Degraded Document Images with Topic Models[C]. Proceedings ofIEEE Conference on Computer Vision and Pattern Recognition. 2009, 1287-1294.）提出了一种用于文档图像的贝叶斯生成模型，基于主题进行图像分区来区分文本、空格和图形。Liang 等人（J. Liang, D. Dementhon, D. Doermann. Geometric Rectificationof Camera-Captured Document Images[J]. IEEE Transactions on Pattern Analysisand Machine Intelligence.2008. 30(4):591.）利用从图像获得的纹理流信息估计3D文档形状来进行平面和弯曲文档的几何矫正。但是，与文档文本不同的是，自然场景文本是以任意形状、大小、字体、方向、透视失真等特点嵌入到拥有复杂背景的图像中，因此对自然场景文本的检测更具有挑战性。

随着深度学习的研究深入，自然场景文本领域的研究学者们提出了许多出色的算法与框架。Huang 等人（W. Huang, Y. Qiao, X. Tang. Robust Scene Text Detectionwith Convolution Neural Network Induced MSER Trees[M]. Cham: SpringerInternational Publishing, 2014, 497-511.）利用最大稳定极值区域算法与卷积神经网络框架进行场景文本检测。通过最大稳定极值区域算法检测获得低层特征。从先前的研究可以得知，该算法可以大量减少滑动窗口的数量来提高检测的速率。然后通过卷积神经网络框架获得高层特征，减少了砖块、窗户等与文本特征相似的成分的干扰，而将低层特征与高层特征相结合明显提高了方法的性能表现。Bai 等人（Z. Zhang, C. Zhang, W. Shen,C. Yao, W. Liu, X. Bai. Multi-Oriented Text Detection with FullyConvolutional Networks[C]. Proceedings of IEEE Conference on Computer Visionand Pattern Recognition. 2016, 4159-4167.）也同样运用高层信息和低层信息来实现文本检测。其通过训练全卷积网络（Fully Convolutional Network，FCN）（J. Long, E.Shelhamer, T. Darrell. Fully Convolutional Networks for Semantic Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2014. 79(10):1337-1342.）获得文本检测器来定位文本行位置，再通过最大稳定极值区域算法确定文本行，最后利用另一个全卷积网络进行候选文本行内的字符分类。第一个全卷积网络的训练样本为3万张500×500像素图像，第二个网络的训练样本为10万张像素的图像。而Huang 等人所用到的网络仅有两层，其训练的样本为32×32像素的图像，包含了5,000张正样本图像和10,000张负样本图像。

从上文所提到的方法可以得知：充分利用文本的低层特征与高层特征有助于文本检测性能表现的提高。由此我们获得启示，在本发明提出了一个基于笔画宽度变换与卷积神经网络的场景文本检测方法。

发明内容

本发明提供一种基于笔画宽度变换与卷积神经网络的场景文本检测方法，其主要目的在于解决现有检测方法在对场景文本进行检测时存在的上述问题。

为解决上述技术问题，本发明采用如下技术方案：

一种基于笔画宽度变换与卷积神经网络的场景文本检测方法，包括以下步骤：A.准备训练数据集，通过卷积神经网络基于Bootstrap策略训练文本二分类器；B. 利用最大稳定极值区域算法从图像中获得候选文本区域；C. 利用所述文本二分类器对所述候选文本区域进行分类；D. 在所述候选文本区域中，基于笔画宽度变换算法获得候选字符，通过几何约束过滤候选字符，去除误报；E. 通过几何关系、位置关系将步骤D中所得候选字符组合成候选文本行。

进一步，所述步骤A具体包括以下子步骤：A1.获得的训练数据集包括：包含文本图像的正样本图像集以及不包含文本图像的负样本图像集；所有正样本图像集和负样本图像集中的样本均为48×48像素的裁剪图像。A2.在训练过程中，将完成初步训练的文本二分类器转化为全卷积模型；通过该全卷积模型进行文本检测，将获得的误检及漏检文本区域加入到训练数据集中，来获得更多样本图像。将全部样本图像输入到原有网络中重新训练文本二分类器，直至文本二分类器在文本数据集上的精确度达到稳定值且不再提升，即基于Bootstrap策略的训练方式。

进一步，所述步骤B具体包括以下子步骤：B1. 预处理图像，即将原图转换为灰度图；B2. 提取灰度图的最大稳定极值区域；B3. 对获得的最大稳定极值区域进行连通域分析，过滤一些明显不包含文本的区域，然后对过滤后的图像区域进行闭运算，获得候选文本区域。

进一步，所述步骤C具体包括以下子步骤：

C1. 将步骤B中获得的候选文本区域大小调整为48×48像素；如果候选文本区域的宽度大于其高度，那么直接将候选文本区域大小调整为48×48像素；如果候选文本区域的高度大于其宽度，则提取跟其具有相同中心且边长等于其高度的正方形区域，并将正方形区域大小调整为48×48像素；C2. 通过所述文本二分类器获得二分类结果，即每个候选文本区域获得一个置信度分数；C3. 去除置信度分数小于阈值0.5的候选文本区域，获得步骤C的检测结果。

进一步，所述步骤D包括以下子步骤：D1.保留置信度分数大于等于阈值1且包围框宽高比

满足0.5<

<1.5的候选文本区域，不进行笔画宽度变换，认定其为候选字符；D2.对置信度分数大于等于阈值0.5且小于阈值1的候选文本区域将进行笔画宽度变换；利用Canny边缘检测器检测出图像中的边缘点；沿射线查找笔画宽度向量，直到检测完所有的Canny 边缘点；每个像素都分配了有效的笔画宽度，则由像素点和笔画宽度构成了输出图，获得具有单个字符的候选字符区域；D3. 利用几何约束去除误报。

更进一步，上述步骤D3中的几何约束包括：

，

，

,

，其中，

表示包围框的面积，

表示原图的面积，

表示包围框的宽，

表示原图的宽，

表示包围框的高，

表示原图的高；步骤D2中获得的候选字符区域若满足所述全部几何约束，则保留；若不满足其中任意一项几何约束，则去除。

进一步，所述步骤E包括以下子步骤：E1. 依照同一个单词内笔画宽度相近以及字符距离相近的特征，将候选字符组合成候选文本行；E2. 依照单词间的距离大于字符间的距离的特征，利用游程平滑算法将候选文本行分割成单词文本行。

1、更进一步，上述步骤E1中，对同时满足

,

和

的候选字符进行组合；其中，

与

分别表示两个候选字符的笔画宽度，

与

分别表示两个候选字符的质心的横坐标，

与

分别表示两个候选字符的质心的纵坐标。

更进一步，上述步骤E2中，对满足

的候选文本行进行分割；其中，

表示候选文本行内候选字符间的包围框的距离，

以及

表示候选文本行内所有

的均值和标准差。

和现有技术相比，本发明产生的有益效果在于:

本发明提出的基于笔画宽度变换与卷积神经网络的场景文本检测方法可以有效地检测出场景图像中的文本。相比其他文本检测方法，本发明方法的检测结果精确度较高，不受语言限制，而且检测速率较快。一方面方法中采用的算法均基于区域，使得方法不受语言限制；另一方面，我们的文本二分类器在训练过程中所采用的数据集采集自中国的街道，其中含有大量的中文字符，因而训练获得的文本二分类器对中文文本的分类效果较为出色。并且，届于现有的方法为了满足检测精度，在检测速度上并不出色，而本发明检测速度快，检测速度级别达到0.1秒/张。

本发明是基于Bootstrap学习策略的深度文本检测方法。由于深度分类器的训练需要大量的训练样本，现有方法在训练样本的选择上需要挑选出大量无噪声的、具有代表性的文本图像。而本发明采用基于Bootstrap学习策略，丰富了样本图像的数量与质量，解决了在文本检测模型训练过程中选择样本图像难题。

基于中文与英文的两种语言的区别，英文一般通过“单词”来理解，而中文需要精确到具体的字符，因此对于中文文本的检测需要精确到字符等级。本发明中，通过笔画宽度算法来区分出字符，使整个算法的检测级别确定为字符级，适应了中文文本的检测要求，还弥补了最大稳定极值算法、文本二分类器在检测级别上的不足。更进一步，对比以往的方法，笔画宽度变换方法是在原图中直接检测文本区域，这使得有更多的干扰因素会影响检测结果。而在本发明中，仅用此来检测已确定的文本区域中的字符，来将整个方法的检测级别精确为字符级，降低了其他因素对检测效果的影响，提高了方法性能。

附图说明

图1为本发明实施例的流程图。

图2为DeepID 网络结构。每个大立方体的长宽高分别表示每一层输出图的维度、大小，立方体内部的长宽高分别表示卷积核的维度、大小，DeepID 层上方数字表示160 维特征，分类层下方数字表示二分类输出。

具体实施方式

下面参照附图说明本发明的具体实施方式。

参见图1和图2，本发明实施例的实施方式包括以下步骤：

A. 准备训练数据集，通过卷积神经网络基于Bootstrap策略训练文本二分类器。其中，训练数据集包含文本图像的正样本图像集以及不包含文本图像的负样本图像集；所有正样本图像集和负样本图像集中的样本均为48×48像素的裁剪图像。

正样本图像以及部分负样本图像采集自我们搭建的采自中国街道的STV2k数据库以及其他现有数据库的训练数据集。利用这些文本数据库的标注数据进行图像裁剪。在整张图像中随机采样矩形窗口，定义这些窗口为裁剪框。基于裁剪框与标注框的比值来选择文本图像和非文本图像。该比值的公式为：

其中，

表示裁剪框与标注框的覆盖面积，

表示裁剪框的面积。如果比值

等于0，表示裁剪框和标注框不相交，则定义该裁剪框为非文本图像，即负样本图像。如果比值

等于1，表示裁剪框包含在标注框中，则定义该裁剪框为文本图像，即正样本图像。

另外一部分负样本图像采集自牛津大学工程科学系视觉几何组公开的图像数据库（例如巴黎数据库、牛津建筑数据库等）。在裁剪这一部分负样本图像之前，先逐张检查，以去除含有文本的图像。然后，在不含有文本的图像中随机随机采样矩形窗口来获得负样本图像。

上述卷积神经网络是陈日伟在基于深度学习的人脸检测方法中所利用的网络。该网络基于Caffe 框架（Convolution Architecture For Feature Extraction），训练采用DeepID（Deep Hidden Identity Features）的网络配置，通过训练优化Soft-max 损失函数来获得文本分类模型。其中，网络的基础学习率base_lr等于0.01。学习率变化方式lr_ policy等于0.01，即学习率进行多项式误差衰减。学习的参数动量momentum等于0.90，权重衰减因子weight_decay等于0.0005。批大小为128。

DeepID网络具体细节如下：

输入为48×48 像素的彩色图像（三维），网络包含了四个卷积层，三个最大值下采样层，接着是DeepID 层，最后利用分类算法Soft-max 做分类训练。其中，DeepID 层与第三个最大值下采样层、第四个卷积层为全连接。这样的连接方式加入了尺度特征，既考虑到局部的特征，又考虑全局的特征。

Soft-max 损失函数为：

其中，

表示训练图像数量的总和。

= 0 表示类别为非文本，

= 1 表示类别为文本。

表示对于每一次训练图像的输入，Soft-max 分类在文本/非文本两种类别中的概率值。

表示对应的损失函数值。

在训练过程中，将完成初步训练的文本二分类器转化为全卷积模型，使之可用于整幅图像的文本检测。通过该模型对训练图像进行文本检测，获得的误检及漏检文本区域。将这些文本区域分别加入到训练数据集的正样本图像集和负样本图像集中，来丰富样本图像的数量与质量。将全部样本图像输入到原有网络中重新训练文本二分类器，直至文本二分类器在文本数据集上的精确度达到稳定值且不再提升。

B. 利用最大稳定极值区域算法从图像中获得候选文本区域。

上述步骤B具体的包括以下子步骤：

B1. 预处理图像，即将原图转换为灰度图；

B2. 提取灰度图的最大稳定极值区域。利用软件matlab自带的函数detectMSERFeature获得最大稳定极值区域，将最大稳定极值区域赋值为1，其他区域赋值为0，获得二值图像。

B3. 对获得的最大稳定极值区域进行连通域分析，过滤一些明显不包含文本的区域，然后对过滤后的图像区域进行闭运算，获得候选文本区域。

C. 利用所述文本二分类器对所述候选文本区域进行分类。

上述步骤C具体的包括以下子步骤：

C1. 将步骤B中获得的候选文本区域大小调整为48×48像素；如果候选文本区域的宽度大于其高度，那么直接将候选文本区域大小调整为48×48像素；如果候选文本区域的高度大于其宽度，则提取跟其具有相同中心且边长等于其高度的正方形区域，并将正方形区域大小调整为48×48像素。

C2. 通过所述文本二分类器获得二分类结果，即每个候选文本区域获得一个置信度分数。

C3. 去除置信度分数小于阈值0.5的候选文本区域，获得步骤C的检测结果。

D. 在上述候选文本区域中，基于笔画宽度变换算法获得候选字符，通过几何约束过滤候选字符，去除误报。其中，上述几何约束包围框的宽、高、宽高比等。

步骤D具体包括以下子步骤：

D1. 保留置信度分数大于等于阈值1且包围框宽高比

满足0.5<

<1.5的候选文本区域，不进行笔画宽度变换，认定其为候选字符；

D2. 对置信度分数大于等于阈值0.5且小于阈值1的候选文本区域将进行笔画宽度变换；利用Canny边缘检测器检测出图像中的边缘点；沿射线查找笔画宽度向量，直到检测完所有的Canny 边缘点。设每个边缘像素

的梯度方向为

。如果边缘像素

在笔画边缘上，那么梯度方向

应大致垂直于笔画的边缘。射线公式，即：

其中，

。根据射线公式查找，直到找到另一个边缘像素点

。设像素点

的梯度方向为

。（1）如果

的方向与

大致相反，则在笔画宽度变换输出图中，对应于原图像素点的值s 将被分配笔画向量，其大小为

，方向是沿着线段

的方向。（2）如果未找到边缘像素点

，或者如果

的方向与

不相反，则舍弃这一条射线。

沿射线查找笔画宽度向量，直到检测完所有的Canny 边缘点。每个像素都分配了有效的笔画宽度，则由像素点和笔画宽度构成了输出图，获得具有单个字符的候选字符区域。

D3. 利用几何约束去除误报。

具体地，上述几何约束条件包括：

，

，

,

其中，

表示包围框的面积，

表示原图的面积，

表示包围框的宽，

表示原图的宽，

表示包围框的高，

表示原图的高。步骤D2中获得的候选字符区域若满足所述全部几何约束，则保留；若不满足其中任意一项几何约束，则去除。

E. 通过几何关系、位置关系将步骤D中候选字符组合成候选文本行。

依照同一个单词内笔画宽度相近以及字符距离相近的特征，将候选字符组合成候选文本行。具体地，同时满足以下条件时对候选字符进行组合：

，

其中，

与

分别表示两个候选字符的笔画宽度，

与

分别表示两个候选字符的质心的横坐标，

与

分别表示两个候选字符的质心的纵坐标。

依照单词间的距离大于字符间的距离的特征，利用游程平滑算法将候选文本行分割成单词文本行。具体地，满足以下条件时候选文本行进行分割：

其中，

表示候选文本行内候选字符间的包围框的距离，

以及

表示候选文本行内所有

的均值和标准差。

为了验证本发明的性能，运用Matlab 2014a编程实现上述的改进算法，该代码运行的操作系统为Ubuntu 14.04 LTS、处理器为Intel@ CoreTM i7-4790K、显卡为Titan XGPU。本发明选择STV2k 数据库作为实验测试数据集，其中STV2k 数据库中的图像采自中国厦门的街道，其中包含了大量中文文本。所有的样本均为48×48 像素的裁剪图像。

表一：本发明方法在STV2k 数据库上与目前的其他方法的比较结果。其中，字体加粗表示最优结果。

方法	精确度（%）	召回率（%）	F值（%）	运行时间（秒）
					Yi等人	12.72	1.78	3.12	3.46
Jaderberg等人	8.68	3.34	4.82	131.00
					本发明方法	45.75	3.58	6.63	3.00

对比的文本检测方法包括：Yi等人的方法（C. Yi, Y. Tian. Text StringDetection from Natural Scenes by Structure-Based Partition and Grouping[J].IEEE Transactions on Image Processing. 2011. 20(9):2594–2605）以及Jaderberg等人的方法（M. Jaderberg, A. Vedaldi, A. Zisserman. Deep Features for TextSpotting[M]. Cham: Springer International Publishing, 2014, 512–528）。从表一中可以看出，本发明方法的性能表现在精确度、召回率、F值、运行时间上获得的结果均优于Yi等人的方法。值得注意的是，在表一中本发明方法的精确度达到45.75%，比Yi 等人的方法（12.72%）高了33.03%。

综上所述，本发明提出的基于笔画宽度变换与卷积神经网络的场景文本检测方法可以有效地检测出场景图像中的文本。相比其他文本检测方法，本发明方法的检测结果精确度较高，不受语言限制，而且检测速率较快。

上述仅为本发明的具体实施方式，但本发明的设计构思并不局限于此，凡利用此构思对本发明进行非实质性的改动，均应属于侵犯本发明保护范围的行为。

Claims

1.基于笔画宽度变换与卷积神经网络的场景文本检测方法，其特征在于,包括以下步骤：

A. 准备训练数据集，通过卷积神经网络基于Bootstrap策略训练文本二分类器；

B. 利用最大稳定极值区域算法从图像中获得候选文本区域；

C. 利用所述文本二分类器对所述候选文本区域进行分类；步骤C包括以下子步骤：C1.将步骤B中获得的候选文本区域大小调整为48×48像素；如果候选文本区域的宽度大于其高度，那么直接将候选文本区域大小调整为48×48像素；如果候选文本区域的高度大于其宽度，则提取跟其具有相同中心且边长等于其高度的正方形区域，并将正方形区域大小调整为48×48像素； C2. 通过所述文本二分类器获得二分类结果，即每个候选文本区域获得一个置信度分数； C3. 去除置信度分数小于阈值0.5的候选文本区域，获得步骤C的检测结果；

D. 在所述候选文本区域中，基于笔画宽度变换算法获得候选字符，通过几何约束过滤候选字符，去除误报；步骤D包括以下子步骤： D1.保留置信度分数大于等于阈值1且包围框宽高比

满足0.5<

<1.5的候选文本区域，不进行笔画宽度变换，认定其为候选字符；D2. 对置信度分数大于等于阈值0.5且小于阈值1的候选文本区域将进行笔画宽度变换；利用Canny边缘检测器检测出图像中的边缘点；沿射线查找笔画宽度向量，直到检测完所有的Canny 边缘点；每个像素都分配了有效的笔画宽度，则由像素点和笔画宽度构成了输出图，获得具有单个字符的候选字符区域； D3. 利用几何约束去除误报；步骤D3中的几何约束包括：

，

，

,

，其中，

表示包围框的面积，

表示原图的面积，

表示包围框的宽，

表示原图的宽，

表示包围框的高，

表示原图的高；步骤D2中获得的候选字符区域若满足所述全部几何约束，则保留；若不满足其中任意一项几何约束，则去除；

E. 通过几何关系、位置关系将步骤D中所得候选字符组合成候选文本行。

2.根据权利要求1所述的基于笔画宽度变换与卷积神经网络的场景文本检测方法，其特征在于：所述步骤A具体包括以下子步骤：

A1.获得的训练数据集包括：包含文本图像的正样本图像集以及不包含文本图像的负样本图像集；所有正样本图像集和负样本图像集中的样本均为48×48像素的裁剪图像；

A2.在训练过程中，将完成初步训练的文本二分类器转化为全卷积模型；通过该全卷积模型进行文本检测，将获得的误检及漏检文本区域加入到训练数据集中，来获得更多样本图像；将全部样本图像输入到原有网络中重新训练文本二分类器，直至文本二分类器在文本数据集上的精确度达到稳定值且不再提升，即基于Bootstrap策略的训练方式。

3.根据权利要求1所述的基于笔画宽度变换与卷积神经网络的场景文本检测方法，其特征在于：所述步骤B具体包括以下子步骤：

B1. 预处理图像，即将原图转换为灰度图；

B2. 提取灰度图的最大稳定极值区域；

4.根据权利要求1所述的基于笔画宽度变换与卷积神经网络的场景文本检测方法，其特征在于：所述步骤C具体包括以下子步骤：

C1. 将步骤B中获得的候选文本区域大小调整为48×48像素；如果候选文本区域的宽度大于其高度，那么直接将候选文本区域大小调整为48×48像素；如果候选文本区域的高度大于其宽度，则提取跟其具有相同中心且边长等于其高度的正方形区域，并将正方形区域大小调整为48×48像素；

C2. 通过所述文本二分类器获得二分类结果，即每个候选文本区域获得一个置信度分数；

5.根据权利要求1所述的基于笔画宽度变换与卷积神经网络的场景文本检测方法，其特征在于：所述步骤E包括以下子步骤：

E1. 依照同一个单词内笔画宽度相近以及字符距离相近的特征，将候选字符组合成候选文本行；

E2. 依照单词间的距离大于字符间的距离的特征，利用游程平滑算法将候选文本行分割成单词文本行。

6.根据权利要求5所述的基于笔画宽度变换与卷积神经网络的场景文本检测方法，其特征在于：所述步骤E1中，对同时满足