CN109117841B - 基于笔画宽度变换与卷积神经网络的场景文本检测方法 - Google Patents

基于笔画宽度变换与卷积神经网络的场景文本检测方法 Download PDF

Info

Publication number
CN109117841B
CN109117841B CN201811021712.6A CN201811021712A CN109117841B CN 109117841 B CN109117841 B CN 109117841B CN 201811021712 A CN201811021712 A CN 201811021712A CN 109117841 B CN109117841 B CN 109117841B
Authority
CN
China
Prior art keywords
text
candidate
region
candidate text
stroke width
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811021712.6A
Other languages
English (en)
Other versions
CN109117841A (zh
Inventor
肖苹苹
柯志达
林春敏
彭振文
苏亮
陈卫强
周方明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen King Long United Automotive Industry Co Ltd
Original Assignee
Xiamen King Long United Automotive Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen King Long United Automotive Industry Co Ltd filed Critical Xiamen King Long United Automotive Industry Co Ltd
Priority to CN201811021712.6A priority Critical patent/CN109117841B/zh
Publication of CN109117841A publication Critical patent/CN109117841A/zh
Application granted granted Critical
Publication of CN109117841B publication Critical patent/CN109117841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于笔画宽度变换与卷积神经网络的场景文本检测方法,涉及场景文本检测领域,包括以下步骤:准备训练数据集,通过卷积神经网络基于Bootstrap策略训练文本二分类器;利用最大稳定极值区域算法从图像中获得候选文本区域;利用所述文本二分类器对所述候选文本区域进行分类;在候选文本区域中,基于笔画宽度变换算法获得候选字符,通过几何约束过滤候选字符。本发明的有益效果:本方法基于Bootstrap策略的训练丰富了样本图像的数量与质量;利用笔画宽度变换算法基于确定的候选文本区域提高了检测性能,并将检测级别确定为字符级;基于区域的算法以及大量中文训练样本使得方法有效地检测出中文文本。

Description

基于笔画宽度变换与卷积神经网络的场景文本检测方法
技术领域
本发明涉及场景文本检测领域,尤其是指一种基于笔画宽度变换与卷积神经网络的场景文本检测方法。
背景技术
在无人驾驶技术中,通过感知技术来进行三维环境建模是一项重要的工作。在真实道路场景中存在着许多相关的建模数据,如交通标志牌、车牌、路牌、广告牌中的文本信息。而自然场景图像中的文本检测与识别可用于自动提取其中的文本信息,是计算机视觉中的重要研究方向之一。近年来,研究学者们的研究已经取得了一定的突破,并且搭建了一系列评估数据库。然而,由于图像场景多变、文本多样等因素,在场景图像中进行文本检测与识别仍然存在诸多挑战。
在过去几十年中,许多用于文档文本提取与识别的方法以及光学识别系统已经得到充分开发。Burns 等人(T. J. Burns, J. J. Corso. Robust UnsupervisedSegmentation of Degraded Document Images with Topic Models[C]. Proceedings ofIEEE Conference on Computer Vision and Pattern Recognition. 2009, 1287-1294.)提出了一种用于文档图像的贝叶斯生成模型,基于主题进行图像分区来区分文本、空格和图形。Liang 等人(J. Liang, D. Dementhon, D. Doermann. Geometric Rectificationof Camera-Captured Document Images[J]. IEEE Transactions on Pattern Analysisand Machine Intelligence.2008. 30(4):591.)利用从图像获得的纹理流信息估计3D文档形状来进行平面和弯曲文档的几何矫正。但是,与文档文本不同的是,自然场景文本是以任意形状、大小、字体、方向、透视失真等特点嵌入到拥有复杂背景的图像中,因此对自然场景文本的检测更具有挑战性。
随着深度学习的研究深入,自然场景文本领域的研究学者们提出了许多出色的算法与框架。Huang 等人(W. Huang, Y. Qiao, X. Tang. Robust Scene Text Detectionwith Convolution Neural Network Induced MSER Trees[M]. Cham: SpringerInternational Publishing, 2014, 497-511.)利用最大稳定极值区域算法与卷积神经网络框架进行场景文本检测。通过最大稳定极值区域算法检测获得低层特征。从先前的研究可以得知,该算法可以大量减少滑动窗口的数量来提高检测的速率。然后通过卷积神经网络框架获得高层特征,减少了砖块、窗户等与文本特征相似的成分的干扰,而将低层特征与高层特征相结合明显提高了方法的性能表现。Bai 等人(Z. Zhang, C. Zhang, W. Shen,C. Yao, W. Liu, X. Bai. Multi-Oriented Text Detection with FullyConvolutional Networks[C]. Proceedings of IEEE Conference on Computer Visionand Pattern Recognition. 2016, 4159-4167.)也同样运用高层信息和低层信息来实现文本检测。其通过训练全卷积网络(Fully Convolutional Network,FCN)(J. Long, E.Shelhamer, T. Darrell. Fully Convolutional Networks for Semantic Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2014. 79(10):1337-1342.)获得文本检测器来定位文本行位置,再通过最大稳定极值区域算法确定文本行,最后利用另一个全卷积网络进行候选文本行内的字符分类。第一个全卷积网络的训练样本为3万张500×500像素图像,第二个网络的训练样本为10万张像素的图像。而Huang 等人所用到的网络仅有两层,其训练的样本为32×32像素的图像,包含了5,000张正样本图像和10,000张负样本图像。
从上文所提到的方法可以得知:充分利用文本的低层特征与高层特征有助于文本检测性能表现的提高。由此我们获得启示,在本发明提出了一个基于笔画宽度变换与卷积神经网络的场景文本检测方法。
发明内容
本发明提供一种基于笔画宽度变换与卷积神经网络的场景文本检测方法,其主要目的在于解决现有检测方法在对场景文本进行检测时存在的上述问题。
为解决上述技术问题,本发明采用如下技术方案:
一种基于笔画宽度变换与卷积神经网络的场景文本检测方法,包括以下步骤:A.准备训练数据集,通过卷积神经网络基于Bootstrap策略训练文本二分类器;B. 利用最大稳定极值区域算法从图像中获得候选文本区域;C. 利用所述文本二分类器对所述候选文本区域进行分类;D. 在所述候选文本区域中,基于笔画宽度变换算法获得候选字符,通过几何约束过滤候选字符,去除误报;E. 通过几何关系、位置关系将步骤D中所得候选字符组合成候选文本行。
进一步,所述步骤A具体包括以下子步骤:A1.获得的训练数据集包括:包含文本图像的正样本图像集以及不包含文本图像的负样本图像集;所有正样本图像集和负样本图像集中的样本均为48×48像素的裁剪图像。A2.在训练过程中,将完成初步训练的文本二分类器转化为全卷积模型;通过该全卷积模型进行文本检测,将获得的误检及漏检文本区域加入到训练数据集中,来获得更多样本图像。将全部样本图像输入到原有网络中重新训练文本二分类器,直至文本二分类器在文本数据集上的精确度达到稳定值且不再提升,即基于Bootstrap策略的训练方式。
进一步,所述步骤B具体包括以下子步骤:B1. 预处理图像,即将原图转换为灰度图;B2. 提取灰度图的最大稳定极值区域;B3. 对获得的最大稳定极值区域进行连通域分析,过滤一些明显不包含文本的区域,然后对过滤后的图像区域进行闭运算,获得候选文本区域。
进一步,所述步骤C具体包括以下子步骤:
C1. 将步骤B中获得的候选文本区域大小调整为48×48像素;如果候选文本区域的宽度大于其高度,那么直接将候选文本区域大小调整为48×48像素;如果候选文本区域的高度大于其宽度,则提取跟其具有相同中心且边长等于其高度的正方形区域,并将正方形区域大小调整为48×48像素;C2. 通过所述文本二分类器获得二分类结果,即每个候选文本区域获得一个置信度分数;C3. 去除置信度分数小于阈值0.5的候选文本区域,获得步骤C的检测结果。
进一步,所述步骤D包括以下子步骤:D1.保留置信度分数大于等于阈值1且包围框宽高比
Figure DEST_PATH_IMAGE001
满足0.5<
Figure 738932DEST_PATH_IMAGE002
<1.5的候选文本区域,不进行笔画宽度变换,认定其为候选字符;D2.对置信度分数大于等于阈值0.5且小于阈值1的候选文本区域将进行笔画宽度变换;利用Canny边缘检测器检测出图像中的边缘点;沿射线查找笔画宽度向量,直到检测完所有的Canny 边缘点;每个像素都分配了有效的笔画宽度,则由像素点和笔画宽度构成了输出图,获得具有单个字符的候选字符区域;D3. 利用几何约束去除误报。
更进一步,上述步骤D3中的几何约束包括:
Figure DEST_PATH_IMAGE003
Figure 303906DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
,
Figure 218772DEST_PATH_IMAGE006
,其中,
Figure DEST_PATH_IMAGE007
表示包围框的面积,
Figure 21643DEST_PATH_IMAGE008
表示原图的面积,
Figure DEST_PATH_IMAGE009
表示包围框的宽,
Figure 596719DEST_PATH_IMAGE010
表示原图的宽,
Figure DEST_PATH_IMAGE011
表示包围框的高,
Figure 852251DEST_PATH_IMAGE012
表示原图的高;步骤D2中获得的候选字符区域若满足所述全部几何约束,则保留;若不满足其中任意一项几何约束,则去除。
进一步,所述步骤E包括以下子步骤:E1. 依照同一个单词内笔画宽度相近以及字符距离相近的特征,将候选字符组合成候选文本行;E2. 依照单词间的距离大于字符间的距离的特征,利用游程平滑算法将候选文本行分割成单词文本行。
1、更进一步,上述步骤E1中,对同时满足
Figure DEST_PATH_IMAGE013
,
Figure 836387DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE015
的候选字符进行组合;其中,
Figure 493765DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE017
分别表示两个候选字符的笔画宽度,
Figure 272365DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
分别表示两个候选字符的质心的横坐标,
Figure 313395DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE021
分别表示两个候选字符的质心的纵坐标。
更进一步,上述步骤E2中,对满足
Figure 507747DEST_PATH_IMAGE022
的候选文本行进行分割;其中,
Figure DEST_PATH_IMAGE023
表示候选文本行内候选字符间的包围框的距离,
Figure 488473DEST_PATH_IMAGE024
以及
Figure DEST_PATH_IMAGE025
表示候选文本行内所有
Figure 202089DEST_PATH_IMAGE023
的均值和标准差。
和现有技术相比,本发明产生的有益效果在于:
本发明提出的基于笔画宽度变换与卷积神经网络的场景文本检测方法可以有效地检测出场景图像中的文本。相比其他文本检测方法,本发明方法的检测结果精确度较高,不受语言限制,而且检测速率较快。一方面方法中采用的算法均基于区域,使得方法不受语言限制;另一方面,我们的文本二分类器在训练过程中所采用的数据集采集自中国的街道,其中含有大量的中文字符,因而训练获得的文本二分类器对中文文本的分类效果较为出色。并且,届于现有的方法为了满足检测精度,在检测速度上并不出色,而本发明检测速度快,检测速度级别达到0.1秒/张。
本发明是基于Bootstrap学习策略的深度文本检测方法。由于深度分类器的训练需要大量的训练样本,现有方法在训练样本的选择上需要挑选出大量无噪声的、具有代表性的文本图像。而本发明采用基于Bootstrap学习策略,丰富了样本图像的数量与质量,解决了在文本检测模型训练过程中选择样本图像难题。
基于中文与英文的两种语言的区别,英文一般通过“单词”来理解,而中文需要精确到具体的字符,因此对于中文文本的检测需要精确到字符等级。本发明中,通过笔画宽度算法来区分出字符,使整个算法的检测级别确定为字符级,适应了中文文本的检测要求,还弥补了最大稳定极值算法、文本二分类器在检测级别上的不足。更进一步,对比以往的方法,笔画宽度变换方法是在原图中直接检测文本区域,这使得有更多的干扰因素会影响检测结果。而在本发明中,仅用此来检测已确定的文本区域中的字符,来将整个方法的检测级别精确为字符级,降低了其他因素对检测效果的影响,提高了方法性能。
附图说明
图1为本发明实施例的流程图。
图2为DeepID 网络结构。每个大立方体的长宽高分别表示每一层输出图的维度、大小,立方体内部的长宽高分别表示卷积核的维度、大小,DeepID 层上方数字表示160 维特征,分类层下方数字表示二分类输出。
具体实施方式
下面参照附图说明本发明的具体实施方式。
参见图1和图2,本发明实施例的实施方式包括以下步骤:
A. 准备训练数据集,通过卷积神经网络基于Bootstrap策略训练文本二分类器。其中,训练数据集包含文本图像的正样本图像集以及不包含文本图像的负样本图像集;所有正样本图像集和负样本图像集中的样本均为48×48像素的裁剪图像。
正样本图像以及部分负样本图像采集自我们搭建的采自中国街道的STV2k数据库以及其他现有数据库的训练数据集。利用这些文本数据库的标注数据进行图像裁剪。在整张图像中随机采样矩形窗口,定义这些窗口为裁剪框。基于裁剪框与标注框的比值来选择文本图像和非文本图像。该比值的公式为:
Figure 697792DEST_PATH_IMAGE026
其中,
Figure DEST_PATH_IMAGE027
表示裁剪框与标注框的覆盖面积,
Figure 289310DEST_PATH_IMAGE028
表示裁剪框的面积。如果比值
Figure DEST_PATH_IMAGE029
等于0,表示裁剪框和标注框不相交,则定义该裁剪框为非文本图像,即负样本图像。如果比值
Figure 655701DEST_PATH_IMAGE029
等于1,表示裁剪框包含在标注框中,则定义该裁剪框为文本图像,即正样本图像。
另外一部分负样本图像采集自牛津大学工程科学系视觉几何组公开的图像数据库(例如巴黎数据库、牛津建筑数据库等)。在裁剪这一部分负样本图像之前,先逐张检查,以去除含有文本的图像。然后,在不含有文本的图像中随机随机采样矩形窗口来获得负样本图像。
上述卷积神经网络是陈日伟在基于深度学习的人脸检测方法中所利用的网络。该网络基于Caffe 框架(Convolution Architecture For Feature Extraction),训练采用DeepID(Deep Hidden Identity Features)的网络配置,通过训练优化Soft-max 损失函数来获得文本分类模型。其中,网络的基础学习率base_lr等于0.01。学习率变化方式lr_ policy等于0.01,即学习率进行多项式误差衰减。学习的参数动量momentum等于0.90,权重衰减因子weight_decay等于0.0005。批大小为128。
DeepID网络具体细节如下:
输入为48×48 像素的彩色图像(三维),网络包含了四个卷积层,三个最大值下采样层,接着是DeepID 层,最后利用分类算法Soft-max 做分类训练。其中,DeepID 层与第三个最大值下采样层、第四个卷积层为全连接。这样的连接方式加入了尺度特征,既考虑到局部的特征,又考虑全局的特征。
Soft-max 损失函数为:
Figure 572841DEST_PATH_IMAGE030
其中,
Figure DEST_PATH_IMAGE031
表示训练图像数量的总和。
Figure 290262DEST_PATH_IMAGE032
= 0 表示类别为非文本,
Figure 951050DEST_PATH_IMAGE032
= 1 表示类别为文本。
Figure DEST_PATH_IMAGE033
表示对于每一次训练图像的输入,Soft-max 分类在文本/非文本两种类别中的概率值。
Figure 153972DEST_PATH_IMAGE034
表示对应的损失函数值。
在训练过程中,将完成初步训练的文本二分类器转化为全卷积模型,使之可用于整幅图像的文本检测。通过该模型对训练图像进行文本检测,获得的误检及漏检文本区域。将这些文本区域分别加入到训练数据集的正样本图像集和负样本图像集中,来丰富样本图像的数量与质量。将全部样本图像输入到原有网络中重新训练文本二分类器,直至文本二分类器在文本数据集上的精确度达到稳定值且不再提升。
B. 利用最大稳定极值区域算法从图像中获得候选文本区域。
上述步骤B具体的包括以下子步骤:
B1. 预处理图像,即将原图转换为灰度图;
B2. 提取灰度图的最大稳定极值区域。利用软件matlab自带的函数detectMSERFeature获得最大稳定极值区域,将最大稳定极值区域赋值为1,其他区域赋值为0,获得二值图像。
B3. 对获得的最大稳定极值区域进行连通域分析,过滤一些明显不包含文本的区域,然后对过滤后的图像区域进行闭运算,获得候选文本区域。
C. 利用所述文本二分类器对所述候选文本区域进行分类。
上述步骤C具体的包括以下子步骤:
C1. 将步骤B中获得的候选文本区域大小调整为48×48像素;如果候选文本区域的宽度大于其高度,那么直接将候选文本区域大小调整为48×48像素;如果候选文本区域的高度大于其宽度,则提取跟其具有相同中心且边长等于其高度的正方形区域,并将正方形区域大小调整为48×48像素。
C2. 通过所述文本二分类器获得二分类结果,即每个候选文本区域获得一个置信度分数。
C3. 去除置信度分数小于阈值0.5的候选文本区域,获得步骤C的检测结果。
D. 在上述候选文本区域中,基于笔画宽度变换算法获得候选字符,通过几何约束过滤候选字符,去除误报。其中,上述几何约束包围框的宽、高、宽高比等。
步骤D具体包括以下子步骤:
D1. 保留置信度分数大于等于阈值1且包围框宽高比
Figure 710855DEST_PATH_IMAGE001
满足0.5<
Figure 446730DEST_PATH_IMAGE002
<1.5的候选文本区域,不进行笔画宽度变换,认定其为候选字符;
D2. 对置信度分数大于等于阈值0.5且小于阈值1的候选文本区域将进行笔画宽度变换;利用Canny边缘检测器检测出图像中的边缘点;沿射线查找笔画宽度向量,直到检测完所有的Canny 边缘点。设每个边缘像素
Figure DEST_PATH_IMAGE035
的梯度方向为
Figure 583313DEST_PATH_IMAGE036
。如果边缘像素
Figure 252192DEST_PATH_IMAGE035
在笔画边缘上,那么梯度方向
Figure DEST_PATH_IMAGE037
应大致垂直于笔画的边缘。射线公式,即:
Figure 183239DEST_PATH_IMAGE038
其中,
Figure DEST_PATH_IMAGE039
。根据射线公式查找,直到找到另一个边缘像素点
Figure 170524DEST_PATH_IMAGE040
。设像素点
Figure 110799DEST_PATH_IMAGE040
的梯度方向为
Figure DEST_PATH_IMAGE041
。(1)如果
Figure 368605DEST_PATH_IMAGE041
的方向与
Figure 1711DEST_PATH_IMAGE037
大致相反,则在笔画宽度变换输出图中,对应于原图像素点的值s 将被分配笔画向量,其大小为
Figure 243337DEST_PATH_IMAGE042
,方向是沿着线段
Figure DEST_PATH_IMAGE043
的方向。(2)如果未找到边缘像素点
Figure 629712DEST_PATH_IMAGE040
,或者如果
Figure 742025DEST_PATH_IMAGE041
的方向与
Figure 280453DEST_PATH_IMAGE037
不相反,则舍弃这一条射线。
沿射线查找笔画宽度向量,直到检测完所有的Canny 边缘点。每个像素都分配了有效的笔画宽度,则由像素点和笔画宽度构成了输出图,获得具有单个字符的候选字符区域。
D3. 利用几何约束去除误报。
具体地,上述几何约束条件包括:
Figure 274954DEST_PATH_IMAGE003
Figure 557031DEST_PATH_IMAGE004
Figure 320588DEST_PATH_IMAGE005
,
Figure 29918DEST_PATH_IMAGE006
其中,
Figure 511715DEST_PATH_IMAGE007
表示包围框的面积,
Figure 597482DEST_PATH_IMAGE008
表示原图的面积,
Figure 215545DEST_PATH_IMAGE009
表示包围框的宽,
Figure 361356DEST_PATH_IMAGE010
表示原图的宽,
Figure 64870DEST_PATH_IMAGE011
表示包围框的高,
Figure 688749DEST_PATH_IMAGE012
表示原图的高。步骤D2中获得的候选字符区域若满足所述全部几何约束,则保留;若不满足其中任意一项几何约束,则去除。
E. 通过几何关系、位置关系将步骤D中候选字符组合成候选文本行。
依照同一个单词内笔画宽度相近以及字符距离相近的特征,将候选字符组合成候选文本行。具体地,同时满足以下条件时对候选字符进行组合:
Figure 426898DEST_PATH_IMAGE013
Figure 976566DEST_PATH_IMAGE014
Figure 167376DEST_PATH_IMAGE015
其中,
Figure 594946DEST_PATH_IMAGE016
Figure 187601DEST_PATH_IMAGE017
分别表示两个候选字符的笔画宽度,
Figure 675214DEST_PATH_IMAGE044
Figure 353320DEST_PATH_IMAGE019
分别表示两个候选字符的质心的横坐标,
Figure 319002DEST_PATH_IMAGE020
Figure 766164DEST_PATH_IMAGE021
分别表示两个候选字符的质心的纵坐标。
依照单词间的距离大于字符间的距离的特征,利用游程平滑算法将候选文本行分割成单词文本行。具体地,满足以下条件时候选文本行进行分割:
Figure 424679DEST_PATH_IMAGE022
其中,
Figure 590081DEST_PATH_IMAGE023
表示候选文本行内候选字符间的包围框的距离,
Figure 359454DEST_PATH_IMAGE024
以及
Figure 661122DEST_PATH_IMAGE025
表示候选文本行内所有
Figure 490538DEST_PATH_IMAGE023
的均值和标准差。
为了验证本发明的性能,运用Matlab 2014a编程实现上述的改进算法,该代码运行的操作系统为Ubuntu 14.04 LTS、处理器为Intel@ CoreTM i7-4790K、显卡为Titan XGPU。本发明选择STV2k 数据库作为实验测试数据集,其中STV2k 数据库中的图像采自中国厦门的街道,其中包含了大量中文文本。所有的样本均为48×48 像素的裁剪图像。
表一:本发明方法在STV2k 数据库上与目前的其他方法的比较结果。其中,字体加粗表示最优结果。
方法 精确度(%) 召回率(%) F值(%) 运行时间(秒)
Yi等人 12.72 1.78 3.12 3.46
Jaderberg等人 8.68 3.34 4.82 131.00
本发明方法 45.75 3.58 6.63 3.00
对比的文本检测方法包括:Yi等人的方法(C. Yi, Y. Tian. Text StringDetection from Natural Scenes by Structure-Based Partition and Grouping[J].IEEE Transactions on Image Processing. 2011. 20(9):2594–2605)以及Jaderberg等人的方法(M. Jaderberg, A. Vedaldi, A. Zisserman. Deep Features for TextSpotting[M]. Cham: Springer International Publishing, 2014, 512–528)。从表一中可以看出,本发明方法的性能表现在精确度、召回率、F值、运行时间上获得的结果均优于Yi等人的方法。值得注意的是,在表一中本发明方法的精确度达到45.75%,比Yi 等人的方法(12.72%)高了33.03%。
综上所述,本发明提出的基于笔画宽度变换与卷积神经网络的场景文本检测方法可以有效地检测出场景图像中的文本。相比其他文本检测方法,本发明方法的检测结果精确度较高,不受语言限制,而且检测速率较快。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。

Claims (7)

1.基于笔画宽度变换与卷积神经网络的场景文本检测方法,其特征在于,包括以下步骤:
A. 准备训练数据集,通过卷积神经网络基于Bootstrap策略训练文本二分类器;
B. 利用最大稳定极值区域算法从图像中获得候选文本区域;
C. 利用所述文本二分类器对所述候选文本区域进行分类;步骤C包括以下子步骤:C1.将步骤B中获得的候选文本区域大小调整为48×48像素;如果候选文本区域的宽度大于其高度,那么直接将候选文本区域大小调整为48×48像素;如果候选文本区域的高度大于其宽度,则提取跟其具有相同中心且边长等于其高度的正方形区域,并将正方形区域大小调整为48×48像素; C2. 通过所述文本二分类器获得二分类结果,即每个候选文本区域获得一个置信度分数; C3. 去除置信度分数小于阈值0.5的候选文本区域,获得步骤C的检测结果;
D. 在所述候选文本区域中,基于笔画宽度变换算法获得候选字符,通过几何约束过滤候选字符,去除误报;步骤D包括以下子步骤: D1.保留置信度分数大于等于阈值1且包围框宽高比
Figure DEST_PATH_IMAGE002
满足0.5<
Figure DEST_PATH_IMAGE004
<1.5的候选文本区域,不进行笔画宽度变换,认定其为候选字符;D2. 对置信度分数大于等于阈值0.5且小于阈值1的候选文本区域将进行笔画宽度变换;利用Canny边缘检测器检测出图像中的边缘点;沿射线查找笔画宽度向量,直到检测完所有的Canny 边缘点;每个像素都分配了有效的笔画宽度,则由像素点和笔画宽度构成了输出图,获得具有单个字符的候选字符区域; D3. 利用几何约束去除误报;步骤D3中的几何约束包括:
Figure DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE010
,
Figure DEST_PATH_IMAGE012
,其中,
Figure DEST_PATH_IMAGE014
表示包围框的面积,
Figure DEST_PATH_IMAGE016
表示原图的面积,
Figure DEST_PATH_IMAGE018
表示包围框的宽,
Figure DEST_PATH_IMAGE020
表示原图的宽,
Figure DEST_PATH_IMAGE022
表示包围框的高,
Figure DEST_PATH_IMAGE024
表示原图的高;步骤D2中获得的候选字符区域若满足所述全部几何约束,则保留;若不满足其中任意一项几何约束,则去除;
E. 通过几何关系、位置关系将步骤D中所得候选字符组合成候选文本行。
2.根据权利要求1所述的基于笔画宽度变换与卷积神经网络的场景文本检测方法,其特征在于:所述步骤A具体包括以下子步骤:
A1.获得的训练数据集包括:包含文本图像的正样本图像集以及不包含文本图像的负样本图像集;所有正样本图像集和负样本图像集中的样本均为48×48像素的裁剪图像;
A2.在训练过程中,将完成初步训练的文本二分类器转化为全卷积模型;通过该全卷积模型进行文本检测,将获得的误检及漏检文本区域加入到训练数据集中,来获得更多样本图像;将全部样本图像输入到原有网络中重新训练文本二分类器,直至文本二分类器在文本数据集上的精确度达到稳定值且不再提升,即基于Bootstrap策略的训练方式。
3.根据权利要求1所述的基于笔画宽度变换与卷积神经网络的场景文本检测方法,其特征在于:所述步骤B具体包括以下子步骤:
B1. 预处理图像,即将原图转换为灰度图;
B2. 提取灰度图的最大稳定极值区域;
B3. 对获得的最大稳定极值区域进行连通域分析,过滤一些明显不包含文本的区域,然后对过滤后的图像区域进行闭运算,获得候选文本区域。
4.根据权利要求1所述的基于笔画宽度变换与卷积神经网络的场景文本检测方法,其特征在于:所述步骤C具体包括以下子步骤:
C1. 将步骤B中获得的候选文本区域大小调整为48×48像素;如果候选文本区域的宽度大于其高度,那么直接将候选文本区域大小调整为48×48像素;如果候选文本区域的高度大于其宽度,则提取跟其具有相同中心且边长等于其高度的正方形区域,并将正方形区域大小调整为48×48像素;
C2. 通过所述文本二分类器获得二分类结果,即每个候选文本区域获得一个置信度分数;
C3. 去除置信度分数小于阈值0.5的候选文本区域,获得步骤C的检测结果。
5.根据权利要求1所述的基于笔画宽度变换与卷积神经网络的场景文本检测方法,其特征在于:所述步骤E包括以下子步骤:
E1. 依照同一个单词内笔画宽度相近以及字符距离相近的特征,将候选字符组合成候选文本行;
E2. 依照单词间的距离大于字符间的距离的特征,利用游程平滑算法将候选文本行分割成单词文本行。
6.根据权利要求5所述的基于笔画宽度变换与卷积神经网络的场景文本检测方法,其特征在于:所述步骤E1中,对同时满足
Figure DEST_PATH_IMAGE026
,
Figure DEST_PATH_IMAGE028
Figure DEST_PATH_IMAGE030
的候选字符进行组合;其中,
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE034
分别表示两个候选字符的笔画宽度,
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE038
分别表示两个候选字符的质心的横坐标,
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE042
分别表示两个候选字符的质心的纵坐标。
7.根据权利要求5或6所述的基于笔画宽度变换与卷积神经网络的场景文本检测方法,其特征在于:所述步骤E2中,对满足
Figure DEST_PATH_IMAGE044
的候选文本行进行分割;其中,
Figure DEST_PATH_IMAGE046
表示候选文本行内候选字符间的包围框的距离,
Figure DEST_PATH_IMAGE048
以及
Figure DEST_PATH_IMAGE050
表示候选文本行内所有
Figure 798886DEST_PATH_IMAGE046
的均值和标准差。
CN201811021712.6A 2018-09-03 2018-09-03 基于笔画宽度变换与卷积神经网络的场景文本检测方法 Active CN109117841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811021712.6A CN109117841B (zh) 2018-09-03 2018-09-03 基于笔画宽度变换与卷积神经网络的场景文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811021712.6A CN109117841B (zh) 2018-09-03 2018-09-03 基于笔画宽度变换与卷积神经网络的场景文本检测方法

Publications (2)

Publication Number Publication Date
CN109117841A CN109117841A (zh) 2019-01-01
CN109117841B true CN109117841B (zh) 2020-12-11

Family

ID=64861810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811021712.6A Active CN109117841B (zh) 2018-09-03 2018-09-03 基于笔画宽度变换与卷积神经网络的场景文本检测方法

Country Status (1)

Country Link
CN (1) CN109117841B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740548B (zh) * 2019-01-08 2020-12-08 北京易道博识科技有限公司 一种报销票据图像分割方法及系统
CN110991448A (zh) * 2019-11-27 2020-04-10 云南电网有限责任公司电力科学研究院 电力设备铭牌图像的文本检测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106384112A (zh) * 2016-09-08 2017-02-08 西安电子科技大学 基于多通道多尺度与级联过滤器的快速图像文本检测方法
CN108256493A (zh) * 2018-01-26 2018-07-06 中国电子科技集团公司第三十八研究所 一种基于车载视频的交通场景文字识别系统及识别方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9245191B2 (en) * 2013-09-05 2016-01-26 Ebay, Inc. System and method for scene text recognition
US9785856B2 (en) * 2016-02-29 2017-10-10 Konica Minolta Laboratory U.S.A., Inc. Repairing holes in images

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106384112A (zh) * 2016-09-08 2017-02-08 西安电子科技大学 基于多通道多尺度与级联过滤器的快速图像文本检测方法
CN108256493A (zh) * 2018-01-26 2018-07-06 中国电子科技集团公司第三十八研究所 一种基于车载视频的交通场景文字识别系统及识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Detecting Text in Natural Scenes with Stroke Width Transform;Boris Epshtein 等;《IEEE》;20100805;第2963-2970页 *
Luka'sˇ Neumann 等.Real-Time Scene Text Localization and Recognition.《IEEE》.2012,第3538-3545页. *
Robust Scene Text Detection with Convolution Neural Network Induced MSER Trees;Weilin Huang 等;《SpringerLink》;20141231;第497-511页 *
最大稳定极值区域与笔画宽度变换的自然场景文本提取方法;张国和 等;《西安交通大学学报》;20170131;第51卷(第1期);第135-140页 *

Also Published As

Publication number Publication date
CN109117841A (zh) 2019-01-01

Similar Documents

Publication Publication Date Title
CN110032998B (zh) 自然场景图片的文字检测方法、系统、装置和存储介质
CN106909902B (zh) 一种基于改进的层次化显著模型的遥感目标检测方法
CN111753828B (zh) 一种基于深度卷积神经网络的自然场景水平文字检测方法
CN110580699A (zh) 基于改进Faster RCNN算法的病理图像细胞核检测方法
Alidoost et al. A CNN-based approach for automatic building detection and recognition of roof types using a single aerial image
CN110298227B (zh) 一种基于深度学习的无人机航拍图像中的车辆检测方法
CN111738055B (zh) 多类别文本检测系统和基于该系统的票据表单检测方法
CN104850822B (zh) 基于多特征融合的简单背景下的叶片识别方法
CN111460927B (zh) 对房产证图像进行结构化信息提取的方法
CN110909724B (zh) 一种多目标图像的缩略图生成方法
CN110180186A (zh) 一种地形图转换方法及系统
CN111914698A (zh) 图像中人体的分割方法、分割系统、电子设备及存储介质
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN116030396B (zh) 一种用于视频结构化提取的精确分割方法
CN115424017B (zh) 一种建筑物内外轮廓分割方法、装置及存储介质
CN113159215A (zh) 一种基于Faster Rcnn的小目标检测识别方法
CN116311310A (zh) 一种结合语义分割和序列预测的通用表格识别方法和装置
CN113762269A (zh) 基于神经网络的中文字符ocr识别方法、系统、介质及应用
CN109117841B (zh) 基于笔画宽度变换与卷积神经网络的场景文本检测方法
CN113780276A (zh) 一种结合文本分类的文本检测和识别方法及系统
CN113160185A (zh) 一种利用生成边界位置指导宫颈细胞分割的方法
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及系统
CN116740758A (zh) 一种防止误判的鸟类图像识别方法及系统
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN113971809A (zh) 一种基于深度学习的文本识别方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant