CN105825216A - 一种复杂背景图像中的文本定位方法 - Google Patents

一种复杂背景图像中的文本定位方法 Download PDF

Info

Publication number
CN105825216A
CN105825216A CN201610153384.XA CN201610153384A CN105825216A CN 105825216 A CN105825216 A CN 105825216A CN 201610153384 A CN201610153384 A CN 201610153384A CN 105825216 A CN105825216 A CN 105825216A
Authority
CN
China
Prior art keywords
msers
text
region
bar
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610153384.XA
Other languages
English (en)
Inventor
谢洪涛
刘顺
谭建龙
戴琼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201610153384.XA priority Critical patent/CN105825216A/zh
Publication of CN105825216A publication Critical patent/CN105825216A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种复杂背景图像中的文本定位方法。本方法为:1)在待处理的彩色图像的R、G和B三个通道上分别使用MSERs算法进行处理,得到对应三个通道上的MSERs区域;然后将得到的结果标记在该彩色图像上,得到每个MSERs区域在彩色图像上的坐标;2)进行初步去噪,去掉判断为重复的MSERs区域和非文本的MSERs区域,得到候选MSERs区域;3)从得到的候选MSERs区域中提取设定特征,然后利用一基于该设定特征训练的分类器对候选MSERs区域分类,得到包含文本的MSERs区域,即文本块;4)将得到的文本块连接成文本条;5)对得到的文本条进行去重处理。本发明大大提高了文本定位效率。

Description

一种复杂背景图像中的文本定位方法
技术领域
本发明属于图像处理的范畴,是一种基于MSERs复杂背景图像中的文本定位方法。
背景技术
图片中的文本往往包含有价值的信息,并且在很多基于内容的图片和图像应用中被开发,像基于内容的网络图片查找,图像信息检索,和自动文本分析和识别。由于背景,文本方向、颜色、大小,字体的复杂性,在文本被识别和检索前需要鲁棒地检测到。许多研究者把光学字符识别(OCR)看作一个已经解决的问题,而对于图像中文本的检测和识别这个领域还有很大的研究空间。国际上对于图像中文本检测和识别的研究已经进行了很多年,有很多相关的国际竞赛。RobustReading竞赛(2003,2005,2011,2013),Camera-basedDocumentAnalysisAndRecognition(2005-2013,一年两次)。
场景文本检测的方法大致分为三类:基于滑动窗的方法,基于成分连接的方法,混合方法。
本文中使用的MaximallyStableExtremalRegions(MSERs,最大稳定极值区域)可以归为基于成分连接的方法。MSERs(MaximallyStableExtremalRegions,最大稳定极值区域)该算法最早是由Matas等人于2002年提出,它是基于分水岭的概念,最早用于斑点检测,后来越来越多的研究者使用它来进行图像中的文本检测。MSER的基本原理是对一幅灰度图像(灰度值为0~255)取阈值进行二值化处理,阈值从0到255依次递增。阈值的递增类似于分水岭算法中的水面的上升,随着水面的上升,有一些较矮的丘陵会被淹没,如果从天空往下看,则大地分为陆地和水域两个部分,这类似于二值图像。在得到的所有二值图像中,图像中的某些连通区域变化很小,甚至没有变化,则该区域就被称为最大稳定极值区域。数学原理如下:
图像I作为一个映射I:极值区域可以定义在图片上,如果:
1.S是完全有序的S={1,2,…255}
2.定义一个连接关系
区域Q是D的连续子集。
区域边缘:
极值区域(ERs):对对所有(或者)。
最大稳定极值区域(MSERs):对于一组内嵌的极值区域 对于q(i)=|Qi+Δ-Qi-Δ|/Qi当且仅当在i处取到局部最小值时,就称Qi是最稳定的,其中,h∈S。
发明内容
本发明的主要目的在于提供一种复杂背景图像中的文本定位方法。
本发明的技术方案为:
一种复杂背景图像中的文本定位方法,其步骤为:
1)在待处理的彩色图像的R、G和B三个通道上分别使用MSERs算法进行处理,得到对应三个通道上的MSERs区域;然后将得到的结果标记在该彩色图像上,得到每个MSERs区域在彩色图像上的坐标;
2)对得到的MSERs区域进行初步去噪,去掉判断为重复的MSERs区域和非文本的MSERs区域,得到候选MSERs区域;
3)从得到的候选MSERs区域中提取设定特征,然后利用一基于该设定特征训练的分类器对候选MSERs区域分类,得到包含文本的MSERs区域,即文本块;
4)将得到的文本块连接成文本条;
5)对得到的文本条进行去重处理。
进一步的,对得到的MSERs区域进行初步去噪的方法为:根据每个MSERs区域在彩色图像上的坐标计算两MSERs区域的重叠面积,将重叠面积占这两个区域合并后的面积比例超过设定比例阈值时,判定这两个MSERs区域是重复的,并去掉其中面积较小的一个MSERs区域;然后计算剩余MSERs区域内包含的小区域数量,如果该MSERs区域包含的小区域数量超过设定阈值,则将该MSERs区域剔除掉;其中将区域的面积与该区域所在MSERs区域面积的比值小于设定阈值的区域称为小区域。
进一步的,将得到的文本块连接成文本条的方法为:将两个文本块之间的距离小于设定距离阈值且相似度大于设定相似度阈值的文本块连接起来,将剩余的独立的文本块连接成文本条,得到一个或多个文本条。
进一步的,所述距离阈值设为该代理处理彩色图像的宽度的8%。
进一步的,对得到的文本条进行去重处理的方法为:采用随机森林分类器对得到的每一文本条进行投票,如果投票率小于设定阈值,则将该文本条作为非文本剔除掉;对于剩余文本条,计算两文本条交叉部分面积占这两文本条合并部分面积的比例,如果该比例超过设定比值,则将面积较小的文本条删除。
进一步的,对得到的文本条进行去重处理的方法为:如果一个文本条包含若干小的文本条,则将这些小的文本条删除。
进一步的,所述设定特征为Hog特征,所述分类器为SVM分类器。
与现有技术相比,本发明的积极效果为:
在我们自己的图像库上进行实验对比,我们方法F-measure达到85%,性能优于已有的state-of-art方法的75.5%,大大提高了文本定位效率。
附图说明
附图为本发明的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明做进一步说明。
MSERs方法往往使用在灰度图上,但是在灰度图上由于在彩色图转化为灰度图的过程中一些信息的丢失,造成一些必要的信息定位不到,所以我们把基于灰度图的MSERs算法扩展到了R,G,B三通道,对于一张彩色图像,我们在这张彩色图像的R,G和B三个通道上分别使用MSERs算法进行处理,在三通道上各设置最小为3的像素变化值和最小区域为30像素的阈值,这样得到三个通道上的MSERs区域,再把得到的结果标记在原来的彩色图像上,得到每个MSERs区域在彩色图像上的坐标,去掉中心坐标和宽高完全一致的区域,最后综合起来进行处理。
由于得到大量的MSERs区域中有很多的噪声即非文本区域,像树叶、人、建筑等等,所以要对得到的MSERs区域要进行去噪声和筛选,即去掉非文本部分、筛选出合适的文本框。对得到的MSERs区域处理主要分为四部分:初步去噪→候选区域筛选→字符块连接→文本去重。
初步去噪:
根据前面得到的区域坐标和宽高信息计算区域是否重叠,如果两个区域重叠在一起且重叠面积超过两个区域面积并的80%,就可以认为这两个区域是重复的。对于重叠区域,去掉其中面积较小的一个,最终去掉一部分重合区域;根据文字的形态特征,文本区域里经常也会包含一些小的区域(将区域的面积与该区域所在MSERs区域面积的比值小于设定阈值的区域称为小区域),只是包含的区域数量往往不会太大,是小于某一个数值的。根据语言中单词(字母)所含有的细小结构不多的特点,我们设置一个阈值为10,如果一个MSERs内包含的较小的MSER区域数量超过这个阈值,则把这个MSERs区域认为成不良区域而剔除掉。通过以上两种操作可以删除一部分重复和简单的非文本区域。
候选区域筛选:
在这一部分训练了一个SVM(SupportVectorMachine,支持向量机)分类器,分类特征是提取的文本块的Hog特征。首先把图像中去噪剩下的MSERs区域规格化为24*32大小,提取其hog(HistogramofOrientedGradient,方向梯度直方图)特征,其中每个MSER区域图像中的块(block)大小为8×8,而每个块中的细胞(cell)大小为4×4,每个细胞中取9个特征。再通过SVM分类器进行文本块(characterorword)或噪声的二类分类,由此分类后得到图像中的包含文本的MSERs区域同时去掉作为噪声的MSERs区域。这些包含文本的MSERs区域即可看作文本块。
文本块连接:
这一步主要是把上一步得到的文本块(characterorword)连接成文本条(text)。根据文本块的高和宽,相互之间的距离等关系,把相临近的(在这里两个文本块之间的距离阈值设为输入图像宽度的8%,在这个距离范围内则认为两个文本块是相临近的)、高度相似的(一个文本块高度高于另一个高度的0.5倍小于2倍)文本块连接起来,于是得到一个或多个文本行。
文本条去重:
在这一部分,一个随机森林分类器被用来筛选那些通过了第一层的文本行。作为一个成熟的分类器算法,随机森林分类器是一个由弱分类器组合成强分类器的分类器,其输出结果由包含的决策树投票决定,其输出的类别概率即是这一类别投票所占的比率。在这一阶段,一系列文本行水平的基于区分文本和非文本的特征被挖掘出来训练随机森林分类器。这些特征的提取步骤如下所示:
1)所有的文本行被归一化为26*122像素。对于彩色图,R,G和B每个颜色通道中的从第2行到第25行和从第2列到第121列每个像素点的梯度都要计算,然后取三通道中的梯度值最大的一个作为彩色图像素的梯度。经过计算以后,可以得到一个包含像素梯度的二维向量。
2)这些梯度值通过L2范数进行规则化
其中ε为梯度向量,而是一个很小的值(这里ε被设置为0.1)。
3)进行简单的池化操作。所有相邻接的2*2块被提取出来,这些块里面的最大值和最小值被挑选出来组成输入向量。
4)最后,总共1440个特征从每个文本行中提取出来。
每个候选文本行是文本的概率等于随机森林中决策树投票为正的比率,这个比率值为一个double类型。如果一个文本行候选作为文本的概率小于一个阈值(本文设为0.3)将被作为非文本而剔除掉。如果两个文本行重叠部分占合并部分面积的90%,这两个文本行就可以认为是重复的文本行。如果两个文本行是重复的,面积比较大的那个会被留下而面积小的会被作为非文本删除。如果一个文本行包含一些小的文本行(面积小于此文本行的一半),那么这些小的文本行也会被删除。当每个文本候选都执行完上面提到的这些步骤,筛选剩下的即为我们想要的文本结果。

Claims (7)

1.一种复杂背景图像中的文本定位方法,其步骤为:
1)在待处理的彩色图像的R、G和B三个通道上分别使用MSERs算法进行处理,得到对应三个通道上的MSERs区域;然后将得到的结果标记在该彩色图像上,得到每个MSERs区域在彩色图像上的坐标;
2)对得到的MSERs区域进行初步去噪,去掉判断为重复的MSERs区域和非文本的MSERs区域,得到候选MSERs区域;
3)从得到的候选MSERs区域中提取设定特征,然后利用一基于该设定特征训练的分类器对候选MSERs区域分类,得到包含文本的MSERs区域,即文本块;
4)将得到的文本块连接成文本条;
5)对得到的文本条进行去重处理。
2.如权利要求1所述的方法,其特征在于,对得到的MSERs区域进行初步去噪的方法为:根据每个MSERs区域在彩色图像上的坐标计算两MSERs区域的重叠面积,将重叠面积占这两个区域合并后的面积比例超过设定比例阈值时,判定这两个MSERs区域是重复的,并去掉其中面积较小的一个MSERs区域;然后计算剩余MSERs区域内包含的小区域数量,如果该MSERs区域包含的小区域数量超过设定阈值,则将该MSERs区域剔除掉;其中将区域的面积与该区域所在MSERs区域面积的比值小于设定阈值的区域称为小区域。
3.如权利要求1所述的方法,其特征在于,将得到的文本块连接成文本条的方法为:将两个文本块之间的距离小于设定距离阈值且相似度大于设定相似度阈值的文本块连接起来,将剩余的独立的文本块连接成文本条,得到一个或多个文本条。
4.如权利要求3所述的方法,其特征在于,所述距离阈值设为该代理处理彩色图像的宽度的8%。
5.如权利要求1所述的方法,其特征在于,对得到的文本条进行去重处理的方法为:采用随机森林分类器对得到的每一文本条进行投票,如果投票率小于设定阈值,则将该文本条作为非文本剔除掉;对于剩余文本条,计算两文本条交叉部分面积占这两文本条合并部分面积的比例,如果该比例超过设定比值,则将面积较小的文本条删除。
6.如权利要求5所述的方法,其特征在于,对得到的文本条进行去重处理的方法为:如果一个文本条包含若干小的文本条,则将这些小的文本条删除。
7.如权利要求1~6任一所述的方法,其特征在于,所述设定特征为Hog特征,所述分类器为SVM分类器。
CN201610153384.XA 2016-03-17 2016-03-17 一种复杂背景图像中的文本定位方法 Pending CN105825216A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610153384.XA CN105825216A (zh) 2016-03-17 2016-03-17 一种复杂背景图像中的文本定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610153384.XA CN105825216A (zh) 2016-03-17 2016-03-17 一种复杂背景图像中的文本定位方法

Publications (1)

Publication Number Publication Date
CN105825216A true CN105825216A (zh) 2016-08-03

Family

ID=56524622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610153384.XA Pending CN105825216A (zh) 2016-03-17 2016-03-17 一种复杂背景图像中的文本定位方法

Country Status (1)

Country Link
CN (1) CN105825216A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326921A (zh) * 2016-08-18 2017-01-11 宁波傲视智绘光电科技有限公司 文本检测方法和装置
CN106846339A (zh) * 2017-02-13 2017-06-13 广州视源电子科技股份有限公司 一种图像检测方法和装置
CN107066972A (zh) * 2017-04-17 2017-08-18 武汉理工大学 基于多通道极值区域的自然场景文本检测方法
CN107145888A (zh) * 2017-05-17 2017-09-08 重庆邮电大学 视频字幕实时翻译方法
CN107563379A (zh) * 2017-09-02 2018-01-09 西安电子科技大学 用于对自然场景图像中文本的定位方法
CN109284751A (zh) * 2018-10-31 2019-01-29 河南科技大学 基于频谱分析和svm的文字定位的非文本滤除方法
CN111612003A (zh) * 2019-02-22 2020-09-01 北京京东尚科信息技术有限公司 一种提取图片中的文本的方法和装置
CN114708580A (zh) * 2022-04-08 2022-07-05 北京百度网讯科技有限公司 文本识别、模型训练方法、装置、设备、存储介质及程序
CN114743025A (zh) * 2022-03-18 2022-07-12 北京理工大学 基于灰度稳定性的提高抗干扰性能的目标显著性检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136523A (zh) * 2012-11-29 2013-06-05 浙江大学 一种自然图像中任意方向文本行检测方法
CN104182750A (zh) * 2014-07-14 2014-12-03 上海交通大学 一种在自然场景图像中基于极值连通域的中文检测方法
US20150193667A1 (en) * 2014-01-08 2015-07-09 Qualcomm Incorporated Processing text images with shadows
CN105005764A (zh) * 2015-06-29 2015-10-28 东南大学 自然场景多方向文本检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136523A (zh) * 2012-11-29 2013-06-05 浙江大学 一种自然图像中任意方向文本行检测方法
US20150193667A1 (en) * 2014-01-08 2015-07-09 Qualcomm Incorporated Processing text images with shadows
CN104182750A (zh) * 2014-07-14 2014-12-03 上海交通大学 一种在自然场景图像中基于极值连通域的中文检测方法
CN105005764A (zh) * 2015-06-29 2015-10-28 东南大学 自然场景多方向文本检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
江彤: "层次化的自然场景文本检测算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
陈健: "自然场景的中文文本定位技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326921A (zh) * 2016-08-18 2017-01-11 宁波傲视智绘光电科技有限公司 文本检测方法和装置
CN106326921B (zh) * 2016-08-18 2020-01-31 宁波傲视智绘光电科技有限公司 文本检测方法
CN106846339A (zh) * 2017-02-13 2017-06-13 广州视源电子科技股份有限公司 一种图像检测方法和装置
CN107066972B (zh) * 2017-04-17 2019-06-21 武汉理工大学 基于多通道极值区域的自然场景文本检测方法
CN107066972A (zh) * 2017-04-17 2017-08-18 武汉理工大学 基于多通道极值区域的自然场景文本检测方法
CN107145888A (zh) * 2017-05-17 2017-09-08 重庆邮电大学 视频字幕实时翻译方法
CN107563379B (zh) * 2017-09-02 2019-12-24 西安电子科技大学 用于对自然场景图像中文本的定位方法
CN107563379A (zh) * 2017-09-02 2018-01-09 西安电子科技大学 用于对自然场景图像中文本的定位方法
CN109284751A (zh) * 2018-10-31 2019-01-29 河南科技大学 基于频谱分析和svm的文字定位的非文本滤除方法
CN111612003A (zh) * 2019-02-22 2020-09-01 北京京东尚科信息技术有限公司 一种提取图片中的文本的方法和装置
CN114743025A (zh) * 2022-03-18 2022-07-12 北京理工大学 基于灰度稳定性的提高抗干扰性能的目标显著性检测方法
CN114708580A (zh) * 2022-04-08 2022-07-05 北京百度网讯科技有限公司 文本识别、模型训练方法、装置、设备、存储介质及程序
CN114708580B (zh) * 2022-04-08 2024-04-16 北京百度网讯科技有限公司 文本识别、模型训练方法、装置、设备、存储介质及程序

Similar Documents

Publication Publication Date Title
CN105825216A (zh) 一种复杂背景图像中的文本定位方法
Ladický et al. What, where and how many? combining object detectors and crfs
US8655070B1 (en) Tree detection form aerial imagery
Shahab et al. ICDAR 2011 robust reading competition challenge 2: Reading text in scene images
CN102054178B (zh) 一种基于局部语义概念的国画图像识别方法
CN104408449B (zh) 智能移动终端场景文字处理方法
CN105528575B (zh) 基于上下文推理的天空检测方法
CN110766020A (zh) 一种面向多语种自然场景文本检测与识别的系统及方法
CN106875546A (zh) 一种增值税发票的识别方法
CN101122952A (zh) 一种图片文字检测的方法
Jamil et al. Edge-based features for localization of artificial Urdu text in video images
CN105574063A (zh) 基于视觉显著性的图像检索方法
CN106845513A (zh) 基于条件随机森林的人手检测器及方法
Yang et al. Regionwise classification of building facade images
CN106127817A (zh) 一种基于通道的图像二值化方法
Yang et al. Tree detection from aerial imagery
CN110008899B (zh) 一种可见光遥感图像候选目标提取与分类方法
CN110929746A (zh) 一种基于深度神经网络的电子卷宗标题定位提取与分类方法
Akhand et al. Convolutional Neural Network based Handwritten Bengali and Bengali-English Mixed Numeral Recognition.
CN113505670A (zh) 基于多尺度cam和超像素的遥感图像弱监督建筑提取方法
CN103186776A (zh) 基于多特征和深度信息的人体检测方法
CN112819837A (zh) 一种基于多源异构遥感影像的语义分割方法
Chen et al. Page segmentation for historical handwritten document images using conditional random fields
Khan et al. Comparitive study of tree counting algorithms in dense and sparse vegetative regions
CN102136074A (zh) 一种基于mmi的木材图像纹理分析与识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160803