CN101901344A - 基于腐蚀方法和DoG算子检测文字图像局部特征的方法 - Google Patents
基于腐蚀方法和DoG算子检测文字图像局部特征的方法 Download PDFInfo
- Publication number
- CN101901344A CN101901344A CN 201010252373 CN201010252373A CN101901344A CN 101901344 A CN101901344 A CN 101901344A CN 201010252373 CN201010252373 CN 201010252373 CN 201010252373 A CN201010252373 A CN 201010252373A CN 101901344 A CN101901344 A CN 101901344A
- Authority
- CN
- China
- Prior art keywords
- point
- unique point
- character image
- yardstick
- local feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
一种图像处理技术领域的基于腐蚀方法和DoG算子检测文字图像局部特征的方法。包括以下步骤:对于给定的文字图像,用MSER方法得到文字的连通区域;对得到的每一个文字连通区域,用改进的迭代腐蚀方法检测文字的端点和角点,然后合并相似的点,得到腐蚀方法后的特征点;对于步骤一中的文字图像,用DoG算子检测文字图像中尺度空间中稳定的特征点;合并步骤二和步骤三中相似的特征点,合并后的特征点为丰富的文字局部特征信息,即得到最终文字图像总的特征点。本发明腐蚀方法能够精确的定位文字的端点和角点,DoG算子对尺度、仿射变化、旋转、噪声等因素有很好的鲁棒性,能够提供更丰富的文字局部特征信息。
Description
技术领域
本发明涉及的是一种图像处理技术领域的检测方法,具体是一种基于腐蚀方法和DoG(difference of Gauss即高斯差分)算子检测文字图像局部特征的方法。
背景技术
文字定位和识别一直以来都是图像处理和计算机视觉检测领域的一个重要研究分支。在计算机视觉中,检测局部特征已经得到了成功的应用,比如图像检索、物体识别、文理识别等。目前,已经有很多性能很好的局部特征检测子和描述子,他们具有很高的显著性,对旋转、尺度变化、噪声等有很好的鲁棒性。但是局部特征还没有在文字识别中得到广泛的实际应用。
经过对现有文献的检索发现,传统的文字识别技术是基于OCR(Optical CharacterRecognition)技术,例如X.Chen和A.Yuille在2004年CVPR上发表的论文”Detectingand Reading Text in Natural Scenes.”(“自然场景中文本的检测和识别”),以及K.Jung,K.I.Kim和A.K.Jain在2004年Pattern Recognition上发表的论文”Text informationextraction in images and video:a survey.”(“图像和视频中的文本提取:综述”)。但是在实际应用中,OCR面临的问题主要是抗干扰能力差,例如图像中文字的倾斜、扭曲、断裂、对比度差以及复杂背景等因素。
又经过对现有文献检索发现,Kumar,S在2007年IEEE Transactions on Image Processing上发表的论文”Text extraction and document image segmentation using matched wavel etsand mrf”(“用匹配的wavelets和mrf进行文本提取和文本图像分割”)提出一种全局匹配的小波和Fisher分类器提取文本图像和场景图像中的文本。U.Pal在2007年Proceedings ofthe 9th International Conference on Document Analysis and Recognition上发表的论文”Off-Line Handwritten Character Recognition of Devnagari Script”(“Devnagari的离线手写文字识别”)中提出用灰度特征和模糊神经网络的方法对Devnagari字体进行识别,但是这种方法不能处理背景或者前景变化的文字识别.Campos在2009年ICCV上发表的”CHARACTER RECOGNITION IN NATURE IMAGES.”(自然场景中的文字识别)中用局部特征和bag-of-words的方法识别单字英文和卡纳德语,但是识别率低于70%,而且对于复杂背景中的文字识别效果差。
发明内容
本发明的目的在于克服现有技术中的不足和缺陷,提供了一种基于腐蚀方法和DoG算子检测文字图像局部特征的方法,本发明解决由于文字特征点数少导致的识别率差的问题。文字的特征点主要是文字的端点和角点,目前大部分的腐蚀方法都能够检测到文字的端点,而大部分角点则被腐蚀掉,因此为了精确定位文字的端点和角点,保留文字结构丰富的局部特征信息,结合改进了腐蚀方法和DOG算子的局部特征检测方法。
本发明是通过以下技术方案实现的:
本发明包括以下步骤:
步骤一,对于给定的文字图像,用MSER(maximally stable extremal regions,即最大稳定的极值区域)方法得到文字的连通区域。
所述的MSER方法是指仿射不变区域对文字区域精确的定位,得到文字连通区域的方法。
步骤二,对得到的每一个文字连通区域,用改进的迭代腐蚀方法检测文字的端点和角点,然后合并相似的点,得到腐蚀方法后的特征点。
所述的迭代腐蚀方法是指:
1)对于连通区域内的每个像素点p,计算剩余权重RW(p),如果RW(p)<=0,则这个点被腐蚀掉,未被腐蚀掉点的W(p)=RW(p)
2)判断被腐蚀掉的点p是否为特征点,如果符合以下条件之一,则被腐蚀掉的点p是特征点:
a.如果S(p)>1并且N(p)<=1
b.如果S(p)>1并且N(p)<=3并且M(p)>=5
3)循环执行步骤1)和2),直到连通区域内所有像素点都被腐蚀掉。
4)合并上述腐蚀方法得到的特征点。
所述的合并是指:
a.如果多个特征点具有相同的尺度,特征点之间的距离小于尺度的0.8倍,则合并为新的特征点,新特征点的坐标为这几个特征点坐标的平均值,尺度不变。
b.如果某两个特征点的尺度不同,并且特征点之间的距离小于大尺度的0.8倍,则删除尺度小的特征点。(这一步之前忘记写了)
其中参数定义如下:
N(p):连通区域内与点p相邻的8-邻域点的个数;
W(p):点p的权重,且初始权重W(p)=6;
S(p):点p的尺度,S(p)=r(p)/2,其中r(p)为点p被腐蚀的轮数;
RW(p):每轮腐蚀后点p的剩余权重,RW(p)=W(p)-(8-N(p));
M(p):按顺时针方向对点p的8邻接点进行遍历,连续的不属于同一连通分量的点的个数。
步骤三,对于步骤一中的文字图像,用DoG算子检测文字图像中尺度空间中稳定的特征点。
所述的DoG算子是在高斯差分空间找到尺度空间中的极大值来找到稳定的特征点。
步骤四,合并步骤二和步骤三中相似的特征点,合并后的特征点为丰富的文字局部特征信息,即得到最终文字图像总的特征点。
所述的合并步骤二和三中的特征点,具体是指:
1)首先将步骤二最终得到的特征点的尺度缩小1.3倍
2)然后与步骤三DoG得到的特征点合并,
所述的特征点合并,其原则如下:
a.如果多个特征点具有相同的尺度,特征点之间的距离小于尺度的0.4倍,则合并为新的特征点,新特征点的坐标为这几个特征点坐标的平均值,尺度不变。
b.如果某两个特征点的尺度不同,并且特征点之间的距离小于大尺度的0.4倍,则删除尺度小的特征点。
本发明的原理是:通过MSER来精确的定位文字图像中的文字部分,得到文字连通区域;然后在每一个文字的连通区域内用腐蚀方法检测文字的端点和角点。另外,DoG算子能够检测尺度空间中的特征点,并且对尺度变化、噪声、旋转因素具有鲁棒性,因此合并腐蚀方法和DoG算子得到的特征点能够提供更多的文字局部特征信息,对图像的尺度、仿射变化、旋转、噪声等因素具有鲁棒性。
本发明的有益的效果在于:
1.本发明用DoG算子能够过滤掉冗余信息:对于复杂背景、噪声、旋转因素的鲁棒性更好,如现有的方法(背景技术中列举的OCR技术和U.Pal提出的方法)检测到的冗余信息比较多,因此文字本身的特征信息就会受到影响。
2.对于笔画数目少的文字同样检测到很多的特征点:如现有的方法(背景技术中列举的Campos方法)对于笔画数目少的文字检测到的特征点数目少导致识别率下降,本发明中的腐蚀方法能够检测到文字中的端点和角点,提供更丰富的文字特征信息,因此提高文字识别率。
附图说明
图1本发明的流程示意图;
图2实施例中的文字图像、文字连通区域、文字图像特征点识别示意图;
其中:(a)要检测特征点的文字图像,(b)MSER定位到的文字连通区域,(c)腐蚀方法得到的文字图像特征点,(d)DoG算子得到的文字特征图像特征点,(e)(c)和(d)合并之后的特征点。
具体实施方式
以下结合附图对本发明的方法进一步描述:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例
如图1所示,本实施例包括以下步骤:
(1)对给定的文字图像用MSER方法定位文字连通区域。本实施例中的文字图像如图2中(a)所示,得到的文字连通区域,如图2中(b)所示。
(2)对于步骤(1)得到的文字连通区域用迭代腐蚀方法检测文字的端点和角点,然后合并相似的特征点得到腐蚀后的特征点,如图2中(c)所示。
本实施例用到的参数定义如下:
N(p):连通区域内与点p相邻的8-邻域点的个数;
W(p):点p的权重,且初始权重W(p)=6;
S(p):点p的尺度,S(p)=r(p)/2,其中r(p)为点p被腐蚀的轮数;
RW(p):每轮腐蚀后点p的剩余权重,RW(p)=W(p)-(8-N(p));
M(p):按顺时针方向对点p的8邻接点进行遍历,连续的不属于同一连通分量的点的个数。
2.1)对于连通区域内的每个像素点p,计算剩余权重RW(p),如果RW(p)<=0,则这个点被腐蚀掉,未被腐蚀掉点的W(p)=RW(p)
2.2)判断被腐蚀掉的点p是否为特征点,如果符合以下条件之一,则被腐蚀掉的点p是特征点:
a.如果S(p)>1并且N(p)<=1;
b.如果S(p)>1并且N(p)<=3并且M(p)>=5。
2.3)循环执行步骤2.1)和2.2),直到连通区域内所有像素点都被腐蚀掉。
2.4)合并腐蚀方法得到的相似的特征点,合并原则如下:
a.如果多个特征点具有相同的尺度,特征点之间的距离小于尺度的0.8倍,则合并为新的特征点,新特征点的坐标为这几个特征点坐标的平均值,尺度不变。
b.如果某两个特征点的尺度不同,并且特征点之间的距离小于大尺度的0.8倍,则删除尺度小的特征点。
由此得到合并后的特征点的坐标和尺度。如图2(c)所示,腐蚀方法能够更好的检测到文字的端点和角点。
(3)对于给定的文字图像用DoG算子检测尺度空间的特征点,得到特征点的尺度和坐标信息,如图2(d)所示。
(4)合并步骤(2)和(3)得到的相似特征点,合并后的特征点为丰富的文字局部特征信息,即得到文字图像总的特征点。
所述的合并步骤二和三中的特征点,具体是指:
1)首先将步骤二最终得到的特征点的尺度缩小1.3倍
2)然后与步骤三DoG得到的特征点合并,
所述的特征点合并,其原则如下:
a.如果多个特征点具有相同的尺度,特征点之间的距离小于尺度的0.4倍,则合并为新的特征点,新特征点的坐标为这几个特征点坐标的平均值,尺度不变。
b.如果某两个特征点的尺度不同,并且特征点之间的距离小于大尺度的0.4倍,则删除尺度小的特征点。
合并后的特征点如图2(e)所示,本实施例可以更好的定位文字的局部特征信息,即使文字图像有复杂的背景,旋转、噪声等因素的影响。、
本实施例用基于腐蚀方法和DoG算子来检测文字图像的稳定的特征点,解决了因为复杂背景、尺度变化、旋转、噪声以及文字笔画数目少导致的特征点数少的问题,从而大大提高了文字识别的正确率。实验证明,相对于其他检测子,本实施例的识别正确率平均提高12%左右。
Claims (8)
1.一种基于腐蚀方法和DoG算子检测文字图像局部特征的方法,其特征在于,包括以下步骤:
步骤一,对于给定的文字图像,用MSER方法得到文字的连通区域;
步骤二,对得到的每一个文字连通区域,用改进的迭代腐蚀方法检测文字的端点和角点,然后合并相似的点,得到腐蚀方法后的特征点;
步骤三,对于步骤一中的文字图像,用DoG算子检测文字图像中尺度空间中稳定的特征点;
步骤四,合并步骤二和步骤三中相似的特征点,合并后的特征点为丰富的文字局部特征信息,即得到最终文字图像总的特征点。
2.根据权利要求1所述的基于腐蚀方法和DoG算子检测文字图像局部特征的方法,其特征是,步骤一中所述的MSER方法是指仿射不变区域对文字区域精确的定位,得到文字连通区域的方法。
3.根据权利要求1所述的基于腐蚀方法和DoG算子检测文字图像局部特征的方法,其特征是,步骤二中所述的迭代腐蚀方法是指:
1)对于连通区域内的每个像素点p,计算剩余权重RW(p),如果RW(p)<=0,则这个点被腐蚀掉,未被腐蚀掉点的W(p)=RW(p);
2)判断被腐蚀掉的点p是否为特征点;
3)循环执行步骤1)和2),直到连通区域内所有像素点都被腐蚀掉;
其中:
W(p):点p的权重,且初始权重W(p)=6;
RW(p):每轮腐蚀后点p的剩余权重,RW(p)=W(p)-(8-N(p));
M(p):按顺时针方向对点p的8邻接点进行遍历,连续的不属于同一连通分量的点的个数。
4.根据权利要求3所述的基于腐蚀方法和DoG算子检测文字图像局部特征的方法,其特征是,步骤2)中所述的特征点,如果符合以下条件之一,则被腐蚀掉的点p是特征点:
a.如果S(p)>1并且N(p)<=1;
b.如果S(p)>1并且N(p)<=3并且M(p)>=5;
其中:
N(p):连通区域内与点p相邻的8-邻域点的个数;
S(p):点p的尺度,S(p)=r(p)/2,其中r(p)为点p被腐蚀的轮数。
5.根据权利要求1所述的基于腐蚀方法和DoG算子检测文字图像局部特征的方法,其特征是,步骤三中所述的DoG算子是在高斯差分空间找到尺度空间中的极大值来找到稳定的特征点。
6.根据权利要求1所述的基于腐蚀方法和DoG算子检测文字图像局部特征的方法,其特征是,步骤二中所述的合并是指:
a.如果多个特征点具有相同的尺度,特征点之间的距离小于尺度的0.8倍,则合并为新的特征点,新特征点的坐标为这几个特征点坐标的平均值,尺度不变;
b.如果某两个特征点的尺度不同,并且特征点之间的距离小于大尺度的0.8倍,则删除尺度小的特征点。
7.根据权利要求1所述的基于腐蚀方法和DoG算子检测文字图像局部特征的方法,其特征是,步骤四中所述的合并步骤二和三中的特征点,具体是指:
1)首先将步骤二最终得到的特征点的尺度缩小1.3倍;
2)然后与步骤三DoG得到的特征点合并。
8.根据权利要求1所述的基于腐蚀方法和DoG算子检测文字图像局部特征的方法,其特征是,步骤四中所述的特征点合并,其原则如下:
a.如果多个特征点具有相同的尺度,特征点之间的距离小于尺度的0.4倍,则合并为新的特征点,新特征点的坐标为这几个特征点坐标的平均值,尺度不变;
b.如果某两个特征点的尺度不同,并且特征点之间的距离小于大尺度的0.4倍,则删除尺度小的特征点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010252373XA CN101901344B (zh) | 2010-08-13 | 2010-08-13 | 基于腐蚀方法和DoG算子检测文字图像局部特征的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010252373XA CN101901344B (zh) | 2010-08-13 | 2010-08-13 | 基于腐蚀方法和DoG算子检测文字图像局部特征的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101901344A true CN101901344A (zh) | 2010-12-01 |
CN101901344B CN101901344B (zh) | 2012-04-25 |
Family
ID=43226867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010252373XA Expired - Fee Related CN101901344B (zh) | 2010-08-13 | 2010-08-13 | 基于腐蚀方法和DoG算子检测文字图像局部特征的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101901344B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455816A (zh) * | 2012-05-28 | 2013-12-18 | 阿里巴巴集团控股有限公司 | 一种笔画宽度提取方法、装置及一种文字识别方法、系统 |
CN106327188A (zh) * | 2016-08-15 | 2017-01-11 | 华为技术有限公司 | 支付应用中银行卡的绑定方法及装置 |
CN108304839A (zh) * | 2017-08-31 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种图像数据处理方法以及装置 |
CN109670500A (zh) * | 2018-11-30 | 2019-04-23 | 平安科技(深圳)有限公司 | 一种文字区域获取方法、装置、存储介质及终端设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1437162A (zh) * | 2003-03-14 | 2003-08-20 | 清华大学 | 基于单个汉字字符的字体识别方法 |
CN1664846A (zh) * | 2005-04-01 | 2005-09-07 | 清华大学 | 基于统计结构特征的联机手写汉字识别方法 |
CN1932838A (zh) * | 2005-09-12 | 2007-03-21 | 电子科技大学 | 一种基于投影法和数学形态学的车牌提取方法 |
-
2010
- 2010-08-13 CN CN201010252373XA patent/CN101901344B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1437162A (zh) * | 2003-03-14 | 2003-08-20 | 清华大学 | 基于单个汉字字符的字体识别方法 |
CN1664846A (zh) * | 2005-04-01 | 2005-09-07 | 清华大学 | 基于统计结构特征的联机手写汉字识别方法 |
CN1932838A (zh) * | 2005-09-12 | 2007-03-21 | 电子科技大学 | 一种基于投影法和数学形态学的车牌提取方法 |
Non-Patent Citations (3)
Title |
---|
《International Conference on Information Technology: Coding and Computing,2001.Proceedings》 20010404 Sittisak Rodtook,Yuttapong Rangsanseri Adaptive Thresholding of Document Images Based on Laplacian Sign 501-505 1-8 , 2 * |
《现代电子技术》 20080430 唐永鹤 基于特征点的序列图像匹配算法 128-130 1-8 , 第4期 2 * |
《计算机工程与设计》 20080531 夏一民等 基于多尺度下特征点的检测 2668-2670 1-8 第29卷, 第10期 2 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455816A (zh) * | 2012-05-28 | 2013-12-18 | 阿里巴巴集团控股有限公司 | 一种笔画宽度提取方法、装置及一种文字识别方法、系统 |
CN103455816B (zh) * | 2012-05-28 | 2017-04-19 | 阿里巴巴集团控股有限公司 | 一种笔画宽度提取方法、装置及一种文字识别方法、系统 |
CN106327188A (zh) * | 2016-08-15 | 2017-01-11 | 华为技术有限公司 | 支付应用中银行卡的绑定方法及装置 |
US10937016B2 (en) | 2016-08-15 | 2021-03-02 | Huawei Technologies Co., Ltd. | Method and apparatus for binding bank card in payment application |
CN108304839A (zh) * | 2017-08-31 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种图像数据处理方法以及装置 |
CN108304839B (zh) * | 2017-08-31 | 2021-12-17 | 腾讯科技(深圳)有限公司 | 一种图像数据处理方法以及装置 |
CN109670500A (zh) * | 2018-11-30 | 2019-04-23 | 平安科技(深圳)有限公司 | 一种文字区域获取方法、装置、存储介质及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN101901344B (zh) | 2012-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101957919B (zh) | 基于图像局部特征检索的文字识别方法 | |
Farooq et al. | Pre-processing methods for handwritten Arabic documents | |
Zhou et al. | Bangla/English script identification based on analysis of connected component profiles | |
Bag et al. | Recognition of Bangla compound characters using structural decomposition | |
US20140161365A1 (en) | Method of Perspective Correction For Devanagari Text | |
Clark et al. | Rectifying perspective views of text in 3D scenes using vanishing points | |
Sarkar et al. | Word level script identification from bangla and devanagri handwritten texts mixed with roman script | |
CN101533474A (zh) | 基于视频图像的字符和图像识别系统和方法 | |
Shivakumara et al. | New gradient-spatial-structural features for video script identification | |
CN101901344B (zh) | 基于腐蚀方法和DoG算子检测文字图像局部特征的方法 | |
Phan et al. | Recognition of video text through temporal integration | |
Yadav et al. | Text extraction in document images: highlight on using corner points | |
Cao et al. | A model of stroke extraction from chinese character images | |
Angadi et al. | A robust segmentation technique for line, word and character extraction from Kannada text in low resolution display board images | |
Boukerma et al. | A novel Arabic baseline estimation algorithm based on sub-words treatment | |
Giri | Text information extraction and analysis from images using digital image processing techniques | |
Karanje et al. | Survey on text detection, segmentation and recognition from a natural scene images | |
Xu et al. | A new method for multi-oriented graphics-scene-3D text classification in video | |
CN105590086A (zh) | 一种基于视觉标签识别的物品防盗检测方法 | |
Seeri et al. | A novel approach for Kannada text extraction | |
Rohini et al. | Segmentation of touching, overlapping, skewed and short handwritten text lines | |
Liu et al. | Detection and segmentation text from natural scene images based on graph model | |
Tsai et al. | Mobile visual search using image and text features | |
Zayene et al. | Data, protocol and algorithms for performance evaluation of text detection in arabic news video | |
Höhn | Detecting arbitrarily oriented text labels in early maps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120425 Termination date: 20140813 |
|
EXPY | Termination of patent right or utility model |