CN101719142B - 基于分类字典的稀疏表示图片文字检测方法 - Google Patents

基于分类字典的稀疏表示图片文字检测方法 Download PDF

Info

Publication number
CN101719142B
CN101719142B CN200910227172.1A CN200910227172A CN101719142B CN 101719142 B CN101719142 B CN 101719142B CN 200910227172 A CN200910227172 A CN 200910227172A CN 101719142 B CN101719142 B CN 101719142B
Authority
CN
China
Prior art keywords
literal
classifying dictionary
character region
candidate character
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200910227172.1A
Other languages
English (en)
Other versions
CN101719142A (zh
Inventor
李树涛
赵明
杨斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN200910227172.1A priority Critical patent/CN101719142B/zh
Publication of CN101719142A publication Critical patent/CN101719142A/zh
Application granted granted Critical
Publication of CN101719142B publication Critical patent/CN101719142B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明提供了一种基于分类字典的稀疏表示图片文字检测方法。它包括以下步骤:(1)使用指定小波基的小波变换提取输入图像中的边缘信息;(2)利用基于分类字典的稀疏表示在边缘信息中提取候选文字区域;(3)在候选文字区域中进行水平投影分析和垂直投影分析,最终定位图片中的文字。本发明方法使用基于分类字典的稀疏表示分类方法将文字从图片中分离出来,从而使图片文字区域的检测更加准确和鲁棒。

Description

基于分类字典的稀疏表示图片文字检测方法
技术领域
本发明属于图像处理和检索技术领域,具体涉及一种基于分类字典的稀疏表示图片文字检测方法。
背景技术
多媒体技术的发展促进了以图像、视频为代表的多媒体数据增长。如何在大量的视频图片中快速检索到想要的图片,成为了一个急需解决的关键问题。而图像视频中的文字往往含有丰富的信息,这些图片中的文字一般能描述图片的内容,在基于内容的多媒体索引和检索系统中有着重要作用。为了有效地对多媒体数据进行浏览与管理,人们要求将图片和视频中的文字信息检测出来,用于多媒体信息的分类和检索。因此图片视频中的文字检测技术具有十分重要的研究和应用价值。
目前图像中的文字检测方法主要有:基于边缘、基于连通分量分析和基于纹理等三类文字检测方法。基于边缘特征的方法利用文字区域存在较强边缘的特点用形态学方法将文字块进行分类和筛选。基于连通分量分析的方法利用颜色等特征从图像中提取连通区域,再根据区域几何特征使用阈值规则确定文字区域;基于边缘和基于连通分量的文字检测方法具有速度快优势,但是上述两类方法在复杂背景下误检率较高,它们所使用的几何规则和阈值缺乏鲁棒性,很难推广。基于纹理的方法认为文字区域具有特定模式的纹理分布,利用这些特定的纹理提取图片中的文字。与前两类方法相比,基于纹理的方法不受图像质量下降和背景噪声干扰的影响,但是这类方法需要较多的处理时间而且在图片纹理复杂的情况下很容易产生检测错误。
发明内容
为了解决文字检测方法存在的上述技术问题,本发明提供一种更为有效的基于分类字典的稀疏表示图片文字检测方法。
本发明的技术方案包括以下步骤:
1)将彩色图像转换为灰度图像,使用小波变换提取灰度图像的边缘信息;
2)选取大量的文字样本图像和不含文字的图片,使用canny算子提取这两类图片的边缘信息作为稀疏表示分类字典的训练样本;将两类训练样本输入分类稀疏表示字典训练算法得到文字稀疏表示分类字典和非文字稀疏表示分类字典;利用基于分类字典的稀疏表示提取灰度图像边缘信息中的候选文字区域;
3)在水平方向上使用游程平滑算法将候选文字区域孤立的边缘连接为较大的区域,再进行水平投影分析找出相应的文字行,同时舍去候选文字区域中文字行以外的孤立边缘;
4)在垂直方向上使用游程平滑算法将候选文字区域孤立的边缘连接为较大的区域,再进行垂直投影分析找出相应的文字行,同时舍去候选文字区域中文字行以外的孤立边缘;
5)使用矩形框将每个检测出的文字区域标识出来。
上述的基于分类字典的稀疏表示图片文字检测方法中,所述步骤1)使用正交小波基提取灰度图像的边缘信息。
上述的基于分类字典的稀疏表示图片文字检测方法中,所述步骤2)利用基于分类字典的稀疏表示提取灰度图像边缘信息中的候选文字区域的步骤为:使用扫描窗口将步骤1)得到的图像边缘信息分为多个16×16大小的块,每个块通过稀疏表示分类以判断其属于文字类还是属于非文字类,所有的非文字类边缘都被舍去,剩下的边缘信息组成候选文字区域。
本发明的效果在于:与现有方法相比,本发明采用的基于小波变换边缘提取和稀疏表示分类字典分类技术能够极大地减少复杂图像背景的干扰,更加准确地提取图像中的文字边缘信息,采用游程平滑算法和投影分析相结合的技术手段可以取得取得更高的图片和视频文字区域查全率和查准率,有利于更好的识别图片中的文字,从而充分发挥图片视频文字信息在图像检索的巨大作用。
下面结合附图和具体实施例对本发明作进一步的说明。
附图说明
图1为本发明的流程图。
图2为训练得到的稀疏表示分类字典。图2中(a)为文字系数表示分类字典、(b)非文字稀疏表示分类字典。
图3为本发明实施例的分步步骤图。图3中(a)源图像,(b)为小波变换提取的边缘图像,(c)为候选文字区域,(d)为水平游程平滑后的候选文字区域,(e)为水平投影分析,(f)为水平投影分析提取的文字行,(g)垂直投影分析提取的最终文字区域,(h)为最终文字提取结果。
具体实施方式
本发明的实施例中,采用基于分类字典的稀疏表示图片文字检测方法对图3(a)进行文字提取,此方法按图1所示流程进行,各部分具体实施细节如下:
(1)使用指定小波基的小波变换提取输入图像的边缘信息
如果输入图像是彩色图像,则首先把输入图像转变为灰度图像。使用指定小波基的二维离散小波变换系数提取灰度图像中的边缘信息。二维离散小波变换的公式如下:
W 2 1 f ( x , y ) = f * ψ 2 j 1 ( x , y ) ,
                             (1)
W 2 2 f ( x , y ) = f * ψ 2 j 2 ( x , y ) ,
其中f表示灰度图像,“*”表示卷积,ψ(x,y)表示小波基,x,y表示横坐标和纵坐标,j表示尺度。在本发明中我们选择两个正交小波基,其中ψ1(x,y)是检测水平方向边缘的小波基,ψ2(x,y)是检测垂直方向边缘的小波基:
ψ 1 ( x , y ) = - x e - x 2 + y 2 2 ,
                                (2)
ψ 2 ( x , y ) = - y e - x 2 + y 2 2 ,
灰度图像通过与两个方向的小波基分别进行卷积运算得到这两个方向的小波系数,然后本发明通过下面的公式得到输入图像的边缘信息:
M 2 f ( x , y ) = | W 2 1 f ( x , y ) | 2 + | W 2 2 f ( x , y ) | 2 , - - - ( 3 )
上式中M2f(x,y)表示边缘信息,Wf(x,y)表示小波系数。
(2)利用基于分类字典的稀疏表示在边缘信息中提取候选文字区域
上一步的边缘信息包含了较多的非文字边缘,这一步利用稀疏表示分类在灰度图像的边缘信息中提取候选文字区域,具体方法分为训练和判断两个过程:首先训练分类字典,这个过程是预先进行的。本发明选取大量的文字样本图像和不含文字的图片作为分类字典的训练样本,文字样本图像中包括不同字体、大小、风格的印刷体文字;使用大量不含文字的自然景观图片和数码照片作为非文字类的训练样本。使用canny算子分别提取两类样本的边缘信息,然后使用一个边长为W(取值范围8-24)的窗口从左到右扫描两类样本,步长为S(取值范围为
Figure GDA0000066534280000046
)。将两类训练样本转化为若干个W2维的向量,输入稀疏表示分类字典训练算法构造分类字典。(稀疏表示分类字典训练算法的实现细节参考Julien Mairal在Computer Vision and Pattern Recognition 2008上发表的“Discriminative Learned Dictionaries for Local Image Analysis”)。训练得到的两个稀疏表示分类字典——文字分类字典和非文字分类字典如图2所示,其中图2(a)为文字稀疏表示分类字典、图2(b)非字稀疏表示分类字典。
完成分类字典训练后,利用分类字典筛选输入图像的边缘信息。首先使用一个边长为W的窗口从左到右扫描图像的边缘信息。两个分类字典分别对每个扫描获得的窗口所含边缘信息进行稀疏表示,以获得当前窗口在文字分类字典和非文字分类字典上的重构误差,在这里我们令当前窗口所含边缘信息在文字分类字典上的重构误差为Rt,在非文字分类字典上的重构误差为Rb。如果Rt>Rb,则说明此窗口的边缘信息是非文字的,应当舍去。反之则说明此窗口的边缘信息属于文字类,应当保留。当所有的边缘信息经过稀疏表示后,保留的边缘信息组成候选文字区域并进行下一步处理。
(3)在候选文字区域中进行水平投影分析和垂直投影分析,最终定位图片中的文字。
在垂直和水平方向上使用投影分析对候选文字区域行进一步的筛选。为使投影分析更有效,并具有更强的抗干扰能力,在投影分析之前本发明使用游程平滑法连接在边缘信息点。在水平方向上对候选文字区域使用游程平滑算法,得到的结果如图3(d)所示,然后进行水平投影分析,得到一组水平方向边缘分布的信息(图3(e)),找出其中的峰值,提取对应的文字行,并去掉文字行之外的候选区域边缘信息,水平投影分析的结果如图3(f)所示。接下来以相同的方式在垂直方向上使用游程平滑算法和投影分析,对找到的文字行进行进一步的筛选得到最终的文字区域(图3(g))。最后将文字区域用矩形框标出,本发明实施例的文字检测结果如图3(h)。
下面的实验结果表明,与现有方法相比,本发明可以取得更高的文字区域检测查全率和查准率。
本实施例中建立的实验库包含了500张含有文字的图片,这些图片来源于微软通用测试集(Microsoft common test set),ICDAR测试集(ICDAR 2003Robust Reading Competition set)和源于互联网上的文字图片。这个实验数据库中包括了不同大小,字体,颜色,语言,复杂背景和低对比度文字。能够反映文字图片的真实情况,有助于证明本发明方法对各种情况的适应性以及最终结果的有效性。
在本实施例中,上述500张图片被送给本发明的文字检测方法进行处理得到文字区域定位结果。为了证明本方法在图片文字检测方法的有效性,我们测试了以下4中方法作为实验对比:
[1]本发明的具体实施例
[2]Ye的方法;2005年在Image and Vision Computing上发表的文献”Fastand robust text detection in images and video frames”(23卷6期565-576页)。其通过使用SVM分类器筛选文字的小波特征来提取图片中的文字。
[3]Mancas-Thillou的方法:2007年在Computer Vision and ImageUnderstanding上发表的文献“Color text extraction with selectivemetric-based clustering”(107卷1-2期97-107页)其使用两个测度的彩色聚类方法提取相应的连通分量从而检测可能的文字区域。
[4]Lyu的方法:2005年在IEEE Transactions on Circuits and Systems forVideo Technology上发表的文献“A comprehensive method formultilingual video text detection,localization,and extraction”(15卷2期243-255页),其利用边缘检测算子球的视频的边缘图,然后通过边缘投影分析选取可能的文字区域。
实验采用了在信息检索中广泛使用的两个指标来评价图片文字检测结果,两个指标分别是:Recall(正确率)和Precision(准确率)这两个指标的定义如下:
Figure GDA0000066534280000072
Recall表示的是找到相关文字区域的能力,Precision表示的是准确找到相关文字区域的能力,它们的值都是0到1之间的小数,Recall和Precision值越高表示检测文字的能力越好。
表1文字检测实验结果对比
Figure GDA0000066534280000073
从表1中可以看出,本发明方法在两个指标上都取得了比其他方法更好的结果。这主要因为本发明的小波变换的边缘提取方式能够有效的提取图像中的水平和垂直方向的强边缘,基于分类字典的稀疏表示分类方法能够准确的将边缘中的文字检测出来。

Claims (3)

1.一种基于分类字典的稀疏表示图片文字检测方法,包括以下步骤:
1)将彩色图像转换为灰度图像,使用小波变换提取灰度图像的边缘信息;
2)选取大量的文字样本图像和不含文字的图片,使用canny算子提取这两类图片的边缘信息作为稀疏表示分类字典的训练样本;将两类训练样本输入分类稀疏表示字典训练算法得到文字稀疏表示分类字典和非文字稀疏表示分类字典;利用基于分类字典的稀疏表示提取灰度图像边缘信息中的候选文字区域;
3)在水平方向上使用游程平滑算法将候选文字区域孤立的边缘连接为较大的区域,再进行水平投影分析找出相应的文字行,同时舍去候选文字区域中文字行以外的孤立边缘;
4)在垂直方向上使用游程平滑算法将候选文字区域孤立的边缘连接为较大的区域,再进行垂直投影分析找出相应的文字行,同时舍去候选文字区域中文字行以外的孤立边缘;
5)使用矩形框将每个检测出的文字区域标识出来。
2.根据权利要求1所述的基于分类字典的稀疏表示图片文字检测方法,所述步骤1)使用正交小波基提取灰度图像的边缘信息。
3.根据权利要求1所述的基于分类字典的稀疏表示图片文字检测方法,所述步骤2)利用基于分类字典的稀疏表示提取灰度图像边缘信息中的候选文字区域的步骤为:使用扫描窗口将步骤1)得到的图像边缘信息分为多个16×16大小的块,每个块通过稀疏表示分类以判断其属于文字类还是属于非文字类,所有的非文字类边缘都被舍去,剩下的边缘信息组成候选文字区域。
CN200910227172.1A 2009-12-10 2009-12-10 基于分类字典的稀疏表示图片文字检测方法 Expired - Fee Related CN101719142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910227172.1A CN101719142B (zh) 2009-12-10 2009-12-10 基于分类字典的稀疏表示图片文字检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910227172.1A CN101719142B (zh) 2009-12-10 2009-12-10 基于分类字典的稀疏表示图片文字检测方法

Publications (2)

Publication Number Publication Date
CN101719142A CN101719142A (zh) 2010-06-02
CN101719142B true CN101719142B (zh) 2011-11-30

Family

ID=42433716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910227172.1A Expired - Fee Related CN101719142B (zh) 2009-12-10 2009-12-10 基于分类字典的稀疏表示图片文字检测方法

Country Status (1)

Country Link
CN (1) CN101719142B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101958000B (zh) * 2010-09-24 2012-08-15 西安电子科技大学 基于稀疏表示的人脸画像-照片生成方法
CN102004902B (zh) * 2010-11-12 2012-12-19 湖南大学 一种基于小波和稀疏表示理论的近红外人脸图像识别方法
CN103116597A (zh) * 2011-11-14 2013-05-22 马维尔国际有限公司 基于图片的信息获取装置和方法
CN104036292A (zh) * 2014-06-12 2014-09-10 西安华海盈泰医疗信息技术有限公司 一种医学影像数字胶片中文字区域提取方法及提取系统
CN104484867A (zh) * 2014-12-30 2015-04-01 小米科技有限责任公司 图片处理方法及装置
CN105183404B (zh) * 2015-09-23 2018-03-09 浪潮(北京)电子信息产业有限公司 一种处理数据的方法和装置
CN106909547B (zh) * 2015-12-22 2020-09-04 北京奇虎科技有限公司 基于浏览器的图片加载方法及装置
CN106909548B (zh) * 2015-12-22 2021-01-08 北京奇虎科技有限公司 基于服务器的图片加载方法及装置
CN106815599B (zh) * 2016-12-16 2020-12-22 合肥工业大学 一种图像分类中通用的判别性稀疏编码字典学习方法
CN107480648B (zh) * 2017-08-23 2020-03-27 南京大学 一种自然场景文字检测的方法
CN107862310B (zh) * 2017-09-17 2021-10-26 北京工业大学 一种基于块投影的藏文历史文献文本区域提取方法
CN108256518B (zh) * 2017-11-30 2021-07-06 北京元心科技有限公司 文字区域检测方法及装置
CN109597898A (zh) * 2018-11-28 2019-04-09 广州讯立享智能科技有限公司 一种信息检索方法及装置
CN113870120B (zh) * 2021-12-07 2022-03-01 领伟创新智能系统(浙江)有限公司 一种基于pq-mean分布的加工表面纹理倾斜校正方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122952A (zh) * 2007-09-21 2008-02-13 北京大学 一种图片文字检测的方法
CN101122953A (zh) * 2007-09-21 2008-02-13 北京大学 一种图片文字分割的方法
CN101599124A (zh) * 2008-06-03 2009-12-09 汉王科技股份有限公司 一种从视频图像中分割字符的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122952A (zh) * 2007-09-21 2008-02-13 北京大学 一种图片文字检测的方法
CN101122953A (zh) * 2007-09-21 2008-02-13 北京大学 一种图片文字分割的方法
CN101599124A (zh) * 2008-06-03 2009-12-09 汉王科技股份有限公司 一种从视频图像中分割字符的方法和装置

Also Published As

Publication number Publication date
CN101719142A (zh) 2010-06-02

Similar Documents

Publication Publication Date Title
CN101719142B (zh) 基于分类字典的稀疏表示图片文字检测方法
CN110569832B (zh) 基于深度学习注意力机制的文本实时定位识别方法
CN102982330B (zh) 文字图像中字符识别方法和识别装置
CN104809481B (zh) 一种基于自适应色彩聚类的自然场景文本检测方法
Aradhye A generic method for determining up/down orientation of text in roman and non-roman scripts
CN103034848B (zh) 一种表单类型的识别方法
US20150095769A1 (en) Layout Analysis Method And System
CN102254196B (zh) 计算机鉴别手写汉字的方法
CN105760901B (zh) 一种多语种倾斜文档图像的自动语言判别方法
CN109635808B (zh) 一种在自然场景图像中对中文关键词及上下文的提取方法
CN105608454A (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
CN113537227B (zh) 一种结构化文本识别方法及系统
Chamchong et al. Character segmentation from ancient palm leaf manuscripts in Thailand
CN101359373A (zh) 退化字符的识别方法和装置
CN108052936B (zh) 一种盲文图像自动倾斜校正方法及系统
Chawla et al. Implementation of tesseract algorithm to extract text from different images
CN112036330A (zh) 一种文本识别方法、文本识别装置及可读存储介质
CN108062548B (zh) 一种盲文方自适应定位方法及系统
Azmi et al. Digital paleography: Using the digital representation of Jawi manuscripts to support paleographic analysis
CN110728214A (zh) 一种基于尺度匹配的弱小人物目标检测方法
Almohri et al. A real-time DSP-based optical character recognition system for isolated Arabic characters using the TI TMS320C6416T
Lin et al. Multilingual corpus construction based on printed and handwritten character separation
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
AU2020103315A4 (en) A method for digitizing writings in antiquity
CN115393865A (zh) 文字检索方法、设备以及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111130

Termination date: 20141210

EXPY Termination of patent right or utility model