CN101719142B

CN101719142B - 基于分类字典的稀疏表示图片文字检测方法

Info

Publication number: CN101719142B
Application number: CN200910227172.1A
Authority: CN
Inventors: 李树涛; 赵明; 杨斌
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2009-12-10
Filing date: 2009-12-10
Publication date: 2011-11-30
Anticipated expiration: 2029-12-10
Also published as: CN101719142A

Abstract

本发明提供了一种基于分类字典的稀疏表示图片文字检测方法。它包括以下步骤：(1)使用指定小波基的小波变换提取输入图像中的边缘信息；(2)利用基于分类字典的稀疏表示在边缘信息中提取候选文字区域；(3)在候选文字区域中进行水平投影分析和垂直投影分析，最终定位图片中的文字。本发明方法使用基于分类字典的稀疏表示分类方法将文字从图片中分离出来，从而使图片文字区域的检测更加准确和鲁棒。

Description

基于分类字典的稀疏表示图片文字检测方法

技术领域

本发明属于图像处理和检索技术领域，具体涉及一种基于分类字典的稀疏表示图片文字检测方法。

背景技术

多媒体技术的发展促进了以图像、视频为代表的多媒体数据增长。如何在大量的视频图片中快速检索到想要的图片，成为了一个急需解决的关键问题。而图像视频中的文字往往含有丰富的信息，这些图片中的文字一般能描述图片的内容，在基于内容的多媒体索引和检索系统中有着重要作用。为了有效地对多媒体数据进行浏览与管理，人们要求将图片和视频中的文字信息检测出来，用于多媒体信息的分类和检索。因此图片视频中的文字检测技术具有十分重要的研究和应用价值。

目前图像中的文字检测方法主要有：基于边缘、基于连通分量分析和基于纹理等三类文字检测方法。基于边缘特征的方法利用文字区域存在较强边缘的特点用形态学方法将文字块进行分类和筛选。基于连通分量分析的方法利用颜色等特征从图像中提取连通区域，再根据区域几何特征使用阈值规则确定文字区域；基于边缘和基于连通分量的文字检测方法具有速度快优势，但是上述两类方法在复杂背景下误检率较高，它们所使用的几何规则和阈值缺乏鲁棒性，很难推广。基于纹理的方法认为文字区域具有特定模式的纹理分布，利用这些特定的纹理提取图片中的文字。与前两类方法相比，基于纹理的方法不受图像质量下降和背景噪声干扰的影响，但是这类方法需要较多的处理时间而且在图片纹理复杂的情况下很容易产生检测错误。

发明内容

为了解决文字检测方法存在的上述技术问题，本发明提供一种更为有效的基于分类字典的稀疏表示图片文字检测方法。

本发明的技术方案包括以下步骤：

1)将彩色图像转换为灰度图像，使用小波变换提取灰度图像的边缘信息；

2)选取大量的文字样本图像和不含文字的图片，使用canny算子提取这两类图片的边缘信息作为稀疏表示分类字典的训练样本；将两类训练样本输入分类稀疏表示字典训练算法得到文字稀疏表示分类字典和非文字稀疏表示分类字典；利用基于分类字典的稀疏表示提取灰度图像边缘信息中的候选文字区域；

3)在水平方向上使用游程平滑算法将候选文字区域孤立的边缘连接为较大的区域，再进行水平投影分析找出相应的文字行，同时舍去候选文字区域中文字行以外的孤立边缘；

4)在垂直方向上使用游程平滑算法将候选文字区域孤立的边缘连接为较大的区域，再进行垂直投影分析找出相应的文字行，同时舍去候选文字区域中文字行以外的孤立边缘；

5)使用矩形框将每个检测出的文字区域标识出来。

上述的基于分类字典的稀疏表示图片文字检测方法中，所述步骤1)使用正交小波基提取灰度图像的边缘信息。

上述的基于分类字典的稀疏表示图片文字检测方法中，所述步骤2)利用基于分类字典的稀疏表示提取灰度图像边缘信息中的候选文字区域的步骤为：使用扫描窗口将步骤1)得到的图像边缘信息分为多个16×16大小的块，每个块通过稀疏表示分类以判断其属于文字类还是属于非文字类，所有的非文字类边缘都被舍去，剩下的边缘信息组成候选文字区域。

本发明的效果在于：与现有方法相比，本发明采用的基于小波变换边缘提取和稀疏表示分类字典分类技术能够极大地减少复杂图像背景的干扰，更加准确地提取图像中的文字边缘信息，采用游程平滑算法和投影分析相结合的技术手段可以取得取得更高的图片和视频文字区域查全率和查准率，有利于更好的识别图片中的文字，从而充分发挥图片视频文字信息在图像检索的巨大作用。

下面结合附图和具体实施例对本发明作进一步的说明。

附图说明

图1为本发明的流程图。

图2为训练得到的稀疏表示分类字典。图2中(a)为文字系数表示分类字典、(b)非文字稀疏表示分类字典。

图3为本发明实施例的分步步骤图。图3中(a)源图像，(b)为小波变换提取的边缘图像，(c)为候选文字区域，(d)为水平游程平滑后的候选文字区域，(e)为水平投影分析，(f)为水平投影分析提取的文字行，(g)垂直投影分析提取的最终文字区域，(h)为最终文字提取结果。

具体实施方式

本发明的实施例中，采用基于分类字典的稀疏表示图片文字检测方法对图3(a)进行文字提取，此方法按图1所示流程进行，各部分具体实施细节如下：

(1)使用指定小波基的小波变换提取输入图像的边缘信息

如果输入图像是彩色图像，则首先把输入图像转变为灰度图像。使用指定小波基的二维离散小波变换系数提取灰度图像中的边缘信息。二维离散小波变换的公式如下：

W_{2}^{1} f (x, y) = f * ψ_{2^{j}}^{1} (x, y),

(1)

W_{2}^{2} f (x, y) = f * ψ_{2^{j}}^{2} (x, y),

其中f表示灰度图像，“*”表示卷积，ψ(x，y)表示小波基，x，y表示横坐标和纵坐标，j表示尺度。在本发明中我们选择两个正交小波基，其中ψ₁(x，y)是检测水平方向边缘的小波基，ψ²(x，y)是检测垂直方向边缘的小波基：

ψ^{1} (x, y) = - x e^{- \frac{x^{2} + y^{2}}{2}},

(2)

ψ^{2} (x, y) = - y e^{- \frac{x^{2} + y^{2}}{2}},

灰度图像通过与两个方向的小波基分别进行卷积运算得到这两个方向的小波系数，然后本发明通过下面的公式得到输入图像的边缘信息：

M_{2} f (x, y) = \sqrt{{| W_{2}^{1} f (x, y) |}^{2} + {| W_{2}^{2} f (x, y) |}^{2}}, - - - (3)

上式中M₂f(x，y)表示边缘信息，Wf(x，y)表示小波系数。

(2)利用基于分类字典的稀疏表示在边缘信息中提取候选文字区域

上一步的边缘信息包含了较多的非文字边缘，这一步利用稀疏表示分类在灰度图像的边缘信息中提取候选文字区域，具体方法分为训练和判断两个过程：首先训练分类字典，这个过程是预先进行的。本发明选取大量的文字样本图像和不含文字的图片作为分类字典的训练样本，文字样本图像中包括不同字体、大小、风格的印刷体文字；使用大量不含文字的自然景观图片和数码照片作为非文字类的训练样本。使用canny算子分别提取两类样本的边缘信息，然后使用一个边长为W(取值范围8-24)的窗口从左到右扫描两类样本，步长为S(取值范围为

)。将两类训练样本转化为若干个W²维的向量，输入稀疏表示分类字典训练算法构造分类字典。(稀疏表示分类字典训练算法的实现细节参考Julien Mairal在Computer Vision and Pattern Recognition 2008上发表的“Discriminative Learned Dictionaries for Local Image Analysis”)。训练得到的两个稀疏表示分类字典——文字分类字典和非文字分类字典如图2所示，其中图2(a)为文字稀疏表示分类字典、图2(b)非字稀疏表示分类字典。

完成分类字典训练后，利用分类字典筛选输入图像的边缘信息。首先使用一个边长为W的窗口从左到右扫描图像的边缘信息。两个分类字典分别对每个扫描获得的窗口所含边缘信息进行稀疏表示，以获得当前窗口在文字分类字典和非文字分类字典上的重构误差，在这里我们令当前窗口所含边缘信息在文字分类字典上的重构误差为R_t，在非文字分类字典上的重构误差为R_b。如果R_t＞R_b，则说明此窗口的边缘信息是非文字的，应当舍去。反之则说明此窗口的边缘信息属于文字类，应当保留。当所有的边缘信息经过稀疏表示后，保留的边缘信息组成候选文字区域并进行下一步处理。

(3)在候选文字区域中进行水平投影分析和垂直投影分析，最终定位图片中的文字。

在垂直和水平方向上使用投影分析对候选文字区域行进一步的筛选。为使投影分析更有效，并具有更强的抗干扰能力，在投影分析之前本发明使用游程平滑法连接在边缘信息点。在水平方向上对候选文字区域使用游程平滑算法，得到的结果如图3(d)所示，然后进行水平投影分析，得到一组水平方向边缘分布的信息(图3(e))，找出其中的峰值，提取对应的文字行，并去掉文字行之外的候选区域边缘信息，水平投影分析的结果如图3(f)所示。接下来以相同的方式在垂直方向上使用游程平滑算法和投影分析，对找到的文字行进行进一步的筛选得到最终的文字区域(图3(g))。最后将文字区域用矩形框标出，本发明实施例的文字检测结果如图3(h)。

下面的实验结果表明，与现有方法相比，本发明可以取得更高的文字区域检测查全率和查准率。

本实施例中建立的实验库包含了500张含有文字的图片，这些图片来源于微软通用测试集(Microsoft common test set)，ICDAR测试集(ICDAR 2003Robust Reading Competition set)和源于互联网上的文字图片。这个实验数据库中包括了不同大小，字体，颜色，语言，复杂背景和低对比度文字。能够反映文字图片的真实情况，有助于证明本发明方法对各种情况的适应性以及最终结果的有效性。

在本实施例中，上述500张图片被送给本发明的文字检测方法进行处理得到文字区域定位结果。为了证明本方法在图片文字检测方法的有效性，我们测试了以下4中方法作为实验对比：

[1]本发明的具体实施例

[2]Ye的方法；2005年在Image and Vision Computing上发表的文献”Fastand robust text detection in images and video frames”(23卷6期565-576页)。其通过使用SVM分类器筛选文字的小波特征来提取图片中的文字。

[3]Mancas-Thillou的方法：2007年在Computer Vision and ImageUnderstanding上发表的文献“Color text extraction with selectivemetric-based clustering”(107卷1-2期97-107页)其使用两个测度的彩色聚类方法提取相应的连通分量从而检测可能的文字区域。

[4]Lyu的方法：2005年在IEEE Transactions on Circuits and Systems forVideo Technology上发表的文献“A comprehensive method formultilingual video text detection，localization，and extraction”(15卷2期243-255页)，其利用边缘检测算子球的视频的边缘图，然后通过边缘投影分析选取可能的文字区域。

实验采用了在信息检索中广泛使用的两个指标来评价图片文字检测结果，两个指标分别是：Recall(正确率)和Precision(准确率)这两个指标的定义如下：

Recall表示的是找到相关文字区域的能力，Precision表示的是准确找到相关文字区域的能力，它们的值都是0到1之间的小数，Recall和Precision值越高表示检测文字的能力越好。

表1文字检测实验结果对比

从表1中可以看出，本发明方法在两个指标上都取得了比其他方法更好的结果。这主要因为本发明的小波变换的边缘提取方式能够有效的提取图像中的水平和垂直方向的强边缘，基于分类字典的稀疏表示分类方法能够准确的将边缘中的文字检测出来。

Claims

1.一种基于分类字典的稀疏表示图片文字检测方法，包括以下步骤：

5)使用矩形框将每个检测出的文字区域标识出来。

2.根据权利要求1所述的基于分类字典的稀疏表示图片文字检测方法，所述步骤1)使用正交小波基提取灰度图像的边缘信息。

3.根据权利要求1所述的基于分类字典的稀疏表示图片文字检测方法，所述步骤2)利用基于分类字典的稀疏表示提取灰度图像边缘信息中的候选文字区域的步骤为：使用扫描窗口将步骤1)得到的图像边缘信息分为多个16×16大小的块，每个块通过稀疏表示分类以判断其属于文字类还是属于非文字类，所有的非文字类边缘都被舍去，剩下的边缘信息组成候选文字区域。