CN106203414A

CN106203414A - 一种基于判别字典学习与稀疏表示的场景图片文字检测的方法

Info

Publication number: CN106203414A
Application number: CN201610505754.1A
Authority: CN
Inventors: 李华锋; 刘舒萍; 汤宏颖; 余正涛
Original assignee: Kunming University of Science and Technology
Current assignee: Yunnan United Visual Technology Co ltd
Priority date: 2016-07-01
Filing date: 2016-07-01
Publication date: 2016-12-07
Anticipated expiration: 2036-07-01
Also published as: CN106203414B

Abstract

本发明涉及一种基于判别字典学习与稀疏表示的场景图片文字检测的方法，属于数字图像处理技术领域。首先用训练数据以及提出的判别字典学习的方法训练学习出两个字典：文字字典和背景字典，再序列地合并文字字典和背景字典；然后由合并的字典、待检测的图像以及稀疏表示的方法计算出待检测图像所对应的文字和背景的稀疏表示系数；最后由学习到的字典与计算出的待检测图像对应的稀疏表示系数，重建待检测图像中的文字；用启发式规则对重建的文字图像中的文字区域进行处理从而检测出待检测图像中的候选的文字区域；本发明提出的判别字典学习与稀疏表示的场景图像文字检测的方法可以大幅度提高文字识别的准确度。

Description

一种基于判别字典学习与稀疏表示的场景图片文字检测的方法

技术领域

本发明涉及一种基于判别字典学习与稀疏表示的场景图片文字检测的方法，属于数字图像处理技术领域。

背景技术

进入21世纪以来，互联网行业飞速发展，加之近几年智能手机的蓬勃发展，在PC端与移动终端的数字信息正在飞快的增长。数字图像和视频正是当今数字世界的主要元素之一，数字图像和视频中往往包含大量的文本区域，而这些文本信息正是理解该图像和视频含义的重要线索。如何从复杂的自然场景图像中提取出文本信息，对图像理解、图像检索都将有着非同寻常的意义，因此场景图像中的文本定位技术的研究吸引了众多海内外学者的研究。

场景图像的文本定位算法是指，通过信息处理技术自动标记出图像中的文本区域，为后续的文字识别奠定基础。场景图像中的非文本区域可能是任何随机的场景，文本区域可能是嵌入在背景中的，也有可能成为背景纹理的一部分，甚至文本被背景部分遮挡等等，这些问题是文本定位的主要难题，也是场景图像文定位算法面临的核心问题。国内外的研究者们提出了不同的算法来解决这些问题并在该领域取得了丰富的研究成果，使得文本定位在许多领域中得到了广泛的应用，例如在图像检索/分类、不良信息的过滤、车牌识别等技术方面的应用。

总结目前研究人员的工作，图像和视频文字检测方法主要分为基于边缘特征的方法、基于连通区域的方法、基于纹理特征的方法、基于机器学习的方法和一些综合上述几种的混合方法。

基于边缘特征的方法主要是利用文本丰富的边缘信息进行文本区域的检测，该类方法通常先使用一些边缘检测算子，如梯度算子、Sobel算子、Canny算子等。基于边缘特征的方法优点很明显：速度很快。但是其缺点也很明显：当背景含有丰富的强边缘信息时，该类方法容易混淆背景的边缘和文字的边缘，降低检测的准确率。

基于连通区域的方法是利用图像中的文字和背景通常具有较强的颜色对比，且大多数图像中的文本自身颜色具有一致性来实现文字检测的。基于连通区域的方法首先利用字符颜色一致性与背景具有较大对比度来分割图像，然后对分割后的图像进行连通域的分析，得到候选连通分量，再利用文字区域的几何特征对每个连通分量进行处理，最终形成文本区域。这种方法的优点是计算速度快，缺点是对于背景中含有与文本相同颜色通道的图像的误检率很高。

基于纹理的方法通常把文本看成一种特殊的纹理，采用Gabor变换，小波变换和傅里叶变换等方法检测图像的纹理特征，然后根据训练的文字纹理特征检测图像的文字区域。基于纹理的方法优点是检测准确率高，缺点是计算量大，耗时长。

机器学习的方法在处理不同文字的大小，颜色，及复杂背景方面取得了成功，可以使用机器学习的理论与传统的方法相结合的方法来实现场景图片文本区域检测。例如利用支持向量机SVM的方法训练文字的纹理笔画特征，用Gabor滤波器提取文字特征，用Adaboost对候选块进行分类，得到文本区域。

发明内容

本发明要解决的技术问题是提供一种基于判别字典学习与稀疏表示的场景图像文字检测的方法，以用于解决现有技术对于研究场景图像文字检测困难的问题，本发明的场景图像文字检测的方法对不同应用场景下的图像、视频理解及检索等上层应用能提供有力支撑。

本发明的技术方案是：一种基于判别字典学习与稀疏表示的场景图片文字检测的方法，首先用训练数据以及提出的判别字典学习的方法训练学习出两个字典：文字字典和背景字典，再序列地合并文字字典和背景字典；然后由合并的字典、待检测的图像以及稀疏表示的方法计算出待检测图像所对应的文字和背景的稀疏表示系数；最后由学习到的字典与计算出的待检测图像对应的稀疏表示系数，重建待检测图像中的文字；用启发式规则对重建的文字图像中的文字区域进行处理从而检测出待检测图像中的候选的文字区域；

具体步骤如下：

Step1、首先构建文字和背景的训练样本；

Step1.1、从互联网上收集文字图像和背景图像，其中文字图像只含有文字没有背景纹理，背景图像不含有文字。

Step1.2、以滑动窗口的形式采集Step1.1中的文字图像和背景图像的数据，每个窗口(n×n)采集到数据作为一个列向量(n²×1)(后面统一称为原子，n为滑动窗口的大小)，这样所有采集到的文字训练数据和背景训练数据为两个n²维的矩阵。

Step2、利用训练样本学习字典；

Step2.1、提出的字典学习的目标函数：

\begin{matrix} \underset{D, X}{m i n} {| | Y - D X | |_{F}^{2} + λ_{1} | | X | |_{1} + λ_{2} f (D X)} & s . t . & | | d_{i} | |_{2} = 1 \end{matrix}

这里Y、D、X分别为采集的样本数据、待学习的字典和样本数据对应的稀疏表示系数，f(DX)＝tr(S_w(DX))-tr(S_B(DX))+η||DX||² _F是改进的Fisher字典学习判别项，d_i为D中的第i个原子。

Step2.2、目标函数的求解，需要对字典D和稀疏系数X进行迭代更新，X是以类(m＝1,...,N)为单位更新的，D是以原子(i＝1,...,k)为单位更新的，i和j是类m中的不同原子，迭代更新一次，i加1一次，加到k之后，m加1；直到所有类，所有原子更新完。

Step2.2.1、固定D，求解X；

用迭代更新的算法求解目标函数，初始化字典D(初始化值为采集数据的特征向量)，更新得到的稀疏表示系数为(m类的P次更新)：

X_{m}^{(P)} = S_{τ / σ} (X_{m}^{(P - 1)} - \frac{1}{2 σ} &dtri; Q (X_{m}^{(P - 1)}))

其中σ,τ＞0，为设定的调节值，是Q(X_m)的梯度值，S_τ/σ是软阈值算子，当|x_n|≤τ/σ时，[S_τ/σ(x)]_n＝0；否则，[S_τ/σ(x)]_n＝x_n-sign(x_n)τ/σ，更新次数P达到m类中的原子个数时，m加1，直到所有类都更新完。

Step2.2.2、固定X，求解D；

用迭代更新的算法求解目标函数，固定稀疏表示系数X，字典D的求解是以原子为单位更新的，也就是固定更新(更新m类的第i个原子)得：

D_{m}^{i} = D_{m}^{i} + D_{m}^{r}

这里，又有改进的Fisher判别项为表示m类的第i列，表示m类第i行，M_m是的均值向量，M是DX的均值向量；每迭代一次，i加1一次，直到达到m类中的原子个数时，m加1，直到所有类都更新完。

Step3、待检测图像预处理；

对待检测图像x进行滤波处理，保留前景文字的特征，弱化背景的纹理特征。用自适应滤波器进行预处理操作。

Step4、待检测图像文字稀疏表示系数的求解；

待检测图像文字区域的稀疏表示系数的求解是由Step2中求解出的字典D和待检测图像的数据Y作为已知条件求解的，如下式所示：

\arg \underset{X}{m i n} {| | Y - D X | {|^{2}}_{F} + | | X | |_{1}}

这里Y，D分别为待检测图像的数据和Step2中求解的字典，X为要求解的待检测图像对应的稀疏表示系数。由于训练样本分为文字训练样本(W)和非文字训练样本(B)，所以学习到的字典为文字字典(D^(W))和背景字典(D^(B))，与之对应，待检测图像的稀疏表示系数也分别为文字稀疏表示系数(X^(W))和背景稀疏表示系数(X^(B))；要求解的待检测图像中的文字稀疏表示系数表示为X^(W)。

Step5、重建待检测图像中的文字；

由Step4中的待检测图像中文字的稀疏表示系数和Step2中学习到的字典，待检测图像中文字的重建可以通过下式重建：

Y^(W)＝DX^(W)

这时得到的数据是一个矩阵，设定重建图像的大小与待检图像的大小严格一样，用matlab函数把矩阵数据显示为图像形式，图像中的没有重构的背景部分像素值为0。

Step6、待检测图像中候选的文字区域；

对Step5中重建的文字图像用启发式规则如形态学处理、双阈值限制，面积宽高比等方法去除错误重建的噪声或背景部分，找到重建的文字图像的连通区域的重心点，然后把确定出来的重心点连接在一起，最后用矩形框包围以重心点为中心，以给定阈值为边长的矩形框，这些矩形框所包围的区域为候选的文字区域。

Step7、确定待检测图像的文字区域；

对Step6中候选的文字区域用水平方向是否一致的方法和矩形框面积阈值限定的方法进行判断矩形框之间是否水平合并，对于不满足合并条件的矩形框直接舍弃得到一个大的矩形框，最后留下来的矩形框为检测到的文本区域。

所述步骤Step1中，用滑动窗口大小(n＝16)，滑动窗口采集的数据形成的256维的矩阵就是训练字典的数据；由于文字具有类的特性，为了加快计算速度，首先对文字样本数据进行聚类。

所述步骤Step2中，更新字典以原子为单位更新，更新稀疏表示系数以类为单位更新；字典学习的目标函数中加入了改进的Fisher判别项。

所述步骤Step3，用自适应滤波器的方法对图像进行预处理。

所述步骤Step5中，重建图像的大小与待检测图像的大小要严格一致，并把重构的图像以二值图像的方式显示。

本发明的有益效果是：

1、本发明提出的场景图像文字检测的方法使计算机能够自动地理解图像所包含的语义信息、并为导盲技术，车牌识别和车辆定位追踪技术以及图像检索技术等提供了有力的支撑；

2、设计了一种判别字典学习的方法；

3、本发明提出的文字检测的方法为场景图像的文字识别提供了有力支撑；

4、本发明提出的文字检测方法相比其他方法精确率明显提高。

附图说明

图1是本发明的流程图；

图2是本发明的待检测源图像；

图3是本发明的待检测源图像预处理之后的图像；

图4是本发明的重建的待检测源图像中的文字图像；

图5是本发明的待检测图像上文字重心连接线图像；

图6是本发明的候选文字区域图像；

图7是本发明的待检测源图像上的文字区域图像。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1-7所示，一种基于判别字典学习与稀疏表示的场景图像文字检测的方法，首先用训练数据以及提出的判别字典学习的方法训练学习出两个字典：文字字典和背景字典，再序列地合并文字字典和背景字典；然后由合并的字典、待检测的图像以及稀疏表示的方法计算出待检测图像所对应的文字和背景的稀疏表示系数；最后由学习到的字典与计算出的待检测图像对应的稀疏表示系数，重建待检测图像中的文字；用启发式规则对重建的文字图像中的文字区域进行处理从而检测出待检测图像中的候选的文字区域；

具体步骤为：

Step1、首先构建文字和背景的训练样本；

Step1.1、从互联网上收集文字图像和背景图像，其中文字图像只含有文字没有背景纹理，背景图像不含有文字；

Step1.2、以滑动窗口的形式采集Step1.1中的文字图像和背景图像的数据，每个窗口(n×n)采集到数据作为一个列向量(n²×1)，n为滑动窗口的大小，所有采集到的文字训练数据和背景训练数据为两个n²维的矩阵；

Step2、利用训练样本学习字典；

Step2.1、提出的字典学习的目标函数：

\begin{matrix} \underset{D, X}{m i n} {| | Y - D X | |_{F}^{2} + λ_{1} | | X | |_{1} + λ_{2} f (D X)} & s . t . & | | d_{i} | |_{2} = 1 \end{matrix}

式中，Y、D、X分别为采集的样本数据、待学习的字典和样本数据对应的稀疏表示系数，f(DX)＝tr(S_w(DX))-tr(S_B(DX))+η||DX||² _F是改进的Fisher字典学习判别项，d_i为D中的第i个原子；

Step2.2、目标函数的求解，需要对字典D和稀疏系数X进行迭代更新，X是以类(m＝1,...,N)为单位更新的，D是以原子(i＝1,...,k)为单位更新的，i和j是类m中的不同原子，迭代更新一次，i加1一次，加到k之后，m加1；直到所有类，所有原子更新完；

Step2.2.1、固定D，求解X；

用迭代更新的算法求解目标函数，初始化字典D，更新得到的稀疏表示系数X为m类的P次更新；

X_{m}^{(P)} = S_{τ / σ} (X_{m}^{(P - 1)} - \frac{1}{2 σ} &dtri; Q (X_{m}^{(P - 1)}))

其中σ,τ＞0，为设定的调节值，是Q(X_m)的梯度值，S_τ/σ是软阈值算子，当|x_n|≤τ/σ时，[S_τ/σ(x)]_n＝0；否则，[S_τ/σ(x)]_n＝x_n-sign(x_n)τ/σ，更新次数P达到m类中的原子个数时，m加1，直到所有类都更新完；

Step2.2.2、固定X，求解D；

用迭代更新的算法求解目标函数，固定稀疏表示系数X，字典D的求解是以原子为单位更新的，也就是固定更新即更新m类的第i个原子，得：

D_{m}^{i} = D_{m}^{i} + D_{m}^{r}

式中，又有改进的Fisher判别项为表示m类的第i列，表示m类第i行，M_m是的均值向量，M是DX的均值向量；每迭代一次，i加1一次，直到达到m类中的原子个数时，m加1，直到所有类都更新完；

Step3、待检测图像预处理；

对待检测图像x进行滤波处理，保留前景文字的特征，弱化背景的纹理特征。用自适应滤波器进行预处理操作；

Step4、待检测图像文字稀疏表示系数的求解；

\arg \underset{X}{m i n} {| | Y - D X | {|^{2}}_{F} + | | X | |_{1}}

式中，Y，D分别为待检测图像的数据和Step2中求解的字典，X为要求解的待检测图像对应的稀疏表示系数，由于训练样本分为文字训练样本W和非文字训练样本B，所以学习到的字典为文字字典D^(W)和背景字典D^(B)，待检测图像的稀疏表示系数也分别为文字稀疏表示系数X^(W)和背景稀疏表示系数X^(B)；要求解的待检测图像中的文字稀疏表示系数表示为X^(W)；

Step5、重建待检测图像中的文字；

Y^(W)＝DX^(W)

这时得到的数据是一个矩阵，设定重建图像的大小与待检图像的大小严格一样，用matlab函数把矩阵数据显示为图像形式，图像中的没有重构的背景部分像素值为0；

Step6、待检测图像中候选的文字区域；

对Step5中重建的文字图像用启发式规则如形态学处理、双阈值限制，面积宽高比等方法去除错误重建的噪声或背景部分，找到重建的文字图像的连通区域的重心点，然后把确定出来的重心点连接在一起，最后用矩形框包围以重心点为中心，以给定阈值为边长的矩形框，这些矩形框所包围的区域为候选的文字区域；

Step7、确定待检测图像的文字区域；

所述步骤Step3，用自适应滤波器的方法对图像进行预处理。

实施例2：如图1-7所示，将附图2中的待检测源图像中的文字检测出来。附图2是一幅含有复杂背景的场景图像，图像整体受光照污染严重，且背景的几何特征与文字的几何特征很相似，用传统的方法很难准确地检测到图像中的文字，下面介绍检测图2中的文字区域步骤：

Step1、首先构建文字和背景的训练样本；

Step2、利用训练样本学习字典；

Step2.1、提出的字典学习的目标函数：

\begin{matrix} \underset{D, X}{m i n} {| | Y - D X | |_{F}^{2} + λ_{1} | | X | |_{1} + λ_{2} f (D X)} & s . t . & | | d_{i} | |_{2} = 1 \end{matrix}

Step2.2.1、固定D，求解X；

X_{m}^{(P)} = S_{τ / σ} (X_{m}^{(P - 1)} - \frac{1}{2 σ} &dtri; Q (X_{m}^{(P - 1)}))

Step2.2.2、固定X，求解D；

D_{m}^{i} = D_{m}^{i} + D_{m}^{r}

Step3、待检测图像预处理；

对待检测图像x进行滤波处理，保留前景文字的特征，弱化背景的纹理特征。用自适应滤波器进行预处理操作，如附图3所示。

Step4、待检测图像文字稀疏表示系数的求解；

\arg \underset{X}{m i n} {| | Y - D X | {|^{2}}_{F} + | | X | |_{1}}

Step5、重建待检测图像中的文字；

Y^(W)＝DX^(W)

这时得到的数据是一个矩阵，设定重建图像的大小与待检图像的大小严格一样，用matlab函数把矩阵数据显示为图像形式，图像中的没有重构的背景部分像素值为0，重建结果如附图4所示。

Step6、待检测图像中候选的文字区域；

对Step5中重建的文字图像用启发式规则如形态学处理、双阈值限制，面积宽高比等方法去除错误重建的噪声或背景部分，找到重建的文字图像的连通区域的重心点，然后把确定出来的重心点连接在一起如附图5所示，最后用矩形框包围以重心点为中心，以给定阈值为边长的矩形框，这些矩形框所包围的区域为候选的文字区域，如附图6所示。

Step7、确定待检测图像的文字区域；

对Step6中候选的文字区域用水平方向是否一致的方法和矩形框面积阈值限定的方法进行判断矩形框之间是否水平合并，对于不满足合并条件的矩形框直接舍弃得到一个大的矩形框，最后留下来的矩形框为检测到的文本区域，如附图7所示。

所述步骤Step3，用自适应滤波器的方法对图像进行预处理。

参数设置如表1所示

其中λ₁和λ₂是目标函数中的调节参数，IST_iter是求解稀疏表示系数时的迭代次数，nIter是求解字典时的迭代次数。

为了提供统一的比较平台，International Conference on Document Analysisand Recognition(ICDAR)于2003年、2005、2007年、2011年、2013年、2015年多次举办文本定位相关竞赛，为参赛者提供统一的数据库以比较各种算法的客观。使用ICDAR2003、ICDAR2011、ICDAR2013相关图像库进行评价，上述数据库包含大量复杂情况的背景和文本区域，能够较好地比较各种算法的性能。文字检测的评价指标用精确率、召回率和F-值(精确率和召回率的调和均值)，定义如下：

F = 2 \frac{P R}{P + R} .

表2：不同数据库对应的文字检测竞赛客观评价

表格从上到下分别对应ICDAR2003，ICDAR2011和ICDAR2013数据库。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于判别字典学习与稀疏表示的场景图像文字检测的方法，其特征在于：首先用训练数据以及提出的判别字典学习的方法训练学习出两个字典：文字字典和背景字典，再序列地合并文字字典和背景字典；然后由合并的字典、待检测的图像以及稀疏表示的方法计算出待检测图像所对应的文字和背景的稀疏表示系数；最后由学习到的字典与计算出的待检测图像对应的稀疏表示系数，重建待检测图像中的文字；用启发式规则对重建的文字图像中的文字区域进行处理从而检测出待检测图像中的候选的文字区域；

具体步骤为：

Step1、首先构建文字和背景的训练样本；

Step2、利用训练样本学习字典；

Step2.1、提出字典学习的目标函数：

\begin{matrix} \underset{D, X}{m i n} {| | Y - D X | |_{F}^{2} + λ_{1} | | X | |_{1} + λ_{2} f (D X)} & s . t . & | | d_{i} | |_{2} = 1 \end{matrix}

Step2.2、目标函数的求解，需要对字典D和稀疏系数X进行迭代更新，X是以类(m＝1，...，N)为单位更新的，D是以原子(i＝1，...，k)为单位更新的，i和j是类m中的不同原子，迭代更新一次，i加1一次，加到k之后，m加1；直到所有类，所有原子更新完；

Step2.2.1、固定D，求解X；

X_{m}^{(P)} = S_{τ / σ} (X_{m}^{(P - 1)} - \frac{1}{2 σ} &dtri; Q (X_{m}^{(P - 1)}))

其中σ，τ＞0，为设定的调节值，是Q(X_m)的梯度值，S_τ/σ是软阈值算子，当|x_n|≤τ/σ时，[S_τ/σ(x)]_n＝0；否则，[S_τ/σ(x)]_n＝x_n-sign(x_n)τ/σ，更新次数P达到m类中的原子个数时，m加1，直到所有类都更新完；

Step2.2.2、固定X，求解D；

D_{m}^{i} = D_{m}^{i} + D_{m}^{r}

式中，又有改进的Fisher判别项为m＝1，2，...，N，i＝1，2，...，K，表示m类的第i列，表示m类第i行，M_m是的均值向量，M是DX的均值向量；每迭代一次，i加1一次，直到达到m类中的原子个数时，m加1，直到所有类都更新完；

Step3、待检测图像预处理；

对待检测图像x进行滤波处理，保留前景文字的特征，弱化背景的纹理特征，用自适应滤波器进行预处理操作；

Step4、待检测图像文字稀疏表示系数的求解；

\arg \underset{X}{m i n} {| | Y - D X | {|^{2}}_{F} + | | X | |_{1}}

Step5、重建待检测图像中的文字；

Y^(W)＝DX^(W)

Step6、待检测图像中候选的文字区域；

Step7、确定待检测图像的文字区域；

2.根据权利要求1所述的基于判别字典学习与稀疏表示的场景图片文字检测的方法，其特征在于：所述步骤Step1中，用滑动窗口大小(n＝16)，滑动窗口采集的数据形成的256维的矩阵就是训练字典的数据；由于文字具有类的特性，为了加快计算速度，首先对文字样本数据进行聚类。

3.根据权利要求1所述的基于判别字典学习与稀疏表示的场景图片文字检测的方法，其特征在于：所述步骤Step2中，更新字典以原子为单位更新，更新稀疏表示系数以类为单位更新；字典学习的目标函数中加入了改进的Fisher判别项。

4.根据权利要求1所述的基于判别字典学习与稀疏表示的场景图片文字检测的方法，其特征在于：所述步骤Step3，用自适应滤波器的方法对图像进行预处理。

5.根据权利要求1所述的基于判别字典学习与稀疏表示的场景图片文字检测的方法，其特征在于：所述步骤Step5中，重建图像的大小与待检测图像的大小要严格一致，并把重构的图像以二值图像的方式显示。