CN106203414A - 一种基于判别字典学习与稀疏表示的场景图片文字检测的方法 - Google Patents

一种基于判别字典学习与稀疏表示的场景图片文字检测的方法 Download PDF

Info

Publication number
CN106203414A
CN106203414A CN201610505754.1A CN201610505754A CN106203414A CN 106203414 A CN106203414 A CN 106203414A CN 201610505754 A CN201610505754 A CN 201610505754A CN 106203414 A CN106203414 A CN 106203414A
Authority
CN
China
Prior art keywords
image
dictionary
detected
word
rarefaction representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610505754.1A
Other languages
English (en)
Other versions
CN106203414B (zh
Inventor
李华锋
刘舒萍
汤宏颖
余正涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan United Visual Technology Co ltd
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201610505754.1A priority Critical patent/CN106203414B/zh
Publication of CN106203414A publication Critical patent/CN106203414A/zh
Application granted granted Critical
Publication of CN106203414B publication Critical patent/CN106203414B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种基于判别字典学习与稀疏表示的场景图片文字检测的方法,属于数字图像处理技术领域。首先用训练数据以及提出的判别字典学习的方法训练学习出两个字典:文字字典和背景字典,再序列地合并文字字典和背景字典;然后由合并的字典、待检测的图像以及稀疏表示的方法计算出待检测图像所对应的文字和背景的稀疏表示系数;最后由学习到的字典与计算出的待检测图像对应的稀疏表示系数,重建待检测图像中的文字;用启发式规则对重建的文字图像中的文字区域进行处理从而检测出待检测图像中的候选的文字区域;本发明提出的判别字典学习与稀疏表示的场景图像文字检测的方法可以大幅度提高文字识别的准确度。

Description

一种基于判别字典学习与稀疏表示的场景图片文字检测的 方法
技术领域
本发明涉及一种基于判别字典学习与稀疏表示的场景图片文字检测的方法,属于数字图像处理技术领域。
背景技术
进入21世纪以来,互联网行业飞速发展,加之近几年智能手机的蓬勃发展,在PC端与移动终端的数字信息正在飞快的增长。数字图像和视频正是当今数字世界的主要元素之一,数字图像和视频中往往包含大量的文本区域,而这些文本信息正是理解该图像和视频含义的重要线索。如何从复杂的自然场景图像中提取出文本信息,对图像理解、图像检索都将有着非同寻常的意义,因此场景图像中的文本定位技术的研究吸引了众多海内外学者的研究。
场景图像的文本定位算法是指,通过信息处理技术自动标记出图像中的文本区域,为后续的文字识别奠定基础。场景图像中的非文本区域可能是任何随机的场景,文本区域可能是嵌入在背景中的,也有可能成为背景纹理的一部分,甚至文本被背景部分遮挡等等,这些问题是文本定位的主要难题,也是场景图像文定位算法面临的核心问题。国内外的研究者们提出了不同的算法来解决这些问题并在该领域取得了丰富的研究成果,使得文本定位在许多领域中得到了广泛的应用,例如在图像检索/分类、不良信息的过滤、车牌识别等技术方面的应用。
总结目前研究人员的工作,图像和视频文字检测方法主要分为基于边缘特征的方法、基于连通区域的方法、基于纹理特征的方法、基于机器学习的方法和一些综合上述几种的混合方法。
基于边缘特征的方法主要是利用文本丰富的边缘信息进行文本区域的检测,该类方法通常先使用一些边缘检测算子,如梯度算子、Sobel算子、Canny算子等。基于边缘特征的方法优点很明显:速度很快。但是其缺点也很明显:当背景含有丰富的强边缘信息时,该类方法容易混淆背景的边缘和文字的边缘,降低检测的准确率。
基于连通区域的方法是利用图像中的文字和背景通常具有较强的颜色对比,且大多数图像中的文本自身颜色具有一致性来实现文字检测的。基于连通区域的方法首先利用字符颜色一致性与背景具有较大对比度来分割图像,然后对分割后的图像进行连通域的分析,得到候选连通分量,再利用文字区域的几何特征对每个连通分量进行处理,最终形成文本区域。这种方法的优点是计算速度快,缺点是对于背景中含有与文本相同颜色通道的图像的误检率很高。
基于纹理的方法通常把文本看成一种特殊的纹理,采用Gabor变换,小波变换和傅里叶变换等方法检测图像的纹理特征,然后根据训练的文字纹理特征检测图像的文字区域。基于纹理的方法优点是检测准确率高,缺点是计算量大,耗时长。
机器学习的方法在处理不同文字的大小,颜色,及复杂背景方面取得了成功,可以使用机器学习的理论与传统的方法相结合的方法来实现场景图片文本区域检测。例如利用支持向量机SVM的方法训练文字的纹理笔画特征,用Gabor滤波器提取文字特征,用Adaboost对候选块进行分类,得到文本区域。
发明内容
本发明要解决的技术问题是提供一种基于判别字典学习与稀疏表示的场景图像文字检测的方法,以用于解决现有技术对于研究场景图像文字检测困难的问题,本发明的场景图像文字检测的方法对不同应用场景下的图像、视频理解及检索等上层应用能提供有力支撑。
本发明的技术方案是:一种基于判别字典学习与稀疏表示的场景图片文字检测的方法,首先用训练数据以及提出的判别字典学习的方法训练学习出两个字典:文字字典和背景字典,再序列地合并文字字典和背景字典;然后由合并的字典、待检测的图像以及稀疏表示的方法计算出待检测图像所对应的文字和背景的稀疏表示系数;最后由学习到的字典与计算出的待检测图像对应的稀疏表示系数,重建待检测图像中的文字;用启发式规则对重建的文字图像中的文字区域进行处理从而检测出待检测图像中的候选的文字区域;
具体步骤如下:
Step1、首先构建文字和背景的训练样本;
Step1.1、从互联网上收集文字图像和背景图像,其中文字图像只含有文字没有背景纹理,背景图像不含有文字。
Step1.2、以滑动窗口的形式采集Step1.1中的文字图像和背景图像的数据,每个窗口(n×n)采集到数据作为一个列向量(n2×1)(后面统一称为原子,n为滑动窗口的大小),这样所有采集到的文字训练数据和背景训练数据为两个n2维的矩阵。
Step2、利用训练样本学习字典;
Step2.1、提出的字典学习的目标函数:
m i n D , X { | | Y - D X | | F 2 + λ 1 | | X | | 1 + λ 2 f ( D X ) } s . t . | | d i | | 2 = 1
这里Y、D、X分别为采集的样本数据、待学习的字典和样本数据对应的稀疏表示系数,f(DX)=tr(Sw(DX))-tr(SB(DX))+η||DX||2 F是改进的Fisher字典学习判别项,di为D中的第i个原子。
Step2.2、目标函数的求解,需要对字典D和稀疏系数X进行迭代更新,X是以类(m=1,...,N)为单位更新的,D是以原子(i=1,...,k)为单位更新的,i和j是类m中的不同原子,迭代更新一次,i加1一次,加到k之后,m加1;直到所有类,所有原子更新完。
Step2.2.1、固定D,求解X;
用迭代更新的算法求解目标函数,初始化字典D(初始化值为采集数据的特征向量),更新得到的稀疏表示系数为(m类的P次更新):
X m ( P ) = S τ / σ ( X m ( P - 1 ) - 1 2 σ ▿ Q ( X m ( P - 1 ) ) )
其中σ,τ>0,为设定的调节值,是Q(Xm)的梯度值,Sτ/σ是软阈值算子,当|xn|≤τ/σ时,[Sτ/σ(x)]n=0;否则,[Sτ/σ(x)]n=xn-sign(xn)τ/σ,更新次数P达到m类中的原子个数时,m加1,直到所有类都更新完。
Step2.2.2、固定X,求解D;
用迭代更新的算法求解目标函数,固定稀疏表示系数X,字典D的求解是以原子为单位更新的,也就是固定更新(更新m类的第i个原子)得:
D m i = D m i + D m r
这里,又有 改进的Fisher判别项为表示m类的第i列,表示m类第i行,Mm的均值向量,M是DX的均值向量;每迭代一次,i加1一次,直到达到m类中的原子个数时,m加1,直到所有类都更新完。
Step3、待检测图像预处理;
对待检测图像x进行滤波处理,保留前景文字的特征,弱化背景的纹理特征。用自适应滤波器进行预处理操作。
Step4、待检测图像文字稀疏表示系数的求解;
待检测图像文字区域的稀疏表示系数的求解是由Step2中求解出的字典D和待检测图像的数据Y作为已知条件求解的,如下式所示:
arg m i n X { | | Y - D X | | 2 F + | | X | | 1 }
这里Y,D分别为待检测图像的数据和Step2中求解的字典,X为要求解的待检测图像对应的稀疏表示系数。由于训练样本分为文字训练样本(W)和非文字训练样本(B),所以学习到的字典为文字字典(D(W))和背景字典(D(B)),与之对应,待检测图像的稀疏表示系数也分别为文字稀疏表示系数(X(W))和背景稀疏表示系数(X(B));要求解的待检测图像中的文字稀疏表示系数表示为X(W)
Step5、重建待检测图像中的文字;
由Step4中的待检测图像中文字的稀疏表示系数和Step2中学习到的字典,待检测图像中文字的重建可以通过下式重建:
Y(W)=DX(W)
这时得到的数据是一个矩阵,设定重建图像的大小与待检图像的大小严格一样,用matlab函数把矩阵数据显示为图像形式,图像中的没有重构的背景部分像素值为0。
Step6、待检测图像中候选的文字区域;
对Step5中重建的文字图像用启发式规则如形态学处理、双阈值限制,面积宽高比等方法去除错误重建的噪声或背景部分,找到重建的文字图像的连通区域的重心点,然后把确定出来的重心点连接在一起,最后用矩形框包围以重心点为中心,以给定阈值为边长的矩形框,这些矩形框所包围的区域为候选的文字区域。
Step7、确定待检测图像的文字区域;
对Step6中候选的文字区域用水平方向是否一致的方法和矩形框面积阈值限定的方法进行判断矩形框之间是否水平合并,对于不满足合并条件的矩形框直接舍弃得到一个大的矩形框,最后留下来的矩形框为检测到的文本区域。
所述步骤Step1中,用滑动窗口大小(n=16),滑动窗口采集的数据形成的256维的矩阵就是训练字典的数据;由于文字具有类的特性,为了加快计算速度,首先对文字样本数据进行聚类。
所述步骤Step2中,更新字典以原子为单位更新,更新稀疏表示系数以类为单位更新;字典学习的目标函数中加入了改进的Fisher判别项。
所述步骤Step3,用自适应滤波器的方法对图像进行预处理。
所述步骤Step5中,重建图像的大小与待检测图像的大小要严格一致,并把重构的图像以二值图像的方式显示。
本发明的有益效果是:
1、本发明提出的场景图像文字检测的方法使计算机能够自动地理解图像所包含的语义信息、并为导盲技术,车牌识别和车辆定位追踪技术以及图像检索技术等提供了有力的支撑;
2、设计了一种判别字典学习的方法;
3、本发明提出的文字检测的方法为场景图像的文字识别提供了有力支撑;
4、本发明提出的文字检测方法相比其他方法精确率明显提高。
附图说明
图1是本发明的流程图;
图2是本发明的待检测源图像;
图3是本发明的待检测源图像预处理之后的图像;
图4是本发明的重建的待检测源图像中的文字图像;
图5是本发明的待检测图像上文字重心连接线图像;
图6是本发明的候选文字区域图像;
图7是本发明的待检测源图像上的文字区域图像。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-7所示,一种基于判别字典学习与稀疏表示的场景图像文字检测的方法,首先用训练数据以及提出的判别字典学习的方法训练学习出两个字典:文字字典和背景字典,再序列地合并文字字典和背景字典;然后由合并的字典、待检测的图像以及稀疏表示的方法计算出待检测图像所对应的文字和背景的稀疏表示系数;最后由学习到的字典与计算出的待检测图像对应的稀疏表示系数,重建待检测图像中的文字;用启发式规则对重建的文字图像中的文字区域进行处理从而检测出待检测图像中的候选的文字区域;
具体步骤为:
Step1、首先构建文字和背景的训练样本;
Step1.1、从互联网上收集文字图像和背景图像,其中文字图像只含有文字没有背景纹理,背景图像不含有文字;
Step1.2、以滑动窗口的形式采集Step1.1中的文字图像和背景图像的数据,每个窗口(n×n)采集到数据作为一个列向量(n2×1),n为滑动窗口的大小,所有采集到的文字训练数据和背景训练数据为两个n2维的矩阵;
Step2、利用训练样本学习字典;
Step2.1、提出的字典学习的目标函数:
m i n D , X { | | Y - D X | | F 2 + λ 1 | | X | | 1 + λ 2 f ( D X ) } s . t . | | d i | | 2 = 1
式中,Y、D、X分别为采集的样本数据、待学习的字典和样本数据对应的稀疏表示系数,f(DX)=tr(Sw(DX))-tr(SB(DX))+η||DX||2 F是改进的Fisher字典学习判别项,di为D中的第i个原子;
Step2.2、目标函数的求解,需要对字典D和稀疏系数X进行迭代更新,X是以类(m=1,...,N)为单位更新的,D是以原子(i=1,...,k)为单位更新的,i和j是类m中的不同原子,迭代更新一次,i加1一次,加到k之后,m加1;直到所有类,所有原子更新完;
Step2.2.1、固定D,求解X;
用迭代更新的算法求解目标函数,初始化字典D,更新得到的稀疏表示系数X为m类的P次更新;
X m ( P ) = S τ / σ ( X m ( P - 1 ) - 1 2 σ ▿ Q ( X m ( P - 1 ) ) )
其中σ,τ>0,为设定的调节值,是Q(Xm)的梯度值,Sτ/σ是软阈值算子,当|xn|≤τ/σ时,[Sτ/σ(x)]n=0;否则,[Sτ/σ(x)]n=xn-sign(xn)τ/σ,更新次数P达到m类中的原子个数时,m加1,直到所有类都更新完;
Step2.2.2、固定X,求解D;
用迭代更新的算法求解目标函数,固定稀疏表示系数X,字典D的求解是以原子为单位更新的,也就是固定更新即更新m类的第i个原子,得:
D m i = D m i + D m r
式中,又有 改进的Fisher判别项为表示m类的第i列,表示m类第i行,Mm的均值向量,M是DX的均值向量;每迭代一次,i加1一次,直到达到m类中的原子个数时,m加1,直到所有类都更新完;
Step3、待检测图像预处理;
对待检测图像x进行滤波处理,保留前景文字的特征,弱化背景的纹理特征。用自适应滤波器进行预处理操作;
Step4、待检测图像文字稀疏表示系数的求解;
待检测图像文字区域的稀疏表示系数的求解是由Step2中求解出的字典D和待检测图像的数据Y作为已知条件求解的,如下式所示:
arg m i n X { | | Y - D X | | 2 F + | | X | | 1 }
式中,Y,D分别为待检测图像的数据和Step2中求解的字典,X为要求解的待检测图像对应的稀疏表示系数,由于训练样本分为文字训练样本W和非文字训练样本B,所以学习到的字典为文字字典D(W)和背景字典D(B),待检测图像的稀疏表示系数也分别为文字稀疏表示系数X(W)和背景稀疏表示系数X(B);要求解的待检测图像中的文字稀疏表示系数表示为X(W)
Step5、重建待检测图像中的文字;
由Step4中的待检测图像中文字的稀疏表示系数和Step2中学习到的字典,待检测图像中文字的重建可以通过下式重建:
Y(W)=DX(W)
这时得到的数据是一个矩阵,设定重建图像的大小与待检图像的大小严格一样,用matlab函数把矩阵数据显示为图像形式,图像中的没有重构的背景部分像素值为0;
Step6、待检测图像中候选的文字区域;
对Step5中重建的文字图像用启发式规则如形态学处理、双阈值限制,面积宽高比等方法去除错误重建的噪声或背景部分,找到重建的文字图像的连通区域的重心点,然后把确定出来的重心点连接在一起,最后用矩形框包围以重心点为中心,以给定阈值为边长的矩形框,这些矩形框所包围的区域为候选的文字区域;
Step7、确定待检测图像的文字区域;
对Step6中候选的文字区域用水平方向是否一致的方法和矩形框面积阈值限定的方法进行判断矩形框之间是否水平合并,对于不满足合并条件的矩形框直接舍弃得到一个大的矩形框,最后留下来的矩形框为检测到的文本区域。
所述步骤Step1中,用滑动窗口大小(n=16),滑动窗口采集的数据形成的256维的矩阵就是训练字典的数据;由于文字具有类的特性,为了加快计算速度,首先对文字样本数据进行聚类。
所述步骤Step2中,更新字典以原子为单位更新,更新稀疏表示系数以类为单位更新;字典学习的目标函数中加入了改进的Fisher判别项。
所述步骤Step3,用自适应滤波器的方法对图像进行预处理。
所述步骤Step5中,重建图像的大小与待检测图像的大小要严格一致,并把重构的图像以二值图像的方式显示。
实施例2:如图1-7所示,将附图2中的待检测源图像中的文字检测出来。附图2是一幅含有复杂背景的场景图像,图像整体受光照污染严重,且背景的几何特征与文字的几何特征很相似,用传统的方法很难准确地检测到图像中的文字,下面介绍检测图2中的文字区域步骤:
Step1、首先构建文字和背景的训练样本;
Step1.1、从互联网上收集文字图像和背景图像,其中文字图像只含有文字没有背景纹理,背景图像不含有文字。
Step1.2、以滑动窗口的形式采集Step1.1中的文字图像和背景图像的数据,每个窗口(n×n)采集到数据作为一个列向量(n2×1)(后面统一称为原子,n为滑动窗口的大小),这样所有采集到的文字训练数据和背景训练数据为两个n2维的矩阵。
Step2、利用训练样本学习字典;
Step2.1、提出的字典学习的目标函数:
m i n D , X { | | Y - D X | | F 2 + λ 1 | | X | | 1 + λ 2 f ( D X ) } s . t . | | d i | | 2 = 1
这里Y、D、X分别为采集的样本数据、待学习的字典和样本数据对应的稀疏表示系数,f(DX)=tr(Sw(DX))-tr(SB(DX))+η||DX||2 F是改进的Fisher字典学习判别项,di为D中的第i个原子。
Step2.2、目标函数的求解,需要对字典D和稀疏系数X进行迭代更新,X是以类(m=1,...,N)为单位更新的,D是以原子(i=1,...,k)为单位更新的,i和j是类m中的不同原子,迭代更新一次,i加1一次,加到k之后,m加1;直到所有类,所有原子更新完。
Step2.2.1、固定D,求解X;
用迭代更新的算法求解目标函数,初始化字典D(初始化值为采集数据的特征向量),更新得到的稀疏表示系数为(m类的P次更新):
X m ( P ) = S τ / σ ( X m ( P - 1 ) - 1 2 σ ▿ Q ( X m ( P - 1 ) ) )
其中σ,τ>0,为设定的调节值,是Q(Xm)的梯度值,Sτ/σ是软阈值算子,当|xn|≤τ/σ时,[Sτ/σ(x)]n=0;否则,[Sτ/σ(x)]n=xn-sign(xn)τ/σ,更新次数P达到m类中的原子个数时,m加1,直到所有类都更新完。
Step2.2.2、固定X,求解D;
用迭代更新的算法求解目标函数,固定稀疏表示系数X,字典D的求解是以原子为单位更新的,也就是固定更新(更新m类的第i个原子)得:
D m i = D m i + D m r
这里,又有 改进的Fisher判别项为表示m类的第i列,表示m类第i行,Mm的均值向量,M是DX的均值向量;每迭代一次,i加1一次,直到达到m类中的原子个数时,m加1,直到所有类都更新完。
Step3、待检测图像预处理;
对待检测图像x进行滤波处理,保留前景文字的特征,弱化背景的纹理特征。用自适应滤波器进行预处理操作,如附图3所示。
Step4、待检测图像文字稀疏表示系数的求解;
待检测图像文字区域的稀疏表示系数的求解是由Step2中求解出的字典D和待检测图像的数据Y作为已知条件求解的,如下式所示:
arg m i n X { | | Y - D X | | 2 F + | | X | | 1 }
这里Y,D分别为待检测图像的数据和Step2中求解的字典,X为要求解的待检测图像对应的稀疏表示系数。由于训练样本分为文字训练样本(W)和非文字训练样本(B),所以学习到的字典为文字字典(D(W))和背景字典(D(B)),与之对应,待检测图像的稀疏表示系数也分别为文字稀疏表示系数(X(W))和背景稀疏表示系数(X(B));要求解的待检测图像中的文字稀疏表示系数表示为X(W)
Step5、重建待检测图像中的文字;
由Step4中的待检测图像中文字的稀疏表示系数和Step2中学习到的字典,待检测图像中文字的重建可以通过下式重建:
Y(W)=DX(W)
这时得到的数据是一个矩阵,设定重建图像的大小与待检图像的大小严格一样,用matlab函数把矩阵数据显示为图像形式,图像中的没有重构的背景部分像素值为0,重建结果如附图4所示。
Step6、待检测图像中候选的文字区域;
对Step5中重建的文字图像用启发式规则如形态学处理、双阈值限制,面积宽高比等方法去除错误重建的噪声或背景部分,找到重建的文字图像的连通区域的重心点,然后把确定出来的重心点连接在一起如附图5所示,最后用矩形框包围以重心点为中心,以给定阈值为边长的矩形框,这些矩形框所包围的区域为候选的文字区域,如附图6所示。
Step7、确定待检测图像的文字区域;
对Step6中候选的文字区域用水平方向是否一致的方法和矩形框面积阈值限定的方法进行判断矩形框之间是否水平合并,对于不满足合并条件的矩形框直接舍弃得到一个大的矩形框,最后留下来的矩形框为检测到的文本区域,如附图7所示。
所述步骤Step1中,用滑动窗口大小(n=16),滑动窗口采集的数据形成的256维的矩阵就是训练字典的数据;由于文字具有类的特性,为了加快计算速度,首先对文字样本数据进行聚类。
所述步骤Step2中,更新字典以原子为单位更新,更新稀疏表示系数以类为单位更新;字典学习的目标函数中加入了改进的Fisher判别项。
所述步骤Step3,用自适应滤波器的方法对图像进行预处理。
所述步骤Step5中,重建图像的大小与待检测图像的大小要严格一致,并把重构的图像以二值图像的方式显示。
参数设置如表1所示
其中λ1和λ2是目标函数中的调节参数,IST_iter是求解稀疏表示系数时的迭代次数,nIter是求解字典时的迭代次数。
为了提供统一的比较平台,International Conference on Document Analysisand Recognition(ICDAR)于2003年、2005、2007年、2011年、2013年、2015年多次举办文本定位相关竞赛,为参赛者提供统一的数据库以比较各种算法的客观。使用ICDAR2003、ICDAR2011、ICDAR2013相关图像库进行评价,上述数据库包含大量复杂情况的背景和文本区域,能够较好地比较各种算法的性能。文字检测的评价指标用精确率、召回率和F-值(精确率和召回率的调和均值),定义如下:
F = 2 P R P + R .
表2:不同数据库对应的文字检测竞赛客观评价
表格从上到下分别对应ICDAR2003,ICDAR2011和ICDAR2013数据库。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.一种基于判别字典学习与稀疏表示的场景图像文字检测的方法,其特征在于:首先用训练数据以及提出的判别字典学习的方法训练学习出两个字典:文字字典和背景字典,再序列地合并文字字典和背景字典;然后由合并的字典、待检测的图像以及稀疏表示的方法计算出待检测图像所对应的文字和背景的稀疏表示系数;最后由学习到的字典与计算出的待检测图像对应的稀疏表示系数,重建待检测图像中的文字;用启发式规则对重建的文字图像中的文字区域进行处理从而检测出待检测图像中的候选的文字区域;
具体步骤为:
Step1、首先构建文字和背景的训练样本;
Step1.1、从互联网上收集文字图像和背景图像,其中文字图像只含有文字没有背景纹理,背景图像不含有文字;
Step1.2、以滑动窗口的形式采集Step1.1中的文字图像和背景图像的数据,每个窗口(n×n)采集到数据作为一个列向量(n2×1),n为滑动窗口的大小,所有采集到的文字训练数据和背景训练数据为两个n2维的矩阵;
Step2、利用训练样本学习字典;
Step2.1、提出字典学习的目标函数:
m i n D , X { | | Y - D X | | F 2 + λ 1 | | X | | 1 + λ 2 f ( D X ) } s . t . | | d i | | 2 = 1
式中,Y、D、X分别为采集的样本数据、待学习的字典和样本数据对应的稀疏表示系数,f(DX)=tr(Sw(DX))-tr(SB(DX))+η||DX||2 F是改进的Fisher字典学习判别项,di为D中的第i个原子;
Step2.2、目标函数的求解,需要对字典D和稀疏系数X进行迭代更新,X是以类(m=1,...,N)为单位更新的,D是以原子(i=1,...,k)为单位更新的,i和j是类m中的不同原子,迭代更新一次,i加1一次,加到k之后,m加1;直到所有类,所有原子更新完;
Step2.2.1、固定D,求解X;
用迭代更新的算法求解目标函数,初始化字典D,更新得到的稀疏表示系数X为m类的P次更新;
X m ( P ) = S τ / σ ( X m ( P - 1 ) - 1 2 σ ▿ Q ( X m ( P - 1 ) ) )
其中σ,τ>0,为设定的调节值,是Q(Xm)的梯度值,Sτ/σ是软阈值算子,当|xn|≤τ/σ时,[Sτ/σ(x)]n=0;否则,[Sτ/σ(x)]n=xn-sign(xn)τ/σ,更新次数P达到m类中的原子个数时,m加1,直到所有类都更新完;
Step2.2.2、固定X,求解D;
用迭代更新的算法求解目标函数,固定稀疏表示系数X,字典D的求解是以原子为单位更新的,也就是固定更新即更新m类的第i个原子,得:
D m i = D m i + D m r
式中,又有 改进的Fisher判别项为m=1,2,...,N,i=1,2,...,K,表示m类的第i列,表示m类第i行,Mm的均值向量,M是DX的均值向量;每迭代一次,i加1一次,直到达到m类中的原子个数时,m加1,直到所有类都更新完;
Step3、待检测图像预处理;
对待检测图像x进行滤波处理,保留前景文字的特征,弱化背景的纹理特征,用自适应滤波器进行预处理操作;
Step4、待检测图像文字稀疏表示系数的求解;
待检测图像文字区域的稀疏表示系数的求解是由Step2中求解出的字典D和待检测图像的数据Y作为已知条件求解的,如下式所示:
arg m i n X { | | Y - D X | | 2 F + | | X | | 1 }
式中,Y,D分别为待检测图像的数据和Step2中求解的字典,X为要求解的待检测图像对应的稀疏表示系数,由于训练样本分为文字训练样本W和非文字训练样本B,所以学习到的字典为文字字典D(W)和背景字典D(B),待检测图像的稀疏表示系数也分别为文字稀疏表示系数X(W)和背景稀疏表示系数X(B);要求解的待检测图像中的文字稀疏表示系数表示为X(W)
Step5、重建待检测图像中的文字;
由Step4中的待检测图像中文字的稀疏表示系数和Step2中学习到的字典,待检测图像中文字的重建可以通过下式重建:
Y(W)=DX(W)
这时得到的数据是一个矩阵,设定重建图像的大小与待检图像的大小严格一样,用matlab函数把矩阵数据显示为图像形式,图像中的没有重构的背景部分像素值为0;
Step6、待检测图像中候选的文字区域;
对Step5中重建的文字图像用启发式规则如形态学处理、双阈值限制,面积宽高比等方法去除错误重建的噪声或背景部分,找到重建的文字图像的连通区域的重心点,然后把确定出来的重心点连接在一起,最后用矩形框包围以重心点为中心,以给定阈值为边长的矩形框,这些矩形框所包围的区域为候选的文字区域;
Step7、确定待检测图像的文字区域;
对Step6中候选的文字区域用水平方向是否一致的方法和矩形框面积阈值限定的方法进行判断矩形框之间是否水平合并,对于不满足合并条件的矩形框直接舍弃得到一个大的矩形框,最后留下来的矩形框为检测到的文本区域。
2.根据权利要求1所述的基于判别字典学习与稀疏表示的场景图片文字检测的方法,其特征在于:所述步骤Step1中,用滑动窗口大小(n=16),滑动窗口采集的数据形成的256维的矩阵就是训练字典的数据;由于文字具有类的特性,为了加快计算速度,首先对文字样本数据进行聚类。
3.根据权利要求1所述的基于判别字典学习与稀疏表示的场景图片文字检测的方法,其特征在于:所述步骤Step2中,更新字典以原子为单位更新,更新稀疏表示系数以类为单位更新;字典学习的目标函数中加入了改进的Fisher判别项。
4.根据权利要求1所述的基于判别字典学习与稀疏表示的场景图片文字检测的方法,其特征在于:所述步骤Step3,用自适应滤波器的方法对图像进行预处理。
5.根据权利要求1所述的基于判别字典学习与稀疏表示的场景图片文字检测的方法,其特征在于:所述步骤Step5中,重建图像的大小与待检测图像的大小要严格一致,并把重构的图像以二值图像的方式显示。
CN201610505754.1A 2016-07-01 2016-07-01 一种基于判别字典学习与稀疏表示的场景图片文字检测的方法 Active CN106203414B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610505754.1A CN106203414B (zh) 2016-07-01 2016-07-01 一种基于判别字典学习与稀疏表示的场景图片文字检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610505754.1A CN106203414B (zh) 2016-07-01 2016-07-01 一种基于判别字典学习与稀疏表示的场景图片文字检测的方法

Publications (2)

Publication Number Publication Date
CN106203414A true CN106203414A (zh) 2016-12-07
CN106203414B CN106203414B (zh) 2019-07-05

Family

ID=57463048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610505754.1A Active CN106203414B (zh) 2016-07-01 2016-07-01 一种基于判别字典学习与稀疏表示的场景图片文字检测的方法

Country Status (1)

Country Link
CN (1) CN106203414B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107065006A (zh) * 2017-01-23 2017-08-18 武汉大学 一种基于在线字典更新的地震信号编码方法
CN107203750A (zh) * 2017-05-24 2017-09-26 中国科学院西安光学精密机械研究所 一种基于稀疏表达和判别分析相结合的高光谱目标检测方法
CN109858475A (zh) * 2019-01-08 2019-06-07 平安科技(深圳)有限公司 图片文字定位方法、装置、介质和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184526A (zh) * 2011-04-22 2011-09-14 西安电子科技大学 基于字典学习和块匹配的自然图像去噪方法
CN102455845A (zh) * 2010-10-14 2012-05-16 北京搜狗科技发展有限公司 一种文字输入方法和装置
CN105631469A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种多层稀疏编码特征的鸟类图像识别方法
CN105701775A (zh) * 2016-01-06 2016-06-22 山东师范大学 一种基于改进自适应字典学习的图像去噪方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102455845A (zh) * 2010-10-14 2012-05-16 北京搜狗科技发展有限公司 一种文字输入方法和装置
CN102184526A (zh) * 2011-04-22 2011-09-14 西安电子科技大学 基于字典学习和块匹配的自然图像去噪方法
CN105631469A (zh) * 2015-12-18 2016-06-01 华南理工大学 一种多层稀疏编码特征的鸟类图像识别方法
CN105701775A (zh) * 2016-01-06 2016-06-22 山东师范大学 一种基于改进自适应字典学习的图像去噪方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李正周 等: "粒子区别性稀疏表征的小弱运动目标跟踪算法", 《强激光与粒子束》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107065006A (zh) * 2017-01-23 2017-08-18 武汉大学 一种基于在线字典更新的地震信号编码方法
CN107065006B (zh) * 2017-01-23 2019-06-11 武汉大学 一种基于在线字典更新的地震信号编码方法
CN107203750A (zh) * 2017-05-24 2017-09-26 中国科学院西安光学精密机械研究所 一种基于稀疏表达和判别分析相结合的高光谱目标检测方法
CN109858475A (zh) * 2019-01-08 2019-06-07 平安科技(深圳)有限公司 图片文字定位方法、装置、介质和计算机设备

Also Published As

Publication number Publication date
CN106203414B (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN104050471B (zh) 一种自然场景文字检测方法及系统
CN103544483B (zh) 一种基于局部稀疏表示的联合目标追踪方法及其系统
CN109063649B (zh) 基于孪生行人对齐残差网络的行人重识别方法
CN107330355B (zh) 一种基于正样本平衡约束的深度行人再标识方法
CN108345850A (zh) 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法
CN105160310A (zh) 基于3d卷积神经网络的人体行为识别方法
CN105488536A (zh) 一种基于多特征深度学习技术的农田害虫图像识别方法
CN103984943A (zh) 一种基于贝叶斯概率框架的场景文本识别方法
CN106384092A (zh) 面向监控场景的在线低秩异常视频事件检测方法
CN103020647A (zh) 基于级联的sift特征和稀疏编码的图像分类方法
CN105469047A (zh) 基于无监督学习深度学习网络的中文检测方法及系统
CN105389550A (zh) 一种基于稀疏指引与显著驱动的遥感目标检测方法
CN103679187B (zh) 图像识别方法和系统
CN104239897A (zh) 一种基于自编码器词袋的视觉特征表示方法
CN107292259A (zh) 基于AdaRank的深度特征和传统特征的集成方法
CN105718866A (zh) 一种视觉目标检测与识别方法
CN104794455B (zh) 一种东巴象形文字识别方法
CN105574545B (zh) 街道环境图像多视角语义切割方法及装置
CN104299009A (zh) 基于多特征融合的车牌字符识别方法
CN110349170B (zh) 一种全连接crf级联fcn和k均值脑肿瘤分割算法
CN106257496A (zh) 海量网络文本与非文本图像分类方法
CN102147812A (zh) 基于三维点云模型的地标建筑图像分类方法
CN110689085A (zh) 基于深度跨连接网络及损失函数设计的垃圾分类方法
CN104463242A (zh) 基于特征变换和词典学习的多特征动作识别方法
CN106203414A (zh) 一种基于判别字典学习与稀疏表示的场景图片文字检测的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210222

Address after: 650000 room 1701, 17th floor, block a, science and Technology Information Innovation Incubation Center, Chenggong District, Kunming City, Yunnan Province

Patentee after: YUNNAN UNITED VISUAL TECHNOLOGY Co.,Ltd.

Address before: 650093 No. 253, Xuefu Road, Wuhua District, Yunnan, Kunming

Patentee before: Kunming University of Science and Technology