CN102968637A - 一种复杂背景图像文字分割方法 - Google Patents

一种复杂背景图像文字分割方法 Download PDF

Info

Publication number
CN102968637A
CN102968637A CN2012105601994A CN201210560199A CN102968637A CN 102968637 A CN102968637 A CN 102968637A CN 2012105601994 A CN2012105601994 A CN 2012105601994A CN 201210560199 A CN201210560199 A CN 201210560199A CN 102968637 A CN102968637 A CN 102968637A
Authority
CN
China
Prior art keywords
image
pixel
character area
feature
connected member
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105601994A
Other languages
English (en)
Other versions
CN102968637B (zh
Inventor
柏猛
李敏花
吕英俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN201210560199.4A priority Critical patent/CN102968637B/zh
Publication of CN102968637A publication Critical patent/CN102968637A/zh
Application granted granted Critical
Publication of CN102968637B publication Critical patent/CN102968637B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种复杂背景图像文字分割方法,主要包括以下步骤:进行图像读取;对读取的图像进行文字区域读取;对文字区域抽取底层颜色特征和底层纹理特征;对抽取出来的底层颜色特征和底层纹理特征进行融合得到底层局部特征;抽取文字区域的标签层全局特征;将文字区域的底层局部特征与文字区域的标签层全局特征进行融合得到文字区域所有像素的特征向量;对文字区域中所有像素特征向量训练得到第一级分割的分类器;用训练好的分类器进行第一级文字分割;对第一级分割的结果进行连通元标定;抽取连通元特征进行第文字分割;输出文字分割结果。本发明提高复杂背景图像中文字分割的准确率;具有一定的通用性和实用性。

Description

一种复杂背景图像文字分割方法
技术领域
本发明涉及图像处理领域中的图像分割技术,尤其涉及一种复杂背景图像文字分割方法。
背景技术
随着数码相机、摄像头、超高速扫描仪等图像获取设备的广泛应用,图像中信息越来越引起人们的关注,然而计算机理解图像的内容,目前还很困难。嵌入在图像中的文字,是图像语义内容的一种重要表达方式。如果能够自动提取和识别这些文字,就可以让机器自动理解图片内容并对图片进行分类,进而借助已经成熟的文本检索技术采用这些文字对图片进行标注和检索,从而为基于内容的图像和视频检索提供一种途径。然而,嵌入在图像中的文字通常都带有复杂背景,即使文本内容在图像中能被准确检测到,在没有去除背景之前,现有的OCR系统难以识别出字符,因而在提交给OCR系统之前还需要一个文字分割过程。因此,如何从复杂背景图像中分割文本信息,成为以文字为线索来理解和检索图像内容的一个关键任务。
现有的图像文字分割技术主要分为以下三类:基于阈值的方法、基于聚类的方法和基于统计模型的方法。
基于阈值的方法一般根据文字块中前景和背景的亮度分布自适应地选取一个全局阈值或自适应局部阈值。在图像背景比较单一时该类方法能取得较好的效果;当文字具有较复杂的背景,例如文字的灰度可能介于背景的多个灰度之间时,阈值法不再适用。
基于聚类的方法一般首先假定文字块中所有像素根据颜色可以分为K类,文字像素对应于其中一类,其余各类均为背景;然后采用经典的无监督聚类算法对所有像素进行聚类。这类方法可用于复杂背景的情况。但当背景中含有与文字颜色相同或相近的成分时,这些成分会被误分入文字类,从而产生大量的残余背景,影响OCR识别。
基于统计模型的方法首先为文字块内所有像素或者文字像素建立概率模型,一般根据颜色建立高斯混合模型(Gaussian Mixture Model,GMM),所有同色区域用一个Gaussian核函数表示。然后使用EM算法估计模型参数,最后根据最大似然准则确定每个区域的类别。由于单纯地利用了颜色信息,GMM模型存在着与聚类方法同样的问题,而且GMM核函数的个数难以确定。
上述各种文字分割方法,只利用了图像底层局部的灰度或彩色信息,没有考虑到文字的空间或全局上下文信息。因而,对复杂背景中的文字分割效果不好。
发明内容
本发明的目的就是为了解决上述问题,提供一种复杂背景图像文字分割方法,根据复杂背景图像中文字信息的特点,融合图像底层的局部颜色、纹理特征和标签层全局特征,并采用由粗到精两级分割的方法,从而提高复杂背景图像文字分割的准确率。该方法对背景简单图像和背景复杂图像均具有较好的分割效果,具有一定的通用性和实用性。
为了实现上述目的,本发明采用如下技术方案:
一种复杂背景图像文字分割方法,主要包括以下步骤:进行图像读取;对读取的图像进行文字区域读取;对读取的文字区域进行底层颜色特征抽取;对抽取过底层颜色特征的文字区域进行底层纹理特征抽取;对抽取出来的文字区域的底层颜色特征和底层纹理特征进行融合得到文字区域的底层局部特征;对文字区域的底层局部特征进行粗分类,然后在粗分类的结果上抽取文字区域的标签层全局特征;将文字区域的底层局部特征与文字区域的标签层全局特征进行融合得到文字区域所有像素的特征向量;对文字区域中所有像素特征向量进行训练得到第一级文字分割的分类器;用训练好的分类器对图像的特征分类,实现第一级文字分割;对第一级分割的结果进行连通元标定;抽取连通元特征,利用文字连通元与背景连通元的特征差异,进行连通元筛选,去除背景连通元,实现第二级文字分割;输出文字分割结果。
一种复杂背景图像文字分割方法,具体步骤如下:
步骤(1):开始,读取图像;
步骤(2):将图像中的文字区域块提取出来,并将文字区域块保存到相应位置;
步骤(3):判断是否所有的文字区域块提取完成,如果提取完成则进入步骤(4);如果未提取完成返回步骤(2);
步骤(4):在RGB颜色空间抽取文字区域块中每个像素点的颜色特征,得到6维底层局部颜色特征;如果所有像素点的颜色特征抽取完毕就进入步骤(5);
步骤(5):抽取文字区域块中每个像素点的纹理特征:首先将文字区域块转换为灰度图像,然后在灰度图像上抽取Gabor纹理特征,每个像素点得到6维底层局部纹理特征;
步骤(6):将6维颜色特征和6维纹理特征进行特征融合,得到12维图像底层局部特征;
步骤(7):提取文字区域块的标签层全局特征。将步骤(6)得到的12维图像底层局部特征送入分类器训练,用训练好的分类器分别对文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取该像素点3×3邻域属于文字类和背景类的概率密度作为标签层全局特征,每个像素点共得到18维标签层全局特征,如果所有的像素点标签层全局特征抽取完毕就进入步骤(8);
步骤(8):判断是否所有像素点特征计算是否完成,如果完成则进入步骤(9);如果未完成则返回步骤(4);
步骤(9):将12维图像底层局部特征和18维标签层全局特征进行融合,每个像素点得到一个30维特征向量;
步骤(10):利用条件随机场模型对文字块中每个像素点30维特征向量进行训练,得到进行第一级文字分割的分类器;
步骤(11):采用步骤(10)得到的分类器对文字区域中的像素进行分类,将文字区域块中的像素分为文字类和背景类,得到二值化的分割图像,实现文字区域的第一级粗分割;
步骤(12):对二值化的粗分割图像进行连通元标定,采用4连通标定法;
步骤(13):对步骤(12)标定好的每个连通元,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割。本发明主要利用文字连通元与背景连通元在尺度、颜色方面的特性差异去除背景连通元,得到最终的文字分割结果;
步骤(14):输出文字分割结果。
所述步骤(4)的颜色特征抽取方法为:
首先将彩色图像分解为R、G、B(红、绿、蓝)三个颜色通道,对每个像素点抽取相应的R、G、B颜色分量和8邻域像素R、G、B三个分量的均值。
所述步骤(5)的Gabor纹理特征的抽取方法是:
在文字区域块的灰度图像上用一组同一频率不同方向不同尺度的Gabor滤波器进行滤波,然后将滤波后的图像按照公式
Figure BDA00002623274200031
进行合并,其中,i表示尺度,j表示方向,gabori表示尺度i的合并Gabor滤波图像,
Figure BDA00002623274200032
表示尺度i方向j上的Gabor滤波图像,然后在滤波后的合并图像上抽取相应的纹理特征,抽取每个像素点的3×3邻域Gabor系数的均值和方差作为每个像素点的纹理特征。
本发明采用3个尺度,在每个尺度上抽取2维Gabor特征,所以在3个尺度上共抽取6维Gabor特征。
所述步骤(7)中,标签层全局特征的抽取方法为:采用神经网络对训练文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取该像素点3×3邻域属于文字类和背景类的概率密度作为标签层全局特征;因此,对于每个像素点可得到2×3×3=18维标签层全局特征。
所述步骤(10)中,第一级文字分割中分类器采用的是条件随机场模型;
所述条件随机场模型描述的图像的类条件概率密度为:
P ( Y | X , L ) = 1 Z exp [ Σ i ∈ S V i ( y i , X ) + Σ i ∈ S Σ j ∈ N i V ij ( y i , y j , X ) + Σ i ∈ S Σ j ∈ N i G ij ( y i , y j , L ) ]
其中,Vi(yi,X)为图像底层一元势函数,Vij(yi,yj,X)为图像底层二元势函数,Gij(yi,yj,L)为标签层二元势函数。i,j为图像的像素点位置,yi,yj分别为图像像素点位置i,j处的类别标签,X为图像低层的特征向量,L为标签层的特征向量,Y为图像的类别标签,S为图像中所用像素点集合,Ni为像素点i的邻域像素集合,P(Y|X,L)为图像的类条件概率密度。
分类器训练采用极大似然估计方法,对模型中的参数进行估计:
θ * = arg max θ { log ( Π k = 1 N P ( y k | x k , l k , θ ) ) } .
其中xk是第k个训练样本的底层特征,yk是xk的类别标签,lk为第k个训练样本的标签层特征,N是训练样本的数量,k∈(1,2,……N)。
所述步骤(11)中,利用分类器的对文本进行第一级粗分割步骤是:将步骤(9)训练出的模型参数带入第一级分割的分类器中,根据式
Figure BDA00002623274200043
求每个像素点的最大边缘后验概率,式中式中Yi表示像素点位置i处的类别标签,Yi∈(0,1),0表示背景类,1表示文字类,X为图像底层特征,L为图像标签层全局特征,然后根据最大边缘后验概率判断每个像素点的属于文字类还是背景类,最后得到文字区域块图像的第一级粗分割结果。
所述步骤(13)中,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割,所用到的文字连通元与背景连通元在尺度、颜色方面的特性差异特征包括:连通元的尺寸、连通元投影、连通元边界颜色渐变情况。
本发明的有益效果:本发明根据复杂背景图像中文字信息的特点,融合图像底层的局部颜色、纹理特征和标签层全局特征,采用由粗到精两级分割的方法,能够提高复杂背景图像中的文字分割的准确率。该方法对背景简单图像和背景复杂图像均具有较好的分割效果,具有一定的通用性和实用性。该发明的成果可直接应用于基于内容的图像检索,图像分类等领域,具有广阔的应用前景。
附图说明
图1是本发明一种复杂背景图像文字分割方法方案流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
实现本发明的系统结构所需的基本的硬件条件为:一台主频为2.4GHZ,内存为1G的计算机,所需软件条件为:编程环境为Visual C++6.0。
一种复杂背景图像文字分割方法,具体步骤如下:
步骤(1):开始,读取图像;
步骤(2):将图像中的文字区域块提取出来,并将文字块保存到相应位置;
步骤(3):判断是否所有的文字区域块提取完成,如果提取完成则进入步骤(4);如果未提取完成返回步骤(2);
步骤(4):在RGB颜色空间抽取文字区域块中每个像素点的颜色特征,得到6维底层局部颜色特征;如果所有像素点的颜色特征抽取完毕就进入步骤(5);
步骤(5):抽取文字区域块中每个像素点的纹理特征,首先将文字区域块转换为灰度图像,然后在灰度图像上抽取Gabor纹理特征,每个像素点得到6维底层局部纹理特征;
步骤(6):将6维颜色特征和6维纹理特征进行融合,得到12维图像底层局部特征;
步骤(7):提取文字区域块的标签层全局特征,将12维图像底层局部特征送入分类器训练,用训练好的分类器分别对文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算该像素点属于文字类和背景类的概率密度,然后抽取每个像素点3×3邻域属于文字类和背景类的概率密度作为标签层全局特征,每个像素点共得到18维标签层全局特征,然后抽取标签层全局特征,每个像素点共得到18维标签层全局特征,所有的像素点标签层全局特征抽取完毕后进入步骤(8);
步骤(8):判断是否所有像素点特征计算是否完成,如果完成则进入步骤(9);如果未完成则返回步骤(4);
步骤(9):将12维图像底层局部特征和18维标签层全局特征进行融合,每个像素点得到一个30的维特征向量;
步骤(10):利用条件随机场模型对文字块中每个像素点30维特征向量进行训练,得到用于第一级文字分割的分类器;
步骤(11):采用步骤(10)得到的分类器对文字区域中的像素进行分类,将文字区域块中的像素分为文字类和背景类,得到二值化的分割图像,实现文字区域的第一级粗分割;
步骤(12):对粗分割的二值化图像进行连通元标定,采用4连通标定法;
步骤(13):对步骤(12)标定好的每个连通元,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割。本发明主要利用文字连通元与背景连通元在尺度、颜色方面的特性差异去除背景连通元,得到最终的文字分割结果;
步骤(14):输出文字分割结果。
所述步骤(4)的颜色特征抽取方法为:
首先将图像分解为R、G、B三个颜色通道,对每个像素点抽取相应的R、G、B颜色分量和8邻域像素R、G、B三个分量的均值。
所述步骤(5)的Gabor纹理特征的抽取方法是:
在文字区域块的灰度图像上用一组同一频率不同方向不同尺度的Gabor滤波器进行滤波,然后将滤波后的图像按照公式
Figure BDA00002623274200061
进行合并其中i表示尺度,j表示方向,gabori表示尺度i的合并Gabor滤波图像,
Figure BDA00002623274200062
表示尺度i方向j上的Gabor滤波图像,然后在滤波后的合并图像上抽取相应的纹理特征,抽取每个像素点的3×3邻域Gabor系数的均值和方差作为每个像素点的纹理特征。
本发明采用3个尺度,在每个尺度上可抽取2维Gabor特征,所以在3各尺度上共抽取6维Gabor特征。
步骤(5-1):首先将彩色图像转换为灰色图像;
步骤(5-2):在灰度图像上用同一频率Gabor滤波器分别在8个方向(0°、30°、45°、60°、90°、120°、135°、150°)和3个尺度上进行滤波(滤波尺度分别为6×6,8×8,10×10);
步骤(5-3):对每个尺度Gabor滤波后的输出图像,采用如下公式获得合并滤波图像:
gabor i = max j { gabor j i } ,
其中i表示尺度,j表示方向,gabori表示尺度i的合并Gabor滤波图像,
Figure BDA00002623274200064
表示尺度i方向j上的Gabor滤波图像。
步骤(5-4):对于每幅图像,在每个尺度上可获得一幅合并Gabor滤波图像。在合并的Gabor滤波图像上对每个像素点的3×3邻域抽取相应的纹理特征。
步骤(5-5):在每个像素点的3×3邻域抽取Gabor系数均值和方差作为每个像素点的纹理特征。在每个尺度上可抽取2维Gabor特征,所以在3各尺度上共抽取6维Gabor特征。
所述步骤(7)中,标签层全局特征的抽取方法为:采用神经网络对训练文字区域块中的每个像素点进行分类,得到文字区域的整体粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取该像素点3×3邻域对于文字类和背景类的概率密度作为标签层全局特征。因此,对于每个像素点可得到2×3×3=18维标签层全局特征。
步骤(7-1):首先初始化神经网络,神经网络的输入节点数目为图像底层颜色、纹理特征的数目,共12维;输出结点数目为该像素属于文本和非文本的条件概率密度,为2维;隐层节点数为15;初始化权值采用-1和+1之间的随机数。
步骤(7-2):用训练样本训练神经网络,求出神经网络的参数。
步骤(7-3):用训练好的神经网络对样本中的每个像素点进行分类,得到像素点属于文字类和背景类的概率密度。
步骤(7-4):对于每个像素点,统计其3×3邻域对于文字类和背景类的概率密度作为标签层全局特征。因此,对于每个像素点可得到2×3×3=18维标签层全局特征。
所述步骤(10)中,第一级文字分割中所用的分类器的训练步骤是:
将30维特征作为输入的学习样本,则用于第一级分类的条件随机场模型可表示为:
P ( Y | X , L ) = 1 Z exp [ Σ i ∈ S V i ( y i , X ) + Σ i ∈ S Σ j ∈ N i V ij ( y i , y j , X ) + Σ i ∈ S Σ j ∈ N i G ij ( y i , y j , L ) ]
其中,Vi(yi,X)为图像底层一元势函数,Vij(yi,yj,X)为图像底层二元势函数,Gij(yi,yj,L)为标签层二元势函数。i,j为图像的像素点位置,yi,yj分别为图像像素点位置i,j处的类别标签,X为图像低层的特征向量,L为标签层的特征向量,Y为图像的类别标签,S为图像中所用像素点集合,Ni为像素点i的邻域像素集合,P(Y|X,L)为图像的类条件概率密度。
其中,
V i ( y i , X ) = log ( y i | f i ( X ) ) log ( 1 1 + e - ( y i w T f i ( X ) ) )
= log ( σ ( y i w T f i ( X ) ) ) - - - ( 1 )
其中, σ ( y i w T f i ( X ) ) = 1 / ( 1 + e - ( y i w T f i ( X ) ) ) , yi为像素位置i处的类别标签,ω为参数向量,ω=(α012,…ωn),n为底层特征向量的维数,α0是一偏置值,fi(X)为像素点i处的特征向量,第一个值为1与偏置参数α0对应。
Vij(yi,yj,X)=yiyjvTuij(X)            (2)
其中,yi和yj为像素点i和j的类别标签,v=[α1,v1,v2…vn]T为参数向量,n为底层特征向量的维数,α1为偏置值,
Figure BDA00002623274200081
第一个值为1与偏置值α1相对应。
Figure BDA00002623274200082
表示像素点对i和j的特征向量,
Figure BDA00002623274200083
其中,fi(X)和fj(X)分别为像素点i、j的特征向量,dij表示像素点位置i、j底层特征向量的距离。
Gij(yi,yj,L)=yiyjγTgij(L)         (3)
其中,yi和yj为像素点i和j的类别标签,γ=[α212…γm]T为参数向量,m为标签层全局特征向量的维数,α2为偏置值,gij(L)=[1,δij(L)]Tij(L)定义为两位置之间向量之间的距离,即
δij(L)=||d′ij||=||f′i(L)-f′j(L)||
f′i(L),f′j(L)分别为位置点i,j的标签域特征向量,d′ij为图像位置点i,j的标签域特征向量之间的距离。
分类器训练的目的就是在给定一组训练样本的情况下,寻找势函数中最优的参数向量θ=(ω,v,γ),ω,v,γ分别为式(1)、(2)、(3)中的参数。给定训练集D={xk,lk,yk},
Figure BDA00002623274200084
样本是相互独立的,其中xk是第k个训练样本的底层特征,lk为第k个训练样本的标签层特征,yk是xk的类别标签,N是训练样本的数量。
采用极大似然估计方法,对参数θ=(ω,v,γ)进行估计:
θ * = arg max θ { log ( Π k = 1 N P ( y k | x k , l k , θ ) ) }
其中θ*为采用极大似然估计方法估计的参数。
最大似然估计的任务就是使用对数似然函数L(θ)来估计参数θ=(ω,v,γ)的值,L(θ)表达式为
L ( θ ) = { log ( Π k = 1 N P ( y k | x k , θ ) ) } = Σ i = 1 k log ( P ( y k | x k , l k , θ ) )
使得该训练样本集的似然函数达到最大:
θ ML = arg max θ { Π k = 1 N P ( y k | x k , l k , θ ) }
其中θML为使用对数似然函数估计出的参数。
所述步骤(11)中,利用第一级分割的分类器对文字进行粗分割步骤是:将步骤(9)训练出的模型参数带入模型中,根据式
Figure BDA00002623274200093
求每个像素点的最大边缘后验概率,式中Yi表示像素点位置i处的分类标签,Yi∈(0,1),0表示背景类,1表示文字类,X为图像底层特征,L为图像标签层全局特征,然后根据最大边缘后验概率判断每个像素点的属于文字类还是背景类,最后得到文字区域图像的第一级粗分割结果。
所述步骤(13)中,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割,所用到的文字连通元与背景连通元在尺度、颜色方面的特性差异特征包括:连通元的尺寸,连通元投影,连通元边界颜色渐变情况。
所用到的文字连通元与背景连通元在尺度、颜色方面的特性差异特征包括:检查其尺寸和位置,将尺寸明显超出字符及其笔画的尺寸范围的连通分量作为背景去掉;通过投影,将位置较偏、落在文字块的边界附近从而不可能是文字笔画的连通分量也去掉。根据连通分量的边界上的像素在原文字块中发生颜色跳变的剧烈程度,来去除一部分在原文字块中处于颜色渐变区域中的残余背景连通分量。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (8)

1.一种复杂背景图像文字分割方法,其特征是,主要包括以下步骤:进行图像读取;对读取的图像进行文字区域读取;对读取的文字区域进行底层颜色特征抽取;对抽取过底层颜色特征的文字区域进行底层纹理特征抽取;对抽取出来的文字区域的底层颜色特征和底层纹理特征进行融合得到文字区域的底层局部特征;对文字区域的底层局部特征进行粗分类,然后在粗分类的结果上抽取文字区域的标签层全局特征;将文字区域的底层局部特征与文字区域的标签层全局特征进行融合得到文字区域所有像素的特征向量;对文字区域中所有像素特征向量进行训练得到用于第一级文字分割的分类器;用训练好的分类器对图像的特征分类,实现第一级文字分割;对第一级分割的结果进行连通元标定;抽取连通元特征,利用文字连通元与背景连通元的特征差异,进行连通元筛选,去除背景连通元,实现第二级文字分割;输出文字分割结果。
2.如权利要求1所述的一种复杂背景图像文字分割方法,其特征是,具体步骤如下:
步骤(1):开始,读取图像;
步骤(2):将图像中的文字区域块提取出来,并将文字块保存到相应位置;
步骤(3):判断是否所有的文字区域块提取完成,如果提取完成则进入步骤(4);如果未提取完成返回步骤(2);
步骤(4):在RGB颜色空间抽取文字区域块中每个像素点的颜色特征,得到6维局部颜色特征;如果所有像素点的颜色特征抽取完毕就进入步骤(5);
步骤(5):抽取文字区域块中每个像素点的纹理特征:首先将文字块转换为灰度图像,然后在灰度图像上抽取Gabor纹理特征,每个像素点得到6维纹理特征;
步骤(6):将6维颜色特征和6维纹理特征进行特征融合,得到12维图像底层局部特征;
步骤(7):提取文字区域块的标签层全局特征:将步骤(6)得到的12维图像底层局部特征送入分类器训练,用训练好的分类器分别对文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取每个像素点3×3邻域属于文字类和背景类的概率密度作为标签层全局特征,每个像素点共得到18维标签层全局特征,如果所有的像素点标签层全局特征抽取完毕就进入步骤(8);
步骤(8):判断是否所有像素点特征计算是否完成,如果完成则进入步骤(9);如果未完成则返回步骤(4);
步骤(9):将12维图像底层局部特征和18维标签层全局特征进行融合,每个像素点得到一个30维的特征向量;
步骤(10):利用条件随机场模型对文字块中每个像素点30维特征进行训练,得到用于第一级分割的分类器;
步骤(11):采用步骤(10)得到的分类器对文字区域中的像素进行分类,将文字区域块中的像素分为文字类和背景类,得到二值化的分割图像,实现文字区域的第一级粗分割;
步骤(12):对二值化的粗分割图像进行连通元标定,采用4连通标定法;
步骤(13):对步骤(12)标定好的每个连通元,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割;
步骤(14):输出文字分割结果。
3.如权利要求2所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(4)的颜色特征抽取方法为:
首先将图像分解为R、G、B三个颜色通道,对每个像素点抽取相应的R、G、B颜色分量和8邻域像素R、G、B三个分量的均值。
4.如权利要求2所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(5)的Gabor纹理特征的抽取方法是:
在文字区域块的灰度图像上用一组同一频率不同方向不同尺度的Gabor滤波器进行滤波,然后将滤波后的图像按照公式
Figure FDA00002623274100021
进行合并,其中,i表示尺度,j表示方向,gabori表示尺度i的合并Gabor滤波图像,
Figure FDA00002623274100022
表示尺度i方向j上的Gabor滤波图像,然后在滤波后的合并图像上抽取相应的纹理特征,抽取每个像素点3×3邻域Gabor系数的均值和方差作为每个像素点的纹理特征。
5.如权利要求2所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(7)中,标签层全局特征的抽取方法为:采用神经网络对训练文字区域块中的每个像素点进行分类,得到文字区域整体的粗略类别标签分布,计算每个像素点属于文字类和背景类的概率密度,然后抽取该像素点3×3邻域属于文字类和背景类的概率密度作为标签层全局特征。
6.如权利要求2所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(10)中,第一级文字分割的分类器采用的是条件随机场模型;所述分类器训练采用极大似然估计方法,对模型中的参数进行估计。
7.如权利要求2所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(11)中,利用第一级文字分割分类器对文本进行粗分割步骤是:将步骤(10)训练出的模型参数带入第一级文字分割的分类器中,根据式
Figure FDA00002623274100023
求每个像素点的最大边缘后验概率,式中Yi表示像素点位置i处的类别标签,Yi∈(0,1),0表示背景类,1表示文字类,X为图像底层特征,L为图像标签层全局特征,然后根据最大边缘后验概率判断每个像素点的属于文字类还是背景类,最后得到文字区域图像的第一级分割结果。
8.如权利要求2所述的一种复杂背景图像文字分割方法,其特征是,所述步骤(13)中,抽取连通元特征,然后采用阈值分类器删除背景连通元,实现文字区域的第二级分割,所用到的文字连通元与背景连通元在尺度、颜色方面的特性差异特征包括:连通元的尺寸、连通元投影、连通元边界颜色渐变情况。
CN201210560199.4A 2012-12-20 2012-12-20 一种复杂背景图像文字分割方法 Expired - Fee Related CN102968637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210560199.4A CN102968637B (zh) 2012-12-20 2012-12-20 一种复杂背景图像文字分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210560199.4A CN102968637B (zh) 2012-12-20 2012-12-20 一种复杂背景图像文字分割方法

Publications (2)

Publication Number Publication Date
CN102968637A true CN102968637A (zh) 2013-03-13
CN102968637B CN102968637B (zh) 2015-06-03

Family

ID=47798768

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210560199.4A Expired - Fee Related CN102968637B (zh) 2012-12-20 2012-12-20 一种复杂背景图像文字分割方法

Country Status (1)

Country Link
CN (1) CN102968637B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298982A (zh) * 2013-07-16 2015-01-21 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
CN104951755A (zh) * 2015-06-04 2015-09-30 广东工业大学 一种基于emd的智能文档图像块检测方法
CN106778732A (zh) * 2017-01-16 2017-05-31 哈尔滨理工大学 基于Gabor滤波器的文字信息特征提取与识别方法
CN106780535A (zh) * 2016-12-21 2017-05-31 潘小胜 一种灰度图像处理方法
CN107423294A (zh) * 2016-02-25 2017-12-01 北京联合大学 一种社群图像检索方法及系统
CN107437245A (zh) * 2017-06-26 2017-12-05 西南交通大学 基于深度卷积神经网络的高速铁路接触网故障诊断方法
CN107545571A (zh) * 2017-09-22 2018-01-05 深圳天琴医疗科技有限公司 一种图像检测方法及装置
CN107808385A (zh) * 2017-11-22 2018-03-16 新疆大学 基于幂律分布的彩色图像分水岭分割方法
CN108010034A (zh) * 2016-11-02 2018-05-08 广州图普网络科技有限公司 商品图像分割方法及装置
CN108875725A (zh) * 2018-06-05 2018-11-23 华南理工大学 一种基于视觉识别的邮件自动分拣装置及方法
CN109214386A (zh) * 2018-09-14 2019-01-15 北京京东金融科技控股有限公司 用于生成图像识别模型的方法和装置
CN109543714A (zh) * 2018-10-16 2019-03-29 北京达佳互联信息技术有限公司 数据特征的获取方法、装置、电子设备及存储介质
CN109829458A (zh) * 2019-01-14 2019-05-31 上海交通大学 实时自动生成记录系统操作行为的日志文件的方法
CN109948637A (zh) * 2017-12-21 2019-06-28 财团法人工业技术研究院 对象检测装置、对象检测方法及计算机可读介质
CN112001406A (zh) * 2019-05-27 2020-11-27 杭州海康威视数字技术股份有限公司 一种文本区域检测方法及装置
CN112686243A (zh) * 2020-12-29 2021-04-20 平安普惠企业管理有限公司 智能识别图片文字的方法、装置、计算机设备及存储介质
CN112801238A (zh) * 2021-04-15 2021-05-14 中国科学院自动化研究所 一种图像分类方法、装置、电子设备及存储介质
CN113361503A (zh) * 2021-08-10 2021-09-07 江苏久智环境科技服务有限公司 一种基于无人机航拍的园林乔木数量智能检测方法及系统
WO2022142611A1 (zh) * 2020-12-28 2022-07-07 深圳壹账通智能科技有限公司 文字识别方法及装置、存储介质、计算机设备
CN115187996A (zh) * 2022-09-09 2022-10-14 中电科新型智慧城市研究院有限公司 语义识别方法、装置、终端设备和存储介质
CN115497106A (zh) * 2022-11-14 2022-12-20 合肥中科类脑智能技术有限公司 基于数据增强和多任务模型的电池激光喷码识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JUNG K: "《text information extraction in images and video: a survey》", 《PATTERN RECOGNITION》 *
何家颖: "《一种复杂背景图像文字分割算法》", 《模式识别与人工智能》 *
刘坤: "《视频字幕的提取与识别研究》", 《万方学位论文》 *
李敏花: "《一种基于条件随机场的复杂背景图像文本抽取方法》", 《模式识别与人工智能》 *
李敏花: "《数字图像复杂背景中文本检测与抽取技术研究》", 《万方学位论文》 *
王佳鑫: "《基于条件随机场的复杂背景图像文字分割》", 《现代电子技术》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298982A (zh) * 2013-07-16 2015-01-21 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
WO2015007168A1 (en) * 2013-07-16 2015-01-22 Tencent Technology (Shenzhen) Company Limited Character recognition method and device
US9349062B2 (en) 2013-07-16 2016-05-24 Tencent Technology (Shenzhen) Company Limited Character recognition method and device
CN104298982B (zh) * 2013-07-16 2019-03-08 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
CN104951755A (zh) * 2015-06-04 2015-09-30 广东工业大学 一种基于emd的智能文档图像块检测方法
CN104951755B (zh) * 2015-06-04 2018-04-10 广东工业大学 一种基于emd的智能文档图像块检测方法
CN107423294A (zh) * 2016-02-25 2017-12-01 北京联合大学 一种社群图像检索方法及系统
CN108010034A (zh) * 2016-11-02 2018-05-08 广州图普网络科技有限公司 商品图像分割方法及装置
CN106780535A (zh) * 2016-12-21 2017-05-31 潘小胜 一种灰度图像处理方法
CN106778732A (zh) * 2017-01-16 2017-05-31 哈尔滨理工大学 基于Gabor滤波器的文字信息特征提取与识别方法
CN107437245A (zh) * 2017-06-26 2017-12-05 西南交通大学 基于深度卷积神经网络的高速铁路接触网故障诊断方法
CN107437245B (zh) * 2017-06-26 2020-10-20 西南交通大学 基于深度卷积神经网络的高速铁路接触网故障诊断方法
CN107545571A (zh) * 2017-09-22 2018-01-05 深圳天琴医疗科技有限公司 一种图像检测方法及装置
CN107808385B (zh) * 2017-11-22 2021-05-25 新疆大学 基于幂律分布的彩色图像分水岭分割方法
CN107808385A (zh) * 2017-11-22 2018-03-16 新疆大学 基于幂律分布的彩色图像分水岭分割方法
CN109948637A (zh) * 2017-12-21 2019-06-28 财团法人工业技术研究院 对象检测装置、对象检测方法及计算机可读介质
CN109948637B (zh) * 2017-12-21 2021-12-17 财团法人工业技术研究院 对象检测装置、对象检测方法及计算机可读介质
CN108875725A (zh) * 2018-06-05 2018-11-23 华南理工大学 一种基于视觉识别的邮件自动分拣装置及方法
CN109214386A (zh) * 2018-09-14 2019-01-15 北京京东金融科技控股有限公司 用于生成图像识别模型的方法和装置
CN109214386B (zh) * 2018-09-14 2020-11-24 京东数字科技控股有限公司 用于生成图像识别模型的方法和装置
CN109543714B (zh) * 2018-10-16 2020-03-27 北京达佳互联信息技术有限公司 数据特征的获取方法、装置、电子设备及存储介质
CN109543714A (zh) * 2018-10-16 2019-03-29 北京达佳互联信息技术有限公司 数据特征的获取方法、装置、电子设备及存储介质
CN109829458B (zh) * 2019-01-14 2023-04-04 上海交通大学 实时自动生成记录系统操作行为的日志文件的方法
CN109829458A (zh) * 2019-01-14 2019-05-31 上海交通大学 实时自动生成记录系统操作行为的日志文件的方法
CN112001406A (zh) * 2019-05-27 2020-11-27 杭州海康威视数字技术股份有限公司 一种文本区域检测方法及装置
CN112001406B (zh) * 2019-05-27 2023-09-08 杭州海康威视数字技术股份有限公司 一种文本区域检测方法及装置
WO2022142611A1 (zh) * 2020-12-28 2022-07-07 深圳壹账通智能科技有限公司 文字识别方法及装置、存储介质、计算机设备
CN112686243A (zh) * 2020-12-29 2021-04-20 平安普惠企业管理有限公司 智能识别图片文字的方法、装置、计算机设备及存储介质
CN112801238A (zh) * 2021-04-15 2021-05-14 中国科学院自动化研究所 一种图像分类方法、装置、电子设备及存储介质
CN112801238B (zh) * 2021-04-15 2021-07-27 中国科学院自动化研究所 一种图像分类方法、装置、电子设备及存储介质
CN113361503A (zh) * 2021-08-10 2021-09-07 江苏久智环境科技服务有限公司 一种基于无人机航拍的园林乔木数量智能检测方法及系统
CN113361503B (zh) * 2021-08-10 2021-11-02 江苏久智环境科技服务有限公司 一种基于无人机航拍的园林乔木数量智能检测方法及系统
CN115187996A (zh) * 2022-09-09 2022-10-14 中电科新型智慧城市研究院有限公司 语义识别方法、装置、终端设备和存储介质
CN115497106A (zh) * 2022-11-14 2022-12-20 合肥中科类脑智能技术有限公司 基于数据增强和多任务模型的电池激光喷码识别方法
CN115497106B (zh) * 2022-11-14 2023-01-24 合肥中科类脑智能技术有限公司 基于数据增强和多任务模型的电池激光喷码识别方法

Also Published As

Publication number Publication date
CN102968637B (zh) 2015-06-03

Similar Documents

Publication Publication Date Title
CN102968637B (zh) 一种复杂背景图像文字分割方法
US10198657B2 (en) All-weather thermal-image pedestrian detection method
Ladický et al. What, where and how many? combining object detectors and crfs
CN102915438B (zh) 一种视频字幕的提取方法及装置
CN102096821B (zh) 基于复杂网络理论的强干扰环境下的车牌识别方法
CN103020618B (zh) 视频图像文字的检测方法及系统
CN106951830B (zh) 一种基于先验条件约束的图像场景多对象标记方法
CN102867188B (zh) 一种基于级联结构的会场内座位状态检测方法
CN106022300A (zh) 基于级联深度学习的交通标志识别方法和系统
CN104751142A (zh) 一种基于笔划特征的自然场景文本检测算法
KR102190527B1 (ko) 자동 영상 합성 장치 및 방법
CN111160205B (zh) 一种交通场景嵌入式多类目标端对端统一检测方法
CN103714181B (zh) 一种层级化的特定人物检索方法
CN106384112A (zh) 基于多通道多尺度与级联过滤器的快速图像文本检测方法
CN101872416A (zh) 对道路图像进行车牌识别的方法和系统
CN101833664A (zh) 基于稀疏表达的视频图像文字检测方法
CN110008900B (zh) 一种由区域到目标的可见光遥感图像候选目标提取方法
CN104299009A (zh) 基于多特征融合的车牌字符识别方法
CN102930537A (zh) 一种图像检测方法及系统
Sikirić et al. Classifying traffic scenes using the GIST image descriptor
CN111461039A (zh) 基于多尺度特征融合的地标识别方法
CN104834891A (zh) 一种中文图像型垃圾邮件过滤方法及系统
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN103678552A (zh) 基于显著区域特征的遥感影像检索方法及系统
CN102098449A (zh) 一种利用标志检测进行电视节目内部自动分割的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150603

Termination date: 20191220

CF01 Termination of patent right due to non-payment of annual fee