CN103632159B - 训练分类器、图像中文字区域检测的方法及系统 - Google Patents

训练分类器、图像中文字区域检测的方法及系统 Download PDF

Info

Publication number
CN103632159B
CN103632159B CN201210303844.4A CN201210303844A CN103632159B CN 103632159 B CN103632159 B CN 103632159B CN 201210303844 A CN201210303844 A CN 201210303844A CN 103632159 B CN103632159 B CN 103632159B
Authority
CN
China
Prior art keywords
image
jing
gray proces
checked
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210303844.4A
Other languages
English (en)
Other versions
CN103632159A (zh
Inventor
邓宇
陈艳琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Network Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210303844.4A priority Critical patent/CN103632159B/zh
Publication of CN103632159A publication Critical patent/CN103632159A/zh
Application granted granted Critical
Publication of CN103632159B publication Critical patent/CN103632159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种训练分类器的方法及系统、图像中文字区域检测的方法及系统,属于图像检测领域。该检测方法包括:获取经灰度处理的待检测图像;获取与所述经灰度处理的待检测图像对应的黑白二值图;根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域;根据从候选检测区域提取的图像特征和分类器确定待检测图像中的候选文字区域;根据候选文字区域获取图像中的文字区域。本申请可以快速准确地检测图像中的文字区域。

Description

训练分类器、图像中文字区域检测的方法及系统
技术领域
本申请涉及图像检测领域,尤其涉及一种训练分类器的方法及系统、图像中文字区域检测的方法及系统。
背景技术
图像中文字区域的检测历来是图像检测的一个重要课题,以图像中的商标为例,商标是指生产者、经营者为使自已的商品或服务与他人的商品或服务相区别,而使用在商品或服务上的一种可视性标志。大多数商标包括文字部分,这样的商标也可以称为文字商标。对于许多网站,尤其是电子商务网站,存在各种侵犯商标专用权的行为,比如卖家发布的图像中使用了某个未经商标持有人授权的商标,这种行为对商标持有人和商品购买者都带来了很多的利益损害。如果可以在一幅图像中检测出商标的文字区域,则可以为后续的商标侵权判断提供更精准的依据。目前常用的图像中文字区域的检测方法如下:
第一、基于边缘检测的方法。该方法是利用文字区域存在较多边缘的特点,先检测待检测图像的边缘,然后利用形态学等方法定位待检测图像中的文字区域。虽然基于边缘检测的方法可以快速检测待检测图像中的文字区域,但由于文字经常直接叠加在复杂的背景中,文字区域周围的背景的边缘经常会与文字的边缘粘连在一起,从而影响待检测图像中的文字区域定位的准确性。
第二、基于区域分析的方法。该方法是利用颜色信息从待检测图像中提取连通域,再根据区域几何约束使用阈值规则从连通域中定位文字区域。但该方法的缺陷在于:在待检测图像背景复杂时很难准确地提取连通域,并且在该方法中使用的几何规则和阈值更缺乏鲁棒性,很难推广。
第三、基于机器学习的方法。该方法事先通过选取样本来对分类器进行训练,使之能在不断变化的因素中定位待检测图像的文字区域和背景区域两种模式。但该方法的难点和关键在于训练特征提取,即如何快速有效地从预处理阶段输出的信息中,提取出能代表待检测图像的文字区域的特征的有效信息,因此,训练样本的选择对于检测效果有较大影响,并且该方法处理速度慢。
发明内容
为了快速且准确地检测图像中文字区域,本申请提供了一种训练分类器的方法及系统、图像中文字区域检测的方法及系统。
本申请的一个方案提供了一种训练用于图像中文字区域检测的分类器的方法,包括:
获取图像样本,所述样本大小为n列*m行像素,n,m为正整数;
对所述样本进行灰度处理,得到经灰度处理的样本;
从所述经灰度处理的样本提取图像特征,所述图像特征包括梯度信息、颜色信息和连通域信息;
利用提取的图像特征训练用于图像中文字区域检测的分类器。
本申请的另一个方案提供了一种图像中文字区域检测的方法,包括:
获取经灰度处理的待检测图像;
获取与所述经灰度处理的待检测图像对应的黑白二值图;
根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域;
根据从所述候选检测区域提取的图像特征和用于图像中文字区域检测的分类器确定所述经灰度处理的待检测图像中的候选文字区域,所述图像特征包括梯度信息、颜色信息和连通域信息;
根据所述候选文字区域获取图像中的文字区域。
本申请的再一个方案提供了一种训练用于图像中文字区域检测的分类器的系统,包括:
样本获取模块,用于获取图像样本,所述样本大小为n列*m行像素,n,m为正整数;
灰度处理模块,用于对所述样本进行灰度处理,得到经灰度处理的样本;
图像特征提取模块,用于从所述经灰度处理的样本提取图像特征,所述图像特征包括梯度信息、颜色信息和连通域信息;
分类器训练模块,用于利用提取的图像特征训练用于图像中文字区域检测的分类器。
本申请的再一个方案提供了一种图像中文字区域的检测系统,包括:
待检测图像获取模块,用于获取经灰度处理的待检测图像;
黑白二值图获取模块,用于获取与所述经灰度处理的待检测图像对应的黑白二值图;
候选检测区域确定模块,用于根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域;
候选文字区域确定模块,用于根据利用从所述候选检测区域提取的图像特征和用于图像中文字区域检测的分类器确定所述经灰度处理的待检测图像中的候选文字区域,所述图像特征包括梯度信息、颜色信息和连通域信息;
文字区域获取模块,用于根据所述候选文字区域获取图像中的文字区域。
根据本申请的一个优选方案,该系统还包括:多尺度变换模块,用于对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换,得到多幅不同尺度的所述经灰度处理的待检测图像和所述黑白二值图。
本申请通过获取对应于经灰度处理的待检测图像的黑白二值图,并在检测文字区域过程中,根据黑白二值图来确定经灰度处理的待检测图像中候选检测区域,从候选检测区域提取图像特征,然后利用用于图像中文字区域检测的分类器来确定检测图像中的文字区域,可以大幅度地减少图像中文字区域检测的计算量,提高了图像中文字区域检测的效率。此外,通过对经灰度处理的待检测图像和黑白二值图进行多尺度变换,进而,利用多幅不同尺度的经灰度处理的待检测图像和黑白二值图来确定待检测图像中的文字区域,可以大幅度地降低图像中文字区域检测的误检率,提高了图像中文字区域的检测准确度。
通过以下参照附图对本申请实施例的说明,本申请的上述以及其它目的、特征和优点将更加明显。
附图说明
下面将参照所附附图来描述本申请的实施例,其中:
图1所示为实施例一提供的训练分类器的方法的流程图;
图2所示为实施例二提供的图像中文字区域检测的方法的流程图;
图3所示为实施例三提供的训练分类器的系统的方块图;
图4所示为实施例四提供的图像中文字区域检测的系统的方块图。
具体实施方式
下面结合附图详细描述本申请的具体实施例。应当注意,这里描述的实施例只用于举例说明,并不用于限制本申请。
实施例一
在进行图像中文字区域检测前,需要先训练用于图像中文字区域检测的分类器。在本申请中,分类器可以是支持向量机(Support Vector Machine,SVM)分类器、Adaboost分类器等,但本申请的保护范围并不限于此。为了描述简便,以下以SVM分类器为例来说明训练分类器的过程,具体如图1所示,
S100,获取图像的样本,样本的大小为n(列)*m(行)像素,其中,n,m为正整数。需要说明的是,样本的大小会影响以后的运算速度,通常n和m的取值以大于10且不超过50为宜。
其中,样本的数量可以根据实际需要进行调整,本申请实施例中样本的数量为5000。本申请为了描述简便,以样本的大小均为36(列)*12(行)像素为例,但本领域技术人员可以根据实际需要进行调整。需要说明的是,样本的大小并不一定要相同,但通过适当的尺度变换可以将不同大小的样本统一成相同尺寸的样本。以下以一个样本为例,对于其他样本,处理原理相同,不再赘述。
S110,对样本进行灰度处理,得到经灰度处理的样本。
S120,从经灰度处理的样本提取图像特征,该图像特征包括:梯度信息、颜色信息和连通域信息。
其中,图像特征提取的具体过程描述如下:
(1)梯度信息的提取。
首先,对每一经灰度处理的样本进行j个方向的梯度信息计算。其中,j的取值范围为大于或等于3的整数,优选地,j取值为大于或等于4且小于或等于8的偶数。为了描述方便,在本申请实施例中,j取值为4,分别为(0°、45°、90°、135°)。在一个方向上计算一行像素中的每一像素的梯度,然后对计算的梯度进行求和,得到该行所有像素的梯度的和值。由于在本实施例中j取值为4,因此,针对每一行像素,对应于4个方向,可以得到4个梯度和值,然后取4个梯度和值的平均值作为该行像素的梯度和值。由于本实施例中经灰度处理的样本有12行像素,这样,分别对应于12行的像素可以计算出12个梯度和值。
然后,将最大和值对应的行的行号标记为LM,其中,M取值为0至12的整数。用LM计算出2个边界值LM/2和(LM+12)/2,利用该2个边界值将经灰度处理的样本划分为3个子区域:B1=(0,LM/2)、B2=(LM/2,(LM+12)/2)和B3=((LM+12)/2,12)。例如,最大和值对应的行的行号为6,即LM=6,M=6。然后利用L6计算两个边界值,分别为3和9。然后利用这两个边界值将经灰度处理的样本划分3个子区域:B1=(0,3)、B2=(3,9)和B3=(9,12)。需要指出的是,在本申请实施例中是用最大的和值对应的行的行号的标记LM将经灰度处理的样本划分为3个子区域,但本领域技术人员可以理解的是,也可以用最小的和值(或中间值,或其他数值)对应的行的行号将经灰度处理的样本划分为3个子区域,本申请的保护范围并不限于上述数值。当然也可以将经灰度处理的样本随机划分3个子区域。此外,划分的子区域的数量也并不限于3个子区域,也可以是4个子区域、6个子区域等,本领域技术人员可以理解的是,可以将经灰度处理的样本划分为k个子区域,k的取值范围为大于或等于3的整数。
然后,分别计算每一子区域内的所有像素的梯度的均值和方差,这样在每一子区域得到2维特征,从而在每个方向上可以得到(2*k)维特征。这样,在j个方向上总共可以得到(2*k*j)维特征。此外,将行号标记LM作为另一维特征,从而总共可以得到(2*k*j+1)维特征。在本申请中,由于j取值为4,k取值为3,因此,总共可以得到25维特征。
(2)颜色信息的提取。
具体地,对经灰度处理的样本的像素进行统计以得到颜色分布的直方图,即将0到255的灰度空间分为L(L为大于1的正整数)个组(bin,计算颜色直方图需要将颜色空间划分成若干个小的颜色区间,每个小区间称为直方图的一个bin)。在本申请实施例中,将该灰度空间均分(也可以是不均分,而是随机划分)为32(也可以是其他数值,例如16、24、64等数值)个bin,每个bin的高度为出现在该bin内的像素个数,进而计算得到颜色分布的直方图,然后计算直方图的方差和信息熵,作为经灰度处理的样本的2维特征。其中,直方图的方差为,信息熵为,其中,Zi为第i个bin的灰度,μ为Zi的和值的均值,L为直方图灰度的划分个数(在本示例中为32),p(Zi)为落入该直方图的像素的个数占经灰度处理的样本的总像素数量的比例。
(3)连通域信息的提取。通常而言,图像的文字区域主要分为两种连通域:文字区域连通域和背景区域连通域,而这些连通域基本是呈一条直线分布。而背景区域连通域中所包含的颜色,通常和文字区域连通域颜色不同。依据这种原理,可以将文字和背景区分开来。具体地,采用聚类算法(例如,Kmeans聚类算法(K=2))对经灰度处理的样本进行聚类运算,将经灰度处理的样本中的像素聚为两类,把同一类像素设为白色或黑色。此时,背景为白色,文字为黑色或者背景为黑色,文字为白色,这样就可以将文字和背景区分开。此外,默认情况下,经灰度处理的样本的边沿部分的大部分为背景,基于此,统计经灰度处理的样本的4个边沿部分的所有像素的灰度,如果有60%的像素的灰度为白色,则对经灰度处理的样本进行反色处理,这样可以得到文字为白色、背景为黑色的黑白二值图。其中,60%为一经验值,本领域技术人员可以根据实际需要进行调整。然后,从得到的黑白二值图中提取白色连通域,计算白色连通域中心的X坐标和Y坐标的均值,得到2维特征,将白色连通域的大小的标准差作为另一维特征。
S130,利用提取的图像特征训练用于图像中文字区域检测的SVM分类器。
具体地,将提取的图像特征输入到向量机中,向量机对图像特征进行SVM训练后,得到SVM分类器,该分类器可以用于以后的图像中文字区域的检测。
实施例二
本申请提供了一种图像中文字区域检测的方法,如图2所示,包括:
S200,获取经灰度处理的待检测图像,该经灰度处理的待检测图像与实施例一的样本大小相同。
具体地,获取初始输入的待检测图像,然后对初始输入的待检测图像进行灰度处理,得到经灰度处理的待检测图像,经灰度处理的待检测图像的大小与实施例一的样本大小相同。
S210,获取与经灰度处理的待检测图像对应的黑白二值图。
通常而言,图像边缘有方向和变化幅度两个特性,通常沿着边缘走向的像素灰度变化平缓,垂直于边缘走向的像素灰度变化剧烈。基于这种原理,对经灰度处理的待检测图像进行边缘粗定位处理和形态学处理,获取对应经灰度处理的待检测图像的黑白二值图,具体过程如下:
首先,通过高斯算法对经灰度处理的待检测图像进行平滑处理,去除部分噪声,得到经平滑处理后的待检测图像。
其次,利用与实施例一的S120中的方向的个数相同数量的边缘检查模板对经平滑处理后的待检测图像进行边缘检查,获取对应经平滑处理后的待检测图像的边缘图。由于在S120中的方向的个数为4个,因此,在步骤中,边缘检查模板的数量也以4个为例,如图3所示,4个边缘检查模板从左到右的边缘方向依次是:0°、45°、90°、135°。利用该4个边缘检查模板对经平滑处理后的待检测图像进行卷积,即对经平滑处理的待检测图像的每一像素的灰度从4个方向进行累加,将得到的累加值作为当前像素的灰度。根据当前像素的灰度判断该当前像素是否为边缘点,进而可以得到对应经平滑处理的图像的边缘图。本领域技术人员可以理解的是,获取边缘图可以通过其他方式,在此不再赘述。
最后,对得到的边缘图进行形态学处理(例如,膨胀、腐蚀等),获取对应于该边缘图的黑白二值图。在该黑白二值图中,文字区域基本连成块,其中,白色区域代表文字区域,黑色区域代表背景区域。
S220,对经灰度处理的待检测图像和黑白二值图进行多尺度变换,得到多幅不同尺度的经灰度处理的待检测图像和黑白二值图。
在本申请中,对经灰度处理的待检测图像和黑白二值图进行6个尺度的变换,得到6幅不同尺度的经灰度处理的待检测图像和6幅不同尺度的黑白二值图,同一尺度的经灰度处理的待检测图像和黑白二值图相互对应。需要说明的是,本申请的保护范围并不限于6个尺度,还可以3个尺度、7个尺度或10个尺度等数值,本领域技术人员可以根据需要进行调整。
利用多尺度变换,可以将经灰度处理待检测图像进行放大或缩小,即对初始输入的待检测图像中的文字进行相应的放大或缩小,这样可以降低进行图像中文字区域检测时对文字大小的敏感,从而提高图像中文字区域检测的准确度。
需要说明的是,在本申请中,也可以先对初始输入的待检测图像进行多尺度变换,然后,再对每一幅变换后的待检测图像进行灰度处理、边缘粗定位处理和形态学处理,获取对应的黑白二值图。
S230,根据黑白二值图确定多尺度变换后的待检测图像中的候选检测区域。
具体地,用与预设大小的滑动框遍历多尺度变换后的待检测图像。其中滑动框可以为一矩形框,其可以预设步长遍历多尺度变换后的待检测图像,其大小与实施例一的样本相同,可以为矩形框。在本实施例中,用36*12像素大小的滑动框遍历多尺度变换后的待检测图像,判断与多尺度变换后的待检测图像对应的黑白二值图中对应该滑动框的区域中的预设位置的像素是否为白色(即,是否为边缘点),如果是,则确定多尺度变换后的待检测图像中对应该滑动框的区域为候选检测区域;如果否(即,为黑色),则以预设步长(例如,步长为2个像素)在多尺度变换后的待检测图像上继续滑动该滑动框。需要指出的是,该预设位置可以位于黑白二值图中对应该滑动框的区域中的左上角、右上角、左下角、右下角、中心点、中心位置或是其他位置。
需要指出的是,由于经过尺度变换后的待检测图像为6幅,本步骤的处理是以其中一幅为例,针对其他待检测图像的处理相同,不再赘述。
S240,根据候选检测区域的图像特征和用于图像中文字区域检测的分类器确定多尺度变换后的待检测图像中的候选文字区域。
具体地,利用与实施例一相同的方法从确定的候选检测区域中提取图像特征,该图像特征包括梯度信息、颜色信息和连通域信息。然后,将提取的图像特征输入到实施例一的用于图像中文字区域检测的SVM分类器,SVM分类器根据输入的该图像特征输出置信度信息,并判断置信度是否大于或等于预设值(例如,预设值为一经验值,为0.8),如果是,则确定多尺度变换后的待检测图像中的候选检测区域为候选文字区域,并转入S250;如果否,则转入下一候选检测区域。如此循环,直至遍历多尺度变换后的待检测图像所有的区域。
从以上可以看出,通过判断多尺度变换后的待检测图像对应的黑白二值图中的预设区域中的预设位置是否为边缘点,进而可以确定多尺度变换后的待检测图像中对应该预设区域的相应区域是否为候选检测区域,进而判断该候选检测区域是否为候选文字区域,而不是对多尺度变换后的待检测图像的所有区域均使用分类器进行检测,从而可以大幅度地减少计算量,进而加快了图像中文字区域的检测速度,提高了图像中文字区域检测的效率。
S250,根据候选文字区域获取待检测图像中的文字区域。
具体地,可以先对候选文字区域进行标记,以方便以后合并处理的识别。然后,针对同一幅经灰度处理的待检测图像,由于候选文字区域的大小与滑动框大小相同,且滑动框是以预设步长(例如,步长为2个像素)滑动,因此在相邻滑动框之间有可能会存在相交面积,即候选文字区域之间会存在相交面积,此时,判断不同的候选文字区域间的相交面积与滑动框的面积的比值是否大于第一预设值,如果是,将该候选文字区域归为一类,如果否,则淘汰该候选文字区域。以这样的方式判断同一幅经灰度处理的待检测图像的所有候选文字区域,并对候选文字区域进行归类。其中,第一预设值例如为80%,其中,80%为一经验值,其他数值也可以适用本申请,例如,85%、87%、90%等。然后,判断归为该类的候选文字区域的数量是否小于第二预设值,该第二预设值是一经验值,为大于1的正整数(例如为5),如果是,则认为是错误检测,并淘汰归为该类的所有候选文字区域。需要指出的是,针对同一幅经灰度处理的待检测图像,由于滑动框对应的候选文字区域相同,这样两个候选文字区域间的相交面积只能是小于或等于该滑动框。
将经归类处理后的待检测图像(6幅)还原为与初始输入的待检测图像相同大小的图像,即候选文字区域会变大或变小。因此,此时需要对变换后的候选文字区域进行合并处理。具体地,对于一大一小两个候选文字区域,判断小的候选文字区域的面积与大的候选文字区域的面积的比值是否大于第三预设值。如果是,则将小的候选文字区域和大的候选文字区域合并到第三候选文字区域,该第三候选文字区域是包括小的候选文字和大的候选文字区域的矩形区域中最小的矩形区域,即为图像中的文字区域;如果否,则不进行合并。其中,该第三预设值例如为85%,该85%为一经验值,其他数值也可以适用本申请,例如,80%、88%、90%等。
经过对候选文字区域进行合并处理后,得到待检测图像中的文字区域。
需要指出的是,实际应用中也可以不对经灰度处理的待检测图像和黑白二值图进行多尺度变换,即对经灰度处理的待检测图像和黑白二值图进行多尺度变换是本申请的优选方案。如果不对经灰度处理的待检测图像和黑白二值图进行多尺度变换,则在S250中不必再进行合并处理的步骤,只需要对经灰度处理的待检测图像进行归类处理,即可获取图像中的文字区域。经过分类和合并处理获取图像中的文字区域要比仅经过分类处理获取图像中的文字区域准确率高。
本申请通过获取对应于经灰度处理的待检测图像的黑白二值图,并在检测文字区域过程中,根据黑白二值图来确定经灰度处理的待检测图像中候选检测区域,从候选检测区域提取图像特征,然后利用用于图像中文字区域检测的分类器来确定检测图像中的文字区域,可以大幅度地减少图像中文字区域检测的计算量,提高了图像中文字区域检测的效率。此外,通过对经灰度处理的待检测图像和黑白二值图进行多尺度变换,进而利用多幅不同尺度的经灰度处理的待检测图像和黑白二值图来确定待检测图像中的文字区域,可以大幅度地降低图像中文字区域检测的误检率,提高了图像中文字区域的检测准确度。
实施三
本申请提供了一种训练用于图像中文字区域检测的分类器的系统,如图3所示,包括:
样本获取模块300,用于获取图像样本,样本大小为n列*m行像素,n,m为正整数;其中,样本获取模块300的功能具体可以参见实施例一的S100。
灰度处理模块310,用于对样本进行灰度处理,得到经灰度处理的样本。其中,灰度处理模块310的功能具体可以参见实施例一的S110。
图像特征提取模块320,用于从经灰度处理的样本提取图像特征,图像特征包括梯度信息、颜色信息和连通域信息。其中,图像特征提取模块320的功能具体可以参见实施例一的S120。
分类器训练模块330,用于利用提取的图像特征训练用于图像中文字区域检测的分类器。其中,图像特征提取模块分类器训练模块330的功能具体可以参见实施例一的S130。
在本实施例的一种实施方式中,图像特征提取模块310用于:
对经灰度处理的样本进行j个方向的梯度信息计算,得到经灰度处理的样本中每行中所有像素的梯度的和值,从而得到m个和值,其中,j为大于或等于3的正整数;
利用m个和值中的一和值对应的行将经灰度处理的样本划分为k个子区域,k为大于或等于3的正整数;
将m个和值中的该和值对应的行的标记作为1维特征;
分别从每一方向计算每一子区域的所有像素的梯度的均值和方差,得到2*j*k维特征。
在本实施例的另一种实施方式中,图像特征提取模块310用于:
将经灰度处理的样本的灰度空间划分为L个bin,每个bin的高度为落入该bin的像素个数,从而得到经灰度处理的样本的颜色分布的直方图;
计算直方图的方差和信息熵,作为经灰度处理的样本的2维特征;
其中,直方图的方差为信息熵为其中,Zi为第i个bin的的灰度,μ为Zi的和值的均值,L为直方图灰度的划分个数,p(Zi)为落入直方图的像素的个数占经灰度处理的样本的总像素数量的比例,其中,i,L为大于1的正整数。
在本实施例的再一种实施方式中,图像特征提取模块310用于:
采用聚类算法对经灰度处理的样本进行聚类运算,将经灰度处理的样本中的像素聚为两类,将同一类像素设为白色或黑色;
统计经灰度处理的样本的4个边沿部分的所有像素的灰度,如果4个边沿部分中超过预设数量的像素的灰度为白色,则对经灰度处理的样本进行反色处理,从而得到文字为白色、背景为黑色的黑白二值图;
从黑白二值图中提取白色连通域,计算白色连通域中心的X坐标和Y坐标的均值,得到2维特征,将白色连通域的大小的标准差作为另一维特征。
经过上述训练过程得到的分类器,可以用于以后的图像中文字区域的检测。
实施例四
本申请提供了一种图像中文字区域检测的系统,如图4所示,包括:
待检测图像获取模块400,用于获取经灰度处理的待检测图像,经灰度处理的待检测图像与实施例一的样本大小相同。其中,待检测图像获取模块400的功能具体可以参见实施例二的S200。
黑白二值图获取模块410,用于获取与经灰度处理的待检测图像对应的黑白二值图。其中,黑白二值图获取模块410的功能具体可以参见实施例二的S210。
多尺度变换模块420,用于对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换,得到多幅多尺度变换后的待检测图像和黑白二值图。其中,多尺度变换模块420的功能具体可以参见实施例二的S220。需要指出的是,包含多尺度变换模块420的系统只是本申请的一个优选方案,本申请的图像的文字区域检测的系统也可以不包含多尺度变换模块420。在这种情况下,后续的候选检测区域确定模块430、候选文字区域确定模块440、文字区域获取模块450仅是针对未经多尺度变换的经灰度处理的待检测图像和黑白二值图来进行相应的处理步骤。
候选检测区域确定模块430,用于根据多尺度变换后的黑白二值图确定多尺度变换后的待检测图像中的候选检测区域。其中,候选检测区域确定模块430的功能具体可以参见实施例二的S230。
候选文字区域确定模块440,用于根据利用与实施例一相同的方式从所述候选检测区域提取的图像特征和实施例一的用于图像中文字区域检测的分类器确定所述多尺度变换后的待检测图像中的候选文字区域,所述图像特征包括梯度信息、颜色信息和连通域信息。其中,候选文字区域确定模块440的功能具体可以参见实施例二的S240。
文字区域获取模块450,用于根据所述候选文字区域获取图像中的文字区域。其中,文字区域获取模块450的功能具体可以参见实施例二的S250。
在本实施例的一种实施方式中,候选检测区域确定模块430用于:
利用与实施例一所述的样本相同大小的滑动框遍历多尺度变换后的待检测图像,判断与多尺度变换后的待检测图像对应的黑白二值图中对应该滑动框的区域中的预设位置的像素是否为白色,如果是,则确定多尺度变换后的待检测图像中对应该滑动框的区域为候选检测区域。
在本实施例的一种实施方式中,该系统还包括:继续滑动模块,用于在判断与多尺度变换后的待检测图像对应的所述黑白二值图中对应该滑动框的区域中的预设位置的像素为黑色时,则以预设的步长在多尺度变换后的待检测图像上继续滑动该滑动框。
其中,预设位置为黑白二值图中对应该滑动框的区域中的左上角、左下角、右上角、右下角或中心位置。
在本实施例的一种实施方式中,在不对经灰度处理的待检测图像和黑白二值图进行多尺度变换时,文字区域获取模块450用于:
针对经灰度处理的待检测图像,判断不同的候选文字区域间的相交面积与该滑动框的面积的比值是否大于第一预设值;
如果是,则将所述不同的候选文字区域归为一类;
判断归为该类的候选文字区域的数量是否小于第二预设值,如果是,则淘汰所述归为该类的候选文字区域;如果否,则保留所述归为该类的候选文字区域,即归为该类的候选文字区域为图像中的文字区域。
在本实施例的一种实施方式中,在对经灰度处理的待检测图像和黑白二值图进行多尺度变换时,文字区域获取模块450还用于:
将经归类处理的待检测图像进行尺度还原处理;
判断还原处理的待检测图像中的小的候选文字区域与大的候选文字区域的比值是否大于第三预设值;
如果是,则将小的候选文字区域和大的候选文字区域合并到第三候选文字区域,该第三候选文字区域为包括小的候选文字区域和大的候选文字区域的最小矩形区域,该第三候选文字区域即为图像中的文字区域。
本申请通过获取对应于经灰度处理的待检测图像的黑白二值图,并在检测文字区域过程中,根据黑白二值图来确定经灰度处理的待检测图像中候选检测区域,从候选检测区域提取图像特征,然后利用用于图像中文字区域检测的分类器来确定检测图像中的文字区域,可以大幅度地减少图像中文字区域检测的计算量,提高了图像中文字区域检测的效率。此外,通过对经灰度处理的待检测图像和黑白二值图进行多尺度变换,进而利用多幅不同尺度的经灰度处理的待检测图像和黑白二值图来确定待检测图像中的文字区域,可以大幅度地降低图像中文字区域检测的误检率,提高了图像中文字区域的检测准确度。
本申请提供的训练分类器的方法、图像中文字区域检测的方法及其步骤可以由具有数据处理能力的一个或多个处理设备例如一个或多个计算机运行计算机可执行指令(该计算机可执行指令反映了本申请提出的实现即时通讯方法的思想)来实现。该处理设备可以包括存储前述计算机可执行指令的存储介质以及中央处理器。
本申请的训练用于图像中文字区域检测的系统及图像中文字区域检测的系统可以是运行前述计算机可执行指令的一个或多个处理设备。该系统中的各个模块可以为该处理设备运行前述计算机可执行指令时具有相应功能的设备组件。
虽然已参照典型实施例描述了本申请,但应当理解,所用的术语是说明和示例性、而非限制性的术语。由于本申请能够以多种形式具体实施而不脱离发明的精神或实质,所以应当理解,上述实施例不限于任何前述的细节,而应在随附权利要求所限定的精神和范围内广泛地解释,因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims (20)

1.一种训练用于图像中文字区域检测的分类器的方法,其特征在于,包括:
获取图像样本,所述样本大小为n列*m行像素,n,m为正整数;
对所述样本进行灰度处理,得到经灰度处理的样本;
从所述经灰度处理的样本提取图像特征,所述图像特征包括梯度信息、颜色信息和连通域信息;
利用提取的图像特征训练用于图像中文字区域检测的分类器,
其中从所述经灰度处理的样本提取梯度信息的步骤包括:计算样本的梯度信息以得到梯度的和值,根据所述和值将样本划分为多个子区域,以所述和值对应的行以及每个子区域梯度的均值和方差作为图像的梯度信息。
2.根据权利要求1所述的方法,其特征在于,从所述经灰度处理的样本提取梯度信息的步骤包括:
对所述经灰度处理的样本进行j个方向的梯度信息计算,得到所述经灰度处理的样本中每行中所有像素的梯度的和值,从而得到m个和值,其中,j为大于或等于3的正整数;
利用m个和值中的一和值对应的行的行号将所述经灰度处理的样本划分为k个子区域,k为大于或等于3的正整数;
将m个和值中的该和值对应的行的标记作为1维特征;
分别从每一方向计算每一子区域的所有像素的梯度的均值和方差,得到2*j*k维特征。
3.根据权利要求1所述的方法,其特征在于,从所述经灰度处理的样本提取颜色信息的步骤包括:
将所述经灰度处理的样本的灰度空间划分为L个bin,每个bin的高度为落入该bin的像素个数,从而得到所述经灰度处理的样本的颜色分布的直方图;
计算所述直方图的方差和信息熵,作为所述经灰度处理的样本的2维特征;
其中,所述直方图的方差为信息熵为其中,Zi为第i个bin的的灰度,μ为Zi的和值的均值,L为直方图灰度的划分个数,p(Zi)为落入所述直方图的像素的个数占所述经灰度处理的样本的总像素数量的比例,其中,i,L为大于1的正整数。
4.根据权利要求1所述的方法,其特征在于,从所述经灰度处理的样本提取连通域信息的步骤包括:
采用聚类算法对所述经灰度处理的样本进行聚类运算,将经灰度处理的样本中的像素聚为两类,将同一类像素设为白色或黑色;
统计所述经灰度处理的样本的4个边沿部分的所有像素的灰度,如果4个边沿部分中超过预设数量的像素的灰度为白色,则对所述经灰度处理的样本进行反色处理,从而得到文字为白色、背景为黑色的黑白二值图;
从所述黑白二值图中提取白色连通域,计算所述白色连通域中心的X坐标和Y坐标的均值,得到2维特征,将所述白色连通域的大小的标准差作为另一维特征。
5.一种图像中文字区域检测的方法,其特征在于,包括:
获取经灰度处理的待检测图像;
获取与所述经灰度处理的待检测图像对应的黑白二值图;
根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域;
根据从所述候选检测区域提取的图像特征和用于图像中文字区域检测的分类器确定所述经灰度处理的待检测图像中的候选文字区域,所述图像特征包括梯度信息、颜色信息和连通域信息;
根据所述候选文字区域获取图像中的文字区域,
其中根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域的步骤包括:
利用预设大小的滑动框遍历所述经灰度处理的待检测图像,判断与所述经灰度处理的待检测图像对应的所述黑白二值图中对应该滑动框的区域中的预设位置的像素是否为白色,如果是,则确定所述经灰度处理的待检测图像中对应该滑动框的区域为候选检测区域。
6.根据权利要求5所述的方法,其特征在于,在获取与所述经灰度处理的待检测图像对应的黑白二值图的步骤之后,根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域的步骤之前,还包括:
对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换,得到多幅不同尺度的经灰度处理的待检测图像和所述黑白二值图。
7.根据权利要求5所述的方法,其特征在于,还包括:如果判断与所述经灰度处理的待检测图像对应的所述黑白二值图中对应该滑动框的区域中的预设位置的像素为黑色,则以预设的步长在所述经灰度处理的待检测图像上继续滑动该滑动框。
8.根据权利要求5或7所述的方法,其特征在于,所述预设位置为所述黑白二值图中对应该滑动框的区域中的左上角、左下角、右上角、右下角或中心位置。
9.根据权利要求5所述的方法,其特征在于,根据所述候选文字区域获取图像中的文字区域的步骤包括:
针对所述经灰度处理的待检测图像,判断不同的候选文字区域间的相交面积与该滑动框的面积的比值是否大于第一预设值;
如果是,则将所述不同的候选文字区域归为一类;
判断归为该类的候选文字区域的数量是否小于第二预设值,如果是,则淘汰所述归为该类的候选文字区域;如果否,则保留所述归为该类的候选文字区域,所述归为该类的候选文字区域即为所述图像中的文字区域。
10.根据权利要求9所述的方法,其特征在于,当对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换时,根据所述候选文字区域获取图像中的文字区域的步骤还包括:
将经归类处理的待检测图像进行尺度还原处理;
判断尺度还原处理后的待检测图像中的小的候选文字区域与大的候选文字区域的比值是否大于第三预设值;
如果是,则将小的候选文字区域和大的候选文字区域合并到第三候选文字区域,所述第三候选文字区域为包括小的候选文字区域和大的候选文字区域的最小矩形区域,所述第三候选文字区域即为所述图像中的文字区域。
11.一种训练用于图像中文字区域检测的分类器的系统,其特征在于,包括:
样本获取模块,用于获取图像样本,所述样本大小为n列*m行像素,n,m为正整数;
灰度处理模块,用于对所述样本进行灰度处理,得到经灰度处理的样本;
图像特征提取模块,用于从所述经灰度处理的样本提取图像特征,所述图像特征包括梯度信息、颜色信息和连通域信息;
分类器训练模块,用于利用提取的图像特征训练用于图像中文字区域检测的分类器,
其中所述图像特征提取模块用于:计算样本的梯度信息以得到梯度的和值,根据所述和值将样本划分为多个子区域,以所述和值对应的行以及每个子区域梯度的均值和方差作为图像的梯度信息。
12.根据权利要求11所述的系统,其特征在于,所述图像特征提取模块用于:
对所述经灰度处理的样本进行j个方向的梯度信息计算,得到所述经灰度处理的样本中每行中所有像素的梯度的和值,从而得到m个和值,其中,j为大于或等于3的正整数;
利用m个和值中的一和值对应的行将所述经灰度处理的样本划分为k个子区域,k为大于或等于3的正整数;
将m个和值中的该和值对应的行的标记作为1维特征;
分别从每一方向计算每一子区域的所有像素的梯度的均值和方差,得到2*j*k维特征。
13.根据权利要求11所述的系统,其特征在于,所述图像特征提取模块用于:
将所述经灰度处理的样本的灰度空间划分为L个bin,每个bin的高度为落入该bin的像素个数,从而得到所述经灰度处理的样本的颜色分布的直方图;
计算所述直方图的方差和信息熵,作为所述经灰度处理的样本的2维特征;
其中,所述直方图的方差为信息熵为其中,Zi为第i个bin的的灰度,μ为Zi的和值的均值,L为直方图灰度的划分个数,p(Zi)为落入所述直方图的像素的个数占所述经灰度处理的样本的总像素数量的比例,其中,i,L为大于1的正整数。
14.根据权利要求11所述的系统,其特征在于,所述图像特征提取模块用于:
采用聚类算法对所述经灰度处理的样本进行聚类运算,将经灰度处理的样本中的像素聚为两类,将同一类像素设为白色或黑色;
统计所述经灰度处理的样本的4个边沿部分的所有像素的灰度,如果4个边沿部分中超过预设数量的像素的灰度为白色,则对所述经灰度处理的样本进行反色处理,从而得到文字为白色、背景为黑色的黑白二值图;
从所述黑白二值图中提取白色连通域,计算所述白色连通域中心的X坐标和Y坐标的均值,得到2维特征,将所述白色连通域的大小的标准差作为另一维特征。
15.一种图像中文字区域检测的系统,其特征在于,包括:
待检测图像获取模块,用于获取经灰度处理的待检测图像;
黑白二值图获取模块,用于获取与所述经灰度处理的待检测图像对应的黑白二值图;
候选检测区域确定模块,用于根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域;
候选文字区域确定模块,用于根据从所述候选检测区域提取的图像特征和用于图像中文字区域检测的分类器确定所述经灰度处理的待检测图像中的候选文字区域,所述图像特征包括梯度信息、颜色信息和连通域信息;
文字区域获取模块,用于根据所述候选文字区域获取图像中的文字区域,
其中所述候选检测区域确定模块用于:利用预设大小的滑动框遍历所述经灰度处理的待检测图像,判断与所述经灰度处理的待检测图像对应的所述黑白二值图中对应该滑动框的区域中的预设位置的像素是否为白色,如果是,则确定所述经灰度处理的待检测图像中对应该滑动框的区域为候选检测区域。
16.根据权利要求15所述的系统,其特征在于,还包括:多尺度变换模块,用于对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换,得到多幅不同尺度的经灰度处理的待检测图像和所述黑白二值图。
17.根据权利要求16所述的系统,其特征在于,还包括:继续滑动模块,用于在判断与所述经灰度处理的待检测图像对应的所述黑白二值图中对应该滑动框的区域中的预设位置的像素为黑色时,则以预设的步长在所述经灰度处理的待检测图像上继续滑动该滑动框。
18.根据权利要求15或17所述的系统,其特征在于,所述预设位置为所述黑白二值图中对应该滑动框的区域中的左上角、左下角、右上角、右下角或中心位置。
19.根据权利要求15所述的系统,其特征在于,所述文字区域获取模块用于:
针对所述经灰度处理的待检测图像,判断不同的候选文字区域间的相交面积与该滑动框的面积的比值是否大于第一预设值;
如果是,则将所述不同的候选文字区域归为一类;
判断归为该类的候选文字区域的数量是否小于第二预设值,如果是,则淘汰所述归为该类的候选文字区域;如果否,则保留所述归为该类的候选文字区域,所述归为该类的候选文字区域即为图像中的文字区域。
20.根据权利要求19所述的系统,其特征在于,当对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换时,所述文字区域获取模块还用于:
将经归类处理的待检测图像进行尺度还原处理;
判断还原处理的待检测图像中的小的候选文字区域与大的候选文字区域的比值是否大于第三预设值;
如果是,则将小的候选文字区域和大的候选文字区域合并到第三候选文字区域,所述第三候选文字区域为包括小的候选文字区域和大的候选文字区域的最小矩形区域,所述第三候选文字区域即为所述图像中的文字区域。
CN201210303844.4A 2012-08-23 2012-08-23 训练分类器、图像中文字区域检测的方法及系统 Active CN103632159B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210303844.4A CN103632159B (zh) 2012-08-23 2012-08-23 训练分类器、图像中文字区域检测的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210303844.4A CN103632159B (zh) 2012-08-23 2012-08-23 训练分类器、图像中文字区域检测的方法及系统

Publications (2)

Publication Number Publication Date
CN103632159A CN103632159A (zh) 2014-03-12
CN103632159B true CN103632159B (zh) 2017-05-03

Family

ID=50213187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210303844.4A Active CN103632159B (zh) 2012-08-23 2012-08-23 训练分类器、图像中文字区域检测的方法及系统

Country Status (1)

Country Link
CN (1) CN103632159B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095890B (zh) * 2014-04-25 2019-02-26 广州市动景计算机科技有限公司 图像中字符分割方法及装置
CN105868758B (zh) * 2015-01-21 2019-12-17 阿里巴巴集团控股有限公司 图像中文本区域检测方法、装置及电子设备
CN105404868B (zh) * 2015-11-19 2019-05-10 电子科技大学 一种基于交互平台的复杂背景中文本的快速检测方法
CN107093172B (zh) * 2016-02-18 2020-03-17 清华大学 文字检测方法及系统
CN111325199B (zh) * 2018-12-14 2023-10-27 中移(杭州)信息技术有限公司 一种文字倾斜角度检测方法及装置
CN109961447B (zh) * 2019-03-29 2021-02-19 京东方科技集团股份有限公司 价签检测方法及装置、电子设备、存储介质
CN110363785A (zh) * 2019-07-15 2019-10-22 腾讯科技(深圳)有限公司 一种文本超框检测方法及装置
CN111310727B (zh) * 2020-03-13 2023-12-08 浙江大华技术股份有限公司 对象检测方法及装置、存储介质、电子装置
CN111652217B (zh) * 2020-06-03 2022-05-03 北京易真学思教育科技有限公司 文本检测方法、装置、电子设备及计算机存储介质
CN112216640B (zh) * 2020-10-19 2021-08-06 高视科技(苏州)有限公司 一种半导体芯片定位方法和装置
CN112801097B (zh) * 2021-04-14 2021-07-16 北京世纪好未来教育科技有限公司 文本检测模型的训练方法、装置及可读存储介质
CN114298990B (zh) * 2021-12-20 2024-04-19 中汽创智科技有限公司 一种车载摄像装置的检测方法、装置、存储介质及车辆

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122952A (zh) * 2007-09-21 2008-02-13 北京大学 一种图片文字检测的方法
CN101436299A (zh) * 2008-11-19 2009-05-20 哈尔滨工业大学 自然场景图像文字检测方法
CN101833664A (zh) * 2010-04-21 2010-09-15 中国科学院自动化研究所 基于稀疏表达的视频图像文字检测方法
CN102081731A (zh) * 2009-11-26 2011-06-01 中国移动通信集团广东有限公司 一种从图像中提取文本的方法和装置
CN102163284A (zh) * 2011-04-11 2011-08-24 西安电子科技大学 面向中文环境的复杂场景文本定位方法
CN102609728A (zh) * 2012-02-08 2012-07-25 嘉兴学院 特定类敏感图像检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5251489B2 (ja) * 2008-12-24 2013-07-31 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122952A (zh) * 2007-09-21 2008-02-13 北京大学 一种图片文字检测的方法
CN101436299A (zh) * 2008-11-19 2009-05-20 哈尔滨工业大学 自然场景图像文字检测方法
CN102081731A (zh) * 2009-11-26 2011-06-01 中国移动通信集团广东有限公司 一种从图像中提取文本的方法和装置
CN101833664A (zh) * 2010-04-21 2010-09-15 中国科学院自动化研究所 基于稀疏表达的视频图像文字检测方法
CN102163284A (zh) * 2011-04-11 2011-08-24 西安电子科技大学 面向中文环境的复杂场景文本定位方法
CN102609728A (zh) * 2012-02-08 2012-07-25 嘉兴学院 特定类敏感图像检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
图像文字区域边缘检测的研究与实现;王雷;《中国优秀硕士学位论文全文数据库 信息科技辑》;20091115(第11期);I138-1255 *
基于Matlab图像的文字区域检测新方法;闻京;《网络与信息》;20110109(第01期);第42-43页 *

Also Published As

Publication number Publication date
CN103632159A (zh) 2014-03-12

Similar Documents

Publication Publication Date Title
CN103632159B (zh) 训练分类器、图像中文字区域检测的方法及系统
Chen et al. A double-threshold image binarization method based on edge detector
Jiang et al. Enhanced crack segmentation algorithm using 3D pavement data
Vijayarani et al. Performance analysis of canny and sobel edge detection algorithms in image mining
Yao et al. Curvature aided Hough transform for circle detection
Shivakumara et al. Accurate video text detection through classification of low and high contrast images
Liao et al. Automatic segmentation for cell images based on bottleneck detection and ellipse fitting
Siriborvornratanakul An automatic road distress visual inspection system using an onboard in‐car camera
CN110781885A (zh) 基于图像处理的文本检测方法、装置、介质及电子设备
CN108960221B (zh) 基于图像的银行卡识别方法及装置
Bulugu Algorithm for license plate localization and recognition for tanzania car plate numbers
Pavaskar et al. Real-time vehicle-type categorization and character extraction from the license plates
CN108280388A (zh) 训练面部检测模型的方法和装置以及面部检测方法和装置
Vidhyalakshmi et al. Text detection in natural images with hybrid stroke feature transform and high performance deep Convnet computing
CN107609454A (zh) 一种识别图像中的手势的方法及装置
Cai et al. Bank card and ID card number recognition in Android financial APP
Ai et al. Geometry preserving active polygon-incorporated sign detection algorithm
Chen et al. An image splicing localization algorithm based on SLIC and image features
Yindumathi et al. Structured data extraction using machine learning from image of unstructured bills/invoices
Raut et al. A system for recognition of indian sign language for deaf people using otsu’s algorithm
Duan et al. Face classification: A specialized benchmark study
Shekar et al. Text localization in video/scene images using Kirsch Directional Masks
Nair et al. COVID-19 Social Distance Surveillance Using Deep Learning
Yan et al. A Method for the Intelligent Localization and Recognition of sporopollen fossil Based on Convolutional Neural Networks—A Case Study of Sandstone and Mudstone Reservoirs in the Bohai Sea Region
Wei et al. The application research of object detection and image segmentation based on improved canny algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1193215

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1193215

Country of ref document: HK

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211112

Address after: No. 699, Wangshang Road, Binjiang District, Hangzhou, Zhejiang

Patentee after: Alibaba (China) Network Technology Co., Ltd

Address before: P.O. Box 847, 4th floor, Grand Cayman capital building, Cayman Islands

Patentee before: Alibaba Group Holdings Limited