CN103632159A

CN103632159A - 训练分类器、图像中文字区域检测的方法及系统

Info

Publication number: CN103632159A
Application number: CN201210303844.4A
Authority: CN
Inventors: 邓宇; 陈艳琴
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba China Network Technology Co Ltd
Priority date: 2012-08-23
Filing date: 2012-08-23
Publication date: 2014-03-12
Anticipated expiration: 2032-08-23
Also published as: CN103632159B

Abstract

本申请公开了一种训练分类器的方法及系统、图像中文字区域检测的方法及系统，属于图像检测领域。该检测方法包括：获取经灰度处理的待检测图像；获取与所述经灰度处理的待检测图像对应的黑白二值图；根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域；根据从候选检测区域提取的图像特征和分类器确定待检测图像中的候选文字区域；根据候选文字区域获取图像中的文字区域。本申请可以快速准确地检测图像中的文字区域。

Description

训练分类器、图像中文字区域检测的方法及系统

技术领域

本申请涉及图像检测领域，尤其涉及一种训练分类器的方法及系统、图像中文字区域检测的方法及系统。

背景技术

图像中文字区域的检测历来是图像检测的一个重要课题，以图像中的商标为例，商标是指生产者、经营者为使自已的商品或服务与他人的商品或服务相区别，而使用在商品或服务上的一种可视性标志。大多数商标包括文字部分，这样的商标也可以称为文字商标。对于许多网站，尤其是电子商务网站，存在各种侵犯商标专用权的行为，比如卖家发布的图像中使用了某个未经商标持有人授权的商标，这种行为对商标持有人和商品购买者都带来了很多的利益损害。如果可以在一幅图像中检测出商标的文字区域，则可以为后续的商标侵权判断提供更精准的依据。目前常用的图像中文字区域的检测方法如下：

第一、基于边缘检测的方法。该方法是利用文字区域存在较多边缘的特点，先检测待检测图像的边缘，然后利用形态学等方法定位待检测图像中的文字区域。虽然基于边缘检测的方法可以快速检测待检测图像中的文字区域，但由于文字经常直接叠加在复杂的背景中，文字区域周围的背景的边缘经常会与文字的边缘粘连在一起，从而影响待检测图像中的文字区域定位的准确性。

第二、基于区域分析的方法。该方法是利用颜色信息从待检测图像中提取连通域，再根据区域几何约束使用阈值规则从连通域中定位文字区域。但该方法的缺陷在于：在待检测图像背景复杂时很难准确地提取连通域，并且在该方法中使用的几何规则和阈值更缺乏鲁棒性,很难推广。

第三、基于机器学习的方法。该方法事先通过选取样本来对分类器进行训练，使之能在不断变化的因素中定位待检测图像的文字区域和背景区域两种模式。但该方法的难点和关键在于训练特征提取,即如何快速有效地从预处理阶段输出的信息中,提取出能代表待检测图像的文字区域的特征的有效信息，因此，训练样本的选择对于检测效果有较大影响，并且该方法处理速度慢。

发明内容

为了快速且准确地检测图像中文字区域，本申请提供了一种训练分类器的方法及系统、图像中文字区域检测的方法及系统。

本申请的一个方案提供了一种训练用于图像中文字区域检测的分类器的方法，包括：

获取图像样本，所述样本大小为n列*m行像素，n，m为正整数；

对所述样本进行灰度处理，得到经灰度处理的样本；

从所述经灰度处理的样本提取图像特征，所述图像特征包括梯度信息、颜色信息和连通域信息；

利用提取的图像特征训练用于图像中文字区域检测的分类器。

本申请的另一个方案提供了一种图像中文字区域检测的方法，包括：

获取经灰度处理的待检测图像；

获取与所述经灰度处理的待检测图像对应的黑白二值图；

根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域；

根据从所述候选检测区域提取的图像特征和用于图像中文字区域检测的分类器确定所述经灰度处理的待检测图像中的候选文字区域，所述图像特征包括梯度信息、颜色信息和连通域信息；

根据所述候选文字区域获取图像中的文字区域。

本申请的再一个方案提供了一种训练用于图像中文字区域检测的分类器的系统，包括：

样本获取模块，用于获取图像样本，所述样本大小为n列*m行像素，n，m为正整数；

灰度处理模块，用于对所述样本进行灰度处理，得到经灰度处理的样本；

图像特征提取模块，用于从所述经灰度处理的样本提取图像特征，所述图像特征包括梯度信息、颜色信息和连通域信息；

分类器训练模块，用于利用提取的图像特征训练用于图像中文字区域检测的分类器。

本申请的再一个方案提供了一种图像中文字区域的检测系统，包括：

待检测图像获取模块，用于获取经灰度处理的待检测图像；

黑白二值图获取模块，用于获取与所述经灰度处理的待检测图像对应的黑白二值图；

候选检测区域确定模块，用于根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域；

候选文字区域确定模块，用于根据利用从所述候选检测区域提取的图像特征和用于图像中文字区域检测的分类器确定所述经灰度处理的待检测图像中的候选文字区域，所述图像特征包括梯度信息、颜色信息和连通域信息；

文字区域获取模块，用于根据所述候选文字区域获取图像中的文字区域。

根据本申请的一个优选方案，该系统还包括：多尺度变换模块，用于对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换，得到多幅不同尺度的所述经灰度处理的待检测图像和所述黑白二值图。

本申请通过获取对应于经灰度处理的待检测图像的黑白二值图，并在检测文字区域过程中，根据黑白二值图来确定经灰度处理的待检测图像中候选检测区域，从候选检测区域提取图像特征，然后利用用于图像中文字区域检测的分类器来确定检测图像中的文字区域，可以大幅度地减少图像中文字区域检测的计算量，提高了图像中文字区域检测的效率。此外，通过对经灰度处理的待检测图像和黑白二值图进行多尺度变换，进而，利用多幅不同尺度的经灰度处理的待检测图像和黑白二值图来确定待检测图像中的文字区域，可以大幅度地降低图像中文字区域检测的误检率，提高了图像中文字区域的检测准确度。

通过以下参照附图对本申请实施例的说明，本申请的上述以及其它目的、特征和优点将更加明显。

附图说明

下面将参照所附附图来描述本申请的实施例，其中：

图1所示为实施例一提供的训练分类器的方法的流程图；

图2所示为实施例二提供的图像中文字区域检测的方法的流程图；

图3所示为实施例三提供的训练分类器的系统的方块图；

图4所示为实施例四提供的图像中文字区域检测的系统的方块图。

具体实施方式

下面结合附图详细描述本申请的具体实施例。应当注意，这里描述的实施例只用于举例说明，并不用于限制本申请。

实施例一

在进行图像中文字区域检测前，需要先训练用于图像中文字区域检测的分类器。在本申请中，分类器可以是支持向量机（Support Vector Machine，SVM）分类器、Adaboost分类器等，但本申请的保护范围并不限于此。为了描述简便，以下以SVM分类器为例来说明训练分类器的过程，具体如图1所示，

S100，获取图像的样本，样本的大小为n（列）*m（行）像素，其中，n，m为正整数。需要说明的是，样本的大小会影响以后的运算速度，通常n和m的取值以大于10且不超过50为宜。

其中，样本的数量可以根据实际需要进行调整，本申请实施例中样本的数量为5000。本申请为了描述简便，以样本的大小均为36（列）*12（行）像素为例，但本领域技术人员可以根据实际需要进行调整。需要说明的是，样本的大小并不一定要相同，但通过适当的尺度变换可以将不同大小的样本统一成相同尺寸的样本。以下以一个样本为例，对于其他样本，处理原理相同，不再赘述。

S110，对样本进行灰度处理，得到经灰度处理的样本。

S120，从经灰度处理的样本提取图像特征，该图像特征包括：梯度信息、颜色信息和连通域信息。

其中，图像特征提取的具体过程描述如下：

（1）梯度信息的提取。

首先，对每一经灰度处理的样本进行j个方向的梯度信息计算。其中，j的取值范围为大于或等于3的整数，优选地，j取值为大于或等于4且小于或等于8的偶数。为了描述方便，在本申请实施例中，j取值为4，分别为（0°、45°、90°、135°）。在一个方向上计算一行像素中的每一像素的梯度，然后对计算的梯度进行求和，得到该行所有像素的梯度的和值。由于在本实施例中j取值为4，因此，针对每一行像素，对应于4个方向，可以得到4个梯度和值，然后取4个梯度和值的平均值作为该行像素的梯度和值。由于本实施例中经灰度处理的样本有12行像素，这样，分别对应于12行的像素可以计算出12个梯度和值。

然后，将最大和值对应的行的行号标记为L_M，其中，M取值为0至12的整数。用L_M计算出2个边界值L_M/2和(L_M+12)/2，利用该2个边界值将经灰度处理的样本划分为3个子区域：B1=(0，L_M/2)、B2=(L_M/2，(L_M+12)/2)和B3=((L_M+12)/2，12)。例如，最大和值对应的行的行号为6，即L_M=6，M=6。然后利用L₆计算两个边界值，分别为3和9。然后利用这两个边界值将经灰度处理的样本划分3个子区域：B1=(0，3)、B2=(3，9)和B3=(9，12)。需要指出的是，在本申请实施例中是用最大的和值对应的行的行号的标记L_M将经灰度处理的样本划分为3个子区域，但本领域技术人员可以理解的是，也可以用最小的和值（或中间值，或其他数值）对应的行的行号将经灰度处理的样本划分为3个子区域，本申请的保护范围并不限于上述数值。当然也可以将经灰度处理的样本随机划分3个子区域。此外，划分的子区域的数量也并不限于3个子区域，也可以是4个子区域、6个子区域等，本领域技术人员可以理解的是，可以将经灰度处理的样本划分为k个子区域，k的取值范围为大于或等于3的整数。

然后，分别计算每一子区域内的所有像素的梯度的均值和方差，这样在每一子区域得到2维特征，从而在每个方向上可以得到（2*k）维特征。这样，在j个方向上总共可以得到（2*k*j）维特征。此外，将行号标记L_M作为另一维特征，从而总共可以得到（2*k*j+1）维特征。在本申请中，由于j取值为4，k取值为3，因此，总共可以得到25维特征。

（2）颜色信息的提取。

具体地，对经灰度处理的样本的像素进行统计以得到颜色分布的直方图，即将0到255的灰度空间分为L（L为大于1的正整数）个组（bin，计算颜色直方图需要将颜色空间划分成若干个小的颜色区间，每个小区间称为直方图的一个bin）。在本申请实施例中，将该灰度空间均分（也可以是不均分，而是随机划分）为32（也可以是其他数值，例如16、24、64等数值）个bin，每个bin的高度为出现在该bin内的像素个数，进而计算得到颜色分布的直方图，然后计算直方图的方差和信息熵，作为经灰度处理的样本的2维特征。其中，直方图的方差为

，信息熵为

，其中，Z_i为第i个bin的灰度，μ为Z_i的和值的均值，L为直方图灰度的划分个数（在本示例中为32），p(Zi)为落入该直方图的像素的个数占经灰度处理的样本的总像素数量的比例。

（3）连通域信息的提取。通常而言，图像的文字区域主要分为两种连通域：文字区域连通域和背景区域连通域，而这些连通域基本是呈一条直线分布。而背景区域连通域中所包含的颜色，通常和文字区域连通域颜色不同。依据这种原理，可以将文字和背景区分开来。具体地，采用聚类算法（例如，Kmeans聚类算法（K=2））对经灰度处理的样本进行聚类运算，将经灰度处理的样本中的像素聚为两类，把同一类像素设为白色或黑色。此时，背景为白色，文字为黑色或者背景为黑色，文字为白色，这样就可以将文字和背景区分开。此外，默认情况下，经灰度处理的样本的边沿部分的大部分为背景，基于此，统计经灰度处理的样本的4个边沿部分的所有像素的灰度，如果有60%的像素的灰度为白色，则对经灰度处理的样本进行反色处理，这样可以得到文字为白色、背景为黑色的黑白二值图。其中，60%为一经验值，本领域技术人员可以根据实际需要进行调整。然后，从得到的黑白二值图中提取白色连通域，计算白色连通域中心的X坐标和Y坐标的均值，得到2维特征，将白色连通域的大小的标准差作为另一维特征。

S130，利用提取的图像特征训练用于图像中文字区域检测的SVM分类器。

具体地，将提取的图像特征输入到向量机中，向量机对图像特征进行SVM训练后，得到SVM分类器，该分类器可以用于以后的图像中文字区域的检测。

实施例二

本申请提供了一种图像中文字区域检测的方法，如图2所示，包括：

S200，获取经灰度处理的待检测图像，该经灰度处理的待检测图像与实施例一的样本大小相同。

具体地，获取初始输入的待检测图像，然后对初始输入的待检测图像进行灰度处理，得到经灰度处理的待检测图像，经灰度处理的待检测图像的大小与实施例一的样本大小相同。

S210，获取与经灰度处理的待检测图像对应的黑白二值图。

通常而言，图像边缘有方向和变化幅度两个特性，通常沿着边缘走向的像素灰度变化平缓，垂直于边缘走向的像素灰度变化剧烈。基于这种原理，对经灰度处理的待检测图像进行边缘粗定位处理和形态学处理，获取对应经灰度处理的待检测图像的黑白二值图，具体过程如下：

首先，通过高斯算法对经灰度处理的待检测图像进行平滑处理，去除部分噪声，得到经平滑处理后的待检测图像。

其次，利用与实施例一的S120中的方向的个数相同数量的边缘检查模板对经平滑处理后的待检测图像进行边缘检查，获取对应经平滑处理后的待检测图像的边缘图。由于在S120中的方向的个数为4个，因此，在步骤中，边缘检查模板的数量也以4个为例，如图3所示，4个边缘检查模板从左到右的边缘方向依次是：0°、45°、90°、135°。利用该4个边缘检查模板对经平滑处理后的待检测图像进行卷积，即对经平滑处理的待检测图像的每一像素的灰度从4个方向进行累加，将得到的累加值作为当前像素的灰度。根据当前像素的灰度判断该当前像素是否为边缘点，进而可以得到对应经平滑处理的图像的边缘图。本领域技术人员可以理解的是，获取边缘图可以通过其他方式，在此不再赘述。

最后，对得到的边缘图进行形态学处理（例如，膨胀、腐蚀等），获取对应于该边缘图的黑白二值图。在该黑白二值图中，文字区域基本连成块，其中，白色区域代表文字区域，黑色区域代表背景区域。

S220，对经灰度处理的待检测图像和黑白二值图进行多尺度变换，得到多幅不同尺度的经灰度处理的待检测图像和黑白二值图。

在本申请中，对经灰度处理的待检测图像和黑白二值图进行6个尺度的变换，得到6幅不同尺度的经灰度处理的待检测图像和6幅不同尺度的黑白二值图，同一尺度的经灰度处理的待检测图像和黑白二值图相互对应。需要说明的是，本申请的保护范围并不限于6个尺度，还可以3个尺度、7个尺度或10个尺度等数值，本领域技术人员可以根据需要进行调整。

利用多尺度变换，可以将经灰度处理待检测图像进行放大或缩小，即对初始输入的待检测图像中的文字进行相应的放大或缩小，这样可以降低进行图像中文字区域检测时对文字大小的敏感，从而提高图像中文字区域检测的准确度。

需要说明的是，在本申请中，也可以先对初始输入的待检测图像进行多尺度变换，然后，再对每一幅变换后的待检测图像进行灰度处理、边缘粗定位处理和形态学处理，获取对应的黑白二值图。

S230，根据黑白二值图确定多尺度变换后的待检测图像中的候选检测区域。

具体地，用与预设大小的滑动框遍历多尺度变换后的待检测图像。其中滑动框可以为一矩形框，其可以预设步长遍历多尺度变换后的待检测图像，其大小与实施例一的样本相同，可以为矩形框。在本实施例中，用36*12像素大小的滑动框遍历多尺度变换后的待检测图像，判断与多尺度变换后的待检测图像对应的黑白二值图中对应该滑动框的区域中的预设位置的像素是否为白色（即，是否为边缘点），如果是，则确定多尺度变换后的待检测图像中对应该滑动框的区域为候选检测区域；如果否（即，为黑色），则以预设步长（例如，步长为2个像素）在多尺度变换后的待检测图像上继续滑动该滑动框。需要指出的是，该预设位置可以位于黑白二值图中对应该滑动框的区域中的左上角、右上角、左下角、右下角、中心点、中心位置或是其他位置。

需要指出的是，由于经过尺度变换后的待检测图像为6幅，本步骤的处理是以其中一幅为例，针对其他待检测图像的处理相同，不再赘述。

S240，根据候选检测区域的图像特征和用于图像中文字区域检测的分类器确定多尺度变换后的待检测图像中的候选文字区域。

具体地，利用与实施例一相同的方法从确定的候选检测区域中提取图像特征，该图像特征包括梯度信息、颜色信息和连通域信息。然后，将提取的图像特征输入到实施例一的用于图像中文字区域检测的SVM分类器，SVM分类器根据输入的该图像特征输出置信度信息，并判断置信度是否大于或等于预设值（例如，预设值为一经验值，为0.8），如果是，则确定多尺度变换后的待检测图像中的候选检测区域为候选文字区域，并转入S250；如果否，则转入下一候选检测区域。如此循环，直至遍历多尺度变换后的待检测图像所有的区域。

从以上可以看出，通过判断多尺度变换后的待检测图像对应的黑白二值图中的预设区域中的预设位置是否为边缘点，进而可以确定多尺度变换后的待检测图像中对应该预设区域的相应区域是否为候选检测区域，进而判断该候选检测区域是否为候选文字区域，而不是对多尺度变换后的待检测图像的所有区域均使用分类器进行检测，从而可以大幅度地减少计算量，进而加快了图像中文字区域的检测速度，提高了图像中文字区域检测的效率。

S250，根据候选文字区域获取待检测图像中的文字区域。

具体地，可以先对候选文字区域进行标记，以方便以后合并处理的识别。然后，针对同一幅经灰度处理的待检测图像，由于候选文字区域的大小与滑动框大小相同，且滑动框是以预设步长（例如，步长为2个像素）滑动，因此在相邻滑动框之间有可能会存在相交面积，即候选文字区域之间会存在相交面积，此时，判断不同的候选文字区域间的相交面积与滑动框的面积的比值是否大于第一预设值，如果是，将该候选文字区域归为一类，如果否，则淘汰该候选文字区域。以这样的方式判断同一幅经灰度处理的待检测图像的所有候选文字区域，并对候选文字区域进行归类。其中，第一预设值例如为80%，其中，80%为一经验值，其他数值也可以适用本申请，例如，85%、87%、90%等。然后，判断归为该类的候选文字区域的数量是否小于第二预设值，该第二预设值是一经验值，为大于1的正整数（例如为5），如果是，则认为是错误检测，并淘汰归为该类的所有候选文字区域。需要指出的是，针对同一幅经灰度处理的待检测图像，由于滑动框对应的候选文字区域相同，这样两个候选文字区域间的相交面积只能是小于或等于该滑动框。

将经归类处理后的待检测图像（6幅）还原为与初始输入的待检测图像相同大小的图像，即候选文字区域会变大或变小。因此，此时需要对变换后的候选文字区域进行合并处理。具体地，对于一大一小两个候选文字区域，判断小的候选文字区域的面积与大的候选文字区域的面积的比值是否大于第三预设值。如果是，则将小的候选文字区域和大的候选文字区域合并到第三候选文字区域，该第三候选文字区域是包括小的候选文字和大的候选文字区域的矩形区域中最小的矩形区域，即为图像中的文字区域；如果否，则不进行合并。其中，该第三预设值例如为85%，该85%为一经验值，其他数值也可以适用本申请，例如，80%、88%、90%等。

经过对候选文字区域进行合并处理后，得到待检测图像中的文字区域。

需要指出的是，实际应用中也可以不对经灰度处理的待检测图像和黑白二值图进行多尺度变换，即对经灰度处理的待检测图像和黑白二值图进行多尺度变换是本申请的优选方案。如果不对经灰度处理的待检测图像和黑白二值图进行多尺度变换，则在S250中不必再进行合并处理的步骤，只需要对经灰度处理的待检测图像进行归类处理，即可获取图像中的文字区域。经过分类和合并处理获取图像中的文字区域要比仅经过分类处理获取图像中的文字区域准确率高。

本申请通过获取对应于经灰度处理的待检测图像的黑白二值图，并在检测文字区域过程中，根据黑白二值图来确定经灰度处理的待检测图像中候选检测区域，从候选检测区域提取图像特征，然后利用用于图像中文字区域检测的分类器来确定检测图像中的文字区域，可以大幅度地减少图像中文字区域检测的计算量，提高了图像中文字区域检测的效率。此外，通过对经灰度处理的待检测图像和黑白二值图进行多尺度变换，进而利用多幅不同尺度的经灰度处理的待检测图像和黑白二值图来确定待检测图像中的文字区域，可以大幅度地降低图像中文字区域检测的误检率，提高了图像中文字区域的检测准确度。

实施三

本申请提供了一种训练用于图像中文字区域检测的分类器的系统，如图3所示，包括：

样本获取模块300，用于获取图像样本，样本大小为n列*m行像素，n，m为正整数；其中，样本获取模块300的功能具体可以参见实施例一的S100。

灰度处理模块310，用于对样本进行灰度处理，得到经灰度处理的样本。其中，灰度处理模块310的功能具体可以参见实施例一的S110。

图像特征提取模块320，用于从经灰度处理的样本提取图像特征，图像特征包括梯度信息、颜色信息和连通域信息。其中，图像特征提取模块320的功能具体可以参见实施例一的S120。

分类器训练模块330，用于利用提取的图像特征训练用于图像中文字区域检测的分类器。其中，图像特征提取模块分类器训练模块330的功能具体可以参见实施例一的S130。

在本实施例的一种实施方式中，图像特征提取模块310用于：

对经灰度处理的样本进行j个方向的梯度信息计算，得到经灰度处理的样本中每行中所有像素的梯度的和值，从而得到m个和值，其中，j为大于或等于3的正整数；

利用m个和值中的一和值对应的行将经灰度处理的样本划分为k个子区域，k为大于或等于3的正整数；

将m个和值中的该和值对应的行的标记作为1维特征；

分别从每一方向计算每一子区域的所有像素的梯度的均值和方差，得到2*j*k维特征。

在本实施例的另一种实施方式中，图像特征提取模块310用于：

将经灰度处理的样本的灰度空间划分为L个bin，每个bin的高度为落入该bin的像素个数，从而得到经灰度处理的样本的颜色分布的直方图；

计算直方图的方差和信息熵，作为经灰度处理的样本的2维特征；

其中，直方图的方差为

信息熵为

其中，Z_i为第i个bin的的灰度，μ为Z_i的和值的均值，L为直方图灰度的划分个数，p(Z_i)为落入直方图的像素的个数占经灰度处理的样本的总像素数量的比例，其中，i，L为大于1的正整数。

在本实施例的再一种实施方式中，图像特征提取模块310用于：

采用聚类算法对经灰度处理的样本进行聚类运算，将经灰度处理的样本中的像素聚为两类，将同一类像素设为白色或黑色；

统计经灰度处理的样本的4个边沿部分的所有像素的灰度，如果4个边沿部分中超过预设数量的像素的灰度为白色，则对经灰度处理的样本进行反色处理，从而得到文字为白色、背景为黑色的黑白二值图；

从黑白二值图中提取白色连通域，计算白色连通域中心的X坐标和Y坐标的均值，得到2维特征，将白色连通域的大小的标准差作为另一维特征。

经过上述训练过程得到的分类器，可以用于以后的图像中文字区域的检测。

实施例四

本申请提供了一种图像中文字区域检测的系统，如图4所示，包括：

待检测图像获取模块400，用于获取经灰度处理的待检测图像，经灰度处理的待检测图像与实施例一的样本大小相同。其中，待检测图像获取模块400的功能具体可以参见实施例二的S200。

黑白二值图获取模块410，用于获取与经灰度处理的待检测图像对应的黑白二值图。其中，黑白二值图获取模块410的功能具体可以参见实施例二的S210。

多尺度变换模块420，用于对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换，得到多幅多尺度变换后的待检测图像和黑白二值图。其中，多尺度变换模块420的功能具体可以参见实施例二的S220。需要指出的是，包含多尺度变换模块420的系统只是本申请的一个优选方案，本申请的图像的文字区域检测的系统也可以不包含多尺度变换模块420。在这种情况下，后续的候选检测区域确定模块430、候选文字区域确定模块440、文字区域获取模块450仅是针对未经多尺度变换的经灰度处理的待检测图像和黑白二值图来进行相应的处理步骤。

候选检测区域确定模块430，用于根据多尺度变换后的黑白二值图确定多尺度变换后的待检测图像中的候选检测区域。其中，候选检测区域确定模块430的功能具体可以参见实施例二的S230。

候选文字区域确定模块440，用于根据利用与实施例一相同的方式从所述候选检测区域提取的图像特征和实施例一的用于图像中文字区域检测的分类器确定所述多尺度变换后的待检测图像中的候选文字区域，所述图像特征包括梯度信息、颜色信息和连通域信息。其中，候选文字区域确定模块440的功能具体可以参见实施例二的S240。

文字区域获取模块450，用于根据所述候选文字区域获取图像中的文字区域。其中，文字区域获取模块450的功能具体可以参见实施例二的S250。

在本实施例的一种实施方式中，候选检测区域确定模块430用于：

利用与实施例一所述的样本相同大小的滑动框遍历多尺度变换后的待检测图像，判断与多尺度变换后的待检测图像对应的黑白二值图中对应该滑动框的区域中的预设位置的像素是否为白色，如果是，则确定多尺度变换后的待检测图像中对应该滑动框的区域为候选检测区域。

在本实施例的一种实施方式中，该系统还包括：继续滑动模块，用于在判断与多尺度变换后的待检测图像对应的所述黑白二值图中对应该滑动框的区域中的预设位置的像素为黑色时，则以预设的步长在多尺度变换后的待检测图像上继续滑动该滑动框。

其中，预设位置为黑白二值图中对应该滑动框的区域中的左上角、左下角、右上角、右下角或中心位置。

在本实施例的一种实施方式中，在不对经灰度处理的待检测图像和黑白二值图进行多尺度变换时，文字区域获取模块450用于：

针对经灰度处理的待检测图像，判断不同的候选文字区域间的相交面积与该滑动框的面积的比值是否大于第一预设值；

如果是，则将所述不同的候选文字区域归为一类；

判断归为该类的候选文字区域的数量是否小于第二预设值，如果是，则淘汰所述归为该类的候选文字区域；如果否，则保留所述归为该类的候选文字区域，即归为该类的候选文字区域为图像中的文字区域。

在本实施例的一种实施方式中，在对经灰度处理的待检测图像和黑白二值图进行多尺度变换时，文字区域获取模块450还用于：

将经归类处理的待检测图像进行尺度还原处理；

判断还原处理的待检测图像中的小的候选文字区域与大的候选文字区域的比值是否大于第三预设值；

如果是，则将小的候选文字区域和大的候选文字区域合并到第三候选文字区域，该第三候选文字区域为包括小的候选文字区域和大的候选文字区域的最小矩形区域，该第三候选文字区域即为图像中的文字区域。

本申请提供的训练分类器的方法、图像中文字区域检测的方法及其步骤可以由具有数据处理能力的一个或多个处理设备例如一个或多个计算机运行计算机可执行指令（该计算机可执行指令反映了本申请提出的实现即时通讯方法的思想）来实现。该处理设备可以包括存储前述计算机可执行指令的存储介质以及中央处理器。

本申请的训练用于图像中文字区域检测的系统及图像中文字区域检测的系统可以是运行前述计算机可执行指令的一个或多个处理设备。该系统中的各个模块可以为该处理设备运行前述计算机可执行指令时具有相应功能的设备组件。

虽然已参照典型实施例描述了本申请，但应当理解，所用的术语是说明和示例性、而非限制性的术语。由于本申请能够以多种形式具体实施而不脱离发明的精神或实质，所以应当理解，上述实施例不限于任何前述的细节，而应在随附权利要求所限定的精神和范围内广泛地解释，因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims

1.一种训练用于图像中文字区域检测的分类器的方法，其特征在于，包括：

对所述样本进行灰度处理，得到经灰度处理的样本；

2.根据权利要求1所述的方法，其特征在于，从所述经灰度处理的样本提取梯度信息的步骤包括：

对所述经灰度处理的样本进行j个方向的梯度信息计算，得到所述经灰度处理的样本中每行中所有像素的梯度的和值，从而得到m个和值，其中，j为大于或等于3的正整数；

利用m个和值中的一和值对应的行的行号将所述经灰度处理的样本划分为k个子区域，k为大于或等于3的正整数；

将m个和值中的该和值对应的行的标记作为1维特征；

3.根据权利要求1所述的方法，其特征在于，从所述经灰度处理的样本提取颜色信息的步骤包括：

将所述经灰度处理的样本的灰度空间划分为L个bin，每个bin的高度为落入该bin的像素个数，从而得到所述经灰度处理的样本的颜色分布的直方图；

计算所述直方图的方差和信息熵，作为所述经灰度处理的样本的2维特征；

其中，所述直方图的方差为

信息熵为

其中，Z_i为第i个bin的的灰度，μ为Z_i的和值的均值，L为直方图灰度的划分个数，p(Z_i)为落入所述直方图的像素的个数占所述经灰度处理的样本的总像素数量的比例，其中，i，L为大于1的正整数。

4.根据权利要求1所述的方法，其特征在于，从所述经灰度处理的样本提取连通域信息的步骤包括：

采用聚类算法对所述经灰度处理的样本进行聚类运算，将经灰度处理的样本中的像素聚为两类，将同一类像素设为白色或黑色；

统计所述经灰度处理的样本的4个边沿部分的所有像素的灰度，如果4个边沿部分中超过预设数量的像素的灰度为白色，则对所述经灰度处理的样本进行反色处理，从而得到文字为白色、背景为黑色的黑白二值图；

从所述黑白二值图中提取白色连通域，计算所述白色连通域中心的X坐标和Y坐标的均值，得到2维特征，将所述白色连通域的大小的标准差作为另一维特征。

5.一种图像中文字区域检测的方法，其特征在于，包括：

获取经灰度处理的待检测图像；

获取与所述经灰度处理的待检测图像对应的黑白二值图；

根据所述候选文字区域获取图像中的文字区域。

6.根据权利要求5所述的方法，其特征在于，在获取与所述经灰度处理的待检测图像对应的黑白二值图的步骤之后，根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域的步骤之前，还包括：

对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换，得到多幅不同尺度的经灰度处理的待检测图像和所述黑白二值图。

7.根据权利要求5所述的方法，其特征在于，根据所述黑白二值图确定所述经灰度处理的待检测图像中的候选检测区域的步骤包括：

利用预设大小的滑动框遍历所述经灰度处理的待检测图像，判断与所述经灰度处理的待检测图像对应的所述黑白二值图中对应该滑动框的区域中的预设位置的像素是否为白色，如果是，则确定所述经灰度处理的待检测图像中对应该滑动框的区域为候选检测区域。

8.根据权利要求7所述的方法，其特征在于，还包括：如果判断与所述经灰度处理的待检测图像对应的所述黑白二值图中对应该滑动框的区域中的预设位置的像素为黑色，则以预设的步长在所述经灰度处理的待检测图像上继续滑动该滑动框。

9.根据权利要求7或8所述的方法，其特征在于，所述预设位置为所述黑白二值图中对应该滑动框的区域中的左上角、左下角、右上角、右下角或中心位置。

10.根据权利要求5所述的方法，其特征在于，根据所述候选文字区域获取图像中的文字区域的步骤包括：

针对所述经灰度处理的待检测图像，判断不同的候选文字区域间的相交面积与该滑动框的面积的比值是否大于第一预设值；

如果是，则将所述不同的候选文字区域归为一类；

判断归为该类的候选文字区域的数量是否小于第二预设值，如果是，则淘汰所述归为该类的候选文字区域；如果否，则保留所述归为该类的候选文字区域，所述归为该类的候选文字区域即为所述图像中的文字区域。

11.根据权利要求10所述的方法，其特征在于，当对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换时，根据所述候选文字区域获取图像中的文字区域的步骤还包括：

将经归类处理的待检测图像进行尺度还原处理；

判断尺度还原处理后的待检测图像中的小的候选文字区域与大的候选文字区域的比值是否大于第三预设值；

如果是，则将小的候选文字区域和大的候选文字区域合并到第三候选文字区域，所述第三候选文字区域为包括小的候选文字区域和大的候选文字区域的最小矩形区域，所述第三候选文字区域即为所述图像中的文字区域。

12.一种训练用于图像中文字区域检测的分类器的系统，其特征在于，包括：

13.根据权利要求12所述的系统，其特征在于，所述图像特征提取模块用于：

利用m个和值中的一和值对应的行将所述经灰度处理的样本划分为k个子区域，k为大于或等于3的正整数；

将m个和值中的该和值对应的行的标记作为1维特征；

14.根据权利要求12所述的系统，其特征在于，所述图像特征提取模块用于：

其中，所述直方图的方差为

信息熵为

15.根据权利要求12所述的系统，其特征在于，所述图像特征提取模块用于：

16.一种图像中文字区域检测的系统，其特征在于，包括：

待检测图像获取模块，用于获取经灰度处理的待检测图像；

候选文字区域确定模块，用于根据从所述候选检测区域提取的图像特征和用于图像中文字区域检测的分类器确定所述经灰度处理的待检测图像中的候选文字区域，所述图像特征包括梯度信息、颜色信息和连通域信息；

17.根据权利要求16所述的系统，其特征在于，还包括：多尺度变换模块，用于对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换，得到多幅不同尺度的经灰度处理的待检测图像和所述黑白二值图；

18.根据权利要求16所述的系统，其特征在于，所述候选检测区域确定模块用于：

19.根据权利要求17所述的系统，其特征在于，还包括：继续滑动模块，用于在判断与所述经灰度处理的待检测图像对应的所述黑白二值图中对应该滑动框的区域中的预设位置的像素为黑色时，则以预设的步长在所述经灰度处理的待检测图像上继续滑动该滑动框。

20.根据权利要求18或19所述的系统，其特征在于，所述预设位置为所述黑白二值图中对应该滑动框的区域中的左上角、左下角、右上角、右下角或中心位置。

21.根据权利要求16所述的系统，其特征在于，所述文字区域获取模块用于：

如果是，则将所述不同的候选文字区域归为一类；

判断归为该类的候选文字区域的数量是否小于第二预设值，如果是，则淘汰所述归为该类的候选文字区域；如果否，则保留所述归为该类的候选文字区域，所述归为该类的候选文字区域即为图像中的文字区域。

22.根据权利要求21所述的系统，其特征在于，当对所述经灰度处理的待检测图像和所述黑白二值图进行多尺度变换时，所述文字区域获取模块还用于：

将经归类处理的待检测图像进行尺度还原处理；