CN108664968B

CN108664968B - 一种基于文本选取模型的无监督文本定位方法

Info

Publication number: CN108664968B
Application number: CN201810349292.8A
Authority: CN
Inventors: 孔军; 孙金花; 蒋敏; 侯健
Original assignee: Jiangnan University
Current assignee: Huirong Electronic System Engineering Ltd
Priority date: 2018-04-18
Filing date: 2018-04-18
Publication date: 2020-07-07
Anticipated expiration: 2038-04-18
Also published as: CN108664968A

Abstract

本发明公开了一种基于文本选取模型的无监督文本定位方法。本发明通过SLIC和DBSCAN图像分割生成若干个超像素，并创新地将超像素区域作为文本候选区域，解决了候选区域在数量和精度上的平衡；其次，本发明利用同一张图中文本对象之间的相似性建立文本选取模型，生成样本参考图，其中，样本参考图包括强文本图和非文本图，并以样本参考图为依据，通过双阈值机制自适应地提取以超像素为单位的文本样本，避免了传统算法对于数据库的依赖性；最后，通过文本样本训练得到文本分类器并对超像素区域进行文本/非文本分类；该方法召回率高，避免了传统算法中依赖数据库、通用性较差、候选区域数量爆炸的问题，实现了无监督的文本定位目标。

Description

一种基于文本选取模型的无监督文本定位方法

技术领域

本发明涉及一种基于文本选取模型的无监督文本定位方法，属于计算机视觉领域。

背景技术

随着高像素数码相机、智能手机、平板电脑等摄像电子产品的广泛应用，人们周围数字图像快速增长。而数字图像中的文本是非常重要的信息来源，对图像本身最直观的说明。倘若可以准确提取图像中的文本信息，就能够有助于人们快速准确地理解图像的内容，文本定位是提取图像中的文本信息的重要环节。

在计算机视觉领域，文本定位一直被视为重要的研究领域。文本定位的主要目标是寻找出自然场景图像中的文本区域。利用文本定位技术提取自然场景图像中的文本，有利于对自然场景图像内容的分析、理解，可以广泛用于视觉感知辅助、汽车自动驾驶、机器人视觉、盲人导航以及司法鉴识等领域，而寻找出自然场景图像中的文本区域，是准确提取图像中文本信息的前提条件，具有重要的研究意义和广泛的应用前景。同时，自然场景图像中的文本大小、颜色、方向变化多样，背景错综复杂，造成进行文本定位非常困难。因此，无论是从理论研究的重要性还是从实际应用必要性出发，研究文本定位技术在现代社会都有着十分重要研究价值和现实意义。

文本定位是文本识别的基础，文本定位的精确度直接影响文本识别的效果。通常情况下，大多数文本定位方法可以划分为文本候选区域选取以及文本候选区域分类两个步骤。传统文本定位方法有两个明显的缺陷：1、文本召回率较低；2、算法的通用性能较差。

在进行文本候选区域选取时，通常采用多个文本过滤器串联的方式对连通区域进行过滤。该类方法按照由粗到细的方式对连通区域进行过滤，处理速度较快，但缺点是一旦某个连通区域被划分为非文本区域，则该连通区域将被永久性地标签为非文本并且很难在之后的操作中纠正。这些错误分类按照串联的方式不断地累积，直接导致算法的文本召回率较低。此外，各种过滤器的组合模式变化以及参数优化加剧了错误积累。在文本候选区域分类阶段，大多数算法通过对大型的数据库训练，得到文本分类器，进而对候选区域进行分类。该类算法依靠对大量数据进行有监督的训练提高文本区域的置信度，忽视了同一张图片中文本区域在空间分布、大小、颜色以及笔画特征上的相似性。事实上，相比独立区域的置信度，使用文本区域特征之间的相似性可以提供更多的有效信息，并可以简化文本分组的过程。此外，使用数据库的不同将会直接影响算法的定位效果。数据库对算法定位效果的影响体现在以下几个方面：1.不同的协议对误差的容忍程度不一致；2.不同的实验的训练过程可能建立在不同的数据库上，如果采用的数据库本身就具有较好的训练集，则文本定位的性能也会得以提高；3.一些主要的参数，例如，颜色，大小，语言先验知识等，经常会被运用到不同的方法中，它们在提高算法性能的同时，也降低了这些方法的泛化能力。因而，这类依赖现成数据库的有监督文本定位算法通用性能较差。

因此，提供一种文本召回率高，通用性好，容错率高的无监督文本定位算法是亟待解决的技术问题。

发明内容

本发明的目的是提供一种基于文本选取模型的无监督文本定位方法，所述方法是，通过简单线性迭代聚类(Simple Linear Iterative Clustering，SLIC)和基于密度的聚类方法(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)将图像分割生成若干个超像素，并且将超像素区域作为文本候选区域；其次，该方法利用同一张图中文本对象之间的相似性建立文本选取模型，生成样本参考图，其中，样本参考图包括强文本图和非文本图，并以样本参考图为依据，通过双阈值机制自适应地提取以超像素为单位的文本样本；最后，通过文本样本训练得到文本分类器并对超像素区域进行文本/非文本分类，实现无监督文本定位。

在本发明的一种实施方式中，所述方法的具体步骤为：

步骤(1)：对输入的原始图像进行SLIC与DBSCAN超像素分割，得到M个高级超像素，用SP_i来表示这些高级超像素，其中{SP_i},i＝1,…,M；

步骤(2)：将原始图像输入文本选取模型中，生成MSER图与显著图；并将MSER图与显著图结合，生成样本参考图，其中，样本参考图包括强文本图和非文本图；

步骤(3)：文本选取模型根据样本参考图和双阈值机制，选出超像素正样本、超像素负样本以及待分类超像素；

步骤(4)：将选取出的超像素样本输入若干个单核单特征的SVM弱分类器，按照多核增强方法进行训练，得到多核SVM强分类器；

步骤(5)：将待分类超像素输入多核SVM强分类器，得到初始结果图；通过将初始结果图与样本参考图进行融合，生成最终结果图；

步骤(6)：将最终结果图中的连通区域按照特征相似性以及空间分布的连续性进行分组，并用最小包围矩形的方法得到候选文本连通区域集合，以文本框的形式输出文本定位的结果。

在本发明的一种实施方式中，所述步骤(1)中的原始图像首先通过SLIC进行超像素分割，得到大小，分布相对均匀的初始超像素集合；通过DBSCAN对这些超像素进行聚类，得到高级超像素集合，这些高级超像素将密度相近、位置相邻的初始超像素聚合成一个高级超像素。

在本发明的一种实施方式中，所述步骤(2)中的MSER图由MSER方法进行生成，并采用面积、横纵比等几何特征过滤器及笔画宽度过滤器来过滤MSER区域。

在本发明的一种实施方式中，所述步骤(2)中的显著图根据中心先验及暗通道先验联合计算得到；

所述像素点p的暗通道先验S_d(p)通过以下公式计算:

S_d(p)＝1-min_q∈b(p)(min_ch∈{r,g,b}In^ch(q)) (a)

其中，b(p)：表示以像素点p为中心的5*5的图像块；

In^ch(q)：表示在颜色通道ch中像素点q的颜色值；

r,g,b：表示RGB颜色特征的三个通道；

图片已经被分割成M个超像素区域，{SP_i},i＝1,…,M，所以每个超像素区域的暗通道先验为：

其中，|SP_i|：表示超像素SP_i内像素点的个数；

所述超像素的显著值通过以下公式计算：

其中，K：表示所有的特征空间，包括纹理特征LBP(F1),颜色特征RGB(F2)和CIELab(F3)；

M_b：表示边缘超像素的个数；

E(SP_i)：表示当前超像素SP_i的中心与图像中心的距离；

表示当前超像素SP_i和背景超像素

之间颜色空间的欧式距离；

E(SP_i)与

必须归一化至[0,1]；

经过计算所有超像素的显著值S₀(SP_i)，我们得到初步显著图smap0，采用高斯滤波的方法对显著图smap0进行平滑，利用Graph Cut得到最终的二值化显著图smap。

在本发明的一种实施方式中，所述步骤(2)中的样本参考图包括强文本图Sm和非文本图Nm；

所述样本参考图的计算公式如下：

Sm＝mser∧samp (2)

Nm＝～(mser∨smap) (3)

mser：表示MSER图；

smap：表示显著图；

∧、∨、～表示对图中每个像素的逻辑与、逻辑或和逻辑非的操作。

在本发明的一种实施方式中，所述步骤(3)中的双阈值机制如下：

其中，

表示强文本图内第i个超像素SP_i内强文本像素总个数，

表示非文本图内第i个超像素SP_i非文本像素的总个数，

P₁和P₂：分别表示超像素SP_i是正样本和负样本的概率，当P₁高于阈值thr₁时，该超像素划分为正样本，标记为+1；当P₂高于阈值thr₂时，该超像素划分为负样本，标记为-1；否则，该超像素视为弱文本超像素，划分为待分类超像素，将送入文本分类器作进一步分类；在本发明的一种实施方式中，，thr₁和thr₂分别取0.65和0.7。

在本发明的一种实施方式中，所述步骤(4)中的多核SVM强分类器是通过级联增强的方法将N个单核单特征的SVM弱分类器结合，通过Adaboost方法进行迭代训练，得到一个多核SVM强分类器，其中，N＝N_f×N_k,N_f＝3是特征的数量，N_k＝4是核函数的数量，三个特征包含在超像素区域和其最小边界矩形中的像素比例，CLElab和局部二值特征(LocalBinary Pattern，LBP)，四个核包含linear，polynomial，RBF和sigmoid；

在本发明的一种实施方式中，所述步骤(5)中的初始结果图与样本参考图进行融合的公式为：

Fm＝Sm∨Pm∧～Nm (6)

其中，Pm：表示初始结果图；

Sm：表示步骤(2)生成的强文本图；

Nm：表示步骤(2)生成的非文本图；

～Nm：表示Nm每个像素的取非逻辑运算；

∨、∧：表示图中每个像素的逻辑或、逻辑与运算；

Fm：表示融合后的最终结果图。

本发明的有益效果为：

(1)本发明提供了基于文本选取模型的无监督文本定位方法，该方法利用同一张图中文本对象之间的相似性，自适应地从当前待处理图片中提取文本样本进行分类器训练，摆脱了传统机器学习算法对数据库的依赖，降低了成本，提升了算法通用性，文本的召回率高，可以有效处理欠样本条件下的定位需求，实现无监督文本定位。

(2)本发明采用图像分割的方法，将图像分割成若干个超像素，以超像素作为本发明图像处理的基本单位。我们创新地将超像素区域视为文本候选区域取代传统算法中通过连通区域法和滑动窗口法寻找候选区域的方法，使得候选区域能够包含整幅图片，在文本信息得到完整保存的情况下大大减少了候选区域的数量，在一定程度上提高了文本的召回率与精确度。

(3)本发明提出了一个全新的文本样本选取模型。将MSER与显著图结合，生成样本参考图，提高了样本的精确度；提出双阈值机制，将所有超像素区域分成三类，比以往单阈值分类更加精细，能够准确地从样本参考图中进行文本样本选择。实验证明，双阈值的选取能有效控制样本的质量。

附图说明

图1：基于文本样本选取模型的文本定位方法流程图；

图2：(a)为原图，(b)和(c)表示SLIC分割后的超像素区域，(d)和(e)表示DBSCAN分割后的超像素区域；

图3：显著图，(a)为灰度显著图，(b)为经过Graph Cut后的二值化显著图；

图4：样本参考图，(a)为MSER图，(b)为显著图，(c)为强文本图，(d)为非文本图；

图5：本发明的文本定位效果图。

具体实施方式

下面将结合附图对本发明加以详细说明。

实施例1

在本发明中，首先，通过简单线性迭代聚类(Simple Linear IterativeClustering，SLIC)和基于密度的聚类方法(Density-Based Spatial Clustering ofApplications with Noise，DBSCAN)将图像分割生成若干个超像素，并且创新地将超像素区域作为文本候选区域；其次，该方法利用同一张图中文本对象之间的相似性建立文本选取模型，生成样本参考图，其中，样本参考图包括强文本图和非文本图，并以样本参考图为依据，通过双阈值机制自适应地提取以超像素为单位的文本样本；最后，通过超像素文本样本训练得到文本分类器并对超像素区域进行文本/非文本分类，实现无监督文本定位。具体流程如图1所示。

步骤1：使用SLIC分割图像，生成初始超像素；在SLIC图像分割的基础上，利用DBSCAN对SLIC分割得到的初始超像素集合进行聚类；

对于传统的字符提取算法来说，很难在候选区域的数量和精确度之间取得平衡。我们的算法将超像素区域视为文本候选区域，能够覆盖整副图片，在保证图片信息没有任何损失的情况下将候选区域数量控制在一定的范围之内。超像素能够有效地捕捉图像中的结构特征，并且降低图像处理的复杂度。

简单线性迭代聚类(Simple Linear Iterative Clustering，SLIC)因为其高效性，是最常使用的图像分割方法。通过SLIC分割得到的超像素区域大小与形状相似、分布均匀。对于一般的图像处理目标来说，该方法十分高效，但是该分割方式使一些连通的、具有特征一致性的区域被分割到多个不同的超像素区域，因此这些区域的特征歧视性降低，加大了文本候选区域的分类难度。为了在最大程度上保证特征一致性的区域完整性，应当使属于同一个字符的像素区域或同一类背景的区域能够尽量划分在同一个超像素区域。因此，本发明中首先使用SLIC分割图像，生成初始超像素；然后，在SLIC图像分割的基础上，我们利用具有噪声的基于密度的聚类方法(Density-Based Spatial Clustering ofApplications with Noise，DBSCAN)对SLIC分割得到的初始超像素集合进行聚类。

DBSCAN是一种基于密度的聚类方式，能够找到任意大小的聚类形状，并且不需要设置任何参数。对于同一个字符区域或是连通的背景区域，它们都具有相同的密度特征。通过DBSCAN聚类，能够保证这些形状不固定的具有特征一致性的区域在最大程度上划分到同一个超像素。我们将通过DBSCAN聚类的超像素称为高级超像素(接下来在本发明中出现的超像素区域都是指这些高级超像素)，这些高级超像素区域也是本发明中的文本候选区域。

分割图像的具体步骤为：1、输入图像；2、设置初始超像素个数M0，本实施例中M0＝500，SLIC按照初始超像素个数M0对图像进行分割；3、对SLIC输出的初始超像素进行DBSCAN聚类，得到M个高级超像素。我们用SP_i来表示这些高级超像素，其中{SP_i},i＝1,…,M。

如图2所示，原图(a)经过SLIC分割后的超像素区域为(b)和(c)，图(b)经过DBSCAN聚类后的超像素区域为(d)和(e)。根据图片可知，图2(b)被分割开的包含均匀背景和字符的初始超像素在图2(d)中被划分到同一个高级超像素区域,因此M明显小于M0。使用DBSCAN对初始超像素进行聚类不仅完整保存了具有特征一致性的区域，并且减少了文本候选区域的个数，降低了文本分类的时间复杂度。

步骤2：文本样本选取模型

步骤2.1：样本参考图

利用最大极值稳定区域(Maximally Stable Extremal Regions,MSER)生成MSER，并且将MSER与显著图结合来生成样本参考图。

步骤2.1.1：MSER

通过最大极值稳定区域算法生成MSER。由于MSER区域众多并且包含较多的非文本区域，采用一系列几何过滤器从几何特征上过滤这些区域。通过几何过滤器，一些面积过大或过小，横纵比率过大或过小的区域将会被过滤。为了MSER能够更加精确，同时采用了笔画宽度变换来过滤MSER区域。

步骤2.1.2：显著图

显著性检测是检测图中最明显的目标。为了生成鲁棒性的显著图，将中心先验和暗通道先验结合。暗通道通常产生于彩色、黑色物体或者是阴影，因此这些物体的亮度较低。而这些特性恰好是目标拥有的特性。

S_d(p)为暗通道先验，它通过以下公式计算:

S_d(p)＝1-min_q∈b(p)(min_ch∈{r,g,b}In^ch(q)) (a)

其中，b(p)：表示以像素点p为中心的5*5的图像块；

In^ch(q)：表示在颜色通道ch中像素点q的颜色值；

r,g,b：表示RGB颜色特征的三个通道；

S_d(p)的值越大，像素点p是目标像素点的可能性越大。值得注意的是所有的颜色值必须归一化。

其中，|SP_i|：表示超像素SP_i内像素点的个数。

依据中心先验，在图像四周的超像素视为背景，这些背景超像素表示为

其中M_b表示所有属于背景超像素的个数。

在生成显著图阶段，我们使用RGB，CLElab和局部二值特征(Local BinaryPattern，LBP)三个特征描述子来生成显著图。RGB和CLElab作为特征描述子提供颜色特征。与通用的RGB特征相比，CLElab是一种设备无关的颜色系统，用数字化的方法来描述人的视觉感应，是一种基于生理特征的颜色系统。L分量能够密切匹配人类的亮度感知，它弥补了RGB色彩分布不均的问题，所以本发明中使用RGB和CLElab特征共同描述颜色特征，从而起到互补的作用。LBP提供图像纹理特征，使算法能够处理复杂的背景图片。

我们用下面公式计算每个超像素的显著性：

其中，K：表示所有的颜色空间，包括纹理特征LBP(F1),颜色特征RGB(F2)和CIELab(F3)；

M_b：表示边缘超像素的个数；

E(SP_i)：表示当前超像素SP_i的中心与图像中心的距离；

表示当前超像素SP_i和背景超像素

之间颜色空间的欧式距离；

E(SP_i)与

必须归一化至[0,1]；

经过计算所有超像素的显著值S₀(SP_i)，我们得到初步显著图smap0.最后本发明采用高斯滤波的方法对显著图smap0进行平滑。为了得到代表前景和背景的二值分割图，我们采用图割(Graph Cut)方法对显著图进行优化，得到最终的二值化显著图smap。平滑的效果图如图3所示，没有使用图割的显著图smap0存在目标边缘模糊的问题，使用图割之后的二值显著图smap具有明显的边界，对前、背景的分割更加清晰。

步骤2.1.3：样本参考图

基于文本经常出现在显著性目标上或者文字本身就是显著性目标的假设，将MSER图和显著图结合生成样本参考图。样本参考图包括：强文本图和非文本图。我们通过以下公式得到样本参考图：

Sm＝mser∧samp (2)

Nm＝～(mser∨smap) (3)

其中，Sm：表示强文本图；

Nm：表示非文本图；

mser：表示MSER图；

smap：表示最终显著图。

∧、∨、～表示对图中每个像素的逻辑与、逻辑或和逻辑非的操作

如图4所示，(a)为MSER图，在包含大量文本区域的同时丢失了一定数量的文本区域并且包含了一定数量的背景区域；(b)为显著图，几乎包含了所有的文本区域，但同时包含了大量的背景区域；由图(a)和(b)可以看出MSER图和显著图在一定程度上存在某种联系。为了找到这些联系，本发明通过结合MSER图和显著图生成了样本参考图，样本参考图包括强文本图(见图(c))和非文本图(见图(d))。可以看出，强文本图保留了MSER图中大量的文本区域并且过滤掉绝大多数的背景区域，因此强文本图在文本区域的判定上精确度非常高；非文本图排除了所有可能的文本区域，精确地分割出了背景区域，因此非文本图在非文本区域的判定上精确度非常高。由此可以看出强文本图和弱文本图可以作为提取正样本和负样本的参考图，我们称之为样本参考图。

步骤2.2：超像素样本选取

已经得到像素级的样本参考图，为了得到超像素样本，提出了一种全新的双阈值机制对超像素进行进一步分组。双阈值机制如下：

其中，

表示强文本图内第i个超像素SP_i内强文本像素总个数，

表示非文本图内第i个超像素SP_i非文本像素的总个数，

P₁和P₂：分别表示超像素SP_i是正样本和负样本的概率，当P₁高于阈值thr₁时，该超像素划分为正样本，标记为+1；当P₂高于阈值thr₂时，该超像素划分为负样本，标记为-1；否则，则该超像素视为弱文本超像素，划分为待分类超像素，将送入文本分类器作进一步分类。在本实施例中，thr₁和thr₂分别取0.65和0.7。

步骤3：分类器训练

支持向量机(Support Vector Machine，SVM)因为其良好的分类效果逐渐成为机器学习的主流算法。SVM分类的难点之一就是核函数的选取。当数据集包含各种特性不同的图片时，对于分类来说更加困难。为了解决上述问题，我们采用了多核增强学习(MultipleKernel Boosting)的方法。该方法经多个单核单特征的SVM分类器作为弱分类器，并采用Adaboost增强学习方法通过多次迭代学习得到一个强分类器。传统基于学习的文本定位方法通过选取大量含有真值的图片，然后从其中提取用来训练的特征以及正负样本，这就需要很多人力资源，而且计算量大，同时由于用于训练和测试的样本的差异性，该方法并不能保证训练好的模型对不同类别或者来源于其他数据库的图片都有较好的定位效果。但是，本发明中从当前待处理图片中提取样本使得训练和测试过程都限定在同一张图片之内，并使用简单的文本样本选取模型自适应地选取每张图片的样本，替代了复杂的数据库标定过程，从而节省了很多人力以及计算资源，实现了无监督文本定位。

多核学习的方法是指将多个单核单特征的SVM弱分类器结合的方法，本发明中使用了三个特征，包含在超像素区域和其最小边界矩形中的像素比例，CLElab和局部二值特征(Local Binary Pattern，LBP)，本发明中使用了四个核，包含linear，polynomial，RBF和sigmoid。通过对TSSM提取到的超像素样本特征提取，我们用多核增强的方法训练多核SVM分类器。这些SVM核函数

按照以下方式结合：

其中，β_n：表示第n个核的权重；

N：表示所有弱分类器的总数，N＝N_f×N_k,N_f＝3是特征的数量，N_k＝4是核函数的数量；

为了区别不同的样本，结合公式改写为：

其中，α_i：表示拉格朗日乘子；

H：表示超像素样本总数；

r_i：表示第i个样本；

l_i：表示第i个样本的标签值；

表示偏差系数；

{α_i},{β_n}和

可在联合优化的过程中求解；

根据多核增强原理，我们将公式(9)改写成：

其中，α＝[α₁l₁,α₂l₂,…,α_Hl_H]^T,

我们将公式(10)中的弱分类器写成

相关参数可以通过训练学习被直接求出.公式(10)可以写成：

为了计算β_g，用Adaboost增强方法，因此公式(9)中的G表示迭代次数；每一个SVM分类器都看成一个弱分类器，则最终的强分类器Y_r可以表示为所有弱分类器的加权和；

增强学习的过程如下：首先初始化样本权重，

其次对于每弱分类器，即单核单特征的SVM，我们得到一组目标函数{Z_n(r)},n＝1,2,…,N，然后，在第g次迭代过程中，我们计算每一个弱分类器的错误率，计算公式如下：

其中，sgn(x)是符号函数，当x>0时等于1，否则为-1。

每次迭代过程中我们找到最小的错误率∈_g，满足∈_g＝min_1≤m≤M∈_m；接下来，计算结合系数β_g，公式为

其中∈_g<0.5；此外，更新权重公式：

最后，经过G次迭代，我们得到了G组β_g和Z_g(r)的值；根据公式(9)我们得到强分类器Y_r；该分类器可直接用于当前图像的所有待处理超像素，即弱文本超像素。

步骤4：测试

步骤4.1：结果融合

将所有的弱文本超像素，即待分类超像素，输入训练好的多核SVM分类器中，弱文本超像素将被分类器重新分类为强文本或非文本。此时输出的结果只包含原先待分类超像素区域的再分类结果，是图片的一部分，称之为初始结果图。为了呈现完整的图片文本定位结果，本发明将初始结果图与样本区域进行融合生成最终结果图，融合方法如下：

Fm＝Sm∨Pm∧～Nm (6)

其中，Pm：表示初始结果图；

Sm：表示步骤(2)生成的强文本图；

Nm：表示步骤(2)生成的非文本图；

～Nm：表示Nm每个像素的取非逻辑运算；

∨、∧：表示图中每个像素的逻辑或、逻辑与运算；

Fm：表示融合后的最终结果图。

步骤4.2：文本分组

经过融合，我们已经得到许多大小不一的置信度高文本区域。事实上，不同的数据库对文本定位的输出形式有不同的要求。通常来说，输出的结果有两种形式：以单词为单位的输出和以句子为单位的输出。例如，MSRA-TD500数据库要求文本输出以句子为单位。因为MSRA-TD500数据库中存在大量的中英文混合文本，而在中文阅读时，句子比单个文字可以提供更多的信息。

本发明的优点之一就是文本分组较为简单。首先，我们已经得到了许多置信度高的超像素文本区域。其次，我们之前已经得到了这些区域的多类特征，而这些特征大多是通用的，在分组时本发明再次利用这些区域在特征和空间分布上的一致性，将超像素文本进行分组。同时，一些在空间分布上孤立的超像素区域，在分组时会被移除。在文本分组之后，我们使用最小包围矩形法生成文本框，以文本框的形式输出结果。本发明的文本定位效果如图5所示。

实施例2

步骤1：数据库

分别在MSRA-TD500、OSTD和ICDAR 2013三个公开数据集进行了实验。

MSRA-TD500一共包含500张自然场景的图片，包括200张测试图片和300张训练图片。MSRA-TD500是多方向的混合文本图片数据库，尤其中英文混合文本居多。在这个数据集上进行文本定位非常具有挑战性，因为该数据集在字体、颜色、方向上包含大量的变化，并且拥有大量的复杂背景。

OSTD总计包含89张图片。这些图片拥有多方向文本，包含户内和户外的场景。此外，这个数据库包含大量的视角，字体，风格变化。

ICDAR 2013是目前使用最广的水平英文文本数据库。该数据库包含229张训练图像和233张测试图像。它于2013年在ICDAR比赛上提出。

步骤2：实验结果

与传统的基于数据库的算法不同，本发明算法不需要区分训练数据和测试数据。但是为了公平地与其他算法进行对比，下面的数据都来自于测试集。

表1展示了我们的算法在数据集MSRA-TD500上的表现。本发明同时考虑估计文本框与真实文本框的重合率与角度。一旦两框之间的重合率大于0.5，而角度相差小于π/8，那么估计文本框将被视为正确定位。最终的准确率P和召回率R按照下式计算：

P＝|TP|/|E|,R＝|TP|/|T| (i)

其中，TP：表示所有标记为正确定位的估计文本框集合；

T：表示所有真实文本框集合；

E：表示所有估计文本框集合；

|·|：表示集合中所有文本框的数量；

F-score定义为F-score＝2P*R/(P+R)。

分别采用方法1：《Detecting texts of arbitrary orientations in naturalimages》；

方法2：《Robust Text Detection in Natural Scene Images》

方法3：《Orientation Robust Text Line Detection in Natural Images》

方法4：《Multi-Orientation Scene Text Detection with AdaptiveClustering》

方法5：《Text Flow:A Unified Text Detection System in Natural SceneImages》以及本发明的方法，在数据集MSRA-TD500做了文本定位的实验。

如表1所示，我们的算法在文本的召回率和准确性上都取得了非常稳定的优越表现。与经典算法[2]相比，我们的算法极大地提高了精确度和F-score。

表1在数据集MSRA-TD500上实验结果对比

表1展示了我们的算法在数据集OSTD上的表现。

分别采用方法6:《Detecting text in natural scenes with stroke widthtransform》

方法7：《Text string detection from natural scenes by structure-basedpartition and grouping》

方法1：《Detecting texts of arbitrary orientations in natural images》

和本发明的算法在数据集OSTD上的计算。

在进行算法评估时，我们采用了与MSRA-TD500相同的评价标准。从表2看出本发明表现出了极大的优势。

表2在数据集OSTD上实验结果对比

为了说明我们算法的鲁棒性，我们在水平文本数据集ICDAR 2013上也进行了实验。我们采用了方法8：《ICDAR 2011Robust Reading Competition Challenge 2:ReadingText in Scene Images》中提出的评价标准对算法进行评估。

分别采用方法9：《Scene text detection using graph model built uponmaximally stable extremal regions》

方法4：《Multi-Orientation Scene Text Detection with AdaptiveClustering》

方法10：《Real-time scene text localization and recognition》

方法11：《Text Localization Based on Fast Feature Pyramids and Multi-Resolution Maximally Stable Extremal Regions》

方法12：《Scene text extraction based on edges and support vectorregression》

方法5：《Text Flow:A Unified Text Detection System in Natural SceneImages》

以及本发明在水平文本数据集ICDAR 2013上也进行了实验。

如表3所示，我们的算法在准确率P、召回率R和F-score上分别取得了0.86、0.78以及0.82的优越表现。

表3在数据库ICDAR 2013上实验结果对比

虽然本发明已以较佳实施例公开如上，但其并非用以限定本发明，任何熟悉此技术的人，在不脱离本发明的精神和范围内，都可做各种的改动与修饰，因此本发明的保护范围应该以权利要求书所界定的为准。

Claims

1.基于文本选取模型的无监督文本定位方法，其特征在于，所述方法是，通过简单线性迭代聚类(Simple Linear Iterative Clustering，SLIC)和基于密度的聚类方法(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)将图像分割生成若干个超像素，并且创新地将超像素区域作为文本候选区域；其次，该方法利用同一张图中文本对象之间的相似性建立文本选取模型，生成样本参考图，其中，样本参考图包括强文本图和非文本图，并以样本参考图为依据，通过双阈值机制自适应地提取以超像素为单位的文本样本；最后，通过超像素文本样本训练得到文本分类器并对超像素区域进行文本/非文本分类，实现无监督文本定位。

2.根据权利要求1所述方法，其特征在于，所述方法的具体步骤为：

步骤(4)：将选取出的超像素样本输入N个单核单特征的SVM弱分类器，按照多核增强方法进行训练，得到多核SVM强分类器；

3.根据权利要求2所述方法，其特征在于，所述方法的步骤(1)具体为：初始图像首先通过SLIC进行超像素分割，得到大小及分布相对均匀的初始超像素集合；通过DBSCAN对这些超像素进行聚类，得到高级超像素集合，这些高级超像素将密度相近、位置相邻的初始超像素聚合成一个高级超像素。

4.根据权利要求2所述方法，其特征在于，所述步骤(2)中的MSER图由MSER方法进行生成，并采用面积、横纵比等几何特征过滤器及笔画宽度过滤器来过滤MSER区域。

5.根据权利要求2所述方法，其特征在于，所述步骤(2)中的显著图根据中心先验及暗通道先验联合计算得到：