CN108345850A

CN108345850A - 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法

Info

Publication number: CN108345850A
Application number: CN201810103800.4A
Authority: CN
Inventors: 邬向前; 卜巍; 唐有宝
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2018-01-23
Filing date: 2018-02-01
Publication date: 2018-07-31
Anticipated expiration: 2038-02-01
Also published as: CN108345850B

Abstract

本发明公开了一种基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法，所述方法包括如下步骤：一、字符区域提取：(一)基于超像素的笔画特征变换：(1)超像素分割和聚类；(2)删除背景区域；(3)区域细化；(二)基于深度学习的区域分类：(1)特征提取；(2)特征融合；(3)区域分类；二、文本区域检测：(1)候选文本区域生成；(2)候选文本区域分类。本发明的方法不仅可以实现自然场景中不同大小的文本检测，而且可以实现自然场景中不同颜色的文本检测，包括与背景颜色接近的文本，还可以实现复杂背景下的文本检测，如栅栏、窗户等场景中的文本检测。

Description

基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法

技术领域

本发明属于计算机科学与技术领域，涉及一种场景文本检测方法，尤其涉及一种基于超像素的笔画特征变换(SSFT)和深度学习的区域分类(DLRC)的场景文本检测方法。

背景技术

自然场景图像中文本检测的目的在于找出不同场景，如街道标志和路标中的文字位置。这是端到端的进行场景文本识别的一个最重要的步骤，它可以提供大量有用的指示信息，如帮助盲人和警告人。此外，有效的场景文本检测可以提高多种多媒体应用的性能，如移动视觉搜索、基于内容的图像检索、语义事件检测等。近年来，大量的场景文本检测方法已经发展起来，但在不同场景中成功地检测出文本仍然是计算机视觉界的一个难题，因为自然环境的不受约束如不同的文本大小、不同的文本颜色和复杂的背景。

发明内容

为了解决现有技术的上述问题，本发明提供了一种基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法。

本发明的目的是通过以下技术方案实现的：

一种基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法，包括如下步骤：

一、字符区域提取

(一)基于超像素的笔画特征变换

(1)超像素分割和聚类

a、将输入图像I∈R^M×N调整到一个固定的高度h，并保持其纵横比，当高度大于h时，使用边缘保持过滤器平滑，图像被分割成K个超像素，使用线性迭代聚类算法使其在组合的颜色和图像平面空间中聚集像素，定义超像素S的颜色描述符如下：

f＝(r,g,b,l,a,b,h,s,v)；

式中，(r，g，b)、(l，a，b)和(h，s，v)分别是在RGB、CIELab和HSV颜色空间中像素的值，将每个分量线性归一化到[0，1]之间；

b、用每对超像素之间的欧氏距离构造距离矩阵，基于此距离矩阵，利用平均链路层次聚类算法对超像素进行聚类，将原始图像分成不同的区域；

(2)删除背景区域

a、给定一个图像I∈R^M×N，通过应用结构化随机决策林预测局部边缘，直接提取边缘概率图EPM∈[0,1]^M×N和一个渐变方向图GOM∈[-π,π]^M×N，其中每个像素的值分别表示其在原始图像中作为边缘点及其渐变方向的概率；

b、将非极大值抑制应用到有像素的梯度方向的EPM，然后用一个低的阈值进行二值化，提取I的边缘图像E；

c、利用距离变换对边缘图像E进行欧氏距离计算得到I的距离映射，并以DM表示；

d、定义R和(w，h)表示一个区域及其边界矩形的大小，#(R)表示R中像素的个数，sum(DM_p)和#(P)表示从距离映射DM获得的R边界上的像素距离值的总和以及R的边界上的像素数目，sum(DM_p)/#(P)是从R边界上的像素到边缘的平均距离；

e、使用步骤d中的定义，场景中的字符的以下先验用于删除大部分背景区域：

①如果是字符区域，w/M和h/N不应超过阈值；

②应该超过一个阈值；

③

如果一个区域不能满足①-③规则中的一个，就被视为一个背景区域；在对所有区域应用以上规则之后，大部分的背景区域被删除掉；

(3)区域细化

a、计算超像素中的描边宽度平均值，然后将其设置为此超像素中所有像素的描边宽度值，并形成描边宽度图；

b、基于提取的笔画宽度图，构造一个由9维颜色描述符和该区域或超像素中像素的平均笔画宽度组成的10维特征向量来表示一个区域或超像素；

c、将特征向量的每个分量线性归一化到区间[0，1]；

d、将两个区域或超像素之间的距离定义为其特征向量之间的加权欧氏距离，在计算加权欧氏距离时，将权重设置为0.7用于描边宽度分量，0.3用于颜色分量，根据特征向量细化剩余区域；

(二)基于深度学习的候选字符区域分类

(1)特征提取

a、颜色特征

根据候选区域及其边界矩形区域计算以下三个颜色特征向量：

第一个颜色特征向量由RGB、CIELab和HSV颜色空间中候选区域的平均颜色组成，它是一个9维颜色特征向量；

第二个颜色特征向量是从CIELab颜色空间中的CCR计算出的颜色分布的48维直方图，即48维颜色特征向量；

第三个颜色特征向量是在CCR的边界矩形区域中的背景区域计算出的颜色分布的48维直方图，即48维颜色特征向量；

b、纹理特征

利用梯度直方图捕获区域的外观特征；

c、几何特征

提取以下几何特征区分字符区域和背景：

1)候选区域的像素数与候选区域边界框的面积之比；

2)候选区域边界框的纵横比：

3)候选区域边界框的宽度和高度与输入图像的宽度和高度的比值；

4)图像边界上的ccr的像素数与ccr的轮廓上的像素总数之比；

5)CCR中像素的描边宽度的平均值和方差；

d、深层特征

使用用于深度特征提取的CNN从CCRs的边界矩形区域中学习深层的高级特征；

(2)特征融合

a、对于手工设计的特征融合，即颜色特征、纹理特征和几何特征的融合，首先将每个特征线性地标准化到[0，1]，然后将它们输入一个由两个分别有256个节点和128个节点的fc层和一个softmax层组成的用于手工设计的特征融合的全连接网络训练，训练之后，将最后fc层的128个输出作为初始融合特征；

b、将深层特征和初始融合特征连接起来，并将它们的组件线性标准化到[0，1]，然后将它们放入具有512和256个节点的fc层和一个softmax层构成的用于融合初始融合特征和深度特征的全连接网络中训练，训练之后，使用最后fc层的输出作为最后融合特征，在测试阶段代表每个输入图像的特征；

c、将训练的模型作为初始权重，共同训练用于深度特征提取的CNN、用于手工设计的特征融合的全连接网络和用于融合最初的融合特征和深度特征的全连接网络；

(3)区域分类

利用随机森林回归对训练数据集进行训练；

二、文本区域检测

(1)候选文本区域生成

给定一组从输入图像中提取的字符区域，其边界框表示为b_i’＝(x_i’,y_i’,w_i’,h_i’)，i＝12,..,m，m是框的数量，(x_i’,y_i’)和(w_i’,h_i’)是左上角点的坐标和b_i’的尺寸，坐标的原点是图像的左上角；

按照以下步骤生成候选文本区域：

a、找到最左侧未处理的框B_l’；

b、获得一组基于B₁＝B_l’的框B，通过迭代寻找框B_j＝(xj,yj,wj,hj)，它最接近B_j-1且满足以下条件：

y_j-1-h_j＜y_j＜y_j-1+h_j-1；

c、计算B中相邻框B_j和B_j+1之间的距离：

d_j,j+1＝x_j+1-x_j-w_j,if#(B)≥2；

其中，#(B)表示B中的方框数；

d、根据B中方框的数量生成文本区域：

1)当#(B)＝1时，直接将B₁的相应CCR设置为CTR；

2)当#(B)＝2时，如果d_1,2>(h₁+h₂)/2，设置B₁和B₂相应的CCRs为两个CTR；否则，把它们作为一个CTR；

3)当#(B)>2时，找到满足如下距离条件的相邻框B_j和B_j+1：

然后将它们设置为B上的分割点以生成CTRs；

e、重复步骤a到步骤d，直到处理完所有的框；

(2)候选文本区域分类

使用步骤一(二)中的基于深度学习的候选字符区域分类对步骤(1)获得的CTR进行分类，将CTR的边界矩形区域在保持其纵横比的情况下调整为32的固定高度，调整后的区域被用作深度特征提取的输入，原始的边界矩形区域用于手工设计的特征提取。

本发明具有如下优点：

(1)本发明的方法不仅可以实现自然场景中不同大小的文本检测，而且可以实现自然场景中不同颜色的文本检测，包括与背景颜色接近的文本，还可以实现复杂背景下的文本检测，如栅栏、窗户等场景中的文本检测。

(2)本发明的方法在ICDAR2013数据集上的实验结果如表1所示，从精确率、召回率和综合指标F可以看出，本发明的方法在检测结果上优于除Tang的方法之外的其他方法。本发明的方法在所有测试数据集上都具有良好的场景文本检测性能，并且可以处理一些具有挑战性的场景，例如单个字符、模糊文本和复杂背景等等，可以证明本发明方法的有效性。

表1

(3)本发明方法的运行时间要优于其他使用深度学习的检测方法，本发明的方法并在一台具有TESLAk40c GPU、英特尔i7CPU和32G RAM的PC上进行测试，大约需要8.6秒来处理一个图像。这比其他基于CNN的工作(每张图片大约需要1分钟)要快得多。

(4)本发明的方法训练卷积神经网络的时间要明显少于表1中Tang的方法，Tang的方法在TESLAk40c GPU需要大约三天，而本发明的方法在英特尔i7-4790k CPU只需约18小时。

附图说明

图1为深度学习进行特征提取和融合的框架图；

图2为本发明方法的整体框架图。

具体实施方式

下面对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

场景文本检测的一个重要步骤是候选字符区域(CCR)提取，它直接影响文本检测的最终性能。流行的CCR提取方法有基于笔画宽度转换(SWT)、最大稳定极值区(MSER)及其变体(如笔画特征转换(SFT))。在ICDAR 2013数据集，基于这些CCR提取方法的方法的最佳召回率是0.857。召回率较低的原因是，这些CCR提取方法无法正确提取某些真实文本区域。因此，为了提高性能，本发明提出了一种新的从SFT中扩展的CCR提取方法，即基于超像素的笔画特征变换(SSFT)。

场景文本检测的另一个重要步骤是区域分类，它试图从提取的候选字符区域中筛选出非文本区域。因此，提高召回的另一种方法是提取高度区分性的特征，以便尽可能正确地将文本区域和非文本区域从候选字符区域中分类。许多以前的方法侧重于开发手工设计的功能或基于CNN的功能分类文本和非文字候选字符区域。本发明在考虑二者的互补性的基础上，提取并融合了基于特征的手工设计特征和基于CNN的特征进行区域分类。

本发明从上述两个方面出发，提出了一种基于超像素的笔画特征变换和基于深度学习的区域分类的场景文本检测方法。该方法可以在不同的条件下检测场景文本，包括上述的不同大小文本、不同颜色文本、复杂背景等情况。所述方法包括两个阶段：字符区域提取和文本区域检测。在这里，一个文本区域通常包含多个字符区域，就像一个单词通常包含多个字母。在字符区域提取阶段，提取和分类候选字符区域。在文本区域检测阶段，提取的字符区域合并成候选文本区域。

如图2所示，本发明的方法包含六个模块，即基于超像素的聚类(M0)、背景区域去除(M1)、区域细化(M2)、候选字符区域分类(M3)、候选文本区域生成(M4)和候选文本区域分类(M5)。在这些模块中，M0、M1、M3和M4是必不可少的模块，而M2和M5则是可选的。

具体实施步骤如下：

一、字符区域提取

(一)、基于超像素的笔画特征变换

对于候选字符区(CCR)提取，Huang等提出了一种笔画特征变换(SFT)算法，它首先检测输入图像的边缘，然后生成一个描边宽度图。虽然它在文本检测方面取得了良好的性能，但提取CCRs耗费大量时间且对噪声敏感。为解决这些问题，本发明提出了基于超像素的笔画特征变换(SSFT)方法进行CCR提取。所述SSFT由三个步骤组成：超像素分割和聚类、删除背景区域和区域细化。

(1)超像素分割和聚类(M0)

在这项工作中，首先将输入图像I∈R^M×N调整到一个固定的高度960，并保持其纵横比，当它的高度大于960，然后通过使用边缘保持过滤器平滑。之后，它被分割成K个超像素，使用简单的线性迭代聚类(SLIC)算法，它在组合的颜色和图像平面空间中聚集像素，以高效地生成紧凑、几乎一致超像素。对于一些分辨率低、对比度低的图像，某些字符下的低数量分割现象仍然存在。在这里，我们不是固定超像素的大小，而是在一个图像中固定超像素的数量。由于图像的大小和内容不固定，超像素的大小各不相同。

超像素S的颜色描述符通过连接几个色彩空间中的颜色获得。在这项工作中，颜色描述符定义如下：

f＝(r,g,b,l,a,b,h,s,v) (1)

(r，g，b)、(l，a，b)和(h，s，v)分别是在RGB、CIELab和HSV颜色空间中像素的值。每个分量线性归一化到[0，1]之间。

用每对超像素之间的欧氏距离构造距离矩阵。基于此距离矩阵，利用平均链路层次聚类算法对超像素进行聚类。在这里，与像素相比，聚类处理的时间要少得多，因为超像素的数量比图像中的像素要少得多。通过考虑类的区别，自动决定类的数量。在这项工作中，当类的不一致小于一个阈值时，分层聚类过程将结束。因此，对于不同的图像，簇的个数是不同的。具有类似颜色的超像素在同一类中聚集。同一类中的超像素可以形成多个区域，不同类中的超像素形成不同的区域。即通过超像素聚类将原始图像分成不同的区域。

(2)删除背景区域(M1)

给定一个图像I∈R^M×N，一种快速边缘检测算法通过应用结构化随机决策林来预测局部边缘，直接提取边缘概率图EPM∈[0,1]^M×N和一个渐变方向图GOM∈[-π,π]^M×N，其中每个像素的值分别表示其在原始图像中作为边缘点及其渐变方向的概率。通过将非极大值抑制应用到有像素的梯度方向的EPM，然后用一个低的阈值进行二值化(这里的阀值设置为0.1)，提取I的边缘图像E。然后，利用距离变换对边缘图像E进行欧氏距离计算得到I的距离映射，并以DM表示。让R和(w，h)表示一个区域及其边界矩形的大小，#(R)表示R中像素的个数，sum(DM_p)和#(P)表示从距离映射DM获得的R边界上的像素距离值的总和以及R的边界上的像素数目，sum(DM_p)/#(P)是从R边界上的像素到边缘的平均距离。

使用上述定义，场景中的字符的以下先验可用于删除大部分背景区域：

(a)整个场景图像中的文本不应太大。即，如果是字符区域，w/M和h/N不应超过阈值，本发明中阀值中设置为0.85。

(b)字符区域应足够大到肉眼可见，即应该超过一个阈值，在这里设置为0.2。

(c)字符与背景的对比度应足以区分文本与背景，这意味着字符的轮廓应在边缘图像E中提取。考虑到一些意想不到的干扰，如由于噪声可能导致R的边界从字符的真实轮廓的转移，我们设定了r的边界上的像素的平均距离的阈值到6，即

如果一个区域不能满足这些规则中的一个，就被视为一个背景区域。请注意，这些规则中的阈值是通过保留其余区域中大约98％真实字符像素来选择的。

在对所有区域应用以上规则之后，大部分的背景区域被删除掉。

(3)区域细化(M2)

在背景区域移除后，仍存在一些可被过度分割或错误分割的字符和背景区域，由于笔画的宽度和同一字符的颜色在场景图像中通常是相似的，所以我们可以使用这些信息来进一步细化区域。

我们计算超像素中的描边宽度平均值，然后将其设置为此超像素中所有像素的描边宽度值，并形成描边宽度图。基于提取的笔画宽度图，构造一个10维特征向量来表示一个区域或超像素，它由9维颜色描述符和该区域或超像素中像素的平均笔画宽度组成。特征向量的每个分量都线性归一化到区间[0，1]。两个区域或超像素之间的距离被定义为其特征向量之间的加权欧氏距离。通过训练数据集上的实验，我们发现，在计算加权欧氏距离时，将权重设置为0.7用于描边宽度分量，0.3用于颜色分量，能够获得最佳性能。我们根据它们的特征向量来细化剩余区域。

(二)、基于深度学习的候选字符区域分类(M3)

在候选字符区域中，仍然存在一些背景区域。为了进一步去除这些背景区域，提出了一种基于深度学习的区域分类(DLRC)算法，其中提取了一些手工设计的特征和基于深度CNN的特征，将它们融合进行区域分类。

(1)特征提取

为区域分类提取四种特征，即颜色特征、纹理特征、几何特征和深层特征。前三是手工设计的低级特征，最后一个是基于CNN的高级特征。

a、颜色特征。颜色是区分文本和背景的最重要的线索之一。我们根据候选区域及其边界矩形区域来计算三个颜色特征向量。

第一个颜色特征向量由RGB、CIELab和HSV颜色空间中候选区域的平均颜色组成，它是一个9维颜色特征向量。

第二个颜色特征向量是从CIELab颜色空间中的CCR计算出的颜色分布的直方图。对于每个颜色分量，我们将其范围量化为16个间隔，并通过量化该区域中所有像素的颜色值来计算每个间隔的发生频率。因此，处理所有的三色分量，我们可以得到一个48维直方图，即一个48维颜色特征向量。

第三个颜色特征向量是在CCR的边界矩形区域中的背景区域计算出的颜色分布的直方图，其处理与第二个相同。这个颜色直方图也形成一个48维颜色特征向量。

b、纹理特征。有时，真实字符的边界矩形区域的纹理不同于背景区域，尤其是复杂场景图像。我们可以提取纹理特征来区分字符区域和背景区域。梯度(HOG)直方图是一种有效的纹理描述符，用于捕获区域的外观特征。

c、几何特征。与其他对象相比，文本具有其固有的几何属性。因此，在这项工作中，我们提取以下几何特征来区分字符区域和背景。

1)候选区域的像素数与候选区域边界框的面积之比；

2)候选区域边界框的纵横比：

3)候选区域边界框的宽度和高度与输入图像的宽度和高度的比值(因为文本在场景图像中通常不太大或太小)；

4)图像边界上的ccr的像素数与ccr的轮廓上的像素总数之比(因为没有或非常小的文本部分与图像边界相连)；

5)CCR中像素的描边宽度的平均值和方差。

因此，几何特征向量是7维的。

d、深层特征。通过在场景文本检测中成功的深度学习方法，我们使用卷积神经网络(CNN)从CCRs的边界矩形区域中学习深层的高级特征。图1的矩形A中显示了CNN网络的深层特征提取的整个体系结构。这项工作使用了VGGNet-16的前三块提取深度特征。第一个块包括两个卷积层(conv1-1,conv1-2)，第二个块包括一个最大池化层(pooling1)和两个卷积层(conv2-1和conv2-2)，第三个块包括一个最大池化层(pooling2)和三个卷积层(conv3-1、conv3-2和conv3-3)。一个全局平均池层接在第三块后，用来生成一个具有固定长度的特征向量。最后，利用两个输出的softmax层计算训练过程中的损失。

(2)特征融合

提取的高层次深度特征可以很好地捕捉文本的全局和上下文信息，而不是低级信息(如颜色和纹理)。但是，此低级信息对于区分文本和背景也很重要。因此，在这项工作中也提取了低层次手工设计的特征，这是对深层特征的补充。下一步是将这两种特征融合进行区域分类。最简单的方法是直接连接所有特征，形成一个用于区域分类的向量，其中特征向量的分量几乎被独立地考虑。在这项工作中，我们不仅考虑了手工设计功能的组成部分之间的关系，而且还使用完全连接层和监督学习计划自动学习手工设计的特征和基于CNN特征间的复杂依赖性。对于手工设计的特征融合，我们首先将每个手工特征线性地标准化到[0，1]，然后将它们输入一个神经网络，它由两个分别有256个节点和128个节点的全连接层(fc)组成，而一个softmax层输入两个训练的输出，如图1中矩形B所示。在训练这个网络之后，最后全连接层的128个输出被考虑作为最初的融合的特征。为了了解基于CNN的特征和初始融合特征之间的依赖性，我们将它们连接起来,并将它们的组件线性标准化到[0，1]，然后将它们放入具有512和256个节点的两个全连接层(fc)和一个softmax层构成的网络训练，如图1中矩形C所示。上述融合框架被表示为Strategy1。在训练这个网络之后,我们使用最后全连接层的输出作为256维特征向量(最后融合特征)在测试阶段代表每个输入图像的特征。

本发明的方法共有三个网络，即用于深度特征提取的CNN、用于手工设计的特征融合的全连接网络和用于融合最初的融合特征和深度特征的全连接网络。在分别训练了所有这些后，我们将训练的模型作为初始权重，共同训练这三个网络以提高最终性能。

(3)区域分类

在执行上述过程后，将为每个区域提取一个256维特征向量。为了进一步提高回归精度，利用随机森林回归对训练数据集进行了训练。我们最初通过网络训练一个softmax回归。并结合融合特征，对随机森林和SVM等变量进行了训练。通过实验,我们发现随机森林回归在所有这些变量中获得最佳性能。因此，我们在这项工作中选择了随机森林回归。

二、文本区域检测

在候选字符区域提取阶段，只考虑单个字符的属性可能会导致错误。如栅栏的区域常被错误地提取为字符区域，因为它们与"l"或"I"的字符非常相似。我们可以进一步利用字符之间的关系来解决这个问题。在本节中，我们生成候选文本区域，然后将它们分类为文本或非文本区域。

(1)、候选文本区域生成(M4)

给定一组从输入图像中提取的字符区域，我们可以很容易地得到它们的边界框，表示为b_i’＝(x_i’,y_i’,w_i’,h_i’)，i＝12,..,m，m是框的数量，(x_i’,y_i’)和(w_i’,h_i’)是左上角点的坐标和b_i’的尺寸。这里，坐标的原点是图像的左上角。候选文本区域由以下过程生成：

a、找到最左侧未处理的框B_l’。

y_j-1-h_j＜y_j＜y_j-1+h_j-1 (4)；

这一步是基于一个假设，即文本几乎水平出现在场景图像中，由公式(4)保证。高度约束，即公式(5)，用于确保相邻框的高度接近，因为同一单词中的字符大小应该相似。

c、计算B中相邻框B_j和B_j+1之间的距离：

d_j,j+1＝x_j+1-x_j-w_j,if#(B)≥2 (6)；

其中，#(B)表示B中的方框数。

d、根据B中方框的数量生成文本区域：

1)当#(B)＝1时，直接将B₁的相应CCR设置为CTR；

2)当#(B)＝2时，如果d_1,2>(h₁+h₂)/2，设置B₁和B₂相应的CCRs为两个CTR；否则，把他们作为一个CTR；

3)当#(B)>2时，找到满足如下距离条件的相邻框B_j和B_j+1：

然后将它们设置为B上的分割点以生成CTRs。例如，如果在B和d_3,4、d_7,8之间有9个满足条件的框，我们分裂B之间的B₃B₄和B₇B₈，产生三个CTR，即B₁B₂B₃,B₄B₅B₆B₇和B₈B₉。

e、重复步骤a到步骤d，直到处理完所有的框。

在所有CCR上使用上述的CTR生成过程后，将获得一些CTR。

(二)、候选文本区域分类(M5)

使用步骤一(二)中的基于深度学习的候选字符区域分类对CTR进行分类。CTR主要包含不同数量的CCR，因此其边界框的纵横比是不同的。与直接将它们调整为固定大小相比，将CTR的边界矩形区域在保持其纵横比的情况下调整为32的固定高度能减少信息的丢失。调整后的区域被用作深度特征提取的输入，原始的边界矩形区域用于手工设计的特征提取。通过实验，可以删除类似"IIIIII"的栅栏、窗户等区域，这是因为，对于CTR分类模型培训，正样本(文本)是由常用的英语单词构造的。没有像"IIIIII"这样的词。所构造的负样本(non-texts)包含一些类似"IIIIII"的样本，如多块和栅栏。因此，CTR分类可以将"IIIIII"作为非文本区域来标识。

至此已经完成本发明的方法，上述两个主要部分(即候选区域提取和分类)是分离的，不能以端对端方式进行优化。同时，有几个手工设计特征的操作，很难通过建立一些CNN模型来取代它们。

Claims

1.一种基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法，其特征在于所述方法步骤如下：

一、字符区域提取

(一)基于超像素的笔画特征变换

(1)超像素分割和聚类

f＝(r,g,b,l,a,b,h,s,v)；

(2)删除背景区域

①如果是字符区域，w/M和h/N不应超过阈值；

②应该超过一个阈值；

③

(二)基于深度学习的候选字符区域分类

(1)特征提取

a、颜色特征

b、纹理特征

利用梯度直方图捕获区域的外观特征；

c、几何特征

提取以下几何特征区分字符区域和背景：

1)候选区域的像素数与候选区域边界框的面积之比；

2)候选区域边界框的纵横比：

4)图像边界上的ccr的像素数与ccr的轮廓上的像素总数之比；

5)CCR中像素的描边宽度的平均值和方差；

d、深层特征

(2)特征融合

(3)区域分类

利用随机森林回归对训练数据集进行训练；

二、文本区域检测

(1)候选文本区域生成

按照以下步骤生成候选文本区域：

a、找到最左侧未处理的框B_l’；

y_j-1-h_j＜y_j＜y_j-1+h_j-1；

c、计算B中相邻框B_j和B_j+1之间的距离：

d_j,j+1＝x_j+1-x_j-w_j,if#(B)≥2；

其中，#(B)表示B中的方框数；

d、根据B中方框的数量生成文本区域：

1)当#(B)＝1时，直接将B₁的相应CCR设置为CTR；

3)当#(B)>2时，找到满足如下距离条件的相邻框B_j和B_j+1：

然后将它们设置为B上的分割点以生成CTRs；

e、重复步骤a到步骤d，直到处理完所有的框。

2.根据权利要求1所述的基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法，其特征在于所述步骤(一)还包括如下步骤：

(3)区域细化

c、将特征向量的每个分量线性归一化到区间[0，1]；

d、将两个区域或超像素之间的距离定义为其特征向量之间的加权欧氏距离，在计算加权欧氏距离时，将权重设置为0.7用于描边宽度分量，0.3用于颜色分量，根据特征向量细化剩余区域。

3.根据权利要求1所述的基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法，其特征在于所述步骤二还包括如下步骤：

(2)候选文本区域分类

使用步骤一(二)中的基于深度学习的候选字符区域分类对CTR进行分类，将CTR的边界矩形区域在保持其纵横比的情况下调整为32的固定高度，调整后的区域被用作深度特征提取的输入，原始的边界矩形区域用于手工设计的特征提取。

4.根据权利要求1所述的基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法，其特征在于所述步骤①中，阀值设置为0.85。

5.根据权利要求1所述的基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法，其特征在于所述步骤②中，阀值设置为0.2。