CN104573685A

CN104573685A - 一种基于线性结构提取的自然场景文本检测方法

Info

Publication number: CN104573685A
Application number: CN201510046301.2A
Authority: CN
Inventors: 邹北骥; 吴慧; 陈再良; 赵于前
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2015-01-29
Filing date: 2015-01-29
Publication date: 2015-04-29
Anticipated expiration: 2035-01-29
Also published as: CN104573685B

Abstract

本发明公开了一种基于线性结构提取的文检测方法，将文连通区域看作是不同形状的线性结构的组合；通过提取线性结构，粗略定位文区域；然后通过色彩聚类和基于色彩距离的区域生长，从初始文区域中得到完整的文连通域。进一步分析连通区域的几何和空间位置特征，得到候选文字符串。其中，线性结构的提取采用多尺度Hessian矩阵滤波方法，分别对原始彩色图像的R、G和B三个通道上操作，使得方法在一定程度上，克服光照对图像的影响；通过高斯混合模型色彩聚类和基于色彩距离的区域生长，两步色彩分析方法，使得方法对不同大小、笔画宽度文的检测性都较好，进一步提高方法的鲁棒性。

Description

一种基于线性结构提取的自然场景文本检测方法

技术领域

本发明属于模式识别技术领域，涉及一种基于线性结构提取的自然场景文本检测方法。

背景技术

随着数码相机、摄像头、超高速扫描仪等图像获取设备的广泛应用，自然场景文本图像得到广泛的关注。这些图像通常提供了大量有用信息，其中，文本信息显得尤为重要。这是因为文本信息易于识别和理解，并能广泛应用于相关系统和设备，如盲人视觉辅助系统、旅行翻译系统、信息检索系统、机器人视觉导航等。因此，从自然场景图像中提取文本是计算机视觉领域中的重要课题。为了识别自然场景图像中的文本，专家设计了许多OCR字符识别系统，这些系统对文档中的文本通常有较好的检测效果，对于场景图像中的文本检测效果较差。这是因为场景图像文本的通常变化多样，并且图像背景也相对复杂，很难直接通过OCR软件识别。ICDAR2003数据库是第一个文本检测的公共数据库，它将文本检测和识别问题划分为几个子任务：1)文本定位；2)字符识别；3)单词识别；4)文本阅读。从中可以看出，文本定位是理解场景图像文本的首要步骤。

目前的场景文本检测方法可以分为两类：基于滑动窗口和基于连通域的方法。基于滑动窗口的检测方法又可称为基于区域的检测方法。该方法首先获得原始图像不同尺寸的变换图，然后用滑动窗口扫描这些变换图像。对通过滑动窗口得到的子区域，提取其纹理特征，例如：小波变换、梯度方向直方图等。将这些特征输入训练好的分类器，对候选文本区域分类，得到最终检测结果。该方法主要利用纹理信息检测文本，由于场景图像文本的多样性和图像背景的复杂性，该方法仅仅利用纹理特征检测文本，效果不佳。除此之外，该方法通过对原始图像变换得到的多尺寸图像进行操作，得到文本区域，使得该方法检测速度较慢。基于连通域的文本检测方法，主要是将图像中的文本字符视为连通区域，通过提取这些连通区域定位文本。该方法通常包含三个主要步骤：提取连通区域，构建文本字符串，验证字符串。其中，提取连通区域主要利用同一字符串中的文本字符，在颜色、笔画宽度等方面具有相似性，通过提取特征相似的像素点，组成连通区域。字符串通常包含多个文本字符，因此，可以通过提取连通区域的几何和空间位置特征，组成文本字符串。得到的文本字符串中通常包含一些错误检测的非文本字符，因此，通过文本验证提高文本检测的正确率。基于连通区域的方法，计算时间短，检测效果较好。

由于场景文本的多样性和背景的复杂性，从自然场景图像中提取文本是具有挑战性的课题。针对目前检测结果较好的基于连通区域的方法，如何从复杂背景图像中提取不同颜色、大小、样式的字符连通区域是影响检测结果的关键步骤。

发明内容

本发明提供了一种基于线性结构提取的自然场景文本检测方法，为了克服上述现有技术中存在的问题，本方法将场景图像中的文本看作是不同形状的线性结构的组合，通过提取这些线性结构，定位场景文本区域。

一种基于线性结构提取的自然场景文本检测方法，该方法包括以下步骤：

步骤1：获取待进行文本检测的原始图像的R、G、B色彩通道图像；

步骤2：分别计算步骤1中获得的R、G、B色彩通道图像中每个像素点的Hessian矩阵，并计算对应Hessian矩阵的两个特征值λ₁和λ₂，其中，|λ₂|≤|λ₁|；

步骤3：基于每个像素点的Hessian矩阵，提取色彩通道图像中的线性结构；

利用高斯核函数按照以下公式依次对R、G、B色彩通道图像中每个像素点的Hessian矩阵进行卷积滤波操作，获得每个色彩通道图像中每个像素点的较亮滤波结果和较暗滤波结果，从而得到每个色彩通道图像的较亮滤波图像和较暗滤波图像并从中提取出文本字符所在区域对应的线性结构；

F_{δ}^{1} (x, y) = \{\begin{matrix} 0, & if & λ_{2} > 0 \\ e^{- \frac{R_{B}^{2}}{{2 β}^{2}}} (1 - e^{- \frac{S^{2}}{{2 c}^{2}}}), & otherwise \end{matrix}

F_{δ}^{2} (x, y) = \{\begin{matrix} 0, & if & λ_{2} > 0 \\ e^{- \frac{R_{B}^{2}}{{2 β}^{2}}} (1 - e^{- \frac{S^{2}}{{2 c}^{2}}}), & otherwise \end{matrix}

其中，δ表示高斯核函数中的尺度，δ∈[1,4]；对于每个像素点的Hessian矩阵变换，R_B表示特征值比率，R_B＝λ₁/λ₂，S表示特征值模长，c表示每个色彩通道中所有像素点中模长的最大值的二分之一，c＝max(S)/2，β是常量，β∈[0,1]；

【对于每个像素点都可以计算Hessian矩阵，然后得到两个特征值，并计算特征值的模长，则不同像素点有不同的模长，取其中最大的模长的一半作为c的值；】

步骤4：对线性结构进行定位；

对每个色彩通道图像的较亮滤波图像和较暗滤波图像按照设定的二值化阈值进行二值化操作，将灰度大于二值化阈值的像素点置为1，灰度小于二值化阈值的像素点置为0，提取文本像素点的位置，对线性结构进行定位，获得每个色彩通道图像对应的两幅线性结构定位图；

步骤5：将三个色彩通道图像对应的两幅线性结构定位图分别对应合并，得到两幅线性结构定位合并图；

步骤6：提取线性结构定位合并图中的连通域，将连通域合并，获得文本字符串；

从两幅线性结构定位合并图中分别提取连通区域，计算每个连通区域的几何和空间位置特征，利用相邻连通区域的高度、笔画宽度、垂直重复率和水平距离在设定范围内的连通区域进行合并，获得文本字符串及其所在图像中的位置；

所述连通区域的几何特征包括连通区域的高度、笔画宽度，空间位置特征包括连通域之间的垂直重复率、水平距离。

所述步骤3中高斯核函数的尺度δ依次取值为1、2、3及4，从四个尺度中选取响应最大的滤波结果，从而得到每个色彩通道图像的较亮滤波增强图像和较暗滤波增强图像。

所述步骤6中连通域的合并过程，具体如下：

步骤6.1：对待进行字符合并的图像进行连通域搜索，获取每个连通域的最大外接矩形的高度h，并根据所述最大外接矩形几何中心水平坐标位置，按照从左到右、从上到下的顺序，依次采用标签标记连通域；

每个连通域的标签即为对应连通域的最大外接矩形几何中心水平坐标，最大外接矩形几何中心水平坐标以图像的左上角为原点；

步骤6.2：利用现有的连通域笔画宽度计算方法，计算步骤6.1获得的连通域中每个像素点的笔画宽度，并将每个连通域中所有像素点的笔画宽度的平均值，作为该连通域的笔画宽度sw；

步骤6.3：将标签最小的连通域记为c_F，并加入文本字符串，标签大于c_F的标签的连通域记为候选邻域字符c_L，依次将c_F和每个c_L视为字符对，提取每对字符对的高度比R_h、笔画宽度比R_sw，垂直重复率R_vol和水平距离D，计算公式分别如下：

R_{h} = \frac{\max (h_{L}, h_{mean})}{\min (h_{L}, h_{mean})}

R_{sw} = \frac{\max ({sw}_{L}, {sw}_{mean})}{\min ({sw}_{L}, {sw}_{mean})}

R_{vol} = \frac{v_{FL}}{(h_{F} + h_{L}) / 2}

D = \frac{d_{FL}}{(h_{F} + h_{L}) / 2}

其中，h_L、sw_L分别表示候选邻域字符c_L的高度和笔画宽度；h_mean、sw_mean分别表示字符串中所有字符高度和笔画宽度的平均值；v_FL、d_FL分别表示字符c_F与候选邻域字符c_L的外接矩形的垂直重复率和水平距离；

步骤6.3：将同时满足R_h≤T₁，R_sw≤T₂，R_vol≥T₃，D≤T₄四个条件的所有c_L加入文本字符串，其中，T₁、T₂、T₃和T₄分别表示字符对高度比、笔画宽度比、垂直重复率和水平距离的阈值，取值范围为T₁∈[1,2.5]，T₂∈[1,2.5]，T₃∈[0.5,1]，T₄∈[0,3]；

步骤6.4：将新加入的连通区域中标签最大的字符作为新的C_F，重复步骤6.3-6.5找到所有满足条件的连通区域，得到某一完整字符串；

步骤6.5：对步骤5得到的两幅线性结构定位合并图，重复步骤6.1-6.5，找到所有文本字符串，得到最终的文本检测结果。

对两幅线性结构定位图进行色彩分析获得更加完整的字符串，具体过程如下：

步骤7.1：基于高斯混合模型对两幅线性结构定位图进行色彩聚类，获得色彩层信息，按照色彩层信息，对两幅线性结构定位图中的每个像素点按照色彩层信息获得对应的色彩聚类结果图；

步骤7.2：对每幅色彩聚类结果图中的像素点作为初始种子点，采用基于色彩距离的区域生长方法，填充色彩聚类结果图中的离散线性结构，得到每幅色彩聚类结果图中的完整的连通域，用于字符合并。

用训练好的卷积神经网络，对步骤6获得的文本字符串进行得分计算，保留满足设定条件的文本字符串，作为最终的检测结果。

【采用2012年第21届国际模式识别会论文集第3304-3308页中构建的卷积神经网络，对候选文本字符串分类，保留得分大于1的文本字符串，移除得分小于1的字符串，得到最终文本检测结果。】

所述步骤5的线性结构定位图的合并规则具体如下：

M_{1}^{'} = \{\begin{matrix} I_{r 1} \cup I_{g 1}, & if & sum (I_{r 1} \cap I_{g 1}) > sum (I_{r 1} \cap I_{g 2}) \\ I_{r 1} \cup I_{g 1}, & otherwise \end{matrix}

M_{1} = \{\begin{matrix} M_{1}^{'} \cup I_{b 1}, & if & sum (M_{1}^{'} \cap I_{b 1}) > sum (M_{1}^{'} \cap I_{b 2}) \\ M_{1}^{'} \cup I_{b 2}, & otherwise \end{matrix}

M_{2}^{'} = \{\begin{matrix} I_{r 2} \cup I_{g 2}, & if & sum (I_{r 2} \cap I_{g 2}) > sum (I_{r 2} \cap I_{g 1}) \\ I_{r 2} \cup I_{g 1}, & otherwise \end{matrix}

M_{2} = \{\begin{matrix} M_{2}^{'} \cup I_{b 2}, & if & sum (M_{2}^{'} \cap I_{b 2}) > sum (M_{2}^{'} \cap I_{b 1}) \\ M_{2}^{'} \cup I_{b 1}, & otherwise \end{matrix}

其中，I_r1、I_g1和I_b1分别表示R、G和B色彩通道较亮线性结构定位结果，I_r2、I_g2和I_b2分别表示R、G和B色彩通道较暗线性结构定位结果；M₁'和M₁分别为以I_r1为初始合并对象得到的中间合并结果和最终合并结果；M₂'和M₂分别为以I_r2为初始合并对象得到的中间合并结果和最终合并结果。

所述步骤5的线性结构定位图的合并是将三个色彩通道图像的较暗滤波图像对应的线性结构定位图合并，将三个色彩通道图像的较亮滤波图像对应的线性结构定位图合并。

所述步骤4中的对线性结构进行定位，是根据色彩通道图像的滤波图像中像素点的灰度值，使用K均值聚类方法，对像素点分类，得到线性结构定位结果图。

所述步骤7.1的具体步骤如下：

使用高斯混合模型，对两幅线性结构结果图中的像素点进行色彩聚类，得到色彩层。进一步包括以下步骤：

步骤A1：对线性结构定位图中的像素点，提取其在R、G和B通道上的值作为色彩特征；

步骤B1：用K均值方法，根据步骤A1获取的色彩特征，将像素点分成K类，K取值为3～5之间的整数，计算每个类的聚类中心μ_i(1≤i≤K)和标准差σ_i(1≤i≤K)，利用聚类中心和标准差初始化高斯混合模型P(x|μ,σ)：

P (x | μ, σ) = Σ_{i = 1}^{K} ω_{i} P_{i} (x | μ_{i}, σ_{i})

其中，x表示被分类的像素点，ω_i、μ_i和σ_i分别表示第i个高斯混合模型的权重、均值和标准差；

步骤C1：用最大期望算法，迭代优化高斯混合模型中的参数，直到收敛，计算公式如下：

ω_{i}^{t + 1} = \frac{1}{N} Σ_{j = 1}^{K} P_{i} (x_{j} | μ_{i}^{t}, σ_{i}^{t})

μ_{i}^{t + 1} = \frac{Σ_{j = 1}^{N} P_{i} (x_{j} | μ_{i}^{t}, σ_{i}^{t}) x_{j}}{Σ_{j = 1}^{N} P_{i} (x_{j} | μ_{i}^{t}, σ_{i}^{t})}

σ_{i}^{t + 1} = \frac{Σ_{j = 1}^{N} P_{i} (x_{j} | μ_{i}^{t}, σ_{i}^{t}) {(x_{j} - μ_{i}^{t + 1})}^{2}}{Σ_{j = 1}^{N} P_{i} (x_{j} | μ_{i}^{t}, σ_{i}^{t})}

其中，x_j表示第j个像素点，和表示第i个高斯模型在第t次迭代步骤下的均值和方差，表示在第t次迭代步骤下，x_j像素点在第i个高斯模型下的概率，和表示第t+1次迭代步骤下，第i个高斯模型的权重、均值和方差；N表示线性结构定位图中像素点的个数，t表示第t次迭代步骤；

步骤D1：对于某一像素点，将其归类到概率值最大的高斯模型中；对图像中所有像素点分类，得到K个色彩层；对两幅线性结构定位图中的每个像素点按照色彩层信息获得对应的色彩聚类结果图。

所述步骤7.2的具体过程如下：

步骤A2：将色彩聚类结果图中的像素点，作为初始种子点，加入集合C_i中，将对应色彩中心(μ_i(r),μ_i(g),μ_i(b))，作为初始的色彩中心，其中，i表示第i个色彩层；

步骤B2：获取所有初始种子点的8邻域像素点，对于不在集合C_i中的邻域像素点，计算其RGB色彩值((p(r),p(g),p(b)))与色彩中心的距离，计算公式如下：

D_{c} = \sqrt{{(p (r) - μ_{i}^{t} (r))}^{2} + {(p (g) - μ_{i}^{t} (g))}^{2} + {(p (b) - μ_{i}^{t} (b))}^{2}}

其中，t表示第t次迭代，第t次迭代色彩层C_i的色彩中心；

步骤C2：将满足条件D_c<48的邻域像素点加入集合C_i，按照下面的公式，更新色彩中心，完成此步区域生长：

μ_{i}^{t + 1} (r) = \frac{1}{N} Σ_{j = 1}^{N} x_{j}^{r}, μ_{i}^{t + 1} (g) = \frac{1}{N} Σ_{j = 1}^{N} x_{j}^{g}, μ_{i}^{t + 1} (b) = \frac{1}{N} Σ_{j = 1}^{N} x_{j}^{b}

步骤D2：将上步骤中得到区域生长结果图中的像素点，作为新的种子点，重复步骤B2-C2，直到没有满足条件的像素点加入C_i，得到该色彩层最终的区域生长结果；

步骤E2：对于所有色彩聚类结果图，分别进行步骤A2-D2所述区域生长过程，得到对应图像的区域生长结果图，用于提取字符连通域。

有益效果

本发明提出了一种基于线性结构提取的文本检测方法，将文本连通区域看作是不同形状的线性结构的组合；通过提取线性结构，粗略定位文本区域；然后通过色彩聚类和基于色彩距离的区域生长，从初始文本区域中得到完整的文本连通域。进一步分析连通区域的几何和空间位置特征，得到候选文本字符串。最后，用训练好的卷积神经网络，计算候选字符串的得分，保留满足条件的字符串，得到最终文本检测结果。其中，线性结构的提取采用多尺度Hessian矩阵滤波方法，分别对原始彩色图像的R、G和B三个通道上操作，使得本方法在一定程度上，克服光照对图像的影响；通过高斯混合模型色彩聚类和基于色彩距离的区域生长，两步色彩分析方法，使得本方法对不同大小、笔画宽度文本的检测性都较好，进一步提高本方法的鲁棒性；通过设定的字符合并规则，将候选邻域字符与文本字符串中字符性质的均值相比较，进行字符合并，在一定程度上能克服字符性质突变带来的影响。

附图说明

图1为本发明所述方法的流程示意图；

图2为待检测的图像及对应的色彩通道图像，其中，(a)为待检测的彩色图像，(b)为R色彩通道图像，(b)为G色彩通道图像，(c)为B色彩通道图像；

图3为线性结构增强图像，其中，(a)为图2(b)的较暗线性结构增强结果图，(b)为图2(b)的较亮线性结构增强结果图，(c)为图2(c)的较暗线性结构增强结果图，(d)为图2(c)的较亮线性结构增强结果图，(e)为图2(d)的较暗线性结构增强结果图，(f)为图2(d)的较亮线性结构增强结果图；

图4为线性结构定位图，其中，(a)为图3(a)对应的线性结构定位图，(b)为图3(b)对应的线性结构定位图，(c)为图3(c)对应的线性结构定位图，(d)为图3(d)对应的线性结构定位图，(e)为图3(e)对应的线性结构定位图，(f)为图3(f)对应的线性结构定位图；

图5为线性结构定位合并图和对应的彩色图像，其中，(a)为I_r1为初始合并对象得到的最终合并结果，(b)为以I_r2为初始合并对象得到最终合并结果，(c)为图5(a)的彩色图像，(d)为图5(b)的彩色图像；

图6为色彩聚类结果图，其中，(a)、(b)及(c)分别为图5(c)的三个色彩聚类结果图像，(d)、(e)及(f)分别为图5(d)的三个色彩聚类结果图像；

图7为对色彩聚类结果图的区域生长结果图，其中，(a)、(b)、(c)、(d)、(e)及(f)分别为对图6(a)、(b)、(c)、(d)、(e)及(f)进行区域生长得到的结果图；

图8为相邻字符对性质比较示意图；

图9为字符合并过程示意图，其中，数字标号1、2、3及4依次表示蓝色、红色、绿色及黄色标记区域，(a)红色标记区域表示获取图像第一个连通域，蓝色标记区域表示获取标签比红色连通域大的候选连通域；(b)图中绿色标记区域表示图9(a)蓝色标记区域候选连通域中，满足字符合并条件的连通域；(c)图中黄色标记区域表示第一步字符合并结果；(d)图中红色标记区域表示新的起始连通域，蓝色标记区域表示标签比红色连通域大的候选连通域；(e)图中绿色标记区域表示图9(d)蓝色标记区域候选连通域中，满足字符合并条件的连通域；(f)图中黄色标记区域表示第二步字符合并结果；(g)图中表示第一个字符串合并结果；(h)表示第二个字符串合并结果；(i)表示字符合并最终结果图；

图10为最终检测结果示意图。

具体实施方式

下面将结合附图和实施例对本发明做进一步的说明。

如图1所示，为本发明所述方法的流程示意图，以对图2(a)进行文本检测为例，具体步骤如下：

步骤1，输入原始彩色图像，如图2(a)所示，获取其R、G和B色彩通道，如图2(b-d)所示；

步骤2，分别计算不同色彩通道中每个像素点的Hessian矩阵变换结果：

H (x, y) = | \begin{matrix} \frac{{&PartialD;}^{2} I}{{&PartialD;}^{2} x^{2}} (x, y) & \frac{{&PartialD;}^{2} I}{&PartialD; x &PartialD; y} (x, y) \\ \frac{{&PartialD;}^{2} I}{&PartialD; y &PartialD; x} (x, y) & \frac{{&PartialD;}^{2} I}{{&PartialD;}^{2} y^{2}} (x, y) \end{matrix} | - - - (1)

其中，图像I表示某一色彩通道的灰度图像，H(x,y)表示像素点(x,y)的Hessian矩阵变换结果；

步骤3，使用尺度为δ(δ∈[1,4]，步长为1)的高斯核函数，对Hessian矩阵变换结果进行卷积操作，并计算特征值λ₁和λ₂(|λ₂|≤|λ₁|)。由于场景图像中文本与背景的灰度值没有固定的大小关系，有的图像中，文本比背景亮，有的图像中，文本比背景暗。因此，对每个色彩通道得到的Hessian矩阵变换结果，分别用公式(2)滤波得到较亮的像素点和公式(3)滤波

得到较暗的像素点。

F_{δ}^{1} (x, y) = \{\begin{matrix} 0, & if & λ_{2} > 0 \\ e^{- \frac{R_{B}^{2}}{{2 β}^{2}}} (1 - e^{- \frac{S^{2}}{{2 c}^{2}}}), & otherwise \end{matrix} - - - (2)

F_{δ}^{2} (x, y) = \{\begin{matrix} 0, & if & λ_{2} > 0 \\ e^{- \frac{R_{B}^{2}}{{2 β}^{2}}} (1 - e^{- \frac{S^{2}}{{2 c}^{2}}}), & otherwise \end{matrix} - - - (3)

其中，R_B＝λ₁/λ₂，c＝max{S}/2,β是常量。

因此，对某个色彩通道得到的Hessian矩阵变换图，分别用公式(2)和(3)，计算得到较亮和较暗的像素点滤波结果，得到两幅滤波图像；

步骤4，对于某个像素点，将其在δ∈[1,4]的四个尺度下，分别滤波，得到四个较亮的滤波结果和四个较暗的滤波结果。

对于较亮滤波结果图像中的像素点，分别比较其在四个不同尺度下的响应，将响应最大的值作为该像素滤波的最终结果，得到多尺度Hessian滤波下的较亮线性结构增强结果。同理，对于较暗滤波结果图像中的像素点，做相同操作，得到较暗线性结构增强结果。

分别对RGB三个色彩通道进行上述操作，得到六幅线性结构增强图像。图3(a-b)分别是R色彩通道(图2(b)所示)较暗和较亮线性结构增强结果图；图3(c-d)分别是G色彩通道(图2(c)所示)较暗和较亮线性结构增强结果图；图3(e-f)分别是B色彩通道(图2(d)所示)较暗和较亮线性结构增强结果图；

步骤5，使用K均值聚类方法，以像素点的灰度值为特征，分别对六幅线性结构增强图像(图3(a-f)所示)中的像素点分两类，保留聚类中心较大的类，作为线性结构定位结果，如图4(a-f)所示。

步骤6，通过合并规则,如公式(4-7)所示，合并不同色彩通道得到六幅的线性结构定位结果，得到两幅最终线性结构图像；

M_{1}^{'} = \{\begin{matrix} I_{r 1} \cup I_{g 1}, & if & sum (I_{r 1} \cap I_{g 1}) > sum (I_{r 1} \cap I_{g 2}) \\ I_{r 1} \cup I_{g 1}, & otherwise \end{matrix} - - - - (4)

M_{1} = \{\begin{matrix} M_{1}^{'} \cup I_{b 1}, & if & sum (M_{1}^{'} \cap I_{b 1}) > sum (M_{1}^{'} \cap I_{b 2}) \\ M_{1}^{'} \cup I_{b 2}, & otherwise \end{matrix} - - - (5)

M_{2}^{'} = \{\begin{matrix} I_{r 2} \cup I_{g 2}, & if & sum (I_{r 2} \cap I_{g 2}) > sum (I_{r 2} \cap I_{g 1}) \\ I_{r 2} \cup I_{g 1}, & otherwise \end{matrix} - - - (6)

M_{2} = \{\begin{matrix} M_{2}^{'} \cup I_{b 2}, & if & sum (M_{2}^{'} \cap I_{b 2}) > sum (M_{2}^{'} \cap I_{b 1}) \\ M_{2}^{'} \cup I_{b 1}, & otherwise \end{matrix} - - - (7)

通过合并规则，将六幅线性结构定位结果图(图4(a-f)所示)，合并得到两幅图像，作为最终线性结构提取结果,如图5(a-b)所示；图5(c-d)为图5(a-b)对应的彩色图像。

步骤7，使用高斯混合模型，以像素点的RGB色彩值为特征，分别对两幅合并得到的线性结构图像中的像素点分3类，共得到6幅色彩聚类结果图像。进一步包括以下步骤：

所述步骤7.1的具体步骤如下：

P (x | μ, σ) = Σ_{i = 1}^{K} ω_{i} P_{i} (x | μ_{i}, σ_{i})

ω_{i}^{t + 1} = \frac{1}{N} Σ_{j = 1}^{K} P_{i} (x_{j} | μ_{i}^{t}, σ_{i}^{t})

μ_{i}^{t + 1} = \frac{Σ_{j = 1}^{N} P_{i} (x_{j} | μ_{i}^{t}, σ_{i}^{t}) x_{j}}{Σ_{j = 1}^{N} P_{i} (x_{j} | μ_{i}^{t}, σ_{i}^{t})}

σ_{i}^{t + 1} = \frac{Σ_{j = 1}^{N} P_{i} (x_{j} | μ_{i}^{t}, σ_{i}^{t}) {(x_{j} - μ_{i}^{t + 1})}^{2}}{Σ_{j = 1}^{N} P_{i} (x_{j} | μ_{i}^{t}, σ_{i}^{t})}

对图5(c-d)所示才线性结构结果图对应的彩色图像进行上述色彩分类，得到六幅色彩聚类结果图，如图6(a-f)所示。其中，图6(a-c)为图5(c)的三个色彩聚类结果图像，图6(d-f)为图5(d)的三个色彩聚类结果图像。

所述步骤7.2的具体过程如下：

D_{c} = \sqrt{{(p (r) - μ_{i}^{t} (r))}^{2} + {(p (g) - μ_{i}^{t} (g))}^{2} + {(p (b) - μ_{i}^{t} (b))}^{2}}

其中，t表示第t次迭代，第t次迭代色彩层C_i的色彩中心；

μ_{i}^{t + 1} (r) = \frac{1}{N} Σ_{j = 1}^{N} x_{j}^{r}, μ_{i}^{t + 1} (g) = \frac{1}{N} Σ_{j = 1}^{N} x_{j}^{g}, μ_{i}^{t + 1} (b) = \frac{1}{N} Σ_{j = 1}^{N} x_{j}^{b}

对图6(a-f)所示的六幅色彩聚类结果图像进行区域生长，得到结果如图7(a-f)所示。

步骤8：提取线性结构定位合并图中的连通域，将连通域合并，获得文本字符串；

从两幅线性结构定位合并图中分别提取连通区域，计算每个连通区域的几何和空间位置特征，利用相邻连通区域的垂直重复率和水平距离在设定范围内的连通区域进行合并，获得文本字符串及其所在图像中的位置；

所述连通区域的几何和空间位置特征包括连通区域的高度、笔画宽度。

所述连通域的合并过程，具体如下：

步骤8.1：对待进行字符合并的图像进行连通域搜索，获取每个连通域的最大外接矩形的高度h，并根据所述最大外接矩形几何中心水平坐标位置，按照从左到右、从上到下的顺序，依次采用标签标记连通域；

步骤8.2：利用现有的连通域笔画宽度计算方法，计算步骤6.1获得的连通域中每个像素点的笔画宽度，并将每个连通域中所有像素点的笔画宽度的平均值，作为该连通域的笔画宽度sw；

步骤8.3：将标签最小的连通域记为c_F，并加入文本字符串，标签大于c_F的标签的连通域记为候选邻域字符c_L，依次将c_F和每个c_L视为字符对，提取每对字符对的高度比R_h、笔画宽度比R_sw，垂直重复率R_vol和水平距离D，计算公式分别如下：

R_{h} = \frac{\max (h_{L}, h_{mean})}{\min (h_{L}, h_{mean})}

R_{sw} = \frac{\max ({sw}_{L}, {sw}_{mean})}{\min ({sw}_{L}, {sw}_{mean})}

R_{vol} = \frac{v_{FL}}{(h_{F} + h_{L}) / 2}

D = \frac{d_{FL}}{(h_{F} + h_{L}) / 2}

步骤8.3：将同时满足R_h≤T₁，R_sw≤T₂，R_vol≥T₃，D≤T₄四个条件的所有c_L加入文本字符串，其中，T₁、T₂、T₃和T₄分别表示字符对高度比、笔画宽度比、垂直重复率和水平距离的阈值，取值范围为T₁∈[1,2.5]，T₂∈[1,2.5]，T₃∈[0.5,1]，T₄∈[0,3]；

步骤8.4：将新加入的连通区域中标签最大的字符作为新的C_F，重复步骤6.3-6.5找到所有满足条件的连通区域，得到某一完整字符串；

步骤8.5：对六幅区域生长结果图，重复步骤6.1-6.5，找到所有文本字符串，得到最终的文本检测结果。

其中，连通区域几何和空间位置特征计算如图8所示，字符合并过程如图9(a-i)所示。图9(a-c)表示第一个字符串合并过程。其中，图9(a)表示将红色矩形区域中的连通字符作为初始的c_F，将蓝色区域中的连通字符作为候选邻域字符c_L；图9(b)表示选取满足条件R_h≤1.7；R_sw≤1.7；R_vol≥0.5；D≤2.5的邻域字符，用绿色矩形框标记；图9(c)表示将满足条件的邻域字符加入文本字符串，用黄色矩形框标记。图9(d)表示，将新加入的标签最大的连通区域作为新的c_F，用红色矩形框标记，并找出标签大于c_F的连通区域，用蓝色矩形框标记；图9(e)表示找出蓝色矩形框中，满足条件R_h≤1.7；R_sw≤1.7；R_vol≥0.5；D≤2.5的邻域字符，用绿色矩形框标记；图9(f)表示将满足条件的邻域字符加入文本字符串，用黄色矩形框标记。同理，找到所有满足条件的连通区域，得到最终文本字符串合并结果，如图9(g)所示。同理，找出候选文本图像中的其他文本字符串，如图9(h)所示。最终文本字符串检测结果如图9(i)所示。

步骤9，选取ICDAR2011数据库训练集中的图像作为训练样本，训练卷积神经网络，用训练好的网络，计算测试集中候选文本字符串的得分，保留得分大于1的文本字符串，得到最终检测结果。对图2(a)所示的自然场景文本图像的最终检测结果，如图10枚红色矩形标记区域所示。

为了说明本文算法的有效性，将本文算法与现有文本检测方法进行定量比较。采用2011年第11届国际文本分析与识别会提供的公共数据库和Wolf等人在国际文本分析杂志2006年第8期4卷，第280页到296页提出的评价标准，比较文本检测结果，如表1所示。表中，F系数＝2*(正确率*召回率)/(正确率+召回率)。表中列举的不同方法的文本检测结果，均来自2011年第11届国际文本分析与识别会论文集第1491-1496页中，文本检测方法结果统计。

从表1可以得出本发明所述方法(ours)在最终综合指标F系数上，均优于现有技术中的检测方法。

表1

Claims

1.一种基于线性结构提取的自然场景文本检测方法，其特征在于，该方法包括以下步骤：

F_{δ}^{1} (x, y) = \{\begin{matrix} 0, & \begin{matrix} if & λ_{2} > 0 \end{matrix} \\ e^{- \frac{R_{B}^{2}}{2 β^{2}}} (1 - e^{- \frac{S^{2}}{2 c^{2}}}), & otherwise \end{matrix}

F_{δ}^{2} (x, y) = \{\begin{matrix} 0, & \begin{matrix} if & λ_{2} < 0 \end{matrix} \\ e^{- \frac{R_{B}^{2}}{2 β^{2}}} (1 - e^{- \frac{S^{2}}{2 c^{2}}}), & otherwise \end{matrix}

步骤4：对线性结构进行定位；

2.根据权利要求1所述的一种基于线性结构提取的自然场景文本检测方法，其特征在于，所述步骤3中高斯核函数的尺度δ依次取值为1、2、3及4，从四个尺度中选取响应最大的滤波结果，从而得到每个色彩通道图像的较亮滤波增强图像和较暗滤波增强图像。

3.根据权利要求1所述的一种基于线性结构提取的自然场景文本检测方法，其特征在于，所述步骤6中连通域的合并过程，具体如下：

R_{h} = \frac{\max (h_{L}, h_{mean})}{\min (h_{L}, h_{mean})}

R_{sw} = \frac{\max ({sw}_{L}, {sw}_{mean})}{\min ({sw}_{L}, {sw}_{mean})}

R_{vol} = \frac{v_{FL}}{(h_{F} + h_{L}) / 2}

D = \frac{d_{FL}}{(h_{F} + h_{L}) / 2}

4.根据权利要求1-3任一项所述的一种基于线性结构提取的自然场景文本检测方法，其特征在于，对两幅线性结构定位图进行色彩分析获得更加完整的字符串，具体过程如下：

5.根据权利要求1所述的一种基于线性结构提取的自然场景文本检测方法，其特征在于，用训练好的卷积神经网络，对步骤6获得的文本字符串进行得分计算，保留满足设定条件的文本字符串，作为最终的检测结果。

6.根据权利要求1所述的一种基于线性结构提取的自然场景文本检测方法，其特征在于，所述步骤5的线性结构定位图的合并规则具体如下：

M_{1}^{'} = \{\begin{matrix} I_{r 1} \cup I_{g 1}, & \begin{matrix} if & sum (I_{r 1} \cap I_{g 1}) > sum (I_{r 1} \cap I_{g 2}) \end{matrix} \\ I_{r 1} \cup I_{g 1}, & otherwise \end{matrix}

M_{1} = \{\begin{matrix} M_{1}^{'} \cup I_{b 1}, & \begin{matrix} if & sum (M_{1}^{'} \cap I_{b 1}) > sum (M_{1}^{'} \cap I_{b 2}) \end{matrix} \\ M_{1}^{'} \cup I_{b 2}, & otherwise \end{matrix}

M_{2}^{'} = \{\begin{matrix} I_{r 2} \cup I_{g 2}, & \begin{matrix} if & sum (I_{r 2} \cap I_{g 2}) > sum (I_{r 2} \cap I_{g 1}) \end{matrix} \\ I_{r 2} \cup I_{g 1}, & otherwise \end{matrix}

M_{2} = \{\begin{matrix} M_{2}^{'} \cup I_{b 2}, & \begin{matrix} if & sum (M_{2}^{'} \cap I_{b 2}) > sum (M_{2}^{'} \cap I_{b 1}) \end{matrix} \\ M_{2}^{'} \cup I_{b 1}, & otherwise \end{matrix}

7.根据权利要求1所述的一种基于线性结构提取的自然场景文本检测方法，其特征在于，所述步骤5的线性结构定位图的合并是将三个色彩通道图像的较暗滤波图像对应的线性结构定位图合并，将三个色彩通道图像的较亮滤波图像对应的线性结构定位图合并。

8.根据权利要求1所述的一种基于线性结构提取的自然场景文本检测方法，其特征在于，所述步骤4中的对线性结构进行定位，是根据色彩通道图像的滤波图像中像素点的灰度值，使用K均值聚类方法，对像素点分类，得到线性结构定位结果图。

9.根据权利要求4所述的一种基于线性结构提取的自然场景文本检测方法，其特征在于，所述步骤7.1的具体步骤如下：

P (x | μ, σ) = Σ_{i = 1}^{K} ω_{i} P_{i} (x | μ_{i}, σ_{i})

ω_{i}^{t + 1} = \frac{1}{N} Σ_{j = 1}^{K} P_{i} (x_{j} | μ_{i}^{t}, σ_{i}^{t})

μ_{i}^{t + 1} = \frac{Σ_{j = 1}^{N} P_{i} (x_{j} | μ_{i}^{t}, σ_{i}^{t}) x_{j}}{Σ_{j = 1}^{N} P_{i} (x_{j} | μ_{i}^{t}, σ_{i}^{t})}

σ_{i}^{t + 1} = \frac{Σ_{j = 1}^{N} P_{i} (x_{j} | μ_{i}^{t}, σ_{i}^{t}) {(x_{j} - μ_{i}^{t + 1})}^{2}}{Σ_{j = 1}^{N} P_{i} (x_{j} | μ_{i}^{t}, σ_{i}^{t})}

10.根据权利要求9所述的一种基于线性结构提取的自然场景文本检测方法，其特征在于，所述步骤7.2的具体过程如下：

D_{c} = \sqrt{{(p (r) - μ_{i}^{t} (r))}^{2} + {(p (g) - μ_{i}^{t} (g))}^{2} + {(p (b) - μ_{i}^{t} (b))}^{2}}

其中，t表示第t次迭代，第t次迭代色彩层C_i的色彩中心；

μ_{i}^{t + 1} (r) = \frac{1}{N} Σ_{j = 1}^{N} x_{j}^{r}, μ_{i}^{t + 1} (g) = \frac{1}{N} Σ_{j = 1}^{N} x_{j}^{g}, μ_{i}^{t + 1} (b) = \frac{1}{N} Σ_{j = 1}^{N} x_{j}^{b}