CN1312625C

CN1312625C - 基于游程邻接图的复杂背景彩色图像中字符提取方法

Info

Publication number: CN1312625C
Application number: CNB2004100622612A
Authority: CN
Inventors: 刘长松; 丁晓青; 陈又新; 彭良瑞; 方驰
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2004-07-02
Filing date: 2004-07-02
Publication date: 2007-04-25
Anticipated expiration: 2024-07-02
Also published as: CN1588431A

Abstract

基于游程邻接图的复杂背景彩色图像中字符提取方法，属于彩色图像文字识别预处理中的文字字符提取领域。在得到数字彩色图像之后，首先使用CRAG(color run-length adjacencygraph)区域生长算法得到图像的所有彩色连通域，再通过对这些连通域的颜色平均值进行颜色聚类，得到若干个颜色中心，以此颜色中心形成不同的颜色层面，然后将符合连通域判别规则的彩色连通域分到若干个颜色层面上。最后通过特征分析和大小一致性判据从颜色层面中挑选出文字字符图像层面，获得在文字图像层面的字符图像。该算法解决了彩色文字字符笔画图像渐变的字符图像提取问题，并具有较高的提取速度，具有较高的提取准确率，同时保留了文字和背景图像的原始色彩，便于将来的图像恢复。

Description

基于游程邻接图的复杂背景彩色图像中字符提取方法

技术领域

基于游程邻接图的复杂背景彩色图像中字符提取方法既属于图像分割领域，又属于文字识别的预处理领域。

背景技术

从具有复杂彩色图像中提取文字字符，已经成为彩色印刷体文档识别系统中的既困难又关键的步骤。在彩色印刷文本图像中和照片图像中往往存在着大量的文字，这些文字符包含了很多有用的信息。为了提取这些有用信息，首先需要从复杂的彩色图像中自动而精确的提取这些有用的字符图像，才能予以识别处理。目前流行的OCR系统尚不能解决这种在复杂彩色图像中文字的提取问题。

彩色文档中文字字符的提取方法大致可以分为两类：第一类是不考虑彩色印刷文档中特有的彩色信息，而直接将其扫描转为灰度图像，后进行二值化分割。这一类方法丢失了文档图像的彩色信息，已经不适用于从复杂的彩色图像中提取文字字符前景图像。第二类方法是先利用颜色信息得到图像的连通域，而后分析得到字符层面。由于这一类方法较之第一类更多地考虑了彩色印刷文档图像的颜色信息，所以在处理具有复杂背景的彩色文本图像时具有明显的优越性，因而这一类方法已经逐渐成为现在研究的热点。

目前，在第二类方法中大致分为大致又可以分为三类：

1)边缘分析：在图像中的颜色突变处抽取边缘，并通过分析边缘来抽取不同的颜色层面。

对于背景条纹干扰等复杂现象，采用边缘分析时将产生大量的边缘断裂和交叉的情况，给颜色层面的分割带来很大的困难。

2)区域生长：根据颜色一致性准则进行区域生长、合并，分割不同的颜色层面

3)聚类分析：抽取图像中每一个象素点的颜色特征矢量，并在选定的颜色空间上对这些特征进行聚类分析，根据聚类的结果来分割颜色层面。通过分析发现直接聚类对于背景变化大的图像会产生过多的聚类中心，如果采用模糊C均值聚类，在平滑过程中会使所占象素数较少的中心丢失，这样会引起小字的丢失，并且由于损失边缘过渡颜色信息，会造成笔画过多的断裂。

边缘分析和聚类分析的方法没有充分的利用彩色图像特有的颜色和位置的相关信息，因而都不能很好的从彩色图像中提取文字字符。

传统的区域生长算法采用的生长准则造成了过量的计算消耗，但是区域生长算法恰恰是考虑到彩色图像中的颜色和位置的相关信息，有效的避免了颜色聚类法忽视位置信息的缺陷，同时可以通过改进生长准则来减少计算量。

本发明就是通过采用新的区域生长算法CRAG(Color Run-length Adjacency Graph)，从图像中搜索得到彩色连通域，而后将这些连通域的平均颜色进行颜色聚类，根据得到的颜色中心生成不同的色彩层面。最后根据特定的判别准则得到所需要的可能的文字层面。这种方法有以下优点：

1)算法简单，计算速度快；

2)以连通域为单位的颜色聚类使文字更容易被分出来；

3)能自动处理反白文字；

4)可以提取图像中由于字符本身，或者由于光照而造成颜色渐变的字符；

5)保留字符颜色信息。

本发明就是通过利用相邻象素的彩色和位置信息，同彩色聚类相结合作为主要的突破口，实现了高速度高准确性高性能的字符提取算法，同时也是一种图像分割算法。这是目前所有其他文献里都没有使用的方法。

发明内容

本发明的目的在于实现基于CRAG结构区域生长算法的复杂彩色图像中文字字符提取的方法，该方法也可以应用于彩色图像分割领域。在BAG结构的基础上提出了新的彩色空间内的CRAG结构，并以此为基础，提出了一种新的区域生长算法。最后，以该生长算法为核心建立了一种彩色文档图像中文字字符的提取方法(下面中所指的CRAG方法即为此方法)。

需要说明的是本发明的方法适用于其他任何彩色空间，只需要将下文中的r(红)，g(绿)，b(蓝)三种颜色分量分别对应于其他彩色空间的三个基本分量即可，方法中涉及到的阈值根据选取的色彩空间不同而有所不同。本发明采用的聚类方法不必仅局限于初始聚类方法，也可以采用其他聚类方法。

本发明有以下4部分组成：彩色图像分割，连通域中心颜色聚类，图像层面生成与字符层选取。

1彩色图像分割

采用的是基于CRAG结构的彩色连通域搜索算法，属于区域生长算法。这里简称为CRAG算法。

该算法的思路与二值图像上连通域轮廓提取的BAG(block adjacency graph)算法相近。CRAG算法可以理解成两个步骤，首先获取水平方向彩色游程，然后把相邻的颜色相近的彩色游程不断合并，得到彩色连通域。下面以RGB空间为例进行说明：

彩色游程表示如下：R_p{(r_p，g_p，b_p)，(x_p，y_p)，f_p}，其中(r_p，g_p，b_p)是游程上各点在RGB彩色空间的r，g，b颜色分量平均值，(x_p，y_p)为该游程的起始坐标，f_p为游程的长度。

产生方法如下：从每一行的第一个象素开始，认为该象素为一个新的游程的起始点，计算该起始点和同一行中与它紧邻的象素在RGB空间内的欧氏距离o_pq，

o_{pq} = \sqrt{{(r_{q} - r_{p})}^{2} + {(g_{q} - g_{p})}^{2} + {(b_{q} - b_{p})}^{2}} .

If(o_pq＜TD)

{

r_{p} = \frac{(r_{p} \times f_{p} + r_{q})}{f_{p} + 1};

g_{p} = \frac{(g_{p} \times f_{p} + g_{q})}{f_{p} + 1};

b_{p} = \frac{(b_{p} \times f_{p} + b_{q})}{f_{p} + 1};

f_p＝f_p+1；}

Else{p＝p+1；r_p＝r_q；g_p＝g_q；b_p＝b_q；} (1-1)

根据(1-1)可知：如果o_pq小于阈值TD，那么这两个象素合并为一个游程，并重新计算该游程的平均r，g，b值：r_p，g_p，b_p，反之，第二个象素便成为新游程的起始点。继续计算其与下一个相邻象素的欧氏距离，如果仍小于TD，就将该象素加入该游程，并重新计算它的r，g，b值，否则，以该象素点为下一个新游程起始点。根据上述规则，可以这样遍历图像每一行中的所有象素得到若干个彩色游程。

另外从图像的第二行开始，在得到一个彩色游程以后，计算该游程与上一相邻行在位置上是4邻域相连的彩色游程在RGB空间的欧氏距离o_pp′：

O_{pp'} = \sqrt{{(r_{p'} - r_{p})}^{2} + {(g_{p'} - g_{p})}^{2} + {(b_{p'} - b_{p})}^{2}}

判断该距离是否小于TV，若小于则合并为同一个连通域，即连接这两个游程；反之，作为新连通域的起始游程。TD和TV在12～16之间取值。

如图6所示：图中每一个方格代表一个象素，对于象素“5”来讲，“2，4，6，8”四个相邻的象素所在的位置与它4邻域相连。对于两个相邻行的不同游程而言，如果它们各自包含的象素彼此之间的相对位置中有符合图6所示的4邻域相连位置的情况，那么称这两个游程之间4邻域相连。

按照上述规则，遍历完整幅图像后，根据游程之间的连接关系便可以得到组成图像的所有连通域的集合{C_n|n＝1，2，...，K}。

连通域的结构定义如下：

C_n{(r_n，g_n，b_n)，X_n，(v_n，h_n)}。(r_n，g_n，b_n)表示的是连通域C_n的平均颜色r，g，b值，

r_{n} = Σ_{u = 1}^{m_{n}} (r_{p_{u}} \times f_{p_{u}}) / Σ_{u = 1}^{m_{n}} f_{p_{u}} - - - (1 - 2)

g_{n} = Σ_{u = 1}^{m_{n}} (g_{p_{u}} \times f_{p_{u}}) / Σ_{u = 1}^{m_{n}} f_{p_{u}} - - - (1 - 3)

b_{n} = Σ_{u = 1}^{m_{n}} (b_{p_{u}} \times f_{p_{u}}) / Σ_{u = 1}^{m_{n}} f_{p_{u}} - - - (1 - 4)

X_n＝{R_pu|u＝1，2...m_n}表示该连通域内包含的所有彩色游程的集合。通过简单计算很容易得到连通域的高v_n和宽h_n。从而，一幅图像可以用所有得到的连通域描述。

2连通域彩色聚类步骤分析

任意选取一个连通域的颜色作为初始中心，计算其它连通域与其在RGB彩色空间的欧氏距离o_cn：

o_{cn} = \sqrt{{(r_{n} - r_{c})}^{2} + {(g_{n} - g_{c})}^{2} + {(b_{n} - b_{c})}^{2}}

若小于阈值TC，将其聚类，重新计算r，g，b的均值作为聚类的中心颜色值，若大于TC，则生成第二个新的中心，按照该方法计算所有样本，由于颜色中心位置不断变化，同时需要合并中心距离小于TC的颜色中心，最终可以得到适当数目的颜色聚类中心。

有些特殊的连通域不可能是文字块，预先作了一个筛选，参与聚类连通域样本的选取准则如下：

1)Hmin＜h_n＜Hmax，Vmin＜v_n＜Vmax；

2)H_Vmin＜h_n/v_n＜H_Vmax，或者V_Hmin＜v_n/h_n＜V_Hmax；

3)

Q_{2} > (Σ_{u = 1}^{m_{n}} f_{p_{u}} / h_{n} \times v_{n}) > Q_{1},

这里

(Σ_{u = 1}^{m_{n}} f_{p_{u}} / h_{n} \times v_{n})

表示连通域的象素密度。

上式中h_n和v_n分别指代的是所得彩色连通域的高和宽，m_n表示第n个连通域内的彩色游程数，f_pu表示第p_u个游程的游程长度。

1)中，由于测试图像中的字符笔画高度和宽度分别大都是小于图像高H和宽V，所谓高，即指图像的纵向象素数目，宽指图像的横向象素数目。这里设定待选连通域最大高宽分别为：Hmax＝min(H，400)，Vmax＝min(V，400)，这是由于目前彩色印刷文档中的文字字符的字号大都小于120磅，而在300dpi扫描分辨率的情况下录入的彩色图像中，该字符笔画的最大高宽均小于400个象素长，同时，考虑到文本区域图像实际的高宽。Hmin和Vmin分别为参与颜色聚类的连通域样本的最小高宽，通过实验可知如果该值取得过大会降低小字体的招回率，因而为了使本发明具有广泛的通用性这里取值为3，这样既可以除去大量噪声点的干扰，又很好的保留了标点符号的图像。

2)中的H_Vmin和H_Vmax分别指的是连通域的高度与宽度比值的最小和最大值，同样，V_Hmin和V_Hmax指的是宽高比的最小和最大值。在这里根据笔画的特点，最小值为1，最大值为50即可。

3)中如果Q₁＝0.3，Q₂＝0.8，部分由图像的边框和其他狭长的细线边缘的影响将被排除，需要说明的是Q₁和Q₂仍可以在设定值的±0.2左右变化，即Q₁可以在0.1～0.5范围内取值，Q₂的取值范围可以是0.6～1。

另外，刚提到的阈值TC可以在20-50之间取值，但TC较小的时候，会造成层面过多，因而，采用TC＝45，减少了图像层面的生成，降低计算消耗，这对于从彩色图像中提取文字字符是一个很好的选择，可以有效的去干扰噪声点。

以上这些参量的设定范围的不同，会造成聚类所用的连通域数目变化，同时也会改变生成的颜色中心数目的不同。如果限定的过窄，虽然能降低计算量，提高速度，但是对某些个别背景和前景过于颜色接近的会造成粘连；如果太宽，会造成生成的颜色中心过多，增加计算量。因而，通过实验发现：如果在上面所提到的参数范围内选值，可以取得很好的文字字符提取结果。并且，通过这些条件的限制，进一步降低了初始聚类的运算量，同时也一定程度的去处了部分噪声颜色中心。

3图像层面的生成

将所有高或宽分别小于文本区域图像的高或宽的连通域都与颜色中心比较，如果连通域的平均颜色值和颜色中心的欧氏距离小于TC，便将满足这个条件的连通域放在一个图像层面上，从而可以得到多个层面，这样文字字符图像便可能会存在一个或多个层上。另外如果存在高和宽分别等于文本区域图像高和宽的连通域，则把该连通域所在的层面定为背景层面。(为了便于后续切分识别工作，这里已将生成的层面全部转为白底黑字的图像。)然后，通过如下准则先排除部分非文字字符图层：

1)每一个文字层的象素数要超过200个，否则定为噪声层；

2)如果连通域C的高和宽和测试图像大小大体相当，那么将C的中心颜色作为背景色，它所在层面为背景层面；

如果通过1)，2)的筛选后，如果剩下的层面数大于L个的时候，这里假定前景色不多于L个，便取层面中所包含黑色象素总数排在前L+2个的层面。前景指的是整幅图像中所包含的文字字符图像，前景色指的是这些文字字符图像的大致颜色，图像中除了文字字符图像以外的部分都称为背景。

这里，L可以根据实际情况选取，本发明的一般取L＝4，在这个范围内取值可以有效的进一步减少备选字符层中的噪声或背景层面，避免字符层的丢失。通过删除噪声层，背景层等上述选取准则以后，剩下的层中将被认为有可能包含文字字符的图像层。

4字符层面的选择

假定图像的垂直方向上的高度为H，水平方向上的宽度为V。颜色分层后得到K个层面，对于层面i(1≤i≤K)，分别作水平和垂直方向的投影，可以得到水平方向投影宽度的u_il(0≤l＜N_i)和垂直方向的投影宽度w_ij(0≤j＜M_i)，i为图像层面的序号，l代表水平方向投影宽度的序号，j代表垂直方向投影宽度的序号，为了消除小噪声的干扰，每一个坐标位置上的对应的投影黑色象素数目必须超过5个。同时，仅统计两个方向上投影宽度超过10个象素宽的投影个数N_i和M_i，即N_i和M_i分别为在两个方向上得到的符合要求的投影宽度的总数。水平方向上相邻两个投影宽度之间的距离为水平投影间隔宽度e_is(0≤s＜Z_i)，垂直方向上相邻两个投影宽度之间的距离为垂直投影间隔宽度d_it(0≤t＜Y_i)，Z_i和Y_i分别为在两个方向上得到的投影间隔宽度的总数。根据得到的以上结果，可以计算得出层面i上投影宽度的平均值：

水平方向投影的平均宽度

Avg H_{i} = \frac{1}{N_{i}} Σ_{l = 0}^{N_{i} - 1} u_{il;}

垂直方向投影的平均宽度

Avg W_{i} = \frac{1}{M_{i}} Σ_{j = 0}^{M_{i} - 1} w_{ij} .

层面i上投影间隔宽度的平均值：

水平方向投影间隔的平均宽度

Avg E_{i} = \frac{1}{Z_{i}} Σ_{s = 0}^{Z_{i} - 1} e_{is};

垂直方向投影的平均宽度

Avg D_{i} = \frac{1}{Y_{i}} Σ_{t = 0}^{Y_{i} - 1} d_{it} .

计算得到该层面水平投影宽度的方差为

Var H_{i} = \sqrt{Σ_{l = 0}^{N_{i} - 1} {(u_{il} - Avg H_{i})}^{2} / N_{i}},

垂直投影宽度的方差为

Var W_{i} = \sqrt{Σ_{j = 0}^{M_{i} - 1} {(w_{ij} - Avg W_{i})}^{2} / M_{i}};

该层面的水平投影间隔宽度的方差

Var E_{i} = \sqrt{Σ_{s = 0}^{Z_{i} - 1} {(e_{is} - Avg E_{i})}^{2} / Z_{i}},

垂直投影间隔宽度的方差

Var D_{i} = \sqrt{Σ_{t = 0}^{Y_{l} - 1} {(d_{it} - Avg D_{i})}^{2} / Y_{i}};

通过分析文字字符连通域的特征可以发现，文字字符图像连通域的大小基本一致，分布比较均匀，根据这些物理特性，可以定义图层的大小一致性判据p_i如下(1≤i≤K)：

p_{i} = \frac{\min (Avg H_{i} / Avg W_{i}, Avg W_{i} / Avg H_{i}) \times H \times V}{(1 + | \max (N_{i}, M_{i}) - \max (H / V, V / H) | / 2) \times (1 + \max (Var E_{i}, Var D_{i})) \times (1 + \max (Var H_{i}, Var W_{i}))}

max()和min()分别代表括号中两个数值的最大和最小值。

计算各个图层的大小一致性判据p_i，并按数值大小排序，最大的即为最可能的文字字符层面。实验结果也表明，通过大小一致性判别准则，可以在一定范围的满足了系统对自动判别文字层面的要求，同时可以为系统提供备选层面的排列顺序，便于后续的处理工作。

本发明的特征在于：它依次包含以下步骤：

(1)通过图像采集设备把彩色印刷文档或照片图像扫描入图像处理器中；

(2)在上述图像处理器中设定：

图像的高和宽分别用符号H和V表示；

图像中每一行象素与同一行和它紧邻的彩色游程再RGB空间内的欧氏距离o_pq的阈值为TD；

从图像的第二行开始算起，该彩色游程与上一相邻行在位置上是4邻域相连的彩色游程在RGB空间的欧氏距离o_pp＇的阈值是TV，选取TD＝TV＝12～16。

连通域的初始中心与组成图像所有连通域的集合中的其他连通域在RGB彩色空间的欧氏距离o_cn的阈值TC，选取TC＝20～50；

待选连通域最大高度Hmax＝min(H，400)，象素数；

待选连通域最大宽度Vmax＝min(V，400)，象素数；

待选连通域最小高度Hmin＝3，象素数；

待选连通域最小宽度Vmin＝3，象素数；

待选连通域的高宽比或宽高比的最小值为1，最大值为50；

各连通域的象素密度用

(Σ_{u = 1}^{m_{n}} f_{p_{u}} / h_{n} \times v_{n})

表示，h_n和v_n分别指代的是所得彩色连通域的高和宽，m_n表示第n个连通域内的彩色游程数，f_pu表示第p_u个游程的游程长度，设定：

Q_{2} > (Σ_{u = 1}^{m_{n}} f_{p_{u}} / h_{n} \times v_{n}) > Q_{1},

Q₁＝0.1～0.5，Q₂＝0.6～1；

在连通域彩色聚类过程中的阈值TC＝20～50；

在选取得到的备选彩色层面数K≤L+2，L＝4。

(3)分割彩色图像，获取彩色连通域，即一幅图像用连通域集合来描述。

(3.1)从每一行的第一个象素开始，认为该象素为一个新的游程的起始点，计算该起始点和同一行中与它紧邻的象素在RGB空间内的欧氏距离o_pq，其中所述的彩色游程表示如下：R_p{(r_p，g_p，b_p)，(x_p，y_p)，f_p}，r_p，g_p，b_p是游程上各点在RGB彩色空间的r，g，b颜色分量平均值，(x_p，y_p)为该游程的起始坐标，f_p为游程的长度：

o_{pq} = \sqrt{{(r_{q} - r_{p})}^{2} + {(g_{q} - g_{p})}^{2} + {(b_{q} - b_{p})}^{2}} .

若o_pq＜TD，则把两个象素合并成为一个游程，并计算该游程的平均r，g，b值，即r_p，g_p，b_p：

r_{p} = \frac{(r_{p} \times f_{p} + r_{q})}{f_{p} + 1};

g_{p} = \frac{(g_{p} \times f_{p} + g_{q})}{f_{p} + 1};

b_{p} = \frac{(b_{p} \times f_{p} + b_{q})}{f_{p} + 1};

游程的长度增1：f_p＝f_p+1；

反之，第二个象素便成为新游程的起始点，继续计算其与下一个相邻象素的欧氏距离，如果仍小于TD，就将该象素加入该游程，并重新计算它的r，g，b值，否则，以该象素点为下一个新游程起始点。根据上述规则，可以这样遍历图像每一行中的所有象素得到若干个彩色游程。

(3.2)从图像的第二行开始得到彩色游程后，计算该游程与上一相邻行在位置上是4邻域相连的彩色游程在RGB空间的欧氏距离o_pp′：

o_{{pp}^{'}} = \sqrt{{(r_{p^{'}} - r_{p})}^{2} + {(g_{p^{'}} - g_{p})}^{2} + {(b_{p^{'}} - b_{p})}^{2}}

判断该距离是否小于TV，若小于则合并为同一个连通域，即连接这两个游程；反之，作为新连通域的起始游程。以这种方式遍历完整幅图像后，根据游程之间的连接关系便可以得到组成图像的所有连通域的集合{C_n|n＝1，2，...，K}。

所述连通域用下列结构式表示：

r_{n} = Σ_{u = 1}^{m_{n}} (r_{p_{u}} \times f_{p_{u}}) / Σ_{u = 1}^{m_{n}} f_{p_{u}} - - - (1 - 2)

g_{n} = Σ_{u = 1}^{m_{n}} (g_{p_{u}} \times f_{p_{u}}) / Σ_{u = 1}^{m_{n}} f_{p_{u}} - - - (1 - 3)

b_{n} = Σ_{u &NotEqual; 1}^{m_{n}} (b_{p_{u}} \times f_{p_{u}}) / Σ_{u = 1}^{m_{n}} f_{p_{u}} - - - (1 - 4)

X_n＝{R_pu|u＝1，2...m_n}表示该连通域内包含的所有彩色游程的集合。通过简单计算很容易得到连通域的高v_n和宽h_n。

(4)对连通域进行彩色聚类，以得到适当数目的颜色聚类中心。

同时按以下三个准则选取参与彩色聚类的连通域样本：

1)Hmin＜h_n＜Hmax，Vmin＜v_n＜Vmax，即参与彩色聚类的连通域的高度和宽度都要在上述设定范围内；

2)H_Vmin＜h_n/v_n＜H_Vmax，或者V_Hmin＜v_n/h_n＜V_Hmax，其中的H_Vmin和H_Vmax分别指的是连通域的高度与宽度比值的最小和最大值，同样，V_Hmin和V_Hmax指的是宽高比的最小和最大值。

3)

Q_{2} > (Σ_{u = 1}^{m_{n}} f_{p_{u}} / h_{n} \times v_{n}) > Q_{1},

即连通域的象素密度在Q₁和Q₂之间。

(5)形成图像层面，并从中删除噪声层和明显的背景层，并得到有可能包含文字的图像层。

(5.1)形成图像层面

把所有高或宽分别小于文本区域图像的高或宽的连通域都与颜色中心比较，如果连通域的平均颜色值和颜色中心的欧氏距离小于TC，便将满足这个条件的连通域放在一个图像层面上，从而可以得到多个层面，同时把它们全部转为白底黑字的图像；

(5.2)按照以下准则依次排除非文字字符层

1)当每一个文字层的象素数少于200个，定为噪声层，予以排除；

2)如果连通域的高和宽和测试图像大小相当，就把该连通域的中心颜色作为背景色，它所在层面为背景层面；

(5.3)在前景色不多于L个的条件下，若剩下图像层面数大于L个时，便选取层面中所包含黑色象素总数排在前L+2个的层面，作为可能存在文字字符图像的层面，按以下步骤处理。前景指的是整幅图像中所包含的文字字符图像，前景色指的是这些文字字符图像的大致颜色，图像中除了文字字符图像以外的部分都称为背景。

(6)根据一致性判据公式计算得到的步骤(5.3)所得的可能的文字字符图像层的一致性判决值P_i，(1≤i≤K)，K为上述层面数，进行排序，其pi值最大的层面即为最可能的文字字符层面。

(6.1)对于所述K个层面分别作为水平和垂直方向的投影，可以得到水平方向投影宽度的u_il(0≤l＜N_i)和垂直方向的投影宽度w_ij(0≤j＜M_i)，i为图像层面的序号，l代表水平方向投影宽度的序号，j代表垂直方向投影宽度的序号，为了消除小噪声的干扰，每一个坐标位置上的对应的投影黑色象素数目必须超过5个。同时，仅统计两个方向上投影宽度超过10个象素宽的投影个数N_i和M_i，即N_i和M_i分别为在两个方向上得到的符合要求的投影宽度的总数。水平方向上相邻两个投影宽度之间的距离为水平投影间隔宽度e_is(0≤s＜Z_i)，垂直方向上相邻两个投影宽度之间的距离为垂直投影间隔宽度d_it(0≤t＜Y_i)，Z_i和Y_i分别为在两个方向上得到的投影间隔宽度的总数。

(6.2)计算以下各值：

水平方向投影的平均宽度

Avg H_{i} = \frac{1}{N_{i}} Σ_{l = 0}^{N_{i} - 1} u_{il},

垂直方向投影的平均宽度

Avg W_{i} = \frac{1}{M_{i}} Σ_{j = 0}^{M_{i} - 1} w_{ij},

水平方向投影间隔的平均宽度

Avg E_{i} = \frac{1}{Z_{i}} Σ_{s = 0}^{Z_{i} - 1} e_{is},

垂直方向投影的平均宽度

Avg D_{i} = \frac{1}{Y_{i}} Σ_{t = 0}^{Y_{i} - 1} d_{it},

水平投影宽度的方差为

Var H_{i} = \sqrt{Σ_{l = 0}^{N_{i} - 1} {(u_{il} - Avg H_{i})}^{2} / N_{i}},

垂直投影宽度的方差为

Var W_{i} = \sqrt{Σ_{j = 0}^{M_{i} - 1} {(w_{ij} - Avg W_{i})}^{2} / M_{i}},

水平投影间隔宽度的方差

Var E_{i} = \sqrt{Σ_{s = 0}^{Z_{i} - 1} {(e_{is} - Avg E_{i})}^{2} / Z_{i}},

垂直投影间隔宽度的方差

Var D_{i} = \sqrt{Σ_{t = 0}^{Y_{i} - 1} {(d_{it} - Avg D_{i})}^{2} / Y_{i}};

(6.3)在原文字区域图像内文字颜色单一，所含文字行或列的总数小于三个，且行或列方向上的文字近似在一条直线上，按下式计算一致性判据值p_i：

P_{i} = \frac{\min (Avg H_{i} / Avg W_{i}, Avg W_{i} / Avg H_{i}) \timesH \times V}{(1 + | \max (H_{i}, M_{i}) - \max (H / V, V / H) | / 2) \times (1 + \max (Var E_{i}, Var D_{i})) \times (1 + \max (Var H_{i}, Var W_{i}))}

i为层面数，i＝1，...，K；

对得到的P_i按大小排序，取其值最大的文字层面供文字字符切分与识别使用。

(7)本发明可以作用于其他任何彩色空间，只需要将下文中的r，g，b三种颜色分量分别对应于其他彩色空间的三个基本分量即可，方法中涉及到的阈值根据选取的色彩空间不同而有所不同。

本发明的实验效果表明，采用本发明处理包含文字的彩色图像可以得到很高的文字字符正确提取率：对于彩色杂志上标题文字字符的正确提取率为94.4％，对于彩色报纸上文字字符的正确提取率90.7％，彩色照片上文字字符的正确提取率95％，均高于采用现有的其他方法的文字字符的正确提取率。

附图说明

图1一个典型的字符提取系统的硬件构成。

图2基于CRAG的文字字符提取方法的流程图。

图3CRAG结构示意图：3a，，3b，3c，3d，3e，3f，3g。

图4多层面生成举例：4a为原始彩色图像，4b、4c、4d、4e、4f、4g、4h为生成的图像层面。

图5图层投影示意图：5a为垂直方向投影直方图，5b为垂直方向投影宽度示意图，5c为水平方向投影直方图，5d为水平方向投影宽度示意图。

图64邻域相连示意图。

具体实施方式

如图1所示，一个彩色图像中字符提取系统在硬件上有两个部分构成：图像采集设备和处理器。图像采集设备一般是扫描仪，数字摄像机或数字照相机，用来获取包含字符的数字图像。处理器一般是计算机或者某些具有运算处理能力的终端，用于对数字图像进行处理，并进行文字字符提取。

如图2所示的基于CRAG文字字符提取方法的流程图。首先通过扫描仪将彩色印刷文档等扫入，或者将数字照相或摄像机获得的彩色图像输入到处理器(计算机或其他终端处理设备)，这样得到含有文字字符的彩色图像。而后对这些包含字符的图像采用区域生长算法得到采用CRAG结构描述的彩色连通域，再加入连通域筛选准则，将筛选后连通域的平均颜色进行简单的颜色聚类，得到的不同的颜色中心，根据这些颜色中心可以生成不同的色彩图像层面，最后通过大小一致性判据得到待选的文字字符图像层面，即转变为所需的文字字符二值图像，送入后续的字符切分与识别模块处理。

分割图像获取连通域

将包含文字字符的彩色图像转变为数字图像输入计算机后，采用CRAG算法分解图像为多个连通域。该算法可以理解成两个步骤，首先获取水平方向彩色游程，然后把相邻的颜色相近的彩色游程不断合并，得到彩色连通域。

彩色游程表示如下：R_p{r_p，g_p，b_p)，(x_p，y_p)，f_p}，其中(r_p，g_p，b_p)是游程上各点在RGB彩色空间的r，g，b颜色分量平均值，(x_p，y_p)为该游程的起始坐标，f_p为游程的长度。

o_{pq} = \sqrt{{(r_{q} - r_{p})}^{2} + {(g_{q} - g_{p})}^{2} + {(b_{q} - b_{p})}^{2}} .

If(o_pq＜TD)

{

r_{p} = \frac{(r_{p} \times f_{p} + r_{q})}{f_{p} + 1};

g_{p} = \frac{(g_{p} \times f_{p} + g_{q})}{f_{p} + 1};

b_{p} = \frac{(b_{p} \times f_{p} + b_{q})}{f_{p} + 1};

f_p＝f_p+1；}

Else{p＝p+1；r_p＝r_q；g_p＝g_q；b_p＝b_q；} (1-1)

另外从图像的第二行开始，在得到一个彩色游程以后，计算该游程与上一相邻行在位置上是4邻域相连的彩色游程在RGB空间的欧氏距离o_pp′'：

o_{{pp}^{'}} = \sqrt{{(r_{p^{'}} - r_{p})}^{2} + {(g_{p^{'}} - g_{p})}^{2} + {(b_{p^{'}} - b_{p})}^{2}}

判断该距离是否小于TV，若小于则合并为同一个连通域，即连接这两个游程；反之，作为新连通域的起始游程。

连通域的结构定义如下：

C_n{(r_n，g_n，b_n)，X_n，(v_n，h_n}。(r_n，g_n，b_n)表示的是连通域C_n的平均颜色r，g，b值，

r_{n} = Σ_{u = 1}^{m_{n}} (r_{p_{u}} \times f_{p_{u}}) / Σ_{u = 1}^{m_{n}} f_{p_{u}} - - - (1 - 2)

g_{n} = Σ_{u = 1}^{m_{n}} (g_{p_{u}} \times f_{p_{u}}) / Σ_{u = 1}^{m_{n}} f_{p_{u}} - - - (1 - 3)

b_{n} = Σ_{u=1}^{m_{n}} (b_{p_{u}} \times f_{p_{u}}) / Σ_{u = 1}^{m_{n}} f_{p_{u}} - - - (1 - 4)

门限TD和TV是影响算法成功与否的重要参数，如果选得过小，会使字符分得比较碎，丧失了区域生长的意义，实质是损失了象素的位置信息，破坏了前景一致性的提取规则，同时增加了下一步连通域颜色聚类的运算量；如果取得过大，会使字符连通域与其它目标粘连。本发明这里采用经验参数，经实验验证当TD＝TV＝12～16这个范围的时候，可以得到很好的结果，如果超过这个范围，往往会造成很多的字符与背景粘连，即无法从相似的背景中提取字符。

如图3所示：背景为黄绿两色，前景字符为渐变色文字的彩色图像3a可以看成是由前景文字字符R的图像3b和背景图像3c组成，图3d表述组成字母R的连通域C₁的CRAG结构组成，图中若干矩形块用来表示该连通域所包含的彩色游程，各游程宽度为一个象素，彩色游程之间的折线表示连通域内这些颜色相近彩色游程之间存在的连接关系。同样背景图像3c可以用连通域C₂，C₃和C₄联合表述，这三个连通域依次对应图3中的图3e，3g和3f。假定忽略该图的边缘效应，采用CRAG算法便可以得到组成图像3a的连通域的集合{C_n|n＝1，2，...，K}，K＝3，h₁和v₁分别为C₁的高和宽，h₂和v₂则分别为C₂的高和宽。为了更好地说明本算法的特点，这里字符前景采用的是渐变颜色。H和V分别表示原始图像的高和宽。

颜色聚类

颜色是区分字符前景和背景的重要判据。为了人眼能够看清楚，字符本身的颜色一般与背景有相当大的差别。把颜色不同的区域分开到不同的图像层上，便于文字字符区域的获取，而对颜色聚类的步骤能够实现这样的目标。

得到连通域以后，根据前景特点采用特定的连通域筛选准则，将符合要求的连通域的平均颜色进行聚类，得到一些聚类中心，以每个聚类中心代表并构成一种颜色的层面。根据每个连通域的颜色离哪个聚类中心更近，把它分到相应颜色的层上。

一般聚类算法需要预先知道聚类中心的个数，而聚类中心的个数在本发明的应用中无法实现确定。另外，颜色差别大于预定值的连通域分到不同的层上。以便使文字的背景和前景分开。因而，在这里采用选择初始聚类中心的方法，聚类方法如下所述：

任意选取一个连通域的颜色作为初始中心，计算其它连通域与其在RGB彩色空间的欧氏距离，若小于阈值TC，将其聚类，重新计算r，g，b的均值作为聚类的中心颜色值，若大于TC，则生成第二个新的中心，按照该方法计算所有样本，由于颜色中心位置不断变化，同时需要合并中心距离小于TC的颜色中心，最终可以得到适当数目的颜色聚类中心。

1)Hmin＜h_n＜Hmax，Vmin＜v_n＜Vmax；

2)H_Vmin＜h_n/v_n＜H_Vmax，或者V_Hmin＜v_n/h_nV_Hmax；

3)

Q_{2} > (Σ_{u = 1}^{m_{n}} f_{p_{u}} / h_{n} \times v_{n}) > Q_{1},

这里

(Σ_{u = 1}^{m_{n}} f_{p_{u}} / h_{n} \times v_{n})

表示连通域的象素密度。

上式中h_n和v_n分别指代的是所得彩色连通域的高和宽。

以上这些参量的设定范围的不同，会造成聚类所用的连通域数目变化，同时也会改变生成的颜色中心数目的不同。如果限定的过窄，虽然能降低计算量，提高速度，但是对某些个别背景和前景过于颜色接近的会造成粘连；如果太宽，会造成生成的颜色中心过多，增加计算量。因而，通过实验发现：如果在上面所提到的参数范围内选值，可以取得很好的文字字符提取结果。并且，通过这些条件的限制，进一步降低了初始聚类的运算量，同时也一定程度的去处了部分噪声颜色中心。与直接采用C均值聚类方法比较，聚类样本数减少从而减少了聚类运算量，同时克服了模糊C均值的平滑过程引起所占象素较少的文字字符丢失的问题。

图像分层

在连通域颜色聚类之后，计算连通域与聚类中心的欧氏距离。若距离小于TC，即具有相似彩色的连通域分到一个层上，便可以生成不同的图像层。

在生成文字字符层面图像的过程中，同样需要一些连通域筛选准则，但是，印刷文字字体大小大都在10pt-12pt之间，同时彩色图像点扩散效应的存在，得到文字字符的笔画连通域都比较小，标点符号也是需要兼顾的。因而，为了避免小的连通域丢失而造成笔画断裂，生成字符层面时的连通域筛选准则与颜色聚类时采用的筛选准则并不相同。

在这一步骤中，将所有高或宽分别小于文本区域图像的高或宽的连通域都与颜色中心比较，如果连通域的平均颜色值和颜色中心的欧氏距离小于TC，便将满足这个条件的连通域放在一个图像层面上，从而可以得到多个层面，这样文字字符图像便可能会存在一个或多个层上。另外如果存在高和宽分别等于文本区域图像高和宽的连通域，则把该连通域所在的层面定为背景层面。(为了便于后续切分识别工作，这里已将生成的层面全部转为白底黑字的图像。)然后，通过如下准则先排除部分非文字字符图层：

1)每一个文字层的象素数要超过200个，否则定为噪声层；

3)如果通过1)，2)的筛选后，如果剩下的层面数大于L个的时候，这里假定前景色不多于L个，便取层面中所包含黑象素总数排在前L+2个的层面。前景指的是整幅图像中所包含的文字字符图像，前景色指的是这些文字字符图像的大致颜色，图像中除了文字字符图像以外的部分都称为背景。

如图4中所示，4a为原始文本区域图像，4b，4c，4d，4e，4f，4g，4h为根据连通域平均颜色聚类得到的7颜色中心而生成的7个图像层面，这里为了便于处理，各图层都已经转为黑白图像。根据上述准则选取所含象素数目位于前六名的4b，4c，4d，4e，4f，4g六个层面。注意到备选层面仍然过多，下面将对于常见情况的给出进一步字符层面判断准则。

字符层选择

由于本发明不涉及到字符的切分和识别，并且系统一般要求在文字字符图像提取阶段尽量不引入切分信息，因而需要一种简单易行的方法来进行自动的文字字符层面的判决。通过分析印刷文档中文字字符的有两个明显的特点：

●文本区域图像内的文字字符大小基本一致；

●文字字符排列较为整齐。

本发明将利用上述特点定义一种大小一致性准则，进行字符层面。

由于本发明提供的大小一致性准则主要是利用图像层面中的象素两方向投影的大小，是针对单行文字的投影或者在垂直方向上无交错多行文字情况设定的，并不考虑更为复杂的情况。对于更为复杂的情况，需要更为复杂的切分步骤去得到文字字符块的大小，而本发明这里只是在将文字字符层面送入后续切分识别之前进行的初步判断，因此这就要求在原文本区域图像还符合下述情况下：

●原文本区域图像内的文字颜色单一；

●所含文字行或列的总数不超过三个，且在行和列方向都是整齐的，即近似位于一条

直线上。

保证根据本发明定义的大小一致性原则进行文字字符层面的自动判断，得到较高的文字字符层面的判别准确率。

为了便于说明，以错误！未找到引用源。中的图层4c为例，参照图5所示，假定图像的垂直方向上的高度为H，水平方向上的宽度为V。颜色分层后得到K个层面，对于层面i(1≤i≤K)，分别作水平和垂直方向的投影，可以得到水平方向投影宽度的u_il(0≤l＜N_i)和垂直方向的投影宽度w_ij(0≤j＜M_i)，i为图像层面的序号，l代表水平方向投影宽度的序号，j代表垂直方向投影宽度的序号，为了消除小噪声的干扰，每一个坐标位置上的对应的投影黑色象素数目必须超过5个。同时，仅统计两个方向上投影宽度超过10个象素宽的投影个数N_i和M_i，即N_i和M_i分别为在两个方向上得到的符合要求的投影宽度的总数。水平方向上相邻两个投影宽度之间的距离为水平投影间隔宽度e_is(0≤s＜Z_i)，垂直方向上相邻两个投影宽度之间的距离为垂直投影间隔宽度d_it(0≤t＜Y_i)，Z_i和Y_i分别为在两个方向上得到的投影间隔宽度的总数。根据得到的以上结果，可以计算得出层面i上投影宽度的平均值：

水平方向投影的平均宽度

Avg H_{i} = \frac{1}{N_{i}} Σ_{l = 0}^{N_{i} - 1} u_{il};

垂直方向投影的平均宽度

Avg W_{i} = \frac{1}{M_{i}} Σ_{j = 0}^{M_{i} - 1} w_{ij} .

层面i上投影间隔宽度的平均值：

水平方向投影间隔的平均宽度

Avg E_{i} = \frac{1}{Z_{i}} Σ_{s = 0}^{Z_{i} - 1} e_{is};

垂直方向投影的平均宽度

Avg D_{i} = \frac{1}{Y_{i}} Σ_{t = 0}^{Y_{i} - 1} d_{it} .

计算得到该层面水平投影宽度的方差为

Var H_{i} = \sqrt{Σ_{l = 1}^{N_{i} - 1} {(u_{il} - Avg H_{i})}^{2} / N_{i}},

垂直投影宽度的方差为

Var W_{i} = \sqrt{Σ_{j = 0}^{M_{i} - 1} {(w_{ij} - Avg W_{i})}^{2} / M_{i}};

该层面的水平投影间隔宽度的方差

Var E_{i} = \sqrt{Σ_{s = 0}^{Z_{i} - 1} {(e_{is} - Avg E_{i})}^{2} / Z_{i}},

垂直投影间隔宽度的方差

Var D_{i} = \sqrt{Σ_{t = 0}^{Y_{i} - 1} {(d_{it} - Avg D_{i})}^{2} / Y_{i}};

P_{i} = \frac{\min (Avg H_{i} / Avg W_{i}, Avg W_{i} / Avg H_{i}) \times H \times V}{(1+|max (N_{i}, M_{i}) - \max (H / V, V / H) | / 2) \times (1 + \max (Var E_{i}, Var D_{i})) \times (1 + \max (Var H_{i}, Var W_{i}))}

max()和min()分别代表括号中两个数值的最大和最小值。

表1给出了，对于图4中的原始文本区域图像4a的六个字符代选层面4b，4c，4d，4e，4f，4g的一致性判据，根据P_i得出4c图层即为生成的文字字符层面。同时对照比较图4中的4c和4e，可以很容易的发现，4e中大都含有的是文字字符的轮廓边缘，因而其一致性判据排在第二位。由此可以看出，可以按P(i)的大小将备选层面排序。

表1图像4a的各图层的一致性判据

	4b	4c	4d	4e	4f	4g
	4b	4c	4d	4e	4f	4g	P_i	11.394	82.948	21.704	47.1	10.289	4.819

由于切分和识别不属于本发明的涉及范围，因而在本发明中将不再作阐述。样本库

为了验证该方法的优越性，根据常见的彩色印刷文档图像建立了一些样本库，如表2所示。

表2样本库数据统计列表

名称		文本区域图像块数(张)	字符数(个)
名称		文本区域图像块数(张)	字符数(个)	彩色杂志样本库	标题库	47	1224
正文库	30	5420			标题库	47	1224
正文库	30	5420	彩色报纸样本库		39	551
彩色照片图像库		52	彩色报纸样本库		39	551	664

实验结果

表3给出了多种方法的比较结果

表3正确提取字符数比较

字符数(个)	CRAG方法	直接颜色聚类	连通性分析法	局域自适应动态阈值法
字符数(个)	CRAG方法	直接颜色聚类	连通性分析法	局域自适应动态阈值法	彩色杂志标题库(1224)	1156	732	905	847
彩色报纸样本库(551)	500	457	318	143	彩色杂志标题库(1224)	1156	732	905	847
彩色报纸样本库(551)	500	457	318	143	彩色照片样本库(664)	631	578	357	277

综上所述，可以发现CRAG方法具有在以下几种优点：

●算法简单，能有效的克服背景噪声变化的影响；

●以连通域为单位的颜色聚类使文字更容易被分出来，并减少了运算量；

●能自动处理反白文字和多色字；

●可以提取前景色范围变化较大的字符图像，利用由于字符本身，或者由于光照而造成颜色渐变的字符；

●受边缘过渡效应影响小，避免了小字符的丢失；

●保留了字符颜色信息；

●可处理对象范围广：如彩色杂志，报纸和照片图像等。

本发明在实验中获得了优异的识别结果，具有非常广泛的应用前景。

Claims

1.基于游程邻接图的复杂背景彩色图像中字符提取方法，其特征在于：它依次包含以下步骤：

(2)在上述图像处理器中设定：

图像的高和宽分别用符号H和V表示；

图像中每一行象素与同一行和它紧邻的彩色游程在RGB空间内的欧氏距离o_pq的阈值为TD；

从图像的第二行开始算起，该彩色游程与上一相邻行在位置上是4邻域相连的彩色游程在RGB空间的欧氏距离o_pp.的阈值是TV，选取TD＝TV＝12～16；

待选连通域最大高度Hmax＝min(H，400)，象素数；

待选连通域最大宽度Vmax＝min(V，400)，象素数；

待选连通域最小高度Hmin＝3，象素数；

待选连通域最小宽度Vmin＝3，象素数；

待选连通域的高宽比或宽高比的最小值为1，最大值为50；

各连通域的象素密度用(

)表示，h_n和v_n分别指代的是所得彩色连通域的高和宽，m_n表示第n个连通域内的彩色游程数，f_pu表示第p_u个游程的游程长度，设定：

Q_{2} > (Σ_{u = 1}^{m_{n}} f_{p_{u}} / h_{n} \times v_{n}) > Q_{1}, Q_{1} = 0.1 ~ 0.5, Q_{2} = 0.6 ~ 1;

在连通域彩色聚类过程中的阈值TC＝20～50；

在选取得到的备选彩色层面数K≤L+2，L＝4；

(3)分割彩色图像，获取彩色连通域，即一幅图像用连通域集合来描述；

o_{pq} = \sqrt{{(r_{q} - r_{p})}^{2} + {(g_{q} - g_{p})}^{2} + {(b_{q} - b_{p})}^{2}} .

r_{p} = \frac{(r_{p} \times f_{p} + r_{q})}{f_{p} + 1};

g_{p} = \frac{(g_{p} \times f_{p} + g_{q})}{f_{p} + 1};

b_{p} = \frac{(b_{p} \times f_{p} + b_{q})}{f_{p} + 1};

游程的长度增1：f_p＝f_p+1；

反之，第二个象素便成为新游程的起始点，继续计算其与下一个相邻象素的欧氏距离，如果仍小于TD，就将该象素加入该游程，并重新计算它的r，g，b值，否则，以该象素点为下一个新游程起始点；根据上述规则，可以这样遍历图像每一行中的所有象素得到若干个彩色游程；

o_{{pp}^{'} = \sqrt{(r_{p^{'}} - r_{p})^{2} + (g_{p^{'}} - g_{p})^{2} + (b_{p^{'}} - b_{p})^{2}}}

判断该距离是否小于TV，若小于则合并为同一个连通域，即连接这两个游程；反之，作为新连通域的起始游程；以这种方式遍历完整幅图像后，根据游程之间的连接关系便可以得到组成图像的所有连通域的集合{C_n|n＝1，2，...，K}；

所述连通域用下列结构式表示：

C_n{(r_n，g_n，b_n)，X_n，(v_n，h_n)}，(r_n，g_n，b_n)表示的是连通域C_n的平均颜色r，g，b值，

r_{n} = Σ_{u = 1}^{m_{n}} (r_{p_{u}} \times f_{p_{u}}) / Σ_{u = 1}^{m_{n}} f_{p_{u}} - - - (1 - 2)

g_{n} = Σ_{u = 1}^{m_{n}} (g_{p_{u}} \times f_{p_{u}}) / Σ_{u = 1}^{m_{n}} f_{p_{u}} - - - (1 - 3)

b_{n} = Σ_{u = 1}^{m_{n}} (b_{p_{u}} \times f_{p_{u}}) / Σ_{u = 1}^{m_{n}} f_{p_{u}} - - - (1 - 4)

X_n＝{R_pu|u＝1，2...m_n}表示该连通域内包含的所有彩色游程的集合，通过简单计算很容易得到连通域的高v_n和宽h_n；

(4)对连通域进行彩色聚类，以得到适当数目的颜色聚类中心；

同时按以下三个准则选取参与彩色聚类的连通域样本：

2)H_Vmin＜h_n/v_n＜H_Vmax，或者V_Hmin＜v_n/h_n＜V_Hmax，其中的H_Vmin和H_Vmax分别指的是连通域的高度与宽度比值的最小和最大值，同样，V_Hmin和V_Hmax指的是宽高比的最小和最大值；

3)

Q_{2} > (Σ_{u = 1}^{m_{n}} f_{p_{u}} / h_{n} \times v_{n}) > Q_{1}

，即连通域的象素密度在Q₁和Q₂之间；

(5)形成图像层面，并从中删除噪声层和明显的背景层，并得到有可能包含文字的图像层；

(5.1)形成图像层面

(5.2)按照以下准则依次排除非文字字符层

(5.3)在前景色不多于L个的条件下，若剩下图像层面数大于L个时，便选取层面中所包含黑色象素总数排在前L+2个的层面，作为可能存在文字字符图像的层面，按以下步骤处理；前景指的是整幅图像中所包含的文字字符图像，前景色指的是这些文字字符图像的大致颜色，图像中除了文字字符图像以外的部分都称为背景；

(6)根据一致性判据公式计算得到的步骤(5.3)所得的可能的文字字符图像层的一致性判决值P_i，(1≤i≤K)，K为上述层面数，进行排序，其P_i值最大的层面即为最可能的文字字符层面；

(6.1)对于所述K个层面分别作为水平和垂直方向的投影，可以得到水平方向投影宽度u_il(0≤l＜N_i)和垂直方向的投影宽度w_ij(0≤j＜M_i)，i为图像层面的序号，l代表水平方向投影宽度的序号，j代表垂直方向投影宽度的序号，为了消除小噪声的干扰，每一个坐标位置上的对应的投影黑色象素数目必须超过5个；同时，仅统计两个方向上投影宽度超过10个象素宽的投影个数N_i和M_i，即N_i和M_i分别为在两个方向上得到的符合要求的投影宽度的总数；水平方向上相邻两个投影宽度之间的距离为水平投影间隔宽度e_is(0≤s＜Z_i)，垂直方向上相邻两个投影宽度之间的距离为垂直投影间隔宽度d_it(0≤t＜Y_i)，Z_i和Y_i分别为在两个方向上得到的投影间隔宽度的总数；

(6.2)计算以下各值：

水平方向投影的平均宽度

{AvgH}_{i} = \frac{1}{N_{i}} Σ_{l = 0}^{N_{i} - 1} u_{il},

垂直方向投影的平均宽度

{AvgW}_{i} = \frac{1}{M_{i}} Σ_{j = 0}^{M_{i} - 1} W_{ij},

水平方向投影间隔的平均宽度

{AvgE}_{i} = \frac{1}{Z_{i}} Σ_{s = 0}^{Z_{i} - 1} e_{is},

垂直方向投影的平均宽度

{AvgD}_{i} = \frac{1}{Y_{i}} Σ_{t = 0}^{Y_{i} - 1} d_{it},

水平投影宽度的方差为

{VarH}_{i} = \sqrt{Σ_{l = 0}^{N_{i} - 1} {(u_{il} - {AvgH}_{i})}^{2} / N_{i}},

垂直投影宽度的方差为

{VarW}_{i} = \sqrt{Σ_{j = 0}^{M_{i} - 1} {(w_{ij} - {AvgW}_{i})}^{2} / M_{i}},

水平投影间隔宽度的方差

{VarE}_{i} = \sqrt{Σ_{s = 0}^{Z_{i} - 1} {(e_{is} - {AvgE}_{i})}^{2} / Z_{i}},

垂直投影间隔宽度的方差

{VarD}_{i} = \sqrt{Σ_{t = 0}^{Y_{i} - 1} {(d_{it} - {AvgD}_{i})}^{2} / Y_{i}};

P_{i} = \frac{\min ({AvgH}_{i} / {AvgW}_{i}, Avg W_{i} / {AvgH}_{i}) \times H \times V}{(1 + | \max (N_{i}, M_{i}) - \max (H / V, V / H) | / 2) \times (1 + \max ({VarE}_{i}, {VarD}_{i})) \times (1 + \max ({VarH}_{i}, {VarW}_{i}))}

i为层面数，i＝1，...，K；