CN102855478A

CN102855478A - 图像中文本区域定位方法和装置

Info

Publication number: CN102855478A
Application number: CN2011101921753A
Authority: CN
Inventors: 潘屹峰; 朱远平; 孙俊; 直井聪
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-06-30
Filing date: 2011-06-30
Publication date: 2013-01-02
Anticipated expiration: 2031-06-30
Also published as: JP2013016168A; JP5939056B2; CN102855478B

Abstract

本发明公开了一种图像中文本区域定位方法和装置。根据本发明的图像中文本区域定位方法包括：估计输入图像中每个像素周围可能存在的文本大小；根据所述文本大小和区域差异度从所述输入图像中提取候选笔划区域；从所述候选笔划区域中确定真实笔划区域；以及合并所述真实笔划区域以形成文本区域。

Description

图像中文本区域定位方法和装置

技术领域

本发明一般地涉及图像处理。具体而言，本发明涉及一种能够对图像中的文本区域进行定位的方法和装置。

背景技术

在对图像进行编制索引、检索、分类等各种应用中，需要从图像中提取关于图像内容的信息。图像中通常具有文本信息，这些文本信息与图像的内容具有较高的相关性。因此，获取这些文本信息对图像的应用来说是重要的。通常，首先对图像中的文本区域进行定位，然后对文本区域所在的图像块进行提取及光学字符识别(OCR)处理，以获得文本信息。图像可分为自然场景图像和人工添加文本图像。人工添加文本的图像由于有人工参与，故从中定位文本区域相对简单。自然场景图像由于以像素为单位，难以区分文本区域的像素与非文本区域的像素，故从中定位文本区域难度很大。本发明着眼于对图像中的文本区域进行定位，能够处理包括自然场景图像在内的较为复杂的图像。

发明内容

在下文中给出了关于本发明的简要概述，以便提供关于本发明的某些方面的基本理解。应当理解，这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分，也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念，以此作为稍后论述的更详细描述的前序。

本发明的目的是针对现有技术的上述问题，提出了一种能够对图像中文本区域进行定位的方法和装置。该方案能够快速、准确地从图像中定位文本区域，适用于任何种类的图像。

为了实现上述目的，根据本发明的一个方面，提供了一种图像中文本区域定位方法，包括：估计输入图像中每个像素周围可能存在的文本大小；根据所述文本大小和区域差异度从所述输入图像中提取候选笔划区域；从所述候选笔划区域中确定真实笔划区域；以及合并所述真实笔划区域以形成文本区域。

根据本发明的另一个方面，提供了一种图像中文本区域定位装置，包括：估计单元，用于估计输入图像中每个像素周围可能存在的文本大小；提取单元，用于根据所述文本大小和区域差异度从所述输入图像中提取候选笔划区域；确定单元，用于从所述候选笔划区域中确定真实笔划区域；以及合并单元，用于合并所述真实笔划区域以形成文本区域。

另外，根据本发明的另一方面，还提供了一种存储介质。所述存储介质包括机器可读的程序代码，当在信息处理设备上执行所述程序代码时，所述程序代码使得所述信息处理设备执行根据本发明的上述方法。

此外，根据本发明的再一方面，还提供了一种程序产品。所述程序产品包括机器可执行的指令，当在信息处理设备上执行所述指令时，所述指令使得所述信息处理设备执行根据本发明的上述方法。

附图说明

参照下面结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中，相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中：

图1示出了待处理的自然场景图像的示例；

图2示出了根据本发明的一个实施例的图像中文本区域定位方法的流程图；

图3示出了图像金字塔的结构示意图；

图4示出了图2中步骤S201的详细流程图；

图5示出了图2中步骤S202的详细流程图；

图6示出了图2中步骤S203的详细流程图；

图7A示出了图2中步骤S204的详细流程图；

图7B示出了图7A中步骤S702的详细流程图；

图8A示出了连接全部笔划区域的链式结构的示意图；

图8B示出了分行后的链式结构的示意图；

图8C示出了分字后的链式结构的示意图；

图9示出了作为根据本发明的一个实施例的图像中文本区域定位方法的处理结果的示意图；

图10示出了根据本发明的一个实施例的图像中文本区域定位装置的结构方框图；以及

图11示出了可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。

具体实施方式

在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见，在说明书中并未描述实际实施方式的所有特征。然而，应该了解，在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定，以便实现开发人员的具体目标，例如，符合与系统及业务相关的那些限制条件，并且这些限制条件可能会随着实施方式的不同而有所改变。此外，还应该了解，虽然开发工作有可能是非常复杂和费时的，但对得益于本公开内容的本领域技术人员来说，这种开发工作仅仅是例行的任务。

在此，还需要说明的一点是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其他细节。另外，还需要指出的是，在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。

下面将参照图2描述根据本发明的一个实施例的图像中文本区域定位方法的流程。

图1示出了本发明能够处理的图像的一个具体示例。在如图1所示的自然场景图像中，存在作为房屋的背景以及作为交通指示牌的前景。然而，如前所述，该图像以像素为单位，对于图像中的文本区域并不存在任何人工添加的标记，故难以从中准确、迅速地提取出文本区域。

如图2所示，根据本发明的一个实施例的图像中文本区域定位方法包括如下步骤：估计输入图像中每个像素周围可能存在的文本大小(S201)；根据所述文本大小和区域差异度从所述输入图像中提取候选笔划区域(S202)；从所述候选笔划区域中确定真实笔划区域(S203)；以及合并所述真实笔划区域以形成文本区域(S204)。

下面将参照图3和图4具体描述图2中的步骤S201。

图3示出了图像金字塔的结构。其中，在每一级Ln(n≥1)存在一幅金字塔图像。第一级L1对应的金字塔图像是原始的输入图像。图1示出了输入图像的一个具体示例。每一级Ln具有相对于第一级L1的尺度系数sc_n。对于每一级Ln(n＞1)，以尺度系数sc_n对输入图像进行等比例缩小，得到这一级的金字塔图像。例如，输入图像为8*8像素大小。当步长为1/2时，第二级相对于第一级L1的尺度系数sc₂＝1/2，采用最近邻插值算法，可得到4*4像素大小的第二级金字塔图像。依次类推，从输入图像可得到多尺度的图像金字塔，如图3所示。显然，对于第n级(n≥1)，步长为step，则第n级的尺度系数sc_n＝step^n-1。输入图像中每个像素的尺度系数由各级金字塔图像中与其对应的像素(含该像素本身)的置信度及各级金字塔图像的尺度系数计算得出，将在下文中参照公式2说明。

图4示出了图2中步骤S201的详细流程图。

首先，如上所述，基于输入图像产生多级金字塔图像，即图像金字塔(步骤S401)。

随后，对于每一级的金字塔图像，估计每个像素周围存在文本的概率(步骤S402)。具体地，对于每一级的金字塔图像，以固定大小的扫描窗进行扫描，得到每一级金字塔图像的每个像素的周围存在文本的概率。在本实施例中，各级金字塔图像的扫描窗大小固定为原始输入图像的大小。对于每个像素，计算以该像素为中心的扫描窗内的局部纹理特征，如梯度方向直方图HOG特征(Histograms of Oriented Gradient)。将计算所得的HOG特征输入到训练好的分类器中，分类器可返回该像素周围存在文本的置信度(概率)。

在训练分类器时，已知一个像素周围是否存在文本区域，即一个像素是否是组成文本区域的像素之一。例如1表示该像素周围存在文本区域，0表示该像素周围不存在文本区域。对于一幅图像中的每个像素均以固定大小的扫描窗计算HOG特征，将计算所得的HOG特征以及用1或0表示的该像素周围是否存在文本的置信度输入分类器。经过大量的训练之后的分类器可应用于步骤S402。

应注意，这里，局部纹理特征并不限于上面提到的HOG特征，例如，也可计算小波特征。小波特征指对于一个像素为中心的扫描窗内的像素进行小波变换，将变换所得的小波系数的统计量，例如均值和/或方差作为该像素的小波特征。分类器可选用Waldboost、AdaBoost等分类器。

在步骤S403，首先，对于输入图像的每个像素，计算在各级金字塔图像中与其对应的像素的坐标。例如，第二级金字塔图像对应的尺度系数sc₂为2，输入图像中坐标为(a，b)的像素与第二级金字塔图像中坐标为(2a，2b)的像素相对应。即，将输入图像中像素的横、纵坐标分别乘以对应金字塔层级的尺度系数，得到该尺度系数对应的金字塔图像中的对应像素的横、纵坐标。当尺度系数为非整数值时，将计算结果四舍五入为整数值后作为对应像素的横、纵坐标。显然，对于输入图像中的一个像素，第一级金字塔图像即输入图像中与其对应的像素是其本身。因此，对于输入图像中的一个像素，在每一级金字塔图像中，均有一个像素与其对应。

设输入图像中的第i个像素s_i对应的各级金字塔图像(含第一级金字塔图像，即输入图像本身)中的各个像素所组成的集合为P_i；j属于P_i，是某级金字塔图像中与像素s_i对应的像素，该级金字塔图像对应的尺度系数为sc_j；在步骤S402中计算得到j的周围存在文本的置信度为w_j。可根据下述公式1、2计算输入图像中像素s_i周围存在文本的概率P(y_i＝text|s_i)和尺度系数sc_i。

P (y_{i} = text | s_{i}) = \frac{1}{N_{i}^{c}} (\underset{j &Element; P_{i}}{Σ} w_{j} \cdot w_{j})

公式1

{sc}_{i} = {[\underset{j &Element; P_{i}}{Π} {sc}_{j}^{w_{j}}]}^{\frac{1}{N_{i}^{s}}}

公式2

其中，

分别表示置信度和尺度系数的归一化因子。

此外，上述公式1、公式2中，w_j作为加权系数，将各级金字塔中对应像素的信息投影到作为第一级金字塔图像的原始输入图像中。

利用尺度系数sc_i和扫描窗大小可以计算得到输入图像中像素s_i周围可能存在的文本大小。例如，以扫描窗的长length或宽width代表扫描窗的大小，则以length/sc_i或width/sc_i为半径的圆或以length/sc_i和width/sc_i为长和宽的矩形区域可表征输入图像中像素s_i周围可能存在的文本大小。

作为公式2的变形，将sc_j替换为length/sc_j，则等式左边变为length/sc_i。可知，公式2的物理意义是根据各级金字塔中与输入图像中每个像素s_i对应的像素j的置信度w_j和对应该金字塔层级的文本大小length/sc_j计算输入图像中每个像素s_i周围可能存在的文本大小length/sc_i。

作为上述公式1、2的替选，可将与输入图像中像素s_i对应的像素中置信度w_j最高的像素j的置信度w_j和尺度系数sc_j作为像素s_i周围存在文本的概率P(y_i＝text|s_i)和尺度系数sc_i。

通过上述步骤S401-S403即可得到原始输入图像中每个像素周围存在文本的概率和每个像素周围可能存在的文本大小。

这里采用图像金字塔，进行尺度变换，可以检测任意大小的文字。相比较而言，若不进行尺度变换，并以固定大小的窗口对输入图像进行扫描，即只存在上述实施例中第一级的情况下，仍可获得每个像素周围存在文本的概率，每个像素周围可能存在的文本大小就是扫描窗的大小。在这种情况下，仍可实现本发明，但由于缺乏尺度变换，只能检测固定大小的文字。

应注意，尺度变换的方法不局限于上述提到的扫描窗口不变，各级金字塔图像尺度缩放的情况。也可以不缩放输入图像，而采用大小变化的扫描窗(即尺度变换)多次扫描输入图像，根据各次扫描的结果同样可计算输入图像中每个像素周围存在文本的概率和每个像素周围可能存在的文本的大小。

下面将参照图5具体描述图2中的步骤S202。

图5示出了图2中步骤S202的详细流程图。

如上所述，步骤S202根据步骤S201中计算的每个像素周围可能存在的文本大小和区域差异度从所述输入图像中提取候选笔划区域。

具体地，通过区域(最初为像素)合并的迭代，不断合并输入图像中类似的区域，直至满足预定的条件，从而得到多个合并出的区域作为候选笔划区域。合并的准则主要考虑到了区域内差异度、区域间差异度、区域周围可能存在的文本大小。

首先，在步骤S501，对输入图像中的相邻区域计算区域间差异度和区域内差异度。区域内差异度例如是区域内的最大色差，对于灰度图像来说，区域内的最大色差是区域内所有像素中灰度值最高的像素与灰度值最低的像素的灰度值之差的绝对值；对于例如(Y，Cr，Cb)表示的彩色图像，可计算各个像素的的值，将区域内各像素之间的最大

差值的绝对值作为区域内的最大色差。区域间差异度，对于灰度图像来说，可取两个区域的灰度均值之差的绝对值；对于彩色图像来说，可取两个区域的

均值之差的绝对值。最初，相邻区域即相邻像素，相邻像素的区域内差异度为零，相邻像素的区域间差异度例如是相邻像素的灰度值之差的绝对值(对于灰度图像来说)或相邻像素的

差值的绝对值或相邻像素的亮度值之差的绝对值(对于彩色图像来说)。

在步骤S501中，设相邻区域为C₁、C₂，区域C₁的像素中与区域C₂的像素相邻的像素组成的集合为c₁，区域C₂的像素中与区域C₁的像素相邻的像素组成的集合为c₂，除如上所述在C₁、C₂范围内计算区域内差异度和区域间差异度的实施方式之外，也可只在c₁、c₂范围内采用如上方法计算c₁、c₂的区域内差异度和区域间差异度，以代表C₁、C₂的区域内差异度和区域间差异度。

接着，在步骤S502，根据在步骤S201中所估计的输入图像中每个像素周围可能存在的文本大小来估计区域周围可能存在的文本大小，并根据所估计的区域周围可能存在的文本大小调整各个区域内差异度。

该步骤基于发明人的如下发现：仅通过区域内差异度和区域间差异度来决定是否将相邻区域合并并不完全准确。如果获知相邻区域C₁、C₂周围可能存在的文本大小较小，则C₁、C₂更可能不应合并；如果获知相邻区域C₁、C₂周围可能存在的文本大小较大，则C₁、C₂更可能应合并。因此，通过进一步考虑区域周围可能存在的文本大小，对区域内差异度进行调整，能够更准确地判断是否应合并相邻区域C₁、C₂。

当区域C₁仅包括一个像素时，利用区域C₁中唯一像素的尺度系数sc_i和扫描窗大小可以计算得到输入图像中区域C₁周围可能存在的文本大小。例如，以扫描窗的长length或宽width代表扫描窗的大小，则以length/sc_i或width/sc_i为半径的圆或以length/sc_i和width/sc_i为长和宽的矩形区域可表征输入图像中区域C₁周围可能存在的文本大小。当区域C₁包括不止一个像素时，利用区域C₁中尺度系数sc_i的均值和扫描窗大小可以计算得到输入图像中区域C₁周围可能存在的文本大小。例如，以扫描窗的长length或宽width代表扫描窗的大小，sc_i的均值为a_sc_i，则以length/a_sc_i或width/a_sc_i为半径的圆或以length/a_sc_i和width/a_sc_i为长和宽的矩形区域可表征输入图像中区域C₁周围可能存在的文本大小。

接着，在步骤S503，判断相邻区域的区域间差异度是否小于相邻区域的经调整后的区域内差异度的最小值，如判断结果为是，则进入步骤S504，对相邻区域C₁、C₂合并，随后进入步骤S505；如果判断结果为否，则直接进入步骤S505。

应注意：对于当前所有的相邻区域，均进行上述步骤S501-S503。

在步骤S505，判断是否当前所有的相邻区域在步骤S503的判断中均不满足合并条件，如判断结果为否，即有至少一个新合并的区域，则返回步骤S501；如判断结果为是，则说明当前所有的相邻区域均不能被合并，即已经提取到了所有的候选笔划区域。

下面给出了实现上述步骤S501-S503的示例性公式3、4。

公式3

MInt(C₁，C₂)＝min(Int(C₁)+τ(C₁)，Int(C₂)+τ(C₂)) 公式4

Dif(C₁，C₂)表示区域间差异度；D(C₁，C₂)为true时，合并区域C₁、C₂；D(C₁，C₂)为false时，不合并区域C₁、C₂；min()表示取最小值；Int(C₁)、Int(C₂)分别表示区域C₁、C₂的区域内差异度；τ(C₁)、τ(C₂)分别是区域C₁、C₂的尺度正则项，表征区域C₁、C₂周围可能存在的文本大小。如上所述，通过步骤S201可得到一个像素周围可能存在的文本大小，并且基于其中每个像素周围可能存在的文本大小，可计算区域C₁、C₂周围可能存在的文本大小Cs₁、Cs₂。将Cs₁、Cs₂分别乘以根据经验获得的系数值K，即可得到区域C₁、C₂的尺度正则项τ(C₁)、τ(C₂)。MInt(C₁，C₂)是中间计算结果，是相邻区域的经调整后的区域内差异度的最小值。

下面将参照图6具体描述图2中的步骤S203。

图6示出了图2中步骤S203的详细流程图。

如上所述，在步骤S202中获得了多个候选笔划区域，下面在步骤S203中，将从背景中误提取出的候选笔划区域过滤掉，确定真实的笔划区域。

在步骤S202中，采用条件随机场CRF模型，并同时考虑单个笔划特征与相邻笔划间关系来准确地确定候选笔划区域是否是真实笔划区域。

首先，在步骤S601，确定候选笔划区域中彼此相关的候选笔划区域。具体地，根据候选笔划区域的尺寸信息和候选笔划区域之间的距离判断所述候选笔划区域是否相关。一个候选笔划区域是一个连通域，将连通域外接矩形的宽和高作为该候选笔划区域的宽w和高h，设两个候选笔划区域i和j的质心间的距离为dist(r_i，r_j)，min[]表示取最小值，通过下述公式5判断两个候选笔划区域是否相关：

dist(r_i，r_j)＜2×min[max(w_i，h_i)，max(w_j，h_j)] 公式5

满足公式5的候选笔划区域被认为是相关的。对所有候选笔划区域进行如上判断后，可得到候选笔画区域近邻图，其中候选笔划区域作为节点，相关的候选笔划区域所对应的节点相连接。

在步骤S602，根据如下公式6确定真实笔划区域。

E (X, Y, G, Λ) = \underset{i}{Σ} [E (x_{i}, y_{i}, λ_{uni}) + \underset{j &Element; N_{i}}{Σ} λ_{ij} \cdot E (x_{i}, x_{j}, y_{i}, y_{j}, λ_{bi})]

公式6

E表示置信度，由经训练的分类器给出；X表示特征的观测值；Y表示是否是真实笔划区域；G表示候选笔划区域近邻图；Λ表示参数；x_i例如是候选笔划区域的尺寸、置信度等特征，在上述步骤S201中计算得到了一个像素周围存在文本区域的置信度，从而可计算出候选笔划区域周围存在文本区域的置信度(例如，取候选笔划区域中每个像素的周围存在文本区域的置信度的均值)，作为候选笔划区域i的特征x_i；y_i表示候选笔划区域i是否是真实笔划区域，如y_i为1时，i是真实笔划区域，y_i为0时，i不是真实笔划区域；λ_uni、λ_bi是训练分类器所得的参数；N_i表示所有与i相关的候选笔划区域的集合，j是N_i中的一个候选笔划区域；x_j表示候选笔划区域j的特征，例如是候选笔划区域j中每个像素周围存在文本区域的置信度的均值；y_j表示候选笔划区域j是否是真实笔划区域，如y_j为1时，j是真实笔划区域，y_j为0时，j不是真实笔划区域；λ_ij是权重系数，反映了j与i的相关程度。

采用下述公式7、8计算权重系数λ_ij。

λ_{ij}^{'} = \exp [- \frac{{| | dist (j, l_{i}) | |}^{2}}{σ_{l_{i}}^{2}}]

公式7

λ_{ij} = \frac{{λ^{'}}_{ij}}{\underset{j &Element; N_{i}}{Σ} {λ^{'}}_{ij}}

公式8

对于每个候选笔划区域i，利用所有与其相关的候选笔划区域(即N_i)与i本身，拟合出i所在的文本行l_i，具体地，在特征空间中一个点表示一个候选笔划区域的特征，对N_i及i所对应的点进行拟合，将属于同一拟合曲线的点所对应的候选笔划区域确定为属于i所在的文本行l_i；j为属于N_i的一个与i相关的候选笔划区域，dist(j，l_i)为j的质心到l_i的距离；

为根据经验获得的归一化因子；exp[]为以自然对数e为底的指数函数；

为回归误差；可见，j与l_i的距离越远，λ_ij越小。通过λ_ij的使用，使得与i相关的候选笔划区域j的权重系数有所不同，与i属于同一文本行的j对i的影响更大，从而避免与i远离但特征类似的候选笔划区域对i有较大的影响。

上述公式中，E(x_i，x_j，y_i，y_j，λ_bi)可用E(x_ij，y_i，y_j，λ_bi)代替，x_ij可取候选笔划区域i和j中每个像素的周围存在文本区域的置信度的均值之差的绝对值，x_ij也可取候选笔划区域i和j的质心间距离，从而更好地反映区域之间的关系。

E(x_i，y_i，λ_uni)是单个候选笔划区域是或不是(取决于y_i的取值)真实笔划区域的置信度，E(x_i，x_j，y_i，y_j，λ_bi)表示所取的y_i、y_j的情形的置信度，

体现了相关的候选笔划区域之间的关系。

对于每个候选笔划区域i，假设i以及对于i的所有j是否是真实笔划区域，即假设y_i、y_j的取值，将所有取值的可能以及相应的特征(即x_i，x_j和/或x_ij)输入训练好的分类器，分类器返回E(x_i，y_i，λ_uni)、E(x_i，x_j，y_i，y_j，λ_bi)的值，从而计算得到E(X，Y，G，Λ)。取E(X，Y，G，Λ)为最大值时，对应的y_i、y_j的取值结果作为确定真实笔划区域的结果。

即，在步骤S602中，产生关于输入图像中的所有候选笔划区域的每一个是否是真实笔划区域的多种假设组合；对于每种假设组合，基于所述假设组合及各个候选笔划区域中的像素的特征计算各个候选笔划区域的第一置信度，并基于所述假设组合及彼此相关的候选笔划区域中的像素的特征计算与第一置信度对应的第二置信度，然后根据所述第一置信度和所述第二置信度，计算出该假设组合下的代表置信度；将代表置信度最高时对应的假设组合作为确定真实笔划区域的结果；其中，所述彼此相关的候选笔划区域属于同一文本行时，在所述代表置信度的计算中，为其所对应的第二置信度赋以较大的权重系数。

至此，在步骤S203中，得到了真实的笔划区域。下面，在步骤S204中，合并真实笔划区域以形成文本区域。

下面将参照图7A-7B、8A-8C具体描述图2中的步骤S204。

图7A示出了图2中步骤S204的详细流程图。图8A示出了连接全部真实的笔划区域的链式结构的示意图。图8B示出了分行后的链式结构的示意图。图8C示出了分字后的链式结构的示意图。

在步骤S203中，已经确定了真实的笔划区域。在步骤S204中，将合并这些笔划区域以形成文本区域。

首先，在步骤S701，根据笔划区域之间的距离确定笔划区域之间的连接关系。笔划区域之间的距离可通过笔划区域的质心之间的欧氏距离表征。基于笔划区域之间的距离，可采用最小生成树算法，将所有的笔划区域按照链式结构连接起来，如图8A所示。最小生成树算法是本领域公知的算法，在此不再赘述。

在图8A中，可以看出，仅根据笔划区域之间的距离判断笔划区域之间的关系时，同一行中属于不同字的笔划区域、不同行的笔划区域可能由于距离较近而被连接在一起。因此，在下述步骤S702、S703中，将着力去除这样的误连接。

在步骤S702，去除属于不同文本行的笔划区域之间的连接关系。图7B示出了图7A中步骤S702的详细流程图。

在步骤S7021，判断在链式结构中，由一条连接边连接的两个笔划区域之间的欧氏距离是否大于阈值th_ed。如判断结果为否，则直接进入步骤S7023；如判断结果为是，则切断该连接边(步骤S7022)，并进入步骤S7023。

类似于上面的情况，仅依靠距离仍可能残存有误连接，因此，在步骤S7023-S7025进一步检测并切断误连接。

经过了步骤S7021和S7022，原本由最小生成树算法生成的一个链式结构可能已经被切割为多个链式结构。对于每个链式结构，均执行下述步骤S7023-S7025。

在步骤S7023，将属于同一链式结构的笔划区域拟合出一条中心线1。例如，采用最小二乘法，将属于同一链式结构的笔划区域的质心拟合出一条中心线1。

判断属于该链式结构的各个笔划区域到该中心线1的距离是否大于预定阈值th_le(步骤S7024)。

如判断结果为是，则说明在中心线1的两侧至少各有一个文本行，因此，切断该链式结构中跨该中心线1的连接边(步骤S7025)。

由于经过步骤S7025，一个链式结构变为两个新的链式结构，因此，重新返回S7023继续判断。

如果在步骤S7024的判断结果为否，表明当前的链式结构中仅存在一个文本行，因此，不再存在文本行之间的连接边，步骤S702结束，进入步骤S703，对属于同一文本行的各个字之间的误连接进行切断。步骤S702的处理结果如图8B所示。

在步骤S703中，每个经步骤S702得到的链式结构都代表一个文本行。每个链式结构中，存在多个笔划区域，笔划区域被连接边连接。计算相连接的每个笔划区域之间的边框距离bd以及整个文本行(即链式结构)的平均边框距离a_bd。由连接边连接的两个笔划区域的边框距离是指这两个笔划区域的外接矩形的相邻边之间的距离。如果由连接边连接的两个笔划区域的边框距离bd远大于整个文本行的平均边框距离a_bd(例如，bd＞a_bd*ξ，ξ为根据经验设定的预定常数)，则表明这两个笔划区域应属于不同的字，将连接它们的连接边切断。即步骤S703去除属于不同字的笔划区域之间的连接关系。步骤S703的处理结果如图8C所示。

至此，获得多个链式结构，每个链式结构代表一个字，每个链式结构中包括由连接边连接的多个笔划区域。可将每个链式结构的外接矩形作为该链式结构对应的字的文本区域。图9示出了作为根据本发明的一个实施例的图像中文本区域定位方法的处理结果的示意图。

下面将结合图10描述根据本发明的一个实施例的图像中文本区域定位装置的结构。图10示出了根据本发明的一个实施例的图像中文本区域定位装置的结构方框图。如图10所示，根据该实施例的图像中文本区域定位装置100包括：估计单元101，用于估计输入图像中每个像素周围可能存在的文本大小；提取单元102，用于根据所述文本大小和区域差异度从所述输入图像中提取候选笔划区域；确定单元103，用于从所述候选笔划区域中确定真实笔划区域；以及合并单元104，用于合并所述真实笔划区域以形成文本区域。

所述估计单元101包括：图像金字塔产生单元1011，用于基于所述输入图像产生多级金字塔图像；估计子单元1012，用于估计每一级的金字塔图像中每个像素周围存在文本的概率；以及计算单元1013，用于根据所述概率和对应金字塔层级的文本大小计算所述输入图像中每个像素周围可能存在的文本大小。

所述提取单元102包括：差异度计算单元1021，用于对所述输入图像中的相邻区域计算区域间差异度和区域内差异度；调整单元1022，用于根据所估计的输入图像中每个像素周围可能存在的文本大小估计区域周围可能存在的文本大小，并根据所估计的区域周围可能存在的文本大小调整各个区域内差异度；以及相邻区域合并单元1023，用于根据相邻区域的区域间差异度和所述相邻区域的调整后的区域内差异度合并所述相邻区域。

所述确定单元103包括：相关确定单元1031，用于确定候选笔划区域中彼此相关的候选笔划区域；假设组合单元1032，用于产生关于输入图像中的所有候选笔划区域的每一个是否是真实笔划区域的多种假设组合；置信度计算单元1033，用于对于每种假设组合，基于所述假设组合及各个候选笔划区域中的像素的特征计算各个候选笔划区域的第一置信度，并基于所述假设组合及彼此相关的候选笔划区域中的像素的特征计算与第一置信度对应的第二置信度，然后根据所述第一置信度和所述第二置信度，计算出该假设组合下的代表置信度；以及确定子单元1034，用于将代表置信度最高时对应的假设组合作为确定真实笔划区域的结果。其中，所述彼此相关的候选笔划区域属于同一文本行时，在所述代表置信度的计算中，为其所对应的第二置信度赋以较大的权重系数。其中，所述相关确定单元根据候选笔划区域的尺寸信息和候选笔划区域之间的距离判断所述候选笔划区域是否相关。其中所述置信度计算单元在特征空间中对候选笔划区域进行拟合，将属于同一拟合曲线的候选笔划区域确定为属于同一文本行；以及根据回归误差计算所述代表置信度的计算中的权重系数。

所述合并单元104包括：连接单元1041，用于根据笔划区域之间的距离确定笔划区域之间的连接关系；分行单元1042，用于去除属于不同文本行的笔划区域之间的连接关系；以及分字单元1043，用于去除属于不同字的笔划区域之间的连接关系。

由于在根据本发明的图像中文本区域定位装置100所包括的估计单元101、提取单元102、确定单元103、合并单元104中的处理分别与上面描述的图像中文本区域定位方法的步骤S201-S204中的处理类似，因此为了简洁起见，在此省略这些单元中的详细描述。

同样，由于在估计单元101所包括的图像金字塔产生单元1011、估计子单元1012、计算单元1013中的处理分别与上面描述的步骤S401-S403中的处理类似，在提取单元102所包括的差异度计算单元1021、调整单元1022、相邻区域合并单元1023中的处理分别与上面描述的步骤S501-SS505中的处理类似，在确定单元103所包括的相关确定单元1031、假设组合单元1032、置信度计算单元1033、确定子单元1034中的处理分别与上面描述的步骤S601-S602中的处理类似，在合并单元104所包括的连接单元1041、分行单元1042、分字单元1043中的处理分别与上面描述的步骤S701-S703中的处理类似，因此为了简洁起见，在此省略这些单元中的详细描述。

此外，这里尚需指出的是，上述装置中各个组成模块、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知，在此不再赘述。在通过软件或固件实现的情况下，从存储介质或网络向具有专用硬件结构的计算机(例如图11所示的通用计算机1100)安装构成该软件的程序，该计算机在安装有各种程序时，能够执行各种功能等。

图11示出可用于实施根据本发明实施例的方法和装置的计算机的示意性框图。

在图11中，中央处理单元(CPU)1101根据只读存储器(ROM)1102中存储的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序执行各种处理。在RAM 1103中，还根据需要存储当CPU 1101执行各种处理等等时所需的数据。CPU 1101、ROM 1102和RAM 1103经由总线1104彼此连接。输入/输出接口1105也连接到总线1104。

下述部件连接到输入/输出接口1105：输入部分1106(包括键盘、鼠标等等)、输出部分1107(包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等，和扬声器等)、存储部分1108(包括硬盘等)、通信部分1109(包括网络接口卡比如LAN卡、调制解调器等)。通信部分1109经由网络比如因特网执行通信处理。根据需要，驱动器1110也可连接到输入/输出接口1105。可拆卸介质1111比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器1110上，使得从中读出的计算机程序根据需要被安装到存储部分1108中。

在通过软件实现上述系列处理的情况下，从网络比如因特网或存储介质比如可拆卸介质1111安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图11所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质1111。可拆卸介质1111的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者，存储介质可以是ROM 1102、存储部分1108中包含的硬盘等等，其中存有程序，并且与包含它们的设备一起被分发给用户。

本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时，可执行上述根据本发明实施例的方法。

相应地，用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。

在上面对本发明具体实施例的描述中，针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外，本发明的方法不限于按照说明书中描述的时间顺序来执行，也可以按照其他的时间顺序地、并行地或独立地执行。因此，本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露，但是，应该理解，上述的所有实施例和示例均是示例性的，而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

附记

附记1.一种图像中文本区域定位方法，包括如下步骤：

估计输入图像中每个像素周围可能存在的文本大小；

根据所述文本大小和区域差异度从所述输入图像中提取候选笔划区域；

从所述候选笔划区域中确定真实笔划区域；以及

合并所述真实笔划区域以形成文本区域。

附记2.如附记1所述的方法，其中

所述估计输入图像中每个像素周围可能存在的文本大小包括：

基于所述输入图像产生多级金字塔图像；

估计每一级的金字塔图像中每个像素周围存在文本的概率；以及

根据所述概率和对应金字塔层级的文本大小计算所述输入图像中每个像素周围可能存在的文本大小。

附记3.如附记1所述的方法，其中

所述提取候选笔划区域步骤包括：

对所述输入图像中的相邻区域计算区域间差异度和区域内差异度；

根据所估计的输入图像中每个像素周围可能存在的文本大小估计区域周围可能存在的文本大小，并根据所估计的区域周围可能存在的文本大小调整各个区域内差异度；以及

根据相邻区域的区域间差异度和相邻区域的调整后的区域内差异度，判断是否应合并所述相邻区域；

当判断为应合并所述相邻区域时，合并所述相邻区域，并重复上述步骤；以及

当判断为当前所有相邻区域均不应被合并时，即提取到了候选笔划区域。

附记4.如附记3所述的方法，其中

当相邻区域的区域间差异度小于相邻区域的调整后的区域内差异度的最小值时，合并所述相邻区域。

附记5.如附记3或附记4所述的方法，其中

所述提取步骤起始时的相邻区域是相邻像素；所述区域差异度包括色差。

附记6.如附记1所述的方法，其中

所述确定真实笔划区域步骤包括：

确定候选笔划区域中彼此相关的候选笔划区域；

产生关于输入图像中的所有候选笔划区域的每一个是否是真实笔划区域的多种假设组合；

对于每种假设组合，基于所述假设组合及各个候选笔划区域中的像素的特征计算各个候选笔划区域的第一置信度，并基于所述假设组合及彼此相关的候选笔划区域中的像素的特征计算与第一置信度对应的第二置信度，然后根据所述第一置信度和所述第二置信度，计算出该假设组合下的代表置信度；

将代表置信度最高时对应的假设组合作为确定真实笔划区域的结果；以及

其中，所述彼此相关的候选笔划区域属于同一文本行时，在所述代表置信度的计算中，为其所对应的第二置信度赋以较大的权重系数。

附记7.如附记6所述的方法，其中

根据候选笔划区域的尺寸信息和候选笔划区域之间的距离判断所述候选笔划区域是否相关。

附记8.如附记6或7所述的方法，其中

在特征空间中对候选笔划区域进行拟合，将属于同一拟合曲线的候选笔划区域确定为属于同一文本行；以及

根据回归误差计算所述代表置信度的计算中的权重系数。

附记9.如附记1所述的方法，其中

所述合并真实笔划区域步骤包括：

根据笔划区域之间的距离确定笔划区域之间的连接关系；

去除属于不同文本行的笔划区域之间的连接关系；以及

去除属于不同字的笔划区域之间的连接关系。

附记10.一种图像中文本区域定位装置，包括：

估计单元，用于估计输入图像中每个像素周围可能存在的文本大小；

提取单元，用于根据所述文本大小和区域差异度从所述输入图像中提取候选笔划区域；

确定单元，用于从所述候选笔划区域中确定真实笔划区域；以及

合并单元，用于合并所述真实笔划区域以形成文本区域。

附记11.如附记10所述的装置，其中所述估计单元包括：

图像金字塔产生单元，用于基于所述输入图像产生多级金字塔图像；

估计子单元，用于估计每一级的金字塔图像中每个像素周围存在文本的概率；以及

计算单元，用于根据所述概率和对应金字塔层级的文本大小计算所述输入图像中每个像素周围可能存在的文本大小。

附记12.如附记10所述的装置，其中所述提取单元包括：

差异度计算单元，用于对所述输入图像中的相邻区域计算区域间差异度和区域内差异度；

调整单元，用于根据所估计的输入图像中每个像素周围可能存在的文本大小估计区域周围可能存在的文本大小，并根据所估计的区域周围可能存在的文本大小调整各个区域内差异度；以及

相邻区域合并单元，根据相邻区域的区域间差异度和所述相邻区域的调整后的区域内差异度合并所述相邻区域。

附记13.如附记10所述的装置，其中所述确定单元包括：

相关确定单元，用于确定候选笔划区域中彼此相关的候选笔划区域；

假设组合单元，用于产生关于输入图像中的所有候选笔划区域的每一个是否是真实笔划区域的多种假设组合；

置信度计算单元，用于对于每种假设组合，基于所述假设组合及各个候选笔划区域中的像素的特征计算各个候选笔划区域的第一置信度，并基于所述假设组合及彼此相关的候选笔划区域中的像素的特征计算与第一置信度对应的第二置信度，然后根据所述第一置信度和所述第二置信度，计算出该假设组合下的代表置信度；

确定子单元，用于将代表置信度最高时对应的假设组合作为确定真实笔划区域的结果；以及

附记14.如附记13所述的装置，其中所述相关确定单元根据候选笔划区域的尺寸信息和候选笔划区域之间的距离判断所述候选笔划区域是否相关。

附记15.如附记13或14所述的装置，其中所述置信度计算单元在特征空间中对候选笔划区域进行拟合，将属于同一拟合曲线的候选笔划区域确定为属于同一文本行；以及根据回归误差计算所述代表置信度的计算中的权重系数。

附记16.如附记10所述的装置，其中所述合并单元包括：

连接单元，用于根据笔划区域之间的距离确定笔划区域之间的连接关系；

分行单元，用于去除属于不同文本行的笔划区域之间的连接关系；以及

分字单元，用于去除属于不同字的笔划区域之间的连接关系。

Claims

1.一种图像中文本区域定位方法，包括如下步骤：

估计输入图像中每个像素周围可能存在的文本大小；

从所述候选笔划区域中确定真实笔划区域；以及

合并所述真实笔划区域以形成文本区域。

2.如权利要求1所述的方法，其中

基于所述输入图像产生多级金字塔图像；

3.如权利要求1所述的方法，其中

所述提取候选笔划区域步骤包括：

根据所估计的输入图像中每个像素周围可能存在的文本大小估计区域周围可能存在的文本大小，并根据所估计的区域周围可能存在的文本大小调整各个区域内差异度；

4.如权利要求3所述的方法，其中

5.如权利要求3或4所述的方法，其中

所述提取步骤起始时的相邻区域是相邻像素；以及所述区域差异度包括色差。

6.如权利要求1所述的方法，其中

所述确定真实笔划区域步骤包括：

确定候选笔划区域中彼此相关的候选笔划区域；

7.如权利要求6所述的方法，其中

8.如权利要求6或7所述的方法，其中