CN1174344C

CN1174344C - 数字摄像机图像中字符定位的方法及装置

Info

Publication number: CN1174344C
Application number: CNB021403597A
Authority: CN
Inventors: 汪孔桥; J·坎加斯
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2001-06-26
Filing date: 2002-06-26
Publication date: 2004-11-03
Anticipated expiration: 2022-06-26
Also published as: EP1271403A1; DE60109278T2; US7327882B2; US20030035580A1; CN1395220A; EP1271403B1; DE60109278D1

Abstract

公开了用于利用图像分层处理在数字图像中定位字符的一种方法，其特征在于以下步骤：将所述数字图像的数字数据变换为标准化数字彩色图像数据以及数字灰度级图像数据；丢弃所述数字彩色图像数据和/或所述数字灰度级图像数据的冗余分量；按照分层处理从所述未丢弃的灰度级和标准化彩色图像数据中生成二值图像层；以及对所述二值图像层采用识别算法来识别可以表示所述数字图像中包含的字符或字符的部分的连通分量。此外，提供了一种用于执行上述方法的计算机程序、计算机程序产品以及装置。

Description

数字摄像机图像中字符定位的方法及装置

技术领域

本发明涉及一种字符定位方法。它还涉及具有最少使用计算能力的数字摄像机图像中的字符定位。更具体地说，本发明涉及基于简单健壮连接连部件的用于数字图像的场景字符定位算法。

背景技术

在象图像或视频数据库这样的场中，作为描述符的字符是关键对象。它普遍存在于标志、指示、布告栏、视频序列、文本文档等。因此，字符提取及识别非常重要，并且得到相当多的应用。例如，借助于光学字符识别(OCR)技术，象移动电话的信息装置的可用性将会更为强大。可以根据一帧或若干帧中提供的识别字符来自动对视频序列进行标注或索引。然而，由于以下原因，从图像中，尤其是从场景图像中进行字符定位及提取是相当困难的。

首先，字符是与诸如结构栏、公司徽标以及污迹的其它对象一起嵌入在图像中的。

其次，字符可能以任何色彩着色或印制，并且背景色彩可能与字符色彩之间只有细微的差别。

第三，字符的字体、大小及格式可能不同；最后，照明可能不均匀。

在S.Antani等人的“视频中文本可靠的提取”(Proceedings of IEEE15th International Conference on Pattern Recognition.831-834)中描述了以前为解决这些问题而进行各种尝试。在这篇文章中，S.Antani等人利用视频的时间冗余度从通用视频中检测及提取无约束种类的文本。这是通过结合对单帧的子像素插值、跨时间多帧集成、字符提取过滤以及基于识别的字符分割来进行的。

Yu Zhang等人的“压缩视频中的自动字幕局部化”(IEEETransaction on PAMI.22(4)：385-392，2000)中描述了解决这些问题的另一种尝试。根据在离散余弦变换(DCT)域中编码的亮度变化信息，Yu Zhang等人提出了JPEG压缩图像及MPEG压缩视频的I帧中的快速文本字幕方法。

但是，上述尝试中的大多数是集中在有限字符或可控制背景。上述模式识别算法的方法都具有一个共同点：它们均要求极高的计算能力。因此，由于较低的计算能力或较低的电池容量，这些方法不适合用于移动装置，诸如移动终端装置、移动摄像机、移动电话或便携计算机。

发明内容

本发明的一个目的是提供一种在具有复杂背景的场景图像中健壮的字符定位方法，它可用作OCR系统和基于感兴趣区域(ROI)的可视传输系统(visual transmission system)等的一个整体部分。

本发明的另一个目的是减少需用计算能力，用于加快字符定位方法。

本发明的另一个目的是减少需用计算能力，用于减少字符定位算法的功耗，以使移动装置在移动装置中执行这种方法。

根据本发明的第一方面，提供一种利用图像分层处理在数字图像中定位字符的方法。该方法的特征在于以下步骤：首先把数字图像的数字数据转换成标准化数字彩色图像数据以及转换成数字灰度级图像数据，然后再丢弃标准化数字彩色图像数据和标准化彩色图像数据的冗余分量。然后，根据分层处理生成所述未丢弃的灰度级和标准化彩色图像的二值图像(binary image)层，随后再识别能表示二值图像层中字符的连通分量。

该方法主要采用了字符定位的四种不同原理：第一是标准化彩色空间，第二是丢弃彩色空间中冗余元素，第三是彩色分层处理，以及第四是识别相应彩色分层中的连通分量的算法。因此，使用哪种色彩并不重要。人眼只能察觉波长约390至770nm之间的光线，这一事实并不会使视觉系统限制于此有限的波长范围之内。所述方法可以运用于适合图像系统的所有可能的波长范围和所有可能的彩色空间。本发明的原理可以运用于红外线(IR)或紫外线(UV)摄像机的图像，只要这些图像是“彩色”图像。所选彩色空间可以是基于三分量的彩色空间，如红-蓝-绿(RGB)、色泽-饱和度-亮度(HSI)、青-洋红-黄(CMY)、青-洋红-黄-黑(CMYB)、CIE、YIQ等。甚至其它多分量彩色空间也可用于本发明，它可以包含人眼看不见的波长范围。本发明的主要特征是使用数字化彩色图像的数据，将该图像的彩色数据变换为标准化的彩色空间，并丢弃结果数据集的冗余元素。标准化彩色数据与图像中的阴影无关，并且彩色空间的维数可以至少降低一维。如果灰度级图像数据仅包含冗余数据，那么该方法甚至可以将灰度级图像数据丢弃。如果彩色空间可以减少附加维数，例如，如果某个直方图没有包含可检测的极值，或者某个分层算法只检测到一层，则所述方法甚至可以包含附加步骤来检查标准化彩色数据。

要指出，所述方法也可以用于“黑白”图像中。数字图像是彩色图像格式还是灰度级图像格式并不重要。所述方法可以包含附加步骤来检查图像格式，并跳过彩色标准化过程，从而节省计算资源。另一方面，如果算法检查标准化彩色数据的冗余度或零信息内容，则产生和丢弃标准化的数字彩色数据。在分层处理期间的最后，由于从“黑白”图像的标准化彩色数据中没能产生分层，所以丢弃冗余彩色层。

在图2中，结合RGB彩色空间来说明维数降低的方法。

通过计算表示所述数字灰度级图像数据和所述标准化数字彩色图像数据的频率分布函数的直方图，并根据所述计算的直方图所提供的极值来产生二值图像层，可以方便地产生二值图像层。

彩色分层又称作彩色群集，它是图像分析中的一个重要任务。它是将彩色图像划分组为不同层或群集的过程。要指出，各层中的所有像素都应当具有同种色彩。

所述方法并不限于基于直方图的分层算法。任何适合于生成特征相关层的其它分层算法都是适用的。分层处理的一个示例称作彩色量化。在该处理中，图像的每个分量均被减少，例如从256减少到更少的级，如4级。然后，对不同的量化彩色级进行分组，以获得彩色层。

最好是，在生成二值图像层之前对直方图进行处理，以便去除直方图中的任何噪声极值。直方图处理的使用将在图3和图4中进行说明。

有利的是，识别连通分量的识别算法对二值图像层采用基于黑色邻接图(BAG)的算法来识别可以表示包含在数字彩色图像中的字符的连通分量(CC)。

本发明的方法不限于使用基于BAG的算法。搜索连通分量的任何算法都是适合的，例如基于像素的对象群集、Mark MW、基于形态学处理(morpological processing)的边缘跟踪(lip-tracking)系统和块匹配技术(e.g.，pixel based object clustering Mark M W，Alip-trackingsystem based on morpological processing and block matching techniques，Signal Processing：Image Communication 1994，6：335-348。)

有利的是，连通分量的上、下、左、右边界被记录为二值图像层中的边界框。例如，在图6中描绘了边界框。

二值图像层方便地映射到单个平面。

最好是，根据二值图像层或单个平面中边界框的预定大小值及位置来丢弃或保留各边界框。根据边界框、连通分量(CC)或字符的特征，可以删除那些包含太大面积或连接到所分析图像的边界的CC。要指出，不考虑连接到图像边界的那些CC是合理的，即使它们可能是字符或字符的部分，这是因为观测者也许对存在于图像中心的字符更感兴趣。连接到边界的CC可能只是某个字符或一行字符的一部分，使随后可能进行的字符识别算法或对齐和合并分析方法可能产生错误结果。

有利的是，对边界框采用对齐与合并分析(AMA)方法，来定义边界框的大小及位置关系，合并不同的边界框，以及丢弃在大小和/或位置方面无关的所有边界框。图6中说明了AMA方法。在图中，由数字标记的各框表示连通分量(CC)框或边界框，它可能是一个完整字符或是某个字符的一部分。连通分量种子(CCS)给出了可能的要定位字符的大小。在AMA之后，该算法能定位四类可能的字符，即完整字符、合并字符、细长字符以及狭窄字符，例如，字符“王”和“汪”分别是完整字符和合并字符，而“一”是狭窄字符，数字“1”或大写字母“I”是细长字符。

对边界框的内容方便地采用字符区域算法的标识，以便确定该边界框是否包含字符。有关字符标识算法示例的详细说明，请参阅图7。

最好是，在数字化的彩色图像数据被变换为标准化的数字彩色数据之前，对数字化的彩色图像数据进行预处理。图像数据的预处理可用来删除错误分量或噪声。

有利的是，预处理是通过基于加权中值过滤的各向异性扩散(WMFAD)方法来执行的。WMFAD方法可用来去除来自摄像机的输入彩色场景图像中的噪声。这可以扩展到彩色图像。它不仅具有传统的各向异性扩散(TAD)方法的优点，而且还有效地去除具有高反差的小规模特征，比如自然场景中的污迹。TAD和WMFAD方法的原理在图1中进行了描绘和说明。

根据本发明的另一个方面，提供一种用于执行图像中字符定位的方法的计算机程序，它包含程序代码方法，用于在所述程序运行于计算机或网络装置时执行前面描述的所有步骤。

根据本发明的另一个方面，提供一种计算机程序产品，它包含储存在计算机可读媒体中的程序代码方法，用于在所述计算机产品运行于计算机或网络装置时执行前面描述的图像中字符定位的方法。

根据本发明的另一个方面，提供了一种装置，用于执行一种利用图像分层处理在数字图像中定位字符的方法，所述方法的特征在于以下步骤：将所述数字图像的数字数据变换为标准化数字彩色图像数据以及数字灰度级图像数据；丢弃所述数字彩色图像数据和/或所述数字灰度级图像数据的冗余分量；按照分层处理从所述未丢弃的灰度级和标准化彩色图像数据中生成二值图像层；以及对所述二值图像层采用识别算法来识别可以表示所述数字图像中包含的字符或字符的部分的连通分量。按照所述方法的一个方面，所述二值图像分层由以下步骤生成：计算表示所述数字灰度级图像数据和所述标准化数字彩色图像数据的频率分布函数的直方图；根据所述计算的直方图中出现的极值来生成二值图像层。按照所述方法的另一个方面，处理所述直方图，以便在生成所述二值图像层之前去除所述直方图中的任何噪声极值。按照所述方法的另一个方面，识别连通分量的所述识别算法是基于黑色相邻图形的算法。按照所述方法的另一个方面，所述连通分量的上、下、左、右边界在所述二值图像层中被记录为边界框。按照所述方法的另一个方面，所述二值图像层被映射到单一平面中。按照所述方法的另一个方面，根据所述二值图像层或所述单一平面中所述边界框的预定大小值和位置来丢弃或保留各边界框。按照所述方法的另一个方面，对所述边界框采用对齐和合并分析方法，来定义所述边界框的大小及位置关系，合并不同的边界框，以及丢弃在大小和/或位置方面无关的所有边界框。按照所述方法的另一个方面，对所述边界框的内容采用字符区域算法来标识，以便确定所述边界框是否包含字符。例如，这些有用的特征可以结合到摄像机或可携式摄像机中。

最好是，该装置是一种移动终端。这种移动终端能被结合到象移动电话的其它装置中，以便提供例如附加特征。例如，结合了摄像机的移动电话能使用根据本发明的字符定位功能，来产生例如书写文本的SM(短消息)或传真。采用了摄像机之后，移动终端装置将不需要包含内置或独立的扫描槽。此外，这种移动电话可以做得很小。要改进这种光学字符识别(OCR)—/扫描仪—功能，移动装置可以包含至少一个激光器二极管，以便显现扫描对象上所选的部分。激光器二极管的射束可用来向移动装置的光学系统提供“自动聚焦”功能。

附图说明

下面将参照附图来详细说明本发明，附图中：

图1说明TAD预处理方法；

图2说明由于使用标准化彩色空间而引起的彩色空间的维数降低；

图3和图4是彩色分层处理中直方图极值减小的方法的示例；

图5说明从直方图极值中包含的信息产生二值层的原理；

图6说明基于连通分量的对齐与合并分析(AMA)方法的原理；

图7是字符区域标识的示例。

具体实施方式

图1说明数字彩色图像中平滑推理的TAD方法。来自数字摄像机的任何场景图像均受到噪声污染。有两种噪声：一种是随机噪声，主要是由摄像机本身所引起；另一种是“胡椒粉-盐”噪声(pepper-saltnoise)，是由自然场景中的污迹所引起。在图像的彩色分层之前，应尽量将其去除，否则，就无法获得良好的彩色分层结果。减少这种“胡椒粉-盐”噪声的一种方法是对场景图像上使用各向异性扩散。传统各向异性扩散(TAD)的4连通离散近似法是通过下式实现的。

I (t + 1) = I (t) + λ \underset{D}{Σ} C_{D} {&dtri;}_{D} I (t) D &Element; {N, E, S, W} - - - (1)

其中，是梯度算子。

C_{D} = e^{- {(V_{D} I / K)}^{2}}

(K是常数)，是传导系数，它是空间变化的，并且在同种区域中选择得大，以便促进平滑，而在边缘处又选择得小，以便保持结构(图1)。完全根据局部梯度来作为各向异性扩散系数确实创建一种能在保持边缘定域性的同时平滑图像的过滤。但是，它无法去除具有高反差的小规模特征。这种特性使各向异性扩散不适合于去除某个特定噪声，比如说”胡椒粉-盐”噪声。要解决这个问题，基于加权中值过滤的各向异性扩散(WMFAD)方法被采用，并被扩展到彩色图像。

计算亮度分量Y，然后利用加权中值过滤对其进行过滤，以便得到median(Y)。

根据median(Y)来计算各向异性扩散系数。根据相同的传导系数，将各向异性扩散处理分别应用于彩色图像分量(例如分别应用于彩色图像的三分量R、G、B)上以及平滑的彩色图像上。

将新的非线性传导系数代入(1)产生WMFAD方法：

C_{D} = e^{{- (V_{D} median (Y) / K)}^{2}}

其中，Y是所处理的彩色图像的照度分量；median(Y)是通过掩码对Y加权中值过滤的结果：

[\begin{matrix} 1 & 1 & 1 \\ 1 & 3 & 1 \\ 1 & 1 & 1 \end{matrix}]

将WMFAD方法分别应用于彩色图像的一些分量上，例如应用于彩色图像的三分量(红、绿以及蓝)，即：令I∈{R，G，B}，实现彩色图像的预处理。

图2说明由于使用标准化彩色空间而引起的彩色空间的维数降低。彩色分层又称作群集，它是图像分析中的一个重要任务。它是将彩色图像分组为不同层或群集的处理，要指出，每层中的所有像素都应当具有同种色彩。为了便于场景图像中的字符检测，字符定位方法使用彩色分层方法，以便群集场景图像中所有像素。因此，字符和背景分别被分组到不同的层。

目前所用的不同彩色空间包括：红蓝绿(RGB)、标准化RGB(rgb)、色泽-饱和度-亮度(HIS)、青-洋红-黄(CMY)、青-洋红-黄-黑(CMYB)、CIE、YIQ等。但是，经常使用RGB、标准化RGB(rgb)以及HIS彩色空间。RGB空间是基本的彩色空间。RGB空间中的每个分量可以直接从BITMAP图像格式中获得，并且它们都是高度相关的，而不是相互独立的。从人的彩色感觉来看，HSI空间是极为普遍的。它通过色泽、亮度以及饱和度分量来描述色彩，典型的定义由下式给出：

因此，arctan(y/x)采用y和x两个的符号来确定结果角度所在的象限。通常认为色度是作为基准线和RGB空间的彩色点之间的角度。但是，从RGB到HIS的非线性变换具有一个不好的特性：在HSI色圆柱的轴上具有不可去除的奇点(singularity)，其中R＝G＝B(饱和度＝0)，从而引起不方便的计算。标准化的RGB(rgb)也源于RGB空间。其变换公式为：

从上述变换公式可以看到，r、g、b三分量的其中一个分量是冗余的，也就是说，这三分量其中的任意两个就能够描述整个彩色空间。因此，变换过程将彩色信息从三维压缩到二维(如图2所示)，这对于彩色空间处理是有用的。从图像处理的角度来看，虽然标准化的RGB(rgb)空间与人的视觉不是一致的，但它会减弱光照的影响。图2说明经2D rgb平面从3D RGB空间到2D rg平面的变换过程。在图中，标准化的RGB(rgb)空间用作彩色分层空间。很明显，这个原理可以用于任何彩色空间。很明显，除了rg平面之外，还可以选择其它的任何彩色平面，如gb或rb平面。

图3和图4说明一个主要的基于直方图的彩色分层算法。对于由平缓变化的区域所组成的灰度级图像，该图像的这些区域通常与其直方图的峰值对应。如果精确地检测并分割了这些峰值，图像的这些区域则可以成功地由对应的谷值或峰值来分割。但在现实生活中，任何图像都受到噪声的污染。噪声总是产生叠加在实际峰值上的噪声峰值，从而使图像分割不可靠。图3说明某个图像的直方图。根据直方图，该图像实际上包含四个平缓变化的区域，但由于噪声失真，检测到九个谷值V1至V9(十个峰值)位于直方图中。如果图像由这九个谷值来进行分层，则得到十层，而不是得到四层。图3是一个直方图，其中，噪声极值叠加在一个谷值的实际极值上。图4是对一个谷值的左、右高度的说明。迄今为止，已经研制出了许多用于去除噪声极值的技术，例如基于指纹的标度空间过滤策略。但是，本文提出了一种用于这项任务的简单健壮的算法。

该算法分为以下四个步骤(参阅图3)：

步骤1：初始化。计算每个谷值的左右高度(如图3所示)。

设置谷值左右高度的阈值。

步骤2：去除噪声谷值。左和右高度均小于所设置的阈值的任何谷值将被去除，例如V6和V8。这种噪声谷值被定义为第一类噪声谷值。左或右高度(如图4所示)小于所设置的阈值的任何谷值将会去除，如V1、V3、V4、V7以及V9。这种噪声谷值可被定义为第二类噪声谷值。

步骤3：生成新的谷值。如果在第二类的任意两个噪声谷值之间存在第一类的一个或一个以上噪声谷值(没有其它谷值)，则产生位于这两个第二类噪声谷值中间的新谷值，如V10。

步骤4：结束。其余谷值(如V2和V5)及新产生的谷值(如V10)被看作是图像分层的实际谷值。

要指出，新产生的谷值可能不精确，但对分层结果的影响并不大。此外，还要指出，一种模拟算法可以用于通过减少直方图中峰值的数量，来平滑直方图。

图5说明从直方图极值所包含的信息中产生二值层的原理。在上述直方图产生和极值减少方法的基础上，对彩色分层的说明变得简单。对于任何彩色图像，需要首先计算其标准化分量，如标准化RGB(r，g，b)。实际上，只需要两个分量，这里选择了r和g分量。然后，分别对r和g的直方图进行计数。最后，通过将上述噪声极值去除步骤运用于两个直方图其中的每一个，就可以根据下式将彩色图像分组为若干个群集(称作彩色层)：

cluster (u) = Σ_{r = rV (m)}^{rV (m + 1)} r (x, y) \cap Σ_{g = gV (n)}^{gV (n + 1)} g (x, y) .

因此，x和y是图像的行和列，u是分组层或群集的索引，“∩”是逻辑“与”运算符。图5说明一个实施例，其中，对于r分量有两个谷值，而对于g分量只有一个谷值，所以该彩色图像被分组为六层(每个矩形表示一个层或群集)。但是，包含少量像素的矩形不能看作是有效层。在该算法的一个附加步骤中，可以相对于绝对阈值或相对阈值来检查一层中像素的数量。如果低于阈值，则可以丢弃该矩形或相应的层。另一方面，对包含在每个矩形中像素的数量进行计数，只有所含像素的计数数量大于预定阈值的矩形才被宣布为有效层。在图5中，标准化的彩色平面根据谷值进行分组。能按峰值的最大值并根据例如峰值半宽值的坐标来定义一个层。还可按峰值的最大值并根据例如到相邻峰值的距离的一半来定义一个层。这里要强调的是，在字符(前景)和背景均为灰色的条件下，例如在字符是黑色而背景是白色的条件下，可能无法得到良好的分层结果，因为不同的灰度具有相同的标准化色彩，即r＝1/3，g＝1/3。但是，其亮度往往是不相同的。作为增强的手段，从对应彩色图像变换的灰度级图像参照其灰度直方图来进行分层。为方便起见，所有这些灰度层和彩色层均命名为二值层。在分层操作之后，彩色图像被分组为不同的彩色层。实际上，每个层都是二值层，这表示每个二值层的每个像素都具有1位的信息内容，例如，二值层的像素是黑的或白的。

图6说明基于连通分量的对齐和合并分析(AMA)方法的原理。在分层操作之后，彩色图像被分组为不同的二值层。实际上，每个二值层都是类似于图7所示点阵的二值图像。为了检测可能的字符，对彩色层中每个连通的黑色部分(又称作连通分量)进行的分析是必要的。一种常用的分析方法是以黑色邻接图(BAG)为基础的。所分析的二值图像作为BAG呈现。基于BAG的CC分析可以在计算中以低的代价来保持各CC的形状和结构信息。基于BAG的CC分析结果是各彩色层连通分量(CC)的列表。可以记录各CC的上、下、左以及右边界。根据字符的特征，应当首先删除那些具有太大区域的或者连接到所分析图像的边界的CC。要指出，不考虑连接到图像边界的那些CC是合理的，即使它们可能是字符或字符的部分，因为观测者往往对存在于图像中心区域的字符更感兴趣。有时，某些CC的边界框相互连接，其中的每一个都是相同字符的一部分(假定它们组成一个字符)，所以按照以下条件来合并这些CC会是有用的：

\frac{s}{\min (s_{1}, s_{2})} > {Th}_{1} .

S1和S2分别是两个连通CC边界框的区域，S是其叠加区域。Th1是预定的或计算的绝对或相对阈值。对这两个CC边界框进行合并，从而产生一个新的合并边界框，为简便起见，也将其看作是CC边界框。最后，删除具有太小区域的CC。

在许多语言中，尤其是在汉语和日语中，字符通常由一个或多个笔划组成，并且组成一个字符的不同笔划往往不是相互连接的。所以，一个字符往往包含一个以上的CC边界框。在每个彩色层中，某些相邻的CC需要适当地进行合并，以便得到完整的字符。如果任何两个相邻字符相隔较远，那么CC可以正确地进行合并，以便经过根据CC之间位置或大小所设置的某些距离阈值来得到整个字符。但是，如果两个相邻字符距离很近，那么上述简单的合并方案就无法用来得到良好的结果。

但是，在现实中，字符直观地按行或列来呈现，并且排列在一行或一列中的字符均具有相同的大小。以下健壮对齐和合并分析(AMA)方法利用了这两个典型的特征。

对于彩色层中的对齐和合并分析，关键在于选择正确的连通分量种子CCS。一旦选择了CCS，它们将作为参考，按照字符的大小及其对齐关系来找出彩色层中其它可能的字符。如果某个CC是一个完整字符，那么其高度(CCH)和宽度(CCW)应当满足公式：

\frac{CCW}{CCH} > {Th}_{3}

\frac{CCH}{CCW} > {Th}_{2}

其中，Th₂和Th₃是预定的或计算的绝对或相对阈值。对于汉语或日语字符，Th₂和Th₃可以相等。

在每个彩色层中，满足上述公式的CC可以定义为CCS。这些CCS看作是缺省的可能字符，并且其它任何CC只能是可能字符的部分。

AMA方法包括两个部分：行分析和列分析。由于在方法论中这两种分析是类似的，所以只给出行分析的详细情况。在一个彩色层中，每个CC(k)的位置由边界框RECT(k)来记录(如图6所示)。在AMA行分析过程中，将每个CCS作为参考，按照某些规则，例如对齐CCS、CCS所定义的范围等，分别找出CCS左侧和右侧的可能字符，然后在CCS行中，从左向右重新排列所有找出的候选者(包括CCS)，以便记录。候选者的数量被分配给每个候选者作为其行对齐值。

AMA行分析可能的实施例可以结合图6说明如下：

(A)在每个彩色层中，计算各CC的中心点(CP)(只对边界框1的情况进行说明)；

(B)参照CCS(k)，按照下列条件来确定可能字符的范围：

Up_Max＝RECT(k，Up)-k1*RECT(k，Height)，

Up_Min＝RECT(k，Up)+k1*RECT(k，Height)，

Bottom_Max＝RECT(k，Bottom)+k1*RECT(k，Height)，

Bottom_Min＝RECT(k，Bottom)-k1*RECT(k，Height)，

Max_Width＝(1+k2)*RECT(k，Width)，

Min_Width＝(1-k2)*RECT(k，Width)，(0＜k1，k2＜0.5)；

(C)从RECT(k，Right)到图像的右边界，从Up_Max到Bottom_Max，搜索中心点位于该区域中的所有CC框。假定其中心点为CPO(i)，i＝0，1，2，......，n。令I为1，开始对齐和合并分析处理；

(D)输入中心点为CP(i)的RECT(i)；

(E)若RECT(i)满足条件：

Up_Max＜RECT(i，Up)＜Up_Min，

Bottom_Min＜RECT(i，Bottom)＜Bottom_Max，

Min_Width＜RECT(i，Width)＜Max_Width，

则CC(RECT(i))被记录为一个完整的可能字符，i加1，再转向(D)，继续搜索下一个候选者，或者转向(F)；

(F)合并RECT(i)及RECT(i+1)以得出合并的边界框MRECT(i，i+1)；

(G)若MRECT(i，i+1)满足以下条件之一：

MRECT(i，i+1，Up)＜Up_Max，

MRECT(i，i+1，Bottom)＞Bottom_Max，

MRECT(i，i+1，Width)＞Max_Width，

则转向(H)；若MRECT(i，i+1)满足条件：

Up_Max＜MRECT(i，i+1，UP)＜Up_Min，

Bottom_Min＜MRECT(i，i+1，Bottom)＜Bottom_Max，

Min_Width＜MRECT(i，i+1，Width)＜Max_Width，

则MRECT(i，i+1)是一个合并的可能字符。在i加1之后，转向(D)，继续搜索下一个候选者；或令RECT(i+1)←MRECT(i，i+1)，在i加1之后，转向(F)，继续合并随后的CC框。

(H)在合并的边界框MRECT(i，i+1)中若有CC框RECT(x)满足下列条件：

Up_Max＜RECT(x，Up)＜Up_Min，

Bottom_Min＜RECT(x，Bottom)＜Bottom_Max，

RECT(x，Width)＜3*RECT(x，Height)，

则该CC为细长的可能字符，例如数字“1”、英语字母“I”等；若边界框RECT(x)满足下列条件：

Up_Min＜RECT(i，Up)，RECT(i，Bottom)＜Bottom_Min，

Min_Width＜RECT(i，Width)＜Max_Width，

RECT(i，Height)＜3*RECT(i，Width)，

则CC是狭窄的可能字符，例如字符“一”。若i＝n，则转向(I)，否则，转向(D)并继续搜索下一个候选者；

(I)上述方法适合分析位于CCS边界框左侧中的所有CC边界框，也可能得到某些可能字符。所有可能字符(包括CCS)需要从左到右重新排列，并对可能字符的数量进行计数。该数量是可能字符的行对齐值；

(J)当完成了CC层中每个CCS的AMA行分析时，退出彩色层的行分析处理；否则，转向(B)，开始新的CCS边界框的AMA行分析。如图6所示，0号边界框被记录为CCS。在其AMA行分析之后，可以搜索合并的可能字符(由1、2、3号框组成)、细长的可能字符(由5号框组成)以及狭窄的可能字符(由6号框组成)。它们的对齐值为4。其余框(4、7、8、9、10号)不是字符或者不是字符的部分。AMA列分析与其行分析类似。唯一的不同之处在于可能字符的对齐值的分配。如果一个可能字符在其AMA行分析后分配了对齐值ALIGN1，并且在其列分析之后在可能字符列中搜索到ALIGN2可能字符，则该可能字符的对齐值不一定是ALIGN2，而是ALIGN1和ALIGN2之间较大的那一个。

在AMA分析之后，二值层中每个可能字符均具有对齐值。在标识所有可能字符之前，对可能字符进行的预选可以运用于丢弃某些字符错误告警。

首先，如果两个可能字符的框区域及其叠加区域分别为S1、S2以及S，并且它们满足：

\frac{s}{\min (s_{1}, s_{2})} > k_{4}

(k4是某个阈值)，则应当丢弃具有较小对齐值的可能字符。

其次，如果隔离了对齐值仅为1的可能字符，则应当将其丢弃；另一方面，如果对齐值为一的可能字符与其它对齐值大于1的字符连接，则应当将其保留。

应当注意，AMA中所使用的行和列可以进行缝合(sew)或偏斜(incline)，以便补偿摄像机的错误调整，消除线路影响及光失真。

图7是字符区域标识的一个示例。字符区域的标识包括分析从前一阶段中定位的所有可能的字符，以便消除字符错误报警。各种探试性技术的组合可以用来实现这个目的。依次运用以下准则：

(1)如果候选区域确实包含字符，则该区域应当具有足够的对比度，也以是说，该区域的直方图应具有良好的双峰分布，具有两个对应于该字符及其背景亮度的峰值。测量对比度的一个简单方法是构造累计直方图并划分高和低两个灰度级，使得：

低＝总像素的10％位于其下的灰度级；

高＝总像素的90％位于其下的灰度级。

高和低之间的不同可以用于检查候选区域的对比度。在实际标识中，可以设置候选区域对比度的两个阈值。较大的用于整个可能字符及合并的可能字符，而较小的用于细长的及狭窄的可能字符。

(2)包含一个或一个以上笔划，例如包含水平笔划、垂直笔划等的字符结构可以用来消除某些字符错误报警。如果候选区域已进行了二值化，那么从图7中可以看到，黑像素属于字符，而白像素则属于背景，反之亦然。从左到右、从上到下地逐行扫描该区域，搜索所有水平段。水平段定义为一行中连续的黑色像素的集合。在每一行中，如果存在长度大于(5/6)*W(W是区域的宽度)的水平段，则该行标记为1或0。在扫描完成之后，该算法从上到下搜索标记为1的连续行。标记为1的连续行的数量一般看作是水平笔划的宽度。对于整个字符或合并字符，标记为1的连续行的数量不应该大，如小于(1/3)*H(H是字符区域的高度)，同时，如果候选者为真，则一个字符中没有太多水平笔划。对于狭窄字符，连续行的数量应当比候选区域的高度大得多，如大于(5/6)*H，因为在狭窄字符中只有一个水平笔划。作为相同的规则，该算法可以搜索候选区域中的所有垂直段。垂直段可以定义为一列中连续的黑色像素的集合。然后，与以上方案类似的方案被用来标识整个、合并或细长的可能字符。

(3)字符直观地按行或列对齐。在字符的粗略检测阶段，该方法采用AMA算法来定位每个彩色层中的所有可能字符(如图6所示)。在所有彩色层中可能字符的边界框均被映射到相同平面之后，不应当改变字符的对齐特性。在此步骤，该方法采用AMA算法的对齐方案来对齐所有可能字符，并计算其对齐值。如果一个候选者的对齐值正好等于1并被隔离，那么它便被看作是字符错误报警。

(4)字符识别有助于消除某些字符错误报警。如果无法识别某个可能字符，那么这个字符肯定不是真字符。在此步骤，该方法采用从字符识别软件包所计算的识别距离来标识可能字符。识别距离说明可能字符和真字符之间的相似性。距离越大，候选者为真的可能性就越小。

所述应用借助于示例说明了本发明的实现和实施例。本领域技术人员将知道，本发明并不限于以上实施例的细节，在不脱离本发明的特征的情况下，本发明能以其它形式来实现。以上所提供的实施例应当看作是说明性而不是限制性的。因此，实现及使用本发明的可能性仅受后附权利要求书的限制。所以，权利要求书所确定的实现本发明的各种选项，包括等效实现，也属于本发明的范围。

Claims

1.一种用于利用图像分层处理在数字图像中定位字符的方法，其特征在于以下步骤：

-将所述数字图像的数字数据变换为标准化数字彩色图像数据以及数字灰度级图像数据；

-丢弃所述标准化数字彩色图像数据和/或所述数字灰度级图像数据的冗余分量；

-按照分层处理从所述未丢弃的灰度级和标准化彩色图像数据中生成二值图像层；以及

-对所述二值图像层采用识别算法来识别可以表示所述数字图像中包含的字符或字符的部分的连通分量。

2.如权利要求1所述的方法，其特征在于所述二值图像分层由以下步骤生成：

-计算表示所述数字灰度级图像数据和所述标准化数字彩色图像数据的频率分布函数的直方图；

-根据所述计算的直方图中出现的极值来生成二值图像层；

3.如权利要求2所述的方法，其特征在于处理所述直方图，以便在生成所述二值图像层之前去除所述直方图中的任何噪声极值。

4.如权利要求1所述的方法，其特征在于识别连通分量的所述识别算法是基于黑色相邻图形的算法。

5.如权利要求1所述的方法，其特征在于所述连通分量的上、下、左、右边界在所述二值图像层中被记录为边界框。

6.如权利要求1所述的方法，其特征在于所述二值图像层被映射到单一平面中。

7.如权利要求5或6所述的方法，其特征在于根据所述二值图像层或所述单一平面中所述边界框的预定大小值和位置来丢弃或保留各边界框。

8.如权利要求5所述的方法，其特征在于对所述边界框采用对齐和合并分析方法，来定义所述边界框的大小及位置关系，合并不同的边界框，以及丢弃在大小和/或位置方面无关的所有边界框。

9.如权利要求5所述的方法，其特征在于对所述边界框的内容采用字符区域算法来标识，以便确定所述边界框是否包含字符。

10.如权利要求1所述的方法，其特征在于还包括以下步骤：在将所达数字化图像数据变换为所述标准化数字彩色数据和数字灰度级图像数据之前，对其进行预处理。

11.如权利要求10所述的方法，其特征在于所述预处理是基于加权中值过滤的各向异性扩散(WMFAD)方法。