CN1685358A

CN1685358A - 图像中文本区域自动定位方法和系统

Info

Publication number: CN1685358A
Application number: CNA038235072A
Authority: CN
Inventors: 瓦利德·迈赫迪; 穆赫辛·阿德比利安; 陈立明
Original assignee: Ecole Centrale de Lyon
Current assignee: Ecole Centrale de Lyon
Priority date: 2002-07-31
Filing date: 2003-07-30
Publication date: 2005-10-19
Also published as: FR2843220B1; EP1525553A2; WO2004013802A3; AU2003269080A1; FR2843220A1; WO2004013802A2

Abstract

公开了一种用于在数字图像中自动定位文本区域的系统，该系统包括：转换单元(150；160)，用于把输入数字图像转换为二值图像；定位单元(170)，被应用于二值图像以定位可能文本区域；以及选择单元(180)，用于选择由定位单元(170)高亮显示的实际文本区域。定位单元(170)有利地设置有用于向二值图像应用至少一个形态学筛选器的装置，该二值图像是通过将数字图像转换为二值图像而获得的。选择单元(180)执行灰度级强度细分方法，该灰度级强度细分方法被应用于由转换单元(150；160)中包括的处理单元(160)提供的图像。

Description

图像中文本区域自动定位方法和系统

技术领域

本发明涉及图像中文本区域的自动定位方法和系统。

背景技术

有很多论文，例如Ohya，J.，Shio，A.，Akomatsu，S.的论文(题目：“Recognizing characters in scene images”，发表于IEEE Trans.On PAMI，Vol.16，No.2，pp.214-220，February 1994)，对关于自动识别数字图像中的字符的工作进行了描述。

这些光学字符识别(OCR)技术操作如下：首先，通过向灰度级图像应用局部阈值来形成二值图像。接着从二值图像中提取相关的分部(component)，以获得可能的字符区块(segment)。然后利用字符识别技术来检查每个可能的字符区块。

不幸的是，当把这些光学字符识别方法应用于具有复杂背景的数字图像如视频图像时，它们将引起两个严重问题。实际上，由于数字图像中存在各种噪声，所以将发现每个字符区块会被错误地分成多个相关的分部。而且，这些方法在计算开销方面成本非常大，因为它们对每个候选字符区块都将应用OCR技术。

为了限制要经受字符验证的区块数，Zhong，Y.，Kary，K.，Jain，A.K.的论文(题目：“Locating text in complex color images”，发表于“Pattern recognition”，Vol.28，No.10，1995，pp.1523-1535)，提出了两种自动检测彩色图像中的文本区域的特殊方法。第一种方法使用相关分部的分块。因为它预先假定字符是与图像中的其它对象分离的相关分部，所以对于视频图像很难使用。第二种方法基于空间变化的原理。事实上，文本区域的空间变化通常大于图像背景的空间变化。已经进行的尝试表明这有助于使文本检测变得容易，但是本质上还不够。

文献WO 01/69529 A2描述了一种定位数字图像中的文本的方法。在该方法中，首先对数字图像进行比例缩放，以产生具有不同分辨率的图像，然后使用神经网络来确定具有不同分辨率的图像中的像素是否为文本区域的部分。然后由环绕文本的初始框(initial box)表示获得的结果。然后利用具有自适应阈值的水平或垂直投影轮廓(projectionprofile)来检查这些环绕文本的初始框。

文献WO 00/63833描述了一种把图像分割成文本区域和无文本区域的方法。该方法使用简单的基于块的包括15个强度级的灰度级直方图空间量化。

因此，本领域已知的用于提取图像中文本的各种技术缺少可靠性或精确性，或者受限于具有特殊特征的图像。

发明内容

本发明的一个目的是消除现有技术系统和方法的缺点，并使能够可靠检测图像中的文本区域，从而使得由本发明的方法和系统定位的文本区域可以接着经受传统的光学字符识别处理以获得完整的文本。

本发明特别致力于使得即使在图像背景复杂的情况下，也可以在来自不同类型节目(广告、电视新闻、短篇或长篇电影等)的视频图像中定位文本区域，而不管文本的呈现，字符的不同类型和字体。

因此，本发明致力于，基于图像序列的语义内容，考虑到的指示不仅采用图像中出现的自然文本(例如街名或店牌)的形式，而且采用在拍摄之后的图像后处理中引入的人工文本(例如副标题)的形式，来进行搜索。

上述目的是通过一种在数字图像中自动定位文本区域的方法来实现的，该方法包括：第一步骤，用于把数字图像转换为二值图像；第二步骤，用于定位可能文本区域；以及第三步骤，用于选择实际文本区域。

用于定位可能文本区域的第二步骤有利地包括：对二值图像应用形态学操作以便在可能包含文本的原始图像中生成封闭块。

如果待处理图像还不是数字形式的，在对该待处理图像的模数转换中就可能涉及一个预备步骤。

根据本发明，第一步骤包括把数字图像转换为灰度级图像。

用于把数字图像转换为二值图像的第一步骤有利地包括用于把数字图像转换为灰度级图像的步骤、以及多分辨率化步骤，多分辨率化步骤使用插值法来把输入图像I转换为其大小为输入图像I的M倍的更低分辨率的输出图像J，其中0＜M＜1。

根据本发明的另一方面，用于把数字图像转换为二值图像的第一步骤包括二值化步骤，该二值化步骤使用阈值处理法来把输入灰度级图像I转换为二值图像BW，输入图像I中的值低于预定阈值的每个像素在二值图像BW中被转换为对应于黑色的值“0”，而输入图像I的所有其它像素在二值图像BW中被转换为对应于白色的值“1”。

如果同时使用了多分辨率处理和使用阈值法的二值化，则根据所设想的应用，可以交换这两种操作的顺序。

用于定位可能文本区域的第二步骤包括，按照可以适合本发明的特定应用背景的顺序，来应用多个不同的形态学掩模(morphologicalmask)。

更具体来说，用于定位可能文本区域的第二步骤包括应用一形态学掩模，以对二值图像应用一形态学操作，由此，如果在二值图像中一行或一列的端部处的像素的值都为“1”，则将值“1”赋给该行或该列的所有像素。

根据本发明的另一方面，用于定位可能文本区域的第二步骤包括应用一形态学掩模，以对二值图像应用一形态学操作，由此，如果在二值图像中限定在两行或两列上的矩形或正方形的对角线端部处的两个像素的值都为“1”，则将值“1”赋给该矩形或该正方形的所有像素。

在多分辨率化步骤之后，用于定位可能文本区域的第二步骤有利地包括初始步骤，由此应用一形态学掩模，以对二值图像应用一形态学操作，从而将值“0”赋给在两端处具有值为“1”的像素并且长度大于一阈值的每行或每列的所有像素，所述阈值对应于从多分辨率化步骤获得的图像的尺寸的一个小于100％的百分比。例如，如果行方向是优先方向，则这个阈值可以是由多分辨率化步骤获得的图像的宽度的75％。

根据本发明的另一方面，用于定位可能文本区域的第二步骤可以首先应用一形态学掩模，以对二值图像应用一形态学操作，由此将值“0”赋给二值图像中每个由值都为“0”的像素包围的像素。

在一特定实施例中，在用于定位可能文本区域的第二步骤中，仅对二值图像的行应用所述形态学操作。

在这种情况下，在第一实现中，将由位图G表示的灰度级图像转置成由转置位图^tG表示的转置图像，并对该转置位图^tG应用用于定位可能文本区域的第二步骤的仅涉及二值图像的行的形态学操作。

在第二实现中，通过使用转置形态学算子(operator)，仅针对二值图像的列对由位图G表示的灰度级图像G应用用于定位可能文本区域的第二步骤的形态学操作。

根据本发明的有利特征，用于选择实际文本区域的第三步骤包括一预备步骤，该预备步骤用于分离属于图像背景的像素，在此期间，对灰度级图像的强度进行了细分。

在这种情况下，在第一实现中，在用于分离属于图像背景的像素的预备步骤中，根据函数v＝f(a)将范围[O，L]中的每个灰度级映射到范围[O，L]中的灰度级v，在范围[O，L]中，O对应于黑色级而L对应于白色级，其中

其中，u是表示O到L间的灰度级值的常数。

在另一实现中，在用于分离属于图像背景的像素的预备步骤中，根据函数v＝f(a)将范围[O，L]中的每个灰度级a映射到范围[u，L]中的灰度级v，在范围[O，L]中，O对应于黑色级而L对应于白色级，其中，u是表示O到L间的灰度级值的常数，其中

常数u的值，可以根据在用于把数字图像转换为灰度级图像的步骤之后从输入图像I获得的包括N个灰度级的灰度级图像G的直方图H，按照以下步骤来动态确定：

1/把L初始化为表示白颜色的值N，

2/为了确定u的值，第一步骤是计算具有颜色N的像素的数目Nb，之后渐次向数目NG增加具有颜色(N-1)的像素的数目，接着增加具有颜色(N-2)的像素的数目，依此类推，直到数目NG超过一阈值，该阈值表示图像的像素总数的一小百分比；以及

3/将在此操作中考虑的直方图H中的最后颜色赋给u。

有利地将所述阈值设为图像的像素总数的2％，但是可以作为应用的函数来修改该阈值。

根据本发明方法的优选特征，在用于分离属于图像背景的像素的预备步骤之后，通过以下操作来筛选实际文本区域：定位每个可能文本区域的直方图的最高两个峰值，所述两个最高峰值由它们各自的位置P₁和P₂来标识；以及，将任何其距离D(P₁，P₂)超过预定阈值S的区域归类为实际文本区域，并忽略不满足该条件的任何其他可能文本区域。

本发明的方法还包括：用于沿第一优先方向对实际文本区域的边界进行定界的步骤，由此，对于每个实际文本区域，首先从实际文本区域的涉及取向沿着第一优先方向的所有行中选择了一个取向沿着第一优先方向的典型行Rh_lg(i)；对于每一对行，将行Rh_lg(i)分别与恰在其前的相邻行Rh_lg(i-1)与恰在其后的相邻行Rh_lg(i+1)进行比较；如果在集合Pos_Rhlg(i)与Pos_Rhlg(i-1)之间及在集合Pos_Rhlg(i)与Pos_Rhlg(i+1)之间没有空交集，则判定将两行合并成一个文本块，集合Pos_Rhlg(i)和Pos_Rhlg(1-1)、集合Pos_Rhlg(i)和Pos_Rhlg(i+1)分别涉及行Rh_lg(i)和Rh_lg(i-1)、行Rh_lg(i)和Rh_lg(i+1)的像素的位置，其具有等于与白色对应的最大值L的灰度级值；递归重复该过程，直到实现了对涉及取向沿所述第一优先方向的实际文本区域的边界的完全稳定化。

本发明的方法还可以包括：用于沿第二优先方向对实际文本区域的边界进行定界的步骤，该第二优先方向垂直于第一优先方向，由此，对于每个实际文本区域，首先从实际文本区域的涉及取向沿着第一优先方向的所有行中选择一个取向沿着第一优先方向的典型行Rh_lg(i)，每次迭代仅考虑形成所述典型行Rh_lg(i)的像素的任一侧的像素，并且只将与典型行Rh_lg(i)的像素具有相同颜色的像素添加到典型行Rh_lg(i)。

第一优先方向可以是水平方向或垂直方向。

特别地，取向沿着第一优先方向的典型行Rhlg(i)是包括值与对应于白色的最大值L相等的最大数量像素的行。

根据本发明，产生的可能包含文本的封闭块有利地是平行四边形或矩形。

在一些应用中，在用于把数字图像转换为灰度级图像的步骤之后，预先选出图像的有限区域，对该有限区域将应用其它用于定位文本区域的处理步骤。

本发明还涉及一种用于在数字图像中自动定位文本区域的系统，其特征在于，该系统包括：转换单元，用于把输入数字图像转换为二值图像；定位单元，被应用于二值图像以定位可能文本区域；以及选择单元，用于选择由所述定位单元高亮显示的实际文本区域。

定位单元有利地包括用于向二值图像应用形态学筛选器的装置，该二值图像是通过将数字图像转换为二值图像而获得的。

转换单元优选地包括用于把数字图像I转换为灰度级图像G的装置。

根据本发明的特定特征，转换单元包括多分辨率模块，该多分辨率模块包括用于把输入图像转换为更低分辨率的输出图像的插值装置

根据本发明的特定特征，转换单元包括用于把灰度级输入图像转换为二值图像BW的阈值处理模块。

本系统有利地包括用于转置表示图像或形态学掩模的位图的装置。

本发明的方法和系统具有非常大量的应用。

例如，本发明可以从出于安全原因在不同情况下(例如在机动车道收费卡门(motorway toll gate)、在服务站、在边境通行站(bordercrossing point)，等)拍摄的图像中自动提取并存储机动车牌照的信息。这种用于检测并识别牌照的系统可以包括数字图像捕获装置如数字视频摄像机、图像分析模块，以及用于存储并比较数据的数据库管理系统。在此情况下，图像分析模块必须首先定位牌照区域，接着提取该区域，并提供关于该区域的信息，其在后处理之后可用于OCR系统的输入，以获得采用字母数字混合文本形式的牌照号。

本发明的方法和系统的另一种可能应用是检测和识别电视广播中的标识(logo)。

当为一事件(例如足球比赛)的现场广播或电视转播销售广告空间时，操作员需要准确地知道广告空间中显示的商标的可视性和曝露时间。为此，需要使用诸如本发明方法的方法，该方法能够从关注事件的图像提取文本区域，以便接下来与预先存储在数据库中的商标或商标名进行比较。

附图说明

根据下面通过示例并参照附图对本发明具体实施例的描述，将显现出本发明的其它特征和优点，在附图中：

图1是本发明的用于在图像中自动定位文本区域的方法的主要步骤的流程图；

图2A表示在复杂图像背景上包括两个文本区域的起始图像的示例；

图2B表示已经受根据本发明的第一阶段处理以高亮显示可能文本区域形状的输出二值图像；

图2C表示从中已消除明显错误的可能文本区域的二值图像；

图2D表示与图2C中类似的图像，其进一步经受了根据本发明的通过施加形态学掩模定位可能文本区域的步骤；

图3以更大的比例示出图2D的图像；

图4-8表示在应用相对于图像背景分离可能文本区域像素的步骤之后图3中的可能文本区域的直方图；

图9-15表示对图像(如图2C或者在合适情况下图2B的图像)施加形态学掩模的示例；

图16表示在复杂背景上包含文本并可对其应用本发明方法的图像的示例；以及

图17是用于在图像中自动定位文本区域的本发明系统的一个实施例的基本组件的框图。

具体实施方式

可以应用本发明的系统和方法来检测在拍摄阶段的图像中包括的自然文本，例如商店招牌、街道名称以及店牌和展示品所携带的信息。例如，图16中的图像143显示了标有“GARDIEN”(看管者)的门。

本发明同样适用于检测编辑过程中叠加到图像上的人工文本。

例如，图16中的图像141和142就是这种情况。例如，这种文本构成标识(图像142中的“ECL”)、用于说明主题、翻译讲话或提供信息的片头字幕或评注副标题(例如，图像141中所示的人的姓名和职位)。

自然文本具有可用于使对其的检测容易的某种特殊特征：

-文本的字符在前景中，

-文本的字符相对于背景显示出良好的对比度，因为它们被设计为易于读取的，

-文本的字符是单色的，以及

-文本的字符的尺寸在一定限度之内(例如，字母永不可能与屏幕区域一样大，字符的最小尺寸包括使字符清晰的最少像素)。

本发明的方法适用于具有复杂背景、可能具有低分辨率并受噪声影响、并且没有控制参数的数字图像。

因此，本方法可以应用于视频图像，使错误检测最小化，并且甚至从质量差的图像中以高可靠性定位并提取文本区域。

图1示出了本发明方法的主要步骤。

以彩色数字图像开始，第一步骤10将该彩色数字图像转换为灰度级数字图像。

在步骤20中高亮显示该图像中的文本区域的形状。

步骤20可以包括多分辨率化步骤21和二值化步骤22，步骤21和步骤22的顺序可以交换。

在步骤30中定位由步骤20产生的二值图像中的可能文本区域，以获得利用白框对可能文本区域进行定界的二值图像。

在最后的步骤40中选择实际文本区域，然后可以在起始数字图像中使实际文本区域经受光学字符识别(OCR)的传统方法。

下面更加详细地描述在本发明方法的各个步骤中执行的各种图像处理操作。

对于图1中所示的数字图像转换步骤10，起始图像是一个或更多个位图表示的数字图像。如果不是这种情况，例如如果输入图像是压缩格式如JPEG形式的，则例如首先将输入图像转换成位图形式的数字图像。类似地，如果输入图像是模拟形式的，则传统技术首先把这些模拟图像转换成数字形式。

如果输入数字图像I是彩色图像，则将它转换成灰度级图像G。

这个转换步骤10可以利用传统技术来实现。它涉及数字彩色图像到灰度级位图的简单转换，所述数字彩色图像通常由色彩空间(例如RGB空间)中的三个位图来表示。这个步骤对于下面更详细描述的二值化步骤22是必要且基本的。

适当情况下，初始步骤10可以附带一个计算位图G的转置位图的附加步骤。例如，可以使用由该操作产生的转置位图^tG来检测垂直文本区域。

如果A是m×n位图，则位图A的转置位图^tA是通过交换位图A的行和列来形成的。从而，对于任何i值，位图A的第i行变成转置位图^tA的第i列。因此，转置位图^tA是n×m位图。

数字图像I和形态学算子M都可被视为其转置位图可以如上确定的位图。

在本发明的方法中，定位可能文本区域的步骤30包括应用形态学筛选器。形态学筛选器是掩模。

为使垂直文本区域相比于水平文本区域高亮显示，可以首先转置位图I表示的输入数字图像，以获得由位图^tI表示的新图像，然后应用一组初始适于检测水平可能文本区域的形态学算子{Mn}。

另选地，直接对输入图像I应用一组转置形态学算子{^tM}。

两种方法将产生相同的最终结果。

如果预先已知图像中易于出现文本的区域，例如，在检测诸如副标题的人工文本的情况下，在初始步骤10中同样可以限定将在其中查找文本区域的优先区域。采用这种方式限定优先区域，限制了图1所示方法中的步骤20-40所应用于的图像范围，由此加速了定位。

下面描述高亮显示文本区域形状的步骤20。

在图像中定位文本可能出现于其中的区域，是作为修正文本检测基础的图像处理操作的一部分。

基于使用统计方法、模糊逻辑或神经网络的阈值处理、对像素进行分组或检测轮廓的技术，存在各种形状识别方法。最新但高代价的方法依赖于通过马尔可夫场建模表示纹理和颜色。然而，没有适合所有应用的技术。

本发明采用多分辨率化近似法，把灰度级图像转换成二值图像，以高亮显示可能文本区域的形状。

利用阈值处理技术把灰度级输入图像I转换成二值图像BW(步骤22)。这样，输出的二值图像BW对于输入图像I中所有值低于预定阈值的像素都取值“0”(黑)，对所有其它像素都取值“1”(白)。

使用多分辨率化方法(步骤21)来定位文本行建立在这样的基本原理上，即，文本行在低分辨率图像中呈现为实线。

当应用于输入图像I时，多分辨率化方法产生了大小为图像I的M倍的输出图像J。

如果M在范围0到1.0之内，则图像J小于图像I。如果M大于1.0，则图像J大于图像I。使用特殊的插值方法来从图像I转换到具有不同分辨率的图像J。

作为值小于1.0的一个示例，M的值可以是0.125。可以使用最近邻插值法(nearest neighbor interpolation method)。不过，同样也可以使用其他插值技术，例如线性插值。

参数M可以变化，并且例如适应图像的大小。如果参数M的值在0与1之间，则本发明的方法不依赖于参数M的值。

用于把灰度级图像转换为二值图像的阈值也可以例如根据输入图像而变化。例如，该阈值可以约为0.7。

图2B清楚地示出，多分辨率化方法通过仅仅保留与有意义的区域对应的具有统一颜色的相关分部而对输入图像进行了筛选。

定位可能文本区域的步骤30通过填充字符或单词之间的空白区域来对如图2B或图2C中的二值图像应用形态学掩模，以获得有可能包含文本的块封闭。

如果起始二值图像是由步骤20产生的如图2B或2C中的图像，则重复应用多个二值形态学操作，直到所获得的图像J与先前图像相比不再发生很大变化，并且具有带封闭块的外观(如图2D中所示的外观)为止。

优选地可以使用三个不同的形态学掩模以获得可能包含文本的块封闭，并且可以将它们相互组合并按不同顺序应用。

图9示出了第一形态学掩模M₁。取行50的像素51至58，如果左手像素51和右手像素58的值为“1”，则将所有中间像素52至57设为值“1”，而不管它们的初始值是“0”还是“1”。例如，通过如上所述使用掩模M₁的转置位图，或者通过使用输入位图图像的转置位图，可以对列应用同样的操作。

图10示出了第二形态学掩模M₂。包括像素61至66和71至76的初始矩形60和70被转换成包括像素81到86的矩形80。

初始矩形60和70分别包括位于其对角线的端部、值都为“1”的像素63、64和71、76。在这种情况下，转置图像的矩形80包括值都为“1”的像素81至86。

如对于形态学掩模M₁的情况，可以通过使用转置位图来将形态学掩模M₂应用于行或列。

图11示出了第三形态学掩模M₃。这个掩模M₃与形态学掩模M₂非常相似，它的功能是获得对角线的封闭。

从起始图像的正方形元90A、90B获得转换图像的正方形元100。

如果初始正方形90A的两个像素92A、93A和初始正方形90B的两个像素91B、94B的值都为“1”，则转换图像的正方形100的所有像素111至114的值都为“1”，而不管其它像素91A、94A及92B、93B的值。

图12和13示出应用第三形态学掩模M₃的两个示例。

图12示出从正方形90C开始的两阶段处理，在正方形90C中，对角线上的两个像素92C、93C的值为“1”，而其它两个像素91C、94C的值为“0”。最初，将值“1”赋给右下像素94C，而使其它像素91C至93C则保留相同的值，以形成像素91C’至94C’。然后将值“1”赋给左上像素91C’，而使其它像素92C’至94C’不变，从而获得其中所有像素111至114的值都为“1”的正方形100。

图13表示类似于图12的情况，但是使用了对称处理。在初始正方形90D中，第一步骤是将值“1”赋给初始值为“0”的左上像素90D，其它像素92D至94D的值不变，对于像素92D、93D值等于“1”，对于像素94D值等于“0”。然后将值“1”赋给右下像素94D’，同时使其它像素91D’至93D’的值不变仍为“1”。这样，获得了其中所有像素111至114的值都为“1”的正方形100。图12和13的操作可以并行执行，这对应于图11所示的处理。

图2D和图3以封闭块1至5的形式示出所有可能包含文本的区域。注意有五个可能包含文本的候选区域1至5，虽然在原始图像(图2A)中只有两个实际包含文本的区域。

通过将二值图像中的可能文本块的坐标映射到输入图像I的上，可以检测到输入图像I中的可能文本区域。接着可以对在输入图像中检测到的可能文本区域应用各种OCR技术。

在参照图4至图8解释的步骤40(见图1)中选择实际文本区域。

图3中出现区域1至3的图像可能包含文本、但是实际上不包含任何文本，对此解释如下：基于多分辨率化和二值化的步骤20的方法在应用于包含其中像素属于图像背景或属于图像中有特定意义的对象的文本的文件时是有效的。另一方面，对于包括复杂背景的数字图像(如视频图像)的情况，通常图像中存在多个不同颜色的分立对象，这可能导致高亮显示方法的错误检测。

对于本发明的方法，多分辨率化步骤21对于定位可能包含文本的候选区域的第一阶段只是建立了一个预处理步骤。然后在选择步骤40中重新检查每个候选区域1至5(图3)，以确定它是否真的包含文本。

选择实际文本区域的步骤40本身包括两个步骤，这两个步骤包括从图像背景分离像素和对实际文本区域进行筛选。

从图像背景分离像素的步骤目的在于相对于图像背景高亮显示字符的像素。为此，它采用了一种对第一图像转换步骤之后获得的灰度级图像的强度进行细分的方法。这种技术在图像的不同特征包含在不同灰度级中的时候是有用的。

范围[O，L]中的每个灰度级都通过公式(1)定义的转换映射到范围[O，L]中一个灰度级v：

v＝f(a) (1)

其可简单地由公式(2)定义为：

其中u是表示O-L间的灰度级值的常数。

另一个用于相对于背景增强高亮显示字符像素的转换由公式(3)定义为：

此外，根据在步骤10之后从输入图像I获得的灰度级图像G(例如它包含256个灰度级)的直方图H来按以下方式动态确定u的值：

1、将L初始化为值256(白色)。

2、为了确定u的值，第一步骤是计算具有颜色256的像素Nb的数量，之后渐次把具有颜色255的像素的个数、然后是具有颜色254的像素的个数、依此类推，加给数量Nb，直到数量Nb大于一阈值，该阈值表示图像像素总数的一小百分比。将直方图H中在该操作中加以考虑的最后一个颜色赋值给u。

将阈值有利地设为像素总数的2％，但是也可根据应用修改阈值。

通过分析可能包含文本的所有候选区域的空间变化来简单地筛选实际文本区域，接下来通过把表示字符的像素与图像背景分离开的操作进行转换。

分析基于文本字符相对于背景通常具有高对比度的事实。

因此最高的两个峰值(局部最大)位于每个转换后的可能文本区域的直方图中，并且它们的位置P₁和P₂被标记出来。

图4至图8表示这种方法对图3中标识的可能文本区域1至5的应用。

每个可能文本区域的空间变化由公式(4)表征：

D(P₁，P₂)＝abs(P₁-P₂) (4)

如果距离D(P₁，P₂)大于预定的阈值，则可能文本区域被视为是实际文本区域。如果不大于，它就被简单地忽略。

从图4至图6可见，当局部最大值101、102(图4)、201至204(图5)、以及301至305(图6)之间的距离都很小的时候，图3的区域1、2以及3具有小的空间变化。因此，此后忽略这些区域。相反，如果局部最大值401、402(图7)或501、502(图8)之间的距离D(P₁，P₂)很大，则图3中的区域4和5具有大的空间变化。此后保留这些区域4和5。

例如可将阈值设为等于灰度级中的总灰度级数的15％。阈值越大，方法越准确。

本发明的方法适合于不同的变化，附加步骤的目的在于改进对文本区域边界的定界，或者通过排除显然毫无可能的若干可能文本区域来总体上加速处理。

特别地并且特殊地，当考虑文本区域的整体时，对文本区域的定位可以通过把一种从背景分离像素的递归处理应用于已经转换过的每个实际文本区域得到改进。这改进了每个文本区域的水平边界和垂直边界的限定。

为了改进文本区域边界的水平定界，首先从所有已通过本发明的基本方法识别出来的文本区域的行中选择出典型的水平行Rh_lg(i)。

可以通过选择包括水平排列的最大数量的字符像素的行来选择行Rh_lg(i)。所选择的行Rh_lg(i)通常是包括值等于L的最大数量像素的行，这是因为，在包括从背景分离像素的转换之后，文本区域的字符被视为单色的并与图像的背景形成对比。

接着将行Rh_lg(i)分别与恰在其之前的相邻行Rh_lg(i-1)、恰在其之后相邻行Rh_lg(i+1)相比较，以判定是否将这两行合并到同一文本块中。

合并准则基于灰度级值的空间分布和相关单色像素的原理，如下所示：

令Pos_Rhlg(i)和Pos_Rhlg(i-1)、Pos_Rhlg(i)和Pos_Rhlg(i+1)分别成为对灰度级值等于L的行Rh_lg(i)和Rh_lg(i-1)、Rh_lg(i)和Rh_lg(i+1)中的像素位置进行限定的两个集合。

考虑公式(5)：

Pos_Rhlg(i)∩Pos_Rhlg(i-1)≠，

Pos_Rhlg(i)∩Pos_Rhlg(i+1)≠ (5)

如果满足公式(5)，则分别由行Rh_lg(i-1)、行Rh_lg(i+1)来代替行Rh_lg(i)，并且递归应用该过程，直到实现了对文本区域的上水平边界和下水平边界的完全稳定化。

对于文本区域边界的垂直定界，可以将满足以下条件的所有像素添加给典型行Rh_lg(i)中：

-唯一考虑的像素是形成典型行Rh_lg(i)的像素的左边或右边的像素，

-仅将与Rh_lg(i)的像素具有相同颜色值的像素添加给行Rh_lg(i)，

-与行Rh_lg(i)相邻的像素必须符合下述的负消除(negativeelimination)。

为了检测数字图像中的垂直文本区域，可以例如通过首先进行垂直定界来应用上述的定界原理。然而，这实际上等于对表示输入图像的位图的转置位图的工作，正如上面参照数字图像的转换所述。

如果对可能包含文本的区域存在某种预见，则可以加速文本区域定位过程。

具体来说，对于视频图像，可以应用这样一种负消除处理，其涉及消除所有接触图像边沿并具有统一颜色的相关分部和所有长度大于预定阈值l_t的水平行。

这种消除算子可由图14中所示的形态学算子M₄表示。图2C示出了对图2B的图像应用这种负消除处理的结果。

从图14可见，在包括像素121-128(其中两个端部像素121和128的值为“1”，而其它像素122-127中的每一个的值为“0”或“1”)的行120中，在该行的长度大于阈值l_t(例如等于从多分辨率化处理所得图像的大小的75％)的情况下，将所有像素121-128设为对应于黑色的值“0”。

图15示出了增强的另一示例，该增强通过填充对角线来消除图像背景中的孤立像素。从具有9个像素的方块130开始，图15中所示的形态学算子M₅向由值为“0”的8个像素131-134、136-139包围的值为“1”的孤立中央像素135赋值“0”。

如果先于图9-13的形态学算子M₁、M₂、M₃应用了图15的形态学算子M₅，则通过消除在应用形态学算子M₁时可能并入实际文本区域中的孤立像素，增强了在图像中检测到的文本区域的边界的准确度。

图17是使用本发明在图像中自动定位文本区域的系统的一个示例的框图。

首先将输入数字图像I施加给处理单元150，该处理单元150将输入数字图像I转换成图像灰度级G。

将灰度级图像G馈给处理单元160。

处理单元160包括输入模块163，该输入模块163例如计算位图图像灰度级G的转置位图或表示形态学掩模的位图的转置位图。

合适时，输入模块163还可以限定图像G的先验区域，该先验区域构成将在其中执行文本区域搜索处理的子集。

输入模块163与多分辨率化模块161协同操作，该多分辨率模块161包括插值装置，该插值装置用于将提供给它的图像转换成更低分辨率的图像。

输入模块163还与阈值处理模块162协同操作，该阈值处理模块162将提供给它的灰度级图像转换成二值图像BW。

输入模块163可以按任何顺序调用模块161和162。模块161、162中的每一个都可以将另一模块产生的图像直接用作它的输入图像。

在处理单元160的输出提供的二值图像BW被提供给用于定位可能文本区域的定位单元170。

定位单元170包括一个或更多个形态学筛选器，并对来自处理单元160的二值图像应用形态学掩模，以封闭可能包含文本的块。

在定位单元170的输出中，按这种方式获得了其中由封闭的矩形白块表示可能文本区域的二值图像。

接着，选择单元180从定位单元170高亮显示的可能文本区域中选择实际的文本区域。

选择单元180对来自处理单元160的灰度级图像应用前述的强度细分处理，并通过对在已将像素与图像背景分离之后由定位单元170高亮显示的可能包含文本的所有候选区域的空间变化进行分析，来筛选这些候选区域。

可以采用硬件或软件的形式来实现在图像中自动定位文本区域的系统的所述单元和模块。

处理器单元190对于起始数字图像I在定位单元170和选择单元180定位并选择的区域中进行操作，以应用各种常规光学字符识别处理。因此仅对输入图像的非常有限的目标区域应用了常规光学字符识别处理。

Claims

1、一种在数字图像中自动定位文本区域的方法，包括：第一步骤(10，20)，用于把数字图像转换为二值图像；第二步骤(30)，用于定位可能文本区域；以及第三步骤(40)，用于选择实际文本区域，

其特征在于，用于把数字图像转换为二值图像的第一步骤(10，20)包括用于把数字图像转换为灰度级图像的步骤(10)、以及多分辨率化步骤(21)，多分辨率化步骤(21)使用插值法来把输入图像I转换为其大小为输入图像I的M倍的更低分辨率的输出图像J，其中0＜M＜1，并且

用于定位可能文本区域的第二步骤(30)包括：对二值图像应用形态学操作以便在可能包含文本的原始图像中生成封闭块。

2、根据权利要求1所述的方法，其特征在于，用于把数字图像转换为二值图像的第一步骤(10，20)包括二值化步骤(22)，该二值化步骤(22)使用阈值处理法来把输入灰度级图像I转换为二值图像BW，输入图像I中的值低于预定阈值的每个像素在二值图像BW中被转换为对应于黑色的值“0”，而输入图像I的所有其它像素在二值图像BW中被转换为对应于白色的值“1”。

3、根据权利要求1或权利要求2所述的方法，其特征在于，用于定位可能文本区域的第二步骤(30)包括：应用一形态学掩模，以对二值图像应用一形态学操作，由此，如果在二值图像中一行或一列的端部处的像素的值都为“1”，则将值“1”赋给该行或该列的所有像素。

4、根据权利要求1至3中的任何一项所述的方法，其特征在于，用于定位可能文本区域的第二步骤(30)包括：应用一形态学掩模，以对二值图像应用一形态学操作，由此，如果在二值图像中限定在两行或两列上的矩形或正方形的对角线端部处的两个像素的值都为“1”，则将值“1”赋给该矩形或该正方形的所有像素。

5、根据权利要求1所述的方法，其特征在于，用于定位可能文本区域的第二步骤(30)包括一初始步骤，由此应用一形态学掩模，以对二值图像应用一形态学操作，从而将值“0”赋给在两端处具有值为“1”的像素并且长度大于一阈值的每行或每列的所有像素，所述阈值对应于从多分辨率化步骤(20)获得的图像的尺寸的一个小于100％的百分比。

6、根据权利要求5所述的方法，其特征在于，用于限定所述阈值的所述百分比为75％左右。

7、根据权利要求3或权利要求4所述的方法，其特征在于，用于定位可能文本区域的第二步骤(30)首先应用一形态学掩模，以对二值图像一应用形态学操作，由此将值“0”赋给二值图像中每个由值都为“0”的像素包围的像素。

8、根据权利要求3至5中的任何一项所述的方法，其特征在于，在用于定位可能文本区域的第二步骤(30)中，仅对二值图像的行应用所述形态学操作。

9、根据权利要求8所述的方法，其特征在于，将由位图G表示的灰度级图像转置成由转置位图tG表示的转置图像，并对转置位图tG应用用于定位可能文本区域的第二步骤(30)的仅涉及二值图像的行的形态学操作。

10、根据权利要求8所述的方法，其特征在于，通过使用转置形态学算子，仅针对二值图像的列对由位图G表示的灰度级图像G再次应用了用于定位可能文本区域的第二步骤(30)的形态学操作。

11、根据权利要求1至10中的任何一项所述的方法，其特征在于，用于选择实际文本区域的第三步骤(40)包括一预备步骤，该预备步骤用于分离属于图像背景的像素，在此期间，对灰度级图像的强度进行了细分。

12、根据权利要求11所述的方法，其特征在于，在用于分离属于图像背景的像素的预备步骤中，根据函数v＝f(a)将范围[0，L]中的每个灰度级映射到范围[0，L]中的灰度级v，在范围[0，L]中，0对应于黑色级而L对应于白色级，其中

其中，u是表示0到L间的灰度级值的常数。

13、根据权利要求11所述的方法，其特征在于，在用于分离属于图像背景的像素的预备步骤中，根据函数v＝f(a)将范围[0，L]中的每个灰度级a映射到范围[u，L]中的灰度级v，在范围[0，L]中，0对应于黑色级而L对应于白色级，其中，u是表示0到L间的灰度级值的常数，其中

14、根据权利要求12或权利要求13所述的方法，其特征在于，常数u的值，是根据在用于把数字图像转换为灰度级图像的步骤(10)之后从输入图像I获得的包括N个灰度级的灰度级图像G的直方图H，按照以下步骤来动态确定的：

1/把L初始化为表示白颜色的值N，

3/将直方图H中的在该操作中考虑的最后颜色赋给u。

15、根据权利要求14所述的方法，其特征在于，所述阈值表示图像的像素总数的2％。

16、根据权利要求11至15中的任何一项所述的方法，其特征在于，在用于分离属于图像背景的像素的预备步骤之后，通过以下操作来筛选实际文本区域：定位每个可能文本区域的直方图的最高两个峰值，所述两个最高峰值由它们各自的位置P₁和P₂来标识；以及，将任何其距离D(P₁，P₂)超过预定阈值S的区域归类为实际文本区域，并忽略不满足该条件的任何其他可能文本区域。

17、根据权利要求16所述的方法，其特征在于，还包括用于沿第一优先方向对实际文本区域的边界进行定界的步骤，由此，对于每个实际文本区域，首先从实际文本区域的涉及取向沿着第一优先方向的所有行中选择了一个取向沿着第一优先方向的典型行Rh_lg(i)；对于每一对行，将行Rh_lg(i)分别与恰在其前的相邻行Rh_lg(i-1)与恰在其后的相邻行Rh_lg(i+1)进行比较；如果在集合Pos_RHlg(i)与Pos_Rhlg(i-1)之间及在集合PosRh_lg(i)与Pos_Rhlg(i+1)之间没有空交集，则判定将两行合并成一个文本块，集合Pos_Rhlg(i)和Pos_Rhlg(i-1)、集合Pos_Rhlg(i)和Pos_Rhlg(i+1)分别涉及灰度级值等于与白色对应的最大值L的行Rh_lg(i)和Rh_lg(i-1)、行Rh_lg(i)和Rh_lg(i+1)的像素的位置；递归重复该过程，直到实现了对涉及取向沿所述第一优先方向的实际文本区域的边界的完全稳定化。

18、根据权利要求16或权利要求17所述的方法，其特征在于，还包括用于沿第二优先方向对实际文本区域的边界进行定界的步骤，该第二优先方向垂直于第一优先方向，由此，对于每个实际文本区域，首先从实际文本区域的涉及取向沿着第一优先方向的所有行中选择一个取向沿着第一优先方向的典型行Rh_lg(i)，每次迭代仅考虑形成所述典型行Rh_lg(i)的像素的任一侧的像素，并且只将与典型行Rh_lg(i)的像素具有相同颜色的像素添加给典型行Rh_lg(i)。

19、根据权利要求16至18中的任何一项所述的方法，其特征在于，第一优先方向是水平方向。

20、根据权利要求16至18中的任何一项所述的方法，其特征在于，第一优先方向是垂直方向。

21、根据权利要求16至18中的任何一项所述的方法，其特征在于，取向沿着第一优先方向的典型行Rhlg(i)是包括值与对应于白色的最大值L相等的最大数量像素的行。

22、根据权利要求1至21中的任何一项所述的方法，其特征在于，产生的可能包含文本的封闭块是平行四边形。

23、根据权利要求22所述的方法，其特征在于，产生的可能包含文本的封闭块是矩形。

24、根据权利要求1所述的方法，其特征在于，在用于把数字图像转换为灰度级图像的步骤(10)之后，预先选出图像的有限区域，对该有限区域将应用其它用于定位文本区域的处理步骤。

25、一种用于在数字图像中自动定位文本区域的系统，包括：转换单元(150，160)，用于把输入数字图像转换为二值图像；定位单元(170)，被应用于二值图像以定位可能文本区域；以及选择单元(180)，用于选择由所述定位单元(170)高亮显示的实际文本区域，

其特征在于，转换单元(150，160)包括：用于把数字图像I转换为灰度级图像G的装置(150)；以及多分辨率化模块(161)，包括用于把输入图像转换为更低分辨率的输出图像的插值装置，并且

定位单元(170)包括用于向二值图像应用形态学筛选器的装置，该二值图像是通过将数字图像转换为二值图像而获得的。

26、根据权利要求25所述的系统，其特征在于，转换单元(150，160)包括用于把灰度级输入图像转换为二值图像BW的阈值处理模块(162)。

27、根据权利要求25或权利要求26所述的系统，其特征在于，包括用于转置表示图像或形态学掩模的位图的装置(163)。

28、根据权利要求1至24中的任何一项所述的方法，其特征在于，它被应用于检测并识别电视转播(television transmission)中的标识。