CN101615252A

CN101615252A - 一种自适应图像文本信息提取方法

Info

Publication number: CN101615252A
Application number: CN200810115615A
Authority: CN
Inventors: 李敏花; 肖柏华; 王春恒; 戴汝为
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2008-06-25
Filing date: 2008-06-25
Publication date: 2009-12-30
Anticipated expiration: 2028-06-25
Also published as: CN101615252B

Abstract

本发明一种自适应图像文本信息提取方法，涉及图像中的文本信息提取技术，其包括步骤：1)图像预处理；2)图像背景复杂度分析；3)文本初检测；4)文本验证；5)文本抽取；6)文本信息输出或显示。本发明方法，通过计算图像背景复杂度，对不同复杂度背景的图像采用不同的文本检测方法，减少了采用单一文本检测方法中的漏检，误检现象，提高了文本提取系统的整体性能。本发明方法中图像背景复杂度的计算方法简单，有效，不仅能够检测出不同背景复杂度的图像中的文字信息，而且检测出的文本信息不受字体，大小及语言的影响，具有很强的通用性。

Description

一种自适应图像文本信息提取方法

技术领域

本发明涉及模式识别与机器视觉领域中的文本信息提取技术领域，具体地是一种自适应图像文本信息提取方法。

背景技术

随着数码相机、摄像头、超高速扫描仪等图像获取设备的广泛应用，图像中信息越来越引起人们的关注，然而计算机理解图像的内容，目前还很困难。图像中嵌入的文字能够提供一些人们所要的重要信息，如书的封面、视频、自然风景图片www网页的彩图等等，它对理解图像中的内容有着重要的帮助。让计算机像人类一样识别图像中的文字，即文字的自动检测系统，近年来越来越引起了人们的关注，它对于图像的存储、分类和检索等来说具有极其重要的意义，有着广泛的应用前景和商业价值。在许多情况下，图像中的场景文字甚至成为图像最主要、最关键的信息，例如对于车牌的识别，对于路牌的识别和翻译等。这些场景文字被抽取后，送入OCR模块，转换成计算机可理解的内码，可以方便的进行后续的各种处理。

国内外的研究人员是在近几年内才开始对图像中的文本信息提取技术进行研究的，由于文本信息提取受到语种、文字分辨率、文字间距、分布情况、文字的背景、光照、颜色之类因素的影响，并且某些图案、纹理的背景很难与文字区分开来，因此图像中的文本信息提取技术目前还没有一个很好的解决办法。

目前对这个问题提出一些解决的方法，大致可以分为四类：基于边缘的方法，基于纹理的方法，基于颜色的方法和基于连通区域的方法。基于边缘的方法主要是利用图像中文字和背景通常存在较大的颜色差，因而在文字和背景存在明显的边缘。基于边缘的方法就是通过寻找排列规则的边缘，从而寻找文字区域；基于纹理的方法是把文字当成一种特殊的纹理，根据文字纹理具有的某种特定频率和方向信息来确定图像中可能的文字区域；基于颜色的文本信息提取方法利用了大多数图像文字具有均匀颜色这一事实，通过颜色约减的方法可以将原图分解成属于若干个不同颜色的子图，然后在各个子图上独立进行文字提取工作；基于连通区域的方法主要是在图像上通过寻找一致性区域来寻找文字区域，基于连通域的方法利用了文字的排列特性，即绝大多数情况下文字是成组出现的，例如多个字母组成一个单词，或者多个汉字组成一个句子。属于同一组的文字会具有比较统一的几何尺寸和排列规则。

上述现有的研究方法，基于边缘的文本提取方法计算简单，但由于采用单一的边缘检测方法，当文字和背景对比度相差不大的情况下检测效果并不理想；而且，倘若背景轮廓和字符粘连，也容易得到错误结果。这就需要结合其它的信息来扩大检测范围；基于纹理的文本提取方法需要抽取有效的纹理特征，虽然可有效地检测出文字所在区域，但是也会提取出具有类似纹理的背景区域，需要结合其它特征；基于颜色聚类方法的主要难点在于无法预知文字和背景的颜色，因而也就难以确定颜色子图的个数，聚类数过多或者过少都会影响提取性能，而且计算量很大；基于连通区域的方法大多数情况下不能单独使用，一般用在边缘、纹理和颜色等方法之后。

上述各种方法进行文字信息提取时，都没有考虑到图像背景的复杂度和文字、背景的对比度情况，对不同背景复杂度的图像，都采用单一的提取方法，容易漏掉一些对比度弱的文本区域或者将似文本区域错误提取出来，造成整体提取效果不好。

发明内容

本发明的目的是提供一种自适应图像文本信息提取方法，根据图像背景复杂程度，采用不同的图像文本检测技术，快捷、准确、有效的检测出不同背景复杂度图像中的文字信息，而且检测出的文本信息不受字体，字体大小及语言的影响，具有很强的通用性。

为达到上述目的，本发明的技术解决方案如下：

一种自适应图像文本信息提取方法，其包括步骤：1)图像预处理；2)图像背景复杂度分析；3)文本初检测；4)文本验证；5)文本抽取；6)文本信息输出或显示；

其具体步骤为：

A)首先，从选定的路径中读取图像，并将彩色图像转换为灰色图像；

B)根据灰色图像所有象素点的灰度变化密度，计算出整幅图像的背景复杂度，计算方法为：某一象素点P₀的灰度强度S′按照下式计算：

S′＝MAX{|P₁-P₈|，|P₂-P₇|，|P₃-P₆|，|P₄-P₅|} (1)

S = \{\begin{matrix} \frac{S^{'}}{245}, & S &GreaterEqual; T \\ 0, & Otherwise \end{matrix} - - - (2)

则图像的背景复杂度为：

D = \frac{\underset{i, j}{Σ} S (i, j)}{n} - - - (3)

其中，S′为图像中像素点P₀的灰度强度，S按照(2)式将S′归一化为(0，1)范围内的数，T为归一化的阈值，D为图像的背景复杂度值，n为图像中的像素数目，P₁～P₈为P₀的八邻域；

按照计算的D值对图像背景复杂度进行分级；

C)根据图像复杂度级别决定采用何种文字边缘检测方法，对于复杂度较低的图像，采用较简单的边缘文本检测方法，对于复杂度较高的图像，采用较复杂的边缘文本检测方法；

D)根据采用的文本检测方法，找出图像中的候选文本区域，对文本信息区域进行初始定位；

E)对从图像中找到的候选文本区域，抽取相关特征进行文本区域验证，通过验证的候选文本区域，即判定为文本块，将在后续的步骤中抽取文本信息，未通过验证的候选文本区域，即判定为非文本区域，将其从候选文本中去除；

F)对确定的文本块，去除文本块中的背景，将所有文本信息抽取出来；

G)将图像中抽取出来的所有文本信息输出给下一级处理，或在计算机上显示出来。

所述的方法，其所述B)步中，对图像背景复杂度进行分级，是分为低、中、高三级：如果0≤D≤0.15，则图像背景复杂度为低级；如果0.15＜D≤0.3，则图像背景复杂度为中级；如果0.3＜D≤1则图像背景复杂度为高级。

所述的方法，其所述C)步中，对于复杂度较低的图像，采用较简单的边缘检测方法，对于复杂度较高的图像，采用较复杂的边缘检测方法，是：

如果图像背景复杂度判定为低，则采用边缘特征抽取方法1：在灰度图像上用Sobel四方向算子求取边缘并抽取特征；如果图像背景复杂度判定为中，则采用边缘特征抽取方法2：基于形态学的方法在灰度图象上求取形态边缘并抽取特征；如果图像背景复杂度判定为高，则采用边缘特征抽取方法3：用基于形态学的彩色边缘抽取方法，分别对三个颜色通道提取形态梯度，然后将三个颜色通道合并得到边缘并抽取特征。

所述的方法，其所述D)步中，找出图像中的候选文本区域，是：

a)提取图像的边缘并抽取特征后，在边缘图像上进行连通域分析，获得图像上所有的连通元；

b)利用边缘特征和几何特征对连通元进行筛选，剔除非文本连通元；

c)对每个文本连通元的位置和尺寸进行分析，将在同一行或同一列的文本连通元组合，形成候选文本区域。

所述的方法，其所述E)步中的相关特征，为文本区域中字符宽度的均值和方差，通过将文本行或文本列的二值图像向水平方向和竖直方向投影，投影曲线上有明显的波峰和波谷，通过统计相邻波谷之间的距离，计算字符的平均宽度和方差。

所述的方法，其所述F)步中，将所有文本信息抽取出来，是采用二值化的方法、颜色聚类的方法或统计模型的方法抽取所有文本信息。

所述的方法，其所述b)步中的边缘特征和几何特征，其中，边缘特征是边缘密度特征和边缘方向特征，几何特征是连通以元的长，宽，宽高比，占空比。

本发明，通过计算图像背景复杂度，对不同复杂度背景的图像采用不同的边缘检测方法，减少了采用单一边缘检测方法中的漏检，误检现象，提高了文本提取系统的整体性能。该发明中图像背景复杂度的计算方法简单，有效，不仅能够检测出不同背景复杂度图像中的文本信息，而且当图像中文本和背景对比度不同时，同样有效。检测出的文本信息不受图象字体，大小，及语言的影响，具有很强的通用性。

附图说明

图1是本发明一种自适应图像文本信息提取方法的示意图；

图2是本发明一种自适应图像文本信息提取方法的实施例流程图；

图3是本发明实例结果示意图。

具体实施方式

参照图1、图2和图3，为本发明的一种自适应图像文本信息提取方法，其包括步骤：1)图像预处理；2)图像背景复杂度分析；3)文本初检测；4)文本验证；5)文本抽取；6)文本信息输出或显示；

其具体步骤为：

B)根据灰色图像所有象素点的灰度变化密度，计算出整幅图像的背景复杂度，对图像背景复杂度进行分级。图像背景复杂度计算方法如下：

某一像素点P₀的灰度强度S′按照下式计算：

S′＝MAX{|P₁-P₈|，|P₂-P₇|，|P₃-P₆|，|P₄-P₅|} (1)

S = \{\begin{matrix} \frac{S^{'}}{245}, & S &GreaterEqual; T \\ 0, & Otherwise \end{matrix} - - - (2)

则图像的灰度变化密度为

D = \frac{\underset{i, j}{Σ} S (i, j)}{n} - - - (3)

其中，S′为图像中像素点P₀的灰度强度，S按照(2)式将S′归一化为(0，1)范围内的数，T为归一化的阈值。D为图像的背景复杂度值，n为图像中的像素数目，P₁～P₈为P₀的八邻域，如表1所示：

P₁	P₂	P₃
P₁	P₂	P₃	P₄	P₀	P₅
P₆	P₇	P₈	P₄	P₀	P₅

表1P₀的八邻域

通过计算图像的灰度变化密度值，将图像背景复杂度分为不同的等级，本发明中，将图像背景复杂度分为低，中，高3级；

E)对从图像中找到的候选文本区域，抽取相关特征进行文本区域验证，通过验证的候选文本区域，即判定为文本块，将在后续的步骤中抽取文本信息，未通过验证的候选文本区域，即判定为非文本区域，将其从候选文本中去除。用到的特征为：文本区域中字符宽度的均值和方差。该特征的抽取方法为，分别将文本行或文本列的二值图像向水平方向和竖直方向投影，文本行或文本列中字符与字符之间存在一定的间隔，反映在投影曲线上有明显的波峰和波谷，波峰对应字符的笔画，波谷对应字符间隙，而非文本行或文本列的投影曲线相对平滑，没有明显的波峰或波谷。通过统计相邻波谷之间的距离，可以统计出文本行或文本列中字符的平均宽度和方差。

在B)步中，对图像背景复杂度进行分级，是分为低、中、高三级，图像的背景复杂度值作为分级的依据，如果0≤D≤0.15，则图像背景复杂度为低级；如果0.15＜D≤0.3，则图像背景复杂度为中级；如果0.3＜D≤1则图像背景复杂度为高级。

在C)步中，对于复杂度较低的图像，采用较简单的边缘检测方法，对于复杂度较高的图像，采用较复杂的边缘检测方法，是：

如果图像背景复杂度判定为低，则按照边缘特征抽取方法1，在灰度图像上采用Sobel算子求取边缘并抽取特征；具体方法为：采用表2所示的，0°，45°，90°，135°四个方向的梯度算子，然后按照公式(4)计算图像的边缘。

G(x，y)＝max{G_0°(x，y)，G_45°(x，y)，G_90°(x，y)，G_135°(x，y)} (4)

其中，G_0°(x，y)，G_45°(x，y)，G_90°(x，y)，G_135°(x，y)分别为图像在0°，45°，90°，135°方向上的梯度图像，G(x，y)为求得的边缘图像。

-1	-2	-1
-1	-2	-1	0	0	0
1	2	1	0	0	0

2	1	0
2	1	0	1	0	-1
0	-1	2	1	0	-1

1	-1
1	-1	2	0	-2
1	-1	2	0	-2

0	-1	-2
0	-1	-2	1	0	-1
2	1	0	1	0	-1

表2 Sobel 0°，45°，90°，135°四个方向梯度算子

如果图像背景复杂度判定为中等，则按照边缘特征抽取方法2，采用基于形态学的方法在灰度图像上求取边缘并抽取特征，具体方法为：首先选用3*3的结构算子，按照公式(5)对灰度图像进行膨胀运算得到膨胀图像，然后按照公式(6)对灰度图像进行腐蚀运算得到腐蚀图像，最后按照公式(7)对膨胀图像和腐蚀图像求差分得到边缘图像。

I (x, y) &CirclePlus; S_{m, n} = \max_{| i | \leq m / 2, | j | \leq n / 2} I (x - i, y - j) S_{m, n} (x, y) - - - (5)

I (x, y) &CirclePlus; S_{m, n} = \min_{| i | \leq m / 2, | j | \leq n / 2} I (x - i, y - j) S_{m, n} (x, y) - - - (6)

D (I_{1}, I_{2}) = I (x, y) &CirclePlus; S_{m, n} - I (x, y) &CircleTimes; S_{m, n} - - - (7)

其中S_m，n(x，y)为进行形态学的结构元素，I(x-i，y-j)为与结构元素对应的图像中的点。

；如果图像背景复杂度判定为高等，则按照边缘特征抽取方法3，采用彩色形态学边缘检测方法求取边缘并抽取特征，具体的求取方法为：首先按照公式7，分别对彩色图像的R，G，B三个颜色通道求取梯度图像，然后按照公式(8)求取边缘图像。

E (x, y) = Σ_{j = 1}^{n} ω_{j} G_{j} (x, y), j = R, G, B - - - (8)

其中，G_j(x，y)为在第j通道求得的梯度图象，ω_j为第j通道对应的权重，E(x，y)为最后求得的边缘图象。

在D)步中，找出图像中的候选文本区域，是：

b)利用边缘特征和几何特征对连通元进行筛选，所述的边缘特征主要是边缘密度特征和边缘方向特征，几何特征主要为连通以元的长，宽，宽高比，占空比；

在E)步中的相关特征，为文本区域中字符宽度的均值和方差，通过将文本行或文本列的二值图像向水平方向和竖直方向投影，投影曲线上有明显的波峰和波谷，通过统计相邻波谷之间的距离，计算字符的平均宽度和方差。

在F)步中，将所有文本信息抽取出来，是采用二值化的方法、颜色聚类的方法或统计模型的方法抽取所有文本信息。

下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。应指出的是，所描述的实施例仅旨在便于对本发明的理解，而对其不起任何限定作用。

图2是本发明所述方法的实施例流程图。下面以图2和图3中的三幅图像1，2，3，为例来说明本发明中一些具体的实现流程。按照图2，首先在步骤1启动系统，从指定路径中读取要处理的3幅图像，并在计算机上进行显示；步骤2，分别将3幅图像转换为灰度图像，并在计算机上显示；步骤3，在灰度图像上按照图像背景复杂度计算公式1，2，3分别计算出图像背景复杂度值。本实施例中，计算出的图1的背景复杂度为0.04，图2的背景复杂度为0.18，图3的背景复杂度为0.35；步骤4，根据图像背景复杂度的计算值，将图像背景复杂度等级判定为低、中、高三级，按照发明内容中的复杂度等级标准，图1的背景复杂度应为低，图2的背景复杂度应为中，图3的背景复杂度应为高。图像1背景复杂度判定为低则进入步骤5；图2像背景复杂度判定为中则进入步骤6；图像3背景复杂度判定为高则进入步骤7；步骤5，图像1背景复杂度为低，则按照基于Sobel算子的边缘抽取方法提取边缘图像4，并抽取边缘密度特征和边缘方向分布特征，然后进入步骤8；步骤6，图像2背景复杂度为中，则按照基于数学形态学的边缘抽取方法，在灰度图像上提取边缘图象5，并抽取边缘密度特征和边缘方向分布特征，然后进入步骤8；步骤7，图像3背景复杂度为高，则在彩色图像上按照基于形态学的的彩色边缘抽取方法对图像提取边缘图象6，并抽取边缘密度特征和边缘方向分布特征，然后进入步骤8；步骤8，得到图像的边缘图象并抽取特征后，分别在边缘图像4，5和6上进行8方向连通区域标定，找出图像上所有的连通元；步骤9，对边缘图像4，5，6上对所有的连通元进行分析，将所有连通元分为文本连通元和非文本连通元，主要按照连通元的几何特征和边缘特征采用级联分类器分别对单个连通元进行筛选，对于不满足规则的连通元，确定为非文本连通元，满足规则的连通元为文本连通元；步骤10，对所有的文本连通元的位置和尺寸进行分析，将在同一行或同一列的尺寸大小相似的文本连通元组合，形成候选文本行或文本列；步骤11，对所有候选文本行或文本列，进行水平方向或竖直方向投影，抽取字符宽度特征进行验证，如果文本行(列)未通过验证，则进入步骤12，如果文本行(列)通过验证，则进入步骤13；步骤12，对于未通过文本块验证的候选文本块，将其从候选文本行或列中去除，不再进行后续操作；步骤13，如果候选文本行(列)通过验证，则确定该候选文本行(列)为文本信息行(列)，并根据文本行或文本列的投影信息确定该文本行(列)的准确位置信息，在原图上用方框标定出来，标定图象为7，8，9，然后进入步骤14；步骤14，抽取文本行(列)中的文本信息，对于每一个文本行(列)，采用Ostu二值化方法将其中的背景去除，以白色像素显示，抽取相应的文本信息以黑色像素显示；步骤15，抽取出的图像中所有的文本信息以白底黑字的形式在计算机上进行显示，进行文本块抽取后的图象为10，11，12，文本信息提取结束。

总之，本发明充分考虑图像背景的复杂度，能够根据图像背景的复杂度采用不同的边缘检测方法对图像中的文本信息进行准确定位和抽取。该发明中图像背景复杂度的计算方法简单，有效，不仅能够提取出不同背景复杂度图像中的文本信息，而且提取出的文本信息不受字体，大小及语言的影响，具有很强的通用性。提高了文本提取系统的总体性能，为图像的分类、检索提供了有利的支持工具。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内，因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1、一种自适应图像文本信息提取方法，其特征在于，包括步骤：1)图像预处理；2)图像背景复杂度分析；3)文本初检测；4)文本验证；5)文本抽取；6)文本信息输出或显示；

其具体步骤为：

B)根据灰色图像所有像素点的灰度变化密度，计算出整幅图像的背景复杂度，计算方法为：某一像素点P₀的灰度强度S′按照下式计算：

S′＝MAX{|P₁-P₈|，|P₂-P₇|，|P₃-P₆|，|P₄-P₅|} (1)

S = \{\begin{matrix} \frac{S^{'}}{255}, & S &GreaterEqual; T \\ 0, & Otherwise \end{matrix} - - - (2)

则图像的背景复杂度为：

D = \frac{\underset{i, j}{Σ} S (i, j)}{n} - - - (3)

按照计算的D值对图像背景复杂度进行分级；

2、如权利要求1所述的方法，其特征在于，所述B)步中，对图像背景复杂度进行分级，是分为低、中、高三级：如果0≤D≤0.15，则图像背景复杂度为低级；如果0.15＜D≤0.3，则图像背景复杂度为中级；如果0.3＜D≤1则图像背景复杂度为高级。

3、如权利要求1或2所述的方法，其特征在于，所述C)步中，对于复杂度较低的图像，采用较简单的边缘检测方法，对于复杂度较高的图像，采用较复杂的边缘检测方法，是：

如果图像背景复杂度判定为低，则采用边缘特征抽取方法1：在灰度图像上用Sobel四方向算子求取边缘并抽取特征；如果图像背景复杂度判定为中，则采用边缘特征抽取方法2：基于形态学的方法在灰度图像上求取形态边缘并抽取特征；如果图像背景复杂度判定为高，则采用边缘特征抽取方法3：用基于形态学的彩色边缘抽取方法，分别对三个颜色通道提取形态梯度，然后将三个颜色通道合并得到边缘并抽取特征。

4、如权利要求1所述的方法，其特征在于，所述D)步中，找出图像中的候选文本区域，是：

5、如权利要求1所述的方法，其特征在于，所述E)步中的相关特征，为文本区域中字符宽度的均值和方差，通过将文本行或文本列的二值图像向水平方向和竖直方向投影，投影曲线上有明显的波峰和波谷，通过统计相邻波谷之间的距离，计算字符的平均宽度和方差。

6、如权利要求1所述的方法，其特征在于，所述F)步中，将所有文本信息抽取出来，是采用二值化的方法、颜色聚类的方法或统计模型的方法抽取所有文本信息。

7、如权利要求4所述的方法，其特征在于，所述b)步中的边缘特征和几何特征，其中，边缘特征是边缘密度特征和边缘方向特征，几何特征是连通以元的长，宽，宽高比，占空比。