CN104463138A

CN104463138A - 基于视觉结构属性的文本定位方法及系统

Info

Publication number: CN104463138A
Application number: CN201410804810.2A
Authority: CN
Inventors: 王娜; 李霞; 翟芳冬
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2014-12-19
Filing date: 2014-12-19
Publication date: 2015-03-25
Anticipated expiration: 2034-12-19
Also published as: CN104463138B

Abstract

本发明属于图像识别技术领域，尤其涉及一种基于视觉结构属性的文本定位方法及系统。本发明从文本视觉属性的角度出发，通过颜色极性差异变换和边缘邻域末端粘合，检测出丰富的封闭边缘，以得到充裕的候选连通元，然后经过文字笔画属性特征和文本群落属性特征筛选，从候选连通元中提取出属于文字的连通元，然后通过多通道融合及去除重复连通元的方法定位出最终的文本。本发明所采用的方法鲁棒性强，适应文字语言类别混杂、字体风格多样、排列方向随机及背景存在干扰等多种情形，定位出的文本可直接提供给OCR软件进行识别，并可提高OCR软件识别率。本发明可应用在图像视频检索、垃圾信息拦截、辅助视觉导航、街景地图定位、工业装备自动化等诸多领域。

Description

基于视觉结构属性的文本定位方法及系统

技术领域

本发明属于图像识别技术领域，尤其涉及一种基于视觉结构属性的文本定位方法及系统。

背景技术

图像及视频中的文本所包含的语义信息是理解图像及视频内容的重要线索，可广泛应用于图像及视频检索、辅助视觉导航、工业装备自动化等诸多领域。然而，复杂背景下文本的OCR(Optical Character Recognition，光学文字识别)识别率却不高，通用且高效的文本区域定位与文字分割方法依然是当前急需解决的技术难题。

对于复杂背景下的文本图像，必须在进行OCR识别之前对文本进行定位、文字分割及透视校正等处理，才能较好地完成文本信息的提取。这其中，文本定位技术作为OCR识别前的关键一步，顺理成章地受到了人们的广泛关注和长期研究。然而，代表了当前最高技术水平的文本定位算法也只能使OCR识别率达到约75％，远未达到人们的期望及可以广泛应用的程度。

图像分割是进行文本定位所普遍采用的方法，通过图像分割可以区分出文本区域与背景区域，以便进行文本定位。而边缘检测又是图像分割所采用的常用技术手段，在以图像分割为目的的边缘检测中，需要检测出的边缘尽可能封闭，因此，在边缘检测算子末端需要进行边缘生长、粘合等处理，使边缘尽量封闭，从而分割出整体。然而，如果边缘形状过于复杂，比如具有复杂背景的文本的边缘图像，由于复杂背景的存在，给文本的边缘图像带来了大量噪声，容易造成边缘的错误粘合，使分割出的文本与真实文本之间误差较大，并且粘合速度慢、效率低。

当前主流的文本定位方法，从处理对象的角度看，可分为基于连通元的方法(Connected Component-based Methods)、基于纹理的方法(Texture-basedMethods)和基于边缘的方法(Edge-based Methods)三大类型。

基于连通元的方法是利用图像中的处于同一局部区域的文本文字具有相似的颜色、大小、宽高比等几何特征，应用颜色聚类和连通域分析等技术将可能属于同一文字的像素进行聚类合并以得到候选文本区域，最后结合处于同一语义文本文字在图像中的排列特征，定位出文本。基于连通元的方法执行时间短，并且定位精度较高，但是当背景复杂或文本区域与颜色相近的背景区域连接时，该方法的准确度就会大大降低。

基于纹理的方法是将文字看作是具有某种特殊的图像纹理，通过对图像进行一定的变换从而提取图像中的这类纹理信息，并结合分类器技术判定该窗口区域是否为文本，从而得到候选文本区域，最后对二值图像进行形态学处理，滤除噪声点以及连接断裂的文本区域。基于纹理的方法具有良好的通用性，对于不同语言、不同尺寸的文字都能获得较高的检测率，方法鲁棒性强。但是该类算法计算复杂度高，计算时间长，同时如何选取通用有效的纹理特征实现文字区域的分类是该类算法的难点，难以准确把握。

基于边缘的方法通常首先使用边缘检测技术对整幅图像进行边缘检测，常用的有梯度算子Sobel算子、Canny算子、以及一些特殊的边缘检测算子，然后根据边缘密度，结合文本行的几何结构特征，制定启发式约束条件实现文本区域的检测定位。基于边缘的方法的优点是时间复杂度低，可以满足实时应用的需要，而且受文本颜色的影响较小，但是当背景纹理复杂时误检率就会提高，比如背景中存在某些规则排列的物体时容易被误检成文字区域。

发明内容

本发明所要解决的技术问题是，提供一种基于视觉结构属性的文本定位方法及系统，可从复杂的背景中准确定位出文本，从而提高后续文字识别的准确率。本发明是这样实现的：

一种基于视觉结构属性的文本定位方法，包括如下步骤：

RGB颜色极性差异变换：对原始图像进行RGB颜色极性差异变换，得到变换后的图像；

边缘检测：将变换后的图像的两个颜色通道进行边缘检测，得到该两个颜色通道的边缘图像；同时，对原始图像进行边缘检测，得到原始图像的边缘图像；

构建连通元：检测每一幅边缘图像中从属于同一目标的边缘，将从属于同一目标，且未连通的边缘连通成一封闭边缘，并将所述封闭边缘所围成的区域作为一连通元，据此在每一幅边缘图像中形成若干连通元；

连通元笔画属性分析：对每一幅边缘图像中的各连通元进行笔画属性分析，将各连通元的笔画属性与预存的文字笔画属性进行比较，根据比较结果从每一幅边缘图像中提取出符合文字笔画属性的连通元；

连通元群落属性分析：对从每一幅边缘图像中提取出的符合文字笔画属性的连通元进行群落属性分析，将各连通元的群落属性与预存的文本群落属性进行比较，并根据比较结果从符合文字笔画属性的连通元中提取出符合文本群落属性的连通元；

图像融合及文本定位：将从三幅边缘图像中提取出的符合文字笔画属性及文本群落属性的连通元融合到一幅边缘图像中，在融合的过程中去除重复的连通元，将融合后的边缘图像中的各连通元作为文本。

进一步地，对原始图像中的每一像素，设其R、G、B三个通道的原始亮度值分别为R₁、G₁、B₁，经过颜色极性差异变换后的亮度值分别为R₂、G₂、B₂；则颜色极性差异变换公式为：

R₂＝0.5x[max(0,R₁-G₁)+max(0,R₁-B₁)]；

G₂＝0.5x[max(0,G₁-R₁)+max(0,G₁-B₁)]；

B₂＝0.5x[max(0,B₁-R₁)+max(0,B₁-G₁)]。

进一步地，检测每一幅边缘图像中从属于同一目标的边缘，将从属于同一目标，且未连通的边缘连通成一封闭边缘的方法具体为：

通过N*N大小的子窗口遍历每一幅边缘图像；N的取值以使该子窗口内所检测到的边缘从属于同一目标为原则；在子窗口移动的过程中，对子窗口内检测到的边缘缺口进行粘合。

进一步地，所述连通元笔画属性分析的步骤包括：

分析每一幅边缘图像中各连通元的笔画属性；所述笔画属性包括：

宽高比：连通元的最小包络矩形框的宽度与高度两者之中较小值与较大值的比值；

回环笔画的嵌套深度：连通元中回环笔画的层数；

孔洞数量：连通元内所包含的子连通元的数量；

判断每一连通元的笔画属性是否同时满足以下三个条件，如果满足，则该连通元符合文字笔画属性；

该连通元的宽高比在预设的第一范围内；

该连通元的回环笔画的嵌套深度不大于预设的第一阈值；

该连通元的孔洞数量不大于预设的第二阈值。

进一步地，所述连通元群落属性分析的步骤包括：

对符合文字笔画属性的连通元中的每一对相邻连通元，通过以下步骤分析每一对相邻连通元之间的近邻相似度：

分析该对相邻连通元之间的以下参数：

近邻特征相似度：当相邻连通元的最小包络矩形框之间的距离处于预设的第二范围内时，该对相邻连通元之间的近邻相似度的值取为1，否则取为0；

尺寸相似度：相邻连通元的最小包络矩形框之间的尺寸相似度；

颜色相似度：相邻连通元之间的颜色相似度；

笔画宽度相似度：相邻连通元之间的笔画宽度相似度；

中心紧密度相似度：中心紧密度是指连通元中心区域非空面积与该中心区域面积的比值；当相邻连通元的中心紧密度都高于预设的第三阈值时，该对相邻连通元之间的中心紧密度相似度的值取为1，否则取为0；

根据预设的融合规则将该对相邻连通元之间的近邻特征相似度、尺寸相似度、颜色相似度、笔画宽度相似度及中心紧密度相似度进行融合处理，得到该对相邻连通元之间的近邻相似度；

将各对相邻连通元之间的近邻相似度按相似度高低划分为优、良、中、差四个等级；

以各对相邻连通元之间的近邻相似度作为连接权值，构建无向图；

搜索出近邻相似度为优或良的连通元对，并以该连通元对中两个连通元的最小包络矩形框的中心确定一条直线，并以该连通元对为起点，逐级向外扩展近邻相似度高于或等于中且位于该条直线上的连通元，直到没有新的连通元符合扩展条件；

提取以近邻相似度为优的连通元对为起点扩展后得到的所有连通元；

对于以近邻相似度为良的连通元对为起点扩展后得到的所有连通元，如果扩展的连通元个数大于或等于2，则全部提取，否则，全部不提取。

一种基于视觉结构属性的文本定位系统，包括：

RGB颜色极性差异变换模块，用于对原始图像进行RGB颜色极性差异变换，得到变换后的图像；

边缘检测模块，用于将变换后的图像的两个颜色通道进行边缘检测，得到该两个颜色通道的边缘图像；同时，对原始图像进行边缘检测，得到原始图像的边缘图像；

连通元构建模块，用于检测每一幅边缘图像中从属于同一目标的边缘，将从属于同一目标，且未连通的边缘连通成一封闭边缘，并将所述封闭边缘所围成的区域作为一连通元，据此在每一幅边缘图像中形成若干连通元；

连通元笔画属性分析模块，用于对每一幅边缘图像中的各连通元进行笔画属性分析，将各连通元的笔画属性与预存的文字笔画属性进行比较，根据比较结果从每一幅边缘图像中提取出符合文字笔画属性的连通元；

连通元群落属性分析模块，用于对从每一幅边缘图像中提取出的符合文字笔画属性的连通元进行群落属性分析，将各连通元的群落属性与预存的文本群落属性进行比较，并根据比较结果从符合文字笔画属性的连通元中提取出符合文本群落属性的连通元；

图像融合及文本定位模块，用于将从三幅边缘图像中提取出的符合文字笔画属性及文本群落属性的连通元融合到一幅边缘图像中，在融合的过程中去除重复的连通元，将融合后的边缘图像中的各连通元作为文本。

R₂＝0.5x[max(0,R₁-G₁)+max(0,R₁-B₁)]；

G₂＝0.5x[max(0,G₁-R₁)+max(0,G₁-B₁)]；

B₂＝0.5x[max(0,B₁-R₁)+max(0,B₁-G₁)]。

进一步地，所述连通元笔画属性分析模块根据如下方式分析各连通元的笔画属性：

回环笔画的嵌套深度：连通元中回环笔画的层数；

孔洞数量：连通元内所包含的子连通元的数量；

该连通元的宽高比在预设的第一范围内；

该连通元的回环笔画的嵌套深度不大于预设的第一阈值；

该连通元的孔洞数量不大于预设的第二阈值。

进一步地，所述连通元群落属性分析模块根据如下方式分析各连通元的群落属性：

分析该对相邻连通元之间的以下参数：

颜色相似度：相邻连通元之间的颜色相似度；

笔画宽度相似度：相邻连通元之间的笔画宽度相似度；

进一步地，所述基于视觉结构属性的文本定位系统还包括：

图像缩放模块，用于对所述三幅边缘图像进行同等比例缩放，获得多个尺度下的三幅边缘图像；

所述RGB颜色极性差异变换模块、边缘检测模块、连通元构建模块、连通元笔画属性分析模块、连通元群落属性分析模块及图像融合及文本定位模块用于在每个尺度下，按照权利要求6所述的方式提取文本；

所述图像融合及文本定位模块还用于将各尺度下提取的文本进行融合，得到最终的文本。

与现有技术相比，本发明从文本视觉属性的角度出发，通过颜色极性差异变换和边缘邻域末端粘合，检测出丰富的封闭边缘，以得到充裕的候选连通元，然后经过文字笔画属性特征和文本群落属性特征筛选，从候选连通元中提取出属于文字的连通元，然后通过多通道融合及去除重复连通元的方法定位出最终的文本。本发明所采用的方法鲁棒性强，适应文字语言类别混杂、字体风格多样、排列方向随机及背景存在干扰等多种情形，定位出的文本可直接提供给OCR软件进行识别，并可提高OCR软件识别率。本发明可应用在图像视频检索、垃圾信息拦截、辅助视觉导航、街景地图定位、工业装备自动化等诸多领域。

附图说明

图1：本发明实施例提供的基于视觉结构属性的文本定位方法流程示意图；

图2:本发明实施例中文本的边缘缺口示意图；

图3：本发明实施例提供的基于视觉结构属性的文本定位系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。

本发明主要目的在于从复杂背景下提取出文本，以为后续的识别做好前期处理，从而提高识别率。本发明从文本视觉属性的角度出发，通过颜色极性差异变换和边缘邻域末端粘合，检测出丰富的封闭边缘，以得到充裕的候选连通元，然后经过文字笔画属性特征和文本群落属性特征筛选，从候选连通元中提取出属于文字的连通元，然后通过多通道融合及去除重复连通元的方法定位最终的文本。该文本可通过后续的透视形变校正、文字二值化等处理后通过Tesseract-OCR软件进行识别。视觉结构属性在本文中是指文本在视觉上的结构属性特征，或者说文本在视觉上所具有的结构方面的特征。

如图1所示，本发明实施例提供了一种基于视觉结构属性的文本定位方法，包括如下步骤：

构建连通元：检测每一幅边缘图像中从属于同一目标的边缘，将从属于同一目标，且未连通的边缘连通成一封闭边缘，并将封闭边缘所围成的区域作为一连通元，据此在每一幅边缘图像中形成若干连通元；

以下对上述各步骤进行详细描述：

RGB颜色极性差异变换的目的主要是为了克服文本图像存在的阴影、反射、及光照不均等复杂情况造成彩色转灰度时造成边缘损失及后续检测出的边缘图像中文字部分边缘缺口过大，难以粘合的缺陷。众所周知，对于每一种颜色，红、绿、蓝的构成比例关系基本保持不变，并且，除灰色以外，每种颜色的红、绿、蓝三个通道中总会有一个通道的颜色作为主导色，而其他两个通道的颜色作为辅色，从而混合成该种颜色。如果将R、G、B三个颜色通道视为三极，那么三极各自所形成的雷达图之间将会存在差异，这就是极性差异，由此我们便可轻易地区分出不同颜色的物体。尽管由于诸如环境影响、设备因素等获取手段限制，我们所得到的颜色值不可避免地会产生偏差，但这种大致的极性差异关系还是能够得以保持。RGB颜色极性差异变换就是基于上述原理而提出的，其变换的基本思路是：对原始图像中的每一像素，将其三个颜色通道中的最低亮度值置零，其他两个通道的亮度值各自保留其相对亮度强度。具体而言，对于原始图像中的每一像素，将其红、绿、蓝三个通道中的每个通道与其它两个通道做比较，高出的亮度值作为差异性优胜强度；如果亮度差为负，则置为零。这种处理方式利用非线性亮度变换，可以在很大程度上克服光照的不均衡和微弱边缘，增加算法的适应性。可以采用如下公式对原始图像中的每一像素进行RGB颜色极性差异变换：

R₂＝0.5x[max(0,R₁-G₁)+max(0,R₁-B₁)]；

G₂＝0.5x[max(0,G₁-R₁)+max(0,G₁-B₁)]；

B₂＝0.5x[max(0,B₁-R₁)+max(0,B₁-G₁)]。

上式中，R₁、G₁、B₁为原彩图中的各分量，R₂、G₂、B₂为变换后新彩图中的各分量。

从RGB颜色极性差异变换的过程可以看出，一方面，相邻不同实物间极性差异不同，直接使得它们交界处的边缘容易得到检出；另一方面，由于保留了它们之间的亮度差，原始图像各像素的各通道间的亮度大小关系在变换后的图像中还是得以保持。再进一步地，由于色彩极性差异变换中带有“此消彼长”的功能，文字的边缘应存在于三个通道里任意两个中，因此在提取连通单元时只需要选择两个通道即可。对于红绿蓝三个通道亮度比重基本接近的图像，由于各通道间亮度差异程度较小，因此，这类图像经过颜色极性差异变换后各通道的边缘图像中边缘就会不明显，但直接对这类图像进行边缘检测获得的边缘图像中却多有这类边缘。因此，有必要将原始图像各通道的边缘图像与原始图像的边缘图像相结合，以确保检测出尽可能多的边缘。根据后续对不同通道融合模式下封闭边缘的覆盖率的测试发现，将原始图像的灰度图像的边缘图像、原始图像经变换后的R通道的边缘图像、原始图像经变换后的B通道的边缘图像三者相融合时，封闭边缘的覆盖率最好，因此，优先选择将变换后的图像的R、B两个颜色通道进行边缘检测，得到该两个颜色通道的边缘图像，同时，对原始图像进行边缘检测，得到原始图像的边缘图像，以为后续步骤做准备。

本发明所涉及的文本定位方法是基于连通元的，其理论依据是：文本各文字的每个笔画是作为一个整体的，因此，在文本的边缘图像中，每个笔画的边缘应当是连通成一封闭边缘的，该封闭边缘所围成的区域就是该笔画。此处对笔画的定义为：一个文字中所有粘连在一起的部分称为该文字的一个笔画。然而，由于算法局限性及图像的复杂性，检测出的边缘经常会出现视觉上应当连通而检测结果未能连通的情况。图2所示为通过边缘检测得到的单词“ki l ls”的边缘图像，根据图中各圆圈所指示的区域可以看出，单词“kills”上从左至右共有5处边缘未连通的地方(即边缘缺口)，单词“kills”下方各圆圈所指示的区域分别为上述5处边缘缺口的放大图。根据之前的描述可知，文本图像可能存在的阴影、反射、及光照不均等复杂情况，这些因素可能造成检测出的文本的边缘图像出现视觉上应当连通却未连通的边缘。所谓视觉上应当连通是指，对于一幅图上在视觉上是一个整体的目标(本文所指目标均是这种类型)，例如，文字的一个笔画，那么检测出的该幅图的边缘图像中，从属于该目标的所有边缘应该完全连通成为一个封闭的边缘，该封闭的边缘所围成的区域就是该目标的区域。以单词“kills”的边缘图像举例来说，根据对笔画的定义，单词“kills”共有6个笔画，即字母“k”、“i”的两个部分、两个“l”及“s”，这6个笔画各自形成一个独立的整体，即各自形成一个目标。因此，从视觉上，从属于这6个笔画的边缘在单词“kills”的边缘图像中应当是各自连通成为一个封闭的边缘的。只是由于某些诸如阴影、反射及光照等客观因素，造成了检测出的单词“kills”的边缘图像出现了视觉上应当连通实际却未连通的边缘，即5处边缘缺口。这些边缘缺口会影响到后续对文本的提取，因此，应当将这些视觉上应当连通却未连通的边缘连通成一封闭边缘。

要将边缘图像中的这些视觉上应当连通却未连通的边缘连通成一封闭边缘，首先要确保拟连通的边缘从属于同一目标。根据研究发现，在边缘图像中，从属于同一目标的边缘缺口大多出现在该目标的边缘的拐点处，在边缘的拐点处，由于邻域极值抑制或边缘走向不一致极容易造成边缘未能连接，而在其他地方则极少有这种情况发生。这类边缘缺口基本具有以下特点：1、边缘缺口不会太大；2、边缘缺口的两端处于边缘的末端。基于这类边缘缺口的特点，本发明提出“邻域末端粘合”的方法，对从属于同一目标的边缘上的缺口进行粘合，最终使从属于同一目标的边缘连接成一封闭的边缘，该封闭边缘所围成的区域就是该目标的区域。“邻域末端粘合”的基本思路是，采用N*N大小的子窗口遍历整幅边缘图像，在子窗口移动的过程中，如果检测到子窗口内有符合粘合条件的边缘缺口，则将该边缘缺口粘合，使其连接，当该子窗口遍历完整个边缘图像时，从属于同一目标的边缘将各自连接成一封闭边缘。子窗口的大小的选择主要是为确保子窗口内的边缘从属于同一目标，根据研究发现，从属于同一目标的边缘上的缺口大多不会超过某一值，通过对多幅边缘图像中从属于同一目标的边缘上的缺口的宽度检测可以大致确定出这个值的大小，根据该值，可以为子窗口设定一个合适宽度，使得在子窗口移动的过程中，该边缘缺口的两端可能同时出现在子窗口中，从而检测到该边缘缺口。子窗口的宽度不能太过小于这个值，这样可能检测不出边缘缺口，但子窗口的宽度也不能太过大于这个值，否则可能造成检测出的边缘不从属于同一目标，从而造成错误粘合。在确保子窗口内检测出的边缘从属于同一目标的前提下，符合粘合条件就是指，子窗口中检测出边缘缺口了，只要检测出边缘缺口就需要将其粘合。对于上述三幅边缘图像中的每一幅，都采用上述方法将边缘图像中从属于同一目标的边缘各自连接成为封闭边缘。各幅边缘图像中，每个封闭边缘所围成的区域作为一连通元，据此在该边缘图像中形成若干连通元。

这些连通元中包括单层型连通元或嵌套型连通元。通过“邻域末端粘合”的方法对边缘图像处理后，就可以基于此边缘图像提取出单层型或者嵌套型的连通元。由于各通道(原始图像的灰度图像的边缘图像、原始图像经变换后的R通道的边缘图像、原始图像经变换后的B通道的边缘图像)中的边缘的位置不能严格对应，如果将三通道的边缘简单相或之后再一次性提取连通元，则会严重损伤那些小文字的边缘，对大文字也会产生叠边，不利于文字的提取。而且，由灰度图像所得的边缘图像总会不那么完整、封闭，而基于颜色极性差异变换所得的b、r通道可以作为灰度图像得边缘图像的一个有力补充。分别从各通道提取连通单元，可以从数量上进行保证有较多候选者，然后将这三个通道融合可以提取出更加丰富的候选连通元。因此，本发明实施例采用先分别从各通道提取连通元进行后续处理以确定出属于文字的连通元，然后将各通道属于文字的连通元进行融合，从而定位出文本的方法。

得到的这些连通元中既包含属于文字笔画的连通元，也包含其他连通元，为检测出这些连通元中属于文字笔画的连通元，还需要对三幅边缘图像中的各连通元进行笔画属性分析及群落属性分析，以判断各连通元是否符合文字笔画属性及文本群落属性，只有同时符合文字笔画属性及文本群落属性的连通元才是文字笔画。

笔画属性分析所基于的原理是，不管什么文字，其语言符号系统都有着各自的本质特征，一般都会保持着较高的稳定性，不会随着用户或者使用场景而发生改变。据此，可以从分析文字笔画构成方式入手，总结其文字笔画特征规律，然后用一组宽松阈值级联分类器的方法从这些连通元中筛选出符合文字笔画特征规律的连通元。笔画特征包括以下三个参数：

宽高比：连通元的最小包络矩形框的宽度与高度两者之中较小值与较大值的比值。宽高比的这种定义可以适应文字倾斜的情形。通常，在图像中，文字的宽度和高度的最小值不会同时小于3个像素，最大值也不会超过图像宽度和高度中较大者的1/2。单个文字的宽高比则更加稳定，虽然字体变化时会引起一些变动，但大多数情况，单个文字的宽高比还是在区间(1/6,1)内取值，并且位于区间(0.7,1.0)的密度更大，也就是说，宽高比位于此区间段的连通元可能是文字的概率会更大一些。根据文字的这些宽高比普遍特征，可以预设一个比值范围(第一范围)，并检测各连通元的宽高比。如果连通元的宽高比处于第一范围内，则该连通元符合文字笔画特征，否则，该连通元不符合文字笔画特征。

回环笔画的嵌套深度：连通元中回环笔画的层数。根据前文，文字中所有粘连在一起的部分称为一个笔画。而在笔画中如果有“孔”，则称该笔画为回环笔画。通过分析中英文等文字发现，英文文字中回环笔画的最大嵌套深度为1，而中文文字的回环笔画的最大嵌套深度为2，例如“回”字。在实际情形中，文字的尺寸可能比较大，树枝等干扰可能会以投影或反射的形式叠加至文字上而加大其轮廓嵌套深度，因此，预设的回环笔画的嵌套深度的上限值应当在单纯文字的回环笔画的嵌套深度的上限值的基础上适当提高，以增强抗干扰能力，提搞的程度根据经验值设定。预设好回环笔画的嵌套深度的上限值(第一阈值)后，就可以对各连通元进行回环笔画的嵌套深度分析。如果连通元回环笔画的嵌套深度不高于该第一阈值，则该连通元符合文字笔画特征，否则，该连通元不符合文字笔画特征。对应地，在基于边缘的轮廓体系中，因为一个笔画有两侧边缘，每条边缘又可区分为内侧轮廓和外侧轮廓，因此轮廓的嵌套深度在数值上是回环笔画嵌套深度的4倍。

孔洞数量：连通元内所包含的子连通元的数量。这一特征主要用于滤除杂草、树叶等边缘丰富错乱的实物所占区域，却能有效保留文字区域。这是因为，一方面，即使是最复杂的中文文字体系，其笔画中的孔洞数量的上限值也是远低于杂草、树叶等实物边缘所形成的孔洞数量的。另一方面，文本区域一般很少与杂乱区域粘连。实践研究发现，自然场景下出现的文本，其周边一般会有一些“留白”做衬托，保证视觉效果上的简明和突出，以便准确快速的传播其信息，同时，在语言使用习惯上，文字与文字之间、文本行与文本行之间都会存在一定间隙。因此，这些“留白”和间隙就可以有效保护文字区域不受粘连、清除。因此，根据经验可以设定孔洞数量的上限值(第二阈值)，并检测各连通元的孔洞数量。如果连通元的孔洞数量不高于第二阈值，则该连通元符合文字笔画特征，否则，该连通元不符合文字笔画特征。

只有上述三个参数同时符合文字笔画特征的连通元，才能被认定为是符合文字笔画特征的连通元。

对于符合文字笔画特征的连通元，再进一步对其进行群落属性分析。群落属性分析所基于的基本原理是，出于信息传播的需要，文本多是成批地聚集出现，并且处于同一区域内的文字之间一般有着多方面的相似性，这就是其近邻相似的群落特征。尤其是，在文字区域内，近邻相似度通常比较高，可以有效区别于类似杂草树叶等连通元集群。因此，可以通过分析连通元之间的近邻相似度来区分属于文本的连通元与其他连通元。

相似度有两种类型，即数值相似度与数集相似度。设a、b为两个不为零的数值，它们之间的相似度为S(a,b)，则

S(a,b)＝min(a.b)/max(a,b)。

设A、B为两个数集，A、B的均值分别为M_A、M_B，标准差分别为V_A、V_B，它们之间的相似度为S(A,B)，则

S(A,B)＝(mine-maxs)/(maxe-mins)。其中

maxs＝max(M_A-V_A,M_B-V_B)；

mins＝min(M_A-V_A,M_B-V_B)；

maxe＝max(M_A+V_A,M_B+V_B)；

mine＝min(M_A+V_A,M_B+V_B)。

后续为便于表述，设X、Y、W、H分别代表一个联通元的最小包络矩形框的左边缘X坐标值、上边缘Y坐标值、宽度W及高度H。对连通元进行群落属性分析的步骤包括：

分析该对相邻连通元之间的以下参数：

1、近邻特征相似度：当相邻连通元的最小包络矩形框之间的距离处于预设的第二范围内时，该对相邻连通元之间的近邻相似度的值取为1，否则取为0。

设S_A、E_A分别为一维数轴上线段A的起点和终点坐标，S_B、E_B分别为该一维数轴上线段B的起点和终点坐标，线段A、B之间的间距为d，则

d＝max(S_A,S_B)-min(E_A,E_B)。

当d为负值时，说明这两条线段有交叠。如果A、B为两个连通元，对于这两个连通元的最小包络矩形框之间的间距D，可以分别从X、Y方向进行考虑，可得到如下关系式：

其中，dx为X方向上A、B两个连通元的最小包络矩形框之间的距离，dy为Y方向上A、B两个连通元的最小包络矩形框之间的距离。

两个矩形框远近程度的度量方法，可以采取如下小中取大的方法得出参考基准D_ERF，再由D/D_ERF的值来衡量：

D_ERF＝max(min(W_A,W_B),min(H_A,H_B))。其中W_A表示连通元A的最小包络矩形框的宽度，W_B表示连通元B的最小包络矩形框的宽度，H_A表示连通元A的最小包络矩形框的高度，H_B表示连通元B的最小包络矩形框的高度。

D/D_ERF的值越大，说明两个矩形框之间的间距越远。通常，在英文系统中，较大的间距出现在单词之间，且多数时候D/D_ERF的值不会超过0.8，而在中文系统中，尤其是文字量相对较少的时候，比如道路牌上的文字，间距会比较大，但一般也不会超过1.6。另一方面，两个字符之间也不会过于接近或遮挡，因此，如果两个连通元的包络矩形框发生交叠，应当首先检查它们之间是否发生严重遮挡，然后再检查它们之间是否紧邻无缝，如果有严重遮挡或紧邻无缝，那么这两个连通元必定不是文字对，不予收录。具体实施时，可对D/D_ERF的值设定一个参考范围(即如上所述的第二范围)，如果计算得出两个连通元的D/D_ERF的值处于该范围，则表示该两个连通元为文字对，予以收录，将该两个连通元对之间的近邻特征相似度记为1，否则，不予收录，将该两个连通元对之间的近邻特征相似度记为0。

尺寸相似度：相邻连通元的最小包络矩形框之间的尺寸相似度。两个相邻连通元的最小包络矩形框之间的尺寸相似度包括两个相邻连通元的最小包络矩形框之间的宽度相似度及高度相似度，可通过前述计算数值相似度的方法计算矩形框之间的宽度相似度和高度相似度。计算得出的两个结果可通过一种融合规则融合为尺寸相似度，比如取两个结果的平均值等。

颜色相似度：相邻连通元之间的颜色相似度。本发明采集数集相似度的计算方法计算两个连通元之间的颜色相似度。也就是将各连通元所在区域的所有像素的每一颜色通道的颜色值作为该连通元的一个颜色通道的颜色值集合，并采用前述数值相似度的计算方法计算该相邻连通元之间的各颜色通道的颜色相似度，然后将各颜色通道的颜色相似度的中值作为该相邻连通元之间的颜色相似度。

笔画宽度相似度：相邻连通元之间的笔画宽度相似度。检测笔画宽度时，对于一个笔画，分别统计位于该笔画的1/5、2/5、3/5、4/5高度上的笔画宽度。笔画宽度可采用四向最小值法的方法提取。对于提取得到的相邻连通元的多个笔画宽度，可采用前述数集相似度的计算方法计算该相邻连通元之间的笔画宽度相似度。

中心紧密度相似度：中心紧密度是指连通元中心区域非空面积与该中心区域面积的比值。在英文文字中，只有“i、I、1”等少数文字的中心紧密度偏高，大多数文字则能在这中间区域表现出空隙来，因此这个比率就会偏小一点。而在中文文字中，由于笔画相对复杂，显得有些饱满，比率会整体地上升一些，但也不会至于达到100％。因此，可根据经验设置第三阈值，当相邻连通元的中心紧密度都高于预设的第三阈值时，该对相邻连通元之间的中心紧密度相似度的值取为1，否则取为0。如果相邻的两个连通元的中心紧密度都过高，则会被认为不是有效的文字对，应切断其关联，亦即它们之间的相似度为0。上述各参数分析完成后，根据预设的融合规则将该对相邻连通元之间的近邻特征相似度、尺寸相似度、颜色相似度、笔画宽度相似度及中心紧密度相似度相融合，得到该对相邻连通元之间的近邻相似度。将各对相邻连通元之间的近邻相似度按相似度高低划分为优、良、中、差四个等级。具体可采用经验统计值进行划分。

划分等级后，以各对相邻连通元之间的近邻相似度作为连接权值，构建无向图，然后搜索出近邻相似度为优或良的连通元对，并以该连通元对中两个连通元的最小包络矩形框的中心确定一条直线，并以该连通元对为起点，逐级向外扩展近邻相似度高于或等于中且位于该条直线上的连通元，直到没有新的连通元符合扩展条件。这里，连通元位于该条直线上是指，该连通元的最小包络矩形框的中心点位于该条直线上或位于该条直线两侧，但与该直线的距离小于设定距离。此时，提取以近邻相似度为优的连通元对为起点扩展后得到的所有连通元。对于以近邻相似度为良的连通元对为起点扩展后得到的所有连通元，如果扩展的连通元个数大于或等于2，则全部提取，否则，全部不提取。在此模块中，计算点线关系时，均以字符框的中心点坐标代表该字符块。

提取出的这些连通元就是将要进行识别的文本。可以通过一包络框将这些提取出的连通元圈出，以示对这些文本的定位。

以上的步骤是在同一尺度下对三幅边缘图像进行处理及融合来提取出文本的。为能够自适应地、较完备地检测出图像中未知的、多种尺寸文字，还可进一步采取多尺度策略，在多个尺度下按照上述方法对三幅边缘图像进行处理及融合来提取文本，然后将在多个尺度下提取出的文本进行再次融合。边缘检测算法对图像分辨率较为敏感，分辨率过小时文字笔画本身就会相互粘连而缺少空隙，分辨率过大时笔画边缘容易受干扰产生偏向而不能闭合，这些都会导致文字不能正常检出，因此有需要对文本图像进行多尺度处理，以适应文字大小随机变化。实验中发现，缩放尺度取0.7、1.0、1.5、1.8、2.4五种规格较为合适，由此可组成0.7、1.0、1.5和1.5、1.8、2.4两组小大三级尺度。如果小三级尺度下中心尺度有检测出文字，则使用小三级尺度，否则使用大三级尺度。另一方面，在文本图像中，分辨率上下变化时，文字边缘会表现出较好的稳定性，而非文字边缘则较容易走样，凭此也可以将部分非文字连通元滤除。

如图3所示，本发明还提供了一种基于视觉结构属性的文本定位系统，包括：

RGB颜色极性差异变换模块1，用于对原始图像进行RGB颜色极性差异变换，得到变换后的图像；

边缘检测模块2，用于将变换后的图像的两个颜色通道进行边缘检测，得到该两个颜色通道的边缘图像；同时，对原始图像进行边缘检测，得到原始图像的边缘图像；

连通元构建模块3，用于检测每一幅边缘图像中从属于同一目标的边缘，将从属于同一目标，且未连通的边缘连通成一封闭边缘，并将封闭边缘所围成的区域作为一连通元，据此在每一幅边缘图像中形成若干连通元；

连通元笔画属性分析模块4，用于对每一幅边缘图像中的各连通元进行笔画属性分析，将各连通元的笔画属性与预存的文字笔画属性进行比较，根据比较结果从每一幅边缘图像中提取出符合文字笔画属性的连通元；

连通元群落属性分析模块5，用于对从每一幅边缘图像中提取出的符合文字笔画属性的连通元进行群落属性分析，将各连通元的群落属性与预存的文本群落属性进行比较，并根据比较结果从符合文字笔画属性的连通元中提取出符合文本群落属性的连通元；

图像融合及文本定位模块6，用于将从三幅边缘图像中提取出的符合文字笔画属性及文本群落属性的连通元融合到一幅边缘图像中，在融合的过程中去除重复的连通元，将融合后的边缘图像中的各连通元作为文本。

对原始图像中的每一像素，设其R、G、B三个通道的原始亮度值分别为R₁、G₁、B₁，经过颜色极性差异变换后的亮度值分别为R₂、G₂、B₂；则颜色极性差异变换公式为：

R₂＝0.5x[max(0,R₁-G₁)+max(0,R₁-B₁)]；

G₂＝0.5x[max(0,G₁-R₁)+max(0,G₁-B₁)]；

B₂＝0.5x[max(0,B₁-R₁)+max(0,B₁-G₁)]。

两个颜色通道分别为R通道和B通道。

连通元构建模块3检测每一幅边缘图像中从属于同一目标的边缘，将从属于同一目标，且未连通的边缘连通成一封闭边缘的方法具体为：

连通元笔画属性分析模块4根据如下方式分析各连通元的笔画属性：

分析每一幅边缘图像中各连通元的笔画属性；笔画属性包括：

回环笔画的嵌套深度：连通元中回环笔画的层数；

孔洞数量：连通元内所包含的子连通元的数量；

该连通元的宽高比在预设的第一范围内；

该连通元的回环笔画的嵌套深度不大于预设的第一阈值；

该连通元的孔洞数量不大于预设的第二阈值。

连通元群落属性分析模块5根据如下方式分析各连通元的群落属性：

分析该对相邻连通元之间的以下参数：

颜色相似度：相邻连通元之间的颜色相似度；

笔画宽度相似度：相邻连通元之间的笔画宽度相似度；

系统还包括：

图像缩放模块，用于对三幅边缘图像进行同等比例缩放，获得多个尺度下的三幅边缘图像；

RGB颜色极性差异变换模块1、边缘检测模块2、连通元构建模块3、连通元笔画属性分析模块4、连通元群落属性分析模块5及图像融合及文本定位模块6用于在每个尺度下，按照权利要求8的方式提取文本；

图像融合及文本定位模块6还用于将各尺度下提取的文本进行融合，得到最终的文本。本系统各模块的工作原理与前述基于视觉结构属性的文本定位方法中各步骤相对应，在此不再赘述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于视觉结构属性的文本定位方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于视觉结构属性的文本定位方法，其特征在于，对原始图像中的每一像素，设其R、G、B三个通道的原始亮度值分别为R₁、G₁、B₁，经过颜色极性差异变换后的亮度值分别为R₂、G₂、B₂；则颜色极性差异变换公式为：

R₂＝0.5x[max(0,R₁-G₁)+max(0,R₁-B₁)]；

G₂＝0.5x[max(0,G₁-R₁)+max(0,G₁-B₁)]；

B₂＝0.5x[max(0,B₁-R₁)+max(0,B₁-G₁)]。

3.如权利要求1所述的基于视觉结构属性的文本定位方法，其特征在于，检测每一幅边缘图像中从属于同一目标的边缘，将从属于同一目标，且未连通的边缘连通成一封闭边缘的方法具体为：

4.如权利要求1所述的基于视觉结构属性的文本定位方法，其特征在于，所述连通元笔画属性分析的步骤包括：

回环笔画的嵌套深度：连通元中回环笔画的层数；

孔洞数量：连通元内所包含的子连通元的数量；

该连通元的宽高比在预设的第一范围内；

该连通元的回环笔画的嵌套深度不大于预设的第一阈值；

该连通元的孔洞数量不大于预设的第二阈值。

5.如权利要求1所述的基于视觉结构属性的文本定位方法，其特征在于，所述连通元群落属性分析的步骤包括：

分析该对相邻连通元之间的以下参数：

颜色相似度：相邻连通元之间的颜色相似度；

笔画宽度相似度：相邻连通元之间的笔画宽度相似度；

6.一种基于视觉结构属性的文本定位系统，其特征在于，包括：

7.如权利要求5所述的基于视觉结构属性的文本定位系统，其特征在于，对原始图像中的每一像素，设其R、G、B三个通道的原始亮度值分别为R₁、G₁、B₁，经过颜色极性差异变换后的亮度值分别为R₂、G₂、B₂；则颜色极性差异变换公式为：

R₂＝0.5x[max(0,R₁-G₁)+max(0,R₁-B₁)]；

G₂＝0.5x[max(0,G₁-R₁)+max(0,G₁-B₁)]；

B₂＝0.5x[max(0,B₁-R₁)+max(0,B₁-G₁)]。

8.如权利要求5所述的基于视觉结构属性的文本定位系统，其特征在于，所述连通元笔画属性分析模块根据如下方式分析各连通元的笔画属性：

回环笔画的嵌套深度：连通元中回环笔画的层数；

孔洞数量：连通元内所包含的子连通元的数量；

该连通元的宽高比在预设的第一范围内；

该连通元的回环笔画的嵌套深度不大于预设的第一阈值；

该连通元的孔洞数量不大于预设的第二阈值。

9.如权利要求5所述的基于视觉结构属性的文本定位系统，其特征在于，所述连通元群落属性分析模块根据如下方式分析各连通元的群落属性：

分析该对相邻连通元之间的以下参数：

颜色相似度：相邻连通元之间的颜色相似度；

笔画宽度相似度：相邻连通元之间的笔画宽度相似度；

10.如权利要求5所述的基于视觉结构属性的文本定位系统，其特征在于，还包括：