CN105426846A

CN105426846A - 一种基于图割模型的场景图像中文本的定位方法

Info

Publication number: CN105426846A
Application number: CN201510807871.9A
Authority: CN
Inventors: 于凤芹
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2015-11-20
Filing date: 2015-11-20
Publication date: 2016-03-23

Abstract

一种基于图割模型的场景图像中文本的定位方法。首先提取图像中的最大稳定极值区域作为文本候选区域，并以此为图割模型顶点，利用候选区域的一元文本特征和二元文本特征来建立图割模型。一元文本特征表征区域本身的文本特性，采用边缘梯度特征、中心环绕直方图和笔画宽度变异系数表示的一元文本特征；二元文本特征能够反映文本区域与相邻背景区域同为同一类型区域的概率，即二元文本特征越相似，两者是同一类区域的概率就越大。本发明考虑到研究对象为彩色图像，利用颜色分布和区域结构相似性来表示二元文本特征。利用提取的一元文本特征和二元文本特征来构建能量函数并利用能量函数最小化去除背景区域以求得最优分割，最后通过文本聚合得到文本区域。

Description

一种基于图割模型的场景图像中文本的定位方法

1、技术领域

本发明属于图像处理技术领域，提出一种基于图割模型的场景图像中的文本区域定位方法。首先提取图像中的最大稳定极值区域作为文本候选区域，然后以每个候选区域为图割模型顶点，利用候选区域的一元文本特征和二元文本特征来建立图割模型，并利用能量函数最小化去除背景区域以求得最优分割，最后通过文本聚合得到文本区域。图像中的文本区域定位是后续的图像分割和图像理解的基础和前提。

2、背景技术

随着数码相机、手机等图像获取设备的广泛应用，图像已成为重要的传递信息的载体，而图像中的文本通常能够提供重要的语义信息，所以，图像中的文本信息提取已成为模式识别领域的研究内容之一，并有着良好的应用前景与商业价值。文本定位是文本提取的前提与基础，是文本信息提取系统的关键部分，因此可靠而有效、且适用性强的场景图像中的文本定位方法具有重要的意义。

在自然场景图像中的文本，由于文本大小、字体、排列方式不确定，并且场景背景一般较为复杂，图像中的文本精确定位的难度较大。目前，场景图像文本定位主要分为基于边缘检测、基于连通区域和基于纹理特征等三类方法。基于边缘检测方法利用边缘检测得到边缘图像，通过形态学处理和启发式过滤规则得到文本区域。但是当边缘较多、区域有交叉时容易形成虚假文本；基于连通区域方法是根据局部文本区域的颜色与亮度相近且与背景的对比度较高，利用颜色聚类、连通分量分析等方法对文本定位。但该方法适用单一背景图像且对光照和颜色较敏感；基于纹理特征方法将文本视为一种特殊纹理，提取文本区域的纹理特征，然后利用分类器对文本和背景进行分类。该方法准确度较高，但需要先提取大量的正负样本来训练分类器导致计算量较大，而且单一的纹理特征并不能够有效的区分文本与背景，特征的选取也是一个难点。

3、发明内容

为了适应复杂场景图像中的文本定位，本发明提出一种基于图割模型的场景图像文本定位的方法。该方法将文本区域和背景区域的多个不同特征，通过图割模型融合起来，即采用代表文本区域特征的边缘方向梯度直方图、中心环绕直方图和笔画宽度变换的一元特征构成区域项，采用描述文本区域与背景领域间的关系的颜色分布和区域相似性等二元特征构成来边界项，以一元特征和二元特征构建能量函数，通过求解能量函数最小达到对图的最优分割，将图像分割作为候选文本区域与背景区域的二分类过程，从而实现图像中的文本定位。

图割模型是一种全局能量最小化的图像分割方法，主要的思路是将图像中的像素作为图的顶点，把像素与领域间的关系作为图的边，这样就把图像映射成一个加权图，然后根据边的权值设定能量函数，通过求解能量函数的最小化来实现对图的最优分割，从而实现对原图像的分割。

采用边缘梯度特征、中心环绕直方图和笔画宽度变异系数作为一元文本特征

由于一元文本特征表示区域本身的文本特性，可根据提取的一元文本特征来描述区域是文本区域还是背景区域，本发明采用边缘梯度特征、中心环绕直方图和笔画宽度变异系数表示的一元文本特征构建能量函数的区域项。

(1)边缘梯度特征

由于文本区域一般含有丰富的边缘信息，文本的边缘方向大致相反而且幅值大致相同，各方向上的梯度相差不大，故边缘梯度是描述文本特性的有效特征。通过边缘检测提取候选区域的边缘后，将梯度方向分为8个通道，每个通道为π/4，然后计算梯度的方向与幅值，根据下式统计候选区域的边缘梯度特征：

其中，H_i代表第i通道内的梯度。

(2)中心环绕直方图

中心环绕直方图是指中心区域与其周围区域特征之间的卡方距离，是一个局部显著性特征：

其中，I是指中心区域，I_r是指最小外接矩形框内中心区域以外的区域。为了引起人的视觉注意，文本通常具有局部显著性，相比于局部区域内周围的背景在强度上有较大的差异，因此采用亮度特征的中心环绕直方图，但是由于文本特有的结构，一般都会包含很多的孔洞，其中心和周围的差异不像其他显著目标那样明显，所以这里利用高斯函数对其进行了平滑：

R_center＝g(x)*χ²(I，I_r)

其中，g(x)是指高斯函数。

(3)笔画宽度变异系数

笔画宽度特征是文本特有的特征，这里利用候选区域中笔画宽度的变异系数来表示区域的文本特性。

采用颜色分布和区域结构相似性作为二元文本特征

二元文本特征表示文本区域与其邻域背景区域之间的关系，能够反映候选文本区域与相邻背景区域同为文本区域或背景区域还是不同类别区域的概率。即二元文本特征越相似，两者是同一类区域的概率就越大。本发明考虑到研究对象为彩色图像，因此利用颜色分布和区域结构相似性来表示二元文本特征。设p，q表示两个区域，若满足下式，则认为p，q是相邻的：

dis(p，q)＜2×min[max(w_p，h_p)，max(w_q+h_q)]

其中，w和h代表连通区域的宽和高，dis(p，q)是指p，q两个候选区域质心间的欧氏距离。

(1)颜色分布

通常情况下，同一行中的文字有着相同或者相似的颜色，因此颜色分布可以反应相邻文本区域之间的关系。由于LAB颜色空间是基于生理特性的颜色系统，更符合人类的视觉感应，故在计算颜色分布时将图像从RGB颜色空间转换为LAB颜色空间。选取两个区域的平均颜色直方图之间的距离作为描述区域之间的颜色分布特征：

其中，p_i和q_i分别代表区域p和q的颜色直方图。

(2)区域结构相似性

区域结构相似性是描述相邻区域的空间关系、几何与纹理相似性，这里利用灰度强度比、形状差异、笔画宽度均值比和区域间距4个特征描述。形状差异是指两个区域的高度比与宽度比的均值，区域间距是指两个区域质心之间的距离，区域相似性B_region取4个特征值的均值。

使用一元特征和二元特征构建能量函数并求其最优解

能量函数的区域项反应区域本身的特性，而边缘梯度特征R_HOG、中心环绕直方图R_center和笔画宽度变异系数R_SW三个一元特征能够很好的描述文本区域的本身特性。对于区域p利用这三个特征建立区域项：

其中，n＝3，f_i(i＝1，2，3)分别是指R_HOG、R_center和R_SW，σ是准度因子，由交叉验证取为0.25。

能量函数的边界项反应区域和邻域间的关系，而颜色分布B_color和区域相似性B_region描述的是文本区域和邻域之间的关系，当区域p和其领域q颜色分布与区域相似性越接近，边界项B_{p，q}将不同标签(0与1)分配给p和q的能量就越大，若差距越大，则能量就越小，因此定义边界项：

B_{p，q}＝exp(-αB_color-(1-α)B_region)

其中，α为权重因子，这里由于平等考虑颜色分布B_color和区域相似性B_region的权重，取α＝0.5。

将区域项和边界项组成能量函数：

其中λ为权值因子。求得其最优标签向量，其中标签向量中标签为1的区域为文本区域，标签为0的区域作为背景区域。

4、附图说明

附图是本方法的实现原理和实现步骤说明。

5、具体实施方式

首先根据文本与背景的亮度差异，提取场景图像的MSER作为文本候选区域，然后以候选区域为节点建立无向图模型，根据区域的文本特征和区域之间的特征设计能量函数，并通过最小化能量函数得到最优分割，最后利用文本聚合将相邻的文字连接成文本行，得到最终定位的结果。

1)输入图像，增强对比度，检测MSER作为文本候选区域，其中输入图像仍会分为亮文本图像和暗文本图像；

2)在进行启发式规则过滤后，以每个区域为顶点建立图；

3)提取候选区域的边缘梯度特征、中心环绕直方图特征和笔画宽度变异系数的一元文本特征，构成能量函数的区域项；

4)提取候选区域与领域间的颜色分布特征和区域相似特征的二元文本特征，构成能量函数的边界项，其中α取0.5；

5)通过最小化能量函数得到候选区域的最优分割，分割为前景的作为文本区域，其余的区域滤除，其中权值因子λ取0.5；

6)最后，根据分类结果去除背景区域，通过文本聚合连接相邻文本，将亮文本图像和暗文本图像的定位结果相加得到最终定位的结果。

Claims

1.一种基于图割模型的场景图像文本定位的方法，其特征是：

将文本区域和背景区域的多个不同特征，通过图割模型融合起来，即采用代表文本区域特征的边缘方向梯度直方图、中心环绕直方图和笔画宽度变换的一元特征构成区域项，采用描述文本区域与背景领域间的关系的颜色分布和区域相似性等二元特征构成来边界项，并以一元特征和二元特征构建能量函数，通过求解能量函数最小达到对图的最优分割，将图像分割作为候选文本区域与背景区域的二分类过程，从而实现图像中的文本定位。

2.如权利要求1所述的一种基于图割模型的场景图像文本定位的方法，其特征是所述采用边缘梯度特征、中心环绕直方图和笔画宽度变异系数作为一元文本特征，其方法是：

1)边缘梯度特征

R_{H O G} = \frac{\sqrt{\underset{i = 1, 2, 3, 4}{Σ} {(H_{i} - H_{i + 4})}^{2}}}{Σ_{i = 1}^{8} H_{i}}

其中，H_i代表第i通道内的梯度。

(2)中心环绕直方图

χ^{2} (I, I_{r}) = \frac{1}{2} Σ \frac{{(I - I_{r})}^{2}}{I + I_{r}}

R_center＝g(x)*χ²(I，I_r)

其中，g(x)是指高斯函数。

(3)笔画宽度变异系数

笔画宽度特征是文本特有的特征，这里利用候选区域中笔画宽度的变异系数

R_{S W} = \sqrt{\frac{1}{N} Σ_{i = 1}^{N} {(x_{i} - {mean}_{s w})}^{2}} / {mean}_{s w}

来表示区域的文本特性。

3.如权利要求1所述的一种基于图割模型的场景图像文本定位的方法，其特征是所述采用颜色分布和区域结构相似性作为二元文本特征，其方法是：

本发明考虑到研究对象为彩色图像，因此利用颜色分布和区域结构相似性来表示二元文本特征。设p，q表示两个区域，若满足下式，则认为p，q是相邻的：

dis(p，q)＜2×min[max(w_p，h_p)，max(w_q+h_p)]

(1)颜色分布

B_{c o l o r} = \underset{i &Element; l, a, b}{Σ} χ^{2} (p_{i}, q_{i})

其中，p_i和q_i分别代表区域p和q的颜色直方图。

(2)区域结构相似性

4.如权利要求1所述的一种基于图割模型的场景图像文本定位的方法，其特征是所述使用一元特征和二元特征构建能量函数并求其最优解，其方法是：

由于能量函数的区域项反应区域本身的特性，而边缘梯度特征R_HOG、中心环绕直方图R_center和笔画宽度变异系数R_SW三个一元特征能够很好的描述文本区域的本身特性。对于区域p利用这三个特征建立区域项：

R_{p} (l_{p}) = \{\begin{matrix} \frac{1}{n} Σ_{i = 1}^{n} \exp (\frac{- {f_{i}}^{2}}{2 σ^{2}}) & l_{p} = 1 \\ \frac{1}{n} Σ_{i = 1}^{n} \exp (\frac{- {(1 - f_{i})}^{2}}{2 σ^{2}}) & l_{p} = 0 \end{matrix}

由于能量函数的边界项反应区域和邻域间的关系，而颜色分布B_color和区域相似性B_region描述的是文本区域和邻域之间的关系，当区域p和其领域q颜色分布与区域相似性越接近，边界项B_{p，q}将不同标签(0与1)分配给p和q的能量就越大，若差距越大，则能量就越小，因此定义边界项：

B_{p，q}＝exp(-αB_color-(1-α)B_region)

将区域项和边界项组成能量函数：

E (L) = \underset{p &Element; V}{Σ} R_{p} (l_{p}) + λ \underset{{p, q} &Element; E}{Σ} B_{{p, q}} * δ (l_{p}, l_{q}), δ (l_{p}, l_{q}) = \{\begin{matrix} 1 & i f l_{p} &NotEqual; l_{q} \\ 0 & e l s e \end{matrix}