CN104778470B

CN104778470B - 基于组件树和霍夫森林的文字检测和识别方法

Info

Publication number: CN104778470B
Application number: CN201510107607.4A
Authority: CN
Inventors: 于慧敏; 李天豪
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-03-12
Filing date: 2015-03-12
Publication date: 2018-07-17
Anticipated expiration: 2035-03-12
Also published as: CN104778470A

Abstract

本发明公开了一种基于组件树和霍夫森林的文字检测和识别方法，首先，利用组件树提取出具有层级的连通域，同时针对文字本身的特征建立分类器，对分类器输出的正样本进行尺度统一，然后输入至霍夫森林，并以每种字符作为单独的类别，在检测过程中完成识别。对输入图像进行颜色空间转换，并对每一个颜色空间的图像及其补值进行独立处理；通过建立组件树获取具有层级的连通域；每一个连通域分别求取一组特征，并输入至分类器识别；分类器输出的正样本作为候选的文字区域，并放缩至同一尺度大小；每一个候选区域输入至霍夫森林，霍夫森林输出文字的分布概率；根据霍夫森林输出的后验概率，估计文字的位置并输出结果。

Description

基于组件树和霍夫森林的文字检测和识别方法

技术领域

本发明涉及一种计算机视觉技术领域的文字检测和识别算法，具体为一种基于组件树和霍夫森林的文字检测和识别方法。

背景技术

随着互联网的蓬勃发展，人们获取信息的方式发生了巨大的改变。传统媒体，如报纸、广播等，影响力逐渐让位于互联网的新兴媒体，如社交网络、轻博客等。互联网中的新兴媒体除了更新速度快、传播覆盖面广之外，同时也成为每一个用户自由发布信息的平台。每个人都可通过各类的平台，如微博等，发布消息，通过不断的转发，该消息就可能成为新的热点。图像、视频由于易于理解，符合现代人快速的生活节奏，逐渐取代文本成为主要的信息传播载体。由于微博类网站对文本长度的限制，要发表较丰富的内容通常需要图文结合的方式，同时，图片分享类网站的蓬勃发展，给图像理解领域带来新的机遇和挑战。

伴随着智能手机的普及，越来越多的图像是由手机拍摄得到，而这部分图像对了解用户行为、获取用户相关信息有极大价值。这些图像拍摄的场景各式各样，可能是日常的路边，也有可能是旅途中。由于文字表达的信息相对准确，通过检测和识别场景中的文字，对图像和视频信息的提取具有重要意义。对于视频监控和基于位置的服务(LBS)等应用，通过识别图像中的文字，如招牌、标识等内容，对定位图像拍摄地点有重要的参考作用；通过检测和识别场景中的文字，还可实现实时的翻译服务。

自然场景的文字检测和识别作为图像理解的重要一环，一直受到研究者的关注。一般来说，对于扫描文本，可以直接通过光学字符识别(OCR)软件进行识别，对于稍复杂的样本，可能包含有各类不同字体和大小的文字，以及各类格式的混排，如竖排文字，对于该类样本需要先进行适度的分割，再输入到光学字符识别软件中。但光学字符识别系统只能处理背景简单且文本相对密集的图像，对于包含复杂背景的自然图像，必须先通过文字定位取出包含文本的图像块，才能实现准确的识别。对于文字背景较为复杂的图像，还必须经过文字背景分离才能得到理想的识别结果。在目前大部分的解决方案中，文字检测和识别作为孤立的两部分的工作分别进行处理。

霍夫变换是用于检测具有解析表达式的几何形状的常用目标检测方法，如直线、圆检测等。霍夫变换的核心思想是把原图像中的像素点或特征变换到霍夫空间进行投票，而投票的峰值即为检测的目标。广义霍夫变换在霍夫变换的基础上进行扩展，可对一般形状的目标进行检测。广义霍夫变换的基本思想是通过图像中每一个分块的边缘切向量估算目标的中心点位置，本质上利用边缘切向量，为不存在解析表达的形状建立参数空间，从而应用霍夫变换。广义霍夫变换假设的前提是，图像中每个像素都是独立的，在投票过程中对每一个分块赋予相同的权重，使得该方法在复杂场景下容易失效。Gall等人基于霍夫变换的思想，在2009年提出通过霍夫森林实现鲁棒的行人等目标的检测方案。霍夫森林对图像中每一个分块通过一组决策树进行分类(前景和背景)，并估算目标的中心位置，使用决策树输出的概率作为投票权重。

发明内容

本发明为了解决现有技术中的问题，提出一种基于组件树和霍夫森林的文字检测和识别方法。通过组件树级联分类器的方式提取文字候选区域以确定目标尺度，解决了霍夫森林在检测中尺度不准确以及定位漂移的问题。

本发明采用以下技术方案：一种基于组件树和霍夫森林的文字检测和识别方法，包括以下步骤：

步骤1：输入待检测图像，把待检测图像转换至多个颜色空间，同时求出各个颜色空间的补值；所述的补值即该颜色空间内所有像素值进行二进制取反后组成的新图像；

步骤2：通过构建组件树的方式，分别提取出各个颜色空间和各个补值中具有层级的连通域，并对每一个具有层级的连通域分别执行步骤3；

步骤3：对步骤2提取出的每个连通域分别进行区域特征提取，并把特征向量输入至分类器，分类器的输出结果为文字或非文字，筛选出分类结果为文字的连通域缩放至同样的大小，并执行步骤4；

步骤4：每个连通域独立输入至霍夫森林，霍夫森林由一组决策树组成，霍夫森林输出文字的分布概率，然后根据输出的分布概率识别文字，并估计文字的位置。

进一步地，步骤2所述的具有层级的连通域，具有如下层级关系：

其中，S是像素值小于等于阈值τ的连通域集合；S'是像素值小于等于阈值υ的连通域集合，且υ<τ；m为连通域集合S'中的任一元素，n为连通域集合S的任一元素。

进一步地，步骤3所述的分类器，和步骤4所述的霍夫森林，均可以通过训练获得，使用的训练样本是通过图像合成的方式获得。图像合成的具体过程如下：从本地样本库中随机选取单个文字字符，根据字符的使用频率生成单个字符或字符组合，同时进行随机的形变，包括旋转、移动、透射变换等，并与随机选择的背景进行融合。

进一步地，步骤4所述的，霍夫森林输出文字的分布概率包括如下步骤：

步骤4.1：霍夫森林的训练：

霍夫森林中的每棵决策树的训练互相独立。包含已知文字的合成图像作为输入图像，逐张输入至决策树中进行训练。其具体过程如下：

步骤4.1.1：随机采样：

从输入图像中随机采样p×q大小的样本x，并记录样本x与图像中心点的距离d，同时对x提取多维的特征向量g。每一幅输入图像进行多次采样，采样得到的样本集X输入至决策树的根结点；将根节点按照步骤4.1.2进行分类决策；

步骤4.1.2：若结点的深度大于深度阈值或样本集的元素数量小于数量阈值，则该结点为叶子结点，该叶子结点保存输入的样本集X，该结点训练完成；所述深度阈值为5～100，数量阈值为1～0.05N，N为决策树训练集元素数量；否则根据f_θ(x)的判决结果把样本集X分为两个集合，即

X_a＝{x∈X|f_θ(x)＝0}

X_b＝{x∈X|f_θ(x)＝1}

其中，f是根据特征g进行判决的二值函数，θ是判决函数的参数。

步骤4.1.3：参数选择：

随机生成多组参数θ，分别利用步骤4.1.2对X进行分类，并根据以下判决规则选择其中最优的分类参数θ^*。最优的分类参数θ^*的判决标准为

θ^*＝argmin_θ∈ΘU(X)，

其中，Θ是参数全集；U是判决的不确定性，由分类的不确定性U^c(X)和中心位置的聚类不确定性U^d(X)两项组成，即

U(X)＝U^c(X)+δU^d(X)，

其中δ是调整权重；

步骤4.1.4：迭代训练：

根据步骤4.1.3求得的最优的分类参数θ^*把X分割为X_a和X_b，并把X_a和X_b分别作为该结点的左儿子和右儿子的输入样本集，然后对左结点和右结点分别执行步骤4.1.2-4.1.4，直到所有结点训练完成；

步骤4.2：霍夫森林输出文字的分布概率，其具体过程如下：

步骤4.2.1：随机采样：

从步骤3筛选出的连通域中，独立随机采样多个p×q大小的样本x，并分别输入至步骤4.1训练好的霍夫森林中的各棵决策树中，各棵决策树之间的处理相互独立。

步骤4.2.2：获取叶子结点：

设当前决策树为T_t，每个样本x分别从决策树的根部出发，根据步骤4.1.3得到的决策树各个结点的最优的分类参数θ^*，样本选择进入左结点或者右结点，并最终到达样本x的叶子结点L_t(x)。

步骤4.2.3：概率估计：

根据叶子结点保存的信息，对输入样本的类别c和位置d两项，即h＝{c,d}，进行估计，其概率估计值为

p(h|L_t(x))＝p(d|c,L_t(x))p(c|L_t(x)),

其中，p(c|L_t(x))是样本类别估计概率，L_t(x)是样本x的叶子结点；p(d|c,L_t(x))是样本距离目标中心位置的概率估计。

步骤4.2.4：求解样本的估计概率p(h|x)，

步骤4.2.5：求解整幅图像I中文字的分布概率估计p(h|I)，

其中，Ω是图像的像素集合。

进一步地，所述步骤3中的区域特征包括区域外接矩形的长与宽的比值；轮廓周长与轮廓面积的比值；轮廓的凸包面积与轮廓面积的比值；区域内像素值的方差；区域内洞的数量；区域内洞的总面积与轮廓面积的比值；区域内凸缺陷与轮廓距离的平均值等。

本发明的有益效果在于：本发明以图像合成的方式生成训练样本，通过组件树提取具有层级的连通域，并把连通域的一组描述特征输入至分类器，然后对所有输出的正样本放缩至同一尺度，再利用霍夫森林进行精细检测和识别，从而提升现有文字检测和识别方法的鲁棒性和准确性，以统一的检测和识别方案降低系统的时间复杂度。

附图说明

图1为本发明的整体流程示意图。

具体实施方式

下面结合具体实施例，对本发明的技术方案做进一步的详细说明。

以下实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例对一组不带标记的图像进行文字定位和识别，在本发明的实施例中，该方法包括以下步骤：

步骤1：预处理：

把输入图像转换至HSV颜色空间，同时求出各个颜色通道的补值。所述的补值即该颜色通道内所有像素值进行二进制取反后组成的新图像。然后对各个颜色通道及其补值分别执行步骤2；

步骤2：组件树构建：通过构建组件树的方式，提取出输入图像中具有层级的连通域，并对每一个连通域分别执行步骤3；所述的具有层级的连通域，具有如下层级关系：

其中，S为像素值小于等于阈值τ的连通域集合，S'为像素值小于等于阈值υ的连通域集合；υ<τ；m为连通域集合S'中的任一元素，n为连通域集合S中的任一元素。

在本实施例中，步骤2所述的组件树构建，其具体过程如下所述：

步骤2.1：初始化：

所有像素点均初始化为只包含一个结点的树，即该树的根节点为自身，且根节点没有儿子结点；

步骤2.2：排序：

根据像素值进行升序排序，并按排序后的顺序依次对每一个像素执行步骤2.3；

步骤2.3：遍历邻域：

设当前遍历的点为p，查找p所在的子树tree_p以及tree_p的根结点root_p。然后遍历与p相邻的所有像素点q，并要求q已被遍历过，且I(q)≥I(p)。其中I(x)是点x对应的像素值。对满足要求的邻域q，查找q所在的子树tree_q以及tree_q的根结点root_q，并依次执行步骤2.4；

步骤2.4：树合并：

若root_p和root_q是同一个结点，不进行处理；否则，若tree_p和tree_q的高度相同，则建立新的根结点root_s，root_p和root_q均为root_s的儿子；若tree_p的高度小于tree_q，则root_p成为root_q的儿子。

步骤3：候选区域提取：

对连通域进行特征提取，并把特征向量输入至分类器进行分类，对分类结果为文字的样本放缩至同样的大小，并执行步骤4；

在本实施例中，步骤3所述的连通域的特征包括：

(1)区域外接矩形的长与宽的比值；

(2)轮廓周长与轮廓面积的比值；

(3)轮廓的凸包面积与轮廓面积的比值；

(4)区域内像素值的方差；

(5)区域内洞的数量；

(6)区域内洞的总面积与轮廓面积的比值；

(7)区域内凸缺陷与轮廓距离的平均值。

在本实施例中，步骤3所述的分类器使用的是Adaboost，由100棵高度为2的决策树组成。分类器是通过训练获得，输出为文字样本或非文字样本。分类器的训练样本是通过图像合成的方式获得，其具体过程如下所述：

步骤3.1：文字样本生成：

从本地字体库中随机选取字体，并根据文字的使用频率生成单个文字或文字组合，大小为32×32，同时进行随机的形变，包括旋转、移动、透射变换等；

步骤3.2：随机背景选取：

选取场景中不包含文字的自然图片集，使用均匀随机数从图片集中选取一张图片，然后再随机从该图片中选取与步骤3.1样本大小相同的窗口，该窗口中的图像即所选取的背景图。同时要求该背景图的像素均值小于0.9且标准差大于0.2。

步骤3.3：文字与背景融合：

从均匀线性随机数生成器中取出范围是0.3到0.7的随机数，设为，则合成的图像与背景图、字符图像的关系是

x＝(1-α)*x_f+α*x_b.

步骤4：文字定位与识别：

每个样本独立输入至霍夫森林，霍夫森林输出文字的分布概率，然后根据输出的后验概率估计文字的位置和类别。

在本实施例中，步骤4所述的霍夫森林是由一组决策树组成，决策树是由训练获得，训练样本与步骤3相同，决策树的训练互相独立，其具体过程如下：

步骤4.1.1：随机采样：

输入图像随机采样8×8大小的样本x，并记录x与图像中心点的距离d，同时对x提取多维的特征向量f，特征使用的是图像灰度值、X方向的梯度值以及Y方向的梯度值。每一幅图像进行多次采样，所有图像采样的样本集输入至决策树的根节点；

步骤4.1.2：分类决策：

设当前结点输入的样本集为X，若决策树的高度大于等于20或X的元素数量少于10，则该结点为叶子结点，该叶子结点保存了输入的样本集X；否则根据f_θ(x)的判决结果把X分为两个集合，即

X_a＝{x∈X|f_θ(x)＝0}

X_b＝{x∈X|f_θ(x)＝1}

其中判决函数f是二值函数，其定义如下，

其中，G^l(x)是像素x的第l维特征，P和Q为样本内的矩形区域，τ是分类阈值，则参数空间θ＝{l,P,Q,τ}。

步骤4.1.3：参数选择：

随机生成多组参数θ，分别利用步骤4.1.2对X进行分类，并根据以下判决规则选择其中最优的分类参数。参数的判决标准为

θ^*＝argmax_θ∈Θs(θ,X),

其中s为判决函数。定义判决的不确定性为

U(X)＝U^c(X)+δU^d(X),

其中δ是调整权重，值为检测类别的数量；分类的不确定性为

其中C为类别的集合，p_c是取值为类别c的概率；文字中心位置的聚类不确定性为

则判决函数s与不确定性U之间的关系为

s＝-U.

根据s的判决结果，θ^*即为当前结点的分类参数。

步骤4.1.4：迭代训练：

根据步骤4.1.3求得的最优分类参数θ^*把X分割为X_a和X_b，并把X_a和X_b分别作为该结点的左儿子和右儿子的输入样本集，然后对左结点和右结点分别执行步骤4.1.2-4.1.4。

在本实施例中，步骤4所述的利用霍夫森林进行文字检测和识别，是指以每一个不同的字符作为检测的类别，在检测过程中完成识别，其具体过程如下：

步骤4.2.1：随机采样：

输入图像独立随机采样多个8×8大小的样本，并分别输入至步骤4.1.1-4.1.4训练好的霍夫森林中的各棵决策树，各棵决策树之间的处理相互独立。

步骤4.2.2：获取叶子结点：

设当前决策树为T_t，每个样本x分别从决策树的根部出发，根据步骤4.1.3得到的决策树各个结点的参数，样本选择进入左结点或者右结点，并最终到达叶子结点L_t(x)。

步骤4.2.3：概率估计：

样本的估计值包括类别和位置两项，即h＝{c,d}，其概率估计为

p(h|L_t(y))＝p(d|c,L_t(y))p(c|L_t(y)),

其中，样本类别估计概率

样本距离目标中心位置的概率估计

其中，δ是狄拉克函数。

步骤4.2.4：决策树结果整合：

对于整个森林来说，样本的估计概率是所有决策树的概率平均值，即

步骤4.2.5：

对于整幅图像I的概率估计则是由每个图像块的概率估计汇总获得，即

其中，Ω是图像的像素集合。

在本实施例中，步骤4所述的根据概率估计结果进行位置估计的具体过程如下：

步骤4.3.1：初始化：

所有位置i的标记值x_i设置为0，即设为背景。

步骤4.3.2：求取最优估计值：

对所有位置根据如下关系求取最优的标记值，

其中f_i为位置i所对应的特征向量，是x_i的当前标记值，P(x_i＝l|f_i)是标记值为l的后验概率，由步骤4.2.5获得。

步骤4.3.3：求优化空间：

计算x_i的最佳取值x_i ^*与当前取值x_i ^cur的后验概率之间的差值，即

步骤4.3.4：根据贪婪原则取最优的点：

选择优化空间最大的点，即

y＝argmax(H),

若y的取值小于0.1，则步骤4.3完成，所有位置最终标记值即为x_i ^cur，否则进入下一步。

步骤4.3.5：更新标记值：

把位置y设置为最优标记值，即

y^cur＝y^*,

同时对于y的邻域，若满足以下条件，

标记值也更新为y^*，然后再重复执行步骤4.3.2。

Claims

1.一种基于组件树和霍夫森林的文字检测和识别方法，其特征在于，包括以下步骤：

所述的具有层级的连通域，具有如下层级关系：

其中，S是像素值小于等于阈值τ的连通域集合；S'是像素值小于等于阈值υ的连通域集合，且υ<τ；m为连通域集合S'中的任一元素，n为连通域集合S的任一元素；

2.根据权利要求1所述的方法，其特征在于：步骤3所述的分类器，和步骤4所述的霍夫森林，均可以通过训练获得，使用的训练样本是通过图像合成的方式获得；图像合成的具体过程如下：从本地样本库中随机选取单个文字字符，根据字符的使用频率生成单个字符或字符组合，同时进行随机的形变，包括旋转、移动、透射变换，并与随机选择的背景进行融合。

3.根据权利要求1所述的方法，其特征在于：步骤4所述的，霍夫森林输出文字的分布概率包括如下步骤：

步骤4.1：霍夫森林的训练：

霍夫森林中的每棵决策树的训练互相独立；包含已知文字的合成图像作为输入图像，逐张输入至决策树中进行训练；其具体过程如下：

步骤4.1.1：随机采样：

从输入图像中随机采样p×q大小的样本x，并记录样本x与图像中心点的距离d，同时对x提取多维的特征向量g；每一幅输入图像进行多次采样，采样得到的样本集X输入至决策树的根结点；将根节点按照步骤4.1.2进行分类决策；

X_a＝{x∈X|f_θ(x)＝0}

X_b＝{x∈X|f_θ(x)＝1}

其中，f是根据特征g进行判决的二值函数，θ是判决函数的参数；

步骤4.1.3：参数选择：

随机生成多组参数θ，分别利用步骤4.1.2对X进行分类，并根据以下判决规则选择其中最优的分类参数θ^*；最优的分类参数θ^*的判决标准为

θ^*＝argmin_θ∈ΘU(X)，

U(X)＝U^c(X)+δU^d(X)，

其中δ是调整权重；

步骤4.1.4：迭代训练：

步骤4.2：霍夫森林输出文字的分布概率，其具体过程如下：

步骤4.2.1：随机采样：

从步骤3筛选出的连通域中，独立随机采样多个p×q大小的样本x，并分别输入至步骤4.1训练好的霍夫森林中的各棵决策树中，各棵决策树之间的处理相互独立；

步骤4.2.2：获取叶子结点：

设当前决策树为T_t，每个样本x分别从决策树的根部出发，根据步骤4.1.3得到的决策树各个结点的最优的分类参数θ^*，样本选择进入左结点或者右结点，并最终到达样本x的叶子结点L_t(x)；

步骤4.2.3：概率估计：

p(h|L_t(x))＝p(d|c,L_t(x))p(c|L_t(x)),

其中，p(c|L_t(x))是样本类别估计概率，L_t(x)是样本x的叶子结点；p(d|c,L_t(x))是样本距离目标中心位置的概率估计；

步骤4.2.4：求解样本的估计概率p(h|x)，

步骤4.2.5：求解整幅图像I中文字的分布概率估计p(h|I)，

其中，Ω是图像的像素集合。

4.根据权利要求1所述的方法，其特征在于，所述步骤3中的区域特征包括区域外接矩形的长与宽的比值；轮廓周长与轮廓面积的比值；轮廓的凸包面积与轮廓面积的比值；区域内像素值的方差；区域内洞的数量；区域内洞的总面积与轮廓面积的比值；区域内凸缺陷与轮廓距离的平均值。