CN104751153A

CN104751153A - 一种识别场景文字的方法及装置

Info

Publication number: CN104751153A
Application number: CN201310753559.7A
Authority: CN
Inventors: 黄韡林; 乔宇
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2013-12-31
Filing date: 2013-12-31
Publication date: 2015-07-01
Anticipated expiration: 2033-12-31
Also published as: CN104751153B

Abstract

本发明适用于文字识别技术领域，提供了一种识别场景文字的方法及装置，包括：获取文本图像中的候选文本成分，对获取到的候选文本成分进行预处理，提取成分区域关联特征；获取该文本图像中的全局特征；将该成分区域关联特征以及该全局特征输入至预先建立的深信度网络模型；根据预先建立的深信度网络模型中的字符识别器，识别出该成分区域关联特征所属的字符；对识别出的字符进行配对，组成文本行或者词条。本发明避免了逐行扫描大量滑动窗口所带来的巨大运算量的情况，并避免了滑动窗口扫描仅局限于水平方向上的文本检测的情况，从而减少了运算量，在多个方向上进行检测，并且利用深信度网络有效地降低误检测率，提高了文字识别的效率和准确率。

Description

一种识别场景文字的方法及装置

技术领域

本发明属于文字识别技术领域，尤其涉及一种识别场景文字的方法及装置。

背景技术

场景文字为存在于日常生活的各种场景图像中的文字。通常，在文字和其他物体并存的场景图像中，用户往往首先更关注场景图像中的文本，因此将场景图像中出现的文字抽取出来,对场景图像的文字进行识别，会对用户提供很有意义的帮助。

通常，将场景图像中出现的文字抽取出来,对场景图像的文字进行识别的文本检测系统，可以分成两大类。

第一类是基于滑动窗口模型的文本检测系统，这种模型的基本原理是利用不同大小和形状的滑动窗口来遍历扫描场景图片的不同区域。

其存在两个主要问题：

第一，运算量大。系统需要扫描大量不同大小的子窗口来确定文本行的位置；

第二，扫描方向单一，滑动子窗口都是水平移动，逐行扫描的，因此它很难检测出倾斜的文本行。然而自然场景文本经常存在随意的方向，以及不同程度的倾斜。

第二类是基于成分(component)的底层(low-level)的文本检测系统。

这种系统的基本原理是通过设计一个低层过滤器(filter)快速地过滤掉大量的背景信息，保留下候选文本成分(candidate components)。该操作是像素层面的运算。例如，笔画宽度转换器(Stroke Width Transform，SWT)是近年常用的一种底层文本检测器。

其存在以下不足：

(1)这种逐像素操作的底层检测器对于噪声，图像失真和扭曲的影响非常敏感，因此生成很多不正确的候选成分(Component Candidates);

(2)这种基于笔画（stroke）宽度的成分检测和过滤的方法无法区分真实候选文本成分和类似文本物体(text-like objects)之间的差别，比如窗户，叶子和砖头等，因此生成很多类似文本的误检测成分。

因此，现有的文本检测系统存在运算量大、扫描方向单一、容易生成很多不正确的候选成分以及生成很多类似文本的误检测成分的问题。

发明内容

本发明实施例的目的在于提供一种识别场景文字的方法，旨在解决现有的文本检测系统存在运算量大、扫描方向单一、容易生成很多不正确的候选成分以及生成很多类似文本的误检测成分的问题。

本发明实施例是这样实现的，一种识别场景文字的方法，包括：

获取文本图像中的候选文本成分，对获取到的候选文本成分进行预处理，提取成分区域关联特征；

获取所述文本图像中的全局特征；

将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型；

根据预先建立的深信度网络模型中的字符识别器，识别出所述成分区域关联特征所属的字符；

对识别出的字符进行配对，组成文本行或者词条。

本发明实施例的另一目的在于提供一种识别场景文字的装置，包括：

第一获取单元，用于获取文本图像中的候选文本成分，对获取到的候选文本成分进行预处理，提取成分区域关联特征；

第二获取单元，用于获取所述文本图像中的全局特征；

输入单元，用于将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型；

识别单元，用于根据预先建立的深信度网络模型中的字符识别器，识别出所述成分区域关联特征所属的字符；

组成单元，用于对识别出的字符进行配对，组成文本行或者词条。

在本发明实施例中，通过根据预先建立的深信度网络模型中的字符识别器，识别出所述成分区域关联特征所属的字符，对识别出的字符进行配对，组成文本行或者词条避免了逐行扫描大量滑动窗口所带来的巨大运算量的情况，并避免了滑动窗口扫描仅局限于水平方向上的文本检测的情况，从而减少了运算量，在多个方向上进行检测，提高了文字识别的效率和准确率。

附图说明

图1是本发明实施例提供的识别场景文字的方法的实现流程图。

图2是本发明实施例提供的笔画宽度图较佳的样例图。

图3是本发明实施例提供的笔画宽度图较佳的样例图。

图4是本发明实施例提供的深信度网络模型较佳的样例图。

图5是本发明实施例提供的深信度网络模型在际应用中较佳的实施流程图。

图6是本发明实施例提供的识别场景文字的装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1是本发明实施例提供的一种识别场景文字的方法的实现流程图，详述如下：

在步骤S101中，获取文本图像中的候选文本成分，对获取到的候选文本成分进行预处理，提取成分区域关联特征；

在本实施例中，获取文本图像中的候选文本成分，对获取到的候选文本成分进行预处理，包括：

用笔画宽度转换器方法SWT逐点检测出文本笔画像素，

提取文本笔画像素，并生成笔画宽度图(stroke width map)。

参考图2，图2是本发明实施例提供的笔画宽度图较佳的样例图。

利用区域增长组合，把相似笔画宽度的像素组合，以获取候选文本成分。

利用区域增长组合法(Region Growing Grouping)把笔画宽度类似的文本笔画像素群组在一起，生成候选文本成分(Component Candidates)。

参考图3，图3是本发明实施例提供的笔画宽度图较佳的样例图。

在本实施例中，提取成分区域关联特征的步骤如下：

1、每一个文本笔画像素用8种特征表示，分别为像素灰度值(grayscale),彩色RGB三个值，笔画宽度值，像素点在成分区域的相对坐标值(水平和垂直两个方向)，和是否是边缘像素(1或者0)。

2、计算一个8×8的共轨矩阵来表示成分区域关联特征，

C_{U} = \frac{1}{n - 1} Σ_{i = 1}^{n} (u_{i} - \overset{&OverBar;}{u}) {(u_{i} - \overset{&OverBar;}{u})}^{T}

其中，参数ui是像素的8维特征，参数n是候选文本成分的像素总数。参数Cu是候选文本成分的像素的特征的集合。因为矩阵是对称的，取半个三角矩阵的元素，并串联一起组成一个36维的特征向量作为成分区域关联特征。

在步骤S102中，获取所述文本图像中的全局特征；

其中，所述获取所述文本图像中的全局特征，包括：

获取所述候选文本成分外框的长度和宽度的比率，作为第一个全局特征。

获取所述文本图像中笔画宽度和所述候选文本成分外框的长度和宽度的比率，作为第二个全局特征。

获取所述候选文本成分中笔画像素的面积和所述候选文本成分外框的面积的比率，作为第三个全局特征。

在36维的成分区域关联特征后面，加入以上三个全局特征，作为描述候选文本成分的特征。

在步骤S103中，将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型；

在本实施例中，深信度网络的第一层通常为输入层，并且每一层的节点个数通常是固定的(通常是预先设置的)。为了生成结构统一的成分区域关联特征和全局特征，可利用区域共轨描述器(region covariance descriptor)来提取成分区域关联特征和全局特征，从而获得有效的归一化特征，使不同大小的候选文本成分的成分区域关联特征和全局特征可以输入到统一结构的深信度网络，避免了成分区域关联特征和全局特征的元素个数(或维数)与深信度网络第一层的节点数不一致的情况。

在步骤S104中，根据预先建立的深信度网络模型中的字符识别器，识别出所述成分区域关联特征所属的字符；

在本实施例中，深信度网络模型的输出层含有63个节点,除了一个非文本节点外，其余的62个节点分别表示一个字符识别器，字符识别器识别成分区域关联特征所属的字符，以实现端到端的场景文本识别。

在步骤S105中，对识别出的字符进行配对，组成文本行或者词条。

在本实施例中，对识别出的字符进行配对，组成文本行或者词条，可根据文本启发式属性和几何属性的相似度，来对识别出的字符进行配对和聚合，以组成最终的文本行(text-lines)或者词条(words)。

例如，判断识别出的字符的成分区域关联特征是否相似，比如识别出的字符近的笔画宽度，颜色和高度是否相似，若相似，聚合到一起组成最后的文本行或者词条。

最后丢弃一些未匹配到的零散成分区域关联特征,并且可靠性低字符，以取得更加稳定的结果。

在本实施例中，有效地融合了深信度网络（Deep Belief Networks，DBN）网络和底层成分检测器的优点,同时利用多层深度学习网络强大的特征学习和表示功能和底层成分检测器运算速度快的特点，构成端到端的场景文本识别系统。首先，比起基于滑动窗口和卷积神经网络(Convolutional NeuralNetworks，CNN)的文本识别系统，避免了逐行扫描大量滑动窗口所带来的巨大运算量。因为自然场景文本信息通常呈现不同的大小，滑动窗口模型需要逐行遍历所有可能大小的子窗口，其子窗口总数可达到N²,N是图片像素总数。因此在检测阶段，CNN网络需要判别N²个子窗口。SWT的运算量则只有O(N)，而经过滤后的成分数量通常小于N。

其次，场景文字通常呈现多向性,并且字体大小差异很大，利用底层成分检测器和区域共轨表示法生成更加灵活有效的成分区域关联特征，避免了基于滑动窗口扫描仅局限于水平方向上的文本检测，以及需要调整不同大小的滑动子窗口至固定的大小来作为CNN网络的输入层的重大缺陷。因此，本发明具有更强的鲁棒性和实用性。

作为本发明的一个优选实施例，在将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型之前，包括：

建立深信度网络模型；

其中，深信度网络模型包括多个限制玻尔兹曼机RBM、多个字符识别器，

所述多个限制玻尔兹曼机RBM之间的调用接口逐层相连。

在本实施例中，深信度网络模型多个限制玻尔兹曼机RBM、多个字符识别器组成。

参考图4，图4是本发明实施例提供的深信度网络模型较佳的样例图。

其中，深信度网络模型分为5层,分别为一个输入层，三个隐藏层、一个输出层。每两层之间作为一个限制玻尔兹曼机(Restricted Boltzmann Machine，RBM)，因此，存在三个RBM。

其中，输入层存在39个节点,对应着39维的成分区域关联特征。

其中，三个隐藏层(hidden layers)分别拥有200,1000和2000个节点。

输出层存在63个节点，有一个节点为非文本输出，剩余的62个节点分别对应着一个大写字符或小写字符或数字（共六十二类）。

作为本发明的一个优选实施例，还包括：

多个RBM之间逐层学习，每个RBM学习到自身的RBM参数；

当每个RBM学习到自身的RBM参数后，利用逻辑回归算法监督每两层的所述RBM，利用向后反馈算法优化每个RBM学习到的参数。

在本实施例中，训练深信度网络模型，以使多个RBM之间逐层学习，每个RBM学习到自身的RBM参数。

训练的第一步采用逐层无监督的(layer-wise unsupervised)学习方法来学习参数。训练出这个RBM的参数(Wi,ui),i=1,2,3。

在逐层学习，得到各层节点之间的RBM参数后，利用逻辑回归(LogisticRegression)的方法作有监督的学习，再利用向后反馈(Back Propagation(BP))的方法来进一步全局优化之前学习到的参数和最后一层的参数(Wr,ur)，从而避免多层神经网络训练时需要手动调整参数的情况，实时调整参数，提高后续的识别效率。

参考图5，图5是本发明实施例提供的深信度网络模型在际应用中较佳的实施流程图。

1、输入场景图片；

2、轨迹宽度转换器SWT初步提取文本笔画区域像素,然后利用区域增长组合(region growing)把相似笔画宽度的像素组合在一起生成候选文本成分；

3、利区域共轨描述器(region covariance descriptor)来提取每个候选文本成分区域关联特征，以此来作为深信度网络的第一层输入；

4、深信度网络过滤掉类似文本的误检测成分(像砖头，窗户和树叶等)；

5、识别出所述成分区域关联特征所属的字符；

6、对识别出的字符进行配对，组成文本行或者词条。

图6是本发明实施例提供的一种识别场景文字的装置的结构框图，为了便于说明，仅示出了与本实施例相关的部分。

参照图6，该识别场景文字的装置，包括：

第一获取单元61，用于获取文本图像中的候选文本成分，对获取到的候选文本成分进行预处理，提取成分区域关联特征；

第二获取单元62，用于获取所述文本图像中的全局特征；

输入单元63，用于将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型；

识别单元64，用于根据预先建立的深信度网络模型中的字符识别器，识别出所述成分区域关联特征所属的字符；

组成单元65，用于对识别出的字符进行配对，组成文本行或者词条。

进一步地，在该装置中，所述第一获取单元包括：

采用子单元，用于采用笔画宽度转换器提取文本笔画像素；

获取子单元，用于利用区域增长组合，把相似笔画宽度的像素组合，以获取候选文本成分。

进一步地，在该装置中，所述第二获取单元包括：

第一获取子单元，用于获取所述候选文本成分外框的长度和宽度的比率，作为第一个全局特征；

第二获取子单元，用于获取所述文本图像中笔画宽度和所述候选文本成分外框的长度和宽度的比率，作为第二个全局特征；

第三获取子单元，用于获取所述候选文本成分中笔画像素的面积和所述候选文本成分外框的面积的比率，作为第三个全局特征。

进一步地，在该装置中，还包括：

建立单元，用于建立深信度网络模型；

所述多个限制玻尔兹曼机RBM之间的调用接口逐层相连。

进一步地，在该装置中，还包括：

学习单元，用于多个RBM之间逐层学习，每个RBM学习到自身的RBM参数；

反馈单元，用于当每个RBM学习到自身的RBM参数后，利用逻辑回归算法监督每两层的所述RBM，利用向后反馈算法优化每个RBM学习到的参数。本发明实施例提供的装置可以应用在前述对应的方法实施例中，详情参见上述实施例的描述，在此不再赘述。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘，硬盘或光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种识别场景文字的方法，其特征在于，包括：

获取所述文本图像中的全局特征；

对识别出的字符进行配对，组成文本行或者词条。

2.根据权利要求1所述的方法，其特征在于，所述获取文本图像中的候选文本成分，包括：

采用笔画宽度转换器提取文本笔画像素；

3.根据权利要求1所述的方法，其特征在于，所述获取所述文本图像中的全局特征，包括：

4.根据权利要求1所述的方法，其特征在于，在将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型之前，包括：

建立深信度网络模型；

其中，深信度网络模型包括多个限制玻尔兹曼机RBM、多个字符识别器，所述多个限制玻尔兹曼机RBM之间的调用接口逐层相连。

5.根据权利要求4所述的方法，其特征在于，还包括：

多个RBM之间逐层学习，每个RBM学习到自身的RBM参数；

6.一种识别场景文字的装置，其特征在于，包括：

第二获取单元，用于获取所述文本图像中的全局特征；

7.根据权利要求6所述的装置，其特征在于，所述第一获取单元包括：

采用子单元，用于采用笔画宽度转换器提取文本笔画像素；

8.根据权利要求6所述的装置，其特征在于，所述第二获取单元包括：

9.根据权利要求6所述的装置，其特征在于，还包括：

建立单元，用于建立深信度网络模型；

所述多个限制玻尔兹曼机RBM之间的调用接口逐层相连。

10.根据权利要求9所述的装置，其特征在于，还包括：

反馈单元，用于当每个RBM学习到自身的RBM参数后，利用逻辑回归算法监督每两层的所述RBM，利用向后反馈算法优化每个RBM学习到的参数。