CN104573663B

CN104573663B - 一种基于鉴别性笔画库的英文场景文字识别方法

Info

Publication number: CN104573663B
Application number: CN201510023529.XA
Authority: CN
Inventors: 王春恒; 高嵩; 肖柏华; 史存召
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Infan Technology Beijing Co ltd
Priority date: 2015-01-16
Filing date: 2015-01-16
Publication date: 2017-12-05
Anticipated expiration: 2035-01-16
Also published as: CN104573663A

Abstract

本发明是一种基于鉴别性笔画库的英文场景文字识别方法，其包括步骤：1、基于关键点标注的笔画子检测器学习；2、笔画子检测器响应区域的界定；3、鉴别性笔画选取；4、特征提取和文字分类器的训练。本发明参考物体库的思路，通过标记的关键点来为笔画子检测器收集训练样本，并且为每一个文字笔画子检测器设定特定的响应区域，既可以减轻特征抽取的计算负担，又增强了文字分类器的鉴别能力。

Description

一种基于鉴别性笔画库的英文场景文字识别方法

技术领域

本发明涉及模式识别与机器视觉领域中的场景文字识别领域，具体涉及一种基于鉴别性笔画库的英文场景文字识别方法。

背景技术

自然场景图像中所包含的文本信息，作为一种高层次的语义信息，对于场景图像中的理解是极其重要的，一个好的文本信息提取系统可以对诸如图像检索、智能交通、机器人视觉等应用领域产生巨大的推动作用。为了有效地提取场景中的文本信息，在场景文本区域得到定位后，就要进行场景文本识别。然而由于场景类别的多样性、背景的复杂性以及字体的不可预测性，场景文字识别是一项比较困难的工作。

近些年，场景文字识别领域正引起越来越多研究者的重视，现有的方法大概可以分为两类：基于光学字符识别的方法和基于目标识别的方法。基于光学字符识别的方法利用的是传统的光学字符识别技术，需要先对检测到的文本块进行二值化，再使用较成熟的OCR引擎进行识别；基于目标识别的方法则将每一类场景文字作为一类特殊的目标，跳过二值化环节，直接使用目标识别的方法进行识别，但是现有的方法基本是直接将目标识别的方法应用到场景文字识别中去，并没有充分考虑到场景文字识别的特性。

发明内容

为了进一步优化英文场景文字识别效果，本发明提出了一种基于鉴别性笔画库的英文场景文字识别方法，充分利用了文字特有的全局结构，节省了计算时间。

本发明所提出的一种基于鉴别性笔画库的英文场景文字识别方法，包括步骤：

步骤1，基于关键点标注的笔画子检测器学习：

首先为每一类英文场景文字设计关键点，并对所有的英文场景文字单字训练样本进行关键点标注，在每一类英文文字类别的训练图像中随机选取一幅图像，在该图像上基于特定笔画构建矩形框，每一个矩形框对应一个特定的笔画，记录这些笔画对应矩形框所包围关键点的集合，定位包围这些关键点的最小矩形，计算该最小矩形和笔画矩形框的长宽比；在确定候选笔画后，根据上述关键点集合和长宽比为每一个候选笔画抽取正样本和负样本，并训练线性支持向量机作为笔画检测器；

步骤2，笔画子检测器响应区域的界定：

根据正样本抽取的位置，为每一个笔画检测器定义一个响应区域，所述响应区域为包含正样本位置的最小矩形，计算正样本的平均长度和宽度作为笔画检测器滑动窗口大小；

步骤3，鉴别性笔画选取：

计算每一个笔画检测器在所属文字类别和其他文字类别的训练图像响应区域内的最大响应值，计算文字类别内平均最大响应值和其他文字类别平均最大响应值的差作为笔画的鉴别性参数，依据笔画的鉴别性参数进行大小排序，选取最大的前N个鉴别性参数对应的笔画作为鉴别性笔画；

步骤4，特征提取和文字分类器的训练：

在所有的英文场景单字训练样本和测试样本上，使用笔画检测器在对应响应区域里的最大响应值作为特征，在该特征的基础上训练和测试线性支持向量机单字分类器。

步骤1中，所述英文场景文字关键点的设计覆盖英文文字的主要结构，并归一化所有单字训练样本到相同的大小，宽度为64，高度为64。

步骤1中，所述的矩形框R对应候选笔画，其中，c_i为英文文字类别标号，j为候选笔画标号；矩形框R包围的关键点集合为将包围关键点集合的最小矩形定义为r；矩形框R的左、右、上、下边界的坐标分别为R_l、R_r、R_t、R_b，r的左、右、上、下边界的坐标分别为r_l、r_r、r_t、r_b，r的长度和宽度分别为r_width＝r_r-r_l+1和r_height＝r_b-r_t+1，则从r到R的左、右、上、下四个方向的延拓因子分别是：

Ef_left＝(r_l-R_l+1)/r_width

Ef_right＝(R_r-r_r+1)/r_width

Ef_top＝(r_t-R_t+1)/r_height

Ef_bottom＝(R_b-r_b+1)/r_height

步骤1中，所述正样本的抽取方法为：定位包围关键点集合的最小矩形r’，假设r’的左、右、上、下坐标分别为r′_l，r′_r，r′_t，r′_b，那么r’的长度和宽度分别为r′_width＝r′_r-r′_l+1和r′_height＝r′_b-r′_t+1，则对应笔画正样本的抽取左、右、上、下坐标应该确定为：

R′_l＝r′_l+1-Ef_left*r′_width

R′_r＝r′_r-1+Ef_right*r′_width

R′_t＝r′_t+1-Ef_top*r′_height

R′_b＝r′_b-1+Ef_bottom*r′_height；

每抽取一个正样本，都需要到其他不是c_i的文字类别的一幅训练图像上抽取位置相同的图像块作为负样本。

步骤1中，在抽取正样本和负样本后，计算正样本的平均高度和宽度，将所有的正负样本归一化到平均高度和平均宽度，然后在归一化的正负样本上提取梯度直方图特征，训练线性支持向量机作为每一个笔画的检测器。

本发明提出的一种基于鉴别性笔画库的英文场景文字识别方法，参考物体库的思路，通过标注的关键点为笔画子检测器收集训练样本，并将笔画子检测器的局部最大响应值作为特征，充分利用了文字特有的全局结构，增强了文字分类器的鉴别能力，减轻特征抽取的计算负担，节省了计算时间。

附图说明

图1是本发明一种基于鉴别性笔画库的英文场景文本识别方法的流程图；

图2是本发明的基于关键点集合和延拓因子的笔画训练正样本收集示意图；

图3是本发明的响应区域的定义示意图；

图4是本发明基于鉴别性笔画库的特征抽取示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

如图1所示，本实施例的一种基于鉴别性笔画库的英文场景文字识别方法具体包括以下步骤：

步骤1，基于关键点标注的笔画子检测器学习：

针对每一类英文场景文字类别c_i(0-9，A-Z，a-z)，都要进行关键点的设计，要求设计的关键点必须能够覆盖文字的主要结构，笔画丰富的局部尤其要求关键点的覆盖，对类别“4”和“B”设计的关键点如图1所示。在完成关键点的设计后，对所有文字类别的所有训练样本都要进行关键点的标注。

在候选笔画的选择阶段，我们从每一个类别c_i中抽取一幅标注过关键点的单字训练图像，在该图像上选取大量尺寸不一的矩形框，每一个矩形框对应的即为一个候选笔画，c_i对应英文文字类别标号，j对应候选笔画标号。

针对每一个候选笔画，将包围该笔画的矩形记为R，R包围的关键点集合记为，定位包围关键点集合的最小矩形记为r。假设R的左、右、上、下边界的坐标分别为R_l、R_r、R_t、R_b，r的左、右、上、下边界的坐标分别为r_l、r_r、r_t、r_b，r的长度和宽度分别为r_width＝r_r-r_l+1和r_height＝r_b-r_t+1那么从r到R的左、右、上、下四个方向的延拓因子分别是：

Ef_left＝(r_l-R_l+1)/r_width

Ef_right＝(R_r-r_r+1)/r_width

Ef_top＝(r_t-R_t+1)/r_height

Ef_bottom＝(R_b-r_b+1)/r_height

针对每一个候选笔画，在类别C_i的训练样本上抽取对应的笔画块：首先需要定位包围该笔画子检测器对应关键点的最小矩形r’，假设r’的左右上下坐标分别为r′_l，r′_r，r′_t，r′_b那么长度和宽度分别为r′_width＝r′_r-r′_l+1，r′_height＝r′_b-r′_t+1。如图2所示，该笔画块的抽取左右上下坐标被确定为：

R′_l＝r′_l+1-Ef_left*r′_width，R′_r＝r′_r-1+Ef_right*r′_width，

R′_t＝r′_t+1-Ef_top*r′_height，R′_b＝r′_b-1+Ef_bottom*r′_height。

从c_i单字训练图像上抽取的以上笔画块是正样本，每抽取一个正样本，都需要到其他不是c_i的类别的一幅训练图像上抽取位置相同的笔画块作为负样本。

针对每一个候选笔画，在收集完上述正负样本之后，计算正样本的平均高度和宽度，将所有的正负样本归一化到平均高度和平均宽度，该平均高度和宽度即为检测器滑动窗的大小。在所有的正负样本提取梯度直方图特征，训练线性支持向量机作为笔画子检测器。

步骤2，定义每个笔画子检测器的响应区域：

在本步骤中，需要为每一个笔画的检测器限定一个局部响应区域，其响应区域的定义为能覆盖的正样本出现位置的最小矩形，如图3所示，假设类别“A”一共只有三个样本，某个笔画在三个样本上出现的位置如图中黄色矩形框所示，那么能改覆盖这三个黄色矩形框的最小红色虚线矩形框即为该笔画的响应区域。在下面的鉴别性笔画选取和特征提取环节中，笔画子检测器的滑动范围都被限定在这个局部区域里，这样做一方面可以节省计算时间，另外一方面还可以学习到文字所有特有的整体结构。

步骤3，选取鉴别性笔画：

计算每一个笔画检测器在类别c_i的训练图像对应响应区域的最大响应值，取所有c_i训练图像最大响应值的平均值记为，计算笔画检测器在其他不是c_i的类别的训练图像对应响应区域的最大响应值，取所有非c_i训练图像最大响应值的平均值记为，那么的鉴别性参数为

越大对应笔画的鉴别性越强，越小对应笔画的鉴别性越弱。在每一个类别c_i中按照从大到小对笔画进行排序，选择前N_selected鉴别性笔画保留下来。

步骤4，特征提取和文字分类器的训练：

针对训练集中的所有场景单字图像，计算保留的鉴别性笔画子检测器在对应响应区域的最大响应值，将该最大响应值作为特征，如图4所示。将抽取的训练样本特征和类别标签送入多类别线性支持向量机进行训练，得到最终的文字分类器。

在测试阶段，给定一幅单字测试图像，仍然使用鉴别性笔画子检测器在对应响应区域的最大响应值作为特征，将响应值特征送入训练好的线性支持向量机，即可以得到类别标签。

以上所述，仅为本发明中的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可理解想到的变换或替换，都应涵盖在本发明的包含范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于鉴别性笔画库的英文场景文字识别方法，其特征在于，包括步骤：

步骤1，基于关键点标注的笔画子检测器学习：

步骤2，笔画子检测器响应区域的界定：

步骤3，鉴别性笔画选取：

步骤4，特征提取和文字分类器的训练：

在所有的英文场景单字训练样本和测试样本上，使用笔画检测器在对应响应区域里的最大响应值作为特征，在该特征的基础上训练和测试线性支持向量机单字分类器；

其中，

步骤1中所述的矩形框R对应候选笔画c_i为英文文字类别标号，j为候选笔画标号；矩形框R包围的关键点集合为将包围关键点集合的最小矩形定义为r；矩形框R的左、右、上、下边界的坐标分别为R_l、R_r、R_t、R_b，r的左、右、上、下边界的坐标分别为r_l、r_r、r_t、r_b，r的长度和宽度分别为r_width＝r_r-r_l+1和r_height＝r_b-r_t+1，则从r到R的左、右、上、下四个方向的延拓因子分别是：

Ef_left＝(r_l-R_l+1)/r_width

Ef_right＝(R_r-r_r+1)/r_width

Ef_top＝(r_t-R_t+1)/r_height

Ef_bottom＝(R_b-r_b+1)/r_height；

步骤1中所述正样本的抽取方法为：定位包围关键点集合的最小矩形r’，假设r’的左、右、上、下坐标分别为r′_l，r′_r，r′_t，r′_b，那么r’的长度和宽度分别为r′_width＝r′_r-r′_l+1和r′_height＝r′_b-r′_t+1，则对应笔画正样本的抽取左、右、上、下坐标应该确定为：

R′_l＝r_l′+1-Ef_left*r′_width

R′_r＝r′_r-1+Ef_right*r′_width

R′_t＝r_t′+1-Ef_top*r′_height

R′_b＝r′_b-1+Ef_bottom*r′_height

2.根据权利要求1所述的方法，其特征在于，步骤1中，所述英文场景文字关键点的设计覆盖英文文字的主要结构，并归一化所有单字训练样本到相同的大小，宽度为64，高度为64。

3.根据权利要求2所述的方法，其特征在于，步骤1中，在抽取正样本和负样本后，计算正样本的平均高度和宽度，将所有的正负样本归一化到平均高度和平均宽度，然后在归一化的正负样本上提取梯度直方图特征，训练线性支持向量机作为每一个笔画的检测器。