CN107273863A

CN107273863A - 一种基于语义笔画池化的场景文字识别方法

Info

Publication number: CN107273863A
Application number: CN201710475824.8A
Authority: CN
Inventors: 张重; 王红; 刘爽; 穆嘉松
Original assignee: Tianjin Normal University
Current assignee: Tianjin Normal University
Priority date: 2017-06-21
Filing date: 2017-06-21
Publication date: 2017-10-20
Anticipated expiration: 2037-06-21
Also published as: CN107273863B

Abstract

本发明实施例公开了一种基于语义笔画池化的场景文字识别方法，该方法包括以下步骤：输入场景文字图像进行预处理，得到训练场景文字图像；对训练场景文字图像进行关键点标记，得到判别性笔画；利用判别性笔画得到笔画检测器和语义因子；利用笔画检测器和语义因子得到对应图像的语义置信向量；基于语义置信向量训练得到场景文字识别分类模型；获取测试场景文字图像的语义置信向量，输入场景文字识别分类模型得到场景文字识别结果。本发明通过笔画检测器和语义因子进行语义置信向量表示，能够将最重要的特征信息和语义信息有效的结合在语义置信向量中，达到有效挖掘显著特征信息和笔画空间信息的目的，从而提高场景文字识别的正确率。

Description

一种基于语义笔画池化的场景文字识别方法

技术领域

本发明属于模式识别技术领域，具体涉及一种基于语义笔画池化的场景文字识别方法。

背景技术

随着互联网的迅猛发展和装配摄像头的移动终端的广泛应用，图像和视频数量出现了快速的增长。这给人们的生活带来巨大便利的同时也带来了一个亟待解决的巨大的应用需求的问题：如何使计算机能够像人脑那样自动地理解这些图像和视频的高层语义信息，从而能够凭借自己强大的计算性能和存储能力帮助人类管理和使用这些海量的图像和视频。图像和视频一般是以像素点颜色值的方式存储，像素值无法直接承载高层语义信息。而图像和视频中的文字直接承载了高层语义信息，并且文字信息也更容易被计算机理解和掌握，所以正确的识别图像和视频中的文字是理解图像和视频内容至关重要的一步。

一个图像和视频中文字自动识别系统可以应用在许多领域，如图像和视频检索，智能交通，安防监控，实时翻译，人机交互等领域。在实际应用中，由于场景文字会受到不均匀的光照、失真、复杂的背景、噪声、模糊等外界因素的影响，场景文字识别仍是一个很有挑战性的研究方向。

近几十年场景文字识别被广泛研究，一些早期的方法利用光学字符识别技术进行场景文字识别。但是，光学字符识别技术存在很大的局限性，比如难以进行场景文字图像二值化操作。近年来，大量场景文字识别的方法被提出，并取得了较大的进步。其中，最有代表性的工作是基于目标识别的场景文字识别方法。基于目标识别的场景文字识别方法跳过了场景文字图像二值化过程并且把每个场景文字看作是一个特殊的目标，其在模式识别领域取得了一定的成功。如：Wang等人使用卷积神经网络进行场景文本识别，并在使用大量训练样本的前提下取得了较好的识别效果。Zhang等人使用最大化池将本地特征投影到全局决策。Shi等人使用多尺度笔画检测器来进行特征表示。虽然这些方法取得了一定的成效，但是还是存在一定的缺陷。平均池会使最终的特征向量缺乏判别性，因为最终的特征向量受经常(不经常)出现的特征影响大(小)，而判别性与特征出现的频率没有直接的关系。最大化池会忽略其他比较重要的特征信息，而且如果最大响应值为噪声，则分类准确率将会大大下降。因此，为了解决这些问题，Murray等人提出generalized max pooling(GMP)来平衡经常出现的特征和不经常出现的特征对最终的特征向量的影响。Hoai等人提出regularized max pooling(RMP)来学习多个部件的判别性和可变性。Hu等人结合平均抽取和最大化抽取来进行特征表示。Wei等人提出region ranking SVM(RRSVM)来探索图像本地区域间的相关性。虽然以上方法取得了较大的成功，但是在池化过程中，他们没有完全的考虑笔画的结构信息，这会导致场景文字识别准确率下降。

发明内容

本发明的目的是要解决笔画结构信息对场景文字识别结果影响较大的技术问题，为此，本发明提供一种基于语义笔画池化的场景文字识别方法。

为了实现所述目的，本发明提出一种基于语义笔画池化的场景文字识别方法，所述方法包括以下步骤：

步骤S1，对输入场景文字图像进行预处理，得到训练场景文字图像；

步骤S2，对所述训练场景文字图像分别进行关键点标记，并基于关键点得到判别性笔画Stroke_ij，其中，Stroke_ij表示第i类训练场景文字图像中的第j个判别性笔画；

步骤S3，利用所有训练场景文字图像的判别性笔画，训练得到笔画检测器和相应的语义因子；

步骤S4，利用笔画检测器和语义因子，得到每幅训练场景文字图像对应的语义置信向量；

步骤S5，基于所述训练场景文字图像的语义置信向量，训练得到场景文字识别分类模型；

步骤S6，获取测试场景文字图像的笔画检测器和语义因子，进而得到所述测试场景文字图像的语义置信向量，将其输入至所述场景文字识别分类模型得到场景文字识别结果。

可选地，所述步骤S1中，对输入场景文字图像进行预处理包括以下步骤：

步骤S11，将所述输入场景文字图像转换为灰度场景文字图像；

步骤S12，将所述灰度场景文字图像的大小归一化为H×W，并将归一化后的灰度场景文字图像作为所述训练场景文字图像，其中，H和W分别表示灰度场景文字图像的高度和宽度。

可选地，所述步骤S2包括以下步骤：

步骤S21，获取每幅训练场景文字图像的类别标签，并对每幅训练场景文字图像进行关键点标记，其中，所述关键点覆盖每幅训练场景文字图像中文字的主要结构；

步骤S22，根据标记的关键点，对每类训练场景文字图像进行判别性笔画选取，并将判别性笔画记为Stroke_ij，其中，Stroke_ij表示第i类训练场景文字图像中的第j个判别性笔画。

可选地，每一类训练场景文字图像所标记的关键点数量相同。

可选地，所述步骤S3包括以下步骤：

步骤S31，利用判别性笔画Stroke_ij，训练得到笔画检测器S_ij，其中，S_ij表示第i类训练场景文字图像中的第j个笔画检测器；

步骤S32，利用判别性笔画Stroke_ij，学习得到语义因子γ_ij，其中，γ_ij表示第i类训练场景文字图像中的第j个语义因子。

可选地，所述步骤S31包括以下步骤：

步骤S311，在第i类训练场景文字图像中任意选取一幅图像，得到包含与Stroke_ij中相同关键点的最小矩形，并将这个最小矩形延拓为得到笔画检测器S_ij的一个正样本，其中，和分别表示正样本的高度和宽度；

步骤S312，在其他类别的任意两幅训练场景文字图像中选取负样本，得到与所述正样本大小和位置相同的两个负样本；

步骤S313，按照所述步骤S311-S312获取预定比例的正样本和负样本，并将所有的正样本和负样本进行归一化处理；

步骤S314，将每个正样本和负样本表示成为一个HOG特征向量；

步骤S315，基于所述正负样本的HOG特征向量，训练得到第i类的第j个笔画检测器S_ij，所有的笔画检测器组成笔画检测器集。

可选地，所述步骤S32包括以下步骤：

步骤S321，获取所述步骤S313中所有正样本的位置信息；

步骤S322，基于所有正样本的位置信息，利用混合高斯模型，得到判别性笔画Stroke_ij的语义因子γ_ij，其中，γ_ij表示第i类训练场景文字图像中的第j个语义因子。

可选地，所述步骤S4包括以下步骤：

步骤S41，获取包含所述步骤S313中所有正样本的最小矩形区域，并将其延拓为在每幅训练场景文字图像的相同位置界定高度为宽度为的矩形，得到判别性笔画Stroke_ij的响应区域R；

步骤S42，在判别性笔画Stroke_ij的响应区域内，密集抽取图像块a，其中，a∈{1，2，···，h}，h为响应区域内抽取的图像块的总数；

步骤S43，将笔画检测器S_ij应用于所有的图像块，得到检测得分O_ij＝(O_ij1,O_ij2,···,O_ijh)，其中，O_ij是检测得分集，O_ijh是第h个图像块的检测得分；

步骤S44，基于图像块的左上角坐标位置信息和图像块对应的判别性笔画Stroke_ij，得到所有图像块的语义因子，进而得到语义因子集γ_ij＝(γ_ij1,γ_ij2,···,γ_ijh)，其中，γ_ij是语义因子集，γ_ijh是第h个图像块的语义因子；

步骤S45，基于得到的笔画检测器和语义因子，获取一幅训练场景文字图像的语义置信向量C。

可选地，所述步骤S44中，基于图像块的左上角坐标位置信息和图像块对应的判别性笔画Stroke_ij，利用混合高斯模型得到所有图像块的语义因子。

可选地，语义置信向量C表示为：

C＝(C₁₁,C₁₂,···,C_1j,···,C₂₁,C₂₂,···,C_2j,···,C_n1,C_n2,···,C_nj,···)，

其中，C_ij表示判别性笔画Stroke_ij的语义置信得分。

本发明的有益效果为：本发明通过笔画检测器和语义因子进行语义置信向量表示，能够将最重要的特征信息和语义信息有效的结合在语义置信向量中，达到有效挖掘显著特征信息和空间信息的目的，从而提高场景文字识别的正确率。

需要说明的是，本发明得到了国家自然科学基金项目No.61501327、No.61401309、No.61401310、天津市自然科学基金重点项目No.17JCZDJC30600、天津市应用基础与前沿技术研究计划青年基金项目No.15JCQNJC01700、天津师范大学博士基金项目No.5RL134、No.52XB1405的资助。

附图说明

图1是根据本发明一实施例提出的一种基于语义笔画池化的场景文字识别方法的流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

图1是根据本发明一实施例提出的一种基于语义笔画池化的场景文字识别方法的流程图，下面以图1为例来说明本发明的一些具体实现流程。本发明的方法是一种基于语义笔画池化的场景文字识别方法，其具体步骤包括：

其中，所述对输入场景文字图像进行预处理包括以下步骤：

在本发明一实施例中，所述灰度场景文字图像的大小归一化为64×32，其中，64和32分别表示灰度场景文字图像的高度和宽度。

进一步地，所述步骤S2包括以下步骤：

步骤S21，获取每幅训练场景文字图像的类别标签，并对每幅训练场景文字图像进行关键点标记，其中，所述关键点要求能够覆盖每幅训练场景文字图像中文字的主要结构；

在本发明一实施例中，每一类训练场景文字图像所标记的关键点数量相同。

其中，所述判别性笔画是一个至少包含两个关键点的矩形区域，在训练阶段，为人为选取获得。

在本发明一实施例中，每类训练场景文字图像中选取的判别性笔画数为6～18，比如15。

进一步地，所述步骤S3包括以下步骤：

进一步地，所述步骤S31包括以下步骤：

在本发明一实施例中，所述负样本是在其他类别的训练场景文字图像中随机选取得到的。

在本发明一实施例中，正样本与负样本的数量比值为：1:2。

在本发明一实施例中，将所述正样本和负样本归一化为16×16。

步骤S314，将每个正样本和负样本表示成为一个比如36维的HOG特征向量；

步骤S315，基于所述正负样本的HOG特征向量，比如利用线性支持向量机，训练得到第i类的第j个笔画检测器S_ij，所有的笔画检测器组成笔画检测器集。

其中，所述笔画检测器集表示为：

S＝(S₁₁,S₁₂,···,S_1j,···,S₂₁,S₂₂,···,S_2j,···,S_n1,S_n2,···,S_nj,···)，

其中，S表示所有笔画检测器的集合，n表示场景文字图像的类别总数，S_nj表示第n类的第j个笔画检测器。

进一步地，所述步骤S32包括以下步骤：

步骤S321，获取所述步骤S313中所有正样本的位置信息；

其中，所述混合高斯模型表示为：

其中，P(l_ij|Stroke_ij)表示判别性笔画Stroke_ij出现在位置l_ij的概率，K是混合高斯模型中高斯成分的数目，B_ijk表示第k个高斯成分的权重，η_ijk(l_ij,μ_ijk,σ_ijk)表示高斯概率密度函数，它定义为：

其中，d是位置l_ij的维度，μ_ijk和σ_ijk分别是第k个高斯成分的均值和协方差矩阵。

P(l_ij|Stroke_ij)反应了判别性笔画Stroke_ij和位置l_ij之间的空间关系，本实施例中，将其定义为语义因子γ_ij，其中，位置指的是某一个对象所在区域左上角的位置。

上述语义因子γ_ij利用混合高斯模型建立了判别性笔画Stroke_ij和位置l_ij之间的空间关系。在混合高斯模型中，高斯成分的数目K可以设置为3，位置l_ij的维度可以设置为2。

进一步地，所述步骤S4包括以下步骤：

步骤S41，获取包含所述步骤S313中所有正样本的最小矩形区域，并将其延拓为(延拓值可取为1.5)，在每幅训练场景文字图像的相同位置界定高度为宽度为的矩形，得到判别性笔画Stroke_ij的响应区域R；

步骤S42，在判别性笔画Stroke_ij的响应区域内，密集抽取图像块a(a∈{1，2，···，h})，其中，h为响应区域内抽取的图像块的总数；

在本发明一实施例中，基于图像块的左上角坐标位置信息和图像块对应的判别性笔画Stroke_ij，利用混合高斯模型得到所有图像块的语义因子。

步骤S45，基于得到的笔画检测器和语义因子，获取一幅训练场景文字图像的语义置信向量C：

其中，C_ij表示判别性笔画Stroke_ij的语义置信得分。

步骤S5，基于所述训练场景文字图像的语义置信向量，比如利用线性支持向量机进行训练，得到场景文字识别分类模型；

以网上公开的场景文字图像数据库作为测试对象，比如在ICDAR2003数据库上，当K＝3，每类训练场景文字图像的判别性笔画数目为15时，场景文字识别的正确率为84.1％，由此可见本发明方法的有效性。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于语义笔画池化的场景文字识别方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤S1中，对输入场景文字图像进行预处理包括以下步骤：

3.根据权利要求1所述的方法，其特征在于，所述步骤S2包括以下步骤：

4.根据权利要求3所述的方法，其特征在于，每一类训练场景文字图像所标记的关键点数量相同。

5.根据权利要求1所述的方法，其特征在于，所述步骤S3包括以下步骤：

6.根据权利要求5所述的方法，其特征在于，所述步骤S31包括以下步骤：

步骤S314，将每个正样本和负样本表示成为一个HOG特征向量；

7.根据权利要求6所述的方法，其特征在于，所述步骤S32包括以下步骤：

步骤S321，获取所述步骤S313中所有正样本的位置信息；

8.根据权利要求6所述的方法，其特征在于，所述步骤S4包括以下步骤：

步骤S42，在判别性笔画Stroke_ij的响应区域内，密集抽取图像块a，其中，a∈{1，2，…，h}，h为响应区域内抽取的图像块的总数；

步骤S43，将笔画检测器S_ij应用于所有的图像块，得到检测得分O_ij＝(O_ij1,O_ij2,…,O_ijh)，其中，O_ij是检测得分集，O_ijh是第h个图像块的检测得分；

步骤S44，基于图像块的左上角坐标位置信息和图像块对应的判别性笔画Stroke_ij，得到所有图像块的语义因子，进而得到语义因子集γ_ij＝(γ_ij1,γ_ij2,…,γ_ijh)，其中，γ_ij是语义因子集，γ_ijh是第h个图像块的语义因子；

9.根据权利要求8所述的方法，其特征在于，所述步骤S44中，基于图像块的左上角坐标位置信息和图像块对应的判别性笔画Stroke_ij，利用混合高斯模型得到所有图像块的语义因子。

10.根据权利要求8所述的方法，其特征在于，语义置信向量C表示为：

C＝(C₁₁,C₁₂,…,C_1j，…,C₂₁,C₂₂,…,C_2j,…,C_n1,C_n2,…,C_nj,…)，

其中，C_ij表示判别性笔画Stroke_ij的语义置信得分。