CN111428718A

CN111428718A - 一种基于图像增强的自然场景文本识别方法

Info

Publication number: CN111428718A
Application number: CN202010240272.4A
Authority: CN
Inventors: 钱烨; 王雨阳; 苏丰
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-17
Anticipated expiration: 2040-03-30
Also published as: CN111428718B

Abstract

本发明公开一种基于图像增强的自然场景文本识别方法，包括以下步骤：（1）构建包含增强网络和识别网络的自然场景文本识别模型；（2）训练基于图像增强的自然场景文本识别模型；（3）对一幅待识别的自然场景文本图像，将其输入到训练完成的识别模型，依次通过模型中的增强网络和识别网络后，模型的输出即为从该图像中识别获得的文字字符序列。本发明通过在文本识别模型中的识别网络模块前引入专门的图像增强模块，并端到端地对整个识别模型进行训练，使得所引入图像增强模块能够自适应地对输入图像进行调整和增强，例如抑制复杂背景、突出文本区域等，从而改善图像的质量，有效提高后继文本识别网络模块的准确率。

Description

一种基于图像增强的自然场景文本识别方法

技术领域

本发明属于计算机视觉领域，涉及自然场景文本识别方法。

背景技术

自然场景图像中出现的文本对象为场景理解、图像分析、分类和标注等应用提供了重要的可供利用的信息。然而，自然场景的复杂性、文字外观的多样性以及图像中经常存在退化、干扰等诸多因素，使得对自然场景图像中文字的识别具有较高的难度。

近年来出现的场景文本识别方法大致分为字符级和单词级两类。字符级方法通常采用一个自底向上的识别流程，即首先使用支持向量机、神经网络等分类器在滑动窗口中定位并识别每个字符，再将候选字符聚合成词。单词级方法通常采用自上而下的方式，利用语言、词法等知识在词级别进行整体识别，例如采用循环神经网络等序列化识别模型，在使用卷积神经网络获得的图像特征表示的基础上，直接识别出整个字符序列。此类方法避免了字符级方法易受前导字符检测与识别步骤中错误影响的不足，并且一般采用端到端的识别模型训练学习方式，取得了往往优于字符级方法的识别性能。

上述方法虽然在自然场景图像文字的识别上取得了相当大的进展，但大多针对识别条件较好的图像中的文字对象特点来设计相应方法，而并未针对图像自身设计专门的处理方法来改善其识别条件，因此往往难以进一步提高识别的性能。

发明内容

本发明的目的是提供一种基于图像增强的自然场景文本识别方法，该方法不同于聚焦于文本对象特点的现有场景文本识别方法，而是从改善自然场景图像中经常存在的低对比度、不均匀光照、嘈杂背景等不利条件出发，通过有效的神经网络模型和算法对图像进行增强，使其更易于文字识别，从而达到提高方法识别性能的目标。该方法在一般基于循环神经网络的编解码识别网络的前面，设计引入了有效的采用端到端学习的图像增强神经网络模块，来对原输入图像进行自适应的增强，可有效提高整体识别模型对自然场景文字的识别能力。

本发明具体采用如下技术方案：

一种基于图像增强的自然场景文本识别方法，包括以下步骤：

(1)构建包含增强网络和识别网络的自然场景文本识别模型，包括以下子步骤：

(1.1)构建增强网络；

(1.2)构建识别网络；

(1.3)设计识别模型的损失函数；

(2)训练基于图像增强的自然场景文本识别模型，包括以下子步骤：

(2.1)将一训练文本图像作为增强网络的输入，将其输出的增强后的图像输入到识别网络中，获得预测的文字标签序列，另一方面将该训练文本图像附带的文本标签作为识别网络预期输出的真实文字标签序列，使用反向传播(back propagation，BP)算法端到端地训练整个识别模型；

(2.2)重复步骤(2.1)，使得包括增强网络和识别网络在内的整个识别模型在训练过程中逐步学习到文本标签的样本分布；

(3)对一幅待识别的自然场景文本图像，将其输入到训练完成的识别模型，依次通过模型中的增强网络和识别网络后，模型的输出即为从该图像中识别获得的文字字符序列。

本发明公开的一种基于图像增强的自然场景文本识别方法具有以下优点：

1.通过在文本识别模型中的识别网络模块前引入专门的图像增强模块，并端到端地对整个识别模型进行训练，使得所引入图像增强模块能够自适应地对输入图像进行调整和增强，例如抑制复杂背景、突出文本区域等，从而改善图像的质量，有效提高后继文本识别网络模块的准确率。

2.文本增强网络在设计上采用了基于残差的处理框架，避免直接预测增强后的输出图像，而是预测一个残差图像，并将其与原输入图像相加来获得增强后的输出图像，该处理方式在可以取得与直接预测增强图像相当效果的同时，更有利于训练误差的反向传播，从而实现对增强网络的更有效训练。

3.文本识别网络引入了多尺度特征提取模块，有效地结合了密集连接网络和注意力机制，可自适应地使用多个不同尺寸的窗口对不同大小的字符进行特征提取，在有效描述大字符的同时保留小字符的特征。

附图说明

图1为基于图像增强的自然场景文本识别模型总体结构图；

图2为增强网络结构图；

图3为下采样卷积块结构图；

图4为上采样卷积块结构图；

图5为全局特征提取模块结构图；

图6为识别网络结构图；

图7为多尺度特征提取模块结构图。

具体实施方式

下面结合附图和具体实施例对本发明基于图像增强的自然场景文本识别方法进行详细描述，包括以下步骤：

(数据预处理)构建训练图像样本数据集。将RGB(Red红色，Green绿色，Blue蓝色)三通道图像转化成单通道的灰度图像；将训练图像样本的尺寸统一调整为100×32像素大小；将训练图像样本的标签中的特殊字符剔除。

(1)构建基于图像增强的自然场景文本识别模型，识别模型总体流程如图1所示，包括以下子步骤：

(1.1)构建增强网络，其组成结构如图2所示。网络以原始自然场景文本图像作为输入，先通过由卷积核为3×3的卷积层(Conv)、BN(Batch Normalization)层以及ReLU激活层组成的输入层，再依次通过4个下采样卷积块。然后，将得到的特征图输入到4个上采样卷积块，再通过由一个卷积核为3×3的卷积层(Conv)组成的输出层，得到包含1个通道且与原输入图像相同大小的残差图。其中，为保留不同尺度特征图的重要特征，网络对每个下采样卷积块产生的特征图，使用全局特征提取模块提取得到一个全局特征向量，然后将它与对应的上采样卷积块的输出特征图相加，以弥补在多次下采样过程中丢失的全局信息，然后输入下一个上采样卷积块或输出层。最后，增强网络将残差图与原输入图像相加，得到增强后的图像。

下采样卷积块的结构如图3所示。输入特征图依次通过2×2最大池化层(MaxPooling)、3×3卷积层(Conv)、BN(Batch Normalization)层以及ReLU激活层。

上采样卷积块的结构如图4所示。输入特征图依次通过上采样层、3×3卷积层(Conv)、BN(Batch Normalization)层以及ReLU激活层。

全局特征提取模块的结构如图5所示。输入特征图首先通过1×1卷积层和Softmax激活层得到一个权重图，然后利用这个权重图对输入特征图加权求和，得到一个全局特征向量。

(1.2)构建识别网络，其组成如图6所示。网络以增强网络生成的增强后的图像作为输入，先通过由卷积核为3×3的卷积层(Conv)和BN(Batch Normalizatio)层组成的输入层；再依次通过13个残差块；然后通过一个卷积层将特征图的高度压缩为1，得到一个固定维度的特征序列；随后这个特征序列依次通过多尺度特征提取模块、双向LSTM网络进行编码；最后通过基于注意力机制的解码器，得到预测的字符序列。

多尺度特征提取模块的结构如图7所示，主要由密集连接网络和基于注意力的融合模块两部分组成。密集连接网络包括5个相似的模块，每个模块都由一个卷积块和一个拼接层(Concatenation)组成。其中，卷积块由卷积核为3×1的卷积层、BN(BatchNormalization)层和ReLU激活层构成。从密集连接网络得到5个相同大小的特征序列后，融合模块对这5个特征序列中的每个序列分别求和得到对应的初始权重，然后通过一个2层感知机和一个Softmax激活函数得到对应各特征序列的权重，进而使用这些权重对5个特征序列进行加权求和，生成一个最终的特征序列。

基于注意力机制的解码器的核心是一个门限循环单元(GRU)。该单元首先对输入的特征序列、GRU的隐状态进行线性变换，然后将两者相加再通过一个Tanh激活函数和一个Softmax激活函数得到注意力向量，接着用注意力向量对特征序列加权求和得到特征向量，随后将前一个字符的embedding向量、特征向量和隐状态作为GRU的输入更新GRU的隐状态，再对其做一次线性变换得到字符预测的概率分布。

(1.3)自然场景文本识别模型的损失函数计算为：

其中，L表示预测的字符序列的长度，N为模型能够识别的不同字符的个数，

表示训练数据中包含的真实标签序列，y则代表预测的标签序列的概率分布，

表示一个二值函数，当括号中的条件满足时返回1，否则返回0。

(2.1)将一训练文本图像作为增强网络的输入，将其输出的增强后的图像输入到识别网络中，获得预测的文字标签序列，另一方面将该训练文本图像附带的文本标签作为识别网络预期输出的真实文字标签序列。按照(2.1.3)计算损失函数，并使用反向传播(back propagation，BP)算法端到端地训练整个识别模型。

(2.2)重复步骤(2.1)，使包括增强网络和识别网络在内的整个识别模型在训练过程中逐步学习到文本标签的样本分布。

(3)对一幅待识别的自然场景文本图像，将其输入到训练完成的识别模型，依次通过模型中的增强网络和识别网络后，模型的输出即为从该图像中识别出的文字字符序列。

本实施例在64位Ubuntu 16.04.4操作系统平台上，基于PyTorch 0.4.0深度学习框架并使用Python 3.5.2语言构建自然场景文本识别模型，使用一块NVIDIA GTX 1070TiGPU完成模型的训练。训练过程使用Adadelta优化器并将学习率设置为1，训练迭代总次数为240000次，总训练时间约为48小时。

Claims

1.一种基于图像增强的自然场景文本识别方法，其特征在于包括以下步骤：

(1.1)构建增强网络；

(1.2)构建识别网络；

(1.3)设计识别模型的损失函数；

(2.1)将一训练文本图像作为增强网络的输入，将其输出的增强后的图像输入到识别网络中，获得预测的文字标签序列；另一方面将该训练文本图像附带的文本标签作为识别网络预期输出的真实文字标签序列，使用反向传播算法端到端地训练整个识别模型；

2.如权利要求1所述的基于图像增强的自然场景文本识别方法，其特征在于所述增强网络采用了基于残差的处理框架，通过预测残差图像，并将残差图像与原输入图像相加来获得增强后的输出图像。

3.如权利要求1所述的基于图像增强的自然场景文本识别方法，其特征在于所述识别网络引入了多尺度特征提取模块，可自适应地使用多个不同尺寸的窗口对不同大小的字符进行特征提取，在有效描述大字符的同时保留小字符的特征。

4.如权利要求1所述的基于图像增强的自然场景文本识别方法，其特征在于还包括图像数据预处理步骤，将RGB三通道图像转化成单通道的灰度图像，将训练图像样本的尺寸调整为统一像素大小，将训练图像样本的标签中的特殊字符剔除，构建训练图像样本数据集。

5.如权利要求1所述的基于图像增强的自然场景文本识别方法，其特征在于所述增强网络以原始自然场景文本图像作为输入，先通过由卷积核为3×3的卷积层、BN层以及ReLU激活层组成的输入层；再依次通过4个下采样卷积块，然后将得到的特征图输入到4个上采样卷积块；再通过由一个卷积核为3×3的卷积层组成的输出层，得到包含1个通道且与原输入图像相同大小的残差图；最后，增强网络将残差图与原输入图像相加，得到增强后的图像。

6.如权利要求1或2或5所述的基于图像增强的自然场景文本识别方法，其特征在于所述增强网络对每个下采样卷积块产生的特征图，使用全局特征提取模块提取得到一个全局特征向量，然后将它与对应的上采样卷积块的输出特征图相加，输入下一个上采样卷积块或输出层。

7.如权利要求1所述的基于图像增强的自然场景文本识别方法，其特征在于所述识别网络以增强网络生成的增强后的图像作为输入，先通过由卷积核为3×3的卷积层和BN层组成的输入层；再依次通过13个残差块；然后通过一个卷积层将特征图的高度压缩为1，得到一个固定维度的特征序列；随后这个特征序列依次通过多尺度特征提取模块、双向LSTM网络进行编码；最后通过基于注意力机制的解码器，得到预测的字符序列。

8.如权利要求3或7所述的基于图像增强的自然场景文本识别方法，其特征在于所述多尺度特征提取模块主要由密集连接网络和基于注意力的融合模块两部分组成，密集连接网络得到5个相同大小的特征序列后，融合模块对这5个特征序列中的每个序列分别求和得到对应的初始权重，然后通过一个2层感知机和一个Softmax激活函数得到对应各特征序列的权重，进而使用这些权重对5个特征序列进行加权求和，生成一个最终的特征序列。

9.如权利要求1所述的基于图像增强的自然场景文本识别方法，其特征在于所述损失函数为：