CN111832546B

CN111832546B - 一种轻量级自然场景文本识别方法

Info

Publication number: CN111832546B
Application number: CN202010579311.3A
Authority: CN
Inventors: 刘宁钟; 蒋子敏; 沈家全; 产世兵
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2020-06-23
Filing date: 2020-06-23
Publication date: 2024-04-02
Anticipated expiration: 2040-06-23
Also published as: CN111832546A

Abstract

本发明公开了一种轻量级自然场景文本识别方法，首先，获取自然场景文本数据，选用自然场景文本图片数据集用于训练及测试；然后，将训练集数据送入深度学习网络进行训练，直至网络收敛，得到最终权重文件；最后，利用权重文件，将测试集的图片数据送入训练好的深度学习网络进行测试，并输出识别结果。本发明识别速度快且精度高，克服了传统图像处理算法在自然场景文本识别中难以解决的噪声干扰、光照不均、对比度低、字符粘连等难题；与现有方法相比，本发明在保证识别的高精度情况下，大大减少了计算量以及模型的参数量，提高了识别速度，且鲁棒性强，具有深远的发展与应用前景。

Description

一种轻量级自然场景文本识别方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种轻量级自然场景文本识别方法。

背景技术

随着科技的进步、深度学习的快速发展，计算机视觉领域已经发生了巨大的变化。文本识别作为该领域重要的研究之一，已经引起了人们的广泛关注。作为语义信息交流的重要媒介，文本可以应用到各种场合之中，如车牌识别、路牌识别、商店标志字识别等等。自然场景文本识别的实现，给人们的生产生活带来了极大的便利。

目前，自然场景文本识别可以通过传统图像处理方法或者深度学习的方法加以实现。传统的图像处理方法需要对输入图像进行预处理、字符的分割等操作，从而将单个字符从图像中分割出来加以识别，如Bissacco等人利用二值化进行图像处理，较依赖于图像的质量。该方法对于背景单一、质量良好的文本文档具有一定的作用，而由于自然场景文本存在背景复杂、大小不一、字符粘连等问题，使用传统的方法已经无法满足该场景中文本识别的要求。

随着深度学习的发展及应用，深度卷积神经网络(DCNN)、循环神经网络(RNN)等在文本识别领域有了广泛的应用。目前，基于CNN+RNN+CTC的网络模型是自然场景文本识别中的主流框架。使用DCNN完成自然场景图像的特征图提取，RNN完成特征序列到字符标签的转换，最后利用CTC(Connectionist Temporal Classification)结构获得最终字符串，即识别结果，如CRNN。然而，通过DCNN，如VGG进行图片特征的提取，由于深度卷积神经网络参数量较大，在训练以及测试阶段均会消耗大量的内存以及时间，在一定程度上降低了识别速度。所以，亟需一种能识别准确并增加识别速度的自然场景文本识别方法。

发明内容

发明目的：为了解决上述背景技术提到的技术问题，本发明提出了一种轻量级自然场景文本识别方法，将卷积神经网络与循环神经网络相结合，并引入注意力机制，降低在计算量以及时间上的消耗，实现准确而快速的自然场景文本识别。

技术方案：本发明提供一种轻量级自然场景文本识别方法，具体包括以下步骤：

(1)获取自然场景文本图片数据集，并将数据集分为训练集和测试集；

(2)将获得的训练集送入深度学习网络进行训练，直至深度学习网络收敛，得到权重文件；

(3)利用训练好的深度学习网络和权重文件进行测试集中自然场景图片的文本识别测试，并输出识别结果。

进一步地，对步骤(1)所述的文本图片数据集进行预处理，将图片缩放为100×32的大小。

进一步地，步骤(2)所述的深度学习网络由特征序列提取层、循环神经网络层以及注意力机制组成，具体结构如下：

所述深度学习网络包括8个阶段，分别为阶段0，1，2，......，7；受轻量级网络PeleeNet启发，本发明保留原网络的前4个阶段，摒弃最后一个阶段，后续增加4个阶段完成最终识别；其中，训练数据从阶段0输入特征提取网络，依次经阶段1，2，3，…，7处理后得到最终识别结果，其中，特征序列提取层由阶段0，1，2，3，4，5构成，阶段0，1，2，3，4完成对输入图片特征图的提取，阶段5完成特征图到特征序列的转换；阶段6，7则由循环神经网络层以及注意力机制组成，完成特征序列的标签分布获得等得到最终识别结果；其中，阶段0由Stem Block构成，实现在增加很少计算量的情况下获得更加丰富的语义特征；阶段1，2，3由Dense Block以及1×1卷积、平均池化层构成；阶段4由1×1卷积构成，5个阶段最终完成输入图片特征的提取，阶段5实现特征图到特征序列的转换；阶段6，7将双向长短期记忆网络与Dense Block相结合，在每个输入与输出之间以级联方式建立直接关联通道，随后引入注意力机制，得到特征序列的标签分布并获得最终结果。

进一步地，所述步骤(2)包括以下步骤：

(21)将训练集数据送入深度学习网络，设置网络训练的优化方法、学习率、衰退率、迭代次数以及批量大小值等；

(22)训练集数据图片送入特征序列提取层，完成图片特征的提取，得到特征图片，并将所提取到的特征图片映射为特征序列；

(23)将特征序列送入循环神经网络层以获取特征序列的标签分布；

(24)在转录层引用注意力机制对标签分布完成转换，得到最终识别结果；

(25)当网络的损失值达到收敛状态时，结束训练，最终获得用于自然场景文本识别的网络以及权重文件。

进一步地，所述Dense Block由多层Dense Layer组成；其中，Stem Block一个通道使用1×1卷积核以及3×3卷积核进行特征提取，另一个通道使用1×1卷积核以及2×2的最大池化提取特征，随后将这两个通道的特征相融合；Dense Layer一个通道使用1×1卷积核后再经过3×3卷积核进行特征提取，另一个通道则在1×1卷积核之后，再经过一层3×3卷积核以及两层1×1卷积核完成特征提取，随后将这两个通道的特征进行融合。

有益效果：与现有技术相比，本发明的有益效果：1、本发明对自然场景图像文本质量要求不高，对因背景复杂、噪声较多、光照不均、字符粘连等自然场景图片具有较好的识别效果，具有内存消耗小、计算量小、检测速度快、鲁棒性强等特点；2、本发明在自然场景文本识别上精度高、速度快，具有较高的效率，应用前景广泛。

附图说明

图1是本发明的整体流程图；

图2是本发明深度学习网络训练流程图；

图3是部分图片识别结果图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

本发明提供了一种轻量级自然场景文本识别方法，如图1所示，包括以下步骤：

步骤1：获取自然场景文本图片数据集，并将数据集分为训练集和测试集。

对于获取的自然场景文本图片的公开数据集，选择MJSynth、IIIT5K、SVT以及IC13四个自然场景文本数据集作为本发明的数据库，其中选择MJSynth数据集作为本发明的训练集，IIIT5K、SVT以及IC13用于本发明测试集的测试。MJSynth数据集为合成数据集，由包含单词的自然场景图像组成，包含900万张图片，9万个英文单词。IIIT5K数据集包含3000张取自于Google的图片。SVT数据集取自Google Street View，共有647张图片用于本发明测试。IC13数据集共有1095张场景图片，选取857张用于本发明测试。

对获得的自然场景文本数据集中的数据图片进行预处理操作，进行训练以及测试的图片都被缩放为100×32的大小。将预处理后的图片送入深度学习网络进行训练以及测试。

步骤2：将获得的训练数据集送入深度学习网络进行训练，直至深度学习网络收敛，得到权重文件。深度学习网络由特征序列提取层、循环神经网络层以及注意力机制组成，包括8个阶段，分别为阶段0，1，2，......，7。受轻量级网络PeleeNet启发，本发明保留原网络的前4个阶段，摒弃最后一个阶段，后续增加4个阶段完成最终识别。其中，训练数据从阶段0输入特征提取网络，依次经阶段1，2，3，…，7处理后得到最终识别结果，其中，特征序列提取层由阶段0，1，2，3，4，5构成，阶段0，1，2，3，4完成对输入图片特征图的提取，阶段5完成特征图到特征序列的转换；阶段6，7则由循环神经网络层以及注意力机制组成，完成特征序列的标签分布获得等得到最终识别结果；其中，阶段0由Stem Block构成，实现在增加很少计算量的情况下获得更加丰富的语义特征；阶段1，2，3由Dense Block以及1×1卷积、平均池化层构成；阶段4由1×1卷积构成，5个阶段最终完成输入图片特征的提取，阶段5实现特征图到特征序列的转换；阶段6，7将双向长短期记忆网络与Dense Block相结合，在每个输入与输出之间以级联方式建立直接关联通道，随后引入注意力机制，得到特征序列的标签分布并获得最终结果。

本发明的特征序列提取层包含卷积神经网络提取图片特征以及特征图到特征序列的映射，该层中特征提取网络受轻量级网络PeleeNet的启发。表1为现有的PeleeNet网络结构，表2为本发明中所用PeleeNet网络结构，表3为特征序列提取层、循环神经网络层以及注意力机制结合的本发明网络结构。

表1

表2

表3

如图2所示，步骤2的具体展开步骤如下：

1)MJSynth数据集预处理后，将其作为训练数据送入所搭建的深度学习网络，设置网络训练的优化方法、学习率、衰退率、迭代次数以及批量大小值等。

2)训练数据图片送入特征序列提取层，受轻量级网络PeleeNet启发，该层网络完成图片特征的提取，得到特征图片，将所提取到的特征图片映射为特征序列。

Dense Block由多层Dense Layer组成，Stem Block与Dense Layer均采取双通道的方式进行特征的concat融合获取，从而获得更多特征通道数，以增强特征的语义表达能力。

Stem Block可以在增加很少计算量的情况下获得更加丰富的语义特征。输入图像经过3×3卷积核的特征提取后，一个通道使用1×1卷积核以及3×3卷积核进行特征提取，另一个通道使用1×1卷积核以及2×2的最大池化提取特征，随后将这两个通道的特征concat相融合并进行1×1卷积运算，从而增强了模型的非线性特征表达能力。不同于原始Stem Block，本发明在最大池化前增加了1×1卷积核以获得较小感受野，从而提取更加细节特征。Dense Layer一个通道使用1×1卷积核后再经过3×3卷积核进行特征提取，另一个通道则在1×1卷积核之后，再经过一层3×3卷积核以及两层1×1卷积核完成特征提取，随后将这两个通道的特征进行concat融合。两个网络分支的设计使得不同尺度感受野信息被获取，同时，1×1卷积核的使用实现了特征降维，在一定程度上减少了计算量，更具有轻量级特点。完成对图片的特征提取，得到大小为25×1×256的输出特征图。阶段5完成特征图到特征序列的映射，即输出长度为25的特征序列，每个特征序列向量维度为1×256。

3)将特征序列送入循环神经网络层以获取特征序列的标签分布。

阶段6中将双层Bidirectional-LSTM与Dense Block相结合，即第一层Bidirectional-LSTM的输入为阶段5所得特征序列，第二层Bidirectional-LSTM的输入为第一层Bidirectional-LSTM的输出与阶段5所得特征序列相连接并做线性变换，最终，阶段7的输入为第二层Bidirectional-LSTM的输出、第二层Bidirectional-LSTM的输入以及阶段5所得特征序列相连接并做线性变换。

4)在转录层引用注意力机制对标签分布完成转换，得到最终识别结果。

5)当网络的损失值达到收敛状态时，结束训练，最终获得用于自然场景文本识别的网络以及权重文件。使用softmax函数对文本进行识别预测，损失函数值由最大似然方法得到。

步骤3：利用训练好的深度学习网络和权重文件进行测试集中自然场景图片的文本识别测试，并输出识别结果。

将测试图片送入训练好的深度学习网络，并利用得到的权重文件得到测试结果；根据测试结果得到相关参数指标值。

将测试数据集预处理后送入训练好的深度神经网络，并经特征序列提取层、循环神经网络层、转录层等操作得到最终测试结果，部分结果如图3所示。经检验，本发明在IIIT5K、SVT以及IC13数据集上的识别准确率分别为77.3％、78.1％、87.3％，所得模型大小为4.3M，其模型参数量相比其他模型大大减少，在保证可竞争的识别精度情况下具有识别速度快、参数量少的优势，是一种轻量级的识别方法。同时，深度学习方法的应用使得识别更具有鲁棒性，克服了传统方法在图片背景复杂、光照不均等条件下的识别难题，具有广泛的应用前景。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.一种轻量级自然场景文本识别方法，其特征在于，包括以下步骤：

(3)利用训练好的深度学习网络和权重文件进行测试集中自然场景图片的文本识别测试，并输出识别结果；

步骤(2)所述的深度学习网络由特征序列提取层、循环神经网络层以及注意力机制组成，具体结构如下：

所述深度学习网络包括8个阶段，分别为阶段0，1，2，......，7；受轻量级网络PeleeNet启发，本发明保留原网络的前4个阶段，摒弃最后一个阶段，后续增加4个阶段完成最终识别；其中，训练数据从阶段0输入特征提取网络，依次经阶段1，2，3，…，7处理后得到最终识别结果，其中，特征序列提取层由阶段0，1，2，3，4，5构成，阶段0，1，2，3，4完成对输入图片特征图的提取，阶段5完成特征图到特征序列的转换；阶段6，7则由循环神经网络层以及注意力机制组成，完成特征序列的标签分布获得最终识别结果；其中，阶段0由Stem Block构成，实现在增加很少计算量的情况下获得更加丰富的语义特征；阶段1，2，3由Dense Block以及1×1卷积、平均池化层构成；阶段4由1×1卷积构成，5个阶段最终完成输入图片特征的提取，阶段5实现特征图到特征序列的转换；阶段6，7将双向长短期记忆网络与Dense Block相结合，在每个输入与输出之间以级联方式建立直接关联通道，随后引入注意力机制，得到特征序列的标签分布并获得最终结果。

2.根据权利要求1所述的一种轻量级自然场景文本识别方法，其特征在于，对步骤(1)所述的文本图片数据集进行预处理，将图片缩放为100×32的大小。

3.根据权利要求1所述一种轻量级自然场景文本识别方法，其特征在于，所述步骤(2)包括以下步骤：

(21)将训练集数据送入深度学习网络，设置网络训练的优化方法、学习率、衰退率、迭代次数以及批量大小值；

4.根据权利要求1所述一种轻量级自然场景文本识别方法，其特征在于，所述DenseBlock由多层Dense Layer组成；其中，Stem Block一个通道使用1×1卷积核以及3×3卷积核进行特征提取，另一个通道使用1×1卷积核以及2×2的最大池化提取特征，随后将这两个通道的特征相融合；Dense Layer一个通道使用1×1卷积核后再经过3×3卷积核进行特征提取，另一个通道则在1×1卷积核之后，再经过一层3×3卷积核以及两层1×1卷积核完成特征提取，随后将这两个通道的特征进行融合。