CN111967471A

CN111967471A - 一种基于多尺度特征的场景文本识别方法

Info

Publication number: CN111967471A
Application number: CN202010841752.6A
Authority: CN
Inventors: 张家鑫; 金连文; 罗灿杰; 王天玮; 李子彦; 周伟英
Original assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Current assignee: South China University of Technology SCUT; Zhuhai Institute of Modern Industrial Innovation of South China University of Technology
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2020-11-20

Abstract

本发明公开一种基于多尺度特征的场景文本识别方法，包括：获取场景文本图像数据集，并对场景文本图像数据集中的图像数据进行尺寸调整；构建文本识别模型，并利用尺寸调整后的场景文本图像数据集对文本识别模型进行训练；文本识别模型包括多尺度特征编码模块、多层注意力机制解码模块；多尺度特征编码模块用于获取若干个尺度的字符特征，多层注意力机制解码模块联合二维注意力机制和一维注意力机制对若干个尺度的字符特征进行融合，得到场景文本中的字符识别结果；采集待识别场景文本图像，将场景文本图像调整到统一尺寸后输入训练好的文本识别模型，完成场景文本中多尺度字符的识别。本发明能够对场景文本中的多尺度字符进行快速准确识别。

Description

一种基于多尺度特征的场景文本识别方法

技术领域

本发明涉及场景文本识别技术领域，特别是涉及一种基于多尺度特征的场景文本识别方法。

背景技术

近年来，随着深度神经网络的飞速发展，大大推动了人工智能技术的创新应用。场景文本识别，作为人工智能技术的一部分，受到广泛的关注。不同于扫描文档中的光学字符识别，场景文本识别因文本字体多样、分辨率低、易受光影变化影响等问题而十分具有挑战性。目前主流的方案概括为，使用深层卷积神经网络提取图像高阶特征，使用循环神经网络关联水平特征向量，最后使用CTC(Connectionist Temporal Classification，连接主义时间分类)或注意力机制进行转录。针对于场景文本中不规则文本的情况，研究人员主要从文本纠正，背景噪声，注意力机制漂移等方面来考虑，忽视了文本中的字符多尺度问题。字符多尺度问题，常常是伴随着倾斜文本，弯曲文本以及字体风格独特文本出现的。由于目前的场景文本识别技术仅仅保留了深层卷积神经网络的最后一层输出，其固定的且过大的感受野无法适应文本中同时出现字符大小不同的情况，且在字符普遍较小的情况下，其过大的感受野甚至会有一半以上落在背景区域，严重影响识别器的性能。

因此，目前亟需一种能够对场中文本中的多尺度字符进行快速准确识别的方法。

发明内容

本发明的目的是提供一种基于多尺度特征的场景文本识别方法，以解决现有技术中存在的技术问题，能够对场景文本中的多尺度字符进行快速准确识别。

为实现上述目的，本发明提供了如下方案：本发明提供一种基于多尺度特征的场景文本识别方法，包括如下步骤：

获取场景文本图像数据集，并对所述场景文本图像数据集中的图像数据进行尺寸调整；

构建文本识别模型，并利用尺寸调整后的场景文本图像数据集对所述文本识别模型进行训练；所述文本识别模型包括多尺度特征编码模块、多层注意力机制解码模块；所述多尺度特征编码模块用于获取若干个尺度的字符特征，所述多层注意力机制解码模块联合二维注意力机制和一维注意力机制对若干个尺度的字符特征进行融合，得到场景文本中的字符识别结果；

采集待识别场景文本图像，将场景文本图像调整到统一尺寸后输入训练好的文本识别模型，完成场景文本中多尺度字符的识别。

优选地，对所述场景文本图像数据集中的图像数据进行尺寸调整的方法包括：

采用双线性插值或下采样方法，将所述场景文本图像数据集中的所有图像数据调整到统一尺寸。

优选地，所述多尺度特征编码模块包括输入层、卷积层、若干个残差层，下采样层、BLSTM，所述输入层、卷积层、若干个残差层、下采样层、BLSTM依次连接；所述下采样层用于将二维特征下采样至一维特征，并将所述一维特征输入至所述BLSTM；所述BLSTM用于对所述一维特征进行水平特征关系的建模，所述BLSTM的输出与所述多尺度特征编码模块若干个尺度的输出相连接。

优选地，所述残差层的网络结构包括卷积层、批标准化层、非线性层、下采样层；所述非线性层采用ReLU激活函数。

优选地，所述一维注意力机制包括GRU，所述多层注意力机制解码模块联合二维注意力机制和一维注意力机制对若干个尺度的字符特征进行融合的具体方法包括：

在二维注意力机制下，对齐字符特征与所述字符特征对应的目标输出，未对齐部分作为噪声丢弃，得到当前尺度特征所对应的字符特征向量；

在一维注意力机制下，对若干个尺度的字符特征进行融合，得到多尺度特征融合后的字符特征；

通过GRU对多尺度特征融合后的字符特征进行解码，得到场景文本中的字符识别结果。

优选地，所述文本识别模型采用双向解码机制，即，所述文本识别模型包括一个从左向右识别的多层注意力机制解码模块和一个从右向左的多层注意力机制解码模块。

优选地，利用尺寸调整后的场景文本图像数据集对所述文本识别模型进行训练的具体方法包括：

将尺寸调整后的场景文本图像数据集划分为训练集和测试集，其中，部分测试集中的场景文本图像数据带有词典；

对训练集中的场景文本图像数据进行标注，并通过标注好的训练集对所述文本识别模型进行训练；

通过所述测试集对所述文本识别模型进行准确性验证，同时，通过带有词典的所述测试集对所述文本识别模型进行纠错。

优选地，通过带有词典的所述测试集对所述文本识别模型进行纠错的具体方法包括：

计算所述文本识别模型预测的字符串与所述词典中相应字符串的编辑距离，将编辑距离最小的字符串作为最后的预测结果，完成所述文本识别模型的纠错。

本发明公开了以下技术效果：

(1)本发明多尺度特征编码模块利用深度卷积神经网络的金字塔型结构，同时保留了多个尺度的特征，使文本识别模型具有灵活的感受野，有效提高了字符识别的准确率；同时，本发明多层注意力机制解码模块联合二维注意力机制和一维注意力机制对若干个尺度的字符特征进行融合，得到场景文本中的字符识别结果，实现了对多个尺度的特征的细粒度融合，提高了多尺度字符的识别精度，且能够自适应的选择多尺度特征，具有实现简单、识别精度高、识别速度快等特点。

(2)本发明文本识别模型的训练采用反向传播算法，根据损失函数计算结果对文本识别模型的参数进行自适应调整，有效提高了文本识别模型的鲁棒性，能够适用于图像模糊、透射变换、扭曲等不同的应用场景。

(3)本发明文本识别模型训练过程中，部分测试集带有词典，通过计算预测字符串与词典中相应字符串的编辑距离，能够有效实现对文本识别模型的纠错，提高文本识别模型的识别精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于多尺度特征的场景文本识别方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1所示，本实施例提供一种基于多尺度特征的场景文本识别方法，包括如下步骤：

S1、数据获取：获取场景文本图像数据集，并将所获取的场景文本图像数据集划分为训练集、测试集；所述场景文本图像数据集包括不同字体风格、不同光影、不同分辨率的图像数据。

本实施例中，采用手机、专用硬件等摄像设备进行场景文本图像数据的采集，拍摄过程中允许存在倾斜、模糊、扭曲；每一个场景文本数据中字符长度不大于25，字符显示完整，且字符占整个图像面积的三分之二以上；所述测试集中的场景文本数据带有不同大小的词典，所述词典中包含多个字符串，例如，词典中包含90000个单词，其中，单词由字符串组成；通过计算预测字符串与词典中相应字符串的编辑距离，实现对识别模型的纠正，以提供更高精度的识别。

S2、数据处理：对所述场景文本图像数据集中的图像数据进行尺寸调整，将所述场景文本图像数据集中的所有图像数据调整到统一尺寸；

本实施例采用双线性插值或下采样方法，将场景文本图像数据集中的图像数据调整到统一尺寸，高度*宽度为32*100，便于深度神经网络模型并行化处理。

S3、深度网络模型训练：基于深度卷积神经网络、BLSTM(Bidirectional LongShort-Term Memory，双向长短期记忆网络)、GRU(Gated Recurrent unit，门控循环单元)构建文本识别模型，利用训练集对所述文本识别模型进行训练，并在测试集上检验所述文本识别模型的性能。具体包括：

S3.1、基于深度卷积神经网络、BLSTM和GRU构建文本识别模型；所述文本识别模型包括多尺度特征编码模块、多层注意力机制解码模块；所述多尺度特征编码模块采用金字塔结构，进行多个尺度特征的编码，获取基于不同大小感受野的高阶特征表达；所述多层注意力机制解码模块包括二维注意力机制和一维注意力机制，所述一维注意力机制包括GRU；针对于不同时刻、不同尺度的特征，首先利用二维注意力机制搜集空间字符信息，再利用一维注意力机制自适应地融合不同尺度特征上获得的字符信息，得到字符识别结果。

所述多尺度特征编码模块包括输入层、卷积层、若干个残差层，下采样层、BLSTM，所述输入层、卷积层、若干个残差层、下采样层、BLSTM依次连接；本实施例中，所述多尺度特征编码模块包括五个残差层，如表1所示：

表1

其中，第一个残差层的步长为2*2，第二个和第三个残差层为了保证多尺度特征图具有足够高度，将高度维的步长设为1；为了保证多尺度特征图具有足够的宽度，并获得高度维的多尺度特征，将第四个和第五个残差层的高度维步长调整为2，宽度维步长调整为1。由于本发明多尺度特征编码模块需要编码多尺度的特征，也就需要有多个尺度的特征图，如果步长为2，相当于高度或宽度减少一半，因此，为了有多个特征保存下来，需要保证特征图具有足够的高度和足够的宽度。

残差层的网络结构包括卷积层、批标准化层、非线性层、下采样层，如表2所示：

表2

其中，所述非线性层采用ReLU激活函数，所述下采样层包括一个卷积层和一个批标准化层。

为解决传统场景文本识别模型仅保留单一尺度特征所导致的模型鲁棒性问题，本发明中所述多尺度特征编码模块利用深度卷积神经网络的金字塔型结构，同时保留了三个尺度的特征，分别为4*25、8*25、16*25(高度*宽度)，且三个尺度的特征对应的残差层具有不同程度的感受野大小，三个尺度的特征的融合导致感受野的更加灵活。同时，由于场景文本大多为水平序列，因此，对于文本图像水平向量之间关系的学习非常重要，而现有循环神经网络无法支持二维特征的输入，本发明在最后一个残差层后面连接有一个下采样层，通过所述残差层后面连接的下采样层将二维特征下采样至一维特征，并将一维特征输入双向长短期记忆网络BLSTM进行水平特征关系的建模；然后将BLSTM的输出结合到所述多尺度特征编码模块三个尺度的输出上，有效提高了文本识别模型的鲁棒性。

所述多层注意力机制解码模块联合二维注意力机制与一维注意力机制，采用细粒度方式对所述多尺度特征编码模块输出的多尺度特征进行融合；由于多尺度的特征具有不同的高度，直接融合较为困难，且由于识别精度的要求，无法通过得分高低对所使用的特征进行选择，因此，如何合理的解决多尺度特征的融合问题为提高文本识别模型鲁棒性的关键点。

所述采用细粒度方式对所述多尺度特征编码模块输出的多尺度特征进行融合的具体方法包括：

定义从所述多尺度特征编码模块输出的一个尺度特征为V，其高度、宽度分别为h、w，坐标(i，j)处的像素为v_i,j，GRU在时刻t的隐藏层状态表示为S_t，多尺度特征的数量为N。

首先，在二维注意力机制的作用下，对齐字符特征与该字符特征对应的目标输出，未对齐部分作为噪声丢弃，得到当前尺度特征所对应的字符特征向量，如式(1)～(3)所示：

e_t，i，j＝Wtanh(W_ss_t-1+(W_vV)_i，j)……(1)

式中，W、W_s、W_v表示当前尺度特征下多层注意力机制解码模块的训练参数；e_t，i，j表示在时刻t当前尺度特征在坐标(i，j)处的相关能量，e_{t，i′，j′}表示在时刻t当前尺度特征在坐标(i′，j′)处的相关能量，a_t，i，j表示在时刻t当前尺度特征在坐标(i，j)处的关注度因子，用于衡量当前尺度特征的重要性；q_t，n表示在时刻t第n个尺度特征所对应的字符特征向量，n∈[1,N]。

三个尺度的特征在二维注意力机制下得到的字符特征向量较为容易融合，但由于一维注意力机制下融合的方法能够自适应的选择字符特征优先级，较为灵活，因此，一维注意力机制下进行多尺度特征融合效果更佳。

其次，在一维注意力机制下，对三个尺度的字符特征进行融合，得到多尺度特征融合后的字符特征，如式(4)～(6)所示：

g_t，n＝W′tanh(W_s′s_t-1+W_qq_t，n)…………(4)

式中，W′、W_s′、W_q表示为可训练参数，g_t，n表示第n个尺度特征的相关能量，g_t，n′表示第n′个尺度特征的相关能量，a′_t，n表示第n个尺度特征关注度因子，c_t表示在时刻t多尺度特征融合后的字符特征，S_t-1表示时刻t-1的隐藏层状态。

再次，通过GRU对多尺度特征融合后的字符特征进行解码，得到场景文本中的字符识别结果。解码过程采用贪婪算法，每一次预测都取置信度最高的结果，如式(7)～(8)所示：

y_t＝W_os_t+b_o……………………(8)

式中，

表示时刻t-1预测输出的高维嵌入值；W₀、b₀为可训练参数，分别表示全连接层的权重矩阵与偏置；y_t为网络输出的置信度矩阵，值越大则置信度越高。

同时，由于传统用于场景文本识别的损失函数对于多尺度文本识别模型并不适用，使得某些尺度无法收敛，因此，对损失文本识别模型的损失函数进行了更新，使得每一层的特征都有更强的指导，从而能够在仅存当前尺度特征时仍能有最准确的输出结果，有效提高了文本识别模型的鲁棒性。损失函数Loss的更新如式(9)所示：

式中，P(O_m|I)表示输入图像第m个字符预测结果为O_m的概率，P(O_n，m|I)表示输入图像第m个字符的第n个尺度的特征预测结果为O_n,m的概率，I表示所输入的图像，M表示所输入图像中的字符长度。

由于场景文本噪声分布的不对称性，本发明采用了双向解码机制来提升文本识别模型的鲁棒性，即通过构建一个从左向右识别的多层注意力机制解码模块和一个从右向左的多层注意力机制解码模块，共同实现解码，从而解决噪声分布不对称对文本识别模型识别准确率带来的影响。

S3.2、采用反向传播算法对文本识别模型进行训练；具体为：

从所述文本识别模型的最后一次输出开始，计算损失函数，并向浅层逐层传递，并根据损失函数计算结果更新文本识别模型的所有参数。

在训练过程中，所述文本识别模型的输入为一张调整为统一尺寸的图像，输出为一串字符序列，训练策略采用弱监督方式。

本实施例中，所述文本识别模型的训练过程中，参数设定如下：

迭代次数：900000

单一批次图片数：64

优化器：Adadelta

学习率：1.0(学习率更新策略：720000次迭代后降为0.1)。

具体训练过程包括：

首先，对所述训练集进行单词级别的标注，并通过标注好的训练集对所述文本识别模型进行训练，以提高文本识别模型的鲁棒性；

其次，通过测试集对所述文本识别模型进行准确性验证及纠错；部分测试集带有不同大小的词典，所述词典包含多个字符串；通过所述测试集对所述文本识别模型进行准确性验证；同时，通过带有词典的所述测试集对所述文本识别模型进行纠错，具体包括：

计算所述文本识别模型预测的字符串与词典中相应字符串的编辑距离，所述编辑距离为：将预测的字符串转换为词典中相应字符串所需要的单字符编辑次数；所述单字符编辑包括插入字符、删除字符和/或替换字符；将编辑距离最小的字符串作为最后的预测结果，完成文本识别模型的纠错，大幅度提高文本识别模型的识别精度。

S4、场景文本识别：采集待识别场景文本图像，将场景文本图像调整到统一尺寸后输入训练好的文本识别模型，完成场景文本中多尺度字符的识别，能够应用于路牌的自动识别，车牌的自动识别，图像检索，图像数据的存储等多个领域。

以上所述的实施例仅是对本发明的优选方式进行描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于多尺度特征的场景文本识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于多尺度特征的场景文本识别方法，其特征在于，对所述场景文本图像数据集中的图像数据进行尺寸调整的方法包括：

3.根据权利要求1所述的基于多尺度特征的场景文本识别方法，其特征在于，所述多尺度特征编码模块包括输入层、卷积层、若干个残差层，下采样层、BLSTM，所述输入层、卷积层、若干个残差层、下采样层、BLSTM依次连接；所述下采样层用于将二维特征下采样至一维特征，并将所述一维特征输入至所述BLSTM；所述BLSTM用于对所述一维特征进行水平特征关系的建模，所述BLSTM的输出与所述多尺度特征编码模块若干个尺度的输出相连接。

4.根据权利要求3所述的基于多尺度特征的场景文本识别方法，其特征在于，所述残差层的网络结构包括卷积层、批标准化层、非线性层、下采样层；所述非线性层采用ReLU激活函数。

5.根据权利要求1所述的基于多尺度特征的场景文本识别方法，其特征在于，所述一维注意力机制包括GRU，所述多层注意力机制解码模块联合二维注意力机制和一维注意力机制对若干个尺度的字符特征进行融合的具体方法包括：

6.根据权利要求1所述的基于多尺度特征的场景文本识别方法，其特征在于，所述文本识别模型采用双向解码机制，即，所述文本识别模型包括一个从左向右识别的多层注意力机制解码模块和一个从右向左的多层注意力机制解码模块。

7.根据权利要求1所述的基于多尺度特征的场景文本识别方法，其特征在于，利用尺寸调整后的场景文本图像数据集对所述文本识别模型进行训练的具体方法包括：

8.根据权利要求7所述的基于多尺度特征的场景文本识别方法，其特征在于，通过带有词典的所述测试集对所述文本识别模型进行纠错的具体方法包括：