CN113343707B

CN113343707B - 一种基于鲁棒性表征学习的场景文本识别方法

Info

Publication number: CN113343707B
Application number: CN202110625864.2A
Authority: CN
Inventors: 明悦; 范春晓; 孙娟娟; 邓冠玉; 邓茜
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2022-04-08
Anticipated expiration: 2041-06-04
Also published as: CN113343707A

Abstract

本发明提供了一种基于鲁棒性表征学习的场景文本识别方法。该方法包括：将待识别的图像输入文本矫正网络，得到矫正图像；将矫正图像输入编码器，编码器利用坐标编码模块提取图像的空间纹理信息，利用上下文建模网络提取文本的语义建模特征，输出文本的语义建模特征给全局语义提取模块和解码器；全局语义提取模块对输入的文本的语义建模特征进行文本语义表征提取并输出给解码器；解码器根据接收的全局语义信息和文本的语义建模特征利用注意力机制进行串行分类预测，输出待识别的图像的文本识别结果。本发明通过文本表征网络和表征学习机制优化文本表征的提取和分布，有效提升文本识别中对于复杂背景干扰、多种字体风格与文本排布的鲁棒性。

Description

一种基于鲁棒性表征学习的场景文本识别方法

技术领域

本发明涉及图像识别技术领域，尤其涉及一种基于鲁棒性表征学习的场景文本识别方法。

背景技术

场景文本识别(Scene TextRecognition,STR)是计算机视觉中的热门领域，皆在解决图像中的文本识别问题。随着深度学习技术和硬件水平的发展，文本识别技术得到了显著进步，在简单场景中的准确度已达可用的水准。而自然场景中的文本可能具有非水平的排布，如倾斜、竖直、弯曲、透视等形式，且拍摄角度也会引起文本行排布的形变。不规则文本在自然场景中的频繁出现，对系统的检测和识别性能提出了挑战，需要研究者合理设计算法以应对任意排布的文本。近年来已出现大量的研究，专注于解决不规则文本的检测和识别问题。然而这些方法的性能尚未达到实用的程度，仍有如下的问题难以解决。

文本识别技术能够提高日常生活工作的生产效率，有重要的实用价值。然而现有方法仍难以解决特定的问题，远达不到实用的程度。为了推动识别技术的发展，提高生产力水平，需要对上述问题进行深入研究，提出合理的解决方案。

场景文本识别的目标是识别图像中的文本，是理解图像的前提。文本识别模型的输入为裁剪过的文本图像，可以通过文本检测步骤得到。在场景文本识别中，一方面的挑战来自于复杂场景的干扰，如光照遮挡、成像质量差和背景噪声等；另一方面的挑战是文本外观的多样性，如丰富的字体种类、不规则的文本排布等。

传统的场景文本识别解决方案通常为基于字符识别的方法和整词识别方法。基于字符识别的方法需要实现字符的分割与分类，识别准确率受分割结果的影响较大，而且需要字符标注作为监督，训练成本高。整词识别方法直接预测单词类别，但会面临词典过大和计算耗时高的问题，阻碍了传统方法的推广。

近年来的文本识别方法使用深度学习技术实现，取得了巨大的突破。为了避免字符分割问题，现有的方法通常把文本识别看作是序列识别任务：首先将输入图像的深度特征序列化，然后通过设计算法完成特征序列与标签序列的对齐，得到识别结果。链接时序分类(Connectionist Temporal Classification,CTC)和注意力机制(AttentionMechanism)能将输入序列转换为另一个序列，可实现任意长度的序列对齐，在语音识别、自然语言处理等序列识别的任务上得到了广泛运用。于是，近年来的文本识别方法多数采用CTC或者注意力机制来实现。

为了应对场景文本的排布多样性，识别弯曲、形变的文本行，近年来的研究者设计了不规则文本矫正算法，用于把非水平文本行矫正为接近水平的排布，将复杂的问题转换为更容易解决的规则文本识别问题。因此，基于矫正的文本识别算法在典型的文本识别网络的基础上，增加了文本矫正算法模块：先矫正输入的不规则文本行，得到规则的文本行后再进行文本识别。

可以将近年的文本识别方法粗略地分为如下三类：(1)基于链接时序分类的方法(CTC-based method)；(2)基于注意力机制的方法(Attention-based method)；(3)基于矫正的方法(Rectification-basedmethod)。

现有技术中的一种不规则场景文本识别方法包括：采用基于矫正的场景文本识别网络，包括一个校正网络和一个识别网络，代表网络为ASTER(Attentional Scene TextRecognizer)。校正网络自适应地将输入图像转换成新的图像，校正其中的文本。它由灵活的薄板样条变换进行操作，该变换处理各种文本不规则性，并且在没有人工注释的情况下进行训练。识别网络是一种基于注意力机制的序列对序列模型，它直接从校正后的图像中预测字符序列。其主要算法流程包括如下的处理步骤为：

文本矫正，校正网络用预测的2D变换来校正输入图像。采用薄板样条(Thin-Plate-Spline，TPS)作为变换。TPS在图像变换和匹配方面有着广泛的应用。与其他更简单的2D变换(如仿射变换和投影变换)相比，它更加灵活。TPS对图像进行非刚性变形，处理各种变形。矫正网络基于空间变换网络(Spatial Transformer Network，STN)，STN的中心思想是将空间转换建模为可学习的网络层。

编码器，由卷积循环神经网络组成。编码器首先从具有一堆卷积层的输入图像中提取特征图。卷积层(“ConvNet”)的设计使得特征图的高度为1。接下来，通过沿其纵轴分割，将特征图转化为特征序列。

解码器，由基于注意力机制的序列到序列模型组成。序列到序列模型将特征序列转换成字符序列。它能够输入和输出任意长度的序列。使用基于注意序列对序列模型构建解码器，因为它可以在每个解码步骤访问编码器输出，并且具有直观和可解释的行为，使得调试和分析更加容易。注意序列对序列模型是单向循环网络。它对T个步骤进行迭代，产生长度为T的符号序列，用(y₁，···，y_T)表示。

上述现有技术中的第一种不规则场景文本识别方法的缺点为：

1.编码器-解码器是基于局部视觉特征，而没有明确的全局语义信息。此类方法文本识别任务定义为局部的序列字符分类任务，而忽略了整个单词的全局信息。难以处理低质量的图像，如图像模糊、遮挡和不完整的字符。

2.识别算法泛化能力较差。由于现有训练数据的不充分性，缺少复杂场景下的文本图片样本，模型难以学习到有代表性的文本表征，识别鲁棒性一般，在复杂场景中的识别准确率下降。

3.模型的文本表征能力得不到优化。现有文本识别方法无法优化所学特征的分布，导致文本表征的代表性依赖于数据分布的好坏，算法灵活性较差。导致文本识别的鲁棒性存在问题。

发明内容

本发明提供了一种基于鲁棒性表征学习的场景文本识别方法，以实现有效地对图像场景进行文本识别。

为了实现上述目的，本发明采取了如下技术方案。

一种基于鲁棒性表征学习的场景文本识别方法，包括：

将待识别的图像输入文本矫正网络，所述文本矫正网络对图像进行不规则文本矫正处理，得到矫正图像；

将所述矫正图像输入编码器，所述编码器利用坐标编码模块提取图像的空间纹理信息，利用上下文建模网络提取文本的语义建模特征，输出文本的语义建模特征给全局语义提取模块和解码器；

所述全局语义提取模块对输入的文本的语义建模特征进行文本语义表征提取，输出全局语义信息给解码器；

所述解码器根据接收的全局语义信息和文本的语义建模特征利用注意力机制进行串行分类预测，输出所述待识别的图像的文本识别结果。

优选地，所述的将所述矫正图像输入编码器，所述编码器利用坐标编码模块提取图像的空间纹理信息，包括：

将矫正图像输入编码器中的文本表征网络中的坐标编码模块，所述坐标编码模块使用坐标卷积实现，置于编码器的输入端，编码了输入像素的空间位置信息，坐标编码模块的处理过程如公式(1)所示：

I_c＝Concat(I_r，I_m) (1)

其中I_r表示输入图像，具有三个通道，I_m表示空间位置编码信息，具有两个通道，Concat(·)表示拼接操作，将输入的两张图像在通道维度上叠加，实现空间编码信息和原始图像信息的融合，坐标编码模块的输出用I_c表示，具有五个通道，包含了原始图像和编码信息，该原始图像和编码信息组成了图像的空间纹理信息；

I_m的编码方式用公式(2)和公式(3)表示：

I_m(0,x,y)＝x/W，x∈[0，W)，y∈[0，H) (2)

I_m(1,x,y)＝y/H，x∈[0，W)，y∈[0，H) (3)

其中H和W分别表示输入图像的高与宽，x和y表示当前的空间坐标位置，图像左上角坐标为(0，0)，图像右下角的坐标为(W-1,H-1)；

坐标编码模块输出图像的空间位置编码信息给主干网络。

优选地，所述的利用上下文建模网络提取文本的语义建模特征，输出文本的语义建模特征给全局语义提取模块和解码器，包括：

所述编码器利用空间嵌入模块根据图像和图像的空间纹理信息对图像依次进行特征重组操作和通道压缩操作，特征重组操作将高分辨率的空间语义信息嵌入特征图的通道中，使用通道压缩操作减少卷积通道的数量，所述特征重组操作和通道压缩操作分别用公式(4)和公式(5)表示：

f_Seq＝Reshape(f_I) (4)

f_Reduce＝Conv1(f_Seq) (5)

其中f_I表示输入的特征图，具有C×(H/4)×(W/4)的尺寸，C为通道数，Reshape(·)表示特征重组操作，f_Seq表示重组后的特征图，具有(C×H/4)×1×(W/4)的尺寸，即将f_I在高度上的信息重组到通道中，最终高度被降至1，而通道数提高到C×H/4。f_Reduce表示经过通道压缩后的特征图，是编码器的实际输出，具有(C×H/8)×1×(W/4)的尺寸，通道数是f_Seq的一半，Conv1(.)表示感受野为1×1的卷积层，用于实现压缩操作；

主干网络根据重组和压缩后的特征图得到特征向量序列，编码器中的上下文建模网络根据主干网络输出的特征向量序列，融合序列中相邻向量的语义信息，得到文本的语义建模特征，即编码器的输出，将文本的语义建模特征输入到解码器。

优选地，所述的全局语义提取模块对输入的文本的语义建模特征进行文本语义表征提取，输出全局语义信息给解码器，包括：

全局语义提取模块从文本的语义建模特征中学习文本的词义表示，即全局语义信息，并将全局语义信息输入到解码器；

全局语义提取模块由两个全连接层组成，从编码器输出的文本的语义建模特征I中预测全局的语义信息，用公式(11)表示：

S_alobal＝W₂σ(W₁I+b₁)+b₂ (11)

其中S_global表示预测的全局语义信息，σ是ReLU激活函数，W₁和W₂分别表示两组全连接层的权重，b₁和b₂分别表示两组全连接层的偏置，I表示编码器的文本的语义建模特征。

优选地，所述的解码器根据接收的全局语义信息和文本的语义建模特征利用注意力机制进行串行分类预测，输出所述待识别的图像的文本识别结果，包括：

解码器使用注意力对齐模块实现，将得到的全局语义信息作为解码器GRU单元的初始状态，根据全局语义信息进行特征对齐，结合表征学习目标函数时将全局和局部的语义信息整合到解码过程中，解码器根据全局语义信息和文本的语义建模特征串行地预测图像中的字符，根据图像中的字符得到所述待识别的图像的文本识别结果，根据损失值对图像的文本识别结果进行评估；

使用解码器定位局部的文本特征

然后使用循环神经网络进行上下文语义建模，所得的特征向量m_i被用于计算损失值，用公式(8)表示：

其中GRU表示循环神经网络，其根据前一次的预测p^t-1、隐藏状态s^t-1以及当前注意力机制对齐的特征向量

来计算出当前t时刻的语义特征

蕴含了文本表征的空间信息，来自于编码器的输出结果，

是解码器中循环神经网络的语义建模结果，蕴含文本表征的上下文语义信息，是用于最后预测的特征向量；

总的损失值由两个目标函数求和得到，如公式(9)和公式(10)所示：

L_total＝L_CrossEntropy+γL_SeqCenter (9)

将表征学习损失L_SeqCenter称为序列化中心损失，用于控制L_SeqCenter占总损失值的比例。

由上述本发明的实施例提供的技术方案可以看出，本发明通过文本表征网络和表征学习机制优化文本表征的提取和分布，从有限的数据中获得有代表性的文本特征，有效提升文本识别中对于复杂背景干扰、多种字体风格与文本排布的鲁棒性。本发明提出了基于坐标编码的文本表征网络，运用坐标编码模块和空间嵌入模块提供更丰富的文本笔画和空间语义信息，增强了模型的文本笔画描述能力。该种特征提取方法能够感知字符笔画像素的空间分布，具有较好的不变性和鲁棒性。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提出的一种基于鲁棒性表征学习的场景文本识别方法的实现原理图；

图2为本发明实施例提出的一种基于鲁棒性表征学习的场景文本识别方法的处理流程图；

图3为本发明实施例提供的一种基于坐标编码的文本表征网络的处理过程示意图。

具体实施方式

下面详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于对本发明实施例的理解，下面将结合附图以几个具体实施例为例做进一步的解释说明，且各个实施例并不构成对本发明实施例的限定。

本发明实施例专注于解决复杂场景下的文本识别鲁棒性问题，皆在推进本领域前沿技术的发展和落地，具有重要的意义。

为了提高场景文本识别算法的文本表征能力，缓解由数据不充分引起的识别鲁棒性较差的问题，本发明实施例提出了一种基于鲁棒性表征学习的场景文本识别方法。首先，设计了基于坐标编码的文本表征网络，用于提取图像的空间纹理信息，增强模型的文本笔画描述能力；然后，提出了文本表征学习目标函数，将类别相关性信息引入到模型训练的过程中，优化文本表征的一致性和区分性。此外还使用全局语义信息指导解码，建模文本语义。通过设计多组对比实验验证了本发明提出的算法能够增强文本表征的代表性，提高了模型在复杂场景下的识别准确率。

本发明可以应用于场景文本检测及识别任务中。如：在机器导航中，检测并识别路标上的信息，选择正确的路线；在场景理解中，根据广告牌或者海报等信息，判断场景信息；在图像检索中，根据图片上出现的文本信息对其进行归类整理。

本发明实施例提出的一种基于鲁棒性表征学习的场景文本识别方法的实现原理图如图1所示，首先设计了基于坐标编码的文本表征网络，用于优化文本表征的提取，然后提出表征学习目标函数，在训练中约束语义特征的分布，学习更有代表性的文本表征，并且使用全局语义信息指导解码，建模文本语义。

本发明实施例提出的一种基于鲁棒性表征学习的场景文本识别方法的处理流程图如图2所示，包括如下的处理步骤：

步骤S210、将待识别的图像输入文本矫正网络，文本矫正网络对图像进行不规则文本矫正处理，得到矫正图像；

步骤S220、将矫正图像输入文本表征网络，所示文本表征网络利用坐标编码模块提取图像的空间纹理信息，利用空间嵌入模块提取图像的文本空间语义信息，文本表征网络输出图像的重组和压缩后的特征图给全局语义提取模块以及解码器；

步骤S230、全局语义提取模块对输入的重组和压缩后的特征图进行文本语义表征提取，输出全局语义信息给解码器；

步骤S240、解码器根据接收的全局语义信息以及文本表征输出的特征，利用注意力机制进行串行分类预测，输出所述待识别的图像的文本识别结果。在训练阶段，表征学习目标函数作用于解码器分类所依据的文本特征，约束其类间一致性。

完整的文本识别算法包括三个主要步骤：(1)不规则文本矫正；(2)图像特征提取；(3)解码器串行预测。

所提出的文本表征网络对应图像特征提取步骤，具有坐标编码模块与空间嵌入模块，分别提供图像的空间纹理信息和文本的空间语义信息，增强网络的文本笔画描述能力；表征学习目标函数作用于解码器的推理阶段，优化局部文本表征的代表性；全局语义提取模块改进了编、解码器之间的联系，通过提取全局语义信息指导解码对齐，建模完整的文本语义。通过上述算法的共同作用，最终增强在复杂场景下的识别鲁棒性。

基于坐标编码的文本表征网络

图3为本发明实施例提供的一种基于坐标编码的文本表征网络的处理过程示意图，基于坐标编码的文本表征网络用来增强模型的文本笔画描述能力。所提出的算法在典型文本识别编码器结构的基础上，设计了坐标编码模块(Coordinate Encoding Module，CEM)与空间嵌入模块(Spatial Embedding Module，SEM)。

坐标编码模块使用坐标卷积实现，置于编码器的输入端，编码了输入像素的空间位置信息。公式(1)表示坐标编码模块的处理步骤：

I_c＝Concat(I_r,I_m) (1)

其中I_r表示的输入图像，具有三个通道。I_m表示空间位置编码信息，具有两个通道。Concat(·)表示拼接操作，将输入的两张图像在通道维度上叠加，实现空间编码信息和原始图像信息的融合。坐标编码模块的输出用I_c表示，具有五个通道，包含了原始图像和编码信息，该原始图像和编码信息组成了图像的空间纹理信息，用于输入后续的卷积层。

I_m的编码方式可用公式(2)和公式(3)表示：

I_m(0，x，y)＝x/W，x∈[0，W)，y∈[0，H) (2)

I_m(1，x，y)＝y/H，x∈[0，W)，y∈[0，H) (3)

其中H和W分别表示输入图像的高与宽，x和y表示当前的空间坐标位置，规定图像左上角坐标为(0，0)，图像右下角的坐标为(W-1，H-1)。因此编码值仅受输入图像的宽高值影响，最终用[0,1]区间内的连续值表示，提供了像素位置的相对关系，可以指导建模文本的笔画信息。另外，本发明将坐标编码模块同样置于文本矫正网络的输入端，提供对文本矫正的训练指导。坐标编码模块输出图像的空间位置编码信息给主干网络。

主干网络采用注意力的文本识别(ASTER)中的结构，但下采样倍数从[32，4]减小到[4，4]，因此具有更高的输出分辨率，空间语义信息也更丰富。为了减少解码器的计算开销，本发明为编码器的输出层添加了空间嵌入模块(SEM)，将二维的文本表征嵌入到一维的通道序列中，再输入后续的解码识别步骤。

图3描述了空间嵌入模块的细节，包括对坐标编码模块输入的原始特征图进行特征重组和通道压缩两项操作。特征重组操作替代了一般的下采样操作，将高分辨率的空间语义信息嵌入特征图的通道中，在不丢失语义信息的条件下降低了特征的空间分辨率。最后使用通道压缩操作减少卷积通道的数量，降低基本的计算量。重组和压缩操作可以分别用公式(4)和公式(5)表示：

f_Seq＝Reshape(f_I) (4)

f_Reduce＝Conv1(f_Seq) (5)

其中f_I表示输入的特征图，具有C×(H/4)×(W/4)的尺寸，C为通道数。f_I同时保留了宽度和高度上的分辨率(非全部为1)。Reshape(·)表示特征重组操作。f_Seq表示重组后的特征图，具有(C×H/4)×1×(W/4)的尺寸，即将f_I在高度上的信息重组到通道中，最终高度被降至1，而通道数提高到C×H/4。f_Reduce表示经过通道压缩后的特征图，是编码器的实际输出，具有(C×H/8)×1×(W/4)的尺寸，通道数是f_Seq的一半。Conv1(·)表示感受野为1×1的卷积层，用于实现压缩操作。

综上，坐标编码模块为网络的输入增加了像素的空间位置信息，提供了描述文本笔画的能力，指导模型学习文本表征。空间嵌入模块用于减少计算量，并保留空间语义信息，为后续的预测阶段提供更丰富的文本空间语义。

基于编解码器的表征学习目标函数。

为了提高模型的泛化性能，本发明实施例提出了一种基于编码器-解码器模型的表征学习目标函数，约束文本表征的一致性和区分性。因此，本发明实施例的解码器中的文本识别模型使用两种损失函数来训练：首先使用交叉熵目标函数优化字符分类的判别平面，然后使用表征学习目标函数进一步优化文本表征的分布。其中交叉熵目标函数同时优化了特征向量的角度与长度，可用公式(6)表示：

其中T_p表示预测次数，B表示同一批次(batch)中的样本总数。tag_i，j为正确预测的标志位，当预测正确时置1，否则置0。p_i，j表示模型的预测

在交叉熵损失的基础上，对特征向量的长度与角度进行约束，优化特征空间的一致性，从而获取鲁棒的文本表征。采用中心损失(CenterLoss)来实现，如公式(7)所示：

其中N_batch为总的样本数量，包括同一批次中的所有预测结果。m_i为第i个样本的特征，

为m_i对应的类别中心，在训练中会自动更新。Dist(·)为距离度量函数，本章采用欧式距离。

本发明借助解码器的特征对齐机制改进了原始的CenterLoss，使其能够适用于文本识别任务。具体来说，首先使用解码器定位局部的文本特征

然后使用循环神经网络进行上下文语义建模，所得的特征向量m_i被用于计算损失值，可用公式(8)表示：

来计算出当前t时刻的语义特征

蕴含了文本表征的空间信息，来自于编码器的输出结果，而

是解码器中循环神经网络的语义建模结果，蕴含文本表征的上下文语义信息。尽管空间表征

也可用于损失值的计算，但其语义建模能力较弱，而

是用于最后预测的特征向量，因此使用

计算损失值可以最直接地约束特征角度和长度，从而影响识别鲁棒性。

L_total＝L_CrossEntropy+γL_SeqCenter (9)

其中本发明将表征学习损失L_SeqCenter称为序列化中心损失(SeqCenterLoss)，适用于基于编码器解码器的序列识别场景。用于控制L_SeqCenter占总损失值的比例。

综上，序列化中心损失从空间距离方面约束了解码器输出的文本表征分布，增强了特征向量的语义一致性和区分性，可认为其优化了每个局部文本表征的代表性。

全局语义提取模块

由于文本识别的解码器根据输入的语义信息实现特征对齐，有效且充分的语义信息能够缓解复杂场景的干扰，因此解码器的输入信息对于识别鲁棒性的提升有重要作用。在语义增强编解码器(Semantics Enhanced Encoder Decoder，SEED)中提出了全局语义提取思想，本发明也使用全局语义提取模块(Global SemanticsExtraction Module，GSEM)来指导解码预测，并结合本发明提出的表征学习目标函数，同时从全局语义和局部语义两方面来优化文本表征的提取。

全局语义提取模块由两个全连接层组成，从编码器输出的文本的语义建模特征I中预测全局的语义信息，可以用公式(11)表示：

S_global＝W₂σ(W₁I+b₁)+b₂ (II)

其中S_global表示预测的全局语义信息，σ是ReLU激活函数，W₁和W₂分别表示两组全连接层的权重(Weights)，b₁和b₂分别表示两组全连接层的偏置(bias)，I表示编码器的文本的语义建模特征。

全局语义提取模块从文本的语义建模特征中学习文本的词义表示，即全局语义信息，并将全局语义信息输入到解码器。

解码器使用注意力对齐模块实现，根据全局语义信息和文本的语义建模特征串行地预测图像中的字符。将得到的全局语义信息作为解码器GRU单元的初始状态，网络便可进行解码步骤。在之后的解码过程中，解码器将根据全局的语义信息指导特征对齐，相比不使用全局语义的情况，解码器可以获得更多的语义先验，受背景干扰的影响更小，当结合表征学习目标函数时，则能将全局和局部的语义信息整合到解码过程中，增强在复杂场景下的识别鲁棒性。

综上所述，本发明实施例解决了现有大多数场景文本识别算法中无法解决的4个问题：

1.样本数目不足的问题。本发明通过文本表征网络和表征学习机制优化文本表征的提取和分布，从有限的数据中获得有代表性的文本特征，有效提升文本识别中对于复杂背景干扰、多种字体风格与文本排布的鲁棒性。

2.文本表征的提取问题。本发明提出了基于坐标编码的文本表征网络，运用坐标编码模块和空间嵌入模块提供更丰富的文本笔画和空间语义信息，增强了模型的文本笔画描述能力。该种特征提取方法能够感知字符笔画像素的空间分布，具有较好的不变性和鲁棒性。

3.有代表性的文本表征学习问题。本发明提出了基于编解码器的表征学习目标函数以及全局语义提取模块，在训练阶段引入类别相关性信息来帮助网络学习更有代表性的文本表征，起到梯度约束的作用，缓解训练数据的不充分性问题。在解码过程中还结合了全局语义信息，能够应对局部的模糊和遮挡等干扰，增强了模型的识别鲁棒性，提高复杂场景下的识别准确率。

4.其次，模型在训练时不依赖高昂的字符标注信息，保持了识别算法的灵活性。为了提高场景文本识别算法的文本表征能力，缓解由数据不充分引起的识别鲁棒性较差的问题，本发明提出鲁棒性表征学习的场景文本识别算法(RobustRepresentation Learningfor Scene Text Recognition，RRLSTR)。首先，设计了基于坐标编码的文本表征网络，用于提取图像的空间纹理信息，增强模型的文本笔画描述能力；然后，提出了文本表征学习目标函数，将类别相关性信息引入到模型训练的过程中，优化文本表征的一致性和区分性。此外还使用全局语义信息指导解码，建模文本语义。通过设计多组对比实验验证了本发明提出的算法能够增强文本表征的代表性，提高了模型在复杂场景下的识别准确率。

本领域普通技术人员可以理解：附图只是一个实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于鲁棒性表征学习的场景文本识别方法，其特征在于，包括：

所述解码器根据接收的全局语义信息和文本的语义建模特征利用注意力机制进行串行分类预测，输出所述待识别的图像的文本识别结果；

所述的将所述矫正图像输入编码器，所述编码器利用坐标编码模块提取图像的空间纹理信息，包括：

I_c＝Concat(I_r,I_m) (1)

I_m的编码方式用公式(2)和公式(3)表示：

I_m(0,x,y)＝x/W，x∈[0，W)，y∈[0，H) (2)

I_m(1,x,y)＝y/H，x∈[0，W)，y∈[0，H) (3)

坐标编码模块输出图像的空间位置编码信息给主干网络。

2.根据权利要求1所述的方法，其特征在于，所述的利用上下文建模网络提取文本的语义建模特征，输出文本的语义建模特征给全局语义提取模块和解码器，包括：

f_Seq＝Reshape(f_I) (4)

f_Reduce＝Conv1(f_Seq) (5)

其中f_I表示输入的特征图，具有C×(H/4)×(W/4)的尺寸，C为通道数，Reshape(·)表示特征重组操作，f_Seq表示重组后的特征图，具有(C×H/4)×1×(W/4)的尺寸，即将f_I在高度上的信息重组到通道中，最终高度被降至1，而通道数提高到C×H/4，f_Reduce表示经过通道压缩后的特征图，是编码器的实际输出，具有(C×H/8)×1×(W/4)的尺寸，通道数是f_Seq的一半，Conv1(·)表示感受野为1×1的卷积层，用于实现压缩操作；

3.根据权利要求1所述的方法，其特征在于，所述的全局语义提取模块对输入的文本的语义建模特征进行文本语义表征提取，输出全局语义信息给解码器，包括：

S_global＝W₂σ(W₁I+b₁)+b₂ (11)

4.根据权利要求1所述的方法，其特征在于，所述的解码器根据接收的全局语义信息和文本的语义建模特征利用注意力机制进行串行分类预测，输出所述待识别的图像的文本识别结果，包括：

使用解码器定位局部的文本特征

来计算出当前t时刻的语义特征

蕴含了文本表征的空间信息，来自于编码器的输出结果，

L_total＝L_CrossEntropy+γL_SeqCenter (9)