CN113762241A

CN113762241A - 场景文字识别模型的训练方法与识别方法及装置

Info

Publication number: CN113762241A
Application number: CN202111028327.6A
Authority: CN
Inventors: 彭良瑞; 石浩东; 闫睿劼; 王生进
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-12-07

Abstract

本申请实施例提供一种场景文字识别模型的训练方法与识别方法及装置。场景文字识别模型的训练方法包括：获取样本图像；将样本图像输入场景文字识别模型，得到样本图像对应的预测文字和文字几何形状信息的预测特征图；根据预测文字、文字几何形状信息的预测特征图、样本图像对应的目标文字以及文字几何形状信息的目标图，计算总损失函数，并利用总损失函数最小化调整场景文字识别模型的参数，得到满足收敛条件的场景文字识别模型；其中文字几何形状信息包括前景掩膜以及字符轮廓中的至少一种。本申请对具有复杂背景的场景文字具有较好的识别效果。

Description

场景文字识别模型的训练方法与识别方法及装置

技术领域

本申请涉及信息处理技术领域，尤其涉及一种场景文字识别模型的训练方法与识别方法及装置。

背景技术

场景文字识别是光学字符识别(OCR，Optical Character Recognition)领域一个研究方向。近年来，随着机器人、自动驾驶汽车、移动计算等相关研究对视觉感知的需求日益增长，场景文字识别日益成为一个重要的研究课题。由于场景文字在背景、内容、风格、方向以及图像质量上的差异很大，如何找到场景文字图像的内在表征，从而对场景文字进行正确的识别是一项有挑战的研究内容。

目前主流的场景文字识别方法是基于序列建模的方法，这种方法通常利用卷积神经网络进行图像特征提取，再利用长短时记忆网络为代表的循环神经网络进行序列建模，得到对应的识别模型，采用该识别模型对场景文字进行识别，但这种方法对具有复杂背景的文字识别效果差。

发明内容

本申请提供一种场景文字识别模型的训练方法与识别方法及装置，以解决现有技术提供的模型对具有复杂背景的文字识别效果差的问题。

第一方面，本申请实施例提供一种场景文字识别模型的训练方法，包括：获取样本图像；将样本图像输入场景文字识别模型，得到样本图像对应的预测文字和文字几何形状信息的预测特征图；根据预测文字、文字几何形状信息的预测特征图、样本图像对应的目标文字以及文字几何形状信息的目标图，计算场景文字识别模型对应的总损失函数，并采用总损失函数调整场景文字识别模型的参数，得到满足收敛条件的场景文字识别模型；其中，场景文字识别模型包括：卷积神经网络、文字几何形状信息的预测模块、特征融合模块和编码器-解码器，卷积神经网络用于对样本图像的归一化图像进行特征提取得到原始特征图和至少一个中间特征图，文字几何形状信息的预测模块用于对至少一个中间特征图进行文字几何形状信息预测，得到文字几何形状信息的预测特征图；特征融合模块用于对原始特征图与预测特征图进行特征融合处理得到特征融合图，编码器-解码器用于对特征融合图进行编码处理，并对编码得到的结果进行解码处理，得到预测文字；文字几何形状信息包括前景掩膜以及字符轮廓中的至少一种。

一种可能的实施方式中，将样本图像输入场景文字识别模型，得到样本图像对应的预测文字和文字几何形状信息的预测特征图，包括：将样本图像的归一化图像输入至卷积神经网络，输出原始特征图和至少一个中间特征图；将至少一个中间特征图输入文字几何形状信息的预测模块，得到文字几何形状信息的预测特征图；将原始特征图与文字几何形状信息的预测特征图特征融合处理，得到特征融合图；将特征融合图输入编码器-解码器，得到预测文字。

一种可能的实施方式中，卷积神经网络包括：A个依次排布的卷积块、B个依次排布的第一上采样单元和第一子卷积层；将样本图像的归一化图像输入至卷积神经网络，输出原始特征图和至少一个中间特征图，包括：将归一化图像输入A个卷积块中的第一个卷积块，得到至少一个卷积块输出的中间特征图，其中，第a个卷积块输出的第a个中间特征图为第a+1个卷积块的输入，a依次取1,2，……，A-1；将第A个卷积块输出的第A个中间特征图，输入第一个第一上采样单元，得到第B个第一上采样单元输出的第一特征图，其中，第c个中间特征图在卷积后，与第b个第一上采样单元输出相加作为第b+1个第一上采样单元的输入，b依次取1,2，……，B-1，c大于1且小于A；第d个中间特征图在卷积后，与第一特征图相加后输入第一子卷积层，得到第一子卷积层的输出为原始特征图，d小于c。

一种可能的实施方式中，文字几何形状信息的预测模块包括第一神经网络，第一神经网络包括：E个第二上采样单元和第二子卷积层；将至少一个中间特征图输入文字几何形状信息的预测模块，得到文字几何形状信息的预测特征图，包括：将第A个中间特征图，输入至第1个第二上采样单元，得到第E个第二上采样单元输出的第二特征图，其中，第c个中间特征图在卷积后，与第e个第二上采样单元的输出相加作为第e+1个第二上采样单元的输入，e依次取1,2，……，E-1；将第二特征图输入第二子卷积层，得到文字几何形状信息的预测特征图，文字几何形状信息的预测特征图为前景掩膜的预测特征图F_u。

一种可能的实施方式中，文字几何形状信息的预测模块包括第二神经网络，第二神经网络包括：F个第三上采样单元、第三子卷积层和第二池化层；将至少一个中间特征图输入文字几何形状信息的预测模块，得到文字几何形状信息的预测特征图，还包括：

将第A个中间特征图，输入至第1个第三上采样单元，得到第F个第三上采样单元输出的第三特征图，其中，第c个中间特征图卷积后，与第f个第二上采样单元的输出相加作为第f+1个第二上采样单元的输入，或第f个第二采样单元的输出与第e个第二采样单元的输入相加后作为第f+1个第二上采样单元的输入，f依次取1,2，……，f-1；将第二特征图依次经过第三子卷积层和第二池化层处理后得到字符轮廓的预测特征图F_v。

一种可能的实施方式中，场景文字识别模型还包括：第一池化层和第二池化层；将原始特征图与文字几何形状信息的预测特征图特征融合处理，得到特征融合图，包括：将掩膜前景的预测特征图F_u输入第一池化层，得到缩小后的掩膜前景的预测特征图F_u'；将字符轮廓的预测特征图F_v输入第二池化层，得到缩小后的字符轮廓的预测特征图F_v'；采用以下公式得到特征融合图：

F＝F_CNN×(1+λ_uF_u'+λ_vF_v')

其中，F为特征融合图，F_CNN为原始特征图，F_u'为前景掩膜的预测输出，F_v'为字符轮廓的预测输出，λ_u和λ_v为线性加权系数，若文字几何形状信息为前景掩膜，则λ_v为0，若文字几何形状信息为前景掩膜，λ_u为0。

一种可能的实施方式中，根据预测文字、文字几何形状信息的预测特征图、样本图像对应的目标文字以及文字几何形状信息的目标图，调整场景文字识别模型的参数，包括：根据文字几何形状信息的预测特征图和文字几何形状信息的目标图，确定文字几何形状信息的预测模块对应的第一损失函数；根据预测文字和目标文字，确定解码器的第二损失函数；根据第一损失函数和第二损失函数确定总损失函数；采用总损失函数对场景文字识别模型进行调参，得到满足收敛条件的场景文字识别模型。

一种可能的实施方式中，采用下式确定第一损失函数；

L₁＝μ_mL_m+μ_nL_n；

其中，L₁为第一损失函数，L_m为第一神经网络对应的损失函数，L_n为第二神经网络对应的损失函数，L_m/n为第一神经网络对应的损失函或第二神经网络对应的损失函数，μ_m和μ_n为线性加权系数，若文字几何形状信息为前景掩膜，则μ_n为0，若文字几何形状信息为前景掩膜，μ_m为0，M为文字几何形状信息的预测特征图对应的高，N为文字几何形状信息的预测特征图对应的宽，p_ij为文字几何形状信息的预测特征图第i行，第j列的像素值，q_ij为文字几何形状信息的目标图第i行，第j列的像素值。

一种可能的实施方式中，采用下式确定第二损失函数；

其中，L₂表示第二损失函数，r表示解码器的解码的两个方向，T_de表示序列长度，I表示表示输入的文本图像，y_t为对应的目标文字。

一种可能的实施方式中，采用下式确定总损失函数：

其中，L为总损失函数，L₁为第一损失函数，L₂为第二损失函数。

第二方面，本申请实施例提供一种场景文字识别方法，应用于采用上述任一项场景文字识别模型的训练方法得到的场景文字识别模型，场景文字识别方法，包括：获取待识别图像；将待识别图像输入场景文字识别模型，得到预测场景文字。

第三方面，本申请实施例提供一种场景文字模型的训练装置，包括：

获取模块，用于获取样本图像；

处理模块，用于将样本图像输入场景文字识别模型，得到样本图像对应的预测文字和文字几何形状信息的预测特征图；

调整模块，用于根据预测文字、文字几何形状信息的预测特征图、样本图像对应的目标文字以及文字几何形状信息的目标图，计算场景文字识别模型对应的总损失函数，并利用总损失函数最小化调整场景文字识别模型的参数，得到满足收敛条件的场景文字识别模型；

其中，场景文字识别模型包括：卷积神经网络、文字几何形状信息的预测模块、特征融合模块和编码器-解码器，卷积神经网络用于对样本图像的归一化图像进行特征提取得到原始特征图和至少一个中间特征图，文字几何形状信息的预测模块用于对至少一个中间特征图进行文字几何形状信息预测，得到文字几何形状信息的预测特征图；特征融合模块用于对原始特征图与预测特征图进行特征融合处理得到特征融合图，编码器-解码器用于将对特征融合图进行编码处理，并对编码得到的结果进行解码处理，得到预测文字；文字几何形状信息包括前景掩膜以及字符轮廓中的至少一种。

第四方面，本申请实施例提供一种场景文字识别装置，应用于采用上述的场景文字识别模型的训练装置得到的场景文字识别模型，场景文字识别装置，包括：

获取模块，用于获取待识别图像；

处理模块，用于将待识别图像输入场景文字识别模型，得到预测场景文字。

第五方面，本申请实施例提供一种电子设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如第一方面或第二方面中任一项的方法。

第六方面，本申请实施例提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当计算机程序在电子设备上运行时，使得电子设备执行如第一方面或第二方面中任一项的方法。

第七方面，本申请实施例提供一种计算机程序产品，包括计算机程序，该计算机程序在电子设备上运行时，使得电子设备执行如第一方面或第二方面中任一项的方法。

本申请实施例提供的场景文字识别模型的训练方法与识别方法及装置，场景文字识别模型的训练方法包括：获取样本图像；将样本图像输入场景文字识别模型，得到样本图像对应的预测文字和文字几何形状信息的预测特征图；根据预测文字、文字几何形状信息的预测特征图、样本图像对应的目标文字以及文字几何形状信息的目标图，调整场景文字识别模型的参数，得到满足收敛条件的场景文字识别模型；其中，场景文字识别模型包括：卷积神经网络、文字几何形状信息的预测模块、特征融合模块和编码器-解码器，卷积神经网络用于对样本图像的归一化图像进行特征提取得到原始特征图和至少一个中间特征图，文字几何形状信息的预测模块用于对至少一个中间特征图进行文字几何形状信息预测，得到文字几何形状信息的预测特征图；特征融合模块用于对原始特征图与预测特征图进行特征融合处理得到特征融合图，编码器-解码器用于将对特征融合图进行编码处理，并对编码得到的结果进行解码处理，得到预测文字；文字几何形状信息包括前景掩膜以及字符轮廓中的至少一种。本申请通过样本图像、样本图像对应的目标文字以及文字几何形状信息的目标图，训练得到对应的场景文字识别模型，能够对不规则的场景文字进行准确的识别，具有较高的识别效果。

本申请的这些和其它方面在以下(多个)实施例的描述中会更加简明易懂。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请提供的场景文字识别模型的训练方法的应用场景示意图；

图2为本申请一实施例提供的场景文字识别模型的训练方法的流程示意图；

图3为本申请一实施例提供的场景文字识别模型的结构示意图；

图4为本申请一实施例提供的多个归一化图像的示意图；

图5为本申请一实施例提供的多个样本图像对应前景掩膜的目标图的示意图；

图6为本申请一实施例提供的多个样本图像对应字符轮廓的目标图的示意图；

图7为本申请另一实施例提供的场景文字识别模型的训练方法的流程示意图；

图8为本申请一实施例提供的卷积神经网络和文字几何形状信息的预测模块的示意图；

图9为本申请另一实施例提供的卷积神经网络和文字几何形状信息的预测模块的示意图；

图10为本申请一实施例提供的编码器的示意图；

图11为本申请一实施例提供的解码器的示意图；

图12为本申请一实施例提供的一种场景文字识别方法的步骤流程图；

图13为本申请一实施例提供的一种场景文字识别模型的识别结果示意图；

图14为本申请一实施例提供的一种场景文字识别模型的训练装置的结构框图；

图15为本申请一实施例提供的一种场景文字识别装置的结构框图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

其中，本申请实施例在一台具有单张NVIDIA Tesla V100 GPU的计算机实现，使用PyTorch(https://github.com/pytorch/pytorch)深度学习框架实现。

参照图1，为本申请提供的场景文字识别模型的训练方法的应用场景图，图1中，示出多个含有场景文字的场景图像，如图1中的(a1)至(a6)。其中，由于场景图像中的场景文字不规则、模糊或者和背景色重合等。采用基于分割的方法。对每个字符的位置和分类进行标注来识别这些场景文字，存在成本高的问题。而采用现有的文字识别模型识别这些场景图像中的场景文字，识别效果差。

针对上述应用场景，本申请提供一种场景文字识别模型的训练方法与识别方法及装置，能够基于样本图像，样本图像对应的目标文字和文字几何形状信息的目标图，训练得到能够准确识别场景文字的场景文字识别模型。

下面，通过具体实施例对本申请的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2为本申请一实施例提供的场景文字识别模型的训练方法的流程示意图。本申请实施例提供一种场景文字识别模型的训练方法，应用于场景文字识别模型的训练装置，该训练装置可以通过软件和/或硬件的方式实现。可选地，该场景文字识别模型的训练装置可以集成于服务器中，例如场景文字识别模型的训练装置为服务器中的芯片或电路；或者，该场景文字识别模型的训练装置为服务器。

如图2所示，该场景文字识别模型的训练方法包括如下步骤：

S201、获取样本图像。

其中，样本图像为预先存储的场景文字图像，如图1的场景文字图像，具体为RGB三通道的彩色图像。

此外，每个样本图像具有对应的预测文字和文字几何形状信息的预测特征图。

S202、将样本图像输入场景文字识别模型，得到样本图像对应的预测文字和文字几何形状信息的预测特征图。

其中，参照图3，为本申请提供的一种场景文字识别模型30的结构示意图，其中，该场景文字识别模型30包括：卷积神经网络31、文字几何形状信息的预测模块32、特征融合模块33和编码器-解码器34，卷积神经网络31用于对样本图像X的归一化图像进行特征提取得到原始特征图和至少一个中间特征图，文字几何形状信息的预测模块32用于对至少一个中间特征图进行文字几何形状信息预测，得到文字几何形状信息的预测特征图Z；特征融合模块33用于对原始特征图与预测特征图进行特征融合处理得到特征融合图，编码器-解码器34用于将对特征融合图进行编码处理，并对编码得到的结果进行解码处理，得到预测文字Y；文字几何形状信息包括前景掩膜以及字符轮廓中的至少一种。

此外，场景文字识别模型30还包括归一化处理模块(未示出)，归一化处理模块用于对输入场景文字识别模型30的样本图像进行归一化处理，得到归一化图像，然后将归一化图像输入卷积神经网络31进行后续的处理。

具体的，归一化处理包括：采用双线性插值的方法对输入的样本图像进行尺寸归一化，得到归一化图像。其中，归一化图像的宽度为W，归一化图像的高度为H。

示例性的，参照图4，为各样本图像归一化处理后得到的对应的多个归一化图像(b1)至(b14)均为对应的归一化图像。

在本申请实施例中，归一化图像的宽度W取256，高度H取64，通道数D为3，来示例性说明本申请。

进一步的，将得到的归一化图像输入卷积神经网络31得到原始特征图和至少一个中间特征图。其中，原始特征图为卷积神经网络31最终输出的特征图，示例性的，原始特征图的宽度W为32，高度H为8，通道数D为384。中间特征图是卷积神经网络在计算过程中的输出的特征图，示例性的，一中间特征图的宽度W为128，高度H为32，通道数D为24，再一中间特征图的宽度W为64，高度H为16，通道数D为32。

更进一步的，将中间特征图输入文字几何形状信息的预测模块32得到文字几何形状信息的预测特征图。文字几何形状信息的预测特征图包括：前景掩膜的预测特征图和/或字符轮廓的预测特征图。其中，前景掩膜是能够遮盖归一化图像中文字几何形状信息的掩膜图像。

然后，采用特征融合模块33对原始特征图与预测特征图进行特征融合处理，得到特征融合图。其中，特征融合处理具体为将原始特征图与前景掩膜的预测特征图加权特征融合，或者将原始特征图与字符轮廓的预测特征图加权特征融合，或者将原始特征图与前景掩膜的预测特征图以及字符轮廓的预测特征图加权特征融合。

最后，将特征融合图输入编码器-解码器34得到预测文字。具体的，编码器-解码器包括编码器和解码器，将特征融合图输入至编码器，得到了特征融合图对应的隐含表示H。将隐含表示H和样本图像对应的目标文字输入解码器，得到预测文字。

S203、根据预测文字、文字几何形状信息的预测特征图、样本图像对应的目标文字以及文字几何形状信息的目标图，计算场景文字识别模型对应的总损失函数，并利用总损失函数最小化调整场景文字识别模型的参数，得到满足收敛条件的场景文字识别模型。

其中，对于各样本图像的归一化图像如图4。示例性的，若样本图像的归一化图像为(b1)，则该样本图像对应的目标文字为core。若样本图像的归一化图像为(b2)，则该样本图像对应的目标文字为text。若样本图像的归一化图像为(b3)，则该样本图像对应的目标文字为INTELLIGENCE。

此处，参照图5和图6，为各样本图像对应的文字几何形状信息的目标图，其中图5为各样本图像对应的掩膜前景的目标图，图6为各样本图像对应的字符轮廓的目标图。示例性的，归一化图像为(b1)的样本图像对应的掩膜前景的目标图为(c1)，字符轮廓的目标图为(d1)。具体的对应关系分别为(bn，cn，dn)，其中n取2至13。

其中，图4至图6所示的样本图像的归一化图像、掩膜前景的目标图以及字符轮廓的目标图是用于训练场景文字识别模型的训练样本。具体的，本申请的训练样本可以是来自于100万张人工合成数据、提取的MJSynth和SynthText两个英文场景文字数据集、基于的MJSynth和SynthText两个英文场景文字数据集中文字内容和True Type字体生成的前景掩膜目标图和字符轮廓目标图。

在本申请实施例中，为了得到更好的训练效果，可以只采用图4至图6所示的训练样本对卷积神经网络和文字几何形状信息的预测模块进行训练，训练结束后，再加入对编码器-解码器的训练。

因此，在对场景文字识别模型的调参的过程中，可以采用文字几何形状信息的预测特征图和文字几何形状信息的目标图先对卷积神经网络和文字几何形状信息的预测模块进行调参。采用预测文字和样本图像对应的目标文字对解码器调参。

综上，在本申请实施例中，通过样本图像、样本图像对应的目标文字以及文字几何形状信息的目标图，训练得到对应的场景文字识别模型，能够对不规则的场景文字进行准确的识别，具有较高的识别效果。

如图7所示，为本申请另一实施例提供的场景文字识别模型的训练方法的流程示意图。该场景文字识别模型的训练方法具体包括如下步骤：

S701、获取样本图像。

该步骤的具体实现方式参数S201，在此步再赘述。

S702、将样本图像的归一化图像输入至卷积神经网络，输出原始特征图和至少一个中间特征图。

其中，参照图8，卷积神经网络31包括：A个依次排布的卷积块、B个依次排布的第一上采样单元和第一子卷积层；将样本图像的归一化图像输入至卷积神经网络，输出原始特征图和至少一个中间特征图，包括：将归一化图像输入A个卷积块中的第一个卷积块，得到至少一个卷积块输出的中间特征图，其中，第a个卷积块输出的第a个中间特征图为第a+1个卷积块的输入，a依次取1,2，……，A-1；将第A个卷积块输出的第A个中间特征图，输入第一个第一上采样单元，得到第B个第一上采样单元输出的第一特征图R1，其中，第c个中间特征图在卷积后，与第b个第一上采样单元输出相加作为第b+1个第一上采样单元的输入，b依次取1,2，……，B-1，c大于1且小于A；第d个中间特征图在卷积后，与第一特征图R1相加后输入第一子卷积层，得到第一子卷积层的输出为原始特征图，d小于c。

其中，卷积神经网络为一种具有U型结构的CNN(卷积神经网络)，包括基准网络(包括A个卷积块)和上采样分支(B个第一上采样单元和第一子卷积层)。所采用的基准网络为EfficientNet-B3

(http://proceedings.mlr.press/v97/tan19a/tan19a.pdf)。卷积块为移动倒置瓶颈卷积块(Mobile Inverted Bottleneck，MBConv)。

示例性的，参照图8，A为7，B为2。则卷积神经网络31包括7个卷积块，2个第一上采样单元。以下示例中的图均采用(W*H*D)的形式表示对应图的规格。

其中，归一化图像(256*64*3)输入至第1个卷积块，对应输出第1个中间特征图(128*32*24)。将第1个中间特征图输入至第2个卷积块，对应输出第2个中间特征图(64*16*32)。将第2个中间特征图输入至第3个卷积块，对应输出第3个中间特征图(32*8*48)。将第3个中间特征图输入至第4个卷积块，对应输出第4个中间特征图。将第4个中间特征图输入至第5个卷积块，对应输出第5个中间特征图(16*4*136)。将第5个中间特征图输入至第6个卷积块，对应输出第6个中间特征图。将第6个中间特征图输入至第7个卷积块，对应输出第7个中间特征图(8*2*384)。

进一步的，将第7个卷积块输出的第7个中间特征图(8*2*384)输入至第1个第一上采样单元，得到第1个第一上采样单元对应的输出。第5个中间特征图(16*4*136)通过第一卷积核进行卷积，得到第一卷积图像，该第一卷积核的大小为1*1，通道数为384。然后将该输出与第一卷积图像相加后，再经过第2个第一上采样单元采样处理，得到第2个第一上采样单元对应输的第一特征图R1，,将第3个中间特征图(32*8*48)通过第二卷积核进行卷积，得到第二卷积图像，将第二卷积图像与第一特征图R1相加后输入第一子卷积层，得到原始特征图F_CNN(32*8*384)。

根据本申请实施例提供的神经卷积网络31，能够得到原始特征图和至少一个中间特征图。

S703，将至少一个中间特征图输入文字几何形状信息的预测模块，得到文字几何形状信息的预测特征图。

其中，参照图8，为文字几何形状信息的预测模块32只包括第一神经网络321的情况，其中，第一神经网络321可以对应预测前景掩膜。

具体的，参照图8文字几何形状信息的预测模块32包括第一神经网络321，第一神经网络包括：E个第二上采样单元和第二子卷积层；将至少一个中间特征图输入文字几何形状信息的预测模块，得到文字几何形状信息的预测特征图，包括：将第A个中间特征图，输入至第1个第二上采样单元，得到第E个第二上采样单元输出的第二特征图R2，其中，第c个中间特征图在卷积后，与第e个第二上采样单元的输出相加作为第e+1个第二上采样单元的输入，e依次取1,2，……，E-1；将第二特征图输入第二子卷积层，得到文字几何形状信息的预测特征图，文字几何形状信息的预测特征图为前景掩膜的预测特征图F_u。

其中，第二子卷积层包括：三层卷积神经和sigmoid激活函数层。E为大于或等于1的整数。

此外，第一池化层为池化核大小为2×2，步长为2，填充为0的最大池化层。

示例性的，如图8所示，E取4。其中，第7个中间特征图(8*2*384)输入至第1个第二上采样单元，得到第1个第二上采样单元的输出。将第5个中间特征图(16*4*136)通过第三卷积核进行卷积后得到第三卷积图像，将第三卷积图像与该输出相加，得到第2个第二上采样单元的输出。将第3个中间特征图(32*8*48)通过第四卷积核进行卷积，得到第四卷积图像。将第四卷积图像与该输出相加输入至第3个第二上采样单元，得到第3个第二上采样单元的输出。将第2个中间特征图(128*32*24)通过第五卷积核卷积后，得到第五卷积图像。将第五卷积图像与该输出相加后输入至第4个第二上采样单元，得到第4个第二上采样单元的输出的第二特征图R2。将第1个中间特征图(64*16*32)通过第六卷积核进行卷积，得到第六卷积图像，将第六卷积图像与第二特征图R2相加后输入至第二子卷积层得到一个(128*32*1)的前景掩膜的预测特征图F_u，将该前景掩膜的预测特征图F_u通过第一池化层进行尺寸缩小，得到缩小后的前景掩膜的预测特征图F_u'(64*16*1)。

在一种可选实施例中，参照图9，文字几何形状信息的预测模块32还包括第二神经网络322，第二神经网络322包括：F个第三上采样单元和第三子卷积层；将至少一个中间特征图输入文字几何形状信息的预测模块，得到文字几何形状信息的预测特征图，还包括：将第A个中间特征图，输入至第1个第三上采样单元，得到第F个第三上采样单元输出的第三特征图R3，其中，第c个中间特征图卷积后，与第f个第二上采样单元的输出相加作为第f+1个第二上采样单元的输入，或第f个第二采样单元的输出与第e个第二采样单元的输入卷积后为第f+1个第二上采样单元的输入，f依次取1,2，……，f-1；则将第二特征图依次经过第三子卷积层和第二池化层处理后得到字符轮廓的预测特征图F_v。

F为大于或等于1的整数。示例性的，如图9所示，F取4。其中，第7个中间特征图(8*2*384)输入至第1个第三上采样单元，得到第1个第三上采样单元的输出。将该第5个中间特征图(16*4*136)通过第七卷积核进行卷积后，得到第七卷积图像。将第七卷积图像与该输出相加输入至第2个第三上采样单元，得到第2个第三上采样单元的输出。将第3个中间特征图(32*8*48)通过第八卷积核进行卷积，得到第八卷积图像。将第八卷积图像与该输出相加后输入至第3个第三上采样单元，得到第3个第三上采样单元的输出。将第五卷积图像通过第九卷积核卷积，得到第九卷积图像，将第九卷积图像与该输出相加输入至第4个第二上采样单元，得到第4个第二上采样单元的输出的第三特征图R3，将将第六劵积图像通过第十卷积核卷积后，得到第十卷积图像，将第十卷积图像与三特征图R3相加输入至第三子卷积层得到一个(128*32*1)的字符轮廓的预测特征图F_v，将该字符轮廓的预测特征图F_v通过第二池化层进行尺寸缩小，得到缩小后的字符轮廓的预测特征图F_v'(64*16*1)。

其中，参照图9，标记为G的表示第一神经网络321和第二神经网络322之间的短接。在本申请实施例中，短接数目可以选择0至F个，在F为4时，优选2个。

S704，将原始特征图与文字几何形状信息的预测特征图特征融合处理，得到特征融合图。

其中，将原始特征图与文字几何形状信息的预测特征图特征融合处理，得到特征融合图包括：将掩膜前景的预测特征图F_u输入第一池化层，得到缩小后的掩膜前景的预测特征图F_u'；将字符轮廓的预测特征图F_v输入第二池化层，得到缩小后的字符轮廓的预测特征图F_v'；采用以下公式得到特征融合图：

F＝F_CNN×(1+λ_uF_u'+λ_vF_v')

其中，F为特征融合图，F_CNN为原始特征图，F_u'为缩小后的前景掩膜的预测特征图，F_v'为缩小后的字符轮廓的预测特征图，λ_u和λ_v为线性加权系数。若文字几何形状信息为前景掩膜，则λ_v为0，若文字几何形状信息为前景掩膜，λ_u为0。

具体的，当场景文字识别模型的结构为图8所示时，特征融合计算式为F＝F_CNN×(1+λ_uF_u')，当场景文字识别模型的结构为图9所示时，特征融合计算式为F＝F_CNN×(1+λ_uF_u'+λ_vF_v')_。

在本申请实施例中线性加权系数λ_u和λ_v可以均设为1，也可以设置为其他值，在此不加以限定。

S705，将特征融合图输入编码器-解码器，得到预测文字。

其中，编码器-解码器包括：编码器和解码器。

具体的，参照图10，为本申请提供的编码器-解码器331的结构示意图，其中，编码器341对特征融合模块33输出的特征融合图F计算得到隐含表示H，编码器341由两个相同的编码单元堆叠组成，其中每一个编码单元包括一个自注意力层以及前馈网络模块。

其中，自注意力层包含自注意力计算、残差连接以及层归一化操作。示例性的，首先将特征融合图F中的元素按列展开为向量，得到特征矩阵X，其维度为N×D，其中，N为每一通道元素个数，具体为特征融合图的宽W和高H的乘积。在本申请实施例中为32×8，D为通道数，在本申请实施例中为384，则自注意力计算式为如下：

上式中，W_Q，W_K和W_V为三个参数矩阵，其维度为D×D。经过残差连接以及层归一化操作得到特征向量Z，Z的计算式为：Z＝LN(X+Attention(X))。其中，LN表示层归一化操作；X+Attention(X)表示残差连接。

其中，用FFD表示前馈网络模块的计算过程，其计算式为：

其中，conv1和conv2为多通道1×1一维卷积操作，

为高斯误差线性单元GELU)激活函数。

则隐含表示H的计算过程为：H＝LN(Z+FFD(Z))。

图11本申请实施例的解码器342的结构示意图，其中，解码器342为双向结构，包括前向解码器和后向解码器。将从编码器输出的隐含表示H递归地转换为输出结果，前向解码器按照图11从左到右的方向对目标文字进行解码。后向解码器按照图11从右到左的方向对目标文字进行解码。

具体的，每一个方向的解码器包括两个相同的解码单元，每一个解码单元包括一个自注意力层、一个编码器-解码器注意力层以及一个前馈网络模块。最后，采用一个全连接层将解码器每步输出的维度转换为字符集大小的维度，再经过softmax函数得到每步输出字符的似然值，取对数得到对数似然值。在训练过程中，选取双向解码过程中识别结果对数似然值较高的作为最终的解码结果。

另一方面，解码器的输入包括两部分，第一部分为编码器输出的隐含表示H；第二部分为场景文字目标输出，其中，场景文字目标输出通过字符嵌入转为向量表示，然后经过自注意力层处理之后，与第一部分输入的隐含表示H一起发送至编码器解码器注意力层，得到的结果再输入前馈网络模块，得到解码器输出；在训练阶段，在解码器自注意力层中引入掩模处理，使得计算注意力分数时只使用当前字符及之前的场景文字目标输出；经过掩码操作，可以模拟解码器在训练阶段逐步利用已输出的字符信息，也可以使场景文字识别模型在训练时能够并行解码，提高训练效率。

S706，根据文字几何形状信息的预测特征图和文字几何形状信息的目标图，确定文字几何形状信息的预测模块对应的第一损失函数。

包括：采用下式确定第一损失函数；

L₁＝μ_mL_m+μ_nL_n；

其中，若文字几何形状信息为前景掩膜，则L₁对应的是前景掩膜的预测特征图和前景掩膜的目标图对应的二分类交叉熵损失函数。若文字几何形状信息为字符轮廓，则L₁对应的是字符轮廓的预测特征图和字符轮廓的目标图对应的二分类交叉熵损失函数。

S707，根据预测文字和目标文字，确定解码器的第二损失函数。

采用下式确定第二损失函数；

其中，L₂表示第二损失函数，r表示编码器-解码器的解码的两个方向，T_de表示序列长度，I表示输入的场景文字图像，y_t为对应的目标文字。

S708，根据第一损失函数和第二损失函数确定总损失函数。

具体的，采用下式确定总损失函数：

其中，若场景文字识别模型为图8所示，则总损失函数为

其中，第一损失函数L₁对应前景掩膜或者字符轮廓。若场景文字识别模型为图9所示，则总损失函数L由预测文字和目标文字的交叉熵损失函数L₂、前景掩膜的预测特征图与前景掩膜的目标图的二分类交叉熵损失函数L₁、字符轮廓的预测特征图与字符轮廓的目标图二分类交叉熵损失函数L₃三者进行线性加权得到，计算式为

L₃的计算方式与L₁相同，在此不再赘述。

其中，μ₁和μ₂为线性加权系数，在本申请实施例中均设为1，也可以设置为其他值，对此不加以限定。

S709，采用总损失函数对场景文字识别模型进行调参，得到满足收敛条件的场景文字识别模型。

在本申请实施例中，在场景文字训练模型的训练阶段，能够根据总的损失函数L对卷积神经网络、文字几何形状信息的预测模块和编码器-解码器的参数进行优化求解，得到满足收敛条件的场景文字识别模型。

参照图12，示出本申请提供的一种场景文字识别方法的步骤流程图，应用与上述任一项场景文字识别模型的训练方法得到的场景文字识别模型，场景文字识别方法的具体步骤如下：

S121，获取待识别图像。

其中，待识别图像如图1所示的多个包含场景文字的场景图像。

S122，将待识别图像输入场景文字识别模型，得到预测场景文字。

一种可选实施例中，将待识别图像输入场景文字识别模型，得到预测场景文字，包括：采用归一化处理模块对待识别图像进行归一化处理，得到归一化后的图像：采用卷积神经网络对采用归一化后的图像进行特征提取，得到原始特征图和至少一个中间特征图，不同中间特征图的尺寸不同；采用第一神经网络对至少一个中间特征图进行前景掩膜处理，得到前景掩膜特征图；对原始特征图与前景掩膜特征图进行特征融合处理，得到特征融合图；根据特征融合图，得到待识别图像包含的场景文字。

另一种可选实施例中，将待识别图像输入场景文字识别模型，得到预测场景文字，包括：采用归一化处理模块对待识别图像进行归一化处理，得到归一化后的图像：采用卷积神经网络对采用归一化后的图像进行特征提取，得到原始特征图和至少一个中间特征图，不同中间特征图的尺寸不同；采用第一神经网络对至少一个中间特征图进行字符轮廓处理，得到字符轮廓特征图；对原始特征图与字符轮廓特征图进行特征融合处理，得到特征融合图；根据特征融合图，得到待识别图像包含的场景文字。

又一种可选实施例中，将待识别图像输入场景文字识别模型，得到预测场景文字，包括：采用归一化处理模块对待识别图像进行归一化处理，得到归一化后的图像：采用卷积神经网络对采用归一化后的图像进行特征提取，得到原始特征图和至少一个中间特征图，不同中间特征图的尺寸不同；采用第一神经网络对至少一个中间特征图进行前景掩膜处理，得到前景掩膜特征图和至少一个卷积图；采用第二神经网络对至少一个中间特征图和至少一个卷积图进行字符轮廓处理，得到字符轮廓特征图。对原始特征图、前景掩膜特征图和字符轮廓特征图进行特征融合处理，得到特征融合图；根据特征融合图，得到待识别图像包含的场景文字。

示例性的，表一列出了本申请实施例与现有的场景文字识别方法的识别效果的对比。其中，现有的场景文字识别方法是指目前已公开的7个英文场景文字数据集(IIIT5k、SVT、IC03、IC13、IC15、SVTP、CUTE)。在表一中，本申请实施例和现有技术的训练集均为两个常用公开合成场景文字数据集：MJSynth和SynthText。表一的实验结果证明，本申请实施例能够在每个数据集上取得较高的识别正确率。

表一

其中，表二列出了在本申请实施例在不同条件下的识别正确率。在该实验中，从MJSynth和SynthText中随机采样一个数据集作为训练集用来测试识别正确率，该数据集含有26W张图像，并通过这些图像的文字内容和True Type字体作为这些图像的前景掩膜的目标图和字符轮廓的目标图。其中，参照图3、图8至图11，场景文字识别模型①只包含卷积神经网络31和编码器-解码器34。场景文字识别模型②在①的基础上添加了前景掩膜对应第一神经网络321。场景文字识别模型③在②的基础上添加了第一池化层和特征融合模块，该特征融合模块用于将第一池化层输出的预测结果作为注意力系数乘到原始特征图中。其中该第一池化层为平均池化。场景文字识别模型④在②的基础上添加了第一池化层和特征融合模块，其中，该第一池化层为最大池化。场景文字识别模型⑤在④的基础上添加了字符轮廓对应的第二神经网络322。场景文字识别模型⑥在④的基础上添加了第二池化层和特征融合模块，该特征融合模块用于将第一池化层和第二池化层输出的预测结果作为注意力系数乘到原始特征图中。其中该第二池化层为平均池化。场景文字识别模型⑦在④的基础上添加了第二池化层和特征融合模块，其中，该第二池化层为最大池化。

表二

由表二可得，添加前景掩膜对应的第一神经网络比添加字符轮廓对应的第一神经网络的预测效果好。将输出的前景掩膜的预测特征图或者字符轮廓的预测特征图作为注意力系数乘到原始特征图中能带来更高的识别正确率。此外，第一池化层采用最大池化的方法比平均池化的识别效果更好。

参照图9，表三中列出了在场景文字识别模型中采用第一神经网络321和第二神经网络322联合使用，在不同数目短接G时的识别正确率。在表三中，同样采用含有26W张图像的数据集训练场景文字识别模型，表三中除了短接数目不同外，其余场景文字识别模型的结构保持一致。参照图9，表三中按照与第三上采样单元排序的倒序方向增加短接的数目。

表三

由表三可知，当短接G的数目为2时，场景文字识别模型的识别效果最好。

表四列出了在本申请实施例场景文字识别模型采用ResNet-50的卷积神经网络的基准模型和采用ResNet-50的卷积神经网络的本申请实施例的场景文字识别模型，在7个数据集上的识别正确率。在表四中，训练集为MJSynth和SynthText。在表四中，场景文字识别模型除了卷积神经网络的不同，其余结构相同。

表四

由表四可得，本申请实施例方法在采用ResNet-50为卷积神经网络时，同样能够提高场景文字识别模型的识别准确率，进一步证明了本申请实施例的泛化性。但是与采用ResNet-50为卷积神经网络相比，EfficientNet-B3作为卷积神经网络的识别效果更好。

本申请实施例提供的场景文字识别模型，能够准确的识别图1所示的场景图像中的场景文字。进而，本申请实施例提供场景文字识别方法对于不规则的场景图像、背景复杂场景图像、图像畸变模糊的场景图像、分辨率低且质量低的场景图像中的场景文字都有较好的识别效果。

图13展示了本申请实施例的场景文字识别模型对场景图像中包含的文字的前景掩膜和字符轮廓的识别。其中，O对应的是多个场景图像，P是多个场景图像O对应的前景掩膜。Q是多个场景图像O对应的字符轮廓。则本申请实施例的场景文字识别模型在进行场景文字识别的同时也能够生成场景文字的前景掩膜和字符轮廓图像。

综上，本申请实施例提供的场景文字识别方法应用在上述训练得到的场景文字识别模型，采用该场景文字识别模型可以准确的识别待识别图像中包含的场景文字。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图14为本申请一实施例提供的场景文字识别模型的训练装置的结构示意图。本申请实施例提供一种场景文字识别模型的训练装置，该装置可以集成在例如服务器等电子设备上。如图14所示，场景文字识别模型的训练装置140包括：获取模块141、处理模块142、调整模块143。其中：

获取模块141，用于获取样本图像；

处理模块142，用于将样本图像输入场景文字识别模型，得到样本图像对应的预测文字和文字几何形状信息的预测特征图；

调整模块143，用于根据预测文字、文字几何形状信息的预测特征图、样本图像对应的目标文字以及文字几何形状信息的目标图，调整场景文字识别模型的参数，得到满足收敛条件的场景文字识别模型；

其中，场景文字识别模型包括：卷积神经网络、文字几何形状信息的预测模块、特征融合模块和编码器-解码器，卷积神经网络用于对样本图像的归一化图像进行特征提取得到原始特征图和至少一个中间特征图，文字几何形状信息的预测模块用于对至少一个中间特征图进行文字几何形状信息预测，得到文字几何形状信息的预测特征图；特征融合模块用于对原始特征图与预测特征图进行特征融合处理得到特征融合图，编码器-解码器用于将对特征融合图进行编码处理，并对编码得到的结果进行解码处理，得到预测文字；

文字几何形状信息包括前景掩膜以及字符轮廓中的至少一种。

一种可能的实施方式中，处理模块142，具体用于将样本图像的归一化图像输入至卷积神经网络，输出原始特征图和至少一个中间特征图；将至少一个中间特征图输入文字几何形状信息的预测模块，得到文字几何形状信息的预测特征图；将原始特征图与文字几何形状信息的预测特征图特征融合处理，得到特征融合图；将特征融合图输入编码器-解码器，得到预测文字。

一种可能的实施方式中，卷积神经网络包括：A个依次排布的卷积块、B个依次排布的第一上采样单元和第一子卷积层；处理模块142具体用于：将归一化图像输入A个卷积块中的第一个卷积块，得到至少一个卷积块输出的中间特征图，其中，第a个卷积块输出的第a个中间特征图为第a+1个卷积块的输入，a依次取1,2，……，A-1；将第A个卷积块输出的第A个中间特征图，输入第一个第一上采样单元，得到第B个第一上采样单元输出的第一特征图，其中，第b个第一上采样单元输出，与第c个卷积块输出的第c个中间特征图卷积后作为第b+1个第一上采样单元的输入，b依次取1,2，……，B-1，c大于1且小于A；将第一特征图与第d个卷积块输出的第d个中间特征图卷积后输入第一子卷积层，得到第一子卷积层的输出为原始特征图，d小于c。

一种可能的实施方式中，文字几何形状信息的预测模块包括第一神经网络，第一神经网络包括：E个第二上采样单元、第二子卷积层和第一池化层；处理模块142具体用于：将第A个中间特征图，输入至第1个第二上采样单元，得到第E个第二上采样单元输出的第二特征图，其中，第e个第二上采样单元的输出与第c个中间特征图卷积后为第e+1个第二上采样单元的输入，e依次取1,2，……，E-1；将第二特征图依次经过第二子卷积层和第一池化层处理后得到前景掩膜的预测输出或字符轮廓的预测输出。

一种可能的实施方式中，文字几何形状信息的预测模块包括第二神经网络，第二神经网络包括：F个第三上采样单元、第三子卷积层和第二池化层；处理模块142还用于：将第A个中间特征图，输入至第1个第三上采样单元，得到第F个第三上采样单元输出的第三特征图，其中，第f个第二上采样单元的输出与第c个中间特征图卷积后为第f+1个第二上采样单元的输入，或第f个第二采样单元的输出与第e个第二采样单元的输入卷积后为第f+1个第二上采样单元的输入，f依次取1,2，……，f-1；若第一神经网络输出的为前景掩膜的预测输出，则将第二特征图依次经过第三子卷积层和第二池化层处理后得到字符轮廓的预测输出；若第一神经网络输出的为字符轮廓的预测输出，则将第二特征图依次经过第三子卷积层和第二池化层处理后得到前景掩膜的预测输出。

一种可能的实施方式中，处理模块142具体用于：采用以下公式将原始特征图与文字几何形状信息的预测特征图特征融合处理，得到特征融合图：

F＝F_CNN×(1+λ_uF_u'+λ_vF_v')

一种可能的实施方式中，调整模块143具体用于：根据文字几何形状信息的预测特征图和文字几何形状信息的目标图，确定文字几何形状信息的预测模块对应的第一损失函数；根据预测文字和目标文字，确定解码器的第二损失函数；根据第一损失函数和第二损失函数确定总损失函数；采用总损失函数对场景文字识别模型进行调参，得到满足收敛条件的场景文字识别模型。

一种可能的实施方式中，采用下式确定第一损失函数；

其中，L₁为第一损失函数，M为文字几何形状信息的预测特征图对应的高，N为文字几何形状信息的预测特征图对应的宽，p_ij为文字几何形状信息的预测特征图第i行，第j列的像素值，q_ij为文字几何形状信息的目标图第i行，第j列的像素值。

一种可能的实施方式中，采用下式确定第二损失函数；

其中，L₂表示第二损失函数，r表示编码器-解码器的解码的两个方向，T_de表示序列长度，I表示输入的文本图像，y_t为对应的目标文字。

一种可能的实施方式中，采用下式确定总损失函数：

本申请实施例提供的装置，可用于执行图2和图7所示实施例中的方法，其实现原理和技术效果类似，在此不再赘述。

图15为本申请一实施例提供的场景文字识别装置的结构示意图。本申请实施例提供一种场景文字识别装置，应用于采用上述的场景文字识别模型的训练装置得到的场景文字识别模型，该装置可以集成在例如服务器等电子设备上。如图15所示，场景文字识别装置150包括：获取模块151和处理模块152，其中：

获取模块151，用于获取待识别图像；

处理模块152，用于将待识别图像输入场景文字识别模型，得到预测场景文字。

本申请实施例提供的装置，可用于执行图12所示实施例中的方法，其实现原理和技术效果类似，在此不再赘述。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，处理模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上处理模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

本申请一实施例提供的电子设备的结构示意图。该电子设备可以包括：处理器、存储器、通信接口和系统总线。其中，存储器和通信接口通过系统总线与处理器连接并完成相互间的通信，存储器用于存储指令，通信接口用于和其他设备进行通信，处理器用于调用存储器中的指令以执行如上述场景文字识别模型的训练方法实施例的方案。

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当计算机程序在电子设备上运行时，使得电子设备执行如上任一方法实施例的场景文字识别模型的训练方法或场景文字识别方法。

本申请实施例还提供一种运行指令的芯片，芯片用于执行如上任一方法实施例的场景文字识别模型的训练方法或场景文字识别方法。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中，至少一个处理器可以从该计算机可读存储介质中读取计算机程序，该至少一个处理器执行计算机程序时可实现如上任一方法实施例的场景文字识别模型的训练方法或场景文字识别方法。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系；在公式中，字符“/”，表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b，或c中的至少一项(个)，可以表示：a，b，c，a-b，a-c，b-c，或a-b-c，其中，a，b，c可以是单个，也可以是多个。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。在本申请的实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种场景文字识别模型的训练方法，其特征在于，包括：

获取样本图像；

将所述样本图像输入场景文字识别模型，得到所述样本图像对应的预测文字和文字几何形状信息的预测特征图；

根据所述预测文字、所述文字几何形状信息的预测特征图、所述样本图像对应的目标文字以及文字几何形状信息的目标图，计算所述场景文字识别模型对应的总损失函数，并利用所述总损失函数最小化调整所述场景文字识别模型的参数，得到满足收敛条件的场景文字识别模型；

其中，所述场景文字识别模型包括：卷积神经网络、文字几何形状信息的预测模块、特征融合模块和编码器-解码器，所述卷积神经网络用于对所述样本图像的归一化图像进行特征提取得到原始特征图和至少一个中间特征图，所述文字几何形状信息的预测模块用于对所述至少一个中间特征图进行文字几何形状信息预测，得到文字几何形状信息的预测特征图；所述特征融合模块用于对所述原始特征图与所述预测特征图进行特征融合处理得到特征融合图，所述编码器-解码器用于对所述特征融合图进行编码处理，并对编码得到的结果进行解码处理，得到所述预测文字；

所述文字几何形状信息包括前景掩膜以及字符轮廓中的至少一种。

2.根据权利要求1所述的场景文字识别模型的训练方法，其特征在于，所述将所述样本图像输入场景文字识别模型，得到所述样本图像对应的预测文字和文字几何形状信息的预测特征图，包括：

将所述样本图像的归一化图像输入至所述卷积神经网络，输出所述原始特征图和至少一个所述中间特征图；

将至少一个所述中间特征图输入所述文字几何形状信息的预测模块，得到所述文字几何形状信息的预测特征图；

将所述原始特征图与所述文字几何形状信息的预测特征图特征融合处理，得到特征融合图；

将所述特征融合图输入所述编码器-解码器，得到所述预测文字。

3.根据权利要求2所述的场景文字识别模型的训练方法，其特征在于，所述卷积神经网络包括：A个依次排布的卷积块、B个依次排布的第一上采样单元和第一子卷积层；所述将所述样本图像的归一化图像输入至所述卷积神经网络，输出所述原始特征图和至少一个所述中间特征图，包括：

将所述归一化图像输入所述A个卷积块中的第一个卷积块，得到至少一个所述卷积块输出的所述中间特征图，其中，第a个卷积块输出的第a个中间特征图为第a+1个卷积块的输入，所述a依次取1,2，……，A-1；

将第A个卷积块输出的第A个中间特征图，输入第一个第一上采样单元，得到第B个第一上采样单元输出的第一特征图，其中，第c个中间特征图在卷积后，与所述第b个第一上采样单元输出相加作为第b+1个第一上采样单元的输入，所述b依次取1,2，……，B-1，所述c大于1且小于A；

第d个中间特征图在卷积后，与所述第一特征图相加后输入所述第一子卷积层，得到所述第一子卷积层的输出为原始特征图，d小于c。

4.根据权利要求3所述的场景文字识别模型的训练方法，其特征在于，所述文字几何形状信息的预测模块包括第一神经网络，所述第一神经网络包括：E个第二上采样单元和第二子卷积层；所述将至少一个所述中间特征图输入所述文字几何形状信息的预测模块，得到所述文字几何形状信息的预测特征图，包括：

将所述第A个中间特征图，输入至第1个第二上采样单元，得到第E个第二上采样单元输出的第二特征图，其中，第c个中间特征图在卷积后，与第e个第二上采样单元的输出相加作为第e+1个第二上采样单元的输入，所述e依次取1,2，……，E-1；

将所述第二特征图输入第二子卷积层，得到所述文字几何形状信息的预测特征图，所述文字几何形状信息的预测特征图为所述前景掩膜的预测特征图F_u。

5.根据权利要求4所述的场景文字识别模型的训练方法，其特征在于，所述文字几何形状信息的预测模块包括第二神经网络，所述第二神经网络包括：F个第三上采样单元和第三子卷积层；所述将至少一个所述中间特征图输入所述文字几何形状信息的预测模块，得到所述文字几何形状信息的预测特征图，还包括：

将所述第A个中间特征图，输入至第1个第三上采样单元，得到第F个第三上采样单元输出的第三特征图，其中，第c个中间特征图卷积后，与第f个第二上采样单元的输出相加作为第f+1个第二上采样单元的输入，或所述第f个第二采样单元的输出与第e个第二采样单元的输入相加后作为所述第f+1个第二上采样单元的输入，所述f依次取1,2，……，f-1；

将所述第二特征图依次经过所述第三子卷积层和第二池化层处理后得到所述字符轮廓的预测特征图F_v。

6.根据权利要求5所述的场景文字识别模型的训练方法，其特征在于，所述场景文字识别模型还包括：第一池化层和第二池化层；所述将所述原始特征图与所述文字几何形状信息的预测特征图特征融合处理，得到特征融合图，包括：

将所述掩膜前景的预测特征图F_u输入所述第一池化层，得到缩小后的掩膜前景的预测特征图F_u'；

将所述字符轮廓的预测特征图F_v输入所述第二池化层，得到缩小后的字符轮廓的预测特征图F_v'；

采用以下公式得到所述特征融合图：

F＝F_CNN×(1+λ_uF_u'+λ_vF_v')

其中，F为所述特征融合图，F_CNN为所述原始特征图，F_u'为缩小后的前景掩膜的预测特征图，F_v'为缩小后的字符轮廓的预测特征图，λ_u和λ_v为线性加权系数。

7.根据权利要求1至6任一项所述的场景文字识别模型的训练方法，其特征在于，所述根据所述预测文字、所述文字几何形状信息的预测特征图、所述样本图像对应的目标文字以及文字几何形状信息的目标图，计算所述场景文字识别模型对应的总损失函数，并利用所述总损失函数最小化调整所述场景文字识别模型的参数，包括：

根据所述文字几何形状信息的预测特征图和所述文字几何形状信息的目标图，确定所述文字几何形状信息的预测模块对应的第一损失函数；

根据所述预测文字和所述目标文字，确定解码器的第二损失函数；

根据所述第一损失函数和所述第二损失函数确定总损失函数；

采用所述总损失函数对所述场景文字识别模型进行调参，得到满足收敛条件的场景文字识别模型。

8.根据权利要求7所述的场景文字识别模型的训练方法，其特征在于，包括：采用下式确定所述第一损失函数；

L₁＝μ_mL_m+μ_nL_n；

9.根据权利要求7所述的场景文字识别模型的训练方法，其特征在于，包括：采用下式确定所述第二损失函数；

其中，所述L₂表示所述第二损失函数，所述r表示所述解码器的解码的两个方向，所述T_de表示序列长度，所述I表示所述文本图像，所述y_t为对应的目标文字。

10.根据权利要求7所述的场景文字识别模型的训练方法，其特征在于，包括：采用下式确定总损失函数：

其中，所述L为总损失函数，L₁为第一损失函数，L₂为第二损失函数。

11.一种场景文字识别方法，其特征在于，应用于采用如权利要求1至10任一项所述场景文字识别模型的训练方法得到的场景文字识别模型，所述场景文字识别方法包括：

获取待识别图像；

将所述待识别图像输入所述场景文字识别模型，得到预测场景文字。

12.一种场景文字模型的训练装置，其特征在于，包括：

获取模块，用于获取样本图像；

处理模块，用于将所述样本图像输入场景文字识别模型，得到所述样本图像对应的预测文字和文字几何形状信息的预测特征图；

调整模块，用于根据所述预测文字、所述文字几何形状信息的预测特征图、所述样本图像对应的目标文字以及文字几何形状信息的目标图，计算所述场景文字识别模型对应的总损失函数，并利用所述总损失函数最小化调整所述场景文字识别模型的参数，得到满足收敛条件的场景文字识别模型；

其中，所述场景文字识别模型包括：卷积神经网络、文字几何形状信息的预测模块、特征融合模块和编码器-解码器，所述卷积神经网络用于对所述样本图像的归一化图像进行特征提取得到原始特征图和至少一个中间特征图，所述文字几何形状信息的预测模块用于对所述至少一个中间特征图进行文字几何形状信息预测，得到文字几何形状信息的预测特征图；所述特征融合模块用于对所述原始特征图与所述预测特征图进行特征融合处理得到特征融合图，所述编码器-解码器用于将对所述特征融合图进行编码处理，并对编码得到的结果进行解码处理，得到所述预测文字；

13.一种场景文字识别装置，其特征在于，应用于采用如权利要求12所述的场景文字识别模型的训练装置得到的场景文字识别模型，所述场景文字识别装置，包括：

获取模块，用于获取待识别图像；

处理模块，用于将所述待识别图像输入所述场景文字识别模型，得到预测场景文字。

14.一种电子设备，包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至11中任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当所述计算机程序在电子设备上运行时，使得电子设备执行如权利要求1至11中任一项所述的方法。