CN117079264A

CN117079264A - 场景文本图像识别方法、系统、设备及存储介质

Info

Publication number: CN117079264A
Application number: CN202311341059.2A
Authority: CN
Inventors: 谢洪涛; 王紫霄; 张勇东; 王裕鑫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-10-17
Filing date: 2023-10-17
Publication date: 2023-11-17

Abstract

本发明公开了一种场景文本图像识别方法、系统、设备及存储介质，它们是一一对应的方案，方案中：通过迁移预训练的图像编码器与预训练的文本编码器（简称为预训练模型）中的知识以增强文本识别模型的性能，同时在预测阶段不依赖于预训练模型，从而能够保持识别模型的轻量性，实现高效、准确的文本识别。其中本发明提出的对称蒸馏策略能够额外提取预训练模型中的语言知识以指导识别模型学习语言建模能力，进而能够在存在干扰的复杂场景下通过上下文推理提升识别准确率。大量的实验证明了本发明性能优于以往的方法，能够以较少的模型参数对复杂场景下的文本进行准确地识别。

Description

场景文本图像识别方法、系统、设备及存储介质

技术领域

本发明涉及场景文本图像识别技术领域，尤其涉及一种场景文本图像识别方法、系统、设备及存储介质。

背景技术

场景文本图像识别是光学字符识别（OCR）中的关键环节，在场景理解、证件识别、车牌识别等领域的应用中具有重要意义。随着深度学习算法的发展，目前基于视觉神经网络的文本识别算法显著地提升了识别精度，然而由于场景图像中存在嘈杂的背景、模糊的文本和特殊的文本样式等严重的干扰，仅利用输入图像中的视觉信息进行识别仍然面临误检漏检等问题。为了进一步提升识别精度，当前方案需要增强对语言信息的提取和建模能力，通过联合上下文内容辅助识别过程。

近期提出的对比文本-图像预训练模型（CLIP）包含跨模态特征对齐的图像编码器和文本编码器，能够为下游任务中视觉、语言信息的提取提供有力的支持，因而在同时需要视觉和语言信息的文本识别任务中具有天然的优势。如图1所示，现有的方法在利用CLIP时，主要关注于其在视觉特征上的提取能力，针对CLIP图像编码器进行模型融合（图1虚线左侧部分）或蒸馏（图1虚线右侧部分），以上两类方案均固定CLIP图像编码器的参数，训练识别编码器与识别解码器的参数，但是，以上两方案均未使用CLIP文本编码器中带有的语言知识，导致场景文本图像识别效果不佳。

有鉴于此，特提取本发明。

发明内容

本发明的目的是提供一种场景文本图像识别方法、系统、设备及存储介质，通过使用预训练模型进行知识蒸馏，在不引入大量额外模型参数量的同时提升了文本识别的准确率。

本发明的目的是通过以下技术方案实现的：

一种场景文本图像识别方法，包括：

构建包含教师模型与学生模型的模型框架；其中，教师模型包含预训练的图像编码器与预训练的文本编码器，学生模型为文本识别模型，文本识别模型包含识别编码器与识别解码器；

训练阶段，学生模型中的识别编码器对训练文本图像进行多个阶段图像特征的提取，识别解码器利用最后一个阶段的图像特征进行多个阶段解码，获得预测结果；教师模型中的预训练的图像编码器对训练文本图像进行多个阶段图像特征的提取，预训练的文本编码器对训练文本图像对应的标签进行多个阶段文本特征提取；将学生模型获得的多个阶段图像特征与多个阶段解码结果作为学生模型中间特征，将教师模型获得的多个阶段图像特征与多个阶段文本特征作为教师模型中间特征，使用对称蒸馏策略建立教师模型和学生模型中间特征间的一一对应关系，并计算出对称蒸馏损失，再利用学生模型的预测结果计算识别损失，结合所述对称蒸馏损失与识别损失优化学生模型；

训练完毕后，将待识别的场景文本图像输入至训练后的学生模型，获得预测结果。

一种场景文本图像识别系统，包括：

模型框架构建单元，用于构建包含教师模型与学生模型的模型框架；其中，教师模型包含预训练的图像编码器与预训练的文本编码器，学生模型包含识别编码器与识别解码器；

训练单元，应用于训练阶段；训练阶段包括：学生模型中的识别编码器对训练文本图像进行多个阶段图像特征的提取，识别解码器利用最后一个阶段的图像特征进行多个阶段解码，获得预测结果；教师模型中的预训练的图像编码器对训练文本图像进行多个阶段图像特征的提取，预训练的文本编码器对训练文本图像对应的标签进行多个阶段文本特征提取；将学生模型获得的多个阶段图像特征与多个阶段解码结果作为学生模型中间特征，将教师模型获得的多个阶段图像特征与多个阶段文本特征作为教师模型中间特征，使用对称蒸馏策略建立教师模型和学生模型中间特征间的一一对应关系，并计算出对称蒸馏损失，再利用学生模型的预测结果计算识别损失，结合所述对称蒸馏损失与识别损失优化学生模型；

识别单元，用于在训练完毕后，将待识别的场景文本图像输入至训练后的学生模型，获得预测结果。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，本发明通过迁移预训练的图像编码器与预训练的文本编码器（简称为预训练模型）中的知识以增强文本识别模型的性能，同时在预测阶段不依赖于预训练模型，从而能够保持识别模型的轻量性，实现高效、准确的文本识别。其中本发明提出的对称蒸馏策略能够额外提取预训练模型中的语言知识以指导识别模型学习语言建模能力，进而能够在存在干扰的复杂场景下通过上下文推理提升识别准确率。大量的实验证明了本发明性能优于以往的方法，能够以较少的模型参数对复杂场景下的文本进行准确地识别。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明背景技术提供的现有技术中模型融合与蒸馏方案的示意图；

图2为本发明实施例提供的一种场景文本图像识别方法的流程图；

图3为本发明实施例提供的训练与推理方案的整体框架示意图；

图4为本发明实施例提供的4个阶段下的训练与推理方案的框架图；

图5为本发明实施例提供的自适应对齐后的蒸馏损失计算方案示意图；

图6为本发明实施例提供的全局对齐后的蒸馏损失计算方案示意图；

图7为本发明实施例提供的本发明方法和基线模型识别结果的对比结果示意图；

图8为本发明实施例提供的一种场景文本图像识别系统的示意图；

图9为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种场景文本图像识别方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者，均为可以通过市售购买获得的常规产品。

实施例一

本发明实施例提供一种场景文本图像识别方法，如图2所示，主要包括如下步骤：

步骤1、构建包含教师模型与学生模型的模型框架。

本发明实施例中，教师模型包含预训练的图像编码器与预训练的文本编码器，学生模型为文本识别模型，文本识别模型包含识别编码器与识别解码器。

步骤2、根据模型框架的输出，利用对称蒸馏策略进行训练。

本发明实施例中，训练阶段，学生模型中的识别编码器对训练文本图像进行多个阶段图像特征的提取，识别解码器利用最后一个阶段的图像特征进行多个阶段解码，获得预测结果；教师模型中的预训练的图像编码器对训练文本图像进行多个阶段图像特征的提取，预训练的文本编码器对训练文本图像对应的标签进行多个阶段文本特征提取；将学生模型获得的多个阶段图像特征与多个阶段解码结果作为学生模型中间特征，将教师模型获得的多个阶段图像特征与多个阶段文本特征作为教师模型中间特征，使用对称蒸馏策略建立教师模型和学生模型中间特征间的一一对应关系，并计算出对称蒸馏损失，再利用学生模型的预测结果计算识别损失，结合所述对称蒸馏损失与识别损失优化学生模型。

步骤3、训练完毕后，将待识别的场景文本图像输入至训练后的学生模型，获得预测结果。

本发明实施例上述方案，可以将预训练模型中的视觉、语言知识迁移至文本识别模型以提升其识别性能和鲁棒性。本发明上述方案可以嵌入到智能系统中来实现场景文本识别，可以针对含有复杂背景的文本图像进行识别。在实施上，可以以软件的形式安装于服务器或者嵌入智能系统，满足后台大批量的文本识别需求。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的方法进行详细描述。

一、构建模型框架。

本发明实施例中，教师模型可以使用CLIP模型，即预训练的图像编码器使用CLIP图像编码器，预训练的文本编码器使用CLIP文本编码器。

本发明实施例中，文本识别模型中的识别编码器可以采用ViT-Small模型（小型尺寸的视觉变压器），识别解码器可采用多层级联的Transformer（变压器）解码层实现。

当然，以上仅提供了可行的模型实现方式，在实际应用中，用户可根据实际情况或者经验调整模型实现方式。

二、训练方案。

如图3所示，结合前文提供的可行的模型实现方式，展示了本发明的训练与推理方案的整体框架，其中，输出的训练文本图像的内容及其对应标签的内容仅为示例，并非构成限制；训练方案中，固定CLIP图像编码器与CLIP文本编码器的参数，训练识别编码器与识别解码器中的参数；虚线箭头表示相应流程仅用于训练阶段，水平方向的实线箭头表示相应流程应用于训练与推理阶段，垂直方向的实现箭头表示知识蒸馏。下面针对训练方案进行详细介绍。

1、获取学生模型输出结果。

本发明实施例中，所述学生模型中的识别编码器对训练文本图像进行多个阶段图像特征的提取，识别解码器利用最后一个阶段的图像特征进行多个阶段解码，获得预测结果。

以上处理过程的优选实施方式如下：将训练文本图像分解为第一设定大小（例如4×8）的图像块并分别进行编码，获得第一图像块特征序列；将第一图像块特征序列与可学习的全局特征向量级联后输入至学生模型中的识别编码器。所述识别编码器提取出多个阶段图像特征，将第i个阶段图像特征记为，/>,其中，K为阶段总数。识别解码器利用最后一个阶段的图像特征/>进行多个阶段解码，将第i个阶段解码结果记为，/>，最终预测结果由最后一个阶段的解码结果/>经线性映射得到。

示例性的：可以设置K=4，即识别编码器与识别解码器均包含4个阶段；相应的，可以设置：识别编码器包含12层编码层，按每3层作为1个阶段将其分为4个阶段；使用4层级联的Transformer解码层作为识别解码器，每1层作为1个阶段同样分为4个阶段。当然，此处所涉及的K的具体取值、识别编码器中编码层的层数、以及识别解码器中Transformer解码层的层数均为举例，并非构成限制；在实际应用中，用户可根据实际情况或者经验进行设定。

2、获取教师模型输出结果。

本发明实施例中，所述教师模型中的预训练的图像编码器对训练文本图像进行多个阶段图像特征的提取，预训练的文本编码器对训练文本图像对应的标签进行多个阶段文本特征提取。

以上处理过程的优选实施方式如下：将训练文本图像分解为第二设定大小（例如16×16）的图像块并分别进行编码，获得第二图像块特征序列；将第二图像块特征序列与预训练好的全局特征向量级联后输入至预训练的图像编码器；所述预训练的图像编码器提取出多个阶段图像特征，将第i个阶段图像特征记为，/>,其中，K为阶段总数；并且，将训练文本图像对应的标签进行字符级编码，获得编码序列；在编码序列的开始和结束处分别添加CLIP内训练好的开始标志向量和结束标志向量，再输入至预训练的文本编码器；预训练的文本编码器提取出多个阶段文本特征，将第i个阶段文本特征记为/>，。

示例性的：可以设置K=4，即预训练的图像编码器与预训练的文本编码器均包含4个阶段，相应的，可以设置：预训练的图像编码器（例如，CLIP图像编码器）使用ViT-Base（基础尺寸的视觉变压器），其包含12层编码层，预训练的文本编码器（例如，CLIP文本编码器）使用12层Transformer编码层，按每3层作为一个阶段，分别将预训练的图像编码器和预训练的文本编码器分为4个阶段。同样的，此处介绍也仅为举例，并非构成限制，在实际应用中，用户可根据实际情况进行调整。

此外，以上获取学生模型输出结果、获取教师模型输出结果的过程不区分先后顺序，二者可以同步执行，也可以按照任意顺序先后执行。

3、对称蒸馏策略。

本发明实施例中，将学生模型中间特征表示为：；其中，/>为识别编码器提取的第i个阶段图像特征，/>为识别解码器输出的第i个阶段解码结果，K为阶段总数；将教师模型中间特征表示为：/>；其中，/>为预训练的图像编码器提取的第i个阶段图像特征，/>为文本编码器提取的第i个阶段文本特征。构建学生模型中间特征和教师模型中间特征间的一一对应关系，从而使用教师模型的中间特征对学生模型的中间特征进行监督。

由于文本识别模型为识别编码器-识别解码器结构，而预训练模型包含两个预训练编码器，常规的知识蒸馏方法只能使用预训练的图像编码器对识别编码器进行蒸馏，但是无法使用预训练的文本编码器对识别模型解码器进行蒸馏。

本发明实施例中，建立识别编码器提取的图像特征与教师模型中间特征的一一对应关系方式如下：在第1个阶段至倒数第2个阶段中，利用预训练的图像编码器提取的图像特征监督识别编码器提取的图像特征，即利用监督/>, />，以及第4个阶段中利用预训练的文本编码器提取的文本特征监督识别编码器提取的图像特征，即利用/>监督/>。

本发明实施例中，利用识别解码器和预训练的文本编码器输入输出间的对称关系，将预训练的文本编码器所有阶段文本特征的顺序进行反转，从而构建由特征到文本的解码特征流，建立文本特征与识别解码器输出的解码结果的一一对应关系，在第1个阶段至倒数第2个阶段中，利用预训练的文本编码器提取的文本特征监督识别解码器的解码结果，即利用监督/>，/>，/>为文本编码器提取的第/>个阶段文本特征，从而实现预训练的文本编码器对识别解码器的蒸馏。

如图4所示，展示了4个阶段下的训练与推理方案的框架图，图4中使用的训练文本图像及其对应标签也均为示例，训练方案包含虚线与实线箭头部分，推理方案仅包含实线箭头部分。

上文介绍了知识蒸馏过程中建立的中间特征的一一对应关系，其中，和/>不参与知识蒸馏的过程，因此，在获取教师模型输出结果过程中，可以仅保留预训练的图像编码器与预训练的文本编码器从第1至倒数第2个阶段的特征。

在建立学生模型中间特征和教师模型中间特征间的一一对应关系后，额外引入了自适应对齐模块（包含一个自适应矩阵和一个全连接层）和全局对齐模块（包含全局向量提取模块与两个全连接层）将不同模型的中间特征映射到统一尺寸进行对齐；为了便于说明，先针对两类模型中的中间特征采用统一的符号进行定义。

令：表示识别编码器提取的第1个阶段图像特征/>至第K-1个阶段图像特征、以及识别解码器输出的第1个阶段解码结果/>至第K-1个阶段解码结果/>中的任一项，即/>；/>表示预训练的图像编码器提取的第1个阶段图像特征/>至第K-1个阶段图像特征/>、以及文本编码器提取的第1个阶段文本特征/>至第K-1个阶段文本特征/>中的任一项，即。

按照建立的一一对应关系，将与对应/>进行尺寸对齐后，计算蒸馏损失，并遍历所有/>与/>，获得第一部分蒸馏损失，以及分别取出/>与/>中的全局特征向量，将两个全局特征向量进行尺寸对齐后，计算蒸馏损失，称为第二部分蒸馏损失，综合两部分蒸馏损失获得对称蒸馏损失。

如图5所示，按照对应的尺寸，依次使用可学习的自适应矩阵P与全连接层W对进行映射，完成尺寸对齐，再通过层归一化层进行归一化后，计算蒸馏损失。具体的：/>的尺寸记为/>，/>的尺寸记为/>，其中，/>为/>的特征序列长度，为/>的特征维度，/>为/>的特征序列长度，/>为/>的特征维度；通过可学习的自适应映射矩阵/>将/>映射至/>，此过程为自适应映射过程，再使用一个全连接层映射至/>，然后输入至层归一化层进行归一化，同时，将/>也输入至层归一化层进行归一化，最后计算蒸馏损失，以上流程可表示为：

；

其中，表示矩阵乘法，/>表示层归一化层，/>表示蒸馏损失计算函数，表示利用/>与对应/>计算出的蒸馏损失；遍历所有/>与/>，获得第一部分蒸馏损失，表示为：/>，/>表示利用/>与/>计算出的蒸馏损失，/>表示表示利用/>与/>计算出的蒸馏损失，/>。

如图6所示，分别取出与/>中的全局特征向量，记为/>和/>，根据中的全局特征向量/>的尺寸，通过两个全连接层依次对/>中的全局特征向量进行映射，完成尺寸对齐，再通过层归一化层进行归一化后，计算蒸馏损失。

具体的：和/>，其中，/>表示全局特征向量/>的特征维度，/>表示全局特征向量/>的特征维度；/>中的全局特征向量可以利用结束标志向量表示；对于全局特征向量/>通过两个全连接层映射至尺寸，再输入至层归一化层进行归一化，同时，将全局特征向量/>也输入至层归一化层进行归一化，最后计算蒸馏损失，以上流程可表示为：

；

其中，表示激活函数，例如，使用ReLU（修正线性单元）激活函数，/>与/>表示两个全连接层；/>为第二部分蒸馏损失。

综合两部分蒸馏损失获得对称蒸馏损失，表示为：

；

其中，为对称蒸馏损失。

本发明实施例中，可以根据实际情况选择蒸馏损失计算函数（如L1损失、L2损失、余弦相似度损失等常用蒸馏损失），为了保证知识蒸馏的效果，进而提升后续文本识别准确率，本发明实施例提供一种蒸馏损失计算函数方案，即利用语言一致性损失函数计算蒸馏损失。

参见前文提供的表达式，蒸馏损失计算函数内部的信息是尺寸对齐，且归一化后的信息，并且两部分蒸馏损失计算时的蒸馏损失计算函数是相同的，因此，为了便于说明，采用统一的符号进行定义。

令：，，且，当/>时，，以及当/>时，。

为了更准确地监督字符级上下文语义信息，本发明提出的语言一致性损失，引入二阶统计量进行特征对齐，具体包括模型内相似度对齐和模型间相似度对齐。模型内相似度对齐首先计算特征内部各向量间的内积得到自相似度图（即下述公式中的、），然后再使用L1损失对齐识别模型和预训练模型的自相似度图，表示为：

；

其中，N表示和F的特征序列长度，/>即为自相似度图的总元素数量，/>和/>分别表示/>和F的转置，/>表示计算/>中所有元素的绝对值之和；/>表示利用/>和F计算出的模型内相似度对齐损失。

模型间相似度则计算识别模型和预训练模型特征向量间的内积得到互相似度图（即下述公式中的），然后使用交叉熵损失约束两个模型特征向量间的一一对应关系，其过程如下式所示：

；

其中，为交叉熵损失函数，/>为预定义的温度系数，/>为对角线为1其他元素为0且尺寸为/>的对角矩阵；/>表示利用/>和F计算出的模型间相似度对齐损失。

交叉熵损失函数表示为：

；

其中，为/>内所有元素的索引集合，/>为/>内所有元素的数量，/>指代，/>指代/>，/>表示/>中索引为j的元素，/>表示/>中索引为j的元素。

最终，语言一致性损失函数表示为：

；

其中，与/>为预定义的权重系数；示例性的，可设置：/>，/>。

4、训练总损失与训练细节。

本发明实施例中，训练过程中固定预训练模型的参数，文本识别模型可使用Adam（自适应矩估计）优化器进行参数更新，直至模型收敛，训练总损失L表示为：

；

其中，为识别损失，可以利用学生模型的预测结果/>与标签/>，通过交叉熵损失函数进行计算，表示为：/>。

同时，前文提及的可学习的全局特征向量也一并进行更新，考虑到训练时所涉及的参数更新方式与全局特征向量的更新方式可通过常规技术实现，故不做赘述。

示例性的，可以在MJSynth和SynthText数据集上训练4轮，然后直接在测试数据集上进行测试，训练的学习率设定为0.0007，每次迭代采样图片320张并将图片缩放至32×128像素大小。

三、推理方案。

还参见图3，推理阶段移除教师模型，直接利用训练得到的文本识别模型对待识别的场景文本图像进行推理，获得预测结果，即待识别的场景文本图像中的文本内容。

四、效果评估。

本发明实施例中，文本识别模型没有引入较多的参数，以前文提供的文本识别模型的结构为例，其参数大小为31.1M。为了验证本发明的有效性，在六个通用数据集上进行了测试，均达到了先进的性能。

IIIT：该数据集包含3000张测试图片，本发明在该数据集上的准确率为97.3%。

SVT：该数据集包含647张街景测试图片，本发明在该数据集上的准确率为94.7%。

ICDAR2013：该数据集包含857张高质量测试图片，本发明在该数据集上的准确率为97.7%。

ICDAR2015：该数据集包含1811张高质量测试图片，本发明在该数据集上的准确率为87.2%。

SVTP：该数据集包含645张高难度的街景测试图片，本发明在该数据集上的准确率为89.9%。

CUTE80：该数据集包含288张带有弯曲文本的测试图片，本发明在该数据集上的准确率为93.1%。

图7为本发明和基线模型识别结果的对比，其中基线模型和本发明的文本识别模型使用相同的模型结构和训练轮数但不使用本发明的蒸馏算法，而是使用常规方式进行训练，图4中每一场景文本图像右侧的两行文本内容为预测结果，第一行为基线模型的预测结果，第二行为本发明的预测结果，可以看到，基线模型的预测结果存在很多错误之处，相较而言，本发明的预测结果更为准确。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种场景文本图像识别系统，其主要用于实现前述实施例提供的方法，如图8所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图9所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种场景文本图像识别方法，其特征在于，包括：

2.根据权利要求1所述的一种场景文本图像识别方法，其特征在于，所述学生模型中的识别编码器对训练文本图像进行多个阶段图像特征的提取，识别解码器利用最后一个阶段的图像特征进行多个阶段解码，获得预测结果包括：

将训练文本图像分解为第一设定大小的图像块并分别进行编码，获得第一图像块特征序列；将第一图像块特征序列与可学习的全局特征向量级联后输入至学生模型中的识别编码器；

所述识别编码器提取出多个阶段图像特征，将第i个阶段图像特征记为，,其中，K为阶段总数；

识别解码器利用最后一个阶段的图像特征进行多个阶段解码，将第i个阶段解码结果记为/>，/>，预测结果由最后一个阶段的解码结果/>经线性映射得到。

3.根据权利要求1所述的一种场景文本图像识别方法，其特征在于，所述教师模型中的预训练的图像编码器对训练文本图像进行多个阶段图像特征的提取，预训练的文本编码器对训练文本图像对应的标签进行多个阶段文本特征提取包括：

将训练文本图像分解为第二设定大小的图像块并分别进行编码，获得第二图像块特征序列；将第二图像块特征序列与预训练好的全局特征向量级联后输入至预训练的图像编码器；所述预训练的图像编码器提取出多个阶段图像特征，将第i个阶段图像特征记为，；

并且，将训练文本图像对应的标签进行字符级编码，获得编码序列；在编码序列的开始和结束处分别添加训练好的开始标志向量和结束标志向量，再输入至预训练的文本编码器；预训练的文本编码器提取出多个阶段文本特征，将第i个阶段文本特征记为，。

4.根据权利要求1所述的一种场景文本图像识别方法，其特征在于，所述使用对称蒸馏策略建立教师模型和学生模型中间特征间的一一对应关系，并计算出对称蒸馏损失包括：

将学生模型中间特征表示为：；其中，/>为识别编码器提取的第i个阶段图像特征，/>为识别解码器输出的第i个阶段解码结果，K为阶段总数；

将教师模型中间特征表示为：；其中，/>为预训练的图像编码器提取的第i个阶段图像特征，/>为文本编码器提取的第i个阶段文本特征；

建立识别编码器提取的图像特征与教师模型中间特征的一一对应关系方式如下：在第1个阶段至倒数第2个阶段中，利用预训练的图像编码器提取的图像特征监督识别编码器提取的图像特征，即利用监督/>, />，以及第4个阶段中利用预训练的文本编码器提取的文本特征监督识别编码器提取的图像特征，即利用/>监督/>；

将文本编码器提取的所有阶段文本特征的顺序进行反转，建立文本特征与识别解码器输出的解码结果的一一对应关系，在第1个阶段至倒数第2个阶段中，利预训练的文本编码器提取的文本特征监督识别解码器的解码结果，即利用监督/>，，/>为文本编码器提取的第/>个阶段文本特征；

利用建立的一一对应关系计算出对称蒸馏损失。

5.根据权利要求4所述的一种场景文本图像识别方法，其特征在于，计算对称蒸馏损失的方式包括：

令：表示识别编码器提取的第1个阶段图像特征/>至第K-1个阶段图像特征/>、以及识别解码器输出的第1个阶段解码结果/>至第K-1个阶段解码结果/>中的任一项，即/>；/>表示预训练的图像编码器提取的第1个阶段图像特征/>至第K-1个阶段图像特征/>、以及文本编码器提取的第1个阶段文本特征/>至第K-1个阶段文本特征/>中的任一项，即；

6.根据权利要求5所述的一种场景文本图像识别方法，其特征在于，所述按照建立的一一对应关系，将与对应/>进行尺寸对齐后，计算蒸馏损失，并遍历所有/>与/>，获得第一部分蒸馏损失，以及分别取出/>与/>中的全局特征向量，将两个全局特征向量进行尺寸对齐后，计算蒸馏损失，称为第二部分蒸馏损失，综合两部分蒸馏损失获得对称蒸馏损失包括：

按照对应的尺寸，依次使用可学习的自适应矩阵P与全连接层W对/>进行映射，完成尺寸对齐，再通过层归一化层进行归一化后，计算蒸馏损失，表示为：

；

其中，表示矩阵乘法，/>表示层归一化层，/>表示蒸馏损失计算函数，表示利用/>与对应/>计算出的蒸馏损失；遍历所有/>与/>，获得第一部分蒸馏损失，表示为：/>，/>表示利用/>与/>计算出的蒸馏损失，/>表示表示利用/>与/>计算出的蒸馏损失，/>；

分别取出与/>中的全局特征向量，记为/>和/>，根据/>中的全局特征向量/>的尺寸，通过两个全连接层依次对/>中的全局特征向量/>进行映射，完成尺寸对齐，再通过层归一化层进行归一化后，计算蒸馏损失，表示为：

；

其中，表示激活函数；/>为第二部分蒸馏损失，/>与/>表示两个全连接层；

综合两部分蒸馏损失获得对称蒸馏损失，表示为：

；

其中，为对称蒸馏损失。

7.根据权利要求6所述的一种场景文本图像识别方法，其特征在于，蒸馏损失计算函数采用语言一致性损失函数，令：，，且，当/>时，，以及当/>时，；

则语言一致性损失函数表示为：

；

其中，与/>为预定义的权重系数，/>、/>分别表示利用与F计算出的模型内相似度对齐损失、模型间相似度对齐损失，表示为：

；

其中，N表示和F的特征序列长度，/>和/>分别表示/>和F的转置，表示计算/>中所有元素的绝对值之和，为交叉熵损失函数，/>为预定义的温度系数，/>为对角线为1其他元素为0且尺寸为/>的对角矩阵。

8.一种场景文本图像识别系统，其特征在于，包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~7任一项所述的方法。

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。