CN117037136B

CN117037136B - 场景文本识别方法、系统、设备及存储介质

Info

Publication number: CN117037136B
Application number: CN202311305720.4A
Authority: CN
Inventors: 张勇东; 高钻; 谢洪涛; 王裕鑫
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2024-02-23
Anticipated expiration: 2043-10-10
Also published as: CN117037136A

Abstract

本发明公开了一种场景文本识别方法、系统、设备及存储介质，它们是一一对应的方案，方案中：从文本图像天然包含文本序列的阅读顺序和序列中每一个字符的视觉语义概念特性出发，在预训练阶段中实现对视觉空间中文本序列阅读顺序的感知和建模，并进一步地增强了局部的字符视觉语义。通过大量的实验证明了本发明性能优于以往的方法，对于规则，不规则文本以及模糊遮挡等多种真实场景下的文本图像均具备鲁棒的识别效果和先进的识别精度。

Description

场景文本识别方法、系统、设备及存储介质

技术领域

本发明涉及场景文本识别技术领域，尤其涉及一种场景文本识别方法、系统、设备及存储介质。

背景技术

场景文本识别是从多种自然场景图像的裁剪区域中读取文本，一般为读取单词级别的文本。场景文本识别是光符字符识别（Optical Character Recognition，OCR）领域中的一项基础且关键的任务，对于文档图像理解、自动驾驶、信息抽取等领域有着重要的价值和作用。

传统的场景文本识别技术以监督学习的方式在带有标签的合成数据上进行端到端的训练。近年来随着深度学习领域自监督预训练技术的快速发展，越来越多的场景文本识别模型探索如何设计自监督预训练任务来挖掘无标记真实数据上的潜在知识，以提升模型在场景文本识别任务中的精度和鲁棒性。目前场景文本识别中常见的自监督预训练技术主要依赖于对比学习、掩膜图像建模或者是两者的集成。尽管这些方法都取得了一定的成功，但是目前大部分针对场景文本识别的自监督预训练技术是对通用图像分类中的自监督预训练技术的迁移应用，并没有考虑文本图像的特殊性，因此，识别精度还有待提升。

发明内容

本发明的目的是提供一种场景文本识别方法、系统、设备及存储介质，对于规则，不规则文本以及模糊遮挡等多种真实场景下的文本图像均具备鲁棒的识别效果和先进的识别精度。

本发明的目的是通过以下技术方案实现的：

一种场景文本识别方法，包括：

构建包含视觉编码器与图像解码器的多方向重建模型，并进行预训练：对原始文本图像进行处理，获得不同方向的翻转图像，将不同方向的翻转图像分别与原始文本图像叠加后输入至视觉编码器，获得对应的特征表达；将设置的方向提示向量与特征表达输入至图像解码器，获得重建图像，包括重建的原始文本图像与重建的不同方向的翻转图像，结合重建图像的重建效果优化多方向重建模型；

利用预训练后多方向重建模型中的视觉编码器与文本解码器建立场景文本识别模型，并使用带有标注的文本图像对所述场景文本识别模型进行微调训练；

利用微调训练后的场景文本识别模型对输入的文本图像进行文本识别，获得相应文本内容。

一种场景文本识别系统，包括：

模型构建与预训练单元，用于构建包含视觉编码器与图像解码器的多方向重建模型，并进行预训练：对原始文本图像进行处理，获得不同方向的翻转图像，将不同方向的翻转图像分别与原始文本图像叠加后输入至视觉编码器，获得对应的特征表达；将设置的方向提示向量与特征表达输入至图像解码器，获得重建图像，包括重建的原始文本图像与重建的不同方向的翻转图像，结合重建图像的重建效果优化多方向重建模型；

模型构建与微调单元，用于利用预训练后多方向重建模型中的视觉编码器与文本解码器建立场景文本识别模型，并使用带有标注的文本图像对所述场景文本识别模型进行微调训练；

文本识别单元，用于利用微调训练后的场景文本识别模型对输入的文本图像进行文本识别，获得相应文本内容。

一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

由上述本发明提供的技术方案可以看出，从文本图像天然包含文本序列的阅读顺序和序列中每一个字符的视觉语义概念特性出发，在预训练阶段中实现对视觉空间中文本序列阅读顺序的感知和建模，并进一步地增强了局部的字符视觉语义。总体来说，本发明的方案能够提升真实场景下的文本图像的识别精度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种场景文本识别方法的流程图；

图2为本发明实施例提供的预训练方案与微调方案的示意图；

图3为本发明实施例提供的多方向重建可视化效果图；

图4为本发明实施例提供的通用基准评估数据上的识别效果图；

图5为本发明实施例提供的一种场景文本识别系统的示意图；

图6为本发明实施例提供的一种处理设备的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

首先对本文中可能使用的术语进行如下说明：

术语“包括”、“包含”、“含有”、“具有”或其它类似语义的描述，应被解释为非排它性的包括。例如：包括某技术特征要素（如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等），应被解释为不仅包括明确列出的某技术特征要素，还可以包括未明确列出的本领域公知的其它技术特征要素。

下面对本发明所提供的一种场景文本识别方法、系统、设备及存储介质进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者，按照本领域常规条件或制造商建议的条件进行。

实施例一

本发明实施例提供一种场景文本识别方法，如图1所示，其主要包括如下步骤：

步骤1、构建包含视觉编码器与图像解码器的多方向重建模型，并进行预训练。

预训练阶段中，对原始文本图像进行处理，获得不同方向的翻转图像，将不同方向的翻转图像分别与原始文本图像叠加后输入至视觉编码器，获得对应的特征表达；将设置的方向提示向量与特征表达输入至图像解码器，获得重建图像，包括重建的原始文本图像与重建的不同方向的翻转图像，结合重建图像的重建效果优化多方向重建模型，直至模型收敛。

本发明实施例中，主要考虑水平与垂直两个方向，对原始文本图像进行水平翻转操作与垂直翻转操作，可获得水平翻转图像（又称为阅读顺序翻转图像）以及垂直翻转图像。

将原始文本图像和水平翻转图像叠加以构建水平方向叠加图像（又称为阅读顺序叠加图像），通过视觉编码器将阅读顺序叠加图像映射到潜在特征空间中，获得对应的特征表达。并且，通过一对方向提示向量来指导图像解码器对特征表达进行图像重建，具体的，按照从左向右阅读顺序、以及从右向左阅读顺序分别对应的重建出原始文本图像、水平翻转图像。

同样的，将原始文本图像和垂直翻转图像叠加以构建垂直方向叠加图像（又称为语义叠加图像），通过视觉编码器将语义叠加图像映射到潜在特征空间中，获得对应的特征表达。并且，通过一对方向提示向量来指导图像解码器对特征表达进行图像重建，具体的按照从上向下的方向、以及从下向上的方向分别对应的重建出原始文本图像、垂直翻转图像。

本发明实施例中，利用重建图像与对应类别的图像的差异构建损失函数来指导整个训练过程，优化模型的参数（包含视觉编码器与图像解码器的参数），作为举例，可选择均方误差来构建损失函数。

预训练阶段中，在多方向重建的框架下，水平重建指导了视觉空间中的上下文阅读顺序的建模，而垂直重建可以增强局部语义特征。

步骤2、利用预训练后多方向重建模型中的视觉编码器与文本解码器建立场景文本识别模型，并对所述场景文本识别模型进行微调训练。

本发明实施例中，利用预训练后的视觉编码器与文本解码器（随机初始化参数）建立场景文本识别模型，使用带有标注的文本图像对预训练阶段获得的场景文本识别模型进行微调训练。

本发明实施例中，可使用带有标注的文本图像对场景文本识别模型进行微调训练：将文本图像输入至预训练后的视觉编码器，其输出的潜在特征表达经过文本解码器获得识别文本，再结合文本图像的标注构建损失函数，优化场景文本识别模型的参数，直至收敛。作为举例，可选择交叉熵函数作为微调阶段的损失函数。

本领域技术人员可以理解，微调训练为行业术语，表示在预训练的基础上进行参数优化。

步骤3、利用微调训练后的场景文本识别模型对输入的文本图像进行文本识别，获得相应文本内容。

本发明实施例中，微调阶段后的场景文本识别模型可用于实际系统的运行，例如，可以嵌入到智能系统中来实现场景文本识别，作为文本检测模块的后续模块在给定文本区域的位置坐标后，对坐标区域内图像的文本内容进行识别。在实施上，可以以软件的形式安装于服务器或者嵌入智能系统，满足后台大批量的文本识别需求。

本发明实施例中，视觉编码器、图像解码器与文本解码器均可采用现有的网络模型来实现，本发明不针对网络结构进行限定。

为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果，下面以具体实施例对本发明实施例所提供的方法进行详细描述。

一、方案的整体概述。

本发明实施例针对场景文本识别任务提出了建模文本图像中文本序列阅读顺序的自监督预训练方案。

通用图像分类任务中的输入是通常包含一个中心物体（如一只猫、一只狗，一只鸟，等等）的图像，这些一般物体图像的识别只需要视觉语义便可以区分不同的物体类别。而真实场景中的文本图像由特定的字符序列组成，这些字符有不同的阅读顺序（从左到右，从右到左，从上到下和从下到上）。因此，当读取图像中的文本（字符序列）时，人类会关注字符序列的阅读顺序，从而理解全局的语言信息。现有的场景文本识别预训练技术作为通用图像分类中预训练技术变体只能通过学习到文本图像中的视觉语义概念而无法捕捉文本图像中的文本序列的阅读顺序从而学习全局语言信息。

因而本发明通过在叠加增强的输入中重建多方向文本图像，指导模型在视觉空间中建模阅读顺序，以学习语言信息；最终通过微调训练，得到可实际应用的场景文本识别模型。

二、构建多方向重建模型与预训练方案。

如图2所示为预训练方案与微调方案示意图，上半部分（上方虚线框）为预训练方案，所涉及的多方向重建模型主要包括：视觉编码器与图像解码器，预训练中主要是通过引入多方向文本图像重建任务训练多方向重建模型，进而利用视觉编码器构建场景文本识别模型。

下面针对预训练阶段的各个部分做详细的介绍。

1、构建叠加增强的输入图像。

本发明的核心设计是为了指导视觉编码器在视觉上下文中学习字符序列的阅读顺序以及进一步地增强每一个字符的局部视觉语义特征。因此在本发明的预训练框架中，第一步是构造阅读顺序叠加图像和语义叠加图像。本发明利用了以下两个特性：1）水平翻转改变文本图像中文本序列的阅读顺序。2）垂直翻转保持序列的阅读顺序一致性但改变每个字符朝向。

本发明实施例中，首先收集较大规模（440万张）的真实场景无标注文本图像，对于每一原始文本图像，通过水平翻转操作和垂直翻转操作构建两个增强视角的文本图像（水平翻转图像与垂直翻转图像）。对于单个原始文本图像，其中，R为实数集符号，W表示原始文本图像的宽度，H表示原始文本图像的高度，C表示通道数。记/>和分别代表水平和垂直翻转操作。利用水平翻转操作/>得到阅读顺序翻转图像/>（即水平翻转图像），并将其和原始文本图像叠加得到阅读顺序叠加图像/>（即水平方向叠加图像）用于水平方向重建。由垂直翻转操作/>得到的垂直翻转图像/>，并和原始文本图像叠加得到了语义叠加图像/>（即垂直方向叠加图像）以用于垂直方向重建。

之后，以设定的概率（例如，0.5）随机选择水平方向叠加图像与垂直方向叠加图像作为视觉编码器的输入（输入图像）。定义以设定的概率随机选择的操作为/>，最终，完整的叠加增强输入图像可以用如下公式表示：

。

2、利用视觉编码器将输入图像映射到潜在特征表示空间。

本发明实施例中，在获得最终的叠加增强的输入后，利用视觉编码器，将输入映射到潜在特征表示空间中得到/>。对于阅读顺序叠加图像/>，经过视觉编码器得到相应的潜在的特征表达/>，其中包含了从左向右和从右向左两个方向的阅读顺序信息。而由语义叠加图像/> 得到的潜在的特征表达/>包含了正向的字符视觉语义（从上到下视角）和翻转的字符视觉语义。通过视觉编码器获得对应的特征表达的过程表示为：

；

其中，为视觉编码器Enc的输入，/>为对应的特征表达；/>与/>表示视觉编码器Enc中划分窗口的宽度与高度，/>表示视觉编码器输出的特征（即特征表达/>）维度大小。

示例性的：可以使用ViT（Vision Transformer，视觉变压器）模型作为视觉编码器。

3、方向提示解码策略。

本发明实施例中，多方向重建的目标共有三个，分别是原始文本图像，水平翻转图像/>以及垂直翻转图像/>。

本发明实施例中，通过设置一组可学习特征向量（方向提示向量）来指导解码重建相应的图像，主要包括：正向提示向量与反向的可学习提示向量；其中，正向提示向量用于指导图像解码器重建原始文本图像，对于阅读顺序叠加图像/>的特征表达/>，正向提示向量/>代表重建从左向右阅读顺序下的视图，而对于语义叠加图像/>的特征表达/>则代表重建从上至下的视图；反向的可学习提示向量用于指导图像解码器重建出不同方向的翻转图像，即重建水平翻转图像/>以及垂直翻转图像/>，具体的，反向的可学习提示向量包括：第一反向的可学习提示向量/>，第二反向的可学习提示向量/>，二者分别用于指导图像解码器重建水平翻转图像/>和垂直翻转图像/>。

为便于理解，下面参照图2逐一介绍两部分解码的过程。

（1）当视觉编码器的输入为水平翻转图像与原始文本图像叠加后获得的水平方向叠加图像时，将设置的方向提示向量与对应的特征表达拼接后输入至图像解码器；结合设置的方向提示向量中的正向提示向量，按照从左向右阅读顺序重建原始文本图像，获得重建的原始文本图像；结合设置的方向提示向量中的反向的可学习提示向量（即第一反向的可学习提示向量），按照从右向左阅读顺序重建水平翻转图像，获得重建的水平翻转图像。

（2）当视觉编码器的输入为垂直翻转图像与原始文本图像叠加后获得的垂直方向叠加图像时，将设置的方向提示向量与对应的特征表达拼接后输入至图像解码器；结合设置的方向提示向量中的正向提示向量，按照从上向下的方向重建原始文本图像，获得重建的原始文本图像；结合设置的方向提示向量中的反向的可学习提示向量（即第二反向的可学习提示向量），按照从下向上的方向重建垂直翻转图像，获得重建的垂直翻转图像。

本发明实施例中，在解码阶段的设计上，采用轻量化的设计，即将可学习方向提示向量和特征表达进行拼接作为图像解码器的输入，并采用较少层数的图像解码器来重建相应的图像。通过这种设计，本发明可以防止过于强大的解码策略阻碍视觉编码器对于文本序列阅读顺序的理解和对局部字符视觉语义的区分能力的学习，进一步增强视觉编码器的特征表征能力。

如图2所示，可使用一个方向嵌入模块来生成方向提示向量，其中的0、1、2为标识符号，分别代表了预训练阶段的图像重建目标分别是原始文本图像、水平翻转图像以及垂直翻转图像，以上三个标识符号仅为举例，在实际应用中，用户可根据实际情况进行调整。视觉编码器与图像解码器中四行方框是可学习方向提示向量和特征表达进行拼接得到的信息，其中，未填充的方框表示特征表达，使用横线、竖线、斜线填充的方框为三种方向提示向量。

本发明实施例中，预训练阶段的任务为多方向文本图像重建任务，利用原始文本图像，水平翻转图像/>以及垂直翻转图像/>作为目标图像，计算图像解码器生成的特定方向重建图像（即重建原始文本图像/>，重建水平翻转图像/>以及垂直翻转图像/>）和目标图像之间的损失来优化模型的参数。此阶段优化的模型参数包括：视觉编码器与图像解码器的参数。

示例性的，可采用AdamW（一种自适应的学习率优化算法）作为优化器，在收集的440万张真实场景下的无标注文本图像上进行预训练。初始学习率为1e-3，共计训练20轮，学习率预热设置为1轮，在训练过程中采用余弦衰减的方式更新学习率。权重衰减设置为0.05，优化器动量参数设置为0.9和0.95，批处理大小设置为1024。此外，原始文本图像尺寸为32×128，视觉编码器中划分窗口大小为4×4。

三、构建场景文本识别模型与微调方案。

在预训练完成后，将预训练得到的视觉编码器的参数作为场景文本识别微调时的初始化参数。对于所有基于上述视觉编码器构建的场景文本识别模型均可以使用本发明来预训练视觉编码器以获得更好的识别精度和鲁棒性。在微调过程中，采用和预训练阶段同样的视觉编码器架构和参数规模，相同的图像分辨率尺寸和窗口大小，直观来说是取出预训练后的视觉编码器，并与文本解码器组成场景文本识别模型，再进行微调训练，如图2下半部分（下方虚线框）所示。

微调训练时，使用带有标注的文本图像作为训练数据，输入场景文本识别模型，获得识别文本，利用识别结果与对应标注构建损失函数（例如，可使用交叉熵损失函数），进而优化场景文本识别模型，模型收敛后可用于后续推理阶段。

示例性的：训练数据使用合成数据集MJSynth和SynthText（二者均为带标注的文本图像），可采用交叉熵函数来指导整个序列识别。微调训练共计20轮，训练的学习率初始设定为7e-4，权重衰减为0.0，采用AdamW作为优化器，批处理大小设置为384，在训练过程中采用SWA衰减（随机权重衰减）的方式更新学习率，学习率预热设置为1.5轮。

四、推理方案介绍。

获得微调训练后的场景文本识别模型后，可以用于实际系统的运行，将待识别的文本图像缩放至指定的尺寸，再通过视觉编码器与文本解码器进行文本识别，获得相应文本内容。

五、效果评估。

为了验证本发明的有效性，本发明在6个通用评估基准数据集和多个具有挑战性的其他数据集上进行了验证评估，评估指标采用单词准确率。本发明实现的两个参数规模的模型（分别以S和B在下文中标识）均达到了先进的性能。

IC13：该数据集分为包含857张和1015张规则文本的两个版本，本发明实现的两个参数规模的模型在IC13两个版本数据集上取得了97.1%（857，S），97.6%（857，B），95.9%（1015，S），96.8%（1015，B）。

SVT和IIIT5K：均为规则文本图像数据集分别包含647张和3000张文本图像，本发明在这两个数据集上取得的精度分别为：95.7%（SVT，S），95.7%，（SVT，B），97.6%（IIIT5K，S），97.5%（IIIT5K，B）。

IC15：该数据集分为包含1811张和2077张规则文本的两个版本，本发明实现的两个参数规模的模型在IC15两个版本数据集上取得了86.5%（1811，S），87.6%（1811，B）82.8%（2077，S），83.7%（2077，B）。

SVTP和CUTE：均为不规则文本图像数据集分别包含645和288张文本图像。本发明在这两个数据集上取得的精度分别为：90.9%（SVTP，S），91.6%（SVTP，B），92.4%（CUTE，S），94.1%（CUTE，B）。

本发明在其他真实数据集上的性能评估详细见表1。

表1：多种真实数据集上的文本识别精度

模型	ArT	COCO	Uber	CTW	TT	HOST	WOST	参数量
									MDR-S	70.7	65.8	43.2	78.8	82.0	71.0	81.9	23.8M
MDR-B	71.8	67.1	43.8	80.5	82.8	75.5	84.4	94.8M

表1中，MDR指代本发明场景文本识别模型，S与B指代两个参数规模。ArT、COCO、Uber、CTW、TT、HOST、WOST均为现有的真实数据集。

此外，图3和图4是本发明在预训练数据上多方向重建可视化图以及在通用基准评估数据上的识别效果。

图3中：左列（即标记为A的虚线框部分）是重建水平方向上阅读顺序叠加输入的效果图，右列（即标记为B的虚线框部分）是重建垂直方向上语义叠加输入的效果图，GT表示原始文本图像， HS表示阅读顺序翻转图像，VS表示语义叠加图像，Pre.表示GT的重建图像，GT-H表示GT的水平翻转图像，GT-V表示GT的垂直翻转图像，Pre.-H表示重建的GT的水平翻转图像，Pre.-V表示重建的GT的垂直翻转图像。

图4中：每一图像右侧的第一行文本为基线模型（PARSeq，基于排列自回归序列模型的场景文本识别模型）的识别效果，第二行文本为通过本发明中提供的方案优化基线模型（也即，取出基线模型原有的视觉编码器进行预训练，再基于基线模型的整体结构利用预训练后的视觉编码器作为视觉编码器的初始化参数进行微调训练）后的识别效果，矩形框代表预测缺失，可以看到可以第一行基线模型识别结果错误较多错误以及预测确实的情况，而通过本发明提供的预训练方案进行优化后识别效果得到了明显的提升。

通过以上大量的实验证明了本发明性能优于以往的方法，对于规则，不规则文本以及模糊遮挡等多种真实场景下的文本图像具备鲁棒的识别效果和先进的识别精度。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

实施例二

本发明还提供一种场景文本识别系统，其主要用于实现前述实施例提供的方法，如图5所示，该系统主要包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

实施例三

本发明还提供一种处理设备，如图6所示，其主要包括：一个或多个处理器；存储器，用于存储一个或多个程序；其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述实施例提供的方法。

进一步的，所述处理设备还包括至少一个输入设备与至少一个输出设备；在所述处理设备中，处理器、存储器、输入设备、输出设备之间通过总线连接。

本发明实施例中，所述存储器、输入设备与输出设备的具体类型不做限定；例如：

输入设备可以为触摸屏、图像采集设备、物理按键或者鼠标等；

输出设备可以为显示终端；

存储器可以为随机存取存储器（Random Access Memory，RAM），也可为非不稳定的存储器（non-volatile memory），例如磁盘存储器。

实施例四

本发明还提供一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述实施例提供的方法。

本发明实施例中可读存储介质作为计算机可读存储介质，可以设置于前述处理设备中，例如，作为处理设备中的存储器。此外，所述可读存储介质也可以是U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种场景文本识别方法，其特征在于，包括：

构建包含视觉编码器与图像解码器的多方向重建模型，并进行预训练：对原始文本图像进行处理，获得不同方向的翻转图像，将不同方向的翻转图像分别与原始文本图像叠加后输入至视觉编码器，视觉编码器将输入映射到潜在特征表示空间中获得对应的特征表达；将设置的方向提示向量与特征表达输入至图像解码器，获得重建图像，包括重建的原始文本图像与重建的不同方向的翻转图像，结合重建图像的重建效果优化多方向重建模型；

利用微调训练后的场景文本识别模型对输入的文本图像进行文本识别，获得相应文本内容；

所述将设置的方向提示向量与特征表达输入至图像解码器，获得重建图像包括：

当视觉编码器的输入为水平翻转图像与原始文本图像叠加后获得的水平方向叠加图像时，将设置的方向提示向量与对应的特征表达拼接后输入至图像解码器；结合设置的方向提示向量中的正向提示向量，按照从左向右阅读顺序重建原始文本图像，获得重建的原始文本图像；结合设置的方向提示向量中的反向的可学习提示向量，按照从右向左阅读顺序重建水平翻转图像，获得重建的水平翻转图像；

当视觉编码器的输入为垂直翻转图像与原始文本图像叠加后获得的垂直方向叠加图像时，将设置的方向提示向量与对应的特征表达拼接后输入至图像解码器；结合设置的方向提示向量中的正向提示向量，按照从上向下的方向重建原始文本图像，获得重建的原始文本图像；结合设置的方向提示向量中的反向的可学习提示向量，按照从下向上的方向重建垂直翻转图像，获得重建的垂直翻转图像。

2.根据权利要求1所述的一种场景文本识别方法，其特征在于，所述对原始文本图像进行处理，获得不同方向的翻转图像包括：

对原始文本图像进行水平翻转操作与垂直翻转操作，获得水平翻转图像以及垂直翻转图像。

3.根据权利要求1所述的一种场景文本识别方法，其特征在于，所述将不同方向的翻转图像分别与原始文本图像叠加后输入至视觉编码器包括：

所述不同方向的翻转图像包括：水平翻转图像以及垂直翻转图像；

水平翻转图像与原始文本图像叠加后称为水平方向叠加图像，垂直翻转图像与原始文本图像叠加后称为垂直方向叠加图像；

以设定的概率随机选择水平方向叠加图像与垂直方向叠加图像作为视觉编码器的输入。

4.根据权利要求1或3所述的一种场景文本识别方法，其特征在于，获得对应的特征表达的过程表示为：

；

其中，为视觉编码器Enc的输入，/>为对应的特征表达；R为实数集符号；W与H分别为原始文本图像的宽度与高度；/>与/>表示视觉编码器Enc中划分窗口的宽度与高度，表示视觉编码器输出的特征维度大小。

5.根据权利要求1所述的一种场景文本识别方法，其特征在于，所述设置的方向提示向量包括：正向提示向量与反向的可学习提示向量；其中，正向提示向量用于指导图像解码器重建原始文本图像，反向的可学习提示向量用于指导图像解码器重建不同方向的翻转图像。

6.一种场景文本识别系统，其特征在于，包括：

模型构建与预训练单元，用于构建包含视觉编码器与图像解码器的多方向重建模型，并进行预训练：对原始文本图像进行处理，获得不同方向的翻转图像，将不同方向的翻转图像分别与原始文本图像叠加后输入至视觉编码器，视觉编码器将输入映射到潜在特征表示空间中获得对应的特征表达；将设置的方向提示向量与特征表达输入至图像解码器，获得重建图像，包括重建的原始文本图像与重建的不同方向的翻转图像，结合重建图像的重建效果优化多方向重建模型；

文本识别单元，用于利用微调训练后的场景文本识别模型对输入的文本图像进行文本识别，获得相应文本内容；

7.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1~5任一项所述的方法。

8.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~5任一项所述的方法。