CN114639096A

CN114639096A - 文本识别方法、装置、电子设备和存储介质

Info

Publication number: CN114639096A
Application number: CN202210430877.9A
Authority: CN
Inventors: 秦勇
Original assignee: Shenzhen Xingtong Technology Co ltd
Current assignee: Shenzhen Xingtong Technology Co ltd
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-06-17

Abstract

本公开涉及一种文本识别方法、装置、电子设备和存储介质。本公开提供的方法通过获取待识别的目标文本图像；使用预先训练的文本识别模型对目标文本图像进行识别，利用文本识别模型中的特征提取层提取目标文本图像的特征，得到多个具有不同维度的特征映射，利用文本识别模型中的注意力层基于多个具有不同维度的特征映射和获取的多个预设维度的位置编码生成多个上下文向量，将多个上下文向量分别输入到文本识别模型中的多个并行的解码层进行解码，生成目标文本图像对应的多个识别结果；根据多个识别结果得到目标文本图像对应的最终识别结果。本公开能够快速准确的识别出文本图像中的字符。

Description

文本识别方法、装置、电子设备和存储介质

技术领域

本公开涉及文本识别技术领域，尤其涉及一种文本识别方法、装置、电子设备和存储介质。

背景技术

随着图像处理技术的发展，图像处理技术逐渐被应用在文本识别领域，常见的文本识别方法多是同时得到对于每个字符的识别结果或者依次得到对于每个字符的识别结果，容易出现累计误差，导致识别精度比较低，且对于长文本来说识别的效果也比较差。

发明内容

为了解决上述技术问题，本公开提供了一种文本识别方法，能够快速准确的对文本图像中的字符进行识别。

根据本公开的一方面，提供了一种文本识别方法，包括：

获取待识别的目标文本图像；

使用预先训练的文本识别模型对所述目标文本图像进行识别，利用所述文本识别模型中的特征提取层提取所述目标文本图像的特征，得到多个具有不同维度的特征映射，利用所述文本识别模型中的注意力层基于所述多个具有不同维度的特征映射和获取的多个预设维度的位置编码生成多个上下文向量，将所述多个上下文向量分别输入到所述文本识别模型中的多个并行的解码层进行解码，生成所述目标文本图像对应的多个识别结果；

根据所述多个识别结果得到所述目标文本图像对应的最终识别结果。

根据本公开的另一方面，提供了一种文本识别装置，包括：

获取单元，用于获取待识别的目标文本图像；

第一识别单元，用于使用预先训练的文本识别模型对所述目标文本图像进行识别，利用所述文本识别模型中的特征提取层提取所述目标文本图像的特征，得到多个具有不同维度的特征映射，利用所述文本识别模型中的注意力层基于所述多个具有不同维度的特征映射和获取的多个预设维度的位置编码生成多个上下文向量，将所述多个上下文向量分别输入到所述文本识别模型中的多个并行的解码层进行解码，生成所述目标文本图像对应的多个识别结果；

第二识别单元，用于根据所述多个识别结果得到所述目标文本图像对应的最终识别结果。

根据本公开的另一方面，提供了一种电子设备，所述电子设备包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行上述文本识别方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行上述文本识别方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述文本识别方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开提供的方法通过获取待识别的目标文本图像；使用预先训练的文本识别模型对目标文本图像进行识别，利用文本识别模型中的特征提取层提取目标文本图像的特征，得到多个具有不同维度的特征映射，利用文本识别模型中的注意力层基于多个具有不同维度的特征映射和获取的多个预设维度的位置编码生成多个上下文向量，将多个上下文向量分别输入到文本识别模型中的多个并行的解码层进行解码，生成目标文本图像对应的多个识别结果；根据多个识别结果得到目标文本图像对应的最终识别结果。本公开能够快速准确的识别出文本图像中的字符，且识别精度比较高。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种应用场景的示意图；

图2为本公开实施例提供的一种文本识别模型训练方法的流程图；

图3为本公开实施例提供的一种文本识别模型的网络结构图；

图4为本公开实施例提供的一种文本识别方法的流程图；

图5为本公开实施例提供的一种文本识别方法的流程图；

图6为本公开实施例提供的一种文本识别装置的结构示意图；

图7为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

针对上述技术问题，本公开实施例提供了一种文本识别方法，具体的通过下述一个或多个实施例进行详细说明。

具体的，文本识别方法可以由终端或服务器来执行。具体的，终端或服务器可以通过文本识别模型对待识别的目标文本图像中的文本进行识别。文本识别模型的训练方法的执行主体和文本识别方法的执行主体可以相同，也可以不同。

例如，在一种应用场景中，如图1所示，图1为本公开实施例提供的一种应用场景的示意图，利用图1中服务器12对文本识别模型进行训练。终端11从服务器12获取训练完成的文本识别模型，终端11通过该训练完成的文本识别模型对待识别的目标文本图像中的文本进行识别。该待识别的目标文本图像可以是终端11拍摄获得的。或者，该待识别的目标文本图像是终端11从其他设备中获取的。再或者，该待识别的目标文本图像是终端11对预设图像进行处理后得到的图像，该预设图像可以是终端11拍摄获得的，或者该预设图像可以是终端11从其他设备中获取的。此处，并不对其他设备做具体限定。

在另一种应用场景中，服务器12对文本识别模型进行训练。进一步，服务器12通过训练完成的文本识别模型对待识别的目标文本图像中的文本进行识别。服务器12获取待识别的目标文本图像的方式可以类似于如上所述的终端11获取待识别的目标文本图像的方式，此处不再赘述。

在又一种应用场景中，终端11对文本识别模型进行训练。进一步，终端11通过训练完成的文本识别模型对待识别的目标文本图像中的文本进行识别。

可以理解的是，本公开实施例提供的文本识别模型训练方法、文本识别方法并不限于如上所述的几种可能场景。由于训练完成的文本识别模型可应用在文本识别方法中，因此，在介绍文本识别方法之前，下面可以先介绍一下文本识别模型训练方法。

下面以服务器12训练文本识别模型为例，介绍一种文本识别模型训练方法，即文本识别模型的训练过程。可以理解的是，该文本识别模型训练方法同样适用于终端11训练文本识别模型的场景中。

图2为本公开实施例提供的一种文本识别模型训练方法的流程图，具体包括如图2所示的如下步骤S210至S240：

S210、获取样本图像和样本图像对应的标注信息。

可理解的，获取大量样本图像作为文本识别模型的训练数据集，训练数据集中具体可以包括包括直文本、倾斜文本和弯曲文本图像，还可以包括常规的模糊、影印的文本图像，以及其他形式的文本图像，文本图像可以是单行文本图像，也可以是由多行文本图像得到的多个单行文本图像；随后将训练数据集中的每个样本图像上的字符进行标注，得到样本图像对应的标注信息，标注信息为样本图像中文本的准确识别结果，其中，可以将训练数据集中部分样本图像作为训练样本，剩余样本图像作为测试样本，用于确定文本识别模型在训练过程中的识别精度；将样本图像上的字符进行标注后，根据标注的每个样本图像对应的标注信息构建文本识别模型的字典，字典中包括样本图像涉及到的每个字符，且字典中不存在重复的字符，文本识别模型在自动识别文本图像中字符的过程中，会在字典中确定和文本图像上相似度较高的字符，得到最终的识别结果。

S220、利用所述样本图像对构建的文本识别模型进行训练，生成多个识别结果。

可理解的，在上述S210的基础上，构建文本识别模型，随后利用训练数据集对构建的文本识别模型进行训练，输出样本图像对应的多个识别结果，其中，训练数据集中的每个样本图像都存在多个对应的识别结果，识别结果可以是字符串形式的。

示例性的，参见图3，图3为本公开实施例提供的一种文本识别模型的网络结构图。图3中文本识别模型300包括特征提取层310、位置编码器320、注意力层330和多个解码层340。其中，特征提取层310包括残差网络层311、长短时记忆网络层312和多个卷积块313，残差网络层311以残差网络作为骨干网络，残差网络可以是Resnet18，残差网络包含4个block块，每个block块包括若干卷积层，通过调节不同block块中卷积操作的滑动步幅长度得到样本图像的特征信息，长短时记忆网络层312是由两层双向长短期记忆网络(LSTM，LongShort-Term Memory)组成的，长短时记忆网络层312的输入为残差网络层311的输出的特征映射，随后同样输出具有相同维度的特征映射，特征映射的维度记为假定其特征映射的维度为(B，H，H*L，C)，其中，B指批量大小，H是高度，L是设定的最大字符数量，C是每个特征向量维度，残差网络层311和长短时记忆网络层312输出的特征映射的高度大于1；多个卷积块313可以理解为层次特征映射生成部分，主要是对长短时记忆网络层312提取到的一组特征映射进行上下文建模，进行强化，输出强化后的多个特征映射，多个卷积块313依次相连，多个卷积块313中的第一卷积块的输入为长短时记忆网络层312输出的一组特征映射，除第一卷积块的之外的其他卷积块的输入为前一个卷积块的输出，且每个卷积块输出的特征映射的高是输入的特征映射的高度的一半，每个卷积块输出的特征映射作为注意力层330的输入，也就是注意力层330的输入包括多个具有不同维度的特征映射，其中，卷积块包括多个卷积层，具体的，图3中示出了3个卷积块，特征提取层310包括3个卷积块313记为第一卷积块、第二卷积块和第三卷积块，3个卷积块313输出3个特征映射，且每个特征映射的维度不同，每个卷积块313包括3个卷积层，第一个卷积层卷积核大小为1*1，第二个卷积层卷积核大小为3*3，第三个卷积层卷积核大小为1*1，例如，残差网络层311输出的特征映射的高度为8，长短时记忆网络层312输出的特征映射的高度为为8，第一卷积块输出的特征映射的高度为4，第二卷积块输出的特征映射的高度为2，第三卷积块输出的特征映射的高度为1。位置编码器320包括词嵌入层321和单层双向长短期记忆网络层322，具体的，位置编码器320可以包括一个词嵌入层321和一个单层双向长短期记忆网络层322，位置编码器320的作用是对0-L(L表示设置的最大字符串长度)个位置中每个位置提供一个预设维度的位置编码，该位置编码作为注意力层330每个时间步的查询参数(Query)，时间步长可以设置为10；注意力层330可以包括多个并行的注意力子层，图3示出了3个注意力子层，分别记为第一注意力子层、第二注意力子层和第三注意力子层，特征提取层310输出的多个特征映射作为注意力层的输入，针对每个注意力子层，输入为特征提取层310输出的一个特征映射以及位置编码器320输出的位置编码，位置编码器320输出的位置编码作为查询参数(Query)，特征提取层310输出的一个特征映射作为键(Key)和值(Value)，每个注意力子层输出一个上下文向量；多个解码层340的输入为注意力层330输出的多个上下文向量，每个解码层的输入为注意力层330输出的一个上下文向量，输出一个高维张量，高维张量是预测得到样本图像上文本的字符识别结果对应的概率矩阵，概率矩阵的大小和构建的字典的大小相同，概率矩阵示出了样本图像中的字符和字典中字符的相似度，相似度较高的字符为最终的字符识别结果，多个解码层针对一个样本图像会输出多个识别结果，每个解码层输出一个概率矩阵，一个概率矩阵对应一个识别结果，具体的，文本识别模型300中包括3个并行的解码层340，3个并行的解码层记为第一解码层、第二解码层和第三解码层，针对一个样本图像输出3个识别结果，图3中示出了每个注意力子层的输入是卷积块的输出，每个注意力子层的输出是解码层的输入；得到多个识别结果后，可以在多个识别结果中随机挑选一个识别结果作为样本图像对应的最终的识别结果，或者，对于每个字符采用投票的方式，即同一字符位置，统计3个识别结果中的字符出现的次数，将字符出现次数最多的字符作为样本图像对应的最终的识别结果，例如，3个识别结果中第一个字符位置出现的字符分别是“本”“本”“木”，将出现次数对多的“本”作为第一个字符位置的识别结果。

S230、根据所述多个识别结果和所述标注信息计算损失值，得到多个损失值。

可理解的，在上述S220的基础上，得到多个识别结果后，针对每个识别结果，采用多分类交叉熵损失函数计算每个识别结果和标注信息的损失值，得到多个损失值，也就是只计算多个解码层的损失值。

S240、通过所述多个损失值的和更新所述文本识别模型的网络参数。

可理解的，在上述S230的基础上，得到多个损失值后，计算总的损失值，总的损失值为多个解码层损失值之和，随后根据总的损失值更新文本识别模型的网络参数，每次迭代训练都计算损失值更新文本识别模型的网络参数，直至训练收敛，得到具有高识别精度的文本识别模型。

本公开提供的一种文本识别模型的训练方法，通过收集大量样本图像对构建的文本识别模型进行训练，利用多个解码层输出的多个识别结果和样本图像对应的标记信息计算损失值，根据损失值更新文本识别模型的网络参数，能够得到识别精度较高的文本识别模型，且训练的速度也比较快。

在上述实施例的基础上，得到训练完成的文本识别模型后，可以基于文本识别模型实现文本识别方法，具体的，图4为本公开实施例提供的一种文本识别方法的流程图，具体包括如图4所示的如下步骤S410至S430：

S410、获取待识别的目标文本图像。

可理解的，获取待识别的目标文本图像，目标文本图像可以是单行文本图像。

S420、使用预先训练的文本识别模型对所述目标文本图像进行识别，利用所述文本识别模型中的特征提取层提取所述目标文本图像的特征，得到多个具有不同维度的特征映射，利用所述文本识别模型中的注意力层基于所述多个具有不同维度的特征映射和获取的多个预设维度的位置编码生成多个上下文向量，将所述多个上下文向量分别输入到所述文本识别模型中的多个并行的解码层进行解码，生成所述目标文本图像对应的多个识别结果。

可理解的，在上述S410的基础上，使用上述训练得到的文本识别模型对目标文本图像上的字符进行识别，具体的，文本识别模型内部的实现流程包括：利用文本识别模型中的特征提取层提取目标文本图像的特征，得到多个具有不同维度的特征映射，且得到的多个具有不同维度的特征映射中至多只有一个特征映射的高度等于1，其余特征映射的高度都大于1；得到多个特征映射后，利用所述文本识别模型中的多个并行的注意力层基于所述多个具有不同维度的特征映射和获取的多个预设维度的位置编码生成多个上下文向量，采用并行的注意力层计算上下文向量能够提高计算速度，进一步加快文本识别速度，其中每个注意力层基于一个特征映射和位置编码生成一个上下文向量，例如得到3个特征映射，文本识别模型包括3个并行的注意力子层，每个注意力子层处理一个特征映射生成一个上下文向量，最后得到3个不同的上下文向量，因输入的特征映射的维度不同得到的3个上下文向量也会不同，维度大的特征映射包含更多的空间特征，识别的精度会比较高；得到多个上下文向量后，将所述多个上下文向量分别输入到所述文本识别模型中的多个并行的解码层进行解码，每个解码层按照时间步对输入的一个上下文向量进行解码，生成所述目标文本图像对应的多个识别结果，例如，第一个上下文向量输入到第一解码层，第二个上下文向量输入到第二解码层，以此类推，直至每个解码层都输入了一个上下文向量，采用多个并行的解码层得到多个识别结果，在提高识别准确率的同时，有效的加快了识别速度。

可选的，所述特征提取层包括多个具有相同结构的卷积块，所述多个具有相同结构的卷积块依次连接；所述多个具有不同维度的特征映射包括多个具有不同维度的第二特征映射，或者，所述多个具有不同维度的特征映射包括多个具有不同维度的第二特征映射和第一特征映射；所述特征提取层还包括长短时记忆网络层。

可选的，上述S420中所述利用所述文本识别模型中的特征提取层提取所述目标文本图像的特征，得到多个具有不同维度的特征映射，具体包括如下所示的步骤S421至S422：

S421、利用所述长短时记忆网络层提取所述目标文本图像的特征，得到第一特征映射。

S422、将提取的所述目标文本图像的第一特征映射输入到所述多个卷积块中进行卷积，所述多个卷积块中每个卷积块依次输出一个特征映射，得到所述多个具有不同维度的第二特征映射；其中，所述特征映射的维度包括所述特征映射的高度；针对每个卷积块，输出的特征映射的高度是输入的特征映射的高度的一半。

可理解的，利用残差网络层提取目标文本图像的特征，得到一组特征映射；随后将该组特征映射输入到长短时记忆网络层，长短时记忆网络层对该组特征映射进行强化，得到第一特征映射，第一特征映射的维度和残差网络层输出的一组特征映射的维度相同；利用第一卷积块对第一特征映射进行采样，输出一个第二特征映射，第二特征映射的高度为第一特征映射的高度的一半，随后第二卷积块对第一卷积块输出的第二特征映射进行采样，同样输出一个第二特征映射，该第二特征映射的高度为输入的特征映射高度的一半，每个卷积块依次连接，前一个卷积块的输出是后一个卷积块的输入，以此类推，直至最后一个卷积块输出一个第二特征映射。可理解的是，根据文本识别模型中解码层的数量在特征提取层输出的多个特征映射中选取对应数量的特征映射，例如，文本识别模型包括4个解码层，特征提取层包括3个卷积块，该种情况下，可以将1个第一特征映射和3个第二特征映射按照维度顺序作为注意力层的输入，例如根据高度进行排序，4个并行的注意力子层会同时输出4个上下文向量作为4个解码层的输入，还例如，文本识别模型包括3个解码层，特征提取层包括3个卷积块，该种情况下，可以将3个第二特征映射按照维度顺序作为注意力层的输入，4个并行的注意力子层会同时输出4个上下文向量，将4个上下文向量中的前3个上下文向量作为3个解码层的输入，注意力子层输出的最后一个上下文向量可能是空。

可选的，上述S420中所述将所述多个上下文向量分别输入到所述文本识别模型中的多个并行的解码层进行解码，生成所述目标文本图像对应的多个识别结果，具体还包括如下所示的步骤S423至S424：

S423、在所述多个上下文向量中选取多个目标上下文向量，其中，所述目标上下文向量的数量和所述文本识别模型中包括的解码层的数量相同。

S424、利用所述文本识别模型中的多个并行的解码层对所述多个目标上下文向量进行解码，生成所述目标文本图像对应的多个识别结果，其中，每个解码层的输入为一个目标上下文向量，输出为一个识别结果。

可理解的，在注意力层生成的多个上下文向量中选取多个目标上下文向量，注意力层包括多个并行的注意力子层，每个注意力子层会输出至少一个上下文向量，例如，针对3个具有不同维度的特征映射，第三注意力子层在对第三个特征映射进行处理时，输出了1个上下文向量，第二注意力子层在对第二个特征映射进行处理时，输出了2个上下文向量，第一注意力子层在对第一个特征映射进行处理时，同样输出了1个上下文向量，注意力层输出了4个上下文向量，文本识别模型包括3个解码层，该种情况下，可以根据解码层的数量在4个上下文向量中选取3个目标上下文向量作为3个解码层的输入，选取方式不作限定，可以随机选取，也可以自行设定选取。确定和解码层数量相同的目标上下文向量后，利用所述文本识别模型中的多个并行的解码层对所述多个目标上下文向量进行解码，生成所述目标文本图像对应的多个识别结果，其中，每个解码层的输入为一个目标上下文向量，输出为一个识别结果，且每个解码层输入的目标上下文向量不同。

S430、根据所述多个识别结果得到所述目标文本图像对应的最终识别结果。

可理解的，在上述S420的基础上，得到文本识别模型输出的所述目标文本图像对应的多个识别结果后，可以在多个识别结果中随机挑选一个识别结果作为目标文本图像对应的最终的识别结果，或者，对于每个字符采用投票的方式，即同一字符位置，例如，文本识别模型输出4个识别结果，统计4个识别结果中字符出现的次数，将字符出现次数最多的字符作为目标文本图像对应的最终识别结果，4个识别结果中第一个字符位置出现的字符分别是“本”“本”“本”“木”，将出现次数对多的“本”作为第一个字符位置的识别结果。

本公开提供的一种文本识别方法，通过特征提取层获取多个具有不同维度的特征映射，多个具有不同维度的特征映射的高度不同，通过增加特征映射的高度，有效的保留了目标文本图像的空间结构信息，随后利用注意力层和解码层随着时间步对重点的特征进行选择，同时在同一个时间步，选择多种特征使得输出的识别结果更加准确，另外基于多个并行的注意力子层根据不同维度的特征映射得到多个上下文向量，再通过多个并行的解码层对多个上下文向量进行解码得到多个识别结果，也就是针对同一个字符会存在多个识别结果，在多个识别结果中确定最终的识别结果，采用并行的结果在加快识别速度的同时，还能有效提高文本识别模型的识别精度，提高文本识别的准确率。

在上述实施例的基础上，图5为本公开实施例提供的一种文本识别方法的流程图，可选的，所述利用所述文本识别模型中的注意力层基于所述多个具有不同维度的特征映射和获取的多个预设维度的位置编码生成多个上下文向量，具体包括如图5所示的如下步骤S510至S520：

S510、利用所述文本识别模型中的位置编码器生成多个预设维度的位置编码，其中，生成所述位置编码的数量是根据设置的最大字符串的长度确定的。

可理解的，利用所述文本识别模型中的位置编码器生成多个预设维度的位置编码，生成的每个位置编码的维度相同，其中，生成所述位置编码的数量是根据设置的最大字符串的长度确定的，最大字符串的长度是指文本识别模型可识别的字符的长度，例如单行文本的最大字符串长度为20，也就是单行文本最多包括20个字符。

S520、通过所述文本识别模型中的注意力层，根据所述多个具有不同维度的特征映射和所述多个预设维度的位置编码计算注意力得分，并根据所述注意力得分对所述多个具有不同维度的特征映射进行加权平均，生成多个上下文向量。

可理解的，在上述S510的基础上，注意力层包括多个注意力子层，每个注意力例子层都会计算特征提取层输出的特征映射和所述多个预设维度的位置编码的注意力得分，得到多个注意力得分，其中，多个具有不同维度的特征映射可能包括一个第一特征映射和多个第二特征映射，随后根据多个注意力得分对每个注意力得分对应的特征映射进行加权平均，生成多个上下文向量，每个特征映射对应一个注意力得分，每个特征映射和其对应的注意力得分可以得到至少一个上下文向量，也就是存在一个注意力子层输出多个上下文向量的情况，即在每个时间步选择多个特征得到多个上下文向量，以此来提高识别的准确率。具体的，多个注意力子层生成上下文向量的方法具体包括如下所示的两种方法。

可选的，所述多个具有不同维度的特征映射包括第一特征映射、第二特征映射和第三特征映射，其中，所述第二特征映射的维度大于所述第三特征映射的维度且小于所述第一特征映射的维度。

可选的，上述S520中生成上下文向量的一种实现方式具体包括如下所示的步骤S521至S523：

S521、根据所述第三特征映射和所述多个预设维度的位置编码计算注意力得分，根据计算得到的第一得分对所述第三特征映射进行加权平均生成第一上下文向量，同时基于所述第一得分在所述第三特征映射中确定至少一个第一像素点位置。

S522、通过所述至少一个第一像素点位置在所述第二特征映射中确定至少一个第一目标区域，根据所述至少一个第一目标区域和所述多个预设维度的位置编码计算注意力得分，根据计算得到的至少一个第二得分对所述至少一个第一目标区域进行加权平均生成至少一个第二上下文向量，同时基于所述至少一个第二得分在所述第二特征映射中确定至少一个第二像素点位置。

S523、通过所述至少一个第二像素点位置在所述第一特征映射中确定至少一个第二目标区域，根据所述至少一个第二目标区域和所述多个预设维度的位置编码计算注意力得分，根据计算得到的至少一个第三得分对所述至少一个第二目标区域进行加权平均生成至少一个第三上下文向量。

可选的，所述第一上下文向量、所述第二上下文向量和所述第三上下文向量组成多个上下文向量。

可理解的，以注意力层处理3组具有不同维度的特征映射为例，第三特征映射至第一特征映射的维度为((B，4，4L，C)，(B，2，2L，C)，(B，1，L，C))，根据每个特征映射的维度可知，第三特征映射上的一个像素点对应第二特征映射上的一个2*2区域，第二特征映射上的一个像素点对应第以特征映射上的一个2*2区域，以此类推。

一种可实现方式包括：第三注意力子层根据第三特征映射和多个预设维度的位置编码计算注意力得分，得到第一得分，随后根据计算得到的第一得分对第三特征映射进行加权平均生成第一上下文向量，同时基于第一得分在第三特征映射中确定至少一个第一像素点位置，第一像素点位置为第一得分中最大值在第三特征向量中所对应的像素点的位置，至少一个第一像素点位置可以根据第一得分预设数量的最值确定，例如第一得分中最大的两个值对应的像素点。通过至少一个第一像素点位置在第二特征映射中确定至少一个第一目标区域，第三特征映射的每个像素点在第二特征映射中都存在对应的一个2*2区域，第一目标区域是指该2*2区域，随后第二注意力子层根据至少一个第一目标区域和多个预设维度的位置编码计算注意力得分，得到至少一个第二得分，第二得分的数量和第一目标区域的数量对应，根据计算得到的至少一个第二得分对至少一个第一目标区域进行加权平均生成至少一个第二上下文向量，在每个注意力子层中第一目标区域作为作为键(Key)和值(Value)，位置编码作为注意力层330每个时间步的查询参数(Query)，同时基于至少一个第二得分在第二特征映射中确定至少一个第二像素点位置，第二像素点位置也是根据第二得分中的最值在第二特征映射中确定的。第一注意力子层通过至少一个第二像素点位置在第一特征映射中确定至少一个第二目标区域，第二特征映射中的一个第二像素点在第一特征映射中存在一个对应的2*2区域，根据至少一个第二目标区域和多个预设维度的位置编码计算注意力得分，根据计算得到的至少一个第三得分对至少一个第二目标区域进行加权平均生成至少一个第三上下文向量。可理解的，该种实现方式，将特征映射根据高度进行排序并依次输入到注意力子层，由处理高度最小的特征映射的注意力子层开始，逐层向上处理高度依次增加的特征映射，也就是逐层选取重要特征，其中，除最后一个注意力子层之外的其余注意力子层会同时输出至少一个上下文向量和至少一个像素点坐标，最后一个注意力子层只输出至少一个上下文向量，该种实现方式在每组特征映射保留更多的空间结构的情况下，还能在每组特征映射中选取字符的重要特征，以此来提高识别精度。

可选的，上述S520还包括另一种生成上下文向量的方法，具体包括如下所示的步骤S524至S525：

S524、将所述多个具有不同维度的特征映射分别和所述多个预设维度的位置编码计算注意力得分，得到多个注意力得分，其中，每个注意力得分存在一个对应的特征映射。

S525、根据所述多个注意力得分中的每个注意力得分对所述多个具有不同维度的特征映射中所述注意力得分对应的特征映射进行加权平均，生成多个上下文向量。

可理解的，另一种实现方法包括：注意力层将多个具有不同维度的特征映射分别和多个预设维度的位置编码计算注意力得分，得到多个注意力得分，该种情况下，注意力层包括的多个注意力子层是并行的，也就是每个注意力子层会同时接收到一个特征有映射，且每个注意力子层接收到的特征映射不同，其中，每个注意力得分存在一个对应的特征映射，也就是注意力子层基于一个特征映射输出一个注意力得分。随后每个注意力子层根据其输出的注意力得分对其输入的特征映射进行加权平均，生成一个上下文向量，多个注意力子层会输出多个上下文向量。该种实现方式，通过并行的多个注意力子层同时处理多个特征映射，得到多个上下文向量，计算的速度比较快。

可理解的，两种可行的实现方式可以根据用户的需求自行选择，在此不作限定。

本公开提供的一种文本识别方法，通过位置编码器生成读个预设维度的位置编码，随后注意力层包括的多个注意力子层可以采用并行的处理方式还可以选择逐层向上的处理方式基于位置编码和多个具有不同维度的特征映射，生成多个上下文变量，并行的处理方式处理速度比较快，因每个注意力子层处理的是不同维度的特征映射，识别的精度也比较高，逐层向上的处理方式通过逐层选取字符的重要特征进一步提高了识别精度，且因其后续注意力子层处理的是特征映射的一个目标区域，处理的速度也比较快。

图6为本公开实施例提供的文本识别装置的结构示意图。本公开实施例提供的文本识别装置可以执行文本识别方法实施例提供的处理流程，如图6所示，文本识别装置600包括：

获取单元610，用于获取待识别的目标文本图像；

第一识别单元620，用于使用预先训练的文本识别模型对所述目标文本图像进行识别，利用所述文本识别模型中的特征提取层提取所述目标文本图像的特征，得到多个具有不同维度的特征映射，利用所述文本识别模型中的注意力层基于所述多个具有不同维度的特征映射和获取的多个预设维度的位置编码生成多个上下文向量，将所述多个上下文向量分别输入到所述文本识别模型中的多个并行的解码层进行解码，生成所述目标文本图像对应的多个识别结果；

第二识别单元630，用于根据所述多个识别结果得到所述目标文本图像对应的最终识别结果。

可选的，第一识别单元620中所述特征提取层包括多个具有相同结构的卷积块，所述多个具有相同结构的卷积块依次连接；所述多个具有不同维度的特征映射包括多个具有不同维度的第二特征映射。

可选的，第一识别单元620中所述利用所述文本识别模型中的特征提取层提取所述目标文本图像的特征，得到多个具有不同维度的特征映射，具体用于：

将提取的所述目标文本图像的第一特征映射输入到所述多个卷积块中进行卷积，所述多个卷积块中每个卷积块依次输出一个特征映射，得到所述多个具有不同维度的第二特征映射；

其中，所述特征映射的维度包括所述特征映射的高度；针对每个卷积块，输出的特征映射的高度是输入的特征映射的高度的一半。

可选的，第一识别单元620中所述利用所述文本识别模型中的注意力层基于所述多个具有不同维度的特征映射和获取的多个预设维度的位置编码生成多个上下文向量，具体用于：

利用所述文本识别模型中的位置编码器生成多个预设维度的位置编码，其中，生成所述位置编码的数量是根据设置的最大字符串的长度确定的；

通过所述文本识别模型中的注意力层，根据所述多个具有不同维度的特征映射和所述多个预设维度的位置编码计算注意力得分，并根据所述注意力得分对所述多个具有不同维度的特征映射进行加权平均，生成多个上下文向量。

可选的，第一识别单元620中所述多个具有不同维度的特征映射包括第一特征映射、第二特征映射和第三特征映射，其中，所述第二特征映射的维度大于所述第三特征映射的维度且小于所述第一特征映射的维度。

可选的，第一识别单元620中所述根据所述多个具有不同维度的特征映射和所述多个预设维度的位置编码计算注意力得分，并根据所述注意力得分对所述多个具有不同维度的特征映射进行加权平均，生成多个上下文向量，具体用于：

根据所述第三特征映射和所述多个预设维度的位置编码计算注意力得分，根据计算得到的第一得分对所述第三特征映射进行加权平均生成第一上下文向量，同时基于所述第一得分在所述第三特征映射中确定至少一个第一像素点位置；

通过所述至少一个第一像素点位置在所述第二特征映射中确定至少一个第一目标区域，根据所述至少一个第一目标区域和所述多个预设维度的位置编码计算注意力得分，根据计算得到的至少一个第二得分对所述至少一个第一目标区域进行加权平均生成至少一个第二上下文向量，同时基于所述至少一个第二得分在所述第二特征映射中确定至少一个第二像素点位置；

通过所述至少一个第二像素点位置在所述第一特征映射中确定至少一个第二目标区域，根据所述至少一个第二目标区域和所述多个预设维度的位置编码计算注意力得分，根据计算得到的至少一个第三得分对所述至少一个第二目标区域进行加权平均生成至少一个第三上下文向量；

其中，所述第一上下文向量、所述第二上下文向量和所述第三上下文向量组成多个上下文向量。

将所述多个具有不同维度的特征映射分别和所述多个预设维度的位置编码计算注意力得分，得到多个注意力得分，其中，每个注意力得分存在一个对应的特征映射；

根据所述多个注意力得分中的每个注意力得分对所述多个具有不同维度的特征映射中所述注意力得分对应的特征映射进行加权平均，生成多个上下文向量。

可选的，第一识别单元620中所述将所述多个上下文向量分别输入到所述文本识别模型中的多个并行的解码层进行解码，生成所述目标文本图像对应的多个识别结果，具体用于：

在所述多个上下文向量中选取多个目标上下文向量，其中，所述目标上下文向量的数量和所述文本识别模型中包括的解码层的数量相同；

利用所述文本识别模型中的多个并行的解码层对所述多个目标上下文向量进行解码，生成所述目标文本图像对应的多个识别结果，其中，每个解码层的输入为一个目标上下文向量，输出为一个识别结果。

可选的，第一识别单元620中所述特征提取层还包括长短时记忆网络层。

可选的，在将提取的所述目标文本图像的第一特征映射输入到所述多个卷积块中进行卷积之前，第一识别单元620具体用于：

利用所述长短时记忆网络层提取所述目标文本图像的特征，得到第一特征映射，其中，所述多个具有不同维度的特征映射还包括所述第一特征映射。

本实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图7，现将描述可以作为本公开的服务器或客户端的电子设备700的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706、输出单元707、存储单元708以及通信单元709。输入单元706可以是能向电子设备700输入信息的任何类型的设备，输入单元706可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元707可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元704可以包括但不限于磁盘、光盘。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理。例如，在一些实施例中，文本识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到电子设备700上。在一些实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本识别方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本识别方法，其特征在于，包括：

获取待识别的目标文本图像；

2.根据权利要求1所述的方法，其特征在于，所述特征提取层包括多个具有相同结构的卷积块，所述多个具有相同结构的卷积块依次连接；所述多个具有不同维度的特征映射包括多个具有不同维度的第二特征映射；

所述利用所述文本识别模型中的特征提取层提取所述目标文本图像的特征，得到多个具有不同维度的特征映射，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用所述文本识别模型中的注意力层基于所述多个具有不同维度的特征映射和获取的多个预设维度的位置编码生成多个上下文向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述多个具有不同维度的特征映射包括第一特征映射、第二特征映射和第三特征映射，其中，所述第二特征映射的维度大于所述第三特征映射的维度且小于所述第一特征映射的维度；

所述根据所述多个具有不同维度的特征映射和所述多个预设维度的位置编码计算注意力得分，并根据所述注意力得分对所述多个具有不同维度的特征映射进行加权平均，生成多个上下文向量，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述多个具有不同维度的特征映射和所述多个预设维度的位置编码计算注意力得分，并根据所述注意力得分对所述多个具有不同维度的特征映射进行加权平均，生成多个上下文向量，包括：

6.根据权利要求1所述的方法，其特征在于，所述将所述多个上下文向量分别输入到所述文本识别模型中的多个并行的解码层进行解码，生成所述目标文本图像对应的多个识别结果，包括：

7.根据权利要求2所述的方法，其特征在于，所述特征提取层还包括长短时记忆网络层；在将提取的所述目标文本图像的第一特征映射输入到所述多个卷积块中进行卷积之前，所述方法还包括：

8.一种文本识别装置，其特征在于，包括：

获取单元，用于获取待识别的目标文本图像；

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至7任一所述的文本识别方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1至7中任一所述的文本识别方法。