CN114758331A

CN114758331A - 文本识别方法、装置、电子设备和存储介质

Info

Publication number: CN114758331A
Application number: CN202210431773.XA
Authority: CN
Inventors: 秦勇
Original assignee: Shenzhen Xingtong Technology Co ltd
Current assignee: Shenzhen Xingtong Technology Co ltd
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-07-15

Abstract

本公开涉及一种文本识别方法、装置、电子设备和存储介质。方法包括：获取文本图像，并将文本图像裁剪为多个短文本图像；将多个短文本图像输入到预先训练完成的神经网络模型中，通过神经网络模型中的多个依次连接的识别模块对多个短文本图像进行识别，得到第一特征映射和第一识别结果，利用神经网络模型中的注意力层根据第一特征映射计算得到上下文向量，利用神经网络模型中的循环层基于上下文向量和第一识别结果进行解码操作，得到文本图像对应的第二识别结果。本公开提供的方法能够以短文本的形式快速准确的对长文本图像进行识别，且识别的速度也比较快。

Description

文本识别方法、装置、电子设备和存储介质

技术领域

本公开涉及文本识别技术领域，尤其涉及一种文本识别方法、装置、电子设备和存储介质。

背景技术

随着图像处理技术的发展，图像处理技术被广泛应用在文本识别领域，通常将机器学习和图像处理方法结合来对文本进行自动识别，例如，获取大量样本训练具有识别功能的机器学习模型，再基于训练好的识别模型自动识别图像中的文字，但是，现有的方法中基于字符的方法训练得到识别模型的标注成本高，基于序列的方法训练得到的识别模型可能会有漏识别或多识别的问题，导致文本识别速度慢，准确率也比较低。

发明内容

为了解决上述技术问题，本公开提供了一种文本识别方法、装置、电子设备和存储介质，能够以短文本的形式快速准确的对长文本图像进行识别，且识别的速度也比较快。

根据本公开的一方面，提供了一种文本识别方法，包括：

获取文本图像，并将所述文本图像裁剪为多个短文本图像；

将所述多个短文本图像输入到预先训练完成的神经网络模型中，通过所述神经网络模型中的多个依次连接的识别模块对所述多个短文本图像进行识别，得到第一特征映射和第一识别结果，利用所述神经网络模型中的注意力层根据所述第一特征映射计算得到上下文向量，利用所述神经网络模型中的循环层基于所述上下文向量和所述第一识别结果进行解码操作，得到所述文本图像对应的第二识别结果。

根据本公开的另一方面，提供了一种文本识别装置，包括：

获取单元，用于获取文本图像，并将所述文本图像裁剪为多个短文本图像；

识别单元，用于将所述多个短文本图像输入到预先训练完成的神经网络模型中，通过所述神经网络模型中的多个依次连接的识别模块对所述多个短文本图像进行识别，得到第一特征映射和第一识别结果，利用所述神经网络模型中的注意力层根据所述第一特征映射计算得到上下文向量，利用所述神经网络模型中的循环层基于所述上下文向量和所述第一识别结果进行解码操作，得到所述文本图像对应的第二识别结果。

根据本公开的另一方面，提供了一种电子设备，电子设备包括：处理器；以及存储程序的存储器，其中，程序包括指令，指令在由处理器执行时使处理器执行上述文本识别方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使所述计算机执行上述文本识别方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述文本识别方法。

本公开实施例提供了一种文本识别方法、装置、电子设备和存储介质。方法包括：获取文本图像，并将文本图像裁剪为多个短文本图像；将多个短文本图像输入到预先训练完成的神经网络模型中，通过神经网络模型中的多个依次连接的识别模块对多个短文本图像进行识别，得到第一特征映射和第一识别结果，利用神经网络模型中的注意力层根据第一特征映射计算得到上下文向量，利用神经网络模型中的循环层基于上下文向量和第一识别结果进行解码操作，得到文本图像对应的第二识别结果。本公开提供的方法能够以短文本的形式快速准确的对长文本图像进行识别，且识别的速度也比较快。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种应用场景的示意图；

图2为本公开实施例提供的一种神经网络模型训练方法的流程示意图；

图3为本公开实施例提供的一种神经网络模型的结构示意图；

图4为本公开实施例提供的一种文本识别方法的流程示意图；

图5为本公开实施例提供的一种文本图像示意图；

图6为本公开实施例提供的一种文本识别装置的结构示意图；

图7为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

针对上述问题，本公开实施例提供了一种文本识别方法，具体通过下述一个或多个实施例进行说明。

参见图1，图1为本公开实施例提供的一种应用场景的示意图，模型训练方法可以由终端11或服务器12来执行。一种可能的应用场景，服务器12从终端11中获取文本图像，并对文本图像上的字符进行识别，该文本图像可以是终端11拍摄获得的。或者，该文本图像是终端11从其他设备中获取的。再或者，该文本图像是终端11对预设图像进行图像处理后得到的图像，该预设图像可以是终端11拍摄获得的，或者该预设图像可以是终端11从其他设备中获取的。此处，并不对其他设备做具体限定。

在另一种应用场景中，服务器12自行获取文本图像，并对文本图像上的字符进行识别，服务器12获取文本图像的方式可以类似于如上所述的终端11获取文本图像的方式，此处不再赘述。可以理解的是，本公开实施例提供的文本识别方法并不限于如上所述的几种可能场景。在执行文本识别方法前，需要先执行神经网络模型的训练方法，以得到神经网络模型，下面以服务器12训练神经网络模型为例，优先对神经网络模型的训练方法进行详细说明。可以理解的是，该神经网络模型训练方法同样适用于终端11训练神经网络模型的场景中。

本公开提供了一种神经网络模型训练方法，具体通过如下多个实施例进行说明。图2为本公开实施例提供的一种神经网络模型训练方法的流程示意图，包括如图2所示的如下步骤S210至S230：

S210、获取训练数据集，所述训练数据集包括大量短文本图像以及所述大量短文本图像中每个短文本图像对应的标注信息。

可理解的，服务器获取大量文本图像作为训练样本，大量文本图像至少包括部分短文本图像，短文本图像也可以由长文本图像裁剪得到，文本图像中的文本可以是直文本、弯曲文本和斜文本，文本图像中文本的形式不作限定，短文本图像中包括的字符比较短，也就是短文本图像包括的字符的数量比较少，例如短文本图像中包括10个以下的字符，短文本图像中包括的字符也可能不完整。获取到大量短文本图像后，对每个短文本图像进行标注，标注整个字符序列，得到每个短文本图像对应的标注信息，根据短文本图像以及标注信息构建神经网络模型的训练数据集，同时，在得到标注信息后，根据标注信息构建神经网络模型对应的字典，字典在神经网络模型的识别过程中用于确定字符，其中，字典由所有标注信息中的字符构成，且不包括重复的字符。

S220、利用所述训练数据集对所述神经网络模型中的多个依次连接的识别模块进行训练，得到第一训练模型，其中，所述第一训练模型包括训练完成的多个依次连接的识别模块以及尚未训练的注意力层和循环层。

可理解的，在上述S210的基础上，将训练数据集输入到预先构建的神经网络模型中，优先对神经网络模型的多个依次连接的识别模块进行训练，得到第一训练模型，也就是在一次训练中，通过大量短文本图像优先只对多个识别模块进行训练，而不对神经网络模型包括的注意力层和循环层进行训练，以确保神经网络模型识别的准确率，该种情况下，根据多个识别模块中的最后一个识别模块输出的识别结果以及标注信息计算损失值，通过损失值更新多个识别模块的网络参数，得到训练完成的第一训练模型，其中，第一训练模型包括训练完成的多个依次连接的识别模块以及尚未训练的注意力层和循环层。

示例性的，参见图3，图3为本公开实施例提供的一种神经网络模型的结构示意图，图3包括多个依次连接的识别模块310、注意力层330、位置编码层320和循环层340；多个依次连接的识别模块310包括第一识别模块311和第二识别模块312，第一识别模块311包括第一特征提取层和第一解码层，第一特征提取层以残差网络作为骨干网络，残差网络可以是Resnet18，残差网络包含4个卷积块，卷积块记为block块，每个卷积块包括若干卷积层，每一个block的输出是后一个block块的输入，第一特征提取层输入的是短文本图像，输出的是高度被压缩为1的一组特征映射，第一特征提取层也可以使用其他卷积神经网络；第一解码层用于对第一特征提取层输出的一组特征映射进行解码，得到初始识别结果，初始识别结果概率矩阵，根据概率矩阵可以在上述构建的字典中确定字符，具体的，第一解码层包括一个全连接层；第二识别模块312包括第二特征提取层和第二解码层，第二特征提取层由两层双向长短期记忆网络(LSTM，Long Short-Term Memory)组成，第二特征提取层的每个时间步的输入为第一识别模块输出的特征映射，其隐状态为第一解码层输出的识别结果，第二特征提取层输出一组和第一识别模块输出的特征映射具有相同维度的特征映射；注意力层330以第二特征提取层输出的特征映射作为的键(Key)和值(Value)，以位置编码层320输出的多个位置编码作为每个时间步的查询参数(Query)，计算查询参数和键之间的相似度，生成得分，对得分和值进行加权平均得到当前要预测的字符对应的最优表征的特征，最优表征的特征也就是上下文向量；位置编码层320主要包括一个词嵌入层和一个单层双向双向长短期记忆网络，主要作用是对0-L个位置中的每个位置提供一个设定维度的位置编码，其中，L是指设置的神经网络模型可识别的最大字符串长度，多个识别模块310以及注意力层330串联关系，同时和位置编码层320是并行关系；循环层340可以是门控循环单元(GatedRecurrent Unit，GRU)，循环层340用于执行解码操作，循环层340的每个时间步的输入为注意力层330计算得到的上下文向量和前一时间步预测得到的字符拼接在一起的拼接结果，循环层340的初始隐状态为第二识别模块输出的识别结果，循环层340输出短文本图像对应的最终识别结果。

可选的，上述S220中利用所述训练数据集对所述神经网络模型中的多个依次连接的识别模块进行训练，得到第一训练模型,具体包括如下步骤S221至S223：

S221、利用所述训练数据集对所述神经网络模型中的多个依次连接的识别模块中第一识别模块进行训练，得到每个短文本图像对应的识别结果，并根据每个短文本图像对应的识别结果以及该短文本图像对应的标注信息更新所述第一识别模块的网络参数，得到更新后的第一识别模块。

S222、利用所述训练数据集对所述更新后的第一识别模块进行训练，通过所述更新后的第一识别模块中的多个并行的第一特征提取层提取所述训练数据集中多个短文本图像的特征，并通过所述更新后的第一识别模块中的第一解码层对由所述多个短文本图像的特征拼接得到的特征进行解码，基于解码结果和由所述多个短文本图像对应的标注信息拼接得到的信息对所述更新后的第一识别模块进行更新，得到第二训练模型，其中，所述第二训练模型中包括完成两次更新的第一识别模块以及所述神经网络模型中尚未训练的其他网络层。

S223、利用所述训练数据集对所述第二训练模型中的多个依次连接的识别模块进行训练，得到第一训练模型。

可理解的，在上述S210的基础上，对于神经网络模型的训练分为的四个阶段，第一阶段：将训练数据集输入到神经网络模型对多个依次连接的识别模块中第一识别模块进行训练，得到每个短文本图像对应的识别结果，随后根据每个短文本图像对应的识别结果以及该短文本图像对应的标注信息更新第一识别模块的网络参数，得到更新后的第一识别模块，也就是先利用短文本图像训练第一识别模块，确保针对短文本图像的识别准确率。第二阶段：利用训练数据集对更新后的第一识别模块进行训练，若第一识别模块设置有一个第一特征提取模块，该种情况下可以将多个短文本图像拼接成一个长文本图像，例如将每5个短文本图像拼接成一个长文本图像，同时也需要将5个短文本图像对应的标注信息拼接起来，作为长文本图像对应的标注信息，利用短文本图像拼接得到的长文本图像对第一识别模块进行训练，或者，第一识别模块设置有多个并行的第一特征提取层，该种情况下可以直接将多个短文本图像直接输入到第一特征提取层中，例如第一识别模块包括5个并行的第一特征提取层，且5个第一特征提取层的结构相同，将上述5个短文本图像按照顺序分别输入到5个第一特征提取层进行特征提取，输出5组特征映射，还可以将5组特征映射进行拼接得到一组特征映射，随后通过更新后的第一识别模块中的第一解码层对由多个短文本图像的特征拼接得到的一组特征映射或者多个短文本图像各自对应的特征映射进行解码，基于解码结果和由多个短文本图像对应的标注信息拼接得到的信息计算损失值，损失函数可以是CTC损失函数，利用损失值对更新后的第一识别模块(第一阶段输出的第一识别模型)进行更新，得到第二训练模型，通过设置多个并行的第一特征提取层并将多个并行的第一特征提取层共享权重，以此来通过短文本图像的并行输入实现对长文本图像的快速识别训练，其中，第二训练模型中包括完成两次更新的第一识别模块以及神经网络模型中尚未训练的其他网络层，其他网络层是指第二识别模块、注意力层和循环层。第三阶段：利用训练数据集对第二训练模型中的多个依次连接的识别模块进行训练，得到第一训练模型，也就是第三阶段的训练采用上述第二阶段涉及到的拼接方式对所有识别模块进行联合训练，即通过大量短文本图像对第一识别模块和第二识别模块进行训练，同时采用第二阶段中对长文本图像的训练方式，将第一识别模块输出的预设数量的短文本图像对应的特征映射进行拼接，得到一个长文本图像对应的特征映射，后续第二识别模块通过拼接得到的长文本图像对应的特征映射进行训练，实现长文本图像训练的目标，以提高针对长文本图像的识别精度。可理解的是，拼接的短文本图像可以是随机获取的短文本图像，也可以是通过长文本图像裁剪得到的，具体的短文本图像的获取方式不作限定，也就是在神经网络模型的训练过程中被拼接的多个短文本图像之间可能不存在语义关系，即可能不是通过一个长文本图像裁剪得到的。

S230、利用所述训练数据集对所述第一训练模型进行训练，得到训练完成的神经网络模型。

可理解的，在上述S220的基础上，神经网络模型训练的第四阶段如下：利用训练数据集对第一训练模型进行训练，此时对于第一训练模型中经过3个阶段训练得到的识别模块以及尚未训练过的注意力层和循环层进行联合训练，得到训练识别精度较高的神经网络模型。

本公开实施例提供了一种神经网络模型训练方法，通过获取的大量短文本图像对神经网络模型进行训练，短文本图像易收集，对短文本图像中的字符进行标注也比较容易，可以有效降低数据收集的难度和标注成本，进一步加快模型训练速度，采用四个阶段对神经网络模型进行训练，使用短文本图像以及后续拼接的方式实现对长文本图像的训练，多个依次连接的识别模块既保证了针对短文本图像的识别准确度，同时也确保了针对长文本图像的识别准确度，另外，基于多个识别模块输出的识别结果在神经网络模型内部进行多次迭代的方式，还能进一步提升模型文本识别精度。

在上述实施例基础上，图4为本公开实施例提供的一种文本识别方法的流程示意图，应用于上述训练完成的神经网络模型，具体包括如图4所示的如下步骤S610至S420：

S410、获取文本图像，并将所述文本图像裁剪为多个短文本图像。

具体的，文本识别方法可以由终端或服务器来执行。终端或服务器可以通过神经网络模型对文本图像中的字符进行识别。神经网络模型的训练方法的执行主体和文本识别方法的执行主体可以相同，也可以不同。例如，在一种应用场景中，如图1所示，服务器12对神经网络模型进行训练，终端11从服务器12获取训练完成的神经网络模型，终端11通过该训练完成的神经网络模型对文本图像中的字符进行识别。下述以终端执行文本识别方法为例进行说明。

可理解的，终端获取待识别的文本图像，待识别的文本图像可以是单行文本图像也可以是多行文本图像，在此不作限定。获取到文本图像后，将文本图像进行裁剪，裁剪为多个短文本图像，具体的，可以设定裁剪的短文本图像的大小，也就是对于文本图像的宽高大于预设宽高的图像进行裁剪，预设宽高可以是32*160，例如获取的文本图像的宽高为256*256大于预设宽高32*160，将该文本图像按照预设宽高32*160进行裁剪，得到多个短文本图像，可理解的是，裁剪得到的多个短文本图像可能存在不同短文本图像包含同一个字符的不同部分，还可能不包括字符，该种情况下可以直接将裁剪得到的所有图像输入到神经网络模型中，还可以将包括至少部分字符的多个短文本图像输入到预先训练完成的神经网络模型中。

示例性的，参见图5，图5为本公开实施例提供的一种文本图像示意图，文本图像510为获取的文本图像，为多行文本图像，按照预设宽高将文本图像510进行裁剪得到多个短文本图像，多个短文本图像记为短文本图像520、短文本图像530以及短文本图像540，其中，短文本图像540包括完整的单行文本，短文本图像530以及短文本图像520包括同一行文本的部分文本，将文本图像510中的一行文本“BBBBBBBBB”平均分割成两部分，短文本图像520包括该单行文本的上半部分，短文本图像520包括该单行文本的下半部分。

S420、将所述多个短文本图像输入到预先训练完成的神经网络模型中，通过所述神经网络模型中的多个依次连接的识别模块对所述多个短文本图像进行识别，得到第一特征映射和第一识别结果，利用所述神经网络模型中的注意力层根据所述第一特征映射计算得到上下文向量，利用所述神经网络模型中的循环层基于所述上下文向量和所述第一识别结果进行解码操作，得到所述文本图像对应的第二识别结果。

可理解的，在上述S410的基础上，将包括至少一个字符的多个短文本图像输入到预先训练完成的神经网络模型中，通过神经网络模型中的多个依次连接的识别模块对所述多个短文本图像进行识别，得到第一特征映射和第一识别结果，多个依稀连接的识别模块中的每个识别模块都会输出一个识别结果和一个特征映射，该识别结果的特征映射作为下一个识别模块的输入，也就是根据识别结果进行多次迭代，以提高识别精度，其中，多个依次连接的识别模块中的最后一个识别模块输出的特征映射和识别结果记为第一特征映射和第一识别结果；得到第一特征映射和第一识别结果后，利用神经网络模型中的注意力层根据第一特征映射和位置编码层输出的多个位置编码计算得分，随后再根据得分和第一特征映射计算得到上下文向量；得到上下文向量后，利用神经网络模型中的循环层基于上下文向量和第一识别结果进行解码操作，也就是进行最后一次迭代，循环层会输出文本图像对应的第二识别结果，第二识别结果为文本图像对应的最终识别结果，也是准确的识别结果。

可理解的，当分割得到的多个短文本图像中存在两个及以上短文本图像分别包括同一行文字的不同部分文本时，神经网络模型在输出第二识别结果之前，将该两个及以上短文本图像对应的识别结果进行融合，得到最后的第二识别结果，例如，图5中短文本图像530和短文本图像520各自对应一个识别结果，可以在两个识别结果中随机选择一个识别结果作为该行文本的最终识别结果，还可以根据识别结果进行融合分析来确定该行文本的最终识别结果。

可选的，上述S420中所述通过所述神经网络模型中的多个依次连接的识别模块对所述多个短文本图像进行识别，得到第一特征映射和第一识别结果，具体包括如下步骤：

通过所述第一识别模块对所述多个短文本图像进行初步识别，得到第二特征映射和第三识别结果；利用所述第二识别模块基于所述第二特征映射和所述第三识别结果进行识别，得到第一特征映射和第一识别结果。

可理解的，下述实施例以多个依次连接的识别模块包括两个识别模块为例对神经网络模型内识别模块的识别流程进行说明，通过第一识别模块对多个短文本图像进行初步识别，得到第二特征映射和第三识别结果，第二特征映射可以是多个短文本图像对应的特征映射拼接得到的，第三识别结果可以理解为初始识别结果；利用第二识别模块基于第二特征映射和第三识别结果继续进行识别，得到第一特征映射和第一识别结果，第一特征映射就可以理解为长文本图像对应的特征映射了，第二识别模块是基于第一识别模块进行的第二次迭代，用以修正第三识别结果，其中，第三识别结果和第一识别结果是概率矩阵形式的，也就是除了循环层输出的第二识别结果外，其他识别模块输出的识别结果都是概率矩阵形式的，用以在神经网络模型内部进行多次迭代，修正识别结果。

可选的，上述S420中通过所述第一识别模块对所述多个短文本图像进行初步识别，得到第二特征映射和第三识别结果，具体包括如下步骤S421至S422：

S421、通过所述第一特征提取层对所述多个短文本图像进行卷积操作，以提取所述多个短文本图像的特征，得到第二特征映射，其中，所述第二特征映射为所述多个短文本图像对应的特征映射按照裁剪顺序拼接得到的，或者，所述第二特征映射由所述多个短文本图像对应的特征映射组成的。

S422、通过所述第一解码层根据所述第二特征映射得到第三识别结果，其中，所述第三识别结果为所述文本图像对应的初始识别结果。

可理解的，第一识别模块内部的处理流程如下，通过多个并行的第一特征提取层分别对多个短文本图像进行卷积操作，以提取多个短文本图像的特征，得到第二特征映射，其中，第二特征映射可以是多个短文本图像对应的特征映射按照裁剪顺序拼接得到的一组特征映射，或者，第二特征映射由多个短文本图像对应的特征映射组成的，该种情况下，第二特征映射包括多组特征映射。得到第二特征映射后，通过第一解码层对第二特征映射进行解码得到第三识别结果，其中，第三识别结果为文本图像对应的初始识别结果，该种情况下，初始识别结果是第一解码层基于多个并行第一特征提取层输出的多个特征映射拼接后的一组特征映射得到的，可以理解为长文本图像对应的初始识别结果。

可选的，上述S420中利用所述第二识别模块基于所述第二特征映射和所述第三识别结果进行识别，得到第一特征映射和第一识别结果，具体包括如下步骤S423至S424：

S423、将所述第三识别结果作为所述第二特征提取层的隐状态，并通过所述第二特征提取层基于所述隐状态提取所述第二特征映射的深度特征，得到第一特征映射，其中，所述第一特征映射的维度和所述第二特征映射的维度相同。

S424、通过所述第二解码层对所述第一特征映射进行识别，得到第一识别结果，其中，所述第一识别结果为所述文本图像对应的深度识别结果。

可理解的，第二识别模块内部的处理流程如下，将第三识别结果作为第二特征提取层的隐状态，随后第二特征提取层基于隐状态提取第二特征映射的深度特征，也就是进一步提取第二特征映射中字符的特征，去除背景特征，得到第一特征映射，其中，第一特征映射的维度和第二特征映射的维度相同。得到第一特征映射后，通过第二解码层对第一特征映射中的字符进行识别，得到第一识别结果，其中，第一识别结果为文本图像对应的深度识别结果，相较于第二识别结果，经过两次迭代修正，第一识别结果的准确率进一步提高了。可理解的是，若神经网络模型还包括第三识别模块，第三识别模块的输入为第二识别模块的输出，同样第三识别模块输出的也是特征映射和识别结果，以此类推，直至最后一个识别模块输出特征映射和识别结果，每个识别模块都会输出特征映射和识别结果。

可选的，上述S420中利用所述神经网络模型中的注意力层根据所述第一特征映射计算得到上下文向量，具体包括如下步骤S425至S426：

S425、通过所述位置编码层为预设数量的位置中每个位置提供一个设定维度的位置编码，得到预设数量的位置编码，其中，所述预设数量是根据设置的可识别的最大字符串长度确定的。

S426、利用所述神经网络模型中的注意力层根据所述第一特征映射和所述预设数量的位置编码计算注意力得分，并通过所述注意力得分和所述第一特征映射得到上下文向量。

可理解的，注意力层在计算上下文向量之前，会获取神经网络模型中位置编码层输出的预设数量的位置编码，具体的，位置编码层会为预设数量的位置中每个位置提供一个设定维度的位置编码，得到预设数量的位置编码，其中，预设数量是根据设置的可识别的最大字符串长度确定的，例如设定可识别的最大字符串长度为20，预设数量为21，即从0-20共包括21个位置，位置编码层会为21个位置中每个位置提供一个预设维度的位置编码，预设维度可以和识别模块输出的特征映射的维度相同。获取到预设数量的位置编码、第一特征映射以及第一识别结果后，利用注意力层根据第一特征映射和预设数量的位置编码计算注意力得分，并通过注意力得分和第一特征映射得到上下文向量。

可选的，上述S420中利用所述神经网络模型中的循环层基于所述上下文向量和所述第一识别结果进行解码操作，得到所述文本图像对应的第二识别结果，具体包括如下步骤S427至S428：

S427、将所述第一识别结果作为所述神经网络模型中循环层的初始隐状态。

S428、针对所述循环层的每个时间步，将所述上下文向量和上一个时间步预测得到的字符进行拼接，并根据所述初始隐状态和拼接结果进行解码操作，得到所述文本图像对应的第二识别结果。

可理解的，循环层内部的处理流程如下：将第一识别结果作为神经网络模型中循环层的初始隐状态，针对循环层的每个时间步来说，将注意力层输出的上下文向量和上一个时间步预测得到的字符进行拼接，每个时间步会预测一个字符，后一个时间步的输入是前一个时间步预测到的字符和上下文向量进行拼接得到的拼接结果，在一次循环中，循环层会根据初始隐状态和拼接结果进行解码操作，得到文本图像对应的第二识别结果，若循环层进行多次循环，后一次循环会根据前一次循环得到的信息继续执行解码操作，循环层的循环次数可以根据用户需求自行确定，在次不作限定。

本公开实施例提供了一种文本识别方法，获取到一个文本图像后，将文本图像裁剪为多个短文本图像，随后将多个短文本图像输入到预先训练完成的神经网络模型中，神经网络模型中的多个依次连接的识别模块采用对齐的方式对多个短文本图像进行识别，每个识别模块输出的特征映射和识别结果作为下一个识别模块的输入，经过多次迭代得到最后一个识别模块输出的第一特征映射和第一识别结果，可以在不考虑短文本图像之间语义信息的情况下，得到初始识别结果；随后利用神经网络模型中的注意力层根据第一特征映射以及位置编码层输出的位置编码计算得到上下文向量，也就是计算语义信息，计算各个短文本图像之间的语义关联；随后利用神经网络模型中的循环层基于上下文向量和第一识别结果进行解码操作，得到第二识别结果，第二识别结果为文本图像对应的最终识别结果，本公开提供的方法能够基于短文本图像实现对长文本图像进行识别，且进行多次迭代来修正识别结果，在确保识别准确率的同时，识别的速度也比较快。

在上述实施例的基础上，图6为本公开实施例提供的一种文本识别装置的结构示意图，本公开实施例提供的文本识别装置可以执行模型训练方法实施例提供的处理流程，如图6所示，文本识别装置600包括：

获取单元610，用于获取文本图像，并将所述文本图像裁剪为多个短文本图像；

识别单元620，用于将所述多个短文本图像输入到预先训练完成的神经网络模型中，通过所述神经网络模型中的多个依次连接的识别模块对所述多个短文本图像进行识别，得到第一特征映射和第一识别结果，利用所述神经网络模型中的注意力层根据所述第一特征映射计算得到上下文向量，利用所述神经网络模型中的循环层基于所述上下文向量和所述第一识别结果进行解码操作，得到所述文本图像对应的第二识别结果。

可选的，识别单元620中所述多个依次连接的识别模块包括第一识别模块和第二识别模块。

可选的，识别单元620中所述通过所述神经网络模型中的多个依次连接的识别模块对所述多个短文本图像进行识别，得到第一特征映射和第一识别结果，具体用于：

通过所述第一识别模块对所述多个短文本图像进行初步识别，得到第二特征映射和第三识别结果；

利用所述第二识别模块基于所述第二特征映射和所述第三识别结果进行识别，得到第一特征映射和第一识别结果；

其中，所述第三识别结果和所述第一识别结果为概率矩阵。

可选的，识别单元620中所述第一识别模块包括第一特征提取层和第一解码层。

可选的，识别单元620中所述通过所述第一识别模块对所述多个短文本图像进行初步识别，得到第二特征映射和第三识别结果，具体用于：

通过所述第一特征提取层对所述多个短文本图像进行卷积操作，以提取所述多个短文本图像的特征，得到第二特征映射，其中，所述第二特征映射为所述多个短文本图像对应的特征映射按照裁剪顺序拼接得到的，或者，所述第二特征映射由所述多个短文本图像对应的特征映射组成的；

通过所述第一解码层根据所述第二特征映射得到第三识别结果，其中，所述第三识别结果为所述文本图像对应的初始识别结果。

可选的，识别单元620中所述第二识别模块包括第二特征提取层和第二解码层；所述利用所述第二识别模块基于所述第二特征映射和所述第三识别结果进行识别，得到第一特征映射和第一识别结果，具体用于：

将所述第三识别结果作为所述第二特征提取层的隐状态，并通过所述第二特征提取层基于所述隐状态提取所述第二特征映射的深度特征，得到第一特征映射，其中，所述第一特征映射的维度和所述第二特征映射的维度相同；

通过所述第二解码层对所述第一特征映射进行识别，得到第一识别结果，其中，所述第一识别结果为所述文本图像对应的深度识别结果。

可选的，识别单元620中所述利用所述神经网络模型中的循环层基于所述上下文向量和所述第一识别结果进行解码操作，得到所述文本图像对应的第二识别结果，具体用于：

将所述第一识别结果作为所述神经网络模型中循环层的初始隐状态；

针对所述循环层的每个时间步，将所述上下文向量和上一个时间步预测得到的字符进行拼接，并根据所述初始隐状态和拼接结果进行解码操作，得到所述文本图像对应的第二识别结果。

可选的，装置600还包括训练单元，所述训练单元用于所述神经网络模型的训练过程，具体用于：

获取训练数据集，所述训练数据集包括大量短文本图像以及所述大量短文本图像中每个短文本图像对应的标注信息；

利用所述训练数据集对所述神经网络模型中的多个依次连接的识别模块进行训练，得到第一训练模型，其中，所述第一训练模型包括训练完成的多个依次连接的识别模块以及尚未训练的注意力层和循环层；

利用所述训练数据集对所述第一训练模型进行训练，得到训练完成的神经网络模型。

可选的，训练单元中所述利用所述训练数据集对所述神经网络模型中的多个依次连接的识别模块进行训练，得到第一训练模型，具体用于：

利用所述训练数据集对所述神经网络模型中的多个依次连接的识别模块中第一识别模块进行训练，得到每个短文本图像对应的识别结果，并根据每个短文本图像对应的识别结果以及该短文本图像对应的标注信息更新所述第一识别模块的网络参数，得到更新后的第一识别模块；

利用所述训练数据集对所述更新后的第一识别模块进行训练，通过所述更新后的第一识别模块中的多个并行的第一特征提取层提取所述训练数据集中多个短文本图像的特征，并通过所述更新后的第一识别模块中的第一解码层对由所述多个短文本图像的特征拼接得到的特征进行解码，基于解码结果和由所述多个短文本图像对应的标注信息拼接得到的信息对所述更新后的第一识别模块进行更新，得到第二训练模型，其中，所述第二训练模型中包括完成两次更新的第一识别模块以及所述神经网络模型中尚未训练的其他网络层；

利用所述训练数据集对所述第二训练模型中的多个依次连接的识别模块进行训练，得到第一训练模型。

图6所示实施例的文本识别装置可用于执行上述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。存储器存储有能够被至少一个处理器执行的计算机程序，计算机程序在被至少一个处理器执行时用于使电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图7，现将描述可以作为本公开的服务器或客户端的电子设备700的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706、输出单元707、存储单元708以及通信单元709。输入单元706可以是能向电子设备700输入信息的任何类型的设备，输入单元706可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元707可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元704可以包括但不限于磁盘、光盘。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理。例如，在一些实施例中，文本识别方法或识别网络的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。在一些实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本识别方法或识别网络的训练方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

获取文本图像，并将所述文本图像裁剪为多个短文本图像；

2.根据权利要求1所述的方法，其特征在于，所述多个依次连接的识别模块包括第一识别模块和第二识别模块；所述通过所述神经网络模型中的多个依次连接的识别模块对所述多个短文本图像进行识别，得到第一特征映射和第一识别结果，包括：

其中，所述第三识别结果和所述第一识别结果为概率矩阵。

3.根据权利要求2所述的方法，其特征在于，所述第一识别模块包括第一特征提取层和第一解码层；所述通过所述第一识别模块对所述多个短文本图像进行初步识别，得到第二特征映射和第三识别结果，包括：

4.根据权利要求2所述的方法，其特征在于，所述第二识别模块包括第二特征提取层和第二解码层；所述利用所述第二识别模块基于所述第二特征映射和所述第三识别结果进行识别，得到第一特征映射和第一识别结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述利用所述神经网络模型中的循环层基于所述上下文向量和所述第一识别结果进行解码操作，得到所述文本图像对应的第二识别结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述神经网络模型的训练过程包括：

7.根据权利要求6所述的方法，其特征在于，所述利用所述训练数据集对所述神经网络模型中的多个依次连接的识别模块进行训练，得到第一训练模型，包括：

8.一种文本识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至7中任一所述的文本识别方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1至7中任一所述的文本识别方法。