CN115100659A

CN115100659A - 文本识别方法、装置、电子设备和存储介质

Info

Publication number: CN115100659A
Application number: CN202210665530.2A
Authority: CN
Inventors: 秦勇
Original assignee: Shenzhen Xingtong Technology Co ltd
Current assignee: Shenzhen Xingtong Technology Co ltd
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2022-09-23

Abstract

本公开涉及一种文本识别方法、装置、电子设备和存储介质。获取文本图像；将文本图像输入到预先训练完成的文本识别模型中，其中，文本识别模型包括矫正模块、特征提取模块和解码模块，矫正模块包括多个矫正子模块和第一处理模块，多个矫正子模块分别对应不同的矫正方法；利用多个矫正子模块中每个矫正子模块对文本图像进行矫正，得到多个矫正图像；利用第一处理模块将多个矫正图像进行串联叠加得到第一矫正图像；利用特征提取模块对第一矫正图像进行特征提取，得到第一特征信息；利用解码模块基于第一特征信息生成文本图像对应的第一概率矩阵；根据第一概率矩阵对文本图像中的字符进行识别，识别准确率比较高。

Description

文本识别方法、装置、电子设备和存储介质

技术领域

本公开涉及机器学习技术领域，尤其涉及一种文本识别方法、装置、电子设备和存储介质。

背景技术

随着机器学习的发展，逐渐采用机器学习的方法对文本图像中的字符进行识别，但是现有的文本识别方法中，基于字符的方法对字符进行标注的成本比较高，基于序列的方法可能会有字符漏识别或多识别的问题，对于不同应用场景需要进行多次测试以确定机器学习方法，也存在无法充分利用文本图像中多种信息的问题，导致文本识别的精度比较低。

发明内容

为了解决上述技术问题，本公开提供了一种文本识别方法、装置、电子设备和存储介质，能够充分利用文本图像的多种信息，且文本识别的精度也比较高。

根据本公开的一方面，提供了一种文本识别方法，包括：

获取文本图像，所述文本图像包括至少一个字符；

将所述文本图像输入到预先训练完成的文本识别模型中，其中，所述文本识别模型包括矫正模块、特征提取模块和解码模块，所述矫正模块包括多个矫正子模块和第一处理模块，所述多个矫正子模块分别对应不同的矫正方法；

利用所述多个矫正子模块中每个矫正子模块对所述文本图像进行矫正，得到多个矫正图像；

利用所述第一处理模块将所述多个矫正图像进行串联叠加得到第一矫正图像；

利用所述特征提取模块对所述第一矫正图像进行特征提取，得到第一特征信息；

利用所述解码模块基于所述第一特征信息生成所述文本图像对应的第一概率矩阵；

根据所述第一概率矩阵对所述文本图像中的字符进行识别，得到识别结果。

根据本公开的另一方面，提供了一种文本识别装置，包括：

获取单元，用于获取文本图像，所述文本图像包括至少一个字符；

输入单元，用于将所述文本图像输入到预先训练完成的文本识别模型中，其中，所述文本识别模型包括矫正模块、特征提取模块和解码模块，所述矫正模块包括多个矫正子模块和第一处理模块，所述多个矫正子模块分别对应不同的矫正方法；

处理单元，用于利用所述多个矫正子模块中每个矫正子模块对所述文本图像进行矫正，得到多个矫正图像；利用所述第一处理模块将所述多个矫正图像进行串联叠加得到第一矫正图像；利用所述特征提取模块对所述第一矫正图像进行特征提取，得到第一特征信息；以及利用所述解码模块基于所述第一特征信息生成所述文本图像对应的第一概率矩阵；

识别单元，用于根据所述第一概率矩阵对所述文本图像中的字符进行识别，得到识别结果。

根据本公开的另一方面，提供了一种电子设备，所述电子设备包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述文本识别方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行根据文本识别方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

通过获取文本图像；将文本图像输入到预先训练完成的文本识别模型中，其中，文本识别模型包括矫正模块、特征提取模块和解码模块，矫正模块包括多个矫正子模块和第一处理模块，多个矫正子模块分别对应不同的矫正方法；利用多个矫正子模块中每个矫正子模块对文本图像进行矫正，得到多个矫正图像，利用第一处理模块将多个矫正图像进行串联叠加得到第一矫正图像；利用特征提取模块对第一矫正图像进行特征提取，得到第一特征信息；利用解码模块基于第一特征信息生成文本图像对应的第一概率矩阵；根据第一概率矩阵对文本图像中的字符进行识别，能够充分利用文本图像的多种信息，识别准确率比较高。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种应用场景的示意图；

图2为本公开实施例提供的一种文本识别模型训练方法流程图；

图3为本公开实施例提供的一种文本识别模型的网络结构图；

图4为本公开实施例提供的一种文本识别方法流程图；

图5为本公开实施例提供的一种文本识别方法流程图；

图6为本公开实施例提供的一种文本图像的示意图；

图7为本公开实施例提供的一种文本识别装置的结构示意图；

图8为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

针对上述技术问题，本公开提供的文本识别方法利用自动架构搜索设计思路，基于文本识别范式，对各文本识别范式中包括的各模块进行设计，每个模块包括多种方法，以此得到一个充分利用文本图像的内容、位置和字符形状等多种信息的高精度文本识别模型，准确的对文本图像上的字符进行识别。

具体的，文本识别方法可以由终端或服务器来执行。具体的，终端或服务器可以通过文本识别模型对文本图像中的字符进行识别。文本识别模型的训练方法的执行主体和文本识别方法的执行主体可以相同，也可以不同。

例如，在一种应用场景中，如图1所示，图1为本公开实施例提供的一种应用场景的示意图，服务器12对文本识别模型进行训练。终端11从服务器12获取训练完成的文本识别模型，终端11通过该训练完成的文本识别模型对文本图像中的字符进行识别。该目标图像可以是终端11拍摄获得的。或者，该目标图像是终端11从其他设备中获取的。再或者，该目标图像是终端11对预设图像进行图像处理后得到的图像，该预设图像可以是终端11拍摄获得的，或者该预设图像可以是终端11从其他设备中获取的。此处，并不对其他设备做具体限定。

在另一种应用场景中，服务器12对文本识别模型进行训练。进一步，服务器12通过训练完成的文本识别模型对文本图像中的字符进行识别。服务器12获取目标图像的方式可以类似于如上所述的终端11获取目标图像的方式，此处不再赘述。

在又一种应用场景中，终端11对文本识别模型进行训练。进一步，终端11通过训练完成的文本识别模型对文本图像中的字符进行识别。

可以理解的是，本公开实施例提供的文本识别模型训练方法、文本识别方法并不限于如上所述的几种可能场景。由于训练完成的文本识别模型可应用在文本识别方法中，因此，在介绍文本识别方法之前，下面可以先介绍一下文本识别模型训练方法。

下面以服务器12训练文本识别模型为例，介绍一种文本识别模型训练方法，即文本识别模型的训练过程。可以理解的是，该文本识别模型训练方法同样适用于终端11训练文本识别模型的场景中。

图2为本公开实施例提供的一种文本识别模型训练方法流程图，在获取文本图对其上的文本进行识别之前，需要对构建文本识别模型并对构建的文本识别模型进行训练，具体包括如图2所示的如下步骤S210至S240：

S210、获取样本图像集，样本图像集包括样本图像和样本图像对应的文本标注结果。

可理解的，服务器获取样本图像集，样本图像集作为文本识别模型的训练样本，样本图像集中包括大量的样本图像以及与样本图像对应的文本标注结果，文本标注结果是指对样本图像中字符进行标注的准确结果，其中样本图像可以是单行文本图像，具体的，可以直接获取单行文本图像作为样本图像，或者获取多行文本图像，通过文本检测方法将多行文本图像分为多个单行文本图像后，再将多个单行文本图像作为样本图像。可理解的，样本图像中的单行文本可以是直文本、倾斜文本和弯曲文本，样本图像还可以是常规的模糊、影印的文本图像；得到样本图像后，对样本图像中的文本进行标注，即标注样本图像上的文本字符信息，也就是对样本图像中的所有文本均进行标注，得到样本图像对应的文本标注结果，文本标注结果包括字符序列；对文本进行标注的时，根据文本标注结果中的每个字符构建字典，字典只包括独立的字符，字典可以理解为样本图像集中涉及到的、无重复的单字符集合。

S220、将样本图像输入到预先构建的文本识别模型中，生成多个文本识别结果。

可理解的，在上述S210的基础上，将样本图像集输入到预先构建的文本识别模型中，基于样本图像集中的每个样本图像以及文本标注结果对文本识别模型进行训练，每个样本图像输入到文本识别模型中，均会得到多个文本识别结果，也就是一个样本图像对应多个文本识别结果。

可选的，多个文本识别结果包括解码模块中第一解码子模块输出的第一识别结果、解码模块中第二解码子模块输出的第二识别结果以及解码模块中第三解码子模块输出的第三识别结果。

示例性的，参见图3，图3为本公开实施例提供的一种文本识别模型的网络结构图，图3中文本识别模型300包括矫正模块310、第一特征提取模块320、第二特征提取模块330和解码模块340，其中，矫正模块310包括多个矫正子模块，多个矫正子模块分别对应不同的矫正方法，也就是多个矫正子模块基于不同的矫正方法分别对文本图像进行矫正，矫正子模块1对应矫正方法1，矫正子模块2对应矫正方法2，例如矫正模块310包括3个矫正子模块，分别记为第一矫正子模块311、第二矫正子模块312和第三矫正子模块313，第一矫正子模块311包括5个卷积层和2个全连接层，随后基于刚性变换得到矫正图像，刚性变换可以是仿射变换，第二矫正子模块312包括8个卷积层，且最后一个卷积层的通道数为2，第三矫正子模块313同样包括5个卷积层和2个全连接层，随后基于非刚性变换得到矫正图像，非刚性变换可以是波板样条插值(TPS)变换；第一特征提取模块320包括多个特征提取子模块，多个特征提取子模块分别对应不同的特征提取方法，第一特征提取模块320包括2个特征提取子模块，记为第一特征提取子模块321和第二特征提取子模块322，其中，第一特征提取子模块321由残差网络模块组成，残差网络为Resnet34网络，Resnet34主体由4个卷积块(Block块)组成，每个block块又由若干卷积操作组成，每一个block的输出是后一个block块的输入，第二特征提取子模块322由编码模块构成，编码模块可以是Transformer模型中的正余弦编码部分；第二特征提取模块330包括多个特征映射模块，每个特征映射模块会对应一个特征增强方法，第二特征提取模块330包括2个特征映射模块，记为第三特征映射模块331和第四特征映射模块332，第三特征映射模块331由双向循环网络模块构成，双向循环网络模块可以是两层双向长短期记忆网络(LSTM，Long Short-Term Memory)，第四特征映射模块332由恒等变换模块构成，恒等变换不改变输入信息，即输入信息就是输出信息；解码模块340包括多个解码子模块，多个解码子模块分别对应不同的解码方法，解码模块340包括3个解码子模块，记为第一解码子模块341、第二解码子模块342和第三解码子模块343，其中，第一解码子模块341由子注意力层和循环网络层构成，循环网络层可以是门控循环单元(GRU)，第二解码子模块342由Transformer模型中3个基础模块构成，第三解码子模块343由全连接层构成。

可理解的，样本图像输入到文本识别模型后，文本识别模型在训练时内部流程如下：矫正模块310中的3个矫正子模块311至313分别对样本图像进行矫正，得到3个矫正图像，随后将得到的3个矫正图像串联叠加作为第一特征提取模320的输入；第一特征提取模块320中的2个特征提取子模块321至322分别提取串联叠加后的矫正图像的特征，得到2组特征映射，随后将2组特征映射合并成为一组新的特征映射；第二特征提取模块330中的2个特征映射模块331至332分别对新的特征映射进行特征增强，得到2组特征映射，随后根据2组特征映射得到一组新的特征映射作为解码模块340的输入；解码模块340中的3个解码子模块341至343分别对新的特征映射进行解码，得到3个解码结果，解码结果也就是文本识别结果，即文本识别模型在训练的过程中会生成3个文本识别结果。

S230、根据多个文本识别结果和文本标注结果计算损失值。

可理解的，在上述S220的基础上，针对每个样本图像来说，每个样本图像都会存在对应的多个文本识别结果，根据每个样本图像对应的多个文本识别结果和该样本图像对应的文本标注结果计算损失值。

可选的，损失值包括第一损失值、第二损失值和第三损失值。

可选的，上述S230中计算损失值可以包括如下步骤：

采用第一损失函数根据第一识别结果和文本标注结果计算第一损失值。

采用第一损失函数根据第二识别结果和文本标注结果计算第二损失值。

采用第二损失函数根据第三识别结果和文本标注结果计算第三损失值。

可理解的，针对每个样本图像来说，例如样本图像1来说，样本图像1存在对应的文本标注结果1、文本识别模型输出的第一识别结果1、第二识别结果1和第三识别结果1，采用第一损失函数基于第一解码子模块341输出的第一识别结果1和文本标注结果1计算第一损失值，第一损失函数可以是多分类交叉熵损失函数；采用第一损失函数基于第二识别结果1和文本标注结果1计算第二损失值；采用第二损失函数基于第三识别结果1和文本标注结果1计算第三损失值，其中第二损失函数可以是CTC损失函数。随后计算第一损失值、第二损失值和第三损失值之和，得到总的损失值。

S240、根据损失值更新文本识别模型的网络参数，直至损失值小于预设阈值，则输出文本识别模型。

可理解的，在上述S230的基础上，根据计算得到的总的损失值更新文本识别模型中各层级的网络参数，直到根据损失函数计算得到的损失值的差值在预设范围内时，也就是得到的损失值基本保持不变时，说明文本识别模型训练完成，输出文本识别模型。

本公开实施例提供了一种文本识别模型训练方法，文本识别模型中的每个模块均包括多个子模块，且每个子模块对应不同的处理方法，在基于样本图像集对文本识别模型进行训练的过程中，通过解码模块中每个解码子模块输出的文本识别结果计算损失值，多次迭代训练后，可以在每个模块中选择最优的方法，不需要选取不同的方法进行组合测试即可确定对于样本图像集来说识别准确度最高的文本识别方法，能够有效提高文本识别模型的训练速度，且确保文本识别模型具有较高的识别精度。

图4为本公开实施例提供的一种文本识别方法流程图，文本识别模型训练完成后，在文本识别模型的应用阶段具体包括如图4所示的如下步骤S410至S470：

S410、获取文本图像，文本图像包括至少一个字符。

可理解的，获取文本图像，文本图像可以是单行文本图像，单行文本图像中至少包括一个字符。可理解的是，在文本识别模型的应用阶段，为保证文本识别结果的准确性，输入文本识别模型的图像需要和样本图像具有相同的结构，例如文本识别模型在训练时输入的样本图像为单行文本图像，在应用文本识别模型时，输入到文本识别模型中的待识别文本图像也需要是单行文本图像，若获取到的文本图像是多行文本图像，可以预先对多行文本图像进行处理，得到多个单行文本图像，再将多个单行文本图像依次输入到文本识别模型中进行识别，对多行文本图像进行处理的方法不作限定。

S420、将文本图像输入到预先训练完成的文本识别模型中。

可选的，文本识别模型包括矫正模块、特征提取模块和解码模块，矫正模块包括多个矫正子模块和第一处理模块，多个矫正子模块分别对应不同的矫正方法。

S430、利用多个矫正子模块中每个矫正子模块对文本图像进行矫正，得到多个矫正图像。

S440、利用第一处理模块将多个矫正图像进行串联叠加得到第一矫正图像。

S450、利用特征提取模块对第一矫正图像进行特征提取，得到第一特征信息。

S460、利用解码模块基于第一特征信息生成文本图像对应的第一概率矩阵。

可选的，特征提取模块包括第一特征提取模块和第二特征提取模块。

可选的，上述S450中利用特征提取模块对第一矫正图像进行特征提取，得到第一特征信息，可以包括如下步骤：

利用第一特征提取模块对第一矫正图像进行特征提取，得到第二特征信息。

利用第二特征提取模块对第二特征信息进行数据增强，得到第一特征信息。

可理解的，矫正模块输出第一矫正图像至特征提取模块后，利用特征提取模块中的第一特征提取模块对第一矫正图像进行特征提取，得到第一矫正图像对应的第二特征信息；随后利用第二特征提取模块接收第二特征信息并对第二特征信息进行数据增强，得到第一特征信息，也就是第一特征提取模块和第二特征提取模块之间为串联的关系。

可选的，第一特征提取模块包括多个特征提取子模块，多个特征提取子模块分别对应不同的特征提取方法，多个特征提取子模块中的第一特征提取子模块由残差网络模块构成，多个特征提取子模块中的第二特征提取子模块由编码模块构成。

可选的，上述利用第一特征提取模块对第一矫正图像进行特征提取，得到第二特征信息，可以包括如下步骤：

利用第一特征提取子模块对第一矫正图像进行特征映射，并将特征映射结果的高度压缩至预设阈值，得到第一特征映射。

利用第二特征提取子模块对第一矫正图像进行编码，并将编码得到的输出向量的高度压缩至预设阈值，得到第二特征映射。

利用第一特征提取模块中的第一激活函数层计算第一特征映射和所述第二特征映射对应的第一得分，并根据第一特征映射、第二特征映射和得分得到第二特征信息。

可理解的，第一特征提取模块包括多个特征提取子模块，且多个特征提取子模块分别对应不同的特征提取方法，多个特征提取子模块之间为并联关系，输入均是第一矫正图像，输出均是特征映射。具体的，多个特征提取子模块中的第一特征提取子模块基于4个卷积块(Block块)对第一矫正图像进行特征映射，随后将得到特征映射的高度压缩至预设阈值，其中，预设阈值可以根据用户需求自行确定，例如预设阈值为4；多个特征提取子模块中第二特征提取子模块为Transformer模型的解码器部分，只保留正余弦编码部分，使用4个基础模块，Transformer模型的具体网络结构在此不作限定，具体的，第二特征提取子模块对第一矫正图像进行特征映射，并将特征映射的高度同样压缩至预设阈值，得到第二特征映射，也就是不同特征提取子模块输出的特征映射的高度均相同，便于后续根据多个特征映射得到新的特征映射。第一特征提取模块中的每个特征提取子模块均输出特征映射后，第一特征映射的每个对应位置的值经过一个第一激活函数层(softmax层)计算得分，得到第一得分，随后计算第一特征映射的每个对应位置的值和第一得分的乘积，得到第一乘积，也就是对每个对应位置的值进行加权，第二特征映射的每个对应位置的值同样经过同一个softmax层计算得分，得到另一个第一得分，随后第二特征映射的每个对应位置的值和另一个第一得分的乘积，得到第二乘积，将第一乘积和第二乘积中的值按照对应位置相加，得到合并后的第二特征信息。

可选的，第二特征提取模块包括多个特征映射模块，多个特征映射模块中的第三特征映射模块由双向循环网络模块构成。

可选的，上述利用第二特征提取模块对第二特征信息进行特征提取，得到第一特征信息，可以包括如下步骤：

利用第三特征映射模块对第二特征信息进行特征增强，得到增强信息。

利用第二特征提取模块中的第二激活函数层根据增强信息和第二特征信息计算第二得分，并根据第二得分、增强信息和第二特征信息得到第一特征信息。

可理解的，第二特征提取模块用于对第一特征提取模块输出的第二特征信息进行数据增强，第二特征提取模块中包括多个特征映射模块，多个特征映射模块之间为并联的关系，每个特征映射模块的输入均是第二特征信息，输出均是增强信息。具体的，第三特征映射模块对第二特征信息进行特征增强，得到增强信息，其中增强信息和第二特征信息的维度相同；随后，根据第二特征信息和增强信息，基于第二激活函数层(softmax层)进行加权求和计算得到第一特征信息，第一特征信息可以理解为新的特征映射，第二激活函数层的计算方法同上述第一激活函数层，在此不作赘述。

可选的，解码模块包括多个解码子模块，多个解码子模块分别对应不同的解码方法，多个解码子模块中的第一解码子模块由子注意力层和循环网络层构成，多个解码子模块中的第二解码子模块由深度模块构成。

可选的，上述S460中利用解码模块基于第一特征信息生成文本图像对应的第一概率矩阵可以包括如下步骤：

利用第一解码子模块基于第一特征信息进行解码，生成包括语义信息和时间信息的第二概率矩阵。

利用第二解码子模块将第一特征信息映射到一个连续的表示中，生成第三概率矩阵。

利用解码模块中的第三激活函数层根据第二概率矩阵和第三概率矩阵计算第三得分，并根据第三得分、第二概率矩阵和第三概率矩阵生成文本图像对应的第一概率矩阵。

可理解的，解码模块包括多个解码子模块，每个解码子模块对应一个解码方法，也就是多个解码子模块之间为并联关系，每个解码子模块的输入均是第一特征信息，输出均是概率矩阵(解码结果)。具体的，利用第一解码子模块对第一特征信息进行解码，生成第二概率矩阵；利用第二解码子模块基于第一特征信息进行解码，生成第三概率矩阵，随后第二概率矩阵和第三概率矩阵基于softmax操作计算得分，然后根据得分获得新的概率矩阵，新的概率矩阵记为第一概率矩阵，计算方式同上述第一激活函数层，在此不作赘述。可理解的是，上述文本识别模型中解码模块包括3个解码子模块，还包括第三解码子模块，第三解码子模块是由全连接层构成的，解码的准确度要低于第一解码子模块和第二解码子模块，因此，只在文本识别模型进行训练时使用第三解码子模块的输出计算损失值，以提高文本识别模型的准确度，在文本识别模型的应用阶段，不使用第三解码子模块输出的概率矩阵。

S470、根据第一概率矩阵对文本图像中的字符进行识别，得到识别结果。

可理解的，在上述S460的基础上，得到文本识别模型输出的第一概率矩阵后，对第一概率矩阵采用贪心算法，得到文本图像中字符的识别结果，第一概率矩阵的大小和上述根据样本图像集构建的字典的大小相同，也就是第一概率矩阵中的概率值和字典中的字符是一一对应的，第一概率矩阵中包括文本图像中所有待识别的字符和字典中所有字符的相同概率值，采用贪心算法确定第一概率矩阵中最高的目标概率值，将字典中目标概率值所对应的位置处所存储的字符确定为待识别的字符的识别结果。

本公开实施例提供了一种文本识别方法，构建的文本识别模型包括多个模块，且每个模块包括多种子模块，每个子模块对应一种处理方式，利用softmax对文本识别模型中每个模块中包括的多种方法进行评估，使得每个模块中每个子模块对应的方法的优点得以发挥，缺点被尽可能避免，也就是针对每个文本图像均能选择出最佳的识别方式，同时充分利用了文本图像的内容、位置和字符形状等多种信息，从而得到了更高精度的识别结果。

图5为本公开实施例提供的一种文本识别方法流程图，可选的，上述S430中利用多个矫正子模块中每个矫正子模块对文本图像进行矫正，得到多个矫正图像，具体包括如图5所示的如下步骤S510至S530：

可理解的，矫正模块包括多个矫正子模块，多个矫正子模块之间为并联关系，且每个矫正子模块之间存在对应的一种矫正方法，也就是不同矫正子模块采用不同矫正方法对文本图像进行矫正，得到的矫正图像可能不同，也就是对于不同文本图像来说，不同矫正子模块得到的矫正效果也不同。

S510、利用多个矫正子模块中的第一矫正子模块预测文本图像的第一数量的基准点坐标，并根据第一数量的基准点坐标对文本图像进行仿射变换，得到第二矫正图像。

可理解的，利用多个矫正子模块中的第一矫正子模块预测输入的文本图像的基准点坐标，具体的预测第一数量的基准点坐标，第一数量根据用户需求自行确定，例如第一数量可以是20；随后基于第一数量的基准点坐标计算单应矩阵，基于单应矩阵对文本图像进行仿射变换，得到第二矫正图像。

示例性的，参见图6，图6为本公开实施例提供的一种文本图像的示意图，图6中包括文本图像610和第二矫正图像620，其中文本图像610包括单行文本611和单行文本的基准点612，第二矫正图像620中包括矫正后的单行文本621，其中，文本图像610中只示出了预测的至少部分基准点。

S520、利用多个矫正子模块中的第二矫正子模块计算文本图像的偏移量，并根据偏移量对文本图像的每个坐标位置对应的像素值进行调整，得到第三矫正图像。

可理解的，利用第二矫正子模块计算文本图像的xy偏移量，随后根据xy偏移量对文本图像的每个坐标位置对应的像素值进行调整，得到第三矫正图像。

S530、利用多个矫正子模块中的第三矫正子模块预测文本图像的第二数量的基准点坐标，并根据第二数量的基准点坐标对文本图像进行波板样条插值变换，得到第四矫正图像。

可理解的，第三矫正子模块也会预测文本图像的基准点坐标，具体预测第二数量的基准点坐标，随后根据第二数量的基准点坐标对文本图像进行波板样条插值(TPS)变换，得到第四矫正图像。

可理解的，每个矫正子模块均输出矫正图像后，第一处理模块将多个矫正图像进行串联叠加，得到第一矫正图像，例如每个矫正图像的大小均是128*128*1，3个矫正图像进行串联叠加后，得到的第一矫正图像的大小为128*128*3。

本公开实施例提供了一种文本识别方法，文本识别模型中的矫正模块包括多个矫正子模块，每个矫正子模块对应一种矫正方法，采用多种矫正方法对文本图像进行矫正，得到多种矫正图像，基于多种矫正图像得到最终的矫正图像，对文本图像进行矫正的准确度比较高，进一步提高对文本图像中字符的识别准确度。

在上述实施例的基础上，图7为本公开实施例提供的一种文本识别装置的结构示意图，本公开实施例提供的文本识别装置可以执行上述文本识别方法实施例提供的处理流程，如图7所示，文本识别装置700包括：

获取单元710，用于获取文本图像，文本图像包括至少一个字符。

输入单元720，用于将文本图像输入到预先训练完成的文本识别模型中。文本识别模型包括矫正模块、特征提取模块和解码模块，矫正模块包括多个矫正子模块和第一处理模块，多个矫正子模块分别对应不同的矫正方法。

处理单元730，用于利用多个矫正子模块中每个矫正子模块对文本图像进行矫正，得到多个矫正图像；利用第一处理模块将多个矫正图像进行串联叠加得到第一矫正图像；利用特征提取模块对第一矫正图像进行特征提取，得到第一特征信息；以及利用解码模块基于第一特征信息生成文本图像对应的第一概率矩阵。

识别单元740，用于根据第一概率矩阵对文本图像中的字符进行识别，得到识别结果。

可选的，多个矫正图像包括第二矫正图像、第三矫正图像和第四矫正图像。

可选的，处理单元730还用于：

利用多个矫正子模块中的第一矫正子模块预测文本图像的第一数量的基准点坐标，并根据第一数量的基准点坐标对文本图像进行仿射变换，得到第二矫正图像；

利用多个矫正子模块中的第二矫正子模块计算文本图像的偏移量，并根据偏移量对文本图像的每个坐标位置对应的像素值进行调整，得到第三矫正图像；

利用多个矫正子模块中的第三矫正子模块预测文本图像的第二数量的基准点坐标，并根据第二数量的基准点坐标对文本图像进行波板样条插值变换，得到第四矫正图像。

可选的，处理模块730还用于：

利用第一特征提取模块对第一矫正图像进行特征提取，得到第二特征信息；

可选的，第一特征提取模块包括多个特征提取子模块，多个特征提取子模块分别对应不同的特征提取方法；多个特征提取子模块中的第一特征提取子模块由残差网络模块构成；多个特征提取子模块中的第二特征提取子模块由编码模块构成。

可选的，处理单元730还用于：

利用第一特征提取子模块对第一矫正图像进行特征映射，并将特征映射结果的高度压缩至预设阈值，得到第一特征映射；

利用第二特征提取子模块对第一矫正图像进行编码，并将编码得到的输出向量的高度压缩至预设阈值，得到第二特征映射；

可选的，处理单元730还用于：

利用第三特征映射模块对第二特征信息进行特征增强，得到增强信息；

可选的，处理单元730还用于：

利用第一解码子模块基于第一特征信息进行解码，生成包括语义信息和时间信息的第二概率矩阵；

利用第二解码子模块将第一特征信息映射到一个连续的表示中，生成第三概率矩阵；

可选的，文本识别模型可以通过以下方式训练得到：

获取样本图像集，样本图像集包括样本图像和样本图像对应的文本标注结果；

将样本图像输入到预先构建的文本识别模型中，生成多个文本识别结果；

根据多个文本识别结果和文本标注结果计算损失值；

根据损失值更新文本识别模型的网络参数，直至损失值小于预设阈值，则输出文本识别模型。

可选的，多个文本识别结果包括解码模块中第一解码子模块输出的第一识别结果、解码模块中第二解码子模块输出的第二识别结果以及解码模块中第三解码子模块输出的第三识别结果；损失值包括第一损失值、第二损失值和第三损失值。

可选的，根据多个文本识别结果和文本标注结果计算损失值，包括：

采用第一损失函数根据第一识别结果和文本标注结果计算第一损失值；

采用第一损失函数根据第二识别结果和文本标注结果计算第二损失值；

本实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图8，现将描述可以作为本公开的服务器或客户端的电子设备800的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备，输入单元806可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元808可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如，在一些实施例中，文本识别方法或识别网络的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本识别方法或识别网络的训练方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本识别方法，其特征在于，包括：

获取文本图像，所述文本图像包括至少一个字符；

2.根据权利要求1所述的方法，其特征在于，所述多个矫正图像包括第二矫正图像、第三矫正图像和第四矫正图像，

所述利用所述多个矫正子模块中每个矫正子模块对所述文本图像进行矫正，得到多个矫正图像，包括：

利用所述多个矫正子模块中的第一矫正子模块预测所述文本图像的第一数量的基准点坐标，并根据所述第一数量的基准点坐标对所述文本图像进行仿射变换，得到第二矫正图像；

利用所述多个矫正子模块中的第二矫正子模块计算所述文本图像的偏移量，并根据所述偏移量对所述文本图像的每个坐标位置对应的像素值进行调整，得到第三矫正图像；

利用所述多个矫正子模块中的第三矫正子模块预测所述文本图像的第二数量的基准点坐标，并根据所述第二数量的基准点坐标对所述文本图像进行波板样条插值变换，得到第四矫正图像。

3.根据权利要求1或2所述的方法，其特征在于，所述特征提取模块包括第一特征提取模块和第二特征提取模块，

所述利用所述特征提取模块对所述第一矫正图像进行特征提取，得到第一特征信息，包括：

利用所述第一特征提取模块对所述第一矫正图像进行特征提取，得到第二特征信息；

利用所述第二特征提取模块对所述第二特征信息进行数据增强，得到所述第一特征信息。

4.根据权利要求3所述的方法，其特征在于，所述第一特征提取模块包括多个特征提取子模块，所述多个特征提取子模块中的第一特征提取子模块由残差网络模块构成，所述多个特征提取子模块中的第二特征提取子模块由编码模块构成，

所述利用所述第一特征提取模块对所述第一矫正图像进行特征提取，得到第二特征信息，包括：

利用所述第一特征提取子模块对所述第一矫正图像进行特征映射，并将特征映射结果的高度压缩至预设阈值，得到第一特征映射；

利用所述第二特征提取子模块对所述第一矫正图像进行编码，并将编码得到的输出向量的高度压缩至所述预设阈值，得到第二特征映射；

利用所述第一特征提取模块中的第一激活函数层计算所述第一特征映射和所述第二特征映射对应的第一得分，并根据所述第一特征映射、所述第二特征映射和所述得分得到所述第二特征信息。

5.根据权利要求3所述的方法，其特征在于，所述第二特征提取模块包括多个特征映射模块，所述多个特征映射模块中的第三特征映射模块由双向循环网络模块构成，

所述利用所述第二特征提取模块对所述第二特征信息进行数据增强，得到第一特征信息，包括：

利用所述第三特征映射模块对所述第二特征信息进行特征增强，得到增强信息；

利用所述第二特征提取模块中的第二激活函数层，根据所述增强信息和所述第二特征信息计算第二得分，并根据所述第二得分、所述增强信息和所述第二特征信息得到所述第一特征信息。

6.根据权利要求1或2所述的方法，其特征在于，所述解码模块包括多个解码子模块，所述多个解码子模块中的第一解码子模块由子注意力层和循环网络层构成，所述多个解码子模块中的第二解码子模块由深度模块构成，

所述利用所述解码模块基于所述第一特征信息生成所述文本图像对应的第一概率矩阵，包括：

利用所述第一解码子模块基于所述第一特征信息进行解码，生成包括语义信息和时间信息的第二概率矩阵；

利用所述第二解码子模块将所述第一特征信息映射到一个连续的表示中，生成第三概率矩阵；

利用所述解码模块中的第三激活函数层，根据所述第二概率矩阵和所述第三概率矩阵计算第三得分，并根据所述第三得分、所述第二概率矩阵和所述第三概率矩阵生成所述文本图像对应的第一概率矩阵。

7.根据权利要求1或2所述的方法，其特征在于，所述文本识别模型是通过以下方式训练得到的：

获取样本图像集，所述样本图像集包括样本图像和所述样本图像对应的文本标注结果；

将所述样本图像输入到预先构建的文本识别模型中，生成多个文本识别结果；

根据所述多个文本识别结果和所述文本标注结果计算损失值；

根据所述损失值更新所述文本识别模型的网络参数，直至所述损失值小于预设阈值，则输出所述文本识别模型。

8.根据权利要求7所述的方法，其特征在于，所述多个文本识别结果包括所述解码模块中第一解码子模块输出的第一识别结果、所述解码模块中第二解码子模块输出的第二识别结果以及所述解码模块中第三解码子模块输出的第三识别结果，所述损失值包括第一损失值、第二损失值和第三损失值，

所述根据所述多个文本识别结果和所述文本标注结果计算损失值，包括：

采用第一损失函数根据所述第一识别结果和所述文本标注结果计算第一损失值；

采用所述第一损失函数根据所述第二识别结果和所述文本标注结果计算第二损失值；

采用第二损失函数根据所述第三识别结果和所述文本标注结果计算第三损失值。

9.一种文本识别装置，其特征在于，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至8中任一所述的文本识别方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1至8中任一所述的文本识别方法。