CN108875722A

CN108875722A - 字符识别与识别模型训练方法、装置和系统及存储介质

Info

Publication number: CN108875722A
Application number: CN201711447862.9A
Authority: CN
Inventors: 贺欣; 周昕宇; 郭嘉丞
Original assignee: Beijing Megvii Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2018-11-23

Abstract

本发明实施例提供一种字符识别模型训练方法、装置和系统以及字符识别方法、装置和系统以及存储介质。字符识别模型训练方法包括：获取至少一个样本图像和至少一个样本图像各自对应的标注数据，每个样本图像所对应的标注数据用于指示该样本图像的实际字符区域的位置以及实际字符区域中的实际字符；对于至少一个样本图像中的每个样本图像，将该样本图像输入字符识别模型中的区域定位网络，以确定该样本图像的预测字符区域的位置；将预测字符区域的位置对应的图像信息输入字符识别模型中的字符识别网络，以识别预测字符区域中的预测字符；以及至少利用至少一个样本图像各自对应的标注数据和预测字符对字符识别模型进行训练。可有效避免字符识别的累积误差。

Description

字符识别与识别模型训练方法、装置和系统及存储介质

技术领域

本发明涉及图像识别领域，更具体地涉及一种字符识别模型训练方法、装置和系统以及一种字符识别方法、装置和系统以及存储介质。

背景技术

在许多领域，均需要进行字符识别。下面以银行卡卡号识别为例进行说明。在金融、财务、保险和电商等行业的业务中，经常会需要录入用户的银行卡卡号信息。随着智能设备的普及和人工智能技术的快速发展，目前许多场景下的银行卡卡号录入工作都从以往的人工输入变成了算法自动识别，这些自动识别算法极大地压缩了银行卡卡号录入所耗费的时间，同时也减小了人工输入错误的可能性。

现有的银行卡卡号识别方法通常分为两个步骤，即卡号区域检测和卡号识别，甚至有些方法还需要在第二步更加细分成卡号区域的字符分割和字符识别。这种多步骤的方法往往会在每一个分解步骤带来一定的累积误差，且这种误差在后续步骤中都无法弥补，因此在识别准确率上会有瓶颈。另一方面，多步骤的方法在实现上也更复杂，很难达到较好的识别效果。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种字符识别模型训练方法、装置和系统以及一种字符识别方法、装置和系统以及存储介质。

根据本发明一方面，提供了一种字符识别模型训练方法。该方法包括：获取至少一个样本图像和至少一个样本图像各自对应的标注数据，每个样本图像所对应的标注数据用于指示该样本图像的实际字符区域的位置以及实际字符区域中的实际字符；对于至少一个样本图像中的每个样本图像，将该样本图像输入字符识别模型中的区域定位网络，以确定该样本图像的预测字符区域的位置；对于至少一个样本图像中的每个样本图像，将预测字符区域的位置对应的图像信息输入字符识别模型中的字符识别网络，以识别预测字符区域中的预测字符；以及至少利用至少一个样本图像各自对应的标注数据和预测字符对字符识别模型进行训练。

示例性地，至少利用至少一个样本图像各自对应的标注数据和预测字符对字符识别模型进行训练包括：基于至少一个样本图像各自对应的预测字符区域和实际字符区域计算第一损失函数；基于至少一个样本图像各自对应的预测字符和实际字符计算第二损失函数；基于第一损失函数和第二损失函数计算总损失函数；以及调整字符识别模型中的参数以优化损失函数，以获得经训练的字符识别模型。

示例性地，第一损失函数L₁根据以下公式计算：

第二损失函数L₂根据以下公式计算：

总损失函数L根据以下公式计算：

L＝α*L₁+L₂；

其中，α为预设权重参数，M为至少一个样本图像的数目，n为字符区域的顶点个数，为第i个样本图像的实际字符区域中的第j个顶点的实际坐标值，为第i个样本图像的预测字符区域中的第j个顶点的预测坐标值，K、C分别为字符序列长度和字符类别数，为第i个样本图像的实际字符中的第k个字符属于第c个类别的实际概率值，为第i个样本图像的预测字符中的第k个字符属于第c个类别的预测概率值。

示例性地，获取至少一个样本图像包括：获取至少一个初始图像；以及将至少一个初始图像分别缩放到标准尺寸，以获得至少一个样本图像。

示例性地，区域定位网络包括空间变换网络，且/或字符识别网络包括卷积神经网络和循环神经网络。

示例性地，循环神经网络是结合注意力机制的网络。

示例性地，对于至少一个样本图像中的每个样本图像，将预测字符区域的位置对应的图像信息输入字符识别模型中的字符识别网络，以识别预测字符区域中的预测字符包括：对于至少一个样本图像中的每个样本图像，将该样本图像的预测字符区域的位置对应的图像信息输入卷积神经网络，以提取该样本图像的预测字符区域的图像特征；将该样本图像的预测字符区域的图像特征输入循环神经网络，以获得该样本图像的预测字符的概率矩阵；以及根据概率矩阵确定该样本图像的预测字符。

根据本发明另一方面，提供了一种字符识别方法，包括：获取待识别图像；以及利用上述字符识别模型训练方法训练获得的字符识别模型处理待识别图像，以识别待识别图像中的待识别字符。

根据本发明另一方面，提供了一种字符识别模型训练装置，包括：图像及数据获取模块，用于获取至少一个样本图像和至少一个样本图像各自对应的标注数据，每个样本图像所对应的标注数据用于指示该样本图像的实际字符区域的位置以及实际字符区域中的实际字符；区域定位模块，用于对于至少一个样本图像中的每个样本图像，将该样本图像输入字符识别模型中的区域定位网络，以确定该样本图像的预测字符区域的位置；字符识别模块，用于对于至少一个样本图像中的每个样本图像，将预测字符区域的位置对应的图像信息输入字符识别模型中的字符识别网络，以识别预测字符区域中的预测字符；以及训练模块，用于至少利用至少一个样本图像各自对应的标注数据和预测字符对字符识别模型进行训练。

示例性地，训练模块包括：第一计算子模块，用于基于至少一个样本图像各自对应的预测字符区域和实际字符区域计算第一损失函数；第二计算子模块，用于基于至少一个样本图像各自对应的预测字符和实际字符计算第二损失函数；第三计算子模块，用于基于第一损失函数和第二损失函数计算总损失函数；以及参数调整子模块，用于调整字符识别模型中的参数以优化损失函数，以获得经训练的字符识别模型。

示例性地，第一损失函数L₁根据以下公式计算：

第二损失函数L₂根据以下公式计算：

总损失函数L根据以下公式计算：

L＝α*L₁+L₂；

示例性地，图像及数据获取模块包括：初始图像获取子模块，用于获取至少一个初始图像；以及缩放子模块，用于将至少一个初始图像分别缩放到标准尺寸，以获得至少一个样本图像。

示例性地，循环神经网络是结合注意力机制的网络。

示例性地，字符识别模块包括：特征提取子模块，用于对于至少一个样本图像中的每个样本图像，将该样本图像的预测字符区域的位置对应的图像信息输入卷积神经网络，以提取该样本图像的预测字符区域的图像特征；输入子模块，用于对于至少一个样本图像中的每个样本图像，将该样本图像的预测字符区域的图像特征输入循环神经网络，以获得该样本图像的预测字符的概率矩阵；以及字符确定子模块，用于对于至少一个样本图像中的每个样本图像，根据概率矩阵确定该样本图像的预测字符。

根据本发明另一方面，提供了一种字符识别装置，包括：图像获取模块，用于获取待识别图像；以及识别模块，用于利用上述字符识别模型训练方法训练获得的所述字符识别模型处理所述待识别图像，以识别所述待识别图像中的待识别字符。

根据本发明另一方面，提供了一种字符识别模型训练系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行以下步骤：获取至少一个样本图像和至少一个样本图像各自对应的标注数据，每个样本图像所对应的标注数据用于指示该样本图像的实际字符区域的位置以及实际字符区域中的实际字符；对于至少一个样本图像中的每个样本图像，将该样本图像输入字符识别模型中的区域定位网络，以确定该样本图像的预测字符区域的位置；对于至少一个样本图像中的每个样本图像，将预测字符区域的位置对应的图像信息输入字符识别模型中的字符识别网络，以识别预测字符区域中的预测字符；以及至少利用至少一个样本图像各自对应的标注数据和预测字符对字符识别模型进行训练。

示例性地，所述计算机程序指令被所述处理器运行时所用于执行的至少利用至少一个样本图像各自对应的标注数据和预测字符对字符识别模型进行训练的步骤包括：基于至少一个样本图像各自对应的预测字符区域和实际字符区域计算第一损失函数；基于至少一个样本图像各自对应的预测字符和实际字符计算第二损失函数；基于第一损失函数和第二损失函数计算总损失函数；以及调整字符识别模型中的参数以优化损失函数，以获得经训练的字符识别模型。

示例性地，第一损失函数L₁根据以下公式计算：

第二损失函数L₂根据以下公式计算：

总损失函数L根据以下公式计算：

L＝α*L₁+L₂；

示例性地，所述计算机程序指令被所述处理器运行时所用于执行的获取至少一个样本图像的步骤包括：获取至少一个初始图像；以及将至少一个初始图像分别缩放到标准尺寸，以获得至少一个样本图像。

示例性地，循环神经网络是结合注意力机制的网络。

示例性地，所述计算机程序指令被所述处理器运行时所用于执行的对于至少一个样本图像中的每个样本图像，将预测字符区域的位置对应的图像信息输入字符识别模型中的字符识别网络，以识别预测字符区域中的预测字符的步骤包括：对于至少一个样本图像中的每个样本图像，将该样本图像的预测字符区域的位置对应的图像信息输入卷积神经网络，以提取该样本图像的预测字符区域的图像特征；将该样本图像的预测字符区域的图像特征输入循环神经网络，以获得该样本图像的预测字符的概率矩阵；以及根据概率矩阵确定该样本图像的预测字符。

根据本发明另一方面，提供了一种字符识别系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行以下步骤：获取待识别图像；以及利用上述字符识别模型训练方法训练获得的所述字符识别模型处理所述待识别图像，以识别所述待识别图像中的待识别字符。

根据本发明另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行以下步骤：获取至少一个样本图像和至少一个样本图像各自对应的标注数据，每个样本图像所对应的标注数据用于指示该样本图像的实际字符区域的位置以及实际字符区域中的实际字符；对于至少一个样本图像中的每个样本图像，将该样本图像输入字符识别模型中的区域定位网络，以确定该样本图像的预测字符区域的位置；对于至少一个样本图像中的每个样本图像，将预测字符区域的位置对应的图像信息输入字符识别模型中的字符识别网络，以识别预测字符区域中的预测字符；以及至少利用至少一个样本图像各自对应的标注数据和预测字符对字符识别模型进行训练。

示例性地，所述程序指令在运行时所用于执行的至少利用至少一个样本图像各自对应的标注数据和预测字符对字符识别模型进行训练的步骤包括：基于至少一个样本图像各自对应的预测字符区域和实际字符区域计算第一损失函数；基于至少一个样本图像各自对应的预测字符和实际字符计算第二损失函数；基于第一损失函数和第二损失函数计算总损失函数；以及调整字符识别模型中的参数以优化损失函数，以获得经训练的字符识别模型。

示例性地，第一损失函数L₁根据以下公式计算：

第二损失函数L₂根据以下公式计算：

总损失函数L根据以下公式计算：

L＝α*L₁+L₂；

示例性地，所述程序指令在运行时所用于执行的获取至少一个样本图像的步骤包括：获取至少一个初始图像；以及将至少一个初始图像分别缩放到标准尺寸，以获得至少一个样本图像。

示例性地，循环神经网络是结合注意力机制的网络。

示例性地，所述程序指令在运行时所用于执行的对于至少一个样本图像中的每个样本图像，将预测字符区域的位置对应的图像信息输入字符识别模型中的字符识别网络，以识别预测字符区域中的预测字符的步骤包括：对于至少一个样本图像中的每个样本图像，将该样本图像的预测字符区域的位置对应的图像信息输入卷积神经网络，以提取该样本图像的预测字符区域的图像特征；将该样本图像的预测字符区域的图像特征输入循环神经网络，以获得该样本图像的预测字符的概率矩阵；以及根据概率矩阵确定该样本图像的预测字符。

根据本发明另一方面，提供了一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行以下步骤：获取待识别图像；以及利用上述字符识别模型训练方法训练获得的所述字符识别模型处理所述待识别图像，以识别所述待识别图像中的待识别字符。

根据本发明实施例的字符识别模型训练方法、装置和系统以及字符识别方法、装置和系统以及存储介质，通过参数联合训练，可以训练获得累积误差小、准确率高的字符识别模型。采用训练获得的字符识别模型进行字符识别时，可以有效地避免中间步骤的累积误差，从而可以有效地提升字符识别的准确率。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1示出用于实现根据本发明实施例的字符识别模型训练方法和装置或者字符识别方法和装置的示例电子设备的示意性框图；

图2示出根据本发明一个实施例的字符识别模型训练方法的示意性流程图；

图3示出银行卡图像的示意图；

图4示出根据本发明一个实施例的字符识别模型训练流程的示意图；

图5示出根据本发明一个实施例的字符识别方法的示意性流程图；

图6示出根据本发明一个实施例的字符识别模型训练装置的示意性框图；

图7示出了根据本发明一个实施例的字符识别装置的示意性框图；

图8示出根据本发明一个实施例的字符识别模型训练系统的示意性框图；以及

图9示出根据本发明一个实施例的字符识别系统的示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

为了减少在字符识别过程中各个分解步骤带来的累积误差，提升字符识别的准确率，本发明提供了一种字符识别模型训练方法和装置以及一种字符识别方法和装置。采用上述字符识别模型训练方法和装置可以训练出识别效果好、误差小的字符识别模型。上述字符识别方法和装置可以利用训练出的字符识别模型自动定位和识别诸如银行卡卡号的字符，具有准确度高、方法简洁等特点，可以极大地提升相关业务的精度和简易性。

根据本发明实施例的字符识别模型训练方法和字符识别方法可以应用于各种需要识别字符的领域，例如金融、财务、保险和电商等业务领域。例如，根据本发明实施例的字符识别模型训练方法和字符识别方法可以应用于银行卡上的银行卡号、身份证上的身份证号、工作证上的工号、营业执照上的注册号等各种号码的识别工作。作为示例，本文主要以银行卡卡号识别为例对本发明提供的字符识别模型训练方法和字符识别方法进行描述，这不应构成对本发明的限制。

首先，参照图1来描述用于实现根据本发明实施例的字符识别模型训练方法和装置或者字符识别方法和装置的示例电子设备100。

如图1所示，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108、以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像和/或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以采集图像(包括样本图像和/或待识别图像)，并且将所采集的图像存储在所述存储装置104中以供其它组件使用。图像采集装置110可以是摄像头。应当理解，图像采集装置110仅是示例，电子设备100可以不包括图像采集装置110。在这种情况下，可以利用其他具有图像采集能力的器件采集图像(包括样本图像和/或待识别图像)，并将采集的图像发送给电子设备100。

示例性地，用于实现根据本发明实施例的字符识别模型训练方法和装置或者字符识别方法和装置的示例电子设备可以在诸如个人计算机或远程服务器等的设备上实现。

下面，将参考图2描述根据本发明实施例的字符识别模型训练方法。图2示出根据本发明一个实施例的字符识别模型训练方法200的示意性流程图。如图2所示，字符识别模型训练方法200包括以下步骤。

在步骤S210，获取至少一个样本图像和至少一个样本图像各自对应的标注数据，每个样本图像所对应的标注数据用于指示该样本图像的实际字符区域的位置以及实际字符区域中的实际字符。

样本图像可以是图像采集装置(例如摄像头)采集到的原始图像，也可以是对原始图像进行预处理(诸如数字化、归一化、平滑等)之后获得的图像。样本图像可以由客户端设备(诸如包括摄像头的移动终端)发送到电子设备100以由电子设备100的处理器102进行字符识别模型训练，也可以由电子设备100包括的图像采集装置110采集并传送到处理器102进行字符识别模型训练。

样本图像可以是任何合适的包含字符的图像，例如银行卡图像、身份证图像、护照图像等。字符区域是指图像中目标字符存在的区域。目标字符是期望识别的字符，例如银行卡卡号等。实际字符区域是指人工标注出的、样本图像中的字符区域。

例如，为了训练用于识别银行卡卡号的字符识别模型，可以事先收集一大批现实场景中出现的银行卡图像。由于需要识别的目标字符是银行卡上面的卡号，因此可以事先通过人工标注的方式，指明银行卡卡号所在的位置(即实际字符区域)和卡号数字(即实际字符)。图3示出银行卡图像的示意图。在对图3所示的银行卡图像进行标注时，需要指明卡号区域310的位置。示例性地，可以用卡号区域的四个顶点(参见图3所示的320)的坐标表示卡号区域的位置。当然，可以理解的是，卡号区域还可以用卡号区域内的其他点处的坐标或用其他位置标注方式来表示，本发明不对此进行限制。此外，在对图3所示的银行卡图像进行标注时，还需要指明卡号区域内的字符，即卡号数字。在图3中，卡号区域310内的字符是银行卡上印刷的卡号数字，其上方示出的区域330内的字符是人工标注的卡号数字(即本文所述的实际字符)。

利用大量样本图像(如图3所示的银行卡图像)及对应的标注数据，可以构建一个训练集T＝{(G_k,γ_k)},k＝1,2,...,M，其中，G_k表示第k个样本图像的实际字符区域，由该区域的四边形包围框的四个顶点坐标表示，γ_k表示第k个样本图像的实际字符，M为样本图像的数目，k为下标。对于银行卡卡号识别，γ_k所属的字符集可以包括10个阿拉伯数字，也即γ_k∈{0,1,2,3,4,5,6,7,8,9,*,EOL}。此处的“*”代表背景类，用于处理银行卡卡号中的空格，“EOL”代表结束符，用于结束识别流程。

在步骤S220，对于至少一个样本图像中的每个样本图像，将该样本图像输入字符识别模型中的区域定位网络，以确定该样本图像的预测字符区域的位置。

示例性地，字符识别模型为端到端的神经网络模型。字符识别模型包括区域定位网络和字符识别网络。示例性地，区域定位网络可以包括空间变换网络(SpatialTransform Network,STN)。

图4示出根据本发明一个实施例的字符识别模型训练流程的示意图。训练时，可以将训练集T中的样本图像分别输入图4所示的网络中。示例性地，空间变换网络前面数层可以是卷积层(Convolutional Layer)，最后一层可以是卷积层或全连接层(Fully ConnectLayer)。示例性地，输入图像(即样本图像)输入空间变换网络之后，空间变换网络可以输出一个3行3列的变换矩阵(图4未示出)。随后，利用该变换矩阵对输入图像(即样本图像)进行空间变换，可以得到预测卡号区域的位置信息。参见表1，示出空间变换网络的一种示例性网络结构。

表1.空间变换网络的示例性网络结构

网络层类型	卷积核尺寸/步长	输出尺寸	深度
				卷积	5x5/2	270x480x16	1
最大池化	2x2/2	135x240x16	1
				卷积	3x3/2	67x120x32	1
最大池化	2x2/2	33x60x32	1
				卷积	3x3/1	33x60x64	3
最大池化	2x2/(1,2)	33x30x64	1
				卷积	3x3/1	33x30x96	3
卷积	3x3/1	33x30x128	3
				最大池化	2x2/2	16x15x128	1
全连接		64	1
				输出(linear)		9	1

在步骤S230，对于至少一个样本图像中的每个样本图像，将预测字符区域的位置对应的图像信息输入字符识别模型中的字符识别网络，以识别预测字符区域中的预测字符。

示例性地，字符识别网络可以包括卷积神经网络和循环神经网络(RecurrentNeural Network,RNN)。示例性地，步骤S230可以包括：对于至少一个样本图像中的每个样本图像，将该样本图像的预测字符区域的位置对应的图像信息输入卷积神经网络，以提取该样本图像的预测字符区域的图像特征；将该样本图像的预测字符区域的图像特征输入循环神经网络，以获得该样本图像的预测字符的概率矩阵；以及根据概率矩阵确定该样本图像的预测字符。

可以将预测卡号区域对应的图像信息输入卷积神经网络。示例性地，预测卡号区域对应的图像信息可以是从样本图像中提取出的、预测卡号区域所对应的图像块本身的像素信息。参见表2，示出卷积神经网络的一种示例性网络结构。预测卡号区域对应的图像信息在卷积神经网络中经过多层卷积后，可以得到预测卡号区域的图像特征，该图像特征可以是，例如由卷积神经网络输出的一张或多张特征图(feature map)。随后，将预测卡号区域的图像特征输入到随后的循环神经网络中。参见表3，示出循环神经网络的一种示例性网络结构。

表2.卷积神经网络的示例性网络结构

网络层类型	卷积核尺寸/步长	输出尺寸	深度
				卷积	3x3/2	24x144x96	1
卷积	1x1/1	24x144x128	1
				卷积	3x3/2	12x72x128	1
卷积	3x3/1	12x72x256	3
				最大池化	2x2/2	6x36x256	1
卷积	3x3/1	6x36x384	4
				最大池化	2x1/(2,1)	3x36x384	1
卷积	1x1/1	3x36x96	1

表3.循环神经网络的示例性网络结构

网络层类型	输出尺寸	深度
			双向门控循环单元(BiGRU)	256	2
注意力(attention)	36	1
			线性单元(linear)	12	1
输出(softmax)	12	1

示例性地，循环神经网络可以是结合注意力机制(Attention Mechanism)的网络。在循环神经网络中，利用注意力机制可以集中学习一张图像中要处理的部分，每次计算循环神经网络的当前状态时，都可以根据在前一个状态学习得到的要关注的位置以及当前输入的图像信息，去处理图像中的部分像素，而不是图像的全部像素。这样做可以减少需要处理的像素量，从而可以减少任务的复杂度，对于序列学习任务来说具有巨大的准确率和效率提升作用。

通过循环神经网络可以得到预测字符的概率矩阵。随后，根据预测字符的概率矩阵可以知道预测字符。例如，循环神经网络可以输出一个大小为K*C的概率矩阵，其中，K、C分别为字符序列长度和字符类别数。例如，在图3所示的银行卡图像的示例中，银行卡卡号的位数为16位，其字符序列长度可以是例如20，其字符类别数可以是例如10(参考上文示例)。可以取概率矩阵的每一行的最大值所对应的类别作为该行所对应的字符位置处的字符，并从所确定的字符中剔除“*”、“EOL”类别，即可得到预测的银行卡卡号。

需注意，本文所述的字符识别模型所包括的网络数目以及网络类型仅是示例而非对本发明的限制。此外，本文所述的空间变换网络、卷积神经网络、循环神经网络的层数以及各层的类型仅是示例而非对本发明的限制。字符识别模型可以包括任意合适的网络，其中的每种网络可以具有任意合适的网络结构。

在步骤S240，至少利用至少一个样本图像各自对应的标注数据和预测字符对字符识别模型进行训练。

在一个示例中，步骤S230可以包括：基于至少一个样本图像各自对应的预测字符区域和实际字符区域计算第一损失函数；基于至少一个样本图像各自对应的预测字符和实际字符计算第二损失函数；基于第一损失函数和第二损失函数计算总损失函数；以及调整字符识别模型中的参数以优化损失函数，以获得经训练的字符识别模型。

整个字符识别模型的优化目标是最小化字符识别模型的损失函数(LossFunction)。在一个示例中，损失函数(即总损失函数L)可以由两部分组成，即第一损失函数L₁和第二损失函数L₂。第一损失函数L₁和第二损失函数L₂可以根据需要设定为任何合适类型的函数。

示例性地，第一损失函数L₁可以为实际字符区域的顶点坐标值与预测字符区域的顶点坐标值的均方误差，第二损失函数L₂可以为实际字符与预测字符的交叉熵均值。总损失函数L、第一损失函数L₁和第二损失函数L₂的计算公式可以参见下述公式(1)-(3)。

L＝α*L₁+L₂ (3)

在以上公式中，α为预设权重参数(典型值1e-4)，M为至少一个样本图像的数目，n为字符区域的顶点个数，为第i个样本图像的实际字符区域中的第j个顶点的实际坐标值，为第i个样本图像的预测字符区域中的第j个顶点的预测坐标值，K、C分别为字符序列长度和字符类别数，为第i个样本图像的实际字符中的第k个字符属于第c个类别的实际概率值，为第i个样本图像的预测字符中的第k个字符属于第c个类别的预测概率值。

需注意，实际字符区域和预测字符区域的顶点个数是一致的，都用n表示。实际坐标值基于第i个样本图像所对应的标注数据确定，预测坐标值通过利用字符识别模型处理第i个样本图像获得。实际概率值基于第i个样本图像所对应的标注数据确定，例如，假设第2个样本图像中的第9个字符是数字“8”，其属于第8个类别，则预测概率值通过利用字符识别模型处理第i个样本图像获得，其可以是上述预测字符的概率矩阵中的元素。

示例性地，可以采用随机梯度下降法(Stochastic Gradient Descent)优化总损失函数L使其达到收敛。当损失函数L收敛时，可以结束训练，获得经训练的字符识别模型。

由于针对字符区域和字符分别构建损失函数，即同时针对用于对字符区域和字符进行预测的两种网络(即区域定位网络和字符识别网络)进行网络训练，因此可以很好地协调两种网络的参数，可以大大提高整个字符识别模型的准确率。

在另一个示例中，可以在整个字符识别模型的输出处构建一个损失函数(即仅构建第二损失函数L₂)，利用至少一个样本图像各自对应的标注数据和预测字符对字符识别模型进行训练。这种训练方式比较简单，训练速度比较快，并且由于同样是对整个字符识别模型进行训练，而非将字符区域定位以及字符识别分割开进行处理，因此训练获得的字符识别模型同样具有比现有字符识别方法更高的识别准确率。

根据本发明实施例的字符识别模型训练方法，将区域定位网络与字符识别网络融合在一个网络模型中，对两种网络的参数进行联合训练，可以训练获得累积误差小、准确率高的字符识别模型。采用训练获得的字符识别模型进行字符识别时，可以有效地避免中间步骤的累积误差，从而可以有效地提升字符识别的准确率。

示例性地，根据本发明实施例的字符识别模型训练方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的字符识别模型训练方法可以部署在图像采集端处，例如，可以部署在个人终端处，诸如智能电话、平板电脑、个人计算机等。

替代地，根据本发明实施例的字符识别模型训练方法还可以分布地部署在服务器端(或云端)和客户端处。例如，可以在客户端采集样本图像或初始图像(样本图像基于初始图像生成)，客户端将图像采集装置采集的图像传送给服务器端(或云端)，然后服务器端(或云端)进行字符识别模型训练。

根据本发明实施例，步骤S210可以包括：获取至少一个初始图像；以及将至少一个初始图像分别缩放到标准尺寸，以获得至少一个样本图像。

可选地，可以首先获取大量具有任意大小的初始图像。示例性地，初始图像可以是图像采集装置采集到的原始大小的图像。在输入字符识别模型之前，可以选择将每个初始图像缩放到标准尺寸。该标准尺寸可以是任何合适的尺寸。例如，标准尺寸可以如下：宽度为960像素，高度为540像素。随后，可以将缩放后的图像作为样本图像输入字符识别模型。

根据本发明另一方面，提供一种字符识别方法。图5示出根据本发明一个实施例的字符识别方法500的示意性流程图。如图5所示，字符识别方法500包括以下步骤。

在步骤S510，获取待识别图像。

与样本图像类似地，待识别图像可以是图像采集装置(例如摄像头)采集到的原始图像，也可以是对原始图像进行预处理(诸如数字化、归一化、平滑等)之后获得的图像。待识别图像可以由客户端设备(诸如包括摄像头的移动终端)发送到电子设备100以由电子设备100的处理器102进行字符识别，也可以由电子设备100包括的图像采集装置110采集并传送到处理器102进行字符识别。

待识别图像可以是任何合适的包含字符的图像，例如银行卡图像、身份证图像、护照图像等。

在步骤S520，利用上述字符识别模型训练方法200训练获得的字符识别模型处理待识别图像，以识别待识别图像中的待识别字符。

将待识别图像输入字符识别模型，字符识别模型可以输出与待识别字符相关的输出结果。示例性地，该输出结果可以是所述待识别字符。示例性地，该输出结果可以是待识别字符的概率矩阵，基于该概率矩阵可以确定待识别字符。待识别字符的概率矩阵可以参考上文所述的预测字符的概率矩阵来理解，此处不赘述。

字符识别模型处理待识别图像的方式与其处理样本图像的方式类似，只是在实际识别时，不需要如训练过程那样计算损失函数。本领域技术人员可以结合上文关于利用字符识别模型处理待识别图像的描述来理解待识别图像的处理方式，此处不再赘述。

示例性地，步骤S510可以包括：获取待处理图像；以及将待处理图像缩放到标准尺寸，以获得待识别图像。

可以获取具有任意大小的待处理图像。示例性地，待处理图像可以是图像采集装置采集到的原始大小的图像。在输入字符识别模型之前，可以选择将待处理图像缩放到标准尺寸，以获得所述待识别图像。比较可取的是，待处理图像缩放的标准尺寸与上文所述的初始图像缩放的标准尺寸保持一致。

根据本发明实施例的字符识别方法，采用参数联合训练获得的字符识别模型进行字符识别，可以有效地避免中间步骤的累积误差，从而可以有效地提升字符识别的准确率。

示例性地，根据本发明实施例的字符识别方法可以在具有存储器和处理器的设备、装置或者系统中实现。

根据本发明实施例的字符识别方法可以部署在图像采集端处，例如，可以部署在个人终端处，诸如智能电话、平板电脑、个人计算机等。

替代地，根据本发明实施例的字符识别方法还可以分布地部署在服务器端(或云端)和客户端处。例如，可以在客户端采集待识别图像或待处理图像(待识别图像基于待处理图像生成)，客户端将图像采集装置采集的图像传送给服务器端(或云端)，然后服务器端(或云端)进行字符识别。

根据本发明另一方面，提供一种字符识别模型训练装置。图6示出了根据本发明一个实施例的字符识别模型训练装置600的示意性框图。

如图6所示，根据本发明实施例的字符识别模型训练装置600包括图像及数据获取模块610、区域定位模块620、字符识别模块630和训练模块640。所述各个模块可分别执行上文中结合图2-4描述的字符识别模型训练方法的各个步骤/功能。以下仅对该字符识别模型训练装置600的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

图像及数据获取模块610用于获取至少一个样本图像和至少一个样本图像各自对应的标注数据，每个样本图像所对应的标注数据用于指示该样本图像的实际字符区域的位置以及实际字符区域中的实际字符。图像及数据获取模块610可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

区域定位模块620用于对于至少一个样本图像中的每个样本图像，将该样本图像输入字符识别模型中的区域定位网络，以确定该样本图像的预测字符区域的位置。区域定位模块620可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

字符识别模块630用于对于至少一个样本图像中的每个样本图像，将预测字符区域的位置对应的图像信息输入字符识别模型中的字符识别网络，以识别预测字符区域中的预测字符。字符识别模块630可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

训练模块640用于至少利用至少一个样本图像各自对应的标注数据和预测字符对字符识别模型进行训练。训练模块640可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

示例性地，训练模块640包括：第一计算子模块，用于基于至少一个样本图像各自对应的预测字符区域和实际字符区域计算第一损失函数；第二计算子模块，用于基于至少一个样本图像各自对应的预测字符和实际字符计算第二损失函数；第三计算子模块，用于基于第一损失函数和第二损失函数计算总损失函数；以及参数调整子模块，用于调整字符识别模型中的参数以优化损失函数，以获得经训练的字符识别模型。

示例性地，第一损失函数L₁根据以下公式计算：

第二损失函数L₂根据以下公式计算：

总损失函数L根据以下公式计算：

L＝α*L₁+L₂；

示例性地，图像及数据获取模块610包括：初始图像获取子模块，用于获取至少一个初始图像；以及缩放子模块，用于将至少一个初始图像分别缩放到标准尺寸，以获得至少一个样本图像。

示例性地，循环神经网络是结合注意力机制的网络。

示例性地，字符识别模块630包括：特征提取子模块，用于对于至少一个样本图像中的每个样本图像，将该样本图像的预测字符区域的位置对应的图像信息输入卷积神经网络，以提取该样本图像的预测字符区域的图像特征；输入子模块，用于对于至少一个样本图像中的每个样本图像，将该样本图像的预测字符区域的图像特征输入循环神经网络，以获得该样本图像的预测字符的概率矩阵；以及字符确定子模块，用于对于至少一个样本图像中的每个样本图像，根据概率矩阵确定该样本图像的预测字符。

根据本发明另一方面，提供一种字符识别装置。图7示出了根据本发明一个实施例的字符识别装置700的示意性框图。

如图7所示，根据本发明实施例的字符识别装置700包括图像获取模块710和识别模块720。所述各个模块可分别执行上文中结合图5描述的字符识别方法的各个步骤/功能。以下仅对该字符识别装置700的各部件的主要功能进行描述，而省略以上已经描述过的细节内容。

图像获取模块710用于获取待识别图像。图像获取模块710可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

识别模块720用于利用上述字符识别模型训练方法200训练获得的字符识别模型处理待识别图像，以识别待识别图像中的待识别字符。识别模块720可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。

示例性地，图像获取模块710可以包括：待处理图像获取子模块，用于获取待处理图像；以及缩放子模块，用于将待处理图像缩放到标准尺寸，以获得待识别图像。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

图8示出了根据本发明一个实施例的字符识别模型训练系统800的示意性框图。字符识别模型训练系统800包括图像采集装置810、存储装置820、以及处理器830。

图像采集装置810用于采集样本图像或初始图像(样本图像基于初始图像生成)。图像采集装置810是可选的，字符识别模型训练系统800可以不包括图像采集装置810。在这种情况下，可以利用其他图像采集装置采集样本图像或初始图像，并将采集的视频发送给字符识别模型训练系统800。

所述存储装置820存储用于实现根据本发明实施例的字符识别模型训练方法中的相应步骤的计算机程序指令。

所述处理器830用于运行所述存储装置820中存储的计算机程序指令，以执行根据本发明实施例的字符识别模型训练方法的相应步骤，并且用于实现根据本发明实施例的字符识别模型训练装置600中的图像及数据获取模块610、区域定位模块620、字符识别模块630和训练模块640。

在一个实施例中，所述计算机程序指令被所述处理器830运行时用于执行以下步骤：获取至少一个样本图像和至少一个样本图像各自对应的标注数据，每个样本图像所对应的标注数据用于指示该样本图像的实际字符区域的位置以及实际字符区域中的实际字符；对于至少一个样本图像中的每个样本图像，将该样本图像输入字符识别模型中的区域定位网络，以确定该样本图像的预测字符区域的位置；对于至少一个样本图像中的每个样本图像，将预测字符区域的位置对应的图像信息输入字符识别模型中的字符识别网络，以识别预测字符区域中的预测字符；以及至少利用至少一个样本图像各自对应的标注数据和预测字符对字符识别模型进行训练。

示例性地，所述计算机程序指令被所述处理器830运行时所用于执行的至少利用至少一个样本图像各自对应的标注数据和预测字符对字符识别模型进行训练的步骤包括：基于至少一个样本图像各自对应的预测字符区域和实际字符区域计算第一损失函数；基于至少一个样本图像各自对应的预测字符和实际字符计算第二损失函数；基于第一损失函数和第二损失函数计算总损失函数；以及调整字符识别模型中的参数以优化损失函数，以获得经训练的字符识别模型。

示例性地，第一损失函数L₁根据以下公式计算：

第二损失函数L₂根据以下公式计算：

总损失函数L根据以下公式计算：

L＝α*L₁+L₂；

示例性地，所述计算机程序指令被所述处理器830运行时所用于执行的获取至少一个样本图像的步骤包括：获取至少一个初始图像；以及将至少一个初始图像分别缩放到标准尺寸，以获得至少一个样本图像。

示例性地，循环神经网络是结合注意力机制的网络。

示例性地，所述计算机程序指令被所述处理器830运行时所用于执行的对于至少一个样本图像中的每个样本图像，将预测字符区域的位置对应的图像信息输入字符识别模型中的字符识别网络，以识别预测字符区域中的预测字符的步骤包括：对于至少一个样本图像中的每个样本图像，将该样本图像的预测字符区域的位置对应的图像信息输入卷积神经网络，以提取该样本图像的预测字符区域的图像特征；将该样本图像的预测字符区域的图像特征输入循环神经网络，以获得该样本图像的预测字符的概率矩阵；以及根据概率矩阵确定该样本图像的预测字符。

图9示出了根据本发明一个实施例的字符识别系统900的示意性框图。字符识别系统900包括图像采集装置910、存储装置920、以及处理器930。

图像采集装置910用于采集待识别图像或待处理图像(待识别图像基于待处理图像生成)。图像采集装置910是可选的，字符识别系统900可以不包括图像采集装置910。在这种情况下，可以利用其他图像采集装置采集待识别图像或待处理图像，并将采集的视频发送给字符识别系统900。

所述存储装置920存储用于实现根据本发明实施例的字符识别方法中的相应步骤的计算机程序指令。

所述处理器930用于运行所述存储装置920中存储的计算机程序指令，以执行根据本发明实施例的字符识别方法的相应步骤，并且用于实现根据本发明实施例的字符识别装置700中的图像获取模块710和识别模块720。

在一个实施例中，所述计算机程序指令被所述处理器930运行时用于执行以下步骤：获取待识别图像；以及利用上述字符识别模型训练方法200训练获得的所述字符识别模型处理所述待识别图像，以识别所述待识别图像中的待识别字符。

示例性地，所述计算机程序指令被所述处理器930运行时所用于执行的获取待识别图像的步骤可以包括：获取待处理图像；以及将待处理图像缩放到标准尺寸，以获得待识别图像。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的字符识别模型训练方法的相应步骤，并且用于实现根据本发明实施例的字符识别模型训练装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的字符识别模型训练装置的各个功能模块，并且/或者可以执行根据本发明实施例的字符识别模型训练方法。

在一个实施例中，所述程序指令在运行时用于执行以下步骤：获取至少一个样本图像和至少一个样本图像各自对应的标注数据，每个样本图像所对应的标注数据用于指示该样本图像的实际字符区域的位置以及实际字符区域中的实际字符；对于至少一个样本图像中的每个样本图像，将该样本图像输入字符识别模型中的区域定位网络，以确定该样本图像的预测字符区域的位置；对于至少一个样本图像中的每个样本图像，将预测字符区域的位置对应的图像信息输入字符识别模型中的字符识别网络，以识别预测字符区域中的预测字符；以及至少利用至少一个样本图像各自对应的标注数据和预测字符对字符识别模型进行训练。

示例性地，第一损失函数L₁根据以下公式计算：

第二损失函数L₂根据以下公式计算：

总损失函数L根据以下公式计算：

L＝α*L₁+L₂；

示例性地，循环神经网络是结合注意力机制的网络。

根据本发明实施例的字符识别模型训练系统中的各模块可以通过根据本发明实施例的实施字符识别模型训练的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

此外，根据本发明实施例，还提供了一种存储介质，在所述存储介质上存储了程序指令，在所述程序指令被计算机或处理器运行时用于执行本发明实施例的字符识别方法的相应步骤，并且用于实现根据本发明实施例的字符识别装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。

在一个实施例中，所述程序指令在被计算机或处理器运行时可以使得计算机或处理器实现根据本发明实施例的字符识别装置的各个功能模块，并且/或者可以执行根据本发明实施例的字符识别方法。

在一个实施例中，所述程序指令在运行时用于执行以下步骤：获取待识别图像；以及利用上述字符识别模型训练方法训练200获得的所述字符识别模型处理所述待识别图像，以识别所述待识别图像中的待识别字符。

示例性地，所述程序指令在运行时所用于执行的获取待识别图像的步骤可以包括：获取待处理图像；以及将待处理图像缩放到标准尺寸，以获得待识别图像。

根据本发明实施例的字符识别系统中的各模块可以通过根据本发明实施例的实施字符识别的电子设备的处理器运行在存储器中存储的计算机程序指令来实现，或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的字符识别模型训练装置或字符识别装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种字符识别模型训练方法，包括：

获取至少一个样本图像和所述至少一个样本图像各自对应的标注数据，每个样本图像所对应的标注数据用于指示该样本图像的实际字符区域的位置以及所述实际字符区域中的实际字符；

对于所述至少一个样本图像中的每个样本图像，

将该样本图像输入字符识别模型中的区域定位网络，以确定该样本图像的预测字符区域的位置；

将所述预测字符区域的位置对应的图像信息输入所述字符识别模型中的字符识别网络，以识别所述预测字符区域中的预测字符；以及

至少利用所述至少一个样本图像各自对应的标注数据和所述预测字符对所述字符识别模型进行训练。

2.如权利要求1所述的方法，其中，所述至少利用所述至少一个样本图像各自对应的标注数据和所述预测字符对所述字符识别模型进行训练包括：

基于所述至少一个样本图像各自对应的预测字符区域和实际字符区域计算第一损失函数；

基于所述至少一个样本图像各自对应的预测字符和实际字符计算第二损失函数；

基于所述第一损失函数和所述第二损失函数计算总损失函数；以及

调整所述字符识别模型中的参数以优化所述损失函数，以获得经训练的所述字符识别模型。

3.如权利要求2所述的方法，其中，

所述第一损失函数L₁根据以下公式计算：

所述第二损失函数L₂根据以下公式计算：

所述总损失函数L根据以下公式计算：

L＝α*L₁+L₂；

其中，α为预设权重参数，M为所述至少一个样本图像的数目，n为字符区域的顶点个数，为第i个样本图像的实际字符区域中的第j个顶点的实际坐标值，为第i个样本图像的预测字符区域中的第j个顶点的预测坐标值，K、C分别为字符序列长度和字符类别数，为第i个样本图像的实际字符中的第k个字符属于第c个类别的实际概率值，为第i个样本图像的预测字符中的第k个字符属于第c个类别的预测概率值。

4.如权利要求1所述的方法，其中，所述获取至少一个样本图像包括：

获取至少一个初始图像；以及

将所述至少一个初始图像分别缩放到标准尺寸，以获得所述至少一个样本图像。

5.如权利要求1所述的方法，其中，所述区域定位网络包括空间变换网络，且/或所述字符识别网络包括卷积神经网络和循环神经网络。

6.如权利要求5所述的方法，其中，所述循环神经网络是结合注意力机制的网络。

7.如权利要求5所述的方法，其中，所述对于所述至少一个样本图像中的每个样本图像，将所述预测字符区域的位置对应的图像信息输入所述字符识别模型中的字符识别网络，以识别所述预测字符区域中的预测字符包括：

对于所述至少一个样本图像中的每个样本图像，

将该样本图像的预测字符区域的位置对应的图像信息输入所述卷积神经网络，以提取该样本图像的预测字符区域的图像特征；

将该样本图像的预测字符区域的图像特征输入所述循环神经网络，以获得该样本图像的预测字符的概率矩阵；以及

根据所述概率矩阵确定该样本图像的预测字符。

8.一种字符识别方法，包括：

获取待识别图像；以及

利用如权利要求1至7任一项所述的字符识别模型训练方法训练获得的所述字符识别模型处理所述待识别图像，以识别所述待识别图像中的待识别字符。

9.一种字符识别模型训练装置，包括：

图像及数据获取模块，用于获取至少一个样本图像和所述至少一个样本图像各自对应的标注数据，每个样本图像所对应的标注数据用于指示该样本图像的实际字符区域的位置以及所述实际字符区域中的实际字符；

区域定位模块，用于对于所述至少一个样本图像中的每个样本图像，将该样本图像输入字符识别模型中的区域定位网络，以确定该样本图像的预测字符区域的位置；

字符识别模块，用于对于所述至少一个样本图像中的每个样本图像，将所述预测字符区域的位置对应的图像信息输入所述字符识别模型中的字符识别网络，以识别所述预测字符区域中的预测字符；以及

训练模块，用于至少利用所述至少一个样本图像各自对应的标注数据和预测字符对所述字符识别模型进行训练。

10.一种字符识别装置，包括：

图像获取模块，用于获取待识别图像；以及

识别模块，用于利用如权利要求1至7任一项所述的字符识别模型训练方法训练获得的所述字符识别模型处理所述待识别图像，以识别所述待识别图像中的待识别字符。

11.一种字符识别模型训练系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行如权利要求1至7任一项所述的字符识别模型训练方法。

12.一种字符识别系统，包括处理器和存储器，其中，所述存储器中存储有计算机程序指令，所述计算机程序指令被所述处理器运行时用于执行以下步骤：

获取待识别图像；以及

13.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行如权利要求1至7任一项所述的字符识别模型训练方法。

14.一种存储介质，在所述存储介质上存储了程序指令，所述程序指令在运行时用于执行以下步骤：

获取待识别图像；以及