CN116798052B

CN116798052B - 文本识别模型的训练方法和装置、存储介质及电子设备

Info

Publication number: CN116798052B
Application number: CN202311090172.8A
Authority: CN
Inventors: 王翔翔
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-12-08
Anticipated expiration: 2043-08-28
Also published as: CN116798052A

Abstract

本申请公开了一种文本识别模型的训练方法和装置、存储介质及电子设备，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。该方法包括：确定第i轮训练使用的样本图像的图像表征向量序列，样本图像包括N个局部图像；根据图像表征向量序列，确定初始结果表征向量；根据初始结果表征向量，确定与N个局部图像对应的N个最终识别结果；调整初始结果表征向量中用于表征该局部图像的初始识别结果、维度为1×K的向量，以下调该局部图像的K个识别结果中每个识别结果的概率；根据目标结果表征向量，确定第i轮训练对应的损失值，对待训练的文本识别模型中的参数进行调整。本申请解决了在文本识别模型的训练过程中出现的效率较低的技术问题。

Description

文本识别模型的训练方法和装置、存储介质及电子设备

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种文本识别模型的训练方法和装置、存储介质及电子设备。

背景技术

在文本识别场景中，通常采用文本识别模型中的编码器对样本图像进行编码处理，得到用于表征样本图像的图像表征向量，然后对图像表征向量经过解码处理，得到每个图像表征向量的预测结果。

然而，在文本识别模型训练的过程中，通常会出现正负样本数量不均衡的问题，例如，在文本识别过程中，非空白识别结果对应的图像表征向量为检测中的正样本，空白识别结果对应的图像表征向量为检测中的负样本。当目标文本为中文时，每个字符书写复杂、且字符呈现方块状，每个字符所占区域的宽高边比较大，字符密度较低。因此，空白识别结果对应的图像表征向量的数量远超过非空白识别结果对应的图像表征向量的数量。

在此情况下，需要耗费大量的时间和大量的资源去训练置信度较高的空白识别结果对应的图像表征向量，导致了训练非空白识别结果对应的图像表征向量的时间下降，这就使得训练过程中损失函数的收敛效率明显降低，造成了文本识别模型的训练过程中出现的效率较低的技术问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种文本识别模型的训练方法和装置、存储介质及电子设备，以至少解决文本识别模型的训练过程中出现的效率较低的技术问题。

根据本申请实施例的一个方面，提供了一种文本识别模型的训练方法，包括：通过以下步骤对待训练的文本识别模型执行第i轮训练，其中，i为大于或等于1的正整数：确定第i轮训练使用的样本图像的图像表征向量序列，其中，图像表征向量序列包括N个图像表征向量，N个图像表征向量中的每个图像表征向量用于表征样本图像中的N 个局部图像中对应的局部图像，N和K为大于或等于2的正整数；根据图像表征向量序列，确定维度为N×K的初始结果表征向量，其中，初始结果表征向量中的每个维度为1×K的向量包括从N个局部图像中对应的局部图像中识别到的结果是预设的K个识别结果中的每个识别结果的概率，K个识别结果包括K-1个预设字符和空识别结果，空识别结果表示识别不到字符；根据初始结果表征向量，确定与N个局部图像对应的N个最终识别结果，其中，每个局部图像对应的最终识别结果是K个识别结果中概率最大的识别结果；对于最终识别结果为空识别结果的局部图像，调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，调整后的初始结果表征向量为目标结果表征向量；根据目标结果表征向量，确定第i轮训练对应的损失值，在第i轮训练对应的损失值不满足预设的收敛条件的情况下，对待训练的文本识别模型中的参数进行调整。

可选地，上述对于最终识别结果为空识别结果的局部图像，调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，包括：对于最终识别结果为空识别结果的局部图像，根据该局部图像为空白识别结果的概率调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，下调后该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，与调整前该局部图像为空白识别结果的概率成反比。

可选地，上述对于最终识别结果为空识别结果的局部图像，调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，包括：对于最终识别结果为空识别结果的局部图像，根据N个最终识别结果中非空识别结果的占比调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，下调后该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，与占比成正比。

可选地，上述对于最终识别结果为空识别结果的局部图像，调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，包括：在最终识别结果为空识别结果的局部图像为R个局部图像的情况下，调整初始结果表征向量中用于表征R个局部图像中的Q个局部图像的初始识别结果的、Q个维度为1×K的向量，以下调Q个局部图像的初始识别结果为Q×K个识别结果中每个识别结果的概率，其中，R为大于或等于1、且小于或等于N的正整数，Q为大于或等于1、且小于或等于R的正整数。

可选地，上述根据该局部图像为空白识别结果的概率和非空识别结果的占比调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，包括：在N个最终识别结果中的R个最终识别结果为空识别结果的情况下，通过以下步骤将R个最终识别结果中的第j个最终识别结果对应的维度为1×K的向量中的K个概率下调，并得到K个下调后的概率：将K个下调后的概率中的第s个下调后的概率确定为等于第j个最终识别结果对应的维度为1×K的向量中的第s个概率、（1-第j个最终识别结果对应的维度为1×K的向量中的空识别结果对应的概率）以及占比三者之间的乘积，其中，第s个概率为第j个维度为1×K的向量中的第s个初始概率，s为大于或等于1、且小于或等于K的正整数。

可选地，上述方法还包括：在初始结果表征向量中确定第一组概率中大于或等于第一预设阈值的概率的第一数量以及第二组概率中大于或等于第二预设阈值的概率的第二数量，其中，第一组概率包括从N个局部图像中的每个局部图像中识别到的结果是空识别结果的概率，第二组概率包括从N个局部图像中的每个局部图像中识别到的结果是K-1个预设字符中的一个字符的概率；根据第一数量和第二数量，调整初始结果表征向量中用于表征R个局部图像中的Q个局部图像的初始识别结果的、Q个维度为1×K的向量，以下调Q个局部图像的初始识别结果为Q×K个识别结果中每个识别结果的概率，其中，R个局部图像为N个最终识别结果为空识别结果的局部图像，R为大于或等于1、且小于或等于N的正整数，Q为大于或等于1、且小于或等于R的正整数，得到维度为N×K的目标结果表征向量。

可选地，上述根据第一数量和第二数量，调整初始结果表征向量中用于表征R个局部图像中的Q个局部图像的初始识别结果的、Q个维度为1×K的向量，包括：通过以下步骤将Q个维度为1×K的向量中的第q个维度为1×K的向量中的概率下调，得到K个下调后的概率，其中，q为大于或等于1、且小于或等于Q的正整数：将K个下调后的概率中的第s个下调后的概率确定为等于第s个概率、（1-第q个维度为1×K的向量中的空识别结果对应的概率）以及目标比值三者之间的乘积，其中，目标比值是将第二数量除以目标和值所得到的比值，目标和值是第一数量与第二数量之间的和值，第s个概率为第q个维度为1×K的向量中的第s个初始概率，s为大于或等于1、且小于或等于K的正整数。

可选地，上述确定第i轮训练使用的样本图像的图像表征向量序列，包括：对样本图像的原始特征向量进行卷积处理，得到N个卷积特征向量，其中，原始特征向量的维度为H×W，每个卷积特征向量的维度为h×w，h，w，H和W为大于或等于2的正整数；对N个卷积特征向量进行自注意力处理，得到N个自注意力特征向量，其中，每个自注意力特征向量的维度为h×w，图像表征向量序列包括N个自注意力特征向量。

可选地，上述根据目标结果表征向量，确定第i轮训练对应的损失值，包括：在样本图像中包括目标字符序列的情况下，确定F种字符序列组合，其中，目标字符序列包括按照预设顺序排列的M个字符，F和M为大于或等于2的正整数，每种字符序列组合包括N个候选识别结果，N个候选识别结果包括按照预设顺序排列的M个字符以及空识别结果，空识别结果在不同的字符序列组合中出现的位置不同，M小于N；在目标结果表征向量中确定与F种字符序列组合对应的F组概率，其中，F组概率中的每组概率包括N个概率，每组概率中的N个概率与R种字符序列组合中的一种字符序列组合中包括的N个候选识别结果一一对应；对F组概率中的每组概率中的N个概率进行相乘，得到F个值，并对F个值进行相加，得到目标概率值；根据目标概率值，确定第i轮训练对应的损失值。

可选地，上述根据目标概率值，确定第i轮训练对应的损失值，包括：通过以下公式确定第i轮训练对应的损失值：，其中，表示第i轮训练对应的损失值，表示目标概率值。

根据本申请实施例的另一方面，还提供了一种文本识别模型的训练装置，包括：第一处理单元，用于对待训练的文本识别模型执行第i轮训练，其中，i为大于或等于1的正整数；其中，第一处理单元包括：第一处理模块，用于确定第i轮训练使用的样本图像的图像表征向量序列，其中，图像表征向量序列包括N个图像表征向量，N个图像表征向量中的每个图像表征向量用于表征样本图像中的N个局部图像中对应的局部图像，N和K为大于或等于2的正整数；第二处理模块，用于根据图像表征向量序列，确定维度为N×K的初始结果表征向量，其中，初始结果表征向量中的每个维度为1×K的向量包括从N个局部图像中对应的局部图像中识别到的结果是预设的K个识别结果中的每个识别结果的概率，K个识别结果包括K-1个预设字符和空识别结果，空识别结果表示识别不到字符；第三处理模块，用于根据初始结果表征向量，确定与N 个局部图像对应的N个最终识别结果，其中，每个局部图像对应的最终识别结果是K个识别结果中概率最大的识别结果；第一调整模块，用于对于最终识别结果为空识别结果的局部图像，调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，调整后的初始结果表征向量为目标结果表征向量；第四处理模块，用于根据目标结果表征向量，确定第i轮训练对应的损失值，在第i轮训练对应的损失值不满足预设的收敛条件的情况下，对待训练的文本识别模型中的参数进行调整。

根据本申请实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述文本识别模型的训练方法。

根据本申请实施例的又一方面，还提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现上述方法的步骤。

根据本申请实施例的又一方面，还提供了一种电子设备，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为通过计算机程序执行上述文本识别模型的训练方法。

通过本申请提供的上述实施例，在文本识别模型的训练过程中，通过下调初始结果表征向量中用于表征最终识别结果为空识别结果的局部图像的K个初始识别结果中每个识别结果的概率，降低了空识别结果的损失权重，从而在利用下调概率后的目标结果表征向量执行第i轮训练时，减少了对空白识别结果的训练时间，使得第i轮训练对应的损失值更加收敛于非空白识别结果，提高了模型训练的收敛效率，解决了文本识别模型的训练过程中出现的效率较低的技术问题，实现了提高文本识别模型的训练效率的技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是根据本申请实施例的一种可选的文本识别模型的训练方法的应用场景的示意图。

图2是根据本申请实施例的一种可选的文本识别模型的训练方法的流程图。

图3是根据本申请实施例的一种可选空识别结果和非空识别结果的分布示例图。

图4是是根据本申请实施例的一种可选的N个局部图像的示意图。

图5是根据本申请实施例的一种可选的初始结果表征向量的示意图。

图6是根据本申请实施例的一种可选的对最终识别结果为空识别结果的局部图像的K个识别结果的K个概率进行下调的示意图（一）。

图7是根据本申请实施例的一种可选的对最终识别结果为空识别结果的局部图像的K个识别结果的K个概率进行下调的示意图（二）。

图8是根据本申请实施例的一种可选的对最终识别结果为空识别结果的局部图像的K个识别结果的K个概率进行下调的示意图（三）。

图9是根据本申请实施例的一种可选中英文识别场景中空识别结果密度不一致的示意图。

图10根据本申请实施例的一种可选的对最终识别结果为空识别结果的局部图像的K个识别结果的K个概率进行下调的示意图（四）。

图11根据本申请实施例的一种可选的对最终识别结果为空识别结果的局部图像的K个识别结果的K个概率进行下调的示意图（五）。

图12是根据本申请实施例的一种可选的文本识别模型的训练方法的整体示意图。

图13是根据本申请实施例的一种可选的权重重分配的过程示意图。

图14是根据本申请实施例的一种可选的计算全路径概率之和的过程示意图。

图15是根据本申请实施例的一种可选的文本识别模型的训练装置的结构示意图。

图16是根据本申请实施例的一种可选的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例中的技术方案在实施过程中会遵循法律规定，在按照实施例中的技术方案执行操作时，所使用的数据不会涉及用户隐私，在确保操作过程是合规合法的同时，保证了数据的安全性。

根据本申请实施例的一个方面，提供了一种文本识别模型的训练方法。作为一种可选的实施方式，上述文本识别模型的训练方法可以但不限于应用于如图1所示的应用场景。在如图1所示的应用场景中，终端设备102可以但不限于通过网络104与服务器106进行通信，服务器106可以但不限于对数据库108执行操作，例如，写数据操作或读数据操作。上述终端设备102可以但不限包括人机交互屏幕、处理器及存储器。上述人机交互屏幕可以但不限于用于显示在终端设备102上的样本图像和样本识别结果等。上述处理器可以但不限于用于响应上述人机交互操作，执行对应的操作，或者，生成对应的指令，并将生成的指令发送给服务器106。上述存储器用于存储相关处理数据，如N个图像表征向量、维度为N×K的初始结果表征向量以及目标结果表征向量等。

作为一种可选的方式，可以在服务器106上执行文本识别模型的训练方法中的以下步骤：步骤S102，通过以下步骤对待训练的文本识别模型执行第i轮训练，其中，i为大于或等于1的正整数，其中，步骤S102还包括以下子步骤：步骤S102-1，确定第i轮训练使用的样本图像的图像表征向量序列，其中，图像表征向量序列包括N个图像表征向量，N个图像表征向量中的每个图像表征向量用于表征样本图像中的N 个局部图像中对应的局部图像，N和K为大于或等于2的正整数；步骤S102-2，根据图像表征向量序列，确定维度为N×K的初始结果表征向量，其中，初始结果表征向量中的每个维度为1×K的向量包括从N个局部图像中对应的局部图像中识别到的结果是预设的K个识别结果中的每个识别结果的概率，K个识别结果包括K-1个预设字符和空识别结果，空识别结果表示识别不到字符；步骤S102-3，根据初始结果表征向量，确定与N 个局部图像对应的N个最终识别结果，其中，每个局部图像对应的最终识别结果是K个识别结果中概率最大的识别结果；步骤S102-4，对于最终识别结果为空识别结果的局部图像，调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，调整后的初始结果表征向量为目标结果表征向量；步骤S102-5，根据目标结果表征向量，确定第i轮训练对应的损失值，在第i轮训练对应的损失值不满足预设的收敛条件的情况下，对待训练的文本识别模型中的参数进行调整。

采用上述方式，在文本识别模型的训练过程中，通过下调初始结果表征向量中用于表征最终识别结果为空识别结果的局部图像的K个初始识别结果中每个识别结果的概率，降低了空白识别结果的损失权重，从而在利用下调概率后的目标结果表征向量执行第i轮训练时，减少了对空白识别结果的训练时间，使得第i轮训练对应的损失值更加收敛于非空白识别结果，提高了模型训练的收敛效率，解决了文本识别模型的训练过程中出现的效率较低的技术问题，实现了提高文本识别模型的训练效率的技术效果。

为了解决上述文本识别模型的训练过程中出现的效率较低的问题，本申请实施例中提出了一种文本识别模型的训练方法，图2是根据本申请实施例的文本识别模型的训练方法的流程图，该流程包括如下步骤：

步骤S202，对待训练的文本识别模型执行第i轮训练，其中，i为大于或等于1的正整数，其中，步骤S202还包括以下子步骤S202-1~S202-5。

S202-1，确定第i轮训练使用的样本图像的图像表征向量序列，其中，图像表征向量序列包括N个图像表征向量，N个图像表征向量中的每个图像表征向量用于表征样本图像中的N个局部图像中对应的局部图像，N和K为大于或等于2的正整数。

S202-2，根据图像表征向量序列，确定维度为N×K的初始结果表征向量，其中，初始结果表征向量中的每个维度为1×K的向量包括从N个局部图像中对应的局部图像中识别到的结果是预设的K个识别结果中的每个识别结果的概率，K个识别结果包括K-1个预设字符和空识别结果，空识别结果表示识别不到字符。

S202-3，根据初始结果表征向量，确定与N个局部图像对应的N个最终识别结果，其中，每个局部图像对应的最终识别结果是K个识别结果中概率最大的识别结果。

S202-4，对于最终识别结果为空识别结果的局部图像，调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，调整后的初始结果表征向量为目标结果表征向量。

S202-5，根据目标结果表征向量，确定第i轮训练对应的损失值，在第i轮训练对应的损失值不满足预设的收敛条件的情况下，对待训练的文本识别模型中的参数进行调整。

为了便于理解上述文本识别模型的训练方法，下面先结合图3所示的编码处理后的图像表征向量序列（又可以被理解为图像表征序列）进行简单介绍。

容易理解的是，在中文场景中，每个字符书写复杂，字符呈现方块状，字符所占区域的宽高比较大，字符密度低，那么在编码处理后的图像表征向量序列中，未包含字符的图像表征向量（空识别结果）的数量远超包含字符的图像表征向量（非空识别结果）的数量，例如，图3所示的输入图像中包括4个字符“新的专利”，编码处理后共得到12个图像表征向量，对12个图像表征向量分别进行识别，得到8个空识别结果和4个非空识别结果。可见，空识别结果的数量较多，也就意味着在训练过程中需要耗费大量的资源和大量的时间去训练空识别结果对应的图像表征向量，减少了对非空识别结果对应的图像表征向量的训练时间，影响了模型的收敛效果。

针对上述空识别结果与非空识别结果对应的图像表征向量的不均衡的问题，本申请实施例中提出了上述文本识别模型的训练方法。

如图4所示，假设第i轮训练使用的样本图像中包括目标文本“STATE”，对样本图像进行编码处理后得到对应的图像表征向量序列，其中，图像表征向量序列中包括40个图像表征向量，每个图像表征向量用于表征样本图像中的40个局部图像中对应的局部图像。

举例来说，假设字符S是由4个局部图像组成，那么4个局部图像中的每个局部图像分对应40个图像表征向量中不同的图像表征向量，并且每个图像表征向量的维度不作限定，例如，可以是图4所示的512维，也可以是256或128维等。

在得到图像表征向量序列后，对图像表征向量序列中的每个图像表征向量进行识别，得到维度为N×K的初始结果表征向量。

如图5所示，假设N=7，预设K个识别结果包括4个预设字符“h”、“e”、“l”、“o”，以及空识别结果“-”，那么对第1个图像表征向量v₀进行识别，分别得到第1个局部图像中为字符h的概率为w₁₁、为字符e的概率为w₁₂、为字符l的概率为w₁₃、为字符o的概率为w₁₄、为空字符的概率为w₁₅，依次类推，得到剩余6个局部图像中的字符分别为各个识别结果的概率，得到7×5的初始结果表征向量。其中，每个图像表征向量对应1个局部图像。

根据初始结果表征向量，确定与7个局部图像对应的7个最终识别结果，例如，对于如图6所示，假设概率w₁₁~w₁₅中取值最大的为w₁₅，那么就意味着第1个局部图像中为空识别结果（空字符）的概率最大，即将空识别结果作为第1个局部图像对应的最终识别结果。

又例如，假设概率w₂₁~w₂₅中取值最大的为w₂₁，那么就意味着第2个局部图像中为字符h的概率最大，即将字符h作为第2个局部图像对应的最终识别结果。

示例性地，假设训练过程中计算CTC损失函数的损失值，为了使得损失值更加收敛于非空识别结果，可以对局部图像的最终识别结果为空识别结果的、维度为1×K的向量进行调整，具体是对该局部图像的K个初始识别结果中每个识别结果的概率整体进行下调，例如，对图6所示的w₁₁、w₁₂、w₁₃、w₁₄、w₁₅进行下调，对w₃₁、w₃₂、w₃₃、w₃₄、w₃₅的整体进行下调，并根据调整后的目标结果表征向量，确定第i轮训练对应的损失值。下面会结合具体实施例对于CTC损失函数的计算进行详细描述。

采用上述方法，在文本识别模型的训练过程中，通过下调初始结果表征向量中用于表征最终识别结果为空识别结果的局部图像的K个初始识别结果中每个识别结果的概率，降低了空白识别结果的损失权重，从而在利用下调概率后的目标结果表征向量执行第i轮训练时，减少了对空白识别结果的训练时间，使得第i轮训练对应的损失值更加收敛于非空白识别结果，提高了模型训练的收敛效率，解决了文本识别模型的训练过程中出现的效率较低的技术问题，实现了提高文本识别模型的训练效率的技术效果。

采用本申请实施例中的技术方案，不仅可以解决上述在计算CTC损失过程中未考虑空识别结果和非空识别结果不均衡的问题之外，还可以解决不同场景中空识别结果密度不一致的问题，例如，如图9所示，在英文识别任务中，由于英文字符书写简单，字符密度大，其空识别结果的数量较少；但在中文识别任务中，每个字符书写复杂，字符呈现方块状，宽度比较大，字符密度低，其空白识别结果的数量较多。

然而，相关技术中，通常将中英文识别任务中空识别结果的损失权重设置为相同，这样计算出来的CTC损失值显然是不合理的。因此，通过对上述局部图像的初始识别结果为K个识别结果中每个识别结果的概率的整体进行调整，可以实现不同场景中自适应CTC损失函数的计算，解决了中英文场景中的空识别结果密度不一致的问题。

作为一种可选的示例，上述对于最终识别结果为空识别结果的局部图像，调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，包括：对于最终识别结果为空识别结果的局部图像，根据该局部图像为空白识别结果的概率调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，下调后该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，与调整前该局部图像为空白识别结果的概率成反比。

如图7中（a）所示，假设K（K=5）个识别结果包括4个预设字符h、e、l、o，以及空识别结果，假设N=7，即共有7个局部图像，对每个局部图像进行识别，得到从每个局部图像中识别到的结果是预设字符h、e、l、o，以及空识别结果的概率。

例如，从第1个局部图像中识别到预设字符h的概率为P(h)=0.23、识别到预设字符e的概率为P(e)=0.47、识别到预设字符l的概率为P(l)=0.52、识别到预设字符o的概率为P(o)=0.18、识别到空识别结果“-”的概率为P(-)=0.95。由于识别到空识别结果“-”的概率为0.95，是5个初始概率中的最大概率，因此，可以确定从第1个局部图像中识别到的结果为空字符。

同样地，从第2个局部图像中识别到的结果为预设字符h、从第3个局部图像中识别到的结果为预设字符h、从第4个局部图像中识别到的结果为预设字符e等。依次类推，得到7个最终识别结果。

根据7个最终识别结果，确定7个局部图像的最终识别结果为空识别结果的至少一个局部图像，然后对于至少一个局部图像中的每个局部图像执行如下处理：根据该局部图像为空识别结果的概率，对初始结果表征向量中用于表征该局部图像的的初始识别结果的、维度为1×K的向量进行调整。

举例来说，根据如图7中（a）所示的7个最终识别结果，确定7个局部图像中的第1个局部图像和第3个局部图像的最终识别结果为空识别结果（又可以被理解为空字符），那么分别对初始结果表征向量中用于表征第1个局部图像的初始识别结果的、维度为1×5的向量（例如，0.23,0.47,0.52,0.18,0.95）进行调整，以及对初始结果表征向量中表征第3个局部图像的初始识别结果的、1×5的向量（例如，0.79,0.35,0.26,0.50,0.57）进行调整。

下面以对初始结果表征向量中用于表征第1个局部图像的初始识别结果的、维度为1×5的向量（例如，0.23,0.47,0.52,0.18,0.95）进行调整为例，对调整的具体实现过程进行描述。

如图7中（b）所示，根据维度为1×5的向量（0.23,0.47,0.52,0.18,0.95）中的每个概率，确定第1个局部图像的识别结果为空识别结果的概率为0.95，将维度为1×5的向量（0.23,0.47,0.52,0.18,0.95）中的每个概率分别乘以（1-0.95），得到如图7中（c）所示的调整后的维度为1×5的向量（0.0115,0.0235,0.026,0.009,0.0475）。

可见，对于第1个局部图像来说，调整后该局部图像的初始识别结果的5个识别结果中每个识别结果的概率均小于调整前该局部图像的初始识别结果的5个识别结果中每个识别结果的概率，例如，0.0115小于0.23、0.0235小于0.47等。

采用相同的方法，对初始结果表征向量中用于表征第3个局部图像的初始识别结果的、维度为1×5的向量（0.79,0.35,0.26,0.50,0.57）进行调整，得到如图7中（c）所示的维度为1×5的向量（0.387,0.1505,0.1118,0.215,0.2451）。

需要说明的是，对于7个最终识别结果为非空识别结果的第2个局部图像、第4~7个局部图像中的每个局部图像来说，保持初始结果表征向量中用于表征每个局部图像的初始识别结果的、维度为1×K的向量不变。

作为另一种可选的实现方式，上述对于最终识别结果为空识别结果的局部图像，调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，包括：对于最终识别结果为空识别结果的局部图像，根据N个最终识别结果中非空识别结果的占比调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，下调后该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，与占比成正比。

如图8中（a）所示，根据7个最终识别结果，确定7个局部图像的最终识别结果为非空识别结果的局部图像的数量为5，分别为第2个局部图像、第4~7个局部图像。

计算非空识别结果的数量与最终识别结果的总数7之间的占比p₂，占比为；利用该占比p₂，对初始结果表征向量中用于表征最终识别结果为空识别结果的局部图像（第1个局部图像和第3个局部图像）的初始识别结果的、维度为1×K的向量进行调整。

下面以对初始结果表征向量中用于表征第3个局部图像的初始识别结果的、维度为1×5的向量（0.79,0.35,0.26,0.50,0.57）进行调整为例，对调整的具体实现过程进行描述。

如图8中（b）所示，将维度为1×5的向量（0.79,0.35,0.26,0.50,0.57）中的每个概率分别乘以p₂，得到如图8中（c）所示的调整后第3个局部图像的初始识别结果为5个识别结果中每个识别结果的概率。

同样地，将初始结果表征向量中用于表征第1个局部图像的初始识别结果的、维度为1×5的向量（0.23,0.47,0.52,0.18,0.95）中的每个概率分别乘以p₂，得到如图8中（c）所示的调整后第1个局部图像的初始识别结果为5个识别结果中每个识别结果的概率。

通过上述方式，下调了最终识别结果为空识别结果的局部图像的的K个识别结果中每个识别结果的概率，那么利用调整后的局部图像的5个识别结果中每个识别结果的概率去计算CTC损失值时，会使得CTC损失值更加收敛于非空识别结果。换句话说，文本识别模型会更加高效地识别出样本图像中的字符，提高了文本识别模型的训练效率。

作为一种可选的示例，上述对于最终识别结果为空识别结果的局部图像，调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，包括：对于最终识别结果为空识别结果的局部图像，根据该局部图像为空白识别结果的概率和非空识别结果的占比调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，下调后该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，与调整前该局部图像为空白识别结果的概率成反比、且与占比成正比。

具体地，根据如图10中（a）所示的初始结果表征向量，得到如图10中（b）所示的第1个局部图像为空识别结果的概率p_1-1=0.95，以及第3个局部图像为空识别结果的概率p_1-2=0.57，同时得到7个最终识别结果中非空识别结果的占比。

根据上述p_1-1、p_1-2以及p₂，对最终识别结果为空识别结果的第1个局部图像和第3个局部图像各自对应的初始结果表征向量中维度为1×K的向量进行调整。

作为一种可选的实现方式，上述根据该局部图像为空白识别结果的概率和非空识别结果的占比调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，包括：在N个最终识别结果中的R个最终识别结果为空识别结果的情况下，通过以下步骤将R个最终识别结果中的第j个最终识别结果对应的维度为1×K的向量中的K个概率下调，并得到K个下调后的概率：将K个下调后的概率中的第s个下调后的概率确定为等于第j个最终识别结果对应的维度为1×K的向量中的第s个概率、（1-第j个最终识别结果对应的维度为1×K的向量中的空识别结果对应的概率）以及占比三者之间的乘积，其中，第s个概率为第j个维度为1×K的向量中的第s个初始概率，s为大于或等于1、且小于或等于K的正整数。

举例来说，如图10中（c）所示，将初始结果表征向量中用于表征第1个局部图像的初始识别结果的、维度为1×5的向量（0.23,0.47,0.52,0.18,0.95）中的每个概率分别乘以调整参数1，得到调整后的第1个局部图像的、维度为1×5的向量，其中，调整参数1等于（1-0.95），（0.23,0.47,0.52,0.18,0.95）中的每个概率均为第1个局部图像分别为5个预设字符的初始概率。

需要说明的是，调整后的第1个局部图像的、维度为1×5的向量中包括5个下调后的概率，其中，每个下调后的概率等于调整前的概率与调整参数1的乘积，例如，下调后的第1个概率为，下调后的第2个概率为/>等。

采用相同的方法，将初始结果表征向量中用于表征第3个局部图像的初始识别结果的、维度为1×5的向量（0.79,0.35,0.26,0.50,0.57）中的每个概率分别乘以调整参数2，得到调整后的第3个局部图像的、维度为1×5的向量，其中，调整参数2等于，（0.79,0.35,0.26,0.50,0.57）中的每个概率均为第3个局部图像中包含的字符分别为5个预设字符的初始概率。

根据调整后的第1个局部图像的维度为1×5的向量、调整后的第1个局部图像的维度为1×5的向量以及初始结果表征向量中用于表征非空识别结果的第2个局部图像、第4~7个局部图像中的每个局部图像的维度为1×K的向量，得到维度仍为7×5的目标结果表征向量。

显然，容易理解的是，上述实施例中提到的7个局部图像、4个预设字符仅为一种示例，并不对其进行限定。

作为一种可选的示例，上述对于最终识别结果为空识别结果的局部图像，调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，包括：在最终识别结果为空识别结果的局部图像为R个局部图像的情况下，调整初始结果表征向量中用于表征R个局部图像中的Q个局部图像的初始识别结果的、Q个维度为1×K的向量，以下调Q个局部图像的初始识别结果为Q×K个识别结果中每个识别结果的概率，其中，R为大于或等于1、且小于或等于N的正整数，Q为大于或等于1、且小于或等于R的正整数。

如图10中（a）所示，对于7个最终识别结果为空识别结果的第1个局部图像和第3个局部图像，可以对初始结果表征向量中用于表征2个局部图像中的其中1个局部图像的初始识别结果的、1个维度为1×K的向量进行调整；也可以对初始结果表征向量中用于表征2个局部图像中的初始识别结果的、2个维度为1×K的向量进行调整。

例如，可以仅对图10中（b）所示的第1个维度为1×5的向量（0.23,0.47,0.52,0.18,0.95）中的每个概率进行下调；或者对图10中（b）所示的第2个维度为1×5的向量（0.79,0.35,0.26,0.50,0.57）中的每个概率进行下调；或者同时对图10中（b）所示的2个维度为1×5的向量中的每个概率进行下调。调整的具体实现方式可以参考上述实施例部分的描述，此处不再赘述。

由于非空识别结果也存在很多类别，例如，如图7中（a）所示，字符h出现2次，字符0仅出现依次。可见，不同识别结果中包含的预设字符之间也可能存在类别不均衡的问题。

为此，本申请实施例中还提出了一种根据不同类别的字符出现的频次对上述初始结果表征向量中用于表征最终识别结果为空识别结果的局部图像的初始识别结果的、维度为1×K的向量进行调整的实现方法，包括：对于最终识别结果为空识别结果的局部图像，根据N个最终识别结果中空识别结果的占比调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率。

如图10中（a）所示，7个最终识别结果中空识别结果的占比为，将如图10中（b）所示的第1个局部图像和第3个局部图像分别对应的初始识别结果的、维度为1×5的向量中的每个初始概率均乘以/>，得到多个下调后的概率。

根据多个下调后的概率和初始结果表征向量中分别用于表征第2个局部图像、第4~7个局部图像中的每个局部图像的初始识别结果的、维度为1×5的向量中的每个初始概率，得到目标结果表征向量。

作为一种可选的示例，上述方法还包括：在初始结果表征向量中确定第一组概率中大于或等于第一预设阈值的概率的第一数量以及第二组概率中大于或等于第二预设阈值的概率的第二数量，其中，第一组概率包括从N个局部图像中的每个局部图像中识别到的结果是空识别结果的概率，第二组概率包括从N个局部图像中的每个局部图像中识别到的结果是K-1个预设字符中的一个字符的概率；根据第一数量和第二数量，调整初始结果表征向量中用于表征R个局部图像中的Q个局部图像的初始识别结果的、Q个维度为1×K的向量，以下调Q个局部图像的初始识别结果为Q×K个识别结果中每个识别结果的概率，其中，R个局部图像为N个最终识别结果为空识别结果的局部图像，R为大于或等于1、且小于或等于N的正整数，Q为大于或等于1、且小于或等于R的正整数，得到维度为N×K的目标结果表征向量。

根据如图11中（a）和（b）可知，假设从N=7个局部图像中的每个局部图像中识别到的结果是空识别结果的第一组概率、以及从7个局部图像中的每个局部图像识别到的结果是4个预设字符中的一个字符的第二组概率如图10中（a）所示，第一预设阈值为0.5、第二预设阈值为0.6。

确定第一组概率中大于0.5的第一数量为4、第二组概率中大于0.6的第二数量为8，根据第一数量和第二数量，调整初始结果表征向量中用于表征R个局部图像中的Q个局部图像的初始识别结果的、Q个维度为1×K的向量，具体包括：通过以下步骤将Q个维度为1×K的向量中的第q个维度为1×K的向量中的概率下调，得到K个下调后的概率，其中，q为大于或等于1、且小于或等于Q的正整数：将K个下调后的概率中的第s个下调后的概率确定为等于第s个概率、（1-第q个维度为1×K的向量中的空识别结果对应的概率）以及目标比值三者之间的乘积，其中，目标比值是将第二数量除以目标和值所得到的比值，目标和值是第一数量与第二数量之间的和值，第s个概率为第q个维度为1×K的向量中的第s个初始概率，s为大于或等于1、且小于或等于K的正整数。

如图11中（b）所示，第一数量和第二数量的和值为12，第二数量为8，得到目标比值为。

如图11中（c）所示，对初始结果表征向量中用于表征第1个局部图像的初始识别结果的、维度为1×5的向量（0.23,0.47,0.52,0.18,0.95）中的每个概率进行下调，得到下调后的维度为1×5的向量，其中，下调后的维度为1×5的向量中的第1个下调后的概率等于、第2个下调后的概率等于/>等。

显然，图11所示的对7个最终识别结果中的1个最终识别结果为空识别结果的初始结果表征向量进行调整的方法仅为一种示例，并不对其进行限定，对于在7个最终识别结果中的2个或2个以上的最终识别结果为空识别结果的情况下，确定目标比值、第s个下调后的概率的计算方法可以参考上述实施例部分的描述，此处不再赘述。

采用上述方式，可以降低空识别结果的损失权重，解决了CTC损失未考虑空识别结果和非空识别结果不均衡的问题，提高了模型的收敛效率。

作为一种可选的实现方式，上述确定第i轮训练使用的样本图像的图像表征向量序列：对样本图像的原始特征向量进行卷积处理，得到N个卷积特征向量，其中，原始特征向量的维度为H×W，每个卷积特征向量的维度为h×w，h，w，H和W为大于或等于2的正整数；对N个卷积特征向量进行自注意力处理，得到N个自注意力特征向量，其中，每个自注意力特征向量的维度为h×w，图像表征向量序列包括N个自注意力特征向量。

如图12所示的基于CTC损失的识别训练框架，通过以下步骤S1202~S1210，得到CTC损失值，下面分别针对各个步骤进行描述。

S1202，将尺寸为H×W（例如，256×32）的图像输入特征提取模块，输出卷积图像特征。

其中，使用卷积神经网络(Resnet-50，Resnet-50-DC5，Resnet-101)作为特征提取网络，获取图片特征，输入为文本图像，文本图像的尺寸为H×W，输出为卷积特征图，且每个卷积特征向量的维度为h×w（例如，。

S1204，将卷积特征向量输入至自注意力模块，输出上下文增强的N个自注意力特征向量。

其中，自注意力模块的输入为维度为h×w的图像特征向量，输出为上下文增强后的、且维度为h×w的自注意力特征向量，该模块对一些形变程度较大或者不清楚的图像内容可以利用语义信息增强特征。

S1206，将自注意力特征向量输入解码器，得到每个图像表征向量在各个类别的响应和分类结果。

具体是将N个C维的自注意力特征向量输入图12所示的全连接层，输出N×K的分类结果，其中，K表示预设的识别结果（各个类别）的数量，例如，如图6所示，K=5，包括4个预设字符h、e、l、o以及1个空字符（空识别结果）。最终得到N×K的初始结果表征向量，可以参考图5所示的7×5的初始结果表征向量。

需要说明的是，除了利用图12所示的全连接层，得到N×K的初始结果表征向量之外，还可以通过以下方式来得到初始结果表征向量：将N个图像表征向量输入待训练的文本识别模型中的时间递归神经网络，得到N×K的初始结果表征向量。

上述时间递归神经网络可以但不限于是长短记忆网络（Long Short-TermMemory，简称LSTM），LSTM是一种时间循环神经网络，是为解决一般的RNN（循环神经网络）存在的长期依赖问题而专门设计出来的。

利用LSTM，也可以对每个图像表征向量表征的每个局部图像的识别结果进行预测，例如，得到每个局部图像中识别到的结果是预设的K歌识别结果中的每个识别结果的概率，从而得到N×K的初始结果表征向量。

S1208，根据初始结果表征向量，得到N个识别结果，并根据识别结果中空识别结果和非空识别结果的分布，确定如何调整空识别结果的权重。

如图13中（a）和（b）所示，无论是在中文识别场景还是英文识别场景中，当解码器输出N×K维的分类结果（又可以被理解为初始结果表征向量）时，均可以利用权重重分配模块，且根据空识别结果置信度调整空识别结果的损失权重，以及根据非空识别结果的密度调整空识别结果的损失权重，具体可参考上述实施例中对图7、图8和图9部分的描述，此处不再赘述。

其中，利用权重重分配模块，对空识别结果的权重进行重分配的具体实现过程，包括：将N×K维的分类结果输入权重重分配模块，如果是空识别结果，则该空识别结果对应的概率乘以（1-p₁）* p₂，p₁表示该局部图像是空识别结果的概率，p₂表示非空识别结果的个数占全部识别结果的比重，具体可参考图13所示的权重重分配的示意图。

另外，图13所示每个方块中的颜色表示了识别结果的损失权重的大小，从中可以直观地看出，调整后的空识别结果的损失权重明显低于调整前的空识别结果的权重。

S1210，根据调整后的权重，计算CTC损失。

作为一种可选的实现方式，上述根据目标结果表征向量，确定第i轮训练对应的损失值，包括：在样本图像中包括目标字符序列的情况下，确定R种字符序列组合，其中，目标字符序列包括按照预设顺序排列的M个字符，R和M为大于或等于2的正整数，每种字符序列组合包括N个候选识别结果，N个候选识别结果包括按照预设顺序排列的M个字符以及空识别结果，空识别结果在不同的字符序列组合中出现的位置不同，M小于N；在目标结果表征向量中确定与R种字符序列组合对应的R组概率，其中，R组概率中的每组概率包括N个概率，每组概率中的N个概率与R种字符序列组合中的一种字符序列组合中包括的N个候选识别结果一一对应；对R组概率中的每组概率中的N个概率进行相乘，得到R个值，并对R个值进行相加，得到目标概率值；根据目标概率值，确定第i轮训练对应的损失值。

如图14所示，假设样本图像中包括的目标字符序列为“ab”、且N=3个图像表征向量的情况下，那么N个候选识别结果包括按照预设顺序排列的2个字符以及空识别结果（即空字符），其中，预设顺序排列的2个字符包括但不限于紧邻的1个字符a和1个字符b，或者是被空字符间隔开的1个字符a和1个字符b。

举例来说，R种字符序列组合包括“-ab”、“a-b”以及“ab-”等三组字符序列，计算三种字符序列组合对应的三组概率，例如，第一组概率为w₁₃、w₂₁、w₃₂、其中，w₁₃表示从第1局部图像中识别到空字符的概率、w₂₁表示从第2个局部图像中识别到字符a的概率、w₃₂表示从第3个局部图像中识别到字符b的概率，将三个概率进行相乘，即为从N个局部图像中识别到字符序列“-ab”的概率P(-ab)= w₁₃*w₂₁*w₃₂。

按照同样的方法，得到从N个局部图像中识别到字符序列“a-b”的概率P(a-b)=w₁₁*w₂₃*w₃₂、从N个局部图像中识别到字符序列“ab-”的概率P(ab-)= w₁₁*w₂₂*w₃₃。

将P(-ab)、P(a-b)和P(ab-)的值进行相加，得到全路径概率之和，根据全路径概率之和确定第i轮训练对应的CTC损失值，具体包括：通过以下公式确定第i轮训练对应的损失值：，其中，表示第i轮训练对应的损失值，表示目标概率值。

需要说明的是，CTC损失值等于全路径概率之和的负对数，其中，全路径概率包括但不限于对上述R组概率中的每组概率中的N个概率进行相乘，得到的R个值。

R种字符序列组合中的每种字符序列组合均包括按照与目标字符序列中的字符相同的字符，且每个字符的位置顺序相同。

通过上述各实施例的描述可知，实现上述文本识别模型的训练方法的核心在于CTC损失函数的设计，具体是通过降低高置信度空白识别结果的损失值，使得CTC损失聚焦于非空识别结果的分类；同时，在英文场景中，由于字符密度大、空白识别结果的分类相对重要，因此在中文和英文中应用不同的空识别结果分类损失权重，解决了CTC损失中未考虑到中英文场景中的空识别结果密度不一致的问题。

另外，还提高了CTC损失函数在不同场景中的适应能力，提高了文本识别模型的收敛效率。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

根据本申请实施例的另一个方面，还提供了如图15所示的一种文本识别模型的训练装置，该装置包括：第一处理单元1502，用于对待训练的文本识别模型执行第i轮训练，其中，i为大于或等于1的正整数；其中，第一处理单元包括：第一处理模块1502-1，用于确定第i轮训练使用的样本图像的图像表征向量序列，其中，图像表征向量序列包括N个图像表征向量，N个图像表征向量中的每个图像表征向量用于表征样本图像中的N 个局部图像中对应的局部图像，N和K为大于或等于2的正整数；第二处理模块1502-2，用于根据图像表征向量序列，确定维度为N×K的初始结果表征向量，其中，初始结果表征向量中的每个维度为1×K的向量包括从N个局部图像中对应的局部图像中识别到的结果是预设的K个识别结果中的每个识别结果的概率，K个识别结果包括K-1个预设字符和空识别结果，空识别结果表示识别不到字符；第三处理模块1502-3，用于根据初始结果表征向量，确定与N 个局部图像对应的N个最终识别结果，其中，每个局部图像对应的最终识别结果是K个识别结果中概率最大的识别结果；第一调整模块1502-4，用于对于最终识别结果为空识别结果的局部图像，调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，调整后的初始结果表征向量为目标结果表征向量；第四处理模块1502-5，用于根据目标结果表征向量，确定第i轮训练对应的损失值，在第i轮训练对应的损失值不满足预设的收敛条件的情况下，对待训练的文本识别模型中的参数进行调整。

可选地，上述第一调整模块1502-4，包括：第一调整子模块，用于对于最终识别结果为空识别结果的局部图像，根据该局部图像为空白识别结果的概率调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，下调后该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，与调整前该局部图像为空白识别结果的概率成反比。

可选地，上述第一调整模块1502-4，包括：第二调整子模块，用于对于最终识别结果为空识别结果的局部图像，根据N个最终识别结果中非空识别结果的占比调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，下调后该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，与占比成正比。

可选地，上述第一调整模块1502-4，包括：第三调整子模块，用于对于最终识别结果为空识别结果的局部图像，根据该局部图像为空白识别结果的概率和非空识别结果的占比调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，下调后该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，与调整前该局部图像为空白识别结果的概率成反比、且与占比成正比。

可选地，上述第一调整模块1502-4，包括：第四调整子模块，用于在最终识别结果为空识别结果的局部图像为R个局部图像的情况下，调整初始结果表征向量中用于表征R个局部图像中的Q个局部图像的初始识别结果的、Q个维度为1×K的向量，以下调Q个局部图像的初始识别结果为Q×K个识别结果中每个识别结果的概率，其中，R为大于或等于1、且小于或等于N的正整数，Q为大于或等于1、且小于或等于R的正整数。

可选地，上述第一调整模块1502-4，还包括：第一处理子模块，用于在N个最终识别结果中的R个最终识别结果为空识别结果的情况下，通过以下步骤将R个最终识别结果中的第j个最终识别结果对应的维度为1×K的向量中的K个概率下调，并得到K个下调后的概率：将K个下调后的概率中的第s个下调后的概率确定为等于第j个最终识别结果对应的维度为1×K的向量中的第s个概率、（1-第j个最终识别结果对应的维度为1×K的向量中的空识别结果对应的概率）以及占比三者之间的乘积，其中，第s个概率为第j个维度为1×K的向量中的第s个初始概率，s为大于或等于1、且小于或等于K的正整数。

可选地，上述装置还包括：第二处理单元，用于在初始结果表征向量中确定第一组概率中大于或等于第一预设阈值的概率的第一数量以及第二组概率中大于或等于第二预设阈值的概率的第二数量，其中，第一组概率包括从N个局部图像中的每个局部图像中识别到的结果是空识别结果的概率，第二组概率包括从N个局部图像中的每个局部图像中识别到的结果是K-1个预设字符中的一个字符的概率；第一调整单元，用于根据第一数量和第二数量，调整初始结果表征向量中用于表征R个局部图像中的Q个局部图像的初始识别结果的、Q个维度为1×K的向量，以下调Q个局部图像的初始识别结果为Q×K个识别结果中每个识别结果的概率，其中，R个局部图像为N个最终识别结果为空识别结果的局部图像，R为大于或等于1、且小于或等于N的正整数，Q为大于或等于1、且小于或等于R的正整数，得到维度为N×K的目标结果表征向量。

可选地，上述第一调整单元，包括：第一处理模块，用于通过以下步骤将Q个维度为1×K的向量中的第q个维度为1×K的向量中的概率下调，得到K个下调后的概率，其中，q为大于或等于1、且小于或等于Q的正整数：将K个下调后的概率中的第s个下调后的概率确定为等于第s个概率、（1-第q个维度为1×K的向量中的空识别结果对应的概率）以及目标比值三者之间的乘积，其中，目标比值是将第二数量除以目标和值所得到的比值，目标和值是第一数量与第二数量之间的和值，第s个概率为第q个维度为1×K的向量中的第s个初始概率，s为大于或等于1、且小于或等于K的正整数。

可选地，上述第二处理模块1502-2，包括：第二处理子模块，用于对样本图像的原始特征向量进行卷积处理，得到N个卷积特征向量，其中，原始特征向量的维度为H×W，每个卷积特征向量的维度为h×w，h，w，H和W为大于或等于2的正整数；第三处理子模块，用于对N个卷积特征向量进行自注意力处理，得到N个自注意力特征向量，其中，每个自注意力特征向量的维度为h×w，图像表征向量序列包括N个自注意力特征向量。

可选地，上述第四处理模块1502-5，包括：第四处理子模块，用于在样本图像中包括目标字符序列的情况下，确定F种字符序列组合，其中，目标字符序列包括按照预设顺序排列的M个字符，F和M为大于或等于2的正整数，每种字符序列组合包括N个候选识别结果，N个候选识别结果包括按照预设顺序排列的M个字符以及空识别结果，空识别结果在不同的字符序列组合中出现的位置不同，M小于N；第五处理子模块，用于在目标结果表征向量中确定与F种字符序列组合对应的F组概率，其中，F组概率中的每组概率包括N个概率，每组概率中的N个概率与R种字符序列组合中的一种字符序列组合中包括的N个候选识别结果一一对应；第六处理子模块，用于对F组概率中的每组概率中的N个概率进行相乘，得到F个值，并对F个值进行相加，得到目标概率值；第七处理子模块，用于根据目标概率值，确定第i轮训练对应的损失值。

可选地，上述第四处理模块1502-5，还包括：第八处理子模块，用于通过以下公式确定第i轮训练对应的损失值：，其中，表示第i轮训练对应的损失值，表示目标概率值。

通过将上述装置应用于在文本识别模型的训练过程中，通过下调初始结果表征向量中用于表征最终识别结果为空识别结果的局部图像的K个初始识别结果中每个识别结果的概率，降低了空识别结果的损失权重，从而在利用下调概率后的目标结果表征向量执行第i轮训练时，减少了对空白识别结果的训练时间，使得第i轮训练对应的损失值更加收敛于非空白识别结果，提高了模型训练的收敛效率，解决了文本识别模型的训练过程中出现的效率较低的技术问题，实现了提高文本识别模型的训练效率的技术效果。

需要说明的是，这里的文本识别模型的训练装置的实施例可以参考上述文本识别模型的训练方法的实施例，这里不再赘述。

根据本申请实施例的又一个方面，还提供了一种用于实施上述文本识别模型的训练方法的电子设备，该电子设备可以是图16所示的终端设备。本实施例以该电子设备为后台设备为例来说明。如图16所示，该电子设备包括存储器1602和处理器1604，该存储器1602中存储有计算机程序，该处理器1604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤S1。

S1，对待训练的文本识别模型执行第i轮训练，其中，i为大于或等于1的正整数，其中，步骤S1包括以下步骤S1-1~S1-5。

S1-1，确定第i轮训练使用的样本图像的图像表征向量序列，其中，图像表征向量序列包括N个图像表征向量，N个图像表征向量中的每个图像表征向量用于表征样本图像中的N 个局部图像中对应的局部图像，N和K为大于或等于2的正整数。

S1-2，根据图像表征向量序列，确定维度为N×K的初始结果表征向量，其中，初始结果表征向量中的每个维度为1×K的向量包括从N个局部图像中对应的局部图像中识别到的结果是预设的K个识别结果中的每个识别结果的概率，K个识别结果包括K-1个预设字符和空识别结果，空识别结果表示识别不到字符。

S1-3，根据初始结果表征向量，确定与N 个局部图像对应的N个最终识别结果，其中，每个局部图像对应的最终识别结果是K个识别结果中概率最大的识别结果。

S1-4，对于最终识别结果为空识别结果的局部图像，调整初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为K个识别结果中每个识别结果的概率，调整后的初始结果表征向量为目标结果表征向量。

S1-5，根据目标结果表征向量，确定第i轮训练对应的损失值，在第i轮训练对应的损失值不满足预设的收敛条件的情况下，对待训练的文本识别模型中的参数进行调整。

可选地，本领域普通技术人员可以理解，图16所示的结构仅为示意，电子装置电子设备也可以是智能手机（Android手机、iOS手机等）、平板电脑、掌上电脑、移动互联网设备（Mobile Internet Devices，MID）、PAD、智能语音交互设备、智能家电、车载终端等。图16其并不对上述电子装置电子设备的结构造成限定。例如，电子装置电子设备还可包括比图16中所示更多或者更少的组件（如网络接口等），或者具有与图16所示不同的配置。

其中，存储器1602可用于存储软件程序以及模块，如本申请实施例中的文本识别模型的训练方法和装置对应的程序指令/模块，处理器1604通过运行存储在存储器1602内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的文本识别模型的训练方法。存储器1602可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1602可进一步包括相对于处理器1604远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1602具体可以但不限于用于存储样本图像的图像表征向量序列、初始结果表征向量以及目标结果表征向量等。作为一种示例，如图16所示，上述存储器1602中可以但不限于包括上述文本识别模型的训练装置中的第一处理单元1502，第一处理单元1502包括第一处理模块1502-1、第二处理模块1502-2、第三处理模块1502-3、第一调整模块1502-4和第四处理模块1502-5。此外，还可以包括但不限于上述文本识别模型的训练装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1606包括一个网络适配器（Network Interface Controller，NIC），其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1606为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子设备还包括：显示器1608，用于显示上述目标声音的方位提示信息；和连接总线1610，用于连接上述电子设备中的各个模块部件。

在其他实施例中，上述目标终端或者服务器可以是一个分布式系统中的一个节点，其中，该分布式系统可以为区块链系统，该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中，节点之间可以组成点对点（Peer To Peer）网络，任意形式的计算设备，比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。

根据本申请的又一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述服务器校验处理等方面各种可选实现方式中提供的文本识别模型的训练方法，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令目标终端相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（Random Access Memory，RAM）、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例方法的全部或部分步骤。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种文本识别模型的训练方法，其特征在于，包括：

通过以下步骤对待训练的文本识别模型执行第i轮训练，其中，i为大于或等于1的正整数：

确定第i轮训练使用的样本图像的图像表征向量序列，其中，所述图像表征向量序列包括N个图像表征向量，所述N个图像表征向量中的每个图像表征向量用于表征所述样本图像中的N 个局部图像中的一个，N和K为大于或等于2的正整数；

根据所述图像表征向量序列，确定维度为N×K的初始结果表征向量，其中，所述初始结果表征向量中的每个维度为1×K的向量用于表征一个局部图像的初始识别结果为预设的K个识别结果中的每个识别结果的概率，所述K个识别结果包括K-1个预设字符和空识别结果，所述空识别结果表示识别不到字符；

根据所述初始结果表征向量，确定与所述N 个局部图像对应的N个最终识别结果，其中，每个局部图像对应的最终识别结果是所述K个识别结果中概率最大的识别结果；

对于所述最终识别结果为所述空识别结果的局部图像，调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，调整后的所述初始结果表征向量为目标结果表征向量；

根据所述目标结果表征向量，确定所述第i轮训练对应的损失值，在所述第i轮训练对应的损失值不满足预设的收敛条件的情况下，对所述待训练的文本识别模型中的参数进行调整。

2.根据权利要求1所述的方法，其特征在于，所述对于所述最终识别结果为所述空识别结果的局部图像，调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，包括：

对于所述最终识别结果为所述空识别结果的局部图像，根据该局部图像为所述空识别结果的概率调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，下调后该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，与调整前该局部图像为所述空识别结果的概率成反比。

3.根据权利要求1所述的方法，其特征在于，所述对于所述最终识别结果为所述空识别结果的局部图像，调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，包括：

对于所述最终识别结果为所述空识别结果的局部图像，根据N个最终识别结果中非空识别结果的占比调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，下调后该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，与所述占比成正比。

4.根据权利要求1所述的方法，其特征在于，所述对于所述最终识别结果为所述空识别结果的局部图像，调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，包括：

对于所述最终识别结果为所述空识别结果的局部图像，根据该局部图像为所述空识别结果的概率和非空识别结果的占比调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，下调后该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，与调整前该局部图像为所述空识别结果的概率成反比、且与所述占比成正比。

5.根据权利要求1所述的方法，其特征在于，所述对于所述最终识别结果为所述空识别结果的局部图像，调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，包括：

在所述最终识别结果为所述空识别结果的局部图像为R个局部图像的情况下，调整所述初始结果表征向量中用于表征所述R个局部图像中的Q个局部图像的初始识别结果的、Q个维度为1×K的向量，以下调所述Q个局部图像的初始识别结果为Q×K个识别结果中每个识别结果的概率，其中，R为大于或等于1、且小于或等于N的正整数，Q为大于或等于1、且小于或等于R的正整数。

6.根据权利要求4所述的方法，其特征在于，所述根据该局部图像为所述空识别结果的概率和非空识别结果的占比调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，包括：

在所述N个最终识别结果中的R个最终识别结果为所述空识别结果的情况下，通过以下步骤将所述R个最终识别结果中的第j个最终识别结果对应的维度为1×K的向量中的K个概率下调，并得到K个下调后的概率：

将所述K个下调后的概率中的第s个下调后的概率确定为等于所述第j个最终识别结果对应的维度为1×K的向量中的第s个概率、1减去所述第j个最终识别结果对应的维度为1×K的向量中的空识别结果对应的概率所得到的值、所述占比三者之间的乘积，其中，所述第s个概率为所述第j个维度为1×K的向量中的第s个初始概率，s为大于或等于1、且小于或等于K的正整数。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在所述初始结果表征向量中确定第一组概率中大于或等于第一预设阈值的概率的第一数量以及第二组概率中大于或等于第二预设阈值的概率的第二数量，其中，所述第一组概率包括从所述N个局部图像中的每个局部图像中识别到的结果是所述空识别结果的概率，所述第二组概率包括从所述N个局部图像中的每个局部图像中识别到的结果是所述K-1个预设字符中的一个字符的概率；

根据所述第一数量和所述第二数量，调整所述初始结果表征向量中用于表征R个局部图像中的Q个局部图像的初始识别结果的、Q个维度为1×K的向量，以下调所述Q个局部图像的初始识别结果为Q×K个识别结果中每个识别结果的概率，其中，所述R个局部图像为所述N个最终识别结果为所述空识别结果的局部图像，R为大于或等于1、且小于或等于N的正整数，Q为大于或等于1、且小于或等于R的正整数，得到维度为N×K的所述目标结果表征向量。

8.根据权利要求7所述的方法，其特征在于，所述根据所述第一数量和所述第二数量，调整所述初始结果表征向量中用于表征R个局部图像中的Q个局部图像的初始识别结果的、Q个维度为1×K的向量，包括：

通过以下步骤将所述Q个维度为1×K的向量中的第q个维度为1×K的向量中的概率下调，得到K个下调后的概率，其中，q为大于或等于1、且小于或等于Q的正整数：

将所述K个下调后的概率中的第s个下调后的概率确定为等于第s个概率、1减去所述第q个维度为1×K的向量中的空识别结果对应的概率所得到的值以及目标比值三者之间的乘积，其中，所述目标比值是将所述第二数量除以目标和值所得到的比值，所述目标和值是所述第一数量与所述第二数量之间的和值，所述第s个概率为所述第q个维度为1×K的向量中的第s个初始概率，s为大于或等于1、且小于或等于K的正整数。

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述确定第i轮训练使用的样本图像的图像表征向量序列：

对所述样本图像的原始特征向量进行卷积处理，得到N个卷积特征向量，其中，所述原始特征向量的维度为H×W，每个所述卷积特征向量的维度为h×w，h，w，H和W为大于或等于2的正整数；

对所述N个卷积特征向量进行自注意力处理，得到N个自注意力特征向量，其中，每个所述自注意力特征向量的维度为h×w，所述图像表征向量序列包括所述N个自注意力特征向量。

10.根据权利要求1至8中任一项所述的方法，其特征在于，所述根据所述目标结果表征向量，确定所述第i轮训练对应的损失值，包括：

在所述样本图像中包括目标字符序列的情况下，确定F种字符序列组合，其中，所述目标字符序列包括按照预设顺序排列的M个字符，F和M为大于或等于2的正整数，每种字符序列组合包括N个候选识别结果，所述N个候选识别结果包括按照所述预设顺序排列的所述M个字符以及所述空识别结果，所述空识别结果在不同的字符序列组合中出现的位置不同，M小于N；

在所述目标结果表征向量中确定与所述F种字符序列组合对应的F组概率，其中，所述F组概率中的每组概率包括N个概率，所述每组概率中的N个概率与所述F种字符序列组合中的一种字符序列组合中包括的N个候选识别结果一一对应；

对所述F组概率中的每组概率中的N个概率进行相乘，得到F个值，并对所述F个值进行相加，得到目标概率值；

根据所述目标概率值，确定所述第i轮训练对应的损失值。

11.根据权利要求10所述的方法，其特征在于，所述根据所述目标概率值，确定所述第i轮训练对应的损失值，包括：

通过以下公式确定所述第i轮训练对应的损失值：

,

其中，表示所述第i轮训练对应的损失值，/>表示所述目标概率值。

12.一种文本识别模型的训练装置，其特征在于，包括：

第一处理单元，用于对待训练的文本识别模型执行第i轮训练，其中，i为大于或等于1的正整数；

其中，所述第一处理单元包括：

第一处理模块，用于确定第i轮训练使用的样本图像的图像表征向量序列，其中，所述图像表征向量序列包括N个图像表征向量，所述N个图像表征向量中的每个图像表征向量用于表征所述样本图像中的N个局部图像中对应的局部图像，N和K为大于或等于2的正整数；

第二处理模块，用于根据所述图像表征向量序列，确定维度为N×K的初始结果表征向量，其中，所述初始结果表征向量中的每个维度为1×K的向量包括从所述N个局部图像中对应的局部图像中识别到的结果是预设的K个识别结果中的每个识别结果的概率，所述K个识别结果包括K-1个预设字符和空识别结果，所述空识别结果表示识别不到字符；

第三处理模块，用于根据所述初始结果表征向量，确定与所述N个局部图像对应的N个最终识别结果，其中，每个局部图像对应的最终识别结果是所述K个识别结果中概率最大的识别结果；

第一调整模块，用于对于所述最终识别结果为所述空识别结果的局部图像，调整所述初始结果表征向量中用于表征该局部图像的初始识别结果的、维度为1×K的向量，以下调该局部图像的初始识别结果为所述K个识别结果中每个识别结果的概率，调整后的所述初始结果表征向量为目标结果表征向量；

第四处理模块，用于根据所述目标结果表征向量，确定所述第i轮训练对应的损失值，在所述第i轮训练对应的损失值不满足预设的收敛条件的情况下，对所述待训练的文本识别模型中的参数进行调整。

13.一种计算机可读的存储介质，其特征在于，所述计算机可读的存储介质包括存储的程序，其中，所述程序可被终端设备或计算机运行时执行所述权利要求1至11任一项中所述的方法。

14.一种电子设备，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至11任一项中所述的方法。