CN116012650B

CN116012650B - 文字识别模型训练及其识别方法、装置、设备和介质

Info

Publication number: CN116012650B
Application number: CN202310002789.3A
Authority: CN
Inventors: 吕鹏原; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2024-04-23
Anticipated expiration: 2043-01-03
Also published as: CN116012650A

Abstract

本公开提供了文字识别模型训练及其识别方法、装置、设备和介质，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可用于OCR等场景。具体实现方案为：获取分别包括文字信息的第一样本图片和第二样本图片，以及第二样本图片对应的样本文字标签；根据第一样本图片对特征提取网络进行自监督预训练，以及，根据第二样本图片和相应样本文字标签，对特征提取网络进行有监督预训练；根据预训练好的特征提取网络，生成文字识别模型，用于对待预测图像进行文字识别。根据本公开的技术，提高了文字识别模型的识别结果准确度。

Description

文字识别模型训练及其识别方法、装置、设备和介质

技术领域

本公开涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可用于光学字符识别OCR等场景。

背景技术

自然场景下的文字识别技术可以被广泛应用于教育、医疗和金融等传统行业中，大幅度提升了传统行业的智能化程度或生产效率，并且为企业或用户等提供了便利。

发明内容

本公开提供了一种准确度更高的文字识别模型训练及其识别方法、装置、设备和介质。

根据本公开的一方面，提供了一种文字识别模型训练方法，包括：

获取分别包括文字信息的第一样本图片和第二样本图片，以及第二样本图片对应的样本文字标签；

根据第一样本图片对特征提取网络进行自监督预训练，以及，根据第二样本图片和相应样本文字标签，对特征提取网络进行有监督预训练；

根据预训练好的特征提取网络，生成文字识别模型，用于对待预测图像进行文字识别。

根据本公开的另一方面，还提供了一种文字识别方法，包括：

获取待预测图片；待预测图片中包括文字信息；

将待预测图片输入至训练好的文字识别模型，得到待预测图片的文字识别结果；

其中，文字识别模型采用本公开实施例提供的任意一种文字识别模型训练方法训练得到。

根据本公开的又一方面，还提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例提供的任意一种文字识别模型训练方法，和/或，执行本公开实施例提供的任意一种文字识别方法。

根据本公开的再一方面，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开实施例提供的任意一种文字识别模型训练方法，和/或，执行本公开实施例提供的任意一种文字识别方法。

根据本公开的技术，提高了文字识别模型的识别结果准确度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的一种文字识别模型训练方法的流程图；

图2A是本公开实施例提供的一种特征提取网络的自监督预训练方法的流程图；

图2B是本公开实施例提供的一种自监督预训练框架图；

图3A是本公开实施例提供的一种特征提取网络的有监督预训练方法的流程图；

图3B是本公开实施例提供的一种有监督预训练框架图；

图4A是本公开实施例提供的一种文字识别模型的微调方法的流程图；

图4B是本公开实施例提供的一种文字识别模型框架图；

图5是本公开实施例提供的一种文字识别方法的流程图；

图6是本公开实施例提供的一种文字识别模型训练装置的结构图；

图7是本公开实施例提供的一种文字识别装置的结构图；

图8是用来实现本公开实施例的文字识别模型训练方法和/或文字识别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例提供的文字识别模型训练方法和文字识别模型训练装置，适用于对文字识别模型进行训练的应用场景中。本公开实施例所提供的文字识别模型训练方法，可以由文字识别模型训练装置执行，该装置可以采用软件和/或硬件实现，并具体配置于电子设备中。

参见图1所示的一种文字识别模型训练方法，包括：

S101、获取分别包括文字信息的第一样本图片和第二样本图片，以及第二样本图片对应的样本文字标签。

其中，第一样本图片和第二样本图片中均携带有文字信息。其中，第二样本图片预先标注有相应的样本文字标签，作为后续有监督预训练的基础。需要说明的是，本公开对第一样本图片、第二样本图片的获取方式，以及第二样本图片的样本文字标签的标注方式，不作任何限定。

S102、根据第一样本图片对特征提取网络进行自监督预训练，以及，根据第二样本图片和相应样本文字标签，对特征提取网络进行有监督预训练。

示例性的，根据携带丰富视觉信息的第一样本图片，对特征提取网络进行自监督预训练，使得特征提取网络能够学习到对图片的视觉特征提取能力。相应的，根据第二样本图片和相应样本文字标签，对特征提取网络进行有监督预训练，使得特征提取网络能够学习到第二样本图片中与样本文字标签相关联的语义信息，从而逐步提高特征提取网络的语义特征提取能力。

在一个可选实施例中，对特征提取网络的自监督预训练和有监督预训练，可以分别先后执行，本公开对两种训练方式的先后顺序不作任何限定。也即，可以首先进行自监督预训练，在所训练的特征提取网络满足自监督预训练截止条件时，再对自监督预训练好的特征提取网络，继续进行有监督预训练，直至满足有监督预训练截止条件。或者，可以首先进行有监督预训练，在所训练的特征提取网络满足有监督预训练截止条件时，再对有监督预训练好的特征提取网络，继续进行自监督预训练，直至满足自监督预训练截止条件。其中，自监督预训练截止条件、有监督预训练截止条件，可以由技术人员根据需要或经验值进行设置或调整，或通过大量试验反复确定，本公开对两者的具体确定方式不作任何限定。

然后，对特征提取网络先后执行两种不同的预训练，会存在特征提取网络在在先预训练过程中学习到的特征提取能力，在在后训练过程中会部分丢失的情况，降低了所训练的特征提取网络所提取特征的丰富性，同时会出现网络性能出现震荡，延缓了特征提取网络的收敛时间。为了避免上述情况的发生，在另一可选实施例中，可以将自监督预训练和有监督预训练过程设置为交叉进行或同时进行，从而保证了自监督预训练和有监督预训练的相对一致性，避免出现由于不同预训练的网络参数差异较大，而出现调参过程丢弃部分特征提取能力的情况，有助于提高特征提取网络的特征提取能力，缩短预训练周期。

其中，特征提取网络可以基于现有技术中的任一机器学习模型或深度学习模型加以实现，本公开对特征提取网络的网络结构不作任何限定。在一个具体实现方式中，特征提取网络可以基于VIT(Visual Transformer，视觉编码器)实现。

S103、根据预训练好的特征提取网络，生成文字识别模型，用于对待预测图像进行文字识别。

在一个可选实施例中，可以将预训练好的特征提取网络，作为用于对待预测图像进行文字识别的文字识别模型的底座。

由于第一样本图片和第二样本图片的多样性，使得特征提取网络具备一定的普适性，因此对某一特定类别的文字识别任务，其特征提取能力相对较弱。为了使得预训练好的特征提取网络的特征提取能力，能够适配于特定的文字识别任务，在另一可选实施例中，还可以获取任务样本图片和任务样本图片对应的样本文字标签；根据任务样本图片和相应样本文字标签，对文字识别模型的网络参数进行微调，得到训练好的文字识别模型；其中，文字识别模型中包括预训练好的特征提取网络。

其中，任务样本图片为在预先设置的文字识别任务下的样本图片，该任务样本图片中携带有文字信息。示例性的，可以通过人工标注或其他标注方式，确定任务样本图片对应的样本文字标签，本公开对样本文字标签的标注方式不作任何限定。

需要说明的是，本公开对任务样本图片及其样本文字标签的获取时机不作任何限定，仅需保证在对文字识别模型的网络参数进行微调之前获取即可。

本公开实施例通过第一样本图片对特征提取网络进行自监督预训练，使得特征提取网络能够学习到第一样本图片所携带文字信息的视觉特征；以及，通过第二样本图片和相应样本文字标签对特征提取网络进行有监督预训练，使得特征提取网络能够学习到第二样本图片所携带文字信息的语义特征。通过自监督预训练和有监督预训练的方式，使得预训练的特征提取网络所提取特征的丰富性和多样性，从而提高了基于预训练好的特征提取网络所生成的文字识别模型，对应文字识别结果的准确度。

在一个可选实施例中，可以构建包括预训练好的特征提取网络的文字识别模型；采用任务样本图片和相应样本文字标签，对文字识别模型中所包括各网络的网络参数进行微调，直至满足微调截止条件。其中，微调截止条件可以由技术人员根据需要或经验值进行设置或调整。

可以理解的是，通过任务样本图片对包括特征提取网络的文字识别模型的网络参数进行微调，提高了特征提取网络所提取特征，与任务样本图片对应文字识别任务的适配性，从而提高了在设定文字识别任务场景下的文字识别模型的识别结果准确度，从而提高了文字识别模型的任务针对性。

示例性的，第一样本图片可以是收集的真实存在的携带文字信息的文本图片，各第一样本图片对应的文字风格相同或不同，从而提高第一样本图片的风格多样性和真实性，为所训练模型提供丰富多样且真实可靠的视觉信息。其中，文字风格可以包括字体类别、字体大小、字体颜色、字体边框、字体纹理、字体倾斜角度、字体缩放角度和字体间距等信息中的至少一种。

示例性的，第二样本图片可以基于相应样本文字标签，按照预设文字风格合成得到。其中，预设文字风格可以由技术人员根据需要或经验进行设置或调整；预设文字风格的类别包括至少一种。

可以理解的是，通过预先设置样本文字标签，并按照预设文字风格，基于样本文字标签合成第二样本图片，能够方便快捷的生成海量第二样本图片，减少了标签标注的时间成本和人力成本，缩短了第二样本图片的准备周期，从而缩短了提高文字识别模型的训练周期，提高了文字识别模型的训练效率。

在上述各技术方案的基础上，本公开还提供了一个可选实施例。在该可选实施例中，对特征提取网络的自监督预训练过程进行了优化改进，以提高所训练特征提取网络的视觉特征提取能力。需要说明的是，在本公开实施例中未详述部分，可参见其他实施例的相关表述，在此不再赘述。

参见图2A所示的一种对特征提取网络的自监督预训练方法，包括：

S201、将第一样本图片切分为至少一个第一样本切片。

示例性的，可以按照预设切分方式，将第一样本图片切分为预设数量的第一样本切片。其中，预设切分方式可以由技术人员人为设定，或者按照第一样本图片中文字排版情况进行确定。举例说明，若第一样本图片中的文字为横排排版格式，则按照从左到右的顺序，将第一样本图片进行切片处理；若第一样本图片中的文字为竖排排版格式，则按照从上到下的顺序，将第一样本图片进行切片处理。其中，预设数量可以由技术人员根据需要或经验进行设定，或通过大量试验进行调整。

为了保证不同第一样本切片的切片大小一致，可以按照第一样本图片的图片维度，确定各第一样本切片的切片维度；将第一样本切片均匀切分为预设数量的第一初始样本切片；将第一初始样本切片进行特征填充，得到满足切片维度的第一样本切片。举例说明，若第一样本图片为C*H*W维，预设数量为M个，则可以将第一样本图片切分为M个C*H*W//M(//为向下取整)的第一样本切片(patch)。

其中，第一样本切片中可以包括至少一个遮盖样本切片和至少一个可见样本切片。其中，遮盖样本切片用于后续进行图片遮盖(mask)处理；可见样本切片不再进行图片遮盖处理。

S202、将第一样本切片中的遮盖样本切片替换为可学习标识，以更新第一样本切片。

其中，遮盖样本切片和可见样本切片的划分方式，可以随机划分，或者由技术人员根据需要或经验进行划分等，本公开对遮盖样本切片和可见样本切片的具体划分方式，不作任何限定。

示例性的，可以按照预设掩码比，确定第一样本切片中的遮盖样本切片。也即，按照预设掩码比，将第一样本切片划分为可见部分和不可见部分；其中，可见部分对应的第一样本切片即为可见样本切片；不可见部分对应的第一样本切片即为遮盖样本切片。其中，预设掩码比可以由技术人员根据需要或经验值进行设定，或通过大量试验反复确定。

其中，可学习标识(token)为预先设定的待学习特征，作为第一样本切片中的未知特征，进行后续的特征预测。

相应的，将第一样本切片中的遮盖样本切片替换为可学习标识，实现对遮盖样本切片的遮盖处理，从而将第一样本切片划分为可见部分(未处理的可见样本切片)和不可见部分(可学习标识遮盖的遮盖样本切片)，实现对第一样本切片的图片内容更新。

其中，可见部分对应的可见样本切片，为可学习标识部分的图片预测提供上下文信息；遮盖样本切片对应的可学习标识，用于表示基于上下文信息的预测位置；遮盖样本切片中的图片内容，用于作为可学习标识学习过程对应的自监督信息。

可以理解的是，通过预设掩码比的方式，进行遮盖样本切片的确定，提高了遮盖样本切片的便捷性和确定效率，同时保证了不同第一样本切片中遮盖样本切片的数量一致性和位置随机性，有助于提高后续所训练特征提取网络所学习提取的视觉特征的丰富性和多样性。

S203、根据更新后的第一样本切片和遮盖样本切片，对特征提取网络进行自监督预训练。

在一个可选实施例中，可以对更新后的第一样本切片进行特征编码，并将编码结果输入至特征提取网络，得到各第一样本切片的第一样本视觉特征；确定遮盖样本切片的第二样本视觉特征；根据遮盖样本切片的第一样本视觉特征和第二样本视觉特征之间的差异情况，对特征提取网络进行自监督预训练。其中，第一样本视觉特征和第二样本视觉特征之间的差异情况，可以采用现有技术中的至少一种损失函数加以实现，本公开对所采用的具体的损失函数的类别和具体构成不作任何限定。

示例性的，可以采用本公开中所训练的特征提取网络，对遮盖样本切片进行特征提取，得到遮盖样本切片的第二样本视觉特征。

在另一可选实施例中，可以对更新后的第一样本切片进行特征编码，并将编码结果输入至特征提取网络，得到各第一样本切片的样本视觉特征；根据遮盖样本切片的样本视觉特征与遮盖样本切片自身之间的差异情况，对特征提取网络进行自监督预训练。其中，遮盖样本切片的样本视觉特征与遮盖样本切片自身之间的差异情况，可以采用现有技术中的至少一种损失函数加以实现，本公开对所采用的具体的损失函数的类别和具体构成不作任何限定。

在又一可选实施例中，可以将更新后的第一样本切片进行特征编码，并将编码结果输入至特征提取网络，得到各第一样本切片的样本视觉特征；将各样本视觉特征输入至图像重建网络，得到遮盖样本切片的重建样本切片；根据重建样本切片和相应遮盖样本切片，调整特征提取网络的网络参数。

其中，图像重建网络可以采用现有技术中的任意一种机器学习模型或深度学习模型加以实现，本公开对图像重建网络的具体网络结构不作任何限定。在一个具体实现方式中，图像重建网络可以采用线性变换解码器加以实现。

示例性的，对更新后的第一样本切片进行特征编码，并将编码结果输入至特征提取网络，结合第一样本切片中各可见样本切片中的上下文信息，提取不同第一样本切片对应的样本视觉特征；将各第一样本切片的样本视觉特征输入至图像重建网络，能够得到各第一样本切片的切片重建结果；其中，切片重建结果中包括遮盖样本切片的重建样本切片(对应图中非空白切片)和可见样本切片的重建样本切片(图中未显示图片内容，也即对应图中空白切片)；根据遮盖样本切片的重建样本切片和相应的遮盖样本切片之间的差异情况，对特征提取网络和图像重建网络的网络参数进行调整，使得特征提取网络能够学习到与上下文信息相关的视觉特征的提取能力。其中，遮盖样本切片的重建样本切片与相应遮盖样本切片之间的差异情况，可以采用现有技术中的至少一种损失函数加以实现，本公开对所采用的具体的损失函数的类别和具体构成不作任何限定。

以下将结合图2B所示的自监督预训练框架图，对本可选实施例的特征提取网络的调参过程进行详细说明。

其中，第一样本图片为携带有“summer”文字信息的图片。可以将该第一样本图片切分成10个第一样本切片；将其中3个第一样本切片作为遮盖样本切片进行遮盖处理(对应图中空白切片)，其余7个样本切片作为可见样本切片(对应图中非空白切片)，得到更新后的第一样本切片；将第一样本切片的编码结果输入至特征提取网络，得到样本视觉特征；将样本视觉特征输入至图像重建网络，得到遮盖样本切片对应的重建样本切片；通过遮盖样本切片的重建样本切片，与相应遮盖样本切片之间的自监督损失函数的损失值，反向调整特征提取网络和图像重建网络的网络参数。其中，自监督损失函数，可以由技术人员根据需求或经验进行设定，或通过大量试验调整确定。

可以理解的是，通过引入采用可学习标识对遮盖样本切片进行遮盖更新的第一样本切片，输入至特征提取网络进行样本视觉特征的提取；通过引入图像重建网络，基于所提取的样本视觉特征重建遮盖样本切片的图像，得到重建样本切片；通过重建样本切片与相应遮盖样本切片进行特征提取网络的网络参数的调整，使得调整后的特征提取网络能够学习到可见样本切片中与遮盖样本切片相关的上下文视觉特征，从而提高了特征提取网络所学习视觉特征的丰富性和全面性，有助于提高特征提取网络的视觉特征提取能力。另外，在对特征提取网络的网络参数进行调整时，仅采用遮盖样本切片的重建样本切片，不引入可见样本切片的切片重建结果，避免了特征提取网络出现过拟合情况。

本公开实施例通过将第一样本图片切分为多个第一样本切片，并将第一样本切片中的遮盖样本切片替换为可学习标识，从而实现对部分第一样本切片的遮盖处理；根据遮盖处理后的各第一样本切片和遮盖样本切片，从而在第一样本图片自身构建出自学习的区域和自学习部分对应视觉内容标签，实现了对特征提取网络的自监督预训练，使得特征提取网络能够学习到视觉内容的提取能力，进而有助于提高文本识别模型的识别结果准确度。

在上述各技术方案的基础上，本公开还提供了一个可选实施例。在该可选实施例中，对特征提取网络的有监督预训练过程进行了优化改进，以提高所训练特征提取网络的语义特征提取能力。需要说明的是，在本公开实施例中未详述部分，可参见其他实施例的相关表述，在此不再赘述。

参见图3A所示的一种对特征提取网络的有监督预训练方法，包括：

S301、将第二样本图片切分为至少一个第二样本切片。

示例性的，可以按照预设切分方式，将第二样本图片切分为预设数量的第二样本切片。其中，预设切分方式可以由技术人员人为设定，或按照第二样本图片中文字排版情况进行确定。举例说明，若第二样本图片中的文字为横排排版格式，则按照从左到右的顺序，将第二样本图片进行切片处理；若第二样本图片中的文字为竖排排版格式，则按照从上到下的顺序，将第二样本图片进行切片处理。其中，预设数量可以由技术人员根据需要或经验进行设定，或通过大量试验进行调整。需要说明的是，此处的预设数量，与第一样本切片对应预设数量，数值可以相同或不同。为了保证特征提取网络的输入通道一致性，通常第二样本切片对应预设数量，与第一样本切片对应预设数量，两者数值相同。

为了保证不同第二样本切片的切片大小一致，可以按照第二样本图片的图片维度，确定各第二样本切片的切片维度；将第二样本切片均匀切分为预设数量的第二初始样本切片；将第二初始样本切片进行特征填充，得到满足切片维度的第二样本切片。举例说明，若第二样本图片为C*H*W维，预设数量为M个，则可以将第二样本图片切分为M个C*H*W//M(//为向下取整)的第二样本切片。

S302、将各第二样本切片输入至特征提取网络，得到第二样本切片的样本语义特征。

S303、将各样本语义特征输入至预分类网络，得到第二样本图片的文字预测结果。

S304、根据第二样本图片的文字预测结果和相应样本文字标签，调整特征提取网络的网络参数。

其中，预分类网络可以采用现有技术中的任意一种机器学习模型或深度学习模型加以实现，本公开对预分类网络的具体网络结构不作任何限定。在一个具体实现方式中，预分类网络可以采用线性变换解码器加以实现。

对第二样本切片进行特征编码，并将编码结果输入至特征提取网络，从而得到第二样本切片的样本语义特征；将样本语义特征输入至预分类网络，得到第二样本图片对应的文字预测结果；根据第二样本图片文字预测结果，与相应样本文字标签之间的差异情况，对特征提取网络和预分类网络的网络参数进行调整，使得特征提取网络能够学习到对样本语义特征的提取能力。其中，对第二样本切片进行特征编码所采用的编码层，与对第一样本切片进行特征编码所采用的编码层两者可以相同或不同，本公开对此不作任何限定。为了保证特征提取网络的输入通道一致性，可以将两者采用的编码层设置为相同。

其中，第二样本图片的文字预测结果，与相应样本文字标签之间的差异情况，可以采用现有技术中的至少一种损失函数加以实现，本公开对所采用的损失函数的类别和具体构成不作任何限定。在一个具体实现中，为了应对文字预测结果与样本文字标签的字符串长度可能无法对齐的问题，可以采用CTC(Connectionist Temporal Classification，连接时序类分类)损失，确定第二样本图片的文字预测结果与相应样本文字标签之间的差异情况。

以下将结合图3B所示的有监督预训练框架图，对本可选实施例的特征提取网络的调参过程进行详细说明。

其中，第二样本图片为携带有“summer”文字信息的图片。可以将该第二样本图片切分成10个第二样本切片；将第二样本切片的编码结果输入特征提取网络，得到样本语义特征；将样本语义特征输入至预分类网络，得到第二样本图片的文字预测结果“summer_”；通过第二样本图片的文字预测结果与相应样本文字标签“summer”之间的有监督损失函数的损失值，反向调整特征提取网络和预分类网络的网络参数。其中，有监督损失函数，可以由技术人员根据需求或经验进行设定，或通过大量试验调整确定。

本公开实施例通过引入预分类网络，辅助进行特征提取网络的有监督训练，从而使得特征提取网络学习到语义信息提取能力，从而提高了特征提取网络的语义特征提取结果的准确度。

在上述各技术方案的基础上，本公开还提供了一个可选实施例。在该可选实施例中，对包括预训练好的特征提取网络的文字识别模型的微调过程，进行了优化改进，以提高所训练的特征提取网络的任务相关特征提取能力。需要说明的是，在本公开实施例中未详述部分，可参见其他实施例的相关表述，在此不再赘述。

参见图4A所示的一种对文字识别模型的微调方法，包括：

S401、将任务样本图片输入至预训练好的特征提取网络，得到样本视觉语义特征。

S402、将样本视觉语义特征输入至目标分类网络，得到任务样本图片的文字预测结果。

S403、根据任务样本图片的文字预测结果和相应样本文字标签，对文字识别模型的网络参数进行微调，得到训练好的文字识别模型。

其中，目标分类网络可以采用现有技术中的任意一种机器学习模型或深度学习模型加以实现，本公开对目标分类网络的具体网络结构不作任何限定。在一个具体实现方式中，目标分类网络可以采用线性变换解码器加以实现。

可选的，目标分类网络可以复用有监督预训练过程所训练好的预分类网络，从而缩短微调(fine tune)周期，提高文字识别模型的微调效率。或者可选的，目标分类网络可以采用初始化的分类网络，在微调过程中重新训练，从而使得所训练的目标分类网络，与任务样本图片对应文字识别任务的适配性更好。

在一个可选实施例中，可以将任务样本图片切分为至少一个任务样本切片；对各任务样本切片进行特征编码，并将编码结果输入至预训练好的特征提取网络，得到样本视觉语义特征；将样本视觉语义特征输入至目标分类网络，得到任务样本图片对应的文字预测结果；根据任务样本图片的文字预测结果，与相应样本文字标签之间的差异情况，对文字识别模型中的特征提取网络和目标分类网络的网络参数进行微调，从而得到训练好的文字识别模型，用于进行文字识别。其中，对各任务样本切片进行特征编码的编码层，可以与前述对第一样本切片或第二样本切片进行特征编码的编码层，三者可以相同或至少部分不同。为了保证特征提取网络的输入通道一致性，通常三者采用的编码层相同。相应的，在微调过程中，还可以复用前述预训练过程的编码层，以缩短微调周期。

示例性的，可以按照预设切分方式，将任务样本图片切分为预设数量的任务样本切片。其中，预设切分方式可以由技术人员人为设定，或按照任务样本图片中文字排版情况进行确定。举例说明，若任务样本图片中的文字为横排排版格式，则按照从左到右的顺序，将任务样本图片进行切片处理；若任务样本图片中的文字为竖排排版格式，则按照从上到下的顺序，将任务样本图片进行切片处理。其中，预设数量可以由技术人员根据需要或经验进行设定，或通过大量试验进行调整。需要说明的是，此处的预设数量，与前述第一样本切片和第二样本切片对应预设数量，数值可以相同或不同。为了保证特征提取网络的输入通道一致性，通常三者对应预设数量，两者数值相同。

为了保证不同任务样本切片的切片大小一致，可以按照任务样本图片的图片维度，确定各任务样本切片的切片维度；将任务样本切片均匀切分为预设数量的任务初始样本切片；将任务初始样本切片进行特征填充，得到满足切片维度的任务样本切片。举例说明，若任务样本图片为C*H*W维，预设数量为M个，则可以将任务样本图片切分为M个C*H*W//M(//为向下取整)的任务样本切片。

其中，任务样本图片的文字预测结果，与相应样本文字标签之间的差异情况，可以采用现有技术中的至少一种损失函数加以实现，本公开对所采用的损失函数的类别和具体构成不作任何限定。在一个具体实现中，为了应对文字预测结果与样本文字标签的字符串长度可能无法对齐的问题，可以采用CTC(Connectionist Temporal Classification，连接时序类分类)损失，确定任务样本图片的文字预测结果与相应样本文字标签之间的差异情况。

以下将结合图4B所示的文字识别模型框架图，对本可选实施例的文字识别模型的参数微调过程进行详细说明。

其中，任务样本图片为携带有“summer”文字信息的图片。可以将该任务样本图片切分成10个任务样本切片；将任务样本切片的编码结果输入特征提取网络，得到样本视觉语义特征；将样本视觉语义特征输入至目标分类网络，得到任务样本图片的文字预测结果“summer_”；通过任务样本图片的文字预测结果与相应样本文字标签“summer”之间的微调损失函数的损失值，反向调整特征提取网络和目标分类网络的网络参数。其中，微调损失函数，可以由技术人员根据需求或经验进行设定，或通过大量试验调整确定。

本公开实施例通过复用预训练好的特征提取网络，结合目标分类网络构建文字识别模型，使得文字识别模型中的特征提取网络具备视觉特征和语义特征双重提取能力，避免了仅考虑单一特征导致关键信息的丢失，影响文字识别模型的识别结果准确度。同时，本公开所采用的文字识别模型，仅通过特征提取网络和目标分类网络构建得到，模型结构复杂度较低，减少了文字识别模型训练和后续使用过程的数据运算量。另外，上述技术方案采用与文字识别任务相关的任务样本图片，对文字识别模型的网络参数进行微调，提高了所训练文字识别模型与文字识别任务的适配性，进而提高了设定任务场景下的文字识别模型的准确度。

以上对文字识别模型的训练过程进行了详细说明，以下将基于文字识别模型，对文字识别过程进行详述。

本公开实施例所提供的文字识别方法和文字识别装置，适用于采用文字识别模型进行文字识别的应用场景，该文字识别方法可以由文字识别装置执行，该装置采用软件和/或硬件实现，并具体配置于电子设备中。

需要说明的是，实现文字识别模型训练方法的电子设备，与实现文字识别方法的电子设备，两者可以相同或不同，本公开对此不作任何限定。

参见图5所示的一种文字识别方法，包括：

S501、获取待预测图片；待预测图片中包括文字信息。

S502、将待预测图片输入至训练好的文字识别模型，得到待预测图片的文字识别结果。

其中，文字识别模型采用本公开实施例所提供的任意一种文字识别模型训练方法训练得到。

示例性的，可以将包括文字信息的待预测图片，切分为至少一个待预测切片；对各待预测切片进行特征编码，并将编码结果输入至训练好的文字识别模型中，以通过文字识别模型中的特征提取网络，提取各待预测切片的预测视觉语义特征，通过目标分类网络根据预测视觉语义特征，进行文字分类，得到待预测图片的文字识别结果。

可选的，可以按照预设切分方式，将待预测图片切分为预设数量的任务样本切片。其中，预设切分方式和预设数量，分别与对文字识别模型进行微调时所采用的预设切分方式和预设数量相同。

本公开实施例通过采用前述实施例训练好的文字识别模型对包括文字信息的待预测图片进行文字识别，由于文字识别模型中的特征提取网络具备视觉特征和语义特征双重提取能力，从而提高了所提取特征的丰富性和全面性，进而提高了对待预测图片的文字识别结果的准确度。进一步的，采用文字识别任务对应的任务样本图片对文字识别模型进行了微调，从而进一步提高了对待预测图片的文字识别结果的准确度。进一步的，文字识别模型仅采用特征提取网络和目标分类网络构建得到，模型复杂度较低，从而减少了对待预测图片的进行文字识别的运算量，提高了文字识别效率。

作为上述各文字识别模型训练方法的实现，本公开还提供了一种实施上述各文字识别模型训练方法的执行装置的可选实施例。

参见图6所示的文字识别模型训练装置600，包括：样本图片获取模块601、预训练模块602和文字识别模型生成模块603。其中，

样本图片获取模块601，用于获取分别包括文字信息的第一样本图片和第二样本图片，以及所述第二样本图片对应的样本文字标签；

预训练模块602，用于根据所述第一样本图片对特征提取网络进行自监督预训练，以及，根据所述第二样本图片和相应样本文字标签，对所述特征提取网络进行有监督预训练；

文字识别模型生成模块603，用于根据预训练好的特征提取网络，生成文字识别模型，用于对待预测图像进行文字识别。

在一个可选实施例中，所述自监督预训练和所述有监督预训练过程交叉进行或同时进行。

在一个可选实施例中，所述预训练模块602包括自监督预训练单元，用于根据所述第一样本图片对特征提取网络进行自监督预训练；

其中，所述自监督预训练单元，包括：

第一切片子单元，用于将所述第一样本图片切分为至少一个第一样本切片；

遮盖替换子单元，用于将所述第一样本切片中的遮盖样本切片替换为可学习标识，以更新所述第一样本切片；

自监督预训练子单元，用于根据更新后的第一样本切片和所述遮盖样本切片，对所述特征提取网络进行自监督预训练。

在一个可选实施例中，所述遮盖替换子单元，包括：

遮盖切片确定从单元，用于根据预设掩码比，确定所述第一样本切片中的遮盖样本切片；

遮盖替换从单元，用于将所述遮盖样本切片替换为可学习标识，以更新所述第一样本切片。

在一个可选实施例中，所述自监督预训练子单元，包括：

视觉特征提取从单元，用于将更新后的第一样本切片输入至所述特征提取网络，得到各所述第一样本切片的样本视觉特征；

遮盖重建从单元，用于将各所述样本视觉特征输入至图像重建网络，得到所述遮盖样本切片的重建样本切片；

自监督预训练从单元，用于根据所述重建样本切片和相应遮盖样本切片，调整所述特征提取网络的网络参数。

在一个可选实施例中，所述预训练模块602，包括有监督预训练单元，用于根据所述第二样本图片和相应样本文字标签，对所述特征提取网络进行有监督预训练；

其中，所述有监督预训练单元，包括：

第二切片子单元，用于将所述第二样本图片切分为至少一个第二样本切片；

语义特征提取子单元，用于将各所述第二样本切片输入至所述特征提取网络，得到所述第二样本切片的样本语义特征；

文字预测子单元，用于将各所述样本语义特征输入至预分类网络，得到所述第二样本图片的文字预测结果；

有监督预训练子单元，用于根据所述第二样本图片的文字预测结果和相应样本文字标签，调整所述特征提取网络的网络参数。

在一个可选实施例中，所述文字识别模型生成模块603，包括：

任务样本获取单元，用于获取任务样本图片和所述任务样本图片对应的样本文字标签；

网络参数微调单元，用于根据所述任务样本图片和相应样本文字标签，对文字识别模型的网络参数进行微调，得到训练好的文字识别模型；

其中，所述文字识别模型中包括预训练好的特征提取网络。

在一个可选实施例中，所述文字识别模型中还包括目标分类网络；所述网络参数微调单元，包括：

任务特征提取子单元，用于将所述任务样本图片输入至预训练好的特征提取网络，得到样本视觉语义特征；

任务文字预测子单元，用于将所述样本视觉语义特征输入至所述目标分类网络，得到所述任务样本图片的文字预测结果；

网络参数微调子单元，用于根据所述任务样本图片的文字预测结果和相应样本文字标签，对所述文字识别模型的网络参数进行微调，得到训练好的文字识别模型。

在一个可选实施例中，所述第二样本图片基于相应样本文字标签按照预设文字风格合成得到。

上述文字识别模型训练装置可执行本公开任意实施例所提供的文字识别模型训练方法，具备执行各文字识别模型训练方法相应的功能模块和有益效果。

作为上述各文字识别方法的实现，本公开还提供了一种实施上述各文字识别方法的执行装置的可选实施例。

参见图7所示的文字识别装置700，包括：待预测图片获取模块701和文字识别模块702。其中，

待预测图片获取模块701，用于获取待预测图片；所述待预测图片中包括文字信息；

文字识别模块702，用于将所述待预测图片输入至训练好的文字识别模型，得到所述待预测图片的文字识别结果；

其中，所述文字识别模型采用本公开实施例提供的任意一种文字识别模型训练装置训练得到。

本公开的技术方案中，所涉及的第一样本图片、第二样本图片、任务样本图片、第二样本图片的样本文字标签、任务样本图片的样本文字标签等的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如文字识别模型训练方法和文字识别方法中的至少一种。例如，在一些实施例中，文字识别模型训练方法和文字识别方法中的至少一种可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM803并由计算单元801执行时，可以执行上文描述的文字识别模型训练方法和文字识别方法中的至少一种的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文字识别模型训练方法和文字识别方法中的至少一种。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文字识别模型训练方法，包括：

获取分别包括文字信息的第一样本图片和第二样本图片，以及所述第二样本图片对应的样本文字标签；

将所述第一样本图片切分为至少一个第一样本切片；

将所述第一样本切片中的遮盖样本切片替换为可学习标识，以更新所述第一样本切片；

根据更新后的第一样本切片和所述遮盖样本切片，对特征提取网络进行自监督预训练；

将所述第二样本图片切分为至少一个第二样本切片；

将各所述第二样本切片输入至所述特征提取网络，得到所述第二样本切片的样本语义特征；

将各所述样本语义特征输入至预分类网络，得到所述第二样本图片的文字预测结果；

根据所述第二样本图片的文字预测结果和相应样本文字标签，调整所述特征提取网络的网络参数，以完成有监督预训练；

2.根据权利要求1所述的方法，其中，所述自监督预训练和所述有监督预训练过程交叉进行或同时进行。

3.根据权利要求1所述的方法，其中，所述将所述第一样本切片中的遮盖样本切片替换为可学习标识，以更新所述第一样本切片，包括：

根据预设掩码比，确定所述第一样本切片中的遮盖样本切片；

将所述遮盖样本切片替换为可学习标识，以更新所述第一样本切片。

4.根据权利要求1所述的方法，其中，所述根据更新后的第一样本切片和所述遮盖样本切片，对所述特征提取网络进行自监督预训练，包括：

将更新后的第一样本切片输入至所述特征提取网络，得到各所述第一样本切片的样本视觉特征；

将各所述样本视觉特征输入至图像重建网络，得到所述遮盖样本切片的重建样本切片；

根据所述重建样本切片和相应遮盖样本切片，调整所述特征提取网络的网络参数。

5.根据权利要求1-4任一项所述的方法，其中，所述根据预训练好的特征提取网络，生成文字识别模型，包括：

获取任务样本图片和所述任务样本图片对应的样本文字标签；

根据所述任务样本图片和相应样本文字标签，对文字识别模型的网络参数进行微调，得到训练好的文字识别模型；

其中，所述文字识别模型中包括预训练好的特征提取网络。

6.根据权利要求5所述的方法，其中，所述文字识别模型中还包括目标分类网络；所述根据所述任务样本图片和相应样本文字标签，对文字识别模型的网络参数进行微调，得到训练好的文字识别模型，包括：

将所述任务样本图片输入至预训练好的特征提取网络，得到样本视觉语义特征；

将所述样本视觉语义特征输入至所述目标分类网络，得到所述任务样本图片的文字预测结果；

根据所述任务样本图片的文字预测结果和相应样本文字标签，对所述文字识别模型的网络参数进行微调，得到训练好的文字识别模型。

7.根据权利要求1-4任一项所述的方法，其中，所述第二样本图片基于相应样本文字标签按照预设文字风格合成得到。

8.一种文字识别方法，包括：

获取待预测图片；所述待预测图片中包括文字信息；

将所述待预测图片输入至训练好的文字识别模型，得到所述待预测图片的文字识别结果；

其中，所述文字识别模型采用权利要求1-7任一项所述的方法训练得到。

9.一种文字识别模型训练装置，包括：

样本图片获取模块，用于获取分别包括文字信息的第一样本图片和第二样本图片，以及所述第二样本图片对应的样本文字标签；

预训练模块，用于根据所述第一样本图片对特征提取网络进行自监督预训练，以及，根据所述第二样本图片和相应样本文字标签，对所述特征提取网络进行有监督预训练；

文字识别模型生成模块，用于根据预训练好的特征提取网络，生成文字识别模型，用于对待预测图像进行文字识别；

其中，所述预训练模块包括自监督预训练单元，用于根据所述第一样本图片对特征提取网络进行自监督预训练；

其中，所述自监督预训练单元，包括：

自监督预训练子单元，用于根据更新后的第一样本切片和所述遮盖样本切片，对所述特征提取网络进行自监督预训练；

其中，所述预训练模块，包括有监督预训练单元，用于根据所述第二样本图片和相应样本文字标签，对所述特征提取网络进行有监督预训练；

其中，所述有监督预训练单元，包括：

有监督预训练子单元，用于根据所述第二样本图片的文字预测结果和相应样本文字标签，调整所述特征提取网络的网络参数，以完成有监督预训练。

10.根据权利要求9所述的装置，其中，所述自监督预训练和所述有监督预训练过程交叉进行或同时进行。

11.根据权利要求9所述的装置，其中，所述遮盖替换子单元，包括：

12.根据权利要求9所述的装置，其中，所述自监督预训练子单元，包括：

13.根据权利要求9-12任一项所述的装置，其中，所述文字识别模型生成模块，包括：

其中，所述文字识别模型中包括预训练好的特征提取网络。

14.根据权利要求13所述的装置，其中，所述文字识别模型中还包括目标分类网络；所述网络参数微调单元，包括：

15.根据权利要求9-12任一项所述的装置，其中，所述第二样本图片基于相应样本文字标签按照预设文字风格合成得到。

16.一种文字识别装置，包括：

待预测图片获取模块，用于获取待预测图片；所述待预测图片中包括文字信息；

文字识别模块，用于将所述待预测图片输入至训练好的文字识别模型，得到所述待预测图片的文字识别结果；

其中，所述文字识别模型采用权利要求9-15任一项所述的装置训练得到。

17. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的文字识别模型训练方法，和/或，执行权利要求8所述的文字识别方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行权利要求1-7中任一项所述的文字识别模型训练方法，和/或，执行权利要求8所述的文字识别方法。

19.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1-7中任一项所述的文字识别模型训练方法的步骤，和/或，执行权利要求8所述的文字识别方法的步骤。