CN115690793B

CN115690793B - 文字识别模型及其识别方法、装置、设备和介质

Info

Publication number: CN115690793B
Application number: CN202310000574.8A
Authority: CN
Inventors: 吕鹏原; 刘珊珊; 吴亮; 王晓燕; 乔美娜; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-01-03
Filing date: 2023-01-03
Publication date: 2023-06-06
Anticipated expiration: 2043-01-03
Also published as: CN115690793A

Abstract

本公开提供了一种文字识别模型及其识别方法、装置、设备和介质，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可用于OCR等场景。具体实现方案为：获取分别包括文字信息的第一样本图片和第二样本图片，以及第二样本图片对应的样本文字标签；根据第一样本图片对特征编码网络进行自监督预训练；根据预训练好的特征编码网络、第二样本图片和相应样本文字标签，对特征解码网络进行有监督预训练；根据预训练好的特征编码网络和特征解码网络，生成文字识别模型，用于对待预测图像进行文字识别。根据本公开的技术，提高了文字识别模型的识别结果准确度。

Description

文字识别模型及其识别方法、装置、设备和介质

技术领域

本公开涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可用于光学字符识别OCR等场景。

背景技术

自然场景下的文字识别技术可以被广泛应用于教育、医疗和金融等传统行业中，大幅度提升了传统行业的智能化程度或生产效率，并且为企业或用户等提供了便利。

发明内容

本公开提供了一种准确度更高的文字识别模型及其识别方法、装置、设备和介质。

根据本公开的一方面，提供了一种文字识别模型训练方法，包括：

获取分别包括文字信息的第一样本图片和第二样本图片，以及第二样本图片对应的样本文字标签；

根据第一样本图片对特征编码网络进行自监督预训练；

根据预训练好的特征编码网络、第二样本图片和相应样本文字标签，对特征解码网络进行有监督预训练；

根据预训练好的特征编码网络和特征解码网络，生成文字识别模型，用于对待预测图像进行文字识别。

根据本公开的另一方面，还提供了一种文字识别方法，包括：

获取包括文字信息的待预测图片；

将待预测图片输入至训练好的文字识别模型，得到待预测图片的文字识别结果；

其中，文字识别模型采用本公开实施例提供的任意一种文字识别模型训练方法训练得到。

根据本公开的又一方面，还提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例提供的任意一种文字识别模型训练方法；和/或，执行本公开实施例提供的任意一种文字识别方法。

根据本公开的再一方面，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开实施例提供的任意一种文字识别模型训练方法；和/或，执行本公开实施例提供的任意一种文字识别方法。

根据本公开的技术，提高了文字识别模型的识别结果准确度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的一种文字识别模型训练方法的流程图；

图2A是本公开实施例提供的一种特征编码网络的自监督预训练方法的流程图；

图2B是本公开实施例提供的一种自监督预训练框架图；

图3A是本公开实施例提供的一种特征解码网络的有监督预训练方法的流程图；

图3B是本公开实施例提供的一种有监督预训练框架图；

图4A是本公开实施例提供的一种文字识别模型的微调方法的流程图；

图4B是本公开实施例提供的一种文字识别模型框架图；

图5是本公开实施例提供的一种文字识别方法的流程图；

图6是本公开实施例提供的一种文字识别模型训练装置的结构图；

图7是本公开实施例提供的一种文字识别装置的结构图；

图8是用来实现本公开实施例的文字识别模型训练方法和/或文字识别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例提供的文字识别模型训练方法和文字识别模型训练装置，适用于对文字识别模型进行训练的应用场景中。本公开实施例所提供的文字识别模型训练方法，可以由文字识别模型训练装置执行，该装置可以采用软件和/或硬件实现，并具体配置于电子设备中。

参见图1所示的一种文字识别模型训练方法，包括：

S101、获取分别包括文字信息的第一样本图片和第二样本图片，以及第二样本图片对应的样本文字标签。

其中，第一样本图片和第二样本图片中均携带有文字信息。其中，第二样本图片预先标注有相应的样本文字标签，作为后续有监督预训练的基础。需要说明的是，本公开对第一样本图片、第二样本图片的获取方式，以及第二样本图片的样本文字标签的标注方式，不作任何限定。

S102、根据第一样本图片对特征编码网络进行自监督预训练。

示例性的，可以根据携带丰富视觉信息的第一样本图片，对特征编码网络进行自监督预训练，使得特征编码网络能够学习到对图片的视觉特征提取能力。

在一个可选实施例中，特征编码网络可以基于现有技术中的任一机器学习模型或深度学习模型加以实现，本公开对特征编码网络的网络结构不作任何限定。在一个具体实现方式中，特征编码网络可以基于VIT（Visual Transformer，视觉编码器）实现。

S103、根据预训练好的特征编码网络、第二样本图片和相应样本文字标签，对特征解码网络进行有监督预训练。

示例性的，可以根据预训练好的特征编码网络，对第二样本图片进行特征编码，并根据编码结果和第二样本图片的样本文字标签，对特征解码网络进行有监督训练，从而使特征解码网络能够学习到对第二样本图片中与样本文字标签相关联的语义信息，从而逐步提高特征解码网络的语义特征提取能力。

在一个可选实施例中，特征解码网络可以基于现有技术中的任一机器学习模型或深度学习模型加以实现，本公开对特征解码网络的网络结构不作任何限定。在一个具体实现方式中，特征解码网络可以基于由至少一个Transformer Encoder（转换器-编码器）组成的Transformer Decoder（转换器-解码器）加以实现。

S104、根据预训练好的特征编码网络和特征解码网络，生成文字识别模型，用于对待预测图像进行文字识别。

在一个可选实施例中，可以直接将预训练好的特征编码网络和预训练好的特征解码网络顺序连接，作为文字识别模型的特征提取底座，进行后续的文字识别。

由于第一样本图片和第二样本图片的多样性，使得预训练得到的特征编码网络和特征解码网络，具备一定的普适性。因此，对某一特定类别的文字识别任务，其特征提取能力相对较弱。为了使得预训练好的特征编码网络和特征解码网络的特征提取能力，能够适配于特定的文字识别任务，在另一可选实施例中，还可以获取任务样本图片和任务样本图片对应的样本文字标签；根据任务样本图片和相应样本文字标签，对文字识别模型的网络参数进行微调，得到训练好的文字识别模型；其中，文字识别模型中包括预训练好的特征编码网络和特征解码网络。

其中，任务样本图片为在预先设置的文字识别任务下的样本图片，该任务样本图片中携带有文字信息。示例性的，可以通过人工标注或其他标注方式，确定任务样本图片对应的样本文字标签，本公开对样本文字标签的标注方式不作任何限定。

需要说明的是，本公开对任务样本图片及其样本文字标签的获取时机不作任何限定，仅需保证在对文字识别模型的网络参数进行微调之前获取即可。

本公开实施例通过第一样本图片对特征编码网络进行自监督预训练，使得特征编码网络能够学习到第一样本图片所携带文字信息的视觉特征，从而提高了特征编码网络的视觉特征提取能力；通过预训练好的特征编码网络，结合第二样本图片及其样本文字标签，对特征解码网络进行有监督预训练，使得特征解码网络能够学习到第二样本图片所携带文字信息的语义特征，从而提高了特征解码网络的语义特征提取能力。通过自监督预训练和有监督预训练相结合的方式，提高预训练好的特征编码网络和特征解码网络所提取特征的丰富性和多样性，从而提高了基于预训练好的特征编码网络和特征解码网络所生成的文字识别模型，对应文字识别结果的准确度。

在一个可选实施例中，可以构建包括预训练好的特征编码网络和预训练好的特征解码网络的文字识别模型；采用任务样本图片和相应样本文字标签，对文字识别模型中所包括各网络的网络参数进行微调，直至满足微调截止条件。其中，微调截止条件可以由技术人员根据需要或经验值进行设置或调整。

可以理解的是，通过任务样本图片对包括预训练好的特征编码网络和特征解码网络的文字识别模型的网络参数进行微调，提高了特征编码网络和特征解码网络所提取特征，与任务样本图片对应文字识别任务的适配性，从而提高了在设定文字识别任务场景下的文字识别模型的识别结果准确度，从而提高了文字识别模型的任务针对性。

示例性的，第一样本图片可以是收集的真实存在的携带文字信息的文本图片，各第一样本图片对应的文字风格相同或不同，从而提高第一样本图片的风格多样性和真实性，为所训练模型提供丰富多样且真实可靠的视觉信息。其中，文字风格可以包括字体类别、字体大小、字体颜色、字体边框、字体纹理、字体倾斜角度、字体缩放角度和字体间距等信息中的至少一种。

示例性的，第二样本图片可以基于相应样本文字标签，按照预设文字风格合成得到。其中，预设文字风格可以由技术人员根据需要或经验进行设置或调整；预设文字风格的类别包括至少一种。

可以理解的是，通过预先设置样本文字标签，并按照预设文字风格，基于样本文字标签合成第二样本图片，能够方便快捷的生成海量第二样本图片，减少了标签标注的时间成本和人力成本，缩短了第二样本图片的准备周期，从而缩短了提高文字识别模型的训练周期，提高了文字识别模型的训练效率。

在上述各技术方案的基础上，本公开还提供了一个可选实施例。在该可选实施例中，对特征编码网络的自监督预训练过程进行了优化改进，以提高所训练特征编码网络的视觉特征提取能力。需要说明的是，在本公开实施例中未详述部分，可参见其他实施例的相关表述，在此不再赘述。

参见图2A所示的一种对特征编码网络的自监督预训练方法，包括：

S201、将第一样本图片切分为至少一个第一样本切片；其中，第一样本切片包括第一可见切片和第一遮盖切片。

示例性的，可以按照预设切分方式，将第一样本图片切分为预设数量的第一样本切片。其中，预设切分方式可以由技术人员人为设定，或者按照第一样本图片中文字排版情况进行确定。举例说明，若第一样本图片中的文字为横排排版格式，则按照从左到右的顺序，将第一样本图片进行切片处理；若第一样本图片中的文字为竖排排版格式，则按照从上到下的顺序，将第一样本图片进行切片处理。其中，预设数量可以由技术人员根据需要或经验进行设定，或通过大量试验进行调整。

为了保证不同第一样本切片的切片大小一致，可以按照第一样本图片的图片维度，确定各第一样本切片的切片维度；将第一样本切片均匀切分为预设数量的第一初始样本切片；将第一初始样本切片进行特征填充，得到满足切片维度的第一样本切片。举例说明，若第一样本图片为C*H*W维，预设数量为M个，则可以将第一样本图片切分为M个C*H*W//M（//为向下取整）的第一样本切片（patch）。

示例性的，可以对第一样本切片按照预设划分方式，划分为第一可见切片和第一遮盖切片。其中，第一遮盖切片用于后续进行图片遮盖（mask）处理；第一可见切片不再进行图片遮盖处理。

其中，预设划分方式可以由技术人员根据需要或经验进行设置，本公开对具体划分方式不作任何限定。例如，预设划分方式可以是随机划分、按切片位置划分或按照字符位置划分等。

在一个可选实施例中，可以按照第一样本切片中的字符位置，将预设遮盖字符所在第一样本切片，作为第一遮盖切片；将除第一遮盖切片以外的第一样本切片，作为第一可见切片。其中，预设遮盖字符可以由技术人员根据经验或需求，从第一样本切片对应样本文字标签中的字符中进行选取。其中，本公开对预设遮盖字符的数量不作任何限定，可以由技术人员根据需要或经验进行设定，或通过大量试验反复确定。

然而，按照预设遮盖字符的方式，进行第一遮盖切片的确定，需要预先对第一样本切片进行标注，并进行预设遮盖字符的确定，将会带来时间成本和人力成本的增加。为了降低第一遮盖切片的确定难度，提高第一遮盖切片确定效率，在另一可选实施例中，可以按照预设掩码比，将第一样本切片划分为第一可见切片和第一遮盖切片。也即，按照预设掩码比，将第一样本切片划分为可见部分和不可见部分；其中，可见部分对应的第一样本切片即为第一可见切片；不可见部分对应的第一样本切片即为第一遮盖切片。其中，预设掩码比可以由技术人员根据需要或经验值进行设定，或通过大量试验反复确定。

可以理解的是，按照预设掩码比将第一样本切片划分为第一可见切片和第一遮盖切片，无需预先对第一样本切片对应第一样本图片进行标注，也无需根据标注结果进行预设遮盖字符的选取，从而降低了第一样本切片划分的时间成本和人力成本，提高了第一样本切片划分过程的便捷性，进而有助于缩短对特征编码网络进行自监督预训练的训练周期，提高训练效率。

S202、根据第一可见切片和第一遮盖切片，对特征编码网络进行自监督预训练。

示例性的，可以对第一样本切片进行线性映射，从而将图片信息转化为特征向量或特征矩阵；将映射结果作为特征编码网络的输入样本，将第一遮盖切片作为样本标签，对特征编码网络进行自监督预训练，使得特征编码网络能够学习到对第一可见切片中与第一遮盖切片相关的视觉特征提取能力。

在一个可选实施例中，可以对第一样本切片进行线性映射，从而将图片信息转化为特征向量或特征矩阵；通过特征编码网络对第一可见切片的映射结果进行特征编码，得到第一可见视觉特征；通过回归网络提取第一可见视觉特征中，与第一遮盖切片相关的遮盖关联特征；根据遮盖关联特征和第一遮盖切片，对特征编码网络进行自监督预训练。

其中，回归网络可以采用现有技术的至少一种机器学习模型或深度学习模型加以实现，本公开对回归网络的具体网络结构不作任何限定。可选的，可以基于由至少一个交叉注意力模块构建成潜在上下文回归模型，实现上述回归网络。

其中，第一可见视觉特征，用于表征携带有单一切片自身视觉信息，以及上下文关联切片对应视觉信息；遮盖关联特征用于表征第一可见视觉特征中，各第一可见切片中携带的与第一遮盖切片相关的视觉信息。

示例性的，可以在回归网络中引入遮盖查询数据（mask query），其中，遮盖查询数据与遮盖关联特征的维度大小相同，通过不同位置的遮盖查询数据，控制进行相应位置的遮盖关联特征的回归确定。

示例性的，可以根据遮盖关联特征与第一遮盖切片之间的差异情况或关联程度，对特征编码网络进行自监督预训练，逐步提高遮盖关联特征与第一遮盖切片之间的相关性，使得特征编码网络能够具备第一样本切片的切片自身视觉信息、以及上下文关联视觉信息的特征提取能力，提高了特征编码网络所提取特征的丰富性和全面性。

可以理解的是，通过引入回归网络提取第一可见视觉特征中与第一遮盖切片相关的遮盖关联特征，为特征编码网络的自监督预训练提供了数据支撑，基于将第一遮盖切片作为遮盖关联特征的标注数据，对特征编码网络进行自监督预训练，完善了特征编码网络的自监督预训练机制，为特征解码网络的预训练以及文字识别模型的构建，奠定了基础。

在一个可选实施例中，可以通过图像重建网络，对遮盖关联特征进行图像重建，得到重建样本切片；根据重建样本切片和第一遮盖切片，调整特征编码网络的网络参数。

其中，图像重建网络可以采用现有技术中的至少一种机器学习模型或深度学习模型加以实现，本公开对图像重建网络的具体网络结构不作任何限定。在一个具体实现方式中，图像重建网络可以采用线性变换解码器加以实现。

示例性的，通过图像重建网络，对遮盖关联特征进行图像重建，得到第一遮盖切片对应的重建样本切片；根据重建样本切片与第一遮盖切片之间的差异情况，对特征编码网络和图像重建网络的网络参数进行调整，使得特征编码网络能够学习到与上下文信息相关的视觉特征的提取能力，从而有助于提高后续基于特征编码网络所训练的特征解码网络的特征提取性能，进而有助于提高基于预训练好的特征编码网络和特征解码网络所生成的文字识别模型的模型精度。其中，重建样本切片与第一遮盖切片之间的差异情况，可以采用现有技术中的至少一种损失函数加以实现，本公开对所采用的损失函数的类别和具体构成不作任何限定。

在另一可选实施例中，还可以通过特征编码网络对第一遮盖切片进行特征编码，得到第一遮盖视觉特征；通过遮盖关联特征和第一遮盖视觉特征，调整特征编码网络的网络参数。

其中，对第一遮盖切片进行特征编码所采用的特征编码网络，与对第一可见切片进行特征编码所采用的特征编码网络，共享网络参数，从而保证了第一遮盖切片对应第一遮盖视觉特征，与第一可见切片对应第一可见视觉特征的空间一致性，进而保证了基于第一可见视觉特征所提取的第一遮盖切片相关的遮盖关联特征与第一遮盖视觉特征之间的空间一致性。

示例性的，可以根据遮盖关联特征和第一遮盖视觉特征之间的差异情况，调整特征编码网络的网络参数。其中，遮盖关联特征和第一遮盖视觉特征之间的差异情况，可以采用现有技术中的至少一种损失函数加以实现，本公开对所采用的损失函数的类别和具体构成不作任何限定。

可以理解的是，特征编码网络所提取的第一可见视觉特征在特征编码网络之后将不会发生改变。但是，由于引入的回归网络位于特特征编码网络之后，可能存在回归网络偷偷学习到第一遮盖切片的部分表征，也即遮盖关联特征较第一可见视觉特征，具备更好的表征能力，将会无法实现回归网络和特征编码网络的表征隔离。因此，在一个可选实施例中，通过引入第一遮盖切片对应的第一遮盖视觉特征，将遮盖关联特征约束到相同的编码空间，实现了两者对应编码空间的对齐，使得表征学习的任务仅落到特征编码网络身上，提高了特征编码网络的视觉特征提取能力。

在又一可选实施例中，可以通过图像重建网络对遮盖关联特征进行图像重建，得到重建样本切片；通过特征编码网络对第一遮盖切片进行特征编码，得到第一遮盖视觉特征；确定重建样本切片和第一遮盖切片之间的像素级损失，以及确定遮盖关联特征和第一遮盖视觉特征之间的特征级损失；根据像素级损失和特征级损失，调整特征编码网络的网络参数。

其中，像素级损失用于表征在像素维度上，重建样本切片与第一遮盖切片之间的差异情况；特征级损失用于表征在特征维度上，遮盖关联特征与第一遮盖视觉特征之间的差异情况。需要说明的是，本公开中像素级损失和特征级损失对应损失函数可以相同或不同，本公开对两者所采用的损失函数的类别和具体构成，不作任何限定。

以下将结合图2B所示的自监督预训练框架图，对本可选实施例的特征编码网络的调参过程进行详细说明。

其中，第一样本图片为携带有“summer”文字信息的图片。具体的，可以将该第一样本图片集且分为10个第一样本切片；将其中4个第一样本切片作为第一遮盖切片，其余6个样本切片作为第一可见切片；通过特征编码网络对第一可见切片进行特征编码，得到第一可见视觉特征，以及通过特征编码网络对第一遮盖切片进行特征编码，得到第一遮盖视觉特征；根据第一遮盖视觉特征的特征维度，引入遮盖查询特征；将遮盖查询特征和第一可见视觉特征输入至回归网络，以提取第一可见视觉特征中与第一遮盖切片相关的上下文信息作为遮盖关联特征；通过图像重建网络对遮盖关联特征进行图像重建，得到重建样本切片；根据重建样本切片和第一遮盖切片，确定像素级损失；根据遮盖关联特征和第一遮盖视觉特征，确定特征级损失；根据像素级损失和特征级损失，对特征编码网络、回归网络和图像重建网络的网络参数进行调整。

为了保证对第一可见切片和第一遮盖切片进行特征编码的特征编码网络的参数一致性，同时提高网络参数调整过程的便捷性，可以仅对第一可见切片对应的特征编码网络进行梯度回传，实现对该特征编码网络的网络参数的调整，不再对第一遮盖切片对应特征编码网络进行梯度回传，而是第一遮盖切片对应特征编码网络，共享第一可见切片对应特征编码网络的调参结果即可。

本公开实施例通过将第一样本图片且分为第一可见切片和第一这边切片，根据第一可见切片和第一遮盖切片对特征编码网络进行自监督预训练，无需对第一样本图片进行标注，从而降低了自监督预训练的时间成本和人力成本，提高了对特征编码网络进行预训练的便捷性。同时，通过第一样本图片中的各第一样本切片进行自监督预训练，使得特征编码网络能够学习到第一样本图片中丰富的视觉信息，进而提高了特征编码网络的视觉特征提取能力。

在上述各技术方案的基础上，本公开还提供了一个可选实施例。在该可选实施例中，对特征解码网络的有监督训练过程进行了优化改进，以提高所训练特征解码网络的语义特征提取能力。需要说明的是，在本公开实施例中未详述部分，可参见其他实施例的相关表述，在此不再赘述。

参见图3A所示的一种对特征解码网络的有监督预训练方法，包括：

S301、将第二样本图片切分为至少一个第二样本切片。

示例性的，可以按照预设切分方式，将第二样本图片切分为预设数量的第二样本切片。其中，预设切分方式可以由技术人员人为设定，或按照第二样本图片中文字排版情况进行确定。举例说明，若第二样本图片中的文字为横排排版格式，则按照从左到右的顺序，将第二样本图片进行切片处理；若第二样本图片中的文字为竖排排版格式，则按照从上到下的顺序，将第二样本图片进行切片处理。其中，预设数量可以由技术人员根据需要或经验进行设定，或通过大量试验进行调整。需要说明的是，此处的预设数量，与第一样本切片对应预设数量，数值可以相同或不同。为了保证特征提取网络的输入通道一致性，通常第二样本切片对应预设数量，与第一样本切片对应预设数量，两者数值相同。

为了保证不同第二样本切片的切片大小一致，可以按照第二样本图片的图片维度，确定各第二样本切片的切片维度；将第二样本切片均匀切分为预设数量的第二初始样本切片；将第二初始样本切片进行特征填充，得到满足切片维度的第二样本切片。举例说明，若第二样本图片为C*H*W维，预设数量为M个，则可以将第二样本图片切分为M个C*H*W//M（//为向下取整）的第二样本切片。

其中，第二样本切片中可以包括至少一个第二遮盖切片和第二可见切片。其中，第二遮盖切片用于后续进行图片遮盖（mask）处理；第二可见切片不再进行图片遮盖处理。

其中，第二遮盖切片和第二可见切片的划分方式，可以随机划分，或者由技术人员根据需要或经验进行划分等，本公开对第二遮盖切片和第二可见切片的具体划分方式，不作任何限定。

可选的，可以按照预设掩码比，确定第二样本切片中的第二遮盖切片。也即，按照预设掩码比，将第二样本切片划分为可见部分和不可见部分；其中，可见部分对应的第二样本切片即为第二可见切片；不可见部分对应的第二样本切片即为第二遮盖切片。其中，预设掩码比可以由技术人员根据需要或经验值进行设定，或通过大量试验反复确定。

由于第二样本切片中，存在不携带文字内容信息的切片，而第二遮盖切片存在的直接目的在于，后续进行该第二遮盖切片部分字符信息的预测，从而尽可能过多的学习到切片中的语义信息。因此，将不携带文字内容信息的第二样本切片作为第二遮盖切片，将会带来计算资源的浪费，影响语义信息学习能力。

为了避免上述情况的发生，可选的，还可以按照预设字符占比，确定待遮盖字符；将待遮盖字符对应的第二样本切片作为第二遮盖切片。这样做的好处在于，避免了出现将未携带文字内容信息的第二样本切片作为第二遮盖切片，带来的计算资源的浪费和训练周期的增加。

S302、将第二样本切片中的第二遮盖切片替换为学习标识，以更新第二样本切片。

其中，学习标识（token）为预先设定的待学习特征，作为第二样本切片中的未知特征，进行后续的特征预测。

相应的，将第二样本切片中的第二遮盖切片替换为学习标识，实现对第二遮盖切片的遮盖处理，从而将第二样本切片划分为可见部分（未处理的第二可见切片）和不可见部分（学习标识遮盖的遮盖样本切片），实现对第二样本切片的图片内容更新。

其中，可见部分对应的第二可见切片，为学习标识部分的图片预测提供上下文信息；第二遮盖切片对应的学习标识，用于表示基于上下文信息的预测位子；第二遮盖切片中的图片内容，用于作为学习标识学习过程对应的自监督信息。

S303、根据更新后的第二样本切片、预训练好的特征编码网络以及第二遮盖切片对应的样本文字标签，对特征解码网络进行有监督预训练。

示例性地，通过级联的预训练好的特征编码网络和待训练的特征解码网络，依次对更新后的第二样本切片进行处理，得到第二遮盖切片对应的文字预测结果；将第二遮盖切片的文字预测结果和相应样本文字标签，调整特征解码网络的网络参数，使得特征解码网络逐步具备语义信息提取能力。

在一个可选实施例中，可以通过预训练好的特征编码网络，对更新后的第二样本切片进行特征编码，得到第二样本视觉特征；通过特征解码网络，对第二样本视觉特征进行特征解码，得到第二样本语义特征；通过预分类网络对第二样本语义特征进行字符分类，得到第二遮盖切片的文字预测结果；根据第二遮盖切片的文字预测结果和相应样本文字标签，调整特征解码网络的网络参数。

其中，预分类网络可以采用现有技术中的任意一种机器学习模型或深度学习模型加以实现，本公开对预分类网络的具体网络结构不作任何限定。在一个具体实现方式中，预分类网络可以采用线性变换解码器加以实现，例如可以是一个线性全连接层。

其中，第二遮盖切片对应的样本文字标签，可以在对第二样本图片进行标注时，进行不同文字对应标注位置的确定，以便进行后续第二遮盖切片的确定，以及第二遮盖切片对应样本文字标签的确定。

具体的，可以对更新后的第二样本切片进行线性映射，从而将图片信息转化为特征向量或特征矩阵；将映射结果输入至特征编码网络，得到第二样本切片的第二样本视觉特征；将第二样本视觉特征输入至待训练的特征解码网络，提取第二样本视觉特征中携带的各第二样本切片的语义信息，得到第二样本语义特征；其中，第二样本语义特征包括各个第二样本切片自身携带的语义信息，以及与邻近第二样本切片相关的上下文语义信息。将第二样本语义特征输入至预分类网络，得到第二遮盖样本对应的文字预测结果；根据第二遮盖样本的文字预测结果和相应的样本文字标签之间的差异情况，对特征解码网络和预分类网络的网络参数进行调整，使得特征解码我拿过来能够学习到对语义信息的提取能力。其中，对更新后的第二样本切片进行线性映射所采用的编码层，与对前述第一样本切片进行线性映射所采用的编码层，两者可以相同或不同，本公开对此不作任何限定。为了保证特征编码网络的输入通道一致性，可以将两者采用的编码层设置为相同。

其中，第二遮盖切片的文字预测结果，与相应样本文字标签之间的差异情概况，可以采用现有技术中的至少一种损失函数加以实现，本公开对所采用的损失函数的类别和具体构成，不作任何限定。在一个具体实现方式中，为了应对文字预测结果与样本文字标签的字符串长度可能无法对其的问题，可以采用CTC（Connectionist TemporalClassification，连接时序类分类）损失，确定第二遮盖切片与相应样本文字标签之间的差异情况。

可以理解的是，为了避免对特征解码网络进行预训练时，丢失预训练好的特征编码网络的部分特征学习能力，同时避免第二样本图片与第一样本图片的差异性，对预训练好的特征编码网络带来影响，在进行特征解码网络的预训练过程中，不再梯度回传至特征编码网络，也即不再调整特征编码网络的网络参数。

本公开实施例通过引入预分类网络和预训练好的特征编码网络，辅助进行特征解码网络的有监督预训练，从而使得特征解码网络能够学习到第二遮盖切片对应的上下文语义信息，逐渐具备丰富且全面的语义信息提取能力，从而提高了特征解码网络的语义特征提取结果的丰富性和准确性。

以下将结合图3B所示的有监督预训练框架图，对本可选实施例的特征解码网络的调参过程进行详细说明。

其中，第二样本切片为携带有“summer”文字信息的图片。可以将该第二样本切片切分为10个第二样本切片；若预设字符占比为1/3，则确定待遮盖字符数量为6×1/3=2个；随机选取待遮盖字符为“u”和第二个“m”，则将待遮盖字符对应的3个第二样本切片作为第二遮盖切片，进行遮盖处理（对应图中空白切片），并将剩余7个第二样本切片作为第二可见切片（对应图中非空白切片），得到更新后的第二样本切片；将更新后的第二样本切片的线性映射结果，输入预训练好的特征编码网络，得到第二样本视觉特征；将第二样本视觉特征输入至待训练的特征解码网络，得到第二样本语义特征；将第二样本语义特征输入至预分类网络，得到第二遮盖切片对应的文字预测结果（um_）；根据第二遮盖切片的文字预测结果和相应样本文字标签之间的有监督损失的损失值，调整特征解码网络和预分类网络的网络参数。其中，有监督损失函数，可以由技术人员根据需要或经验进行设置，或通过大量试验调整确定。

本公开实施例通过将第二样本图片且分为多个第二样本切片，并引入遮盖策略，将第二样本切片中的第二遮盖切片替换为学习标识，实现对第二样本切片的更新，从而基于更新后的第二样本切片，结合预训练好的特征编码网络以及第二遮盖切片对应样本文字标签，对特征解码网络进行有监督训练，增强了对第二样本图片中不同第二可见切片的自身语义信息以及上下文语义信息的提取能力，从而提高了特征解码网络学习到的语义信息的全面性和准确性，进而有助于缩短对特征解码网络的预训练周期。

在上述各技术方案的基础上，本公开还提供了一个可选实施例。在该可选实施例中，对包括预训练好的特征编码网络和特征解码网络的文字识别模型的微调过程，进行了优化改进，以提高所训练的特征编码网络和特征解码网络的特征提取能力。需要说明的是，在本公开实施例中未详述部分，可参见其他实施例的相关表述，在此不再赘述。

参见图4A所示的一种对文字识别模型的微调方法，包括：

S401、通过预训练好的特征编码网络，对任务样本图片进行特征编码，得到任务样本视觉特征。

S402、通过预训练好的特征解码网络，对任务样本视觉特征进行特征解码，得到任务样本语义特征。

S403、通过目标分类网络对任务样本语义特征进行字符分类，得到任务样本图片的文字预测结果。

S404、根据任务样本图片的文字预测结果和相应样本文字标签，对文字识别模型的网络参数进行微调，得到训练好的文字识别模型。

其中，目标分类网络可以采用现有技术中的任意一种机器学习模型或深度学习模加以实现，本公开对目标分类网络的具体网络结构不作任何限定。在一个具体实现方式中，目标分类网络可以采用线性变化解码器甲乙实现。

可选的，目标分类网络可以复用有监督预训练过程所训练好的预分类网络，从而缩短微调（fine tune）周期，提高文字识别模型的微调效率。或者可选的，目标分类网络可以采用初始化的分类网络，在微淘过程中重新训练，从而使得所训练的目标分类网络，与任务样本图片对应文字识别任务的适配性更好。

在一个可选实施例中，可以将任务样本图片且分为至少一个任务样本切片；将各任务样本切片线性映射为特征向量或特征矩阵，并将映射结果输入至预训练好的特征编码网络，得到任务样本视觉特征；将任务样本视觉特征输入至预训练好的特征解码网络，得到任务样本语义特征；将任务样本语义特征输入至目标分类网络，对任务样本语义特征进行字符分类，得到任务样本图片的文字预测结果；根据任务样本图片的文字预测结果，与相应样本文字标签之间的差异情况，对文字识别模型中的特征编码编码网络、特征解码网络和目标分类网络的网络参数进行微调，从而得到训练好的文字识别模型，用于进行文字识别。其中，对各任务样本切片进行线性变换所采用的编码层，可以与前述对第一样本切片或第二样本切片进行线性变换所采用的编码层，三者可以相同或至少部分不同。为了保证特征编码网络的输入通道一致性，通常三者采用的编码层相同。相应的，在微调过程中，还可以复用前述预训练过程的编码层，以缩短微调周期。

示例性地，可以按照预设切分方式，将任务样本图片且分为预设数量的任务样本切片。其中，预设切分方式可以由技术人员人为设定，或按照任务样本图片中文字排版情况进行确定。举例说明，若任务样本图片中的文字为横排排版格式，则按照从左到右的顺序，将任务样本图片进行切片处理；若任务样本图片中的文字为竖排排版格式，则按照从上到下的顺序，将任务样本图片进行切片处理。其中，预设数量可以由技术人员根据需要或经验进行设定，或通过大量试验进行调整。需要说明的是，此处的预设数量，与前述第一样本切片和第二样本切片对应预设数量，数值可以相同或不同。为了保证特征编码网络的输入通道一致性，通常三者对应预设数量，两者数值相同。

为了保证不同任务样本切片的切片大小一致，可以按照任务样本图片的图片维度，确定各任务样本切片的切片维度；将任务样本切片均匀切分为预设数量的任务初始样本切片；将任务初始样本切片进行特征填充，得到满足切片维度的任务样本切片。举例说明，若任务样本图片为C*H*W维，预设数量为M个，则可以将任务样本图片切分为M个C*H*W//M（//为向下取整）的任务样本切片。

其中，任务样本图片的文字预测结果，与相应样本文字标签之间的差异情况，可以采用现有技术中的至少一种损失函数加以实现，本公开对所采用的损失函数的类别和具体构成不作任何限定。在一个具体实现中，为了应对文字预测结果与样本文字标签的字符串长度可能无法对齐的问题，可以采用CTC（Connectionist Temporal Classification，连接时序类分类）损失，确定任务样本图片的文字预测结果与相应样本文字标签之间的差异情况。

以下将结合图4B所示的文字识别模型框架图，对本可选实施例的文字识别模型的参数微调过程进行详细说明。

其中，任务样本图片为携带有“summer”文字信息的图片。可以将该任务样本图片切分成10个任务样本切片；将任务样本切片经线性映射后得到各切片的特征向量或特征矩阵；将映射结果输入至特征编码网络，得到任务样本视觉特征；将任务样本视觉特征输入至特征解码网络，得到任务样本语义特征；将任务样本语义特征输入至目标分类网络，得到任务样本图片的文字预测结果“summer_”；通过任务样本图片的文字预测结果与相应样本文字标签“summer”之间的微调损失函数的损失值，反向调整特征编码网络、特征解码网络和目标分类网络的网络参数，其中，微调损失函数，可以由技术人员根据需要或经验进行设定，或通过大量试验调整确定。

本公开实施例通过复用预训练好的特征编码网络和特征解码网络，结合目标分类网络构建文字识别模型，使得文字识别模型中的特征编码网络具备视觉表征能力，以及使得文字识别模型中的特征解码网络具备语义表征能力，避免了仅考虑单一维度特征导致关键信息的丢失，影响文字识别模型的识别结果准确度。同时，本公开所采用的文字识别模型，仅通过特征编码网络、特征解码网络和目标分类网络构建得到，模型结构复杂度较低，减少了文字识别模型训练和后续使用过程的数据运算量。另外，上述技术方案采用与文字识别任务相关的任务样本图片，对文字识别模型的网络参数进行微调，提高了所训练文字识别模型与文字识别任务的适配性，进而提高了设定任务场景下的文字识别模型的准确度。

以上对文字识别模型的训练过程进行了详细说明，以下将基于文字识别模型，对文字识别过程进行详述。

本公开实施例所提供的文字识别方法和文字识别装置，适用于采用文字识别模型进行文字识别的应用场景，该文字识别方法可以由文字识别装置执行，该装置采用软件和/或硬件实现，并具体配置于电子设备中。

需要说明的是，实现文字识别模型训练方法的电子设备，与实现文字识别方法的电子设备，两者可以相同或不同，本公开对此不作任何限定。

参见图5所示的一种文字识别方法，包括：

S501、获取包括文字信息的待预测图片。

S502、将待预测图片输入至训练好的文字识别模型，得到待预测图片的文字识别结果。

其中，文字识别模型采用本公开实施例所提供的任意一种文字识别模型训练方法训练得到。

示例性地，可以将包括文字信息的待预测图片，切分为至少一个待预测切片；将各待预测切片线性映射为特征向量或特征矩阵；将映射结果输入至训练好的文字识别模型中，以通过文字识别模型中的特征编码网络，提取各待预测切片中的预测视觉特征，通过文字识别模型中的特征解码网络，提取预测视觉特征中的预测语义特征，通过目标分类网络根据预测语义特征进行文字分类，得到待预测图片的文字识别结果。

可选的，可以按照预设切分方式，将待预测图片切分为预设数量的任务样本切片。其中，预设切分方式和预设数量，分别与对文字识别模型进行微调时所采用的预设切分方式和预设数量相同。

本公开实施例通过采用前述实施例训练好的文字识别模型对包括文字信息的待预测图片进行文字识别，由于文字识别模型中的特征编码网络具备视觉特征提取能力，特征解码网络具备语义特征提取能力，从而提高了所提取特征的丰富性和全面性，进而提高了对待预测图片的文字识别结果的准确度。进一步地，采用文字识别任务对应任务样本图片对文字识别模型进行了微调，从而进一步提高了对待预测图片的文字识别结果的准确度。进一步的，文字识别模型仅采用特征编码网络、特征解码网络和目标分类网络构建得到，模型复杂度较低，从而减少了对待预测图片进行文字识别的运算量，提高了文字识别效率。

作为上述各文字识别模型训练方法的实现，本公开还提供了一种实施上述各文字识别模型训练方法的执行装置的可选实施例。

参见图6所示的文字识别模型训练装置600，包括：样本图片获取模块601、自监督预训练模块602、有监督预训练模块603和文字识别模型生成模块604。其中，

样本图片获取模块601，用于获取分别包括文字信息的第一样本图片和第二样本图片，以及所述第二样本图片对应的样本文字标签；

自监督预训练模块602，用于根据所述第一样本图片对特征编码网络进行自监督预训练；

有监督预训练模块603，用于根据预训练好的特征编码网络、所述第二样本图片和相应样本文字标签，对特征解码网络进行有监督预训练；

文字识别模型生成模块604，用于根据预训练好的特征编码网络和特征解码网络，生成文字识别模型，用于对待预测图像进行文字识别。

在一个可选实施例中，所述自监督预训练模块602，包括：

第一样本切分单元，用于将所述第一样本图片切分为至少一个第一样本切片；其中，所述第一样本切片包括第一可见切片和第一遮盖切片；

自监督预训练单元，用于根据所述第一可见切片和所述第一遮盖切片，对所述特征编码网络进行自监督预训练。

在一个可选实施例中，所述自监督预训练单元，包括：

可见特征编码子单元，用于通过所述特征编码网络对所述第一可见切片进行特征编码，得到第一可见视觉特征；

遮盖特征提取子单元，用于通过回归网络提取所述第一可见视觉特征中，与所述第一遮盖切片相关的遮盖关联特征；

自监督预训练子单元，用于根据所述遮盖关联特征和所述第一遮盖切片，对所述特征编码网络进行自监督预训练。

在一个可选实施例中，所述自监督预训练子单元，包括：

图像重建从单元，用于通过图像重建网络对所述遮盖关联特征进行图像重建，得到重建样本切片；

第一编码调参从单元，用于根据所述重建样本切片和所述第一遮盖切片，调整所述特征编码网络的网络参数。

在一个可选实施例中，所述自监督预训练子单元，包括：

遮盖特征编码从单元，用于通过所述特征编码网络对所述第一遮盖切片进行特征编码，得到第一遮盖视觉特征；

第二编码调参从单元，用于根据所述遮盖关联特征和所述第一遮盖视觉特征，调整所述特征编码网络的网络参数。

在一个可选实施例中，所述自监督预训练模块602，还包括：

第一样本划分单元，用于按照预设掩码比，将所述第一样本切片划分为所述第一可见切片和所述第一遮盖切片。

在一个可选实施例中，所述有监督预训练模块603，包括：

第二样本切分单元，用于将所述第二样本图片切分为至少一个第二样本切片；

遮盖替换单元，用于将所述第二样本切片中的第二遮盖切片替换为学习标识，以更新所述第二样本切片；

有监督预训练单元，用于根据更新后的第二样本切片、预训练好的特征编码网络以及第二遮盖切片对应的样本文字标签，对所述特征解码网络进行有监督预训练。

在一个可选实施例中，所述有监督预训练单元，包括：

特征编码子单元，用于通过预训练好的特征编码网络，对更新后的第二样本切片进行特征编码，得到第二样本视觉特征；

特征解码子单元，用于通过所述特征解码网络，对所述第二样本视觉特征进行特征解码，得到第二样本语义特征；

遮盖文字预测子单元，用于通过预分类网络对所述第二样本语义特征进行字符分类，得到所述第二遮盖切片的文字预测结果；

解码调参子单元，用于根据所述第二遮盖切片的文字预测结果和相应样本文字标签，调整所述特征解码网络的网络参数。

在一个可选实施例中，所述有监督预训练模块603，还包括：

遮盖字符确定单元，用于按照预设字符占比，确定待遮盖字符；

第二样本划分单元，用于将所述待遮盖字符对应的第二样本切片作为所述第二遮盖切片。

在一个可选实施例中，所述文字识别模型生成模块604，包括：

任务样本获取单元，用于获取任务样本图片和所述任务样本图片对应的样本文字标签；

参数微调单元，用于根据所述任务样本图片和相应样本文字标签，对文字识别模型的网络参数进行微调，得到训练好的文字识别模型；

其中，所述文字识别模型中包括预训练好的特征编码网络和特征解码网络。

在一个可选实施例中，所述文字识别模型中还包括目标分类网络；所述参数微调单元，包括：

任务特征编码子单元，用于通过预训练好的特征编码网络，对所述任务样本图片进行特征编码，得到任务样本视觉特征；

任务特征解码子单元，用于通过预训练好的特征解码网络，对所述任务样本视觉特征进行特征解码，得到任务样本语义特征；

任务文字预测子单元，用于通过所述目标分类网络对所述任务样本语义特征进行字符分类，得到所述任务样本图片的文字预测结果；

参数微调子单元，用于根据所述任务样本图片的文字预测结果和相应样本文字标签，对所述文字识别模型的网络参数进行微调，得到训练好的文字识别模型。

在一个可选实施例中，所述第二样本图片基于相应样本文字标签按照预设文字风格合成得到。

上述文字识别模型训练装置可执行本公开任意实施例所提供的文字识别模型训练方法，具备在执行各文字识别模型训练方法相应的功能模型和有益效果。

作为上述各文字识别方法的实现，本公开还提供了一种实施上述各文字识别方法的执行装置的可选实施例。

参见图7所示的文字识别装置700，包括：待预测图片获取模块701和文字识别模块702。其中，

待预测图片获取模块701，用于获取包括文字信息的待预测图片；

文字识别模块702，用于将所述待预测图片输入至训练好的文字识别模型，得到所述待预测图片的文字识别结果；

其中，所述文字识别模型采用本公开实施例提供的任意一种文字识别模型训练装置训练得到。

本公开的技术方案中，所涉及的第一样本图片、第二样本图片、任务样本图片、第二样本图片的样本文字标签以及任务样本图片的样本文字标签的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器（ROM）802中的计算机程序或者从存储单元808加载到随机访问存储器（RAM）803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出（I/O）接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如文字识别模型训练方法和文字识别方法中的至少一种。例如，在一些实施例中，文字识别模型训练方法和文字识别方法中的至少一种可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM803并由计算单元801执行时，可以执行上文描述的文字识别模型训练方法和文字识别方法中的至少一种的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行文字识别模型训练方法和文字识别方法中的至少一种。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算（cloud computing），指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文字识别模型训练方法，包括：

获取分别包括文字信息的第一样本图片和第二样本图片，以及所述第二样本图片对应的样本文字标签；

将所述第一样本图片切分为至少一个第一样本切片；其中，所述第一样本切片包括第一可见切片和第一遮盖切片；

根据所述第一可见切片和所述第一遮盖切片，对特征编码网络进行自监督预训练；

将所述第二样本图片切分为至少一个第二样本切片；

将所述第二样本切片中的第二遮盖切片替换为学习标识，以更新所述第二样本切片；

根据更新后的第二样本切片、预训练好的特征编码网络以及第二遮盖切片对应的样本文字标签，对特征解码网络进行有监督预训练；

2.根据权利要求1所述的方法，其中，所述根据所述第一可见切片和所述第一遮盖切片，对所述特征编码网络进行自监督预训练，包括：

通过所述特征编码网络对所述第一可见切片进行特征编码，得到第一可见视觉特征；

通过回归网络提取所述第一可见视觉特征中，与所述第一遮盖切片相关的遮盖关联特征；

根据所述遮盖关联特征和所述第一遮盖切片，对所述特征编码网络进行自监督预训练。

3.根据权利要求2所述的方法，其中，所述根据所述遮盖关联特征和所述第一遮盖切片，对所述特征编码网络进行自监督预训练，包括：

通过图像重建网络对所述遮盖关联特征进行图像重建，得到重建样本切片；

根据所述重建样本切片和所述第一遮盖切片，调整所述特征编码网络的网络参数。

4.根据权利要求2或3所述的方法，其中，所述根据所述遮盖关联特征和所述第一遮盖切片，对所述特征编码网络进行自监督预训练，包括：

通过所述特征编码网络对所述第一遮盖切片进行特征编码，得到第一遮盖视觉特征；

根据所述遮盖关联特征和所述第一遮盖视觉特征，调整所述特征编码网络的网络参数。

5.根据权利要求1所述的方法，其中，所述方法还包括：

按照预设掩码比，将所述第一样本切片划分为所述第一可见切片和所述第一遮盖切片。

6.根据权利要求1所述的方法，其中，所述根据更新后的第二样本切片、预训练好的特征编码网络以及第二遮盖切片对应的样本文字标签，对所述特征解码网络进行有监督预训练，包括：

通过预训练好的特征编码网络，对更新后的第二样本切片进行特征编码，得到第二样本视觉特征；

通过所述特征解码网络，对所述第二样本视觉特征进行特征解码，得到第二样本语义特征；

通过预分类网络对所述第二样本语义特征进行字符分类，得到所述第二遮盖切片的文字预测结果；

根据所述第二遮盖切片的文字预测结果和相应样本文字标签，调整所述特征解码网络的网络参数。

7.根据权利要求1所述的方法，其中，所述方法还包括：

按照预设字符占比，确定待遮盖字符；

将所述待遮盖字符对应的第二样本切片作为所述第二遮盖切片。

8.根据权利要求1-3和5中的任一项所述的方法，其中，所述根据预训练好的特征编码网络和特征解码网络，生成文字识别模型，包括：

获取任务样本图片和所述任务样本图片对应的样本文字标签；

根据所述任务样本图片和相应样本文字标签，对文字识别模型的网络参数进行微调，得到训练好的文字识别模型；

9.根据权利要求8所述的方法，其中，所述文字识别模型中还包括目标分类网络；所述根据所述任务样本图片和相应样本文字标签，对文字识别模型的网络参数进行微调，得到训练好的文字识别模型，包括：

通过预训练好的特征编码网络，对所述任务样本图片进行特征编码，得到任务样本视觉特征；

通过预训练好的特征解码网络，对所述任务样本视觉特征进行特征解码，得到任务样本语义特征；

通过所述目标分类网络对所述任务样本语义特征进行字符分类，得到所述任务样本图片的文字预测结果；

根据所述任务样本图片的文字预测结果和相应样本文字标签，对所述文字识别模型的网络参数进行微调，得到训练好的文字识别模型。

10.根据权利要求1-3和5中的任一项所述的方法，其中，所述第二样本图片基于相应样本文字标签按照预设文字风格合成得到。

11.一种文字识别方法，包括：

获取包括文字信息的待预测图片；

将所述待预测图片输入至训练好的文字识别模型，得到所述待预测图片的文字识别结果；

其中，所述文字识别模型采用权利要求1-10任一项所述的方法训练得到。

12.一种文字识别模型训练装置，包括：

样本图片获取模块，用于获取分别包括文字信息的第一样本图片和第二样本图片，以及所述第二样本图片对应的样本文字标签；

自监督预训练模块，用于根据所述第一样本图片对特征编码网络进行自监督预训练；

有监督预训练模块，用于根据预训练好的特征编码网络、所述第二样本图片和相应样本文字标签，对特征解码网络进行有监督预训练；

文字识别模型生成模块，用于根据预训练好的特征编码网络和特征解码网络，生成文字识别模型，用于对待预测图像进行文字识别；

其中，所述自监督预训练模块，包括：

自监督预训练单元，用于根据所述第一可见切片和所述第一遮盖切片，对所述特征编码网络进行自监督预训练；

其中，所述有监督预训练模块，包括：

13.根据权利要求12所述的装置，其中，所述自监督预训练单元，包括：

14.根据权利要求13所述的装置，其中，所述自监督预训练子单元，包括：

15.根据权利要求13或14所述的装置，其中，所述自监督预训练子单元，包括：

16.根据权利要求12所述的装置，其中，所述自监督预训练模块，还包括：

17.根据权利要求12所述的装置，其中，所述有监督预训练单元，包括：

18.根据权利要求12所述的装置，其中，所述有监督预训练模块，还包括：

19.根据权利要求12-14和16中的任一项所述的装置，其中，所述文字识别模型生成模块，包括：

20.根据权利要求19所述的装置，其中，所述文字识别模型中还包括目标分类网络；所述参数微调单元，包括：

21.根据权利要求12-14和16中的任一项所述的装置，其中，所述第二样本图片基于相应样本文字标签按照预设文字风格合成得到。

22.一种文字识别装置，包括：

待预测图片获取模块，用于获取包括文字信息的待预测图片；

文字识别模块，用于将所述待预测图片输入至训练好的文字识别模型，得到所述待预测图片的文字识别结果；

其中，所述文字识别模型采用权利要求12-21任一项所述的装置训练得到。

23. 一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的文字识别模型训练方法；和/或，执行权利要求11所述的文字识别方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-10中任一项所述的文字识别模型训练方法；和/或，执行权利要求11所述的文字识别方法。