CN115565177B

CN115565177B - 文字识别模型训练、文字识别方法、装置、设备及介质

Info

Publication number: CN115565177B
Application number: CN202210983230.9A
Authority: CN
Inventors: 吕鹏原; 章成全; 刘珊珊; 乔美娜; 徐杨柳; 吴亮; 王晓燕; 姚锟; 韩钧宇; 丁二锐; 王井东; 吴甜; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2023-06-20
Anticipated expiration: 2042-08-16
Also published as: US20230215203A1; CN115565177A; JP2023062150A

Abstract

本公开提供了一种文字识别模型训练、文字识别方法、装置、设备及介质，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于文字检测识别技术等场景。具体实现方案为：将无标签的训练样本分割为至少两个子样本图像；将至少两个子样本图像划分至第一训练集合和第二训练集合；所述第一训练集合包括具有可见属性的第一子样本图像，所述第二训练集合包括具有不可见属性的第二子样本图像；以所述第二训练集合作为所述第一训练集合的标签，对待训练编码器执行自监督训练，得到目标编码器。

Description

文字识别模型训练、文字识别方法、装置、设备及介质

技术领域

本公开涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于文字检测识别技术等场景，尤其涉及一种文字识别模型训练、文字识别方法、装置、设备及介质。

背景技术

目前，自然场景下的OCR（optical character recognition，光学文字识别）技术具备广泛的应用基础。文字检测识别技术一般需要对文字识别模型进行训练，然后利用训练获得的文字识别模型对输入的图像进行文字识别。

但是，文字识别模型一般采用有监督训练的方式，有监督的训练方式仅能学习到少量有标签图像的特征，获得的识别模型对图像的文字识别准确率的提升不高。

发明内容

本公开提供了一种文字识别模型训练、文字识别方法、装置、设备及介质。

根据本公开的第一方面，提供了一种文字识别模型训练方法，包括：

将无标签的训练样本分割为至少两个子样本图像；

将至少两个子样本图像划分至第一训练集合和第二训练集合；所述第一训练集合包括具有可见属性的第一子样本图像，所述第二训练集合包括具有不可见属性的第二子样本图像；

以所述第二训练集合作为所述第一训练集合的标签，对待训练编码器执行自监督训练，得到目标编码器。

根据本公开的第二方面，提供了一种文字识别模型训练方法，包括：

将合成样本分割为至少两个子合成图像；所述合成样本包括合成文本标签；

将至少两个所述子合成图像划分为第一合成集合和第二合成集合；所述第一合成集合包括具有可见属性的第一子合成图像，所述第二合成集合包括具有不可见属性的第二子合成图像；

基于所述第一合成集合和所述第二合成集合，对待训练解码器执行有监督训练，获得所述待训练解码器对应的目标解码器。

根据本公开的第三方面，提供了一种文字识别方法，包括：

确定目标编码器和目标解码器；所述目标编码器基于第一方面以及第一方面各种可能的文字识别模型训练方法训练获得，所述目标解码器基于第二方面以及第二方面各种可能的方法文字识别模型训练方法训练获得；

将待识别图像分割为至少两个子图像；

基于所述目标编码器提取所述子图像的图像特征，获得至少两个所述子图像分别对应的图像特征；

基于所述目标解码器和至少两个查询向量，对至少两个所述子图像分别对应的图像特征进行解码计算，获得至少两个所述子图像对应的解码特征序列；

根据所述解码特征序列，得到所述待识别图像的目标文本。

根据本公开的第四方面，提供了一种文字识别模型训练装置，包括：

第一分割单元，用于将无标签的训练样本分割为至少两个子样本图像；

第一划分单元，用于将至少两个子样本图像划分至第一训练集合和第二训练集合；所述第一训练集合包括具有可见属性的第一子样本图像，所述第二训练集合包括具有不可见属性的第二子样本图像；

第一训练单元，用于以所述第二训练集合作为所述第一训练集合的标签，对待训练编码器执行自监督训练，得到目标编码器。

根据本公开的第五方面，提供了一种文字识别模型训练装置，包括：

第二分割单元，用于将合成样本分割为至少两个子合成图像；所述合成样本包括合成文本标签；

第二划分单元，用于将至少两个所述子合成图像划分为第一合成集合和第二合成集合；所述第一合成集合包括具有可见属性的第一子合成图像，所述第二合成集合包括具有不可见属性的第二子合成图像；

第二训练单元，用于基于所述第一合成集合和所述第二合成集合，对待训练解码器执行有监督训练，获得所述待训练解码器对应的目标解码器。

根据本公开的第六方面，提供了一种文字识别装置，包括：

目标确定单元，用于确定目标编码器和目标解码器；所述目标编码器基于第一方面以及第一方面各种可能的文字识别模型训练方法训练获得，所述目标解码器基于第二方面以及第二方面各种可能的文字识别模型训练方法训练获得；

第三分割单元，用于针对待识别图像，将所述待识别图像分割为至少两个子图像；

编码计算单元，用于基于所述目标编码器提取所述子图像的图像特征，获得至少两个所述子图像分别对应的图像特征；

解码计算单元，用于基于所述目标解码器和至少两个查询向量，对至少两个所述子图像分别对应的图像特征进行解码计算，获得至少两个所述子图像对应的解码特征序列；

文本识别单元，用于根据所述解码特征序列，得到所述待识别图像的目标文本信息。

根据本公开的第七方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面、第二方面或者第三方面以及各方面各种可能的方法。

根据本公开的第八方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面、第二方面或者第三方面以及各方面各种可能的方法。

根据本公开的第九方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面、第二方面或者第三方面以及各方面各种可能所述的方法。

根据本公开的技术解决了采用有监督训练方法仅能学习到少量的有标签图像的特征，获得的识别模型对图像的文字识别准确度不高的问题，采用无标签的训练样本对编码器进行自监督训练并采用有标签的训练样本对解码器进行有监督训练的方式，通过有监督训练和无监督训练结合的方式，可以使得模型能够同时学习到图像和文本先验信息，提升模型的识别准确度。利用训练获得的目标编码器和目标解码器对待识别图像进行文本识别，获得的目标文本更准确，识别准确度更高。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的一种文字识别系统的应用示例图；

图2是根据本公开实第一施例提供的文字识别模型训练方法的流程图；

图3是根据本公开实第二施例提供的文字识别模型训练方法的流程图；

图4是根据本公开实第三施例提供的文字识别模型训练方法的流程图；

图5是根据本公开实第四施例提供的文字识别模型训练方法的流程图；

图6是根据本公开实第五施例提供的文字识别方法的流程图；

图7是根据本公开实第六施例提供的文字识别模型训练装置的结构图；

图8是根据本公开实第七施例提供的文字识别模型训练装置的结构图；

图9是根据本公开实第八施例提供的文字识别装置的结构图；

图10是用来实现本公开实施例的文字识别模型训练方法或者文字识别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案可以应用于图像文字识别领域，通过采用自监督方式训练编码器和有监督方式训练解码器，获取高精度的图像特征提取模型，通过高精度的特征提取可以获得高准确度的文字识别，提高文字识别准确度。

相关技术中，可以采用图像识别方法，可以采用有监督的文字识别和无监督的文字识别。其中，有监督的文字识别一般是需要通过数据合成方式获取有标签数据，但是合成数据和实际存在的图像的差异往往较大。因此，使用有监督训练方式对图像识别准确度的提升有限。而对于现有的无监督矩阵，则需要采用无标签训练样本学习先验信息，但是目前的方案仅关注于编码器的特征提取模块的预训练，忽略了对文本语义的训练，其准确度也不高。

为了解决现有的技术方案准确度不高的技术问题，本公开采用无标签的训练样本对编码器进行自监督训练并采用有标签的训练样本对解码器进行有监督训练的方式，通过有监督训练和无监督训练结合的方式，可以使得模型能够同时学习到图像和文本先验信息，提升模型的识别准确度。利用训练获得的目标编码器和目标解码器对待识别图像进行文本识别，获得的目标文本更准确，识别准确度更高。

下面将结合附图对本公开的技术方案进行详细介绍。

如图1所示，为本公开实施例提供的一种文字识别系统的应用示例图，其中，该系统可以包括服务器M1，服务器M1可以对用于图像文字识别的编码器和解码器进行训练。

参考图1，编码器的训练中，可以将无标签的训练样本分割为至少两个子样本图像11。至少两个子样本图像可以划分为第一子样本图像对应的第一训练集合111和第二子样本图像对应的第二训练集合112。第一训练集合111和第二训练集合112可以对待训练的编码器进行自监督训练。具体的训练过程可以是第一子样本图像和第二子样本图像分别输入第一编码器12，获得第一子样本图像对应的第一视觉特征13和第二子样本图像对应的第二视觉特征14。基于掩码设置策略标记的第二查询向量15和第一视觉特征13可以进行掩码查询计算，获得第三视觉特征16。第三视觉特征16可以和第二视觉特征14进行特征误差计算，以第三视觉特征16无限逼近第二视觉特征14作为反向传播的目标。同时，第三视觉特征16还可以通过第一解码器17计算之后，进行图像重建，得到图像重建结果，以确定图像重建结果和第二子样本图像的图像误差18。利用特征误差和图像误差对第一编码器更新，利用图像误差对第一解码器进行更新，也即反向传播至第一编码器12和第一解码器17，直至特征误差满足第一误差条件且图像误差满足第二误差条件，获得最后更新的第一编码器为目标编码器。

可选地，编码器训练结束之后，可以利用训练获得的目标编码器对解码器进行训练。参考图1，在解码器的训练中，可以将有标签的合成样本分割为至少两个子合成图像21。至少两个子合成图像21划分为第一合成集合211和第二合成集合212。可以利用目标编码器22提取第一合成集合211中第一子合成图像的第一特征序列23，利用第二合成集合212中第二子合成图像在合成样本21中的图像位置，对第一特征序列23进行特征补齐，获得第二特征序列24。第二特征序列24和第三查询向量25均被输入到第二解码器26，通过第二解码器26进行第二解码特征27的特征计算。基于第二解码特征27的文本识别处理，得到预测文本28。预测文本28和第二子合成图像在合成文本标签中的合成文本29进行文本误差计算，获得解码误差。解码误差即可以用于更新第二解码器，直至满足第三误差条件，获得目标解码器。

在实际应用中，服务器M1可以与终端设备M2建立通信连接，终端设备例如可以包括手机、平板电脑等终端。终端设备M2可以向服务器M1发送待识别图像。服务器M1获取到待识别图像，可以利用训练得到的目标编码器和目标解码器对待识别图像进行图像特征提取，以对提取的特征进行文本识别处理，获得目标文本。服务器M1还可以将得到的目标文本反馈给终端设备M2。通过终端设备和服务器的交互实现图像的在线文本识别，提高文本识别效率和准确度。

图2为本公开实第一施例提供的文字识别模型训练方法的流程图，该文字识别模型训练方法可以配置为一文字识别模型训练装置，该文字识别模型训练装置可以位于电子设备中。文字识别模型训练方法可以包括以下几个步骤：

201：将无标签的训练样本分割为至少两个子样本图像。

可选地，将无标签的训练样本分割为至少两个子样本图像可以包括基于图像分割策略，将无标签的训练样本分割为至少两个子样本图像。图像分割策略可以包括图像长度分割数量和宽度分割数量，可以按照图像的长度分割数量和宽度分割数量，将训练样本均匀地分割成至少两个子样本图像。

图像分割策略具体还可以是图像的patch（分片）处理，可以通过patch将图像划分为至少两个图像块，子样本图像可以为训练样本patch后的图像块。

训练样本可以为从自然环境下采集的图像，训练样本无标签。

202：将至少两个子样本图像划分至第一训练集和第二训练集；第一训练集包括具有可见属性的第一子样本图像，第二训练集包括具有不可见属性的第二子样本图像。

第一训练集中可以包括一个或至少两个第一子样本图像。第二训练集中包括一个或至少两个第二子样本图像。

203：以第二训练集合作为第一训练集合的标签，对待训练编码器执行自监督训练，得到目标编码器。

可选地，以第二训练集合作为第一训练集合的标签具体可以是以第二训练集合中第二子样本图像作为第一子样本图像的标签。由于第二子样本图像具有不可见属性和第二子样本图像具有可见属性，可以利用具有可见属性的第一子样本图像的特征表达对具有不可见属性的第二子样本图像的特征表达进行预测，使得利用第一子样本图像预测的特征表达与第二子样本图像的特征表达相同为训练目标，对待训练编码器执行自监督训练，得到目标编码器。自监督训练具体可以是指以训练样本本身的第二训练集合作为第一训练集合的标签完成编码器的训练，不需要为训练样本设置标签。

本公开实施例中，将无标签的训练样本分割为至少两个子样本图像，针对无标签的样本图像，利用可见属性和不可见属性的划分基准将训练样本的至少两个子样本图像划分为两个训练集合，利用两个训练集合中的第二训练集合作为第一训练集合的标签，使得未设置有标签的第一训练集合具备了标签，利用第二训练集合与第一训练集合的预测结果的差异分析以对编码器进行迭代更新，实现对待训练编码器执行自监督训练，得到目标编码器。通过训练集合的划分可以实现编码器的自监督训练，提高编码器的训练精度。

可以理解的是，本实施例中对编码器训练结束，获得目标编码器，可以利用目标编码器对解码器进行有监督训练，作为一种可选实施方式，本实施例的方法还可以包括解码器的训练步骤，关于解码器的具体训练步骤可以参考图4-5等实施例在此不再赘述。本公开涉及的训练方法可以用于图像文字识别。

需要说明的是，本公开的文字识别模型训练方法可以应用于图像文字识别的应用场景中，也即可以将训练获得的目标编码器和目标解码器用于图像的文字识别，以提高图像文字识别精度。

为了实现编码器的训练，参考图3，为本公开实第二施例提供的文字识别模型训练方法的流程图，与前述实施例的不同之处在于，以第二训练集合作为第一训练集合的标签，对待训练编码器执行自监督训练，得到目标编码器，可以包括：

301：初始化待训练编码器，得到第一编码器。

302：基于第一编码器，提取第一训练集合中第一子样本图像的第一视觉特征和第一训练集合中第二子样本图像的第二视觉特征。

303：对第一视觉特征进行掩码查询计算，获得第三视觉特征。

304：根据第三视觉特征与第二视觉特征的特征误差，更新第一编码器，直至特征误差满足第一误差条件，确定最后更新的第一编码器为目标编码器。

可选地，本公开中的编码器可以包括VIT（Vision Transformer）网络所对应的编码器。待训练编码器的网络结构可以参考VIT网络。

第一编码器可以对待训练编码器进行参数初始化获得。第一编码器的参数可以不断更新直至训练结束。

第一子样本图像的embedding（嵌入）向量输入到第一编码器可以提取第一子样本图像的第一视觉特征。第二子样本图像的embedding（嵌入）向量输入到第一编码器可以提取第二子样本图像的第二视觉特征。

可选地，第三视觉特征与第二视觉特征的特征误差可以通过特征距离、相似度度量表示，具体可以通过距离公式，例如欧式距离、汉明距离等任意一种距离公式计算获得，本实施例中对特征误差的具体计算方式并不做出过多限定。

第一误差条件可以指特征误差小于特征阈值。特征阈值可以根据使用需求设置。

本实施例中，对于待训练编码器，可以通过对编码器进行参数更新的方式不断训练编码器的参数。编码器更新时，可以使用其当前的第一编码器在第一训练集合提取的第一视觉特征，对该第一视觉特征进行掩码查询计算获得的第三视觉特征可以为利用可见的第一子样本图像来预测不可见的第二子样本图像的视觉特征，也即获得的第三视觉特征无限接近于第二视觉特征。第二视觉特征和第三视觉特征的特征误差可以表征两个特征之间的差异，若特征误差满足第一误差条件，可以确定编码器训练结束，获得准确的目标编码器。第一视觉特征和第二视觉特征都来源于训练样本，以训练样本本身的子样本图像作为标签，实现通过可见的特征表示来预测不可见的特征表示的方式，完成对编码器的自监督训练，提高编码器的训练精度。

在更新编码器时，可以利用图像误差和特征误差两种误差对编码器的训练进行反向传播。作为一个实施例，根据第三视觉特征与第二视觉特征的特征误差，更新第一编码器，直至特征误差满足第一误差条件，确定最后更新的第一编码器为目标编码器，包括：

初始化待训练解码器，得到第一解码器；

基于第一解码器，确定对第三视觉特征执行图像重建产生的图像误差；

确定第三视觉特征与第二视觉特征的特征误差；

基于特征误差和图像误差，更新第一编码器并基于图像误差更新第一解码器，直至特征误差满足第一误差条件且图像误差满足第二误差条件，确定最后获得的第一编码器为目标编码器。

图像误差可以指第三视觉特征的图像重建结果所对应的图像误差。

第二误差条件可以指图像误差小于图像误差阈值。图像误差阈值可以根据使用需求设置。

本实施例中，在利用特征误差的基础上，还利用第三视觉特征重建后的图像对应的图像误差和特征误差作为编码器的反向反馈调节，以更全面更详细的误差分析实现对编码器的反向调节，获得精度更高的编码器，此外还可以利用图像误差更新第一解码器，实现对解码器的准确更新，利用更精确的解码器完成对视觉特征的解码计算，利用更准确的解码器可以对编码器的训练产生更积极的影响，提高解码器的训练精度。

在一种可能的设计中，基于第一解码器，确定对第三视觉特征执行图像重建产生的图像误差，包括：

利用第一解码器对第三视觉特征进行解码计算处理，获得第一解码特征；

根据第一解码特征的图像重建结果，得到图像误差。

可选地，第一解码器可以对待训练解码器进行参数初始化获得。第一解码器的参数可以不断更新，直至训练结束。

可选地，本公开的编码器可以包括transformer（转移）网络对应的解码器。待训练解码器的网络结构可以参考transformer网络。

本实施例中，通过第一解码器对第三视觉特征的解码计算处理，可以获得第一解码特征，通过第一解码特征的图像重建结果可以得到图像误差。在编码器训练的过程中，引入可训练的解码器，以全面而完整的编解码流程确保对图像的准确重建，从而利用图像重建结果对图像误差进行有效获取。

在某些实施例中，根据第一解码特征的图像重建结果，得到图像误差，包括：

对第一解码特征进行图像重建处理，获得第一预测结果；

利用第二子样本图像和第一预测结果进行图像误差计算，获得图像误差。

可选地，可以在图像重建层对第一解码特征进行图像重建处理，获得第一预测结果，第一预测结果即为预测图像。图像重建层可以是文本学习网络中的一层，实现对图像的重建。

第一解码特征是对学习到的图像的特征表达，可以对第一解码特征进行逆向图像重建，具体可以使用图像重建算法，例如基于卷积神经网络的图像重建算法，本实施例中对图像重建算法的具体类型并不做出过多限定。

可选地，第二子样本图像和第一预测结果的图像误差计算可以包括计算第二子样本图像和第一预测结果的图像距离或者图像相似度，通过图像距离或者图像相似度确定图像误差。图像距离可以包括欧几里得距离、曼哈顿距离等，本实施例中对图像误差的计算方式并不做出过多限定。

本实施例中，利用第一解码特征进行图像重建处理，可以获得第一预测结果。利用图像重建处理获得的第一预测结果与第二子样本图像的比较，可以准确确定图像误差。

为了获得与第二训练集合匹配的查询向量，实现编码器的自监督训练。作为一个实施例，还包括：

基于掩码设置策略，将至少两个查询向量划分为第一查询向量和第二查询向量；掩码设置策略包括基于预设第一掩码率生成的掩码数据；查询向量为基础字符串对应的空间变换向量；

对第一视觉特征进行掩码查询计算，获得第三视觉特征，包括：

基于第二查询向量和第一视觉特征的特征预测计算，得到第一视觉特征在第二查询向量的出现概率所对应的特征向量；

将第一视觉特征对应的特征向量进行向量组合，得到第三视觉特征。

可选地，至少两个查询向量（query）可以是对基础字符串对应的空间变换向量。基础字符串可以为一个或至少两个字符组成，字符可以包括字母、数字、汉字和/或任意语言的单个符号。基础字符串经过embedding（嵌入算法）计算获得查询向量。此外，查询向量还可以通过预设的函数计算获得。例如，预设的函数可以指向量生成函数：

其中，PE代表所要生成的查询向量，pos为向量的位置索引或者向量ID（Identitydocument，标识），

为所要生成的查询向量的总维度，i为向量中某一元素在向量中所处的第几个维度，也即为元素的维度顺序或者维度坐标。

在一种可能的设计中，本公开中基于第二查询向量和第一视觉特征的特征预测计算可以通过掩码查询计算网络计算获得，掩码查询计算网络的输入数据为第二查询向量和第一视觉特征，输出数据为第三视觉特征。其中，掩码查询计算网络是可学习的计算网络，可以通过反向传播方式对掩码查询计算网络进行更新，也即若确定图像误差和特征误差，可以基于图像误差和特征误差更新掩码查询计算网络，直至特征误差满足第一误差条件和图像误差满足第二误差条件，停止对掩码查询计算网络的更新。

可选地，掩码设置策略可以指按照固定的第一掩码率将图片划分为可见部分和不可见部分。掩码设置策略还可以作为至少两个查询向量的第二查询向量的获取基础。第二查询向量可以为通过第一掩码率确定的mask queries（掩码向量）。第一掩码率可以包括设置的高于最低掩蔽值的目标掩蔽率（mask ratio），最低掩蔽值可以设置获得，例如，最低掩蔽值可以设置为0.9，第一掩码率可以为高于0.9的任意数值，当然，第一掩码率可以小于1。

可选地，掩码数据可以包括掩码向量或掩码矩阵，可以掩码向量或者掩码矩阵中的元素值可以包括第一数值或第二数值。通过将掩码数据与至少两个查询向量的矩阵计算，可以获得被第一数值标记的第一查询向量和被第二数值标记的第二查询向量。第一数值和第二数值可以从0或1中选择，二者取值不同。

可选地，可以通过Latent contextual regressor（隐式上下文回归器）完成第二查询向量和第一视觉特征的特征预测计算。

本实施例中，利用掩码设置策略，对至少两个查询向量进行掩码处理，使得至少两个查询向量中的划分与图像的划分一致。而第二查询向量和第一视觉特征的特征预测计算即为利用第一视觉特征对不可见的第二子样本图像的特征进行预测的过程，获得的第三视觉特征可以与第二视觉特征相对比获得特征误差。掩码设置策略可以确保参与计算的第二查询向量能够对不可见的第二子样本图像的特征进行准确预测，获得与第二视觉特征更相似的第三视觉特征，提高第三视觉特征的特征表达精度。

在一种可能的设计中，将至少两个子样本图像划分至第一训练集合和第二训练集合，包括：

利用掩码设置策略，将至少两个子样本图像划分至第一训练集合和第二训练集合。

可选地，利用掩码设置策略将至少两个子样本图像划分至第一训练集合和第二训练集合可以包括：按照固定的第一掩码率将图片划分为可见的第一训练集合和不可见的第二训练集合。

可选地，可以通过掩码设置策略中的掩码数据与至少两个子样本图像进行矩阵计算，获得第一训练集合和第二训练集合。

本实施例中，利用掩码设置策略将至少两个子样本图像划分为了第一训练集合和第二训练集合。掩码设置策略可以是预设第一掩码率生成的掩码数据，通过掩码设置策略可以将至少两个子样本图像划分为可见的第一训练集合和不可见的第二训练集合。第一训练集合中的图像即具有可见属性，第二训练集合中的图像即具有不可见属性。利用掩码设置策略可以实现对至少两个子样本图像的准确划分。

如图4所示，为本公开实第三施例提供的文字识别模型训练方法的流程图，该文字识别模型训练方法可以用于训练解码器。该方法可以配置为文字识别模型训练装置，文字识别模型训练装置可以位于电子设备中。文字识别模型训练方法可以包括：

401：将合成样本分割为至少两个子合成图像；合成样本包括合成文本标签。

将有标签的合成样本分割为至少两个子合成图像可以包括基于图像分割策略，将合成样本分割为至少两个子合成图像。图像分割策略可以包括图像长度分割数量和宽度分割数量，可以按照图像的长度分割数量和宽度分割数量，将合成样本均匀地分割成至少两个子合成图像。

图像分割策略具体还可以是图像的patch（分片）处理，可以通过patch将图像划分为至少两个图像块，子合成图像可以为合成样本patch后的图像块。

合成样本可以为利用合成文本合成的图像，合成样本的标签即为合成该样本的文本。

402：将至少两个子合成图像划分为第一合成集合和第二合成集合；第一合成集合包括具有可见属性的第一子合成图像，第二合成集合包括具有不可见属性的第二子合成图像。

第一合成集中可以包括一个或至少两个第一子合成图像。第二合成集中包括一个或至少两个第二子合成图像。

403：基于第一合成集合和第二合成集合，对待训练解码器执行有监督训练，获得待训练解码器对应的目标解码器。

可选地可以采用各合成集合各自的文本标签对待训练解码器进行有监督训练，获得待训练解码器对应的目标解码器。

本实施例中，采用有合成文本标签的合成样本对待训练解码器进行训练。而合成文本标签确保此解码器的训练是有监督训练，实现对解码器的有监督训练。

在一种可能的设计中，可以采用固定的编码器对解码器进行训练。如图5所示，为本公开实第四施例提供的文字识别模型训练方法的流程图，其中，基于第一合成集合和第二合成集合，对待训练解码器执行有监督训练，获得待训练解码器对应的目标解码器，可以包括：

501：基于目标编码器提取第一合成集合中第一子合成图像的第一特征序列；目标编码器基于上述实施例中任一项的文字识别模型训练方法训练获得。

本实施例中目标编码器的训练步骤可以参考图2-3等实施例的训练步骤，在此不再赘述。

502：根据第二合成集合中的第二子合成图像在合成样本中的图像位置，对第一特征序列进行特征补齐，获得第二特征序列。

503：以待训练解码器对第二特征序列的预测文本与第二子合成图像在合成文本标签中的合成文本相同为训练目标，训练获得待训练解码器对应的目标解码器。

可选地，可以采用固定目标编码器的方式对解码器进行有监督的训练。

第二特征序列的预测文本可以与第二子合成图像在合成文本标签中的合成文本相同，可以以此作为训练目标。

本实施例中，在对编码器进行有监督训练时，可以采用上述解码器的训练结果，也即目标编码器，对待训练的编码器执行有监督的训练。采用无监督训练获得的目标编码器，对编码器进行有监督的训练，提高解码器的训练精度和效果。

作为一个实施例，以待训练解码器对第二特征序列的预测文本与第二子合成图像在合成文本标签中的合成文本相同为训练目标，训练获得待训练解码器对应的目标解码器，可以包括：

初始化待训练解码器，获得第二解码器；

基于第二解码器确定第二特征序列的预测文本；

利用预测文本与第二子合成图像在合成文本标签中的合成文本进行文本误差计算，获得解码误差；

根据解码误差更新第二解码器，直至解码误差满足第三误差条件，确定最后获得的第二解码器为目标解码器。

第二解码器可以对第二特征序列进行解码，并利用解码的特征进行文本预测，获得预测文本。

关于文本误差计算的方式可以包括文本相似度计算方式或者文本距离计算方式。其中，文本相似度计算方式可以指计算预测文本和合成文本的文本相似度，可以利用文本相似度算法计算文本误差，例如计算相同字符的数量占比算法。文本距离计算方式可以指计算预测文本和合成文本的文本距离，例如采用From Word Embeddings To DocumentDistances（从词向量嵌入到文本距离）等算法计算文本距离，利用文本距离作为文本误差。

可选地，第三误差条件可以包括解码误差小于文本误差阈值。文本误差阈值可以设置获得。

本实施例中，采用对解码器进行参数更新的方式不断对解码器进行训练。编码器更新时，可以使用第二解码器对第二特征序列的预测文本和第二子合成图像的合成文本进行文本误差计算获得的解码误差。通过解码误差的计算，可以实现对解码器的准确反向反馈，避免参数的无效更新，提高参数更新效率的同时，提高参数更新准确度。获得的目标解码器精度更高。

在一种可能的设计中，基于第二解码器确定第二特征序列的预测文本，包括：

基于第二子合成图像，获得以令牌形式存储的第三查询向量；

将第三查询向量和第二特征序列输入第二解码器，获得第二解码特征；

基于第二解码特征的文本识别处理，得到第二特征序列的预测文本。

可选地，可以采用mask（掩码）合成策略将第二子合成图像的特征进行降维，使用可学习的令牌（token）或者使用固定的令牌，得到该学习到的令牌或固定的令牌作为第三查询向量。

第三查询向量和第二特征序列可以输入第二解码器进行解码计算，获得第二解码特征。第二解码特征的预测文本和第二子合成图像的文本相同作为训练目标。

在一种可能的设计中，本公开中对第二解码特征的文本识别处理可以通过文本识别网络对该第二解码特征执行文本识别处理。文本识别网络为可学习的计算网络，若确定获得解码误差，可以利用解码误差更新文本识别网络，直至解码误差满足第三误差条件。

本实施例中，可以通过对至少两个查询向量进行令牌标识处理，可以获得被标记令牌的第三查询向量。基于第二解码器可以对第三查询向量和第二特征序列进行解码计算，获得第二解码特征。通过第二解码特征的文本识别处理，可以得到第二特征序列的预测文本，提高第二特征序列的文本识别精度。

在某些实施例中，基于第二子合成图像，获得以令牌形式存储的第三查询向量，包括：

提取第二子合成图像的特征；

基于令牌生成算法，将第二合成子图像的特征转换为令牌形式，获得第三查询向量。

可选地，令牌生成算法具体可以指固定地或者可学习的token作为query。可以通过学习方式获得koken，令牌生成算法还可以指以固定的令牌表示法，还可以为第二子合成图像设置固定的token以作为第三查询向量。

本实施例中，利用令牌转换处理将第二子合成图像转换为第三查询向量，通过准确令牌标识，可以提高第三查询向量的准确度。

在一种可能的设计中，根据第二合成集合中的第二子合成图像在合成样本中的图像位置，对第一特征序列进行特征补齐，获得第二特征序列，包括：

根据第二子合成图像在合成样本中的图像位置，确定第二子合成图像在合成样本对应合成序列中的序列位置；

将第一特征序列中在序列位置插入补齐向量，获得第二特征序列。补齐向量的向量维度与第一特征序列中的向量维度相同。

可选地，补齐向量可以为预先设置的所有取值均相同的向量。例如可以为全为0的向量或者值全为1的向量。

序列位置可以为第二子合成图像在合成序列中的位置。可以第一特征序列可以为mask后的序列，具体可以为可见的图像对应的序列。若需要进行补齐，需要将被mask掉的序列进行补齐，例如，假设存在原有的特征序列为“abcd”四个序列，经过mask后，第一特征序列为：“ad”两个序列，则需要将被mask掉的：“bc”两个序列进行补齐，以全0向量补齐时，可以获得“a00d”的序列。其中，abcd或者0可以指代向量。具体可以参考图1中第一特征序列23至第二特征序列24的补齐示例。

本实施例中，可以根据第二子合成图像在合成样本中的图像位置，确定第二子合成图像在合成序列中的序列位置，实现图像位置到序列位置的转换，以将第一特征序列中在序列位置处插入补齐向量，获得第二特征序列。通过序列位置的确定，可以实现向量的定位补齐，获得准确度更高的第二特征序列。

作为又一个实施例，将至少两个子合成图像划分为第一子合成图像和第二子合成图像，包括：

基于掩码合成策略，将至少两个子合成图像划分为第一合成集合和第二合成集合。

掩码合成策略包括基于预设第二掩码率生成的掩码数据。第二掩码率可以参考上述实施例中掩码率的相关描述，在此不再赘述。

可选地，可以通过掩码合成策略中的掩码数据与至少两个子合成图像进行矩阵计算，获得第一合成集合和第二合成集合。第二掩码率可以包括设置的高于最低掩蔽值的目标掩蔽率（mask ratio），最低掩蔽值可以设置获得，例如，设置为0.9，第二掩码率可以为高于0.9的任意数值，当然，第二掩码率可以小于1。当然，相关技术中的其它掩码划分方式也可以应用于本公开的集合划分，在此不再赘述。

本实施例中，利用掩码合成策略将至少两个子合成图像划分为了第一合成集合和第二合成集合。掩码合成策略可以是预设第二掩码率生成的掩码数据，通过掩码合成策略可以将至少两个子合成图像划分为可见的第一合成集合和不可见的第二合成集合。第一合成集合中的图像即具有可见属性，第二训练集合中的图像即具有不可见属性。利用掩码合成策略可以实现对至少两个子合成图像的准确划分。

在具体的应用阶段，如图6所示，为本公开实第五施例提供的文字识别方法的流程图，该方法可以包括：

601：确定目标编码器和目标解码器；目标编码器基于上述实施例提供的文字识别模型训练方法训练获得，目标解码器基于上述实施例提供的文字识别模型训练方法训练获得。

602：将待识别图像分割为至少两个子图像。

603：基于目标编码器提取子图像的图像特征，获得至少两个子图像分别对应的图像特征。

604：基于目标解码器和至少两个查询向量，对至少两个子图像分别对应的图像特征进行解码计算，获得至少两个子图像对应的解码特征序列。

605：根据解码特征序列，得到待识别图像的目标文本。

本实施例中，采用目标编码器和目标解码器对待识别图像进行特征序列计算，获得准确的解码特征序列，从而利用解码特征序列进行文本识别得到目标文本。利用目标编码器和目标解码器可以对目标文本准确识别。

如图7所示，为本公开实第六施例提供的文字识别模型训练装置的结构图。该文字识别模型训练装置700可以包括：

第一分割单元701：用于将无标签的训练样本分割为至少两个子样本图像。

第一划分单元702：用于将至少两个子样本图像划分至第一训练集合和第二训练集合；第一训练集合包括具有可见属性的第一子样本图像，第二训练集合包括具有不可见属性的第二子样本图像。

第一训练单元703：用于以第二训练集合作为第一训练集合的标签，对待训练编码器执行自监督训练，得到目标编码器。

作为一个实施例，第一训练单元，包括：

第一得到模块，用于初始化待训练编码器，得到第一编码器；

第一提取模块，用于基于第一编码器，提取第一训练集合中第一子样本图像的第一视觉特征和第一训练集合中第二子样本图像的第二视觉特征；

第一计算模块，用于对第一视觉特征进行掩码查询计算，获得第三视觉特征；

第一训练模块，用于根据第三视觉特征与第二视觉特征的特征误差，更新第一编码器，直至特征误差满足第一误差条件，确定最后更新的第一编码器为目标编码器。

在某些实施例中，第一训练模块，包括：

解码确定子模块，用于初始化待训练解码器，得到第一解码器；

第一误差子模块，用于基于第一解码器，确定对第三视觉特征执行图像重建产生的图像误差；

第二误差子模块，用于确定第三视觉特征与第二视觉特征的特征误差；

第一更新子模块，用于基于特征误差和图像误差，更新第一编码器并基于图像误差更新第一解码器，直至特征误差满足第一误差条件且图像误差满足第二误差条件，确定最后获得的第一编码器为目标编码器。

在一种可能的设计中，第一误差子模块具体用于：

根据第一解码特征的图像重建结果，得到图像误差。

作为一种可选实施方式，第一误差子模块具体还用于：

对第一解码特征进行图像重建处理，获得第一预测结果；

利用第二子样本特征和第一预测结果进行图像误差计算，获得图像误差。

作为一个实施例，还包括：

查询确定单元，用于基于掩码设置策略，将至少两个查询向量划分为第一查询向量和第二查询向量；掩码设置策略包括基于预设第一掩码率生成的掩码数据；查询向量为基础字符串对应的空间变换向量；

第一计算模块，包括：

向量计算子模块，用于基于第二查询向量和第一视觉特征的特征预测计算，得到第一视觉特征在第二查询向量的出现概率所对应的特征向量；

向量组合子模块，用于将第一视觉特征对应的特征向量进行向量组合，得到第三视觉特征。

作为又一个实施例，第一划分单元，包括：

第一划分模块，用于利用掩码设置策略，将至少两个子样本图像划分至第一训练集合和第二训练集合。

如图8所示，为本公开实第七施例提供的文字识别模型训练装置的结构图。该文字识别模型训练装置800可以包括：

第二分割单元801：用于将合成样本分割为至少两个子合成图像；合成样本包括合成文本标签；

第二划分单元802：用于将至少两个子合成图像划分为第一合成集合和第二合成集合；第一合成集合包括具有可见属性的第一子合成图像，第二合成集合包括具有不可见属性的第二子合成图像；

第二训练单元803：用于基于第一合成集合和第二合成集合，对待训练解码器执行有监督训练，获得待训练解码器对应的目标解码器。

作为一个实施例，第二训练单元，包括：

第二提取模块，用于基于目标编码器提取第一合成集合中第一子合成图像的第一特征序列；目标编码器基于上述实施例的文字识别模型训练方法训练获得；

特征补齐模块，用于根据第二合成集合中的第二子合成图像在合成样本中的图像位置，对第一特征序列进行特征补齐，获得第二特征序列；

第二训练模块，用于以待训练解码器对第二特征序列的预测文本与第二子合成图像在合成文本标签中的合成文本相同为训练目标，训练获得待训练解码器对应的目标解码器。

在某些实施例中，第二训练模块，包括：

第一得到子模块，用于初始化待训练解码器，获得第二解码器；

文本预测子模块，用于基于第二解码器确定第二特征序列的预测文本；

第三误差子模块，用于利用预测文本与第二子合成图像在合成文本标签中的合成文本进行文本误差计算，获得解码误差；

第二更新子模块，用于根据解码误差更新第二解码器，直至解码误差满足第三误差条件，确定最后获得的第二解码器为目标解码器。

在一种可能的设计中，文本预测子模块具体用于：

在某些实施例中，文本预测子模块具体用于：

提取第二子合成图像的特征；

基于令牌生成算法，将第二子合成图像的特征转换为令牌形式，获得第三查询向量。

在一种可能的设计中，特征补齐模块，包括：

位置确定子模块，用于根据第二子合成图像在合成样本中的图像位置，确定第二子合成图像在合成样本对应合成序列中的序列位置；

向量插入子模块，用于将第一特征序列中在序列位置插入补齐向量，获得第二特征序列。

在某些实施例中，第二划分单元，包括：

第二划分模块，用于基于掩码合成策略，将至少两个子合成图像划分为第一合成集合和第二合成集合；掩码合成策略包括基于预设第二掩码率生成的掩码数据。

如图9所示，为本公开实第八施例提供的文字识别装置的结构图。该文字识别装置900可以包括：

目标确定单元901：用于确定目标编码器和目标解码器；目标编码器基于上述实施例的文字识别模型训练方法训练获得，目标解码器基于上述实施例的方法文字识别模型训练方法训练获得。

第三分割单元902：用于针对待识别图像，将待识别图像分割为至少两个子图像；

编码计算单元903：用于基于目标编码器提取子图像的图像特征，获得至少两个子图像分别对应的图像特征。

解码计算单元904：用于基于目标解码器和至少两个查询向量，对至少两个子图像分别对应的图像特征进行解码计算，获得至少两个子图像对应的解码特征序列。

文本识别单元905：用于根据解码特征序列，得到待识别图像的目标文本信息。

本公开所提供的装置可以用于执行上述实施例的方法，关于各单元、模块或子模块所执行的内容可以参考上述实施例的描述，在此不再赘述。

需要说明的是，本实施例中的编码器和解码器并不是针对某一特定用户的，并不能反映出某一特定用户的个人信息。需要说明的是，本实施例中的训练样本、合成样本以及待识别图像来自于公开数据集。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以包括云服务器中的计算节点。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器（ROM）1002中的计算机程序或者从存储单元1008加载到随机访问存储器（RAM）1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM1003通过总线1004彼此相连。输入/输出（I/O）接口1005也连接至总线1004。

设备1000中的至少两个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如文字识别模型训练方法或文字识别方法。例如，在一些实施例中，文字识别模型训练方法或文字识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的文字识别模型训练方法或文字识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行文字识别模型训练方法或文字识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"Virtual Private Server"，或简称 "VPS"）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文字识别模型训练方法，包括：

将无标签的训练样本分割为至少两个子样本图像；

将至少两个所述子样本图像划分至第一训练集合和第二训练集合；所述第一训练集合包括具有可见属性的第一子样本图像，所述第二训练集合包括具有不可见属性的第二子样本图像；

初始化待训练编码器，得到第一编码器；

基于所述第一编码器，提取所述第一训练集合中第一子样本图像的第一视觉特征和所述第一训练集合中第二子样本图像的第二视觉特征；

对所述第一视觉特征进行掩码查询计算，获得第三视觉特征；

根据所述第三视觉特征与所述第二视觉特征的特征误差，更新所述第一编码器，直至所述特征误差满足第一误差条件，确定最后更新的第一编码器为目标编码器。

2.根据权利要求1所述的方法，其中，所述根据所述第三视觉特征与所述第二视觉特征的特征误差，更新所述第一编码器，直至所述特征误差满足第一误差条件，确定最后更新的第一编码器为目标编码器，包括：

初始化待训练解码器，得到第一解码器；

基于所述第一解码器，确定对所述第三视觉特征执行图像重建产生的图像误差；

确定所述第三视觉特征与所述第二视觉特征的特征误差；

基于所述特征误差和所述图像误差，更新所述第一编码器并基于所述图像误差更新所述第一解码器，直至所述特征误差满足所述第一误差条件且所述图像误差满足第二误差条件，确定最后获得的第一编码器为目标编码器。

3.根据权利要求2所述的方法，其中，所述基于所述第一解码器，确定对所述第三视觉特征执行图像重建产生的图像误差，包括：

利用所述第一解码器对所述第三视觉特征进行解码计算处理，获得第一解码特征；

根据所述第一解码特征的图像重建结果，得到所述图像误差。

4.根据权利要求3所述的方法，其中，所述根据所述第一解码特征的图像重建结果，得到所述图像误差，包括：

对所述第一解码特征进行图像重建处理，获得第一预测结果；

利用所述第二子样本图像和所述第一预测结果进行图像误差计算，获得所述图像误差。

5.根据权利要求1-4任一项所述的方法，还包括：

基于掩码设置策略，将至少两个查询向量划分为第一查询向量和第二查询向量；所述掩码设置策略包括基于预设第一掩码率生成的掩码数据；所述查询向量为基础字符串对应的空间变换向量；

所述对所述第一视觉特征进行掩码查询计算，获得第三视觉特征，包括：

基于所述第二查询向量和所述第一视觉特征的特征预测计算，得到所述第一视觉特征在所述第二查询向量的出现概率所对应的特征向量；

将所述第一视觉特征对应的特征向量进行向量组合，得到所述第三视觉特征。

6.根据权利要求1所述的方法，其中，所述将至少两个子样本图像划分至第一训练集合和第二训练集合，包括：

利用掩码设置策略，将至少两个所述子样本图像划分至第一训练集合和第二训练集合。

7.一种文字识别模型训练方法，包括：

8.根据权利要求7所述的方法，其中，所述基于所述第一合成集合和所述第二合成集合，对待训练解码器执行有监督训练，获得所述待训练解码器对应的目标解码器，包括：

基于目标编码器提取所述第一合成集合中第一子合成图像的第一特征序列；所述目标编码器基于权利要求1-7任一项所述的文字识别模型训练方法训练获得；

根据所述第二合成集合中的第二子合成图像在所述合成样本中的图像位置，对所述第一特征序列进行特征补齐，获得第二特征序列；

以待训练解码器对所述第二特征序列的预测文本与所述第二子合成图像在所述合成文本标签中的合成文本相同为训练目标，训练获得所述待训练解码器对应的目标解码器。

9.根据权利要求8所述的方法，其中，所述以待训练解码器对所述第二特征序列的预测文本与所述第二子合成图像在所述合成文本标签中的合成文本相同为训练目标，训练获得所述待训练解码器对应的目标解码器，包括：

初始化所述待训练解码器，获得第二解码器；

基于所述第二解码器确定所述第二特征序列的预测文本；

利用所述预测文本与所述第二子合成图像在所述合成文本标签中的合成文本进行文本误差计算，获得解码误差；

根据所述解码误差更新所述第二解码器，直至所述解码误差满足第三误差条件，确定最后获得的所述第二解码器为所述目标解码器。

10.根据权利要求9所述的方法，其中，所述基于所述第二解码器确定所述第二特征序列的预测文本，包括：

基于所述第二子合成图像，获得以令牌形式存储的第三查询向量；

将所述第三查询向量和所述第二特征序列输入所述第二解码器，获得第二解码特征；

基于所述第二解码特征的文本识别处理，得到所述第二特征序列的预测文本。

11.根据权利要求10所述的方法，其中，所述基于所述第二子合成图像，获得以令牌形式存储的第三查询向量，包括：

提取所述第二子合成图像的特征；

基于令牌生成算法，将所述第二子合成图像的特征转换为令牌形式，获得所述第三查询向量。

12.根据权利要求8-11任一项所述的方法，其中，所述根据所述第二合成集合中的第二子合成图像在所述合成样本中的图像位置，对所述第一特征序列进行特征补齐，获得第二特征序列，包括：

根据所述第二子合成图像在所述合成样本中的图像位置，确定所述第二子合成图像在所述合成样本对应合成序列中的序列位置；

将所述第一特征序列中在所述序列位置插入补齐向量，获得所述第二特征序列。

13.根据权利要求7所述的方法，其中，所述将至少两个所述子合成图像划分为第一合成集合和第二合成集合，包括：

基于掩码合成策略，将至少两个所述子合成图像划分为所述第一合成集合和所述第二合成集合；所述掩码合成策略包括基于预设第二掩码率生成的掩码数据。

14.一种文字识别方法，包括：

确定目标编码器和目标解码器；所述目标编码器基于权利要求1-6任一项所述的文字识别模型训练方法训练获得，所述目标解码器基于权利要求7-13任一项所述的文字识别模型训练方法训练获得；

将待识别图像分割为至少两个子图像；

根据所述解码特征序列，得到所述待识别图像的目标文本。

15.一种文字识别模型训练装置，包括：

第一划分单元，用于将至少两个所述子样本图像划分至第一训练集合和第二训练集合；所述第一训练集合包括具有可见属性的第一子样本图像，所述第二训练集合包括具有不可见属性的第二子样本图像；

第一训练单元，用于以所述第二训练集合作为所述第一训练集合的标签，对待训练编码器执行自监督训练，得到目标编码器；

其中，第一训练单元，包括：

第一得到模块，用于初始化所述待训练编码器，得到第一编码器；

第一提取模块，用于基于所述第一编码器，提取所述第一训练集合中第一子样本图像的第一视觉特征和所述第一训练集合中第二子样本图像的第二视觉特征；

第一计算模块，用于对所述第一视觉特征进行掩码查询计算，获得第三视觉特征；

第一训练模块，用于根据所述第三视觉特征与所述第二视觉特征的特征误差，更新所述第一编码器，直至所述特征误差满足第一误差条件，确定最后更新的第一编码器为目标编码器。

16.根据权利要求15所述的装置，其中，所述第一训练模块，包括：

第一误差子模块，用于基于所述第一解码器，确定对所述第三视觉特征执行图像重建产生的图像误差；

第二误差子模块，用于确定所述第三视觉特征与所述第二视觉特征的特征误差；

第一更新子模块，用于基于所述特征误差和所述图像误差，更新所述第一编码器并基于所述图像误差更新所述第一解码器，直至所述特征误差满足所述第一误差条件且所述图像误差满足第二误差条件，确定最后获得的第一编码器为目标编码器。

17.根据权利要求16所述的装置，其中，所述第一误差子模块具体用于：

18.根据权利要求17所述的装置，其中，所述第一误差子模块具体用于：

19.根据权利要求15-18任一项所述的装置，还包括：

查询确定单元，用于基于掩码设置策略，将至少两个查询向量划分为第一查询向量和第二查询向量；所述掩码设置策略包括基于预设第一掩码率生成的掩码数据；所述查询向量为基础字符串对应的空间变换向量；

所述第一计算模块，包括：

向量计算子模块，用于基于所述第二查询向量和所述第一视觉特征的特征预测计算，得到所述第一视觉特征在所述第二查询向量的出现概率所对应的特征向量；

向量组合子模块，用于将所述第一视觉特征对应的特征向量进行向量组合，得到所述第三视觉特征。

20.根据权利要求15所述的装置，其中，所述第一划分单元，包括：

第一划分模块，用于利用掩码设置策略，将至少两个所述子样本图像划分至第一训练集合和第二训练集合。

21.一种文字识别模型训练装置，包括：

22.根据权利要求21所述的装置，其中，所述第二训练单元，包括：

第二提取模块，用于基于目标编码器提取所述第一合成集合中第一子合成图像的第一特征序列；所述目标编码器基于权利要求1-6任一项所述的文字识别模型训练方法训练获得；

特征补齐模块，用于根据所述第二合成集合中的第二子合成图像在所述合成样本中的图像位置，对所述第一特征序列进行特征补齐，获得第二特征序列；

第二训练模块，用于以待训练解码器对所述第二特征序列的预测文本与所述第二子合成图像在所述合成文本标签中的合成文本相同为训练目标，训练获得所述待训练解码器对应的目标解码器。

23.根据权利要求22所述的装置，其中，所述第二训练模块，包括：

第一得到子模块，用于初始化所述待训练解码器，获得第二解码器；

文本预测子模块，用于基于所述第二解码器确定所述第二特征序列的预测文本；

第三误差子模块，用于利用所述预测文本与所述第二子合成图像在所述合成文本标签中的合成文本进行文本误差计算，获得解码误差；

第二更新子模块，用于根据所述解码误差更新所述第二解码器，直至所述解码误差满足第三误差条件，确定最后获得的所述第二解码器为所述目标解码器。

24.根据权利要求23所述的装置，其中，所述文本预测子模块具体用于：

25.根据权利要求24所述的装置，其中，所述文本预测子模块具体用于：

提取所述第二子合成图像的特征；

基于令牌生成算法，将所述第二子合成图像的转换为令牌形式，获得所述第三查询向量。

26.根据权利要求22-25任一项所述的装置，其中，所述特征补齐模块，包括：

位置确定子模块，用于根据所述第二子合成图像在所述合成样本中的图像位置，确定所述第二子合成图像在所述合成样本对应合成序列中的序列位置；

向量插入子模块，用于将所述第一特征序列中在所述序列位置插入补齐向量，获得所述第二特征序列。

27.根据权利要求21所述的装置，其中，所述第二划分单元，包括：

第二划分模块，用于基于掩码合成策略，将至少两个所述子合成图像划分为所述第一合成集合和所述第二合成集合；所述掩码合成策略包括基于预设第二掩码率生成的掩码数据。

28.一种文字识别装置，包括：

目标确定单元，用于确定目标编码器和目标解码器；所述目标编码器基于权利要求1-6任一项所述的文字识别模型训练方法训练获得，所述目标解码器基于权利要求7-13任一项所述的文字识别模型训练方法训练获得；

29.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6、7-13或者14中任一项所述的方法。

30.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6、7-13或者14中任一项所述的方法。