CN113269189B

CN113269189B - 文本识别模型的构建方法、文本识别方法、装置及设备

Info

Publication number: CN113269189B
Application number: CN202110816317.2A
Authority: CN
Inventors: 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-10-08
Anticipated expiration: 2041-07-20
Also published as: CN113269189A

Abstract

本公开提供一种文本识别模型的构建方法、文本识别方法、装置及设备，其中，文本识别模型的构建方法包括：获取文本图像样本集以及字符串样本集；采用文本图像样本集对预设的第一神经网络模型进行训练，得到图像编解码模型（包括第一编码器和第一解码器）；采用字符串样本集对预设的第二神经网络模型进行训练，得到文字编解码模型（包括第二编码器和第二解码器）；基于第一编码器的输出内容以及第二编码器的输出内容，通过预设的跨模态判别器对图像编解码模型和文字编解码模型进行联合训练，采用联合训练后的第一编码器以及联合训练后的第二解码器构建文本识别模型。本公开构建文本识别模型时无需样本标注，能够较好的节约模型训练成本。

Description

文本识别模型的构建方法、文本识别方法、装置及设备

技术领域

本公开涉及人工智能领域，尤其涉及文本识别模型的构建方法、文本识别方法、装置、设备及介质。

背景技术

文本识别技术作为人工智能领域的重要分支，已广泛应用于各领域。通常而言，文本识别技术是采用预先构建（训练）的文本识别模型从带有文本字符的图像（文本图像）中识别出字符序列的过程。相关技术在采用文本图像样本训练文本识别模型时，基本都需要为文本图像样本标注文本字符信息，采用有监督的方式实现模型训练，但是标注样本需要耗费较高的人力成本。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种文本识别模型的构建方法、文本识别方法、装置及设备。

根据本公开的一方面，提供了一种文本识别模型的构建方法，包括：获取文本图像样本集以及字符串样本集；采用所述文本图像样本集对预设的第一神经网络模型进行训练，得到图像编解码模型；所述图像编解码模型包括第一编码器和第一解码器；采用所述字符串样本集对预设的第二神经网络模型进行训练，得到文字编解码模型；所述文字编解码模型包括第二编码器和第二解码器；基于所述第一编码器的输出内容以及所述第二编码器的输出内容，通过预设的跨模态判别器对所述图像编解码模型和所述文字编解码模型进行联合训练，直至所述跨模态判别器无法区分所述第一编码器的输出内容以及所述第二编码器的输出内容时结束训练；采用联合训练后的所述第一编码器以及联合训练后的所述第二解码器构建文本识别模型；其中，所述文本识别模型用于对待识别文本图像进行识别，得到所述待识别文本图像中的文本字符。

根据本公开的另一方面，提供了一种文本识别方法，包括：获取待识别文本图像；通过预先构建的文本识别模型对所述待识别文本图像进行识别，得到文本字符识别结果；其中，所述文本识别模型是采用上述的文本识别模型的构建方法得到的。

根据本公开的另一方面，提供了一种文本识别模型的构建装置，包括：样本集获取模块，用于获取文本图像样本集以及字符串样本集；第一训练模块，用于采用所述文本图像样本集对预设的第一神经网络模型进行训练，得到图像编解码模型；所述图像编解码模型包括第一编码器和第一解码器；第二训练模块，用于采用所述字符串样本集对预设的第二神经网络模型进行训练，得到文字编解码模型；所述文字编解码模型包括第二编码器和第二解码器；联合训练模块，用于基于所述第一编码器的输出内容以及所述第二编码器的输出内容，通过预设的跨模态判别器对所述图像编解码模型和所述文字编解码模型进行联合训练，直至所述跨模态判别器无法区分所述第一编码器的输出内容以及所述第二编码器的输出内容时结束训练；模型构建模块，用于采用联合训练后的所述第一编码器以及联合训练后的所述第二解码器构建文本识别模型；其中，所述文本识别模型用于对待识别文本图像进行识别，得到所述待识别文本图像中的文本字符。

根据本公开的另一方面，提供了一种文本识别装置，包括：图像获取模块，用于获取待识别文本图像；模型识别模块，用于通过文本识别模型对所述待识别文本图像进行识别，得到文本字符识别结果；其中，所述文本识别模型是采用上述的文本识别模型的构建方法得到的。

根据本公开的另一方面，提供了一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述的文本识别模型的构建方法，或者，执行根据上述的文本识别方法。

根据本公开的另一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述文本识别模型的构建方法，或者，执行上述文本识别方法。

本公开实施例中提供的上述技术方案，能够采用文本图像样本集对预设的第一神经网络模型进行训练，得到图像编解码模型（包括第一编码器和第一解码器），以及采用字符串样本集对预设的第二神经网络模型进行训练，得到文字编解码模型（包括第二编码器和第二解码器），然后基于第一编码器的输出内容以及第二编码器的输出内容，通过预设的跨模态判别器对图像编解码模型和文字编解码模型进行联合训练，直至跨模态判别器无法区分第一编码器的输出内容以及第二编码器的输出内容时结束训练，然后采用联合训练后的第一编码器以及联合训练后的第二解码器构建文本识别模型；其中，文本识别模型用于对待识别文本图像进行识别，得到待识别文本图像中的文本字符。上述方式中，通过训练，图像编解码模型的编码器（第一编码器）的输出内容与文字编解码模型的编码器（第二编码器）的输出内容足够相近，以便于文字编解码模型的解码器（第二解码器）可以直接对第一编码器的内容进行解码得到文本字符，因此基于第一编码器和第二解码器构建的文本识别模型，无需样本标注即可直接识别出文本图像中文本字符，能够较好的节约模型训练成本。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种文本识别模型的构建方法的流程示意图；

图2为本公开实施例提供的一种文本识别模型的结构示意图；

图3为本公开实施例提供的一种图像编解码模型的结构示意图；

图4为本公开实施例提供的一种图像编解码模型和文字编解码模型的联合训练示意图；

图5为本公开实施例提供的一种文本识别方法的流程示意图；

图6为本公开实施例提供的另一种文本识别方法的流程示意图；

图7为本公开实施例提供的一种文本识别模型的构建装置的结构示意图；

图8为本公开实施例提供的一种文本识别装置的结构示意图；

图9为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本公开使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

文本识别技术是采用预先构建（训练）的文本识别模型从带有文本字符的图像（文本图像）中识别出字符序列的过程，诸如，对于中文而言，一个字符便是一个汉字，对于英文而言，一个字符便是一个字母。文本图像中通常包含有数量不固定的文本字符，也即，文本图像中的文本字符序列长度是不固定的，若要文本识别模型能够从文本图像中识别出文本字符，相关技术中基本需要采用有监督的方式训练文本识别模型，具体而言，就是给用于训练文本识别模型的文本图像样本上标注文本字符信息，通过比对文本识别模型的输出结果与样本上的标注内容（期望输出）来训练文本识别模型。

目前而言，相关的文本识别技术主要有两种样本标注方式：第一种是字符级别的标注，需要标注每个字符在文本图像样本上的位置以及字符的具体内容，主要是基于自底向上的策略，使文本识别模型将识别问题拆分为字符检测、字符识别和字符组合这几种问题逐个解决。第二种是直接标注字符串，主要是基于整体分析的策略，即采用序列到序列的方式，使文本识别模型先将图像编码，然后进行序列解码直接得出整个字符串。以上无论是哪种方式，都需要耗费较高的人力成本进行样本标注，也潜在限制了用于训练模型的文本图像样本的数量，从而影响到文本识别模型的识别准确度，另外，上述第二种标注方式虽然比第一种标注方式更简单，但是训练所得的文本识别模型的识别准确度不高，容易出现多识别字符或者漏识别字符等问题。综上，相关的文本识别技术需要耗费较高的人力成本训练文本识别模型，而且所得到的文本识别模型的准确度也会受到标注方式的影响。

为改善以上问题至少之一，本公开实施例提供了一种文本识别模型的构建方法、文本识别方法、装置、设备及介质，无需再为文本图像样本标注文本字符信息，直接可采用无监督学习的方式即可构建文本识别模型，极大节约了模型训练成本；因为无需标注样本，因此文本图像样本的数量也不会受限，通过大量文本图像样本进行模型训练，也有助于提升模型的识别精度和识别可靠性。为便于理解，以下进行详细说明。

图1为本公开实施例提供的一种文本识别模型的构建方法的流程示意图，该方法可以由文本识别模型的构建装置执行，其中该装置可以采用软件和/或硬件实现，一般可集成在电子设备中。如图1所示，该方法主要包括如下步骤S102~步骤S110：

步骤S102，获取文本图像样本集以及字符串样本集。

文本图像样本集中包含有一定数量的文本图像样本，文本图像即为包含有文本字符的图像；字符串样本集中包含有一定数量的字符串样本，字符串可以是中文字符串或者英文字符串或者其它语种的字符串，在此不进行限制，通常而言，字符串的语言种类与文本图像中的文本字符的语言种类相同。

在实际应用中，可以直接获取网络共享的文本图像样本集以及字符串样本集，也可以自行收集多个文本图像，对多个文本图像进行统一处理（诸如将收集的文本图像的尺寸都统一缩放至指定大小），得到文本图像样本集，以及自行收集多个字符串，得到字符串样本集。在一些实施方式中，可以通过网络爬取的方式获取文本图像以及字符串，诸如，爬取大量小说的文字内容，将小说中的每个句子作为收集到的一个字符串样本。

步骤S104，采用文本图像样本集对预设的第一神经网络模型进行训练，得到图像编解码模型；图像编解码模型包括第一编码器和第一解码器。图像编解码模型用于对文本图像进行编解码，得到的仍旧是文本图像。

在实际应用中，可以采用文本图像样本集和预设的损失函数对第一神经网络模型中的编码器和解码器进行训练，直至损失函数收敛时训练结束，训练结束时的第一神经网络模型即为图像编解码模型。损失函数可以根据实际情况进行设置，在此不进行限制。第一编码器用于对文本图像进行编码（特征提取），第一解码器用于对第一编码器的输出内容进行解码（特征解析），最后得到的仍旧为文本图像。

步骤S106，采用字符串样本集对预设的第二神经网络模型进行训练，得到文字编解码模型；文字编解码模型包括第二编码器和第二解码器。文字编解码模型用于对文本字符进行编解码，得到的仍旧是文本字符。

在实际应用中，可以采用字符串样本集和预设的损失函数对第二神经网络模型中的编码器和解码器进行训练，直至损失函数收敛时训练结束，训练结束时的第二神经网络模型即为文字编解码模型。损失函数可以根据实际情况进行设置，在此不进行限制。第二编码器用于对文本字符进行编码（特征提取），第二解码器用于对第二编码器的输出内容进行解码（特征解析），最后得到的仍旧为文本字符。

步骤S108，基于第一编码器的输出内容以及第二编码器的输出内容，通过预设的跨模态判别器对图像编解码模型和文字编解码模型进行联合训练，直至跨模态判别器无法区分第一编码器的输出内容以及第二编码器的输出内容时结束训练。

本公开实施例提及的跨模态判别器可以采用常规的判别器网络实现，在此不进行限制。跨模态判别器的作用为判别第一编码器的输出内容（图像特征）以及第二编码器的输出内容（字符特征），在一些实施方式中，可以将第一编码器的输出内容以及第二编码器的输出内容作为跨模态判别器的输入内容，通过跨模态判别器判别输入内容的来源；该来源为第一编码器或第二编码器；也即，令跨模态判别器区分输入内容到底是来源于第一编码器还是来源于第二编码器；然后基于跨模态判别器的判别结果对图像编解码模型和文字编解码模型进行联合训练，直至跨模态判别器无法准确判别出输入内容的来源时，确定跨模态判别器无法区分第一编码器的输出内容以及第二编码器的输出内容，说明第一编码器的输出内容与第二编码器的输出内容足够相近，此时结束训练。

步骤S110，采用联合训练后的第一编码器以及联合训练后的第二解码器构建文本识别模型；其中，文本识别模型用于对待识别文本图像进行识别，得到待识别文本图像中的文本字符。

也即，文本识别模型包括第一编码器和第二解码器。待识别文本图像输入给文本识别模型的第一编码器，第一编码器对待识别文本图像进行编码得到文本图像特征，而训练后的第一编码器的输出内容与第二编码器的输出内容足够相近，也即，该文本图像特征与文本字符特征足够相近，因此第二解码器可以直接对文本图像特征进行解码，得到文本字符。

按照上述方式，基于第一编码器和第二解码器构建的文本识别模型，无需样本标注即可直接识别出文本图像中文本字符，能够较好的节约模型训练成本。

为便于理解，可参见图2所示的一种文本识别模型的结构示意图，示意出文本识别模型包括第一编码器和第二解码器；如图2所示，文本识别模型中的编码器取用的是图像编解码模型中的第一编码器，文本识别模型中的解码器取用的是文字编解码模型中的第二解码器；文本识别模型的输入为文本图像，输出为文本字符串；其中，图像编解码模型的输入为文本图像，经过第一编码器对文本图像进行编码，得到文本图像特征，经过第一解码器对文本图像特征进行解码，输出也为文本图像；文字编解码模型的输入为文本字符串，经过第二编码器对字符串进行编码，得到字符特征，经过第二解码器对字符特征进行解码，输出也为文本字符串；也即，本公开实施例提供的图像编解码模型和文字编解码模型各自的输出形式与输入形式一致，诸如，图像编码器模型的输入形式为图像，输出形式也为图像，文字编解码模型的输入形式为文字，输出形式也为文字。在图像编解码模型和文字编解码模型通过跨模态判别器联合训练之后，第一编码器输出的文本图像特征与第二编码器输出的字符特征非常近似，也可以理解为，联合训练使得文本图像特征与字符特征之间的风格迁移，从而达到混淆相似的效果，此时联合训练后的第二解码器则可以直接对第一编码器输出的文本图像特征进行解析，得到文本字符，因而选用联合训练后的第一编码器和第二解码器构建的文本识别模型的输入为文本图像，输出为文本字符，无需样本标注即可达到文本识别的效果。

为便于理解，以下针对图像编解码模型、文字编解码模型、以及图像编解码模型和文字编解码模型的联合训练方式分别阐述说明：

（一）图像编解码模型

图像编解码模型可以是一种生成式模型，包括第一编码器和第一解码器，用于对文本图像进行编解码，得到的仍旧是文本图像。具体实现时，采用文本图像样本集对预设的第一神经网络模型进行训练，得到图像编解码模型。

在一些实施方式中，第一神经网络模型包括VAE（Variational Autoencoder，变分自编码器）模型。VAE模型是一种重要的生成式模型，可将输入内容通过编码器进行编码，然后将编码结果输入给解码器，解码器针对编码结果进行解码，以还原输入内容。诸如，将图像输入给VAE模型，VAE模型可输出与输入图像极为相近的还原图像，VAE模型的输出图像与输入图像越接近，说明VAE模型的编码器提取图像特征的能力越强，能够有效的实现图像特征提取。其中，VAE模型的编码器可以将输入数据（诸如输入的文本图像）进行编码，得到的编码结果可以是某种分布的参数，也可以是特征图，诸如在本公开实施例中，VAE模型的编码器可以将输入的文本图像进行图像特征提取，得到特征图。相比于其它的生成式模型，VAE模型的训练更稳定，而且速度更快。

在第一神经网络模型包括VAE模型时，采用文本图像样本集对预设的第一神经网络模型进行训练，得到图像编解码模型的步骤，可以参照如下步骤1和步骤2实现：

步骤1，采用文本图像样本集和预设的第一损失函数对VAE模型中的编码器和解码器进行首次训练，直至第一损失函数收敛时训练结束，得到首次训练后的VAE模型。在一种具体的实施示例中，第一损失函数可以是L1损失函数。

步骤2，基于首次训练后的VAE模型中的编码器得到图像编解码模型的第一编码器，以及基于首次训练后的VAE模型中的解码器得到图像编解码模型的第一解码器。

在一些实施方式中，可以直接将首次训练后的VAE模型中的编码器作为图像编解码模型的第一编码器，以及直接将首次训练后的VAE模型中的解码器作为图像编解码模型的第一解码器。

在另一些实施方式中，可以再对首次训练后的VAE模型再次采用其它网络模型辅助训练，以进一步优化VAE模型的网络参数，也即使VAE模型的编码器的参数能够进一步得以优化，从而具有更优秀的特征提取能力。在一些实施方式中，可以采用判别器网络再次辅助训练VAE模型，基于此，第一神经网络模型还包括与VAE模型相连的图像判别器。

此时，上述步骤2中的基于首次训练后的VAE模型中的编码器得到图像编解码模型的第一编码器，可以参照如下步骤2.1~步骤2.3实现：

步骤2.1，获取首次训练后的VAE模型针对文本图像样本集的输出图像。

步骤2.2，将输出图像以及文本图像样本集输入至图像判别器，通过图像判别器和预设的第二损失函数对首次训练后的VAE模型进行再次训练，直至第二损失函数收敛时训练结束，得到再次训练后的VAE模型。

本公开实施例提及的图像判别器可以采用常规的判别器网络实现，在此不进行限制。在一种具体的实施示例中，图像判别器诸如可以由4个卷积层构成，当然，图像判别器还可以包括更多或更少个卷积层或者其它功能层，以上仅为示例说明。VAE模型的输出图像以及文本图像样本集均可作为图像判别器的输入图像，图像判别器用于判别输入图像的来源，诸如判别输入图像是属于文本图像样本集（也即判别输入图像是真实图像），还是属于VAE模型的输出图像（也即判别输入图像是VAE模型的生成图像），换言之，图像判别器用于判别输入图像的真假，如果图像判别器识别出输入图像是文本图像样本集中的真实图像，则确定该输入图像为真，如果图像判别器识别出输入图像是VAE模型的输出图像，则确定该输入图像为假。当第二损失函数收敛时，此时的图像判别器已无法判别出输入图像的来源，此时说明VAE模型的参数得以进一步优化，能够生成与真实图像足够接近的图像。在一种具体的实施示例中，第二损失函数包括对抗损失函数。

步骤2.3，将再次训练后的VAE模型中的编码器作为图像编解码模型的第一编码器。

通过图像判别器再次训练后所得的VAE模型的编码器具有较高的特征提取能力，能够更为准确可靠地从文本图像中提取有效特征，因而将其作为图像编解码模型的第一编码器。当然，再次训练后的VAE模型中的解码器可以作为图像编解码模型的第一解码器，同样具有较高的特征解析能力，只是本公开实施例重点在于取用第一编码器构建文本识别模型，所以对第一编码器着重强调。

可以理解的是，本公开实施例训练VAE模型的目的在于取用其中的第一编码器，使得训练好的VAE模型中的第一编码器能够更有效的提取图像特征。

为便于理解，可参见图3所示的一种图像编解码模型的结构示意图，不仅示意出了VAE模型，还示意出了图像判别器。其中，图像判别器的输入为文本图像样本以及VAE模型的输出图像，图像判别器的输出为判别结果，具体而言，图像判别器用于判别输入数据的真假（文本图像样本为真，VAE模型的输出图像为假），基于判别结果来不断优化VAE模型，直至判别结果无法再判别出输入数据真假时为止。也即，可以将VAE模型和图像判别器整体视为一种生成对抗网络（Generative Adversarial Networks， GAN），VAE模型可以视为生成对抗网络中的生成器，图像判别器即为生成对抗网络中的判别器。在生成对抗网络中，生成器总是想生成更加真实的数据来欺骗判别器，判别器总是不想被欺骗，因此，生成器和判别器直接形成一个动态博弈的过程，在实际的训练过程中，可以先优化判别器，然后再优化生成器，理想情况下在达到博弈平衡之后，即可将生成器直接拿来使用，实现数据生成功能。本公开实施例中在采用图像判别器优化VAE模型的参数之后，VAE模型即可单独使用，尤其是VAE模型中的编码器可以单独使用，诸如拿取该编码器作为文本识别模型的编码器，以便更好地提取图像特征，而且也有助于进一步提升文本识别精度。

（二）文字编解码模型

文字编解码模型也可以是一种生成式模型，包括第二编码器和第二解码器，用于对文本字符进行编解码，得到的仍旧是文本字符。具体实现时，采用字符串样本集对预设的第二神经网络模型进行训练，得到文字编解码模型。

在一些实施方式中，第二神经网络模型包括Transformer模型，该Transformer模型为生成式模型或自编码器。具体而言，Transformer模型通常包括编码器和解码器，在一些实施方式中，Transformer模型中的编码器包括多个基础模块一，每个基础模块一主要包括多头自注意力层、跳跃连接、层归一化和前馈神经网络等网络层，解码器包括多个基础模块二，基础模块二与基础模块一的不同之处在于：基础模块二包括两层多头自注意力层。在一些实施方式中，基础模块二中的多头自注意力层可以添加mask掩膜，编码器将输入的字符串一次性编码，解码器将字符串按照每次解码一个字词的方式进行解码，同时前面解码出来的词会是后面解码的输入，也即，对字符串后面的字词进行解码时会参考前面的字词，但不参考之后的字词，所以可以将之后的字词进行mask掩膜。

Transformer模型的上述结构能够较好的用于seq2seq 任务（一个序列映射到另一个序列的任务），且该模型结构有助于提升文本识别精度，具有良好的性能，因此可选用Transformer模型作为本公开实施例中的文字编解码模型，借助Transformer模型达到较好的文字编解码效果。

在第二神经网络模型包括Transformer模型时，采用字符串样本集对预设的第二神经网络模型进行训练，得到文字编解码模型的步骤，可以参照如下步骤a和步骤b实现：

步骤a，采用字符串样本集和预设的第三损失函数对Transformer模型中的编码器和解码器进行训练，直至第三损失函数收敛时训练结束，得到训练后的Transformer模型。

在一种具体的实施示例中，第三损失函数可以是交叉熵损失函数。当第三损失函数收敛时，Transformer模型可以达到较好的自编码效果，也即输出与输入相同，诸如，如果Transformer模型的输入为“你是谁”，则Transformer模型的输出为“<s>你是谁<E>”，其中，<s>和<E>是设定的起止符。在实际应用中，Transformer模型首先输出的内容可以是采用机器语言表征的字词向量，因此可采用softmax函数（归一化指数函数）对字词向量进行处理，然后通过查询预先构建的字典得到最终的字符串“<s>你是谁<E>”。其中，该字典可以收录有多种字词，并指示有字词与向量的映射关系。在实际应用中，也可以是首先采用诸如Word2vec算法或glove算法将输入字符串转换为机器可处理的向量，然后由Transformer模型对其进行自编码，最终得到的输出向量经过softmax函数处理以及字典查询后，还原回原有的字符串。

步骤b，将Transformer模型中的编码器作为文字编解码模型的第二编码器，以及将Transformer模型中的解码器作为文字编解码模型的第二解码器。

经训练后的Transformer模型中的编码器能够较好的针对文本字符进行特征提取，解码器能够对提取出的文本字符特征进行解码，从而对文本字符进行还原。

（三）图像编解码模型和文字编解码模型的联合训练

在通过上述方式得到训练好的图像编解码模型和文字编解码模型之后，可以进一步对图像编解码模型和文字编解码模型进行联合训练，以期图像编解码模型的第一编码器与文字编解码的第二编码器的输出特征足够相近，从而使文字编解码模型的第二解码器能够直接对图像编解码模型的第一编码器的输出特征进行解析，输出文本字符。

在此基础上，本公开实施例提出了采用跨模态判别器对图像编解码模型和文字编解码模型进行联合训练的方式，参见图4所示的一种图像编解码模型和文字编解码模型的联合训练示意图，示意出采用跨模态判别器与图像编解码模型和文字编解码模型之间的连接关系以及各自的输入/输出内容。结合图4，基于第一编码器的输出内容（文本图像特征）以及第二编码器的输出内容（文本字符特征），通过预设的跨模态判别器对图像编解码模型和文字编解码模型进行联合训练的步骤，可以参照如下步骤（1）至步骤（2）实现：

步骤（1），将第一编码器的输出内容以及第二编码器的输出内容作为预设的跨模态判别器的输入内容，通过跨模态判别器判别输入内容的来源；来源为第一编码器或第二编码器。

在一些实施方式中，跨模态判别器包括卷积层和全连接层，在一种具体示例中，跨模态判别器包括4个卷积层和2个全连接层。跨模态判别器还可采用其它网络实现，诸如包括更多或更少的卷积层及全连接层，具体可根据实际情况进行设置，在此不进行限制。

第一编码器的输出内容为基于文本图像样本提取的文本图像特征，第二编码器的输出内容为基于字符串样本提取的文本字符特征，如图4所示，跨模态判别器主要用于判断其输入内容的来源，也即判别向其输入的特征是来源于第一编码器还是第二编码器，换言之，跨模态判别器用于判别向其输入的特征是文本图像特征还是文本字符特征。跨模态判别器的判别结果即为针对输入特征的来源进行判别所得的结果。

步骤（2），基于跨模态判别器的判别结果对图像编解码模型和文字编解码模型进行联合训练，直至跨模态判别器无法准确判别出输入内容的来源时，确定跨模态判别器无法区分第一编码器的输出内容以及第二编码器的输出内容。

在实际应用中，可以采用诸如对抗损失函数进行训练，当对抗损失函数收敛时，此时的跨模态判别器也无法准确判别出输入内容的来源，也即跨模态判别器无法区分向其输入的特征是文本图像特征还是文本字符特征，此时证明第一编码器输出的文本图像特征以及第二编码器输出的文本字符特征非常相近，此时即可结束训练。图像编解码模型和文字编解码模型以及跨模态判别器整体也可视为一种循环生成对抗网络（Cycle GenerativeAdversarial Networks，CycleGAN），循环生成对抗网络可成功实现不同数据域内数据的部分特征进行互换的效果，也即能够使得文本图像特征与字符特征之间进行风格迁移，彼此之间特征非常相近，以致于跨模态判别器无法区分，达到混淆相似的效果，此时联合训练后的第二解码器则可以直接对第一编码器输出的文本图像特征进行解析，得到文本字符。

之后即可采用联合训练后的第一编码器以及联合训练后的第二解码器构建文本识别模型，构建所得到的文本识别模型的输入为文本图像，输出为文本字符，具体而言，无需样本标注即可通过第二解码器直接对第一编码器输出的文本图像特征进行识别，得到文本图像中的文本字符，较好的节约了模型训练成本，而且由于无需样本标注，识别准确度也不会再受到样本标注方式的影响，此外，还可以不再受到训练样本数量的限制，采用大量训练样本进行训练后所得模型的识别精度及可靠性均更高。

另外，为了进一步展现本公开实施例提出的上述文本识别模型的优点，本公开实施例以相关技术中较为优秀的CRNN（Convolutional Recurrent Neural Network，卷积循环神经网络）模型为例进行比对说明，CRNN模型主要用于解决基于图像的序列识别问题，特别是场景文字识别问题，其能够经久不衰的主要原因在于它在精度和速度上取得了很好的平衡，但是CRNN模型仍旧需要进行人工标注，训练周期较长，训练成本较高。相比之下，本公开实施例提供的上述文本识别模型，第一编码器可类比CRNN模型中用于从文本图像中提取特征的卷积神经网络，第二解码器可类比CRNN模型中用于对特征进行序列预测的循环神经网络，但是本公开实施例提供的文本识别模型无需人工标注，有效节约训练成本的同时也可保证文本识别精度和可靠性。

图5为本公开实施例提供的一种文本识别方法的流程示意图，该方法可以由文本识别装置执行，其中该装置可以采用软件和/或硬件实现，一般可集成在电子设备中。如图5所示，该方法主要包括如下步骤S502~步骤S504：

步骤S502，获取待识别文本图像。

待识别文本图像可以是用户上传的文本图像，也可以是执行文本识别方法的电子设备直接通过摄像头采集的文本图像，在此不限制待识别文本图像的获取方式。

步骤S504，通过预先构建的文本识别模型对待识别文本图像进行识别，得到文本字符识别结果；其中，文本识别模型是采用前述文本识别模型的构建方法得到的。

由于前述文本识别模型无需样本标注，因而可以较低成本的得到该文本识别模型，直接采用该文本识别模型进行文本识别所需的成本也较低，另外，由于文本识别模型在训练时无需样本标注，识别准确度也不会再受到样本标注方式的影响，而且也可以不再受到训练样本数量的限制，采用大量训练样本进行训练后所得模型的识别精度及可靠性均更高，也即，上述文本识别方法的识别精度及可靠性较好。

在图5的基础上，本公开实施例提供了另一种如图6所示的文本识别方法的流程示意图，该方法侧重表述了文本识别模型对待识别文本图像进行处理的方式，主要包括如下步骤S602~步骤S606：

步骤S602，获取待识别文本图像；

步骤S604，通过文本识别模型中的编码器对待识别文本图像进行特征提取，得到文本图像特征；其中，文本识别模型中的编码器为联合训练后的图像编解码模型中的第一编码器；

步骤S606，通过文本识别模型中的解码器对文本图像特征进行解析，得到文本字符识别结果；其中，文本识别模型中的解码器为联合训练后的文字编解码模型中的第二解码器。

在上述文本识别方法中，通过文本识别模型的编码器（联合训练后的图像编解码模型中的第一编码器）直接从文本图像中提取出文本图像特征，然后通过文本识别模型中的解码器（联合训练后的文字编解码模型中的第二解码器）可直接对文本图像特征进行解码，这种方式方便快捷，且识别精度和准确性都较高。

对应于前述文本识别模型的构建方法，本公开实施例还提供了一种文本识别模型的构建装置，图7为本公开实施例提供的一种文本识别模型的构建装置的结构示意图，该装置可由软件和/或硬件实现，一般可集成在电子设备中。如图7所示，文本识别模型的构建装置700包括：

样本集获取模块702，用于获取文本图像样本集以及字符串样本集；

第一训练模块704，用于采用文本图像样本集对预设的第一神经网络模型进行训练，得到图像编解码模型；图像编解码模型包括第一编码器和第一解码器；

第二训练模块706，用于采用字符串样本集对预设的第二神经网络模型进行训练，得到文字编解码模型；文字编解码模型包括第二编码器和第二解码器；

联合训练模块708，用于基于第一编码器的输出内容以及第二编码器的输出内容，通过预设的跨模态判别器对图像编解码模型和文字编解码模型进行联合训练，直至跨模态判别器无法区分第一编码器的输出内容以及第二编码器的输出内容时结束训练；

模型构建模块710，用于采用联合训练后的第一编码器以及联合训练后的第二解码器构建文本识别模型；其中，文本识别模型用于对待识别文本图像进行识别，得到待识别文本图像中的文本字符。

本公开实施例提供的上述文本识别模型的构建装置，通过训练，图像编解码模型的编码器（第一编码器）的输出内容与文字编解码模型的编码器（第二编码器）的输出内容足够相近，以便于文字编解码模型的解码器（第二解码器）可以直接对第一编码器的内容进行解码得到文本字符，因此基于第一编码器和第二解码器构建的文本识别模型，无需样本标注即可直接识别出文本图像中文本字符，能够较好的节约模型训练成本。

在一些实施方式中，第一神经网络模型包括VAE模型；第一训练模块704具体用于：采用文本图像样本集和预设的第一损失函数对VAE模型中的编码器和解码器进行首次训练，直至第一损失函数收敛时训练结束，得到首次训练后的VAE模型；基于首次训练后的VAE模型中的编码器得到图像编解码模型的第一编码器，以及基于首次训练后的VAE模型中的解码器得到图像编解码模型的第一解码器。

在一些实施方式中，第一神经网络模型还包括与VAE模型相连的图像判别器；第一训练模块704具体用于：获取首次训练后的VAE模型针对文本图像样本集的输出图像；将输出图像以及文本图像样本集输入至图像判别器，通过图像判别器和预设的第二损失函数对首次训练后的VAE模型进行再次训练，直至第二损失函数收敛时训练结束，得到再次训练后的VAE模型；将再次训练后的VAE模型中的编码器作为图像编解码模型的第一编码器。

在一些实施方式中，第二神经网络模型包括Transformer模型；第二训练模块706具体用于：采用字符串样本集对预设的第二神经网络模型进行训练，得到文字编解码模型的步骤，包括：采用字符串样本集和预设的第三损失函数对Transformer模型中的编码器和解码器进行训练，直至第三损失函数收敛时训练结束，得到训练后的Transformer模型；将Transformer模型中的编码器作为文字编解码模型的第二编码器，以及将Transformer模型中的解码器作为文字编解码模型的第二解码器。

在一些实施方式中，联合训练模块708用于：将第一编码器的输出内容以及第二编码器的输出内容作为预设的跨模态判别器的输入内容，通过跨模态判别器判别输入内容的来源；来源为第一编码器或第二编码器；基于跨模态判别器的判别结果对图像编解码模型和文字编解码模型进行联合训练，直至跨模态判别器无法准确判别出输入内容的来源时，确定跨模态判别器无法区分第一编码器的输出内容以及第二编码器的输出内容。

对应于前述文本识别方法，本公开实施例还提供了一种文本识别装置，图8为本公开实施例提供的一种文本识别装置的结构示意图，该装置可由软件和/或硬件实现，一般可集成在电子设备中。如图8所示，文本识别装置800包括：

图像获取模块802，用于获取待识别文本图像；

模型识别模块804，用于通过文本识别模型对待识别文本图像进行识别，得到文本字符识别结果；其中，文本识别模型是采用前述任一项的文本识别模型的构建方法得到的。

在一些实施方式中，模型识别模块804具体用于：通过文本识别模型中的编码器对待识别文本图像进行特征提取，得到文本图像特征；其中，文本识别模型中的编码器为联合训练后的图像编解码模型中的第一编码器；通过文本识别模型中的解码器对文本图像特征进行解析，得到文本字符识别结果；其中，文本识别模型中的解码器为联合训练后的文字编解码模型中的第二解码器。

本公开实施例所提供的文本识别模型的构建装置可执行本公开任意实施例所提供的文本识别模型的构建方法，具备执行方法相应的功能模块和有益效果；本公开实施例所提供的文本识别装置可执行本公开任意实施例所提供的文本识别方法，具备执行方法相应的功能模块和有益效果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置实施例的具体工作过程，可以参考方法实施例中的对应过程，在此不再赘述。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本公开实施例所提供的文本识别模型的构建方法或者文本识别方法。所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

参考图9，现将描述可以作为本公开的服务器或客户端的电子设备900的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，电子设备900包括计算单元901，其可以根据存储在只读存储器（ROM）902中的计算机程序或者从存储单元908加载到随机访问存储器（RAM）903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出（I/O）接口905也连接至总线904。

电子设备900中的多个部件连接至I/O接口905，包括：输入单元906、输出单元907、存储单元908以及通信单元909。输入单元906可以是能向电子设备900输入信息的任何类型的设备，输入单元906可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元907可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元908可以包括但不限于磁盘、光盘。通信单元909允许电子设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理。例如，在一些实施例中，文本识别模型的构建方法或文本识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到电子设备900上。在一些实施例中，计算单元901可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行文本识别模型的构建方法或文本识别方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本识别模型的构建方法，包括：

获取文本图像样本集以及字符串样本集；

采用所述文本图像样本集对预设的第一神经网络模型进行训练，得到图像编解码模型；所述图像编解码模型包括第一编码器和第一解码器；

采用所述字符串样本集对预设的第二神经网络模型进行训练，得到文字编解码模型；所述文字编解码模型包括第二编码器和第二解码器；

基于所述第一编码器的输出内容以及所述第二编码器的输出内容，通过预设的跨模态判别器对所述图像编解码模型和所述文字编解码模型进行联合训练，直至所述跨模态判别器无法区分所述第一编码器的输出内容以及所述第二编码器的输出内容时结束训练；

采用联合训练后的所述第一编码器以及联合训练后的所述第二解码器构建文本识别模型；其中，所述文本识别模型用于对待识别文本图像进行识别，得到所述待识别文本图像中的文本字符；

其中，所述基于所述第一编码器的输出内容以及所述第二编码器的输出内容，通过预设的跨模态判别器对所述图像编解码模型和所述文字编解码模型进行联合训练的步骤，包括：

将所述第一编码器的输出内容以及所述第二编码器的输出内容作为预设的跨模态判别器的输入内容，通过所述跨模态判别器判别所述输入内容的来源；所述来源为所述第一编码器或所述第二编码器；

基于所述跨模态判别器的判别结果对所述图像编解码模型和所述文字编解码模型进行联合训练，直至所述跨模态判别器无法准确判别出所述输入内容的来源时，确定所述跨模态判别器无法区分所述第一编码器的输出内容以及所述第二编码器的输出内容。

2.如权利要求1所述的文本识别模型的构建方法，其中，所述第一神经网络模型包括VAE模型；所述采用所述文本图像样本集对预设的第一神经网络模型进行训练，得到图像编解码模型的步骤，包括：

采用所述文本图像样本集和预设的第一损失函数对所述VAE模型中的编码器和解码器进行首次训练，直至所述第一损失函数收敛时训练结束，得到首次训练后的所述VAE模型；

基于首次训练后的所述VAE模型中的编码器得到图像编解码模型的第一编码器，以及基于首次训练后的所述VAE模型中的解码器得到所述图像编解码模型的第一解码器。

3.如权利要求2所述的文本识别模型的构建方法，其中，所述第一神经网络模型还包括与所述VAE模型相连的图像判别器；

所述基于首次训练后的所述VAE模型中的编码器得到图像编解码模型的第一编码器的步骤，包括：

获取首次训练后的所述VAE模型针对所述文本图像样本集的输出图像；

将所述输出图像以及所述文本图像样本集输入至所述图像判别器，通过所述图像判别器和预设的第二损失函数对首次训练后的所述VAE模型进行再次训练，直至所述第二损失函数收敛时训练结束，得到再次训练后的所述VAE模型；

将再次训练后的所述VAE模型中的编码器作为图像编解码模型的第一编码器。

4.如权利要求1至3任一项所述的文本识别模型的构建方法，其中，所述第二神经网络模型包括Transformer模型；所述采用所述字符串样本集对预设的第二神经网络模型进行训练，得到文字编解码模型的步骤，包括：

采用所述字符串样本集和预设的第三损失函数对所述Transformer模型中的编码器和解码器进行训练，直至所述第三损失函数收敛时训练结束，得到训练后的所述Transformer模型；

将所述Transformer模型中的编码器作为文字编解码模型的第二编码器，以及将所述Transformer模型中的解码器作为所述文字编解码模型的第二解码器。

5.一种文本识别方法，包括：

获取待识别文本图像；

通过预先构建的文本识别模型对所述待识别文本图像进行识别，得到文本字符识别结果；其中，所述文本识别模型是采用权利要求1至4任一项所述的文本识别模型的构建方法得到的。

6.如权利要求5所述的文本识别方法，其中，所述通过文本识别模型对所述待识别文本图像进行识别，得到文本字符识别结果的步骤，包括：

通过文本识别模型中的编码器对所述待识别文本图像进行特征提取，得到文本图像特征；其中，所述文本识别模型中的编码器为联合训练后的所述图像编解码模型中的第一编码器；

通过文本识别模型中的解码器对所述文本图像特征进行解析，得到文本字符识别结果；其中，所述文本识别模型中的解码器为联合训练后的所述文字编解码模型中的第二解码器。

7.一种文本识别模型的构建装置，包括：

样本集获取模块，用于获取文本图像样本集以及字符串样本集；

第一训练模块，用于采用所述文本图像样本集对预设的第一神经网络模型进行训练，得到图像编解码模型；所述图像编解码模型包括第一编码器和第一解码器；

第二训练模块，用于采用所述字符串样本集对预设的第二神经网络模型进行训练，得到文字编解码模型；所述文字编解码模型包括第二编码器和第二解码器；

联合训练模块，用于基于所述第一编码器的输出内容以及所述第二编码器的输出内容，通过预设的跨模态判别器对所述图像编解码模型和所述文字编解码模型进行联合训练，直至所述跨模态判别器无法区分所述第一编码器的输出内容以及所述第二编码器的输出内容时结束训练；

模型构建模块，用于采用联合训练后的所述第一编码器以及联合训练后的所述第二解码器构建文本识别模型；其中，所述文本识别模型用于对待识别文本图像进行识别，得到所述待识别文本图像中的文本字符；

其中，所述联合训练模块用于：将所述第一编码器的输出内容以及所述第二编码器的输出内容作为预设的跨模态判别器的输入内容，通过所述跨模态判别器判别所述输入内容的来源；所述来源为所述第一编码器或所述第二编码器；基于所述跨模态判别器的判别结果对所述图像编解码模型和所述文字编解码模型进行联合训练，直至所述跨模态判别器无法准确判别出所述输入内容的来源时，确定所述跨模态判别器无法区分所述第一编码器的输出内容以及所述第二编码器的输出内容。

8.一种文本识别装置，包括：

图像获取模块，用于获取待识别文本图像；

模型识别模块，用于通过文本识别模型对所述待识别文本图像进行识别，得到文本字符识别结果；其中，所述文本识别模型是采用权利要求1至4任一项所述的文本识别模型的构建方法得到的。

9.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-4中任一项所述的文本识别模型的构建方法，或者，执行根据权利要求5或6所述的文本识别方法。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，其中，所述计算机程序用于执行上述权利要求1-4中任一项所述的文本识别模型的构建方法，或者，执行根据权利要求5或6所述的文本识别方法。