CN116343233A

CN116343233A - 文本识别方法和文本识别模型的训练方法、装置

Info

Publication number: CN116343233A
Application number: CN202310355676.1A
Authority: CN
Inventors: 杜永坤; 陈智能; 殷晓婷; 李晨霞; 杜宇宁; 杨烨华; 刘毅; 毕然; 马艳军; 胡晓光; 于佃海
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-04-04
Filing date: 2023-04-04
Publication date: 2023-06-27
Anticipated expiration: 2043-04-04
Also published as: CN116343233B

Abstract

本公开提供了一种文本识别方法和文本识别模型的训练方法、装置、设备和介质，涉及人工智能领域，具体涉及计算机视觉、图像处理和深度学习技术领域。文本识别方法的具体实现方案为：采用文本识别模型中的特征提取网络提取待识别文本图像的视觉特征；采用文本识别模型中的融合网络融合视觉特征、预定字符顺序特征和预定字符统计特征，得到融合特征；采用文本识别模型中的解码网络对融合特征进行解码，得到解码特征；以及根据解码特征，确定待识别文本图像中的文本，其中，预定字符顺序特征和预定字符统计特征是在训练文本识别模型的过程中，与文本识别模型同步训练所得到的。

Description

文本识别方法和文本识别模型的训练方法、装置

技术领域

本公开涉及人工智能领域，具体涉及计算机视觉、图像处理和深度学习技术领域，尤其涉及一种文本识别方法和文本识别模型的训练方法、装置、设备和介质。

背景技术

随着经济的发展和生活水平的提高，深度学习技术在众多领域得到广泛应用。例如，在文本识别场景中，可以借助深度学习模型来识别描述自然场景的图像中的文本。该识别得到的文本可以被转录为计算机编码的字符，以传达对自然场景的理解至关重要的高级语义。

发明内容

本公开旨在提供一种利于兼顾识别效率和识别精度的文本识别方法和文本识别模型的训练方法、装置、设备和介质。

根据本公开的第一个方面，提供了一种文本识别方法，包括：采用文本识别模型中的特征提取网络提取待识别文本图像的视觉特征；采用文本识别模型中的融合网络融合视觉特征、预定字符顺序特征和预定字符统计特征，得到融合特征；采用文本识别模型中的解码网络对融合特征进行解码，得到解码特征；以及根据解码特征，确定待识别文本图像中的文本，其中，预定字符顺序特征和预定字符统计特征是在训练文本识别模型的过程中，与文本识别模型同步训练所得到的。

根据本公开的第二个方面，提供了一种文本识别模型的训练方法，其中，文本识别模型包括特征提取网络、融合网络和解码网络，训练方法包括：采用特征提取网络提取样本文本图像的视觉特征；样本文本图像具有指示实际文本的第一标签；采用融合网络融合视觉特征、待训练的字符顺序特征和待训练的字符统计特征，得到融合特征；采用解码网络对融合特征进行解码，得到解码特征；根据解码特征，确定指示样本文本图像中的文本的预测信息；以及根据预测信息和实际文本，对文本识别模型、待训练的字符顺序特征和待训练的字符统计特征进行训练，其中，待训练的字符顺序特征和待训练的字符统计特征的初始特征为随机生成的特征。

根据本公开的第三个方面，提供了一种文本识别装置，包括：特征提取模块，用于采用文本识别模型中的特征提取网络提取待识别文本图像的视觉特征；特征融合模块，用于采用文本识别模型中的融合网络融合视觉特征、预定字符顺序特征和预定字符统计特征，得到融合特征；特征解码模块，用于采用文本识别模型中的解码网络对融合特征进行解码，得到解码特征；以及文本确定模块，用于根据解码特征，确定待识别文本图像中的文本，其中，预定字符顺序特征和预定字符统计特征是在训练文本识别模型的过程中，与文本识别模型同步训练所得到的。

根据本公开的第四个方面，提供了一种文本识别模型的训练装置，其中，文本识别模型包括特征提取网络、融合网络和解码网络；训练装置包括：特征提取模块，用于采用特征提取网络提取样本文本图像的视觉特征；样本文本图像具有指示实际文本的第一标签；特征融合模块，用于采用融合网络融合视觉特征、待训练的字符顺序特征和待训练的字符统计特征，得到融合特征；特征解码模块，用于采用解码网络对融合特征进行解码，得到解码特征；预测模块，用于根据解码特征，确定指示样本文本图像中的文本的预测信息；以及模型训练模块，用于根据预测信息和实际文本，对文本识别模型、待训练的字符顺序特征和待训练的字符统计特征进行训练，其中，待训练的字符顺序特征和待训练的字符统计特征的初始特征为随机生成的特征。

根据本公开的第五个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的文本识别方法和/或文本识别模型的训练方法。

根据本公开的第六个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的文本识别方法和/或文本识别模型的训练方法。

根据本公开的第七个方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，所述计算机程序/指令在被处理器执行时实现本公开提供的文本识别方法和/或文本识别模型的训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的文本识别方法和/或文本识别模型的训练方法、装置的应用场景示意图；

图2是根据本公开实施例的文本识别方法的流程示意图；

图3是根据本公开第一实施例的得到融合特征的原理示意图；

图4是根据本公开第二实施例的得到融合特征的原理示意图；

图5是根据本公开实施例的对融合特征进行解码的原理示意图；

图6是根据本公开实施例的文本识别方法的实现原理图；

图7是根据本公开实施例的文本识别模型的训练方法的流程示意图；

图8是根据本公开实施例的文本识别装置的结构框图；

图9是根据本公开实施例的文本识别模型的训练装置的结构框图；以及

图10是用来实施本公开实施例的文本识别方法和/或文本识别模型的训练方法的示例电子设备的示意性框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

场景文本识别任务的目的是识别自然场景的图像中的文本，并将其转录为计算机编码的字符，从而传达对场景理解至关重要的高级语义。场景文本识别方法可以采用由编码器和解码器串联构成的深度学习模型。其中，编码器用于提取图像的视觉特征。解码器用于识别视觉特征中存在的文本。其中，解码器可以使用连接时序分类(ConnectionistTemporal Classification，CTC)解码器、自回归(Auto-Regression，AR)解码器等。

其中，AR解码器的识别精度较高。AR解码器在识别文本时，是按照阅读顺序依次识别出文本中的字符的，且在识别在后字符时，需要利用已经识别的在前字符的信息作为辅助信息。因此，AR解码器识别文本的过程是迭代的。该种一次迭代识别出一个字符的方式对于包括多个字符的文本的识别而言是低效的，即解码速度较慢。

其中，由于CTC解码器等并行解码器(Parallel Decoder)在识别每个字符时不依赖于其他字符，因此可以一次性识别出文本中的所有字符，具有推理速度快的优点。但该些解码器解码过程中由于缺乏已解码字符上下文的辅助信息，因此识别出的字符的精度低于AR解码器识别出的字符。

主流方法中，为了追求更高的精度，通常采用自回归解码器或其变种。但在实际场景中，如需要在移动端进行文本识别，则除了需要模型具有较高的精度外，还要求模型的解码速度较快。

为了解决上述问题，本公开提供了一种文本识别方法和文本识别模型的训练方法、装置、设备和介质。以下先结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的文本识别方法和文本识别模型的训练方法、装置的应用场景示意图。

如图1所示，该实施例的应用场景100可以包括电子设备110，该电子设备110可以是具有处理功能的各种电子设备，例如可以为智能手表、智能手机、平板电脑、便携式计算机或台式计算机等。

例如，该电子设备110可以安装有各种客户端应用，例如图像处理类应用、文本识别类应用和/或即时通信类应用(仅为示例)等。

在一实施例中，电子设备110可以对输入的场景文本图像120进行识别，识别得到该场景文本图像120中的文本“ARTETA”130。其中，场景文本图像120例如可以为对具有字符的牌匾或广告栏等拍摄得到的图像。

在一实施例中，电子设备110可以采用文本识别模型140来对输入的场景文本图像120进行识别。具体地，可以将场景文本图像120输入文本识别模型140中，根据文本识别模型140输出的信息来得到文本“ARTETA”130。

在一实施例中，该应用场景100还可以包括服务器150，该服务器150可以是为电子设备110中安装的客户端应用的运行提供支持的后台管理服务器，或者是云服务器、结合了区块链技术的服务器等，本公开对此不做限定。电子设备110例如可以通过网络与服务器150通信连接，服务器150可以将训练得到的文本识别模型140发送给电子设备110。

在一实施例中，服务器150在训练文本识别模型140时，例如还可以一并训练得到学习了字符统计信息的字符统计特征，以及学习了字符顺序信息的字符顺序特征，并将字符统计特征和字符顺序特征发送给电子设备110，以使得电子设备110在采用文本识别模型识别场景文本图像120中的文本时，可以将该字符统计特征和字符顺序特征作为辅助信息。

在一实施例中，电子设备110例如还可以将输入的场景文本图像120经由网络发送给服务器150，由服务器150利用训练得到的文本识别模型140来识别场景文本图像120中的文本，得到文本“ARTETA”130。

需要说明的是，本公开提供的文本识别方法可以由电子设备110执行，也可以由服务器150执行。相应地，本公开提供的文本识别装置可以设置在电子设备110中，也可以设置在服务器150中。本公开提供的文本识别模型的训练方法可以由服务器150执行。相应地，本公开提供的文本识别模型的训练装置可以设置在服务器150中。

应该理解，图1中的电子设备110、场景文本图像120和服务器150的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的电子设备110、场景文本图像120和服务器150。

以下将结合图2～图6对本公开提供的文本识别方法进行详细描述。

图2是根据本公开实施例的文本识别方法的流程示意图。

如图2所示，该实施例的文本识别方法200可以包括操作S210～操作S240。

在操作S210，采用文本识别模型中的特征提取网络提取待识别文本图像的视觉特征。

根据本公开的实施例，特征提取网络可以采用前述的编码器，例如可以采用卷积神经网络或Transformer模型中的编码器。其中，卷积神经网络具体可以采用VGG(VisualGeometry Group)系列模型中的卷积层结构、残差网络(Residual Network，ResNet)中的卷积层结构等中的一种。Transformer模型例如可以为Vi-Transformer、Swin-Transformer、基于单视觉模型的场景文本识别模型(Scene Text Recognition with Single VisualModel)等中的一种。

该实施例中，可以将待识别文本图像输入特征提取网络，经由特征提取网络处理后，由特征提取网络输出视觉特征。其中，待识别文本图像例如可以为前述的场景文本图像，也可以为任意的具有文本的图像，本公开对此不做限定。

例如，若待识别文本图像的尺寸为3×32×100，其中，3表示为RGB三个通道，32表示图像的高度，100表示图像的高度，则该待识别文本图像经由特征提取网络处理后，提取得到的视觉特征的尺寸可以为2×25×D。其中，通过将高度32除以16可以得到2，将宽度100除以4可以得到5，D为特征图中单个像素的特征维度。可以理解的是，对于固定尺寸的待识别文本图像，提取得到的视觉特征的尺寸取决于采用的特征提取网络的结构，本公开对此不做限定。

在操作S220，采用文本识别模型中的融合网络融合视觉特征、预定字符顺序特征和预定字符统计特征，得到融合特征。

根据本公开的实施例，预定字符顺序特征和预定字符统计特征可以是在训练文本识别模型的过程中，与文本识别模型同步训练所得到的。其中，预定字符顺序特征例如可以通过训练学习到文本的顺序信息，字符统计特征例如可以通过训练学习到文本的统计信息。例如，预定字符顺序特征的尺寸可以为N×D，其中，N可以为文本识别场景中，文本所包括的字符的最大个数，N为正整数，例如N的取值可以为26。预定字符统计特征的尺寸例如可以为M×D，其中，M可以为预定字典中包括的字符个数或者文本识别模型可以识别的字符的总个数，M为正整数，例如M的取值可以为6625。

在一实施例中，融合网络可以包括整形层和拼接层。其中，整形层可以用于对视觉特征进行整形，例如可以将视觉特征的尺寸由2×25×D整形为50×D。拼接层可以用于对整形后的视觉特征、预定字符顺序特征和预定字符统计特征进行拼接，例如可以拼接得到尺寸为(50+M+N)×D的特征，该尺寸为(50+M+N)×D的特征可以作为融合特征。

在一实施例中，融合网络例如可以基于交叉注意力机制构建。例如，融合网络可以拼接预定字符顺序特征和预定字符统计特征，将该特征映射为查询特征，将视觉特征映射为键特征和值特征。随后，基于查询特征和键特征计算注意力矩阵，并将注意力矩阵与值特征相乘，从而得到融合特征。或者，融合网络还可以采用多头注意力(Multi-HeadAttention，MHA)网络，本公开对此不做限定。

在操作S230，采用文本识别模型中的解码网络对融合特征进行解码，得到解码特征。

根据本公开的实施例，解码网络例如可以采用空间规整网络(SpatialRegulation Network，SRN)、用于场景文本识别的自动双向且迭代的语言模型(Autonomous，Bidirectional and Iterative Language Modeling for Scene TextRecognition，ABINet)或视觉语言网络(Vision-LAN)等中的视觉推理模块。或者，解码网络例如可以采用基于多头注意力机制构建的网络，本公开对此不做限定。其中，SRN利用注意力机制，当图像中存在某个标签的时候，更多的注意力会放在相关的区域，从而标签的注意力图编码了标签对应的空间信息。

在一实施例中，可以将融合特征输入解码网络，经由解码网络处理后，由解码网络输出解码特征。或者，该实施例可以先将融合特征映射为查询特征，将视觉特征映射为键特征和值特征，随后采用交叉注意力机制来对查询特征、键特征和值特征进行处理，将处理得到的特征作为解码特征。如此，可以结合视觉特征和融合特征进行解码，在解码过程中能够更为全面的参考视觉特征。

例如，解码特征可以以序列的形式输出，序列中的每个特征可以表示文本中一个字符的特征。可以理解的是，对于文本中的多个字符而言，该解码网络的解码过程是并行的，解码得到每个字符的特征的过程不依赖于每个字符的在前字符的特征。

在操作S240，根据解码特征，确定待识别文本图像中的文本。

根据本公开的实施例，可以将解码特征经由分类器和归一化层处理后，输出预测向量序列。该预测向量序列中预测向量的个数例如可以为N，每个预测向量的尺寸例如可以为1×M。第i个预测向量可以包括文本中第i个字符为M个可识别字符的M个概率值。其中，i为大于等于1，且小于等于N的值。

该实施例可以将第i个预测向量中最大概率值所对应的可识别字符作为文本中的第i个字符，将得到的N个字符按预测向量的顺序拼接，得到待识别文本图像中的文本。

本公开实施例的文本识别方法，通过在训练文本识别模型时，同步地训练得到字符顺序特征和字符统计特征，并在文本识别过程中，将字符顺序特征、字符统计特征和提取的视觉特征融合后进行解码，可以使得解码过程可以参考上下文信息(具体包括字符顺序信息和字符统计信息)，而无需依赖已解码得到的字符，因此，可以采用并行解码的方式来完成字符识别的推理过程。从而可以使得文本识别方法兼顾解码速度和文本识别精度，使得文本识别方法可以应用于移动端等计算能力较小的场景。

图3是根据本公开第一实施例的得到融合特征的原理示意图。

在一实施例中，在得到融合特征时，例如可以先采用交叉注意力机制来融合预定字符统计特征和视觉特征，随后再对融合得到的特征与预定字符顺序特征进行进一步的融合。如此，可以使得得到的融合特征可以更好地体现视觉特征与预定字符统计特征之间的关联关系，从而可以使得解码过程更好地感知字符统计上下文信息，利于提高文本识别精度。

如图3所示，在实施例300中，可以采用特征提取网络310对待识别文本图像301进行特征提取，得到视觉特征302。融合网络例如可以包括字符统计融合子网络321和整体融合子网络322。该实施例可以先采用字符统计融合子网络321来利用交叉注意力机制融合预训练得到的预定字符统计特征303和视觉特征302，从而得到第一融合子特征。随后，可以采用整体融合子网络322来根据第一融合子特征和预训练得到的预定字符顺序特征304，来得到融合特征305。

示例性地，字符统计融合子网络321可以将预训练得到的预定字符统计特征303映射为查询特征，将视觉特征302映射为键特征和值特征。随后，采用交叉注意力机制对查询特征、键特征和值特征进行处理。例如可以根据查询特征和键特征计算得到注意力矩阵，随后采用注意力矩阵作为权重与值特征相乘，得到第一融合子特征。可以理解的是，字符统计融合子网络321例如可以采用MHA网络架构，本公开对此不做限定。

示例性地，字符统计融合子网络321还可以将预定字符统计特征303和视觉特征302拼接，将拼接得到的特征映射为查询特征。同时将视觉特征302映射为键特征和值特征。随后，采用交叉注意力机制对查询特征、键特征和值特征进行处理。如此，由于查询特征通过拼接预定字符统计特征303和视觉特征302来得到，因此查询特征可以更好地表达文本信息，利于提高得到的第一融合子特征的表达能力，提高最终识别得到的文本的精度。可以理解的是，在拼接预定字符统计特征303和视觉特征302时，字符统计融合子网络321可以先对视觉特征302进行整形，随后再对预定字符统计特征与整形后的视觉特征进行拼接。

具体地，可以将拼接预定字符统计特征303和视觉特征302所得到的特征作为查询特征。基于交叉注意力机制的原理可知，采用交叉注意力机制融合得到的第一融合子特征包括与预定字符统计特征303对应的第一子特征和与视觉特征302对应的第二子特征。可以理解的是，得到的第一子特征为融合了视觉信息的字符统计特征，得到的第二子特征为融合了字符统计信息的视觉特征。

如图3所示，该实施例300在得到第一融合子特征后，可以将第一融合子特征和预训练得到的预定字符顺序特征304输入整体融合子网络322，由整体融合子网络322对输入的特征进行处理后，输出融合特征305。

示例性地，整体融合子网络322可以拼接第一融合子特征和预定字符顺序特征304，并对拼接得到的特征进行卷积运算等，从而得到融合特征305。

示例性地，整体融合子网络322还可以采用交叉注意机制来融合第一融合子特征和预定字符顺序特征。例如，整体融合子网络322可以将预定字符顺序特征映射为查询特征，将第一融合子特征映射为键特征和值特征，采用交叉注意力机制对查询特征、键特征和值特征进行处理，从而得到融合特征305。例如，整体融合子网络可以仅将第一融合子特征中与视觉特征对应的第二子特征映射为键特征和值特征。考虑到该第二子特征已经融合了字符统计信息，因此，通过仅将第二子特征映射为键特征和值特征，可以在保证融合得到的融合特征305的表达能力的基础上，减少整体融合子网络的计算量，利于提高文本识别的效率。这是由于文本识别模型可以识别的字符通常较多，第一融合子特征中与预定字符统计特征对应的第一子特征的尺寸通常较大，将该第一子特征加入到整体融合子网络的计算中，会带来较大的计算量的额外开销。

可以理解的是，整体融合子网络322采用的交叉注意力机制与字符统计融合子网络采用的交叉注意力机制的原理类似。上述整体融合子网络322融合第一融合子特征和预定字符顺序特征的原理仅作为示例以利于理解本公开，本公开对此不做限定。

图4是根据本公开第二实施例的得到融合特征的原理示意图。

在一实施例中，在得到融合特征时，除了采用交叉注意力机制来融合预定字符统计特征和视觉特征外，还可以采用交叉注意力机制来融合预定字符顺序特征和视觉特征。如此，可以使得得到的融合特征可以更好地体现视觉特征与预定字符顺序特征之间的关联关系，从而可以使得解码过程更好地感知字符顺序上下文信息，利于提高文本识别精度。

如图4所示，在实施例400中，可以采用特征提取网络410对待识别文本图像401进行特征提取，得到视觉特征402。融合网络除了包括字符统计融合子网络421和整体融合子网络422外，还可以包括字符顺序融合子网络423。其中，字符统计融合子网络421与上文描述的实施例300中的字符统计融合子网络321类似，用于利用交叉注意力机制融合预训练得到的预定字符统计特征403和视觉特征402，从而得到第一融合子特征。

例如，字符顺序融合子网络423可以利用交叉注意力机制融合预定字符顺序特征404和视觉特征402，从而得到第二融合子特征。该字符顺序融合子网络423融合预定字符顺序特征404和视觉特征402可以与字符统计融合子网络421融合预定字符统计特征403和视觉特征402的原理类似，例如，字符顺序融合子网络423可以采用MHA网络架构，本公开对此不做限定。

示例性地，字符顺序融合子网络423可以将预定字符顺序特征404映射为查询特征，将视觉特征402映射为键特征和值特征，随后采用交叉注意力机制对查询特征、键特征和值特征进行处理，从而得到第二融合子特征。

示例性地，字符顺序融合子网络423还可以将预定字符顺序特征404和视觉特征402拼接，将拼接得到的特征映射为查询特征。同时将视觉特征402映射为键特征和值特征。随后，采用交叉注意力机制对查询特征、键特征和值特征进行处理。如此，由于查询特征通过拼接预定字符顺序特征404和视觉特征402来得到，因此查询特征可以更好地表达文本信息，利于提高得到的第二融合子特征的表达能力，提高最终识别得到的文本的精度。

具体地，可以将拼接预定字符顺序特征404和视觉特征402所得到的特征作为查询特征。基于交叉注意力机制的原理可知，采用交叉注意力机制融合得到的第二融合子特征包括与预定字符顺序特征404对应的第三子特征和与视觉特征402对应的第四子特征。可以理解的是，得到的第三子特征为融合了视觉信息的字符顺序特征，得到的第四子特征为融合了字符顺序信息的视觉特征。

如图4所示，该实施例400在得到第一融合子特征和第二融合子特征后，可以将第一融合子特征和第二融合子特征输入整体融合子网络422，由整体融合子网络422对输入的特征进行处理后，输出融合特征405。

示例性地，整体融合子网络422可以拼接第一融合子特征和第二融合子特征，并对拼接得到的特征进行卷积运算等，从而得到融合特征405。

示例性地，整体融合子网络422还可以采用交叉注意力机制来融合第一融合子特征和第二融合子特征。例如，可以将第一融合子特征和第二融合子特征拼接后映射为查询特征，将视觉特征402映射为键特征和值特征，采用交叉注意力机制来对查询特征、键特征和值特征进行处理，得到融合特征405。

示例性地，在第一融合子特征包括第一子特征和第二子特征，第二融合子特征包括第三子特征和第四子特征的情况下，整体融合子网络422可以将第一子特征和第三子特征拼接后映射为查询特征，将第二子特征和第四子特征拼接后映射为键特征和值特征。随后，整体融合子网络422可以采用交叉注意力机制来对查询特征、键特征和值特征进行处理，从而得到融合特征405。

示例性地，在融合第一融合子特征和第二融合子特征时，也可以不考虑第一子特征，以此减少整体融合子网络422的计算量。例如，整体融合子网络422可以将第三子特征映射为查询特征，将第二子特征和第四子特征拼接后映射为键特征和值特征。或者，可以将第三子特征映射为查询特征，将第四子特征映射为键特征，将第二子特征映射为值特征。即，采用融合了视觉信息的字符顺序特征(即第三子特征)和融合了字符顺序信息的视觉特征(即第四子特征)计算注意力矩阵，并将该注意力矩阵作用于融合了字符统计信息的视觉特征(即第二子特征)。如此，可以将字符顺序信息参与到权重的计算中，并对相较于融合了字符顺序信息的视觉特征而言能够表达更为丰富的上下文信息的融合了字符统计信息的视觉特征进行加权，利于提高处理得到的融合特征的表达能力，并因此利于提高字符识别精度。

图5是根据本公开实施例的对融合特征进行解码的原理示意图。

根据本公开的实施例，在解码时，可以先采用自注意力机制来对融合特征进行处理，随后根据处理后的融合特征和视觉特征进行推理和解码。如此，可以使得推理和解码的过程中所考虑的融合特征能够更好地表达视觉信息、字符顺序信息和字符统计信息，利于提高解码和推理的准确性，提高文本识别精度。

如图5所示，在实施例500中，解码网络可以包括自注意力子网络510和交叉注意力子网络520，该实施例500在得到融合特征501后，可以将融合特征501输入自注意力子网络510，由自注意力子网络510采用自注意力机制来对融合特征501进行处理，将自注意力子网络510的输出特征作为查询特征。同时，该实施例可以将采用特征提取网络所提取的视觉特征502作为键特征和值特征。随后，将查询特征、键特征和值特征输入交叉注意力子网络520。由交叉注意力子网络520采用交叉注意力机制来对查询特征、键特征和值特征进行处理，从而得到解码特征503。

其中，自注意力子网络510可以采用多头自注意力(Multi-Head Self-Attention，MHSA)网络，交叉注意力子网络520可以采用MHA网络，本公开对此不做限定。例如，自注意力子网络510可以将融合特征501映射为查询特征、键特征和值特征，随后采用自注意力机制对查询特征、键特征和值特征进行处理，从而得到输入交叉注意力子网络520的查询特征。

示例性地，在通过上文描述的方式得到包括第二子特征的第一融合子特征的情况下，交叉注意力子网络520例如可以将该第二子特征映射为键特征和值特征。如此，在解码和推理的过程中，可以考虑融合了字符统计信息的视觉特征，可以更好地学习到字符统计信息，利于提高得到的解码特征的精度。

图6是根据本公开实施例的文本识别方法的实现原理图。

如图6，在实施例600中，在需要对待识别文本图像601进行文本识别时，可以采用包括特征提取网络610、融合网络、解码网络和预测网络的文本识别模型。其中，融合网络可以包括字符统计融合子网络621、字符顺序融合子网络623和整体融合子网络622。解码网络可以包括自注意力子网络631和交叉注意力子网络632。预测网络可以包括分类器641，用于根据解码网络预测文本中每个字符的类别。例如，预测网络还可以包括基于Softmax函数等构建的归一化层，用于对分类器641输出的概率向量进行归一化处理。

例如，在文本识别过程中，将待识别文本图像601输入特征提取网络610，由特征提取网络610提取得到待识别文本图像601的视觉特征602。字符统计融合子网络621可以对预训练得到的预定字符统计特征603和视觉特征602进行融合，得到第一融合子特征。同时，字符顺序融合子网络623可以对预训练得到的预定字符顺序特征604和视觉特征602进行融合，得到第二融合子特征。

在该实施例600中，字符统计融合子网络621可以将拼接预训练得到的预定字符统计特征603和视觉特征602所得到的特征作为查询特征，将视觉特征602作为键特征和值特征。相应地，得到的第一融合子特征包括前文描述的第一子特征和第二子特征。相应地，字符顺序融合子网络623可以将拼接预训练得到的预定字符顺序特征604和视觉特征602所得到的特征作为查询特征，将视觉特征602作为键特征和值特征。相应地，得到的第二融合子特征包括前文描述的第三子特征和第四子特征。在该实施例中，整体融合子网络622可以将第三子特征作为查询特征，将第四子特征作为键特征，将第二子特征作为值特征进行交叉注意力运算，从而得到融合特征。

该融合特征可以作为输入自注意力子网络631的查询特征、键特征和值特征，经由自注意力子网络631处理后，得到输入交叉注意力子网络632的查询特征Q。同时，文本识别模型可以将第二子特征与视觉特征602相加后得到的相加后特征映射为输入交叉注意力子网络632的键特征K和值特征V。如此，解码网络在解码和推理的过程中，不仅可以考虑融合了字符统计信息的视觉特征，还可以考虑表达的视觉信息更为全面的视觉特征。如此，在解码和推理的过程中，可以更为全面地学习到视觉信息和字符统计信息，可以进一步地提高解码得到的解码特征的精度。

该实施例600可以将交叉注意力子网络632输出的特征作为解码特征。随后，可以将解码特征输入分类器641，由分类器对该解码特征进行处理，得到概率向量序列。该概率向量序列经由基于Sofimax函数构建的归一化层642处理后可以得到归一化的概率向量序列，即概率向量序列中每个概率向量包括的多个概率值之和为1。该实施例600中，可以将概率向量序列中各概率向量包括的最大概率值所对应的字符和各概率向量在概率向量序列中的排列顺序，来确定待识别文本图像中的文本。其中，各概率向量包括与多个可识别字符对应的多个概率值。该多个可识别字符例如可以包括终止字符[EOF]。例如，若概率向量序列中前六个概率向量的最大概率值所对应的字符为“A”、“R”、“T”、“E”、“T”、“A”，除该前六个概率向量外其他概率向量的最大概率值所对应的字符均为终止字符[EOF]，则可以确定待识别文本图像601中的文本为“ARTETA”605。

可以理解的是，在一实施例中，字符统计融合子网络621、字符顺序融合子网络623、整体融合子网络622可以均基于Transformer Block构成，且每个子网络包括的Transformer Block可以为一个或多个，在包括多个Transformer Block时，多个Transformer Block可以按自先至后的顺序连接。其中，每个Transformer Block可以基于MHA构建。在一实施例中，自注意力子网络631和交叉注意力子网络632例如可以构成一个Block，解码网络可以由多个Block依次连接构成。每个Block中的自注意力子网络631用于对查询特征进行自注意力运算，得到新的查询特征。且每个Block中的自注意力子网络631和交叉注意力子网络632可以基于Transformer Block构成，本公开对此不做限定。

通过本公开实施例的文本识别原理，可以在解码过程中解析到字符顺序信息和字符统计信息，可以提高并行解码方案的精度。再者，相较于迭代解码的方案，可以提升大约7倍以上的解码速度。该实施例的文本识别原理，可以较好地应用在多语言文本识别场景中。

为了便于本公开实施例的文本识别方法的实施，本公开还提供了一种文本识别模型的训练方法，以下将结合图7对该方法进行详细描述。

图7是根据本公开实施例的文本识别模型的训练方法的流程示意图。

如图7所示，该实施例的文本识别模型的训练方法700可以包括操作S710～操作S750。其中，文本识别模型至少包括前述的特征提取网络、融合网络和解码网络。

在操作S710，采用特征提取网络提取样本文本图像的视觉特征。

根据本公开的实施例，样本文本图像与前述的待识别文本图像的主要区别在于，样本文本图像具有指示实际文本的第一标签。实际文本可以为人工识别得到的，本公开对此不做限定。该操作S710的实现原理与上文描述的操作S210的实现原理类似，在此不再赘述。

在操作S720，采用融合网络融合视觉特征、待训练的字符顺序特征和待训练的字符统计特征，得到融合特征。

在一实施例中，操作S720的实现原理与上文描述的操作S220的实现原理类似，区别在于，该操作S720中的字符顺序特征和字符统计特征均为待训练的特征。具体地，字符顺序特征和字符统计特征是在训练方法的执行过程中，不断更新迭代的。该字符顺序特征和字符统计特征的更新迭代原理与文本识别模型中的网络参数的更新迭代原理类似。

示例性地，字符顺序特征和字符统计特征的初始特征均可以为随机生成的特征。例如，字符顺序特征的初始特征可以使用均值为0、方差为0.2的截距正态分布进行随机初始化。类似地，字符统计特征的初始特征也可以采用均值为0、方差为0.2的截距正态分布进行随机初始化。可以理解的是，该实施例所采用的均值和方差均作为示例以利于理解本公开，且初始特征满足的分布类型也仅作为示例以利于理解本公开，本公开对此不做限定。

在一实施例中，操作S720可以采用上文实施例300所描述的原理来得到融合特征。例如，可以先采用交叉注意力机制融合待训练的字符统计特征和视觉特征，得到第一融合子特征。随后，根据第一融合子特征和待训练的字符顺序特征，得到融合特征。

示例性地，可以先拼接待训练的字符统计特征和视觉特征，得到查询特征。随后根据视觉特征来得到键特征和值特征。随后，采用交叉注意力机制对第一查询特征、第一键特征和第一值特征进行处理，从而得到第一融合子特征。相应地，第一融合子特征包括与字符统计特征对应的第一子特征以及与视觉特征对应的第二子特征。

在一实施例中，操作S720还可以采用上文实施例400所描述的原理来得到融合特征。例如，在根据第一融合子特征和待训练的字符顺序特征，得到融合特征的过程中，可以采用交叉注意力机制融合待训练的字符顺序特征和视觉特征，得到第二融合子特征。随后根据第一融合子特征和第二融合子特征，得到融合特征。

示例性地，可以先拼接待训练的字符顺序特征和视觉特征，得到查询特征。随后根据视觉特征，得到键特征和值特征。随后采用交叉注意力机制对查询特征、键特征和值特征进行处理，从而得到第二融合子特征。相应地，第二融合子特征可以包括与待训练的字符顺序特征对应的第三子特征以及与视觉特征对应的第四子特征。

在操作S730，采用解码网络对融合特征进行解码，得到解码特征。

在一实施例中，操作S730的实现原理与操作S230的实现原理类似，或者，操作是730可以采用上文实施例500所描述的原理来得到解码特征，或者采用上文实施例600中的自注意力子网络和交叉注意力子网络来得到解码特征，本公开对此不做限定。

在操作S740，根据解码特征，确定指示样本文本图像中的文本的预测信息。

根据本公开的实施例，该操作S740例如可以采用分类器来对解码特征进行处理，得到概率向量序列。该实施例还可以对该概率向量序列中的每个概率向量进行归一化处理，得到归一化之后的概率向量序列，并将该归一化之后的概率向量序列作为预测信息。

在操作S750，根据预测信息和实际文本，对文本识别模型、待训练的字符顺序特征和待训练的字符统计特征进行训练。

该实施例中，可以确定概率向量序列中与实际文本中的每个字符对应的概率向量。将对应的概率向量中与每个字符对应的概率值代入损失函数，从而得到损失值。例如，若实际文本中的第j个字符为“a”，该实施例可以将概率向量序列中排在第j位的概率向量作为与第j个字符对应的概率向量，将排在第j位的概率向量中与字符“a”对应的概率值代入用于计算识别损失值的损失函数中。其中，用于计算识别损失值的损失函数例如可以采用CTC(Connectionist Temporal Classification)损失等，本公开对此不做限定。

该实施例中，可以以最小化识别损失值为目标，采用反向传播算法来调整文本识别模型中的网络参数、待训练的字符顺序特征和待训练的字符统计特征，从而实现对文本识别模型、待训练的字符顺序特征和待训练的字符统计特征的训练。

在一实施例中，在得到融合特征的过程中，若生成了包括第一子特征的第一融合子特征，则该实施例还可以根据该第一融合子特征来确定文本的预测字符统计信息。相应地，可以为样本文本图像预先设置指示实际文本的实际字符统计信息的第二标签。基于此，该实施例可以根据预测字符统计信息与实际字符统计信息之间的差异，来对文本识别模型、待训练的字符顺序特征和待训练的字符统计特征进行训练。从而可以使得待训练的字符统计特征和文本识别模型可以学习到字符统计信息，利于提高训练得到的预定字符统计特征和文本识别模型的精度。

例如，该实施例可以将第一子特征输入一个多分类器，该多分类器针对可识别的字符中的每个字符，输出一个概率向量，该概率向量包括与多个预定次数对应的概率值，每个概率值用于表示该每个字符在样本文本图像的实际文本中出现对应的预定次数的概率值。可以理解的是，多个预定次数的最大值例如应小于等于上文描述的N，本公开对此不做限定。在得到概率向量后，例如可以采用交叉熵损失函数来计算统计损失值。随后，以最小化该统计损失值为目标对文本识别模型、待训练的字符顺序特征和待训练的字符统计特征进行训练。例如，可以采用以下公式(1)来计算统计损失值。

其中，C表示可识别的字符总数，c为C个总字符中的第c个字符，L表示多个预定次数中的最大值，l表示预定次数的取值，若实际文本中，第c个字符的统计次数为l，则y_c，l的取值为1，否则y_c，l的取值为0。p_c，l为针对第c个字符得到的概率向量中与预定次数l对应的概率值。

在一实施例中，在得到融合特征的过程中，若生成了包括第三子特征的第二融合子特征，则该实施例还可以根据该第二融合子特征来确定文本的预测字符顺序信息。相应地，可以为样本文本图像预先设置指示实际文本的实际字符顺序信息的第三标签。基于此，该实施例可以根据预测字符顺序信息与实际字符顺序信息之间的差异，来对文本识别模型、待训练的字符顺序特征和待训练的字符统计特征进行训练。从而可以使得待训练的字符顺序特征和文本识别模型可以学习到字符顺序信息，利于提高训练得到的预定字符顺序特征和文本识别模型的精度。

例如，该实施例可以将第三子特征输入一个二分类器，该二分类器针对每个字符位置输出一个概率值，从而构成一个概率向量。其中，针对每个位置输出的概率值用于表示预测得到的该每个位置处存在字符的概率。在得到概率向量后，例如可以采用交叉熵损失函数来计算顺序损失值。随后，以最小化该顺序损失值为目标对文本识别模型、待训练的字符顺序特征和待训练的字符统计特征进行训练。例如，可以采用以下公式(2)来计算顺序损失值。

其中，L表示场景中文本的最大长度，l表示第l个字符位置。若实际文本中，第l个字符位置处有字符，则y_l的取值为1，否则y_l的取值为0。p_l为预测得到的第l个字符位置处有字符的概率值。

在一实施例中，可以将上文描述的识别损失值、统计损失值和顺序损失值的加权和作为总损失值，以最小化总损失值为目标，对文本识别模型、待训练的字符顺序特征和待训练的字符统计特征进行训练。其中，计算加权和时所采用的权重可以根据实际需求进行设定，本公开对此不做限定。

基于本公开提供的文本识别方法，本公开还提供了一种文本识别装置，以下将结合图8对该装置进行详细描述。

图8是根据本公开实施例的文本识别装置的结构框图。

如图8所示，该实施例的文本识别装置800包括第一特征提取模块810、第一特征融合模块820、第一特征解码模块830和文本确定模块840。

第一特征提取模块810用于采用文本识别模型中的特征提取网络提取待识别文本图像的视觉特征。在一实施例中，第一特征提取模块810可以用于执行上文描述的操作S210，在此不再赘述。

第一特征融合模块820用于采用文本识别模型中的融合网络融合视觉特征、预定字符顺序特征和预定字符统计特征，得到融合特征。其中，预定字符顺序特征和预定字符统计特征是在训练文本识别模型的过程中，与文本识别模型同步训练所得到的。在一实施例中，第一特征融合模块820可以用于执行上文描述的操作S220，在此不再赘述。

第一特征解码模块830用于采用文本识别模型中的解码网络对融合特征进行解码，得到解码特征。在一实施例中，第一特征解码模块830可以用于执行上文描述的操作S230，在此不再赘述。

文本确定模块840用于根据解码特征，确定待识别文本图像中的文本。在一实施例中，文本确定模块840可以用于执行上文描述的操作S240，在此不再赘述。

根据本公开的实施例，第一特征融合模块可以包括：第一融合子模块，用于采用交叉注意力机制融合预定字符统计特征和视觉特征，得到第一融合子特征；以及第二融合子模块，用于根据第一融合子特征和预定字符顺序特征，得到融合特征。

根据本公开的实施例，第二融合子模块包括：第一融合单元，用于采用交叉注意力机制融合预定字符顺序特征和视觉特征，得到第二融合子特征；以及第二融合单元，用于根据第一融合子特征和第二融合子特征，得到融合特征。

根据本公开的实施例，上述第一融合子模块用于：拼接预定字符统计特征和视觉特征，得到第一查询特征；根据视觉特征，得到第一键特征和第一值特征；以及采用交叉注意力机制对第一查询特征、第一键特征和第一值特征进行处理，得到第一融合子特征，其中，第一融合子特征包括与预定字符统计特征对应的第一子特征以及与视觉特征对应的第二子特征。

根据本公开的实施例，第一融合单元用于：拼接预定字符顺序特征和视觉特征，得到第二查询特征；根据视觉特征，得到第二键特征和第二值特征；以及采用交叉注意力机制对第二查询特征、第二键特征和第二值特征进行处理，得到第二融合子特征，其中，第二融合子特征包括与预定字符顺序特征对应的第三子特征以及与视觉特征对应的第四子特征。

根据本公开的实施例，第二融合单元用于：根据第三子特征，得到第三查询特征；根据第四子特征，得到第三键特征；根据第二子特征，得到第三值特征；以及采用交叉注意力机制对第三查询特征、第三键特征和第三值特征进行处理，得到融合特征。

根据本公开的实施例，第二融合子模块用于：根据预定字符顺序特征，得到第四查询特征；根据第二子特征，得到第四键特征和第四值特征；以及采用交叉注意力机制对第四查询特征、第四键特征和第四值特征进行处理，得到融合特征。

根据本公开的实施例，上述第一特征解码模块830可以包括：自注意力子模块，用于采用自注意力机制对融合特征进行处理，得到第五查询特征；映射子模块，用于根据视觉特征，得到第五键特征和第五值特征；以及交叉注意力子模块，用于采用交叉注意力机制对第五查询特征、第五键特征和第五值特征进行处理，得到解码特征。

根据本公开的实施例，映射子模块包括：相加单元，用于将视觉特征和第二子特征相加，得到相加后特征；以及映射单元，用于根据相加后特征，得到第五键特征和第五值特征。

根据本公开的实施例，文本确定模块包括：分类子模块，用于采用分类器对解码特征进行处理，得到概率向量序列；以及文本确定子模块，用于根据概率向量序列中各概率向量包括的最大概率值所对应的字符及概率向量序列中各概率向量的顺序，确定待识别文本图像中的文本，其中，各概率向量包括与多个可识别字符对应的多个概率值。

基于本公开提供的文本识别模型的训练方法，本公开还提供了一种文本识别模型的训练装置，以下将结合图9对该装置进行详细描述。

图9是根据本公开实施例的文本识别模型的训练装置的结构框图。

如图9所示，该实施例的文本识别模型的训练装置900可以包括第二特征提取模块910、第二特征融合模块920、第二特征解码模块930、预测模块940和模型训练模块950。文本识别模型可以包括特征提取网络、融合网络和解码网络。

第二特征提取模块910用于采用特征提取网络提取样本文本图像的视觉特征；样本文本图像具有指示实际文本的第一标签。在一实施例中，第二特征提取模块910可以用于执行上文描述的操作S710，在此不再赘述。

第二特征融合模块920用于采用融合网络融合视觉特征、待训练的字符顺序特征和待训练的字符统计特征，得到融合特征。其中，待训练的字符顺序特征和待训练的字符统计特征的初始特征为随机生成的特征。在一实施例中，第二特征融合模块920可以用于执行上文描述的操作S720，在此不再赘述。

第二特征解码模块930用于采用解码网络对融合特征进行解码，得到解码特征。在一实施例中，第二特征解码模块930可以用于执行上文描述的操作S730，在此不再赘述。

预测模块940用于根据解码特征，确定指示样本文本图像中的文本的预测信息。在一实施例中，预测模块940可以用于执行上文描述的操作S740，在此不再赘述。

模型训练模块950用于根据预测信息和实际文本，对文本识别模型、待训练的字符顺序特征和待训练的字符统计特征进行训练。在一实施例中，模型训练模块950可以用于执行上文描述的操作S750，在此不再赘述。

根据本公开的实施例，第二特征融合模块可以包括：第一融合子模块，用于采用交叉注意力机制融合待训练的字符统计特征和视觉特征，得到第一融合子特征；以及第二融合子模块，用于根据第一融合子特征和待训练的字符顺序特征，得到融合特征。

根据本公开的实施例，第二融合子模块可以包括：第一融合单元，用于采用交叉注意力机制融合待训练的字符顺序特征和视觉特征，得到第二融合子特征；以及第二融合单元，用于根据第一融合子特征和第二融合子特征，得到融合特征。

根据本公开的实施例，第一融合子模块用于：拼接待训练的字符统计特征和视觉特征，得到第一查询特征；根据视觉特征，得到第一键特征和第一值特征；以及采用交叉注意力机制对第一查询特征、第一键特征和第一值特征进行处理，得到第一融合子特征，其中，第一融合子特征包括与待训练的字符统计特征对应的第一子特征以及与视觉特征对应的第二子特征。

根据本公开的实施例，样本文本图像具有指示实际文本的实际字符统计信息的第二标签；上述文本识别模型的训练装置900还可以包括：统计信息预测模块，用于根据第一子特征，确定样本文本图像中的文本的预测字符统计信息。上述模型训练模块950还可以用于：根据预测字符统计信息和实际字符统计信息，对文本识别模型、待训练的字符顺序特征和待训练的字符统计特征进行训练。

根据本公开的实施例，第一融合单元用于：拼接待训练的字符顺序特征和视觉特征，得到第二查询特征；根据视觉特征，得到第二键特征和第二值特征；以及采用交叉注意力机制对第二查询特征、第二键特征和第二值特征进行处理，得到第二融合子特征，其中，第二融合子特征包括与待训练的字符顺序特征对应的第三子特征以及与视觉特征对应的第四子特征。

根据本公开的实施例，样本文本图像具有指示实际文本的实际字符顺序信息的第三标签；上述文本识别模型的训练装置900还可以包括：顺序信息预测模块，用于根据第三子特征，确定样本文本图像中的文本的预测字符顺序信息。上述模型训练模块950还可以用于：根据预测字符顺序信息和实际字符顺序信息，对文本识别模型、待训练的字符顺序特征和待训练的字符统计特征进行训练。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开实施例的文本识别方法和/或文本识别模型的训练方法的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如文本识别方法和/或文本识别模型的训练方法。例如，在一些实施例中，文本识别方法和/或文本识别模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的文本识别方法和/或文本识别模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本识别方法和/或文本识别模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本识别方法，包括：

采用文本识别模型中的特征提取网络提取待识别文本图像的视觉特征；

采用文本识别模型中的融合网络融合所述视觉特征、预定字符顺序特征和预定字符统计特征，得到融合特征；

采用文本识别模型中的解码网络对所述融合特征进行解码，得到解码特征；以及

根据所述解码特征，确定所述待识别文本图像中的文本，

其中，所述预定字符顺序特征和所述预定字符统计特征是在训练所述文本识别模型的过程中，与所述文本识别模型同步训练所得到的。

2.根据权利要求1所述的方法，其中，所述采用文本识别模型中的融合网络融合视觉特征、预定字符顺序特征和预定字符统计特征，得到融合特征包括：

采用交叉注意力机制融合所述预定字符统计特征和所述视觉特征，得到第一融合子特征；以及

根据所述第一融合子特征和所述预定字符顺序特征，得到所述融合特征。

3.根据权利要求2所述的方法，其中，所述根据所述第一融合子特征和所述预定字符顺序特征，得到所述融合特征包括：

采用交叉注意力机制融合所述预定字符顺序特征和所述视觉特征，得到第二融合子特征；以及

根据所述第一融合子特征和所述第二融合子特征，得到所述融合特征。

4.根据权利要求2或3所述的方法，其中，所述采用交叉注意力机制融合所述预定字符统计特征和所述视觉特征，得到第一融合子特征包括：

拼接所述预定字符统计特征和所述视觉特征，得到第一查询特征；

根据所述视觉特征，得到第一键特征和第一值特征；以及

采用所述交叉注意力机制对所述第一查询特征、所述第一键特征和所述第一值特征进行处理，得到所述第一融合子特征，

其中，所述第一融合子特征包括与所述预定字符统计特征对应的第一子特征以及与所述视觉特征对应的第二子特征。

5.根据权利要求3或4所述的方法，其中，所述采用交叉注意力机制融合所述预定字符顺序特征和所述视觉特征，得到第二融合子特征包括：

拼接所述预定字符顺序特征和所述视觉特征，得到第二查询特征；

根据所述视觉特征，得到第二键特征和第二值特征；以及

采用所述交叉注意力机制对所述第二查询特征、所述第二键特征和所述第二值特征进行处理，得到所述第二融合子特征，

其中，所述第二融合子特征包括与所述预定字符顺序特征对应的第三子特征以及与所述视觉特征对应的第四子特征。

6.根据权利要求5所述的方法，其中，所述根据所述第一融合子特征和所述第二融合子特征，得到所述融合特征包括：

根据所述第三子特征，得到第三查询特征；

根据所述第四子特征，得到第三键特征；

根据所述第二子特征，得到第三值特征；以及

采用交叉注意力机制对所述第三查询特征、所述第三键特征和所述第三值特征进行处理，得到所述融合特征。

7.根据权利要求4所述的方法，其中，所述根据所述第一融合子特征和所述预定字符顺序特征，得到所述融合特征包括：

根据所述预定字符顺序特征，得到第四查询特征；

根据所述第二子特征，得到第四键特征和第四值特征；以及

采用交叉注意力机制对所述第四查询特征、所述第四键特征和所述第四值特征进行处理，得到所述融合特征。

8.根据权利要求1或4所述的方法，其中，所述采用文本识别模型中的解码网络对所述融合特征进行解码，得到解码特征包括：

采用自注意力机制对所述融合特征进行处理，得到第五查询特征；

根据所述视觉特征，得到第五键特征和第五值特征；以及

采用交叉注意力机制对所述第五查询特征、所述第五键特征和所述第五值特征进行处理，得到所述解码特征。

9.根据权利要求8所述的方法，其中，所述根据所述视觉特征，得到第五键特征和第五值特征包括：

将所述视觉特征和所述第二子特征相加，得到相加后特征；以及

根据所述相加后特征，得到所述第五键特征和所述第五值特征。

10.根据权利要求9所述的方法，其中，所述根据所述解码特征，确定所述待识别文本图像中的文本包括：

采用分类器对所述解码特征进行处理，得到概率向量序列；以及

根据所述概率向量序列中各概率向量包括的最大概率值所对应的字符及所述概率向量序列中各概率向量的顺序，确定所述待识别文本图像中的文本，

其中，所述各概率向量包括与多个可识别字符对应的多个概率值。

11.一种文本识别模型的训练方法，其中，所述文本识别模型包括特征提取网络、融合网络和解码网络；所述方法包括：

采用所述特征提取网络提取样本文本图像的视觉特征；所述样本文本图像具有指示实际文本的第一标签；

采用所述融合网络融合所述视觉特征、待训练的字符顺序特征和待训练的字符统计特征，得到融合特征；

采用所述解码网络对所述融合特征进行解码，得到解码特征；

根据所述解码特征，确定指示所述样本文本图像中的文本的预测信息；以及

根据所述预测信息和所述实际文本，对所述文本识别模型、所述待训练的字符顺序特征和所述待训练的字符统计特征进行训练，

其中，所述待训练的字符顺序特征和所述待训练的字符统计特征的初始特征为随机生成的特征。

12.根据权利要求11所述的方法，其中，所述采用文本识别模型中的融合网络融合视觉特征、预定字符顺序特征和预定字符统计特征，得到融合特征包括：

采用交叉注意力机制融合所述待训练的字符统计特征和所述视觉特征，得到第一融合子特征；以及

根据所述第一融合子特征和所述待训练的字符顺序特征，得到所述融合特征。

13.根据权利要求12所述的方法，其中，所述根据所述第一融合子特征和所述预定字符顺序特征，得到所述融合特征包括：

采用交叉注意力机制融合所述待训练的字符顺序特征和所述视觉特征，得到第二融合子特征；以及

14.根据权利要求12或13所述的方法，其中，所述采用交叉注意力机制融合所述预定字符统计特征和所述视觉特征，得到第一融合子特征包括：

拼接所述待训练的字符统计特征和所述视觉特征，得到第一查询特征；

根据所述视觉特征，得到第一键特征和第一值特征；以及

其中，所述第一融合子特征包括与所述待训练的字符统计特征对应的第一子特征以及与所述视觉特征对应的第二子特征。

15.根据权利要求14所述的方法，其中，所述样本文本图像具有指示实际文本的实际字符统计信息的第二标签；所述方法还包括：

根据所述第一子特征，确定所述样本文本图像中的文本的预测字符统计信息；以及

根据所述预测字符统计信息和所述实际字符统计信息，对所述文本识别模型、所述待训练的字符顺序特征和所述待训练的字符统计特征进行训练。

16.根据权利要求13～15中任一项所述的方法，其中，所述采用交叉注意力机制融合所述预定字符顺序特征和所述视觉特征，得到第二融合子特征包括：

拼接所述待训练的字符顺序特征和所述视觉特征，得到第二查询特征；

根据所述视觉特征，得到第二键特征和第二值特征；以及

其中，所述第二融合子特征包括与所述待训练的字符顺序特征对应的第三子特征以及与所述视觉特征对应的第四子特征。

17.根据权利要求16所述的方法，其中，所述样本文本图像具有指示实际文本的实际字符顺序信息的第三标签；所述方法还包括：

根据所述第三子特征，确定所述样本文本图像中的文本的预测字符顺序信息；以及

根据所述预测字符顺序信息和所述实际字符顺序信息，对所述文本识别模型、所述待训练的字符顺序特征和所述待训练的字符统计特征进行训练。

18.一种文本识别装置，包括：

特征提取模块，用于采用文本识别模型中的特征提取网络提取待识别文本图像的视觉特征；

特征融合模块，用于采用文本识别模型中的融合网络融合所述视觉特征、预定字符顺序特征和预定字符统计特征，得到融合特征；

特征解码模块，用于采用文本识别模型中的解码网络对所述融合特征进行解码，得到解码特征；以及

文本确定模块，用于根据所述解码特征，确定所述待识别文本图像中的文本，

19.根据权利要求18所述的装置，其中，所述特征融合模块包括：

第一融合子模块，用于采用交叉注意力机制融合所述预定字符统计特征和所述视觉特征，得到第一融合子特征；以及

第二融合子模块，用于根据所述第一融合子特征和所述预定字符顺序特征，得到所述融合特征。

20.根据权利要求19所述的装置，其中，所述第二融合子模块包括：

第一融合单元，用于采用交叉注意力机制融合所述预定字符顺序特征和所述视觉特征，得到第二融合子特征；以及

第二融合单元，用于根据所述第一融合子特征和所述第二融合子特征，得到所述融合特征。

21.根据权利要求19或20所述的装置，其中，所述第一融合子模块用于：

根据所述视觉特征，得到第一键特征和第一值特征；以及

22.根据权利要求20或21所述的装置，其中，所述第一融合单元用于：

根据所述视觉特征，得到第二键特征和第二值特征；以及

23.根据权利要求22所述的装置，其中，所述第二融合单元用于：

根据所述第三子特征，得到第三查询特征；

根据所述第四子特征，得到第三键特征；

根据所述第二子特征，得到第三值特征；以及

24.根据权利要求21所述的装置，其中，所述第二融合子模块用于：

根据所述预定字符顺序特征，得到第四查询特征；

根据所述第二子特征，得到第四键特征和第四值特征；以及

25.根据权利要求18或21所述的装置，其中，所述特征解码模块包括：

自注意力子模块，用于采用自注意力机制对所述融合特征进行处理，得到第五查询特征；

映射子模块，用于根据所述视觉特征，得到第五键特征和第五值特征；以及

交叉注意力子模块，用于采用交叉注意力机制对所述第五查询特征、所述第五键特征和所述第五值特征进行处理，得到所述解码特征。

26.根据权利要求25所述的装置，其中，所述映射子模块包括：

相加单元，用于将所述视觉特征和所述第二子特征相加，得到相加后特征；以及

映射单元，用于根据所述相加后特征，得到所述第五键特征和所述第五值特征。

27.根据权利要求26所述的装置，其中，所述文本确定模块包括：

分类子模块，用于采用分类器对所述解码特征进行处理，得到概率向量序列；以及

文本确定子模块，用于根据所述概率向量序列中各概率向量包括的最大概率值所对应的字符及所述概率向量序列中各概率向量的顺序，确定所述待识别文本图像中的文本，

28.一种文本识别模型的训练装置，其中，所述文本识别模型包括特征提取网络、融合网络和解码网络；所述装置包括：

特征提取模块，用于采用所述特征提取网络提取样本文本图像的视觉特征；所述样本文本图像具有指示实际文本的第一标签；

特征融合模块，用于采用所述融合网络融合所述视觉特征、待训练的字符顺序特征和待训练的字符统计特征，得到融合特征；

特征解码模块，用于采用所述解码网络对所述融合特征进行解码，得到解码特征；

预测模块，用于根据所述解码特征，确定指示所述样本文本图像中的文本的预测信息；以及

模型训练模块，用于根据所述预测信息和所述实际文本，对所述文本识别模型、所述待训练的字符顺序特征和所述待训练的字符统计特征进行训练，

29.根据权利要求28所述的装置，其中，所述特征融合模块包括：

第一融合子模块，用于采用交叉注意力机制融合所述待训练的字符统计特征和所述视觉特征，得到第一融合子特征；以及

第二融合子模块，用于根据所述第一融合子特征和所述待训练的字符顺序特征，得到所述融合特征。

30.根据权利要求29所述的装置，其中，所述第二融合子模块包括：

第一融合单元，用于采用交叉注意力机制融合所述待训练的字符顺序特征和所述视觉特征，得到第二融合子特征；以及

31.根据权利要求29或30所述的装置，其中，所述第一融合子模块用于：

根据所述视觉特征，得到第一键特征和第一值特征；以及

32.根据权利要求31所述的装置，其中，所述样本文本图像具有指示实际文本的实际字符统计信息的第二标签；所述装置还包括：

统计信息预测模块，用于根据所述第一子特征，确定所述样本文本图像中的文本的预测字符统计信息，

其中，所述模型训练模块还用于：根据所述预测字符统计信息和所述实际字符统计信息，对所述文本识别模型、所述待训练的字符顺序特征和所述待训练的字符统计特征进行训练。

33.根据权利要求30～32中任一项所述的装置，其中，所述第一融合单元用于：

根据所述视觉特征，得到第二键特征和第二值特征；以及

34.根据权利要求33所述的装置，其中，所述样本文本图像具有指示实际文本的实际字符顺序信息的第三标签；所述装置还包括：

顺序信息预测模块，用于根据所述第三子特征，确定所述样本文本图像中的文本的预测字符顺序信息，

其中，所述模型训练模块还用于：根据所述预测字符顺序信息和所述实际字符顺序信息，对所述文本识别模型、所述待训练的字符顺序特征和所述待训练的字符统计特征进行训练。

35.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～17中任一项所述的方法。

36.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～17中任一项所述的方法。

37.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，所述计算机程序/指令在被处理器执行时实现根据权利要求1～17中任一项所述方法的步骤。