CN114372477A

CN114372477A - 文本识别模型的训练方法、文本识别方法及装置

Info

Publication number: CN114372477A
Application number: CN202210275278.4A
Authority: CN
Inventors: 章成全; 吕鹏原; 刘珊珊; 乔美娜; 徐杨柳; 吴亮; 刘经拓; 韩钧宇; 丁二锐; 王井东
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2022-04-19
Anticipated expiration: 2042-03-21
Also published as: KR20220127189A; CN114372477B; JP2022177220A; JP7406606B2; US20220415071A1

Abstract

本公开提供了一种文本识别模型的训练方法、文本识别方法及装置，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于光学字符识别等场景。具体实现方案为：对获取到的样本图像的视觉特征进行掩码预测，得到预测视觉特征，对获取到的样本文本的语义特征进行掩码预测，得到预测语义特征，其中，样本图像中包括文本，根据预测视觉特征确定样本图像的文本的第一损失值，根据预测语义特征确定样本文本的第二损失值，根据第一损失值和第二损失值训练得到文本识别模型，以使得文本识别模型既能挖掘视觉信息，又能挖掘语义上下文逻辑，从而当基于文本识别模型进行文本识别时，可以提高文本识别的多样性和全面性。

Description

文本识别模型的训练方法、文本识别方法及装置

技术领域

本公开涉及人工智能（Artificial Intelligence，AI）技术领域，具体为深度学习、计算机视觉技术领域，可应用于光学字符识别（Optical Character Recognition，OCR）等场景，尤其涉及一种文本识别模型的训练方法、文本识别方法及装置。

背景技术

OCR技术在教育、金融、医疗、交通和保险等各行各业都取到了广泛的关注和应用。

在相关技术中，可以结合OCR技术和深度学习构建文本识别模型，以基于文本识别模型对图像进行文本识别。

然而，文本识别模型通常依赖于视觉信息，以基于视觉信息辨别图像中文本内容，存在识别的准确性偏低的弊端。

发明内容

本公开提供了一种用于提高文本识别的准确性的文本识别模型的训练方法、文本识别方法及装置。

根据本公开的第一方面，提供了一种文本识别模型的训练方法，包括：

对获取到的样本图像的视觉特征进行掩码预测，得到预测视觉特征，对获取到的样本文本的语义特征进行掩码预测，得到预测语义特征，其中，所述样本图像中包括文本；

根据所述预测视觉特征确定所述样本图像的文本的第一损失值，根据所述预测语义特征确定所述样本文本的第二损失值；

根据所述第一损失值和所述第二损失值训练得到文本识别模型，其中，所述文本识别模型用于对待识别文本、待识别图像中的至少一种进行文本识别。

根据本公开的第二方面，提供了一种文本识别方法，包括：

获取待识别对象，其中，所述待识别对象中包括文本，所述待识别对象为待识别图像，或者为待识别文本；

基于预先训练的文本识别模型对所述待识别对象进行文本识别，得到与所述待识别对象对应的文本内容；

其中，所述文本识别模型为基于如第一方面所述的方法得到的。

根据本公开的第三方面，提供了一种文本识别模型的训练装置，包括：

第一预测单元，用于对获取到的样本图像的视觉特征进行掩码预测，得到预测视觉特征，其中，所述样本图像中包括文本；

第二预测单元，用于对获取到的样本文本的语义特征进行掩码预测，得到预测语义特征；

第一确定单元，用于根据所述预测视觉特征确定所述样本图像的文本的第一损失值；

第二确定单元，用于根据所述预测语义特征确定所述样本文本的第二损失值；

训练单元，用于根据所述第一损失值和所述第二损失值训练得到文本识别模型，其中，所述文本识别模型用于对待识别文本、待识别图像中的至少一种进行文本识别。

根据本公开的第四方面，提供了一种文本识别装置，包括：

获取单元，用于获取待识别对象，其中，所述待识别对象中包括文本，所述待识别对象为待识别图像，或者为待识别文本；

识别单元，用于基于预先训练的文本识别模型对所述待识别对象进行文本识别，得到与所述待识别对象对应的文本内容；

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面或第二方面所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据第一方面或第二方面所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面或第二方面所述的方法。

根据本公开通过共享从视觉特征和语义特征两个维度训练的参数（即第一损失值和第二损失值）训练的得到文本识别模型的技术方案，以使得文本识别模型既能挖掘视觉信息，又能挖掘语义上下文逻辑，从而当基于文本识别模型进行文本识别时，可以提高文本识别的多样性和全面性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开第三实施例的示意图；

图4是根据本公开的文本识别模型的训练方法的原理示意图；

图5是根据本公开第四实施例的示意图；

图6是根据本公开第五实施例的示意图；

图7是根据本公开第六实施例的示意图；

图8是根据本公开第七实施例的示意图；

图9是根据本公开第八实施例的示意图；

图10是用来实现本公开实施例的文本识别模型的训练方法、文本识别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在一些实施例中，训练文本识别模型的方法包括：获取样本图像，其中，样本图像中包括文本，基于样本图像训练得到文本识别模型。

示例性的，基于样本图像对预设的基础网络进行训练，如基于样本图像对基础网络的模型参数进行调整，以得到文本识别模型。

例如，可以结合样本图像的视觉信息对基础网络进行训练，从而得到文本识别模型。

示例性的，对样本图像进行特征提取，得到样本图像的视觉特征，并基于视觉特征对基础网络进行训练，以使得基础网络学习到基于视觉特征提取文本内容的能力，从而得到文本识别模型。

其中，视觉特征是指样本图像的视觉维度的特征，如纹理和颜色等。

在另一些实施例中，训练文本识别模型的方法包括：获取样本文本，基于样本图像训练得到文本识别模型。

示例性的，基于样本文本对预设的基础网络进行训练，如基于样本文本对基础网络的模型参数进行调整，以得到文本识别模型。

例如，可以结合样本文本的语义信息对基础网络进行训练，从而得到文本模型。

示例性的，对样本文本进行特征提取，得到样本文本的语义特征，并基于语义特征对基础网络进行训练，以使得基础网络学习到基于语义特征提取文本内容的能力，从而得到文本识别模型。

其中，语义特征是指样本图像中的各字符串之间的逻辑关系的特征。

然而，采用上述实施例中的基于视觉特征训练得到文本识别模型，或者，基于语义特征训练得到文本识别模型，可能使得文本识别模型的识别维度单一，如基于视觉特征训练得到的文本识别模型的识别维度为视觉信息，基于文本特征训练得到的文本识别模型的识别维度为文本信息，从而导致在文本识别模型进行文本识别时，识别的准确性偏低的弊端。

为了避免上述问题中的至少一种，本公开的发明人经过创造性地劳动，得到了本公开的发明构思：从视觉特征和语义特征两个维度训练得到文本识别模型，且训练过程共享两个维度各自对应的参数（如损失值）。

基于上述发明构思，本公开提供一种文本识别模型的训练方法、文本识别方法及装置，应用于人工智能领域中的深度学习、计算机视觉技术领域，可应用于OCR识别等场景，以达到提高文本识别的可靠性。

图1是根据本公开第一实施例的示意图，如图1所示，本公开实施例的文本识别模型的训练方法，包括：

S101：对获取到的样本图像的视觉特征进行预测，得到样本图像的预测文本字符。

其中，样本图像中包括文本。

示例性的，本实施例的执行主体可以为文本识别模型的训练装置（下文简称为训练装置），训练装置可以为服务器（如云端服务器，或者，本地服务器，或者，服务器集群），也可以为终端设备，也可以为计算机，也可以为处理器，也可以为芯片等，本实施例不做限定。

该步骤可以理解为：获取包括文本的样本图像，对样本图像进行特征提取，得到样本图像的视觉特征，具体为样本图像中的文本的视觉特征，如纹理特征、轮廓特征、颜色特征、以及形状特征等，此处不再一一列举。

本实施例对基于视觉特征对样本图像的文本进行预测，以得到预测文本字符的方式不做限定，如可以基于编码器实现。

S102：对获取到的样本文本的语义特征进行预测，得到样本文本的预测文本字符。

同理，该步骤可以理解为：获取样本文本，其中，样本文本可以为样本图像对应的样本文本，如样本图像中包括的文本，也可以为与样本图像中的文本不同的样本文本，对样本文本进行特征提取，得到样本文本的语义特征，具体为样本文本中的文本的语义特征，如文本中各字符串之间的逻辑关系。

同理，本实施例对基于文本特征对样本文本的文本进行预测，以得到预测文本字符的方式不做限定，如可以基于编码器实现。

S103：根据样本图像的预测文本字符确定样本图像对应的第一损失值，根据样本文本的预测文本字符确定样本文本对应的第二损失值。

其中，第一损失值可以理解为，样本图像的真实文本字符与预测文本字符之间的差异信息。第二损失值可以理解为，样本文本的真实文本字符与预测文本字符之间的差异信息。

S104：根据第一损失值和第二损失值训练得到文本识别模型。

其中，文本识别模型用于对待识别文本、待识别图像中的至少一种进行文本识别。

也就是说，在本实施例中，通过共享从视觉特征和语义特征两个维度训练的参数（即第一损失值和第二损失值）训练的得到文本识别模型，以使得文本识别模型既能挖掘视觉信息，又能挖掘语义上下文逻辑，从而当基于文本识别模型进行文本识别时，可以提高文本识别的多样性和全面性。

基于上述分析，本公开实施例提供了一种文本识别模型的训练方法，包括：对获取到的样本图像的视觉特征进行预测，得到样本图像的预测文本字符，其中，样本图像中包括文本，对获取到的样本文本的语义特征进行预测，得到样本文本的预测文本字符，根据样本图像的预测文本字符确定样本图像对应的第一损失值，根据样本文本的预测文本字符确定样本文本对应的第二损失值，根据第一损失值和第二损失值训练得到文本识别模型，其中，文本识别模型用于对待识别文本、待识别图像中的至少一种进行文本识别，在本实施例中，通过确定样本图像对应的第一损失值、以及样本文本对应的第二损失值，以通过共享第一损失值和第二损失值训练得到文本识别模型，可以避免基于单一的特征维度（如视觉特征维度或者语义特征维度）训练得到文本识别模型造成的可靠性偏低的弊端，提高了训练的全面性和多样性，提高了文本识别模型对文本识别的准确性和可靠性的技术效果。

图2是根据本公开第二实施例的示意图，如图2所示，本公开实施例的文本识别模型的训练方法，包括：

S201：对获取到的样本图像的视觉特征进行掩码预测，得到预测视觉特征，对获取到的样本文本的语义特征进行掩码预测，得到预测语义特征。

其中，样本图像中包括文本。

应该理解的是，为了避免繁琐的陈述，关于本实施例与上述实施例相同的技术特征，本实施例不再赘述。

对视觉特征进行掩码预测也可以称为对视觉特征进行遮罩处理，可以理解为对部分视觉特征进行掩码（mask）操作（或者称为遮盖操作），以预测得到被遮盖部分的视觉特征（即预测视觉特征）。

同理，对语义特征进行掩码预测也可以称为对语义特征进行遮罩处理，可以理解为对部分语义特征进行掩码（mask）操作（或者称为遮盖操作），以预测得到被遮盖部分的语义特征（即预测视觉特征）。

S202：根据预测视觉特征确定样本图像的文本的第一损失值，根据预测语义特征确定样本文本的第二损失值。

S203：根据第一损失值和第二损失值训练得到文本识别模型。

同理，在本实施例中，通过共享从视觉特征和语义特征两个维度训练的参数（即第一损失值和第二损失值）训练的得到文本识别模型，以使得文本识别模型既能挖掘视觉信息，又能挖掘语义上下文逻辑，从而当基于文本识别模型进行文本识别时，可以提高文本识别的多样性和全面性。

为使读者更深刻地理解本公开的实现原理，现结合图3对上述实施例（如图1和图2所示的至少一个实施例）进行进一步细化。

图3是根据本公开第三实施例的示意图，如图3所示，本公开实施例的文本识别模型的训练方法，包括：

S301：由基础网络的编码模块，对输入的样本图像进行视觉特征提取处理，得到样本图像的视觉特征。

其中，样本图像中包括文本。视觉特征具体为样本图像中的文本在视觉上的特征。

同理，为了避免繁琐的陈述，关于本实施例与上述实施例相同的技术特征，本实施例不再赘述。

结合上述分析可知，文本识别模型的训练可以对基础网络实现，在本实施例中，基础网络包括编码模块（Encoder Moule），如图4中所示的第一编码模块和第二编码模块，样本图像为包括如图4所示的“hello”的文本的图像。

本实施例对编码模块的结构不做限定。例如，编码模块可以为卷积神经网络模型（CNN）结构，也可以为视觉转换器（Vision Transformer，ViT）结构，也可以为转换器（Transformer）结构等。

S302：由基础网络的第一上下文增强模块，对视觉特征进行掩码预测，得到预测视觉特征。

同理，基础网络包括第一上下文增强模块。应该理解的是，第一上下文增强模块中的“第一”用于与后文中的第二上下文增强模块进行区分，而不能理解为对第一上下文增强模块的限定。

其中，上下文增强模块可以用于强化输入特征序列之间的相互推理能力，上下文增强模块的结构可以为循环神经网络（Recurrent Neural Network， RNN）结构或者Transformer结构等，本实施例不做限定。

示例性的，基础网络包括上下文增强模块（Context Module），如图4所示，基础网络可以包括两个上下文增强模块，用于处理视觉特征的上下文增强模块可以为如图4中所示的第一上下文增强模块，用于处理语义特征的上下文增强模块可以为如图4中所示的第二上下文增强模块。

即如图4所示，位于上部分的上下文增强模块为第一上下文增强模块，位于下部分的上下文增强模块为第二上下文增强模块。

相应的，在本实施例中，第一上下文增强模块可以用于强化视觉特征之间的相互推理能力，如由部分视觉特征推理得到另外部分视觉特征。且第一上下文增强模块的结构可以为RNN结构，或者，为Transformer结构等。

其中，可以在上下文增强模块中引入遮罩式特征预模型（Mask FeatureModelling），以通过遮罩式特征预模型输入到特征预测输出的方式让上下文增强模块能够加强输入的特征的上下文理解。

示例性的，在本实施例中，第一上下文增强模块中可以引入遮罩式特征预模型，由遮罩式特征预模型对视觉特征进行掩码预测，从而得到预测视觉特征。

其中，遮罩式特征预模型可以为遮罩式语言模型(MLM)、遮罩式量化预测(wav2vec2.0)、遮罩式图像重建（MAE）等。

应该理解的是，图4中的上下文增强模块的数量只是用于示范性的说明，在另一些实施例中，上下文增强模块的数量可以为一个，在另一些实施例中，上下文增强模块的数量也可以为更多个。

S303：由基础网络的第一解码模块，对预测视觉特征进行解码处理，得到与预测视觉特征对应的预测文本字符。

同理，本实施例中的第一解码模块中的“第一”用于与后文中的第二解码模块进行区分，而不能理解为对第一解码模块的限定。

其中，本实施例对解码模块的解码方式不做限定。例如，解码模块的解码方式可以为联结主义时间分类（Connectionist Temporal Classification，CTC）解码方式，或者为注意机制（Attention）解码方式，或者为转换器解码器（transformer decoder）解码方式等。

示例性的，第一解码模块的解码方式可以为CTC解码方式，且如图4所示，图4中包括两个解码模块（Decoder Module），相应的，图4中上部分所示的解码模块可以第一解码模块。

S304：计算与预测视觉特征对应的预测文本字符、以及样本图像的标注文本字符之间的第一损失值。

示例性的，该步骤可以理解为：获取样本图像的标注文本字符，根据与预测视觉特征对应的预测文本字符、以及样本图像的标注文本字符，计算得到样本图像中的文本的损失值（即第一损失值）。

其中，样本图像的标注文本字符可以理解为样本图像的真实的文本字符，可以基于人工的方式进行标注，也可以采用自动标注的方式实现，本实施例不做限定。

示例性的，如图4所示，

、

、

直至

表示样本图像的标注文本字符，

、

、

直至

表示样本图像的预测视觉特征，

表示预测视觉特征

对应的预测文本字符。

如图4所示，计算

与

之间的损失值（Similarity Loss），得到如图4所示的第一损失值。

在本实施例中，通过对预测视觉特征进行解码处理，得到与预测视觉特征对应的预测文本字符，以根据与预测视觉特征对应的预测文本字符确定第一损失值，可以使得第一损失值较为准确的表征样本图像的文本对应的损失值，以使得训练得到的文本识别模型可以学习到较强的视觉特征维度之间的推理能力，从而提高文本识别模型的准确性。

且优选的，通过结合样本图像的标注文本字符、以及与预测视觉特征对应的预测文本字符确定第一损失值，由于样本图像的标注文本字符表征的为样本图像中的真是的文本字符，因此，可以使得计算得到的第一损失值具有较强的真实性和可靠的针对性。

S305：由基础网络的文本嵌入模块，确定输入的样本文本的语义特征。

其中，文本嵌入模块（Text Embedding）可以基于一位有效编码（one-hot）的编码方式或者读热编码（word2vec）的编码方式确定语义特征，甚至是可学习的嵌入模块的方式确定语义特征。如图4所示，可以将包括文本“hello”的样本文本输入至文本嵌入模块，以得到样本文本的语义特征。

S306：由基础网络的第二上下文增强模块，对语义特征进行掩码预测，得到预测语义特征。

关于第二上下文增强模块的实现原理，可以参见第一上下文增强模块的阐述，此处不再赘述。

结合上述分析，图4中包括两个上下文增强模块，下部分的上下文增强模块为第二上下文增强模块。

S307：由基础网络的第二解码模块，对预测语义特征进行解码处理，得到与预测语义特征对应的预测文本字符。

结合上述分析，图4中包括两个解码模块，下部分所示的解码模块为如图4中所示的第二解码模块。

S308：计算与预测语义特征对应的预测文本字符、以及样本文本的标注文本字符之间的第二损失值。

示例性的，该步骤可以理解为：获取样本文本的标注文本字符，根据与预测语义特征对应的预测文本字符、以及样本文本的标注文本字符，计算得到样本文本中的文本的损失值（即第二损失值）。

其中，样本文本的标注文本字符可以理解为样本文本的真实的文本字符，可以基于人工的方式进行标注，也可以采用自动标注的方式实现，本实施例不做限定。

示例性的，如图4所示，

、

、

直至

表示样本文本的标注文本字符，

、

、

直至

表示样本文本的预测文本特征，

表示预测文本特征

对应的预测文本字符。

如图4所示，计算

与

之间的损失值，得到如图4所示的第二损失值。

同理，在本实施例中，通过对预测语义特征进行解码处理，得到与预测语义特征对应的预测文本字符，以根据与预测语义特征对应的预测文本字符确定第二损失值，可以使得第二损失值较为准确的表征样本文本对应的损失值，以使得训练得到的文本识别模型可以学习到较强的语义特征维度之间的推理能力，从而提高文本识别模型的准确性。

且优选的，通过结合样本文本的标注文本字符、以及与预测文本特征对应的预测文本字符确定第二损失值，由于样本文本的标注文本字符表征的为样本文本中的真是的文本字符，因此，可以使得计算得到的第二损失值具有较强的真实性和可靠的针对性。

S309：计算第一损失值和第二损失值的均值。

S310：根据均值对基础网络的参数进行调整，得到文本识别模型。

示例性的，基于均值对基础网络进行迭代训练，得到文本识别模型。

例如，基于均值对编码模块、上下文增强模块（包括第一上下文增强模块和第二上下文增强模块）、解码模块（包括第一解码模块和第二解码模块）、以及文本嵌入模块的参数进行调整，直至使迭代训练后的基础网络模型输出的文本与真实的文本相同，如图4中所示的输入的文本为“hello”，输出的文本也为“hello”，或者，迭代次数达到预设阈值。

在本实施例中，通过确定第一损失值和第二损失值的均值，以根据均值训练得到文本识别模型，以实现共享第一损失值和第二损失值训练得到文本识别模型，使得文本识别模型即具有较强的视觉特征维度的推理能力，又具有较强的语义特征维度的推理能力，从而提高文本识别模型的文本识别的可靠性和准确性。

图5是根据本公开第四实施例的示意图，如图5所示，本公开实施例的文本识别方法，包括：

S501：获取待识别对象。

其中，待识别对象中包括文本，待识别对象为待识别图像，或者为待识别文本。

示例性的，本实施例的执行主体可以为文本识别装置，文本识别装置可以为与训练装置相同的装置，也可以为不同的装置，本实施例不做限定。

关于获取待识别对象可以采用下述示例实现：

一个示例中，文本识别装置可以与对象采集（如图像采集）装置连接，并接收由对象采集装置发送的待识别对象。

另一个示例中，文本识别装置可以提供载入待识别对象的工具，用户可以通过该载入待识别对象的工具将待识别对象传输至文本识别装置。

其中，载入待识别对象的工具可以为用于与外接设备连接的接口，如用于与其他存储设备连接的接口，通过该接口获取外接设备传输的待识别对象；载入待识别对象的工具也可以为显示装置，如文本识别装置可以在显示装置上输入载入待识别对象功能的界面，用户可以通过该界面将待识别对象导入至文本识别装置。

S502：基于预先训练的文本识别模型对待识别对象进行文本识别，得到与待识别对象对应的文本内容。

其中，文本识别模型为基于如上任一实施例所述的文本识别模型的训练方法得到的。

在本实施例中，通过采用上述方法训练得到的文本识别模型对待识别对象进行文本识别，以达到视觉上下文增强和语义上下文增强的效果，推理过程中对于文本识别模型来说不带来额外的计算开销和成本。能够强化OCR识别产品在挑战性较高的业务场景下的整体效果，强化了AI产品的体验。新的文字识别方法兼顾了视觉特征自监督重建方式强化视觉上下文能力，同时也共享了样本文本进行遮罩式文本字符/词预测强化语义上下文推理能力，让文本识别模型精度大幅度提升。相应的，能够让OCR识别产品的垂类技术应用推的更广，开发成本可以降低、精度更有保证、垂类适用性更多，如金融（如对发票图像的文本识别等）场景、教育（如对试卷图像的文本识别等）场景、医疗（如对病历单图像的文本识别等）场景、保险（如对保险单图像的文本识别等）场景、办公（如对公司财务报告图像的文本识别等）场景。

在一些实施例中，若待识别对象为待识别图像，则基于预先训练的文本识别模型对待识别对象进行文本识别，得到与待识别对象对应的文本内容，包括如下步骤：

第一步骤：对待识别图像进行特征提取处理，得到待识别图像的视觉特征。

第二步骤：采用文本识别模型，根据待识别图像的视觉特征对待识别图像进行文本识别，得到与待识别图像对应的文本内容。

示例性的，结合上述分析，若待识别对象为待识别图像，则可以将待识别图像输入至文本识别模型的如图4所示的编码模块，由编码模块对待识别图像进行编码处理，得到待识别图像的视觉特征，并将待识别图像的视觉特征输入至文本识别模型的上下文增强模块，如第一上下文增强模块，或者第二上下文增强模块，输出经较强视觉特征维度的推理能力、且较强语义特征维度的推理能力的预测视觉特征，并将该视觉特征输入至文本识别模型的解码模块，如第一解码模块，或者第二解码模块，输出高准确性和高可靠性的待识别图像对应的文本内容。

在另一些实施例中，若待识别对象为待识别文本，则基于预先训练的文本识别模型对待识别对象进行文本识别，得到与待识别对象对应的文本内容，包括如下步骤：

第一步骤：对待识别文本进行特征提取处理，得到待识别文本的语义特征。

第二步骤：采用文本识别模型，根据待识别文本的语义特征对待识别文本进行文本识别，得到与待识别文本对应的文本内容。

示例性的，结合上述分析，若待识别对象为待识别文本，则可以将待识别文本输入至文本识别模型的图4中所示的文本嵌入模块，由文本嵌入模块对待识别文本进行文本映射处理，得到待识别文本的语义特征，并将待识别文本的语义特征输入至文本识别模型的上下文增强模块，如第一上下文增强模块，或者第二上下文增强模块，输出经较强视觉特征维度的推理能力、且较强语义特征维度的推理能力的预测语义特征，并将该语义特征输入至文本识别模型的解码模块，如第一解码模块，或者第二解码模块，输出高准确性和高可靠性的待识别文本对应的文本内容。

也就是说，结合图4和上述分析，在训练得到文本识别模型之后，为便于文本识别模型的应用，可以将部分分支从文本识别模型中剔除，如冗余的上下文增强模块和解码模块。

图6是根据本公开第五实施例的示意图，如图6所示，本公开实施例的文本识别模型的训练装置600，包括：

第一预测单元601，用于对获取到的样本图像的视觉特征进行掩码预测，得到预测视觉特征，其中，样本图像中包括文本。

第二预测单元602，用于对获取到的样本文本的语义特征进行掩码预测，得到预测语义特征。

第一确定单元603，用于根据预测视觉特征确定样本图像的文本的第一损失值。

第二确定单元604，用于根据预测语义特征确定样本文本的第二损失值。

训练单元605，用于根据第一损失值和第二损失值训练得到文本识别模型，其中，文本识别模型用于对待识别文本、待识别图像中的至少一种进行文本识别。

图7是根据本公开第六实施例的示意图，如图7所示，本公开实施例的文本识别模型的训练装置700，包括：

第一输入单元701，用于将获取到的样本图像输入至预设基础网络的编码模块。

第一输出单元702，用于输出视觉特征。

第二输入单元703，用于将获取到的样本文本输入至预设基础网络的文本嵌入模块。

第二输出单元704，用于输出语义特征。

第一预测单元705，用于对获取到的样本图像的视觉特征进行掩码预测，得到预测视觉特征，其中，样本图像中包括文本。

第二预测单元706，用于对获取到的样本文本的语义特征进行掩码预测，得到预测语义特征。

第一确定单元707，用于根据预测视觉特征确定样本图像的文本的第一损失值。

结合图7可知，在一些实施例中，第一确定单元707，包括：

第一解码子单元7071，用于对预测视觉特征进行解码处理，得到与预测视觉特征对应的预测文本字符。

第一确定子单元7072，用于根据与预测视觉特征对应的预测文本字符确定第一损失值。

在一些实施例中，第一确定子单元7072，包括：

第一获取模块，用于获取样本图像的标注文本字符。

第一计算模块，用于根据与预测视觉特征对应的预测文本字符、以及样本图像的标注文本字符，计算得到第一损失值。

第二确定单元708，用于根据预测语义特征确定样本文本的第二损失值。

结合图7可知，在一些实施例中，第二确定单元708，包括：

第二解码子单元7081，用于对预测语义特征进行解码处理，得到与预测语义特征对应的预测文本字符。

第二确定子单元7082，用于根据与预测语义特征对应的预测文本字符确定第二损失值。

在一些实施例中，第二确定子单元7082，包括：

第二获取模块，用于获取样本文本的标注文本字符。

第二计算模块，用于根据与预测语义特征对应的预测文本字符、以及样本文本的标注文本字符，计算得到第二损失值。

训练单元709，用于根据第一损失值和第二损失值训练得到文本识别模型，其中，文本识别模型用于对待识别文本、待识别图像中的至少一种进行文本识别。

结合上述分析，在一些实施例中，训练单元709用于，根据第一损失值和第二损失值对编码模块的参数进行调整，得到文本识别模型。

结合上述分析，在一些实施例中，训练单元709用于，根据第一损失值和第二损失值对所述文本嵌入模块的参数进行调整，得到文本识别模型。

结合图7可知，在一些实施例中，训练单元709，包括：

第三确定子单元7091，用于确定第一损失值和第二损失值的均值。

训练子单元7092，用于根据均值训练得到文本识别模型。

在一些实施例中，文本识别模型的训练装置700应用于预先设置的基础网络，基础网络包括上下文增强模块和编码模块。

预测视觉特征是基于上下文增强模块对样本图像的视觉特征进行掩码预测得到的。

示例性的，第一预测单元705可以用于，基于预设基础网络的上下文增强模块对获取到的样本图像的视觉特征进行掩码预测，得到预测视觉特征。

第一损失值是基于预测视觉特征和编码模块确定的。

示例性的，第一解码子单元7071可以用于，基于基础网络的编码模块对预测视觉特征进行解码处理，得到与预测视觉特征对应的预测文本字符，以基于预测视觉特征对应的预测文本字符确定第一损失值。

文本识别模型是基于第一损失值和第二损失值对基础网络的参数进行调整得到的。

示例性的，训练单元709可以用于，根据第一损失值和第二损失值，对基础网络的参数进行调整，得到文本识别模型。

预测语义特征是基于上下文增强模块对样本文本的语义特征进行掩码预测得到的。

示例性的，第二预测单元706可以用于，基于预设基础网络的上下文增强模块对获取到的样本文本的语义特征进行掩码预测，得到预测语义特征。

第二损失值是基于预测语义特征和编码模块得到的。

示例性的，第二解码子单元7081可以用于，基于基础网络的编码模块对预测语义特征进行解码处理，得到与预测语义特征对应的预测文本字符，以基于预测语义特征对应的预测文本字符、以及样本文本的标注文本字符得到第二损失值。

图8是根据本公开第七实施例的示意图，如图8所示，本公开实施例的文本识别装置，包括：

获取单元801，用于获取待识别对象，其中，待识别对象中包括文本，待识别对象为待识别图像，或者为待识别文本。

识别单元802，用于基于预先训练的文本识别模型对待识别对象进行文本识别，得到与待识别对象对应的文本内容。

其中，文本识别模型为基于如上述任一实施例所述的文本识别模型的训练方法得到的。

在一些实施例中，待识别对象为待识别图像，则如图8所示，识别单元802，包括：

第一提取子单元8021，用于对待识别图像进行特征提取处理，得到待识别图像的视觉特征。

第一识别子单元8022，用于采用文本识别模型，根据待识别图像的视觉特征对待识别图像进行文本识别，得到与待识别图像对应的文本内容。

在一些实施例中，待识别对象为待识别文本，则如图8所示，识别单元802，包括：

第二提取子单元8023，用于对待识别文本进行特征提取处理，得到待识别文本的语义特征。

第二识别子单元8024，用于采用文本识别模型，根据待识别文本的语义特征对待识别文本进行文本识别，得到与待识别文本对应的文本内容。

图9是根据本公开第八实施例的示意图，如图9所示，本公开中的电子设备900可以包括：处理器901和存储器902。

存储器902，用于存储程序；存储器902，可以包括易失性存储器（英文：volatilememory），例如随机存取存储器（英文：random-access memory，缩写：RAM），如静态随机存取存储器（英文：static random-access memory，缩写：SRAM），双倍数据率同步动态随机存取存储器（英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM）等；存储器也可以包括非易失性存储器（英文：non-volatile memory），例如快闪存储器（英文：flash memory）。存储器902用于存储计算机程序（如实现上述方法的应用程序、功能模块等）、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器902中。并且上述的计算机程序、计算机指令、数据等可以被处理器901调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器902中。并且上述的计算机程序、计算机指据等可以被处理器901调用。

处理器901，用于执行存储器902存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。

具体可以参见前面方法实施例中的相关描述。

处理器901和存储器902可以是独立结构，也可以是集成在一起的集成结构。当处理器901和存储器902是独立结构时，存储器902、处理器901可以通过总线903耦合连接。

本实施例的电子设备可以执行上述方法中的技术方案，其具体实现过程和技术原理相同，此处不再赘述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器（ROM）1002中的计算机程序或者从存储单元1008加载到随机访问存储器（RAM）1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出（I/O）接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如文本识别模型的训练方法、文本识别方法。例如，在一些实施例中，文本识别模型的训练方法、文本识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的文本识别模型的训练方法、文本识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行文本识别模型的训练方法、文本识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"Virtual Private Server"，或简称 "VPS"）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本识别模型的训练方法，包括：

2.根据权利要求1所述的方法，其中，根据所述预测视觉特征确定所述样本图像的文本的第一损失值，包括：

对所述预测视觉特征进行解码处理，得到与所述预测视觉特征对应的预测文本字符；

根据与所述预测视觉特征对应的预测文本字符确定所述第一损失值。

3.根据权利要求2所述的方法，其中，根据与所述预测视觉特征对应的预测文本字符确定所述第一损失值，包括：

获取所述样本图像的标注文本字符；

根据与所述预测视觉特征对应的预测文本字符、以及所述样本图像的标注文本字符，计算得到所述第一损失值。

4.根据权利要求1所述的方法，其中，根据所述预测语义特征确定所述样本文本的第二损失值，包括：

对所述预测语义特征进行解码处理，得到与所述预测语义特征对应的预测文本字符；

根据与所述预测语义特征对应的预测文本字符确定所述第二损失值。

5.根据权利要求4所述的方法，其中，根据与所述预测语义特征对应的预测文本字符确定所述第二损失值，包括：

获取所述样本文本的标注文本字符；

根据与所述预测语义特征对应的预测文本字符、以及所述样本文本的标注文本字符，计算得到所述第二损失值。

6.根据权利要求1所述的方法，其中，根据所述第一损失值和所述第二损失值训练得到文本识别模型，包括：

确定所述第一损失值和所述第二损失值的均值，并根据所述均值训练得到所述文本识别模型。

7.根据权利要求1所述的方法，其中，所述方法应用于预先设置的基础网络，所述基础网络包括上下文增强模块和编码模块；

所述预测视觉特征是基于所述上下文增强模块对所述样本图像的视觉特征进行掩码预测得到的；

所述第一损失值是基于所述预测视觉特征和所述编码模块确定的；

所述文本识别模型是基于所述第一损失值和所述第二损失值对所述基础网络的参数进行调整得到的。

8.根据权利要求1所述的方法，其中，所述方法应用于预先设置的基础网络，所述基础网络包括上下文增强模块和编码模块；

所述预测语义特征是基于所述上下文增强模块对所述样本文本的语义特征进行掩码预测得到的；

所述第二损失值是基于所述预测语义特征和编码模块得到的；

9.根据权利要求1所述的方法，在对获取到的样本图像的视觉特征进行掩码预测，得到预测视觉特征之前，所述方法还包括：

将获取到的样本图像输入至预设基础网络的编码模块，输出所述视觉特征；

以及，根据所述第一损失值和所述第二损失值训练得到文本识别模型，包括：根据所述第一损失值和所述第二损失值对所述编码模块的参数进行调整，得到所述文本识别模型。

10.根据权利要求1-9任一项所述的方法，在对获取到的样本文本的语义特征进行掩码预测，得到预测语义特征之前，所述方法还包括：

将获取到的样本文本输入至预设基础网络的文本嵌入模块，输出所述语义特征；

以及，根据所述第一损失值和所述第二损失值训练得到文本识别模型，包括：根据所述第一损失值和所述第二损失值对所述文本嵌入模块的参数进行调整，得到所述文本识别模型。

11.一种文本识别方法，包括：

其中，所述文本识别模型为基于如权利要求1-10任一项所述的方法得到的。

12.根据权利要求11所述的方法，其中，所述待识别对象为待识别图像，则基于预先训练的文本识别模型对所述待识别对象进行文本识别，得到与所述待识别对象对应的文本内容，包括：

对所述待识别图像进行特征提取处理，得到所述待识别图像的视觉特征；

采用所述文本识别模型，根据所述待识别图像的视觉特征对所述待识别图像进行文本识别，得到与所述待识别图像对应的文本内容。

13.根据权利要求11或12所述的方法，其中，所述待识别对象为待识别文本，则基于预先训练的文本识别模型对所述待识别对象进行文本识别，得到与所述待识别对象对应的文本内容，包括：

对所述待识别文本进行特征提取处理，得到所述待识别文本的语义特征；

采用所述文本识别模型，根据所述待识别文本的语义特征对所述待识别文本进行文本识别，得到与所述待识别文本对应的文本内容。

14.一种文本识别模型的训练装置，包括：

15.根据权利要求14所述的装置，其中，所述第一确定单元，包括：

第一解码子单元，用于对所述预测视觉特征进行解码处理，得到与所述预测视觉特征对应的预测文本字符；

第一确定子单元，用于根据与所述预测视觉特征对应的预测文本字符确定所述第一损失值。

16.根据权利要求15所述的装置，其中，所述第一确定子单元，包括：

第一获取模块，用于获取所述样本图像的标注文本字符；

第一计算模块，用于根据与所述预测视觉特征对应的预测文本字符、以及所述样本图像的标注文本字符，计算得到所述第一损失值。

17.根据权利要求14所述的装置，其中，所述第二确定单元，包括：

第二解码子单元，用于对所述预测语义特征进行解码处理，得到与所述预测语义特征对应的预测文本字符；

第二确定子单元，用于根据与所述预测语义特征对应的预测文本字符确定所述第二损失值。

18.根据权利要求17所述的装置，其中，所述第二确定子单元，包括：

第二获取模块，用于获取所述样本文本的标注文本字符；

第二计算模块，用于根据与所述预测语义特征对应的预测文本字符、以及所述样本文本的标注文本字符，计算得到所述第二损失值。

19.根据权利要求14所述的装置，其中，所述训练单元，包括：

第三确定子单元，用于确定所述第一损失值和所述第二损失值的均值；

训练子单元，用于根据所述均值训练得到所述文本识别模型。

20.根据权利要求15所述的装置，其中，所述装置应用于预先设置的基础网络，所述基础网络包括上下文增强模块和编码模块；

21.根据权利要求17所述的装置，其中，所述装置应用于预先设置的基础网络，所述基础网络包括上下文增强模块和编码模块；

22.根据权利要求14所述的装置，所述装置还包括：

第一输入单元，用于将获取到的样本图像输入至预设基础网络的编码模块；

第一输出单元，用于输出所述视觉特征；

以及，所述训练单元用于，根据所述第一损失值和所述第二损失值对所述编码模块的参数进行调整，得到所述文本识别模型。

23.根据权利要求14-22任一项所述的装置，所述装置还包括：

第二输入单元，用于将获取到的样本文本输入至预设基础网络的文本嵌入模块；

第二输出单元，用于输出所述语义特征；

以及，所述训练单元用于，根据所述第一损失值和所述第二损失值对所述文本嵌入模块的参数进行调整，得到所述文本识别模型。

24.一种文本识别装置，包括：

25.根据权利要求24所述的装置，其中，所述待识别对象为待识别图像，则所述识别单元，包括：

第一提取子单元，用于对所述待识别图像进行特征提取处理，得到所述待识别图像的视觉特征；

第一识别子单元，用于采用所述文本识别模型，根据所述待识别图像的视觉特征对所述待识别图像进行文本识别，得到与所述待识别图像对应的文本内容。

26.根据权利要求24或25所述的装置，其中，所述待识别对象为待识别文本，则所述识别单元，包括：

第二提取子单元，用于对所述待识别文本进行特征提取处理，得到所述待识别文本的语义特征；

第二识别子单元，用于采用所述文本识别模型，根据所述待识别文本的语义特征对所述待识别文本进行文本识别，得到与所述待识别文本对应的文本内容。

27.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10任一项所述的方法；或者，以使所述至少一个处理器能够执行权利要求11-13任一项所述的方法。

28.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10任一项所述的方法；或者，所述计算机指令用于使所述计算机执行根据权利要求11-13任一项所述的方法。

29.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-10任一项所述方法的步骤；或者，该计算机程序被处理器执行时实现权利要求11-13任一项所述方法的步骤。