CN114283411A

CN114283411A - 文本识别方法、文本识别模型的训练方法及装置

Info

Publication number: CN114283411A
Application number: CN202111560326.6A
Authority: CN
Inventors: 章成全; 吕鹏原; 姚锟; 韩钧宇; 刘经拓
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-04-05
Anticipated expiration: 2041-12-20
Also published as: EP4152280A2; CN114283411B; JP2023036753A; US20230123327A1; EP4152280A3

Abstract

本公开提供了一种文本识别方法、文本识别模型的训练方法及装置，应用于工智能技术领域，具体为深度学习、计算机视觉技术领域，文本识别方法包括：获取待识别图像的图像序列特征，对所述图像序列特征进行解码处理，得到待识别图像的全量的文本字符串，对文本字符串进行语义增强处理，得到文本序列特征，其中，图像序列特征、文本字符串与文本序列特征的长度相同，根据文本字符串和文本序列特征，确定待识别图像的文本内容，使得识别过程更加全面和完善，不仅充分考虑了用以确定文本内容的元素的完整性和全面性，且考虑了用以确定文本内容的元素在语义理解层面的内容，从而实现了文本识别的准确性、有效性、以及可靠性的技术效果。

Description

文本识别方法、文本识别模型的训练方法及装置

技术领域

本公开涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于光学字符识别(Optical Character Recognition，OCR)等场景，尤其涉及一种文本识别方法、文本识别模型的训练方法及装置。

背景技术

光学字符识别被广泛的应用于各领域，是指电子设备检查纸上打印的字符，通过检测和字符识别方法的方式翻译成计算机文字的过程。

基于注意力机制(Attention)是光学字符识别的典型性方法之一，且Attention最具代表性的实现方法是基于识别的结果指导矫正网络(ASTER)，该方法通过注意力增强以及历史识别内容进行强化得到待识别图像中的文本内容。

然而，当待识别图像中的文本较长时，容易出现误差积累，导致文本识别的准确性偏低。

发明内容

本公开提供了一种用于提高文本识别的准确性的文本识别方法、文本识别模型的训练方法及装置。

根据本公开的第一方面，提供了一种文本识别方法，包括：

获取待识别图像的图像序列特征，对所述图像序列特征进行解码处理，得到所述待识别图像的全量的文本字符串；

对所述文本字符串进行语义增强处理，得到文本序列特征，其中，所述图像序列特征、所述文本字符串与所述文本序列特征的长度相同；

根据所述文本字符串和所述文本序列特征，确定所述待识别图像的文本内容。

根据本公开的第二方面，提供了一种文本识别模型的训练方法，包括：

获取样本图像的图像序列特征，对所述图像序列特征进行解码处理，得到所述样本图像的全量的文本字符串；

根据所述文本字符串和所述文本序列特征，确定所述样本图像的预测文本内容，并根据所述预测文本内容与预设的标定文本内容进行比较，训练得到文本识别模型，其中，所述文本识别模型用于识别得到待识别图像的文本内容。

根据本公开的第三方面，提供了一种文本识别装置，包括：

第一获取单元，用于获取待识别图像的图像序列特征；

第一解码单元，用于所述图像序列特征进行解码处理，得到所述待识别图像的全量的文本字符串；

第一增强单元，用于对所述文本字符串进行语义增强处理，得到文本序列特征，其中，所述图像序列特征、所述文本字符串与所述文本序列特征的长度相同；

第一确定单元，用于根据所述文本字符串和所述文本序列特征，确定所述待识别图像的文本内容。

根据本公开的第四方面，提供了一种文本识别模型的训练装置，包括：

第二获取单元，用于获取样本图像的图像序列特征；

第二解码单元，用于对所述图像序列特征进行解码处理，得到所述样本图像的全量的文本字符串；

第二增强单元，用于对所述文本字符串进行语义增强处理，得到文本序列特征，其中，所述图像序列特征、所述文本字符串与所述文本序列特征的长度相同；

第二确定单元，用于根据所述文本字符串和所述文本序列特征，确定所述样本图像的预测文本内容；

训练单元，用于根据所述预测文本内容与预设的标定文本内容进行比较，训练得到文本识别模型，其中，所述文本识别模型用于识别得到待识别图像的文本内容。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行第一方面所述的方法；或者，以使所述至少一个处理器能够执行第二方面所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行第一方面所述的方法；或者，所述计算机指令用于使所述计算机执行第二方面所述的方法。

根据本公开的第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序，所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是根据本公开第二实施例的示意图；

图3是根据本公开文本识别方法的原理示意图；

图4是根据本公开第三实施例的示意图；

图5是根据本公开第四实施例的示意图；

图6是根据本公开第五实施例的示意图；

图7是根据本公开第六实施例的示意图；

图8是根据本公开第七实施例的示意图；

图9是根据本公开第八实施例的示意图；

图10是用来实现本公开实施例的文本识别方法、文本识别模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

光学字符识别是指，电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

注意力机制和联结主义时间分类(Connectionist temporal classification，CTC)是光学字符识别的典型性方法之一。

其中，注意力机制主要通过注意力增强以及历史识别内容进行强化得到待识别图像中的文本内容。CTC主要是对待识别图像中的文本字符串进行预测，从而得到待识别图像中的文本内容。

然而，若基于注意力机制识别待识别图像中的文本内容，尤其当待识别图像中的文本较长时，容易出现误差积累，导致文本识别的准确性偏低的技术问题。

若基于CTC识别待识别图像中的文本内容，CTC典型的方法为文本识别网络(CRNN)，以通过预测的方式得到待识别图像中的文本内容，但是缺乏语义理解，且容易丢失部分文本字符串，导致确定出的待识别图像中的文本内容的准确性偏低的技术问题。

为了避免上述技术问题中的至少一种，本公开的发明人经过创造性地劳动，得到了本公开的发明构思：获取待识别图像的图像序列特征，对该图像序列特征进行解码处理，得到待识别图像的全量的文本字符串，并对该文本字符串进行语义增强处理，得到文本序列特征，以根据文本字符串和文本序列特征确定待识别图像的文本内容，且图像序列特征、文本字符串、文本序列特征的长度相同。

基于上述发明构思，本公开提供一种文本识别方法、文本识别模型的训练方法及装置，应用于工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于光学字符识别等场景，以达到提高文本识别的准确性和可靠性。

图1是根据本公开第一实施例的示意图。如图1所示，本公开实施例的文本识别方法，包括：

S101：获取待识别图像的图像序列特征，对图像序列特征进行解码处理，得到待识别图像的全量的文本字符串。

示例性的，本实施例的执行主体可以为文本识别装置，文本识别装置可以为服务器(如云端服务器，或者，本地服务器)，也可以为计算机，也可以为终端设备，也可以为处理器，也可以为芯片等，本实施例不做限定。

该步骤可以理解为：文本识别装置获取待识别图像，并对待识别图像进行特征提取处理，以得到待识别图像的图像序列特征，并对图像序列特征进行解码处理，从而得到文本字符串。

值得说明的是，本实施例对解码处理的具体方法不做限定，能够得到待识别图像的全量的文本字符串即可。也就是说，在本实施例中，文本字符串为没有被遗漏的完整的字符串，如实体现了待识别图像中所有文本特征的全部文本字符串。

关于获取待识别图像的方法也可以采用多种方法实现，本实施例不做限定，例如：

一个示例中，文本识别装置可以与图像采集装置连接，并接收由图像采集装置发送的待识别图像。

另一个示例中，文本识别装置可以提供载入图像的工具，用户可以通过该载入图像的工具将待识别图像传输至文本识别装置。

其中，载入图像的工具可以为用于与外接设备连接的接口，如用于与其他存储设备连接的接口，通过该接口获取外接设备传输的待识别图像；载入图像的工具也可以为显示装置，如文本识别装置可以在显示装置上输入载入图像功能的界面，用户可以通过该界面将待识别图像导入至文本识别装置，文本识别装置获取导入的待识别图像。

S102：对文本字符串进行语义增强处理，得到文本序列特征。其中，图像序列特征、文本字符串与文本序列特征的长度相同。

在本实施例中，通过“对文本字符串进行语义增强处理”的特征，将解码处理与语义增强处理相结合，使得得到的文本序列特征能够更加准确和可靠的对待识别图像中的文本内容的特征进行表征。

且由于图像序列特征、文本字符串、以及文本序列特征具有相同的长度，而文本字符串为全量的文本字符串，因此，文本序列特征具有较强的完整性和全面性。

可以理解的是，本实施例对语义增强处理的方法不做限定，即可以采用不同的方法对文本字符串进行语义增强处理，得到的文本序列特征与文本字符串的长度相同即可。

示例性的，可以预先训练语义增强模型，并基于该语义增强模型对文本字符串进行语义增强处理。

S103：根据文本字符串和文本序列特征，确定待识别图像的文本内容。

值得说明的是，由于文本字符串为全量的文本字符串，文本序列特征为是对该全量的文本字符串进行语义增强处理的文本序列特征，因此，可以使得待识别图像的文本内容具有较高的全面性和完整性，且可以使得确定出的待识别图像的文本内容具有语义维度的内容，从而使得待识别图像的文本内容具有较高的准确性和可靠性的技术效果。

因此，结合上述分析可知，本公开实施例提供了一种文本识别方法，包括：获取待识别图像的图像序列特征，对所述图像序列特征进行解码处理，得到待识别图像的全量的文本字符串，对文本字符串进行语义增强处理，得到文本序列特征，其中，图像序列特征、文本字符串与文本序列特征的长度相同，根据文本字符串和文本序列特征，确定待识别图像的文本内容，在本实施例中，引入了：对图像序列特征进行解码处理，得到全量的文本字符串，对文本字符串进行语义增强处理，得到文本序列特征，以结合文本字符串和文本序列特征确定文本内容的技术特征，避免了相关技术中基于注意力机制识别造成的，因误差积累而准确性偏低的弊端，也避免了相关技术中基于文本识别网络预测造成的，因容易丢失文本字符串而可靠性偏低的问题，通过对全量的文本字符串进行语义增强处理，可以使得识别过程更加全面和完善，以当结合文本字符串和文本序列特征确定文本内容时，不仅充分考虑了用以确定文本内容的元素的完整性和全面性，且考虑了用以确定文本内容的元素在语义理解层面的内容，从而实现了文本识别的准确性、有效性、以及可靠性的技术效果。

图2是根据本公开第二实施例的示意图。如图2所示，本公开实施例的文本识别方法，包括：

S201：获取待识别图像的高度方向信息，根据高度方向信息对待识别图像进行下采样操作，得到图像序列特征。

需要说明的是，关于本实施例中与上述实施例相同的特征，在本实施例中不再赘述。

可以理解的是，待识别图像具有高度方向信息，也具有水平方向信息。在本实施例中，可以仅获取待识别图像的高度方向信息，以基于高度方向信息对待识别图像进行高度方向的下采样处理，而剔除水平方向的下采样处理，以在确保图像序列特征较为准确地表征待识别图像时，提高确定图像序列特征的效率，节约资源的技术效果。

在一些实施例中，可以基于网络模型获取图像序列特征，例如，可以通过目视图像生成器(Visual Graphics Generator)、残差网络(ResNet)、图像分类模型(DenseNet)、视觉转换器(vision transformer)等，获取图像序列特征。

S202：对图像序列特征进行CTC解码处理，得到待识别图像的全量的文本字符串。其中，图像序列特征与文本字符串的长度相同。

在本实施例中，采用CTC对图像序列特征进行解码处理，以提高解码的效率，得到充分而全面的文本字符串(即全量的文本字符串)。

在一些实施例中，S202可以包括如下步骤：

第一步骤：在对图像序列特征进行CTC解码处理时，计算解码处理位置对应的CTC损失函数值，CTC损失函数值用于表征解码处理位置是否存在文本字符串，

第二步骤：根据CTC损失函数值对解码处理图像序列特征进行约束处理，得到文本字符串。

也就是说，在本实施例中，采用CTC损失函数值(CTC loss)约束的方式，确定文本字符串，以使得文本字符串为没有遗漏的全量的文本字符串，可以全面可靠的表征待识别图像的特征。

在一些实施例中，第二步骤可以包括：若解码处理位置未解码得到文本字符串，且CTC损失函数值表征解码处理位置存在文本字符串，则对解码处理位置再次进行解码处理，直至得到文本字符串。

示例性的，针对每一解码处理位置，该解码处理位置对应有CTC损失函数值，由于该CTC损失函数值可以表征该解码处理位置是否应该有文本字符串，因此，如果通过CTC的解码处理，该解码处理位置并没有被解码处理得到文本字符串，而该CTC损失函数值表征该解码处理位置应该有文本字符串，则说明该解码处理位置存在解析失败的情况，则对该解码处理位置再次进行CTC解码处理，直至得到文本字符串。

通过本实施例的CTC损失函数值约束的方式，确定文本字符串，可以避免因错误解码失败等情况造成的文本字符串丢失的弊端，使得文本字符串与图像序列特征具有相同的长度，从而提高解码处理的有效性和可靠性的技术效果。

S203：对每一文本字符串进行语义增强处理，得到每一文本字符串对应的语义增强特征。其中，文本字符串的数量为多个，各文本字符串具有各自对应的位置标签。

在一些实施例中，可以通过训练语义推理模型，并根据该语义推理模型对各文本字符串进行语义增强处理，从而得到各文本字符串各自对应的语义增强特征。

例如，语义推理模型可以基于卷积神经网络(CNN)训练得到，也可以基于变压器编码器(Transformer Encoder)结构训练得到，也可以基于编码器解码器(encoder-decoder)结构训练得到，本实施例不做限定。

在一些实施例中，在训练语义推理模型时，可以采样文本数据进行训练，而不依赖于图像数据，即采样纯文本语料训练得到语义推理模型，以提高语义推理模型的准确性和可靠性，进而当基于语义推理模型对文本字符串进行语义增强处理时，可以提高语义增强处理的准确性的技术效果。

S204：若每一位置标签所表征的位置均具有语义增强特征，则根据每一文本字符串对应的语义增强特征确定文本序列特征。

在本实施例中，由于每一位置标签所表征的位置均具有语义增强特征，因此，可以使得文本序列特征与文本字符串具有相同的长度，以提高文本序列特征的全面性和准确性的技术效果。

在另一些实施例中，也可能存在至少部分位置标签所表征的位置没有语义增强特征的情况，如某一位置标签所表征的位置，由于语义增强处理失败等原因，导致该位置标签所表征的位置没有语义增强特征，则：

对该位置标签所表征的位置对应的文本字符串再次进行语义增强处理，得到任一位置标签所表征的位置对应的语义增强特征，并根据每一文本字符串对应的语义增强特征确定文本序列特征。

例如，也可以通过CTC损失函数值约束的方式，得到每一文本字符串对应的语义增强特征，从而得到与文本字符串的长度相同的文本序列特征，进而使得文本序列特征具有较高的准确性和完整性的技术效果。

S205：对文本字符串和文本序列特征进行叠加处理，得到叠加处理后的序列特征，并对叠加后的序列特征进行CTC解码处理，得到待识别图像的文本内容。

其中，本实施例对叠加处理的方法不做限定，例如，可以通过相加的方式实现叠加处理，也可以通过相乘的方式实现叠加处理，等等，此处不再一一列举。

基于上述分析可知，文字字符串为全量的表征待识别图像的文本字符串，文本序列特征为与文本字符串具有相同长度的文本序列特征，即也为全量的表征待识别图像的文本序列特征，且文本序列特征为进行了语义增强处理后的特征，因此，通过对文本字符串与文本序列特征进行叠加处理，可以时限内得到的待识别图像的文本内容的全面性、准确性、可靠性、以及有效性的技术效果。

在一些实施例中，对叠加后的序列特征进行CTC解码处理，得到待识别图像的文本内容，可以包括：对叠加后的序列特征进行CTC解码处理，得到解码处理后的文本信息，并对文本信息进行去重处理，得到待识别图像的文本内容。

值得说明的是，在对图像序列特征进行CTC解码处理，得到文本字符串时，为了使得文本字符串具有全面性，即得到全量的文本字符串，无需进行去重处理，而在得到叠加后的序列特征之后，为了使得输出的识别结果(即待识别图像的文本内容)具有较高的准确性，避免冗余信息，在基于CTC解码处理时，在解码处理之后，对解码处理之后的文本信息进行冗余信息的去重处理，从而得到较高准确性和可靠性的待识别图像的文本内容的技术效果。

为使读者更加深刻地理解本公开实施例的实现原理，现结合图3对本公开实施例的实现原理进行示范性地阐述：

如图3所示，获取待识别图像，待识别图像中包括文本“ABCD”(应该理解的是，该文本只是说明文本中有四个不一样的文字，即ABCD为不同的文字)。

对待识别图像进行图像特征序列化处理(如图3中所示的图像特征序列化)，从而得到待识别图像的图像序列特征。

在对图像序列特征进行CTC解码处理，基于解码处理位置对解码处理进行约束处理(如图3中所述的CTC Loss约束)，相应的，直接输出文本字符串。

结合上述分析，此处的解码处理无需进行去重处理，以确保文本字符串为全量的文本字符串，因此，如图3所述，此处的解码处理的输出为“直接输出”，且得到的文本字符串可以为如图3中所示的“aa-b-c-dde”(同理，此处的“abcde”只是说明可能的字符串的数量，以及可能有相同的字符串，而不是说明字符串的内容)。

对文本字符串进行语义增强处理，如图3所示，根据预先训练的语义推理模型对“abcde”文本字符串进行语义增强处理，且在语义增强处理的过程中，基于位置标签进行约束处理(如图3中所述的CTC Loss约束)，相应的，直接输出文本序列特征。

同理，为了使得文本序列特征为全量的文本序列特征，与文本字符串具有相同的长度，因此，无需进行去重处理。

如图3所示，一方面，对文本字符串进行语义增强处理，从而得到文本序列特征，另一方面，再将文本字符串与文本序列特征进行叠加处理，得到叠加处理后的序列特征(如图3中所示的序列特征)。

在得到叠加处理后的序列特征之后，对叠加后的序列特征进行CTC解码处理(如图3中所示的CTC解码)，得到待识别图像的文本内容，如图3中所示的“ABCD”。

值得说明的是，此处的CTC解码处理包括解码处理和去重处理。

其中，关于上述结合图3所示的本实施例的文本识别方法的实现原理的具体实现，可以参见上述方法实施例地描述，此处不再赘述。

值得说明的是，在另一些实施例中，也可以预先训练文本识别模型，以便基于文本识别模型对待识别图像进行识别，从而得到待识别图像的文本内容。

其中，关于文本识别模型对待识别图像进行识别的实现原理，可以参见上述文本识别方法的实现原理，如文本识别模型可以执行上述文本识别方法，从而得到待识别图像的文本内容。关于文本识别模型的训练方法，可以参见下述实施例。

图4是根据本公开第三实施例的示意图。如图4所示，本公开实施例的文本识别模型的训练方法，包括：

S401：获取样本图像的图像序列特征，对图像序列特征进行解码处理，得到样本图像的全量的文本字符串。

示例性的，本实施例的执行主体可以为文本识别模型的训练装置(下文简称训练装置)，训练装置可以为服务器(如云端服务器，或者，本地服务器)，也可以为计算机，也可以为终端设备，也可以为处理器，也可以为芯片等，本实施例不做限定。

可以理解的是，训练装置可以为与文本识别装置相同的装置，也可以为与文本识别装置不相同的装置，本实施例不做限定。

在一些实施例中，对图像序列特征进行解码处理，得到样本图像的全量的文本字符串，包括：对图像序列特征进行CTC解码处理，得到样本图像的全量的文本字符串。

在一些实施例中，对图像序列特征进行CTC解码处理，得到样本图像的全量的文本字符串，包括如下步骤：

第一步骤：在对图像序列特征进行CTC解码处理时，计算解码处理位置对应的CTC损失函数值，CTC损失函数值用于表征解码处理位置是否存在文本字符串。

在一些实施例中，根据CTC损失函数值对解码处理图像序列特征进行约束处理，得到文本字符串，包括：若解码处理位置未解码得到文本字符串，且CTC损失函数值表征解码处理位置存在文本字符串，则对解码处理位置再次进行解码处理，直至得到文本字符串。

在一些实施例中，图像序列特征是获取样本图像的高度方向信息，并根据高度方向信息对样本图像进行下采样操作得到的。

S402：对文本字符串进行语义增强处理，得到文本序列特征。其中，图像序列特征、文本字符串与所述文本序列特征的长度相同。

在一些实施例中，文本字符串的数量为多个，各文本字符串具有各自对应的位置标签；对文本字符串进行语义增强处理，得到文本序列特征，包括如下步骤：

第一步骤：对每一文本字符串进行语义增强处理，得到每一文本字符串对应的语义增强特征。

第二步骤：若每一位置标签所表征的位置均具有语义增强特征，则根据每一文本字符串对应的语义增强特征确定所述文本序列特征。

在一些实施例中，若任一位置标签所表征的位置没有语义增强特征，则对任一位置标签所表征的位置对应的文本字符串再次进行语义增强处理，得到任一位置标签所表征的位置对应的语义增强特征，并根据每一文本字符串对应的语义增强特征确定文本序列特征。

在一些实施例中，结合上述分析可知，可以预先基于文本预料训练得到用于语义增强处理的语义推理模型，并在训练文本识别模型的整体训练过程中对语义推理模型的参数进行适应性的调整，以提高训练效率，且提高训练的可靠性和有效性。

S403：根据文本字符串和文本序列特征，确定样本图像的预测文本内容，并根据预测文本内容与预设的标定文本内容进行比较，训练得到文本识别模型。其中，文本识别模型用于识别得到待识别图像的文本内容。

在一些实施例中，根据文本字符串和文本序列特征，确定样本图像的预测文本内容，可以包括如下步骤：

第一步骤：对文本字符串和所述文本序列特征进行叠加处理，得到叠加处理后的序列特征。

第二步骤：对叠加后的序列特征进行CTC解码处理，得到样本图像的文本内容。

在一些实施例中，第二步骤可以包括：对叠加后的序列特征进行CTC解码处理，得到解码处理后的文本信息，并对文本信息进行去重处理，得到样本图像的文本内容。

在一些实施例中，根据预测文本内容与预设的标定文本内容进行比较，训练得到文本识别模型，包括：计算预测文本内容与预设的标定文本内容之间的损失值，并根据损失值对基础网络模型的参数进行调整，直至预测文本内容与预设的标定文本内容之间的损失值小于预设的损失阈值，或者迭代次数达到预设的迭代阈值，并将预测文本内容与预设的标定文本内容之间的损失值小于预设的损失阈值时的基础网络模型，或者，迭代次数达到预设的迭代阈值时的基础网络模型确定为文本识别模型。

图5是根据本公开第四实施例的示意图。如图5所示，本公开实施例的文本识别装置500，包括：

第一获取单元501，用于获取待识别图像的图像序列特征。

第一解码单元502，用于图像序列特征进行解码处理，得到待识别图像的全量的文本字符串。

第一增强单元503，用于对文本字符串进行语义增强处理，得到文本序列特征，其中，图像序列特征、文本字符串与文本序列特征的长度相同。

第一确定单元504，用于根据文本字符串和文本序列特征，确定待识别图像的文本内容。

图6是根据本公开第五实施例的示意图。如图6所示，本公开实施例的文本识别装置600，包括：

第一获取单元601，用于获取待识别图像的图像序列特征。

结合图6可知，在一些实施例中，第一获取单元601，包括：

第一获取子单元6011，用于获取待识别图像的高度方向信息。

第一采样子单元6012，用于根据高度方向信息对待识别图像进行下采样操作，得到图像序列特征。

第一解码单元602，用于图像序列特征进行解码处理，得到待识别图像的全量的文本字符串。

在一些实施例中，第一解码单元602用于，对图像序列特征进行CTC解码处理，得到待识别图像的全量的文本字符串。

结合图6可知，在一些实施例中，第一解码单元602，包括：

第一计算子单元6021，用于在对图像序列特征进行CTC解码处理时，计算解码处理位置对应的CTC损失函数值，CTC损失函数值用于表征解码处理位置是否存在文本字符串。

第一约束子单元6022，用于根据CTC损失函数值对解码处理图像序列特征进行约束处理，得到文本字符串。

在一些实施例中，第一约束子单元6022用于，若解码处理位置未解码得到文本字符串，且CTC损失函数值表征解码处理位置存在文本字符串，则对解码处理位置再次进行解码处理，直至得到文本字符串。

第一增强单元603，用于对文本字符串进行语义增强处理，得到文本序列特征，其中，图像序列特征、文本字符串与文本序列特征的长度相同。

在一些实施例中，文本字符串的数量为多个，各文本字符串具有各自对应的位置标签；结合图6可知，第一增强单元603，包括：

第一增强子单元6031，用于对每一文本字符串进行语义增强处理，得到每一文本字符串对应的语义增强特征。

第一确定子单元6032，用于若每一位置标签所表征的位置均具有语义增强特征，则根据每一文本字符串对应的语义增强特征确定文本序列特征。

在一些实施例中，第一增强子单元6031还用于，若任一位置标签所表征的位置没有语义增强特征，则对任一位置标签所表征的位置对应的文本字符串再次进行语义增强处理，得到任一位置标签所表征的位置对应的语义增强特征。

相应的，第一确定子单元6032还用于，根据每一文本字符串对应的语义增强特征确定文本序列特征。

第一确定单元604，用于根据文本字符串和文本序列特征，确定待识别图像的文本内容。

结合图6可知，在一些实施例中，第一确定单元604，包括：

第一叠加子单元6041，用于对文本字符串和文本序列特征进行叠加处理，得到叠加处理后的序列特征。

第一解码子单元6042，用于对叠加后的序列特征进行CTC解码处理，得到待识别图像的文本内容。

在一些实施例中，第一解码子单元6042，包括：

第一解码模块，用于对叠加后的序列特征进行CTC解码处理，得到解码处理后的文本信息。

第一去重模块，用于对文本信息进行去重处理，得到待识别图像的文本内容。

图7是根据本公开第六实施例的示意图。如图7所示，本公开实施例的文本识别模型的训练装置700，包括：

第二获取单元701，用于获取样本图像的图像序列特征。

第二解码单元702，用于对图像序列特征进行解码处理，得到样本图像的全量的文本字符串。

第二增强单元703，用于对文本字符串进行语义增强处理，得到文本序列特征，其中，图像序列特征、文本字符串与文本序列特征的长度相同。

第二确定单元704，用于根据文本字符串和文本序列特征，确定样本图像的预测文本内容。

训练单元705，用于根据预测文本内容与预设的标定文本内容进行比较，训练得到文本识别模型，其中，文本识别模型用于识别得到待识别图像的文本内容。

图8是根据本公开第七实施例的示意图。如图8所示，本公开实施例的文本识别模型的训练装置800，包括：

第二获取单元801，用于获取样本图像的图像序列特征。

结合图8可知，在一些实施例中，第二获取单元801，包括：

第二获取子单元8011，用于获取待识别图像的高度方向信息。

第二采样子单元8012，用于根据高度方向信息对待识别图像进行下采样操作，得到图像序列特征。

第二解码单元802，用于对图像序列特征进行解码处理，得到样本图像的全量的文本字符串。

在一些实施例中，第二解码单元802用于，对所述图像序列特征进行CTC解码处理，得到所述样本图像的全量的文本字符串。

结合图8可知，在一些实施例中，第二解码单元802，包括：

第二计算子单元8021，用于在对图像序列特征进行CTC解码处理时，计算解码处理位置对应的CTC损失函数值，CTC损失函数值用于表征解码处理位置是否存在文本字符串。

第二约束子单元8022，用于根据CTC损失函数值对解码处理图像序列特征进行约束处理，得到文本字符串。

在一些实施例中，第二约束子单元8022用于，若解码处理位置未解码得到文本字符串，且CTC损失函数值表征解码处理位置存在文本字符串，则对解码处理位置再次进行解码处理，直至得到文本字符串。

第二增强单元803，用于对文本字符串进行语义增强处理，得到文本序列特征，其中，图像序列特征、文本字符串与文本序列特征的长度相同。

在一些实施例中，文本字符串的数量为多个，各文本字符串具有各自对应的位置标签；结合图8可知，第二增强单元803，包括：

第二增强子单元8031，用于对每一文本字符串进行语义增强处理，得到每一文本字符串对应的语义增强特征。

第二确定子单元8032，用于若每一位置标签所表征的位置均具有语义增强特征，则根据每一文本字符串对应的语义增强特征确定文本序列特征。

在一些实施例中，第二增强子单元8031还用于，若任一位置标签所表征的位置没有语义增强特征，则对任一位置标签所表征的位置对应的文本字符串再次进行语义增强处理，得到任一位置标签所表征的位置对应的语义增强特征。

相应的，第二确定子单元8032还用于，根据每一文本字符串对应的语义增强特征确定文本序列特征。

第二确定单元804，用于根据文本字符串和文本序列特征，确定样本图像的预测文本内容。

结合图8可知，在一些实施例中，第二确定单元804，包括：

第二叠加子单元8041，用于对文本字符串和文本序列特征进行叠加处理，得到叠加处理后的序列特征。

第二解码子单元8042，用于对叠加后的序列特征进行CTC解码处理，得到样本图像的文本内容。

在一些实施例中，第二解码子单元8042，包括：

训练单元805，用于根据预测文本内容与预设的标定文本内容进行比较，训练得到文本识别模型，其中，文本识别模型用于识别得到待识别图像的文本内容。

图9是根据本公开第八实施例的示意图，如图9所示，本公开中的电子设备900可以包括：处理器901和存储器902。

存储器902，用于存储程序；存储器902，可以包括易失性存储器(英文：volatilememory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)，如静态随机存取存储器(英文：static random-access memory，缩写：SRAM)，双倍数据率同步动态随机存取存储器(英文：Double Data Rate Synchronous Dynamic Random Access Memory，缩写：DDR SDRAM)等；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如快闪存储器(英文：flash memory)。存储器902用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等，上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器902中。并且上述的计算机程序、计算机指令、数据等可以被处理器901调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器902中。并且上述的计算机程序、计算机指据等可以被处理器901调用。

处理器901，用于执行存储器902存储的计算机程序，以实现上述实施例涉及的方法中的各个步骤。

具体可以参见前面方法实施例中的相关描述。

处理器901和存储器902可以是独立结构，也可以是集成在一起的集成结构。当处理器901和存储器902是独立结构时，存储器902、处理器901可以通过总线903耦合连接。

本实施例的电子设备可以执行上述方法中的技术方案，其具体实现过程和技术原理相同，此处不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

根据本公开的实施例，本公开还提供了一种计算机程序产品，计算机程序产品包括：计算机程序，计算机程序存储在可读存储介质中，电子设备的至少一个处理器可以从可读存储介质读取计算机程序，至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。

图10示出了可以用来实施本公开的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如文本识别方法、文本识别模型的训练方法。例如，在一些实施例中，文本识别方法、文本识别模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的文本识别方法、文本识别模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本识别方法、文本识别模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本识别方法，包括：

2.根据权利要求1所述的方法，其中，对所述图像序列特征进行解码处理，得到所述待识别图像的全量的文本字符串，包括：

对所述图像序列特征进行联结主义时间分类CTC解码处理，得到所述待识别图像的全量的文本字符串。

3.根据权利要求2所述的方法，其中，对所述图像序列特征进行联结主义时间分类CTC解码处理，得到所述待识别图像的全量的文本字符串，包括：

在对所述图像序列特征进行CTC解码处理时，计算解码处理位置对应的CTC损失函数值，所述CTC损失函数值用于表征解码处理位置是否存在文本字符串；

根据所述CTC损失函数值对解码处理所述图像序列特征进行约束处理，得到所述文本字符串。

4.根据权利要求3所述的方法，其中，根据所述CTC损失函数值对解码处理所述图像序列特征进行约束处理，得到所述文本字符串，包括：

若所述解码处理位置未解码得到文本字符串，且所述CTC损失函数值表征所述解码处理位置存在文本字符串，则对所述解码处理位置再次进行解码处理，直至得到所述文本字符串。

5.根据权利要求1-4中任一项所述的方法，其中，所述文本字符串的数量为多个，各文本字符串具有各自对应的位置标签；对所述文本字符串进行语义增强处理，得到文本序列特征，包括：

对每一文本字符串进行语义增强处理，得到每一文本字符串对应的语义增强特征；

若每一位置标签所表征的位置均具有语义增强特征，则根据每一文本字符串对应的语义增强特征确定所述文本序列特征。

6.根据权利要求5所述的方法，还包括：

若任一位置标签所表征的位置没有语义增强特征，则对所述任一位置标签所表征的位置对应的文本字符串再次进行语义增强处理，得到所述任一位置标签所表征的位置对应的语义增强特征，并根据每一文本字符串对应的语义增强特征确定所述文本序列特征。

7.根据权利要求1-6中任一项所述的方法，其中，根据所述文本字符串和所述文本序列特征，确定所述待识别图像的文本内容，包括：

对所述文本字符串和所述文本序列特征进行叠加处理，得到叠加处理后的序列特征，并对所述叠加后的序列特征进行联结主义时间分类CTC解码处理，得到所述待识别图像的文本内容。

8.根据权利要求7所述的方法，其中，对所述叠加后的序列特征进行联结主义时间分类CTC解码处理，得到所述待识别图像的文本内容，包括：

对所述叠加后的序列特征进行CTC解码处理，得到解码处理后的文本信息，并对所述文本信息进行去重处理，得到所述待识别图像的文本内容。

9.根据权利要求1-8中任一项所述的方法，其中，获取待识别图像的图像序列特征，包括：

获取所述待识别图像的高度方向信息，并根据所述高度方向信息对所述待识别图像进行下采样操作，得到所述图像序列特征。

10.根据权利要求1-9中任一项所述的方法，还包括：

获取待识别图像，其中，所述待识别图像的文本内容是，基于预先训练的文本识别模型实现如权利要求1-9中任一项所述的方法所确定的。

11.一种文本识别模型的训练方法，包括：

12.根据权利要求11所述的方法，其中，对所述图像序列特征进行解码处理，得到所述样本图像的全量的文本字符串，包括：

对所述图像序列特征进行联结主义时间分类CTC解码处理，得到所述样本图像的全量的文本字符串。

13.根据权利要求12所述的方法，其中，对所述图像序列特征进行联结主义时间分类CTC解码处理，得到所述样本图像的全量的文本字符串，包括：

14.根据权利要求13所述的方法，其中，根据所述CTC损失函数值对解码处理所述图像序列特征进行约束处理，得到所述文本字符串，包括：

15.根据权利要求11-14中任一项所述的方法，其中，所述文本字符串的数量为多个，各文本字符串具有各自对应的位置标签；对所述文本字符串进行语义增强处理，得到文本序列特征，包括：

16.根据权利要求15所述的方法，还包括：

17.一种文本识别装置，包括：

第一获取单元，用于获取待识别图像的图像序列特征；

18.根据权利要求17所述的装置，其中，所述第一解码单元用于，对所述图像序列特征进行联结主义时间分类CTC解码处理，得到所述待识别图像的全量的文本字符串。

19.根据权利要求18所述的装置，其中，所述第一解码单元，包括：

第一计算子单元，用于在对所述图像序列特征进行CTC解码处理时，计算解码处理位置对应的CTC损失函数值，所述CTC损失函数值用于表征解码处理位置是否存在文本字符串；

第一约束子单元，用于根据所述CTC损失函数值对解码处理所述图像序列特征进行约束处理，得到所述文本字符串。

20.根据权利要求19所述的装置，其中，所述第一约束子单元用于，若所述解码处理位置未解码得到文本字符串，且所述CTC损失函数值表征所述解码处理位置存在文本字符串，则对所述解码处理位置再次进行解码处理，直至得到所述文本字符串。

21.根据权利要求17-20中任一项所述的装置，其中，所述文本字符串的数量为多个，各文本字符串具有各自对应的位置标签；所述第一增强单元，包括：

第一增强子单元，用于对每一文本字符串进行语义增强处理，得到每一文本字符串对应的语义增强特征；

第一确定子单元，用于若每一位置标签所表征的位置均具有语义增强特征，则根据每一文本字符串对应的语义增强特征确定所述文本序列特征。

22.根据权利要求21所述的装置，其中，

所述第一增强子单元还用于，若任一位置标签所表征的位置没有语义增强特征，则对所述任一位置标签所表征的位置对应的文本字符串再次进行语义增强处理，得到所述任一位置标签所表征的位置对应的语义增强特征；

所述第一确定子单元还用于，根据每一文本字符串对应的语义增强特征确定所述文本序列特征。

23.根据权利要求17-22中任一项所述的装置，其中，所述第一确定单元，包括：

第一叠加子单元，用于对所述文本字符串和所述文本序列特征进行叠加处理，得到叠加处理后的序列特征；

第一解码子单元，用于对所述叠加后的序列特征进行联结主义时间分类CTC解码处理，得到所述待识别图像的文本内容。

24.根据权利要求23所述的装置，其中，所述第一解码子单元，包括：

第一解码模块，用于对所述叠加后的序列特征进行CTC解码处理，得到解码处理后的文本信息；

第一去重模块，用于对所述文本信息进行去重处理，得到所述待识别图像的文本内容。

25.根据权利要求17-24中任一项所述的装置，其中，所述第一获取单元，包括：

第一获取子单元，用于获取所述待识别图像的高度方向信息；

第一采样子单元，用于根据所述高度方向信息对所述待识别图像进行下采样操作，得到所述图像序列特征。

26.根据权利要求17-25中任一项所述的装置，其中，所述获取单元用于获取待识别图像，其中，所述待识别图像的文本内容是，基于预先训练的文本识别模型实现如权利要求1-9中任一项所述的方法所确定的。

27.一种文本识别模型的训练装置，包括：

第二获取单元，用于获取样本图像的图像序列特征；

28.根据权利要求27所述的装置，其中，所述第二解码单元用于，对所述图像序列特征进行联结主义时间分类CTC解码处理，得到所述样本图像的全量的文本字符串。

29.根据权利要求28所述的装置，其中，所述第二解码单元，包括：

第二计算子单元，用于在对所述图像序列特征进行CTC解码处理时，计算解码处理位置对应的CTC损失函数值，所述CTC损失函数值用于表征解码处理位置是否存在文本字符串；

第二约束子单元，用于根据所述CTC损失函数值对解码处理所述图像序列特征进行约束处理，得到所述文本字符串。

30.根据权利要求29所述的装置，其中，所述第二约束子单元用于，若所述解码处理位置未解码得到文本字符串，且所述CTC损失函数值表征所述解码处理位置存在文本字符串，则对所述解码处理位置再次进行解码处理，直至得到所述文本字符串。

31.根据权利要求27-30中任一项所述的装置，其中，所述文本字符串的数量为多个，各文本字符串具有各自对应的位置标签；所述第二增强单元，包括：

第二增强子单元，用于对每一文本字符串进行语义增强处理，得到每一文本字符串对应的语义增强特征；

第二确定子单元，用于若每一位置标签所表征的位置均具有语义增强特征，则根据每一文本字符串对应的语义增强特征确定所述文本序列特征。

32.根据权利要求31所述的装置，其中，

所述第二增强子单元还用于，若任一位置标签所表征的位置没有语义增强特征，则对所述任一位置标签所表征的位置对应的文本字符串再次进行语义增强处理，得到所述任一位置标签所表征的位置对应的语义增强特征；

所述第二确定子单元还用于，根据每一文本字符串对应的语义增强特征确定所述文本序列特征。

33.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法；或者，以使所述至少一个处理器能够执行权利要求11-16中任一项所述的方法。

34.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法；或者，所述计算机指令用于使所述计算机执行根据权利要求11-16中任一项所述的方法。

35.一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现权利要求1-10中任一项所述方法的步骤；或者，该计算机程序被处理器执行时实现权利要求11-16中任一项所述方法的步骤。