CN115273103A

CN115273103A - 文本识别方法、装置、电子设备及存储介质

Info

Publication number: CN115273103A
Application number: CN202210898184.2A
Authority: CN
Inventors: 秦勇
Original assignee: Shenzhen Xingtong Technology Co ltd
Current assignee: Shenzhen Xingtong Technology Co ltd
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-01

Abstract

本公开提供一种文本识别方法、装置、电子设备及存储介质，属于图像处理领域。该方法包括：获取待识别文本图像；基于文本识别模型的第一文本识别单元，对所述待识别文本图像进行处理，以确定所述待识别文本图像中至少一个书写文本的正确概率；在基于所述正确概率确定所述待识别文本图像中存在目标错误文本时，基于所述文本识别模型的第二文本识别单元，确定该目标错误文本的错误类别；基于所述目标错误文本及其错误类别，确定所述待识别文本图像的文本识别结果。采用本公开，可以识别错误文本的错误类别。

Description

文本识别方法、装置、电子设备及存储介质

技术领域

本发明涉及图像处理领域，尤其涉及一种文本识别方法、装置、电子设备及存储介质。

背景技术

在教育场景下，或者说在作业批改中字词听写的场景下，判断学生写错了哪个字，同时指出他错在了哪里至关重要。

目前的文本识别方法按照输入图像中文本行数量可以分为单行识别和多行识别，按照标注方式来说有基于字符和基于序列两种，总的来说单行和基于序列的方法是主流，形成了矫正部分、特征提取部分、识别解码部分依次结合的文本识别方法范式，大部分方法遵循这样的范式，针对弯曲文本、模糊文本等多种问题进行具体改进。

但就中文识别而言，很少有针对其错字进行具体识别的方法，大多数识别为二分类的识别，即识别是否为错字，但并不能识别具体错在何处。

发明内容

有鉴于此，本公开实施例提供了一种文本识别方法、装置、电子设备及存储介质，以解决不能识别错字的错误类别的问题。

根据本公开的一方面，提供了一种文本识别方法，上述方法包括：

获取待识别文本图像；

基于文本识别模型的第一文本识别单元，对所述待识别文本图像进行处理，以确定所述待识别文本图像中至少一个书写文本的正确概率；

在基于所述正确概率确定所述待识别文本图像中存在目标错误文本时，基于所述文本识别模型的第二文本识别单元，确定该目标错误文本的错误类别；

基于所述目标错误文本及其错误类别，确定所述待识别文本图像的文本识别结果。

根据本公开的另一方面，提供了一种文本识别装置，上述装置包括：

获取模块，用于获取待识别文本图像；

处理模块，用于基于文本识别模型的第一文本识别单元，对所述待识别文本图像进行处理，以确定所述待识别文本图像中至少一个书写文本的正确概率；在基于所述正确概率确定所述待识别文本图像中存在目标错误文本时，基于所述文本识别模型的第二文本识别单元，确定该目标错误文本的错误类别；

确定模块，用于基于所述目标错误文本及其错误类别，确定所述待识别文本图像的文本识别结果。

根据本公开的另一方面，提供了一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，上述程序包括指令，上述指令在由上述处理器执行时使上述处理器执行上述文本识别方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使计算机执行上述文本识别方法。

本公开中，基于文本识别模型中的第一文本识别单元，可以确定文本图像中每个书写文本的正确概率，当书写文本中存在目标错误文本时，基于文本识别模型中的第二文本识别单元，可以确定目标错误文本的错误类别。也即是说，不仅可以判断是否存在错字，还可以识别错字的错误类别，即识别出具体错在何处，提高了错字识别的准确性。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1示出了根据本公开示例性实施例提供的文本识别方法流程图；

图2示出了根据本公开示例性实施例提供的错误类别识别示意图；

图3示出了根据本公开示例性实施例提供的正确文本识别示意图；

图4示出了根据本公开示例性实施例提供的文本图像的识别示意图；

图5示出了根据本公开示例性实施例提供的相似度比较模型示意图；

图6示出了根据本公开示例性实施例提供的文本识别模型的训练方法流程图；

图7示出了根据本公开示例性实施例提供的文本识别装置的示意性框图；

图8示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

为了清楚阐明本公开提供的技术方案，首先对本公开所涉及的技术背景进行介绍。

现在常见的文本识别方案主要针对印刷体和手写体，而印刷体和手写体里面又包括不同的语言，因此关于文本识别方法的研究也主要集中在改善图像质量、增加语义信息、充分利用位置信息和多语种识别等方向，基本没有针对错别字识别的研究。主要原因有三，一是对于印刷体几乎不存在错别字，二是手写体信息中的错别字也比较少，三是识别模型都需要字典实现从概率位置到字符的转换，而一个字可能会有各种书写错误，难以处理。总的来说，就是现在的识别方法可以对错字进行二分类(将所有错字归为一类)，但是没法具体指出某个字错在了哪里。但是在教育场景下，或者说在作业批改中字词听写的场景下，判断学生写错了哪个字，同时指出他错在了哪里至关重要。

就中文识别而言，很少有针对其错字进行具体识别的方法，同时因其字典庞大，每个单字可以有多种写错的可能，比如“因”这个字如果少写“一”，那么就是“囚”字，不算错字，但是多写“一”，里面是个“夫”字，那就是错字，或者说把“一”写成“|”那么也是错字，故而如果把所有的可能错误写法全部加入字典，那么不仅会增加分类的类别数量，同时也很难收集到各种错误写法对应的数据样本，这就会造成样本分布不平衡，识别效果很差。

如果采用分阶段的模型，通过两阶段或多阶段的方式，或许可以极大的降低错字的识别难度，有一定的可行性，但是这种多阶段的模型结构复杂，实现困难，即便做出来了，效果也不大，因为还是需要依赖预先建立字典，模型一旦固定，就很难在增加新的错字进去，很难轻松更新。

为了解决上述技术问题，本公开提供了一种文本识别方法，该方法基于图像相似度对比的技术构思可以确定错字的错误类别，可以避免样本不平衡问题，同时还能解决字典固定难更新的问题。该方法可以由终端、服务器和/或其他具备处理能力的设备完成。本公开实施例提供的方法可以由上述任一设备完成，也可以由多个设备共同完成，本公开对此不作限定。

下面将参照图1示出的文本识别方法流程图，对该方法进行介绍。该方法包括如下步骤101-103。

步骤101，获取待识别文本图像。

在一种可能的实施方式中，当需要对图像中的文本进行识别时，可以在触发文本识别的信号，并获取待识别文本图像。例如，用户可以使用终端对图像进行拍摄，并点击识别文本的选项，进而触发文本识别的信号。又例如，用户可以长按终端显示的图像，并在终端显示识别文本的选项后点击该选项，进而触发文本识别的信号。本实施例对触发文本识别信号的具体场景不作限定。

在一些应用场景中，待识别文本图像可以为包括书写笔迹的图像，即书写文本图像，由于可能存在笔误，待识别图像中可以包括正确文本和/或错误文本。

步骤102，基于文本识别模型的第一文本识别单元，对待识别文本图像进行处理，以确定待识别文本图像中至少一个书写文本的正确概率。

可选的，其中还包括基于第一文本识别单元对文本图像进行处理，识别得到每个书写文本对应的第二正确文本。

在一种可能的实施方式中，文本识别模型可以包括第一文本识别单元和第二文本识别单元，第一文本识别单元和第二文本识别单元并行。在使用文本识别模型之前，可以对其进行训练，具体的训练过程将在另一实施例中介绍，本实施例不作赘述。

在对待识别文本图像进行识别时，可以将待识别文本图像作为文本识别模型的输入，并通过文本识别模型计算待识别文本图像中每个书写文本的正确概率，用于判断待识别文本图像中每个书写文本是否书写正确，也即是是否存在错字。分别将每个书写文本的正确概率与预设概率阈值(如0.1)进行比较，当书写文本的正确概率小于预设概率阈值时，可以将该书写文本作为目标错误文本，继续执行下述步骤103。

在一些可能的实施方式中，第一文本识别单元还可以对待识别文本图像中的每个书写文本进行识别，确定每个书写文本对应的正确文本。也即是说，在这些实施方式中，第一文本识别单元可以确定每个书写文本的正确概率以及对应的正确文本。需要说明的是，若书写文本中存在错字，此时识别的正确文本可以是对该错字预测的正确文本。为了便于介绍，本实施例将第一文本识别单元识别得到的正确文本称为第二正确文本。

可选的，可以采用字符字典确定书写文本的正确概率，相对应的，上述步骤102的处理可以如下：针对至少一个书写文本中的任一书写文本，基于文本识别模型的第一文本识别单元，确定该书写文本属于预先设置的字符字典中的每个字符的概率，并基于概率确定该书写文本的正确概率。

相应的，确定第二正确文本的处理可以如下：针对至少一个书写文本中的任一书写文本，基于文本识别模型的第一文本识别单元，确定该书写文本属于预先设置的字符字典中的每个字符的概率，并基于概率确定该书写文本的正确概率。

在一种可能的实施方式中，在第一文本识别单元中，对于每个书写文本，可以采用预先设置的字符字典，计算书写文本属于字符字典中每个字符的概率，从而可以确定每个书写文本对应的字符(即上述第二正确文本)。作为一种示例，第一文本识别单元对待识别文本图像进行处理后，可以得到每个书写文本的字符概率矩阵，字符概率矩阵用于表示书写文本属于字符字典中每个字符的概率，进而，可以通过贪心解码或者Beam Search(集束搜索)解码的方式，在字符字典中查找每个书写文本对应的字符。本实施例对在字符字典中查找字符的具体方式不作限定，例如，还可以将概率最大的字符确定为书写文本对应的字符。其中，由于错字是指无中生有的字，无法在字符字典中查找到对应的字符，当书写文本中存在错字(即目标错误文本)时，计算得到的上述概率较小，因此，可以将该概率作为书写文本的正确概率，用于判断书写文本是否正确。

当书写文本中存在错字(即目标错误文本)时，可以执行下述步骤103，进一步通过第二文本识别单元确定对应的错误类别。

步骤103，在基于正确概率确定待识别文本图像中存在目标错误文本时，基于文本识别模型的第二文本识别单元，确定该目标错误文本的错误类别。

参照图2示出的错误类别识别示意图，具体的处理可以如下：基于第二文本识别单元对待识别文本图像进行处理，确定每个书写文本对应的书写文本图像的字形特征向量；获取目标错误文本对应的至少一个预设错误字形图像的第一字形特征向量；确定目标错误文本对应的书写文本图像的字形特征向量与第一字形特征向量的第一相似度；基于第一相似度，确定目标错误文本的错误类别。

其中，目标错误文本为，上述步骤102的至少一个书写文本中正确概率小于预设概率阈值的书写文本。

在一种可能的实施方式中，每个字可以具有至少一种错误写法，对应不同的错误字形，可以预先收集每个错误字形的图像，作为该字的预设错误字形图像，并对预设错误字形图像提取字形特征向量，作为第一字形特征向量进行存储，在后续识别错误类别时作为识别基准进行使用。或者，还可以是将该字的预设错误字形图像存储于该字对应的预设错误字形字典中，在后续识别错误类别时将预设错误字形图像作为识别基准进行使用。

在第二文本识别单元中，可以对每个书写文本提取相应的字形特征向量。上述第一文本识别单元计算得到的上述概率小于预设概率阈值(如0.1)时，表明该书写文本为错字，则获取该书写文本对应的字形特征向量。进而，将该书写文本对应的字形特征向量与预先存储的各个预设错误字形图像的第一字形特征向量进行对比，计算该书写文本对应的字形特征向量与每个第一字形特征向量的相似度，确定相似度最高的预设错误字形图像，从而得到相应的错误分类。或者，还可以是从该书写文本对应的预设错误字形字典中获取每个预设错误字形图像，并对每个预设错误字形图像提取第一字形特征向量，进而，可以将该书写文本对应的字形特征向量与每个预设错误字形图像的第一字形特征向量进行对比，计算该书写文本对应的字形特征向量与每个第一字形特征向量的相似度，确定相似度最高的错误字形图像，从而得到相应的错误分类。

例如，对比得到相似度最高的错误字形图像为“因”字国字匡里是“夫”字的图像时，可以得到“因”字的错误分类一，指示相应的错误写法；对比得到相似度最高的错误字形图像为“因”字国字匡里是“个”字的图像时，可以得到“因”字的错误分类二，指示相应的错误写法。

可选的，参照图3示出的正确文本识别示意图，在第二文本识别单元中，除了通过书写文本对应的字形特征向量查找对应的错误分类，还可以确定正确文本对应的字符，相应的处理可以如下：确定每个书写文本对应的书写文本图像的字形特征向量分别与多个预设正确字形图像的第二字形特征向量的第二相似度；基于第二相似度，确定每个书写文本对应的第一正确文本。

在一种可能的实施方式中，对于每个字符，可以预先收集该字符对应的正确字形的图像，作为该字的预设正确字形图像，并对预设正确字形图像提取字形特征向量，作为第二字形特征向量进行存储，在后续识别正确文本时作为识别基准进行使用。或者，还可以是将该字符的预设正确字形图像存储于预设正确字形字典中，在后续识别正确文本时将预设正确字形图像作为识别基准进行使用。

在第二文本识别单元中，可以对每个书写文本提取相应的字形特征向量。进而，将每个书写文本对应的字形特征向量与预先存储的各个预设正确字形图像的第二字形特征向量进行对比，计算书写文本的图像与各个预设正确字形图像之间的相似度，确定相似度最高的正确字形图像，从而得到相应的正确文本(即上述第一正确文本)。或者，还可以是从预设正确字形字典中获取每个预设正确字形图像，并对每个预设正确字形图像提取第二字形特征向量，进而，可以将该书写文本对应的字形特征向量与每个预设正确字形图像的第二字形特征向量进行对比，计算该书写文本对应的字形特征向量与每个第二字形特征向量的相似度，确定相似度最高的预设正确字形图像，从而得到相应的正确文本(即上述第一正确文本)。

其中，上述图像相似度的计算可以采用GPU(Graphics Processing Unit，图形处理单元)进行加速计算，能够有效提高处理效率。

可选的，上述获取目标错误文本对应的至少一个预设错误字形图像的第一字形特征向量的处理可以包括：在确定目标错误文本对应的第一目标正确文本之后，确定第一目标正确文本对应的至少一个预设错误字形图像；将第一目标正确文本对应的至少一个预设错误字形图像的字形特征向量确定为目标错误文本对应的至少一个预设错误字形图像的第一字形特征向量。

第一正确文本可以对应于至少一个错误文本，每个错误文本的预设错误字形图像可以存储于对应的第一正确文本之下，表示该字符对应的各种错误写法。基于此，在确定每个书写文本的第一正确文本之后，若在第一文本识别单元中判断出存在错误文本，则可以根据目标错误文本对应的第一正确文本，确定该第一正确文本对应的至少一个预设错误字形图像，作为该目标错误文本对应的至少一个预设错误字形图像，进而获取相应的第一字形特征向量。

步骤104，基于目标错误文本及其错误类别，确定待识别文本图像的文本识别结果。

在一种可能的实施方式中，可以在文本图像中将相应的目标错误文本截取出来，或者，将查找到的相匹配的预设错误字形图像获取出来，结合上述确定的错误类别，形成相应的错误文本识别结果，作为待识别文本图像的文本识别结果。

可选的，对应于确定第一正确文本和第二正确文本的情况，步骤104的处理还可以为：基于每个书写文本对应的目标正确文本，确定待识别文本图像的正确文本识别结果，其中，目标正确文本为该书写文本对应的第一正确文本和第二正确文本中置信度高的正确文本；基于目标错误文本对应的错误字形图像及其错误类别，确定待识别文本图像的错误文本识别结果；将正确文本识别结果和错误文本识别结果，作为待识别文本图像的识别结果。

在一种可能的实施方式中，文本识别模型的处理结果可以包括正确文本识别结果和错误文本识别结果，可以对上述结果进行整合，得到识别结果。例如，当同时存在正确文本识别结果和错误文本识别结果时，可以显示正确文本的字符，并指出具体的错误写法，如“‘因’字国字匡里误写为‘夫’字，需修改为‘大’字”。

参照图4示出的文本图像的识别示意图，对于每个书写文本，如果上述第一正确文本和第二正确文本为同一文本，则可以选择其中一个作为该书写文本对应的正确文本；如果上述第一正确文本和第二正确文本为不同文本，则可以选择置信度较高的文本作为该书写文本对应的正确文本，例如，上述过程中采用正确概率确定第一正确文本，采用对比的相似度确定第二正确文本，对于该书写文本，当正确概率大于相似度时，可以选择第一正确文本作为置信度较高的正确文本。在此基础上，可以提高识别正确文本的准确性。

对于存在错字的情况，可以在文本图像中将相应的目标错误文本截取出来，或者，将查找到的相匹配的预设错误字形图像获取出来，结合上述确定的错误类别，形成相应的错误文本识别结果。

进而，对上述正确文本识别结果和上述错误文本识别结果进行整合，得到待识别文本图像的文本识别结果。

本实施例中，基于文本识别模型中的第一文本识别单元，可以确定文本图像中每个书写文本的正确概率，当书写文本中存在目标错误文本时，基于文本识别模型中的第二文本识别单元，可以确定目标错误文本的错误类别。也即是说，不仅可以判断是否存在错字，还可以识别错字的错误类别，即识别出具体错在何处，提高了错字识别的准确性。

并且，在第二文本识别单元中可以采用字形特征向量进行对比，确定错误类别，在出现新的错字时，提取新的错字的字形特征向量作为对比基准即可，不影响上述文本识别模型的处理，无需对文本识别模型进行任何修改或重新训练，便于更新。

上文介绍了文本识别方法的整体流程，其中提到对预设正确字形图像和预设错误字形图像提取字形特征向量，本实施例将提供一种可选的提取字形特征向量的方法，用于上述对预设正确字形图像和预设错误字形图像的特征提取。

该方法包括：获取多个正确文本的预设正确字形图像，以及每个正确文本对应的至少一个错误文本的预设错误字形图像；对预设错误字形图像进行特征提取，得到第一字形特征向量，对预设正确字形图像进行特征提取，得到第二字形特征向量。

在一种可能的实施方式中，可以收集大量的文本图像(从文本排布上包括直文本、倾斜文本和弯曲文本图像，从图形质量上包括常规的模糊、影印的文本图像，以及其他一些文本图像)，然后人工进行标注(即标注其上的文本字符信息)，标注整个字符序列，同时对于部分数据需要标注单个字符的坐标框，例如，如果那个文本图像中有错字，那么对这个错字做“EC”标识，同时标出这个错字的坐标框。

根据上述标注得到的各个字符，可以建立字符字典，其中包括独立的字，且为正确文本。进而，可以将每一个字符转到指定大小的图像上，形成预设正确字形图像，可选的，图像背景一般为纯白、字为纯黑。基于每个字符的预设正确字形图像，建立预设正确字形字典。

根据上述标注得到的错字坐标框，对错误文本进行裁剪，得到所有错误文本对应的预设错误字形图像，然后整理同一个正确文本对应的不同错误文本，建立预设错误字形字典。

进而，可以分别对预设正确字形字典和预设错误字形字典中的字形图像进行特征提取，得到相应的字形特征向量。

可选的，可以采用相似度比较模型中的特征提取分支进行特征提取，相应的处理可以如下：

构建相似度比较模型；

基于训练样本对相似度比较模型进行训练，其中，训练样本包括正样本和负样本，正样本包括文本相同的文本图像，负样本包括文本不同的文本图像；

训练完成后，基于训练后的特征提取分支，对预设错误字形图像进行特征提取，得到第一字形特征向量，对预设正确字形图像进行特征提取，得到第二字形特征向量。

其中，参照图5示出的相似度比较模型示意图，相似度比较模型可以包括并行的多个特征提取分支、与并行的多个特征提取分支串联的特征判别模块，每个特征提取分支权重共享。

在一种可能的实施方式中，可以收集多个文本图像，将文本相同的一对图像作为一个正样本，将文本不同的一对图像作为一个负样本，获取多个正样本和负样本，作为相似度比较模型的训练样本。可选的，正负样本比例可以设为1：3。可选的，作为相似度比较模型的训练样本的文本图像可以是单字符图像。

在训练的过程中，将一对图像输入相似度比较模型判断是否相似。示例性的，上述特征提取分支可以采用Resnet18模型(一种残差网络)，特征判别模块中可以先对并行的特征提取分支得到的两组特征映射串联叠加，然后通过2个卷积层和3个全连接层进行处理，最后一个全连接层的节点数为2，判断输入的两张图像是否相似，损失函数使用二分类交叉熵损失函数。

训练完成后，可以保留任一特征提取分支，上述特征提取分支可以对文本图像具备较高的敏感性，提高特征提取的准确性。进而，可以通过特征提取分支，对预设错误字形图像进行特征提取，得到第一字形特征向量，对预设正确字形图像进行特征提取，得到第二字形特征向量。

可选的，此后，在出现新的错字时，可以执行如下处理：在目标错误文本对应的错误字形图像不属于预设错误字形库中任一预设错误字形图像时，将该目标错误文本对应的错误字形图像保存至该预设错误字形字典中。对新的错误字形图像提取得到新增的第一字形特征向量，具体实施方式与上文同理，当得到新增的第一字形特征向量时，可以存储到相应的位置，与错误文本以及相应的正确文本相对应。

本实施例中，在出现新的错字时，提取新的错字的字形特征向量作为对比基准即可，不影响文本识别模型的处理。

采用相似度比较模型中的特征提取分支进行特征提取，由于判断的是输入模型的一对图像是否相似，并不依赖于图像包含的具体语义，当出现新的错字时，仍然适用上述特征提取分支进行特征提取，提高了更新的便捷性。

上述公开实施例中所使用的文本识别模型可以是机器学习模型，在使用文本识别模型进行上述处理前，可以对其进行训练。本实施例将对文本识别模型的训练方法进行介绍。

参照图6示出的文本识别模型的训练方法流程图，该方法包括下述步骤601-603。

步骤601，构建初始文本识别模型，初始文本识别模型包括特征提取模块和文本识别模块；

步骤602，基于正确文本的样本文本图像对初始文本识别模型进行训练；

步骤603，训练完成后，将训练后的初始文本识别模型作为第一文本识别单元，将训练后的特征提取模块作为第二文本识别单元，构建文本识别模型。

在一种可能的实施方式中，可以收集大量的正确文本的样本文本图像(从文本排布上包括直文本、倾斜文本和弯曲文本图像，从图形质量上包括常规的模糊、影印的文本图像，以及其他一些文本图像，但这些文本图像都是单行文本图像)作为训练样本，然后人工进行标注(即标注其上的文本字符信息)，标注整个字符序列。可选的，可以将训练样本划分为数据集一和数据集二，其中，数据集一包括背景干净、书写整洁规范的且其中没有错别字的文本图像，数据集二为除数据集一外不包含错别字的文本图像，例如字迹潦草的没有错别字的文本图像。

构建初始文本识别模型。示例性的，初始文本识别模型可以包括Resnet18网络、两层双向LSTM(Long Short-Term Memory，长短期记忆网络)、一个注意力层和一个GRU(GateRecurrent Unit，门循环单元)层。其中，Resnet18网络可以用于提取特征，对应于上述特征提取模块，其余模块对应于上述文本识别模块。Resnet18的主体由4个Stage块组成，每个Stage块又包含多个block块，每个block块又由若干卷积操作组成，每一个block的输出是后一个block块的输入。

在训练的过程中，可以将每个训练样本输入上述初始文本识别模型，通过Resnet18网络的处理后得到一组特征映射，作为两层双向LSTM的输入。两层双向LSTM对其输入进行上下文信息建模，输出与输入相同维度的特征映射。上述注意力层和GRU层构成一个解码器，解码器以GRU的上一步隐状态向量为查询向量Q、以LSTM输出的特征映射为键向量K和值向量V，计算得到注意力得分，然后根据注意力得分计算得到上下文向量，然后基于解码器上一步的输出和上下文向量进行计算，得到当前步隐状态向量，然后根据当前步隐状态向量和上下文向量得到当前预测每个书写文本的字符概率矩阵，字符概率矩阵用于表示书写文本属于字符字典中每个字符的概率。损失函数使用多分类交叉熵损失函数。

训练完成后，可以保留整个模型作为上述第一文本识别单元，保留Resnet18网络作为上述第二文本识别单元，并基于第一文本识别单元和第二文本识别单元构建文本识别模型，用以实现上述文本识别的过程。

在本实施例中，采用的训练样本是正确文本的样本文本图像，相比于错误文本的文本图像容易获取，且样本量大，可以避免样本不平衡问题。

本公开实施例提供了一种文本识别装置，该装置用于实现上述文本识别方法。如图7所示的文本识别装置的示意性框图，文本识别装置700包括：获取模块701，处理模块702，确定模块703。

获取模块701，用于获取待识别文本图像；

处理模块702，用于基于文本识别模型的第一文本识别单元，对所述待识别文本图像进行处理，以确定所述待识别文本图像中至少一个书写文本的正确概率；在基于所述正确概率确定所述待识别文本图像中存在目标错误文本时，基于所述文本识别模型的第二文本识别单元，确定该目标错误文本的错误类别；

确定模块703，用于基于所述目标错误文本及其错误类别，确定所述待识别文本图像的文本识别结果。

可选的，所述处理模块702，用于：

基于所述第二文本识别单元对所述待识别文本图像进行处理，确定每个书写文本对应的书写文本图像的字形特征向量；

获取所述目标错误文本对应的至少一个预设错误字形图像的第一字形特征向量；

确定所述目标错误文本对应的书写文本图像的字形特征向量与所述第一字形特征向量的第一相似度；

基于所述第一相似度，确定所述目标错误文本的错误类别，其中，所述目标错误文本为，所述至少一个书写文本中，正确概率小于预设概率阈值的书写文本。

可选的，所述处理模块702，还用于：

确定每个书写文本对应的书写文本图像的字形特征向量分别与多个预设正确字形图像的第二字形特征向量的第二相似度；

基于所述第二相似度，确定每个书写文本对应的第一正确文本。

可选的，所述第一正确文本对应有至少一个预设错误字形图像；

所述处理模块702，用于：

在确定所述目标错误文本对应的第一目标正确文本之后，确定所述第一目标正确文本对应的至少一个预设错误字形图像；

将所述第一目标正确文本对应的至少一个预设错误字形图像的字形特征向量确定为所述目标错误文本对应的至少一个预设错误字形图像的第一字形特征向量。

可选的，所述处理模块702，用于：

针对所述至少一个书写文本中的任一书写文本，基于文本识别模型的第一文本识别单元，确定该书写文本属于预先设置的字符字典中的每个字符的概率，并基于所述概率确定该书写文本的正确概率。

可选的，所述处理模块702，还用于：

针对所述至少一个书写文本中的任一书写文本，基于文本识别模型的第一文本识别单元，确定该书写文本属于预先设置的字符字典中的每个字符的概率；

基于该书写文本属于预先设置的字符字典中的每个字符的概率，确定该书写文本对应的第二正确文本。

可选的，所述确定模块703，用于：

基于每个书写文本对应的目标正确文本，确定所述待识别文本图像的正确文本识别结果，其中，所述目标正确文本为该书写文本对应的第一正确文本和第二正确文本中置信度高的正确文本；

基于所述目标错误文本对应的错误字形图像及其错误类别，确定所述待识别文本图像的错误文本识别结果；

将所述正确文本识别结果和所述错误文本识别结果，作为所述待识别文本图像的识别结果。

可选的，每个书写文本对应有预设错误字形库字典，该预设错误字形库字典中包括有多个预设错误字形图像，

其中，所述装置还包括更新模块，所述更新模块用于：

在所述目标错误文本对应的错误字形图像不属于所述预设错误字形库中任一预设错误字形图像时，将该目标错误文本对应的错误字形图像保存至该预设错误字形库字典中。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图8，现将描述可以作为本公开的服务器或客户端的电子设备800的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

电子设备800中的多个部件连接至I/O接口805，包括：输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备，输入单元806可以接收输入的数字或文本信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元808可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙设备、WiFi设备、WiMa7设备、蜂窝通信设备和/或类似物。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如，在一些实施例中，文本识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本识别方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

获取待识别文本图像；

2.根据权利要求1所述的方法，其特征在于，所述在基于所述正确概率确定所述待识别文本图像中存在目标错误文本时，基于所述文本识别模型的第二文本识别单元，确定该目标错误文本的错误类别，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述第一正确文本对应有至少一个预设错误字形图像；

所述获取所述目标错误文本对应的至少一个预设错误字形图像的第一字形特征向量，包括：

在确定所述目标错误文本对应的第一正确文本之后，确定所述第一正确文本对应的至少一个预设错误字形图像；

将所述第一正确文本对应的至少一个预设错误字形图像的字形特征向量确定为所述目标错误文本对应的至少一个预设错误字形图像的第一字形特征向量。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述基于文本识别模型的第一文本识别单元，对所述待识别文本图像进行处理，以确定所述待识别文本图像中至少一个书写文本的正确概率，包括：

6.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述目标错误文本及其错误类别，确定所述待识别文本图像的文本识别结果，包括：

8.根据权利要求1-4中任一项所述的方法，其特征在于，每个书写文本对应有预设错误字形字典，该预设错误字形字典中包括有多个预设错误字形图像，

其中，所述方法还包括：

在所述目标错误文本对应的错误字形图像不属于所述预设错误字形库中任一预设错误字形图像时，将该目标错误文本对应的错误字形图像保存至该预设错误字形字典中。

9.一种文本识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别文本图像；

10.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-8中任一项所述的方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-8中任一项所述的方法。