CN114998896B

CN114998896B - 文本识别方法和装置

Info

Publication number: CN114998896B
Application number: CN202210660171.1A
Authority: CN
Inventors: 秦勇
Original assignee: Shenzhen Xingtong Technology Co ltd
Current assignee: Shenzhen Xingtong Technology Co ltd
Priority date: 2022-06-13
Filing date: 2022-06-13
Publication date: 2024-06-28
Anticipated expiration: 2042-06-13
Also published as: CN114998896A

Abstract

本公开提供一种文本识别方法和装置，属于图像处理领域。该方法包括：获取第一文本图像和待识别的第二文本图像，其中，第一文本图像包括由多个已知文本的字形图像拼接而成的拼接图像；调用训练后的图像对比模型；利用第一特征提取模块，基于第一文本图像，得到多个第一特征向量；利用第二特征提取模块，基于第二文本图像，得到多个第二特征向量；利用对比模块，对每个第二特征向量与每个第一特征向量进行相似度计算，得到第一相似度图像；利用识别模块，基于第一相似度图像，识别得到第二文本图像的文本识别结果。采用本公开，可以充分利用字形对比进行文本识别，方便扩展到不同语言，同时降低标注成本，节省存储空间。

Description

文本识别方法和装置

技术领域

本发明涉及图像处理领域，尤其涉及一种文本识别方法和装置。

背景技术

自然场景文字识别是带文字的图片中识别出字符序列的过程，对于中文，一个字符便是一个汉字，对于英文，一个字符便是一个字母。

目前文本识别的方法有两种，一种是基于自底向上的策略，将识别的过程拆分为字符检测、字符识别和字符组合，并逐个解决，另一种是基于整体分析的策略，即序列到序列的方法，先将图像编码，然后进行序列解码，直接得出整个字符串。

上述第二种方法存在识别结果中多识别字符或漏识别字符的情况，若要保证识别精度便需要采用上述第一种方法，但是第一种方法的实质是建模了一种从图像到字符串的复杂映射关系，图像和字符串本质上属于不同模态的信息，因此每个字符在输入图像上的位置、以及信息都需要标注，即需要大量字符级别的标注，标注成本较高，且不方便扩展到不同语言。

发明内容

有鉴于此，本发明实施例提供了一种文本识别方法和装置，以解决文本识别的标注成本较高且识别方法不方便扩展到不同语言的问题。

根据本公开的一方面，提供了一种文本识别方法，上述方法包括：

获取第一文本图像和待识别的第二文本图像，其中，所述第一文本图像包括由多个已知文本的字形图像拼接而成的拼接图像；

调用训练后的图像对比模型，其中，所述图像对比模型包括第一特征提取模块、第二特征提取模块、对比模块和识别模块；

利用所述第一特征提取模块，基于所述第一文本图像，得到多个第一特征向量；

利用所述第二特征提取模块，基于所述第二文本图像，得到多个第二特征向量；

利用所述对比模块，对每个第二特征向量与每个第一特征向量进行相似度计算，得到第一相似度图像；

利用所述识别模块中，基于所述第一相似度图像，识别得到第二文本图像的文本识别结果。

根据本公开的另一方面，提供了一种文本识别装置，上述装置包括：

获取模块，用于获取第一文本图像和待识别的第二文本图像，其中，所述第一文本图像包括由多个已知文本的字形图像拼接而成的拼接图像；

调用模块，用于调用训练后的图像对比模型，其中，所述图像对比模型包括第一特征提取模块、第二特征提取模块、对比模块和识别模块；

利用所述识别模块，基于所述第一相似度图像，识别得到第二文本图像的文本识别结果。

根据本公开的另一方面，提供了一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，上述程序包括指令，上述指令在由上述处理器执行时使上述处理器执行上述文本识别方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使计算机执行上述文本识别方法。

本公开实施例中，获取第一文本图像和待识别的第二文本图像，接着调用训练后的图像对比模型，其中，图像对比模型包括第一特征提取模块、第二特征提取模块、对比模块和识别模块，利用第一特征提取模块，基于第一文本图像，得到多个第一特征向量，利用第二特征提取模块，基于第二文本图像，得到多个第二特征向量，利用对比模块，对每个第二特征向量与每个第一特征向量进行相似度计算，得到第一相似度图像，利用识别模块，基于第一相似度图像，识别得到第二文本图像的文本识别结果。因此，可以充分利用字形对比进行文本识别，即充分利用显式信息，方便扩展到不同语言，同时进行标注时也只需要标注图像上的字符信息即可，无需标注每个字符在输入图像上的位置，即可以解决现有的文本识别需要大量字符级别的标注的问题，降低标注成本，另外，该文本识别方法通过已知文本的拼接图像对待识别的文本图像进行字形对比识别，无需预存储已知文本的字符特征向量，节省存储空间。

附图说明

在下面结合附图对于示例性实施例的描述中，本公开的更多细节、特征和优点被公开，在附图中：

图1示出了根据本公开示例性实施例的文本识别方法的流程图；

图2示出了根据本公开示例性实施例的获取第一文本图像的流程图；

图3示出了根据本公开示例性实施例的构建字形字典的流程图；

图4示出了根据本公开示例性实施例的识别模块的流程图；

图5示出了根据本公开示例性实施例的得到内容向量的流程图；

图6示出了根据本公开示例性实施例的文本识别装置的示意性框图；

图7示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

本公开实施例提供了一种文本识别方法，该方法可以由终端、服务器和/或其他具备处理能力的设备完成。本公开实施例提供的方法可以由上述任一设备完成，也可以由多个设备共同完成，本公开对此不作限定。

本公开实施例以终端为例，下面将参照图1所示的文本识别方法的流程图，对文本识别方法进行介绍。

步骤101，获取第一文本图像和待识别的第二文本图像。

其中，第一文本图像包括由多个已知文本的字形图像拼接而成的拼接图像。

在一种可能的实施方式中，当需要对图像中的文本进行识别时，用户可以在终端上触发文本识别的信号。例如，用户可以使用终端对图像进行拍摄，并点击识别文本的选项，进而触发文本识别的信号。又例如，用户可以长按终端显示的图像，并在终端显示识别文本的选项后点击该选项，进而触发文本识别的信号。本实施例对触发文本识别信号的具体场景不作限定。

当终端接收到文本识别的信号时，可以获取该信号对应的已知的图像和待识别的图像。该已知的图像包括多个已知文本的字形图像，可以作为第一文本图像。该待识别的图像可能包含有除待识别的第二文本图像之外的其他图像。因此，在进行文本识别的处理之前，终端可以对待识别的图像进行预处理，截取其中的文本图像，将该文本图像作为待识别的第二文本图像。具体的预处理的方式在本实施例中不作介绍。

可选的，第一文本图像包括依次拼接的多个类组图像，每个类组图像中已知文本的字形图像的特性相近，特性包括语义和/或字形。基于此，第一文本图像包括多个类组图像相当于将后续文本识别的对比模板进行初步分类，减小文本识别结果发生错误的可能性，可以提高文本识别精度。

可选的，如图2所示的获取第一文本图像的流程图，基于第一文本图像包括多个类组图像，获取第一文本图像的具体处理可以如下：

步骤201，构建字形字典；

步骤202，调用训练后的文本识别模型，对字形字典进行处理，得到多个隐状态向量；

步骤203，基于多个隐状态向量对字形字典进行聚类处理，得到多个类组图像；

步骤204，根据多个类组图像，拼接得到第一文本图像。

其中，字形字典包括多个已知文本的字形图像，每个隐状态向量携带有对应的一个已知文本的特性信息。

在一种可能的实施方式中，在获取第一文本图像时，可以基于多个已知文本的字形图像构建字形字典，并将字形字典输入至训练后的文本识别模型中，该文本识别模型进行识别处理后可以输出多个隐状态向量，其中，每个隐状态向量与字形字典中的一个已知文本一一对应。然后根据隐状态向量之间的相似程度，使用聚类算法将字形字典中的字形图像分为多个类别，即同一类别字形图像中的已知文本对应的隐状态向量的相似程度较高。接着将每个类别的字形图像依次进行拼接，任一个类别的字形图像拼接后可以得到一个类组图像，再将多个类组图像依次进行拼接，可以得到第一文本图像。其中，在将字形图像分为多个类别时，类别数量可以根据字形字典中已知文本的数量进行设置，并尽量保证每个类别中包含相同数量的已知文本，例如，字形字典中共有500个已知文本，可以将字形字典中的字形图像分为100个类别，则每个类别中可以包含5个已知文本。

其中，文本识别模型可以设置为基于注意力机制的文本识别模型，在使用该文本识别模型进行文本识别之前，可以对其进行相应的训练，以得到训练后的文本识别模型，具体的训练过程将在另一个实施例中进行介绍，本实施例对此不作赘述。该文本识别模型可以包括第一模块、第二模块和第三模块。

第一模块可以采用由4个Block(数据库中的最小存储和处理单位)块依次相接组成的一个Resnet34(一种残差网络)网络，向第一模块中输入字形字典，第一模块处理后可以输出一组预设高度的特征映射，然后按照高度的维度将该组预设高度的特征映射拼接处理为高度为1的特征映射，并将该高度为1的特征映射输入至第二模块中。

第二模块可以采用两层双向LSTM(Long Short-Term Memory，长短期记忆网络)，上述高度为1的特征映射输入至第二模块中后，第二模块可以对其进行上下文信息建模，并输出加强了序列关系的一组特征映射至第三模块中。

第三模块可以采用一个注意力层和一个GRU(Gate Recurrent Unit，门循环单元)层，上述加强了序列关系的一组特征映射输出至第三模块中后，基于上述加强了序列关系的一组特征映射具有多个时间步，第三模块可以对其按照时间步进行解码得到多个隐状态向量，其中，每个隐状态向量均与字形字典中的一个已知文本存在一一对应的关系。在每个时间步中，以上一个时间步的隐状态向量作为查询向量，以上述加强了序列关系的一组特征映射作为值向量和键向量，根据查询向量、值向量和键向量计算得到注意力得分，并根据注意力得分计算得到上下文向量，然后以该上下文向量和上一个时间步的预测结果作为GRU层的输入，可以得到当前时间步的隐状态向量，再根据当前时间步的隐状态向量和上下文向量可以得到当前时间步的预测结果。

本公开实施例对文本识别模型的种类和具体结构不作限定。

可选的，如图3所示的构建字形字典的流程图，上述步骤201的具体处理可以如下：

步骤301，构建字符字典；

步骤302，将字符字典中的每个已知文本处理至预设大小的图像上，得到每个已知文本的字形图像；

步骤303，基于每个已知文本的字形图像，构建字形字典。

其中，字符字典包括上述多个已知文本。

在一种可能的实施方式中，可以收集大量的未识别文本图像，然后从中挑选部分图像进行人工标注，例如，挑选10％识别难度较小(即背景较为干净、文本书写整洁)的第一未识别文本图像和10％识别难度较大(即背景较为凌乱、有划痕)的第二未识别文本图像进行字符标注，标注信息为已知字符，再根据标注信息构建字符字典，即可以得到包括多个已知文本的字符字典。接着将字符字典中的每个已知文本分别处理到对应的预设大小的图像上，可以得到多个字形图像，其中，每个字形图像上存在一个已知文本，例如，使用黑色字体将每个已知文本印制至对应的预设大小的白色图像上，可以得到白底黑字的多个字形图像。

其中，未识别文本图像可以是单行文本图像，未识别文本图像可以包括直文本图像、倾斜文本图像和弯曲文本图像等，也包括常规的模糊、影印的文本图像等，本公开实施例对未识别文本图像的具体形式和内容不作限定。

步骤102，调用训练后的图像对比模型。

其中，图像对比模型包括第一特征提取模块、第二特征提取模块、对比模块和识别模块。

在一种可能的实施方式中，在使用图像对比模型进行文本识别之前，可以对其进行相应的训练，具体的训练过程将在另一个实施例中进行介绍，本实施例对此不作赘述。训练完成后，可以将训练后的图像对比模型进行存储。对待识别的第二文本图像执行文本识别的任务时，可以调用该图像对比模型进行后续处理。

下面将在步骤103-106中对图像对比模型中各个模块的处理进行介绍。

步骤103，利用第一特征提取模块，基于第一文本图像，得到多个第一特征向量。

在一种可能的实施方式中，第一特征提取模块可以采用上述文本识别模型的第一模块和第二模块。在进行文本识别时，第一特征提取模块的输入为第一文本图像，第一特征提取模块对第一文本图像进行特征提取处理，得到多个第一特征向量，并将该多个第一特征向量输出至对比模块中。

可选的，每个第一特征向量用于表示一个已知文本的图像特征信息。

在一种可能的实施方式中，第一特征向量的数目和每个第一特征向量的长度均可以与第一文本图像中的已知文本的数目相同，且每个第一特征向量用于表示一个已知文本的图像特征信息。例如，第一文本图像中已知文本的数目设置为500，则可以得到500个第一特征向量，每个第一特征向量的高度可以为1、长度可以为500。

步骤104，利用第二特征提取模块，基于第二文本图像，得到多个第二特征向量。

在一种可能的实施方式中，第二特征提取模块可以与第一特征提取模块的结构相同，即第二特征提取模块可以采用上述文本识别模型的第一模块和第二模块，本公开实施例对此不作限定。在进行文本识别时，第二特征提取模块可以与第一特征提取模块并行，第二特征提取模块的输入为第二文本图像，第二特征提取模块对第二文本图像进行特征提取处理，得到多个第二特征向量，并将该多个第二特征向量输出至对比模块中。

可选的，每个第二特征向量用于表示对第二文本图像估计的一个预测文本的第一图像特征信息。

在一种可能的实施方式中，预测文本的数目可以预设，可以是指可解码的最大字符数量，第二特征向量的数目和每个第二特征向量的长度均可以与预测文本的数目相同，且每个第二特征向量用于表示一个预测文本的第一图像特征信息。例如，可解码的最大字符数量设置为10，即预测文本的数目设置为10，则可以得到10个第二特征向量，每个第二特征向量的高度可以为1、长度可以为10。

步骤105，利用对比模块，对每个第二特征向量与每个第一特征向量进行相似度计算，得到第一相似度图像。

在一种可能的实施方式中，在对比模块得到多个第一特征向量和多个第二特征向量后，对于任一个第二特征向量，可以将该第二特征向量分别与每个第一特征向量进行余弦相似度计算，得到一个第一相似度结果，每个第二特征向量与每个第一特征向量进行相似度计算后，可以得到多个第一相似度结果，再将多个第一相似度结果进行拼接可以得到第一相似度图像，并将该第一相似度图像输出至识别模块中。

可选的，第一相似度图像包括多个第一图像单元，每个第一图像单元对应一个第二特征向量，用于表示对应的预测文本与每个已知文本之间的第一图像相似度。

示例性的，第一相似度图像的列长与第一特征向量的数目相同、行宽与第二特征向量的数目相同，即第一相似度图像的列长与第一文本图像中已知文本的数目相同、行宽与第二文本图像中的预测文本的数目相同，基于此，第一相似度图像的每列即为一个第一图像单元，用于表示对应的预测文本与每个已知文本之间的第一图像相似度。

步骤106，利用识别模块，基于第一相似度图像，识别得到第二文本图像的文本识别结果。

在一种可能的实施方式中，在得到第一相似度图像后，识别模块可以对该第一相似度图像进行解析，得到第二文本图像的文本识别结果。

可选的，基于上述每个第一特征向量用于表示一个已知文本的图像特征信息，每个第二特征向量用于表示对第二文本图像估计的一个预测文本的第一图像特征信息，上述步骤106中利用识别模块具体可以进行如下处理：

基于第一相似度图像，获得每个预测文本对应的第一文本概率图；

基于每个预测文本对应的第一文本概率图，识别得到第二文本图像的文本识别结果。

在一种可能的实施方式中，第一相似度图像包括多个第一图像单元，每个第一图像单元对应一个预测文本，在得到第一相似度图像后，识别模块可以依次对每个第一单元图像进行解析处理，得到每个第一单元图像对应的第一文本概率图，其中，第一文本概率图的数目与可解码的最大字符数量相同，每个第一文本概率图与一个预测文本对应，第一文本概率图可以设置为概率矩阵，概率矩阵用于表示对应的一个预测文本是每个已知文本的概率。接着终端可以通过预设的解码方式，对每个概率矩阵分别进行处理，可以得到每个概率矩阵的文本识别结果，最终将所有的概率矩阵对应的文本识别结果作为第二文本图像的文本识别结果。例如，可解码的最大字符数量设置为10，则可以得到10个概率矩阵，然后终端可以通过贪心解码或beamsearch(集束搜索)解码的方式，将每个概率矩阵中的最高概率的已知文本作为该概率矩阵对应的文本识别结果，最终将10个概率矩阵对应的文本识别结果作为第二文本图像的文本识别结果。本实施例对具体的解码方式不作限定。

因此，该文本识别方法可以充分利用第一文本图像与第二文本图像中的字形对比进行文本识别，即充分利用显式信息进行文本识别，方便扩展到不同语言，同时进行标注时也只需要标注图像上的字符信息即可，无需标注每个字符在输入图像上的位置，即可以解决现有的文本识别需要大量字符级别的标注的问题，降低标注成本，另外，该文本识别方法通过已知文本的拼接图像对待识别的文本图像进行字形对比识别，无需预存储已知文本的字符特征向量，节省存储空间。

示例性的，识别模块可以包括第一softmax函数(归一化指数函数)层，得到第一相似度图像后，对于任一个第一图像单元，第一softmax函数层可以对其进行softmax函数操作，得到一个对应的预测文本的第一文本概率图。

可选的，对于每个预测文本，利用识别模块，基于对应的第二特征向量进行复制拼接处理，得到对应的第二特征拼接向量，基于此，如图4所示的识别模块的流程图，上述识别得到第二文本图像的文本识别结果的具体处理可以如下：

步骤401，对于每个预测文本，将对应的第一文本概率图与对应的第二特征拼接向量融合，得到预测文本对应的内容向量；

步骤402，对每个预测文本对应的内容向量和每个第一特征向量进行相似度计算，得到第二相似度图像；

步骤403，基于第二相似度图像，识别得到第二文本图像的文本识别。

其中，每个内容向量用于表示对应的预测文本的第二图像特征信息。

在一种可能的实施方式中，在得到第一相似度图像后，为了与第一文本概率图的维度对齐，便于后续处理，对于任一个第二特征向量，识别模块可以对其进行复制拼接处理，得到该第二特征向量对应的第二特征拼接向量，并可以基于该第二特征向量对应的第一文本概率图和第二特征拼接向量进行融合，得到对应的一个内容向量，该内容向量用于表示对应的预测文本的第二图像特征信息，然后可以将该内容向量分别与每个第一特征向量进行余弦相似度计算，得到一个第二相似度结果。即对于每个第二特征向量进行上述处理后，可以得到每个第二特征向量对应的第二相似度结果，再将每个第二特征向量对应的第二相似度结果进行拼接，可以得到第二相似度图像。在识别模块得到第二相似度图像后，对于任一个内容向量，对比模块可以根据第二相似度图像，确定与该内容向量相似度较高的一个目标第一特征向量，即可以确定该内容向量对应的一个预测文本相似度较高的一个已知文本，并将该已知文本作为该预测文本，进而可以得到第二文本图像的文本识别结果。

因此，在处理得到第一相似度图像后，还可以基于第二特征向量进行相似度迭代计算，进而得到的第二相似度图像中进一步加强了预测文本的特征信息，提高了文本识别的精度。

可选的，识别模块至少可以包括依次相接的两个等宽卷积层和两个Transformer模型(机器翻译模型)解码器的基础模块。

在一种可能的实施方式中，对于任一个预测文本，在识别模块中得到该预测文本的第一文本概率图后，为了加强第二文本图像中文本的特征、提高识别精度，可以利用上述依次相接的两个等宽卷积层和两个Transformer模型解码器的基础模块，执行上述基于对应的第二特征向量进行复制拼接处理，得到对应的第二特征拼接向量的处理和步骤401的处理，即可以执行如下处理：对于任一个预测文本，基于对应的第一文本概率图和对应的第二特征向量进行处理，得到该预测文本对应的内容向量。

可选的，如图5所示的得到内容向量的流程图，对于每个预测文本，上述步骤401的具体处理可以如下：

步骤501，将对应的第一文本概率图与对应的第二特征拼接向量逐点相乘，得到上述预测文本的过渡向量；

步骤502，将上述预测文本的过渡向量与对应的第二特征拼接向量逐点相加，得到上述预测文本对应的内容向量。

在一种可能的实施方式中，为了与第一文本概率图的维度对齐，便于后续处理，对于任一个预测文本，在得到对应的第一文本概率图和第二特征拼接向量后，可以将该第二特征拼接向量与该第一文本概率图逐点相乘，得到一个过渡向量，再基于该过渡向量与该第一文本概率图逐点相加，可以得到该预测文本的内容向量。因此，对第二特征向量进行复制和拼接处理可以进行维度对齐，即可以实现上述的逐点相乘操作。

示例性的，第一文本概率图可以设置为第一概率矩阵，第一概率矩阵用于表示对应的一个预测文本是每个已知文本的可能性，基于此，若一个预测文本的第一概率矩阵的行数为500，则对该预测文本对应的第二特征向量进行复制和拼接处理得到的第二特征拼接向量的列数为500。

可选的，上述步骤403的具体处理可以如下：

基于第二相似度图像，获得每个预测文本对应的第二文本概率图；

基于每个预测文本对应的第二文本概率图，识别得到文本识别结果。

在一种可能的实施方式中，第二相似度图像包括多个第二图像单元，每个第二图像单元对应一个预测文本，用于表示对应的预测文本与每个已知文本之间的第二图像相似度，基于此，第二文本概率图的数目与可解码的最大字符数量相同，每个第二文本概率图与一个预测文本对应，第二文本概率图可以设置为第二概率矩阵，第二概率矩阵用于表示对应的一个预测文本是每个已知文本的可能性。终端可以通过预设的解码方式对每个第二概率矩阵进行处理，得到每个第二概率矩阵的文本识别结果，最终将所有的第二概率矩阵对应的文本识别结果作为第二文本图像的文本识别结果。例如，可解码的最大字符数量设置为10，则可以得到10个第二概率矩阵，终端可以通过贪心解码或beamsearch(集束搜索)解码的方式对每个第二概率矩阵进行处理，将每个第二概率矩阵中的最高概率的已知文本作为该第二概率矩阵对应的文本识别结果，最终将10个概率矩阵对应的文本识别结果作为第二文本图像的文本识别结果。本公开实施例对具体的解码方式不作限定。

示例性的，识别模块可以包括第二softmax函数层，得到第二相似度图像后，对于任一个第二图像单元，第一softmax函数层可以对其进行softmax函数操作，得到一个对应的预测文本的第二文本概率图。

本公开实施例对识别模块的具体结构不作限定。

本公开实施例可以获得如下技术效果：

(1)通过对比模块对每个第二特征向量与每个第一特征向量进行相似度计算，可以充分利用字形对比进行文本识别，即充分利用显式信息，方便扩展到不同语言，同时进行标注时也只需要标注图像上的字符信息即可，无需标注每个字符在输入图像上的位置，即可以解决现有的文本识别需要大量字符级别的标注的问题，降低标注成本，另外，该文本识别方法通过已知文本的拼接图像对待识别的文本图像进行字形对比识别，无需预存储已知文本的字符特征向量，节省存储空间。

(2)通过在得到第一相似度图像后还进一步计算得到第二相似度图像，加强了相似度图像中预测文本的特征信息，可以提高文本识别的精度。

(3)通过第一文本图像包括多个类组图像，可以对文本识别的对比模板进行初步分类，减小文本识别结果发生错误的可能性，可以提高文本识别精度。

上述公开实施例中所使用的文本识别模型可以是机器学习模型，在使用文本识别模型进行上述处理前，可以对其进行训练。

文本识别模型的训练方法可以如下：基于多个文本图像的第一样本和每个第一样本对应的第一文本信息，对文本识别模型进行训练。

示例性的，上述收集大量的未识别文本图像，然后从中挑选部分图像进行人工标注，其中有10％识别难度较大(即背景较为凌乱、有划痕)的第二未识别文本图像进行字符标注，标注信息为已知字符，基于此，可以获取多个第一训练样本和初始的文本识别模型，其中，每个第一训练样本包括一个上述第二未识别文本图像和对应的标注信息，文本识别模型的输入为每个第二未识别文本图像，输出为第二未识别文本图像对应的文本概率图；将任一个第一训练样本中的第二未识别文本图像输入至初始的文本识别模型中以进行训练，初始的文本识别模型可以输出对应的文本概率图；将初始的文本识别模型输出的文本概率图和对应的第一训练样本中的标注信息输入至第一损失函数计算损失，并基于损失计算调整初始的文本识别模型的参数；当达到第一训练结束条件时，获取当前的文本识别模型，作为训练后的文本识别模型。

其中，第一训练结束条件可以是训练次数达到第一阈值，和/或模型正确率达到第二阈值，和/或损失函数低于第三阈值。上述第一阈值、第二阈值和第三阈值可以根据经验设置。本实施例对具体的训练结束条件不作限定。

本公开实施例中，训练得到文本识别模型后，可以用于实现上述文本识别方法，使得可以充分利用字形对比进行文本识别，即充分利用显式信息，方便扩展到不同语言，同时进行标注时也只需要标注图像上的字符信息即可，无需标注每个字符在输入图像上的位置，即可以解决现有的文本识别需要大量字符级别的标注的问题，降低标注成本，另外，该文本识别方法通过已知文本的拼接图像对待识别的文本图像进行字形对比识别，无需预存储已知文本的字符特征向量，节省存储空间。

上述公开实施例中所使用的图像对比模型可以是机器学习模型，在使用图像对比模型进行上述处理前，可以对其进行训练。

图像对比模型的训练方法可以如下：基于多个文本图像的第二样本和每个第二样本对应的文本信息，对图像对比模型进行训练。

示例性的：

上述收集大量的未识别文本图像，然后从中挑选10％识别难度较小(即背景较为干净、文本书写整洁)的第一未识别文本图像和10％识别难度较大(即背景较为凌乱、有划痕)的第二未识别文本图像进行人工字符标注，标注信息为已知字符，基于此，可以获取第二训练样本集、第三训练样本集和初始的图像对比模型。其中，第二训练样本集包括每个第一未识别文本图像和对应的标注信息，第二训练样本集包括多个第二训练样本，每个第二训练样本包括一个第一未识别文本图像和对应的标注信息，第三训练样本集包括每个第一未识别文本图像、每个第二未识别文本图像、每个第二未识别文本图像的标注信息和每个第二未识别文本图像的标注信息，第三训练样本集包括多个第三训练样本，每个第三训练样本包括一个未识别文本图像和对应的标注信息，每个第三训练样本中的未识别文本图像为一个第一未识别文本图像或一个第二未识别文本图像。

训练过程中图像对比模型的第一特征提取模块的输入始终为第一文本图像。

初始的图像对比模型的第二特征提取模块的输入为每个第二训练样本中的第一未识别文本图像，初始的图像对比模型的输出为第一未识别文本图像对应的概率矩阵；将任一个第二训练样本中的第一未识别文本图像输入至初始的图像对比模型中以进行训练，初始的图像对比模型可以输出对应的概率矩阵；将初始的图像对比模型输出的概率矩阵和对应的第二训练样本中的标注信息输入至第二损失函数计算损失，并基于损失计算调整初始的图像对比模型的参数；当达到第二训练结束条件时，获取当前的图像对比模型，作为过渡的图像对比模型。

过渡的图像对比模型的第二特征提取模块的输入为每个第三训练样本中的未识别文本图像，过渡的图像对比模型的输出为输入对应的概率矩阵；将任一个第三训练样本中的未识别文本图像输入至过渡的图像对比模型中以进行训练，过渡的图像对比模型可以输出对应的概率矩阵；将过渡的图像对比模型输出的概率矩阵和对应的第三训练样本中的标注信息输入至第三损失函数计算损失，并基于损失计算调整过渡的图像对比模型的参数；当达到第三训练结束条件时，获取当前的图像对比模型，作为训练后的图像对比模型。

其中，第二训练结束条件可以是训练次数达到第四阈值，和/或模型正确率达到第五阈值，和/或损失函数低于第六阈值。第三训练结束条件可以是训练次数达到第七阈值，和/或模型正确率达到第八阈值，和/或损失函数低于第九阈值。上述第四阈值、第五阈值、第六阈值、第七阈值、第八阈值和第九阈值可以根据经验设置。本实施例对具体的第二训练结束条件进而第三训练结束条件不作限定。

本公开实施例中，训练得到图像对比模型后，可以用于实现上述文本识别方法，使得可以充分利用字形对比进行文本识别，即充分利用显式信息，方便扩展到不同语言，同时进行标注时也只需要标注图像上的字符信息即可，无需标注每个字符在输入图像上的位置，即可以解决现有的文本识别需要大量字符级别的标注的问题，降低标注成本，另外，该文本识别方法通过已知文本的拼接图像对待识别的文本图像进行字形对比识别，无需预存储已知文本的字符特征向量，节省存储空间。

本公开实施例提供了一种文本识别装置，该装置用于实现上述文本识别方法。如图6所示的文本识别装置的示意性框图，文本识别装置600包括：获取模块601，调用模块602。

获取模块601，用于获取第一文本图像和待识别的第二文本图像，其中，所述第一文本图像包括由多个已知文本的字形图像拼接而成的拼接图像；

调用模块602，用于调用训练后的图像对比模型，其中，所述图像对比模型包括第一特征提取模块、第二特征提取模块、对比模块和识别模块；利用所述第一特征提取模块，基于所述第一文本图像，得到多个第一特征向量；利用所述第二特征提取模块，基于所述第二文本图像，得到多个第二特征向量；利用所述对比模块，对每个第二特征向量与每个第一特征向量进行相似度计算，得到第一相似度图像；利用所述识别模块，基于所述第一相似度图像，识别得到所述第二文本图像的文本识别结果。

可选的，每个第二特征向量用于表示对所述第二文本图像估计的一个预测文本的第一图像特征信息；

调用模块602用于：

基于所述每个预测文本对应的第一文本概率图，识别得到所述文本识别结果。

可选的，对于每个预测文本，利用所述识别模块，基于对应的第二特征向量进行复制拼接处理，得到对应的第二特征拼接向量；

调用模块602用于：

对于每个预测文本，将对应的第一文本概率图与对应的第二特征拼接向量融合，得到所述预测文本对应的内容向量；

对每个预测文本对应的内容向量和每个第一特征向量进行相似度计算，得到第二相似度图像；

基于所述第二相似度图像，识别得到所述文本识别结果。

可选的，调用模块602用于：

对于每个预测文本，

将所述对应的第一文本概率图与所述对应的第二特征拼接向量逐点相乘，得到所述预测文本的过渡向量；

将所述预测文本的过渡向量与所述对应的第二特征拼接向量逐点相加，得到所述预测文本对应的内容向量。

可选的，调用模块602用于：

基于所述第二相似度图像，获得每个预测文本对应的第二文本概率图；

基于所述每个预测文本对应的第二文本概率图，识别得到所述文本识别结果。

可选的，所述识别模块至少包括依次相接的两个等宽卷积层和两个Transformer模型解码器的基础模块。

可选的，所述第一文本图像包括依次拼接的多个类组图像，每个类组图像中已知文本的字形图像的特性相近，所述特性包括语义和字形。

可选的，获取模块601用于：

构建字形字典，其中，所述字形字典包括所述多个已知文本的字形图像；

调用训练后的文本识别模型，对所述字形字典进行处理，得到多个隐状态向量，其中，每个隐状态向量携带有对应的一个已知文本的特性信息；

基于所述多个隐状态向量对所述字形字典进行聚类处理，得到所述多个类组图像；

根据所述多个类组图像，拼接得到所述第一文本图像。

可选的，获取模块601用于：

构件字符字典，其中，所述字符字典包括所述多个已知文本；

将所述字符字典中的每个已知文本处理至预设大小的图像上，得到每个已知文本的字形图像；

基于所述每个已知文本的字形图像，构建所述字形字典。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图7，现将描述可以作为本公开的服务器或客户端的电子设备700的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图7所示，电子设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

电子设备700中的多个部件连接至I/O接口705，包括：输入单元706、输出单元707、存储单元708以及通信单元709。输入单元706可以是能向电子设备700输入信息的任何类型的设备，输入单元706可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元707可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元708可以包括但不限于磁盘、光盘。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙设备、WiFi设备、WiMa7设备、蜂窝通信设备和/或类似物。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理。例如，在一些实施例中，文本识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到电子设备700上。在一些实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本识别方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims

1.一种文本识别方法，其特征在于，所述方法利用第一文本图像与第二文本图像中的字形对比进行文本识别，所述方法包括：

获取第一文本图像和待识别的第二文本图像，其中，所述第一文本图像包括由多个已知文本的字形图像拼接而成的拼接图像；所述获取第一文本图像，包括：构建字形字典，其中，所述字形字典包括所述多个已知文本的字形图像；调用训练后的文本识别模型，对所述字形字典进行处理，得到多个隐状态向量，其中，每个隐状态向量携带有对应的一个已知文本的特性信息；基于所述多个隐状态向量对所述字形字典进行聚类处理，得到多个类组图像；根据所述多个类组图像，拼接得到所述第一文本图像；

2.根据权利要求1所述的文本识别方法，其特征在于，每个第二特征向量用于表示对所述第二文本图像估计的一个预测文本的图像特征信息；

所述基于所述第一相似度图像，识别得到第二文本图像的文本识别结果包括：

3.根据权利要求2所述的文本识别方法，其特征在于，所述方法还包括：

对于每个预测文本，利用所述识别模块，基于对应的第二特征向量进行复制拼接处理，得到对应的第二特征拼接向量；

所述基于所述每个预测文本对应的第一文本概率图，识别得到所述文本识别结果包括：

基于所述第二相似度图像，识别得到所述文本识别结果。

4.根据权利要求3所述的文本识别方法，其特征在于，

所述对于每个预测文本，将对应的第一文本概率图与对应的第二特征拼接向量融合，得到所述预测文本对应的内容向量，包括：

对于每个预测文本，

5.根据权利要求3所述的文本识别方法，其特征在于，所述基于所述第二相似度图像，识别得到所述文本识别结果，包括：

6.根据权利要求1-5任一项所述的文本识别方法，其特征在于，所述识别模块至少包括依次相接的两个等宽卷积层和两个Transformer模型解码器的基础模块。

7.根据权利要求1所述的文本识别方法，其特征在于，所述第一文本图像包括依次拼接的多个类组图像，每个类组图像中已知文本的字形图像的特性相近，所述特性包括语义和/或字形。

8.根据权利要求1所述的文本识别方法，其特征在于，所述构建字形字典，包括：

构建字符字典，其中，所述字符字典包括所述多个已知文本；

基于所述每个已知文本的字形图像，构建所述字形字典。

9.一种文本识别装置，其特征在于，所述装置利用第一文本图像与第二文本图像中的字形对比进行文本识别，所述装置包括：

获取模块，用于获取第一文本图像和待识别的第二文本图像，其中，所述第一文本图像包括由多个已知文本的字形图像拼接而成的拼接图像；所述获取模块获取第一文本图像，包括：构建字形字典，其中，所述字形字典包括所述多个已知文本的字形图像；调用训练后的文本识别模型，对所述字形字典进行处理，得到多个隐状态向量，其中，每个隐状态向量携带有对应的一个已知文本的特性信息；基于所述多个隐状态向量对所述字形字典进行聚类处理，得到多个类组图像；根据所述多个类组图像，拼接得到所述第一文本图像；

所述第一特征提取模块，用于基于所述第一文本图像进行处理，得到多个第一特征向量；

所述第二特征提取模块，用于基于所述第二文本图像进行处理，得到多个第二特征向量；

所述对比模块，用于对每个第二特征向量与每个第一特征向量进行相似度计算，得到第一相似度图像；

所述识别模块，用于基于所述第一相似度图像，识别得到所述第二文本图像的文本识别结果。

10.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-8中任一项所述的方法。

11.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-8中任一项所述的方法。