CN113343958B

CN113343958B - 一种文本识别方法、装置、设备及介质

Info

Publication number: CN113343958B
Application number: CN202110899340.2A
Authority: CN
Inventors: 刘军; 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-11-19
Anticipated expiration: 2041-08-06
Also published as: CN113343958A

Abstract

本公开涉及一种文本识别方法、装置、设备及介质，该方法包括：获取待识别的文本图像；利用希尔伯特曲线将文本图像转换为目标一维张量，其中，目标一维张量用于表征文本图像中像素之间的序列关系；将所述目标一维张量输入至预先训练好的识别网络进行文本识别，得到所述文本图像中的目标字符串。本公开能够降低文本识别成本，提高文本识别效率，以及降低文本识别难度。

Description

一种文本识别方法、装置、设备及介质

技术领域

本公开涉及图像处理技术领域，尤其涉及一种文本识别方法、装置、设备及介质。

背景技术

文本检测与识别技术广泛应用于计算机视觉任务中。在该技术中，自然场景文本识别是指在包含文本的图像中识别出字符序列的过程。由于文本由数量不固定的字符组成，因此，自然场景文本识别需要从图像中识别出长度不固定的序列。目前主要有两种方案，一种是基于自底向上的策略，将文本识别的过程拆分为字符检测、字符识别和字符组合三个过程；另一种是基于整体分析的策略，先将图像编码，再进行序列解码直接得出整个字符串。

但是，上述第一种方式需要字符级别的标注，即每个字符在输入图像上的位置、信息都需要标注，人工成本极高；上述第二种方式识别结果不准确，经常出现多识别或漏识别字符的情况。因此，目前需要一种高效、准确的文本识别方法。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种文本识别方法、装置、设备及介质。

本公开提供了一种文本识别方法，包括：

获取待识别的文本图像；利用希尔伯特曲线将所述文本图像转换为目标一维张量，其中，目标一维张量用于表征所述文本图像中像素之间的序列关系；将所述目标一维张量输入至预先训练好的识别网络进行文本识别，得到所述文本图像中的目标字符串。

本公开提供了一种文本识别装置，包括：

获取模块，用于获取待识别的文本图像；转换模块，用于利用希尔伯特曲线将所述文本图像转换为目标一维张量，其中，目标一维张量用于表征所述文本图像中像素之间的序列关系；识别模块，用于将所述目标一维张量输入至预先训练好的识别网络进行文本识别，得到所述文本图像中的目标字符串。

本公开提供了一种电子设备，所述电子设备包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述文本识别方法。

本公开提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行根据文本识别方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例提供的一种文本识别方法、装置、设备及介质，首先利用希尔伯特曲线将待识别的文本图像转换为目标一维张量；然后将目标一维张量输入至预先训练好的识别网络进行文本识别，得到文本图像中的目标字符串。本公开能够降低文本识别成本，提高文本识别效率，以及降低文本识别难度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的文本识别方法流程图；

图2为本公开实施例提供的转换方式示意图；

图3为本公开实施例提供的文本识别装置的结构示意图；

图4为本公开实施例提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

自然场景文本识别的现有方案，存在人工成本高、识别效率低和准确性差的问题。其中，现有用于文本识别的网络模型，通常采用对图像进行编解码的方式得到字符序列，该方式可能会出现漏字符或者多字符的情况，同时，无法有效识别排列不规则的文本。对于排列不规则的文本，网络模型很难捕获到其序列关系，以及，会有过多的背景噪声可能影响网络模型的识别效果。基于此，如果想要识别不规则文本，就需要增加矫正模块，这在增加网络模型参数量的同时，也增加了网络模型的训练难度。此外，网络模型识别文字并不需要这个文字全部出现，重要的是能够捕获到这个文字的核心特征，也就是说，如果网络能够捕获到一个文字的核心特征，那么这个文字无论是以模糊的形式或是残缺的形式出现，那么就都能够被识别。

由此可见，在上述文本识别中，输入的文本图像是二维的，有水平和竖直两个方向，通常情况下其长宽比是比较极端的（长远大于宽），同一组卷积核（一般是3*3）在进行操作时，捕获的都是相同的模式，同时会更加注意水平方向的模式变化，而对竖直方向关注不够，由此才需要对排列不规则的文本内容进行矫正后才能够取得较好地识别效果。

基于以上考虑，本公开实施例提供了一种文本识别方法、装置、设备及介质，在本公开实施例中，将二维的文本图像转化为一维形式，并使文本图像中原本相邻的像素在一维形式下也是相邻的，那么便有效改善了待识别文本排列不规则的问题。为便于理解，以下对本公开实施例进行详细介绍。

参照图1提供的一种文本识别方法流程图，该方法可以包括如下步骤：

步骤S102，获取待识别的文本图像。文本图像中包括的文本内容可能排列规则或不规则；排列不规则诸如是文本图像中包括的文本内容呈现行段倾斜、弯曲，发生形变等异常的排列形状。该文本图像可以是用户通过在终端中的图像选择操作、图像拍摄操作或图像上传操作等方式获取的包含文本内容的图像。

步骤S104，利用希尔伯特曲线将文本图像转换为目标一维张量，其中，目标一维张量用于表征文本图像中像素之间的序列关系。

希尔伯特曲线（Hilbert）是一种空间填充曲线；空间填充曲线是指，通过一维曲线去包含整个二维甚至多维空间的一种函数曲线。希尔伯特曲线的离散近似表示方法非常实用，其将多维空间转换为一维空间时能够很好地保留空间邻近性，可以采用高阶希尔伯特曲线填满二维平面，而后将曲线展开，在二维平面上相邻的像素点在一维的希尔伯特曲线上依然处于相邻的位置上。

希尔伯特曲线可以在任意形状的文本识别场景中，用于表示规则文本或不规则文本；在本实施例中，可以根据文本图像的文本密集程度或者像素大小，选择合适阶数的希尔伯特曲线，将文本图像中所有的像素按照希尔伯特曲线的扫描顺序排列为一维张量，得到文本图像对应的目标一维张量。本实施例通过利用希尔伯特曲线将文本图像转换为目标一维张量，使得文本图像中原本相邻的像素，在目标一维张量中也是相邻的，也即目标一维张量表征的是文本图像中像素之间的序列关系。需要注意的是，在文本图像中的文本内容存在弯曲、形变等不规则排列的情况，通常需要对文本图像进行矫正，以有效识别不规则排列的文本内容。然而，本实施例通过将二维的文本图像转换为目标一维张量，文本图像中文本内容对应的相邻像素，在目标一维张量中成为按照序列排布在一维空间的像素，自然就不存在排列不规则的问题了。此外需要说明是，文本图像通常分为包括文本内容的文本区域和不包括文本内容的背景区域，在目标一维张量中，背景区域的相邻像素和文本区域的相邻像素是分开排布的，因此在目标一维张量中可以忽略背景区域对文本识别带来的噪声影响。

步骤S106，将目标一维张量输入至预先训练好的识别网络进行文本识别，得到文本图像中的目标字符串。其中，识别网络是一种基于序列到序列进行文本识别的网络，诸如可以为CRNN（Convolutional Recurrent Neural Networks，卷积循环神经网络）。CRNN是一种基于序列到序列进行文本识别的网络，它在精度和速度上能够取得很好的平衡。

由于目标一维张量表示的是文本图像中像素之间的序列关系，或者说，目标一维张量表示的是像素序列。从而，本实施例可以将目标一维张量输入至预先训练好的识别网络，通过识别网络对目标一维张量进行文本识别，得到概率矩阵；其中，概率矩阵用于表示目标一维张量对应的字符串的概率。而后根据预设的解码算法对概率矩阵进行解码，得到文本图像中的目标字符串；具体的例如，可以根据贪心算法或者beamsearch（集束搜索）算法等解码算法，对概率矩阵进行解码，得到目标字符串。

本公开实施例提供的文本识别方法，在利用识别网络对文本图像进行文本识别之前，先根据希尔伯特曲线将二维的文本图像转换为一维空间下的目标一维张量，使文本图像中像素具有了序列关系；在此情况下，无需显示序列建模或字符标注，只通过识别网络即可进行文本识别，明显降低了识别成本，提高了识别效率；以及，通过识别网络对目标一维张量进行文本识别有效提升了文本识别的准确性。在此基础上，利用希尔伯特曲线转换后的目标一维张量，还能够非常有效地解决文本图像因文本内容排列不规则而导致的识别难度大的问题，降低了文本识别难度。

为便于理解，本公开实施例对上述识别网络展开描述。

本实施例构建的识别网络的主干网络可以包括相连接的多个区块。其中，各区块均包括多个卷积层，各区块输出的特征映射数量相同，各区块的卷积核均为一维卷积，各卷积核的长度不同，且沿着区块的连接顺序，对应的卷积核的长度逐渐减小。

在一种可能的具体示例中，识别网络的主干网络例如可以使用Resnet18，其包括四个区块，分为前后依次连接的第一区块、第二区块、第三区块和第四区块。第一区块输出的特征映射大小为原始输入数据的1/4，第二区块输出的特征映射大小为原始输入数据的1/8，第三区块输出的特征映射大小为原始输入数据的1/16，第四区块输出的特征映射大小为原始输入数据的1/32。上述原始输入数据即为本实施例中输入至识别网络的目标一维张量。

在DB中，每个区块输出的特征映射数量相同，比如均为128。由于输入至识别网络的目标一维张量表示的是像素序列，因此在识别网络中，只需要使用一维卷积便可以有效进行文本识别；在此情况下，与常规Resnet18中二维卷积不同，本实施例中各区块的卷积核均为一维卷积核。在一种实际场景中，各卷积核的长度可以为：第一区块使用长度为9的卷积核，第二区块使用长度为7的卷积核，第三区块使用长度为5的卷积核，第四区块使用长度为3的卷积核。

本实施例先将每个区块输出的特征映射，通过插值的方式缩放到原始输入数据的1/32并串联叠加，得到一个512通道的特征映射，然后使用1*1卷积核对该特征映射进行卷积操作，输出L*N的概率矩阵；其中，L为指定的最大序列长度，也即包含最大序列长度个字符编码，N为字典大小，也即有多少个字符；字典中的每个字符对应有唯一的字符编码。概率矩阵中的任一元素可表示为P_ln，表示第l行第n列位置处的字符编码的概率值；概率矩阵中相同l行的N个元素，表示同一文字被预测为各个字符编码的概率值。

以贪心算法作为预设解码算法的示例，根据贪心算法对概率矩阵进行解码的方式为：根据贪心算法从第l行的N个字符编码的概率值中，输出概率值最大的字符编码，并将输出的字符编码还原为编码前的字符。按照该方式，得到L个解码后的字符，由此形成目标字符串。

为了使构建的上述识别网络能够直接应用于文本识别中，需要对该识别网络进行训练，识别网络的参数需要经过训练得到，对识别网络进行训练的目的，是最终确定可满足要求的参数。利用已训练得到的参数，识别网络能够得到预期的文本识别。本实施例给出了一种识别网络的训练方法，参照如下步骤1至步骤4所示：

步骤1，获取标注有基准字符串的样本一维张量；其中，样本一维张量用于表征样本图像中的像素。

在本实施例中，可以首先按照如下方式获取多张标注有基准字符串且大小相同的样本图像：获取多张原始图像，再通过线性插值运算将原始图像缩放至预设尺寸大小，得到样本图像。至此，即可得到大小相同的多张样本图像。多张样本图像中包括的文本内容排列规则或不规则。本实施例将原始图像缩放至预设尺寸大小的样本图像，并利用尺寸一致的样本图像对应的样本一维张量进行识别网络的训练，能够充分发挥识别网络的推理效果，有利于提升训练后识别网络的准确性。

上述基准字符串可以是通过对样本图像（或者原始图像）上的文本内容进行转录获得；其中，转录为：将样本图像上的文本内容转换为字符串，并输出最高概率的字符串作为基准字符串。而后，将基准字符串标注于对应的样本图像上。

接下来，根据希尔伯特曲线将样本图像转换为样本一维张量，并将样本图像对应的基准字符串作为样本一维张量的标注信息。具体的，按照样本图像和样本一维张量的转换关系，将样本图像上标注的基准字符串传递给对应的样本一维张量。

参照图2，在现有方案中，当将二维张量转为一维张量时，要么是横向要么是纵向，会将文本与背景噪声混杂在一起，增加文本识别难度。本实施例利用希尔伯特曲线，能够自动将样本图像上对应同一个字符的像素拉到一起；例如，将样本图像作为二维矩阵，其包含的“人”字对应序号为1、2、4、5的像素，利用希尔伯特曲线，能够自动将序号为1、2、4、5的像素排列为一组。相应地，背景噪声区域对应的序号为3、6、9、12的像素被排列为一组，该组噪声像素序列与上述文本像素序列分别处于不同的组合中，不会对文本内容的识别造成干扰。

步骤2，基于预先构建的识别网络对样本一维张量进行文本识别，得到预测字符串。在具体实现时，通过预先构建的识别网络对样本一维张量进行文本识别，得到表示样本一维张量对应的字符串的概率的样本概率矩阵；根据预设的解码算法对样本概率矩阵进行解码，得到样本图像中的预测字符串。

步骤3，根据目标损失函数计算预测字符串与基准字符串之间的损失函数值。其中，目标损失函数可以采用CTC（Connectionist Temporal Classiﬁcation，连接时序分类）损失函数。

步骤4，根据损失函数值对待训练的识别网络进行参数调整，直至损失函数值收敛至预设值时结束训练，得到训练好的识别网络。

基于上述训练好的识别网络，能够对输入的目标一维张量进行文本识别，得到目标字符串，有效提升了文本识别的效率和准确性。

基于上述实施例所提供的文本识别方法，本实施例提供一种文本识别装置。参见图3所示的一种文本识别装置的结构示意图，该装置包括：

获取模块302，用于获取待识别的文本图像；

转换模块304，用于利用希尔伯特曲线将文本图像转换为目标一维张量，其中，目标一维张量用于表征文本图像中像素之间的序列关系；

识别模块306，用于将目标一维张量输入至预先训练好的识别网络进行文本识别，得到文本图像中的目标字符串。

在一种实施例中，识别模块306具体用于：

将目标一维张量输入至预先训练好的识别网络，通过识别网络对目标一维张量进行文本识别，得到概率矩阵；其中，概率矩阵用于表示目标一维张量对应的字符串的概率；根据预设的解码算法对概率矩阵进行解码，得到文本图像中的目标字符串。

在一种实施例中，转换模块304具体用于：将文本图像中所有的像素按照希尔伯特曲线的扫描顺序排列为一维张量，得到文本图像对应的目标一维张量。

在一种实施例中，上述文本识别装置还包括训练模块，该训练模块用于：

获取标注有基准字符串的样本一维张量；其中，样本一维张量用于表征样本图像中的像素；基于预先构建的识别网络对样本一维张量进行文本识别，得到预测字符串；根据目标损失函数计算预测字符串与基准字符串之间的损失函数值；根据损失函数值对待训练的识别网络进行参数调整，直至损失函数值收敛至预设值时结束训练，得到训练好的识别网络。

在一种实施例中，上述基准字符串是通过对样本图像上的文本内容进行转录获得；其中，转录为：将样本图像上的文本内容转换为字符串，并输出最高概率的字符串作为基准字符串。

在一种实施例中，上述样本图像通过以下方式获取得到：获取多张原始图像；通过线性插值运算将原始图像缩放至预设尺寸大小，得到样本图像。

在一种实施例中，上述识别网络的主干网络包括相连接的多个区块；其中，各区块均包括多个卷积层，各区块输出的特征映射通道数量相同，各区块的卷积核均为一维卷积核，各卷积核的长度不同，且沿着区块的连接顺序，对应的卷积核的长度逐渐减小。

本实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图4，现将描述可以作为本公开的服务器或客户端的电子设备400的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示，电子设备400包括计算单元401，其可以根据存储在只读存储器（ROM）402中的计算机程序或者从存储单元408加载到随机访问存储器（RAM）403中的计算机程序，来执行各种适当的动作和处理。在RAM 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出（I/O）接口405也连接至总线404。

电子设备400中的多个部件连接至I/O接口405，包括：输入单元406、输出单元407、存储单元408以及通信单元409。输入单元406可以是能向电子设备400输入信息的任何类型的设备，输入单元406可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元407可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元408可以包括但不限于磁盘、光盘。通信单元409允许电子设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理。例如，在一些实施例中，文本识别方法或识别网络的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到电子设备400上。在一些实施例中，计算单元401可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行文本识别方法或识别网络的训练方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本识别方法，其特征在于，包括：

获取待识别的文本图像；其中，所述文本图像中包括的文本内容排列规则或不规则；

利用希尔伯特曲线将所述文本图像转换为目标一维张量，其中，目标一维张量用于表征所述文本图像中像素之间的序列关系；

将所述目标一维张量输入至预先训练好的识别网络进行文本识别，得到所述文本图像中的目标字符串。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标一维张量输入至预先训练好的识别网络进行文本识别，得到所述文本图像中的目标字符串，包括：

将所述目标一维张量输入至预先训练好的识别网络，通过所述识别网络对所述目标一维张量进行文本识别，得到概率矩阵；其中，所述概率矩阵用于表示所述目标一维张量对应的字符串的概率；

根据预设的解码算法对所述概率矩阵进行解码，得到所述文本图像中的目标字符串。

3.根据权利要求1所述的方法，其特征在于，所述利用希尔伯特曲线将所述文本图像转换为目标一维张量，包括：

将所述文本图像中所有的像素按照所述希尔伯特曲线的扫描顺序排列为一维张量，得到所述文本图像对应的目标一维张量。

4.根据权利要求1所述的方法，其特征在于，所述识别网络的训练过程包括：

获取标注有基准字符串的样本一维张量；其中，所述样本一维张量用于表征样本图像中的像素；

基于预先构建的识别网络对所述样本一维张量进行文本识别，得到预测字符串；

根据目标损失函数计算所述预测字符串与所述基准字符串之间的损失函数值；

根据所述损失函数值对待训练的识别网络进行参数调整，直至所述损失函数值收敛至预设值时结束训练，得到训练好的所述识别网络。

5.根据权利要求4所述的方法，其特征在于，所述基准字符串是通过对所述样本图像上的文本内容进行转录获得；其中，所述转录为：将所述样本图像上的文本内容转换为字符串，并输出最高概率的字符串作为所述基准字符串。

6.根据权利要求4所述的方法，其特征在于，所述样本图像通过以下方式获取得到：

获取多张原始图像；

通过线性插值运算将所述原始图像缩放至预设尺寸大小，得到所述样本图像。

7.根据权利要求1所述的方法，其特征在于，所述识别网络的主干网络包括相连接的多个区块；

其中，各所述区块均包括多个卷积层，各所述区块输出的特征映射通道数量相同，各所述区块的卷积核均为一维卷积核，各所述卷积核的长度不同，且沿着所述区块的连接顺序，对应的卷积核的长度逐渐减小。

8.一种文本识别装置，其特征在于，包括：

获取模块，用于获取待识别的文本图像；其中，所述文本图像中包括的文本内容排列规则或不规则；

转换模块，用于利用希尔伯特曲线将所述文本图像转换为目标一维张量，其中，目标一维张量用于表征所述文本图像中像素之间的序列关系；

识别模块，用于将所述目标一维张量输入至预先训练好的识别网络进行文本识别，得到所述文本图像中的目标字符串。

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至7任一所述的文本识别方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1至7任一所述的文本识别方法。