CN115512360A

CN115512360A - 文本识别方法、装置、设备及存储介质

Info

Publication number: CN115512360A
Application number: CN202211117684.4A
Authority: CN
Inventors: 黄耀雄; 何梦超; 姚聪
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2022-12-23

Abstract

本申请提供一种文本识别方法、装置、设备及存储介质。该方法包括：获取包括至少一行文本的待识别图像，首先通过特征提取网络获取待识别图像的第一特征，第一特征为视觉特征。再通过卷积Transformer网络，进一步从第一特征中提取包含文本全局信息和局部信息的第一序列特征，最后通过解码模块从第一序列特征中获取待识别图像中的文本信息，即文本识别结果。本实施例的卷积Transformer网络不同于普通的Transformer网络，包括依次连接的多个卷积Transformer子网络，每个卷积Transformer子网络包括线性投影层和卷积投影层，线性投影层用于提取图像文本的全局信息，卷积投影层用于提取图像文本的局部信息。通过对图像文本的全局和局部信息的融合，可提升对复杂场景下的文本识别效果。

Description

文本识别方法、装置、设备及存储介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种文本识别方法、装置、设备及存储介质。

背景技术

光学字符识别(optical character recognition，OCR)也称为光学文本识别，是指通过图像处理和模式识别技术对光学字符进行识别，它是计算机视觉(computervision,CV)研究领域的分支之一。随着OCR云平台的发展，平台可支持的场景越来越多，包括例如卡证、发票、商品图以及教育试题等识别场景。

近年来，基于Transformer架构的研究热度已逐渐从自然语言处理(naturallanguage processing，NLP)领域延伸至CV领域，但起源于NLP的Transformer结构并不完全适配OCR，尤其针对复杂场景下的文本识别，例如多行文本、或者文本中包含数学公式等，其文本识别效果不佳。

发明内容

本申请实施例提供一种文本识别方法、装置、设备及存储介质，以提升复杂场景下的文本识别效果。

本申请实施例的第一方面提供一种文本识别方法，包括：

获取待识别图像，所述待识别图像中包括至少一行文本；

通过特征提取网络，获取所述待识别图像的第一特征，所述第一特征为视觉特征；

通过卷积Transformer网络，从所述第一特征中提取包含全局信息和局部信息的第一序列特征；所述卷积Transformer网络包括依次连接的N个卷积Transformer子网络，每个卷积Transformer子网络包括线性投影层和卷积投影层，所述线性投影层用于提取所述全局信息，所述卷积投影层用于提取所述局部信息，N为大于或等于2的正整数；

通过解码模块从所述第一序列特征中获取所述待识别图像中的文本信息。

本申请第一方面的一个可选实施例中，通过所述卷积Transformer网络，从所述第一特征中提取包含全局信息和局部信息的第一序列特征，包括：

将所述第一特征输入所述卷积Transformer网络中的第一卷积Transformer子网络，得到第二序列特征；

将所述第二序列特征输入与所述第一卷积Transformer子网络连接的第二卷积Transformer子网络，得到第三序列特征，直至经过所述卷积Transformer网络中的最后一个卷积Transformer子网络，得到所述第一序列特征。

本申请第一方面的一个可选实施例中，所述线性投影层包括第一卷积层，所述卷积投影层包括所述第一卷积层以及第二卷积层；所述第一卷积层为1×1的卷积层，所述第二卷积层为1×n的深度卷积层，其中n为大于或等于3的正整数。

本申请第一方面的一个可选实施例中，每个卷积Transformer子网络还包括多头注意力机制层、归一化层以及多层感知机MLP层；将所述第一特征输入所述卷积Transformer网络中的第一卷积Transformer子网络，得到第二序列特征，包括：

将所述第一特征分别输入所述第一卷积Transformer子网络中的线性投影层和卷积投影层，经线性变换后得到第一组QKV矢量和第二组QKV矢量；

将所述第一组QKV矢量和所述第二组QKV矢量拼接后，输入多头注意力机制层得到第二特征；

根据所述第一特征和所述第二特征生成第三特征，所述第三特征经所述归一化层、MLP层处理后，得到所述第二序列特征。

本申请第一方面的一个可选实施例中，每个卷积Transformer子网络还包括第三卷积层，所述第三卷积层为1×3的深度可分离卷积层；所述方法还包括：

将所述第一特征输入所述第一卷积Transformer子网络中的所述第三卷积层，得到第四特征；

根据所述第一特征和所述第二特征生成第三特征，包括：

对所述第一特征、所述第二特征以及所述第四特征加权求和，生成所述第三特征。

本申请第一方面的一个可选实施例中，文本识别方法还包括：将所述第一特征输入特征重排模块，对所述第一特征进行抽样重排，得到重排后的第一特征；

相应的，通过所述卷积Transformer网络，从所述第一特征中提取包含全局信息和局部信息的第一序列特征，包括：通过所述卷积Transformer网络，从所述重排后的第一特征中提取包含全局信息和局部信息的第一序列特征。

本申请第一方面的一个可选实施例中，所述解码模块包括CTC解码模块；通过所述解码模块从所述第一序列特征中获取所述待识别图像中的文本信息，包括：

通过所述CTC解码模块从所述第一序列特征中获取所述待识别图像中的文本信息。

本申请实施例的第二方面提供一种文本识别方法，该方法包括：

接收来自电子设备的待识别图像，所述待识别图像中包括至少一行文本；

通过解码模块从所述第一序列特征中获取所述待识别图像中的文本信息；

向所述电子设备发送所述文本信息。

本申请实施例的第三方面提供一种文本识别装置，包括：

获取模块，用于获取待识别图像，所述待识别图像中包括至少一行文本；

处理模块，用于通过特征提取网络，获取所述待识别图像的第一特征，所述第一特征为视觉特征；通过卷积Transformer网络，从所述第一特征中提取包含全局信息和局部信息的第一序列特征；通过解码模块从所述第一序列特征中获取所述待识别图像中的文本信息；其中，所述卷积Transformer网络包括依次连接的N个卷积Transformer子网络，每个卷积Transformer子网络包括线性投影层和卷积投影层，所述线性投影层用于提取所述全局信息，所述卷积投影层用于提取所述局部信息，N为大于或等于2的正整数。

本申请第三方面的一个可选实施例中，所述处理模块，用于将所述第一特征输入所述卷积Transformer网络中的第一卷积Transformer子网络，得到第二序列特征；

本申请第三方面的一个可选实施例中，所述线性投影层包括第一卷积层，所述卷积投影层包括所述第一卷积层以及第二卷积层；所述第一卷积层为1×1的卷积层，所述第二卷积层为1×n的深度卷积层，其中n为大于或等于3的正整数。

本申请第三方面的一个可选实施例中，每个卷积Transformer子网络还包括多头注意力机制层、归一化层以及多层感知机MLP层；所述处理模块，用于：

本申请第三方面的一个可选实施例中，每个卷积Transformer子网络还包括第三卷积层，所述第三卷积层为1×3的深度可分离卷积层；所述处理模块，用于将所述第一特征输入所述第一卷积Transformer子网络中的所述第三卷积层，得到第四特征；

本申请第三方面的一个可选实施例中，所述处理模块，用于将所述第一特征输入特征重排模块，对所述第一特征进行抽样重排，得到重排后的第一特征；

通过所述卷积Transformer网络，从所述重排后的第一特征中提取包含全局信息和局部信息的第一序列特征。

本申请第三方面的一个可选实施例中，所述解码模块包括CTC解码模块；所述处理模块，用于通过所述CTC解码模块从所述第一序列特征中获取所述待识别图像中的文本信息。

本申请实施例的第四方面提供一种文本识别装置，包括：

接收模块，用于接收来自电子设备的待识别图像，所述待识别图像中包括至少一行文本；

处理模块，用于通过特征提取网络，获取所述待识别图像的第一特征，所述第一特征为视觉特征；通过卷积Transformer网络，从所述第一特征中提取包含全局信息和局部信息的第一序列特征；所述卷积Transformer网络包括依次连接的N个卷积Transformer子网络，每个卷积Transformer子网络包括线性投影层和卷积投影层，所述线性投影层用于提取所述全局信息，所述卷积投影层用于提取所述局部信息，N为大于或等于2的正整数；通过解码模块从所述第一序列特征中获取所述待识别图像中的文本信息；

发送模块，用于向所述电子设备发送所述文本信息。

本申请实施例的第五方面提供一种电子设备，包括：存储器，处理器以及计算机程序；所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如本申请第一方面任一项所述的方法，或者第二方面所述的方法。

本申请实施例的第六方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如本申请第一方面任一项所述的方法，或者第二方面所述的方法。

本申请实施例的第七方面提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现本申请第一方面任一项所述的方法，或者第二方面所述的方法。

本申请实施例提供一种文本识别方法、装置、设备及存储介质，该方法包括：获取包括至少一行文本的待识别图像，首先通过特征提取网络获取待识别图像的第一特征，第一特征为视觉特征。再通过卷积Transformer网络，进一步从第一特征中提取包含文本全局信息和局部信息的第一序列特征，最后通过解码模块从第一序列特征中获取待识别图像中的文本信息，即文本识别结果。本实施例的卷积Transformer网络不同于普通的Transformer网络，包括依次连接的多个卷积Transformer子网络，每个卷积Transformer子网络包括线性投影层和卷积投影层，线性投影层用于提取图像文本的全局信息，卷积投影层用于提取图像文本的局部信息。通过对图像文本的全局和局部信息的融合，可提升对复杂场景下的文本识别效果。

附图说明

图1A为本申请实施例提供的文本识别方法的系统示意图；

图1B为基于图1A所示系统的文本识别方法的流程示意图；

图2为本申请实施例提供的一种改进的文本识别模型的结构示意图；

图3为本申请实施例提供的一种文本识别方法的流程示意图；

图4为本申请实施例提供的一种卷积Transformer网络的结构示意图；

图5A为本申请实施例提供的一种卷积Transformer子网络的内部处理示意图；

图5B为本申请实施例提供的一种卷积Transformer子网络的内部处理示意图；

图6为本申请实施例提供的一种改进的文本识别模型的结构示意图；

图7为本申请实施例提供的一种文本识别方法的流程示意图；

图8为本申请实施例提供的一种文本识别装置的结构示意图；

图9为本申请实施例提供的一种文本识别装置的结构示意图；

图10为本申请实施例提供的一种电子设备的硬件结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面首先对本申请实施例涉及到的专业术语进行简要说明。

第一，文本识别，是利用各种模式识别算法对文本图像中的文字进行定位，提取文字的特征，之后再与识别字典中的标准字符进行匹配判断，从而达到识别文档内容的目的。

第二，Transformer是一种新颖的网络架构，旨在解决序列到序列的任务，是一个依赖自注意力(self-attention)机制来计算输入和输出的表示，而不使用序列对齐的递归神经网络或卷积神经网络的转换模型。

第三，CTC(Connectionist Temporal Classification)，一种对不需要对齐的损失函数计算方法，用于训练深度神经网络，可应用于文本行识别和语音识别中。

第四，局部信息，即局部图像特征，是指图像特征的局部表达，它反映了图像上具有的局部特性。

第五，全局信息，即全局图像特征，是指能表示整幅图像上的特征。全局图像特征是相对于局部图像特征而言的，用于描述图像中目标的整体特征，如图像中文字的上下文信息。

第六，深度可分离卷积(Depthwise Separable Convolution)，是卷积神经网络中对标准的卷积计算进行改进所得到的算法，其通过拆分空间维度和通道(深度)维度的相关性，减少了卷积计算所需要的参数个数，可提升卷积核参数的使用效率。

第七，卷积神经网络(convolutional neural networks，CNN)是一类包含卷积计算且具有深度结构的前馈神经网络，包括卷积层、池化层、全连接层。

第八，长短期记忆(long short term memory，LSTM)是一种特殊的循环神经网络(recurrent neural network，RNN)，主要通过三个门控逻辑实现(遗忘、输入、输出)，用于解决长序列训练过程中的梯度消失和梯度爆炸的问题。相比普通的RNN，LSTM能够在更长的序列中有更好的表现。

第九，残差网络(Residual Network，ResNet)，其核心是通过建立前面层与后面层之间的“短路连接”(shortcuts，skip connection)，这有助于训练过程中梯度的反向传播，从而能训练出更深的CNN网络。

第十，DenseNet(Densely connected convolutional networks)模型，其基本思路与ResNet一致，但是它建立的是前面所有层与后面层的密集连接(dense connection)，即每个层都会接收其前面所有层作为其额外的输入。

下面首先对本申请实施例提供的技术方案的系统架构进行简要介绍。

示例性的，图1A为本申请实施例提供的文本识别方法的系统示意图。如图1A所示，文本识别方法的系统100可以包括服务器101、通信网络102以及一个或多个用户设备103，图1A中示出了多个用户设备。

服务器101可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的服务器。在一些实施例中，服务器101可以执行任何适当的功能。例如，在一些实施例中，服务器101可用于文本识别，包括识别中文文本、英文文本、数学公式等。在一些实施例中，服务器101可用于将文本识别结果发送至用户设备。

通信网络102可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络102能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备103能够通过一个或多个通信链路(例如，通信链路104)连接到通信网络102，该通信网络102能够经由一个或多个通信链路(例如，通信链路105)被链接到服务器101。通信链路可以是适合于在用户设备103和服务器101之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

用户设备103可以包括适合于接收图像数据、采集图像数据的任何一个或多个用户设备。在一些实施例中，用户设备103可以包括任何合适类型的设备。例如，在一些实施例中，用户设备103可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、游戏控制台、媒体播放器和/或任何其他合适类型的用户设备，对此本申请实施例不作任何限制。

尽管将服务器101图示为一个设备，但是在一些实施例中，可以使用任何适当数量的设备来执行由服务器101执行的功能。例如，在一些实施例中，可以使用多个设备来实现由服务器101执行的功能。或者，可使用云服务实现服务器101的功能。

示例性的，图1B为基于图1A所示系统的文本识别方法的流程示意图。如图1B所示，用户设备向服务器发送待识别图像，服务器基于预训练的文本识别模型，提取待识别图像中的文本信息，得到文本识别结果。服务器向用户设备发送文本识别结果。

相关技术中，文本识别方案主要有以下两种：

一是基于CTC的文本识别模型，该文本识别模型包括两种子类型，分别为基于CNN+CTC的文本识别模型以及基于CNN+LSTM+CTC的文本识别模型。对于第一种模型，其运算资源消耗较少，但是对于复杂场景下的文字识别，如多行文字识别或包含数学公式等，其文本识别效果较差。对于第二种模型，虽然其在第一种模型的基础上引入了LSTM进行语义建模，能够在一定程度上提升模型在复杂场景下的文本识别效果，但是由于引入了自回归过程，在模型训练过程容易发生梯度爆炸以及无法并行计算的问题，在模型预测过程也存在无法并行计算的问题。

二是基于注意力机制的文本识别模型，该文本识别模型主要存在以下问题：一是对每个字的识别都是依赖于上一个时间点的输出，即串行运算，这将导致模型运算的时间消耗大。二是对于中文文本行的识别很容易出现注意力漂移的问题，导致文本识别效果急剧下降。

目前，对于上述各类文本识别模型的研究，主要侧重于提升模型的识别精度，通常不考虑模型的运算量。然而，在实际应用中，模型运算效率是模型应用的重要指标之一。与此同时，上述各类文本识别模型主要用于识别英文文本，对于中文文本识别并不适配。

对此，本申请实施例提出一种文本识别方法，设计了一个基于图像文本的局部和全局信息双建模的文本识别方案，利用CNN对图像文本局部信息的提取能力，以及Transformer对图像文本全局信息的提取能力，构建改进的文本识别模型。

示例性的，图2为本申请实施例提供的一种改进的文本识别模型的结构示意图，如图2所示，该改进的文本识别模型主要包括三部分，分别是特征提取网络、卷积Transformer网络以及解码模块(如CTC解码)。其中，特征提取网络用于提取输入图像的视觉特征，卷积Transformer网络用于对视觉特征进行上下文建模，获取融合图像文本的局部和全局信息的序列特征，CTC解码模块用于对序列特征进行解码，输出图像的文本信息。

上述改进的文本识别模型，加强了图像文本局部和全局信息的融合，提升了文本识别效果。另外，解码模块(如CTC解码)对应的是密集预测，原有的像素排列无法对应标签，通过在特征提取网络之后引入特征重排模块，使得解码模块能够对二维文本如公式类文本进行识别，增强了文本识别模型在复杂场景下的文本识别能力。

下面通过具体实施例对本申请提供的文本识别方案进行详细说明。需要说明的是，本申请实施例提供的技术方案可以包括以下内容中的部分或全部，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

示例性的，图3为本申请实施例提供的一种文本识别方法的流程示意图。如图2所示，本实施例的文本识别方法可应用于图1所示的服务器，该方法包括：

步骤301、获取待识别图像，待识别图像中包括至少一行文本。

步骤302、通过特征提取网络，获取待识别图像的第一特征，第一特征为视觉特征。

在一些实施例中，特征提取网络可以采用例如DenseNet、ResNet、Inception、MobileNet等卷积主干网络(Convolutional Backbone)，相较于ViT(即VisionTransformer)中的patch embedding(获取patch embedding的过程包括：图像→分块→映射→特征)，特征提取网络的卷积操作可以更好地保留图像文本的细节信息，保留平移不变性，更加符合文字细粒度的特点。

可选的，在一些实施例中，在满足一定精度的同时降低网络的计算量，可选用裁剪后的ConvNeXt-Tiny作为特征提取网络。

步骤303、通过卷积Transformer网络，从第一特征中提取包含全局信息和局部信息的第一序列特征。

示例性的，图4为本申请实施例提供的一种卷积Transformer网络的结构示意图。如4所示，卷积Transformer网络包括依次连接的N个卷积Transformer子网络。其中N为大于或等于2的正整数，例如N取6。应理解，卷积Transformer子网络越多，其学习能力越强，在一些实施例中，N可取大于6的正整数。具体的，图4所示的第一卷积Transformer子网络的输入作为卷积Transformer网络的输入，依次经过第二卷积Transformer子网络直至第N卷积Transformer子网络的数据处理，最终将第N卷积Transformer子网络的输出作为卷积Transformer网络的输出。

需要指出的是，与普通Transformer网络相比，本实施例提供的卷积Transformer网络中的每个卷积Transformer子网络均包括线性投影层和卷积投影层，线性投影层用于从第一特征中提取全局信息，卷积投影层用于从第一特征中提取局部信息。线性投影层和卷积投影层提取的信息经后续层的信息融合，可提升模型对图像文本的识别效果。

一个可选实施例中，通过卷积Transformer网络，从第一特征中提取包含全局信息和局部信息的第一序列特征，具体包括：将第一特征输入卷积Transformer网络中的第一卷积Transformer子网络，得到第二序列特征；将第二序列特征输入与第一卷积Transformer子网络连接的第二卷积Transformer子网络，得到第三序列特征，直至经过卷积Transformer网络中的最后一个卷积Transformer子网络，得到第一序列特征。

上述实施例是将第一特征作为卷积Transformer网络的输入，经卷积Transformer网络中的N个首尾连接的卷积Transformer子网络的数据处理后，最终得到包含图像文本的局部和全局信息的第一序列特征。

需要指出的是，第一序列特征、第二序列特征以及第三序列特征的长度与第一特征相同。

一个可选实施例中，在每个卷积Transformer子网络中，线性投影层包括第一卷积层，第一卷积层为1×1的卷积层。卷积投影层包括第一卷积层以及第二卷积层，第二卷积层为1×n的深度卷积层，n为大于或等于3的正整数，例如n取5或7。需要说明的是，线性投影层可与卷积投影层共享第一卷积层。

一个可选实施例中，在每个卷积Transformer子网络中，除了包括线性投影层和卷积投影层之外，还包括多头注意力机制层、归一化层以及多层感知机MLP层。

作为一种示例，将第一特征输入卷积Transformer网络中的第一卷积Transformer子网络，得到第二序列特征，具体包括：

将第一特征分别输入第一卷积Transformer子网络中的线性投影层和卷积投影层，经线性变换后得到第一组QKV矢量和第二组QKV矢量；将第一组QKV矢量和第二组QKV矢量拼接后，输入多头注意力机制层得到第二特征；根据第一特征和第二特征生成第三特征，第三特征经归一化层、MLP层处理后，得到第二序列特征。

为了提升文本识别模型对复杂场景下文本的识别效果，通常需要设置多个卷积Transformer子网络，以提取到图像文本的更多语义信息。下面以卷积Transformer网络中的第一卷积Transformer子网络为例，对其内部处理过程进行详细说明

示例性的，图5A为本申请实施例提供的一种卷积Transformer子网络的内部处理示意图。在特征提取网络提取输入图像的第一特征后，如图5A所示，可将第一特征输入卷积Transformer网络的第一卷积Transformer子网络，第一特征通过第一卷积层(即线性投影层)处理后得到第一组QKV矢量，例如图5A中的Q1、K1和V1。此外，第一特征依次通过第一卷积层、第二卷积层(第一卷积层和第二卷积层可看作是卷积投影层)处理后得到第二组QKV矢量，例如图5A中的Q2、K2和V2。在进入多头注意力机制层之前，需要对上述两组QKV矢量作拼接处理，具体是分别将Q1和Q2拼接、K1和K2拼接、V1和V2拼接。拼接后的QKV矢量可记为Q3、K3和V3。拼接后的QKV矢量经多头注意力机制层的处理后，与第一特征作求和运算，再通过归一化层和MLP层后，输出第二序列特征。

需要说明的是，卷积Transformer网络中的其他卷积Transformer子网络的内部结构与处理流程均可参照第一卷积Transformer子网络。

一个可选实施例中，在每个卷积Transformer子网络中，除了包括线性投影层、卷积投影层、多头注意力机制层、归一化层以及多层感知机MLP层之外，还包括第三卷积层，第三卷积层为1×3的深度可分离卷积层。

将第一特征分别输入第一卷积Transformer子网络中的线性投影层和卷积投影层，经线性变换后得到第一组QKV矢量和第二组QKV矢量；将第一组QKV矢量和第二组QKV矢量拼接后，输入多头注意力机制层得到第二特征。

与此同时，将第一特征输入第一卷积Transformer子网络中的第三卷积层，得到第四特征。再根据第一特征、第二特征以及第四特征加权求和，生成第三特征。第三特征经归一化层、MLP层处理后，得到第二序列特征。

示例性的，图5B为本申请实施例提供的一种卷积Transformer子网络的内部处理示意图。在图5A所示处理流程的基础上，如图5B所示，增加一路1×3的深度可分离卷积层，即第三卷积层，可通过学习权重α进行特征加权求和，进一步加强图像文本的局部语义信息的融合，提升文本识别效果。

步骤304、通过解码模块从第一序列特征中获取待识别图像中的文本信息。

一个可选实施例中，解码模块包括CTC解码模块；通过解码模块从第一序列特征中获取待识别图像中的文本信息，具体包括：通过CTC解码模块从第一序列特征中获取待识别图像中的文本信息。使用CTC解码模块，一方面可降低Transformer的学习难度，即无需学习如何进行标签对齐，另一方面保证了视觉特征对齐的延续性，避免在Transformer中造成信息串扰。

本申请实施例示出了一种文本识别方法，获取包括至少一行文本的待识别图像，首先通过特征提取网络获取待识别图像的第一特征，第一特征为视觉特征。再通过卷积Transformer网络，进一步从第一特征中提取包含文本全局信息和局部信息的第一序列特征，最后通过解码模块从第一序列特征中获取待识别图像中的文本信息，即文本识别结果。本实施例的卷积Transformer网络不同于普通的Transformer网络，包括依次连接的多个卷积Transformer子网络，每个卷积Transformer子网络包括线性投影层和卷积投影层，线性投影层用于提取图像文本的全局信息，卷积投影层用于提取图像文本的局部信息。通过对图像文本的全局和局部信息的融合，可提升对复杂场景下的文本识别效果。

示例性的，图6为本申请实施例提供的一种改进的文本识别模型的结构示意图。如图6所示，该改进的文本识别模型包括特征提取网络、特征重排模块、卷积Transformer网络以及解码模块。本实施例与图2所示文本识别模型的区别在于：在特征提取网络与卷积Transformer网络之间增加了特征重排模块，特征重排模块用于对第一特征进行抽样重排，例如特征重排模块可使用grid sample函数，对第一特征进行抽样重排。在本申请实施例中，特征重排模块主要针对图像中包括公式类文本或多行文本的场景。例如，对于数学公式的识别，特征重排模块会对图像特征进行调整，而不是按照预设的从上到下，从左到右的顺序提取特征信息。

作为一种示例，特征重排模块可使用多层CNN网络构建。

需要说明的是，对改进的文本识别模型进行训练的过程中，特征重排模块无需标签监督，依靠最终识别损失loss进行梯度反转。具体的，当特征重排模块生成的特征不符合正确文本排序时，CTC损失变大；反之，特征符合正确文本排序时，CTC损失变小。通过CTC损失的变化对特征重排模块进行训练。

基于图6所示的文本识别模型，本申请实施例还提供一种文本识别方法。示例性的，图7为本申请实施例提供的一种文本识别方法的流程示意图。如图7所示，本实施例的文本识别方法可应用于图1所示的服务器，该方法包括：

步骤701、获取待识别图像，待识别图像中包括至少一行文本。

步骤702、通过特征提取网络，获取待识别图像的第一特征，第一特征为视觉特征。

步骤703、将第一特征输入特征重排模块，对第一特征进行抽样重排，得到重排后的第一特征。

步骤704、通过卷积Transformer网络，从重排后的第一特征中提取包含全局信息和局部信息的第一序列特征。

步骤705、通过解码模块从第一序列特征中获取待识别图像中的文本信息。

本申请实施例中，待识别图像中的至少一行文本包括数学公式等二维文本。对于二维文本的识别，通过常规从上到下、或者从左到右的顺序识别可能出现错误，对此，在文本识别模型中设置特征重排模块，在将视觉特征输入卷积Transformer网络之前，通过特征重排模块对视觉特征的顺序进行随机调整，从而提升解码模块(如CTC解码模块)对二维文本的识别能力。

本申请实施例还提供一种文本识别方法，包括：

步骤1、接收来自电子设备的待识别图像，待识别图像中包括至少一行文本。

步骤2、通过特征提取网络，获取待识别图像的第一特征，第一特征为视觉特征。

步骤3、通过卷积Transformer网络，从第一特征中提取包含全局信息和局部信息的第一序列特征。

其中，卷积Transformer网络包括依次连接的N个卷积Transformer子网络，每个卷积Transformer子网络包括线性投影层和卷积投影层，线性投影层用于提取全局信息，卷积投影层用于提取局部信息，N为大于或等于2的正整数。

步骤4、通过解码模块从第一序列特征中获取待识别图像中的文本信息。

步骤5、向电子设备发送文本信息。

上述步骤3至步骤4可参照上文实施例。

上文描述了本申请实施例提供的文本识别方法，下面将描述本申请实施例提供的文本识别装置。

本申请实施例可以根据上述方法实施例对文本识别装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以使用硬件的形式实现，也可以使用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。下面以使用对应各个功能划分各个功能模块为例进行说明。

图8为本申请实施例提供的一种文本识别装置的结构示意图。如图8所示，本实施例的文本识别装置800，包括：获取模块801和处理模块802。

获取模块801，用于获取待识别图像，所述待识别图像中包括至少一行文本；

处理模块802，用于通过特征提取网络，获取所述待识别图像的第一特征，所述第一特征为视觉特征；通过卷积Transformer网络，从所述第一特征中提取包含全局信息和局部信息的第一序列特征；通过解码模块从所述第一序列特征中获取所述待识别图像中的文本信息；其中，所述卷积Transformer网络包括依次连接的N个卷积Transformer子网络，每个卷积Transformer子网络包括线性投影层和卷积投影层，所述线性投影层用于提取所述全局信息，所述卷积投影层用于提取所述局部信息，N为大于或等于2的正整数。

本实施例的一个可选实施例中，所述处理模块802，用于将所述第一特征输入所述卷积Transformer网络中的第一卷积Transformer子网络，得到第二序列特征；

本实施例的一个可选实施例中，所述线性投影层包括第一卷积层，所述卷积投影层包括所述第一卷积层以及第二卷积层；所述第一卷积层为1×1的卷积层，所述第二卷积层为1×n的深度卷积层，其中n为大于或等于3的正整数。

本实施例的一个可选实施例中，每个卷积Transformer子网络还包括多头注意力机制层、归一化层以及多层感知机MLP层；所述处理模块802，用于：

本实施例的一个可选实施例中，每个卷积Transformer子网络还包括第三卷积层，所述第三卷积层为1×3的深度可分离卷积层；所述处理模块802，用于将所述第一特征输入所述第一卷积Transformer子网络中的所述第三卷积层，得到第四特征；

本实施例的一个可选实施例中，所述处理模块802，用于将所述第一特征输入特征重排模块，对所述第一特征进行抽样重排，得到重排后的第一特征；

本实施例的一个可选实施例中，所述解码模块包括CTC解码模块；所述处理模块802，用于通过所述CTC解码模块从所述第一序列特征中获取所述待识别图像中的文本信息。

本实施例提供的文本识别装置，通过获取模块获取包括至少一行文本的待识别图像。处理模块首先通过特征提取网络，获取待识别图像的第一特征，第一特征为视觉特征；再通过卷积Transformer网络，从第一特征中提取包含全局信息和局部信息的第一序列特征；最后通过解码模块从第一序列特征中获取待识别图像中的文本信息。其中卷积Transformer网络包括依次连接的多个卷积Transformer子网络，每个卷积Transformer子网络包括线性投影层和卷积投影层，线性投影层用于提取全局信息，卷积投影层用于提取局部信息。通过对图像文本的全局和局部信息的融合，可提升文本识别装置对复杂场景下的文本识别能力。

图9为本申请实施例提供的一种文本识别装置的结构示意图。如图9所示，本实施例的文本识别装置900，包括：接收模块901、处理模块902以及发送模块903。

接收模块901，用于接收来自电子设备的待识别图像，所述待识别图像中包括至少一行文本；

处理模块902，用于通过特征提取网络，获取所述待识别图像的第一特征，所述第一特征为视觉特征；通过卷积Transformer网络，从所述第一特征中提取包含全局信息和局部信息的第一序列特征；所述卷积Transformer网络包括依次连接的N个卷积Transformer子网络，每个卷积Transformer子网络包括线性投影层和卷积投影层，所述线性投影层用于提取所述全局信息，所述卷积投影层用于提取所述局部信息，N为大于或等于2的正整数；通过解码模块从所述第一序列特征中获取所述待识别图像中的文本信息；

发送模块903，用于向所述电子设备发送所述文本信息。

本实施例提供的文本识别装置，可以执行前述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

需要说明的是，在上述实施例及附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图10为本申请实施例提供的一种电子设备的结构示意图。如图10所示，该电子设备包括：存储器1001和处理器1002。存储器1001，用于存储计算机程序，并可被配置为存储其它各种数据以支持在文本识别装置或服务器上的操作。处理器1002，与存储器1001耦合，用于执行存储器1001中的计算机程序，以实现前述方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选的，如图10所示，该电子设备还包括：防火墙1003、负载均衡器1004、通信组件1005、电源组件1006等其它组件。图10中仅示意性给出部分组件，并不意味着电子设备只包括图10所示组件。

本申请实施例提供一种存储有计算机程序的计算机可读存储介质，当计算机程序/指令被处理器执行时，以使处理器实现如前述方法实施例的技术方案。

本申请实施例提供一种计算机程序产品，包括计算机程序/指令，当计算机程序/指令被处理器执行时，以使处理器实现如前述方法实施例中云端设备的技术方案。

本申请实施例提供一种芯片，包括：处理模块与通信接口，该处理模块能执行前述方法实施例中云端设备的技术方案。可选的，该芯片还包括存储模块(如，存储器)，存储模块用于存储指令，处理模块用于执行存储模块存储的指令，并且对存储模块中存储的指令的执行使得处理模块执行前述方法实施例中云端设备的技术方案。

上述存储器可以是对象存储(Object Storage Service，OSS)。

上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络，如WiFi，2G、3G、4G/LTE、5G等移动通信网络，或它们的组合。在一个示例性实施例中，通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，通信组件还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

上述电源组件，为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统，一个或多个电源，及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文本识别方法，其特征在于，包括：

获取待识别图像，所述待识别图像中包括至少一行文本；

2.根据权利要求1所述的方法，其特征在于，通过所述卷积Transformer网络，从所述第一特征中提取包含全局信息和局部信息的第一序列特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述线性投影层包括第一卷积层，所述卷积投影层包括所述第一卷积层以及第二卷积层；所述第一卷积层为1×1的卷积层，所述第二卷积层为1×n的深度卷积层，其中n为大于或等于3的正整数。

4.根据权利要求2所述的方法，其特征在于，每个卷积Transformer子网络还包括多头注意力机制层、归一化层以及多层感知机MLP层；将所述第一特征输入所述卷积Transformer网络中的第一卷积Transformer子网络，得到第二序列特征，包括：

5.根据权利要求4所述的方法，其特征在于，每个卷积Transformer子网络还包括第三卷积层，所述第三卷积层为1×3的深度可分离卷积层；所述方法还包括：

根据所述第一特征和所述第二特征生成第三特征，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法还包括：将所述第一特征输入特征重排模块，对所述第一特征进行抽样重排，得到重排后的第一特征；

7.根据权利要求6所述的方法，其特征在于，所述解码模块包括CTC解码模块；通过所述解码模块从所述第一序列特征中获取所述待识别图像中的文本信息，包括：

8.一种文本识别方法，其特征在于，包括：

向所述电子设备发送所述文本信息。

9.一种文本识别装置，其特征在于，包括：

10.一种文本识别装置，其特征在于，包括：

发送模块，用于向所述电子设备发送所述文本信息。

11.一种电子设备，其特征在于，包括：存储器，处理器以及计算机程序；所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1至8任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1至8任一项所述的方法。

13.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1至8任一项所述的方法。