CN111797834B

CN111797834B - 文本识别方法、装置、计算机设备和存储介质

Info

Publication number: CN111797834B
Application number: CN202010469514.7A
Authority: CN
Inventors: 黄双萍; 庄镇州; 李晓辉
Original assignee: South China University of Technology SCUT; China ComService Construction Co Ltd
Current assignee: South China University of Technology SCUT; China ComService Construction Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2021-06-15
Anticipated expiration: 2040-05-28
Also published as: CN111797834A

Abstract

本申请涉及一种文本识别方法、装置、计算机设备和存储介质。所述方法包括：获取原始文本图像；对所述原始文本图像进行图像预处理，得到处理后文本图像；利用特征编码网络中的残差卷积网络对所述处理后文本图像进行特征提取，得到图像特征；利用所述特征编码网络中的上下文感知网络对所述图像特征进行上下文编码，得到特征序列；对所述特征序列进行解码，得到目标文本。采用本方法能够提高文本识别的准确率。

Description

文本识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种文本识别方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，出现了文本识别技术，文本识别指的是将一张文本图像中的图像特征提取出来，并识别成文字的过程，广泛应用于无人驾驶、机器人导航、盲人辅助等技术中。

目前常用的文本识别技术，对不规则的文本图像中的文本识别的错误率较高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高文本识别正确率的文本识别方法、装置、计算机设备和存储介质。

一种文本识别方法，所述方法包括：

获取原始文本图像；

对所述原始文本图像进行图像预处理，得到处理后文本图像；

利用特征编码网络中的残差卷积网络对所述处理后文本图像进行特征提取，得到图像特征；

利用所述特征编码网络中的上下文感知网络对所述图像特征进行上下文编码，得到特征序列；

对所述特征序列进行解码，得到目标文本。

在其中一个实施例中，还包括：

所述残差卷积网络包括n个残差卷积模块；所述上下文感知网络包括n个上下文感知模块；其中，n为大于1的正整数，且每个残差卷积模块与每个上下文感知模块交替连接；

所述利用特征编码网络中的残差卷积网络对所述处理后文本图像进行特征提取，得到图像特征包括：

当i为1时，通过所述残差卷积网络中第i个残差卷积模块对所述处理后文本图像进行特征提取，得到第i语义层次的图像特征；其中，i为大于或等于1、且小于或等于n的正整数；

当i不为1时，通过所述残差卷积网络中第i个残差卷积模块对第i-1个上下文感知模块的输出结果进行特征提取，得到第i语义层次的图像特征；

所述利用所述特征编码网络中的上下文感知网络对所述图像特征进行上下文编码，得到特征序列包括：

通过所述上下文感知网络中第i个上下文感知模块对所述第i语义层次的图像特征进行特征运算，得到第i语义层次的特征序列；

所述对所述特征序列进行解码之前，所述方法还包括：

当所述第i语义层次的特征序列中的i小于n时，则将i递增之后进行下一个阶段的特征提取以及特征运算，直至获得第n语义层次的特征序列。

在其中一个实施例中，还包括：

所述第i个上下文感知模块包括至少两个特征提取层；每个所述特征提取层由串联的扩张卷积层、归一化层和激活层组成；

在不同的所述特征提取层中，扩张卷积层的扩张因子不同、且呈规律变化；

所述扩张因子包括宽维度扩张因子和高维度扩张因子；所述宽维度扩张因子大于所述高维度扩张因子。

在其中一个实施例中，还包括：

所述呈规律变化是所述扩张因子随着所述扩张卷积层的层级增加而增大。

在其中一个实施例中，还包括：

所述对所述原始文本图像进行图像预处理，得到处理后文本图像包括：

定位所述原始文本图像的文本区域；

在所述文本区域中选取控制点，并获取控制点的第一位置坐标；

设定与所述控制点相对应的基准点的第二位置坐标；

根据所述第一位置坐标和所述第二位置坐标生成采样网格，所述采样网格表示所述第一位置坐标和所述第二位置坐标之间的映射关系；

根据所述采样网格将所述原始文本图像重采样至设定的模板中，得到所述处理后文本图像。

在其中一个实施例中，还包括：

所述目标文本由多个字符所构成；

所述对所述特征序列进行解码，得到目标文本包括：

利用注意力机制获得所述字符的注意力向量；

将所述注意力向量和所述特征序列输入递归神经网络进行运算，得到目标文本。

一种文本识别装置，所述装置包括：

获取模块，用于获取原始文本图像；

预处理模块，用于对所述原始文本图像进行图像预处理，得到处理后文本图像；

提取模块，用于利用特征编码网络中的残差卷积网络对所述处理后文本图像进行特征提取，得到图像特征；

编码模块，用于利用所述特征编码网络中的上下文感知网络对所述图像特征进行上下文编码，得到特征序列；

解码模块，用于对所述特征序列进行解码，得到目标文本。

在一个实施例中，所述装置还包括：

所述提取模块还用于：

所述编码模块还用于：

通过所述残差卷积网络中第i个上下文感知模块对所述第i语义层次的图像特征进行特征运算，得到第i语义层次的特征序列；所述装置还包括：

递增模块，当所述第i语义层次的特征序列中的i小于n时，则用于将i递增之后进行下一个阶段的特征提取以及特征运算，直至获得第n语义层次的特征序列。

在一个实施例中，所述装置还包括：

在一个实施例中，所述预处理模块还用于：

定位所述原始文本图像的文本区域；

设定与所述控制点相对应的基准点的第二位置坐标；

在一个实施例中，所述装置还包括：

所述目标文本由多个字符所构成；

所述解码模块还用于：

利用注意力机制获得所述字符的注意力向量；

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

上述实施例中，计算机设备首先对获取的原始文本图像进行预处理，然后利用特征编码网络中的残差卷积网络提取预处理后的文本图像的特征。再利用上下文感知网络提取上下文关联的图像特征，并对图像特征进行编码，得到特征序列。最后对特征序列进行解码，得到目标文本。上下文感知网络能够提取上下文关联的图像特征，利用了图像在二维空间的相关性，充分提取了图像的特征。根据上下文感知网络提取的图像特征对原始文本图像进行识别，得到的目标文本的准确率较高。

附图说明

图1为一个实施例中文本识别方法的应用环境图；

图2为一个实施例中文本识别方法的流程示意图；

图3为一个实施例中特征编码网络结构图；

图4为一个实施例中上下文感知模块的结构图；

图5为上下文感知模块的输出中的像素点在不同的扩张卷积层的感受野示意图；

图6为一个实施例中文本识别装置的结构框图；

图7为另一个实施例中文本识别装置的结构框图；

图8为一个实施例中计算机设备的内部结构图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的文本识别方法，可以应用于如图1所示的应用环境中。将原始文本图像输入计算机设备102，计算机设备102首先对原始文本图像进行图像预处理。然后计算机设备102通过特征编码网络中的残差卷积网络对处理后文本图像进行特征提取，得到图像特征；再通过上下文感知网络对图像特征进行上下文编码，得到特征序列。最后计算机设备102对特征序列进行解码得到目标文本。其中，计算机设备102可以是终端，也可以是服务器。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种文本识别方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

S202，获取原始文本图像。

在一个实施例中，原始文本图像是照相机拍摄的图像。

在另一个实施例中，原始文本图像是从摄像机拍摄的一段视频中抽取的一帧图像。

在一个实施例中，原始文本图像是RGB格式的彩色图像，图像中的每个像素用R、G、B三个分量来表示。

在另一个实施例中，原始文本图像是256级的灰度图像。灰度图像中的像素值只包含亮度信息，不包含色度信息。图像中的每个像素用一个8位的二进制字符串来表示。

在一个实施例中，原始文本图像是BMP(Bitmap，位图)文件格式的图像。BMP格式的图像没有经过压缩，数据量较大。

在另一个实施例中，原始文本图像是JPEG(Joint Photographic Experts Group，联合图像专家组)文件格式的图像。JPEG文件格式采用直接色，具有丰富的色彩，并且JPEG格式是一种有损压缩的文件格式，数据量较小。

在另一个实施例中，原始文本图像是GIF(Graphics Interchange Format，图形交换格式)文件格式的图像。GIF是一种无损压缩格式，采用GIF格式保存图像不会降低图像的质量，但是由于GIF格式的图像经过了压缩编码，数据量远小于BMP格式的图像文件。

在另一个实施例中，原始文本图像是PNG(Portable Network Graphics，便携式网络图形)文件格式的图像。PNG格式是一种无损压缩的位图格式，压缩比高，数据量小。

在一个实施例中，原始文本图像是从MPEG-2(Moving Picture Experts Group)文件格式的视频中提取的一帧图像。

在另一个实施例中，原始文本图像是从H.264文件格式的视频中提取的一帧图像。

在一个实施例中，对于压缩格式的原始文本图像，计算机设备在获取原始文本图像之后，首先调用解压缩算法对原始文本图像进行解压缩，得到解压缩后的像素值。

在一个实施例中，计算机设备在解压缩原始文本图像之后，用一个(W×H×C₀)的数组表示原始文本图像。其中，W表示原始文本图像的宽，H表是原始文本图像的高，C₀表示原始文本图像的通道数。如果原始文本图像是灰度图，那么通道数为1，如果原始文本图像的像素用R、G、B三种颜色来描述，那么原始文本图像的通道数是3。

S204，计算机设备对所述原始文本图像进行图像预处理，得到处理后文本图像。

在现实生活的场景中获取的文本图像，除文字部分外一般还存在背景，而且文本图像中的文字不一定都是整齐排列的，可能会产生倾斜和变形。所以计算机设备在提取文本图像的特征之前，首先对原始文本图像进行预处理，将文本区域从背景区域中分离出来，防止背景区域的干扰；并且对文本区域进行矫正，使原始文本图像中的文本排列更加整齐，有利于提高文本识别的准确率。

在一个实施例中，计算机设备对原始文本图像进行图像预处理，得到处理后文本图像包括：定位原始文本图像的文本区域；在文本区域中选取控制点，并获取控制点的第一位置坐标；设定与控制点相对应的基准点的第二位置坐标；根据第一位置坐标和第二位置坐标生成采样网格，采样网格表示第一位置坐标和第二位置坐标之间的映射关系；根据采样网格将原始文本图像重采样至设定的模板中，得到处理后文本图像。

在一个实施例中，计算机设备用TPS(Thin Plate Spline，薄板样条)空间变换网络对原始文本图像进行图像预处理。TPS空间变换网络包括TPS定位网络、网格生成器和采样器。TPS定位网络用于定位原始文本图像的文本区域，确定文本区域的边界，并且在文本区域的边界上选取控制点。网格生成器用于根据控制点的像素坐标(即第一位置坐标)和设定的与控制点相对应的基准点的像素坐标(即第二位置坐标)之间的映射关系生成采样网格。采样器用于根据采样网格将原始文本图像重采样至设定的模板中，得到处理后文本图像。

在一个实施例中，计算机设备将原始文本图像输入TPS定位网络，通过TPS定位网络确定文本区域的边界，并且在文本区域的边界上选取2K个控制点，并获取2K个控制点的第一位置坐标。

在一个实施例中，计算机设备将2K个控制点的第一位置坐标输入网格生成器。网格生成器利用薄板样条算法，根据2K个控制点的第一位置坐标和设定的2K个基准点的第二位置坐标的映射关系生成采样网格。采样网格是表示第一位置坐标和第二位置坐标映射关系的函数，利用采样网格可以近似表示原始文本图像中像素和预处理后文本图像中像素的映射关系。

其中，薄板样条算法是一种插值算法，用来对图像形状进行非刚性变形，比如给定原始形状的有限点集，即控制点的集合A，变形后的对应目标点集，即基准点的集合B。设C＝B-A，根据(Ax,Ay,Cx)拟合出一个x方向的TPS函数，即x方向的内插函数；根据(Ax,Ay,Cy)拟合出一个y方向的TPS函数，即y方向的内插函数。x方向的TPS函数和y方向的TPS函数构成采样网格。这样以来，对于原始图像中不在集合A中的点，就可以通过采样网格插值得到目标点，从而完成整个图像的变形。

在一个实施例中，计算机设备根据采样网格，利用采样器将原始文本图像中像素重采样至设定的模板中，得到预处理后文本图像。

在一个实施例中，采样器通过双线性插值算法，根据采样网格将原始文本图像中像素重采样至设定的模板中，得到预处理后文本图像。双线性插值是有两个变量的插值函数的线性插值的扩展，其核心思想是在两个方向分别进行一次线性插值，线性插值的插值函数为一次多项式。

在另一个实施例中，采样器通过拉格朗日插值算法，根据采样网格将原始文本图像中像素重采样至设定的模板中，得到预处理后文本图像。朗格朗日插值公式的结构紧凑，适合理论分析。

在另一个实施例中，采样器通过牛顿均差插值算法，根据采样网格将原始文本图像中像素重采样至设定的模板中，得到预处理后文本图像。牛顿均差算法克服了朗格朗日算法的缺点，计算量较小。

S206，利用特征编码网络中的残差卷积网络对处理后文本图像进行特征提取，得到图像特征。

在一个实施例中，如图3所示，特征编码网络由残差卷积网络和上下文感知网络构成。残差卷积网络由残差卷积模块构成。上下文感知网络由上下文感知模块构成。残差卷积模块与上下文感知模块交替连接。

在一个实施例中，残差卷积网络包括n个残差卷积模块；其中，n为大于1的正整数，且每个残差卷积模块与每个上下文感知模块交替连接；利用特征编码网络中的残差卷积网络对处理后文本图像进行特征提取，得到图像特征包括：当i为1时，通过残差卷积网络中第i个残差卷积模块对处理后文本图像进行特征提取，得到第i语义层次的图像特征；其中，i为大于或等于1、且小于或等于n的正整数；当i不为1时，通过残差卷积网络中第i个残差卷积模块对第i-1个上下文感知模块的输出结果进行特征提取，得到第i语义层次的图像特征。

残差卷积网络是包含卷积运算且具有深度结构的神经网络。神经网络能够提取不同层次的图像语义特征，神经网络的层数越多，意味着能够提取到不同层次的特征越抽象、越具有语义信息。但是，如果简单地增加深度，会导致梯度弥散或梯度爆炸，变得越来越难以训练。残差卷积网络通过在卷积层中增加恒等映射层，防止由于卷积网络过深而导致梯度弥散或梯度爆炸，用于提取场景文本图像不同语义层次的特征。

在一个实施例中，残差卷积网络由串联的残差卷积模块组成，残差卷积模块由堆叠的卷基层组成。

在一个实施例中，残差卷积网络是ResNet-34(Residual Network-34，34残差网络)残差卷积网络。ResNet-34由四个残差模块依次串联构成。残差模块由串联的残差卷积层构成，残差卷积层由残差卷积单元组成。残差卷积运算的目的是提取输入图像的特征，第一层卷积层可能只能提取一些低级的特征，如边缘、线条和角，更高的卷积层能从低级特征中迭代提取更复杂的语义特征。

在一个实施例中，残差卷积网络是ResNet-50(Residual Network-50，50残差网络)残差卷积神经网络。

在一个实施例中，残差卷积网络是ResNet-101(Residual Network-101，101残差网络)残差卷积神经网络。

在一个实施例中，残差卷积网络是ResNet-152(Residual Network-152，152残差网络)残差卷积神经网络。

在一个实施例中，将ResNet-34残差卷积神经网络的第一层卷积的卷积核大小更换为3×3大小，以适应图像大小。

在一个实施例中，将ResNet-34残差卷积神经网络中步长为2的卷积层更换为池化层。池化层实际上是一种形式的降采样。通过池化层对数据进行降采样可以减小数据的空间大小，降低计算量，在一定程度上控制了过拟合。

在一个实施例中，池化层使用最大池化的非线性池化函数。最大池化层将输入的图像划分为若干个矩形区域，对每个子区域输出区域中像素的最大值。

在一个实施例中，池化层使用均值池化的非线性池化函数。均值池化层将输入的图像划分为若干个矩形区域，对每个子区域输出区域中像素的平均值。

S208，利用所述特征编码网络中的上下文感知网络对所述图像特征进行上下文编码，得到特征序列。

在一个实施例中，上下文感知网络包括n个上下文感知模块；其中，n为大于1的正整数。利用特征编码网络中的上下文感知网络对图像特征进行上下文编码，得到特征序列包括：通过上下文感知网络中第i个上下文感知模块对第i语义层次的图像特征进行特征运算，得到第i语义层次的特征序列。对所述特征序列进行解码之前，还包括：当第i语义层次的特征序列中的i小于n时，则将i递增之后进行下一个阶段的特征提取以及特征运算，直至获得第n语义层次的特征序列。

在一个实施例中，上下文感知模块包括至少两个特征提取层；每个特征提取层由串联的扩张卷积层、归一化层和激活层组成；在不同的特征提取层中，扩张卷积层的扩张因子不同、且呈规律变化；扩张因子包括宽维度扩张因子和高维度扩张因子；宽维度扩张因子大于高维度扩张因子。

其中，扩张卷积是卷积的变体，也被称为空洞卷积或者膨胀卷积，是在标准的卷积核中注入空洞来增加模型的感受野。由于扩张卷积在标准的卷积核中注入了空洞，所以扩张卷积拥有可变的扩张因子。扩张因子指的是卷积核的点的间隔数量。感受野是每一层卷积输出的特征图上的像素点在输入图像上映射的区域的大小。扩张卷积层对输入的数据进行扩张卷积运算。

其中，归一化层是将输入的数据映射到[0,1]或者[-1,1]的区间内。在神经网络中增加归一化层，可以加快梯度下降的求解速度，即提升模型的收敛速度，防止梯度爆炸和梯度消失。

其中，激活层是用激活函数对卷积层输出的数据做非线性映射。

在一个实施例中，激活函数是Tanh函数：

tanh(x)＝2σ(2x)-1 (1)

在另一个实施例中，激活函数是ReLU函数：

f(x)＝max(0,x) (2)

在另一个实施例中，激活函数是Leaky ReLU函数：

在另一个实施例中，激活函数是Maxout函数：

在一个实施例中，如图4所示，上下文感知模块包括四个特征提取层，每个特征提取层由串联的扩张卷积层、归一化层和激活层组成。四个特征提取层中的扩张卷积层的扩张因子不同、且呈规律变化。

在一个实施例中，上下文感知模块的四层扩张卷积层的卷积核大小相同。例如，上下文感知模块的四层扩张卷积层的卷积核均为3×3、5×5或者7×7大小。

在一个实施例中，上下文感知模块的四层扩张卷积层的卷积核大小不相同。第一层和第二层扩张卷积层的卷积核为5×5大小，第三层和第四层扩张卷积层的卷积核为3×3大小。

在一个实施例中，如图4所示，o_i,i＝1,2,3,4，是上下文感知模块中第i个特征提取层的输出，计算机设备将上下文感知模块的输入和每个特征提取层的输出o_i,i＝1,2,3,4相加得到上下文感知模块输出的特征序列O。用N_i(·)和σ_i(·)分别表示第i个归一化层运算和第i个激活层运算。k_i表示第i个扩张卷积的卷积核，

表示第i层扩张卷积层的扩张因子，

表示用卷积核k_i对扩张卷积层的输入进行扩张因子为

的扩张卷积运算。其中

分别表示第i个扩张因子的宽度维扩张因子和高度维的扩张因子。上下文感知模块对残差卷积模块输出的图像特征s进行上下文编码，得到的特征序列O通过公式(5)计算：

其中，

表示上下文感知模块的所有的特征提取层输出的特征图的逐个特征点的值相加。其中s、o_i和O均是形式为(W₀×H₀×C₀)的二维特征图，C_o表示通道数，H₀表示二维特征图的高，W₀表示二维特征图的宽。

上下文感知模块能够将残差卷积模块输出的不同语义层次的特征作为输入，并输出具有相同大小的特征。由于上下文感知模块输入输出的尺寸不变，所以可以将其插入任意层次的残差卷积层，不会破坏原来的连贯性，不用刻意地调整残差卷积层间的接口就可以将上下文感知模块和残差卷积模块任何语义级别的输出相连接，在任何语义层次上提高上下文感知能力。

在一个实施例中，四个特征提取层中的扩张卷积层的扩张因子随着扩张卷积层的层级增加而增大。

在一个实施例中，第i层卷积的卷积核k_i的扩张因子

满足公式(6)的条件：

其中，

和

分别表示具有卷积核k₄的扩张卷积层的特征提取层的输出o₄的图像中的中心点和边缘点关于输入的感受野，通过公式(7)计算：

在一个实施例中，如图5所示，上下文感知模块的扩张卷积层采用(3×3)大小的卷积核。第一层扩张卷积的扩张因子是(1，1)，第二层扩张卷积的扩张因子是(3，2)，第三层扩张卷积的扩张因子是(8，4)，第四层扩张卷积的扩张因子是(23，8)。扩张因子逐层增加，在卷积核的两个点之间的间隔逐层增大。在卷积核的两点之间增加间隔使卷积核在卷积运算时覆盖的区域更大，增加了卷积层的感受野。

由于在上下文感知模块中，随着特征提取层的层数的增加，特征提取层中的扩张卷积层的扩张因子逐层增大。在做扩张卷积运算时，卷积核能够覆盖更大的输入图像的范围。所以随着特征提取层的层数的增加，特征提取层中的扩张卷积层具有更大的感受野。也就是说，随着层数的增加，扩张卷积层通过卷积核进行的卷积运算利用了更大范围的输入像素点的值，更多的利用了文本图像在二维空间的上下文语义的相关性。计算机设备通过将上下文感知模块的输入和所有的特征提取层的输出相加可以实现多个从小到大的局部尺度和全局尺度的融合，拥有不同的感知尺度，克服了在图像中局部模糊时识别困难的问题，提高了文本识别的正确率。

由于高度维扩张因子和宽度维扩张因子不同。也就是说，可以根据输入的文本图像的形状控制宽度维扩张因子和高度维扩张因子的大小，更有效地利用不规整场景文本在二维的上下文相关性，将水平和垂直两个方向的多尺度上下文进行融合利用，提高了在文本排列不规则的情况下文本识别的正确率。

由于文本图像通常呈现横向排列，所以对图像特征在宽度维和高度维的上下文感知尺度的细粒度具有不同的要求。根据文本图像在二维空间中的宽度维和高度维的排列特征，区别性地确定上下文感知模块各卷积层的宽度维扩张因子和高度维扩张因子，实现了用区别性的尺度提取图像在宽度维的特征和高度维的特征，更充分的提取了图像的特征。由于文本图像通常是横向排列的，文本区域的宽度大于文本区域的高度，所以使宽度维扩张因子大于高度维扩张因子，能够更好的提取图像在宽度维的特征。

在一个实施例中，如图3所示，特征编码网络由残差卷积网络和上下文感知网络构成。残差卷积网络由四个残差卷积模块构成。上下文感知网络由四个上下文感知模块构成。残差卷积模块与上下文感知模块交替连接。计算机设备首先将预处理后的文本图像输入残差卷积网络的残差卷积模块1进行特征提取，得到第一语义层次的图像特征s₁，然后将s₁输入上下文感知模块1。上下文感知模块1对输入的特征s₁运算后得到特征序列O₁，然后将O₁输入残差卷积模块2，残差卷积模块2对特征序列O₁运算后得到第二语义层次的图像特征s₂，然后再将s₂输入上下文感知模块2进行处理得到特征序列O₂，依次类推，最后一个上下文感知模块输出的特征序列O₄即为特征编码网络输出的特征序列C。

设R^j(·),j＝1,2,3,4表示残差卷积网络的第j个残差卷积模块的映射函数；设T^j(·),j＝1,2,3,4表示上下文感知网络的第j个上下文感知模块的映射函数；设O_j(·),j＝1,2,3,4，表示第j个上下文感知模块的输出。预处理后的文本图像用I'表示，特征编码网络对预处理后的文本图像I'进行特征提取和编码得到特征序列C为：

其中，C为一个形式为1×W×C₀的编码向量，C₀表示编码向量的通道数，1表示编码向量的高，W表示编码向量的宽。

S210，计算机设备对特征序列进行解码，得到目标文本。

在一个实施例中，目标文本由多个字符所构成；对特征序列进行解码，得到目标文本包括：利用注意力机制获得所述字符的注意力向量；将所述注意力向量和所述特征序列输入递归神经网络进行运算，得到目标文本。

其中，注意力机制可以自动捕获编码器的隐藏状态和解码器的隐藏状态之间的相关性。计算机设备利用注意力机制自动学习注意力向量，注意力向量表示对应的解码输出的字符和输入的特征序列C中的各个字符的相关程度。

其中，递归神经网络是具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络，是深度学习算法之一。当递归神经网络的每个父节点都仅与一个子节点连接时，其结构等价于全连接的循环神经网络。

计算机设备首先将原始文本图像中的目标文本定义为字符串L，L＝{l₁,l₂,...l_n}，其中l_j表示文本序列第j个字符，其中1≤j≤n，n表示文本含有的字符数。在实际解码过程中，还需要引入截止符EOS，所以计算机设备实际的解码输出为L＝{l₁,l₂,...l_n,EOS}。

在一个实施例中，目标文本中的字符l_j通过独热码表示，截止符EOS也是一个独热码。独热码是使用N位状态寄存器来对N个状态进行编码，每个状态都有独立的寄存器位，并且在任意时候只有一位有效。

设l_j为计算机设备对特征序列进行解码的当前时刻的输出，l_j+1为计算机设备在解码输出l_j之后的下一时刻的输出。计算机设备根据l_j和特征序列C获取下一时刻的解码输出l_j+1的注意力a_j+1。注意力a_j+1是一个形式为1×W_c×1，取值为(0,1)的权值向量。a_j+1表示解码l_j+1时，l_j+1所对应的编码特征在特征序列C上的具体位置，也就是计算机设备解码l_j+1所利用的特征序列C中的不同字符的权值。Attention(·)为注意力机制操作，φ表示计算机解码的起始时刻输入的空字符，则下一时刻输出l_j+1的注意力a_j+1为：

计算机设备在解码l_j+1时，将l_j+1的注意力a_j+1、特征序列C与当前时刻的输出l_j一起输入递归神经网络进行解码，得到下一时刻的输出l_j+1。

设RNN(·)是递归神经网络的映射函数，计算机设备通过公式(10)对特征序列C进行解码获取下一时刻的输出l_j+1，其中⊙表示元素级别的乘法。

计算机设备将空字符φ和特征序列C输入递归神经网络，解码输出字符l₁。然后利用l₁和特征序列C根据公式(9)获得l₂的注意力a₂，然后将l₁、特征序列C和a₂输入递归神经网络根据公式(10)解码输出字符l₂。依次类推，直至得到完整的输出序列，即目标文本L。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种文本识别装置，包括：获取模块602、预处理模块604、提取模块606、编码模块608和解码模块610，其中：

获取模块602，用于获取原始文本图像；

预处理模块604，用于对原始文本图像进行图像预处理，得到处理后文本图像；

提取模块606，用于利用特征编码网络中的残差卷积网络对处理后文本图像进行特征提取，得到图像特征；

编码模块608，用于利用特征编码网络中的上下文感知网络对图像特征进行上下文编码，得到特征序列；

解码模块610，用于对特征序列进行解码，得到目标文本。

在一个实施例中，如图7所示，装置还包括：

残差卷积网络包括n个残差卷积模块；上下文感知网络包括n个上下文感知模块；其中，n为大于1的正整数，且每个残差卷积模块与每个上下文感知模块交替连接；

提取模块606还用于：

当i为1时，通过残差卷积网络中第i个残差卷积模块对处理后文本图像进行特征提取，得到第i语义层次的图像特征；其中，i为大于或等于1、且小于或等于n的正整数；

当i不为1时，通过残差卷积网络中第i个残差卷积模块对第i-1个上下文感知模块的输出结果进行特征提取，得到第i语义层次的图像特征；

编码模块608还用于：

通过上下文感知网络中第i个上下文感知模块对第i语义层次的图像特征进行特征运算，得到第i语义层次的特征序列；装置还包括：

递增模块612，当第i语义层次的特征序列中的i小于n时，则用于将i递增之后进行下一个阶段的特征提取以及特征运算，直至获得第n语义层次的特征序列。

在一个实施例中，装置还包括：

第i个上下文感知模块包括至少两个特征提取层；每个特征提取层由串联的扩张卷积层、归一化层和激活层组成；

在不同的特征提取层中，扩张卷积层的扩张因子不同、且呈规律变化；

扩张因子包括宽维度扩张因子和高维度扩张因子；宽维度扩张因子大于高维度扩张因子。

在一个实施例中，装置还包括：

呈规律变化是扩张因子随着扩张卷积层的层级增加而增大。

在一个实施例中，预处理模块604还用于：

定位原始文本图像的文本区域；

在文本区域中选取控制点，并获取控制点的第一位置坐标；

设定与控制点相对应的基准点的第二位置坐标；

根据第一位置坐标和第二位置坐标生成采样网格，采样网格表示第一位置坐标和第二位置坐标之间的映射关系；

根据采样网格将原始文本图像重采样至设定的模板中，得到处理后文本图像。

在一个实施例中，装置还包括：

目标文本由多个字符所构成；

解码模块610还用于：

利用注意力机制获得字符的注意力向量；

将注意力向量和特征序列输入递归神经网络进行运算，得到目标文本。

关于文本识别装置的具体限定可以参见上文中对于文本识别方法的限定，在此不再赘述。上述文本识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本识别数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本识别方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种文本识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8和图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取原始文本图像；对原始文本图像进行图像预处理，得到处理后文本图像；利用特征编码网络中的残差卷积网络对处理后文本图像进行特征提取，得到图像特征；利用特征编码网络中的上下文感知网络对图像特征进行上下文编码，得到特征序列；对特征序列进行解码，得到目标文本。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

残差卷积网络包括n个残差卷积模块；上下文感知网络包括n个上下文感知模块；其中，n为大于1的正整数，且每个残差卷积模块与每个上下文感知模块交替连接；利用特征编码网络中的残差卷积网络对处理后文本图像进行特征提取，得到图像特征包括：当i为1时，通过残差卷积网络中第i个残差卷积模块对处理后文本图像进行特征提取，得到第i语义层次的图像特征；其中，i为大于或等于1、且小于或等于n的正整数；当i不为1时，通过残差卷积网络中第i个残差卷积模块对第i-1个上下文感知模块的输出结果进行特征提取，得到第i语义层次的图像特征；利用特征编码网络中的上下文感知网络对图像特征进行上下文编码，得到特征序列包括：通过上下文感知网络中第i个上下文感知模块对第i语义层次的图像特征进行特征运算，得到第i语义层次的特征序列；对特征序列进行解码之前，方法还包括：当第i语义层次的特征序列中的i小于n时，则将i递增之后进行下一个阶段的特征提取以及特征运算，直至获得第n语义层次的特征序列。

第i个上下文感知模块包括至少两个特征提取层；每个特征提取层由串联的扩张卷积层、归一化层和激活层组成；在不同的特征提取层中，扩张卷积层的扩张因子不同、且呈规律变化；扩张因子包括宽维度扩张因子和高维度扩张因子；宽维度扩张因子大于高维度扩张因子。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：呈规律变化是扩张因子随着扩张卷积层的层级增加而增大。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对原始文本图像进行图像预处理，得到处理后文本图像包括：定位原始文本图像的文本区域；在文本区域中选取控制点，并获取控制点的第一位置坐标；设定与控制点相对应的基准点的第二位置坐标；根据第一位置坐标和第二位置坐标生成采样网格，采样网格表示第一位置坐标和第二位置坐标之间的映射关系；根据采样网格将原始文本图像重采样至设定的模板中，得到处理后文本图像。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：目标文本由多个字符所构成；对特征序列进行解码，得到目标文本包括：利用注意力机制获得字符的注意力向量；将注意力向量和特征序列输入递归神经网络进行运算，得到目标文本。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取原始文本图像；对原始文本图像进行图像预处理，得到处理后文本图像；利用特征编码网络中的残差卷积网络对处理后文本图像进行特征提取，得到图像特征；利用特征编码网络中的上下文感知网络对图像特征进行上下文编码，得到特征序列；对特征序列进行解码，得到目标文本。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：残差卷积网络包括n个残差卷积模块；上下文感知网络包括n个上下文感知模块；其中，n为大于1的正整数，且每个残差卷积模块与每个上下文感知模块交替连接；利用特征编码网络中的残差卷积网络对处理后文本图像进行特征提取，得到图像特征包括：当i为1时，通过残差卷积网络中第i个残差卷积模块对处理后文本图像进行特征提取，得到第i语义层次的图像特征；其中，i为大于或等于1、且小于或等于n的正整数；当i不为1时，通过残差卷积网络中第i个残差卷积模块对第i-1个上下文感知模块的输出结果进行特征提取，得到第i语义层次的图像特征；利用特征编码网络中的上下文感知网络对图像特征进行上下文编码，得到特征序列包括：通过上下文感知网络中第i个上下文感知模块对第i语义层次的图像特征进行特征运算，得到第i语义层次的特征序列；对特征序列进行解码之前，方法还包括：当第i语义层次的特征序列中的i小于n时，则将i递增之后进行下一个阶段的特征提取以及特征运算，直至获得第n语义层次的特征序列。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：第i个上下文感知模块包括至少两个特征提取层；每个特征提取层由串联的扩张卷积层、归一化层和激活层组成；在不同的特征提取层中，扩张卷积层的扩张因子不同、且呈规律变化；扩张因子包括宽维度扩张因子和高维度扩张因子；宽维度扩张因子大于高维度扩张因子。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：呈规律变化是扩张因子随着扩张卷积层的层级增加而增大。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对原始文本图像进行图像预处理，得到处理后文本图像包括：定位原始文本图像的文本区域；在文本区域中选取控制点，并获取控制点的第一位置坐标；设定与控制点相对应的基准点的第二位置坐标；根据第一位置坐标和第二位置坐标生成采样网格，采样网格表示第一位置坐标和第二位置坐标之间的映射关系；根据采样网格将原始文本图像重采样至设定的模板中，得到处理后文本图像。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：目标文本由多个字符所构成；对特征序列进行解码，得到目标文本包括：利用注意力机制获得字符的注意力向量；将注意力向量和特征序列输入递归神经网络进行运算，得到目标文本。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文本识别方法，其特征在于，所述方法包括：

获取原始文本图像；

利用所述特征编码网络中的上下文感知网络对所述图像特征进行上下文编码，得到特征序列；所述上下文感知网络包括n个上下文感知模块，其中，n为大于1的正整数；其中，第i个上下文感知模块包括至少两个特征提取层；每个所述特征提取层由串联的扩张卷积层、归一化层和激活层组成；在不同的所述特征提取层中，扩张卷积层的扩张因子不同、且呈规律变化；所述扩张因子包括宽维度扩张因子和高维度扩张因子；所述宽维度扩张因子大于所述高维度扩张因子；

对所述特征序列进行解码，得到目标文本。

2.根据权利要求1所述的方法，其特征在于，所述残差卷积网络包括n个残差卷积模块；其中，n为大于1的正整数，且每个残差卷积模块与每个上下文感知模块交替连接；

所述对所述特征序列进行解码之前，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述残差卷积模块由串联的残差卷积层和池化层组成；所述残差卷积层由残差卷积单元组成。

4.根据权利要求1所述的方法，其特征在于，所述呈规律变化是所述扩张因子随着所述扩张卷积层的层级增加而增大。

5.根据权利要求1所述的方法，其特征在于，所述对所述原始文本图像进行图像预处理，得到处理后文本图像包括：

定位所述原始文本图像的文本区域；

设定与所述控制点相对应的基准点的第二位置坐标；

6.根据权利要求1所述的方法，其特征在于，所述目标文本由多个字符所构成；所述对所述特征序列进行解码，得到目标文本包括：

利用注意力机制获得所述字符的注意力向量；

7.一种文本识别装置，其特征在于，所述装置包括：

获取模块，用于获取原始文本图像；

编码模块，用于利用所述特征编码网络中的上下文感知网络对所述图像特征进行上下文编码，得到特征序列；所述上下文感知网络包括n个上下文感知模块，其中，n为大于1的正整数；其中，第i个上下文感知模块包括至少两个特征提取层；每个所述特征提取层由串联的扩张卷积层、归一化层和激活层组成；在不同的所述特征提取层中，扩张卷积层的扩张因子不同、且呈规律变化；所述扩张因子包括宽维度扩张因子和高维度扩张因子；所述宽维度扩张因子大于所述高维度扩张因子；

解码模块，用于对所述特征序列进行解码，得到目标文本。

8.根据权利要求7所述的装置，其特征在于，所述残差卷积网络包括n个残差卷积模块；其中，n为大于1的正整数，且每个残差卷积模块与每个上下文感知模块交替连接；

所述提取模块还用于：

所述编码模块还用于：

通过所述上下文感知网络中第i个上下文感知模块对所述第i语义层次的图像特征进行特征运算，得到第i语义层次的特征序列；所述装置还包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。