CN105740909B

CN105740909B - 一种基于空间变换的自然场景下文本识别方法

Info

Publication number: CN105740909B
Application number: CN201610072466.1A
Authority: CN
Inventors: 白翔; 石葆光; 张新浩
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2016-02-02
Filing date: 2016-02-02
Publication date: 2017-06-13
Anticipated expiration: 2036-02-02
Also published as: CN105740909A

Abstract

本发明公开了一种基于空间变换的自然场景下文本识别方法，首先对训练图像集中的文本图像，获取图像的文本内容，并训练基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络等网络模型；然后利用训练得到的网络模型对待识别图像集中图像进行空间变换，得到变换后的待识别图像；然后计算变换后的待识别图像的特征向量以及预测概率序列，最终获取图像识别的结果。本发明方法文本识别准确率高，且能够克服文本排列不规则等不利因素的影响。

Description

一种基于空间变换的自然场景下文本识别方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于空间变换的自然场景下文本识别方法。

背景技术

人们在生产和生活中，会接触到大量的自然场景下的文字，像路标、广告牌、产品包装等，这些文字包含着丰富的信息，自动地获取图像中的文字信息可以帮助人们更有效地理解图像，提取这些文字信息具有非常重要的实用价值，对无人驾驶、自动获取地理位置以及基于图像的自动翻译等都有着很强的实用性。自然场景图像背景通常比较复杂，文字分布不规律，且容易受到拍摄角度及光照等因素的影响，因此自然场景中的文本分析一直是计算机视觉技术领域的难点之一。

发明内容

本发明的目的在于提供一种基于空间变换的自然场景下文本识别方法，该方法文本识别准确率高，适应能力强。

为实现上述目的，按照本发明的一个方面，提供了一种基于空间变换的自然场景下文本识别方法，包括下述步骤：

(1)训练得到文本识别的参数，所述参数包括基准点定位网络模型、图像预处理网络模型、图像编码器网络模型以及特征解码器网络模型：

(1.1)标记训练图像集中所有文本图像的文本内容，得到训练数据集；

具体地，对给定的文本图像，用人工标注的方法获取文本图像中文本的内容；对训练图像集中的所有文本图像都进行标注，就可以得到训练数据集，记为其中Itr_i表示训练图像集中的第i张图像，Ltr_i表示图像Itr_i中的文本内容，ltr_i,t表示Ltr_i中的第t个字符，Ttr_i表示Ltr_i中字符个数，Ntr为训练图像个数；

(1.2)定义用于对待识别图像进行识别的级联网络，所述级联网络由基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络构成，根据上述训练数据集，利用反向传导方法训练该级联网络，得到基准点定位网络模型、图像编码器网络模型以及特征解码器网络模型；

(1.2.1)对训练图像Itr，在图像上取两条平行的线段，线段的端点都在图像的左右边界上，在这两条线段上分别等间距的取K/2个点作为基准点，其中K为设置的基准点个数，这样就可以得到K个初始化的基准点，将这些基准点的坐标保存在基准点坐标矩阵Ctr中，记为Ctr＝[ctr₁,...,ctr_K]，其中坐标系的原点为图像的中点，ctr_k表示第k个基准点，且ctr_k＝[xctr_k,yctr_k]^T，xctr_k和yctr_k分别表示该基准点在训练图像Itr_i上归一化后的横纵坐标，xctr_k∈[-1,1]，yctr_k∈[-1,1]，上标T表示矩阵转置；

(1.2.2)以卷积神经网络作为图像基准点定位网络，该卷积神经网络包含四个卷积层、四个最大池化层、两个全连接层以及一个双曲正切输出层；根据基准点坐标初始化所述基准点定位网络的的权重参数和偏置量，其中权重参数均为0，基准点对应的偏置量为1，其他的偏置量均为0；

(1.2.3)对训练图像Itr，令图像Itr′为Itr经过变换后的图像，且变换后图像的宽度和高度分别为Wf和Hf，均为固定的值，定义变换后的图像的基准点坐标矩阵为Ctr′＝[ctr′₁,...,ctr′_K]，其中K为基准点的个数，变换后的图像中的基准点与原训练图像中的基准点是一一对应的，且变换后的图像的基准点等间距的分布在图像Itr′的上下两条边上，其中第ktr个基准点ctr′_ktr＝[xctr′_ktr,yctr′_ktr]^T，ctr′_k对应原始训练图像Itr中的第ktr个基准点ctr_ktr，xctr′_ktr和yctr′_ktr分别表示该基准点在图像Itr′上归一化后的横纵坐标，xctr′_ktr∈[-1,1]，yctr′_ktr∈[-1,1]；

(1.2.4)计算薄板样条函数转换矩阵Tps，记为：

其中Os为1×K的矩阵，且Os中所有元素的值均为1，Ctr′为变换后的图像的基准点坐标矩阵，Zs为3×3的矩阵，且Zs中所有元素的值均为0，R为K×K的矩阵，且其第row行、第col列的元素值r_row，col为训练图像Itr的第row个基准点Ctr_row和变换后的图像Itr′的第col个基准点Ctr′_col之间的欧式距离，上标T表示矩阵转置，K为基准点的个数，则利用训练图像的基准点坐标矩阵Ctr和薄板样条函数转换矩阵Tps计算转换参数矩阵A＝[a₁,a₂,a₃]^T，B＝[b₁,b₂,b₃]^T，F＝[f₁,...,f_K]^T，G＝[g₁,...,g_K]^T，其中矩阵A、B、F、G中的元素为转换参数，转换参数矩阵计算方程为：

Ctr^T＝TpsPa

解该方程即可得到转换参数矩阵Pa，对变换后的图像Itr′上的一个点ptr′＝[xptr′,yptr′]^T，计算其对应于原始训练图像Itr的点ptr＝[xptr,yptr]^T，其中xptr′和yptr′分别表示点ptr′的在Itr′的横纵坐标，xptr和yptr分别表示点ptr在Itr的横纵坐标，计算公式为：

ptr＝Pa^Tptr″，

ptr″＝[1,xptr′,yptr′,rtr′₁,...,rtr′_K]^T，

其中dtr_ktr表示点ptr′与Itr′的第ktr个基准点ctr′_ktr之间的欧式距离，对图像Itr′中的每个点都执行上述运算，就可以得到Itr′上每个点与图像Itr中点的对应关系；

(1.2.5)对图像Itr′中的每个点ptr′，通过步骤(1.2.4)可以计算出其在原始图像Itr中对应的点ptr，利用双线性插值的方法通过点ptr周围的像素点的值计算出点ptr′的像素值，这样就可以得到原始训练图相Itr经过变换后的图像Itr′；

(1.2.6)以步骤(1.2.5)中得到的经过变换的图像作为输入，经过由卷积层构成的图像预处理网络，经过图像预处理网络可以得到D个Wf×Hf的特征图，其中D为常数，Wf和Hf分别表示预设的变换后图像的宽度和高度；对特征图的每一列，将其每个像素在D个特征图上对应的值拼接起来，可以组成一个D×Hf的特征向量，一共可以得到Wf个D×Hf的特征向量；然后以双向长短程记忆网络作为图像编码器网络，这些特征向量通过图像编码器网络进行计算得到训练图像的特征序列PItr＝{Xtr₁,...,Xtr_Wf}，其中Xtr_wtr表示图像Itr′第wtr列的特征向量；

(1.2.7)以门限递归单元网络构建特征解码器网络，特征解码由Td个过程构成，其中Td表示特征解码器网络循环次数，特征解码的第td步具体为：首先计算权重向量α_td，计算方法如下：

e_td,wtr＝va^T tanh(Was_td-1+UaXtr_wtr)

其中，α_td,wtr表示权重向量α_td的第wtr维的值，Wf表示预设的变换后图像的宽度，va、Wa、Ua为训练得到的参数矩阵，s_td-1表示解码过程第td-1步的输出，Xtr_wtr表示步骤(1.2.6)中得到的图像Itr′第wtr列的特征向量，α_td是一个Wf维的向量；然后计算步骤(1.2.6)中得到的图像特征序列的上下文关系特征向量，记为：

其中α_td,wtr表示权重向量α_td的第wtr维的值，Xtr_wtr表示步骤(1.2.6)中得到的图像表示序列PItr＝{Xtr₁,...,Xtr_Wf}中的第wtr个向量；然后以得到的上下文关系特征向量o_td、特征解码过程第td-1步的输出s_td-1以及预测的字符l′_td-1为输入，经过该特征解码过程，可以得到输出s_td，然后将s_td输入到软最大分类器进行分类，即可得到预测的概率分布y_td；

(1.2.8)将步骤(1.2.2)至(1.2.7)中所述的基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络级联在一起，即为文本识别的网络，记为级联网络，利用反向传导的方法对该级联网络进行训练，可以得到步骤(1.2.2)中的基准点定位网络模型θ_loc、步骤(1.2.6)中的图像预处理网络模型θ_conv和图像编码器网络模型θ_blstm以及步骤(1.2.7)中的特征解码器网络模型θ_rnn和软最大分类器的模型W，组合在一起即为级联网络的模型，组合在一起即为级联网络的参数，记为θ，该级联网络代价函数为：

其中χ为训练数据集，Itr_i和Ltr_i分别表示第i个训练图像及其标注的文本内容，Ttr_i表示文本内容Ltr_i中字符的个数，ltr_i,t表示Ltr_i中的第t个字符，p(ltr_i,t|Itr_i,θ)由级联网络最后输出；

(2)利用基准点定位网络对待识别图像做空间变换：

(2.1)利用基准点定位网络模型计算待识别图像的基准点位置；

具体地，对待识别图像集中的每一张图像Itst，利用步骤(1.2.2)中训练好的基准点定位网络模型θ_loc，将图像Itst输入到基准点定位网络即可得到基准点的坐标矩阵Ctst＝[ctst₁,...,ctst_K]，其中ctst_ktst＝[xtst_ktst,ytst_ktst]^T表示图像Itst的第ktst个基准点，K为基准点个数，xtst_ktst和ytst_ktst分别表示第ktst个基准点的横纵坐标，且xtst_ktst∈(-1,1)，ytst_ktst∈(-1,1)，上标T表示矩阵转置；

(2.2)根据所述待识别图像的基准点位置，利用薄板样条函数转换矩阵获取原待识别图像和变换后待识别图像的坐标对应关系；

具体地，对步骤(2.1)中得到的待识别图像的基准点坐标矩阵Ctst，利用步骤(1.2.3)和步骤(1.2.4)的方法计算原待识别图像Itst和变换后待识别图像Itst′之间坐标的对应关系，其中图像Itst′的宽度和高度分别为既定的值Wf和Hf；

(2.3)根据上述原待识别图像和变换后待识别图像的坐标对应关系获取变换后的待识别图像；

具体地，根据步骤(2.2)中得到的原待识别图像Itst和变换后待识别图像Itst′之间坐标的对应关系，利用步骤(1.2.5)中所述的方法计算Itst′中各个点的像素值，得到变换后的待识别图像Itst′；

(3)对变换后的待识别图像进行识别：

(3.1)利用图像编码器网络模型获取变换后的待识别图像的特征向量；

具体地，对步骤(2.3)中获取的变换后的待识别图像Itst′，利用步骤(1.2.6)中所述的方法以及训练得到的图像预处理网络模型θ_conv和图像编码器网络模型θ_blstm，得到图像Itst′的编码，即为图像Itst′的特征向量，记为PItst＝{Xtst₁,...,Xtst_Wf}；

(3.2)根据上述待识别图像的特征向量，利用特征解码器网络模型，获取待识别图像的预测概率序列；

具体地，对步骤(3.1)中获取的图像Itst′的特征向量序列PItst＝{Xtst₁,...,Xtst_Wf}，利用步骤(1.2.7)中所述的方法以及训练好的特征解码器网络模型θ_rnn和软最大分类器的模型W，获取图像的预测概率分布序列，记为Y＝{y₁,...,y_Td}，其中Td为步骤(1.2.7)中所述的特征解码的步数；

(3.3)利用上述得到的预测概率序列获取待识别图像最终的识别结果；

具体地，对于没有词典情况，首先由步骤(1.2.7)所述的特征解码器网络的初始状态预测出第一步的概率分布，取最大概率的字符作为第一个字符，并把第一个字符以及第一步特征解码器网络的状态作为第二步的输入，并计算第二个字符的概率分布，同样的取概率最大的字符作为输出，并与第二步的状态一道作为下一步的输入，依次类推直到输出的概率分布中终止符的概率最大为止或者步长到了预设的最大值，则预测结束，此时输出的字符串即为预测的字符串；对于有词典的情况，对于词典中的每个单词，首先由步骤(1.2.7)所述的特征解码器网络的初始状态得到第一步的概率分布，并得到单词中第一个字符的概率，然后把单词中第一个字符以及第一步的状态作为第二步的输入，并得到第二步的字符概率分布，并得到单词中第二个字符的概率，依次进行下去，把整个单词中各个字符的概率相乘就可以得到这个单词对应的概率，算出字典中所有单词的概率，取概率最大的单词作为最终的输出。

通过本发明所构思的以上技术方案，与现有技术相比，本发明具有以下技术效果：

1、自然场景下获取的文本经常出现排列不规律的现象，现有的识别方法很难适应文本排列的影响，导致识别准确率非常低；本发明方法通过自动地进行文本空间变换，能够在一些不规则的文字上去的更好的识别准确率，包括非水平方向的文字、非正面拍摄的文字以及弯曲排列的文字；

2、现有的对自然场景下的不规则排列的文本进行变换的算法，一般都需要人工标注文本图片中的基准点，因而需要大量的人工标注工作；本发明方法中网络模型的参数完全从数据中学习得到，在训练和测试时都不需要人工标注变换。

附图说明

图1是本发明基于空间变换的自然场景下文本识别方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

以下首先就本发明的技术术语进行解释和说明：

卷积神经网络(Concolutional Neural Network，CNN)：一种可用于图像分类、回归等任务的神经网络。网络通常由卷积层、降采样层和全连接层构成。卷积层和降采样层负责提取图像的特征，全连接层负责分类或回归。网络的参数包括卷积核以及全连接层的参数及偏置，参数可以通过反向传导算法，从数据中学习得到；

薄板样条曲线(Thin Plate Spline，TPS)：一种非线性空间变换算法。给定图像和图像上的准点(fiducial points)，该算法可以对图像进行非线性的扭曲变换；

递归神经网络(Recurrent Neural Network，RNN)：一种通常用于序列分析的网络。网络可以接收一个序列作为输入，通过记忆机制，分析序列的前后关系，并最终输出一个序列或者一个特征向量；

长短期记忆(Long-Short Term Memory，LSTM)：递归神经网络的一种。该网络包含三个门(gates)结构：输入门、输出门和遗忘门；它们分别起到调整输入、调整输出和清除记忆的作用；由于门机制的作用，该网络可以捕捉序列中的长期(long-term)相关关系，并且可以避免训练递归神经网络中常出现的梯度爆炸(gradient explosion)和梯度消失(gradient vanishing)的现象；

双向长短期记忆(Bidirectional Long-Short Term Memory，BLSTM)：由两个方向相反的LSTM结合而成。可以同时分析两个方向上的上下文关系；

门递归神经网络的一种(Gated Recurrent Unit，GRU)：类似LSTM，但只包括更新门和重置门两种门结构。结构上更为简单。

本发明基于空间变换的自然场景下文本识别方法包括以下步骤：

(1.2.4)计算薄板样条函数转换矩阵Tps，记为：

其中Os为1×K的矩阵，且Os中所有元素的值均为1，Ctr′为变换后的图像的基准点坐标矩阵，Zs为3×3的矩阵，且Zs中所有元素的值均为0，R为K×K的矩阵，且其第row行、第col列的元素值r_row,col为训练图像Itr的第row个基准点Ctr_row和变换后的图像Itr′的第col个基准点Ctr′_col之间的欧式距离，上标T表示矩阵转置，K为基准点的个数，则利用训练图像的基准点坐标矩阵Ctr和薄板样条函数转换矩阵Tps计算转换参数矩阵A＝[a₁,a₂,a₃]^T，B＝[b₁,b₂,b₃]^T，F＝[f₁,...,f_K]^T，G＝[g₁,...,g_K]^T，其中矩阵A、B、F、G中的元素为转换参数，转换参数矩阵计算方程为：

Ctr^T＝TpsPa

ptr＝Pa^Tptr″，

ptr″＝[1,xptr′,yptr′,rtr′₁,...,rtr′_K]^T，

(1.2.7)以门限递归单元网络特征解码器网络，特征解码由Td个过程构成，其中Td表示特征解码器网络循环次数，特征解码的第td步具体为：首先计算权重向量α_td，计算方法如下：

e_td,wtr＝va^Ttanh(Was_td-1+UaXtr_wtr)

其中，α_td,wtr表示权重向量α_td的第wtr维的值，Wf表示预设的变换后图像的宽度，va、Wa、Ua为训练得到的参数矩阵，s_td-1表示特征解码过程第td-1步的输出，Xtr_wtr表示步骤(1.2.6)中得到的图像Itr′第wtr列的特征向量，α_td是一个Wf维的向量；然后计算步骤(1.2.6)中得到的图像特征序列的上下文关系特征向量，记为：

(1.2.8)将步骤(1.2.2)至(1.2.7)中所述的基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络级联在一起，即为文本识别的网络，记为级联网络，利用反向传导的方法对该级联网络进行训练，可以得到步骤(1.2.2)中的基准点定位网络模型θ_loc、步骤(1.2.6)中的图像预处理网络模型θ_conv和图像编码器网络模型θ_blstm以及步骤(1.2.7)中的特征解码器网络模型θ_rnn和软最大分类器的模型W，组合在一起即为级联网络的模型，记为θ，该级联网络代价函数为：

(2)利用基准点定位网络对待识别图像做空间变换：

(2.2)获取原待识别图像和变换后待识别图像的坐标对应关系；

(3)对变换后的待识别图像进行识别：

具体地，对步骤(3.1)中获取的图像Itst′的特征向量序列PItst＝{Xtst₁,...,Xtst_Wf}，利用步骤(1.2.7)中所述的方法以及训练好的特征解码器网络模型θ_rnn和软最大分类器的模型W，获取图像的预测概率分布序列，记为Y＝{y₁,...,y_Td}，其中Td为步骤(1.2.7)中所述的解码器的步数；

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于空间变换的自然场景下文本识别方法，其特征在于，所述方法包括下述步骤：

(1)训练得到文本识别的参数，所述参数包括基准点定位网络模型、图像预处理网络模型、图像编码器网络模型以及特征解码器网络模型，包括如下子步骤：

(2)利用基准点定位网络对待识别图像做空间变换，包括如下子步骤：

(3)对变换后的待识别图像进行识别：

所述步骤(1.2)具体为：

(1.2.1)在训练图像Itr上取两条平行的线段，线段的端点都在训练图像的左右边界上，在这两条线段上分别等间距的取K/2个点作为基准点，其中K为设置的基准点个数，得到K个初始化的基准点，将这些基准点的坐标保存在基准点坐标矩阵Ctr中，记为其中坐标系的原点为图像的中点，ctr_k表示第k个基准点，且ctr_k＝[xctr_k,yctr_k]^T，xctr_k和yctr_k分别表示该基准点在训练图像Itr_i上归一化后的横坐标和纵坐标，xctr_k∈[-1,1]，yctr_k∈[-1,1]，上标T表示矩阵转置，Itr_i表示训练图像集中的第i张图像；

(1.2.3)对训练图像Itr，记图像Itr′为Itr经过变换后的图像，且变换后图像的宽度和高度分别为Wf和Hf，定义变换后的图像的基准点坐标矩阵为Ctr′＝[ctr₁′,...,ctr′_K]，其中K为基准点的个数，变换后的图像中的基准点与原训练图像中的基准点是一一对应的，且变换后的图像的基准点等间距的分布在图像Itr′的上下两条边上，其中第ktr个基准点ctr′_ktr＝[xctr′_ktr,yctr′_ktr]^T，ctr′_k对应原始训练图像Itr中的第ktr个基准点ctr_ktr，xctr′_ktr和yctr′_ktr分别表示该基准点在图像Itr′上归一化后的横纵坐标，xctr′_ktr∈[-1,1]，yctr′_ktr∈[-1,1]；

(1.2.4)计算薄板样条函数转换矩阵Tps，记为：

Ctr^T＝TpsPa

解该方程即可得到转换参数矩阵Pa，对变换后的图像Itr′上的一个点ptr′＝[xprt′,yprt′]^T，计算其对应于原始训练图像的点其中xptr′和yptr′分别表示点ptr′的在Itr′的横纵坐标，xptr和yptr分别表示点ptr在Itr的横纵坐标，计算公式为：

ptr＝Pa^Tptr″，

ptr″＝[1,xptr′,yptr′,rtr₁′,...,rtr′_K]^T，

其中dtr_ktr表示点ptr′与Itr′的第ktr个基准点ctr′_ktr之间的欧式距离，对图像Itr′中的每个点都执行上述运算，得到Itr′上每个点与图像Itr中点的对应关系；

(1.2.5)对图像Itr′中的每个点ptr′，通过步骤(1.2.4)计算出其在原始图像Itr中对应的点ptr，利用双线性插值的方法通过点ptr周围的像素点的值计算出点ptr′的像素值，得到原始训练图像Itr经过变换后的图像Itr′；

(1.2.6)以步骤(1.2.5)中得到的经过变换的图像作为输入，经过由卷积层构成的图像预处理网络，经过图像预处理可以得到D个Wf×Hf的特征图，其中D为常数，Wf和Hf分别表示预设的变换后图像的宽度和高度；对特征图的每一列，将其每个像素在D个特征图上对应的值拼接起来，组成一个D×Hf的特征向量，一共得到Wf个D×Hf的特征向量；然后以双向长短程记忆网络作为图像编码器网络，这些特征向量通过图像编码器网络进行计算得到训练图像的特征序列PItr＝{Xtr₁,...,Xtr_Wf}，其中Xtr_wtr表示图像Itr′第wtr列的特征向量；

(1.2.7)以门限递归单元网络构建特征解码器网络，特征解码由Td个过程构成，其中Td表示特征解码器网络次数，特征解码的第td步具体为：首先计算权重向量α_td，计算方法如下：

e_td,wtr＝va^Ttanh(Was_td-1+UaXtr_wtr)

其中α_td,wtr表示权重向量α_td的第wtr维的值，Xtr_wtr表示步骤(1.2.6) 中得到的图像表示序列PItr＝{Xtr₁,...,Xtr_Wf}中的第wtr个向量；然后以得到的上下文关系特征向量o_td、特征解码过程第td-1步的输出s_td-1以及预测的字符l′_td-1为输入，经过该特征解码过程，得到输出s_td，然后将s_td输入到软最大分类器进行分类，得到预测的概率分布y_td；

(1.2.8)将步骤(1.2.2)至(1.2.7)中所述的基准点定位网络、图像预处理网络、图像编码器网络以及特征解码器网络级联在一起，即为文本识别的网络，记为级联网络，利用反向传导的方法对该级联网络进行训练，得到步骤(1.2.2)中的基准点定位网络模型θ_loc、步骤(1.2.6)中的图像预处理网络模型θ_conv和图像编码器网络模型θ_blstm以及步骤(1.2.7)中的特征解码器网络模型θ_rnn和软最大分类器的模型W，组合在一起即为级联网络的模型，记为θ，该级联网络代价函数为：

其中χ为训练数据集，Itr_i和Ltr_i分别表示第i个训练图像及其标注的文本内容，Ttr_i表示文本内容Ltr_i中字符的个数，ltr_i,t表示Ltr_i中的第t个字符，p(ltr_i,t|Itr_i,θ)由级联网络最后输出。

2.根据权利要求1所述的基于空间变换的自然场景下文本识别方法，其特征在于，所述步骤(2.1)具体为：对待识别图像集中的每一张图像Itst，利用步骤(1.2.2)中训练好的基准点定位网络模型θ_loc，将图像输入基准点定位网络得到基准点的坐标矩阵其中ctst_ktst＝[xtst_ktst,ytst_ktst]^T表示图像Itst的第ktst个基准点，K为基准点个数，xtst_ktst和ytst_ktst分别表示第ktst个基准点的横纵坐标，且xtst_ktst∈(-1,1)，ytst_ktst∈(-1,1)，上标T表示矩阵转置。

3.根据权利要求1所述的基于空间变换的自然场景下文本识别方法，其特征在于，所述步骤(2.2)具体为：对步骤(2.1)中得到的待识别图像的基准点坐标矩阵Ctst，利用步骤(1.2.3)和步骤(1.2.4)的方法计算原待识别图像Itst和变换后待识别图像Itst′之间坐标的对应关系，其中图像Itst′的宽度和高度分别为既定的值Wf和Hf。

4.根据权利要求1所述的基于空间变换的自然场景下文本识别方法，其特征在于，所述步骤(2.3)具体为：根据步骤(2.2)中得到的原待识别图像Itst和变换后待识别图像Itst′之间坐标的对应关系，利用步骤(1.2.5)中所述的方法计算Itst′中各个点的像素值，得到变换后的待识别图像Itst′。

5.根据权利要求1所述的基于空间变换的自然场景下文本识别方法，其特征在于，所述步骤(3.1)具体为：对步骤(2.3)中获取的变换后的待识别图像Itst′，利用步骤(1.2.6)中所述的方法以及训练得到的图像预处理网络模型θ_conv和图像编码器网络模型θ_blstm，得到图像Itst′的编码，即为图像Itst′的特征向量，记为PItst＝{Xtst₁,...,Xtst_Wf}。

6.根据权利要求1所述的基于空间变换的自然场景下文本识别方法，其特征在于，所述步骤(3.2)具体为：具体地，对步骤(3.1)中获取的图像Itst′的特征向量序列PItst＝{Xtst₁,...,Xtst_Wf}，利用步骤(1.2.7)中所述的方法以及训练好的特征解码器网络模型θ_rnn和软最大分类器的模型W，获取图像的预测概率分布序列，记为Y＝{y₁,...,y_Td}，其中Td为步骤(1.2.7)中所述的特征解码的步数。

7.根据权利要求1至6中任一所述的基于空间变换的自然场景下文本识别方法，其特征在于，所述步骤(3.3)具体为：具体地，对于没有词典情况，首先由步骤(1.2.7)所述的特征解码器网络的初始状态预测出第一步的概率分布，取最大概率的字符作为第一个字符，并把第一个字符以及第一步特征解码器网络的状态作为第二步的输入，并计算第二个字符的概率分布，同样的取概率最大的字符作为输出，并与第二步的状态一道作为下一步的输入，依次类推直到输出的概率分布中终止符的概率最大为止或者步长到了预设的最大值，则预测结束，此时输出的字符串即为预测的字符串；对于有词典的情况，对于词典中的每个单词，首先由步骤(1.2.7)所述的特征解码器网络的初始状态得到第一步的概率分布，并得到单词中第一个字符的概率，然后把单词中第一个字符以及第一步的状态作为第二步的输入，并得到第二步的字符概率分布，并得到单词中第二个字符的概率，依次进行下去，把整个单词中各个字符的概率相乘就可以得到这个单词对应的概率，算出字典中所有单词的概率，取概率最大的单词作为最终的输出。