CN106022363A

CN106022363A - 一种适用于自然场景下的中文文字识别方法

Info

Publication number: CN106022363A
Application number: CN201610319179.6A
Authority: CN
Inventors: 路通; 刘小龙
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2016-05-12
Filing date: 2016-05-12
Publication date: 2016-10-12
Anticipated expiration: 2036-05-12
Also published as: CN106022363B

Abstract

本发明公开了一种应用于自然场景下的中文文字识别的方法，通过建模训练阶段和文字识别阶段两个阶段进行文字识别。建模训练阶段依次先建立模板文字的树状结构表示，然后合成训练集，再训练卷积神经网络，之后提取节点的深度模板特征，最后建立并训练马尔科夫随机场；文字识别阶段则先对待识别图片进行图片预处理，然后提取输入图片的深度特征，随后最小化马尔科夫随机场能量函数，最后识别文字。本方法在进行文字识别时，同时考虑了文字的局部特征和全局结构，通过将马尔科夫随机场技术与树状结构中节点的深度特征相结合，克服了自然场景下由于文字模糊、形变大对识别效果的影响，提高了识别的效率。

Description

一种适用于自然场景下的中文文字识别方法

技术领域

本发明涉及中文文字的识别方法，尤其涉及一种适用于自然场景下的中文文字的识别方法。

背景技术

文字识别在输入法、车牌识别、税票识别和书籍内容识别等领域有着极高的应用需求。有不少相关的技术已经投入了商业使用，并且取得了较好的效果。但大部分技术都仅限于特定的使用场景，现有技术在自然场景下的文字识别效果并不令人满意。

根据应用场景不同，常见的中文文字识别算法主要分为两类：基于笔画跟踪的方法和基于图片的方法。其中基于笔画跟踪的方法通常用在手机等的中文输入法上。由于自然场景中的文字难以确定笔画位置和笔画顺序，所以这种方法并不适用于自然场景下的文字识别。基于图片的中文文字识别算法主要有二次判别函数分类法、最近邻分类法和卷积神经网络法。二次判别函数分类法和最近邻分类法对图片文字的判别性特征要求较高，而自然场景下的文字常常受到复杂背景、光照和形状扭曲等影响，因此在自然场景下提取的文字特征往往包含很大噪声，所以这两种方法的使用效果并不理想。卷积神经网络法对训练数据的要求较高，如果训练数据的分布不太广泛，它的泛化能力就受到限制，以至于不能识别字形变化较大的文字。

发明内容

为了解决现有中文文字识别方法中存在的不适用于自然场景下的文字识别、识别率低的问题。本发明提出一种可以在自然场景下高效的进行中文文字识别方法。本方法同时利用文字的局部特征和全局结构来识别中文文字，通过将马尔科夫随机场技术与树状结构中节点的深度特征相结合，克服了自然场景下由于文字模糊、形变大对识别效果的影响。具体识别方法如下。

一种适用于自然场景下的中文文字识别方法，其特征在于：通过建模训练阶段和文字识别阶段两个阶段进行文字识别，具体识别步骤如下：

建模训练阶段：

步骤1-1，建立模板文字的树状结构表示；首先，提取模板文字的骨架，找到骨架上所有的端点、交点和转折点，设为节点；两两连接所有节点，以两节点之间的欧氏距离作为连接这两个节点的边所对应的权重，建立带权重的完全无向图；计算该完全无向图的最小生成树{G|(V,S)}，最小生成树{G|(V,S)}即模板文字的树状结构；其中G表示最小生成树，V表示节点集合{V_i|i＝1,2,...,v}，v为节点数量，V_i表示第i个节点，S表示边集合{S_j|j＝1,2,...,s}，s表示边的数量，S_j表示第j条边；

步骤1-2，合成训练集；先将模板文字进行旋转、放射、腐蚀、膨胀变换，得到变形文字；然后将变形文字与不同背景图片融合，每个融合后的变形文字生成一张40×40的灰度图，将该模板文字生成的所有灰度图合成为一个训练集；在合成训练集的同时，跟踪树状结构中的每一个节点在灰度图中位置的变换，记录每个节点在训练集中对应的位置；

步骤1-3，训练卷积神经网络；将训练集中的灰度图打包，然后输入卷积神经网络，卷积神经网络先进行第一层卷积，然后进行最大池化层处理，最大池化层处理后再依次进行第二层卷积和第二层最大池化处理，第二层最大池化处理后输出特征图，接着用两个全连接层对特征图进行处理，最后向后传播梯度以更新卷积神经网络的各层参数。在上述过程进行多次迭代后，卷积神经网络训练完毕。将第二个最大池化层输出的特征图中的像素按从上到下从左到右的顺序编号，节点V_i所对应的像素用编号表示；

步骤1-4，提取节点的深度模板特征；

第1-401步，提取节点V_i在灰度图上的位置坐标(x,y)，找出该节点V_i在特征图上对应的位置(7x/40,7y/40)，读取节点V_i在特征图上对应位置(7x/40,7y/40)的值，即得到节点V_i的特征向量；

第1-402步，按照上述步骤读取节点V_i在每一张灰度图中的位置坐标，通过位置坐标找到该节点所有的特征向量，节点V_i的深度模板特征f_i即该节点所有的特征向量的平均向量；

第1-403步，依次按照上述第401至402步得到该模板文字中所有节点的深度模板特征f_i；

步骤1-5，建立并训练马尔科夫随机场；建立马尔科夫随机场的能量函数E，能量函数E＝E_u+E_p，其中E_u为能量函数的一元项，E_p为能量函数的二元项，

其中，f_i为节点V_i的深度模板特征，表示节点V_i在特征图中对应的像素编号，表示在特征图中对应的特征向量，α_i为权重系数；

E_{p} = Σ_{j = 0}^{s} β_{j} | l_{j} - l_{σ (j)} | + γ_{j} | θ_{j} - θ_{σ (j)} |

其中l_j是树状结构中边S_j的长度，θ_j表示树状结构中边S_j与水平方向的夹角，σ(j)是边S_j在特征图中对应的标号，l_σ(j)表示边S_j在特征图中对应的边的长度，θ_σ(j)表示边S_i在特征图中对应的边与水平方向的夹角，β_j和γ_j为权重系数；

然后训练马尔科夫随机场的能量函数，得到三个权重系数α_i、β_j和γ_j的取值，即完成对这一模板文字的马尔科夫随机场的训练；

步骤1-6，依次按照步骤1-1至步骤1-5的顺序，完成全部模板文字的建模训练；

文字识别阶段：

步骤2-1，图片预处理；将输入的图片转化为待识别灰度图，并把待识别灰度图的尺寸调整为40×40；

步骤2-2，提取输入图片的深度特征；

第2-201步，用建模训练阶段步骤1-3所述的卷积神经网络处理上一步得到的待识别灰度图，保留第二层最大池化处理后的输出，得到待识别灰度图的特征图；

第2-202步，按照建模训练阶段得到的每一类模板文字的能量函数，计算树状结构的节点在待识别特征图中不同像素编号所对应的位置上时的能量函数值；

步骤2-3，最小化马尔科夫随机场能量函数；根据上一步中树状结构的节点在待识别特征图中不同像素编号所对应的位置上时的能量函数值，寻找每一类模板文字的能量函数的最小值；

步骤2-4，匹配文字；比较上一步中各类模板文字的能量函数的最小值，将其中最小的值所对应的模板文字作为识别结果，输出。

如上所述的适用于自然场景下的中文文字识别方法，在建模训练阶段的步骤1-5中，训练马尔科夫随机场的能量函数时使用随机梯度下降方法进行训练。

本发明所述的识别方法，在建模训练阶段的步骤1-6中，所述的全部模板文字包括3500个常用汉字。

本发明所述的识别方法，在所述的建模训练阶段的步骤1-3中，卷积神经网络的结构顺序依次如下：输入层为40×40的灰度图；第一卷积层的过滤器数量为48个，过滤器大小为5×5，步幅设为1，输出结构为48×36×36；第一最大池化层的窗口大小为2×2，步幅为1，输出结构为48×18×18；第二卷积层的过滤器数量为96个，过滤器大小为5×5，步幅设为1，输出结构为96×14×14；第二最大池化层的窗口大小为2×2，步幅为1，输出结构为96×7×7；第一全连接层的输出为1×1000；第二全连接层的输出为1×3500；SoftMax层的输出为1×3500。

本发明所述的适用于自然场景下的中文文字识别方法，在文字识别阶段的步骤2-3中寻找每一类模板文字的能量函数的最小值时使用信念传播算法进行计算。

本方法，首先通过建模训练阶段建立各类模板文字的马尔科夫随机场，即相当于为文字建立的模型。在建模时，先建立模板文字的树状结构，树状结构的节点对应为模板文字中笔画的转折点和端点，得到文字的结构特征。将模板文字中由卷积神经网络训练计算推导出的特征向量表示的局部特征，即深度模板特征，通过一元项中特征向量的形式融合在马尔科夫随机场的能量函数中。类似的，由于马尔科夫随机场的能量函数的二元项中同时考虑了模板文字中节点以及两两连接节点所形成的边之间的角度关系，因此模板文字的全局结构特征得以在能量函数的二元项当中体现。这样一来，通过马尔科夫随机场的能量函数所建立的模板文字模型会同时反映文字的局部特征和全局结构。建模训练时，需要对每个汉字都对应建立一个马尔科夫随机场的模型，每个马尔科夫随机场都对应模板文字中的一个类别，唯一的表示一个汉字。这样，在文字识别阶段进行匹配时，就会同时对文字的局部特征和全局结构特征进行考察，从而避免自然场景下由于文字模糊、形变而造成识别效率低的情况。

本方法将文字识别转变成一个分类问题。本方法中，将常用的3500个汉字对应为3500个类。在本专利中，每一类文字有一个马尔科夫随机场，也就是说，我们为每一类文字分别建立了一个表示该类文字的模型，这个模型就是马尔科夫随机场，3500个汉字就有3500个马尔科夫随机场。每一个马尔科夫随机场都有它自己的能量函数。当给定一张待识别的文字时，我们只需要分别计算这个文字与3500个模型的匹配程度，找到最与之匹配的模型，就可以识别出文字了。本方法通过处理待识别文字得到的最小化的能量函数值来衡量待识别文字与之前训练过的模板文字模型的匹配程度。最小化的能量函数值越低表示待识别文字与模板文字模型的匹配程度越高。最小化的能量函数值最低则表示待识别文字与模板文字模型的匹配程度最高。而匹配的过程就是将模板文字的树状结构中每一个节点恰当的投影到待识别文字的图片中的过程。匹配过程中的不同投影点就是模板文字的树状结构的不同节点，匹配时通过马尔科夫随机场的能量函数来评价匹配程度，以寻找最佳的投影点。对于一个待识别文字，3500个马尔科夫随机场就有各自对应的3500个最小化能量；在这3500个值中找出最小的那个，这个值对应的马尔科夫随机场所代表的那一类文字，就是待识别文字的识别结果。

区别于现有技术，本发明具有如下的有益效果：

本发明通过马尔科夫随机场能量函数的一元项和二元项，将文字的局部特征和全局结构特征结合起来进行建模和匹配比较。这样的方法避免了现有的文字识别技术中对笔画位置和笔画顺序的依赖，使得本方法更适合应用于自然场景中。同时，由于本发明所述的识别方法只需要对待识别图片中文字的结构特征和局部特征进行处理，不需要掌握待识别图片文字的全部判别性特征，因而应用于自然场景下时不需要考虑背景、光照、形状扭曲等对识别特征的影响。而且，由于在建模训练阶段本发明就已经考虑到了自然场景所产生的噪声。本发明在合成训练集时需要对模板文字进行旋转、放射、腐蚀、膨胀变换并且将这些变形文字与不同背景图片融合。这样，在通过卷积神经网络对训练集进行建模训练时就将自然场景中的噪声进行了处理，这样得到的模板文字模型就已经对实际应用中所可能出现的噪声进行了处理。因而，在文字识别阶段将待识别文字与模板文字模型进行匹配时，自然场景中噪声所产生的影响就会减小，采用本方法时，识别效率就会提高。

进一步的，本发明在建模训练阶段的步骤1-5中，使用随机梯度下降方法训练马尔科夫随机场。因为能量函数是凸函数，所以适用梯度下降的方法。随机梯度下降的每一次迭代都随机选取少量的样本计算梯度，因而采用这种方式使得训练效率更高，建模训练过程得以缩短。类似的，本发明在文字识别阶段的步骤2-3中，使用信念传播算法寻找每一类模板文字的能量函数的最小值。由于马尔科夫随机场的无向图是树状的，其中不存在环，所以信念传播算法可以快速的求得能量函数的最小值，从而进一步提高了本方法的识别速度。

由于常用的汉字只有3500个，因而，本发明在对模板文字进行建模训练时只需要针对3500个常用汉字进行建模即可满足一般的识别需求。这样可以减少建模训练所需的时间，降低本方法对识别装置存储容量的要求，进一步降低成本。这样也可以在保证识别效果的前提下减少匹配与识别过程所花的时间，提高识别效率。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和或其他方面的优点将会变得更加清楚。

图1为本发明流程图。

图2举例说明了对文字模板骨架化，在骨架上标记端点、转折点交点，生成文字的树状结构表示等过程。

图3显示了部分合成的训练数据。

图4是卷积神经网络的结构示意图。

具体实施方式：

本发明所述的适用于自然场景下的中文文字识别方法同时利用基于深度卷积神经网络和马尔科夫随机场进行文字识别。深度卷积神经网络负责提取文字的局部特征，马尔科夫随机场从局部特征和文字的结构特征两方面来对文字进行建模。识别时，本方法根据马尔科夫随机场能量函数的最小值来评价待识别文字与模板文字模型的匹配程度，从而识别文字。

下面结合附图对本发明做更加详细的解释：

如图1所示，左侧框表示建模训练阶段的步骤流程，右侧则表示文字识别阶段。本方法的特征在于：通过建模训练阶段和文字识别阶段两个阶段进行文字识别，具体识别步骤如下：

建模训练阶段：

步骤1-1，建立模板文字的树状结构表示；

这一步骤中，首先，提取模板文字的骨架；然后，选取骨架上所有的端点、交点和转折点，设为节点，建立带权重的完全无向图；最后，计算该完全无向图的最小生成树{G|(V,S)}，生成树状结构；此处所谓的骨架就是模板文字的笔画架构，由节点按照笔画链接而成。

步骤1-2，合成训练集；

步骤1-3，训练卷积神经网络；

步骤1-4，提取节点的深度模板特征；

步骤1-5，建立并训练马尔科夫随机场；此处可使用随机梯度下降方法训练马尔科夫随机场。随机梯度下降的每一次迭代都随机选取少量的样本计算梯度，因而采用这种方式使得训练效率更高，建模训练过程得以缩短。

步骤1-6，依次按照步骤1-1至步骤1-5的顺序，完成全部模板文字的建模训练。这里，出于效率考虑，针对一般的识别需求，只需要对常用的3500个常用汉字进行建模训练即可。这样一来节省了模板文字模型的存储要求，另一方面也节省了建模训练的时间以及设计成本。

文字识别阶段：

步骤2-1，图片预处理；

步骤2-2，提取输入图片的深度特征；

步骤2-3，最小化马尔科夫随机场能量函数；

具体而言，以图2中的“中”字为例，图2(a)首先给出了模板文字，建模训练阶段中，各步骤具体实现如下：

步骤1-1，建立模板文字的树状结构表示。首先，提取模板文字的骨架，得到图2(b)中的结构。然后，寻找骨架上所有的端点、交点和转折点，设为节点。具体的8个节点如图2(c)所示，包括上下2个端点，左右4个转折点，中间2个交点。两两连接所有节点，以两节点之间的欧氏距离作为连接这两个节点的边所对应的权重，建立带权重的完全无向图。最后，计算该完全无向图的最小生成树{G|(V,S)}，最小生成树{G|(V,S)}即模板文字的树状结构；以“中”字为例，其最小生成树G包含8个节点和7条边，V表示节点集合{V_i|i＝1,2,...,8}，S表示边集合{S_j|i＝1,2,...,7}。

步骤1-2，合成训练集。先将模板文字进行旋转、仿射、腐蚀、膨胀变换，得到变形文字；然后将变形文字与不同背景图片融合，每个融合后的变形文字生成一张40×40的灰度图，将该模板文字生成的所有灰度图合成为一个训练集；在合成训练集的同时，跟踪树状结构中的每一个节点在灰度图中位置的变换，记录每个节点在训练集中对应的位置。图3显示了部分模板文字进行合成后形成的灰度图。

其中，旋转即将模板文字旋转一定角度；仿射即将模板文字按照一定角度进行拉伸变化；腐蚀即遮盖模板文字某些笔画中的一部分；膨胀即将模板文字进行扩张变形。所谓的跟踪树状结构中每一个节点在灰度图中位置的变换，就是指，在进行模板文字变换的时候同时保存个节点在不同变换状态下的位置坐标，保存下各节点在变形状态下的位置关系，以便后续卷积神经网络及后续的步骤提取节点的深度模板特征。理论上融合的背景图片可以有无数多个，实际建模训练中，我们仅选取了几种常见的背景进行融合处理。

步骤1-3，训练卷积神经网络。将训练集中的灰度图打包，然后输入卷积神经网络，卷积神经网络先进行第一层卷积，然后进行最大池化层处理，最大池化层处理后再依次进行第二层卷积和第二层最大池化处理，第二层最大池化处理后输出特征图，接着用两个全连接层对特征图进行处理，最后向后传播梯度以更新卷积神经网络的各层参数。在上述过程进行多次迭代后，卷积神经网络训练完毕。将第二个最大池化层输出的特征图中的像素按从上到下从左到右的顺序编号，节点V_i所对应的像素用编号表示。

其中卷积神经网络的具体结构参见图4：输入层为40×40的灰度图—第一卷积层(48×36×36)—第一最大池化层(48×18×18)—第二卷积层(96×14×14)—第二最大池化层(96×7×7)—第一全连接层(1000)—第二全连接层(3500)—SoftMax层(3500)。其中，第一个卷积层的过滤器数量为48个，过滤器大小为5×5，步幅设为1。两个池化层都使用最大池化，窗口大小为2×2，步幅为1。第二个卷积层的过滤器数量为96个，过滤器大小为5×5，步幅设为1。第二池化层与第一个相同。紧接着是两个全连接层。最后一个是SoftMax层，3500对应的是文字的类别数量。卷积神经网络的训练数据来自于上一步所合成的训练集，使用后向传播方法进行训练。

步骤1-4，提取节点的深度模板特征。本步骤具体需要进行如下三步的处理：

第1-401步，提取节点V_i在灰度图上的位置坐标(x,y)，找出该节点V_i在特征图上对应的位置(7x/40,7y/40)，读取节点V_i在特征图上对应位置(7x/40,7y/40)的值，即得到节点V_i的特征向量。由于步骤1-3中各图片在第二个最大池化层的输出为7×7的96通道的特征图，因而，对应节点V_i的特征向量的维度为96维。

步骤1-5，建立并训练马尔科夫随机场。建立马尔科夫随机场的能量函数E，能量函数E＝E_u+E_p，其中E_u为能量函数的一元项，E_p为能量函数的二元项，

E_{p} = Σ_{j = 0}^{s} β_{j} | l_{j} - l_{σ (j)} | + γ_{j} | θ_{j} - θ_{σ (j)} |

其中l_j是树状结构中边S_j的长度，θ_j表示树状结构中边S_j与水平方向的夹角，σ(j)是边S_j在特征图中对应的标号，l_σ(j)表示边S_j在特征图中对应的边的长度，θ_σ(j)表示边S_j在特征图中对应的边与水平方向的夹角，β_j和γ_j为权重系数；二元项通过边的长度和角度可以表示出树状结构中的边的长度和角度变化。

步骤1-6，依次按照步骤1-1至步骤1-5的顺序，完成全部模板文字的建模训练。

利用马尔科夫随机场建立的模板文字模型中的一元项采用了特征向量表示模板文字的局部特征。而同时将模板文字中节点以及两两连接节点所形成的边之间的角度关系则通过马尔科夫随机场的能量函数的二元项表示，因此使得模板文字的全局结构特征得以在能量函数的二元项当中体现。这样一来，通过马尔科夫随机场的能量函数所建立的模板文字模型会同时反映文字的局部特征和全局结构。

文字识别阶段中，各步骤具体实现如下：

步骤2-1，图片预处理。将输入的图片转化为待识别灰度图，并把待识别灰度图的尺寸调整为40×40；

步骤2-2，提取输入图片的深度特征。具体步骤如下：

第2-202步，按照建模训练阶段得到的每一类模板文字的能量函数，计算树状结构的节点在待识别特征图中不同像素编号所对应的位置上时的能量函数值。

能量函数由一元项和二元项相加得到。一元项中的f_i(节点V_i的深度模板特征)已通过建模训练阶段的步骤1-4得到计算得到。二元项中的l_j(树状结构中边S_j的长度)和θ_j(树状结构中边S_j与水平方向的夹角)由文字的树状结构决定。一元项的权重系数α和二元项的权重系数β,γ均已通过建模训练阶段的步骤1-5的训练得出。这些参数在能量函数中是作为常数存在的。由于树状结构的边由对应的两个节点相连而得到，即可以通过边两端的两个节点唯一确定，也就是说，二元项中的θ_σ(j)和l_σ(j)均由一元项中的确定。因此能量函数的值就只与树状结构的节点在待识别特征图中不同像素编号有关。是96维的深度特征向量，由卷积神经网络第二个最大池化层输出得到。l_σ(j)和θ_σ(j)均通过所确定的边的对应关系计算得到。通过改变的取值，可以得到能量函数在不同下的取值，这个值用来评价在这种对应关系下测试文字与模型的匹配程度。能量函数的值越小就说明匹配程度越高。

步骤2-3，最小化马尔科夫随机场能量函数；根据上一步中树状结构的节点在待识别特征图中不同像素编号所对应的位置上时的能量函数值，寻找每一类模板文字的能量函数的最小值。本步骤中利用信念传播算法求解马尔科夫随机场的能量函数在不同下的最小值。这个最小值对应于模板文字的树状结构与待识别文字的最佳匹配状态，用来衡量马尔科夫随机场所表示的文字模型与待识别文字的匹配程度。

信念传播算法的具体计算步骤可参考Christopher在2006年由Springer出版的《Pattern recognition and machine learning》一书，其所公开的内容整体作为参考而引入至此。

所有马尔科夫随机场的最小化能量函数值中取值最小就表示这个模板文字与待识别文字的匹配程度最高，这个值对应的马尔科夫随机场所表示的文字类别就是待识别图片的识别结果。

本领域普通技术人员可以理解：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种适用于自然场景下的中文文字识别方法，其特征在于：通过建模训练阶段和文字识别阶段两个阶段进行文字识别，具体识别步骤如下：

建模训练阶段：

步骤1-1，建立模板文字的树状结构表示；首先，提取模板文字的骨架，找到骨架上所有的端点、交点和转折点，设为节点；两两连接所有节点，以两节点之间的欧氏距离作为连接这两个节点的边所对应的权重，建立带权重的完全无向图；计算该完全无向图的最小生成树{G|(V,S)}，最小生成树{G|(V,S)}即模板文字的树状结构；其中G表示最小生成树，V表示节点集合{V_i|i＝1,2,...,v}，v为节点数量，V_i表示第i个节点，S表示边集合{S_j|j＝1,2,...,s}，s为边的数量，S_j表示第j条边，i和j均为整数；

步骤1-2，合成训练集；先将模板文字进行旋转、仿射、腐蚀、膨胀变换，得到变形文字；然后将变形文字与不同背景图片融合，每个融合后的变形文字生成一张40×40的灰度图，将该模板文字生成的所有灰度图合成为一个训练集；在合成训练集的同时，跟踪树状结构中的每一个节点在灰度图中位置的变换，记录每个节点在训练集中对应的位置；

步骤1-3，训练卷积神经网络；将训练集中的灰度图打包，然后输入卷积神经网络，卷积神经网络先进行第一层卷积，然后进行最大池化层处理，最大池化层处理后再依次进行第二层卷积和第二层最大池化处理，第二层最大池化处理后输出特征图，接着用两个全连接层对特征图进行处理，最后向后传播梯度以更新卷积神经网络的各层参数；在上述过程进行多次迭代后，卷积神经网络训练完毕；将第二个最大池化层输出的特征图中的像素按从上到下从左到右的顺序编号，节点V_i所对应的像素用编号表示；

步骤1-4，提取节点的深度模板特征；

其中l_j是树状结构中边S_j的长度，θ_j表示树状结构中边S_j与水平方向的夹角，σ(j)是边S_j在特征图中对应的标号，l_σ(j)表示边S_j在特征图中对应的边的长度，θ_σ(j)表示边S_j在特征图中对应的边与水平方向的夹角，β_j和γ_j为权重系数；

文字识别阶段：

步骤2-2，提取输入图片的深度特征；

2.根据权利要求1所述的适用于自然场景下的中文文字识别方法，其特征在于，所述的建模训练阶段的步骤1-5中，训练马尔科夫随机场的能量函数时使用随机梯度下降方法进行训练。

3.根据权利要求1所述的适用于自然场景下的中文文字识别方法，其特征在于，所述的建模训练阶段的步骤1-6所述的全部模板文字包括3500个常用汉字。

4.根据权利要求1所述的适用于自然场景下的中文文字识别方法，其特征在于，所述的建模训练阶段的步骤1-3中，卷积神经网络的结构顺序依次如下：输入层为40×40的灰度图；第一卷积层的过滤器数量为48个，过滤器大小为5×5，步幅设为1，输出结构为48×36×36；第一最大池化层的窗口大小为2×2，步幅为1，输出结构为48×18×18；第二卷积层的过滤器数量为96个，过滤器大小为5×5，步幅设为1，输出结构为96×14×14；第二最大池化层的窗口大小为2×2，步幅为1，输出结构为96×7×7；第一全连接层的输出为1×1000；第二全连接层的输出为1×3500；SoftMax层的输出为1×3500。

5.根据权利要求1所述的适用于自然场景下的中文文字识别方法，其特征在于，所述的文字识别阶段的步骤2-3中寻找每一类模板文字的能量函数的最小值时使用信念传播算法进行计算。