CN112329760A

CN112329760A - 基于空间变换网络端到端印刷体蒙古文识别翻译的方法

Info

Publication number: CN112329760A
Application number: CN202011290754.7A
Authority: CN
Inventors: 苏依拉; 崔少东; 程永坤; 仁庆道尔吉; 李雷孝; 石宝
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-02-05
Anticipated expiration: 2040-11-17
Also published as: CN112329760B

Abstract

本发明一种基于空间变换网络端到端印刷体蒙古文识别翻译的方法，从蒙古文字的特点出发，使用四阶段的文字识别网络对蒙古文进行识别，空间变换阶段使用空间变换网络对蒙古文字图片进行标准化，其次，综合上下文信息使用CBAM‑GRCNN提取文字特征，以及使用Mogrifier LSTM进行序列建模。在预测阶段，使用聚焦注意力机制解决注意力漂移问题，并结合GRU网络进行预测；在翻译过程中，采用Reformer模型，Reformer模型通过将传统的多头注意力机制改为基于局部敏感哈希的注意力机制，以及将传统残差网络替换为可逆残差网络，并对前馈网络进行分块，从而降低模型的时间与空间复杂度，缓解训练长序列数据内存不足、速度慢的问题。

Description

基于空间变换网络端到端印刷体蒙古文识别翻译的方法

技术领域

本发明属于光学字符识别(OCR)与机器翻译技术领域，特别涉及一种基于空间变换网络端到端印刷体蒙古文识别翻译的方法。

背景技术

光学字符识别是利用计算机将图片中的文字提取为文本的一种技术，是解决图片转文字问题的最有效手段之一，机器翻译能够将一种语言转换为目标语言，是解决语言障碍的有效方式。随着深度学习的日渐发展，使用深度学习进行光学字符识别任务与机器翻译任务已成为主流，谷歌、百度、有道等针对光学字符识别与机器翻译进行了大量研究，并已开发出实用化的应用程序。

在端到端文字识别网络与序列到序列文字识别网络出现前，印刷体蒙古文识别网络多采用BP、CNN等网络进行文字识别，但传统蒙古语的词汇量巨大，日常使用的词汇可达数十万个。若使用分类器来对每个单词进行分类时不可能的，且不能识别词汇表以外的单词。为了解决上面所述的问题，目前主流方法是使用端到端的网络或者序列到序列的网络对文字进行识别，这两种网络将输入单词图像看作一个图像帧序列，而将输出单词视为一个字母序列。网络可以获得字母和字形之间的关系，先识别字母，然后将其组合成单词。2019年，Weiyuan Wang等人基于双向LSTM和CTC提出端到端的蒙古文印刷体识别。该项工作将蒙古文OCR转换为一个序列到序列的映射问题，无需对蒙古文单词进行切分，LSTM网络将输入图片编码为多维向量，CTC网络将LSTM网络的输出转换为识别结果。该模型可以解决蒙古文数据词汇量不足问题。

在翻译方面，谷歌研究人员提出Transformer模型，一种只使用注意力机制的机器翻译模型。该模型摒弃了传统的编码器-解码器模型必须结合RNN或者CNN的固有模式，使用完全基于注意力机制的方式，在主流语料上达到了不错的效果。

目前光学字符识别在主流语言方面已经发展成熟，且对扭曲变形的文字有着良好的识别率，但在小语种方面研究较少，尤其是数据库严重缺乏，识别翻译没有达到很好的效果。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种基于空间变换网络端到端印刷体蒙古文识别翻译的方法，使用空间变换网络对数据进行标准化，可以识别扭曲变形的蒙古文字，并可同步将识别出的蒙古文翻译为中文，同时更易于并行化，并且需要更少的时间进行训练。

为了实现上述目的，本发明采用的技术方案是：

一种基于空间变换网络端到端印刷体蒙古文识别翻译的方法，包括：

文字识别，利用基于空间变换网络端到端的印刷体蒙古文识别网络实现，由空间变换、特征提取、序列建模、预测四个阶段组成，其中所述空间变换阶段是利用空间变换网络与薄板样条插值将倾斜扭曲的文本图像矫正，对蒙古文字图片进行标准化，为后续网络训练提供良好的输入；特征提取阶段由CBAM-GRCNN网络实现，负责提取图像中的文字特征，同时抑制不相关的特征，CBAM从空间上与通道上分别关注图像特征，GRCNN使用门结构控制RCL中的上下文信息，同时平衡前馈信息和循环信息；序列建模阶段由Mogrifier LSTM网络实现，负责捕获字符序列中的上下文信息，以便更好地预测每个字符，而不是独立进行预测；预测阶段由聚焦注意力网络与GRU实现，负责根据图像特征预测输出字符序列；

文字翻译，利用Reformer模型，将识别出的蒙古文翻译为汉语。

在文字识别之前，为便于深度学习神经网络更好地提取特征，先对数据进行预处理，所述对数据进行预处理是对印刷体蒙古文进行版面分析以及分割。

所述空间变换网络是一种基于仿射变换的、利用神经网络进行自适应校正的架构，所述仿射变换包含平移、缩放、旋转、错切四种图像变换操作，空间变换网络关注图像区域最主要的特征，抑制图像背景，提高分类性能，该网络使用反向传播算法进行训练，或进行端到端的训练；

所述CBAM-GRCNN网络使用基于卷积注意力模块与门结构的循环卷积层分别从通道与空间上提取图像特征；

所述Mogrifier LSTM网络是使当前时间的输入x_t和上一个时间的隐藏状态h_t-1在输入LSTM网络之前先进行多次交互，然后将交互后得的向量再作为LSTM网络的输入，从而增强整体模型的上下文建模能力，Mogrifier LSTM网络，通过前馈输入跟隐藏状态的相互交互，能够获得对上下文相关的表达；

所述聚焦注意力网络通过在注意力模块添加局部的监督信息来促使注意力特征与实际标签序列的对齐，主要包括两个步骤：1)，计算每个预测标签的注意力中心；2)，通过在注意力区域生成概率分布，将注意力集中到目标区域中。

所述空间变换网络包含定位网络、网格生成器、网格采样器三部分，定位网络用于从输入的原始图像或特征图中估计仿射变换的参数矩阵，采样网格生成器通过对一个固定的、均匀的网格应用仿射变换以生成采样网格，网格采样器则使用薄板样条插值算法，根据采样网格对输入图像进行采样，以最终实现自适应校正功能；

所述CBAM是卷积神经网络的注意力模块，CBAM从通道和空间两个维度计算卷积神经网络生成的特征图的注意力图，然后将注意力图与特征图相乘，进行特征的自适应学习，对特征重新赋予权重，权重高的特征即注意力的注意点；GRCNN是加入门结构的循环卷积神经网络，其用于抑制上下文无关信息，更好地平衡上下文信息。

所述Reformer模型基于局部敏感哈希的注意力机制，并将可逆残差网络(RevNet)加入到Transformer以减少参数对内存的占用，对Transformer中前馈网络分段处理，以减少在全连接层的内存占用量。

所述Reformer模型基于编码器－解码器框架搭建，主要由词向量编码模块、位置编码模块、编码器和解码器组成，其中编码器由多个编码器子模块堆叠而成，每个编码器子模块中包含一个多头多轮局部敏感哈希注意力层和一个分块前馈网络，在多头多轮局部敏感哈希注意力层和分块前馈网络之后均设置有输出可逆残差层和层标准化层；解码器由多个解码器子模块堆叠组成，每个解码器子模块除包含多头多轮局部敏感哈希注意力层和分块前馈网络之外，还在可逆残差层与层标准化层之前增加一层共享查询关键字向量自掩码层，在多头多轮局部敏感哈希注意力层、分块前馈网络以及共享查询关键字向量自掩码层之后均设置有输出可逆残差层和层标准化层。

与现有技术相比，本发明的有益效果是：

1、本发明使用四阶段端到端的文字识别网络作为印刷体蒙古文识别模型，因为它无需对蒙古文字进行分割，同时可以识别出数据集以外的文字，从而提升识别准确率。

2、本发明以印刷体蒙古文为研究对象，针对倾斜扭曲变形的蒙古文图片识别困难的问题，拟使用空间变换网络对输入进行标准化，为后续的模型训练提供有力的支持。

3、本发明针对上下文信息平衡问题，在特征提取层使用带有门结构的循环卷积层GRCNN提取图像特征，通过使用门结构来控制RCL中的上下文信息，同时平衡前馈信息和循环信息，并使用CBAM机制关注图像特征。

4、本发明针对注意力漂移(attention drift)问题，使用聚焦注意力网络(Focusing Attention Network))结合GRU对序列建模阶段的特征进行预测，得到识别结果。

5、本发明针对Transformer模型多头注意力机制计算时间复杂度高的问题，使用基于局部敏感哈希的注意力机制。局部敏感哈希通过使用哈希函数将超大集合划分为多个较小的子集，每个子集中的元素个数较小且相邻，查找数据时先找到查询点所在的子集空间，然后在子集空间内进行查找，这样便将在超大集合内查找相邻元素的问题转化为在小集合内查找相邻元素的问题，大幅减少了查找时间与计算量。

6、本发明针对Transformer模型中ResNet层数加深后，需要储存每一层的输入用于反向传播，导致内存消耗过大的问题，将可逆残差网络加入到Transformer里面来减少参数对内存的占用。采用这种方式，不需要记录中间层的输入，而只需储存最后一层的输出，从而通过模型的特定结构，反推出中间层的结果

7、本发明针对Transformer模型中FFN的全连接层内存占用量问题，对FFN进行分段的处理。

附图说明

图1为端到端的四阶段印刷体蒙古文识别流程示意图。

图2为基于Reformer的蒙汉翻译流程示意图。

图3为空间变换网络架构示意图。

图4为卷积注意力模块示意图。

图5为GRCL架构示意图。

图6为5轮更新的Mogrifier LSTM示意图。

图7为聚焦注意力机制原理示意图。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明一种基于空间变换网络端到端印刷体蒙古文识别翻译的方法，包括文字识别和文字翻译两大步骤。并且，在文字识别之前，为便于深度学习神经网络更好地提取特征，可先对数据进行预处理，预处理主要是对印刷体蒙古文进行版面分析以及分割。

文字识别利用基于空间变换网络端到端的印刷体蒙古文识别网络实现，参考图1，本发明从蒙古文字的特点出发，由空间变换(Trans.)、特征提取(Feat.)、序列建模(Seq.)、预测(Pred.)四个阶段实现识别，其中空间变换阶段是利用空间变换网络与薄板样条插值将倾斜扭曲的文本图像矫正，对蒙古文字图片进行标准化、规范化，为后续网络训练提供良好的输入；特征提取阶段由CBAM-GRCNN网络实现，综合上下文信息提取图像中的文字特征，同时抑制不相关的特征，如字体、颜色、大小、背景，CBAM从空间上与通道上分别关注图像特征，GRCNN使用门结构控制RCL中的上下文信息，同时平衡前馈信息和循环信息；序列建模阶段由Mogrifier LSTM网络实现，负责捕获字符序列中的上下文信息，以便更好地预测每个字符，而不是独立进行预测；预测阶段由聚焦注意力网络与GRU实现，负责根据图像特征预测输出字符序列，聚焦注意力机制能够较好地解决注意力漂移问题，提升模型识别准确率，结合GRU网络可进行预测。

在文字翻译环节，为解决Transformer模型空间与时间复杂度高的问题，利用Reformer模型进行蒙汉翻译，将识别出的蒙古文翻译为汉语。参考图2，Reformer模型将传统的多头注意力机制改为基于局部敏感哈希的注意力机制(locality-sensitve hashing(LSH)attention)，以及将可逆残差网络(RevNet)的思想加入到Transformer里面来减少参数对内存的占用，对Transformer中前馈网络(feed forward neural network，FFN)分段处理，因为FFN中的输入之间互相独立，进行分段的处理可以减少在全连接层的内存占用量。RevNet的提出是为解决ResNet层数加深后，需要储存每一层的输入用于反向传播，导致内存消耗过大的问题。在Transformer中也存在相同的问题，采用这种方式，不需要记录中间层的输入，而只需储存最后一层的输出，从而通过模型的特定结构，反推出中间层的结果。Reformer使用以上三个方法将Transformer的复杂度由O(L²)降低为O(LlogL)，同时模型表现效果与Transformer几乎相同。Reformer模型可降低模型的时间与空间复杂度，缓解训练长序列数据内存不足、速度慢的问题。

具体地，Reformer模型与Transformer模型类似，是基于编码器－解码器框架搭建的，模型主要由词向量(Word Embedding)编码模块、位置编码模块(PositionalEmbedding)、编码器(Encoder)和解码器(Decoder)组成，其中编码器是由多个编码器子模块堆叠而成的，每个编码器子模块中包含一个多头多轮局部敏感哈希注意力层(Multi-Round LSH Attention)和一个分块前馈网络(Chunking Feed Forward)，在这两个子层之后均设置有输出可逆残差层和层标准化层，以进行输出可逆残差连接和层标准化(LayerNormalization)操作。解码器结构与编码器类似，也是由多个解码器子模块堆叠组成，每个解码器子模块除包含多头多轮局部敏感哈希注意力层和分块前馈网络之外，还在二者之前增加一层共享查询关键字向量自掩码层(Causal Masking For Shared-QK Attention)，增加掩码的目的是为在解码时预测当前词只与前面解码出的词有关系，从而使模型的训练和预测保持一致。同样的，在解码器子模块中的上述三个子层之后，均设置有输出可逆残差层和层标准化层，保证模型的正常收敛。

其中，空间变换网络是一种基于仿射变换的、利用神经网络进行自应校正的架构，仿射变换包含平移、缩放、旋转、错切四种图像变换操作，空间变换网络关注图像区域最主要的特征，抑制图像背景，提高分类性能，同时该网络可以使用反向传播算法进行训练，也可进行端到端的训练。参考图3，一个完整的空间变换网络(STN)模块包含定位网络、网格生成器、网格采样器三部分，定位网络用于从输入的原始图像或特征图中估计仿射变换的参数矩阵A，采样网格生成器通过对一个固定的、均匀的网格G₀应用参数为A的仿射变换以生成采样网格G，网格采样器则使用薄板样条插值算法(TPS)，根据采样网格G对输入图像I进行采样，以最终实现STN的自适应校正功能。空间变换网络在训练过程中几乎与原有的网络模型训练时间相同，它相当于一个加入的组件块，该组件块的空间变换能力对训练数据的旋转、平移、尺度变换、扭曲等多样性有很好的纠正能力提升了网络的学习能力。

CBAM-GRCNN网络使用基于卷积注意力模块与门结构的循环卷积层分别从通道与空间上提取图像特征，通过使用门结构来控制RCL中的上下文信息，同时平衡前馈信息和循环信息；卷积块注意力模型(Convolutional Block Attention Module，CBAM)，是一种为卷积神经网络设计的简单有效的注意力模块，CBAM从通道和空间两个维度计算卷积神经网络生成的特征图的注意力图，然后将注意力图与特征图相乘，进行特征的自适应学习，对特征重新赋予权重，权重高的特征即注意力的注意点；这种通道信息与空间信息两个维度相结合的学习方式，可以强调局部关键特征，抑制无关特征，增强网络表达特征的能力。

循环卷积神经网络在卷积神经网络的基础上引入循环连接，循环连接在不同的位置共享权值且具有局部连通性。随着循环连接次数不断增加，循环卷积层中的每个单元可以体现更丰富的上下文信息。通过将门结构加入到RCNN中，可以抑制上下文无关信息，更好的平衡上下文信息，加入门结构的循环卷积神经网络称为GRCNN。

图4所示为卷积注意力模块。卷积注意力模块主要由通道注意力模块和空间注意力模块组成。输入特征图F分别经过全局最大池化和全局平均池化，之后将其输入到多层感知器，将多层感知器输出的两个特征向量相加并使用sigmoid进行激活，得到通道注意力矩阵M_c。将通道注意力权重矩阵与输入特征图F点乘生成通道注意力模块的特征图F'。空间注意力模块首先在通道维度上采用最大池化和平均池化对特征图F'进行处理，之后将两个特征图串行联结为一个特征图，使用卷积层进一步提取特征，最后经过sigmoid函数进行激活，生成空间注意力特征矩阵M_s。将空间注意力特征矩阵和特征图F'进行点乘，得到特征图F”，将输入的特征图F与经过CBAM的特征图F”相加得到下一层卷积的输入。

图5所示为T＝2时的GRCL架构。当t＝0时，只进行前馈计算，当t＝1时，由前馈输入与t＝0时的步长状态决定门的输出并作用于循环组件。当所有门的输出为1时，网络变为RCL，当所有门的输出为0时，循环信号丢失，网络成为卷积层。GRCL是RCL的一种变体，可以动态的调整上下文信息，且上层特征图中每个GRCL单元的有效感受野随网络迭代次数增加而变大。

Mogrifier LSTM网络是LSTM的进一步优化，其通过前馈输入跟隐藏状态的相互交互能够获得对上下文相关的表达，从而解决上下文不相关问题。Mogrifier LSTM并不是对LSTM作出真正意义上的修改或者形变，只是使当前时间的输入x_t和上一个时间的隐藏状态h_t-1在输入LSTM网络之前先进行多次交互，然后将交互后得的向量再作为LSTM网络的输入，通过这种预交互的方法可以增强整体模型的上下文建模能力。

图6所示为5轮更新的Mogrifier LSTM。前一状态h₀＝h_prev与门x^-1＝x通过sigmoid激活函数产生x¹。线性变换x¹与门h⁰产生h²，在多次重复门控循环后，h^*与x^*序列最后的值被输入到一个LSTM细胞。

聚焦注意力网络通过在注意力模块添加局部的监督信息来促使注意力特征与实际标签序列的对齐，在一定程度上解决了注意力漂移问题。该过程主要包括两个步骤：1)，计算每个预测标签的注意力中心；2)，通过在注意力区域生成概率分布，将注意力集中到目标区域中。

图7所示为聚焦注意力机制原理。a,c,g,+分别表示校准因子，每个特征在输入图像的中心，瞥见向量和聚焦操作，蓝色网格和绿色网格分别表示每个像素上的裁剪特征与预测结果。为了预测第t-th目标，首先对CNN-LSTM中每个特征向量h_j求中心位置c_t,j，然后计算所有中心的加权和，得到一个加权位置c_t，然后从输入图像或卷积输出中裁剪一小块特征，并对关注区域进行聚焦操作。

具体地，本发明的完整流程包括：

1、端到端的四阶段印刷体蒙古文识别网络，包括以下几个部分：

A、空间变换阶段

空间变换阶段采用空间变换网络对输入图片进行矫正，使得网络在不需要数据增强的情况下，根据具体任务自适应地完成图像数据的变换、对齐等操作，增强网络的空间不变性，提高识别的准确性。空间变换网络主要由定位网络、网格生成器、网格采样器三部分组成。

定位网络的目的是得到空间变换所需的参数λ，输入为特征图U∈R^H×W×C，其中，H为特征图的高，W为特征图的宽，C为特征图的通道数，λ为输出变换参数。之后，具有参数λ的变换函数T_λ(G)将作用于原图。定位网络由全连接层构成，最后包含一个回归层产生变换参数。

网格生成器的主要任务为生成参数化的采样网格，为了对输入执行变换，通过对输入图像的特定位置应用采样核来计算每个输出像素。输出像素被定义在规则网格上G＝{G_i}，像素

输出像素的集合形成输出图像M∈R^H'×W'×C，其中H'和W'分别为输出网格的高度和宽度，输入和输出的通道数一致。

上式中：

为规则网格的目标坐标；

为输入图像的源坐标，它定义了所需的采样点，网络根据坐标采样以获得期望的变换输出。网格生成器首先创建形状为(H,W)的归一化网格，即覆盖整个输入的一组索引

由于算法应用了2D仿射变换，将定位网络生成的参数λ重塑为2×3矩阵，并执行上式的乘法运算，从而产生所需的参数化采样网格。

使用如下变换找到输入图像中感兴趣的区域，如下：

上式允许通过改变V、t_x和t_y来进行裁剪、平移和缩放操作。

采样器利用采样网格和输入的特征图同时作为输入产生输出，并通过采样核对输入特征图中的像素进行采样，将采样的像素值放入输出特征图中对应的坐标位置。公式如下：

其中，V_i ^c表示输出的特征图，

表示输入特征图中坐标为(n,m)的像素值，k(·)表示采样函数，通过薄板样条插值法来获取输出特征图中每个像素点。

薄板样条插值法将插值问题模拟为一个薄金属板在点约束下的弯曲变形。用离散点数据插值得到曲面，薄板样条插值具有光滑、连续、弹性好的特点。

假设在空间X内分布有N个已知点集M_i，i＝1,2,…,n，其坐标为(x_i,y_i,W(x_i,y_i))。根据弹性力学理论，负载和变形的关系

可推导出薄板样条插值函数，如下式：

其中，a₀,a₁,a₂,F_i(i＝1,2,…,n)为待定系数；ψ为调节曲率大小的经验参数；r_i ²为待插点到已知点距离的平方：

r_i ²＝(x-x_i)²+(y-y_i)²

上式中的n+3个未知数可以通过下式求得：

其中，c_j＝16πD/k_j，k_j是关于点j的弹性常数，一般取c_j＝0，以使求出的曲面样条函数在已知点与原始数据吻合。

对上述方程组求解，得到待定参数值后，即可求得平面内任一点的近似值W(x,y)。

B、卷积注意力模块

卷积注意力模块包括通道注意力模块和空间注意力模块，下面分别对其进行讨论。

(1)通道注意力模块

输入特征图F分别经过全局最大池化和全局平均池化，得到两个1×1×N的特征向量，之后将其输入到多层感知器，将多层感知器输出的两个特征向量相加并使用sigmoid进行激活，得到通道注意力矩阵M_c。通道注意力矩阵可以表示为通道的权重，输入特征图中重要信息所占通道权重大，不重要信息所占通道权重小。将通道注意力权重矩阵与输入特征图F点乘生成通道注意力模块的特征图F'。

通道注意力模块运算过程如下公式：

M_c(F)＝σ(MLP(AvgPoll(F))+MLP(MaxPoll(F)))

F'＝M_c(F)×F

其中，F为输入特征图，σ为sigmoid激活函数，MLP为多层感知器，Avgpoll为平均池化，Maxpoll为最大池化，M_c为通道注意力矩阵，F'为通道注意力机制输出的特征。

(2)空间注意力模块

空间注意力模块首先在通道维度上采用最大池化和平均池化对特征图F'进行处理，之后将两个W×H×1的特征图串行联结为一个W×H×2的特征图，使用卷积层进一步提取特征，得到W×H×1的特征图，最后经过sigmoid函数进行激活，生成空间注意力特征矩阵M_s。空间注意力特征矩阵表示为每个像素所占通道的权重，具有重要信息的像素所占通道权重大，具有不重要信息的像素所占通道权重小。将空间注意力特征矩阵和特征图F'进行点乘，得到特征图F”，将输入的特征图F与经过CBAM的特征图F”相加得到下一层卷积的输入。

空间注意力模块运算过程如下式：

M_s(F')＝σ(f[AvgPoll(F')；MaxPoll(F')])

F”＝M_s(F')×F'

其中，f为卷积层，；为串行联结，M_s为空间注意力模块，F”为空间注意力机制输出特征。

经过卷积注意力模块，网络更加关注重要的局部特征，过滤不重要的局部特征，增强网络对特征的学习能力。

C、特征提取阶段使用GRCNN网络提取标准化后的图像特征，RCNN模型通过在前馈输入与时间域上展开研究，尽可能的获取上下文信息。在时间域上展开的RCNN是一个从输入层到输出层之间有多条路径的CNN，这个模块称之为循环卷积层。

一个具有前馈输入ω_t的RNN模型，内部状态x_t公式如下：

其中，函数

表示非线性的RNN，例如ReLU，θ为参数，RCL的状态随离散时间步长变化而变化，公式如下：

其中*表示卷积，ω(t)和x(t-1)分别为前馈输入与循环输入，w^f和w^r分别表示前馈权重与循环权重。

门控循环卷积层(GRCL)是GRCNN的基本模块，这个模块使用门来控制RCL的上下文信息，可以抑制无关的上下文信息，GRCL的门可以如下式表示：

使用两个1×1的卷积核，分别对前馈输入与循环输入进行卷积，

表示门的前馈权重，

表示门的循环权重，循环权重在所有时间步长上共享权重，BN代表批归一化层，用来提高性能和加速收敛，GRCL可以表示为：

上式中，⊙为element-wise乘法，BN在每个卷积操作与element-wise后应用，在不同的时间步长上，BN的参数与统计量不共享。

D、序列建模阶段使用Mogrifier LSTM网络。Mogrifier LSTM的主要方法是在LSTM计算之前，交替地让x_t和h_t-1交互，简写为

其中，r₁和r₂分别表示x_t与h_t-1的交互次数。

向量交互更新公式如下：

xⁱ＝2σ(Qⁱh^i-1)x^i-2 for odd i∈[1...r]

hⁱ＝2σ(Rⁱx^i-1)h^i-2 for even i∈[1...r]

其中，轮数r为超参数，r＝0时模型退化为LSTM，矩阵Qⁱ,Rⁱ为随机初始化矩阵，式中乘以一个常数2，是因为经过sigmoid激活函数后，其值分布在(0,1)，这样反复乘下去，值会逐渐趋近于0。因此乘以一个2保证其数值的稳定性。

E、预测阶段使用聚焦注意力机制与GRU，聚焦注意力网络主要包括两个步骤：1.计算注意力中心2.关注目标区域。

计算注意力中心：在卷积或者最大池化操作中，将输入定义为N×D_i×H_i×W_i，输出定义为N×D_O×H_O×W_O，其中N,D,H,W分别表示批次大小、通道数量、特征图的高度和宽度。根据卷积的参数kernal,stride,pad，那么：

H_O＝(H_i+2×pad_H-kernel_H)/stride_H+1

W_O＝(W_i+2×pad_W-kernel_W)/stride_W+1

因此，第L层(x,y)处对于第L-1层的感受野r＝(x_min,x_max,y_min,y_max)计算如下：

x_min＝(x-1)×stride_W+1-pad_W

x_max＝(x-1)×stride_W-pad_W+kernel_W

y_min＝(y-1)×stride_H+1-pad_H

y_max＝(y-1)×stride_H-pad_H+kernel_H

对于时间步长t，根据上式，可以计算h_j(编码器输出的第j个特征向量)，对于输入图片的感受野，并且选择感受野的中心作为注意力中心：

c_t,j＝location(j)

其中j是h_j的索引，location表示计算感受野中心的函数。因此，输入图片对应的注意力中心y_t计算如下：

其中，α_t,j表示解码器在时间步长t对于特征向量h_j的注意力权重。

关注目标区域：在计算出目标y_t的注意力中心后，从输入图像或卷积输出中裁剪出一块大小为

的特征图，如下：

其中

为图像或卷积特征图，

为输入图像中真实区域的最大值。

通过裁剪后的特征图，计算注意力区域的能量分布如下：

上式，R和S是可训练的参数，(i,j)为第

个特征向量。然后，所选区域的概率分布计算为：

其中，K为类别数量。

那么，定义聚焦损失函数为：

其中

是真实区域像素标签，ω是结合所有FN参数的向量。

2、基于Reformer的蒙汉翻译模型，包括以下几个部分：

A、局部敏感哈希的注意力机制

重新定义Transformer的注意力机制公式，对于一个查询位置i的时间为：

表示在位置i处查询所关注的集合，z表示配分函数(即softmax中的归一化项)。

为了达到批处理的目的，通常在一个较大的集合

上进行关注，同时掩盖掉不在

中的元素：

在LSH注意力上，可以从限制一个查询位置i可以关注的目标项集合

的角度来考虑，且只允许在一个哈希桶内关注。

在散列过程中，会存在一个小概率的情况将相同项分到不同的桶中，这个概率可以通过用n_rounds个不同的散列函数{h⁽¹⁾,h⁽²⁾,...}做多轮散列来降低，这种方法称为Multi-round LSH attention，公式如下：

B、可逆残差网络

RevNet的核心思想是每层的激活可以根据下层的激活推导获得，从而不需要在内存中储存激活，以减少模型对内存的需求。在标准残差层中，输出激活是由y＝x+R(x)得到。其中R是残差函数。

在RevNet中，先将输入x分为两个部分x₁和x₂，然后通过残差函数：R(·)和G(·)，得到输出y₁和y₂，公式如下：

y₁＝x₁+R(x₂)

y₂＝x₂+G(x₁)

x₂＝y₂-G(y₁)

x₁＝y₁-R(x₂)

通过将RevNet应用到Transformer中，将sub-encoder block之中的ResNet替换为RevNet，从而减少内存的消耗。我们令F函数作为我们的attention层，G函数作为FFN层，公式如下：

Y₁＝X₁+Attention(X₂)

Y₂＝X₂+FeedForward(Y₁)

C、分块前馈网络

在FFN中，通常中间隐藏层的维度会非常大，如d_f _f＝4k或者更大。FFN的输入是独立的，为了降低内存的使用，可以进行拆分计算,每次计算一块，公式如下：

本发明的整体流程如下：

(1)对印刷体蒙古文图片进行版面分析与分割；

(2)使用空间变换网络对输入标准化；

(3)使用CBAM-GRCNN提取图像特征；

(4)使用Mogrifier LSTM进行序列建模；

(5)使用聚焦注意力机制与GRU进行预测；

(6)使用准确率评价印刷体蒙古文识别模型；

(7)对蒙古语进行预处理；

(8)搭建Reformer的解码器；

(9)搭建Reformer的编码器；

(10)进行网络训练；

(11)使用BLEU值评价蒙汉翻译模型。

Claims

1.一种基于空间变换网络端到端印刷体蒙古文识别翻译的方法，其特征在于，包括：

2.根据权利要求1所述基于空间变换网络端到端印刷体蒙古文识别翻译的方法，其特征在于，在文字识别之前，为便于深度学习神经网络更好地提取特征，先对数据进行预处理，所述对数据进行预处理是对印刷体蒙古文进行版面分析以及分割。

3.根据权利要求1所述基于空间变换网络端到端印刷体蒙古文识别翻译的方法，其特征在：

4.根据权利要求3所述基于空间变换网络端到端印刷体蒙古文识别翻译的方法，其特征在于，所述空间变换网络包含定位网络、网格生成器、网格采样器三部分，定位网络用于从输入的原始图像或特征图中估计仿射变换的参数矩阵，采样网格生成器通过对一个固定的、均匀的网格应用仿射变换以生成采样网格，网格采样器则使用薄板样条插值算法，根据采样网格对输入图像进行采样，以最终实现自适应校正功能；

5.根据权利要求1所述基于空间变换网络端到端印刷体蒙古文识别翻译的方法，其特征在于，所述Reformer模型基于局部敏感哈希的注意力机制，并将可逆残差网络加入到Transformer以减少参数对内存的占用，对Transformer中前馈网络分段处理，以减少在全连接层的内存占用量。

6.根据权利要求1或5所述基于空间变换网络端到端印刷体蒙古文识别翻译的方法，其特征在于，所述Reformer模型基于编码器－解码器框架搭建，主要由词向量编码模块、位置编码模块、编码器和解码器组成，其中编码器由多个编码器子模块堆叠而成，每个编码器子模块中包含一个多头多轮局部敏感哈希注意力层和一个分块前馈网络，在多头多轮局部敏感哈希注意力层和分块前馈网络之后均设置有输出可逆残差层和层标准化层；解码器由多个解码器子模块堆叠组成，每个解码器子模块除包含多头多轮局部敏感哈希注意力层和分块前馈网络之外，还在可逆残差层与层标准化层之前增加一层共享查询关键字向量自掩码层，在多头多轮局部敏感哈希注意力层、分块前馈网络以及共享查询关键字向量自掩码层之后均设置有输出可逆残差层和层标准化层。