CN111553350A

CN111553350A - 一种基于深度学习的注意力机制文本识别方法

Info

Publication number: CN111553350A
Application number: CN202010340618.8A
Authority: CN
Inventors: 杨海东; 黄坤山; 李俊宇; 彭文瑜; 林玉山; 魏登明
Original assignee: Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute; Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Current assignee: Foshan Nanhai Guangdong Technology University CNC Equipment Cooperative Innovation Institute; Foshan Guangdong University CNC Equipment Technology Development Co. Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-08-18
Anticipated expiration: 2040-04-26
Also published as: CN111553350B

Abstract

本发明公开一种基于深度学习的注意力机制文本识别方法，包括S1、获取模型训练数据集；S2、对所述模型训练数据集进行预处理；S3、构建模型卷积层，输入所述模型训练数据集进行特征提取，获得图像的特征图，以待输出给后面循环神经网络结构，其视觉特征是通过卷积层与最大池层交错的多层卷积神经网络提取的，CNN接受原始输入，并生成尺寸为D×H×W的特征网格V，其中D表示通道数，H和W是结果特征图的高度和宽度等6个步骤，本发明克服了使用基于CTC的模型的神经OCR技术文本识别准确率低的难题，同时可以显著较少网络的计算量，并且能保证模型对公式的预测精度没有太大的下降。

Description

一种基于深度学习的注意力机制文本识别方法

技术领域

本发明涉及深度学习文本识别技术领域，尤其涉及一种基于深度学习的注意力机制文本识别方法。

背景技术

在信息量非常大的时代，PDF和图片占信息量较大一部分，这就造成了用户对图片和PDF文本识别的大量需求，即光学字符识别(OCR，最常用于识别图像中的自然语言)，包括对各种语言文字、手写体、数字等。而其中大量学术相关文本里面会存在特殊标识，像数学公式等，它相较于文字的识别要更复杂，数学公式的作为识别成为一个特殊的识别领域，存在许多困难，我们运用一个基于真实世界渲染的数学表达式与LaTeX标记标配对的数据集的深度学习注意力机制的公式识别，可以较好的满足用户需求，提供高精度公式识别(即把图片中的数学公式，识别出并转换为LaTeX标记)。

而传统方法是采用基于CTC的模型的神经OCR技术，其编码解码结构使用的RNN，它能够处理一定的短期依赖，但无法处理长期依赖问题，因为当序列较长时，序列后部的梯度很难反向传播到前面的序列，同样的，RNN还可能出现梯度爆炸问题，其模型对于复杂一点的 (比如复杂公式符号)的文本识别准确率比较一般。

发明内容

针对上述问题，本发明提出一种基于深度学习的注意力机制文本识别方法，主要解决背景技术中的问题。

本发明提出一种基于深度学习的注意力机制文本识别方法，包括以下步骤：

S1、获取模型训练数据集；

S2、对所述模型训练数据集进行预处理；

S3、构建卷积神经网络CNN模型，输入所述模型训练数据集进行特征提取，获得图像的特征图，所述特征图是通过卷积层与最大池层交错的多层卷积神经网络提取，所述卷积神经网络CNN接受所述模型训练数据集的原始输入，并生成尺寸为D×H×W的特征网格V，其中D表示通道数，H和W是结果特征图的高度和宽度；

S4、接着构建双向循环神经网络RNN编码器，将卷积神经网络 CNN输出的特征图输入到双向循环神经网络RNN编码器；

S5、构建注意力机制，并跟踪特征图像的下一个当前位置以生成标记，所述位置通过关注的上下文向量ct传递，定义一个潜在的分类变量zt∈{1，···，H}×{1，···，W}来表示模型正在参与哪个单元格，若访问注意力分布zt～p(zt)，则上下文定义为对源端特征的期望为：

S6、双向循环神经网络编码器将特征图输出到带注意力机制的长短期记忆网络LSTM解码器，长短期记忆网络LSTM的隐藏层特征为512，最后得到图片对应的公式latex代码的概率分布。

进一步改进在于，所述步骤S2具体包括：

S21、利用Python脚本裁剪数据集中的公式图片的空白区域，提取重要像素；

S22、对模型训练数据集IM2LATEX-100K中的公式标记各项插入空字符以便索引，然后生成数据集IM_2_LATEX-100K；

S23、对模型训练数据集IM_2_LATEX-100K去除1/4的过大的公式图片对应的图片索引，然后生成latex代码的词袋文本文件 latex.t。

进一步改进在于，在所述步骤S3中，所述卷积层的各层结构如下：

第一层:weight：[3,3,1,512]

第二层:weight：[3,3,512,512]，max_pool：[1,1,2,1]

第三层:weight：[3,3,512,256]，max_pool：[1,2,1,1]

第四层:weight：[3,3,256,256]

第五层:weight：[3,3,256,128]，max_pool：[1,2,2,1]

第六层:weight：[3,3,128,64]，max_pool：[1,2,2,1]。

进一步改进在于，在所述步骤S3中，除了卷积神经网络卷积层和池化层外还有使用正则化函数tf.contrib.layers.batch_norm，使深层神经网络训练更加稳定，加快收敛速度，同时起正则化的作用。

进一步改进在于，在所述步骤S4中，编码器解码器结构使用的是长短期记忆网络LSTM，所述长短期记忆网络LSTM引入了细胞状态，并使用输入门、遗忘门、输出门三种门来保持和控制信息，具体的，长短期记忆网络LSTM任意一个timestep,t的计算公式如下所示：

f_t＝σ(W_f·[h_t-1，X_t]+b_f)

i_t＝σ(W_i·[h_t-1，X_t]+b_i)

o_t＝σ(W₀·[h_t-1，X_t]+b₀)

h_t＝o_t*tanh(c_t)

其中，ft为遗忘门，it为输入门，ot为输出门，ot为输出们， ct为细胞状态，ht为隐藏层状态值，W和b为权重和偏执。

进一步改进在于，所述步骤S5还包括：

在特征图像上加上一个网格，在生成标记时，首先关注粗糙网格以获取相关的粗糙单元，然后关注内部精细单元以获取上下文向量。

进一步改进在于，所述步骤S4具体包括：

S41、循环神经网络RNN递归地将输入向量和隐藏状态映射到新的隐藏状态，在时间t，以以下方式用输入vt更新隐藏状态：ht＝RNN (ht-1，vt；θ)，其中h0为初始状态，作为循环神经网络RNN变体的长期的短期存储网络对大多数NLP任务非常有效；

S42、通过在输入的每一行上运行循环神经网络RNN，从Vcreated 创建新要素网格V，对于所有行h∈{1，…，H}和列w∈{1，…，W}，将新特征递归定义为Vhw＝RNN(Vh，w-1，Vhw)，为了捕获垂直方向上的顺序信息，对每行使用可训练的初始隐藏状态Vh0；

S43、解码，p(yt+1|y1,...,yt,V)＝softmax(Woutot)，这里ot＝tanh(Wc[ht；ct])，Wout，Wc是学习的线性变换，向量ht用于总结解码历史：ht＝RNN(ht-1，[yt-1；ot-1])，上下文向量ct用于捕获注释网格中的上下文信息。

与现有技术相比，本发明的有益效果为：

与基于CTC的ORC模型结构相比，需要基于CTC模型中固有的从左到右的排序这样的假设，如图2所示的结构，其编码解码结构使用的RNN，它能够处理一定的短期依赖，但无法处理长期依赖问题，因为当序列较长时，序列后部的梯度很难反向传播到前面的序列，同样的，RNN还可能出现梯度爆炸问题，其模型对于复杂一点的(比如复杂公式符号)的文本识别准确率比较一般。而我们采用的是LSTM通过细胞状态记忆信息。RNN激活函数只有tanh，LSTM通过输入门、遗忘门、输出门引入sigmoid函数并结合tanh函数，添加求和操作，减少梯度消失和梯度爆炸的可能性。RNN只能够处理短期依赖问题； LSTM既能够处理短期依赖问题，又能够处理长期依赖问题。与过去有关神经OCR的大多数工作相反，我们用的模型在输入图像上使用了完整的网格编码器，因此它可以支持生成的标记中从左到右的顺序，该模型还包括一个行编码器，可帮助提高系统性能。

Attention模型用于解码过程中，它改变了传统decoder对每一个输入都赋予相同向量的缺点，而是根据单词的不同赋予不同的权重。在encoder过程中，输出不再是一个固定长度的中间语义，而是一个由不同长度向量构成的序列，decoder过程根据这个序列子集进行进一步处理。

同时相比较其它注意力机制的结构，为了减少注意力计算的开销，我们应用了一种两层的“从粗到精”的注意力机制，该方法可以显著较少网络的计算量，并且能保证模型对公式的预测精度没有太大的下降。

当从图像生成目标符号时，我们可以从最后生成的符号中推断出可能出现的粗糙区域。因此，除了细网格外，我们还在图像上加上了一个网格，这样每个单元格都属于一个较大的区域。在生成标记时，我们首先关注粗糙网格以获取相关的粗糙单元，然后关注内部精细单元以获取上下文向量，这是一种称为分层注意的方法。

附图说明

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

图1为本发明一实施方式的粗到精注意力模型结构示意图；

图2为本发明一实施方式的基于CTC的文本识别结构示意图；

图3为本发明一实施方式的基于注意力的文本识别结构示意图；

图4为本发明一实施方式的LSTM结构示意图；

图5为本发明一实施方式的LaTeX标记示意图；

图6为本发明一实施方式的公示图像裁剪示意图。

具体实施方式

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以是通过中间媒介间接连接，可以说两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明的具体含义。下面结合附图和实施例对本发明的技术方案做进一步的说明。

本发明公开了一种基于深度学习的注意力机制文本识别方法，本发明克服了使用基于CTC的模型的神经OCR技术对于复杂一点的(比如复杂公式符号)的文本识别准确率比较一般，并且不需要基于CTC 模型中固有的从左到右的排序这样的假设，同时相比较其它注意力机制的结构，为了减少注意力计算的开销，我们应用了一种两层的“从粗到精”的注意力机制，该方法可以显著较少网络的计算量，并且能保证模型对公式的预测精度没有太大的下降。与过去有关神经OCR的大多数工作相反，我们用的模型在输入图像上使用了完整的网格编码器，因此它可以支持生成的标记中从左到右的顺序，该模型还包括一个行编码器，可帮助提高系统性能。

在训练模型的数据，我们选择采用的是公共数据集 IM2LATEX-100K，其中包含从已发表的文章中收集的大量渲染的真实世界数学表达式。

S1、获取模型训练数据集，其中，模型的训练数据集采用公共数据集IM2LATEX-100K，其中包含从已发表的文章中收集的大量渲染的真实世界数学表达式。该数据集基于从渲染的图像重建数学标记(最初由科学家编写)，如图5所示，图片网格中是训练图像文本数据，上方是对应的要得到经过训练的模型可以生成的LaTeX标记；

S2、对所述模型训练数据集进行预处理，例如文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作；

S3、构建模型的卷积层部分，接收原始图像数据集的输入进行特征提取，获得图像的特征图，以待输出给后面循环神经网络结构，其视觉特征是通过卷积层与最大池层交错的多层卷积神经网络提取的。 CNN接受原始输入，并生成尺寸为D×H×W的特征网格V，如图1下方部分所示，其中D表示通道数，H和W是结果特征图的高度和宽度；

S4、如上述步骤S3之后CNN输出特征图大小为20x28x65x64，接着构建双向RNN(递归神经网络)编码器，将CNN输出的特征输入到双向RNN编码器，由于使用双向RNN，LSTM的隐藏层特征数lstm_dim 为256，且经维数输入和输出变化后，编码器输出为20x28x65x512；

S5、注意力机制的设置，模型的准确性取决于能否跟踪图像的下一个当前位置以生成标记，该位置通过关注的上下文向量ct传递。形式上，我们定义一个潜在的分类变量zt∈{1，···，H}×{1，···， W}来表示模型正在参与哪个单元格。如果我们假设访问注意力分布 zt～p(zt)，则上下文定义为对源端特征的期望：

在实践中，将注意力分布参数化为模型的一部分。我们考虑三种形式的注意力：标准，分层和从细到精。

S6、编码器输出到带注意力机制的LSTM解码器，LSTM的隐藏层特征为512，最后得到图片对应的公式latex代码的概率分布。

作为本发明一优选实施方案，所述步骤S2具体包括：

S21、利用Python脚本裁剪数据集中的公式图片的空白区域，如图6所示，将空白纸张中的公式产检掉白色大部分白色不重要区域，提取重要像素；

S22、对数据集IM2LATEX-100K中的公式标记各项插入空字符以便索引，然后生成数据集IM_2_LATEX-100K；

S23、对数据集IM_2_LATEX-100K去除大约1/4的过大的公式图片对应的图片索引，然后生成latex代码的词袋文本文件latex.t。

作为本发明一优选实施方案，在所述步骤S3中，CNN包含6层，第一层输出512个特征，主要是由于词袋文件latex.txt包含了499 (第一层输出必须大于这个数字，不然不能覆盖所有元素)个latex 代码元素，所述卷积层的各层结构如下：

第一层:weight：[3,3,1,512]

第二层:weight：[3,3,512,512]，max_pool：[1,1,2,1]

第三层:weight：[3,3,512,256]，max_pool：[1,2,1,1]

第四层:weight：[3,3,256,256]

第五层:weight：[3,3,256,128]，max_pool：[1,2,2,1]

第六层:weight：[3,3,128,64]，max_pool：[1,2,2,1]。

作为本发明一优选实施方案，在所述步骤S3中，除了一般的CNN 卷积层和池化层外还有使用正则化函数 tf.contrib.layers.batch_norm，使深层神经网络训练更加稳定，加快收敛速度，同时起正则化的作用。

作为本发明一优选实施方案，在所述步骤S4中，编码器解码器结构使用的是LSTM，LSTM引入了细胞状态，并使用输入门、遗忘门、输出门三种门来保持和控制信息，具体的，LSTM任意一个timestep,t 的计算公式如下所示：

f_t＝σ(W_f·[h_t-1，X_t]+b_f)

i_t＝σ(W_i·[h_t-1，X_t]+b_i)

o_t＝σ(W₀·[h_t-1，X_t]+b₀)

h_t＝o_t*tanh(c_t)

其中，ft为遗忘门，it为输入门，ot为输出门，ot为输出们，ct为细胞状态，ht为隐藏层状态值，W和b为权重和偏执。

作为本发明一优选实施方案，所述步骤S5还包括：

当从图像生成目标符号时，我们可以从最后生成的符号中很有可能推断出可能出现的粗糙区域。因此，除了细网格外，我们还在图像上加上了一个网格，这样每个单元格都属于一个较大的区域。在生成标记时，我们首先关注粗糙网格以获取相关的粗糙单元，然后关注内部精细单元以获取上下文向量，这是一种称为分层注意的方法。

作为本发明一优选实施方案，所述步骤S4具体包括：

S41、编码器，对于OCR，编码器必须定位源图像内的相对位置，这一点很重要。形式上，递归神经网络(RNN)是参数化函数RNN，它递归地将输入向量和隐藏状态映射到新的隐藏状态。在时间t，以以下方式用输入vt更新隐藏状态：ht＝RNN(ht-1，vt；θ)，其中h0为初始状态。作为RNN变体的长期的短期存储网络(LSTM)对大多数NLP任务非常有效。所以实验采用的LSTM网络，结构图如图4；

S42、在此模型中，通过在输入的每一行上运行RNN，从V created 创建新要素网格V。对于所有行h∈{1，…，H}和列w∈{1，…，W}，将新特征递归定义为Vhw＝RNN(Vh，w-1，Vhw)。为了捕获垂直方向上的顺序信息，我们对每行使用可训练的初始隐藏状态Vh0，我们将其称为位置嵌入；

S43、解码，该语言模型是在解码器RNN之上定义的， p(yt+1|y1,...,yt,V)＝softmax(Woutot)，这里ot＝tanh (Wc[ht；ct])，Wout，Wc是学习的线性变换。向量ht用于总结解码历史：ht＝RNN(ht-1，[yt-1；ot-1])。上下文向量ct用于捕获注释网格中的上下文信息。

图中，描述位置关系仅用于示例性说明，不能理解为对本专利的限制；显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于深度学习的注意力机制文本识别方法，其特征在于，包括以下步骤：

S1、获取模型训练数据集；

S2、对所述模型训练数据集进行预处理；

S4、接着构建双向循环神经网络RNN编码器，将卷积神经网络CNN输出的特征图输入到双向循环神经网络RNN编码器；

2.根据权利要求1所述的一种基于深度学习的注意力机制文本识别方法，其特征在于，所述步骤S2具体包括：

S23、对模型训练数据集IM_2_LATEX-100K去除1/4的过大的公式图片对应的图片索引，然后生成latex代码的词袋文本文件latex.t。

3.根据权利要求1所述的一种基于深度学习的注意力机制文本识别方法，其特征在于，在所述步骤S3中，所述卷积层的各层结构如下：

第一层:weight：[3,3,1,512]

第二层:weight：[3,3,512,512]，max_pool：[1,1,2,1]

第三层:weight：[3,3,512,256]，max_pool：[1,2,1,1]

第四层:weight：[3,3,256,256]

第五层:weight：[3,3,256,128]，max_pool：[1,2,2,1]

第六层:weight：[3,3,128,64]，max_pool：[1,2,2,1]。

4.根据权利要求1所述的一种基于深度学习的注意力机制文本识别方法，其特征在于，在所述步骤S3中，除了卷积神经网络卷积层和池化层外还有使用正则化函数tf.contrib.layers.batch_norm，使深层神经网络训练更加稳定，加快收敛速度，同时起正则化的作用。

5.根据权利要求1所述的一种基于深度学习的注意力机制文本识别方法，其特征在于，在所述步骤S4中，编码器解码器结构使用的是长短期记忆网络LSTM，所述长短期记忆网络LSTM引入了细胞状态，并使用输入门、遗忘门、输出门三种门来保持和控制信息，具体的，长短期记忆网络LSTM任意一个timestep,t的计算公式如下所示：

f_t＝σ(W_f·[h_t-1，X_t]+b_f)

i_t＝σ(W_i·[h_t-1，X_t]+b_i)

o_t＝σ(W₀·[h_t-1，X_t]+b₀)

h_t＝o_t*tanh(c_t)

6.根据权利要求1所述的一种基于深度学习的注意力机制文本识别方法，其特征在于，所述步骤S5还包括：

7.根据权利要求1所述的一种基于深度学习的注意力机制文本识别的方法，其特征在于，所述步骤S4具体包括：

S41、循环神经网络RNN递归地将输入向量和隐藏状态映射到新的隐藏状态，在时间t，以以下方式用输入vt更新隐藏状态：ht＝RNN(ht-1，vt；θ)，其中h0为初始状态，作为循环神经网络RNN变体的长期的短期存储网络对大多数NLP任务非常有效；

S42、通过在输入的每一行上运行循环神经网络RNN，从V created创建新要素网格V，对于所有行h∈{1，…，H}和列w∈{1，…，W}，将新特征递归定义为Vhw＝RNN(Vh，w-1，Vhw)，为了捕获垂直方向上的顺序信息，对每行使用可训练的初始隐藏状态Vh0；