CN110705399A

CN110705399A - 一种数学公式自动识别的方法

Info

Publication number: CN110705399A
Application number: CN201910884275.9A
Authority: CN
Inventors: 史贯丽; 严军峰; 陈家海; 叶家鸣; 吴波
Original assignee: Anhui Seven Days Education Technology Co Ltd
Current assignee: Anhui Seven Days Education Technology Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-01-17

Abstract

本发明涉及图像识别技术领域，且公开了一种数学公式自动识别的方法，该系统基于序列到序列的网络架构，主要包含异构卷积部分，编码器部分、解码器部分、attention部分，beamsearch搜索部分；该数学公式自动识别的方法针对扫描试卷这种特殊的文档图像数据，提出一种基于多层异构卷积神经网络的seq2seq模型，在整个seq2seq模型中，编码层和解码层都是基于卷积神经网络的，传统的基于RNN的seq2seq模型的实现需要依赖于序列的历史信息，不能并行实现。所使用的卷积神经网络是一种异构卷积网络，与传统的卷积层不同的是，它的过滤器中可以包含不同大小的卷积核(一部分为3*3，另外一部分是1*1)，相对于使用同样的卷积核(3*3)，计算速度会有提升。

Description

一种数学公式自动识别的方法

技术领域

本发明涉及图像识别技术领域，具体为一种数学公式自动识别的方法。

背景技术

现在大部分人都是利用互联网这个传播渠道进行发布和交换信息，但是大多数的信息资源在网上是通过电子文档或者是图片的形式传播的。目前试卷这种资源很少会以可编辑的形式进行发布，大部分是图片或者pdf形式。对于一些只包含文字类的试卷，现在的OCR方法可以很好的进行识别，不存在很大的问题。但是像数学试卷，里面包含很多数学公式，现有的OCR并不能很好地进行识别，对于想要再次编辑，重新对试题进行利用是比较困难的。因此，采用某种计算机技术对数学公式类的字符进行自动识别，就显得尤为重要。

近年来，深度学习技术已经被广泛应用到图像识别中，并且展示出强大的图像识别能力。目前专门针对数学公式图片进行识别的方法很少。由于我们想要实现图片到字符序列的生成，而Seq2Seq解决问题的主要思路是通过深度神经网络模型将一个作为输入的序列映射为一个作为输出的序列，这一过程由编码输入(encoder)与解码输出(decoder)两个环节组成，因此采用seq2seq这个模型。目前大部分的seq2seq是基于rnn的，而rnn的输入是依赖于前一个的输出，因此很难实现并行化。考虑使用堆叠的cnn来捕捉各个输入之间的关系，就不存在前后的依赖关系，可很好的实现并行化。由于attention模块会根据序列的重要程度给予不同的权重，所以采用含有attention模块的基于cnn的seq2seq进行公式图像识别。

现有的公式识别是利用一些统计学的方法，将图片进行二值化处理，分别计算纯文本行与带有数学公式的文本行之间的差异，进行公式行的定位，随后会根据字体的大小、长宽比、宽度和高度等特征与数学公式字符特征间的差别，进一步对公式中的字符进行分割。最后对分割后的数学公式字符按照模板匹配法进行匹配。显然这种方法是将公式中的一个个字符作为一个独立的个体，没有考虑到它们之间可能存在是依赖关系，而且字体的大小和长宽比这些可能随着不同的场景会有所不同。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种数学公式自动识别的方法，解决了现有的公式识别是利用一些统计学的方法，将图片进行二值化处理，分别计算纯文本行与带有数学公式的文本行之间的差异，进行公式行的定位，这种方法是将公式中的一个个字符作为一个独立的个体，没有考虑到它们之间可能存在是依赖关系，而且字体的大小和长宽比这些可能随着不同的场景会有所不同的问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种数学公式自动识别的方法，该系统基于序列到序列的网络架构，主要包含异构卷积部分，编码器部分、解码器部分、attention部分，beamsearch搜索部分。

优选的，所述异构卷积部分具体描述为：传统的过滤器是3*3*64，表示的是64个过滤器中的卷积核都是同样的大小3*3；所谓的异构卷积，表示的是这个64个过滤器中的卷积核大小不是唯一的，它允许同一层的过滤器中含有不同大小的卷积核，在这里使用的是两种卷积核(3*3和1*1)，相比于使用同样的卷积核(3*3)，采用了1*1的卷积核在进行卷积计算时，计算量会有明显的减少，假设M为输入通道的数量，P为控制卷积核数量的参数，N为输出通道的个数，这里P＝4，则3*3卷积核的个数为M/P个，其余的都是1*1卷积核，假设第一个过滤器中3*3卷积是从第一个位置开始的，紧随之后的是(P-1)个1*1的卷积核，而第二个过滤器中的3*3卷积核是从第二个位置开始，后面还是紧跟(P-1)个1*1的卷积核，后面的过滤器依次类推。

优选的，所述编码器部分具体描述为：包括6个异构卷积层，通道数依次为64，128，256，256，256，512；第一层、第二层后面会有pooling层，之后紧跟非线性激活函数elu，中间层有2个残差连接，第三层卷积的输出与第四层的输出相加作为第五层的输入，第四层的输出和第五层的输出相加作为第六层的输入；第六个卷积层之后会进行一个positionembedding操作。

优选的，所述attention部分具体描述为：使用多步注意力机制，对于解码器中的每一个卷积层，都使用单独的attention机制，因为卷积层可以提取出局部信息，而每一层的局部信息是不相同的，每一层对encoder结果的关注位置也是不相同的，所以decoder的每一层对encoder的attention也是不一样的，每个单独的attention是与传统的attention是相似的，权重是由decoder的当前层的输出h_i和encoder的所有输出的z_i共同决定，利用该权重对encoder的输出进行加权，得到表示输入信息的向量c_i，c_i和h_i进行连接组成新的h_i，计算公式表示为：

其中

表示的是权重信息，

是对做了一个线性操作然后加上g_i(输入的embedding值)，融合了encoder的输出和decoder的输出进行向量点积的操作，之后进行softmax操作。

优选的，所述解码器部分具体描述为：首先对输入的公式进行embedding操作，后续进入卷积操作，卷积操作包括4个卷积层，每个卷积层还有1个卷积和1个elu非线性激活层，卷积层还是异构卷积层，卷积核的大小为W^kd*2d，其中d是向量的长度，k是卷积窗口大小，每次卷积都会生成两个d维向量，对其中的一列d维向量进行softmax操作之后，与另外一列的d维向量执行向量的点积操作，使用这个门控机制可以控制让重要的信息传递到下一层，然后利用当前层的输出结果与encoder的输出结果进行attention操作，得到对encoder输出的加权结果c，最后将c与decoder当前层的输出进行相加的结果传入到下一层。

优选的，所述beamsearch部分具体描述：在对图像进行预测时，不知道图像对应的标签，所以需要使用beamsearch进行结果的搜索，它为一种维特比算法的贪心形式，使用beamsize参数限制每一步保留下来的可能性词的数量，在训练阶段不需要使用，对于预测出的结果使用BLEU指标进行效果的评估。

优选的，包括以下具体步骤：

步骤一、训练数据获取：由于现实中没有针对公式图片的标注数据，采用的是网上开源的tex格式的文章，启发式方法找到tex文件中所含有的公式，这是latex格式的，因为我们的输入是图片格式的，需要使用pdflatex，convert等命令将latex格式的公式转换成图片格式的公式，这些图片公式一般不包含中文字符，可将这些公式中的一些单词用中文字符代替，从而实现样本中包含中文字符，但是得到的图片背景还是比较干净的，为了与现实中的样本更加相像，需要在图片样本上增加一些噪声，对图像的色差进行一些改变，将图片的背景变得复杂一些；

步骤二、数据预处理：由于得到的公式图片包含许多空白区域，公式四周有很大一圈的背景区域，如果图像尺寸太大，比较耗内存，增加计算时间，需要将训练数据的背景部分裁剪掉，尽可能保留含有内容的部分，本发明输入图像尺寸采用120*50大小；

步骤三、训练神经网络：整体采用端到端的序列到序列模型进行训练，超参数的选择如下：

1)学习率：初始学习率设置为0.001，采用的是warm up操作，前5轮，都是采用的初始学习率，随后每训练2轮减小0.05；

2)优化器：使用adam优化器；

3)其它：批处理大小设置为8，与显存容量有关；beam size为5；总共训练轮数为50；

步骤四、数据后处理：由于最后得到的是公式中的一个个字符，把它转换成latex格式，使用pandoc命令将latex格式转换成word格式；

步骤五、结果输出：加载训练好的模型，对实际的公式图像进行预测，输出得到的word版的公式。

(三)有益效果

本发明提供了一种数学公式自动识别的方法，具备以下有益效果：

本发明针对公式图像数据，提出了一种基于异构卷积的seq2seq加入attention机制的解决方案。整体基于序列到序列的架构设计，加入了多步attention进行公式的识别。本发明设计合理，使用方便，效果良好，解决了现有的公式识别是利用一些统计学的方法，将图片进行二值化处理，分别计算纯文本行与带有数学公式的文本行之间的差异，进行公式行的定位，这种方法是将公式中的一个个字符作为一个独立的个体，没有考虑到它们之间可能存在是依赖关系，而且字体的大小和长宽比这些可能随着不同的场景会有所不同的问题。

附图说明

图1为本发明的整体网络结构图；

图2为本发明中异构卷积的网络结构图；

图3为本发明中编码器的网络结构图；

图4为本发明的解码器的网络结构图；

图5为本发明的整体实施流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-5所示，本发明提供一种技术方案：一种数学公式自动识别的方法，包括异构卷积部分，编码器部分、解码器部分，attention部分组成和beamsearch搜索部分；

异构卷积部分：请参阅图2，传统的过滤器时3*3*64，表示的是64个过滤器中的卷积核都是同样的大小3*3；所谓的异构卷积，就是表示的是这个64个过滤器中的卷积核大小不是唯一的，它允许同一层的过滤器中含有不同大小的卷积核，在这里使用的是两种卷积核(3*3和1*1)，相比于使用同样的卷积核(3*3)，采用了1*1的卷积核可以在进行卷积计算时，计算量会有明显的减少；假设M为输入通道的数量，P为控制卷积核的数量的参数，N为输出通道的个数，这里P＝4，则3*3卷积核的个数为M/P个，其余的都是1*1卷积核。假设第一个过滤器中3*3卷积是从第一个位置开始的，紧随之后的是(P-1)个1*1的卷积核，而第二个过滤器中的3*3卷积核是从第二个位置开始，后面还是紧跟(P-1)个1*1的卷积核，后面的过滤器依次类推。

编码器部分：请参阅图3，包括6个异构卷积层，通道数依次为64，128，256，256，256，512；第一层，第二层后面会有pooling层，之后紧跟非线性激活函数elu，中间层有2个残差连接，第三层卷积的输出与第四层的输出相加作为第五层的输入，第四层的输出和第五层的输出相加作为第六层的输入；第六个卷积层之后会进行一个position embedding操作。

解码器部分：请参阅图4，首先对输入的公式进行embedding操作，后续进入卷积操作，卷积操作包括4个卷积层，每个卷积层还有1个卷积和1个elu非线性激活层，卷积层还是异构卷积层，卷积核的大小为W^kd*2d，其中d是词向量的长度，k是卷积窗口大小。每次卷积都会生成两个d维向量。对其中的一列d维向量进行softmax操作之后与另外一列的d维向量，执行向量的点积操作。使用这个门控机制可以控制让重要的信息传递到下一层。然后利用当前层的输出结果与encoder的输出结果进行attention操作，得到对encoder输出的加权结果c，最后将c与decoder当前层的输出进行相加的结果传入到下一层。

attention部分：使用多步注意力机制，对于解码器中的每一个卷积层，都使用单独的attention机制。因为卷积层可以提取出局部信息，而每一层的局部信息是不相同的，每一层对encoder结果的关注位置也是不相同的，所以decoder的每一层对encoder的attention也是不一样的。每个单独的attention是与传统的attention是相似的，权重是由decoder的当前层的输出h_i和encoder的所有输出的z_i共同决定，利用该权重对encoder的输出进行加权，得到表示输入句子信息的向量c_i，c_i和h_i进行连接组成新的h_i。计算公式表示为：

其中

表示的是权重信息，

是对

做了一个线性操作然后加上g_i(输入的embedding值)，融合了encoder的输出和decoder的输出进行向量点积的操作，之后进行softmax操作。

Beamsearch部分：在对图像进行预测时，不知道图像对应的标签，所以需要使用beamsearch进行结果的搜索。它为一种维特比算法的贪心形式，使用beamsize参数限制每一步保留下来的可能性词的数量。在训练阶段不需要使用。针对预测出的结果使用BLEU指标进行效果的评估。

一种数学公式自动识别方法，具体步骤包括以下，如图5所示：

步骤一、训练数据获取：由于现实中没有针对公式图片的标注数据，采用的是网上开源的tex格式的文章，启发式方法找到tex文件中所含有的公式，这是latex格式的，因为我们的输入是图片格式的，需要使用pdflatex，convert等命令将latex格式的公式转换成图片格式的公式。这些图片公式没有包含一些含有中文字符的公式，将这些公式中的符号使用相同的中文字符进行代替，从而实现样本中还有中字符。但是得到的图片背景还是比较干净的，为了与现实中的样本更加相像，需要在图片样本上增加一些噪声，对图像的色差进行一些改变，将图片的背景变得复杂一些；

步骤三、训练神经网络：整体采用端到端的序列到序列模型进行训练，超参数的设置如下：

2)优化器：使用adam优化器；

3)其他：批处理大小设置为8，与显存容量有关；beam size为5；总共训练轮数为50；

综上可得，本发明针对公式图像数据，提出了一种基于异构卷积的seq2seq加入attention机制的解决方案。整体基于序列到序列的架构设计，加入了多步attention进行公式的识别。本发明设计合理，使用方便，效果良好，解决了现有的公式识别是利用一些统计学的方法，将图片进行二值化处理，分别计算纯文本行与带有数学公式的文本行之间的差异，进行公式行的定位，这种方法是将公式中的一个个字符作为一个独立的个体，没有考虑到它们之间可能存在是依赖关系，而且字体的大小和长宽比这些可能随着不同的场景会有所不同的问题。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种数学公式自动识别的方法，其特征在于，该系统基于序列到序列的网络架构，主要包含异构卷积部分，编码器部分、解码器部分、attention部分，beamsearch搜索部分。

2.根据权利要求1所述的一种数学公式自动识别的方法，其特征在于：异构卷积部分具体描述为：所述传统的过滤器是3*3*64，表示的是64个过滤器中的卷积核都是同样的大小3*3；所谓的异构卷积，表示的是这个64个过滤器中的卷积核大小不是唯一的，它允许同一层的过滤器中含有不同大小的卷积核，在这里使用的是两种卷积核(3*3和1*1)，相比于使用同样的卷积核(3*3)，采用了1*1的卷积核在进行卷积计算时，计算量会有明显的减少，假设M为输入通道的数量，P为控制卷积核数量的参数，N为输出通道的个数，这里P＝4，则3*3卷积核的个数为M/P个，其余的都是1*1卷积核，假设第一个过滤器中3*3卷积是从第一个位置开始的，紧随之后的是(P-1)个1*1的卷积核，而第二个过滤器中的3*3卷积核是从第二个位置开始，后面还是紧跟(P-1)个1*1的卷积核，后面的过滤器依次类推。

3.根据权利要求1所述的一种数学公式自动识别的方法，其特征在于：所述编码器部分具体描述为：包括6个异构卷积层，通道数依次为64，128，256，256，256，512；第一层、第二层后面会有pooling层，之后紧跟非线性激活函数elu，中间层有2个残差连接，第三层卷积的输出与第四层的输出相加作为第五层的输入，第四层的输出和第五层的输出相加作为第六层的输入；第六个卷积层之后会进行一个position embedding操作。

4.根据权利要求1所述的一种数学公式自动识别的方法，其特征在于：所述attention部分具体描述为：使用多步注意力机制，对于解码器中的每一个卷积层，都使用单独的attention机制，因为卷积层可以提取出局部信息，而每一层的局部信息是不相同的，每一层对encoder结果的关注位置也是不相同的，所以decoder的每一层对encoder的attention也是不一样的，每个单独的attention是与传统的attention是相似的，权重是由decoder的当前层的输出h_i和encoder的所有输出的z_i共同决定，利用该权重对encoder的输出进行加权，得到表示输入信息的向量c_i，c_i和h_i进行连接组成新的h_i，计算公式表示为：

其中

表示的是权重信息，

5.根据权利要求1所述的一种数学公式自动识别的方法，其特征在于：所述解码器部分具体描述为：首先对输入的公式进行embedding操作，后续进入卷积操作，卷积操作包括4个卷积层，每个卷积层还有1个卷积和1个elu非线性激活层，卷积层还是异构卷积层，卷积核的大小为W^kd*2d，其中d是向量的长度，k是卷积窗口大小，每次卷积都会生成两个d维向量，对其中的一列d维向量进行softmax操作之后，与另外一列的d维向量执行向量的点积操作，使用这个门控机制可以控制让重要的信息传递到下一层，然后利用当前层的输出结果与encoder的输出结果进行attention操作，得到对encoder输出的加权结果c，最后将c与decoder当前层的输出进行相加的结果传入到下一层。

6.根据权利要求1所述的一种数学公式自动识别的方法，其特征在于：所述beamsearch部分具体描述：在对图像进行预测时，不知道图像对应的标签，所以需要使用beamsearch进行结果的搜索，它为一种维特比算法的贪心形式，使用beamsize参数限制每一步保留下来的可能性词的数量，在训练阶段不需要使用，对于预测出的结果使用BLEU指标进行效果的评估。

7.根据权利要求1所述的一种数学公式自动识别的方法，其特征在于：包括以下具体步骤：

2)优化器：使用adam优化器；