CN110705459A

CN110705459A - 数理化公式自动识别方法及装置、模型训练方法及装置

Info

Publication number: CN110705459A
Application number: CN201910934436.0A
Authority: CN
Inventors: 刘岩; 王建超; 李川; 须佶成
Original assignee: Beijing Aixuexi Bole Education Technology Co Ltd
Current assignee: Beijing Aixuexi Bole Education Technology Co Ltd
Priority date: 2019-09-29
Filing date: 2019-09-29
Publication date: 2020-01-17

Abstract

本发明提供了一种数理化公式自动识别方法及装置、模型训练方法及装置。所述识别方法包括：利用基于多感受野的Inception结构的编码器神经网络，将数理化公式图像识别为特征图像；利用基于LSTM的解码器神经网络，将特征图像识别为文本。本发明提供的数理化公式自动识别方法及装置、模型训练方法及装置能够大幅提高公式自动识别的准确率。

Description

数理化公式自动识别方法及装置、模型训练方法及装置

技术领域

本发明涉及图像识别技术领域，特别是涉及一种数理化公式自动识别方法及装置、模型训练方法及装置。

背景技术

深度学习是2014年开始蓬勃发展的一个人工智能领域，其广泛应用到物体识别，语音识别，语言交互等方向。其底层原理是使用数学算法将图像，声音等原始数据转换为数字特征，并使用数学模型将这些特征转换为我们需要的类别，文本等内容。

光学字符识别(OCR)是使用深度学习进行一维文字识别的一项广泛使用的技术，其能识别的字符集包括数字，字母，各个语言的文字等一维内容。它的核心技术是根据文字的几何特征自动将照片，扫描件等不可编辑的内容转换为可编辑的字符串。

除了具备传统OCR的一维内容的识别的功能，这篇专利提出的技术也可以识别公式中例如分数，矩阵等二维信息。该技术可以将不可编辑的公式照片转换成照片中公式对应的Latex公式。之后便可以将Latex公式通过编译器将公式显示在Microsoft Office，Markdown，网页等媒介中。

现有公式识别的技术有两个方向，一个是传统策略，另外一个是基于深度学习的端到端策略。

传统方法中分为四个阶段：分别是预处理、公式检测、符号识别、符号的逻辑和语义关系的确定。预处理是指将输入图像通过传统策略对输入图像进行优化，例如去除噪音，修补断掉的笔划等。然后通过公式检测根据连通域提取公式中的独立符号。接着识别这些符号对应的字符内容。最后根据字符内容以及它们的坐标信息确定整个公式的Latex公式。

基于深度学习的方式是准备大量的成对的图片、公式的数据。然后使用这些数据自动学习一个网络模型。常见的策略有CRNN以及Image Caption等算法。

传统方法的缺点是准确率低，对数据质量要求高，泛化能力差且流程非常复杂。例如排版较密的公式就容易造成连通域检测的失败。而且像根号这种包含结构的符号对齐坐标的准确率要求极高，坐标检测错误便会造成包含内容的分析错误。

现有基于深度学习的方法并没有针具公式的特点设计对应的网络结构，例如CRNN并不擅长识别二维结构的公式。Image Caption的缺点是不擅长公式标签的精确识别，且其结构不适合公式场景从左上到右下的顺序特征。

发明内容

本发明要解决的技术问题是提供一种数理化公式自动识别方法及装置、模型训练方法及装置，能够大幅提高公式自动识别的准确率。

为解决上述技术问题，本发明提供了一种数理化公式自动识别模型训练方法，所述方法包括：采集属于不同数据源类型的数理化公式图像，以及所述数理化公式图像对应的公式文本；利用所述公式图像及其对应的文本数据训练由基于多感受野的Inception结构的编码器神经网络，以及基于LSTM的解码器神经网络共同组成的自动识别模型。

在一些实施方式中，对所述自动识别模型进行训练时，基于损失函数对所述自动识别模型进行训练所述损失函数根据如下公式给出：

其中，len_i是指第i个公式的长度，loss_i是指第i个公式的损失值。

在一些实施方式中，所述不同数据源类型包括：公司内部数据、试卷中提取的Latex公式，以及通过变异策略产生的随机公式。

在一些实施方式中，还包括：在采集属于不同数据源类型的数理化公式图像之后，对采集到的所述数理化公式图像进行归一化。

在一些实施方式中，还包括：训练得到所述自动识别模型之后，对所述自动识别模型进行测试。

此外，本发明还提供了一种数理化公式自动识别方法，所述方法包括：利用基于多感受野的Inception结构的编码器神经网络，将数理化公式图像识别为特征图像；利用基于LSTM的解码器神经网络，将特征图像识别为文本。

在一些实施方式中，还包括：在利用基于多感受野的Inception结构的编码器神经网络，将数理化公式图像识别为特征图像之前，对来自不同数据源类型的数理化公式图像进行归一化处理；所述归一化处理，包括：显示功能符号的归一化，以及结构相同符号的归一化。

在一些实施方式中，利用基于LSTM的解码器神经网络，将特征图像识别为文本，包括：将三维特征图按轴合并成一个的二维矩阵；该二维矩阵经过一层注意力机制后会为每一个特征图学习一个权值；同时LSTM中前一个时间片的隐层节点的输出经过Dropout处理后也将为每一个特征图学习一个权值；将这两个权值的均值将作为最终的权值，并通过点乘的方式得到加权的特征图；经过Dropout的LSTM隐层节点会经过一层全连接进行编码；然后再和加权的特征图进行单位加后再经过一层Dropout和一层全连接作为下一个时间片的LSTM的隐层节点的输入；训练标签数字化后经过word2vec编码成一组特征向量；根据上一个LSTM时间片的输出也得到另一组特征向量；将两组特征向量拼接之后输入到当前时间片的LSTM中；经过一个LSTM的计算得到当前时间片的输出和隐层节点的状态；依次按照标签作为时间片处理，最终整合所有每一个时间片的输出就是我们预测的输入图像对应的Latex公式。

此外，本发明还提供了一种数理化公式自动识别模型训练装置，所述装置包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据前文所述的数理化公式自动识别模型训练方法。

此外，本发明还提供了一种数理化公式自动识别装置，所述装置包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器质性，使得所述一个或多个处理器实现根据前文所述的数理化公式自动识别方法。

采用这样的设计后，本发明至少具有以下优点：

本发明提出的数理化公式自动识别方法及装置、模型训练方法及装置根据公式图片的具体特征，针对性的设计深度学习的模型，实现数理化公式的准确，高效的识别。

附图说明

上述仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，以下结合附图与具体实施方式对本发明作进一步的详细说明。

图1是数理化公式自动识别方法的流程图；

图2是数理化公式自动识别模型训练方法的流程图；

图3是根据Latex代码生成公式图像的流程图；

图4是根据开源资料得到公式文本的流程图；

图5是公式自动识别的网络模型架构的结构图；

图6是编码器的网络结构图；

图7是解码器的网络结构图；

图8是数理化公式自动识别装置的结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1示出了本发明提供的数理化公式自动识别方法的流程图。参见图1，数理化公式自动识别方法包括：

S11，对来自不同数据源类型的数理化公式图像进行归一化处理。

S12，利用基于多感受野的Inception结构的编码器神经网络，将数理化公式图像识别为特征图像。

S13，利用基于LSTM的解码器神经网络，将特征图像识别为文本。

图2示出了本发明提供的数理化公式自动识别模型训练方法的流程图。参见图2，数理化公式自动识别模型训练方法包括：

S21，采集用于模型训练的公式图像。

S22，获取所述公式图像对应的文本数据。

S23，利用所述公式图像及其对应的文本数据训练由基于多感受野的Inception结构的编码器神经网络，以及基于LSTM的解码器神经网络共同组成的自动识别模型。

本发明通过深度学习，实现了公式图片到Latex公式的自动转换。这个过程可以表示为y＝f(x)，其中x是输入的图像，y是模型f(·)预测的x的公式Latex代码。实现一个深度学习模型必不可少的两步是训练模型和测试模型。其中训练过程是根据海量已知的(x,y)对学习f(·)的具体参数，其中(x,y)对在深度学习中统称为数据。而测试过程则是使用学习到的f(·)预测图片x的Latex公式

所以，在下面的篇幅中，我们将从训练和测试两个大方面来介绍本发明的技术细节。

训练

1)数据采集

正如上面一段介绍的，训练一个模型需要海量的(x,y)对，我们获得数据的方式有两个途径：①根据Latex公式合成图片(y→x)；②根据真实公式的截图标注Latex公式(x→y)。

用于合成图片的Latex公式的来源有：①公司内部数据；②菁优网试卷中提取的Latex公式；③通过变异策略产生的随机公式。

其中公司内部数据的基本囊括了K12场景内的所有公式，我们使用这一批数据确定了我们需要识别的字符集以及常见的公式类型。菁优网的数据主要用于制作特殊样式的公式图片，例如含有水印的公式。随机变异是指在现有公式的基础上，对公式的字符，结构等进行变换，用于生成目前数据集样本量较少的一些类型，例如生成含有特殊字符的公式，含有中文的数学公式，方程组，矩阵等复杂公式。

根据Latex公式代码(y)生成随机公式图片的流程如图3所示。首先我们使用XeLatex编译器将Latex公式代码编译成其对应的公式的pdf文件，在这里我们对公式的字体，公式中文本的字体，公式的字号，公式的背景进行了随机化。然后我们使用ImageMagic将pdf转换成jpg，并根据背景对pdf的公式区域进行了切割，在这里我们对图像进行了随机程度的压缩。再然后，我们使用OpenCV等工具对生成的Latex公式进行了随机扩充，例如在图像中加入一些随机透明度的图像用于模仿水印效果等。最终得到的图片便是我们加入到训练集中的样本x。

根据开源资料得到公式图像对的流程如图4所示。由于合成数据很难完全模仿真实数据的效果，例如扫描仪引入的噪声，纸张的背面透视、扭曲，随机手写笔记的噪声等。我们首先我们从网络上下载了样式分布尽可能多的课本，教辅，试卷等资源。然后我们使用之前提到过的ImageMagic将pdf转换成jpg，并引入了强度，尺寸等随机性。接着我们使用内部研发的公式检测引擎将资料中的数学公式提取出来，由此得到了训练数据x。最后我们使用mathpix对我们的公式截图进行了标注并使用人工的方式对Mathpix识别错误的样本进行了清洗，最终得到x对应的公式文本代码y。

最后，我们还准备了16000张课本中的插图作为第三类型的样本。这部分数据用于判断输入的图像是否为合法的公式图像。

由于Latex公式表达的不唯一性，也就是说一个图像x可能对应多个不同的y。(x,y)这种一对多的特征很容易造成损失函数的不收敛，进而提升模型的学习难度。为了解决这个问题我们对公式代码进行了归一化，用以保证图片和公式的一对一的映射关系。归一化的策略包括两个方面。

1.显示功能符号的归一化：在Latex代码中，有些符号的功能是完全相同的。例如\leq，\le以及\leqslant均表示≤，我们将上面三个符号都归一化到\le。

2.结构相同符号的归一化：在Latex中，有很多符号都用于生成一些特殊结构的数学公式。例如array，matrix，cases等都可以用来生成方程组，矩阵等多行的结构，我们也对这种类型的符号进行了归一化。

在整个数据准备的所有方向中，归一化策略是非常重要的一步。因为一个存在大量的一对多的数据集中模型是很难学到正确的特征的。通过不停的完善归一化模型，我们得到了一个基本可用的模型，此时模型在测试集上的准确率达到了80％+。

2)模型准备

整个模型f(·)由编码层(Encoder)和解码层(Decoder)构成。其中编码层用于将输入图像转换为特征图，解码器用于将特征图转换为Latex公式，整个流程如图5所示。

其中编码器的输入是公示图片的灰度图，可以表示为一个三维矩阵

其中是w图像的宽度，h是图像的高度，c是图像的通道数，在灰度图中c＝1。编码器的输出也是一个三维矩阵

其中W和H是特征图的宽度和高度，由于编码器中存在降采样结构，所以会存在如下关系：W＜w，H＜h。C是特征图的通道数，每一个通道表示一组特征，由于一个图片往往有多组特征，所以C的值一般大于1。

编码器的结构借鉴了Inception-ResNet-v2的网络框架，并且根据我们的场景对网络结构进行了调整和优化，我们的编码器的网络结构如图4所示。编码器有三个重要结构：

1.多感受野的Inception结构有利于学习不同字号的特征以及他们之间的位置关系；

2.残差结构有利于防止浅层特征的丢失，例如小数点等低分辨率字符，字符间距紧密的公式类型；

3.时间序列编码有利于获得字符之间的位置关系特征。

解码器是由LSTM为主要框架搭建的基于序列的解码网络。这里我们以单张图像为例对解码器的结构进行介绍。如图5所示，解码器的输入是编码器的输出，也就是说编码器的输出是三维矩阵特征图

整个解码器的网络结构如图7所示，详细步骤描述如下：

(I).将三维特征图按轴合并成一个的二维矩阵；

(II).该二维矩阵经过一层注意力机制后会为每一个特征图学习一个权值；

(III).同时LSTM中前一个时间片的隐层节点的输出经过Dropout处理后也将为每一个特征图学习一个权值.

(IV).将这两个权值的均值将作为最终的权值，并通过点乘的方式得到加权的特征图。

(V).经过Dropout的LSTM隐层节点会经过一层全连接进行编码；

(VI).然后再和加权的特征图进行单位加后再经过一层Dropout和一层全连接作为下一个时间片的LSTM的隐层节点的输入；

(VII).训练标签数字化后经过word2vec编码成一组特征向量；

(VIII).根据上一个LSTM时间片的输出也得到一组特征向量；

(IX).将(V)和(VI)两组特征向量拼接之后输入到当前时间片的LSTM中；

(X).经过一个LSTM的计算得到当前时间片的输出和隐层节点的状态。

(XI).依次按照标签作为时间片处理，最终整合所有每一个时间片的输出就是我们预测的输入图像对应的Latex公式。

模型设计中，设计一个合适的编码器是非常重要的一步。传统的堆栈形编码器并不擅长识别长公式，多层公式，复杂字符(汉字)等复杂的公式。为了提升算法对复杂公式的识别准确率，我们针对我们的公式识别场景设计了一个类似于ResNet-Inception v2的编码器。对比传统的编码器，我们的编码器更擅长提取多尺度的感受野，这样有利于公式中多种字号的识别。对比原始的ResNet-Inception v2编码器，我们的编码器结构更简单，速度更快。通过编码器的优化，我们在自建复杂公式的测试上将识别率从76.2％提升至86.4％。

3)模型训练

准备好数据对(x,y)以及模型框架f(·)之后，我们下一步要做的是根据数据更新模型内部的具体的参数。在训练模型中需要注意三个事项：确定模型的优化目标；确定模型的优化策略；模型训练。

在模型训练中，模型的优化目标是指最小化所有样本的真实值与预测值之间的误差均值，这个值一般叫做损失函数。在我们的算法中，我们使用了基于真值公式长度为权值的softmax，假设一个批量中有n个样本，我们的损失函数的数学表达式为：

其中，len_i是指第i个公式的长度，loss_i是指第i个公式的损失值。在计算单个样本的损失值时，我们会根据添加的特殊字符确定在提供数据时添加的添加位，这些添加位会通过掩码的方式过滤掉，不参加损失函数的计算。

优化策略是指使用什么策略优化网络的具体值，需要考虑的因素有学习率，遗忘因子等超参数。在我们的算法中我们使用的是基于Adam的动态学习率的优化策略。

在训练模型时，我们使用buckets的方式来保证模型对多尺度数据的识别能力。所谓bucket是指通过加边的方式将数据resize到一个与之匹配的分辨率上。具体的讲，在准备训练数据时，我们会根据输入图像的分辨率将其加入到与之最匹配的bucket中，然后根据图像所在的bucket对图像重新排序。最后再向模型按批次提供数据时，我们会提供在同一个bucket的图像。

在模型训练的所有设计中，加权的损失函数是非常重要的一步。由于传统的softmax对于不同长度的公式会赋予相同的权值，因为长公式在数据集中的分布较少，这样容易降低长公式的准确率。我们设计将每个公式的长度的开方值作为其损失值的权值得策略既保证了模型的损失不会过度偏向于短公式，有不会造成损失值过大进而模型不会收敛。通过使用我们设计的加权的损失函数，我们将长公式的识别准确率从73.7％提升至76.2％。

测试

测试过程是指根据训练好的模型f(·)和图像数据x预测图像的latex公式y，预测值表示为：

整个测试过程可以分为三步：1.数据准备；2.模型预测；3.后处理。

在准备数据时，我们首先会按照训练中bucket的方式对图像进行加边，并且我们会将过大的图像进行降采样以提升模型的准确率和运行速度。

数据准备好之后，下一步就是将图像数据输入到模型中以得到公式图像的预测的latex公式的值。

除了预测公式，我们还会返回这个预测值的置信度，置信度的计算方式为：

其中p_i是第i个时间片的置信度；α是缩放权值，用于控制置信度的缩放程度；β是比例权值，用于控制平均置信度和最小置信度的比例。这两个值可以根据具体的模型效果和业务需求手动调整。

在得到预测值后我们会使用后处理对预测结果进行调整，例如纠正识别公式不符合Latex编译器的样本，预处理之后得到的结果就是模型的最终结果。

由于对数据的高质量清洗和对模型的针对性设计,我们提出的模型大幅提升了现有算法的最优准确率。对比业内领先的mathpix的85.5％的准确率，我们算法的准确率达到了93.4％。同时我们算法还支持化学公式识别，含中文字符的公式识别等其它模型不具备的识别能力。

图8示出了本发明提供的数理化公式自动识别装置的结构图。参见图8，数理化公式自动识别装置包括：中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统操作所需的各种程序和数据。CPU 801、ROM 802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

本领域普通技术人员应当理解的是，本发明提供的数理化公式自动识别模型训练装置也拥有类似于图8示出了数理化公式自动识别装置的结构。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，本领域技术人员利用上述揭示的技术内容做出些许简单修改、等同变化或修饰，均落在本发明的保护范围内。

Claims

1.一种数理化公式自动识别模型训练方法，其特征在于，包括：

采集属于不同数据源类型的数理化公式图像，以及所述数理化公式图像对应的公式文本；

利用所述公式图像及其对应的文本数据训练由基于多感受野的Inception结构的编码器神经网络，以及基于LSTM的解码器神经网络共同组成的自动识别模型。

2.根据权利要求1所述的数理化公式自动识别模型训练方法，其特征在于，对所述自动识别模型进行训练时，基于损失函数对所述自动识别模型进行训练所述损失函数根据如下公式给出：

3.根据权利要求1所述的数理化公式自动识别模型训练方法，其特征在于，所述不同数据源类型包括：公司内部数据、试卷中提取的Latex公式，以及通过变异策略产生的随机公式。

4.根据权利要求1所述的数理化公式自动识别模型训练方法，其特征在于，还包括：

在采集属于不同数据源类型的数理化公式图像之后，对采集到的所述数理化公式图像进行归一化。

5.根据权利要求1所述的数理化公式自动识别模型训练方法，其特征在于，还包括：

训练得到所述自动识别模型之后，对所述自动识别模型进行测试。

6.一种数理化公式自动识别方法，其特征在于，包括：

利用基于多感受野的Inception结构的编码器神经网络，将数理化公式图像识别为特征图像；

利用基于LSTM的解码器神经网络，将特征图像识别为文本。

7.根据权利要求6所述的数理化公式自动识别方法，其特征在于，还包括：

在利用基于多感受野的Inception结构的编码器神经网络，将数理化公式图像识别为特征图像之前，对来自不同数据源类型的数理化公式图像进行归一化处理；

所述归一化处理，包括：显示功能符号的归一化，以及结构相同符号的归一化。

8.根据权利要求7所述的数理化公式自动识别方法，其特征在于，利用基于LSTM的解码器神经网络，将特征图像识别为文本，包括：

将三维特征图按轴合并成一个的二维矩阵；

该二维矩阵经过一层注意力机制后会为每一个特征图学习一个权值；

同时LSTM中前一个时间片的隐层节点的输出经过Dropout处理后也将为每一个特征图学习一个权值；

将这两个权值的均值将作为最终的权值，并通过点乘的方式得到加权的特征图；

经过Dropout的LSTM隐层节点会经过一层全连接进行编码；

然后再和加权的特征图进行单位加后再经过一层Dropout和一层全连接作为下一个时间片的LSTM的隐层节点的输入；

训练标签数字化后经过word2vec编码成一组特征向量；

根据上一个LSTM时间片的输出也得到另一组特征向量；

将两组特征向量拼接之后输入到当前时间片的LSTM中；

经过一个LSTM的计算得到当前时间片的输出和隐层节点的状态；

依次按照标签作为时间片处理，最终整合所有每一个时间片的输出就是我们预测的输入图像对应的Latex公式。

9.一种数理化公式自动识别模型训练装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1至5任意一项所述的数理化公式自动识别模型训练方法。

10.一种数理化公式自动识别装置，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求6至8任意一项所述的数理化公式自动识别方法。