CN110084239B

CN110084239B - 降低离线手写数学公式识别时网络训练过拟合的方法

Info

Publication number: CN110084239B
Application number: CN201910287121.1A
Authority: CN
Inventors: 董兰芳; 刘汉超
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2022-09-06
Anticipated expiration: 2039-04-10
Also published as: CN110084239A

Abstract

本发明公开了一种降低离线手写数学公式识别时网络训练过拟合的方法，通过随机用同类型的字符类别样本替换当前样本，从而生成具有与原始样本不同的LaTeX标签的数学公式图像(新样本数据)，上述方式扩充了数据集的同时丰富了公式种类，实验证明相比仅对原始样本进行形变的数据生成方法更能降低过拟合影响，增强网络的泛化能力；在每次预训练或微调过程结束后通过打乱字符类别和类别号的对应关系，可以改变网络中训练数据的标签，从而强迫网络不过于依赖已学得的特征，令网络学习新的特征以适应变换，从而学习到更加泛化的特征，降低过拟合，实验证明，该方式可以在较大程度上提高基于注意力模型的编解码网络在CROHME数据集中的识别效果。

Description

降低离线手写数学公式识别时网络训练过拟合的方法

技术领域

本发明涉及图像处理与模式识别领域，尤其涉及一种降低离线手写数学公式识别时网络训练过拟合的方法。

背景技术

数学公式在数学、物理以及化学等学科的文档中非常常见。与普通的一维文本行不同，数学公式中的字符空间关系复杂，存在上下、左右、上标、下标和半包围等二维结构。由于数学公式的复杂的二维结构以及不常用的各类数学字符，将数学公式输入到电子文档的过程十分繁琐。数学公式识别技术可以方便地将数学公式图像(即离线图像) 或数学公式笔画序列(即在线数据)转换为电子文档中可编辑的公式格式，如LaTeX字符串。

离线的手写输入作为一种友好而便捷的方式，在人类历史中沿用上千年。然而由于手写数学公式图像中存在的难以分辨的手写数学字符、字符间发生的粘连以及数学公式本身存在的复杂二维结构对离线手写数学公式的识别造成了极大的挑战。

目前离线数学公式识别系统主要分为两类：(1)采用传统方式，将数学公式的识别问题分为字符分割、字符识别和公式分析等子问题，并依次解决；(2)采用基于深度学习的方法，通过训练神经网络，端到端的完成数学公式图像到LaTeX字符串的转换。

传统的离线手写数学公式识别方法由于首先需要在二维的数学公式图像中完成数学字符的分割，而数学公式本身的二维结构特别是手写笔画常见的粘连对数学字符的分割造成了极大的挑战。另一方面，传统的方法流水线的识别流程，会导致系统识别容错率减低，前期阶段出现的错误会被后期处理阶段所继承，从而导致最终识别结果的错误。

随着近几年深度学习的发展，基于深度学习的端到端的离线数学公式识别流程取得了较大的成功。端到端的离线数学公式识别网络模型一般为基于注意力机制(AttentionMechanism)的编解码(Encoder-Decoder)网络结构，即网络主要由编码器和解码器两部分组成，编码器一般采用卷积神经网络(Convolutional Neural Network，CNN)提取图像特征，解码器则根据注意力机制在每个时刻获得的权重对编码器获取的特征进行加权，并采用循环神经网络(Recurrent Neural Network，RNN)对当前时刻的加权特征进行解码，并通过在每个时刻的解码逐步完成数学公式图像到LaTeX字符串的转化。某些研究人员采用这种基于深度学习的方法，通过使用CNN和双向长短时记忆神经网络(Bidirectional LongShort-term Memory Neural Networks，BLSTM)完成对数学公式图像的编码，并用长短时记忆神经网络(Long Short-term Memory Neural Networks，LSTM)作为解码器对编码特征进行解码，在印刷体数学公式和离线手写数学公式识别问题中取得了良好的结果。还有一些研究人员通过采用DenseNet对图像进行特征提取，并改进了注意力模型，在解码器中采用两层的门限循环网络(Gated Recurrent Unit，GRU)进行解码，值得注意的是利用DenseNet提取的两个阶段的特征图，并用两个注意力模型分别进行加权并将结果进行串联送入解码器中，这种方法在目前在线手写数学公式识别竞赛(Competition on Recognition ofOnline Handwritten Mathematical Expressions，CROHME)数据集中取得了良好的结果。与传统的识别方法相比，基于深度学习的方法通过网络自动完成各个字符的分割、识别以及字符间位置关系的判断，具有更加优秀的识别效果。然而由于深度神经网络的训练需要大量的有标签数据，而对数据的标注工作会耗费大量人力物力，目前已有的数据集远不能满足深度神经网络的训练需求，因此容易造成过拟合并对这种方法的实用性造成了限制。

发明内容

本发明的目的是提供一种降低离线手写数学公式识别时网络训练过拟合的方法，可以以降低基于注意力机制的编解码网络的过拟合程度，从而进一步提升离线手写数学公式的识别效果。

本发明的目的是通过以下技术方案实现的：

一种降低离线手写数学公式识别时网络训练过拟合的方法，包括：

所述离线手写数学公式识别通过深度神经网络实现；

对所述深度神经网络进行训练之前，先进行数据集扩充，包括：将已有数据集中样本的LaTeX标签归一化；将LaTeX标签归一化的字符划分为若干组；在利用在线数据的笔画信息生成离线图像时，随机将当前字符替换为同一组中的其他字符，并对字符以及整个公式图像进行形变，从而生成具有与原数据样本不同的LaTeX标签的新样本数据；

对所述深度神经网络进行训练时，将训练阶段划分为预训练和微调两个阶段，在预训练结束后以及每一轮微调阶段结束后随机打乱前一阶段中数学字符类别对应的类别号。

由上述本发明提供的技术方案可以看出，通过随机用同类型的字符类别样本替换当前样本，从而生成具有与原始样本不同的LaTeX标签的数学公式图像(新样本数据)，上述方式扩充了数据集的同时丰富了公式种类，实验证明相比仅对原始样本进行形变的数据生成方法更能降低过拟合影响，增强网络的泛化能力；在每次预训练或微调过程结束后通过打乱字符类别和类别号的对应关系，可以改变网络中训练数据的标签，从而强迫网络不过于依赖已学得的特征，令网络学习新的特征以适应变换，从而学习到更加泛化的特征，降低过拟合，实验证明，该方式可以在较大程度上提高基于注意力模型的编解码网络在CROHME数据集中的识别效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种离线手写数学公式识别方法的流程图；

图2为本发明实施例提供的一种降低离线手写数学公式识别时网络训练过拟合的方法的流程图；

图3为本发明实施例提供的已有数据集中样本示意图；

图4为本发明实施例提供的已有样本数据与生成的新样本数据对比示例；

图5为本发明实施例中的训练方式流程图；

图6为本发明实施例提供的改变字符类别和类别号的对应关系示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种降低离线手写数学公式识别时网络训练过拟合的方法，所述离线手写数学公式识别通过深度神经网络实现，虽然基于深度学习的方法较传统方法具有更优异的性能，然而由于目前数据较少，难以较好地满足训练深度神经网络的需求，因此容易产生过拟合，降低识别效果。如图1所示，为离线手写数学公式识别方法的流程图。

本发明的目的在于降低过拟合，通过使用现有的数据扩充训练集并通过优化训练策略的方式提升网络性能，如图2所示，其主要包括：

1、对所述深度神经网络进行训练之前，先进行数据集扩充，包括：将已有数据集中样本的LaTeX标签归一化；将LaTeX标签中的字符类别划分为若干组；在利用在线数据的笔画信息生成离线图像时，随机将当前字符替换为同一组中的其他字符，并对字符以及整个公式图像进行形变，从而生成具有与原数据样本不同的LaTeX标签的新样本数据；

2、对所述深度神经网络进行训练时，将训练阶段划分为预训练和微调两个阶段，在预训练结束后以及每一轮微调阶段结束后随机打乱前一阶段中数学字符类别对应的类别号。

为了便于理解，下面针对上述两个过程分别进行详细的介绍。

一、数据集扩充。

数据集扩充的策略主要是通过利用在线数据中各个字符的笔画信息，在将在线数据转换为离线数据的过程中，通过随机替换字符，并对字符以及整个公式数据进行形变的方法生成新的数学公式图像样本，且该样本具有与原样本不同的LaTeX标签。主要分为LaTeX标签归一化、字符归类以及新样本的生成三个部分，下面依次介绍这三个部分的实现方式。

1、LaTeX标签归一化。

由于不同的LaTeX标签可以表达相同的数学公式，如“\frac 1 2 a^2_1”和“\frac{1} {2}a_1{2}”都表示

而不同风格的训练标签会导致网络难以学习到图像和LaTeX字符串的关联，因此首先对已有数据的LaTeX标签进行归一化。

对LaTeX标签归一化的方式包括：

1)用空格将每个标记相互隔开，其中\sin、\cos、\tan、\log、以及\lim标记均分别作为一个整体；

2)仅用一对符号{}包含住上标、下标、分子、分母以及根号中的子公式，并去除多余的符号{}；

3)对于同时具有上标和下标的字符，对应的LaTeX字符串先标记下标，再标记上标；

4)将LaTeX标签中的im、ctdot、infin、rarr、hellip、ne、ge和le分别转换为\lim、\cdots、\infty、\rightarrow、\ldots、\neq、\geq和\leq；将\lt和&gt转换为<；将\gt和&gt转换为>。

本领域技术人员可以理解，上述LaTeX标签归一化方式中所涉及的各个标记与符号均为本领域常用表示形式。

示例性的，图3示意性的给出了三个已有数据集中样本；对于第一个样本，即(a)部分，其原始标签为:[b^x\{(\frac a b)^x+1\}]^{\frac 1x}；归一化后为:[b^{x} \{(\frac{a}{b})^{x}+1\}]^{\frac{1}{x}}。对于第二个样本，即(b)部分，其原始标签:{\mbox{C}}^{{F+\mbox{m}}}；归一化后为:C^{F+m}。对于第三个样本，即(c)部分，其原始标签为:g(x,y)＝\sqrt[3]{x-y}+\sqrt{|x+y|}；归一化后为:g(x,y)＝\sqrt[3]{x-y}+\sqrt{|x+y|}。

2、字符归类。

本发明实施例中，根据字符的形状及类别将常用的字符分为若干个组，包括：根据字符的形状及类别将常用的101类数学字符划分为13组，如表3所示：

表3字符归类结果

其中“字符不可替换组”和“类别不可替换组”较为特殊。由于在替换的过程中需要将替换的字符进行尺度变换使得替换的字符和被替换的字符具有相同的大小(即具有相同的包围盒)，而考虑到有些字符难以进行尺度变换，如“,”、“\prime”和“.”等，因此本发明中将这些字符划为“字符不可替换组”，即属于这一组的字符不能被替换。另一方面，由于某些类字符没有与之相似的字符如“\rightarrow”、“\sum”和“\exists”，且某些类字符样本的包围盒长宽比较为特殊如“|”、“1”和“l”等，因此我们将这些字符放入“类别不可替换组”中，即属于该组中的字符仅能被同类字符样本所替代。在选择单个字符样本时，本发明提取的CROHME 2016训练集中单个字符的在线样本，并剔除了其中包含10 个采样点以下样本。

3、新样本的生成。

本发明实施例中，新样本的生成主要思想为在线数据转换为离线图像的过程中，通过将公式中的若干个字符使用与其在同一组中的其他字符进行替换，并改变对应的LaTeX 标签，同时，在替换字符时对用于替换的字符进行了Shear变换，并在整个公式生成后对公式整体进行了弹性形变变换(Elastic Distortion)和旋转变换；其中，在线数据是指数学公式笔画序列，离线图像是指数学公式图像。

本发明实施例中，进行Shear变换包括：进行竖直Shear变换或者水平Shear变换；其中：

竖直Shear变换公式为：

水平Shear变换公式为：

上式中，(x,y)、(x′,y′)分别表示变换前、后的点的横纵坐标，θ为变换角度。

本发明实施例中，所述弹性形变变换是将与图像大小相同的两个随机矩阵Δx和Δy分别与n×n大小且标准差为σ的高斯核进行卷积操作，得到Δconv_x和Δconv_y，其中Δconv_x(x,y)和、Δconv_y(x,y)分别为Δconv_x、Δconv_y在x行y列上的元素值，表示原图中位于(x,y)位置的像素点在水平上移动Δconv_x(x,y)距离、在竖直上移动Δconv_y(x,y)距离。

如图4所示，(a)～(b)两部分给出了已有样本数据与生成的新样本数据对比示例。其中：(a)部分的左侧为已有样本数据，其LaTeX标签为:S＝(\sum_{i＝1}^ {n}\theta_{i}-(n-2)\pi)r^{2}；右侧为生成的新样本数据，其LaTeX标签为:V＝ (\sum_{i＝1}^{a}\theta_{i}-(n-4)\alpha)s^{2}。(b)部分的左侧为已有样本数据，其LaTeX标签为:\frac{l-a}{n}\leq\alpha；右侧为生成的新样本数据，其 LaTeX标签为:\frac{b-w}{n}\leq\alpha。

需要说明的是，图3～图4所示的手写数学公式形式仅用于示例性的说明，图中内容也仅仅是示例并非作为限制，并且图中的内容对于本领域技术人员而言是清楚的。

新样本的生成可以用相应算法来实现，表2示意性的给出了相应的代码：

表2新样本生算法

二、优化训练策略

图5为本发明实施例中的训练方式流程图，本发明实施例中，训练策略分为预训练过程和若干轮微调过程，预训练使用数据集扩充时生成的新样本数据，微调阶段则使用数据集中已有样本数据。预训练结束后中随机打乱前一阶段中数学字符类别对应的类别号后进入微调阶段；微调阶段中包含多轮微调，每轮微调结束后改变一定比例的数学字符类别对应的类别号并进入下一轮微调。

图6为改变字符类别和类别号的对应关系示意图，其中虚线为改变前的对应关系，实线为改变后的对应关系。由于每次打乱数学字符类别对应的类别号即改变了网络中训练样本的标签，需要网络学习这种改变，本发明的训练策略令网络不过于依赖于已学得的网络到字符类别的映射方式，需要网络在已学得的特征基础上继续学习新的特征，从而降低过拟合的影响。通过将训练过程划分为多个阶段，使得网络不断学习提取不同于以前阶段的特征以适应字符类别对应关系的改变。值得注意的是，本发明没有改变结束符 <eol>的对应类标号。

本发明实施例上述方案所获得的有益效果如下：

本发明着力降低基于注意力模型的编解码深度神经网络在对离线手写体数学公式识别的任务中产生的过拟合影响。本发明从两个角度出发，即数据扩充和优化训练策略。

1)在数据扩充方面，本发明提出了一种基于已有的在线数学公式数据，通过随机用同类型的字符类别样本替换当前样本，从而生成具有与原始样本不同的LaTeX标签的数学公式图像。在该阶段中，本发明首先完成了LaTeX字符串的归一化过程，然后根据字符类别和形状对常见的101类数学字符进行分组，最后在将在线数据转换为离线图像的过程中使用同组中的字符样本随机替换当前字符，并对字符以及整个公式进行形变操作，最终生成新的样本。这种生成具有新的LaTeX标签的样本生成方法在扩充了数据集的同时丰富了公式种类，实验证明相比仅对原始样本进行形变的数据生成方法更能降低过拟合影响，增强网络的泛化能力。另一方面，由于该数据生成方法是对在线数据进行的操作，因此本发明同样可以生成具有新的LaTeX标签的在线数学公式样本。

2)在优化训练策略方面，本发明提出了一种随机打乱字符类别与字符号对应关系的训练方法，在该训练方法中分为预训练过程和微调过程。在每次预训练或微调过程结束后通过打乱字符类别和类别号的对应关系，可以改变网络中训练数据的标签，从而强迫网络不过于依赖已学得的特征，令网络学习新的特征以适应变换，从而学习到更加泛化的特征，降低过拟合。实验证明，本发明可以在较大程度上提高基于注意力模型的编解码网络在CROHME数据集中的识别效果。

综上，本发明在数据扩充和优化训练策略方法上可以进一步降低由于训练数据样本少对深度神经网络造成的过拟合的影响，增强网络泛化能力，提升识别效果。

为了说明本发明的效果还进行相应的测试实验。

本方法实施的实验环境和测试的应用数据如下：

CPU：Intel Core(TM)i5-8400 2.80GHz

内存：16GB

显卡：NVIDIA GTX 1080Ti(11GB)

操作系统：Ubuntu 16.04

应用数据：CROHME 2016训练集及测试集(在线形式)

1、LaTeX标签的归一化

按照本方法中提出的归一化策略对CROHME 2016中所有样本的LaTeX标签进行归一化操作。

2、字符样本分组

CROHME 2016数据集中包含了101类常用的数学字符，表3 为本方法为该101类字符分组结果。

3、新样本生成

本方法采用在线数据生成公式图像，CROHME 2016数据集中字符样本为“.inkml”文件格式，该文件中记录了公式书写时每个笔画的采样点，格式如下：

x₁y₁,x₂y₂,…,x_ny_n

</trace>

其中，trace id＝“0”表示该笔画的索引为0，x_my_m分别表示该采样点的横纵坐标。每个字符由若干个笔画组成，其具体格式如下：

</traceGroup>

其中第一行表示该笔画组索引为6，第二行表示该笔画组对应的字符为“t”，第三、四行表示该笔画组由索引为0和1的笔画组成。

本方法中依次读取该类在线数据文件，并按照表2所示算法生成数据，在本方法中threshold₁₁＝0.4,threshold₁₂＝0.3,threshold₂＝0.5；对字符进行Shear变换中 20°≤θ≤35°或-25°≤θ≤-20°；在弹性形变算法中取n＝110，σ＝4；在公式的旋转变换中取旋转角度为[-15°,15°]。最终将生成的图像样本等比例归一化为高度为128像素的图像，若归一化后图像宽度大于2000像素则再次等比例归一化该图像，并保持该图像宽度为2000像素。

4、训练策略优化

本方法中通过随机打乱字符类别对应的类别数从而改变训练样本在网络中的标签，达到降低过拟合的结果。在本方法中随机打乱的字符比例设置为总字符数的 80％～100％，且微调轮数一般设为3～5轮。

5、测试结果

为验证本发明的效果，对基于注意力机制的编解码网络在CROHME 2014和 CROHME2016数据集中进行了测试，其中编码网络采用DenseNet，解码网络采用GRU 网络。测试共分4组，第1组没有使用本发明中的任何方法、第2组仅使用本发明中的数据生成方法以扩充数据集、第3组仅使用了本发明中的训练策略优化方法、第4组中使用了本发明中的数据生成方法和训练策略优化方法。经测试，在CROHME 2014数据集中，第 1、2、3、4组公式识别正确率分别为39.25％、49.39％、48.78％和54.97％；在 CROHME 2016数据集中，第1、2、3、4组公式识别正确率分别为38.34％、51.35％、 54.32％和57.55％。可以看出使用单独使用本发明中的数据生成方法或训练策略优化方法可以显著提高识别正确率，同时使用这两种方法时可以进一步提高识别正确率。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种降低离线手写数学公式识别时网络训练过拟合的方法，其特征在于，包括：

所述离线手写数学公式识别通过深度神经网络实现；

对所述深度神经网络进行训练时，将训练阶段划分为预训练和微调两个阶段，在预训练结束后以及每一轮微调阶段结束后随机打乱前一阶段中数学字符类别对应的类别号；

其中，根据字符的形状及类别将常用的字符分为若干个组，分组至少包括如下类别：字符不可替换组、类别不可替换组、操作符组、数字组、大写字符组、正常小写字符组、上升小写字符组、下降小写字符组、正常希腊字符组、上升希腊字符组、下降希腊字符组、关系运算符组、以及三角运算符组；其中，字符不可替换组是指属于这一组的字符不能被替换；类别不可替换组是指属于这一组中的字符仅能被同类字符样本所替代；

所述预训练使用数据集扩充时生成的新样本数据，微调阶段则使用数据集中已有样本数据；且预训练结束后随机打乱预训练阶段中数学字符类别对应的类别号后进入微调阶段；微调阶段中包含多轮微调，每轮微调结束后改变一定比例的数学字符类别对应的类别号并进入下一轮微调。

2.根据权利要求1所述的一种降低离线手写数学公式识别时网络训练过拟合的方法，其特征在于，对LaTeX标签归一化的方式包括：

用空格将每个标记相互隔开，其中\sin、\cos、\tan、\log、以及\lim标记均分别作为一个整体；

仅用一对符号{}包含住上标、下标、分子、分母以及根号中的子公式，并去除多余的符号{}；

对于同时具有上标和下标的字符，对应的LaTeX字符串先标记下标，再标记上标；

将已有LaTeX标签中的im、ctdot、infin、rarr、hellip、ne、ge和le分别转换为\lim、\cdots、\infty、\rightarrow、\ldots、\neq、\geq和\leq；将\lt和&gt转换为<；将\gt和&gt转换为>。

3.根据权利要求1所述的一种降低离线手写数学公式识别时网络训练过拟合的方法，其特征在于，生成新样本数据的方式包括：

在线数据转换为离线图像的过程中，通过将公式中的若干个字符使用与其在同一组中的其他字符进行替换，并改变对应的LaTeX标签，同时，在替换字符时对用于替换的字符进行了Shear变换，并在整个公式生成后对公式整体进行了弹性形变变换和旋转变换；其中，在线数据是指数学公式笔画序列，离线图像是指数学公式图像。