CN115205874A

CN115205874A - 一种基于深度学习的离线手写数学公式识别方法

Info

Publication number: CN115205874A
Application number: CN202210863002.8A
Authority: CN
Inventors: 刘巧红; 韩啸翔; 林元杰
Original assignee: Shanghai University of Medicine and Health Sciences
Current assignee: Shanghai University of Medicine and Health Sciences
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-10-18

Abstract

本发明公开了一种基于深度学习的离线手写数学公式识别方法，包括：利用深度学习的编码器解码器处理流程，使用多尺度DenseNet结合GCA对图像内容进行编码，并使用Transformer对编码的特征进行解码，同时引入了双向训练策略和互学习机制，从而端到端的处理离线手写数学公式识别问题；设计了图形化界面上鼠标模拟手写输入，利用训练好的编码器解码器模型对手写公式进行识别，并给出识别的Latex字符串。本发明具有识别准确率高，泛化性能好，处理流程简便等优点。

Description

一种基于深度学习的离线手写数学公式识别方法

技术领域

本发明属于模式识别与人工智能技术领域，特别是涉及一种基于深度学习的离线手写数学公式识别方法。

背景技术

随着智能化应用的发展，手写输入和识别技术应智能手机、平板电脑、电子手写板等移动终端的应用需求而受到关注。其中，手写数学公式的自动识别在智能化阅卷、人机交互以及学术论文写作工具等应用中成为了不可缺少的一部分。手写数学公式识别可以分为联机数学公式识别和离线数学公式识别两类任务，目的是将手写公式图像或者手写公式笔画序列转化为电子文档中可以编辑的公式格式。对比于联机数学公式识别可以借助公式书写时的时序和轨迹等信息进行识别，离线数学公式识别仅仅只有公式图像可以利用，识别难度更大。

传统的手写数学公式识别方法常常依赖于先验知识去定义数学表达式结构、符号位置关系和相应的解析算法等，通常分为字符分割、字符识别、结构分析三个阶段完成对公式的整体识别。传统的识别方法不仅过程繁琐，在字符识别阶段过于依赖人工提取特征，泛化能力不强，对于复杂的数学公式的识别效果不好。

发明内容

本发明的目的是提供一种基于深度学习的离线手写数学公式识别方法，以解决上述现有技术存在的问题。

为实现上述目的，本发明提供了一种基于深度学习的离线手写数学公式识别方法，包括：

构建手写数学公式识别图像数据集，对所述数据集进行预处理；

建立具有编码器和解码器结构的端到端神经网络模型；

将经过预处理后的数学公式图像数据集输入所述端到端神经网络模型中进行训练，得到训练完成的离线手写数字公式识别模型；

获取手写数学公式图像，基于所述离线手写数字公式识别模型对所述手写数学公式图像进行识别，获取相应的Latex公式。

可选的，所述手写数学公式识别图像数据集包括原始手写数学公式图像和对应的Latex字符串标签。

可选的，所述手写数学公式识别图像数据集的预处理过程包括：对所述原始手写数学公式图像依次进行灰度处理、利用中值滤波进行增强处理，去除干扰性的噪声、二值化处理，得到黑底白字的二值图像。

可选的，所述编码器是由多尺度融合的密集连接的卷积网络DenseNet和全局上下文注意力GCA组成的级联卷积神经网络CNN，其中，每一个DenseNet接一个GCA。

可选的，所述编码器有两个输出，其中，一个输出是经过所述CNN中的三个所述DenseNet后产生的第一特征图，另一个输出是由第三个所述DenseNet经过上采样后输出的特征图与第二个DenseNet的特征图进行拼接后得到的第二特征图。

可选的，所述解码器主体结构采用Transformer中的解码器，并采用双向互学习策略，其中，在Latex序列的前后增加两个不同的特殊符号用来标记开始和结束，双相互学习策略指采用从左到右和从右到左两个相反方向进行训练。

可选的，所述第一特征图与所述第二特征图经过图像位置编码后作为所述解码器的两个输入。

可选的，词向量的位置编码采用正弦位置编码，过程包括：

其中，位置pos和维度d作为输入，i表示维度中的索引，词向量为Latex符号标签经编码后的向量。

可选的，所述图像位置编码采用了二维规范化位置编码，过程包括：分别在两个维度计算正弦位置编码

并将其进行拼接，设定一个二维位置矩阵(x,y)和与单词位置编码相同的维度d，图像位置编码向量的计算过程如下：

其中，H和W分别表示输入图像的高度和宽度，

和

分别表示规范化后的图像x方向与y方向的位置嵌入，

表示图像位置编码向量，

为图像x方向的位置编码,

为y方向的位置编码。

可选的，在所述训练的过程中，对于所述解码器的两个分支输出的概率分布，将两个方向的解码分支通过Kullback-Leibler损失函数在每个时间步上对Transformer解码器输出的软概率作为标签进行交互学习；采用标准的交叉熵损失函数计算每个解码位置上预测值与真实值之间的损失；总损失函数为最小化两个分支的交叉熵损失与互学习的Kullback-Leibler损失函数损失之和组成如下：

其中，

和

分别表示两个方向的交叉熵损失函数，L_KL表示Kullback-Leibler损失函数，λ是用于平衡两种损失的超参数；

训练中采用了优化器，优化器为Adadelta算法。

本发明的技术效果为：

1)本发明利用深度学习的编码器解码器结构的端到端处理流程，简化了传统识别方法中分为字符分割、字符识别、结构分析三个阶段的识别过程，增强了容错能力，提升识别准确性。

2)本发明在编码器中采用了DenseNet和GCA的级联结构进行图像特征提取，并构建了一个多尺度网络模型，针对手写数字图像中存在的字符大小差异等问题，建立不同的感受野，并结合全局上下文注意力模块，从而获得更多的全局信息。

3)本发明在解码器中采用了Transformer对编码的特征进行解码，克服传统L2R单向编码带来的输出不平衡问题，改进为L2R和R2L双向训练策略，并在同一个Transformer解码器上执行L2R和R2L双向解码，从符号之间的正向和反向捕获上下文信息和复杂的语义信息，更好地识别提取特征之间的前后关系，获得正确的识别结果。

4)本发明模拟了手写输入的效果，设计了UI界面用于输入，并将经过编码器解码器模型的识别结果显示出来。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例中的离线手写数学公式识别方法的流程示意图；

图2为本发明实施例中的编码器结构示意图；

图3为本发明实施例中的解码器结构示意图；

图4为本发明实施例中的一个手写数学公式及其识别结果的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

如图1-4所示，本实施例中提供一种基于深度学习的离线手写数学公式识别方法，包括：

构建手写数学公式识别图像数据集，对数据集进行预处理；

建立具有编码器和解码器结构的端到端神经网络模型；

将经过预处理后的数学公式图像数据集输入端到端神经网络模型中进行训练，得到训练完成的离线手写数字公式识别模型；

获取手写数学公式图像，基于离线手写数字公式识别模型对手写数学公式图像进行识别，获取相应的Latex公式。

在一些实施例中，手写数学公式识别图像数据集包括原始手写数学公式图像和对应的Latex字符串标签。

在一些实施例中，手写数学公式识别图像数据集的预处理过程包括：对原始手写数学公式图像依次进行灰度处理、利用中值滤波进行增强处理，去除干扰性的噪声、二值化处理，得到黑底白字的二值图像。

在一些实施例中，编码器是由多尺度融合的密集连接的卷积网络DenseNet和全局上下文注意力GCA组成的级联卷积神经网络CNN，其中，每一个DenseNet接一个GCA。

在一些实施例中，编码器有两个输出，其中，一个输出是经过CNN中的三个DenseNet后产生的第一特征图，另一个输出是由第三个DenseNet经过上采样后输出的特征图与第二个DenseNet的特征图进行拼接后得到的第二特征图。

在一些实施例中，解码器主体结构采用Transformer中的解码器，并采用双向互学习策略，其中，在Latex序列的前后增加两个不同的特殊符号用来标记开始和结束，双相互学习策略指采用从左到右和从右到左两个相反方向进行训练。

在一些实施例中，第一特征图与第二特征图经过图像位置编码后作为解码器的两个输入。

在一些实施例中，词向量的位置编码采用正弦位置编码，过程包括：

在一些实施例中，图像位置编码采用了二维规范化位置编码，过程包括：分别在两个维度计算正弦位置编码

其中，H和W分别表示输入图像的高度和宽度，

和

分别表示规范化后的图像x方向与y方向的位置嵌入，

表示图像位置编码向量，

为图像x方向的位置编码,

为y方向的位置编码。

在一些实施例中，在训练的过程中，对于解码器的两个分支输出的概率分布，将两个方向的解码分支通过Kullback-Leibler损失函数在每个时间步上对Transformer解码器输出的软概率作为标签进行交互学习；采用标准的交叉熵损失函数计算每个解码位置上预测值与真实值之间的损失；总损失函数为最小化两个分支的交叉熵损失与互学习的Kullback-Leibler损失函数损失之和组成如下：

其中，

和

训练中采用了优化器，优化器为Adadelta算法。

实施例二

如图1所示，本实施例中提供一种基于深度学习的离线手写数学公式识别方法，包括：

S1)构建手写数学公式识别图像数据集，数据集包括原始手写数学公式图像和对应的Latex字符串标签，并对原始的手写数学公式图像进行预处理。

本实施例的数据来自CROHME竞赛的数据集，其中CROHME2014的8836张数学公式图片及其对应的Latex标签作为训练集数据，公式中涉及到111种数学符号，涵盖了数字和几乎所有常见符号。测试集由CROHME 2014、CROHME 2016和CROHME 2019的三个测试集数据组成。另外，为了验证本方法的泛化性能，另外采用了HME10k数据集对模型进行评价。具体实验数据集分布如表1所示。

表1

数据集	数据集来源	数据集数量
			训练集	CROHME2014	8836
测试集	CROHME2014	986
			测试集	CROHME2016	1147
测试集	CROHME2019	1199
			训练集	HME100k	80000
测试集	HME100k	20000

本发明实例在训练模型前，为了去除光照、噪声等对图像质量的影响，利用中值滤波对图像进行增强处理。所有的图像进行二值化处理，转化为黑色为背景，白色为手写字迹的二值图像。本实例未对数据集做数据增广处理，直接采用原始数据集的数据量进行模型训练，从而有效减少模型训练过程中的运算量，提高训练速度。

S2)建立编码器解码器结构的端到端神经网络模型。

本发明实施例中，编码器是由多尺度融合的DenseNet和全局上下文注意力(Global Context Attention，GCA)组成的级联卷积神经网络(Convolutional NeuralNetwork，CNN)，其结构示意图如图2所示。DenseNet通过当前层与之前所有层之间的密集连接机制，实现特征重用，从而提升效率。针对手写数学公式中符号字体大小尺度不一等特点，DenseNet可以利用不同尺度特征图上的密集连接更好地反映出不同大小字符的尺度特征，有利于后续解码不同位置大小字符的含义。在第l层的输出特征与之前所有层的输出有关，计算公式如下：

X_l＝H_l([X₀；X₁；…；X_l-1])

其中，[X₀；X₁；…；X_l-1]代表所有输出特征图的拼接操作，H_l表示批量归一化(BN)层、ReLU层和3×3卷积(Conv)层的非线性组合操作。

如图2所示，本发明实施例的编码器有两个输出，第一个输出特征是由主干CNN结构提取，由一个7×7的卷积层，一个最大池化层，一个DenseNet块和GCA块的组合，一个平均池化层，第二个DenseNet块和GCA块的组合，一个平均池化层，第三个DenseNet块和GCA块的组合，最后接一个层归一化操作组成。第二个输出特征是由第二个和第三个DenseNet块经过上采样后拼接组成的多尺度分支。编码器的两个尺度的输出，利用了数学公式图像的多尺度信息，提取不同大小感受野中的特征，在不同分辨率上识别数学符号，解决池化操作带来的信息丢失问题，从而获得更加丰富的语义信息。全局上下文注意力GCA模块是一种轻量级的模块，将其方便的嵌入到网络框架的DenseNet块后，主要用于更好地捕获长距离依赖关系，获得全局上下文信息。

本发明实施例中，解码器设计了一个基于双向互学习策略的Transformer结构，其结构示意图如图3所示。Transformer解码器主要由缩放点乘注意力、多头注意力、位置前馈网络，具体的计算过程如下：

MultiHead(Q,K,V)＝[H₁；…；H_h]W^o

FFN(x)＝max(0,xW₁+b₁)W₂+b₂

Attention(Q,K,V)是缩放点乘注意力的计算，H_i和MultiHead(Q,K,V)是多头注意力的计算，FFN(x)是位置前馈网络的计算。

由于Transformer对于每个输入向量的位置信息没有识别能力，本发明实施例对于图像和词向量分别进行位置编码。词位置编码采用了原始的Transformer中使用的正弦位置编码，其计算过程如下：

其中，位置pos和维度d作为输入，i表示维度中的索引。

图像位置编码采用了二维规范化位置编码，首先在两个维度分别计算正弦位置编码

并将其进行拼接。给定一个二维位置矩阵(x,y)，和与单词位置编码相同的维度d，图像位置编码向量的计算过程如下：

其中，H和W表示输入图像的高度和宽度。

本发明实施例采用双向训练策略，在Latex序列的前后增加两个特殊的符号<sos>和<eos>用来标记开始和结束。例如对于一个长度T的目标序列Y＝{Y₁,Y₂,…,Y_T}，L2R序列表示为Y_L2R＝{<sos>,Y₁,Y₂,…,Y_T,<eos>}，R2L序列表示为Y_R2L＝{<eos>,Y₁,Y₂,…,Y_T,<sos>}。由于Transformer模型本身并不关心输入符号的顺序，本发明实施例中采用了单个Transformer解码器进行双向语言建模，同时计算两个方向的概率分布，计算过程如下：

其中，x表示图像，θ表示模型参数。

本发明实施例针对每个训练样本，都会从目标Latex序列中生成两个目标序列L2R和R2L，并且计算两个方向的损失。

本发明实施例引入自蒸馏思想，将两个方向的解码分支通过Kullback-Leibler(KL)损失函数在每个时间步上对预测的软概率作为标签进行交互学习，对于k个字符类别，L2R的软概率分布定义为：

其中，S表示生成概率标签的温度参数，

表示解码器网络计算的该序列的第i个符号的对数，软概率即为Transformer解码器中最后的Softmax函数计算所得。由于本发明实例的目标是最小化两个分支的概率分布，由此可以得到L2R和R2L两个分支的KL距离，计算过程如下：

其中，S²确保了真实值与对方分支的概率分布可以对模型训练做出可比较的作用。

S3)将经过预处理后的数学公式图像数据集输入编码器解码器模型中进行训练，得到训练完成的离线手写数字公式识别模型。

本发明实施例采用了CROHME和HME10k两种数据集对模型进行训练和验证，具体的数据集组成如表1所示。

本发明实施例总损失函数为最小化两个分支的交叉熵损失与互学习的KL损失之和组成如下：

其中，

和

分别表示两个方向的交叉熵损失函数，L_KL表示KL损失函数，λ是用于平衡两种损失的超参数。

训练中采用的优化器为Adadelta算法，权重衰减设置为10^-4。硬件条件魏NVIDIA2080Ti GPUs 11G×2，Ubuntu 18.04LTS 64位操作系统，开发工具Python3.7和PyTorch框架。

本发明实施例在几个测试集上与现有几种性能较好的算法(包括DWAP、DWAP-TD、BTTR)进行了对比，结果如表2所示，与现有的几种算法相比，可以看出本发明提出的模型在手写数学公式识别任务上有着较高的的准确率。在CROHME 2014上准确率超出了BTTR方法2.84％，同时，≤1的准确率和≤2的准确率分别超出BTTR方法5.25％和6.57％。在CROHME2016和CROHME 2019上本发明超出了BTTR方法1.03％和1.66％。在HME100K上本发明的三个识别准确率也取得了优越的性能。从比较结果可以看出，本发明能够很好的解决手写数学公式识别的问题，识别准确率高，同时也具有良好的泛化性能。

表2

S4)在图形化界面利用鼠标手写输入数学公式，通过编码器对图像进行编码后，再用解码器对图像中的各个字符进行解码，给出最终的Latex格式的字符串，完成对公式的识别，并显示在图形化界面上。如图4所示的公式进行识别后的Latex字符串为“\frac{x+y}{\sqrt{3}}＝5”。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，还可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于深度学习的离线手写数学公式识别方法，其特征在于，包括以下步骤：

建立具有编码器和解码器结构的端到端神经网络模型；

2.根据权利要求1所述的基于深度学习的离线手写数学公式识别方法，其特征在于，所述手写数学公式识别图像数据集包括原始手写数学公式图像和对应的Latex字符串标签。

3.根据权利要求2所述的基于深度学习的离线手写数学公式识别方法，其特征在于，所述手写数学公式识别图像数据集的预处理过程包括：对所述原始手写数学公式图像依次进行灰度处理、利用中值滤波进行增强处理，去除干扰性的噪声、二值化处理，得到黑底白字的二值图像。

4.根据权利要求1所述的基于深度学习的离线手写数学公式识别方法，其特征在于，所述编码器是由多尺度融合的密集连接的卷积网络DenseNet和全局上下文注意力GCA组成的级联卷积神经网络CNN，其中，每一个DenseNet接一个GCA。

5.根据权利要求4所述的基于深度学习的离线手写数学公式识别方法，其特征在于，所述编码器有两个输出，其中，一个输出是经过所述CNN中的三个所述DenseNet后产生的第一特征图，另一个输出是由第三个所述DenseNet经过上采样后输出的特征图与第二个DenseNet的特征图进行拼接后得到的第二特征图。

6.根据权利要求5所述的基于深度学习的离线手写数学公式识别方法，其特征在于，所述解码器主体结构采用Transformer中的解码器，并采用双向互学习策略，其中，在Latex序列的前后增加两个不同的特殊符号用来标记开始和结束，双相互学习策略指采用从左到右和从右到左两个相反方向进行训练。

7.根据权利要求6所述的基于深度学习的离线手写数学公式识别方法，其特征在于，所述第一特征图与所述第二特征图经过图像位置编码后作为所述解码器的两个输入。

8.根据权利要求1所述的基于深度学习的离线手写数学公式识别方法，其特征在于，词向量的位置编码采用正弦位置编码，过程包括：

9.根据权利要求7所述的基于深度学习的离线手写数学公式识别方法，其特征在于，所述图像位置编码采用了二维规范化位置编码，过程包括：分别在两个维度计算正弦位置编码

其中，H和W分别表示输入图像的高度和宽度，

和

分别表示规范化后的图像x方向与y方向的位置嵌入，

表示图像位置编码向量，

为图像x方向的位置编码,

为y方向的位置编码。

10.根据权利要求1所述的基于深度学习的离线手写数学公式识别方法，其特征在于，在所述训练的过程中，对于所述解码器的两个分支输出的概率分布，将两个方向的解码分支通过Kullback-Leibler损失函数在每个时间步上对Transformer解码器输出的软概率作为标签进行交互学习；采用标准的交叉熵损失函数计算每个解码位置上预测值与真实值之间的损失；总损失函数为最小化两个分支的交叉熵损失与互学习的Kullback-Leibler损失函数损失之和组成如下：

其中，

和

训练中采用了优化器，优化器为Adadelta算法。