CN116110059A

CN116110059A - 一种基于深度学习的离线手写数学公式识别的方法

Info

Publication number: CN116110059A
Application number: CN202310022055.1A
Authority: CN
Inventors: 金秋; 周彭滔; 邓嘉; 董逢华
Original assignee: Wuhan Tianyu Information Industry Co Ltd
Current assignee: Wuhan Tianyu Information Industry Co Ltd
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-05-12

Abstract

一种基于深度学习的离线手写数学公式识别的方法，包括：构建手写公式数据集，并对手写公式数据集进行预处理；构建具有编码器和解码器结构的端到端神经网络模型；通过预处理后的手写公式数据集对构建的神经网络模型进行训练和优化，生成最优的手写数学公式识别神经网络模型。本发明提出了特征增强策略，通过添加时序特征提取模型，对时序方面进行特征增强并有效建模公式图像中的上下文信息。本发明提出通过添加多尺度计数模块，来使注意力更加准确，同时，计数结果可以表示符号的数量，可以作为额外的全局信息，来提高识别的准确性。本发明提出多种优化策略，在不增加模型大小的情况下进一步提升模型识别的精度。

Description

一种基于深度学习的离线手写数学公式识别的方法

技术领域

本发明涉及的是机器学习领域，特别涉及一种基于深度学习的离线手写数学公式识别的方法。

背景技术

随着人工智能的应用飞速发展，识别手写输入和墨水屏、智能手机等移动终端的应用受到的关注越来越多。其中，手写数学表达式识别(HMER)在智能教育、人机交互和学术论文写作辅助工具等多个应用场景成为不可或缺的一部分。手写数学表达式识别是将图像转化为Latex序列并输出，目前传统的手写数学表达式识别方法总是依赖于特殊设计的语法，这些语法需要广泛的先验知识来定义数学表达式结构、符号的位置关系和相应的解析算法，因此它们不能识别复杂的数学表达式。近年来，基于注意力的编码-解码器模型已被应用于手写数学表达式识别，因其在机器翻译、语音识别等方面明显优于基于语法的方法。

然而，现有技术中，对于真实场景下的数学公式中必然存在的顺序混乱、写字不清晰等问题，仍没有很好的解决方法，基于目前识别模型存在的识别准确性低，以及手写体数字的识别自有特点，本发明提出了一种基于编解码及自注意力的模型来识别手写数学公式。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于深度学习的离线手写数学公式识别的方法。

为了解决上述技术问题，本申请实施例公开了如下技术方案：

一种基于深度学习的离线手写数学公式识别的方法，其特征在于，包括：

S100.构建手写公式数据集，并对手写公式数据集进行预处理；

S200.构建具有编码器和解码器结构的端到端神经网络模型；

S300.通过预处理后的手写公式数据集对构建的神经网络模型进行训练和优化，生成最优的手写数学公式识别神经网络模型。

进一步地，S100中，手写数学公式数据集包括原始手写数学公式图像和对应的Latex字符串标签；手写数学公式识别图像数据集的预处理过程包括：对原始手写数学公式图像进行灰度化以及大小规范化，同时过滤过长Latex标签的数据集。

进一步地，S200中，编码器由卷积网络DenseNet和特征增强网络组成，特征增强网络包括双向LSTM网络，特征增强网络的输出特征为与输入特征维度相同的一组特征映射，特征增强网络能够在时序方面进行特征增强并有效建模公式图像中的上下文信息。

进一步地，在特征增强后进一步添加输入向量的位置编码，位置编码采用了二维规范化正弦位置编码，由于重要的不是绝对位置，而是相对位置，所以位置坐标应该首先进行标准化，然后在两个维度分别计算正弦位置编码

并将其进行拼接。对于给定一个二维位置矩阵(x,y)，维度d，图像位置编码向量的计算过程如下：

其中，w_o、h_o分别为图像输入特征的宽高。

进一步地，S200中，解码器由注意聚合模块和双向互学习模块组成；双向互学习模块生成两个相反方向解码方向的Latex序列，同时这两个方向互相学习解码信息，注意聚合模块不仅关注局部的信息，同时也关注在更大感受野上的全局信息。

进一步地，解码器还包括多尺度计数模块，多尺度计数模块用于提供字符级位置信息，能使注意力更加准确，计数结果还用于表示符号的数量，作为额外的全局信息，用于提高识别的准确性。

进一步地，多尺度计数模块由多尺度特征、通道注意力和全局平均池化层组成，多尺度计数模块利用两个并行卷积分支，这两个并行卷积分支使用不同大小的卷积核来提取多尺度特征，具体方法为：将H表示为从两个并行卷积层任意一个中提取的特征图，增强的特征S写为:

Q＝σ(W₁(G(H))+b₁)

其中，G表示全局平均池化层，σ、g表示RELU和sigmoid激活函数，

表示通道乘积，W₁、W₂、b₁、b₂表示可训练的权重；

在得到增强的特征S后，我们使用1×1卷积将通道数符号类的数量，最后通过全局求和池化算子计算计数向量V：

其中，w、h分别表示增强的特征S的宽高,M_pq表示增强的特征S在(p，q)位置的特征值。

进一步地，在构建的神经网络模型的解码器部分添加多尺度计数模块后，将其loss计算公式为：

其中，

和

分别表示L2R、R2L的交叉熵损失，λ表示loss计算的权重，L_KL表示L2R和R2L解码器生成的LaTeX序列之间的kullback-leibler损失，L_counting表示符号的计数损失，采用smoothL1回归损失；具体计算公式如下：

对于长度为T的Latex序列

将第i个时间步长对应的one-hot真实标签表示为Y_i＝{x₁,x₂,...,x_K}，第k个符号的概率计算为：

对于多分类，目标标签与两个分支的softmax概率之间的交叉熵损失定义为：

对于K个类别，来自L2R分支的软概率定义为：

其中，S表示生成软标签的参数。因此，L2R分支和R2L分支的KL距离计算如下：

对于计数模型，smoothL1回归损失的计算如下：

其中，ν、

分别表示预测计数向量和真实计数向量。

进一步地，S300中，训练中采用的优化器为Adadelta算法，权重衰减设置为10^-4，初始学习率设置为1，采用基于Cosine的Warmup学习率衰减策略，训练过程中采用两阶段训练的形式，第一阶段直接在原数据上进行拟合训练，在第二阶段，冻结CNN部分，同时调小学习率，对RNN部分进行微调，达到最优的结果。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明公开了一种基于深度学习的离线手写数学公式识别的方法，其特征在于，包括：构建手写公式数据集，并对手写公式数据集进行预处理；构建具有编码器和解码器结构的端到端神经网络模型；通过预处理后的手写公式数据集对构建的神经网络模型进行训练和优化，生成最优的手写数学公式识别神经网络模型。

本发明创造性的提出了一种手写数学公式识别方法的改进策略，其主要优点在于：

1.本专利提出了特征增强策略，通过添加时序特征提取模型，对时序方面进行特征增强并有效建模公式图像中的上下文信息。

2.针对注意力不准的问题，提出通过添加多尺度计数模块，来使注意力更加准确，同时，计数结果可以表示符号的数量，可以作为额外的全局信息，来提高识别的准确性。

3.提出多种优化策略，如添加位置编码、两阶段训练策略以及学习率衰减策略等，在不增加模型大小的情况下进一步提升模型识别的精度。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例1中，一种基于深度学习的离线手写数学公式识方法的流程图；

图2为本发明实施例1中，多尺度计数单元的原理图；

图3为本发明实施例1中，注意聚合单元的原理图；

图4为本发明实施例1中，改进的神经网络的网络结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中存在的问题，本发明实施例提供一种基于深度学习的离线手写数学公式识别的方法。

实施例1

本实施例公开了一种基于深度学习的离线手写数学公式识别的方法，如图1，包括：

S100.构建手写公式数据集，并对手写公式数据集进行预处理；在本实施例的S100中，手写数学公式数据集包括原始手写数学公式图像和对应的Latex字符串标签；手写数学公式识别图像数据集的预处理过程包括：对原始手写数学公式图像进行灰度化以及大小规范化，同时过滤过长Latex标签的数据集。

具体的，标签设置最大标签长度为200。本实例未对数据集做数据增广处理，直接采用原始数据集的数据量进行模型训练，从而有效减少模型训练过程中的运算量，提高训练速度。

S200.构建具有编码器和解码器结构的端到端神经网络模型；在本实施例S200中，编码器是由卷积网络DenseNet和特征增强模块组成，特征增强网络包括双向LSTM网络。本公开实施例对双向LSTM的层数不进行限制，特征增强网络的输出特征为与输入特征维度相同的一组特征映射，特征增强网络能够在时序方面进行特征增强并有效建模公式图像中的上下文信息。

在特征增强后进一步添加输入向量的位置编码，位置编码采用了二维规范化正弦位置编码，由于重要的不是绝对位置，而是相对位置，所以位置坐标应该首先进行标准化，然后在两个维度分别计算正弦位置编码

其中，w_o、h_o分别为图像输入特征的宽高。

本发明实施例中，为了能够提供字符级位置信息，使注意力更加准确，设计了多尺度计数模块，同时，计数结果可以表示符号的数量，可以作为额外的全局信息，来提高识别的准确性。多尺度计数模块由并行的两个分支组成，如图2所示。两个并行卷积分支使用不同大小的卷积核(设置为3×3和5×5)来分别对解码后的特征提取多尺度特征，然后分别与通道注意力相乘得到对应的特征，通道注意力是由全局池化层和两个全连接层组成，我们选择其中一个分支作为简单的说明,我们将H表示为从卷积(3×3或5×5)层中提取的特征图。增强的特征S可以写为:

Q＝σ(W₁(G(H))+b₁)

表示通道乘积，W₁、W₂、b₁、b₂表示可训练的权重。

通道注意之后再接一个全局求和池化层进行求和分别得到两个计数特征向量，将这两个特征向量求平均得到最终的计数特征向量。

本发明实施例中，解码器设计了一个双向互学习的模块，该模块由两个方向相反的双层GRU以及注意聚合模块组成，其结构图4所示。首先用解码器的输出特征初始化隐藏状态，然后将上一个时间输出的embedding和隐藏状态输入到一个GRU种提取时序特征，输出的当前时间的隐藏状态，并将其与解码器的输出特征以及注意力覆盖特征输入到AAM注意聚合单元中计算当前状态的注意力，其结构如图3所示，最后将AAM注意力聚合单元的注意力输出与第一个GRU输出的隐藏状态作为第二个GRU的输入得到隐藏状态输出。

本发明实施例中，通过解码器的得到第二个GRU隐藏状态输出，AAM注意力聚合单元的注意力输出以及多尺度计数模块的计数特征向量输入到MLP单元进行预测输出，得到最终的预测输出。

本发明实施例中，在ABM的解码器部分添加多尺度计数模块后，进一步将其loss计算修改为：

其中，

和

分别表示L2R、R2L的交叉熵损失，λ表示loss计算的权重，L_KL表示L2R和R2L解码器生成的LaTeX序列之间的kullback-leibler(KL)损失，L_counting表示符号的计数损失，采用smoothL1回归损失。具体计算公式如下：

对于长度为T的Latex序列

我们将第i个时间步长对应的one-hot真实标签表示为Y_i＝{x₁,x₂,...,x_K}，第k个符号的概率计算为：

对于K个类别，来自L2R分支的软概率定义为：

对于计数模型，smoothL1回归损失的计算如下：

其中，ν、

分别表示预测计数向量和真实计数向量。

在本实施例的S300中，训练中采用的优化器为Adadelta算法，权重衰减设置为10-4，初始学习率设置为1，采用基于Cosine的Warmup学习率衰减策略。开发工具Python3.8和PyTorch框架。训练过程中为了保证RNN模型的充分训练，采用两阶段训练的形式，第一阶段直接在原数据上进行拟合训练，由于CNN模型相对与RNN更加容易训练，在第二阶段，冻结CNN部分，同时调小学习率，对RNN部分进行微调，达到最优的结果。

本实施例公开了一种基于深度学习的离线手写数学公式识别的方法，其特征在于，包括：构建手写公式数据集，并对手写公式数据集进行预处理；构建具有编码器和解码器结构的端到端神经网络模型；通过预处理后的手写公式数据集对构建的神经网络模型进行训练和优化，生成最优的手写数学公式识别神经网络模型。

本实施例创造性的提出了一种手写数学公式识别方法的改进策略，其主要优点在于：

1.本实施例提出了特征增强策略，通过添加时序特征提取模型，对时序方面进行特征增强并有效建模公式图像中的上下文信息。

应该明白，公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好，应该理解，过程中的步骤的特定顺序或层次在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素，并且不是要限于所述的特定顺序或层次。

在上述的详细描述中，各种特征一起组合在单个的实施方案中，以简化本公开。不应该将这种公开方法解释为反映了这样的意图，即，所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反，如所附的权利要求书所反映的那样，本发明处于比所公开的单个实施方案的全部特征少的状态。因此，所附的权利要求书特此清楚地被并入详细描述中，其中每项权利要求独自作为本发明单独的优选实施方案。

本领域技术人员还应当理解，结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性，上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件，取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员针对每个特定应用，以变通的方式实现所描述的功能，但是，这种实现决策不应解释为背离本公开的保护范围。

结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也是处理器的组成部分。处理器和存储介质位于ASIC中。该ASIC位于用户终端中。当然，处理器和存储介质也作为分立组件存在于用户终端中。

对于软件实现，本申请中描述的技术可用执行本申请所述功能的模块(例如，过程、函数等)来实现。这些软件代码存储在存储器单元并由处理器执行。存储器单元实现在处理器内，也实现在处理器外，在后一种情况下，它经由各种手段以通信方式耦合到处理器，这些都是本领域中所公知的。

上文的描述包括一个或多个实施例的举例。当然，为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的，但是本领域普通技术人员应该认识到，各个实施例做进一步的组合和排列。因此，本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外，就说明书或权利要求书中使用的术语“包含”，该词的涵盖方式类似于术语“包括”，就如同“包括，”在权利要求中用作衔接词所解释的那样。此外，使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims

1.一种基于深度学习的离线手写数学公式识别的方法，其特征在于，包括：

S200.构建具有编码器和解码器结构的端到端神经网络模型；

2.如权利要求1所述的一种基于深度学习的离线手写数学公式识别的方法，其特征在于，S100中，手写数学公式数据集包括原始手写数学公式图像和对应的Latex字符串标签；手写数学公式识别图像数据集的预处理过程包括：对原始手写数学公式图像进行灰度化以及大小规范化，同时过滤过长Latex标签的数据集。

3.如权利要求1所述的一种基于深度学习的离线手写数学公式识别的方法，其特征在于，S200中，编码器由卷积网络DenseNet和特征增强网络组成，特征增强网络包括双向LSTM网络，特征增强网络的输出特征为与输入特征维度相同的一组特征映射，特征增强网络能够在时序方面进行特征增强并有效建模公式图像中的上下文信息。

4.如权利要求2所述的一种基于深度学习的离线手写数学公式识别的方法，其特征在于，在特征增强后进一步添加输入向量的位置编码，位置编码采用了二维规范化正弦位置编码，由于重要的不是绝对位置，而是相对位置，所以位置坐标应该首先进行标准化，然后在两个维度分别计算正弦位置编码

并将其进行拼接；对于给定一个二维位置矩阵(x,y)，维度d，图像位置编码向量的计算过程如下：

其中，w_o、h_o分别为图像输入特征的宽高。

5.如权利要求1所述的一种基于深度学习的离线手写数学公式识别的方法，其特征在于，S200中，解码器由注意聚合模块和双向互学习模块组成；双向互学习模块生成两个相反方向解码方向的Latex序列，同时这两个方向互相学习解码信息，注意聚合模块不仅关注局部的信息，同时也关注在更大感受野上的全局信息。

6.如权利要求1所述的一种基于深度学习的离线手写数学公式识别的方法，其特征在于，解码器还包括多尺度计数模块，多尺度计数模块用于提供字符级位置信息，能使注意力更加准确，计数结果还用于表示符号的数量，作为额外的全局信息，用于提高识别的准确性。

7.如权利要求6所述的一种基于深度学习的离线手写数学公式识别的方法，其特征在于，多尺度计数模块由多尺度特征、通道注意力和全局平均池化层组成，多尺度计数模块利用两个并行卷积分支，这两个并行卷积分支使用不同大小的卷积核来提取多尺度特征，具体方法为：将H表示为从两个并行卷积层任意一个中提取的特征图，增强的特征S写为:

表示通道乘积，W₁、W₂、b₁、b₂表示可训练的权重；

8.如权利要求6所述的一种基于深度学习的离线手写数学公式识别的方法，其特征在于，在构建的神经网络模型的解码器部分添加多尺度计数模块后，将其loss计算公式为：

其中，

和

对于长度为T的Latex序列

对于K个类别，来自L2R分支的软概率定义为：

对于计数模型，smoothL1回归损失的计算如下：

其中，ν、

分别表示预测计数向量和真实计数向量。

9.如权利要求1所述的一种基于深度学习的离线手写数学公式识别的方法，其特征在于，S300中，训练中采用的优化器为Adadelta算法，权重衰减设置为10^-4，初始学习率设置为1，采用基于Cosine的Warmup学习率衰减策略，训练过程中采用两阶段训练的形式，第一阶段直接在原数据上进行拟合训练，在第二阶段，冻结CNN部分，同时调小学习率，对RNN部分进行微调，达到最优的结果。