CN116110059A - 一种基于深度学习的离线手写数学公式识别的方法 - Google Patents

一种基于深度学习的离线手写数学公式识别的方法 Download PDF

Info

Publication number
CN116110059A
CN116110059A CN202310022055.1A CN202310022055A CN116110059A CN 116110059 A CN116110059 A CN 116110059A CN 202310022055 A CN202310022055 A CN 202310022055A CN 116110059 A CN116110059 A CN 116110059A
Authority
CN
China
Prior art keywords
handwriting
mathematical formula
formula
data set
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310022055.1A
Other languages
English (en)
Inventor
金秋
周彭滔
邓嘉
董逢华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Tianyu Information Industry Co Ltd
Original Assignee
Wuhan Tianyu Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Tianyu Information Industry Co Ltd filed Critical Wuhan Tianyu Information Industry Co Ltd
Priority to CN202310022055.1A priority Critical patent/CN116110059A/zh
Publication of CN116110059A publication Critical patent/CN116110059A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度学习的离线手写数学公式识别的方法,包括:构建手写公式数据集,并对手写公式数据集进行预处理;构建具有编码器和解码器结构的端到端神经网络模型;通过预处理后的手写公式数据集对构建的神经网络模型进行训练和优化,生成最优的手写数学公式识别神经网络模型。本发明提出了特征增强策略,通过添加时序特征提取模型,对时序方面进行特征增强并有效建模公式图像中的上下文信息。本发明提出通过添加多尺度计数模块,来使注意力更加准确,同时,计数结果可以表示符号的数量,可以作为额外的全局信息,来提高识别的准确性。本发明提出多种优化策略,在不增加模型大小的情况下进一步提升模型识别的精度。

Description

一种基于深度学习的离线手写数学公式识别的方法
技术领域
本发明涉及的是机器学习领域,特别涉及一种基于深度学习的离线手写数学公式识别的方法。
背景技术
随着人工智能的应用飞速发展,识别手写输入和墨水屏、智能手机等移动终端的应用受到的关注越来越多。其中,手写数学表达式识别(HMER)在智能教育、人机交互和学术论文写作辅助工具等多个应用场景成为不可或缺的一部分。手写数学表达式识别是将图像转化为Latex序列并输出,目前传统的手写数学表达式识别方法总是依赖于特殊设计的语法,这些语法需要广泛的先验知识来定义数学表达式结构、符号的位置关系和相应的解析算法,因此它们不能识别复杂的数学表达式。近年来,基于注意力的编码-解码器模型已被应用于手写数学表达式识别,因其在机器翻译、语音识别等方面明显优于基于语法的方法。
然而,现有技术中,对于真实场景下的数学公式中必然存在的顺序混乱、写字不清晰等问题,仍没有很好的解决方法,基于目前识别模型存在的识别准确性低,以及手写体数字的识别自有特点,本发明提出了一种基于编解码及自注意力的模型来识别手写数学公式。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于深度学习的离线手写数学公式识别的方法。
为了解决上述技术问题,本申请实施例公开了如下技术方案:
一种基于深度学习的离线手写数学公式识别的方法,其特征在于,包括:
S100.构建手写公式数据集,并对手写公式数据集进行预处理;
S200.构建具有编码器和解码器结构的端到端神经网络模型;
S300.通过预处理后的手写公式数据集对构建的神经网络模型进行训练和优化,生成最优的手写数学公式识别神经网络模型。
进一步地,S100中,手写数学公式数据集包括原始手写数学公式图像和对应的Latex字符串标签;手写数学公式识别图像数据集的预处理过程包括:对原始手写数学公式图像进行灰度化以及大小规范化,同时过滤过长Latex标签的数据集。
进一步地,S200中,编码器由卷积网络DenseNet和特征增强网络组成,特征增强网络包括双向LSTM网络,特征增强网络的输出特征为与输入特征维度相同的一组特征映射,特征增强网络能够在时序方面进行特征增强并有效建模公式图像中的上下文信息。
进一步地,在特征增强后进一步添加输入向量的位置编码,位置编码采用了二维规范化正弦位置编码,由于重要的不是绝对位置,而是相对位置,所以位置坐标应该首先进行标准化,然后在两个维度分别计算正弦位置编码
Figure BDA0004041712890000021
并将其进行拼接。对于给定一个二维位置矩阵(x,y),维度d,图像位置编码向量的计算过程如下:
Figure BDA0004041712890000022
Figure BDA0004041712890000023
Figure BDA0004041712890000024
Figure BDA0004041712890000025
其中,wo、ho分别为图像输入特征的宽高。
进一步地,S200中,解码器由注意聚合模块和双向互学习模块组成;双向互学习模块生成两个相反方向解码方向的Latex序列,同时这两个方向互相学习解码信息,注意聚合模块不仅关注局部的信息,同时也关注在更大感受野上的全局信息。
进一步地,解码器还包括多尺度计数模块,多尺度计数模块用于提供字符级位置信息,能使注意力更加准确,计数结果还用于表示符号的数量,作为额外的全局信息,用于提高识别的准确性。
进一步地,多尺度计数模块由多尺度特征、通道注意力和全局平均池化层组成,多尺度计数模块利用两个并行卷积分支,这两个并行卷积分支使用不同大小的卷积核来提取多尺度特征,具体方法为:将H表示为从两个并行卷积层任意一个中提取的特征图,增强的特征S写为:
Q=σ(W1(G(H))+b1)
Figure BDA0004041712890000031
其中,G表示全局平均池化层,σ、g表示RELU和sigmoid激活函数,
Figure BDA0004041712890000032
表示通道乘积,W1、W2、b1、b2表示可训练的权重;
在得到增强的特征S后,我们使用1×1卷积将通道数符号类的数量,最后通过全局求和池化算子计算计数向量V:
Figure BDA0004041712890000033
其中,w、h分别表示增强的特征S的宽高,Mpq表示增强的特征S在(p,q)位置的特征值。
进一步地,在构建的神经网络模型的解码器部分添加多尺度计数模块后,将其loss计算公式为:
Figure BDA0004041712890000034
其中,
Figure BDA0004041712890000035
Figure BDA0004041712890000036
分别表示L2R、R2L的交叉熵损失,λ表示loss计算的权重,LKL表示L2R和R2L解码器生成的LaTeX序列之间的kullback-leibler损失,Lcounting表示符号的计数损失,采用smoothL1回归损失;具体计算公式如下:
对于长度为T的Latex序列
Figure BDA0004041712890000037
将第i个时间步长对应的one-hot真实标签表示为Yi={x1,x2,...,xK},第k个符号的概率计算为:
Figure BDA0004041712890000041
对于多分类,目标标签与两个分支的softmax概率之间的交叉熵损失定义为:
Figure BDA0004041712890000042
Figure BDA0004041712890000043
对于K个类别,来自L2R分支的软概率定义为:
Figure BDA0004041712890000044
其中,S表示生成软标签的参数。因此,L2R分支和R2L分支的KL距离计算如下:
Figure BDA0004041712890000045
对于计数模型,smoothL1回归损失的计算如下:
Figure BDA0004041712890000046
其中,ν、
Figure BDA0004041712890000047
分别表示预测计数向量和真实计数向量。
进一步地,S300中,训练中采用的优化器为Adadelta算法,权重衰减设置为10-4,初始学习率设置为1,采用基于Cosine的Warmup学习率衰减策略,训练过程中采用两阶段训练的形式,第一阶段直接在原数据上进行拟合训练,在第二阶段,冻结CNN部分,同时调小学习率,对RNN部分进行微调,达到最优的结果。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明公开了一种基于深度学习的离线手写数学公式识别的方法,其特征在于,包括:构建手写公式数据集,并对手写公式数据集进行预处理;构建具有编码器和解码器结构的端到端神经网络模型;通过预处理后的手写公式数据集对构建的神经网络模型进行训练和优化,生成最优的手写数学公式识别神经网络模型。
本发明创造性的提出了一种手写数学公式识别方法的改进策略,其主要优点在于:
1.本专利提出了特征增强策略,通过添加时序特征提取模型,对时序方面进行特征增强并有效建模公式图像中的上下文信息。
2.针对注意力不准的问题,提出通过添加多尺度计数模块,来使注意力更加准确,同时,计数结果可以表示符号的数量,可以作为额外的全局信息,来提高识别的准确性。
3.提出多种优化策略,如添加位置编码、两阶段训练策略以及学习率衰减策略等,在不增加模型大小的情况下进一步提升模型识别的精度。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例1中,一种基于深度学习的离线手写数学公式识方法的流程图;
图2为本发明实施例1中,多尺度计数单元的原理图;
图3为本发明实施例1中,注意聚合单元的原理图;
图4为本发明实施例1中,改进的神经网络的网络结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了解决现有技术中存在的问题,本发明实施例提供一种基于深度学习的离线手写数学公式识别的方法。
实施例1
本实施例公开了一种基于深度学习的离线手写数学公式识别的方法,如图1,包括:
S100.构建手写公式数据集,并对手写公式数据集进行预处理;在本实施例的S100中,手写数学公式数据集包括原始手写数学公式图像和对应的Latex字符串标签;手写数学公式识别图像数据集的预处理过程包括:对原始手写数学公式图像进行灰度化以及大小规范化,同时过滤过长Latex标签的数据集。
具体的,标签设置最大标签长度为200。本实例未对数据集做数据增广处理,直接采用原始数据集的数据量进行模型训练,从而有效减少模型训练过程中的运算量,提高训练速度。
S200.构建具有编码器和解码器结构的端到端神经网络模型;在本实施例S200中,编码器是由卷积网络DenseNet和特征增强模块组成,特征增强网络包括双向LSTM网络。本公开实施例对双向LSTM的层数不进行限制,特征增强网络的输出特征为与输入特征维度相同的一组特征映射,特征增强网络能够在时序方面进行特征增强并有效建模公式图像中的上下文信息。
在特征增强后进一步添加输入向量的位置编码,位置编码采用了二维规范化正弦位置编码,由于重要的不是绝对位置,而是相对位置,所以位置坐标应该首先进行标准化,然后在两个维度分别计算正弦位置编码
Figure BDA0004041712890000071
并将其进行拼接。对于给定一个二维位置矩阵(x,y),维度d,图像位置编码向量的计算过程如下:
Figure BDA0004041712890000072
Figure BDA0004041712890000073
Figure BDA0004041712890000074
Figure BDA0004041712890000075
其中,wo、ho分别为图像输入特征的宽高。
本发明实施例中,为了能够提供字符级位置信息,使注意力更加准确,设计了多尺度计数模块,同时,计数结果可以表示符号的数量,可以作为额外的全局信息,来提高识别的准确性。多尺度计数模块由并行的两个分支组成,如图2所示。两个并行卷积分支使用不同大小的卷积核(设置为3×3和5×5)来分别对解码后的特征提取多尺度特征,然后分别与通道注意力相乘得到对应的特征,通道注意力是由全局池化层和两个全连接层组成,我们选择其中一个分支作为简单的说明,我们将H表示为从卷积(3×3或5×5)层中提取的特征图。增强的特征S可以写为:
Q=σ(W1(G(H))+b1)
Figure BDA0004041712890000076
其中,G表示全局平均池化层,σ、g表示RELU和sigmoid激活函数,
Figure BDA0004041712890000077
表示通道乘积,W1、W2、b1、b2表示可训练的权重。
通道注意之后再接一个全局求和池化层进行求和分别得到两个计数特征向量,将这两个特征向量求平均得到最终的计数特征向量。
本发明实施例中,解码器设计了一个双向互学习的模块,该模块由两个方向相反的双层GRU以及注意聚合模块组成,其结构图4所示。首先用解码器的输出特征初始化隐藏状态,然后将上一个时间输出的embedding和隐藏状态输入到一个GRU种提取时序特征,输出的当前时间的隐藏状态,并将其与解码器的输出特征以及注意力覆盖特征输入到AAM注意聚合单元中计算当前状态的注意力,其结构如图3所示,最后将AAM注意力聚合单元的注意力输出与第一个GRU输出的隐藏状态作为第二个GRU的输入得到隐藏状态输出。
本发明实施例中,通过解码器的得到第二个GRU隐藏状态输出,AAM注意力聚合单元的注意力输出以及多尺度计数模块的计数特征向量输入到MLP单元进行预测输出,得到最终的预测输出。
本发明实施例中,在ABM的解码器部分添加多尺度计数模块后,进一步将其loss计算修改为:
Figure BDA0004041712890000081
其中,
Figure BDA0004041712890000082
Figure BDA0004041712890000083
分别表示L2R、R2L的交叉熵损失,λ表示loss计算的权重,LKL表示L2R和R2L解码器生成的LaTeX序列之间的kullback-leibler(KL)损失,Lcounting表示符号的计数损失,采用smoothL1回归损失。具体计算公式如下:
对于长度为T的Latex序列
Figure BDA0004041712890000084
我们将第i个时间步长对应的one-hot真实标签表示为Yi={x1,x2,...,xK},第k个符号的概率计算为:
Figure BDA0004041712890000085
对于多分类,目标标签与两个分支的softmax概率之间的交叉熵损失定义为:
Figure BDA0004041712890000086
Figure BDA0004041712890000091
对于K个类别,来自L2R分支的软概率定义为:
Figure BDA0004041712890000092
其中,S表示生成软标签的参数。因此,L2R分支和R2L分支的KL距离计算如下:
Figure BDA0004041712890000093
对于计数模型,smoothL1回归损失的计算如下:
Figure BDA0004041712890000094
其中,ν、
Figure BDA0004041712890000095
分别表示预测计数向量和真实计数向量。
S300.通过预处理后的手写公式数据集对构建的神经网络模型进行训练和优化,生成最优的手写数学公式识别神经网络模型。
在本实施例的S300中,训练中采用的优化器为Adadelta算法,权重衰减设置为10-4,初始学习率设置为1,采用基于Cosine的Warmup学习率衰减策略。开发工具Python3.8和PyTorch框架。训练过程中为了保证RNN模型的充分训练,采用两阶段训练的形式,第一阶段直接在原数据上进行拟合训练,由于CNN模型相对与RNN更加容易训练,在第二阶段,冻结CNN部分,同时调小学习率,对RNN部分进行微调,达到最优的结果。
本实施例公开了一种基于深度学习的离线手写数学公式识别的方法,其特征在于,包括:构建手写公式数据集,并对手写公式数据集进行预处理;构建具有编码器和解码器结构的端到端神经网络模型;通过预处理后的手写公式数据集对构建的神经网络模型进行训练和优化,生成最优的手写数学公式识别神经网络模型。
本实施例创造性的提出了一种手写数学公式识别方法的改进策略,其主要优点在于:
1.本实施例提出了特征增强策略,通过添加时序特征提取模型,对时序方面进行特征增强并有效建模公式图像中的上下文信息。
2.针对注意力不准的问题,提出通过添加多尺度计数模块,来使注意力更加准确,同时,计数结果可以表示符号的数量,可以作为额外的全局信息,来提高识别的准确性。
3.提出多种优化策略,如添加位置编码、两阶段训练策略以及学习率衰减策略等,在不增加模型大小的情况下进一步提升模型识别的精度。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也是处理器的组成部分。处理器和存储介质位于ASIC中。该ASIC位于用户终端中。当然,处理器和存储介质也作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码存储在存储器单元并由处理器执行。存储器单元实现在处理器内,也实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims (9)

1.一种基于深度学习的离线手写数学公式识别的方法,其特征在于,包括:
S100.构建手写公式数据集,并对手写公式数据集进行预处理;
S200.构建具有编码器和解码器结构的端到端神经网络模型;
S300.通过预处理后的手写公式数据集对构建的神经网络模型进行训练和优化,生成最优的手写数学公式识别神经网络模型。
2.如权利要求1所述的一种基于深度学习的离线手写数学公式识别的方法,其特征在于,S100中,手写数学公式数据集包括原始手写数学公式图像和对应的Latex字符串标签;手写数学公式识别图像数据集的预处理过程包括:对原始手写数学公式图像进行灰度化以及大小规范化,同时过滤过长Latex标签的数据集。
3.如权利要求1所述的一种基于深度学习的离线手写数学公式识别的方法,其特征在于,S200中,编码器由卷积网络DenseNet和特征增强网络组成,特征增强网络包括双向LSTM网络,特征增强网络的输出特征为与输入特征维度相同的一组特征映射,特征增强网络能够在时序方面进行特征增强并有效建模公式图像中的上下文信息。
4.如权利要求2所述的一种基于深度学习的离线手写数学公式识别的方法,其特征在于,在特征增强后进一步添加输入向量的位置编码,位置编码采用了二维规范化正弦位置编码,由于重要的不是绝对位置,而是相对位置,所以位置坐标应该首先进行标准化,然后在两个维度分别计算正弦位置编码
Figure FDA0004041712880000011
并将其进行拼接;对于给定一个二维位置矩阵(x,y),维度d,图像位置编码向量的计算过程如下:
Figure FDA0004041712880000012
Figure FDA0004041712880000013
Figure FDA0004041712880000014
Figure FDA0004041712880000015
其中,wo、ho分别为图像输入特征的宽高。
5.如权利要求1所述的一种基于深度学习的离线手写数学公式识别的方法,其特征在于,S200中,解码器由注意聚合模块和双向互学习模块组成;双向互学习模块生成两个相反方向解码方向的Latex序列,同时这两个方向互相学习解码信息,注意聚合模块不仅关注局部的信息,同时也关注在更大感受野上的全局信息。
6.如权利要求1所述的一种基于深度学习的离线手写数学公式识别的方法,其特征在于,解码器还包括多尺度计数模块,多尺度计数模块用于提供字符级位置信息,能使注意力更加准确,计数结果还用于表示符号的数量,作为额外的全局信息,用于提高识别的准确性。
7.如权利要求6所述的一种基于深度学习的离线手写数学公式识别的方法,其特征在于,多尺度计数模块由多尺度特征、通道注意力和全局平均池化层组成,多尺度计数模块利用两个并行卷积分支,这两个并行卷积分支使用不同大小的卷积核来提取多尺度特征,具体方法为:将H表示为从两个并行卷积层任意一个中提取的特征图,增强的特征S写为:
Figure FDA0004041712880000021
Figure FDA0004041712880000022
其中,G表示全局平均池化层,σ、g表示RELU和sigmoid激活函数,
Figure FDA0004041712880000023
表示通道乘积,W1、W2、b1、b2表示可训练的权重;
在得到增强的特征S后,我们使用1×1卷积将通道数符号类的数量,最后通过全局求和池化算子计算计数向量V:
Figure FDA0004041712880000024
其中,w、h分别表示增强的特征S的宽高,Mpq表示增强的特征S在(p,q)位置的特征值。
8.如权利要求6所述的一种基于深度学习的离线手写数学公式识别的方法,其特征在于,在构建的神经网络模型的解码器部分添加多尺度计数模块后,将其loss计算公式为:
Figure FDA0004041712880000031
其中,
Figure FDA0004041712880000032
Figure FDA0004041712880000033
分别表示L2R、R2L的交叉熵损失,λ表示loss计算的权重,LKL表示L2R和R2L解码器生成的LaTeX序列之间的kullback-leibler损失,Lcounting表示符号的计数损失,采用smoothL1回归损失;具体计算公式如下:
对于长度为T的Latex序列
Figure FDA0004041712880000034
将第i个时间步长对应的one-hot真实标签表示为Yi={x1,x2,...,xK},第k个符号的概率计算为:
Figure FDA0004041712880000035
对于多分类,目标标签与两个分支的softmax概率之间的交叉熵损失定义为:
Figure FDA0004041712880000036
Figure FDA0004041712880000037
对于K个类别,来自L2R分支的软概率定义为:
Figure FDA0004041712880000038
其中,S表示生成软标签的参数。因此,L2R分支和R2L分支的KL距离计算如下:
Figure FDA0004041712880000039
对于计数模型,smoothL1回归损失的计算如下:
Figure FDA0004041712880000041
其中,ν、
Figure FDA0004041712880000042
分别表示预测计数向量和真实计数向量。
9.如权利要求1所述的一种基于深度学习的离线手写数学公式识别的方法,其特征在于,S300中,训练中采用的优化器为Adadelta算法,权重衰减设置为10-4,初始学习率设置为1,采用基于Cosine的Warmup学习率衰减策略,训练过程中采用两阶段训练的形式,第一阶段直接在原数据上进行拟合训练,在第二阶段,冻结CNN部分,同时调小学习率,对RNN部分进行微调,达到最优的结果。
CN202310022055.1A 2023-01-06 2023-01-06 一种基于深度学习的离线手写数学公式识别的方法 Pending CN116110059A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310022055.1A CN116110059A (zh) 2023-01-06 2023-01-06 一种基于深度学习的离线手写数学公式识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310022055.1A CN116110059A (zh) 2023-01-06 2023-01-06 一种基于深度学习的离线手写数学公式识别的方法

Publications (1)

Publication Number Publication Date
CN116110059A true CN116110059A (zh) 2023-05-12

Family

ID=86257537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310022055.1A Pending CN116110059A (zh) 2023-01-06 2023-01-06 一种基于深度学习的离线手写数学公式识别的方法

Country Status (1)

Country Link
CN (1) CN116110059A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363678A (zh) * 2023-05-31 2023-06-30 华南理工大学 一种数学公式图像的识别方法、系统和计算机设备
CN116597457A (zh) * 2023-05-31 2023-08-15 京东方科技集团股份有限公司 数学公式识别方法、装置、电子设备和可读存储介质
CN116612482A (zh) * 2023-05-22 2023-08-18 南京大学 一种手写公式识别系统及方法
CN118155221A (zh) * 2024-05-11 2024-06-07 济南大学 一种基于多监督的印刷体公式识别方法
CN118968528A (zh) * 2024-10-18 2024-11-15 吉林大学 一种基于计数模块的手写数学公式多尺度识别方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612482A (zh) * 2023-05-22 2023-08-18 南京大学 一种手写公式识别系统及方法
CN116363678A (zh) * 2023-05-31 2023-06-30 华南理工大学 一种数学公式图像的识别方法、系统和计算机设备
CN116363678B (zh) * 2023-05-31 2023-08-11 华南理工大学 一种数学公式图像的识别方法、系统和计算机设备
CN116597457A (zh) * 2023-05-31 2023-08-15 京东方科技集团股份有限公司 数学公式识别方法、装置、电子设备和可读存储介质
WO2024244760A1 (zh) * 2023-05-31 2024-12-05 京东方科技集团股份有限公司 数学公式识别方法、装置、电子设备和可读存储介质
CN118155221A (zh) * 2024-05-11 2024-06-07 济南大学 一种基于多监督的印刷体公式识别方法
CN118968528A (zh) * 2024-10-18 2024-11-15 吉林大学 一种基于计数模块的手写数学公式多尺度识别方法
CN118968528B (zh) * 2024-10-18 2025-01-28 吉林大学 一种基于计数模块的手写数学公式多尺度识别方法

Similar Documents

Publication Publication Date Title
CN116110059A (zh) 一种基于深度学习的离线手写数学公式识别的方法
CN110378334B (zh) 一种基于二维特征注意力机制的自然场景文本识别方法
CN110399850B (zh) 一种基于深度神经网络的连续手语识别方法
CN110427938A (zh) 一种基于深度学习的不规则文字识别装置和方法
CN108171198A (zh) 基于非对称多层lstm的连续手语视频自动翻译方法
CN114445420B (zh) 编解码结构结合注意力机制的图像分割模型及其训练方法
CN111428727B (zh) 基于序列变换纠正及注意力机制的自然场景文本识别方法
Lei et al. Scene text recognition using residual convolutional recurrent neural network
CN117576783A (zh) 基于手部关键点与双层双向lstm网络的动态手势识别方法
CN110992943B (zh) 基于词混淆网络的语义理解方法及系统
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
CN118038299A (zh) 一种无人机场景下基于多模态的开放词集目标检测方法
CN113762241A (zh) 场景文字识别模型的训练方法与识别方法及装置
CN110503090B (zh) 基于受限注意力模型的字符检测网络训练方法、字符检测方法和字符检测器
CN114417832B (zh) 消歧方法、消歧模型的训练方法及装置
CN117994861B (zh) 一种基于多模态大模型clip的视频动作识别方法及装置
CN113761106A (zh) 一种强化自注意力的债券交易意图识别系统
CN111414959B (zh) 图像识别方法、装置、计算机可读介质和电子设备
CN117138669A (zh) 全自动干粉试剂复溶系统
CN116958700A (zh) 一种基于提示工程和对比学习的图像分类方法
CN116935153A (zh) 图像块自监督学习训练方法、装置、设备及介质
CN112784838A (zh) 一种基于局部敏感哈希网络的汉明ocr识别方法
Hai-Sheng et al. Style transfer for QR code
CN119580233B (zh) 基于时序自注意力和辅助监督的疲劳检测方法及装置
CN114818644B (zh) 文本模板生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination