CN114255379A

CN114255379A - 基于编解码的数学公式识别方法及装置、可读存储介质

Info

Publication number: CN114255379A
Application number: CN202111581067.5A
Authority: CN
Inventors: 周名杰; 程艳云
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-03-29

Abstract

本发明提出基于编解码的数学公式识别方法及装置、可读存储介质，输入图片通过ResNet网络和位置编码模块进行特征的编码，紧接着使用多头注意力模型及前向网络的组合对特征序列进行解码计算实现预测避免了单字符切割和识别的步骤，能够从手写数学公式的整体信息中学习到字符间的空间关系，最终完成整个手写数学公式的识别。本发明的有益效果为：本方法编码模块中通过在ResNet网络的输出中添加位置信息，使得编码模块能够更准确地学习到公式图片的特征信息；解码模块中，不同于使用循环神经网络的方法，本方法通过使用多头注意力模型来进行并行化计算，使得运行速度得到了明显的改进。

Description

基于编解码的数学公式识别方法及装置、可读存储介质

技术领域

本发明涉及图像识别技术领域，具体是涉及一种基于编码解码模型的端到端脱机手写数学公式识别方法及装置。

背景技术

数学公式在日常生活中经常使用，在教育领域、科技工作等情景中更是十分常见，因此对于数学公式的有效识别成为十分重要的工作。这其中，手写数学公式因为其便利性，也使得对其的正确识别，更加具有现实意义。但是不同于普通文本，数学公式往往包含复杂的二维结构，并且在脱机手写数学公式中，因为手写字符的不规则和无法获取笔画信息，传统的光学字符识别技术往往不能使用。因此手写数学公式识别不仅是当前手写识别领域重要的，也是具有挑战性的工作。

在传统图像识别技术领域，脱机手写数学公式识别主要是基于图像分割，字符识别和语义分析来实现，如基于投影的切分技术、轮廓映射方法、基于卷积神经网络(Convolutional Neural Network，CNN)的识别技术、基于语法的结构解析方法和结构模式识别方法等等。但是由于字符本身的变化、字符之间的粘连、结构的复杂、个人手写习惯的差别等等，传统方法在手写数学公式识别上的应用较为复杂且效果不佳。

近年来，随着人工智能技术的迅猛发展，出现了基于深度学习的手写数学公式识别方法，这些方法往往不需要进行单独的字符切割、识别和结构解析工作。如利用卷积神经网络CNN进行图像特征的提取和编码，再利用循环神经网络(Recurrent Neural Network,RNN)进行解码输出的方法。这些方法通常基于循环神经网络结构，存在时序依赖性和计算复杂度的问题。

发明内容

为解决上述技术问题，本发明提供了一种基于编解码的数学公式识别方法及装置、可读存储介质，不需要进行显性的字符切割、字符识别和结构解析工作，而是采用Resnet网络与位置编码，提取和计算特征序列，接着基于多头注意力模型对于特征序列进行并行计算，生成预测序列，最终完成整个手写数学公式的识别，减少了一般公式识别中的串行计算时间复杂度。

本发明所述的一种基于编解码的数学公式识别方法，步骤如下：

步骤1、选取只含手写数学公式的图片作为样本，将输入图片进行裁剪和灰度化操作；

步骤2、将调整后的图片输入编码网络得到特征序列；

步骤3、通过解码网络对图像特征进行解码及字符预测；

步骤4、通过L-softmax损失函数计算字符预测结果与正确值之间的损失，对预测结果进行评价。

进一步的，步骤1中，图片包含所有公式部分，裁剪至256*256像素。

进一步的，步骤2中，所述编码网络由改进的ResNet卷积网络和位置编码融合而成，其中改进的ResNet卷积网络采用ResNet18，包括卷积层和线性网络，卷积层输出为512×8×8的特征序列，经过线性网络处理后，得到维度为210×8×8的特征序列x；之后将特征序列x经过位置编码模块计算，附加各个序列的绝对位置信息，得到最终的特征序列F，即解码网络的输入序列。

进一步的，所述位置编码模块如下：

其中，pos是当前序列所在的位置，取值范围为0～d_len-1，d_len为预设的公式长度，本实施例中为210；i为当前序列中的维度位置，取值范围为0～d_model-1，d_model为特征序列维度大小。

进一步的，解码网络由4个子网络及全连接网络组成，每个子网络包含一个多头自注意力网络和一个前向网络；每一层的子网络的输入都为210×8×8的序列，其中多头自注意力网络对序列进行相互间关系的并行运算，结果输出至前向网络，前向网络经过同维度转换之后传递到下一层的子网络；解码网络的最终结果由全连接网络计算得出，维度为210×d_voc,其中d_voc为预测字符所属的集合长度。

进一步的，所述多头注意力模型表达式为：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W°，

其中，Q、K、V为输入至多头注意力的特征序列，

是多头注意力模块中的可训练参数，d_model为特征序列维度大小，d_k＝d_model/h，为数值缩放因子。

进一步的，所述L-softmax损失函数公式如下：

其中N是训练数据的数量,i表示当前生成的第i个序列，w_yi是最后一层全连接层的权重参数，x_i是第i个输出序列，θ_i表示当前全连接层与当前序列的角度；ψ(θ)为L-softmax函数使用的角度约束函数：

其中D(θ)是任一单调递减函数，且

等于

m是一个与分类边界密切相关的大于1的整数。

一种应用于所述基于编解码的数学公式识别方法的装置，所述装置包括：

图像处理模块，用于将只含公式的图片进行裁剪和灰度化操作；

与所述图像处理模块连接的特征编码模块，用于完成图像特征信息的提取，并由位置编码，计算并添加位置信息；

与所述特征编码模块连接的特征解码模块，用于图像特征序列解码及字符预测。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现上述方法的步骤。

本发明所述的有益效果为：本发明在编码阶段使用ResNet网络进行特征提取并结合位置编码计算特征的位置信息，增强特征提取效果；使用L-softmax进行训练时的网络参数更新，通过角度约束和模长约束增强各个类别间的区别能力；采用将特征序列整体输入到自注意力模型中进行并行计算的方式，改进模型预测结果的序列预测的时序依赖问题，有效简化了网络结构，降低了模型的运行耗时。

附图说明

为了使本发明的内容更容易被清楚地理解，下面根据具体实施例并结合附图，对本发明作进一步详细的说明。

图1为本发明具体实施方式中脱机手写数学公式识别流程图；

图2为本发明具体实施方式中脱机手写数学公式识别网络结构图中多头注意力模块。

具体实施方式

实施例一：

本发明所述的一种基于编解码的数学公式识别方法，如图1所示，具体包括以下步骤：

步骤1、图像预处理：对只含手写数学公式的图片进行大小裁剪和灰度化调整，图片中只包含所有的公式部分和尽量少的空白区域，裁剪大小至256*256像素；

步骤2、图像特征编码：将处理后的图片经过由改进的ResNet卷积网络和位置编码模块融合而成的编码网络，得到解码网络的输入。

传统的卷积神经网络在网络深度加深之后，会面临梯度消失/梯度爆炸的问题，因此，ResNet引入了残差网络结构，即在输入和输出之间引入一个前向反馈的shortcutconnection，使得训练时的梯度能够直接反向传递。

如下表1所示，本发明中改进的ResNet卷积网络采用ResNet18，与原本ResNet18网络不同的是，其最后一层的全连接层更换为线性网络，所述改进的ResNet卷积网络卷积层最后的网络输出为512×8×8的特征序列，经过conv6的处理后，得到特征序列x，其维度为210×8×8，ResNet18网络中各层参数均为可训练参数；

表1

紧接着通过线性变换，将特征序列x的维度调整为210×128，送入位置编码模块，计算特征序列x之间和其自身的位置信息，计算公式为:

F＝x+Pe(x)

其中，pos是当前序列所在的位置，取值范围为0～d_len-1，d_len为预设的公式长度，本实施例中为210；i为当前序列中的维度位置，取值范围为0～d_model-1，d_model为特征序列维度大小，本实施例中为128。根据三角函数知识，对于任意偏移量k，PE_pos+k可以由PE_pos线性表示，故位置编码后的序列F能够表达特征序列间的位置信息。

步骤3、解码网络由4个子网络及全连接网络组成，每个子网络包含一个多头自注意力网络和一个前向网络；每一层的子网络的输入都为210×8×8的序列，其中多头自注意力网络对序列进行相互间关系的并行运算，结果输出至前向网络，前向网络经过同维度转换之后传递到下一层的子网络；解码网络的最终结果由全连接网络计算得出，维度为210×d_voc,其中d_voc为预测字符所属的集合长度。

所述子网络中多头自注意力网络表达式为：

MultiHead(Q',K',V')＝Concat(head₁,...,head_h)W°，

其中，

其中，Q、K、V为输入至多头注意力的特征序列，

是多头注意力模块中的可训练参数，d_model为特征序列维度大小，d_k＝d_model/h，为数值缩放因子；因为方法中的Q、K、V都等于解码网络输入F，所以称此网络为自注意力网络。自注意力网络的输出维度为d_len×d_model，经过线性变换后输出d_len×d_dict的预测序列(d_dict是包含了开始、结束和空白标签的待预测字符集合的长度)，选取d_len中各个维度的序列中的最大预测结果，即得到手写数学公式的识别结果。

训练阶段使用L-softmax函数对于预测序列间的关系施加约束，通过L-softmax损失函数计算字符预测结果与正确值之间的损失，对预测结果进行评价，指导ResNet18网络各层参数和多头注意力模型中可训练参数进行更新；预测输出进行1softmax运算之后得到的数值表示了预测值与正确值之间的相似度，数值越小则越相似。

所述L-softmax损失函数公式如下：

其中D(θ)是任一单调递减函数，且

等于

m是一个与分类边界密切相关的大于1的整数；本发明中选取的ψ(θ)为：

其中m＝3。

本发明所采用的损失函数，是在标准的Softmax loss中加入了一个角度约束及模长约束，确保不同类别的样本分界更明显。

本实验在配置了Intel(R)Core(TM)i9-10900X CPU@3.70FHz和两张NVIDARTX2080Ti显卡的服务器上运行，操作系统为Linux Ubuntu 18.04。深度学习框架是Pytorch 1.4.0,主要需要的库是python3.7.9、torchvision。

本发明实验的训练和验证数据集是HAMEX，HAMEX是由58位作者编写的4350个手写数学表达式，其中训练集90％，验证集10％。

具体实现算法为首先使用HAMEX数据集进行50次迭代训练，每批样本量设置为8；神经网络参数调整的方法采用Adam优化方法，其中学习率设置为0.001，平滑常数设置为0.9和0.98；Adam优化方法和L-softmax损失函数结合进行参数的训练更新，通过改变神经网络中的参数达到最小化损失函数的作用。

实施例二：

与所述模块连接的特征编码模块，用于完成图像特征信息的提取，并由位置编码，计算并添加位置信息；

与所述模块连接的特征解码模块，用于图像特征序列解码及字符预测。编码网络由子网络连接而成，每个子网络各包含一个多头自注意力网络和一个前向网络；解码网络用以计算特征序列的位置关系并输出具有预测性的序列，使用L-softmax函数对于预测序列间的关系施加更加强烈的约束，通过这些预测序列，选择出最佳的字符路径，依次输出最终识别的每个字符。

前述实施例一中的一种基于编解码的数学公式识别方法的各种变化方式和具体实例同样适用于本实施例的一种基于编码解码模型的脱机手写数学公式识别装置，通过前述对一种基于编码解码模型的脱机手写数学公式识别方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种基于端到端的脱机手写数学公式识别装置的实施系统，所以为了说明书的简洁，在此不再详述。

实施例三：

基于与前述实施例一中一种基于编码解码模型的脱机手写数学公式识别方法，本发明还另提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现上述方法的步骤。

本文中所描述的具体实例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

本领域内的技术人员应明白，本发明的实施例可提供为系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选方案，并非作为对本发明的进一步限定，凡是利用本发明说明书及附图内容所作的各种等效变化均在本发明的保护范围之内。

Claims

1.一种基于编解码的数学公式识别方法，其特征在于，所述方法的步骤如下：

步骤2、将调整后的图片输入编码网络得到特征序列；

步骤3、通过解码网络对图像特征进行解码及字符预测；

2.根据权利要求1所述的一种基于编解码的数学公式识别方法，其特征在于，步骤1中，图片包含所有公式部分，裁剪至256*256像素。

3.根据权利要求1所述的一种基于编解码的数学公式识别方法，其特征在于，步骤2中，所述编码网络由改进的ResNet卷积网络和位置编码融合而成，其中改进的ResNet卷积网络采用ResNet18，包括卷积层和线性网络，卷积层输出为512×8×8的特征序列，经过线性网络处理后，得到维度为210×8×8的特征序列x；之后将特征序列x经过位置编码模块计算，附加各个序列的绝对位置信息，得到最终的特征序列F，即解码网络的输入序列。

4.根据权利要求3所述的一种基于编解码的数学公式识别方法，其特征在于，所述位置编码模块如下：

其中，pos是当前序列所在的位置，取值范围为0～d_len-1，d_len为预设的公式长度，i为当前序列中的维度位置，取值范围为0～d_model-1，d_model为特征序列维度大小。

5.根据权利要求1所述的一种基于编解码的数学公式识别方法，其特征在于，解码网络由4个子网络及全连接网络组成，每个子网络包含一个多头自注意力网络和一个前向网络；每一层的子网络的输入都为210×8×8的序列，其中多头自注意力网络对序列进行相互间关系的并行运算，结果输出至前向网络，前向网络经过同维度转换之后传递到下一层的子网络；解码网络的最终结果由全连接网络计算得出，维度为210×d_voc,其中d_voc为预测字符所属的集合长度。

6.根据权利要求5所述的一种基于编解码的数学公式识别方法，其特征在于，所述多头注意力模型表达式为：

MultiHead(Q,K,V)＝Concat(head₁,...,head_h)W°，

其中，Q、K、V为输入至多头注意力的特征序列，

是多头注意力模块中的可训练参数，d_model为特征序列维度大小，d_k＝d_model/h为数值缩放因子。

7.根据权利要求5所述的一种基于编解码的数学公式识别方法，其特征在于，所述L-softmax损失函数公式如下：

其中，N是训练数据的数量,i表示当前生成的第i个序列，w_yi是最后一层全连接层的权重参数，x_i是第i个输出序列，θ_i表示当前全连接层与当前序列的角度；ψ(θ)为L-softmax函数使用的角度约束函数：

其中，D(θ)是任一单调递减函数，且

等于

m是一个与分类边界密切相关的大于1的整数。

8.一种应用于权利要求1-7任一项所述的基于编解码的数学公式识别方法的装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：该程序被处理器执行时，实现权利要求1-7任一项所述方法的步骤。