CN109977958A

CN109977958A - 一种离线手写体数学公式识别重构方法

Info

Publication number: CN109977958A
Application number: CN201910230160.8A
Authority: CN
Inventors: 董兰芳; 刘汉超
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2019-07-05

Abstract

本发明公开了一种离线手写体数学公式识别重构方法，在公式分割阶段，把字符分割问题转换为目标检测的问题，从而有效的处理了断裂字符和粘连字符的分割问题，在很大程度上提高了字符分割结果的正确率；在字符识别阶段，针对离线手写体数学字符识别问题设计了两个基于批量归一化和全局平均池化方法并仅使用3×3大小的卷积核的卷积神经网络模型，在识别阶段使用两种模型的投票结果作为识别结果，可以准确的完成数学字符的识别，提高字符识别准确率；在公式分析重构阶段，根据字符间的位置关系做几何约束，使用二维随机上下文无关文法进行语义约束，最后从下到上的对字符进行组合，从而完成公式的重构。

Description

一种离线手写体数学公式识别重构方法

技术领域

本发明涉及图像处理与模式识别技术领域，尤其涉及一种离线手写体数学公式识别方法。

背景技术

数学公式在教材、科技论文等科技类文档中非常常见，与一维结构的文本行不同，数学公式中字符空间关系复杂，存在着上下、左右、右上、右下、包围等二维结构。由于数学公式结构复杂，把公式输入到电子文档的过程繁琐复杂，而数学公式的识别技术可以方便地把公式图像或手写公式的笔画序列转换为在电子文档中可编辑的公式格式。

目前数学公式识别系统主要分为两类：(1)针对印刷体的数学公式识别系统；(2)针对手写体的数学公式识别系统。印刷体数学公式识别系统是把获取到的印刷的文档中的数学公式图像进行识别，转换为电子文档中的公式格式；而手写体数学公式识别系统则根据获取到的输入数据分为在线手写体数学公式识别系统和离线手写体数学公式识别系统。在线的识别系统的输入数据是公式的书写过程得到笔画序列，其目标是把笔画序列转换为电子文档中的公式格式；离线的识别系统的输入数据则是书写完成后的数学公式图像，其目标则是将该图像转换为电子文档中的公式格式。

数学公式识别系统包括三个主要技术环节：(1)公式分割，即从输入的公式数据得到各个字符数据的过程，离线形式的输入数据是公式图像，其分割就是把公式图像分成若干个只包含一个字符的子图像，而在线形式的输入数据是笔画序列，其分割就是把属于同一字符的笔画进行组合的过程；(2)字符识别，即从字符数据中提取特征，并完成识别的结果；(3)公式分析，即根据字符的类别和字符间的位置关系对字符的组合进行几何和语义约束，最终将所有字符进行组合，重构出公式的过程。离线印刷体数学公式常用的分割方法有：基于图像分析的直接切分法、基于投影的切分技术以及曲线最短路径分割算法等。在线手写体数学公式常用的分割方法有：Stefan等人提出的基于假设网络的字符笔画组合法、Kenichi等人提出的基于统计笔画间距离的公式分割算法以及Lei等人提出的基于笔画对识别的公式分割算法等。字符识别的主要方法分为：人工提取字符图像特征并使用支持向量机(Support Vector Machine，SVM)、Adaboost等分类器进行识别的传统方法；利用卷积神经网络(Convolutional Neural Network，CNN)自动提取图像特征并完成分类的深度学习方法。

由于数学公式本身复杂的二维结构，对公式内容的分割和解析本身就是具有挑战性的问题。而由于手写体的随意性，与印刷体数学字符相比，手写体数学字符粘连情况严重，不同字符大小不一，同一字符形状各异，这给离线手写体数学公式的分割和识别造成了诸多困难。与在线数据相比，离线数据缺少时间序列的信息，在公式的分割和识别方面也更具有挑战性。

发明内容

本发明的目的是提供一种离线手写体数学公式识别重构方法，具有较高的识别准确率。

本发明的目的是通过以下技术方案实现的：

一种离线手写体数学公式识别重构方法，包括：

使用基于深度学习的目标检测算法检测手写体数学公式图像中每个字符的位置，从而完成手写体数学公式图像中字符的分割；

采用分类器对各字符进行分类，从而完成字符的识别，并确定各字符的类别；

根据字符的类别和位置关系对字符的组合进行几何和语义约束，并利用CYK算法自下而上的完成公式的重构。

由上述本发明提供的技术方案可以看出，对公式分割考虑周密，能取得更好的效果，对字符识别能够进一步提升识别效果，能够处理和识别离线手写体数学公式，可以应用于自动判卷等需要对手写体数学公式图像进行识别的实际问题中。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种离线手写体数学公式识别重构方法的流程图；

图2为本发明实施例提供的目标检测示例示意图；

图3为本发明实施例提供的Faster RCNN的检测流程示意图；

图4为本发明实施例提供的Inception结构示意图；

图5为本发明实施例提供的实验中字符分割示意图；

图6为本发明实施例提供的C.ReLU激活操作的原理示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种离线手写体数学公式识别重构方法，如图1所示，其主要包括如下步骤：

步骤1、使用基于深度学习的目标检测算法检测手写体数学公式图像中每个字符的位置，从而完成手写体数学公式图像中字符的分割。

公式分割就是获取数学公式图像中每个字符的具体位置的过程。由于数学公式中字符与字符间的位置关系存在上下、左右、右上、右下、半包围等关系，使得常用的投影分割方法难以应用在此问题中。同时由于书写人各异，书写的公式字符参差不齐，大小各异，公式中字符容易产生粘连，同时一些数学字符如“i”，“j”，“！”等本身由多个部分组成，导致基于连通域分割的方法同样难以应用在此问题中。

本发明实施例中，采用基于目标检测的方法，通过检测公式图像中的各个字符最终完成对公式中字符的分割。目标检测是计算机视觉领域一类很重要的问题，其目的就是检测出图像中存在的某些指定的类别的物体的位置及其类别，图2是目标检测的示例图，检测到该图中存在的两辆汽车三个人。

传统的目标检测的方法一般是通过不同大小的滑动窗口在图像中滑动或者使用同一大小的滑动窗口在不同尺度的待检测图像中滑动，每次滑动后对滑动窗口对应的图像进行识别，判断是否为待检测的类别之一。但是这种检测方法效率较低，同时由于手动设置滑动窗口或尺度的大小，识别效果相对较差。

随着近些年深度学习的兴起，目标检测问题取得了相当大的进展，Ross Girshick在2013年提出了RCNN方法，使用Selective Search生成候选区域，使用卷积神经网络提取候选区域的特征，并使用SVM进行分类。后面Ross Girshick等人依次提出了Fast RCNN与Faster RCNN，Faster RCNN第一次仅使用CNN完成了目标检测的任务，图3是Faster RCNN的检测流程示意图。Faster RCNN主要由三部分组成，第一部分是公用的卷积层，用于提取图像特征；第二部分是用于生成候选目标区域的网络结构(Region Proposal Netwok，RPN)；第三部分是Fast RCNN中的分类器与回归器，用于识别RPN网络生成的候选区域中目标的类别并微调该目标的位置。

由于手写数学公式图像中字符大小各异，有一些特别小的字符，如“.”，“,”等，使用如LeNet，AlexNet和VGGNet等仅用较少尺度种类的卷积核(VGGNet中仅用了3×3大小的卷积核)的神经网络难以获取不同尺度的特征。另外由于在卷积神经网络处理的过程中较小的字符特征容易丢失，导致最终无法检测到这些字符。本发明实施例针对以上问题进行了优化，总结主要有以下两点：

1)将用于提取特征的卷积神经网络中的普通卷积层替换为包含多种不同大小的卷积核的Inception结构；Inception结构中包含了多种不同大小的卷积核，如1×1，3×3和5×5大小，图4为Inception结构示意图。由于不同大小的卷积核具有不同的感知野，因此多个Inception结构叠加后可以得到多种不同尺度的特征，从而很好的适应手写体数学公式中大小各异的字符特征检测任务。

2)将用于提取特征的卷积神经网络中不同阶段的特征图进行融合，并利用融合后的特征图进行目标检测；在CNN中一般采用Max Pooling层降低特征图的大小，从而降低计算资源的消耗并且提升卷积核的感知野大小。然而由于Max Pooling操作，特征图的分辨率降低，容易丢失一些细节信息。因此在CNN中，浅层的特征图具有高分辨率、特征语义少的特点而深层的特征图具有低分辨率、特征语义清晰的特点，将浅层的特征图与深层的特征图融合后可以获取既有高分辨率又有特征语义清晰的特征，从而可以有效的检测到公式图像中的较小的字符。

步骤2、采用分类器对各字符进行分类，从而完成字符的识别，并确定各字符的类别。

字符识别是在经历过断裂字符的分割后，通过使用卷积神经网络学习并提取每个字符中的特征，并完成分类的过程。虽然在目标检测的阶段同样有分类的过程，但是由于数学字符中有一些类别手写格式较为相似，如“1”、“l”和“|”，“0”和“o”等，为了提高目标检测的召回率，本发明实施例将这些相似的字符合并为一类，因此需要额外的字符识别阶段对字符进行重新识别。

本发明实施例中，采用基于批量归一化(Batch Normalization，BN)和全局平均池化(Global Average Pooling，GAP)算法的卷积神经网络进行字符识别。

卷积神经网络(CNN)是一种多层的监督学习神经网络，网络使用了局部感知区域、共享权值和空间的降采样等技术，卷积神经网络提取到的特征对输入信号的平移、缩放、仿射变换等变形具有很强的鲁棒性，在图像分类领域相比传统的人工设计的特征进行分类有着很大的进步。当前使用CNN在Mnist手写体数字数据集中已经取得了99.79％的正确率，甚至超过了人类的识别正确率。卷积神经网络一般由卷积层、下采样层、激活层和全连接层组成，网络中的每层是由一个或多个特征图组成，通过卷积层和下采样层对原图像进行特征提取，特征图分辨率逐渐降低，同时提取的特征图数目逐渐增多，以检测更多的特征信息，并使特征具有全局性。卷积神经网络的后几层一般为传统的全连接层，将卷积层或下采样层输出的数据进行非线性映射，从而得到最终的图像特征，并送入输出层完成识别。

由于在训练过程中CNN中每一层的输入都受前几层的参数的影响。网络中每一层输入数据的分布发生变化则该层就需要适应变化后的数据分布，然而在使用随机梯度下降算法训练网络的过程中，由于输入的训练图像的变化以及网络各层中参数的调整，网络各层输入数据的分布都在不断变化，网络中每一层都需要不断适应新的数据分布，从而造成收敛速度慢，模型难以训练的问题。

本发明实施例提供的采用基于批量归一化和全局平均池化算法的卷积神经网络包含两个网络模型(记为模型A与模型B)，每个网络模型都包含多个交替设置的卷积层与池化层以及最后的Softmax层，模型A与模型B的区别在于在Softmax层之前模型A设置的是全局平均池化层而模型B中设置的是普通的全连接层；字符识别结果由两个网络模型投票结果来确定。如表1所示，示意性的给出了两个网络模型的结构，其中Conv-a-b-c-d中a表示卷积核的大小为a×a，b为生成的特征图数目，c为卷积核的移动步长，d为padding值，GlobalAverage Pool即为全局平均池化层。

表1网络模型的结构

本发明实施例中，每一网络模型中每一卷积层的输入数据都通过BN算法进行归一化，其过程如下：

将数据归一化，运算操作如下：

其中，为第k批数据x^(k)的归一化结果，E[x^(k)]为第k批数据的均值，Var[x^(k)]表示第k批数据的方差；

然而这种归一化方式会破坏掉卷积层学到的特征的数据分布，因此BN算法中设计了两个可学习变量，通过学习恢复出相应卷积层学习到的特征分布：

其中，γ^(k)与β^(k)为对应于第k批数据的可学习变量。

传统的卷积神经网络中的全连接层具有参数多，计算量大，容易过拟合等缺点，本发明使用GAP层代替全连接层，GAP层通过计算每个特征图的全局平均值，相比全连接层具有参数少，计算量小，减少过拟合的优点。

步骤3、根据字符的类别和位置关系对字符的组合进行几何和语义约束，并利用CYK算法自下而上的完成公式的重构。

经过公式分割和字符识别以后，公式分析阶段的输入数据是字符的类别和字符的位置关系。字符分析就是根据字符的类别和位置关系对字符的组合进行几何和语义约束，从而完成公式的重构。本发明实施例中，根据字符之间的位置关系的几何约束确定两字符是否可能组合，根据二维随机上下文无关文法的文法约束确定字符组合是否可行，最终通过CYK算法自下而上的完成公式的重构。

对于几何约束，通过确定当前字符的大小及其与其他字符位置关系，确定当前字符的搜索范围，并与搜索范围内的其他字符尝试进行组合；

对于语义约束，采用二维随机上下文无关文法，该文法对于数学公式具有足够强的表达能力，而相比0型和1型文法又足够简单易于解析，同时由于引入了概率模型，因此更适合处理模式识别的问题。二维随机上下文无关文法产生式规则转换的乔姆斯基范式如下所示：

A→t，Pr(A→t)；

A，B，C∈V_N，t∈V_T；

其中，V_N是非终结符，V_T是终结符，Pr(A→t)是终结符产生式规则的概率，是非终结符产生式规则，spr描述了非终结符的空间关系。

本发明实施例中，使用CYK算法完成对公式的分析，CYK算法是一个动态规划建立解析表的过程。CYK算法结合几何约束和语义约束完成公式重构，主要分为两步：(1)初始化解析表，其目的是构建解析表的底层部分；(2)自下而上地对子公式进行组合，构建解析表的高层部分。具体如下：

首先，初始化解析表：设S＝{S_i|i＝1,2,…,N}是所有字符的集合，N是字符总数；设S_l是l个字符的组合，1≤l≤N，则必有设ψ是CYK算法解析表，解析表中每个元素代表一个子公式，将一个由S_l的l个字符组成的子公式记作e_l(A,S_l,p)，A是该子公式的一个解析方案，也即文法中的非终结符，p是该子公式被解析为A的概率；解析表中的最高层表示最终解析的公式结果，解析表的最底层为公式中的每个字符；初始化过程如下：

T₁＝T₁∪{e₁(A，S₁，p)}；

对于e₁(A,S₁,p)，其概率p为：

p₁(A)＝p(A→t)p(t|S_i)；

其中，t是文法中的终结符，代表某数学符号，A→t表示文法中终结符的产生式规则，p(A→t)是二维随机上下文无关文法产生A→t的概率，p(t|S_i)是字符S_i被判定为数学符号t的概率，由字符分类器给出。

然后，自下而上地对子公式进行组合，构建解析表的高层部分；组合过程表示为：

T_l＝T_l∪{e_l(A，S_l，p)}，l＝2，3，…，N；

假设子公式e_l(A,S_l,p)是由两个字符更少的子公式e_k(A,S_k,p_k)和e_l-k(A,S_l-k,p_l-k)根据语义的约束组合而成，1≤k≤l-1；则e_l(A,S_l,p)的概率p表示为：

其中，是二维随机上下文无关文法中产生式规则的概率，p_k和p_l-k分别为e_k(A,S_k,p_k)和e_l-k(A,S_l-k,p_l-k)的概率，p(S_k,S_l-k|spr)是S_k和S_l-k两个字符组合的空间关系是spr的概率，由几何约束给出。

本发明实施例上述方案，根据输入的手写体数学公式图像，对其进行公式分割、字符识别和公式分析三个阶段的处理，最终获得识别结果。在公式分割阶段，把字符分割问题转换为目标检测的问题，从而有效的处理了断裂字符(如“i”，“j”等)和粘连字符的分割问题，在很大程度上提高了字符分割结果的正确率。在字符识别阶段，本方案针对离线手写体数学字符识别问题设计了两个基于批量归一化和全局平均池化方法并仅使用3×3大小的卷积核的卷积神经网络模型，在识别阶段使用两种模型的投票结果作为识别结果，可以准确的完成数学字符的识别，提高字符识别准确率。在公式分析阶段，本系统根据字符间的位置关系做几何约束，使用二维随机上下文无关文法进行语义约束，最后从下到上的对字符进行组合，从而完成公式的重构。

综上，上述方案对公式分割考虑周密，能取得更好的效果，对字符识别能够进一步提升识别效果，能够处理和识别离线手写体数学公式，可以应用于自动判卷等需要对手写体数学公式图像进行识别的实际问题中。

为了说明本发明上述方案的性能，还进行了相关实验。

一、实验环境如下：

CPU：Intel Core(TM)i5-2320 3.00GHz

GPU：NVIDIA GTX 1060(6GB)

内存：4GB

操作系统：Ubuntu 16.04

二、实验过程如下：

1、字符分割

对输入图像进行目标检测，得到字符的包围盒。在本实验示例中，将公式的图像使用PVANet进行目标检测，获得各个字符的包围盒，从而将各个字符的位置及其图像，如图5所示。PVANet是Faster RCNN的一种改进网络，相比Faster RCNN的优化主要有以下三点：

1)所述PVANet网络的前若干层使用C.ReLU代替ReLU作为激活函数；如图6所示，为C.ReLU激活操作的原理。C.ReLU激活操作是将卷积层生成的特征图进行反转后与原来的特征图合并到一起再进行平移或者放大后采用ReLU激活操作，从而降低计算需求。

2)所述PVANet网络中引入了包含多种不同大小的卷积核的Inception结构；

3)所述PVANet网络中将不同阶段的特征图进行融合，并利用融合后的特征图进行目标检测。

表2示意性的给出了PVANet中特征提取阶段CNN的网络结构。其中C.ReLU列中X-K-Y，K表示C.ReLU模块通道数，X与Y表示1×1卷积层的通道数；Inception结构#3×3是由一个1×1卷积层和一个3×3卷积层叠加得到，#5×5是由一个1×1卷积层和两个3×3卷积层叠加得到的，卷积层Conv X_Y中的X与Y分别表示卷积层所在的租号与组内的编号，例如，Conv5_4表示第5组中第4个卷积层，分组的标准是输出的特征图大小相同的卷积层为同一组；Downscale是将Conv3_4得到的特征图进行缩小，Upscale是将Con5_4得到的特征图进行扩大，使得Conv3_4缩小和Con5_4扩大后的特征图与Conv4_4得到的特征图具有相同的大小，Concat层为将Conv3_4缩小后和Con5_4扩大后的特征图以及Conv4_4得到的特征图进行串联，Convf为最后1×1的卷积层。

表2PVANet中特征提取阶段CNN的网络结构

2、字符识别

对字符分割得到的各个字符的子图像分别送入表2所述的两个用于字符识别的卷积神经网络中，并获得每个图像对应的两个网络输出的属于101类字符类别的概率，并将这两个网络输出的概率值进行平均，选择平均后概率的最大对应的类别作为该字符图像对应的识别结果。

3、公式分析与重构

根据公式的分割和字符的识别结果，在几何和语义约束下对字符进行组合，从而重构出公式，本例中最终识别结果为：

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种离线手写体数学公式识别重构方法，其特征在于，包括：

2.根据权利要求1所述的一种离线手写体数学公式识别重构方法，其特征在于，基于深度学习的目标检测算法检测通过改进后的卷积神经网络实现；

所述改进后的卷积神经网络中用于提取特征的普通卷积层替换为包含多种不同大小的卷积核的Inception结构，且所述改进后的卷积神经网络中还将不同阶段的特征图进行融合，并利用融合后的特征图进行目标检测。

3.根据权利要求1所述的一种离线手写体数学公式识别重构方法，其特征在于，采用两个基于批量归一化BN和全局平均池化GAP算法的卷积神经网络模型进行字符识别；

所述卷积神经网络包含模型A和模型B，每个网络模型都包含多个交替设置的卷积层与池化层以及Softmax层，模型A和B的区别在于在Softmax层之前模型A设置的是全局平均池化层而模型B设置的是全连接层，字符识别结果由两个网络模型投票结果来确定；

每一网络模型中每一卷积层的输入数据都通过BN算法进行归一化，其过程如下：

首先，将数据归一化，运算操作如下：

然后，通过学习恢复出相应卷积层学习到的特征分布：

其中，γ^(k)与β^(k)为对应于第k批数据的可学习变量。

4.根据权利要求1所述的一种离线手写体数学公式识别重构方法，其特征在于，所述根据字符的类别和位置关系对字符的组合进行几何和语义约束包括：

对于语义约束，采用二维随机上下文无关文法，二维随机上下文无关文法产生式规则转换的乔姆斯基范式如下所示：

A→t,Pr(A→t)；

A,B,C∈V_N,t∈V_T；

5.根据权利要求4所述的一种离线手写体数学公式识别重构方法，其特征在于，所述利用CYK算法自下而上的完成公式的重构包括：

T₁＝T₁∪{e₁(A,S₁,p)}；

对于e₁(A,S₁,p)，其概率p为：

p₁(A)＝p(A→t)p(t|S_i)；

其中，t是文法中的终结符，代表某数学符号，A→t表示文法中终结符的产生式规则，p(A→t)是二维随机上下文无关文法产生A→t的概率，p(t|S_i)是字符S_i被判定为数学符号t的概率；

T_l＝T_l∪{e_l(A,S_l,p)},l＝2,3,…,N；

其中，是二维随机上下文无关文法中产生式规则的概率，p_k和p_l-k分别为e_k(A,S_k,p_k)和e_l-k(A,S_l-k,p_l-k)的概率，p(S_k,S_l-k|spr)是S_k和S_l-k两个字符组合的空间关系是spr的概率。