CN113139548B

CN113139548B - 基于运算符作用域和中心线的数学公式识别方法

Info

Publication number: CN113139548B
Application number: CN202011638890.0A
Authority: CN
Inventors: 黄胜; 冉浩杉; 贾艳秋; 张琴
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2022-05-06
Anticipated expiration: 2040-12-31
Also published as: CN113139548A

Abstract

本发明提出了一种基于运算符和中心线的数学公式识别的方法，其主要思路为：对公式图片进行切割；应用卷积神经网络(CNN)网络结构对字符图片进行识别；充分利用公式中不同种类运算符作用域固定的特点将其分为三类，分别是分号、特殊运算符和二元运算符号，其中特殊运算符包括根号、求和符号、积分符号等大符号，这些运算符有多个作用域，先将这些作用域内的子式判别出来并进行识别，将识别结果直接送入运算符的Latex语言表达式；然后基于字符在书写时受四线格约束的情况，提出中心线的概念，将常见字符分类为向上类、向下类、全占类和中心类，依据字符的中心线类别不同计算阈值，判断两个字符之间的上下标的位置关系。最终实现公式识别。

Description

基于运算符作用域和中心线的数学公式识别方法

技术领域

本发明涉及多媒体信息处理方向、图像识别的领域，具体涉及公式识别的技术领域。

背景技术

信息技术的发展改变了人们获取信息的方式和途径，人们越来越习惯获取电子类信息。将实体图片承载的信息电子化不仅能够提高工作效率、节约时间，也能为科研工作者提供极大的便利。实现这一目标主要应用的技术是光学字符识别(OCR)，是指利用光学电子设备如扫描仪或数码相机等获取图片后，检测图片上的字符并且确定其形状，然后用字符识别的方法将字符形状转换成计算机文字的过程。

OCR技术的应用十分广泛和常见，根据技术应用场景的不同可以分为两种，分别是自然场景文本识别和页面文本识别。自然场景下OCR技术的应用在我们的日常生活中随处可见。车牌号识别、路标识别都应用了OCR技术，同样交通物流方面的信息化也得益于OCR技术的应用。现代便利、安全和高效的生活与OCR技术在自然场景下识别文本的应用息息相关。OCR技术识别页面图片在我们的生活中也有广泛应用。

书籍页面图片与自然环境下的图片相比，背景干扰与噪声相对较少，页面目标尺寸相对较小，像素特征不如自然环境下的目标丰富。OCR技术实现页面图片识别，主要是实现将实体书籍或文档转换为电子档书籍或文档的工作，与文学作品类书籍不同，数学书籍的页面目标包括文本行、图、表和数学公式等。在科研与教学活动中，数学书籍是主要的知识载体，实现数学书籍的电子化，意味着实现实体数学书籍的可编辑与重用，可以减少科研材料的重复编辑工作，提高工作效率，对于教学和科研具有重要的意义。数学公式作为书籍重要的页面信息，其识别不仅要识别字符还要公式识别结构，一直以来都是页面目标识别的一个难点。

现有的公式识别主要分为两种，分别是多步骤识别法和端到端识别方法。端到端方法将公式识别的问题转换成机器翻译中序列到序列的问题，应用CNN对公式图片提取特征，利用循环神经网络(RNN)将提取到的特征进行解码，再用注意力机制对进行权重分析学习，最后利用光束搜索算法对标签进行匹配。这种方法训练困难，数据集要求较高，但是不需要进行图片切割。

分多步识别数学公式的方法本质的思想是分而治之，首先将公式图片进行切割，得到单个字符图片，应用分类器识别字符种类，之后根据切割得到的字符图片的位置坐标和字符种类，设计规则算法实现数学公式结构识别，最后将识别的结果输出。现有实现公式图片切割的方法有连通域法和投影法。投影法无法实现带有根号的公式图片的切割。连通域切割方法无法实现具有多个连通域的字符图片如“＝”“i”的切割，需要设计具体规则才能够实现多个连通域字符的切割。公式字符识别的方法主要有卷积网络、多层感应机和支持向量机(SVM)等方法。SVM方法需要手动设计提取的特征，计算复杂；多层感应机的本质是后向传播网络，该网络模型将输入的图片变为一维向量，会损失字符图片的特征。字符图片具有种类多、尺寸小和像素信息少的特点，卷积神经网络结构更加适合用来识别字符图片的种类。

公式结构识别一直以来是够公式识别的难点。有研究者应用编译原理中的方法，运用二维文法、图文法实现公式结构识别，这类方法实现复杂度较高；还有研究者通过构建基线的方法实现公式结构识别，将整个公式最左边的字符的几何中心所在的水平线，作为整个公式的主基线，以此来构建整个公式的语义结构树。分析基线识别的方法有如下的缺点。判基线的方法在判别字符之间的相对位置关系时，通过递归的方法识别基线上的字符和以外的字符之间的相对位置关系，需要判断基线上的字符的所有作用域内是否有字符，判别的次数相较于较多，算法复杂度大且不稳定。其中主基线的判别是整个基线识别结构方法的关键，判定主基线时将公式最左边的字符几何中心所在的水平线作为整个公式的主基线。但是有些公式并不适用这种方法确定主基线。

发明内容

针对数学公式识别的背景，本发明提出一种数学公式识别的方法，重点设计基于运算符作用域与中心线的方法实现常见公式结构识别算法。在公式切割和字符识别之后，充分利用运算符号的作用域的特点，将具有相同固定作用域的运算符号分为一类，识别过程中先将这些运算符的作用域内的子式识别，并直接转换成Latex语言，之后再识别字符的上下标等其它位置关系。并依据不同字符在四线格中手写约束的情况将字符分类，计算为判定上下标等不同位置关系判定的条件阈值。

提出的数学公式识别方法的思路和步骤如下：

1、公式图片切割

采用连通域方法实现公式图片切割，但是针对“＝”“j”具有多个连通域的字符，通过制定规则，实现整个字符图片的切割。如附图2是公式图片切割后的效果，附图3是单个字符的坐标信息示意图。

2、应用卷积神经网络结构作为字符识别器。

本发明应用的浅层神经网络的字符的识卷积网络的识别的网络参数如表1所示。网络训练用用的损失函数是网络的激活函数是Relu函数。网络的训练应用的数据集是Infty项目中的InftyCDB-3-B数据集，该数据集对数据进行了聚类，数据集中包括275类不同的字符图片，每个类别都有对应的标签，共有70637个字符图片的实例，将数据集按80％、10％、10％的比例来对数据集进行分配，以满足神经网络的训练、测试和验证。网络训练时网络训练的学习率是0.001，优化器选择的是Adam，损失函数选取交叉熵损失函数，batchsize为256，epoch等于4。在训练集和册数集上分别可以达到99.10％和98.90％的准确率。

表1初步设计的网络结构

3、基于运算符作用域和中心线来识别数学公式结构

本发明设计的方法是基于运算符作用域和中心线来识别数学公式结构的。该方法充分利用了公式中不同种类运算符作用域固定的特点将运算符分类，并提出公式中心线的概念识别来判别公式上下标位置关系，以此实现了对公式结构识别的准确率的提升和复杂度的降低。该方法最后将公式识别为Latex语言格式，一般的数学公式结构的Latex语言表达如表2所示。

表2常见公式的Latex语言表

(1)对公式中常见的运算符进行分类及处理思路

在识别公式字符的相对位置关系过程中，直接判定字符之间的相对位置关系，会使得整个算法的复杂度较高。除了普通的二元操作符，如加减乘除，可以直接转换成Latex表达式不需要特殊处理。而一些特殊运算符如积分，则需要根据该运算符的作用域特征作特殊处理。针对特殊运算符的作用域是固定的，将公式运算符作用域相同的归为一类。运算符的分类结果，如表3所示。

表3常见特殊运算符根据作用域不同的分类表

公式中有求和运算符、分式运算符、求极限运算符、积分运算符等运算符时，由于这些运算符涉及到多个作用域而造成基于基线的数学公式识别方法识别错误。若先处理这些运算符，把这些运算符涉及到各个部分先判别出来并进行识别，再处理普通变量和加减乘除等普通运算符的识别，则能更好地识别数学公式。

本发明将常见的特殊运算符分为三类，分别是分式中的分号、根号和大符号。接下来分别介绍分式中的分号、特殊运算符和根号的处理思路。

在公式识别的过程中，遍历整个公式中的所有字符，当有一个或者多个分号的时候，从最短的分号开始操作，用Latex语言来表示分号。如附图4所示，从L₁标志的短的分号开始，根据该分号最左边点的x坐标、最右边点的x坐标、y坐标的中心及L₂标志分号的y坐标，找到L₁的分子部分和分母部分分别所对应的字符图片集合(即分子部分为字符1，分母部分字符为d)，对这2部分进行识别之后存放到L₁分号对应的Latex语言表达式中。再用同样的方法对L₂标志的分号进行处理。

大符号的种类有很多，如求和、求积、积分还有求极限等。识别这种大符号先找到这些符号的上限和下限部分作用域如附图5中所示每个公式中用虚线框表示的部分。根据大符号的坐标位置信息，找到上限和下限部分所对应的字符集合并进行识别，然后将这些部分识别放入到Latex语言表达的部分。比如找到如附图5中的求和符号的上限是识别的结果是100；下限部分是i＝0，识别结果为i＝0；将这部分的识别结果转换成Latex语言的字符“sum_{i＝0}^{100}”，将该字符串存入所对应的求和运算符的latex语言表达域中，将其中上限和下限的部分从公式字符图片数据流中删除。得到新的公式数据继续进行识别。

如附图6所示根号的特殊作用域是左上的根指数部分和根号里面的根底数部分。处理的思路是，根据根号的大小和位置信息，找到根号的根指数和根底数所对应的字符图片集合，将这两部分分别进行识别，识别后结果直接存放到根式符号的Latex语言表达式内。附图6中虚线线框分别是根指数部分和根底数部分所对应的字符图片集合。将虚线内的部分识别后，放入到根号的Latex语言表达式，得到的结果“\sqrt[4]{A+8}”将这部分存放到字符图片数据流的该根号字符的Latex语言表达式域中，并将根指数和根底数所对应的字符图片数据从公式字符图片数据流中删除。

(2)利用数学公式中心线判别上下标

由于公式字符在四线格中书写约束情况不同，提出了中心线的概念。如附图7所示图中各种字符在四线格中位置不同，但是都会受到图中虚线的约束，将这些线称为中心线。本发明提出的公式识别方法是通过字符中心线来判断字符之间的相对位置关系，如附图8所示，图中将字符分为四类，分别是向上类、向下类、中心类、全占类。常见公式中的字符分类如表4所示。

表4常见数学字符在四线格中书写位置不同的分类

通过字符图片的坐标信息，确定整个公式的书写的中心线。通过设置不同位置类型来确定阈值，整个公式中的中心线的寻找方法进行确定阈值的设置如表5所示，其中y₁和y₂分别是字符图片的左上角和右下角的纵坐标。

表5分类字符的中心线的计算方式

本发明利用中心线的概念判定字符的上下标。假设当前字符图片的是c，n是c的后一个字符。c左上角纵坐标是cy1,右下角纵坐标是cy2。n的左上角和右下角的纵坐标分别是ny1，ny2。center₁是c的中心线的纵坐标，center₂是n的中心线的纵坐标，range是c上下标出现的范围。字符c中心线的计算方式如公式(1)所示，字符n的中心线如公式(2)所示。

center₁＝a·cy₁+b·cy₂ (1)

center₂＝a·ny₁+b·ny₂ (2)

式中，a和b是表3中不同类型字符计算中心线的系数。

利用中心线的方法来判断一个字符上标和下标的时候，首先要知道当前字符本身中心线的位置和后一个字符图片中心位置，还要知道其上标字符和下标字符的中心线的位置的范围，该阈值范围计算的方法如公式(3)所示。

range＝(cy₂-cy₁)·line_height_ratio (3)

式中line_height_ratio的选取固定值为0.35。

如附图7所示是当前字符根据本身的中心线和后一个字符的中心线是在线框内的位置来判断两个字符之间的关系。每个字符判断相对位置关系的时候放入阈值判定的条件:

if(center₁-range)>center₂&&(cy₂-range>ny₂):

n是c的上标；

if(center₁+range)<center₂&&(cy₂+range<ny₂):

n是c的下标；

else:

n在c的水平右边；

由于采用以上技术方案，本发明具有以下优点：

1、本发明根据充分利用了公式中不同种类运算符作用域固定的特点将其分为三类，分别是分号、特殊运算符和二元运算符号，其中特殊运算符包括根号、求和符号、积分符号等大符号，这些运算符有多个作用域。先将这些作用域内的子式判别出来并进行识别，将识别结果直接送入运算符的Latex语言表达式，再进行识别上标和下标等位置关系。能够完全识别常见的数学公式，并减少中心线的位置判断次数，降低了整个方法的复杂度。

2、本发明基于字符在书写时受四线格约束的情况，提出中心线的概念，将常见字符分类为向上类、向下类、全占类和中心类，依据字符的中心线类别不同计算阈值判断两个字符之间的位置关系。中心线的提出在判断两个字符之间的位置关系的准确性更高。

附图说明

为了使本发明的目的、技术方案和有益效果更加清楚，本发明提供如下附图进行说明：

图1公式识别流程图；

图2公式图片切割效果图

图3切割过后字符图片的信息示意图；

图4公式中有多个分号的示意图；

图5含有大符号公式的示意图；

图6含有根号的公式的示意图；

图7公式中字符的中心线的示意图；

图8字符图片依据中心线分类的示意图；

图9整个算法流程图

图10Recgsp函数的流程图

图11Colatex函数的流程图

图12各种公式结构示意图

具体实施方案

本发明充分利用运算符号的作用域固定的特点，将运算符号分类。减少了设置基线的方法识别公式结构的特征。并利用中心线的方法识别字符之间的相对位置关系。以下结合附图和具体事例对本发明的具体实施说明如下。

本发明的算法实现步骤：

步骤一：输入公式图片；

步骤二：应用连通域与规则相结合的方法实现公式图片切割，获得单个字符图片。

步骤三：应用浅层神经网络结构作为字符分类器，识别字符图片的种类。其中网络的参数如表1所示。

步骤四：在字符图片集合数据先查找分式运算符。由于在一个分式中还有更小的分式，即一个分式的分子或分母包含另外一个分式的情况。查找时，先找分式运算符最短的分式及其对应的上部分和下部分，并调用步骤五和步骤六来处理分式的上部分和下部分；再找次短的分式运算符及其对应的上部分和下部分，并进行处理；继续进行，直到公式中所有的分式处理完毕。

步骤五：在处理完分式运算符的字符图片集合中，根据顺序处理根号运算符及求和运算符、求极限运算符、积分运算符等运算符。

步骤六：使用基于中心线的方法来识别已处理完特殊运算符的字符图片，识别字符之间的上下标和水平相对位置关系。

步骤七：输出公式识别结果

输入的数据集合中每个字符的结构体数据包含信息的结构体为structCharsImg，

结构体定义的内容为

{

string name；

string latex_equation；

int top_left_x；

int top_left_y；

intbottom_right_x；

intbottom_right_y；

}

其中的string latex_equation是本字符对应的Latex表达式，信息已存储到其他字符中，如积分符号和求和符号的上下限存到积分符号和“求和符号”的Latex语言的表达式中。

整个算法识别的流程图附图9所示。识别公式结构时，先将切割得到的字符图片集合数据输入后，搜索数据集合中是否有分号，如果没有分号直接对输入数据调用Recgsp函数，之后调用Colatex函数，将得到的结果输出。如果有分号，从中找到尺寸最小的分号，找到该分号的上部和下部，上部和下部可能有特殊运算符和普通运算符组成的子式，对上部和下部都依次的调用识别特殊运算符和普通运算符的函数Recgsp和Colatex。将上下部的识别结果放入到分式中的分号对应的Latex语言的表示的字符串latex_equatiuon中。并将当前分号的上部和下部的对应数据在输入的字符数据集合中删除，识别完当前最小的分号后，继续对公式字符数据中的最小的分号进行处理。如果没有分号的存在，就调用Recgsp函数，再调用Colatex函数，然后将识别的结果输出。

Recgsp函数的流程图如附图10所示，从输入的数据中寻找特殊运算符如积分运算、求和运算符号等。如果没有找到特殊运算符对输入数据调用Colatex函数；如果找到了特殊运算符，通过规则方法判别特殊运算符的上限和下限部分，对上限和下限都调用Colatex函数，将得到的结果送入到大符号的Latex语言表达式的字符串latex_equation内，将原来的原来数据集合中该符号上限和下限的部分删除，直到将所有输入的公式数据中的特殊运算符都处理完成。将得到的新的字符图片数据调用Colatex函数，将识别结果输出。值得注意的是，在该函数内“根号”的作用域与其他常见的特殊运算符是不同的，根号需要寻找的根指数和包含的子式。需要设置另外的规则进行判断。

普通运算符和字符的识别函数的流程图如附图11所示。将输入的数学字符图片的数据集合进行从左到右从上到下的数学排序后，从左到右开始，设当前字符是c，后一个字符是n。根据c字符在四线格中书写未知的类型，计算c和n的中心线，并计算c的上下标的阈值范围，根据中心线与阈值的关系，判断c和n的位置关系。如果n是c的上标那么Latex语言识别结果是c^{n}，如果n是c的下标，识别的Latex语言的结果是c_{n}。进行以上的操作直到n是整个输入数据中的最后一个字符图片。

各种结构公式的示意图如附图12所示，应用本发明提出的方法进行识别，识别的结果为：

图12(a)识别结果：

\frac{x}{2}+\frac{6}{y}＝5z；

图12(b)识别结果：

Q(z)＝\frac{1}{\sqrt{2\pi}}\int_{z}^{\infty}e^{\frac{x^2}{2}}dx；

图12(c)识别结果：

y＝\int_{-\infty}^{\infty}6x^{2}+3\lambdadx。

Claims

1.一种数学公式识别方法的方法，包含以下的步骤：

步骤S1：针对数学公式图片的特点选取连通域与规则相结合的方法进行公式图片切割，获得单个字符图片和字符图片的多种坐标信息，并根据字符图片位置信息按照自左向右、自上向下的顺序排序形成字符图片数据流；

步骤S2：利用浅层卷积神经网络对分割得到的单个字符图片进行字符识别，获得单个字符图片的类别，并更新字符图片数据流对应字符的信息；

步骤S3：对公式结构进行识别，首先搜索公式中运算符号，判断运算符号的类别，根据类别的不同实现对符号的作用域内的子式进行处理；获得对运算符的作用内的子式处理之后的数据流，开始应用中心线的概念，识别公式中的上下标位置关系；

步骤S3的特征在于利用运算符号的作用域固定的特点，将不同种类运算符作用域分为三类，分别是分号、特殊运算符和普通二元运算符号，其中特殊运算符包括根号、求和符号、积分符号大符号，这些运算符有多个作用域；特殊运算符的每个作用域有自己的中心线，每个作用域的所有字符的识别可看成一个子公式的识别；

步骤S3的中心线方法的特征在于：对普通字符间上下标位置关系识别是利用字符在书写时受四线格的约束情况提出中心线的概念；将常见字符分类为向上类、向下类、全占类和中心类，依据字符类型不同采用不同的权值来计算字符的中心线，并根据中心线的范围阈值来判断两个字符或子式之间的位置关系；

假设当前字符图片的是c，n是c的后一个字符；c左上角纵坐标是cy1,右下角纵坐标是cy2；n的左上角和右下角的纵坐标分别是ny1，ny2；center₁是c的中心线的纵坐标，center₂是n的中心线的纵坐标，range是c上下标出现的范围；center₁和center₂的计算如下式所示：

center₁＝a·cy₁+b·cy₂ (1)

center₂＝a·ny₁+b·ny₂ (2)

式中，a和b是不同类型字符计算中心线的系数；

range的计算如下式所示：

range＝(cy₂-cy₁)·line_height_ratio (3)

式中line_height_ratio的选取固定值为0.35；

利用下面条件判断c和n的关系：

if(center₁-range)>center₂&&(cy₂-range>ny₂)

n是c的上标；

if(center₁+range)<center₂&&(cy₂+range<ny₂)

n是c的下标；

else

n在c的水平右边；

步骤S4：输出公式识别结果。

2.根据权利要求1所述的方法，步骤S3的特征在于，将数学字符图像识别之后的字符图片数据流进行处理，包括：

S3-1：对于输入的公式字符数据，优先处理分号，再处理特殊运算符，查找字符图片数据流是否有分号，若有分号，主要分成分子和分母两个子式来识别处理；若有多个分号，按照分号长度升序依次处理分号；

S3-2：根据分号图片的位置特性，在原字符图片数据流中找到分号上部和下部的字符图片集合；

S3-3：对于分号上部和下部的字符图片集合，先调用特殊运算符处理方法，再调用中心线方法对分号上下部进行识别；

S3-4：将上下部的识别结果及分号，转换成Latex语言表达式，并将转换后的表达式存入到字符图片数据流对应分号数据中，将原字符图片数据流中的分号上下部分的所有字符数据删除；

S3-5：将删除后的字符数据流重复进行S3-2至S3-6步骤，直至字符图片数据流中分号已处理完；

S3-6：调用特殊运算符处理方法依次处理字符图片数据流的特殊运算符，以得到特殊符号及其作用域所对应的子式的Latex表达式；将识别得到的Latex表达式存入字符图片数据流对应特殊运算符数据中，并删除该数据流中特殊运算符作用域内的所有字符图片数据；

S3-7：反复调用S3-6，直到数据流中的所有特殊运算符处理完毕；

S3-8：调用中心线方法处理字符图片数据流，以进行字符间上下标位置关系识别，并最终得到公式的Latex语言识别结果。

3.根据权利要求2所述的方法，步骤S3-3和S3-6中特殊运算符处理方法的特征在于：在字符图片数据流查找特殊运算符，并根据特殊运算符的作用域特点，查找每个作用域的字符图片集合，然后依次调用特殊运算符处理方法和中心线处理方法处理这些字符集合；在此基础上，把特殊运算符及其作用域内的字符转换成Latex表达式。