CN111310525A

CN111310525A - 一种数学公式符号识别方法

Info

Publication number: CN111310525A
Application number: CN201811518008.1A
Authority: CN
Inventors: 李陶然
Original assignee: Zhongcai Yihe Technology Development Beijing Co ltd
Current assignee: Zhongcai Yihe Technology Development Beijing Co ltd
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2020-06-19

Abstract

本发明公开了一种数学公式符号识别方法，对待识别数学公式，用隐性分割模型对数学公式符号进行处理及识别；其中，在隐性分割模型处理和识别的过程中，方向判断网络对数学公式符号的实时位置判断结果作为隐性分割模型处理的输入进行处理，隐性分割模型对数学公式符号进行识别。加入方向判断网络增强二维空间上的编码和解码能力。采用此方法在联机手写、脱机手写和光学字符数学公式识别的正确率上大幅度提高。

Description

一种数学公式符号识别方法

技术领域

本发明属于模式识别与人工智能技术领域，具体地说，涉及一种数学公式符号识别方法。

背景技术

随着人工智能的普及以及移动终端的大量普及，使用直接通过手写输入数据的方法，成为了使用者和计算机进行互动的最自然的方式。数学公式是二维文档，但同时又需要传递一维空间中的符号信息，和符号与符号之间的空间信息。符号与空间位置的不同表达了不同的含义。因此，如何准确快速的识别手写数学公式中的符号以符号之间的位置关系是一个需要结局的问题。

联机手写字符识别(HWR)是对自然书写的手写笔迹轨迹进行识别的技术，将包含有文字的笔迹中的文字识别出来，是图形领域人工智能和自动化的一个重要方向，广泛应用在各行各业。而联机手写数学公式识别(HWMER)，由于涉及到复杂的数学公式符号和结构的识别，所以比一般的手写文字识别更难。

现有技术中HWR方法是对笔迹轨迹进行以字符为单位的切割，然后单独识别切割后的笔迹块，并针对笔迹行从左到右的顺序识别，基于类似动态规划的方式进行整体结果的解码。即以单字符为单位，先切割，再识别及解码，识别和解码为混合过程，一边识别一边解码。但此方法涉及到了字符块的切割，以及笔迹行的解码，整体过程比较繁琐，而且限于切割出的笔迹块的可能性很多，解码时的时间和空间复杂度受限，性能和效果较低。同时，如果面对的是数学公式这类复杂结构的识别，在解码时，还需要考虑复杂的空间结构，整体难度和时间复杂度更是次方级别上升。

另一种现有技术中的HWR方法是基于卷积神经网络(CNN)或循环神经网络(RNN)，进行笔迹行文字的端到端识别，不在过程中进行显式的字符块切割。此结构中，CNN负责对图像的特征进行编码，RNN负责对编码后的特征进行水平(时间轴)方向的解码。即以笔迹行为单位，先卷积，再循环，两部分有先后之分并独立顺序进行。而此方法中，虽然通过RNN解决了切割和动态规划解码的问题，达到了端到端的程度，但因为RNN(RNN，LSTM，GRU等)内部进行时间轴方向的编码时，采用的是与上一时刻进行全连接的方式，虽然类似LSTM或GRU的结构中有门机制控制长短期(Long Short-Term)的关联记忆能力，但因为受限于全连接的易过拟合，计算复杂度高，自编码能力弱等原因，长期关联记忆能力随时间衰减很严重，造成整体性能和效果存在瓶颈。同时，如果面对的是数学公式这类复杂结构的识别，RNN部分没法兼顾水平方向和垂直方向的关联关系，所以无法有效识别复杂的空间结构。

有鉴于此特提出本发明。

发明内容

本发明要解决的技术问题在于克服现有技术的不足，本发明提供了一种数学公式识别方法，使得能够快速准确的完成联机手写数学公式识别、脱机手写数学公式识别和印刷数学公式识别。

为解决上述技术问题，本发明采用技术方案的基本构思是：一种数学公式符号识别方法，其特征在于，对待识别数学公式，用隐性分割模型对数学公式符号进行处理及识别；

其中，在隐性分割模型处理和识别的过程中，方向判断网络对数学公式符号的实时位置判断结果作为隐性分割模型处理的输入进行处理，隐性分割模型对数学公式符号进行识别。

进一步的，所述方法包括：

隐性分割模型对数学公式符号进行卷积处理得到全局特征；

方向判断网络根据前一次的局部特征和全局特征为输入，输出本次的局部特征；

隐性分割模型将按时序顺序将每一步的局部特征作为输入，输出数学公式符号识别结果。

进一步的，所述方法具体包括如下步骤：

S1、隐性分割模型对数学公式符号的原始特征进行编码并输出整体卷积后的全局特征；

S2、方向判断网络从预设的全局特征的参考点开始，根据参考点处的局部特征和全局特征作为输入，输出本次的局部特征；

S3、方向判断网路将步骤S2输出的局部特征和全局特征作为进一步的输入，并输出下一步的局部特征；

S4、循环步骤S3直到全局特征的所有局部特征被方向判断网络处理完成；

S5、隐性分割模型根据每一步所得到的局部特征作为输入，对数学公式符号进行识别输出。

进一步的，所述隐性分割模型为基于卷积神经网络和循环神经网络的处理模型，对数学公式符号以行为单位进行先卷积再循环的过程。

进一步的，步骤S1中对数学公式符号的原始特征进行编码并输出整体卷积后的全局特征具体为，基于多层卷积神经网络提取数学公式符号的全局特征。

进一步的，步骤S2中方向判断网络开始选取局部特征进行输入的参考点为全局特征的左上角，结束的参考点为全局特征的右下角。

进一步的，方向判断网络基于全连接网络，通过上一次聚焦位置的坐标和宽高和全局特征，得到本次聚焦位置的坐标和宽高，其中，若第一次计算聚焦位置时，上一次的聚焦位置的坐标和宽高均为0。

进一步的，方向判断网络的结构为一个有四个输出神经元的全连接网络，每个输出神经元分别输出局部特征右上角水平和垂直位置(x,y)，以及局部特征的宽和高(w,h)。

进一步的，步骤S5中的每一步输入都基于每一次聚焦位置对应的局部特征，局部特征输入循环神经网络进行处理，直到完成数学公式符号的识别，循环神经网络对结果进行输出。

进一步的，若方向判断网络输出的位置坐标所对应的局部特征超出了全局特征所对应的坐标，则方向判断网络的输出停止。

采用上述技术方案后，本发明与现有技术相比具有以下有益效果：

1、不涉及到字符块的切割，和笔迹行的解码，即不需要对数学公式符号进行显性的字符切分，降低了字符块切割和解码的复杂程度，提高了识别速度和降低了运算成本。

2、避免了因字符块切割的不准确而造成的识别准确度的降低，特别对于数学公式符号在空间上的复杂性，本方法增强了二维空间上的编码和解码的能力，能有效的定位和识别复杂的数学公式符号。

3、本方法在采用具有长短距离关联能力的RNN模型的基础上，同时在字符特征的定位上，基于全局视野，采用具有可自行判断当前聚焦位置的方向判断模型，从而达到有效的隐性字符特征定位的目的。

下面结合附图对本发明的具体实施方式作进一步详细的描述。

附图说明

附图作为本发明的一部分，用来提供对本发明的进一步的理解，本发明的示意性实施例及其说明用于解释本发明，但不构成对本发明的不当限定。显然，下面描述中的附图仅仅是一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。在附图中：

图1是现有技术数学公式符号识别示意图；

图2是本发明数学公式符号识别方法的流程示意图。

需要说明的是，这些附图和文字描述并不旨在以任何方式限制本发明的构思范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对实施例中的技术方案进行清楚、完整地描述，以下实施例用于说明本发明，但不用来限制本发明的范围。

实施例一

如图1所示为现有技术中关于数学公式符号的识别过程，即通过对数学公式符号的显性切割来逐块的分割数学公式符号来对比字符块，这样在切割和识别的过程中都会带来很多不确定的因素，在造成识别不准确的情况下，也对计算量有较大要求。

如图2所示的本发明实施例中的数学公式符号识别方法的流程图。

本实施例的数学公式符号识别方法，基于卷积神经网络(CNN)或循环神经网络(RNN)，进行笔迹行文字的端到端识别，不在过程中进行显式的字符块切割。此结构中，CNN负责对图像的特征进行编码，RNN负责对编码后的特征进行水平(时间轴)方向的解码。即以笔迹行为单位，先卷积，再循环，两部分有先后之分并独立顺序进行。

本实施例针对的数学公式符号识别包括对印刷体数学公式识别、联机手写数据公式识别和脱机手写数据公式识别的，在识别范围上，并不仅限于对数学公式符号的识别，只要是具有复杂二维空间关系的数学公式符号、或者具有复杂二维空间的其他符号，或者具有内在空间逻辑的其他符号，都是本实施例的数学公式符号识别方法所能识别的客体，而对于联机手写数据公式的识别上，本实施例有更好的识别效果。

而在卷积神经网络和循环神经网络的基础上，本实施例增加了方向判断网络，基于方向判断网络对数学公式符号的位置判断能使得不在对数学公式符号进行显性分割的情况下，卷积神经网络和循环神经网络对具有复杂二维空间结构的数学公式符号能进行准确的隐性切割，从而通过卷积神经网络和循环神经网络的处理能准确的对复杂的空间关系例如分数、根号、极限、矩阵、积分、方程组等有局部上下或包含结构的识别。

具体的本实施例的数学公式符号识别方法包括步骤：

101、隐性分割模型对数学公式符号的原始特征进行编码并输出整体卷积后的全局特征；

具体的，隐性分割模型包括卷积神经网络和循环神经网络组成，在步骤S1中卷积神经网络对输入的数学公式符号进行原始特征的编码，并输出整体卷积后的二维特征，即全局特征。其中，基于多层的卷积神经网络提取全局特征和上一次所得到的局部特征作为方向判断网络的输入。具体的，局部特征所在的位置坐标和宽高和全局特征作为判断网络的输入，本次的局部特征通过上一次的局部特征的位置坐标和宽高和全局特征来计算得到。

102、方向判断网络从预设的全局特征的参考点开始，根据参考点处的局部特征和全局特征作为输入，输出本次的局部特征；

其中，方向判断网络的结构为一个有四个输出神经元的全连接网络，每个输出神经元分别输出局部特征右上角水平和垂直位置(x,y)，以及局部特征的宽和高(w,h)。通过输入上一次聚焦位置和全局特征来得到本次聚焦位置的具体坐标。在第一次根据局部特征作为输入计算聚焦位置时，以参考点的具体坐标为原点坐标开始计算。那么参考点的垂直位置坐标和宽高均为0。

在一般情况下，由于数学公式符号从左到右阅读的自然属性，方向判断网络计算开始的起始点为全局特征的左上角的参考点，以全局特征的右下角为结束点这样的运动轨迹进行计算，当然任何其他符合逻辑的计算轨迹也是可以实现的。

而计算得到的聚焦位置坐标所对应的局部特征将被作为循环神经网络的输入进行计算和输出最后的识别结果，而计算得到的局部特征位置坐标和宽高被作为下一次计算聚焦位置坐标时的输入量。

103、方向判断网路将步骤102输出的局部特征和全局特征作为进一步的输入，并输出下一步的局部特征；

将102中方向判断网络计算得到的聚焦位置坐标以及全局特征作为下一步需要计算的聚焦位置的坐标的输入，通过方向判断网络进一步的输出下一步的局部特征，同时再将这一次的聚焦位置所对应的局部特征输入循环神经网络进行计算。从而输出这一局部特征所对应的数学公式符号位置的识别。

104、循环步骤103直到全局特征的所有局部特征被方向判断网络处理完成；

方向判断网络根据一特定路线进行计算，本实施例中，如同步骤102中所描述的，从全局特征的左上角为开始点开始计算直到全局特征的右下角为止计算完成，每一次计算出来的聚焦位置所对应的局部特征都被输入到循环神经网络中进行计算输出，作为对与数学公式符号的识别的输出。

105、隐性分割模型根据每一步所选取的局部特征作为输入，对数学公式符号进行识别输出。

具体的，103和104中的每一步计算聚焦位置所对应的局部特征都被输入至循环神经网络中，那么循环神经网络根据输入的局部特征所对应的时序对识别结果进行输出，输出的结果即为按照聚焦位置的时序顺序的数学公式符号识别的结果。

那么具体的过成所对应的数学公式为：

特征提取函数为fc，本次聚焦位置函数为fl，循环神经网络识别记为fr，

i.设输入的原始特征为x

ii.y_全局特征＝fc(x)

iii.x_{本次局部特征},y_{本次局部特征},w_{本次局部特征},h_{本次局部特征}＝fl(y_全局特征,x_{上次局部特征},y_{上次局部特征},

w_{上次局部特征},h_{上次局部特征})

iv.若x_{本次局部特征},y_{本次局部特征},w_{本次局部特征},h_{本次局部特征}的位置超出全局特征范围，则停止；

否则y_字符，y_{本次隐状态}＝fr(y_局部特征，y_{上次隐状态})

本实施例能带来的技术效果为能在采取RNN(LSTM或GRU)进行长短距离的关联时，对涉及例如分数、根号、极限、矩阵、积分、方程组等有局部上下或包含结构进行有效关联，达到有效的隐性切分的效果。

同时在本实施例的识别方法中，能在字符特征的定位上，基于全局视野，采用了可自行判断聚焦位置的方向判断模型，从而达到有效的隐性字符特征定位的目的。

以上所述仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专利的技术人员在不脱离本发明技术方案范围内，当可利用上述提示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明方案的范围内。

Claims

1.一种数学公式符号识别方法，其特征在于，对待识别数学公式，用隐性分割模型对数学公式符号进行处理及识别；

2.根据权利要求1的一种数学公式符号识别方法，其特征在于，所述方法包括：

隐性分割模型对数学公式符号进行卷积处理得到全局特征；

3.根据权利要求1或2的一种数学公式符号识别方法，其特征在于，所述方法具体包括如下步骤：

4.根据要求1至3任一所述的一种数学公式符号识别方法，其特征在于，所述隐性分割模型为基于卷积神经网络和循环神经网络的处理模型，对数学公式符号以行为单位进行先卷积再循环的过程。

5.根据权利要求3的一种数学公式符号识别方法，其特征在于，步骤S1中对数学公式符号的原始特征进行编码并输出整体卷积后的全局特征具体为，基于多层卷积神经网络提取数学公式符号的全局特征。

6.根据权利要求3的一种数学公式符号识别方法，其特征在于，步骤S2中方向判断网络开始选取局部特征进行输入的参考点为全局特征的左上角，结束的参考点为全局特征的右下角。

7.根据权利要求1至3任一所述的一种数学公式符号识别方法，其特征在于，方向判断网络基于全连接网络，通过上一次聚焦位置的坐标和宽高和全局特征，得到本次聚焦位置的坐标和宽高，其中，若第一次计算聚焦位置时，上一次的聚焦位置的坐标和宽高均为0。

8.根据权利要求7所述的一种数学公式符号识别方法，其特征在在于，方向判断网络的结构为一个有四个输出神经元的全连接网络，每个输出神经元分别输出局部特征右上角水平和垂直位置(x,y)，以及局部特征的宽和高(w,h)。

9.根据权利要求7的一种数学公式符号识别方法，其特征在于，步骤S5中的每一步输入都基于每一次聚焦位置对应的局部特征，局部特征输入循环神经网络进行处理，直到完成数学公式符号的识别，循环神经网络对结果进行输出。

10.根据权利要求3-6任一所述的一种数学公式符号识别方法，其特征在于，若方向判断网络输出的位置坐标所对应的局部特征超出了全局特征所对应的坐标，则方向判断网络的输出停止。