CN111046751A

CN111046751A - 公式识别方法和装置

Info

Publication number: CN111046751A
Application number: CN201911169454.0A
Authority: CN
Inventors: 张�浩; 黄涛; 刘三女牙; 杨宗凯; 杨华利; 夏雨
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-04-21
Anticipated expiration: 2039-11-22
Also published as: CN111046751B

Abstract

本发明提供了一种公式识别方法和装置；其中，该方法包括：获取待处理数据；提取待处理数据的笔迹特征；根据待处理数据中笔划的输入顺序以及笔迹特征，生成待处理数据对应的用户行为链；用户行为链用于指示待处理数据中符号之间的时序关系；将用户行为链输入至预设的公式识别模型中，输出待处理数据的公式识别结果。该方法根据待处理数据中笔划的输入顺序和笔迹特征生成可以指示待处理数据中符号之间的时序关系的用户行为链，将该用户行为立案输入至预设的公式识别模型，由公式识别模型输出公式识别结果，通过用户行为链指示时序关系，在识别过程中考虑公式的时序性，以简化识别步骤，减少识别时间，增加识别准确率。

Description

公式识别方法和装置

技术领域

本发明涉及机器学习技术领域，尤其是涉及一种公式识别方法和装置。

背景技术

技术问题：相关技术中，可以通过符号识别和结构分析相结合的方法识别公式，这种方法需要对公式数据切分后的一个个的字符进行符号识别，之后进行结构的分析。在公式识别的过程中的每一步都是独立的，导致识别过程没有考虑公式的时序性，识别步骤复杂，识别时间较长，并且准确率较低。

发明内容

有鉴于此，本发明的目的在于提供一种公式识别方法和装置，在识别过程中考虑公式的时序性，以简化识别步骤，减少识别时间，增加识别准确率。

第一方面，本发明实施例提供了一种公式识别方法，包括：获取待处理数据；提取待处理数据的笔迹特征；笔迹特征包括笔划的位置特征和几何特征；根据待处理数据中笔划的输入顺序以及笔迹特征，生成待处理数据对应的用户行为链；用户行为链用于指示待处理数据中符号之间的时序关系；将用户行为链输入至预设的公式识别模型中，输出待处理数据的公式识别结果。

在本发明较佳的实施例中，上述位置特征包括笔划位置；几何特征包括笔划开始方向、笔划结束方向和笔迹曲率；上述提取待处理数据的笔迹特征的步骤，包括：从待处理数据中提取预设数量的行为点；根据预设的坐标系，确定行为点的坐标；根据行为点的坐标计算笔划位置、笔划开始方向、笔划结束方向和笔迹曲率。

在本发明较佳的实施例中，上述行为点包括笔划的初始行为点，以及与初始行为点相邻的下一个行为点；上述根据行为点的坐标计算笔划开始方向的步骤，包括：通过以下算式计算初始行为点和下一个行为点连线与坐标系的水平轴的第一夹角：

其中，θ₁为第一夹角，(x₁，y₁)为初始行为点的坐标，(x₂，y₂)为下一个行为点的坐标；将夹角确定为笔划开始方向。

在本发明较佳的实施例中，上述行为点包括笔划的结束行为点，以及与结束行为点相邻的上一个行为点；上述根据行为点的坐标计算笔划结束方向的步骤，包括：通过以下算式计算结束行为点和上一个行为点连线与坐标系的水平轴的第二夹角：

其中，θ₂为第二夹角，(x_n-1，y_n-1)为上一个行为点的坐标，(x_n，y_n)为结束行为点的坐标；将夹角确定为笔划结束方向。

在本发明较佳的实施例中，上述根据行为点的坐标计算笔迹曲率的步骤，包括：从行为点中提取目标行为点；针对每个目标行为点，获取与当前目标行为点相邻的前一个行为点和后一个行为点；通过以下算式计算当前目标行为点的笔迹曲率：K＝(cos θ₃,sinθ₃)；其中，K为笔迹曲率，θ₃为笔迹曲率的曲率角，

(x_t-1，y_t-1)为前一个行为点的坐标，目标行为点的坐标为(x_t，y_t)，后一个行为点的坐标为(x_t+1，y_t+1)。

在本发明较佳的实施例中，上述根据待处理数据中笔划的输入顺序以及笔迹特征，生成待处理数据对应的用户行为链的步骤，包括：按照待处理数据中笔划的输入顺序，从待处理数据的笔迹特征中提取预设数量的笔迹位置；将提取出的笔迹位置、提取出的笔迹位置对应的笔划开始方向、笔划结束方向和笔迹曲率组合为一个行为特征单元；继续执行按照待处理数据中笔划的输入顺序，从待处理数据的笔迹特征中提取预设数量的笔迹位置的步骤，直至到达待处理数据的最后一个笔迹特征；将生成的行为特征单元按照预设顺序排列，得到用户行为链。

在本发明较佳的实施例中，上述公式识别模型通过以下步骤建立：基于预设的训练集确定训练公式和训练公式对应的行为链；将训练公式的行为链输入至BLSTM编码器，输出编码结果；通过预设的权值参数，设置编码结果中各个信息对应的权值，将设置权值之后的编码结果输入至LSTM解码器中，输出解码结果；根据训练公式和预设的损失函数，计算解码结果的损失值；根据损失值调整权值参数；继续执行基于预设的训练集确定训练公式和训练公式对应的行为链的步骤，直至损失值收敛，得到公式识别模型。在本发明较佳的实施例中，上述通过预设的权值参数，设置编码结果中各个信息对应的权值的步骤，包括：设置权值之后的编码结果

其中，P为设置权值之后的编码结果，A_i为第i个编码结果的信息，B_i为预设的权值参数中，第i个编码结果的信息对应的权值，n为编码结果包括的信息个数。

第二方面，本发明实施例还提供一种公式识别装置，包括：数据获取模块，用于获取待处理数据；特征提取模块，用于提取待处理数据的笔迹特征；笔迹特征包括笔划的位置特征和几何特征；行为链构建模块，用于根据待处理数据中笔划的输入顺序以及笔迹特征，生成待处理数据对应的用户行为链；用户行为链用于指示待处理数据中符号之间的时序关系；识别模型模块，用于将用户行为链输入至预设的公式识别模型中，输出待处理数据的公式识别结果。

在本发明较佳的实施例中，上述位置特征包括笔划位置；几何特征包括笔划开始方向、笔划结束方向和笔迹曲率；上述特征提取模块，用于：从待处理数据中提取预设数量的行为点；根据预设的坐标系，确定行为点的坐标；根据行为点的坐标计算笔划位置、笔划开始方向、笔划结束方向和笔迹曲率。

本发明实施例带来了以下有益效果：

本发明实施例提供的公式识别方法和装置，根据待处理数据中笔划的输入顺序和笔迹特征生成可以指示待处理数据中符号之间的时序关系的用户行为链，将该用户行为立案输入至预设的公式识别模型，由公式识别模型输出公式识别结果，通过用户行为链指示时序关系，在识别过程中考虑公式的时序性，以简化识别步骤，减少识别时间，增加识别准确率。

本公开的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本公开的上述技术即可得知。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种传统公式识别方法的示意图；

图2为本发明实施例提供的一种公式识别方法的流程图；

图3为本发明实施例提供的另一种公式识别方法的流程图；

图4为本发明实施例提供的一种公式识别方法的示意图；

图5为本发明实施例提供的一种用户行为链的示意图；

图6为本发明实施例提供的一种公式识别模型的结构示意图；

图7为本发明实施例提供的一种公式识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着互联网和人工智能技术的快速发展，教育信息化的步伐正在加快，智慧教育的概念已经开始影响并改变着传统的教育方式，而且现代化的电子产品与移动终端(如电子白板，数字笔、触摸板等)都已经全方位的覆盖于教育教学过程中，其中手写识别技术担任着不可或缺的责任。目前手写体识别主要是集中在汉字、英文字符以及数字的研究上，并在这几个领域已取得了非常好的成绩，但是这些识别都只局限于一维的空间上，对于诸如数学，物理和化学公式等二维结构分布的识别就显得力不从心。由于数学公式这种二维结构的数据在识别时不仅仅要考虑其中每一个符号的类别，还要考虑各个符号之间的结构位置关系，这对于手写技术的要求非常高，因此该领域的研究还处于初级阶段，需要不断的去探索。

数学公式的识别一般包含两个主要问题，一个是数学符号的识别，一个是数学公式的结构分析。一般情况下，数学公式的识别首先是要对完整的数学公式进行切分，将一个个的字符单独切分出来，然后对切分好的字符单独进行识别。只有完成字符识别后，然后才会对数学公式进行结构分析，因为数学公式都是复杂的二维机构，所以需要对其进行二维空间结构的分析，根据公式的结构和公式内部符号间的语义进行构建一个结构树，该树表示了公式中各个符号间的相互关系以及先后顺序和位置关系，最后通过一些纠错的方法如语义纠错校正得到最后的输出结果。

传统的数学公式识别流程可以参见图1所示的一种传统公式识别方法的示意图，如图1所示，从公式的输入开始，先将其数据进行预处理，包括归一化，平滑等等，然后将处理后的数据进行切分，把一个个的符号单独切分出来，再进行单个符号的识别，在识别的过程中如果识别结果大于某一个设定的阈值，则返回上一步骤重新切分，然后再进行识别，等到识别结果小于该阈值时，再接着进行公式结构的分析，最后得到最终输出的数学公式结果。

其中最关键的两个步骤是符号识别和结构分析。数学公式识别最早是对单个字符的识别，采用了基础的结构特征提取方法和决策树分类的方法，随着不断地研究发展，逐渐的将模板匹配法也应用到其中对其单个字符进行识别，随后进入到神经网络发展的时代，又有研究者提出了采用ART(Adaptive Resonance Theory，自适应共振理论)神经网络、HMM(Hidden Markov Model，隐马尔科夫模型)等模型对公式中的字符进行识别，并与软决策的方法结合对公式的结构进行分析，大大的提高了公式识别的精确率。

数学公式的结构分析是在数学符号识别的基础上进行的，也就是在字符识别的准确度基础上进行数学公式的结构分析。最早的分析方法有采用基于表达式匹配法、递归基线提取算法等等，在当时的学术条件下取得了非常好的效果，而目前较为成熟的数学公式的结构分析方法是基于文法进行分析的方法，它是通过一些形式文法来判断符号之间和符号的语义之间的关系，也就是说，它是用来描述符号的数学意义和空间关系的法则。常用的文法包括：二维上下文无关文法，二维随机上下文无关文法，几何文法和图形文法等等。其中，在二维上下文无关文法的基础上，给每个产生式增加了概率，并在随机上下文无关文法的基础上，给终结符产生式增加空间关系之后就变成了二维随机上下文无关文法。之所以选择文法分析就是因为它可以同时考虑符号的语法和符号的空间位置关系，并且能够确保识别出的数学公式在语法上不会出错，同时比较重要的一个优点是：它可以利用上下文的信息来减少数学公式各个阶段的部分歧义。但是，使用文法也有一定的缺点，因为它的文法需要使用者自己去定义，而数学公式又是多种多样的，结构复杂多变，所以定义的规则不可能包括所有的类型，这就造成了规则制定不全面的困难。一般情况下，对于手写数学公式的解析是采用CYK(Cocke–Younger–Kasami algorithm)算法，它是一个动态规划的过程，其目的是建立一个解析表，用来分析数学公式的结构。

现如今，随着计算机技术的飞速发展，使用传统的机器学习方法来解决该问题已经到达了一个瓶颈，难以有更大的突破，所以需要探索采用可以挖掘更深层次信息，具有复杂表达能力的深度学习来识别数学公式，提高其识别准确率。而且传统的方式都会将公式识别分为几个步骤进行研究，即耗时又复杂而且也丢失了公式符号间的时序性特征，所以如何构建一个既方便，又可以考虑到符号间的时序信息及其他重要信息，能更好的识别手写数学公式是一个非常重要的问题。因此，本发明将使用端对端的模型结构，即编码器—解码器模型，通过构建公式符号间的行为链，结合深度学习模型BLSTM(Bidirectional LongShort-Term Memory，双向长短时记忆网络)来构建整个联机手写数学公式识别模型，使其在识别结果上有着更好的效果。

机器学习与深度学习是目前人工智能研究的热点，在很多领域取得了良好的效果。同时注意力机制最近几年在深度学习的各个领域被广泛使用，它主要是与编码器——解码器模型相结合，被用于图像识别、语音识别、机器翻译和字符识别等其他研究领域，并且该组合模型在数学公式识别领域也有着一定的应用。由于深度学习不仅可以获得符号笔划信息的深层次特征，而且可以在一定程度上可以有“记忆”的功能，其可以克服传统数学公式识别中的符号间的独立性、符号的错误切分和识别准确度低等问题，而且因为深度神经网络是非线性的多层结构，因此可以通过调整较少的参数就能得到复杂函数的逼近，表现出很强的特征提取能力。

目前，相关技术中存在的主要问题在于公式识别的过程中的每一步都是独立的，导致识别过程没有考虑公式的时序性，识别步骤复杂，识别时间较长，并且准确率较低。基于此，本发明实施例提供的一种公式识别方法和装置，该技术基于行为链的数据构建方式对数学公式进行处理，结合深度学习模型LSTM(Long Short-Term Memory，长短期记忆网络)来分析数据间的时序关系。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种公式识别方法进行详细介绍。

实施例1

参见图2所示的一种公式识别方法的流程图，该方法包括如下步骤：

步骤S202，获取待处理数据。

待处理数据是指需要进行识别的公式数据。一般来说，该公式可以是数学公式、物理公式，化学公式等使用数学符号表的式子。待处理数据可以由用户直接输入的数据，也可以是扫描带有公式的图像获得的数据。

步骤S204，提取待处理数据的笔迹特征；该笔迹特征包括笔划的位置特征和几何特征。

笔迹特征用来描述构成公式的笔划的特征。待处理数据包括公式的每一个点的位置和几何形状，将一部分表示坐标的数据作为一个整体，就可以获得笔划的位置特征；将一部分几何形状的数据作为一个整体，就可以获得笔划的几何特征。其中，上述整体划分方法是看两个相邻点之间的距离，如果相邻的距离的阈值大于预设阈值，则这两个点就不再作为一个集合，即这两个点分别作为两个笔划的起始点和结束点。

步骤S206，根据待处理数据中笔划的输入顺序以及笔迹特征，生成上述待处理数据对应的用户行为链；该用户行为链用于指示上述待处理数据中符号之间的时序关系。

待处理数据包括公式的每一个点的输入时间，根据上述输入时间可以获得笔划的输入顺序。用户行为链用来说明一个用户如何进行某一行为，对于本发明实施例，用户行为链用来说明某一个公式的某一笔划如何书写，因此，用户行为链包括公式中符号之间的输入时间关系、每一个符号的位置、和每一个符号的形状。符号之间的输入时间关系就是时序关系。

步骤S208，将用户行为链输入至预设的公式识别模型中，输出待处理数据的公式识别结果。

一个公式可以由多个用户行为链构成，将这些用户行为链输入至预设的公式识别模型，就可以得到待处理数据的公式对应的公式识别结果。公式识别模型用于将多个用户行为链识别为公式，本发明实施例提供的公式识别模型采用编码器——解码器的构造，构建好的用户行为链输入到编码器——解码器框架中，其中编码器和解码器都采用深度学习模型，结合注意力机制，获得公式识别结果。

本发明实施例提供的一种公式识别方法，根据待处理数据中笔划的输入顺序和笔迹特征生成可以指示待处理数据中符号之间的时序关系的用户行为链，将该用户行为立案输入至预设的公式识别模型，由公式识别模型输出公式识别结果，通过用户行为链指示时序关系，在识别过程中考虑公式的时序性，以简化识别步骤，减少识别时间，增加识别准确率。

实施例2

本发明实施例还提供另一种公式识别方法；该方法在上述实施例方法的基础上实现；该方法重点描述提取待处理数据的笔迹特征的具体实现方式。

如图3所示的另一种公式识别方法的流程图，该方法包括如下步骤：

步骤S302，获取待处理数据。

这里以书写者将公式写入到触摸屏，本实施例提供的方法识别触摸屏提供发出的待处理数据为例，参见图4所示的一种公式识别方法的示意图，如图4所示，书写者通过带有触摸屏的设备(例如电子白板或者平板电脑)书写公式，触摸屏会将采集的待处理数据经过预处理后，进行特征提取。

其中，待处理数据包括墨点轨迹、符号信息和公式结构。预处理包括重采样和归一化两部分。墨点轨迹就是手写公式的墨点的位置数据，符号信息用于判断公式中使用了哪种符号，公式结构用于分析公式的结构信息，例如公式有几层，公式中的分式结构、角标结构、根号结构的确定。

由于在数据采集的过程中每个人的书写方式不同，书写速度和轻重也不同，所以在笔迹的录入过程中，两个采样点之间的距离和清晰度也会不同，因此，需要对采集到的数据进行做进一步的提取，确保采样点之间的距离均匀分布，避免在采集数据的过程中由于书写者的书写快慢而造成采样点的冗余或不足问题。所以本文将重采样的点的数目设置为30个，这30个点也就称之为行为点，这些行为点将作为整个公式识别输入的一部分。我们也知道在采集的过程中，由于书写的公式符号大小不统一，所以在重采样之后要进行归一化处理。

步骤S304，从待处理数据中提取预设数量的行为点。

如图4所示，步骤S304对应图4中的特征提取。首先将笔划的位置特征和几何特征做出分类，位置特征包括笔划位置；几何特征包括笔划开始方向、笔划结束方向和笔迹曲率。提取预设数量的行为点就是提取预设数量的墨点轨迹，例如，行为点可以提取30个。

步骤S306，根据预设的坐标系，确定行为点的坐标。

根据这30个行为点和预先建立好的坐标系，就可以获得30个行为点每一个行为点的坐标，另外需要说明的是，因为待处理数据还会根据墨点数据，获得者30个行为点的连接关系，也就是获得了行为点的输入顺序。

此外，坐标系也可以根据30个行为点重新建立，不采用预先建好的坐标系，例如：将某一个行为点作为原点，某两个行为点的连线作为横轴，或者任意方向为横轴均可。

步骤S308，根据行为点的坐标计算笔划位置、笔划开始方向、笔划结束方向和笔迹曲率。

行为点的坐标用二元组X_i＝(x_i,y_i)表示，代表一个个的笔迹的输入点；笔划用S＝((X₁),(X₂)，...，(X_i))表示，代表一系列的行为点的组合；行为用四元组B＝(S，QI，QO，K)表示，其中S表示笔划位置，可以是一个或多个笔划的集合；QI表示笔划开始方向；QO表示笔划结束方向；K表示整个笔划的方向，即笔迹曲率。其中，四元组B也可以称为行为特征单元。

下面说明四元组B＝(S，QI，QO，K)中每一项的计算方法，对于笔划位置S，就是将一个或者几个行为点的坐标组成一个坐标集合，这个坐标结合就是笔划位置S。

对于笔划开始方向QI，确定笔划位置中的初始行为点和与初始行为点相邻的下一个相位点，通过以下算式计算初始行为点和下一个行为点连线与坐标系的水平轴的第一夹角：

其中，θ₁为第一夹角，(x₁，y₁)为初始行为点的坐标，(x₂，y₂)为下一个行为点的坐标；将夹角确定为笔划开始方向QI。也就是说，笔划开始方向QI是指初始行为点与下一个行为点的连线与横坐标轴的夹角。

对于笔划结束方向QO，确定笔划位置中的结束行为点和与结束行为点相邻的上一个相位点，根据行为点的坐标计算笔划结束方向的步骤，包括：

通过以下算式计算结束行为点和上一个行为点连线与坐标系的水平轴的第二夹角：

其中，θ₂为第二夹角，(x_n-1，y_n-1)为上一个行为点的坐标，(x_n，y_n)为结束行为点的坐标；将夹角确定为笔划结束方向。也就是说，笔划结束方向QO是指结束行为点与上一个行为点的连线与横坐标轴的夹角。

对于笔迹曲率K，整个笔划位置中每一个行为点的笔迹曲率并不相同，首先从行为点中提取一个要计算笔迹曲率的目标行为点，针对每个目标行为点，获取与当前目标行为点相邻的前一个行为点和后一个行为点，通过以下算式计算当前目标行为点的笔迹曲率：

K＝(cos θ₃,sin θ₃)；

其中，K为笔迹曲率，θ₃为笔迹曲率的曲率角，

(x_t-1，y_t-1)为前一个行为点的坐标，目标行为点的坐标为(x_t，y_t)，后一个行为点的坐标为(xt+1，yt+1)。也就是说，将目标行为点和前一个行为点的连线，与目标行为点和后一个行为点的连线的夹角作为曲率角。

详细说明曲率角的计算方法：已知目标行为点的坐标A(x_t,y_t)，然后获取前一个行为点和后一个行为点的坐标B(x_t-1,y_t-1)和C(x_t+1,y_t+1)，然后将其构建成向量的表示方法，通过计算两向量的夹角即可求得。

构建向量AB和AC，即AB＝(x_t-1-x_t,y_t-1-y_t)，AC＝(x_t+1-x_t,y_t+1-y_t)，因此可以计算角度：

其中，AB·AC是点乘，|AB|和|AC|分别为向量的模，具体计算如下：AB·AC＝(x_t-1-x_t)(x_t+1-x_t)+(y_t-1-y_t)(y_t+1-y_t)；

即可以根据上述计算方法得到笔迹的曲率(cos θ₃,sin θ₃)。

步骤S310，根据待处理数据中笔划的输入顺序、笔划位置、笔划开始方向、笔划结束方向和笔迹曲率，生成上述待处理数据对应的用户行为链；该用户行为链用于指示上述待处理数据中符号之间的时序关系。

步骤S308中已经介绍了四元组B＝(S，QI，QO，K)中每一项的计算方法，四元组B就是待处理数据对应的用户行为链，首先介绍一下时序的概念。时序性是指在书写公式的过程中，符号之间的书写具有先后关系，一个公式的书写完成可以有好几种不同的先后顺序，比如一个简单的分数，3/4，可以先写分子后写分母，或者先写分母后写分子，这就体现了不同的时序性；当然不单单是公式的符号见有时序性，其单一的一个符号也有着时序性，比如0可以从顺时针和逆时针两个方向进行书写，其时序性也是不同的。

用户行为链用于指示上述待处理数据中符号之间的时序关系，是指在整个识别的过程中需要对单个符号进行识别，我们可以根据前一个或者几个符号推断出后续的符号，这对于识别有着非常大的优势，所以这里考虑了其时序性。

具体的构建用户行为链的步骤，可以按照步骤S11-S14的顺序执行：

步骤S11，按照待处理数据中笔划的输入顺序，从待处理数据的笔迹特征中提取预设数量的笔迹位置。

步骤S12，将提取出的笔迹位置、提取出的笔迹位置对应的笔划开始方向、笔划结束方向和笔迹曲率组合为一个行为特征单元。

步骤S13，继续执行按照待处理数据中笔划的输入顺序，从待处理数据的笔迹特征中提取预设数量的笔迹位置的步骤，直至到达待处理数据的最后一个笔迹特征。

步骤S14，将生成的行为特征单元按照预设顺序排列，得到用户行为链。

如图4所示，获得按照笔划输入顺序的笔迹位置，分别将这些笔迹位置做成多个行为特征单元(四元组)，相当于图4的B1、B2、B3、B4将这些四元组组成一个用户行为链，直到所有的笔迹特征均被选择。

参见图5所示的一种用户行为链的示意图，如图5所示，每一行代表一条用户行为链，每条用户行为链包括不同数量的行为特征单元(四元组)，每个行为特征单元(四元组)的笔划位置S的数量不固定，笔划位置S的数量可以是1个，也可以是多个。图5中的每一行即为一条行为链，其中每一条链均由不同的行为组成，而每一个行为又包含不同的具有时序特性的行为点和笔划的特征信息。通俗讲为，一条行为链即为一个公式，而一条行为链有多个行为构成，这每一个行为即为一个符号，每一个行为又由一个或者多个笔划构成，每一个笔划又由多个行为点序列构成。

步骤S312，将用户行为链输入至预设的公式识别模型中，输出待处理数据的公式识别结果。

将步骤S310构造的用户行为链输入至预先构建好的编码器——解码器框架的公式识别模型中，其中编码器和解码器都采用深度学习模型，可以是CNN(ConvolutionalNeural Networks，卷积神经网络)、LSTM、GRU(Gated Recurrent Unit，门控循环单元)、RNN(Recurrent Neural Networks，循环神经网路)等等，这些模型其各自的学习能力也是各有千秋，在不同领域有着不同的优势。

本发明实施例中编码器端采用BLSTM，解码器端采用LSTM进行训练。并且在编码器和解码器之间加入了注意力机制，其可以解决传统的编码器—解码器的一个不足之处，即传统的模型内部是一个固定长度的向量，而注意力机制可以通过保存对输入序列用BLSTM编码后的输出结果，然后训练一个模型进行选择性学习，将模型的输出与编码输出的信息进行关联。其实注意力模型就是一个相似性的度量，当前的输入与目标越相似，那么当前的输入权重就会越大，反之输入与目标差距较大，则相应的权值就越小。

该公式识别模型可以自己学习训练数据的特征，找寻公式中各符号间的关联关系，因为BLSTM模型是双向的，能将前向和后向信息都进行了考虑，进一步的提取信息的前后关系，这种模型对于在书写公式时不论先写哪个符号具有很大的优势，如一个分式，有的人喜欢先写分子后写分母，有的人喜欢先写分母后写分子，当采用双向LSTM时就可以将这两种情况判断为一种结果。最终将会训练好一个公式识别的最优模型，可以较好的识别出公式，用于实时书写的公式进行分析。

公式识别模型可以参见图6所示的一种公式识别模型的结构示意图，如图6所示，数据由BLSTM编码器编码，经过注意力机制模块Attention赋予不同的权值，由LSTM解码器进行解码，其中，BLSTM由一个双向LSTM组成。

首先，输入序列是指构建的用户行为链数据，将这个数据输入到BLSTM编码器中，经过编码器的编码得到一个输出(这里的输出是经过BLSTM这个编码器编码后的输出)然后将这个输出结果经过注意力机制，输入到解码器中，解码器中采用LSTM进行解码，得到一个模型的预测输出，这个输出与目标(相当于是标签，也就是我们的实际结果，或者说是期望结果)进行比较，通过误差计算公式进行计算误差，然后反馈到前边，通过注意力机制进行不断地优化调整(将影响作用较大的给加大权值，影响较小的给较小的权值)，最后在给定的限定条件下得到最优解。公式识别模型通过步骤S21-步骤S26建立：

步骤S21，基于预设的训练集确定训练公式和训练公式对应的行为链。

训练集用于对公式识别模型进行训练，训练集包括训练公式，从训练公式构建对应的行为链，行为链的构建方法前文已经说明，这里不再赘述。

步骤S22，将训练公式的行为链输入至BLSTM编码器，输出编码结果。

将构建完成的全部行为链输入至公式识别模型的BLSTM编码器，得到编码结果。

步骤S23，通过预设的权值参数，设置编码结果中各个信息对应的权值，将设置权值之后的编码结果输入至LSTM解码器中，输出解码结果。

步骤S23对应注意力机制，注意力机制实质上就是对不同的信息设定对应的不同的权值，本发明实施例对编码结果的信息设定对应的权值，设置权值之后的编码结果

其中，P为设置权值之后的编码结果，A_i为第i个编码结果的信息，B_i为预设的权值参数中，第i个编码结果的信息对应的权值，n为编码结果包括的信息个数。也就是说，对于编码结果的第i个信息A_i，设定的权值为B_i。将设置权值之后的编码结果输入至LSTM解码器中，LSTM解码器输出解码结果。

步骤S24，根据训练公式和预设的损失函数，计算解码结果的损失值。

LSTM解码器输出解码结果是指公式识别模型输出的公式，将解码结果与训练公式作对比，通过损失函数计算训练公式的损失值。常用的损失函数计算方法有均方差损失函数、激活函数、交叉熵损失函数、合页损失函数等。

步骤S25，根据损失值调整权值参数。

步骤S26，继续执行基于预设的训练集确定训练公式和训练公式对应的行为链的步骤，直至损失值收敛，得到公式识别模型。

调整损失值相当于模型迭代，设定一个最低阈值，只有当损失值小于该最低阈值，或者模型迭代次数达到预设的次数时，停止迭代，将该模块作为公式识别模型。比如设置迭代30次或者50次，得到最后的结果，或者设置误差损失值有一个最低的阈值，低于这个阈值就停止，就表示模型调整完毕。步骤S25-步骤S26是将预测的结果与实际正确结果进行误差的计算，不断地将预测的结果向正确的结果靠近，也就是不断地优化。

上述方式中，本发明实施例通过大量调研传统的公式识别的方法，并根据目前较为前沿的技术进行分析，提出采用深度学习的方法对公式识别进行分析研究。通过分析原始数据的特性，并根据调研的相关信息，将原始数据进行预处理并提取对应特征，构建一种具有时序特性的行为链。将其通过采用的编码器——解码器框架进行编码，这里的编码采用了BLSTM深度学习模型，然后会得到编码后输出结果。将该结果输入到后续的解码器中采用LSTM深度学习模型进行解码，最后得到最终的输出。根据编码输出结果，在此框架的基础上，加入注意力机制，将该编码输出与解码相结合，不断调整注意力机制，最后将会得到一个最优的模型，将最后由解码器输出的这些符号进行组合，得到最终的公式识别结果。

本发明实施例将对联机手写公式识别进行分析研究，采用深度学习相关技术对手写笔迹进行深度挖掘，构建基于深度学习的公式符号识别模型，与传统的公式识别技术进行对比，突出其深度学习技术的优势。本发明实施例考虑到联机手写公式的样本是一种带有时序特性的序列数据，所以结合现有的处理该类时序问题的方法，提出一种基于行为链的构建方法，将公式样本进行处理，得到特征样本，然后对其进行构建行为链，可以减少原始输入数据的冗余数据，提高输入数据的高质量性。

本发明实施例针对传统的公式识别是将符号识别和结构分析分开研究，所以本发明将针对现有手写公式识别方法进行深入研究，了解相关技术和方法，通过总结现有的研究现状及考虑目前的先进技术，选取采用一种编码器—解码器模型将几个环节串联起来，更加简洁方便。

针对编码器解码器模型，其存在着如果之前输入的信息可能会被后续输入的信息给覆盖，或者一个语义向量不能表示整个序列的信息，所以本发明给这种模型之间加上一个注意力模型，它将编码器和解码器部分相连，且允许在解码的过程中可以从源数据中的不同区域找寻重要信息，在输出的时候就会重点关注输入序列中的特殊相关联的区域，这可以使得当前输出的符号能联系上下文而得到正确的输出。

本发明实施例提出的基于行为链的数据构建方式，可以对原始数据进行处理，保留了数据间的时序关系以及符号之间的相关性，提高了识别的准确率。

本发明实施例提出的采用编码器——解码器框架结合注意力机制进行公式识别的分析训练，较之传统的公式识别需要将其分为几个相对独立的阶段来研究，其具有更简洁方便的优点。

需要说明的是，上述各方法实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

实施例3

对应于上述方法实施例，本发明实施例提供了一种公式识别装置，如图7所示的一种公式识别装置的结构示意图，该装置包括：

数据获取模块71，用于获取待处理数据；

特征提取模块72，用于提取待处理数据的笔迹特征；笔迹特征包括笔划的位置特征和几何特征；

行为链构建模块73，用于根据待处理数据中笔划的输入顺序以及笔迹特征，生成待处理数据对应的用户行为链；用户行为链用于指示待处理数据中符号之间的时序关系；

识别模型模块74，用于将用户行为链输入至预设的公式识别模型中，输出待处理数据的公式识别结果。

本发明实施例提供的公式识别装置，根据待处理数据中笔划的输入顺序和笔迹特征生成可以指示待处理数据中符号之间的时序关系的用户行为链，将该用户行为立案输入至预设的公式识别模型，由公式识别模型输出公式识别结果，通过用户行为链指示时序关系，在识别过程中考虑公式的时序性，以简化识别步骤，减少识别时间，增加识别准确率。

在一些实施例中，位置特征包括笔划位置；几何特征包括笔划开始方向、笔划结束方向和笔迹曲率；特征提取模块，用于：从待处理数据中提取预设数量的行为点；根据预设的坐标系，确定行为点的坐标；根据行为点的坐标计算笔划位置、笔划开始方向、笔划结束方向和笔迹曲率。

在一些实施例中，行为点包括笔划的初始行为点，以及与初始行为点相邻的下一个行为点；特征提取模块，用于：通过以下算式计算初始行为点和下一个行为点连线与坐标系的水平轴的第一夹角：

在一些实施例中，行为点包括笔划的结束行为点，以及与结束行为点相邻的上一个行为点；特征提取模块，用于：通过以下算式计算结束行为点和上一个行为点连线与坐标系的水平轴的第二夹角：

在一些实施例中，特征提取模块，用于：从行为点中提取目标行为点；针对每个目标行为点，获取与当前目标行为点相邻的前一个行为点和后一个行为点；通过以下算式计算当前目标行为点的笔迹曲率：K＝(cos θ₃,sin θ₃)；其中，K为笔迹曲率，θ₃为笔迹曲率的曲率角，

在一些实施例中，行为链构建模块，用于：按照待处理数据中笔划的输入顺序，从待处理数据的笔迹特征中提取预设数量的笔迹位置；将提取出的笔迹位置、提取出的笔迹位置对应的笔划开始方向、笔划结束方向和笔迹曲率组合为一个行为特征单元；继续执行按照待处理数据中笔划的输入顺序，从待处理数据的笔迹特征中提取预设数量的笔迹位置的步骤，直至到达待处理数据的最后一个笔迹特征；将生成的行为特征单元按照预设顺序排列，得到用户行为链。

在一些实施例中，装置还包括：模块建立模块，用于基于预设的训练集确定训练公式和训练公式对应的行为链；将训练公式的行为链输入至BLSTM编码器，输出编码结果；通过预设的权值参数，设置编码结果中各个信息对应的权值，将设置权值之后的编码结果输入至LSTM解码器中，输出解码结果；根据训练公式和预设的损失函数，计算解码结果的损失值；根据损失值调整权值参数；继续执行基于预设的训练集确定训练公式和训练公式对应的行为链的步骤，直至损失值收敛，得到公式识别模型。

在一些实施例中，模块建立模块，用于：设置权值之后的编码结果

本发明实施例提供的公式识别装置，与上述实施例提供的公式识别装方法具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和/或终端设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种公式识别方法，其特征在于，包括：

获取待处理数据；

提取所述待处理数据的笔迹特征；所述笔迹特征包括笔划的位置特征和几何特征；

根据所述待处理数据中笔划的输入顺序以及所述笔迹特征，生成所述待处理数据对应的用户行为链；所述用户行为链用于指示所述待处理数据中符号之间的时序关系；

将所述用户行为链输入至预设的公式识别模型中，输出所述待处理数据的公式识别结果。

2.根据权利要求1所述的方法，其特征在于，所述位置特征包括笔划位置；所述几何特征包括笔划开始方向、笔划结束方向和笔迹曲率；

提取所述待处理数据的笔迹特征的步骤，包括：

从所述待处理数据中提取预设数量的行为点；

根据预设的坐标系，确定所述行为点的坐标；

根据所述行为点的坐标计算笔划位置、笔划开始方向、笔划结束方向和笔迹曲率。

3.根据权利要求2所述的方法，其特征在于，所述行为点包括笔划的初始行为点，以及与所述初始行为点相邻的下一个行为点；

根据所述行为点的坐标计算笔划开始方向的步骤，包括：

通过以下算式计算所述初始行为点和所述下一个行为点连线与所述坐标系的水平轴的第一夹角：

其中，θ₁为所述第一夹角，(x₁，y₁)为所述初始行为点的坐标，(x₂，y₂)为所述下一个行为点的坐标；

将所述夹角确定为笔划开始方向。

4.根据权利要求2所述的方法，其特征在于，所述行为点包括笔划的结束行为点，以及与所述结束行为点相邻的上一个行为点；

根据所述行为点的坐标计算笔划结束方向的步骤，包括：

通过以下算式计算所述结束行为点和所述上一个行为点连线与所述坐标系的水平轴的第二夹角：

其中，θ₂为所述第二夹角，(x_n-1，y_n-1)为所述上一个行为点的坐标，(x_n，y_n)为所述结束行为点的坐标；

将所述夹角确定为笔划结束方向。

5.根据权利要求2所述的方法，其特征在于，根据所述行为点的坐标计算笔迹曲率的步骤，包括：

从所述行为点中提取目标行为点；

针对每个目标行为点，获取与当前目标行为点相邻的前一个行为点和后一个行为点；

通过以下算式计算所述当前目标行为点的笔迹曲率：K＝(cosθ₃,sinθ₃)；

其中，K为所述笔迹曲率，θ₃为所述笔迹曲率的曲率角，

(x_t-1，y_t-1)为所述前一个行为点的坐标，所述目标行为点的坐标为(x_t，y_t)，所述后一个行为点的坐标为(x_t+1，y_t+1)。

6.根据权利要求1所述的方法，其特征在于，根据所述待处理数据中笔划的输入顺序以及所述笔迹特征，生成所述待处理数据对应的用户行为链的步骤，包括：

按照所述待处理数据中笔划的输入顺序，从所述待处理数据的笔迹特征中提取预设数量的笔迹位置；

将提取出的所述笔迹位置、所述提取出的所述笔迹位置对应的笔划开始方向、笔划结束方向和笔迹曲率组合为一个行为特征单元；

继续执行按照所述待处理数据中笔划的输入顺序，从所述待处理数据的笔迹特征中提取预设数量的笔迹位置的步骤，直至到达所述待处理数据的最后一个笔迹特征；

将生成的行为特征单元按照预设顺序排列，得到用户行为链。

7.根据权利要求1所述的方法，其特征在于，所述公式识别模型通过以下步骤建立：

基于预设的训练集确定训练公式和所述训练公式对应的行为链；

将所述训练公式的行为链输入至BLSTM编码器，输出编码结果；

通过预设的权值参数，设置所述编码结果中各个信息对应的权值，将设置权值之后的编码结果输入至LSTM解码器中，输出解码结果；

根据所述训练公式和预设的损失函数，计算所述解码结果的损失值；

根据所述损失值调整所述权值参数；

继续执行基于预设的训练集确定训练公式和所述训练公式对应的行为链的步骤，直至所述损失值收敛，得到公式识别模型。

8.根据权利要求7所述的方法，其特征在于，通过预设的权值参数，设置所述编码结果中各个信息对应的权值的步骤，包括：

设置权值之后的编码结果

其中，P为所述设置权值之后的编码结果，A_i为第i个编码结果的信息，B_i为所述预设的权值参数中，第i个编码结果的信息对应的权值，n为所述编码结果包括的信息个数。

9.一种公式识别装置，其特征在于，包括：

数据获取模块，用于获取待处理数据；

特征提取模块，用于提取所述待处理数据的笔迹特征；所述笔迹特征包括笔划的位置特征和几何特征；

行为链构建模块，用于根据所述待处理数据中笔划的输入顺序以及所述笔迹特征，生成所述待处理数据对应的用户行为链；所述用户行为链用于指示所述待处理数据中符号之间的时序关系；

识别模型模块，用于将所述用户行为链输入至预设的公式识别模型中，输出所述待处理数据的公式识别结果。

10.根据权利要求9所述的装置，其特征在于，所述位置特征包括笔划位置；所述几何特征包括笔划开始方向、笔划结束方向和笔迹曲率；

所述特征提取模块，用于：

从所述待处理数据中提取预设数量的行为点；

根据预设的坐标系，确定所述行为点的坐标；