CN113095314A

CN113095314A - 一种公式识别方法、装置、存储介质及设备

Info

Publication number: CN113095314A
Application number: CN202110372899.XA
Authority: CN
Inventors: 朱辉辉; 张建树
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-04-07
Filing date: 2021-04-07
Publication date: 2021-07-09

Abstract

本申请公开了一种公式识别方法、装置、存储介质及设备，该方法包括：首先获取包含待识别的目标公式的目标图像，提取目标图像的图像特征；然后根据该图像特征，按照预设的公式空间结构关系，对目标公式进行识别，得到目标公式的空间结构信息；并按照预设的基于深度学习的解码方法，对目标公式进行解码，得到目标公式的解码结果；接着，根据目标公式的空间结构信息和目标公式的解码结果，确定目标公式的最终识别结果。可见，本申请是按照预设的公式空间结构关系和基于深度学习的解码方法分别对目标公式进行识别和解码，再综合得到的空间结构信息和解码结果确定最终识别结果，充分考虑了空间结构信息对公式识别结果的影响，提高了识别结果的准确率。

Description

一种公式识别方法、装置、存储介质及设备

技术领域

本申请涉及信息识别技术领域，尤其涉及一种公式识别方法、装置、存储介质及设备。

背景技术

随着人工智能技术的不断突破和各种智能终端设备的日益普及，多种多样的智能应用在人们日常工作、生活中出现的频率越来越高。其中如拍照翻译、手写识别、机器阅卷等智能应用，其背后均依靠着文本识别技术的支持。因此，识别结果的准确性显得尤为重要。

目前现有的文本识别方法通常采用的是基于深度学习的识别方法，具体是利用卷积神经网络对输入图片自动提取特征，然后直接对特征进行结果输出。但由于学术界和工业界的快速发展，包含公式、字母等中英文混合的文本越来越多的出现在以数理化为代表的理工科机器阅卷或者智能拍搜等应用场景，如仍采用上述识别方法，对于公式部分，由于上述识别方法并未考虑到公式的整体二维空间结构信息，导致对于公式的识别结果不够准确。例如，对于图1所示的图像，在利用基于深度学习的识别方法(如采用由编码encoder和解码decoder组成的ED方案)对其进行识别时，可以将图1中的左侧图识别为是‘蓝天’，然而在公式识别领域中，图1右侧图的公式对应的拉泰赫(LaTeX)表达式为“n^{2}”，可见，其中只有“n”和“2”是实体符号，表示的是公式中的具体数字，且在图1右侧图中具有对应的图像，而对于“^”、“{”、“}”这些虚体符号，其表示的是公式的结构信息，在图1右侧图中是没有对应的图像的，因此，利用上述识别方法是较难能够利用注意力机制关注到这些结构信息并解码成功的，所以会导致对于公式的识别不够准确。

因此，如何提高公式识别结果的准确率是目前亟待解决的技术问题。

发明内容

本申请实施例的主要目的在于提供一种公式识别方法、装置、存储介质及设备，能够提高公式识别结果的准确率。

本申请实施例提供了一种公式识别方法，包括：

获取待识别的目标图像；所述目标图像中包含待识别的目标公式；

提取所述目标图像的图像特征；

根据所述目标图像的图像特征，按照预设的公式空间结构关系，对所述目标公式进行识别，得到所述目标公式的空间结构信息；并按照预设的基于深度学习的解码方法，对所述目标公式进行解码，得到所述目标公式的解码结果；

根据所述目标公式的空间结构信息和所述目标公式的解码结果，确定所述目标公式的最终识别结果。

一种可能的实现方式中，所述根据所述目标图像的图像特征，按照预设的公式空间结构关系，对所述目标公式进行识别，得到所述目标公式的空间结构信息，包括：

根据所述目标图像的图像特征，对所述目标公式进行父节点解码，得到所述目标公式包含的父节点；

根据所述目标图像的图像特征，对所述目标公式进行子节点解码，得到所述目标公式包含的子节点；

根据所述目标公式包含的父节点和所述目标公式包含的子节点，按照预设的公式空间结构关系，对所述目标公式进行识别，得到所述目标公式的空间结构信息；

其中，所述目标公式包含的父节点和所述目标公式包含的子节点为所述目标公式包含的字母、数字或运算符号。

一种可能的实现方式中，所述预设的公式空间结构关系包括以下一项或多项空间结构关系：

用于代表子节点在父节点正上方的空间结构关系；

用于代表子节点在父节点正下方的空间结构关系；

用于代表子节点在父节点右上方的空间结构关系；

用于代表子节点在父节点右下方的空间结构关系；

用于代表子节点在父节点左上方的空间结构关系；

用于代表子节点在父节点内部的空间结构关系；

用于代表子节点在父节点右边的空间结构关系；

用于在起始位置出现，代表起始子节点对应的第一个字符和起始符的空间结构关系；

用于在末尾位置出现，代表末尾子节点对应的末尾字符和终止符的空间结构关系；

用于代表子节点和父节点换行的空间结构关系。

一种可能的实现方式中，所述目标公式的空间结构信息为M条，所述目标公式的解码结果为N个；所述M和N均为大于0的正整数；所述根据所述目标公式的空间结构信息和所述目标公式的解码结果，确定所述目标公式的最终识别结果，包括：

将所述目标公式的N个解码结果转换为对应的N个空间结构关系，得到转换后的N个空间结构关系；

将所述转换后的N个空间结构关系与所述目标公式的M条空间结构信息进行匹配，并在匹配成功后，将联合置信度最高的空间结构关系对应的解码结果作为所述目标公式的最终识别结果。

利用预先构建的空间结构信息预测模型，根据所述目标图像的图像特征，按照预设的公式空间结构关系，对所述目标公式进行识别，得到所述目标公式的空间结构信息。

一种可能的实现方式中，所述利用预先构建的空间结构信息预测模型，根据所述目标图像的图像特征，按照预设的公式空间结构关系，对所述目标公式进行识别，得到所述目标公式的空间结构信息，包括：

通过所述空间结构信息预测模型的父节点注意力模块，为所述目标图像中像素点的图像特征值赋予权重，并根据所述权重和上一时刻子节点的值，计算当前时刻父节点的预测值；其中，所述权重的大小与所述像素点的图像特征值的重要程度有关；

通过所述空间结构信息预测模型的子节点注意力模块，为所述目标图像中像素点的图像特征值赋予权重，并根据所述权重和所述父节点的预测值，计算当前时刻子节点的预测值；其中，所述权重的大小与所述像素点的图像特征值的重要程度有关；

通过所述空间结构信息预测模型的空间结构关系预测模块，根据所述当前时刻父节点的预测值和所述当前时刻子节点的预测值，预测所述父节点和所述子节点之间的空间结构信息。

一种可能的实现方式中，所述空间结构信息预测模型的构建方式如下：

获取样本图像；所述样本图像中包含待识别的样本公式；

提取所述样本图像的图像特征；

根据所述样本图像的图像特征以及所述样本公式对应的空间结构信息识别标签对初始空间结构信息预测模型进行训练，生成所述空间结构信息预测模型。

本申请实施例还提供了一种公式识别装置，包括：

第一获取单元，用于获取待识别的目标图像；所述目标图像中包含待识别的目标公式；

第二提取单元，用于提取所述目标图像的图像特征；

识别单元，用于根据所述目标图像的图像特征，按照预设的公式空间结构关系，对所述目标公式进行识别，得到所述目标公式的空间结构信息；并按照预设的基于深度学习的解码方法，对所述目标公式进行解码，得到所述目标公式的解码结果；

确定单元，用于根据所述目标公式的空间结构信息和所述目标公式的解码结果，确定所述目标公式的最终识别结果。

一种可能的实现方式中，所述识别单元包括：

第一解码子单元，用于根据所述目标图像的图像特征，对所述目标公式进行父节点解码，得到所述目标公式包含的父节点；

第二解码子单元，用于根据所述目标图像的图像特征，对所述目标公式进行子节点解码，得到所述目标公式包含的子节点；

识别子单元，用于根据所述目标公式包含的父节点和所述目标公式包含的子节点，按照预设的公式空间结构关系，对所述目标公式进行识别，得到所述目标公式的空间结构信息；

用于代表子节点在父节点正上方的空间结构关系；

用于代表子节点在父节点正下方的空间结构关系；

用于代表子节点在父节点右上方的空间结构关系；

用于代表子节点在父节点右下方的空间结构关系；

用于代表子节点在父节点左上方的空间结构关系；

用于代表子节点在父节点内部的空间结构关系；

用于代表子节点在父节点右边的空间结构关系；

用于代表子节点和父节点换行的空间结构关系。

一种可能的实现方式中，所述目标公式的空间结构信息为M条，所述目标公式的解码结果为N个；所述M和N均为大于0的正整数；所述确定单元包括：

转换子单元，用于将所述目标公式的N个解码结果转换为对应的N个空间结构关系，得到转换后的N个空间结构关系；

确定子单元，用于将所述转换后的N个空间结构关系与所述目标公式的M条空间结构信息进行匹配，并在匹配成功后，将联合置信度最高的空间结构关系对应的解码结果作为所述目标公式的最终识别结果。

一种可能的实现方式中，所述识别单元具体用于：

一种可能的实现方式中，所述识别单元包括：

第一计算子单元，用于通过所述空间结构信息预测模型的父节点注意力模块，为所述目标图像中像素点的图像特征值赋予权重，并根据所述权重和上一时刻子节点的值，计算当前时刻父节点的预测值；其中，所述权重的大小与所述像素点的图像特征值的重要程度有关；

第二计算子单元，用于通过所述空间结构信息预测模型的子节点注意力模块，为所述目标图像中像素点的图像特征值赋予权重，并根据所述权重和所述父节点的预测值，计算当前时刻子节点的预测值；其中，所述权重的大小与所述像素点的图像特征值的重要程度有关；

预测子单元，用于通过所述空间结构信息预测模型的空间结构关系预测模块，根据所述当前时刻父节点的预测值和所述当前时刻子节点的预测值，预测所述父节点和所述子节点之间的空间结构信息。

一种可能的实现方式中，所述装置还包括：

第二获取单元，用于获取样本图像；所述样本图像中包含待识别的样本公式；

第二提取单元，用于提取所述样本图像的图像特征；

训练单元，用于根据所述样本图像的图像特征以及所述样本公式对应的空间结构信息识别标签对初始空间结构信息预测模型进行训练，生成所述空间结构信息预测模型。

本申请实施例还提供了一种公式识别设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述公式识别方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述公式识别方法中的任意一种实现方式。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述公式识别方法中的任意一种实现方式。

本申请实施例提供的一种公式识别方法、装置、存储介质及设备，首先获取待识别的目标图像，提取目标图像的图像特征，其中，目标图像中包含待识别的目标公式；然后再根据目标图像的图像特征，按照预设的公式空间结构关系，对目标公式进行识别，得到目标公式的空间结构信息；并按照预设的基于深度学习的解码方法，对目标公式进行解码，得到目标公式的解码结果；接着，可以根据目标公式的空间结构信息和目标公式的解码结果，确定目标公式的最终识别结果。可见，由于本申请实施例是按照预设的公式空间结构关系和预设的基于深度学习的解码方法分别对目标公式进行识别和解码，再综合得到的空间结构信息和解码结果确定最终的公式识别结果，充分考虑了目标公式的空间结构信息对目标公式识别结果的影响，丰富了目标公式的识别依据，进而提高了公式识别结果的准确率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的包含文字和公式的图像示例图；

图2为本申请实施例提供的二维结构公式的图像示例图之一；

图3为本申请实施例提供的一种公式识别方法的流程示意图；

图4为本申请实施例提供的二维结构公式的图像示例图之二；

图5为本申请实施例提供的将LaTeX表示形式的公式转换为公式树的示例图；

图6为本申请实施例提供的预设的10种公式空间结构关系的结构示意图；

图7为本申请实施例提供的确定目标公式的空间结构信息的流程示意图；

图8为本申请实施例提供的空间结构信息预测模型的结构示意图；

图9为本申请实施例提供的公式识别模型的结构示意图；

图10为本申请实施例提供的一种公式识别装置的组成示意图。

具体实施方式

随着学术界和工业界的快速发展，包含公式、字母等中英文混合的文本越来越多的出现在以数理化为代表的理工科机器阅卷或者智能拍搜等智能应用场景。例如，如图2所示，其示出了本申请实施例提供的二维结构公式的图像示例图，图2所示的公式包含有二维空间结构信息，即，其内部构造除了左右结构，还同时嵌套了由分式形成的上下结构和指数形成的上下标等结构。

现有公式识别方法通常有两种：一种是基于传统方法的公式识别方式，另一种是基于深度学习的识别方法。虽然这两种识别方法各具特色，但是在方案设计中均未考虑待识别公式的整体空间结构，而公式本身又具有非常丰富的结构信息，如果不加以利用，将很难能够得到较为准确的识别结果，也就是说，现有的识别方法对于公式的识别均不够准确。

为解决上述缺陷，本申请提供了一种公式识别方法，首先获取待识别的目标图像，提取目标图像的图像特征，其中，目标图像中包含待识别的目标公式；然后再根据目标图像的图像特征，按照预设的公式空间结构关系，对目标公式进行识别，得到目标公式的空间结构信息；并按照预设的基于深度学习的解码方法，对目标公式进行解码，得到目标公式的解码结果；接着，可以根据目标公式的空间结构信息和目标公式的解码结果，确定目标公式的最终识别结果。可见，由于本申请实施例是按照预设的公式空间结构关系和预设的基于深度学习的解码方法分别对目标公式进行识别和解码，再综合得到的空间结构信息和解码结果确定最终的公式识别结果，充分考虑了目标公式的空间结构信息对目标公式识别结果的影响，丰富了目标公式的识别依据，进而提高了公式识别结果的准确率。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图3，为本实施例提供的一种公式识别方法的流程示意图，该方法包括以下步骤：

S301：获取待识别的目标图像；其中，目标图像中包含待识别的目标公式。

在本实施例中，将采用本实施例进行识别的任一公式定义为目标公式，并将目标公式所在的图像定义为待识别的目标图像。并且，本实施例不限制待识别的目标图像的类型，比如，目标图像可以是由红(G)、绿(G)、蓝(B)三原色组成的彩色图像、也可以是灰度图像等。

可以理解的是，包含目标公式的目标图像可以根据实际需要，通过拍照等方式获得，例如，在理工科机器阅卷或者智能拍搜等应用场景获得的如图2所示的图像和公式即可作为目标图像和目标公式，在获取到包含目标公式的目标图像后，可以利用本实施例提供的方案实现对该目标公式的识别。

S302：提取目标图像的图像特征。

在本实施例中，通过步骤S301获取到包含待识别的目标公式的目标图像后，为了准确识别出目标公式对应的公式信息，可以利用现有或未来出现的图像特征提取方法对其进行处理(即对其进行编码处理)，比如，可以利用vgg16、resnet34、方向梯度直方图(Convolutional Neural Networks，简称HOG)特征提取、尺度不变特征变换(Scale-invariant feature transform，简称SIFT)特征提取方法等，从目标图像中提取出能够表征其图像信息(包含文字的语义信息和目标公式的空间结构信息)的特征，此处将该特征定义为图像特征，该图像特征中应携带对应目标图像的全部图像信息，且该图像特征的具体表现形式可以是特征图(向量矩阵)，例如，可以将尺寸大小为200×200的目标图像通过等比例压缩的方式进行特征提取，以得到尺寸大小为10×10的特征图，作为目标图像的图像特征，然后将该图像特征作为识别依据，用以通过后续步骤S303-S304，实现对目标公式的准确识别。

需要说明的是，本申请实施例并不限定目标图像的图像特征的提取方法，也不限定具体的提取过程，可根据实际情况选择适当的提取方法，以及进行相应的特征提取操作。

S303：根据目标图像的图像特征，按照预设的公式空间结构关系，对目标公式进行识别，得到目标公式的空间结构信息；并按照预设的基于深度学习的解码方法，对目标公式进行解码，得到目标公式的解码结果。

首先，需要说明的是，在实际应用中，数学公式通常会采用LaTeX的形式来表示，用于排版印刷等领域。其中，LaTeX是一种基于TeX的排版系统，利用这种格式，即使使用者没有排版和程序设计的知识也可以充分发挥由TeX所提供的强大功能，能够在几天，甚至几小时内生成很多具有书籍质量的印刷品。尤其对于生成复杂表格和数学公式，这一点表现得尤为突出。例如，如图4所示，图中公式

的LaTeX表示形式为：y＝\frac{x^{2}}{3}+\sqrt{1 1}。

并且，在对目标图像进行编码处理，得到表征其全部图像信息的特征图后，进一步的，在对其进行解码的过程中，当采用LaTeX的形式来表示公式时，还需要额外添加两个符号：<s>(起始符)和</s>(终止符)，二者各自的含义分别是：开始解码的标识和结束解码的标识。所以，对于公式

在解码过程中的LaTeX表示形式最终为：<s>y＝\frac{x^{2}}{3}+\sqrt{1 1}</s>。

进一步的，还可以将任何一个采用LaTeX形式表示的公式转换为一颗公式树的形式。举例说明：对于公式

的LaTeX表示形式<s>y＝\frac{x^{2}}{3}+\sqrt{11}</s>，可将其转换为如图5所示的公式树，图5中的每个箭头都表示公式中的一段公式内容，比如图4方框内的一段公式内容“x²”，对应的LaTeX表示形式为x^{2}，则其在图5公式树中对应的部分为图5方框中的内容。需要说明的是，在公式树中，箭头是由父节点指向子节点的，比如在图5方框所示的公式内容中，父节点为x，子节点为2，两者的空间结构关系为“子节点2在父节点x右上方的空间结构关系”。

可见，对于任一包含有丰富的空间结构关系的公式，通过上述处理过程，均可确定出其对应的空间结构关系，由此，在本实施例中，通过步骤S302提取出目标图像的图像特征(即通过对目标图像进行编码处理，得到特征图作为图像特征)后，为了能够提高对于目标公式识别的准确率，进一步的，可以按照预先设定的公式空间结构关系，对目标图像的图像特征进行处理，以根据处理结果，确定目标公式的空间结构信息，用以执行后续步骤S304。

其中，预先设定的公式空间结构关系可以包括以下10项空间结构关系中的一项或多项：

用于代表子节点在父节点正上方的空间结构关系；用于代表子节点在父节点正下方的空间结构关系；用于代表子节点在父节点右上方的空间结构关系；用于代表子节点在父节点右下方的空间结构关系；用于代表子节点在父节点左上方的空间结构关系；用于代表子节点在父节点内部的空间结构关系；用于代表子节点在父节点右边的空间结构关系；用于在起始位置出现，代表起始子节点对应的第一个字符和起始符的空间结构关系；用于在末尾位置出现，代表末尾子节点对应的末尾字符和终止符的空间结构关系；用于代表子节点和父节点换行的空间结构关系。

接下来，将对上述10项空间结构关系进行一一介绍：

1、用于代表子节点在父节点正上方的空间结构关系

“用于代表子节点在父节点正上方的空间结构关系”指的是公式树中某一箭头所指向的子节点位于该箭头起始位置所对应的父节点的正上方的关系，在此将其定义为“Above”。可以理解的是，该空间结构关系通常存在于公式中的分式关系，例如图6中的左侧第1个图所示，“Above”表示的是子节点a位于父节点“—”的正上方的空间结构关系。

2、用于代表子节点在父节点正下方的空间结构关系

“用于代表子节点在父节点正下方的空间结构关系”指的是公式树中某一箭头所指向的子节点位于该箭头起始位置所对应的父节点的正下方的关系，在此将其定义为“Below”。可以理解的是，该空间结构关系通常指的是公式中的分式关系，例如图6中的左侧第2个图所示，“Below”表示的是子节点“b”位于父节点“—”的正下方的空间结构关系。

3、用于代表子节点在父节点右上方的空间结构关系

“用于代表子节点在父节点右上方的空间结构关系”指的是公式树中某一箭头所指向的子节点位于该箭头起始位置所对应的父节点的右上方的关系，在此将其定义为“Sup”。可以理解的是，该空间结构关系通常指的是公式中的指数关系，例如图6中的左侧第3个图所示，“Sup”表示的是子节点“n”位于父节点“A”的右上方的空间结构关系。

4、用于代表子节点在父节点右下方的空间结构关系

“用于代表子节点在父节点右下方的空间结构关系”指的是公式树中某一箭头所指向的子节点位于该箭头起始位置所对应的父节点的右下方的关系，在此将其定义为“Sub”。例如图6中的左侧第4个图所示，“Sub”表示的是子节点“n”位于父节点“A”的右下方的空间结构关系。

5、用于代表子节点在父节点左上方的空间结构关系

“用于代表子节点在父节点左上方的空间结构关系”指的是公式树中某一箭头所指向的子节点位于该箭头起始位置所对应的父节点的左上方的关系，在此将其定义为“Leftsup”。可以理解的是，该空间结构关系通常指的是公式中的开方关系，例如图6中的左侧第5个图所示，“Leftsup”表示的是子节点“a”位于父节点

的左上方的空间结构关系。

6、用于代表子节点在父节点内部的空间结构关系

“用于代表子节点在父节点内部的空间结构关系”指的是公式树中某一箭头所指向的子节点位于该箭头起始位置所对应的父节点的内部的关系，在此将其定义为“Inside”。可以理解的是，该空间结构关系通常指的是公式中的开方关系，例如图6中的右侧第1个图所示，“Inside”表示的是子节点“b”位于父节点

的内部的空间结构关系。

7、用于代表子节点在父节点右边的空间结构关系

“用于代表子节点在父节点右边的空间结构关系”指的是公式树中某一箭头所指向的子节点位于该箭头起始位置所对应的父节点的右边的关系，在此将其定义为“Right”。例如图6中的右侧第2个图所示，“Right”表示的是子节点“+”位于父节点“a”的右边的空间结构关系。

8、用于在起始位置出现，代表起始子节点对应的第一个字符和起始符的空间结构关系

“用于在起始位置出现，代表起始子节点对应的第一个字符和起始符的空间结构关系”指的是在公式树的起始位置出现的，表示起始子节点对应的第一个字符和起始符(即“</s>”)之间的关系，在此将其定义为“Start”。例如图6中的右侧第3个图所示，“Start”位于公式的起始位置，表示的是起始子节点对应的第一个字符“a”和起始符<s>(即图6中右侧第3个图所示字符“a”左侧的方框)之间的空间结构关系。

9、用于在末尾位置出现，代表末尾子节点对应的末尾字符和终止符的空间结构关系

“用于在末尾位置出现，代表末尾子节点对应的末尾字符和终止符的空间结构关系”指的是在公式树的末尾位置出现的，表示末尾子节点对应的末尾字符和终止符(即“</s>”)之间的关系，在此将其定义为“End”。例如图6中的右侧第4个图所示，“End”位于公式的末尾位置，表示的是末尾子节点对应的末尾字符“b”和终止符<s>(即图6中右侧第4个图所示字符“b”右侧的方框)之间的空间结构关系。

10、用于代表子节点和父节点换行的空间结构关系

“用于代表子节点和父节点换行的空间结构关系”指的是公式树中某一箭头所指向的子节点位于该箭头起始位置所对应的父节点换行的关系，在此将其定义为“Nextline”。例如图6中的右侧第5个图所示，“Nextline”表示的是子节点“b”与父节点“c”之间换行的空间结构关系。

由此，按照上述10种预先设定的公式空间结构关系，对目标图像的图像特征进行处理，以根据处理结果，确定目标公式的空间结构信息。举例说明：假设目标公式为图4所示的公式

在将其对应的LaTeX表示形式<s>y＝\frac{x^{2}}{3}+\sqrt{1 1}</s>转化为图5所示的公式树后，可以采用深度优先遍历的原则，先上后下，先左后右，依次得到该公式树结构的各个由“父节点”、“子节点”以及二者之间的“空间结构关系”组成的子树序列分别表示为：(<s>、y、Start)，(y、＝、Right)，(＝、\frac、Right)，(\frac、x、Above)，(x、2、Sup)，(\frac、3、Below)，(\frac、+、Right)，(+、\sqrt、Right)，(\sqrt、1、Inside)，(1、1、Right)、(1、</s>、End)”。

进一步的，再将上述各个子序列进行拆分处理，可以得到获取父节点、子节点和空间结构关系的列表。具体的，将上述各个子序列进行拆分处理后，得到的父节点列表为：[<s>，y，＝，\frac，x，\frac，\frac，+，\sqrt，1，1]。子节点列表为：[y，＝，\frac，x，2，3，+，\sqrt，1，1，</s>]。空间结构信息的列表为[Start，Right，Right，Above，Sup，Below，Right，Right，Inside，Right，End]。

在本实施例的一种可能的实现方式中，上述步骤S303中“根据目标图像的图像特征，按照预设的公式空间结构关系，对目标公式进行识别，得到目标公式的空间结构信息”的实现过程具体可以包括：利用预先构建的空间结构信息预测模型，根据目标图像的图像特征，按照预设的公式空间结构关系，对目标公式进行识别，得到目标公式的空间结构信息。

在本实现方式中，可以利用预先构建的空间结构信息预测模型，预测出目标公式的空间结构信息，具体实现过程请参见第二实施例。

此外，在本实施例中，在通过步骤S302提取出目标图像的图像特征(即通过对目标图像进行编码处理，得到特征图作为图像特征)后，为了进一步提高识别结果的准确性，不仅需要按照通过上述过程确定出目标公式的空间结构信息作为识别的辅助信息，还需要按照预设的基于深度学习的解码方法，对目标公式所在的特征图进行解码，得到目标公式的解码结果，然后再将其与之前确定出的目标公式的空间结构信息相结合，用以执行后续步骤S304，便于综合该解码结果和空间结构信息得到准确性更高的识别结果。

具体来讲，可以采用基于序列建模(Seq2seq)方案中的ED方案进行识别。例如，假设目标公式为图4所示的公式

其对应的LaTeX表示形式理论上应该是<s>y＝\frac{x^{2}}{3}+\sqrt{1 1}</s>，但在利用ED方案对其所在的特征图进行解码后，可以得到至少一个LaTeX表示形式的解码结果，而该解码结果与目标公式

对应的理论上的LaTeX表示形式<s>y＝\frac{x^{2}}{3}+\sqrt{1 1}</s>可能相同，也可能不同。如果相同，则得到的解码结果是<s>y＝\frac{x^{2}}{3}+\sqrt{1 1}</s>，如果不同，则得到的解码结果可能是<s>y＝\frac{x^{2}}{3}+1 11</s>或<s>y＝\frac{x^{2}}{3}+\sqrt{1 1 1}</s>等。由此，需要通过执行后续步骤S304，将得到的目标公式的解码结果与之前确定出的目标公式的空间结构信息相结合，以便从所有得到的解码结果中确定出准确性最高的解码结果，作为目标公式的识别结果。

S304：根据目标公式的空间结构信息和目标公式的解码结果，确定目标公式的最终识别结果。

在本实施例中，通过步骤S303得到目标公式的空间结构信息和目标公式的解码结果后，进一步可以将二者进行综合处理，以根据处理结果，确定出准确性更高的解码结果，作为目标公式的最终识别结果。

具体来讲，一种可选的实现方式是，当通过步骤S303确定出目标公式的空间结构信息为M条，以及目标公式的解码结果为N个时。其中，M和N均为大于0的正整数，本步骤S304的具体实现过程可以包括下述步骤A-B：

步骤A：将目标公式的N个解码结果转换为对应的N个空间结构关系，得到转换后的N个空间结构关系。

在本实现方式中，在通过步骤S303确定出目标公式的LaTeX表示形式的解码结果为N个，即，当按照预设的基于深度学习的解码方法，对目标公式进行解码，得到的目标公式的解码结果为N个，且这N个解码结果各自对应的置信度分别为a1、a2、…、aN后，进一步可以将这N个LaTeX表示形式的解码结果转换为对应的N个空间结构关系，用以执行后续步骤B。

举例说明：假设目标公式为图4所示的公式

N的取值为3，在采用ED方案对其所在的特征图进行解码后，可以得到3个LaTeX表示形式的解码结果分别为下述s1、s2、s3:

s1：<s>y＝\frac{x^{2}}{3}+1 1 1</s>，其对应的置信度为a1。

s2：<s>y＝\frac{x^{2}}{3}+\sqrt{1 1}</s>，其对应的置信度为a2。

s3：<s>y＝\frac{x^{2}}{3}+\sqrt{1 1 1}</s>，其对应的置信度为a3。

在对s1、s2、s3进行处理后，可以得到三者对应的空间结构关系分别为下述s1'、s2'、s3'：

s1'：[Start，Right，Right，Above，Sup，Below，Right，Right，Right，Right，End]。

s2'：[Start，Right，Right，Above，Sup，Below，Right，Right，Inside，Right，End]。

s3'：[Start，Right，Right，Above，Sup，Below，Right，Right，Inside，Right，Right，End]。

步骤B：将转换后的N个空间结构关系与目标公式的M条空间结构信息进行匹配，并在匹配成功后，将联合置信度最高的空间结构关系对应的解码结果作为目标公式的最终识别结果。

在本实现方式中，在通过步骤S303确定出目标公式的空间结构信息为M条，即，按照预设的公式空间结构关系，对目标公式进行识别，得到的目标公式的空间结构信息为M条，且这M条空间结构信息各自对应的置信度分别为b1、b2、…、bM后，进一步可以将通过步骤A确定的N个空间结构关系与这M条空间结构信息进行匹配(即从M条空间结构信息中寻找与N个空间结构关系相同的空间结构信息)，并在匹配成功后，可以将成功匹配的空间结构关系和空间结构信息各自对应的置信度进行联合处理(如加权求和处理等)，得到联合置信度，再将其中最高的联合置信度对应的空间结构关系所归属的解码结果作为目标公式的最终识别结果。

举例说明：基于上述举例，仍假设目标公式为图4所示的公式

M的取值为3，在按照预设的10种公式空间结构关系，对其进行识别后，可以得到3条空间结构信息分别为下述t1、t2、t3:

t1：[Start，Right，Right，Above，Sup，Below，Right，Right，Inside，Right，End]，其对应的置信度为b1。

t2：[Start，Right，Right，Above，Sup，Below，Right，Right，Right，Right，End]，其对应的置信度为b2。

t3：[Start，Right，Right，Above，Right，Below，Right，Right，Inside，Right，End]，其对应的置信度为b3。

在将s1'、s2'、s3'与t1、t2、t3进行匹配后，可以得到的匹配结果为：s1'与t2匹配成功(即s1'与t2表示的空间结构关系相同)，s2'与t1匹配成功(即s2'与t2表示的空间结构关系相同)，s3'并未匹配成功(即s3'与t1、t2、t3表示的空间结构关系均不相同)，因此，可以将s1'所属的s1对应的置信度a1与t2的置信度b2进行联合处理，得到第一处理结果，并将s2'所属的s2对应的置信度a2与t1的置信度b1进行联合处理，得到第二处理结果，以及将s3'所属的s3对应的置信度a3进行处理，得到第三处理结果。以加权求和处理为例，第一处理结果的计算公式为λ1a1+λ2b2，第二处理结果的计算公式为λ1a2+λ2b1，第三处理结果的计算公式为λ1a3，其中，λ1和λ2的具体取值可根据实际情况和经验值来确定，本申请实施例对此不进行限定，比如可以将λ₁和λ₂分别取值为0.6和0.4等。

进而可以从这三个处理结果中选择数值最高的处理结果对应的解码结果(即s1、s2或s3)作为公式

的最终解码结果。如假设λ₁a2+λ₂b1为最高处理结果(即联合置信度)，则可以选择λ₁a2+λ₂b1对应的解码结果s2作为目标公式

的最终解码结果。

综上，本实施例提供的一种公式识别方法，首先获取待识别的目标图像，提取目标图像的图像特征，其中，目标图像中包含待识别的目标公式；然后再根据目标图像的图像特征，按照预设的公式空间结构关系，对目标公式进行识别，得到目标公式的空间结构信息；并按照预设的基于深度学习的解码方法，对目标公式进行解码，得到目标公式的解码结果；接着，可以根据目标公式的空间结构信息和目标公式的解码结果，确定目标公式的最终识别结果。可见，由于本申请实施例是按照预设的公式空间结构关系和预设的基于深度学习的解码方法分别对目标公式进行识别和解码，再综合得到的空间结构信息和解码结果确定最终的公式识别结果，充分考虑了目标公式的空间结构信息对目标公式识别结果的影响，丰富了目标公式的识别依据，进而提高了公式识别结果的准确率。

第二实施例

本实施例首先将对第一实施例中利用预先构建的空间结构信息预测模型，预测出目标公式的空间结构信息的具体实施方式进行介绍。

需要说明的是，在本实施例中，空间结构信息预测模型的输入为目标图像，输出为目标图像中目标公式对应的空间结构信息。且该空间结构信息包括目标公式对应的LaTeX表示形式中每一父节点和子节点之间的空间结构关系。其中，每一父节点和子节点之间的空间结构关系为上述第一实施例中介绍的10种公式空间结构关系中的一种。

参见图7，其示出了本实施例提供的确定目标公式的空间结构信息的流程示意图，该流程包括以下步骤：

S701：根据目标图像的图像特征，对目标公式进行父节点解码，得到目标公式包含的父节点。

在本实施例中，在提取出目标图像的图像特征后，对于该图像特征，可以按照后续步骤S701-S703对其进行处理，以确定出目标公式的空间结构信息。

具体来讲，一种可选的实现方式是，为了能够准确确定出目标公式的空间结构信息，可以预先建立用于确定公式的空间结构信息的空间结构信息预测模型，该模型包括：特征提取模块、父节点注意力模块、子节点注意力模块和空间结构关系预测模块。该模型的示例图如图8所示，其中，特征提取模块为resnet34，父节点注意力模块由Parent Attention和Paraent GRU组成，子节点注意力模块由Child Attention和Child GRU组成,空间结构关系预测模块为FC Layer。

其中，特征提取模块(如图8中的resnet34)的输入是目标图像，对其进行特征提取(即编码处理)后，输出目标图像的图像特征(如图8中的特征图A)。父节点注意力模块的输入是目标图像的图像特征(如图8中的特征图A)和上一解码时刻对子节点进行解码后得到的子节点对应的隐层状态变量，输出是当前时刻父节点的预测值。子节点注意力模块的输入是目标图像的图像特征(如图8中的特征图A)和当前解码时刻对父节点进行解码后得到的父节点对应的隐层状态变量，输出是当前时刻子节点的预测值。空间结构关系预测模块的输入是通过父节点注意力模块确定的当前解码时刻父节点的上下文特征表达向量和通过子节点注意力模块确定的当前解码时刻子节点的上下文特征表达向量，输出是当前解码时刻父节点和子节点之间的空间结构信息的取值概率，根据该概率值可以确定出当前解码时刻父节点和子节点之间的空间结构信息。即，确定出解码时刻父节点和子节点之间的空间结构关系(为上述第一实施例中介绍的10种公式空间结构关系中的一种)。

需要说明的是，在后续内容中，本实施例将以图8所示的空间结构信息预测模型结构为准来介绍如何确定出目标公式的空间结构信息，而其它类似结构组成的空间结构信息预测模型的预测方式与之类似，不再一一赘述。

在此基础上，为了确定出目标公式的空间结构信息，首先可以将目标图像输入该空间结构信息预测模型，以通过模型的特征提取模块(如图8中的resnet34)对其进行特征提取，确定出目标图像的图像特征，并将其定义为特征图A(如图8中的特征图A)。

然后，在后续解码过程中，将当前解码时刻定义为第t时刻，并将上一时刻(即第t-1时刻)对子节点(此处将其定义为

)解码得到的隐层状态变量(hidden state)定义为

这样，在将

和特征图A输入父节点注意力模块(如图8中的Parent Attention)后，可以通过该父节点注意力模块，为目标图像中像素点的图像特征值赋予权重，并根据该权重和上一时刻子节点的值，计算当前时刻父节点的预测值。其中，权重的大小与像素点的图像特征值的重要程度有关。具体计算公式如下：

其中，

表示第t时刻父节点注意力模块(如图8中的Parent Attention)为目标图像中像素点的图像特征值赋予的权重；

表示第t时刻父节点注意力模块(如图8中的Parent Attention)的计算公式；a_i表示特征图A中的第i个像素点对应的第i个图像特征值；

表示第t时刻父节点注意力模块(如图8中的Parent Attention)为目标图像中第i个像素点的第i个图像特征值赋予的权重；

表示第t时刻父节点的上下文特征表达向量，包含该父节点的语义信息和空间位置信息。

上述公式(1)中

的具体计算过程(即表示第t时刻父节点注意力模块(如图8中的Parent Attention)的计算公式

的实现过程)如下公式所示：

其中，

表示将

进行归一化处理后得到的值；

和

均为模型的网络参数，本质为一个向量，具体取值可根据实际情况进行设定，并可以随着网络的训练过程进行迭代更新。

这样，在通过上述公式获取到表示第t时刻父节点的上下文特征表达向量的

后，进一步可以根据

的取值，通过模型中的Parent GRU计算出第t时刻父节点的隐层状态变量

具体计算公式如下：

其中，

表示第t时刻父节点的隐层状态变量；GRU()表示模型中的Parent GRU的基础网络参数；

表示第t时刻父节点的上下文特征表达向量；

表示第t-1时刻子节点的值(即表达向量)。

进一步的，可以根据第t-1时刻子节点的值

第t时刻父节点的隐层状态变量

以及第t时刻父节点的上下文特征表达向量

预测出第t时刻父节点的值

具体计算公式如下：

其中，

表示预测出的第t时刻父节点的值

的取值概率。

为模型的网络参数，本质为一个向量，具体取值可根据实际情况进行设定，并可以随着网络的训练过程进行迭代更新

举例说明：以图4所示的公式

为例，当第t时刻待预测的父节点是

时，即第t时刻父节点的值

理论上是

在通过上述公式(1)-(6)对其进行预测时，第t-1时刻子节点的值

取值为“+”，表征第t-1时刻子节点对应的隐层状态变量的

取值为“+”对应的隐层状态变量。进而可通过上述公式(1)-(6)得到第t时刻父节点

的上下文特征表达向量

和父节点的预测值

的取值概率

需要说明的是，当当前解码时刻(即第t时刻)为初始时刻时，先进行父节点解码，再进行子节点解码，具体的，在初始时刻进行解码时，先根据目标图像的图像特征，对目标公式进行父节点解码时，是将特征图A输入父节点注意力模块后，通过上述公式(1)-(6)进行解码，并且将公式中的

取值为0，即，将表征上一时刻子节点对应的隐层状态变量设置为0，得到初始时刻父节点的上下文特征表达向量和父节点的预测值，用以通过后续步骤S702确定出初始时刻子节点的上下文特征表达向量和子节点的预测值。

S702：根据目标图像的图像特征，对目标公式进行子节点解码，得到目标公式包含的子节点。

在本实施例中，通过步骤S701计算出当前时刻父节点的预测值

以及在确定出当前时刻(即第t时刻)父节点的隐层状态变量

后，还可以根据

以及目标图像的图像特征，对目标公式进行子节点解码，得到当前时刻(即第t时刻)的子节点。

具体来讲，一种可选的实现方式是，可以利用预先建立的空间结构信息预测模型中的子节点注意力模块，为目标图像中像素点的图像特征值赋予权重，并根据权重和父节点的预测值，计算当前时刻子节点的预测值。其中，权重的大小与所述像素点的图像特征值的重要程度有关。

与上述步骤S701中确定当前时刻子节点的过程类似，在确定当前时刻(即第t时刻)的子节点时，在将目标图像输入空间结构信息预测模型的特征提取模块(如图8中的resnet34)确定出目标图像的特征图A(如图8中的特征图A)后，可以将表示第t时刻父节点的隐层状态变量

和特征图A输入子节点注意力模块(如图8中的Child Attention)后，可以通过该子节点注意力模块，为目标图像中像素点的图像特征值赋予权重，并根据该权重和当前时刻父节点的值，计算当前时刻子节点的预测值；其中，权重的大小与像素点的图像特征值的重要程度有关。具体计算公式如下：

其中，

表示第t时刻子节点注意力模块(如图8中的Child Attention)为目标图像中像素点的图像特征值赋予的权重；

表示第t时刻子节点注意力模块(如图8中的Child Attention)的计算公式，其中子节点注意力模块和父节点注意力模块的网络结构可以是相同的，但是网络参数是不共享的；ai表示特征图A中的第i个像素点对应的第i个图像特征值；

表示第t时刻子节点注意力模块(如图8中的Child Attention)为目标图像中第i个像素点的第i个图像特征值赋予的权重；

表示第t时刻子节点的上下文特征表达向量，包含该子节点的语义信息和空间位置信息。

上述公式(7)中

的具体计算过程(即表示第t时刻子节点注意力模块(如图8中的Child Attention)的计算公式

的实现过程)与上述公式(1)中

的实现过程)类似，可参考上述详细描述，在此不再赘述。

这样，在通过上述公式获取到表示第t时刻子节点的上下文特征表达向量的

后，进一步可以根据

的取值，通过模型中的Child GRU计算出第t时刻子节点的隐层状态变量

具体计算公式如下：

其中，

表示第t时刻子节点的隐层状态变量；GRU()表示模型中的Child GRU的基础网络参数；

表示第t时刻子节点的上下文特征表达向量；

表示通过步骤S701确定的第t时刻父节点的预测值。

进一步的，可以根据第t时刻父节点的预测值

第t时刻子节点的隐层状态变量

以及第t时刻子节点的上下文特征表达向量

预测出第t时刻子节点的值

具体计算公式如下：

其中，

表示预测出的第t时刻子节点的值

的取值概率。

为模型的网络参数，本质为一个向量，具体取值可根据实际情况进行设定，并可以随着网络的训练过程进行迭代更新。

举例说明：基于上述举例，仍以图4所示的公式

为例，当第t时刻待预测的子节点是

里面的第一个“1”时，即第t时刻子节点的值

理论上是“1”，在通过上述公式(7)-(10)对其进行预测时，表征第t时刻父节点的预测值

取值为通过步骤S701的举例中确定出的第t时刻父节点的预测值

表征第t时刻父节点的隐层状态变量

取值为通过步骤S701的举例中确定出的第t时刻父节点的隐层状态变量

进而可通过上述公式(7)-(10)得到第t时刻子节点“1”的上下文特征表达向量

和父节点的预测值

的取值概率

可以理解的是，目标公式包含的父节点和子节点指的是为目标公式包含的字母、数字或运算符号等实体。

S703：根据目标公式包含的父节点和目标公式包含的子节点，按照预设的公式空间结构关系，对目标公式进行识别，得到目标公式的空间结构信息。

在本实施例中，在通过步骤S701和S702分别确定出目标公式包含的父节点和子节点后，进一步可以按照预设的公式空间结构关系(即第一实施例中介绍的10种公式空间结构关系)，对目标公式进行识别，得到目标公式的空间结构信息。

在本申请实施例的一种可能的实现方式中，可以利用预先建立的空间结构信息预测模型中的空间结构关系预测模块，根据当前时刻父节点的预测值和当前时刻子节点的预测值，预测父节点和子节点之间的空间结构信息。

具体来讲，在本申请方式中，在通过步骤S701和步骤S702分别确定出表示第t时刻父节点的上下文特征表达向量

和表示第t时刻子节点的上下文特征表达向量

后，由于

包含了第t时刻父节点的语义信息和空间位置信息，

包含了第t时刻子节点的语义信息和空间位置信息，则进一步可以直接将

和

输入空间结构关系预测模块(如图8中的FCLayer)后，以通过该空间结构关系预测模块中的分类层预测出父节点和子节点之间的空间结构信息，具体计算公式如下：

其中，

表示预测出的第t时刻父节点和子节点之间的空间结构信息的取值概率，其取值可以为一个10维度的向量，且其中每一个维度的向量值表示的是第t时刻父节点和子节点之间的空间结构关系为上述第一实施例中介绍的10种预设公式空间结构关系中的一种的概率，该概率值时经过归一化(softmax)计算后输出的，该概率值表征了第t时刻父节点和子节点之间的空间结构关系为对应种类预设公式空间结构关系的可能性，概率值越大，表明第t时刻父节点和子节点之间的空间结构关系为对应种类预设公式空间结构关系的可能性越高，反之，则表明第t时刻父节点和子节点之间的空间结构关系为对应种类预设公式空间结构关系的可能性越低。进而可以将其中最高概率值对应种类的预设公式空间结构关系作为预测出的第t时刻父节点和子节点之间的空间结构信息。

举例说明：假设

的取值为[0.004,0.05，0.78,0.02,0.06,0.05,0.001,0.03，0.002，0.003]，则可以将最高概率值0.78对应的第3种预设公式空间结构关系“Sup”(即用于代表子节点在父节点右上方的空间结构关系)作为预测出的第t时刻父节点和子节点之间的空间结构信息。

而上述公式(11)中的

表示的是模型的网络参数，本质为一个10维的向量，具体取值可根据实际情况进行设定，并可以随着网络的训练过程进行迭代更新。

举例说明：基于上述举例，仍以图4所示的公式

为例，当第t时刻待预测的父节点是

待预测的子节点是

里面的第一个“1”时，即第t时刻父节点的值

理论上是

第t时刻子节点的值

理论上是“1”，在通过上述公式(11)对二者之间的空间结构信息进行预测时，表征第t时刻父节点的上下文特征表达向量

的取值为通过步骤S701的举例中确定出的第t时刻父节点的上下文特征表达向量

表征第t时刻子节点的上下文特征表达向量

的取值为通过步骤S702的举例中确定出的第t时刻子节点的上下文特征表达向量

进而可通过上述公式(11)得到第t时刻父节点

与子节点“1”之间的空间结构关系为上述第一实施例中介绍的10种公式空间结构关系中各种关系的取值概率

如

的取值为[0.003,0.05，0.01,0.02,0.01,0.902,0.001,0.002，0.001，0.001]，则可以将最高概率值0.902对应的第6种预设公式空间结构关系“Inside”作为预测出的

与“1”之间的空间结构关系。

这样，本实施例可以利用预先构建的空间结构信息预测模型，根据预设的10种公式空间结构关系，更为准确地预测出了目标公式的空间结构信息，从而能够为后续识别公式提供更为准确、充分的识别依据。

接下来，本实施例将对空间结构信息预测模型的构建过程进行介绍，具体可以包括下述步骤①-③：

步骤①：获取样本图像；其中，样本图像中包含待识别的样本公式。

在本实施例中，为了构建空间结构信息预测模型，需要预先进行大量的准备工作，首先，需要收集大量包含数学公式的图像，比如，可以在理工科机器阅卷或者智能拍搜等应用场景获得如图4所示所示的包含各种数学公式(如图4中的公式

)的图像，通常需要收集至少数千幅图像，并对其进行灰度处理，这些图像数据可覆盖多种数学公式的符号，进而可以将收集到的各幅图像和其包含的数学公式分别作为样本图像和样本公式，同时，预先通过人工标注出这些样本公式对应的空间结构信息，用以训练空间结构信息预测模型。其中，人工标注出这些样本公式对应的空间结构信息包括每一样本公式对应的LaTeX表示形式中每一父节点和子节点之间的空间结构关系。并且，每一父节点和子节点之间的空间结构关系均为上述第一实施例中介绍的10种公式空间结构关系中的一种。

步骤②：提取样本图像的图像特征。

在本实施例中，通过步骤①获取到样本图像后，并不能直接用于训练生成空间结构信息预测模型，而是需要采用与第一实施例步骤S302中提取目标图像的图像特征类似的方法，将目标图像替换为样本图像，即可提取出各幅样本图像的图像特征，相关之处请参见第一实施例的介绍，在此不再赘述。

步骤③：根据样本图像的图像特征以及样本公式对应的空间结构信息识别标签对初始空间结构信息预测模型进行训练，生成空间结构信息预测模型。

在进行本轮训练时，可以将上述步骤S701-S703中目标图像替换为本轮获取的样本图像，通过当前的初始空间结构信息预测模型，按照上述步骤S701-S703中的执行过程，便可以输出样本公式对应的空间结构信息识别结果。

具体地，按照上述步骤S701-S703，便可以在提取出样本图像的图像特征(即特征图)后，通过初始空间结构信息预测模型确定出样本公式对应的空间结构信息识别结果。然后，可以将该识别结果与样本图像对应的人工标注的空间结构信息进行比较，并根据二者的差异对模型参数进行更新，直至满足预设的条件，比如达到预设训练次数，loss函数收敛，连续两次训练后的模型准确率差值小于一定阈值等，则停止模型参数的更新，完成空间结构信息预测模型的训练，生成一个训练好的空间结构信息预测模型。

需要说明的是，在训练过程中，一种可选的实现方式是，可以利用给定的目标函数，来构建空间结构信息预测模型，并更新模型的网络参数，以提高模型对于父节点取值、子节点取值以及二者之间的空间结构信息的预测准确率，其中，目标函数用于确定模型在训练过程中的网络参数更新次数，即，在设定了目标函数后，如在设定了以分类损失函数作为目标函数后，在对模型进行多轮训练，并在每轮训练后根据目标函数的取值，更新模型的网络参数，直至目标函数的取值最小且基本不变时，表明模型已训练完成，此时即可停止对模型网络参数的更新。

并且，针对空间结构信息预测模型中各个组成模块(包括父节点注意力模块、子节点注意力模块和空间结构关系预测模块)，可分别采用不同的目标函数进行构建，进而也可以将这三个模块对应的目标函数进行综合处理，以得到用于构成构建整个空间结构信息预测模型的最终目标函数，用以优化空间结构信息预测模型的整体网络参数。

具体来讲，为了训练出识别效果更好的空间结构信息预测模型，在训练过程中，对于父节点注意力模块的训练，本实施例采用的目标函数如下：

其中，

表示第t时刻样本公式中父节点的真实值。

在使用上述公式(12)中的目标函数对空间结构信息预测模型中的父节点注意力模块进行训练时，例如，以图4所示的公式

为样本公式为例，当第t时刻预测的父节点是公式中的

时，可以根据ξp值的变化，对父节点注意力模块的模型参数进行不断更新，直至ξp值满足要求，比如变化幅度很小，则停止模型参数的更新，完成父节点注意力模块的训练。

而训练过程中，对于子节点注意力模块的训练，本实施例采用的目标函数如下：

其中，

表示第t时刻样本公式中子节点的真实值。

在使用上述公式(13)中的目标函数对空间结构信息预测模型中的子节点注意力模块进行训练时，例如，仍以图4所示的公式

为样本公式为例，当第t时刻预测的子节点是公式中

里面的第一个“1”时，可以根据ξc值的变化，对子节点注意力模块的模型参数进行不断更新，直至ξc值满足要求，比如变化幅度很小，则停止模型参数的更新，完成子节点注意力模块的训练。

训练过程中，对于空间结构关系预测模块的训练，本实施例采用的目标函数如下：

ξ_re＝-∑_tlog p^re(v_t) (14)

其中，v_t表示第t时刻样本公式中父节点和子节点之间的空间结构信息的真实值。

在使用上述公式(14)中的目标函数对空间结构信息预测模型中的空间结构关系预测模块进行训练时，例如，仍以图4所示的公式

为样本公式为例，当第t时刻预测父节点

和子节点“1”之间的空间结构信息时，可以根据ξ_re值的变化，对空间结构关系预测模块的模型参数进行不断更新，直至ξ_re值满足要求，比如变化幅度很小，则停止模型参数的更新，完成空间结构关系预测模块的训练。

进一步的，为了综合优化空间结构信息预测模型的整体网络参数，可以将上述公式(12)、(13)、(14)中的目标函数进行整合，得到最终模型优化目标函数如下公式所示：

Loss 1＝β₁ξ_p+β₂ξ_c+β₃ξ_re (15)

其中，β₁、β₂、β₃分别表示ξ_p、ξ_c、ξ_re的权重，β₁、β₂、β₃的具体取值可根据实际情况和经验值来确定，本申请实施例对此不进行限定，比如可以将β₁、β₂、β₃分别取值为0.6、0.5、1等。

在此基础上，一种可选的实现方式是，上述步骤S304“根据目标公式的空间结构信息和目标公式的解码结果，确定目标公式的最终识别结果”的实现过程具体可以包括：利用预先构建的公式识别模型，根据目标公式的空间结构信息和目标公式的解码结果，确定目标公式的最终识别结果。

具体来讲，在本实现方式中，公式识别模型包含了空间结构信息预测模型和预设的基于深度学习的解码模型。该模型的示例图如图9所示，其中，空间结构信息预测模型和基于深度学习的解码模型可以共用resnet34作为特征提取模块，这样，在将目标图像输入该公式识别模型的特征提取模块resnet34后，可以通过该特征提取模块(即图9中的resnet34)对其进行特征提取，确定出目标图像的特征图A(即图9中的特征图A)。再由公式识别模型包含的空间结构信息预测模型中的其他解码模块和基于序列建模(Seq2seq)方案中的解码器，分别对特征图A进行解码识别，得到目标公式的空间结构信息和目标公式的解码结果，进而可以根据目标公式的空间结构信息和解码结果，按照上述步骤A-B的执行过程，确定出目标公式的最终识别结果。

其中，以Loss 1(具体取值可根据上述公式(14)确定)作为目标函数，利用空间结构信息预测模型中的其他解码模块对特征图A进行解码，从而确定出目标公式的空间结构信息的过程可参见上述步骤S701-S703的详细介绍，在此不再赘述。

而在序列建模(Seq2seq)的解码方案中，以ED方案为例，本申请在通过公式识别模型中的特征提取模块resnet34确定出目标图像的特征图A后，可以将其输入至Seq2Seq解码器进行解码，如图9所示，得到目标公式的解码结果，具体解码过程与现有方法一致，在此不再赘述。例如，假设目标公式为如图4所示的公式

则利用ED方案对其进行解码后，可以得到其对应的LaTeX表示形式为：<s>y＝\frac{x^{2}}{3}+\sqrt{1 1}</s>。

其中，在序列建模(Seq2seq)的解码方案中，采用的目标函数Loss 2的具体计算公式如下：

Loss 2＝-∑_tlog p^o(l_t) (16)

其中，l_t表示第t时刻标公式对应的LaTeX表示形式的真实值。

这样，为了综合优化公式识别模型的整体网络参数，可以将上述公式(15)、和(16)中的目标函数进行整合，得到公式识别模型的最终优化目标函数如下公式所示：

Loss＝β₄Loss 1+β₅Loss 2 (17)

其中，β₄和β₅分别表示Loss 1和Loss 2的权重，β₄和β₅的具体取值可根据实际情况和经验值来确定，本申请实施例对此不进行限定，比如可以将β₄和β₅均取值为1等。

综上，本实施例利用预先构建的包含空间结构信息预测模型和预设的基于深度学习的解码模型的公式识别模型，对目标公式进行识别时，充分考虑了目标公式的空间结构信息对目标公式识别结果的影响，丰富了目标公式的识别依据，通过将利于空间结构信息预测模型预测出的目标公式的空间结构信息和利用预设的基于深度学习的解码模型识别出的目标公式的解码进行综合处理，进一步提高了目标公式识别结果的准确性和识别效率。

第三实施例

本实施例将对一种公式识别装置进行介绍，相关内容请参见上述方法实施例。

参见图10，为本实施例提供的一种公式识别装置的组成示意图，该装置1000包括：

第一获取单元1001，用于获取待识别的目标图像；所述目标图像中包含待识别的目标公式；

第二提取单元1002，用于提取所述目标图像的图像特征；

识别单元1003，用于根据所述目标图像的图像特征，按照预设的公式空间结构关系，对所述目标公式进行识别，得到所述目标公式的空间结构信息；并按照预设的基于深度学习的解码方法，对所述目标公式进行解码，得到所述目标公式的解码结果；

确定单元1004，用于根据所述目标公式的空间结构信息和所述目标公式的解码结果，确定所述目标公式的最终识别结果。

在本实施例的一种实现方式中，所述识别单元1002包括：

在本实施例的一种实现方式中，所述预设的公式空间结构关系包括以下一项或多项空间结构关系：

用于代表子节点在父节点正上方的空间结构关系；

用于代表子节点在父节点正下方的空间结构关系；

用于代表子节点在父节点右上方的空间结构关系；

用于代表子节点在父节点右下方的空间结构关系；

用于代表子节点在父节点左上方的空间结构关系；

用于代表子节点在父节点内部的空间结构关系；

用于代表子节点在父节点右边的空间结构关系；

用于代表子节点和父节点换行的空间结构关系。

在本实施例的一种实现方式中，所述目标公式的空间结构信息为M条，所述目标公式的解码结果为N个；所述M和N均为大于0的正整数；所述确定单元1004包括：

在本实施例的一种实现方式中，所述识别单元1002具体用于：

在本实施例的一种实现方式中，所述识别单元1002包括：

在本实施例的一种实现方式中，所述装置还包括：

第二提取单元，用于提取所述样本图像的图像特征；

进一步地，本申请实施例还提供了一种公式识别设备，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述公式识别方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行上述公式识别方法的任一种实现方法。

进一步地，本申请实施例还提供了一种计算机程序产品，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行上述公式识别方法的任一种实现方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种公式识别方法，其特征在于，包括：

提取所述目标图像的图像特征；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标图像的图像特征，按照预设的公式空间结构关系，对所述目标公式进行识别，得到所述目标公式的空间结构信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述预设的公式空间结构关系包括以下一项或多项空间结构关系：

用于代表子节点在父节点正上方的空间结构关系；

用于代表子节点在父节点正下方的空间结构关系；

用于代表子节点在父节点右上方的空间结构关系；

用于代表子节点在父节点右下方的空间结构关系；

用于代表子节点在父节点左上方的空间结构关系；

用于代表子节点在父节点内部的空间结构关系；

用于代表子节点在父节点右边的空间结构关系；

用于代表子节点和父节点换行的空间结构关系。

4.根据权利要求1所述的方法，其特征在于，所述目标公式的空间结构信息为M条，所述目标公式的解码结果为N个；所述M和N均为大于0的正整数；所述根据所述目标公式的空间结构信息和所述目标公式的解码结果，确定所述目标公式的最终识别结果，包括：

5.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述目标图像的图像特征，按照预设的公式空间结构关系，对所述目标公式进行识别，得到所述目标公式的空间结构信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述利用预先构建的空间结构信息预测模型，根据所述目标图像的图像特征，按照预设的公式空间结构关系，对所述目标公式进行识别，得到所述目标公式的空间结构信息，包括：

7.根据权利要求5所述的方法，其特征在于，所述空间结构信息预测模型的构建方式如下：

获取样本图像；所述样本图像中包含待识别的样本公式；

提取所述样本图像的图像特征；

8.一种公式识别装置，其特征在于，包括：

第二提取单元，用于提取所述目标图像的图像特征；

9.一种公式识别设备，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有指令，当所述指令在终端设备上运行时，使得所述终端设备执行权利要求1-7任一项所述的方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品在终端设备上运行时，使得所述终端设备执行权利要求1-7任一项所述的方法。