CN113221718A

CN113221718A - 公式识别方法、装置、存储介质和电子设备

Info

Publication number: CN113221718A
Application number: CN202110492080.7A
Authority: CN
Inventors: 刘腾龙; 马志国; 张飞飞; 杜竹君; 郝双; 阚海鹏; 王少康; 杨明坤; 尹成浩; 张明
Original assignee: New Oriental Education Technology Group Co ltd
Current assignee: New Oriental Education Technology Group Co ltd
Priority date: 2021-05-06
Filing date: 2021-05-06
Publication date: 2021-08-06
Anticipated expiration: 2041-05-06
Also published as: CN113221718B

Abstract

本公开涉及一种公式识别方法、装置、存储介质和电子设备，涉及图像识别技术领域，该方法包括：获取目标图像，目标图像包括至少一个待识别公式，根据目标图像，通过位置检测模型，确定至少一个待识别公式中每个待识别公式在目标图像中所处区域的位置信息，位置检测模型用于提取目标图像的图像特征，并根据目标图像的图像特征，确定目标图像对应的概率信息和阈值信息，并根据概率信息和阈值信息，确定每个待识别公式的位置信息，概率信息用于表征目标图像中每个像素所包括的信息为公式的概率，阈值信息用于表征目标图像中每个像素所包括的信息为公式的概率阈值，根据每个待识别公式的位置信息，通过公式识别模型，确定目标图像的公式识别结果。

Description

公式识别方法、装置、存储介质和电子设备

技术领域

本公开涉及图像识别技术领域，具体地，涉及一种公式识别方法、装置、存储介质和电子设备。

背景技术

随着智能教育和智能办公的迅速发展，公式识别被广泛应用于各类场景中。例如，在智能录排场景中，公式识别可以免除人工录入公式的步骤，提高公式录入的效率，而在智能批改场景中，公式识别可以进行公式自动批改，有助于提高批改的效率。目前，公式识别主要分为传统方法的公式识别和深度学习方法的公式识别。传统方法是基于连通域检测公式中的每个字符，并提取每个字符的特征，再从特征库中找到与该字符相似度最高的字符，并根据字符的位置信息和语义信息得到公式图像对应的Latex表达式。而深度学习方法则是基于位置回归的目标检测或基于分割的目标检测方法，来检测公式区域，并采用CRNN+CTC等深度学习算法来进行公式识别。

然而，传统方法难以解析结构复杂的公式，同时对标注数据的质量精度和粒度要求较高，增加了标注成本，且无法保证模型的泛化能力，降低了公式识别的准确性。而深度学习方法在采用基于位置回归的目标检测方法时，并不能准确地检测出公式边界，这会影响公式识别的准确性。深度学习方法在采用基于分割的目标检测方法时，模型性能低下，无法准确地进行公式识别，且处理流程繁琐，模型的复杂度较高。另外，深度学习方法在公式识别时，无法对结构复杂的公式(例如包围结构、上下结构的公式)进行识别，公式识别的准确性较低。

发明内容

为了解决相关技术中存在的问题，本公开提供了一种公式识别方法、装置、存储介质和电子设备。

为了实现上述目的，根据本公开实施例的第一方面，提供一种公式识别方法，所述方法包括：

获取目标图像，所述目标图像包括至少一个待识别公式；

根据所述目标图像，通过预先训练得到的位置检测模型，确定所述至少一个待识别公式中每个待识别公式在所述目标图像中所处区域的位置信息；

其中，所述位置检测模型用于提取所述目标图像的图像特征，并根据所述目标图像的图像特征，确定所述目标图像对应的概率信息和阈值信息，并根据所述概率信息和所述阈值信息，确定每个所述待识别公式的位置信息；所述概率信息用于表征所述目标图像中每个像素所包括的信息为公式的概率，所述阈值信息用于表征所述目标图像中每个像素所包括的信息为公式的概率阈值；

根据每个所述待识别公式的位置信息，通过预先训练得到的公式识别模型，确定所述目标图像的公式识别结果。

可选地，所述位置检测模型为基于残差结构的特征图金字塔网络FPN，所述FPN包括多种大小的卷积核；

所述FPN用于通过所述多种大小的卷积核，提取所述目标图像的图像特征，并根据由所述目标图像的图像特征确定的所述概率信息和所述阈值信息，确定所述目标图像对应的二值图，并根据所述二值图，确定每个所述待识别公式的位置信息，所述二值图用于表征所述目标图像中每个像素所包括的信息是否为公式。

可选地，所述根据每个所述待识别公式的位置信息，通过预先训练得到的公式识别模型，确定所述目标图像的公式识别结果，包括：

将每个所述待识别公式的位置信息作为所述公式识别模型的输入，得到每个所述待识别公式的第一候选表达式；

根据每个所述第一候选表达式包括的每个第一字符，以及每个所述第一字符在该第一候选表达式中的位置，确定所述公式识别结果。

可选地，所述根据每个所述第一候选表达式包括的每个第一字符，以及每个所述第一字符在该第一候选表达式中的位置，确定所述公式识别结果，包括：

针对每个所述第一候选表达式，从该第一候选表达式中确定与多个预设字符组匹配的目标字符，并将与所述目标字符匹配的预设字符组中的字符，作为所述目标字符对应的候选字符，并根据所述多个候选字符，以及与所述目标字符相邻的相邻字符，利用预设的字符组合规则，确定该第一候选表达式对应的多个第二候选表达式，以及每个所述第二候选表达式的置信度，并将置信度最高的所述第二候选表达式作为该第一候选表达式对应的目标表达式；所述预设字符组包括多个预先设置的相似字符；

将每个所述第一候选表达式对应的目标表达式作为所述公式识别结果。

根据每个所述第一候选表达式包括的每个所述第一字符，以及每个所述第一字符在该第一候选表达式中的位置，确定每个所述第一候选表达式所属的公式类型；

将公式类型为指定公式类型的所述第一候选表达式，作为所述公式识别结果。

可选地，所述公式识别模型包括基于残差结构的编码器，以及基于长短期记忆网络LSTM的解码器，所述编码器包括多组并行卷积核，每组所述并行卷积包括多种大小的卷积核；

所述编码器用于根据每个所述待识别公式的位置信息，提取该待识别公式在所述目标图像中所处区域的图像特征，并对提取到的该待识别公式在所述目标图像中所处区域的图像特征进行编码，以得到该待识别公式对应的语义编码向量，所述语义编码向量用于表征该待识别公式包括的每个第二字符，以及每个所述第二字符在该待识别公式中的位置；

所述解码器用于利用预设的搜索算法，对每个所述待识别公式对应的语义编码向量进行解码，以得到每个所述待识别公式的第一候选表达式。

可选地，所述位置检测模型是通过以下方式训练的：

获取训练样本集；所述训练样本集包括训练图像，以及所述训练图像中的训练公式对应的训练位置；

根据所述训练样本集对预设模型进行训练，得到所述位置检测模型。

根据本公开实施例的第二方面，提供一种公式识别装置，所述装置包括：

获取模块，用于获取目标图像，所述目标图像包括至少一个待识别公式；

第一确定模块，用于根据所述目标图像，通过预先训练得到的位置检测模型，确定所述至少一个待识别公式中每个待识别公式在所述目标图像中所处区域的位置信息；

第二确定模块，用于根据每个所述待识别公式的位置信息，通过预先训练得到的公式识别模型，确定所述目标图像的公式识别结果。

可选地，所述第二确定模块包括：

处理子模块，用于将每个所述待识别公式的位置信息作为所述公式识别模型的输入，得到每个所述待识别公式的第一候选表达式；

确定子模块，用于根据每个所述第一候选表达式包括的每个第一字符，以及每个所述第一字符在该第一候选表达式中的位置，确定所述公式识别结果。

可选地，所述确定子模块用于：

可选地，所述第一确定模块被配置为通过以下方式训练得到位置检测模型：

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现第一方面提供的公式识别方法的步骤。

根据本公开实施例的第四方面，提供一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现第一方面提供的公式识别方法的步骤。

通过上述技术方案，本公开首先获取包括至少一个待识别公式的目标图像，并根据目标图像，通过位置检测模型，确定每个待识别公式在目标图像中所处区域的位置信息，其中，位置检测模型用于提取目标图像的图像特征，并根据目标图像的图像特征，确定目标图像对应的概率信息和阈值信息，并根据概率信息和阈值信息，确定每个待识别公式的位置信息，概率信息用于表征目标图像中每个像素所包括的信息为公式的概率，阈值信息用于表征目标图像中每个像素所包括的信息为公式的概率阈值，然后根据每个待识别公式的位置信息，通过公式识别模型，确定目标图像的公式识别结果。本公开是利用位置检测模型确定的目标图像对应的概率信息和阈值信息，准确地确定待识别公式的位置信息，并基于准确的位置信息利用公式识别模型，确定公式识别结果，能够确保对结构复杂的公式的检测效果，提高了公式识别的准确度，同时模型的结构简单，对标注数据的要求较低，降低了公式识别的成本。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是根据一示例性实施例示出的一种公式识别方法的流程图；

图2是图1所示实施例示出的一种步骤103的流程图；

图3是根据一示例性实施例示出的一种训练位置检测模型的流程图；

图4是根据一示例性实施例示出的一种公式识别装置的框图；

图5是图4所示实施例示出的一种第二确定模块的框图；

图6是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在介绍本公开提供的公式识别方法、装置、存储介质和电子设备之前，首先对本公开各个实施例所涉及应用场景进行介绍，该应用场景可以是任一种需要对图像中的公式进行识别的场景。例如，该应用场景可以是智能录排、智能批改、自动阅卷、拍照搜题、试题数字化、相似题推荐、知识点判定等场景。另外，本公开所提供的公式识别方法的执行主体可以为服务器(即公式识别的过程是在服务器上进行的)，该服务器可以包括但不限于：实体服务器，服务器集群或云端服务器等。例如，可以在高性能的GPU(英文：GraphicsProcessing Unit，中文：图形处理器)服务器上，基于多进程的服务框架部署相应的公式识别服务，以保证服务调用的鲁棒性和高效性。本公开所提供的公式识别方法的执行主体也可以为终端(即公式识别的过程是在终端上进行的)，其中，该终端例如可以是智能手机、平板电脑、智能手表、智能手环等移动终端，也可以是台式计算机等固定终端。

图1是根据一示例性实施例示出的一种公式识别方法的流程图。如图1所示，该方法可以包括以下步骤：

步骤101，获取目标图像，目标图像包括至少一个待识别公式。

举例来说，首先可以获取包括待识别公式的目标图像。其中，目标图像可以是图像采集装置采集到的包括公式的图像(例如，由照相机拍摄到的试卷图像，或由扫描仪扫描到的试卷图像)，也可以是视频中的某一含有公式的视频帧，还可以是含有公式的电子文档，例如包含公式的PDF(英文：Portable Document Format，中文：可携带文档格式)，本公开对此不作具体限定。待识别公式可以是任一学科、任一教学阶段中的公式，例如，待识别公式可以是K12(英文：Kindergarten through twelfth grade，中文：学前教育至高中教育)中全学科及全部年级所涵盖的任一公式。

步骤102，根据目标图像，通过预先训练得到的位置检测模型，确定至少一个待识别公式中每个待识别公式在目标图像中所处区域的位置信息。

其中，位置检测模型用于提取目标图像的图像特征，并根据目标图像的图像特征，确定目标图像对应的概率信息和阈值信息，并根据概率信息和阈值信息，确定每个待识别公式的位置信息，概率信息用于表征目标图像中每个像素所包括的信息为公式的概率，阈值信息用于表征目标图像中每个像素所包括的信息为公式的概率阈值。

示例地，为了提高公式识别的准确性，尤其是提高对具有复杂结构特征的公式进行识别的准确性，首先需要准确地检测出待识别公式在目标图像中所处的位置。因此，可以先训练一个位置检测模型，用以检测公式在图像中所处的位置。然而，图像中公式的尺寸可能大小不一，例如，包括多维方程组的公式在图像中所处区域的占比较大，而只包括单个开根号的公式在图像中所处区域的占比较小，为了确保位置检测模型的召回率(对图像中的公式漏检的越少，召回率越高)，该位置检测模型可以采用FPN(英文：Feature PyramidNetworks，中文：特征图金字塔网络)网络框架，以使该位置检测模型能够对不同尺寸的公式都可以充分感知(FPN每卷积一次，特征图缩小一半，大的特征图可以针对小尺寸的公式进行检测，而小的特征图可以针对大尺寸的公式进行检测)，从而确保对不同大小的公式的检测效果，进而提高检测公式所处的位置的准确性。

在获取到目标图像后，可以将目标图像输入到位置检测模型中，由位置检测模型中的FPN对目标图像进行卷积，以提取目标图像的图像特征，再根据图像特征，输出目标图像对应的概率图和阈值图。其中，概率图包括概率信息，概率信息用于表征每个像素所包括的信息为公式的概率(即反映每个像素为公式的概率)，而阈值图包括阈值信息，阈值信息用于表征每个像素所包括的信息为公式的概率阈值(即反映每个像素为公式所需达到最低概率值)。输出概率图的过程，实际上是逐像素点进行概率阈值预测的过程，也就是说，位置检测模型是将概率阈值的预测也放到了深度学习的过程中，相比于直接人为设置整个目标图像的概率阈值，能够避免设置的概率阈值不合理，从而提高公式识别的准确性。然后，位置检测模型可以根据概率图和阈值图，输出每个待识别公式在目标图像中所处区域的位置信息，待识别公式在目标图像中所处区域例如可以是包括待识别公式的矩形框，那么待识别公式的位置信息则可以是矩形框的坐标。

进一步的，在将目标图像输入到位置检测模型之前，可以先对目标图像进行预处理，来优化目标图像，以提高公式识别的效果。其中，对目标图像进行预处理有多种实现方式，一种可实现的方式为按照用户预先设置的预处理操作(例如，图像格式转换，去除噪声，对不清晰的字符进行修补等)，对目标图像进行预处理。另一种可实现的方式为先对目标图像中的待处理公式进行预判定，得到预判定的待处理公式的公式类型，并选取与该公式类型对应的预处理操作来对目标图像进行预处理。

步骤103，根据每个待识别公式的位置信息，通过预先训练得到的公式识别模型，确定目标图像的公式识别结果。

具体的，在训练位置检测模型的同时，还可以训练一个公式识别模型，该公式识别模型可以采用编码器-解码器(英文：Encoder-Decoder)结构的模型框架，以对图像中指定位置处的公式进行识别。在确定每个待识别公式的位置信息后，可以将每个待识别公式的位置信息输入到公式识别模型中。由公式识别模型中的编码器根据每个待识别公式的位置信息，提取该待识别公式在目标图像中所处区域的图像特征，并对提取到的图像特征进行编码，以得到该待识别公式对应的语义编码向量。然后可以由公式识别模型中的解码器根据编码器得到的每个待识别公式的语义编码向量进行解码，得到目标图像的公式识别结果。其中，公式识别结果可以采用可编辑的Latex表达式来表示，例如，在目标图像中包括的待识别公式为

和y＝ax²+bx+c时，公式识别结果可以分别为“\sqrt{{{x}^{2}}-{5}{x}+{6}}>{x}-{1}”以及“{y}＝{a}{x}^{{2}}+{b}{x}+{c}”。

进一步的，在得到目标图像的公式识别结果后，可以根据实际应用，对公式识别结果进行处理。例如，当公式识别结果为待识别公式的Latex表达式时，可以将待识别公式的Latex表达式通过编译器将待识别公式显示在Microsoft Office，网页等媒介中。再例如，在智能批改场景中，可以根据待识别公式的Latex表达式，结合后续的Latex语义判断，进行公式的自动批改，以降低老师的作业批改压力。

需要说明的是，通过位置检测模型和公式识别模型，可以实现对任一学科、任一教学阶段的公式进行位置检测和公式识别的技术需求，公式识别的适用性高，能够快速、准确地定位出待识别公式在目标图像中所处的位置，并对待识别公式进行精确识别，同时处理流程简单，模型的复杂度较低。

综上所述，本公开首先获取包括至少一个待识别公式的目标图像，并根据目标图像，通过位置检测模型，确定每个待识别公式在目标图像中所处区域的位置信息，其中，位置检测模型用于提取目标图像的图像特征，并根据目标图像的图像特征，确定目标图像对应的概率信息和阈值信息，并根据概率信息和阈值信息，确定每个待识别公式的位置信息，概率信息用于表征目标图像中每个像素所包括的信息为公式的概率，阈值信息用于表征目标图像中每个像素所包括的信息为公式的概率阈值，然后根据每个待识别公式的位置信息，通过公式识别模型，确定目标图像的公式识别结果。本公开是利用位置检测模型确定的目标图像对应的概率信息和阈值信息，准确地确定待识别公式的位置信息，并基于准确的位置信息利用公式识别模型，确定公式识别结果，能够确保对结构复杂的公式的检测效果，提高了公式识别的准确度，同时模型的结构简单，对标注数据的要求较低，降低了公式识别的成本。

可选地，位置检测模型为基于残差结构的特征图金字塔网络FPN，FPN包括多种大小的卷积核。

FPN用于通过多种大小的卷积核，提取目标图像的图像特征，并根据由目标图像的图像特征确定的概率信息和阈值信息，确定目标图像对应的二值图，并根据二值图，确定每个待识别公式的位置信息，二值图用于表征目标图像中每个像素所包括的信息是否为公式。

示例地，在位置检测模型检测公式在图像中所处的位置时，考虑到小目标容易出现检测丢失的问题(即出现浅层特征丢失的问题)，位置检测模型可以为基于残差结构的FPN，例如，位置检测模型可以采用基于FPN的网络框架，并将ResNet-50网络作为骨干网络。另外，由于图像中公式的形状千变万化(例如，长公式、宽公式的形状不一)，为了提高对各种形状的公式的检测效果，可以对FPN包括的卷积核进行处理，以使位置检测模型更适用于对形状大小不同的公式进行感知。举个例子，由于不同大小的卷积核具有不同的感受野，可以对不同形状的公式有较好的感知效果(例如，2×3卷积核会对长公式有较好的感知效果，而3×2卷积核会对宽公式有较好的感知效果)，进而能够更好地获取不同形状的公式的特征。因此，可以对FPN包括的卷积核进行处理，以使FPN包括多种大小的卷积核。

进一步的，为了加快位置检测模型的训练和推理速度，位置检测模型中可以设置有可微分二值化网络，以对概率图和阈值图进行二值化处理，从而得到目标图像对应的二值图。其中，二值图用于表征目标图像中每个像素所包括的信息是否为公式，即反映每个像素是否为公式。然后，位置检测模型可以根据二值图确定目标图像中为公式的像素，并根据目标图像中为公式的像素，确定每个待识别公式的位置信息。

图2是图1所示实施例示出的一种步骤103的流程图。如图2所示，步骤103可以包括以下步骤：

步骤1031，将每个待识别公式的位置信息作为公式识别模型的输入，得到每个待识别公式的第一候选表达式。

步骤1032，根据每个第一候选表达式包括的每个第一字符，以及每个第一字符在该第一候选表达式中的位置，确定公式识别结果。

举例来说，还可以对公式识别模型的输出进行处理，以获取满足用户需求的公式识别结果或更加准确的公式识别结果。具体的，在确定每个待识别公式的位置信息后，可以将每个待识别公式的位置信息作为公式识别模型的输入，得到每个待识别公式的第一候选表达式(即此时公式识别模型输出的不是公式识别结果，而是待识别公式可能对应的Latex表达式)。然后可以根据每个第一候选表达式包括的每个第一字符，以及每个第一字符在该第一候选表达式中的位置，对第一候选表达式进行调整或筛选，以得到公式识别结果。

可选地，步骤1032可以包括以下步骤：

步骤A，针对每个第一候选表达式，从该第一候选表达式中确定与多个预设字符组匹配的目标字符，并将与目标字符匹配的预设字符组中的字符，作为目标字符对应的候选字符，并根据多个候选字符，以及与目标字符相邻的相邻字符，利用预设的字符组合规则，确定该第一候选表达式对应的多个第二候选表达式，以及每个第二候选表达式的置信度，并将置信度最高的第二候选表达式作为该第一候选表达式对应的目标表达式。其中，预设字符组包括多个预先设置的相似字符。

步骤B，将每个第一候选表达式对应的目标表达式作为公式识别结果。

在一种场景中，由于某些字符之间的相似度较高(例如，字符“0”、“O”和“o”)，这些相似的字符可能会对公式识别模型造成干扰，使公式识别模型输出错误的识别结果。例如，在待识别公式为

的情况下，公式识别模型可能会将待识别公式中的字符“0”识别为“O”。为了避免相似的字符对公式识别模型造成的干扰，可以为公式识别模型设置后处理操作，来对公式识别模型的输出进行调整，以简单有效的提升公式识别模型的鲁棒性，并确保公式识别结果的准确性。具体的，首先可以根据先验知识设置多个预设字符组以及字符组合规则，其中，预设字符组包括多个相似字符，每个预设字符组所包括的多个相似字符之间的相似度较高。例如，可以将字符“0”、“O”和“o”作为一个预设字符组，可以将字符“I”、“1”和“l”作为一个预设字符组。而字符组合规则则用于表征每个相似字符与其它字符组合的概率，例如，当相似字符为“0”时，“0”与“1”组合的概率可以为80％，而“O”与“1”组合的概率可以为10％，“o”与“1”组合的概率可以为10％。

在得到每个待识别公式的第一候选表达式后，可以从每个第一候选表达式中，确定与多个预设字符组匹配的目标字符(即确定每个第一候选表达式中是否存在相似字符)，并将与目标字符匹配的预设字符组中的字符，作为候选字符。之后可以根据多个候选字符，以及与目标字符相邻的相邻字符，利用预设的字符组合规则，确定该第一候选表达式对应的多个第二候选表达式，以及每个第二候选表达式的置信度。然后可以将置信度最高的第二候选表达式作为该第一候选表达式对应的目标表达式，并将目标表达式作为公式识别结果。

以待识别公式为

且“I”、“1”和“l”为一个预设字符组为例进行说明，若公式识别模型输出的第一候选表达式为“\sqrt{{{x}^{2}}-{5}{x}+{6}}>{x}-{1}”，此时目标字符为“1”，目标字符的相邻字符为“-”，候选字符为“I”、“1”和“l”。可以利用“I”、“1”和“l”分别替换第一候选表达式中的“1”，得到三个第二候选表达式“\sqrt{{{x}^{2}}-{5}{x}+{6}}>{x}-{1}、“\sqrt{{{x}^{2}}-{5}{x}+{6}}>{x}-{I}和“\sqrt{{{x}^{2}}-{5}{x}+{6}}>{x}-{l}。然后利用字符组合规则判断“1”与“-”组合的概率为80％，“I”与“-”组合的概率为15％，“l”与“-”组合的概率为5％，那么可以将第二候选表达式“\sqrt{{{x}^{2}}-{5}{x}+{6}}>{x}-{1}的置信度设置为80％，将“\sqrt{{{x}^{2}}-{5}{x}+{6}}>{x}-{I}的置信度设置为15％，将“\sqrt{{{x}^{2}}-{5}{x}+{6}}>{x}-{l}的置信度设置为5％。最后可以将“\sqrt{{{x}^{2}}-{5}{x}+{6}}>{x}-{1}作为最终的公式识别结果。

可选地，步骤1032还可以通过以下方式实现：

步骤1)，根据每个第一候选表达式包括的每个第一字符，以及每个第一字符在该第一候选表达式中的位置，确定每个第一候选表达式所属的公式类型。

步骤2)，将公式类型为指定公式类型的第一候选表达式，作为公式识别结果。

在另一种场景中，用户可能只需要指定公式类型的公式(例如只需要数学公式)，此时也可以为公式识别模型设置后处理操作，来对公式识别模型的输出进行筛选，以得到满足用户需求的公式识别结果。具体的，首先可以根据不同公式类型的公式中字符以及字符的位置，设置对应的公式模板，并在得到每个待识别公式的第一候选表达式后，根据每个第一候选表达式包括的每个第一字符，以及每个第一字符在该第一候选表达式中的位置，判断每个第一候选表达式所对应的公式模板，进而根据每个第一候选表达式所对应的公式模板，确定该第一候选表达式所属的公式类型。最后可以从全部第一候选表达式中，选取公式类型为指定公式类型的第一候选表达式，作为公式识别结果。

在又一种场景中，还可以对公式识别结果进行排版后输出，以便用户可以更好地对公式识别结果进行查看。其中，一种可实现的方式为利用深度学习对用户的排版习惯进行学习，并生成相应的排版模型。在得到公式识别结果后，可以将公式识别结果输入到排版模型中，得到排版模型输出的排版结果。排版结果例如可以是将公式识别结果中不同公式类型的公式，按照对应的公式尺寸和放置方式，放置在对应的指定区域中。

可选地，公式识别模型包括基于残差结构的编码器，以及基于长短期记忆网络LSTM的解码器，编码器包括多组并行卷积核，每组并行卷积包括多种大小的卷积核。

其中，编码器用于根据每个待识别公式的位置信息，提取该待识别公式在目标图像中所处区域的图像特征，并对提取到的该待识别公式在目标图像中所处区域的图像特征进行编码，以得到该待识别公式对应的语义编码向量，语义编码向量用于表征该待识别公式包括的每个第二字符，以及每个第二字符在该待识别公式中的位置。

示例地，当公式识别模型采用编码器-解码器结构的模型框架时，在编码阶段，考虑到实际情况中存在公式复杂多变，且深层特征和浅层特征同时存在的问题，可以根据公式数据特有的结构特征而针对性设计基于残差结构的编码器，并采用不同感受野的并行卷积核(即编码器包括多组并行卷积核，每组并行卷积包括多种大小的卷积核，例如卷积核的尺寸可以为1×1、3×3、5×5以及7×7的卷积核)，以便公式识别模型学习不同大小的公式中每个字符的位置与含义，从而确保公式识别模型在应对复杂多变的场景时的准确率以及鲁棒性。编码器在接收到每个待识别公式的位置信息后，可以根据每个待识别公式的位置信息，提取该待识别公式在目标图像中所处区域的图像特征，并对图像特征进行编码，以得到该待识别公式对应的语义编码向量。其中，语义编码向量用于表征该待识别公式包括的每个第二字符，以及每个第二字符在该待识别公式中的位置。

解码器用于利用预设的搜索算法，对每个待识别公式对应的语义编码向量进行解码，以得到每个待识别公式的第一候选表达式。

举例来说，公式识别模型包括的解码器可以采用LSTM(英文：Long Short-TermMemory，中文：长短期记忆网络)，以基于LSTM时间序列来进行解码，并采用Attention机制来减缓长期依赖的问题。在公式识别模型预测时的解码阶段，公式识别模型包括的解码器可以对编码阶段得到的语义编码向量进行解析，来得到每个待识别公式的第一候选表达式。但是，如果直接采用上个时间片的预测输出作为下个时间片的输入，若上个时间片预测有误，则会直接导致公式识别模型预测的第一候选表达式错误。因此，解码器可以利用预设的搜索算法，来对每个待识别公式对应的语义编码向量进行解码，以得到每个待识别公式的第一候选表达式。例如，解码器可以采用Beam Search(中文：束搜索)算法来进行解码，以在每个时间片分别选用3个概率最大值作为下个时间片的输入，当模型预测结束后，选取概率最大的Latex序列作为第一候选表达式。

进一步的，在对公式识别模型进行训练时，需要预先设置公式识别模型的公式识别字符集，公式识别字符集决定了公式识别模型可识别字符的上限，例如，可以对各个学科、各个教学阶段的公式中出现的字符进行归纳采集，来得到公式识别字符集。另外，当公式识别模型的输出为Latex表达式时，由于在Latex语义字符集中，一个字符有时会对应多种Latex表达符，这种映射方式会加大公式识别模型的训练难度，为了确保公式识别模型的收敛速度以及鲁棒性，可以对每个字符对应的Latex表达符进行统一化处理。

图3是根据一示例性实施例示出的一种训练位置检测模型的流程图。如图3所示，位置检测模型是通过以下方式训练的：

步骤201，获取训练样本集。

其中，训练样本集包括训练图像，以及训练图像中的训练公式对应的训练位置。

步骤202，根据训练样本集对预设模型进行训练，得到位置检测模型。

示例地，在对位置检测模型进行训练时，首先可以获取包括训练图像和训练位置的训练样本集，并将训练图像作为预设模型的输入，将训练位置作为预设模型的输出，利用位置检测模型对应的损失函数，对预设模型进行训练，并在对预设模型训练完成后，得到位置检测模型。位置检测模型对应的损失函数由三部分组成，具体可以表示为：L＝αL_s+βL_b+γL_t，其中，L_s为概率图的Loss，L_b为阈值图的Loss，L_t为二值图的Loss，α、β、γ可以分别设置为10、5和5。

需要说明的是，训练数据多样性是保证模型泛化和准确性的重要因素，因此，可以采用数据合成以及数据增强手段，来模拟真实场景中的数据特征，以确保位置检测模型和公式识别模型的泛化和准确性，同时降低标注成本和时间成本。具体的，可以通过在线随机数据增强手段(例如，随机水印、随机旋转角度、随机校验噪声、随机高斯噪声等手段)，确保训练数据的多样性，使得模型在真实场景下保证泛化，实现抗水印、抗噪声等。还可以根据真实场景中公式的不同样式的Latex表达式来渲染得到所对应的训练图像，并结合每种样式的公式特点，通过随机化替换符号等操作，批量得到Latex表达式及其对应的图像数据集，进而得到一批相同样式的训练图像，从而确保训练数据的多样性。例如，在整数加法运算中，通过随机替换加数、被加数以及结果等数值，便可以批量得到包含整数运算的训练图像，从而确保整数运算类型的训练数据的多样性。

图4是根据一示例性实施例示出的一种公式识别装置的框图。如图4所示，装置300包括：

获取模块301，用于获取目标图像，目标图像包括至少一个待识别公式。

第一确定模块302，用于根据目标图像，通过预先训练得到的位置检测模型，确定至少一个待识别公式中每个待识别公式在目标图像中所处区域的位置信息。

第二确定模块303，用于根据每个待识别公式的位置信息，通过预先训练得到的公式识别模型，确定目标图像的公式识别结果。

图5是图4所示实施例示出的一种第二确定模块的框图。如图5所示，第二确定模块303包括：

处理子模块3031，用于将每个待识别公式的位置信息作为公式识别模型的输入，得到每个待识别公式的第一候选表达式。

确定子模块3032，用于根据每个第一候选表达式包括的每个第一字符，以及每个第一字符在该第一候选表达式中的位置，确定公式识别结果。

可选地，确定子模块3032用于：

针对每个第一候选表达式，从该第一候选表达式中确定与多个预设字符组匹配的目标字符，并将与目标字符匹配的预设字符组中的字符，作为目标字符对应的候选字符，并根据多个候选字符，以及与目标字符相邻的相邻字符，利用预设的字符组合规则，确定该第一候选表达式对应的多个第二候选表达式，以及每个第二候选表达式的置信度，并将置信度最高的第二候选表达式作为该第一候选表达式对应的目标表达式，预设字符组包括多个预先设置的相似字符。

将每个第一候选表达式对应的目标表达式作为公式识别结果。

可选地，确定子模块3032用于：

根据每个第一候选表达式包括的每个第一字符，以及每个第一字符在该第一候选表达式中的位置，确定每个第一候选表达式所属的公式类型。

将公式类型为指定公式类型的第一候选表达式，作为公式识别结果。

编码器用于根据每个待识别公式的位置信息，提取该待识别公式在目标图像中所处区域的图像特征，并对提取到的该待识别公式在目标图像中所处区域的图像特征进行编码，以得到该待识别公式对应的语义编码向量，语义编码向量用于表征该待识别公式包括的每个第二字符，以及每个第二字符在该待识别公式中的位置。

可选地，第一确定模块302被配置为通过以下方式训练得到位置检测模型：

获取训练样本集。训练样本集包括训练图像，以及训练图像中的训练公式对应的训练位置。

根据训练样本集对预设模型进行训练，得到位置检测模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6是根据一示例性实施例示出的一种电子设备400的框图。如图6所示，该电子设备400可以包括：处理器401，存储器402。该电子设备400还可以包括多媒体组件403，输入/输出(I/O)接口404，以及通信组件405中的一者或多者。

其中，处理器401用于控制该电子设备400的整体操作，以完成上述的公式识别方法中的全部或部分步骤。存储器402用于存储各种类型的数据以支持在该电子设备400的操作，这些数据例如可以包括用于在该电子设备400上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器402可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件403可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器402或通过通信组件405发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口404为处理器401和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件405用于该电子设备400与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G、4G、NB-IOT、eMTC、或其他5G等等，或它们中的一种或几种的组合，在此不做限定。因此相应的该通信组件405可以包括：Wi-Fi模块，蓝牙模块，NFC模块等等。

在一示例性实施例中，电子设备400可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的公式识别方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的公式识别方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器402，上述程序指令可由电子设备400的处理器401执行以完成上述的公式识别方法。

在另一示例性实施例中，还提供一种计算机程序产品，该计算机程序产品包含能够由可编程的装置执行的计算机程序，该计算机程序具有当由该可编程的装置执行时用于执行上述的公式识别方法的代码部分。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种公式识别方法，其特征在于，所述方法包括：

获取目标图像，所述目标图像包括至少一个待识别公式；

2.根据权利要求1所述的方法，其特征在于，所述位置检测模型为基于残差结构的特征图金字塔网络FPN，所述FPN包括多种大小的卷积核；

3.根据权利要求1所述的方法，其特征在于，所述根据每个所述待识别公式的位置信息，通过预先训练得到的公式识别模型，确定所述目标图像的公式识别结果，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据每个所述第一候选表达式包括的每个第一字符，以及每个所述第一字符在该第一候选表达式中的位置，确定所述公式识别结果，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据每个所述第一候选表达式包括的每个第一字符，以及每个所述第一字符在该第一候选表达式中的位置，确定所述公式识别结果，包括：

6.根据权利要求3所述的方法，其特征在于，所述公式识别模型包括基于残差结构的编码器，以及基于长短期记忆网络LSTM的解码器，所述编码器包括多组并行卷积核，每组所述并行卷积包括多种大小的卷积核；

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述位置检测模型是通过以下方式训练的：

8.一种公式识别装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

10.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-7中任一项所述方法的步骤。