CN111738105B

CN111738105B - 公式识别方法、装置、电子设备和存储介质

Info

Publication number: CN111738105B
Application number: CN202010500183.9A
Authority: CN
Inventors: 卢青; 章继东; 何春江; 陈明军; 张若楠
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-06-04
Filing date: 2020-06-04
Publication date: 2023-12-01
Anticipated expiration: 2040-06-04
Also published as: CN111738105A

Abstract

本发明实施例提供一种公式识别方法、装置、电子设备和存储介质，其中方法包括：确定待识别公式图像；将待识别公式图像输入至公式识别模型，得到公式识别模型输出的多个候选识别结果；将任一候选识别结果中候选公式包含的每一子结构的类型输入至结构分析模型，得到结构分析模型输出的任一候选识别结果对应的结构置信度；基于每一候选识别结果及其对应的结构置信度，确定待识别公式图像对应的公式识别结果；其中，公式识别模型是基于样本公式图像及其对应的样本公式识别结果训练得到的；结构分析模型是基于样本公式包含的每一子结构的类型训练得到的。本发明实施例提供的公式识别方法、装置、电子设备和存储介质，提高了公式识别的准确性。

Description

公式识别方法、装置、电子设备和存储介质

技术领域

本发明涉及图像处理技术领域，尤其涉及一种公式识别方法、装置、电子设备和存储介质。

背景技术

随着智能教育和智能办公领域的快速发展，公式自动识别在各类应用场景中所占据的重要作用也逐渐凸显。例如，公式自动识别技术有助于提高作业批改的效率，也可以实现包含公式的题目的在线搜索以及类似题型推荐的准确性。

目前，公式识别方法主要包括基于传统分割方法的公式识别方法和基于深度学习的公式识别方法。然而，上述两种公式识别方法均只依据对待识别公式图像本身提取的特征进行识别，其准确性欠佳。

发明内容

本发明实施例提供一种公式识别方法、装置、电子设备和存储介质，用以解决现有公式识别方法准确性欠佳的问题。

第一方面，本发明实施例提供一种公式识别方法，包括：

确定待识别公式图像；

将所述待识别公式图像输入至公式识别模型，得到所述公式识别模型输出的多个候选识别结果；

将任一候选识别结果中候选公式包含的每一子结构的类型输入至结构分析模型，得到所述结构分析模型输出的所述任一候选识别结果对应的结构置信度；

基于每一候选识别结果及其对应的结构置信度，确定所述待识别公式图像对应的公式识别结果；

其中，所述公式识别模型是基于样本公式图像及其对应的样本公式识别结果训练得到的；所述结构分析模型是基于样本公式包含的每一子结构的类型训练得到的。

可选地，所述将任一候选识别结果中候选公式包含的每一子结构的类型输入至结构分析模型，得到所述结构分析模型输出的所述任一候选识别结果对应的结构置信度，具体包括：

将任一候选识别结果中候选公式包含的任一子结构的类型，以及所述任一子结构之前的子结构的类型输入至所述结构分析模型的子结构置信度确定层，得到所述子结构置信度确定层输出的所述任一子结构的子结构置信度；

将每一子结构的子结构置信度输入至所述结构分析模型的置信度融合层，得到所述置信度融合层输出的所述任一候选识别结果对应的结构置信度。

可选地，所述将任一候选识别结果中候选公式包含的任一子结构的类型，以及所述任一子结构之前的子结构的类型输入至所述结构分析模型的子结构置信度确定层，得到所述子结构置信度确定层输出的所述任一子结构的子结构置信度，具体包括：

将所述任一子结构的上一子结构的类型以及上一时刻对应的隐藏状态输入至所述子结构置信度确定层的隐藏状态计算层，得到所述隐藏状态计算层输出的当前时刻对应的隐藏状态；

将所述当前时刻对应的隐藏状态输入至所述子结构置信度确定层的子结构预测层，得到所述子结构预测层输出的当前时刻对应的子结构预测结果；

将所述任一子结构的类型以及所述子结构预测结果输入至所述子结构置信度确定层的置信度提取层，得到所述置信度提取层输出的所述任一子结构的子结构置信度。

可选地，所述将所述待识别公式图像输入至公式识别模型，得到所述公式识别模型输出的多个候选识别结果，具体包括：

将所述待识别公式图像输入至所述公式识别模型的图像特征编码层，得到所述图像特征编码层输出的所述待识别公式图像中每一区域的图像特征编码；

将每一区域的图像特征编码以及上一解码时刻的解码状态输入至所述公式识别模型的上下文编码层，得到所述上下文编码层输出的当前解码时刻的图像上下文编码；

将当前解码时刻的解码状态和图像上下文编码，以及上一解码时刻的候选解码结果输入至所述公式识别模型的解码层，得到所述解码层输出的当前解码时刻的候选解码结果；

其中，所述当前解码时刻的解码状态是基于当前解码时刻的图像上下文编码，以及上一解码时刻的解码状态和候选解码结果确定的；

所述多个候选识别结果为最终解码时刻的候选解码结果。

可选地，所述将每一区域的图像特征编码以及上一解码时刻的解码状态输入至所述公式识别模型的上下文编码层，得到所述上下文编码层输出的当前解码时刻的图像上下文编码，具体包括：

将每一区域对应的图像特征编码以及上一解码时刻的解码状态输入至所述上下文编码层的注意力权重确定层，得到所述注意力权重确定层输出的每一区域对应的图像特征编码的注意力权重；

将每一区域对应的图像特征编码及其注意力权重输入至所述上下文编码层的融合编码层，得到所述融合编码层输出的当前解码时刻的图像上下文编码。

可选地，所述基于每一候选识别结果及其对应的结构置信度，确定所述待识别公式图像对应的公式识别结果，具体包括：

基于任一候选识别结果包含的公式识别置信度，以及所述任一候选识别结果对应的结构置信度，确定所述任一候选识别结果的融合置信度；

基于每一候选识别结果的融合置信度，确定所述公式识别结果。

可选地，任一候选识别结果中候选公式包含的每一子结构的类型是基于结构类型词典以及所述候选公式确定得到的；

所述结构类型词典的获取方法，具体包括：

基于每一样本公式中包含的子结构类型，确定每一子结构类型出现的频次；

基于预设的类型筛选条件以及每一子结构类型出现的频次，构建结构类型词典。

第二方面，本发明实施例提供一种公式识别装置，包括：

图像确定单元，用于确定待识别公式图像；

候选识别结果确定单元，用于将所述待识别公式图像输入至公式识别模型，得到所述公式识别模型输出的多个候选识别结果；

结构置信度确定单元，用于将任一候选识别结果中候选公式包含的每一子结构的类型输入至结构分析模型，得到所述结构分析模型输出的所述任一候选识别结果对应的结构置信度；

公式识别结果确定单元，用于基于每一候选识别结果及其对应的结构置信度，确定所述待识别公式图像对应的公式识别结果；

第三方面，本发明实施例提供一种电子设备，包括处理器、通信接口、存储器和总线，其中，处理器，通信接口，存储器通过总线完成相互间的通信，处理器可以调用存储器中的逻辑命令，以执行如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的一种公式识别方法、装置、电子设备和存储介质，基于公式识别模型输出的候选识别结果中候选公式包含的每一子结构的类型，利用结构分析模型分析候选识别结果中候选公式的结构合理性，得到候选识别结果对应的结构置信度，从而基于每一候选识别结果及其对应的结构置信度，确定公式识别结果，提高了公式识别的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的公式识别方法的流程示意图；

图2为本发明实施例提供的结构分析模型运行方法的流程示意图；

图3为本发明实施例提供的子结构置信度确定方法的流程示意图；

图4为本发明实施例提供的公式识别模型运行方法的流程示意图；

图5为本发明实施例提供到的图像上下文编码方法的流程示意图；

图6为本发明实施例提供的公式识别结果确定方法的流程示意图；

图7为本发明实施例提供的公式识别装置的结构示意图；

图8为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着智能教育和智能办公领域的快速发展，越来越多的场景凸显出了高准确率的公式识别的重要性。例如，公式识别方法可以帮助教师自动批改学生的作业和试卷，也可以更加高效地进行题目搜索和题型推荐。

目前，公式识别方法包括基于传统分割方法的公式识别方法和基于深度学习的公式识别方法。其中，基于传统分割方法的公式识别方法首先需要将待识别公式图像进行切分，再对切分后的子图进行特征提取，从而依据提取到的特征进行分类识别；基于深度学习的方法需要将待识别公式图像里的字符规整到固定格式，再对其进行特征提取，从而依据提取到的特征确定待识别公式图像的识别结果。然而，上述两种公式识别方式在进行识别时的依据仅为对图像本身提取得到的特征，导致公式识别的准确性欠佳。

对此，本发明实施例提供了一种公式识别方法。图1为本发明实施例提供的公式识别方法的流程示意图，如图1所示，该方法包括：

步骤110，确定待识别公式图像。

具体地，待识别公式图像为包含需要识别的公式的图像。其中，待识别公式图像中包含的公式可以为数学公式、物理公式或者化学公式，本发明实施例对此不作具体限定。另外，待识别公式图像中包含的公式还可以为手写公式、印刷体公式或者触屏轨迹点构成的公式，本发明实施例对此也不作具体限定。

步骤120，将待识别公式图像输入至公式识别模型，得到公式识别模型输出的多个候选识别结果；

其中，公式识别模型是基于样本公式图像及其对应的样本公式识别结果训练得到的。

具体地，公式识别模型用于对待识别公式图像进行图像特征提取，从而依据提取得到的图像特征进行识别，得到多个候选识别结果。其中，任一候选识别结果可以包括识别得到的候选公式，还可以包括该候选公式对应的公式识别置信度。此处，公式识别置信度为该候选公式为正确识别结果的概率。可选地，公式识别模型在基于图像特征识别待识别公式图像中的字符时，可以采用beam search(集束搜索)策略，以确定出候选公式整体最优的多个候选识别结果。

在执行步骤120之前，还可以预先训练得到公式识别模型，具体可以通过如下方式训练得到公式识别模型：首先，收集大量样本公式图像，并确定样本公式图像对应的样本公式识别结果。随即，基于样本公式图像及其对应的样本公式识别结果训练初始模型，从而得到公式识别模型。

步骤130，将任一候选识别结果中候选公式包含的每一子结构的类型输入至结构分析模型，得到结构分析模型输出的该候选识别结果对应的结构置信度；

其中，结构分析模型是基于样本公式包含的每一子结构的类型训练得到的。

具体地，结构分析模型用于基于任一候选识别结果中候选公式包含的每一子结构的类型，分析该候选识别结果中候选公式整体的结构合理性，从而确定该候选识别结果对应的结构置信度。此处，任一候选识别结果对应的结构置信度用于表明该候选识别结果中候选公式的结构的合理程度，候选公式包含的子结构可以是相互之间为水平关系的子表达式或者运算符等。例如，对于如下数学公式：

该数学公式包含的子结构包括五个：+、/>＝和/>

对于化学公式：该化学公式包含的子结构包括七个：2NaHCO₃、/>Na₂CO₃、+、H₂O、+和CO₂↑。

任一子结构的类型即为该子结构的结构类型，例如数学和物理公式中的上下结构、二次根号结构，以及分子中包括加号和二次根号的上下结构等类型，化学公式中的带下角标的结构，带加热条件的等号、带气体符号的结构和带沉淀符号的结构等类型。另外，结合公式的特点，对于数学和物理公式，每一运算符对应不同的子结构类型，例如+、-以及×对应的子结构类型分别为加号、减号和乘号。

在执行步骤130之前，还可以预先训练得到结构分析模型，具体可以通过如下方式训练得到结构分析模型：首先，收集大量样本公式，并确定样本公式中包含的每一子结构的类型。随即，基于样本公式中包含的每一子结构的类型训练初始模型，从而得到结构分析模型。

结构分析模型在训练过程中，会学习大量的样本公式，基于样本公式中各种类型的子结构之间的组合情况，挖掘出各种类型的子结构之间的组合关系，例如数学公式中，上下结构后面通常会紧跟着连接运算符，而不会再紧跟着连接一个上下结构，化学公式中，带气体符号的结构仅会出现在等号的后面，且带气体符号的结构后面不可能再出现一个带气体符号的结构。基于各种类型的子结构之间的组合关系，结构分析模型能够针对输入的候选识别结果中候选公式包含的每一子结构的类型，判断候选公式中是否存在不合理的子结构类型组合，进而确定该候选识别结果对应的结构置信度。

步骤140，基于每一候选识别结果及其对应的结构置信度，确定待识别公式图像对应的公式识别结果。

具体地，待识别公式图像中包含的公式的复杂程度，或者手写公式的不规范程度等因素，均会影响公式识别模型的识别准确性。因此，仅基于候选识别结果中包含的公式识别置信度，筛选公式识别置信度最高的候选识别结果作为公式识别结果，会导致准确性欠佳。因此，本发明实施例基于每一候选识别结果及其对应的结构置信度，从公式结构合理性的角度，为候选识别结果的筛选提供额外的评价标准，从而可以从中滤除公式结构不合理的候选识别结果，选出最合理的候选识别结果，作为待识别公式图像对应的公式识别结果，以提高公式识别的准确性。

本发明实施例提供的方法，基于公式识别模型输出的候选识别结果中候选公式包含的每一子结构的类型，利用结构分析模型分析候选识别结果中候选公式的结构合理性，得到候选识别结果对应的结构置信度，从而基于每一候选识别结果及其对应的结构置信度，确定公式识别结果，提高了公式识别的准确性。

基于上述实施例，图2为本发明实施例提供的结构分析模型运行方法的流程示意图，如图2所示，步骤130具体包括：

步骤131，将任一候选识别结果中候选公式包含的任一子结构的类型，以及该子结构之前的子结构的类型输入至结构分析模型的子结构置信度确定层，得到子结构置信度确定层输出的该子结构的子结构置信度。

具体地，子结构置信度确定层用于基于任一候选识别结果中候选公式包含的任一子结构之前的子结构(以下简称历史子结构)的类型，预测在历史子结构之后可能连接的子结构类型，从而确定候选公式中给出的该子结构的类型在该位置的合理程度，得到该子结构的子结构置信度。其中，任一子结构的子结构置信度用于表明候选公式中给出的该子结构的类型在该位置的合理程度。可选地，子结构置信度确定层可以基于候选公式中该子结构的上一子结构的类型，确定该子结构的子结构置信度，也可以基于候选公式中该子结构之前的多个子结构的类型，确定该子结构的子结构置信度，本发明实施例对此不作具体限定。

步骤132，将每一子结构的子结构置信度输入至结构分析模型的置信度融合层，得到置信度融合层输出的该候选识别结果对应的结构置信度。

具体地，候选识别结果中的候选公式包含多个子结构，每一个子结构的类型的合理程度都会影响候选公式整体的合理性，因此为了确定候选识别结果对应的结构置信度，将每一子结构的子结构置信度输入至结构分析模型的置信度融合层，得到置信度融合层输出的该候选识别结果对应的结构置信度。其中，置信度融合层用于将每一子结构的子结构置信度融合，得到候选识别结果对应的结构置信度。可选地，可以将每一子结构的子结构置信度相乘或相加，得到结构置信度，本发明实施例对此不作具体限定。

本发明实施例提供的方法，基于任一候选识别结果中候选公式包含的任一子结构之前的子结构的类型，确定该子结构的子结构置信度，并将每一子结构的子结构置信度融合，得到该候选识别结果对应的结构置信度，提高了公式结构分析的准确性。

基于上述任一实施例，图3为本发明实施例提供的子结构置信度确定方法的流程示意图，如图3所示，步骤131具体包括：

步骤1311，将该子结构的上一子结构的类型以及上一时刻对应的隐藏状态输入至子结构置信度确定层的隐藏状态计算层，得到隐藏状态计算层输出的当前时刻对应的隐藏状态。

具体地，隐藏状态计算层用于基于该子结构的上一子结构的类型以及上一时刻对应的隐藏状态，确定当前时刻对应的隐藏状态。其中，上一时刻对应的隐藏状态是上一时刻隐藏状态计算层的输出，其中包括了隐藏状态计算层在当前时刻之前所产生的历史信息，即包括了在此之前输入的子结构类型的信息。由于上一时刻对应的隐藏状态包括了隐藏状态计算层之前时刻所产生的历史信息，因此，基于当前时刻输入的上一子结构的类型，以及上一时刻对应的隐藏状态所计算出的当前时刻对应的隐藏状态中，既包含了当前时刻输入的子结构类型信息，还包含了在此之前输入的子结构类型信息。可选地，可以基于循环神经网络(Recurrent Neural Network，RNN)模型及其变形，例如长短期记忆网络(Long Short-Term Memory，LSTM)模型，构建隐藏状态计算层，本发明实施例对此不作具体限定。

步骤1312，将当前时刻对应的隐藏状态输入至子结构置信度确定层的子结构预测层，得到子结构预测层输出的当前时刻对应的子结构预测结果；

具体地，子结构预测层用于基于当前时刻对应的隐藏状态，预测当前时刻对应的子结构预测结果。其中，子结构预测结果包括每一子结构类型连接在上一子结构之后的概率，此处，每一子结构类型为预先构建的结构类型词典中的子结构类型。由于当前时刻对应的隐藏状态中既包含了当前时刻输入的子结构类型信息，还包含了在此之前输入的子结构类型信息，因此子结构预测层在预测结构类型词典中每一子结构类型连接在上一子结构之后的概率时，不仅可以利用上一子结构本身的类型信息，还可以利用在此之前的历史信息，从而提高了子结构预测的准确性。

可选地，可以基于分类层，例如Softmax层，构建子结构预测层，本发明实施例对此不作具体限定。当基于LSTM模型构建隐藏状态计算层，并基于Softmax层构建子结构预测层时，可以在当前时刻输入的上一子结构的类型以及上一时刻对应的隐藏状态的基础上，还利用LSTM模型在上一时刻对应的细胞状态，计算当前时刻对应的隐藏状态，从而进行子结构的预测，提高长距离依赖场景下的子结构预测准确性，同时避免训练过程中的梯度消失和梯度爆炸问题。例如，可以采用如下公式预测当前时刻对应的子结构预测结果，即每一子结构类型连接在上一子结构之后的概率：

p^t＝Softmax(LSTM(c^t-1,h^t-1,x^t))

其中，p^t为当前时刻对应的子结构预测结果，c^t-1为LSTM模型在上一时刻对应的细胞状态，h^t-1为LSTM模型在上一时刻对应的隐藏状态，x^t为当前时刻输入的上一子结构的类型，LSTM(c^t-1,h^t-1,x^t)即当前时刻对应的隐藏状态。

步骤1313，将该子结构的类型以及子结构预测结果输入至子结构置信度确定层的置信度提取层，得到置信度提取层输出的该子结构的子结构置信度。

具体地，在得到子结构预测结果后，可以依据该子结构的类型，从子结构预测结果中，提取该类型对应的概率，作为该子结构的子结构置信度。由于在进行子结构预测时，利用了上一子结构的类型信息以及之前所产生的历史信息，提高了子结构预测的准确性，从而提高了子结构预测结果中各子结构类型对应概率的准确性，亦提高了从中提取得到的子结构置信度的准确性。

本发明实施例提供的方法，基于任一子结构的上一子结构的类型以及上一时刻对应的隐藏状态进行预测，得到当前时刻对应的子结构预测结果，从而从中提取得到该子结构的子结构置信度，提高了子结构预测的准确性，以及子结构置信度的准确性。

基于上述任一实施例，图4为本发明实施例提供的公式识别模型运行方法的流程示意图，如图4所示，步骤120具体包括：

步骤121，将待识别公式图像输入至公式识别模型的图像特征编码层，得到图像特征编码层输出的待识别公式图像中每一区域的图像特征编码。

具体地，图像特征编码层用于对待识别公式图像进行特征提取，获取其中每一区域的图像语义信息，并编码得到每一区域的图像特征编码。可选地，图像特征编码层可以基于卷积神经网络构建得到。进一步地，为了防止待识别公式中的部分细节特征在特征提取的下采样过程中被丢失，导致后续的识别准确性下降，图像特征编码层还可以提取待识别公式图像的多尺度特征。可选地，可以基于ResNet101结构和UNet结构构建图像特征编码层。

步骤122，将每一区域的图像特征编码以及上一解码时刻的解码状态输入至公式识别模型的上下文编码层，得到上下文编码层输出的当前解码时刻的图像上下文编码。

具体地，由于待识别公式图像中包含的字符呈序列化，且解码过程也是相应的序列化输出过程，因此在任一解码时刻的解码过程中，每一区域的图像特征编码的重要性是不同的。为了在解码过程中，消除无关区域的图像特征编码的干扰，以提高解码的准确性，将每一区域的图像特征编码以及上一解码时刻的解码状态输入至公式识别模型的上下文编码层，以得到当前解码时刻的图像上下文编码。此处，任一解码时刻的解码状态是解码层中的隐藏层的输出，其包含了解码层在该时刻之前所产生的历史信息。其中，上下文编码层用于基于每一区域的图像特征编码，以及上一解码时刻的解码状态，判断在当前解码时刻，应当重点关注哪部分区域的图像特征编码，从而编码得到当前解码时刻的图像上下文编码。此处，当前解码时刻的图像上下文编码中凸显出了在当前解码时刻应当重点关注的区域的图像特征编码。

步骤123，将当前解码时刻的解码状态和图像上下文编码，以及上一解码时刻的候选解码结果输入至公式识别模型的解码层，得到解码层输出的当前解码时刻的候选解码结果；

其中，当前解码时刻的解码状态是基于当前解码时刻的图像上下文编码，以及上一解码时刻的解码状态和候选解码结果确定的；上述多个候选识别结果为最终解码时刻的候选解码结果。

具体地，解码层用于基于当前解码时刻的解码状态和图像上下文编码，以及上一解码时刻的候选解码结果，解码并输出当前解码时刻对应的候选解码结果。其中，当前解码时刻的解码状态是基于当前解码时刻的图像上下文编码，以及上一解码时刻的解码状态和候选解码结果确定的。任一解码时刻对应的候选解码结果为该解码时刻，解码层解码得到的字符与上一解码时刻对应的候选解码结果拼接后的字符序列。可选地，解码层可以基于beam search策略构建，对应在每一解码时刻输出beam width(集束宽度)个候选解码结果。其中，beam width可以预先根据实际应用场景设定得到。解码层重复上述操作直至解码结束，得到的最终解码时刻对应的候选解码结果即为上述公式识别模型输出的多个候选识别结果。

可选地，可以基于循环神经网络RNN模型及其变形，例如长短期记忆网络LSTM模型以及门控循环单元(Gated Recurrent Unit，GRU)，构建解码层，本发明实施例对此不作具体限定。解码层可以基于当前解码时刻之前所有时刻解码层解码得到的字符，以及当前解码时刻的图像上下文编码，解码出当前解码时刻对应的字符，从而确定当前解码时刻的候选解码结果。进一步地，为了减小计算量，从而提高解码效率，也可以仅基于上一时刻解码层解码得到的字符，以及当前解码时刻的解码状态和图像上下文编码，解码出当前解码时刻对应的字符，从而确定当前解码时刻的候选解码结果，两种解码方式的效果是类似的。例如，可以采用如下公式解码得到当前解码时刻对应的字符：

y_t＝g({y₁,y₂,y₃,…,y_t-1},c_t)≈g(y_t-1,s_t,c_t)

其中，y_t为当前解码时刻解码得到的字符；y₁,y₂,y₃,…,y_t-1为第1，2，…，t-1个解码时刻，即当前解码时刻之前所有时刻，解码得到的字符；c_t为当前解码时刻的图像上下文编码，s_t为当前解码时刻的解码状态，g()为非线性函数。

本发明实施例提供的方法，基于每一区域的图像特征编码以及上一解码时刻的解码状态，确定当前解码时刻的图像上下文编码，并基于当前解码时刻的解码状态和图像上下文编码，以及上一解码时刻的候选解码结果，确定当前解码时刻的候选解码结果，提高了解码的准确性，从而提高了公式识别的准确性。

基于上述任一实施例，图5为本发明实施例提供到的图像上下文编码方法的流程示意图，如图5所示，步骤122具体包括：

步骤1221，将每一区域对应的图像特征编码以及上一解码时刻的解码状态输入至上下文编码层的注意力权重确定层，得到注意力权重确定层输出的每一区域对应的图像特征编码的注意力权重。

具体地，为了判断当前解码时刻，各个区域对应的图像特征编码的重要性，注意力权重确定层利用注意力机制，在每一区域对应的图像特征编码以及上一解码时刻的解码状态的基础上，确定每一区域对应的图像特征编码的注意力权重。可选地，可以将任一区域对应的图像特征编码与上一解码时刻的解码状态进行注意力交互，得到该区域对应的图像特征编码的注意力权重。例如，可以采用如下公式计算任一区域对应的图像特征编码的注意力权重：

其中，共包括L个区域对应的图像特征编码，e_it为当前解码时刻，第i个区域对应的图像特征编码的注意力得分，α_it则为当前解码时刻，第i个区域对应的图像特征编码的注意力权重，h_i为第i个区域对应的图像特征编码，s_t-1为上一解码时刻的解码状态，W^h和W^s为权重矩阵，是公式识别模型中可学习得到的参数。

步骤1222，将每一区域对应的图像特征编码及其注意力权重输入至上下文编码层的融合编码层，得到融合编码层输出的当前解码时刻的图像上下文编码。

具体地，融合编码层用于基于每一区域对应的图像特征编码的注意力权重，对每一区域对应的图像特征编码进行融合。可选地，可以直接对每一区域对应的图像特征编码进行加权求和，得到融合后的当前解码时刻的图像上下文编码。例如，可以采用如下公式计算当前解码时刻的图像上下文编码：

其中，共包括L个区域对应的图像特征编码，h_i为第i个区域对应的图像特征编码，α_it则为当前解码时刻，第i个区域对应的图像特征编码的注意力权重，c_t为当前解码时刻的图像上下文编码。

基于上述任一实施例，图6为本发明实施例提供的公式识别结果确定方法的流程示意图，如图6所示，步骤140具体包括：

步骤141，基于任一候选识别结果包含的公式识别置信度，以及该候选识别结果对应的结构置信度，确定该候选识别结果的融合置信度；

步骤142，基于每一候选识别结果的融合置信度，确定公式识别结果。

具体地，任一候选识别结果中包含的公式识别置信度代表了该候选识别结果中候选公式为正确识别结果的概率，其准确性易受到多种因素的影响，例如待识别公式图像的图像质量，待识别公式图像中包含的公式的复杂程度，或者手写公式的不规范程度等。因此，在筛选候选识别结果，以确定最终的公式识别结果时，仅以公式识别置信度作为筛选标准，其准确性欠佳。对此，利用结构分析模型对任一候选识别结果进行公式结构的合理性分析，所得到的该候选识别结果的结构置信度，可以从公式结构合理性的角度，提供另一种候选识别结果的评价标准。

因此，为了筛选出最合理的候选识别结果，以提高公式识别的准确性，将任一候选识别结果包含的公式识别置信度，以及该候选识别结果对应的结构置信度融合，得到该候选识别结果的融合置信度。进而，将每一候选识别结果的融合置信度，作为筛选候选识别结果的依据，从而确定出最终的公式识别结果。可选地，可以将任一候选识别结果包含的公式识别置信度，以及该候选识别结果对应的结构置信度相乘、相加或者加权求和，得到该候选识别结果的融合置信度，本发明实施例对此不作具体限定。

本发明实施例提供的方法，将任一候选识别结果包含的公式识别置信度，以及所述任一候选识别结果对应的结构置信度融合，得到该候选识别结果的融合置信度，并依据每一候选识别结果的融合置信度，确定公式识别结果，提高了公式识别的准确性。

基于上述任一实施例，任一候选识别结果中候选公式包含的每一子结构的类型是基于结构类型词典以及候选公式确定得到的。

具体地，公式识别模型输出的多个候选识别结果中，每一候选识别结果中均包含有候选公式和对应的公式识别置信度，其中候选公式中包含有该候选公式的结构信息。基于预先构建的结构类型词典，解析任一候选识别结果中的候选公式的结构信息，获取该候选公式中包含的每一子结构的类型，其中该候选公式中包含的每一子结构的类型均为结构类型词典中的子结构类型。

其中，结构类型词典的获取方法，具体包括：

具体地，首先需要收集大量的样本公式，然后针对每一个样本公式，均获取其中包含的子结构类型，并对每一种子结构类型进行频次统计。

例如，对于数学科目的样本公式：

首先处理样本公式(1)，获取其中包含的子结构类型，依次为上下结构、加号、二次根号结构、等号、分子带四则运算符和根号的上下结构。因此，上下结构对应的频次F(上下结构)＝0+1＝1；加号对应的频次F(加号)＝0+1＝1；二次根号结构对应的频次F(二次根号结构)＝0+1＝1；等号对应的频次F(等号)＝0+1＝1；分子带四则运算符和根号的上下结构的频次F(分子带四则运算符和根号的上下结构)＝0+1＝1。

然后，处理样本公式(2)，获取其中包含的子结构类型，依次为二次根号结构、减号、分子带根号的上下结构、等号、分子带根号的上下结构。其中，减号和分子带根号的上下结构是之前没有出现过的新类型。因此，F(二次根号结构)＝1+1＝2；减号对应的频次F(减号)＝0+1＝1；分子带根号的上下结构的频次F(分子带根号的上下结构)＝0+2＝2；F(等号)＝1+1＝2。

以此类推，直至处理完所有的样本公式，并得到在样本公式中出现过的每一子结构类型的频次。

由于样本公式中可能会存在印刷错误或手写错误等问题导致的错误子结构，并且，这种错误子结构在样本公式中出现的频次通常相对较低。因此，为了滤除这部分错误的子结构，需要基于预设的类型筛选条件，以及每一子结构类型出现的频次，对每一子结构类型进行筛选，从而构建结构类型词典。

可选地，可以基于每一子结构类型出现的频次进行排序，从而筛选出预设数量个出现频次最高的子结构类型，构建结构类型词典；也可以计算所有子结构类型出现频次的总数，进而依据每一子结构类型出现频次的排序情况，设定频次阈值，例如所有子结构类型出现频次的总数的1％，将出现频次大于频次阈值的子结构类型筛选出来，构建结构类型词典，本发明实施例对此不作具体限定。其中，可以采用如下公式统计所有子结构类型出现频次的总数：

其中，Q为所有子结构类型出现频次的总数，样本公式中一共出现了N类子结构类型，F(i)为第i类子结构类型出现的频次。

需要说明的是，考虑到不同学科公式具有不同的特性，例如数学公式和化学公式在结构上有较大区别，因此可以针对不同学科分别构建对应的结构类型词典。

基于上述任一实施例，本发明又一实施例提供了一种公式识别方法，该方法包括：

首先，确定待识别公式图像；

随即，将待识别公式图像输入至公式识别模型，得到公式识别模型输出的多个候选识别结果。公式识别模型的内部运行流程包括：将待识别公式图像输入至图像特征编码层，得到图像特征编码层输出的待识别公式图像中每一区域的图像特征编码；然后，将每一区域对应的图像特征编码以及上一解码时刻的解码状态输入至注意力权重确定层，得到注意力权重确定层输出的每一区域对应的图像特征编码的注意力权重，并将每一区域对应的图像特征编码及其注意力权重输入至融合编码层，得到融合编码层输出的当前解码时刻的图像上下文编码；进而，将当前解码时刻的解码状态和图像上下文编码，以及上一解码时刻的候选解码结果输入至解码层，得到解码层输出的当前解码时刻的候选解码结果。在最终解码时刻得到的解码层输出的候选解码结果，即为公式识别模型输出的多个候选识别结果。

得到公式识别模型输出的多个候选识别结果后，基于预先构建的结构类型词典，解析任一候选识别结果中的候选公式的结构信息，获取该候选公式中包含的每一子结构的类型。然后将任一候选识别结果中候选公式包含的每一子结构的类型输入至结构分析模型，得到结构分析模型输出的该候选识别结果对应的结构置信度。结构分析模型的内部运行流程包括：将任一候选识别结果中候选公式包含的任一子结构的上一子结构的类型以及上一时刻对应的隐藏状态输入至子结构预测层，得到子结构预测层输出的当前时刻对应的子结构预测结果；随即，将该子结构的类型以及子结构预测结果输入至置信度提取层，得到置信度提取层输出的该子结构的子结构置信度；然后，将每一子结构的子结构置信度输入至置信度融合层，得到置信度融合层输出的该候选识别结果对应的结构置信度。

基于结构分析模型得到每一候选识别结果对应的结构置信度之后，基于任一候选识别结果包含的公式识别置信度，以及该候选识别结果对应的结构置信度，确定该候选识别结果的融合置信度，从而基于每一候选识别结果的融合置信度，确定最终的公式识别结果。

基于上述任一实施例，图7为本发明实施例提供的公式识别装置的结构示意图，如图7所示，该装置包括图像确定单元710、候选识别结果确定单元720、结构置信度确定单元730和公式识别结果确定单元740。

其中，图像确定单元710用于确定待识别公式图像；

候选识别结果确定单元720用于将待识别公式图像输入至公式识别模型，得到公式识别模型输出的多个候选识别结果；

结构置信度确定单元730用于将任一候选识别结果中候选公式包含的每一子结构的类型输入至结构分析模型，得到结构分析模型输出的该候选识别结果对应的结构置信度；

公式识别结果确定单元740用于基于每一候选识别结果及其对应的结构置信度，确定待识别公式图像对应的公式识别结果；

其中，公式识别模型是基于样本公式图像及其对应的样本公式识别结果训练得到的；结构分析模型是基于样本公式包含的每一子结构的类型训练得到的。

本发明实施例提供的装置，基于公式识别模型输出的候选识别结果中候选公式包含的每一子结构的类型，利用结构分析模型分析候选识别结果中候选公式的结构合理性，得到候选识别结果对应的结构置信度，从而基于每一候选识别结果及其对应的结构置信度，确定公式识别结果，提高了公式识别的准确性。

基于上述任一实施例，结构置信度确定单元730具体包括：

子结构置信度确定单元，用于将任一候选识别结果中候选公式包含的任一子结构的类型，以及该子结构之前的子结构的类型输入至结构分析模型的子结构置信度确定层，得到子结构置信度确定层输出的该子结构的子结构置信度；

置信度融合单元，用于将每一子结构的子结构置信度输入至结构分析模型的置信度融合层，得到置信度融合层输出的该候选识别结果对应的结构置信度。

本发明实施例提供的装置，基于任一候选识别结果中候选公式包含的任一子结构之前的子结构的类型，确定该子结构的子结构置信度，并将每一子结构的子结构置信度融合，得到该候选识别结果对应的结构置信度，提高了公式结构分析的准确性。

基于上述任一实施例，子结构置信度确定单元具体包括：

隐藏状态计算单元，用于将该子结构的上一子结构的类型以及上一时刻对应的隐藏状态输入至子结构置信度确定层的隐藏状态计算层，得到隐藏状态计算层输出的当前时刻对应的隐藏状态；

子结构预测单元，用于将当前时刻对应的隐藏状态输入至子结构置信度确定层的子结构预测层，得到子结构预测层输出的当前时刻对应的子结构预测结果；

置信度提取单元，用于将该子结构的类型以及子结构预测结果输入至子结构置信度确定层的置信度提取层，得到置信度提取层输出的该子结构的子结构置信度。

本发明实施例提供的装置，基于任一子结构的上一子结构的类型以及上一时刻对应的隐藏状态进行预测，得到当前时刻对应的子结构预测结果，从而从中提取得到该子结构的子结构置信度，提高了子结构预测的准确性，以及子结构置信度的准确性。

基于上述任一实施例，候选识别结果确定单元720具体包括：

图像特征编码单元，用于将待识别公式图像输入至公式识别模型的图像特征编码层，得到图像特征编码层输出的待识别公式图像中每一区域的图像特征编码；

上下文编码单元，用于将每一区域的图像特征编码以及上一解码时刻的解码状态输入至公式识别模型的上下文编码层，得到上下文编码层输出的当前解码时刻的图像上下文编码；

解码单元，用于将当前解码时刻的解码状态和图像上下文编码，以及上一解码时刻的候选解码结果输入至公式识别模型的解码层，得到解码层输出的当前解码时刻的候选解码结果；

本发明实施例提供的装置，基于每一区域的图像特征编码以及上一解码时刻的解码状态，确定当前解码时刻的图像上下文编码，并基于当前解码时刻的解码状态和图像上下文编码，以及上一解码时刻的候选解码结果，确定当前解码时刻的候选解码结果，提高了解码的准确性，从而提高了公式识别的准确性。

基于上述任一实施例，上下文编码单元具体包括：

注意力权重确定单元，用于将每一区域对应的图像特征编码以及上一解码时刻的解码状态输入至上下文编码层的注意力权重确定层，得到注意力权重确定层输出的每一区域对应的图像特征编码的注意力权重；

融合编码单元，用于将每一区域对应的图像特征编码及其注意力权重输入至上下文编码层的融合编码层，得到融合编码层输出的当前解码时刻的图像上下文编码。

基于上述任一实施例，公式识别结果确定单元740具体用于：

基于任一候选识别结果包含的公式识别置信度，以及该候选识别结果对应的结构置信度，确定该候选识别结果的融合置信度；

基于每一候选识别结果的融合置信度，确定公式识别结果。

本发明实施例提供的装置，将任一候选识别结果包含的公式识别置信度，以及所述任一候选识别结果对应的结构置信度融合，得到该候选识别结果的融合置信度，并依据每一候选识别结果的融合置信度，确定公式识别结果，提高了公式识别的准确性。

基于上述任一实施例，该装置中，任一候选识别结果中候选公式包含的每一子结构的类型是基于结构类型词典以及候选公式确定得到的。

其中，该装置还包括结构类型词典构建单元，用于基于每一样本公式中包含的子结构类型，确定每一子结构类型出现的频次；基于预设的类型筛选条件以及每一子结构类型出现的频次，构建结构类型词典。

图8为本发明实施例提供的电子设备的结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑命令，以执行如下方法：确定待识别公式图像；将所述待识别公式图像输入至公式识别模型，得到所述公式识别模型输出的多个候选识别结果；将任一候选识别结果中候选公式包含的每一子结构的类型输入至结构分析模型，得到所述结构分析模型输出的所述任一候选识别结果对应的结构置信度；基于每一候选识别结果及其对应的结构置信度，确定所述待识别公式图像对应的公式识别结果；其中，所述公式识别模型是基于样本公式图像及其对应的样本公式识别结果训练得到的；所述结构分析模型是基于样本公式包含的每一子结构的类型训练得到的。

此外，上述的存储器830中的逻辑命令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定待识别公式图像；将所述待识别公式图像输入至公式识别模型，得到所述公式识别模型输出的多个候选识别结果；将任一候选识别结果中候选公式包含的每一子结构的类型输入至结构分析模型，得到所述结构分析模型输出的所述任一候选识别结果对应的结构置信度；基于每一候选识别结果及其对应的结构置信度，确定所述待识别公式图像对应的公式识别结果；其中，所述公式识别模型是基于样本公式图像及其对应的样本公式识别结果训练得到的；所述结构分析模型是基于样本公式包含的每一子结构的类型训练得到的。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干命令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种公式识别方法，其特征在于，包括：

确定待识别公式图像；

将任一候选识别结果中候选公式包含的每一子结构的类型输入至结构分析模型，得到所述结构分析模型输出的所述任一候选识别结果对应的结构置信度，所述候选公式包含的子结构是相互之间为水平关系的子表达式或者运算符，所述子结构的类型为所述子结构的结构类型，所述结构置信度表明所述候选识别结果中候选公式的结构的合理程度；

其中，所述公式识别模型是基于样本公式图像及其对应的样本公式识别结果训练得到的；所述结构分析模型是基于样本公式包含的每一子结构的类型训练得到的；

所述将任一候选识别结果中候选公式包含的每一子结构的类型输入至结构分析模型，得到所述结构分析模型输出的所述任一候选识别结果对应的结构置信度，具体包括：

将每一子结构的子结构置信度输入至所述结构分析模型的置信度融合层，得到所述置信度融合层输出的所述任一候选识别结果对应的结构置信度；

所述子结构置信度确定层用于基于任一子结构的上一子结构的类型以及上一时刻对应的隐藏状态进行预测，得到当前时刻对应的子结构预测结果，并从所述子结构预测结果中提取得到所述任一子结构的子结构置信度。

2.根据权利要求1所述的公式识别方法，其特征在于，所述将任一候选识别结果中候选公式包含的任一子结构的类型，以及所述任一子结构之前的子结构的类型输入至所述结构分析模型的子结构置信度确定层，得到所述子结构置信度确定层输出的所述任一子结构的子结构置信度，具体包括：

3.根据权利要求1所述的公式识别方法，其特征在于，所述将所述待识别公式图像输入至公式识别模型，得到所述公式识别模型输出的多个候选识别结果，具体包括：

所述多个候选识别结果为最终解码时刻的候选解码结果。

4.根据权利要求3所述的公式识别方法，其特征在于，所述将每一区域的图像特征编码以及上一解码时刻的解码状态输入至所述公式识别模型的上下文编码层，得到所述上下文编码层输出的当前解码时刻的图像上下文编码，具体包括：

5.根据权利要求1至4任一项所述的公式识别方法，其特征在于，所述基于每一候选识别结果及其对应的结构置信度，确定所述待识别公式图像对应的公式识别结果，具体包括：

6.根据权利要求1至4任一项所述的公式识别方法，其特征在于，任一候选识别结果中候选公式包含的每一子结构的类型是基于结构类型词典以及所述候选公式确定得到的；

所述结构类型词典的获取方法，具体包括：

7.一种公式识别装置，其特征在于，包括：

图像确定单元，用于确定待识别公式图像；

结构置信度确定单元，用于将任一候选识别结果中候选公式包含的每一子结构的类型输入至结构分析模型，得到所述结构分析模型输出的所述任一候选识别结果对应的结构置信度，所述候选公式包含的子结构是相互之间为水平关系的子表达式或者运算符，所述子结构的类型为所述子结构的结构类型，所述结构置信度表明所述候选识别结果中候选公式的结构的合理程度；

所述结构置信度确定单元具体用于：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6中任一项所述的公式识别方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6中任一项所述的公式识别方法的步骤。