CN109241861B

CN109241861B - 一种数学公式识别方法、装置、设备及存储介质

Info

Publication number: CN109241861B
Application number: CN201810921145.3A
Authority: CN
Inventors: 曾金舟; 何春江
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2022-02-25
Anticipated expiration: 2038-08-14
Also published as: CN109241861A

Abstract

本申请提供了一种数学公式识别方法、装置、设备及存储介质，方法包括：获取待识别图像；利用预设的公式判别规则和/或预先建立的公式判别模型，判别待识别图像是否为公式图像；若待识别图像为公式图像，利用预先建立的公式识别模型从待识别图像中识别出目标公式。本申请一方面能够判别出待识别图像是否为公式图像，从而能够避免后续对非公式图像进行识别所带来的计算资源浪费，另一方面，在对公式图像进行识别时，可利用公式识别模型直接对待识别图像进行整图识别，从而能够直接获得整幅图像的识别结果，即能够从待识别图像中直接识别出整个公式，识别效率较高，识别效果较好。

Description

一种数学公式识别方法、装置、设备及存储介质

技术领域

本申请涉及信息识别技术领域，尤其涉及一种数学公式识别方法、装置、设备及存储介质。

背景技术

随着科技的进步和互联网技术的飞速发展，信息产业也在迅速兴起，此间，扫描文档的识别任务也是雨后春笋，同时，文档识别的相关应用也遍及各行各业，对人们的生活方式和工作方式带来了不同程度的影响。影响最深的当属现代化的教育领域，社会发展给教育行业带来了巨大变革，教育方式由传统的纸笔教育进入信息化教育，然而，信息化教育中数学公式的识别一直以来都是一个亟待解决的问题。

发明内容

有鉴于此，本申请提供了一种数学公式识别方法、装置、设备及存储介质，用以实现对数学公式的识别，其技术方案如下：

一种数学公式识别方法，包括：

获取待识别图像；

利用预设的公式判别规则和/或预先建立的公式判别模型，判别所述待识别图像是否为公式图像；

若所述待识别图像为公式图像，利用预先建立的公式识别模型从所述待识别图像中识别出目标公式。

其中，利用预设的所述公式判别规则和预先建立的所述公式判别模型，判别所述待识别图像是否为公式图像，包括：

先利用所述公式判别规则判别所述待识别图像是否为公式图像；

若利用所述公式判别规则判别出所述待识别图像为公式图像，则将所述待识别图像作为候选公式图像，进一步利用所述公式判别模型判别所述待识别图像是否为公式图像。

其中，所述利用所述公式判别规则判别所述待识别图像是否为公式图像，包括：

基于公式图像的尺寸和/或公式的几何特征，判别所述待识别图像是否为公式图像。

其中，所述基于公式的几何特征判别所述待识别图像是否为公式图像，包括：

对所述待识别图像进行二值化处理，二值化处理后的图像作为第一目标二值化图像；

在所述第一目标二值化图像中寻找连通体；

基于连通体之间的距离和/或连通体的高度，和/或，连通体在所述第一目标二值化图像中所占的面积，和/或，代表直线的连通体的数量，确定所述待识别图像是否为公式图像。

其中，利用所述公式判别模型判别所述待识别图像是否为公式图像，包括：

确定所述待识别图像中字符的平均高度作为平均字符高度；

基于所述平均字符高度对所述待识别图像进行等比例缩放处理，将缩放处理后的图像作为所述公式判别模型的输入图像；

将所述输入图像调整成尺寸满足所述公式判别模型的输入要求的图像并输入所述公式判别模型，获得所述公式判别模型输出的指示待识别图像是否为公式图像的判别结果。

其中，所述确定所述待识别图像中字符的平均高度作为平均字符高度，包括：

从所述待识别图像中确定高度大于预设值的字符作为目标字符；

统计所述目标字符的数量，并计算所有目标字符的高度的和；

通过所述目标字符的数量和所述所有目标字符的高度的和，确定所述平均字符高度。

其中，所述从所述待识别图像中确定高度大于预设值的字符作为目标字符，包括：

对所述待识别图像进行分块二值化处理，分块二值化处理后的图像作为第二目标二值化图像；

从所述第二目标二值化图像中寻找连通体，将高度大于预设值的连通体所代表的字符确定为所述目标字符，所述目标字符的高度为代表所述目标字符的连通体的高度。

其中，所述利用所述公式判别模型判别所述待识别图像是否为公式图像，还包括：

按预设的图像划分规则将所述缩放处理后的图像划分成多幅子图像；

分别以每幅子图像为中心构造预设尺寸的图像，获得多幅目标子图像；

将所述多幅目标子图像和所述缩放处理后的图像均作为所述公式判别模型的输入图像。

其中，所述利用预先建立的公式识别模型从所述目标图像中识别出目标公式，包括：

获取对所述待识别图像进行预处理后得到的预处理图像，并将所述预处理图像输入所述公式识别模型，获得所述公式识别模型输出的公式识别结果；

基于预设的字符规整规则对所述公式识别结果中不满足展示要求的字符进行规整，规整后得到所述目标公式。

其中，所述将所述预处理图像输入所述公式识别模型，获得所述公式识别模型输出的公式识别结果，包括：

通过所述公式识别模型中的双通道特征提取网络，从所述预处理图像中提取特征，获得第一特征序列；

通过所述公式识别模型中的编码网络，将所述第一特征序列编码为具有上下文信息的特征序列，获得第二特征序列；

通过所述公式识别模型中的注意力网络，为所述第二特征序列中的各个特征赋予权重，获得第三特征序列，所述权重的大小与对应特征的重要程度有关；

通过所述公式识别模型中的解码网络，对所述第三特征序列进行解码，获得解码结果，所述解码结果为所述公式识别模型输出的公式识别结果。

一种数学公式识别装置，包括：获取模块、判别模块和识别模块；

所述获取模块，用于获取待识别图像；

所述判别模块，用于利用预设的公式判别规则和/或预先建立的公式判别模型，判别所述待识别图像是否为公式图像；

所述识别模块，用于当所述待识别图像为公式图像时，利用预先建立的公式识别模型从所述待识别图像中识别出目标公式。

其中，所述判别模块包括第一判别模块和第二判别模块；

所述第一判别模块，用于利用所述公式判别规则判别所述待识别图像是否为公式图像；

所述第二判别模块，用于在所述第一判别模块判别出所述待识别图像为公式图像时，将所述待识别图像作为候选公式图像，进一步利用所述公式判别模型判别所述候选公式图像是否为公式图像。

一种数学公式识别设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，所述程序具体用于：

获取待识别图像；

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现所述数学公式识别方法的各个步骤。

经由上述方案可知，本申请提供的数学公式识别方法、装置、设备及存储介质，首先获取待识别图像，然后利用预设的公式判别规则和/或预先建立的公式判别模型，判别待识别图像是否为公式图像，在待识别图像为公式图像时，利用预先建立的公式识别模型从待识别图像中识别出目标公式，由此可见，本申请提供的数学公式识别方法、装置、设备及存储介质，不但可以判别出待识别图像是否为公式图像，而且还能在判别出待识别图像为公式图像时，进一步利用公式识别模型从待识别图像中识别出目标公式，一方面，判别出待识别图像是否为公式图像，能够避免后续对非公式图像进行识别，从而能够避免浪费不必要的计算资源，另一方面，在对公式图像进行识别时，利用公式识别模型可直接对待识别图像进行整图识别，从而能够直接获得整幅图像的识别结果，即能够从待识别图像中直接识别出整个公式，识别效率较高，识别效果较好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的数学公式识别方法的流程示意图；

图2为本申请实施例提供的数学公式识别方法中，基于公式的几何特征判别待识别图像是否为公式图像的实现过程的流程示意图；

图3a～3c为本申请实施例提供的待识别图像为非公式图像的示例；

图4a～4c为本申请实施例提供的四方型公式、水平型公式和垂直型公式的示例；

图5为本申请实施例提供的数学公式识别方法中，利用公式判别模型判别待识别图像是否为公式图像的实现过程的流程示意图；

图6为本申请实施例提供的以子图像为中心构造预设尺寸的图像的一示例的示意图；

图7为本申请实施例提供的公式识别模型的拓扑结构的示意图；

图8为本申请实施例提供的数学公式识别方法中，将待识别图像的预处理图像输入公式识别模型，获得公式识别模型输出的公式识别结果的过程的流程示意图；

图9为本申请实施例提供的DenseNet+ResNet的双通道CNN网络提取特征的示意图；

图10本申请实施例提供的数学公式识别装置的结构示意图；

图11为本申请实施例提供的数学公式识别设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本申请中所提及的数学公式指的是广义的公式，其可以但不限为数学中的公式、物理公式、化学方程式等。本申请中的数学公式可以为印刷体公式，所谓印刷体公式指的是纸质上常见的原始印刷非手写体公式，例如学生课本，教辅资料上出现的公式，印刷体公式图像的来源很多，例如课本原始公式扫描，文档打印，手机拍照等等。以下对本申请提供的数学公式识别方法进行介绍。

请参阅图1，示出了本申请实施例提供的数学公式识别方法的流程示意图，该方法可以包括：

步骤S101：获取待识别图像。

其中，待识别图像可能为公式图像，也可能为非公式图像，公式图像指的是图像内容为公式的图像，非公式图像指的是图像内容为非公式的图像。

步骤S102：利用预设的公式判别规则和/或预先建立的公式判别模型判别待识别图像是否为公式图像。

其中，公式判别规则可基于公式本身的特征(如尺寸特征、几何特征等) 设定，公式判别模型以公式图像和非公式图像为训练样本，以训练样本是否为公式图像的标注结果为样本标签进行训练得到。

可以理解的是，由于待识别图像可能为公式图像，也可能为非公式图像，因此，若要对待识别图像进行公式识别，首先需要确定出待识别图像是否为公式图像，只有在确定出待识别图像为公式图像之后，才可对待识别图像进行公式识别，否则，后续的识别没有意义，还会浪费计算资源。

步骤S103：若待识别图像为公式图像，利用预先建立的公式识别模型从待识别图像中识别出目标公式。

其中，公式识别模型以公式图像为训练样本，以对训练样本中的公式进行标注的标注结果为样本标签进行训练得到。

本实施例利用公式识别模型直接对待识别图像进行整图识别，相应地，获得的识别结果也是整图的识别结果，即获得的是整个公式。

本申请实施例提供的数学公式识别方法，不但可以判别出待识别图像是否为公式图像，而且还能在判别出待识别图像为公式图像时，进一步利用预先建立的公式识别模型从待识别图像中识别出目标公式，一方面，判别出待识别图像是否为公式图像，能够避免后续对非公式图像进行识别，从而避免浪费不必要的计算资源，另一方面，在对公式图像进行识别时，利用公式识别模型直接对待识别图像进行整图识别，能够直接获得整幅图像的识别结果，即能够从待识别图像中直接识别出整个公式，识别效率较高，识别效果较好。

在本申请的另一实施例中，对上述实施例中的步骤S102：利用预设的公式判别规则和/或预先建立的公式判别模型判别待识别图像是否为公式图像进行介绍。

需要说明的是，在本实施例中，可只利用预设的公式判别规则判别待识别图像是否为公式图像，也可只利用预先建立的公式判别模型判别待识别图像是否为公式图像。考虑到基于公式判别规则的判别方式判别效率较高，但判别准确率相对较低(因为其只能将图像内容明显不是公式的图像判别为非公式图像，而图像内容与公式很像的非公式图像会被误判别为公式图像)，而基于公式判别模型的判别方式判别准确率较高，但判别效率相对较低，基于此，在一种优选的实现方式中，可先利用公式判别规则判别待识别图像是否为公式图像；若利用公式判别规则判别出待识别图像为公式图像，则将待识别图像作为候选公式图像，进一步利用公式判别模型判别待识别图像是否为公式图像。

即，先采用基于公式判别规则的判别方式对待识别图像进行粗判别，在判别出待识别图像为公式图像后，再进一步采用基于公式判别模型的判别方式对待识别图像进行精准判别。基于公式判别规则的判别方式能够将图像内容明显不是公式的图像快速判定为非公式图像，而被判定为公式图像的图像还需要进一步利用公式判别模型进行判别，以提高判别准确度。

以下先对基于公式判别规则的判别方式进行介绍。

在一种可能的实现方式中，利用公式判别规则判别待识别图像是否为公式图像，包括：基于公式图像的尺寸和/或公式的几何特征，判别待识别图像是否为公式图像。

在一种可能的实现方式中，基于公式图像的尺寸，判别待识别图像是否为公式图像的过程可以包括：基于预设的尺寸阈值判别待识别图像的尺寸是否满足公式图像的尺寸要求；若待识别图像的尺寸不满足公式图像的尺寸要求，判定待识别图像为非公式图像；若待识别图像的尺寸满足公式图像的尺寸要求，判定待识别图像为公式图像，或者判定待识别图像为候选公式图像，进一步基于公式的几何特征判别待识别图像是否为公式图像。需要说明的是，若待识别图像的尺寸不满足公式图像的尺寸要求，可直接判定待识别图像为非公式图像，不再执行后续的识别过程。

通常情况，待识别图像为矩形图像，其尺寸通过宽、高表征，公式的结构使得包含公式的图像通常符合一定的尺寸规则。在一种可能的实现方式中，可预先设定宽度阈值和高度阈值，若待识别图像的宽度大于预设的宽度阈值，或者，待识别图像的高度大于预设的高度阈值，则判定待识别图像的尺寸不满足公式图像的尺寸要求，若待识别图像的宽度小于或等于宽度阈值，并且，待识别图像的高度小于或等于高度阈值，则判定待识别图像的尺寸满足所述公式图像的尺寸要求。

示例性地，预设的高度阈值为250像素点，宽度阈值为450像素点，若待识别图像的高度大于250像素点，或者，待识别图像的宽度大于450像素点，则可判定待识别图像的尺寸不满足公式图像的尺寸要求，即可判定待识别图像为非公式图像，反之，若待识别图像的高度小于或等于250像素点，并且，宽度小于或等于450像素点，可判定待识别图像的尺寸满足公式图像的尺寸要求。

请参阅图2，示出了基于公式的几何特征判别待识别图像是否为公式图像的实现过程的流程示意图，可以包括：

步骤S201：对待识别图像进行二值化处理，二值化处理后的图像作为第一目标二值化图像。

步骤S202：在第一目标二值化图像中寻找连通体。

步骤S203：基于连通体之间的距离和/或连通体的高度，和/或，连通体在第一目标二值化图像中所占的面积，和/或，代表连通体的直线数量，判别待识别图像是否为公式图像。

如图3a所示的待识别图像，其为非公式图像，图3a中X与Y之间的距离大于待识别图像宽度的1/3，基于此，可通过连通体之间的距离与待识别图像宽度的比值对待识别图像进行判别，比如，可判别连通体之间的距离与待识别图像宽度的比值是否大于预设值(比如1/3)，若该比值大于预设值，可判定待识别图像为非公式图像。

可以理解的是，公式中的符号在图像中所占的面积通常不会很大，基于此，可基于连通体在整个图像中所占的面积对待识别图像进行判别，比如，可判别连通体的面积与待识别图像面积的比值是否大于预设值(如30％)，若该比值大于预设值，可判定待识别图像为非公式图像。如图3b所示的待识别图像，基于图3b示出的图像确定的连通体为整个图像，由于连通体的面积与待识别图像面积的比值为100％，因此，可判定待识别图像为非公式图像。

可以理解的是，公式中直线的数量通常不会很多，因此，可基于表征直线的连通体的数量对待识别图像进行判别，比如，可判别表征直线的连通体的数量是否大于预设值(如8)，若表征直线的连通体的数量大于预设值，则可判定待识别图像为非公式图像。如图3c所示，由于图3c中直线的数量大于8，即表征直线的连通体的数量大于8，因此，判定待识别图像为非公式图像。

以下对利用公式判别模型对待识别图像进行判别进行介绍。

若要利用公式判别模型对待识别图像进行判别，应预先构建公式判别模型，构建公式判别模型的过程可以包括：利用大量训练图像(包括公式图像和非公式图像)训练神经网络，训练得到的神经网络作为公式判别模型。本实施例中的公式判别模型可以但不限定为分类模型，如二分类模型(可对输入图像进行(公式图像、非公式图像)二分类)、三分类模型(可对输入图像进行(公式图像、非公式图像、疑似公式图像)三分类)或其它分类数量的分类模型；本实施例中的公式判别模型还可以为回归模型，比如，该回归模型可输出输入图像为公式图像的概率。

需要说明的是，为了增加训练数据的覆盖性以及训练数据的复杂性，可对原始训练图像进行某一种操作或多种操作组合，比如，如对原始训练图像进行旋转操作，或者，对原始训练图像同时进行旋转和拉伸操作，操作后的图像与原始训练图像一并作为训练数据训练神经网络。

为了提高分类准确率以及整个网络训练的速度，在一种可能的实现方式中，公式判别模型可以但不限定为基于LeNet结构的CNN网络。在一具体实例中，基于LeNet结构的CNN网络的结构可以包括三个卷积层和两个全连接层，假设网络的输入为32*32的图像，则三层卷积的卷积核大小和特征维数分别为：卷积层1：卷积核3x3，通道数32，特征图大小30x30；卷积层2：卷积核3x3，通道数64，特征图大小13x13；卷积层3：卷积核3x3，通道数128，特征图大小5x5；全连接层1：通道数500；全连接层2：通道数2。

考虑的各个训练图像中的字符大小不一，有的图像中的字符很大，而有的图像中的字符很小，如果字符很小可能会提取不到特征，并且，由于各个训练图像中的内容是不同的，因此，各个训练图像的尺寸是不同的，以公式图像为例，如图4所示，图4a的公式四方型的，图4b的公式为水平型的，图4c的公式图像为垂直型的，为了能够更好地进行训练以得到判别效果较好的公式判别模型，需要将训练图像进行归一化处理，可以理解的是，由于各个训练图像的尺寸不同，因此，无法将所有图像规整到固定尺寸，因为将所有训练图像规整到固定尺寸势必会导致某些图像中的内容变形，进而影响模型的训练。基于此，本实施例提供了一种图像规整方案，即确定训练图像中字符的平均高度作为平均字符高度，基于平均字符高度对训练图像进行缩放处理，缩放处理后的图像作为真正的训练数据训练神经网络以得到公式判别模型。需要说明的是，由于训练阶段需要基于训练图像对应的平均字符高度对训练图像进行缩放处理，因此，识别阶段也需要执行同样的操作，确定训练图像对应的平均字符高度，基于平均字符高度对训练图像进行缩放处理的具体过程可参见后续确定待识别图像对应的平均字符高度，基于平均字符高度对待识别图像进行等比例缩放处理的实现过程。

基于此，请参阅图5，示出了利用公式判别模型判别待识别图像是否为公式图像的实现过程的流程示意图，可以包括：

步骤S501：确定待识别图像中字符的平均高度作为平均字符高度。

在一种可能的实现方式中，确定待识别图像中字符的平均高度的过程可以包括：统计待识别图像中字符的数量N，并确定待识别图像中所有字符的高度的和H，基于待识别图像中所有字符的高度的和H，以及，待识别图像中字符的数量N，确定平均字符高度h，具体地，平均字符高度h＝H/N。

其中，统计待识别图像中字符的数量N，并确定待识别图像中所有字符的高度的和H的过程可以包括：对待识别图像进行二值化，获得二值化图像，从该二值化图像中寻找连通体，统计寻找到的连通体的数量，作为待识别图像中字符的数量，并确定所有连通体的高度的和，作为待识别图像中所有字符的高度的和。

考虑到待识别图像中可能有噪声，比如打印、扫描时可能引入噪声，噪声在图像中通常表现为一些小点，在计算平均高度时，这些噪声会被当成字符进行计算，这会导致计算出的平均字符高度与真实的平均字符高度不一致，甚至差异很大(比如噪声很多的时候)。

基于此，在另一种可能的实现方式中，可从待识别图像中确定高度大于预设值的字符作为目标字符，统计目标字符的数量N′，并计算所有目标字符的高度和H′，通过目标字符的数量N′和所有目标字符的高度的和H′，确定平均字符高度h′，具体地，平均字符高度h′＝H′/N′。由于噪声在待识别图像中通常表现为一些小点，因此，其高度通常较小，在该实现方式中，确定高度大于预设值的字符，相当于将噪声排除了出去，通过该方式计算出的平均高度与实际的平均高度一致或基本一致。另外，需要说明的是，若目标字符的数量N′＝0，则不再执行后续操作，在训练阶段时，若训练图像中目标字符的数量N′＝0，则直接跳过此图像。

进一步的，从待识别图像中确定高度大于预设值的字符作为目标字符，统计目标字符的数量，并计算所有目标字符的高度的和的过程可以包括：对待识别图像进行二值化处理，获得二值化图像，从该二值化图像中寻找连通体，将高度大于预设值的连通体所代表的字符确定为目标字符，统计高度大于预设值的连通体的数量作为目标字符的数量N′，并计算所有高度大于预设值的连通体的高度的和作为所有目标字符的高度的和H′。

需要说明的是，对待识别图像进行二值化处理的方式有多种，在一种可能的实现方式中，可对整幅待识别图像基于一设定阈值进行二值化，考虑到待识别图像的背景可能很复杂，比如，有些图片扫描时会出现背景很脏很模糊的情况，上述基于整图的二值化处理方式会受到背景的干扰，导致二值化效果不佳，在另一种可能的实现方式中，可采用分块二值化处理方式对待识别图像进行二值化处理，比如，可采用m*n(如40*40)尺寸的窗口进行分块的二值阈值计算，这使得对于待识别图像中的每个像素均可对应获得一个阈值，基于与各个像素对应的阈值将待识别图像二值化。

步骤S502：基于平均字符高度对待识别图像进行等比例缩放处理，将缩放处理后的图像作为公式判别模型的输入图像。

在确定出平均字符高度后，可基于平均字符高度确定图像缩放因子，在一种可能的实现方式中，图像缩放因子＝A/平均字符高度，其中，A为设定的一像素值，其为一定值，可基于实际应用情况设定，比如为40。

需要说明的是，对待识别图像基于平均字符高度进行等比例缩放处理后，待识别图像的宽高比不变。

步骤S503：将输入图像调整成尺寸满足公式判别模型的输入要求的图像并输入公式判别模型，获得公式判别模型输出的指示待识别图像是否为公式图像的判别结果。

可以理解的是，公式判别模型可能对于输入图像的尺寸有一定要求，比如基于LeNet结构的CNN网络的输入要求为32*32的图像，而缩放处理后的图像的尺寸可能不满足公式判别模型的输入要求，因此，需要将缩放处理后的图像的尺寸调整为满足公式判别模型的输入要求的尺寸。

考虑到公式会出现在连续的一片区域，而非公式可能覆盖的区域不规则，基于此，为了提高公式判别模型的判别准确率，上述利用所述公式判别模型判别待识别图像是否为公式图像的过程还可以包括：按预设的图像划分规则将缩放处理后的图像划分成多幅子图像；分别以每幅子图像为中心构造预设尺寸的图像，获得多个目标子图像；将缩放处理后的图像和多幅目标子图像均作为公式判别模型的输入图像。

在一种可能的实现方式中，按预设的图像划分规则将缩放处理后的图像划分成多幅子图像的过程可以包括：将缩放处理后的图像基于水平中线和垂直中线划分为四幅子图像。在获得四幅子图像后，分别以每幅子图像为中心构造预设尺寸(比如128*128)的图像，构造时可能存在两种情况，其一，子图像的尺寸小于预设尺寸，此时，可以子图像为中心向四周补白，从而构造出预设尺寸的图像，如图6所示，对箭头左侧的图基于水平中线和垂直中线划分后得到四幅子图像，箭头右侧的图为以左下角的子图像为中心向四周补白，构造出的预设尺寸的图像；其二，子图像的尺寸大于预设尺寸，此时，可对子图像进行宽高等比例缩放到预设尺寸。当然，若子图像的尺寸恰好是预设尺寸，则不进行任何处理。

在通过公式判别模型判别出待识别图像为公式图像后，便可利用预先构建的公式识别模型从目标图像中识别出目标公式，具体地，利用预先建立的公式识别模型从目标图像中识别出目标公式的过程可以包括：获取对待识别图像进行预处理后得到的预处理图像，并将预处理图像输入公式识别模型，获得公式识别模型输出的公式识别结果；基于预设的字符规整规则对公式识别结果中不满足展示要求的字符进行规整，规整后得到目标公式。需要说明的是，输入公式识别模型的预处理图像可以为上述对待识别图像进行缩放处理和尺寸调整后得到的图像。

请参阅图7，示出了公式识别模型的拓扑结构的示意图，可以包括：双通道特征提取网络701、编码网络702、注意力网络703和解码网络704，请参阅图8示出了将待识别图像的预处理图像输入公式识别模型，获得公式识别模型输出的公式识别结果的过程的流程示意图，可以包括：

步骤S801：通过公式识别模型中的双通道特征提取网络，从待识别图像的预处理图像中提取特征，获得第一特征序列。

在一种可能的实现方式中，为了增加网络深度并解决梯度消失的问题，双通道特征提取网络可以可采用稠密的卷积神经网络DenseNet+深度残差网络ResNet的双通道CNN网络，第一特征序列中的每个特征为从两个通道提取的特征合并后的特征。

具体地，采用ResNet作为整个网络的基础网络结构，同时考虑到低维特征和高维特征的有效并用，将DenseNet网络作为并行的网络，其将之前每一层卷积过后的特征直接连接起来作为下一个卷积的输入，如此循环下去。请参阅图9示出了采用DenseNet+ResNet的双通道CNN网络提取特征的示意图，先在两通道中提取出特征，经过之后的bottle neck形式的网络，首先经过1x1的卷积，接着3x3的卷积，最后经1x1卷积后输出特征，然后，将输出的特征按照设计好的维数在DenseNet进行特征维数的合并，在ResNet 通道上直接进行特征的相加，这样一来，ResNet维数保持不变，同时， DenseNet按照每个循环增加固定维数的特征，如此循环下去，最终在设计好的网络结构上结束，双路并行的网络提高了高维低维特征的使用率，并且增加了特征的丰富性，低维特征被有效利用起来，增加了网络的性能。另外， ResNet通道网络的运用保证了在网络深度增加的同时提高网络的可训练性，大大降低了梯度消失带来网络不收敛的负面效果。

步骤S802：通过公式识别模型中的编码网络，将第一特征序列编码为具有上下文信息的特征序列，获得第二特征序列。

在一种可能的实现方式中，编码网络可以为LSTM网络，考虑到公式图像可能很宽，相应的，解码时解码帧数会很多，在解码到最后部分的时候难免会出现前面信息丢失的情况，为了解决解码阶段会出现这种情形，采用双向LSTM编码策略。LSTM网络可在通过双通道特征提取网络提取的特征序列中融入上下文信息，从而更好地将前后特征结合起来，以便提高后续解码的准确度。

步骤S803：通过公式识别模型中的注意力网络，为第二特征序列中的各个特征赋予权重，获得第三特征序列。

其中，权重的大小与对应特征的重要程度有关，比如，为重要的特征赋予较大的权重以突出重要特征，为不重要的赋予较小的权重。为第二特征序列中的各个特征赋予权重使得在解码阶段能够更好地关注重要的信息，从而能够提高解码的准确度。

步骤S804：通过公式识别模型中的解码网络，对第三特征序列进行解码，获得解码结果，解码结果为公式识别模型输出的公式识别结果。

在获得公式识别结果后，基于预设的字符规整规则对公式识别结果中不满足展示要求的字符进行规整，规整后得到目标公式。其中，不满足展示要求的字符可以但不限定为无法在公式编辑平台展示的字符、不满足预设表示规则的符号。

为了使公式识别模型识别出的公式能够在Latex编辑平台展示，需要对训练公式图像进行Latex标注，即，将数学公式中的数学符号用Latex符号表示，然而用户在标注时可能会使用一些自定义的符号，由于公式识别模型是基于这些标注进行训练的，这使得公式识别模型输出的识别结果中也会存在用户自定义的符号，而这些用户自定义的符号无法在Latex编辑平台展示，因此，需要将其转换为Latex符号。

另外，在数学公式范围内，一些数学符号有着不同的Latex表示，比如几何中的垂直“⊥”，用Latex表示可以是“\bot”，也可以为“\perp”，因此，为了进行统一，可使一个数学符号只对应一种Latex符号，当公式识别模型输出的识别结果中出现了另一种Latex符号时，需要对其进行转换，比如，预设的表示规则为：“⊥”用“\bot”表示，假设模型输出的结果中出现“\perp”，则需要将“\perp”转换为“\bot”。

经过上述过程，可获得最终的识别结果，示例性地，待识别图像中的公式为

则经过上述本申请提供的数学公式识别方法识别出的Latex公式为：f^\prime(0)＝e^{0}\cdot\frac{1} {0-m}-e^{0}\cdotln^{(0-m)}，该公式可在任何标准的公式编辑器中使用。

本申请实施例提供的数学公式识别方法，一方面可基于公式判别规则和 /或公式判别模型判别出待识别图像是否为公式图像，进而能够避免后续对非公式图像进行识别，从而避免不必要的计算资源的浪费，另一方面，在对公式图像进行识别时，不需要对公式中的单个字符进行识别，也不需要对公式的复杂字型结构进行分析，而是直接利用公式识别模型对待识别图像进行整图识别，从而能够直接获得整幅图像的识别结果，即能够从待识别图像中直接识别出整个公式，识别效率较高，识别效果较好。

与上述数学公式识别方法相对应，本申请实施例还提供了一种数学公式识别装置，请参阅图10，示出了数学公式识别装置的结构示意图，该装置可以包括：获取模块1001、判别模块1002和识别模块1003。

获取模块1001，用于获取待识别图像。

判别模块1002，用于利用预设的公式判别规则和/或预先建立的公式判别模型，判别所述待识别图像是否为公式图像。

其中，所述公式判别规则基于公式本身的特征设定，所述公式判别模型以公式图像和非公式图像为训练样本，以所述训练样本是否为公式图像的标注结果为样本标签进行训练得到。

识别模块1003，用于当所述待识别图像为公式图像时，利用预先建立的公式识别模型从所述待识别图像中识别出目标公式。

其中，所述公式识别模型以公式图像为训练样本，以对所述训练样本中的公式进行标注的标注结果为样本标签进行训练得到。

本申请实施例提供的数学公式识别装置，首先获取待识别的待识别图像，然后利用预设的公式判别规则和/或预先建立的公式判别模型，判别待识别图像是否为公式图像，若待识别图像为公式图像，则利用预先建立的公式识别模型从待识别图像中识别出目标公式，由此可见，本申请实施例提供的数学公式识别装置，不但可以判别出待识别的待识别图像是否为公式图像，而且还能在判别出待识别图像为公式图像时，利用公式识别模型直接对整幅待识别图像进行识别，从而直接获得整幅图像的识别结果，即能够直接从待识别图像中识别出目标公式，识别效率较高，识别效果较好。

在一种可能的实现方式中，上述实施例提供的数学公式识别装置中，判别模块1002包括：第一判别模块和第二判别模块。

第一判别模块，用于先利用所述公式判别规则判别所述待识别图像是否为公式图像。

第二判别模块，用于当利用所述公式判别规则判别出所述待识别图像为公式图像时，将所述待识别图像作为候选公式图像，进一步利用所述公式判别模型判别所述待识别图像是否为公式图像。

在一种可能的实现方式中，第一判别模块，具体用于基于公式图像的尺寸和/或公式的几何特征，判别所述待识别图像是否为公式图像。

在一种可能的实现方式中，第一判别模块可以包括：尺寸判别子模块和几何特征判别子模块。

尺寸判别子模块，用于基于预设的尺寸阈值判别所述待识别图像的尺寸是否满足公式图像的尺寸要求，若所述待识别图像的尺寸不满足所述公式图像的尺寸要求，判定所述待识别图像为非公式图像。

进一步地，尺寸判别子模块，具体用于当所述待识别图像的宽度大于预设的宽度阈值，或者，所述待识别图像的高度大于预设的高度阈值时，判定所述待识别图像的尺寸不满足所述公式图像的尺寸要求；当所述待识别图像的宽度小于或等于所述宽度阈值，并且，所述待识别图像的高度小于或等于所述高度阈值时，判定所述待识别图像的尺寸满足公式图像的尺寸要求。

几何特征判别子模块，用于当尺寸判断子模块判定出待识别图像的尺寸满足所述公式图像的尺寸要求时，进一步基于公式的几何特征判别所述待识别图像是否为公式图像。

进一步地，几何特征判别子模块，具体用于对所述待识别图像进行二值化处理，二值化处理后的图像作为第一目标二值化图像；在所述第一目标二值化图像中寻找连通体；基于连通体之间的距离和/或连通体的高度，和/或，连通体在所述第一目标二值化图像中所占的面积，和/或，代表直线的连通体的数量，确定所述待识别图像是否为公式图像。

在一种可能的实现方式中，第二判别模块包括：平均字符高度确定子模块、缩放处理子模块、尺寸调整子模块和图像判别子模块。

平均字符高度确定子模块，用于确定所述待识别图像中字符的平均高度作为平均字符高度。

缩放处理子模块，用于基于所述平均字符高度对所述待识别图像进行等比例缩放处理，将缩放处理后的图像作为所述公式判别模型的输入图像；

尺寸调整子模块，用于将所述输入图像调整成尺寸满足所述公式判别模型的输入要求的图像。

图像判别子模块，用于将满足所述公式判别模型的输入要求的图像输入所述公式判别模型，获得所述公式判别模型输出的指示待识别图像是否为公式图像的判别结果。

进一步地，平均字符高度确定子模块，具体用于从所述待识别图像中确定高度大于预设值的字符作为目标字符；统计所述目标字符的数量，并计算所有目标字符的高度的和；通过所述目标字符的数量和所述所有目标字符的高度的和，确定所述平均字符高度。

更进一步地，平均字符高度确定子模块在从所述待识别图像中确定高度大于预设值的字符作为目标字符时，具体用于对所述待识别图像进行分块二值化处理，分块二值化处理后的图像作为第二目标二值化图像；从所述第二目标二值化图像中寻找连通体，将高度大于预设值的连通体所代表的字符确定为所述目标字符，所述目标字符的高度为代表所述目标字符的连通体的高度。

在一种可能的实现方式中，第二判别模块还可以包括：图像处理子模块。

图像处理子模块，用于按预设的图像划分规则将所述缩放处理后的图像划分成多幅子图像；分别以每幅子图像为中心构造预设尺寸的图像，获得多幅目标子图像；将所述多幅目标子图像和所述缩放处理后的图像均作为所述公式判别模型的输入图像。

在一种可能的实现方式中，上述实施例提供的数学公式识别装置中，识别模块1003可以包括：识别子模块和识别结果规整子模块。

识别子模块，用于获取对所述待识别图像进行预处理后得到的预处理图像，并将所述预处理图像输入所述公式识别模型，获得所述公式识别模型输出的公式识别结果。

识别结果规整子模块，用于基于预设的字符规整规则对所述公式识别结果中不满足展示要求的字符进行规整，规整后得到所述目标公式。

进一步地，识别子模块，具体用于通过所述公式识别模型中的双通道特征提取网络，从所述待识别图像中提取特征，获得第一特征序列；通过所述公式识别模型中的编码网络，将所述第一特征序列编码为具有上下文信息的特征序列，获得第二特征序列；通过所述公式识别模型中的注意力网络，为所述第二特征序列中的各个特征赋予权重，获得第三特征序列，所述权重的大小与对应特征的重要程度有关；通过所述公式识别模型中的解码网络，对所述第三特征序列进行解码，获得解码结果，所述解码结果为所述公式识别模型输出的公式识别结果。

本发明实施例还提供了一种数学公式识别设备，请参阅图11，示出了该数学公式识别设备的结构示意图，其可以包括：存储器1101和处理器1102。

存储器1101，用于存储程序；

处理器1102，用于执行所述程序，所述程序具体用于：

获取待识别图像；

数学公式识别设备还可以包括：总线、通信接口1103、输入设备1104 和输出设备1105。

处理器1102、存储器1101、通信接口1103、输入设备1104和输出设备 1105通过总线相互连接。其中：

总线可包括一通路，在计算机系统各个部件之间传送信息。

处理器1102可以是通用处理器，例如通用中央处理器(CPU)、微处理器等，也可以是特定应用集成电路(application-specific integrated circuit， ASIC)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器1102可包括主处理器，还可包括基带芯片、调制解调器等。

存储器1101中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器1101可以包括只读存储器(read-only memory， ROM)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，RAM)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备1104可包括接收用户输入的数据和信息的装置，例如摄像头、光笔、触摸屏等。

输出设备1105可包括允许输出信息给用户的装置，例如显示屏、扬声器等。

通信接口1103可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(RAN)，无线局域网(WLAN)等。

处理器1102执行存储器1101中所存放的程序，以及调用其他设备，可用于实现本发明实施例所提供的数学公式识别方法的各个步骤。

本发明实施例还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述实施例提供给的数学公式识别方法的各个步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和设备，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数学公式识别方法，其特征在于，包括：

获取待识别图像；

若所述待识别图像为公式图像，利用预先建立的公式识别模型从所述待识别图像中识别出目标公式；

其中，利用所述公式判别模型，判别所述待识别图像是否为公式图像，包括：

将所述待识别图像处理成多幅目标子图像；

将所述待识别图像的整幅图像信息和所述多幅目标子图像均作为公式判别模型的输入图像，输入所述公式判别模型，获得所述公式判别模型输出的、指示所述待识别图像是否为公式图像的判别结果，其中，所述公式判别模型根据输入的所述多幅目标子图像获知所述待识别图像中的内容在所述待识别图像中的分布情况，结合所述分布情况对所述待识别图像是否为公式图像做出判别。

2.根据权利要求1所述的数学公式识别方法，其特征在于，利用预设的所述公式判别规则和预先建立的所述公式判别模型，判别所述待识别图像是否为公式图像，包括：

3.根据权利要求1或2所述的数学公式识别方法，其特征在于，所述利用所述公式判别规则判别所述待识别图像是否为公式图像，包括：

4.根据权利要求3所述的数学公式识别方法，其特征在于，基于所述公式的几何特征判别所述待识别图像是否为公式图像，包括：

在所述第一目标二值化图像中寻找连通体；

5.根据权利要求1或2所述的数学公式识别方法，其特征在于，所述将所述待识别图像处理成多幅目标子图像，包括：

确定所述待识别图像中字符的平均高度作为平均字符高度；

基于所述平均字符高度对所述待识别图像进行等比例缩放处理，获得缩放处理后的图像；

分别以每幅子图像为中心构造预设尺寸的图像，获得多幅目标子图像。

6.根据权利要求5所述的数学公式识别方法，其特征在于，所述确定所述待识别图像中字符的平均高度作为平均字符高度，包括：

7.根据权利要求1所述的数学公式识别方法，其特征在于，所述利用预先建立的公式识别模型从所述待识别图像中识别出目标公式，包括：

8.根据权利要求7所述的数学公式识别方法，其特征在于，所述将所述预处理图像输入所述公式识别模型，获得所述公式识别模型输出的公式识别结果，包括：

9.一种数学公式识别装置，其特征在于，包括：获取模块、判别模块和识别模块；

所述获取模块，用于获取待识别图像；

所述识别模块，用于当所述待识别图像为公式图像时，利用预先建立的公式识别模型从所述待识别图像中识别出目标公式；

其中，所述判别模块在利用所述公式判别模型，判别所述待识别图像是否为公式图像时，具体用于将所述待识别图像处理成多幅目标子图像，将所述待识别图像的整幅图像信息和所述多幅目标子图像均作为公式判别模型的输入图像，输入所述公式判别模型，获得所述公式判别模型输出的、指示所述待识别图像是否为公式图像的判别结果，其中，所述公式判别模型根据输入的所述多幅目标子图像获知所述待识别图像中的内容在所述待识别图像中的分布情况，结合所述分布情况对所述待识别图像是否为公式图像做出判别。

10.根据权利要求9所述的数学公式识别装置，其特征在于，所述判别模块包括第一判别模块和第二判别模块；

11.一种数学公式识别设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，所述程序具体用于：

获取待识别图像；

将所述待识别图像处理成多幅目标子图像；

12.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至8中任一项所述的数学公式识别方法的各个步骤。