CN112241738A

CN112241738A - 一种数学公式字符识别方法、装置和电子设备

Info

Publication number: CN112241738A
Application number: CN202011500811.XA
Authority: CN
Inventors: 曹润东
Original assignee: Beijing Yiyi Education Technology Co ltd
Current assignee: Beijing Yiyi Education Technology Co ltd
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-01-19
Anticipated expiration: 2040-12-18
Also published as: CN112241738B

Abstract

本发明提供了一种数学公式字符识别方法、装置和电子设备，通过利用特殊字符编码规则训练过的CRNN，可以在识别作业图片的文本行图像中的字符的同时，还可以对作业图片中的根式、分式等公式以及循环小数进行有效识别，并在确定常规字符的数量小于字符数量阈值时，说明此时公式是文本行图像中的主要内容，那么继续将文本行图像输入到WAP中进行公式识别，得到公式LaTeX字符串，将CRNN擅长识别通用文字和WAP擅长识别数学公式的特点都发挥出来，大大提高了数学教学场景中对包括汉字、字母、公式及特殊字符混合的图像中的汉字、字母、公式及特殊字符的识别效果。

Description

一种数学公式字符识别方法、装置和电子设备

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种数学公式字符识别方法、装置和电子设备。

背景技术

目前，在数学教学场景中，数学公式可能存在各种复杂的汉字，字母，公式及特殊字符的混合形式，如何有效识别这些文字及公式的混合是实现该场景拍照批改的难点。

发明内容

为解决上述问题，本发明实施例的目的在于提供一种数学公式字符识别方法、装置和电子设备。

第一方面，本发明实施例提供了一种数学公式字符识别方法，包括：

获取待识别的作业图片，对所述作业图片进行文本行检测，得到所述作业图片中的文本框的坐标信息；

利用所述文本框的坐标信息，从所述作业图片中截取文本行图像；

将截取的文本行图像输入到训练后的通用文字识别模型（Convolutional RecurrentNeural Network，CRNN）中，对所述文本行图像中的字符进行识别，得到所述CRNN识别出的第一识别结果；其中，所述CRNN，是利用特殊字符编码规则训练过的；所述第一识别结果，包括：常规字符和/或者非常规字符；

当所述第一识别结果中的常规字符的数量小于字符数量阈值时，将所述文本行图像输入到公式识别模型WAP中，对所述文本行图像中的数学公式进行识别，得到所述WAP识别出的第二识别结果；其中，第二识别结果，包括公式LaTeX字符串，所述WAP中设置有复杂公式LaTeX字符串；

当所述第二识别结果中具有复杂公式LaTeX字符串时，将所述第二识别结果作为最终识别结果输出；

当所述第二识别结果中未具有复杂公式LaTeX字符串时，对所述第一识别结果和所述第二识别结果进行处理，得到最终识别结果并输出。

第二方面，本发明实施例还提供了一种数学公式字符识别装置，包括：

获取模块，用于获取待识别的作业图片，对所述作业图片进行文本行检测，得到所述作业图片中的文本框的坐标信息；

截取模块，用于利用所述文本框的坐标信息，从所述作业图片中截取文本行图像；

第一识别模块，用于将截取的文本行图像输入到训练后的通用文字识别模型CRNN中，对所述文本行图像中的字符进行识别，得到所述CRNN识别出的第一识别结果；其中，所述CRNN，是利用特殊字符编码规则训练过的；所述第一识别结果，包括：常规字符和/或者非常规字符；

第二识别模块，用于当所述第一识别结果中的常规字符的数量小于字符数量阈值时，将所述文本行图像输入到公式识别模型WAP中，对所述文本行图像中的数学公式进行识别，得到所述WAP识别出的第二识别结果；其中，第二识别结果，包括公式LaTeX字符串，所述WAP中设置有复杂公式LaTeX字符串；

第一输出模块，用于当所述第二识别结果中具有复杂公式LaTeX字符串时，将所述第二识别结果作为最终识别结果输出；

第二输出模块，用于当所述第二识别结果中未具有复杂公式LaTeX字符串时，对所述第一识别结果和所述第二识别结果进行处理，得到最终识别结果并输出。

第三方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。

第四方面，本发明实施例还提供了一种电子设备，所述电子设备包括有存储器，处理器以及一个或者一个以上的程序，其中所述一个或者一个以上程序存储于所述存储器中，且经配置以由所述处理器执行上述第一方面所述的方法的步骤。

本发明实施例上述第一方面至第四方面提供的方案中，通过利用特殊字符编码规则训练过的CRNN，可以在识别作业图片的文本行图像中的字符的同时，还可以对作业图片中的根式、分式等公式以及循环小数进行有效识别，并在确定常规字符的数量小于字符数量阈值时，说明此时公式是文本行图像中的主要内容，那么继续将文本行图像输入到WAP中进行公式识别，得到公式LaTeX字符串，与相关技术中无法很好的对包括汉字、字母、公式及特殊字符混合的图像进行识别的方式相比，将CRNN擅长识别通用文字和WAP擅长识别数学公式的特点都发挥出来，大大提高了数学教学场景中对包括汉字、字母、公式及特殊字符混合的图像中的汉字、字母、公式及特殊字符的识别效果。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例1所提供的一种数学公式字符识别方法的流程图；

图2示出了本发明实施例2所提供的一种数学公式字符识别装置的结构示意图；

图3示出了本发明实施例3所提供的一种电子设备的结构示意图。

具体实施方式

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

相关技术中，已有文字识别的方法，但对于数学教学场景中字母、公式、文字及特殊字符的混合形式的图像进行拍照识别批改并没有很有效的图像处理方法。

基于此，本申请以下各实施例提出一种数学公式字符识别方法、装置和电子设备，通过利用特殊字符编码规则训练过的CRNN，可以在识别作业图片的文本行图像中的字符的同时，还可以对作业图片中的根式、分式等公式进行有效识别，并在确定常规字符的数量小于字符数量阈值时，说明此时公式是文本行图像中的主要内容，那么继续将文本行图像输入到WAP中进行公式识别，得到公式LaTeX字符串，将CRNN擅长识别通用文字和WAP擅长识别数学公式的特点都发挥出来，大大提高了数学教学场景中对包括汉字、字母、公式及特殊字符混合的图像中的汉字、字母、公式及特殊字符的识别效果，从而能够使用一个统一的模型框架识别数学教学场景中的作业图片中包含的汉字、字母、公式及特殊字符。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请做进一步详细的说明。

实施例1

本实施例提出的一种数学公式字符识别方法的执行主体是服务器。

所述服务器，可以采用现有技术中任何能够进行图像处理的计算设备，这里不再一一赘述。

在执行以下步骤100至步骤110之前，需要先对CRNN和WAP进行训练，为了对CRNN进行训练，可以执行以下步骤（1）至步骤（3）：

（1）获取非常规汉字，并利用非常规汉字分别对根式、分式、以及循环小数中的字符进行编码，分别得到作为特殊字符编码规则的根式中的LaTeX字符与非常规汉字的对应关系、分式中的LaTeX字符与非常规汉字的对应关系、以及循环小数中的LaTeX字符与非常规汉字的对应关系；

（2）获取LaTeX常见符号对照表，其中，所述LaTeX常见符号对照表中记录有常见符号与字符串的对应关系；

（3）利用所述LaTeX常见符号对照表和所述特殊字符编码规则对CRNN进行训练，得到训练后的CRNN。

在上述步骤（1）中，所述非常规汉字，就是日常生活中不常使用的生僻字，缓存在服务器中设置的生僻字集合中。

利用非常规汉字分别对根式、分式、以及循环小数中的字符进行编码，分别得到作为特殊字符编码规则的根式中的LaTeX字符与非常规汉字的对应关系、分式中的LaTeX字符与非常规汉字的对应关系、以及循环小数中的LaTeX字符与非常规汉字的对应关系的具体编码过程是现有技术中，这里不再赘述。

所述特殊字符编码规则，存储在所述服务器中。

在一个实施方式中，根式中的LaTeX字符与非常规汉字的对应关系可以如下表示：

0-侹；1-侺；2-侻；3-侼；4-侽；5-侾；6-俀；7-俁；8-係；9-俆；+-俇；－-俈；×-俉；/-俋；(-俌；)-俍；a-俒；b-俓；c-俔；d-俕；m-俖；n-俙；s-俛；t-俠；x-俢；y-俤；z-俥

而且，每个根式的非常规汉字字符串以符号“√”开头；如：根式LaTeX是\\sqrt{26}，则替换为：√侻俀。

分式中的LaTeX字符与非常规汉字的对应关系的描述与上述根式中的LaTeX字符与非常规汉字的对应关系类似，这里不再赘述。

其中，分式的非常规汉字字符串以字符“俧”开头。

在一个实施方式中，循环小数中的LaTeX字符与非常规汉字的对应关系可以如下表示：

1-侫；2-侭；3-侰；4-侱；5-侲；6-侳；7-侴；8-侶；9-侷；0-侸

例如：循环小数LaTeX字符3.\\dot{6}，对应的非常规汉字字符串为3侳。

在上述步骤（2）中，LaTeX常见符号对照表缓存在所述服务器中，LaTeX常见符号对照表记载的具体内容是现有技术，这里不再赘述。

在上述步骤（3）中，利用所述LaTeX常见符号对照表和所述特殊字符编码规则对CRNN进行训练的具体过程是现有技术，这里不再赘述。

训练后的CRNN，可以识别数学公式的各类LaTeX符号，从而可以对文本行图像中的根式、分式等公式以及循环小数进行有效识别。

训练WAP的数据均为数学公式，并且，使用了复杂公式LaTeX字符串对WAP进行训练；使得训练得到的WAP在识别文本行图像中的复杂数学公式的识别效果更佳。具体的训练过程是现有技术，这里不再赘述。

其中，所述复杂公式LaTeX字符串，包括但不限于：复杂分式、复杂根式、分式根式混合公式和多行方程组。

在一个实施方式中，常规分式LaTeX字符串的形式为\\frac{1}{2}，而复杂分式LaTeX字符串形式为\\frac{\\frac{1}{2}}{3}；复杂根式为根式内套根式，常规根式LaTeX字符串形式为\\sqrt{1}，复杂根式LaTeX字符串形式为\\sqrt{1\\sqrt{2}}；分式根式混合为分式内套根式或者根式内套分式的LaTeX字符串形式为\\frac{1}{\\sqrt{2}}，或者\\sqrt{\\frac{1}{2}}；多行方程组的LaTeX字符串形式为\\left. \\begin{array} {l } { y = - x + 0 } \\\\ { y - 3 x + 2 } \\end{array} \\right.）。

在得到训练后的CRNN和训练后的WAP后，可以执行以下步骤100至步骤110的流程。

参见图1所示的一种数学公式字符识别方法的流程图，本申请各实施例提出的数学公式字符识别方法，具体包括以下步骤：

步骤 100、获取待识别的作业图片，对所述作业图片进行文本行检测，得到所述作业图片中的文本框的坐标信息。

在上述步骤100中，所述作业图片，就是汉字、字母、公式及特殊字符混合在一起的图像。

为了得到所述作业图片中的文本框的坐标信息，可以利用TextBoxes++模型对所述作业图片进行文本行检测；而利用TextBoxes++模型对所述作业图片进行文本行检测，得到所述作业图片中的文本框的坐标信息的过程是现有技术，这里不再赘述。

通常情况下，文本框是矩形的，所以，所述作业图片中的文本框的坐标信息，就是文本框的四个端点坐标。

步骤102、利用所述文本框的坐标信息，从所述作业图片中截取文本行图像。

这里，利用所述文本框的坐标信息，从所述作业图片中截取文本行图像的过程是现有技术，这里不再赘述。

步骤104、将截取的文本行图像输入到训练后的CRNN中，对所述文本行图像中的字符进行识别，得到所述CRNN识别出的第一识别结果；其中，所述CRNN，是利用特殊字符编码规则训练过的；所述第一识别结果，包括：常规字符和/或者非常规字符。

在上述步骤104中，所述常规字符，包括但不限于：英文字符、希腊字符、罗马字符、以及汉字中除上述非常规字符外的汉字。

所述常规字符，存储在服务器中预先存储的常规字符集合中。

将截取的文本行图像输入到训练后的CRNN中，对所述文本行图像中的字符进行识别，得到所述CRNN识别出的第一识别结果的具体过程是现有技术，这里不再赘述。

在得到第一识别结果后，可以继续执行步骤（1）至步骤（5）：

（1）获取常规字符集合；

（2）当所述第一识别结果中存在未在所述常规字符集合中遍历的字符时，从所述第一识别结果中获取未在所述常规字符集合中遍历过的字符；

（3）将未在所述常规字符集合中遍历的字符作为查询条件，在所述常规字符集合中遍历与所述查询条件相同的字符；

（4）当从所述常规字符集合中查询出作为查询条件的字符时，对常规字符的数量进行增量操作，更新所述常规字符的数量；

（5）当所述第一识别结果中所有字符均在常规字符集合中遍历过后，对比常规字符的数量与所述字符数量阈值的大小。

在上述步骤（1）中，所述常规字符集合，存储在所述服务器中。

在上述步骤（4）中，对常规字符的数量进行增量操作，就是对常规字符的数量进行加1操作，以此更新所述常规字符的数量。

在上述步骤（5）中，所述字符数量阈值，缓存在所述服务器中。

当通过对比常规字符的数量与所述字符数量阈值的大小，确定常规字符的数量与字符数量阈值之间的大小关系后，当所述第一识别结果中的常规字符的数量小于字符数量阈值时，说明文本行图像是以是数学公式为主的图像，那么可以继续执行以下步骤106。

步骤106、当所述第一识别结果中的常规字符的数量小于字符数量阈值时，将所述文本行图像输入到公式识别模型WAP中，对所述文本行图像中的数学公式进行识别，得到所述WAP识别出的第二识别结果。

其中，第二识别结果，包括公式LaTeX字符串。

所述WAP中设置有复杂公式LaTeX字符串，即所述WAP是经过复杂公式LaTeX字符串训练得到的。

将所述文本行图像输入到公式识别模型WAP中，对所述文本行图像中的数学公式进行识别，得到所述WAP识别出的第二识别结果的具体过程是现有技术，这里不再赘述。

在得到第二识别结果后，可以继续执行以下的步骤（1）至步骤（2），确定所述第二识别结果中是否具有复杂公式LaTeX字符串：

（1）获取复杂公式LaTeX字符串，将所述第二识别结果的公式LaTeX字符串与所述复杂公式LaTeX字符串进行比对，得到比对结果；

（2）当所述比对结果指示所述第二识别结果包括复杂分式、复杂根式、分式根式混合公式和/或者多行方程组时，确定所述第二识别结果中具有复杂公式LaTeX字符串。

在上述步骤（1）中，将所述第二识别结果的公式LaTeX字符串与所述复杂公式LaTeX字符串进行比对，是将所述第二识别结果的公式LaTeX字符串的形式与服务器中存储的所述复杂公式LaTeX字符串的形式进行对比，如果所述第二识别结果的公式LaTeX字符串的形式与任一复杂公式LaTeX字符串的形式相同时，就可以得到指示所述第二识别结果包括复杂分式、复杂根式、分式根式混合公式和/或者多行方程组的比对结果，然后继续执行步骤108。

如果所述第二识别结果的公式LaTeX字符串的形式与任何复杂公式LaTeX字符串的形式都不相同时，就可以得到所述第二识别结果中未具有复杂公式LaTeX字符串的比对结果，然后继续执行步骤110。

步骤108、当所述第二识别结果中具有复杂公式LaTeX字符串时，将所述第二识别结果作为最终识别结果输出。

步骤110、当所述第二识别结果中未具有复杂公式LaTeX字符串时，对所述第一识别结果和所述第二识别结果进行处理，得到最终识别结果并输出。

在上述步骤110中，所述第一识别结果，除了包括字符外，还包括：所述第一识别结果中各字符的候选字符的字符置信度；第二识别结果，除了包括字符外，还包括：第二识别结果中各字符的候选字符的字符置信度。

具体地，为了对所述第一识别结果和所述第二识别结果进行处理，得到最终识别结果并输出，上述步骤110可以执行以下步骤（1）至步骤（10）：

（1）将所述第一识别结果与所述第二识别结果进行对比，得到对比结果；

（2）当对比结果指示所述第一识别结果与所述第二识别结果相同时，输出作为最终识别结果的所述第一识别结果或者所述第二识别结果；

（3）当对比结果指示所述第一识别结果与所述第二识别结果不同时，在字符的显示方向上分别获取所述第一识别结果中的第n个字符的最大的字符置信度的候选字符以及所述第二识别结果中的第n个字符的最大的字符置信度的候选字符；

（4）当所述第一识别结果中的第n个字符的最大的字符置信度的候选字符与所述第二识别结果中的第n个字符的最大的字符置信度的候选字符相同时，将所述第一识别结果中的第n个字符的最大的置信度的候选字符或者所述第二识别结果中的第n个字符的最大的置信度的候选字符作为最终识别结果的第n个字符输出；

（5）当所述第一识别结果中的第n个字符的最大的字符置信度的候选字符与所述第二识别结果中的第n个字符的最大的字符置信度的候选字符不同时，将第一识别结果中的第n个字符的候选字符的最大的字符置信度以及所述第二识别结果中的第n个字符的候选字符的最大的字符置信度分别与置信度阈值对比大小；

（6）当第一识别结果中的第n个字符的候选字符的最大的字符置信度大于等于置信度阈值且第二识别结果中的第n个字符的候选字符的最大的字符置信度小于置信度阈值时，将第一识别结果中的第n个字符中最大的字符置信度对应的候选字符作为最终识别结果的第n个字符输出；

（7）当第二识别结果中的第n个字符的候选字符的最大的字符置信度大于等于置信度阈值且第一识别结果中的第n个字符的候选字符的最大的字符置信度小于置信度阈值时，将第二识别结果中的第n个字符中最大的字符置信度对应的候选字符作为最终识别结果的第n个字符输出；

（8）当第一识别结果中的第n个字符的候选字符的最大字符置信度与第二识别结果中的第n个字符的候选字符的最大的字符置信度均小于置信度阈值或者第一识别结果中的第n个字符的候选字符的最大字符置信度与第二识别结果中的第n个字符的候选字符的最大的字符置信度均大于等于置信度阈值时，分别获取第一识别结果中的第n个字符的前k个候选字符的字符置信度以及第二识别结果中的第n个字符的前k个候选字符的字符置信度；

（9）将第一识别结果中的第n个字符的前k个候选字符与第二识别结果中的第n个字符的前k个候选字符中相同候选字符的字符置信度分别相加，得到第n个字符的前k个候选字符中各候选字符的累加置信度；

（10）将第n个字符的前k个候选字符中累加置信度最大的候选字符作为最终识别结果的第n个字符输出。

在上述步骤（1）中，将所述第一识别结果与所述第二识别结果进行对比，就是将第一识别结果与第二识别结果中的常规字符、非常规字符对应的LaTeX字符、以及公式LaTeX字符进行逐一对比。

当所述第一识别结果中的第n个字符的最大字符置信度对应的候选字符与所述第二识别结果中的第n个字符的最大字符置信度对应的候选字符完全相同时，得到所述第一识别结果与所述第二识别结果相同的对比结果，否则得到所述第一识别结果与所述第二识别结果不同的对比结果。

在上述步骤（3）中，在字符的显示方向上所述第一识别结果中的第n个字符与所述第二识别结果中的第n个字符，是位于同一位置的字符。

在一个实施方式中，若所述第一识别结果中各字符的最大的文字置信度的候选字符是：“乘法公式3×5=15”；所述第二识别结果中各字符的最大的文字置信度的候选字符是：“乘去公式3×5=15”；那么，在字符的显示方向上，第一识别结果的第一个字符和第二识别结果的第一个字符就是“乘”；第一识别结果的第二个字符是“法”；第二识别结果的第二个字符是“去”。

在上述步骤（5）中，所述置信度阈值，缓存在所述服务器中。

在上述步骤（8）中，所述前k个候选字符，就是字符置信度较大的k个候选字符。

若所述第一识别结果中各字符的最大的文字置信度的候选字符是：“乘法公式3×5=15”且k=3，那么所述第一识别结果中的前k个候选字符是“乘法公”。

在上述步骤（9）至步骤（10）中，通过以下示例对得到第n个字符的前k个候选字符中各候选字符的累加置信度的过程进行描述：

第一识别结果的第n个字符字符置信度较大的3个候选字符为[e, l, c]，对应的字符置信度值为[0.82, 0.75, 0.69]；第二识别结果的第n个字符字符置信度较大的3个候选字符为[l, c, e]，对应的字符置信度值为[0.81, 0.73, 0.72]，则将第一识别结果和第一识别结果中相同的候选字符的字符置信度相加后第n个字符的字符置信度最高的候选字符为l，置信度值为0.75+0.81=1.56；所以最终识别结果的第n个字符是l。

以上，将当所述第一识别结果中的常规字符的数量小于字符数量阈值时的最终识别结果的输出过程进行了说明，然后通过以下步骤（1）至步骤（6）对当所述第一识别结果中的常规字符的数量大于等于字符数量阈值时的最终识别结果的输出过程进行描述：

（1）当所述第一识别结果中的常规字符的数量大于等于字符数量阈值时，获取所述第一识别结果的第一个字符；

（2）当所述第一个字符是“√”时，利用根式中的LaTeX字符与非常规汉字的对应关系，将所述第一识别结果中的非常规字符映射为对应的LaTeX字符；

（3）当所述第一个字符是“俧”时，利用分式中的LaTeX字符与非常规汉字的对应关系，将所述第一识别结果中的非常规字符映射为对应的LaTeX字符；

（4）将得到的LaTeX字符与所述第一识别结果中的常规字符形成最终识别结果，并输出所述最终识别结果；

（5）当所述第一识别结果中与数字字符相邻的字符是非常规字符时，利用循环小数中的LaTeX字符与非常规汉字的对应关系，将所述第一识别结果中的非常规字符映射为对应的LaTeX字符；

（6）将得到的LaTeX字符与所述第一识别结果中的常规字符形成最终识别结果，并输出所述最终识别结果。

在上述步骤（1）中，当所述第一识别结果中的常规字符的数量大于等于字符数量阈值时，说明文本行图像是以是字符为主的图像。

综上所述，本实施例提出的数学公式字符识别方法，通过利用特殊字符编码规则训练过的CRNN，可以在识别作业图片的文本行图像中的字符的同时，还可以对作业图片中的根式、分式等公式以及循环小数进行有效识别，并在确定常规字符的数量小于字符数量阈值时，说明此时公式是文本行图像中的主要内容，那么继续将文本行图像输入到WAP中进行公式识别，得到公式LaTeX字符串，与相关技术中无法很好的对包括汉字、字母、公式及特殊字符混合的图像进行识别的方式相比，将CRNN擅长识别通用文字和WAP擅长识别数学公式的特点都发挥出来，大大提高了数学教学场景中对包括汉字、字母、公式及特殊字符混合的图像中的汉字、字母、公式及特殊字符的识别效果。

实施例2

本实施例提出一种数学公式字符识别装置，用于执行上述实施例1提出的数学公式字符识别方法。

参见图2所示的一种数学公式字符识别装置，包括：

获取模块200，用于获取待识别的作业图片，对所述作业图片进行文本行检测，得到所述作业图片中的文本框的坐标信息。

截取模块202，用于利用所述文本框的坐标信息，从所述作业图片中截取文本行图像。

第一识别模块204，用于将截取的文本行图像输入到训练后的通用文字识别模型CRNN中，对所述文本行图像中的字符进行识别，得到所述CRNN识别出的第一识别结果；其中，所述CRNN，是利用特殊字符编码规则训练过的；所述第一识别结果，包括：常规字符和/或者非常规字符。

第二识别模块206，用于当所述第一识别结果中的常规字符的数量小于字符数量阈值时，将所述文本行图像输入到公式识别模型WAP中，对所述文本行图像中的数学公式进行识别，得到所述WAP识别出的第二识别结果；其中，第二识别结果，包括公式LaTeX字符串，所述WAP中设置有复杂公式LaTeX字符串。

第一输出模块208，用于当所述第二识别结果中具有复杂公式LaTeX字符串时，将所述第二识别结果作为最终识别结果输出。

第二输出模块210，用于当所述第二识别结果中未具有复杂公式LaTeX字符串时，对所述第一识别结果和所述第二识别结果进行处理，得到最终识别结果并输出。

综上所述，本实施例提出的数学公式字符识别装置，通过利用特殊字符编码规则训练过的CRNN，可以在识别作业图片的文本行图像中的字符的同时，还可以对作业图片中的根式、分式等公式以及循环小数进行有效识别，并在确定常规字符的数量小于字符数量阈值时，说明此时公式是文本行图像中的主要内容，那么继续将文本行图像输入到WAP中进行公式识别，得到公式LaTeX字符串，与相关技术中无法很好的对包括汉字、字母、公式及特殊字符混合的图像进行识别的方式相比，将CRNN擅长识别通用文字和WAP擅长识别数学公式的特点都发挥出来，大大提高了数学教学场景中对包括汉字、字母、公式及特殊字符混合的图像中的汉字、字母、公式及特殊字符的识别效果。

实施例3

本实施例提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述实施例1描述的数学公式字符识别方法的步骤。具体实现可参见方法实施例1，在此不再赘述。

此外，参见图3所示的一种电子设备的结构示意图，本实施例还提出一种电子设备，上述电子设备包括总线51、处理器52、收发机53、总线接口54、存储器55和用户接口56。上述电子设备包括有存储器55。

本实施例中，上述电子设备还包括：存储在存储器55上并可在处理器52上运行的一个或者一个以上的程序，经配置以由上述处理器执行上述一个或者一个以上程序用于进行以下步骤（1）至步骤（6）：

（1）获取待识别的作业图片，对所述作业图片进行文本行检测，得到所述作业图片中的文本框的坐标信息；

（2）利用所述文本框的坐标信息，从所述作业图片中截取文本行图像；

（3）将截取的文本行图像输入到训练后的通用文字识别模型CRNN中，对所述文本行图像中的字符进行识别，得到所述CRNN识别出的第一识别结果；其中，所述CRNN，是利用特殊字符编码规则训练过的；所述第一识别结果，包括：常规字符和/或者非常规字符；

（4）当所述第一识别结果中的常规字符的数量小于字符数量阈值时，将所述文本行图像输入到公式识别模型WAP中，对所述文本行图像中的数学公式进行识别，得到所述WAP识别出的第二识别结果；其中，第二识别结果，包括公式LaTeX字符串，所述WAP中设置有复杂公式LaTeX字符串；

（5）当所述第二识别结果中具有复杂公式LaTeX字符串时，将所述第二识别结果作为最终识别结果输出；

（6）当所述第二识别结果中未具有复杂公式LaTeX字符串时，对所述第一识别结果和所述第二识别结果进行处理，得到最终识别结果并输出。

收发机53，用于在处理器52的控制下接收和发送数据。

其中，总线架构（用总线51来代表），总线51可以包括任意数量的互联的总线和桥，总线51将包括由处理器52代表的一个或多个处理器和存储器55代表的存储器的各种电路链接在一起。总线51还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本实施例不再对其进行进一步描述。总线接口54在总线51和收发机53之间提供接口。收发机53可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发机53从其他设备接收外部数据。收发机53用于将处理器52处理后的数据发送给其他设备。取决于计算系统的性质，还可以提供用户接口56，例如小键盘、显示器、扬声器、麦克风、操纵杆。

处理器52负责管理总线51和通常的处理，如前述上述运行通用操作系统。而存储器55可以被用于存储处理器52在执行操作时所使用的数据。

可选的，处理器52可以是但不限于：中央处理器、单片机、微处理器或者可编程逻辑器件。

可以理解，本发明实施例中的存储器55可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器 (Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器 (Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本实施例描述的系统和方法的存储器55旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器55存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作系统551和应用程序552。

其中，操作系统551，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序552，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序552中。

综上所述，本实施例提出的电子设备和计算机可读存储介质，通过利用特殊字符编码规则训练过的CRNN，可以在识别作业图片的文本行图像中的字符的同时，还可以对作业图片中的根式、分式等公式以及循环小数进行有效识别，并在确定常规字符的数量小于字符数量阈值时，说明此时公式是文本行图像中的主要内容，那么继续将文本行图像输入到WAP中进行公式识别，得到公式LaTeX字符串，与相关技术中无法很好的对包括汉字、字母、公式及特殊字符混合的图像进行识别的方式相比，将CRNN擅长识别通用文字和WAP擅长识别数学公式的特点都发挥出来，大大提高了数学教学场景中对包括汉字、字母、公式及特殊字符混合的图像中的汉字、字母、公式及特殊字符的识别效果。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数学公式字符识别方法，其特征在于，包括：

将截取的文本行图像输入到训练后的通用文字识别模型CRNN中，对所述文本行图像中的字符进行识别，得到所述CRNN识别出的第一识别结果；其中，所述CRNN，是利用特殊字符编码规则训练过的；所述第一识别结果，包括：常规字符和/或者非常规字符；

2.根据权利要求1所述的方法，其特征在于，还包括：

获取非常规汉字，并利用非常规汉字分别对根式、分式、以及循环小数中的字符进行编码，分别得到作为特殊字符编码规则的根式中的LaTeX字符与非常规汉字的对应关系、分式中的LaTeX字符与非常规汉字的对应关系、以及循环小数中的LaTeX字符与非常规汉字的对应关系；

获取LaTeX常见符号对照表，其中，所述LaTeX常见符号对照表中记录有常见符号与字符串的对应关系；

利用所述LaTeX常见符号对照表和所述特殊字符编码规则对CRNN进行训练，得到训练后的CRNN。

3.根据权利要求1所述的方法，其特征在于，还包括：

获取常规字符集合；

当所述第一识别结果中存在未在所述常规字符集合中遍历的字符时，从所述第一识别结果中获取未在所述常规字符集合中遍历过的字符；

将未在所述常规字符集合中遍历的字符作为查询条件，在所述常规字符集合中遍历与所述查询条件相同的字符；

当从所述常规字符集合中查询出作为查询条件的字符时，对常规字符的数量进行增量操作，更新所述常规字符的数量；

当所述第一识别结果中所有字符均在常规字符集合中遍历过后，对比常规字符的数量与所述字符数量阈值的大小。

4.根据权利要求2所述的方法，其特征在于，还包括：

当所述第一识别结果中的常规字符的数量大于等于字符数量阈值时，获取所述第一识别结果的第一个字符；

当所述第一个字符是“√”时，利用根式中的LaTeX字符与非常规汉字的对应关系，将所述第一识别结果中的非常规字符映射为对应的LaTeX字符；

当所述第一个字符是“俧”时，利用分式中的LaTeX字符与非常规汉字的对应关系，将所述第一识别结果中的非常规字符映射为对应的LaTeX字符；

将得到的LaTeX字符与所述第一识别结果中的常规字符形成最终识别结果，并输出所述最终识别结果；

当所述第一识别结果中与数字字符相邻的字符是非常规字符时，利用循环小数中的LaTeX字符与非常规汉字的对应关系，将所述第一识别结果中的非常规字符映射为对应的LaTeX字符；

将得到的LaTeX字符与所述第一识别结果中的常规字符形成最终识别结果，并输出所述最终识别结果。

5.根据权利要求1所述的方法，其特征在于，在所述将所述文本行图像输入到公式识别模型WAP中，对所述文本行图像中的数学公式进行识别，得到所述WAP识别出的第二识别结果步骤之后，还包括：

获取复杂公式LaTeX字符串，将所述第二识别结果的公式LaTeX字符串与所述复杂公式LaTeX字符串进行比对，得到比对结果；其中，所述复杂公式LaTeX字符串，包括：复杂分式、复杂根式、分式根式混合公式和多行方程组；

当所述比对结果指示所述第二识别结果包括复杂分式、复杂根式、分式根式混合公式和/或者多行方程组时，确定所述第二识别结果中具有复杂公式LaTeX字符串。

6.根据权利要求1所述的方法，其特征在于，所述第一识别结果，还包括：所述第一识别结果中各字符的候选字符的字符置信度；第二识别结果，还包括：第二识别结果中各字符的候选字符的字符置信度；

当所述第二识别结果中未具有复杂公式LaTeX字符串时，对所述第一识别结果和所述第二识别结果进行处理，得到最终识别结果并输出，包括：

将所述第一识别结果与所述第二识别结果进行对比，得到对比结果；

当对比结果指示所述第一识别结果与所述第二识别结果相同时，输出作为最终识别结果的所述第一识别结果或者所述第二识别结果；

当对比结果指示所述第一识别结果与所述第二识别结果不同时，在字符的显示方向上分别获取所述第一识别结果中的第n个字符的最大的字符置信度的候选字符以及所述第二识别结果中的第n个字符的最大的字符置信度的候选字符；

当所述第一识别结果中的第n个字符的最大的字符置信度的候选字符与所述第二识别结果中的第n个字符的最大的字符置信度的候选字符相同时，将所述第一识别结果中的第n个字符的最大的置信度的候选字符或者所述第二识别结果中的第n个字符的最大的置信度的候选字符作为最终识别结果的第n个字符输出；

当所述第一识别结果中的第n个字符的最大的字符置信度的候选字符与所述第二识别结果中的第n个字符的最大的字符置信度的候选字符不同时，将第一识别结果中的第n个字符的候选字符的最大的字符置信度以及所述第二识别结果中的第n个字符的候选字符的最大的字符置信度分别与置信度阈值对比大小；

当第一识别结果中的第n个字符的候选字符的最大的字符置信度大于等于置信度阈值且第二识别结果中的第n个字符的候选字符的最大的字符置信度小于置信度阈值时，将第一识别结果中的第n个字符中最大的字符置信度对应的候选字符作为最终识别结果的第n个字符输出；

当第二识别结果中的第n个字符的候选字符的最大的字符置信度大于等于置信度阈值且第一识别结果中的第n个字符的候选字符的最大的字符置信度小于置信度阈值时，将第二识别结果中的第n个字符中最大的字符置信度对应的候选字符作为最终识别结果的第n个字符输出。

7.根据权利要求6所述的方法，其特征在于，当所述第二识别结果中未具有复杂公式LaTeX字符串时，对所述第一识别结果和所述第二识别结果进行处理，得到最终识别结果并输出，还包括：

当第一识别结果中的第n个字符的候选字符的最大字符置信度与第二识别结果中的第n个字符的候选字符的最大的字符置信度均小于置信度阈值或者第一识别结果中的第n个字符的候选字符的最大字符置信度与第二识别结果中的第n个字符的候选字符的最大的字符置信度均大于等于置信度阈值时，分别获取第一识别结果中的第n个字符的前k个候选字符的字符置信度以及第二识别结果中的第n个字符的前k个候选字符的字符置信度；

将第一识别结果中的第n个字符的前k个候选字符与第二识别结果中的第n个字符的前k个候选字符中相同候选字符的字符置信度分别相加，得到第n个字符的前k个候选字符中各候选字符的累加置信度；

将第n个字符的前k个候选字符中累加置信度最大的候选字符作为最终识别结果的第n个字符输出。

8.一种数学公式字符识别装置，其特征在于，包括：

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1-7任一项所述的方法的步骤。

10.一种电子设备，其特征在于，所述电子设备包括有存储器，处理器以及一个或者一个以上的程序，其中所述一个或者一个以上程序存储于所述存储器中，且经配置以由所述处理器执行权利要求1-7任一项所述的方法的步骤。