CN108898142B

CN108898142B - 一种手写公式的识别方法及计算设备

Info

Publication number: CN108898142B
Application number: CN201810622746.4A
Authority: CN
Inventors: 刘辉; 郭龙; 刘宁; 徐行; 张东祥; 陈李江
Original assignee: Ningbo Yunjiang Internet Technology Co ltd
Current assignee: Hainan Avanti Technology Co ltd
Priority date: 2018-06-15
Filing date: 2018-06-15
Publication date: 2022-03-18
Anticipated expiration: 2038-06-15
Also published as: CN108898142A

Abstract

本发明公开了一种手写公式的识别方法及计算设备，计算设备中存储有预先训练好的手写字符识别模型，该方法包括：获取待识别图像，并检测出待识别图像中的各连通域；对检测出的每一个连通域，找出该连通域中最长的横线，判断该最长的横线是否为有效横线；若该连通域中最长的横线为有效横线，则根据该有效横线确定该连通域对应的分式结构图像；将该连通域对应的分式结构图像输入到手写字符识别模型中进行识别，以提取出该分式结构图像所包含的内容；根据预设的判断规则，确定该分式结构图像所包含的内容是否为手写分式。

Description

一种手写公式的识别方法及计算设备

技术领域

本发明涉及图像处理技术领域，特别涉及一种手写公式的识别方法及计算设备。

背景技术

随着计算机和互联网技术的发展，人们越来越多的使用自动化设备对学生考试试卷进行阅卷。在试卷分析时，经常需要对手写字体进行识别，特别是对于如数学、物理等理工科目来说，手写字体中还存在有大量的手写公式，而手写公式比较随意，文字之间连笔、断笔的情况很多，文字与文字之间互相粘连，文字的大小、上下左右的对齐都不规律，公式的结构包括上下、左右及嵌套等，非常复杂。

目前，对于写公式进行识别的方式主要有两种：第一种是基于传统的公式切割后再识别，这种方式主要是对公式结构进行图像处理以及规则检测，再进行字符切割和识别，对于长公式结构检测很准确，但对连笔和字符粘连情况，很难切割识别，另外基于规则的公式检测，因为手写公式的随意性，规则并不总是有效，对于短公式结构会产生一些误检和漏检；第二种是基于端到端的手写字符识别深度学习方法，这种方法对于连笔、字符粘连以及基本的从左到右书写的字符，识别准确度都很高，但对于复杂公式来说，例如长分式结构，具有分子、分母的上下结构，分子和分母结构也比较复杂，或分式里面再嵌入分式这种复杂数学公式，识别效果很差。因此，需要提供一种新的手写公式的识别方法来优化上述处理过程。

发明内容

为此，本发明提供一种手写公式的识别方案，以力图解决或者至少缓解上面存在的问题。

根据本发明的一个方面，提供一种手写公式的识别方法，适于在计算设备中执行，该计算设备中存储有预先训练好的手写字符识别模型，该方法包括如下步骤：首先，获取待识别图像，并检测出待识别图像中的各连通域；对检测出的每一个连通域，找出该连通域中最长的横线，判断该最长的横线是否为有效横线；若该连通域中最长的横线为有效横线，则根据该有效横线确定该连通域对应的分式结构图像；将该连通域对应的分式结构图像输入到手写字符识别模型中进行识别，以提取出该分式结构图像所包含的内容；根据预设的判断规则，确定该分式结构图像所包含的内容是否为手写分式。

可选地，在根据本发明的手写公式的识别方法中，设某连通域所在位置的图像宽度为M、高度为N，则找出该连通域中最长的横线的步骤包括：将连通域中的每个点标记为一个二维节点a_i,j，i＝1,2…,M，j＝1,2…,N；根据该连通域所在位置的图像建立横向有向图，其中若点a_i,j为背景色节点，则其没有任何边，若其非背景色节点，则分别将其到点a_i+1,j-1、点a_i+1,j和点a_i+1,j+1之间作为该横向有向图中的一条边；以及采用预定算法找出到达点a_M,j的最长路径，该最长路径所在线条即为该连通域中最长的横线。

可选地，在根据本发明的手写公式的识别方法中，到达点a_M,j的最长路径P(a_M,j)＝Max(P(a_M-1,j-1)+w(a_M-1,j-1，a_M,j)，P(a_M-1,j+1)+w(a_M-1,j+1，a_M,j)，P(a_M-1,j)+w(a_M-1,j，a_M,j))，Max表示取最大值，w(a_x，a_y)表示有向边<a_x，a_y>的权值。

可选地，在根据本发明的手写公式的识别方法中，预定算法为Dijkstra算法。

可选地，在根据本发明的手写公式的识别方法中，判断该最长的横线是否为有效横线的步骤包括：获取该连通域的宽度；判断该最长的横线与该连通域的宽度的比值是否大于第一预定比例；若大于，则该最长的横线为有效横线。

可选地，在根据本发明的手写公式的识别方法中，第一预定比例为0.8。

可选地，在根据本发明的手写公式的识别方法中，根据该有效横线确定该连通域对应的分式结构图像的步骤包括：以该有效横线为左右界，将该有效横线上部的图像区域作为分子图像，下部的图像区域作为分母图像，将该分子图像、有效横线和分母图像组合形成相应的分式结构图像。

可选地，在根据本发明的手写公式的识别方法中，还包括：分别检测该分子图像和该分母图像是否具有分式结构；若该分子图像或该分母图像具有分式结构，则确定该分式结构图像具有分式嵌套结构；若该分子图像具有分式结构，则将该分子图像作为新的待识别图像进行手写公式的识别；若该分母图像具有分式结构，则将该分母图像作为新的待识别图像进行手写公式的识别。

可选地，在根据本发明的手写公式的识别方法中，预设的判断规则为长分式规则、分式结构规则和字符个数规则中任一种。

可选地，在根据本发明的手写公式的识别方法中，当预设的判断规则为长分式规则时，根据预设的判断规则，确定该分式结构图像所包含的内容是否为手写分式的步骤包括：判断该分式结构图像的宽度与有效字符连通域的平均高度的比值是否大于第二预定比例；若大于，则确定该分式结构图像所包含的内容为手写分式。

可选地，在根据本发明的手写公式的识别方法中，第二预定比例为2.5。

可选地，在根据本发明的手写公式的识别方法中，有效字符连通域为宽度和高度大于预定尺寸且宽高比在预定比例范围内的连通域。

可选地，在根据本发明的手写公式的识别方法中，预定尺寸为10，预定比例范围为0.35～3。

可选地，在根据本发明的手写公式的识别方法中，当预设的判断规则为分式结构规则时，根据预设的判断规则，确定该分式结构图像所包含的内容是否为手写分式的步骤包括：判断该分式结构图像所包含的内容是否含有预定字符；若是，则确定该分式结构图像所包含的内容为手写分式。

可选地，在根据本发明的手写公式的识别方法中，预定字符为\f。

可选地，在根据本发明的手写公式的识别方法中，当预设的判断规则为字符个数规则时，根据预设的判断规则，确定该分式结构图像所包含的内容是否为手写分式的步骤包括：将该分式结构图像对应的分子图像和分母图像分别输入到手写字符识别模型中进行识别，以提取出该分子图像和分母图像所包含的内容；根据该分式结构图像、分子图像和分母图像所包含的内容，确定该分式结构图像、分子图像和分母图像含有的数学字符个数；若该分子图像和分母图像含有的数字字符个数之和大于该分式结构图像含有的数学字符个数，则确定该分式结构图像所包含的内容为手写分式。

可选地，在根据本发明的手写公式的识别方法中，还包括：若确定该分式结构图像所包含的内容为手写分式，则将该分式结构图像对应的分子图像和分母图像分别输入到手写字符识别模型中进行识别，以提取出该分子图像和分母图像所包含的内容；根据该分子图像和分母图像所包含的内容，确定该分式结构图像对应的分式。

可选地，在根据本发明的手写公式的识别方法中，在检测出待识别图像中的各连通域的步骤之前，还包括：对待识别图像进行二值化处理。

可选地，在根据本发明的手写公式的识别方法中，在检测出待识别图像中的各连通域的步骤之后，还包括：对待识别图像进行旋转矫正的操作，旋转矫正操作适于根据各连通域之间的相对位置关系来确定旋转角度。

可选地，在根据本发明的手写公式的识别方法中，还包括预先构建手写字符识别模型，预先构建手写字符识别模型的步骤包括：建立编码模型，编码模型为密集连接神经网络；建立解码模型，解码模型为以注意力模型进行输出调整的门控循环神经网络；将编码模型和解码模型组合生成手写字符识别模型。

可选地，在根据本发明的手写公式的识别方法中，密集连接神经网络包括1个常规卷积层、2个过渡层、3个池化层以及4个密集卷积块。

可选地，在根据本发明的手写公式的识别方法中，池化层为最大池化层或平均池化层。

可选地，在根据本发明的手写公式的识别方法中，密集卷积块中卷积层的卷积核为1×1卷积核或3×3卷积核。

根据本发明的又一个方面，提供一种计算设备，包括一个或多个处理器、存储器以及一个或多个程序，其中一个或多个程序存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序包括用于执行根据本发明的手写公式的识别方法的指令。

根据本发明的又一个方面，提供一种存储一个或多个程序的计算机可读存储介质，一个或多个程序包括指令，指令当由计算设备执行时，使得计算设备执行根据本发明的手写公式的识别方法。

根据本发明的手写公式的识别方案，对待识别图像中的每一个连通域，找出该连通域中最长的横线，判断该最长的横线是否为有效横线，若是，则根据该有效横线确定该连通域对应的分式结构图像，将该分式结构图像输入到手写字符识别模型中进行识别，以提取出该分式结构图像所包含的内容，根据预设的判断规则，确定该分式结构图像所包含的内容是否为手写分式。在上述方案中，基于连通域检测方式，先将复杂公式分割成简单行序列字符，即得出分式结构图像、分子图像、分母图像等，保证了长公式结构检测的准确性，再利用端到端的手写字符识别模型来识别上述简单行序列字符，能够实现练笔和字符粘连情况下字符的切割识别，避免了短公式结构的漏检和误检，具有较高的识别精度。此外，手写字符识别模型由以密集连接神经网络形成的编码模型和以通过注意力模型进行输出调整的门控循环神经网络形成的解码模型组合生成，其中密集连接神经网络加强了字符特征的传递，且网络参数的数量较少，注意力模型在产生输出的时候，还会产生一个“注意力范围”表示接下来输出的时候要重点关注输入序列中的哪些部分，能够充分利用输入序列携带的信息，而门控循环神经网络可以很好处理远距离依赖且结构更加简单，三者结合起来所构建出的手写字符识别模型在确保识别准确率的同时，更精简化网络架构，加快训练收敛的速度，便于部署到小型设备，提高了模型的可用性。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了根据本发明的一个实施例的计算设备100的示意图；

图2示出了根据本发明的一个实施例的手写公式的识别方法200的流程图；

图3A示出了根据本发明的一个实施例的待识别图像；

图3B示出了根据本发明的一个实施例的待识别图像二值化后对应的图像；

图4示出了根据本发明的一个实施例的待识别图像二值化后对应图像中包含的部分连通域；以及

图5示出了根据本发明的一个实施例的密集连接神经网络的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

图1是示例计算设备100的框图。在基本的配置102中，计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。

取决于期望的配置，处理器104可以是任何类型的处理，包括但不限于：微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用，或者在一些实现中，存储器控制器118可以是处理器104的一个内部部分。

取决于期望的配置，系统存储器106可以是任意类型的存储器，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个程序122以及程序数据124。在一些实施方式中，程序122可以布置为在操作系统上由一个或多个处理器104利用程序数据124执行指令。

计算设备100还可以包括有助于从各种接口设备(例如，输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156，它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如，键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160，其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。

网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块，并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号，它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例，通信介质可以包括诸如有线网络或者专线网络之类的有线介质，以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。

计算设备100可以实现为服务器，例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等，也可以实现为小尺寸便携(或者移动)电子设备的一部分，这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中，计算设备100被配置为执行根据本发明的手写公式的识别方法200。其中，计算设备100的一个或多个程序122包括用于执行根据本发明的手写公式的识别方法200的指令。

图2示出了根据本发明一个实施例的手写公式的识别方法200的流程图。手写公式的识别方法200适于在计算设备(例如图1所示的计算设备100)中执行。计算设备200中存储有预先训练好的手写字符识别模型，关于手写字符识别模型的具体结构，将在后续进行说明，此处暂且不表。

方法200始于步骤S210，首先，获取待识别图像，并检测出所述待识别图像中的各连通域。根据本发明的一个实施例，可以通过扫描仪获取高清的待识别图像，也可以通过手机或照相机拍照获取待识别图像。而且，待识别图像的获取没有严格的环境要求(如光照、角度和纸张纹理等)，只需自然光照下正常拍摄普通纸张即可。图3A示出了根据本发明的一个实施例的待识别图像。如图3A所示，待识别图像中包括了文字符号“解”、“：”、“设”以及公式

在该实施方式中，连通域是指由8连通点形成的连通区域，这里可以采用现有任意的连通域识别方法，如标记法，本发明对此不作限制。通常，可以直接调用图像处理库中的现有连通域检测函数进行检测识别。

根据本发明的又一个实施例，在检测出待识别图像中的各连通域之前，还可以先对该待识别图像进行二值化处理。其中，二值化方法可以采用现有任意方法，如可以采用Sauvola算法，当然不限于此。图3B示出了根据本发明的一个实施例的待识别图像二值化后对应的图像。如图3B所示，其中的文字符号以及公式均为白色字体，而背景色为黑色。基于此，对该待识别图像二值化处理后得到的图像进行连通域检测，图4示出了根据本发明的一个实施例的待识别图像二值化后对应图像中包含的部分连通域。

根据本发明的又一个实施例，在检测出待识别图像中的各连通域之后，还可以对该待识别图像进行旋转矫正的操作，该旋转矫正操作可以根据各连通域之间的相对位置关系来确定旋转角度。对于倾斜矫正，通常负45度到正45度之间的角度并不影响识别结果，因此无需矫正，实际可只矫正图像旋转90度、180度和270度的情况。倾斜矫正主要利用待识别图像中各连通域之间的相对位置关系，以及字符所处位置与水平方向或垂直方向之间的夹角关系来确定图像是否发生了旋转，并进行相应的矫正处理。

随后，进入步骤S220，对检测出的每一个连通域，找出该连通域中最长的横线，判断该最长的横线是否为有效横线。根据本发明的一个实施例，设某连通域所在位置的图像宽度为M、高度为N，则可通过如下方式找出该连通域中最长的横线。首先，将连通域中的每个点标记为一个二维节点a_i,j，i＝1,2…,M，j＝1,2…,N，根据该连通域所在位置的图像建立横向有向图，其中若点a_i,j为背景色节点，则其没有任何边，若其非背景色节点，则分别将其到点a_i+1,j-1、点a_i+1,j和点a_i+1,j+1之间作为该横向有向图中的一条边，采用预定算法找出到达点a_M,j的最长路径，该最长路径所在线条即为该连通域中最长的横线。其中，若待识别图像或其所转换的二值图像的背景色为白色，待识别图像中字符、线条或边框为黑色，则背景色节点即为白色点，非背景色节点即为黑色点；反之亦然。

换言之，在该实施方式中，将连通域所在位置的图像看成为M×N的二维节点a_i,j(i＝1,2…,M,j＝1,2…,N)。对于背景色节点a_i,j，最多有三条边跟其他三个背景色节点连接，分别是a_i+1,j-1、a_i+1,j和a_i+1,j+1，三条边的权值分别是w、1和w，其中w<1；而非背景色节点没有任何边。因此建立了一个有向图，可以应用寻找最长路径的预定算法找到到达a_M,j的最长路径，如果到达a_M,j无有效路径，则取它前一层到达a_M-1,j，若a_M-1,j无有效路径，则继续取它前一层a_M-2,j，直至有有效路径(j＝1,2…,N)。之后，找出其路径长度L_j(j＝1,2,…N)的波峰，以这些长度波峰所属的路径，即为其找出的横直线。关于路径长度的波峰，虽然用手机或照相机拍摄出来的待识别图像中的直线通常是非理想的直线，但仍然可以模拟二维图像水平投影的方式，将二维图像水平投影替换成最大长度路径的长度，再找出这些路径长度的波峰，即为找到的所有直线。

根据本发明的一个实施例，预定算法可以是Dijkstra算法，但不限于此。在该实施方式中，所构建的有向图的顶点和边比较简单，因此可以利用Dijkstra算法的思想来找出最长路径。对于目标点a_M,j，其最多有三个顶点与之连接，即点a_M-1,j、点a_M-1,j-1和点a_M-1,j+1，因此到达点a_M,j的最长路径P(a_M,j)＝Max(P(a_M-1,j-1)+w(a_M-1,j-1，a_M,j)，P(a_M-1,j+1)+w(a_M-1,j+1，a_M,j)，P(a_M-1,j)+w(a_M-1,j，a_M,j))，其中Max表示取最大值，w(a_x，a_y)表示有向边<a_x，a_y>的权值。这里用a_x和a_y的方式代表某有向边的两个节点，本领域技术人员应当理解其实际是指点a_M-1,j-1和a_M,j对，a_M-1,j+1和a_M,j点对、以及a_M-1,j和a_M,j点对。另外，P(a_M-1,j-1)代表到点a_M-1,j-1的最长路径，P(a_M-1,j+1)代表到点a_M-1,j+1的最长路径，之后以此类推。

在找到该连通域中最长的横线后，可通过如下方式来判断该最长的横线是否为有效横线。具体的，先获取该连通域的宽度，判断该最长的横线与该连通域的宽度的比值是否大于第一预定比例，若大于，则该最长的横线为有效横线。其中，第一预定比例为0.8。

若该连通域中最长的横线为有效横线，则执行步骤S230，根据该有效横线确定该连通域对应的分式结构图像。根据本发明的一个实施例，可通过如下方式确定该连通域对应的分式结构图像。首先，以该有效横线为左右界，将该有效横线上部的图像区域作为分子图像，下部的图像区域作为分母图像，然后，将该分子图像、有效横线和分母图像组合形成相应的分式结构图像。

接下来，在步骤S240中，将该连通域对应的分式结构图像输入到手写字符识别模型中进行识别，以提取出该分式结构图像所包含的内容。在上述字符识别完成后，进入步骤S250，根据预设的判断规则，确定该分式结构图像所包含的内容是否为手写分式。根据本发明的一个实施例，预设的判断规则为长分式规则、分式结构规则和字符个数规则中任一种。

当预设的判断规则为长分式规则时，可通过如下方式根据预设的判断规则，确定该分式结构图像所包含的内容是否为手写分式。首先，判断该分式结构图像的宽度与有效字符连通域的平均高度的比值是否大于第二预定比例，若大于，则确定该分式结构图像所包含的内容为手写分式。其中，第二预定比例为2.5。在该实施方式中，有效字符连通域为宽度和高度大于预定尺寸且宽高比在预定比例范围内的连通域，具体而言，预定尺寸为10，预定比例范围为0.35～3。

当预设的判断规则为分式结构规则时，可通过如下方式根据预设的判断规则，确定该分式结构图像所包含的内容是否为手写分式。首先，判断该分式结构图像所包含的内容是否含有预定字符，若是，则确定该分式结构图像所包含的内容为手写分式。其中，预定字符为\f。

当预设的判断规则为字符个数规则时，可通过如下方式根据预设的判断规则，确定该分式结构图像所包含的内容是否为手写分式。首先，将该分式结构图像对应的分子图像和分母图像分别输入到手写字符识别模型中进行识别，以提取出该分子图像和分母图像所包含的内容，再根据该分式结构图像、分子图像和分母图像所包含的内容，确定该分式结构图像、分子图像和分母图像含有的数学字符个数，若该分子图像和分母图像含有的数字字符个数之和大于该分式结构图像含有的数学字符个数，则确定该分式结构图像所包含的内容为手写分式。

在步骤S250中，若确定该分式结构图像所包含的内容为手写分式，则可将该分式结构图像对应的分子图像和分母图像分别输入到手写字符识别模型中进行识别，以提取出该分子图像和分母图像所包含的内容，再根据该分子图像和分母图像所包含的内容，确定该分式结构图像对应的分式。此时，通常以\f{R_Fn}{R_Fd}的形式来表征公式，其中，\f表示该分式结构图像所包含的内容为公式，R_Fn和R_Fd分别表示该分式结构图像对应的分式中的分子和分母。

在该实施方式中，以图4中的连通域“y+z”为例，该连通域中可检测出“y+z”下的横线为其最长的横线，且该最长的横线为有效横线，则以该有效横线为左右界，将该有效横线上部的图像区域“y+z”作为分子图像，下部的图像区域“x”作为分母图像，将该分子图像、有效横线和分母图像组合形成相应的分式结构图像，即

将该分式结构图像

输入到上述手写字符识别模型中进行识别，以提取出该分式结构图像所包含的内容。由于该分式结构图像所包含的内容含有预定字符\f，则基于分式结构规则可确定该分式结构图像所包含的内容为手写分式。在确定该分式结构图像所包含的内容为手写分式后，将该分式结构图像对应的分子图像“y+z”和分母图像“x”分别输入到手写字符识别模型中进行识别，以提取出该分子图像和分母图像所包含的内容，根据该分子图像和分母图像所包含的内容，确定该分式结构图像对应的分式为\f{y+z}{x}，其中，\f表明该分式结构图像具有分式结构，y+z为分子，x为分母。

此外，考虑步骤S230中得出的分子图像和分母图像可能也具备分式结构，为了进一步识别，根据本发明的又一个实施例，分别检测该分子图像和该分母图像是否具有分式结构，若该分子图像或该分母图像具有分式结构，则确定该分式结构图像具有分式嵌套结构，若该分子图像具有分式结构，则将该分子图像作为新的待识别图像进行手写公式的识别，即对该分子图像重新执行步骤S210～250，若该分母图像具有分式结构，则将该分母图像作为新的待识别图像进行手写公式的识别，即对该分母图像重新执行步骤S210～250。

对于上述手写字符识别模型而言，是需要预先进行构建的，根据本发明的一个实施例，可通过如下方式来预先构建手写字符识别模型。首先，建立编码模型，编码模型为密集连接神经网络(Densely Connected Convolutional Networks，DenseNet)，再建立解码模型，解码模型为以注意力(Attention)模型进行输出调整的门控循环神经网络(GatedRecurrent Neural Network)，该门控循环神经网络即是GRU(Gated Recurrent Unit，门控循环单元)模型为主体形成的神经网络，较LSTM网络(Long Short Memory Network，长短时记忆网络)而言结构上更简化，最后将编码模型和解码模型组合生成手写字符识别模型。其中，池化层为最大池化层或平均池化层。密集连接神经网络包括1个常规卷积层(Convolution Layer)、2个过渡层(Transition Layer)、3个池化层(Pooling Layer)以及4个密集卷积块(Dense Block)，密集卷积块中卷积层的卷积核为1×1卷积核或3×3卷积核。

图5示出了根据本发明的一个实施例的密集连接神经网络的结构示意图，如图5所示，在密集连接神经网络中，是以常规卷积层A1为输入端，后面依次相连最大池化层B1、密集卷积块C1、过渡层D1、平均池化层B2、密集卷积层C2、过渡层D2、平均池化层B3和密集池化块C3，且过渡层D2还连接有密集池化块C4，其中密集池化块C3和密集池化块C4为输出端。具体的，常规卷积层A1包括7×7卷积核，步长为2，输出为48张特征图，密集卷积块C1～C4均具有Bottleneck Layer的结构，即每个密集卷积块的3×3卷积前面都包含了一个1×1的卷积操作，密集卷积块C1、C2和C3中均包含有32个1×1和3×3的卷积核，输出均为24张特征图，密集卷积块C4中包含有16个1×1和3×3的卷积核，输出为16张特征图，且密集卷积块C3和密集卷积块C4的输出分别为门控循环神经网络的输入。此外，过渡层D1和D2的缩小参数(范围是0～1)设置为0.5，表示将其输出的特征图数量缩小到原来的0.5倍。

关于手写字符识别模型中，密集连接神经网络和门控循环神经网络之间的连接规则、密集连接神经网络中各处理单元的连接方式和参数设置、门控循环神经网络的具体结构及参数，以及手写字符识别模型的训练过程，可根据实际应用场景、网络训练要求、系统配置和性能要求等进行适当调整，并参考现有技术中涉及DenseNet、Attention模型和GRU构建并训练的内容，这些对于了解本发明方案的技术人员来说是可以容易想到的，并且也在本发明的保护范围之内，此处不予以赘述。

现有的手写公式识别方法通常分为两类，一类是基于传统的公式切割后再识别，对长公式结构检测很准确，但对连笔和字符粘连情况，很难切割识别，短公式结构检测时易出现误检和漏检，另一类则是基于端到端的手写字符识别深度学习方法，对于连笔、字符粘连以及基本的从左到右书写的字符，识别准确度都很高，但复杂公式的识别效果很差。根据本发明实施例的手写公式的识别方案，对待识别图像中的每一个连通域，找出该连通域中最长的横线，判断该最长的横线是否为有效横线，若是，则根据该有效横线确定该连通域对应的分式结构图像，将该分式结构图像输入到手写字符识别模型中进行识别，以提取出该分式结构图像所包含的内容，根据预设的判断规则，确定该分式结构图像所包含的内容是否为手写分式。在上述方案中，基于连通域检测方式，先将复杂公式分割成简单行序列字符，即得出分式结构图像、分子图像、分母图像等，保证了长公式结构检测的准确性，再利用端到端的手写字符识别模型来识别上述简单行序列字符，能够实现练笔和字符粘连情况下字符的切割识别，避免了短公式结构的漏检和误检，具有较高的识别精度。此外，手写字符识别模型由以密集连接神经网络形成的编码模型和以通过注意力模型进行输出调整的门控循环神经网络形成的解码模型组合生成，其中密集连接神经网络加强了字符特征的传递，且网络参数的数量较少，注意力模型在产生输出的时候，还会产生一个“注意力范围”表示接下来输出的时候要重点关注输入序列中的哪些部分，能够充分利用输入序列携带的信息，而门控循环神经网络可以很好处理远距离依赖且结构更加简单，三者结合起来所构建出的手写字符识别模型在确保识别准确率的同时，更精简化网络架构，加快训练收敛的速度，便于部署到小型设备，提高了模型的可用性。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组间可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组间组合成一个模块或单元或组间，以及此外可以把它们分成多个子模块或子单元或子组间。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的手写公式的识别方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的公开是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种手写公式的识别方法，适于在计算设备中执行，所述计算设备中存储有预先训练好的手写字符识别模型，所述方法包括：

获取待识别图像，并检测出所述待识别图像中的各连通域；

对检测出的每一个连通域，找出该连通域中最长的横线，判断该最长的横线是否为有效横线；

若该连通域中最长的横线为有效横线，则根据该有效横线确定该连通域对应的分式结构图像，包括：以该有效横线为左右界，将该有效横线上部的图像区域作为分子图像，下部的图像区域作为分母图像，将该分子图像、有效横线和分母图像组合形成相应的分式结构图像；

将该连通域对应的分式结构图像输入到所述手写字符识别模型中进行识别，以提取出该分式结构图像所包含的内容；

根据预设的判断规则，确定该分式结构图像所包含的内容是否为手写分式，所述预设的判断规则为长分式规则、分式结构规则和字符个数规则中任一种；

其中，当预设的判断规则为长分式规则时，所述根据预设的判断规则，确定该分式结构图像所包含的内容是否为手写分式的步骤包括：

判断该分式结构图像的宽度与有效字符连通域的平均高度的比值是否大于第二预定比例；

若大于，则确定该分式结构图像所包含的内容为手写分式；

其中，当预设的判断规则为分式结构规则时，所述根据预设的判断规则，确定该分式结构图像所包含的内容是否为手写分式的步骤包括：

判断该分式结构图像所包含的内容是否含有预定字符；

若是，则确定该分式结构图像所包含的内容为手写分式；

其中，当预设的判断规则为字符个数规则时，所述根据预设的判断规则，确定该分式结构图像所包含的内容是否为手写分式的步骤包括：

将该分式结构图像对应的分子图像和分母图像分别输入到所述手写字符识别模型中进行识别，以提取出该分子图像和分母图像所包含的内容；

根据该分式结构图像、分子图像和分母图像所包含的内容，确定该分式结构图像、分子图像和分母图像含有的数学字符个数；

若该分子图像和分母图像含有的数字字符个数之和大于该分式结构图像含有的数学字符个数，则确定该分式结构图像所包含的内容为手写分式。

2.如权利要求1所述的方法，其中，设某连通域所在位置的图像宽度为M、高度为N，则找出该连通域中最长的横线的步骤包括：

将连通域中的每个点标记为一个二维节点a_i,j，i=1,2…,M，j=1,2…,N；

根据该连通域所在位置的图像建立横向有向图，其中若点a_i,j为背景色节点，则其没有任何边，若其非背景色节点，则分别将其到点a_i+1,_j-1、点a_i+1,j和点a_i+1,j+1之间作为该横向有向图中的一条边；以及

采用预定算法找出到达点a_M,j的最长路径，该最长路径所在线条即为该连通域中最长的横线。

3.如权利要求2所述的方法，其中，到达点a_M,j的最长路径P(a_M,j)=Max (P(a_M-1,j-1)+w(a_M-1,j-1，a_M,j)，P(a_M-1,j+1)+w(a_M-1,j+1，a_M,j)，P(a_M-1,j)+w(a_M-1,j，a_M,j))，Max表示取最大值，w(a_x，a_y)表示有向边<a_x，a_y>的权值。

4.如权利要求2或3所述的方法，其中，所述预定算法为Dijkstra算法。

5.如权利要求1-3中任一项所述的方法，所述判断该最长的横线是否为有效横线的步骤包括：

获取该连通域的宽度；

判断该最长的横线与该连通域的宽度的比值是否大于第一预定比例；

若大于，则该最长的横线为有效横线。

6.如权利要求5所述的方法，所述第一预定比例为0.8。

7.如权利要求1-3中任一项所述的方法，还包括：

分别检测该分子图像和该分母图像是否具有分式结构；

若该分子图像或该分母图像具有分式结构，则确定该分式结构图像具有分式嵌套结构；

若该分子图像具有分式结构，则将该分子图像作为新的待识别图像进行手写公式的识别；

若该分母图像具有分式结构，则将该分母图像作为新的待识别图像进行手写公式的识别。

8.如权利要求1所述的方法，所述第二预定比例为2.5。

9.如权利要求1或8所述的方法，其中，所述有效字符连通域为宽度和高度大于预定尺寸且宽高比在预定比例范围内的连通域。

10.如权利要求9所述的方法，所述预定尺寸为10，所述预定比例范围为0.35~3。

11.如权利要求1所述的方法，所述预定字符为\f。

12.如权利要求1所述的方法，还包括：

若确定该分式结构图像所包含的内容为手写分式，则将该分式结构图像对应的分子图像和分母图像分别输入到所述手写字符识别模型中进行识别，以提取出该分子图像和分母图像所包含的内容；

根据该分子图像和分母图像所包含的内容，确定该分式结构图像对应的分式。

13.如权利要求1-3中任一项所述的方法，在检测出所述待识别图像中的各连通域的步骤之前，还包括：

对所述待识别图像进行二值化处理。

14.如权利要求1-3中任一项所述的方法，在检测出所述待识别图像中的各连通域的步骤之后，还包括：

对所述待识别图像进行旋转矫正的操作，所述旋转矫正操作适于根据各连通域之间的相对位置关系来确定旋转角度。

15.如权利要求1-3中任一项所述的方法，还包括预先构建手写字符识别模型，所述预先构建手写字符识别模型的步骤包括：

建立编码模型，所述编码模型为密集连接神经网络；

建立解码模型，所述解码模型为以注意力模型进行输出调整的门控循环神经网络；

将所述编码模型和解码模型组合生成手写字符识别模型。

16.如权利要求15所述的方法，其中：

所述密集连接神经网络包括1个常规卷积层、2个过渡层、3个池化层以及4个密集卷积块。

17.如权利要求16所述的方法，所述池化层为最大池化层或平均池化层。

18.如权利要求16或17所述的方法，所述密集卷积块中卷积层的卷积核为1×1卷积核或3×3卷积核。

19.一种计算设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行根据权利要求1-18所述的方法中的任一方法的指令。

20.一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行根据权利要求1-18所述的方法中的任一方法。