CN107169485B

CN107169485B - 一种数学公式识别方法和装置

Info

Publication number: CN107169485B
Application number: CN201710194222.5A
Authority: CN
Inventors: 曹骥; 王富田; 李健; 张连毅; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2017-03-28
Filing date: 2017-03-28
Publication date: 2020-10-09
Anticipated expiration: 2037-03-28
Also published as: CN107169485A

Abstract

本发明实施例提供了一种数学公式识别的方法和装置，所述方法包括：接收输入的图像数据，图像数据的内容包括手写的数学公式信息；确定与数学公式信息匹配的一个或多个运算关系类型，以及与每个运算关系类型对应的一个或多个特征区域；识别一个或多个特征区域，得到一个或多个公式元素；结合一个或多个运算关系类型，将一个或多个公式元素组织成与数学公式信息对应的数学公式。通过本发明实施例，实现了对手写数学公式的准确识别，并且在识别过程中充分利用了数学公式的结构性质，降低了字符识别的难度，优化了整个识别过程的效果和流程，提升了对手写数学公式识别的精确性和识别速度，为用户提供更加精准、简便、快捷的数学公式输入体验。

Description

一种数学公式识别方法和装置

技术领域

本发明涉及数学公式识别领域，特别是涉及一种数学公式识别方法和一种数学公式识别装置。

背景技术

在数学学科中，数学公式是学术文献的重要组成部分，目前主要利用MathType、LaTex两种工具对数学公式进行录入，但随着文档资料数字化需求的进一步增长，前面两种方法面对大量的复杂的数学公式时，编辑难度大，而且效率较低。

联机手写数学公式识别可以为用户提供类似于纸上书写的数学公式录入方式，但由于数学公式复杂的结构极大地增加了计算机识别的难度，且手写输入设备的非精确性、书写笔体和速度、数学符号的二义性、结构的多变性等都给手写数学公式的识别和编辑进一步增加了难度。

而且在现有的联机手写数学公式识别过程中，经常会出现对字符的错识问题，并且会将对字符的错识问题叠加到对整个数学公式的分析中，从而影响最终的数学公式识别结果，导致识别手写的数学公式不准确。

发明内容

鉴于上述问题，提出了本发明实施例以便提供克服上述问题或者至少部分地解决上述问题的一种数学公式识别方法和装置。

为了解决上述问题，本发明实施例公开了一种数学公式识别的方法，所述方法包括：

接收输入的图像数据，所述图像数据的内容包括手写的数学公式信息；

确定与所述数学公式信息匹配的一个或多个运算关系类型，以及与每个运算关系类型对应的一个或多个特征区域；

识别所述一个或多个特征区域，得到一个或多个公式元素；

结合所述一个或多个运算关系类型，将所述一个或多个公式元素组织成与所述数学公式信息对应的数学公式。

优选地，所述确定与所述数学公式信息匹配的一个或多个运算关系类型，以及每个运算关系类型对应的一个或多个特征区域的步骤包括：

将所述图像数据输入预先生成的卷积神经网络模型，经由所述卷积神经网络模型识别出所述图像数据中所包含的一个或多个运算关系类型，以及，根据所述一个或多个运算关系类型将所述图像数据划分后得到的一个或多个特征区域。

优选地，所述卷积神经网络模型采用如下方式识别出所述图像数据中所包含的一个或多个运算关系类型：

分别采用预置的多种运算关系类型的权重系数作为卷积核，对所述图像数据进行卷积操作，得到所述图像数据在各个运算关系类型中的概率；

基于所述图像数据在各个运算关系类型中的概率，确定所述图像数据中所包含的一个或多个运算关系类型。

优选地，所述运算关系类型具有对应的结构关系，所述特征区域包括单一区域和/或混合区域，所述识别所述一个或多个特征区域，得到一个或多个公式元素的步骤包括：

基于所述每个运算关系类型对应的结构关系，将所述单一区域作为一个基本单元，以及，对所述混合区域进行拆分，得到一个或多个基本单元；

采用预设的光学字符识别算法识别所述一个或多个基本单元，得到一个或多个公式元素。

优选地，所述结合所述一个或多个运算关系类型，将所述一个或多个公式元素组织成与所述数学公式信息对应的数学公式的步骤包括：

基于所述每个运算关系类型对应的结构关系，确定所述每个公式元素的位置信息；

将所述每个公式元素放置在所述每个公式元素的位置信息对应的位置，得到与所述数学公式信息对应的数学公式。

优选地，所述将所述每个公式元素放置在所述每个公式元素的位置信息对应的位置，得到与所述数学公式信息对应的数学公式的步骤包括：

针对混合区域，确定混合区域对应的公式元素，结合所述混合区域对应的公式元素的位置信息以及所述混合区域所包含的运算关系类型，将所述混合区域对应的公式元素组织成子公式；

针对单一区域，确定单一区域对应的公式元素，将所述单一区域对应的公式元素作为子公式；

对所有特征区域对应的子公式进行组合，得到与所述数学公式信息对应的数学公式。

优选地，所述卷积神经网络模型采用如下方式生成：

获取样本图像数据，所述样本图像数据包括多个运算关系类型对应的样本图像数据；

分别对每个运算关系类型对应的样本图像数据进行训练，得到卷积神经网络模型，所述卷积神经网络模型以每个运算关系类型对应的权重系数作为卷积核。

优选地，所述数学公式信息的输入方式至少包括：手写输入设备、鼠标输入。

优选地，所述单一区域包括数字或变量对应的特征区域，所述混合区域包括数字或变量以及一个或多个至少以下运算符对应的特征区域：

分数运算符、开方运算符、极限运算符、乘积运算符。

本发明实施例公开了一种数学公式识别的装置，所述装置包括：

接收模块，用于接收输入的图像数据，所述图像数据的内容包括手写的数学公式信息；

确定模块，用于确定与所述数学公式信息匹配的一个或多个运算关系类型，以及与每个运算关系类型对应的一个或多个特征区域；

识别模块，用于识别所述一个或多个特征区域，得到一个或多个公式元素；

组织模块，用于结合所述一个或多个运算关系类型，将所述一个或多个公式元素组织成与所述数学公式信息对应的数学公式。

本发明实施例包括以下优点：

在本发明实施例中，通过接收输入的包括手写的数学公式信息的图像数据，并确定与数学公式信息匹配的运算关系类型，以及与每个运算关系类型对应的特征区域，识别特征区域而得到公式元素，最后结合运算关系类型，将公式元素组织成与数学公式信息对应的数学公式，从而实现对手写数学公式的准确识别，并且在识别过程中充分利用了数学公式的结构性质，降低了字符识别的难度，优化了整个识别过程的效果和流程，提升了对手写数学公式识别的精确性和识别速度，为用户提供更加精准、简便、快捷的数学公式输入体验。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种数学公式识别的方法的步骤流程图；

图2是本发明实施例的一种数学公式识别的方法的步骤流程图；

图3是本发明实施例的一种手写的数学公式示例图；

图4是本发明实施例的一种手写的数学公式示例图；

图5是本发明实施例的一种数学公式识别的装置的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例可以用于联机识别手写数学公式，并录入计算机，在一定程度上满足商业人员或数学学科领域人员在联机状态下，通过鼠标或者手写输入设备实现数学公式联机录入的需求。

联机手写数学公式识别属于模式识别系统的一个方向，模式识别又称作模式分类，通过计算机用数学技术方法来研究模式的自动处理和判读，模式可以理解为存在有某种基本结构组织的排列或有序化，也可以称为某一事物或其他一些感兴趣项目的定量或结构上的描述。

在联机手写数学公式识别中，分类和特征提取是系统最关键的部分。根据分类算法的不同，又可以将模式识别分为句法模式识别和统计模式识别。句法模式识别的基本思想是把一个模式描述为较简单的子模式的组合，子模式又可以描述未更简单的子模式的组合，从而做出识别分类；统计模式识别的分类方法主要有模块匹配、概率分类、神经网络等。

联机手写数学公式识别的流程可以包括为：手写输入，符号分割，字符识别，结构分析，系统纠错，结果输出，符号分割，字符识别和结构分析是整个流程的核心部分，直接决定着最终识别结果的质量。

其中，手写输入可以包括通过手写板、鼠标等设备输入数学公式，在输入过程中，将输入比划的轨迹坐标进行实时采样并存储在相应的数据结构中；符号分割可以包括将采集到的笔画序列进行分割，使每个字符对应一个笔画集合，然后提交给字符识别模块进行识别，根据字符识别反馈的准确率来判断分割的正确性；字符识别可以包括根据相关的字符识别算法来将分割的笔画组合进行识别，找出每个笔画组最可能代表的字符；结构分析可以包括判断字符间的相对位置，结合表达式语法要求，分析输入的表达式结构，将表达式结构信息转化为一种易于计算机处理的数据结构；系统纠错可以包括对数学公式识别过程中可能产生的各种错误进行分析和纠错处理；结果输出可以包括数学公式识别完成后，得到的识别结果转化成较成熟的数学公式语言输出。

在本发明实施例中，通过将句法模式分类和结构分析放在字符识别之前，利用卷积神经网络对联机手写数据进行分类，分为：数字或变量、积分、极限、开方、分数等，针对分类结果，利用结构分析，将子结构进一步拆分为最基本的单元，即数字或变量，最后利用OCR实现对数字或变量的识别，从而在识别过程中充分利用了公式的结构性质，降低了字符识别部分的难度，整体上优化了整个识别系统的效果和流程。

下面对本发明实施例的具体实施方式进行详细说明：

参照图1，示出了本发明实施例的一种数学公式识别的方法的步骤流程图，具体可以包括如下步骤：

步骤101，接收输入的图像数据，所述图像数据的内容包括手写的数学公式信息；

步骤102，确定与所述数学公式信息匹配的一个或多个运算关系类型，以及与每个运算关系类型对应的一个或多个特征区域；

步骤103，识别所述一个或多个特征区域，得到一个或多个公式元素；

步骤104，结合所述一个或多个运算关系类型，将所述一个或多个公式元素组织成与所述数学公式信息对应的数学公式。

参照图2，示出了本发明实施例的一种数学公式识别的方法的步骤流程图，具体可以包括如下步骤：

步骤201，接收输入的图像数据，所述图像数据的内容包括手写的数学公式信息；

在本发明实施例中，当用户需要录入数学公式时，可以通过联机手写输入的方式形成图像数据，本发明实施例可以接收输入的图像数据。

其中，图像数据可以包括手写的数学公式信息，数学公式信息可以包括将联机手写输入的轨迹坐标进行实时采样并存储的数据。

作为一种示例，数学公式信息的输入方式至少可以包括：手写输入设备、鼠标输入等，例如，手写板等手写输入设备。

当然，本领域技术人员还可以采用其他方式输入数学公式信息，如采用拍照的方式，将数学公式写在纸上并拍成照片，再将照片输入，本发明实施例对此不作限制。

步骤202，确定与所述数学公式信息匹配的一个或多个运算关系类型，以及与每个运算关系类型对应的一个或多个特征区域；

在接收输入的图像数据之后，本发明实施例可以采用卷积神经网络对图像数据进行匹配，从而确定与图像数据中的数学公式信息匹配的一个或多个运算关系类型，然后按照运算关系类型对图像数据进行拆分，得到每个运算关系类型对应的特征区域。

作为一种示例，数学运算类型可以为数字或变量与运算符的组合的关系，运算关系类型可以包括数字或变量、分数、开方、极限、乘积等。

卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。

CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

在本发明一种优选实施例中，可以通过训练样本图像数据成卷积神经网络模型，然后采用卷积神经网络模型来实现步骤202。

其中，卷积神经网络模型是一种模仿生物神经网络行为特征，进行分布式并行信息处理的算法数学模型，卷积神经网络模型具体可以采用如下方式生成：

获取样本图像数据，所述样本图像数据包括多个运算关系类型对应的样本图像数据；分别对每个运算关系类型对应的样本图像数据进行训练，得到卷积神经网络模型，所述卷积神经网络模型以每个运算关系类型对应的权重系数作为卷积核。

在本发明实施例中，可以将已经确定运算关系类型的图像数据作为样本图像数据，样本图像数据可以包括数学公式的主要公式形式，在搭建好的卷积神经网络训练机对样本图像数据进行训练，得到能够对图像数据中各种数学公式进行分类的卷积神经网络分类算法，即卷积神经网络模型。

实际上，本发明实施例可以对属于同一运算关系类型的样本图像数据进行训练，得到与该运算关系类型对应的权重系数，而且权重系数是符合预置的精确度要求的。在获得每个运算关系类型对应的权重系数之后，将权重系数作为卷积核，生成卷积神经网络模型。

在生成卷积神经网络模型之后，步骤202可以包括如下子步骤：

子步骤S11，将所述图像数据输入预先生成的卷积神经网络模型，经由所述卷积神经网络模型识别出所述图像数据中所包含的一个或多个运算关系类型，以及，根据所述一个或多个运算关系类型将所述图像数据划分后得到的一个或多个特征区域。

在本发明实施例中，本发明实施例可以将接收的图像数据输入卷积神经网络模型，卷积神经网络模型可以识别出图像数据中包含的一个或多个运算关系类型，即识别出与图像数据中的数学公式信息匹配的一个或多个运算关系类型。

具体的，卷积神经网络模型可以采用如下方式识别出图像数据中所包含的一个或多个运算关系类型：

分别采用预置的多种运算关系类型的权重系数作为卷积核，对所述图像数据进行卷积操作，得到所述图像数据在各个运算关系类型中的概率；基于所述图像数据在各个运算关系类型中的概率，确定所述图像数据中所包含的一个或多个运算关系类型。

在本发明实施例中，将图像数据输入卷积神经网络模型之后，卷积神经网络模型可以采用卷积核对图像数据进行卷积操作，经过多层卷积核、池化和softmax分类器，得到图像数据在各个运算关系类型中的概率，从而确定图像数据中所包含的一个或多个运算关系类型。

实际上，图像数据由多个区域组成，卷积神经网络模型可以分别采用每个运算关系类型的权重系数对图像数据进行卷积一次，得到图像数据中各个区域在每个运算关系类型的权重系数进行卷积的概率。

针对图像数据的每个区域，从每个运算关系类型的权重系数对其进行卷积的概率中确定最大的概率，将最大的概率对应的运算关系类型作为该区域的运算关系类型。

在确定图像数据中所包含的一个或多个运算关系类型之后，本发明实施例还可以按照运算关系类型对图像数据进行划分，在划分后可以得到的每个运算关系类型对应的特征区域，如图3可以分为三个特征区域，分别是：长方形框中的数字或变量对应的特征区域，圆角长方形框中的分数对应的特征区域、椭圆形框中开方对应的特征区域。

步骤203，识别所述一个或多个特征区域，得到一个或多个公式元素；

在确定每个运算关系类型对应的特征区域之后，本发明实施例可以识别每个特征区域，得到与每个特征区域对应的一个或多个公式元素。

其中，运算关系类型可以具有对应的结构关系，如开方具有左上半包含结构关系、分数具有上下结构关系(即分式的上面为分子，分式的下面为分母)。

特征区域可以包括单一区域和/或混合区域，单一区域可以包括数字或变量对应的特征区域，如“1”、“a”，混合区域可以包括数字或变量以及一个或多个至少以下运算符对应的特征区域：分数运算符、开方运算符、极限运算符、乘积运算符，如

应用在本发明实施例中，则步骤203还可以包括如下子步骤：

子步骤S21，基于所述每个运算关系类型对应的结构关系，将所述单一区域作为一个基本单元，以及，对所述混合区域进行拆分，得到一个或多个基本单元；

在本发明实施例中，可以采用建立好的子结构拆分算法对特征区域进行拆分，使其能够将各特征区域分解为一个或多个基本单元，即数字或变量对应的区域，采用子结构拆分算法进行拆分具体可以如下：

针对单一区域，即数字或变量对应的特征区域，可以不进行拆分，直接将每个单一区域都作为一个基本单元。

针对混合区域，即数字或变量以及一个或多个运算符对应的特征区域，由于每个运算关系类型对应的混合区域都有特定的运算符以及数字或变量的结构关系，即一种位置上的关系，如“加法”为左中右结构，本发明实施例按照结构关系对混合区域进行拆分，得到一个或多个数字或变量对应的区域，在将每个数字或变量对应的区域作为一个基本单元。

子步骤S22，采用预设的光学字符识别算法识别所述一个或多个基本单元，得到一个或多个公式元素。

在本发明实施例中，可以采用建立好的光学字符识别(Optical CharacterRecognition，OCR)算法识别一个或多个基本单元，即识别数字或变量对应的区域，得到一个或多个公式元素。

其中，OCR指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

作为一种示例，OCR算法可以包括采用CNN、kNN(k-NearestNeighbor，k最邻近分类算法)、SVM(SupportVectorMachine，支持向量机)算法对混合区域进行拆分为最小的基本单元，如取连续笔迹图像的质心，以该质心为中心，找一条闭合曲线，能够包围当前连续笔迹图像上任意像素点，且与混合区域的另一部分无交集，该曲线可能有无穷多个，本发明实施例可以选取其中任意一条对混合区域进行拆分并识别。

其中，kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。kNN方法在类别决策时，只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。

SVM是通过一个非线性映射p，把样本空间映射到一个高维乃至无穷维的特征空间中(Hilbert空间)，使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题.简单地说，就是升维和线性化.升维，就是把样本向高维空间做映射，一般情况下这会增加计算的复杂性，甚至会引起“维数灾难”，因而人们很少问津.但是作为分类、回归等问题来说，很可能在低维样本空间无法线性处理的样本集，在高维特征空间中却可以通过一个线性超平面实现线性划分(或回归).一般的升维都会带来计算的复杂化，SVM方法巧妙地解决了这个难题：应用核函数的展开定理，就不需要知道非线性映射的显式表达式；由于是在高维特征空间中建立线性学习机，所以与线性模型相比，不但几乎不增加计算的复杂性，而且在某种程度上避免了“维数灾难”.这一切要归功于核函数的展开和计算理论。

本发明实施例在充分利用CNN的图像数据分类优势和OCR识别数字或变量的优势，同时又考虑到了运算关系类型的结构关系，极大地减少了识别数学运算符号可能带来的识别错误，子结构拆分算法利用运算关系类型的结构关系，简单高效地拆分，识别的数字或变量，而运算关系类型对应的运算符只需要将补充到识别的数字或变量对应位置即可。

步骤204，结合所述一个或多个运算关系类型，将所述一个或多个公式元素组织成与所述数学公式信息对应的数学公式。

在获得与数学公式信息对应的一个或多个公式元素之后，本发明实施例可以结合一个或多个运算关系类型，将一个或多个公式元素组织成与数学公式信息对应的数学公式。

在本发明的一种优选实施例中，步骤204还可以包括如下子步骤：

子步骤S31，基于所述每个运算关系类型对应的结构关系，确定所述每个公式元素的位置信息；

由于每个运算关系类型都具有对应的结构关系，本发明实施例可以基于每个运算关系类型对应的结构关系，确定每个公式元素的位置信息，如图3中“a”对应的特征区域位于“+”对应的特征区域的的左边。

子步骤S32，将所述每个公式元素放置在所述每个公式元素的位置信息对应的位置，得到与所述数学公式信息对应的数学公式。

在确定每个公式元素的位置信息之后，将每个公式元素放置在每个公式元素的位置信息对应的位置，则可以得到与数学公式信息对应的数学公式，如图3中，在识别“a”对应的区域为变量“a”后，将变量“a”放置在加号“+”的左边。

在本发明的一种优选实施例中，子步骤S32还可以包括如下子步骤：

子步骤S3211，针对混合区域，确定混合区域对应的公式元素，结合所述混合区域对应的公式元素的位置信息以及所述混合区域所包含的运算关系类型，将所述混合区域对应的公式元素组织成子公式；

由于混合区域是数字或变量以及一个或多个运算符对应的区域，是相互嵌套的结构，混合区域可以包含多个运算关系类型。

针对每个运算关系类型，确定与其对应的公式元素及公式元素的位置信息，按照运算关系类型的结构关系将公式元素组织成子公式。

子步骤S3212，针对单一区域，确定单一区域对应的公式元素，将所述单一区域对应的公式元素作为子公式；

由于单一区域是数字或变量对应的特征区域，是组成数学公式最基本的结构，直接将单一区域对应的公式元素作为组成数学公式的子公式。

子步骤S322，对所有特征区域对应的子公式进行组合，得到与所述数学公式信息对应的数学公式。

在获得所有特征区域对应的子公式之后，对子公式进行组合，得到数学公式。在识别出数学公式之后，本发明实施例可以将数学公式进行录入并展现给用户。

需要说明的是，由于在手写的数学公式信息识别过程中，每个步骤处理都可能产生错误，本发明实施例可以进行集中的系统纠错，对可能产生的各种错误进行逻辑关系的分析和纠正处理，也可以通过改善人机交互的方式来增加用户的纠错，提升识别的准确性。

为了是本领域技术人员能够更好地理解本发明实施例，以下通过一个例子对本发明实施例加以示例性说明，但应当理解的是，本发明实施例并不限于此。

如图4为用户手写的数学公式，采用本发明实施例的识别过程如下：

1)将图像数据输入卷积神经网络模型；

2)采用卷积神经网络模型对整个图像数据进行分类，确定标“1”的特征区域属于加法类型，标“2”的特征区域属于分式类型(根式、数字或变量的分类过程类似，图中未作标识)；

3)对标“1”的特征区域，按照加法类型对应的“左中右”的结构关系进行拆分，如取“a”的质心点，作曲线“k1”，以“+”的质心点，作曲线“k2”，从而按曲线“k1”“k2”对图像数据进行拆分，得到基本单元“a”；

对分式类型、根式类型对应的特征区域也进行拆分，得到基本单元“2”、“x”；

4)对基本单元“a”、“2”、“x”采用OCR进行识别，得到对应的公式元素；

5)确定每个公式元素的位置信息，将公式元素重新组合成子公式，再将子公式组成数学公式，如下：

6)将数学公式返回用户，供用户选择和纠错。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明实施例的一种数学公式识别的装置的结构框图，具体可以包括如下模块：

接收模块501，用于接收输入的图像数据，所述图像数据的内容包括手写的数学公式信息；

确定模块502，用于确定与所述数学公式信息匹配的一个或多个运算关系类型，以及与每个运算关系类型对应的一个或多个特征区域；

识别模块503，用于识别所述一个或多个特征区域，得到一个或多个公式元素；

组织模块504，用于结合所述一个或多个运算关系类型，将所述一个或多个公式元素组织成与所述数学公式信息对应的数学公式。

在本发明的一种优选实施例中，确定模块502可以包括如下子模块：

模型处理子模块，用于将所述图像数据输入预先生成的卷积神经网络模型，经由所述卷积神经网络模型识别出所述图像数据中所包含的一个或多个运算关系类型，以及，根据所述一个或多个运算关系类型将所述图像数据划分后得到的一个或多个特征区域。

在本发明的一种优选实施例中，所述卷积神经网络模型可以采用如下方式识别出所述图像数据中所包含的一个或多个运算关系类型：

在本发明的一种优选实施例中，所述运算关系类型具有对应的结构关系，所述特征区域包括单一区域和/或混合区域，所述识别模块503可以包括如下子模块：

基本单元获得子模块，用于基于所述每个运算关系类型对应的结构关系，将所述单一区域作为一个基本单元，以及，对所述混合区域进行拆分，得到一个或多个基本单元；

基本单元识别子模块，用于采用预设的光学字符识别算法识别所述一个或多个基本单元，得到一个或多个公式元素。

在本发明的一种优选实施例中，所述组织模块504可以包括如下子模块：

位置信息确定子模块，用于基于所述每个运算关系类型对应的结构关系，确定所述每个公式元素的位置信息；

公式元素放置子模块，用于将所述每个公式元素放置在所述每个公式元素的位置信息对应的位置，得到与所述数学公式信息对应的数学公式。

在本发明的一种优选实施例中，所述公式元素放置子模块可以包括如下单元：

子公式组织单元，用于针对混合区域，确定混合区域对应的公式元素，结合所述混合区域对应的公式元素的位置信息以及所述混合区域所包含的运算关系类型，将所述混合区域对应的公式元素组织成子公式；

子公式为单元，用于针对单一区域，确定单一区域对应的公式元素，将所述单一区域对应的公式元素作为子公式；

子公式组合单元，用于对所有特征区域对应的子公式进行组合，得到与所述数学公式信息对应的数学公式。

在本发明的一种优选实施例中，所述卷积神经网络模型采用如下方式生成：

在本发明的一种优选实施例中，所述数学公式信息的输入方式至少包括：手写输入设备、鼠标输入。

在本发明的一种优选实施例中，所述单一区域包括数字或变量对应的特征区域，所述混合区域包括数字或变量以及一个或多个至少以下运算符对应的特征区域：

分数运算符、开方运算符、极限运算符、乘积运算符。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种数学公式识别方法和装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数学公式识别的方法，其特征在于，所述方法包括：

识别所述一个或多个特征区域，得到一个或多个公式元素；

结合所述一个或多个运算关系类型，将所述一个或多个公式元素组织成与所述数学公式信息对应的数学公式；

其中，所述确定与所述数学公式信息匹配的一个或多个运算关系类型，以及每个运算关系类型对应的一个或多个特征区域的步骤包括：

2.根据权利要求1所述的方法，其特征在于，所述卷积神经网络模型采用如下方式识别出所述图像数据中所包含的一个或多个运算关系类型：

3.根据权利要求1或2所述的方法，其特征在于，所述运算关系类型具有对应的结构关系，所述特征区域包括单一区域和/或混合区域，所述识别所述一个或多个特征区域，得到一个或多个公式元素的步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述结合所述一个或多个运算关系类型，将所述一个或多个公式元素组织成与所述数学公式信息对应的数学公式的步骤包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述每个公式元素放置在所述每个公式元素的位置信息对应的位置，得到与所述数学公式信息对应的数学公式的步骤包括：

6.根据权利要求1所述的方法，其特征在于，所述卷积神经网络模型采用如下方式生成：

7.根据权利要求1所述的方法，其特征在于，所述数学公式信息的输入方式至少包括：手写输入设备、鼠标输入。

8.根据权利要求3所述的方法，其特征在于，所述单一区域包括数字或变量对应的特征区域，所述混合区域包括数字或变量以及一个或多个至少以下运算符对应的特征区域：

分数运算符、开方运算符、极限运算符、乘积运算符。

9.一种数学公式识别的装置，其特征在于，所述装置包括：

组织模块，用于结合所述一个或多个运算关系类型，将所述一个或多个公式元素组织成与所述数学公式信息对应的数学公式；

其中，所述确定模块，包括：