CN107729865A - 一种手写体数学公式离线识别方法及系统 - Google Patents

一种手写体数学公式离线识别方法及系统 Download PDF

Info

Publication number
CN107729865A
CN107729865A CN201711049724.5A CN201711049724A CN107729865A CN 107729865 A CN107729865 A CN 107729865A CN 201711049724 A CN201711049724 A CN 201711049724A CN 107729865 A CN107729865 A CN 107729865A
Authority
CN
China
Prior art keywords
character
mrow
basic character
msup
basic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711049724.5A
Other languages
English (en)
Inventor
董兰芳
刘汉超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201711049724.5A priority Critical patent/CN107729865A/zh
Publication of CN107729865A publication Critical patent/CN107729865A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • G06V30/2268Character recognition characterised by the type of writing of cursive writing using stroke segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种手写体数学公式离线识别方法及系统,在公式分割阶段,把手写体数学公式图像转换为若干张子图像,每个子图像中包含一个字符,由于考虑了对断裂字符和粘连字符的处理,进一步提高字符分割正确率。在字符识别阶段,针对离线手写体数学字符识别问题设计了一种基于批量归一化和全局平均池化方法并仅使用1×1和3×3大小的卷积核的卷积神经网络模型,可以准确的完成数学字符的识别,提高字符识别准确率。在公式分析阶段,根据字符间的位置关系做几何约束,使用二维随机上下文无关文法进行语义约束,最后从下到上的对字符进行组合,从而完成公式的重构;基于该方案可以通过计算机自动识别笔记、试卷等文档图像中的手写体数学公式。

Description

一种手写体数学公式离线识别方法及系统
技术领域
本发明涉及图像处理与模式识别技术领域,尤其涉及一种手写体数学公式离线识别方法及系统。
背景技术
数学公式在教材、科技论文等科技类文档中非常常见,与一维结构的文本行不同,数学公式中字符空间关系复杂,存在着上下、左右、右上、右下、包围等二维结构。由于数学公式结构复杂,把公式输入到电子文档的过程繁琐复杂,而数学公式的识别技术可以方便地把公式图像或手写公式的笔画序列转换为在电子文档中可编辑的公式格式。
目前数学公式识别系统主要分为两类:(1)针对离线(脱机)印刷体的数学公式识别系统;(2)针对在线(联机)手写体的数学公式识别系统。离线印刷体数学公式识别系统可以把印刷的文档中的数学公式转换为电子文档中的公式格式;而在线手写体数学公式识别系统则根据公式的书写过程得到笔画序列,把笔画序列转换为电子文档中的公式格式。
数学公式识别系统包括三个主要技术环节:(1)公式分割,即从输入的公式数据得到各个字符数据的过程,离线形式的输入数据是公式图像,其分割就是把公式图像分成若干个只包含一个字符的子图像,而在线形式的输入数据是笔画序列,其分割就是把属于同一字符的笔画进行组合的过程;(2)字符识别,即从字符数据中提取特征,并完成识别的结果;(3)公式分析,即根据字符的类别和字符间的位置关系对字符的组合进行几何和语义约束,最终将所有字符进行组合,重构出公式的过程。离线印刷体数学公式常用的分割方法有:基于图像分析的直接切分法、基于投影的切分技术以及曲线最短路径分割算法等。在线手写体数学公式常用的分割方法有:Stefan等人提出的基于假设网络的字符笔画组合法、Kenichi等人提出的基于统计笔画间距离的公式分割算法以及Lei等人提出的基于笔画对识别的公式分割算法等。字符识别的主要方法分为:人工提取字符图像特征并使用支持向量机(Support Vector Machine,SVM)、Adaboost等分类器进行识别的传统方法;利用卷积神经网络(Convolutional Neural Network,CNN)自动提取图像特征并完成分类的深度学习方法。当前常用的公式分析方法主要有根据符号本身的类别、大小和符号间的位置关系判断符号空间关系的结构分析法和根据形式文法判断符号的语义和符号间关系的文法分析法。但是,由于手写体的随意性和多样性,使用上述传统的离线印刷体数学公式分割技术对手写数学公式图像进行分割效果往往会比较差,而在线的分割方法又不适合离线公式图像的分割问题;同时,字符识别方法识别率与准确率也较低。
发明内容
本发明的目的是提供一种手写体数学公式离线识别方法及系统,可以提高字符分割正确率,进而提高字符识别准确率,从而便于字符分析,完成公式重构。
本发明的目的是通过以下技术方案实现的:
一种离线手写体数学公式识别方法,包括:
将手写体数学公式按照连通域进行分割,将获得的字符部件序列中的字符部件两两组合为字符部件对,并使用SVM分类器将字符部件对分类,再根据分类结果将属于同一字符的字符部件组合,获得若干字符;
利用基于批量归一化和全局平均池化算法的卷积神经网络进行字符识别,获得字符的类别和字符的位置关系;对于无法识别的字符,看作粘连字符,对粘连字符进行分割操作后再进行字符识别操作;
根据字符的类别和位置关系对字符的组合进行几何和语义约束,再结合CYK算法自下而上的完成公式的重构。
将获得的字符部件序列中的字符部件两两进行组合为字符部件对,并使用SVM分类器将字符部件对分类,再根据分类结果将属于同一字符的字符部件组合的步骤如下:
根据得到的字符部件序列W{W0,W1,...,Wn}中字符部件之间的位置关系,将字符部件两两组合为字符部件对pm=(Wi,Wj),0≤m≤n-1,0≤i,j≤n,i≠j;
提取字符部件对pm=(Wi,Wj)中两个字符部件Wi与Wj之间的几何关系特征,作为字符部件对pm的特征;其中几何关系特征包括:两字符部件的包围盒中心距离、两字符部件图像质心距离、两字符部件的最短距离、包围盒水平重叠区域和/或竖直重叠区域;
根据字符部件对的几何关系特征,将字符部件对分为组合类与分离类,其中属于组合类的字符部件对中两字符部件属于同一字符,属于分离类的字符部件对中两部件不属于同一字符,使用监督学习的方法训练SVM分类器,完成对字符部件对的分类;
将相邻的且属于同一字符的字符部件组合,完成断裂字符的分割。
所述基于批量归一化和全局平均池化算法的卷积神经网络,使用1×1和3×3大小的卷积核,卷积神经网络包括:依次设置的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、全局平均池化层以及softmax层;
其中,每个卷积层后都通过批量归一化算法进行归一化处理,全局平均池化层用于计算每个特征图的全局平均值;
所述通过批量归一化算法进行归一化处理包括:
首先,将数据归一化,运算操作如下:
其中,x(k)为第k批数据,E[x(k)]为第k批数据的均值,表示第k批数据的方差;
然后,通过学习恢复出相应卷积层学习到的特征分布:
其中,γ(k)与β(k)为对应于第k批数据的可学习变量。
对粘连字符进行分割操作的步骤包括:
使用轮廓跟踪算法,提取粘连字符M的外部轮廓C;
使用凹角点检测算法,寻找字符外部轮廓C中的凹角点ci,其中0≤i≤I,I为凹角点总数;
将凹角点看做候选分割点,两两连线,得到候选分割线lj,其中
依次利用各候选分割线进行分割,并使用SVM分类器对分割结果进行验证识别,根据验证识别结果确定最佳分割线,从而完成粘连字符的分割操作。
根据字符的类别和位置关系对字符的组合进行几何和语义约束,再结合CYK算法自下而上的完成公式的重构包括:
对于几何约束,通过确定当前字符的位置和大小,确定当前字符的搜索范围,对在搜索范围内的字符尝试进行组合;
对于语义约束,采用二维随机上下文无关文法,二维随机上下文无关文法产生式规则转换的乔姆斯基范式如下所示:
A→t,Pr(A→t);
A,B,C∈VN,t∈VT
其中,VN是非终结符,VT是终结符,Pr(A→t)是终结符产生式规则A→t的概率,是非终结符产生式规则的概率,spr描述了非终结符的空间关系;
利用CYK算法结合几何约束和语义约束完成公式重构,分为两步:
a、初始化解析表,其目的是构建解析表的底层部分;初始化解析表的过程如下:
T1=T1∪{e1(A,S1,p1)};
对于给定的元素e1(A,S1,p),其表示一个子公式,该子公式是由S1中的字符组成,其概率p1为:
p1=p1(A)=p(A→t)p(t|h1);
其中,t是文法中的终结符,代表某数学符号,A是文法中的非终结符,p(t|h1)是字符h1被判定为数学符号t的概率;
b、自下而上地对子公式进行组合,构建解析表的高层部分;组合过程如下:
Tl=Tl∪{el(A,Sl,pl)},l=2,3,...,N;
设一个新的子公式el(A,Sl,pl)是由两个字符更少的子公式ek(A,Sk,pk)和el-k(A,Sl-k,pl-k)根据语义的约束组合而成,其中1≤k≤l-1;则el(A,Sl,pl)的概率pl为:
其中,pk、pl-k分别为ek(A,Sk,pk)、el-k(A,Sl-k,pl-k)的概率;p(Sk,Sl-k|spr)为Sk与Sl-k的空间关系是spr的概率,由几何约束给出。
一种离线手写体数学公式识别系统,包括:
公式分割模块,用于将手写体数学公式按照连通域进行分割,将获得的字符部件序列中的字符部件两两组合为字符部件对,并使用SVM分类器将字符部件对分类,再根据分类结果将属于同一字符的字符部件组合,获得若干字符;
字符识别模块,用于利用基于批量归一化和全局平均池化算法的卷积神经网络进行字符识别,获得字符的类别和字符的位置关系;对于无法识别的字符,看作粘连字符,对粘连字符进行分割操作后再进行字符识别操作;
字符分析与重构模块,用于根据字符的类别和位置关系对字符的组合进行几何和语义约束,再结合CYK算法自下而上的完成公式的重构。
将获得的字符部件序列中的字符部件两两进行组合为字符部件对,并使用SVM分类器将字符部件对分类,再根据分类结果将属于同一字符的字符部件组合的步骤如下:
根据得到的字符部件序列W{W0,W1,...,Wn}中字符部件之间的位置关系,将字符部件两两组合为字符部件对pm=(Wi,Wj),0≤m≤n-1,0≤i,j≤n,i≠j;
提取字符部件对pm=(Wi,Wj)中两个字符部件Wi与Wj之间的几何关系特征,作为字符部件对pm的特征;其中几何关系特征包括:两字符部件的包围盒中心距离、两字符部件图像质心距离、两字符部件的最短距离、包围盒水平重叠区域和/或竖直重叠区域;
根据字符部件对的几何关系特征,将字符部件对分为组合类与分离类,其中属于组合类的字符部件对中两字符部件属于同一字符,属于分离类的字符部件对中两部件不属于同一字符,使用监督学习的方法训练SVM分类器,完成对字符部件对的分类;
将相邻的且属于同一字符的字符部件组合,完成断裂字符的分割。
所述基于批量归一化和全局平均池化算法的卷积神经网络,使用1×1和3×3大小的卷积核,卷积神经网络包括:依次设置的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、全局平均池化层以及softmax层;
其中,每个卷积层后都通过批量归一化算法进行归一化处理,全局平均池化层用于计算每个特征图的全局平均值;
所述通过批量归一化算法进行归一化处理包括:
首先,将数据归一化,运算操作如下:
其中,x(k)为第k批数据,E[x(k)]为第k批数据的均值,表示第k批数据的方差;
然后,通过学习恢复出相应卷积层学习到的特征分布:
其中,γ(k)与β(k)为对应于第k批数据的可学习变量。
对粘连字符进行分割操作的步骤包括:
使用轮廓跟踪算法,提取粘连字符M的外部轮廓C;
使用凹角点检测算法,寻找字符外部轮廓C中的凹角点ci,其中0≤i≤I,I为凹角点总数;
将凹角点看做候选分割点,两两连线,得到候选分割线lj,其中
依次利用各候选分割线进行分割,并使用SVM分类器对分割结果进行验证识别,根据验证识别结果确定最佳分割线,从而完成粘连字符的分割操作。
根据字符的类别和位置关系对字符的组合进行几何和语义约束,再结合CYK算法自下而上的完成公式的重构包括:
对于几何约束,通过确定当前字符的位置和大小,确定当前字符的搜索范围,对在搜索范围内的字符尝试进行组合;
对于语义约束,采用二维随机上下文无关文法,二维随机上下文无关文法产生式规则转换的乔姆斯基范式如下所示:
A→t,Pr(A→t);
A,B,C∈VN,t∈VT
其中,VN是非终结符,VT是终结符,Pr(A→t)是终结符产生式规则A→t的概率,是非终结符产生式规则的概率,spr描述了非终结符的空间关系;
利用CYK算法结合几何约束和语义约束完成公式重构,分为两步:
a、初始化解析表,其目的是构建解析表的底层部分;初始化解析表的过程如下:
T1=T1∪{e1(A,S1,p1)};
对于给定的元素e1(A,S1,p),其表示一个子公式,该子公式是由S1中的字符组成,其概率p1为:
p1=p1(A)=p(A→t)p(t|h1);
其中,t是文法中的终结符,代表某数学符号,A是文法中的非终结符,p(t|h1)是字符h1被判定为数学符号t的概率;
b、自下而上地对子公式进行组合,构建解析表的高层部分;组合过程如下:
Tl=Tl∪{el(A,Sl,pl)},l=2,3,...,N;
设一个新的子公式el(A,Sl,pl)是由两个字符更少的子公式ek(A,Sk,pk)和el-k(A,Sl-k,pl-k)根据语义的约束组合而成,其中1≤k≤l-1;则el(A,Sl,pl)的概率pl为:
其中,pk、pl-k分别为ek(A,Sk,pk)、el-k(A,Sl-k,pl-k)的概率;p(Sk,Sl-k|spr)为Sk与Sl-k的空间关系是spr的概率,由几何约束给出。
由上述本发明提供的技术方案可以看出,在公式分割阶段,把输入的手写体数学公式图像转换为若干张子图像,每个子图像中包含一个字符,由于本方案在公式分割阶段同时考虑了对断裂字符和粘连字符的处理,进一步提高字符分割正确率。在字符识别阶段,本方案针对离线手写体数学字符识别问题设计了一种基于批量归一化和全局平均池化方法并仅使用1×1和3×3大小的卷积核的卷积神经网络模型,可以准确的完成数学字符的识别,提高字符识别准确率。在公式分析阶段,本方案根据字符间的位置关系做几何约束,使用二维随机上下文无关文法进行语义约束,最后从下到上的对字符进行组合,从而完成公式的重构;基于该方案可以通过计算机自动识别笔记、试卷等文档图像中的手写体数学公式。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种手写体数学公式离线识别方法的流程图;
图2为本发明实施例提供的断裂字符图像和粘连字符图像示意图;
图3为本发明实施例提供的卷积神经网络的结构示意图;
图4为本发明实施例提供的GAP层操作示意图;
图5为本发明实施例提供的粘连字符分割操作流程图;
图6为本发明实施例提供的连通区域分割过程示意图
图7为本发明实施例提供的断裂字符分割结果;
图8为本发明实施例提供的粘连字符分割结果。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
由于手写体的随意性,与印刷体数学字符相比,手写体数学字符粘连情况严重,不同字符大小不一,同一字符形状各异,这给离线手写体数学公式的分割和识别造成了诸多困难。与在线数据相比,离线数据缺少时间序列的信息,在公式的分割和识别方面也更具有挑战性。本发明实施例提供的一种手写体数学公式离线识别方法,如图1所示,主要包括:
步骤1、将手写体数学公式按照连通域进行分割,将获得的字符部件序列中的字符部件两两组合为字符部件对,并使用SVM分类器将字符部件对分类,再根据分类结果将属于同一字符的字符部件组合,获得若干字符。
本步骤中,首先要把公式按照连通域进行分割,由于字符本身结构以及手写体的随意性,不仅同一字符可能会写成断裂的多个部分,而且不同字符可能会相互粘连,如图2所示,a~d为字符存在字符断裂的情况,e~f为字符粘连情况。
因此对于连通域分割得到的字符部件序列中的字符部件,需要进行断裂字符的分割处理和粘连字符的分割处理。粘连字符的分割处理将在后文进行详细介绍,下面针对断裂字符的分割处理进行说明。
对于断裂字符的分割,本发明将连通域分割得到的字符部件两两进行组合为字符部件对,提取部件对的特征,并使用SVM分类器将字符部件对分为两类。SVM是一种基于结构风险最小化原则(即兼顾训练误差与测试误差的最小化)的学习方法,SVM的基本思想是在样本空间构造出最优超平面,使得超平面与不同类样本集之间的距离达到最大。断裂字符的分割的详细步骤如下:
1)根据得到的字符部件序列W{W0,W1,...,Wn}中字符部件之间的位置关系,将字符部件两两组合为字符部件对pm=(Wi,Wj),0≤m≤n-1,0≤i,j≤n,i≠j。
2)提取字符部件对pm=(Wi,Wj)中两个字符部件Wi与Wj之间的几何关系特征,作为字符部件对pm的特征;其中几何关系特征包括:两字符部件的包围盒中心距离、两字符部件图像质心距离、两字符部件的最短距离、包围盒水平重叠区域和/或竖直重叠区域。
3)根据字符部件对的几何关系特征,将字符部件对分为组合类与分离类,其中属于组合类的字符部件对中两字符部件属于同一字符,属于分离类的字符部件对中两部件不属于同一字符,使用监督学习的方法训练SVM分类器,完成对字符部件对的分类。
4)将相邻的且属于同一字符的字符部件组合,完成断裂字符的分割。示例性的,字符部件序列{W0,W1,W2,W3,W4}中的字符部件对{W1,W2}与{W2,W3}属于组合类,则最终分割结果为:W0、W4各为一个字符,{W1,W2,W3}组合为一个字符。
步骤2、利用基于批量归一化和全局平均池化算法的卷积神经网络进行字符识别,获得字符的类别和字符的位置关系;对于无法识别的字符,看作粘连字符,对粘连字符进行分割操作后再进行字符识别操作。
本发明实施例中,字符识别是在经历过断裂字符的分割后,通过使用卷积神经网络学习并提取每个字符中的特征,并完成分类的过程。本发明针对离线手写体数学字符的识别问题设计了一种基于批量归一化(Batch Normalization,BN)和全局平均池化(GlobalAverage Pooling,GAP)方法的并仅使用1×1和3×3大小的卷积核的卷积神经网络。
卷积神经网络(CNN)是一种多层的监督学习神经网络,网络使用了局部感知区域、共享权值和空间的降采样等技术,卷积神经网络提取到的特征对输入信号的平移、缩放、仿射变换等变形具有很强的鲁棒性,在图像分类领域相比传统的人工设计的特征进行分类有着很大的进步。当前使用CNN在Mnist手写体数字数据集中已经取得了99.79%的正确率,甚至超过了人类的识别正确率。卷积神经网络一般由卷积层、下采样层、激活层和全连接层组成,图3是一个卷积神经网络的结构示意图。网络中的每层是由一个或多个特征图组成,通过卷积层和下采样层对原图像进行特征提取,特征图分辨率逐渐降低,同时提取的特征图数目逐渐增多,以检测更多的特征信息,并使特征具有全局性。卷积神经网络的后几层一般为传统的全连接层,将卷积层或下采样层输出的数据进行非线性映射,从而得到最终的图像特征,并送入输出层完成识别。
由于在训练过程中CNN中每一层的输入都受前几层的参数的影响。网络中每一层输入数据的分布发生变化则该层就需要适应变化后的数据分布,然而在使用随机梯度下降算法训练网络的过程中,由于输入的训练图像的变化以及网络各层中参数的调整,网络各层输入数据的分布都在不断变化,网络中每一层都需要不断适应新的数据分布,从而造成收敛速度慢,模型难以训练的问题。
本发明实施例提供的,BN算法通过将每一层的输入数据进行归一化,从而达到加速训练,提高识别效果的作用。BN算法处理过程如下:
首先,将数据归一化,运算操作如下:
其中,x(k)为第k批数据,E[x(k)]为第k批数据的均值,表示第k批数据的方差;
然而这种归一化方式会破坏掉卷积层学到的特征的数据分布,因此BN算法中设计了两个可学习变量,通过学习恢复出相应卷积层学习到的特征分布:
其中,γ(k)与β(k)为对应于第k批数据的可学习变量。
传统的卷积神经网络中的全连接层具有参数多,计算量大,容易过拟合等缺点,本发明使用GAP层代替全连接层,GAP层通过计算每个特征图的全局平均值,相比全连接层具有参数少,计算量小,减少过拟合的优点。GAP层操作示意图如图4所示。
本发明实施例提供的的卷积神经网络通过加深网络,降低参数等操作使得网络具有识别率高和模型小的优点。其主要包括:依次设置的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、全局平均池化层以及softmax层。
示例性的,如表1所示:
表1卷积神经网络结构
表1中,Conv-a-b-c-d表示卷积核大小为a×a,步长为c,填充像素为d,输出b个特征图的卷积层,每个卷积层后都通过BN算法进行归一化并使用ReLU操作进行非线性映射。
另一方面,步骤1输入至卷积神经网络的字符也存在无法识别的情况,则将其看作粘连字符,对粘连字符进行分割操作后再进行字符识别操作。
粘连字符进行分割操作如图5所示,主要包括如下步骤:
1)使用轮廓跟踪算法,提取粘连字符M的外部轮廓C。
2)使用凹角点检测算法,寻找字符外部轮廓C中的凹角点ci,其中0≤i≤I,I为凹角点总数。
3)将凹角点看做候选分割点,两两连线,得到候选分割线lj,其中
4)依次利用各候选分割线进行分割,并使用SVM分类器对分割结果进行验证识别,根据验证识别结果确定最佳分割线,从而完成粘连字符的分割操作。
步骤3、根据字符的类别和位置关系对字符的组合进行几何和语义约束,再结合CYK算法自下而上的完成公式的重构。
经过公式分割和字符识别以后,公式分析阶段的输入数据是字符的类别和字符的位置关系。字符分析就是根据字符的类别和位置关系对字符的组合进行几何和语义约束,从而完成公式的重构。具体来说:
对于几何约束,通过确定当前字符的位置和大小,确定当前字符的搜索范围,对在搜索范围内的字符尝试进行组合;
对于语义约束,采用二维随机上下文无关文法,二维随机上下文无关文法对于数学公式具有足够强的表达能力,而相比0型和1型文法又足够简单易于解析,同时由于引入了概率模型,因此更适合处理模式识别的问题。
二维随机上下文无关文法产生式规则转换的乔姆斯基范式如下所示:
A→t,Pr(A→t);
A,B,C∈VN,t∈VT
其中,VN是非终结符,VT是终结符,Pr(A→t)是终结符产生式规则A→t的概率,是非终结符产生式规则的概率,spr描述了非终结符的空间关系。
本发明实施例中,使用CYK算法完成对公式的分析,CYK算法是一个动态规划建立解析表的过程。利用CYK算法结合几何约束和语义约束完成公式重构,主要分为两步:(1)初始化解析表,其目的是构建解析表的底层部分;(2)自下而上地对子公式进行组合,构建解析表的高层部分。
假设S={Si|i=1,2,...,N}是公式中所有字符的集合,N是公式中的字符总数。设Sl是公式中l(1≤l≤N)个字符的组合,则必有
假设ψ是CYK算法解析表,解析表中每个元素记作el(A,Sl,pl),解析表中每个元素代表一个子公式,该子公式是由Sl中的l个字符组成,A是该子公式的一个解析方案(也就是文法中的非终结符),pl是子公式被解析为A的概率,解析表中的最高层表示最终解析的公式结果,解析表的最底层为公式中的每个字符。具体来说:
a、初始化解析表的过程如下:
T1=T1∪{e1(A,S1,p1)};
对于给定的元素e1(A,S1,p),其表示一个子公式,该子公式是由S1中的字符组成,其概率p1为:
p1=p1(A)=p(A→t)p(t|h1);
其中,t是文法中的终结符,代表某数学符号,A是文法中的非终结符,p(t|h1)是字符h1被判定为数学符号t的概率;
b、自下而上地对子公式进行组合,组合过程如下:
Tl=Tl∪{el(A,Sl,pl)},l=2,3,...,N;
设一个新的子公式el(A,Sl,pl)是由两个字符更少的子公式ek(A,Sk,pk)和el-k(A,Sl-k,pl-k)根据语义的约束组合而成,其中1≤k≤l-1;则el(A,Sl,pl)的概率pl为:
其中,pk、pl-k分别为ek(A,Sk,pk)、el-k(A,Sl-k,pl-k)的概率;p(Sk,Sl-k|spr)为Sk与Sl-k的空间关系是spr的概率,由几何约束给出。
本发明实施例上述方案,在公式分割阶段,把输入的手写体数学公式图像转换为若干张子图像,每个子图像中包含一个字符,由于本方案在公式分割阶段同时考虑了对断裂字符和粘连字符的处理,进一步提高字符分割正确率。在字符识别阶段,本方案针对离线手写体数学字符识别问题设计了一种基于批量归一化和全局平均池化方法并仅使用1×1和3×3大小的卷积核的卷积神经网络模型,可以准确的完成数学字符的识别,提高字符识别准确率。在公式分析阶段,本方案根据字符间的位置关系做几何约束,使用二维随机上下文无关文法进行语义约束,最后从下到上的对字符进行组合,从而完成公式的重构;基于该方案可以通过计算机自动识别笔记、试卷等文档图像中的手写体数学公式。
为了便于理解,下面结合一具体的示例对本发明上述步骤做详细说明。
本示例中的实验环境和测试数据如下:
CPU:Intel Core(TM)i5-2320 3.00GHz
内存:4GB
操作系统:Ubuntu 16.04
具体操作步骤如下:
1、断裂字符分割
对输入图像进行连通区域分割,得到字符部件序列,图6是连通区域分割过程示意图,将手写公式图像根据联通区域划分为10个字符部件子图像,其中的“=”和“x”发生字符断裂,3和b发生粘连。
根据得到的字符部件序列中部件间的位置关系,将字符部件两两组合为字符部件对,通过提取字符部件对的几何特征,并使用SVM分类器进行分类,完成对字符部件对的分类,从而完成断裂字符的分割,断裂字符分割结果如图7所示。
2、字符识别
对断裂字符的分割得到的子图像进行识别,分别得到的识别结果为:“y”、“=”、“3”、“+”、“6”、“x”、“-”、“junk”;其中,junk表示该字符的不能正确的进行识别。
把不能识别的“3b”字符看做粘连字符,对其进行粘连字符的分割处理,并完成分割结果的识别,分割结果如图8所示。
3、公式分析。
根据公式的分割和字符的识别结果,在几何和语义约束下对字符进行组合,从而重构出公式,本示例中最终识别结果为:
本发明另一实施例还提供一种离线手写体数学公式识别系统,其主要包括:
公式分割模块,用于将手写体数学公式按照连通域进行分割,将获得的字符部件序列中的字符部件两两组合为字符部件对,并使用SVM分类器将字符部件对分类,再根据分类结果将属于同一字符的字符部件组合,获得若干字符;
字符识别模块,用于利用基于批量归一化和全局平均池化算法的卷积神经网络进行字符识别,获得字符的类别和字符的位置关系;对于无法识别的字符,看作粘连字符,对粘连字符进行分割操作后再进行字符识别操作;
字符分析与重构模块,用于根据字符的类别和位置关系对字符的组合进行几何和语义约束,再结合CYK算法自下而上的完成公式的重构。
进一步的,将获得的字符部件序列中的字符部件两两进行组合为字符部件对,并使用SVM分类器将字符部件对分类,再根据分类结果将属于同一字符的字符部件组合的步骤如下:
根据得到的字符部件序列W{W0,W1,...,Wn}中字符部件之间的位置关系,将字符部件两两组合为字符部件对pm=(Wi,Wj),0≤m≤n-1,0≤i,j≤n,i≠j;
提取字符部件对pm=(Wi,Wj)中两个字符部件Wi与Wj之间的几何关系特征,作为字符部件对pm的特征;其中几何关系特征包括:两字符部件的包围盒中心距离、两字符部件图像质心距离、两字符部件的最短距离、包围盒水平重叠区域和/或竖直重叠区域;
根据字符部件对的几何关系特征,将字符部件对分别组合类与分离类,其中属于组合类的字符部件对中两字符部件属于同一字符,属于分离类的字符部件对中两部件不属于同一字符,使用监督学习的方法训练SVM分类器,完成对字符部件对的分类;
将相邻的且属于同一字符的字符部件组合,完成断裂字符的分割。
进一步的,所述基于批量归一化和全局平均池化算法的卷积神经网络,使用1×1和3×3大小的卷积核,卷积神经网络包括:依次设置的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、全局平均池化层以及softmax层;
其中,每个卷积层后都通过批量归一化算法进行归一化处理,全局平均池化层用于计算每个特征图的全局平均值;
所述通过批量归一化算法进行归一化处理包括:
首先,将数据归一化,运算操作如下:
其中,x(k)为第k批数据,E[x(k)]为第k批数据的均值,表示第k批数据的方差;
然后,通过学习恢复出相应卷积层学习到的特征分布:
其中,γ(k)与β(k)为对应于第k批数据的可学习变量。
进一步的,对粘连字符进行分割操作的步骤包括:
使用轮廓跟踪算法,提取粘连字符M的外部轮廓C;
使用凹角点检测算法,寻找字符外部轮廓C中的凹角点ci,其中0≤i≤I,I为凹角点总数;
将凹角点看做候选分割点,两两连线,得到候选分割线lj,其中
依次利用各候选分割线进行分割,并使用SVM分类器对分割结果进行验证识别,根据验证识别结果确定最佳分割线,从而完成粘连字符的分割操作。
进一步的,根据字符的类别和位置关系对字符的组合进行几何和语义约束,再结合CYK算法自下而上的完成公式的重构包括:
对于几何约束,通过确定当前字符的位置和大小,确定当前字符的搜索范围,对在搜索范围内的字符尝试进行组合;
对于语义约束,采用二维随机上下文无关文法,二维随机上下文无关文法产生式规则转换的乔姆斯基范式如下所示:
A→t,Pr(A→t);
A,B,C∈VN,t∈VT
其中,VN是非终结符,VT是终结符,Pr(A→t)是终结符产生式规则A→t的概率,是非终结符产生式规则的概率,spr描述了非终结符的空间关系;
利用CYK算法结合几何约束和语义约束完成公式重构,分为两步:
a、初始化解析表,其目的是构建解析表的底层部分;初始化解析表的过程如下:
T1=T1∪{e1(A,S1,p1)};
对于给定的元素e1(A,S1,p),其表示一个子公式,该子公式是由S1中的字符组成,其概率p1为:
p1=p1(A)=p(A→t)p(t|h1);
其中,t是文法中的终结符,代表某数学符号,A文法中的非终结符,p(t|h1)是字符h1被判定为数学符号t的概率;
b、自下而上地对子公式进行组合,构建解析表的高层部分;组合过程如下:
Tl=Tl∪{el(A,Sl,pl)},l=2,3,...,N;
设一个新的子公式el(A,Sl,pl)是由两个字符更少的子公式ek(A,Sk,pk)和el-k(A,Sl-k,pl-k)根据语义的约束组合而成,其中1≤k≤l-1;则el(A,Sl,pl)的概率pl为:
其中,pk、pl-k分别为ek(A,Sk,pk)、el-k(A,Sl-k,pl-k)的概率;p(Sk,Sl-k|spr)为Sk与Sl-k的空间关系是spr的概率,由几何约束给出。
需要说明的是,上述系统中包含的各个功能模块所实现的功能的具体实现方式在前面的各个实施例中已经有详细描述,故在这里不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种离线手写体数学公式识别方法,其特征在于,包括:
将手写体数学公式按照连通域进行分割,将获得的字符部件序列中的字符部件两两组合为字符部件对,并使用SVM分类器将字符部件对分类,再根据分类结果将属于同一字符的字符部件组合,获得若干字符;
利用基于批量归一化和全局平均池化算法的卷积神经网络进行字符识别,获得字符的类别和字符的位置关系;对于无法识别的字符,看作粘连字符,对粘连字符进行分割操作后再进行字符识别操作;
根据字符的类别和位置关系对字符的组合进行几何和语义约束,再结合CYK算法自下而上的完成公式的重构。
2.根据权利要求1所述的一种离线手写体数学公式识别方法,其特征在于,将获得的字符部件序列中的字符部件两两进行组合为字符部件对,并使用SVM分类器将字符部件对分类,再根据分类结果将属于同一字符的字符部件组合的步骤如下:
根据得到的字符部件序列W{W0,W1,...,Wn}中字符部件之间的位置关系,将字符部件两两组合为字符部件对pm=(Wi,Wj),0≤m≤n-1,0≤i,j≤n,i≠j;
提取字符部件对pm=(Wi,Wj)中两个字符部件Wi与Wj之间的几何关系特征,作为字符部件对pm的特征;其中几何关系特征包括:两字符部件的包围盒中心距离、两字符部件图像质心距离、两字符部件的最短距离、包围盒水平重叠区域和/或竖直重叠区域;
根据字符部件对的几何关系特征,将字符部件对分为组合类与分离类,其中属于组合类的字符部件对中两字符部件属于同一字符,属于分离类的字符部件对中两部件不属于同一字符,使用监督学习的方法训练SVM分类器,完成对字符部件对的分类;
将相邻的且属于同一字符的字符部件组合,完成断裂字符的分割。
3.根据权利要求1所述的一种离线手写体数学公式识别方法,其特征在于,所述基于批量归一化和全局平均池化算法的卷积神经网络,使用1×1和3×3大小的卷积核,卷积神经网络包括:依次设置的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、全局平均池化层以及softmax层;
其中,每个卷积层后都通过批量归一化算法进行归一化处理,全局平均池化层用于计算每个特征图的全局平均值;
所述通过批量归一化算法进行归一化处理包括:
首先,将数据归一化,运算操作如下:
<mrow> <msup> <mover> <mi>x</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mfrac> <mrow> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mo>-</mo> <mi>E</mi> <mo>&amp;lsqb;</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mo>&amp;rsqb;</mo> </mrow> <msqrt> <mrow> <mi>V</mi> <mi>a</mi> <mi>r</mi> <mo>&amp;lsqb;</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mo>&amp;rsqb;</mo> </mrow> </msqrt> </mfrac> <mo>;</mo> </mrow>
其中,x(k)为第k批数据,E[x(k)]为第k批数据的均值,表示第k批数据的方差;
然后,通过学习恢复出相应卷积层学习到的特征分布:
<mrow> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <msup> <mi>&amp;gamma;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <msup> <mover> <mi>x</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mo>+</mo> <msup> <mi>&amp;beta;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> </mrow>
其中,γ(k)与β(k)为对应于第k批数据的可学习变量。
4.根据权利要求1所述的一种离线手写体数学公式识别方法,其特征在于,对粘连字符进行分割操作的步骤包括:
使用轮廓跟踪算法,提取粘连字符M的外部轮廓C;
使用凹角点检测算法,寻找字符外部轮廓C中的凹角点ci,其中0≤i≤I,I为凹角点总数;
将凹角点看做候选分割点,两两连线,得到候选分割线lj,其中
依次利用各候选分割线进行分割,并使用SVM分类器对分割结果进行验证识别,根据验证识别结果确定最佳分割线,从而完成粘连字符的分割操作。
5.根据权利要求1所述的一种离线手写体数学公式识别方法,其特征在于,根据字符的类别和位置关系对字符的组合进行几何和语义约束,再结合CYK算法自下而上的完成公式的重构包括:
对于几何约束,通过确定当前字符的位置和大小,确定当前字符的搜索范围,对在搜索范围内的字符尝试进行组合;
对于语义约束,采用二维随机上下文无关文法,二维随机上下文无关文法产生式规则转换的乔姆斯基范式如下所示:
A→t,Pr(A→t);
A,B,C∈VN,t∈VT
其中,VN是非终结符,VT是终结符,Pr(A→t)是终结符产生式规则A→t的概率,是非终结符产生式规则的概率,spr描述了非终结符的空间关系;
利用CYK算法结合几何约束和语义约束完成公式重构,分为两步:
a、初始化解析表,其目的是构建解析表的底层部分;初始化解析表的过程如下:
T1=T1∪{e1(A,S1,p1)};
对于给定的元素e1(A,S1,p),其表示一个子公式,该子公式是由S1中的字符组成,其概率p1为:
p1=p1(A)=p(A→t)p(t|h1);
其中,t是文法中的终结符,代表某数学符号,A是文法中的非终结符,p(t|h1)是字符h1被判定为数学符号t的概率;
b、自下而上地对子公式进行组合,构建解析表的高层部分;组合过程如下:
Tl=Tl∪{el(A,Sl,pl)},l=2,3,...,N;
设一个新的子公式el(A,Sl,pl)是由两个字符更少的子公式ek(A,Sk,pk)和el-k(A,Sl-k,pl-k)根据语义的约束组合而成,其中1≤k≤l-1;则el(A,Sl,pl)的概率pl为:
其中,pk、pl-k分别为ek(A,Sk,pk)、el-k(A,Sl-k,pl-k)的概率;p(Sk,Sl-k|spr)为Sk与Sl-k的空间关系是spr的概率,由几何约束给出。
6.一种离线手写体数学公式识别系统,其特征在于,包括:
公式分割模块,用于将手写体数学公式按照连通域进行分割,将获得的字符部件序列中的字符部件两两组合为字符部件对,并使用SVM分类器将字符部件对分类,再根据分类结果将属于同一字符的字符部件组合,获得若干字符;
字符识别模块,用于利用基于批量归一化和全局平均池化算法的卷积神经网络进行字符识别,获得字符的类别和字符的位置关系;对于无法识别的字符,看作粘连字符,对粘连字符进行分割操作后再进行字符识别操作;
字符分析与重构模块,用于根据字符的类别和位置关系对字符的组合进行几何和语义约束,再结合CYK算法自下而上的完成公式的重构。
7.根据权利要求6所述的一种离线手写体数学公式识别系统,其特征在于,将获得的字符部件序列中的字符部件两两进行组合为字符部件对,并使用SVM分类器将字符部件对分类,再根据分类结果将属于同一字符的字符部件组合的步骤如下:
根据得到的字符部件序列W{W0,W1,...,Wn}中字符部件之间的位置关系,将字符部件两两组合为字符部件对pm=(Wi,Wj),0≤m≤n-1,0≤i,j≤n,i≠j;
提取字符部件对pm=(Wi,Wj)中两个字符部件Wi与Wj之间的几何关系特征,作为字符部件对pm的特征;其中几何关系特征包括:两字符部件的包围盒中心距离、两字符部件图像质心距离、两字符部件的最短距离、包围盒水平重叠区域和/或竖直重叠区域;
根据字符部件对的几何关系特征,将字符部件对分为组合类与分离类,其中属于组合类的字符部件对中两字符部件属于同一字符,属于分离类的字符部件对中两部件不属于同一字符,使用监督学习的方法训练SVM分类器,完成对字符部件对的分类;
将相邻的且属于同一字符的字符部件组合,完成断裂字符的分割。
8.根据权利要求6所述的一种离线手写体数学公式识别系统,其特征在于,所述基于批量归一化和全局平均池化算法的卷积神经网络,使用1×1和3×3大小的卷积核,卷积神经网络包括:依次设置的第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第四池化层、第五卷积层、全局平均池化层以及softmax层;
其中,每个卷积层后都通过批量归一化算法进行归一化处理,全局平均池化层用于计算每个特征图的全局平均值;
所述通过批量归一化算法进行归一化处理包括:
首先,将数据归一化,运算操作如下:
<mrow> <msup> <mover> <mi>x</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mfrac> <mrow> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mo>-</mo> <mi>E</mi> <mo>&amp;lsqb;</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mo>&amp;rsqb;</mo> </mrow> <msqrt> <mrow> <mi>V</mi> <mi>a</mi> <mi>r</mi> <mo>&amp;lsqb;</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mo>&amp;rsqb;</mo> </mrow> </msqrt> </mfrac> <mo>;</mo> </mrow>
其中,x(k)为第k批数据,E[x(k)]为第k批数据的均值,表示第k批数据的方差;
然后,通过学习恢复出相应卷积层学习到的特征分布:
<mrow> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <msup> <mi>&amp;gamma;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <msup> <mover> <mi>x</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mo>+</mo> <msup> <mi>&amp;beta;</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> </mrow>
其中,γ(k)与β(k)为对应于第k批数据的可学习变量。
9.根据权利要求6所述的一种离线手写体数学公式识别系统,其特征在于,对粘连字符进行分割操作的步骤包括:
使用轮廓跟踪算法,提取粘连字符M的外部轮廓C;
使用凹角点检测算法,寻找字符外部轮廓C中的凹角点ci,其中0≤i≤I,I为凹角点总数;
将凹角点看做候选分割点,两两连线,得到候选分割线lj,其中
依次利用各候选分割线进行分割,并使用SVM分类器对分割结果进行验证识别,根据验证识别结果确定最佳分割线,从而完成粘连字符的分割操作。
10.根据权利要求6所述的一种离线手写体数学公式识别系统,其特征在于,根据字符的类别和位置关系对字符的组合进行几何和语义约束,再结合CYK算法自下而上的完成公式的重构包括:
对于几何约束,通过确定当前字符的位置和大小,确定当前字符的搜索范围,对在搜索范围内的字符尝试进行组合;
对于语义约束,采用二维随机上下文无关文法,二维随机上下文无关文法产生式规则转换的乔姆斯基范式如下所示:
A→t,Pr(A→t);
A,B,C∈VN,t∈VT
其中,VN是非终结符,VT是终结符,Pr(A→t)是终结符产生式规则A→t的概率,是非终结符产生式规则的概率,spr描述了非终结符的空间关系;
利用CYK算法结合几何约束和语义约束完成公式重构,分为两步:
a、初始化解析表,其目的是构建解析表的底层部分;初始化解析表的过程如下:
T1=T1∪{e1(A,S1,p1)};
对于给定的元素e1(A,S1,p),其表示一个子公式,该子公式是由S1中的字符组成,其概率p1为:
p1=p1(A)=p(A→t)p(t|h1);
其中,t是文法中的终结符,代表某数学符号,A是文法中的非终结符,p(t|h1)是字符h1被判定为数学符号t的概率;
b、自下而上地对子公式进行组合,构建解析表的高层部分;组合过程如下:
Tl=Tl∪{el(A,Sl,pl)},l=2,3,...,N;
设一个新的子公式el(A,Sl,pl)是由两个字符更少的子公式ek(A,Sk,pk)和el-k(A,Sl-k,pl-k)根据语义的约束组合而成,其中1≤k≤l-1;则el(A,Sl,pl)的概率pl为:
其中,pk、pl-k分别为ek(A,Sk,pk)、el-k(A,Sl-k,pl-k)的概率;p(Sk,Sl-k|spr)为Sk与Sl-k的空间关系是spr的概率,由几何约束给出。
CN201711049724.5A 2017-10-31 2017-10-31 一种手写体数学公式离线识别方法及系统 Pending CN107729865A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711049724.5A CN107729865A (zh) 2017-10-31 2017-10-31 一种手写体数学公式离线识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711049724.5A CN107729865A (zh) 2017-10-31 2017-10-31 一种手写体数学公式离线识别方法及系统

Publications (1)

Publication Number Publication Date
CN107729865A true CN107729865A (zh) 2018-02-23

Family

ID=61203042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711049724.5A Pending CN107729865A (zh) 2017-10-31 2017-10-31 一种手写体数学公式离线识别方法及系统

Country Status (1)

Country Link
CN (1) CN107729865A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647310A (zh) * 2018-05-09 2018-10-12 四川高原之宝牦牛网络技术有限公司 识别模型建立方法及装置、文字识别方法及装置
CN108898142A (zh) * 2018-06-15 2018-11-27 宁波云江互联网科技有限公司 一种手写公式的识别方法及计算设备
CN109360460A (zh) * 2018-12-10 2019-02-19 南京硕材信息科技有限公司 一种课堂即时反馈内容生成方法及系统
CN109977861A (zh) * 2019-03-25 2019-07-05 中国科学技术大学 离线手写体数学公式识别方法
CN109977958A (zh) * 2019-03-25 2019-07-05 中国科学技术大学 一种离线手写体数学公式识别重构方法
CN110020692A (zh) * 2019-04-13 2019-07-16 南京红松信息技术有限公司 一种基于印刷体模板的手写体分离与定位方法
CN110084239A (zh) * 2019-04-10 2019-08-02 中国科学技术大学 降低离线手写数学公式识别时网络训练过拟合的方法
CN110163211A (zh) * 2018-09-06 2019-08-23 腾讯科技(深圳)有限公司 一种图像识别方法、装置和存储介质
CN110263631A (zh) * 2019-05-10 2019-09-20 南京大学 一种手写化学公式识别与配平方法
CN110473551A (zh) * 2019-09-10 2019-11-19 北京百度网讯科技有限公司 一种语音识别方法、装置、电子设备及存储介质
CN110751137A (zh) * 2019-09-04 2020-02-04 中山大学 一种自动求解数学题的方法和系统
CN110858317A (zh) * 2018-08-24 2020-03-03 北京搜狗科技发展有限公司 手写识别方法及装置
CN110929573A (zh) * 2019-10-18 2020-03-27 平安科技(深圳)有限公司 基于图像检测的试题检查方法及相关设备
CN111046751A (zh) * 2019-11-22 2020-04-21 华中师范大学 公式识别方法和装置
CN112926567A (zh) * 2021-03-01 2021-06-08 中国科学院软件研究所 一种基于用户反馈信息的在线手写公式识别方法及装置
CN113095314A (zh) * 2021-04-07 2021-07-09 科大讯飞股份有限公司 一种公式识别方法、装置、存储介质及设备
CN115039144A (zh) * 2020-01-28 2022-09-09 迈思慧公司 手写中的数学检测

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040054701A1 (en) * 2002-03-01 2004-03-18 Garst Peter F. Modeless gesture driven editor for handwritten mathematical expressions
CN105512692A (zh) * 2015-11-30 2016-04-20 华南理工大学 基于blstm的联机手写数学公式符号识别方法
US20170011262A1 (en) * 2015-07-10 2017-01-12 Myscript System for recognizing multiple object input and method and product for same
CN106980856A (zh) * 2016-01-15 2017-07-25 上海谦问万答吧云计算科技有限公司 公式识别方法及系统和符号推理计算方法及系统
CN107169485A (zh) * 2017-03-28 2017-09-15 北京捷通华声科技股份有限公司 一种数学公式识别方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040054701A1 (en) * 2002-03-01 2004-03-18 Garst Peter F. Modeless gesture driven editor for handwritten mathematical expressions
US20170011262A1 (en) * 2015-07-10 2017-01-12 Myscript System for recognizing multiple object input and method and product for same
CN105512692A (zh) * 2015-11-30 2016-04-20 华南理工大学 基于blstm的联机手写数学公式符号识别方法
CN106980856A (zh) * 2016-01-15 2017-07-25 上海谦问万答吧云计算科技有限公司 公式识别方法及系统和符号推理计算方法及系统
CN107169485A (zh) * 2017-03-28 2017-09-15 北京捷通华声科技股份有限公司 一种数学公式识别方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SERGEY IOFFE ET AL.: "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift", 《ARXIV:1502.03167V3》 *
吴炳玮: "二维文法的研究及其在联机手写数学公式识别的应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
白士御: "基于SVM的印刷体数学公式识别方法研究与系统设计", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647310A (zh) * 2018-05-09 2018-10-12 四川高原之宝牦牛网络技术有限公司 识别模型建立方法及装置、文字识别方法及装置
CN108898142A (zh) * 2018-06-15 2018-11-27 宁波云江互联网科技有限公司 一种手写公式的识别方法及计算设备
CN108898142B (zh) * 2018-06-15 2022-03-18 宁波云江互联网科技有限公司 一种手写公式的识别方法及计算设备
CN110858317A (zh) * 2018-08-24 2020-03-03 北京搜狗科技发展有限公司 手写识别方法及装置
CN110858317B (zh) * 2018-08-24 2024-06-14 北京搜狗科技发展有限公司 手写识别方法及装置
CN110163211A (zh) * 2018-09-06 2019-08-23 腾讯科技(深圳)有限公司 一种图像识别方法、装置和存储介质
CN110163211B (zh) * 2018-09-06 2023-02-28 腾讯科技(深圳)有限公司 一种图像识别方法、装置和存储介质
CN109360460A (zh) * 2018-12-10 2019-02-19 南京硕材信息科技有限公司 一种课堂即时反馈内容生成方法及系统
CN109977861A (zh) * 2019-03-25 2019-07-05 中国科学技术大学 离线手写体数学公式识别方法
CN109977958A (zh) * 2019-03-25 2019-07-05 中国科学技术大学 一种离线手写体数学公式识别重构方法
CN110084239A (zh) * 2019-04-10 2019-08-02 中国科学技术大学 降低离线手写数学公式识别时网络训练过拟合的方法
CN110020692B (zh) * 2019-04-13 2023-04-07 南京红松信息技术有限公司 一种基于印刷体模板的手写体分离与定位方法
CN110020692A (zh) * 2019-04-13 2019-07-16 南京红松信息技术有限公司 一种基于印刷体模板的手写体分离与定位方法
CN110263631A (zh) * 2019-05-10 2019-09-20 南京大学 一种手写化学公式识别与配平方法
CN110263631B (zh) * 2019-05-10 2022-03-15 南京大学 一种手写化学公式识别与配平方法
CN110751137A (zh) * 2019-09-04 2020-02-04 中山大学 一种自动求解数学题的方法和系统
CN110473551A (zh) * 2019-09-10 2019-11-19 北京百度网讯科技有限公司 一种语音识别方法、装置、电子设备及存储介质
WO2021073266A1 (zh) * 2019-10-18 2021-04-22 平安科技(深圳)有限公司 基于图像检测的试题检查方法及相关设备
CN110929573A (zh) * 2019-10-18 2020-03-27 平安科技(深圳)有限公司 基于图像检测的试题检查方法及相关设备
CN111046751A (zh) * 2019-11-22 2020-04-21 华中师范大学 公式识别方法和装置
CN111046751B (zh) * 2019-11-22 2024-02-13 华中师范大学 公式识别方法和装置
CN115039144A (zh) * 2020-01-28 2022-09-09 迈思慧公司 手写中的数学检测
CN115039144B (zh) * 2020-01-28 2024-08-20 迈思慧公司 处理手写中的数学和文本的方法和计算装置
CN112926567A (zh) * 2021-03-01 2021-06-08 中国科学院软件研究所 一种基于用户反馈信息的在线手写公式识别方法及装置
CN113095314A (zh) * 2021-04-07 2021-07-09 科大讯飞股份有限公司 一种公式识别方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
CN107729865A (zh) 一种手写体数学公式离线识别方法及系统
Robby et al. Implementation of optical character recognition using tesseract with the javanese script target in android application
Tian et al. Wetext: Scene text detection under weak supervision
CN111259724A (zh) 从图像中提取相关信息的方法和系统及计算机程序产品
Jain et al. Multimodal document image classification
Singh et al. Offline script identification from multilingual indic-script documents: a state-of-the-art
CN105893968B (zh) 基于深度学习的文本无关的端到端的笔迹识别方法
Saady et al. Amazigh handwritten character recognition based on horizontal and vertical centerline of character
CN103488711A (zh) 一种快速制作矢量字库的方法及系统
CN104899601A (zh) 一种手写维吾尔文单词识别方法
CN112069900A (zh) 基于卷积神经网络的票据文字识别方法及系统
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN109977958A (zh) 一种离线手写体数学公式识别重构方法
CN110348280A (zh) 基于cnn结构神经网络的水书文字识别方法
He et al. Context-aware mathematical expression recognition: An end-to-end framework and a benchmark
CN109685061A (zh) 适用于结构化的数学公式的识别方法
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
CN105718935A (zh) 一种适宜于视觉大数据的词频直方图计算方法
Gandhi et al. An attempt to recognize handwritten Tamil character using Kohonen SOM
Aravinda et al. Template matching method for Kannada handwritten recognition based on correlation analysis
Ali et al. A new design based-fusion of features to recognize Arabic handwritten characters
Jia et al. Detecting text baselines in historical documents with baseline primitives
CN110852102A (zh) 一种中文的词性标注方法、装置、存储介质及电子设备
Sureshkumar et al. Handwritten Tamil character recognition and conversion using neural network
Srinivas et al. An overview of OCR research in Indian scripts

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180223