CN101329731A - 图像中数学公式的自动识别方法 - Google Patents

图像中数学公式的自动识别方法 Download PDF

Info

Publication number
CN101329731A
CN101329731A CNA2008100534431A CN200810053443A CN101329731A CN 101329731 A CN101329731 A CN 101329731A CN A2008100534431 A CNA2008100534431 A CN A2008100534431A CN 200810053443 A CN200810053443 A CN 200810053443A CN 101329731 A CN101329731 A CN 101329731A
Authority
CN
China
Prior art keywords
symbol
character
formula
mathematical formulae
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2008100534431A
Other languages
English (en)
Inventor
史广顺
肖萃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CNA2008100534431A priority Critical patent/CN101329731A/zh
Publication of CN101329731A publication Critical patent/CN101329731A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

一种图像中数学公式的自动识别方法。包括:建立数学公式句法结构模型,建立数学公式底层知识库;图像中数学公式的定位;数学符号的识别;数学公式结构的分析与理解,数学公式结构的表示与格式化输出。本发明针对脱机数学公式图像的识别与理解难题,设计了一整套方法模型,形成了全流程、自动化处理数学公式图像的方法。该方法可实现对文档图像中独立行/嵌入式数学公式的自动判定和提取,从而满足数学公式图像自动录入、数学公式结构理解与格式重现的应用需求。该方法可与现有的普通文字OCR系统相互融合,形成功能更为完整的文档图像处理系统。也可支撑其他领域的表达式处理方法研究,如针对化学方程式的自动处理等。

Description

图像中数学公式的自动识别方法
【技术领域】:
本发明属于计算机图像识别与处理技术领域,特别涉及图像中数学公式的识别与处理。
【背景技术】:
图像中数学公式的自动识别与理解,是文档图像处理与模式识别领域的世界级难题。数学公式是非常复杂的一种文档结构,广泛存在于各类文献书籍与技术资料中。由于数学符号的多义性和数学公式结构的多变性,使得数学公式难以被计算机进行自动处理,难于在Internet上进行广泛传播,大量的数学公式依然以图像的方式进行保存,这大大降低了数学领域知识共享与信息检索的效率,也给教育、科研、工程技术等领域的信息化工作制造了巨大的障碍。
数学公式图像的识别与理解方法的发展主要受到以下几类技术的影响和制约:
1.文档图像处理技术。
文档图像不仅包含数学公式,还包含普通文本以及图表。因此,需要首先对文档图像版面结构和逻辑结构进行分析和理解,然后从文档图像中确定数学公式的位置,从而将公式图像提取出来。
目前,OCR技术已经非常成熟,通用文档图像处理系统能够较好的完成一般文档图像从版面分解到最终版面恢复输出的全过程。但不同于普通文本图像,由于数学公式复杂的版面及语义特征,到目前为止,仍然没有完整、实用的数学公式图像自动处理方法和系统出现。
2.字符切分及识别技术。
数学公式符号识别就是在数学公式定位以后,切割并识别出数学公式中的所有符号。
目前,商业OCR系统能很好地处理1-D文本,能够将文本图像切分并识别转化为与之相对应的字符。但数学公式通常不是1-D的,且字符大小不一,符号出现的频率也不同于普通文本,而且公式中经常会出现希腊字母、运算符号等一般OCR识别引擎不能识别的符号。因此许多针对普通文本的方法用于数学公式符号识别时往往会适得其反,使得一般OCR系统对数学公式无能为力,公式符号识别率往往降到10%左右,甚至更低。
3.表达式结构描述及分析方法。
要实现对数学公式结构的正确识别和理解,首先就需要建立数学公式结构描述模型,准确地反映出公式图像和语义之间的关系。并在此基础上,设计分析流程,完成对数学公式图像结构的识别和理解。
近二十年来,研究者们提出了多种数学公式结构分析的处理方法。但是,单纯依靠版面信息无法有效消除数学符号的歧义性,不能准确理解数学公式的计算含义;单纯依靠语义语法规则又无法有效检查并纠正数学公式图像识别结果中的错误,鲁棒性不足。因此,对于数学公式的2-D结构及语义的多义性,还没有实用的理解方法。
到现在为止,在世界范围内,还没有出现成熟的、满足实际应用的数学公式图像自动处理系统。在所有的商用OCR软件中,都没有提供“数学公式的符号识别与结构理解”的功能。
【发明内容】:
本发明目的是解决现有图像中数学公式的自动识别与理解问题,提供一种图像中数学公式的自动识别方法。
本发明提供的图像中数学公式的自动识别方法,包括以下步骤:
第1、建立数学公式句法结构模型,
采用四元组G=(V,S,P,T)形式描述,即为:数学公式句法结构=(版面关系,字符集,句法规则,语法规则),如附图2所示。
版面关系:指数学公式的版面结构,包括构成公式的所有符号的内容、字体、字号,以及符号之间的空间位置关系;
字符集:组成一个数学公式的所有符号,包括所有操作符与操作数;根据符号内容调用相应的语法规则,确定符号之间的组合关系,检查符号出现的合法性;
语法规则:主要定义了符号所具有的语法信息,包括符号自身的语法属性和符号之间的约束关系和组合关系,包括操作属性、语法属性、判定规则、特殊组合规则、子表达式组合规则等信息,同时用于对定位及识别结果的校验和修正错误!未找到引用源。;
句法规则:句法规则是为以后扩展语义所服务的,它定义了所有类型操作符之间的优先级别、操作符的目类型,即操作符所拥有的子表达式的个数,和各种类型子表达式的组合结构和约束关系;主要用于分析不同运算符之间的优先级顺序,消除数学符号的多义性,并指导数学公式转换为其他的结构描述形式;
第2、建立数学公式底层知识库,包括:
符号信息:符号图像和符号内容;
语法信息:符号的操作属性、符号的语法属性或称符号的类别、符号语法属性的判定规则、符号具有的组合关系;
句法信息:符号的目类型、子表达式的组合关系和判定规则、操作符的优先级别;
第3、图像中数学公式的定位,
数学公式的定位方法为:将输入的图像进行区域和行切分,得到版面元素集合;然后,对不同的版面元素进行特征分类,从而定位出全部数学公式的独立图像,包括独立行公式和内嵌公式两类;数学公式的定位方法模型如附图3所示。
版面元素的特征分类由特征向量决定,
特征向量x=(HT,AS,BS,LI,RI,LD,TD,MS,SC),其中,
(10)行高:                HT=h/h0                      (1-1)
(11)上行间距:            AS=as/h0                     (1-2)
(12)下行间距:            BS=bs/h0                     (1-3)
(13)行左缩进:            LI=li/l                      (1-4)
(14)行右缩进:            RI=ri/l                      (1-5)
(15)公式编号和公式的距离:LD=ld/h0                     (1-6)
(16)有无二维结构:        TD={1|if存在二维结构}        (1-7)
(17)有无特殊数学符号:    MS={1|if存在特殊数学符号}    (1-8)
(18)区域中的最大连通体尺寸:SC=Max(Max(HCCXi,WCCXi))i=0..n,
HCCXi,WCCXi分别代表区域中的第i个连通体的高度和宽度,n是区域中连通体的数目,公式中的h是行的实际高度,l是行的实际长度,h0是行内所有字符的平均高度;
第3.1、独立行公式的定位方法,
独立行公式是文档图像中的一个特殊独立行,定位过程为:
第3.1.1、对文档图像进行区域划分。我们应用在X-Y方向反复投影的方法,通过寻找版面中的较大投影空白,将文档切分为较小的独立区域,得到多个版面区域元素;
第3.1.2、对不同版面区域的特征向量进行判定,过滤掉图、表元素;
第3.1.3、在将每个独立区域投影到Y轴,对区域进行行切分,得到行元素;
第3.1.4、将行元素的特征向量带入分类器,得到最终分类结果;
在系统的实现中我们使用parzen window(Richard O.Duda Peter E.Hart David G StorkPattern Classification Second Edition 2001 John Wiley&Sons,Inc.)的方法对文本行和公式行的先验概率分布进行估计;
使用已知类别的样本对未知的类条件概率密度p(x|ωj)进行估计,这实际上是分类器的训练过程,Parzen分类器的训练方法是:设任一类别ωk有Nk个训练样本x1 k,x2 k,......,那么Parzen分类器就由核函数以及窗宽度hk决定,公式(3-1)是最常使用的核函数,其中
Figure A20081005344300132
是p(x|ωk)的估计量,
Figure A20081005344300133
是类别的训练样本的协方差矩阵;
p ^ ( x | ω k ) = 1 N k Σ j = 1 N k [ 1 ( 2 π ) n / 2 h k n | Σ ^ k | 1 / 2 exp { - 1 2 h k 2 ( x - x j k ) T Σ ^ k - 1 ( x - x j k ) } ] - - - ( 3 - 1 )
得到估计以后,根据最小错误率的Bayes分类准则分类,即:
p ( x | ω i ) P ( ω i ) = max max j = 1,2 , . . . , k { p ( x | ω j ) P ( ω j ) } ⇒ x = ω i .
第3.2、内嵌公式的定位方法,
内嵌数学公式是和普通文字混合在一起的,为了实现公式与文本的分离,需要采用自底向上的方法,先将文字行打碎,然后在打碎的文字行中通过二维特征或识别特征的提取,挑出内嵌数学公式;通过下面两个步骤,对打碎的单词进行特征分类,以实现内嵌公式的定位:
第3.2.1、第一步是应用单词的二维特征,除标点符号外,一个正常单词的所有符号的主要部分都集中在baseline和meanline之间,baseline与meanline的位置如附图4所示。由于数学公式内部存在二维空间结构,符号的位置不在同一水平线上,在一个单词中,当处于meanline和baseline区域之外的连通体数量nab满足公式 n ab n > T ab , 那么这个单词就被认定具有二维结构,是一个内嵌公式,其中n是单词内的总符号数目,nab是单词内异常符号数目,Tab是判决为内嵌数学公式的阈值;通过在不同的阈值取值下,进行测试,选择实验结果最好的取值,作为最终的阈值。
第3.2.2、第二步是判断单词中是否具有特殊的数学符号,对于不存在二维结构的隐式内嵌公式,需要使用识别特征寻找单词中的数学符号,当存在数学符号就可以认定这个单词是内嵌公式,或内嵌公式的一个组成部分,然后将已定位部分向两端扩展,定位出完整的内嵌公式;
第4、数学符号的识别
数学符号识别的主要作用是:识别公式中的数学字符,保存字符版面信息,为结构分析模块提供必要信息。识别方法模型如附图5所示。
第4.1、字符切割
在字符识别前,需要从定位出的公式图像中,得到独立的字符图像。我们采用寻找连通体的方法,完成公式图像中字符的切割。另外,在得到所有连通体后,对以下三种字符结构情况,还需要进行连通体合并(在字符切分的过程中,我们所列出的三种情况的字符会被切分为多个连通体,无法得到字符完整的图像。因此,在切分后,需要针对这三种情况进行判断,合并相关联的连通体,得到字符完整图像),得到完整的字符。
(1)字符在垂直方向可分为多个连通体,例如“i”,
(2)字符在水平方向可分为多个连通体,例如“<<”,
(3)大连通体包含小连通体,例如“Θ”。
第4.2、普通数学字符的识别
对普通数学字符的识别基于两类特征:字符结构特征与字符统计特征;
1)字符统计特征的抽取:
令待识别符号ω图像为Iw,ω的外接矩形坐标是(0,0,w,h),把ω均分成4×4个小块,每个小块上计算3个特征:块黑像素密度、块重心水平、竖直坐标,定义:
&delta; ( x , y ) = { 1 0 < x &le; 1,0 < y &le; 1 0 else - - - ( 8 - 1 )
M ( x , y ) = &Sigma; i = 0 w &Sigma; j = 0 h &delta; ( x - i , y - j ) I w ( i , j ) - - - ( 8 - 2 )
黑象素密度,块重心水平坐标,块重心竖直坐标则根据下列公式计算:
f &OverBar; 1 = &Integral; 0 h &Integral; 0 w M ( x , y ) dxdy h &times; w - - - ( 8 - 3 )
f &OverBar; 2 = &Integral; 0 h &Integral; 0 w M ( x , y ) xdxdy &Integral; 0 h &Integral; 0 w M ( x , y ) dxdy - - - ( 8 - 4 )
f &OverBar; 3 = &Integral; 0 h &Integral; 0 w M ( x , y ) ydydx &Integral; 0 h &Integral; 0 w M ( x , y ) dxdy - - - ( 8 - 5 )
把f1,f2,f3映射到[0,255],得到最终使用的特征
Figure A20081005344300155
Figure A20081005344300156
Figure A20081005344300157
Figure A20081005344300158
计算每个小块的得到f1,f2,...,f48;计算整个符号的
Figure A200810053443001510
得到f49,f50和f51;计算整个符号的宽高比r并映射到[0,255],用f52表示;
r = w h - - - ( 8 - 9 )
Figure A200810053443001512
这样,字符ω可以用识别特征向量feat表示,feat=(f1,f2,...,f52);
其中,符号h表示字符实际高度;符号w表示字符实际宽度。
2)字符结构特征的抽取:
如果待识别字符ω的所有训练字样ωi在点(x,y)处的取值都相同,那么点(x,y)就是一个稳定点;否则点(x,y)就是一个非稳定点;根据式(8-11)和式(8-12),得到ω的稳定黑点图B及稳定白点图W;
B &omega; = &cap; i I &omega; i - - - ( 8 - 11 )
w &omega; = &cup; i I &omega; i - - - ( 8 - 12 )
然后分别对B和W进行黑特征点抽取和白特征点抽取,得到待识别字符结构ω的识别结构特征;
第4.2.1、首先应用字符统计特征进行粗分类,计算待识别字符与样本字符的统计特征向量距离,并选择距离较小的样本作为候选识别结果;定义向量距离函数如下:
DIS ( feat 1 , feat 2 ) = &Sigma; i = 1 52 ( feat 1 &CenterDot; f i - feat 2 &CenterDot; f i ) 2 52 - - - ( 8 - 13 )
那么满足式(8-14)的符号ωk就是待识别符号ω的候选识别结果。
DIS ( feat &omega; , feat &omega; k ) = min &omega; i &Element; &Omega; DIS ( feat &omega; , feat &omega; i ) - - - ( 8 - 14 )
其中,符号DIS表示特征向量间的距离;feat表示特征向量;fi表示特征元素。
第4.2.2、应用字符的结构特征对上步确认的候选字进行验证,通过待识别字符与候选样本字符间黑点图与白点图的匹配,选择失配点最少的样本作为最终识别结果;
第4.3、特殊数学字符的识别
特殊符号指的是宽高比例r不固定的符号,包括:水平直线,竖直直线,水平方向箭头,竖直方向箭头,根号;特殊字符的识别需要针对不同符号的特殊结构特征,设计符号专用的识别分析方法:
第4.3.1、方向箭头识别,利用投影的方法,将方向箭头符号分成三个部分:符号头部、符号尾部和符号中部,附图6描述了水平方向箭头的结构。符号中部是一条或两条直线,很容易识别,而符号头部和符号尾部的形状比较复杂,采用了特征点匹配的识别方法;在符号识别阶段,对宽高比例异常的符号利用投影的方法被切割成三部分分别识别,如果三个部分的识别结果能够组合成合法的方向箭头符号,那么这个方向箭头符号就是识别结果;
第4.3.2、根号识别,根据根号的结构和语法特征,我们定义以下条件,如果一个待识别字符ω满足这些条件,我们就认为它是一个根号:
(1)ω外接矩形面积大于一般符号的外接矩形面积;
(2)ω所在区域包含其他符号;
(3)从ω左侧向右或下侧向上,沿扫描线深入ω所在区域超过一半,不会遇到黑像素阻挡;
(4)ω最上部存在一条水平直线;
(5)ω最下部存在一个拐点;
第4.3.3、竖直直线识别,如果待识别符号ω的宽高比r<TVLR,并且ω不是竖直箭头符号,那么就认为ω就是竖直直线;其中TVLR是竖直直线宽高比例的最大阈值;竖直直线除了可以作为一个符号单独存在以外,还有可能是符号“||”的一部分,所以,如果存在两条竖直直线相邻,并且高度相同,距离接近,那么就合并这两条竖直直线为“||”;
第4.3.4、水平直线识别,如果待识别符号ω的宽高比r>THLR,并且ω不是水平箭头符号,那么就认为ω就是水平直线;其中THLR是水平直线宽高比例的最小阈值;水平直线的含义很多,我们可以根据其上方和下方存在的符号的数量,以及这些符号和水平直线的位置关系,来对水平直线具体内容进行判断;
第4.4、基于熵与熵降的专用识别分类器设计
字符识别分类器用于快速找到与待识别字符特征匹配的样本字符,从而得到准确的识别结果;该识别分类器选用决策树作为本识别的模型,在分类树的建立过程中使用基于熵降的聚类算法;决策树的建立过程如下,
[决策树建立算法]
初始状态:输入对象为数学符号集中所有字符,建立空的决策树根节点,
步骤1:初始化当前节点类别信息;
步骤2:设计数参数N值为1;
步骤3:使用K-means聚类算法,对节点字符集中的字符进行聚类,K取值为当前N值;
步骤4:记录增益最大的聚类结果;
步骤5:令N值加1,若N值小于阈值,重复步骤3;
步骤6:将聚类结果保存到当前决策树节点中;
步骤7:若当前节点没有达到叶节点,建立新节点,重复步骤1;
在决策树的每一层聚类过程中,根据样本符号的特征向量反复使用K-means聚类算法聚类,并选取具有最大增益的分类作为当前节点的聚类结果;这样的策略能够保证每一次的聚类都是增益最大,保证了熵降比较大和覆盖比较小之间的一个最优平衡;
第5、数学公式结构的分析与理解
基于数学公式结构描述规则库,采用“自顶向下”的处理流程对数学公式的结构进行迭代式的分析;首先通过版面信息找到公式的核心骨干层次,然后利用语法和句法规则将该层次转换为一棵能反映公式正确计算顺序和结构的句法树;当该层次全部分析完成,再从公式中找到次级核心骨干层次,对句法树进行扩充;不断重复这一过程,直到公式结构分析全部完成;结构分析与理解详细方法模型如附图7所示。
本文采用树型结构描述数学公式,每一个操作符的树型结构都是与其对应的句法规则的一个实例;处理流程描述如下:
[数学公式结构分析算法]
初始状态:处理对象为公式中所有符号,创建空的根结点,
步骤1:通过版面分析以确定属于第一层次的操作符。可利用的版面信息包括:操作符的水平中心线HCL,符号的大小,表达式图像外接矩形的水平中心坐标等。首先,将所有字符按照HCL的值进行聚类,得到公式中所有骨干线信息;然后,挑选出具有最高优先级的骨干线作为当前分析层次对象。
步骤2:应用语法规则。判断字符语法属性,确定当前骨干层次的核心操作符集;
步骤3:应用句法规则。首先,对当前骨干层次核心操作符进行优先级比较,选择最高优先级操作符,标记为句法树根节点;然后,进行公式结构拆分、子表达式拆解等句法结构分析,得到当前层次的句法树结构;
步骤4:选择公式中次高级别的骨干层次作为下一个处理对象,跳至第一步,循环重复,直至结构分析完成;
采用以上算法,数学公式图像的识别结果可以最终被组织成遵循计算顺序的树型结构;
以公式 y = &Integral; 0 d sinxdx- ln x 2 a 为例,附图8(a)和8(b)描述了提取其核心操作符的过程。首先,通过版面结构分析将公式划分为多个相互关联的层次,并提取出具有最高优先级(反映公式骨干结构)的骨干层次;然后,对当前层次的操作符进行语法结构分析,利用组合规则将特殊操作符合并,如“∫0 dsin xdx”和“
Figure A20081005344300191
”,最终得到当前层次的核心操作符集{=,-}。最后,通过句法规则驱动,对其他骨干层次依次进行结构分析、句法树填充,最终形成一棵完整反映公式结构的句法结构树(附图8(c))。
第6、数学公式结构的表示与格式化输出
第6.1、针对数学公式的版面结构,其表示和格式化输出体现在以下几个方面:
第6.1.1、自动转化为LATEX、或MathML格式,实现版式重现;
第6.1.2、兼容各种数学公式编辑器,将识别和分析结果自动输入到公式编辑器中,为下一步的手工修改和编辑奠定基础;
第6.2、针对数学公式的语义结构,其表示和格式化输出体现在以下几个方面:
第6.2.1、以运算符和定界符为线索,将数学公式依据优先级和运算关系转化为语义结构树,清晰表达数学公式含义;
第6.2.2、将数学公式语义结构自动转化为Matlab计算工具的程序代码,实现自动化编程;或自动转化为MathML脚本语言,满足数学公式的网络化传播。
本发明的优点和积极效果:
本发明针对脱机数学公式图像的识别与理解难题,设计实现了一整套方法模型,覆盖了数学公式定位、公式符号切分识别、公式结构描述与分析、数学公式底层知识库、公式结构重现与转换等关键步骤,将文档图像分析技术、字符切分与识别技术、句法结构分析技术、表达式结构描述技术等进行融合,形成了全流程、自动化处理数学公式图像的方法体系。
该方法体系可实现对文档图像中独立行/潜入式数学公式的自动判定和提取,实现对公式符号的自动识别以及结构的自动分析,并可对数学公式的句法结构和语法结构进行自动检查和纠错,从而满足数学公式图像自动录入、数学公式结构理解与格式重现的应用需求。该方法体系可与现有的普通文字OCR系统相互融合,形成功能更为完整的文档图像处理系统。也可支撑其他领域的表达式处理方法研究,如针对化学方程式的自动处理。
【附图说明】:
图1是数学公式识别方法模型,
图2是数学公式句法结构模型,
图3是复杂结构文档图像中数学公式定位方法模型,
图4是meanline与baseline的位置示意图,
图5是数学字符识别方法模型,
图6是方向箭头符号识别,
图7是句法结构分析模型,
图8是数学公式结构分析与理解过程描述,
图9是以公式v=clog10(1+|u|)为例,应用本发明处理方法的具体实施过程,
图10是以公式 x = - b &PlusMinus; b 2 - 4 ac 2 a 为例的处理过程及结果,
图11是本发明涉及的数学字符集列表,其中A是操作数列表,包括的英文大小写字母、数字、希腊字母共102个字符;B是操作符列表,包括数学运算符、三角函数、界定说明符号等共108个;C是数学公式基础版面类型示例;D是部分语法信息编码形式;E是部分句法信息编码形式。
【具体实施方式】:
实施例1:
以公式v=clog10(1+|u|)为例,应用以上模型的处理方法,具体实施过程如附图9所示:
1.公式的自动定位。
第一步,对输入的文档图像进行区域划分,过滤掉图表;
第二步,对每个区域进行行切分,得到公式v=clog10(1+|u|)行元素;
第三步,行元素进行特征向量判定。由于公式v=clog10(1+|u|)具有较大的行高、上下间距及左右缩进,而且具有二维结构和特殊数学符号,符合独立行公式的特征。因此,被定位为独立行数学公式;
2.数学字符识别。
第一步,切分数学公式图像中的连通体,得到独立的字符图像;
第二步,对字符图像的识别分为一下三种情况:
a)对普通字符,如v/c/o/g/(/),计算每个字符图像的识别特征(统计特征和结构特征),将特征向量带入分类器,得到与之匹配的样本,完成识别;
b)对特殊字符,如直线|,需要应用竖直线专用的特殊处理方法进行分析,最终识别为定界符;
c)对于等号=,它由两个连通体组成,需要在每个连通体进行识别之后,进行组合。最后,字符识别的结果为:vclog10(1+|u|)=
3.公式结构分析。
第一步,进行版面结构分析,得到公式的第一骨干层次:v=clog();
第二步,对当前层次的操作符进行语法结构分析,得到核心操作符集{=,log}
第三步,应用句法规则,进行句法树的扩展和填充。由句法规则中的优先级关系可知,“=”的优先级高于“log”,因此,“=”被标记为句法树的根节点。然后,将log,和当前层次的其他字符按照句法规则依次填入,得到当前骨干层次的句法结构树;
第四步,依次对公式中其他层次进行相同处理,最终得到带有完整结构信息的公式树结构(附图9中最后部分);
4.公式结构的格式化输出。通过转换句法树中的结构信息和节点内容,公式最终可以表示为如下通用形式:
●公式的Latex格式
v=c\log_{10}\left({1+\left|u\right|}\right)
●公式的MathML格式
<math displaystyle=′true′>
  <semantics>
     <mrow>
       <mi>v</mi><mo>=</mo><mi>c</mi><msub>
         <mrow>
           <mo>log</mo>
         </mrow>
         <mrow>
           <mn>10</mn>
         </mrow>
       </msub>
            <mrow><mo>(</mo>
              <mrow>
                 <mn>1</mn><mo>+</mo><mrow><mo>|</mo><mi>u</mi>
  <mo>|</mo></mrow>
             </mrow>
          <mo>)</mo></mrow>
       </mrow>
   </semantics>
</math>
实施例2
以公式 x = - b &PlusMinus; b 2 - 4 ac 2 a 为例,处理过程及结果如附图10所示,过程与实例1相似:
1.公式的自动定位。
第一步,对输入的文档图像进行区域划分,过滤掉图表;
第二步,对每个区域进行行切分,得到公式 x = - b &PlusMinus; b 2 - 4 ac 2 a 行元素;
第三步,行元素进行特征向量判定。由于公式 x = - b &PlusMinus; b 2 - 4 ac 2 a 具有较大的行高、上下
间距及左右缩进,并具有较大的连通体-根号,符合独立行公式的特征。因此,被定位为独立行数学公式;
2.数学字符识别。
第一步,切分数学公式图像中的连通体,得到独立的字符图像;
第二步,对字符图像的识别分为一下三种情况:
a)对普通字符,如x/-/b/±/4/a/c/2,计算每个字符图像的识别特征(统计特征和结构特征),将特征向量带入分类器,得到与之匹配的样本,完成识别;
b)对特殊字符,如水平直线-和大连通体
Figure A20081005344300224
需要应用它们专用的特殊处理方法进行分析,最终识别为分号和根号;
c)对于等号=,它由两个连通体组成,需要在每个连通体进行识别之后,进行组合。最后,字符识别的结果为:-b±√b2-4ac2a-=
3.公式结构分析。
第一步,进行版面结构分析,得到公式的第一骨干层次:x=-;
第二步,对当前层次的操作符进行语法结构分析,得到核心操作符集{=}
第三步,应用句法规则,进行句法树的扩展和填充。由于核心操作符集中只有一个元素,因此,“=”被标记为句法树的根节点。然后,将当前层次的其他字符按照句法规则依次填入,得到当前骨干层次的句法结构树;
第四步,依次对公式中其他层次进行相同处理,最终得到带有完整结构信息的公式树结构(附图10中最后部分);
4.公式结构的格式化输出。通过转换句法树中的结构信息和节点内容,公式最终可以表示为如下通用形式:
●公式的Latex形式
x=\frac{{-b\pm\sqrt{b^2-4ac}}}
{{2a}}
●公式的MathML形式
     <math displaystyle=′true′>
       <semantics>
          <mrow>
            <mi>x</mi><mo>=</mo><mfrac>
              <mrow>
                <mo>-</mo><mi>b</mi><mo>&plusmn;</mo><msqrt>
                  <mrow>
                    <msup>
                      <mi>b</mi>
                      <mn>2</mn>
                    </msup>
                    <mo>-</mo><mn>4</mn><mi>a</mi><mi>c</mi>
                  </mrow>
               </msqrt>
            </mrow>
            <mrow>
              <mn>2</mn><mi>a</mi>
            </mrow>
         </mfrac>
      </mrow>
   </semantics>
</math>

Claims (1)

1、一种图像中数学公式的自动识别方法,其特征在于包括以下步骤:
第1、建立数学公式句法结构模型,
采用四元组G=(V,S,P,T)形式描述,即为:数学公式句法结构=(版面关系,字符集,句法规则,语法规则),其中,
版面关系:指数学公式的版面结构,包括构成公式的所有符号的内容、字体、字号,以及符号之间的空间位置关系;
字符集:组成一个数学公式的所有符号,包括所有操作符与操作数;根据符号内容调用相应的语法规则,确定符号之间的组合关系,检查符号出现的合法性;
语法规则:主要定义了符号所具有的语法信息,包括符号自身的语法属性和符号之间的约束关系和组合关系,包括操作属性、语法属性、判定规则、特殊组合规则、子表达式组合规则等信息,同时用于对定位及识别结果的校验和修正错误!未找到引用源。;
句法规则:句法规则是为以后扩展语义所服务的,它定义了所有类型操作符之间的优先级别、操作符的目类型,即操作符所拥有的子表达式的个数,和各种类型子表达式的组合结构和约束关系;主要用于分析不同运算符之间的优先级顺序,消除数学符号的多义性,并指导数学公式转换为其他的结构描述形式;
第2、建立数学公式底层知识库,包括:
符号信息:符号图像和符号内容;
语法信息:符号的操作属性、符号的语法属性或称符号的类别、符号语法属性的判定规则、符号具有的组合关系;
句法信息:符号的目类型、子表达式的组合关系和判定规则、操作符的优先级别;
第3、图像中数学公式的定位,
数学公式的定位方法为:将输入的图像进行区域和行切分,得到版面元素集合;然后,对不同的版面元素进行特征分类,从而定位出全部数学公式的独立图像,包括独立行公式和内嵌公式两类;
版面元素的特征分类由特征向量决定,
特征向量x=(HT,AS,BS,LI,RI,LD,TD,MS,SC),其中,
(1)行高:                HT=h/h0                   (1-1)
(2)上行间距:            AS=as/h0                  (1-2)
(3)下行间距:            BS=bs/h0                  (1-3)
(4)行左缩进:            LI=li/l                   (1-4)
(5)行右缩进:            RI=ri/l                   (1-5)
(6)公式编号和公式的距离:LD=ld/h0                  (1-6)
(7)有无二维结构:        TD={1|if存在二维结构}     (1-7)
(8)有无特殊数学符号:    MS={1|if存在特殊数学符号} (1-8)
(9)区域中的最大连通体尺寸:SC=Max(Max(HCCXi,WCCXi))i=0..n,
HCCXi,WCCXi分别代表区域中的第i个连通体的高度和宽度,n是区域中连通体的数目,公式中的h是行的实际高度,l是行的实际长度,h0是行内所有字符的平均高度;
第3.1、独立行公式的定位方法,
独立行公式是文档图像中的一个特殊独立行,定位过程为:
第3.1.1、对文档图像进行区域划分,我们应用在X-Y方向反复投影的方法,通过寻找版面中的较大投影空白,将文档切分为较小的独立区域,得到多个版面区域元素;
第3.1.2、对不同版面区域元素的特征向量进行判定,过滤掉图、表元素;
第3.1.3、将每个独立区域投影到Y轴,对区域进行行切分,得到行元素;
第3.1.4、将行元素的特征向量带入分类器,得到最终分类结果;
在系统的实现中我们使用parzen window的方法对文本行和公式行的先验概率分布进行估计;
使用已知类别的样本对未知的类条件概率密度p(x|ωj)进行估计,这实际上是分类器的训练过程,Parzen分类器的训练方法是:设任一类别ωk有Nk个训练样本
Figure A2008100534430003C1
那么Parzen分类器就由核函数以及窗宽度hk决定,公式(3-1)是最常使用的核函数,其中
Figure A2008100534430004C1
是p(x|ωk)的估计量,
Figure A2008100534430004C2
是类别的训练样本的协方差矩阵;
p ^ ( x | &omega; k ) = 1 N k &Sigma; j = 1 N k [ 1 ( 2 &pi; ) n / 2 h k n | &Sigma; ^ k | 1 / 2 exp { - 1 2 h k 2 ( x - x j k ) T &Sigma; ^ k - 1 ( x - x j k ) } ] - - - ( 3 - 1 )
得到估计以后,根据最小错误率的Bayes分类准则分类了,即:
p ( x | &omega; i ) P ( &omega; i ) = max max j = 1,2 , . . . , k { p ( x | &omega; j ) P ( &omega; j ) } &DoubleRightArrow; x = &omega; i ;
第3.2、内嵌公式的定位方法,
内嵌数学公式是和普通文字混合在一起的,为了实现公式与文本的分离,需要采用自底向上的方法,先将文字行打碎,然后在打碎的文字行中通过二维特征或识别特征的提取,挑出内嵌数学公式;通过下面两个步骤,对打碎的单词进行特征分类,以实现内嵌公式的定位:
第3.2.1、第一步是应用单词的二维特征,除标点符号外,一个正常单词的所有符号的主要部分都集中在baseline和meanline之间,由于数学公式内部存在二维空间结构,符号的位置不在同一水平线上,在一个单词中,当处于meanline和baseline区域之外的连通体数量nab满足公式 n ab n > T ab , 那么这个单词就被认定具有二维结构,是一个内嵌公式,其中n是单词内的总符号数目,nab是单词内异常符号数目,Tab是判决为内嵌数学公式的阈值;
第3.2.2、第二步是判断单词中是否具有特殊的数学符号,对于不存在二维结构的隐式内嵌公式,需要使用识别特征寻找单词中的数学符号,当存在数学符号就可以认定这个单词是内嵌公式,或内嵌公式的一个组成部分,然后将已定位部分向两端扩展,定位出完整的内嵌公式;
第4、数学符号的识别
数学符号识别的主要作用是:识别公式中的数学字符,保存字符版面信息,为结构分析模块提供必要信息,识别方法如下:
第4.1、字符切割
在字符识别前,需要从定位出的公式图像中,得到独立的字符图像;我们采用寻找连通体的方法,完成公式图像中字符的切割;另外,在得到所有连通体后,对以下三种字符结构情况,还需要进行连通体合并,得到完整的字符图像,
(1)字符在垂直方向可分为多个连通体,
(2)字符在水平方向可分为多个连通体,
(3)大连通体包含小连通体;
第4.2、普通数学字符的识别
对普通数学字符的识别基于两类特征:字符结构特征与字符统计特征;
1)字符统计特征的抽取:
令待识别符号ω图像为Iw,ω的外接矩形坐标是(0,0,w,h),把ω均分成4×4个小块,每个小块上计算3个特征:块黑像素密度、块重心水平、竖直坐标,定义:
&delta; ( x , y ) = 1 0 < x &le; 1,0 < y &le; 1 0 else - - - ( 8 - 1 )
M ( x , y ) = &Sigma; i = 0 w &Sigma; j = 0 h &delta; ( x - i , y - j ) I w ( i , j ) - - - ( 8 - 2 )
黑象素密度,块重心水平坐标,块重心竖直坐标则根据下列公式计算:
f &OverBar; 1 = &Integral; 0 h &Integral; 0 w M ( x , y ) dxdy h &times; w - - - ( 8 - 3 )
f &OverBar; 2 = &Integral; 0 h &Integral; 0 w M ( x , y ) xdxdy &Integral; 0 h &Integral; 0 w M ( x , y ) dxdy - - - ( 8 - 4 )
f &OverBar; 3 = &Integral; 0 h &Integral; 0 w M ( x , y ) ydydx &Integral; 0 h &Integral; 0 w M ( x , y ) dxdy - - - ( 8 - 5 )
把f1,f2,f3映射到[0,255],得到最终使用的特征
Figure A2008100534430005C6
Figure A2008100534430005C7
Figure A2008100534430005C8
Figure A2008100534430005C9
计算每个小块的
Figure A2008100534430005C10
得f1,f2,...,f48;计算整个符号的
Figure A2008100534430005C11
得到f49,f50和f51
计算整个符号的宽高比r并映射到[0,255],用f52表示;
r = w h - - - ( 8 - 9 )
Figure A2008100534430006C2
这样,字符ω可以用识别特征向量feat表示,feat=(f1,f2,...,f52);
其中,符号h表示字符实际高度;符号w表示字符实际宽度;
2)字符结构特征的抽取:
如果待识别字符ω的所有训练字样ωi在点(x,y)处的取值都相同,那么点(x,y)就是一个稳定点;否则点(x,y)就是一个非稳定点;根据式(8-11)和式(8-12),得到ω的稳定黑点图B及稳定白点图W;
B &omega; = &cap; i I &omega; i - - - ( 8 - 11 )
w &omega; = &cup; i I &omega; i - - - ( 8 - 12 )
然后分别对B和W进行黑特征点抽取和白特征点抽取,得到待识别字符结构ω的识别结构特征;
第4.2.1、首先应用字符统计特征进行粗分类,计算待识别字符与样本字符的统计特征向量距离,并选择距离较小的样本作为候选识别结果;定义向量距离函数如下:
DIS ( feat 1 , feat 2 ) = &Sigma; i = 1 52 ( feat 1 &CenterDot; f i - feat 2 &CenterDot; f i ) 2 52 - - - ( 8 - 13 )
那么满足式(8-14)的符号ωk就是待识别符号ω的候选识别结果。
DIS ( feat &omega; , feat &omega; k ) = min &omega; i &Element; &Omega; DIS ( feat &omega; , feat &omega; i ) - - - ( 8 - 14 )
其中,符号DIS表示特征向量间的距离;feat表示特征向量;fi表示特征元素;
第4.2.2、应用字符的结构特征对上步确认的候选字进行验证,通过待识别字符与候选样本字符间黑点图与白点图的匹配,选择失配点最少的样本作为最终识别结果;
第4.3、特殊数学字符的识别
特殊符号指的是宽高比例r不固定的符号,包括:水平直线,竖直直线,水平方向箭头,竖直方向箭头,根号;特殊字符的识别需要针对不同符号的特殊结构特征,设计符号专用的识别分析方法:
第4.3.1、方向箭头识别,利用投影的方法,将方向箭头符号分成三个部分:符号头部、符号尾部和符号中部,符号中部是一条或两条直线,很容易识别,而符号头部和符号尾部的形状比较复杂,采用了特征点匹配的识别方法;在符号识别阶段,对宽高比例异常的符号利用投影的方法被切割成三部分分别识别,如果三个部分的识别结果能够组合成合法的方向箭头符号,那么这个方向箭头符号就是识别结果;
第4.3.2、根号识别,根据根号的结构和语法特征,我们定义以下条件,如果一个待识别字符ω满足这些条件,我们就认为它是一个根号:
(1)ω外接矩形面积大于一般符号的外接矩形面积;
(2)ω所在区域包含其他符号;
(3)从ω左侧向右或下侧向上,沿扫描线深入ω所在区域超过一半,不会遇到黑像素阻挡;
(4)ω最上部存在一条水平直线;
(5)ω最下部存在一个拐点;
第4.3.3、竖直直线识别,如果待识别符号ω的宽高比r<TVLR,并且ω不是竖直箭头符号,那么就认为ω就是竖直直线;其中TVLR是竖直直线宽高比例的最大阈值;竖直直线除了可以作为一个符号单独存在以外,还有可能是符号“||”的一部分,所以,如果存在两条竖直直线相邻,并且高度相同,距离接近,那么就合并这两条竖直直线为“||”;
第4.3.4、水平直线识别,如果待识别符号ω的宽高比r>THLR,并且ω不是水平箭头符号,那么就认为ω就是水平直线;其中THLR是水平直线宽高比例的最小阈值;水平直线的含义很多,我们可以根据其上方和下方存在的符号的数量,以及这些符号和水平直线的位置关系,来对水平直线具体内容进行判断;
第4.4、基于熵与熵降的专用识别分类器设计
字符识别分类器用于快速找到与待识别字符特征匹配的样本字符,从而得到准确的识别结果;该识别分类器选用决策树作为本识别的模型,在分类树的建立过程中使用基于熵降的聚类算法;决策树的建立过程如下,
[决策树建立算法]
初始状态:输入对象为数学符号集中所有字符,建立空的决策树根节点,
步骤1:初始化当前节点类别信息;
步骤2:设计数参数N值为1;
步骤3:使用K-means聚类算法,对节点字符集中的字符进行聚类,K取值为当前N值;
步骤4:记录增益最大的聚类结果;
步骤5:令N值加1,若N值小于阈值,重复步骤3;
步骤6:将聚类结果保存到当前决策树节点中;
步骤7:若当前节点没有达到叶节点,建立新节点,重复步骤1;
在决策树的每一层聚类过程中,根据样本符号的特征向量反复使用K-means聚类算法聚类,并选取具有最大增益的分类作为当前节点的聚类结果;这样的策略能够保证每一次的聚类都是增益最大,保证了熵降比较大和覆盖比较小之间的一个最优平衡;
第5、数学公式结构的分析与理解
基于数学公式结构描述规则库,采用“自顶向下”的处理流程对数学公式的结构进行迭代式的分析;首先通过版面信息找到公式的核心骨干层次,然后利用语法和句法规则将该层次转换为一棵能反映公式正确计算顺序和结构的句法树;当该层次全部分析完成,再从公式中找到次级核心骨干层次,对句法树进行扩充;不断重复这一过程,直到公式结构分析全部完成;
本文采用树型结构描述数学公式,每一个操作符的树型结构都是与其对应的句法规则的一个实例;处理流程描述如下:
[数学公式结构分析算法]
初始状态:处理对象为公式中所有符号,创建空的根结点,
步骤1:进行版面结构分析,提取第一层次的所有字符;
步骤2:应用语法规则,确定核心操作符集;
步骤3:应用句法规则,判断操作符优先级,按优先级顺序将核心操作符的子表达式结构填充到结构树中;
步骤4:选择公式中次高级别的骨干层次作为下一个处理对象,跳至第一步,循环重复,直至结构分析完成;
采用以上算法,数学公式图像的识别结果可以最终被组织成遵循计算顺序的树型结构;
第6、数学公式结构的表示与格式化输出
第6.1、针对数学公式的版面结构,其表示和格式化输出体现在以下几个方面:
第6.1.1、自动转化为LATEX、或MathML格式,实现版式重现;
第6.1.2、兼容各种数学公式编辑器,将识别和分析结果自动输入到公式编辑器中,为下一步的手工修改和编辑奠定基础;
第6.2、针对数学公式的语义结构,其表示和格式化输出体现在以下几个方面:
第6.2.1、以运算符和定界符为线索,将数学公式依据优先级和运算关系转化为语义结构树,清晰表达数学公式含义;
第6.2.2、将数学公式语义结构自动转化为Matlab计算工具的程序代码,实现自动化编程;或自动转化为MathML脚本语言,满足数学公式的网络化传播。
CNA2008100534431A 2008-06-06 2008-06-06 图像中数学公式的自动识别方法 Pending CN101329731A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2008100534431A CN101329731A (zh) 2008-06-06 2008-06-06 图像中数学公式的自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2008100534431A CN101329731A (zh) 2008-06-06 2008-06-06 图像中数学公式的自动识别方法

Publications (1)

Publication Number Publication Date
CN101329731A true CN101329731A (zh) 2008-12-24

Family

ID=40205533

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2008100534431A Pending CN101329731A (zh) 2008-06-06 2008-06-06 图像中数学公式的自动识别方法

Country Status (1)

Country Link
CN (1) CN101329731A (zh)

Cited By (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102035983A (zh) * 2009-09-29 2011-04-27 夏普株式会社 图像处理装置及图像处理方法
CN102156890A (zh) * 2011-04-25 2011-08-17 汉王科技股份有限公司 手写公式的笔画切分方法及装置
CN102184395A (zh) * 2011-06-08 2011-09-14 天津大学 基于字符串核的手绘草图识别方法
CN102376079A (zh) * 2010-08-12 2012-03-14 富士施乐株式会社 图像识别信息添加装置和图像识别信息添加方法
CN102446267A (zh) * 2010-09-30 2012-05-09 汉王科技股份有限公司 公式符号识别方法及其装置
CN102467664A (zh) * 2010-11-01 2012-05-23 航天信息股份有限公司 辅助光学字符识别的方法和装置
CN102033863B (zh) * 2009-09-30 2012-07-04 北大方正集团有限公司 一种公式处理方法与系统
CN102542273A (zh) * 2011-12-02 2012-07-04 方正国际软件有限公司 一种文档图像中复杂公式区域的检测方法及系统
CN102629382A (zh) * 2012-03-05 2012-08-08 河南理工大学 基于几何兼容性的特征点匹配方法
CN102637190A (zh) * 2011-01-24 2012-08-15 微软公司 将已捕捉图像数据与电子表格相关联
CN101533467B (zh) * 2009-04-28 2013-07-31 南京航空航天大学 一种基于决策树的多种人体姿态识别方法
CN103235945A (zh) * 2013-03-27 2013-08-07 重庆市科学技术研究院 一种基于Android系统的手写数学公式识别及生成MathML的方法
CN103250149A (zh) * 2010-12-07 2013-08-14 Sk电信有限公司 用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法、用于该方法的装置和计算机可读记录介质
CN103299292A (zh) * 2010-12-02 2013-09-11 Sk电信有限公司 用于处理自然语言和数学公式的方法及其设备
CN103970262A (zh) * 2013-02-06 2014-08-06 原相科技股份有限公司 光学式指向系统
CN104067292A (zh) * 2012-01-23 2014-09-24 微软公司 公式检测引擎
CN104506898A (zh) * 2015-01-12 2015-04-08 北京东方皆冠科技有限公司 图像信息处理方法及系统
CN104636741A (zh) * 2015-02-06 2015-05-20 百度在线网络技术(北京)有限公司 公式识别方法和装置
CN104933158A (zh) * 2015-06-26 2015-09-23 百度在线网络技术(北京)有限公司 数学问题求解模型的训练方法和装置、推理方法和装置
CN104966107A (zh) * 2015-07-10 2015-10-07 安徽清新互联信息科技有限公司 一种基于机器学习的信用卡卡号识别方法
CN105283884A (zh) * 2013-03-13 2016-01-27 柯法克斯公司 对移动设备捕获的数字图像中的对象进行分类
CN105512692A (zh) * 2015-11-30 2016-04-20 华南理工大学 基于blstm的联机手写数学公式符号识别方法
CN105630761A (zh) * 2016-03-04 2016-06-01 中国建设银行股份有限公司 公式处理方法及装置
CN105913057A (zh) * 2016-04-12 2016-08-31 中国传媒大学 一种结合投影和结构特征进行图像中数学公式检测方法
CN106650820A (zh) * 2016-12-30 2017-05-10 山东大学 一种手写电气元器件符号与标准电气元器件符号的匹配识别方法
CN106960206A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 字符识别方法和字符识别系统
CN107016365A (zh) * 2017-04-01 2017-08-04 深圳天珑无线科技有限公司 图像处理方法及装置
CN107169485A (zh) * 2017-03-28 2017-09-15 北京捷通华声科技股份有限公司 一种数学公式识别方法和装置
CN107301164A (zh) * 2016-04-14 2017-10-27 科大讯飞股份有限公司 数学公式的语义解析方法及装置
CN107301411A (zh) * 2016-04-14 2017-10-27 科大讯飞股份有限公司 数学公式识别方法及装置
CN107390978A (zh) * 2017-07-27 2017-11-24 广州视源电子科技股份有限公司 公式的显示方法、装置、终端及计算机可读存储介质
CN107741990A (zh) * 2017-11-01 2018-02-27 深圳汇生通科技股份有限公司 数据清洗整合方法及系统
CN107885703A (zh) * 2016-09-29 2018-04-06 赵俸汉 数学翻译器、数学翻译设备及平台
CN107886082A (zh) * 2017-11-24 2018-04-06 腾讯科技(深圳)有限公司 图像中数学公式检测方法、装置、计算机设备及存储介质
WO2018112783A1 (zh) * 2016-12-21 2018-06-28 深圳前海达闼云端智能科技有限公司 图像识别方法及装置
CN108241847A (zh) * 2016-12-27 2018-07-03 北京新唐思创教育科技有限公司 一种文本识别中的拉泰赫格式公式处理方法及其装置
CN108304166A (zh) * 2018-01-18 2018-07-20 北京航空航天大学 一种人工智能程序员根据公式描述书写源程序的方法
CN108334839A (zh) * 2018-01-31 2018-07-27 青岛清原精准农业科技有限公司 一种基于深度学习图像识别技术的化学信息识别方法
CN108345833A (zh) * 2018-01-11 2018-07-31 深圳中兴网信科技有限公司 数学公式的识别方法及系统和计算机设备
CN108364009A (zh) * 2018-02-12 2018-08-03 掌阅科技股份有限公司 二维结构公式的识别方法、计算设备及计算机存储介质
CN108388551A (zh) * 2018-02-07 2018-08-10 潘新怡 化学式及方程式的编辑方法、系统、存储介质、电子设备
CN108399156A (zh) * 2018-02-28 2018-08-14 北京仁和汇智信息技术有限公司 一种pdf文件中公式的排版方法及装置
US10108860B2 (en) 2013-11-15 2018-10-23 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
CN108780525A (zh) * 2016-01-29 2018-11-09 D-波系统公司 用于生成学习的系统和方法
US10127221B2 (en) 2013-03-11 2018-11-13 Microsoft Technology Licensing, Llc Detection and reconstruction of East Asian layout features in a fixed format document
US10127441B2 (en) 2013-03-13 2018-11-13 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
US10140511B2 (en) 2013-03-13 2018-11-27 Kofax, Inc. Building classification and extraction models based on electronic forms
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
CN109271083A (zh) * 2018-08-22 2019-01-25 阿里巴巴集团控股有限公司 数据处理方法和装置、计算设备及存储介质
CN109389061A (zh) * 2018-09-26 2019-02-26 苏州友教习亦教育科技有限公司 试卷识别方法和系统
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
CN109582972A (zh) * 2018-12-27 2019-04-05 信雅达系统工程股份有限公司 一种基于自然语言识别的光学字符识别纠错方法
CN109684980A (zh) * 2018-09-19 2019-04-26 腾讯科技(深圳)有限公司 自动阅卷方法及装置
CN109800391A (zh) * 2019-01-10 2019-05-24 太仓中科信息技术研究院 基于Matlab编制公式插入文档的方法及计算机存储介质
WO2019106507A1 (en) * 2017-12-01 2019-06-06 International Business Machines Corporation Blockwise extraction of document metadata
CN110334346A (zh) * 2019-06-26 2019-10-15 京东数字科技控股有限公司 一种pdf文件的信息抽取方法和装置
CN110413740A (zh) * 2019-08-06 2019-11-05 百度在线网络技术(北京)有限公司 化学表达式的查询方法、装置、电子设备及存储介质
CN110751137A (zh) * 2019-09-04 2020-02-04 中山大学 一种自动求解数学题的方法和系统
CN110797091A (zh) * 2019-10-11 2020-02-14 深圳市创凯智能股份有限公司 化学反应立体结构模型生成方法、终端及可读存储介质
CN111027561A (zh) * 2019-11-22 2020-04-17 广州寄锦教育科技有限公司 数学公式定位方法、系统、可读存储介质和计算机设备
CN111126420A (zh) * 2018-10-30 2020-05-08 杭州海康威视数字技术股份有限公司 一种建立识别模型的方法及装置
US10657600B2 (en) 2012-01-12 2020-05-19 Kofax, Inc. Systems and methods for mobile image capture and processing
US10699146B2 (en) 2014-10-30 2020-06-30 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
CN111401142A (zh) * 2020-02-25 2020-07-10 杭州测质成科技有限公司 基于深度学习的航空发动机叶片金属表面蚀刻字符识别方法
CN111400491A (zh) * 2018-12-27 2020-07-10 北大方正集团有限公司 公式主体定位方法、装置、设备及计算机可读存储介质
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
CN112083909A (zh) * 2020-08-07 2020-12-15 清华大学 工程结构设计标准公式识别及计算程序自动生成方法
CN112699337A (zh) * 2019-10-22 2021-04-23 北京易真学思教育科技有限公司 方程批改方法、电子设备及计算机存储介质
CN112949687A (zh) * 2021-02-01 2021-06-11 北京三快在线科技有限公司 差异识别模型的训练方法及装置
CN113034109A (zh) * 2021-03-26 2021-06-25 北京乐学帮网络技术有限公司 作答结果的校验方法及系统、可读存储介质
CN113448563A (zh) * 2021-08-24 2021-09-28 中奥智能工业研究院(南京)有限公司 一种LaTeX在线协作平台
CN113657353A (zh) * 2021-10-19 2021-11-16 北京世纪好未来教育科技有限公司 公式识别方法、装置、电子设备及存储介质
CN113672157A (zh) * 2021-07-29 2021-11-19 张昌凯 一种公式手势输入方法及系统
CN114764915A (zh) * 2022-03-28 2022-07-19 北京开拓鸿业高科技有限公司 公式识别方法、装置、存储介质及电子设备
US11610502B2 (en) 2018-11-28 2023-03-21 Kyndryl, Inc. Portable computing device for learning mathematical concepts
CN116912845A (zh) * 2023-06-16 2023-10-20 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置
CN117131934A (zh) * 2023-10-23 2023-11-28 成都卓拙科技有限公司 一种问题解答方法、解题引擎、电子设备和存储介质
CN112651353B (zh) * 2020-12-30 2024-04-16 南京红松信息技术有限公司 一种基于自定义标签的目标口算的定位识别方法
CN118230348A (zh) * 2024-03-26 2024-06-21 北京智谱华章科技有限公司 一种含数学公式的输入文本的智能提取方法及系统

Cited By (122)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101533467B (zh) * 2009-04-28 2013-07-31 南京航空航天大学 一种基于决策树的多种人体姿态识别方法
CN102035983A (zh) * 2009-09-29 2011-04-27 夏普株式会社 图像处理装置及图像处理方法
US8542407B2 (en) 2009-09-29 2013-09-24 Sharp Kabushiki Kaisha Image processing apparatus and method determines attributes of image blocks based on pixel edge intensities relative to normalized and fixed thresholds
CN102035983B (zh) * 2009-09-29 2014-01-01 夏普株式会社 图像处理装置及图像处理方法
CN102033863B (zh) * 2009-09-30 2012-07-04 北大方正集团有限公司 一种公式处理方法与系统
CN102376079A (zh) * 2010-08-12 2012-03-14 富士施乐株式会社 图像识别信息添加装置和图像识别信息添加方法
CN102376079B (zh) * 2010-08-12 2015-04-15 富士施乐株式会社 图像识别信息添加装置和图像识别信息添加方法
CN102446267B (zh) * 2010-09-30 2014-12-10 汉王科技股份有限公司 公式符号识别方法及其装置
CN102446267A (zh) * 2010-09-30 2012-05-09 汉王科技股份有限公司 公式符号识别方法及其装置
CN102467664A (zh) * 2010-11-01 2012-05-23 航天信息股份有限公司 辅助光学字符识别的方法和装置
CN103299292A (zh) * 2010-12-02 2013-09-11 Sk电信有限公司 用于处理自然语言和数学公式的方法及其设备
CN103299292B (zh) * 2010-12-02 2016-01-20 Sk电信有限公司 用于处理自然语言和数学公式的方法及其设备
CN103250149B (zh) * 2010-12-07 2015-11-25 Sk电信有限公司 用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法和用于该方法的装置
CN103250149A (zh) * 2010-12-07 2013-08-14 Sk电信有限公司 用于从数学语句提取语义距离并且按照语义距离对数学语句分类的方法、用于该方法的装置和计算机可读记录介质
CN102637190A (zh) * 2011-01-24 2012-08-15 微软公司 将已捕捉图像数据与电子表格相关联
CN102637190B (zh) * 2011-01-24 2016-03-16 微软技术许可有限责任公司 将已捕捉图像数据与电子表格相关联
US9042653B2 (en) 2011-01-24 2015-05-26 Microsoft Technology Licensing, Llc Associating captured image data with a spreadsheet
US9697193B2 (en) 2011-01-24 2017-07-04 Microsoft Technology Licensing, Llc Associating captured image data with a spreadsheet
CN102156890A (zh) * 2011-04-25 2011-08-17 汉王科技股份有限公司 手写公式的笔画切分方法及装置
CN102184395B (zh) * 2011-06-08 2012-12-19 天津大学 基于字符串核的草图识别方法
CN102184395A (zh) * 2011-06-08 2011-09-14 天津大学 基于字符串核的手绘草图识别方法
CN102542273A (zh) * 2011-12-02 2012-07-04 方正国际软件有限公司 一种文档图像中复杂公式区域的检测方法及系统
US10146795B2 (en) 2012-01-12 2018-12-04 Kofax, Inc. Systems and methods for mobile image capture and processing
US10657600B2 (en) 2012-01-12 2020-05-19 Kofax, Inc. Systems and methods for mobile image capture and processing
CN104067292B (zh) * 2012-01-23 2017-05-03 微软技术许可有限责任公司 公式检测引擎
US9928225B2 (en) 2012-01-23 2018-03-27 Microsoft Technology Licensing, Llc Formula detection engine
CN104067292A (zh) * 2012-01-23 2014-09-24 微软公司 公式检测引擎
CN102629382A (zh) * 2012-03-05 2012-08-08 河南理工大学 基于几何兼容性的特征点匹配方法
CN102629382B (zh) * 2012-03-05 2014-07-16 河南理工大学 基于几何兼容性的特征点匹配方法
CN103970262B (zh) * 2013-02-06 2018-01-16 原相科技股份有限公司 光学式指向系统
CN103970262A (zh) * 2013-02-06 2014-08-06 原相科技股份有限公司 光学式指向系统
US10127221B2 (en) 2013-03-11 2018-11-13 Microsoft Technology Licensing, Llc Detection and reconstruction of East Asian layout features in a fixed format document
US10127441B2 (en) 2013-03-13 2018-11-13 Kofax, Inc. Systems and methods for classifying objects in digital images captured using mobile devices
CN105283884A (zh) * 2013-03-13 2016-01-27 柯法克斯公司 对移动设备捕获的数字图像中的对象进行分类
US10140511B2 (en) 2013-03-13 2018-11-27 Kofax, Inc. Building classification and extraction models based on electronic forms
CN103235945B (zh) * 2013-03-27 2016-03-23 重庆市科学技术研究院 一种基于Android系统的手写数学公式识别及生成MathML的方法
CN103235945A (zh) * 2013-03-27 2013-08-07 重庆市科学技术研究院 一种基于Android系统的手写数学公式识别及生成MathML的方法
US10108860B2 (en) 2013-11-15 2018-10-23 Kofax, Inc. Systems and methods for generating composite images of long documents using mobile video data
US10699146B2 (en) 2014-10-30 2020-06-30 Kofax, Inc. Mobile document detection and orientation based on reference object characteristics
CN104506898A (zh) * 2015-01-12 2015-04-08 北京东方皆冠科技有限公司 图像信息处理方法及系统
CN104636741B (zh) * 2015-02-06 2018-04-13 百度在线网络技术(北京)有限公司 公式识别方法和装置
CN104636741A (zh) * 2015-02-06 2015-05-20 百度在线网络技术(北京)有限公司 公式识别方法和装置
CN104933158A (zh) * 2015-06-26 2015-09-23 百度在线网络技术(北京)有限公司 数学问题求解模型的训练方法和装置、推理方法和装置
CN104933158B (zh) * 2015-06-26 2018-06-19 百度在线网络技术(北京)有限公司 数学问题求解模型的训练方法和装置、推理方法和装置
CN104966107A (zh) * 2015-07-10 2015-10-07 安徽清新互联信息科技有限公司 一种基于机器学习的信用卡卡号识别方法
US10242285B2 (en) 2015-07-20 2019-03-26 Kofax, Inc. Iterative recognition-guided thresholding and data extraction
CN105512692B (zh) * 2015-11-30 2019-04-09 华南理工大学 基于blstm的联机手写数学公式符号识别方法
CN105512692A (zh) * 2015-11-30 2016-04-20 华南理工大学 基于blstm的联机手写数学公式符号识别方法
CN108780525A (zh) * 2016-01-29 2018-11-09 D-波系统公司 用于生成学习的系统和方法
CN105630761B (zh) * 2016-03-04 2019-03-12 中国建设银行股份有限公司 公式处理方法及装置
CN105630761A (zh) * 2016-03-04 2016-06-01 中国建设银行股份有限公司 公式处理方法及装置
CN105913057A (zh) * 2016-04-12 2016-08-31 中国传媒大学 一种结合投影和结构特征进行图像中数学公式检测方法
CN105913057B (zh) * 2016-04-12 2019-04-09 中国传媒大学 一种结合投影和结构特征进行图像中数学公式检测方法
CN107301164A (zh) * 2016-04-14 2017-10-27 科大讯飞股份有限公司 数学公式的语义解析方法及装置
CN107301411B (zh) * 2016-04-14 2020-07-10 科大讯飞股份有限公司 数学公式识别方法及装置
CN107301411A (zh) * 2016-04-14 2017-10-27 科大讯飞股份有限公司 数学公式识别方法及装置
CN107885703A (zh) * 2016-09-29 2018-04-06 赵俸汉 数学翻译器、数学翻译设备及平台
WO2018112783A1 (zh) * 2016-12-21 2018-06-28 深圳前海达闼云端智能科技有限公司 图像识别方法及装置
CN108241847A (zh) * 2016-12-27 2018-07-03 北京新唐思创教育科技有限公司 一种文本识别中的拉泰赫格式公式处理方法及其装置
CN106650820A (zh) * 2016-12-30 2017-05-10 山东大学 一种手写电气元器件符号与标准电气元器件符号的匹配识别方法
CN106650820B (zh) * 2016-12-30 2020-04-24 山东大学 一种手写电气元器件符号与标准电气元器件符号的匹配识别方法
CN106960206A (zh) * 2017-02-08 2017-07-18 北京捷通华声科技股份有限公司 字符识别方法和字符识别系统
CN106960206B (zh) * 2017-02-08 2021-01-01 北京捷通华声科技股份有限公司 字符识别方法和字符识别系统
CN107169485A (zh) * 2017-03-28 2017-09-15 北京捷通华声科技股份有限公司 一种数学公式识别方法和装置
CN107016365A (zh) * 2017-04-01 2017-08-04 深圳天珑无线科技有限公司 图像处理方法及装置
CN107390978A (zh) * 2017-07-27 2017-11-24 广州视源电子科技股份有限公司 公式的显示方法、装置、终端及计算机可读存储介质
CN107390978B (zh) * 2017-07-27 2020-11-03 广州视源电子科技股份有限公司 公式的显示方法、装置、终端及计算机可读存储介质
CN107741990B (zh) * 2017-11-01 2023-05-16 深圳汇生通科技股份有限公司 数据清洗整合方法及系统
CN107741990A (zh) * 2017-11-01 2018-02-27 深圳汇生通科技股份有限公司 数据清洗整合方法及系统
CN107886082B (zh) * 2017-11-24 2023-07-04 腾讯科技(深圳)有限公司 图像中数学公式检测方法、装置、计算机设备及存储介质
CN107886082A (zh) * 2017-11-24 2018-04-06 腾讯科技(深圳)有限公司 图像中数学公式检测方法、装置、计算机设备及存储介质
US10803350B2 (en) 2017-11-30 2020-10-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
US11062176B2 (en) 2017-11-30 2021-07-13 Kofax, Inc. Object detection and image cropping using a multi-detector approach
CN111512315A (zh) * 2017-12-01 2020-08-07 国际商业机器公司 文档元数据的按块提取
WO2019106507A1 (en) * 2017-12-01 2019-06-06 International Business Machines Corporation Blockwise extraction of document metadata
GB2583290A (en) * 2017-12-01 2020-10-21 Ibm Blockwise extraction of document metadata
US10452904B2 (en) 2017-12-01 2019-10-22 International Business Machines Corporation Blockwise extraction of document metadata
GB2583290B (en) * 2017-12-01 2022-03-16 Ibm Blockwise extraction of document metadata
US10977486B2 (en) 2017-12-01 2021-04-13 International Business Machines Corporation Blockwise extraction of document metadata
CN108345833A (zh) * 2018-01-11 2018-07-31 深圳中兴网信科技有限公司 数学公式的识别方法及系统和计算机设备
CN108304166A (zh) * 2018-01-18 2018-07-20 北京航空航天大学 一种人工智能程序员根据公式描述书写源程序的方法
CN108334839A (zh) * 2018-01-31 2018-07-27 青岛清原精准农业科技有限公司 一种基于深度学习图像识别技术的化学信息识别方法
CN108388551A (zh) * 2018-02-07 2018-08-10 潘新怡 化学式及方程式的编辑方法、系统、存储介质、电子设备
CN108364009A (zh) * 2018-02-12 2018-08-03 掌阅科技股份有限公司 二维结构公式的识别方法、计算设备及计算机存储介质
CN108399156A (zh) * 2018-02-28 2018-08-14 北京仁和汇智信息技术有限公司 一种pdf文件中公式的排版方法及装置
CN109271083A (zh) * 2018-08-22 2019-01-25 阿里巴巴集团控股有限公司 数据处理方法和装置、计算设备及存储介质
CN109684980A (zh) * 2018-09-19 2019-04-26 腾讯科技(深圳)有限公司 自动阅卷方法及装置
CN109684980B (zh) * 2018-09-19 2022-12-13 腾讯科技(深圳)有限公司 自动阅卷方法及装置
CN109389061A (zh) * 2018-09-26 2019-02-26 苏州友教习亦教育科技有限公司 试卷识别方法和系统
CN111126420A (zh) * 2018-10-30 2020-05-08 杭州海康威视数字技术股份有限公司 一种建立识别模型的方法及装置
CN111126420B (zh) * 2018-10-30 2023-04-25 杭州海康威视数字技术股份有限公司 一种建立识别模型的方法及装置
US11610502B2 (en) 2018-11-28 2023-03-21 Kyndryl, Inc. Portable computing device for learning mathematical concepts
CN111400491A (zh) * 2018-12-27 2020-07-10 北大方正集团有限公司 公式主体定位方法、装置、设备及计算机可读存储介质
CN109582972B (zh) * 2018-12-27 2023-05-16 信雅达科技股份有限公司 一种基于自然语言识别的光学字符识别纠错方法
CN109582972A (zh) * 2018-12-27 2019-04-05 信雅达系统工程股份有限公司 一种基于自然语言识别的光学字符识别纠错方法
CN109800391A (zh) * 2019-01-10 2019-05-24 太仓中科信息技术研究院 基于Matlab编制公式插入文档的方法及计算机存储介质
CN110334346A (zh) * 2019-06-26 2019-10-15 京东数字科技控股有限公司 一种pdf文件的信息抽取方法和装置
CN110334346B (zh) * 2019-06-26 2020-09-29 京东数字科技控股有限公司 一种pdf文件的信息抽取方法和装置
CN110413740A (zh) * 2019-08-06 2019-11-05 百度在线网络技术(北京)有限公司 化学表达式的查询方法、装置、电子设备及存储介质
CN110413740B (zh) * 2019-08-06 2022-10-14 百度在线网络技术(北京)有限公司 化学表达式的查询方法、装置、电子设备及存储介质
CN110751137A (zh) * 2019-09-04 2020-02-04 中山大学 一种自动求解数学题的方法和系统
CN110797091A (zh) * 2019-10-11 2020-02-14 深圳市创凯智能股份有限公司 化学反应立体结构模型生成方法、终端及可读存储介质
CN112699337A (zh) * 2019-10-22 2021-04-23 北京易真学思教育科技有限公司 方程批改方法、电子设备及计算机存储介质
CN112699337B (zh) * 2019-10-22 2022-07-29 北京易真学思教育科技有限公司 方程批改方法、电子设备及计算机存储介质
CN111027561A (zh) * 2019-11-22 2020-04-17 广州寄锦教育科技有限公司 数学公式定位方法、系统、可读存储介质和计算机设备
CN111401142A (zh) * 2020-02-25 2020-07-10 杭州测质成科技有限公司 基于深度学习的航空发动机叶片金属表面蚀刻字符识别方法
CN112083909B (zh) * 2020-08-07 2022-01-28 清华大学 工程结构设计标准公式识别及计算程序自动生成方法
CN112083909A (zh) * 2020-08-07 2020-12-15 清华大学 工程结构设计标准公式识别及计算程序自动生成方法
CN112651353B (zh) * 2020-12-30 2024-04-16 南京红松信息技术有限公司 一种基于自定义标签的目标口算的定位识别方法
CN112949687A (zh) * 2021-02-01 2021-06-11 北京三快在线科技有限公司 差异识别模型的训练方法及装置
CN112949687B (zh) * 2021-02-01 2022-05-31 北京三快在线科技有限公司 差异识别模型的训练方法及装置
CN113034109A (zh) * 2021-03-26 2021-06-25 北京乐学帮网络技术有限公司 作答结果的校验方法及系统、可读存储介质
CN113672157A (zh) * 2021-07-29 2021-11-19 张昌凯 一种公式手势输入方法及系统
CN113448563A (zh) * 2021-08-24 2021-09-28 中奥智能工业研究院(南京)有限公司 一种LaTeX在线协作平台
CN113657353A (zh) * 2021-10-19 2021-11-16 北京世纪好未来教育科技有限公司 公式识别方法、装置、电子设备及存储介质
CN113657353B (zh) * 2021-10-19 2022-03-11 北京世纪好未来教育科技有限公司 公式识别方法、装置、电子设备及存储介质
CN114764915A (zh) * 2022-03-28 2022-07-19 北京开拓鸿业高科技有限公司 公式识别方法、装置、存储介质及电子设备
CN114764915B (zh) * 2022-03-28 2024-09-06 北京开拓鸿业高科技有限公司 公式识别方法、装置、存储介质及电子设备
CN116912845B (zh) * 2023-06-16 2024-03-19 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置
CN116912845A (zh) * 2023-06-16 2023-10-20 广东电网有限责任公司佛山供电局 一种基于nlp与ai的智能内容识别与分析方法及装置
CN117131934A (zh) * 2023-10-23 2023-11-28 成都卓拙科技有限公司 一种问题解答方法、解题引擎、电子设备和存储介质
CN118230348A (zh) * 2024-03-26 2024-06-21 北京智谱华章科技有限公司 一种含数学公式的输入文本的智能提取方法及系统

Similar Documents

Publication Publication Date Title
CN101329731A (zh) 图像中数学公式的自动识别方法
Mouchère et al. Advancing the state of the art for handwritten math recognition: the CROHME competitions, 2011–2014
Lu et al. Document image retrieval through word shape coding
Kacem et al. Automatic extraction of printed mathematical formulas using fuzzy logic and propagation of context
Ray Choudhury et al. An architecture for information extraction from figures in digital libraries
CN100533466C (zh) 一种字体识别方法及系统
CN103984943B (zh) 一种基于贝叶斯概率框架的场景文本识别方法
Jain et al. Writer identification using an alphabet of contour gradient descriptors
Alvaro et al. A shape-based layout descriptor for classifying spatial relationships in handwritten math
Le et al. A system for recognizing online handwritten mathematical expressions by using improved structural analysis
CN103870803A (zh) 一种基于粗定位与精定位融合的车牌识别方法和系统
Bai et al. Keyword spotting in document images through word shape coding
CN103902993A (zh) 文档图像识别方法和设备
Mahdavi et al. LPGA: Line-of-sight parsing with graph-based attention for math formula recognition
CN102360436B (zh) 一种基于部件的联机手写藏文字符的识别方法
Lu et al. A semi-automatic approach to detect structural components from CAD drawings for constructing as-is BIM objects
Din et al. Line and ligature segmentation in printed Urdu document images
Liang et al. Performance evaluation of document layout analysis algorithms on the UW data set
CN103729638A (zh) 一种文字区域识别中的文字行排列分析方法和装置
Bogacz et al. Automating transliteration of cuneiform from parallel lines with sparse data
Rashtehroudi et al. PESTD: a large-scale Persian-English scene text dataset
Hirayama et al. Development of template-free form recognition system
Shafait Geometric Layout Analysis of scanned documents
Kumar et al. A survey on touching character segmentation
Mishra Understanding Text in Scene Images

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20081224