CN101149790A - 中文印刷体公式识别方法 - Google Patents

中文印刷体公式识别方法 Download PDF

Info

Publication number
CN101149790A
CN101149790A CNA2007101445888A CN200710144588A CN101149790A CN 101149790 A CN101149790 A CN 101149790A CN A2007101445888 A CNA2007101445888 A CN A2007101445888A CN 200710144588 A CN200710144588 A CN 200710144588A CN 101149790 A CN101149790 A CN 101149790A
Authority
CN
China
Prior art keywords
character
formula
chinese
piece
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101445888A
Other languages
English (en)
Other versions
CN100541521C (zh
Inventor
王科俊
李永华
冯伟兴
刘维平
陈卉
付斌
唐墨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CNB2007101445888A priority Critical patent/CN100541521C/zh
Publication of CN101149790A publication Critical patent/CN101149790A/zh
Application granted granted Critical
Publication of CN100541521C publication Critical patent/CN100541521C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明提供的是一种中文印刷体公式识别方法。包括版面分析、汉字识别和数学公式识别3个模块,版面分析模块是对待识别的BMP图像进行各项预处理二值化,并利用投影法结合自底向上的版面分析算法,分割出文字块、图像块、表格块,对图像块和表格块进行保存处理;汉字识别模块是针对文字块进行虚假行合并、选择切分参数、提取特征和对汉字识别,将拒识的结果记录下来,把同行相邻的拒识结果合并这样可以定位出公式区域;数学公式识别是将拒识出来的文字区域中的公式字符进行提取、分割、合并一些合成字符、识别;最后通过公式字符的结构分析,得出字符间的关系;并最终输出结果为一维的字符串。经过试验证明本发明的识别效果还是令人满意的。

Description

中文印刷体公式识别方法
(一)技术领域
本发明涉及的是一种识别方法,具体地说是一种中文印刷体文档内容识别方法,特别是针对印刷体数学公式的识别方法。
(二)背景技术
1929年Tausheck取得光字符识别(Optical Character Recognition,OCR)专利,由于其容易被人们接受、掌握,它同语音识别、行为识别等一起日益成为人们研究的焦点。经过近一个世纪的发展,OCR已经成为当今模式识别领域中最活跃的研究内容之一。至今为止,单纯的一维字符识别技术已经相当成熟,已经有较为成型的识别系统(如紫光、汉王等),有很高的识别率,但是这些系统都不能识别文档中的数学公式。所以,这种二维的结构数学公式成为了制约OCR技术发展的瓶颈。
(三)发明内容
本发明的目的在于提供一种在版面分析、汉字识别技术支持的中文印刷体公式识别方法。
本发明的目的是这样实现的:对待识别的图像进行二值化,通过版面分析分割出文字块、图像块、表格块;针对文字块进行文字识别,选择拒识条件,将同行相邻拒识结果合并定位为公式区域;将拒识出来的文字区域中的公式字符分割、识别;最后通过公式字符的结构分析得出字符间的关系;最终输出结果为一维的字符串。
本发明还可以包括:
1、所述的通过版面分析分割出文字块、图像块、表格块是通过对二值化后的图像的连通域搜索,将面积明显大于一般图像块的搜索结果划定为图像或表格区域,将判定的文档区域送入汉字识别模块。
2、在汉字识别模块中,对图像进行行投影,依次对行高和行间距聚类,分割出每行,并对投影出来的虚假行合并,最后自动选择汉字切分参数对分割出的每行回溯切分,得到字符段,对字符段进行汉字识别。
3、所述的将拒识出来的文字区域中的公式字符分割、识别足对于定位出来的公式区域采用8邻域搜索算法,分割出单独的公式字符,采用统计特征和结构特征相结合的方法,构建3层分类树,从而识别公式字符。
4、所述的进行汉字识别包括汉字的切分和汉字的识别两个部分;所述的汉字切分的方法包括最大宽度回溯切分和回溯切分参数的选择;最大宽度回溯切分是:预先选择回溯切分参数WM,然后以当前汉字最左端jA为汉字起点,在jA+WM到jA范围内回溯,在该行范围内列投影,寻找第二次出现的投影值为白值的点jB为汉字的右端终点,重复以上步骤,得到切分出来的汉字;回溯切分参数的选择是:通过先后对行高和行间距的聚类,从而实现了虚假行的合并和选择汉字切分参数;所述的汉字的识别采用先粗分类后细分类的方法构建分类器,再将切分出来的汉字质心归一化、大小归一化后,提取粗网格数和粗外围数作为粗分类特征,采用k近邻快速算法搜索前10个误差最小的类别,然后对归一化后的汉字细化,提取汉字特征点作为精确匹配特征,最终识别出汉字。
5、所述的识别公式字符包括:
(1)文档中数学公式的提取
步骤1:将检测到的所有拒识并相邻的字符段存入链表;
步骤2:搜索链表,直到找出不同行的字符段,若所有字符段都同行,则转至步骤4;
步骤3:将所有该字符段之前的字符段合并,将合并结果保存,释放该字符段之前的所有空间,转至步骤2;
步骤4:所有链表中的字符段为同行,将所有字符段合并,算法结束;
(2)数学公式块中的字符分割
采用连通域搜索算法分割字符,定义对二值图像,1代表黑像素,0代表白像素,步骤如下:
a.以一个值为1的点为起点,向八领域搜索各个1值点;
b.对各个1值点再进行同样的八领域搜索,直到遇到像素值0且八领域值都为0的点;
c.记录这次搜索途经1值点的坐标,建立新的数组,就分割出一个字符;
d.递归分割直到遍历各个点,分割出各个字符,并分别存入数组中;
(3)数学公式结构分析
采用基于特征字符的公式结构分析方法,步骤如下:
a.字符的同行判断
将字符集划分为居中,居上,居下三个集合,对给定字符r,下面给出y轴归一化中心middleY(r)的计算公式:
居中型字符:
middleY(r)=upY(r)+((downy(r)-upY(r))/2)
居上型字符:
middleY(r)=upY(r)+(1/4)(downy(r)-upY(r))
居下型字符:
middleY(r)=upY(r)+(3/4)(downY(r)-upY(r))
若letter1在letter2左边,当满足如下条件时,判断letter2和letter1同行
设定一个权值量:
qz=(downY(letter1)-upY(letter1))/4
若同时满足:
middleY(letter2)>middleY(letter1)-qz
middleY(letter2)<middleY(letter1)+qz
则判断letter2与letter1同行;
b.特征字符
把相同的各个字符分为一类,成为一个特征字符类别,该类别中的每个元素就是特征字符,系统中存在9种不同的特征字符,他们是后标型、上下型、包含型、下标型、括号型、独立型、多行型、普通型、多重型,其中多重型包括两种或两种以上的前八种类型,在总体算法中计算,从而判断其到底是前8种类型中的哪一种。
c.归一化水平最左字符
归一化水平最左字符定义的是在整个输出公式的y轴中心线上的水平最左字符,首先给出计算公式y轴中心线的方法,其次给出找到输入堆栈中归一化水平最左字符的方法;
d.结构分析算法
对给定的公式中的字符从左至右按照其所属的特征字符类别分别采用不同的方案找到其sub、sup、above,形成特征子块,记录子块与对应父元素的关系,并将输入堆栈中对应的元素推出,而对子块也同样按照从左至右的顺序,找到其各个元素的子sub、sup、above,并合成子块,递归调用,直到无sub、sup、above,子块切割完毕,这时的最低层子块是一个简单的一维子公式行,对其进行识别,并把识别结果带入上层父元素得到父子块识别结果,得到父子块所属的子块的识别结果并按照同样的方法递归调用,得到识别的结果;
(4)公式的表示
将识别出的数学公式表示成Word EQ语句,可以在Word中显示出来。
下面来简单介绍一下本发明的特点:
本发明最大的特点是将中文版面分析与汉字识别作为数学公式识别的基础,即在版面分析和汉字识别的结果中,实现对数学公式的识别。这是由于汉字识别技术虽然现在还不够成熟,但其识别率我们还是可以接受的,因此在此基础上作公式识别是具有可行性的。
各种各样的版面分析算法,现阶段已经有很强的理论支持,因此,对本发明提出的通过投影法结合像素连通域的自底向上的分析算法,具有可实现性。
在数学公式识别中,利用基于特征字符的方法,其算法虽然较为复杂,但是识别的结果是比较令人满意的,具有可采性。
本发明可以识别一级汉字和常用标点共3768个。
(四)附图说明
图1是本发明的整体框图。
(五)具体实施方式
下面结合附图举例对本发明做更详细地描述:
本发明的目的在于克服现有的OCR系统技术的不足,提供一种在版面分析、汉字识别技术支持的印刷体数学公式识别技术。包括版面分析、汉字识别和数学公式识别3个模块,其中版面分析和汉字识别是数学公式识别的前处理,正是有了这样的两个部分,公式识别模块才能够正确的定位、识别公式,因此它们三者是密不可分的。
1.文档的版面分析
版面分析是文字识别的前处理技术之一。它是利用图像处理、人工智能等技术完成文档图像中的文字域、表格域、图形、图像域的分割、属性标注工作。其结果将文字域、表格域交给后续的识别模块处理。
首先,我们采用连通域搜索算法获取二值文档图像上所有的连通域。根据连通域大小进行聚类,得到字号分布将较大的连通域直接判断为图像区域。
第二步,往垂直方向进行投影,也可以将行高明显大于不同文字行高的部分判断为图像和表格区域,并将这些图像和表格压缩。将结果和它们的位置一同存到内存中,到输出相应位置时进行相应输出。
最后,对剩下的连通域进一步理解分析采用自底向下的版面分析算法,将一个个连通域合并成行,再将行合并成区域。
2.印刷体汉字识别
对汉字的识别是模式识别的重要应用领域。汉字识别技术是OCR技术的核心,其主要包括汉字的切分和汉字的识别两个部分。
2.1汉字切分法
2.1.1改进的最大宽度回溯切分
该算法需要预先选择回溯切分参数WM,然后以当前汉字最左端jA为汉字起点,在jA+WM到jA范围内回溯,在该行范围内列投影,寻找第二次出现的投影值为白值的点jB为汉字的右端终点。重复以上步骤,我们就可以得到切分出来的汉字。
2.1.2回溯切分参数的选择
本系统的回溯切分参数的选择起到了两个作用:对文本中的虚假行合并和选择汉字切分参数。虚假行在数学公式中十分常见,往往存在上下标的数学公式经过行投影后会将原本是一行的数学公式分割成多行,严重影响了公式识别结果。
本系统通过先后对行高和行间距的聚类,从而实现了虚假行的合并和选择汉字切分参数。
2.2分类器设计
本系统采用先粗分类后细分类的方法构建分类器,在将切分出来的汉字质心归一化、大小归一化后,提取粗网格数和粗外围数作为粗分类特征,采用k近邻快速算法搜索前10个误差最小的类别;然后对归一化后的汉字细化,提取汉字特征点作为精确匹配特征,最终识别出汉字。
3.印刷体数学公式识别
3.1文档中数学公式的提取
本系统在汉字识别模块中引入了汉字的拒识类,通过选择两级拒识参数从而实现对数学公式块、英文字母和阿拉伯数字的拒识。将拒识后的同行相邻字符段合并。下面给出文档中数学公式的定位方法:
步骤1:将检测到的所有拒识并相邻的字符段存入链表;
步骤2:搜索链表,直到找出不同行的字符段,若所有字符段都同行,则转4:
步骤3:将所有该字符段之前的字符段合并,将合并结果保存,释放该字符段之前的所有空间,转2;
步骤4:所有链表中的字符段为同行,将所有字符段合并,算法结束;
3.2数学公式块中的字符识别
数学公式中的符号数目没有汉字的数目多,但是由于数学公式的二维属性和公式字符的大小不一,字体各异,相似字符较多,而且某些字符的长度(或高度)是要随着它们所绑定的子表达式的长度(高度)而变化的。因此数学公式中的字符的识别还是比较困难的。
本系统采用连通域搜索算法分割字符,定义对二值图像,1代表黑像素,0代表白像素。算法如下:
1.以一个值为1的点为起点,向八领域搜索各个1值点;
2.对各个1值点再进行同样的八领域搜索,直到遇到像素值0且八领域值都为0的点;
3.记录这次搜索途经1值点的坐标,建立新的数组,就分割出一个字符;
4.递归分割直到遍历各个点,就可以分割出各个字符,并分别存入数组中。
本系统采用统计特征和结构特征相结合的方法构建三层分类树。首先求字符的孔洞数,作为第一级分类器;然后对字符归一化细化,求粗网格数和穿线数作为第二级分类器,取前5个最近邻作为候选字符;最后采用结构特征在候选字符中选择结构特征匹配最多的一个,结构特征可以采用质心特征、宽高比等。
在识别出字符后,需要对以下三种情况需要合并连通体,重新识别:
1.字符在垂直方向可分为多个连通体,例如“i”;
2.字符在水平方向可分为多个连通体,例如“《”;
3.大连通体包含小连通体,例如“Θ”。
3.3数学公式结构分析
字符识别出来以后,要将它们组合成能表达原公式结构的字符串,这就是数学公式的结构分析。本系统采用基于特征字符的公式结构分析方法。
3.3.1字符的同行判断
将字符集划分为居中,居上,居下三个集合。对给定字符r,下面给出y轴归一化中心middleY(r)的计算公式:
居中型字符:
middleY(r)=upY(r)+((downy(r)-upY(r))/2)
居上型字符:
middleY(r)=upY(r)+(1/4)(downy(r)-upY(r))
居下型字符:
middleY(r)=upY(r)+(3/4)(downY(r)-upY(r))
若letter1在letter2左边,当满足如下条件时,判断letter2和letter1同行
设定一个权值量:
qz=(downY(letter1)-upY(letter1))/4
若同时满足:
middleY(letter2)>middleY(letter1)-qz
middleY(letter2)<middleY(letter1)+qz
则判断letter2与letter1同行。
3.3.2特征字符
特征字符是进行块切割的依据,不同的字符其上下标以及后标的有无以及位置不尽相同,我们把相同的各个字符分为一类,成为一个特征字符类别,该类别中的每个元素就是特征字符。本系统中存在9种不同的特征字符,他们是后标型、上下型、包含型、下标型、括号型、独立型、多行型、普通型、多重型。其中多重型包括两种或两种以上的前八种类型,需要在总体算法中计算,从而判断其到底是前8种类型中的那一种。
3.3.3归一化水平最左字符
归一化水平最左字符定义的是在整个输出公式的y轴中心线上的水平最左字符,首先给出计算公式y轴中心线的方法,其次给出找到输入堆栈中归一化水平最左字符的方法。
遍历输入公式堆栈,记y轴最小坐标为Ymin,最大坐标为Ymax,又设输入堆栈的y轴中心线坐标为Ymiddle,则:Ymiddle=(Ymin+Ymax)/2
遍历输入堆栈,对遍历元素r,若:upY(r)<Ymiddle downy>Ymiddle则将r推入一个新的堆栈newD,遍历newD,x轴坐标最左元素为我们需要的归一化水平最左元素。
3.3.4结构分析算法
对给定的公式中的字符从左至右按照其所属的特征字符类别分别采用不同的方案找到其sub、sup、above,形成特征子块,记录子块与对应父元素的关系,并将输入堆栈中对应的元素推出,而对子块也同样按照从左至右的顺序,找到其各个元素的子sub、sup、above,并合成子块,递归调用,直到无sub、sup、above,子块切割完毕,这时的最低层子块是一个简单的一维子公式行,对其进行识别,并把识别结果带入上层父元素得到父子块识别结果,得到父子块所属的子块的识别结果并按照同样的方法递归调用,即可以得到识别的结果。
总体算法流程:
1.将输入堆栈中的字符按水平轴坐标从左至右排列;
2.若堆栈为空,跳至9;否则找到归一化水平最左元素t;
3.判断t所属的特征字符类别,然后判断其有sub、sup、above,若无转至
4,若有,转至5;
4.t无sub、sup、above,故形成的特征子块只有其一个元素,识别t,储存识别结果,将该元素推出输入堆栈,转至2;
5.t有sub、sup、above,找到其sub、sup、above,若为后标型特征字符,还需找到back,并分别形成新的特征子块,并分别推入新建的堆栈中;
6.以新的各个堆栈为输入,分别递归调用本方法,得到各个新堆栈的识别结果;
7.将6的识别结果与t结合,得到以t中心的特征子块的识别结果,存储识别结果;
8.将特征字符及其包含的上下标和后标从输入堆栈中推出,转至2;
9.特征子块切割与识别完成,储存的各个识别结果从左至右组合,得到整个公式的识别结果。
各子算法:
后标型:
1.在输入堆栈中找到与t同一水平线中最左的元素b;
2.若含有水平中心坐标在t的最右水平坐标与b的最左水平坐标之间的元素,则认为t含有上下标,跳到4找此时的上下标;否则转到3
3.认为t的上下标在t的正上方或正下方,跳到⑤找该情况下的上下标以及后标;
4.将字符堆栈中的字符按照水平从左至右的顺序排列,对堆栈中的任一字符r,若满足
middlex(r)>rightx(t);
middlex(r)<rightx(b);
middley(r)<middley(t)-(1/4)(downy(t)-upy(t))
则将r推入t的上标特征子块堆栈;
若满足
middlex(r)>rightx(t);
middlex(r)<rightx(b);
middley(r)>middley(t)+(1/4)(downy(t)-upy(t))
则将r推入t的下标特征子块堆栈,当堆栈中元素为空,跳至6;
5.将字符堆栈中的字符按照水平从左至右的顺序排列,对堆栈中的每个字符r,若满足
middlex(r)<leftx(b);
middley(r)<middley(t)-(1/4)(downy(t)-upy(t))
则将r推入t的上标特征子块堆栈;
若满足
middlex(r)<leftx(b);
middley(r)>middley(t)+(1/4)(downy(t)-upy(t))
则将r推入t的下标特征子块堆栈;
若满足r为与t同一水平的元素,则将r推入t的后标特征子块堆栈,转6;
6.完成特征子块的切割,形成了三个特征子堆栈,完成了任务。
上下型:
对输入堆栈中的任一元素r,若满足
leftx(r)>leftx(t);
rightx(r)<rightx(t);
downy(r)<upy(t)
则认为r为t的上标,推入上标子块堆栈;
若满足
leftx(r)>leftx(t);
rightx(r)<rightx(t);
upy(r)>downy(t)
则认为r为t的下标,推入下标子块堆栈。
包含型:
若满足
leftx(r)>leftx(t);
rightx(r)<rightx(t);
downy(r)<downy(t);
upy(r)>upy(t)
则将r推入堆栈
下标型:
若满足
down(t)>up(r)
left(r)>left(t)
right(r)<left(t)
left(r)>left(t)
right(r)<right(t)
left(r)<right(t)
right(r)>right(t)
则将r推入堆栈
括号型:
若存在一对括号,则将括号中的字符推入contain堆栈
将右边的括号的sub、sup分别推入相应的堆栈
独立型:
独立型没有特征子块,只要将识别后的字符加到已经识别出的字符串后边。
多行型:
该类型主要处理矩阵和联立的方程。
对该区域的所有字符计算其邻接强度,然后将邻接强度小于某域值的字符合并为公式,将该区域的所有公式再送入公式识别器。
普通型:
分别将特征字符的sub、sup、above推入堆栈
多重型:
需要判断当前特征字符的具体类型,然后根据其具体类型判断当前特征字符究竟是以上八中的那一种类型
3.3.5公式的表示
本系统将识别出的数学公式表示成Word EQ语句,可以在Word中显示出来,这样我们就可以实现将一个BMP格式的文档转换成一个Word文档的格式,从而实现的本发明的发明要求。

Claims (6)

1.一种中文印刷体公式识别方法,其特征是:包括版面分析、汉字识别和数学公式识别3个模块,所述的版面分析是对待识别的图像进行二值化,通过版面分析分割出文字块、图像块、表格块;所述的汉字识别是针对文字块进行文字识别,选择拒识条件,将同行相邻拒识结果合并定位为公式区域;所述的数学公式识别是将拒识出来的文字区域中的公式字符分割、识别;最后通过公式字符的结构分析得出字符间的关系;最终输出结果为一维的字符串。
2.根据权利要求1所述的所述的中文印刷体公式识别方法,其特征是:所述的通过版面分析分割出文字块、图像块、表格块是通过对二值化后的图像的连通域搜索,将面积明显大于一般图像块的搜索结果划定为图像或表格区域,将判定的文档区域送入汉字识别模块。
3.根据权利要求1所述的所述的中文印刷体公式识别方法,其特征是:在汉字识别模块中,对图像进行行投影,依次对行高和行间距聚类,分割出每行,并对投影出来的虚假行合并,最后自动选择汉字切分参数对分割出的每行回溯切分,得到字符段,对字符段进行汉字识别。
4.根据权利要求1所述的所述的中文印刷体公式识别方法,其特征是:所述的将拒识出来的文字区域中的公式字符分割、识别是对于定位出来的公式区域采用8邻域搜索算法,分割出单独的公式字符,采用统计特征和结构特征相结合的方法,构建3层分类树,从而识别公式字符。
5.根据权利要求3所述的所述的中文印刷体公式识别方法,其特征是:所述的进行汉字识别包括汉字的切分和汉字的识别两个部分;所述的汉字切分的方法包括最大宽度回溯切分和回溯切分参数的选择;最大宽度回溯切分是:预先选择回溯切分参数WM,然后以当前汉字最左端jA为汉字起点,在jA+WM到jA范围内回溯,在该行范围内列投影,寻找第二次出现的投影值为白值的点jB为汉字的右端终点,重复以上步骤,得到切分出来的汉字;回溯切分参数的选择是:通过先后对行高和行间距的聚类,从而实现了虚假行的合并和选择汉字切分参数;所述的汉字的识别采用先粗分类后细分类的方法构建分类器,再将切分出来的汉字质心归一化、大小归一化后,提取粗网格数和粗外围数作为粗分类特征,采用k近邻快速算法搜索前10个误差最小的类别,然后对归一化后的汉字细化,提取汉字特征点作为精确匹配特征,最终识别出汉字。
6.根据权利要求4所述的所述的中文印刷体公式识别方法,其特征是:所述的识别公式字符包括:
(1)文档中数学公式的提取
步骤1:将检测到的所有拒识并相邻的字符段存入链表;
步骤2:搜索链表,直到找出不同行的字符段,若所有字符段都同行,则转至步骤4;
步骤3:将所有该字符段之前的字符段合并,将合并结果保存,释放该字符段之前的所有空间,转至步骤2;
步骤4:所有链表中的字符段为同行,将所有字符段合并,算法结束;
(2)数学公式块中的字符识别
采用连通域搜索算法分割字符,定义对二值图像,1代表黑像素,0代表白像素,步骤如下:
a.以一个值为1的点为起点,向八领域搜索各个1值点;
b.对各个1值点再进行同样的八领域搜索,直到遇到像素值0且八领域值都为0的点;
c.记录这次搜索途经1值点的坐标,建立新的数组,就分割出一个字符;
d.递归分割直到遍历各个点,分割出各个字符,并分别存入数组中;
(3)数学公式结构分析
采用基于特征字符的公式结构分析方法,步骤如下:
a.字符的同行判断
将字符集划分为居中,居上,居下三个集合,对给定字符r,下面给出y轴归一化中心middleY(r)的计算公式:
居中型字符:
middleY(r)=upY(r)+((downy(r)-upY(r))/2)
居上型字符:
middleY(r)=upY(r)+(1/4)(downy(r)-upY(r))
居下型字符:
middleY(r)=upY(r)+(3/4)(downY(r)-upY(r))
若letter1在letter2左边,当满足如下条件时,判断letter2和letter1同行
设定一个权值量:
qz=(downY(letter1)-upY(letter1))/4
若同时满足:
middleY(letter2)>middleY(letter1)一qz
middleY(letter2)<middleY(letter1)+qz
则判断letter2与letter1同行;
(2)特征字符
把相同的各个字符分为一类,成为一个特征字符类别,该类别中的每个元素就是特征字符,系统中存在9种不同的特征字符,他们是后标型、上下型、包含型、下标型、括号型、独立型、多行型、普通型、多重型,其中多重型包括两种或两种以上的前八种类型,在总体算法中计算,从而判断其到底是前8种类型中的那一种;
(3)归一化水平最左字符
归一化水平最左字符定义的是在整个输出公式的y轴中心线上的水平最左字符,首先给出计算公式y轴中心线的方法,其次给出找到输入堆栈中归一化水平最左字符的方法;
(4)结构分析算法
对给定的公式中的字符从左至右按照其所属的特征字符类别分别采用不同的方案找到其sub、sup、above,形成特征子块,记录子块与对应父元素的关系,并将输入堆栈中对应的元素推出,而对子块也同样按照从左至右的顺序,找到其各个元素的子sub、sup、above,并合成子块,递归调用,直到无sub、sup、above,子块切割完毕,这时的最低层子块是一个简单的一维子公式行,对其进行识别,并把识别结果带入上层父元素得到父子块识别结果,得到父子块所属的子块的识别结果并按照同样的方法递归调用,得到识别的结果;
(5)公式的表示
将识别出的数学公式表示成Word EQ语句,可以在Word中显示出来。
CNB2007101445888A 2007-11-14 2007-11-14 中文印刷体公式识别方法 Expired - Fee Related CN100541521C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007101445888A CN100541521C (zh) 2007-11-14 2007-11-14 中文印刷体公式识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007101445888A CN100541521C (zh) 2007-11-14 2007-11-14 中文印刷体公式识别方法

Publications (2)

Publication Number Publication Date
CN101149790A true CN101149790A (zh) 2008-03-26
CN100541521C CN100541521C (zh) 2009-09-16

Family

ID=39250309

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007101445888A Expired - Fee Related CN100541521C (zh) 2007-11-14 2007-11-14 中文印刷体公式识别方法

Country Status (1)

Country Link
CN (1) CN100541521C (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222241A (zh) * 2010-04-19 2011-10-19 日本电产三协株式会社 字符串识别装置及字符串识别方法
CN102542273A (zh) * 2011-12-02 2012-07-04 方正国际软件有限公司 一种文档图像中复杂公式区域的检测方法及系统
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
CN102750534A (zh) * 2012-06-26 2012-10-24 北京文通科技有限公司 一种字符切分的方法和装置
CN102945369A (zh) * 2012-10-17 2013-02-27 华南理工大学 一种文字识别方法
CN103324460A (zh) * 2012-03-19 2013-09-25 联想(北京)有限公司 数据处理方法、系统及具有该系统的设备
CN103996055A (zh) * 2014-06-13 2014-08-20 上海珉智信息科技有限公司 基于影像档案电子资料识别系统中分类器的识别方法
CN104636741A (zh) * 2015-02-06 2015-05-20 百度在线网络技术(北京)有限公司 公式识别方法和装置
CN104751148A (zh) * 2015-04-16 2015-07-01 同方知网数字出版技术股份有限公司 一种版式文件中识别科学公式的方法
CN104866850A (zh) * 2015-05-13 2015-08-26 湘潭大学 一种文本图像二值化的优化方法
CN105447477A (zh) * 2015-12-25 2016-03-30 北京汉王数字科技有限公司 基于公式库的公式识别方法及装置
CN105574486A (zh) * 2015-11-25 2016-05-11 成都数联铭品科技有限公司 一种图像表格文字切分方法
CN105631393A (zh) * 2014-11-06 2016-06-01 阿里巴巴集团控股有限公司 信息识别方法及装置
CN105631486A (zh) * 2014-10-27 2016-06-01 深圳Tcl数字技术有限公司 图像文字识别方法及装置
CN105913057A (zh) * 2016-04-12 2016-08-31 中国传媒大学 一种结合投影和结构特征进行图像中数学公式检测方法
CN106326854A (zh) * 2016-08-19 2017-01-11 掌阅科技股份有限公司 一种版式文档段落识别方法
CN106446881A (zh) * 2016-07-29 2017-02-22 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN106652673A (zh) * 2017-01-16 2017-05-10 华南理工大学 一种自动识别和朗读药品说明书的方法
CN106778758A (zh) * 2016-12-29 2017-05-31 成都数联铭品科技有限公司 用于图像文字识别的字符切分方法
CN106980856A (zh) * 2016-01-15 2017-07-25 上海谦问万答吧云计算科技有限公司 公式识别方法及系统和符号推理计算方法及系统
CN107944028A (zh) * 2017-12-12 2018-04-20 华东交通大学 一种基于数学公式线性检索的方法
CN108241847A (zh) * 2016-12-27 2018-07-03 北京新唐思创教育科技有限公司 一种文本识别中的拉泰赫格式公式处理方法及其装置
CN108345833A (zh) * 2018-01-11 2018-07-31 深圳中兴网信科技有限公司 数学公式的识别方法及系统和计算机设备
CN108416355A (zh) * 2018-03-09 2018-08-17 浙江大学 一种基于机器视觉的工业现场生产数据的采集方法
CN108596183A (zh) * 2018-04-24 2018-09-28 大连民族大学 满文部件切分的过分割区域合并方法
CN109241861A (zh) * 2018-08-14 2019-01-18 科大讯飞股份有限公司 一种数学公式识别方法、装置、设备及存储介质
CN109685061A (zh) * 2018-12-19 2019-04-26 上海丕休智能科技有限公司 适用于结构化的数学公式的识别方法
CN110135425A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN110569853A (zh) * 2019-09-12 2019-12-13 南京红松信息技术有限公司 一种基于目标定位的独立公式的分割方法
CN111027561A (zh) * 2019-11-22 2020-04-17 广州寄锦教育科技有限公司 数学公式定位方法、系统、可读存储介质和计算机设备
CN111400491A (zh) * 2018-12-27 2020-07-10 北大方正集团有限公司 公式主体定位方法、装置、设备及计算机可读存储介质
CN113139548A (zh) * 2020-12-31 2021-07-20 重庆邮电大学 基于运算符作用域和中心线的数学公式识别方法
CN113537201A (zh) * 2021-09-16 2021-10-22 江西风向标教育科技有限公司 多维度混合ocr识别方法、装置、设备及存储介质
CN113657413A (zh) * 2021-10-19 2021-11-16 北京世纪好未来教育科技有限公司 手写公式的识别方法、装置、设备及介质

Cited By (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102222241B (zh) * 2010-04-19 2016-01-27 日本电产三协株式会社 字符串识别装置及字符串识别方法
CN102222241A (zh) * 2010-04-19 2011-10-19 日本电产三协株式会社 字符串识别装置及字符串识别方法
CN102542273A (zh) * 2011-12-02 2012-07-04 方正国际软件有限公司 一种文档图像中复杂公式区域的检测方法及系统
CN102567300A (zh) * 2011-12-29 2012-07-11 方正国际软件有限公司 图片文档的处理方法及装置
CN103324460A (zh) * 2012-03-19 2013-09-25 联想(北京)有限公司 数据处理方法、系统及具有该系统的设备
CN102750534A (zh) * 2012-06-26 2012-10-24 北京文通科技有限公司 一种字符切分的方法和装置
CN102945369A (zh) * 2012-10-17 2013-02-27 华南理工大学 一种文字识别方法
CN103996055A (zh) * 2014-06-13 2014-08-20 上海珉智信息科技有限公司 基于影像档案电子资料识别系统中分类器的识别方法
CN103996055B (zh) * 2014-06-13 2017-06-09 上海珉智信息科技有限公司 基于影像档案电子资料识别系统中分类器的识别方法
CN105631486A (zh) * 2014-10-27 2016-06-01 深圳Tcl数字技术有限公司 图像文字识别方法及装置
CN105631393A (zh) * 2014-11-06 2016-06-01 阿里巴巴集团控股有限公司 信息识别方法及装置
US10346703B2 (en) 2014-11-06 2019-07-09 Alibaba Group Holding Limited Method and apparatus for information recognition
CN104636741A (zh) * 2015-02-06 2015-05-20 百度在线网络技术(北京)有限公司 公式识别方法和装置
CN104636741B (zh) * 2015-02-06 2018-04-13 百度在线网络技术(北京)有限公司 公式识别方法和装置
CN104751148B (zh) * 2015-04-16 2018-09-07 同方知网数字出版技术股份有限公司 一种版式文件中识别科学公式的方法
CN104751148A (zh) * 2015-04-16 2015-07-01 同方知网数字出版技术股份有限公司 一种版式文件中识别科学公式的方法
CN104866850A (zh) * 2015-05-13 2015-08-26 湘潭大学 一种文本图像二值化的优化方法
CN104866850B (zh) * 2015-05-13 2018-11-02 湘潭大学 一种文本图像二值化的优化方法
CN105574486A (zh) * 2015-11-25 2016-05-11 成都数联铭品科技有限公司 一种图像表格文字切分方法
CN105447477B (zh) * 2015-12-25 2019-03-01 北京汉王数字科技有限公司 基于公式库的公式识别方法及装置
CN105447477A (zh) * 2015-12-25 2016-03-30 北京汉王数字科技有限公司 基于公式库的公式识别方法及装置
CN106980856B (zh) * 2016-01-15 2020-11-27 北京字节跳动网络技术有限公司 公式识别方法及系统和符号推理计算方法及系统
CN106980856A (zh) * 2016-01-15 2017-07-25 上海谦问万答吧云计算科技有限公司 公式识别方法及系统和符号推理计算方法及系统
CN105913057A (zh) * 2016-04-12 2016-08-31 中国传媒大学 一种结合投影和结构特征进行图像中数学公式检测方法
CN105913057B (zh) * 2016-04-12 2019-04-09 中国传媒大学 一种结合投影和结构特征进行图像中数学公式检测方法
CN106446881A (zh) * 2016-07-29 2017-02-22 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN106446881B (zh) * 2016-07-29 2019-05-21 北京交通大学 从医疗化验单图像中提取化验结果信息的方法
CN106326854B (zh) * 2016-08-19 2019-09-06 掌阅科技股份有限公司 一种版式文档段落识别方法
CN106326854A (zh) * 2016-08-19 2017-01-11 掌阅科技股份有限公司 一种版式文档段落识别方法
CN108241847B (zh) * 2016-12-27 2021-02-26 北京新唐思创教育科技有限公司 一种文本识别中的拉泰赫格式公式处理方法及其装置
CN108241847A (zh) * 2016-12-27 2018-07-03 北京新唐思创教育科技有限公司 一种文本识别中的拉泰赫格式公式处理方法及其装置
CN106778758A (zh) * 2016-12-29 2017-05-31 成都数联铭品科技有限公司 用于图像文字识别的字符切分方法
CN106652673B (zh) * 2017-01-16 2020-09-22 华南理工大学 一种自动识别和朗读药品说明书的方法
CN106652673A (zh) * 2017-01-16 2017-05-10 华南理工大学 一种自动识别和朗读药品说明书的方法
CN107944028A (zh) * 2017-12-12 2018-04-20 华东交通大学 一种基于数学公式线性检索的方法
CN108345833A (zh) * 2018-01-11 2018-07-31 深圳中兴网信科技有限公司 数学公式的识别方法及系统和计算机设备
CN110135425A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN108416355A (zh) * 2018-03-09 2018-08-17 浙江大学 一种基于机器视觉的工业现场生产数据的采集方法
CN108596183A (zh) * 2018-04-24 2018-09-28 大连民族大学 满文部件切分的过分割区域合并方法
CN109241861B (zh) * 2018-08-14 2022-02-25 科大讯飞股份有限公司 一种数学公式识别方法、装置、设备及存储介质
CN109241861A (zh) * 2018-08-14 2019-01-18 科大讯飞股份有限公司 一种数学公式识别方法、装置、设备及存储介质
CN109685061A (zh) * 2018-12-19 2019-04-26 上海丕休智能科技有限公司 适用于结构化的数学公式的识别方法
CN111400491A (zh) * 2018-12-27 2020-07-10 北大方正集团有限公司 公式主体定位方法、装置、设备及计算机可读存储介质
CN110569853A (zh) * 2019-09-12 2019-12-13 南京红松信息技术有限公司 一种基于目标定位的独立公式的分割方法
CN110569853B (zh) * 2019-09-12 2022-11-29 南京红松信息技术有限公司 一种基于目标定位的独立公式的分割方法
CN111027561A (zh) * 2019-11-22 2020-04-17 广州寄锦教育科技有限公司 数学公式定位方法、系统、可读存储介质和计算机设备
CN113139548A (zh) * 2020-12-31 2021-07-20 重庆邮电大学 基于运算符作用域和中心线的数学公式识别方法
CN113139548B (zh) * 2020-12-31 2022-05-06 重庆邮电大学 基于运算符作用域和中心线的数学公式识别方法
CN113537201A (zh) * 2021-09-16 2021-10-22 江西风向标教育科技有限公司 多维度混合ocr识别方法、装置、设备及存储介质
CN113657413A (zh) * 2021-10-19 2021-11-16 北京世纪好未来教育科技有限公司 手写公式的识别方法、装置、设备及介质
CN113657413B (zh) * 2021-10-19 2022-02-15 北京世纪好未来教育科技有限公司 手写公式的识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN100541521C (zh) 2009-09-16

Similar Documents

Publication Publication Date Title
CN100541521C (zh) 中文印刷体公式识别方法
KR100324847B1 (ko) 수신인명 리드장치와 우편물등 구분기 및 문자열 인식방법
KR100339446B1 (ko) 주소 인식 장치 및 주소 인식 방법
Gaurav et al. A feature extraction technique based on character geometry for character recognition
CN105095884B (zh) 一种基于随机森林支持向量机的行人识别系统及处理方法
Wei et al. Evaluation of svm, mlp and gmm classifiers for layout analysis of historical documents
KR950001551A (ko) 이미지 세그먼테이션 및 이미지 요소 분류 방법
CN101128838A (zh) 辨认图
US6917708B2 (en) Handwriting recognition by word separation into silhouette bar codes and other feature extraction
CN105825216A (zh) 一种复杂背景图像中的文本定位方法
CN106874421A (zh) 基于自适应矩形窗口的图像检索方法
Burges et al. Off line recognition of handwritten postal words using neural networks
JP5003051B2 (ja) 郵便自動区分機及び郵便自動区分方法
Kefali et al. Evaluation of several binarization techniques for old Arabic documents images
WO2002019248A9 (en) Character recognition system
US8036461B2 (en) Method of graphical objects recognition using the integrity principle
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
Ifhaam et al. Sinhala handwritten postal address recognition for postal sorting
Song et al. Recognition of merged characters based on forepart prediction, necessity-sufficiency matching, and character-adaptive masking
Van Phan et al. Collecting handwritten nom character patterns from historical document pages
Jia et al. Grayscale-projection based optimal character segmentation for camera-captured faint text recognition
Wang et al. Improvement of zone content classification by using background analysis
Roy et al. Trilingual script separation of handwritten postal document
Liu et al. Document image binarization based on texture analysis
Singh et al. Script invariant handwritten digit recognition using a simple feature descriptor

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090916

Termination date: 20121114