CN101149790A

CN101149790A - 中文印刷体公式识别方法

Info

Publication number: CN101149790A
Application number: CNA2007101445888A
Authority: CN
Inventors: 王科俊; 李永华; 冯伟兴; 刘维平; 陈卉; 付斌; 唐墨
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2007-11-14
Filing date: 2007-11-14
Publication date: 2008-03-26
Anticipated expiration: 2027-11-14
Also published as: CN100541521C

Abstract

本发明提供的是一种中文印刷体公式识别方法。包括版面分析、汉字识别和数学公式识别3个模块，版面分析模块是对待识别的BMP图像进行各项预处理二值化，并利用投影法结合自底向上的版面分析算法，分割出文字块、图像块、表格块，对图像块和表格块进行保存处理；汉字识别模块是针对文字块进行虚假行合并、选择切分参数、提取特征和对汉字识别，将拒识的结果记录下来，把同行相邻的拒识结果合并这样可以定位出公式区域；数学公式识别是将拒识出来的文字区域中的公式字符进行提取、分割、合并一些合成字符、识别；最后通过公式字符的结构分析，得出字符间的关系；并最终输出结果为一维的字符串。经过试验证明本发明的识别效果还是令人满意的。

Description

中文印刷体公式识别方法

(一)技术领域

本发明涉及的是一种识别方法，具体地说是一种中文印刷体文档内容识别方法，特别是针对印刷体数学公式的识别方法。

(二)背景技术

1929年Tausheck取得光字符识别(Optical Character Recognition，OCR)专利，由于其容易被人们接受、掌握，它同语音识别、行为识别等一起日益成为人们研究的焦点。经过近一个世纪的发展，OCR已经成为当今模式识别领域中最活跃的研究内容之一。至今为止，单纯的一维字符识别技术已经相当成熟，已经有较为成型的识别系统(如紫光、汉王等)，有很高的识别率，但是这些系统都不能识别文档中的数学公式。所以，这种二维的结构数学公式成为了制约OCR技术发展的瓶颈。

(三)发明内容

本发明的目的在于提供一种在版面分析、汉字识别技术支持的中文印刷体公式识别方法。

本发明的目的是这样实现的：对待识别的图像进行二值化，通过版面分析分割出文字块、图像块、表格块；针对文字块进行文字识别，选择拒识条件，将同行相邻拒识结果合并定位为公式区域；将拒识出来的文字区域中的公式字符分割、识别；最后通过公式字符的结构分析得出字符间的关系；最终输出结果为一维的字符串。

本发明还可以包括：

1、所述的通过版面分析分割出文字块、图像块、表格块是通过对二值化后的图像的连通域搜索，将面积明显大于一般图像块的搜索结果划定为图像或表格区域，将判定的文档区域送入汉字识别模块。

2、在汉字识别模块中，对图像进行行投影，依次对行高和行间距聚类，分割出每行，并对投影出来的虚假行合并，最后自动选择汉字切分参数对分割出的每行回溯切分，得到字符段，对字符段进行汉字识别。

3、所述的将拒识出来的文字区域中的公式字符分割、识别足对于定位出来的公式区域采用8邻域搜索算法，分割出单独的公式字符，采用统计特征和结构特征相结合的方法，构建3层分类树，从而识别公式字符。

4、所述的进行汉字识别包括汉字的切分和汉字的识别两个部分；所述的汉字切分的方法包括最大宽度回溯切分和回溯切分参数的选择；最大宽度回溯切分是：预先选择回溯切分参数W_M，然后以当前汉字最左端j_A为汉字起点，在j_A+W_M到j_A范围内回溯，在该行范围内列投影，寻找第二次出现的投影值为白值的点j_B为汉字的右端终点，重复以上步骤，得到切分出来的汉字；回溯切分参数的选择是：通过先后对行高和行间距的聚类，从而实现了虚假行的合并和选择汉字切分参数；所述的汉字的识别采用先粗分类后细分类的方法构建分类器，再将切分出来的汉字质心归一化、大小归一化后，提取粗网格数和粗外围数作为粗分类特征，采用k近邻快速算法搜索前10个误差最小的类别，然后对归一化后的汉字细化，提取汉字特征点作为精确匹配特征，最终识别出汉字。

5、所述的识别公式字符包括：

(1)文档中数学公式的提取

步骤1：将检测到的所有拒识并相邻的字符段存入链表；

步骤2：搜索链表，直到找出不同行的字符段，若所有字符段都同行，则转至步骤4；

步骤3：将所有该字符段之前的字符段合并，将合并结果保存，释放该字符段之前的所有空间，转至步骤2；

步骤4：所有链表中的字符段为同行，将所有字符段合并，算法结束；

(2)数学公式块中的字符分割

采用连通域搜索算法分割字符，定义对二值图像，1代表黑像素，0代表白像素，步骤如下：

a.以一个值为1的点为起点，向八领域搜索各个1值点；

b.对各个1值点再进行同样的八领域搜索，直到遇到像素值0且八领域值都为0的点；

c.记录这次搜索途经1值点的坐标，建立新的数组，就分割出一个字符；

d.递归分割直到遍历各个点，分割出各个字符，并分别存入数组中；

(3)数学公式结构分析

采用基于特征字符的公式结构分析方法，步骤如下：

a.字符的同行判断

将字符集划分为居中，居上，居下三个集合，对给定字符r，下面给出y轴归一化中心middleY(r)的计算公式：

居中型字符：

middleY(r)＝upY(r)+((downy(r)-upY(r))/2)

居上型字符：

middleY(r)＝upY(r)+(1/4)(downy(r)-upY(r))

居下型字符：

middleY(r)＝upY(r)+(3/4)(downY(r)-upY(r))

若letter1在letter2左边，当满足如下条件时，判断letter2和letter1同行

设定一个权值量：

qz＝(downY(letter1)-upY(letter1))/4

若同时满足：

middleY(letter2)＞middleY(letter1)-qz

middleY(letter2)＜middleY(letter1)+qz

则判断letter2与letter1同行；

b.特征字符

把相同的各个字符分为一类，成为一个特征字符类别，该类别中的每个元素就是特征字符，系统中存在9种不同的特征字符，他们是后标型、上下型、包含型、下标型、括号型、独立型、多行型、普通型、多重型，其中多重型包括两种或两种以上的前八种类型，在总体算法中计算，从而判断其到底是前8种类型中的哪一种。

c.归一化水平最左字符

归一化水平最左字符定义的是在整个输出公式的y轴中心线上的水平最左字符，首先给出计算公式y轴中心线的方法，其次给出找到输入堆栈中归一化水平最左字符的方法；

d.结构分析算法

对给定的公式中的字符从左至右按照其所属的特征字符类别分别采用不同的方案找到其sub、sup、above，形成特征子块，记录子块与对应父元素的关系，并将输入堆栈中对应的元素推出，而对子块也同样按照从左至右的顺序，找到其各个元素的子sub、sup、above，并合成子块，递归调用，直到无sub、sup、above，子块切割完毕，这时的最低层子块是一个简单的一维子公式行，对其进行识别，并把识别结果带入上层父元素得到父子块识别结果，得到父子块所属的子块的识别结果并按照同样的方法递归调用，得到识别的结果；

(4)公式的表示

将识别出的数学公式表示成Word EQ语句，可以在Word中显示出来。

下面来简单介绍一下本发明的特点：

本发明最大的特点是将中文版面分析与汉字识别作为数学公式识别的基础，即在版面分析和汉字识别的结果中，实现对数学公式的识别。这是由于汉字识别技术虽然现在还不够成熟，但其识别率我们还是可以接受的，因此在此基础上作公式识别是具有可行性的。

各种各样的版面分析算法，现阶段已经有很强的理论支持，因此，对本发明提出的通过投影法结合像素连通域的自底向上的分析算法，具有可实现性。

在数学公式识别中，利用基于特征字符的方法，其算法虽然较为复杂，但是识别的结果是比较令人满意的，具有可采性。

本发明可以识别一级汉字和常用标点共3768个。

(四)附图说明

图1是本发明的整体框图。

(五)具体实施方式

下面结合附图举例对本发明做更详细地描述：

本发明的目的在于克服现有的OCR系统技术的不足，提供一种在版面分析、汉字识别技术支持的印刷体数学公式识别技术。包括版面分析、汉字识别和数学公式识别3个模块，其中版面分析和汉字识别是数学公式识别的前处理，正是有了这样的两个部分，公式识别模块才能够正确的定位、识别公式，因此它们三者是密不可分的。

1.文档的版面分析

版面分析是文字识别的前处理技术之一。它是利用图像处理、人工智能等技术完成文档图像中的文字域、表格域、图形、图像域的分割、属性标注工作。其结果将文字域、表格域交给后续的识别模块处理。

首先，我们采用连通域搜索算法获取二值文档图像上所有的连通域。根据连通域大小进行聚类，得到字号分布将较大的连通域直接判断为图像区域。

第二步，往垂直方向进行投影，也可以将行高明显大于不同文字行高的部分判断为图像和表格区域，并将这些图像和表格压缩。将结果和它们的位置一同存到内存中，到输出相应位置时进行相应输出。

最后，对剩下的连通域进一步理解分析采用自底向下的版面分析算法，将一个个连通域合并成行，再将行合并成区域。

2.印刷体汉字识别

对汉字的识别是模式识别的重要应用领域。汉字识别技术是OCR技术的核心，其主要包括汉字的切分和汉字的识别两个部分。

2.1汉字切分法

2.1.1改进的最大宽度回溯切分

该算法需要预先选择回溯切分参数W_M，然后以当前汉字最左端j_A为汉字起点，在j_A+W_M到j_A范围内回溯，在该行范围内列投影，寻找第二次出现的投影值为白值的点j_B为汉字的右端终点。重复以上步骤，我们就可以得到切分出来的汉字。

2.1.2回溯切分参数的选择

本系统的回溯切分参数的选择起到了两个作用：对文本中的虚假行合并和选择汉字切分参数。虚假行在数学公式中十分常见，往往存在上下标的数学公式经过行投影后会将原本是一行的数学公式分割成多行，严重影响了公式识别结果。

本系统通过先后对行高和行间距的聚类，从而实现了虚假行的合并和选择汉字切分参数。

2.2分类器设计

本系统采用先粗分类后细分类的方法构建分类器，在将切分出来的汉字质心归一化、大小归一化后，提取粗网格数和粗外围数作为粗分类特征，采用k近邻快速算法搜索前10个误差最小的类别；然后对归一化后的汉字细化，提取汉字特征点作为精确匹配特征，最终识别出汉字。

3.印刷体数学公式识别

3.1文档中数学公式的提取

本系统在汉字识别模块中引入了汉字的拒识类，通过选择两级拒识参数从而实现对数学公式块、英文字母和阿拉伯数字的拒识。将拒识后的同行相邻字符段合并。下面给出文档中数学公式的定位方法：

步骤1：将检测到的所有拒识并相邻的字符段存入链表；

步骤2：搜索链表，直到找出不同行的字符段，若所有字符段都同行，则转4：

步骤3：将所有该字符段之前的字符段合并，将合并结果保存，释放该字符段之前的所有空间，转2；

3.2数学公式块中的字符识别

数学公式中的符号数目没有汉字的数目多，但是由于数学公式的二维属性和公式字符的大小不一，字体各异，相似字符较多，而且某些字符的长度(或高度)是要随着它们所绑定的子表达式的长度(高度)而变化的。因此数学公式中的字符的识别还是比较困难的。

本系统采用连通域搜索算法分割字符，定义对二值图像，1代表黑像素，0代表白像素。算法如下：

1.以一个值为1的点为起点，向八领域搜索各个1值点；

2.对各个1值点再进行同样的八领域搜索，直到遇到像素值0且八领域值都为0的点；

3.记录这次搜索途经1值点的坐标，建立新的数组，就分割出一个字符；

4.递归分割直到遍历各个点，就可以分割出各个字符，并分别存入数组中。

本系统采用统计特征和结构特征相结合的方法构建三层分类树。首先求字符的孔洞数，作为第一级分类器；然后对字符归一化细化，求粗网格数和穿线数作为第二级分类器，取前5个最近邻作为候选字符；最后采用结构特征在候选字符中选择结构特征匹配最多的一个，结构特征可以采用质心特征、宽高比等。

在识别出字符后，需要对以下三种情况需要合并连通体，重新识别：

1.字符在垂直方向可分为多个连通体，例如“i”；

2.字符在水平方向可分为多个连通体，例如“《”；

3.大连通体包含小连通体，例如“Θ”。

3.3数学公式结构分析

字符识别出来以后，要将它们组合成能表达原公式结构的字符串，这就是数学公式的结构分析。本系统采用基于特征字符的公式结构分析方法。

3.3.1字符的同行判断

将字符集划分为居中，居上，居下三个集合。对给定字符r，下面给出y轴归一化中心middleY(r)的计算公式：

居中型字符：

middleY(r)＝upY(r)+((downy(r)-upY(r))/2)

居上型字符：

middleY(r)＝upY(r)+(1/4)(downy(r)-upY(r))

居下型字符：

middleY(r)＝upY(r)+(3/4)(downY(r)-upY(r))

设定一个权值量：

qz＝(downY(letter1)-upY(letter1))/4

若同时满足：

middleY(letter2)＞middleY(letter1)-qz

middleY(letter2)＜middleY(letter1)+qz

则判断letter2与letter1同行。

3.3.2特征字符

特征字符是进行块切割的依据，不同的字符其上下标以及后标的有无以及位置不尽相同，我们把相同的各个字符分为一类，成为一个特征字符类别，该类别中的每个元素就是特征字符。本系统中存在9种不同的特征字符，他们是后标型、上下型、包含型、下标型、括号型、独立型、多行型、普通型、多重型。其中多重型包括两种或两种以上的前八种类型，需要在总体算法中计算，从而判断其到底是前8种类型中的那一种。

3.3.3归一化水平最左字符

归一化水平最左字符定义的是在整个输出公式的y轴中心线上的水平最左字符，首先给出计算公式y轴中心线的方法，其次给出找到输入堆栈中归一化水平最左字符的方法。

遍历输入公式堆栈，记y轴最小坐标为Ymin，最大坐标为Ymax，又设输入堆栈的y轴中心线坐标为Ymiddle，则：Ymiddle＝(Ymin+Ymax)/2

遍历输入堆栈，对遍历元素r，若：upY(r)<Ymiddle downy>Ymiddle则将r推入一个新的堆栈newD，遍历newD，x轴坐标最左元素为我们需要的归一化水平最左元素。

3.3.4结构分析算法

对给定的公式中的字符从左至右按照其所属的特征字符类别分别采用不同的方案找到其sub、sup、above，形成特征子块，记录子块与对应父元素的关系，并将输入堆栈中对应的元素推出，而对子块也同样按照从左至右的顺序，找到其各个元素的子sub、sup、above，并合成子块，递归调用，直到无sub、sup、above，子块切割完毕，这时的最低层子块是一个简单的一维子公式行，对其进行识别，并把识别结果带入上层父元素得到父子块识别结果，得到父子块所属的子块的识别结果并按照同样的方法递归调用，即可以得到识别的结果。

总体算法流程：

1.将输入堆栈中的字符按水平轴坐标从左至右排列；

2.若堆栈为空，跳至9；否则找到归一化水平最左元素t；

3.判断t所属的特征字符类别，然后判断其有sub、sup、above，若无转至

4，若有，转至5；

4.t无sub、sup、above，故形成的特征子块只有其一个元素，识别t，储存识别结果，将该元素推出输入堆栈，转至2；

5.t有sub、sup、above，找到其sub、sup、above，若为后标型特征字符，还需找到back，并分别形成新的特征子块，并分别推入新建的堆栈中；

6.以新的各个堆栈为输入，分别递归调用本方法，得到各个新堆栈的识别结果；

7.将6的识别结果与t结合，得到以t中心的特征子块的识别结果，存储识别结果；

8.将特征字符及其包含的上下标和后标从输入堆栈中推出，转至2；

9.特征子块切割与识别完成，储存的各个识别结果从左至右组合，得到整个公式的识别结果。

各子算法：

后标型：

1.在输入堆栈中找到与t同一水平线中最左的元素b；

2.若含有水平中心坐标在t的最右水平坐标与b的最左水平坐标之间的元素，则认为t含有上下标，跳到4找此时的上下标；否则转到3

3.认为t的上下标在t的正上方或正下方，跳到⑤找该情况下的上下标以及后标；

4.将字符堆栈中的字符按照水平从左至右的顺序排列，对堆栈中的任一字符r，若满足

middlex(r)＞rightx(t)；

middlex(r)＜rightx(b)；

middley(r)＜middley(t)-(1/4)(downy(t)-upy(t))

则将r推入t的上标特征子块堆栈；

若满足

middlex(r)＞rightx(t)；

middlex(r)＜rightx(b)；

middley(r)＞middley(t)+(1/4)(downy(t)-upy(t))

则将r推入t的下标特征子块堆栈，当堆栈中元素为空，跳至6；

5.将字符堆栈中的字符按照水平从左至右的顺序排列，对堆栈中的每个字符r，若满足

middlex(r)＜leftx(b)；

middley(r)＜middley(t)-(1/4)(downy(t)-upy(t))

则将r推入t的上标特征子块堆栈；

若满足

middlex(r)＜leftx(b)；

middley(r)＞middley(t)+(1/4)(downy(t)-upy(t))

则将r推入t的下标特征子块堆栈；

若满足r为与t同一水平的元素，则将r推入t的后标特征子块堆栈，转6；

6.完成特征子块的切割，形成了三个特征子堆栈，完成了任务。

上下型：

对输入堆栈中的任一元素r，若满足

leftx(r)＞leftx(t)；

rightx(r)＜rightx(t)；

downy(r)＜upy(t)

则认为r为t的上标，推入上标子块堆栈；

若满足

leftx(r)＞leftx(t)；

rightx(r)＜rightx(t)；

upy(r)＞downy(t)

则认为r为t的下标，推入下标子块堆栈。

包含型：

若满足

leftx(r)＞leftx(t)；

rightx(r)＜rightx(t)；

downy(r)＜downy(t)；

upy(r)＞upy(t)

则将r推入堆栈

下标型：

若满足

down(t)＞up(r)

left(r)＞left(t)

right(r)＜left(t)

或

left(r)＞left(t)

right(r)＜right(t)

或

left(r)＜right(t)

right(r)＞right(t)

则将r推入堆栈

括号型：

若存在一对括号，则将括号中的字符推入contain堆栈

将右边的括号的sub、sup分别推入相应的堆栈

独立型：

独立型没有特征子块，只要将识别后的字符加到已经识别出的字符串后边。

多行型：

该类型主要处理矩阵和联立的方程。

对该区域的所有字符计算其邻接强度，然后将邻接强度小于某域值的字符合并为公式，将该区域的所有公式再送入公式识别器。

普通型：

分别将特征字符的sub、sup、above推入堆栈

多重型：

需要判断当前特征字符的具体类型，然后根据其具体类型判断当前特征字符究竟是以上八中的那一种类型

3.3.5公式的表示

本系统将识别出的数学公式表示成Word EQ语句，可以在Word中显示出来，这样我们就可以实现将一个BMP格式的文档转换成一个Word文档的格式，从而实现的本发明的发明要求。

Claims

1.一种中文印刷体公式识别方法，其特征是：包括版面分析、汉字识别和数学公式识别3个模块，所述的版面分析是对待识别的图像进行二值化，通过版面分析分割出文字块、图像块、表格块；所述的汉字识别是针对文字块进行文字识别，选择拒识条件，将同行相邻拒识结果合并定位为公式区域；所述的数学公式识别是将拒识出来的文字区域中的公式字符分割、识别；最后通过公式字符的结构分析得出字符间的关系；最终输出结果为一维的字符串。

2.根据权利要求1所述的所述的中文印刷体公式识别方法，其特征是：所述的通过版面分析分割出文字块、图像块、表格块是通过对二值化后的图像的连通域搜索，将面积明显大于一般图像块的搜索结果划定为图像或表格区域，将判定的文档区域送入汉字识别模块。

3.根据权利要求1所述的所述的中文印刷体公式识别方法，其特征是：在汉字识别模块中，对图像进行行投影，依次对行高和行间距聚类，分割出每行，并对投影出来的虚假行合并，最后自动选择汉字切分参数对分割出的每行回溯切分，得到字符段，对字符段进行汉字识别。

4.根据权利要求1所述的所述的中文印刷体公式识别方法，其特征是：所述的将拒识出来的文字区域中的公式字符分割、识别是对于定位出来的公式区域采用8邻域搜索算法，分割出单独的公式字符，采用统计特征和结构特征相结合的方法，构建3层分类树，从而识别公式字符。

5.根据权利要求3所述的所述的中文印刷体公式识别方法，其特征是：所述的进行汉字识别包括汉字的切分和汉字的识别两个部分；所述的汉字切分的方法包括最大宽度回溯切分和回溯切分参数的选择；最大宽度回溯切分是：预先选择回溯切分参数W_M，然后以当前汉字最左端j_A为汉字起点，在j_A+W_M到j_A范围内回溯，在该行范围内列投影，寻找第二次出现的投影值为白值的点j_B为汉字的右端终点，重复以上步骤，得到切分出来的汉字；回溯切分参数的选择是：通过先后对行高和行间距的聚类，从而实现了虚假行的合并和选择汉字切分参数；所述的汉字的识别采用先粗分类后细分类的方法构建分类器，再将切分出来的汉字质心归一化、大小归一化后，提取粗网格数和粗外围数作为粗分类特征，采用k近邻快速算法搜索前10个误差最小的类别，然后对归一化后的汉字细化，提取汉字特征点作为精确匹配特征，最终识别出汉字。

6.根据权利要求4所述的所述的中文印刷体公式识别方法，其特征是：所述的识别公式字符包括：

(1)文档中数学公式的提取

步骤1：将检测到的所有拒识并相邻的字符段存入链表；

(2)数学公式块中的字符识别

a.以一个值为1的点为起点，向八领域搜索各个1值点；

(3)数学公式结构分析

采用基于特征字符的公式结构分析方法，步骤如下：

a.字符的同行判断

居中型字符：

middleY(r)＝upY(r)+((downy(r)-upY(r))/2)

居上型字符：

middleY(r)＝upY(r)+(1/4)(downy(r)-upY(r))

居下型字符：

middleY(r)＝upY(r)+(3/4)(downY(r)-upY(r))

设定一个权值量：

qz＝(downY(letter1)-upY(letter1))/4

若同时满足：

middleY(letter2)＞middleY(letter1)一qz

middleY(letter2)＜middleY(letter1)+qz

则判断letter2与letter1同行；

(2)特征字符

把相同的各个字符分为一类，成为一个特征字符类别，该类别中的每个元素就是特征字符，系统中存在9种不同的特征字符，他们是后标型、上下型、包含型、下标型、括号型、独立型、多行型、普通型、多重型，其中多重型包括两种或两种以上的前八种类型，在总体算法中计算，从而判断其到底是前8种类型中的那一种；

(3)归一化水平最左字符

(4)结构分析算法

(5)公式的表示