CN102542273A

CN102542273A - 一种文档图像中复杂公式区域的检测方法及系统

Info

Publication number: CN102542273A
Application number: CN2011103938759A
Authority: CN
Inventors: 胡希驰; 史培培
Original assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Current assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Priority date: 2011-12-02
Filing date: 2011-12-02
Publication date: 2012-07-04
Anticipated expiration: 2031-12-02
Also published as: CN102542273B

Abstract

本发明公开了一种文档图像中复杂公式区域的检测方法及系统，涉及计算机图像处理技术领域。本发明解决上述技术问题的关键在于：1、连通域邻域信息编码计算方法；2、利用连通域邻域信息编码检测图像中复杂公式区域的方法。利用本发明提出的公式区域检测方法及系统可以较为准确地检测文档图像中复杂的公式区域，速度快效率高。将其应用于数字化加工流程中，可以提高数字化加工流程的效率，大大减少人力成本。

Description

一种文档图像中复杂公式区域的检测方法及系统

技术领域

本发明涉及计算机图像处理技术领域，尤其涉及一种文档图像中复杂公式区域的检测方法及系统。

背景技术

在文档图像数字化的过程中，需要对公式进行处理。现有的操作方式是由人工对公式区域进行标记，然后以图片的形式贴到对应的数字化版面中。由于科技文献和技术文档中往往存在着大量的数学公式，而数学公式又是一种非常复杂的文档结构，在目前的数字化加工流程中主要采取手工方式对公式区域进行标记。这不仅带来人力成本的剧增，而且会导致整个加工流程受到公式的制约导致效率低下，会影响到整个数字化的加工流程。

目前国内有部分专利涉及几种公式区域检测方法，具体如下：(1)中国专利申请《中文印刷体公式识别方法》(申请号200710144588.8，公开日期2008年3月26日)公开的方法是利用OCR对各个字符进行识别，将拒识区域标记为公式。该方法的缺点是检测的精度和效率主要依赖于汉字识别模块的识别率和识别速度。(2)中国专利申请《图像中数学公式的自动识别方法》(申请号200810053443.1，公开日期2008年12月24日)公开的方法是将公式分为独立行公式和内嵌公式两种，并且利用不同的方法进行分别提取。其中独立公式行通过parzen windown的方法实现，内嵌公式通过二维特征和识别特征进行提取，该方法提取了多个特征，算法复杂度较高。

发明内容

针对现有技术中所存在的不足，本发明提出了一种文档图像中复杂公式区域的检测方法及系统，大大提高文档图像数字化加工流程的效率。

本发明解决上述技术问题所采用的技术方案如下所描述：

一种文档图像中复杂公式区域的检测方法，包括以下步骤：

(1)对文档图像进行二值化，得到二值图像；

(2)对二值图像进行连通区域标记；

(3)对文档图像进行成行处理；

(4)对行内的连通域逐个进行处理，记录其邻域信息编码并分析是否为异常区域；

(5)对行内所有连通域的编码进行直方图统计，并将直方图进行归一化，然后与不包含公式的文本图像的归一化编码直方图进行对比，计算两个直方图的距离，如果距离超过阈值T，该行就为可疑的复杂公式区域；

(6)对可疑行进行进一步判断，区分独立行公式和行内公式。

进一步，步骤2中，在对二值图像进行连通区域标记后，如果初始连通域中存在包含、相交关系，则合并初始连通域中的包含、相交关系。

进一步，步骤4中，判断一个连通域是否为异常区域的方法如下：

1)设当前处理的连通域为C，对当前处理的连通域的周围邻域进行划分并标号，将其周围邻域划分为8个区域，分别标记为0-7，每个区域对应一个1位二进制码，将每个码均初始化为0；

2)寻找与其直接相邻的连通域，设置8个区域的编码，如果区域中存在与其直接相邻的其他连通域，则将该区域的编码设置为1；

3)构造字符邻域模板表达式，获得每个连通域邻域信息的编码，将区域0-7的编码按照从右至左的顺序排列组成一个二进制序列，然后将该二进制序列转换为十进制，则得到该连通域的邻域信息编码；

4)标记异常连通域。

更进一步，步骤4)中，编码0、1、16、17代表正常字符之间的相邻关系，编码2、8、9、18代表普通字符和标点相邻的情况，将编码不是以上数值的连通域标记为异常连通域。

进一步，步骤5中，根据语种与不包含公式的相同语种的文本图像的归一化编码直方图进行对比，计算两个直方图的距离采用欧式距离或余弦距离。

进一步，所述阈值T的取值范围为[0.1，0.8]，优选为0.3。

进一步，步骤6中，如果行内异常区域的比例大于N％时，就为独立行公式，否则为行内公式，所述的N％取值范围为[0.7，0.9]，优选为0.85。

进一步，步骤6中，根据步骤5中计算出的距离进行区分，对于行内公式的标定采用计算机辅助标定和人工手动标定相结合的方式进行。

本发明还提供了一种文档图像中复杂公式区域的检测系统，包括以下装置：

图像二值化装置：用于对文档图像进行二值化，得到二值图像；

连通区域标记装置：用于对二值图像进行连通区域标记；

成行处理装置：用于对文档图像进行成行处理；

连通域处理装置：用于对行内的连通域逐个进行处理，记录其邻域信息编码并分析是否为异常区域；

公式区域判断装置：用于对行内所有连通域的编码进行直方图统计，并将直方图进行归一化，然后与不包含公式的归一化文本图像的编码直方图进行对比，计算两个直方图的距离，如果距离超过阈值T，该行就为可疑的复杂公式区域，所述阈值T的取值范围为[0.1，0.8]；

公式判断装置：用于对可疑行进行进一步判断，区分独立行公式和行内公式。

本发明的效果在于：连通域邻域信息编码方法可以有效的区分公式和普通文本，并且计算简单，效果显著。与专利《中文印刷体公式识别方法》(申请号200710144588.8)相比，该方法不需要依赖OCR引擎，并且速度快，效率高；与专利《图像中数学公式的自动识别方法》(申请号200810053443.1)相比，该方法只需要一个特征，算法简单高效，并且该算法能够应用于中文文档和英文文档，其适用范围较广。

附图说明

图1为本发明单个连通域周围邻域划分示意图；

图2为邻域信息编码计算示意图；

图3为实施例中不包含公式的文本图像；

图4为图3所示图像的编码直方图；

图5为图3所示图像异常区域标识图；

图6为实施例中的公式图像；

图7为图6所示编码图像的直方图；

图8为图6所示图像异常区域标识图；

图9为本发明实施例中所述方法的整体流程图；

图10为本发明所述方法连通域邻域信息编码计算流程图。

具体实施方式

下面结合附图和具体实施例来对本发明进行描述。

本发明通过分析文本区域和公式区域的结构特征，设计了一种区分两种区域的特征，利用该特征能够检测文档图像中复杂的公式区域，并自动对公式区域进行标记。本发明的核心步骤就是公式区域的检测，本发明解决上述技术问题的关键在于：

1、连通域邻域信息编码计算方法。

2、利用连通域邻域信息编码检测图像中复杂公式区域的方法。

本实施例中，一种文档图像中复杂公式区域的检测系统，包括以下装置：

连通区域标记装置：用于对二值图像进行连通区域标记；

合并装置：用于合并初始连通域中的包含、相交关系；

成行处理装置：用于对文档图像进行成行处理；

公式区域判断装置：用于对行内所有连通域的编码进行直方图统计，并将直方图进行归一化，然后根据语种与不包含公式的归一化文本图像的编码直方图进行对比，计算两个直方图的距离，如果距离超过阈值T，该行就为可疑的复杂公式区域，所述阈值T的取值范围为[0.1，0.8]；

如图9所示，本发明所述的一种文档图像中复杂公式区域的检测方法，具体步骤如下：

(1)对文档图像进行二值化，得到二值图像；

(2)对二值图像进行连通区域标记；

(3)如果初始连通域中存在包含、相交关系，则合并初始连通域中的包含、相交关系，如果不存在包含、相交关系，则直接转入步骤(4)；

(4)对文档图像进行成行处理；

(5)对行内的连通域逐个进行处理，记录其邻域信息编码并分析是否为异常区域；

如图10所示，判断一个连通域是否为异常区域的方法如下：设当前处理的连通域为C，

1)对当前处理的连通域的周围邻域进行划分并标号，如图1所示，方框表示当前处理的连通域C，将其周围邻域划分为8个区域(可以不为8个区域，划分为其他数量的区域也有一定的意义)，分别标记为0-7。每个区域对应一个1位二进制码(非0即1)，将每个码均初始化为0。

2)寻找与其直接相邻的连通域，设置8个区域的编码。如果区域中存在与其直接相邻的其他连通域，则将该区域的编码设置为1。

3)构造字符邻域模板表达式，获得每个连通域邻域信息的编码。将区域0-7的编码按照从右至左的顺序排列组成一个二进制序列，然后将该二进制序列转换为十进制，则得到该连通域的邻域信息编码。如图2所示，红色方框表示当前联通域位置，白色方框为其周围的连通域，周围两个连通域的中心点分别落在区域0和区域4，所以其领域信息的编码为00010001，将其转化为十进制为17。

4)标记异常连通域。通过以上计算可知，编码0、1、16、17代表正常字符之间的相邻关系，编码2、8、9、18代表普通字符和标点相邻的情况。因此应当将编码不是以上数值的连通域标记为异常连通域。

(6)对行内所有连通域的编码进行直方图统计，并将直方图进行归一化，然后根据语种与不包含公式的相同语种的文本图像的归一化编码直方图进行对比，计算两个直方图的距离，如果距离超过阈值T(本实施例中T为0.3，可以根据具体应用情况在[0.1，0.8]范围内进行调整)，该行就为可疑的复杂公式区域。计算两个直方图的距离可以采用欧式距离、余弦距离等。图3和图6分别为正常的文本图像(此处以中文文档图像为例)和公式图像，2幅图的领域信息编码的直方图如图4、图7所示，从这两幅图可以看出，2个直方图分布差异显著。

(7)对可疑行进行进一步判断，区分独立行公式和行内公式。如图5和图8所示，分别为图3和图6的异常区域标记图，由这两幅图可知两种图像异常区域的数量差别很大。利用该特征可以对行进行进一步判定，如果行内异常区域的比例大于N％时(本实施例中N％为0.85，可以根据具体应用情况在[0.7，0.9]范围内进行调整)，就为独立行公式，否则为行内公式。也可以根据步骤(6)中计算出的距离进行区分。对于行内公式的标定可以采用计算机辅助标定和人工手动标定相结合的方式进行。

根据本实施例可以看出，利用本发明提出的公式区域检测方法能够较为准确的检测文档图像中复杂的公式区域，简单高效，提高数字化加工流程的效率，大大减少人力成本，并且该方法不仅能够应用于中文文档图像还能应用于英文文档图像，扩大了适用范围。

需要注意的是，上述具体实施例仅仅是示例性的，在本发明的上述教导下，本领域技术人员可以在上述实施例的基础上进行各种改进和变形，而这些改进或者变形落在本发明的保护范围内。本领域技术人员应该明白，上面的具体描述只是为了解释本发明的目的，并非用于限制本发明。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种文档图像中复杂公式区域的检测方法，包括以下步骤：

(1)对文档图像进行二值化，得到二值图像；

(2)对二值图像进行连通区域标记；

(3)对文档图像进行成行处理；

(6)对可疑行进行进一步判断，区分独立行公式和行内公式。

2.如权利要求1所述的一种文档图像中复杂公式区域的检测方法，其特征在于，步骤2中，在对二值图像进行连通区域标记后，如果初始连通域中存在包含、相交关系，则合并初始连通域中的包含、相交关系。

3.如权利要求1所述的一种文档图像中复杂公式区域的检测方法，其特征在于，步骤4中，判断一个连通域是否为异常区域的方法如下：

4)标记异常连通域。

4.如权利要求3所述的一种文档图像中复杂公式区域的检测方法，其特征在于，步骤4)中，编码0、1、16、17代表正常字符之间的相邻关系，编码2、8、9、18代表普通字符和标点相邻的情况，将编码不是以上数值的连通域标记为异常连通域。

5.如权利要求1至4任一所述的一种文档图像中复杂公式区域的检测方法，其特征在于：步骤5中，根据语种与不包含公式的相同语种的文本图像的归一化编码直方图进行对比，计算两个直方图的距离采用欧式距离或余弦距离。

6.如权利要求1至4任一所述的一种文档图像中复杂公式区域的检测方法，其特征在于：步骤5中，所述阈值T的取值范围为[0.1，0.8]。

7.如权利要求6所述的一种文档图像中复杂公式区域的检测方法，其特征在于：所述阈值T为0.3。

8.如权利要求1至4任一所述的一种文档图像中复杂公式区域的检测方法，其特征在于：步骤6中，如果行内异常区域的比例大于N％时，就为独立行公式，否则为行内公式，所述的N％取值范围为[0.7，0.9]。

9.如权利要求8所述的一种文档图像中复杂公式区域的检测方法，其特征在于：所述的N％为0.85。

10.如权利要求1至4任一所述的一种文档图像中复杂公式区域的检测方法，其特征在于：步骤6中，根据步骤5中计算出的距离进行区分，对于行内公式的标定采用计算机辅助标定和人工手动标定相结合的方式进行。

11.一种文档图像中复杂公式区域的检测系统，包括以下装置：

连通区域标记装置：用于对二值图像进行连通区域标记；

成行处理装置：用于对文档图像进行成行处理；

公式区域判断装置：用于对行内所有连通域的编码进行直方图统计，并将直方图进行归一化，然后与不包含公式的文本图像的归一化编码直方图进行对比，计算两个直方图的距离，如果距离超过阈值T，该行就为可疑的复杂公式区域，所述阈值T的取值范围为[0.1，0.8]；

12.如权利要求11所述的一种文档图像中复杂公式区域的检测系统，其特征在于，所述的连通域处理装置判断一个连通域是否为异常区域的方法如下：

4)标记异常连通域。

13.如权利要求11或12所述的一种文档图像中复杂公式区域的检测系统，其特征在于：该系统还设有合并装置，用于合并初始连通域中的包含、相交关系。