CN102542273A - 一种文档图像中复杂公式区域的检测方法及系统 - Google Patents
一种文档图像中复杂公式区域的检测方法及系统 Download PDFInfo
- Publication number
- CN102542273A CN102542273A CN2011103938759A CN201110393875A CN102542273A CN 102542273 A CN102542273 A CN 102542273A CN 2011103938759 A CN2011103938759 A CN 2011103938759A CN 201110393875 A CN201110393875 A CN 201110393875A CN 102542273 A CN102542273 A CN 102542273A
- Authority
- CN
- China
- Prior art keywords
- zone
- connected domain
- file
- coding
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种文档图像中复杂公式区域的检测方法及系统,涉及计算机图像处理技术领域。本发明解决上述技术问题的关键在于:1、连通域邻域信息编码计算方法;2、利用连通域邻域信息编码检测图像中复杂公式区域的方法。利用本发明提出的公式区域检测方法及系统可以较为准确地检测文档图像中复杂的公式区域,速度快效率高。将其应用于数字化加工流程中,可以提高数字化加工流程的效率,大大减少人力成本。
Description
技术领域
本发明涉及计算机图像处理技术领域,尤其涉及一种文档图像中复杂公式区域的检测方法及系统。
背景技术
在文档图像数字化的过程中,需要对公式进行处理。现有的操作方式是由人工对公式区域进行标记,然后以图片的形式贴到对应的数字化版面中。由于科技文献和技术文档中往往存在着大量的数学公式,而数学公式又是一种非常复杂的文档结构,在目前的数字化加工流程中主要采取手工方式对公式区域进行标记。这不仅带来人力成本的剧增,而且会导致整个加工流程受到公式的制约导致效率低下,会影响到整个数字化的加工流程。
目前国内有部分专利涉及几种公式区域检测方法,具体如下:(1)中国专利申请《中文印刷体公式识别方法》(申请号200710144588.8,公开日期2008年3月26日)公开的方法是利用OCR对各个字符进行识别,将拒识区域标记为公式。该方法的缺点是检测的精度和效率主要依赖于汉字识别模块的识别率和识别速度。(2)中国专利申请《图像中数学公式的自动识别方法》(申请号200810053443.1,公开日期2008年12月24日)公开的方法是将公式分为独立行公式和内嵌公式两种,并且利用不同的方法进行分别提取。其中独立公式行通过parzen windown的方法实现,内嵌公式通过二维特征和识别特征进行提取,该方法提取了多个特征,算法复杂度较高。
发明内容
针对现有技术中所存在的不足,本发明提出了一种文档图像中复杂公式区域的检测方法及系统,大大提高文档图像数字化加工流程的效率。
本发明解决上述技术问题所采用的技术方案如下所描述:
一种文档图像中复杂公式区域的检测方法,包括以下步骤:
(1)对文档图像进行二值化,得到二值图像;
(2)对二值图像进行连通区域标记;
(3)对文档图像进行成行处理;
(4)对行内的连通域逐个进行处理,记录其邻域信息编码并分析是否为异常区域;
(5)对行内所有连通域的编码进行直方图统计,并将直方图进行归一化,然后与不包含公式的文本图像的归一化编码直方图进行对比,计算两个直方图的距离,如果距离超过阈值T,该行就为可疑的复杂公式区域;
(6)对可疑行进行进一步判断,区分独立行公式和行内公式。
进一步,步骤2中,在对二值图像进行连通区域标记后,如果初始连通域中存在包含、相交关系,则合并初始连通域中的包含、相交关系。
进一步,步骤4中,判断一个连通域是否为异常区域的方法如下:
1)设当前处理的连通域为C,对当前处理的连通域的周围邻域进行划分并标号,将其周围邻域划分为8个区域,分别标记为0-7,每个区域对应一个1位二进制码,将每个码均初始化为0;
2)寻找与其直接相邻的连通域,设置8个区域的编码,如果区域中存在与其直接相邻的其他连通域,则将该区域的编码设置为1;
3)构造字符邻域模板表达式,获得每个连通域邻域信息的编码,将区域0-7的编码按照从右至左的顺序排列组成一个二进制序列,然后将该二进制序列转换为十进制,则得到该连通域的邻域信息编码;
4)标记异常连通域。
更进一步,步骤4)中,编码0、1、16、17代表正常字符之间的相邻关系,编码2、8、9、18代表普通字符和标点相邻的情况,将编码不是以上数值的连通域标记为异常连通域。
进一步,步骤5中,根据语种与不包含公式的相同语种的文本图像的归一化编码直方图进行对比,计算两个直方图的距离采用欧式距离或余弦距离。
进一步,所述阈值T的取值范围为[0.1,0.8],优选为0.3。
进一步,步骤6中,如果行内异常区域的比例大于N%时,就为独立行公式,否则为行内公式,所述的N%取值范围为[0.7,0.9],优选为0.85。
进一步,步骤6中,根据步骤5中计算出的距离进行区分,对于行内公式的标定采用计算机辅助标定和人工手动标定相结合的方式进行。
本发明还提供了一种文档图像中复杂公式区域的检测系统,包括以下装置:
图像二值化装置:用于对文档图像进行二值化,得到二值图像;
连通区域标记装置:用于对二值图像进行连通区域标记;
成行处理装置:用于对文档图像进行成行处理;
连通域处理装置:用于对行内的连通域逐个进行处理,记录其邻域信息编码并分析是否为异常区域;
公式区域判断装置:用于对行内所有连通域的编码进行直方图统计,并将直方图进行归一化,然后与不包含公式的归一化文本图像的编码直方图进行对比,计算两个直方图的距离,如果距离超过阈值T,该行就为可疑的复杂公式区域,所述阈值T的取值范围为[0.1,0.8];
公式判断装置:用于对可疑行进行进一步判断,区分独立行公式和行内公式。
本发明的效果在于:连通域邻域信息编码方法可以有效的区分公式和普通文本,并且计算简单,效果显著。与专利《中文印刷体公式识别方法》(申请号200710144588.8)相比,该方法不需要依赖OCR引擎,并且速度快,效率高;与专利《图像中数学公式的自动识别方法》(申请号200810053443.1)相比,该方法只需要一个特征,算法简单高效,并且该算法能够应用于中文文档和英文文档,其适用范围较广。
附图说明
图1为本发明单个连通域周围邻域划分示意图;
图2为邻域信息编码计算示意图;
图3为实施例中不包含公式的文本图像;
图4为图3所示图像的编码直方图;
图5为图3所示图像异常区域标识图;
图6为实施例中的公式图像;
图7为图6所示编码图像的直方图;
图8为图6所示图像异常区域标识图;
图9为本发明实施例中所述方法的整体流程图;
图10为本发明所述方法连通域邻域信息编码计算流程图。
具体实施方式
下面结合附图和具体实施例来对本发明进行描述。
本发明通过分析文本区域和公式区域的结构特征,设计了一种区分两种区域的特征,利用该特征能够检测文档图像中复杂的公式区域,并自动对公式区域进行标记。本发明的核心步骤就是公式区域的检测,本发明解决上述技术问题的关键在于:
1、连通域邻域信息编码计算方法。
2、利用连通域邻域信息编码检测图像中复杂公式区域的方法。
本实施例中,一种文档图像中复杂公式区域的检测系统,包括以下装置:
图像二值化装置:用于对文档图像进行二值化,得到二值图像;
连通区域标记装置:用于对二值图像进行连通区域标记;
合并装置:用于合并初始连通域中的包含、相交关系;
成行处理装置:用于对文档图像进行成行处理;
连通域处理装置:用于对行内的连通域逐个进行处理,记录其邻域信息编码并分析是否为异常区域;
公式区域判断装置:用于对行内所有连通域的编码进行直方图统计,并将直方图进行归一化,然后根据语种与不包含公式的归一化文本图像的编码直方图进行对比,计算两个直方图的距离,如果距离超过阈值T,该行就为可疑的复杂公式区域,所述阈值T的取值范围为[0.1,0.8];
公式判断装置:用于对可疑行进行进一步判断,区分独立行公式和行内公式。
如图9所示,本发明所述的一种文档图像中复杂公式区域的检测方法,具体步骤如下:
(1)对文档图像进行二值化,得到二值图像;
(2)对二值图像进行连通区域标记;
(3)如果初始连通域中存在包含、相交关系,则合并初始连通域中的包含、相交关系,如果不存在包含、相交关系,则直接转入步骤(4);
(4)对文档图像进行成行处理;
(5)对行内的连通域逐个进行处理,记录其邻域信息编码并分析是否为异常区域;
如图10所示,判断一个连通域是否为异常区域的方法如下:设当前处理的连通域为C,
1)对当前处理的连通域的周围邻域进行划分并标号,如图1所示,方框表示当前处理的连通域C,将其周围邻域划分为8个区域(可以不为8个区域,划分为其他数量的区域也有一定的意义),分别标记为0-7。每个区域对应一个1位二进制码(非0即1),将每个码均初始化为0。
2)寻找与其直接相邻的连通域,设置8个区域的编码。如果区域中存在与其直接相邻的其他连通域,则将该区域的编码设置为1。
3)构造字符邻域模板表达式,获得每个连通域邻域信息的编码。将区域0-7的编码按照从右至左的顺序排列组成一个二进制序列,然后将该二进制序列转换为十进制,则得到该连通域的邻域信息编码。如图2所示,红色方框表示当前联通域位置,白色方框为其周围的连通域,周围两个连通域的中心点分别落在区域0和区域4,所以其领域信息的编码为00010001,将其转化为十进制为17。
4)标记异常连通域。通过以上计算可知,编码0、1、16、17代表正常字符之间的相邻关系,编码2、8、9、18代表普通字符和标点相邻的情况。因此应当将编码不是以上数值的连通域标记为异常连通域。
(6)对行内所有连通域的编码进行直方图统计,并将直方图进行归一化,然后根据语种与不包含公式的相同语种的文本图像的归一化编码直方图进行对比,计算两个直方图的距离,如果距离超过阈值T(本实施例中T为0.3,可以根据具体应用情况在[0.1,0.8]范围内进行调整),该行就为可疑的复杂公式区域。计算两个直方图的距离可以采用欧式距离、余弦距离等。图3和图6分别为正常的文本图像(此处以中文文档图像为例)和公式图像,2幅图的领域信息编码的直方图如图4、图7所示,从这两幅图可以看出,2个直方图分布差异显著。
(7)对可疑行进行进一步判断,区分独立行公式和行内公式。如图5和图8所示,分别为图3和图6的异常区域标记图,由这两幅图可知两种图像异常区域的数量差别很大。利用该特征可以对行进行进一步判定,如果行内异常区域的比例大于N%时(本实施例中N%为0.85,可以根据具体应用情况在[0.7,0.9]范围内进行调整),就为独立行公式,否则为行内公式。也可以根据步骤(6)中计算出的距离进行区分。对于行内公式的标定可以采用计算机辅助标定和人工手动标定相结合的方式进行。
根据本实施例可以看出,利用本发明提出的公式区域检测方法能够较为准确的检测文档图像中复杂的公式区域,简单高效,提高数字化加工流程的效率,大大减少人力成本,并且该方法不仅能够应用于中文文档图像还能应用于英文文档图像,扩大了适用范围。
需要注意的是,上述具体实施例仅仅是示例性的,在本发明的上述教导下,本领域技术人员可以在上述实施例的基础上进行各种改进和变形,而这些改进或者变形落在本发明的保护范围内。本领域技术人员应该明白,上面的具体描述只是为了解释本发明的目的,并非用于限制本发明。本发明的保护范围由权利要求及其等同物限定。
Claims (13)
1.一种文档图像中复杂公式区域的检测方法,包括以下步骤:
(1)对文档图像进行二值化,得到二值图像;
(2)对二值图像进行连通区域标记;
(3)对文档图像进行成行处理;
(4)对行内的连通域逐个进行处理,记录其邻域信息编码并分析是否为异常区域;
(5)对行内所有连通域的编码进行直方图统计,并将直方图进行归一化,然后与不包含公式的文本图像的归一化编码直方图进行对比,计算两个直方图的距离,如果距离超过阈值T,该行就为可疑的复杂公式区域;
(6)对可疑行进行进一步判断,区分独立行公式和行内公式。
2.如权利要求1所述的一种文档图像中复杂公式区域的检测方法,其特征在于,步骤2中,在对二值图像进行连通区域标记后,如果初始连通域中存在包含、相交关系,则合并初始连通域中的包含、相交关系。
3.如权利要求1所述的一种文档图像中复杂公式区域的检测方法,其特征在于,步骤4中,判断一个连通域是否为异常区域的方法如下:
1)设当前处理的连通域为C,对当前处理的连通域的周围邻域进行划分并标号,将其周围邻域划分为8个区域,分别标记为0-7,每个区域对应一个1位二进制码,将每个码均初始化为0;
2)寻找与其直接相邻的连通域,设置8个区域的编码,如果区域中存在与其直接相邻的其他连通域,则将该区域的编码设置为1;
3)构造字符邻域模板表达式,获得每个连通域邻域信息的编码,将区域0-7的编码按照从右至左的顺序排列组成一个二进制序列,然后将该二进制序列转换为十进制,则得到该连通域的邻域信息编码;
4)标记异常连通域。
4.如权利要求3所述的一种文档图像中复杂公式区域的检测方法,其特征在于,步骤4)中,编码0、1、16、17代表正常字符之间的相邻关系,编码2、8、9、18代表普通字符和标点相邻的情况,将编码不是以上数值的连通域标记为异常连通域。
5.如权利要求1至4任一所述的一种文档图像中复杂公式区域的检测方法,其特征在于:步骤5中,根据语种与不包含公式的相同语种的文本图像的归一化编码直方图进行对比,计算两个直方图的距离采用欧式距离或余弦距离。
6.如权利要求1至4任一所述的一种文档图像中复杂公式区域的检测方法,其特征在于:步骤5中,所述阈值T的取值范围为[0.1,0.8]。
7.如权利要求6所述的一种文档图像中复杂公式区域的检测方法,其特征在于:所述阈值T为0.3。
8.如权利要求1至4任一所述的一种文档图像中复杂公式区域的检测方法,其特征在于:步骤6中,如果行内异常区域的比例大于N%时,就为独立行公式,否则为行内公式,所述的N%取值范围为[0.7,0.9]。
9.如权利要求8所述的一种文档图像中复杂公式区域的检测方法,其特征在于:所述的N%为0.85。
10.如权利要求1至4任一所述的一种文档图像中复杂公式区域的检测方法,其特征在于:步骤6中,根据步骤5中计算出的距离进行区分,对于行内公式的标定采用计算机辅助标定和人工手动标定相结合的方式进行。
11.一种文档图像中复杂公式区域的检测系统,包括以下装置:
图像二值化装置:用于对文档图像进行二值化,得到二值图像;
连通区域标记装置:用于对二值图像进行连通区域标记;
成行处理装置:用于对文档图像进行成行处理;
连通域处理装置:用于对行内的连通域逐个进行处理,记录其邻域信息编码并分析是否为异常区域;
公式区域判断装置:用于对行内所有连通域的编码进行直方图统计,并将直方图进行归一化,然后与不包含公式的文本图像的归一化编码直方图进行对比,计算两个直方图的距离,如果距离超过阈值T,该行就为可疑的复杂公式区域,所述阈值T的取值范围为[0.1,0.8];
公式判断装置:用于对可疑行进行进一步判断,区分独立行公式和行内公式。
12.如权利要求11所述的一种文档图像中复杂公式区域的检测系统,其特征在于,所述的连通域处理装置判断一个连通域是否为异常区域的方法如下:
1)设当前处理的连通域为C,对当前处理的连通域的周围邻域进行划分并标号,将其周围邻域划分为8个区域,分别标记为0-7,每个区域对应一个1位二进制码,将每个码均初始化为0;
2)寻找与其直接相邻的连通域,设置8个区域的编码,如果区域中存在与其直接相邻的其他连通域,则将该区域的编码设置为1;
3)构造字符邻域模板表达式,获得每个连通域邻域信息的编码,将区域0-7的编码按照从右至左的顺序排列组成一个二进制序列,然后将该二进制序列转换为十进制,则得到该连通域的邻域信息编码;
4)标记异常连通域。
13.如权利要求11或12所述的一种文档图像中复杂公式区域的检测系统,其特征在于:该系统还设有合并装置,用于合并初始连通域中的包含、相交关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110393875 CN102542273B (zh) | 2011-12-02 | 2011-12-02 | 一种文档图像中复杂公式区域的检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110393875 CN102542273B (zh) | 2011-12-02 | 2011-12-02 | 一种文档图像中复杂公式区域的检测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102542273A true CN102542273A (zh) | 2012-07-04 |
CN102542273B CN102542273B (zh) | 2013-11-06 |
Family
ID=46349125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110393875 Expired - Fee Related CN102542273B (zh) | 2011-12-02 | 2011-12-02 | 一种文档图像中复杂公式区域的检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102542273B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184292A (zh) * | 2015-08-26 | 2015-12-23 | 北京云江科技有限公司 | 自然场景图像中手写体数学公式结构分析与识别方法 |
WO2017031716A1 (zh) * | 2015-08-26 | 2017-03-02 | 北京云江科技有限公司 | 自然场景图像中手写体数学公式结构分析与识别方法 |
CN106681965A (zh) * | 2016-12-02 | 2017-05-17 | 广东小天才科技有限公司 | 一种标记异常公式的方法及系统 |
CN110489570A (zh) * | 2019-08-06 | 2019-11-22 | 北京如优教育科技有限公司 | 候选全网参考文献实时更新平台和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149790A (zh) * | 2007-11-14 | 2008-03-26 | 哈尔滨工程大学 | 中文印刷体公式识别方法 |
CN101329731A (zh) * | 2008-06-06 | 2008-12-24 | 南开大学 | 图像中数学公式的自动识别方法 |
CN101393601A (zh) * | 2007-09-21 | 2009-03-25 | 汉王科技股份有限公司 | 印刷体数学公式识别方法 |
-
2011
- 2011-12-02 CN CN 201110393875 patent/CN102542273B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101393601A (zh) * | 2007-09-21 | 2009-03-25 | 汉王科技股份有限公司 | 印刷体数学公式识别方法 |
CN101149790A (zh) * | 2007-11-14 | 2008-03-26 | 哈尔滨工程大学 | 中文印刷体公式识别方法 |
CN101329731A (zh) * | 2008-06-06 | 2008-12-24 | 南开大学 | 图像中数学公式的自动识别方法 |
Non-Patent Citations (1)
Title |
---|
张灿龙等: "一种印刷体数学公式优化提取策略", 《计算机工程与应用》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105184292A (zh) * | 2015-08-26 | 2015-12-23 | 北京云江科技有限公司 | 自然场景图像中手写体数学公式结构分析与识别方法 |
WO2017031716A1 (zh) * | 2015-08-26 | 2017-03-02 | 北京云江科技有限公司 | 自然场景图像中手写体数学公式结构分析与识别方法 |
CN105184292B (zh) * | 2015-08-26 | 2018-08-03 | 海南云江科技有限公司 | 自然场景图像中手写体数学公式结构分析与识别方法 |
US10354133B2 (en) | 2015-08-26 | 2019-07-16 | Beijing Lejent Technology Co., Ltd. | Method for structural analysis and recognition of handwritten mathematical formula in natural scene image |
CN106681965A (zh) * | 2016-12-02 | 2017-05-17 | 广东小天才科技有限公司 | 一种标记异常公式的方法及系统 |
CN110489570A (zh) * | 2019-08-06 | 2019-11-22 | 北京如优教育科技有限公司 | 候选全网参考文献实时更新平台和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102542273B (zh) | 2013-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shidore et al. | Number plate recognition for indian vehicles | |
CN103136528B (zh) | 一种基于双边缘检测的车牌识别方法 | |
CN104778470B (zh) | 基于组件树和霍夫森林的文字检测和识别方法 | |
EP2983112A2 (en) | Robust industrial optical character recognition | |
CN104966051A (zh) | 一种文档图像的版式识别方法 | |
CN101777124A (zh) | 一种提取视频文本信息的方法及装置 | |
CN102542273B (zh) | 一种文档图像中复杂公式区域的检测方法及系统 | |
CN107563380A (zh) | 一种基于mser和swt相结合的车辆车牌检测识别方法 | |
Mishchenko et al. | Chart image understanding and numerical data extraction | |
CN103034848A (zh) | 一种表单类型的识别方法 | |
CN101154267A (zh) | 一种二维条形码区域定位及类型判断的方法 | |
Subramanian et al. | Character-stroke detection for text-localization and extraction | |
Pandya et al. | Morphology based approach to recognize number plates in India | |
CN101751571A (zh) | 一种实用的二值文档图像倾斜角度检测方法 | |
Vithlani et al. | Structural and statistical feature extraction methods for character and digit recognition | |
CN107392115B (zh) | 一种基于分层特征提取的交通标志识别方法 | |
Lue et al. | A novel character segmentation method for text images captured by cameras | |
Mi et al. | A novel video text extraction approach based on multiple frames | |
US10679101B2 (en) | Optical character recognition systems and methods | |
Liu et al. | A prototype system of courtesy amount recognition for Chinese Bank checks | |
Kleber et al. | Ancient document analysis based on text line extraction | |
Mishchenko et al. | Model-Based Recognition and Extraction of Information from Chart Images. | |
Mei et al. | A Chinese character segmentation algorithm for complicated printed documents | |
CN102332088A (zh) | 一种基于游程特征的选票符号机器视觉识别方法 | |
CN102831434B (zh) | 基于鉴别归一化的手写汉字识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20131106 Termination date: 20141202 |
|
EXPY | Termination of patent right or utility model |