CN102831421A - 一种基于标点符号的文档上下方向检测方法 - Google Patents

一种基于标点符号的文档上下方向检测方法 Download PDF

Info

Publication number
CN102831421A
CN102831421A CN2012103138349A CN201210313834A CN102831421A CN 102831421 A CN102831421 A CN 102831421A CN 2012103138349 A CN2012103138349 A CN 2012103138349A CN 201210313834 A CN201210313834 A CN 201210313834A CN 102831421 A CN102831421 A CN 102831421A
Authority
CN
China
Prior art keywords
punctuation mark
image
connected component
row
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012103138349A
Other languages
English (en)
Other versions
CN102831421B (zh
Inventor
朱敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201210313834.9A priority Critical patent/CN102831421B/zh
Publication of CN102831421A publication Critical patent/CN102831421A/zh
Application granted granted Critical
Publication of CN102831421B publication Critical patent/CN102831421B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本发明涉及一种基于标点符号的文档上下方向检测方法,用于对办公文档扫描图像进行方向检测,该方法包括以下步骤:1)获取文档扫描图像,采用边缘密度算法检测并去除图像中的边缘噪音;2)采用基于投影的页面分割算法对图像进行页面分割,获得若干图像块;3)对每一个图像块,判断其是否为文本块,若是,则将其保留,若否,则将其剔除;4)采用XY切割算法提取每个文本块中的连通体;5)根据连通体的高度和宽度,判断该连通体是否为标点符号;6)分别统计接近于顶部和底部的标点符号的出现次数Lt、Lb,根据R=Lt/Lb与设定值的大小关系,检测文档扫描图像的方向。与现有技术相比,本发明具有检测准确率高、适用范围广等优点。

Description

一种基于标点符号的文档上下方向检测方法
技术领域
本发明涉及一种文档方向检测方法,尤其是涉及一种基于标点符号的文档上下方向检测方法。
背景技术
在广泛使用的光学字符识别系统(OCR)中,文档图像方向的检测是图像处理的第一步,也是所有后续处理的先决条件。有效地检测出这些扫描文件的方向将大大有助于后续的图像处理。在许多嵌入式系统中,如扫描仪和传真机,文本文件图像的方向检测是必要的,而且,检测要求快速。因此,轻量级的方向检测方法在文本文档的图像处理中具有重要意义。
目前已有一些方法来检测文本图像方向。在1990年,Akiyama et al.提出最早的算法,能够辨别肖像和风景图像的方向。最有影响力的算法,由S.N.srihari和V.Govindaraju提出。该算法基于Hough变换和观察,根据非对称英文文本行的垂直投影来实现文本图像的方向检测。这种方法是许多后来的变形算法的基础。虽然这些算法基本只适用于罗马文字,后来也有很多针对其他不同文字的其他研究,比如普什图语,印地文,和阿拉伯文。另外,还有一些较新的算法,基于开放的罗马文字或一些不对称的非罗马文字,比如:不对称的如普什图语和希伯来语文本。通过统计文字符号在某左右方向上开发的不同来确定文档的上下方向。
以上提到的这些算法大多是基于对每个语言文字的细节特征,所以都只针对一个特定种类的语言文本图像,而且,需要大量的计算或者需要一个大的数据集的特征提取。
文档中存在各种标点符号,如:引号,句号,分号,惊叹号,问号,顿号。对于一般办公文档存在这样一个基础事实:即在每个文档中,大部分的标点符号要么接近于文本行顶部要么接近于底部。例如,引号是接近文本行的顶部,而句号是接近于文本行的底部。同时标点符号具有以下两个特点:
1.除了文档中出现频率很低的一些标点符号是与文本行高度相同之外,比如问号和惊叹号等,大部分的标点符号的高度都远远小于文本行的高度。
2.所有高度很小的标点符号大部分是位于该文本行的底部。而在普通的办公文档中,位于顶部和底部的两种标点符号的出现频率相差很大。
因此,可以基于上述特点对文本图像方向的检测方法进行研究。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种检测准确率高、适用范围广的基于标点符号的文档上下方向检测方法。
本发明的目的可以通过以下技术方案来实现:
一种基于标点符号的文档上下方向检测方法,用于对办公文档扫描图像进行方向检测,该方法包括以下步骤:
1)获取文档扫描图像,采用边缘密度算法检测并去除图像中的边缘噪音;
2)采用基于投影的页面分割算法对图像进行页面分割,获得若干图像块;
3)对每一个图像块,判断其是否为文本块,若是,则将其保留,若否,则将其剔除;
4)采用XY切割算法提取每个文本块中的连通体;
5)根据连通体的高度和宽度,判断该连通体是否为标点符号,若是,则执行步骤6),若否,则返回步骤5);
6)分别统计接近于顶部的标点符号的出现次数Lt和接近于底部的标点符号的出现次数Lb,根据R=Lt/Lb与设定值的大小关系,检测文档扫描图像的方向。
所述的步骤2)中的基于投影的页面分割算法为XY切割算法。
所述的步骤3)中的判断其是否为文本块的具体步骤为:
31)将图像块进行水平投影,获得投影图像;
32)若投影图像呈现具有一定间隔的山峰状,则判断与其对应的图像块为文本块。
所述的步骤4)具体如下:
41)首先通过水平投影后,取得该文字块的每一行,并将每一个行保存到一个字符串数组,同时,计算并保存该行的平均行高到另一数组;
42)将字符串数组垂直投影,分离和提取出该行每个连通体,也即该行所有的字符和标点符号。
所述的步骤5)中的根据连通体的高度和宽度判断该连通体是否为标点符号的具体步骤如下:
51)计算每个连通体的宽度和高度,并计算平均宽度和平均高度;
52)将每一个连通体的宽度与平均宽度相比,如果小于平均宽度,则将其定义为标点符号;
53)将每一个连通体的高度与平均高度相比,如果小于平均高度,则将其定义为标点符号;
54)确定每行上的所有连通体的中心点,并将每个中心点拟合成中心线;
55)通过连通体的水平投影,将投影集中于中线附近的干扰噪音剔除。
所述的步骤6)具体如下:
61)通过标点符号连通体的水平投影,确定标点符号和中心线的相对位置;
62)通过分析标点符号和中心线的相对位置,分别统计位于中心线的上方和下方,即顶部和底部的标点符号个数Lt、Lb;
63)计算R=Lt/Lb,若R小于设定值,则所对应的文档扫描图像的方向为正确方向,若R大于设定值,则所对应的文档扫描图像的方向为上下颠倒。
与现有技术相比,本发明具有以下优点:
1)通过去除噪声、页面分割和文本块筛选等操作使本发明方法具有较高的检测准确率;
2)本发明方法是基于相对位置的字符和标点符号的比较,完全独立于语言,适用于各种语言文字的文件图像,适用范围广。
附图说明
图1为本发明方法的流程示意图;
图2为文本块的投影示意图;
图3为本发明实施例中文本图像数据集的标点符号示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。
实施例
如图1所示,一种基于标点符号的文档上下方向检测方法,用于对办公文档扫描图像进行方向检测,该方法包括以下步骤:
在步骤S101中,获取文档扫描图像,采用边缘密度算法检测并去除图像中的边缘噪音。
在步骤S102中,采用基于投影的页面分割算法对图像进行页面分割,获得若干图像块,这里基于投影的页面分割算法为XY切割算法.
在步骤S103中,对每一个图像块,判断其是否为文本块,若是,则将其保留,若否,则将其剔除;判断其是否为文本块的具体步骤为:
31)将图像块进行水平投影,获得投影图像;
32)若投影图像呈现具有一定间隔的山峰状,如图2所示,则判断与其对应的图像块为文本块。
在步骤S104中,采用XY切割算法提取每个文本块中的连通体,具体如下:
41)首先通过水平投影后,取得该文字块的每一行,并将每一个行保存到一个字符串数组,同时,计算并保存该行的平均行高到另一数组;
42)将字符串数组垂直投影,分离和提取出该行每个连通体,也即该行所有的字符和标点符号。
在步骤S105中,根据连通体的高度和宽度,判断该连通体是否为标点符号,若是,则执行步骤S106,若否,则返回步骤S105。根据连通体的高度和宽度判断该连通体是否为标点符号的具体步骤如下:
51)计算每个连通体的宽度和高度,并计算平均宽度和平均高度;
52)将每一个连通体的宽度与平均宽度相比,如果小于平均宽度,则将其定义为标点符号;
53)将每一个连通体的高度与平均高度相比,如果小于平均高度,则将其定义为标点符号;
54)确定每行上的所有连通体的中心点,并将每个中心点拟合成中心线;
55)通过连通体的水平投影,将投影集中于中线附近的干扰噪音剔除。
在步骤S106中,分别统计接近于顶部的标点符号的出现次数Lt和接近于底部的标点符号的出现次数Lb,根据R=Lt/Lb与设定值的大小关系,检测文档扫描图像的方向,具体如下:
61)通过标点符号连通体的水平投影,确定标点符号和中心线的相对位置;
62)通过分析标点符号和中心线的相对位置,分别统计位于中心线的上方和下方,即顶部和底部的标点符号个数Lt、Lb;
63)计算R=Lt/Lb,若R小于设定值,则所对应的文档扫描图像的方向为正确方向,若R大于设定值,则所对应的文档扫描图像的方向为上下颠倒。
以来自于实际的办公扫描文件图像进行实验,实验的环境为:Intel Intel PentiumD CPU 3.2GHz、1GB RAM、Windows XP、软件为Matlab7.0,分别进行5个实验。
在第一个实验中,测试的图像数据集的图像只有文本,没有图片或表格且图片都是正确的方向,共分为三种不同的语言。因为没有图片和表格,所有的分割块都是文本块,因此提取文本块非常简单和高效。在这个实验中,检测准确率达到了100%。
图3为该图像数据集的所有文字块中的标点符号的出现统计数据。纵坐标表示标点符号出现次数,横坐标是文本块的编号,从图3中可看出,总共有900多个文本块。虚线表示接近底部的标点符号,实线表示接近顶部的标点符号。从图3中,可以很容易得出这样的结论:在每一个文本块中,接近顶端的标点符号比接近底部的标点符号少得多。因为每个文本块有很明显的数据,R=Lt/Lb可以很快的计算出来,即可判断出每一个文档图像的方向。
在第二个实验中,数据集的图像跟第一个数据集是类似的。也有三种不同的语言,也没有图片和表格的,但该数据集的文档图像是上下倒置的。
在其他3个实验中,分为英语、中文和日语的三个不同的文档图像数据集。并且,在三个数据集中的每个文档都有表格、图片或者其他非文本块,且都有两种不同方向的。虽然预处理,包括去除噪声,页面分割和文本块筛选等过程降低了整个方法的效率,但是,本发明方法具有较高的准确率,具体数据如表1所示。
表1
  No.   Text Languages  Orientation   Orientation Accuracy
  1   English  Right Side Up   87.11%
  2   English  Upside Down   85.26%
  3   Chinese  Right Side Up   88.52%
  4   Chinese  Upside Down   83.34%
  5   Japanese  Right Side Up   83.89%
  6   Japanese  Upside Down   85.29%

Claims (6)

1.一种基于标点符号的文档上下方向检测方法,用于对办公文档扫描图像进行方向检测,其特征在于,该方法包括以下步骤:
1)获取文档扫描图像,采用边缘密度算法检测并去除图像中的边缘噪音;
2)采用基于投影的页面分割算法对图像进行页面分割,获得若干图像块;
3)对每一个图像块,判断其是否为文本块,若是,则将其保留,若否,则将其剔除;
4)采用XY切割算法提取每个文本块中的连通体;
5)根据连通体的高度和宽度,判断该连通体是否为标点符号,若是,则执行步骤6),若否,则返回步骤5);
6)分别统计接近于顶部的标点符号的出现次数Lt和接近于底部的标点符号的出现次数Lb,根据R=Lt/Lb与设定值的大小关系,检测文档扫描图像的方向。
2.根据权利要求1所述的一种基于标点符号的文档上下方向检测方法,其特征在于,所述的步骤2)中的基于投影的页面分割算法为XY切割算法。
3.根据权利要求1所述的一种基于标点符号的文档上下方向检测方法,其特征在于,所述的步骤3)中的判断其是否为文本块的具体步骤为:
31)将图像块进行水平投影,获得投影图像;
32)若投影图像呈现具有一定间隔的山峰状,则判断与其对应的图像块为文本块。
4.根据权利要求1所述的一种基于标点符号的文档上下方向检测方法,其特征在于,所述的步骤4)具体如下:
41)首先通过水平投影后,取得该文字块的每一行,并将每一个行保存到一个字符串数组,同时,计算并保存该行的平均行高到另一数组;
42)将字符串数组垂直投影,分离和提取出该行每个连通体,也即该行所有的字符和标点符号。
5.根据权利要求1所述的一种基于标点符号的文档上下方向检测方法,其特征在于,所述的步骤5)中的根据连通体的高度和宽度判断该连通体是否为标点符号的具体步骤如下:
51)计算每个连通体的宽度和高度,并计算平均宽度和平均高度;
52)将每一个连通体的宽度与平均宽度相比,如果小于平均宽度,则将其定义为标点符号;
53)将每一个连通体的高度与平均高度相比,如果小于平均高度,则将其定义为标点符号;
54)确定每行上的所有连通体的中心点,并将每个中心点拟合成中心线;
55)通过连通体的水平投影,将投影集中于中线附近的干扰噪音剔除。
6.根据权利要求1所述的一种基于标点符号的文档上下方向检测方法,其特征在于,所述的步骤6)具体如下:
61)通过标点符号连通体的水平投影,确定标点符号和中心线的相对位置;
62)通过分析标点符号和中心线的相对位置,分别统计位于中心线的上方和下方,即顶部和底部的标点符号个数Lt、Lb;
63)计算R=Lt/Lb,若R小于设定值,则所对应的文档扫描图像的方向为正确方向,若R大于设定值,则所对应的文档扫描图像的方向为上下颠倒。
CN201210313834.9A 2012-08-29 2012-08-29 一种基于标点符号的文档上下方向检测方法 Expired - Fee Related CN102831421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210313834.9A CN102831421B (zh) 2012-08-29 2012-08-29 一种基于标点符号的文档上下方向检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210313834.9A CN102831421B (zh) 2012-08-29 2012-08-29 一种基于标点符号的文档上下方向检测方法

Publications (2)

Publication Number Publication Date
CN102831421A true CN102831421A (zh) 2012-12-19
CN102831421B CN102831421B (zh) 2015-09-23

Family

ID=47334549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210313834.9A Expired - Fee Related CN102831421B (zh) 2012-08-29 2012-08-29 一种基于标点符号的文档上下方向检测方法

Country Status (1)

Country Link
CN (1) CN102831421B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732188A (zh) * 2013-12-19 2015-06-24 富士通株式会社 文本提取方法和装置
CN106909897A (zh) * 2017-02-20 2017-06-30 天津大学 一种文本图像倒置快速检测方法
CN107798355A (zh) * 2017-11-17 2018-03-13 山西同方知网数字出版技术有限公司 一种基于文档图像版式自动分析与判断的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101447017A (zh) * 2008-11-27 2009-06-03 浙江工业大学 一种基于版面分析的选票快速识别统计方法及系统
CN101770575A (zh) * 2008-12-31 2010-07-07 汉王科技股份有限公司 名片图像倾斜角度的测量方法和装置
CN102194117A (zh) * 2010-03-05 2011-09-21 北京大学 文稿页面方向检测方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101447017A (zh) * 2008-11-27 2009-06-03 浙江工业大学 一种基于版面分析的选票快速识别统计方法及系统
CN101770575A (zh) * 2008-12-31 2010-07-07 汉王科技股份有限公司 名片图像倾斜角度的测量方法和装置
CN102194117A (zh) * 2010-03-05 2011-09-21 北京大学 文稿页面方向检测方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104732188A (zh) * 2013-12-19 2015-06-24 富士通株式会社 文本提取方法和装置
CN104732188B (zh) * 2013-12-19 2017-12-08 富士通株式会社 文本提取方法和装置
CN106909897A (zh) * 2017-02-20 2017-06-30 天津大学 一种文本图像倒置快速检测方法
CN106909897B (zh) * 2017-02-20 2020-03-13 天津大学 一种文本图像倒置快速检测方法
CN107798355A (zh) * 2017-11-17 2018-03-13 山西同方知网数字出版技术有限公司 一种基于文档图像版式自动分析与判断的方法

Also Published As

Publication number Publication date
CN102831421B (zh) 2015-09-23

Similar Documents

Publication Publication Date Title
US20190340460A1 (en) Text line detecting method and text line detecting device
Kasar et al. Learning to detect tables in scanned document images using line information
Aradhye A generic method for determining up/down orientation of text in roman and non-roman scripts
CN103020621B (zh) 中英文混排文字图像的切割方法及装置
CN105760901B (zh) 一种多语种倾斜文档图像的自动语言判别方法
US20150095769A1 (en) Layout Analysis Method And System
CN102081732B (zh) 一种版式识别模板方法及系统
JP2012500428A (ja) 印刷媒体ページの記事へのセグメント化
CN106503711A (zh) 一种文字识别方法
CN104966051A (zh) 一种文档图像的版式识别方法
CN109325401A (zh) 基于边缘定位对题目区域进行标注、识别的方法及系统
CN102567711A (zh) 一种扫描识别模板制作和使用方法及系统
JP2011188465A (ja) 原稿レイアウトの方向検出方法及び装置
JP2016159245A (ja) 配達物処理装置、および配達物処理プログラム
CN106778752A (zh) 一种文字识别方法
CN102831421B (zh) 一种基于标点符号的文档上下方向检测方法
CN102682457A (zh) 一种对平面媒体图像进行适应屏幕阅读的重排方法
US20160044196A1 (en) Image processing apparatus
CN100550040C (zh) 光学字符识别方法和设备及字体识别方法和设备
Karanje et al. Survey on text detection, segmentation and recognition from a natural scene images
Bai et al. Underline detection and removal in a document image using multiple strategies
Shi et al. A model based framework for table processing in degraded document images
Rajput et al. Text-line extraction from handwritten document images using histogram and connected component analysis
Rohini et al. Segmentation of touching, overlapping, skewed and short handwritten text lines
Liu et al. An improved algorithm for Identifying Mathematical formulas in the images of PDF documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150923

Termination date: 20200829