CN102496018B - 一种文档倾斜检测方法及系统 - Google Patents

一种文档倾斜检测方法及系统 Download PDF

Info

Publication number
CN102496018B
CN102496018B CN 201110404717 CN201110404717A CN102496018B CN 102496018 B CN102496018 B CN 102496018B CN 201110404717 CN201110404717 CN 201110404717 CN 201110404717 A CN201110404717 A CN 201110404717A CN 102496018 B CN102496018 B CN 102496018B
Authority
CN
China
Prior art keywords
document
angle
connected domain
detection method
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110404717
Other languages
English (en)
Other versions
CN102496018A (zh
Inventor
胡希驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Founder International Co Ltd
Founder International Beijing Co Ltd
Original Assignee
Founder International Co Ltd
Founder International Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder International Co Ltd, Founder International Beijing Co Ltd filed Critical Founder International Co Ltd
Priority to CN 201110404717 priority Critical patent/CN102496018B/zh
Publication of CN102496018A publication Critical patent/CN102496018A/zh
Application granted granted Critical
Publication of CN102496018B publication Critical patent/CN102496018B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及一种文档倾斜检测方法及系统,属于文档检测技术领域。本发明首先对文档图像进行二值化处理,得到二值文档图像;然后计算二值文档图像中的连通域、连通域的外接矩形以及外接矩形的中心点坐标;再将所述连通域最小外接矩形的中心作为Hough变换计算的输入点集,在Hough变换参数空间投票,计算累加矩阵A(θ,ρ);检测参数空间的极大值点;将角度值上极大值点的累积值向角度坐标轴上投影,形成一维数据;最后在一维数据中,检测间隔90°的累加最大的峰对,由最大峰对所在角度判断出倾斜角度,得到文档的倾斜角度。本发明适应性强、精度高且速度快。

Description

一种文档倾斜检测方法及系统
技术领域
本发明属于检测技术领域,具体涉及一种文档倾斜检测方法及系统。
背景技术
文档图像倾斜是文档扫描过程中的一种无法避免的现象。如果不进行倾斜校正,会影响后续的版面分析、OCR和版面理解的准确度。文档的倾斜检测的专利和论文也比较多,有投影类的方法、依赖Hough变换的方法、傅里叶变换的方法、最近邻的方法等等。但是目前这些方法都存在着一定的问题。
投影类的方法是基于对投影图像形状分析的方法,基本思想是计算一系列角度的投影形状,并定义一个目标函数,实际的倾斜角度就是使目标函数最优的值。这类方法需要计算每个倾斜角度的投影形状,如果要得到高精度的估计,计算量将会大增,且较容易受到噪声和分栏的影响。投影类的方法一般计算量较大,且精度较差,无法处理分栏、插图等复杂版面,最适合的是曼哈顿类版面。
Hough变换的方法或者是利用文档图像内的边缘,或者利用行基线,很受图像内容的影响。例如,没有直线的时候将无法处理,多用于特定类型的文档。利用连通域中心的方法只是在变换空间寻找最大值点,对于文字稀疏、干扰较大、无法知道排版类型的图像,准确率下降或无法检测。可用于Hough变换计算的特征有:字块重心,空白块重心,字行基线,每行的最左或最右点,已划分好的子区域的边缘等等。主要通过寻找Hough变化空间极值点来确定角度,字符很少时易受干扰。
傅里叶变换的方法,由于文档图像中的字符行是周期性出现的,所以有文献指出可以利用傅里叶变换分析倾斜角度,在频域空间中密度最大的方向角度就是倾斜角度。这一方法对于大图计算较耗时。
最近邻的方法,首先找出所有联通区域,然后根据欧式距离确定每个连通渠的最近邻,并计算最近邻连通区中心点的方向。对所有最近邻对的方向向量进行累积,直方图的中的峰值点就对应倾斜角度。由于每个最近邻的只计算连接一个区域,字符的子块会降低准确度。且受版面类型影响太大。对于不同版式的适应性差。利用页眉页脚线、分栏线等方法过于依赖文档图像内容,也造成了适用性差。
文档倾斜检测也具体如下一些专利或专利申请:
(1)Skew detection(US7277600B2)
该专利利用计算原文档图像的游程平滑(run-length-smoothed image(RLSA)图像来估计倾斜角度。需要排版方向信息,易受嵌入插图的影响。
(2)Document image skew detection method(US6771842B1)
该专利利用行间距先分割出字行(Text Line),然后利用字行估计倾斜角度。
(3)Method and System for Skew Detection of A Scanned Document UsingConnected Components Analysis(US2010195933A1)
该专利利用二值图的连通域,自底向上形成字行,然后估计倾斜角度。
(4)Image Skew Detection Apparatus And Methods(US2009252437A1)
该专利提供了一种通过检测直线的方式进行支票类图像的倾斜检测。
(5)一种证件图像倾斜校正的方法(申请号:200910041444.9)
该专利对图像利用Sobel算子检测边缘,对边缘图像进行Hough变换检测倾斜角度,适用于证件图像。
(6)图像倾斜校正方法及装置(申请号:201010221775.3)
该专利利用二值图像的投影长度与设定阈值进行比较以确定是否存在倾斜,然后在灰度图中获取边缘信息,利用边缘角度估计倾斜角度。用于车牌图像的倾斜检测。
由于在图书加工的生产中会遇到各种各样的版面类型,这就要求开发一种适应性、效率和精度都比较高的文档倾斜校正方法。
发明内容
针对现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种适应性强、精度高、速度快的文档倾斜检测方法及系统。
为解决上述技术问题,本发明采用的技术方案如下:
一种文档倾斜检测方法,包括以下步骤:
(1)对文档图像进行二值化处理,得到二值文档图像;
(2)计算二值文档图像中的连通域、所述连通域的外接矩形以及所述外接矩形的中心点坐标;
(3)将所述连通域最小外接矩形的中心作为Hough变换计算的输入点集,在Hough变换参数空间投票,计算累加矩阵A(θ,ρ);
(4)检测所述累加矩阵参数空间的极大值点;
(5)将角度值上极大值点的累积值向角度坐标轴上投影,形成一维数据P(θ);
(6)在所述一维数据P(θ)中,检测间隔90°的累加最大的峰对,由最大峰对所在角度判断出倾斜角度,得到文档倾斜角度。
如上所述的文档倾斜检测方法,优选的,在步骤(1)之前还包括对文档图像进行预处理的步骤。所述预处理包括对所述文档图像进行降噪处理。
如上所述的文档倾斜检测方法,优选的,在步骤(2)和步骤(3)之间还包括按照扫描的DPI信息筛除过小连通域的步骤。在300DPI下,过小连通域的阈值为100。
如上所述的文档倾斜检测方法,优选的,在步骤(4)和步骤(5)之间还包括如下步骤:在每一个角度值上,对径向方向上的所有点做周期性分析,选择出具有一定周期性的角度值。
一种文档倾斜检测系统,包括用于对文档图像进行二值化处理,得到二值文档图像的二值化处理装置;
用于计算二值图像中的连通域、连通域的外接矩形以及外接矩形中心点坐标的第一计算装置;
用于将所述连通域最小外接矩形的中心作为Hough变换计算的输入点集,在Hough变换参数空间投票,计算累加矩阵A(θ,ρ)的第二计算装置;
用于检测累加矩阵参数空间极大值点的检测装置;
用于将角度值上极大值点的累积值向角度坐标轴上投影,形成一维数据P(θ)的投影装置;
用于在一维数据P(θ)中,检测间隔90°的累加最大的峰对,由最大峰对所在角度判断出倾斜角度的判断装置。
如上所述的文档倾斜检测系统,优选的,还包括用于对文档图像进行预处理的预处理装置。
如上所述的文档倾斜检测系统,优选的,还包括用于按照扫描的DPI信息筛除过小连通域的筛除装置。
如上所述的文档倾斜检测系统,优选的,还包括用于在每一个角度值上,对径向方向上的所有点做周期性分析,选择出具有一定周期性的角度值的分析装置。
本发明所述方法及系统,不受排版方向、混合排版、版面结构、分栏、插图等影响,适应性较强,适合于包含文字的文档图像,除了普通图书,还适合杂志、带文字的表格、版面复杂的报纸、带公式的科技论文、车牌图像、名片、各类表单等。而且,有两方向上的峰值检测保证,降低了其他方向上的峰值干扰,精度较高(0.1度),计算速度较快。
附图说明
图1是具体实施方式中文档倾斜检测系统的结构框图;
图2是具体实施方式中文档倾斜检测方法的流程图;
图3是具体实施方式中Hough变换示意图,图3a表示直线余弦公式参数的示意图,图3b表示图像空间的三条直线的示意图,图3c表示变换空间对应三个点的示意图;
图4是具体实施方式中倾斜文档的示意图;
图5是具体实施方式中图4所示倾斜的文档计算所有连通域后的效果示意图;
图6是具体实施方式中图4所示倾斜的文档累积矩阵90度附近截图;
图7是具体实施方式中图4所示倾斜的文档累积矩阵极值点90度附近局部放大截图;
图8是具体实施方式中图4所示倾斜的文档周期极值点90度附近截图;
图9是具体实施方式中图4所示倾斜的文档投影曲线示意图。
具体实施方式
本发明的基本思想是:利用文字的直线排列特征进行直线检测,不论是横排版还是竖排版,文字的连通区域的中心是一条条平行的直线。直线检测方法多用Hough变换,但是如果仅仅在Hough变换空间检测最大值点,会损失许多有用信息,而这些信息的利用可以提高方法的精度和适用性。下面结合附图对本发明的具体实施方式进行详细描述。
如图1所示,本实施方式中文档倾斜检测系统包括预处理装置10、二值化处理装置11、第一计算装置12、筛除装置13、第二计算装置14、检测装置15、分析装置16、投影装置17和判断装置18。
预处理装置10用于对文档图像进行预处理,如灰度调整、降噪等。二值化处理装置11用于对文档图像进行二值化处理,得到二值文档图像。第一计算装置12用于根据二值图像计算连通域,连通域的外接矩形以及外接矩形中心点坐标。筛除装置13用于按照扫描的DPI信息筛除过小的连通域。第二计算装置14用于将连通域最小外接矩形的中心作为Hough变换计算的输入点集,在Hough变换参数空间投票,计算累加矩阵A(θ,ρ)。检测装置15用于检测参数空间的极大值点。分析装置16用于在每一个角度值上,对径向方向上的所有点做周期性分析,选择出具有一定周期性的角度值。投影装置17用于将角度值上极大值点的累积值向角度坐标轴上投影,形成一维数据P(θ)。判断装置18用于在一维数据P(θ)中,检测间隔90°的累加最大的峰对,由最大峰对所在角度判断出倾斜角度。
如图2所示,采用图1所示系统实现文档倾斜检测的方法包括以下步骤:
(1)预处理装置10对文档图像进行预处理,得到预处理后的文档图像。
预处理包括对文档图像进行灰度调整、降噪等,预处理的目的是更好的得到二值图像。有些扫描图像噪声较大,可以利用降噪的方法去除噪声,降噪方法可选图像处理领域的Bilateral滤波器滤波。
(2)二值化处理装置11对预处理后的文档图像进行二值化处理,得到二值文档图像。
对图像进行二值化处理是图像处理领域中的常用技术,此处不再赘述。
(3)第一计算装置12计算二值文档图像中的连通域,连通域的外接矩形以及外接矩形的中心点坐标。
连通域查找技术是图像处理领域中的常用技术。例如,在二值文档图像中,如果要查找代表文字的黑像素,可以以一个黑像素点为开始,搜寻其周围8邻域的像素点,如果邻域上的像素点也为黑像素点则认为它们是一个连通域内的像素点,然后依次再计算邻域上黑像素点的邻域,最终找出一片相连的黑像素点区域,这个就是一个连通域。查找图像中其他没有计算过的位置,重复上述步骤,即可找出所有的连通域。图4所示倾斜的文档,计算所有连通域后的效果如图5所示。
对于每个连通域,其中每个像素点的x,y坐标,在一个连通域中所有的像素点计算最小和最大的x,y,即可得到该连通域的上下左右的边界坐标,即计算出了最小的外接矩形四个顶点,坐标分别为(xmin,ymin)、(xmin,ymax)、(xmax,ymin)、(xmax,ymax)。
(4)筛除装置13按照扫描的DPI信息筛除过小的连通域。
优选的,先筛除过小的连通域,这样可以进一步提高精度和适用性。
根据上一步中计算得到的连通域,可以知道每个连通域中黑像素点的数量,将黑像素点的数量定义为连通域的大小。较小的连通域可能是噪声或其他非文字结构。筛除较小的连通域有利于提高准确率。较小连通域的阈值为经验值,在300DPI下,阈值为100。
(5)第二计算装置14将连通域最小外接矩形的中心作为Hough变换计算的输入点集,在Hough变换参数空间投票,计算累积矩阵A(θ,ρ)。
Hough变换是图像处理领域中的一个常用算法,多用于直线、圆和三角形的提取。以提取直线为例,极坐标系下的直线方程为ρ=xcosθ+ysinθ,由ρ和θ两个参数决定。之所以使用余弦公式而不是斜截式公式,是为了克服斜截式在90°时斜率趋于无穷大,误差较大的问题。Hough变换空间的坐标为直线的两个参数。使用余弦公式后,在图像空间中的每个点对应于变换空间的一条余弦曲线。图像空间的每条直线对应变换空间的一个点。
如图3所示,图3a表示直线余弦公式参数示意,图3b表示图像空间的三条直线,图3c表示变换空间对应三个点,越黑代表累积值越大。
以图4所示倾斜的文档为例,累积矩阵90度附近截图如图6所示,越亮代表累积值越高。
(6)检测装置15检测累积矩阵A(θ,ρ)参数空间的极大值点,即八邻域上最亮的像素点。
图4所示倾斜的文档,累积矩阵极值点,90度附近局部放大截图如图7所示。
(7)分析装置16用于在每一个角度值上,对径向方向上的所有点做周期性分析,选择出具有一定周期性的角度值。
图4所示倾斜的文档,周期极值点,90度附近截图如图8所示。
(8)投影装置17将角度值上极大值点的累积值向角度坐标轴上投影,形成一维数据P(θ),即寻找满足下式的θ:
max(P(θ)+P(θ+90°))。
图4所示倾斜的文档,投影后的效果如图9所示。
(9)判断装置18在所述一维数据P(θ)中,检测间隔90°的累加最大的峰对。由最大峰对所在角度判断出倾斜角度,得到文档倾斜角度。
θ角度找到后,即可确定倾斜角度,倾斜的角度绝对值为|θ|,如果θ>0代表文档向顺时针方向倾斜;如果θ<0代表文档向逆时针方向倾斜。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种文档倾斜检测方法,其特征在于,包括以下步骤:
(1)对文档图像进行二值化处理,得到二值文档图像;
(2)计算二值文档图像中的连通域、所述连通域的外接矩形以及所述外接矩形的中心点坐标;
(3)将所述连通域最小外接矩形的中心作为Hough变换计算的输入点集,在Hough变换参数空间投票,计算累加矩阵A(θ,ρ);
(4)检测所述累加矩阵参数空间的极大值点;
(5)将角度值上极大值点的累积值向角度坐标轴上投影,形成一维数据P(θ);
(6)在所述一维数据P(θ)中,检测间隔90°的累加最大的峰对,由最大峰对所在角度判断出倾斜角度,得到文档倾斜角度。
2.如权利要求1所述的文档倾斜检测方法,其特征在于:所述方法在步骤(1)之前还包括对文档图像进行预处理的步骤。
3.如权利要求2所述的文档倾斜检测方法,其特征在于:所述预处理包括对所述文档图像进行降噪处理。
4.如权利要求1所述的文档倾斜检测方法,其特征在于:所述方法在步骤(2)和步骤(3)之间还包括按照扫描的DPI信息筛除过小连通域的步骤。
5.如权利要求4所述的文档倾斜检测方法,其特征在于:在300DPI下,过小连通域的阈值为100。
6.如权利要求1~5中任一项所述的文档倾斜检测方法,其特征在于:所述方法在步骤(4)和步骤(5)之间还包括如下步骤:在每一个角度值上,对径向方向上的所有点做周期性分析,选择出具有一定周期性的角度值。
7.一种文档倾斜检测系统,其特征在于:包括用于对文档图像进行二值化处理,得到二值文档图像的二值化处理装置(11);
用于计算二值图像中的连通域、连通域的外接矩形以及外接矩形中心点坐标的第一计算装置(12);
用于将所述连通域最小外接矩形的中心作为Hough变换计算的输入点集,在Hough变换参数空间投票,计算累加矩阵A(θ,ρ)的第二计算装置(14);
用于检测累加矩阵参数空间极大值点的检测装置(15);
用于将角度值上极大值点的累积值向角度坐标轴上投影,形成一维数据P(θ)的投影装置(17);
用于在一维数据P(θ)中,检测间隔90°的累加最大的峰对,由最大峰对所在角度判断出倾斜角度的判断装置(18)。
8.如权利要求7所述的文档倾斜检测系统,其特征在于:所述系统还包括用于对文档图像进行预处理的预处理装置(10)。
9.如权利要求7所述的文档倾斜检测系统,其特征在于:所述系统还包括用于按照扫描的DPI信息筛除过小连通域的筛除装置(13)。
10.如权利要求7~9中任一项所述的文档倾斜检测系统,其特征在于:所述系统还包括用于在每一个角度值上,对径向方向上的所有点做周期性分析,选择出具有一定周期性的角度值的分析装置(16)。
CN 201110404717 2011-12-08 2011-12-08 一种文档倾斜检测方法及系统 Active CN102496018B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110404717 CN102496018B (zh) 2011-12-08 2011-12-08 一种文档倾斜检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110404717 CN102496018B (zh) 2011-12-08 2011-12-08 一种文档倾斜检测方法及系统

Publications (2)

Publication Number Publication Date
CN102496018A CN102496018A (zh) 2012-06-13
CN102496018B true CN102496018B (zh) 2013-07-24

Family

ID=46187843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110404717 Active CN102496018B (zh) 2011-12-08 2011-12-08 一种文档倾斜检测方法及系统

Country Status (1)

Country Link
CN (1) CN102496018B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567732B (zh) * 2011-12-28 2013-11-06 方正国际软件有限公司 一种文档排版类型的检测方法及系统
CN103246636B (zh) * 2013-04-19 2016-05-04 厦门大学 一种汉字字形视觉重心的确定方法
CN104103047B (zh) * 2014-07-25 2017-02-08 上海理工大学 一种心电图像倾斜度校正方法
CN105989366A (zh) * 2015-01-30 2016-10-05 深圳市思路飞扬信息技术有限责任公司 文本图像的倾斜角矫正、版面分析方法和助视装置、系统
CN106991649A (zh) * 2016-01-20 2017-07-28 富士通株式会社 对摄像装置所捕获的文档图像进行校正的方法和装置
CN106780525B (zh) * 2016-11-18 2020-08-14 北方工业大学 基于坐标旋转最小外接矩形的光学遥感图像船只方向特征提取方法
CN107680046A (zh) * 2017-07-25 2018-02-09 平安科技(深圳)有限公司 影像矫正方法、装置、存储介质和计算机设备
CN107704858A (zh) * 2017-10-31 2018-02-16 上海集光安防科技股份有限公司 一种车牌倾斜角度的检测算法
CN108345881B (zh) * 2018-02-01 2021-12-21 福州大学 一种基于计算机视觉的文档质量检测方法
CN110321889A (zh) * 2019-04-23 2019-10-11 成都数之联科技有限公司 一种图片文件中插图定位提取方法及系统
CN111062264A (zh) * 2019-11-27 2020-04-24 重庆邮电大学 一种基于双通路混合卷积网络的文档对象分类方法
CN112101351B (zh) * 2020-09-07 2024-04-19 凌云光技术股份有限公司 一种基于投影的文本行旋转校正方法及装置
CN112241737B (zh) * 2020-11-12 2024-01-26 瞬联软件科技(北京)有限公司 文字图像校正方法和装置
CN112733831B (zh) * 2021-01-08 2022-04-15 南昌航空大学 一种商标检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751571A (zh) * 2009-12-28 2010-06-23 山东大学 一种实用的二值文档图像倾斜角度检测方法
CN101930594A (zh) * 2010-04-14 2010-12-29 山东山大鸥玛软件有限公司 一种扫描文档图像的快速纠偏方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101267493B (zh) * 2007-03-16 2011-01-19 富士通株式会社 透视变形文档图像的校正装置和校正方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751571A (zh) * 2009-12-28 2010-06-23 山东大学 一种实用的二值文档图像倾斜角度检测方法
CN101930594A (zh) * 2010-04-14 2010-12-29 山东山大鸥玛软件有限公司 一种扫描文档图像的快速纠偏方法

Also Published As

Publication number Publication date
CN102496018A (zh) 2012-06-13

Similar Documents

Publication Publication Date Title
CN102496018B (zh) 一种文档倾斜检测方法及系统
EP3309703B1 (en) Method and system for decoding qr code based on weighted average grey method
CN105205439B (zh) 指纹重叠区域面积的计算方法及电子装置
CN102196112B (zh) 用于检测页边界的方法和装置
CN103034848B (zh) 一种表单类型的识别方法
US8768052B2 (en) Image processing apparatus, image processing method, and non-transitory computer readable medium
US8194983B2 (en) Method and system for preprocessing an image for optical character recognition
CN111382704B (zh) 基于深度学习的车辆压线违章判断方法、装置及存储介质
CN103679638A (zh) 残缺或变形的四边形图像的校正方法
JP2016516245A (ja) モバイル装置を用いた画像内のオブジェクトの分類
JP2016517587A (ja) モバイル装置を用いて取込まれたデジタル画像におけるオブジェクトの分類
CN105488501A (zh) 基于旋转投影的车牌倾斜矫正的方法
CN104036244A (zh) 一种适用于低质量图像的棋盘格角点检测方法及装置
CN104794421A (zh) 一种qr码定位及识别方法
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN107346427A (zh) 一种身份证号码识别方法及装置
CN102750530B (zh) 一种字符识别方法及装置
CN104331695A (zh) 一种鲁棒的圆形标志符形状质量检测方法
CN103489254A (zh) 彩票的识别方法及系统
EP2536123B1 (en) Image processing method and image processing apparatus
Arulmozhi et al. Image refinement using skew angle detection and correction for Indian license plates
JP2017161969A (ja) 文字認識装置、方法およびプログラム
CN103745236A (zh) 纹理图像识别方法以及纹理图像识别装置
US9076225B2 (en) Image processing device, an image processing method and a program to be used to implement the image processing
CN103688528B (zh) 在大型扫描系统中借助图像信息探测文档的宽度和位置的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant